CN105760359B - 问句处理系统及其方法 - Google Patents
问句处理系统及其方法 Download PDFInfo
- Publication number
- CN105760359B CN105760359B CN201410782497.7A CN201410782497A CN105760359B CN 105760359 B CN105760359 B CN 105760359B CN 201410782497 A CN201410782497 A CN 201410782497A CN 105760359 B CN105760359 B CN 105760359B
- Authority
- CN
- China
- Prior art keywords
- question
- candidate
- words
- corrected
- sentence
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000012545 processing Methods 0.000 title claims abstract description 116
- 238000000034 method Methods 0.000 title claims abstract description 25
- 238000010276 construction Methods 0.000 claims description 21
- 238000012937 correction Methods 0.000 claims description 19
- 239000000284 extract Substances 0.000 claims description 12
- 238000013519 translation Methods 0.000 claims description 11
- 238000003672 processing method Methods 0.000 claims description 10
- 230000000295 complement effect Effects 0.000 claims description 9
- 238000013145 classification model Methods 0.000 claims description 6
- 238000001514 detection method Methods 0.000 claims description 4
- 241000209094 Oryza Species 0.000 description 69
- 235000007164 Oryza sativa Nutrition 0.000 description 69
- 235000009566 rice Nutrition 0.000 description 69
- 230000008569 process Effects 0.000 description 5
- 241000196324 Embryophyta Species 0.000 description 4
- 238000010586 diagram Methods 0.000 description 4
- 230000006870 function Effects 0.000 description 4
- 241001307241 Althaea Species 0.000 description 2
- 235000006576 Althaea officinalis Nutrition 0.000 description 2
- 238000004458 analytical method Methods 0.000 description 2
- 238000003066 decision tree Methods 0.000 description 2
- 238000010801 machine learning Methods 0.000 description 2
- 235000001035 marshmallow Nutrition 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 238000012706 support-vector machine Methods 0.000 description 2
- 238000013528 artificial neural network Methods 0.000 description 1
- 210000001747 pupil Anatomy 0.000 description 1
Images
Abstract
本发明公开了一种问句处理系统及其方法,问句处理系统包括一具有错字处理单元与误用词处理单元的问句建构模块以及一问句类别处理模块。错字处理单元用于检测并修正自然语言问句的错别字词或火星文,以产生一符合自然语言问句的问句意图的校正问句。误用词处理单元用于分析校正问句的至少二词组的搭配关系,并依据搭配关系修正校正问句的误用字词以产生至少一符合问句意图的候选问句。问句类别处理模块用于分析候选问句以产生问句类别。由此,本发明可具备良好的容错能力。
Description
技术领域
本发明涉及一种问句处理系统及其方法,特别是指一种具备容错能力的问句处理系统及其方法。
背景技术
现有技术的搜索引擎或问答系统中,由于其不具备问句容错能力,因此当使用者输入含有错别字词、火星文(Martian language)、误用字词或缺漏字词的自然语言问句时,可能会造成该搜索引擎或问答系统误判该自然语言问句的问句意图,因而回复错误的答案给该使用者。
图1A至图1C分别表示现有技术中含有火星文、音似的错别字词与形似的错别字词的自然语言问句的表单。图中,这些自然语言问句中含有许多不恰当的用语(以底线_标示),例如图1A所示的火星文(如注音文),或者图1B所示音似的错别字词,亦或者图1C所示形似的错别字词,这些火星文或错别字词将明显地降低搜索引擎或问答系统对该自然语言问句的回复答案的正确率。
图2A至图2G分别表示现有技术中以搜索引擎或自动问答系统提供含有关键词组11、错别字词13、火星文14或误用字词15的自然语言问句的答案的网页。
在图2A的搜索引擎(如Google)中,该搜索引擎对于例如中文的自然语言问句“日本战岭台湾几年”,虽可将关键词组11“战岭”修正为关键词组12“占领”,并直接以“日本占领台湾几年”进行搜索,但仍无法搜索到有关“几年”的正确答案。
在图2B的搜索引擎(如Google)中,该搜索引擎对于例如中文的自然语言问句“杨传广是那一足的”,并无法将错别字词13“那一足的”进行修正,以致无法搜索到适当的答案。
而在图2C的搜索引擎(如Google)中,该搜索引擎对于例如中文的自然语言问句“郑成功的丩ㄩ`点?”,也无法将火星文14(如注音文)“丩ㄩ`”进行修正,因而无法搜索到正确的答案。
又在图2D的搜索引擎(如Google)中,该搜索引擎对于例如英文的自然语言问句“rice plented”,虽可将关键词组11“rice plented”修正为“rice planted”以进行搜索,但仍无法搜索到适当的答案。
另在图2E的搜索引擎(如Google)中,该搜索引擎对于例如英文的自然语言问句“whom is chinesetaiwanleader”,虽可直接以“who”代替关键词组11“whom”进行搜索,但仍无法搜索到正确的答案。
而在图2F的自动问答系统(如WorframAlpha)中,该自动问答系统对于例如英文的自然语言问句“where does rice live”,并无法将误用字词15“rice live”进行修正,以致回复错误的答案16。
又在图2G的自动问答系统(如WorframAlpha)中,该自动问答系统对于例如英文的自然语言问句“Where is the Chinese Taiwan Leader”,也无法将误用字词15“Where”进行修正,因而回复错误的答案16。
因此,如何克服上述现有技术的问题,实已成目前亟需解决的课题。
发明内容
本发明提供一种问句处理系统及其方法,其可具备良好的容错能力,以提高对自然语言问句的回复答案的正确率。
本发明的问句处理系统应用于具有处理器、存储器与作业系统的电子装置中,且该问句处理系统包括一具有错字处理单元与误用词处理单元的问句建构模块以及一问句类别处理模块。该错字处理单元用于检测并修正自然语言问句的错别字词或火星文,以产生一符合该自然语言问句的问句意图的校正问句。该误用词处理单元用于分析该校正问句的至少二词组的搭配关系,并依据该搭配关系修正该校正问句的误用字词以产生至少一符合该问句意图的候选问句。该问句类别处理模块用于分析该候选问句以产生该候选问句的问句类别。
本发明的问句处理方法应用于具有处理器、存储器与作业系统的电子装置中,且该问句处理方法包括:检测并修正自然语言问句的错别字词或火星文,以产生一符合该自然语言问句的问句意图的校正问句;分析该校正问句的至少二词组的搭配关系,并依据该搭配关系修正该校正问句的误用字词以产生至少一符合该问句意图的候选问句;以及分析该候选问句以产生该候选问句的问句类别。
上述的问句处理系统及其方法中,可以缺漏词处理单元分析该候选问句的缺漏字词,并自语料库或同义/近义词库中撷取至少一搭配词以补足该校正问句的缺漏字词而产生该候选问句。
由上述内容可知,本发明的问句处理系统及其方法中,主要是通过问句建构模块的错字处理单元、误用词处理单元与缺漏词处理单元,以分别修正自然语言问句的错别字词、火星文、误用字词及缺漏字词,并通过问句类别处理模块分析该自然语言问句的问句类别。
由此,本发明能具备良好的容错能力,以容忍该自然语言问句的错别字词、火星文、误用字词及缺漏字词,并降低对该自然语言问句的问句意图的分析错误所造成的影响,进而提高对该自然语言问句的回复答案的正确率。
附图说明
图1A至图1C分别表示现有技术中含有火星文、音似的错别字词与形似的错别字词的自然语言问句的表单;
图2A至图2G分别表示现有技术中以搜索引擎搜索或自动问答系统提供含有关键词组、错别字词、火星文或误用字词的自然语言问句的答案的网页;
图3表示本发明的问句处理系统的方框结构示意图;
图4表示本发明的问句处理方法的流程示意图;
图5表示本发明的问句处理系统及其方法的实施例示意图。
符号说明:
11、12 关键词组;
13 错别字词;
14 火星文;
15 误用字词;
16 答案;
2 问句处理系统;
20 使用者界面;
21 问句建构模块;
211 错字处理单元;
211a 翻译模型;
211b 语言模型;
212 误用词处理单元;
213 缺漏词处理单元;
214 关键词组撷取单元;
22 问句类别处理模块;
23 语料库;
24 同义/近义词库;
25 知识库;
26 段落检索模块;
261 文件;
262 段落;
27 答案处理模块;
271 答案;
41 自然语言问句;
42 候选问句;
43、44 关键词组;
S31至S36 步骤。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚明白,以下结合具体实施例,并参照附图,对本发明作进一步的详细说明。
图3表示本发明的问句处理系统2的方框结构示意图。如图所示,问句处理系统2可应用于具有处理器、存储器与作业系统的电子装置中,且该问句处理系统2主要包括一使用者界面(User Interface,UI)20、一具有错字处理单元211与误用词处理单元212的问句建构模块21、以及一问句类别处理模块22。该电子装置可为个人电脑、平板电脑、笔记本电脑、网络服务器、云端服务器、移动电话或智能手机等。
该使用者界面20用于供使用者输入自然语言问句,且该自然语言问句可为中文、英文或各种的语言。该错字处理单元211用于检测并修正该自然语言问句的错别字词或火星文,以产生一符合该自然语言问句的问句意图的校正问句。
具体而言,该错字处理单元211可依据错别字检测法或火星文转译法,以检测并修正该自然语言问句的错别字词或火星文,且该错字处理单元211可具有翻译模型211a与语言模型(Language Model)211b。
该翻译模型211a用于提供该自然语言问句的错别字词或火星文的修正资料,例如:(1)音似或形似的错误字、(2)词组的字汇的特征值(如同偏旁、同字首、部首差别、部首笔划差、偏旁笔划差、注音差或调号差)、(3)易混淆字汇(如躁vs.燥)。
此外,该语言模型211b用于依据该修正资料修正该自然语言问句的错别字词或火星文以产生该校正问句,且该语言模型211b可为以n-连词为基础的统计式语言模型(Statistical Language Model,SLM)、或基于神经网络语言模型(Neural Network-basedLanguage Modeling,NNLM)等。该语言模型211b可具有解码单元(decoder)以转换一个中文字、一个注音符号或一串完整的注音符号至原字、音似/形似字或注音的对应字。
上述的错别字词例如可以为现有技术图1B所示音似的错别字词、或图1C所示形似的错别字词,且该错别字词可为该自然语言问句的疑问词(question words)或功能词(function words)等,该功能词可为限定词(如这、一只、我的)、代名词(如你、我、他)、前置词/介系词/后置词(如上、下、为了)、或连接词(如和、或、如果)等。该火星文可例如为现有技术图1A所示的注音文,也可为表情符号(如*、#、!)等。
举例来说,在例如中文的自然语言问句中,该错字处理单元211可检测使用者所输入的自然语言问句“水稻住在舍么”的错别字词“舍”与火星文并依据该自然语言问句的问句意图将“舍”与分别修正为正确字词“什”与“地”,也就是将该自然语言问句“水稻住在舍么”修正为校正问句“水稻住在什么地”。
该误用词处理单元212用于分析该校正问句的至少二词组的搭配关系,并依据该搭配关系修正该校正问句的误用字词以产生至少一符合该问句意图的候选问句。
具体地说,该误用词处理单元212用于分析该问句意图与该校正问句的至少二词组的语境(context)是否冲突,并于发生冲突时依据该语境且自语料库23或同义/近义词库24中撷取至少一第一搭配词,以利用该第一搭配词修正该校正问句的误用字词而产生该候选问句,使得该候选问句的词组的语境不具有冲突且符合该问句意图。
例如,该误用词处理单元212分析出该校正问句“水稻住在什么地”中,三个词组“水稻”、“住”与“地”的搭配关系较差并具有冲突性,因“水稻”通常不与“住”共用在同一问句中,而且该词组“住”应为误用字词,故该误用词处理单元212可依据该三个词组的搭配关系以撷取至少一第一搭配词“种植”或“栽种”来修正该词组“住”,也就是将该校正问句“水稻住在什么地”修正为符合陔问句意图的候选问句“水稻种植在什么地”或“水稻栽植在什么地”……,等等。
该问句类别处理模块22用于分析该候选问句以产生该候选问句的问句类别,且该问句类别可为人、事、时、地、物、数量、质量、速度、高度、尺寸、……、等各种类型或种类。
该问句建构模块21也可具有缺漏词处理单元213,用于分析该候选问句的缺漏字词,并自该语料库23或同义/近义词库24中撷取至少一第二搭配词,以利用该第二搭配词补足该校正问句的缺漏字词而产生该候选问句,使得该候选问句的词组的语境完整且符合该问句意图。
例如,该缺漏词处理单元213分析出该候选问句“水稻种植在什么地”或“水稻栽植在什么地”中,“地”应为“地方”或“地区”之意,则该缺漏词处理单元213撷取至少一第二搭配词“地方”或“地区”以修正“地”并加上问号“?”,以便补足该校正问句的缺漏字词而产生完整的候选问句,也就是将该候选问句“水稻种植在什么地”或“水稻栽植在什么地”修正为“水稻种植在什么地方?”、“水稻种植在什么地区?”、“水稻栽植在什么地方?”或“水稻栽植在什么地区?”等等。
上述至少一候选问句可为多个最优先的候选问句,且该问句类别处理模块22可依据问句分类模型与知识库25,以分析这些最优先的候选问句而产生这些最优先的候选问句的问句类别。
该问句分类模型可包括混合分类法(hybrid approaches)、正规表示规则(regular expression rule)、机器学习分类器(classifier for machine learning)、支持向量机(support vector machine,SVM)、最大熵函数分类器(Maximum Entropyclassifier)、或决策树分类器(decision tree classifier)等。
该知识库25可提供对应这些最优先的候选问句的问句类别的资料,例如:最优先的候选问句为“至圣先师是哪一位?”,则该知识库25提供该问句类别为“人”。该知识库25也可提供对应这些最优先的候选问句的问句类别的规则,例如:假如“有”字后面或前面接“哪些人”、“哪位”或“哪几位”,则该知识库25提供该问句类别为“人”;或者,假如“要”字后面接“多久”,则该知识库25提供该问句类别为“时”。
该问句类别处理模块22可依据这些最优先的候选问句的可信度重新排序这些最优先的候选问句,并自这些最优先的候选问句中撷取超过预定的可信度阈值且具有最高可信度者作为第一优先的候选问句。
例如,该问句类别处理模块22可重新排序上述的候选问句“水稻种植在什么地方?”、“水稻种植在什么地区?”、“水稻栽植在什么地方?”与“水稻栽植在什么地区?”,并以“水稻栽植在什么地区?”作为该第一优先的候选问句。
该问句建构模块21可具有关键词组撷取单元214,用于依据该第一优先的候选问句产生至少一关键词组或一问句建构结果。例如,该关键词组撷取单元214可自该第一优先的候选问句“水稻栽植在什么地区?”中产生三个关键词组“水稻”、“栽种”及“地区”,或者产生一个问句建构结果“水稻栽种地区”。
该问句处理系统2可包括段落检索模块26与答案处理模块27,该段落检索模块26用于自至少一文件261中撷取符合该第一优先的候选问句的关键词组或问句建构结果的段落262,而该答案处理模块27用于自该段落262中撷取符合该第一优先的候选问句的问句类别的答案271,以将该答案271(或包括该段落262)显示于该使用者界面20。
图4表示本发明的问句处理方法的流程示意图,图5表示本发明的问句处理系统2及其方法的实施例示意图,请一并参阅上述图3的问句处理系统2。
本发明的问句处理方法可应用于具有处理器、存储器与作业系统的电子装置中,且该电子装置可为个人电脑、平板电脑、笔记本电脑、网络服务器、云端服务器、移动电话或智能手机等。同时,本发明的问句处理方法主要包括下列步骤:
(2)如图4的步骤S32所示,由问句建构模块21的错字处理单元211检测并修正该自然语言问句41的错别字词或火星文,以产生一符合该自然语言问句41的问句意图的校正问句。
具体而言,陔错字处理单元211可依据错别字检测法或火星文转译法,以检测并修正该自然语言问句41的错别字词或火星文。同时,该错字处理单元211可具有翻译模型211a与语言模型211b,该翻译模型211a用于提供该自然语言问句41的错别字词或火星文的修正资料,且该语言模型211b用于依据该修正资料修正该自然语言问句41的错别字词或火星文以产生该校正问句。
例如,该错字处理单元211可检测该自然语言问句“水稻住在舍么”的错别字词“舍”与火星文并依据该自然语言问句41的问句意图将“舍”与分别修正为正确字词“什”与“地”,也就是将该自然语言问句“水稻住在舍么”修正为校正问句“水稻住在什么地”。接着,跳到步骤S33。
(3)如图4的步骤S33所示,由该问句建构模块21的误用词处理单元212分析该校正问句的至少二词组的搭配关系,并依据该搭配关系修正该校正问句的误用字词。同时,可由该问句建构模块21的缺漏词处理单元213补足该校正问句的缺漏字词而产生一或多个最优先的候选问句。
具体来说,该误用词处理单元212用于分析该问句意图与该校正问句的至少二词组的语境是否冲突,并于发生冲突时依据该语境自语料库23或同义/近义词库24中撷取至少一第一搭配词,以利用该第一搭配词修正该校正问句的误用字词而产生该候选问句,使得该候选问句的词组的语境不具有冲突且符合该问句意图。
例如,该误用词处理单元212分析出该校正问句“水稻住在什么地”中,三个词组“水稻”、“住”与“地”的搭配关系较差并具有冲突性,因“水稻”通常不与“住”共用在同一问句中,而且该词组“住”应为误用字词,故该误用词处理单元212可依据该三个词组的搭配关系,以撷取至少一第一搭配词“种植”或“栽种”来修正该词组“住”,也就是将校正问句“水稻住在什么地”修正为符合该问句意图的候选问句“水稻种植在什么地”或“水稻栽植在什么地”等等。
而该缺漏词处理单元213用于分析该候选问句的缺漏字词,并自该语料库23或同义/近义词库24中撷取至少一第二搭配词,以利用该第二搭配词补足该校正问句的缺漏字词而产生该候选问句,使得陔候选问句的词组的语境完整且符合该问句意图。
例如,该缺漏词处理单元213分析出该候选问句“水稻种植在什么地”或“水稻栽植在什么地”中,“地”应为“地方”或“地区”之意,则该缺漏词处理单元213撷取至少一第二搭配词“地方”或“地区”修正“地”并加上问号“?”,藉以补足该校正问句的缺漏字词而产生完整的候选问句,也就是将该候选问句“水稻种植在什么地”或“水稻栽植在什么地”修正为“水稻种植在什么地方?”、“水稻种植在什么地区?”、“水稻栽植在什么地方?”或“水稻栽植在什么地区?”等等。接着,跳到步骤S34。
(4)如图4的步骤S34所示,由问句类别处理模块22依据问句分类模型与知识库25分析这些最优先的候选问句以产生这些最优先的候选问句的问句类别。
另外,可由该问句类别处理模块22依据这些最优先的候选问句的可信度重新排序这些最优先的候选问句,并自这些最优先的候选问句中撷取超过预定的可信度阈值且具有最高可信度者作为第一优先的候选问句。
例如,该问句类别处理模块22可重新排序上述的候选问句“水稻种植在什么地方?”、“水稻种植在什么地区?”、“水稻栽植在什么地方?”与“水稻栽植在什么地区?”,并以“水稻栽植在什么地区?”作为该第一优先的候选问句,如图5所示“我猜你想问‘水稻栽植在什么地区?’”的候选问句42“水稻栽植在什么地区?”。接着,跳到步骤S35。
(5)如图4的步骤S35所示,由该问句建构模块21的关键词组撷取单元214依据该第一优先的候选问句产生至少一关键词组或一问句建构结果。例如,自该第一优先的候选问句“水稻栽植在什么地区?”中,产生如图5所示的关键词组43“稻”及关键词组44“栽种”等,或者产生一个问句建构结果“水稻栽植地区”。接着,跳到步骤S36。
(6)如图4的步骤S36所示,由段落检索模块26自至少一文件261中撷取符合该第一优先的候选问句的关键词组或问句建构结果的段落262,并由答案处理模块27自该段落262中撷取符合该第一优先的候选问句的问句类别的答案271,以将该答案271(或包括陔段落262)显示于该使用者界面20上。
例如,自图5所示维基百科的文件中撷取符合关键词组43“稻”及关键词组44“栽种”的段落,并将答案“水稻在中国大陆广为栽种后,逐渐向西传播到印度,中世纪引入欧洲南部,现时全世界有一半的人口食用水稻,主要在亚洲、欧洲南部和中美洲及非洲部分地区”显示于该使用者界面20上。而且,该答案可以是上述的一个段落,也可以是一个简单答案,如“中国大陆”。
同理,在例如英文的自然语言问句中,一样可以采用上述图3的问句处理系统2与图4的问句处理方法,下面以一个例子简单说明之。
(1)如同上述图3与图4的步骤S31所示,由使用者自使用者界面20输入自然语言问句41“What does rice live?”,并由该问句处理系统2接收该自然语言问句41。
(2)如同上述图3与图4的步骤S32所示,由问句建构模块21的错字处理单元211检测并修正该自然语言问句41“What does rice live?”的错别字词或火星文,以产生一符合该自然语言问句41的问句意图的校正问句。
因该错字处理单元211并未检测到该自然语言问句41“What does rice live?”中含有错别字词或火星文,也符合该自然语言问句41的问句意图,故可直接以该自然语言问句41作为该校正问句“What does rice live?”。
(3)如同上述图3与图4的步骤S33所示,由该问句建构模块21的误用词处理单元212分析该校正问句的至少二词组“Where”、“does”及“live”的搭配关系,并依据该搭配关系修正该校正问句的误用字词“live”为正确字词“grown”或“planted”。
同时,可由该问句建构模块21的缺漏词处理单元213补足该校正问句的缺漏字词而产生一或多个最优先的候选问句。因该校正问句“What does rice live?”中并未含有缺漏字词,故该缺漏词处理单元213可直接产生一或多个最优先的候选问句,例如该候选问句为“where does rice grown?”与“where is rice planted?”。
(4)如同上述图3与图4的步骤S34所示,由问句类别处理模块22依据问句分类模型与知识库25分析这些最优先的候选问句,以产生这些最优先的候选问句的问句类别,例如该问句类别为“where”。
另外,可由该问句类别处理模块22依据这些最优先的候选问句的可信度重新排序这些最优先的候选问句,并自这些最优先的候选问句中撷取超过预定的可信度阈值且具有最高可信度者作为第一优先的候选问句,例如该第一优先的候选问句为“where does ricegrown?”。
(5)如同上述图3与图4的步骤S35所示,由该问句建构模块21的关键词组撷取单元214依据该第一优先的候选问句产生至少一关键词组或一问句建构结果,例如该关键词组为“where”、“rice”及“grown”,或者该问句建构结果为“where rice grown”。
(6)如同上述图3与图4的步骤S36所示,由段落检索模块26自至少一文件261中撷取符合该第一优先的候选问句的关键词组或问句建构结果的段落262,并由答案处理模块27自该段落262中撷取符合第一优先的候选问句的问句类别的答案271,以将该答案271(或包括该段落262)显示于该使用者界面20上。
由上述内容可知,本发明的问句处理系统及其方法中,主要是通过问句建构模块的错字处理单元、误用词处理单元与缺漏词处理单元,以分别修正自然语言问句的错别字词、火星文、误用字词及缺漏字词,并通过问句类别处理模块分析该自然语言问句的问句类别。
由此,本发明能具备良好的容错能力,以容忍该自然语言问句的错别字词、火星文、误用字词及缺漏字词,并降低对该自然语言问句的问句意图的分析错误所造成的影响,进而提高对该自然语言问句的回复答案的正确率。
以上所述的具体实施例,对本发明的目的、技术方案和有益效果进行了进一步详细说明,应理解的是,以上所述仅为本发明的具体实施例而已,并不用于限制本发明,凡在本发明的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
Claims (17)
1.一种问句处理系统,应用于具有处理器、存储器与作业系统的电子装置中,其特征为,该问句处理系统包括:
问句建构模块,其具有:
错字处理单元,用于检测并修正自然语言问句的错别字词或火星文,以产生一符合该自然语言问句的问句意图的校正问句;以及
误用词处理单元,用于分析该错字处理单元所产生的符合该自然语言问句的问句意图的校正问句的至少二词组的搭配关系,并依据该校正问句的至少二词组的搭配关系修正该校正问句的误用字词以产生至少一符合该问句意图的候选问句,其中,该误用词处理单元分析该问句意图与该校正问句的至少二词组的语境是否冲突,并于发生冲突时依据该校正问句的至少二词组的语境自语料库或同义/近义词库中撷取至少一第一搭配词,以利用该第一搭配词修正该校正问句的误用字词而产生该候选问句,使得该候选问句的词组的语境不具有冲突且符合该问句意图;以及
问句类别处理模块,用于分析该误用词处理单元依据该校正问句的至少二词组的搭配关系修正该校正问句的误用字词所产生的该候选问句以产生该候选问句的问句类别。
2.如权利要求1所述的问句处理系统,其特征为,该系统更包括使用者界面,用于供使用者输入该自然语言问句。
3.如权利要求1所述的问句处理系统,其特征为,该错字处理单元用于依据错别字检测法或火星文转译法,以检测并修正该自然语言问句的错别字词或火星文。
4.如权利要求1所述的问句处理系统,其特征为,该错字处理单元具有翻译模型与语言模型,该翻译模型用于提供该自然语言问句的错别字词或火星文的修正资料,该语言模型用于依据该修正资料修正该自然语言问句的错别字词或火星文以产生该校正问句。
5.如权利要求1所述的问句处理系统,其特征为,该问句建构模块更具有缺漏词处理单元,用于分析该候选问句的缺漏字词,并自语料库或同义/近义词库中撷取至少一第二搭配词以补足该校正问句的缺漏字词而产生该候选问句。
6.如权利要求1所述的问句处理系统,其特征为,该至少一候选问句为多个最优先的候选问句,该问句类别处理模块用于借助问句分类模型与知识库分析这些最优先的候选问句而产生这些最优先的候选问句的问句类别。
7.如权利要求6所述的问句处理系统,其特征为,该问句类别处理模块更依据这些最优先的候选问句的可信度重新排序这些最优先的候选问句,并自这些最优先的候选问句中撷取具有最高可信度者作为第一优先的候选问句。
8.如权利要求7所述的问句处理系统,其特征为,该问句建构模块更具有关键词组撷取单元,用于依据该第一优先的候选问句产生至少一关键词组或一问句建构结果。
9.如权利要求8所述的问句处理系统,其特征为,该系统更包括段落检索模块与答案处理模块,该段落检索模块用于自文件中撷取符合该第一优先的候选问句的关键词组或问句建构结果的段落,该答案处理模块用于自该段落中撷取符合该第一优先的候选问句的问句类别的答案。
10.一种问句处理方法,应用于具有处理器、存储器与作业系统的电子装置中,该问句处理方法包括:
由错字处理单元检测并修正自然语言问句的错别字词或火星文,以产生一符合该自然语言问句的问句意图的校正问句;
由误用词处理单元分析该错字处理单元所产生的符合该自然语言问句的问句意图的校正问句的至少二词组的搭配关系,并依据该校正问句的至少二词组的搭配关系修正该校正问句的误用字词以产生至少一符合该问句意图的候选问句,其中,该误用词处理单元分析该问句意图与该校正问句的至少二词组的语境是否冲突,并于发生冲突时依据该校正问句的至少二词组的语境自语料库或同义/近义词库中撷取至少一第一搭配词,以利用该第一搭配词修正该校正问句的误用字词而产生该候选问句,使得该候选问句的词组的语境不具有冲突且符合该问句意图;以及
由问句类别处理模块分析该误用词处理单元依据该校正问句的至少二词组的搭配关系修正该校正问句的误用字词所产生的该候选问句以产生该候选问句的问句类别。
11.如权利要求10所述的问句处理方法,其特征为,该方法更包括依据错别字检测法或火星文转译法以检测并修正该自然语言问句的错别字词或火星文。
12.如权利要求10所述的问句处理方法,其特征为,该方法更包括提供该自然语言问句的错别字词或火星文的修正资料,并依据该修正资料修正该自然语言问句的错别字词或火星文以产生该校正问句。
13.如权利要求10所述的问句处理方法,其特征为,该方法更包括分析该候选问句的缺漏字词,并自语料库或同义/近义词库中撷取至少一第二搭配词以补足该校正问句的缺漏字词而产生该候选问句。
14.如权利要求10所述的问句处理方法,其特征为,该至少一候选问句包括多个最优先的候选问句,以藉由问句分类模型与知识库分析这些最优先的候选问句而产生这些最优先的候选问句的问句类别。
15.如权利要求14所述的问句处理方法,其特征为,该方法更包括依据这些最优先的候选问句的可信度重新排序这些最优先的候选问句,并自这些最优先的候选问句中撷取具有最高可信度者作为第一优先的候选问句。
16.如权利要求15所述的问句处理方法,其特征为,该方法更包括依据该第一优先的候选问句产生至少一关键词组或一问句建构结果。
17.如权利要求16所述的问句处理方法,其特征为,该方法更包括自文件中撷取符合该第一优先的候选问句的关键词组或问句建构结果的段落,并自该段落中撷取符合该第一优先的候选问句的问句类别的答案。
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
TW103140400A TWI553491B (zh) | 2014-11-21 | 2014-11-21 | 問句處理系統及其方法 |
TW103140400 | 2014-11-21 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN105760359A CN105760359A (zh) | 2016-07-13 |
CN105760359B true CN105760359B (zh) | 2020-03-20 |
Family
ID=56335582
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201410782497.7A Active CN105760359B (zh) | 2014-11-21 | 2014-12-17 | 问句处理系统及其方法 |
Country Status (2)
Country | Link |
---|---|
CN (1) | CN105760359B (zh) |
TW (1) | TWI553491B (zh) |
Families Citing this family (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP6819990B2 (ja) * | 2016-08-16 | 2021-01-27 | 国立研究開発法人情報通信研究機構 | 対話システム及びそのためのコンピュータプログラム |
CN106776501A (zh) * | 2016-12-13 | 2017-05-31 | 深圳爱拼信息科技有限公司 | 一种文本错别字自动更正方法和服务器 |
CN108573696B (zh) * | 2017-03-10 | 2021-03-30 | 北京搜狗科技发展有限公司 | 一种语音识别方法、装置及设备 |
CN107688608A (zh) * | 2017-07-28 | 2018-02-13 | 合肥美的智能科技有限公司 | 智能语音问答方法、装置、计算机设备和可读存储介质 |
TWI678686B (zh) * | 2018-08-23 | 2019-12-01 | 國立臺灣師範大學 | 互動式教育方法及教學電子裝置 |
CN110598222B (zh) * | 2019-09-12 | 2023-05-30 | 北京金山数字娱乐科技有限公司 | 语言处理方法及装置、语言处理系统的训练方法及装置 |
JP7264115B2 (ja) * | 2020-05-28 | 2023-04-25 | Jfeスチール株式会社 | 情報検索システム |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1928864A (zh) * | 2006-09-22 | 2007-03-14 | 浙江大学 | 一种基于问答库的中文自然语言问答方法 |
CN101206673A (zh) * | 2007-12-25 | 2008-06-25 | 北京科文书业信息技术有限公司 | 网络搜索过程中关键词的智能纠错系统及方法 |
CN101373532A (zh) * | 2008-07-10 | 2009-02-25 | 昆明理工大学 | 旅游领域faq中文问答系统实现方法 |
CN101414310A (zh) * | 2008-10-17 | 2009-04-22 | 山西大学 | 一种自然语言搜索的方法和装置 |
CN101630312A (zh) * | 2009-08-19 | 2010-01-20 | 腾讯科技(深圳)有限公司 | 一种用于问答平台中问句的聚类方法及系统 |
CN101847140A (zh) * | 2009-03-23 | 2010-09-29 | 中国科学院计算技术研究所 | 一种错别字符处理方法和系统 |
CN102737042A (zh) * | 2011-04-08 | 2012-10-17 | 北京百度网讯科技有限公司 | 建立问句生成模型的方法和装置以及问句生成方法和装置 |
Family Cites Families (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH10269204A (ja) * | 1997-03-28 | 1998-10-09 | Matsushita Electric Ind Co Ltd | 中国語文書自動校正方法及びその装置 |
CN1228565A (zh) * | 1997-07-18 | 1999-09-15 | 睿扬资讯股份有限公司 | 电脑文档自动检错、改错装置及方法 |
CN1442787A (zh) * | 2002-03-01 | 2003-09-17 | 何万贯 | 作文修改写作系统 |
JP2004127003A (ja) * | 2002-10-03 | 2004-04-22 | Nippon Telegr & Teleph Corp <Ntt> | 質問応答方法、質問応答装置、質問応答プログラム及び記録媒体 |
JP4039282B2 (ja) * | 2003-03-17 | 2008-01-30 | 富士ゼロックス株式会社 | 自然言語処理システム及び自然言語処理方法、並びにコンピュータ・プログラム |
TWI226560B (en) * | 2003-12-31 | 2005-01-11 | Lin Guei Mei | Information system with natural language parsing ability and processing method thereof |
US7254774B2 (en) * | 2004-03-16 | 2007-08-07 | Microsoft Corporation | Systems and methods for improved spell checking |
CN101287228A (zh) * | 2008-05-26 | 2008-10-15 | 北京捷讯畅达科技发展有限公司 | 应用于手机短信查询的拼音纠错技术及装置 |
CN101287229A (zh) * | 2008-05-26 | 2008-10-15 | 北京捷讯畅达科技发展有限公司 | 应用于手机短信查询的自然语言处理技术及装置 |
CN101727271B (zh) * | 2008-10-22 | 2012-11-14 | 北京搜狗科技发展有限公司 | 一种提供纠错提示的方法、装置及输入法系统 |
CN102456001B (zh) * | 2010-10-27 | 2014-11-26 | 北京四维图新科技股份有限公司 | 错别字的检查方法和装置 |
CN103927329B (zh) * | 2014-03-19 | 2017-03-29 | 北京奇虎科技有限公司 | 一种即时搜索方法和系统 |
-
2014
- 2014-11-21 TW TW103140400A patent/TWI553491B/zh active
- 2014-12-17 CN CN201410782497.7A patent/CN105760359B/zh active Active
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1928864A (zh) * | 2006-09-22 | 2007-03-14 | 浙江大学 | 一种基于问答库的中文自然语言问答方法 |
CN101206673A (zh) * | 2007-12-25 | 2008-06-25 | 北京科文书业信息技术有限公司 | 网络搜索过程中关键词的智能纠错系统及方法 |
CN101373532A (zh) * | 2008-07-10 | 2009-02-25 | 昆明理工大学 | 旅游领域faq中文问答系统实现方法 |
CN101414310A (zh) * | 2008-10-17 | 2009-04-22 | 山西大学 | 一种自然语言搜索的方法和装置 |
CN101847140A (zh) * | 2009-03-23 | 2010-09-29 | 中国科学院计算技术研究所 | 一种错别字符处理方法和系统 |
CN101630312A (zh) * | 2009-08-19 | 2010-01-20 | 腾讯科技(深圳)有限公司 | 一种用于问答平台中问句的聚类方法及系统 |
CN102737042A (zh) * | 2011-04-08 | 2012-10-17 | 北京百度网讯科技有限公司 | 建立问句生成模型的方法和装置以及问句生成方法和装置 |
Also Published As
Publication number | Publication date |
---|---|
TW201619850A (zh) | 2016-06-01 |
CN105760359A (zh) | 2016-07-13 |
TWI553491B (zh) | 2016-10-11 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN105760359B (zh) | 问句处理系统及其方法 | |
CN106537370B (zh) | 在存在来源和翻译错误的情况下对命名实体鲁棒标记的方法和系统 | |
CN107436864B (zh) | 一种基于Word2Vec的中文问答语义相似度计算方法 | |
Derczynski et al. | Microblog-genre noise and impact on semantic annotation accuracy | |
CN104636466B (zh) | 一种面向开放网页的实体属性抽取方法和系统 | |
CN103324621B (zh) | 一种泰语文本拼写纠正方法及装置 | |
US20180173694A1 (en) | Methods and computer systems for named entity verification, named entity verification model training, and phrase expansion | |
US8515731B1 (en) | Synonym verification | |
KR101509727B1 (ko) | 자율학습 정렬 기반의 정렬 코퍼스 생성 장치 및 그 방법과, 정렬 코퍼스를 사용한 파괴 표현 형태소 분석 장치 및 그 형태소 분석 방법 | |
CN103678684A (zh) | 一种基于导航信息检索的中文分词方法 | |
US20180157646A1 (en) | Command transformation method and system | |
CN107133212B (zh) | 一种基于集成学习和词句综合信息的文本蕴涵识别方法 | |
US20140289238A1 (en) | Document creation support apparatus, method and program | |
US20140380169A1 (en) | Language input method editor to disambiguate ambiguous phrases via diacriticization | |
WO2017166626A1 (zh) | 归一化方法、装置和电子设备 | |
GB2575580A (en) | Supporting interactive text mining process with natural language dialog | |
CN104007836A (zh) | 一种手写字输入的处理方法及终端设备 | |
CN109213998A (zh) | 中文错字检测方法及系统 | |
Xiong et al. | HANSpeller: a unified framework for Chinese spelling correction | |
KR20230061001A (ko) | 문서 교정 장치 및 방법 | |
CN112231537A (zh) | 基于深度学习和网络爬虫的智能阅读系统 | |
US11379527B2 (en) | Sibling search queries | |
Singh et al. | Review of real-word error detection and correction methods in text documents | |
CN102609410A (zh) | 规范文档辅助写作系统及规范文档生成方法 | |
Muhamad et al. | Proposal: A hybrid dictionary modelling approach for malay tweet normalization |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |