CN105760359A - 问句处理系统及其方法 - Google Patents
问句处理系统及其方法 Download PDFInfo
- Publication number
- CN105760359A CN105760359A CN201410782497.7A CN201410782497A CN105760359A CN 105760359 A CN105760359 A CN 105760359A CN 201410782497 A CN201410782497 A CN 201410782497A CN 105760359 A CN105760359 A CN 105760359A
- Authority
- CN
- China
- Prior art keywords
- question sentence
- question
- candidate
- word
- sentence
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000012545 processing Methods 0.000 title claims abstract description 110
- 238000000034 method Methods 0.000 title claims abstract description 29
- 238000012937 correction Methods 0.000 claims description 66
- 238000003672 processing method Methods 0.000 claims description 16
- 238000010276 construction Methods 0.000 claims description 13
- 238000013519 translation Methods 0.000 claims description 8
- 238000013145 classification model Methods 0.000 claims description 6
- 238000001514 detection method Methods 0.000 claims description 5
- 230000008569 process Effects 0.000 claims description 5
- 230000005611 electricity Effects 0.000 claims description 2
- 238000004458 analytical method Methods 0.000 claims 2
- 235000007164 Oryza sativa Nutrition 0.000 description 71
- 241000209094 Oryza Species 0.000 description 54
- 235000009566 rice Nutrition 0.000 description 54
- 240000007594 Oryza sativa Species 0.000 description 17
- 238000010586 diagram Methods 0.000 description 5
- 230000006870 function Effects 0.000 description 4
- 238000009434 installation Methods 0.000 description 3
- 238000003066 decision tree Methods 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 238000010801 machine learning Methods 0.000 description 2
- 238000012706 support-vector machine Methods 0.000 description 2
- 241000039077 Copula Species 0.000 description 1
- 241000219000 Populus Species 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 238000013528 artificial neural network Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 235000013399 edible fruits Nutrition 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 239000000463 material Substances 0.000 description 1
- 210000001747 pupil Anatomy 0.000 description 1
- 235000002020 sage Nutrition 0.000 description 1
- XLYOFNOQVPJJNP-UHFFFAOYSA-N water Substances O XLYOFNOQVPJJNP-UHFFFAOYSA-N 0.000 description 1
Landscapes
- Machine Translation (AREA)
Abstract
本发明公开了一种问句处理系统及其方法,问句处理系统包括一具有错字处理单元与误用词处理单元的问句建构模块以及一问句类别处理模块。错字处理单元用于检测并修正自然语言问句的错别字词或火星文,以产生一符合自然语言问句的问句意图的校正问句。误用词处理单元用于分析校正问句的至少二词组的搭配关系,并依据搭配关系修正校正问句的误用字词以产生至少一符合问句意图的候选问句。问句类别处理模块用于分析候选问句以产生问句类别。由此,本发明可具备良好的容错能力。
Description
技术领域
本发明涉及一种问句处理系统及其方法,特别是指一种具备容错能力的问句处理系统及其方法。
背景技术
现有技术的搜索引擎或问答系统中,由于其不具备问句容错能力,因此当使用者输入含有错别字词、火星文(Martianlanguage)、误用字词或缺漏字词的自然语言问句时,可能会造成该搜索引擎或问答系统误判该自然语言问句的问句意图,因而回复错误的答案给该使用者。
图1A至图1C分别表示现有技术中含有火星文、音似的错别字词与形似的错别字词的自然语言问句的表单。图中,这些自然语言问句中含有许多不恰当的用语(以底线标示),例如图1A所示的火星文(如注音文),或者图1B所示音似的错别字词,亦或者图1C所示形似的错别字词,这些火星文或错别字词将明显地降低搜索引擎或问答系统对该自然语言问句的回复答案的正确率。
图2A至图2G分别表示现有技术中以搜索引擎或自动问答系统提供含有关键词组11、错别字词13、火星文14或误用字词15的自然语言问句的答案的网页。
在图2A的搜索引擎(如Google)中,该搜索引擎对于例如中文的自然语言问句“日本战岭台湾几年”,虽可将关键词组11“战岭”修正为关键词组12“占领”,并直接以“日本占领台湾几年”进行搜索,但仍无法搜索到有关“几年”的正确答案。
在图2B的搜索引擎(如Google)中,该搜索引擎对于例如中文的自然语言问句“杨传广是那一足的”,并无法将错别字词13“那一足的”进行修正,以致无法搜索到适当的答案。
而在图2C的搜索引擎(如Google)中,该搜索引擎对于例如中文的自然语言问句“郑成功的丩凵丶点?”,也无法将火星文14(如注音文)“丩凵丶”进行修正,因而无法搜索到正确的答案。
又在图2D的搜索引擎(如Google)中,该搜索引擎对于例如英文的自然语言问句“riceplented”,虽可将关键词组11“riceplented”修正为“riceplanted”以进行搜索,但仍无法搜索到适当的答案。
另在图2E的搜索引擎(如Google)中,该搜索引擎对于例如英文的自然语言问句“whomistaiwanpresident”,虽可直接以“who”代替关键词组11“whom”进行搜索,但仍无法搜索到正确的答案。
而在图2F的自动问答系统(如WorframAlpha)中,该自动问答系统对于例如英文的自然语言问句“wheredoesricelive”,并无法将误用字词15“ricelive”进行修正,以致回复错误的答案16。
又在图2G的自动问答系统(如WorframAlpha)中,该自动问答系统对于例如英文的自然语言问句“WhereistheTaiwanPresident”,也无法将误用字词15“Where”进行修正,因而回复错误的答案16。
因此,如何克服上述现有技术的问题,实已成目前亟需解决的课题。
发明内容
本发明提供一种问句处理系统及其方法,其可具备良好的容错能力,以提高对自然语言问句的回复答案的正确率。
本发明的问句处理系统应用于具有处理器、存储器与作业系统的电子装置中,且该问句处理系统包括一具有错字处理单元与误用词处理单元的问句建构模块以及一问句类别处理模块。该错字处理单元用于检测并修正自然语言问句的错别字词或火星文,以产生一符合该自然语言问句的问句意图的校正问句。该误用词处理单元用于分析该校正问句的至少二词组的搭配关系,并依据该搭配关系修正该校正问句的误用字词以产生至少一符合该问句意图的候选问句。该问句类别处理模块用于分析该候选问句以产生该候选问句的问句类别。
本发明的问句处理方法应用于具有处理器、存储器与作业系统的电子装置中,且该问句处理方法包括:检测并修正自然语言问句的错别字词或火星文,以产生一符合该自然语言问句的问句意图的校正问句;分析该校正问句的至少二词组的搭配关系,并依据该搭配关系修正该校正问句的误用字词以产生至少一符合该问句意图的候选问句;以及分析该候选问句以产生该候选问句的问句类别。
上述的问句处理系统及具方法中,可以缺漏词处理单元分析该候选问句的缺漏字词,并自语料库或同义/近义词库中撷取至少一搭配词以补足该校正问句的缺漏字词而产生该候选问句。
由上述内容可知,本发明的问句处理系统及其方法中,主要是通过问句建构模块的错字处理单元、误用词处理单元与缺漏词处理单元,以分别修正自然语言问句的错别字词、火星文、误用字词及缺漏字词,并通过问句类别处理模块分析该自然语言问句的问句类别。
由此,本发明能具备良好的容错能力,以容忍该自然语言问句的错别字词、火星文、误用字词及缺漏字词,并降低对该自然语言问句的问句意图的分析错误所造成的影响,进而提高对该自然语言问句的回复答案的正确率。
附图说明
图1A至图1C分别表示现有技术中含有火星文、音似的错别字词与形似的错别字词的自然语言问句的表单;
图2A至图2G分别表示现有技术中以搜索引擎搜索或自动问答系统提供含有关键词组、错别字词、火星文或误用字词的自然语言问句的答案的网页;
图3表示本发明的问句处理系统的方框结构示意图;
图4表示本发明的问句处理方法的流程示意图;
图5表示本发明的问句处理系统及其方法的实施例示意图。
符号说明:
11、12关键词组;
13错别字词;
14火星文;
15误用字词;
16答案;
2问句处理系统;
20使用者界面;
21问句建构模块;
211错字处理单元;
211a翻译模型;
211b语言模型;
212误用词处理单元;
213缺漏词处理单元;
214关键词组撷取单元;
22问句类别处理模块;
23语料库;
24同义/近义词库;
25知识库;
26段落检索模块;
261文件;
262段落;
27答案处理模块;
271答案;
41自然语言问句;
42候选问句;
43、44关键词组;
S31至S36步骤。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚明白,以下结合具体实施例,并参照附图,对本发明作进一步的详细说明。
图3表示本发明的问句处理系统2的方框结构示意图。如图所示,问句处理系统2可应用于具有处理器、存储器与作业系统的电子装置中,且该问句处理系统2主要包括一使用者界面(UserInterface,UI)20、一具有错字处理单元211与误用词处理单元212的问句建构模块21、以及一问句类别处理模块22。该电子装置可为个人电脑、平板电脑、笔记本电脑、网络服务器、云端服务器、移动电话或智能手机等。
该使用者界面20用于供使用者输入自然语言问句,且该自然语言问句可为中文、英文或各种的语言。该错字处理单元211用于检测并修正该自然语言问句的错别字词或火星文,以产生一符合该自然语言问句的问句意图的校正问句。
具体而言,该错字处理单元211可依据错别字检测法或火星文转译法,以检测并修正该自然语言问句的错别字词或火星文,且该错字处理单元211可具有翻译模型211a与语言模型(LanguageModel)211b。
该翻译模型211a用于提供该自然语言问句的错别字词或火星文的修正资料,例如:(1)音似或形似的错误字、(2)词组的字汇的特征值(如同偏旁、同字首、部首差别、部首笔划差、偏旁笔划差、注音差或调号差)、(3)易混淆字汇(如躁vs.燥)。
此外,该语言模型211b用于依据该修正资料修正该自然语言问句的错别字词或火星文以产生该校正问句,且该语言模型211b可为以n-连词为基础的统计式语言模型(StatisticalLanguageModel,SLM)、或基于神经网络语言模型(NeuralNetwork-basedLanguageModeling,NNLM)等。该语言模型211b可具有解码单元(decoder)以转换一个中文字、一个注音符号或一串完整的注音符号至原字、音似/形似字或注音的对应字。
上述的错别字词例如可以为现有技术图1B所示音似的错别字词、或图1C所示形似的错别字词,且该错别字词可为该自然语言问句的疑问词(questionwords)或功能词(functionwords)等,该功能词可为限定词(如这、一只、我的)、代名词(如你、我、他)、前置词/介系词/后置词(如上、下、为了)、或连接词(如和、或、如果)等。该火星文可例如为现有技术图1A所示的注音文,也可为表情符号(如*、#、!)等。
举例来说,在例如中文的自然语言问句中,该错字处理单元211可检测使用者所输入的自然语言问句“水稻住在舍么”的错别字词“舍”与火星文“”,并依据该自然语言问句的问句意图将“舍”与“”分别修正为正确字词“什”与“地”,也就是将该自然语言问句“水稻住在舍么”修正为校正问句“水稻住在什么地”。
该误用词处理单元212用于分析该校正问句的至少二词组的搭配关系,并依据该搭配关系修正该校正问句的误用字词以产生至少一符合该问句意图的候选问句。
具体地说,该误用词处理单元212用于分析该问句意图与该校正问句的至少二词组的语境(context)是否冲突,并于发生冲突时依据该语境且自语料库23或同义/近义词库24中撷取至少一第一搭配词,以利用该第一搭配词修正该校正问句的误用字词而产生该候选问句,使得该候选问句的词组的语境不具有冲突且符合该问句意图。
例如,该误用词处理单元212分析出该校正问句“水稻住在什么地”中,三个词组“水稻”、“住”与“地”的搭配关系较差并只有冲突性,因“水稻”通常不与“住”共用在同一问句中,而且该词组“住”应为误用字词,故该误用词处理单元212可依据该三个词组的搭配关系以撷取至少一第一搭配词“种植”或“栽种”来修正该词组“住”,也就是将该校正问句“水稻住在什么地”修正为符合该问句意图的候选问句“水稻种植在什么地”或“水稻栽植在什么地”……,等等。
该问句类别处理模块22用于分析该候选问句以产生该候选问句的问句类别,且该问句类别可为人、事、时、地、物、数量、质量、速度、高度、尺寸、……、等各种类型或种类。
该问句建构模块21也可具有缺漏词处理单元213,用于分析该候选问句的缺漏字词,并自该语料库23或同义/近义词库24中撷取至少一第二搭配词,以利用该第二搭配词补足该校正问句的缺漏字词而产生该候选问句,使得该候选问句的词组的语境完整且符合该问句意图。
例如,该缺漏词处理单元213分析出该候选问句“水稻种植在什么地”或“水稻栽植在什么地”中,“地”应为“地方”或“地区”之意,则该缺漏词处理单元213撷取至少一第二搭配词“地方”或“地区”以修正“地”并加上问号“?”,以便补足该校正问句的缺漏字词而产生完整的候选问句,也就是将该候选问句“水稻种植在什么地”或“水稻栽植在什么地”修正为“水稻种植在什么地方?”、“水稻种植在什么地区?”、“水稻栽植在什么地方?”或“水稻栽植在什么地区?”等等。
上述至少一候选问句可为多个最优先的候选问句,且该问句类别处理模块22可依据问句分类模型与知识库25,以分析这些最优先的候选问句而产生这些最优先的候选问句的问句类别。
该问句分类模型可包括混合分类法(hybridapproaches)、正规表示规则(regularexpressionrule)、机器学习分类器(classifierformachinelearning)、支持向量机(supportvectormachine,SVM)、最大熵函数分类器(MaximumEntropyclassifier)、或决策树分类器(decisiontreeclassifier)等。
该知识库25可提供对应这些最优先的候选问句的问句类别的资料,例如:最优先的候选问句为“至圣先师是哪一位?”,则该知识库25提供该问句类别为“人”。该知识库25也可提供对应这些最优先的候选问句的问句类别的规则,例如:假如“有”字后面或前面接“哪些人”、“哪位”或“哪几位”,则该知识库25提供该问句类别为“人”;或者,假如“要”字后面接“多久”,则该知识库25提供该问句类别为“时”。
该问句类别处理模块22可依据这些最优先的候选问句的可信度重新排序这些最优先的候选问句,并自这些最优先的候选问句中撷取超过预定的可信度阈值且具有最高可信度者作为第一优先的候选问句。
例如,该问句类别处理模块22可重新排序上述的候选问句“水稻种植在什么地方?”、“水稻种植在什么地区?”、“水稻栽植在什么地方?”与“水稻栽植在什么地区?”,并以“水稻栽植在什么地区?”作为该第一优先的候选问句。
该问句建构模块21可具有关键词组撷取单元214,用于依据该第一优先的候选问句产生至少一关键词组或一问句建构结果。例如,该关键词组撷取单元214可自该第一优先的候选问句“水稻栽植在什么地区?”中产生三个关键词组“水稻”、“栽种”及“地区”,或者产生一个问句建构结果“水稻栽种地区”。
该问句处理系统2可包括段落检索模块26与答案处理模块27,该段落检索模块26用于自至少一文件261中撷取符合该第一优先的候选问句的关键词组或问句建构结果的段落262,而该答案处理模块27用于自该段落262中撷取符合该第一优先的候选问句的问句类别的答案271,以将该答案271(或包括该段落262)显示于该使用者界面20。
图4表示本发明的问句处理方法的流程示意图,图5表示本发明的问句处理系统2及具方法的实施例示意图,请一并参阅上述图3的问句处理系统2。
本发明的问句处理方法可应用于具有处理器、存储器与作业系统的电子装置中,且该电子装置可为个人电脑、平板电脑、笔记本电脑、网络服务器、云端服务器、移动电话或智能手机等。同时,本发明的问句处理方法主要包括下列步骤:
(1)如图4的步骤S31与图5所示,在小学生知识问答系统中,先由使用者自使用者界面20中输入自然语言问句41“水稻住在舍么”,并由该问句处理系统2接收该自然语言问句41。接着,跳到步骤S32。
(2)如图4的步骤S32所示,由问句建构模块21的错字处理单元211检测并修正该自然语言问句41的错别字词或火星文,以产生一符合该自然语言问句41的问句意图的校正问句。
具体而言,该错字处理单元211可依据错别字检测法或火星文转译法,以检测并修正该自然语言问句41的错别字词或火星文。同时,该错字处理单元211可具有翻译模型211a与语言模型211b,该翻译模型211a用于提供该自然语言问句41的错别字词或火星文的修正资料,且该语言模型211b用于依据该修正资料修正该自然语言问句41的错别字词或火星文以产生该校正问句。
例如,该错字处理单元211可检测该自然语言问句“水稻住在舍么”的错别字词“舍”与火星文“”,并依据该自然语言问句41的问句意图将“舍”与“”分别修正为正确字词“什”与“地”,也就是将该自然语言问句“水稻住在舍么”修正为校正问句“水稻住在什么地”。接着,跳到步骤S33。
(3)如图4的步骤S33所示,由该问句建构模块21的误用词处理单元212分析该校正问句的至少二词组的搭配关系,并依据该搭配关系修正该校正问句的误用字词。同时,可由该问句建构模块21的缺漏词处理单元213补足该校正问句的缺漏字词而产生一或多个最优先的候选问句。
具体来说,该误用词处理单元212用于分析该问句意图与该校正问句的至少二词组的语境是否冲突,并于发生冲突时依据该语境自语料库23或同义/近义词库24中撷取至少一第一搭配词,以利用该第一搭配词修正该校正问句的误用字词而产生该候选问句,使得该候选问句的词组的语境不具有冲突且符合该问句意图。
例如,该误用词处理单元212分析出该校正问句“水稻住在什么地”中,三个词组“水稻”、“住”与“地”的搭配关系较差并具有冲突性,因“水稻”通常不与“住”共用在同一问句中,而且该词组“住”应为误用字词,故该误用词处理单元212可依据该三个词组的搭配关系,以撷取至少一第一搭配词“种植”或“栽种”来修正该词组“住”,也就是将校正问句“水稻住在什么地”修正为符合该问句意图的候选问句“水稻种植在什么地”或“水稻栽植在什么地”等等。
而该缺漏词处理单元213用于分析该候选问句的缺漏字词,并自该语料库23或同义/近义词库24中撷取至少一第二搭配词,以利用该第二搭配词补足该校正问句的缺漏字词而产生该候选问句,使得该候选问句的词组的语境完整且符合该问句意图。
例如,该缺漏词处理单元213分析出该候选问句“水稻种植在什么地”或“水稻栽植在什么地”中,“地”应为“地方”或“地区”之意,则该缺漏词处理单元213撷取至少一第二搭配词“地方”或“地区”修正“地”并加上问号“?”,藉以补足该校正问句的缺漏字词而产生完整的候选问句,也就是将该候选问句“水稻种植在什么地”或“水稻栽植在什么地”修正为“水稻种植在什么地方?”、“水稻种植在什么地区?”、“水稻栽植在什么地方?”或“水稻栽植在什么地区?”等等。接着,跳到步骤S34。
(4)如图4的步骤S34所示,由问句类别处理模块22依据问句分类模型与知识库25分析这些最优先的候选问句以产生这些最优先的候选问句的问句类别。
另外,可由该问句类别处理模块22依据这些最优先的候选问句的可信度重新排序这些最优先的候选问句,并自这些最优先的候选问句中撷取超过预定的可信度阈值且具有最高可信度者作为第一优先的候选问句。
例如,该问句类别处理模块22可重新排序上述的候选问句“水稻种植在什么地方?”、“水稻种植在什么地区?”、“水稻栽植在什么地方?”与“水稻栽植在什么地区?”,并以“水稻栽植在什么地区?”作为该第一优先的候选问句,如图5所示“我猜你想问‘水稻栽植在什么地区?’”的候选问句42“水稻栽植在什么地区?”。接着,跳到步骤S35。
(5)如图4的步骤S35所示,由该问句建构模块21的关键词组撷取单元214依据该第一优先的候选问句产生至少一关键词组或一问句建构结果。例如,自该第一优先的候选问句“水稻栽植在什么地区?”中,产生如图5所示的关键词组43“稻”及关键词组44“栽种”等,或者产生一个问句建构结果“水稻栽植地区”。接着,跳到步骤S36。
(6)如图4的步骤S36所示,由段落检索模块26自至少一文件261中撷取符合该第一优先的候选问句的关键词组或问句建构结果的段落262,并由答案处理模块27自该段落262中撷取符合该第一优先的候选问句的问句类别的答案271,以将该答案271(或包括该段落262)显示于该使用者界面20上。
例如,自图5所示维基百科的文件中撷取符合关键词组43“稻”及关键词组44“栽种”的段落,并将答案“水稻在中国大陆广为栽种后,逐渐向西传播到印度,中世纪引入欧洲南部,现时全世界有一半的人口食用水稻,主要在亚洲、欧洲南部和中美洲及非洲部分地区”显示于该使用者界面20上。而且,该答案可以是上述的一个段落,也可以是一个简单答案,如“中国大陆”。
同理,在例如英文的自然语言问句中,一样可以采用上述图3的问句处理系统2与图4的问句处理方法,下面以一个例子简单说明之。
(1)如同上述图3与图4的步骤S31所示,由使用者自使用者界面20输入自然语言问句41“Whatdoesricelive?”,并由该问句处理系统2接收该自然语言问句41。
(2)如同上述图3与图4的步骤S32所示,由问句建构模块21的错字处理单元211检测并修正该自然语言问句41“Whatdoesricelive?”的错别字词或火星文,以产生一符合该自然语言问句41的问句意图的校正问句。
因该错字处理单元211并未检测到该自然语言问句41“Whatdoesricelive?”中含有错别字词或火星文,也符合该自然语言问句41的问句意图,故可直接以该自然语言问句41作为该校正问句“Whatdoesricelive?”。
(3)如同上述图3与图4的步骤S33所示,由该问句建构模块21的误用词处理单元212分析该校正问句的至少二词组“Where”、“does”及“live”的搭配关系,并依据该搭配关系修正该校正问句的误用字词“live”为正确字词“grown”或“planted”。
同时,可由该问句建构模块21的缺漏词处理单元213补足该校正问句的缺漏字词而产生一或多个最优先的候选问句。因该校正问句“Whatdoesricelive?”中并未含有缺漏字词,故该缺漏词处理单元213可直接产生一或多个最优先的候选问句,例如该候选问句为“wheredoesricegrown?”与“whereisriceplanted?”。
(4)如同上述图3与图4的步骤S34所示,由问句类别处理模块22依据问句分类模型与知识库25分析这些最优先的候选问句,以产生这些最优先的候选问句的问句类别,例如该问句类别为“where”。
另外,可由该问句类别处理模块22依据这些最优先的候选问句的可信度重新排序这些最优先的候选问句,并自这些最优先的候选问句中撷取超过预定的可信度阈值且具有最高可信度者作为第一优先的候选问句,例如该第一优先的候选问句为“wheredoesricegrown?”。
(5)如同上述图3与图4的步骤S35所示,由该问句建构模块21的关键词组撷取单元214依据该第一优先的候选问句产生至少一关键词组或一问句建构结果,例如该关键词组为“where”、“rice”及“grown”,或者该问句建构结果为“wherericegrown”。
(6)如同上述图3与图4的步骤S36所示,由段落检索模块26自至少一文件261中撷取符合该第一优先的候选问句的关键词组或问句建构结果的段落262,并由答案处理模块27自该段落262中撷取符合第一优先的候选问句的问句类别的答案271,以将该答案271(或包括该段落262)显示于该使用者界面20上。
由上述内容可知,本发明的问句处理系统及其方法中,主要是通过问句建构模块的错字处理单元、误用词处理单元与缺漏词处理单元,以分别修正自然语言问句的错别字词、火星文、误用字词及缺漏字词,并通过问句类别处理模块分析该自然语言问句的问句类别。
由此,本发明能具备良好的容错能力,以容忍该自然语言问句的错别字词、火星文、误用字词及缺漏字词,并降低对该自然语言问句的问句意图的分析错误所造成的影响,进而提高对该自然语言问句的回复答案的正确率。
以上所述的具体实施例,对本发明的目的、技术方案和有益效果进行了进一步详细说明,应理解的是,以上所述仅为本发明的只体实施例而已,并不用于限制本发明,凡在本发明的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
Claims (19)
1.一种问句处理系统,应用于具有处理器、存储器与作业系统的电子装置中,其特征为,该问句处理系统包括:
问句建构模块,其具有:
错字处理单元,用于检测并修正自然语言问句的错别字词或火星文,以产生一符合该自然语言问句的问句意图的校正问句;以及
误用词处理单元,用于分析该校正问句的至少二词组的搭配关系,并依据该搭配关系修正该校正问句的误用字词以产生至少一符合该问句意图的候选问句;以及
问句类别处理模块,用于分析该候选问句以产生该候选问句的问句类别。
2.如权利要求1所述的问句处理系统,其特征为,该系统更包括使用者界面,用于供使用者输入该自然语言问句。
3.如权利要求1所述的问句处理系统,其特征为,该错字处理单元用于依据错别字检测法或火星文转译法,以检测并修正该自然语言问句的错别字词或火星文。
4.如权利要求1所述的问句处理系统,其特征为,该错字处理单元具有翻译模型与语言模型,该翻译模型用于提供该自然语言问句的错别字词或火星文的修正资料,该语言模型用于依据该修正资料修正该自然语言问句的错别字词或火星文以产生该校正问句。
5.如权利要求1所述的问句处理系统,其特征为,该误用词处理单元用于分析该问句意图与该校正问句的词组的语境,并依据该语境自语料库或同义/近义词库中撷取至少一第一搭配词以修正该校正问句的误用字词而产生该候选问句。
6.如权利要求1所述的问句处理系统,其特征为,该问句建构模块更具有缺漏词处理单元,用于分析该候选问句的缺漏字词,并自语料库或同义/近义词库中撷取至少一第二搭配词以补足该校正问句的缺漏字词而产生该候选问句。
7.如权利要求1所述的问句处理系统,其特征为,该至少一候选问句为多个最优先的候选问句,该问句类别处理模块用于借助问句分类模型与知识库分析这些最优先的候选问句而产生这些最优先的候选问句的问句类别。
8.如权利要求7所述的问句处理系统,具特征为,该问句类别处理模块更依据这些最优先的候选问句的可信度重新排序这些最优先的候选问句,并自这些最优先的候选问句中撷取具有最高可信度者作为第一优先的候选问句。
9.如权利要求8所述的问句处理系统,其特征为,该问句建构模块更具有关键词组撷取单元,用于依据该第一优先的候选问句产生至少一关键词组或一问句建构结果。
10.如权利要求9所述的问句处理系统,其特征为,该系统更包括段落检索模块与答案处理模块,该段落检索模块用于自文件中撷取符合该第一优先的候选问句的关键词组或问句建构结果的段落,该答案处理模块用于自该段落中撷取符合该第一优先的候选问句的问句类别的答案。
11.一种问句处理方法,应用于具有处理器、存储器与作业系统的电子装置中,该问句处理方法包括:
检测并修正自然语言问句的错别字词或火星文,以产生一符合该自然语言问句的问句意图的校正问句;
分析该校正问句的至少二词组的搭配关系,并依据该搭配关系修正该校正问句的误用字词以产生至少一符合该问句意图的候选问句;以及
分析该候选问句以产生该候选问句的问句类别。
12.如权利要求11所述的问句处理方法,其特征为,该方法更包括依据错别字检测法或火星文转译法以检测并修正该自然语言问句的错别字词或火星文。
13.如权利要求11所述的问句处理方法,其特征为,该方法更包括提供该自然语言问句的错别字词或火星文的修正资料,并依据该修正资料修正该自然语言问句的错别字词或火星文以产生该校正问句。
14.如权利要求11所述的问句处理方法,其特征为,该方法更包括分析该问句意图与该校正问句的词组的语境,并依据该语境自语料库或同义/近义词库中撷取至少一第一搭配词以修正该校正问句的误用字词而产生该候选问句。
15.如权利要求11所述的问句处理方法,其特征为,该方法更包括分析该候选问句的缺漏字词,并自语料库或同义/近义词库中撷取至少一第二搭配词以补足该校止问句的缺漏字词而产生该候选问句。
16.如权利要求11所述的问句处理方法,其特征为,该至少一候选问句包括多个最优先的候选问句,以藉由问句分类模型与知识库分析这些最优先的候选问句而产生这些最优先的候选问句的问句类别。
17.如权利要求16所述的问句处理方法,其特征为,该方法更包括依据这些最优先的候选问句的可信度重新排序这些最优先的候选问句,并自这些最优先的候选问句中撷取具有最高可信度者作为第一优先的候选问句。
18.如权利要求17所述的问句处理方法,其特征为,该方法更包括依据该第一优先的候选问句产生至少一关键词组或一问句建构结果。
19.如权利要求18所述的问句处理方法,其特征为,该方法更包括自文件中撷取符合该第一优先的候选问句的关键词组或问句建构结果的段落,并自该段落中撷取符合该第一优先的候选问句的问句类别的答案。
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
TW103140400 | 2014-11-21 | ||
TW103140400A TWI553491B (zh) | 2014-11-21 | 2014-11-21 | 問句處理系統及其方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN105760359A true CN105760359A (zh) | 2016-07-13 |
CN105760359B CN105760359B (zh) | 2020-03-20 |
Family
ID=56335582
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201410782497.7A Active CN105760359B (zh) | 2014-11-21 | 2014-12-17 | 问句处理系统及其方法 |
Country Status (2)
Country | Link |
---|---|
CN (1) | CN105760359B (zh) |
TW (1) | TWI553491B (zh) |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106776501A (zh) * | 2016-12-13 | 2017-05-31 | 深圳爱拼信息科技有限公司 | 一种文本错别字自动更正方法和服务器 |
CN107688608A (zh) * | 2017-07-28 | 2018-02-13 | 合肥美的智能科技有限公司 | 智能语音问答方法、装置、计算机设备和可读存储介质 |
CN108573696A (zh) * | 2017-03-10 | 2018-09-25 | 北京搜狗科技发展有限公司 | 一种语音识别方法、装置及设备 |
CN109478188A (zh) * | 2016-08-16 | 2019-03-15 | 国立研究开发法人情报通信研究机构 | 对话系统以及用于其的计算机程序 |
CN110598222A (zh) * | 2019-09-12 | 2019-12-20 | 北京金山数字娱乐科技有限公司 | 语言处理方法及装置、语言处理系统的训练方法及装置 |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
TWI678686B (zh) * | 2018-08-23 | 2019-12-01 | 國立臺灣師範大學 | 互動式教育方法及教學電子裝置 |
JP7264115B2 (ja) * | 2020-05-28 | 2023-04-25 | Jfeスチール株式会社 | 情報検索システム |
Citations (19)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1195142A (zh) * | 1997-03-28 | 1998-10-07 | 松下电器产业株式会社 | 汉语文档自动校正方法及其装置 |
CN1228565A (zh) * | 1997-07-18 | 1999-09-15 | 睿扬资讯股份有限公司 | 电脑文档自动检错、改错装置及方法 |
CN1442787A (zh) * | 2002-03-01 | 2003-09-17 | 何万贯 | 作文修改写作系统 |
JP2004127003A (ja) * | 2002-10-03 | 2004-04-22 | Nippon Telegr & Teleph Corp <Ntt> | 質問応答方法、質問応答装置、質問応答プログラム及び記録媒体 |
JP2004280509A (ja) * | 2003-03-17 | 2004-10-07 | Fuji Xerox Co Ltd | 自然言語処理システム及び自然言語処理方法、並びにコンピュータ・プログラム |
TW200521732A (en) * | 2003-12-31 | 2005-07-01 | Lin gui mei | Information system with natural language parsing ability and processing method thereof |
US20050210383A1 (en) * | 2004-03-16 | 2005-09-22 | Silviu-Petru Cucerzan | Systems and methods for improved spell checking |
CN1928864A (zh) * | 2006-09-22 | 2007-03-14 | 浙江大学 | 一种基于问答库的中文自然语言问答方法 |
CN101206673A (zh) * | 2007-12-25 | 2008-06-25 | 北京科文书业信息技术有限公司 | 网络搜索过程中关键词的智能纠错系统及方法 |
CN101287229A (zh) * | 2008-05-26 | 2008-10-15 | 北京捷讯畅达科技发展有限公司 | 应用于手机短信查询的自然语言处理技术及装置 |
CN101287228A (zh) * | 2008-05-26 | 2008-10-15 | 北京捷讯畅达科技发展有限公司 | 应用于手机短信查询的拼音纠错技术及装置 |
CN101373532A (zh) * | 2008-07-10 | 2009-02-25 | 昆明理工大学 | 旅游领域faq中文问答系统实现方法 |
CN101414310A (zh) * | 2008-10-17 | 2009-04-22 | 山西大学 | 一种自然语言搜索的方法和装置 |
CN101630312A (zh) * | 2009-08-19 | 2010-01-20 | 腾讯科技(深圳)有限公司 | 一种用于问答平台中问句的聚类方法及系统 |
CN101727271A (zh) * | 2008-10-22 | 2010-06-09 | 北京搜狗科技发展有限公司 | 一种提供纠错提示的方法、装置及输入法系统 |
CN101847140A (zh) * | 2009-03-23 | 2010-09-29 | 中国科学院计算技术研究所 | 一种错别字符处理方法和系统 |
CN102456001A (zh) * | 2010-10-27 | 2012-05-16 | 北京四维图新科技股份有限公司 | 错别字的检查方法和装置 |
CN102737042A (zh) * | 2011-04-08 | 2012-10-17 | 北京百度网讯科技有限公司 | 建立问句生成模型的方法和装置以及问句生成方法和装置 |
CN103927329A (zh) * | 2014-03-19 | 2014-07-16 | 北京奇虎科技有限公司 | 一种即时搜索方法和系统 |
-
2014
- 2014-11-21 TW TW103140400A patent/TWI553491B/zh active
- 2014-12-17 CN CN201410782497.7A patent/CN105760359B/zh active Active
Patent Citations (20)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1195142A (zh) * | 1997-03-28 | 1998-10-07 | 松下电器产业株式会社 | 汉语文档自动校正方法及其装置 |
CN1228565A (zh) * | 1997-07-18 | 1999-09-15 | 睿扬资讯股份有限公司 | 电脑文档自动检错、改错装置及方法 |
CN1442787A (zh) * | 2002-03-01 | 2003-09-17 | 何万贯 | 作文修改写作系统 |
JP2004127003A (ja) * | 2002-10-03 | 2004-04-22 | Nippon Telegr & Teleph Corp <Ntt> | 質問応答方法、質問応答装置、質問応答プログラム及び記録媒体 |
JP2004280509A (ja) * | 2003-03-17 | 2004-10-07 | Fuji Xerox Co Ltd | 自然言語処理システム及び自然言語処理方法、並びにコンピュータ・プログラム |
TW200521732A (en) * | 2003-12-31 | 2005-07-01 | Lin gui mei | Information system with natural language parsing ability and processing method thereof |
US20050210383A1 (en) * | 2004-03-16 | 2005-09-22 | Silviu-Petru Cucerzan | Systems and methods for improved spell checking |
US20070106937A1 (en) * | 2004-03-16 | 2007-05-10 | Microsoft Corporation | Systems and methods for improved spell checking |
CN1928864A (zh) * | 2006-09-22 | 2007-03-14 | 浙江大学 | 一种基于问答库的中文自然语言问答方法 |
CN101206673A (zh) * | 2007-12-25 | 2008-06-25 | 北京科文书业信息技术有限公司 | 网络搜索过程中关键词的智能纠错系统及方法 |
CN101287229A (zh) * | 2008-05-26 | 2008-10-15 | 北京捷讯畅达科技发展有限公司 | 应用于手机短信查询的自然语言处理技术及装置 |
CN101287228A (zh) * | 2008-05-26 | 2008-10-15 | 北京捷讯畅达科技发展有限公司 | 应用于手机短信查询的拼音纠错技术及装置 |
CN101373532A (zh) * | 2008-07-10 | 2009-02-25 | 昆明理工大学 | 旅游领域faq中文问答系统实现方法 |
CN101414310A (zh) * | 2008-10-17 | 2009-04-22 | 山西大学 | 一种自然语言搜索的方法和装置 |
CN101727271A (zh) * | 2008-10-22 | 2010-06-09 | 北京搜狗科技发展有限公司 | 一种提供纠错提示的方法、装置及输入法系统 |
CN101847140A (zh) * | 2009-03-23 | 2010-09-29 | 中国科学院计算技术研究所 | 一种错别字符处理方法和系统 |
CN101630312A (zh) * | 2009-08-19 | 2010-01-20 | 腾讯科技(深圳)有限公司 | 一种用于问答平台中问句的聚类方法及系统 |
CN102456001A (zh) * | 2010-10-27 | 2012-05-16 | 北京四维图新科技股份有限公司 | 错别字的检查方法和装置 |
CN102737042A (zh) * | 2011-04-08 | 2012-10-17 | 北京百度网讯科技有限公司 | 建立问句生成模型的方法和装置以及问句生成方法和装置 |
CN103927329A (zh) * | 2014-03-19 | 2014-07-16 | 北京奇虎科技有限公司 | 一种即时搜索方法和系统 |
Non-Patent Citations (1)
Title |
---|
卢志坚: "《多语种问答系统中中文问句处理的研究与实现》", 《中国学位论文全文数据库》 * |
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109478188A (zh) * | 2016-08-16 | 2019-03-15 | 国立研究开发法人情报通信研究机构 | 对话系统以及用于其的计算机程序 |
CN106776501A (zh) * | 2016-12-13 | 2017-05-31 | 深圳爱拼信息科技有限公司 | 一种文本错别字自动更正方法和服务器 |
CN108573696A (zh) * | 2017-03-10 | 2018-09-25 | 北京搜狗科技发展有限公司 | 一种语音识别方法、装置及设备 |
CN107688608A (zh) * | 2017-07-28 | 2018-02-13 | 合肥美的智能科技有限公司 | 智能语音问答方法、装置、计算机设备和可读存储介质 |
CN110598222A (zh) * | 2019-09-12 | 2019-12-20 | 北京金山数字娱乐科技有限公司 | 语言处理方法及装置、语言处理系统的训练方法及装置 |
CN110598222B (zh) * | 2019-09-12 | 2023-05-30 | 北京金山数字娱乐科技有限公司 | 语言处理方法及装置、语言处理系统的训练方法及装置 |
Also Published As
Publication number | Publication date |
---|---|
TWI553491B (zh) | 2016-10-11 |
TW201619850A (zh) | 2016-06-01 |
CN105760359B (zh) | 2020-03-20 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN105760359A (zh) | 问句处理系统及其方法 | |
Jurgens et al. | Incorporating dialectal variability for socially equitable language identification | |
Ji et al. | Distant supervision for relation extraction with sentence-level attention and entity descriptions | |
Prasad et al. | Sentiment analysis for sarcasm detection on streaming short text data | |
KR102417045B1 (ko) | 명칭을 강인하게 태깅하는 방법 및 시스템 | |
Mao et al. | Explain images with multimodal recurrent neural networks | |
KR101799681B1 (ko) | 어휘 의미망 및 단어 임베딩을 이용한 동형이의어 분별 장치 및 방법 | |
CN101599071B (zh) | 对话文本主题的自动提取方法 | |
CN110489760A (zh) | 基于深度神经网络文本自动校对方法及装置 | |
CN107329995B (zh) | 一种语义受控的答案生成方法、装置及系统 | |
CN108984530A (zh) | 一种网络敏感内容的检测方法及检测系统 | |
CN107330011A (zh) | 多策略融合的命名实体的识别方法及装置 | |
CN103324621B (zh) | 一种泰语文本拼写纠正方法及装置 | |
CN103970765B (zh) | 一种改错模型训练方法、装置和文本改错方法、装置 | |
CN106202059A (zh) | 机器翻译方法以及机器翻译装置 | |
CN106202153A (zh) | 一种es搜索引擎的拼写纠错方法及系统 | |
JP2017511922A (ja) | スマート質問回答の実現方法、システム、および記憶媒体 | |
CN108280057A (zh) | 一种基于blstm的微博谣言检测方法 | |
CN105702252A (zh) | 一种语音识别方法及装置 | |
CN109284503B (zh) | 翻译语句结束判断方法与系统 | |
CN104317882B (zh) | 一种决策级中文分词融合方法 | |
Chen et al. | Improve the detection of improperly used Chinese characters in students’ essays with error model | |
CN110399433A (zh) | 一种基于深度学习的数据实体关系抽取方法 | |
Heuer et al. | Generating captions without looking beyond objects | |
US10650195B2 (en) | Translated-clause generating method, translated-clause generating apparatus, and recording medium |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |