CN113051393A - 问答学习方法、问答学习系统及其计算机程序产品 - Google Patents
问答学习方法、问答学习系统及其计算机程序产品 Download PDFInfo
- Publication number
- CN113051393A CN113051393A CN201911387125.3A CN201911387125A CN113051393A CN 113051393 A CN113051393 A CN 113051393A CN 201911387125 A CN201911387125 A CN 201911387125A CN 113051393 A CN113051393 A CN 113051393A
- Authority
- CN
- China
- Prior art keywords
- sentences
- marked
- module
- classifier
- classifiers
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 34
- 238000004590 computer program Methods 0.000 title claims description 5
- 230000000295 complement effect Effects 0.000 claims abstract description 41
- 238000011156 evaluation Methods 0.000 claims description 37
- 238000013145 classification model Methods 0.000 claims description 11
- 238000010586 diagram Methods 0.000 description 6
- 230000008569 process Effects 0.000 description 4
- 238000012545 processing Methods 0.000 description 4
- 238000013528 artificial neural network Methods 0.000 description 3
- 230000006870 function Effects 0.000 description 3
- 230000000717 retained effect Effects 0.000 description 3
- 230000000692 anti-sense effect Effects 0.000 description 2
- 238000012790 confirmation Methods 0.000 description 2
- 238000002372 labelling Methods 0.000 description 2
- 238000012706 support-vector machine Methods 0.000 description 2
- 230000004075 alteration Effects 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 230000002452 interceptive effect Effects 0.000 description 1
- 230000014759 maintenance of location Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000009467 reduction Effects 0.000 description 1
- 230000004044 response Effects 0.000 description 1
- 238000012549 training Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/332—Query formulation
- G06F16/3329—Natural language query formulation or dialogue systems
Abstract
问答学习方法包括以下步骤。依据N个语句中已标记的N1个语句建立多个分类器。然后,各分类器判断N个语句中未标记的N2个语句的每一个的所属语句类型。依据这些分类器的判断结果的一致性程度,从未标记的N2个语句中挑选出N3个语句,其中这些分类器对各N3个语句的判断结果为不一致。从N3个语句中挑选出彼此互补的N4个确选待标记语句。在标记N4个确选待标记语句后,依据已标记的N1个语句与N4个确选待标记语句,重新建立多个分类器。将这些重建前的分类器的至少一个加入重建后的分类器中,以做为这些分类器的成员。
Description
技术领域
本公开是有关于一种学习方法及应用其的学习系统,且特别是有关于一种问答学习方法及应用其的问答学习系统。
背景技术
习知问答学习方法中,通常是以人工对大量的语句进行分类,然后据此建立一问答分类模型。问答系统一般又可称为自动问答系统、对话系统、交谈系统、自动客服系统、客服机器人、或文字互动助理、实时信息机器人等。在后续的问答学习中,问答分类模型对于无法分类的新语句通常还是会全数交由人工进行标记语句类型(对新语句给予对应的答案)。然而,这样的方法付出大量的人工处理工时且所获得的问答准确率却不一定稳定地往上提升。
因此,如何减少人工处理工时及稳定地提高问答准确率成为本技术领域人员努力的目标之一。
公开内容
本公开一实施例提出一种问答学习方法。问答学习方法包括以下步骤。一分类器产生模块依据N个语句中已标记的N1个语句建立一分类器模块,分类器模块包含多个分类器,各分类器表示不同的问答分类模型,其中N及N1为正整数;这些分类器的各个判断N个语句中未标记的N2个语句的每一个的所属语句类型,其中N2为正整数;于一致性程度评估步骤中,一致性程度评估模块依据这些分类器的判断结果的一致性程度,从未标记的N2个语句中挑选出N3个语句,其中这些分类器对各N3个语句的判断结果为不一致,其中N3为正整数;于互补程度评估步骤中,一互补程度评估模块从N3个语句中挑选出彼此互补的N4个语句做为多个确选待标记语句,其中N4为正整数;在标记N4个确选待标记语句后,分类器产生模块依据已标记的N1个语句与N4个确选待标记语句,重新建立分类器模块的这些分类器;以及,一分类器评估模块将这些重建前的分类器的至少一个加入分类器模块中,以做为分类器模块的成员。
本公开另一实施例提出一种问答学习系统。问答学习系统包括一分类器产生模块、一致性程度评估模块、一互补程度评估模块及一分类器评估模块。分类器产生模块用以:依据N个语句中已标记的N1个语句建立一分类器模块,分类器模块包含多个分类器,各分类器表示不同的问答分类模型,其中N及N1为正整数。这些分类器的各个判断N个语句中未标记的N2个语句的每一个的所属语句类型,其中N2为正整数。一致性程度评估模块用以:于一致性程度评估步骤中,依据这些分类器的判断结果的一致性程度,从未标记的N2个语句中挑选出N3个语句,其中这些分类器对各N3个语句的判断结果为不一致,其中N3为正整数。互补程度评估模块用以:于一互补程度评估步骤中,从N3个语句中挑选出彼此互补的N4个语句做为多个确选待标记语句,其中N4为正整数。分类器产生模块更用以:在标记N4个确选待标记语句后,依据已标记的N1个语句与N4个确选待标记语句,重新建立分类器模块的这些分类器。分类器评估模块用以:将这些重建前的分类器的至少一个加入分类器模块中,以做为分类器模块的成员。
本公开另一实施例提出一种计算机程序产品。计算机程序产品用以载入于一问答学习系统,以执行一问答学习方法。问答学习方法包括以下步骤:一分类器产生模块依据N个语句中已标记的N1个语句建立一分类器模块,分类器模块包含多个分类器,各分类器表示不同的问答分类模型,其中N及N1为正整数;这些分类器的各个判断N个语句中未标记的N2个语句的每一个的所属语句类型,其中N2为正整数;于一致性程度评估步骤中,一致性程度评估模块依据这些分类器的判断结果的一致性程度,从未标记的N2个语句中挑选出N3个语句,其中这些分类器对各N3个语句的判断结果为不一致,其中N3为正整数;于互补程度评估步骤中,一互补程度评估模块从N3个语句中挑选出彼此互补的N4个语句做为多个确选待标记语句,其中N4为正整数;在标记N4个确选待标记语句后,分类器产生模块依据已标记的N1个语句与N4个确选待标记语句,重新建立分类器模块的这些分类器;以及,一分类器评估模块将这些重建前的分类器的至少一个加入分类器模块中,以做为分类器模块的成员。
附图说明
图1为本公开一实施例的问答学习系统的功能方块图。
图2为图1的问答学习系统的问答学习方法一实施例流程图。
图3为依照本公开一实施例的语句互补程度判断的示意图。
图4为依照本公开一实施例的语句互补程度判断的流程图。
图5为图1的问答学习系统100的分类器重建的一实施例示意图。
附图标记说明
100:问答学习系统
110:分类器产生模块
120:分类器模块
130:一致性程度评估模块
140:互补程度评估模块
150:数据库
160:分类器评估模块
C1、C2:分类器
S110~S160、S141~S149:步骤
N、N1、N2、N3、N4:数量
qi、q1~q100:语句
具体实施方式
请参照图1,其为本公开一实施例的问答学习系统100的功能方块图。问答学习系统100包括分类器产生模块110、分类器模块120、一致性程度评估模块130、互补程度评估模块140、数据库150及分类器评估模块160。
分类器产生模块110、分类器模块120、一致性程度评估模块130、互补程度评估模块140与分类器评估模块160中至少一个可以由半导体制程所形成的芯片、电路(circuit)、电路板及储存数组程序码的记录媒体等其中一种或多种的组合。分类器产生模块110、分类器模块120、一致性程度评估模块130、互补程度评估模块140与分类器评估模块160中至少二个可整合成单一模块,或者分类器产生模块110、分类器模块120、一致性程度评估模块130、互补程度评估模块140与分类器评估模块160中至少一个可整合至一处理器(processor)或一控制器(controller)中。此外,数据库150可储存于一储存模块,如存储器。
分类器产生模块110依据N个语句qi中的已标记的N1个语句,建立一分类器模块120,其中分类器模块120包含多个分类器C1,各分类器C1表示不同的问答分类模型,其中N及N1为正整数。各分类器用以判断N个语句中未标记的N2个语句的每一个的所属语句类型,其中N2为正整数。一致性程度评估模块130用以于一致性程度评估步骤中,依据这些分类器C1的判断结果的一致性程度,从未标记的N2个语句中挑选出N3个语句,其中这些分类器C1对各N3个语句的判断结果为不一致,其中N3为正整数。互补程度评估模块140用于互补程度评估步骤中,从N3个语句中选出彼此互补的N4个做为多个确选待标记语句,其中N4为正整数。N4个语句的内容字词及/或文意例如是互不重复、互不相似、互不蕴函及/或互不生成。在标记N4个确选待标记语句后,分类器产生模块110依据已标记的N1个语句与N4个确选待标记语句,重新建立分类器模块120的多个分类器C2(分类器C2一实施例参阅图5)。分类器评估模块160将这些重建前的分类器C1的至少一个加入分类器模块120中,以做为分类器模块120的成员。于一实施例中,N1小于N、N2小于N、N3不大于N2且N4不大于N3,然本公开实施例不受此限。此外,本文的「语句」例如是自然语言描述句、自然语言问句或口述句、问句、直述句或其它任何文法形式/句型的语句。
此外,分类器产生模块110可采用神经网络(Neural Networks,NN)技术、深度神经网络(Deep Neural Networks,DNN)技术或是支持向量机(Support Vector Machine)技术进行训练学习。问答学习系统100能够从未标记语句中主动挑选少量语句交由人工标记后,再反馈给分类器产生模块110重新学习,分类器产生模块110依据人工标记结果据以建立至少一分类器C2。换言之,问答学习系统100的问答学习方法为一种机器主动学习方法。
相较于标记大量的N个语句,在本公开实施例的问答学习系统中,人工只需标记(例如提供对该语句的回应,如答句、答案、功能选单、图案及/或图片)由问答学习系统100所选的N4个语句的所属语句类型,其中N4的值小于N的值,因此可节省许多人工标记的时间。此外,由于问答学习系统100所选的N4个语句与先前已标记语句的一致性程度低且互补程度高,因此可减少人工重复标记相同语句类型的语句的机率,且能提升问答学习系统100的整体问答准确率。再者,由于将重建前的分类器的至少一个加入重建后的分类器模块成员,使得在迭代更新过程中,问答准确率能够保持稳定提升,减少系统因更新而效能下降的机会,因而提升问答系统的管理便利性。
举例来说,在一例子中,N的值例如是10000个,N1例如是100个,N2例如是9900个(N-N1=9900)中的100个,N3例如是8个,N4例如是3个。在此例子中,人工只需对3个(即N4的值)语句进行标记,且此3个语句相较于先前已标记语句的一致性程度低及互补程度高,属于有意义的标记,能够有效提升问答学习系统100的整体问答准确率。此外,本公开实施例不限定前述N、N1、N2、N3及N4的数值,其可以是更大或更小的数值。
下进一步说明问答学习系统100选出N4个语句的过程。请参照图2,其为图1的问答学习系统100的问答学习方法一实施例流程图。
在步骤S110中,分类器产生模块110依据N个语句中已标记的N1个语句建立分类器模块120,其中分类器模块120包含C1个分类器,各C1个分类器表示不同的问答分类模型,其中N及N1为正整数且N1小于N。换言之,本公开实施例的主动学习问答方法可不对全部的N个语句逐一标记,只从相对少量的N1语句中挑选出有意义(能够提升问答准确率)的更少量的语句(即N4个)进行标记即可。
在步骤S120中,各分类器C1判断N个语句中未标记的N2个语句的每一个的所属语句类型,其中N2为正整数且N2小于N。
以N2为100举例来说,各分类器C1判断未标记的N2个语句q1~q100的每一个的所属语句类型。以其中一个语句q1为例,每个分类器C1判断语句q1的所属语句类型,当所有的分类器C1一致地判断语句q1属于同一个语句类型时,语句q1定义为具有一致性(或完全一致);当不是所有的分类器C1都一致地判断语句q1属于同一个语句类型时,语句q1定义为不具一致性(即不一致)。
在步骤S130中,于一致性程度评估步骤中,一致性程度评估模块130依据这些分类器C1的判断结果的一致性程度,从未标记的N2个语句中挑选出N3个语句,其中这些分类器C1对各N3个语句的判断结果为不一致,其中N3为正整数且不大于N2。对于一个语句而言,当这些分类器C1判断出的语句类型越多时,表示此语句的不一致性越高(或一致性程度低);相反的,对于一个语句而言,当这些分类器C1判断出的语句类型越少时,表示此语句的不一致性越低(或一致性程度高)。
本实施例以未标记的N3个语句q1~q100中的8个语句q1~q8具有不一致性为例进行后续说明。
在步骤S140中,于互补程度评估步骤中,互补程度评估模块140从N3个语句q1~q8中选出彼此互补的N4个语句做为多个确选待标记语句,其中N4为正整数,且N4不大于N3。视N3个语句q1~q8的彼此互补程度而定,确选的N4个确选待标记语句的数量可能等于或少于N3。
举例来说,请参照图3及图4,图3为本公开一实施例的语句互补程度判断的示意图,而图4为本公开一实施例的语句互补程度判断的流程图。
在步骤S141中,互补程度评估模块140可依据一致性程度排序N3个语句。例如,如图3所示,互补程度评估模块140依一致性程度由低至高的顺序,将语句依序排列成q4、q6、q3、q8、q5、q2、q7及q1。
然后,在步骤S142中,如图3所示,在第一批次挑选中,互补程度评估模块140挑选不一致性最高的语句q4做为确选待标记语句。
然后,在步骤S143中,互补程度评估模块140设定i的初始值等于2。
然后,在步骤S144中,在第二批次挑选中,互补程度评估模块140比较N3个语句中不一致性次高的语句与各确选待标记语句的互补程度。例如,互补程度评估模块140比较第i个(不一致性第i高)语句q6与确选待标记语句q4的互补程度。
然后,在步骤S145中,互补程度评估模块140判断不一致性次高(如第i高)的语句相较于各确选待标记语句是否互补。例如,互补程度评估模块140判断语句q6与确选待标记语句q4是否互补。当语句q6与确选待标记语句q4互补时,流程进入步骤S146。此外,当不一致性次高(如第i高)的语句相较于各确选待标记语句不互补时,互补程度评估模块140不将不一致性次高的语句做为确选待标记语句的成员。例如,当语句q6与确选待标记语句q4不互补时,互补程度评估模块140不将语句q6做为确选待标记语句的成员,例如是忽略此语句q6,然后流程进入步骤S147。
在步骤S146中,当不一致性次高(如第i高)的语句相较于各确选待标记语句皆互补时,互补程度评估模块140将不一致性次高的语句做为确选待标记语句的成员。例如,如图3所示,当语句q6与确选待标记语句q4互补时,互补程度评估模块140挑选语句q6做为确选待标记语句。
然后,在步骤S147中,互补程度评估模块140判断这些确选待标记语句的数量是否已达N4个或已无语句可挑选(例如,i已等于N3)。当这些确选待标记语句的数量已达N4个或是已无语句可挑选,流程进入步骤S149;当这些确选待标记语句的数量未达N4个或是i尚未等于N3,流程进入步骤S148,累加i的值且流程回到步骤S144,继续下一个语句的互补程度判断。
如图3所示,由于第二批次挑选的确选待标记语句的数量仅有2个,其未达N4个(例如是3个),因此继续下一个语句的互补程度判断。举例来说,在累加i的值(i=3)后,互补程度评估模块140比较第i个(不一致性第3高)语句q3与确选待标记语句q4及q6各个的互补程度。如图所示,虽然语句q3与确选待标记语句q4互补,但由于语句q3与另一个确选待标记语句q6不互补时,因此互补程度评估模块140忽略(或放弃)语句q3,不将语句q3做为确选待标记语句的成员。
如图3所示,由于第三批次挑选的确选待标记语句的数量仍仅有2个,其未达N4个(N4例如是3个),因此继续下一个语句的互补程度判断。举例来说,在累加i的值(i=4)后,互补程度评估模块140比较第i个(不一致性第4高)语句q8与确选待标记语句q4及q6各个的互补程度。如图所示,由于语句q8与所有确选待标记语句q4及q6皆互补,因此互补程度评估模块140挑选语句q8做为确选待标记语句。
如图3所示,第四批次挑选的确选待标记语句的数量已达N4个(N4例如是3个)或是已无语句可挑选,因此流程进入步骤S149,停止互补程度判断步骤。然后,人工只要针对这些确选待标记语句进行标记即可。相较于数量较大的N、N1、N2及N3,人工只要针对相对少量的N4个确选待标记语句进行标记,节省大量的处理工时。此外,由于这些确选待标记语句相较于其它已标记语句的互补程度高(或互补)且一致性程度低(或不一致),因此这些确选待标记语句加入问答学习系统100中后,能够有效稳定地提升问答准确率。
以下说明二语句是否互补的判断方法。
二语句为互补表示二语句彼此没有重复的信息量,亦即,内容字词及/或文意为互不重复、互不相似、互不蕴函及/或互不生成。信息量的重复程度值为根据不同文本分析方式而采取二元值(以0表示不蕴函,而以1表示蕴函)、比例数值或机率值。例如,利用文本蕴函识别二语句q1与q2间的逻辑推理关系,若语句q1可推论出语句q2的完整意思,(即语句q1语义蕴函语句q2),表示语句q1的信息量已包含语句q2的信息量,则二语句q1与q2为不互补,相反的即为互补。另外,二语句的重复信息量可利用重复字词量测,若语句q1的字词和语句q2的字词重复比例越多时(例如是60%,然本发明实施例不受此限),表示二语句q1与q2的重复信息量高,则二语句q1与q2的互补程度越低(例如是40%,然本发明实施例不受此限)。此外,字词重复分析更可透过近义词、反义词、关连词、相似词、语义词网、本体词网、专有名词识别、词嵌入等方式扩充,亦即,若语句q1与语句q2的语意相似度越高,表示二语句q1与q2的互补程度越低。或者,二语句的重复信息量可利用语言模型量测,若语句q1的语言模型可生成语句q2的机率值越高(例如是60%,然本发明实施例不受此限),表示二语句q1与q2的重复信息量高,则二语句q1与q2的互补程度越低(例如是40%,然本发明实施例不受此限)。
以语句q1为「台北101有公交车站」,而语句q2为「可以搭公共交通到达台北101」来说,语句q1蕴函语句q2,其中二者的识别结果可以1表示蕴函(二元值)(信息重复,即为不互补),或以机率值例如是90%表示蕴含的可能性高(信息重复程度高,即为互补程度低)。
综上,二语句的互补程度可依据下列的一或组合方式判断:(1).二语句中字词的重复程度、字词的同义词或近义词或反义词或关联词的重复程度、字词的关联词网的重复程度、字词的词义相近程度、字词的上下位本体概念的相似程度、字词的关联词的相似程度、字词的关联词网的图相似程度;(2).二语句中词组、子句或专有名词的重复程度;(3).二语句中词组、子句或专有名词的相似程度;(4).二语句词嵌入(词向量)的相似程度;(5).二语句的句型的相似程度;(6).二语句的语意相似程度;(7).二语句的蕴函关系;(8).二语句的蕴函机率;(9).二语句的语言模型的相似程度。
在一实施例中,互补程度评估模块140可依据语句的同一概念(或同义)词与句型来判断二语句的互补程度。例如,当二语句分别为「如何去台北」及「如何去天龙国」时,由于「台北」及「天龙国」属于同一概念(或同义)词且二语句的句型相同,因此互补程度评估模块140将此二语句判断为不互补(互补程度低)。在另一例子中,当二语句分别为「如何去台北」及「台北有什么活动」时,由于二语句的句型不同,因此互补程度评估模块140将此二语句判断为互补(互补程度高)。综上,互补程度评估模块140系采用句子文意分析技术判断二语句的互补程度。
接着,在图2的步骤S150中,请同时参照图5,其为图1的问答学习系统100的分类器更新的示意图。在人工标记所选的N4个确选待标记语句后,分类器产生模块110依据已标记的N1个语句与N4个确选待标记语句,重新建立分类器模块120的多个分类器C2。此外,分类器产生模块110可预先将前一个达代次(每重建一批分类器的过程称为一个达代次)的分类器C1储存在数据库150中。
接着,在步骤S160中,如图5所示,分类器评估模块160将这些重建前的分类器C1的至少一个加入分类器模块120中,以做为分类器模块120的成员。换言之,分类器评估模块160可将前一个迭代次所产生的多个分类器C1的至少一个加入这些目前迭代次所产生的多个分类器C2中,以作为分类器模块120的多个分类器的成员。由于不同分类器表示不同的问答分类模型,因此加入前一个迭代次所产生的多个分类器C1能够将新确选待标记语句对于问答准确率的影响缩减在分类器C1未涵盖的范围,降低更新分类器后问答准确度效能不稳定或下降的可能性,达到稳定提升问答学习系统100的问答准确率。
以下说明分类器评估模块160加入前一个迭代次的至少一分类器C1的多个实施例。分类器评估模块160可根据分类器C1的分类正确率、迭代次数、迭代次数衰减率、分类器模块成员上限或下限值、保留每一迭代次所有分类器、或上述条件的组合。
举例来说,在一实施例中,分类器评估模块160决定分类器模块成员120的组成方式为:保留以前所有迭代次的所有分类器C1。例如,若第一迭代次的分类器模块成员有4个分类器,则第二迭代次有8个分类器,其中4个是第一迭代次的全部4个分类器,而第三迭代次的分类器模块成员则有12个分类器,其中4个是第一迭代次的4个分类器而另4个是第二迭代次的4个分类器。
在另一实施例中,分类器评估模块160决定分类器模块成员120的组成方式为:只保留前一迭代次的所有分类器C1。例如,若第一迭代次的分类器模块成员有4个分类器,则第二迭代次有8个分类器,其中4个是第一迭代次的4个分类器,而第三迭代次的分类器模块成员仍为8个分类器,其中4个是第二迭代次的4个分类器。
在其它实施例中,分类器评估模块160决定分类器模块成员120的组成方式为:只保留前一迭代次中分类器C1分类正确率为排序的前n名者,其中n为介于该前一迭代次的分类器数量的1%~50%之间的数量;或者,n为介于1~前一迭代次的分类器数量的任意正整数。举例来说,若第一迭代次的分类器模块成员有4个分类器,则第二迭代次有6个分类器,其中2个是第一迭代次的4个分类器中分类正确率排序的前2名。
综上,在本公开实施例的问答学习方法中,人工只要针对相对少量确选待标记语句进行标记,因此能够节省大量人工处理工时。此外,由于学习迭代过程中能保留前次的分类器,确选待标记语句相较于其它已标记语句的互补程度高(或互补)且一致性程度低(或不一致),因此能够确保每一迭代次所挑选的确选待标记语句在加入问答学习系统中后,都能稳定持续提升问答准确率。
综上所述,虽然本公开已以实施例公开如上,然其并非用以限定本公开。本公开所属技术领域中具有通常知识者,在不脱离本公开的精神和范围内,当可作各种的更动与润饰。因此,本公开的保护范围当视后附的申请专利范围所界定者为准。
Claims (17)
1.一种问答学习方法,包括:
一分类器产生模块依据N个语句中已标记的N1个该语句建立一分类器模块,该分类器模块包含多个分类器,各该分类器表示不同的问答分类模型,其中N及N1为正整数;
该些分类器的各个判断该N个语句中未标记的N2个该语句的每一个的所属的语句类型,其中N2为正整数;
于一致性程度评估步骤中,一致性程度评估模块依据该些分类器的判断结果的一致性程度,从该未标记的N2个语句中挑选出N3个该语句,其中该些分类器对各该N3个语句的判断结果为不一致,且N3为正整数;
于互补程度评估步骤中,一互补程度评估模块从该N3个语句中挑选出彼此互补的N4个语句做为多个确选待标记语句,其中N4为正整数;
在标记该些确选待标记语句后,该分类器产生模块依据该已标记的N1个语句与该些确选待标记语句,重新建立该分类器模块的该些分类器;以及
一分类器评估模块将该些重建前的分类器的至少一个加入该分类器模块中,以做为该分类器模块的成员。
2.根据权利要求1所述的问答学习方法,更包括:
依一致性程度由高至低的顺序,排序该N3个语句。
3.根据权利要求1所述的问答学习方法,其中该互补程度评估步骤包括:
该互补程度评估模块挑选该N3个语句中不一致性最高的该语句做为该些确选待标记语句的成员。
4.根据权利要求3所述的问答学习方法,其中该互补程度评估步骤包括:
该互补程度评估模块比较该N3个语句中不一致性次高的该语句与该些确选待标记语句的每一个的互补程度;
当该不一致性次高的语句相较于该些确选待标记语句的每一个皆互补时,该互补程度评估模块将该不一致性次高的语句做为该些确选待标记语句的成员。
5.根据权利要求4所述的问答学习方法,其中该互补程度评估步骤包括:
当该不一致性次高的语句相较于该些确选待标记语句的任一个不互补时,该互补程度评估模块不将该不一致性次高的语句做为该些确选待标记语句的成员。
6.根据权利要求1所述的问答学习方法,其中该互补程度评估步骤包括:
(a)该互补程度评估模块挑选该N3个语句中不一致性最高的该语句做为该些确选待标记语句的成员;
(b)该互补程度评估模块比较该N3个语句中不一致性第i高的该语句与该些确选待标记语句的每一个的互补程度,其中i的初始值等于2;
(c)当该不一致性第i高的语句相较于该些确选待标记语句的每一个皆互补时,该互补程度评估模块将该不一致性第i高的语句做为该些确选待标记语句的成员;以及
(d)当i的值不等于N4时,累加i的值,然后重复执行步骤(b)~(d)。
7.根据权利要求6所述的问答学习方法,其中该互补程度评估步骤包括:
该互补程度评估模块判断该些确选待标记语句的数量是否已达N4;以及
当该些确选待标记语句的数量达到N4或已无语句可挑选,该互补程度评估模块停止执行该互补程度评估步骤。
8.根据权利要求6所述的问答学习方法,其中步骤(c)包括:
分析该不一致性第i高的语句的文意与该些确选待标记语句的每一个的文意;以及
当该不一致性第i高的语句的该文意与该些确选待标记语句的任一个的该文意互补时,该互补程度评估模块将该不一致性第i高的语句做为该些确选待标记语句的成员。
9.一种问答学习系统,包括:
一分类器产生模块,用以依据N个语句中已标记的N1个该语句建立一分类器模块,该分类器模块包含多个分类器,各该分类器表示不同的问答分类模型,其中N及N1为正整数;
该些分类器的各个判断该N个语句中未标记的N2个该语句的每一个的所属的语句类型,其中N2为正整数;
一致性程度评估模块用以:于一致性程度评估步骤中,依据该些分类器的判断结果的一致性程度,从该未标记的N2个语句中挑选出N3个该语句,其中该些分类器对各该N3个语句的判断结果为不一致,其中N3为正整数;
一互补程度评估模块用以:于一互补程度评估步骤中,从该N3个语句中挑选出彼此互补的N4个语句做为多个确选待标记语句,其中N4为正整数;
其中,该分类器产生模块更用以:在标记该些确选待标记语句后,依据该已标记的N1个语句与该些确选待标记语句,重新建立该分类器模块的该些分类器;以及
其中,该问答学习系统更包括:
一分类器评估模块用以:将该些重建前的分类器的至少一个加入该分类器模块中,以做为该分类器模块的成员。
10.根据权利要求9所述的问答学习系统,其中互补程度评估模块更用以:
依不一致性由高至低的顺序,排序该N3个语句。
11.根据权利要求9所述的问答学习系统,其中互补程度评估模块更用以:
挑选该N3个语句中不一致性最高的该语句做为该些确选待标记语句的成员。
12.根据权利要求11所述的问答学习系统,其中互补程度评估模块更用以:
比较该N3个语句中不一致性次高的该语句与该些确选待标记语句的每一个的互补程度;
当该不一致性次高的语句相较于该些确选待标记语句的每一个皆互补时,将该不一致性次高的语句做为该些确选待标记语句的成员。
13.根据权利要求12所述的问答学习系统,其中互补程度评估模块更用以:
当该不一致性次高的语句相较于该些确选待标记语句的任一个不互补时,不将该不一致性次高的语句做为该些确选待标记语句的成员。
14.根据权利要求9所述的问答学习系统,其中互补程度评估模块更用以:
(a)挑选该N3个语句中不一致性最高的该语句做为该些确选待标记语句的成员;
(b)比较该N3个语句中不一致性第i高的该语句与该些确选待标记语句的每一个的互补程度,其中i的初始值等于2;
(c)当该不一致性第i高的语句相较于该些确选待标记语句的每一个皆互补时,将该不一致性第i高的语句做为该些确选待标记语句的成员;以及
(d)当i的值不等于N4时,累加i的值,然后重复执行步骤(b)~(d)。
15.根据权利要求14所述的问答学习系统,其中互补程度评估模块更用以:
判断该些确选待标记语句的数量是否已达N4或已无语句可挑选;以及
当该些确选待标记语句的数量达到N4,停止执行该互补程度评估步骤。
16.根据权利要求14所述的问答学习系统,其中互补程度评估模块于步骤(c)中更用以:
分析该不一致性第i高的语句的文意与该些确选待标记语句的每一个的文意;以及
当该不一致性第i高的语句的该文意与该些确选待标记语句的任一个的该文意互补时,该互补程度评估模块将该不一致性第i高的语句做为该些确选待标记语句的成员。
17.一种计算机程序产品,用以载入于一问答学习系统,以执行一问答学习方法,该问答学习方法包括:
一分类器产生模块依据N个语句中已标记的N1个该语句建立一分类器模块,该分类器模块包含多个分类器,各该分类器表示不同的问答分类模型,其中N及N1为正整数;
该些分类器的各个判断该N个语句中未标记的N2个该语句的每一个的所属的语句类型,其中N2为正整数;
于一致性程度评估步骤中,一致性程度评估模块依据该些分类器的判断结果的一致性程度,从该未标记的N2个语句中挑选出N3个该语句,其中该些分类器对各该N3个语句的判断结果为不一致,且N3为正整数;
于互补程度评估步骤中,一互补程度评估模块从该N3个语句中挑选出彼此互补的N4个语句做为多个确选待标记语句,其中N4为正整数;
在标记该些确选待标记语句后,该分类器产生模块依据该已标记的N1个语句与该些确选待标记语句,重新建立该分类器模块的该些分类器;以及
一分类器评估模块将该些重建前的分类器的至少一个加入该分类器模块中,以做为该分类器模块的成员。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911387125.3A CN113051393A (zh) | 2019-12-27 | 2019-12-27 | 问答学习方法、问答学习系统及其计算机程序产品 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911387125.3A CN113051393A (zh) | 2019-12-27 | 2019-12-27 | 问答学习方法、问答学习系统及其计算机程序产品 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN113051393A true CN113051393A (zh) | 2021-06-29 |
Family
ID=76507428
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201911387125.3A Pending CN113051393A (zh) | 2019-12-27 | 2019-12-27 | 问答学习方法、问答学习系统及其计算机程序产品 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113051393A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113590830A (zh) * | 2021-08-24 | 2021-11-02 | 西南石油大学 | 一种基于不确定性与相似度量的主动学习分类方法 |
Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2001051582A (ja) * | 1999-01-01 | 2001-02-23 | Netman:Kk | データ入力検定プログラムを記録した媒体およびそのシステム |
CN105893523A (zh) * | 2016-03-31 | 2016-08-24 | 华东师范大学 | 利用答案相关性排序的评估度量来计算问题相似度的方法 |
WO2017010652A1 (ko) * | 2015-07-15 | 2017-01-19 | 포항공과대학교 산학협력단 | 자동질의응답 방법 및 그 장치 |
CN106855873A (zh) * | 2015-12-09 | 2017-06-16 | 财团法人工业技术研究院 | 网络问答系统、方法与计算机可读取记录媒体 |
US20190005018A1 (en) * | 2017-06-30 | 2019-01-03 | Open Text Corporation | Systems and methods for diagnosing problems from error logs using natural language processing |
CN110019703A (zh) * | 2017-09-21 | 2019-07-16 | 阿里巴巴集团控股有限公司 | 数据标记方法及装置、智能问答方法及系统 |
CN110245227A (zh) * | 2019-04-25 | 2019-09-17 | 义语智能科技(广州)有限公司 | 文本分类的融合分类器的训练方法及设备 |
CN110399467A (zh) * | 2018-04-20 | 2019-11-01 | 株式会社Ntt都科摩 | 提供用于自然语言问答系统的训练数据的方法和设备 |
-
2019
- 2019-12-27 CN CN201911387125.3A patent/CN113051393A/zh active Pending
Patent Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2001051582A (ja) * | 1999-01-01 | 2001-02-23 | Netman:Kk | データ入力検定プログラムを記録した媒体およびそのシステム |
WO2017010652A1 (ko) * | 2015-07-15 | 2017-01-19 | 포항공과대학교 산학협력단 | 자동질의응답 방법 및 그 장치 |
CN106855873A (zh) * | 2015-12-09 | 2017-06-16 | 财团法人工业技术研究院 | 网络问答系统、方法与计算机可读取记录媒体 |
CN105893523A (zh) * | 2016-03-31 | 2016-08-24 | 华东师范大学 | 利用答案相关性排序的评估度量来计算问题相似度的方法 |
US20190005018A1 (en) * | 2017-06-30 | 2019-01-03 | Open Text Corporation | Systems and methods for diagnosing problems from error logs using natural language processing |
CN110019703A (zh) * | 2017-09-21 | 2019-07-16 | 阿里巴巴集团控股有限公司 | 数据标记方法及装置、智能问答方法及系统 |
CN110399467A (zh) * | 2018-04-20 | 2019-11-01 | 株式会社Ntt都科摩 | 提供用于自然语言问答系统的训练数据的方法和设备 |
CN110245227A (zh) * | 2019-04-25 | 2019-09-17 | 义语智能科技(广州)有限公司 | 文本分类的融合分类器的训练方法及设备 |
Non-Patent Citations (1)
Title |
---|
镇丽华;王小林;杨思春;: "自动问答系统中问句分类研究综述", 安徽工业大学学报(自然科学版), no. 01, 15 January 2015 (2015-01-15) * |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113590830A (zh) * | 2021-08-24 | 2021-11-02 | 西南石油大学 | 一种基于不确定性与相似度量的主动学习分类方法 |
CN113590830B (zh) * | 2021-08-24 | 2023-11-17 | 西南石油大学 | 一种基于不确定性与相似度量的主动学习分类方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108763510B (zh) | 意图识别方法、装置、设备及存储介质 | |
Shinghal et al. | Experiments in text recognition with the modified Viterbi algorithm | |
US6389406B1 (en) | Semiotic decision making system for responding to natural language queries and components thereof | |
CN110019685B (zh) | 基于排序学习的深度文本匹配方法及装置 | |
CN108681574B (zh) | 一种基于文本摘要的非事实类问答答案选择方法及系统 | |
US6505184B1 (en) | Autognomic decision making system and method | |
CN115048944B (zh) | 一种基于主题增强的开放域对话回复方法及系统 | |
CN111078837A (zh) | 智能问答信息处理方法、电子设备及计算机可读存储介质 | |
Márquez et al. | A flexible POS tagger using an automatically acquired language model | |
CN110245349B (zh) | 一种句法依存分析方法、装置及一种电子设备 | |
CN112328800A (zh) | 自动生成编程规范问题答案的系统及方法 | |
CN113505209A (zh) | 一种面向汽车领域的智能问答系统 | |
CN113326374B (zh) | 基于特征增强的短文本情感分类方法及系统 | |
CN111222330A (zh) | 一种中文事件的检测方法和系统 | |
CN113407697A (zh) | 深度百科学习的中文医疗问句分类系统 | |
CN115905487A (zh) | 文档问答方法、系统、电子设备及存储介质 | |
CN113051393A (zh) | 问答学习方法、问答学习系统及其计算机程序产品 | |
CN113742396A (zh) | 一种对象学习行为模式的挖掘方法及装置 | |
CN113705207A (zh) | 语法错误识别方法及装置 | |
Spirtes et al. | Discovery algorithms for causally sufficient structures | |
CN110377753B (zh) | 基于关系触发词与gru模型的关系抽取方法及装置 | |
CN117010373A (zh) | 一种电力设备资产管理数据所属类别和组的推荐方法 | |
CN116644148A (zh) | 关键词识别方法、装置、电子设备及存储介质 | |
Merlo et al. | Feed‐forward and recurrent neural networks for source code informal information analysis | |
CN114625851B (zh) | 文本阅读模型的预训练方法、装置、设备及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |