CN113961692A - 机器阅读理解方法及系统 - Google Patents
机器阅读理解方法及系统 Download PDFInfo
- Publication number
- CN113961692A CN113961692A CN202111419961.2A CN202111419961A CN113961692A CN 113961692 A CN113961692 A CN 113961692A CN 202111419961 A CN202111419961 A CN 202111419961A CN 113961692 A CN113961692 A CN 113961692A
- Authority
- CN
- China
- Prior art keywords
- answer
- evidence
- noise
- candidate
- probability
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/332—Query formulation
- G06F16/3329—Natural language query formulation or dialogue systems
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
- G06F16/334—Query execution
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Databases & Information Systems (AREA)
- Artificial Intelligence (AREA)
- Computational Linguistics (AREA)
- Mathematical Physics (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Evolutionary Computation (AREA)
- Evolutionary Biology (AREA)
- Human Computer Interaction (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Bioinformatics & Computational Biology (AREA)
- Life Sciences & Earth Sciences (AREA)
- Electrically Operated Instructional Devices (AREA)
Abstract
本发明实施例提供一种机器阅读理解方法。该方法包括:将待阅读理解的文本和问题输入至答案检索器进行初步预测,得到多个候选答案以及对应于各候选答案的初步概率;将待阅读理解的文本、问题以及多个候选答案输入至证据抽取器,从待阅读理解的文本中抽取对应于各候选答案的各噪声证据;将问题、各候选答案以及对应的各噪声数据输入至答案验证器,从各候选答案中确定具有最大概率的最终答案。本发明实施例还提供一种机器阅读理解系统。本发明实施例判断被遮蔽句子对于候选答案概率的影响,确定了对应于各候选答案的各噪声证据,同时还解决了阅读理解任务中没有证据标注的问题。利用证据进行数据增强,进一步提升阅读理解的准确性。
Description
技术领域
本发明涉及机器学习领域,尤其涉及一种机器阅读理解方法及系统。
背景技术
MRC(Machine Reading Comprehension,机器阅读理解)的研究目标是让机器能够根据给定的自然语言文章并回答和文章相关的问题。除了构建能够准确回答问题的系统之外,还需要考虑让回答稳定可靠并且置信度较高,以便在真实场景中进行应用。让阅读理解系统提供答案的同时提供答案对应的证据,这能够大大增强阅读理解系统的可解释性。
可以创建规模更大、覆盖范围更广、复杂性更高的数据集来进一步提高语言理解能力,具体的可以通过两方面进行,一方面是证据生成,另一方面是答案验证:
已有的证据生成工作主要通过两方面来进行,一方面是基于模型预测的启发性方法,这些方法通过观察或者预测模型的输出来生成伪标签,再通过伪标签来训练证据选择的模型,另一方面是通过引入或者观察一些本身具备可解释能力的技术比如注意力机制来选择对应的片段作为答案的解释。
而阅读理解里的答案验证技术多基于抽取式的阅读理解任务(即答案是文章中的一个片段),这些工作通过包含答案的句子或者文章或者答案来和问题进行验证,判断答案是否是正确的以及问题是否是可以被回答的。
在实现本发明过程中,发明人发现相关技术中至少存在如下问题:
已有的证据抽取相关工作能够抽取出相关句子,但证据抽取相关工作关注于抽取证据本身,忽略了对证据的进一步应用的探索,使得在性能上对问答系统没有什么提升甚至部分工作有一定的性能损失,而已有的答案验证相关工作仅局限于形式较为简单的抽取式任务中,忽略了证据抽取和答案验证两个任务之间天然的相关性,对更复杂的任务形式例如多选式、生成式任务较难有应用场景。
发明内容
为了至少解决现有技术中忽略了证据对阅读理解的作用,答案验证的局限性的问题。
第一方面,本发明实施例提供一种机器阅读理解方法,包括:
将待阅读理解的文本和问题输入至答案检索器进行初步预测,得到多个候选答案以及对应于各候选答案的初步概率;
将所述待阅读理解的文本、所述问题以及多个候选答案输入至证据抽取器,从所述待阅读理解的文本中抽取对应于各候选答案的各噪声证据;
将所述问题、各候选答案以及对应的各噪声数据输入至答案验证器,从所述各候选答案中确定具有最大概率的最终答案。
第二方面,本发明实施例提供一种机器阅读理解系统,包括:
初步预测程序模块,用于将待阅读理解的文本和问题输入至答案检索器进行初步预测,得到多个候选答案以及对应于各候选答案的初步概率;
证据选择程序模块,用于将所述待阅读理解的文本、所述问题以及多个候选答案输入至证据抽取器,从所述待阅读理解的文本中抽取对应于各候选答案的各噪声证据;
答案验证程序模块,用于将所述问题、各候选答案以及对应的各噪声数据输入至答案验证器,从所述各候选答案中确定具有最大概率的最终答案。
第三方面,提供一种电子设备,其包括:至少一个处理器,以及与所述至少一个处理器通信连接的存储器,其中,所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行本发明任一实施例的机器阅读理解方法的步骤。
第四方面,本发明实施例提供一种存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时实现本发明任一实施例的机器阅读理解方法的步骤。
本发明实施例的有益效果在于:判断被遮蔽句子对于候选答案概率的影响,确定了对应于各候选答案的各噪声证据,同时还解决了阅读理解任务中没有证据标注的问题。利用证据进行数据增强,可以从增强后的待阅读理解的文本进一步提升阅读理解的准确性。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本发明一实施例提供的一种机器阅读理解方法的流程图;
图2是本发明一实施例提供的一种机器阅读理解方法的EVEMRC框架结构图;
图3是本发明一实施例提供的一种机器阅读理解方法的在RACE+数据集上的实验结果数据图;
图4是本发明一实施例提供的一种机器阅读理解方法的RACE和DREAM数据集的实验结果数据图;
图5是本发明一实施例提供的一种机器阅读理解方法的答案验证者的证据数据图;
图6是本发明一实施例提供的一种机器阅读理解方法的不同验证程序设置之间的比较数据图;
图7是本发明一实施例提供的一种机器阅读理解方法的不同类型的数据扩充方法数据图;
图8是本发明一实施例提供的一种机器阅读理解系统的结构示意图;
图9为本发明一实施例提供的一种机器阅读理解的电子设备的实施例的结构示意图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
如图1所示为本发明一实施例提供的一种机器阅读理解方法的流程图,包括如下步骤:
S11:将待阅读理解的文本和问题输入至答案检索器进行初步预测,得到多个候选答案以及对应于各候选答案的初步概率;
S12:将所述待阅读理解的文本、所述问题以及多个候选答案输入至证据抽取器,从所述待阅读理解的文本中抽取对应于各候选答案的各噪声证据;
S13:将所述问题、各候选答案以及对应的各噪声数据输入至答案验证器,从所述各候选答案中确定具有最大概率的最终答案。
在本实施方式中,图2示出了机器阅读理解框架,框架中的各个组件包括:AR(Answer Retriever,答案检索器),ES(Evidence Selector,证据选择器)和AV(AnswerVerifier,支持证据的答案验证器)。
阅读理解通常由文本和问题构成,例如,给定一大段材料,以及与材料相关的问题。通过阅读理解测试正确理解文章含义,分析段落、章节之间的联系和层次,概括文章大意和要点。
对于步骤S11,选定待阅读理解的文本和问题,可以使用MRC模型——AR(Answerretriver,答案检索器)来阅读整篇文章,找到所有的候选答案,并将其概率分布作为初步预测。对于跨度预测、自由形式答案或完形填空式MRC任务,AR必须给出所有可能的答案,以便为证据选择器准备输入;在多选题MRC设置中,为了简单起见,可以使用提供的答案列表。这样,针对不同类型的阅读理解,都可以得到多个候选答案以及对应于各候选答案的初步概率。
对于步骤S12,第二个阶段则是噪声证据的抽取,本方法设计了一个证据抽取器模型,这个证据抽取器的输入是问题以及对应的某一个可能的答案(对每一个可能的答案需要进行抽取,这就需要输入多个可能的候选答案),以及文章中的每一个句子,会利用证据抽取器为每一个可能的答案来抽取这个答案对应的噪声证据。检索候选答案后,使用ES(Evidence Selector,证据选择器)为每个答案选择证据句子。ES会先通读文章中的每一个句子,然后选择与具体答案密切相关的句子。由于大多数MRC任务缺乏证据标签,ES是由Answer retriver生成的伪证据标签初始化的,从而抽取对应于各候选答案的各噪声证据。
对于步骤S13,通过AR的初步预测和ES中对每个答案选择的噪声证据的语句,答案验证器(AV)将用相应的证据句和问题重新检查答案列表。答案选择过程相比基于“增大化现实”技术实际上是一个通用的搜索,AV主要集中在验证自AV的有针对性的回答证据的句子作为输入而不是整个通道AR。最后,AV给最后的答案和相应证据结合AR的预测,确定具有最大概率的最终答案。
作为一种实施方式,所述将所述问题、各候选答案以及对应的各噪声数据输入至答案验证器,从所述各候选答案中确定具有最大概率的最终答案包括:
将所述问题、各候选答案以及对应的各噪声数据输入至答案验证器,输出各候选答案的参考概率;
基于所述各候选答案的初步概率和参考概率,确定各候选答案的最终概率;
选择概率最大的最终概率对应的候选答案确定为最终答案。
在确定最终答案之后,所述方法还包括:
提供对应于最终答案的噪声证据作为干净证据。
在本实施方式中,利用每个答案对应的证据来进行新一轮的答案的概率分布的预测,其输入是把每个答案和问题以及答案对应的证据拼接成一个序列并对不同序列的分数进行概率化,最终的答案则是由初步的答案以及答案验证器输出的答案加权得来的,确定各候选答案的最终概率,而最终答案对应的证据则是我们选出的干净的证据,可以提供给用户增强问答系统的可信度。
具体的,机器阅读理解框架的架构可制订如下:
pA,A=AR(P,Q)
E={Ei:ES(P,Q,ai)for ai in A}
pV=AV(E,Q,A)
p=α*pV+(1-α)*pA
其中AR,ES,AV分别是答案检索器、证据选择器和答案验证器;P,Q,A,E分别是段落、问题、候选答案、每个答案的证据集;pA,pV,p是答案检索器、答案验证器和最终预测的候选答案的概率分布,a是加权系数。
由于证据标签的不可接近性导致了多项选择MRC任务中可解释性的研究意义,尽管本方法的框架可以应用于任何类型的MRC任务,但仍要关注多项选择MRC任务。在多项选择设置中,要求机器为答案集A={a1,a2,…,ak}(例如,k=4)选择正确答案,给出一段P={s1,s2,…,sn}和n个句子以及一个问题Q。本方法模型架构的详细信息如下所述:
对于多选择MRC任务,通过连接[CLS],P,[SEP],Q,[SEP],ai和[SEP]来构建输入序列,其中[CLS]和[SEP]分别是预训练语言模型中的分类器标记和句子分隔符。在第一个[SEP](包括)之前的令牌被分组为第一个片段,其余的令牌被视为第二个片段。将输入序列输入到预先训练过的语言模型(如BERT(Bidirectional Encoder Representation fromTransformers,预训练的语言表征模型))中,可以得到输入序列中第一个令牌的最终隐藏状态为其中N为隐藏大小。应用线性分类层得到每个候选答案ai的非归一化得分,并对所有候选答案的非归一化得分应用softmax层得到最终的预测,即:
证据选择器:直觉上,不同候选答案的证据句可能不相同。因此,证据选择器独立地为每个候选答案选择证据。给定候选答案ai、句子sj和问题Q,通过连接[CLS]、sj、[SEP]、Q、[SEP]、ai和[SEP]来构造输入序列。与应答检索器类似,将输入序列中第一个令牌的最终隐藏状态表示为线性分类层用于获得证据得分pE(i,j),即:
在对回答ai的每个句子打分后,选择得分最高的K句作为ai的证据句。
答案验证器:给定所有关联的证据句子Ei和候选答案ai,通过将Ei、Q和ai的串联输入与答案检索器具有相同结构的模型来验证它。类似地,将输入序列中第一个令牌的最终隐藏状态表示为线性分类层用于获得ai的非标准化分数,通过对非标准化分数应用softmax函数来计算验证者概率,即:
那么最终答案分数将是:
p=α*pV+(1-α)*pA
其中a是加权系数。
此外,与最终答案相对应的证据句将是预测的干净证据。
通过该实施方式可以看出,本方法的将可解释性、证据生成和答案验证结合到了一起,考虑了证据对于答案验证之间的相关性,有效的处理各种类型的阅读理解并很强的解释性。
作为一种实施方式,在本实施方式中,所述将所述待阅读理解的文本、所述问题以及多个候选答案输入至证据抽取器,从所述待阅读理解的文本中抽取对应于各候选答案的各噪声证据包括:
对所述待阅读理解的文本内的句子进行遮蔽,将所述句子被遮蔽后所述问题的各候选答案的初步概率的变化,确定为判断被遮蔽的句子的重要程度;
基于所述重要程度,判断所述被遮蔽的句子是否为噪声证据。
在本实施方式中,受人们如何将句子视为证据的启发,提出了一种基于答案检索器预测的启发式伪证据标签生成方法。
给定一个段落P、一个问题Q和一个候选答案a,首先使用答案检索器模型AR得到答案的原始概率分布。为了揭示段落中每个句子si的重要性,对输入段落进行了句子级掩蔽并获得了掩蔽预测该预测将AR的原始输入段落替换为P。可以认为,如果掩蔽句对回答这个问题至关重要,掩蔽后,答案分布会发生很大变化。因此,使用两个分布之间的Kullback-Leibler(KL)散度作为总体证据分数。为了确定每个句子对应的答案,还计算了两个分布之间的差异,并将句子分配给概率下降最大的答案。
对于每一篇文章,选择了前N个句子及其相应的答案作为正面例子。此外,还随机抽取否定性例子,并结合答案和非证据性句子来训练证据选择器。这样多次抽取,可以从待阅读理解的文本中抽取对应于各候选答案的各噪声证据。
通过该实施方式可以看出,判断被遮蔽句子对于候选答案概率的影响,确定了对应于各候选答案的各噪声证据,同时还解决了阅读理解任务中没有证据标注的问题。
作为一种实施方式,在本实施方式中,所述方法还包括基于所述噪声证据对所述待阅读理解文本进行数据增强,包括:
将所述待阅读理解文本的句子划分为:所述噪声证据的无关信息、包括多个噪声证据的噪音信息以及预设正确答案对应噪声证据的强相关信息;
基于所述无关信息、所述噪音信息以及所述强相关信息进行数据增强。
在本实施方式中,提出了一种新的数据增强方法,利用ES(evidence Selector,证据选择器)选择的证据句子进行数据增强。认为证据句不仅提供了很强的可解释性,而且还表明了信息的内在结构。在获得噪声证据和干净证据后,可以将通道内的信息分为三个层次:
无关信息对应的是文章中大多数非证据性的句子,与文章的主题相关,但对回答问题没有作用。
噪声信息对应于噪声证据,噪声证据与问题密切相关,并由证据选择器选择。
强相关信息与干净证据相对应,这是给出正确答案的必要条件。
基于上述信息分层,提出了几种数据增强方法:
无关信息替换由于背景信息对回答问题毫无用处,可以用其他段落中类似的背景信息替换背景信息。
噪音降低具体而言,将与错误答案相对应的证据句视为噪音。因此,可以删除可能误导模型的错误答案的证据句。
与噪声添加相反,可以添加强相关的证据选项对,通过分别在文章和答案列表中添加证据和相应的答案来干扰模型预测过程。
只实现了无关信息替换和降噪,并为以后的工作保留了噪声添加。算法的细节如下所述。
首先,对于一个具有段落P、问题Q和答案列表a的例子,通过将文本嵌入到其对应的TFIDF(term frequency-inverse document frequency,用于信息检索与数据挖掘的常用加权技术)加权向量中来检索具有相似段落的例子。计算了两个通道P1和P2的嵌入的余弦相似度:
TFIDF(P1,P2)=cos(BoWTFIDF(P1,BoWTFIDF(P1))
对a1和a2之间的所有段落中具有最大TFIDF分数的示例进行数据扩充。阈值有助于筛选只检索没有相似背景信息或几乎相同背景信息的段落的示例。
然后,使用以下两种方式进行背景替换或同时进行背景替换和降噪:
干净证据保存在检索到给定源通道的类似目标通道后,仅将干净证据插入目标通道,以形成一个新的示例,其中包含源问题和答案,同时替换背景信息并消除噪音。噪音证据保存与干净证据保存类似,只插入噪音证据,而只进行背景替换。
通过该实施方式可以看出,利用证据进行数据增强,可以从增强后的待阅读理解的文本进一步提升阅读理解的准确性。
对本方法进行实验说明,由于多类型MRC任务需要更多的推理技巧,不能简单地通过单词匹配来获得证据句,所以使用了以下三个多选题:
RACE:RACE是从初高中学生的英语考试中收集的数据集。RACE由人类专家生成,涵盖了各种精心设计的主题,以评估学生的理解和推理能力。
DREAM:DREAM是首个基于对话的多项选择阅读理解数据集,它收集自英语作为外语的考试,由人类专家设计,用于评估英语学习者的阅读理解能力。
RACE+:RACE+是ExpMRC的一个子集,与RACE类似,RACE用于评估MRC系统的可解释性。RACE+中每种情况的证据都是支持答案的最小通道跨度。
对于RACE+中的RACE、DREAM和答案预测任务的评价,采用标准精度。对于证据的评价,使用F1分数,它衡量的是一个字符水平上的精确度和召回率的加权平均值。此外,RACE+的作者还提供了一个完整的F1指标,反映了两个答案及其证据的正确性。
RACE+评估基线结果如图3所示的在RACE+数据集上的实验结果数据图。MostSimilar Sent和Most Similar Sent.w/Ques选择预测答案文本或预测答案与问题串联计算的F1分数最高的句子。伪数据训练是一个更强的基线,它使用黄金答案和问题来检索与伪数据最相似的句子。
对模型进行分析研究:排他性证据验证者排他性证据意味着一句话只能作为一个答案的证据。一旦多个答案选择同一个句子作为证据,使用证据选择器中证据得分最高的答案作为该句子的对应答案。
统一证据验证者尝试将统一证据应用于本方法的验证者。统一证据意味着所有答案都使用相同的证据句进行验证。选择所有答案中最高分数的句子作为统一证据。
仅使用问题验证器为了确定证据问题验证或证据答案验证是否更有效,还仅使用与候选答案相对应的问题和证据句子来实现答案验证器。
为了评估本方法的框架,使用了两个预先训练过的语言模型:BERT-base-uncased和Albertbase-v2,其中的实现基于Transformers的公共Pytorch实现。使用AdamW优化器,β1=0:9,β2=0:999,无重量衰减和预热。最大输入序列长度设置为512。由于RACE+仅提供开发集和隐藏测试集,因此使用RACE训练集进行训练。证据句和否定句的抽样数N,RACE为2,DREAM为1。为验证者选择的证据句数量为RACE-3句,DREAM-2句。以0.1为区间,在dev集上寻找概率组合的最佳加权系数,其取值范围为0.1~0.5。过滤TFIDF分数的a1和a2分别为0.2和0.8。通过运行三个随机种子来平均主要结果,并报告平均分数。使用4个NVIDIA 2080Ti进行所有实验。
将在RACE和DREAM上评估本方法的框架,展示答案预测的性能,如图4所示的RACE和DREAM数据集的实验结果数据图。为了评估本方法的两阶段证据选择管道所提取的证据句子,如图3所示,首先在RACE+开发集上测试本方法的框架。并将最好的结果提交给RACE+的隐藏测试集。图4显示了以BERT-base和ALBERT-base为基线比较RACE和DREAM的结果。
EveMRC实现了与RACE+BERT-base+1.7%,+1.8%,RACE+ALBERT-base+1.8%,+1.5%、DREAM+BERT-base+1.5%,1.5%和DREAM+ALBERTbase+1.4%,1.2%相比较的持续改进。此外,仅使用数据增强或仅使用答案验证器可以实现类似的改进。值得注意的是,发现答案验证器比数据增强方法获得了更好的结果,并且对本方法的EveMRC(可解释的MRC)框架贡献最大。
图3将本方法的框架在RACE+上与提出的几个基线进行了比较。RACE+上的实验结果表明,框架在证据选择(开发集和测试集分别为+12.8%和+9%)和答案预测(开发集和测试集分别为+3.1%和+6.6%)方面都取得了显著的改进。虽然没有提交与大水平基线相比的证据选择,但证据选择的改进是实质性的,开发集和测试集的证据选择F1分分别提高了10.5分和10分。
当为每个答案考生提取证据句进行答案验证时,自然就会出现什么样的证据句最适合答案验证的问题。在提取的证据太长或太短的情况下,会引入大量的噪声或忽略必要的证据。图5显示了随着证据句数量的增加,RACE和DREAM dev集合上的答案选择准确率的验证结果。可以看到,本方法的验证器在RACE上有3或4个证据句,在DREAM上有2个证据句,这是合理的,因为RACE的平均句子数比DREAM长得多(17.6vs.8.5)。
在不同验证器设置的比较,本方法提出了几种具有独占证据、统一证据和仅提问的验证设置。图6显示了RACE-dev集上的比较结果。从四种类型的验证器设置的总体结果来看,首先观察到,标准答案验证器采用答案明智的证据,以问题和选项作为验证,实现了最佳性能。统一证据验证器的性能比本方法的标准验证器稍差,但也比基线提高了很多。统一证据和回答明智证据的一个重要区别是,回答明智证据可以提供更全面的证据信息进行验证,而统一证据共享有限的信息。同样,排他证据在短证据的情况下确保了证据信息的全面性,但在长证据的情况下引入了更多的噪音,这也可以从排他证据验证者的证据判决数的准确性曲线中得出。此外,只有问题的验证者表现最差,这表明在本发光法的框架中证据-答案验证是不可或缺的。
对于干净的证据还是嘈杂的证据,图7显示了RACE-dev集合上两种类型的数据扩充方法的结果。显然,保留干净证据的数据增强方法比保留噪声证据的方法性能更好。令人惊讶的是,随着证据句数量的增加,观察到噪声证据保留的准确度增加,而干净证据保留的准确度降低。可以认为,短长度的干净证据已经包含了最重要的证据信息,并且随着证据长度的增加,它将引入更多的噪声。相反,嘈杂的证据需要更长的篇幅来包含回答问题的基本信息。
总的来说,随着可解释MRC系统研究的兴起,本方法提出了一种用于证据提取和答案验证的可解释MRC框架。通过提出一种启发式方法生成伪证据标签来解决缺乏标记证据数据的问题,并提出了证据句的两个令人印象深刻的应用:答案验证和数据扩充。实验结果表明了该框架的有效性和很强的解释性。
如图8所示为本发明一实施例提供的一种机器阅读理解系统的结构示意图,该系统可执行上述任意实施例所述的机器阅读理解方法,并配置在终端中。
本实施例提供的一种机器阅读理解系统10包括:初步预测程序模块11,证据选择程序模块12和答案验证程序模块13。
其中,初步预测程序模块11用于将待阅读理解的文本和问题输入至答案检索器进行初步预测,得到多个候选答案以及对应于各候选答案的初步概率;证据选择程序模块12用于将所述待阅读理解的文本、所述问题以及多个候选答案输入至证据抽取器,从所述待阅读理解的文本中抽取对应于各候选答案的各噪声证据;答案验证程序模块13用于将所述问题、各候选答案以及对应的各噪声数据输入至答案验证器,从所述各候选答案中确定具有最大概率的最终答案。
进一步地,所述答案验证程序模块用于:
将所述问题、各候选答案以及对应的各噪声数据输入至答案验证器,输出各候选答案的参考概率;
基于所述各候选答案的初步概率和参考概率,确定各候选答案的最终概率;
选择概率最大的最终概率对应的候选答案确定为最终答案。
进一步地,所述答案验证程序模块还用于:
提供对应于最终答案的噪声证据作为干净证据。
进一步地,所述证据选择程序模块用于:
对所述待阅读理解的文本内的句子进行遮蔽,将所述句子被遮蔽后所述问题的各候选答案的初步概率的变化,确定为判断被遮蔽的句子的重要程度;
基于所述重要程度,判断所述被遮蔽的句子是否为噪声证据。
进一步地,所述系统还包括基于噪声证据的数据增强程序模块,用于:
将所述待阅读理解文本的句子划分为:所述噪声证据的无关信息、包括多个噪声证据的噪音信息以及预设正确答案对应噪声证据的强相关信息;
基于所述无关信息、所述噪音信息以及所述强相关信息进行数据增强。
本发明实施例还提供了一种非易失性计算机存储介质,计算机存储介质存储有计算机可执行指令,该计算机可执行指令可执行上述任意方法实施例中的机器阅读理解方法;
作为一种实施方式,本发明的非易失性计算机存储介质存储有计算机可执行指令,计算机可执行指令设置为:
将待阅读理解的文本和问题输入至答案检索器进行初步预测,得到多个候选答案以及对应于各候选答案的初步概率;
将所述待阅读理解的文本、所述问题以及多个候选答案输入至证据抽取器,从所述待阅读理解的文本中抽取对应于各候选答案的各噪声证据;
将所述问题、各候选答案以及对应的各噪声数据输入至答案验证器,从所述各候选答案中确定具有最大概率的最终答案。
作为一种非易失性计算机可读存储介质,可用于存储非易失性软件程序、非易失性计算机可执行程序以及模块,如本发明实施例中的方法对应的程序指令/模块。一个或者多个程序指令存储在非易失性计算机可读存储介质中,当被处理器执行时,执行上述任意方法实施例中的机器阅读理解方法。
图9是本申请另一实施例提供的机器阅读理解方法的电子设备的硬件结构示意图,如图9所示,该设备包括:
一个或多个处理器910以及存储器920,图9中以一个处理器910为例。机器阅读理解方法的设备还可以包括:输入装置930和输出装置940。
处理器910、存储器920、输入装置930和输出装置940可以通过总线或者其他方式连接,图9中以通过总线连接为例。
存储器920作为一种非易失性计算机可读存储介质,可用于存储非易失性软件程序、非易失性计算机可执行程序以及模块,如本申请实施例中的机器阅读理解方法对应的程序指令/模块。处理器910通过运行存储在存储器920中的非易失性软件程序、指令以及模块,从而执行服务器的各种功能应用以及数据处理,即实现上述方法实施例机器阅读理解方法。
存储器920可以包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需要的应用程序;存储数据区可存储数据等。此外,存储器920可以包括高速随机存取存储器,还可以包括非易失性存储器,例如至少一个磁盘存储器件、闪存器件、或其他非易失性固态存储器件。在一些实施例中,存储器920可选包括相对于处理器910远程设置的存储器,这些远程存储器可以通过网络连接至移动装置。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。
输入装置930可接收输入的数字或字符信息。输出装置940可包括显示屏等显示设备。
所述一个或者多个模块存储在所述存储器920中,当被所述一个或者多个处理器910执行时,执行上述任意方法实施例中的机器阅读理解方法。
上述产品可执行本申请实施例所提供的方法,具备执行方法相应的功能模块和有益效果。未在本实施例中详尽描述的技术细节,可参见本申请实施例所提供的方法。
非易失性计算机可读存储介质可以包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需要的应用程序;存储数据区可存储根据装置的使用所创建的数据等。此外,非易失性计算机可读存储介质可以包括高速随机存取存储器,还可以包括非易失性存储器,例如至少一个磁盘存储器件、闪存器件、或其他非易失性固态存储器件。在一些实施例中,非易失性计算机可读存储介质可选包括相对于处理器远程设置的存储器,这些远程存储器可以通过网络连接至装置。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。
本发明实施例还提供一种电子设备,其包括:至少一个处理器,以及与所述至少一个处理器通信连接的存储器,其中,所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行本发明任一实施例的机器阅读理解方法的步骤。
本申请实施例的电子设备以多种形式存在,包括但不限于:
(1)移动通信设备:这类设备的特点是具备移动通信功能,并且以提供话音、数据通信为主要目标。这类终端包括:智能手机、多媒体手机、功能性手机,以及低端手机等。
(2)超移动个人计算机设备:这类设备属于个人计算机的范畴,有计算和处理功能,一般也具备移动上网特性。这类终端包括:PDA、MID和UMPC设备等,例如平板电脑。
(3)便携式娱乐设备:这类设备可以显示和播放多媒体内容。该类设备包括:音频、视频播放器,掌上游戏机,电子书,以及智能玩具和便携式车载导航设备。
(4)其他具有数据处理功能的电子装置。
在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”,不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
以上所描述的装置实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下,即可以理解并实施。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件。基于这样的理解,上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在计算机可读存储介质中,如ROM/RAM、磁碟、光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。
最后应说明的是:以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。
Claims (12)
1.一种机器阅读理解方法,包括:
将待阅读理解的文本和问题输入至答案检索器进行初步预测,得到多个候选答案以及对应于各候选答案的初步概率;
将所述待阅读理解的文本、所述问题以及多个候选答案输入至证据抽取器,从所述待阅读理解的文本中抽取对应于各候选答案的各噪声证据;
将所述问题、各候选答案以及对应的各噪声数据输入至答案验证器,从所述各候选答案中确定具有最大概率的最终答案。
2.根据权利要求1所述的方法,其中,所述将所述问题、各候选答案以及对应的各噪声数据输入至答案验证器,从所述各候选答案中确定具有最大概率的最终答案包括:
将所述问题、各候选答案以及对应的各噪声数据输入至答案验证器,输出各候选答案的参考概率;
基于所述各候选答案的初步概率和参考概率,确定各候选答案的最终概率;
选择概率最大的最终概率对应的候选答案确定为最终答案。
3.根据权利要求1所述的方法,其中,在确定最终答案之后,所述方法还包括:
提供对应于最终答案的噪声证据作为干净证据。
4.根据权利要求1所述的方法,其中,所述将所述待阅读理解的文本、所述问题以及多个候选答案输入至证据抽取器,从所述待阅读理解的文本中抽取对应于各候选答案的各噪声证据包括:
对所述待阅读理解的文本内的句子进行遮蔽,将所述句子被遮蔽后所述问题的各候选答案的初步概率的变化,确定为判断被遮蔽的句子的重要程度;
基于所述重要程度,判断所述被遮蔽的句子是否为噪声证据。
5.根据权利要求4所述的方法,其中,所述方法还包括基于所述噪声证据对所述待阅读理解文本进行数据增强,包括:
将所述待阅读理解文本的句子划分为:所述噪声证据的无关信息、包括多个噪声证据的噪音信息以及预设正确答案对应噪声证据的强相关信息;
基于所述无关信息、所述噪音信息以及所述强相关信息进行数据增强。
6.一种机器阅读理解系统,包括:
初步预测程序模块,用于将待阅读理解的文本和问题输入至答案检索器进行初步预测,得到多个候选答案以及对应于各候选答案的初步概率;
证据选择程序模块,用于将所述待阅读理解的文本、所述问题以及多个候选答案输入至证据抽取器,从所述待阅读理解的文本中抽取对应于各候选答案的各噪声证据;
答案验证程序模块,用于将所述问题、各候选答案以及对应的各噪声数据输入至答案验证器,从所述各候选答案中确定具有最大概率的最终答案。
7.根据权利要求6所述的系统,其中,所述答案验证程序模块用于:
将所述问题、各候选答案以及对应的各噪声数据输入至答案验证器,输出各候选答案的参考概率;
基于所述各候选答案的初步概率和参考概率,确定各候选答案的最终概率;
选择概率最大的最终概率对应的候选答案确定为最终答案。
8.根据权利要求6所述的系统,其中,所述答案验证程序模块还用于:
提供对应于最终答案的噪声证据作为干净证据。
9.根据权利要求6所述的系统,其中,所述证据选择程序模块用于:
对所述待阅读理解的文本内的句子进行遮蔽,将所述句子被遮蔽后所述问题的各候选答案的初步概率的变化,确定为判断被遮蔽的句子的重要程度;
基于所述重要程度,判断所述被遮蔽的句子是否为噪声证据。
10.根据权利要求9所述的系统,其中,所述系统还包括基于噪声证据的数据增强程序模块,用于:
将所述待阅读理解文本的句子划分为:所述噪声证据的无关信息、包括多个噪声证据的噪音信息以及预设正确答案对应噪声证据的强相关信息;
基于所述无关信息、所述噪音信息以及所述强相关信息进行数据增强。
11.一种电子设备,其包括:至少一个处理器,以及与所述至少一个处理器通信连接的存储器,其中,所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行权利要求1-5中任一项所述方法的步骤。
12.一种存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时实现权利要求1-5中任一项所述方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111419961.2A CN113961692A (zh) | 2021-11-26 | 2021-11-26 | 机器阅读理解方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111419961.2A CN113961692A (zh) | 2021-11-26 | 2021-11-26 | 机器阅读理解方法及系统 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN113961692A true CN113961692A (zh) | 2022-01-21 |
Family
ID=79472153
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202111419961.2A Pending CN113961692A (zh) | 2021-11-26 | 2021-11-26 | 机器阅读理解方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113961692A (zh) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115169364A (zh) * | 2022-06-17 | 2022-10-11 | 北京百度网讯科技有限公司 | 智能问答方法、装置、设备以及存储介质 |
CN115761273A (zh) * | 2023-01-10 | 2023-03-07 | 苏州浪潮智能科技有限公司 | 视觉常识推理方法和装置、存储介质及电子设备 |
CN117807322A (zh) * | 2024-02-29 | 2024-04-02 | 南京信息工程大学 | 一种基于知识图谱检索的虚假新闻检测方法及系统 |
-
2021
- 2021-11-26 CN CN202111419961.2A patent/CN113961692A/zh active Pending
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115169364A (zh) * | 2022-06-17 | 2022-10-11 | 北京百度网讯科技有限公司 | 智能问答方法、装置、设备以及存储介质 |
CN115169364B (zh) * | 2022-06-17 | 2024-03-08 | 北京百度网讯科技有限公司 | 智能问答方法、装置、设备以及存储介质 |
CN115761273A (zh) * | 2023-01-10 | 2023-03-07 | 苏州浪潮智能科技有限公司 | 视觉常识推理方法和装置、存储介质及电子设备 |
CN115761273B (zh) * | 2023-01-10 | 2023-04-25 | 苏州浪潮智能科技有限公司 | 视觉常识推理方法和装置、存储介质及电子设备 |
CN117807322A (zh) * | 2024-02-29 | 2024-04-02 | 南京信息工程大学 | 一种基于知识图谱检索的虚假新闻检测方法及系统 |
CN117807322B (zh) * | 2024-02-29 | 2024-05-14 | 南京信息工程大学 | 一种基于知识图谱检索的虚假新闻检测方法及系统 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109637546B (zh) | 知识蒸馏方法和装置 | |
CN113961692A (zh) | 机器阅读理解方法及系统 | |
CN106940788B (zh) | 智能评分方法及装置、计算机设备及计算机可读介质 | |
Bergmann et al. | Development of infants' segmentation of words from native speech: A meta‐analytic approach | |
CN112487139B (zh) | 基于文本的自动出题方法、装置及计算机设备 | |
US9754504B2 (en) | Generating multiple choice questions and answers based on document text | |
CN109359290B (zh) | 试题文本的知识点确定方法、电子设备及存储介质 | |
CN111209384A (zh) | 基于人工智能的问答数据处理方法、装置及电子设备 | |
CN109189989B (zh) | 一种视频描述方法及装置、计算机设备和存储介质 | |
Wu et al. | A survey on llm-gernerated text detection: Necessity, methods, and future directions | |
Yin et al. | On the robustness of language encoders against grammatical errors | |
CN109783631A (zh) | 社区问答数据的校验方法、装置、计算机设备和存储介质 | |
CN104933121A (zh) | 一种用于外语学习、语言能力测试的方法、装置和系统 | |
CN111241248A (zh) | 同义问句生成模型训练方法及系统、同义问句生成方法 | |
CN111192170B (zh) | 题目推送方法、装置、设备和计算机可读存储介质 | |
CN109284389A (zh) | 一种文本数据的信息处理方法、装置 | |
CN114936594A (zh) | 一种利用标点进行文本后门攻击的方法 | |
Aljameel et al. | LANA-I: an Arabic conversational intelligent tutoring system for children with ASD | |
CN110852071A (zh) | 知识点检测方法、装置、设备及可读存储介质 | |
CN112784022B (zh) | 一种政务faq知识库自动构建方法、装置和电子设备 | |
CN113361396A (zh) | 多模态的知识蒸馏方法及系统 | |
CN113946604B (zh) | 分阶段围棋教学方法、装置、电子设备及存储介质 | |
Green | Extensive reading for a 9,000-word vocabulary: Evidence from corpus modeling | |
CN114170856A (zh) | 用机器实施的听力训练方法、设备及可读存储介质 | |
Yamaguchi et al. | An accessible captcha system for people with visual disability–generation of human/computer distinguish test with documents on the net |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |