CN109255012A

CN109255012A - 一种机器阅读理解的实现方法以及装置

Info

Publication number: CN109255012A
Application number: CN201810812763.4A
Authority: CN
Inventors: 杨志明; 时迎成
Original assignee: Deep Thinking Artificial Intelligence Robot Technology (beijing) Co Ltd
Current assignee: Deep Thinking Artificial Intelligence Robot Technology (beijing) Co Ltd
Priority date: 2018-07-23
Filing date: 2018-07-23
Publication date: 2019-01-22
Anticipated expiration: 2038-07-23
Also published as: CN109255012B

Abstract

公开了机器阅读理解的实现方法，根据问题类型过滤第一数据集合得到过滤后的第二数据集合；将问题与第二数据集合中的数据i进行语义匹配，得数据i的语义匹配得分；将问题与所述数据i进行最大覆盖度计算得到数据i的特征匹配得分；加权所述数据i的语义匹配得分和特征匹配得分得到问题与数据i的匹配得分；对数据i按照多文档投票算法计算数据i的投票得分，根据数据i的匹配得分和投票得分，计算出数据i的最终得分；按照最终得分的降序选择序列中前n个数据，作为候选数据集；将所述候选数据集输入基线模型，基于基线模型对输入数据集进行答案预测，得到所述问题的候选答案集。本申请实现了对数据集合的排序，对问题抽取出有效地答案。

Description

一种机器阅读理解的实现方法以及装置

技术领域

本发明涉及自然语言的机器理解，特别地，涉及一种机器阅读理解的实现方法以及装置。

背景技术

随着互联网的兴起和发展，数据急速增长，如何利用机器阅读理解技术来帮助用户查找到满意的答案，是自然语言理解技术研究领域中的一个经典课题。机器阅读理解作为自然语言理解的一个子领域，让机器具备自然语言的阅读理解与问答能力，一直是研究者和业界关注的对象，也是目前智能语音交互和人机对话的核心难题。机器阅读理解(Machine Reading Comprehension)是让机器像人类一样通过阅读自然语言文本，然后经过推理总结，从而能够精准地回答和阅读内容相关的问题。

机器阅读方法分为两类：分别为生成式和抽取式。生成式是从理论上来说不受知识的局限，对于问题自动生成答案，但是生成式有时产生的答案答非所问，句式不通，不能很好地体现出人类的思维逻辑以及自然表述的特点。抽取式通过给定问题以及相关的文章进行训练，让机器具备阅读的能力，并对提出的新问题，在相关文章中抽取出相应的答案。相对于生成式而言，抽取式的技术优势更加明显，应用更为广泛。

自斯坦福机器阅读理解数据集SQuAD问世以来，经过谷歌、微软、百度、科大讯飞、腾讯、斯坦福大学等在内的众多研究机构的不懈努力，形成了“词向量化—— 语义编码——语义交互——答案预测”这样一套四层机器阅读理解模型体系。该体系的主要思想是：首先，将自然文本表示为可计算的向量，其次，融合问题向量与支撑文档向量来使得机器学习到语义交互信息，最后，根据交互信息预测答案的位置或逐一输出最大概率的字词来生成答案。

现在，通过搜索引擎来搜索问题，会返回相关的网页，用户需要通过点击到网页中进行浏览，查找自己需要的答案。如果搜索引擎能够针对用户的问题，准确的为用户返回他们需要的标准答案，这会极大的节省用户宝贵的时间，并会带给用户良好的用户体验。

发明内容

本申请提供一种机器阅读理解的实现方法，以提高搜索的问题与所返回的答案相匹配的精准性。

一种机器阅读理解的实现方法，该方法包括，

根据问题类型过滤第一数据集合，得到过滤后的第二数据集合；

将问题与第二数据集合中的数据i进行语义匹配，得数据i的语义匹配得分；

将问题与所述数据i进行最大覆盖度计算，得到数据i的特征匹配得分；

加权所述数据i的语义匹配得分和特征匹配得分，得到问题与数据i的匹配得分；

对数据i按照多文档投票算法计算数据i的投票得分，根据数据i的匹配得分和投票得分，计算出数据i的最终得分；

按照所计算得到的最终得分的降序，对所述第二数据集合中的数据进行排序，选择序列中前n个数据，作为候选数据集；

将所述候选数据集作为基线模型的输入数据集，

基于基线模型对输入数据集进行答案预测，得到所述问题的候选答案集，

其中，i为不大于第二数据集合中数据总数的自然数，n为基线模型的输入数据集合中的数据个数。

可选地，对候选答案集中的候选答案进行交叉验证，

按照多答案投票算法，计算候选答案集中的答案t的交叉验证投票得分，

根据数据i的位置信息对该答案t的投票得分进行加权，得到第二投票得分，

从第二投票得分中选择出最大得分所对应的答案作为候选答案，

其中，t为不大于n的自然数。

一种减少候选数据集规模的方法，该方法包括，

基于匹配得分，对数据i按照多文档投票算法计算数据i的投票得分，

按照所计算得到的投票得分的降序，对所述第二数据集合中的数据进行排序，选择序列中前n个数据，作为候选数据集；

其中，i、n均为不大于第二数据集合中元素总数的自然数。

本申请基于问题来对数据集合进行过滤、语义匹配、最大覆盖度计算、特征加权、多文档投票等处理，实现了对数据集合的排序，降低了候选数据集的规模，使得基于基线模型的答案预测的效率得到了提高，对于多文档的篇章理解，缩小了候选文档的范围，提升了基线模型的效果。此外，候选答案之间的交叉验证和多答案投票算法，实现了对答案的综合预测，提高了答案的有效性。

附图说明

图1是训练集、验证集、测试集数据分布；

图2为问题类型分布；

图3为答案数量统计；

图4为篇章数量和段落数量分布；

图5为答案在篇章段落中位置的分布；

图6为答案边界范围分布；

图7为RBiDAF模型总体框架；

图8为段落排序处理的示意图；

图9为增加了答案验证和位置加权层的RBiDAF模型总体框架。

具体实施方式

为了使本申请的目的、技术手段和优点更加清楚明白，以下结合附图对本申请做进一步详细说明。

本申请所涉及的机器阅读理解，按照机器阅读中的抽取式，根据支撑文档和给定问题，从支撑文档中选择出候选文档，从候选文档中抽取或者推理出给定问题对应的答案。支撑文档形式和数量的不同，使得数据集(按功能划分，包括问题集、训练集、开发集、测试集)也不同，所采取的算法模型也不同，算法模型的运行效率也不同。例如，斯坦福数据集的支撑文档直接是一个最相关段落，微软数据集MS MARCO则是若干篇只有一个段落(paragraph)的文章；百度的数据集则是一篇文章中包含了多个段落。

以下将以百度数据集、段落集合作为基线模型的输入为例，并结合基线模型BiDAF模型来说明本申请的机器阅读理解的实现方法。作为变形之一的实施方式中，所述段落集合可以替换为文本集合，BiDAF模型也可替换为基于问题对答案进行预测的其他模型。

为了有针对性地对机器阅读理解模型进行改进，提高与问题相关段落定位的准确性，对数据集中数据以及分布情况进行了统计分析。

如图1所示，在百度数据集中，训练集、验证集、测试集数据分布如图1所示；图2是按照对给定问题所进行的分类统计，给定问题包括，实体问题，描述性问题，以及是非问题；统计表明，在描述类问题上，事实类的概率高于观点类的概率，图3是答案来源于百度搜索、百度知道分布情况；图4是来源于百度搜索、百度知道中的篇章和段落数据分布情况，从数据分布可见，百度搜索中的段落数量是比较多的；图5是答案在篇章中位置分布情况，含有答案的段落出自于第一个篇章的概率是42.3％，而出自第5个篇章的概率仅为6.63％；图6是答案边界范围的概率分布。

另外，由于来源于百度知道和百度搜索的原始数据中，含有大量的网页标签等字符级的噪声数据以及句子级的噪声数据，例如，下表的原始数据中，黑体部分有的文字并不携带有效的信息，有些是无文字含义的字符，这些数据如果不进行清洗，将使得答案不够准确，甚至在答案中出现用户难以读懂的非自然语言。

表1原始数据

为了数据方便清洗，可以选择直接对未加工的数据进行清洗，由于未加工数据是没有标签的原始数据，故清洗完成后还需要生成含有标签的训练数据和验证数据。如表2所示，清洗后的数据保留了有效的文字信息，所删除的噪声并不影响原始数据所表达得信息。

表2清洗后的数据

从图4得知，每一个问题对应多个段落，尤其是在百度搜索数据集，问题和段落的比接近1:57，从图5得知，含有答案的段落出自于第一个篇章的概率较高，而且，鉴于使用recall指标的段落定位层可以提升整个模型的效果至少10％，所以应该尽量检索出含有答案的段落，从而减小候选集的数据规模。

本申请在基线模型的基础上增加了段落排序(ranking)的处理，作为一种具体实施方式之一，对于来自百度知道和百度搜索的DuReader数据，则基于BiDAF 模型增加了段落rangking层。如图7所示，图7是增加了段落rangking层的BiDAF 模型，为区别于原BiDAF模型模型，在本申请中将其称为RBiDAF模型。该RBiDAF 模型中，在BiDAF模型编码层(encoder layer)中的段落数据输入之前，增加了段落排序层，以将含有答案的段落尽可能检索出来，再将检索出来的段落作为BiDAF 模型的输入段落数据。

参见图8所示，图8为段落排序处理的示意图。

步骤801，将来自于DuReader数据的第一段落集根据问题类型进行过滤，以去除与问题不相关的段落，得到过滤后的第二段落集，较佳地，可以基于清洗后的数据来进行过滤；例如，实体类型的问题中，关键词是“联系方式”、“热线”，利用正则表达式将不含电话号码的段落进行过滤。

步骤802，对第二段落集中的段落进行段落重组，得到重组后的段落集，该段落集将作为第三段落集合，记为D_c：

DuReader数据集中的段落长度极度不平衡，有些段落的长度很短，有些答案是跨段落的，尤其在描述类的问题，所以如果仅仅以某一个段落作为输入，那么将无法很好的解决答案跨段落的问题，因此，将长度低于第一阈值的段落进行重组，重组的原则是将长度短的段落顺序拼接在一起，拼接后的段落长度控制在第二阈值splice_L之内，splice_L的值则根据本文在图6统计的结果给定。

步骤803，将问题与第三段落集合中的段落i进行语义匹配，得到段落i的文本相似度值，该值作为语义匹配得分p_s，i；

不仅要考虑问题和段落之间的显式关系，还要考虑两者之间的隐式关系，即两者之间的语义关系。比如：question：北京2017年的商业住房的均价是多少？； paragraph：据我所知是四万元一平。上例question和paragraph之间的最大覆盖度虽然为0，但是两种之间具有极大地相关性，并且“四万元一平”极有可能是答案。所以为了克服语义匹配上的弊端，较佳地，可以选择利用深度神经网络计算 question和paragraph之间的语义相关性。

由于ARC-II保留了词序信息，更具一般性，故而可以采用ARC-II文本匹配模型来对问题以及段落之间的语义相关度进行计算，最终得到文本语义匹配得分 ps。

步骤804，将问题与第三段落集合中的段落i进行最大覆盖度计算，得到段落 i的特征值，该值作为特征匹配得分p_c，i：

DuReader的基线模型采用问题和段落的最大词语覆盖度算法对段落进行排序，然后对每一个篇章挑选排序为第一的篇章作为BiDAF模型的输入，为了适应于BiDAF模型的输入，本步骤中沿用了基线模型的最大覆盖度算法，将问题与段落的最大覆盖度作为段落排序处理(即，ranking层)的一个特征匹配得分，记为 p_c，并且，分别选择了基于词和基于字的最大覆盖度，两者相加作为最终特征匹配得分p_c。

在上述步骤803、804无前后顺序，可以并行进行，也可以不并行执行。

步骤805，将第三段落集合中的段落i的文本语义匹配得分和特征匹配得分进行加权，得到问题与段落i的最终匹配得分：

通过分析DuReader的训练集可知，在描述类问题的答案中，存在大量列表类型的答案，所以针对描述类问题识别出段落中的列表信息，并根据这一特征对段落进行加权，定义权值为β。

经过语义匹配、最大覆盖度计算以及特征加权可以得到问题和段落i的最终匹配得分m_score_i：

m_score_i＝β_i·(p_s,i+p_c,i)

步骤806，对于第三段落集合中的段落i，计算每一段落的投票得分，然后对投票得分进行加权，得到段落i的最终得分，根据最终得分按照降序进行排序，选择出前n个段落作为ranking层的输出段落集合，即，该top-n段落作为BiDAF模型的输入段落集合，其中，n的个数等于BiDAF模型的输入段落个数。

具体如下：

由于基于某一问题的正确答案在多个段落中会多次出现，则每一个段落的投票得分为：

其中，rouge(i，j)表示第三段落集合中的段落i与该集合中的其他段落j的相关性计算函数。

按照指数平滑函数对段落i的投票得分进行加权处理，段落i的最终得分 p_score_i为：

p_score_i＝m_score_i·f(v_score_i) (3)

其中f函数是指数平滑函数，最终根据p_score_i分值的大小由大到小对第三段落集合中的段落进行排序，选择前n个段落作为输入BiDAF模型的段落候选集合D_f。

本申请基于RBiDAF模型，进一步对答案预测进行了优化。如图7所示，BiDAF 模型中使用边界模型(Boundary Model)进行答案预测，该边界模型预测每一个词作为答案开始和结束位置的概率，这从而大大减小了搜索空间。对于集合D_f中的每一个段落，利用Boundary Model为段落i预测边界得分s_score_i。

s_score_i＝p(w_s|hⁱ)p(w_e|w_s,hⁱ) (4)

对于集合D_f中的每一个段落i，经过BiDAF模型的预测输出一个s_score_i，其对应的答案为ans_i。

本申请的答案预测如图9，图9为增加了答案验证和位置加权层的RBiDAF 模型总体框架。

将BiDAF模型输出的答案ans_i，进行交叉验证，利用候选段落的位置信息对答案加权，并采用多答案投票算法来对答案进行综合预测，其中，位置信息可以是原始数据的位置信息，也可以是段落的排序信息，从而使得在基本上不损失精度的前提下，预测的时间效率会大幅提升。

具体的公式如下：

对于答案i，计算其投票得分va_score_i，即，对于交叉验证的结果，计算答案i的投标得分，

s_score_i＝h(s_score_i)·va_score_i (6)

a_score_i＝s_score_i·l(index_i) (7)

其中，rouge(ans_i,ans_i)表示候选答案集合中的候选答案ans_i与该集合中的其他答案ans_j的相关性计算函数，即，进行候选答案的交叉验证；函数g是指数平滑函数；鉴于段落候选集合Df和答案候选集合的元素数量是相同的，即，数据集合Df中的每一个段落都会生成一个答案，公式5中，i、j可以属于Df；函数h是对数平滑函数，函数l是指数平滑函数，index_i是候选段落所在的位置信息，在该实施例中，位置信息为段落的排序信息。正如图5所示，含有答案的段落出自第1 个篇章的概率为42.3％，而出自第5个篇章的概率仅为6.63％，所以将其作为先验知识加权到答案的a_score_i中；从得分a_score_i中选择出最大得分所对应的答案作为最终答案输出。

为了验证RBiDAF模型在篇章理解上的有效性，本文在DuReader数据集上进行了实验验证，并且在DuReader数据集上取得了比较理想的结果，以下是对实验结果的情况。

验证RBiDAF模型所重点建模的三个方向对模型总体效果的影响，分别是 Ranking算法、Ranking+Position weighting以及Ranking+Cross-validation+Positionweighting，实验效果如表3所示。

表3 RBiDAF模型实验结果分析

从实验数据可以看出，Ranking处理对模型的提升是最大的，所以对于多文档的篇章理解，首先需要缩小候选文档的范围。其次由于DuReader数据集选自百度知道与百度搜索，篇章的排列顺序可以作为一个重要的先验知识，并可以有效的提升模型的效果，最后，候选答案之间的交叉验证也可以提升模型的效果，尤其是可以提高BLEU指标。

以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内，所做的任何修改、等同替换、改进等，均应包含在本发明保护的范围之内。

Claims

1.一种机器阅读理解的实现方法，其特征在于，该方法包括，

对数据i按照多文档投票算法计算数据i的投票得分；根据数据i的匹配得分和投票得分，计算出数据i的最终得分；

将所述候选数据集作为基线模型的输入数据集，

2.如权利要求1所述的实现方法，其特征在于，该方法进一步包括，

对候选答案集中的候选答案进行交叉验证，

其中，t为不大于n的自然数。

3.如权利要求1或2所述的实现方法，其特征在于，所述第一数据集合为段落集合；所述第二数据集合中的数据i为段落集合中的段落i；所述基线模型为BiDAF模型；所述第一数据集合中的数据为清洗了字符级噪声和/或句子级噪声的数据；该方法还包括，将所述过滤后的第二数据集合中的段落进行段落重组。

4.如权利要求3所述的实现方法，其特征在于，所述按照多答案投票算法，计算候选答案集中的答案t的交叉验证投票得分，包括，按照如下式子进行计算：

对于答案t，计算交叉验证投票得分va_score_t

其中，rouge(ans_i,ans_i)表示候选答案集合中的候选答案ans_i与该集合中的其他答案ans_j的相关性计算函数，D_f为候选集，函数g是指数平滑函数，s_score_j为利用边界模型为段落j预测边界得分；

所述根据数据i的位置信息对该答案t的投票得分进行加权，得到第二投票得分，包括，按照式子进行计算：

s_score_i＝h(s_score_i)·va_score_t

a_score_t＝s_score_i·l(index_i)

其中，函数h是对数平滑函数，函数l是指数平滑函数，index_i是候选段落所在的位置信息，a_score_t为第二投票得分。

5.如权利要求3所述的实现方法，其特征在于，所述段落重组包括，将段落长度低于第一阈值的段落顺序地拼接，拼接后的段落长度不大于第二阈值，并得到重组后的段落集合，该集合作为第三段落集合；

所述i为不大于第三段落集合中段落总数的自然数。

6.如权利要求3所述的实现方法，其特征在于，所述最大覆盖度计算包括，基于最大覆盖度算法，分别计算基于词和基于字的最大覆盖度，并分别得到第一最大覆盖度和第二最大覆盖度，将第一最大覆盖度与第二最大覆盖度之和作为段落i的特征匹配得分。

7.如权利要求3所述的实现方法，其特征在于，所述加权所述数据i的语义匹配得分和特征匹配得分得到问题与数据i的匹配得分，包括，按照式子计算所述匹配得分：

m_score_i＝β_i·(p_s,i+p_c,i)

其中，m_score_i为匹配得分，β_i为针对描述类问题所识别出的段落i中包含有列表信息时所设置的加权值，p_s,i为段落i的文本语义匹配得分，p_c,i为段落i的特征匹配得分。

8.如权利要求7所述的实现方法，其特征在于，所述对数据i按照多文档投票算法计算数据i的投票得分，根据数据i的匹配得分和投票得分，计算出数据i的最终得分；包括，

计算段落i的投票得分为：

其中，rouge(i，j)表示第三段落集合D_C中的段落i与该集合中的其他段落j的相关性计算函数；

按照指数平滑函数对段落i的投票得分进行加权处理，段落i的最终得分p_score_i为：

p_score_i＝m_score_i·f(v_score_i)

其中f函数是指数平滑函数。

9.一种减少候选数据集规模的方法，其特征在于，该方法包括，

其中，i、n均为不大于第二数据集合中元素总数的自然数。

10.如权利要求9所述的方法，其特征在于，所述第一数据集合为段落集合；所述第二数据集合中作为该集合元素的数据i为段落集合中的段落i；该方法还包括，将所述过滤后的第二数据集合中的段落进行段落重组。

11.如权利要求10所述的方法，其特征在于，所述段落重组包括，将段落长度低于第一阈值的段落顺序地拼接，拼接后的段落长度不大于第二阈值，并得到重组后的段落集合，该集合作为第三段落集合；

所述i、n均为不大于第三段落集合中段落总数的自然数。

12.如权利要求10或11所述的方法，其特征在于，所述最大覆盖度计算包括，基于最大覆盖度算法，分别计算基于词和基于字的最大覆盖度，并分别得到第一最大覆盖度和第二最大覆盖度，将第一最大覆盖度与第二最大覆盖度之和作为段落i的特征匹配得分。

13.如权利要求12所述的方法，其特征在于，所述加权所述数据i的语义匹配得分和特征匹配得分，得到问题与数据i的匹配得分包括，按照式子计算所述匹配得分：

m_score_i＝β_i·(p_s,i+p_c,i)

14.如权利要求13所述的方法，其特征在于，对数据i按照多文档投票算法计算数据i的投票得分，根据数据i的匹配得分和投票得分，计算出数据i的最终得分，包括，

计算段落i的投票得分为：

p_score_i＝m_score_i·f(v_score_i)

其中f函数是指数平滑函数。

15.如权利要求9所述的方法，其特征在于，所述第一数据集合中的数据为清洗了字符级噪声和/或句子级噪声的数据。

16.一种机器阅读理解的实现装置，其特征在于，该装置包括，

过滤模块，根据问题类型过滤第一数据集合，得到过滤后的第二数据集合；

语义匹配模块，将问题与第二数据集合中的数据i进行语义匹配，得数据i的语义匹配得分；

最大覆盖度计算模块，将问题与所述数据i进行最大覆盖度计算，得到数据i的特征匹配得分；

特征加权模块，加权所述数据i的语义匹配得分和特征匹配得分，得到问题与数据i的匹配得分；

多文档投票模块，基于匹配得分，对数据i按照多文档投票算法计算数据i的投票得分，按照所计算得到的投票得分的降序，对所述第二数据集合中的数据进行排序，选择序列中前n个数据，作为候选数据集；

基线模型模块，输入所述候选数据集至基线模型，对输入数据集进行答案预测，得到所述问题的候选答案集。

17.如权利要求16所述的实现装置，其特征在于，该装置还包括，

答案交叉验证多文档投票模块，对候选答案集中的候选答案进行交叉验证，按照多答案投票算法，计算候选答案集中的答案t的交叉验证投票得分，根据数据i的位置信息对该答案t的投票得分进行加权，得到第二投票得分，从第二投票得分中选择出最大得分所对应的答案作为候选答案，

其中，t为不大于n的自然数。

18.如权利要求16所述的实现装置，其特征在于，所述第一数据集合为段落集合；所述第二数据集合中的数据i为段落集合中的段落i；所述基线模型为BiDAF模型；所述第一数据集合中的数据为清洗了字符级噪声和/或句子级噪声的数据；

该装置还包括，

段落重组模块，将所述过滤后的第二数据集合中的段落进行段落重组。

19.一种减少候选数据集规模的装置，其特征在于，该装置包括，

20.如权利要求19所述的装置，其特征在于，所述第一数据集合为段落集合；所述第二数据集合中作为该集合元素的数据i为段落集合中的段落i；

该装置还包括，