CN109255012A - 一种机器阅读理解的实现方法以及装置 - Google Patents

一种机器阅读理解的实现方法以及装置 Download PDF

Info

Publication number
CN109255012A
CN109255012A CN201810812763.4A CN201810812763A CN109255012A CN 109255012 A CN109255012 A CN 109255012A CN 201810812763 A CN201810812763 A CN 201810812763A CN 109255012 A CN109255012 A CN 109255012A
Authority
CN
China
Prior art keywords
data
score
paragraph
ballot
answer
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201810812763.4A
Other languages
English (en)
Other versions
CN109255012B (zh
Inventor
杨志明
时迎成
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Deep Thinking Artificial Intelligence Robot Technology (beijing) Co Ltd
Original Assignee
Deep Thinking Artificial Intelligence Robot Technology (beijing) Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Deep Thinking Artificial Intelligence Robot Technology (beijing) Co Ltd filed Critical Deep Thinking Artificial Intelligence Robot Technology (beijing) Co Ltd
Priority to CN201810812763.4A priority Critical patent/CN109255012B/zh
Publication of CN109255012A publication Critical patent/CN109255012A/zh
Application granted granted Critical
Publication of CN109255012B publication Critical patent/CN109255012B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Machine Translation (AREA)

Abstract

公开了机器阅读理解的实现方法,根据问题类型过滤第一数据集合得到过滤后的第二数据集合;将问题与第二数据集合中的数据i进行语义匹配,得数据i的语义匹配得分;将问题与所述数据i进行最大覆盖度计算得到数据i的特征匹配得分;加权所述数据i的语义匹配得分和特征匹配得分得到问题与数据i的匹配得分;对数据i按照多文档投票算法计算数据i的投票得分,根据数据i的匹配得分和投票得分,计算出数据i的最终得分;按照最终得分的降序选择序列中前n个数据,作为候选数据集;将所述候选数据集输入基线模型,基于基线模型对输入数据集进行答案预测,得到所述问题的候选答案集。本申请实现了对数据集合的排序,对问题抽取出有效地答案。

Description

一种机器阅读理解的实现方法以及装置
技术领域
本发明涉及自然语言的机器理解,特别地,涉及一种机器阅读理解的实现方法以及装置。
背景技术
随着互联网的兴起和发展,数据急速增长,如何利用机器阅读理解技术来帮助用户查找到满意的答案,是自然语言理解技术研究领域中的一个经典课题。机器阅读理 解作为自然语言理解的一个子领域,让机器具备自然语言的阅读理解与问答能力,一 直是研究者和业界关注的对象,也是目前智能语音交互和人机对话的核心难题。机器 阅读理解(Machine Reading Comprehension)是让机器像人类一样通过阅读自然语言文 本,然后经过推理总结,从而能够精准地回答和阅读内容相关的问题。
机器阅读方法分为两类:分别为生成式和抽取式。生成式是从理论上来说不受知识的局限,对于问题自动生成答案,但是生成式有时产生的答案答非所问,句式不通, 不能很好地体现出人类的思维逻辑以及自然表述的特点。抽取式通过给定问题以及相 关的文章进行训练,让机器具备阅读的能力,并对提出的新问题,在相关文章中抽取 出相应的答案。相对于生成式而言,抽取式的技术优势更加明显,应用更为广泛。
自斯坦福机器阅读理解数据集SQuAD问世以来,经过谷歌、微软、百度、科大 讯飞、腾讯、斯坦福大学等在内的众多研究机构的不懈努力,形成了“词向量化—— 语义编码——语义交互——答案预测”这样一套四层机器阅读理解模型体系。该体系 的主要思想是:首先,将自然文本表示为可计算的向量,其次,融合问题向量与支撑 文档向量来使得机器学习到语义交互信息,最后,根据交互信息预测答案的位置或逐 一输出最大概率的字词来生成答案。
现在,通过搜索引擎来搜索问题,会返回相关的网页,用户需要通过点击到网页中进行浏览,查找自己需要的答案。如果搜索引擎能够针对用户的问题,准确的为用 户返回他们需要的标准答案,这会极大的节省用户宝贵的时间,并会带给用户良好的 用户体验。
发明内容
本申请提供一种机器阅读理解的实现方法,以提高搜索的问题与所返回的答案相匹配的精准性。
一种机器阅读理解的实现方法,该方法包括,
根据问题类型过滤第一数据集合,得到过滤后的第二数据集合;
将问题与第二数据集合中的数据i进行语义匹配,得数据i的语义匹配得分;
将问题与所述数据i进行最大覆盖度计算,得到数据i的特征匹配得分;
加权所述数据i的语义匹配得分和特征匹配得分,得到问题与数据i的匹配得分;
对数据i按照多文档投票算法计算数据i的投票得分,根据数据i的匹配得分和投票得分,计算出数据i的最终得分;
按照所计算得到的最终得分的降序,对所述第二数据集合中的数据进行排序,选择序列中前n个数据,作为候选数据集;
将所述候选数据集作为基线模型的输入数据集,
基于基线模型对输入数据集进行答案预测,得到所述问题的候选答案集,
其中,i为不大于第二数据集合中数据总数的自然数,n为基线模型的输入数据集合中的数据个数。
可选地,对候选答案集中的候选答案进行交叉验证,
按照多答案投票算法,计算候选答案集中的答案t的交叉验证投票得分,
根据数据i的位置信息对该答案t的投票得分进行加权,得到第二投票得分,
从第二投票得分中选择出最大得分所对应的答案作为候选答案,
其中,t为不大于n的自然数。
一种减少候选数据集规模的方法,该方法包括,
根据问题类型过滤第一数据集合,得到过滤后的第二数据集合;
将问题与第二数据集合中的数据i进行语义匹配,得数据i的语义匹配得分;
将问题与所述数据i进行最大覆盖度计算,得到数据i的特征匹配得分;
加权所述数据i的语义匹配得分和特征匹配得分,得到问题与数据i的匹配得分;
基于匹配得分,对数据i按照多文档投票算法计算数据i的投票得分,
按照所计算得到的投票得分的降序,对所述第二数据集合中的数据进行排序,选择序列中前n个数据,作为候选数据集;
其中,i、n均为不大于第二数据集合中元素总数的自然数。
本申请基于问题来对数据集合进行过滤、语义匹配、最大覆盖度计算、特征加权、多文档投票等处理,实现了对数据集合的排序,降低了候选数据集的规模,使得基于 基线模型的答案预测的效率得到了提高,对于多文档的篇章理解,缩小了候选文档的 范围,提升了基线模型的效果。此外,候选答案之间的交叉验证和多答案投票算法, 实现了对答案的综合预测,提高了答案的有效性。
附图说明
图1是训练集、验证集、测试集数据分布;
图2为问题类型分布;
图3为答案数量统计;
图4为篇章数量和段落数量分布;
图5为答案在篇章段落中位置的分布;
图6为答案边界范围分布;
图7为RBiDAF模型总体框架;
图8为段落排序处理的示意图;
图9为增加了答案验证和位置加权层的RBiDAF模型总体框架。
具体实施方式
为了使本申请的目的、技术手段和优点更加清楚明白,以下结合附图对本申 请做进一步详细说明。
本申请所涉及的机器阅读理解,按照机器阅读中的抽取式,根据支撑文档和 给定问题,从支撑文档中选择出候选文档,从候选文档中抽取或者推理出给定问 题对应的答案。支撑文档形式和数量的不同,使得数据集(按功能划分,包括问 题集、训练集、开发集、测试集)也不同,所采取的算法模型也不同,算法模型 的运行效率也不同。例如,斯坦福数据集的支撑文档直接是一个最相关段落,微 软数据集MS MARCO则是若干篇只有一个段落(paragraph)的文章;百度的数据 集则是一篇文章中包含了多个段落。
以下将以百度数据集、段落集合作为基线模型的输入为例,并结合基线模型BiDAF模型来说明本申请的机器阅读理解的实现方法。作为变形之一的实施方式 中,所述段落集合可以替换为文本集合,BiDAF模型也可替换为基于问题对答案 进行预测的其他模型。
为了有针对性地对机器阅读理解模型进行改进,提高与问题相关段落定位的 准确性,对数据集中数据以及分布情况进行了统计分析。
如图1所示,在百度数据集中,训练集、验证集、测试集数据分布如图1所 示;图2是按照对给定问题所进行的分类统计,给定问题包括,实体问题,描述 性问题,以及是非问题;统计表明,在描述类问题上,事实类的概率高于观点类 的概率,图3是答案来源于百度搜索、百度知道分布情况;图4是来源于百度搜 索、百度知道中的篇章和段落数据分布情况,从数据分布可见,百度搜索中的段 落数量是比较多的;图5是答案在篇章中位置分布情况,含有答案的段落出自于 第一个篇章的概率是42.3%,而出自第5个篇章的概率仅为6.63%;图6是答案边 界范围的概率分布。
另外,由于来源于百度知道和百度搜索的原始数据中,含有大量的网页标签 等字符级的噪声数据以及句子级的噪声数据,例如,下表的原始数据中,黑体部 分有的文字并不携带有效的信息,有些是无文字含义的字符,这些数据如果不进 行清洗,将使得答案不够准确,甚至在答案中出现用户难以读懂的非自然语言。
表1原始数据
为了数据方便清洗,可以选择直接对未加工的数据进行清洗,由于未加工数 据是没有标签的原始数据,故清洗完成后还需要生成含有标签的训练数据和验证 数据。如表2所示,清洗后的数据保留了有效的文字信息,所删除的噪声并不影 响原始数据所表达得信息。
表2清洗后的数据
从图4得知,每一个问题对应多个段落,尤其是在百度搜索数据集,问题和 段落的比接近1:57,从图5得知,含有答案的段落出自于第一个篇章的概率较高, 而且,鉴于使用recall指标的段落定位层可以提升整个模型的效果至少10%,所以 应该尽量检索出含有答案的段落,从而减小候选集的数据规模。
本申请在基线模型的基础上增加了段落排序(ranking)的处理,作为一种具 体实施方式之一,对于来自百度知道和百度搜索的DuReader数据,则基于BiDAF 模型增加了段落rangking层。如图7所示,图7是增加了段落rangking层的BiDAF 模型,为区别于原BiDAF模型模型,在本申请中将其称为RBiDAF模型。该RBiDAF 模型中,在BiDAF模型编码层(encoder layer)中的段落数据输入之前,增加了段 落排序层,以将含有答案的段落尽可能检索出来,再将检索出来的段落作为BiDAF 模型的输入段落数据。
参见图8所示,图8为段落排序处理的示意图。
步骤801,将来自于DuReader数据的第一段落集根据问题类型进行过滤,以 去除与问题不相关的段落,得到过滤后的第二段落集,较佳地,可以基于清洗后 的数据来进行过滤;例如,实体类型的问题中,关键词是“联系方式”、“热线”, 利用正则表达式将不含电话号码的段落进行过滤。
步骤802,对第二段落集中的段落进行段落重组,得到重组后的段落集,该段 落集将作为第三段落集合,记为Dc
DuReader数据集中的段落长度极度不平衡,有些段落的长度很短,有些答案 是跨段落的,尤其在描述类的问题,所以如果仅仅以某一个段落作为输入,那么 将无法很好的解决答案跨段落的问题,因此,将长度低于第一阈值的段落进行重 组,重组的原则是将长度短的段落顺序拼接在一起,拼接后的段落长度控制在第 二阈值splice_L之内,splice_L的值则根据本文在图6统计的结果给定。
步骤803,将问题与第三段落集合中的段落i进行语义匹配,得到段落i的文 本相似度值,该值作为语义匹配得分ps,i
不仅要考虑问题和段落之间的显式关系,还要考虑两者之间的隐式关系,即 两者之间的语义关系。比如:question:北京2017年的商业住房的均价是多少?; paragraph:据我所知是四万元一平。上例question和paragraph之间的最大覆盖度 虽然为0,但是两种之间具有极大地相关性,并且“四万元一平”极有可能是答案。 所以为了克服语义匹配上的弊端,较佳地,可以选择利用深度神经网络计算 question和paragraph之间的语义相关性。
由于ARC-II保留了词序信息,更具一般性,故而可以采用ARC-II文本匹配 模型来对问题以及段落之间的语义相关度进行计算,最终得到文本语义匹配得分 ps。
步骤804,将问题与第三段落集合中的段落i进行最大覆盖度计算,得到段落 i的特征值,该值作为特征匹配得分pc,i
DuReader的基线模型采用问题和段落的最大词语覆盖度算法对段落进行排 序,然后对每一个篇章挑选排序为第一的篇章作为BiDAF模型的输入,为了适应 于BiDAF模型的输入,本步骤中沿用了基线模型的最大覆盖度算法,将问题与段 落的最大覆盖度作为段落排序处理(即,ranking层)的一个特征匹配得分,记为 pc,并且,分别选择了基于词和基于字的最大覆盖度,两者相加作为最终特征匹配 得分pc
在上述步骤803、804无前后顺序,可以并行进行,也可以不并行执行。
步骤805,将第三段落集合中的段落i的文本语义匹配得分和特征匹配得分进 行加权,得到问题与段落i的最终匹配得分:
通过分析DuReader的训练集可知,在描述类问题的答案中,存在大量列表类 型的答案,所以针对描述类问题识别出段落中的列表信息,并根据这一特征对段 落进行加权,定义权值为β。
经过语义匹配、最大覆盖度计算以及特征加权可以得到问题和段落i的最终匹 配得分m_scorei
m_scorei=βi·(ps,i+pc,i)
步骤806,对于第三段落集合中的段落i,计算每一段落的投票得分,然后对 投票得分进行加权,得到段落i的最终得分,根据最终得分按照降序进行排序,选 择出前n个段落作为ranking层的输出段落集合,即,该top-n段落作为BiDAF模 型的输入段落集合,其中,n的个数等于BiDAF模型的输入段落个数。
具体如下:
由于基于某一问题的正确答案在多个段落中会多次出现,则每一个段落的投 票得分为:
其中,rouge(i,j)表示第三段落集合中的段落i与该集合中的其他段落j的 相关性计算函数。
按照指数平滑函数对段落i的投票得分进行加权处理,段落i的最终得分 p_scorei为:
p_scorei=m_scorei·f(v_scorei) (3)
其中f函数是指数平滑函数,最终根据p_scorei分值的大小由大到小对第三 段落集合中的段落进行排序,选择前n个段落作为输入BiDAF模型的段落候选集 合Df
本申请基于RBiDAF模型,进一步对答案预测进行了优化。如图7所示,BiDAF 模型中使用边界模型(Boundary Model)进行答案预测,该边界模型预测每一个词 作为答案开始和结束位置的概率,这从而大大减小了搜索空间。对于集合Df中的 每一个段落,利用Boundary Model为段落i预测边界得分s_scorei
s_scorei=p(ws|hi)p(we|ws,hi) (4)
对于集合Df中的每一个段落i,经过BiDAF模型的预测输出一个s_scorei, 其对应的答案为ansi
本申请的答案预测如图9,图9为增加了答案验证和位置加权层的RBiDAF 模型总体框架。
将BiDAF模型输出的答案ansi,进行交叉验证,利用候选段落的位置信息对 答案加权,并采用多答案投票算法来对答案进行综合预测,其中,位置信息可以 是原始数据的位置信息,也可以是段落的排序信息,从而使得在基本上不损失精 度的前提下,预测的时间效率会大幅提升。
具体的公式如下:
对于答案i,计算其投票得分va_scorei,即,对于交叉验证的结果,计算答 案i的投标得分,
s_scorei=h(s_scorei)·va_scorei (6)
a_scorei=s_scorei·l(indexi) (7)
其中,rouge(ansi,ansi)表示候选答案集合中的候选答案ansi与该集合中的其 他答案ansj的相关性计算函数,即,进行候选答案的交叉验证;函数g是指数平 滑函数;鉴于段落候选集合Df和答案候选集合的元素数量是相同的,即,数据集 合Df中的每一个段落都会生成一个答案,公式5中,i、j可以属于Df;函数h是 对数平滑函数,函数l是指数平滑函数,indexi是候选段落所在的位置信息,在该 实施例中,位置信息为段落的排序信息。正如图5所示,含有答案的段落出自第1 个篇章的概率为42.3%,而出自第5个篇章的概率仅为6.63%,所以将其作为先验 知识加权到答案的a_scorei中;从得分a_scorei中选择出最大得分所对应的答案作 为最终答案输出。
为了验证RBiDAF模型在篇章理解上的有效性,本文在DuReader数据集上进 行了实验验证,并且在DuReader数据集上取得了比较理想的结果,以下是对实验 结果的情况。
验证RBiDAF模型所重点建模的三个方向对模型总体效果的影响,分别是 Ranking算法、Ranking+Position weighting以及Ranking+Cross-validation+Positionweighting,实验效果如表3所示。
表3 RBiDAF模型实验结果分析
从实验数据可以看出,Ranking处理对模型的提升是最大的,所以对于多文档 的篇章理解,首先需要缩小候选文档的范围。其次由于DuReader数据集选自百度 知道与百度搜索,篇章的排列顺序可以作为一个重要的先验知识,并可以有效的 提升模型的效果,最后,候选答案之间的交叉验证也可以提升模型的效果,尤其 是可以提高BLEU指标。
以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明 的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本发明保 护的范围之内。

Claims (20)

1.一种机器阅读理解的实现方法,其特征在于,该方法包括,
根据问题类型过滤第一数据集合,得到过滤后的第二数据集合;
将问题与第二数据集合中的数据i进行语义匹配,得数据i的语义匹配得分;
将问题与所述数据i进行最大覆盖度计算,得到数据i的特征匹配得分;
加权所述数据i的语义匹配得分和特征匹配得分,得到问题与数据i的匹配得分;
对数据i按照多文档投票算法计算数据i的投票得分;根据数据i的匹配得分和投票得分,计算出数据i的最终得分;
按照所计算得到的最终得分的降序,对所述第二数据集合中的数据进行排序,选择序列中前n个数据,作为候选数据集;
将所述候选数据集作为基线模型的输入数据集,
基于基线模型对输入数据集进行答案预测,得到所述问题的候选答案集,
其中,i为不大于第二数据集合中数据总数的自然数,n为基线模型的输入数据集合中的数据个数。
2.如权利要求1所述的实现方法,其特征在于,该方法进一步包括,
对候选答案集中的候选答案进行交叉验证,
按照多答案投票算法,计算候选答案集中的答案t的交叉验证投票得分,
根据数据i的位置信息对该答案t的投票得分进行加权,得到第二投票得分,
从第二投票得分中选择出最大得分所对应的答案作为候选答案,
其中,t为不大于n的自然数。
3.如权利要求1或2所述的实现方法,其特征在于,所述第一数据集合为段落集合;所述第二数据集合中的数据i为段落集合中的段落i;所述基线模型为BiDAF模型;所述第一数据集合中的数据为清洗了字符级噪声和/或句子级噪声的数据;该方法还包括,将所述过滤后的第二数据集合中的段落进行段落重组。
4.如权利要求3所述的实现方法,其特征在于,所述按照多答案投票算法,计算候选答案集中的答案t的交叉验证投票得分,包括,按照如下式子进行计算:
对于答案t,计算交叉验证投票得分va_scoret
其中,rouge(ansi,ansi)表示候选答案集合中的候选答案ansi与该集合中的其他答案ansj的相关性计算函数,Df为候选集,函数g是指数平滑函数,s_scorej为利用边界模型为段落j预测边界得分;
所述根据数据i的位置信息对该答案t的投票得分进行加权,得到第二投票得分,包括,按照式子进行计算:
s_scorei=h(s_scorei)·va_scoret
a_scoret=s_scorei·l(indexi)
其中,函数h是对数平滑函数,函数l是指数平滑函数,indexi是候选段落所在的位置信息,a_scoret为第二投票得分。
5.如权利要求3所述的实现方法,其特征在于,所述段落重组包括,将段落长度低于第一阈值的段落顺序地拼接,拼接后的段落长度不大于第二阈值,并得到重组后的段落集合,该集合作为第三段落集合;
所述i为不大于第三段落集合中段落总数的自然数。
6.如权利要求3所述的实现方法,其特征在于,所述最大覆盖度计算包括,基于最大覆盖度算法,分别计算基于词和基于字的最大覆盖度,并分别得到第一最大覆盖度和第二最大覆盖度,将第一最大覆盖度与第二最大覆盖度之和作为段落i的特征匹配得分。
7.如权利要求3所述的实现方法,其特征在于,所述加权所述数据i的语义匹配得分和特征匹配得分得到问题与数据i的匹配得分,包括,按照式子计算所述匹配得分:
m_scorei=βi·(ps,i+pc,i)
其中,m_scorei为匹配得分,βi为针对描述类问题所识别出的段落i中包含有列表信息时所设置的加权值,ps,i为段落i的文本语义匹配得分,pc,i为段落i的特征匹配得分。
8.如权利要求7所述的实现方法,其特征在于,所述对数据i按照多文档投票算法计算数据i的投票得分,根据数据i的匹配得分和投票得分,计算出数据i的最终得分;包括,
计算段落i的投票得分为:
其中,rouge(i,j)表示第三段落集合DC中的段落i与该集合中的其他段落j的相关性计算函数;
按照指数平滑函数对段落i的投票得分进行加权处理,段落i的最终得分p_scorei为:
p_scorei=m_scorei·f(v_scorei)
其中f函数是指数平滑函数。
9.一种减少候选数据集规模的方法,其特征在于,该方法包括,
根据问题类型过滤第一数据集合,得到过滤后的第二数据集合;
将问题与第二数据集合中的数据i进行语义匹配,得数据i的语义匹配得分;
将问题与所述数据i进行最大覆盖度计算,得到数据i的特征匹配得分;
加权所述数据i的语义匹配得分和特征匹配得分,得到问题与数据i的匹配得分;
对数据i按照多文档投票算法计算数据i的投票得分,根据数据i的匹配得分和投票得分,计算出数据i的最终得分;
按照所计算得到的最终得分的降序,对所述第二数据集合中的数据进行排序,选择序列中前n个数据,作为候选数据集;
其中,i、n均为不大于第二数据集合中元素总数的自然数。
10.如权利要求9所述的方法,其特征在于,所述第一数据集合为段落集合;所述第二数据集合中作为该集合元素的数据i为段落集合中的段落i;该方法还包括,将所述过滤后的第二数据集合中的段落进行段落重组。
11.如权利要求10所述的方法,其特征在于,所述段落重组包括,将段落长度低于第一阈值的段落顺序地拼接,拼接后的段落长度不大于第二阈值,并得到重组后的段落集合,该集合作为第三段落集合;
所述i、n均为不大于第三段落集合中段落总数的自然数。
12.如权利要求10或11所述的方法,其特征在于,所述最大覆盖度计算包括,基于最大覆盖度算法,分别计算基于词和基于字的最大覆盖度,并分别得到第一最大覆盖度和第二最大覆盖度,将第一最大覆盖度与第二最大覆盖度之和作为段落i的特征匹配得分。
13.如权利要求12所述的方法,其特征在于,所述加权所述数据i的语义匹配得分和特征匹配得分,得到问题与数据i的匹配得分包括,按照式子计算所述匹配得分:
m_scorei=βi·(ps,i+pc,i)
其中,m_scorei为匹配得分,βi为针对描述类问题所识别出的段落i中包含有列表信息时所设置的加权值,ps,i为段落i的文本语义匹配得分,pc,i为段落i的特征匹配得分。
14.如权利要求13所述的方法,其特征在于,对数据i按照多文档投票算法计算数据i的投票得分,根据数据i的匹配得分和投票得分,计算出数据i的最终得分,包括,
计算段落i的投票得分为:
其中,rouge(i,j)表示第三段落集合DC中的段落i与该集合中的其他段落j的相关性计算函数;
按照指数平滑函数对段落i的投票得分进行加权处理,段落i的最终得分p_scorei为:
p_scorei=m_scorei·f(v_scorei)
其中f函数是指数平滑函数。
15.如权利要求9所述的方法,其特征在于,所述第一数据集合中的数据为清洗了字符级噪声和/或句子级噪声的数据。
16.一种机器阅读理解的实现装置,其特征在于,该装置包括,
过滤模块,根据问题类型过滤第一数据集合,得到过滤后的第二数据集合;
语义匹配模块,将问题与第二数据集合中的数据i进行语义匹配,得数据i的语义匹配得分;
最大覆盖度计算模块,将问题与所述数据i进行最大覆盖度计算,得到数据i的特征匹配得分;
特征加权模块,加权所述数据i的语义匹配得分和特征匹配得分,得到问题与数据i的匹配得分;
多文档投票模块,基于匹配得分,对数据i按照多文档投票算法计算数据i的投票得分,按照所计算得到的投票得分的降序,对所述第二数据集合中的数据进行排序,选择序列中前n个数据,作为候选数据集;
基线模型模块,输入所述候选数据集至基线模型,对输入数据集进行答案预测,得到所述问题的候选答案集。
其中,i为不大于第二数据集合中数据总数的自然数,n为基线模型的输入数据集合中的数据个数。
17.如权利要求16所述的实现装置,其特征在于,该装置还包括,
答案交叉验证多文档投票模块,对候选答案集中的候选答案进行交叉验证,按照多答案投票算法,计算候选答案集中的答案t的交叉验证投票得分,根据数据i的位置信息对该答案t的投票得分进行加权,得到第二投票得分,从第二投票得分中选择出最大得分所对应的答案作为候选答案,
其中,t为不大于n的自然数。
18.如权利要求16所述的实现装置,其特征在于,所述第一数据集合为段落集合;所述第二数据集合中的数据i为段落集合中的段落i;所述基线模型为BiDAF模型;所述第一数据集合中的数据为清洗了字符级噪声和/或句子级噪声的数据;
该装置还包括,
段落重组模块,将所述过滤后的第二数据集合中的段落进行段落重组。
19.一种减少候选数据集规模的装置,其特征在于,该装置包括,
过滤模块,根据问题类型过滤第一数据集合,得到过滤后的第二数据集合;
语义匹配模块,将问题与第二数据集合中的数据i进行语义匹配,得数据i的语义匹配得分;
最大覆盖度计算模块,将问题与所述数据i进行最大覆盖度计算,得到数据i的特征匹配得分;
特征加权模块,加权所述数据i的语义匹配得分和特征匹配得分,得到问题与数据i的匹配得分;
多文档投票模块,基于匹配得分,对数据i按照多文档投票算法计算数据i的投票得分,按照所计算得到的投票得分的降序,对所述第二数据集合中的数据进行排序,选择序列中前n个数据,作为候选数据集;
其中,i为不大于第二数据集合中数据总数的自然数,n为基线模型的输入数据集合中的数据个数。
20.如权利要求19所述的装置,其特征在于,所述第一数据集合为段落集合;所述第二数据集合中作为该集合元素的数据i为段落集合中的段落i;
该装置还包括,
段落重组模块,将所述过滤后的第二数据集合中的段落进行段落重组。
CN201810812763.4A 2018-07-23 2018-07-23 机器阅读理解以及减少候选数据集规模的方法、装置 Active CN109255012B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810812763.4A CN109255012B (zh) 2018-07-23 2018-07-23 机器阅读理解以及减少候选数据集规模的方法、装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810812763.4A CN109255012B (zh) 2018-07-23 2018-07-23 机器阅读理解以及减少候选数据集规模的方法、装置

Publications (2)

Publication Number Publication Date
CN109255012A true CN109255012A (zh) 2019-01-22
CN109255012B CN109255012B (zh) 2021-04-30

Family

ID=65049688

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810812763.4A Active CN109255012B (zh) 2018-07-23 2018-07-23 机器阅读理解以及减少候选数据集规模的方法、装置

Country Status (1)

Country Link
CN (1) CN109255012B (zh)

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110276071A (zh) * 2019-05-24 2019-09-24 众安在线财产保险股份有限公司 一种文本匹配方法、装置、计算机设备及存储介质
CN110442681A (zh) * 2019-08-06 2019-11-12 深圳前海达闼云端智能科技有限公司 一种机器阅读理解的方法、电子设备及可读存储介质
CN111159340A (zh) * 2019-12-24 2020-05-15 重庆兆光科技股份有限公司 基于随机优化预测的机器阅读理解的答案匹配方法及系统
CN111563378A (zh) * 2020-04-30 2020-08-21 神思电子技术股份有限公司 一种联合学习的多文档阅读理解实现方法
CN112818093A (zh) * 2021-01-18 2021-05-18 平安国际智慧城市科技股份有限公司 基于语义匹配的证据文档检索方法、系统及存储介质
CN113836283A (zh) * 2021-09-24 2021-12-24 上海金仕达软件科技有限公司 答案的生成方法、装置、电子设备及存储介质

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101377777A (zh) * 2007-09-03 2009-03-04 北京百问百答网络技术有限公司 一种自动问答方法和系统
US20090070311A1 (en) * 2007-09-07 2009-03-12 At&T Corp. System and method using a discriminative learning approach for question answering
CN103229168A (zh) * 2010-09-28 2013-07-31 国际商业机器公司 在问答期间在多个候选答案之间的证据扩散
CN106649542A (zh) * 2015-11-03 2017-05-10 百度(美国)有限责任公司 用于视觉问答的系统和方法
US20170206152A1 (en) * 2016-01-20 2017-07-20 International Business Machines Corporation System and method for determining quality metrics for a question set
CN107818085A (zh) * 2017-11-08 2018-03-20 山西大学 阅读机器人进行阅读理解的答案选择方法及系统

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101377777A (zh) * 2007-09-03 2009-03-04 北京百问百答网络技术有限公司 一种自动问答方法和系统
US20090070311A1 (en) * 2007-09-07 2009-03-12 At&T Corp. System and method using a discriminative learning approach for question answering
CN103229168A (zh) * 2010-09-28 2013-07-31 国际商业机器公司 在问答期间在多个候选答案之间的证据扩散
CN106649542A (zh) * 2015-11-03 2017-05-10 百度(美国)有限责任公司 用于视觉问答的系统和方法
US20170206152A1 (en) * 2016-01-20 2017-07-20 International Business Machines Corporation System and method for determining quality metrics for a question set
CN107818085A (zh) * 2017-11-08 2018-03-20 山西大学 阅读机器人进行阅读理解的答案选择方法及系统

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110276071A (zh) * 2019-05-24 2019-09-24 众安在线财产保险股份有限公司 一种文本匹配方法、装置、计算机设备及存储介质
CN110276071B (zh) * 2019-05-24 2023-10-13 众安在线财产保险股份有限公司 一种文本匹配方法、装置、计算机设备及存储介质
CN110442681A (zh) * 2019-08-06 2019-11-12 深圳前海达闼云端智能科技有限公司 一种机器阅读理解的方法、电子设备及可读存储介质
CN111159340A (zh) * 2019-12-24 2020-05-15 重庆兆光科技股份有限公司 基于随机优化预测的机器阅读理解的答案匹配方法及系统
CN111159340B (zh) * 2019-12-24 2023-11-03 重庆兆光科技股份有限公司 基于随机优化预测的机器阅读理解的答案匹配方法及系统
CN111563378A (zh) * 2020-04-30 2020-08-21 神思电子技术股份有限公司 一种联合学习的多文档阅读理解实现方法
CN112818093A (zh) * 2021-01-18 2021-05-18 平安国际智慧城市科技股份有限公司 基于语义匹配的证据文档检索方法、系统及存储介质
CN113836283A (zh) * 2021-09-24 2021-12-24 上海金仕达软件科技有限公司 答案的生成方法、装置、电子设备及存储介质
CN113836283B (zh) * 2021-09-24 2024-04-12 上海金仕达软件科技股份有限公司 答案的生成方法、装置、电子设备及存储介质

Also Published As

Publication number Publication date
CN109255012B (zh) 2021-04-30

Similar Documents

Publication Publication Date Title
Swathi et al. An optimal deep learning-based LSTM for stock price prediction using twitter sentiment analysis
Saad et al. Twitter sentiment analysis based on ordinal regression
Yan et al. Learning to respond with deep neural networks for retrieval-based human-computer conversation system
CN111125334B (zh) 一种基于预训练的搜索问答系统
CN103870973B (zh) 基于电子信息的关键词提取的信息推送、搜索方法及装置
CN109255012A (zh) 一种机器阅读理解的实现方法以及装置
CN105989040B (zh) 智能问答的方法、装置及系统
Wang et al. Duplicate question detection with deep learning in stack overflow
CN108363790A (zh) 用于对评论进行评估的方法、装置、设备和存储介质
CN103207913B (zh) 商品细粒度语义关系的获取方法和系统
CN108073568A (zh) 关键词提取方法和装置
CN108763362A (zh) 基于随机锚点对选择的局部模型加权融合Top-N电影推荐方法
CN105843897A (zh) 一种面向垂直领域的智能问答系统
WO2020233344A1 (zh) 一种搜索方法、装置及存储介质
CN113312480B (zh) 基于图卷积网络的科技论文层级多标签分类方法及设备
CN106844632A (zh) 基于改进支持向量机的产品评论情感分类方法及装置
US11734322B2 (en) Enhanced intent matching using keyword-based word mover's distance
CN109325146A (zh) 一种视频推荐方法、装置、存储介质和服务器
CN107844558A (zh) 一种分类信息的确定方法以及相关装置
CN110688405A (zh) 基于人工智能的专家推荐方法、装置、终端、及介质
CN106294882A (zh) 数据挖掘方法以及装置
Khalid et al. Topic detection from conversational dialogue corpus with parallel dirichlet allocation model and elbow method
CN113590945B (zh) 一种基于用户借阅行为-兴趣预测的图书推荐方法和装置
CN112396091B (zh) 社交媒体图像流行度预测方法、系统、存储介质及应用
Azzam et al. A question routing technique using deep neural network for communities of question answering

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant