CN109255012A - 一种机器阅读理解的实现方法以及装置 - Google Patents
一种机器阅读理解的实现方法以及装置 Download PDFInfo
- Publication number
- CN109255012A CN109255012A CN201810812763.4A CN201810812763A CN109255012A CN 109255012 A CN109255012 A CN 109255012A CN 201810812763 A CN201810812763 A CN 201810812763A CN 109255012 A CN109255012 A CN 109255012A
- Authority
- CN
- China
- Prior art keywords
- data
- score
- paragraph
- ballot
- answer
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Machine Translation (AREA)
Abstract
公开了机器阅读理解的实现方法,根据问题类型过滤第一数据集合得到过滤后的第二数据集合;将问题与第二数据集合中的数据i进行语义匹配,得数据i的语义匹配得分;将问题与所述数据i进行最大覆盖度计算得到数据i的特征匹配得分;加权所述数据i的语义匹配得分和特征匹配得分得到问题与数据i的匹配得分;对数据i按照多文档投票算法计算数据i的投票得分,根据数据i的匹配得分和投票得分,计算出数据i的最终得分;按照最终得分的降序选择序列中前n个数据,作为候选数据集;将所述候选数据集输入基线模型,基于基线模型对输入数据集进行答案预测,得到所述问题的候选答案集。本申请实现了对数据集合的排序,对问题抽取出有效地答案。
Description
技术领域
本发明涉及自然语言的机器理解,特别地,涉及一种机器阅读理解的实现方法以及装置。
背景技术
随着互联网的兴起和发展,数据急速增长,如何利用机器阅读理解技术来帮助用户查找到满意的答案,是自然语言理解技术研究领域中的一个经典课题。机器阅读理 解作为自然语言理解的一个子领域,让机器具备自然语言的阅读理解与问答能力,一 直是研究者和业界关注的对象,也是目前智能语音交互和人机对话的核心难题。机器 阅读理解(Machine Reading Comprehension)是让机器像人类一样通过阅读自然语言文 本,然后经过推理总结,从而能够精准地回答和阅读内容相关的问题。
机器阅读方法分为两类:分别为生成式和抽取式。生成式是从理论上来说不受知识的局限,对于问题自动生成答案,但是生成式有时产生的答案答非所问,句式不通, 不能很好地体现出人类的思维逻辑以及自然表述的特点。抽取式通过给定问题以及相 关的文章进行训练,让机器具备阅读的能力,并对提出的新问题,在相关文章中抽取 出相应的答案。相对于生成式而言,抽取式的技术优势更加明显,应用更为广泛。
自斯坦福机器阅读理解数据集SQuAD问世以来,经过谷歌、微软、百度、科大 讯飞、腾讯、斯坦福大学等在内的众多研究机构的不懈努力,形成了“词向量化—— 语义编码——语义交互——答案预测”这样一套四层机器阅读理解模型体系。该体系 的主要思想是:首先,将自然文本表示为可计算的向量,其次,融合问题向量与支撑 文档向量来使得机器学习到语义交互信息,最后,根据交互信息预测答案的位置或逐 一输出最大概率的字词来生成答案。
现在,通过搜索引擎来搜索问题,会返回相关的网页,用户需要通过点击到网页中进行浏览,查找自己需要的答案。如果搜索引擎能够针对用户的问题,准确的为用 户返回他们需要的标准答案,这会极大的节省用户宝贵的时间,并会带给用户良好的 用户体验。
发明内容
本申请提供一种机器阅读理解的实现方法,以提高搜索的问题与所返回的答案相匹配的精准性。
一种机器阅读理解的实现方法,该方法包括,
根据问题类型过滤第一数据集合,得到过滤后的第二数据集合;
将问题与第二数据集合中的数据i进行语义匹配,得数据i的语义匹配得分;
将问题与所述数据i进行最大覆盖度计算,得到数据i的特征匹配得分;
加权所述数据i的语义匹配得分和特征匹配得分,得到问题与数据i的匹配得分;
对数据i按照多文档投票算法计算数据i的投票得分,根据数据i的匹配得分和投票得分,计算出数据i的最终得分;
按照所计算得到的最终得分的降序,对所述第二数据集合中的数据进行排序,选择序列中前n个数据,作为候选数据集;
将所述候选数据集作为基线模型的输入数据集,
基于基线模型对输入数据集进行答案预测,得到所述问题的候选答案集,
其中,i为不大于第二数据集合中数据总数的自然数,n为基线模型的输入数据集合中的数据个数。
可选地,对候选答案集中的候选答案进行交叉验证,
按照多答案投票算法,计算候选答案集中的答案t的交叉验证投票得分,
根据数据i的位置信息对该答案t的投票得分进行加权,得到第二投票得分,
从第二投票得分中选择出最大得分所对应的答案作为候选答案,
其中,t为不大于n的自然数。
一种减少候选数据集规模的方法,该方法包括,
根据问题类型过滤第一数据集合,得到过滤后的第二数据集合;
将问题与第二数据集合中的数据i进行语义匹配,得数据i的语义匹配得分;
将问题与所述数据i进行最大覆盖度计算,得到数据i的特征匹配得分;
加权所述数据i的语义匹配得分和特征匹配得分,得到问题与数据i的匹配得分;
基于匹配得分,对数据i按照多文档投票算法计算数据i的投票得分,
按照所计算得到的投票得分的降序,对所述第二数据集合中的数据进行排序,选择序列中前n个数据,作为候选数据集;
其中,i、n均为不大于第二数据集合中元素总数的自然数。
本申请基于问题来对数据集合进行过滤、语义匹配、最大覆盖度计算、特征加权、多文档投票等处理,实现了对数据集合的排序,降低了候选数据集的规模,使得基于 基线模型的答案预测的效率得到了提高,对于多文档的篇章理解,缩小了候选文档的 范围,提升了基线模型的效果。此外,候选答案之间的交叉验证和多答案投票算法, 实现了对答案的综合预测,提高了答案的有效性。
附图说明
图1是训练集、验证集、测试集数据分布;
图2为问题类型分布;
图3为答案数量统计;
图4为篇章数量和段落数量分布;
图5为答案在篇章段落中位置的分布;
图6为答案边界范围分布;
图7为RBiDAF模型总体框架;
图8为段落排序处理的示意图;
图9为增加了答案验证和位置加权层的RBiDAF模型总体框架。
具体实施方式
为了使本申请的目的、技术手段和优点更加清楚明白,以下结合附图对本申 请做进一步详细说明。
本申请所涉及的机器阅读理解,按照机器阅读中的抽取式,根据支撑文档和 给定问题,从支撑文档中选择出候选文档,从候选文档中抽取或者推理出给定问 题对应的答案。支撑文档形式和数量的不同,使得数据集(按功能划分,包括问 题集、训练集、开发集、测试集)也不同,所采取的算法模型也不同,算法模型 的运行效率也不同。例如,斯坦福数据集的支撑文档直接是一个最相关段落,微 软数据集MS MARCO则是若干篇只有一个段落(paragraph)的文章;百度的数据 集则是一篇文章中包含了多个段落。
以下将以百度数据集、段落集合作为基线模型的输入为例,并结合基线模型BiDAF模型来说明本申请的机器阅读理解的实现方法。作为变形之一的实施方式 中,所述段落集合可以替换为文本集合,BiDAF模型也可替换为基于问题对答案 进行预测的其他模型。
为了有针对性地对机器阅读理解模型进行改进,提高与问题相关段落定位的 准确性,对数据集中数据以及分布情况进行了统计分析。
如图1所示,在百度数据集中,训练集、验证集、测试集数据分布如图1所 示;图2是按照对给定问题所进行的分类统计,给定问题包括,实体问题,描述 性问题,以及是非问题;统计表明,在描述类问题上,事实类的概率高于观点类 的概率,图3是答案来源于百度搜索、百度知道分布情况;图4是来源于百度搜 索、百度知道中的篇章和段落数据分布情况,从数据分布可见,百度搜索中的段 落数量是比较多的;图5是答案在篇章中位置分布情况,含有答案的段落出自于 第一个篇章的概率是42.3%,而出自第5个篇章的概率仅为6.63%;图6是答案边 界范围的概率分布。
另外,由于来源于百度知道和百度搜索的原始数据中,含有大量的网页标签 等字符级的噪声数据以及句子级的噪声数据,例如,下表的原始数据中,黑体部 分有的文字并不携带有效的信息,有些是无文字含义的字符,这些数据如果不进 行清洗,将使得答案不够准确,甚至在答案中出现用户难以读懂的非自然语言。
表1原始数据
为了数据方便清洗,可以选择直接对未加工的数据进行清洗,由于未加工数 据是没有标签的原始数据,故清洗完成后还需要生成含有标签的训练数据和验证 数据。如表2所示,清洗后的数据保留了有效的文字信息,所删除的噪声并不影 响原始数据所表达得信息。
表2清洗后的数据
从图4得知,每一个问题对应多个段落,尤其是在百度搜索数据集,问题和 段落的比接近1:57,从图5得知,含有答案的段落出自于第一个篇章的概率较高, 而且,鉴于使用recall指标的段落定位层可以提升整个模型的效果至少10%,所以 应该尽量检索出含有答案的段落,从而减小候选集的数据规模。
本申请在基线模型的基础上增加了段落排序(ranking)的处理,作为一种具 体实施方式之一,对于来自百度知道和百度搜索的DuReader数据,则基于BiDAF 模型增加了段落rangking层。如图7所示,图7是增加了段落rangking层的BiDAF 模型,为区别于原BiDAF模型模型,在本申请中将其称为RBiDAF模型。该RBiDAF 模型中,在BiDAF模型编码层(encoder layer)中的段落数据输入之前,增加了段 落排序层,以将含有答案的段落尽可能检索出来,再将检索出来的段落作为BiDAF 模型的输入段落数据。
参见图8所示,图8为段落排序处理的示意图。
步骤801,将来自于DuReader数据的第一段落集根据问题类型进行过滤,以 去除与问题不相关的段落,得到过滤后的第二段落集,较佳地,可以基于清洗后 的数据来进行过滤;例如,实体类型的问题中,关键词是“联系方式”、“热线”, 利用正则表达式将不含电话号码的段落进行过滤。
步骤802,对第二段落集中的段落进行段落重组,得到重组后的段落集,该段 落集将作为第三段落集合,记为Dc:
DuReader数据集中的段落长度极度不平衡,有些段落的长度很短,有些答案 是跨段落的,尤其在描述类的问题,所以如果仅仅以某一个段落作为输入,那么 将无法很好的解决答案跨段落的问题,因此,将长度低于第一阈值的段落进行重 组,重组的原则是将长度短的段落顺序拼接在一起,拼接后的段落长度控制在第 二阈值splice_L之内,splice_L的值则根据本文在图6统计的结果给定。
步骤803,将问题与第三段落集合中的段落i进行语义匹配,得到段落i的文 本相似度值,该值作为语义匹配得分ps,i;
不仅要考虑问题和段落之间的显式关系,还要考虑两者之间的隐式关系,即 两者之间的语义关系。比如:question:北京2017年的商业住房的均价是多少?; paragraph:据我所知是四万元一平。上例question和paragraph之间的最大覆盖度 虽然为0,但是两种之间具有极大地相关性,并且“四万元一平”极有可能是答案。 所以为了克服语义匹配上的弊端,较佳地,可以选择利用深度神经网络计算 question和paragraph之间的语义相关性。
由于ARC-II保留了词序信息,更具一般性,故而可以采用ARC-II文本匹配 模型来对问题以及段落之间的语义相关度进行计算,最终得到文本语义匹配得分 ps。
步骤804,将问题与第三段落集合中的段落i进行最大覆盖度计算,得到段落 i的特征值,该值作为特征匹配得分pc,i:
DuReader的基线模型采用问题和段落的最大词语覆盖度算法对段落进行排 序,然后对每一个篇章挑选排序为第一的篇章作为BiDAF模型的输入,为了适应 于BiDAF模型的输入,本步骤中沿用了基线模型的最大覆盖度算法,将问题与段 落的最大覆盖度作为段落排序处理(即,ranking层)的一个特征匹配得分,记为 pc,并且,分别选择了基于词和基于字的最大覆盖度,两者相加作为最终特征匹配 得分pc。
在上述步骤803、804无前后顺序,可以并行进行,也可以不并行执行。
步骤805,将第三段落集合中的段落i的文本语义匹配得分和特征匹配得分进 行加权,得到问题与段落i的最终匹配得分:
通过分析DuReader的训练集可知,在描述类问题的答案中,存在大量列表类 型的答案,所以针对描述类问题识别出段落中的列表信息,并根据这一特征对段 落进行加权,定义权值为β。
经过语义匹配、最大覆盖度计算以及特征加权可以得到问题和段落i的最终匹 配得分m_scorei:
m_scorei=βi·(ps,i+pc,i)
步骤806,对于第三段落集合中的段落i,计算每一段落的投票得分,然后对 投票得分进行加权,得到段落i的最终得分,根据最终得分按照降序进行排序,选 择出前n个段落作为ranking层的输出段落集合,即,该top-n段落作为BiDAF模 型的输入段落集合,其中,n的个数等于BiDAF模型的输入段落个数。
具体如下:
由于基于某一问题的正确答案在多个段落中会多次出现,则每一个段落的投 票得分为:
其中,rouge(i,j)表示第三段落集合中的段落i与该集合中的其他段落j的 相关性计算函数。
按照指数平滑函数对段落i的投票得分进行加权处理,段落i的最终得分 p_scorei为:
p_scorei=m_scorei·f(v_scorei) (3)
其中f函数是指数平滑函数,最终根据p_scorei分值的大小由大到小对第三 段落集合中的段落进行排序,选择前n个段落作为输入BiDAF模型的段落候选集 合Df。
本申请基于RBiDAF模型,进一步对答案预测进行了优化。如图7所示,BiDAF 模型中使用边界模型(Boundary Model)进行答案预测,该边界模型预测每一个词 作为答案开始和结束位置的概率,这从而大大减小了搜索空间。对于集合Df中的 每一个段落,利用Boundary Model为段落i预测边界得分s_scorei。
s_scorei=p(ws|hi)p(we|ws,hi) (4)
对于集合Df中的每一个段落i,经过BiDAF模型的预测输出一个s_scorei, 其对应的答案为ansi。
本申请的答案预测如图9,图9为增加了答案验证和位置加权层的RBiDAF 模型总体框架。
将BiDAF模型输出的答案ansi,进行交叉验证,利用候选段落的位置信息对 答案加权,并采用多答案投票算法来对答案进行综合预测,其中,位置信息可以 是原始数据的位置信息,也可以是段落的排序信息,从而使得在基本上不损失精 度的前提下,预测的时间效率会大幅提升。
具体的公式如下:
对于答案i,计算其投票得分va_scorei,即,对于交叉验证的结果,计算答 案i的投标得分,
s_scorei=h(s_scorei)·va_scorei (6)
a_scorei=s_scorei·l(indexi) (7)
其中,rouge(ansi,ansi)表示候选答案集合中的候选答案ansi与该集合中的其 他答案ansj的相关性计算函数,即,进行候选答案的交叉验证;函数g是指数平 滑函数;鉴于段落候选集合Df和答案候选集合的元素数量是相同的,即,数据集 合Df中的每一个段落都会生成一个答案,公式5中,i、j可以属于Df;函数h是 对数平滑函数,函数l是指数平滑函数,indexi是候选段落所在的位置信息,在该 实施例中,位置信息为段落的排序信息。正如图5所示,含有答案的段落出自第1 个篇章的概率为42.3%,而出自第5个篇章的概率仅为6.63%,所以将其作为先验 知识加权到答案的a_scorei中;从得分a_scorei中选择出最大得分所对应的答案作 为最终答案输出。
为了验证RBiDAF模型在篇章理解上的有效性,本文在DuReader数据集上进 行了实验验证,并且在DuReader数据集上取得了比较理想的结果,以下是对实验 结果的情况。
验证RBiDAF模型所重点建模的三个方向对模型总体效果的影响,分别是 Ranking算法、Ranking+Position weighting以及Ranking+Cross-validation+Positionweighting,实验效果如表3所示。
表3 RBiDAF模型实验结果分析
从实验数据可以看出,Ranking处理对模型的提升是最大的,所以对于多文档 的篇章理解,首先需要缩小候选文档的范围。其次由于DuReader数据集选自百度 知道与百度搜索,篇章的排列顺序可以作为一个重要的先验知识,并可以有效的 提升模型的效果,最后,候选答案之间的交叉验证也可以提升模型的效果,尤其 是可以提高BLEU指标。
以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明 的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本发明保 护的范围之内。
Claims (20)
1.一种机器阅读理解的实现方法,其特征在于,该方法包括,
根据问题类型过滤第一数据集合,得到过滤后的第二数据集合;
将问题与第二数据集合中的数据i进行语义匹配,得数据i的语义匹配得分;
将问题与所述数据i进行最大覆盖度计算,得到数据i的特征匹配得分;
加权所述数据i的语义匹配得分和特征匹配得分,得到问题与数据i的匹配得分;
对数据i按照多文档投票算法计算数据i的投票得分;根据数据i的匹配得分和投票得分,计算出数据i的最终得分;
按照所计算得到的最终得分的降序,对所述第二数据集合中的数据进行排序,选择序列中前n个数据,作为候选数据集;
将所述候选数据集作为基线模型的输入数据集,
基于基线模型对输入数据集进行答案预测,得到所述问题的候选答案集,
其中,i为不大于第二数据集合中数据总数的自然数,n为基线模型的输入数据集合中的数据个数。
2.如权利要求1所述的实现方法,其特征在于,该方法进一步包括,
对候选答案集中的候选答案进行交叉验证,
按照多答案投票算法,计算候选答案集中的答案t的交叉验证投票得分,
根据数据i的位置信息对该答案t的投票得分进行加权,得到第二投票得分,
从第二投票得分中选择出最大得分所对应的答案作为候选答案,
其中,t为不大于n的自然数。
3.如权利要求1或2所述的实现方法,其特征在于,所述第一数据集合为段落集合;所述第二数据集合中的数据i为段落集合中的段落i;所述基线模型为BiDAF模型;所述第一数据集合中的数据为清洗了字符级噪声和/或句子级噪声的数据;该方法还包括,将所述过滤后的第二数据集合中的段落进行段落重组。
4.如权利要求3所述的实现方法,其特征在于,所述按照多答案投票算法,计算候选答案集中的答案t的交叉验证投票得分,包括,按照如下式子进行计算:
对于答案t,计算交叉验证投票得分va_scoret
其中,rouge(ansi,ansi)表示候选答案集合中的候选答案ansi与该集合中的其他答案ansj的相关性计算函数,Df为候选集,函数g是指数平滑函数,s_scorej为利用边界模型为段落j预测边界得分;
所述根据数据i的位置信息对该答案t的投票得分进行加权,得到第二投票得分,包括,按照式子进行计算:
s_scorei=h(s_scorei)·va_scoret
a_scoret=s_scorei·l(indexi)
其中,函数h是对数平滑函数,函数l是指数平滑函数,indexi是候选段落所在的位置信息,a_scoret为第二投票得分。
5.如权利要求3所述的实现方法,其特征在于,所述段落重组包括,将段落长度低于第一阈值的段落顺序地拼接,拼接后的段落长度不大于第二阈值,并得到重组后的段落集合,该集合作为第三段落集合;
所述i为不大于第三段落集合中段落总数的自然数。
6.如权利要求3所述的实现方法,其特征在于,所述最大覆盖度计算包括,基于最大覆盖度算法,分别计算基于词和基于字的最大覆盖度,并分别得到第一最大覆盖度和第二最大覆盖度,将第一最大覆盖度与第二最大覆盖度之和作为段落i的特征匹配得分。
7.如权利要求3所述的实现方法,其特征在于,所述加权所述数据i的语义匹配得分和特征匹配得分得到问题与数据i的匹配得分,包括,按照式子计算所述匹配得分:
m_scorei=βi·(ps,i+pc,i)
其中,m_scorei为匹配得分,βi为针对描述类问题所识别出的段落i中包含有列表信息时所设置的加权值,ps,i为段落i的文本语义匹配得分,pc,i为段落i的特征匹配得分。
8.如权利要求7所述的实现方法,其特征在于,所述对数据i按照多文档投票算法计算数据i的投票得分,根据数据i的匹配得分和投票得分,计算出数据i的最终得分;包括,
计算段落i的投票得分为:
其中,rouge(i,j)表示第三段落集合DC中的段落i与该集合中的其他段落j的相关性计算函数;
按照指数平滑函数对段落i的投票得分进行加权处理,段落i的最终得分p_scorei为:
p_scorei=m_scorei·f(v_scorei)
其中f函数是指数平滑函数。
9.一种减少候选数据集规模的方法,其特征在于,该方法包括,
根据问题类型过滤第一数据集合,得到过滤后的第二数据集合;
将问题与第二数据集合中的数据i进行语义匹配,得数据i的语义匹配得分;
将问题与所述数据i进行最大覆盖度计算,得到数据i的特征匹配得分;
加权所述数据i的语义匹配得分和特征匹配得分,得到问题与数据i的匹配得分;
对数据i按照多文档投票算法计算数据i的投票得分,根据数据i的匹配得分和投票得分,计算出数据i的最终得分;
按照所计算得到的最终得分的降序,对所述第二数据集合中的数据进行排序,选择序列中前n个数据,作为候选数据集;
其中,i、n均为不大于第二数据集合中元素总数的自然数。
10.如权利要求9所述的方法,其特征在于,所述第一数据集合为段落集合;所述第二数据集合中作为该集合元素的数据i为段落集合中的段落i;该方法还包括,将所述过滤后的第二数据集合中的段落进行段落重组。
11.如权利要求10所述的方法,其特征在于,所述段落重组包括,将段落长度低于第一阈值的段落顺序地拼接,拼接后的段落长度不大于第二阈值,并得到重组后的段落集合,该集合作为第三段落集合;
所述i、n均为不大于第三段落集合中段落总数的自然数。
12.如权利要求10或11所述的方法,其特征在于,所述最大覆盖度计算包括,基于最大覆盖度算法,分别计算基于词和基于字的最大覆盖度,并分别得到第一最大覆盖度和第二最大覆盖度,将第一最大覆盖度与第二最大覆盖度之和作为段落i的特征匹配得分。
13.如权利要求12所述的方法,其特征在于,所述加权所述数据i的语义匹配得分和特征匹配得分,得到问题与数据i的匹配得分包括,按照式子计算所述匹配得分:
m_scorei=βi·(ps,i+pc,i)
其中,m_scorei为匹配得分,βi为针对描述类问题所识别出的段落i中包含有列表信息时所设置的加权值,ps,i为段落i的文本语义匹配得分,pc,i为段落i的特征匹配得分。
14.如权利要求13所述的方法,其特征在于,对数据i按照多文档投票算法计算数据i的投票得分,根据数据i的匹配得分和投票得分,计算出数据i的最终得分,包括,
计算段落i的投票得分为:
其中,rouge(i,j)表示第三段落集合DC中的段落i与该集合中的其他段落j的相关性计算函数;
按照指数平滑函数对段落i的投票得分进行加权处理,段落i的最终得分p_scorei为:
p_scorei=m_scorei·f(v_scorei)
其中f函数是指数平滑函数。
15.如权利要求9所述的方法,其特征在于,所述第一数据集合中的数据为清洗了字符级噪声和/或句子级噪声的数据。
16.一种机器阅读理解的实现装置,其特征在于,该装置包括,
过滤模块,根据问题类型过滤第一数据集合,得到过滤后的第二数据集合;
语义匹配模块,将问题与第二数据集合中的数据i进行语义匹配,得数据i的语义匹配得分;
最大覆盖度计算模块,将问题与所述数据i进行最大覆盖度计算,得到数据i的特征匹配得分;
特征加权模块,加权所述数据i的语义匹配得分和特征匹配得分,得到问题与数据i的匹配得分;
多文档投票模块,基于匹配得分,对数据i按照多文档投票算法计算数据i的投票得分,按照所计算得到的投票得分的降序,对所述第二数据集合中的数据进行排序,选择序列中前n个数据,作为候选数据集;
基线模型模块,输入所述候选数据集至基线模型,对输入数据集进行答案预测,得到所述问题的候选答案集。
其中,i为不大于第二数据集合中数据总数的自然数,n为基线模型的输入数据集合中的数据个数。
17.如权利要求16所述的实现装置,其特征在于,该装置还包括,
答案交叉验证多文档投票模块,对候选答案集中的候选答案进行交叉验证,按照多答案投票算法,计算候选答案集中的答案t的交叉验证投票得分,根据数据i的位置信息对该答案t的投票得分进行加权,得到第二投票得分,从第二投票得分中选择出最大得分所对应的答案作为候选答案,
其中,t为不大于n的自然数。
18.如权利要求16所述的实现装置,其特征在于,所述第一数据集合为段落集合;所述第二数据集合中的数据i为段落集合中的段落i;所述基线模型为BiDAF模型;所述第一数据集合中的数据为清洗了字符级噪声和/或句子级噪声的数据;
该装置还包括,
段落重组模块,将所述过滤后的第二数据集合中的段落进行段落重组。
19.一种减少候选数据集规模的装置,其特征在于,该装置包括,
过滤模块,根据问题类型过滤第一数据集合,得到过滤后的第二数据集合;
语义匹配模块,将问题与第二数据集合中的数据i进行语义匹配,得数据i的语义匹配得分;
最大覆盖度计算模块,将问题与所述数据i进行最大覆盖度计算,得到数据i的特征匹配得分;
特征加权模块,加权所述数据i的语义匹配得分和特征匹配得分,得到问题与数据i的匹配得分;
多文档投票模块,基于匹配得分,对数据i按照多文档投票算法计算数据i的投票得分,按照所计算得到的投票得分的降序,对所述第二数据集合中的数据进行排序,选择序列中前n个数据,作为候选数据集;
其中,i为不大于第二数据集合中数据总数的自然数,n为基线模型的输入数据集合中的数据个数。
20.如权利要求19所述的装置,其特征在于,所述第一数据集合为段落集合;所述第二数据集合中作为该集合元素的数据i为段落集合中的段落i;
该装置还包括,
段落重组模块,将所述过滤后的第二数据集合中的段落进行段落重组。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810812763.4A CN109255012B (zh) | 2018-07-23 | 2018-07-23 | 机器阅读理解以及减少候选数据集规模的方法、装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810812763.4A CN109255012B (zh) | 2018-07-23 | 2018-07-23 | 机器阅读理解以及减少候选数据集规模的方法、装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN109255012A true CN109255012A (zh) | 2019-01-22 |
CN109255012B CN109255012B (zh) | 2021-04-30 |
Family
ID=65049688
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201810812763.4A Active CN109255012B (zh) | 2018-07-23 | 2018-07-23 | 机器阅读理解以及减少候选数据集规模的方法、装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN109255012B (zh) |
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110276071A (zh) * | 2019-05-24 | 2019-09-24 | 众安在线财产保险股份有限公司 | 一种文本匹配方法、装置、计算机设备及存储介质 |
CN110442681A (zh) * | 2019-08-06 | 2019-11-12 | 深圳前海达闼云端智能科技有限公司 | 一种机器阅读理解的方法、电子设备及可读存储介质 |
CN111159340A (zh) * | 2019-12-24 | 2020-05-15 | 重庆兆光科技股份有限公司 | 基于随机优化预测的机器阅读理解的答案匹配方法及系统 |
CN111563378A (zh) * | 2020-04-30 | 2020-08-21 | 神思电子技术股份有限公司 | 一种联合学习的多文档阅读理解实现方法 |
CN112818093A (zh) * | 2021-01-18 | 2021-05-18 | 平安国际智慧城市科技股份有限公司 | 基于语义匹配的证据文档检索方法、系统及存储介质 |
CN113836283A (zh) * | 2021-09-24 | 2021-12-24 | 上海金仕达软件科技有限公司 | 答案的生成方法、装置、电子设备及存储介质 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101377777A (zh) * | 2007-09-03 | 2009-03-04 | 北京百问百答网络技术有限公司 | 一种自动问答方法和系统 |
US20090070311A1 (en) * | 2007-09-07 | 2009-03-12 | At&T Corp. | System and method using a discriminative learning approach for question answering |
CN103229168A (zh) * | 2010-09-28 | 2013-07-31 | 国际商业机器公司 | 在问答期间在多个候选答案之间的证据扩散 |
CN106649542A (zh) * | 2015-11-03 | 2017-05-10 | 百度(美国)有限责任公司 | 用于视觉问答的系统和方法 |
US20170206152A1 (en) * | 2016-01-20 | 2017-07-20 | International Business Machines Corporation | System and method for determining quality metrics for a question set |
CN107818085A (zh) * | 2017-11-08 | 2018-03-20 | 山西大学 | 阅读机器人进行阅读理解的答案选择方法及系统 |
-
2018
- 2018-07-23 CN CN201810812763.4A patent/CN109255012B/zh active Active
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101377777A (zh) * | 2007-09-03 | 2009-03-04 | 北京百问百答网络技术有限公司 | 一种自动问答方法和系统 |
US20090070311A1 (en) * | 2007-09-07 | 2009-03-12 | At&T Corp. | System and method using a discriminative learning approach for question answering |
CN103229168A (zh) * | 2010-09-28 | 2013-07-31 | 国际商业机器公司 | 在问答期间在多个候选答案之间的证据扩散 |
CN106649542A (zh) * | 2015-11-03 | 2017-05-10 | 百度(美国)有限责任公司 | 用于视觉问答的系统和方法 |
US20170206152A1 (en) * | 2016-01-20 | 2017-07-20 | International Business Machines Corporation | System and method for determining quality metrics for a question set |
CN107818085A (zh) * | 2017-11-08 | 2018-03-20 | 山西大学 | 阅读机器人进行阅读理解的答案选择方法及系统 |
Cited By (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110276071A (zh) * | 2019-05-24 | 2019-09-24 | 众安在线财产保险股份有限公司 | 一种文本匹配方法、装置、计算机设备及存储介质 |
CN110276071B (zh) * | 2019-05-24 | 2023-10-13 | 众安在线财产保险股份有限公司 | 一种文本匹配方法、装置、计算机设备及存储介质 |
CN110442681A (zh) * | 2019-08-06 | 2019-11-12 | 深圳前海达闼云端智能科技有限公司 | 一种机器阅读理解的方法、电子设备及可读存储介质 |
CN111159340A (zh) * | 2019-12-24 | 2020-05-15 | 重庆兆光科技股份有限公司 | 基于随机优化预测的机器阅读理解的答案匹配方法及系统 |
CN111159340B (zh) * | 2019-12-24 | 2023-11-03 | 重庆兆光科技股份有限公司 | 基于随机优化预测的机器阅读理解的答案匹配方法及系统 |
CN111563378A (zh) * | 2020-04-30 | 2020-08-21 | 神思电子技术股份有限公司 | 一种联合学习的多文档阅读理解实现方法 |
CN112818093A (zh) * | 2021-01-18 | 2021-05-18 | 平安国际智慧城市科技股份有限公司 | 基于语义匹配的证据文档检索方法、系统及存储介质 |
CN113836283A (zh) * | 2021-09-24 | 2021-12-24 | 上海金仕达软件科技有限公司 | 答案的生成方法、装置、电子设备及存储介质 |
CN113836283B (zh) * | 2021-09-24 | 2024-04-12 | 上海金仕达软件科技股份有限公司 | 答案的生成方法、装置、电子设备及存储介质 |
Also Published As
Publication number | Publication date |
---|---|
CN109255012B (zh) | 2021-04-30 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Swathi et al. | An optimal deep learning-based LSTM for stock price prediction using twitter sentiment analysis | |
Saad et al. | Twitter sentiment analysis based on ordinal regression | |
Yan et al. | Learning to respond with deep neural networks for retrieval-based human-computer conversation system | |
CN111125334B (zh) | 一种基于预训练的搜索问答系统 | |
CN103870973B (zh) | 基于电子信息的关键词提取的信息推送、搜索方法及装置 | |
CN109255012A (zh) | 一种机器阅读理解的实现方法以及装置 | |
CN105989040B (zh) | 智能问答的方法、装置及系统 | |
Wang et al. | Duplicate question detection with deep learning in stack overflow | |
CN108363790A (zh) | 用于对评论进行评估的方法、装置、设备和存储介质 | |
CN103207913B (zh) | 商品细粒度语义关系的获取方法和系统 | |
CN108073568A (zh) | 关键词提取方法和装置 | |
CN108763362A (zh) | 基于随机锚点对选择的局部模型加权融合Top-N电影推荐方法 | |
CN105843897A (zh) | 一种面向垂直领域的智能问答系统 | |
WO2020233344A1 (zh) | 一种搜索方法、装置及存储介质 | |
CN113312480B (zh) | 基于图卷积网络的科技论文层级多标签分类方法及设备 | |
CN106844632A (zh) | 基于改进支持向量机的产品评论情感分类方法及装置 | |
US11734322B2 (en) | Enhanced intent matching using keyword-based word mover's distance | |
CN109325146A (zh) | 一种视频推荐方法、装置、存储介质和服务器 | |
CN107844558A (zh) | 一种分类信息的确定方法以及相关装置 | |
CN110688405A (zh) | 基于人工智能的专家推荐方法、装置、终端、及介质 | |
CN106294882A (zh) | 数据挖掘方法以及装置 | |
Khalid et al. | Topic detection from conversational dialogue corpus with parallel dirichlet allocation model and elbow method | |
CN113590945B (zh) | 一种基于用户借阅行为-兴趣预测的图书推荐方法和装置 | |
CN112396091B (zh) | 社交媒体图像流行度预测方法、系统、存储介质及应用 | |
Azzam et al. | A question routing technique using deep neural network for communities of question answering |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |