CN111966810A - 一种用于问答系统的问答对排序方法 - Google Patents

一种用于问答系统的问答对排序方法 Download PDF

Info

Publication number
CN111966810A
CN111966810A CN202010910552.1A CN202010910552A CN111966810A CN 111966810 A CN111966810 A CN 111966810A CN 202010910552 A CN202010910552 A CN 202010910552A CN 111966810 A CN111966810 A CN 111966810A
Authority
CN
China
Prior art keywords
question
answer
vector
pair
vectors
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202010910552.1A
Other languages
English (en)
Other versions
CN111966810B (zh
Inventor
闫琰
李旭峰
张潇
田士辉
刘程
张博文
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
China University of Mining and Technology Beijing CUMTB
Original Assignee
China University of Mining and Technology Beijing CUMTB
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by China University of Mining and Technology Beijing CUMTB filed Critical China University of Mining and Technology Beijing CUMTB
Priority to CN202010910552.1A priority Critical patent/CN111966810B/zh
Publication of CN111966810A publication Critical patent/CN111966810A/zh
Application granted granted Critical
Publication of CN111966810B publication Critical patent/CN111966810B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/332Query formulation
    • G06F16/3329Natural language query formulation or dialogue systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/338Presentation of query results

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Databases & Information Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Computational Linguistics (AREA)
  • Mathematical Physics (AREA)
  • Artificial Intelligence (AREA)
  • Human Computer Interaction (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Machine Translation (AREA)

Abstract

本发明公开了一种用于问答系统的问答对排序方法,涉及自然语言处理领域。该方法包括以下步骤:针对给定问题检索相关文档,并初步筛选出大概率具有所需回答的文档;将得到的文档按段落拆分为N个片段,分别放在给定问题的后边并向量化表示,得到N个向量化的问题‑片段对,N为整数;将N个向量化表示的问题‑片段对编码为N个统一大小的单个向量;对得到的N个统一大小的单个向量进行分类,得到问题‑片段对中“回答”是该“问题”的相关回答的概率,并进行排序;通过置信区间筛选出相关性较高的片段,作为最终答案。本发明可用于问答系统的问答对的准确排序。

Description

一种用于问答系统的问答对排序方法
技术领域
本发明涉及自然语言处理领域,具体涉及一种用于问答系统的问答对排序方法。
背景技术
根据现有调查,Cairns等人首先强调了建立生物医学领域特定问题回答系统的重要性。之后,TREC(Text Retrieval Conference)——一个信息检索领域的权威论坛,开始了基因组学研究。EQueR-EVALDA——一个法国问答系统评估运动,提出了构建一个特定生物医学领域的问答系统以解决生物医学问题的任务,最近这个任务取得了一系列进展。
除了上面的一些学术机构或组织在生物医学问答系统方面开展的研究,一些企业如谷歌,MedQA、Onelook和PubMed也在尝试构建问答应用程序。在问题回答的质量和使用方便上,Google的系统表现非常出色,远优于其他三个组织。以上这些企业构建的系统都可以对医生提出的大部分定义性问题给出一个合理的答案,但是由于某些限制,只能解决定义性问题。
BioASQ——一个评估生物医学问答系统的比赛,它的设立旨在评估信息系统在支持生物医学问题回答过程的表现。在第六届BioASQ挑战赛中,共有26个团队和90多个系统参加了这一比赛,其中最好的问答系统的结果要优于最好的传统方法。在这些参赛队伍中,有一个挑战队的系统在比赛的所有任务中得分最高或接近最高。这个系统基于注意力机制理论,使用查询词矩阵和文档词矩阵的点乘计算注意力机制进行编码。除此以外,系统还嵌入密集层和残差的预训练编码生成上下文敏感词。直观而严格地讲,基于双向RNN(Recurrent Neural Network)的上下文敏感词编码与上下文编码结果相同,并且后者更快,因此取得最好的结果。但是上述系统存在一些缺陷,只有在搜索一些相关文档的内容才能获得较好的结果。而当搜索相关片段时,结果就会变得糟糕,因为系统无法找到相关片段的准确位置。然而,在实际应用时相关文档无法满足这样的要求,因为在给出候选文献时,很难手动地从中找到准确的相关文档内容。相反,找到一些相关的片段却很容易。根据BioASQ竞赛的概述,大多数研究片段检索的参与者在检索文章时都采用了与该方法类似的处理,他们的主要区别在于拆分文档的方法。NCBI建议直接使用相关文档中的句子,用句子拆分文档进行检索。而BioASQ参与者的另一项研究则旨在定义一系列单词的粒度来拆分文档。还有几位研究人员将所有可能的片段视为不同的“短文档”,然后将这些候选片段的索引进行预处理,并使用相同的检索模型对其进行排名。除检索方法外,NCBI提出的框架可以直接计算问题和候选句子之间的余弦相似度,以测量它们之间的相关度,然后选择标题或摘要中得分最高的句子作为问题的相关片段。
从本发明技术方案的角度来看,这些方法过分依赖于信息检索技术,而这些技术的排名是基于查询词在文档和整个集合中的分布。由于缺乏对语义的考虑,这些方法往往存在严重的缺陷,比如余弦相似度表示相似程度,而不是QA关系。同样,所有经典IR模型的输出分数也只能表示在问题/查询过程中、文档中、或者整个集合中术语分布的相似性。在确定它们是否具有QA关系时,并没有考虑它们的语义信息,而语义往往是关键性因素。例如,对于诸如“如何治疗传染性单核细胞增多症”这个生物医学问题,候选文档中的一段描述为“传染性单核细胞增多症的治疗方法是什么?氯喹和类固醇值得尝试。”显然,预期的相关片段是后面的句子——“氯喹和类固醇值得尝试”,而不是前面的“传染性单核细胞增多症的治疗方法是什么?”因此,包含语义信息对于找到生物医学问题的相关片段非常重要。
发明内容
本发明提出了一种新方法用来解决生物医学QA模型中片段检索问题,并且根据排序的需要,重新设计了RNNs(Recursive Neural Networks)的误差函数。
根据本发明的第一方面,提供一种用于问答系统的问答对排序方法,所述方法包括以下步骤:
步骤1:针对给定问题检索相关文档,并初步筛选出大概率具有所需回答的文档;
步骤2:将步骤1得到的文档按段落拆分为N个片段,分别放在给定问题的后边并向量化表示,得到N个向量化的问题-片段对,N为整数;
步骤3:将N个向量化表示的问题-片段对编码为N个统一大小的单个向量;
步骤4:对步骤3得到的N个统一大小的单个向量进行分类,得到问题-片段对中“回答”是该“问题”的相关回答的概率,并进行排序;
步骤5:通过一定置信区间筛选出相关性较高的片段,作为最终答案。
进一步的,步骤1中,将给定问题输入查询端口为PubMed检索相关文档。所述pubmed为数据库检索API。
进一步的,步骤2中,采用词转向量(word2vec)模型对问题-片段对进行向量化表示处理。
进一步的,所述步骤3具体包括:
步骤31:针对N个向量化表示的问题-片段对中的一个问题-片段对,将相邻的两个词c1,c2编码为统一尺寸的向量p;
步骤32:解码所述统一尺寸的向量p得到重构的两个词c′1,c′2,通过重构误差函数确定其编码效果优劣;
步骤33:如编码效果为优,则利用所述统一尺寸的向量p替换输入到编码器中的所述相邻的两个词c1,c2
步骤34:重复以上操作,直至所述问题-片段对变为统一尺寸的向量Pn,i∈[1……N],N为整数;
步骤35:将多个向量化的问题-片段对均变为统一大小的词向量集合P={P1,P2…Pn…PN}。
进一步的,步骤31中,将相邻的两个词c1,c2编码为统一尺寸的向量p具体为:
p=f(W(1)[c1:c2]+b(1))
c1,c2为相邻的两个词,W(1)为参数矩阵,b(1)为偏置量,用tanh作为激活函数。参数矩阵是个抽象的,偏置量在这里也没有具体的大小限制。
进一步的,步骤32中,所述重构误差函数为:
Figure BDA0002663100960000031
其中,c1,c2为相邻的两个词;c′1,c′2为重构的两个词;n1和n2代表两个词(c1,c2)的词语数量;θ是自学习参数。
进一步的,所述步骤32中,通过重构误差函数判断是否满足重构误差阈值确定其编码效果:
如大于等于编码误差阈值,则编码效果为优;
如小于编码误差阈值,则编码效果为劣。
进一步的,所述重构误差阈值取值范围为[0,0.2]。
进一步的,步骤4具体包括:
步骤41:针对统一大小的词向量P1,P2……PN输出预测类分布集合D={d(1),d(2),d(3),…d(i),…d(N)},
Figure BDA0002663100960000041
表示第i个词向量为问题-答案(Q-A)关系的概率,
Figure BDA0002663100960000042
表示第i个词向量为非问题-回答(Q-A)关系的概率;
步骤42:c1,c2……cM是相关的,其余片段不相关的,目标标签分布集合为L={t1,t2,…ti…tN,},ti=(1,0),i≤m,ti=(0,1),i>m;
步骤43:根据
Figure BDA0002663100960000043
的值,通过公式r=rank(D)=rank(d(P;θ)),候选答案片段集合C的队列r被计算出来,其中,m等于为(1,0)的ti的个数,即m=count(L);
步骤44:通过排序误差(rank-error)函数对队列r的排序进行调整,得到最终排序。
这里,rank代表排序,比如这D=10个数的一个集合,rank的意思就是排列,是个抽象的公式。
进一步的,步骤41中,分类模型的预测类分布函数为:
d(p;θ)=softmax(Wlabelp)
其中,P为统一大小的词向量集合P={P1,P2……PN},θ和Wlabel为自学习参数,取值通过学习过程确定。
进一步的,步骤44中,rank-error函数为:
Figure BDA0002663100960000044
根据本发明的第二方面,提供一种计算机可读存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时实现根据以上任一方面所述方法的步骤。
根据本发明的第三方面,提供一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现根据任一方面所述方法的步骤。
本发明的有益效果:
(1)采用递归自动编码器,可以极大地缩小了Q-S向量长度差异带来的问题,使得最终的向量更加适用于分类排序,提高模型的速度。但是RAE本身存在着弊端,为此改善了隐藏层使得生成的父结点表示的长度唯一,这样以来有效避免了RAE会缩小隐藏层的数量级的弊端。
(2)通过重新定义重构误差突破了问题与答案片段的界限,这有利于判断问题与答案的自然关联性。
(3)考虑到排序对结果影响的重要性,定义了“排序误差”来表示那些与排序过程相关的训练错误。最终使得模型提高了对候选片段答案排序的准确度。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图示出的结构获得其他的附图。
图1示出根据本发明实施例的改进RNNs模型结构;
图2示出根据本发明实施例的递归自动编码器的实例;
图3示出根据本发明实施例的改进后的RNNs中父结点上的一个单元。
本发明目的的实现、功能特点及优点将结合实施例,参照附图做进一步说明。
具体实施方式
这里将详细地对示例性实施例进行说明,其示例表示在附图中。下面的描述涉及附图时,除非另有表示,不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本公开相一致的所有实施方式。相反,它们仅是与如所附权利要求书中所详述的、本公开的一些方面相一致的装置和方法的例子。
本公开的说明书和权利要求书中的术语“第一”、“第二”等是用于区别类似的对象而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本公开的实施例例如能够以除了在这里图示或描述的那些以外的顺序实施。
此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
多个,包括两个或者两个以上。
和/或,应当理解,对于本公开中使用的术语“和/或”,其仅仅是一种描述关联对象的关联关系,表示可以存在三种关系。例如,A和/或B,可以表示:单独存在A,同时存在A和B,单独存在B这三种情况。
RNNs为长度各异的Q-S pair形成统一的向量表达,以此来挖掘问题和候选片段的语义联系。在这个过程,本发明技术方案分别引入预处理操作、无监督的RNNs,递归的结合了Q-S的词向量以及改进的半监督RNNs来共同学习语义表达以及解决排序问题。改进RNNs模型结构如图1所示,它用来学习Q-S pair的语义向量表达,将Q-S对合成为一个统一大小的向量,并利用多任务学习结构,在RNNs的主干网络中引入一个用来判断是否有Q-A关系的分类模型,以提高最终用来表达Q-S对的向量的质量。
本发明提供了一种用于问答系统的问答对排序方法。首先,从文档中分离所有可能的候选答案片段,然后分别与给定问题结合起来形成一个问题-片段对(question-snippet pair)简称Q-S,并使用一个合适的向量表示模型来表示这个Q-S。Q-S的长度差异很大,一篇取自PubMed的候选文档可平均分离并组合出201对Q-S,为了使模型能够在规模庞大的语料集中更快速且准确的分离出最佳候选答案片段,并且尽量不被Q-S间长度的差异影响,因此采用了递归神经网络(Recursive Neural Networks),简称RNNs。
考虑到一个特定的Q-S关系可能会存在不同的排序结果,本发明技术方案定义了“rank error”,一种作为约束项的损失函数,来改进RNNs,并且将它与误差估计函数整合,以此来纠正排序带来的错误。
具体可包括:
1、将经过相关检索优化处理后的问题序列通过PubMed提供的统一接口检索相关文档。
2、将得到的相关文档放入文段筛选模型,初步筛选出大概率具有所需回答的文档。
该文段筛选模型是基于谷歌的BERT搭建的,例如可利用latex生成:
@article{devlin2018bert,
title={BERT:Pre-training of Deep Bidirectional Transformers forLanguage Understanding},
author={Devlin,Jacob and Chang,Ming-Wei and Lee,Kenton andToutanova,Kristina},
journal={arXiv preprint arXiv:1810.04805},
year={2018}
}
3、将第二步得到的文档按段落拆分,分别接在相应问题的后边并向量化,得到问题-回答对。
4、将问题-回答对放入本专利提出的模型中编码为统一大小的单个向量,具体过程为:
将问题-回答对中相邻的两个词向量通过编码器编码为统一向量;
通过解码器解码编码后得到的向量来度量编码效果;
达到预先设定的编码效果的阀值即用编码后的向量替代原输入编码器的两个向量,替换入问题-回答对;
重复上述步骤,直至问题-回答对中仅剩一个统一大小的向量。
本专利提出的模型是一种特殊的编码方式,是通过递归的编码结合每个相邻的向量,使得一个句子最终可编码为一个统一大小的向量。
5、将第四步得到的向量放入分类模型中分类,得到问题-回答对中“回答”是该“问题”的相关回答的概率。
6、通过一定置信区间筛选出相关性较高的回答,做为最终答案。
实施例1
利用Q-S对的语义向量和有监督的学习,可以计算Q-A关系的可能性,通过排序来选择最相关的答案片段。
【1】预处理和预训练
首先,将给定问题放入查询模型中检索相关文档。
然后,从排在最前面的N个文档中分离所有可能的候选答案片段,以保证理想片段答案的召回。将每个片段和问题组合形成Q-S pair。
此外,需要使用词向量,通常会使用连续向量,但是本方法采用了一个较简易的学习方法来预训练词向量,即word2vec。通过预训练,可以有效减少递归次数和语料库带来的不良影响。
【2】递归自动编码器和其变体
上文提及的RNNs为递归自编码器(简称RAE)的基本形式,RAE的编码端为RNNs结构,解码端为编码端的逆序模型。采用递归自动编码器的一个原因是为了将每个Q-S表示为统一大小的向量,这样即可将长度差异带来的诸多负面影响降至最低,由于向量规模缩小了多个数量级,模型速度也带来了很大的提升,加之整合了合适的支线任务,最终的向量表达更适于进行分类排序。但RAE有一个天生的不足需要克服,RAE不仅试图降低二元模型的重构误差,还试图降低树中较高结点的误差。由于RAE计算隐藏层的表示,然后试图去重构,而它又只能通过将隐藏层的数量级缩的非常小来降低重构误差。为了避免这种行为,本发明技术方案改善了隐藏层以便生成的父结点表示的长度始终唯一,即长度归一化。
图2显示了递归自动编码器的实例,其中包含单词向量x=(x1,…xm)和一个二叉树结构。同样利用RNNs,P(二叉树的父结点)可以由子结点c1,c2估算得来。公式如下:
p=f(W(1)[c1:c2]+b(1))
两个子结点的连接乘上一个参数矩阵W(1)。之后再加上偏置量b,用tanh作为激活函数。通常设计一个重构层来重构子向量以此来验证组合过程。重构函数如下:
[c′1:c′2]=W(2)p+b(2)
之后通过比较重构后与重构前的子向量来得到它们的欧式距离,以此来估算重构误差。公式如下:
Figure BDA0002663100960000081
现在,有两个子向量的父向量可以被估算出来并且维数保持相同,本发明技术方案采用三元组和递归组合来构建整棵树;因此,在每个非终端结点处重构误差估算都是可用的。
然而在递归过程中,子向量可以表示不同数量的单词,因此对于整体意义上的重构而言它们的重要性是不同的。于是本发明技术方案采用了一种策略去重新定义重构误差。公式如下:
Figure BDA0002663100960000091
式子中n1和n2代表(c1,c2)的词语数量,θ是参数。为了最大限度减少树中所有子向量对的重构误差,树的结构可以由以下方法来计算:
Figure BDA0002663100960000092
其中A(x)是由所有可以由输入的Q-Spair x所生成的所有的树组成的集合。贪心近似可以简化树的构建。每次计算出可能的父结点和每对相邻的向量的重构误差,然后用父结点替换误差最小的向量对。重复这个过程直至生成整棵树。这种近似最大程度上获取了单个词语的信息而不用遵循语法规则。它甚至突破了问题与答案片段的界限,这有利于判断是否一个问题和答案片段是自然关联的。【3】用于排序的半监督的改进型RNNs模型
由上面可知,利用无监督的RAE可以生成Q-S pair的语义向量。本发明技术方案将这个方法扩展到半监督的RNNs中来预测语义的关系和对可能与问题相关的答案片段进行排序。而通过RAE生成的树中每个父结点所发散的向量表达可以视作Q-S pair的特征,所以本发明技术方案通过在每个父结点上添加一个简单的softmax层来利用向量表达去预测类分布,式子如下:
d(p;θ)=softmax(Wlabelp)
图3展示了改进后的RNNs中父结点上的一个单元。令d=(d1,d2),d1+d2=1表示有无Q-A关系的分布,t1,t2是一个入口的目标标签分布。因为softmax层的输出是条件概率dk=p(k|[c1;c2]),可以用下式来计算交叉熵:
Figure BDA0002663100960000101
其中,每个入口的训练误差可以通过树T上的结点的误差和来估算。式子如下:
Figure BDA0002663100960000102
其中,每个非终端结点上的误差是重构误差和交叉熵误差的加权和,式子如下:
αErec([c1;c2]s;θ)+(1-α)EcE(ps,t;θ)
如上所述,改进的RNNs不仅负责Q-S pair的分类,而且根据相关性的值的大小对候选答案片段进行排序。
然而本发明技术方案发现相同的分类结果却产生了不同的排序结果,这是由于样本之间的影响所导致的,而这个影响却不能用交叉熵误差测量。但是只要排在第一的答案是被需要的,后者便会做出正确选择。因而在这种情况下排序的准确度要比分类准确度重要的多。
以上实例说明每个入口的训练错误受到于同一问题相对应的其它入口的估计概率的影响。因此本发明技术方案定义了“排序误差”来表示那些与排序过程相关的训练错误。
假定C是由排在最前面的N个生物医学问题的候选答案片段所构成的一个集合,C={x(1),x(2),…,x(N)},P则是一个由Q-S pair的向量表达构成的集合P={p(1),p(2),…,p(N)}。令D={d(1),d(2),…,d(N)}为输出的分布集合,其中d(i)={d1 (i),d2 (i)}。为了避免混淆,本发明技术方案假定x(1),x(2),…,x(m)是相关的,其余的均是不相关的。因此目标标签分布集合为L={t(1),t(2),…,t(N)},t(i)=(1,0),i≤m,t(i)=(0,1),i>m。根据d1 (i)的值,通过公式r=rank(D)=rank(d(P;θ)),候选答案片段集合C的队列r可以被计算出来。除此之外,m等于为(1,0)的t(i)的个数,即m=count(L)。
平均精度MAP(Mean Average Precision)是国际通用的用于测量排序结果评估单位。所以本发明技术方案将排序误差定义为负的MAP得分的对数,公式如下:
Figure BDA0002663100960000111
因此,与问题E’(C,L;θ)相对应的误差函数可以由式子(11)计算得出,而最终的目标函数和它的梯度分别由式子(12)和式子(13)给出。
Figure BDA0002663100960000112
Figure BDA0002663100960000113
Figure BDA0002663100960000114
因此,通过改进的RNNs进行适当的学习,Q-A关系的概率在Q-S pair内可以通过输出分布来估计。然后根据相应Q-S对的估计概率对候选片段答案进行排序,并预测排名靠前的片段是相关的。
此外,语言系统的额外资源,如UMLS,可以帮助模型通过医学概念或词汇之间的联系,更好地计算出问题与段落之间的关系。引用频率一词是用来表示程度的专业词汇,Q-S对包含词汇与词频不到15的,可以选择在uml和检索,然后将选择的Q-S对编码与本发明的模型转换为包含关注的分类模型和输出的结果的关注。将注意结果标准化后,可以得到每个单词在最终分类结果的Q-S对中的影响程度,是0到1之间的小数。值越大表示该单词对最终结果的影响越大。申请人发现,在这些高度专业化的词汇中,有一半以上对最终结果的影响较小。但这些专业词汇和许多与专业概念相关的词汇是正确答案的关键。
本发明技术方案在BioASQ 2013-2015benchmarks with the Medline corpus上进行了实验评估。结果表明,本发明技术方案提出的方法优于几个有竞争力的基准线,包括经典的IR模型、采用了替换向量表示方法的模型如CNN、LSTM和最新的BioASQ参与者。
具体如下:
同本发明技术方案的当前方法的一些变体进行比较,以BioASQ2013的代表模型为基准线,就BioASQ 2013而言,本发明技术方案的方法在3个批次中分别比CNN、RNN、LSTM和RAE的表现好36.2%、30.0%、26.8%和18.6%;就BioASQ2014而言,CNN、RNN、LSTM和RAE的平均表现好59.4%、49.6%、46.5%和18.9%;就BioASQ 2015而言,平均性能改善率分别为34.0%、35.6%、28.4%和19.7%。显然,从所有批次的统计数据来看,本发明技术方案提出的向量表示模型要远远优于其他的向量表示模型。
而同经典的IR模型相比较,本发明技术方案的方法也远远优于QL,SDM和BM25,与QL相比,在BioASQ13-15年间,评价性能改善率分别为54.6%、43.2%、32.3%。与SDM相比,评价性能改善率则达到49.6%、36.5%和26.1%。而与BM25相比,评价性能改善率分别为56.9%、49.4%和33.5%。
实验对比如结果如下:
表1:本发明技术方案的方法的平均精度(MAP)与BioASQ大赛上的经典IR模型的评价精度(MAP)的对比
Figure BDA0002663100960000121
表2:与BioASQ2013的其它参与者进行比较:
System Batch 1 Batch 2 Batch 3
our 0.0822 0.0631 0.0795
Wishart - 0.0360 -
BAS 100 0.0578 0.0337 0.0537
BAS 50 0.0512 0.0272 0.0527
表3:与BioASQ2014的其他参与者进行比较:
System Batch 1 Batch 2 Batch 3 Batch 4 Batch 5
our 0.0892 0.0656 0.0795 0.0743 0.0668
Wishart 0.0364 0.0379 0.0574 0.0503 0.0476
NCBI 0.0296 0.0062 0.0225 0.0240 0.0196
HPI - 0.0482 0.0517 0.0300 -
BAS 100 0.0608 0.0319 0.0486 0.0549 0.0544
BAS 50 0.0601 0.0313 0.0480 0.0539 0.0539
表4:与BioASQ2015的其他参与者进行比较:
System Batch 1 Batch 2 Batch 3 Batch 4 Batch 5
our 0.0724 0.0931 0.1048 0.1056 0.1412
ustb-prir 0.0570 0.0721 0.0932 0.0936 0.1201
qaiiit 0.0545 0.0379 - 0.0913 -
oaqa - 0.0709 0.0892 0.0957 0.1027
HPI 0.0347 0.0452 0.0624 0.0300 0.0572
实施例2
给定问题q:
″What is the association of estrogen replacement therapy andintracranial meningioma risk?″
步骤一:
对q进行分词并去掉标点,利用Stanford-corenlp进行词性标注,并去掉除名词及其短语(不含常用名词)、专有名词及其短语和定语以外的部分,得到q1。通过Pubmed官方提供的大规模词汇向量预训练模型,对q1中每个词汇通过L2范式进行相似性查询,并进行替换,将得到的句子逐个放入Pubmed官方提供的数据库检索API中检索相关文档,得到文档集合D。最后将q和D中的所有文档进行分词并向量化,做为相关文档筛选模型的输入,得出较大概率含有q对应的snippt的文档,得到文档集合D1。将分词、去标点并向量化后的q记为q2。Snippt意指“段落”的意思,可以认为是“可以用来组成所给问题对应的答案的相关段落”。
【注】
q分词后:[’What’,’is’,’the’,’association’,’of’,’estrogen’,’replacement’,’therapy’,’and’,’intracranial’,’meningioma’,’risk’]
词性标注:[('What','WP'),('is','VBZ'),('the','DT'),('association','NN'),('of','IN'),('estrogen','NN'),('replacement','NN'),('therapy','NN'),('and','CC'),('intracranial','JJ'),('meningioma','NN'),('risk','NN')]
步骤二:
将D1中的文档逐个按句子拆开,并对每个句子进行分词、去标点及未登陆词并向量化,接在q2后,得到q-s集合。未登录词即在大规模预训练语料库中没有记录的词,一般为某方法系统的简称或极其偏僻的专有名词。
【注】
D1中的某一片文档的某个段落:“Female sex hormones are thought to affectwomen's risk of developing central nervous system(CNS)tumors.Some havereported an increased risk in users of menopausal hormone therapy(HT)butevidence is limited.In the UK General Practice Research Database we comparedprospectively collected information on HT prescriptions in women aged 50-79years with CNS tumors diagnosed in 1987-2011with that in matched controls(four per case).Relative risks(RRs)in relation to prescribed HT werecalculated overall and by CNS tumor subtype.”
按句子拆分:["Female sex hormones are thought to affect women's riskof developing central nervous system(CNS)tumors",'Some have reported anincreased risk in users of menopausal hormone therapy(HT)but evidence islimited','In the UK General Practice Research Database we comparedprospectively collected information on HT prescriptions in women aged 50-79years with CNS tumors diagnosed in1987-2011with that in matched controls(four per case)','Relative risks(RRs)in relation to prescribed HT werecalculated overall and by CNS tumor subtype']
对其中某一句进行分词去标点以及未登录词:['Female','sex','hormones','are','thought','to','affect',"women's",'risk','of','developing','central','nervous','system','tumors']
接在q2后:['What','is','the','association','of','estrogen','replacement','therapy','and','intracranial','meningioma','risk','Female','sex','hormones','are','thought','to','affect',"women's",'risk','of','developing','central','nervous','system','tumors']
步骤三:
将q-s集合中的q-s对逐个放入本专利提出的RAE模型中,编码为统一尺寸的向量,记为R集合。
【注】
选取其中一个q-s对:['What','is','the','association','of','estrogen','replacement','therapy','and','intracranial','meningioma','risk','Female','sex','hormones','are','thought','to','affect',"women's",'risk','of','developing','central','nervous','system','tumors']
此q-s对向量化维度为(27,250),其中,“27”为句子中词语的数量,“250”为每个单词在预训练向量模型中每个单词的维度,这个维度在预训练时可以自选,本模型依据实验和惯例选择了250维。
RAE对此q-s对编码的结果为一个1000维的列向量,即编码为统一尺寸的向量,向量的尺寸可以任意选择,不同尺寸对结果有影响,经过试验后选择了1000维。
步骤四:
将R集合放入分类模型,进行分类。先取最终概率大于等于0.5的(这是本文的置信区间),放入结果集合R1。R1集合中元素数量记为n,若n小于D1集合中文档的个数,在取剩下的中概率高者,直至n等于D1集合中文档的个数。最终在R1中得到想要的snippt。“在取剩下的中概率高者”的概率是由于rank error的作用(rank是候选文档的排名),如果没有rankerror的约束分类模型最终的结果无法准确的代表概率,只能认为大于等于0.5即是想要的结果,小于0.5即不是想要的结果。
需要说明的是,在本文中,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者装置不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者装置所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括该要素的过程、方法、物品或者装置中还存在另外的相同要素。
上述本发明实施例序号仅仅为了描述,不代表实施例的优劣。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到上述实施方法可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件,但很多情况下前者是更佳的实施方式。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质(如ROM/RAM、磁碟、光盘)中,包括若干指令用以使得一台终端(可以是手机,计算机,服务器,空调器,或者网络设备等)执行本发明各个实施例所述的方法。
上面结合附图对本发明的实施例进行了描述,但是本发明并不局限于上述的具体实施方式,上述的具体实施方式仅仅是示意性的,而不是限制性的,本领域的普通技术人员在本发明的启示下,在不脱离本发明宗旨和权利要求所保护的范围情况下,还可做出很多形式,这些均属于本发明的保护之内。

Claims (10)

1.一种用于问答系统的问答对排序方法,其特征在于,所述方法包括以下步骤:
步骤1:输入给定问题到检索数据库,获得相关文档,并初步筛选出可能具有所需回答的文档;
步骤2:将步骤1得到的文档按段落拆分为N个片段,分别放在给定问题的后边并向量化表示,得到N个向量化的问题-片段对,N为整数;
步骤3:将N个向量化的问题-片段对编码为N个统一大小的单个向量;
步骤4:对步骤3得到的N个统一大小的单个向量进行分类,得到问题-片段对中“回答”是该“问题”的相关回答的概率,并进行排序;
步骤5:通过置信区间筛选出相关性较高的片段,作为最终答案。
2.根据权利要求1所述的用于问答系统的问答对排序方法,其特征在于,所述步骤3具体包括:
步骤31:针对N个向量化的问题-片段对中的一个问题-片段对,将该问题-片段对中的相邻的两个词c1,c2编码为统一尺寸的向量p;
步骤32:解码所述统一尺寸的向量p得到重构的两个词c′1,c′2,通过重构误差函数确定其编码效果优劣;
步骤33:如编码效果为优,则利用所述统一尺寸的向量p替换输入到编码器中的所述相邻的两个词c1,c2
步骤34:重复以上操作,直至该问题-片段对变为统一尺寸的向量Pn,n∈[1......N],N为整数;
步骤35:将多个向量化的问题-片段对均变为统一大小的词向量集合P={P1,P2...Pn...PN}。
3.根据权利要求2所述的用于问答系统的问答对排序方法,其特征在于,步骤31中,将相邻的两个词c1,c2编码为统一尺寸的向量p具体为:
p=f(W(1)[c1:c2]+b(1))
c1,c2为相邻的两个词,W(1)为参数矩阵,b(1)为偏置量,用tanh作为激活函数。
4.根据权利要求3所述的用于问答系统的问答对排序方法,其特征在于,步骤32中,所述重构误差函数为:
Figure FDA0002663100950000021
其中,c1,c2为相邻的两个词;c′1,c′2为重构的两个词;n1和n2代表两个词(c1,c2)的词语数量;θ是自学习参数。
5.根据权利要求4所述的用于问答系统的问答对排序方法,所述步骤32中,通过重构误差函数判断是否满足重构误差阈值确定其编码效果:
如大于等于编码误差阈值,则编码效果为优;
如小于编码误差阈值,则编码效果为劣,
其中,所述重构误差阈值取值范围为[0,0.2]。
6.根据权利要求1所述的用于问答系统的问答对排序方法,其特征在于,步骤4具体包括:
步骤41:针对统一大小的词向量P1,P2......PN输出预测类分布集合D={d(1),d(2),d(3),...d(i),...d(N)},
Figure FDA0002663100950000022
Figure FDA0002663100950000023
表示第i个词向量为问题-答案(Q-A)关系的概率,
Figure FDA0002663100950000024
表示第i个词向量为非问题-回答(Q-A)关系的概率;
步骤42:c1,c2......cM是相关的,其余片段不相关的,得到目标标签分布集合为L={t1,t2,...ti...tN,},ti=(1,0),i≤m,ti=(0,1),i>m;
步骤43:根据
Figure FDA0002663100950000025
的值,通过公式r=rank(D)=rank(d(P;θ)),计算候选答案片段集合C的队列r,其中,m为等于(1,0)的ti的个数,即m=count(L);
步骤44:通过排序误差函数对队列r的排序进行调整,得到最终排序。
7.根据权利要求6所述的用于问答系统的问答对排序方法,其特征在于,步骤41中,分类模型的预测类分布函数为:
d(p;θ)=softmax(Wlabelp)
其中,P为统一大小的词向量集合P={P1,P2......PN},θ和Wlabel为自学习参数,取值通过学习过程确定。
8.根据权利要求6所述的用于问答系统的问答对排序方法,其特征在于,步骤44中,排序误差函数为:
Figure FDA0002663100950000031
9.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时实现根据权利要求1至8中任一项所述方法的步骤。
10.一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现根据权利要求1至8中任一项所述方法的步骤。
CN202010910552.1A 2020-09-02 2020-09-02 一种用于问答系统的问答对排序方法 Active CN111966810B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010910552.1A CN111966810B (zh) 2020-09-02 2020-09-02 一种用于问答系统的问答对排序方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010910552.1A CN111966810B (zh) 2020-09-02 2020-09-02 一种用于问答系统的问答对排序方法

Publications (2)

Publication Number Publication Date
CN111966810A true CN111966810A (zh) 2020-11-20
CN111966810B CN111966810B (zh) 2021-03-09

Family

ID=73393193

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010910552.1A Active CN111966810B (zh) 2020-09-02 2020-09-02 一种用于问答系统的问答对排序方法

Country Status (1)

Country Link
CN (1) CN111966810B (zh)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112711657A (zh) * 2021-01-06 2021-04-27 北京中科深智科技有限公司 一种问答方法及问答系统
CN112799844A (zh) * 2021-02-02 2021-05-14 中国矿业大学(北京) 一种异构环境下时空型混合负载调度优化方法
CN114547282A (zh) * 2022-02-25 2022-05-27 广州中医药大学(广州中医药研究院) 一种植物分类动态检索方法
CN116108128A (zh) * 2023-04-13 2023-05-12 华南师范大学 一种开放域问答系统及答案预测方法
CN117556033A (zh) * 2024-01-11 2024-02-13 北京并行科技股份有限公司 确定问答系统的嵌入模型参数的方法、装置及计算设备

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106095872A (zh) * 2016-06-07 2016-11-09 北京高地信息技术有限公司 用于智能问答系统的答案排序方法及装置
CN110020009A (zh) * 2017-09-29 2019-07-16 阿里巴巴集团控股有限公司 在线问答方法、装置及系统
US20200167428A1 (en) * 2018-11-26 2020-05-28 International Business Machines Corporation Utilizing external knowledge and memory networks in a question-answering system

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106095872A (zh) * 2016-06-07 2016-11-09 北京高地信息技术有限公司 用于智能问答系统的答案排序方法及装置
CN110020009A (zh) * 2017-09-29 2019-07-16 阿里巴巴集团控股有限公司 在线问答方法、装置及系统
US20200167428A1 (en) * 2018-11-26 2020-05-28 International Business Machines Corporation Utilizing external knowledge and memory networks in a question-answering system

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112711657A (zh) * 2021-01-06 2021-04-27 北京中科深智科技有限公司 一种问答方法及问答系统
CN112799844A (zh) * 2021-02-02 2021-05-14 中国矿业大学(北京) 一种异构环境下时空型混合负载调度优化方法
CN114547282A (zh) * 2022-02-25 2022-05-27 广州中医药大学(广州中医药研究院) 一种植物分类动态检索方法
CN116108128A (zh) * 2023-04-13 2023-05-12 华南师范大学 一种开放域问答系统及答案预测方法
CN116108128B (zh) * 2023-04-13 2023-09-05 华南师范大学 一种开放域问答系统及答案预测方法
CN117556033A (zh) * 2024-01-11 2024-02-13 北京并行科技股份有限公司 确定问答系统的嵌入模型参数的方法、装置及计算设备
CN117556033B (zh) * 2024-01-11 2024-03-29 北京并行科技股份有限公司 确定问答系统的嵌入模型参数的方法、装置及计算设备

Also Published As

Publication number Publication date
CN111966810B (zh) 2021-03-09

Similar Documents

Publication Publication Date Title
CN111966810B (zh) 一种用于问答系统的问答对排序方法
CN113239181B (zh) 基于深度学习的科技文献引文推荐方法
CN111259127B (zh) 一种基于迁移学习句向量的长文本答案选择方法
CN112256828B (zh) 医学实体关系抽取方法、装置、计算机设备及可读存储介质
CN109902159A (zh) 一种基于自然语言处理的智能运维语句相似度匹配方法
CN109840287A (zh) 一种基于神经网络的跨模态信息检索方法和装置
CN111291188B (zh) 一种智能信息抽取方法及系统
CN113505200B (zh) 一种结合文档关键信息的句子级中文事件检测的方法
CN111159359A (zh) 文档检索方法、装置及计算机可读存储介质
CN111666764B (zh) 一种基于XLNet的自动摘要方法与装置
CN114065758A (zh) 一种基于超图随机游走的文档关键词抽取方法
CN110442702A (zh) 搜索方法、装置、可读存储介质和电子设备
CN111881264B (zh) 一种开放领域问答任务中长文本检索的方法和电子设备
CN116910599A (zh) 数据聚类方法、系统、电子设备及存储介质
CN117291192B (zh) 一种政务文本语义理解分析方法及系统
CN112035629B (zh) 基于符号化知识与神经网络的问答模型的实现方法
CN111581365B (zh) 一种谓词抽取方法
CN117828024A (zh) 一种插件检索方法、装置、存储介质及设备
CN117494815A (zh) 面向档案的可信大语言模型训练、推理方法和装置
CN113468311B (zh) 一种基于知识图谱的复杂问句问答方法、装置及存储介质
CN115238705A (zh) 语义解析结果重排序方法及系统
CN111767388B (zh) 一种候选池生成方法
CN114706841A (zh) 查询内容库构建方法、装置、电子设备及可读存储介质
CN113312903A (zh) 一种5g移动业务产品词库的构建方法及系统
CN111930880A (zh) 一种文本编码检索的方法、装置及介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant