CN112015760B - 基于候选答案集重排序的自动问答方法、装置和存储介质 - Google Patents
基于候选答案集重排序的自动问答方法、装置和存储介质 Download PDFInfo
- Publication number
- CN112015760B CN112015760B CN202011121611.3A CN202011121611A CN112015760B CN 112015760 B CN112015760 B CN 112015760B CN 202011121611 A CN202011121611 A CN 202011121611A CN 112015760 B CN112015760 B CN 112015760B
- Authority
- CN
- China
- Prior art keywords
- answer
- layer
- candidate
- question
- candidate answer
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 40
- 238000000605 extraction Methods 0.000 claims abstract description 47
- 230000008707 rearrangement Effects 0.000 claims abstract description 40
- 238000012549 training Methods 0.000 claims abstract description 20
- 239000013598 vector Substances 0.000 claims description 43
- 230000006870 function Effects 0.000 claims description 38
- 230000008569 process Effects 0.000 claims description 8
- 230000002265 prevention Effects 0.000 claims description 6
- 239000000284 extract Substances 0.000 claims description 5
- 230000001537 neural effect Effects 0.000 claims description 5
- 230000006386 memory function Effects 0.000 claims description 4
- 238000012163 sequencing technique Methods 0.000 claims description 4
- 238000007476 Maximum Likelihood Methods 0.000 claims description 3
- 230000008859 change Effects 0.000 claims description 3
- 238000004590 computer program Methods 0.000 claims description 3
- 238000004422 calculation algorithm Methods 0.000 abstract description 17
- 238000012360 testing method Methods 0.000 abstract description 10
- 238000004364 calculation method Methods 0.000 description 7
- 238000010586 diagram Methods 0.000 description 6
- 230000009286 beneficial effect Effects 0.000 description 4
- 238000013528 artificial neural network Methods 0.000 description 3
- 230000004927 fusion Effects 0.000 description 3
- 239000011159 matrix material Substances 0.000 description 3
- 239000013604 expression vector Substances 0.000 description 2
- 238000009499 grossing Methods 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000005457 optimization Methods 0.000 description 2
- 238000011160 research Methods 0.000 description 2
- 230000001133 acceleration Effects 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 230000002457 bidirectional effect Effects 0.000 description 1
- 230000003247 decreasing effect Effects 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000011156 evaluation Methods 0.000 description 1
- 230000002349 favourable effect Effects 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 239000002184 metal Substances 0.000 description 1
- 238000012545 processing Methods 0.000 description 1
- 230000000306 recurrent effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/24—Querying
- G06F16/245—Query processing
- G06F16/2453—Query optimisation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/31—Indexing; Data structures therefor; Storage structures
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/332—Query formulation
- G06F16/3329—Natural language query formulation or dialogue systems
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/338—Presentation of query results
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/044—Recurrent networks, e.g. Hopfield networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/049—Temporal neural networks, e.g. delay elements, oscillating neurons or pulsed inputs
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Mathematical Physics (AREA)
- Artificial Intelligence (AREA)
- General Health & Medical Sciences (AREA)
- Software Systems (AREA)
- Health & Medical Sciences (AREA)
- Biophysics (AREA)
- Evolutionary Computation (AREA)
- Biomedical Technology (AREA)
- Life Sciences & Earth Sciences (AREA)
- Computing Systems (AREA)
- Molecular Biology (AREA)
- Databases & Information Systems (AREA)
- Human Computer Interaction (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Electrically Operated Instructional Devices (AREA)
Abstract
本发明提供了一种基于候选答案集重排序的自动问答方法、装置和存储介质,本发明通过端到端方式的集成候选答案抽取网络与答案重排网络的构成自动问答算法架构,无论是训练阶段还是测试阶段都是以候选答案抽取网络的输出作为答案重排网络的输入,因此可以有效避免直接级联两个独立训练的候选答案抽取网络与答案重排网络带来的训练与测试时的数据分布不一致问题。此外,本发明所提出的端到端算法架构通过共享候选答案抽取网络与答案重排网络的网络层,可以有效解决重复编码问题。
Description
技术领域
本发明属于机器自动问答技术领域,具体是涉及到一种基于候选答案集重排序的自动问答方法、装置和存储介质。
背景技术
在机器自动问答处理领域,早期一般仅根据获得的答案起始位置索引的概率分布,来选取联合概率最大的答案首尾位置索引来抽取预测答案。但是,联合概率高只能说明答案质量高的可能性大,可以作为评估答案质量的一个因素,如果将其作为确定预测答案的唯一标准,会导致预测答案的准确度偏低,即预测的答案与标准答案相比,可能会存在答案错位、部分缺失、冗余的情况。因此,在现有的自动问答方法流程中,为提高预测答案的准确性,在获得候选答案集后,还需要对候选答案集进行重排序,然后再根据重排序的结果选择最终的预测答案。
在答案重排序研究的早期,研究者们基于词汇语义和话语来构建答案重排序模型,并利用话语信息来补充分布式词汇语义信息。后面,随着基于社区的问答网站的流行,如Yahoo! Answers,Quora等网站积累了大量珍贵的训练数据,研究者们开始不从词汇语义的角度继续研究答案排序模型,而是采用神经网络的方法,用简单的前向网络来进行答案排序并预测,预测效果相比早期的有所改善。
然而,现有的答案重排序方法通常没有考虑背景知识,都仅停留在给定候选答案集与问题,通过分析计算问题与答案的相关性,来为问题匹配最佳的答案,这不利于更进一步的提高答案预测的精准度。此外,现有的答案重排模型与获得候选答案集的答案抽取模块大多先独立训练,然后在测试阶段将两个模型直接级联来使用,这样会导致测试与训练时数据分布不一致,以及重复编码的问题。
发明内容
有鉴于此,本发明提供了一种基于候选答案集重排序的自动问答方法、装置和存储介质,以解决现有技术存在的预测精度不能进一步提高、测试与训练时数据分布不一致,以及重复编码的问题。
一种基于候选答案集重排序的自动问答方法,用于从原文中预测问题的答案,包括:
构建候选答案抽取网络,用于根据问题输入序列和原文输入序列输出由多个候选答案表示构成的候选答案表示集和获得各个所述候选答案表示对应的候选答案的第一评分,在所述候选答案表示集中,各个所述候选答案表示按照各个所述候选答案表示对应的候选答案成为预测答案的概率大小进行排序,成为所述预测答案越高的所述候选答案对应的第一评分越高,
构建答案重排网络,并使得所述候选答案表示集被输入至所述答案重排网络,以通过所述答案重排网络提取各个所述候选答案表示的语义特征,并根据提取的所述语义特征对各个所述候选答案表示对应的候选答案进行重新评分,以获得第二评分,并根据所述第二评分对各个所述候选答案表示所对应的答案进行重新排序,所述第二评分越高所述候选答案表示对应的所述候选答案成为预测答案的概率越高,
将所述第一评分和第二评分的进行加权,以获得评分加权值,将所述评分加权值最高的所述候选答案表示对应的候选答案作为所述问题的预测答案。
优选地,所述候选答案抽取网络根据所述问题输入序列和原文输入序列获得带有问题的原文表示,并从所述带有问题的原文表示中截取获得多个待候选的答案表示,并获得多个所述待候选的答案表示对应所述候选答案成为所述预测答案的概率,并根据所述概率对各个所述候选答案表示进行排序以及根据所述概率获得所述第一评分,抽取所述概率靠前的K个所述待候选的答案表示构成所述候选答案表示集。
优选地,通过表示层、编码层、匹配层、抽取层和截取层构建成所述候选答案抽取网络,根据问题输入序列和原文输入序列输出由多个候选答案表示构成的候选答案表示集的步骤包括:
步骤11:通过所述表示层将所述问题输入序列和文本输入序列分别转换成问题词向量和原文词向量进行表示,
步骤12:通过编码层分别提取所述问题词向量和原文词向量的语义特征,以分别输出第表征所述问题的问题表示和表征所述原文的第一原文表示,
步骤13:通过匹配层建立所述问题表示和第一原文表示的匹配关系,并根据所述匹配关系输出带有问题信息的第二原文表示,
步骤14:通过所述抽取层从所述第二原文表示中获得所述问题的多个候选答案首尾位置索引对应的首尾位置索引分布概率,
步骤15:根据所述首尾位置索引对应的联合分布概率的大小按照所述候选答案的首尾位置索引通过所述截取层中所述第二原文表示中截取获得多个所述候选答案表示,
其中,所述第一评分为首位置分布概率和对应的尾位置分布概率之和。
优选地,通过自注意力层和全连接层、防过拟合层和线性层构建成所述答案重排网络,通过所述答案重排网络对各个所述候选答案表示对应的候选答案分别进行重新评分排序的步骤包括:
步骤21:通过所述自注意力层来计算所述候选答案表示集中的各个元素之间的注意力分布,以从各个所述候选答案表示中提取语义特征,
步骤22:将所述自注意力层输出的隐藏变量依次经过所述全连接层、防过拟合层和线性层,以根据所述语义特征对各个所述候选答案表示进行的重新评分,以获得第二评分。
优选地,
在所述表示层中,通过RoBERTa模型来获得所述问题词向量和原文词向量,其中,在所述RoBERTa模型的预训练过程中,遮掩所述问题输入序列和文本序列中的语义词,所述语义词包括由多个字构成的词,
在所述编码层中,通过长短记忆网络来提取所述问题词向量和文本词向量的语义特征,
在所述匹配层中,先通过迭代对齐方式实现所述问题和所述原文的对齐,然后通过自对齐方式实现带有问题的原文表示自身的对齐,最后通过神经循环网络拟合所述带有问题的原文表示,
在所述抽取层,通过具有答案记忆功能的指针网络来记录问题信息,并根据所记录的问题信息从所述带有问题的原文表示中得到答案首尾位置索引的分布概率。
优选地,所述的自动问答方法还包括为每个所述候选答案分别构造两种标签,以对所述答案重排序网络进行训练,所述两种标签分别为硬标签和软标签,
在所述答案重排序网络进行训练过程中,根据所述硬标签的取值确定对应的所述候选答案是否为标准答案,根据所述软标签的取值确定对应的所述候选答案与所述问题的参考答案的ROUGE-L得分,
其中,所述硬标签的取值为0或1,所述软标签的取值为0到1。
优选地,将所述候选答案抽取网络的损失函数设计为极大似然损失函数,
将所述答案重排序网络的损失函数设计为阶段损失函数,所述阶段损失函数为所述硬标签和软标签对应的损失函数的加权和,所述硬标签和软标签对应的损失函数的加权系数随着所述答案重排序网络的迭代次数的改变而改变,
所述硬标签对应的损失函数设计为交叉熵损失函数,所述软标签的损失函数设计为均分误差损失函数。
一种基于候选答案集重排序的自动问答装置,包括:表示层、编码层、匹配层、抽取估层和截取层构建成的候选答案抽取网络和由自注意力层和全连接层、防过拟合层和线性层构建成所述答案重排网络以及答案输出层,
所述表示层用于将问题输入序列和原文输入序列分别转换成问题词向量和原文词向量进行表示,
所述编码层用于分布别提取所述问题词向量和原文词向量的语义特征,以分别输出表征所述问题的问题表示和表征所述原文的第一原文表示,
所述匹配层用于建立所述问题表示和原文表示的匹配关系,并根据所述匹配关系输出带有问题信息的第二原文表示,
所述抽取层用于从所述第二原文表示中获得所述问题的多个候选答案首尾位置索引的分布概率,并根据所述分布概率确定所述候选答案成为预测答案的概率,并根据所述分布概率确定各个所述候选答案的第一评分,所述第一评分越高,对应的所述候选答案成为所述预测答案的概率也越高,
所述截取层用于根据所述首尾位置对应的分布概率大小和多个所述候选答案首尾位置索引从所述第二原文表示中截取获得多个所述候选答案表示,
所述自注意力层用于计算所述候选答案表示集中的各个元素之间的注意力分布,以从各个所述候选答案表示中提取语义特征,
所述自注意力层输出的隐藏变量依次经过所述全连接层、防过拟合层和线性层,以根据所述语义特征对各个所述候选答案表示对应的候选答案进行重新评分和排序,以输出第二评分,所述第二评分越高,对应的所述候选答案成为所述预测答案的概率也越高,
所述答案输出层根据所述第一评分和第二评分的加权值,以获得评分加权值,将所述评分加权值最高的所述候选答案表示对应的候选答案作为所述问题的预测答案。
优选地,所述表示层为RoBERTa模型,
所述编码层中为长短记忆网络,
所述匹配层包括通过迭代对齐方式实现所述问题和所述原文的对齐的迭代对齐模块和通过自对齐方式实现带有问题的原文表示自身的对齐的自对齐模块,以及用于拟合所述带有问题的原文表示的神经循环网络,
所述抽取层为具有答案记忆功能的指针网络。
所述的自动问答方法。
一种存储介质,所述存储介质为可读存储介质,所述可读存储介质上存储的计算机程序被处理器执行时实现如上述任意一项所述的自动问答方法。
本发明的有益效果一是: 本发明提出了端到端的集成候选答案抽取网络与答案重排网络的自动问答算法架构,无论是训练阶段还是测试阶段都是以候选答案抽取网络的输出作为答案重排网络的输入,可以有效避免直接级联两个独立训练的候选答案抽取网络与答案重排网络带来的训练与测试时的数据分布不一致问题。此外,本发明所提出的端到端算法架构通过共享候选答案抽取网络与重排网络的网络层,可以有效解决重复编码问题。
本发明的有益效果二是:本发明提出的自动问答算法通过共享候选答案抽取网络中的算法的表示层、编码层和匹配层,可以利用给定的原文生成蕴含上下文语境的候选答案的向量表示,来提供更精确的语义信息。
本发明的有益效果三是:所述自动问答算法采用自注意力结构会更容易抓取到在中长距离程度上句子之间的相互依赖特征。所述自动问答算法把带有问题信息的答案表示作为自注意力层的输入,可以进一步拟合带有问题信息的答案表示,突出关键性信息,降低无效信息的干扰,从而提高答案重排模型的整体性能。
附图说明
图1为实施例一提供的一种基于候选答案集重排序的自动问答方法的实现装置结构示意图;
图2为实施例二提供的一种基于候选答案集重排序的自动问答方法的实现装置结构示意图;
图3为实施例三提供的一种基于候选答案集重排序的自动问答方法的实现装置结构示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所产生的所有其他实施例,都属于本发明保护的范围。此外需要说明的是,在具体实施方式这一项内容中“所述…”是仅指本发明的中的技术属于或特征。
图1为实施例一提供的一种基于候选答案集重排序的自动问答方法的实现装置结构示意图,图2为实施例二提供的一种基于候选答案集重排序的自动问答方法的实现装置结构示意图,图3为实施例三提供的一种基于候选答案集重排序的自动问答方法的实现装置结构示意图,下面将结合图1至图3具体阐述本发明提供的基于候选答案集重排序的自动问答方法、装置和存储介质。
如图1所示,本发明实施例一提供的基于候选答案集重排序的自动问答方法,用于从原文中预测问题的答案,其主要包括步骤1至步骤3。
步骤1:构建候选答案抽取网络,用于根据问题输入序列和原文输入序列输出由多个候选答案表示构成的候选答案表示集和获得各个所述候选答案表示对应的候选答案的第一评分,在所述候选答案表示集中,各个所述候选答案表示按照各个所述候选答案表示对应的候选答案成为预测答案的概率大小进行排序,成为所述预测答案越高的所述候选答案对应的第一评分越高,
步骤2:构建答案重排网络,并使得所述候选答案表示集被输入至所述答案重排网络,以通过所述答案重排网络提取各个所述候选答案表示的语义特征,并根据提取的所述语义特征对各个所述候选答案表示对应的候选答案进行重新评分,以获得第二评分,并根据所述第二评分对各个所述候选答案表示所对应的答案进行重新排序,所述第二评分越高所述候选答案表示对应的所述候选答案成为预测答案的概率越高,
步骤3:将所述第一评分和第二评分的进行加权,以获得评分加权值,将所述评分加权值最高的所述候选答案表示对应的候选答案作为所述问题的预测答案。步骤3通过构建预测答案输出层(图1中未画出)来实现,所述预测答案输出层将所述第一评分和第二评分进行加权,并根据所述加权值输出所述预测答案。
具体的,实施例一通过表示层、编码层、匹配层、抽取层和截取层构建成所述候选答案抽取网络,因此在步骤1中,根据问题输入序列和原文输入序列输出由多个候选答案表示构成的候选答案表示集的步骤包括11至步骤15。
步骤11:通过所述表示层将问题输入序列和文本输入序列分别转换成问题词向量和原文词向量进行表示,
步骤12:通过编码层分别提取所述问题词向量和原文词向量的语义特征,以分别输出表征所述问题的问题表示和表征所述原文的第一原文表示,
步骤13:通过匹配层建立所述问题表示和第一原文表示的匹配关系,并根据所述匹配关系输出带有问题信息的第二原文表示,
步骤14:通过所述抽取层从所述第二原文表示中获得所述问题的多个候选答案对应的首位置分布概率和所述尾位置索引对应的尾位置分布概率,
步骤15:根据所述首尾位置索引对应的联合分布概率的大小按照所述候选答案首尾位置索引通过所述截取层中所述第二原文表示中截取获得多个所述候选答案表示,
其中,所述第一评分为所述首位置分布概率和对应的所述尾位置分布概率之和,而在所述候选答案抽取网络中,所述候选答案成为预测答案的概率为所述候选答案的首尾位置索引的联合分布概率。例如对各个所述候选答案的首尾位置索引的联合分布概率进行由大到小排序,选择排序靠前的五个所述联合分布概率对应的五个候选答案作为所述候选答案集。其中,所述截取层根据这五个所述候选答案对应的索引位置确定其在所述带有问题的原文表示中的位置,从而截取所述候选答案。由于所述答案表示从带有问题的原文表示中截取,则截取获得的候选答案表示也为带有问题信息的答案表示,即其中包含了上下文语境信息,即原文的背景信息。
在依据本发明的实施例二中,通过自注意力层和全连接层、防过拟合层和线性层构建成所述答案重排网络,则步骤2中通过所述答案重排网络对各个所述候选答案表示对应的候选答案分别进行重新评分排序的步骤包括:
步骤21:通过所述自注意力层来计算所述候选答案表示集中的各个元素之间的注意力分布,以从各个所述候选答案表示中提取语义特征,
步骤22:将所述自注意力层输出的隐藏变量依次经过所述全连接层、防过拟合层和线性层,以根据所述语义特征对各个所述候选答案表示进行的重新评分,以获得第二评分。如图3所示,在依据本发明的实施例三中, 所述表示层为RoBERTa模型,通过RoBERTa模型来获得所述问题词向量和原文词向量,其中,在所述RoBERTa模型的预训练过程中,遮掩所述问题输入序列和文本序列中的语义词,所述语义词包括由多个字构成的词。
所述编码层为长短记忆网络,所述长短记忆网络提取所述问题词向量和文本词向量的语义特征。
所述匹配层包括通过迭代对齐方式实现所述问题和所述原文的对齐的迭代对齐模块,通过自对齐方式实现带有问题的原文表示自身的对齐的自对齐模块,以及用于拟合所述带有问题的原文表示的神经循环网络,如长短记忆网络。
所述抽取层为具有答案记忆功能的指针网络,通过所述指针网络来记录问题信息,并根据所记录的问题信息从所述带有问题的原文表示中确定各个候选答案首尾位置索引分布概率和所述首尾位置索引分布概率对应的联合概率分布。
所述匹配层采用迭代机制,即每一个迭代块是由所述迭代对齐模块、自对齐模块以及语义平滑模块这三部分组成的,以下具体介绍这三部分的工作。
首先是迭代对齐模块,其主要是用来建立起原文与问题之间的匹配关系,通过内积来衡量这一匹配关系,再通过关系匹配矩阵,进而得到新的问题表示向量,这一步获得的向量用于后续计算带有问题的原文表示向量,整个计算过程如公式(1)~(4)所示
通过语义融合单元SFU可以将问题信息很好地融入原文表示中,最终得到带有问题信息的原文表示,SFU计算方式如公式(6)~(8):
对于自对齐模块,其主要用于利用对原文表示中的重要信息进行强化操作,从而增加对整个长序列的认识。自对齐跟迭代对齐相比,两者的差异主要是在如何计算匹配关系矩阵上,迭代对齐计算的是原文p与问题q的匹配关系,自对齐则是计算原文表示与原文表示之间的匹配关系,计算方式如下列公式(9)所示:
语义平滑模块在得到带有问题信息的原文表示之后,利用循环神经网络对其做进一步拟合,最终得到拟合后的所述原文表示。
如图3所示,抽取层在本实施例中为带有记忆功能的答案指针网络,该网络增加了记忆向量,主要是用来记录在预测答案片段时的关键信息,记忆向量的初始状态与问题编码的终态相同[58]。设定答案指针网络中会包含L次迭代,那么在迭代时,答案首位置的分布概率如公式(10)、(11)所示:
其中,代表答案首位置的分布概率,FN是用来对输入信息进行非线性拟合操作的前馈神经网络。明确答案起始位置的分布概率之后,可以得到证据向量,然后利用这一向量对记忆向量进行更新,具体计算公式如公式(12)所示:
其中,SFU仍表示语义融合单元。
跟计算答案首位置分布概率的方法相似,答案尾位置分布概率的计算方法如公式(13)、(14)所示:
因为所述指针网络是独立计算所述候选答案首位置索引和尾位置索引的概率,所以该方法得到的答案首位置索引和尾位置索引是独立,故答案首尾位置索引的联合概率的计算如公式(15)所示:
本发明考虑到级联候选答案抽取网络与答案重排网络会产生训练和测试时数据分布不一致以及重复编码的问题,故本发明提出了自动问答装置为端到端的自动问答架构。在此算法架构中,答案重排网络共享候选答案抽取网络中的表示层、编码层和匹配层,因此其可以利用动态词向量模型RoBERTa来结合上下文信息得到更精确的答案表示,接着通过编码层的双向LSTM可以进一步拟合答案表示,最后通过匹配层获取带问题信息的答案表示。
在答案重排网络中使用的自注意力的不是目标(Target)和源(Source)之间的注意力,而是源内部元素之间或者目标内部元素之间发生的注意力,可以将其看作是目标等于源这种极端情况下的注意力计算。答案重排网络的自注意力层以带问题信息的答案表示为输入,来计算该表示的内部元素之间的注意力,用于构建更具语义信息的表达。最后将自注意力层输出的隐藏变量,依次经过1层全连接层,Dropout层(为了防止过拟合)和线性层,最后输出对于候选答案的评估。
为训练答案重排网络,本发明为每个所述候选答案构造了两种标签,分别是硬标签和软标签。的取值为1或者0,表示该候选答案是否为标准答案,软标签的取值是[0, 1],表示候选答案与参考答案的ROUGE-L得分。因为在训练初期,候选答案抽取网络所生成的候选答案集中大部分都没有正样本,导致答案重排网络无法得到有效训练,所以当候选答案集中没有正样本时,会将软标签取值最低的答案替换为正确答案。
因此,综合候选答案抽取网络和答案重排网络的两个评分,所述候选答案最终的重评分的计算如公式(17)所示:
本发明提供的自动问算法的损失函数如公式(18)所示:
答案重排网络由于采用了硬标签和软标签来标记样本,所以在设计损失函数时,需要分别考虑硬标签和软标签。由于本章所采用的硬标签会将答案重排序问题转变为一个二分类问题,所以适合采用被广泛应用于二分类或多分类问题的交叉熵损失函数(Cross Entropy Loss),如公式(20)所示:
所述软标签采用的是候选答案与标准答案的ROUGE-L值,适合采用均分误差函数(Mean-Square Error,MSE),如公式(21).所示:
答案集重排网络的损失函数是硬标签和软标签对应损失函数的加权和,如公式(22)所示:
其中表示当前时刻的迭代轮数。从面一个公式可以看出,权重系数随着迭代轮数的改变而改变,因此将称为阶段损失函数。在训练初期,由于候选答案抽取网络的性能较差,导致生成的候选答案集的质量不高,为了加快算法收敛引入了。和的优化目标存在一定的矛盾,前者是要增加正确的候选答案的得分,降低错误候选答案的得分,而后者是要让网络的输出值接近每个候选答案的ROUGE-L值。但到了训练中后期,通过候选答案抽取网络能够稳定地得到高质量的候选答案集,即候选答案集中的答案质量都偏高,的优化目标更符合当前的情况,故在损失函数中去掉了,增加了的权重。
综合以上的技术方案的分析,本发明的有益效果的总结如下:
本发明提出了端到端的集成候选答案抽取网络与答案重排网络的自动问答算法架构,无论是训练阶段还是测试阶段都是以候选答案抽取网络的输出作为答案重排网络的输入,可以有效避免直接级联两个独立训练的候选答案抽取网络与答案重排网络带来的训练与测试时的数据分布不一致问题。此外,本发明所提出的端到端算法架构通过共享候选答案抽取网络与重排网络的网络层,可以有效解决重复编码问题。
传统的答案重排方法仅考虑如何对候选答案和问题进行精准的语义匹配,无法利用给定的背景信息生成结合上下文语境的答案表示。而本发明提出的自动问答算法通过共享候选答案抽取网络中的算法的表示层、编码层和匹配层,可以利用给定的原文生成蕴含上下文语境的候选答案的向量表示,来提供更精确的语义信息。
最后所述自动问答算法采用自注意力结构会更容易抓取到在中长距离程度上句子之间的相互依赖特征。所述自动问答算法把带有问题信息的答案表示作为自注意力层的输入,可以进一步拟合带有问题信息的答案表示,突出关键性信息,降低无效信息的干扰,从而提高答案重排模型的整体性能。
最后本发明还提供了一种存储介质,其特征在于,所述存储介质为可读存储介质,所述可读存储介质上存储的计算机程序被处理器执行时实现上述任意一项所述的自动问答方法。
依照本发明的实施例如上文所述,这些实施例并没有详尽叙述所有的细节,也不限制该发明仅为所述的具体实施例。根据以上描述,可作很多的修改和变化。本说明书选取并具体描述这些实施例,是为了更好地解释本发明的原理和实际应用,从而使所属技术领域技术人员能很好地利用本发明以及在本发明基础上的修改使用。本发明仅受权利要求书及其全部范围和等效物的限制。
Claims (8)
1.一种基于候选答案集重排序的自动问答方法,用于从原文中预测问题的答案,其特征在于,包括:
构建候选答案抽取网络,用于根据问题输入序列和原文输入序列输出由多个候选答案表示构成的候选答案表示集和获得各个所述候选答案表示对应的候选答案的第一评分,在所述候选答案表示集中,各个所述候选答案表示按照各个所述候选答案表示对应的候选答案成为预测答案的概率大小进行排序,成为所述预测答案概率越高的所述候选答案对应的第一评分越高,
构建答案重排网络,并使得所述候选答案表示集被输入至所述答案重排网络,以通过所述答案重排网络提取各个所述候选答案表示的语义特征,并根据提取的所述语义特征对各个所述候选答案表示对应的候选答案进行重新评分,以获得第二评分,并根据所述第二评分对各个所述候选答案表示所对应的答案进行重新排序,所述第二评分越高所述候选答案表示对应的所述候选答案成为预测答案的概率越高,
将所述第一评分和第二评分的进行加权,以获得评分加权值,将所述评分加权值最高的所述候选答案表示对应的候选答案作为所述问题的所述预测答案,
通过表示层、编码层、匹配层、抽取层和截取层构建成所述候选答案抽取网络,根据问题输入序列和原文输入序列输出由多个候选答案表示构成的候选答案表示集的步骤包括:
步骤11:通过所述表示层将所述问题输入序列和文本输入序列分别转换成问题词向量和原文词向量进行表示,
步骤12:通过编码层分别提取所述问题词向量和原文词向量的语义特征,以分别输出表征所述问题的问题表示和表征所述原文的第一原文表示,
步骤13:通过匹配层建立所述问题表示和第一原文表示的匹配关系,并根据所述匹配关系输出带有问题信息的第二原文表示,
步骤14:通过所述抽取层从所述第二原文表示中获得多个候选答案的首尾位置索引的分布概率,
步骤15:根据所述首尾位置索引对应的联合分布概率的大小按照所述候选的答案首尾位置索引通过所述截取层中所述第二原文表示中截取获得多个所述候选答案表示,
其中,所述第一评分为首位置分布概率和对应的尾位置分布概率之和,
通过自注意力层和全连接层、防过拟合层和线性层构建成所述答案重排网络,通过所述答案重排网络对各个所述候选答案表示对应的候选答案分别进行重新评分排序的步骤包括:
步骤21:通过所述自注意力层来计算所述候选答案表示集中的各个元素之间的注意力分布,以从各个所述候选答案表示中提取语义特征,
步骤22:将所述自注意力层输出的隐藏变量依次经过所述全连接层、防过拟合层和线性层,以根据所述语义特征对各个所述候选答案表示进行的重新评分,以获得第二评分。
2.根据权利要求1所述的自动问答方法,其特征在于,所述候选答案抽取网络根据所述问题输入序列和原文输入序列获得带有问题的原文表示,并从所述带有问题的原文表示中抽取获得多个待候选的答案表示,并获得多个所述待候选的答案表示对应所述候选答案成为所述预测答案的概率,并根据所述概率对各个所述候选答案表示进行排序以及根据所述概率获得所述第一评分,抽取所述概率靠前的K个所述待候选的答案表示构成所述候选答案表示集。
3.根据权利要求2所述的自动问答方法,其特征在于,
在所述表示层中,通过RoBERTa模型来获得所述问题词向量和原文词向量,其中,在所述RoBERTa模型的预训练过程中,遮掩所述问题输入序列和文本序列中的语义词,所述语义词包括由多个字构成的词,
在所述编码层中,通过长短记忆网络来提取所述问题词向量和文本词向量的语义特征,
在所述匹配层中,先通过迭代对齐方式实现所述问题和所述原文的对齐,然后通过自对齐方式实现带有问题的原文表示自身的对齐,最后通过神经循环网络拟合所述带有问题的原文表示,
在所述抽取层,通过具有答案记忆功能的指针网络来记录问题信息,并根据所记录的问题信息从所述带有问题的原文表示中得到答案首尾位置索引的分布概率。
4.根据权利要求2所述的自动问答方法,其特征在于,还包括为每个所述候选答案分别构造两种标签,以对所述答案重排序网络进行训练,所述两种标签分别为硬标签和软标签,
在所述答案重排序网络进行训练过程中,根据所述硬标签的取值确定对应的所述候选答案是否为标准答案,根据所述软标签的取值确定对应的所述候选答案与所述问题的参考答案的ROUGE-L得分,
其中,所述硬标签的取值为0或1,所述软标签的取值为0到1。
5.根据权利要求4所述的自动问答方法,其特征在于,将所述候选答案抽取网络的损失函数设计为极大似然损失函数,
将所述答案重排序网络的损失函数设计为阶段损失函数,所述阶段损失函数为所述硬标签和软标签对应的损失函数的加权和,所述硬标签和软标签对应的损失函数的加权系数随着所述答案重排序网络的迭代次数的改变而改变,
所述硬标签对应的损失函数设计为交叉熵损失函数,所述软标签的损失函数设计为均分误差损失函数。
6.一种基于候选答案集重排序的自动问答装置,其特征在于,包括:表示层、编码层、匹配层、抽取层和截取层构建成的候选答案抽取网络和由自注意力层和全连接层、防过拟合层和线性层构建成所述答案重排网络以及答案输出层,
所述表示层用于将问题输入序列和原文输入序列分别转换成问题词向量和原文词向量进行表示,
所述编码层用于分布别提取所述问题词向量和原文词向量的语义特征,以分别输出表征所述问题的问题表示和表征所述原文的第一原文表示,
所述匹配层用于建立所述问题表示和原文表示的匹配关系,并根据所述匹配关系输出带有问题信息的第二原文表示,
所述抽取层用于从所述第二原文表示中获得所述问题的多个候选答案首尾位置索引的分布概率,并根据所述分布概率确定所述候选答案成为预测答案的概率,并根据所述分布概率确定各个所述候选答案的第一评分,所述第一评分越高,对应的所述候选答案成为所述预测答案的概率也越高,
所述截取层用于根据所述首尾位置对应的分布概率大小和多个所述候选答案首尾位置索引从所述第二原文表示中截取获得多个所述候选答案表示,
所述自注意力层用于计算所述候选答案表示集中的各个元素之间的注意力分布,以从各个所述候选答案表示中提取语义特征,
所述自注意力层输出的隐藏变量依次经过所述全连接层、防过拟合层和线性层,以根据所述语义特征对各个所述候选答案表示对应的候选答案进行重新评分和排序,以输出第二评分,所述第二评分越高,对应的所述候选答案成为所述预测答案的概率也越高,
所述答案输出层根据所述第一评分和第二评分的加权值,以获得评分加权值,将所述评分加权值最高的所述候选答案表示对应的候选答案作为所述问题的预测答案。
7.根据权利要求6所述的自动问答装置,其特征在于,
所述表示层为RoBERTa模型,
所述编码层中为长短记忆网络,
所述匹配层包括通过迭代对齐方式实现所述问题和所述原文的对齐的迭代对齐模块和通过自对齐方式实现带有问题的原文表示自身的对齐的自对齐模块,以及用于拟合所述带有问题的原文表示的神经循环网络,
所述抽取层为具有答案记忆功能的指针网络。
8.一种存储介质,其特征在于,所述存储介质为可读存储介质,所述可读存储介质上存储的计算机程序被处理器执行时实现如权利要求1-5中任意一项所述的自动问答方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011121611.3A CN112015760B (zh) | 2020-10-20 | 2020-10-20 | 基于候选答案集重排序的自动问答方法、装置和存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011121611.3A CN112015760B (zh) | 2020-10-20 | 2020-10-20 | 基于候选答案集重排序的自动问答方法、装置和存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112015760A CN112015760A (zh) | 2020-12-01 |
CN112015760B true CN112015760B (zh) | 2021-01-29 |
Family
ID=73527966
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202011121611.3A Active CN112015760B (zh) | 2020-10-20 | 2020-10-20 | 基于候选答案集重排序的自动问答方法、装置和存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112015760B (zh) |
Families Citing this family (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113704437B (zh) * | 2021-09-03 | 2023-08-11 | 重庆邮电大学 | 一种融合多头注意力机制和相对位置编码的知识库问答方法 |
CN114445885A (zh) * | 2022-01-18 | 2022-05-06 | 深圳数联天下智能科技有限公司 | 训练多目标检测模型的方法、检测方法及相关装置 |
CN115455160B (zh) * | 2022-09-02 | 2024-08-06 | 腾讯科技(深圳)有限公司 | 一种多文档阅读理解方法、装置、设备及存储介质 |
-
2020
- 2020-10-20 CN CN202011121611.3A patent/CN112015760B/zh active Active
Also Published As
Publication number | Publication date |
---|---|
CN112015760A (zh) | 2020-12-01 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110298037B (zh) | 基于增强注意力机制的卷积神经网络匹配的文本识别方法 | |
CN109902145B (zh) | 一种基于注意力机制的实体关系联合抽取方法和系统 | |
CN112015760B (zh) | 基于候选答案集重排序的自动问答方法、装置和存储介质 | |
CN111738003B (zh) | 命名实体识别模型训练方法、命名实体识别方法和介质 | |
CN110188272B (zh) | 一种基于用户背景的社区问答网站标签推荐方法 | |
US11257140B2 (en) | Item recommendation method based on user intention in a conversation session | |
CN112650886B (zh) | 基于跨模态动态卷积网络的跨模态视频时刻检索方法 | |
CN112528676A (zh) | 文档级别的事件论元抽取方法 | |
CN110516095A (zh) | 基于语义迁移的弱监督深度哈希社交图像检索方法和系统 | |
CN107590127A (zh) | 一种题库知识点自动标注方法及系统 | |
CN114818717B (zh) | 融合词汇和句法信息的中文命名实体识别方法及系统 | |
CN112527993B (zh) | 一种跨媒体层次化深度视频问答推理框架 | |
CN115510814B (zh) | 一种基于双重规划的篇章级复杂问题生成方法 | |
CN113822125A (zh) | 唇语识别模型的处理方法、装置、计算机设备和存储介质 | |
CN114925232B (zh) | 一种文段问答框架下跨模态的时域视频定位方法 | |
CN114385803B (zh) | 一种基于外部知识和片段选择的抽取式阅读理解方法 | |
CN115310520A (zh) | 融合多特征的深度知识追踪方法及习题推荐方法 | |
CN114626463A (zh) | 语言模型的训练方法、文本匹配方法及相关装置 | |
CN114612748A (zh) | 一种基于特征解耦的跨模态视频片段检索方法 | |
CN116644759B (zh) | 语句中方面类别及其语义极性的提取方法和系统 | |
CN111581365B (zh) | 一种谓词抽取方法 | |
CN112905750A (zh) | 一种优化模型的生成方法和设备 | |
CN114692615B (zh) | 一种针对小语种的小样本意图识别方法 | |
CN117216617A (zh) | 文本分类模型训练方法、装置、计算机设备和存储介质 | |
CN112528003B (zh) | 一种基于语义排序和知识修正的多项选择问答方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |