CN112015760B - 基于候选答案集重排序的自动问答方法、装置和存储介质 - Google Patents

基于候选答案集重排序的自动问答方法、装置和存储介质 Download PDF

Info

Publication number
CN112015760B
CN112015760B CN202011121611.3A CN202011121611A CN112015760B CN 112015760 B CN112015760 B CN 112015760B CN 202011121611 A CN202011121611 A CN 202011121611A CN 112015760 B CN112015760 B CN 112015760B
Authority
CN
China
Prior art keywords
answer
layer
candidate
question
candidate answer
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202011121611.3A
Other languages
English (en)
Other versions
CN112015760A (zh
Inventor
曾俊杰
孙晓雅
曾云秀
唐见兵
尹帮虎
张琪
谢旭
王鹏
李新梦
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
National University of Defense Technology
Original Assignee
National University of Defense Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by National University of Defense Technology filed Critical National University of Defense Technology
Priority to CN202011121611.3A priority Critical patent/CN112015760B/zh
Publication of CN112015760A publication Critical patent/CN112015760A/zh
Application granted granted Critical
Publication of CN112015760B publication Critical patent/CN112015760B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2453Query optimisation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/31Indexing; Data structures therefor; Storage structures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/332Query formulation
    • G06F16/3329Natural language query formulation or dialogue systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/338Presentation of query results
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/044Recurrent networks, e.g. Hopfield networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/049Temporal neural networks, e.g. delay elements, oscillating neurons or pulsed inputs
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Mathematical Physics (AREA)
  • Artificial Intelligence (AREA)
  • General Health & Medical Sciences (AREA)
  • Software Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Biophysics (AREA)
  • Evolutionary Computation (AREA)
  • Biomedical Technology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Computing Systems (AREA)
  • Molecular Biology (AREA)
  • Databases & Information Systems (AREA)
  • Human Computer Interaction (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Electrically Operated Instructional Devices (AREA)

Abstract

本发明提供了一种基于候选答案集重排序的自动问答方法、装置和存储介质,本发明通过端到端方式的集成候选答案抽取网络与答案重排网络的构成自动问答算法架构,无论是训练阶段还是测试阶段都是以候选答案抽取网络的输出作为答案重排网络的输入,因此可以有效避免直接级联两个独立训练的候选答案抽取网络与答案重排网络带来的训练与测试时的数据分布不一致问题。此外,本发明所提出的端到端算法架构通过共享候选答案抽取网络与答案重排网络的网络层,可以有效解决重复编码问题。

Description

基于候选答案集重排序的自动问答方法、装置和存储介质
技术领域
本发明属于机器自动问答技术领域,具体是涉及到一种基于候选答案集重排序的自动问答方法、装置和存储介质。
背景技术
在机器自动问答处理领域,早期一般仅根据获得的答案起始位置索引的概率分布,来选取联合概率最大的答案首尾位置索引来抽取预测答案。但是,联合概率高只能说明答案质量高的可能性大,可以作为评估答案质量的一个因素,如果将其作为确定预测答案的唯一标准,会导致预测答案的准确度偏低,即预测的答案与标准答案相比,可能会存在答案错位、部分缺失、冗余的情况。因此,在现有的自动问答方法流程中,为提高预测答案的准确性,在获得候选答案集后,还需要对候选答案集进行重排序,然后再根据重排序的结果选择最终的预测答案。
在答案重排序研究的早期,研究者们基于词汇语义和话语来构建答案重排序模型,并利用话语信息来补充分布式词汇语义信息。后面,随着基于社区的问答网站的流行,如Yahoo! Answers,Quora等网站积累了大量珍贵的训练数据,研究者们开始不从词汇语义的角度继续研究答案排序模型,而是采用神经网络的方法,用简单的前向网络来进行答案排序并预测,预测效果相比早期的有所改善。
然而,现有的答案重排序方法通常没有考虑背景知识,都仅停留在给定候选答案集与问题,通过分析计算问题与答案的相关性,来为问题匹配最佳的答案,这不利于更进一步的提高答案预测的精准度。此外,现有的答案重排模型与获得候选答案集的答案抽取模块大多先独立训练,然后在测试阶段将两个模型直接级联来使用,这样会导致测试与训练时数据分布不一致,以及重复编码的问题。
发明内容
有鉴于此,本发明提供了一种基于候选答案集重排序的自动问答方法、装置和存储介质,以解决现有技术存在的预测精度不能进一步提高、测试与训练时数据分布不一致,以及重复编码的问题。
一种基于候选答案集重排序的自动问答方法,用于从原文中预测问题的答案,包括:
构建候选答案抽取网络,用于根据问题输入序列和原文输入序列输出由多个候选答案表示构成的候选答案表示集和获得各个所述候选答案表示对应的候选答案的第一评分,在所述候选答案表示集中,各个所述候选答案表示按照各个所述候选答案表示对应的候选答案成为预测答案的概率大小进行排序,成为所述预测答案越高的所述候选答案对应的第一评分越高,
构建答案重排网络,并使得所述候选答案表示集被输入至所述答案重排网络,以通过所述答案重排网络提取各个所述候选答案表示的语义特征,并根据提取的所述语义特征对各个所述候选答案表示对应的候选答案进行重新评分,以获得第二评分,并根据所述第二评分对各个所述候选答案表示所对应的答案进行重新排序,所述第二评分越高所述候选答案表示对应的所述候选答案成为预测答案的概率越高,
将所述第一评分和第二评分的进行加权,以获得评分加权值,将所述评分加权值最高的所述候选答案表示对应的候选答案作为所述问题的预测答案。
优选地,所述候选答案抽取网络根据所述问题输入序列和原文输入序列获得带有问题的原文表示,并从所述带有问题的原文表示中截取获得多个待候选的答案表示,并获得多个所述待候选的答案表示对应所述候选答案成为所述预测答案的概率,并根据所述概率对各个所述候选答案表示进行排序以及根据所述概率获得所述第一评分,抽取所述概率靠前的K个所述待候选的答案表示构成所述候选答案表示集。
优选地,通过表示层、编码层、匹配层、抽取层和截取层构建成所述候选答案抽取网络,根据问题输入序列和原文输入序列输出由多个候选答案表示构成的候选答案表示集的步骤包括:
步骤11:通过所述表示层将所述问题输入序列和文本输入序列分别转换成问题词向量和原文词向量进行表示,
步骤12:通过编码层分别提取所述问题词向量和原文词向量的语义特征,以分别输出第表征所述问题的问题表示和表征所述原文的第一原文表示,
步骤13:通过匹配层建立所述问题表示和第一原文表示的匹配关系,并根据所述匹配关系输出带有问题信息的第二原文表示,
步骤14:通过所述抽取层从所述第二原文表示中获得所述问题的多个候选答案首尾位置索引对应的首尾位置索引分布概率,
步骤15:根据所述首尾位置索引对应的联合分布概率的大小按照所述候选答案的首尾位置索引通过所述截取层中所述第二原文表示中截取获得多个所述候选答案表示,
其中,所述第一评分为首位置分布概率和对应的尾位置分布概率之和。
优选地,通过自注意力层和全连接层、防过拟合层和线性层构建成所述答案重排网络,通过所述答案重排网络对各个所述候选答案表示对应的候选答案分别进行重新评分排序的步骤包括:
步骤21:通过所述自注意力层来计算所述候选答案表示集中的各个元素之间的注意力分布,以从各个所述候选答案表示中提取语义特征,
步骤22:将所述自注意力层输出的隐藏变量依次经过所述全连接层、防过拟合层和线性层,以根据所述语义特征对各个所述候选答案表示进行的重新评分,以获得第二评分。
优选地,
在所述表示层中,通过RoBERTa模型来获得所述问题词向量和原文词向量,其中,在所述RoBERTa模型的预训练过程中,遮掩所述问题输入序列和文本序列中的语义词,所述语义词包括由多个字构成的词,
在所述编码层中,通过长短记忆网络来提取所述问题词向量和文本词向量的语义特征,
在所述匹配层中,先通过迭代对齐方式实现所述问题和所述原文的对齐,然后通过自对齐方式实现带有问题的原文表示自身的对齐,最后通过神经循环网络拟合所述带有问题的原文表示,
在所述抽取层,通过具有答案记忆功能的指针网络来记录问题信息,并根据所记录的问题信息从所述带有问题的原文表示中得到答案首尾位置索引的分布概率。
优选地,所述的自动问答方法还包括为每个所述候选答案分别构造两种标签,以对所述答案重排序网络进行训练,所述两种标签分别为硬标签和软标签,
在所述答案重排序网络进行训练过程中,根据所述硬标签的取值确定对应的所述候选答案是否为标准答案,根据所述软标签的取值确定对应的所述候选答案与所述问题的参考答案的ROUGE-L得分,
其中,所述硬标签的取值为0或1,所述软标签的取值为0到1。
优选地,将所述候选答案抽取网络的损失函数设计为极大似然损失函数,
将所述答案重排序网络的损失函数设计为阶段损失函数,所述阶段损失函数为所述硬标签和软标签对应的损失函数的加权和,所述硬标签和软标签对应的损失函数的加权系数随着所述答案重排序网络的迭代次数的改变而改变,
所述硬标签对应的损失函数设计为交叉熵损失函数,所述软标签的损失函数设计为均分误差损失函数。
一种基于候选答案集重排序的自动问答装置,包括:表示层、编码层、匹配层、抽取估层和截取层构建成的候选答案抽取网络和由自注意力层和全连接层、防过拟合层和线性层构建成所述答案重排网络以及答案输出层,
所述表示层用于将问题输入序列和原文输入序列分别转换成问题词向量和原文词向量进行表示,
所述编码层用于分布别提取所述问题词向量和原文词向量的语义特征,以分别输出表征所述问题的问题表示和表征所述原文的第一原文表示,
所述匹配层用于建立所述问题表示和原文表示的匹配关系,并根据所述匹配关系输出带有问题信息的第二原文表示,
所述抽取层用于从所述第二原文表示中获得所述问题的多个候选答案首尾位置索引的分布概率,并根据所述分布概率确定所述候选答案成为预测答案的概率,并根据所述分布概率确定各个所述候选答案的第一评分,所述第一评分越高,对应的所述候选答案成为所述预测答案的概率也越高,
所述截取层用于根据所述首尾位置对应的分布概率大小和多个所述候选答案首尾位置索引从所述第二原文表示中截取获得多个所述候选答案表示,
所述自注意力层用于计算所述候选答案表示集中的各个元素之间的注意力分布,以从各个所述候选答案表示中提取语义特征,
所述自注意力层输出的隐藏变量依次经过所述全连接层、防过拟合层和线性层,以根据所述语义特征对各个所述候选答案表示对应的候选答案进行重新评分和排序,以输出第二评分,所述第二评分越高,对应的所述候选答案成为所述预测答案的概率也越高,
所述答案输出层根据所述第一评分和第二评分的加权值,以获得评分加权值,将所述评分加权值最高的所述候选答案表示对应的候选答案作为所述问题的预测答案。
优选地,所述表示层为RoBERTa模型,
所述编码层中为长短记忆网络,
所述匹配层包括通过迭代对齐方式实现所述问题和所述原文的对齐的迭代对齐模块和通过自对齐方式实现带有问题的原文表示自身的对齐的自对齐模块,以及用于拟合所述带有问题的原文表示的神经循环网络,
所述抽取层为具有答案记忆功能的指针网络。
所述的自动问答方法。
一种存储介质,所述存储介质为可读存储介质,所述可读存储介质上存储的计算机程序被处理器执行时实现如上述任意一项所述的自动问答方法。
本发明的有益效果一是: 本发明提出了端到端的集成候选答案抽取网络与答案重排网络的自动问答算法架构,无论是训练阶段还是测试阶段都是以候选答案抽取网络的输出作为答案重排网络的输入,可以有效避免直接级联两个独立训练的候选答案抽取网络与答案重排网络带来的训练与测试时的数据分布不一致问题。此外,本发明所提出的端到端算法架构通过共享候选答案抽取网络与重排网络的网络层,可以有效解决重复编码问题。
本发明的有益效果二是:本发明提出的自动问答算法通过共享候选答案抽取网络中的算法的表示层、编码层和匹配层,可以利用给定的原文生成蕴含上下文语境的候选答案的向量表示,来提供更精确的语义信息。
本发明的有益效果三是:所述自动问答算法采用自注意力结构会更容易抓取到在中长距离程度上句子之间的相互依赖特征。所述自动问答算法把带有问题信息的答案表示作为自注意力层的输入,可以进一步拟合带有问题信息的答案表示,突出关键性信息,降低无效信息的干扰,从而提高答案重排模型的整体性能。
附图说明
图1为实施例一提供的一种基于候选答案集重排序的自动问答方法的实现装置结构示意图;
图2为实施例二提供的一种基于候选答案集重排序的自动问答方法的实现装置结构示意图;
图3为实施例三提供的一种基于候选答案集重排序的自动问答方法的实现装置结构示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所产生的所有其他实施例,都属于本发明保护的范围。此外需要说明的是,在具体实施方式这一项内容中“所述…”是仅指本发明的中的技术属于或特征。
图1为实施例一提供的一种基于候选答案集重排序的自动问答方法的实现装置结构示意图,图2为实施例二提供的一种基于候选答案集重排序的自动问答方法的实现装置结构示意图,图3为实施例三提供的一种基于候选答案集重排序的自动问答方法的实现装置结构示意图,下面将结合图1至图3具体阐述本发明提供的基于候选答案集重排序的自动问答方法、装置和存储介质。
如图1所示,本发明实施例一提供的基于候选答案集重排序的自动问答方法,用于从原文中预测问题的答案,其主要包括步骤1至步骤3。
步骤1:构建候选答案抽取网络,用于根据问题输入序列和原文输入序列输出由多个候选答案表示构成的候选答案表示集和获得各个所述候选答案表示对应的候选答案的第一评分,在所述候选答案表示集中,各个所述候选答案表示按照各个所述候选答案表示对应的候选答案成为预测答案的概率大小进行排序,成为所述预测答案越高的所述候选答案对应的第一评分越高,
步骤2:构建答案重排网络,并使得所述候选答案表示集被输入至所述答案重排网络,以通过所述答案重排网络提取各个所述候选答案表示的语义特征,并根据提取的所述语义特征对各个所述候选答案表示对应的候选答案进行重新评分,以获得第二评分,并根据所述第二评分对各个所述候选答案表示所对应的答案进行重新排序,所述第二评分越高所述候选答案表示对应的所述候选答案成为预测答案的概率越高,
步骤3:将所述第一评分和第二评分的进行加权,以获得评分加权值,将所述评分加权值最高的所述候选答案表示对应的候选答案作为所述问题的预测答案。步骤3通过构建预测答案输出层(图1中未画出)来实现,所述预测答案输出层将所述第一评分和第二评分进行加权,并根据所述加权值输出所述预测答案。
具体的,实施例一通过表示层、编码层、匹配层、抽取层和截取层构建成所述候选答案抽取网络,因此在步骤1中,根据问题输入序列和原文输入序列输出由多个候选答案表示构成的候选答案表示集的步骤包括11至步骤15。
步骤11:通过所述表示层将问题输入序列和文本输入序列分别转换成问题词向量和原文词向量进行表示,
步骤12:通过编码层分别提取所述问题词向量和原文词向量的语义特征,以分别输出表征所述问题的问题表示和表征所述原文的第一原文表示,
步骤13:通过匹配层建立所述问题表示和第一原文表示的匹配关系,并根据所述匹配关系输出带有问题信息的第二原文表示,
步骤14:通过所述抽取层从所述第二原文表示中获得所述问题的多个候选答案对应的首位置分布概率和所述尾位置索引对应的尾位置分布概率,
步骤15:根据所述首尾位置索引对应的联合分布概率的大小按照所述候选答案首尾位置索引通过所述截取层中所述第二原文表示中截取获得多个所述候选答案表示,
其中,所述第一评分为所述首位置分布概率和对应的所述尾位置分布概率之和,而在所述候选答案抽取网络中,所述候选答案成为预测答案的概率为所述候选答案的首尾位置索引的联合分布概率。例如对各个所述候选答案的首尾位置索引的联合分布概率进行由大到小排序,选择排序靠前的五个所述联合分布概率对应的五个候选答案作为所述候选答案集。其中,所述截取层根据这五个所述候选答案对应的索引位置确定其在所述带有问题的原文表示中的位置,从而截取所述候选答案。由于所述答案表示从带有问题的原文表示中截取,则截取获得的候选答案表示也为带有问题信息的答案表示,即其中包含了上下文语境信息,即原文的背景信息。
在依据本发明的实施例二中,通过自注意力层和全连接层、防过拟合层和线性层构建成所述答案重排网络,则步骤2中通过所述答案重排网络对各个所述候选答案表示对应的候选答案分别进行重新评分排序的步骤包括:
步骤21:通过所述自注意力层来计算所述候选答案表示集中的各个元素之间的注意力分布,以从各个所述候选答案表示中提取语义特征,
步骤22:将所述自注意力层输出的隐藏变量依次经过所述全连接层、防过拟合层和线性层,以根据所述语义特征对各个所述候选答案表示进行的重新评分,以获得第二评分。如图3所示,在依据本发明的实施例三中, 所述表示层为RoBERTa模型,通过RoBERTa模型来获得所述问题词向量和原文词向量,其中,在所述RoBERTa模型的预训练过程中,遮掩所述问题输入序列和文本序列中的语义词,所述语义词包括由多个字构成的词。
所述编码层为长短记忆网络,所述长短记忆网络提取所述问题词向量和文本词向量的语义特征。
所述匹配层包括通过迭代对齐方式实现所述问题和所述原文的对齐的迭代对齐模块,通过自对齐方式实现带有问题的原文表示自身的对齐的自对齐模块,以及用于拟合所述带有问题的原文表示的神经循环网络,如长短记忆网络。
所述抽取层为具有答案记忆功能的指针网络,通过所述指针网络来记录问题信息,并根据所记录的问题信息从所述带有问题的原文表示中确定各个候选答案首尾位置索引分布概率和所述首尾位置索引分布概率对应的联合概率分布。
所述匹配层采用迭代机制,即每一个迭代块是由所述迭代对齐模块、自对齐模块以及语义平滑模块这三部分组成的,以下具体介绍这三部分的工作。
首先是迭代对齐模块,其主要是用来建立起原文与问题之间的匹配关系,通过内积来衡量这一匹配关系,再通过关系匹配矩阵,进而得到新的问题表示向量,这一步获得的向量用于后续计算带有问题的原文表示向量,整个计算过程如公式(1)~(4)所示
Figure 116655DEST_PATH_IMAGE001
其中,
Figure 957572DEST_PATH_IMAGE003
是指当前时刻,
Figure 293876DEST_PATH_IMAGE004
表示问题里第i个词与原文里第j个词这两者相似度,其为关系矩阵D中第一个元素,
Figure 878441DEST_PATH_IMAGE005
是指问题q对原文p的注意力分布,
Figure 514958DEST_PATH_IMAGE006
代表基于原文注意力的问题表示向量。
将基于原文表示
Figure 526777DEST_PATH_IMAGE007
与新的问题表示向量
Figure 615955DEST_PATH_IMAGE008
利用语义融合单元SFU可以获得在这一部分带有问题信息的原文表示
Figure 941895DEST_PATH_IMAGE009
,具体的计算过程如公式(5)所示:
Figure 167340DEST_PATH_IMAGE010
(5)
通过语义融合单元SFU可以将问题信息很好地融入原文表示中,最终得到带有问题信息的原文表示,SFU计算方式如公式(6)~(8):
Figure 881218DEST_PATH_IMAGE011
其中,r表示主要信息,
Figure 395376DEST_PATH_IMAGE012
表示融入信息。
对于自对齐模块,其主要用于利用对原文表示中的重要信息进行强化操作,从而增加对整个长序列的认识。自对齐跟迭代对齐相比,两者的差异主要是在如何计算匹配关系矩阵上,迭代对齐计算的是原文p与问题q的匹配关系,自对齐则是计算原文表示与原文表示之间的匹配关系,计算方式如下列公式(9)所示:
Figure 321743DEST_PATH_IMAGE013
(9)
其中,
Figure 932853DEST_PATH_IMAGE014
表示一个指示符函数,用于确保上下文的词语不与自身对齐。
语义平滑模块在得到带有问题信息的原文表示之后,利用循环神经网络对其做进一步拟合,最终得到拟合后的所述原文表示。
如图3所示,抽取层在本实施例中为带有记忆功能的答案指针网络,该网络增加了记忆向量
Figure 489736DEST_PATH_IMAGE015
,主要是用来记录在预测答案片段时的关键信息,记忆向量
Figure 287928DEST_PATH_IMAGE015
的初始状态与问题编码的终态相同[58]。设定答案指针网络中会包含L次迭代,那么在
Figure 17987DEST_PATH_IMAGE016
迭代时,答案首位置的分布概率如公式(10)、(11)所示:
Figure 483603DEST_PATH_IMAGE017
(10)
Figure 211388DEST_PATH_IMAGE018
(11)
其中,
Figure 496876DEST_PATH_IMAGE020
代表答案首位置的分布概率,FN是用来对输入信息进行非线性拟合操作的前馈神经网络。明确答案起始位置的分布概率
Figure 30625DEST_PATH_IMAGE021
之后,可以得到证据向量
Figure 819590DEST_PATH_IMAGE022
,然后利用这一向量对记忆向量进行更新,具体计算公式如公式(12)所示:
Figure 562285DEST_PATH_IMAGE024
(12)
其中,SFU仍表示语义融合单元。
跟计算答案首位置分布概率的方法相似,答案尾位置分布概率的计算方法如公式(13)、(14)所示:
Figure 600648DEST_PATH_IMAGE026
(13)
Figure 406930DEST_PATH_IMAGE028
(14)
因为所述指针网络是独立计算所述候选答案首位置索引和尾位置索引的概率,所以该方法得到的答案首位置索引和尾位置索引是独立,故答案首尾位置索引的联合概率的计算如公式(15)所示:
Figure 581559DEST_PATH_IMAGE030
(15)
因此,所述候选答案抽取网络对候选答案的所述第一评分
Figure 447884DEST_PATH_IMAGE032
的计算如公式(16)所示:
Figure 707964DEST_PATH_IMAGE034
(16)
本发明考虑到级联候选答案抽取网络与答案重排网络会产生训练和测试时数据分布不一致以及重复编码的问题,故本发明提出了自动问答装置为端到端的自动问答架构。在此算法架构中,答案重排网络共享候选答案抽取网络中的表示层、编码层和匹配层,因此其可以利用动态词向量模型RoBERTa来结合上下文信息得到更精确的答案表示,接着通过编码层的双向LSTM可以进一步拟合答案表示,最后通过匹配层获取带问题信息的答案表示。
在答案重排网络中使用的自注意力的不是目标(Target)和源(Source)之间的注意力,而是源内部元素之间或者目标内部元素之间发生的注意力,可以将其看作是目标等于源这种极端情况下的注意力计算。答案重排网络的自注意力层以带问题信息的答案表示为输入,来计算该表示的内部元素之间的注意力,用于构建更具语义信息的表达。最后将自注意力层输出的隐藏变量,依次经过1层全连接层,Dropout层(为了防止过拟合)和线性层,最后输出对于候选答案的评估。
为训练答案重排网络,本发明为每个所述候选答案
Figure 583516DEST_PATH_IMAGE036
构造了两种标签,分别是硬标签
Figure 612652DEST_PATH_IMAGE038
和软标签
Figure 118720DEST_PATH_IMAGE040
Figure 600517DEST_PATH_IMAGE042
的取值为1或者0,表示该候选答案是否为标准答案,软标签
Figure 279760DEST_PATH_IMAGE044
的取值是[0, 1],表示候选答案与参考答案的ROUGE-L得分。因为在训练初期,候选答案抽取网络所生成的候选答案集中大部分都没有正样本,导致答案重排网络无法得到有效训练,所以当候选答案集中没有正样本时,会将软标签
Figure 163402DEST_PATH_IMAGE044
取值最低的答案替换为正确答案。
Figure 840371DEST_PATH_IMAGE046
是答案重排网络对所述候选答案的所述第二评分,其值等于答案重排网络的输出值。
因此,综合候选答案抽取网络和答案重排网络的两个评分,所述候选答案最终的重评分的计算如公式(17)所示:
Figure 809464DEST_PATH_IMAGE048
(17)
显然,最终的重新评分候选答案抽取网络和答案重排网络的两个评分的加权值,其中
Figure 26819DEST_PATH_IMAGE050
是用于控制答案重排模型评分的权重系数。
本发明提供的自动问算法的损失函数如公式(18)所示:
Figure 30547DEST_PATH_IMAGE052
(18)
其中
Figure 878417DEST_PATH_IMAGE054
是候选答案抽取模块的损失函数,
Figure 334807DEST_PATH_IMAGE056
是候选答案集重排序模块的损失函数。候选答案抽取模块采用的损失函数为极大似然损失函数,如公式(19)所示:
Figure 90273DEST_PATH_IMAGE058
(19)
答案重排网络由于采用了硬标签
Figure 682928DEST_PATH_IMAGE042
和软标签
Figure 498438DEST_PATH_IMAGE059
来标记样本,所以在设计损失函数时,需要分别考虑硬标签和软标签。由于本章所采用的硬标签会将答案重排序问题转变为一个二分类问题,所以适合采用被广泛应用于二分类或多分类问题的交叉熵损失函数(Cross Entropy Loss),如公式(20)所示:
Figure 442123DEST_PATH_IMAGE061
(20)
所述软标签采用的是候选答案与标准答案的ROUGE-L值,适合采用均分误差函数(Mean-Square Error,MSE),如公式(21).所示:
Figure 266859DEST_PATH_IMAGE063
(21)
答案集重排网络的损失函数是硬标签和软标签对应损失函数的加权和,如公式(22)所示:
Figure 979600DEST_PATH_IMAGE065
(22)
其中
Figure 903694DEST_PATH_IMAGE066
Figure 334675DEST_PATH_IMAGE067
是用来控制硬标签和软标签损失函数的权重系数,其取值如以下等式所示:
Figure DEST_PATH_IMAGE069
其中
Figure DEST_PATH_IMAGE071
表示当前时刻的迭代轮数。从面一个公式可以看出,权重系数随着迭代轮数的改变而改变,因此将
Figure DEST_PATH_IMAGE073
称为阶段损失函数。在训练初期,由于候选答案抽取网络的性能较差,导致生成的候选答案集的质量不高,为了加快算法收敛引入了
Figure DEST_PATH_IMAGE075
Figure 296858DEST_PATH_IMAGE075
Figure DEST_PATH_IMAGE077
的优化目标存在一定的矛盾,前者是要增加正确的候选答案的得分,降低错误候选答案的得分,而后者是要让网络的输出值接近每个候选答案的ROUGE-L值。但到了训练中后期,通过候选答案抽取网络能够稳定地得到高质量的候选答案集,即候选答案集中的答案质量都偏高,
Figure 864106DEST_PATH_IMAGE077
的优化目标更符合当前的情况,故在
Figure 21418DEST_PATH_IMAGE073
损失函数中去掉了
Figure DEST_PATH_IMAGE078
,增加了
Figure 674116DEST_PATH_IMAGE077
的权重。
权重系数将决定软标签和硬标签对于
Figure DEST_PATH_IMAGE079
的影响大小,若权重系数合理,模型的性能将得到提升,反之,会造成性能的下降。
综合以上的技术方案的分析,本发明的有益效果的总结如下:
本发明提出了端到端的集成候选答案抽取网络与答案重排网络的自动问答算法架构,无论是训练阶段还是测试阶段都是以候选答案抽取网络的输出作为答案重排网络的输入,可以有效避免直接级联两个独立训练的候选答案抽取网络与答案重排网络带来的训练与测试时的数据分布不一致问题。此外,本发明所提出的端到端算法架构通过共享候选答案抽取网络与重排网络的网络层,可以有效解决重复编码问题。
传统的答案重排方法仅考虑如何对候选答案和问题进行精准的语义匹配,无法利用给定的背景信息生成结合上下文语境的答案表示。而本发明提出的自动问答算法通过共享候选答案抽取网络中的算法的表示层、编码层和匹配层,可以利用给定的原文生成蕴含上下文语境的候选答案的向量表示,来提供更精确的语义信息。
最后所述自动问答算法采用自注意力结构会更容易抓取到在中长距离程度上句子之间的相互依赖特征。所述自动问答算法把带有问题信息的答案表示作为自注意力层的输入,可以进一步拟合带有问题信息的答案表示,突出关键性信息,降低无效信息的干扰,从而提高答案重排模型的整体性能。
最后本发明还提供了一种存储介质,其特征在于,所述存储介质为可读存储介质,所述可读存储介质上存储的计算机程序被处理器执行时实现上述任意一项所述的自动问答方法。
依照本发明的实施例如上文所述,这些实施例并没有详尽叙述所有的细节,也不限制该发明仅为所述的具体实施例。根据以上描述,可作很多的修改和变化。本说明书选取并具体描述这些实施例,是为了更好地解释本发明的原理和实际应用,从而使所属技术领域技术人员能很好地利用本发明以及在本发明基础上的修改使用。本发明仅受权利要求书及其全部范围和等效物的限制。

Claims (8)

1.一种基于候选答案集重排序的自动问答方法,用于从原文中预测问题的答案,其特征在于,包括:
构建候选答案抽取网络,用于根据问题输入序列和原文输入序列输出由多个候选答案表示构成的候选答案表示集和获得各个所述候选答案表示对应的候选答案的第一评分,在所述候选答案表示集中,各个所述候选答案表示按照各个所述候选答案表示对应的候选答案成为预测答案的概率大小进行排序,成为所述预测答案概率越高的所述候选答案对应的第一评分越高,
构建答案重排网络,并使得所述候选答案表示集被输入至所述答案重排网络,以通过所述答案重排网络提取各个所述候选答案表示的语义特征,并根据提取的所述语义特征对各个所述候选答案表示对应的候选答案进行重新评分,以获得第二评分,并根据所述第二评分对各个所述候选答案表示所对应的答案进行重新排序,所述第二评分越高所述候选答案表示对应的所述候选答案成为预测答案的概率越高,
将所述第一评分和第二评分的进行加权,以获得评分加权值,将所述评分加权值最高的所述候选答案表示对应的候选答案作为所述问题的所述预测答案,
通过表示层、编码层、匹配层、抽取层和截取层构建成所述候选答案抽取网络,根据问题输入序列和原文输入序列输出由多个候选答案表示构成的候选答案表示集的步骤包括:
步骤11:通过所述表示层将所述问题输入序列和文本输入序列分别转换成问题词向量和原文词向量进行表示,
步骤12:通过编码层分别提取所述问题词向量和原文词向量的语义特征,以分别输出表征所述问题的问题表示和表征所述原文的第一原文表示,
步骤13:通过匹配层建立所述问题表示和第一原文表示的匹配关系,并根据所述匹配关系输出带有问题信息的第二原文表示,
步骤14:通过所述抽取层从所述第二原文表示中获得多个候选答案的首尾位置索引的分布概率,
步骤15:根据所述首尾位置索引对应的联合分布概率的大小按照所述候选的答案首尾位置索引通过所述截取层中所述第二原文表示中截取获得多个所述候选答案表示,
其中,所述第一评分为首位置分布概率和对应的尾位置分布概率之和,
通过自注意力层和全连接层、防过拟合层和线性层构建成所述答案重排网络,通过所述答案重排网络对各个所述候选答案表示对应的候选答案分别进行重新评分排序的步骤包括:
步骤21:通过所述自注意力层来计算所述候选答案表示集中的各个元素之间的注意力分布,以从各个所述候选答案表示中提取语义特征,
步骤22:将所述自注意力层输出的隐藏变量依次经过所述全连接层、防过拟合层和线性层,以根据所述语义特征对各个所述候选答案表示进行的重新评分,以获得第二评分。
2.根据权利要求1所述的自动问答方法,其特征在于,所述候选答案抽取网络根据所述问题输入序列和原文输入序列获得带有问题的原文表示,并从所述带有问题的原文表示中抽取获得多个待候选的答案表示,并获得多个所述待候选的答案表示对应所述候选答案成为所述预测答案的概率,并根据所述概率对各个所述候选答案表示进行排序以及根据所述概率获得所述第一评分,抽取所述概率靠前的K个所述待候选的答案表示构成所述候选答案表示集。
3.根据权利要求2所述的自动问答方法,其特征在于,
在所述表示层中,通过RoBERTa模型来获得所述问题词向量和原文词向量,其中,在所述RoBERTa模型的预训练过程中,遮掩所述问题输入序列和文本序列中的语义词,所述语义词包括由多个字构成的词,
在所述编码层中,通过长短记忆网络来提取所述问题词向量和文本词向量的语义特征,
在所述匹配层中,先通过迭代对齐方式实现所述问题和所述原文的对齐,然后通过自对齐方式实现带有问题的原文表示自身的对齐,最后通过神经循环网络拟合所述带有问题的原文表示,
在所述抽取层,通过具有答案记忆功能的指针网络来记录问题信息,并根据所记录的问题信息从所述带有问题的原文表示中得到答案首尾位置索引的分布概率。
4.根据权利要求2所述的自动问答方法,其特征在于,还包括为每个所述候选答案分别构造两种标签,以对所述答案重排序网络进行训练,所述两种标签分别为硬标签和软标签,
在所述答案重排序网络进行训练过程中,根据所述硬标签的取值确定对应的所述候选答案是否为标准答案,根据所述软标签的取值确定对应的所述候选答案与所述问题的参考答案的ROUGE-L得分,
其中,所述硬标签的取值为0或1,所述软标签的取值为0到1。
5.根据权利要求4所述的自动问答方法,其特征在于,将所述候选答案抽取网络的损失函数设计为极大似然损失函数,
将所述答案重排序网络的损失函数设计为阶段损失函数,所述阶段损失函数为所述硬标签和软标签对应的损失函数的加权和,所述硬标签和软标签对应的损失函数的加权系数随着所述答案重排序网络的迭代次数的改变而改变,
所述硬标签对应的损失函数设计为交叉熵损失函数,所述软标签的损失函数设计为均分误差损失函数。
6.一种基于候选答案集重排序的自动问答装置,其特征在于,包括:表示层、编码层、匹配层、抽取层和截取层构建成的候选答案抽取网络和由自注意力层和全连接层、防过拟合层和线性层构建成所述答案重排网络以及答案输出层,
所述表示层用于将问题输入序列和原文输入序列分别转换成问题词向量和原文词向量进行表示,
所述编码层用于分布别提取所述问题词向量和原文词向量的语义特征,以分别输出表征所述问题的问题表示和表征所述原文的第一原文表示,
所述匹配层用于建立所述问题表示和原文表示的匹配关系,并根据所述匹配关系输出带有问题信息的第二原文表示,
所述抽取层用于从所述第二原文表示中获得所述问题的多个候选答案首尾位置索引的分布概率,并根据所述分布概率确定所述候选答案成为预测答案的概率,并根据所述分布概率确定各个所述候选答案的第一评分,所述第一评分越高,对应的所述候选答案成为所述预测答案的概率也越高,
所述截取层用于根据所述首尾位置对应的分布概率大小和多个所述候选答案首尾位置索引从所述第二原文表示中截取获得多个所述候选答案表示,
所述自注意力层用于计算所述候选答案表示集中的各个元素之间的注意力分布,以从各个所述候选答案表示中提取语义特征,
所述自注意力层输出的隐藏变量依次经过所述全连接层、防过拟合层和线性层,以根据所述语义特征对各个所述候选答案表示对应的候选答案进行重新评分和排序,以输出第二评分,所述第二评分越高,对应的所述候选答案成为所述预测答案的概率也越高,
所述答案输出层根据所述第一评分和第二评分的加权值,以获得评分加权值,将所述评分加权值最高的所述候选答案表示对应的候选答案作为所述问题的预测答案。
7.根据权利要求6所述的自动问答装置,其特征在于,
所述表示层为RoBERTa模型,
所述编码层中为长短记忆网络,
所述匹配层包括通过迭代对齐方式实现所述问题和所述原文的对齐的迭代对齐模块和通过自对齐方式实现带有问题的原文表示自身的对齐的自对齐模块,以及用于拟合所述带有问题的原文表示的神经循环网络,
所述抽取层为具有答案记忆功能的指针网络。
8.一种存储介质,其特征在于,所述存储介质为可读存储介质,所述可读存储介质上存储的计算机程序被处理器执行时实现如权利要求1-5中任意一项所述的自动问答方法。
CN202011121611.3A 2020-10-20 2020-10-20 基于候选答案集重排序的自动问答方法、装置和存储介质 Active CN112015760B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011121611.3A CN112015760B (zh) 2020-10-20 2020-10-20 基于候选答案集重排序的自动问答方法、装置和存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011121611.3A CN112015760B (zh) 2020-10-20 2020-10-20 基于候选答案集重排序的自动问答方法、装置和存储介质

Publications (2)

Publication Number Publication Date
CN112015760A CN112015760A (zh) 2020-12-01
CN112015760B true CN112015760B (zh) 2021-01-29

Family

ID=73527966

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011121611.3A Active CN112015760B (zh) 2020-10-20 2020-10-20 基于候选答案集重排序的自动问答方法、装置和存储介质

Country Status (1)

Country Link
CN (1) CN112015760B (zh)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113704437B (zh) * 2021-09-03 2023-08-11 重庆邮电大学 一种融合多头注意力机制和相对位置编码的知识库问答方法
CN114445885A (zh) * 2022-01-18 2022-05-06 深圳数联天下智能科技有限公司 训练多目标检测模型的方法、检测方法及相关装置
CN115455160B (zh) * 2022-09-02 2024-08-06 腾讯科技(深圳)有限公司 一种多文档阅读理解方法、装置、设备及存储介质

Also Published As

Publication number Publication date
CN112015760A (zh) 2020-12-01

Similar Documents

Publication Publication Date Title
CN110298037B (zh) 基于增强注意力机制的卷积神经网络匹配的文本识别方法
CN109902145B (zh) 一种基于注意力机制的实体关系联合抽取方法和系统
CN112015760B (zh) 基于候选答案集重排序的自动问答方法、装置和存储介质
CN111738003B (zh) 命名实体识别模型训练方法、命名实体识别方法和介质
CN110188272B (zh) 一种基于用户背景的社区问答网站标签推荐方法
US11257140B2 (en) Item recommendation method based on user intention in a conversation session
CN112650886B (zh) 基于跨模态动态卷积网络的跨模态视频时刻检索方法
CN112528676A (zh) 文档级别的事件论元抽取方法
CN110516095A (zh) 基于语义迁移的弱监督深度哈希社交图像检索方法和系统
CN107590127A (zh) 一种题库知识点自动标注方法及系统
CN114818717B (zh) 融合词汇和句法信息的中文命名实体识别方法及系统
CN112527993B (zh) 一种跨媒体层次化深度视频问答推理框架
CN115510814B (zh) 一种基于双重规划的篇章级复杂问题生成方法
CN113822125A (zh) 唇语识别模型的处理方法、装置、计算机设备和存储介质
CN114925232B (zh) 一种文段问答框架下跨模态的时域视频定位方法
CN114385803B (zh) 一种基于外部知识和片段选择的抽取式阅读理解方法
CN115310520A (zh) 融合多特征的深度知识追踪方法及习题推荐方法
CN114626463A (zh) 语言模型的训练方法、文本匹配方法及相关装置
CN114612748A (zh) 一种基于特征解耦的跨模态视频片段检索方法
CN116644759B (zh) 语句中方面类别及其语义极性的提取方法和系统
CN111581365B (zh) 一种谓词抽取方法
CN112905750A (zh) 一种优化模型的生成方法和设备
CN114692615B (zh) 一种针对小语种的小样本意图识别方法
CN117216617A (zh) 文本分类模型训练方法、装置、计算机设备和存储介质
CN112528003B (zh) 一种基于语义排序和知识修正的多项选择问答方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant