CN114511084A - 增强问答交互信息的自动问答系统答案抽取方法及系统 - Google Patents

增强问答交互信息的自动问答系统答案抽取方法及系统 Download PDF

Info

Publication number
CN114511084A
CN114511084A CN202210110173.3A CN202210110173A CN114511084A CN 114511084 A CN114511084 A CN 114511084A CN 202210110173 A CN202210110173 A CN 202210110173A CN 114511084 A CN114511084 A CN 114511084A
Authority
CN
China
Prior art keywords
question
answer
network
extraction
answering
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202210110173.3A
Other languages
English (en)
Inventor
荣文戈
白骏
章健飞
欧阳元新
熊璋
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beihang University
Original Assignee
Beihang University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beihang University filed Critical Beihang University
Priority to CN202210110173.3A priority Critical patent/CN114511084A/zh
Publication of CN114511084A publication Critical patent/CN114511084A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N5/00Computing arrangements using knowledge-based models
    • G06N5/02Knowledge representation; Symbolic representation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02ATECHNOLOGIES FOR ADAPTATION TO CLIMATE CHANGE
    • Y02A10/00TECHNOLOGIES FOR ADAPTATION TO CLIMATE CHANGE at coastal zones; at river basins
    • Y02A10/40Controlling or monitoring, e.g. of flood or hurricane; Forecasting, e.g. risk assessment or mapping

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • General Engineering & Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Software Systems (AREA)
  • General Physics & Mathematics (AREA)
  • Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Medical Informatics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明涉及一种增强问答交互信息的自动问答系统答案抽取方法及系统,其方法包括:步骤S1:构建问答交互信息提取网络和抽取式问答网络的输入文本序列;步骤S2:构建问答交互信息提取网络及其损失函数并进行训练;步骤S3:构建抽取式问答网络及其损失函数并进行训练;并通过知识蒸馏方式将问答交互提取网络提取到的问答交互特征蒸馏至抽取式问答网络中。本发明提供的方法基于问答掩码多头自注意力机制准确提取问答交互信息,将学习捕捉到的问答交互信息蒸馏至抽取式问答网络从而达到增强的目的。

Description

增强问答交互信息的自动问答系统答案抽取方法及系统
技术领域
本发明涉及自然语言处理领域,具体涉及一种增强问答交互信息的自动问答系统答案抽取方法及系统。
背景技术
随着互联网技术的飞速发展和大数据时代的到来,越来越多的信息充斥着人们的生活,获得信息的途径也日渐丰富。尽管数字化的网络信息为生活带来了便利,但随之而来的是用户难以定位有价值的信息,如何在繁杂的数据中迅速检索到自己所需的信息成为了亟待解决的问题。问答技术在这样的背景下应运而生,它可以对所提问题进行识别、理解,同时用准确、简洁的自然语言回答问题,满足了用户高效查找精确信息的需求。它的概念甚至可以追溯到人工智能的出现,即著名的图灵测试。问答任务本质是信息检索,其关键在于如何正确理解问题且返回问题所对应的答案。该任务具有相当的挑战性,这是因为自然语言非常灵活,表达的意思也十分多样,这也导致了数据驱动的方法在问答中的应用。传统的基于规则的方法曾被广泛应用于问答任务当中,这些规则往往是人工制定的启发式规则,通过语法语义学得到问题的正确答案,但这一方法需要大量的人力和物力。随着深度学习技术的不断进步和海量数据的出现,这为问答任务的研究带来了新的方向。深度学习可以自动地提取数据的复杂特征,且随着数据规模的增加,模型的表现就越好,这对于基于自然语言的问答任务十分关键。各种模型例如ELMo,GPT,BERT等进行的下游问答任务取得了突破性进展。因此研究深度学习在问答任务中的应用具有重要意义。
目前,问答技术可以分为检索式问答、生成式问答与抽取式问答,其中检索式问答用于给用户的问题检索出相关的文本,相关的文本往往还无法准确回答问题,生成式问答和抽取式问答用于在此基础上返回更精确的答案,其中生成式问答基于生成式模型逐词生成答案,而抽取式问答则从文本中抽取一个片段作为准确答案。考虑到抽取式问答的结果一般更为可控和精准。因此,如何帮助抽取式问答网络有效地从给定的段落中提取问题与答案之间的交互信息成为一个亟待解决的问题。
发明内容
为了解决上述技术问题,本发明提供一种增强问答交互信息的自动问答系统答案抽取方法及系统。
本发明技术解决方案为:一种增强问答交互信息的自动问答系统答案抽取方法,包括:
步骤S1:构建问答交互信息提取网络和抽取式问答网络的输入文本序列;
步骤S2:构建问答交互信息提取网络及其损失函数并进行训练;其中,所述问答交互信息提取网络包括:文本编码器用于提取所述输入文本序列中各单词的上下文特征;问答掩码多头自注意力机制用于在所述单词的上下文特征基础上进一步提取问答交互特征;分类层在所述问答交互特征基础上预测每个单词在答案的起始和结束位置上的概率;
步骤S3:构建抽取式问答网络及其损失函数并进行训练;其中,所述抽取式问答网络包括:文本编码器用于提取输入文本序列中各单词的上下文特征;分类层在所述上下文特征基础上预测每个单词在答案的起始和结束位置上的概率;并通过知识蒸馏方式将所述问答交互提取网络提取到的问答交互特征蒸馏至所述抽取式问答网络中,以此构建所述抽取式问答网络损失函数。
本发明与现有技术相比,具有以下优点:
1、本发明公开了一种增强问答交互信息的自动问答系统答案抽取方法,能够基于问答掩码多头自注意力机制准确提取问答交互信息,因此问答交互信息提取网络可以作为一个知识源,将学习捕捉到的问答交互信息蒸馏至抽取式问答网络从而达到增强的目的。
2、由于在本发明中问答交互信息提取网络相比于抽取式问答网络有一个额外的问答掩码多头自注意力机制,且该模块依赖于答案的位置信息,是抽取式问答网络在推理阶段得不到的,因此现有的模型参数复用方法不适用于本发明。本发明使用知识蒸馏方法使得目标模型学习源模型的输出或中间特征,从而达到知识迁移的目的,令抽取式问答网络去模仿问答交互信息提取网络的答案预测概率,从而学习到问答交互信息,有效提升抽取式问答的准确性。
附图说明
图1为本发明实施例中一种增强问答交互信息的自动问答系统答案抽取方法的流程图;
图2为本发明实施例中问答交互信息提取网络和抽取式问答网络结构示意图;
图3为本发明实施例中一种增强问答交互信息的自动问答系统答案抽取系统的结构框图。
具体实施方式
本发明提供了一种增强问答交互信息的自动问答系统答案抽取方法,基于问答掩码多头自注意力机制准确提取问答交互信息,将学习捕捉到的问答交互信息蒸馏至抽取式问答网络从而达到增强的目的。
为了使本发明的目的、技术方案及优点更加清楚,以下通过具体实施,并结合附图,对本发明进一步详细说明。
实施例一
如图1所示,本发明实施例提供的一种增强问答交互信息的自动问答系统答案抽取方法,包括下述步骤:
步骤S1:构建问答交互信息提取网络和抽取式问答网络的输入文本序列;
步骤S2:构建问答交互信息提取网络及其损失函数并进行训练;其中,问答交互信息提取网络包括:文本编码器用于提取输入文本序列中各单词的上下文特征;问答掩码多头自注意力机制用于在单词的上下文特征基础上进一步提取问答交互特征;分类层在问答交互特征基础上预测每个单词在答案的起始和结束位置上的概率;
步骤S3:构建抽取式问答网络及其损失函数并进行训练;其中,抽取式问答网络包括:文本编码器用于提取输入文本序列中各单词的上下文特征;分类层在上下文特征基础上预测每个单词在答案的起始和结束位置上的概率;并通过知识蒸馏方式将问答交互提取网络提取到的问答交互特征蒸馏至抽取式问答网络中,以此构建抽取式问答网络损失函数。
在一个实施例中,上述步骤S1:构建问答交互信息提取网络和抽取式问答网络的输入文本序列,具体包括:
步骤S11:给定用户提出的问题和问题相关段落,其中,问题的答案是问题相关段落中的一个片段;
步骤S12:将问题和问题相关段落转换为Unicode编码,使用分词算法WordPiece对其进行分词处理,得到问题的分词结果
Figure BDA0003494849400000031
和问题相关段落的分词结果
Figure BDA0003494849400000032
Figure BDA0003494849400000033
其中,
Figure BDA0003494849400000034
Figure BDA0003494849400000035
分别是问题和问题相关段落中的第i个单词,m和n分别是问题和问题相关段落的文本长度,
Figure BDA0003494849400000036
为问题相关段落中的答案片段,ls和le分别是答案在问题相关段落中的起始位置和结束位置;
步骤S13:将问题和问题相关段落与分隔字符[CLS]与[SEP]拼接起来得到输入文本序列T:
Figure BDA0003494849400000041
如图2所示,在一个实施例中,上述步骤S2:构建问答交互信息提取网络及其损失函数并进行训练;其中,问答交互信息提取网络包括:文本编码器用于提取输入文本序列中各单词的上下文特征;问答掩码多头自注意力机制用于在单词的上下文特征基础上进一步提取问答交互特征;分类层在问答交互特征基础上预测每个单词在答案的起始和结束位置上的概率,具体包括:
步骤S21:使用文本编码器提取问答交互信息提取网络的输入文本序列中各单词的上下文特征,具体包括:
步骤S211:将输入文本序列T转换为单词的token_id序列,将问题和问题相关段落的token_type_id序列分别设置成0和1,为输入文本序列T设置相应长度的位置编码position_id;
本发明实施例中的文本编码器采用但不限于BERT文本编码器。
步骤S212:将token_id序列、token_type_id序列以及位置编码position_id输入文本编码器提取得到各个单词的上下文特征向量矩阵:
Figure BDA0003494849400000042
其中,
Figure BDA0003494849400000043
Figure BDA0003494849400000044
分别表示T中[CLS]、第一个[SEP]与第二个[SEP]对应的上下文特征向量,
Figure BDA0003494849400000045
Figure BDA0003494849400000046
分别是问题和问题相关段落中第i个单词所对应的上下文特征向量,d为上下文特征向量的长度,
Figure BDA0003494849400000047
为所有单词组成的上下文特征向量矩阵;
步骤S22:使用问答掩码多头自注意力机制在上下文特征基础上进一步提取问答交互特征,具体包括:
步骤S221:基于R构建问题与答案的单词上下文特征向量矩阵Rqa
Figure BDA0003494849400000048
其中,
Figure BDA0003494849400000049
步骤S222:在自注意力层中,第i个头特征向量的计算公式为:
Figure BDA00034948494000000410
其中,
Figure BDA00034948494000000411
分别是将上下文特征向量映射至查询、键、值特征空间的线性映射参数矩阵,dh为各个头特征向量的长度;
步骤S223:将各个头特征向量拼接起来,并通过一个线性映射整合各个头特征向量,然后通过层标准化和残差连接分别用于稳定数值范围和梯度的传播,得到整合后的问答交互特征向量矩阵R′qa
R′qa=Rqa+LayerNorm([head1;…;headu]Wo)
其中,LayerNorm表示层标准化操作,u为头的数量,
Figure BDA0003494849400000051
是线性映射参数矩阵;
步骤S224:使用全连接层进一步提炼问答交互特征向量矩阵R′qa,得到提炼后的问答交互特征向量矩阵R″qa
R″qa=LayerNorm(R′qa+FFN(R′qa))
其中,FFN为全连接层;
步骤S225:将R″qa与对应的上下文特征向量矩阵R进行替换,得到预测答案位置的特征向量矩阵R″:
R″=(R-Rqa)∪R″qa
其中,
Figure BDA0003494849400000052
步骤S23:使用分类层在问答交互特征基础上预测每个单词在答案的起始和结束位置上的概率,具体包括:
使用两个线性映射加softmax归一化,分别将R″中的每一个单词上下文特征向量映射到答案的起始位置的概率分布St以及答案的结束位置的概率分布Et上:
Figure BDA0003494849400000053
Figure BDA0003494849400000054
其中,
Figure BDA0003494849400000055
Figure BDA0003494849400000056
是线性映射的参数矩阵;
步骤S24:构建问答交互提取网络的损失函数并进行训练。
构建损失函数
Figure BDA0003494849400000057
Figure BDA0003494849400000058
其中,
Figure BDA0003494849400000059
是问答交互提取网络在真实答案起始位置ls的预测概率,
Figure BDA00034948494000000510
是问答交互提取网络在真实答案结束位置le的预测概率,问答交互提取网络的损失函数
Figure BDA00034948494000000511
Figure BDA00034948494000000512
Figure BDA00034948494000000513
的负对数似然的平均值。
在一个实施例中,上述步骤S3:构建抽取式问答网络及其损失函数并进行训练;其中,抽取式问答网络包括:文本编码器用于提取输入文本序列中各单词的上下文特征;分类层在上下文特征基础上预测每个单词在答案的起始和结束位置上的概率,具体包括:
步骤S31:使用文本编码器提取输入文本序列中各单词的上下文特征;
Figure BDA0003494849400000061
其中,
Figure BDA0003494849400000062
Figure BDA0003494849400000063
分别表示[CLS]、第一个[SEP]与第二个[SEP]对应的上下文向量,
Figure BDA0003494849400000064
Figure BDA0003494849400000065
分别是问题和段落中第i个Token所对应的上下文向量,d为上下文向量的长度,
Figure BDA0003494849400000066
为所有单词组成的上下文特征矩阵;
上述提取输入文本序列中各单词的上下文特征的具体实施步骤,请参考S211~S212;
步骤S32:使用分类层在上下文特征矩阵H的基础上预测每个单词在答案的起始位置上的概率Ss和结束位置上的概率Es
Figure BDA0003494849400000067
Figure BDA0003494849400000068
其中,
Figure BDA0003494849400000069
Figure BDA00034948494000000610
是线性映射的参数矩阵;
Figure BDA00034948494000000611
步骤S33:首先构建抽取式问答网络的初始损失函数
Figure BDA00034948494000000612
Figure BDA00034948494000000613
其中,
Figure BDA00034948494000000614
是抽取式问答网络在真实答案起始位置ls的预测概率,
Figure BDA00034948494000000615
是抽取式问答网络在真实答案结束位置le的预测概率,抽取式问答网络的答案预测损失函数
Figure BDA00034948494000000616
Figure BDA00034948494000000617
Figure BDA00034948494000000618
的负对数似然的平均值;
其次,在知识蒸馏部分,通过最小化抽取式问答网络的答案预测概率与问答交互提取网络的答案预测概率之间的差异来将问答交互提取网络提取到的问答交互信息蒸馏至抽取式问答网络中,因此使用KL散度衡量问答交互信息提取网络与抽取式问答网络的预测概率之间的差异,相应的定义损失函数
Figure BDA00034948494000000619
Figure BDA00034948494000000620
Figure BDA00034948494000000621
Figure BDA00034948494000000622
其中,
Figure BDA00034948494000000623
代表基于问答交互信息提取网络中答案起始位置的概率St得到答案起始位置预测概率分布,
Figure BDA00034948494000000624
代表基于抽取式问答网络中答案的起始位置的概率Ss得到的答案起始位置预测概率分布,
Figure BDA00034948494000000625
代表基于问答交互信息提取网络中答案结束位置的概率Et得到的答案结束位置预测概率分布,
Figure BDA00034948494000000626
代表基于抽取式问答网络中答案结束位置的概率Es得到的答案结束位置预测概率分布,KLD(A||B)代表分布A和分布B之间的KL散度;
最后,定义抽取式问答网络的最终损失函数
Figure BDA0003494849400000071
并基于该损失函数训练抽取式问答网络:
Figure BDA0003494849400000072
其中,α为调节不同损失比重的超参数。
本发明实施例在训练抽取式问答网络的同时为其引入问答交互信息提取网络提取到的问答交互信息,从而帮助抽取式问答网络更加精准地预测答案位置,除令抽取式问答网络接收来自真实答案位置标签的监督信号之外,使用知识蒸馏技术,令抽取式问答网络同时模仿问答交互信息提取网络的答案位置预测值。
本发明中的方法命名为Knowledge Distillation Question Answering(KDQA)。通过搭配不同的文本编码器如BERT和BioBERT,本发明的方法可以分别命名为KDQA-BERT与KDQA-BioBERT。
将提出的方法在知名生物医学数据集上BioASQ 6b、7b以及8b进行实验,并与相应数据集上的顶尖方法进行了对比。下述表1、表2以及表3分别展示了BioASQ 6b、7b以及8b上的实验结果,可以看到KDQA-BioBERT相比于基础模型BioBERT(对应表格中的Yoon方法)再SAcc、LAcc以及MRR三项指标上都有了大幅度提升,并且超过了其他引入额外语言特征的方法(Xu、Peng),在三个数据集上都取得了最佳成绩。
表1本发明在BioASQ 6b上的表现
方法 SAcc LAcc MRR
AUTH 20.15 40.20 27.13
ZhuLab 23.87 33.14 27.62
Yoon 42.86 57.14 48.41
Jeong 41.41 57.40 48.05
Xu 45.17 62.94 51.97
Peng-single 42.09 62.98 49.98
Peng-ensemble 43.02 64.23 51.19
本发明KDQA-BioBERT 45.51 64.31 52.47
表2本发明在BioASQ 7b上的表现
Figure BDA0003494849400000073
Figure BDA0003494849400000081
表3本发明在BioASQ 8b上的表现
方法 SAcc LAcc MRR
AUTH 16.42 28.53 21.05
ZhuLab 35.09 51.41 41.15
Umass 31.33 47.98 37.80
Yoon 38.69 55.73 45.66
Jeong 38.19 57.19 45.93
Xu 39.37 60.98 46.88
Peng-single 38.80 59.34 46.74
Peng-ensemble 39.39 59.04 47.34
本发明KDQA-BioBERT 43.43 61.48 49.97
本发明公开了一种增强问答交互信息的自动问答系统答案抽取方法,能够基于问答掩码多头自注意力机制准确提取问答交互信息,因此问答交互信息提取网络可以作为一个知识源,将学习捕捉到的问答交互信息蒸馏至抽取式问答网络从而达到增强的目的。
由于在本发明中问答交互信息提取网络相比于抽取式问答网络有一个额外的问答掩码多头自注意力机制,且该模块依赖于答案的位置信息,是抽取式问答网络在推理阶段得不到的,因此现有的模型参数复用方法不适用于本发明。本发明使用知识蒸馏方法使得目标模型学习源模型的输出或中间特征,从而达到知识迁移的目的,令抽取式问答网络去模仿问答交互信息提取网络的答案预测概率,从而学习到问答交互信息,有效提升抽取式问答的准确性。
实施例二
如图3所示,本发明实施例提供了一种增强问答交互信息的自动问答系统答案抽取系统,包括下述模块:
获取输入文本序列模块41,用于构建问答交互信息提取网络和抽取式问答网络的输入文本序列;
构建及训练问答交互信息提取网络模块42,用于构建问答交互信息提取网络及其损失函数并进行训练;其中,问答交互信息提取网络包括:文本编码器用于提取输入文本序列中各单词的上下文特征;问答掩码多头自注意力机制用于在单词的上下文特征基础上进一步提取问答交互特征;分类层在问答交互特征基础上预测每个单词在答案的起始和结束位置上的概率;
构建及训练抽取式问答网络模块43,用于构建抽取式问答网络及其损失函数并进行训练;其中,抽取式问答网络包括:文本编码器用于提取输入文本序列中各单词的上下文特征;分类层在上下文特征基础上预测每个单词在答案的起始和结束位置上的概率;并通过知识蒸馏方式将问答交互提取网络提取到的问答交互特征蒸馏至抽取式问答网络中,以此构建抽取式问答网络损失函数。
提供以上实施例仅仅是为了描述本发明的目的,而并非要限制本发明的范围。本发明的范围由所附权利要求限定。不脱离本发明的精神和原理而做出的各种等同替换和修改,均应涵盖在本发明的范围之内。

Claims (9)

1.一种增强问答交互信息的自动问答系统答案抽取方法,其特征在于,包括:
步骤S1:构建问答交互信息提取网络和抽取式问答网络的输入文本序列;
步骤S2:构建问答交互信息提取网络及其损失函数并进行训练;其中,所述问答交互信息提取网络包括:文本编码器用于提取所述输入文本序列中各单词的上下文特征;问答掩码多头自注意力机制用于在所述单词的上下文特征基础上进一步提取问答交互特征;分类层在所述问答交互特征基础上预测每个单词在答案的起始和结束位置上的概率;
步骤S3:构建抽取式问答网络及其损失函数并进行训练;其中,所述抽取式问答网络包括:文本编码器用于提取输入文本序列中各单词的上下文特征;分类层在所述上下文特征基础上预测每个单词在答案的起始和结束位置上的概率;并通过知识蒸馏方式将所述问答交互提取网络提取到的问答交互特征蒸馏至所述抽取式问答网络中,以此构建所述抽取式问答网络损失函数。
2.根据权利要求1所述的增强问答交互信息的自动问答系统答案抽取方法,其特征在于,所述步骤S1:构建问答交互信息提取网络和抽取式问答网络的输入文本序列,具体包括:
步骤S11:给定用户提出的问题和问题相关段落,其中,所述问题的答案是所述问题相关段落中的一个片段;
步骤S12:将所述问题和所述问题相关段落转换为Unicode编码,对其进行分词处理,得到所述问题的分词结果
Figure FDA0003494849390000011
和所述问题相关段落的分词结果
Figure FDA0003494849390000012
Figure FDA0003494849390000013
其中,
Figure FDA0003494849390000014
Figure FDA0003494849390000015
分别是所述问题和所述问题相关段落中的第i个单词,m和n分别是所述问题和所述问题相关段落的文本长度,
Figure FDA0003494849390000016
为所述问题相关段落中的答案片段,ls和le分别是答案在所述问题相关段落中的起始位置和结束位置;
步骤S13:将所述问题和所述问题相关段落与分隔字符[CLS]与[SEP]拼接起来得到输入文本序列T:
Figure FDA0003494849390000017
3.根据权利要求1所述的增强问答交互信息的自动问答系统答案抽取方法,其特征在于,所述步骤S2:构建问答交互信息提取网络及其损失函数并进行训练;其中,所述问答交互信息提取网络包括:文本编码器用于提取所述输入文本序列中各单词的上下文特征;问答掩码多头自注意力机制用于在所述单词的上下文特征基础上进一步提取问答交互特征;分类层在所述问答交互特征基础上预测每个单词在答案的起始和结束位置上的概率,具体包括:
步骤S21:使用所述文本编码器提取所述问答交互信息提取网络的输入文本序列中各单词的上下文特征;
步骤S22:使用所述问答掩码多头自注意力机制在所述上下文特征基础上进一步提取问答交互特征;
步骤S23:使用所述分类层在所述问答交互特征基础上预测每个单词在答案的起始和结束位置上的概率;
步骤S24:构建所述问答交互提取网络的损失函数并进行训练。
4.根据权利要求3所述的增强问答交互信息的自动问答系统答案抽取方法,其特征在于,所述步骤S21:使用所述文本编码器提取所述问答交互信息提取网络的输入文本序列中各单词的上下文特征,具体包括:
步骤S211:将所述输入文本序列T转换为单词的token_id序列,将所述问题和所述问题相关段落的token_type_id序列分别设置成0和1,为所述输入文本序列T设置相应长度的位置编码position_id;
步骤S212:将所述token_id序列、token_type_id序列以及所述位置编码position_id输入所述文本编码器提取得到各个单词的上下文特征向量矩阵:
Figure FDA0003494849390000021
其中,
Figure FDA0003494849390000022
Figure FDA0003494849390000023
分别表示T中[CLS]、第一个[SEP]与第二个[SEP]对应的上下文特征向量,ri q和ri p分别是所述问题和所述问题相关段落中第i个单词所对应的上下文特征向量,d为上下文特征向量的长度,
Figure FDA0003494849390000024
为所有单词组成的上下文特征向量矩阵。
5.根据权利要求3所述的增强问答交互信息的自动问答系统答案抽取方法,其特征在于,所述步骤S22:使用所述问答掩码多头自注意力机制在所述上下文特征基础上进一步提取问答交互特征,具体包括:
步骤S221:基于R构建问题与答案的单词上下文特征向量矩阵Rqa
Figure FDA0003494849390000025
其中,
Figure FDA0003494849390000026
步骤S222:在自注意力层中,第i个头特征向量的计算公式为:
Figure FDA0003494849390000031
其中,
Figure FDA0003494849390000032
分别是将所述上下文特征向量映射至查询、键、值特征空间的线性映射参数矩阵,dh为各个所述头特征向量的长度;
步骤S223:将各个所述头特征向量拼接起来,并通过一个线性映射整合各个所述头特征向量,然后通过层标准化和残差连接分别用于稳定数值范围和梯度的传播,得到整合后的问答交互特征向量矩阵R′qa
R′qa=Rqa+LayerNorm([head1;...;headu]Wo)
其中,LayerNorm表示层标准化操作,u为头的数量,
Figure FDA0003494849390000033
是线性映射参数矩阵;
步骤S224:使用全连接层进一步提炼所述问答交互特征向量矩阵R′qa,得到提炼后的问答交互特征向量矩阵R″qa
R″qa=LayerNorm(R′qa+FFN(R′qa))
其中,FFN为全连接层;
步骤S225:将R″qa与对应的所述上下文特征向量矩阵R进行替换,得到预测答案位置的特征向量矩阵R″:
R″=(R-Rqa)∪R″qa
其中,
Figure FDA0003494849390000034
6.根据权利要求3所述的增强问答交互信息的自动问答系统答案抽取方法,其特征在于,所述步骤S23:使用所述分类层在所述问答交互特征基础上预测每个单词在答案的起始和结束位置上的概率,具体包括:
使用两个线性映射加softmax归一化,分别将R″中的每一个单词上下文特征向量映射到所述答案的起始位置的概率分布St以及所述答案的结束位置的概率分布Et上:
Figure FDA00034948493900000311
Figure FDA00034948493900000312
其中,
Figure FDA0003494849390000035
Figure FDA0003494849390000036
是线性映射的参数矩阵。
7.根据权利要求3所述的增强问答交互信息的自动问答系统答案抽取方法,其特征在于,所述步骤S24:构建所述问答交互提取网络的损失函数并进行训练,具体包括:
构建损失函数
Figure FDA0003494849390000037
Figure FDA0003494849390000038
其中,
Figure FDA0003494849390000039
是所述问答交互提取网络在真实答案起始位置ls的预测概率,
Figure FDA00034948493900000310
是所述问答交互提取网络在真实答案结束位置le的预测概率,所述问答交互提取网络的损失函数
Figure FDA0003494849390000041
Figure FDA0003494849390000042
Figure FDA0003494849390000043
的负对数似然的平均值。
8.根据权利要求1所述的增强问答交互信息的自动问答系统答案抽取方法,其特征在于,所述步骤S3:构建抽取式问答网络及其损失函数并进行训练;其中,所述抽取式问答网络包括:文本编码器用于提取输入文本序列中各单词的上下文特征;分类层在所述上下文特征基础上预测每个单词在答案的起始和结束位置上的概率,具体包括:
步骤S31:使用所述文本编码器提取输入文本序列中各单词的上下文特征;
Figure FDA0003494849390000044
其中,
Figure FDA0003494849390000045
Figure FDA0003494849390000046
分别表示[CLS]、第一个[SEP]与第二个[SEP]对应的上下文向量,
Figure FDA0003494849390000047
Figure FDA0003494849390000048
分别是问题和段落中第i个Token所对应的上下文向量,d为上下文向量的长度,
Figure FDA0003494849390000049
为所有单词组成的上下文特征矩阵;
步骤S32:使用所述分类层在所述上下文特征矩阵H的基础上预测每个单词在答案的起始位置上的概率Ss和结束位置上的概率Es
Ss=softmax(HWs s)
Es=softmax(HWe s)
其中,
Figure FDA00034948493900000410
Figure FDA00034948493900000411
是线性映射的参数矩阵;
Figure FDA00034948493900000412
步骤S33:首先构建所述抽取式问答网络的初始损失函数
Figure FDA00034948493900000413
Figure FDA00034948493900000414
其中,
Figure FDA00034948493900000415
是所述抽取式问答网络在真实答案起始位置ls的预测概率,
Figure FDA00034948493900000416
是所述抽取式问答网络在真实答案结束位置le的预测概率,抽取式问答网络的答案预测损失函数
Figure FDA00034948493900000417
Figure FDA00034948493900000418
Figure FDA00034948493900000419
的负对数似然的平均值;
其次,使用KL散度衡量所述问答交互信息提取网络与所述抽取式问答网络的预测概率之间的差异,相应的定义损失函数
Figure FDA00034948493900000420
Figure FDA00034948493900000421
Figure FDA00034948493900000422
Figure FDA00034948493900000423
其中,
Figure FDA00034948493900000424
代表基于所述问答交互信息提取网络中答案起始位置的概率St得到答案起始位置预测概率分布,
Figure FDA00034948493900000425
代表基于所述抽取式问答网络中答案的起始位置的概率Ss得到的答案起始位置预测概率分布,
Figure FDA0003494849390000051
代表基于所述问答交互信息提取网络中答案结束位置的概率Et得到的答案结束位置预测概率分布,
Figure FDA0003494849390000052
代表基于所述抽取式问答网络中答案结束位置的概率Es得到的答案结束位置预测概率分布,KLD(A||B)代表分布A和分布B之间的KL散度;
最后,定义所述抽取式问答网络的最终损失函数
Figure FDA0003494849390000053
并基于该损失函数训练所述抽取式问答网络:
Figure FDA0003494849390000054
其中,α为调节不同损失比重的超参数。
9.一种增强问答交互信息的自动问答系统答案抽取系统,其特征在于,包括下述模块:
获取输入文本序列模块,用于构建问答交互信息提取网络和抽取式问答网络的输入文本序列;
构建及训练问答交互信息提取网络模块,用于构建问答交互信息提取网络及其损失函数并进行训练;其中,所述问答交互信息提取网络包括:文本编码器用于提取所述输入文本序列中各单词的上下文特征;问答掩码多头自注意力机制用于在所述单词的上下文特征基础上进一步提取问答交互特征;分类层在所述问答交互特征基础上预测每个单词在答案的起始和结束位置上的概率;
构建及训练抽取式问答网络模块,用于构建抽取式问答网络及其损失函数并进行训练;其中,所述抽取式问答网络包括:文本编码器用于提取输入文本序列中各单词的上下文特征;分类层在所述上下文特征基础上预测每个单词在答案的起始和结束位置上的概率;并通过知识蒸馏方式将所述问答交互提取网络提取到的问答交互特征蒸馏至所述抽取式问答网络中,以此构建所述抽取式问答网络损失函数。
CN202210110173.3A 2022-01-29 2022-01-29 增强问答交互信息的自动问答系统答案抽取方法及系统 Pending CN114511084A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210110173.3A CN114511084A (zh) 2022-01-29 2022-01-29 增强问答交互信息的自动问答系统答案抽取方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210110173.3A CN114511084A (zh) 2022-01-29 2022-01-29 增强问答交互信息的自动问答系统答案抽取方法及系统

Publications (1)

Publication Number Publication Date
CN114511084A true CN114511084A (zh) 2022-05-17

Family

ID=81551750

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210110173.3A Pending CN114511084A (zh) 2022-01-29 2022-01-29 增强问答交互信息的自动问答系统答案抽取方法及系统

Country Status (1)

Country Link
CN (1) CN114511084A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117236314A (zh) * 2023-11-06 2023-12-15 杭州同花顺数据开发有限公司 支持超长答案的信息抽取方法、系统、装置和存储介质
CN117668198A (zh) * 2023-12-15 2024-03-08 暗物质(北京)智能科技有限公司 一种问答处理方法、装置、电子设备及存储介质

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117236314A (zh) * 2023-11-06 2023-12-15 杭州同花顺数据开发有限公司 支持超长答案的信息抽取方法、系统、装置和存储介质
CN117236314B (zh) * 2023-11-06 2024-03-01 杭州同花顺数据开发有限公司 支持超长答案的信息抽取方法、系统、装置和存储介质
CN117668198A (zh) * 2023-12-15 2024-03-08 暗物质(北京)智能科技有限公司 一种问答处理方法、装置、电子设备及存储介质

Similar Documents

Publication Publication Date Title
CN110750959B (zh) 文本信息处理的方法、模型训练的方法以及相关装置
CN110825875B (zh) 文本实体类型识别方法、装置、电子设备和存储介质
CN110795543A (zh) 基于深度学习的非结构化数据抽取方法、装置及存储介质
CN113672708B (zh) 语言模型训练方法、问答对生成方法、装置及设备
CN113157885B (zh) 一种面向人工智能领域知识的高效智能问答系统
CN110390049B (zh) 一种面向软件开发问题的答案自动生成方法
CN111831789A (zh) 一种基于多层语义特征提取结构的问答文本匹配方法
CN112100332A (zh) 词嵌入表示学习方法及装置、文本召回方法及装置
CN110765254A (zh) 一种融合多视角答案重排序的多文档问答系统模型
CN114511084A (zh) 增强问答交互信息的自动问答系统答案抽取方法及系统
CN113962219A (zh) 面向电力变压器知识检索和问答的语义匹配方法及系统
CN118093834B (zh) 一种基于aigc大模型的语言处理问答系统及方法
CN114385803B (zh) 一种基于外部知识和片段选择的抽取式阅读理解方法
CN112349294B (zh) 语音处理方法及装置、计算机可读介质、电子设备
CN115858750A (zh) 基于自然语言处理的电网技术标准智能问答方法及系统
CN113012822A (zh) 一种基于生成式对话技术的医疗问答系统
CN116561274A (zh) 一种基于数字人技术与自然语言大模型的知识问答方法
CN115952263A (zh) 一种融合机器阅读理解的问答方法
CN111666374A (zh) 一种在深度语言模型中融入额外知识信息的方法
CN115062123A (zh) 一种对话生成系统的知识库问答对生成方法
CN117972049A (zh) 一种基于大语言模型的医疗器械申报材料生成方法及系统
CN117828024A (zh) 一种插件检索方法、装置、存储介质及设备
CN116737876A (zh) 辅助科普志愿服务的教育装置
CN113590745B (zh) 一种可解释的文本推断方法
CN115964486A (zh) 一种基于数据增强的小样本意图识别方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination