CN114511084A

CN114511084A - 增强问答交互信息的自动问答系统答案抽取方法及系统

Info

Publication number: CN114511084A
Application number: CN202210110173.3A
Authority: CN
Inventors: 荣文戈; 白骏; 章健飞; 欧阳元新; 熊璋
Original assignee: Beihang University
Current assignee: Beihang University
Priority date: 2022-01-29
Filing date: 2022-01-29
Publication date: 2022-05-17

Abstract

本发明涉及一种增强问答交互信息的自动问答系统答案抽取方法及系统，其方法包括：步骤S1：构建问答交互信息提取网络和抽取式问答网络的输入文本序列；步骤S2：构建问答交互信息提取网络及其损失函数并进行训练；步骤S3：构建抽取式问答网络及其损失函数并进行训练；并通过知识蒸馏方式将问答交互提取网络提取到的问答交互特征蒸馏至抽取式问答网络中。本发明提供的方法基于问答掩码多头自注意力机制准确提取问答交互信息，将学习捕捉到的问答交互信息蒸馏至抽取式问答网络从而达到增强的目的。

Description

增强问答交互信息的自动问答系统答案抽取方法及系统

技术领域

本发明涉及自然语言处理领域，具体涉及一种增强问答交互信息的自动问答系统答案抽取方法及系统。

背景技术

随着互联网技术的飞速发展和大数据时代的到来，越来越多的信息充斥着人们的生活，获得信息的途径也日渐丰富。尽管数字化的网络信息为生活带来了便利，但随之而来的是用户难以定位有价值的信息，如何在繁杂的数据中迅速检索到自己所需的信息成为了亟待解决的问题。问答技术在这样的背景下应运而生，它可以对所提问题进行识别、理解，同时用准确、简洁的自然语言回答问题，满足了用户高效查找精确信息的需求。它的概念甚至可以追溯到人工智能的出现，即著名的图灵测试。问答任务本质是信息检索，其关键在于如何正确理解问题且返回问题所对应的答案。该任务具有相当的挑战性，这是因为自然语言非常灵活，表达的意思也十分多样，这也导致了数据驱动的方法在问答中的应用。传统的基于规则的方法曾被广泛应用于问答任务当中，这些规则往往是人工制定的启发式规则，通过语法语义学得到问题的正确答案，但这一方法需要大量的人力和物力。随着深度学习技术的不断进步和海量数据的出现，这为问答任务的研究带来了新的方向。深度学习可以自动地提取数据的复杂特征，且随着数据规模的增加，模型的表现就越好，这对于基于自然语言的问答任务十分关键。各种模型例如ELMo，GPT，BERT等进行的下游问答任务取得了突破性进展。因此研究深度学习在问答任务中的应用具有重要意义。

目前，问答技术可以分为检索式问答、生成式问答与抽取式问答，其中检索式问答用于给用户的问题检索出相关的文本，相关的文本往往还无法准确回答问题，生成式问答和抽取式问答用于在此基础上返回更精确的答案，其中生成式问答基于生成式模型逐词生成答案，而抽取式问答则从文本中抽取一个片段作为准确答案。考虑到抽取式问答的结果一般更为可控和精准。因此，如何帮助抽取式问答网络有效地从给定的段落中提取问题与答案之间的交互信息成为一个亟待解决的问题。

发明内容

为了解决上述技术问题，本发明提供一种增强问答交互信息的自动问答系统答案抽取方法及系统。

本发明技术解决方案为：一种增强问答交互信息的自动问答系统答案抽取方法，包括：

步骤S1：构建问答交互信息提取网络和抽取式问答网络的输入文本序列；

步骤S2：构建问答交互信息提取网络及其损失函数并进行训练；其中，所述问答交互信息提取网络包括：文本编码器用于提取所述输入文本序列中各单词的上下文特征；问答掩码多头自注意力机制用于在所述单词的上下文特征基础上进一步提取问答交互特征；分类层在所述问答交互特征基础上预测每个单词在答案的起始和结束位置上的概率；

步骤S3：构建抽取式问答网络及其损失函数并进行训练；其中，所述抽取式问答网络包括：文本编码器用于提取输入文本序列中各单词的上下文特征；分类层在所述上下文特征基础上预测每个单词在答案的起始和结束位置上的概率；并通过知识蒸馏方式将所述问答交互提取网络提取到的问答交互特征蒸馏至所述抽取式问答网络中，以此构建所述抽取式问答网络损失函数。

本发明与现有技术相比，具有以下优点：

1、本发明公开了一种增强问答交互信息的自动问答系统答案抽取方法，能够基于问答掩码多头自注意力机制准确提取问答交互信息，因此问答交互信息提取网络可以作为一个知识源，将学习捕捉到的问答交互信息蒸馏至抽取式问答网络从而达到增强的目的。

2、由于在本发明中问答交互信息提取网络相比于抽取式问答网络有一个额外的问答掩码多头自注意力机制，且该模块依赖于答案的位置信息，是抽取式问答网络在推理阶段得不到的，因此现有的模型参数复用方法不适用于本发明。本发明使用知识蒸馏方法使得目标模型学习源模型的输出或中间特征，从而达到知识迁移的目的，令抽取式问答网络去模仿问答交互信息提取网络的答案预测概率，从而学习到问答交互信息，有效提升抽取式问答的准确性。

附图说明

图1为本发明实施例中一种增强问答交互信息的自动问答系统答案抽取方法的流程图；

图2为本发明实施例中问答交互信息提取网络和抽取式问答网络结构示意图；

图3为本发明实施例中一种增强问答交互信息的自动问答系统答案抽取系统的结构框图。

具体实施方式

本发明提供了一种增强问答交互信息的自动问答系统答案抽取方法，基于问答掩码多头自注意力机制准确提取问答交互信息，将学习捕捉到的问答交互信息蒸馏至抽取式问答网络从而达到增强的目的。

为了使本发明的目的、技术方案及优点更加清楚，以下通过具体实施，并结合附图，对本发明进一步详细说明。

实施例一

如图1所示，本发明实施例提供的一种增强问答交互信息的自动问答系统答案抽取方法，包括下述步骤：

步骤S2：构建问答交互信息提取网络及其损失函数并进行训练；其中，问答交互信息提取网络包括：文本编码器用于提取输入文本序列中各单词的上下文特征；问答掩码多头自注意力机制用于在单词的上下文特征基础上进一步提取问答交互特征；分类层在问答交互特征基础上预测每个单词在答案的起始和结束位置上的概率；

步骤S3：构建抽取式问答网络及其损失函数并进行训练；其中，抽取式问答网络包括：文本编码器用于提取输入文本序列中各单词的上下文特征；分类层在上下文特征基础上预测每个单词在答案的起始和结束位置上的概率；并通过知识蒸馏方式将问答交互提取网络提取到的问答交互特征蒸馏至抽取式问答网络中，以此构建抽取式问答网络损失函数。

在一个实施例中，上述步骤S1：构建问答交互信息提取网络和抽取式问答网络的输入文本序列，具体包括：

步骤S11：给定用户提出的问题和问题相关段落，其中，问题的答案是问题相关段落中的一个片段；

步骤S12：将问题和问题相关段落转换为Unicode编码，使用分词算法WordPiece对其进行分词处理，得到问题的分词结果

和问题相关段落的分词结果

其中，

和

分别是问题和问题相关段落中的第i个单词，m和n分别是问题和问题相关段落的文本长度，

为问题相关段落中的答案片段，l_s和l_e分别是答案在问题相关段落中的起始位置和结束位置；

步骤S13：将问题和问题相关段落与分隔字符[CLS]与[SEP]拼接起来得到输入文本序列T：

如图2所示，在一个实施例中，上述步骤S2：构建问答交互信息提取网络及其损失函数并进行训练；其中，问答交互信息提取网络包括：文本编码器用于提取输入文本序列中各单词的上下文特征；问答掩码多头自注意力机制用于在单词的上下文特征基础上进一步提取问答交互特征；分类层在问答交互特征基础上预测每个单词在答案的起始和结束位置上的概率，具体包括：

步骤S21：使用文本编码器提取问答交互信息提取网络的输入文本序列中各单词的上下文特征，具体包括：

步骤S211：将输入文本序列T转换为单词的token_id序列，将问题和问题相关段落的token_type_id序列分别设置成0和1，为输入文本序列T设置相应长度的位置编码position_id；

本发明实施例中的文本编码器采用但不限于BERT文本编码器。

步骤S212：将token_id序列、token_type_id序列以及位置编码position_id输入文本编码器提取得到各个单词的上下文特征向量矩阵：

其中，

与

分别表示T中[CLS]、第一个[SEP]与第二个[SEP]对应的上下文特征向量，

和

分别是问题和问题相关段落中第i个单词所对应的上下文特征向量，d为上下文特征向量的长度，

为所有单词组成的上下文特征向量矩阵；

步骤S22：使用问答掩码多头自注意力机制在上下文特征基础上进一步提取问答交互特征，具体包括：

步骤S221：基于R构建问题与答案的单词上下文特征向量矩阵R_qa：

其中，

步骤S222：在自注意力层中，第i个头特征向量的计算公式为：

其中，

分别是将上下文特征向量映射至查询、键、值特征空间的线性映射参数矩阵，d_h为各个头特征向量的长度；

步骤S223：将各个头特征向量拼接起来，并通过一个线性映射整合各个头特征向量，然后通过层标准化和残差连接分别用于稳定数值范围和梯度的传播，得到整合后的问答交互特征向量矩阵R′_qa：

R′_qa＝R_qa+LayerNorm([head₁；…；head_u]W^o)

其中，LayerNorm表示层标准化操作，u为头的数量，

是线性映射参数矩阵；

步骤S224：使用全连接层进一步提炼问答交互特征向量矩阵R′_qa，得到提炼后的问答交互特征向量矩阵R″_qa：

R″_qa＝LayerNorm(R′_qa+FFN(R′_qa))

其中，FFN为全连接层；

步骤S225：将R″_qa与对应的上下文特征向量矩阵R进行替换，得到预测答案位置的特征向量矩阵R″：

R″＝(R-R_qa)∪R″_qa

其中，

步骤S23：使用分类层在问答交互特征基础上预测每个单词在答案的起始和结束位置上的概率，具体包括：

使用两个线性映射加softmax归一化，分别将R″中的每一个单词上下文特征向量映射到答案的起始位置的概率分布S^t以及答案的结束位置的概率分布E^t上：

其中，

和

是线性映射的参数矩阵；

步骤S24：构建问答交互提取网络的损失函数并进行训练。

构建损失函数

其中，

是问答交互提取网络在真实答案起始位置l_s的预测概率，

是问答交互提取网络在真实答案结束位置l_e的预测概率，问答交互提取网络的损失函数

是

与

的负对数似然的平均值。

在一个实施例中，上述步骤S3：构建抽取式问答网络及其损失函数并进行训练；其中，抽取式问答网络包括：文本编码器用于提取输入文本序列中各单词的上下文特征；分类层在上下文特征基础上预测每个单词在答案的起始和结束位置上的概率，具体包括：

步骤S31：使用文本编码器提取输入文本序列中各单词的上下文特征；

其中，

与

分别表示[CLS]、第一个[SEP]与第二个[SEP]对应的上下文向量，

和

分别是问题和段落中第i个Token所对应的上下文向量，d为上下文向量的长度，

为所有单词组成的上下文特征矩阵；

上述提取输入文本序列中各单词的上下文特征的具体实施步骤，请参考S211～S212；

步骤S32：使用分类层在上下文特征矩阵H的基础上预测每个单词在答案的起始位置上的概率S^s和结束位置上的概率E^s：

其中，

和

是线性映射的参数矩阵；

步骤S33：首先构建抽取式问答网络的初始损失函数

其中，

是抽取式问答网络在真实答案起始位置l_s的预测概率，

是抽取式问答网络在真实答案结束位置l_e的预测概率，抽取式问答网络的答案预测损失函数

是

与

的负对数似然的平均值；

其次，在知识蒸馏部分，通过最小化抽取式问答网络的答案预测概率与问答交互提取网络的答案预测概率之间的差异来将问答交互提取网络提取到的问答交互信息蒸馏至抽取式问答网络中，因此使用KL散度衡量问答交互信息提取网络与抽取式问答网络的预测概率之间的差异，相应的定义损失函数

其中，

代表基于问答交互信息提取网络中答案起始位置的概率S^t得到答案起始位置预测概率分布，

代表基于抽取式问答网络中答案的起始位置的概率S^s得到的答案起始位置预测概率分布，

代表基于问答交互信息提取网络中答案结束位置的概率E^t得到的答案结束位置预测概率分布，

代表基于抽取式问答网络中答案结束位置的概率E^s得到的答案结束位置预测概率分布，KLD(A||B)代表分布A和分布B之间的KL散度；

最后，定义抽取式问答网络的最终损失函数

并基于该损失函数训练抽取式问答网络：

其中，α为调节不同损失比重的超参数。

本发明实施例在训练抽取式问答网络的同时为其引入问答交互信息提取网络提取到的问答交互信息，从而帮助抽取式问答网络更加精准地预测答案位置，除令抽取式问答网络接收来自真实答案位置标签的监督信号之外，使用知识蒸馏技术，令抽取式问答网络同时模仿问答交互信息提取网络的答案位置预测值。

本发明中的方法命名为Knowledge Distillation Question Answering(KDQA)。通过搭配不同的文本编码器如BERT和BioBERT，本发明的方法可以分别命名为KDQA-BERT与KDQA-BioBERT。

将提出的方法在知名生物医学数据集上BioASQ 6b、7b以及8b进行实验，并与相应数据集上的顶尖方法进行了对比。下述表1、表2以及表3分别展示了BioASQ 6b、7b以及8b上的实验结果，可以看到KDQA-BioBERT相比于基础模型BioBERT(对应表格中的Yoon方法)再SAcc、LAcc以及MRR三项指标上都有了大幅度提升，并且超过了其他引入额外语言特征的方法(Xu、Peng)，在三个数据集上都取得了最佳成绩。

表1本发明在BioASQ 6b上的表现

方法	SAcc	LAcc	MRR
				AUTH	20.15	40.20	27.13
ZhuLab	23.87	33.14	27.62
				Yoon	42.86	57.14	48.41
Jeong	41.41	57.40	48.05
				Xu	45.17	62.94	51.97
Peng-single	42.09	62.98	49.98
				Peng-ensemble	43.02	64.23	51.19
本发明KDQA-BioBERT	45.51	64.31	52.47

表2本发明在BioASQ 7b上的表现

表3本发明在BioASQ 8b上的表现

方法	SAcc	LAcc	MRR
				AUTH	16.42	28.53	21.05
ZhuLab	35.09	51.41	41.15
				Umass	31.33	47.98	37.80
Yoon	38.69	55.73	45.66
				Jeong	38.19	57.19	45.93
Xu	39.37	60.98	46.88
				Peng-single	38.80	59.34	46.74
Peng-ensemble	39.39	59.04	47.34
				本发明KDQA-BioBERT	43.43	61.48	49.97

本发明公开了一种增强问答交互信息的自动问答系统答案抽取方法，能够基于问答掩码多头自注意力机制准确提取问答交互信息，因此问答交互信息提取网络可以作为一个知识源，将学习捕捉到的问答交互信息蒸馏至抽取式问答网络从而达到增强的目的。

由于在本发明中问答交互信息提取网络相比于抽取式问答网络有一个额外的问答掩码多头自注意力机制，且该模块依赖于答案的位置信息，是抽取式问答网络在推理阶段得不到的，因此现有的模型参数复用方法不适用于本发明。本发明使用知识蒸馏方法使得目标模型学习源模型的输出或中间特征，从而达到知识迁移的目的，令抽取式问答网络去模仿问答交互信息提取网络的答案预测概率，从而学习到问答交互信息，有效提升抽取式问答的准确性。

实施例二

如图3所示，本发明实施例提供了一种增强问答交互信息的自动问答系统答案抽取系统，包括下述模块：

获取输入文本序列模块41，用于构建问答交互信息提取网络和抽取式问答网络的输入文本序列；

构建及训练问答交互信息提取网络模块42，用于构建问答交互信息提取网络及其损失函数并进行训练；其中，问答交互信息提取网络包括：文本编码器用于提取输入文本序列中各单词的上下文特征；问答掩码多头自注意力机制用于在单词的上下文特征基础上进一步提取问答交互特征；分类层在问答交互特征基础上预测每个单词在答案的起始和结束位置上的概率；

构建及训练抽取式问答网络模块43，用于构建抽取式问答网络及其损失函数并进行训练；其中，抽取式问答网络包括：文本编码器用于提取输入文本序列中各单词的上下文特征；分类层在上下文特征基础上预测每个单词在答案的起始和结束位置上的概率；并通过知识蒸馏方式将问答交互提取网络提取到的问答交互特征蒸馏至抽取式问答网络中，以此构建抽取式问答网络损失函数。

提供以上实施例仅仅是为了描述本发明的目的，而并非要限制本发明的范围。本发明的范围由所附权利要求限定。不脱离本发明的精神和原理而做出的各种等同替换和修改，均应涵盖在本发明的范围之内。

Claims

1.一种增强问答交互信息的自动问答系统答案抽取方法，其特征在于，包括：

2.根据权利要求1所述的增强问答交互信息的自动问答系统答案抽取方法，其特征在于，所述步骤S1：构建问答交互信息提取网络和抽取式问答网络的输入文本序列，具体包括：

步骤S11：给定用户提出的问题和问题相关段落，其中，所述问题的答案是所述问题相关段落中的一个片段；

步骤S12：将所述问题和所述问题相关段落转换为Unicode编码，对其进行分词处理，得到所述问题的分词结果

和所述问题相关段落的分词结果

其中，

和

分别是所述问题和所述问题相关段落中的第i个单词，m和n分别是所述问题和所述问题相关段落的文本长度，

为所述问题相关段落中的答案片段，l_s和l_e分别是答案在所述问题相关段落中的起始位置和结束位置；

步骤S13：将所述问题和所述问题相关段落与分隔字符[CLS]与[SEP]拼接起来得到输入文本序列T：

3.根据权利要求1所述的增强问答交互信息的自动问答系统答案抽取方法，其特征在于，所述步骤S2：构建问答交互信息提取网络及其损失函数并进行训练；其中，所述问答交互信息提取网络包括：文本编码器用于提取所述输入文本序列中各单词的上下文特征；问答掩码多头自注意力机制用于在所述单词的上下文特征基础上进一步提取问答交互特征；分类层在所述问答交互特征基础上预测每个单词在答案的起始和结束位置上的概率，具体包括：

步骤S21：使用所述文本编码器提取所述问答交互信息提取网络的输入文本序列中各单词的上下文特征；

步骤S22：使用所述问答掩码多头自注意力机制在所述上下文特征基础上进一步提取问答交互特征；

步骤S23：使用所述分类层在所述问答交互特征基础上预测每个单词在答案的起始和结束位置上的概率；

步骤S24：构建所述问答交互提取网络的损失函数并进行训练。

4.根据权利要求3所述的增强问答交互信息的自动问答系统答案抽取方法，其特征在于，所述步骤S21：使用所述文本编码器提取所述问答交互信息提取网络的输入文本序列中各单词的上下文特征，具体包括：

步骤S211：将所述输入文本序列T转换为单词的token_id序列，将所述问题和所述问题相关段落的token_type_id序列分别设置成0和1，为所述输入文本序列T设置相应长度的位置编码position_id；

步骤S212：将所述token_id序列、token_type_id序列以及所述位置编码position_id输入所述文本编码器提取得到各个单词的上下文特征向量矩阵：

其中，

与

分别表示T中[CLS]、第一个[SEP]与第二个[SEP]对应的上下文特征向量，r_i ^q和r_i ^p分别是所述问题和所述问题相关段落中第i个单词所对应的上下文特征向量，d为上下文特征向量的长度，

为所有单词组成的上下文特征向量矩阵。

5.根据权利要求3所述的增强问答交互信息的自动问答系统答案抽取方法，其特征在于，所述步骤S22：使用所述问答掩码多头自注意力机制在所述上下文特征基础上进一步提取问答交互特征，具体包括：

其中，

其中，

分别是将所述上下文特征向量映射至查询、键、值特征空间的线性映射参数矩阵，d_h为各个所述头特征向量的长度；

步骤S223：将各个所述头特征向量拼接起来，并通过一个线性映射整合各个所述头特征向量，然后通过层标准化和残差连接分别用于稳定数值范围和梯度的传播，得到整合后的问答交互特征向量矩阵R′_qa：

R′_qa＝R_qa+LayerNorm([head₁；...；head_u]W^o)

其中，LayerNorm表示层标准化操作，u为头的数量，

是线性映射参数矩阵；

步骤S224：使用全连接层进一步提炼所述问答交互特征向量矩阵R′_qa，得到提炼后的问答交互特征向量矩阵R″_qa：

R″_qa＝LayerNorm(R′_qa+FFN(R′_qa))

其中，FFN为全连接层；

步骤S225：将R″_qa与对应的所述上下文特征向量矩阵R进行替换，得到预测答案位置的特征向量矩阵R″：

R″＝(R-R_qa)∪R″_qa

其中，

6.根据权利要求3所述的增强问答交互信息的自动问答系统答案抽取方法，其特征在于，所述步骤S23：使用所述分类层在所述问答交互特征基础上预测每个单词在答案的起始和结束位置上的概率，具体包括：

使用两个线性映射加softmax归一化，分别将R″中的每一个单词上下文特征向量映射到所述答案的起始位置的概率分布S^t以及所述答案的结束位置的概率分布E^t上：

其中，

和

是线性映射的参数矩阵。

7.根据权利要求3所述的增强问答交互信息的自动问答系统答案抽取方法，其特征在于，所述步骤S24：构建所述问答交互提取网络的损失函数并进行训练，具体包括：

构建损失函数

其中，

是所述问答交互提取网络在真实答案起始位置l_s的预测概率，

是所述问答交互提取网络在真实答案结束位置l_e的预测概率，所述问答交互提取网络的损失函数

是

与

的负对数似然的平均值。

8.根据权利要求1所述的增强问答交互信息的自动问答系统答案抽取方法，其特征在于，所述步骤S3：构建抽取式问答网络及其损失函数并进行训练；其中，所述抽取式问答网络包括：文本编码器用于提取输入文本序列中各单词的上下文特征；分类层在所述上下文特征基础上预测每个单词在答案的起始和结束位置上的概率，具体包括：

步骤S31：使用所述文本编码器提取输入文本序列中各单词的上下文特征；

其中，

与

分别表示[CLS]、第一个[SEP]与第二个[SEP]对应的上下文向量，

和

为所有单词组成的上下文特征矩阵；

步骤S32：使用所述分类层在所述上下文特征矩阵H的基础上预测每个单词在答案的起始位置上的概率S^s和结束位置上的概率E^s：

S^s＝softmax(HW_s ^s)

E^s＝softmax(HW_e ^s)

其中，

和

是线性映射的参数矩阵；

步骤S33：首先构建所述抽取式问答网络的初始损失函数

其中，

是所述抽取式问答网络在真实答案起始位置l_s的预测概率，

是所述抽取式问答网络在真实答案结束位置l_e的预测概率，抽取式问答网络的答案预测损失函数

是

与

的负对数似然的平均值；

其次，使用KL散度衡量所述问答交互信息提取网络与所述抽取式问答网络的预测概率之间的差异，相应的定义损失函数

其中，

代表基于所述问答交互信息提取网络中答案起始位置的概率S^t得到答案起始位置预测概率分布，

代表基于所述抽取式问答网络中答案的起始位置的概率S^s得到的答案起始位置预测概率分布，

代表基于所述问答交互信息提取网络中答案结束位置的概率E^t得到的答案结束位置预测概率分布，

代表基于所述抽取式问答网络中答案结束位置的概率E^s得到的答案结束位置预测概率分布，KLD(A||B)代表分布A和分布B之间的KL散度；

最后，定义所述抽取式问答网络的最终损失函数

并基于该损失函数训练所述抽取式问答网络：

其中，α为调节不同损失比重的超参数。

9.一种增强问答交互信息的自动问答系统答案抽取系统，其特征在于，包括下述模块：

获取输入文本序列模块，用于构建问答交互信息提取网络和抽取式问答网络的输入文本序列；

构建及训练问答交互信息提取网络模块，用于构建问答交互信息提取网络及其损失函数并进行训练；其中，所述问答交互信息提取网络包括：文本编码器用于提取所述输入文本序列中各单词的上下文特征；问答掩码多头自注意力机制用于在所述单词的上下文特征基础上进一步提取问答交互特征；分类层在所述问答交互特征基础上预测每个单词在答案的起始和结束位置上的概率；

构建及训练抽取式问答网络模块，用于构建抽取式问答网络及其损失函数并进行训练；其中，所述抽取式问答网络包括：文本编码器用于提取输入文本序列中各单词的上下文特征；分类层在所述上下文特征基础上预测每个单词在答案的起始和结束位置上的概率；并通过知识蒸馏方式将所述问答交互提取网络提取到的问答交互特征蒸馏至所述抽取式问答网络中，以此构建所述抽取式问答网络损失函数。