CN114511084A - 增强问答交互信息的自动问答系统答案抽取方法及系统 - Google Patents
增强问答交互信息的自动问答系统答案抽取方法及系统 Download PDFInfo
- Publication number
- CN114511084A CN114511084A CN202210110173.3A CN202210110173A CN114511084A CN 114511084 A CN114511084 A CN 114511084A CN 202210110173 A CN202210110173 A CN 202210110173A CN 114511084 A CN114511084 A CN 114511084A
- Authority
- CN
- China
- Prior art keywords
- question
- answer
- network
- extraction
- answering
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000605 extraction Methods 0.000 title claims abstract description 149
- 230000003993 interaction Effects 0.000 title claims abstract description 103
- 230000002708 enhancing effect Effects 0.000 title claims abstract description 22
- 238000000034 method Methods 0.000 claims abstract description 28
- 238000012549 training Methods 0.000 claims abstract description 25
- 230000002452 interceptive effect Effects 0.000 claims abstract description 20
- 230000007246 mechanism Effects 0.000 claims abstract description 15
- 238000013140 knowledge distillation Methods 0.000 claims abstract description 9
- 239000000284 extract Substances 0.000 claims abstract description 7
- 239000013598 vector Substances 0.000 claims description 35
- 239000011159 matrix material Substances 0.000 claims description 28
- 238000013507 mapping Methods 0.000 claims description 14
- 230000011218 segmentation Effects 0.000 claims description 7
- 238000010606 normalization Methods 0.000 claims description 5
- 238000004364 calculation method Methods 0.000 claims description 2
- 230000005484 gravity Effects 0.000 claims description 2
- 238000002156 mixing Methods 0.000 claims description 2
- 238000012545 processing Methods 0.000 claims description 2
- 238000007670 refining Methods 0.000 claims description 2
- 239000004576 sand Substances 0.000 claims description 2
- 230000000087 stabilizing effect Effects 0.000 claims 1
- 230000006870 function Effects 0.000 abstract description 21
- 238000005516 engineering process Methods 0.000 description 14
- 230000014509 gene expression Effects 0.000 description 4
- 238000013135 deep learning Methods 0.000 description 3
- 238000010586 diagram Methods 0.000 description 2
- 238000013508 migration Methods 0.000 description 2
- 230000005012 migration Effects 0.000 description 2
- 238000013473 artificial intelligence Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 239000000463 material Substances 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000003058 natural language processing Methods 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 238000000638 solvent extraction Methods 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 238000012360 testing method Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N5/00—Computing arrangements using knowledge-based models
- G06N5/02—Knowledge representation; Symbolic representation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/205—Parsing
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N20/00—Machine learning
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02A—TECHNOLOGIES FOR ADAPTATION TO CLIMATE CHANGE
- Y02A10/00—TECHNOLOGIES FOR ADAPTATION TO CLIMATE CHANGE at coastal zones; at river basins
- Y02A10/40—Controlling or monitoring, e.g. of flood or hurricane; Forecasting, e.g. risk assessment or mapping
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- General Engineering & Computer Science (AREA)
- Artificial Intelligence (AREA)
- Software Systems (AREA)
- General Physics & Mathematics (AREA)
- Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Medical Informatics (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明涉及一种增强问答交互信息的自动问答系统答案抽取方法及系统,其方法包括:步骤S1:构建问答交互信息提取网络和抽取式问答网络的输入文本序列;步骤S2:构建问答交互信息提取网络及其损失函数并进行训练;步骤S3:构建抽取式问答网络及其损失函数并进行训练;并通过知识蒸馏方式将问答交互提取网络提取到的问答交互特征蒸馏至抽取式问答网络中。本发明提供的方法基于问答掩码多头自注意力机制准确提取问答交互信息,将学习捕捉到的问答交互信息蒸馏至抽取式问答网络从而达到增强的目的。
Description
技术领域
本发明涉及自然语言处理领域,具体涉及一种增强问答交互信息的自动问答系统答案抽取方法及系统。
背景技术
随着互联网技术的飞速发展和大数据时代的到来,越来越多的信息充斥着人们的生活,获得信息的途径也日渐丰富。尽管数字化的网络信息为生活带来了便利,但随之而来的是用户难以定位有价值的信息,如何在繁杂的数据中迅速检索到自己所需的信息成为了亟待解决的问题。问答技术在这样的背景下应运而生,它可以对所提问题进行识别、理解,同时用准确、简洁的自然语言回答问题,满足了用户高效查找精确信息的需求。它的概念甚至可以追溯到人工智能的出现,即著名的图灵测试。问答任务本质是信息检索,其关键在于如何正确理解问题且返回问题所对应的答案。该任务具有相当的挑战性,这是因为自然语言非常灵活,表达的意思也十分多样,这也导致了数据驱动的方法在问答中的应用。传统的基于规则的方法曾被广泛应用于问答任务当中,这些规则往往是人工制定的启发式规则,通过语法语义学得到问题的正确答案,但这一方法需要大量的人力和物力。随着深度学习技术的不断进步和海量数据的出现,这为问答任务的研究带来了新的方向。深度学习可以自动地提取数据的复杂特征,且随着数据规模的增加,模型的表现就越好,这对于基于自然语言的问答任务十分关键。各种模型例如ELMo,GPT,BERT等进行的下游问答任务取得了突破性进展。因此研究深度学习在问答任务中的应用具有重要意义。
目前,问答技术可以分为检索式问答、生成式问答与抽取式问答,其中检索式问答用于给用户的问题检索出相关的文本,相关的文本往往还无法准确回答问题,生成式问答和抽取式问答用于在此基础上返回更精确的答案,其中生成式问答基于生成式模型逐词生成答案,而抽取式问答则从文本中抽取一个片段作为准确答案。考虑到抽取式问答的结果一般更为可控和精准。因此,如何帮助抽取式问答网络有效地从给定的段落中提取问题与答案之间的交互信息成为一个亟待解决的问题。
发明内容
为了解决上述技术问题,本发明提供一种增强问答交互信息的自动问答系统答案抽取方法及系统。
本发明技术解决方案为:一种增强问答交互信息的自动问答系统答案抽取方法,包括:
步骤S1:构建问答交互信息提取网络和抽取式问答网络的输入文本序列;
步骤S2:构建问答交互信息提取网络及其损失函数并进行训练;其中,所述问答交互信息提取网络包括:文本编码器用于提取所述输入文本序列中各单词的上下文特征;问答掩码多头自注意力机制用于在所述单词的上下文特征基础上进一步提取问答交互特征;分类层在所述问答交互特征基础上预测每个单词在答案的起始和结束位置上的概率;
步骤S3:构建抽取式问答网络及其损失函数并进行训练;其中,所述抽取式问答网络包括:文本编码器用于提取输入文本序列中各单词的上下文特征;分类层在所述上下文特征基础上预测每个单词在答案的起始和结束位置上的概率;并通过知识蒸馏方式将所述问答交互提取网络提取到的问答交互特征蒸馏至所述抽取式问答网络中,以此构建所述抽取式问答网络损失函数。
本发明与现有技术相比,具有以下优点:
1、本发明公开了一种增强问答交互信息的自动问答系统答案抽取方法,能够基于问答掩码多头自注意力机制准确提取问答交互信息,因此问答交互信息提取网络可以作为一个知识源,将学习捕捉到的问答交互信息蒸馏至抽取式问答网络从而达到增强的目的。
2、由于在本发明中问答交互信息提取网络相比于抽取式问答网络有一个额外的问答掩码多头自注意力机制,且该模块依赖于答案的位置信息,是抽取式问答网络在推理阶段得不到的,因此现有的模型参数复用方法不适用于本发明。本发明使用知识蒸馏方法使得目标模型学习源模型的输出或中间特征,从而达到知识迁移的目的,令抽取式问答网络去模仿问答交互信息提取网络的答案预测概率,从而学习到问答交互信息,有效提升抽取式问答的准确性。
附图说明
图1为本发明实施例中一种增强问答交互信息的自动问答系统答案抽取方法的流程图;
图2为本发明实施例中问答交互信息提取网络和抽取式问答网络结构示意图;
图3为本发明实施例中一种增强问答交互信息的自动问答系统答案抽取系统的结构框图。
具体实施方式
本发明提供了一种增强问答交互信息的自动问答系统答案抽取方法,基于问答掩码多头自注意力机制准确提取问答交互信息,将学习捕捉到的问答交互信息蒸馏至抽取式问答网络从而达到增强的目的。
为了使本发明的目的、技术方案及优点更加清楚,以下通过具体实施,并结合附图,对本发明进一步详细说明。
实施例一
如图1所示,本发明实施例提供的一种增强问答交互信息的自动问答系统答案抽取方法,包括下述步骤:
步骤S1:构建问答交互信息提取网络和抽取式问答网络的输入文本序列;
步骤S2:构建问答交互信息提取网络及其损失函数并进行训练;其中,问答交互信息提取网络包括:文本编码器用于提取输入文本序列中各单词的上下文特征;问答掩码多头自注意力机制用于在单词的上下文特征基础上进一步提取问答交互特征;分类层在问答交互特征基础上预测每个单词在答案的起始和结束位置上的概率;
步骤S3:构建抽取式问答网络及其损失函数并进行训练;其中,抽取式问答网络包括:文本编码器用于提取输入文本序列中各单词的上下文特征;分类层在上下文特征基础上预测每个单词在答案的起始和结束位置上的概率;并通过知识蒸馏方式将问答交互提取网络提取到的问答交互特征蒸馏至抽取式问答网络中,以此构建抽取式问答网络损失函数。
在一个实施例中,上述步骤S1:构建问答交互信息提取网络和抽取式问答网络的输入文本序列,具体包括:
步骤S11:给定用户提出的问题和问题相关段落,其中,问题的答案是问题相关段落中的一个片段;
步骤S12:将问题和问题相关段落转换为Unicode编码,使用分词算法WordPiece对其进行分词处理,得到问题的分词结果和问题相关段落的分词结果 其中,和分别是问题和问题相关段落中的第i个单词,m和n分别是问题和问题相关段落的文本长度,为问题相关段落中的答案片段,ls和le分别是答案在问题相关段落中的起始位置和结束位置;
步骤S13:将问题和问题相关段落与分隔字符[CLS]与[SEP]拼接起来得到输入文本序列T:
如图2所示,在一个实施例中,上述步骤S2:构建问答交互信息提取网络及其损失函数并进行训练;其中,问答交互信息提取网络包括:文本编码器用于提取输入文本序列中各单词的上下文特征;问答掩码多头自注意力机制用于在单词的上下文特征基础上进一步提取问答交互特征;分类层在问答交互特征基础上预测每个单词在答案的起始和结束位置上的概率,具体包括:
步骤S21:使用文本编码器提取问答交互信息提取网络的输入文本序列中各单词的上下文特征,具体包括:
步骤S211:将输入文本序列T转换为单词的token_id序列,将问题和问题相关段落的token_type_id序列分别设置成0和1,为输入文本序列T设置相应长度的位置编码position_id;
本发明实施例中的文本编码器采用但不限于BERT文本编码器。
步骤S212:将token_id序列、token_type_id序列以及位置编码position_id输入文本编码器提取得到各个单词的上下文特征向量矩阵:
其中,与分别表示T中[CLS]、第一个[SEP]与第二个[SEP]对应的上下文特征向量,和分别是问题和问题相关段落中第i个单词所对应的上下文特征向量,d为上下文特征向量的长度,为所有单词组成的上下文特征向量矩阵;
步骤S22:使用问答掩码多头自注意力机制在上下文特征基础上进一步提取问答交互特征,具体包括:
步骤S221:基于R构建问题与答案的单词上下文特征向量矩阵Rqa:
步骤S222:在自注意力层中,第i个头特征向量的计算公式为:
步骤S223:将各个头特征向量拼接起来,并通过一个线性映射整合各个头特征向量,然后通过层标准化和残差连接分别用于稳定数值范围和梯度的传播,得到整合后的问答交互特征向量矩阵R′qa:
R′qa=Rqa+LayerNorm([head1;…;headu]Wo)
步骤S224:使用全连接层进一步提炼问答交互特征向量矩阵R′qa,得到提炼后的问答交互特征向量矩阵R″qa:
R″qa=LayerNorm(R′qa+FFN(R′qa))
其中,FFN为全连接层;
步骤S225:将R″qa与对应的上下文特征向量矩阵R进行替换,得到预测答案位置的特征向量矩阵R″:
R″=(R-Rqa)∪R″qa
步骤S23:使用分类层在问答交互特征基础上预测每个单词在答案的起始和结束位置上的概率,具体包括:
使用两个线性映射加softmax归一化,分别将R″中的每一个单词上下文特征向量映射到答案的起始位置的概率分布St以及答案的结束位置的概率分布Et上:
步骤S24:构建问答交互提取网络的损失函数并进行训练。
在一个实施例中,上述步骤S3:构建抽取式问答网络及其损失函数并进行训练;其中,抽取式问答网络包括:文本编码器用于提取输入文本序列中各单词的上下文特征;分类层在上下文特征基础上预测每个单词在答案的起始和结束位置上的概率,具体包括:
步骤S31:使用文本编码器提取输入文本序列中各单词的上下文特征;
上述提取输入文本序列中各单词的上下文特征的具体实施步骤,请参考S211~S212;
步骤S32:使用分类层在上下文特征矩阵H的基础上预测每个单词在答案的起始位置上的概率Ss和结束位置上的概率Es:
其次,在知识蒸馏部分,通过最小化抽取式问答网络的答案预测概率与问答交互提取网络的答案预测概率之间的差异来将问答交互提取网络提取到的问答交互信息蒸馏至抽取式问答网络中,因此使用KL散度衡量问答交互信息提取网络与抽取式问答网络的预测概率之间的差异,相应的定义损失函数
其中,代表基于问答交互信息提取网络中答案起始位置的概率St得到答案起始位置预测概率分布,代表基于抽取式问答网络中答案的起始位置的概率Ss得到的答案起始位置预测概率分布,代表基于问答交互信息提取网络中答案结束位置的概率Et得到的答案结束位置预测概率分布,代表基于抽取式问答网络中答案结束位置的概率Es得到的答案结束位置预测概率分布,KLD(A||B)代表分布A和分布B之间的KL散度;
其中,α为调节不同损失比重的超参数。
本发明实施例在训练抽取式问答网络的同时为其引入问答交互信息提取网络提取到的问答交互信息,从而帮助抽取式问答网络更加精准地预测答案位置,除令抽取式问答网络接收来自真实答案位置标签的监督信号之外,使用知识蒸馏技术,令抽取式问答网络同时模仿问答交互信息提取网络的答案位置预测值。
本发明中的方法命名为Knowledge Distillation Question Answering(KDQA)。通过搭配不同的文本编码器如BERT和BioBERT,本发明的方法可以分别命名为KDQA-BERT与KDQA-BioBERT。
将提出的方法在知名生物医学数据集上BioASQ 6b、7b以及8b进行实验,并与相应数据集上的顶尖方法进行了对比。下述表1、表2以及表3分别展示了BioASQ 6b、7b以及8b上的实验结果,可以看到KDQA-BioBERT相比于基础模型BioBERT(对应表格中的Yoon方法)再SAcc、LAcc以及MRR三项指标上都有了大幅度提升,并且超过了其他引入额外语言特征的方法(Xu、Peng),在三个数据集上都取得了最佳成绩。
表1本发明在BioASQ 6b上的表现
方法 | SAcc | LAcc | MRR |
AUTH | 20.15 | 40.20 | 27.13 |
ZhuLab | 23.87 | 33.14 | 27.62 |
Yoon | 42.86 | 57.14 | 48.41 |
Jeong | 41.41 | 57.40 | 48.05 |
Xu | 45.17 | 62.94 | 51.97 |
Peng-single | 42.09 | 62.98 | 49.98 |
Peng-ensemble | 43.02 | 64.23 | 51.19 |
本发明KDQA-BioBERT | 45.51 | 64.31 | 52.47 |
表2本发明在BioASQ 7b上的表现
表3本发明在BioASQ 8b上的表现
方法 | SAcc | LAcc | MRR |
AUTH | 16.42 | 28.53 | 21.05 |
ZhuLab | 35.09 | 51.41 | 41.15 |
Umass | 31.33 | 47.98 | 37.80 |
Yoon | 38.69 | 55.73 | 45.66 |
Jeong | 38.19 | 57.19 | 45.93 |
Xu | 39.37 | 60.98 | 46.88 |
Peng-single | 38.80 | 59.34 | 46.74 |
Peng-ensemble | 39.39 | 59.04 | 47.34 |
本发明KDQA-BioBERT | 43.43 | 61.48 | 49.97 |
本发明公开了一种增强问答交互信息的自动问答系统答案抽取方法,能够基于问答掩码多头自注意力机制准确提取问答交互信息,因此问答交互信息提取网络可以作为一个知识源,将学习捕捉到的问答交互信息蒸馏至抽取式问答网络从而达到增强的目的。
由于在本发明中问答交互信息提取网络相比于抽取式问答网络有一个额外的问答掩码多头自注意力机制,且该模块依赖于答案的位置信息,是抽取式问答网络在推理阶段得不到的,因此现有的模型参数复用方法不适用于本发明。本发明使用知识蒸馏方法使得目标模型学习源模型的输出或中间特征,从而达到知识迁移的目的,令抽取式问答网络去模仿问答交互信息提取网络的答案预测概率,从而学习到问答交互信息,有效提升抽取式问答的准确性。
实施例二
如图3所示,本发明实施例提供了一种增强问答交互信息的自动问答系统答案抽取系统,包括下述模块:
获取输入文本序列模块41,用于构建问答交互信息提取网络和抽取式问答网络的输入文本序列;
构建及训练问答交互信息提取网络模块42,用于构建问答交互信息提取网络及其损失函数并进行训练;其中,问答交互信息提取网络包括:文本编码器用于提取输入文本序列中各单词的上下文特征;问答掩码多头自注意力机制用于在单词的上下文特征基础上进一步提取问答交互特征;分类层在问答交互特征基础上预测每个单词在答案的起始和结束位置上的概率;
构建及训练抽取式问答网络模块43,用于构建抽取式问答网络及其损失函数并进行训练;其中,抽取式问答网络包括:文本编码器用于提取输入文本序列中各单词的上下文特征;分类层在上下文特征基础上预测每个单词在答案的起始和结束位置上的概率;并通过知识蒸馏方式将问答交互提取网络提取到的问答交互特征蒸馏至抽取式问答网络中,以此构建抽取式问答网络损失函数。
提供以上实施例仅仅是为了描述本发明的目的,而并非要限制本发明的范围。本发明的范围由所附权利要求限定。不脱离本发明的精神和原理而做出的各种等同替换和修改,均应涵盖在本发明的范围之内。
Claims (9)
1.一种增强问答交互信息的自动问答系统答案抽取方法,其特征在于,包括:
步骤S1:构建问答交互信息提取网络和抽取式问答网络的输入文本序列;
步骤S2:构建问答交互信息提取网络及其损失函数并进行训练;其中,所述问答交互信息提取网络包括:文本编码器用于提取所述输入文本序列中各单词的上下文特征;问答掩码多头自注意力机制用于在所述单词的上下文特征基础上进一步提取问答交互特征;分类层在所述问答交互特征基础上预测每个单词在答案的起始和结束位置上的概率;
步骤S3:构建抽取式问答网络及其损失函数并进行训练;其中,所述抽取式问答网络包括:文本编码器用于提取输入文本序列中各单词的上下文特征;分类层在所述上下文特征基础上预测每个单词在答案的起始和结束位置上的概率;并通过知识蒸馏方式将所述问答交互提取网络提取到的问答交互特征蒸馏至所述抽取式问答网络中,以此构建所述抽取式问答网络损失函数。
2.根据权利要求1所述的增强问答交互信息的自动问答系统答案抽取方法,其特征在于,所述步骤S1:构建问答交互信息提取网络和抽取式问答网络的输入文本序列,具体包括:
步骤S11:给定用户提出的问题和问题相关段落,其中,所述问题的答案是所述问题相关段落中的一个片段;
步骤S12:将所述问题和所述问题相关段落转换为Unicode编码,对其进行分词处理,得到所述问题的分词结果和所述问题相关段落的分词结果 其中,和分别是所述问题和所述问题相关段落中的第i个单词,m和n分别是所述问题和所述问题相关段落的文本长度,为所述问题相关段落中的答案片段,ls和le分别是答案在所述问题相关段落中的起始位置和结束位置;
步骤S13:将所述问题和所述问题相关段落与分隔字符[CLS]与[SEP]拼接起来得到输入文本序列T:
3.根据权利要求1所述的增强问答交互信息的自动问答系统答案抽取方法,其特征在于,所述步骤S2:构建问答交互信息提取网络及其损失函数并进行训练;其中,所述问答交互信息提取网络包括:文本编码器用于提取所述输入文本序列中各单词的上下文特征;问答掩码多头自注意力机制用于在所述单词的上下文特征基础上进一步提取问答交互特征;分类层在所述问答交互特征基础上预测每个单词在答案的起始和结束位置上的概率,具体包括:
步骤S21:使用所述文本编码器提取所述问答交互信息提取网络的输入文本序列中各单词的上下文特征;
步骤S22:使用所述问答掩码多头自注意力机制在所述上下文特征基础上进一步提取问答交互特征;
步骤S23:使用所述分类层在所述问答交互特征基础上预测每个单词在答案的起始和结束位置上的概率;
步骤S24:构建所述问答交互提取网络的损失函数并进行训练。
4.根据权利要求3所述的增强问答交互信息的自动问答系统答案抽取方法,其特征在于,所述步骤S21:使用所述文本编码器提取所述问答交互信息提取网络的输入文本序列中各单词的上下文特征,具体包括:
步骤S211:将所述输入文本序列T转换为单词的token_id序列,将所述问题和所述问题相关段落的token_type_id序列分别设置成0和1,为所述输入文本序列T设置相应长度的位置编码position_id;
步骤S212:将所述token_id序列、token_type_id序列以及所述位置编码position_id输入所述文本编码器提取得到各个单词的上下文特征向量矩阵:
5.根据权利要求3所述的增强问答交互信息的自动问答系统答案抽取方法,其特征在于,所述步骤S22:使用所述问答掩码多头自注意力机制在所述上下文特征基础上进一步提取问答交互特征,具体包括:
步骤S221:基于R构建问题与答案的单词上下文特征向量矩阵Rqa:
步骤S222:在自注意力层中,第i个头特征向量的计算公式为:
步骤S223:将各个所述头特征向量拼接起来,并通过一个线性映射整合各个所述头特征向量,然后通过层标准化和残差连接分别用于稳定数值范围和梯度的传播,得到整合后的问答交互特征向量矩阵R′qa:
R′qa=Rqa+LayerNorm([head1;...;headu]Wo)
步骤S224:使用全连接层进一步提炼所述问答交互特征向量矩阵R′qa,得到提炼后的问答交互特征向量矩阵R″qa:
R″qa=LayerNorm(R′qa+FFN(R′qa))
其中,FFN为全连接层;
步骤S225:将R″qa与对应的所述上下文特征向量矩阵R进行替换,得到预测答案位置的特征向量矩阵R″:
R″=(R-Rqa)∪R″qa
8.根据权利要求1所述的增强问答交互信息的自动问答系统答案抽取方法,其特征在于,所述步骤S3:构建抽取式问答网络及其损失函数并进行训练;其中,所述抽取式问答网络包括:文本编码器用于提取输入文本序列中各单词的上下文特征;分类层在所述上下文特征基础上预测每个单词在答案的起始和结束位置上的概率,具体包括:
步骤S31:使用所述文本编码器提取输入文本序列中各单词的上下文特征;
步骤S32:使用所述分类层在所述上下文特征矩阵H的基础上预测每个单词在答案的起始位置上的概率Ss和结束位置上的概率Es:
Ss=softmax(HWs s)
Es=softmax(HWe s)
其中,代表基于所述问答交互信息提取网络中答案起始位置的概率St得到答案起始位置预测概率分布,代表基于所述抽取式问答网络中答案的起始位置的概率Ss得到的答案起始位置预测概率分布,代表基于所述问答交互信息提取网络中答案结束位置的概率Et得到的答案结束位置预测概率分布,代表基于所述抽取式问答网络中答案结束位置的概率Es得到的答案结束位置预测概率分布,KLD(A||B)代表分布A和分布B之间的KL散度;
其中,α为调节不同损失比重的超参数。
9.一种增强问答交互信息的自动问答系统答案抽取系统,其特征在于,包括下述模块:
获取输入文本序列模块,用于构建问答交互信息提取网络和抽取式问答网络的输入文本序列;
构建及训练问答交互信息提取网络模块,用于构建问答交互信息提取网络及其损失函数并进行训练;其中,所述问答交互信息提取网络包括:文本编码器用于提取所述输入文本序列中各单词的上下文特征;问答掩码多头自注意力机制用于在所述单词的上下文特征基础上进一步提取问答交互特征;分类层在所述问答交互特征基础上预测每个单词在答案的起始和结束位置上的概率;
构建及训练抽取式问答网络模块,用于构建抽取式问答网络及其损失函数并进行训练;其中,所述抽取式问答网络包括:文本编码器用于提取输入文本序列中各单词的上下文特征;分类层在所述上下文特征基础上预测每个单词在答案的起始和结束位置上的概率;并通过知识蒸馏方式将所述问答交互提取网络提取到的问答交互特征蒸馏至所述抽取式问答网络中,以此构建所述抽取式问答网络损失函数。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210110173.3A CN114511084A (zh) | 2022-01-29 | 2022-01-29 | 增强问答交互信息的自动问答系统答案抽取方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210110173.3A CN114511084A (zh) | 2022-01-29 | 2022-01-29 | 增强问答交互信息的自动问答系统答案抽取方法及系统 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN114511084A true CN114511084A (zh) | 2022-05-17 |
Family
ID=81551750
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210110173.3A Pending CN114511084A (zh) | 2022-01-29 | 2022-01-29 | 增强问答交互信息的自动问答系统答案抽取方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114511084A (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117236314A (zh) * | 2023-11-06 | 2023-12-15 | 杭州同花顺数据开发有限公司 | 支持超长答案的信息抽取方法、系统、装置和存储介质 |
CN117668198A (zh) * | 2023-12-15 | 2024-03-08 | 暗物质(北京)智能科技有限公司 | 一种问答处理方法、装置、电子设备及存储介质 |
-
2022
- 2022-01-29 CN CN202210110173.3A patent/CN114511084A/zh active Pending
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117236314A (zh) * | 2023-11-06 | 2023-12-15 | 杭州同花顺数据开发有限公司 | 支持超长答案的信息抽取方法、系统、装置和存储介质 |
CN117236314B (zh) * | 2023-11-06 | 2024-03-01 | 杭州同花顺数据开发有限公司 | 支持超长答案的信息抽取方法、系统、装置和存储介质 |
CN117668198A (zh) * | 2023-12-15 | 2024-03-08 | 暗物质(北京)智能科技有限公司 | 一种问答处理方法、装置、电子设备及存储介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110750959B (zh) | 文本信息处理的方法、模型训练的方法以及相关装置 | |
CN110825875B (zh) | 文本实体类型识别方法、装置、电子设备和存储介质 | |
CN110795543A (zh) | 基于深度学习的非结构化数据抽取方法、装置及存储介质 | |
CN113672708B (zh) | 语言模型训练方法、问答对生成方法、装置及设备 | |
CN113157885B (zh) | 一种面向人工智能领域知识的高效智能问答系统 | |
CN110390049B (zh) | 一种面向软件开发问题的答案自动生成方法 | |
CN111831789A (zh) | 一种基于多层语义特征提取结构的问答文本匹配方法 | |
CN112100332A (zh) | 词嵌入表示学习方法及装置、文本召回方法及装置 | |
CN110765254A (zh) | 一种融合多视角答案重排序的多文档问答系统模型 | |
CN114511084A (zh) | 增强问答交互信息的自动问答系统答案抽取方法及系统 | |
CN113962219A (zh) | 面向电力变压器知识检索和问答的语义匹配方法及系统 | |
CN118093834B (zh) | 一种基于aigc大模型的语言处理问答系统及方法 | |
CN114385803B (zh) | 一种基于外部知识和片段选择的抽取式阅读理解方法 | |
CN112349294B (zh) | 语音处理方法及装置、计算机可读介质、电子设备 | |
CN115858750A (zh) | 基于自然语言处理的电网技术标准智能问答方法及系统 | |
CN113012822A (zh) | 一种基于生成式对话技术的医疗问答系统 | |
CN116561274A (zh) | 一种基于数字人技术与自然语言大模型的知识问答方法 | |
CN115952263A (zh) | 一种融合机器阅读理解的问答方法 | |
CN111666374A (zh) | 一种在深度语言模型中融入额外知识信息的方法 | |
CN115062123A (zh) | 一种对话生成系统的知识库问答对生成方法 | |
CN117972049A (zh) | 一种基于大语言模型的医疗器械申报材料生成方法及系统 | |
CN117828024A (zh) | 一种插件检索方法、装置、存储介质及设备 | |
CN116737876A (zh) | 辅助科普志愿服务的教育装置 | |
CN113590745B (zh) | 一种可解释的文本推断方法 | |
CN115964486A (zh) | 一种基于数据增强的小样本意图识别方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |