CN112966499A - 一种基于自适应融合多注意力网络的问题和答案匹配方法 - Google Patents

一种基于自适应融合多注意力网络的问题和答案匹配方法 Download PDF

Info

Publication number
CN112966499A
CN112966499A CN202110287825.6A CN202110287825A CN112966499A CN 112966499 A CN112966499 A CN 112966499A CN 202110287825 A CN202110287825 A CN 202110287825A CN 112966499 A CN112966499 A CN 112966499A
Authority
CN
China
Prior art keywords
question
answer
vector
attention
word
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202110287825.6A
Other languages
English (en)
Inventor
杨猛
梁伟日
谷雨
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sun Yat Sen University
Original Assignee
Sun Yat Sen University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sun Yat Sen University filed Critical Sun Yat Sen University
Priority to CN202110287825.6A priority Critical patent/CN112966499A/zh
Publication of CN112966499A publication Critical patent/CN112966499A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/22Matching criteria, e.g. proximity measures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/25Fusion techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/049Temporal neural networks, e.g. delay elements, oscillating neurons or pulsed inputs
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Artificial Intelligence (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Evolutionary Computation (AREA)
  • Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Computing Systems (AREA)
  • Molecular Biology (AREA)
  • Biophysics (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Biomedical Technology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明提供一种基于自适应融合多注意力网络的问题和答案匹配方法,包括以下步骤:S1:分别将问题和答案里的每个单词都转化为词向量,并对词向量进行编码,得到词向量序列;S2:使用多个自注意网络提取一个问题中不同方面的信息,并分别编码为不同的问题向量;S3:为每个问题向量生成对应的答案向量;S4:计算出匹配度得分,并自适应地融合多个方面信息的匹配度得分,根据融合后的匹配度得分进行问题和答案的匹配。本发明提供一种基于自适应融合多注意力网络的问题和答案匹配方法,解决了目前使用多个自注意力网络的模型是通过多轮处理增强对问题和答案的理解,而不是获得问题和答案的多角度、多方面的信息的问题。

Description

一种基于自适应融合多注意力网络的问题和答案匹配方法
技术领域
本发明涉及自然语言处理技术领域,更具体的,涉及一种基于自适应融合多注意力网络的问题和答案匹配方法。
背景技术
深度学习具有很强的函数拟合能力,利用深度学习进行答案选择任务,具有运行速度快便于计算,优于传统效果等优点。通过精心设计网络结构,模拟人在进行答案选择时的思维过程,预期应该可以得到很好的效果。从前人的研究中,我们得知问题表征的学习在答案选择中有着非常重要的作用。一个好的答案选择模型,应该要能生成高质量的问题向量和答案向量,并且全面的捕捉问题与答案中的交互关系。实际上很难让一个简单的自注意力网络能够对所有问题都收集到有用的信息,因为一个双层前向网络的拟合能力有限。另外由于其时序特性,训练起来也比一般的全连接网络更困难。显然难以具备对所有问题都适用的收集信息的能力。一个方法是使用多个自注意力网络,然后强迫每个自注意力网络各自关注句子中的不同部分。它在训练时引入一个惩罚项,使得不同的自注意力网络产生的权值越相似,这个额外的惩罚损失就越大,从而达到强迫关注不同部分的目的。但是,目前使用多个自注意力网络的模型是通过多轮处理进行的,每轮处理之间存在依赖关系,所以更多的是应该将其理解为通过多轮处理增强对问题和答案的理解,而不是获得问题和答案的多角度、多方面的信息。
现有技术中,如2018-11-23公开的中国专利,基于交叉注意力神经网络的答案选择方法、装置和电子设备,公开号为CN108875074A,通过注意力机制利用不同候选答案之间的相互信息进行交叉评分以确定问题数据和答案数据之间的相关性,从而提升答案选择的准确性,但没有获得问题和答案的多角度、多方面的信息。
发明内容
本发明为克服目前使用多个自注意力网络的模型是通过多轮处理增强对问题和答案的理解,而不是获得问题和答案的多角度、多方面的信息的技术缺陷,提供一种基于自适应融合多注意力网络的问题和答案匹配方法。
为解决上述技术问题,本发明的技术方案如下:
一种基于自适应融合多注意力网络的问题和答案匹配方法,包括以下步骤:
S1:分别将问题和答案里的每个单词都转化为词向量,并对问题和答案中的词向量进行编码,得到问题和答案的词向量序列;
S2:根据词向量序列使用多个自注意网络提取一个问题中不同方面的信息,并分别编码为不同的问题向量;
S3:使用序列注意力网络为每个问题向量生成对应的答案向量;
S4:计算出每个问题向量及其对应的答案向量的匹配度得分,并通过评估出一个问题中每个问题向量的权重以自适应地融合多个方面信息的匹配度得分,根据融合后的匹配度得分进行问题和答案的匹配。
优选的,在步骤S1中,采用双向LSTM分别对问题和答案中的词向量进行编码。
优选的,给定包含l个单词的句子S=(w1,w2,...,wl),利用双向LSTM编码词向量,获取对应的隐藏层:
Figure BDA0002981209810000021
Figure BDA0002981209810000022
Figure BDA0002981209810000023
当给定的句子S为问题时,则得到问题中每个词向量的隐藏层向量序列Hq={hq(1),...,hq(l)},将Hq={hq(1),...,hq(l)}作为问题的词向量序列;
当给定的句子S为答案时,则得到答案中每个词向量的隐藏层向量序列Ha={ha(1),...,ha(l)},将Ha={ha(1),...,ha(l)}作为答案的词向量序列;
其中,w1,w2,...,wl分别为句子S中的l个单词,
Figure BDA0002981209810000024
为前向LSTM的在t时刻的隐层状态,
Figure BDA0002981209810000025
表示前向LSTM的编码过程,
Figure BDA0002981209810000026
为前向LSTM的在t-1时刻的隐层状态,wt是t时刻输入LSTM进行编码的的单词向量,
Figure BDA0002981209810000027
为后向LSTM的在t时刻的隐层状态,
Figure BDA0002981209810000028
表示后向LSTM编码的编码过程,
Figure BDA0002981209810000029
为后向LSTM的在t-1时刻的状态,ht是双向LSTM的最终编码结果,hq(1),...,hq(l)分别为问题中的l个词向量,ha(1),...,ha(l)分别为答案中的l个词向量。
优选的,在步骤S2中,第k个自注意力网络通过以下公式计算得到问题向量
Figure BDA00029812098100000210
且每个不同的问题向量都提取了问题不同方面的信息:
Figure BDA0002981209810000031
Figure BDA0002981209810000032
Figure BDA0002981209810000033
其中,
Figure BDA0002981209810000034
为第k个自注意力网络从原始的问题向量hq(t)中提取得到的注意力向量,
Figure BDA0002981209810000035
Figure BDA0002981209810000036
均为第k个自注意网络的参数,
Figure BDA0002981209810000037
为词向量的权重。
优选的,步骤S3包括以下步骤:
S3.1:获取答案中每个词向量的隐藏层向量序列Ha={ha(1),...,ha(l)};
S3.2:对于第k个问题向量
Figure BDA0002981209810000038
通过将同一个序列注意力模型应用到Ha上,生成对应的第k个答案词向量的权重
Figure BDA0002981209810000039
S3.3:计算Ha的加权和作为第k个答案向量
Figure BDA00029812098100000310
优选的,在序列注意力模型中,使用LSTM计算每个答案词向量的权重。
优选的,将LSTM的输入定义为:
Figure BDA00029812098100000311
将向量
Figure BDA00029812098100000312
输入到一个双向LSTM中,获取对应的隐藏层
Figure BDA00029812098100000313
Figure BDA00029812098100000314
之后把隐藏层
Figure BDA00029812098100000315
的各个维度相加,获取权重分数;然后获取答案词向量的权重
Figure BDA00029812098100000316
Figure BDA00029812098100000317
最后,通过计算答案隐藏层的加权和,获取答案向量
Figure BDA00029812098100000318
Figure BDA00029812098100000319
优选的,在步骤S4中,通过余弦相似度计算出每个问题向量及其对应的答案向量的匹配度得分。
优选的,通过采用多层感知机网络评估出一个问题中每个问题向量的权重。
优选的,通过以下公式自适应地融合多个方面信息的匹配度得分:
Figure BDA00029812098100000320
Figure BDA0002981209810000041
Figure BDA0002981209810000042
其中,q表示问题,a表示答案,K为问题向量的总数,αk为第k个问题向量的权重,
Figure BDA0002981209810000043
为第k个问题向量,
Figure BDA0002981209810000044
为第k个答案向量,Ws1
Figure BDA0002981209810000045
均为可训练的网络参数,sk为对第k个问题向量通过自注意力得到的注意力向量。
与现有技术相比,本发明技术方案的有益效果是:
本发明提供了一种基于自适应融合多注意力网络的问题和答案匹配方法,利用多个自注意力网络专注不同的方向,以此多角度、多方面地抽取问题和答案的信息,并对抽取到的信息进行自适应地融合,极大地提升了网络性能。
附图说明
图1为本发明的技术方案实施步骤流程图;
图2为本发明的技术方案实施框架示意图。
具体实施方式
附图仅用于示例性说明,不能理解为对本专利的限制;
为了更好说明本实施例,附图某些部件会有省略、放大或缩小,并不代表实际产品的尺寸;
对于本领域技术人员来说,附图中某些公知结构及其说明可能省略是可以理解的。
下面结合附图和实施例对本发明的技术方案做进一步的说明。
实施例1
如图1所示,一种基于自适应融合多注意力网络的问题和答案匹配方法,包括以下步骤:
S1:分别将问题和答案里的每个单词都转化为词向量,并对问题和答案中的词向量进行编码,得到问题和答案的词向量序列;
S2:根据词向量序列使用多个自注意网络提取一个问题中不同方面的信息,并分别编码为不同的问题向量;其中,一个自注意网络提取一个问题中一个方面的信息,对应得到一个问题向量;
S3:使用序列注意力网络为每个问题向量生成对应的答案向量;
S4:计算出每个问题向量及其对应的答案向量的匹配度得分,并通过评估出一个问题中每个问题向量的权重以自适应地融合多个方面信息的匹配度得分,根据融合后的匹配度得分进行问题和答案的匹配。
实施例2
更具体的,如图2所示,在步骤S1中,采用双向LSTM分别对问题和答案中的词向量进行编码,以此获得了包含了上下文信息的词向量表征。
更具体的,给定包含l个单词的句子S=(w1,w2,...,wl),利用双向LSTM编码词向量,获取对应的隐藏层:
Figure BDA0002981209810000051
Figure BDA0002981209810000052
Figure BDA0002981209810000053
当给定的句子S为问题时,则得到问题中每个词向量的隐藏层向量序列Hq={hq(1),...,hq(l)},将Hq={hq(1),...,hq(l)}作为问题的词向量序列;
当给定的句子S为答案时,则得到答案中每个词向量的隐藏层向量序列Ha={ha(1),...,ha(l)},将Ha={ha(1),...,ha(l)}作为答案的词向量序列;
其中,w1,w2,...,wl分别为句子S中的l个单词,
Figure BDA0002981209810000054
为前向LSTM的在t时刻的隐层状态,
Figure BDA0002981209810000055
表示前向LSTM的编码过程,
Figure BDA0002981209810000056
为前向LSTM的在t-1时刻的隐层状态,wt是t时刻输入LSTM进行编码的的单词向量,
Figure BDA0002981209810000057
为后向LSTM的在t时刻的隐层状态,
Figure BDA0002981209810000058
表示后向LSTM编码的编码过程,
Figure BDA0002981209810000059
为后向LSTM的在t-1时刻的状态,ht是双向LSTM的最终编码结果,hq(1),...,hq(l)分别为问题中的l个词向量,ha(1),...,ha(l)分别为答案中的l个词向量。
更具体的,在步骤S2中,第k个自注意力网络通过以下公式计算得到问题向量
Figure BDA00029812098100000510
且每个不同的问题向量都提取了问题不同方面的信息:
Figure BDA00029812098100000511
Figure BDA00029812098100000512
Figure BDA00029812098100000513
其中,
Figure BDA00029812098100000514
为第k个自注意力网络从原始的问题向量hq(t)中提取得到的注意力向量,hq(t)得自于双向LSTM最终隐状态,
Figure BDA00029812098100000515
Figure BDA00029812098100000516
均为第k个自注意网络的参数,
Figure BDA00029812098100000517
为词向量的权重。
更具体的,步骤S3包括以下步骤:
S3.1:获取答案中每个词向量的隐藏层向量序列Ha={ha(1),...,ha(l)};
S3.2:对于第k个问题向量
Figure BDA0002981209810000061
通过将同一个序列注意力模型应用到Ha上,生成对应的第k个答案词向量的权重
Figure BDA0002981209810000062
S3.3:计算Ha的加权和作为第k个答案向量
Figure BDA0002981209810000063
更具体的,在序列注意力模型中,使用LSTM计算每个答案词向量的权重。
在具体实施过程中,使用LSTM去计算每个答案词向量的权重,而非一般注意力模型里那样使用感知机或者双线性乘积。通过这种方式,在计算权重时能引入上下文信息。
更具体的,将LSTM的输入定义为:
Figure BDA0002981209810000064
不同于序列注意力网络的原本设置,此处拼接了
Figure BDA0002981209810000065
和ha(t)的元素乘法和欧几里得距离作为输入;元素乘法的意义,在于获取
Figure BDA0002981209810000066
和每个词的隐藏层ha(t)中各个维度的相似性;欧几里得距离的意义,则在于获取各个维度之间的差异性;从而能够得到意义更准确的序列注意力,提高筛选的精确性;
将向量
Figure BDA0002981209810000067
输入到一个双向LSTM中,获取对应的隐藏层
Figure BDA0002981209810000068
Figure BDA0002981209810000069
之后把隐藏层
Figure BDA00029812098100000610
的各个维度相加,获取权重分数;然后获取答案词向量的权重
Figure BDA00029812098100000611
Figure BDA00029812098100000612
最后,通过计算答案隐藏层的加权和,获取答案向量
Figure BDA00029812098100000613
Figure BDA00029812098100000614
更具体的,在步骤S4中,通过余弦相似度计算出每个问题向量及其对应的答案向量的匹配度得分。
更具体的,通过采用多层感知机网络评估出一个问题中每个问题向量的权重。
更具体的,通过以下公式自适应地融合多个方面信息的匹配度得分:
Figure BDA00029812098100000615
Figure BDA00029812098100000616
Figure BDA0002981209810000071
其中,q表示问题,a表示答案,K为问题向量的总数,αk为第k个问题向量的权重,
Figure BDA0002981209810000072
为第k个问题向量,
Figure BDA0002981209810000073
为第k个答案向量,Ws1
Figure BDA0002981209810000074
均为可训练的网络参数,sk为对第k个问题向量通过自注意力得到的注意力向量。
在具体实施过程中,尽管让问题生成了k个问题向量,但实际上并不是所有问题向量都是有意义的,因为问题一般不会有那么多方面的信息。因此,当个一个问题向量确实提取了有意义的信息时,需要给这个问题向量的匹配分赋高权重。当它没有提取到信息时,需要给它低权重。
实施例3
在本实施例中,选用三个被多篇论文所引用的公开数据集作为评估数据集,进行所述的一种基于自适应融合多注意力网络的问题和答案匹配方法的实证研究。
表1是三个公开数据集的情况。
表1
数据集 TrecQA WikiQA InsuranceQA
训练/验证/测试问题数 1162/65/68 873/126/243 12887/1000/1800x2
平均问题长度 8 6 7
平均答案长度 28 25 95
平均候选答案数目 38 9 500
为了与过去的研究进行公平对比,本实施例在同一数据集上沿用了前人的评价标准。在TrecQA和WikiQA上,本实施例采用了MeanAveragePrecision(MAP)和MeanReciprocalRank(MRR)去评价模型的表现。另一方面,InsuranceQA沿用前人用的top1正确率,它要求正确答案必须排在第一名。对所有对比的模型,本实施例报告它们原论文里的正确率。
所述的一种基于自适应融合多注意力网络(Adaptive Fusion Of MultipleSelf-Attention Network,简称AFMAN)的问题和答案匹配方法使用pytorch框架实现,使用一个840B文本预训练的300维Glove作为词向量。词向量在训练过程中固定不变。对问题和答案进行编码的双向LSTM共享参数。编码句子和做序列注意力的LSTM都由一层构成。为了防止过拟合,本实施例采用了p=0.3的dropout层,设置在LSTM的输入之前。在训练的过程中,本实施例计算了每个问题负样本和正样本的marginloss(margin=0.1)。为了进一步提升效果,本实施例对每个问题计算多个负样本的loss,但仅取loss最大的负样本进行优化。另外,还采用了平均词向量作为额外的问题向量,从而提升性能。对所有的数据集,本实施例都选择了Adam优化器。在训练过程中,本实施例在验证集上调参,并使用验证集上效果最好的模型在测试集上观察效果。
对于TrecQA数据集,将批量大小设置为100,并将负责编码句子的LSTM隐藏层设置为141。此外,在自注意力网络和序列注意力网络中,隐藏层设置为282。在这个数据集中,将自注意力网络的个数K设置为5,并在训练集上迭代训练20次。而在训练InsuranceQA数据集上,采用了类似与TrecQA的参数设置,除了将训练迭代次数设置为50(因为数据集要更大)。WikiQA是本实施例中测试的数据集中最小的一个。因此,本实施例把LSTM的隐藏层设置为96,注意力网络的隐藏层设置为144。另外,由于在wikiQA中更多的自注意力网络对性能没有帮助,故把K设置为1以加快运算速度。在训练时,把批量大小设置为50并迭代训练20次。
表2是在TrecQA数据集上的实验结果。
表2
模型 MAP MRR
QA-LSTM 0.682 0.765
QA-LSTM/CNN with 0.728 0.824
AP-BILSTM 0.713 0.803
AP-CNN 0.753 0.851
IARNN-Gate 0.737 0.821
RNN-POA 0.781 0.851
BiMPM 0.802 0.875
Multihop Attention Networks 0.813 0.893
AFMAN 0.827 0.902
在TrecQA数据集上的正确率如表2所示,本实施例中的AFMAN不仅大幅地超越了经典的QA-LSTM模型,同时也比近期提出的注意力模型要更好。与使用了两路注意力机制的AP-CNN相比,AFMAN所用的注意力方式被实验证实是更优越的方案,分别在MAP和MRR上超越了AP-CNN模型7.4%和5.1%。它也比基于位置注意力的RNN在MAP/MRR上提升约5%。而且,AFMAN比最新提出的BiMPM和多跳注意力网络表现得更加优秀,获得了TrecQA上的先进表现。
表3是在InsuranceQA数据集上的实验结果。
表3
模型 MAP MRR
QA-LSTM 0.631 0.580
QA-LSTMwith attention 0.681 0.622
AP-CNN 0.698 0.663
AP-BILSTM 0.717 0.664
IARNN-Gate 0.701 0.628
Multihop Attention Networks 0.705 0.669
AFMAN 0.738 0.694
可以从表1看出,insuranceQA是更大规模的数据集,不仅问题数量更大,而且答案的平均长度也比TrecQA和WikiQA要长得多。这意味着答案里可能含有更多方面的信息(包括更多的冗余信息),问题和答案的联系也会更加复杂,对答案选择任务而言更具有挑战性。在表3,AFMAN大幅超越了所有其他对比方法,意味着AFMAN在解决复杂答案选择任务上的优越性能。
表4是在WikiQA数据集上的实验结果。
表4
Figure BDA0002981209810000091
Figure BDA0002981209810000101
表4报告了在WikiQA数据集上的实验结果。首先,本实施例中的AFMAN比起AP-CNN超出了约4%性能。另外,IARNN获得了最好的MAP结果,稍微超过了AFMAN。与最近BiMPM和MAN相比,AFMAN在MAP和MRR上约有1-2%的提升。AFMAN在WikiQA上取得的提升不如在InsuranceQA与TrecQA上明显,其归因于WikiQA的规模要远小于另外两个数据集,因此模型复杂度较高的AFMAN缺乏足够的训练数据进行拟合。总体来说,AFMAN在WikiQA数据集上也获得了较好的性能表现。
显然,本发明的上述实施例仅仅是为清楚地说明本发明所作的举例,而并非是对本发明的实施方式的限定。对于所属领域的普通技术人员来说,在上述说明的基础上还可以做出其它不同形式的变化或变动。这里无需也无法对所有的实施方式予以穷举。凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明权利要求的保护范围之内。

Claims (10)

1.一种基于自适应融合多注意力网络的问题和答案匹配方法,其特征在于,包括以下步骤:
S1:分别将问题和答案里的每个单词都转化为词向量,并对问题和答案中的词向量进行编码,得到问题和答案的词向量序列;
S2:根据词向量序列使用多个自注意网络提取一个问题中不同方面的信息,并分别编码为不同的问题向量;
S3:使用序列注意力网络为每个问题向量生成对应的答案向量;
S4:计算出每个问题向量及其对应的答案向量的匹配度得分,并通过评估出一个问题中每个问题向量的权重以自适应地融合多个方面信息的匹配度得分,根据融合后的匹配度得分进行问题和答案的匹配。
2.根据权利要求1所述的一种基于自适应融合多注意力网络的问题和答案匹配方法,其特征在于,在步骤S1中,采用双向LSTM分别对问题和答案中的词向量进行编码。
3.根据权利要求2所述的一种基于自适应融合多注意力网络的问题和答案匹配方法,其特征在于,给定包含l个单词的句子S=(w1,w2,...,wl),利用双向LSTM编码词向量,获取对应的隐藏层:
Figure FDA0002981209800000011
Figure FDA0002981209800000012
Figure FDA0002981209800000013
当给定的句子S为问题时,则得到问题中每个词向量的隐藏层向量序列Hq={hq(1),...,hq(l)},将Hq={hq(1),...,hq(l)}作为问题的词向量序列;
当给定的句子S为答案时,则得到答案中每个词向量的隐藏层向量序列Ha={ha(1),...,ha(l)},将Ha={ha(1),...,ha(l)}作为答案的词向量序列;
其中,w1,w2,...,wl分别为句子S中的l个单词,
Figure FDA0002981209800000014
为前向LSTM的在t时刻的隐层状态,
Figure FDA0002981209800000015
表示前向LSTM的编码过程,
Figure FDA0002981209800000016
为前向LSTM的在t-1时刻的隐层状态,wt是t时刻输入LSTM进行编码的的单词向量,
Figure FDA0002981209800000017
为后向LSTM的在t时刻的隐层状态,
Figure FDA0002981209800000018
表示后向LSTM编码的编码过程,
Figure FDA0002981209800000019
为后向LSTM的在t-1时刻的状态,ht是双向LSTM的最终编码结果,hq(1),...,hq(l)分别为问题中的l个词向量,ha(1),...,ha(l)分别为答案中的l个词向量。
4.根据权利要求3所述的一种基于自适应融合多注意力网络的问题和答案匹配方法,其特征在于,在步骤S2中,第k个自注意力网络通过以下公式计算得到问题向量
Figure FDA0002981209800000021
且每个不同的问题向量都提取了问题不同方面的信息:
Figure FDA0002981209800000022
Figure FDA0002981209800000023
Figure FDA0002981209800000024
其中,
Figure FDA0002981209800000025
为第k个自注意力网络从原始的问题向量hq(t)中提取得到的注意力向量,
Figure FDA0002981209800000026
Figure FDA0002981209800000027
均为第k个自注意网络的参数,
Figure FDA0002981209800000028
为词向量的权重。
5.根据权利要求1所述的一种基于自适应融合多注意力网络的问题和答案匹配方法,其特征在于,步骤S3包括以下步骤:
S3.1:获取答案中每个词向量的隐藏层向量序列Ha={ha(1),...,ha(l)};
S3.2:对于第k个问题向量
Figure FDA0002981209800000029
通过将同一个序列注意力模型应用到Ha上,生成对应的第k个答案词向量的权重
Figure FDA00029812098000000210
S3.3:计算Ha的加权和作为第k个答案向量
Figure FDA00029812098000000211
6.根据权利要求5所述的一种基于自适应融合多注意力网络的问题和答案匹配方法,其特征在于,在序列注意力模型中,使用LSTM计算每个答案词向量的权重。
7.根据权利要求6所述的一种基于自适应融合多注意力网络的问题和答案匹配方法,其特征在于,将LSTM的输入定义为:
Figure FDA00029812098000000212
将向量
Figure FDA00029812098000000213
输入到一个双向LSTM中,获取对应的隐藏层
Figure FDA00029812098000000214
Figure FDA00029812098000000215
之后把隐藏层
Figure FDA00029812098000000216
的各个维度相加,获取权重分数;然后获取答案词向量的权重
Figure FDA00029812098000000217
Figure FDA00029812098000000218
最后,通过计算答案隐藏层的加权和,获取答案向量
Figure FDA0002981209800000031
Figure FDA0002981209800000032
8.根据权利要求1所述的一种基于自适应融合多注意力网络的问题和答案匹配方法,其特征在于,在步骤S4中,通过余弦相似度计算出每个问题向量及其对应的答案向量的匹配度得分。
9.根据权利要求8所述的一种基于自适应融合多注意力网络的问题和答案匹配方法,其特征在于,通过采用多层感知机网络评估出一个问题中每个问题向量的权重。
10.根据权利要求9所述的一种基于自适应融合多注意力网络的问题和答案匹配方法,其特征在于,通过以下公式自适应地融合多个方面信息的匹配度得分:
Figure FDA0002981209800000033
Figure FDA0002981209800000034
Figure FDA0002981209800000035
其中,q表示问题,a表示答案,K为问题向量的总数,αk为第k个问题向量的权重,
Figure FDA0002981209800000036
为第k个问题向量,
Figure FDA0002981209800000037
为第k个答案向量,Ws1
Figure FDA0002981209800000038
均为可训练的网络参数,sk为对第k个问题向量通过自注意力得到的注意力向量。
CN202110287825.6A 2021-03-17 2021-03-17 一种基于自适应融合多注意力网络的问题和答案匹配方法 Pending CN112966499A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110287825.6A CN112966499A (zh) 2021-03-17 2021-03-17 一种基于自适应融合多注意力网络的问题和答案匹配方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110287825.6A CN112966499A (zh) 2021-03-17 2021-03-17 一种基于自适应融合多注意力网络的问题和答案匹配方法

Publications (1)

Publication Number Publication Date
CN112966499A true CN112966499A (zh) 2021-06-15

Family

ID=76279000

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110287825.6A Pending CN112966499A (zh) 2021-03-17 2021-03-17 一种基于自适应融合多注意力网络的问题和答案匹配方法

Country Status (1)

Country Link
CN (1) CN112966499A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115276784A (zh) * 2022-07-26 2022-11-01 西安电子科技大学 基于深度学习的轨道角动量模态识别方法

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109492227A (zh) * 2018-11-16 2019-03-19 大连理工大学 一种基于多头注意力机制和动态迭代的机器阅读理解方法
CN110083682A (zh) * 2019-04-19 2019-08-02 西安交通大学 一种基于多轮注意力机制的机器阅读理解答案获取方法
CN110134771A (zh) * 2019-04-09 2019-08-16 广东工业大学 一种基于多注意力机制融合网络问答系统的实现方法
KR20190101567A (ko) * 2018-02-23 2019-09-02 주식회사 마인즈랩 기계 독해에 기초한 질의 응답 장치 및 이를 이용한 질의 응답 방법
CN112183085A (zh) * 2020-09-11 2021-01-05 杭州远传新业科技有限公司 机器阅读理解方法、装置、电子设备及计算机存储介质
US20220043972A1 (en) * 2019-02-25 2022-02-10 Nippon Telegraph And Telephone Corporation Answer generating device, answer learning device, answer generating method, and answer generating program

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20190101567A (ko) * 2018-02-23 2019-09-02 주식회사 마인즈랩 기계 독해에 기초한 질의 응답 장치 및 이를 이용한 질의 응답 방법
CN109492227A (zh) * 2018-11-16 2019-03-19 大连理工大学 一种基于多头注意力机制和动态迭代的机器阅读理解方法
US20220043972A1 (en) * 2019-02-25 2022-02-10 Nippon Telegraph And Telephone Corporation Answer generating device, answer learning device, answer generating method, and answer generating program
CN110134771A (zh) * 2019-04-09 2019-08-16 广东工业大学 一种基于多注意力机制融合网络问答系统的实现方法
CN110083682A (zh) * 2019-04-19 2019-08-02 西安交通大学 一种基于多轮注意力机制的机器阅读理解答案获取方法
CN112183085A (zh) * 2020-09-11 2021-01-05 杭州远传新业科技有限公司 机器阅读理解方法、装置、电子设备及计算机存储介质

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
程淑玉;郭泽颖;刘威;印鉴;: "融合Attention多粒度句子交互自然语言推理研究", 小型微型计算机系统, no. 06 *

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115276784A (zh) * 2022-07-26 2022-11-01 西安电子科技大学 基于深度学习的轨道角动量模态识别方法
CN115276784B (zh) * 2022-07-26 2024-01-23 西安电子科技大学 基于深度学习的轨道角动量模态识别方法

Similar Documents

Publication Publication Date Title
CN108681610B (zh) 生成式多轮闲聊对话方法、系统及计算机可读存储介质
CN108875807B (zh) 一种基于多注意力多尺度的图像描述方法
CN108549658B (zh) 一种基于语法分析树上注意力机制的深度学习视频问答方法及系统
CN105868317B (zh) 一种数字教育资源推荐方法及系统
CN111274398B (zh) 一种方面级用户产品评论情感分析方法及系统
CN112733533B (zh) 一种基于bert模型及文本-图像关系传播的多模态命名实体识别方法
CN110222163A (zh) 一种融合cnn与双向lstm的智能问答方法及系统
Sadjadi et al. The 2019 NIST Audio-Visual Speaker Recognition Evaluation.
CN110033008B (zh) 一种基于模态变换与文本归纳的图像描述生成方法
CN110991290B (zh) 基于语义指导与记忆机制的视频描述方法
CN110427989B (zh) 汉字骨架自动合成方法及大规模中文字库自动生成方法
CN109885670A (zh) 一种面向话题文本的交互注意力编码情感分析方法
CN111368142B (zh) 一种基于生成对抗网络的视频密集事件描述方法
Hong et al. Sentiment analysis with deeply learned distributed representations of variable length texts
CN109242090B (zh) 一种基于gan网络的视频描述及描述一致性判别方法
CN111444367A (zh) 一种基于全局与局部注意力机制的图像标题生成方法
CN112416956B (zh) 一种基于bert和独立循环神经网络的问句分类方法
CN106682089A (zh) 一种基于RNNs的短信自动安全审核的方法
CN109977199A (zh) 一种基于注意力池化机制的阅读理解方法
CN110059220A (zh) 一种基于深度学习与贝叶斯概率矩阵分解的电影推荐方法
CN109033294A (zh) 一种融入内容信息的混合推荐方法
CN105609116A (zh) 一种语音情感维度区域的自动识别方法
Shen et al. Hierarchical Attention Based Spatial-Temporal Graph-to-Sequence Learning for Grounded Video Description.
CN106339718A (zh) 一种基于神经网络的分类方法及装置
Jo et al. Delta-training: Simple semi-supervised text classification using pretrained word embeddings

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination