CN110597947B - 一种基于全局和局部注意力交互的阅读理解系统及方法 - Google Patents

一种基于全局和局部注意力交互的阅读理解系统及方法 Download PDF

Info

Publication number
CN110597947B
CN110597947B CN201910214487.6A CN201910214487A CN110597947B CN 110597947 B CN110597947 B CN 110597947B CN 201910214487 A CN201910214487 A CN 201910214487A CN 110597947 B CN110597947 B CN 110597947B
Authority
CN
China
Prior art keywords
question
attention
word
text paragraph
text
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201910214487.6A
Other languages
English (en)
Other versions
CN110597947A (zh
Inventor
蔡晓东
侯珍珍
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Guilin University of Electronic Technology
Original Assignee
Guilin University of Electronic Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Guilin University of Electronic Technology filed Critical Guilin University of Electronic Technology
Priority to CN201910214487.6A priority Critical patent/CN110597947B/zh
Publication of CN110597947A publication Critical patent/CN110597947A/zh
Application granted granted Critical
Publication of CN110597947B publication Critical patent/CN110597947B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Abstract

本发明涉及一种基于全局和局部注意力交互的阅读理解系统及方法,其方法包括以下步骤:S1、输入文本段落C、问题Q、候选答案集A构成的三元组格式数据,对数据中的文本段落C、问题Q和候选答案集A分别进行训练得到词向量,并将词向量进行初始化,得到网络输入数据;S2、对网络输入数据中文本段落C和问题Q的词向量进行编码,在局部情况下,获得文本段落C和问题Q之间的交互信息S1;以及在全局情况下,获得问题Q对文本段落C的关注度S2;S3、将交互信息S1和关注度S2进行融合和计算,依据计算结果选择候选答案集A中概率最高的单词作为预测答案。相对现有技术,本发明能够获得问题和文档之间更多的交互信息,提高推断答案的准确性。

Description

一种基于全局和局部注意力交互的阅读理解系统及方法
技术领域
本发明涉及自然语言处理技术领域,具体而言,特别涉及一种基于全局和局部注意力交互的阅读理解系统及方法。
背景技术
相关技术中,在自然语言处理(Natural Language Processing,简称NLP)领域,阅读理解是通过对文档的阅读和理解从而推测出问题的正确答案。赋予计算机阅读文档,处理文档和理解其含义的能力是人工智能研究者的长期目标,也是自然语言处理的最终目标之一。对于机器的阅读能力,可以采用多种方式进行评估,但近年来,随着几个基准数据集的建立,许多基于神经网络的阅读理解模型被提出作为机器阅读能力的评估,其中,完形填空式阅读理解也越来越受到NLP社区的关注。
完型填空式阅读理解是文本段落中包含空白部分,问题是从文本中抽取的包含空白的部分,其任务是根据对文本的阅读和理解填写适当的词或短语在空白处。近年来,提出了各种类型的深度学习匹配模型,大多采用基于注意力机制的神经网络。但是上述这些现有技术方案推断答案的准确性低。
发明内容
本发明旨在至少在一定程度上解决现有技术中的上述技术问题之一。为此,本发明的一个目的在于提出一种能够获得问题和文档之间的交互信息,提高推断答案准确性的基于全局和局部注意力交互的阅读理解系统及方法。
本发明解决上述技术问题的技术方案如下:一种基于全局和局部注意力交互的阅读理解方法,包括以下步骤:
S1、输入文本段落C、问题Q、候选答案集A构成的三元组格式数据,对数据中的文本段落C、问题Q和候选答案集A分别进行训练得到针对文本段落C、问题Q、候选答案集A的词向量,并将词向量进行初始化,得到网络输入数据;
S2、对网络输入数据中文本段落C和问题Q的词向量进行编码,在局部情况下,获得文本段落C和问题Q之间的交互信息S1;以及在全局情况下,获得问题Q对文本段落C的关注度S2;
S3、将文本段落C和问题Q之间的交互信息S1和问题Q对文本段落C的关注度S2进行融合和计算,依据计算结果选择候选答案集A中概率最高的单词作为预测答案。
其中局部情况下,为对局部数据进行处理的情况下;
全局情况下,为对全局数据进行处理的情况下。
本发明的有益效果是:能够获得问题和文档之间更多的交互信息,提高推断答案的准确性。
在上述技术方案的基础上,本发明还可以做如下改进。
进一步,所述S1的具体步骤为:从CBT-NE数据集和CBT-CN数据集中采集数据,数据采用三元组格式,即(C,Q,A),其中C表示带有空格的文本段落,Q表示问题,A表示候选答案集;使用Word2vec模型对采集的数据进行训练得到词向量,再对词向量进行初始化,获得网络输入数据。其中CBT-NE数据集代表的是以普通名词为答案的CBT数据集;CBT-NE代表的是以命名实体为答案的CBT数据集;CBT数据集具体为机器阅读理解数据集。
进一步,所述S2的具体步骤为:采用双向GRU分别对文本段落C和问题Q的词向量进行编码,得到上下文表示数据;
利用编码器函数G和编码器函数F对上下文表示数据中文本段落C和问题Q的每个单词进行编码,在局部情况下,获得文本段落C和问题Q之间的交互信息S1;以及在全局情况下,获得问题Q对文本段落C的关注度S2。
其中编码器函数G表示编码器的函数G;其中编码器函数F表示编码器的函数F;
采用上述进一步方案的有益效果是:便于获取获取文本段落C和问题Q之间的交互信息。
进一步,所述编码器函数G用于对文本段落C和问题Q的上下文表示数据中的每个单词进行编码;
编码器函数G对文本段落C的上下文表示数据中的每个单词进行编码为:
Figure BDA0002001585620000031
编码器函数G对问题Q的上下文表示数据中的每个单词进行编码为:
Figure BDA0002001585620000032
其中,
Figure BDA0002001585620000033
和/>
Figure BDA0002001585620000034
分别表示文本段落C中的第i个单词,问题Q中的第j个单词。
采用上述进一步方案的有益效果是:便于获取获取文本段落C和问题Q之间的交互信息。
进一步,所述编码器函数F用于将问题Q转化为与Gi(C)具有相同维度的固定长度;具体为:
Figure BDA0002001585620000035
进一步,在局部情况下,文本段落C和问题Q均采用编码器函数G进行编码,得到上下文嵌入数据
Figure BDA0002001585620000036
和/>
Figure BDA0002001585620000037
在局部情况下,文本段落C和问题Q均采用编码器函数G进行编码,得到上下文嵌入数据
Figure BDA0002001585620000038
和/>
Figure BDA0002001585620000039
在获得文本段落C和问题Q的上下文嵌入数据之后,利用上下文嵌入数据
Figure BDA00020015856200000310
和/>
Figure BDA00020015856200000311
计算成对匹配矩阵M,成对匹配矩阵M表示一个文档词和一个问题词的成对匹配度;当给出文本段落C的第i个单词和问题的第j个单词时,通过第i个单词和第j个单词的点积计算成对匹配分数;
M(ij)=Gi(C)T·Gj(Q);
计算每个文本段落C和问题Q之间的每对成对匹配分数,形成成对匹配矩阵M∈R|c|*|q|,其中,第i行和第j列的值由M(ij)进行填充;
在获得成对匹配矩阵M后,应用逐列softmax函数处理成对匹配矩阵M获得每列中的概率分布,也就是在时间t的问题词的文档级关注;用α(t)表示在时间t的问题词的文档级关注,即问题Q到文本段落C的关注;
α(t)=soft max(M(1,t),…,M(i,t),…,M(m,t));
α=(α(1),…,α(i),…,α(m));
将逐行softmax函数处理成对匹配矩阵M获得查询级别的注意力;用β(t)表示时间t的文档词的问题级关注,即文本段落C到问题Q的关注;
β(t)=soft max(M(t,1),…,M(t,i),…,M(t,m));
然后平均所有β(t)得到平均查询级别的注意力β;
Figure BDA0002001585620000041
计算α和β之间的点积s1,获得文本段落C和问题Q之间的交互信息,点积s1具体为在时间t查看问题词时计算每个单独文本段落级别注意力α的加权和;s1=αTβ∈Rm×1
采用上述进一步方案的有益效果是:便于获取获取文本段落C和问题Q之间的交互信息。
进一步,在全局情况下,文本段落C采用编码器函数G进行编码,问题Q采用编码器函数F进行编码,分别得到上下文嵌入数据
Figure BDA0002001585620000042
和/>
Figure BDA0002001585620000043
然后计算文本段落C的上下文嵌入数据和问题Q的上下文嵌入数据的点积s2,作为文本段落C中每个单词的权重,作为对文本段落C的关注度;
Figure BDA0002001585620000044
采用上述进一步方案的有益效果是:便于获取对文本段落C的关注度。
进一步,所述S3的具体步骤为:
S31、将得到的点积s1和点积s2进行合并为S;S=F(s1,s2);
其中,S是对文本段落C的最终关注,F表示融合函数,对融合函数F的定义如下所示:
Figure BDA0002001585620000051
S32、将最终关注S映射到词汇空间V,利用总和关注机制对出现在文本段落C不同位置且单词相同的注意值进行汇总,得P(W|C,Q)=∑i∈I(w,c)si,w∈V;
其中I(w,c)表示单词w出现在文本段落C中的位置,作为训练目标,最大化正确答案的对数似然函数为L=∑log(p(x)),x∈A;
选择候选答案集A中概率最高的单词作为预测答案a*=arg maxcP(W/C,Q)。
采用上述进一步方案的有益效果是:通过对点积s1和点积s2进行合并,提高推断答案的准确性。
本发明解决上述技术问题的另一技术方案如下:一种基于全局和局部注意力交互的阅读理解系统,包括预处理模块、特征提取模块和预测输出模块;
所述预处理模块用于输入文本段落C、问题Q、候选答案集A构成的三元组格式数据,对数据中的文本段落C、问题Q和候选答案集A分别进行训练得到针对文本段落C、问题Q、候选答案集A的词向量,并将词向量进行初始化,得到网络输入数据;
所述特征提取模块用于对网络输入数据中文本段落C和问题Q的词向量进行编码,在局部情况下,获得文本段落C和问题Q之间的交互信息S1;以及在全局情况下,获得问题Q对文本段落C的关注度S2;
所述预测输出模块用于将文本段落C和问题Q之间的交互信息S1和问题Q对文本段落C的关注度S2进行融合和计算,依据计算结果选择候选答案集A中概率最高的单词作为预测答案。
本发明的有益效果是:能够获得问题和文档之间更多的交互信息,提高推断答案的准确性。
附图说明
图1为本发明一种基于全局和局部注意力交互的阅读理解方法的流程图;
图2为本发明一种基于全局和局部注意力交互的阅读理解方法的整体框架图;
图3为本发明一种基于全局和局部注意力交互的阅读理解系统的模块框图。
附图中,各标号所代表的部件列表如下:
1、预处理模块,2、特征提取模块,3、预测输出模块。
具体实施方式
以下结合附图对本发明的原理和特征进行描述,所举实例只用于解释本发明,并非用于限定本发明的范围。
实施例1:
如图1和图2所示,本发明涉及一种基于全局和局部注意力交互的阅读理解方法,包括以下步骤:
S1、输入文本段落C、问题Q、候选答案集A构成的三元组格式数据,对数据中的文本段落C、问题Q和候选答案集A分别进行训练得到针对文本段落C、问题Q、候选答案集A的词向量,并将词向量进行初始化,得到网络输入数据;
S2、对网络输入数据中文本段落C和问题Q的词向量进行编码,在局部情况下,获得文本段落C和问题Q之间的交互信息S1;以及在全局情况下,获得问题Q对文本段落C的关注度S2;
S3、将文本段落C和问题Q之间的交互信息S1和问题Q对文本段落C的关注度S2进行融合和计算,依据计算结果选择候选答案集A中概率最高的单词作为预测答案。
上述实施例中,所述S1的具体步骤为:从CBT-NE数据集和CBT-CN数据集中采集数据,数据采用三元组格式,即(C,Q,A),其中C表示带有空格的文本段落,Q表示问题,A表示候选答案集;使用Word2vec模型对采集的数据进行训练得到词向量,再对词向量进行初始化,获得网络输入数据。
上述实施例中,所述S2的具体步骤为:采用双向GRU分别对文本段落C和问题Q的词向量进行编码,得到上下文表示数据;
利用编码器函数G和编码器函数F对上下文表示数据中文本段落C和问题Q的每个单词进行编码,在局部情况下,获得文本段落C和问题Q之间的交互信息S1;以及在全局情况下,获得问题Q对文本段落C的关注度S2。
上述实施例中,所述编码器函数G用于对文本段落C和问题Q的上下文表示数据中的每个单词进行编码;
编码器函数G对文本段落C的上下文表示数据中的每个单词进行编码为:
Figure BDA0002001585620000071
编码器函数G对问题Q的上下文表示数据中的每个单词进行编码为:
Figure BDA0002001585620000072
其中,
Figure BDA0002001585620000073
和/>
Figure BDA0002001585620000074
分别表示文本段落C中的第i个单词,问题Q中的第j个单词。
上述实施例中,所述编码器函数F用于将问题Q转化为与Gi(C)具有相同维度的固定长度;具体为:
Figure BDA0002001585620000081
上述实施例中,在局部情况下,文本段落C和问题Q均采用编码器函数G,根据上下文编码层分别得到上下文嵌入
Figure BDA0002001585620000082
和/>
Figure BDA0002001585620000083
在获得文本段落C和问题Q的上下文嵌入数据之后,利用上下文嵌入数据
Figure BDA0002001585620000084
和/>
Figure BDA0002001585620000085
计算成对匹配矩阵M,成对匹配矩阵M表示一个文档词和一个问题词的成对匹配度;当给出文本段落C的第i个单词和问题的第j个单词时,通过第i个单词和第j个单词的点积计算成对匹配分数;
M(ij)=Gi(C)T·Gj(Q);
计算每个文本段落C和问题Q之间的每对成对匹配分数,形成成对匹配矩阵M∈R|c|*|q|,其中,第i行和第j列的值由M(ij)进行填充;
在获得成对匹配矩阵M后,应用逐列softmax函数处理成对匹配矩阵M获得每列中的概率分布,也就是在时间t的问题词的文档级关注;用α(t)表示在时间t的问题词的文档级关注,即问题Q到文本段落C的关注;
α(t)=soft max(M(1,t),…,M(i,t),…,M(m,t));
α=(α(1),…,α(i),…,α(m));
将逐行softmax函数处理成对匹配矩阵M获得查询级别的注意力;用β(t)表示时间t的文档词的问题级关注,即文本段落C到问题Q的关注;
β(t)=soft max(M(t,1),…,M(t,i),…,M(t,m));
然后平均所有β(t)得到平均查询级别的注意力β;
Figure BDA0002001585620000086
计算α和β之间的点积s1,获得文本段落C和问题Q之间的交互信息,点积s1具体为在时间t查看问题词时计算每个单独文本段落级别注意力α的加权和;s1=αTβ∈Rm×1
上述实施例中,在全局情况下,文本段落C采用编码器函数G进行编码,问题Q采用编码器函数F进行编码,分别得到上下文嵌入数据
Figure BDA0002001585620000091
和/>
Figure BDA0002001585620000092
然后计算文本段落C的上下文嵌入数据和问题Q的上下文嵌入数据的点积s2,作为文本段落C中每个单词的权重,作为对文本段落C的关注度;
Figure BDA0002001585620000093
上述实施例中,所述S3的具体步骤为:
S31、将得到的点积s1和点积s2进行合并为S;S=F(s1,s2);
其中,S是对文本段落C的最终关注,F表示融合函数,对融合函数F的定义如下所示:
Figure BDA0002001585620000094
S32、将最终关注S映射到词汇空间V,利用总和关注机制对出现在文本段落C不同位置且单词相同的注意值进行汇总,得P(W|C,Q)=∑i∈I(w,c)si,w∈V;
其中I(w,c)表示单词w出现在文本段落C中的位置,作为训练目标,最大化正确答案的对数似然函数为L=∑log(p(x)),x∈A;
选择候选答案集A中概率最高的单词作为预测答案a*=arg maxcP(W/C,Q)。
本技术方案本能够获得问题和文档之间更多的交互信息,提高推断答案的准确性。
如图3所示,本发明还涉及一种基于全局和局部注意力交互的阅读理解系统,包括预处理模块1、特征提取模块2和预测输出模块3;
所述预处理模块1用于输入文本段落C、问题Q、候选答案集A构成的三元组格式数据,对数据中的文本段落C、问题Q和候选答案集A分别进行训练得到针对文本段落C、问题Q、候选答案集A的词向量,并将词向量进行初始化,得到网络输入数据;
所述特征提取模块2用于对网络输入数据中文本段落C和问题Q的词向量进行编码,在局部情况下,获得文本段落C和问题Q之间的交互信息S1;以及在全局情况下,获得问题Q对文本段落C的关注度S2;
所述预测输出模块3用于将文本段落C和问题Q之间的交互信息S1和问题Q对文本段落C的关注度S2进行融合和计算,依据计算结果选择候选答案集A中概率最高的单词作为预测答案。
上述实施例中,所述预处理模块1从CBT-NE数据集和CBT-CN数据集中采集数据,数据采用三元组格式,即(C,Q,A),其中C表示带有空格的文本段落,Q表示问题,A表示候选答案集;使用Word2vec模型对采集的数据进行训练得到词向量,再对词向量进行初始化,获得网络输入数据。
上述实施例中,所述特征提取模块2采用双向GRU分别对文本段落C和问题Q的词向量进行编码,得到上下文表示数据;
利用编码器函数G和编码器函数F对上下文表示数据中文本段落C和问题Q的每个单词进行编码,在局部情况下,获得文本段落C和问题Q之间的交互信息S1;以及在全局情况下,获得问题Q对文本段落C的关注度S2。
上述实施例中,所述编码器函数G用于对文本段落C和问题Q的上下文表示数据中的每个单词进行编码;
编码器函数G对文本段落C的上下文表示数据中的每个单词进行编码为:
Figure BDA0002001585620000101
编码器函数G对问题Q的上下文表示数据中的每个单词进行编码为:
Figure BDA0002001585620000102
其中,
Figure BDA0002001585620000103
和/>
Figure BDA0002001585620000104
分别表示文本段落C中的第i个单词,问题Q中的第j个单词。
上述实施例中,所述编码器函数F用于将问题Q转化为与Gi(C)具有相同维度的固定长度;具体为:
Figure BDA0002001585620000111
上述实施例中,在局部情况下,文本段落C和问题Q均采用编码器函数G进行编码,得到上下文嵌入数据
Figure BDA0002001585620000112
和/>
Figure BDA0002001585620000113
在获得文本段落C和问题Q的上下文嵌入数据之后,利用上下文嵌入数据
Figure BDA0002001585620000114
和/>
Figure BDA0002001585620000115
计算成对匹配矩阵M,成对匹配矩阵M表示一个文档词和一个问题词的成对匹配度;当给出文本段落C的第i个单词和问题的第j个单词时,通过第i个单词和第j个单词的点积计算成对匹配分数;
M(ij)=Gi(C)T·Gj(Q);
计算每个文本段落C和问题Q之间的每对成对匹配分数,形成成对匹配矩阵M∈R|c|*|q|,其中,第i行和第j列的值由M(ij)进行填充;
在获得成对匹配矩阵M后,应用逐列softmax函数处理成对匹配矩阵M获得每列中的概率分布,也就是在时间t的问题词的文档级关注;用α(t)表示在时间t的问题词的文档级关注,即问题Q到文本段落C的关注;
α(t)=soft max(M(1,t),…,M(i,t),…,M(m,t));
α=(α(1),…,α(i),…,α(m));
将逐行softmax函数处理成对匹配矩阵M获得查询级别的注意力;用β(t)表示时间t的文档词的问题级关注,即文本段落C到问题Q的关注;
β(t)=soft max(M(t,1),…,M(t,i),…,M(t,m));
然后平均所有β(t)得到平均查询级别的注意力β;
Figure BDA0002001585620000116
计算α和β之间的点积s1,获得文本段落C和问题Q之间的交互信息,点积s1具体为在时间t查看问题词时计算每个单独文本段落级别注意力α的加权和;s1=αTβ∈Rm×1
上述实施例中,在全局情况下,文本段落C采用编码器函数G进行编码,问题Q采用编码器函数F进行编码,分别得到上下文嵌入数据
Figure BDA0002001585620000121
和/>
Figure BDA0002001585620000122
然后计算文本段落C的上下文嵌入数据和问题Q的上下文嵌入数据的点积s2,作为文本段落C中每个单词的权重,作为对文本段落C的关注度;
Figure BDA0002001585620000123
上述实施例中,所述预测输出模块3将得到的点积s1和点积s2进行合并为S;S=F(s1,s2);
其中,S是对文本段落C的最终关注,F表示融合函数,对融合函数F的定义如下所示:
Figure BDA0002001585620000124
还将最终关注S映射到词汇空间V,利用总和关注机制对出现在文本段落C不同位置且单词相同的注意值进行汇总,得P(W|C,Q)=∑i∈I(w,c)si,w∈V;
其中I(w,c)表示单词w出现在文本段落C中的位置,作为训练目标,最大化正确答案的对数似然函数为L=∑log(p(x)),x∈A;
选择候选答案集A中概率最高的单词作为预测答案a*=arg maxcP(W/C,Q)。
本技术方案能够获得问题和文档之间更多的交互信息,提高推断答案的准确性。
以上所述仅为本发明的较佳实施例,并不用以限制本发明,凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (8)

1.一种基于全局和局部注意力交互的阅读理解方法,其特征在于:包括以下步骤:
S1、输入文本段落C、问题Q、候选答案集A构成的三元组格式数据,对数据中的文本段落C、问题Q和候选答案集A分别进行训练得到针对文本段落C、问题Q、候选答案集A的词向量,并将词向量进行初始化,得到网络输入数据;
S2、对网络输入数据中文本段落C和问题Q的词向量进行编码,在局部情况下,获得文本段落C和问题Q之间的交互信息S1;以及在全局情况下,获得问题Q对文本段落C的关注度S2;
S3、将文本段落C和问题Q之间的交互信息S1和问题Q对文本段落C的关注度S2进行融合和计算,依据计算结果选择候选答案集A中概率最高的单词作为预测答案;
所述S3的具体步骤为:
S31、将得到的点积s1和点积s2进行合并为S;S=F(s1,s2);
其中,S是对文本段落C的最终关注,F表示融合函数,对融合函数F的定义如下所示:
Figure QLYQS_1
S32、将最终关注S映射到词汇空间V,利用总和关注机制对出现在文本段落C不同位置且单词相同的注意值进行汇总,得P(W|C,Q)=∑i∈I(w,c)si,w∈V;
其中I(w,c)表示单词w出现在文本段落C中的位置,作为训练目标,最大化正确答案的对数似然函数为L=∑log(p(x)),x∈A;
选择候选答案集A中概率最高的单词作为预测答案a*=argmaxcP(WC,Q)。
2.根据权利要求1所述一种基于全局和局部注意力交互的阅读理解方法,其特征在于:所述S1的具体步骤为:从CBT-NE数据集和CBT-CN数据集中采集数据,数据采用三元组格式,即(C,Q,A),其中C表示带有空格的文本段落,Q表示问题,A表示候选答案集;使用Word2vec模型对采集的数据进行训练得到词向量,再对词向量进行初始化,获得网络输入数据。
3.根据权利要求2所述一种基于全局和局部注意力交互的阅读理解方法,其特征在于:所述S2的具体步骤为:采用双向GRU分别对文本段落C和问题Q的词向量进行编码,得到上下文表示数据;
利用编码器函数G和编码器函数F对上下文表示数据中文本段落C和问题Q的每个单词进行编码,在局部情况下,获得文本段落C和问题Q之间的交互信息S1;以及在全局情况下,获得问题Q对文本段落C的关注度S2。
4.根据权利要求3所述一种基于全局和局部注意力交互的阅读理解方法,其特征在于:所述编码器函数G用于对文本段落C和问题Q的上下文表示数据中的每个单词进行编码;
编码器函数G对文本段落C的上下文表示数据中的每个单词进行编码为:
Figure QLYQS_2
编码器函数G对问题Q的上下文表示数据中的每个单词进行编码为:
Figure QLYQS_3
其中,
Figure QLYQS_4
和/>
Figure QLYQS_5
分别表示文本段落C中的第i个单词,问题Q中的第j个单词。
5.根据权利要求4所述一种基于全局和局部注意力交互的阅读理解方法,其特征在于:所述编码器函数F用于将问题Q转化为与Gi(C)具有相同维度的固定长度;具体为:
Figure QLYQS_6
6.根据权利要求5所述一种基于全局和局部注意力交互的阅读理解方法,其特征在于:在局部情况下,文本段落C和问题Q均采用编码器函数G进行编码,得到上下文嵌入数据
Figure QLYQS_7
和/>
Figure QLYQS_8
在获得文本段落C和问题Q的上下文嵌入数据之后,利用上下文嵌入数据
Figure QLYQS_9
Figure QLYQS_10
计算成对匹配矩阵M,成对匹配矩阵M表示一个文档词和一个问题词的成对匹配度;当给出文本段落C的第i个单词和问题的第j个单词时,通过第i个单词和第j个单词的点积计算成对匹配分数;
M(ij)=Gi(C)T·Gj(Q);
计算每个文本段落C和问题Q之间的每对成对匹配分数,形成成对匹配矩阵M∈R|c|*|q|,其中,第i行和第j列的值由M(ij)进行填充;
在获得成对匹配矩阵M后,应用逐列softmax函数处理成对匹配矩阵M获得每列中的概率分布,也就是在时间t的问题词的文档级关注;用α(t)表示在时间t的问题词的文档级关注,即问题Q到文本段落C的关注;
α(t)=softmax(M(1,t),…,M(i,t),…,M(m,t));
α=(α(1),…,α(i),…,α(m));
将逐行softmax函数处理成对匹配矩阵M获得查询级别的注意力;用β(t)表示时间t的文档词的问题级关注,即文本段落C到问题Q的关注;
β(t)=softmax(M(t,1),…,M(t,i),…,M(t,m));
然后平均所有β(t)得到平均查询级别的注意力β;
Figure QLYQS_11
计算α和β之间的点积s1,获得文本段落C和问题Q之间的交互信息,点积s1具体为在时间t查看问题词时计算每个单独文本段落级别注意力α的加权和;s1=αTβ∈Rm×1
7.根据权利要求6所述一种基于全局和局部注意力交互的阅读理解方法,其特征在于:在全局情况下,文本段落C采用编码器函数G进行编码,问题Q采用编码器函数F进行编码,分别得到上下文嵌入数据
Figure QLYQS_12
和/>
Figure QLYQS_13
然后计算文本段落C的上下文嵌入数据和问题Q的上下文嵌入数据的点积s2,作为文本段落C中每个单词的权重,作为对文本段落C的关注度;
Figure QLYQS_14
8.一种基于全局和局部注意力交互的阅读理解系统,其特征在于,包括预处理模块(1)、特征提取模块(2)和预测输出模块(3);
所述预处理模块(1)用于输入文本段落C、问题Q、候选答案集A构成的三元组格式数据,对数据中的文本段落C、问题Q和候选答案集A分别进行训练得到针对文本段落C、问题Q、候选答案集A的词向量,并将词向量进行初始化,得到网络输入数据;
所述特征提取模块(2)用于对网络输入数据中文本段落C和问题Q的词向量进行编码,在局部情况下,获得文本段落C和问题Q之间的交互信息S1;以及在全局情况下,获得问题Q对文本段落C的关注度S2;
所述预测输出模块(3)用于将文本段落C和问题Q之间的交互信息S1和问题Q对文本段落C的关注度S2进行融合和计算,依据计算结果选择候选答案集A中概率最高的单词作为预测答案;
所述预测输出模块(3)具体用于:
将得到的点积s1和点积s2进行合并为S;S=F(s1,s2);
其中,S是对文本段落C的最终关注,F表示融合函数,对融合函数F的定义如下所示:
Figure QLYQS_15
将最终关注S映射到词汇空间V,利用总和关注机制对出现在文本段落C不同位置且单词相同的注意值进行汇总,得P(W|C,Q)=∑i∈I(w,c)si,w∈V;
其中I(w,c)表示单词w出现在文本段落C中的位置,作为训练目标,最大化正确答案的对数似然函数为L=∑log(p(x)),x∈A;
选择候选答案集A中概率最高的单词作为预测答案a*=argmaxcP(W/C,Q)。
CN201910214487.6A 2019-03-20 2019-03-20 一种基于全局和局部注意力交互的阅读理解系统及方法 Active CN110597947B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910214487.6A CN110597947B (zh) 2019-03-20 2019-03-20 一种基于全局和局部注意力交互的阅读理解系统及方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910214487.6A CN110597947B (zh) 2019-03-20 2019-03-20 一种基于全局和局部注意力交互的阅读理解系统及方法

Publications (2)

Publication Number Publication Date
CN110597947A CN110597947A (zh) 2019-12-20
CN110597947B true CN110597947B (zh) 2023-03-28

Family

ID=68852459

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910214487.6A Active CN110597947B (zh) 2019-03-20 2019-03-20 一种基于全局和局部注意力交互的阅读理解系统及方法

Country Status (1)

Country Link
CN (1) CN110597947B (zh)

Families Citing this family (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111159340B (zh) * 2019-12-24 2023-11-03 重庆兆光科技股份有限公司 基于随机优化预测的机器阅读理解的答案匹配方法及系统
CN111274800B (zh) * 2020-01-19 2022-03-18 浙江大学 基于关系图卷积网络的推理型阅读理解方法
CN111538819B (zh) * 2020-03-27 2024-02-20 深圳乐读派科技有限公司 一种基于文档集多跳推理的问答系统的构建方法
CN113779203A (zh) * 2020-06-09 2021-12-10 北京金山数字娱乐科技有限公司 生成段落集的方法和装置、推理方法和装置
CN111858879B (zh) * 2020-06-18 2024-04-05 达观数据有限公司 一种基于机器阅读理解的问答方法及系统、存储介质、计算机设备
CN111797219B (zh) * 2020-07-07 2023-11-24 苏州大学 使用多通道融合模型处理答案的神经问题生成方法及系统
CN112084782B (zh) * 2020-09-14 2024-05-03 成都数联铭品科技有限公司 一种基于能量增强的注意力网络的答案识别方法及系统
CN112052326A (zh) * 2020-09-30 2020-12-08 民生科技有限责任公司 一种基于长短文本匹配的智能问答方法及系统
CN112417094B (zh) * 2020-11-17 2024-04-05 华东理工大学 基于网络文本的答案选择方法、装置、服务器及存储介质
CN112507727A (zh) * 2020-11-18 2021-03-16 北京科技大学 一种基于文本的文本视觉问答系统及方法
CN112651225B (zh) * 2020-12-29 2022-06-14 昆明理工大学 一种基于多阶段最大化注意力的多项选择机器阅读理解的方法
CN112784579B (zh) * 2020-12-31 2022-05-27 山西大学 一种基于数据增强的阅读理解选择题答题方法
CN113239678B (zh) * 2021-04-02 2023-06-20 南京邮电大学 一种面向答案选择的多角度注意力特征匹配方法及系统
CN113361261B (zh) * 2021-05-19 2022-09-09 重庆邮电大学 一种基于enhance matrix的法律案件候选段落的选取方法及装置
CN113032533B (zh) * 2021-05-31 2021-09-03 宏龙科技(杭州)有限公司 一种基于稀疏向量匹配的高效检索方法
CN113312912B (zh) * 2021-06-25 2023-03-31 重庆交通大学 一种用于交通基础设施检测文本的机器阅读理解方法

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109033068A (zh) * 2018-06-14 2018-12-18 北京慧闻科技发展有限公司 基于注意力机制的用于阅读理解的方法、装置和电子设备
CN109408680A (zh) * 2018-10-08 2019-03-01 腾讯科技(深圳)有限公司 自动问答方法、装置、设备和计算机可读存储介质
CN109492232A (zh) * 2018-10-22 2019-03-19 内蒙古工业大学 一种基于Transformer的增强语义特征信息的蒙汉机器翻译方法
CN109492227A (zh) * 2018-11-16 2019-03-19 大连理工大学 一种基于多头注意力机制和动态迭代的机器阅读理解方法

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10860924B2 (en) * 2017-08-18 2020-12-08 Microsoft Technology Licensing, Llc Hardware node having a mixed-signal matrix vector unit

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109033068A (zh) * 2018-06-14 2018-12-18 北京慧闻科技发展有限公司 基于注意力机制的用于阅读理解的方法、装置和电子设备
CN109408680A (zh) * 2018-10-08 2019-03-01 腾讯科技(深圳)有限公司 自动问答方法、装置、设备和计算机可读存储介质
CN109492232A (zh) * 2018-10-22 2019-03-19 内蒙古工业大学 一种基于Transformer的增强语义特征信息的蒙汉机器翻译方法
CN109492227A (zh) * 2018-11-16 2019-03-19 大连理工大学 一种基于多头注意力机制和动态迭代的机器阅读理解方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
Attention-overattention neural networks for reading comprehension;Cui Y, Chen Z, Wei S;《In Proceedings of the 55th Annual Meeting of the Association for Computational Linguistics》;20170606;全文 *
融合多重语义对齐表示的机器阅读理解研究;季静;《中国优秀硕士学位论文全文数据库》;20190115;全文 *

Also Published As

Publication number Publication date
CN110597947A (zh) 2019-12-20

Similar Documents

Publication Publication Date Title
CN110597947B (zh) 一种基于全局和局部注意力交互的阅读理解系统及方法
CN109299262B (zh) 一种融合多粒度信息的文本蕴含关系识别方法
CN110111399B (zh) 一种基于视觉注意力的图像文本生成方法
CN110598713B (zh) 基于深度神经网络的智能图像自动描述方法
CN110795556B (zh) 一种基于细粒度插入式解码的摘要生成方法
CN108549658B (zh) 一种基于语法分析树上注意力机制的深度学习视频问答方法及系统
Jang et al. Recurrent neural network-based semantic variational autoencoder for sequence-to-sequence learning
CN109933808B (zh) 一种基于动态配置解码的神经机器翻译方法
CN109472031A (zh) 一种基于双记忆注意力的方面级别情感分类模型及方法
CN109977199B (zh) 一种基于注意力池化机制的阅读理解方法
CN109492202A (zh) 一种基于拼音的编码与解码模型的中文纠错方法
CN110929515A (zh) 基于协同注意力和自适应调整的阅读理解方法及系统
CN112115687B (zh) 一种结合知识库中的三元组和实体类型的生成问题方法
CN111460824B (zh) 一种基于对抗迁移学习的无标注命名实体识别方法
CN111460883B (zh) 基于深度强化学习的视频行为自动描述方法
CN112527966B (zh) 基于Bi-GRU神经网络和自注意力机制的网络文本情感分析方法
CN110276396B (zh) 基于物体显著性和跨模态融合特征的图片描述生成方法
CN113569932A (zh) 一种基于文本层级结构的图像描述生成方法
CN112131883A (zh) 语言模型训练方法、装置、计算机设备和存储介质
CN113988300A (zh) 一种题目结构推理方法及系统
CN111145914B (zh) 一种确定肺癌临床病种库文本实体的方法及装置
CN112528168B (zh) 基于可形变自注意力机制的社交网络文本情感分析方法
CN113191150A (zh) 一种多特征融合的中文医疗文本命名实体识别方法
CN110321568B (zh) 基于融合词性和位置信息的汉-越卷积神经机器翻译方法
CN116522165A (zh) 一种基于孪生结构的舆情文本匹配系统及方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant