CN110619123A

CN110619123A - 一种机器阅读理解方法

Info

Publication number: CN110619123A
Application number: CN201910887852.XA
Authority: CN
Inventors: 李建平; 顾小丰; 胡健; 孙睿男; 冯文婷; 李顺利; 蒋胜
Original assignee: University of Electronic Science and Technology of China
Current assignee: University of Electronic Science and Technology of China
Priority date: 2019-09-19
Filing date: 2019-09-19
Publication date: 2019-12-27
Anticipated expiration: 2039-09-19
Also published as: CN110619123B; US20210089718A1; US11620449B2

Abstract

本发明公开了一种机器阅读理解方法，其包括以下步骤：S1、得到问题和文章的字符级表示向量；S2、得到编码后的问题向量和文章向量；S3、得到双向注意力模型的输出P1和共同注意力模型的输出P2；S4、得到聚合后的向量P3；S5、得到文本编码向量P4；S6、获取文章内部单词之间的全局交互信息；S7、获取使用自注意力模型后的文本向量P5；S8、根据P4和P5得到聚合后的数据P6；S9、根据P6和P得到文章的上下文语境向量；S10、根据文章的上下文语境向量和编码后的问题向量预测答案位置，完成机器阅读理解。本发明可快速进行文章阅读理解，并从文章中给出问题的答案。

Description

一种机器阅读理解方法

技术领域

本发明涉及人工智能领域，具体涉及一种机器阅读理解方法。

背景技术

人工智能(Artificial Intelligence)，英文缩写为AI。它是研究、开发用于模拟、延伸和扩展人的智能的理论、方法、技术及应用系统的一门新的技术科学。

人工智能是计算机科学的一个分支，它企图了解智能的实质，并生产出一种新的能以人类智能相似的方式做出反应的智能机器，该领域的研究包括机器人、语言识别、图像识别、自然语言处理和专家系统等。

机器阅读理解是认知环节的关键能力之一，机器阅读理解的发展可推进人工智能的发展。

发明内容

针对现有技术中的上述不足，本发明提供的一种机器阅读理解方法可快速进行文章阅读理解，并从文章中给出问题的答案。

为了达到上述发明目的，本发明采用的技术方案为：

提供一种机器阅读理解方法，其包括以下步骤：

S1、分别对问题和文章进行编码，分别得到问题和文章的字符级表示向量；

S2、将问题和文章的字符级表示向量进行编码，分别得到编码后的问题向量和文章向量；

S3、将编码后的文章向量输入双向注意力模型，将编码后的问题向量输入共同注意力模型，分别得到双向注意力模型的输出P1和共同注意力模型的输出P2；

S4、根据聚合机制将双向注意力模型的输出P1和共同注意力模型的输出P2进行聚合，得到聚合后的向量P3；

S5、将聚合后的向量P3与编码前的文章向量P进行聚合，得到文本编码向量P4；

S6、基于文本编码向量P4，根据自注意力模型获取文章内部单词之间的全局交互信息；

S7、根据全局交互信息和文本编码向量P4获取使用自注意力模型后的文本向量P5；

S8、根据聚合函数将文本编码向量P4和使用自注意力模型后的文本向量P5进行聚合，得到聚合后的数据P6；

S9、将聚合后的数据P6与编码前的文字向量P进行拼接，并将拼接后的数据作为输入送入双向GRU网络中，将双向GRU网络的输出作为文章的上下文语境向量；

S10、根据文章的上下文语境向量和编码后的问题向量分别预测文本中每一个位置是起始索引和结束索引的概率，将起始索引与结束索引概率最大的结果作为答案位置，完成机器阅读理解。

进一步地，步骤S1的具体方法包括以下子步骤：

S1-1、将问题和文章中的每一个单词m表示为一个字符序列(c₁,...,c_|m|)，并将词表中的每一个单词表示为d_c维的向量；

S1-2、将每一个单词序列应用一个大小为的卷积核，采用公式

f_i＝tanh(w^Tc_i:i+w-1+b)

获取特征向量f_i；其中tanh(·)为双曲正切函数；c_i:i+w-1为字符序列段；b为偏差参数；(·)^T为矩阵的转置；为数域；

S1-3、对所有的特征向量进行最大池化操作，分别得到问题和文章的字符级表示向量。

进一步地，步骤S2的具体方法包括以下子步骤：

S2-1、根据公式

Q'＝softmax(S_i:)·Q

S＝softmax(Q'^T W₁Q')

Q”＝S·Q'

Q_R＝b_jQ_agg

获取编码后的问题向量Q_R；其中P为文章的字符级表示向量；Q为问题的字符级表示向量；[；]表示将向量按行进行拼接操作；表示P与Q进行点积运算；W_s为学习参数；(·)^T为矩阵的转置；S_i:、Q'、S、Q”、Q_agg和b_j均为中间参数；softmax(·)为softmax函数；tanh(·)为双曲正切函数；b_f为学习参数；W₁为权重；W_f为学习参数；exp(·)为以自然常数e为底的指数函数；表示单一向量元素对应的中间参数；j'为第j'个向量元素；

S2-2、根据公式

α_ij∝exp(S_ij')

得到文章P的输入向量其中为文章P的文章序列；fastText(·)表示由fastText得到的词向量；S_ij'、α_ij、和u_i'^P均为中间参数；为问题Q的字符向量；exp(·)为以自然常数e为底的指数函数；为问题Q的字符向量；ReLU(·)为激活函数；U和D均为权重；[；]表示将向量按行进行拼接操作；为文章P的文章序列；为文章P的字符向量；Glove(·)表示由Glove得到的词向量；BERT(·)表示将transformer网络的隐藏层输出的特征向量；

S2-3、将输入向量作为双向循环神经网络的输入，得到编码后的文章向量。

进一步地，步骤S4的具体方法为：

根据公式

使用聚合机制将双向注意力模型的输出P1和共同注意力模型的输出P2进行聚合，得到聚合后的向量P3；其中tanh(·)为双曲正切函数；W_f和b_f均为学习参数；[；]表示将向量按行进行拼接操作；表示P1与P2进行点积运算。

进一步地，步骤S5的具体方法为：

根据公式

将聚合后的向量P3与编码前的文章向量P进行聚合，得到文本编码向量P4；其中tanh(·)为双曲正切函数；W_f和b_f均为学习参数；[；]表示将向量按行进行拼接操作；表示P与P3进行点积运算。

进一步地，步骤S6的具体方法为：

根据公式

S_ij＝softmax(P4·W₁·(P4)^T)

基于文本编码向量P4，根据自注意力模型获取文章内部单词之间的全局交互信息S_ij；其中softmax(·)为归一化指数函数；W₁为权重；(·)^T为矩阵的转置。

进一步地，步骤S7的具体方法为：

根据公式

P5＝S_ijP4

获取使用自注意力模型后的文本向量P5；其中S_ij为全局交互信息。

进一步地，步骤S8的具体方法为：

根据公式

将文本编码向量P4和使用自注意力模型后的文本向量P5进行聚合，得到聚合后的数据P6；其中tanh(·)为双曲正切函数；W_f和b_f均为学习参数；[；]表示将向量按行进行拼接操作；表示P5与P4进行点积运算。

进一步地，步骤S9的具体方法为：

根据公式

R＝BiGRU([P；P6])

将聚合后的数据P6与编码前的文字向量P进行拼接，并将拼接后的数据作为输入送入双向GRU网络中，将双向GRU网络的输出R作为文章的上下文语境向量；其中BiGRU(·)为双向GRU网络；[；]表示将向量按行进行拼接操作。

进一步地，步骤S10的具体方法为：

根据公式

通过两个独立的分类器预测文章中每个单词是开始位置的概率P_start(i)和结束位置的概率P_end(i)，将起始索引与结束索引概率最大的结果作为答案位置，完成机器阅读理解；其中O^Q为问题向量；O_i ^P为文章的上下文语境向量；W_s和W_e均为分类器参数；(·)^T为矩阵的转置；softmax(·)为softmax函数；分类器的损失函数为θ为训练参数的集合；p_s和p_e分别为起始位置和结束位置的概率值；和分别为真实的起始位置和结束位置索引；分类器的训练目标为最小化负似然函数，将损失函数的代价降到最低；log(·)为对数函数；N为文章的上下文语境向量的元素总数。

本发明的有益效果为：本发明先计算问题和文章之间的相似度矩阵得到带有问题影响的文本语境特征，并且将两种注意力模型的结果进行融合，然后使用自注意力模型计算文章内部的词语之间的注意力函数，得到不同词语内部之间的差异。整个过程都使用了聚合机制，将低层次到高层次的特征向量融合，从而抽取不同层面的特征信息，最后得到用于预测答案的语义向量。本发明在作阅读理解时第一次看文章相当于将符号转化为向量，然后通过注意力模型建立文章和问题之间的联系等价于人脑带着问题看文章的过程，最后使用自注意力模型进行有自知的理解等价于精读文章定位答案。

附图说明

图1为本发明的流程示意图。

具体实施方式

下面对本发明的具体实施方式进行描述，以便于本技术领域的技术人员理解本发明，但应该清楚，本发明不限于具体实施方式的范围，对本技术领域的普通技术人员来讲，只要各种变化在所附的权利要求限定和确定的本发明的精神和范围内，这些变化是显而易见的，一切利用本发明构思的发明创造均在保护之列。

如图1所示，该机器阅读理解方法包括以下步骤：

步骤S1的具体方法包括以下子步骤：

S1-2、将每一个单词序列应用一个大小为的卷积核，采用公式

f_i＝tanh(w^Tc_i:i+w-1+b)

步骤S2的具体方法包括以下子步骤：

S2-1、根据公式

Q'＝softmax(S_i:)·Q

S＝softmax(Q'^T W₁Q')

Q”＝S·Q'

Q_R＝b_jQ_agg

S2-2、根据公式

α_ij∝exp(S_ij')

得到文章P的输入向量其中为文章P的文章序列；fastText(·)表示由fastText得到的词向量；S_ij'、α_ij、和均为中间参数；为问题Q的字符向量；exp(·)为以自然常数e为底的指数函数；为问题Q的字符向量；ReLU(·)为激活函数；U和D均为权重；[；]表示将向量按行进行拼接操作；为文章P的文章序列；为文章P的字符向量；Glove(·)表示由Glove得到的词向量；BERT(·)表示将transformer网络的隐藏层输出的特征向量；

步骤S4的具体方法为：根据公式

步骤S5的具体方法为：根据公式

步骤S6的具体方法为：根据公式

S_ij＝softmax(P4·W₁·(P4)^T)

步骤S7的具体方法为：根据公式

P5＝S_ijP4

步骤S8的具体方法为：根据公式

步骤S9的具体方法为：根据公式

R＝BiGRU([P；P6])

步骤S10的具体方法为：根据公式

通过两个独立的分类器预测文章中每个单词是开始位置的概率P_start(i)和结束位置的概率P_end(i)，将起始索引与结束索引概率最大的结果作为答案位置，完成机器阅读理解；其中O^Q为问题向量；为文章的上下文语境向量；W_s和W_e均为分类器参数；(·)^T为矩阵的转置；softmax(·)为softmax函数；分类器的损失函数为θ为训练参数的集合；p_s和p_e分别为起始位置和结束位置的概率值；和分别为真实的起始位置和结束位置索引；分类器的训练目标为最小化负似然函数，将损失函数的代价降到最低；log(·)为对数函数；N为文章的上下文语境向量的元素总数。

综上所述，本发明先计算问题和文章之间的相似度矩阵得到带有问题影响的文本语境特征，并且将两种注意力模型的结果进行融合，然后使用自注意力模型计算文章内部的词语之间的注意力函数，得到不同词语内部之间的差异。整个过程都使用了聚合机制，将低层次到高层次的特征向量融合，从而抽取不同层面的特征信息，最后得到用于预测答案的语义向量。本发明在作阅读理解时第一次看文章相当于将符号转化为向量，然后通过注意力模型建立文章和问题之间的联系等价于人脑带着问题看文章的过程，最后使用自注意力模型进行有自知的理解等价于精读文章定位答案。

Claims

1.一种机器阅读理解方法，其特征在于，包括以下步骤：

2.根据权利要求1所述的机器阅读理解方法，其特征在于，所述步骤S1的具体方法包括以下子步骤：

S1-2、将每一个单词序列应用一个大小为的卷积核，采用公式

f_i＝tanh(w^Tc_i:i+w-1+b)

3.根据权利要求1所述的机器阅读理解方法，其特征在于，所述步骤S2的具体方法包括以下子步骤：

S2-1、根据公式

Q'＝softmax(S_i:)·Q

S＝softmax(Q'^T W₁Q')

Q”＝S·Q'

Q_R＝b_jQ_agg

S2-2、根据公式

α_ij∝exp(S_ij')

4.根据权利要求1所述的机器阅读理解方法，其特征在于，所述步骤S4的具体方法为：

根据公式

5.根据权利要求1所述的机器阅读理解方法，其特征在于，所述步骤S5的具体方法为：

根据公式

6.根据权利要求1所述的机器阅读理解方法，其特征在于，所述步骤S6的具体方法为：

根据公式

S_ij＝softmax(P4·W₁·(P4)^T)

7.根据权利要求1所述的机器阅读理解方法，其特征在于，所述步骤S7的具体方法为：

根据公式

P5＝S_ijP4

8.根据权利要求1所述的机器阅读理解方法，其特征在于，所述步骤S8的具体方法为：

根据公式

9.根据权利要求1所述的机器阅读理解方法，其特征在于，所述步骤S9的具体方法为：

根据公式

R＝BiGRU([P；P6])

10.根据权利要求1所述的机器阅读理解方法，其特征在于，所述步骤S10的具体方法为：

根据公式