CN109684449B

CN109684449B - 一种基于注意力机制的自然语言语义表征方法

Info

Publication number: CN109684449B
Application number: CN201811562363.9A
Authority: CN
Inventors: 杨波; 周宇; 闫新童; 刘珊; 曾庆川; 刘婷婷; 郑文锋
Original assignee: University of Electronic Science and Technology of China
Current assignee: University of Electronic Science and Technology of China
Priority date: 2018-12-20
Filing date: 2018-12-20
Publication date: 2021-12-10
Anticipated expiration: 2038-12-20
Also published as: CN109684449A

Abstract

本发明公开了一种基于注意力机制的自然语言语义表征方法，通过引入多层注意力机制和位置关系矩阵于语义关系特征提取中，从而在自然语句的语言语义表征中获取更多的语义信息；这样充分结合了深度学习技术和注意力机制共享表示自然语言的多层语义特征和语义位置信息特征，使其融合语言语义特征在提升算法性能的同时提升语义的通用性，可以用于各种自然语言处理任务。

Description

一种基于注意力机制的自然语言语义表征方法

技术领域

本发明属于自然语言处理技术领域，更为具体地讲，涉及一种基于注意力机制的自然语言语义表征方法。

背景技术

随着人工智能的发展，生活中越来越需要对自然语言进行知识、语义的推表征和推理。通过对语义的表征，可以帮助建立一个计算模型，识别自然语言句子中所包含的语义，使其能够像人那样理解自然语言。

语义表征是自然语言理解的根本问题，它在自然语言处理、信息检索、信息过滤、信息分类、语义挖掘等领域有着广泛的应用。在互联网时代，面对海量的信息资源，要想准确地进行信息抽取，检索所需信息、挖掘潜在的信息价值、提供智能的知识服务，都离不开面向机器理解的语义分析。尤其在大数据环境下，语义表征的地位越发凸显出来。

自然语言语义表征通常分为2个方面：词语语义表征、句子语义表征。

词语语义表征通常分为独热(One-Hot)表征和连续向量(Dense Vector)表征。独热表示，又称为高纬稀疏向量表示，是将词语转换为数学特征输入到计算机中，作为其他自然语言任务的数据预处理方法；连续向量，又称为低维向量表示，是将词语表征降低至更低的维度空间，例如LSA模型、SNE模型等。最近，基于神经网络的词向量技术获得了很大的关注，其中Word2Vec可以高效地处理大规模数据，得到了广泛的应用。Word2Vec是基于分布式语义假设提出的，假设认为上下文相似的词语往往拥有相似的语义。

句子语义表征通常划分为2类，一类是通过无监督的方式从大量的无标注的文本中学习句子的语义向量,经典的方法有在One-Hot表征的基础上使用词袋技术，但是却丢失了词语在句子中的信息，忽略了词语的语义信息。另一类是通过有监督的方式在某个特定的自然语言任务下间接地学习句子的语义表征。有监督句子语义表征通常是针对某个特定的自然语言处理任务训练得到，通常意义上，针对特定任务训练得到的句子语义特征会优于通用的句子语义表征。

目前，常用的建模句子语义表征的模型方法有循环神经网路(RNN)，树型递归神经网络(Tree RNN),卷积神经网络(CNN)。但是单词向量化往往只关注句子的主要信息，例如经过卷积网络之后只保存局部语义，很容易丧失整个句子的语义关系。但是语义关系的保存于单词在句子中的位置关系有很大的联系，因此，如何在表征句子语义的同时包含更全的信息成为关键问题。

发明内容

本发明的目的在于克服现有技术的不足，提供一种基于注意力机制的自然语言语义表征方法，用于表征自然语句的词与词之间、词与句子之间的语义特征，且表征的语义特征在涵盖更多语义信息的同时更具有扩展性。

为实现上述发明目的，本发明一种基于注意力机制的自然语言语义表征方法，其特征在于，包括以下步骤：

(1)、自然语言预处理

随机下载一条完整独立的自然语句，然后剔除自然语句中的特殊字符，再按空格将自然语句划分为多个单词的集合S＝{W₁,W₂,…,W_i,…,W_L}，W_i表示自然语句中的第i个单词，L为单词总个数；

(2)、获取每个单词的词向量

将每一个单词输入至Seq2Word模型，输出得到每个单词的词向量；其中，W_i的词向量表示为w_i；

(3)、获取每个单词的字符向量

将每一个单词输入至Word2Char模型，输出得到每个单词的字符向量；其中，W_i的字符向量表示为c_i；

(4)、将自然语句中每个单词的词向量和字符向量拼接成该单词的语义向量；其中，W_i的词向量w_i和字符向量c_i拼接成的语义向量表示为e_i；

(5)、将自然语句中每个单词的语义向量拼接成该自然句子的向量化序列x＝{e₁,e₂,…,e_i,…,e_L}；

(6)、根据自然语句中单词的相对位置，利用自然语句的向量化序列构造位置关系矩阵mask_dis＝Martix(|e_i-e_j|)，其中，|e_i-e_j|表示第i个单词与第j个单词之间的绝对距离，Martix()表示根据绝对距离构造位置关系矩阵；

(7)、对自然语句的位置关系矩阵mask_dis进行离差标准化处理；

其中，max表示自然语句中任意两个单词之间的绝对距离的最大值，min表示自然语句中任意两个单词之间的绝对距离的最小值；

(8)、将自然语句的向量化序列x输入至3层的双向长短时间序列网络，输出该自然语句的状态h；

(9)、构造基于距离关系的多层注意力机制模型；

其中，τ＝1,2,…,λ，λ表示多层注意力机制模型层数，a_τ表示自然语句在多层注意力机制模型中第τ层的注意力矩阵，α_τ，β_τ，

为自然语句在多层注意力机制模型中第τ层的训练参数，σ为激活函数，T表示转置；

(10)、利用多层注意力机制模型获取自然语句的注意力矩阵

将自然语句的状态h和自然语句的位置关系矩阵

输入至多层注意力机制模型，然后不断调整训练参数，输出自然语句的注意力矩阵A＝[a₁,a₂,…,a_τ,…,a_λ]；

(11)、自然语句的语言语义表征

将自然语句的状态h与自然语句的注意力矩阵A进行点乘运算，得到自然语句固定长度的语言语义表征V；

V＝[v₁,v₂,…,v_τ,…,v_λ]

其中，⊙表示点乘运算。

本发明的发明目的是这样实现的：

本发明一种基于注意力机制的自然语言语义表征方法，通过引入多层注意力机制和位置关系矩阵于语义关系特征提取中，从而在自然语句的语言语义表征中获取更多的语义信息；这样充分结合了深度学习技术和注意力机制共享表示自然语言的多层语义特征和语义位置信息特征，使其融合语言语义特征在提升算法性能的同时提升语义的通用性，可以用于各种自然语言处理任务。

附图说明

图1是本发明一种基于注意力机制的自然语言语义表征方法流程图。

图2是基于距离关系的多层注意力机制模型示意图。

具体实施方式

下面结合附图对本发明的具体实施方式进行描述，以便本领域的技术人员更好地理解本发明。需要特别提醒注意的是，在以下的描述中，当已知功能和设计的详细描述也许会淡化本发明的主要内容时，这些描述在这里将被忽略。

实施例

在本实施例中，如图1所示，本发明一种基于注意力机制的自然语言语义表征方法，包括以下步骤：

S1、自然语言预处理

随机下载一条完整独立的英文自然语句，然后剔除自然语句中的特殊字符，再按空格将自然语句划分为多个单词的集合S＝{W₁,W₂,…,W_i,…,W_L}，W_i表示自然语句中的第i个单词，L为单词总个数。

S2、获取每个单词的词向量

将每一个单词输入至Seq2Word模型，输出得到每个单词的词向量；其中，W_i的词向量表示为w_i；在本实施例中，Seq2Word模型采用常见的word2vec技术，word2vec中所用的词典为glove.840B.300d。

S3、获取每个单词的字符向量

Word2Char模型的具体实施过程包括：

S3.1、根据给定的字符字典把自然语句的单词W_i转换为字符列表，i＝1,2,…,L；

S3.2、将字符列表输入至卷积神经网络，输出每个单词的字符特征；

S3.3、将字符特征进行池化处理，得到每个单词的字符向量c_i，其中，c_i的长度是固定的，大小根据需要设定。

S4、将自然语句中每个单词的词向量和字符向量拼接成该单词的语义向量；其中，W_i的词向量w_i和字符向量c_i拼接成的语义向量表示为e_i；

S5、经过上述步骤处理后，得到自然语句中每个单词的语义向量，然后将自然语句中每个单词的语义向量拼接成该自然句子的向量化序列x＝{e₁,e₂,…,e_i,…,e_L}；

S6、根据自然语句中单词的相对位置，利用自然语句的向量化序列构造位置关系矩阵mask_dis＝Martix(|e_i-e_j|)，其中，|e_i-e_j|表示第i个单词与第j个单词之间的绝对距离，Martix()表示根据绝对距离构造位置关系矩阵；

S7、对自然语句的位置关系矩阵mask_dis进行离差标准化处理；

在本实施例中，离差标准化处理后的位置关系矩阵

满足：

的大小在[0,1]之间。

S8、将自然语句的向量化序列x输入至3层的双向长短时间序列网络BiLSTM，输出该自然语句的状态h；

在本实施例中，每层的双向长短时间序列网络包含一个前向网络LSTM和一个后向网络LSTM，当自然语句的向量化序列x输入至前向网络LSTM后，得到t时刻隐层状态

输入至后向网络LSTM后，得到t时刻隐层状态

然后拼接前向和后向的隐层状态得到句子第n层双向长短时间序列网络的隐层状态

其中n＝1，2，3，公式如下：

其中，e_t表示t时刻输入至3层的双向长短时间序列网络中的向量化序列x中的语义向量；

再将每层的隐层状态

进行拼接，得到3层的双向长短时间序列网络的最终输出h，即为自然语句的状态h。

S9、如图2所示，构造基于距离关系的多层注意力机制模型；

为自然语句在多层注意力机制模型中第τ层的训练参数，σ为激活函数，T表示转置。

S10、利用多层注意力机制模型获取自然语句的注意力矩阵

将自然语句的状态h和自然语句的位置关系矩阵

输入至多层注意力机制模型，然后不断调整训练参数，输出自然语句的注意力矩阵A＝[a₁,a₂,…,a_τ,…,a_λ]；在本实施例中，当λ取为5层时效果最佳。

S11、自然语句的语言语义表征

V＝[v₁,v₂,…,v_τ,…,v_λ]

其中，⊙表示点乘运算。

尽管上面对本发明说明性的具体实施方式进行了描述，以便于本技术领域的技术人员理解本发明，但应该清楚，本发明不限于具体实施方式的范围，对本技术领域的普通技术人员来讲，只要各种变化在所附的权利要求限定和确定的本发明的精神和范围内，这些变化是显而易见的，一切利用本发明构思的发明创造均在保护之列。

Claims

1.一种基于注意力机制的自然语言语义表征方法，其特征在于，包括以下步骤：

(1)、自然语言预处理

(2)、获取每个单词的词向量

(3)、获取每个单词的字符向量

(5)、将自然语句中每个单词的语义向量拼接成该自然语句的向量化序列x＝{e₁,e₂,…,e_i,…,e_L}；

(9)、构造基于距离关系的多层注意力机制模型；

(10)、利用多层注意力机制模型获取自然语句的注意力矩阵

将自然语句的状态h和自然语句的位置关系矩阵

(11)、自然语句的语言语义表征

V＝[v₁,v₂,…,v_τ,…,v_λ]

其中，⊙表示点乘运算。

2.根据权利要求1所述的一种基于注意力机制的自然语言语义表征方法，其特征在于，所述单词的字符向量的获取方法为：

(2.1)、根据给定的字符字典把自然语句的单词W_i转换为字符列表，i＝1,2,…,L；

(2.2)、将字符列表输入至卷积神经网络，输出每个单词的字符特征；

(2.3)、将字符特征进行池化处理，得到每个单词的字符向量c_i。

3.根据权利要求1所述的一种基于注意力机制的自然语言语义表征方法，其特征在于，所述的

满足：

的大小在[0,1]之间。