CN109684449B - 一种基于注意力机制的自然语言语义表征方法 - Google Patents

一种基于注意力机制的自然语言语义表征方法 Download PDF

Info

Publication number
CN109684449B
CN109684449B CN201811562363.9A CN201811562363A CN109684449B CN 109684449 B CN109684449 B CN 109684449B CN 201811562363 A CN201811562363 A CN 201811562363A CN 109684449 B CN109684449 B CN 109684449B
Authority
CN
China
Prior art keywords
word
natural
sentence
semantic
natural sentence
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201811562363.9A
Other languages
English (en)
Other versions
CN109684449A (zh
Inventor
杨波
周宇
闫新童
刘珊
曾庆川
刘婷婷
郑文锋
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
University of Electronic Science and Technology of China
Original Assignee
University of Electronic Science and Technology of China
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by University of Electronic Science and Technology of China filed Critical University of Electronic Science and Technology of China
Priority to CN201811562363.9A priority Critical patent/CN109684449B/zh
Publication of CN109684449A publication Critical patent/CN109684449A/zh
Application granted granted Critical
Publication of CN109684449B publication Critical patent/CN109684449B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Machine Translation (AREA)

Abstract

本发明公开了一种基于注意力机制的自然语言语义表征方法,通过引入多层注意力机制和位置关系矩阵于语义关系特征提取中,从而在自然语句的语言语义表征中获取更多的语义信息;这样充分结合了深度学习技术和注意力机制共享表示自然语言的多层语义特征和语义位置信息特征,使其融合语言语义特征在提升算法性能的同时提升语义的通用性,可以用于各种自然语言处理任务。

Description

一种基于注意力机制的自然语言语义表征方法
技术领域
本发明属于自然语言处理技术领域,更为具体地讲,涉及一种基于注意力机制的自然语言语义表征方法。
背景技术
随着人工智能的发展,生活中越来越需要对自然语言进行知识、语义的推表征和推理。通过对语义的表征,可以帮助建立一个计算模型,识别自然语言句子中所包含的语义,使其能够像人那样理解自然语言。
语义表征是自然语言理解的根本问题,它在自然语言处理、信息检索、信息过滤、信息分类、语义挖掘等领域有着广泛的应用。在互联网时代,面对海量的信息资源,要想准确地进行信息抽取,检索所需信息、挖掘潜在的信息价值、提供智能的知识服务,都离不开面向机器理解的语义分析。尤其在大数据环境下,语义表征的地位越发凸显出来。
自然语言语义表征通常分为2个方面:词语语义表征、句子语义表征。
词语语义表征通常分为独热(One-Hot)表征和连续向量(Dense Vector)表征。独热表示,又称为高纬稀疏向量表示,是将词语转换为数学特征输入到计算机中,作为其他自然语言任务的数据预处理方法;连续向量,又称为低维向量表示,是将词语表征降低至更低的维度空间,例如LSA模型、SNE模型等。最近,基于神经网络的词向量技术获得了很大的关注,其中Word2Vec可以高效地处理大规模数据,得到了广泛的应用。Word2Vec是基于分布式语义假设提出的,假设认为上下文相似的词语往往拥有相似的语义。
句子语义表征通常划分为2类,一类是通过无监督的方式从大量的无标注的文本中学习句子的语义向量,经典的方法有在One-Hot表征的基础上使用词袋技术,但是却丢失了词语在句子中的信息,忽略了词语的语义信息。另一类是通过有监督的方式在某个特定的自然语言任务下间接地学习句子的语义表征。有监督句子语义表征通常是针对某个特定的自然语言处理任务训练得到,通常意义上,针对特定任务训练得到的句子语义特征会优于通用的句子语义表征。
目前,常用的建模句子语义表征的模型方法有循环神经网路(RNN),树型递归神经网络(Tree RNN),卷积神经网络(CNN)。但是单词向量化往往只关注句子的主要信息,例如经过卷积网络之后只保存局部语义,很容易丧失整个句子的语义关系。但是语义关系的保存于单词在句子中的位置关系有很大的联系,因此,如何在表征句子语义的同时包含更全的信息成为关键问题。
发明内容
本发明的目的在于克服现有技术的不足,提供一种基于注意力机制的自然语言语义表征方法,用于表征自然语句的词与词之间、词与句子之间的语义特征,且表征的语义特征在涵盖更多语义信息的同时更具有扩展性。
为实现上述发明目的,本发明一种基于注意力机制的自然语言语义表征方法,其特征在于,包括以下步骤:
(1)、自然语言预处理
随机下载一条完整独立的自然语句,然后剔除自然语句中的特殊字符,再按空格将自然语句划分为多个单词的集合S={W1,W2,…,Wi,…,WL},Wi表示自然语句中的第i个单词,L为单词总个数;
(2)、获取每个单词的词向量
将每一个单词输入至Seq2Word模型,输出得到每个单词的词向量;其中,Wi的词向量表示为wi
(3)、获取每个单词的字符向量
将每一个单词输入至Word2Char模型,输出得到每个单词的字符向量;其中,Wi的字符向量表示为ci
(4)、将自然语句中每个单词的词向量和字符向量拼接成该单词的语义向量;其中,Wi的词向量wi和字符向量ci拼接成的语义向量表示为ei
(5)、将自然语句中每个单词的语义向量拼接成该自然句子的向量化序列x={e1,e2,…,ei,…,eL};
(6)、根据自然语句中单词的相对位置,利用自然语句的向量化序列构造位置关系矩阵mask_dis=Martix(|ei-ej|),其中,|ei-ej|表示第i个单词与第j个单词之间的绝对距离,Martix()表示根据绝对距离构造位置关系矩阵;
(7)、对自然语句的位置关系矩阵mask_dis进行离差标准化处理;
Figure GDA0003140442940000031
其中,max表示自然语句中任意两个单词之间的绝对距离的最大值,min表示自然语句中任意两个单词之间的绝对距离的最小值;
(8)、将自然语句的向量化序列x输入至3层的双向长短时间序列网络,输出该自然语句的状态h;
(9)、构造基于距离关系的多层注意力机制模型;
Figure GDA0003140442940000032
其中,τ=1,2,…,λ,λ表示多层注意力机制模型层数,aτ表示自然语句在多层注意力机制模型中第τ层的注意力矩阵,ατ,βτ
Figure GDA0003140442940000033
为自然语句在多层注意力机制模型中第τ层的训练参数,σ为激活函数,T表示转置;
(10)、利用多层注意力机制模型获取自然语句的注意力矩阵
将自然语句的状态h和自然语句的位置关系矩阵
Figure GDA0003140442940000034
输入至多层注意力机制模型,然后不断调整训练参数,输出自然语句的注意力矩阵A=[a1,a2,…,aτ,…,aλ];
(11)、自然语句的语言语义表征
将自然语句的状态h与自然语句的注意力矩阵A进行点乘运算,得到自然语句固定长度的语言语义表征V;
V=[v1,v2,…,vτ,…,vλ]
Figure GDA0003140442940000035
其中,⊙表示点乘运算。
本发明的发明目的是这样实现的:
本发明一种基于注意力机制的自然语言语义表征方法,通过引入多层注意力机制和位置关系矩阵于语义关系特征提取中,从而在自然语句的语言语义表征中获取更多的语义信息;这样充分结合了深度学习技术和注意力机制共享表示自然语言的多层语义特征和语义位置信息特征,使其融合语言语义特征在提升算法性能的同时提升语义的通用性,可以用于各种自然语言处理任务。
附图说明
图1是本发明一种基于注意力机制的自然语言语义表征方法流程图。
图2是基于距离关系的多层注意力机制模型示意图。
具体实施方式
下面结合附图对本发明的具体实施方式进行描述,以便本领域的技术人员更好地理解本发明。需要特别提醒注意的是,在以下的描述中,当已知功能和设计的详细描述也许会淡化本发明的主要内容时,这些描述在这里将被忽略。
实施例
图1是本发明一种基于注意力机制的自然语言语义表征方法流程图。
在本实施例中,如图1所示,本发明一种基于注意力机制的自然语言语义表征方法,包括以下步骤:
S1、自然语言预处理
随机下载一条完整独立的英文自然语句,然后剔除自然语句中的特殊字符,再按空格将自然语句划分为多个单词的集合S={W1,W2,…,Wi,…,WL},Wi表示自然语句中的第i个单词,L为单词总个数。
S2、获取每个单词的词向量
将每一个单词输入至Seq2Word模型,输出得到每个单词的词向量;其中,Wi的词向量表示为wi;在本实施例中,Seq2Word模型采用常见的word2vec技术,word2vec中所用的词典为glove.840B.300d。
S3、获取每个单词的字符向量
将每一个单词输入至Word2Char模型,输出得到每个单词的字符向量;其中,Wi的字符向量表示为ci
Word2Char模型的具体实施过程包括:
S3.1、根据给定的字符字典把自然语句的单词Wi转换为字符列表,i=1,2,…,L;
S3.2、将字符列表输入至卷积神经网络,输出每个单词的字符特征;
S3.3、将字符特征进行池化处理,得到每个单词的字符向量ci,其中,ci的长度是固定的,大小根据需要设定。
S4、将自然语句中每个单词的词向量和字符向量拼接成该单词的语义向量;其中,Wi的词向量wi和字符向量ci拼接成的语义向量表示为ei
S5、经过上述步骤处理后,得到自然语句中每个单词的语义向量,然后将自然语句中每个单词的语义向量拼接成该自然句子的向量化序列x={e1,e2,…,ei,…,eL};
S6、根据自然语句中单词的相对位置,利用自然语句的向量化序列构造位置关系矩阵mask_dis=Martix(|ei-ej|),其中,|ei-ej|表示第i个单词与第j个单词之间的绝对距离,Martix()表示根据绝对距离构造位置关系矩阵;
S7、对自然语句的位置关系矩阵mask_dis进行离差标准化处理;
Figure GDA0003140442940000051
其中,max表示自然语句中任意两个单词之间的绝对距离的最大值,min表示自然语句中任意两个单词之间的绝对距离的最小值;
在本实施例中,离差标准化处理后的位置关系矩阵
Figure GDA0003140442940000052
满足:
Figure GDA0003140442940000053
的大小在[0,1]之间。
S8、将自然语句的向量化序列x输入至3层的双向长短时间序列网络BiLSTM,输出该自然语句的状态h;
在本实施例中,每层的双向长短时间序列网络包含一个前向网络LSTM和一个后向网络LSTM,当自然语句的向量化序列x输入至前向网络LSTM后,得到t时刻隐层状态
Figure GDA0003140442940000054
输入至后向网络LSTM后,得到t时刻隐层状态
Figure GDA0003140442940000055
然后拼接前向和后向的隐层状态得到句子第n层双向长短时间序列网络的隐层状态
Figure GDA0003140442940000056
其中n=1,2,3,公式如下:
Figure GDA0003140442940000057
Figure GDA0003140442940000058
Figure GDA0003140442940000059
其中,et表示t时刻输入至3层的双向长短时间序列网络中的向量化序列x中的语义向量;
再将每层的隐层状态
Figure GDA00031404429400000510
进行拼接,得到3层的双向长短时间序列网络的最终输出h,即为自然语句的状态h。
S9、如图2所示,构造基于距离关系的多层注意力机制模型;
Figure GDA0003140442940000061
其中,τ=1,2,…,λ,λ表示多层注意力机制模型层数,aτ表示自然语句在多层注意力机制模型中第τ层的注意力矩阵,ατ,βτ
Figure GDA0003140442940000064
为自然语句在多层注意力机制模型中第τ层的训练参数,σ为激活函数,T表示转置。
S10、利用多层注意力机制模型获取自然语句的注意力矩阵
将自然语句的状态h和自然语句的位置关系矩阵
Figure GDA0003140442940000062
输入至多层注意力机制模型,然后不断调整训练参数,输出自然语句的注意力矩阵A=[a1,a2,…,aτ,…,aλ];在本实施例中,当λ取为5层时效果最佳。
S11、自然语句的语言语义表征
将自然语句的状态h与自然语句的注意力矩阵A进行点乘运算,得到自然语句固定长度的语言语义表征V;
V=[v1,v2,…,vτ,…,vλ]
Figure GDA0003140442940000063
其中,⊙表示点乘运算。
尽管上面对本发明说明性的具体实施方式进行了描述,以便于本技术领域的技术人员理解本发明,但应该清楚,本发明不限于具体实施方式的范围,对本技术领域的普通技术人员来讲,只要各种变化在所附的权利要求限定和确定的本发明的精神和范围内,这些变化是显而易见的,一切利用本发明构思的发明创造均在保护之列。

Claims (3)

1.一种基于注意力机制的自然语言语义表征方法,其特征在于,包括以下步骤:
(1)、自然语言预处理
随机下载一条完整独立的自然语句,然后剔除自然语句中的特殊字符,再按空格将自然语句划分为多个单词的集合S={W1,W2,…,Wi,…,WL},Wi表示自然语句中的第i个单词,L为单词总个数;
(2)、获取每个单词的词向量
将每一个单词输入至Seq2Word模型,输出得到每个单词的词向量;其中,Wi的词向量表示为wi
(3)、获取每个单词的字符向量
将每一个单词输入至Word2Char模型,输出得到每个单词的字符向量;其中,Wi的字符向量表示为ci
(4)、将自然语句中每个单词的词向量和字符向量拼接成该单词的语义向量;其中,Wi的词向量wi和字符向量ci拼接成的语义向量表示为ei
(5)、将自然语句中每个单词的语义向量拼接成该自然语句 的向量化序列x={e1,e2,…,ei,…,eL};
(6)、根据自然语句中单词的相对位置,利用自然语句的向量化序列构造位置关系矩阵mask_dis=Martix(|ei-ej|),其中,|ei-ej|表示第i个单词与第j个单词之间的绝对距离,Martix()表示根据绝对距离构造位置关系矩阵;
(7)、对自然语句的位置关系矩阵mask_dis进行离差标准化处理;
Figure FDA0003140442930000011
其中,max表示自然语句中任意两个单词之间的绝对距离的最大值,min表示自然语句中任意两个单词之间的绝对距离的最小值;
(8)、将自然语句的向量化序列x输入至3层的双向长短时间序列网络,输出该自然语句的状态h;
(9)、构造基于距离关系的多层注意力机制模型;
Figure FDA0003140442930000012
其中,τ=1,2,…,λ,λ表示多层注意力机制模型层数,aτ表示自然语句在多层注意力机制模型中第τ层的注意力矩阵,ατ,βτ
Figure FDA0003140442930000025
为自然语句在多层注意力机制模型中第τ层的训练参数,σ为激活函数,T表示转置;
(10)、利用多层注意力机制模型获取自然语句的注意力矩阵
将自然语句的状态h和自然语句的位置关系矩阵
Figure FDA0003140442930000021
输入至多层注意力机制模型,然后不断调整训练参数,输出自然语句的注意力矩阵A=[a1,a2,…,aτ,…,aλ];
(11)、自然语句的语言语义表征
将自然语句的状态h与自然语句的注意力矩阵A进行点乘运算,得到自然语句固定长度的语言语义表征V;
V=[v1,v2,…,vτ,…,vλ]
Figure FDA0003140442930000022
其中,⊙表示点乘运算。
2.根据权利要求1所述的一种基于注意力机制的自然语言语义表征方法,其特征在于,所述单词的字符向量的获取方法为:
(2.1)、根据给定的字符字典把自然语句的单词Wi转换为字符列表,i=1,2,…,L;
(2.2)、将字符列表输入至卷积神经网络,输出每个单词的字符特征;
(2.3)、将字符特征进行池化处理,得到每个单词的字符向量ci
3.根据权利要求1所述的一种基于注意力机制的自然语言语义表征方法,其特征在于,所述的
Figure FDA0003140442930000023
满足:
Figure FDA0003140442930000024
的大小在[0,1]之间。
CN201811562363.9A 2018-12-20 2018-12-20 一种基于注意力机制的自然语言语义表征方法 Active CN109684449B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201811562363.9A CN109684449B (zh) 2018-12-20 2018-12-20 一种基于注意力机制的自然语言语义表征方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201811562363.9A CN109684449B (zh) 2018-12-20 2018-12-20 一种基于注意力机制的自然语言语义表征方法

Publications (2)

Publication Number Publication Date
CN109684449A CN109684449A (zh) 2019-04-26
CN109684449B true CN109684449B (zh) 2021-12-10

Family

ID=66187998

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201811562363.9A Active CN109684449B (zh) 2018-12-20 2018-12-20 一种基于注意力机制的自然语言语义表征方法

Country Status (1)

Country Link
CN (1) CN109684449B (zh)

Families Citing this family (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111859977A (zh) * 2019-06-06 2020-10-30 北京嘀嘀无限科技发展有限公司 一种语义分析方法、装置、电子设备及存储介质
CN110188362B (zh) * 2019-06-10 2021-04-20 北京百度网讯科技有限公司 文本处理方法及装置
CN110413319B (zh) * 2019-08-01 2020-10-09 北京理工大学 一种基于深度语义的代码函数味道检测方法
CN110619127B (zh) * 2019-08-29 2020-06-09 内蒙古工业大学 一种基于神经网络图灵机的蒙汉机器翻译方法
CN110825829B (zh) * 2019-10-16 2023-05-26 华南理工大学 一种基于自然语言和语义地图实现机器人自主导航的方法
CN110766073B (zh) * 2019-10-22 2023-10-27 湖南科技大学 一种强化主题注意力机制的移动应用分类方法
CN111008266B (zh) * 2019-12-06 2023-09-26 北京金山数字娱乐科技有限公司 文本分析模型的训练方法及装置、文本分析方法及装置
CN111046185B (zh) * 2019-12-16 2023-02-24 重庆邮电大学 一种文本信息的知识图谱关系抽取方法、装置及终端

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107979764A (zh) * 2017-12-06 2018-05-01 中国石油大学(华东) 基于语义分割和多层注意力框架的视频字幕生成方法
AU2018203189A1 (en) * 2010-07-23 2018-05-31 President And Fellows Of Harvard College Methods of detecting neurological or neuropsychiatric diseases or conditions
US10049106B2 (en) * 2017-01-18 2018-08-14 Xerox Corporation Natural language generation through character-based recurrent neural networks with finite-state prior knowledge
CN108628823A (zh) * 2018-03-14 2018-10-09 中山大学 结合注意力机制和多任务协同训练的命名实体识别方法
CN108628828A (zh) * 2018-04-18 2018-10-09 国家计算机网络与信息安全管理中心 一种基于自注意力的观点及其持有者的联合抽取方法

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
AU2018203189A1 (en) * 2010-07-23 2018-05-31 President And Fellows Of Harvard College Methods of detecting neurological or neuropsychiatric diseases or conditions
US10049106B2 (en) * 2017-01-18 2018-08-14 Xerox Corporation Natural language generation through character-based recurrent neural networks with finite-state prior knowledge
CN107979764A (zh) * 2017-12-06 2018-05-01 中国石油大学(华东) 基于语义分割和多层注意力框架的视频字幕生成方法
CN108628823A (zh) * 2018-03-14 2018-10-09 中山大学 结合注意力机制和多任务协同训练的命名实体识别方法
CN108628828A (zh) * 2018-04-18 2018-10-09 国家计算机网络与信息安全管理中心 一种基于自注意力的观点及其持有者的联合抽取方法

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
A New Algorithm for Distributed Control Problem with Shortest-Distance Constraints;Yu Zhou,Wenfeng Zheng,Zhixi Shen;《Mathematical Problems in Engineering》;20161122;全文 *
Augmenting word embeddings through external knowledge-base for biomedical application;Kishlay Jha;Guangxu Xun;Vishrawas Gopalakrishnan;Aidong Zhang;《2017 IEEE International Conference on Big Data》;20171214;全文 *
基于词注意力卷积神经网络模型的情感分析研究;王盛玉;《中文信息学报》;20180920;全文 *

Also Published As

Publication number Publication date
CN109684449A (zh) 2019-04-26

Similar Documents

Publication Publication Date Title
CN109684449B (zh) 一种基于注意力机制的自然语言语义表征方法
LeCun et al. Deep learning
CN111581401B (zh) 一种基于深度相关性匹配的局部引文推荐系统及方法
CN107291795B (zh) 一种结合动态词嵌入和词性标注的文本分类方法
Chen et al. Research on text sentiment analysis based on CNNs and SVM
Xu et al. Investigation on the Chinese text sentiment analysis based on convolutional neural networks in deep learning.
Yao et al. Bi-directional LSTM recurrent neural network for Chinese word segmentation
Jungiewicz et al. Towards textual data augmentation for neural networks: synonyms and maximum loss
CN116415654A (zh) 一种数据处理方法及相关设备
WO2023137911A1 (zh) 基于小样本语料的意图分类方法、装置及计算机设备
WO2023159767A1 (zh) 目标词语的检测方法、装置、电子设备及存储介质
CN114881042B (zh) 基于图卷积网络融合句法依存与词性的中文情感分析方法
CN110647919A (zh) 一种基于k-均值聚类和胶囊网络的文本聚类方法及系统
Chen et al. Deep neural networks for multi-class sentiment classification
Li Review of research on text sentiment analysis based on deep learning
CN111191461B (zh) 一种基于课程学习的远程监督关系抽取方法
CN113157919A (zh) 语句文本方面级情感分类方法及系统
Boudad et al. Exploring the use of word embedding and deep learning in arabic sentiment analysis
Yang et al. Text classification based on convolutional neural network and attention model
Yang Natural language processing based on convolutional neural network and semi supervised algorithm in deep learning
CN112199503A (zh) 一种基于特征增强的非平衡Bi-LSTM的中文文本分类方法
Yin et al. Chinese emergency event recognition using conv-RDBiGRU model
Gupta et al. Detailed study of deep learning models for natural language processing
CN115329075A (zh) 基于分布式机器学习的文本分类方法
Chen et al. Text classification based on a new joint network

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant