CN111581351B - 一种基于多头自注意力机制的动态元嵌入方法 - Google Patents
一种基于多头自注意力机制的动态元嵌入方法 Download PDFInfo
- Publication number
- CN111581351B CN111581351B CN202010367701.4A CN202010367701A CN111581351B CN 111581351 B CN111581351 B CN 111581351B CN 202010367701 A CN202010367701 A CN 202010367701A CN 111581351 B CN111581351 B CN 111581351B
- Authority
- CN
- China
- Prior art keywords
- embedding
- attention mechanism
- self
- matrix
- word vector
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 32
- 230000007246 mechanism Effects 0.000 title claims abstract description 28
- 239000013598 vector Substances 0.000 claims abstract description 43
- 239000011159 matrix material Substances 0.000 claims abstract description 24
- 238000004364 calculation method Methods 0.000 claims abstract description 8
- 230000006870 function Effects 0.000 claims description 10
- 238000013507 mapping Methods 0.000 claims description 7
- 238000007781 pre-processing Methods 0.000 claims description 4
- 238000012549 training Methods 0.000 claims description 4
- NXPNPYNCKSWEHA-WDSKDSINSA-N methyl (2r)-2-amino-3-[[(2r)-2-amino-3-methoxy-3-oxopropyl]disulfanyl]propanoate Chemical compound COC(=O)[C@@H](N)CSSC[C@H](N)C(=O)OC NXPNPYNCKSWEHA-WDSKDSINSA-N 0.000 abstract description 7
- 238000012417 linear regression Methods 0.000 abstract description 4
- 230000003068 static effect Effects 0.000 description 4
- 238000003058 natural language processing Methods 0.000 description 3
- 230000008569 process Effects 0.000 description 3
- 230000009467 reduction Effects 0.000 description 3
- 230000000295 complement effect Effects 0.000 description 2
- 239000012141 concentrate Substances 0.000 description 2
- 230000006403 short-term memory Effects 0.000 description 2
- 230000004913 activation Effects 0.000 description 1
- 238000013528 artificial neural network Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 230000001419 dependent effect Effects 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 238000007429 general method Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000012360 testing method Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
- G06F16/334—Query execution
- G06F16/3344—Query execution using natural language analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/048—Activation functions
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Artificial Intelligence (AREA)
- General Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- General Engineering & Computer Science (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Data Mining & Analysis (AREA)
- Biomedical Technology (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Evolutionary Computation (AREA)
- Biophysics (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Life Sciences & Earth Sciences (AREA)
- Databases & Information Systems (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Machine Translation (AREA)
Abstract
本发明公开一种基于多头自注意力机制的动态元嵌入方法。所述方法包括:将输入句子中的每个词表示为词向量序列,将每个词向量映射到同一维度,基于多头自注意力机制计算嵌入矩阵,得到元嵌入表示的词向量矩阵。本发明利用多头自注意力机制进行多次计算,解决了现有DME、CDME动态元嵌入方法使用句子级别的自注意力确定不同嵌入集的权重,其中自注意力方法着重于学习各个词向量线性回归的参数,缺乏多角度的综合考虑,容易造成元嵌入权重的学习不充分的问题。
Description
技术领域
本发明属于自然语言理解领域,具体涉及一种基于多头自注意力机制的动态元嵌入方法。
背景技术
深度学习中的词向量(单词的分布式表示,也称为词嵌入)对自然语言处理的许多任务中都有应用。近年来,Word2Vec、GloVe等预训练嵌入集得到了广泛应用。元嵌入学习是是集成词嵌入的一种技术,目的是将同一个词的不同词嵌入通过某种方式融合得到新的词向量表示。元嵌入学习得到的元嵌入捕获了不同嵌入集中词法语义的互补信息。
元嵌入学习包括静态元嵌入和动态元嵌入。静态元嵌入把元嵌入学习作为预处理过程。CONC、SVD、1TON和1TON+是常用的四种基线静态元嵌入学习方法。前三种方法在嵌入集的重叠词汇上学习元嵌入。CONC串联来自不同嵌入集的单词向量。SVD在CONC的基础上执行降维操作。1TON假设存在该单词的元嵌入,比如一开始随机初始化元嵌入,并使用该元嵌入通过线性投影预测单个词向量集中该单词的表示,进行了微调的元嵌入期望包含来自所有嵌入集的知识。在静态元嵌入学习中,会遇到这样的未登录词问题:单词A在嵌入集M中出现,但是在嵌入集N中没有录入。为了解决未登录词问题,1TON+首先随机初始化OOV(Out-of-vocabulary)和元嵌入的向量表示,然后使用类似于1TON的预测设置来更新元嵌入和OOV嵌入。因此,1TON+同时达到两个目标:学习元嵌入和扩展词汇表(最终会是所有嵌入集词汇表的并集)。动态元嵌入将集成词向量的过程融入到特定NLP(Natural LanguageProcessing,自然语言处理)任务端到端模型的过程中,使得模型可以根据特定任务自主选择不同词向量的权重。将元嵌入思想应用于句子表示,可以动态地学习不同嵌入集的注意力权重。计算权重的基本框架包括元嵌入层、句子编码层、匹配层和分类器。嵌入层采用DME(dynamic meta-embeddings)算法,利用自注意力机制和门控函数,动态计算集成各个嵌入集的权重;也可采用上下文相关的CDME(contextualized DME)算法来增强投影嵌入,用双向的长短时记忆网络LSTM(Long Short-Term Memory)替代简单的线性映射。
DME和CDME动态元嵌入算法,使用句子级别的自注意力来确定不同嵌入集的权重,其中自注意力方法着重于学习各个词向量线性回归的参数,缺乏多角度的综合考虑,很容易造成元嵌入权重的学习不充分。
发明内容
为了解决现有技术中存在的上述问题,本发明提出一种基于多头自注意力机制的动态元嵌入方法。
为实现上述目的,本发明采用如下技术方案:
一种基于多头自注意力机制的动态元嵌入方法,包括以下步骤:
步骤2,通过一个全连接层将每个词向量映射到同一维度,表示为:
w′i,j=piwi,j+ci (1)
其中,pi、ci为学习参数;
步骤3,基于多头自注意力机制计算嵌入矩阵,按(2)~(5)式得到元嵌入表示的词向量矩阵B=[w″i,j]n×s:
XR×1=(x1,x2,…,xR)T (5)
其中,ar、br和xr为学习参数,r=1,2,…,R,R为多头自注意力机制的计算次数,A1×R为嵌入矩阵,φ为softmax或sigmoid门控函数。
与现有技术相比,本发明具有以下有益效果:
本发明通过将输入句子中的每个词表示为词向量序列,将每个词向量映射到同一维度,基于多头自注意力机制计算嵌入矩阵,得到元嵌入表示的词向量矩阵,实现了词向量序列的动态嵌入。本发明由于利用多头自注意力机制进行多次计算,解决了现有动态元嵌入(DME、CDME)使用句子级别的自注意力确定不同嵌入集的权重,其中自注意力方法侧重学习各个词向量线性回归的参数,缺乏多角度的综合考虑,容易造成元嵌入权重的学习不充分的问题。
附图说明
图1为基于多头自注意力机制进行动态元嵌入的结构框图。
具体实施方式
下面结合附图1对本发明作进一步详细说明。
本发明实施例一种基于多头自注意力机制的动态元嵌入方法,包括以下步骤:
S102、通过一个全连接层将每个词向量映射到同一维度,表示为:
w′i,j=piwi,j+ci (1)
其中,pi、ci为学习参数;
S103、基于多头自注意力机制计算嵌入矩阵,按(2)~(5)式得到元嵌入表示的词向量矩阵B=[w″i,j]n×s:
XR×1=(x1,x2,…,xR)T (5)
其中,ar、br和xr为学习参数,r=1,2,…,R,R为多头自注意力机制的计算次数(即头数),A1×R为嵌入矩阵(也称多头自注意力矩阵),φ为softmax或sigmoid门控函数。
在本实施例中,步骤S101主要用于将输入句子中的每个词表示为词向量序列。词向量序列指的是同一个词在n个嵌入集上的词嵌入集合,例如,将单词“USE”嵌入n=3个嵌入集GloVe、fastText和word2vec,用GloVe得到w_1,用fastText得到w_2,用word2vec得到w_3,则W_(USE)={w_1,w_2,w_3},需要对这个词向量序列做元嵌入。
步骤S102主要用于将每个词向量映射到同一维度。根据(1)式,如果当前词向量wi,j的维度为d×1,pi的维度为d′×d,ci是的维度为d′×1,则映射后w′i,j的维度为d′×1。维度值一般取200~300比较适宜。
步骤S103主要用于基于多头自注意力机制实现动态元嵌入。多头自注意力机制是自注意力机制的拓展,多头就是指计算多次。每个自注意力计算,首先经过简单的线性映射和tanh激活函数,再用softmax或者sigmoid门控函数进行降维,得到一个求和权重向量。经过多次的自注意力计算后得到嵌入矩阵,从而实现基于多头自注意力机制的动态元嵌入,得到元嵌入表示向量。得到元嵌入表示向量后,将元嵌入作为每个词的表示输入到上层神经网络(如编码层、匹配层和分类器),最终通过分类器映射到维度为标签数的one-hot向量。
本实施例采用多头自注意力机制,通过多次不同角度的自注意力计算,可以学习到互补的权重参数,使元嵌入权重的学习会更加充分,因此,可以解决现有的DME、CDME动态元嵌入方法使用句子级别的自注意力确定不同嵌入集的权重,由于其中自注意力方法侧重学习各个词向量线性回归的参数,缺乏多角度的综合考虑,容易造成元嵌入权重的学习不充分的问题。
作为一种可选实施例,所述方法还包括降低输入文本噪声的预处理步骤。
在本实施例中,通过预处理降低输入文本的噪声。降噪方法一般包括:去除干扰的标点符号,去除停用词,字母强制小写,限定句子最大长度。
作为一种可选实施例,所述方法还包括将训练模型的损失函数增加一个惩罚项NewPT:
在本实施例中,由于多头自注意力机制始终提供R个相似的求和权重(a1,a2,…,aR),则嵌入矩阵可能会出现冗余问题。因此,训练模型的目标函数需要在原损失项的基础上迭加一个惩罚项来鼓励不同关注点之间求和权重向量的多样性。评估多样性的一般方法是利用任意两个求和权重向量之间的Kullback Leibler差异(以下简称KL散度),KL=ailoge(ai/aj)。根据KL的表达式可以看出,此方法没有对(a1,a2,…,aR)的差异性进行约束,以包含KL的目标函数学习得到的参数,很可能形成冗余,也就是说(a1,a2,…,aR)很可能都是相似的。因此,KL惩罚项不能使每个权重向量都能专注语义的一个方面。为此,本实施例引入一个区别于KL的新的惩罚项,使用嵌入矩阵的转置与嵌入矩阵的积减去单位矩阵I后的Frobenius范数,作为冗余的度量,见(6)式。这样可以使不同的权重向量关注的部分不一样。减去单位矩阵I后,对角线上的特征元素近似为1,这样可以鼓励每个求和向量集中在尽可能少的特征元素上,从而迫使每个向量集中于一个方面,而所有其它元素都设为0,这将惩罚不同求和向量之间的冗余。
下面给出本发明所述方法及现有的DME、CDME动态嵌入方法,应用于识别两个句子是否表达相同的含义时的一组实验数据。表1是在NLI数据集(SNLI Dev,SNLI Test,MultiNLI mismatched,MultiNLI matched)及全集AllNLI上的实验结果,表中的数据是识别的准确率。
表1 NLI数据集上的实验结果对比
由表1的结果可以看出,本发明在自然语言推理任务中,在NLI数据集上的识别准确率优于现有DME、CDME动态嵌入方法。在全集AllNLI上也有很好的表现。
上述仅对本发明中的几种具体实施例加以说明,但并不能作为本发明的保护范围,凡是依据本发明中的设计精神所做出的等效变化或修饰或等比例放大或缩小等,均应认为落入本发明的保护范围。
Claims (3)
1.一种基于多头自注意力机制的动态元嵌入方法,其特征在于,包括以下步骤:
步骤2,通过一个全连接层将每个词向量映射到同一维度,表示为:
w′i,j=piwi,j+ci (1)
其中,pi、ci为学习参数;
步骤3,基于多头自注意力机制计算嵌入矩阵,按(2)~(5)式得到元嵌入表示的词向量矩阵B=[w″i,j]n×s:
XR×1=(x1,x2,…,xR)T (5)
其中,ar、br和xr为学习参数,r=1,2,…,R,R为多头自注意力机制的计算次数,A1×R为嵌入矩阵,φ为softmax或sigmoid门控函数。
2.根据权利要求1所述的基于多头自注意力机制的动态元嵌入方法,其特征在于,所述方法还包括降低输入句子噪声的预处理步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010367701.4A CN111581351B (zh) | 2020-04-30 | 2020-04-30 | 一种基于多头自注意力机制的动态元嵌入方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010367701.4A CN111581351B (zh) | 2020-04-30 | 2020-04-30 | 一种基于多头自注意力机制的动态元嵌入方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111581351A CN111581351A (zh) | 2020-08-25 |
CN111581351B true CN111581351B (zh) | 2023-05-02 |
Family
ID=72111927
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010367701.4A Active CN111581351B (zh) | 2020-04-30 | 2020-04-30 | 一种基于多头自注意力机制的动态元嵌入方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111581351B (zh) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112818697A (zh) * | 2021-01-26 | 2021-05-18 | 山西三友和智慧信息技术股份有限公司 | 一种基于自然语言处理和语义相似任务的元嵌入系统 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108399163A (zh) * | 2018-03-21 | 2018-08-14 | 北京理工大学 | 结合词聚合与词组合语义特征的文本相似性度量方法 |
CN109635109A (zh) * | 2018-11-28 | 2019-04-16 | 华南理工大学 | 基于lstm并结合词性及多注意力机制的句子分类方法 |
CN109948165A (zh) * | 2019-04-24 | 2019-06-28 | 吉林大学 | 基于混合注意力网络的细粒度情感极性预测方法 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US10817650B2 (en) * | 2017-05-19 | 2020-10-27 | Salesforce.Com, Inc. | Natural language processing using context specific word vectors |
-
2020
- 2020-04-30 CN CN202010367701.4A patent/CN111581351B/zh active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108399163A (zh) * | 2018-03-21 | 2018-08-14 | 北京理工大学 | 结合词聚合与词组合语义特征的文本相似性度量方法 |
CN109635109A (zh) * | 2018-11-28 | 2019-04-16 | 华南理工大学 | 基于lstm并结合词性及多注意力机制的句子分类方法 |
CN109948165A (zh) * | 2019-04-24 | 2019-06-28 | 吉林大学 | 基于混合注意力网络的细粒度情感极性预测方法 |
Non-Patent Citations (3)
Title |
---|
WeijiangLi.Bidirectional LSTM with self-attention mechanism and multi-channel features for sentiment classification.《Neurocomputing》.2020,全文. * |
Zhuosheng Zhang.Effective Subword Segmentation for Text Comprehension.《IEEE/ACM Transactions on Audio, Speech, and Language Processing ( Volume: 27, Issue: 11, November 2019)》.2019,全文. * |
凡子威 ; 张民 ; 李正华 ; .基于BiLSTM并结合自注意力机制和句法信息的隐式篇章关系分类.计算机科学.2019,(05),全文. * |
Also Published As
Publication number | Publication date |
---|---|
CN111581351A (zh) | 2020-08-25 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110609891B (zh) | 一种基于上下文感知图神经网络的视觉对话生成方法 | |
CN108171198B (zh) | 基于非对称多层lstm的连续手语视频自动翻译方法 | |
CN110377903B (zh) | 一种句子级实体和关系联合抽取方法 | |
CN111881262B (zh) | 基于多通道神经网络的文本情感分析方法 | |
CN107704456B (zh) | 识别控制方法以及识别控制装置 | |
US11328125B2 (en) | Method and server for text classification using multi-task learning | |
CN113204633B (zh) | 一种语义匹配蒸馏方法及装置 | |
CN112100375A (zh) | 文本信息生成方法、装置、存储介质及设备 | |
CN111582506A (zh) | 基于全局和局部标记关系的偏多标记学习方法 | |
CN116341651A (zh) | 实体识别模型训练方法、装置、电子设备及存储介质 | |
CN110852071B (zh) | 知识点检测方法、装置、设备及可读存储介质 | |
CN111581351B (zh) | 一种基于多头自注意力机制的动态元嵌入方法 | |
CN114841151A (zh) | 基于分解-重组策略的医学文本实体关系联合抽取方法 | |
CN112651225B (zh) | 一种基于多阶段最大化注意力的多项选择机器阅读理解的方法 | |
CN113761188A (zh) | 文本标签确定方法、装置、计算机设备和存储介质 | |
JP4054046B2 (ja) | 意見性判定データベース作成方法及び装置及びプログラム及び意見性判定方法及び装置及びプログラム及びコンピュータ読み取り可能な記録媒体 | |
CN112906398A (zh) | 句子语义匹配方法、系统、存储介质和电子设备 | |
CN116561272A (zh) | 开放域视觉语言问答方法、装置、电子设备及存储介质 | |
CN116680407A (zh) | 一种知识图谱的构建方法及装置 | |
CN116484885A (zh) | 基于对比学习和词粒度权重的视觉语言翻译方法和系统 | |
CN116362242A (zh) | 一种小样本槽值提取方法、装置、设备及存储介质 | |
CN116306869A (zh) | 训练文本分类模型的方法、文本分类方法及对应装置 | |
Goel et al. | Injecting prior knowledge into image caption generation | |
CN115905527A (zh) | 一种基于先验知识的bert模型的方面级情感分析方法 | |
CN115510230A (zh) | 一种基于多维特征融合与比较增强学习机制的蒙古语情感分析方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |