CN110334339A - 一种基于位置感知自注意力机制的序列标注模型与标注方法 - Google Patents
一种基于位置感知自注意力机制的序列标注模型与标注方法 Download PDFInfo
- Publication number
- CN110334339A CN110334339A CN201910362637.8A CN201910362637A CN110334339A CN 110334339 A CN110334339 A CN 110334339A CN 201910362637 A CN201910362637 A CN 201910362637A CN 110334339 A CN110334339 A CN 110334339A
- Authority
- CN
- China
- Prior art keywords
- attention
- self
- sequence
- context
- output
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 230000007246 mechanism Effects 0.000 title claims abstract description 51
- 238000002372 labelling Methods 0.000 title claims abstract description 21
- 238000000034 method Methods 0.000 title claims abstract description 17
- 230000004927 fusion Effects 0.000 claims abstract description 44
- 239000013598 vector Substances 0.000 claims abstract description 14
- 230000006870 function Effects 0.000 claims description 53
- 239000011159 matrix material Substances 0.000 claims description 22
- 230000004913 activation Effects 0.000 claims description 16
- 230000008447 perception Effects 0.000 claims description 15
- 238000002474 experimental method Methods 0.000 claims description 7
- 230000008569 process Effects 0.000 claims description 6
- 238000004364 calculation method Methods 0.000 claims description 5
- 238000000926 separation method Methods 0.000 claims description 5
- 238000000605 extraction Methods 0.000 claims description 3
- 238000012545 processing Methods 0.000 claims description 3
- 230000008859 change Effects 0.000 claims description 2
- 230000000295 complement effect Effects 0.000 abstract description 3
- 238000013528 artificial neural network Methods 0.000 description 6
- 230000000694 effects Effects 0.000 description 4
- 238000010586 diagram Methods 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 108091026890 Coding region Proteins 0.000 description 1
- 239000000654 additive Substances 0.000 description 1
- 230000000996 additive effect Effects 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000000052 comparative effect Effects 0.000 description 1
- 238000013527 convolutional neural network Methods 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 230000003467 diminishing effect Effects 0.000 description 1
- 238000011156 evaluation Methods 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 238000003058 natural language processing Methods 0.000 description 1
- 238000003062 neural network model Methods 0.000 description 1
- 230000000306 recurrent effect Effects 0.000 description 1
- 230000035945 sensitivity Effects 0.000 description 1
- 230000000153 supplemental effect Effects 0.000 description 1
- 238000012549 training Methods 0.000 description 1
- 230000009466 transformation Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/044—Recurrent networks, e.g. Hopfield networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/084—Backpropagation, e.g. using gradient descent
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- General Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- General Engineering & Computer Science (AREA)
- Biomedical Technology (AREA)
- Evolutionary Computation (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Data Mining & Analysis (AREA)
- Biophysics (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Life Sciences & Earth Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Image Analysis (AREA)
Abstract
本发明公开了一种基于位置感知自注意力机制的序列标注模型与标注方法,该序列标注模型将自注意上下文融合层作为BiLSTM‑CRF模型的扩展,构造新的序列标注模型;该模型包括自注意上下文融合层和BiLSTM组成的编码器,以及作为解码器的CRF层;所述自注意上下文融合层,用于以词的特征向量表示序列作为输入,通过位置感知自注意力机制建立结合位置信息后序列中各词语与设定特定词语间的关联,得到序列中所有词语特征向量表示的加权和作为该特定词的输出特征。本发明提出的方法通过引入自注意上下文融合层,能够充分提取单词之间的潜在关系,从而可以在Bi‑LSTM的基础上提供互补的上下文信息。
Description
技术领域
本发明涉及自然语言处理技术,尤其涉及一种基于位置感知自注意力机制的序列标注模型与标注方法。
背景技术
传统的序列标注方法通常基于经典机器学习算法,例如隐马尔可夫模型 (HMM)和条件随机场(CRF),但这些方法均严重依赖于手工特征或与特定语言相关的资源。随着深度学习的进步,许多基于深度神经网络模型的研究致力于增强序列标注任务的效果,其通常将字符和单词信息以特征向量表示用于输入,并且以端到端的训练方式学习每个单词的句子级上下文表示。最近,许多研究工作构建以循环神经网络(RNN)为基础的架构,例如BiLSTM-CNN,LSTM-CRF 和LSTM-CNN-CRF等。尽管这些模型在序列标注任务上展现出卓越的性能,但其将全部历史信息编码到前一词的隐含状态,从而递归处理每个单词的模式存在局限性,这种序列化处理输入的方式可能会限制其捕获单词间潜在的相互独立关系的能力,从而在一定程度上削弱模型对上下文依赖的敏感性。
发明内容
本发明要解决的技术问题在于针对现有技术中的缺陷,提供一种基于位置感知自注意力机制的序列标注模型与标注方法。
本发明解决其技术问题所采用的技术方案是:一种基于位置感知自注意力机制的序列标注模型,该模型将自注意上下文融合层作为BiLSTM-CRF模型的扩展,构造新的序列标注模型;该模型包括自注意上下文融合层和BiLSTM组成的编码器,以及作为解码器的CRF层;
所述自注意上下文融合层,用于以词的特征向量表示序列作为输入,通过位置感知自注意力机制建立结合位置信息后序列中各词语与设定特定词语间的关联,得到序列中所有词语特征向量表示的加权和作为该特定词的输出特征;
BiLSTM,由正向和反向的长短时记忆网络LSTM组成;正向和反向LSTM接收自注意上下文融合层的输出特征作为输入,分别编码当前时刻的上文和下文信息;两者的编码信息合并构成每个词的全局语义特征表示;
CRF层,用于接收编码器的输出作为输入,根据序列得分选择全局最优的标签序列。
按上述方案,所述位置感知自注意力机制为在计算注意力权值过程中引入词语间的相对位置信息。
按上述方案,所述编码器还包括用于对BiLSTM的输出进行进一步处理,通过提供补充的上下文信息,得到最终待解码的特征表示的自注意上下文融合层。
该自注意上下文融合层的结构与前一个自注意上下文融合层相同。
按上述方案,所述自注意上下文融合层根据输入序列得到输出特征的过程如下:
针对某特定词语,首先计算序列中所有词语和它的注意力权值,即对齐分数,在计算对齐分数过程中引入词语间的相对位置信息,然后以归一化后的对齐分数作为权重,计算所有词语表示的加权之和,得到该特定词语经过注意力机制的输出;
为了增强自注意力网络的特征抽取能力,在上述输出基础上再进行两次全连接运算,通过非线性变化增强模型的表示能力;
最后,通过一个融合门控机制,将该特定词语输入该上下文融合层前的特征表示与全连接层的输出做线性求和,得到该词语经过自注意上下文信息融合层的最终特征输出。
按上述方案,所述位置感知自注意力机制表示如下:
假设由各元素表示组成的序列其中为了测量每个对指定元素的注意权重,采用兼容性函数来测量和间的对齐得分;然后通过softmax函数对X内所有元素进行归一化以转换对齐分数,即:
的自注意力的输出为根据X中各元素对齐分数得到的所有元素表示的加权之和,即:
采用两个全连接层来转换自注意力机制的输出
其中为待训练的权重矩阵,为偏置项,tanh为激活函数,代表xi通过自注意力机制的输出;
xi的最终上下文感知表示是自注意层的输入和全连接层输出的线性组合,即:
其中,是融合门中待训练的权重矩阵,sigmoid 函数为激活函数;
其中,兼容性函数
其中,是待训练的权重矩阵, 为偏置项,σ为激活函数,Ψij(·)为包含如下三项的位置偏置函数:
其中,
为自禁掩码偏置函数,对于特定元素xi,自注意力机制的目标是衡量其对其他元素的依赖性,因此需要将每个元素对自身注意力屏蔽;
其中,-∞被用来忽视自注意力机制中元素自身的贡献;
为距离感知高斯偏置函数,在序列标注任务上建模考虑本地上下文相对位置信息,通过距离感知高斯偏差来控制指定标记xi的局部上下文的范围;
其中,i,j均表示元素在序列中的位置,参数ε是标准偏差,设定为ε=k/2,k 表示窗口大小,在我们的实验中根据经验设置为10;
为用于表示特定于元素的位置偏置函数,
考虑相对距离影响注意力分布的方式对于不同的元素可能不相同引入特定于元素的位置偏置函数,一个标量由和W(3)的第C(i-j,k)个元素通过向量内积计算得到,其中C(i-j,k)为元素xi和xj之间的相对距离估计:
其中,是待训练的权重矩阵;k是一个非负值,反映了两个不同元素之间的最大间距,即如果两个元素之间的相对距离大于阈值k,则将相对距离置为k,C(i-j,k)用于表示W(3)的下标并由下式给出:
一种基于位置感知自注意力机制的序列标注方法,包括以下步骤:
1)基于自注意上下文融合层的特征表示阶段
自注意上下文融合层对输入词语的特征向量表示序列进行加权得到词的特征表示和对齐分数组合;
假设由各元素表示组成的序列其中为了测量每个对指定元素的注意权重,采用兼容性函数来测量和间的对齐得分;然后通过softmax函数对X内所有元素进行归一化以转换对齐分数,即:
的自注意力的输出为X中所有元素对齐分数的加权和,即:
采用两个全连接层来转换注意力模块的输出
其中为待训练的权重矩阵,为偏置项,tanh为激活函数,代表xi通过自注意力机制的输出;
xi的最终上下文感知表示是自注意层xi的输入和全连接层输出的线性组合,即:
其中,是融合门中待训练的权重矩阵,sigmoid 函数为激活函数;
2)利用BiLSTM的编码阶段
采用BiLSTM进行上下文信息编码,并对BiLSTM的编码结果采用自注意上下文融合层加权求和;
3)解码阶段
采用句级对数似然函数CRF层进行标签解码。
按上述方案,所述步骤1)中兼容性函数
其中,σ(·)是激活函数, 是待训练的权重矩阵,为偏置项,σ为激活函数,;
其中,Ψij(·)为包含如下三项的位置偏置函数:
其中,
为自禁掩码偏置函数,对于特定元素xi,自注意力机制的目标是衡量其对其他元素的依赖性,因此需要将每个元素对自身注意力屏蔽;
其中,-∞被用来忽视自注意力机制中元素自身的贡献;
为距离感知高斯偏置函数,在序列标注任务上建模考虑本地上下文相对位置信息,通过距离感知高斯偏差来控制指定标记xi的局部上下文的范围;
其中,i,j均表示元素在序列中的位置,参数ε是标准偏差,设定为ε=k/2,k 表示窗口大小,在我们的实验中根据经验设置为10;
为用于表示特定于元素的位置偏置函数,
考虑相对距离影响注意力分布的方式对于不同的元素可能不相同引入特定于元素的位置偏置函数,一个标量由的内积和W(3)的第C(i-j,k)个元素计算得到,其中C(i-j,k)为元素xi和xj之间的相对距离估计:
其中,是待训练的权重矩阵;k是一个非负值,反映了两个不同元素之间的最大间距,即如果两个元素之间的相对距离大于阈值k,则将相对距离置为k,C(i-j,k)用于表示W(3)的下标并由下式给出:
注意,相对位置的最大值被限制在阈值k内,是基于精确的相对位置信息超出特定距离之外失去效用的假设下。
按上述方案,采用两个全连接层来转换注意力模块的输出,具体如下:
其中为待训练的权重矩阵,,为偏置项,tanh为激活函数,代表xi通过自注意力机制的输出,
由于引入了一个禁用对角线的掩码来禁用每个元素对其自身的注意力,使用融合门将每个元素自身的信息与其上下文相结合,xi的最终上下文感知表示是自注意层xi的输入和全连接层输出的线性组合,即:
其中,是融合门中待训练的权重矩阵。
本发明产生的有益效果是:通过结合基于位置感知的自注意力机制,并将自注意上下文融合层结合到神经网络结构中,本发明提出的方法能够充分提取单词之间的潜在关系,并在Bi-LSTM的基础上提供互补的上下文信息,进而更好地提取每个单词的全局语义特征,以及对序列中单词的上下文依赖性进行建模,最终可以实现在序列标注任务上取得更好的预测效果。
附图说明
下面将结合附图及实施例对本发明作进一步说明,附图中:
图1是本发明实施例的序列标注模型的结构示意图;
图2是本发明实施例的序列标注方法中自注意上下文融合层的结构示意图。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅用以解释本发明,并不用于限定本发明。
如图1所示,本发明提出了一种用于序列标注任务的神经网络架构,它包含一个新颖的上下文融合层,通过提供补充的上下文信息,以更好地对上下文依赖性建模。具体地,所提出的上下文融合层被并入整体架构中的不同级别,即,添加一层用于重新加权初始输入(在分布式表示层之后),另一层被添加用于重新加权单词级Bi-LSTM层的输出。
接着,我们将详细介绍本发明提出的序列标注模型。首先介绍一个新颖的位置感知自注意力机制,接着展示基于此的上下文融合层。
本发明提出了一种新颖的位置感知自注意力机制,以便更好地捕捉哪个元素对同一序列中的指定元素很重要。具体而言,假设由各元素表示组成的序列其中为了测量每个对指定元素的注意权重,采用兼容性函数来测量和间的相似性(即,对齐得分);然后通过 softmax函数对X内所有元素进行归一化以转换对齐分数,即:
的自注意力的输出由X中所有元素对齐分数的加权和,得到,即:
许多不同的注意力机制均由上述形式提出,但在兼容性函数上有所不同,本发明采用加法注意机制,它由一层前馈神经网络实现,并且在实践中通常优于其他方法,其计算方法是:
其中,σ(·)是激活函数,代表权重矩阵,和b分别代表权重向量和偏置向量。
位置建模有利于自注意力网络,为此,与直接编码序列中元素的绝对位置作为注意力机制的输入相反,这里我们通过对兼容性函数引入三个不同的位置因素,探索输入序列的位置信息以扩展自注意力模型,即自禁掩码偏置 (self-disabled mask bias),距离感知高斯偏置(distance-aware Gaussian bias)和特定于元素的位置偏置(token-specific position bias),因此可以称为位置感知自注意力机制被重写为:
其中,Ψij(·)为包含如下三项的位置偏置函数:
Mij(·)、Pij(·)和Gij(·)分别是这三项的输出,接下来将对其逐一介绍。
自禁掩码偏置
对于特定元素xi,自注意力机制的目标是衡量其对其他元素的依赖性,因此有必要将每个元素对自身注意力屏蔽。因此,我们采用自禁掩码偏置,即:
其中,-∞被用来忽视自注意力机制中元素自身的贡献。
距离感知高斯偏置
自注意力机制对全局依赖关系建模,却不考虑元素间的距离,而相对位置信息对于在序列标注任务上建模本地上下文很重要。在不失一般性的情况下,我们以词性标注为例,与其他距离较远的词语相比,特定词语的词性标签更可能受其邻近元素的影响。为了有利于自注意力机制建模短距离依赖性,我们考虑了通过距离感知高斯偏差来控制指定标记xi的局部上下文的范围,其定义为
其中,i表示的位置;参数ε是根据经验设定为ε=k/2的标准偏差;k是一个窗口大小,在我们的实验中根据经验设置为10。
特定于元素的位置偏置
高斯偏差仅考虑元素间的相对距离信息,然而,相对距离影响注意力分布的方式对于不同的元素可能不相同。因而,可以通过以更灵活的方式来考虑元素间的相对距离,,一个标量由的内积和W(3)的第C(i-j,k)个元素计算得到,其中C(i-j,k)由元素xi和xj之间的相对距离估计:
其中,W是权重矩阵;k是一个非负值,反映了两个不同元素之间的最大间距。换句话说,如果两个元素之间的相对距离大于阈值k,则它将被削减为k。计算过程可以通过C(i-j,k)计算得到,它表示W(3)的下标并由下式给出:
相对位置的最大值被限制在阈值k内,是基于精确的相对位置信息超出特定距离之外失去效用的假设下。
神经网络的成功源于其高度灵活的非线性变换。由于注意力机制利用加权求和来生成输出向量,其表示能力是有限的。为了进一步增强本发明中注意力层的特征提取能力,我们考虑采用两个全连接层来转换注意力模块的输出,具体由下式表示:
其中为待训练的权重矩阵,代表xi通过自注意力机制的输出。
由于我们引入了一个禁用对角线的掩码来禁用每个元素对其自身的注意力,因此所提出的自注意力层的输出不足以建模上下文感知的表示。因此我们使用融合门将每个元素自身的信息与其上下文相结合(如图2所示)。xi的最终上下文感知表示是自注意层xi的输入和全连接层输出的线性组合,即:
其中是融合门中待训练的权重矩阵。
经实验表明,相比已有主流方法,本发明的序列标注方法取得了更好的效果。实验采用两个基准序列标注数据集进行评估,即CoNLL 2003命名实体识别数据集(CoNLL03)和Penn Treebank数据集(WSJ)的华尔街日报部分(词性标注)。语料库的详细信息如表1所示。
表1语料库信息
实验部分旨在评估本发明所提出的序列标注模型在不同数据集上的有效性。具体来说,我们列出了CoNLL 2003命名实体识别任务的标准F1分数,以及WSJ 上词性标注任务的准确率作为模型的评价指标,实验对比结果分别在表2和表3 中给出。
表2 CoNLL 2003NER对比实验结果
表3 WSJ词性标注对比实验结果
值得注意的是,从以上二表中可以观察到,本发明提出的方法在不同的序列标注任务中始终优于所有这些基准模型。因为这些模型大多采用Bi-LSTM作为上下文编码器架构,其以顺序方式处理输入的策略使其不能直接捕捉两个词之间的关系,因此模型忽略了部分位置信息以用于建模上下文依赖性。通过将自注意上下文融合层结合到神经网络结构中,本发明提出的方法能够充分提取单词之间的潜在关系,从而可以在Bi-LSTM的基础上提供互补的上下文信息。
应当理解的是,对本领域普通技术人员来说,可以根据上述说明加以改进或变换,而所有这些改进和变换都应属于本发明所附权利要求的保护范围。
Claims (6)
1.一种基于位置感知自注意力机制的序列标注模型,其特征在于,该模型将自注意上下文融合层作为BiLSTM-CRF模型的扩展,构造新的序列标注模型;该模型包括自注意上下文融合层和BiLSTM组成的编码器,以及作为解码器的CRF层;
所述自注意上下文融合层,用于以词的特征向量表示序列作为输入,通过位置感知自注意力机制建立结合位置信息后序列中各词语与设定特定词语间的关联,得到序列中所有词语特征向量表示的加权和作为该特定词的输出特征;
BiLSTM,由正向和反向的长短时记忆网络LSTM组成;正向和反向LSTM接收自注意上下文融合层的输出特征作为输入,分别编码当前时刻的上文和下文信息;两者的编码信息合并构成每个词的全局语义特征表示;
CRF层,用于接收编码器的输出作为输入,根据序列得分选择全局最优的标签序列。
2.根据权利要求1所述的基于位置感知自注意力机制的序列标注模型,其特征在于,所述编码器还包括用于对BiLSTM的输出进行进一步处理,通过提供补充的上下文信息,得到最终待解码的特征表示的第二自注意上下文融合层。
3.根据权利要求1或2所述的基于位置感知自注意力机制的序列标注模型,其特征在于,所述自注意上下文融合层根据输入序列得到输出特征的过程如下:
针对某特定词语,首先计算序列中所有词语和它的注意力权值,即对齐分数,在计算对齐分数过程中引入词语间的相对位置信息,然后以归一化后的对齐分数作为权重,计算所有词语表示的加权之和,得到该特定词语经过注意力机制的输出;
为了增强自注意力网络的特征抽取能力,在上述输出基础上再进行两次全连接运算,通过非线性变化增强模型的表示能力;
最后,通过一个融合门控机制,将该特定词语输入该上下文融合层前的特征表示与全连接层的输出做线性求和,得到该词语经过自注意上下文信息融合层的最终特征输出。
4.根据权利要求1所述的基于位置感知自注意力机制的序列标注模型,其特征在于,所述位置感知自注意力机制表示如下:
假设由各元素表示组成的序列其中为了测量每个对指定元素的注意权重,采用兼容性函数来测量和间的对齐得分;然后通过softmax函数对X内所有元素进行归一化以转换对齐分数,即:
的自注意力的输出为根据X中各元素对齐分数得到的所有元素表示的加权之和,即:
采用两个全连接层来转换自注意力机制的输出
其中W(z1),为待训练的权重矩阵,为偏置项,tanh为激活函数,代表xi通过自注意力机制的输出;
xi的最终上下文感知表示是自注意层的输入和全连接层输出的线性组合,即:
其中,W(f1),W(f2),是融合门中待训练的权重矩阵,sigmoid函数为激活函数;
其中,兼容性函数
其中,W(1),是待训练的权重矩阵, 为偏置项,σ为激活函数,Ψij(·)为包含如下三项的位置偏置函数:
其中,
为自禁掩码偏置函数,对于特定元素xi,自注意力机制的目标是衡量其对其他元素的依赖性,因此需要将每个元素对自身注意力屏蔽;
其中,-∞被用来忽视自注意力机制中元素自身的贡献;
为距离感知高斯偏置函数,在序列标注任务上建模考虑本地上下文相对位置信息,通过距离感知高斯偏差来控制指定标记xi的局部上下文的范围;
其中,i,j均表示元素在序列中的位置,参数ε是标准偏差,设定为ε=k/2,k表示窗口大小;
为用于表示特定于元素的位置偏置函数,
考虑相对距离影响注意力分布的方式对于不同的元素可能不相同引入特定于元素的位置偏置函数,一个标量由和W(3)的第C(i-j,k)个元素通过向量内积计算得到,其中C(i-j,k)为元素xi和xj之间的相对距离估计:
其中,是待训练的权重矩阵;k是一个非负值,反映了两个不同元素之间的最大间距,即如果两个元素之间的相对距离大于阈值k,则将相对距离置为k,C(i-j,k)用于表示W(3)的下标并由下式给出:
5.一种基于位置感知自注意力机制的序列标注方法,其特征在于,包括以下步骤:
1)基于自注意上下文融合层的特征表示阶段
自注意上下文融合层对输入词语的特征向量表示序列进行加权得到词的特征表示和对齐分数组合;
假设由各元素表示组成的序列其中为了测量每个对指定元素的注意权重,采用兼容性函数来测量和间的对齐得分;然后通过softmax函数对X内所有元素进行归一化以转换对齐分数,即:
的自注意力的输出为X中所有元素对齐分数的加权和,即:
采用两个全连接层来转换注意力模块的输出
其中W(z1),为待训练的权重矩阵,为偏置项,tanh为激活函数,代表xi通过自注意力机制的输出;
xi的最终上下文感知表示是自注意层xi的输入和全连接层输出的线性组合,即:
其中,W(f1),W(f2),是融合门中待训练的权重矩阵,sigmoid函数为激活函数;
2)利用BiLSTM的编码阶段
采用BiLSTM进行上下文信息编码,并对BiLSTM的编码结果采用自注意上下文融合层加权求和;
3)解码阶段
采用句级对数似然函数CRF层进行标签解码。
6.根据权利要求5所述的基于位置感知自注意力机制的序列标注方法,其特征在于,所述步骤1)中兼容性函数如下:
其中σ(·)是激活函数,W(1),是待训练的权重矩阵,为偏置项,σ为激活函数;
其中,Ψij(·)为包含如下三项的位置偏置函数:
其中,
为自禁掩码偏置函数,对于特定元素xi,自注意力机制的目标是衡量其对其他元素的依赖性,因此需要将每个元素对自身注意力屏蔽;
其中,-∞被用来忽视自注意力机制中元素自身的贡献;
为距离感知高斯偏置函数,在序列标注任务上建模考虑本地上下文相对位置信息,通过距离感知高斯偏差来控制指定标记xi的局部上下文的范围;
其中,i,j均表示元素在序列中的位置,参数ε是标准偏差,设定为ε=k/2,k表示窗口大小,在我们的实验中根据经验设置为10;
为用于表示特定于元素的位置偏置函数,
考虑相对距离影响注意力分布的方式对于不同的元素可能不相同引入特定于元素的位置偏置函数,一个标量由的内积和W(3)的第C(i-j,k)个元素计算得到,其中C(i-j,k)为元素xi和xj之间的相对距离估计:
其中,是待训练的权重矩阵;k是一个非负值,反映了两个不同元素之间的最大间距,即如果两个元素之间的相对距离大于阈值k,则将相对距离置为k,C(i-j,k)用于表示W(3)的下标并由下式给出:
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910362637.8A CN110334339B (zh) | 2019-04-30 | 2019-04-30 | 一种基于位置感知自注意力机制的序列标注模型与标注方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910362637.8A CN110334339B (zh) | 2019-04-30 | 2019-04-30 | 一种基于位置感知自注意力机制的序列标注模型与标注方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN110334339A true CN110334339A (zh) | 2019-10-15 |
CN110334339B CN110334339B (zh) | 2021-04-13 |
Family
ID=68139863
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910362637.8A Active CN110334339B (zh) | 2019-04-30 | 2019-04-30 | 一种基于位置感知自注意力机制的序列标注模型与标注方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110334339B (zh) |
Cited By (16)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110867231A (zh) * | 2019-11-18 | 2020-03-06 | 中山大学 | 基于文本分类的疾病预测方法、装置、计算机设备及介质 |
CN110991185A (zh) * | 2019-11-05 | 2020-04-10 | 北京声智科技有限公司 | 一种文章中实体的属性抽取方法及装置 |
CN111046674A (zh) * | 2019-12-20 | 2020-04-21 | 科大讯飞股份有限公司 | 语义理解方法、装置、电子设备和存储介质 |
CN111046907A (zh) * | 2019-11-02 | 2020-04-21 | 国网天津市电力公司 | 一种基于多头注意力机制的半监督卷积网络嵌入方法 |
CN111145760A (zh) * | 2020-04-02 | 2020-05-12 | 支付宝(杭州)信息技术有限公司 | 用于说话人识别的方法及神经网络模型 |
CN111178074A (zh) * | 2019-12-12 | 2020-05-19 | 天津大学 | 一种基于深度学习的中文命名实体识别方法 |
CN111209362A (zh) * | 2020-01-07 | 2020-05-29 | 苏州城方信息技术有限公司 | 基于深度学习的地址数据解析方法 |
CN111259235A (zh) * | 2020-01-09 | 2020-06-09 | 齐鲁工业大学 | 基于上下文感知及特征交互建模的个性化推荐方法及系统 |
CN111666758A (zh) * | 2020-04-15 | 2020-09-15 | 中国科学院深圳先进技术研究院 | 中文分词方法、训练设备以及计算机可读存储介质 |
CN111680669A (zh) * | 2020-08-12 | 2020-09-18 | 江西风向标教育科技有限公司 | 一种试题分割方法、系统及可读存储介质 |
CN111680512A (zh) * | 2020-05-11 | 2020-09-18 | 上海阿尔卡特网络支援系统有限公司 | 命名实体识别模型、电话总机转接分机方法及系统 |
CN111813924A (zh) * | 2020-07-09 | 2020-10-23 | 四川大学 | 基于可扩展动态选择与注意力机制的类别检测算法及系统 |
CN112242187A (zh) * | 2020-10-26 | 2021-01-19 | 平安科技(深圳)有限公司 | 基于知识图谱表征学习的医疗方案推荐系统及方法 |
CN112381615A (zh) * | 2020-11-27 | 2021-02-19 | 华中科技大学 | 基于用户重复行为模式挖掘的短序列推荐方法 |
CN112487109A (zh) * | 2020-12-01 | 2021-03-12 | 朱胜青 | 实体关系抽取方法、终端和计算机可读存储介质 |
CN112560506A (zh) * | 2020-12-17 | 2021-03-26 | 中国平安人寿保险股份有限公司 | 文本语义解析方法、装置、终端设备及存储介质 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108460013A (zh) * | 2018-01-30 | 2018-08-28 | 大连理工大学 | 一种基于细粒度词表示模型的序列标注模型 |
CN108628828A (zh) * | 2018-04-18 | 2018-10-09 | 国家计算机网络与信息安全管理中心 | 一种基于自注意力的观点及其持有者的联合抽取方法 |
CN109062893A (zh) * | 2018-07-13 | 2018-12-21 | 华南理工大学 | 一种基于全文注意力机制的商品名称识别方法 |
CN109408812A (zh) * | 2018-09-30 | 2019-03-01 | 北京工业大学 | 一种基于注意力机制的序列标注联合抽取实体关系的方法 |
-
2019
- 2019-04-30 CN CN201910362637.8A patent/CN110334339B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108460013A (zh) * | 2018-01-30 | 2018-08-28 | 大连理工大学 | 一种基于细粒度词表示模型的序列标注模型 |
CN108628828A (zh) * | 2018-04-18 | 2018-10-09 | 国家计算机网络与信息安全管理中心 | 一种基于自注意力的观点及其持有者的联合抽取方法 |
CN109062893A (zh) * | 2018-07-13 | 2018-12-21 | 华南理工大学 | 一种基于全文注意力机制的商品名称识别方法 |
CN109408812A (zh) * | 2018-09-30 | 2019-03-01 | 北京工业大学 | 一种基于注意力机制的序列标注联合抽取实体关系的方法 |
Non-Patent Citations (3)
Title |
---|
CHAOQUN DUAN 等: "Attention-Fused Deep Matching Network for Natural Language Inference", 《HTTPS://WWW.MICROSOFT.COM/EN-US/RESEARCH/UPLOADS/PROD/2018/05/IJCAI18.PDF》 * |
PETER SHAW 等: "Self-Attention with Relative Position Representations", 《HTTPS://ARXIV.ORG/PDF/1803.02155.PDF》 * |
TAO SHEN 等: "DiSAN: Directional Self-Attention Network for RNN/CNN-Free Language Understanding", 《HTTPS://ARXIV.ORG/PDF/1709.04696.PDF》 * |
Cited By (25)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111046907A (zh) * | 2019-11-02 | 2020-04-21 | 国网天津市电力公司 | 一种基于多头注意力机制的半监督卷积网络嵌入方法 |
CN111046907B (zh) * | 2019-11-02 | 2023-10-27 | 国网天津市电力公司 | 一种基于多头注意力机制的半监督卷积网络嵌入方法 |
CN110991185A (zh) * | 2019-11-05 | 2020-04-10 | 北京声智科技有限公司 | 一种文章中实体的属性抽取方法及装置 |
CN110867231A (zh) * | 2019-11-18 | 2020-03-06 | 中山大学 | 基于文本分类的疾病预测方法、装置、计算机设备及介质 |
CN111178074A (zh) * | 2019-12-12 | 2020-05-19 | 天津大学 | 一种基于深度学习的中文命名实体识别方法 |
CN111178074B (zh) * | 2019-12-12 | 2023-08-25 | 天津大学 | 一种基于深度学习的中文命名实体识别方法 |
CN111046674A (zh) * | 2019-12-20 | 2020-04-21 | 科大讯飞股份有限公司 | 语义理解方法、装置、电子设备和存储介质 |
CN111046674B (zh) * | 2019-12-20 | 2024-05-31 | 科大讯飞股份有限公司 | 语义理解方法、装置、电子设备和存储介质 |
CN111209362A (zh) * | 2020-01-07 | 2020-05-29 | 苏州城方信息技术有限公司 | 基于深度学习的地址数据解析方法 |
CN111259235A (zh) * | 2020-01-09 | 2020-06-09 | 齐鲁工业大学 | 基于上下文感知及特征交互建模的个性化推荐方法及系统 |
CN111145760A (zh) * | 2020-04-02 | 2020-05-12 | 支付宝(杭州)信息技术有限公司 | 用于说话人识别的方法及神经网络模型 |
CN111145760B (zh) * | 2020-04-02 | 2020-06-30 | 支付宝(杭州)信息技术有限公司 | 用于说话人识别的方法及神经网络模型 |
CN111666758B (zh) * | 2020-04-15 | 2022-03-22 | 中国科学院深圳先进技术研究院 | 中文分词方法、训练设备以及计算机可读存储介质 |
CN111666758A (zh) * | 2020-04-15 | 2020-09-15 | 中国科学院深圳先进技术研究院 | 中文分词方法、训练设备以及计算机可读存储介质 |
CN111680512A (zh) * | 2020-05-11 | 2020-09-18 | 上海阿尔卡特网络支援系统有限公司 | 命名实体识别模型、电话总机转接分机方法及系统 |
CN111680512B (zh) * | 2020-05-11 | 2024-04-02 | 上海阿尔卡特网络支援系统有限公司 | 命名实体识别模型、电话总机转接分机方法及系统 |
CN111813924B (zh) * | 2020-07-09 | 2021-04-09 | 四川大学 | 基于可扩展动态选择与注意力机制的类别检测算法及系统 |
CN111813924A (zh) * | 2020-07-09 | 2020-10-23 | 四川大学 | 基于可扩展动态选择与注意力机制的类别检测算法及系统 |
CN111680669A (zh) * | 2020-08-12 | 2020-09-18 | 江西风向标教育科技有限公司 | 一种试题分割方法、系统及可读存储介质 |
CN112242187A (zh) * | 2020-10-26 | 2021-01-19 | 平安科技(深圳)有限公司 | 基于知识图谱表征学习的医疗方案推荐系统及方法 |
CN112242187B (zh) * | 2020-10-26 | 2023-06-27 | 平安科技(深圳)有限公司 | 基于知识图谱表征学习的医疗方案推荐系统及方法 |
CN112381615A (zh) * | 2020-11-27 | 2021-02-19 | 华中科技大学 | 基于用户重复行为模式挖掘的短序列推荐方法 |
CN112487109A (zh) * | 2020-12-01 | 2021-03-12 | 朱胜青 | 实体关系抽取方法、终端和计算机可读存储介质 |
CN112560506A (zh) * | 2020-12-17 | 2021-03-26 | 中国平安人寿保险股份有限公司 | 文本语义解析方法、装置、终端设备及存储介质 |
CN112560506B (zh) * | 2020-12-17 | 2023-07-25 | 中国平安人寿保险股份有限公司 | 文本语义解析方法、装置、终端设备及存储介质 |
Also Published As
Publication number | Publication date |
---|---|
CN110334339B (zh) | 2021-04-13 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110334339B (zh) | 一种基于位置感知自注意力机制的序列标注模型与标注方法 | |
US11568000B2 (en) | System and method for automatic task-oriented dialog system | |
US11354506B2 (en) | Coreference-aware representation learning for neural named entity recognition | |
Le et al. | Non-autoregressive dialog state tracking | |
Subramanya et al. | Efficient graph-based semi-supervised learning of structured tagging models | |
CN107526834B (zh) | 联合词性与词序的相关因子训练的word2vec改进方法 | |
CN117076653A (zh) | 基于思维链及可视化提升上下文学习知识库问答方法 | |
Zhang et al. | Semi-supervised structured prediction with neural CRF autoencoder | |
CN113743099A (zh) | 基于自注意力机制方面术语提取系统、方法、介质、终端 | |
Zhou et al. | Learning with annotation of various degrees | |
CN114817467A (zh) | 一种意图识别响应方法、装置、设备及存储介质 | |
Liu et al. | Relation-based discriminative cooperation network for zero-shot classification | |
CN115186147B (zh) | 对话内容的生成方法及装置、存储介质、终端 | |
He et al. | Multi-goal multi-agent learning for task-oriented dialogue with bidirectional teacher–student learning | |
Belharbi et al. | Deep neural networks regularization for structured output prediction | |
Yang et al. | Comprehensive Study: How the Context Information of Different Granularity Affects Dialogue State Tracking? | |
CN112560440B (zh) | 一种基于深度学习的面向方面级情感分析的句法依赖方法 | |
CN113869324A (zh) | 一种基于多模态融合的视频常识性知识推理实现方法 | |
CN112183062A (zh) | 一种基于交替解码的口语理解方法、电子设备和存储介质 | |
Lin et al. | Class label autoencoder with structure refinement for zero-shot learning | |
CN115422388B (zh) | 一种视觉对话方法及系统 | |
CN116362242A (zh) | 一种小样本槽值提取方法、装置、设备及存储介质 | |
Zhou et al. | An image captioning model based on bidirectional depth residuals and its application | |
Wang et al. | Chinese word segmentation based on deep learning | |
Yu et al. | UnifiedTT: Visual tracking with unified transformer |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |