CN110334339A - 一种基于位置感知自注意力机制的序列标注模型与标注方法 - Google Patents

一种基于位置感知自注意力机制的序列标注模型与标注方法 Download PDF

Info

Publication number
CN110334339A
CN110334339A CN201910362637.8A CN201910362637A CN110334339A CN 110334339 A CN110334339 A CN 110334339A CN 201910362637 A CN201910362637 A CN 201910362637A CN 110334339 A CN110334339 A CN 110334339A
Authority
CN
China
Prior art keywords
attention
self
sequence
context
output
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201910362637.8A
Other languages
English (en)
Other versions
CN110334339B (zh
Inventor
魏巍
王赞博
陈志毅
李恒
杨佳鑫
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Huazhong University of Science and Technology
Original Assignee
Huazhong University of Science and Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Huazhong University of Science and Technology filed Critical Huazhong University of Science and Technology
Priority to CN201910362637.8A priority Critical patent/CN110334339B/zh
Publication of CN110334339A publication Critical patent/CN110334339A/zh
Application granted granted Critical
Publication of CN110334339B publication Critical patent/CN110334339B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/044Recurrent networks, e.g. Hopfield networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • General Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • General Engineering & Computer Science (AREA)
  • Biomedical Technology (AREA)
  • Evolutionary Computation (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Biophysics (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开了一种基于位置感知自注意力机制的序列标注模型与标注方法,该序列标注模型将自注意上下文融合层作为BiLSTM‑CRF模型的扩展,构造新的序列标注模型;该模型包括自注意上下文融合层和BiLSTM组成的编码器,以及作为解码器的CRF层;所述自注意上下文融合层,用于以词的特征向量表示序列作为输入,通过位置感知自注意力机制建立结合位置信息后序列中各词语与设定特定词语间的关联,得到序列中所有词语特征向量表示的加权和作为该特定词的输出特征。本发明提出的方法通过引入自注意上下文融合层,能够充分提取单词之间的潜在关系,从而可以在Bi‑LSTM的基础上提供互补的上下文信息。

Description

一种基于位置感知自注意力机制的序列标注模型与标注方法
技术领域
本发明涉及自然语言处理技术,尤其涉及一种基于位置感知自注意力机制的序列标注模型与标注方法。
背景技术
传统的序列标注方法通常基于经典机器学习算法,例如隐马尔可夫模型 (HMM)和条件随机场(CRF),但这些方法均严重依赖于手工特征或与特定语言相关的资源。随着深度学习的进步,许多基于深度神经网络模型的研究致力于增强序列标注任务的效果,其通常将字符和单词信息以特征向量表示用于输入,并且以端到端的训练方式学习每个单词的句子级上下文表示。最近,许多研究工作构建以循环神经网络(RNN)为基础的架构,例如BiLSTM-CNN,LSTM-CRF 和LSTM-CNN-CRF等。尽管这些模型在序列标注任务上展现出卓越的性能,但其将全部历史信息编码到前一词的隐含状态,从而递归处理每个单词的模式存在局限性,这种序列化处理输入的方式可能会限制其捕获单词间潜在的相互独立关系的能力,从而在一定程度上削弱模型对上下文依赖的敏感性。
发明内容
本发明要解决的技术问题在于针对现有技术中的缺陷,提供一种基于位置感知自注意力机制的序列标注模型与标注方法。
本发明解决其技术问题所采用的技术方案是:一种基于位置感知自注意力机制的序列标注模型,该模型将自注意上下文融合层作为BiLSTM-CRF模型的扩展,构造新的序列标注模型;该模型包括自注意上下文融合层和BiLSTM组成的编码器,以及作为解码器的CRF层;
所述自注意上下文融合层,用于以词的特征向量表示序列作为输入,通过位置感知自注意力机制建立结合位置信息后序列中各词语与设定特定词语间的关联,得到序列中所有词语特征向量表示的加权和作为该特定词的输出特征;
BiLSTM,由正向和反向的长短时记忆网络LSTM组成;正向和反向LSTM接收自注意上下文融合层的输出特征作为输入,分别编码当前时刻的上文和下文信息;两者的编码信息合并构成每个词的全局语义特征表示;
CRF层,用于接收编码器的输出作为输入,根据序列得分选择全局最优的标签序列。
按上述方案,所述位置感知自注意力机制为在计算注意力权值过程中引入词语间的相对位置信息。
按上述方案,所述编码器还包括用于对BiLSTM的输出进行进一步处理,通过提供补充的上下文信息,得到最终待解码的特征表示的自注意上下文融合层。
该自注意上下文融合层的结构与前一个自注意上下文融合层相同。
按上述方案,所述自注意上下文融合层根据输入序列得到输出特征的过程如下:
针对某特定词语,首先计算序列中所有词语和它的注意力权值,即对齐分数,在计算对齐分数过程中引入词语间的相对位置信息,然后以归一化后的对齐分数作为权重,计算所有词语表示的加权之和,得到该特定词语经过注意力机制的输出;
为了增强自注意力网络的特征抽取能力,在上述输出基础上再进行两次全连接运算,通过非线性变化增强模型的表示能力;
最后,通过一个融合门控机制,将该特定词语输入该上下文融合层前的特征表示与全连接层的输出做线性求和,得到该词语经过自注意上下文信息融合层的最终特征输出。
按上述方案,所述位置感知自注意力机制表示如下:
假设由各元素表示组成的序列其中为了测量每个对指定元素的注意权重,采用兼容性函数来测量间的对齐得分;然后通过softmax函数对X内所有元素进行归一化以转换对齐分数,即:
的自注意力的输出为根据X中各元素对齐分数得到的所有元素表示的加权之和,即:
采用两个全连接层来转换自注意力机制的输出
其中为待训练的权重矩阵,为偏置项,tanh为激活函数,代表xi通过自注意力机制的输出;
xi的最终上下文感知表示是自注意层的输入和全连接层输出的线性组合,即:
其中,是融合门中待训练的权重矩阵,sigmoid 函数为激活函数;
其中,兼容性函数
其中,是待训练的权重矩阵, 为偏置项,σ为激活函数,Ψij(·)为包含如下三项的位置偏置函数:
其中,
为自禁掩码偏置函数,对于特定元素xi,自注意力机制的目标是衡量其对其他元素的依赖性,因此需要将每个元素对自身注意力屏蔽;
其中,-∞被用来忽视自注意力机制中元素自身的贡献;
为距离感知高斯偏置函数,在序列标注任务上建模考虑本地上下文相对位置信息,通过距离感知高斯偏差来控制指定标记xi的局部上下文的范围;
其中,i,j均表示元素在序列中的位置,参数ε是标准偏差,设定为ε=k/2,k 表示窗口大小,在我们的实验中根据经验设置为10;
为用于表示特定于元素的位置偏置函数,
考虑相对距离影响注意力分布的方式对于不同的元素可能不相同引入特定于元素的位置偏置函数,一个标量和W(3)的第C(i-j,k)个元素通过向量内积计算得到,其中C(i-j,k)为元素xi和xj之间的相对距离估计:
其中,是待训练的权重矩阵;k是一个非负值,反映了两个不同元素之间的最大间距,即如果两个元素之间的相对距离大于阈值k,则将相对距离置为k,C(i-j,k)用于表示W(3)的下标并由下式给出:
一种基于位置感知自注意力机制的序列标注方法,包括以下步骤:
1)基于自注意上下文融合层的特征表示阶段
自注意上下文融合层对输入词语的特征向量表示序列进行加权得到词的特征表示和对齐分数组合;
假设由各元素表示组成的序列其中为了测量每个对指定元素的注意权重,采用兼容性函数来测量间的对齐得分;然后通过softmax函数对X内所有元素进行归一化以转换对齐分数,即:
的自注意力的输出为X中所有元素对齐分数的加权和,即:
采用两个全连接层来转换注意力模块的输出
其中为待训练的权重矩阵,为偏置项,tanh为激活函数,代表xi通过自注意力机制的输出;
xi的最终上下文感知表示是自注意层xi的输入和全连接层输出的线性组合,即:
其中,是融合门中待训练的权重矩阵,sigmoid 函数为激活函数;
2)利用BiLSTM的编码阶段
采用BiLSTM进行上下文信息编码,并对BiLSTM的编码结果采用自注意上下文融合层加权求和;
3)解码阶段
采用句级对数似然函数CRF层进行标签解码。
按上述方案,所述步骤1)中兼容性函数
其中,σ(·)是激活函数, 是待训练的权重矩阵,为偏置项,σ为激活函数,;
其中,Ψij(·)为包含如下三项的位置偏置函数:
其中,
为自禁掩码偏置函数,对于特定元素xi,自注意力机制的目标是衡量其对其他元素的依赖性,因此需要将每个元素对自身注意力屏蔽;
其中,-∞被用来忽视自注意力机制中元素自身的贡献;
为距离感知高斯偏置函数,在序列标注任务上建模考虑本地上下文相对位置信息,通过距离感知高斯偏差来控制指定标记xi的局部上下文的范围;
其中,i,j均表示元素在序列中的位置,参数ε是标准偏差,设定为ε=k/2,k 表示窗口大小,在我们的实验中根据经验设置为10;
为用于表示特定于元素的位置偏置函数,
考虑相对距离影响注意力分布的方式对于不同的元素可能不相同引入特定于元素的位置偏置函数,一个标量的内积和W(3)的第C(i-j,k)个元素计算得到,其中C(i-j,k)为元素xi和xj之间的相对距离估计:
其中,是待训练的权重矩阵;k是一个非负值,反映了两个不同元素之间的最大间距,即如果两个元素之间的相对距离大于阈值k,则将相对距离置为k,C(i-j,k)用于表示W(3)的下标并由下式给出:
注意,相对位置的最大值被限制在阈值k内,是基于精确的相对位置信息超出特定距离之外失去效用的假设下。
按上述方案,采用两个全连接层来转换注意力模块的输出,具体如下:
其中为待训练的权重矩阵,,为偏置项,tanh为激活函数,代表xi通过自注意力机制的输出,
由于引入了一个禁用对角线的掩码来禁用每个元素对其自身的注意力,使用融合门将每个元素自身的信息与其上下文相结合,xi的最终上下文感知表示是自注意层xi的输入和全连接层输出的线性组合,即:
其中,是融合门中待训练的权重矩阵。
本发明产生的有益效果是:通过结合基于位置感知的自注意力机制,并将自注意上下文融合层结合到神经网络结构中,本发明提出的方法能够充分提取单词之间的潜在关系,并在Bi-LSTM的基础上提供互补的上下文信息,进而更好地提取每个单词的全局语义特征,以及对序列中单词的上下文依赖性进行建模,最终可以实现在序列标注任务上取得更好的预测效果。
附图说明
下面将结合附图及实施例对本发明作进一步说明,附图中:
图1是本发明实施例的序列标注模型的结构示意图;
图2是本发明实施例的序列标注方法中自注意上下文融合层的结构示意图。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅用以解释本发明,并不用于限定本发明。
如图1所示,本发明提出了一种用于序列标注任务的神经网络架构,它包含一个新颖的上下文融合层,通过提供补充的上下文信息,以更好地对上下文依赖性建模。具体地,所提出的上下文融合层被并入整体架构中的不同级别,即,添加一层用于重新加权初始输入(在分布式表示层之后),另一层被添加用于重新加权单词级Bi-LSTM层的输出。
接着,我们将详细介绍本发明提出的序列标注模型。首先介绍一个新颖的位置感知自注意力机制,接着展示基于此的上下文融合层。
本发明提出了一种新颖的位置感知自注意力机制,以便更好地捕捉哪个元素对同一序列中的指定元素很重要。具体而言,假设由各元素表示组成的序列其中为了测量每个对指定元素的注意权重,采用兼容性函数来测量间的相似性(即,对齐得分);然后通过 softmax函数对X内所有元素进行归一化以转换对齐分数,即:
的自注意力的输出由X中所有元素对齐分数的加权和,得到,即:
许多不同的注意力机制均由上述形式提出,但在兼容性函数上有所不同,本发明采用加法注意机制,它由一层前馈神经网络实现,并且在实践中通常优于其他方法,其计算方法是:
其中,σ(·)是激活函数,代表权重矩阵,和b分别代表权重向量和偏置向量。
位置建模有利于自注意力网络,为此,与直接编码序列中元素的绝对位置作为注意力机制的输入相反,这里我们通过对兼容性函数引入三个不同的位置因素,探索输入序列的位置信息以扩展自注意力模型,即自禁掩码偏置 (self-disabled mask bias),距离感知高斯偏置(distance-aware Gaussian bias)和特定于元素的位置偏置(token-specific position bias),因此可以称为位置感知自注意力机制被重写为:
其中,Ψij(·)为包含如下三项的位置偏置函数:
Mij(·)、Pij(·)和Gij(·)分别是这三项的输出,接下来将对其逐一介绍。
自禁掩码偏置
对于特定元素xi,自注意力机制的目标是衡量其对其他元素的依赖性,因此有必要将每个元素对自身注意力屏蔽。因此,我们采用自禁掩码偏置,即:
其中,-∞被用来忽视自注意力机制中元素自身的贡献。
距离感知高斯偏置
自注意力机制对全局依赖关系建模,却不考虑元素间的距离,而相对位置信息对于在序列标注任务上建模本地上下文很重要。在不失一般性的情况下,我们以词性标注为例,与其他距离较远的词语相比,特定词语的词性标签更可能受其邻近元素的影响。为了有利于自注意力机制建模短距离依赖性,我们考虑了通过距离感知高斯偏差来控制指定标记xi的局部上下文的范围,其定义为
其中,i表示的位置;参数ε是根据经验设定为ε=k/2的标准偏差;k是一个窗口大小,在我们的实验中根据经验设置为10。
特定于元素的位置偏置
高斯偏差仅考虑元素间的相对距离信息,然而,相对距离影响注意力分布的方式对于不同的元素可能不相同。因而,可以通过以更灵活的方式来考虑元素间的相对距离,,一个标量的内积和W(3)的第C(i-j,k)个元素计算得到,其中C(i-j,k)由元素xi和xj之间的相对距离估计:
其中,W是权重矩阵;k是一个非负值,反映了两个不同元素之间的最大间距。换句话说,如果两个元素之间的相对距离大于阈值k,则它将被削减为k。计算过程可以通过C(i-j,k)计算得到,它表示W(3)的下标并由下式给出:
相对位置的最大值被限制在阈值k内,是基于精确的相对位置信息超出特定距离之外失去效用的假设下。
神经网络的成功源于其高度灵活的非线性变换。由于注意力机制利用加权求和来生成输出向量,其表示能力是有限的。为了进一步增强本发明中注意力层的特征提取能力,我们考虑采用两个全连接层来转换注意力模块的输出,具体由下式表示:
其中为待训练的权重矩阵,代表xi通过自注意力机制的输出。
由于我们引入了一个禁用对角线的掩码来禁用每个元素对其自身的注意力,因此所提出的自注意力层的输出不足以建模上下文感知的表示。因此我们使用融合门将每个元素自身的信息与其上下文相结合(如图2所示)。xi的最终上下文感知表示是自注意层xi的输入和全连接层输出的线性组合,即:
其中是融合门中待训练的权重矩阵。
经实验表明,相比已有主流方法,本发明的序列标注方法取得了更好的效果。实验采用两个基准序列标注数据集进行评估,即CoNLL 2003命名实体识别数据集(CoNLL03)和Penn Treebank数据集(WSJ)的华尔街日报部分(词性标注)。语料库的详细信息如表1所示。
表1语料库信息
实验部分旨在评估本发明所提出的序列标注模型在不同数据集上的有效性。具体来说,我们列出了CoNLL 2003命名实体识别任务的标准F1分数,以及WSJ 上词性标注任务的准确率作为模型的评价指标,实验对比结果分别在表2和表3 中给出。
表2 CoNLL 2003NER对比实验结果
表3 WSJ词性标注对比实验结果
值得注意的是,从以上二表中可以观察到,本发明提出的方法在不同的序列标注任务中始终优于所有这些基准模型。因为这些模型大多采用Bi-LSTM作为上下文编码器架构,其以顺序方式处理输入的策略使其不能直接捕捉两个词之间的关系,因此模型忽略了部分位置信息以用于建模上下文依赖性。通过将自注意上下文融合层结合到神经网络结构中,本发明提出的方法能够充分提取单词之间的潜在关系,从而可以在Bi-LSTM的基础上提供互补的上下文信息。
应当理解的是,对本领域普通技术人员来说,可以根据上述说明加以改进或变换,而所有这些改进和变换都应属于本发明所附权利要求的保护范围。

Claims (6)

1.一种基于位置感知自注意力机制的序列标注模型,其特征在于,该模型将自注意上下文融合层作为BiLSTM-CRF模型的扩展,构造新的序列标注模型;该模型包括自注意上下文融合层和BiLSTM组成的编码器,以及作为解码器的CRF层;
所述自注意上下文融合层,用于以词的特征向量表示序列作为输入,通过位置感知自注意力机制建立结合位置信息后序列中各词语与设定特定词语间的关联,得到序列中所有词语特征向量表示的加权和作为该特定词的输出特征;
BiLSTM,由正向和反向的长短时记忆网络LSTM组成;正向和反向LSTM接收自注意上下文融合层的输出特征作为输入,分别编码当前时刻的上文和下文信息;两者的编码信息合并构成每个词的全局语义特征表示;
CRF层,用于接收编码器的输出作为输入,根据序列得分选择全局最优的标签序列。
2.根据权利要求1所述的基于位置感知自注意力机制的序列标注模型,其特征在于,所述编码器还包括用于对BiLSTM的输出进行进一步处理,通过提供补充的上下文信息,得到最终待解码的特征表示的第二自注意上下文融合层。
3.根据权利要求1或2所述的基于位置感知自注意力机制的序列标注模型,其特征在于,所述自注意上下文融合层根据输入序列得到输出特征的过程如下:
针对某特定词语,首先计算序列中所有词语和它的注意力权值,即对齐分数,在计算对齐分数过程中引入词语间的相对位置信息,然后以归一化后的对齐分数作为权重,计算所有词语表示的加权之和,得到该特定词语经过注意力机制的输出;
为了增强自注意力网络的特征抽取能力,在上述输出基础上再进行两次全连接运算,通过非线性变化增强模型的表示能力;
最后,通过一个融合门控机制,将该特定词语输入该上下文融合层前的特征表示与全连接层的输出做线性求和,得到该词语经过自注意上下文信息融合层的最终特征输出。
4.根据权利要求1所述的基于位置感知自注意力机制的序列标注模型,其特征在于,所述位置感知自注意力机制表示如下:
假设由各元素表示组成的序列其中为了测量每个对指定元素的注意权重,采用兼容性函数来测量间的对齐得分;然后通过softmax函数对X内所有元素进行归一化以转换对齐分数,即:
的自注意力的输出为根据X中各元素对齐分数得到的所有元素表示的加权之和,即:
采用两个全连接层来转换自注意力机制的输出
其中W(z1),为待训练的权重矩阵,为偏置项,tanh为激活函数,代表xi通过自注意力机制的输出;
xi的最终上下文感知表示是自注意层的输入和全连接层输出的线性组合,即:
其中,W(f1),W(f2),是融合门中待训练的权重矩阵,sigmoid函数为激活函数;
其中,兼容性函数
其中,W(1),是待训练的权重矩阵, 为偏置项,σ为激活函数,Ψij(·)为包含如下三项的位置偏置函数:
其中,
为自禁掩码偏置函数,对于特定元素xi,自注意力机制的目标是衡量其对其他元素的依赖性,因此需要将每个元素对自身注意力屏蔽;
其中,-∞被用来忽视自注意力机制中元素自身的贡献;
为距离感知高斯偏置函数,在序列标注任务上建模考虑本地上下文相对位置信息,通过距离感知高斯偏差来控制指定标记xi的局部上下文的范围;
其中,i,j均表示元素在序列中的位置,参数ε是标准偏差,设定为ε=k/2,k表示窗口大小;
为用于表示特定于元素的位置偏置函数,
考虑相对距离影响注意力分布的方式对于不同的元素可能不相同引入特定于元素的位置偏置函数,一个标量和W(3)的第C(i-j,k)个元素通过向量内积计算得到,其中C(i-j,k)为元素xi和xj之间的相对距离估计:
其中,是待训练的权重矩阵;k是一个非负值,反映了两个不同元素之间的最大间距,即如果两个元素之间的相对距离大于阈值k,则将相对距离置为k,C(i-j,k)用于表示W(3)的下标并由下式给出:
5.一种基于位置感知自注意力机制的序列标注方法,其特征在于,包括以下步骤:
1)基于自注意上下文融合层的特征表示阶段
自注意上下文融合层对输入词语的特征向量表示序列进行加权得到词的特征表示和对齐分数组合;
假设由各元素表示组成的序列其中为了测量每个对指定元素的注意权重,采用兼容性函数来测量间的对齐得分;然后通过softmax函数对X内所有元素进行归一化以转换对齐分数,即:
的自注意力的输出为X中所有元素对齐分数的加权和,即:
采用两个全连接层来转换注意力模块的输出
其中W(z1)为待训练的权重矩阵,为偏置项,tanh为激活函数,代表xi通过自注意力机制的输出;
xi的最终上下文感知表示是自注意层xi的输入和全连接层输出的线性组合,即:
其中,W(f1),W(f2),是融合门中待训练的权重矩阵,sigmoid函数为激活函数;
2)利用BiLSTM的编码阶段
采用BiLSTM进行上下文信息编码,并对BiLSTM的编码结果采用自注意上下文融合层加权求和;
3)解码阶段
采用句级对数似然函数CRF层进行标签解码。
6.根据权利要求5所述的基于位置感知自注意力机制的序列标注方法,其特征在于,所述步骤1)中兼容性函数如下:
其中σ(·)是激活函数,W(1),是待训练的权重矩阵,为偏置项,σ为激活函数;
其中,Ψij(·)为包含如下三项的位置偏置函数:
其中,
为自禁掩码偏置函数,对于特定元素xi,自注意力机制的目标是衡量其对其他元素的依赖性,因此需要将每个元素对自身注意力屏蔽;
其中,-∞被用来忽视自注意力机制中元素自身的贡献;
为距离感知高斯偏置函数,在序列标注任务上建模考虑本地上下文相对位置信息,通过距离感知高斯偏差来控制指定标记xi的局部上下文的范围;
其中,i,j均表示元素在序列中的位置,参数ε是标准偏差,设定为ε=k/2,k表示窗口大小,在我们的实验中根据经验设置为10;
为用于表示特定于元素的位置偏置函数,
考虑相对距离影响注意力分布的方式对于不同的元素可能不相同引入特定于元素的位置偏置函数,一个标量的内积和W(3)的第C(i-j,k)个元素计算得到,其中C(i-j,k)为元素xi和xj之间的相对距离估计:
其中,是待训练的权重矩阵;k是一个非负值,反映了两个不同元素之间的最大间距,即如果两个元素之间的相对距离大于阈值k,则将相对距离置为k,C(i-j,k)用于表示W(3)的下标并由下式给出:
CN201910362637.8A 2019-04-30 2019-04-30 一种基于位置感知自注意力机制的序列标注模型与标注方法 Active CN110334339B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910362637.8A CN110334339B (zh) 2019-04-30 2019-04-30 一种基于位置感知自注意力机制的序列标注模型与标注方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910362637.8A CN110334339B (zh) 2019-04-30 2019-04-30 一种基于位置感知自注意力机制的序列标注模型与标注方法

Publications (2)

Publication Number Publication Date
CN110334339A true CN110334339A (zh) 2019-10-15
CN110334339B CN110334339B (zh) 2021-04-13

Family

ID=68139863

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910362637.8A Active CN110334339B (zh) 2019-04-30 2019-04-30 一种基于位置感知自注意力机制的序列标注模型与标注方法

Country Status (1)

Country Link
CN (1) CN110334339B (zh)

Cited By (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110867231A (zh) * 2019-11-18 2020-03-06 中山大学 基于文本分类的疾病预测方法、装置、计算机设备及介质
CN110991185A (zh) * 2019-11-05 2020-04-10 北京声智科技有限公司 一种文章中实体的属性抽取方法及装置
CN111046674A (zh) * 2019-12-20 2020-04-21 科大讯飞股份有限公司 语义理解方法、装置、电子设备和存储介质
CN111046907A (zh) * 2019-11-02 2020-04-21 国网天津市电力公司 一种基于多头注意力机制的半监督卷积网络嵌入方法
CN111145760A (zh) * 2020-04-02 2020-05-12 支付宝(杭州)信息技术有限公司 用于说话人识别的方法及神经网络模型
CN111178074A (zh) * 2019-12-12 2020-05-19 天津大学 一种基于深度学习的中文命名实体识别方法
CN111209362A (zh) * 2020-01-07 2020-05-29 苏州城方信息技术有限公司 基于深度学习的地址数据解析方法
CN111259235A (zh) * 2020-01-09 2020-06-09 齐鲁工业大学 基于上下文感知及特征交互建模的个性化推荐方法及系统
CN111666758A (zh) * 2020-04-15 2020-09-15 中国科学院深圳先进技术研究院 中文分词方法、训练设备以及计算机可读存储介质
CN111680669A (zh) * 2020-08-12 2020-09-18 江西风向标教育科技有限公司 一种试题分割方法、系统及可读存储介质
CN111680512A (zh) * 2020-05-11 2020-09-18 上海阿尔卡特网络支援系统有限公司 命名实体识别模型、电话总机转接分机方法及系统
CN111813924A (zh) * 2020-07-09 2020-10-23 四川大学 基于可扩展动态选择与注意力机制的类别检测算法及系统
CN112242187A (zh) * 2020-10-26 2021-01-19 平安科技(深圳)有限公司 基于知识图谱表征学习的医疗方案推荐系统及方法
CN112381615A (zh) * 2020-11-27 2021-02-19 华中科技大学 基于用户重复行为模式挖掘的短序列推荐方法
CN112487109A (zh) * 2020-12-01 2021-03-12 朱胜青 实体关系抽取方法、终端和计算机可读存储介质
CN112560506A (zh) * 2020-12-17 2021-03-26 中国平安人寿保险股份有限公司 文本语义解析方法、装置、终端设备及存储介质

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108460013A (zh) * 2018-01-30 2018-08-28 大连理工大学 一种基于细粒度词表示模型的序列标注模型
CN108628828A (zh) * 2018-04-18 2018-10-09 国家计算机网络与信息安全管理中心 一种基于自注意力的观点及其持有者的联合抽取方法
CN109062893A (zh) * 2018-07-13 2018-12-21 华南理工大学 一种基于全文注意力机制的商品名称识别方法
CN109408812A (zh) * 2018-09-30 2019-03-01 北京工业大学 一种基于注意力机制的序列标注联合抽取实体关系的方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108460013A (zh) * 2018-01-30 2018-08-28 大连理工大学 一种基于细粒度词表示模型的序列标注模型
CN108628828A (zh) * 2018-04-18 2018-10-09 国家计算机网络与信息安全管理中心 一种基于自注意力的观点及其持有者的联合抽取方法
CN109062893A (zh) * 2018-07-13 2018-12-21 华南理工大学 一种基于全文注意力机制的商品名称识别方法
CN109408812A (zh) * 2018-09-30 2019-03-01 北京工业大学 一种基于注意力机制的序列标注联合抽取实体关系的方法

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
CHAOQUN DUAN 等: "Attention-Fused Deep Matching Network for Natural Language Inference", 《HTTPS://WWW.MICROSOFT.COM/EN-US/RESEARCH/UPLOADS/PROD/2018/05/IJCAI18.PDF》 *
PETER SHAW 等: "Self-Attention with Relative Position Representations", 《HTTPS://ARXIV.ORG/PDF/1803.02155.PDF》 *
TAO SHEN 等: "DiSAN: Directional Self-Attention Network for RNN/CNN-Free Language Understanding", 《HTTPS://ARXIV.ORG/PDF/1709.04696.PDF》 *

Cited By (25)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111046907A (zh) * 2019-11-02 2020-04-21 国网天津市电力公司 一种基于多头注意力机制的半监督卷积网络嵌入方法
CN111046907B (zh) * 2019-11-02 2023-10-27 国网天津市电力公司 一种基于多头注意力机制的半监督卷积网络嵌入方法
CN110991185A (zh) * 2019-11-05 2020-04-10 北京声智科技有限公司 一种文章中实体的属性抽取方法及装置
CN110867231A (zh) * 2019-11-18 2020-03-06 中山大学 基于文本分类的疾病预测方法、装置、计算机设备及介质
CN111178074A (zh) * 2019-12-12 2020-05-19 天津大学 一种基于深度学习的中文命名实体识别方法
CN111178074B (zh) * 2019-12-12 2023-08-25 天津大学 一种基于深度学习的中文命名实体识别方法
CN111046674A (zh) * 2019-12-20 2020-04-21 科大讯飞股份有限公司 语义理解方法、装置、电子设备和存储介质
CN111046674B (zh) * 2019-12-20 2024-05-31 科大讯飞股份有限公司 语义理解方法、装置、电子设备和存储介质
CN111209362A (zh) * 2020-01-07 2020-05-29 苏州城方信息技术有限公司 基于深度学习的地址数据解析方法
CN111259235A (zh) * 2020-01-09 2020-06-09 齐鲁工业大学 基于上下文感知及特征交互建模的个性化推荐方法及系统
CN111145760A (zh) * 2020-04-02 2020-05-12 支付宝(杭州)信息技术有限公司 用于说话人识别的方法及神经网络模型
CN111145760B (zh) * 2020-04-02 2020-06-30 支付宝(杭州)信息技术有限公司 用于说话人识别的方法及神经网络模型
CN111666758B (zh) * 2020-04-15 2022-03-22 中国科学院深圳先进技术研究院 中文分词方法、训练设备以及计算机可读存储介质
CN111666758A (zh) * 2020-04-15 2020-09-15 中国科学院深圳先进技术研究院 中文分词方法、训练设备以及计算机可读存储介质
CN111680512A (zh) * 2020-05-11 2020-09-18 上海阿尔卡特网络支援系统有限公司 命名实体识别模型、电话总机转接分机方法及系统
CN111680512B (zh) * 2020-05-11 2024-04-02 上海阿尔卡特网络支援系统有限公司 命名实体识别模型、电话总机转接分机方法及系统
CN111813924B (zh) * 2020-07-09 2021-04-09 四川大学 基于可扩展动态选择与注意力机制的类别检测算法及系统
CN111813924A (zh) * 2020-07-09 2020-10-23 四川大学 基于可扩展动态选择与注意力机制的类别检测算法及系统
CN111680669A (zh) * 2020-08-12 2020-09-18 江西风向标教育科技有限公司 一种试题分割方法、系统及可读存储介质
CN112242187A (zh) * 2020-10-26 2021-01-19 平安科技(深圳)有限公司 基于知识图谱表征学习的医疗方案推荐系统及方法
CN112242187B (zh) * 2020-10-26 2023-06-27 平安科技(深圳)有限公司 基于知识图谱表征学习的医疗方案推荐系统及方法
CN112381615A (zh) * 2020-11-27 2021-02-19 华中科技大学 基于用户重复行为模式挖掘的短序列推荐方法
CN112487109A (zh) * 2020-12-01 2021-03-12 朱胜青 实体关系抽取方法、终端和计算机可读存储介质
CN112560506A (zh) * 2020-12-17 2021-03-26 中国平安人寿保险股份有限公司 文本语义解析方法、装置、终端设备及存储介质
CN112560506B (zh) * 2020-12-17 2023-07-25 中国平安人寿保险股份有限公司 文本语义解析方法、装置、终端设备及存储介质

Also Published As

Publication number Publication date
CN110334339B (zh) 2021-04-13

Similar Documents

Publication Publication Date Title
CN110334339B (zh) 一种基于位置感知自注意力机制的序列标注模型与标注方法
US11568000B2 (en) System and method for automatic task-oriented dialog system
US11354506B2 (en) Coreference-aware representation learning for neural named entity recognition
Le et al. Non-autoregressive dialog state tracking
Subramanya et al. Efficient graph-based semi-supervised learning of structured tagging models
CN107526834B (zh) 联合词性与词序的相关因子训练的word2vec改进方法
CN117076653A (zh) 基于思维链及可视化提升上下文学习知识库问答方法
Zhang et al. Semi-supervised structured prediction with neural CRF autoencoder
CN113743099A (zh) 基于自注意力机制方面术语提取系统、方法、介质、终端
Zhou et al. Learning with annotation of various degrees
CN114817467A (zh) 一种意图识别响应方法、装置、设备及存储介质
Liu et al. Relation-based discriminative cooperation network for zero-shot classification
CN115186147B (zh) 对话内容的生成方法及装置、存储介质、终端
He et al. Multi-goal multi-agent learning for task-oriented dialogue with bidirectional teacher–student learning
Belharbi et al. Deep neural networks regularization for structured output prediction
Yang et al. Comprehensive Study: How the Context Information of Different Granularity Affects Dialogue State Tracking?
CN112560440B (zh) 一种基于深度学习的面向方面级情感分析的句法依赖方法
CN113869324A (zh) 一种基于多模态融合的视频常识性知识推理实现方法
CN112183062A (zh) 一种基于交替解码的口语理解方法、电子设备和存储介质
Lin et al. Class label autoencoder with structure refinement for zero-shot learning
CN115422388B (zh) 一种视觉对话方法及系统
CN116362242A (zh) 一种小样本槽值提取方法、装置、设备及存储介质
Zhou et al. An image captioning model based on bidirectional depth residuals and its application
Wang et al. Chinese word segmentation based on deep learning
Yu et al. UnifiedTT: Visual tracking with unified transformer

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant