CN110516231A - 基于注意力机制的膨胀卷积实体名识别方法 - Google Patents

基于注意力机制的膨胀卷积实体名识别方法 Download PDF

Info

Publication number
CN110516231A
CN110516231A CN201910631935.2A CN201910631935A CN110516231A CN 110516231 A CN110516231 A CN 110516231A CN 201910631935 A CN201910631935 A CN 201910631935A CN 110516231 A CN110516231 A CN 110516231A
Authority
CN
China
Prior art keywords
text
attention mechanism
expansion convolution
word
matrix
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201910631935.2A
Other languages
English (en)
Inventor
薛哲
杜军平
吕江海
周南
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing University of Posts and Telecommunications
Original Assignee
Beijing University of Posts and Telecommunications
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing University of Posts and Telecommunications filed Critical Beijing University of Posts and Telecommunications
Priority to CN201910631935.2A priority Critical patent/CN110516231A/zh
Publication of CN110516231A publication Critical patent/CN110516231A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/044Recurrent networks, e.g. Hopfield networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Machine Translation (AREA)

Abstract

本发明提出了一种基于注意力机制的膨胀卷积实体名识别方法。方法包括三个部分:基于膨胀卷积扩散与迭代的特征提取、基于词长度和词性的注意力机制加权和基于条件随机场的规则约束。理论系统完备,创新性突出,主要用于实体名识别中。该发明提高了实体名识别的准确率和训练速度,具有很高的实用价值。

Description

基于注意力机制的膨胀卷积实体名识别方法
技术领域
本发明属于自然语言处理领域,具体涉及集成多种技术,如卷积神经网络、膨胀卷积扩散与迭代、注意力机制加权、条件随机场规制约束等,实现基于注意力机制的膨胀卷积实体名识别方法。
背景技术
近年来深度学习在文本、图像、视频、音频处理上都取得了巨大的成功。知识图谱作为现阶段的研究热点,通过深度学习技术,利用大量短文本数据,提取其中有效的特征,从而提取出实体名,同时抽取实体关系。为了使提取的文本特征更加精确,注意力机制应运而生。注意力,是由人类观察环境的习惯规律总结而来的,人类在观察环境时,大脑往往只关注某几个特别重要的局部,获取需要的信息,构建出关于环境的某种描述,而注意力机制正是如此,去学习不同局部的重要性。
本发明提出一种基于注意力机制的膨胀卷积实体名识别方法。该方法利用膨胀卷积进行文本特征的提取。膨胀卷积能使向量矩阵感受域以指数增加的速度进行扩展,而神经网络的参数却以线性速度增加,因此模型训练时可以利用GPU的矩阵并行计算,从而加快loss收敛速度并可以准确提取文本的特征。利用单词的词性来对提取出来的特征进行注意力加权,使模型更加优化。神经网络得到每一个字对于实体标签的概率,最后输入条件随机场模型利用某一些约束使得错误率更低,得到更加精确的实体名识别准确率。
发明内容
本发明所提出的基于注意力机制的膨胀卷积实体名识别方法,使用卷积神经网络对文本向量进行卷积,获取高层次的文本特征;采用膨胀卷积文本矩阵进行扩散和迭代,充分利用GPU并行计算能力,加快训练速度;使用单词长度和词性对特征矩阵进行注意力加权,得到带权重的特征向量矩阵,使向量矩阵特征更加明显;使用条件随机场对加权后的向量矩阵进行规制约束,使得最后的预测概率满足某种语法规制。最终得到文本中各个字符的实体名种类概率。
为达到上述目的,如图1所示,本发明的技术方案划分为三个部分:
1.基于膨胀卷积扩散与迭代的特征提取;
2.基于词长度和词性的注意力机制加权;
3.基于条件随机场的规则约束;
本发明有以下一些技术特征:
(1)提出基于膨胀卷积的扩散与迭代,膨胀卷积可以让卷积的视野域以指数方式增加,但使用的参数却是以线性方式增加,卷积神经网络充分利用了GPU并行计算的能力,同时充分保证文本的上下文关联信息,又能使模型的参数不会过多导致过拟合。加快训练速度的同时,保证了文本特征的提取精确性。
(2)提出的基于注意力机制的加权,包括两个额外信息进行注意力加权:单词长度和单词词性。该机制使得文本中的实体名赋予更高的权重,而文本中的噪音信息赋予较低的权重,得到的加权特征向量矩阵包含更加明显精确的特征信息。
(3)使用条件随机场,向最后预测的标签添加语法约束,以确保预测的标签是符合语法的。在训练数据训练过程中,条件随机场层可以同时训练学习到文本中的约束。条件随机场层通过随机初始化生成该传输矩阵的初始值,通过网络训练得到传输矩阵的最终结果值。
本发明提出了一种空间运动图像插值模型,理论系统完备,创新性突出,主要用于实体名识别中。
附图说明
图1为模型基本结构内容图
图2为基于注意力机制的膨胀卷积实体名识别模型;
图3为膨胀卷积扩散与迭代过程图;
图4为基于注意力机制的加权过程图;
具体实施方式
为使本发明的目的、算法计算及优点更加清楚明白,以下参照附图对本发明做进一步详细地说明。基于注意力机制的膨胀卷积实体名识别模型如图2所示:
本发明算法的具体实现分为以下几步:
1.基于膨胀卷积扩散与迭代的特征提取
采用迭代膨胀卷积网络能反复利用单位堆叠膨胀卷积,将每一次输出的结果作为下一次单位堆叠膨胀卷积的输入,使参数线性速度增加的同时,卷积视野域以指数速度增加。设膨胀步长δ的第j个膨胀卷积层表示为网络的第一层将输入xt转换为矩阵it
膨胀卷积第Lc层的膨胀步长δ以指数方式增加,并将其作用于矩阵特征it,得到结果输入RELU激活函数r()得到ct (j)。从开始,定义重复堆叠层:
并向堆栈添加最终的膨胀层:
定义一个单位的膨胀卷积堆为B(),它的输入向量维度和输入向量维度,为了在没有过度拟合的情况下加入更广泛的上下文,我们避免造成B过深,采用迭代地应用B循环Lb次,不引入额外的参数。初始化
应用一个简单的仿射变换W0来获得每个标记xt的每个类分数:
基于膨胀卷积的扩散与迭代过程如图3所示。
具体步骤如下:
步骤1:将经过预处理后的文本向量ci进行维度变化得到xt
步骤2:设置膨胀步长dilation的步长δ分别为{1,1,2},循环次数为4,用来定义膨胀卷积的膨胀步长和堆叠次数。
步骤3:将xt投入膨胀卷积网络得it,从开始,膨胀步长进行相应的变化
步骤4:将上一步得到的it进行relu激活函数后作为输入重复步骤3直到步长遍历完毕得到最终提取的特征矩阵ct (Lc)
步骤5:堆叠四次ct (Lc)的结果H作为最终膨胀卷积的输出。
2.基于词长度和词性的注意力机制加权
提出的基于注意力机制的加权算法,注意力机制是一种根据某些额外信息或某种规则从目标向量集合中抽取特定的向量进行加权组合的方法,输出序列中的每一项的生成概率取决于在输入序列中选择了哪些项。定义目标向量膨胀卷积输出矩阵为H={h0,h1...hn},额外信息为词性矩阵P={p0,p1...pn},tanh()为激活函数,为了使词性信息能对目标向量集合赋予权重,分别使用W1、W2对H和P进行仿射变换使之向量空间维度相同。则得到注意力向量表示为:
采用软注意力机制,为了使注意力向量的权重矩阵进行归一化,故利用softmax函数对进行权重打分得到每一个输入的权重
得到目标向量集合的权重后,计算目标向量加权后的向量矩阵ct
基于注意力机制的加权过程如图4所示。
具体步骤如下:
步骤1:定义文本特征H={h0,h1...hn}为膨胀卷积的输出,额外信息为矩阵P={p0,p1...pn},tanh()为激活函数。
步骤2:使用W1、W2对H和P进行仿射变换使之向量空间维度相同,仿射变换结果相加后进行tanh()激活得到
步骤3:利用softmax函数对进行权重打分得到每一个输入的权重
步骤4:利用权重计算目标向量加权后的特征向量矩阵mt
3.基于条件随机场的规则约束
考虑实体名在文本中的规制约束,提出了基于条件随机场的规则约束算法,条件随机场层可以向最后预测的标签添加一些语法约束,以确保预测的标签是合法的。在训练数据训练过程中,条件随机场层可以同时训练学习到文本中的约束。条件随机场层通过随机初始化生成该传输矩阵的初始值,它的最终结果值由网络训练得到。深度学习中的传递矩阵于传统条件随机场公式中的传递函数相对应的权重相似。传递矩阵的内在含义表示为:第i个标签后面跟着第j个标签的概率值。条件随机场层会学习得到这样的规律。在网络模型中条件随机场输入是基于注意力机制的膨胀卷积模型输出的每个单词的标签的概率分布。根据真实标签,在概率分布矩阵中找到相对应的预测标签值。比较标签路径,产生整个句子的错误,并基于该错误反馈给条件随机场层的训练网络,最终调整传输矩阵的参数并返回loss值和最终的标签预测值,学习并训练整个模型。
具体步骤如下:
步骤1:随机初始化传输矩阵T,表示第i个标签后面为第j个标签的概率值。
步骤2:加权后的特征向量矩阵mt和传输矩阵T投入CRF层进行训练学习得到pre和loss值
步骤3:将loss值进行梯度下降并优化整个模型参数。
步骤4:将训练集打乱,重复训练10次,得到优化后的训练模型。

Claims (4)

1.基于注意力机制的膨胀卷积实体名识别方法,其特征在于既提高实体名识别准确率又提高了训练速度,该方法包括:
基于膨胀卷积扩散与迭代的特征提取和基于条件随机场的规则约束;
基于词长度和词性的注意力机制加权;
基于条件随机场的规则约束;
2.根据权利要求1所述的方法,其特征在于,膨胀卷积扩散和迭代使训练速度加快,并保证文本的特征提取的精确性。
3.根据权利要求1所述的方法,其特征在于,利用单词长度和单词词性对文本特征进行注意力加权,给予文本的每个字分配不同的权重,使文本的实体名具有更高的权重,其他词具有较低权重,最终获得较高精确特征的文本特征矩阵。
4.根据权利要求1所述的方法,其特征在于,使用条件随机场对加权特征矩阵进行规则约束,训练传输矩阵来存储文本信息中的规制约束,然后利用CRF层训练传输矩阵和LOSS值,使得实体名识别的准确率更高。
CN201910631935.2A 2019-07-12 2019-07-12 基于注意力机制的膨胀卷积实体名识别方法 Pending CN110516231A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910631935.2A CN110516231A (zh) 2019-07-12 2019-07-12 基于注意力机制的膨胀卷积实体名识别方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910631935.2A CN110516231A (zh) 2019-07-12 2019-07-12 基于注意力机制的膨胀卷积实体名识别方法

Publications (1)

Publication Number Publication Date
CN110516231A true CN110516231A (zh) 2019-11-29

Family

ID=68623269

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910631935.2A Pending CN110516231A (zh) 2019-07-12 2019-07-12 基于注意力机制的膨胀卷积实体名识别方法

Country Status (1)

Country Link
CN (1) CN110516231A (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111091004A (zh) * 2019-12-18 2020-05-01 上海风秩科技有限公司 一种语句实体标注模型的训练方法、训练装置及电子设备
CN111475649A (zh) * 2020-04-02 2020-07-31 中国人民解放军国防科技大学 基于深度学习的虚假新闻预测方法、系统、装置、介质
CN112733541A (zh) * 2021-01-06 2021-04-30 重庆邮电大学 基于注意力机制的BERT-BiGRU-IDCNN-CRF的命名实体识别方法

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108536679A (zh) * 2018-04-13 2018-09-14 腾讯科技(成都)有限公司 命名实体识别方法、装置、设备及计算机可读存储介质
CN109522558A (zh) * 2018-11-21 2019-03-26 金现代信息产业股份有限公司 一种基于深度学习的中文错字校正方法

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108536679A (zh) * 2018-04-13 2018-09-14 腾讯科技(成都)有限公司 命名实体识别方法、装置、设备及计算机可读存储介质
CN109522558A (zh) * 2018-11-21 2019-03-26 金现代信息产业股份有限公司 一种基于深度学习的中文错字校正方法

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
XUEZHE MA ET AL.: "End-to-end Sequence Labeling via Bi-directional LSTM-CNNs-CRF", 《PROCEEDINGS OF THE 54TH ANNUAL MEETING OF THE ASSOCIATION FOR COMPUTATIONAL LINGUISTICS》 *
马建红 等: "基于BLSTM_attention_CRF模型的新能源汽车领域术语抽取", 《计算机应用研究》 *
高甦 等: "基于深度学习的中医典籍命名实体识别研究", 《情报工程》 *

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111091004A (zh) * 2019-12-18 2020-05-01 上海风秩科技有限公司 一种语句实体标注模型的训练方法、训练装置及电子设备
CN111091004B (zh) * 2019-12-18 2023-08-25 上海风秩科技有限公司 一种语句实体标注模型的训练方法、训练装置及电子设备
CN111475649A (zh) * 2020-04-02 2020-07-31 中国人民解放军国防科技大学 基于深度学习的虚假新闻预测方法、系统、装置、介质
CN111475649B (zh) * 2020-04-02 2023-04-07 中国人民解放军国防科技大学 基于深度学习的虚假新闻预测方法、系统、装置、介质
CN112733541A (zh) * 2021-01-06 2021-04-30 重庆邮电大学 基于注意力机制的BERT-BiGRU-IDCNN-CRF的命名实体识别方法

Similar Documents

Publication Publication Date Title
CN111368996B (zh) 可传递自然语言表示的重新训练投影网络
CN110866117B (zh) 一种基于语义增强与多层次标签嵌入的短文本分类方法
CN108984526B (zh) 一种基于深度学习的文档主题向量抽取方法
CN110222163B (zh) 一种融合cnn与双向lstm的智能问答方法及系统
CN108984745B (zh) 一种融合多知识图谱的神经网络文本分类方法
CN107291693B (zh) 一种改进词向量模型的语义计算方法
CN110188358B (zh) 自然语言处理模型的训练方法及装置
CN109710915B (zh) 复述语句生成方法及装置
CN106569998A (zh) 一种基于Bi‑LSTM、CNN和CRF的文本命名实体识别方法
CN109767759A (zh) 基于改进型cldnn结构的端到端语音识别方法
CN111027595B (zh) 双阶段语义词向量生成方法
CN106126507A (zh) 一种基于字符编码的深度神经翻译方法及系统
CN110969020A (zh) 基于cnn和注意力机制的中文命名实体识别方法、系统及介质
CN110516231A (zh) 基于注意力机制的膨胀卷积实体名识别方法
CN111222318B (zh) 基于双通道双向lstm-crf网络的触发词识别方法
CN111079418B (zh) 命名体识别方法、装置、电子设备和存储介质
CN107273426A (zh) 一种基于深度语义路径搜索的短文本聚类方法
CN107729311A (zh) 一种融合文本语气的中文文本特征提取方法
CN110826338A (zh) 一种单选择门与类间度量的细粒度语义相似识别的方法
CN110276396B (zh) 基于物体显著性和跨模态融合特征的图片描述生成方法
CN110647919A (zh) 一种基于k-均值聚类和胶囊网络的文本聚类方法及系统
CN110008467A (zh) 一种基于迁移学习的缅甸语依存句法分析方法
CN112559706B (zh) 对话生成模型的训练方法、对话方法、设备以及存储介质
Chen et al. Deep neural networks for multi-class sentiment classification
Chu et al. Component-wise AdaBoost algorithms for high-dimensional binary classification and class probability prediction

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
WD01 Invention patent application deemed withdrawn after publication

Application publication date: 20191129

WD01 Invention patent application deemed withdrawn after publication