CN109933801B - 基于预测位置注意力的双向lstm命名实体识别方法 - Google Patents

基于预测位置注意力的双向lstm命名实体识别方法 Download PDF

Info

Publication number
CN109933801B
CN109933801B CN201910225622.7A CN201910225622A CN109933801B CN 109933801 B CN109933801 B CN 109933801B CN 201910225622 A CN201910225622 A CN 201910225622A CN 109933801 B CN109933801 B CN 109933801B
Authority
CN
China
Prior art keywords
feature vector
named entity
attention
model
text
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201910225622.7A
Other languages
English (en)
Other versions
CN109933801A (zh
Inventor
罗森林
周妍汝
潘丽敏
尹继泽
吴舟婷
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Institute of Technology BIT
Original Assignee
Beijing Institute of Technology BIT
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Institute of Technology BIT filed Critical Beijing Institute of Technology BIT
Priority to CN201910225622.7A priority Critical patent/CN109933801B/zh
Publication of CN109933801A publication Critical patent/CN109933801A/zh
Application granted granted Critical
Publication of CN109933801B publication Critical patent/CN109933801B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Machine Translation (AREA)
  • Character Discrimination (AREA)

Abstract

本发明涉及基于预测位置注意力的双向LSTM命名实体识别方法,属于自然语言处理与机器学习领域。主要为了解决现有的基于注意力机制的命名实体识别方法输入文本组成要素单一的问题和特征抽取过程中未利用字符序列前后顺序位置信息的问题。本发明首先利用LSTM学习得到字符、词、句三种不同级别的特征向量表示,组合构成混合特征向量;再使用BLSTM模型对混合特征向量进行编码提取全局文本信息,在解码阶段使用基于预测对齐位置的注意力机制的CNN模型来提取文本局部信息,得到的特征向量序列用于判别标签值;最后根据标签值输出文本中的命名实体。在SIGHAN bakeoff‑3 MSRA中文命名实体识别语料上实验,结果表明本发明能达到较好的识别效果。

Description

基于预测位置注意力的双向LSTM命名实体识别方法
技术领域
本发明涉及基于预测位置注意力的双向LSTM命名实体识别方法,属于自然语言处理与机器学习领域。
背景技术
目前针对命名实体识别(NER)任务主要使用深度模型抽取特征,其中RNN循环神经网络及其变种LSTM网络代表的深度学习方法在命名实体识别领域内取得较好的结果。
与此同时,始于图像领域的注意力机制(attention)模型被推广应用到自然语言处理领域中。基于注意力机制的深度神经网络特征抽取方法,为提升命名实体识别效果提供了新的思路。传统的注意力模型主要考虑输入序列的所有源表征与目标表征之间的相关程度,据此计算每个源表征的权重。
现有的基于注意力机制的深度神经网络在应用到中文命名实体识别任务中时一般只搜索单一级别的文本组成要素,忽视了中文文本组成要素分为句子、词、字符三个层次,因而不能灵活地搜索中文文本、获得与目标类别(命名实体或非命名实体类)相关的部分。
其次,在通过注意力机制模型抽取文本特征时通常忽略了字符序列的前后顺序位置信息,即关注点和其他部分之间的相对距离所带来的影响。距离关注点较近的部分应该分配以更高的权重。
综上所述,现有的命名实体识别方法主要存在以下问题:(1)模型的输入文本组成要素层次单一,忽视了中文文本组成要素分为句子、词、字符三个层次;(2)特征抽取过程中忽略了字符序列的前后顺序位置信息的影响。
发明内容
本发明的目的是针对现有的基于注意力机制的命名实体识别方法输入文本组成要素单一的问题和特征抽取过程中未利用字符序列前后顺序位置信息的问题,提出了基于预测位置对齐注意力机制的双向LSTM(BLSTM)命名实体识别方法。
本发明的设计原理为:首先,利用LSTM学习得到字符、词、句三种不同级别的特征向量表示,组合构成混合特征向量;再使用BLSTM模型对混合特征向量进行编码提取全局文本信息,在解码阶段使用基于预测对齐位置的注意力机制的CNN模型来提取文本局部信息,得到的特征向量序列用于判别标签值,最后根据标签值输出文本中的命名实体。
本发明的技术方案是通过如下步骤实现的:
步骤1,使用LSTM学习得到字符、词、句三种不同级别的特征向量表示组合构成混合特征向量。
步骤2,使用BLSTM模型抽取全局文本信息,对混合特征向量进行编码。
步骤3,在解码阶段,使用预测对齐位置的局部注意力模型来提取文本局部特征,解码器是一个前向CNN网络。
步骤4,使用CRF对输出的特征向量序列进行标注,然后根据标签输出命名实体。
有益效果
相比于单一的字符级别文本嵌入结合深度特征抽取的命名实体识别模型,本发明采用的基于预测位置注意力的双向LSTM命名实体识别方法,能够更加灵活地利用句子、词、字符三种层次信息,提高了识别准确率。
相比于原始基于注意力机制的BLSTM模型,本发明采用的基于预测位置注意力的双向LSTM命名实体识别方法,能够有效地利用字符序列的前后顺序位置信息,提高了识别准确率。
附图说明
图1为本发明基于预测位置注意力的双向LSTM命名实体识别方法原理图。
具体实施方式
为了更好的说明本发明的目的和优点,下面结合实例对本发明方法的实施方式做进一步详细说明。
实验数据采用SIGHAN bakeoff-3MSRA中文命名实体识别语料。实验数据的具体分配见表1:
表1.命名实体识别实验数据(条)
Figure GDA0003357532560000021
方法的损失函数为
Figure GDA0003357532560000022
实验采用准确率(Precision,P)、召回率(Recall,R)和F1-测度值(F1-measure,F1)对结果进行评价。
准确率P的计算方法见下式:
Figure GDA0003357532560000031
召回率R的计算方法见下式:
Figure GDA0003357532560000032
F1的计算方法见下式:
Figure GDA0003357532560000033
其中,out_cor表示输出的正确识别的实体数,out_all表示输出的所有识别的实体数,this_all表示样本的实体数。
本次实验在一台计算机和一台服务器上进行,计算机的具体配置为:Inter i7-6700,CPU 2.40GHz,内存4G,操作系统是windows 7,64位;服务器的具体配置为:E7-4820v4,RAM 256G,操作系统是Linux Ubuntu 64位。
本次实验的具体流程为:
步骤1,利用LSTM学习得到字符、词、句三种不同级别的特征向量表示组合构成混合特征向量。
步骤1.1,对原始中文文本分词,得到词序列输出;对原始中文文本分句,得到句子序列输出。
步骤1.2,使用0/1特征自动标注1.1中的分词、分句结果,每个词的首字符标注0,其余字符标注1;每个句子的首字符标注0,其余字符标注1,最终分别输出字符级别的0/1特征序列。
步骤1.3,通过查找字符向量表,结合1.2的输出,构成两个字符级别向量序列输入,分别经过不同的LSTM处理,得到词级别特征向量序列和句子级别特征向量序列的输出。
步骤1.4,利用Lattice LSTM抽取字符级别特征。
步骤1.5,字向量序列、词向量序列、句子向量序列有着对应关系,即一个字包含于某个词,而该词又包含于某个句子。将经过1.1-1.4步骤得到的不同级别特征向量序列中对应的特征向量组合在一起,构成混合特征向量。
步骤2,使用BLSTM模型抽取全局文本信息,对混合特征向量进行编码。
步骤2.1,BLSTM网络包括正向和反向两个循环网络,读取所得到的混合向量序列,其中正向网络以从左到右的顺序读取序列,而反向网络从右向左读取。
步骤2.2,在j时刻连接前后向LSTM得到的隐状态
Figure GDA0003357532560000041
Figure GDA0003357532560000042
然后获得文本全局特征向量hj。其中,hj的表示方法为
Figure GDA0003357532560000043
步骤3,在解码阶段采用预测对齐位置的局部注意力模型来提取文本局部特征,解码器是一个前向CNN网络。
步骤3.1,在步骤2的基础上计算各个特征向量权重αt(s)。记解码器时刻t的目标隐藏状态为ht,编码器的隐藏状态为
Figure GDA0003357532560000044
s=1,2,…,T,则权重αt(s)的表示方式为:
Figure GDA0003357532560000045
Figure GDA0003357532560000046
其中D是CNN网络的窗口大小。对齐函数计算公式为:
Figure GDA0003357532560000047
评分函数为:
Figure GDA0003357532560000048
其中WT、W(1)、b(1)和b都为模型的参数。
步骤3.2,依据预测函数预测当前解码时要对齐的源语言端的位置pt,计算公式为:
Figure GDA0003357532560000049
Wp和vp是模型的参数,S是source sentence的长度。
步骤3.3,对特征向量表示加权得到注意力模型的当前状态,即输出的新特征向量,加权公式为:
Figure GDA0003357532560000051
⊙为Hadamard乘积(Hadamard product)符号,该特征向量包含文本全局和局部特征。
步骤4,使用CRF对输出的特征向量序列进行标注,然后根据标签输出命名实体。输入s={v1v2…vT},输出y={l1l2…lT},最终输出利用Viterbi解码得到。
测试结果:实验基于预测位置注意力的双向LSTM命名实体识别方法,对SIGHANbakeoff-3MSRA中文命名实体识别语料进行了命名实体识别,识别准确率为88.33%,召回率为85.24%,F值为86.76,取得了很好的效果。
以上所述的具体描述,对发明的目的、技术方案和有益效果进行了进一步详细说明,所应理解的是,以上所述仅为本发明的具体实施例而已,并不用于限定本发明的保护范围,凡在本发明的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (1)

1.基于预测位置注意力的双向LSTM命名实体识别方法,其特征在于所述方法包括如下步骤:
步骤1,通过不同的LSTM模型处理得到字符、词、句三种不同级别的特征向量,利用字符包含于词,词包含于句的相互对应关系,将不同级别特征向量序列中对应的特征向量组合在一起,构成混合特征向量
步骤2,使用BLSTM模型抽取全局文本信息,对混合特征向量进行编码,解码器是一个前向CNN网络,在解码阶段使用预测对齐位置的局部注意力机制提取文本局部特征,记解码器时刻t的目标隐藏状态为ht,编码器的隐藏状态为
Figure FDA0003357532550000011
对于其中任意
Figure FDA0003357532550000012
其权重αt(s)的表示方式为:
Figure FDA0003357532550000013
Figure FDA0003357532550000014
其中D是CNN网络的窗口大小; 对齐函数计算公式为:
Figure FDA0003357532550000015
评分函数为:
Figure FDA0003357532550000016
其中WT、W(1)、b(1)和b都为模型的参数;
当前解码时要对齐的源隐藏状态的位置pt的预测函数计算公式为:
Figure FDA0003357532550000017
Wp和vp是模型的参数,S是source sentence的长度;
步骤3,对特征向量表示加权得到注意力模型的当前状态,即输出新特征向量ct,加权公式为:
Figure FDA0003357532550000018
⊙为Hadamard乘积符号,该特征向量包含文本全局和局部特征;
步骤4,使用CRF对输出的特征向量序列进行标注,然后根据标签输出命名实体。
CN201910225622.7A 2019-03-25 2019-03-25 基于预测位置注意力的双向lstm命名实体识别方法 Active CN109933801B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910225622.7A CN109933801B (zh) 2019-03-25 2019-03-25 基于预测位置注意力的双向lstm命名实体识别方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910225622.7A CN109933801B (zh) 2019-03-25 2019-03-25 基于预测位置注意力的双向lstm命名实体识别方法

Publications (2)

Publication Number Publication Date
CN109933801A CN109933801A (zh) 2019-06-25
CN109933801B true CN109933801B (zh) 2022-03-29

Family

ID=66988111

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910225622.7A Active CN109933801B (zh) 2019-03-25 2019-03-25 基于预测位置注意力的双向lstm命名实体识别方法

Country Status (1)

Country Link
CN (1) CN109933801B (zh)

Families Citing this family (19)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110619124B (zh) * 2019-09-19 2023-06-16 成都数之联科技股份有限公司 一种结合注意力机制与双向lstm的命名实体识别方法及系统
CN110688855A (zh) * 2019-09-29 2020-01-14 山东师范大学 基于机器学习的中文医疗实体识别方法及系统
CN110717331B (zh) * 2019-10-21 2023-10-24 北京爱医博通信息技术有限公司 一种基于神经网络的中文命名实体识别方法、装置、设备以及存储介质
CN110969020B (zh) * 2019-11-21 2022-10-11 中国人民解放军国防科技大学 基于cnn和注意力机制的中文命名实体识别方法、系统及介质
CN111126068A (zh) * 2019-12-25 2020-05-08 中电云脑(天津)科技有限公司 一种中文命名实体识别方法和装置及电子设备
CN111143691B (zh) * 2019-12-31 2023-04-18 四川长虹电器股份有限公司 一种联合信息抽取方法及装置
CN111274815B (zh) 2020-01-15 2024-04-12 北京百度网讯科技有限公司 用于挖掘文本中的实体关注点的方法和装置
CN111382333B (zh) * 2020-03-11 2022-06-21 昆明理工大学 基于案件相关性联合学习与图卷积的新闻文本句中案件要素抽取方法
CN111651993A (zh) * 2020-05-11 2020-09-11 北京理工大学 融合局部-全局字符级关联特征的中文命名实体识别方法
CN111639646B (zh) * 2020-05-18 2021-04-13 山东大学 一种基于深度学习的试卷手写英文字符识别方法及系统
CN111597814B (zh) * 2020-05-22 2023-05-26 北京慧闻科技(集团)有限公司 一种人机交互命名实体识别方法、装置、设备及存储介质
CN111597816A (zh) * 2020-05-22 2020-08-28 北京慧闻科技(集团)有限公司 一种自注意力命名实体识别方法、装置、设备及存储介质
CN111813924B (zh) * 2020-07-09 2021-04-09 四川大学 基于可扩展动态选择与注意力机制的类别检测算法及系统
CN112507719A (zh) * 2020-12-18 2021-03-16 北京百度网讯科技有限公司 命名实体识别方法、装置、电子设备及存储介质
CN112668315A (zh) * 2020-12-23 2021-04-16 平安科技(深圳)有限公司 一种文本自动生成方法、系统、终端及存储介质
CN113283497A (zh) * 2021-05-21 2021-08-20 广东博智林机器人有限公司 文本的匹配方法、装置、存储介质和处理器
CN113836923B (zh) * 2021-08-27 2023-06-27 山西清众科技股份有限公司 一种基于多级上下文特征提取的命名实体识别方法
CN113705713B (zh) * 2021-09-03 2023-08-22 华南理工大学 一种基于全局和局部注意力机制的文本识别方法
CN114860892B (zh) * 2022-07-06 2022-09-06 腾讯科技(深圳)有限公司 层次类目预测方法、装置、设备和介质

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2018218705A1 (zh) * 2017-05-27 2018-12-06 中国矿业大学 一种基于神经网络概率消歧的网络文本命名实体识别方法

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101075228B (zh) * 2006-05-15 2012-05-23 松下电器产业株式会社 识别自然语言中的命名实体的方法和装置
CN106569998A (zh) * 2016-10-27 2017-04-19 浙江大学 一种基于Bi‑LSTM、CNN和CRF的文本命名实体识别方法
CN108628823B (zh) * 2018-03-14 2022-07-01 中山大学 结合注意力机制和多任务协同训练的命名实体识别方法
CN108536679B (zh) * 2018-04-13 2022-05-20 腾讯科技(成都)有限公司 命名实体识别方法、装置、设备及计算机可读存储介质
CN109388807B (zh) * 2018-10-30 2021-09-21 中山大学 电子病历命名实体识别的方法、装置及存储介质

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2018218705A1 (zh) * 2017-05-27 2018-12-06 中国矿业大学 一种基于神经网络概率消歧的网络文本命名实体识别方法

Also Published As

Publication number Publication date
CN109933801A (zh) 2019-06-25

Similar Documents

Publication Publication Date Title
CN109933801B (zh) 基于预测位置注意力的双向lstm命名实体识别方法
CN109871535B (zh) 一种基于深度神经网络的法语命名实体识别方法
CN110162636B (zh) 基于d-lstm的情绪原因识别方法
CN110046350B (zh) 文法错误识别方法、装置、计算机设备及存储介质
CN110414009B (zh) 基于BiLSTM-CNN的英缅双语平行句对抽取方法及装置
CN110866399B (zh) 一种基于增强字符向量的中文短文本实体识别与消歧方法
CN105068998A (zh) 基于神经网络模型的翻译方法及装置
CN111858843B (zh) 一种文本分类方法及装置
CN110096572B (zh) 一种样本生成方法、装置及计算机可读介质
CN112069312B (zh) 一种基于实体识别的文本分类方法及电子装置
CN110852040B (zh) 一种标点预测模型训练方法及文本标点确定方法
CN110046356A (zh) 标签嵌入在微博文本情绪多标签分类中的应用研究
CN112800239A (zh) 意图识别模型训练方法、意图识别方法及装置
CN111581943A (zh) 一种基于句子关联图的汉越双语多文档新闻观点句识别方法
CN113065349A (zh) 基于条件随机场的命名实体识别方法
CN115600597A (zh) 基于注意力机制和词内语义融合的命名实体识别方法、装置、系统及存储介质
CN110889287A (zh) 一种用于命名实体识别的方法与装置
CN112084788B (zh) 一种影像字幕隐式情感倾向自动标注方法及系统
CN111291550B (zh) 一种中文实体提取方法及装置
Kobayashi et al. Slot Filling with Weighted Multi-Encoders for Out-of-Domain Values.
CN117131155A (zh) 多类目识别方法、装置、电子设备及储存介质
CN110750669A (zh) 一种图像字幕生成的方法及系统
CN112989839A (zh) 一种基于关键词特征嵌入语言模型的意图识别方法及系统
CN113139050B (zh) 基于命名实体识别附加标签和先验知识的文本摘要生成方法
CN107122471B (zh) 一种酒店特色点评抽取的方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant