CN110619124B - 一种结合注意力机制与双向lstm的命名实体识别方法及系统 - Google Patents

一种结合注意力机制与双向lstm的命名实体识别方法及系统 Download PDF

Info

Publication number
CN110619124B
CN110619124B CN201910906582.2A CN201910906582A CN110619124B CN 110619124 B CN110619124 B CN 110619124B CN 201910906582 A CN201910906582 A CN 201910906582A CN 110619124 B CN110619124 B CN 110619124B
Authority
CN
China
Prior art keywords
text
sequence
feature vector
attention mechanism
named entity
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201910906582.2A
Other languages
English (en)
Other versions
CN110619124A (zh
Inventor
请求不公布姓名
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Chengdu Shuzhilian Technology Co Ltd
Original Assignee
Chengdu Shuzhilian Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Chengdu Shuzhilian Technology Co Ltd filed Critical Chengdu Shuzhilian Technology Co Ltd
Priority to CN201910906582.2A priority Critical patent/CN110619124B/zh
Publication of CN110619124A publication Critical patent/CN110619124A/zh
Application granted granted Critical
Publication of CN110619124B publication Critical patent/CN110619124B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/044Recurrent networks, e.g. Hopfield networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Character Discrimination (AREA)

Abstract

本发明公开了一种结合注意力机制与双向LSTM的命名实体识别方法及系统,包括:获取文本的文字信息,基于文字信息获得文字序列;将文字序列中的文字分别转换为各自对应的特征向量,获得文字特征向量序列;使用注意力机制对每个文字特征向量进行变换,获得变换后的文字特征向量序列;对变换后的文字特征向量序列进行循环卷积变换,获得循环卷积变换后的文字特征向量序列;解码循环卷积变换后的文字特征向量序列,基于解码结果预测最优的标注序列,基于最优的标注序列获得文本的命名实体识别结果。本发明在双向长短期记忆模型(Bi‑LSTM)与CRF理论的基础上增加了注意力机制来进一步提高命名实体识别的准确率。

Description

一种结合注意力机制与双向LSTM的命名实体识别方法及系统
技术领域
本发明涉及自然语言处理序列标注领域,具体地,涉及一种结合注意力机制与双向LSTM的命名实体识别方法及系统。
背景技术
本发明中涉及的专业术语中英文对照有:
命名实体识别(named entity recognition,NER)
自然语言处理(NLP)
循环神经网络(RNN)
长短期记忆模型(LSTM)
条件随机场(CRF)
双向长短期记忆模型(Bi-LSTM)
多头自注意力(multi-head attention)
命名实体识别是信息抽取的核心任务之一,其目的是从给定文本中找到命名实体的边界线索及所属类别,广泛应用于构建知识图谱、问答系统和推荐系统中。作为循环神经网络(RNN)的典型代表,长短期记忆模型(LSTM)充分考虑了上下文信息,广泛被应用于命名实体识别问题。条件随机场(CRF)理论与LSTM相结合的命名实体识别技术已经成为解决实体识别问题的主流技术。由于中文文字边界不清晰以及文字多义性等特征,现有的命名实体识别方法不能进行有效识别且识别准确率不高,提高中文实体识别的准确率是研究人员的一项长期挑战。
发明内容
为了对文本的命名实体进行有效识别,本发明在双向长短期记忆模型(Bi-LSTM)与CRF理论的基础上增加了注意力机制来进一步提高命名实体识别的准确率。
为实现上述发明目的,本发明一方面提供了一种结合注意力机制与双向LSTM的命名实体识别方法,所述方法包括:
获取文本的文字信息,基于文字信息获得文字序列;
将文字序列的文字分别转换为各自对应的特征向量,获得文字特征向量序列;
使用注意力机制对每个文字特征向量进行变换,获得变换后的文字特征向量序列;
对变换后的文字特征向量序列进行循环卷积变换,获得循环卷积变换后的文字特征向量序列;
解码循环卷积变换后的文字特征向量序列,基于解码结果预测最优的标注序列,基于最优的标注序列获得文本的命名实体识别结果。
其中,本方法在双向长短期记忆模型(Bi-LSTM)与CRF理论的基础上增加了注意力机制来提高文本实体识别的准确率。
优选的,文字序列为:x1,x2,…,xn,通过word2vec方式将文字转换为对应的文字特征向量e1,e2,…,en,word2vec技术是NLP中常用的将文字转换成其对应特征的技术。
优选的,在本方法中,使用双向LSTM对变换后的文字特征向量序列进行循环卷积变换。长短期记忆模型是RNN的一种,主要解决长序列在训练过程中不易收敛的问题。使用双向LSTM同时考虑了输入文本的正序上下文信息和输入文本的倒序上下文信息。
优选的,在本方法中,使用条件随机场模型解码循环卷积变换后的文字特征向量序列,这是一种动态规划的求解方式,其目的是通过依次计算当前状态和当前状态转移到的下一状态找到最有可能的观测序列。
优选的,在本方法中,在Bi-LSTM-CRF模型基础上增加注意力机制,注意力机制通过将查询Query和键Key之间的相关程度作为值Value的权重得到输入和输出之间的映射关系:
Figure BDA0002213452490000021
其中,dk为Key对应特征向量的维度,Q、K和V同为输入的特征向量,Q=K=V=x,T表示取K的转置形式。在本文实现的模型中,直接对由word2vec转换得到的文字特征向量使用注意力机制,具体使用自注意力机制,即不考虑其他词的特征,只考虑词本身特征的注意力,所以公式中的Q=K=V=x,x为文字特征向量。
另一方面,与本发明中的方法对应,本发明还提供了一种结合注意力机制与双向LSTM的命名实体识别系统,所述系统包括:
文字序列获取单元,用于获取文本的文字信息,基于文字信息获得文字序列;
特征向量转换单元,用于将文字序列的文字分别转换为各自对应的特征向量,获得文字特征向量序列;
注意力机制变换单元,用于使用注意力机制对每个文字特征向量进行变换,获得变换后的文字特征向量序列;
循环卷积变换单元,用于对变换后的文字特征向量序列进行循环卷积变换,获得循环卷积变换后的文字特征向量序列;
解码单元,用于解码循环卷积变换后的文字特征向量序列,基于解码结果预测最优的标注序列,基于最优的标注序列获得文本的命名实体识别结果。
优选的,在本系统中,文字序列为:x1,x2,…,xn,通过word2vec方式将文字转换为对应的文字特征向量e1,e2,…,en,word2vec技术是NLP中常用的将文字转换成其对应特征的技术。
优选的,在本系统中,使用双向LSTM对变换后的文字特征向量序列进行循环卷积变换。长短期记忆模型是RNN的一种,主要解决长序列在训练过程中不易收敛的问题。使用双向LSTM同时考虑了输入文本的正序上下文信息和输入文本倒序上下文信息。
优选的,在本系统中,使用条件随机场模型解码循环卷积变换后的文字特征向量序列,这是一种动态规划的求解方式,其目的是通过依次计算当前状态和当前状态转移到的下一状态找到最有可能的观测序列。
优选的,在本系统中,在Bi-LSTM-CRF模型基础上增加注意力机制,注意力机制通过将查询Query和键Key之间的相关程度作为值Value的权重得到输入和输出之间的映射关系:
Figure BDA0002213452490000031
其中,dk为Key对应特征向量的维度,Q、K和V同为输入的特征向量,Q=K=V=x,T表示取K的转置形式。在本文实现的模型中,直接对由word2vec转换得到的文字特征向量使用注意力机制,具体使用自注意力机制,即不考虑其他词的特征,只考虑词本身特征的注意力,所以公式中的Q=K=V=x,x为文字特征向量。
本申请提供的一个或多个技术方案,至少具有如下技术效果或优点:
本发明在对文本进行命名实体识别时,在Bi-LSTM-CRF模型的基础上,加入了注意力机制,注意力机制是一种对输入特征序列的加权方法,对输入序列中比较重要的某个(些)文字的特征加入大一点的权值,即加大该特征的注意力,能够有效提升识别准确率。
附图说明
此处所说明的附图用来提供对本发明实施例的进一步理解,构成本申请的一部分,并不构成对本发明实施例的限定;
图1为一种结合注意力机制与双向LSTM的命名实体识别模型示意图;
图2a-图2b为实验得到的命名实体识别效果图;
图3是本发明中一种结合注意力机制与双向LSTM的命名实体识别系统的组成示意图。
具体实施方式
为了能够更清楚地理解本发明的上述目的、特征和优点,下面结合附图和具体实施方式对本发明进行进一步的详细描述。需要说明的是,在相互不冲突的情况下,本申请的实施例及实施例中的特征可以相互组合。
在下面的描述中阐述了很多具体细节以便于充分理解本发明,但是,本发明还可以采用其他不同于在此描述范围内的其他方式来实施,因此,本发明的保护范围并不受下面公开的具体实施例的限制。
图1为本方案中提出的加入注意力机制的命名实体识别模型。具体流程为:
(1)x1,x2,…,xn为输入文本的文字;
(2)通过word2vec方式将文字转换为对应的文字特征向量e1,e2,…,en
(3)对于每个文字特征向量ei,i=1,2,…,n,使用注意力机制变换得到变换后的文字特征向量a1,a2,…,an
(4)再使用双向LSTM(Bi-LSTM)对a1,a2,…,an进行循环卷积变换,得到o1,o2,…,on
(5)使用CRF解码o1,o2,…,on,预测最优的标注序列。
其中,步骤(3)为在原有Bi-LSTM-CRF模型的基础上增加注意力机制。注意力机制即为通过将查询(Query)和键(Key)之间的相关程度作为值(Value)的权重得到输入和输出之间的映射关系:
Figure BDA0002213452490000041
其中,dk为Key对应特征向量的维度,本方法中加入多头自注意力(multi-headattention),Q、K和V同为输入的特征向量,Q=K=V=x。
为了验证本方法和本系统的效果,本发明实施例进行了相应的实验,在实验中,使用4000条标注数据对投诉的企业或店铺进行实体识别,其中:训练数据为3500条,验证数据为500条,采用BIOES标注方式。实验得到的效果图如图2所示,图2(a)中实线表示使用Bi-LSTM-CRF模型训练时损失loss随epoch的变化图,虚线表示加入attention机制后损失loss随epoch的变化图。由图2(a)可知,在epoch相同时,加入attention机制可以使得loss更小。图2(b)中实线表示使用Bi-LSTM-CRF模型训练时验证集的F1-score随epoch的变化图,虚线表示加入attention机制后F1-score随epoch的变化图。由图2(b)可知,在epoch相同时,加入attention机制可以使得F1-score增大。
请参考图3,本发明实施例提供了一种结合注意力机制与双向LSTM的命名实体识别系统,所述系统包括:
文字序列获取单元,用于获取文本的文字信息,基于文字信息获得文字序列;
特征向量转换单元,用于将文字序列的文字分别转换为各自对应的特征向量,获得文字特征向量序列;
注意力机制变换单元,用于使用注意力机制对每个文字特征向量进行变换,获得变换后的文字特征向量序列;
循环卷积变换单元,用于对变换后的文字特征向量序列进行循环卷积变换,获得循环卷积变换后的文字特征向量序列;
解码单元,用于解码循环卷积变换后的文字特征向量序列,基于解码结果预测最优的标注序列,基于最优的标注序列获得文本的命名实体识别结果。
尽管已描述了本发明的优选实施例,但本领域内的技术人员一旦得知了基本创造性概念,则可对这些实施例作出另外的变更和修改。所以,所附权利要求意欲解释为包括优选实施例以及落入本发明范围的所有变更和修改。
显然,本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样,倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内,则本发明也意图包含这些改动和变型在内。

Claims (6)

1.一种结合注意力机制与双向LSTM的命名实体识别方法,其特征在于,所述方法包括:
获取文本的文字信息,基于文字信息获得文字序列;
将文字序列的文字分别转换为各自对应的特征向量,获得文字特征向量序列;
使用注意力机制对每个文字特征向量进行变换,获得变换后的文字特征向量序列;
使用双向LSTM对变换后的文字特征向量序列进行处理,获得处理后的文字特征向量序列;
使用条件随机场模型对处理后的文字特征向量序列进行变换,基于变换结果预测最优的标注序列,基于最优的标注序列获得文本的命名实体识别结果。
2.根据权利要求1所述的一种结合注意力机制与双向LSTM的命名实体识别方法,其特征在于,文字序列为:x1,x2,…,xn,通过word2vec方式将文字转换为对应的文字特征向量e1,e2,…,en
3.根据权利要求1-2中任意一个所述的一种结合注意力机制与双向LSTM的命名实体识别方法,其特征在于,在Bi-LSTM-CRF模型基础上增加注意力机制,注意力机制即通过将查询Query和键Key之间的相关程度作为值Value的权重得到输入和输出之间的映射关系:
Figure FDA0004106656470000011
其中,dk为Key对应特征向量的维度,Q、K和V同为输入的特征向量,Q=K=V=x,T表示取K的转置形式。
4.一种结合注意力机制与双向LSTM的命名实体识别系统,其特征在于,所述系统包括:
文字序列获取单元,用于获取文本的文字信息,基于文字信息获得文字序列;
特征向量转换单元,用于将文字序列的文字分别转换为各自对应的特征向量,获得文字特征向量序列;
注意力机制变换单元,用于使用注意力机制对每个文字特征向量进行变换,获得变换后的文字特征向量序列;
双向LSTM变换单元,用于使用双向LSTM对变换后的文字特征向量序列进行处理,获得处理后的文字特征向量序列;
条件随机场模型变换单元,使用条件随机场模型对处理后的文字特征向量序列进行变换,基于变换结果预测最优的标注序列,基于最优的标注序列获得文本的命名实体识别结果。
5.根据权利要求4所述的一种结合注意力机制与双向LSTM的命名实体识别系统,其特征在于,文字序列为:x1,x2,…,xn,通过word2vec方式将文字转换为对应的文字特征向量e1,e2,…,en
6.根据权利要求4-5中任意一个所述的一种结合注意力机制与双向LSTM的命名实体识别系统,其特征在于,在Bi-LSTM-CRF模型基础上增加注意力机制,注意力机制即通过将查询Query和键Key之间的相关程度作为值Value的权重得到输入和输出之间的映射关系:
Figure FDA0004106656470000021
其中,dk为Key对应特征向量的维度,Q、K和V同为输入的特征向量,Q=K=V=x,T表示取K的转置形式。
CN201910906582.2A 2019-09-19 2019-09-19 一种结合注意力机制与双向lstm的命名实体识别方法及系统 Active CN110619124B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910906582.2A CN110619124B (zh) 2019-09-19 2019-09-19 一种结合注意力机制与双向lstm的命名实体识别方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910906582.2A CN110619124B (zh) 2019-09-19 2019-09-19 一种结合注意力机制与双向lstm的命名实体识别方法及系统

Publications (2)

Publication Number Publication Date
CN110619124A CN110619124A (zh) 2019-12-27
CN110619124B true CN110619124B (zh) 2023-06-16

Family

ID=68924037

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910906582.2A Active CN110619124B (zh) 2019-09-19 2019-09-19 一种结合注意力机制与双向lstm的命名实体识别方法及系统

Country Status (1)

Country Link
CN (1) CN110619124B (zh)

Families Citing this family (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111370084B (zh) * 2020-02-07 2023-10-03 山东师范大学 基于BiLSTM的电子健康记录表示学习方法及系统
CN111339775A (zh) * 2020-02-11 2020-06-26 平安科技(深圳)有限公司 命名实体识别方法、装置、终端设备及存储介质
CN111581474B (zh) * 2020-04-02 2022-07-29 昆明理工大学 基于多头注意力机制的涉案微博评论的评价对象抽取方法
CN113011188A (zh) * 2021-03-24 2021-06-22 浪潮云信息技术股份公司 一种基于投诉举报内容智能挖掘投诉举报对象的方法
CN113283336A (zh) * 2021-05-21 2021-08-20 湖南大学 一种文本识别方法与系统
CN113486668A (zh) * 2021-08-25 2021-10-08 广东电网有限责任公司 一种电力知识实体识别方法、装置、设备和介质

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106569998A (zh) * 2016-10-27 2017-04-19 浙江大学 一种基于Bi‑LSTM、CNN和CRF的文本命名实体识别方法
CN109933801A (zh) * 2019-03-25 2019-06-25 北京理工大学 基于预测位置注意力的双向lstm命名实体识别方法

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109062893B (zh) * 2018-07-13 2021-09-21 华南理工大学 一种基于全文注意力机制的商品名称识别方法
CN109522553B (zh) * 2018-11-09 2020-02-11 龙马智芯(珠海横琴)科技有限公司 命名实体的识别方法及装置
CN109657239B (zh) * 2018-12-12 2020-04-21 电子科技大学 基于注意力机制和语言模型学习的中文命名实体识别方法
CN110032739B (zh) * 2019-04-18 2021-07-13 清华大学 中文电子病历命名实体抽取方法及系统

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106569998A (zh) * 2016-10-27 2017-04-19 浙江大学 一种基于Bi‑LSTM、CNN和CRF的文本命名实体识别方法
CN109933801A (zh) * 2019-03-25 2019-06-25 北京理工大学 基于预测位置注意力的双向lstm命名实体识别方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
Attention is all you need;Ashish Vaswani等;《arxiv》;1-15 *
Bert: Pre-training of Deep Bidirectional Transformers for Language Understanding;Jacob Devlin 等;《arxiv》;1-16 *

Also Published As

Publication number Publication date
CN110619124A (zh) 2019-12-27

Similar Documents

Publication Publication Date Title
CN110619124B (zh) 一种结合注意力机制与双向lstm的命名实体识别方法及系统
CN109033068B (zh) 基于注意力机制的用于阅读理解的方法、装置和电子设备
CN108875807B (zh) 一种基于多注意力多尺度的图像描述方法
CN108920460B (zh) 一种多类型实体识别的多任务深度学习模型的训练方法
CN112487807B (zh) 一种基于膨胀门卷积神经网络的文本关系抽取方法
CN107632987B (zh) 一种对话生成方法及装置
CN110795552B (zh) 一种训练样本生成方法、装置、电子设备及存储介质
CN111460807A (zh) 序列标注方法、装置、计算机设备和存储介质
WO2019169996A1 (zh) 视频处理、视频检索方法、装置、存储介质及服务器
CN111599340A (zh) 一种多音字读音预测方法、装置及计算机可读存储介质
CN110134971A (zh) 一种机器翻译的方法、设备以及计算机可读存储介质
US20230215162A1 (en) Method and apparatus for text-to-image generation using self-supervised discriminator to extract image feature
CN110472255A (zh) 神经网络机器翻译方法、模型、电子终端以及存储介质
CN111914552A (zh) 一种数据增强模型的训练方法及装置
CN116257406A (zh) 用于智慧城市的网关数据管理方法及其系统
CN111027681A (zh) 时序数据处理模型训练方法、数据处理方法、装置及存储介质
AU2019270109A1 (en) Chapter-level text translation method and device
CN115147849A (zh) 字符编码模型的训练方法、字符匹配方法和装置
CN114360502A (zh) 语音识别模型的处理方法、语音识别方法及装置
CN116069916A (zh) 旅游景点问答系统
CN111767697A (zh) 文本处理方法、装置、计算机设备以及存储介质
CN117520793A (zh) 意图槽位识别模型的生成方法、装置、及电子设备
CN116778011B (zh) 图像生成方法
CN116958738A (zh) 图片识别模型的训练方法和装置、存储介质及电子设备
CN117093864A (zh) 文本生成模型训练方法以及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
CB02 Change of applicant information
CB02 Change of applicant information

Address after: 610000 No. 270, floor 2, No. 8, Jinxiu street, Wuhou District, Chengdu, Sichuan

Applicant after: Chengdu shuzhilian Technology Co.,Ltd.

Address before: 610000 No.2, 4th floor, building 1, Jule Road intersection, West 1st section of 1st ring road, Wuhou District, Chengdu City, Sichuan Province

Applicant before: CHENGDU SHUZHILIAN TECHNOLOGY Co.,Ltd.

GR01 Patent grant
GR01 Patent grant