CN116306652A - 一种基于注意力机制和BiLSTM的中文命名实体识别模型 - Google Patents

一种基于注意力机制和BiLSTM的中文命名实体识别模型 Download PDF

Info

Publication number
CN116306652A
CN116306652A CN202310247389.9A CN202310247389A CN116306652A CN 116306652 A CN116306652 A CN 116306652A CN 202310247389 A CN202310247389 A CN 202310247389A CN 116306652 A CN116306652 A CN 116306652A
Authority
CN
China
Prior art keywords
layer
attention
bilstm
recognition model
context
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202310247389.9A
Other languages
English (en)
Inventor
吴晓鸰
陈奕全
凌捷
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Guangdong University of Technology
Original Assignee
Guangdong University of Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Guangdong University of Technology filed Critical Guangdong University of Technology
Priority to CN202310247389.9A priority Critical patent/CN116306652A/zh
Publication of CN116306652A publication Critical patent/CN116306652A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • G06F40/295Named entity recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Character Discrimination (AREA)

Abstract

本发明公开的属于信息科学技术领域,具体为一种基于注意力机制和BiLSTM的中文命名实体识别模型,包括:嵌入层,用于获取字符集嵌入、上下文编码层,用于抽取上下文特征、特征融合层,用于利用注意力机制进行融合、解码层,用于利用条件随机场进行解码,所述嵌入层与所述上下文编码层相连接,所述上下文编码层与所述特征融合层相连接,所述特征融合层与所述解码层相连接,本发明通过使用改进的Transformer编码器和双向长短期记忆网络可以同时获得全局语义信息和方向信息,同时词向量嵌入方法是RoBERTa预训练模型,这种模型可以获得更多的上下文语义信息和词汇信息,增强实体识别效果。

Description

一种基于注意力机制和BiLSTM的中文命名实体识别模型
技术领域
本发明涉及信息科学技术领域,具体为一种基于注意力机制和BiLSTM的中文命名实体识别模型。
背景技术
命名实体识别是自然语言处理中的一项基础任务,主要用于识别文本中实体的类别和边界。传统的命名实体识别方法都是基于规则和统计学习的。传统方法虽然取得了一定的效果,但是有着人工特征构建困难、高度依赖专业领域知识、模型难以迁移等问题。
“命名实体”最早是在第六届信息理解会议(MUC-6)上使用,用于识别文本中人名、地名和组织机构名等。在早期,命名实体识别的方法都是基于规则和统计学习的。传统方法虽然取得了一定的效果,但是有着人工特征构建困难、高度依赖专业领域知识、模型难以迁移等问题。近些年随着计算机的计算能力不断增长,基于深度学习的命名实体识别方法已逐步取代传统方法成为主流。基于预训练词向量,深度神经网络能够自动抽取文本中的特征信息,不再需要人工干预,从而提升了特征表达和数据拟合能力。为了具备双向表征能力,Graves等提出了双向LSTM(BiLSTM)模型,可以充分考虑当前词的上、下文信息对文本进行建模。
随着深度神经网络的发展,2017年Vaswani等提出了Transformer模型,它使用注意力(Attention)机制构造出编码器-解码器(Encoder-decoder)框架。由于具有强大的并行计算能力和长距离特征捕获能力,因此在机器翻译、预训练语言模型Bert、文本摘要等语言理解任务中表现出色,Transformer编码器也常用于特征抽取。
随着中文命名实体识别方法的发展,有论文提出了一种基于Transformer编码器和BiLSTM的字集别中文命名实体识别方法,将字向量与位置编码向量拼接成联合向量作为字表示层,避免了字向量信息的损失和位置信息的丢失;利用BiLSTM为联合向量融入方向性信息,引入Transformer编码器进一步抽取字间关系特征。
虽然现有的技术提出Transformer编码器和BiLSTM的字集别中文命名实体识别方法,但这种技术使用的词向量嵌入方法是Word2Vec的Skip-gram模型,这种模型不考虑上下文信息和无法有效学习低频词向量。
因此,发明一种基于注意力机制和BiLSTM的中文命名实体识别模型。
发明内容
鉴于上述和/或现有一种基于注意力机制和BiLSTM的中文命名实体识别模型中存在的问题,提出了本发明。
因此,本发明的目的是提供一种基于注意力机制和BiLSTM的中文命名实体识别模型,能够解决上述提出现有的问题。
为解决上述技术问题,根据本发明的一个方面,本发明提供了如下技术方案:
一种基于注意力机制和BiLSTM的中文命名实体识别模型,其包括:
嵌入层,用于获取字符集嵌入;
上下文编码层,用于抽取上下文特征;
特征融合层,用于利用注意力机制进行融合;
解码层,用于利用条件随机场进行解码;
所述嵌入层与所述上下文编码层相连接,所述上下文编码层与所述特征融合层相连接,所述特征融合层与所述解码层相连接。
作为本发明所述的一种基于注意力机制和BiLSTM的中文命名实体识别模型的一种优选方案,其中:所述嵌入层是由Word2Vector词向量和预训练模型组成。
作为本发明所述的一种基于注意力机制和BiLSTM的中文命名实体识别模型的一种优选方案,其中:所述预训练模型为RoBERTa模型。
作为本发明所述的一种基于注意力机制和BiLSTM的中文命名实体识别模型的一种优选方案,其中:所述上下文编码层是由改进的Transformer编码器和双向长短期记忆网络组成。
作为本发明所述的一种基于注意力机制和BiLSTM的中文命名实体识别模型的一种优选方案,其中:所述Transformer编码器的改进过程如下:
原始的Transformer编码器使用绝对编码的方式来生成位置编码,第t个字符的位置编码可以用以下等式表示:
PEt,2i+1=sin(t/10002i/d)
PEt,2i+1=cos(t/10002i/d)
将得到的位置编码和词向量按位相加得到多头自注意力层的输入矩阵H∈R1×d,其中l为序列长度,d为输入词向量维度,将H映射为Q,K,V,方式如下:
Q,K,V=HWq,HWk,HWv
其中,Wq,Wk,Wv都是维度为
Figure BDA0004126445540000031
的可变权重矩阵,其中dk为超参数,可以通过以下等式计算缩放点积注意力:
Figure BDA0004126445540000032
使用相对位置编码和修改注意力计算公式对原始的Transformer编码器进行改进,首先将H映射为Q,K,V时,K不进行线性变换,目的是打破对称性,加强距离感知,变换公式如下:
Figure BDA0004126445540000035
其中,Wq,Wv的维度为
Figure BDA0004126445540000033
dk为其中一个的特征维度,/>
Figure BDA0004126445540000034
为H分配给每个head的向量,其次,将绝对编码中的cos函数用sin函数代替,则新的相对位置编码如下:
Figure BDA0004126445540000041
其中,t是目标字符的索引,j是上下文字符的索引,在计算注意力分数的时候,把将词向量与相对位置编码分开计算,并且加了偏置项,计算公式如下:
Figure BDA0004126445540000042
最后在计算注意力时,不进行缩放,计算公式如下:
Attn(K,Q,V)=softmax(Arel)V
在进行了以上修改后,提升了Transformer编码器的位置感知和方向感知,使得Transformer编码器适用于中文命名实体识别任务。
作为本发明所述的一种基于注意力机制和BiLSTM的中文命名实体识别模型的一种优选方案,其中:所述双向长短期记忆网络对于嵌入层输出的字符集嵌入分别采用前向和后向输入,通过计算得到前向向量和后向向量。
作为本发明所述的一种基于注意力机制和BiLSTM的中文命名实体识别模型的一种优选方案,其中:所述特征融合层是根据门控机制使用注意力机制来动态融合Transformer编码器和双向长短期记忆网络抽取的上下文特征,实现优势互补。
作为本发明所述的一种基于注意力机制和BiLSTM的中文命名实体识别模型的一种优选方案,其中:所述解码层为条件随机场。
与现有技术相比:
通过使用改进的Transformer编码器和双向长短期记忆网络可以同时获得全局语义信息和方向信息,同时词向量嵌入方法是RoBERTa预训练模型,这种模型可以获得更多的上下文语义信息和词汇信息,增强实体识别效果。
附图说明
图1为本发明模型整体结构图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚,下面将结合附图对本发明的实施方式作进一步地详细描述。
本发明提供一种基于注意力机制和BiLSTM的中文命名实体识别模型,请参阅图1,包括:嵌入层,用于获取字符集嵌入、上下文编码层,用于抽取上下文特征、特征融合层,用于利用注意力机制进行融合、解码层,用于利用条件随机场进行解码;
嵌入层与上下文编码层相连接,上下文编码层与特征融合层相连接,特征融合层与解码层相连接;
工作原理:模型首先将文本输入到嵌入层获取字符集嵌入,然后在上下文编码层分别使用Transformer编码器和双向长短期记忆网络抽取上下文特征,一起送入特征融合层使用注意力机制进行融合,最后在解码层使用条件随机场进行解码输出标签。
嵌入层:
嵌入层是由Word2Vector词向量和预训练模型组成,预训练模型为RoBERTa模型,假设模型初始输入为句子S,使用RoBERTa模型输出为字符集嵌入R,使用Word2Vector词向量时,同样地得到字符集嵌入b和二元字符集嵌入c,将两者拼接起来得到最后的词向量:Vec=[c;b]。
上下文编码层:
上下文编码层是由改进的Transformer编码器和双向长短期记忆网络组成;
改进的Transformer编码器:
Transformer编码器的改进过程如下:
原始的Transformer编码器使用绝对编码的方式来生成位置编码,第t个字符的位置编码可以用以下等式表示:
PEt,2i+1=sin(t/10002i/d)
PEt,2i+1=cos(t/10002i/d)
将得到的位置编码和词向量按位相加得到多头自注意力层的输入矩阵H∈R1×d,其中l为序列长度,d为输入词向量维度,将H映射为Q,K,V,方式如下:
Q,K,V=HWq,HWk,HWv
其中,Wq,Wk,Wv都是维度为
Figure BDA0004126445540000061
的可变权重矩阵,其中dk为超参数,可以通过以下等式计算缩放点积注意力:
Figure BDA0004126445540000062
使用相对位置编码和修改注意力计算公式对原始的Transformer编码器进行改进,首先将H映射为Q,K,V时,K不进行线性变换,目的是打破对称性,加强距离感知,变换公式如下:
Figure BDA0004126445540000063
其中,Wq,Wv的维度为
Figure BDA0004126445540000064
dk为其中一个的特征维度,/>
Figure BDA0004126445540000065
为H分配给每个head的向量,其次,将绝对编码中的cos函数用sin函数代替,则新的相对位置编码如下:
Figure BDA0004126445540000066
其中,t是目标字符的索引,j是上下文字符的索引,在计算注意力分数的时候,把将词向量与相对位置编码分开计算,并且加了偏置项,计算公式如下:
Figure BDA0004126445540000067
最后在计算注意力时,不进行缩放,计算公式如下:
Attn(K,Q,V)=softmax(Arel)V
在进行了以上修改后,提升了Transformer编码器的位置感知和方向感知,使得Transformer编码器适用于中文命名实体识别任务;
双向长短期记忆网络:
长短期记忆网络是一种特殊的循环神经网络,长短期记忆网络可以缓解传统循环神经网络遇到的梯度消失和梯度爆炸的问题。在长短期记忆网络中引入遗忘门控制信息流从而有选择地记忆信息,在中文命名实体识别任务中,对于目标字符我们不仅需要上文的信息还需要下文的信息,所以使用双向长短期记忆网络作为上下文编码器,双向长短期记忆网络对于嵌入层输出的字符集嵌入分别采用前向和后向输入,通过计算得到前向向量和后向向量。
特征融合层:
Transformer编码器可以建模任意距离的依赖,但对位置和方向信息不太敏感,双向长短期记忆网络可以很好地捕获方向信息,但是不能捕捉到全局信息,特征融合层是根据门控机制使用注意力机制来动态融合Transformer编码器和双向长短期记忆网络抽取的上下文特征,实现优势互补。
解码层:
为了利用不同标签之间的依赖性,解码层为条件随机场。
其中,可以使用注意力机制和双向长短期记忆网络用于文本情感分类,也可以在字符嵌入层使用其他预训练模型用于命名实体识别。
虽然在上文中已经参考实施方式对本发明进行了描述,然而在不脱离本发明的范围的情况下,可以对其进行各种改进并且可以用等效物替换其中的部件。尤其是,只要不存在结构冲突,本发明所披露的实施方式中的各项特征均可通过任意方式相互结合起来使用,在本说明书中未对这些组合的情况进行穷举性的描述仅仅是出于省略篇幅和节约资源的考虑。因此,本发明并不局限于文中公开的特定实施方式,而是包括落入权利要求的范围内的所有技术方案。

Claims (8)

1.一种基于注意力机制和BiLSTM的中文命名实体识别模型,其特征在于,包括:
嵌入层,用于获取字符集嵌入;
上下文编码层,用于抽取上下文特征;
特征融合层,用于利用注意力机制进行融合;
解码层,用于利用条件随机场进行解码;
其中,具体的:
所述嵌入层与所述上下文编码层相连接,所述上下文编码层与所述特征融合层相连接,所述特征融合层与所述解码层相连接。
2.根据权利要求1所述的一种基于注意力机制和BiLSTM的中文命名实体识别模型,其特征在于,所述嵌入层是由Word2Vector词向量和预训练模型组成。
3.根据权利要求2所述的一种基于注意力机制和BiLSTM的中文命名实体识别模型,其特征在于,所述预训练模型为RoBERTa模型。
4.根据权利要求1所述的一种基于注意力机制和BiLSTM的中文命名实体识别模型,其特征在于,所述上下文编码层是由改进的Transformer编码器和双向长短期记忆网络组成。
5.根据权利要求4所述的一种基于注意力机制和BiLSTM的中文命名实体识别模型,其特征在于,所述Transformer编码器的改进过程如下:
原始的Transformer编码器使用绝对编码的方式来生成位置编码,第t个字符的位置编码可以用以下等式表示:
PEt,2i+1=sin(t/10002i/d)
PEt,2i+1=cos(t/10002i/d)
将得到的位置编码和词向量按位相加得到多头自注意力层的输入矩阵H∈R1×d,其中l为序列长度,d为输入词向量维度,将H映射为Q,K,V,方式如下:
Q,K,V=HWq,HWk,HWv
其中,Wq,Wk,Wv都是维度为Rdk×d的可变权重矩阵,其中dk为超参数,可以通过以下等式计算缩放点积注意力:
Figure FDA0004126445530000021
使用相对位置编码和修改注意力计算公式对原始的Transformer编码器进行改进,首先将H映射为Q,K,V时,K不进行线性变换,目的是打破对称性,加强距离感知,变换公式如下:
Figure FDA0004126445530000022
其中,Wq,Wv的维度为
Figure FDA0004126445530000023
dk为其中一个的特征维度,/>
Figure FDA0004126445530000024
为H分配给每个head的向量,其次,将绝对编码中的cos函数用sin函数代替,则新的相对位置编码如下:
Figure FDA0004126445530000025
其中,t是目标字符的索引,j是上下文字符的索引,在计算注意力分数的时候,把将词向量与相对位置编码分开计算,并且加了偏置项,计算公式如下:
Figure FDA0004126445530000026
最后在计算注意力时,不进行缩放,计算公式如下:
Attn(K,Q,V)=softmax(Arel)V
在进行了以上修改后,提升了Transformer编码器的位置感知和方向感知,使得Transformer编码器适用于中文命名实体识别任务。
6.根据权利要求4所述的一种基于注意力机制和BiLSTM的中文命名实体识别模型,其特征在于,所述双向长短期记忆网络对于嵌入层输出的字符集嵌入分别采用前向和后向输入,通过计算得到前向向量和后向向量。
7.根据权利要求4所述的一种基于注意力机制和BiLSTM的中文命名实体识别模型,其特征在于,所述特征融合层是根据门控机制使用注意力机制来动态融合Transformer编码器和双向长短期记忆网络抽取的上下文特征,实现优势互补。
8.根据权利要求1所述的一种基于注意力机制和BiLSTM的中文命名实体识别模型,其特征在于,所述解码层为条件随机场。
CN202310247389.9A 2023-03-15 2023-03-15 一种基于注意力机制和BiLSTM的中文命名实体识别模型 Pending CN116306652A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202310247389.9A CN116306652A (zh) 2023-03-15 2023-03-15 一种基于注意力机制和BiLSTM的中文命名实体识别模型

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202310247389.9A CN116306652A (zh) 2023-03-15 2023-03-15 一种基于注意力机制和BiLSTM的中文命名实体识别模型

Publications (1)

Publication Number Publication Date
CN116306652A true CN116306652A (zh) 2023-06-23

Family

ID=86821926

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202310247389.9A Pending CN116306652A (zh) 2023-03-15 2023-03-15 一种基于注意力机制和BiLSTM的中文命名实体识别模型

Country Status (1)

Country Link
CN (1) CN116306652A (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116756624A (zh) * 2023-08-17 2023-09-15 中国民用航空飞行学院 一种面向民航监管事项检查记录处理的文本分类方法
CN117291189A (zh) * 2023-11-24 2023-12-26 安徽大学 基于ma-rbc模型的水稻病虫害命名实体识别方法
CN117669574A (zh) * 2024-02-01 2024-03-08 浙江大学 基于多语义特征融合的人工智能领域实体识别方法及系统

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116756624A (zh) * 2023-08-17 2023-09-15 中国民用航空飞行学院 一种面向民航监管事项检查记录处理的文本分类方法
CN116756624B (zh) * 2023-08-17 2023-12-12 中国民用航空飞行学院 一种面向民航监管事项检查记录处理的文本分类方法
CN117291189A (zh) * 2023-11-24 2023-12-26 安徽大学 基于ma-rbc模型的水稻病虫害命名实体识别方法
CN117669574A (zh) * 2024-02-01 2024-03-08 浙江大学 基于多语义特征融合的人工智能领域实体识别方法及系统
CN117669574B (zh) * 2024-02-01 2024-05-17 浙江大学 基于多语义特征融合的人工智能领域实体识别方法及系统

Similar Documents

Publication Publication Date Title
CN108829722B (zh) 一种远程监督的Dual-Attention关系分类方法及系统
CN112560503B (zh) 融合深度特征和时序模型的语义情感分析方法
CN110598221B (zh) 利用生成对抗网络构造蒙汉平行语料提高蒙汉翻译质量的方法
CN111783462A (zh) 基于双神经网络融合的中文命名实体识别模型及方法
CN113158665B (zh) 一种基于文本摘要生成与双向语料改善对话文本生成的方法
CN110633683B (zh) 结合DenseNet和resBi-LSTM的中文句子级唇语识别方法
CN116306652A (zh) 一种基于注意力机制和BiLSTM的中文命名实体识别模型
CN109992669B (zh) 一种基于语言模型和强化学习的关键词问答方法
CN113128229A (zh) 一种中文实体关系联合抽取方法
CN109918681B (zh) 一种基于汉字-拼音的融合问题语义匹配方法
CN111858932A (zh) 基于Transformer的多重特征中英文情感分类方法及系统
CN109522403A (zh) 一种基于融合编码的摘要文本生成方法
CN113190656B (zh) 一种基于多标注框架与融合特征的中文命名实体抽取方法
CN110781290A (zh) 一种长篇章结构化文本摘要提取方法
CN116204674B (zh) 一种基于视觉概念词关联结构化建模的图像描述方法
CN109508457B (zh) 一种基于机器阅读到序列模型的迁移学习方法
CN113111663A (zh) 一种融合关键信息的摘要生成方法
CN117010387A (zh) 融合注意力机制的RoBERTa-BiLSTM-CRF语音对话文本命名实体识别系统
CN114580416A (zh) 基于多视图语义特征融合的中文命名实体识别方法及装置
Ma et al. E2timt: Efficient and effective modal adapter for text image machine translation
CN113705315A (zh) 视频处理方法、装置、设备及存储介质
CN116595023A (zh) 地址信息的更新方法和装置、电子设备及存储介质
CN115470799B (zh) 一种用于网络边缘设备的文本传输和语义理解一体化方法
CN117093864A (zh) 文本生成模型训练方法以及装置
CN115828931A (zh) 面向段落级文本的中英文语义相似度计算方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination