CN113836923B - 一种基于多级上下文特征提取的命名实体识别方法 - Google Patents

一种基于多级上下文特征提取的命名实体识别方法 Download PDF

Info

Publication number
CN113836923B
CN113836923B CN202110996266.6A CN202110996266A CN113836923B CN 113836923 B CN113836923 B CN 113836923B CN 202110996266 A CN202110996266 A CN 202110996266A CN 113836923 B CN113836923 B CN 113836923B
Authority
CN
China
Prior art keywords
word
level
features
sentence
lstm
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202110996266.6A
Other languages
English (en)
Other versions
CN113836923A (zh
Inventor
高志熙
韩晓红
阎东军
张巍
安俊杰
刘剑
王亮
董于杰
侯祥敏
王庆伟
张云仙
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shanxi Qingzhong Technology Co ltd
Original Assignee
Shanxi Qingzhong Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shanxi Qingzhong Technology Co ltd filed Critical Shanxi Qingzhong Technology Co ltd
Priority to CN202110996266.6A priority Critical patent/CN113836923B/zh
Publication of CN113836923A publication Critical patent/CN113836923A/zh
Application granted granted Critical
Publication of CN113836923B publication Critical patent/CN113836923B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • G06F40/295Named entity recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/284Lexical analysis, e.g. tokenisation or collocates
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/044Recurrent networks, e.g. Hopfield networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • General Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • General Engineering & Computer Science (AREA)
  • Biomedical Technology (AREA)
  • Evolutionary Computation (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Biophysics (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Machine Translation (AREA)

Abstract

本发明一种基于多级上下文特征提取的命名实体识别方法,属于命名实体识别方法技术领域;所要解决的技术问题为:提供一种基于多级上下文特征提取的命名实体识别方法的改进;解决上述技术问题采用的技术方案为:包括如下步骤:通过字符序列编码器提取字符级特征;通过词序列编码器提取单词级特征;基于Bi‑LSTM提取的上下文信息,利用自注意力机制提取单词之间的注意力分布,并利用SOFTMAX函数进行注意力分布归一化;基于归一化的注意力分布计算每个单词对句子的贡献系数,并通过注意力机制计算句子级特征;基于3D CNN获取单词、句子和文档之间的内在联系,依此提取文档级别;本发明应用于命名实体识别。

Description

一种基于多级上下文特征提取的命名实体识别方法
技术领域
本发明一种基于多级上下文特征提取的命名实体识别方法,属于命名实体识别方法技术领域。
背景技术
命名实体识别(Named Entity Recognition,NER)是从一段非结构化文本中查找相关实体,并标记它们的位置和类型。传统的命名实体识别方法主要包括基于规则的,无监督的和基于特征的有监督方法。研究表明,基于传统机器学习的命名实体识别方法具有严重依赖专家特征和弱的模型泛化能力的缺点。
近年来,深度学习在命名实体识别领域取得了一定的突破,并获得了最新的成果,原因在于深度学习不仅节省了特征工程的时间,而且学习了更多有用的抽象表达。研究者利用神经网络训练字符级和词级词嵌入(word2vec,Glove,fastText等),而且将字符级和单词级嵌入组合作为命名实体识别模型的基本输入。除了基于字符和单词的命名实体识别模型外,研究表明全局上下文信息对命名实体识别模型同样非常有效。
Bi-LSTM作为主要的序列特征提取器之一,可以成功提取词级上下文特征。但是,Bi-LSTM需要将之前内存中的记忆信息和当前词嵌入作为输入,使其无法提取全局信息。而且,为了提取更丰富的特征,堆叠模型也是有效的策略之一,但是,模型退化问题同样不可避免。为了提取全局上下文特征,同时有效避免上述问题,本发明提出了一种有效利用全局信息的分层上下文特征提取模型。
发明内容
本发明为了克服现有技术中存在的不足,所要解决的技术问题为:提供一种基于多级上下文特征提取的命名实体识别方法的改进。
为了解决上述技术问题,本发明采用的技术方案为:一种基于多级上下文特征提取的命名实体识别方法,包括如下步骤:
获取待进行命名实体识别的目标文本数据集并进行预处理;
通过分层上下文特征提取模型对目标文本进行命名实体识别,并得到识别结果;
其中分层上下文特征提取模型对目标文本进行特征提取及识别的步骤如下:
步骤一:通过字符序列编码器提取字符级特征;
步骤二:通过词序列编码器提取单词级特征;
步骤三:基于Bi-LSTM提取的上下文信息,利用自注意力机制提取单词之间的注意力分布,并利用SOFTMAX函数进行注意力分布归一化;
基于归一化的注意力分布计算每个单词对句子的贡献系数,并通过注意力机制计算句子级特征;
步骤四:基于3D CNN获取单词、句子和文档之间的内在联系,依此提取文档级别。
所述步骤一具体利用1D卷积和max-pool提取字符级特征,其中max-pool用于提取词的关键特征。
所述步骤二对单词特征的提取具体使用Glove预训练词嵌入找到输入文本的对应词嵌入,将每个词的词嵌入和字符级特征连接作为新的词表达,然后将新的词表达输入Bi-LSTM编码,得到上下文特征;
所述步骤二的具体步骤为:
给定一个序列X={x1,x2,x3,...,xn},对于每个单词xk,将每个词嵌入和字符级特征相连接作为原始词表达式xk=[wk;ck],其中wk是由斯坦福大学预训练的100D Glove词嵌入,ck表示由字符编码器获得的每个词的字符级特征;
为了提高模型的泛化能力,在将获得的词表达xk输入Bi-LSTM之前,以5%的概率将词表达xj随机替换为0。
所述步骤三具体为:
给定句子序列X={x1,x2,x3,...,xn}、上下文特征m={m1,...,mn},由每个单词xk通过词序列编码器生成;
将m∈Rn*ds的矩阵形式M表示为:
Figure BDA0003234166960000021
上式中n为句子的长度,ds为特征维度;
计算句子级特征:
任意两个特征mi和mj之间的注意力分布α,β∈Rn*n计算如下:
单头注意力:
Figure BDA0003234166960000022
Figure BDA0003234166960000023
多头注意力:映射M至多个特征空间:
Figure BDA0003234166960000031
Figure BDA0003234166960000032
在每个特征空间中分别计算词之间的注意力分布,计算公式如下:
Figure BDA0003234166960000033
Figure BDA0003234166960000034
Figure BDA0003234166960000035
上式中:hs是注意力头的数量,
Figure BDA0003234166960000036
和/>
Figure BDA0003234166960000037
是总体注意力分布的缩放因子,矩阵β的每一行代表mk对m1,m2,...,mn的注意力权重并且权重相加之和为1;
根据矩阵β主对角线的值,每个词特征对句子级特征的贡献系数为γ,贡献分别为γ*,其计算公式如下:
单头注意力:
Figure BDA0003234166960000038
Figure BDA0003234166960000039
多头注意力:
Figure BDA00032341669600000310
Figure BDA00032341669600000311
Figure BDA00032341669600000312
根据每个单词对句子的贡献分布γ*,句子级特征的计算公式如下:
s=γ*M;
句子级特征s∈Rds与词表达x′k=[s;xk]相连接作为下一层的输入。
所述步骤四具体为:
根据字符级,词级和句子级特征的组合使用Bi-LSTM进一步提取上下文特征Cs∈Rbs*sl*hs作为3D CNN的输入,其中bs代表批处理大小,sl表示句子长度,hs是隐藏层的维度;
根据3D CNN提取的文档级特征
Figure BDA0003234166960000041
然后将4种不同类型的特征相连接x″k=[dk;x′k]作为最后一层Bi-LSTM的输入以提取特征用于CRF预测,其中hd表示文档级特征维度。
所述上下文特征提取的计算公式为:
Figure BDA0003234166960000042
Figure BDA0003234166960000043
Figure BDA0003234166960000044
上式中:hk为双向LSTM提取的特征、
Figure BDA0003234166960000045
为前向LSTM提取的特征、/>
Figure BDA0003234166960000046
为后向LSTM提取的特征、/>
Figure BDA0003234166960000047
和/>
Figure BDA0003234166960000048
均是可训练的参数。
所述分层上下文特征提取模型中设置有逐层残差并应用于堆叠的Bi-LSTM,逐层残差的计算公式如下:
h1,h2,...,hn=LSTM(x1,x2,...,xn);
x′1,x′2,...,x′n=concat([x1,h1],[x2,h2],...,[xn,hn]);
h′1,h′2,...,h′n=LSTM(x′1,x′2,...,x′n);
x″1,x″2,...,x″n=concat([x′1,h′1],[x′2,h′2],...[x′n,h′n]);
……。
本发明相对于现有技术具备的有益效果为:本发明提出的多层级上下文特征提取模型,可以提取字符、词、句子和文档四个级别的特征,并且通过逐层残差有效解决了模型退化问题。在CONLL2003和ontonotes 5.0数据集上表现出了有竞争力的F1分数。
附图说明
下面结合附图对本发明做进一步说明:
图1为本发明的命名实体识别方法的流程图。
具体实施方式
如图1所示,双向长短时记忆神经网络(Bi-LSTM)作为序列标记任务的有效网络之一,已广泛用于命名实体识别。但是,由于Bi-LSTM的序列特性以及无法同时识别多个句子导致其无法获得全局信息。为了弥补Bi-LSTM在提取全局信息方面的不足,本发明提出了一种嵌入了句子级和文档级特征提取的层次化上下文模型。在句子级特征提取中,考虑到每个单词对句子的不同贡献,本发明使用自注意力机制来提取句子级表达。对于文档级特征提取,3D卷积神经网络(CNN)不仅可以提取句子内部的特征,而且还可以关注到句子之间的顺序关系,因此本发明采用3D CNN提取文档级表达。此外,本发明研究了逐层残差(LBLResidual)结构以优化模型的每个Bi-LSTM块,该结构可以解决随着模型层数增加而出现的表达退化问题。实验表明,本发明的模型在CONLL-2003和Ontonotes5.0英语数据集上分别获得了最先进的F1分数。
为了能够提取多层级的有效特征,本发明提出了一种有效利用全局信息的分层上下文特征提取模型。本发明的模型可以提取四个不同级别的特征,包括字符级、单词级、句子级和文档级。本发明通过基准模型获得前两个级别的特征。对于句子级特征提取,本发明基于Bi-LSTM提取的上下文信息,利用自注意力机制提取单词之间的注意力分布,并利用SOFTMAX函数进行注意力分布归一化。接着本发明基于归一化的注意力分布计算每个单词对句子的贡献系数,并通过注意力机制计算句子级特征。对于文档级特征提取,本发明基于3D CNN获取单词、句子和文档之间的内在联系,依此提取文档级别表达。本发明将文档级特征与之前的不同级特征相连接作为最后一层Bi-LSTM的输入。此外,为了解决由于层数堆叠导致的表达退化问题,本发明提出了逐层残差结构并将其应用于堆叠的LSTM中。
本发明基于多级上下文特征提取的命名实体识别方法包括以下步骤:
步骤1:字符序列编码器。根据输入文本,使用1D卷积和最大池化操作提取每个单词的字符级特征,其中卷积核设定为3。该字符级特征完全通过模型训练生成。
步骤2:词序列编码器。给定一个序列X={x1,x2,x3,...,xn},对于每个单词xk,本发明将每个词嵌入和字符级特征相连接作为原始词表达式xk=[wk;ck],其中wk是由斯坦福大学预训练的100D Glove词嵌入,ck表示由字符编码器获得的每个词的字符级特征。为了提高所提出模型的泛化能力,在将获得的词表达xk输入Bi-LSTM之前,本发明以5%的概率将某些词表达xj随机替换为0。
所有的上下文特征提取计算如下公式集所示:
Figure BDA0003234166960000051
Figure BDA0003234166960000052
Figure BDA0003234166960000053
其中,
Figure BDA0003234166960000054
和/>
Figure BDA0003234166960000055
均是可训练的参数。
步骤3:提取句子级特征。对于句子序列X={x1,x2,x3,...,xn},上下文特征m={m1,...,mn}由每个单词xk通过词序列编码器生成。本发明将m∈Rn*ds的矩阵形式M表示为:
Figure BDA0003234166960000061
本发明考虑了两种策略计算句子级特征:
1):任意两个特征mi和mj之间的注意力分布α,β∈Rn*n计算如下:
单头注意力:
Figure BDA0003234166960000062
Figure BDA0003234166960000063
多头注意力:
a)映射M至多个特征空间:
Figure BDA0003234166960000064
b)
Figure BDA0003234166960000065
c)在每个特征空间中分别计算词之间的注意力分布:
Figure BDA0003234166960000066
Figure BDA0003234166960000067
Figure BDA0003234166960000068
其中hs是注意力头的数量,
Figure BDA0003234166960000069
和/>
Figure BDA00032341669600000610
是总体注意力分布的缩放因子,矩阵β的每一行代表mk对m1,m2,...,mn的注意力权重并且权重相加之和为1。
2):根据矩阵β主对角线的值,每个词特征对句子级特征的贡献系数γ,γ*可以计算如下:
单头注意力:
Figure BDA0003234166960000071
Figure BDA0003234166960000072
多头注意力:
Figure BDA0003234166960000073
Figure BDA0003234166960000074
Figure BDA0003234166960000075
3):根据步骤2中每个单词对句子的贡献分布γ*,句子级特征的计算如下:
s=γ*M;
句子级特征s∈Rds与词表达x′k=[s;xk]相连接作为下一层的输入。
步骤4:提取文档级特征。根据字符级,词级和句子级特征的组合使用Bi-LSTM进一步提取上下文特征Cs∈Rbs*sl*hs作为3DCNN的输入,其中bs代表批处理大小,sl表示句子长度,hs是隐藏层的维度。根据3D CNN提取的文档级特征
Figure BDA0003234166960000076
然后将4种不同类型的特征相连接x″k=[dk;x′k]作为最后一层Bi-LSTM的输入以提取特征用于CRF预测,其中hd表示文档级特征维度。
步骤5:逐层残差。模型提取多层级特征,必然导致模型层数增加,为了有效防止模型退化,本发明提出逐层残差并应用于堆叠的Bi-LSTM。计算如下:
h1,h2,...,hn=LSTM(x1,x2,...,xn);
x′1,x′2,...,x′n=concat([x1,h1],[x2,h2],...,[xn,hn]);
h′1,h′2,...,h′n=LSTM(x′1,x′2,...,x′n);
x″1,x″2,...,x″n=concat([x′1,h′1],[x′2,h′2],...[x′n,h′n]);
……。
下面结合附图和实例对本发明进一步说明。
1.数据集的预处理工作。本发明使用CONLL-2003和ontonotes 5.0的公开数据集验证模型,并将原始数据处理为格式统一的可运行数据。
2.实验设置。本发明使用公开的100D Glove词嵌入和30D初始字符嵌入,其中字符嵌入在CONLL-2003和Ontonotes5.0数据集均服从均匀分布。本发明将卷积核的大小设置为3,隐藏层的大小设置为50,用于提取字符级特征。本发明使用随机梯度下降(SGD)算法优化所有模型,并将批次大小设置为10。本发明将初始学习率设置为0.1,并且采用了根据验证集表现的学习率降低方法。具体而言,如果模型在验证集的F1值连续5次未增加,则学习率将降低5%,否则学习率保持不变。在分层上下文模型中,注意力头的数量为1,3D共享卷积核的大小为[3;3;3],由底层至高层的三个LSTM块隐藏层大小分别设置为256、512和512。为了避免过拟合,本发明以0.5的比率对每个网络层和特征嵌入进行dropout。
3.评估。所有实验均运行于8G内存的NVIDIA Tesla P4,并通过F1分数评估模型。本发明在模型训练和预测过程中均使用BIOES标注策略。
如图1所示,将数据输入模型,利用已准备的数据训练模型。具体如下:
1)利用1D卷积和max-pool提取字符级特征,其中max-pool用于提取词的关键特征。
2)使用Glove预训练词嵌入找到输入文本的对应词嵌入,将每个词的词嵌入和字符级特征连接作为新的词表达。接着将新的词表达输入Bi-LSTM编码,得到上下文特征。
3)根据每个词的上下文特征,利用自注意力机制提取句子级特征。
4)将已获得的字符、词和句子级特征相连接输入下一层Bi-LSTM,提取新的上下文特征。
5)根据上一步提取的上下文特征,利用3D CNN提取文档级特征。
6)将字符、词、句子和文档级特征连接输入最后一层Bi-LSTM,提取丰富的上下文特征。
7)使用CRF解码、预测实体识别的准确率,并计算F1分数。
根据上述步骤,不断更新迭代,训练模型参数。在每个数据集上分别进行5次实验取平均值评估模型性能。进行对比实验,结果表明:提出的模型表现出了有竞争力的模型性能。
关于本发明具体结构需要说明的是,本发明采用的各部件模块相互之间的连接关系是确定的、可实现的,除实施例中特殊说明的以外,其特定的连接关系可以带来相应的技术效果,并基于不依赖相应软件程序执行的前提下,解决本发明提出的技术问题,本发明中出现的部件、模块、具体元器件的型号、连接方式除具体说明的以外,均属于本领域技术人员在申请日前可以获取到的已公开专利、已公开的期刊论文、或公知常识等现有技术,无需赘述,使得本案提供的技术方案是清楚、完整、可实现的,并能根据该技术手段重现或获得相应的实体产品。
最后应说明的是:以上各实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述各实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分或者全部技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的范围。

Claims (6)

1.一种基于多级上下文特征提取的命名实体识别方法,其特征在于:包括如下步骤:
获取待进行命名实体识别的目标文本数据集并进行预处理;
通过分层上下文特征提取模型对目标文本进行命名实体识别,并得到识别结果;
其中分层上下文特征提取模型对目标文本进行特征提取及识别的步骤如下:
步骤一:通过字符序列编码器提取字符级特征;
步骤二:通过词序列编码器提取单词级特征;
步骤三:基于Bi-LSTM提取上下文信息,利用自注意力机制提取单词之间的注意力分布,并利用SOFTMAX函数进行注意力分布归一化;
基于归一化的注意力分布计算每个单词对句子的贡献系数,并通过注意力机制计算句子级特征;
步骤四:基于3D CNN获取单词、句子和文档之间的内在联系,依此提取文档级别;
所述步骤三具体为:
给定句子序列X={x1,x2,x3,...,xn}、上下文特征m={m1,...,mn},由每个单词xk通过词序列编码器生成;
将m∈Rn*ds的矩阵形式M表示为:
Figure FDA0004229526420000011
上式中:n为句子的长度,ds为特征维度;
计算句子级特征:
任意两个特征mi和mj之间的注意力分布α,β∈Rn*n计算如下:
单头注意力:
Figure FDA0004229526420000012
Figure FDA0004229526420000013
多头注意力:映射M至多个特征空间:
Figure FDA0004229526420000014
在每个特征空间中分别计算词之间的注意力分布,计算公式如下:
Figure FDA0004229526420000021
Figure FDA0004229526420000022
Figure FDA0004229526420000023
上式中:hs是注意力头的数量,
Figure FDA0004229526420000024
和/>
Figure FDA0004229526420000025
是总体注意力分布的缩放因子,矩阵β的每一行代表mk对m1,m2,...,mn的注意力权重并且权重相加之和为1;
根据矩阵β主对角线的值,每个词特征对句子级特征的贡献系数为γ,贡献分别为γ*,其计算公式如下:
单头注意力:
Figure FDA0004229526420000026
Figure FDA0004229526420000027
多头注意力:
Figure FDA0004229526420000028
Figure FDA0004229526420000029
Figure FDA00042295264200000210
根据每个单词对句子的贡献分布γ*,句子级特征的计算公式如下:
s=γ*M;
句子级特征s∈Rds与词表达x′k=[s;xk]相连接作为下一层的输入。
2.根据权利要求1所述的一种基于多级上下文特征提取的命名实体识别方法,其特征在于:所述步骤一具体利用1D卷积和max-pool提取字符级特征,其中max-pool用于提取词的关键特征。
3.根据权利要求2所述的一种基于多级上下文特征提取的命名实体识别方法,其特征在于:所述步骤二对单词特征的提取具体使用Glove预训练词嵌入找到输入文本的对应词嵌入,将每个词的词嵌入和字符级特征连接作为新的词表达,然后将新的词表达输入Bi-LSTM编码,得到上下文特征;
所述步骤二的具体步骤为:
给定一个序列X={x1,x2,x3,...,xn},对于每个单词xk,将每个词嵌入和字符级特征相连接作为原始词表达式xk=[wk;ck],其中wk是由斯坦福大学预训练的100D Glove词嵌入,ck表示由字符编码器获得的每个词的字符级特征;
为了提高模型的泛化能力,在将获得的词表达xk输入Bi-LSTM之前,以5%的概率将词表达xj随机替换为0。
4.根据权利要求3所述的一种基于多级上下文特征提取的命名实体识别方法,其特征在于:所述步骤四具体为:
根据字符级,词级和句子级特征的组合使用Bi-LSTM进一步提取上下文特征Cs∈Rbs *sl*hs作为3D CNN的输入,其中bs代表批处理大小,sl表示句子长度,hs是隐藏层的维度;
根据3D CNN提取的文档级特征
Figure FDA0004229526420000031
然后将4种不同类型的特征相连接x″k=[dk;x′k]作为最后一层Bi-LSTM的输入以提取特征用于CRF预测,其中hd表示文档级特征维度。
5.根据权利要求1-4任一项所述的一种基于多级上下文特征提取的命名实体识别方法,其特征在于:所述上下文特征提取的计算公式为:
Figure FDA0004229526420000032
Figure FDA0004229526420000033
Figure FDA0004229526420000034
上式中:hk为双向LSTM提取的特征、
Figure FDA0004229526420000035
为前向LSTM提取的特征、/>
Figure FDA0004229526420000036
为后向LSTM提取的特征、/>
Figure FDA0004229526420000037
和/>
Figure FDA0004229526420000038
均是可训练的参数。
6.根据权利要求5所述的一种基于多级上下文特征提取的命名实体识别方法,其特征在于:所述分层上下文特征提取模型中设置有逐层残差并应用于堆叠的Bi-LSTM,逐层残差的计算公式如下:
h1,h2,...,hn=LSTM(x1,x2,...,xn);
x′1,x′2,...,x′n=concat([x1,h1],[x2,h2],...,[xn,hn]);
h′1,h′2,...,h′n=LSTM(x′1,x′2,...,x′n);
x″1,x″2,...,x″n=concat([x′1,h′1],[x′2,h′2],...[x′n,h′n])。
CN202110996266.6A 2021-08-27 2021-08-27 一种基于多级上下文特征提取的命名实体识别方法 Active CN113836923B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110996266.6A CN113836923B (zh) 2021-08-27 2021-08-27 一种基于多级上下文特征提取的命名实体识别方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110996266.6A CN113836923B (zh) 2021-08-27 2021-08-27 一种基于多级上下文特征提取的命名实体识别方法

Publications (2)

Publication Number Publication Date
CN113836923A CN113836923A (zh) 2021-12-24
CN113836923B true CN113836923B (zh) 2023-06-27

Family

ID=78961291

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110996266.6A Active CN113836923B (zh) 2021-08-27 2021-08-27 一种基于多级上下文特征提取的命名实体识别方法

Country Status (1)

Country Link
CN (1) CN113836923B (zh)

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109858032A (zh) * 2019-02-14 2019-06-07 程淑玉 融合Attention机制的多粒度句子交互自然语言推理模型
CN112232087A (zh) * 2020-10-20 2021-01-15 中国民航大学 一种基于Transformer的多粒度注意力模型的特定方面情感分析方法
CN112347784A (zh) * 2020-11-18 2021-02-09 湖南国发控股有限公司 一种结合多任务学习的跨文档实体识别方法
CN112926323A (zh) * 2021-01-26 2021-06-08 江南大学 基于多级残差卷积与注意力机制的中文命名实体识别方法

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11574122B2 (en) * 2018-08-23 2023-02-07 Shenzhen Keya Medical Technology Corporation Method and system for joint named entity recognition and relation extraction using convolutional neural network
CN109933801B (zh) * 2019-03-25 2022-03-29 北京理工大学 基于预测位置注意力的双向lstm命名实体识别方法
CN110795556B (zh) * 2019-11-01 2023-04-18 中山大学 一种基于细粒度插入式解码的摘要生成方法
CN112579778B (zh) * 2020-12-23 2022-08-26 重庆邮电大学 基于多层次的特征注意力的方面级情感分类方法
CN112800774B (zh) * 2021-01-15 2023-07-18 华南理工大学 基于注意力机制的实体关系抽取方法、装置、介质和设备

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109858032A (zh) * 2019-02-14 2019-06-07 程淑玉 融合Attention机制的多粒度句子交互自然语言推理模型
CN112232087A (zh) * 2020-10-20 2021-01-15 中国民航大学 一种基于Transformer的多粒度注意力模型的特定方面情感分析方法
CN112347784A (zh) * 2020-11-18 2021-02-09 湖南国发控股有限公司 一种结合多任务学习的跨文档实体识别方法
CN112926323A (zh) * 2021-01-26 2021-06-08 江南大学 基于多级残差卷积与注意力机制的中文命名实体识别方法

Non-Patent Citations (8)

* Cited by examiner, † Cited by third party
Title
Ashish Vaswani等.Attention Is All You Need.https://arxiv.org/pdf/1706.03762.pdf.2017,全文. *
Ashish Vaswani等.Attention Is All You Need.https://arxiv.org/pdf/1706.03762.pdf.2017,第3页. *
Dongsheng Wang.Learning with joint cross-document information via multi-task learning for named entity recognition.Information Science.2021,(第579期),第454–467页. *
Quan Tran等.Named Entity Recognition with stack residual LSTM and trainable bias decoding.https://arxiv.org/pdf/ 1706.07598.pdf.2017,全文. *
Quan Tran等.Named Entity Recognition with stack residual LSTM and trainable bias decoding.https://arxiv.org/pdf/ 1706.07598.pdf.2017,第1-10页. *
WENPENG LU等.Sentence Semantic Matching Based on 3D CNN for Human–Robot Language Interaction.ACM Transactions on Internet Technology.2021,第21卷(第4期),第1-24页. *
Ying Luo等.Hierarchical Contextualized Representation for Named Entity Recognition.https://arxiv.org/pdf/1911.02257.pdf.2019,全文. *
Ying Luo等.Hierarchical Contextualized Representation for Named Entity Recognition.https://arxiv.org/pdf/1911.02257.pdf.2019,第1-4页. *

Also Published As

Publication number Publication date
CN113836923A (zh) 2021-12-24

Similar Documents

Publication Publication Date Title
CN109471895B (zh) 电子病历表型抽取、表型名称规范化方法及系统
CN111626063B (zh) 一种基于投影梯度下降和标签平滑的文本意图识别方法及系统
CN110059185B (zh) 一种医学文档专业词汇自动化标注方法
CN110969020B (zh) 基于cnn和注意力机制的中文命名实体识别方法、系统及介质
CN111461157B (zh) 一种基于自学习的跨模态哈希检索方法
CN113657561B (zh) 一种基于多任务解耦学习的半监督夜间图像分类方法
CN112487820B (zh) 一种中文医疗命名实体识别方法
CN112163429B (zh) 结合循环网络及bert的句子相关度获取方法、系统及介质
CN113383316B (zh) 用于学习程序语义的方法和设备
CN111400492B (zh) 基于sfm-dcnn的层次特征文本分类方法和系统
CN110276396B (zh) 基于物体显著性和跨模态融合特征的图片描述生成方法
CN115983274B (zh) 一种基于两阶段标签校正的噪声事件抽取方法
CN116049394A (zh) 一种基于图神经网络长文本相似度对比方法
CN118262874A (zh) 一种基于知识图谱的中医诊疗模型数据扩充系统及方法
Gao et al. REPRESENTATION LEARNING OF KNOWLEDGE GRAPHS USING CONVOLUTIONAL NEURAL NETWORKS.
CN113836923B (zh) 一种基于多级上下文特征提取的命名实体识别方法
Okamura et al. Lcnme: Label correction using network prediction based on memorization effects for cross-modal retrieval with noisy labels
CN116151260A (zh) 一种基于半监督学习的糖尿病命名实体识别模型构建方法
CN115691817A (zh) 一种基于融合神经网络的LncRNA-疾病关联预测方法
CN117012280A (zh) 构建dna序列预训练语言模型的方法及其应用
CN114580422A (zh) 一种结合近邻分析的两阶段分类的命名实体识别方法
CN112989048A (zh) 一种基于密集连接卷积的网络安全领域关系抽取方法
Wang et al. BCKD: Block-Correlation Knowledge Distillation
CN112542222B (zh) 基于深度学习的中文电子病历实体及关系联合抽取方法
CN114021549B (zh) 基于词汇增强和多特征的中文命名实体识别方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant