CN114239585A - 一种生物医学嵌套命名实体识别方法 - Google Patents

一种生物医学嵌套命名实体识别方法 Download PDF

Info

Publication number
CN114239585A
CN114239585A CN202111553048.1A CN202111553048A CN114239585A CN 114239585 A CN114239585 A CN 114239585A CN 202111553048 A CN202111553048 A CN 202111553048A CN 114239585 A CN114239585 A CN 114239585A
Authority
CN
China
Prior art keywords
word
layer
vector
character
grained
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202111553048.1A
Other languages
English (en)
Inventor
黄荣梅
廖涛
段松松
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Anhui University of Science and Technology
Original Assignee
Anhui University of Science and Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Anhui University of Science and Technology filed Critical Anhui University of Science and Technology
Priority to CN202111553048.1A priority Critical patent/CN114239585A/zh
Publication of CN114239585A publication Critical patent/CN114239585A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • G06F40/295Named entity recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/044Recurrent networks, e.g. Hopfield networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/048Activation functions
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/049Temporal neural networks, e.g. delay elements, oscillating neurons or pulsed inputs
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent

Abstract

本发明公开了一种生物医学嵌套命名实体识别方法,通过基于字符级向量与字级别向量交互融合并结合多头注意力机制得到信息交互后的字符级特征向量与字级别特征向量的表示,通过基于双向长短期记忆神经网络得到句子上下文信息,再次对获取上下文信息的字符级向量与字级向量交互信息,经过向量加权得到最终的标签序列,根据标签序列得到粗粒度候选区间,经过对粗粒度候选区间的细粒度划分得到所有的嵌套命名实体识别结果。字符级特征与字级别特征的信息交互可以更好的获得字内部的信息,基于注意力机制的语言预处理模型预先生成增强语义的字向量并有利于特征信息之间的相互传递。本发明不仅提高了嵌套命名实体的识别效果,而且提高了识别的速度。

Description

一种生物医学嵌套命名实体识别方法
技术领域
本发明涉及一种生物医学嵌套命名实体识别方法,属于自然语言处理中命名实体识别技术领域。
背景技术
自然语言处理是近几年热门研究方向,其目的是让计算机理解人类的语言并进行有效交互。命名实体识别技术是自然语言处理中一项非常重要的技术,其目的是识别语句中包含特定意义的实体,包括人名,地名,机构名,专有名词等。然后在大多数数据当中实体嵌套现象也是随处可见,嵌套命名实体包含更细粒度的语言信息,被证明在许多自然语言任务处理中都有着显著的促进作用。本发明提出的嵌套命名实体识别方法基于不同领域数据,主要用于识别生物医学,化学等文本中的嵌套命名实体,具体可应用于自然语言处理中的事件检测、信息检索、机器翻译和问答系统等。
早期使用基于规则和字典的方法探索具有嵌套结构的命名实体,然而,基于规则的方法存在灵活性差、可扩展性差以及字典之外的词查找能力不足等缺点。随着深度学习的不断发展,基于神经网络的方法引起了研究人员的广泛关注,大多数提出的模型是以使用双向长短期记忆网络和条件随机场的组合模型为基础,嵌套命名实体识别效果得到进一步的提升。近年来,提出的各种针对嵌套命名实体识别的方法主要分为两类:基于转化的方法以及基于跨度的方法。基于转化的方法最终将复杂的序列嵌套问题转化为标注型的序列标记任务,基于跨度的方法即为找到最有可能为实体的区间再进行分类。
发明内容
发明目的:为了克服现有技术中难以应对命名实体之间相互嵌套,以及一字多义问题,本发明提供一种嵌套命名实体识别方法,通过基于注意力机制的语言预处理模型生成文本中每个字和字符的特征向量,经过两特征向量的交互得到更深层次的字内部语义信息,通过双向长短期记忆网络的特征向量第二次交互信息并在其后加入多头注意力层以提取文本中字的多重语义,特征提取层最终形成的上下文隐层序列标签进入全连接层和softmax层得到粗粒度候选区间,然后通过对粗粒度候选区间进行细粒度划分,枚举出所有可能的实体区间,再经过一个全连接层和softmax层得到最终的实体标签序列。基于特征向量交互的和注意力机制的语言预处理模型在实体识别之前预先生成增强语义的字向量与字符向量,并在嵌套实体识别模型中加入多头注意力层以提取文本中字的多重语义,从而有效提高识别效果。由于二进制序列标记只标注两种标签,并且相邻标签之间不具有较强的依赖关系,因此模型采用的是全连接层而不是条件随机场,减少了训练时长。
技术方案:为实现上述目的,本发明采用的技术方案为:
一种嵌套命名实体识别方法,包括基于特征交互和注意力机制的语言预处理模型和嵌套实体识别模型。在语言预处理模型中,引入注意力机制,从而使生成的字向量可以学习到字符间长距离依赖关系,增强字向量的语义特征,同时增强了字符向量之间的信息共享。在嵌套实体识别模型中,使用双向长短期记忆网络获取上下文信息,并添加多头注意力层进一步提取字的多重语义信息,提升了嵌套命名实体识别的准确性,通过使用全连接层和softmax层获得粗粒度候选区间,进一步枚举出所有细粒度区间并识别实体类别或不属于任何实体。嵌套命名实体识别方法主要应用于生物医学或化学信息抽取,在医疗知识图谱等多个领域具有重要的应用价值。由全连接层和softmax组成的粗粒度候选区间感知层过滤一些不相关的区间,只保留属于实体词的区间,再对粗粒度候选区间进行细粒度划分,这样一来,减少了计算时间和成本,提高了嵌套命名实体识别的准确度和效率,具体包括以下步骤:
步骤1)将用于训练的生物医学数据集进行字符级别和字级别的切分,得到用于训练的生物医学数据集文本切分字符;将用于识别的生物医学数据集进行字符级别和字级别的切分,得到用于识别的生物医学数据集文本切分字符;
步骤2)对用于训练的数据集文本切分字符和切分字进行标注,得到用于训练的标注数据集,其中,属于命名实体的开始字符或字标注为‘B’,命名实体的内部实体字符或字标注为‘I’,不是实体的字符或字标注为‘O’;
步骤3)将用于训练的切分字符和切分字向量进行交互并通过多头注意力机制获得增强语义的字符向量和字向量;使用步骤2得到的用于训练的标注文本对基于注意力机制和特征交互的语言预处理模型进行训练,得到训练好语言预处理模型;基于注意力机制和特征交互的语言预处理模型包括依次连接的字嵌入层、特征交互层和注意力机制层;
步骤3.1)将步骤2得到的用于训练的标注数据集文本以句为单位送入基于注意力机制和特征交互的语言预处理模型的字嵌入层,得到字符级别特征向量和字级别特征向量的表示。将字符级别特征向量与字级别特征向量进行交互得到更多的字内部信息,交互计算后得到新的字符向量和字向量:
Figure BDA0003418368210000041
Figure BDA0003418368210000042
其中,xw表示字级别特征向量表示,xc表示字符级别特征向量表示;mul表示不同数据之间的信息交换;
Figure BDA0003418368210000043
表示交互后的字级别特征向量表示,
Figure BDA0003418368210000044
表示字符级别特征向量表示;
步骤3.2)使用注意力机制分别学习字向量中的字符依赖关系以及字符之间的信息交流,使字嵌入向量包含字中所有字与字符的信息;注意力机制层的输出为最终生成新的字符级别与字级别向量:
Figure BDA0003418368210000045
其中,Attention(Q,K,V)表示注意力分数,Q表示查询向量,K表示键向量,V表示值向量,
Figure BDA0003418368210000046
表示键向量维数的平方根,softmax函数为归一化指数函数:
Figure BDA0003418368210000047
其中,D表示数组,Dt表示数组D的第t个元素,t表示字级别特征元素
Figure BDA0003418368210000051
与或字符级别特征元素
Figure BDA0003418368210000052
中的第t个元素,softmax(t)的值即为数组中第t个元素的指数与其它所有元素指数和的比值。
步骤4)使用步骤2得到的用于训练的标注数据集文本对生物医学嵌套命名实体识别模型进行训练,得到训练好的嵌套实体识别模型,嵌套实体识别模型包括依次连接的双向长短期记忆网络层、多头注意力层、全连接层网络与softmax层构成的粗粒度候选区间感知层和细粒度划分及类别判断层。
步骤4.1)使用双向长短期记忆网络层对字向量和字符向量进行双向编码,正向长短期记忆网络层学习后文特征,反向长短期记忆网络层学习前文特征,从而使生成的向量更好地捕捉前后文语义信息,学习上下文关系;双向长短期记忆网络层是由输入门、遗忘门和输出门组成,字向量长短期记忆网络层计算公式如(5)-(10)所示:
Figure BDA0003418368210000053
Figure BDA0003418368210000054
Figure BDA0003418368210000055
Figure BDA0003418368210000056
Figure BDA0003418368210000057
Figure BDA0003418368210000058
其中,σ(·)是sigmoid激活函数,tanh(·)是双曲正切函数
Figure BDA0003418368210000059
Figure BDA00034183682100000510
分别表示输入门、遗忘门和输出门;
Figure BDA00034183682100000511
表示t时刻候选记忆单元向量,
Figure BDA00034183682100000512
表示t时刻记忆单元向量;Ww和Uw表示单元输出的权重矩阵;bw表示偏置向量;⊙表示元素级乘法运算。
通过连接前向LSTM和后向LSTM得到句子的隐藏状态
Figure BDA0003418368210000061
其中
Figure BDA0003418368210000062
同理,可以得到句子字符级特征表示
Figure BDA0003418368210000063
经过BiLSTM得到的句子隐藏状态特征表示为:
Figure BDA0003418368210000064
其中
Figure BDA0003418368210000065
步骤4.2)隐藏状态的特征信息可以通过强化训练获取深层语义信息,本文引入softmax激活函数更新不同特征的权重,同时让两个隐藏状态特征向量与权重矩阵进行交互,以达到关注有用的部分,降低不相关信息比重的目的。该过程描述如公式(11)-(12)所示:
Figure BDA0003418368210000066
Figure BDA0003418368210000067
经过两次交互之后,最终的包含单词语义信息和句子上下文信息的隐藏状态序列表示H={h1,h2,...,hn},每个隐藏单元ht满足公式(13):
Figure BDA0003418368210000068
步骤4.3)使用多头注意力层进一步提取多重语义:多头注意力层实质指进行两次以上的注意力头运算,对于通过双向长短期记忆网络层的输出状态,首先通过公式(14)进行单头注意力计算:
Figure BDA0003418368210000069
其中,headi表示第i个注意力头计算的结果,i表示总共有i个注意力头,Wi Q为生成查询向量的权重参数,Wi K为生成键向量的权重参数,Wi V为生成值向量的权重参数,
Figure BDA00034183682100000610
为k维度的调节平滑项,softmax()为归一化指数函数。最后,拼接这i次的计算结果并做一次线性变换,得到对于每一时刻t通过双向长短期记忆网络层的t时刻网络的输出状态的多头注意力运算结果,如公式(15)所示:
MultiHeadi=Concat(head1,head2,...,headi)Wm (15)
其中,MultiHeadi表示多头注意力层的计算结果,Wm为权重参数。
步骤4.4)使用全连接层和softmax层得到粗粒度候选区间,采用二进制序列标记给每一个文本标记实数,其中是实体词的被标记为1,非实体词被标记为0。可以用来判断每一个词是否属于某一个或多个实体,以便过滤掉一些不相关的区域,找到属于实体内部词的粗粒度候选区间,进而划分出不同层次的实体词。
具体步骤是:隐藏层特征序列输出经过一个全连接层和sigmoid激活函数得到每个词属于实体内部或实体边界的实体词概率p。句子的粗粒度候选区间感知层使用二元交叉熵函数作为损失函数Lword,公式如(16)所示:
Lword=-[ylog(p)+(1-y)log(1-p) (16)
其中,y是所判断词的真实标签,p是所判断词为实体词的概率。
句子的粗粒度候选区间感知层在当前批次的损失Lossword公式如(17)所示:
Figure BDA0003418368210000071
其中,Lword为粗粒度候选区间感知层的损失函数;wordi表示当前训练批次的第i个词;mx表示当前训练批次词的个数。模型进行训练时在训练集上运用反向传播算法对公式进行最小化达到对模型的优化。
对粗粒度候选空间继续划分出不同层的细粒度候选区间,判断是否为实体区间词或单个的实体词,并判断出实体类型。对于每个粗粒度候选区间interval(i,j)=(xi,xi+1,...,xj),xi表示输入文本的第i个词,定义粗粒度候选区间的左边界信息为区间第一个词的句子级信息hi,右边界信息为区间最后一个词的句子级信息hj,整体信息为区间的所有词句子级信息表示的平均值。每个粗粒度候选区间interval(i,j)向量表示如公式(18)所示:
Figure BDA0003418368210000081
对粗粒度候选区间的细粒度划分采用枚举的方法,其中,细粒度区间的向量表示和粗粒度候选区间向量表示保持一致。随后,细粒度区间的向量表示输入到由全连接层和softmax输出层构成的区域,用来分类该细粒度区间属于哪一种实体类别或者不属于任何实体类别。细粒度区间分类损失函数采用交叉熵损失函数,公式表示如(19)所示:
Figure BDA0003418368210000082
其中,yinterval,c表示的是细粒度区间是否属于实体类别c的二元标签(1表示属于,0表示不属于);pinterval,c表示细粒度区间属于实体类别c的概率;实体类别一共有N个。细粒度划分及类别判断层在当前批次上的训练损失公式如(20)所示:
Figure BDA0003418368210000083
模型在训练集上的损失Loss为多任务训练损失的加权平均值。公式如(21)所示:
Figure BDA0003418368210000091
其中,λ是一项超参数(0<λ<1),表示粗粒度候选区间感知层在整个模型损失中的权重。Lword和Linterval分别表示粗粒度候选区间感知层和细粒度划分及类别判断层的损失函数。
优选的:步骤4.1中sigmoid函数值域为(-1,1),表达式如公式(22)所示:
Figure BDA0003418368210000092
优选的:步骤4.1中激励函数值域为(-1,1),表达式如公式(23)所示:
Figure BDA0003418368210000093
本发明相比现有技术,具有以下有益效果:
本发明在语言预处理模型中,引入注意力机制,从而使生成的字向量可以学习到字符间长距离依赖关系,增强字向量的语义特征,同时增强了字符向量之间的信息共享。在嵌套实体识别模型中,使用双向长短期记忆网络获取上下文信息,并添加多头注意力层进一步提取字的多重语义信息,提升了嵌套命名实体识别的准确性,通过使用全连接层和softmax层获得粗粒度候选区间,进一步枚举出所有细粒度区间并识别实体类别或不属于任何实体。由全连接层和softmax组成的粗粒度候选区间感知层过滤一些不相关的区间,只保留属于实体词的区间,再对粗粒度候选区间进行细粒度划分。采用上述方式减少了计算时间和成本,提高了嵌套命名实体识别的准确度和效率。
附图说明
图1为本发明具体流程示意图。
图2为基于注意力机制和特征交互的语言预处理模型框架。
图3为嵌套实体识别模型框架。
图4为长短期记忆网络示意图。
具体实施方式
下面结合附图和具体实施例,进一步阐明本发明,应理解这些实例仅用于说明本发明而不用于限制本发明的范围,在阅读了本发明之后,本领域技术人员对本发明的各种等价形式的修改均落于本申请所附权利要求所限定的范围。
一种生物医学嵌套命名实体识别方法,首先使用数据文本在进行分割和标记处理后,对语言预处理模型进行训练,然后将待识别的文本送入训练好的语言预处理模型生成增强语义的字向量和字符向量,然后使用经过训练的嵌套实体识别模型根据字向量生成标签序列,之后选出粗粒度候选区间,再对粗粒度候选区间进行细粒度划分,最后得到嵌套命名实体标签,如图1所示,具体包括以下步骤:
步骤1)将用于训练的数据文本进行字符级和字级切分,得到用于训练的文本切分字符。如文本‘the mouse IL-2R alpha gene’的字级切分为‘the’,‘mouse’,‘IL-2R’,‘alpha’,‘gene’。字符级切分为每个词的字符级切分如‘the’字符级切分为‘t’,‘h’,‘e’,‘mouse’的字符级切分为‘m’,‘o’,‘u’,‘s’,‘e’,后面词的字符级切分与前两个词字符级切分保持一致。
步骤2)对用于训练的文本切分字符进行标注,得到用于训练的标注文本,其中,命名实体的开始字符标注为‘B’,命名实体的非开始字符标注为‘I’,单个词为实体的标注为‘S’,不是实体的字符标注为‘O’。如对于文本‘the mouse IL-2R alpha gene’,最终的标注序列为‘the(O、O)’,‘mouse(B-protein、B-DNA)’,‘IL-2R(I-protein、I-DNA)’,‘alpha(I-protein、I-DNA)’,‘gene(O、I-DNA)’,其中‘BIO’标注用于区分命名实体,为后续的嵌套实体识别模型训练作准备。
步骤3)使用步骤2得到的用于训练的标注文本对基于注意力机制和特征交互的语言预处理模型进行训练语言预处理模型。如图2所示,基于注意力机制和特征交互的语言预处理模型包括依次连接的字嵌入层、特征交互层和注意力机制层,对于分割后的文本,首先通过字嵌入层生成字级别特征向量和字符级别特征向量,然后进行基于注意力机制的特征交互,从而加强字的语义表示。
步骤3.1)将步骤2得到的用于训练的标注文本以句为单位送入基于注意力机制和特征交互的字嵌入层,得到字符级别特征向量和字级别特征向量的表示。将字符级别特征向量与字级别特征向量进行交互得到更多的字内部信息,交互计算后得到新的字符向量和字向量:
Figure BDA0003418368210000111
Figure BDA0003418368210000112
其中,xw表示字级别特征向量表示,xc表示字符级别特征向量表示;mul表示不同数据之间的信息交换;
Figure BDA0003418368210000121
表示交互后的字级别特征向量表示,
Figure BDA0003418368210000122
表示字符级别特征向量表示。
步骤3.2)使用注意力机制分别学习字向量中的字符依赖关系以及字符之间的信息交流,使字嵌入向量包含字中所有字与字符的信息;注意力机制层的输出为最终生成新的字符级别与字级别向量:
Figure BDA0003418368210000123
其中,Attention(Q,K,V)表示注意力分数,Q表示查询向量,K表示键向量,V表示值向量,
Figure BDA0003418368210000124
表示键向量维数的平方根,softmax函数为归一化指数函数:
Figure BDA0003418368210000125
其中,D表示数组,Dt表示数组D的第t个元素,t表示字级别特征元素
Figure BDA0003418368210000126
与或字符级别
Figure BDA0003418368210000127
中的第t个元素,softmax(t)的值即为数组中第t个元素的指数与其它所有元素指数和的比值。
步骤4,使用步骤2得到的用于训练的标注数据集文本对生物医学嵌套命名实体识别模型进行训练,得到训练好的嵌套实体识别模型,嵌套实体识别模型包括依次连接的双向长短期记忆网络层、多头注意力层、全连接层网络与softmax层构成的粗粒度候选区间感知层和细粒度划分及类别判断层。
步骤4.1)使用双向长短期记忆网络层对字向量和字符向量进行双向编码,正向长短期记忆网络层学习后文特征,反向长短期记忆网络层学习前文特征,从而使生成的向量更好地捕捉前后文语义信息,学习上下文关系;双向长短期记忆网络层是由输入门、遗忘门和输出门组成,字向量长短期记忆网络层计算公式如(5)-(10)所示:
Figure BDA0003418368210000131
Figure BDA0003418368210000132
Figure BDA0003418368210000133
Figure BDA0003418368210000134
Figure BDA0003418368210000135
Figure BDA0003418368210000136
其中,σ(·)是sigmoid激活函数,tanh(·)是双曲正切函数
Figure BDA0003418368210000137
Figure BDA0003418368210000138
分别表示输入门、遗忘门和输出门;
Figure BDA0003418368210000139
表示t时刻候选记忆单元向量,
Figure BDA00034183682100001310
表示t时刻记忆单元向量;Ww和Uw表示单元输出的权重矩阵;bw表示偏置向量;⊙表示元素级乘法运算。
通过连接前向LSTM和后向LSTM得到句子的隐藏状态
Figure BDA00034183682100001311
其中
Figure BDA00034183682100001312
同理,可以得到句子字符级特征表示
Figure BDA00034183682100001313
经过BiLSTM得到的句子隐藏状态特征表示为:
Figure BDA00034183682100001314
其中
Figure BDA00034183682100001315
步骤4.2)隐藏状态的特征信息可以通过强化训练获取深层语义信息,本文引入softmax激活函数更新不同特征的权重,同时让两个隐藏状态特征向量与权重矩阵进行交互,以达到关注有用的部分,降低不相关信息比重的目的。该过程描述如公式(11)-(12)所示:
Figure BDA00034183682100001316
Figure BDA00034183682100001317
经过两次交互之后,最终的包含单词语义信息和句子上下文信息的隐藏状态序列表示H={h1,h2,...,hn},每个隐藏单元ht满足公式(13):
Figure BDA0003418368210000141
步骤4.3)使用多头注意力层进一步提取多重语义:多头注意力层实质指进行两次以上的注意力头运算,对于通过双向长短期记忆网络层的输出状态,首先通过公式(14)进行单头注意力计算:
Figure BDA0003418368210000142
其中,headi表示第i个注意力头计算的结果,i表示总共有i个注意力头,Wi Q为生成查询向量的权重参数,Wi K为生成键向量的权重参数,Wi V为生成值向量的权重参数,
Figure BDA0003418368210000143
为k维度的调节平滑项,softmax()为归一化指数函数。最后,拼接这i次的计算结果并做一次线性变换,得到对于每一时刻t通过双向长短期记忆网络层的t时刻网络的输出状态的多头注意力运算结果,如公式(15)所示:
MultiHeadi=Concat(head1,head2,...,headi)Wm (15)
其中,MultiHeadi表示多头注意力层的计算结果,Wm为权重参数。
步骤4.4)使用全连接层和softmax层得到粗粒度候选区间,采用二进制序列标记给每一个文本标记实数,其中是实体词的被标记为1,非实体词被标记为0。可以用来判断每一个词是否属于某一个或多个实体,以便过滤掉一些不相关的区域,找到属于实体内部词的粗粒度候选区间,进而划分出不同层次的实体词。
具体步骤是:隐藏层特征序列输出经过一个全连接层和sigmoid激活函数得到每个词属于实体内部或实体边界的实体词概率p。句子的粗粒度候选区间感知层使用二元交叉熵函数作为损失函数Lword,公式如(16)所示:
Lword=-[ylog(p)+(1-y)log(1-p) (16)
其中,y是所判断词的真实标签,p是所判断词为实体词的概率。
句子的粗粒度候选区间感知层在当前批次的损失Lossword公式如(17)所示:
Figure BDA0003418368210000151
其中,Lword为粗粒度候选区间感知层的损失函数;wordi表示当前训练批次的第i个词;mx表示当前训练批次词的个数。模型进行训练时在训练集上运用反向传播算法对公式进行最小化达到对模型的优化。
对粗粒度候选空间继续划分出不同层的细粒度候选区间,判断是否为实体区间词或单个的实体词,并判断出实体类型。对于每个粗粒度候选区间interval(i,j)=(xi,xi+1,...,xj),xi表示输入文本的第i个词,定义粗粒度候选区间的左边界信息为区间第一个词的句子级信息hi,右边界信息为区间最后一个词的句子级信息hj,整体信息为区间的所有词句子级信息表示的平均值。每个粗粒度候选区间interval(i,j)向量表示如公式(18)所示:
Figure BDA0003418368210000152
对粗粒度候选区间的细粒度划分采用枚举的方法,其中,细粒度区间的向量表示和粗粒度候选区间向量表示保持一致。随后,细粒度区间的向量表示输入到由全连接层和softmax输出层构成的区域,用来分类该细粒度区间属于哪一种实体类别或者不属于任何实体类别。细粒度区间分类损失函数采用交叉熵损失函数,公式表示如(19)所示:
Figure BDA0003418368210000161
其中,yinterval,c表示的是细粒度区间是否属于实体类别c的二元标签(1表示属于,0表示不属于);pinterval,c表示细粒度区间属于实体类别c的概率;实体类别一共有N个。细粒度划分及类别判断层在当前批次上的训练损失公式如(20)所示:
Figure BDA0003418368210000162
模型在训练集上的损失Loss为多任务训练损失的加权平均值。公式如(21)所示:
Figure BDA0003418368210000163
其中,λ是一项超参数(0<λ<1),表示粗粒度候选区间感知层在整个模型损失中的权重。Lword和Linterval分别表示粗粒度候选区间感知层和细粒度划分及类别判断层的损失函数。
最后,根据标签序列识别文本中的嵌套命名实体。其中,如果字符标注为‘B’,则代表其是命名实体的首字符,如果字符标注为‘I’,则代表其是命名实体的非开始部分,单个词为实体的标注为‘S’,如果字符标注为‘O’,则代表其不是命名实体。如输入文本为‘theCD28 surface receptor’,则最终标注为‘the(O、O)’,‘CD28(S、B-pretion)’,‘surface(O、I-pretion)’,‘receptor(O、I-pretion)’根据标注识别出嵌套命名实体‘CD28’和‘CD28surface receptor’。
步骤5)识别时,将用于识别的数据集文本切分字符和切分字导入到训练好的基于注意力机制的语言预处理模型中生成字符向量和字向量;将得到的生成字符向量和字向量导入训练好的生物医学嵌套命名实体识别模型中识别文本中的嵌套命名实体。
以上所述仅是本发明的优选实施方式,应当指出:对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本发明的保护范围。

Claims (3)

1.一种生物医学嵌套命名实体识别方法,其特征在于,包括以下步骤:
步骤1)将用于训练的生物医学数据集进行字符级别和字级别的切分,得到用于训练的生物医学数据集文本切分字符;将用于识别的生物医学数据集进行字符级别和字级别的切分,得到用于识别的生物医学数据集文本切分字符;
步骤2)对用于训练的数据集文本切分字符和切分字进行标注,得到用于训练的标注数据集,其中,属于命名实体的开始字符或字标注为‘B’,命名实体的内部实体字符或字标注为‘I’,不是实体的字符或字标注为‘O’;
步骤3)将用于训练的切分字符和切分字向量进行交互并通过多头注意力机制获得增强语义的字符向量和字向量;使用步骤2得到的用于训练的标注文本对基于注意力机制的语言预处理模型进行训练,得到训练好的基于注意力机制的语言预处理模型;基于注意力机制的语言预处理模型包括依次连接的字嵌入层、特征交互层注意力机制层;
步骤3.1)将步骤2得到的用于训练的标注数据集文本以句为单位送入基于注意力机制和特征交互的语言预处理模型的字嵌入层,得到字符级别特征向量和字级别特征向量的表示。将字符级别特征向量与字级别特征向量进行交互得到更多的字内部信息,交互计算如公式(1)、(2)所示:
Figure FDA0003418368200000011
Figure FDA0003418368200000012
其中,xw表示字级别特征向量表示,xc表示字符级别特征向量表示;mul表示不同数据之间的信息交换;
Figure FDA0003418368200000021
表示交互后的字级别特征向量表示,
Figure FDA0003418368200000022
表示字符级别特征向量表示;
步骤3.2)使用注意力机制分别学习字向量中的字符依赖关系以及字符之间的信息交流,使字嵌入向量包含字中所有字与字符的信息;注意力机制层的输出为最终生成新的字符级别与字级别向量,进而完成基于注意力机制的语言预处理模型的训练。注意力机制计算公式如公式(3)所示:
Figure FDA0003418368200000023
其中,Attention(Q,K,V)表示注意力分数,Q表示查询向量,K表示键向量,V表示值向量,
Figure FDA0003418368200000024
表示键向量维数的平方根,softmax函数为归一化指数函数;
Figure FDA0003418368200000025
其中,D表示数组,Dt表示数组D的第t个元素,t表示字级别特征元素
Figure FDA0003418368200000026
与或字符级别
Figure FDA0003418368200000027
中的第t个元素,softmax(t)的值即为数组中第t个元素的指数与其它所有元素指数和的比值;
步骤4)使用步骤2得到的用于训练的标注数据集文本对嵌套命名实体识别模型进行训练,得到训练好的嵌套实体识别模型,嵌套实体识别模型包括依次连接的双向长短期记忆网络层、多头注意力层、全连接层网络与softmax层构成的粗粒度候选区间感知层和细粒度划分及类别判断层;
步骤4.1)使用双向长短期记忆网络层对字向量和字符向量进行双向编码,双向长短期记忆网络包括一个正向长短期记忆网络层和一个反向长短期记忆网络层,正向长短期记忆网络层学习后文特征,反向长短期记忆网络层学习前文特征,从而使生成的向量更好地捕捉前后文语义信息,学习上下文关系;双向长短期记忆网络层是由输入门、遗忘门和输出门组成,字向量长短期记忆网络层计算公式如(5)-(10)所示:
Figure FDA0003418368200000031
Figure FDA0003418368200000032
Figure FDA0003418368200000033
Figure FDA0003418368200000034
Figure FDA0003418368200000035
Figure FDA0003418368200000036
其中,σ(·)是sigmoid激活函数,tanh(·)是双曲正切函数
Figure FDA0003418368200000037
Figure FDA0003418368200000038
分别表示输入门、遗忘门和输出门;
Figure FDA0003418368200000039
表示t时刻候选记忆单元向量,
Figure FDA00034183682000000310
表示t时刻记忆单元向量;Ww和Uw表示单元输出的权重矩阵;bw表示偏置向量;⊙表示元素级乘法运算。通过连接前向LSTM和后向LSTM得到句子的隐藏状态
Figure FDA00034183682000000311
其中
Figure FDA00034183682000000312
同理,可以得到句子字符级特征表示
Figure FDA00034183682000000313
经过BiLSTM得到的句子隐藏状态特征表示为:
Figure FDA00034183682000000314
Figure FDA00034183682000000315
其中
Figure FDA00034183682000000316
步骤4.2)隐藏状态的特征信息可以通过强化训练获取深层语义信息,本文引入softmax激活函数更新不同特征的权重,同时让两个隐藏状态特征向量与权重矩阵进行交互,以达到关注有用的部分,降低不相关信息比重的目的。该过程描述如公式(11)-(12)所示:
Figure FDA0003418368200000041
Figure FDA0003418368200000042
经过两次交互之后,最终的包含单词语义信息和句子上下文信息的隐藏状态序列表示H={h1,h2,...,hn},每个隐藏单元ht满足公式(13):
Figure FDA0003418368200000043
步骤4.3)使用多头注意力层进一步提取多重语义:多头注意力层实质指进行两次以上的注意力头运算,对于通过双向长短期记忆网络层的输出状态,首先通过公式(14)进行单头注意力计算:
Figure FDA0003418368200000044
其中,headi表示第i个注意力头计算的结果,i表示总共有i个注意力头,Wi Q为生成查询向量的权重参数,Wi K为生成键向量的权重参数,Wi V为生成值向量的权重参数,
Figure FDA0003418368200000045
为k维度的调节平滑项,softmax()为归一化指数函数。最后,拼接这i次的计算结果并做一次线性变换,得到对于每一时刻t通过双向长短期记忆网络层的t时刻网络的输出状态的多头注意力运算结果,如公式(15)所示:
MultiHeadi=Concat(head1,head2,...,headi)Wm (15)
其中,MultiHeadi表示多头注意力层的计算结果,Wm为权重参数;
步骤4.4)使用全连接层和softmax层得到粗粒度候选区间,采用二进制序列标记给每一个文本标记实数,其中是实体词的被标记为1,非实体词被标记为0。可以用来判断每一个词是否属于某一个或多个实体,以便过滤掉一些不相关的区域,找到属于实体内部词的粗粒度候选区间,进而划分出不同层次的实体词,避免了对不同跨度的不同区间进行是否为实体的判断,减少了计算的时间成本。具体步骤是:隐藏层特征序列输出经过一个全连接层和sigmoid激活函数得到每个词属于实体内部或实体边界的实体词概率p。句子的粗粒度候选区间感知层使用二元交叉熵函数作为损失函数Lword,公式如(16)所示:
Lword=-[y log(p)+(1-y)log(1-p) (16)
其中,y是所判断词的真实标签,p是所判断词为实体词的概率;
在模型进行训练时,若输入的句子X={x1,x2,...,xn},且在区间(xi,xi+1,...,xj)内都是实体,则对应的二元序列标签yi,yi+1,...,yj都为1,不在任何实体中的词被标记为0。句子的粗粒度候选区间感知层在当前批次的损失Lossword公式如(17)所示:
Figure FDA0003418368200000051
其中,Lword为粗粒度候选区间感知层的损失函数;wordi表示当前训练批次的第i个词;mx表示当前训练批次词的个数。模型进行训练时在训练集上运用反向传播算法对公式进行最小化达到对模型的优化;
步骤4.5)对粗粒度候选空间继续划分出不同层的细粒度候选区间,判断是否为实体区间词或单个的实体词,并判断出实体类型。对于每个粗粒度候选区间interval(i,j)=(xi,xi+1,...,xj),xi表示输入文本的第i个词,定义粗粒度候选区间的左边界信息为区间第一个词的句子级信息hi,右边界信息为区间最后一个词的句子级信息hj,整体信息为区间的所有词句子级信息表示的平均值。每个粗粒度候选区间interval(i,j)向量表示如公式(18)所示:
Figure FDA0003418368200000061
其中,hk表示输入句子第k个单词的隐藏状态特征表示;
对粗粒度候选区间的细粒度划分采用枚举的方法,其中,细粒度区间的向量表示和粗粒度候选区间向量表示保持一致。随后,细粒度区间的向量表示输入到由全连接层和softmax输出层构成的区域,用来分类该细粒度区间属于哪一种实体类别或者不属于任何实体类别。细粒度区间分类损失函数采用交叉熵损失函数,公式表示如(19)所示:
Figure FDA0003418368200000062
其中,yinterval,c表示的是细粒度区间是否属于实体类别c的二元标签(1表示属于,0表示不属于);pinterval,c表示细粒度区间属于实体类别c的概率;实体类别一共有N个。细粒度划分及类别判断层在当前批次上的训练损失公式如(20)所示:
Figure FDA0003418368200000063
模型在训练集上的损失Loss为多任务训练损失的加权平均值。公式如(21)所示:
Figure FDA0003418368200000071
其中,λ是一项超参数(0<λ<1),表示粗粒度候选区间感知层在整个模型损失中的权重。Lword和Linterval分别表示粗粒度候选区间感知层和细粒度划分及类别判断层的损失函数;
步骤5)识别时,将用于识别的数据集文本切分字符和切分字导入到训练好的基于注意力机制的语言预处理模型中生成字符向量和字向量;将得到的生成字符向量和字向量导入训练好的生物医学嵌套命名实体识别模型中识别文本中的嵌套命名实体。
2.根据权利要求1所述一种生物医学嵌套命名实体识别方法,其特征在于:步骤4.1中sigmoid函数值域为(-1,1),表达式如公式(22)所示:
Figure FDA0003418368200000072
其中,
Figure FDA0003418368200000073
属于函数的输入
Figure FDA0003418368200000074
Figure FDA0003418368200000075
3.根据权利要求2所述一种生物医学嵌套命名实体识别方法,其特征在于:步骤4.1中激励函数值域为(-1,1),表达式如公式(23)所示:
Figure FDA0003418368200000076
CN202111553048.1A 2021-12-17 2021-12-17 一种生物医学嵌套命名实体识别方法 Pending CN114239585A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111553048.1A CN114239585A (zh) 2021-12-17 2021-12-17 一种生物医学嵌套命名实体识别方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111553048.1A CN114239585A (zh) 2021-12-17 2021-12-17 一种生物医学嵌套命名实体识别方法

Publications (1)

Publication Number Publication Date
CN114239585A true CN114239585A (zh) 2022-03-25

Family

ID=80758185

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111553048.1A Pending CN114239585A (zh) 2021-12-17 2021-12-17 一种生物医学嵌套命名实体识别方法

Country Status (1)

Country Link
CN (1) CN114239585A (zh)

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115640810A (zh) * 2022-12-26 2023-01-24 国网湖北省电力有限公司信息通信公司 一种电力系统通信敏感信息识别方法、系统及存储介质
CN115688779A (zh) * 2022-10-11 2023-02-03 杭州瑞成信息技术股份有限公司 一种基于自监督深度学习的地址识别方法
CN116151241A (zh) * 2023-04-19 2023-05-23 湖南马栏山视频先进技术研究院有限公司 一种实体识别方法及装置
CN116796742A (zh) * 2023-03-27 2023-09-22 上海交通大学医学院 一种中医古籍命名实体识别方法、装置、设备和存储介质
CN117688974A (zh) * 2024-02-01 2024-03-12 中国人民解放军总医院 基于知识图谱的生成式大模型建模方法、系统及设备
CN117688974B (zh) * 2024-02-01 2024-04-26 中国人民解放军总医院 基于知识图谱的生成式大模型建模方法、系统及设备

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115688779A (zh) * 2022-10-11 2023-02-03 杭州瑞成信息技术股份有限公司 一种基于自监督深度学习的地址识别方法
CN115688779B (zh) * 2022-10-11 2023-05-09 杭州瑞成信息技术股份有限公司 一种基于自监督深度学习的地址识别方法
CN115640810A (zh) * 2022-12-26 2023-01-24 国网湖北省电力有限公司信息通信公司 一种电力系统通信敏感信息识别方法、系统及存储介质
CN116796742A (zh) * 2023-03-27 2023-09-22 上海交通大学医学院 一种中医古籍命名实体识别方法、装置、设备和存储介质
CN116151241A (zh) * 2023-04-19 2023-05-23 湖南马栏山视频先进技术研究院有限公司 一种实体识别方法及装置
CN117688974A (zh) * 2024-02-01 2024-03-12 中国人民解放军总医院 基于知识图谱的生成式大模型建模方法、系统及设备
CN117688974B (zh) * 2024-02-01 2024-04-26 中国人民解放军总医院 基于知识图谱的生成式大模型建模方法、系统及设备

Similar Documents

Publication Publication Date Title
CN110298037B (zh) 基于增强注意力机制的卷积神经网络匹配的文本识别方法
CN110609891B (zh) 一种基于上下文感知图神经网络的视觉对话生成方法
CN110717431B (zh) 一种结合多视角注意力机制的细粒度视觉问答方法
CN112115238B (zh) 一种基于bert和知识库的问答方法和系统
CN111382565B (zh) 基于多标签的情绪-原因对抽取方法及系统
CN112711953B (zh) 一种基于注意力机制和gcn的文本多标签分类方法和系统
CN111881262B (zh) 基于多通道神经网络的文本情感分析方法
CN114239585A (zh) 一种生物医学嵌套命名实体识别方法
CN111291556B (zh) 基于实体义项的字和词特征融合的中文实体关系抽取方法
CN110321563A (zh) 基于混合监督模型的文本情感分析方法
CN113673254B (zh) 基于相似度保持的知识蒸馏的立场检测方法
CN111046179A (zh) 一种面向特定领域开放网络问句的文本分类方法
CN112256866A (zh) 一种基于深度学习的文本细粒度情感分析方法
CN111597340A (zh) 一种文本分类方法及装置、可读存储介质
Chen et al. A few-shot transfer learning approach using text-label embedding with legal attributes for law article prediction
CN111582506A (zh) 基于全局和局部标记关系的偏多标记学习方法
CN113948217A (zh) 一种基于局部特征整合的医学嵌套命名实体识别方法
CN112800184A (zh) 基于Target-Aspect-Opinion联合抽取的短文本评论情感分析方法
CN115659947A (zh) 基于机器阅读理解及文本摘要的多项选择答题方法及系统
CN115578137A (zh) 一种基于文本挖掘与深度学习模型的农产品期货价格预测方法及系统
CN116562291A (zh) 一种基于边界检测的中文嵌套命名实体识别方法
Vijayaraju Image retrieval using image captioning
CN114722798A (zh) 一种基于卷积神经网络和注意力机制的反讽识别模型
CN111767402B (zh) 一种基于对抗学习的限定域事件检测方法
Liu et al. Suggestion mining from online reviews usingrandom multimodel deep learning

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination