CN115879473A - 基于改进图注意力网络的中文医疗命名实体识别方法 - Google Patents

基于改进图注意力网络的中文医疗命名实体识别方法 Download PDF

Info

Publication number
CN115879473A
CN115879473A CN202211673052.6A CN202211673052A CN115879473A CN 115879473 A CN115879473 A CN 115879473A CN 202211673052 A CN202211673052 A CN 202211673052A CN 115879473 A CN115879473 A CN 115879473A
Authority
CN
China
Prior art keywords
sequence
word
medical
graph
attention
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202211673052.6A
Other languages
English (en)
Other versions
CN115879473B (zh
Inventor
马甲林
杨宇
韩庆宾
张正伟
张琳
张粤
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Huaiyin Institute of Technology
Original Assignee
Huaiyin Institute of Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Huaiyin Institute of Technology filed Critical Huaiyin Institute of Technology
Priority to CN202211673052.6A priority Critical patent/CN115879473B/zh
Publication of CN115879473A publication Critical patent/CN115879473A/zh
Application granted granted Critical
Publication of CN115879473B publication Critical patent/CN115879473B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Machine Translation (AREA)
  • Medical Treatment And Welfare Office Work (AREA)

Abstract

本发明公开了一种基于改进图注意力网络的中文医疗命名实体识别方法:对于输入的医疗文本数据,使用医疗词典匹配文本中的字符,获得对应的匹配词序列,通过查找预训练矩阵,将文本与匹配词序列分别映射为字嵌入序列与词嵌入序列;将字嵌入序列作为修正位置编码的Transformer编码器输入,输出上下文语义嵌入序列,并将其与词嵌入序列进行向量拼接;改进协同图网络模型接收以特征拼接序列为节点所构成的文本关系图,输出最终的特征融合序列;将特征融合序列输入至条件随机场模型进行标签解码,得到医疗文本的医疗命名实体识别结果。本发明使用Transformer编码器捕获上下文语义特征,并通过改进图注意力网络提取、融合字词特征,有效提升中文医疗命名实体识别的准确性。

Description

基于改进图注意力网络的中文医疗命名实体识别方法
技术领域
本发明属于中文医疗命名实体识别技术领域,特别涉及一种基于改进图注意力网络的中文医疗命名实体识别方法。
背景技术
医疗领域命名实体识别任务旨在识别医疗领域特有医疗实体,针对医疗领域中文文本数据,需要识别包括药品、身体器官、疾病、诊疗手段等在内的临床医疗实体类型。伴随着我国医疗数字化程度的不断提升,为了能够充分挖掘医疗领域文本资料中丰富的实体资源,通过中文医疗命名实体识别技术精确识别电子病历中蕴含的丰富医疗实体信息,已经成为推动个性化医疗服务体系建设和提供临床辅助决策支持的重要基础,对于医疗领域的专业研究有重要的意义。
区别于通用领域,面向医疗领域的命名实体识别任务需以更为系统且复杂的医疗领域专业知识作为依据,领域内命名实体数量庞大且构词复杂,在包含大量未登录词汇的同时还存在着实体之间互相嵌套包含的情况,同时,中文并没有显性的分词符号,传统的中文分词技术很难实现准确的实体边界划分,致使后续的实体类别预测出现错误。
发明内容
发明目的:针对上述问题,本发明提供一种基于改进图注意力网络的中文医疗命名实体识别方法,使用Transformer编码器捕获上下文语义特征,并通过改进图注意力网络提取、融合字词特征,有效的提升中文医疗命名实体识别的准确性。
技术方案:本发明提出一种基于改进图注意力网络的中文医疗命名实体识别方法,包括如下步骤:
步骤1:输入原始的医疗领域中文文本数据S,对数据S进行清洗后,得到医疗文本数据s,构建医疗词典D,利用医疗词典D与医疗文本数据s中的字符进行匹配,得到对应的匹配词序列W,通过查找预训练字嵌入矩阵与预训练词嵌入矩阵,将医疗文本数据s与匹配词序列W分别映射为对应的字嵌入序列C与词嵌入序列E;
步骤2:构建修正位置编码的Transformer编码器模型,将字嵌入序列C作为模型的输入,输出上下文语义嵌入序列N,随后将其与词嵌入序列进行向量拼接,得到特征拼接序列Nodef
步骤3:构建改进协同图网络模型,将以特征拼接序列Nodef为节点所构成的医疗文本关系图作为模型的输入,经过改进协同图网络模型的图注意力网络计算,输出最终的特征融合序列Q,所述改进协同图网络模型,在原协同图网络模型的基础上通过改进其关系图设计方式,融合其设计的多种字词交互网络结构,依据医疗文本中所存在的“字-词”邻接与包含关系、“字-字”邻接关系以及“词-词”邻接关系来连接对应的节点,实现一种文本整体关系图的构建;
步骤4:构建条件随机场模型,基于特征融合序列Q对医疗文本中的字符进行标签解码,输出最优的标签序列,获得最终的医疗文本的医疗命名实体识别结果。
进一步地,所述步骤1的具体方法为:
步骤1.1:定义S为待清洗的原始医疗领域中文文本数据,对S进行去标点符号和去空操作,得到清洗后的医疗文本数据s=(c1,c2,....,cn),其中ci表示第i个字符;
步骤1.2:构建医疗词典D,包括疾病、药物、身体器官、诊疗手段在内的临床医疗实体类别,利用医疗词典D与医疗文本数据s中的字符进行匹配,得到对应的匹配词序列W=(w1,w2,....,wm),其中,wj表示第j个匹配词,匹配词表示包含该字符的词汇;
步骤1.3:通过查找预训练字嵌入矩阵,将医疗文本数据s=(c1,c2,....,cn)中的每个字符映射为字嵌入向量,得到对应的字嵌入序列C=(x1,x2,....,xn),其计算方法为xi=ec(ci),其中,xi表示第i个字符的向量表示,ec字嵌入查找表;
步骤1.4:通过查找预训练词嵌入矩阵,将匹配词序列W=(w1,w2,....,wm)中的每个匹配词映射为词嵌入向量,得到对应的词嵌入序列E=(z1,z2,....,zm),其计算方法为zj=ew(wj),其中,zj表示第j个匹配词的向量表示,ew词嵌入查找表。
进一步地,所述步骤2中修正位置编码的Transformer编码器模型具体为:
在位置编码中添加了相对位置和方向信息,其编码方法为:
Figure BDA0004016921060000021
其中,t为目标索引,j为上下文标记索引,Rt-j为相对位置编码,
Figure BDA0004016921060000031
Figure BDA0004016921060000032
dk为k的向量维度。
进一步地,所述步骤2中获取特征拼接序列Nodef的具体方法为:
步骤2.1:通过三个可训练的权重矩阵将字嵌入序列C投射到三个不同的空间中,分别得到查询向量矩阵Q、键向量矩阵K和值向量矩阵V,注意力计算分数公式可以表示为:
Figure BDA0004016921060000033
Figure BDA0004016921060000034
Attention(Q,K,V)=Softmax(Arel)V
其中,
Figure BDA0004016921060000035
由输入向量分割得到,
Figure BDA0004016921060000036
为可训练的参数,Rt-j为相对位置嵌入表示;
步骤2.2:修正位置编码的Transformer编码器通过引入多头注意力机制,在不共享参数的前提下使用多个注意力头对文本序列进行注意力分数计算,最后将结果进行拼接输出,其计算公式可以表示为:
headh=Attention(Qh,Kh,Vh)
MultiHead(H)=[head1,head2,....,headn]Wo
其中,h∈[1,n]为注意力头数,Wo∈Rd×d为一个可训练参数;接着多头注意力的输出由前馈神经网络进行空间变换,增加模型的非线性表达能力,并且在多头自注意力层和前馈神经网络层后都会进行残差计算和归一化处理,最终输出上下文语义嵌入序列N=(l1,l2,....,ln);
步骤2.3:将词嵌入序列E与上下文语义嵌入序列N进行向量拼接,得到特征拼接序列Nodef=(l1,l2,....,ln,z1,z2,....,zm)=(f1,f2,....,fN),其中,li为语义嵌入向量,zi为词嵌入向量,N=n+m,fi为特征拼接序列中第i特征嵌入向量。
进一步地,所述步骤3获取特征融合序列Q的具体方法为:
步骤3.1:构建整体文本关系图,文本关系图中共包含N个节点且节点分为两类,分别为字符节点和匹配词节点,使用邻接关系矩阵A来表示整体文本关系图中边与节点之间的关系,其规则为:如果字符或匹配词i与另一个字符或匹配词j之间存在边,则将对应的Ai,j赋值为1,否则赋值为0;
步骤3.2:将邻接关系矩阵A和特征拼接序列Nodef=(f1,f2,....,fN)作为改进协同图网络模型中图注意力网络的输入,其中,A∈RN×N,N为图中节点数,模型输出表示为F'=(f1',f′2,....,f′N),其中,fi'∈RF',F'为输出节点特征维数,形式上,图注意力网络的计算公式可以表示为:
Figure BDA0004016921060000041
其中,αij为节点i和节点j之间结果归一化后的注意力互相关系数,Ni表示与节点i相邻节点的集合,W∈RF′×F,aT∈R2F′均为可训练的权重参数;
步骤3.3:每个节点的输出特征与和它相邻的所有节点有关,通过对相邻节点集合线性和非线性激活后得到,同时,图注意力网络采用多头注意力机制来增加训练过程的稳定性,并在模型的最后一层使用K平均操作,形式上,最终输出的计算公式可以表示为:
Figure BDA0004016921060000042
其中,σ为非线性激活函数,共有K个注意力头数,k表示第k个注意力机制;
步骤3.4:对于改进协同图网络模型的输入Nodef=(f1,f2,....,fN),在经过图注意力网络处理后得到的输出序列可以表示为G=GAT(Nodef,A),其中,G∈RF′×(m+n),保留矩阵G的前n列作为字符特征的输出表示,得到最终的特征融合序列Q,其计算方法为Q=G[:,0:n]=(q1,q2,....,qn)。
进一步地,所述步骤4的具体方法为:
步骤4.1:搭建条件随机场模型,条件随机场是一种基于条件概率的判别式模型,将特征融合序列Q作为模型的输入,若其对应的一个可能的标签预测序列为Y=(y1,y2,....,yn),则计算标签y的概率为:
Figure BDA0004016921060000051
其中,T为标签的转移概率,
Figure BDA0004016921060000052
为模型参数,y'表示任意一个可能的标签序列,使用一节维特比算法进行解码,输出得分最高的标签序列;
步骤4.2:在训练过程中,采用L2正则化来优化损失函数,损失函数可以表示为:
Figure BDA0004016921060000053
其中,θ为参数集,λ是L2的正则化参数。
有益效果:
1、本发明采用的基于改进图注意力网络的中文医疗命名实体识别方法,相较于目前主流的实体识别模型,该方法能够有效的提升医疗实体的识别性能,并且可以更好的识别常见实体与罕见实体。
2、本发明引入医疗词典,通过将医疗领域丰富的外部词典信息融入医疗实体识别模型中,避免因未登录词、歧义词以及领域专业词汇误划等问题对实体识别效果产生影响。
3、本发明提取了医疗文本中的多粒度特征,融合医疗文本中的字符和匹配词信息,保证了实体识别的准确性。
4、本发明采用修正位置编码的Transformer编码器,通过在位置编码中加入相对位置和方向信息,提升模型对于远距离依赖以及方向、位置敏感性特征的捕获能力。
5、本发明采用协同图网络模型作为一种多图协作的图注意力网络,以图结构的方式进行信息传递,减少了特征交互过程中的信息损失,能够有效的捕获节点之间存在的依赖信息,实现了字词特征的动态融合。并且通过改进协同图网络模型中医疗文本关系图构造方法,实现一种文本整体关系图的构建,避免了多种关系图结构的构造,避免了冗余计算,降低了计算开销,提升了模型的训练速度,减少了特征融合过程中的信息的丢失。
附图说明
图1为本发明基于改进图注意力网络的中文医疗命名实体识别方法整体流程图;
图2为特征表示流程图;
图3为文本编码流程图;
图4为特征融合流程图;
图5为标签解码流程图;
图6为医疗文本关系图示例;
图7为模型整体结构图。
具体实施方式
下面结合附图,进一步阐明本发明,应理解这些实施例仅用于说明本发明而不用于限制本发明的范围,在阅读了本发明之后,本领域技术人员对本发明的各种等价形式的修改均落于本申请所附权利要求所限定的范围。
本发明公开了一种基于改进图注意力网络的中文医疗命名实体识别方法,包括如下步骤:
步骤1:输入原始的医疗领域中文文本数据S,对数据S进行清洗后,得到医疗文本数据s,构建医疗词典D,利用医疗词典D与医疗文本数据s中的字符进行匹配,得到对应的匹配词序列W,通过查找预训练字嵌入矩阵与预训练词嵌入矩阵,将医疗文本数据s与匹配词序列W分别映射为对应的字嵌入序列C与词嵌入序列E,具体方法为:
步骤1.1:定义S为待清洗的原始医疗领域中文文本数据,对S进行去标点符号和去空操作,得到清洗后的医疗文本数据s=(c1,c2,....,cn),其中ci表示第i个字符;
步骤1.2:构建医疗词典D,包括疾病、药物、身体器官、诊疗手段在内的临床医疗实体类别,利用医疗词典D与医疗文本数据s中的字符进行匹配,得到对应的匹配词序列W=(w1,w2,....,wm),其中,wj表示第j个匹配词,匹配词表示包含该字符的词汇;
步骤1.3:通过查找预训练字嵌入矩阵,将医疗文本数据s=(c1,c2,....,cn)中的每个字符映射为字嵌入向量,得到对应的字嵌入序列C=(x1,x2,....,xn),其计算方法为xi=ec(ci),其中,xi表示第i个字符的向量表示,ec字嵌入查找表;
步骤1.4:通过查找预训练词嵌入矩阵,将匹配词序列W=(w1,w2,....,wm)中的每个匹配词映射为词嵌入向量,得到对应的词嵌入序列E=(z1,z2,....,zm),其计算方法为zj=ew(wj),其中,zj表示第j个匹配词的向量表示,ew词嵌入查找表。
步骤2:构建一种修正位置编码的Transformer编码器模型,将字嵌入序列C作为模型的输入,输出上下文语义嵌入序列N,随后将其与词嵌入序列进行向量拼接,得到特征拼接序列Nodef,具体方法为:
步骤2.1:构建修正位置编码的Transformer编码器模型,将字嵌入序列C作为模型的输入,为每个字嵌入向量添加位置编码,修正位置编码的Transformer编码器相对于原始Transformer编码器做出的改进在于,修正位置编码的Transformer编码器在位置编码中添加了相对位置和方向信息,其编码方法为:
Figure BDA0004016921060000071
其中,t为目标索引,j为上下文标记索引,Rt-j为相对位置编码,
Figure BDA0004016921060000072
Figure BDA0004016921060000073
dk为k的向量维度;
步骤2.2:通过三个可训练的权重矩阵将字嵌入序列C投射到三个不同的空间中,分别得到查询向量矩阵Q、键向量矩阵K和值向量矩阵V,注意力计算分数公式可以表示为:
Figure BDA0004016921060000074
Figure BDA0004016921060000075
Attention(Q,K,V)=Softmax(Arel)V
其中,
Figure BDA0004016921060000076
由输入向量分割得到,
Figure BDA0004016921060000077
为可训练的参数,Rt-j为相对位置嵌入表示;
步骤2.3:Transformer编码器通过引入多头注意力机制,在不共享参数的前提下使用多个注意力头对文本序列进行注意力分数计算,最后将结果进行拼接输出,其计算公式可以表示为:
headh=Attention(Qh,Kh,Vh)
MultiHead(H)=[head1,head2,....,headn]Wo
其中,h∈[1,n]为注意力头数,Wo∈Rd×d为一个可训练参数。接着多头注意力的输出由前馈神经网络进行空间变换,增加模型的非线性表达能力,并且为了缓解由于网络过深所导致的退化,在多头自注意力层和前馈神经网络层后都会进行残差计算和归一化处理,最终输出上下文语义嵌入序列N=(l1,l2,....,ln);
步骤2.4:将词嵌入序列E与上下文语义嵌入序列N进行向量拼接,得到特征拼接序列Nodef=(l1,l2,....,ln,z1,z2,....,zm)=(f1,f2,....,fN),其中,li为语义嵌入向量,zi为词嵌入向量,N=n+m,fi为特征拼接序列中第i特征嵌入向量。
步骤3:构建改进协同图网络模型,将以特征拼接序列Nodef为节点所构成的文本关系图作为模型的输入,经过图注意力网络计算,输出最终的特征融合序列Q,所述改进协同图网络模型,在原协同图网络模型的基础上通过改进其关系图设计方式,融合其设计的多种字词交互网络结构,依据医疗文本中所存在的“字-词”邻接与包含关系、“字-字”邻接关系以及“词-词”邻接关系来连接对应的节点,实现一种文本整体关系图的构建,具体方法为:
步骤3.1:构建整体文本关系图,文本关系图中共包含N个节点且节点分为两类,分别为字符节点和匹配词节点,如图6所示,字符之间的实线代表邻接关系,词汇与字符之间的实线代表包含与邻接关系,词汇与词汇之间的实线代表邻接关系,使用邻接关系矩阵A来表示整体文本关系图中边与节点之间的关系,其规则为:如果字符或匹配词i与另一个字符或匹配词j之间存在边,则将对应的Ai,j赋值为1,否则赋值为0;
步骤3.2:将邻接关系矩阵A和特征拼接序列Nodef=(f1,f2,....,fN)作为改进协同图网络模型中图注意力网络的输入,其中,A∈RN×N,N为图中节点数,模型输出表示为F'=(f1',f′2,....,f′N),其中,f′i∈RF,F'为输出节点特征维数,形式上,图注意力网络的计算公式可以表示为:
Figure BDA0004016921060000091
其中,αij为节点i和节点j之间结果归一化后的注意力互相关系数,Ni表示与节点i相邻节点的集合,W∈RF′×F,aT∈R2F′均为可训练的权重参数;
步骤3.3:每个节点的输出特征与和它相邻的所有节点有关,通过对相邻节点集合线性和的非线性激活后得到,同时,图注意力网络采用多头注意力机制来增加训练过程的稳定性,并在模型的最后一层使用K平均操作,形式上,最终输出的计算公式可以表示为:
Figure BDA0004016921060000092
其中,σ为非线性激活函数,共有K个注意力头数,k表示第k个注意力机制;
步骤3.4:对于改进协同图网络模型的输入Nodef=(f1,f2,....,fN),在经过图注意力网络处理后得到的输出序列可以表示为G=GAT(Nodef,A),其中,G∈RF′×(m+n),保留矩阵G的前n列作为字符特征的输出表示,得到最终的特征融合序列Q,其计算方法为Q=G[:,0:n]=(q1,q2,....,qn)。
步骤4:构建条件随机场模型,基于特征融合序列Q对医疗文本中的字符进行标签解码,输出最优的标签序列,获得最终的医疗文本的医疗命名实体识别结果。具体方法为:
步骤4.1:搭建条件随机场模型,条件随机场是一种基于条件概率的判别式模型,将特征融合序列Q作为模型的输入,若其对应的一个可能的标签预测序列为Y=(y1,y2,....,yn),则计算标签y的概率为:
Figure BDA0004016921060000093
其中,T为标签的转移概率,
Figure BDA0004016921060000094
为模型参数,y'表示任意一个可能的标签序列,使用一节维特比算法进行解码,输出得分最高的标签序列;
步骤4.2:在训练过程中,采用L2正则化来优化损失函数,防止模型出现过拟合现象,提升模型的训练效率,损失函数可以表示为:
Figure BDA0004016921060000101
其中,θ为参数集,λ是L2的正则化参数。
Figure BDA0004016921060000102
Figure BDA0004016921060000111
Figure BDA0004016921060000121

Claims (6)

1.一种基于改进图注意力网络的中文医疗命名实体识别方法,其特征在于,包括如下步骤:
步骤1:输入原始的医疗领域中文文本数据S,对数据S进行清洗后,得到医疗文本数据s,构建医疗词典D,利用医疗词典D与医疗文本数据s中的字符进行匹配,得到对应的匹配词序列W,通过查找预训练字嵌入矩阵与预训练词嵌入矩阵,将医疗文本数据s与匹配词序列W分别映射为对应的字嵌入序列C与词嵌入序列E;
步骤2:构建修正位置编码的Transformer编码器模型,将字嵌入序列C作为模型的输入,输出上下文语义嵌入序列N,随后将其与词嵌入序列E进行向量拼接,得到特征拼接序列Nodef
步骤3:构建改进协同图网络模型,将以特征拼接序列Nodef为节点所构成的医疗文本关系图作为模型的输入,经过改进协同图网络模型的图注意力网络计算,输出最终的特征融合序列Q,所述改进协同图网络模型,在原协同图网络模型的基础上通过改进其关系图设计方式,融合其设计的多种字词交互网络结构,依据医疗文本中所存在的“字-词”邻接与包含关系、“字-字”邻接关系以及“词-词”邻接关系来连接对应的节点,实现一种文本整体关系图的构建;
步骤4:构建条件随机场模型,基于特征融合序列Q对医疗文本中的字符进行标签解码,输出最优的标签序列,获得最终的医疗文本的医疗命名实体识别结果。
2.根据权利要求1所述的基于改进图注意力网络的中文医疗命名实体识别方法,其特征在于,所述步骤1的具体方法为:
步骤1.1:定义S为待清洗的原始医疗领域中文文本数据,对S进行去标点符号和去空操作,得到清洗后的医疗文本数据s=(c1,c2,....,cn),其中ci表示第i个字符;
步骤1.2:构建医疗词典D,包括疾病、药物、身体器官、诊疗手段在内的临床医疗实体类别,利用医疗词典D与医疗文本数据s中的字符进行匹配,得到对应的匹配词序列W=(w1,w2,....,wm),其中,wj表示第j个匹配词,匹配词表示包含该字符的词汇;
步骤1.3:通过查找预训练字嵌入矩阵,将医疗文本数据s=(c1,c2,....,cn)中的每个字符映射为字嵌入向量,得到对应的字嵌入序列C=(x1,x2,....,xn),其计算方法为xi=ec(ci),其中,xi表示第i个字符的向量表示,ec字嵌入查找表;
步骤1.4:通过查找预训练词嵌入矩阵,将匹配词序列W=(w1,w2,....,wm)中的每个匹配词映射为词嵌入向量,得到对应的词嵌入序列E=(z1,z2,....,zm),其计算方法为zj=ew(wj),其中,zj表示第j个匹配词的向量表示,ew词嵌入查找表。
3.根据权利要求1所述的基于改进图注意力网络的中文医疗命名实体识别方法,其特征在于,所述步骤2中修正位置编码的Transformer编码器模型具体为:
在位置编码中添加了相对位置和方向信息,其编码方法为:
Figure FDA0004016921050000021
其中,t为目标索引,j为上下文标记索引,Rt-j为相对位置编码,
Figure FDA0004016921050000027
Figure FDA0004016921050000022
dk为k的向量维度。
4.根据权利要求3所述的基于改进图注意力网络的中文医疗命名实体识别方法,其特征在于,所述步骤2中获取特征拼接序列Nodef的具体方法为:
步骤2.1:通过三个可训练的权重矩阵将字嵌入序列C投射到三个不同的空间中,分别得到查询向量矩阵Q、键向量矩阵K和值向量矩阵V,注意力计算分数公式可以表示为:
Figure FDA0004016921050000023
Figure FDA0004016921050000024
Attention(Q,K,V)=Softmax(Arel)V
其中,
Figure FDA0004016921050000025
由输入向量分割得到,
Figure FDA0004016921050000026
为可训练的参数,Rt-j为相对位置嵌入表示;
步骤2.2:修正位置编码的Transformer编码器通过引入多头注意力机制,在不共享参数的前提下使用多个注意力头对文本序列进行注意力分数计算,最后将结果进行拼接输出,其计算公式可以表示为:
headh=Attention(Qh,Kh,Vh)
MultiHead(H)=[head1,head2,....,headn]Wo
其中,h∈[1,n]为注意力头数,Wo∈Rd×d为一个可训练参数;接着多头注意力的输出由前馈神经网络进行空间变换,增加模型的非线性表达能力,并且在多头自注意力层和前馈神经网络层后都会进行残差计算和归一化处理,最终输出上下文语义嵌入序列N=(l1,l2,....,ln);
步骤2.3:将词嵌入序列E与上下文语义嵌入序列N进行向量拼接,得到特征拼接序列Nodef=(l1,l2,....,ln,z1,z2,....,zm)=(f1,f2,....,fN),其中,li为语义嵌入向量,zi为词嵌入向量,N=n+m,fi为特征拼接序列中第i特征嵌入向量。
5.根据权利要求1所述的基于改进图注意力网络的中文医疗命名实体识别方法,其特征在于,所述步骤3获取特征融合序列Q的具体方法为:
步骤3.1:构建整体文本关系图,文本关系图中共包含N个节点且节点分为两类,分别为字符节点和匹配词节点,使用邻接关系矩阵A来表示整体文本关系图中边与节点之间的关系,其规则为:如果字符或匹配词i与另一个字符或匹配词j之间存在边,则将对应的Ai,j赋值为1,否则赋值为0;
步骤3.2:将邻接关系矩阵A和特征拼接序列Nodef=(f1,f2,....,fN)作为改进协同图网络模型中图注意力网络的输入,其中,A∈RN×N,N为图中节点数,模型输出表示为F'=(f1',f2',....,fN'),其中,fi'∈RF',F'为输出节点特征维数,形式上,图注意力网络的计算公式可以表示为:
Figure FDA0004016921050000031
其中,αij为节点i和节点j之间结果归一化后的注意力互相关系数,Ni表示与节点i相邻节点的集合,W∈RF×F,aT∈R2F′均为可训练的权重参数;
步骤3.3:每个节点的输出特征与和它相邻的所有节点有关,通过对相邻节点集合线性和非线性激活后得到,同时,图注意力网络采用多头注意力机制来增加训练过程的稳定性,并在模型的最后一层使用K平均操作,形式上,最终输出的计算公式可以表示为:
Figure FDA0004016921050000041
其中,σ为非线性激活函数,共有K个注意力头数,k表示第k个注意力机制;
步骤3.4:对于改进协同图网络模型的输入Nodef=(f1,f2,....,fN),在经过图注意力网络处理后得到的输出序列可以表示为G=GAT(Nodef,A),其中,G∈RF′×(m+n),保留矩阵G的前n列作为字符特征的输出表示,得到最终的特征融合序列Q,其计算方法为Q=G[:,0:n]=(q1,q2,....,qn)。
6.根据权利要求1所述的基于改进图注意力网络的中文医疗命名实体识别方法,其特征在于,所述步骤4的具体方法为:
步骤4.1:搭建条件随机场模型,条件随机场是一种基于条件概率的判别式模型,将特征融合序列Q作为模型的输入,若其对应的一个可能的标签预测序列为Y=(y1,y2,....,yn),则计算标签y的概率为:
Figure FDA0004016921050000042
其中,T为标签的转移概率,
Figure FDA0004016921050000044
为模型参数,y'表示任意一个可能的标签序列,使用一节维特比算法进行解码,输出得分最高的标签序列;
步骤4.2:在训练过程中,采用L2正则化来优化损失函数,损失函数可以表示为:
Figure FDA0004016921050000043
其中,θ为参数集,λ是L2的正则化参数。
CN202211673052.6A 2022-12-26 2022-12-26 基于改进图注意力网络的中文医疗命名实体识别方法 Active CN115879473B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202211673052.6A CN115879473B (zh) 2022-12-26 2022-12-26 基于改进图注意力网络的中文医疗命名实体识别方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202211673052.6A CN115879473B (zh) 2022-12-26 2022-12-26 基于改进图注意力网络的中文医疗命名实体识别方法

Publications (2)

Publication Number Publication Date
CN115879473A true CN115879473A (zh) 2023-03-31
CN115879473B CN115879473B (zh) 2023-12-01

Family

ID=85754596

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202211673052.6A Active CN115879473B (zh) 2022-12-26 2022-12-26 基于改进图注意力网络的中文医疗命名实体识别方法

Country Status (1)

Country Link
CN (1) CN115879473B (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116311280A (zh) * 2023-05-17 2023-06-23 中国电子科技集团公司第十五研究所 基于图注意力网络的电子公文主题标引方法及系统
CN116304748A (zh) * 2023-05-17 2023-06-23 成都工业学院 一种文本相似度计算方法、系统、设备及介质
CN116737945A (zh) * 2023-05-10 2023-09-12 百洋智能科技集团股份有限公司 一种患者emr知识图谱映射方法
CN116737924A (zh) * 2023-04-27 2023-09-12 百洋智能科技集团股份有限公司 一种医疗文本数据处理方法及装置

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111243699A (zh) * 2020-01-14 2020-06-05 中南大学 基于字词信息融合的中文电子病历实体抽取方法
WO2021072852A1 (zh) * 2019-10-16 2021-04-22 平安科技(深圳)有限公司 序列标注方法、系统和计算机设备
CN113836992A (zh) * 2021-06-15 2021-12-24 腾讯科技(深圳)有限公司 识别标签的方法、训练标签识别模型的方法、装置及设备
CN113988074A (zh) * 2021-10-28 2022-01-28 南京航空航天大学 一种动态融合词典信息的中文命名实体识别方法和装置
CN114169330A (zh) * 2021-11-24 2022-03-11 匀熵教育科技(无锡)有限公司 融合时序卷积与Transformer编码器的中文命名实体识别方法
WO2022252378A1 (zh) * 2021-05-31 2022-12-08 平安科技(深圳)有限公司 医疗命名实体识别模型的生成方法、装置和计算机设备

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2021072852A1 (zh) * 2019-10-16 2021-04-22 平安科技(深圳)有限公司 序列标注方法、系统和计算机设备
CN111243699A (zh) * 2020-01-14 2020-06-05 中南大学 基于字词信息融合的中文电子病历实体抽取方法
WO2022252378A1 (zh) * 2021-05-31 2022-12-08 平安科技(深圳)有限公司 医疗命名实体识别模型的生成方法、装置和计算机设备
CN113836992A (zh) * 2021-06-15 2021-12-24 腾讯科技(深圳)有限公司 识别标签的方法、训练标签识别模型的方法、装置及设备
CN113988074A (zh) * 2021-10-28 2022-01-28 南京航空航天大学 一种动态融合词典信息的中文命名实体识别方法和装置
CN114169330A (zh) * 2021-11-24 2022-03-11 匀熵教育科技(无锡)有限公司 融合时序卷积与Transformer编码器的中文命名实体识别方法

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116737924A (zh) * 2023-04-27 2023-09-12 百洋智能科技集团股份有限公司 一种医疗文本数据处理方法及装置
CN116737945A (zh) * 2023-05-10 2023-09-12 百洋智能科技集团股份有限公司 一种患者emr知识图谱映射方法
CN116737945B (zh) * 2023-05-10 2024-05-07 百洋智能科技集团股份有限公司 一种患者emr知识图谱映射方法
CN116311280A (zh) * 2023-05-17 2023-06-23 中国电子科技集团公司第十五研究所 基于图注意力网络的电子公文主题标引方法及系统
CN116304748A (zh) * 2023-05-17 2023-06-23 成都工业学院 一种文本相似度计算方法、系统、设备及介质
CN116311280B (zh) * 2023-05-17 2023-07-18 中国电子科技集团公司第十五研究所 基于图注意力网络的电子公文主题标引方法及系统

Also Published As

Publication number Publication date
CN115879473B (zh) 2023-12-01

Similar Documents

Publication Publication Date Title
CN112989834B (zh) 一种基于平格增强线性转换器的命名实体识别方法和系统
CN110059185B (zh) 一种医学文档专业词汇自动化标注方法
CN115879473A (zh) 基于改进图注意力网络的中文医疗命名实体识别方法
CN112818676B (zh) 一种医学实体关系联合抽取方法
Shi et al. Deep adaptively-enhanced hashing with discriminative similarity guidance for unsupervised cross-modal retrieval
CN113468888A (zh) 基于神经网络的实体关系联合抽取方法与装置
CN112633364A (zh) 一种基于Transformer-ESIM注意力机制的多模态情绪识别方法
CN112948601B (zh) 一种基于受控语义嵌入的跨模态哈希检索方法
CN113076465A (zh) 一种基于深度哈希的通用跨模态检索模型
CN112100410A (zh) 一种基于语义条件关联学习的跨模态检索方法及系统
CN113010700B (zh) 一种基于类别信息对齐的图像文本跨模态检索方法
CN112256727B (zh) 基于人工智能技术的数据库查询处理及优化方法
CN117708339B (zh) 一种基于预训练语言模型的icd自动编码方法
CN114077673A (zh) 一种基于btbc模型的知识图谱构建方法
CN115796182A (zh) 一种基于实体级跨模态交互的多模态命名实体识别方法
CN115545033A (zh) 融合词汇类别表征的中文领域文本命名实体识别方法
CN113191150B (zh) 一种多特征融合的中文医疗文本命名实体识别方法
CN117540734A (zh) 一种中文医学实体标准化方法、装置及设备
Jiang et al. Hadamard product perceptron attention for image captioning
CN116822513A (zh) 一种融合实体类型与关键词特征的命名实体识别方法
CN116090460A (zh) 基于多头三仿射注意力机制的嵌套命名实体识别方法
CN116775798A (zh) 一种基于图网络与模态间特征融合的跨模态哈希方法
CN114580422B (zh) 一种结合近邻分析的两阶段分类的命名实体识别方法
CN115344735A (zh) 一种层次化对齐的图像文本检索方法
Cheng et al. Bidirectional Trained Tree-Structured Decoder for Handwritten Mathematical Expression Recognition

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant