CN115879473A

CN115879473A - 基于改进图注意力网络的中文医疗命名实体识别方法

Info

Publication number: CN115879473A
Application number: CN202211673052.6A
Authority: CN
Inventors: 马甲林; 杨宇; 韩庆宾; 张正伟; 张琳; 张粤
Original assignee: Huaiyin Institute of Technology
Current assignee: Huaiyin Institute of Technology
Priority date: 2022-12-26
Filing date: 2022-12-26
Publication date: 2023-03-31
Anticipated expiration: 2042-12-26
Also published as: CN115879473B

Abstract

本发明公开了一种基于改进图注意力网络的中文医疗命名实体识别方法：对于输入的医疗文本数据，使用医疗词典匹配文本中的字符，获得对应的匹配词序列，通过查找预训练矩阵，将文本与匹配词序列分别映射为字嵌入序列与词嵌入序列；将字嵌入序列作为修正位置编码的Transformer编码器输入，输出上下文语义嵌入序列，并将其与词嵌入序列进行向量拼接；改进协同图网络模型接收以特征拼接序列为节点所构成的文本关系图，输出最终的特征融合序列；将特征融合序列输入至条件随机场模型进行标签解码，得到医疗文本的医疗命名实体识别结果。本发明使用Transformer编码器捕获上下文语义特征，并通过改进图注意力网络提取、融合字词特征，有效提升中文医疗命名实体识别的准确性。

Description

基于改进图注意力网络的中文医疗命名实体识别方法

技术领域

本发明属于中文医疗命名实体识别技术领域，特别涉及一种基于改进图注意力网络的中文医疗命名实体识别方法。

背景技术

医疗领域命名实体识别任务旨在识别医疗领域特有医疗实体，针对医疗领域中文文本数据，需要识别包括药品、身体器官、疾病、诊疗手段等在内的临床医疗实体类型。伴随着我国医疗数字化程度的不断提升，为了能够充分挖掘医疗领域文本资料中丰富的实体资源，通过中文医疗命名实体识别技术精确识别电子病历中蕴含的丰富医疗实体信息，已经成为推动个性化医疗服务体系建设和提供临床辅助决策支持的重要基础，对于医疗领域的专业研究有重要的意义。

区别于通用领域，面向医疗领域的命名实体识别任务需以更为系统且复杂的医疗领域专业知识作为依据，领域内命名实体数量庞大且构词复杂，在包含大量未登录词汇的同时还存在着实体之间互相嵌套包含的情况，同时，中文并没有显性的分词符号，传统的中文分词技术很难实现准确的实体边界划分，致使后续的实体类别预测出现错误。

发明内容

发明目的：针对上述问题，本发明提供一种基于改进图注意力网络的中文医疗命名实体识别方法，使用Transformer编码器捕获上下文语义特征，并通过改进图注意力网络提取、融合字词特征，有效的提升中文医疗命名实体识别的准确性。

技术方案：本发明提出一种基于改进图注意力网络的中文医疗命名实体识别方法，包括如下步骤：

步骤1：输入原始的医疗领域中文文本数据S，对数据S进行清洗后，得到医疗文本数据s，构建医疗词典D，利用医疗词典D与医疗文本数据s中的字符进行匹配，得到对应的匹配词序列W，通过查找预训练字嵌入矩阵与预训练词嵌入矩阵，将医疗文本数据s与匹配词序列W分别映射为对应的字嵌入序列C与词嵌入序列E；

步骤2：构建修正位置编码的Transformer编码器模型，将字嵌入序列C作为模型的输入，输出上下文语义嵌入序列N，随后将其与词嵌入序列进行向量拼接，得到特征拼接序列Node_f；

步骤3：构建改进协同图网络模型，将以特征拼接序列Node_f为节点所构成的医疗文本关系图作为模型的输入，经过改进协同图网络模型的图注意力网络计算，输出最终的特征融合序列Q，所述改进协同图网络模型，在原协同图网络模型的基础上通过改进其关系图设计方式，融合其设计的多种字词交互网络结构，依据医疗文本中所存在的“字-词”邻接与包含关系、“字-字”邻接关系以及“词-词”邻接关系来连接对应的节点，实现一种文本整体关系图的构建；

步骤4：构建条件随机场模型，基于特征融合序列Q对医疗文本中的字符进行标签解码，输出最优的标签序列，获得最终的医疗文本的医疗命名实体识别结果。

进一步地，所述步骤1的具体方法为：

步骤1.1：定义S为待清洗的原始医疗领域中文文本数据，对S进行去标点符号和去空操作，得到清洗后的医疗文本数据s＝(c₁,c₂,....,c_n)，其中c_i表示第i个字符；

步骤1.2：构建医疗词典D，包括疾病、药物、身体器官、诊疗手段在内的临床医疗实体类别，利用医疗词典D与医疗文本数据s中的字符进行匹配，得到对应的匹配词序列W＝(w₁,w₂,....,w_m)，其中，w_j表示第j个匹配词，匹配词表示包含该字符的词汇；

步骤1.3：通过查找预训练字嵌入矩阵，将医疗文本数据s＝(c₁,c₂,....,c_n)中的每个字符映射为字嵌入向量，得到对应的字嵌入序列C＝(x₁,x₂,....,x_n)，其计算方法为x_i＝e^c(c_i)，其中，x_i表示第i个字符的向量表示，e^c字嵌入查找表；

步骤1.4：通过查找预训练词嵌入矩阵，将匹配词序列W＝(w₁,w₂,....,w_m)中的每个匹配词映射为词嵌入向量，得到对应的词嵌入序列E＝(z₁,z₂,....,z_m)，其计算方法为z_j＝e^w(w_j)，其中，z_j表示第j个匹配词的向量表示，e^w词嵌入查找表。

进一步地，所述步骤2中修正位置编码的Transformer编码器模型具体为：

在位置编码中添加了相对位置和方向信息，其编码方法为：

其中，t为目标索引，j为上下文标记索引，R_t-j为相对位置编码，

d_k为k的向量维度。

进一步地，所述步骤2中获取特征拼接序列Node_f的具体方法为：

步骤2.1：通过三个可训练的权重矩阵将字嵌入序列C投射到三个不同的空间中，分别得到查询向量矩阵Q、键向量矩阵K和值向量矩阵V，注意力计算分数公式可以表示为：

Attention(Q,K,V)＝Softmax(A^rel)V

其中，

由输入向量分割得到，

为可训练的参数，R_t-j为相对位置嵌入表示；

步骤2.2：修正位置编码的Transformer编码器通过引入多头注意力机制，在不共享参数的前提下使用多个注意力头对文本序列进行注意力分数计算，最后将结果进行拼接输出，其计算公式可以表示为：

head^h＝Attention(Q^h,K^h,V^h)

MultiHead(H)＝[head¹,head²,....,headⁿ]W_o

其中，h∈[1,n]为注意力头数，W_o∈R^d×d为一个可训练参数；接着多头注意力的输出由前馈神经网络进行空间变换，增加模型的非线性表达能力，并且在多头自注意力层和前馈神经网络层后都会进行残差计算和归一化处理，最终输出上下文语义嵌入序列N＝(l₁,l₂,....,l_n)；

步骤2.3：将词嵌入序列E与上下文语义嵌入序列N进行向量拼接，得到特征拼接序列Node_f＝(l₁,l₂,....,l_n,z₁,z₂,....,z_m)＝(f₁,f₂,....,f_N)，其中，l_i为语义嵌入向量，z_i为词嵌入向量，N＝n+m，f_i为特征拼接序列中第i特征嵌入向量。

进一步地，所述步骤3获取特征融合序列Q的具体方法为：

步骤3.1：构建整体文本关系图，文本关系图中共包含N个节点且节点分为两类，分别为字符节点和匹配词节点，使用邻接关系矩阵A来表示整体文本关系图中边与节点之间的关系，其规则为：如果字符或匹配词i与另一个字符或匹配词j之间存在边，则将对应的A_i,j赋值为1，否则赋值为0；

步骤3.2：将邻接关系矩阵A和特征拼接序列Node_f＝(f₁,f₂,....,f_N)作为改进协同图网络模型中图注意力网络的输入，其中，A∈R^N×N，N为图中节点数，模型输出表示为F'＝(f₁',f′₂,....,f′_N)，其中，f_i'∈R^F'，F'为输出节点特征维数，形式上，图注意力网络的计算公式可以表示为：

其中，α_ij为节点i和节点j之间结果归一化后的注意力互相关系数，Nⁱ表示与节点i相邻节点的集合，W∈R^F′×F，a^T∈R^2F′均为可训练的权重参数；

步骤3.3：每个节点的输出特征与和它相邻的所有节点有关，通过对相邻节点集合线性和非线性激活后得到，同时，图注意力网络采用多头注意力机制来增加训练过程的稳定性，并在模型的最后一层使用K平均操作，形式上，最终输出的计算公式可以表示为：

其中，σ为非线性激活函数，共有K个注意力头数，k表示第k个注意力机制；

步骤3.4：对于改进协同图网络模型的输入Node_f＝(f₁,f₂,....,f_N)，在经过图注意力网络处理后得到的输出序列可以表示为G＝GAT(Node_f,A)，其中，G∈R^F′×(m+n)，保留矩阵G的前n列作为字符特征的输出表示，得到最终的特征融合序列Q，其计算方法为Q＝G[:，0:n]＝(q₁,q₂,....,q_n)。

进一步地，所述步骤4的具体方法为：

步骤4.1：搭建条件随机场模型，条件随机场是一种基于条件概率的判别式模型，将特征融合序列Q作为模型的输入，若其对应的一个可能的标签预测序列为Y＝(y₁,y₂,....,y_n)，则计算标签y的概率为：

其中，T为标签的转移概率，

为模型参数，y'表示任意一个可能的标签序列，使用一节维特比算法进行解码，输出得分最高的标签序列；

步骤4.2：在训练过程中，采用L₂正则化来优化损失函数，损失函数可以表示为：

其中，θ为参数集，λ是L₂的正则化参数。

有益效果：

1、本发明采用的基于改进图注意力网络的中文医疗命名实体识别方法，相较于目前主流的实体识别模型，该方法能够有效的提升医疗实体的识别性能，并且可以更好的识别常见实体与罕见实体。

2、本发明引入医疗词典，通过将医疗领域丰富的外部词典信息融入医疗实体识别模型中，避免因未登录词、歧义词以及领域专业词汇误划等问题对实体识别效果产生影响。

3、本发明提取了医疗文本中的多粒度特征，融合医疗文本中的字符和匹配词信息，保证了实体识别的准确性。

4、本发明采用修正位置编码的Transformer编码器，通过在位置编码中加入相对位置和方向信息，提升模型对于远距离依赖以及方向、位置敏感性特征的捕获能力。

5、本发明采用协同图网络模型作为一种多图协作的图注意力网络，以图结构的方式进行信息传递，减少了特征交互过程中的信息损失，能够有效的捕获节点之间存在的依赖信息，实现了字词特征的动态融合。并且通过改进协同图网络模型中医疗文本关系图构造方法，实现一种文本整体关系图的构建，避免了多种关系图结构的构造，避免了冗余计算，降低了计算开销，提升了模型的训练速度，减少了特征融合过程中的信息的丢失。

附图说明

图1为本发明基于改进图注意力网络的中文医疗命名实体识别方法整体流程图；

图2为特征表示流程图；

图3为文本编码流程图；

图4为特征融合流程图；

图5为标签解码流程图；

图6为医疗文本关系图示例；

图7为模型整体结构图。

具体实施方式

下面结合附图，进一步阐明本发明，应理解这些实施例仅用于说明本发明而不用于限制本发明的范围，在阅读了本发明之后，本领域技术人员对本发明的各种等价形式的修改均落于本申请所附权利要求所限定的范围。

本发明公开了一种基于改进图注意力网络的中文医疗命名实体识别方法，包括如下步骤：

步骤1：输入原始的医疗领域中文文本数据S，对数据S进行清洗后，得到医疗文本数据s，构建医疗词典D，利用医疗词典D与医疗文本数据s中的字符进行匹配，得到对应的匹配词序列W，通过查找预训练字嵌入矩阵与预训练词嵌入矩阵，将医疗文本数据s与匹配词序列W分别映射为对应的字嵌入序列C与词嵌入序列E，具体方法为：

步骤2：构建一种修正位置编码的Transformer编码器模型，将字嵌入序列C作为模型的输入，输出上下文语义嵌入序列N，随后将其与词嵌入序列进行向量拼接，得到特征拼接序列Node_f，具体方法为：

步骤2.1：构建修正位置编码的Transformer编码器模型，将字嵌入序列C作为模型的输入，为每个字嵌入向量添加位置编码，修正位置编码的Transformer编码器相对于原始Transformer编码器做出的改进在于，修正位置编码的Transformer编码器在位置编码中添加了相对位置和方向信息，其编码方法为：

d_k为k的向量维度；

步骤2.2：通过三个可训练的权重矩阵将字嵌入序列C投射到三个不同的空间中，分别得到查询向量矩阵Q、键向量矩阵K和值向量矩阵V，注意力计算分数公式可以表示为：

Attention(Q,K,V)＝Softmax(A^rel)V

其中，

由输入向量分割得到，

为可训练的参数，R_t-j为相对位置嵌入表示；

步骤2.3：Transformer编码器通过引入多头注意力机制，在不共享参数的前提下使用多个注意力头对文本序列进行注意力分数计算，最后将结果进行拼接输出，其计算公式可以表示为：

head^h＝Attention(Q^h,K^h,V^h)

MultiHead(H)＝[head¹,head²,....,headⁿ]W_o

其中，h∈[1,n]为注意力头数，W_o∈R^d×d为一个可训练参数。接着多头注意力的输出由前馈神经网络进行空间变换，增加模型的非线性表达能力，并且为了缓解由于网络过深所导致的退化，在多头自注意力层和前馈神经网络层后都会进行残差计算和归一化处理，最终输出上下文语义嵌入序列N＝(l₁,l₂,....,l_n)；

步骤2.4：将词嵌入序列E与上下文语义嵌入序列N进行向量拼接，得到特征拼接序列Node_f＝(l₁,l₂,....,l_n,z₁,z₂,....,z_m)＝(f₁,f₂,....,f_N)，其中，l_i为语义嵌入向量，z_i为词嵌入向量，N＝n+m，f_i为特征拼接序列中第i特征嵌入向量。

步骤3：构建改进协同图网络模型，将以特征拼接序列Node_f为节点所构成的文本关系图作为模型的输入，经过图注意力网络计算，输出最终的特征融合序列Q，所述改进协同图网络模型，在原协同图网络模型的基础上通过改进其关系图设计方式，融合其设计的多种字词交互网络结构，依据医疗文本中所存在的“字-词”邻接与包含关系、“字-字”邻接关系以及“词-词”邻接关系来连接对应的节点，实现一种文本整体关系图的构建，具体方法为：

步骤3.1：构建整体文本关系图，文本关系图中共包含N个节点且节点分为两类，分别为字符节点和匹配词节点，如图6所示，字符之间的实线代表邻接关系，词汇与字符之间的实线代表包含与邻接关系，词汇与词汇之间的实线代表邻接关系，使用邻接关系矩阵A来表示整体文本关系图中边与节点之间的关系，其规则为：如果字符或匹配词i与另一个字符或匹配词j之间存在边，则将对应的A_i,j赋值为1，否则赋值为0；

步骤3.2：将邻接关系矩阵A和特征拼接序列Node_f＝(f₁,f₂,....,f_N)作为改进协同图网络模型中图注意力网络的输入，其中，A∈R^N×N，N为图中节点数，模型输出表示为F'＝(f₁',f′₂,....,f′_N)，其中，f′_i∈R^F，F'为输出节点特征维数，形式上，图注意力网络的计算公式可以表示为：

步骤3.3：每个节点的输出特征与和它相邻的所有节点有关，通过对相邻节点集合线性和的非线性激活后得到，同时，图注意力网络采用多头注意力机制来增加训练过程的稳定性，并在模型的最后一层使用K平均操作，形式上，最终输出的计算公式可以表示为：

步骤4：构建条件随机场模型，基于特征融合序列Q对医疗文本中的字符进行标签解码，输出最优的标签序列，获得最终的医疗文本的医疗命名实体识别结果。具体方法为：

其中，T为标签的转移概率，

步骤4.2：在训练过程中，采用L₂正则化来优化损失函数，防止模型出现过拟合现象，提升模型的训练效率，损失函数可以表示为：

其中，θ为参数集，λ是L₂的正则化参数。

Claims

1.一种基于改进图注意力网络的中文医疗命名实体识别方法，其特征在于，包括如下步骤：

步骤2：构建修正位置编码的Transformer编码器模型，将字嵌入序列C作为模型的输入，输出上下文语义嵌入序列N，随后将其与词嵌入序列E进行向量拼接，得到特征拼接序列Node_f；

2.根据权利要求1所述的基于改进图注意力网络的中文医疗命名实体识别方法，其特征在于，所述步骤1的具体方法为：

3.根据权利要求1所述的基于改进图注意力网络的中文医疗命名实体识别方法，其特征在于，所述步骤2中修正位置编码的Transformer编码器模型具体为：

在位置编码中添加了相对位置和方向信息，其编码方法为：

d_k为k的向量维度。

4.根据权利要求3所述的基于改进图注意力网络的中文医疗命名实体识别方法，其特征在于，所述步骤2中获取特征拼接序列Node_f的具体方法为：

Attention(Q,K,V)＝Softmax(A^rel)V

其中，

由输入向量分割得到，

为可训练的参数，R_t-j为相对位置嵌入表示；

head^h＝Attention(Q^h,K^h,V^h)

MultiHead(H)＝[head¹,head²,....,headⁿ]W_o

5.根据权利要求1所述的基于改进图注意力网络的中文医疗命名实体识别方法，其特征在于，所述步骤3获取特征融合序列Q的具体方法为：

步骤3.2：将邻接关系矩阵A和特征拼接序列Node_f＝(f₁,f₂,....,f_N)作为改进协同图网络模型中图注意力网络的输入，其中，A∈R^N×N，N为图中节点数，模型输出表示为F'＝(f₁',f₂',....,f_N')，其中，f_i'∈R^F'，F'为输出节点特征维数，形式上，图注意力网络的计算公式可以表示为：

其中，α_ij为节点i和节点j之间结果归一化后的注意力互相关系数，Nⁱ表示与节点i相邻节点的集合，W∈R^F×F，a^T∈R^2F′均为可训练的权重参数；

6.根据权利要求1所述的基于改进图注意力网络的中文医疗命名实体识别方法，其特征在于，所述步骤4的具体方法为：

其中，T为标签的转移概率，

其中，θ为参数集，λ是L₂的正则化参数。