CN114841167A

CN114841167A - 一种基于图神经网络多嵌入联合的临床命名实体识别方法

Info

Publication number: CN114841167A
Application number: CN202210540397.8A
Authority: CN
Inventors: 孙开伟; 李奕佳; 段雨辰; 纪志阳; 曾雅苑; 王支浩
Original assignee: Chongqing University of Post and Telecommunications
Current assignee: Chongqing University of Post and Telecommunications
Priority date: 2022-05-17
Filing date: 2022-05-17
Publication date: 2022-08-02

Abstract

本发明公开了一种基于图神经网络多嵌入联合的临床命名实体识别方法，包括101.对输入文本进行分词处理，并赋予初始权重；102.对输入文本按批次进行划分及截断；103.对输入文本按批次填充至相同长度；104.连接文本句子对；105.构建数据增强多嵌入联合特征；106.构建图神经网络，其中通过多头注意力机制进行节点与边的信息传递；107.构建关于临床领域的字组信息；108.使用BiLSTM进一步提取文本特征；109.使用CRF对BiLSTM的输出数据进行解码，从而实现实体识别。本发明主要通过对实体进行数据增强并构建字词关联图，使得模型能更精确地识别医疗领域的实体。

Description

一种基于图神经网络多嵌入联合的临床命名实体识别方法

技术领域

本发明属于深度学习、人工智能、自然语言处理，尤其基于图神经网络的多角度数据增强技术结合的临床医疗命名实体识别方法。

背景技术

随着医疗领域信息化建设的发展，现代医疗信息系统具有海量数据量。将海量数据有效利用从而变成更有价值的学术资源，是现在研究者亟待解决的问题。而自然语言处理技术能帮助研究者挖掘医疗文本信息数据。其中命名实体识别技术能有效地识别出重要实体，例如疾病、手术、治疗和药物等实体类型。分时这些实体之间的关系，从而给临床医学决策提供数据支持，整体提升医院医疗质量，具体重要意义。

发明内容

本发明旨在解决以上现有技术的问题。提出了一种基于图神经网络多嵌入联合的临床命名实体识别方法。本发明具体包括以下步骤：

101.对输入文本的每个词汇对应预训练结果中的词汇表进行分词处理，通过FT-Bert赋予初始权重；

102.对输入文本按批次进行划分，并按MAX_LEN进行截断；

103.对输入文本按批次将每个句子填充至相同长度，长度均为当前批次句子最大长度；

104.通过句首使用[CLS]、句尾使用[SEP]连接所有的句子对；

105.对输入文本数据添加拼音特征向量，包含拼音及音调，添加字形特征和偏旁特征，连结作为数据增强向量，通过使用卷积神经网络进一步提取特征，得到数据增强多嵌入联合特征；

106.构建图神经网络，其中通过多头注意力机制进行节点与边的信息传递；

107.构建关于临床领域的字组信息；

108.将FT-Bert、数据增强多嵌入联合特征以及基于图神经网络的汇聚结果结合，作为BiLSTM的输入，进一步提取文本特征；

109.使用CRF对BiLSTM的输出数据进行解码，从而实现实体识别。

本发明的优点及有益效果如下：

本发明得益于从多角度强化文本特征以及深度挖掘将词组信息关联到字信息中，使得在实体预测过程中具有更强的上下文理解能力，因此能得到更高的F1-score，即精确率和召回率的调和平均值。

下面详细分析步骤105-108分别具有哪些优点：步骤105根据文本分词后的数据分别得到字形特征、偏旁特征和拼音特征，并通过卷积神经网络对特征进一步提炼，得到更具代表的特征表示，在这一步骤中，得到具有中文特性的字符表示，让模型实现对字符的进一步辅助理解；步骤106通过图注意力网络放大数据中的重要影响部分，通过信息传递最终使节点信息中包含相邻节点的信息，从而得到更具表示的节点信息数据。在这一步骤中，图神经网络使字符得到潜在词汇信息，从而实现字符潜在边界定位及消除歧义；其中，通过多头注意力机制实现节点与边之间的信息传递，使结点信息中包含边信息、边信息中也包含结点信息；步骤107基于ctb.50d.vec词向量，通过简单2-gram方法构建与临床相关的词组，用于图神经网络中边连接的词汇表，因为所构词汇更偏向于医疗领域，所以对中文医疗NER的词汇增强更具针对性；步骤108通过将预训练模型FT-Bert的输出、联合特征embeddings以及图神经网络的输出连结，作为最终特征表示，输入到BiLSTM神经网络中。这一步使模型实现词汇增强的同时也实现字符级增强，提高了模型的理解能力。

附图说明

图1是本发明一种基于图神经网络多嵌入联合的临床命名实体识别方法的整体步骤图；

图2是本发明一种基于图神经网络多嵌入联合的临床命名实体识别方法流程图；

图3是图神经网络关于字与词组的关系构建示意图；

图4是本发明采用的FTBert-GNN-BiLSTM-CRF整体结构图。

具体实施方式

如图1和图2所示，本发明具体包括以下步骤：

101.对输入的文本进行分词，具体为对文本中的token通过预训练模型词表进行分词处理并通过FT-Bert的Embedding层得到初始权重。具体地，所述FT-Bert模型在Bert的基础上，根据医疗文本语料数据进一步预训练得到，在提取特征的过程中，使用自注意力机制提取权重，并在此过程中随机遮住15％的字符。通过Bert的tokenizer以及词表数据进行分词，并通过预训练模型的Embedding层得到权重初始化信息。

102.对文本按最大长度MAX_LEN进行截断，构建批次，并以批次为单位构建供训练的数据集。

103.对于截断后的数据，由于每个批次中每条数据的长度不一，为使得一个批次中的每条文本数据长度一致，动态获得每个batch中文本的最长长度，并使每条文本信息长度填充至相同长度，长度为当前批次最大文本长度。

104.通过[CLS]标签表示句子开头，[SEP]标签表示句子结尾，连接文本句子对。

105.对文本数据进行数据增强并得到对应特征embedding，通过增加文本数据中每个token的拼音信息(包含拼音及音调)、字形信息(字形特征和偏旁特征)进行文本数据增强，具体包括提取文本对应偏旁信息、文本对应多种字形图片信息以及文本对应拼音及语调信息；通过卷积神经网络对上述特征进行特征提取，具体实现：

其中p为补零层数，s为步幅，k为卷积核大小，w为输入矩阵大小。w′表示特征图尺寸。

106.对文本构建图神经网络，构建节点、边以及全局信息，在全局推理关系和局部依赖关系的基础上进行信息传递，得到明确的实体连接关系，以很好地学习字符与词组元素间的关系；如图3所示，将字符作为节点信息，词组作为边信息，节点以及节点之间的连接关系作为全局信息构建图神经网络，字符与词组之间的信息传递通过多头注意力机制实现，通过多头注意力机制进行信息传递并汇聚更新到节点信息中，挖掘字与词间的潜在信息。图神经网络进行信息汇聚的过程中，利用多头注意力机制提取权重表示为：

Attention(Q,K,V)为自注意力机制权重；q、K、V分别为输入的词向量分别与三个不同的权值矩阵相乘得到的加权词向量；d_k表示输入向量的维度。head_i表示第i个attention计算结果，W_i ^q,W_i ^K,W_i ^V和W^O表示

和

的参数映射向量，

表示多头注意力机制权重。

107.通过ctb.50d.vec词向量构建训练集对应的基词汇集，并使用2-gram思想将每类实体中表示实体开始的集合B分别与表示实体内容的集合I进行词组构建，从而得到最终词组集合。

具体地，对于词典的构建，首先使用预训练的词向量ctb.50d.vec作为初始化文本序列表示；根据词向量中的词组信息对文本中的字符构建对应词组集；在此基础上，对每个实体类型，如’TREATMENT’，将’TREATMENT-B’分别与’TREATMENT-I’中的字符通过2-gram方式进行结合，增加到词组集中。

108.将FT-Bert的embedding输出与特征embeddings、图神经网络汇聚更新得到的embedding结合，通过BiLSTM进一步提取文本特征。BiLSTM能达到进一步强化识别实体边界的目的，能根据输入文本以及上一级LSTM的输出进行特征提取，从而避免长期依赖的问题。其中BiLSTM中的单个LSTM神经元包括输入门、输出门和遗忘门：

i_t＝σ(W_xix_t+W_hih_t-1+b_hi)

f_t＝σ(W_xfx_t+W_hfh_t-1+b_hf)

o_t＝σ(W_xox_t+W_hoh_t-1+b_ho)

其中σ是sigmoid函数；W和b分别表示权重矩阵和偏差向量参数，W_xi,W_xf,W_xo分别表示输入门、遗忘门和输出门的权重参数，W_hi,W_hf,W_ho分别表示隐藏层到输入门、遗忘门和输出门的权重参数，b_hi,b_hf,b_ho分别表示隐藏层到输入门、遗忘门和输出门的偏置参数；x_t表示在t时刻的输入变量；h_t-1表示t-1时刻的的隐藏状态；i_t、f_t、o_t分别表示输入门、遗忘门和输出门用于控制输入记忆细胞状态的信息；c_t表示t时刻的记忆细胞状态，计算如下：

c_t＝f_tc_t-1+i_ctanh(W_xcx_t+b_ic+W_hch_t-1+b_hc)

h_t＝o_ttan(c_t)

h_t表示t时刻的隐藏状态。

109.使用CRF对BiLSTM的输出进行解码，对实体预测进行修正，得到最终实体识别结果。具体地，例如当前token被预测为’CHECK-I’，则下一个token一定不会出现’CHECK-B’的情况。CRF能考虑标签之间的关系，除了输出为每个词对应的最大概率外，还能避免例如CHECK-I后面识别为CHECK-B的情况，从而实现全局最优序列。输入句子X和相应预测标签y，CRF的解码预测过程如下：

其中，

表示t到标签y_t的得分矩阵，

表示标签y_t到标签y_t+1的过渡分数矩阵；p(y|X)表示序列X到标签y的概率；y*为CRF的最终输出序列。S(X,y)表示CRF计算分数值，n表示序列中有n个子序列x，Y_x表示序列X所有可能的标记序列，

表示计算预测值。

实体识别过程：使用在特定领域再训练及微调后的模型文件，同样的类似于训练过程，将未标注的临床医学文本输入，依次分词、成批、截断、句子成对等文本处理，经过多特征embedding层、FT-BERT的transformer层，GNN层、BiLSTM以及输出的CRF层，得到最终识别结果。

模型在使用的过程中，主要分为微调部分以及实体识别部分，微调部分指模型通过训练集数据进行特征提取、模型构建的过程中，不断修改网络层结构以及调整神经单元的参数。

如图4，本实施例中输入一个句子“腹痛5天伴呕吐”，通过FT-Bert的Embedding层为每个词赋予一个权重，通过CNN得到字符的拼音、字形和偏旁增强信息，通过Attention-based GNN得到字符与词组间的关联与隐藏信息，三者结合输入到BiLSTM网络中进行特征提取，最后通过CRF实现最终实体识别任务。通过本实施例说明本发明能对临床医学文本中的身体部位、症状、疾病、检查、治疗等实体进行更加有效地识别。

以上对本发明所提供的一种基于图神经网络多嵌入联合的临床命名实体识别方法进行了详细介绍。本文对本发明的原理集实施方式进行了阐述，以上说明用于帮助理解本发明的核心思想。应当指出，对于本技术领域的普通研究人员来说，在不脱离本发明原理的前提下，还可以对本发明进行若干改进、修饰和变型，这些改进、修饰和变型也落入本发明权利要求的保护范围内。

Claims

1.一种基于图神经网络多嵌入联合的临床命名实体识别方法，其特征在于，包括以下步骤：

102.对输入文本按批次进行划分，并按MAX_LEN进行截断；

104.通过句首使用[CLS]、句尾使用[SEP]连接所有的句子对；

107.构建关于临床领域的字组信息；

109.使用CRF对BiLSTM的输出数据进行解码，从而实现实体识别。

2.根据权利要求1所述一种基于图神经网络多嵌入联合的临床命名实体识别方法，其特征在于：所述FT-Bert模型在Bert的基础上，根据医疗文本语料数据进一步预训练得到，在提取特征的过程中，使用自注意力机制提取权重，并在此过程中随机遮住15％的字符。

3.根据权利要求1所述一种基于图神经网络多嵌入联合的临床命名实体识别方法，其特征在于：所述使用卷积神经网络提取特征，特征图计算过程如下：

其中p为补零层数，s为步幅，k为卷积核大小，w为输入矩阵大小，w′表示特征图尺寸。

4.根据权利要求1所述一种基于图神经网络多嵌入联合的临床命名实体识别方法，其特征在于：所述步骤106中将字符作为节点信息，词组作为边信息，节点以及节点之间的连接关系作为全局信息构建图神经网络，字符与词组之间的信息传递通过多头注意力机制实现，通过多头注意力机制进行信息传递并汇聚更新到节点信息中，挖掘字与词间的潜在信息。

5.根据权利要求1或4所述一种基于图神经网络多嵌入联合的临床命名实体识别方法，其特征在于：图神经网络进行信息汇聚的过程中，利用多头注意力机制提取权重表示为：

head_i＝Attention(qW_i ^q,KW_i ^K,VW_i ^V)

MultiAtt(q,K,V)＝[head₁；...；head_k]W^O

Attention(q,K,V)为自注意力机制权重；q、K、V分别为输入的词向量分别与三个不同的权值矩阵相乘得到的加权词向量；d_k和d_v分别表示输入向量q和V的维度；head_i表示第i个attention计算的结果，W_i ^q、W_i ^K、W_i ^V和W^O表示参数映射向量，

表示多头注意力机制权重。

6.根据权利要求1所述一种基于图神经网络多嵌入联合的临床命名实体识别方法，其特征在于：步骤107所述构建关于临床领域的字组信息，通过ctb.50d.vec词向量构建训练集对应的基词汇集，将每类实体中表示实体开始的集合B与表示实体内容的集合I使用2-gram进行词组构建，从而得到最终词组集合。

7.根据权利要求1所述一种基于图神经网络多嵌入联合的临床命名实体识别方法，其特征在于：所述步骤108使用BiLSTM提取文本特征，过程如下：

i_t＝σ(W_xix_t+b_ii+W_hih_t-1+b_hi)

f_t＝σ(W_xfx_t+b_if+W_hfh_t-1+b_hf)

o_t＝σ(W_xox_t+b_io+W_hoh_t-1+b_ho)

c_t＝f_tc_t-1+i_ctanh(W_xcx_t+b_ic+W_hch_t-1+b_hc)

h_t＝o_ttan(c_t)

其中σ是sigmoid函数；W和b表示权重矩阵和偏差向量参数；x_t表示在t时刻的输入变量；h_t-1表示t-1时刻的隐藏状态；i_t、f_t、o_t分别表示输入门、遗忘门和输出门用于控制输入记忆细胞状态的信息；c_t表示t时刻的记忆细胞状态；h_t表示t时刻的隐藏状态。

8.根据权利要求1所述一种基于图神经网络多嵌入联合的临床命名实体识别方法，其特征在于：所述步骤109中根据输入句子X和相应预测标签y，CRF的解码预测过程如下：

其中，

表示t到标签yt的得分矩阵，

表示标签yt到标签yt+1的过渡分数矩阵；p(y|X)表示x到标签y的概率；y*为CRF的最终输出序列。