CN115130468A

CN115130468A - 基于字词融合表示与图注意力网络的心梗实体识别方法

Info

Publication number: CN115130468A
Application number: CN202210486475.0A
Authority: CN
Inventors: 宓开拓; 宋华珠; 蔡恒; 曹彦东
Original assignee: Beijing Anzhiyin Biotechnology Co ltd
Current assignee: Beijing Anzhiyin Biotechnology Co ltd
Priority date: 2022-05-06
Filing date: 2022-05-06
Publication date: 2022-09-30
Anticipated expiration: 2042-05-06
Also published as: CN115130468B

Abstract

本发明属于医学实体识别技术领域，公开了一种基于字词融合表示与图注意力网络的心梗实体识别方法，包括：融合PubMedBERT模型、CharCNN模型、共指关系图以及图注意力机制构建基于字词融合表示与图注意力网络的心梗实体模型：利用PubMedBERT模型获取单词的上下文语义特征，采用字符级卷积神经网络CharCNN获取单词内部特征；将单词的上下文语义特征与单词内部特征进行拼接，并建立共指关系图结合图注意力机制融合具有共指关系的节点特征表示，进行心梗数据的实体识别。本发明能有效提高实体识别的效果；通过自然语言处理、深度学习抽取心梗相关知识，形成心梗知识图谱，促进医学领域知识图谱构建技术的发展。

Description

基于字词融合表示与图注意力网络的心梗实体识别方法

技术领域

本发明属于医学实体识别技术领域，尤其涉及一种基于字词融合表示与图注意力网络的心梗实体识别方法。

背景技术

心肌梗死(Myocardial Infarction,MI)简称心梗，是指冠状动脉血管因急性、长期缺血缺氧而导致的心肌坏死，是一个很常见的急性心血管系统疾病。心血管疾病一直是全球的主要死因，其中超过50％的人死于急性心肌梗死，并且心梗发病率高、死亡率高，所以心梗是威胁人类健康和生命的主要原因。我国卫健委公布的资料表明，心血管疾病占我国疾病死亡率首位，我国每年突发急性心肌梗死的患者约100万人，每3名心梗患者中就有1人死亡，死亡率超过30％。随着现代社会激烈的竞争带来的压力和逐渐加快的生活节奏，目前心梗不仅仅出现于老年群体中，中青年人发生心梗的比例也正逐渐上升，心梗成为人类健康的一大隐患。然而，有关心梗等预防、治疗、术后等知识分散在医护人员、论文、科研人员等处，使得人们在需要了解有关心梗信息等时候，很难快速找到权威的信息了解当前心梗现状而及时采取有效措施避免心梗的发生或降低其危害。所以，人们对增加心梗疾病知识的了解有着迫切的需求，构建心梗的知识图谱则应运而生。

当前，知识图谱在医学领域具有很强的研究和应用价值，它不仅可以帮助学者更快速的检索信息、获得更多的医学知识，也可以辅助医生治疗、指导患者正确就诊等。然而，构建医学领域知识图谱比较复杂，由于医学领域数据形式的特殊性以及关注的需求不同也使得医学知识图谱的构建方式多种多样。

在使用实体识别模型对获取的心梗数据进行实体识别时，存在主要问题如下：

心梗数据中存在词具有多义性，在使用BERT预训练模型对心梗数据的单词进行词嵌入时，会将词汇表外的单词通过双字节编码拆分成子词形式，减弱了该词的语义特征。此外，在医学实体识别任务中，医学词汇通常具有相同的前缀或后缀，这种单词内部的形态学特征能够增强单词的语义表示，在医学实体识别任务中显得尤为重要，但是通过预训练语言模型得到的词嵌入并不能反映单词的内部特征。所以，要解决传统词向量难以表达上下文语义以及抽取的特征较为单一的问题。

由于医学名词一般比较长，医学文本中为了方便表示往往会在后文中用缩写去代替该名词，或者相同的实体可能有单复数的变化，这使得文档中有共指关系的实体名词可能分布在相距较远的上下文中。同时，对于实体识别任务，目前常用的做法是使用BiLSTM-CRF模型对文本进行序列标注，但是传统BiLSTM体系结构的序列标注模型通常忽略了存在于上下文的结构信息，由此可能导致上下文中相同实体的实体类型预测结果不相同。所以，需要减少上下文中相同实体店类型预测结果的不一致问题。

通过上述分析，现有技术存在的问题及缺陷为：现有技术没有针对心梗数据实体识别的方法、系统或模型，没有针对心梗数据的知识图谱；而且现有的实体识别技术其识别结果不准确，无法识别不同情况下相同单词表征的不同含义，识别错误率高。

发明内容

针对现有技术存在的问题，本发明提供了一种基于字词融合表示与图注意力网络的心梗实体识别方法。

本发明是这样实现的，一种基于字词融合表示与图注意力网络的心梗实体识别方法，所述基于字词融合表示与图注意力网络的心梗实体识别方法包括：

融合PubMedBERT模型、CharCNN模型、共指关系图以及图注意力机制构建基于字词融合表示与图注意力网络的心梗实体模型：利用PubMedBERT模型获取单词的上下文语义特征，采用字符级卷积神经网络CharCNN获取单词内部特征；将单词的上下文语义特征与单词内部特征进行拼接，并建立共指关系图结合图注意力机制融合具有共指关系的节点特征表示，进行心梗数据的实体识别。

进一步，所述基于字词融合表示与图注意力网络的心梗实体模型包括：

字词融合层、上下文编码层、图注意力层、条件随机场层；

字词融合层，用于将输入文本转换成向量表示；用于通过PubMedBERT模型获取输入序列的词嵌入，同时通过CharCNN模型获取词的字符级词嵌入；同时用于将所述输入序列的词嵌入与所述词的字符级词嵌入进行拼接得到融合字词特征的词向量表示，并输出所述融合字词特征的词向量表示；

上下文编码层，用于利用BiLSTM对输入的融合字词特征的词向量表示进行特征提取，获取所述融合字词特征的词向量表示的上下文语义信息并输出；

图注意力层，用于基于创建好的共指关系图，通过图注意力机制更新节点的特征表示；同时用于通过向量拼接融合上下文编码层的输出，输入到条件随机场层；

条件随机场层，用于利用CRF作为解码器预测输入序列的实体标签。

进一步，所述基于字词融合表示与图注意力网络的心梗实体识别方法包括以下步骤：

步骤一，获取待识别的心梗数据，并对获取的待识别的心梗数据进行预处理；

步骤二，构建基于字词融合表示与图注意力网络的心梗实体模型，并对构建的基于字词融合表示与图注意力网络的心梗实体模型进行训练；

步骤三，获取训练好的基于字词融合表示与图注意力网络的心梗实体模型的网络参数，并根据所述网络参数对所述基于字词融合表示与图注意力网络的心梗实体模型进行优化；

步骤四，利用优化后的基于字词融合表示与图注意力网络的心梗实体模型基于预处理后的待识别心梗数据进行实体标签序列的预测，得到心梗数据的实体识别结果。

进一步，所述步骤一中，对获取的待识别的心梗数据进行预处理包括：

首先，采用NLTK对所述心梗数据进行分词处理，在分词后对超出最大长度的部分进行截断；

其次，采用词形还原工具NLTK将单词或者词组转换成最基本的形式。

进一步，所述步骤二中，对构建的基于字词融合表示与图注意力网络的心梗实体模型进行训练包括：

(1)随机初始化基于字词融合表示与图注意力网络的心梗实体模型的网络参数；并获取预处理的心梗医学文本，构建训练集、验证集和待识别的心梗数据；

(2)根据训练集中的每一个样本构建相应的共指关系图；将训练集中的每一个样本和其对应的共指关系图输入模型；通过PubMedBERT对输入样本进行词嵌入，并获取子词拆分的偏移量；

(3)根据输入样本的子词偏移量融合输入样本词嵌入中被拆分的子词；通过CharCNN获得输入样本的字符级词嵌入；

(4)拼接获得的输入样本的词嵌入和字符级词嵌入，得到特征表示向量；将得到的特征表示向量表示输入上下文编码层，通过BiLSTM得到所述特征表示向量的上下文语义编码表示；

(5)将输入样本的上下文语义编码表示输入图注意力层，通过图注意力机制更新所述样本的特征表示；将得到的特征表示向量的上下文语义编码表示与更新后的特征表示进行拼接融合，输入条件随机场层；

(6)条件随机场层根据输入样本的特征表示生成概率矩阵；根据概率矩阵和目标值计算损失值；根据损失值进行反向传播，更新网络参数；

(7)重复步骤(2)至步骤(6)，直到网络收敛；

(8)利用验证集上验证所述基于字词融合表示与图注意力网络的心梗实体模型的效果，重复步骤(2)至步骤(7)，直到得到识别效果最好的模型；

(9)输出训练好的基于字词融合表示与图注意力网络的心梗实体模型的网络参数。

进一步，所述步骤(2)中，根据训练集中的每一个样本构建相应的共指关系图包括：

首先，对训练集中的每一个样本依次进行精确匹配、词根匹配以及首字母缩略词匹配，得到文本中所有具有共指关系的单词索引对；

其次，根据所述文本中所有具有共指关系的单词索引对生成邻接矩阵，得到每一个样本的共指关系图。

进一步，所述样本的共指关系图如下：

G＝(V，A)；

其中V表示文本中所有单词的节点集合，A表示邻接矩阵。

本发明的另一目的在于提供一种计算机设备，所述计算机设备包括存储器和处理器，所述存储器存储有计算机程序，所述计算机程序被所述处理器执行时，使得所述处理器执行所述基于字词融合表示与图注意力网络的心梗实体识别方法如下步骤：

本发明的另一目的在于提供一种计算机可读存储介质，存储有计算机程序，所述计算机程序被处理器执行时，使得所述处理器执行所述基于字词融合表示与图注意力网络的心梗实体识别方法如下步骤：

本发明的另一目的在于提供一种信息数据处理终端，所述信息数据处理终端用于执行所述基于字词融合表示与图注意力网络的心梗实体识别方法。

结合上述的技术方案和解决的技术问题，请从以下几方面分析本发明所要保护的技术方案所具备的优点及积极效果为：

第一、针对上述现有技术存在的技术问题以及解决该问题的难度，紧密结合本发明的所要保护的技术方案以及研发过程中结果和数据等，详细、深刻地分析本发明技术方案如何解决的技术问题，解决问题之后带来的一些具备创造性的技术效果。具体描述如下：

本发明提出一种基于字词融合的特征向量表示方法，针对生物医学领域的域内文本进行预训练，涵盖了实体识别任务所要识别的疾病、化学药品、基因和蛋白质术语，因此减少了生物医学术语被分解成多个子词的情况，在生物医学领域NLP任务中的效果比较好。本发明采用字符级卷积神经网络(Character-level Convolution Networks,CharCNN)获取单词的字符级词嵌入，从而得到单词内部特征；并将CharCNN模型输出的字符级词嵌入和PubMedBERT模型输出的词嵌入进行拼接，从而获得更好的特征表示。

本发明的基于字词融合表示与图注意力网络的命名实体识别模型引入了在生物医学领域具有更强上下文特征表示能力的预训练语言模型PubMedBERT来获取单词的词级特征，并通过CharCNN模型捕获单词的内部特征，拼接融合这两种特征后可以得到更好的对输入序列特征表示。针对BiLSTM架构的模型忽略文本上下文结构信息的问题，建立共指关系图并采用图注意力机制来更新相邻节点的实体的特征表示。

本发明的基于字词融合表示与图注意力网络的命名实体识别模型能有效提高实体识别的效果。

第二，把技术方案看做一个整体或者从产品的角度，本发明所要保护的技术方案具备的技术效果和优点，具体描述如下：

本发明通过自然语言处理、深度学习技术抽取心梗相关实体，提高心梗实体的识别率，以促进医学领域知识图谱构建技术的发展。

第三，作为本发明的权利要求的创造性辅助证据，还体现在以下几个重要方面：

(1)本发明的技术方案转化后的预期收益和商业价值为：

本发明利于构建心梗实体库，不仅为心梗的预防、诊断及恢复等提供更好的心梗术语支持，而且为心梗知识图谱的构建提供实体支持，所以，具有一定的实用价值。

(2)本发明的技术方案填补了国内外业内技术空白：

(1)本发明从自然语言处理方面，针对心梗相关的非结构数据，将CharCNN模型获得的字符级嵌入与PubmedBert的词嵌入结合起来作为预训练，同时，建立共指关系图并引入图注意力网络(Graph Attention Network,GAT)来融合具有共指关系的节点特征表示，以更准确地识别心梗实体。

(3)本发明的技术方案是否解决了人们一直渴望解决、但始终未能获得成功的技术难题：

本发明解决了自然语言处理领域中传统词向量难以表达上下文语义以及抽取的特征较为单一的问题。具体的，通过构建的预训练模型解决了从心梗数据中得到的词向量很难表达词的多义性问题，以及医学词汇中通常具有相前缀或后缀的语义问题。

同时，本发明解决了心梗文档的上下文中相同实体的类型预测结果可能不一致的问题。

(4)本发明的技术方案是否克服了技术偏见：。

对于预训练模型的选取中采用了比大多数Bert好的PubmedBert进行词级嵌入，并且将其与字符集嵌入结合起来更好地表示了心梗数据的上下文语义以及某些医学词汇的语义。同时，将注意力网络融入共指关系图以更好表示具有共指关系的节点，提高心梗实体识别的准确率。

附图说明

图1是本发明实施例提供的基于字词融合表示与图注意力网络的心梗实体模型架构图；

图2是本发明实施例提供的基于字词融合表示与图注意力网络的心梗实体识别方法流程图；

图3是本发明实施例提供的不同模块的引入对心梗数据实体识别实验F1值的影响示意图；

图4是本发明实施例提供的不同模块的引入对GENIA数据集实体识别实验F1值的影响示意图；

图5是本发明实施例提供的不同模块的引入对BC5CDR数据集实体识别实验F1值的影响示意图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。

一、解释说明实施例。为了使本领域技术人员充分了解本发明如何具体实现，该部分是对权利要求技术方案进行展开说明的解释说明实施例。

本发明实施例提供的基于字词融合表示与图注意力网络的心梗实体识别方法包括：

如图1所示，本发明实施例提供的基于字词融合表示与图注意力网络的心梗实体模型包括：

字词融合层、上下文编码层、图注意力层、条件随机场层；

如图2所示，本发明实施例提供的基于字词融合表示与图注意力网络的心梗实体识别方法包括以下步骤：

S101，获取待识别的心梗数据，并对获取的待识别的心梗数据进行预处理；

S102，构建基于字词融合表示与图注意力网络的心梗实体模型，并对构建的基于字词融合表示与图注意力网络的心梗实体模型进行训练；

S103，获取训练好的基于字词融合表示与图注意力网络的心梗实体模型的网络参数，并根据所述网络参数对所述基于字词融合表示与图注意力网络的心梗实体模型进行优化；

S104，利用优化后的基于字词融合表示与图注意力网络的心梗实体模型基于预处理后的待识别心梗数据进行实体标签序列的预测，得到心梗数据的实体识别结果。

步骤S101中，本发明实施例提供的对获取的待识别的心梗数据进行预处理包括：

步骤S102中，本发明实施例提供的对构建的基于字词融合表示与图注意力网络的心梗实体模型进行训练包括：

(7)重复步骤(2)至步骤(6)，直到网络收敛；

步骤(2)中，本发明实施例提供的根据训练集中的每一个样本构建相应的共指关系图包括：

本发明实施例提供的样本的共指关系图如下：

G＝(V，A)；

其中V表示文本中所有单词的节点集合，A表示邻接矩阵。

下面结合具体实施例对本发明的技术方案作进一步说明。

本发明提出一种基于字词融合的特征向量表示方法。首先采用PubMedBERT模型来获取单词的词嵌入表示，从而得到单词的上下文语义特征。该模型针对生物医学领域的域内文本进行预训练，涵盖了实体识别任务所要识别的疾病、化学药品、基因和蛋白质术语，因此减少了生物医学术语被分解成多个子词的情况，在生物医学领域NLP任务中的效果比较好。然后采用字符级卷积神经网络(Character-level Convolution Networks,CharCNN)获取单词的字符级词嵌入，从而得到单词内部特征。最后将CharCNN模型输出的字符级词嵌入和PubMedBERT模型输出的词嵌入进行拼接，从而获得更好的特征表示。

1、本发明提出建立共指关系图并引入图注意力网络(Graph AttentionNetworks,GAT)来融合具有共指关系的节点特征表示。首先建立文本的共指关系图G＝(V，A)，其中V是文本中所有单词的节点集合，A是邻接矩阵。具体而言，本发明采用三条关联线索建立共指关系：

精确匹配如果两个名词相同，则两个名词相连。

词根匹配如果两个名词具有相同的词根，则将它们连接在一起。

首字母缩略词匹配首字母缩略词连接到所有完整表达的词。

对于每个连接的节点(i,j)设置A(i,j)＝1，并且对每个节点V_i,i添加一个自连接，以维护单词的原始语义信息，在模型训练时，节点会被初始化为上下文编码层输出的特征向量。然后通过GAT来融合相邻节点的特征表示来更新该节点，文本共指关系图的建立如算法1所示。

2、基于字词融合表示与图注意力网络的实体识别算法

针对心梗数据实体识别存在的问题和解决方法，本发明提出了基于字词融合表示与图注意力网络的实体识别模型，该模型的训练过程如算法2所示。

在得到训练好的模型网络参数之后，根据该参数初始化模型，然后对待识别的心梗数据进行实体标签序列的预测，从而完成心梗数据的实体识别。

3、基于字词融合表示与图注意力网络的实体识别模型

基于字词融合表示与图注意力网络的心梗实体识别模型如图1所示，其中包括了字词融合层、上下文编码层、图注意力层、条件随机场层。字词融合层通过PubMedBERT模型获取输入序列的词嵌入，同时通过CharCNN模型获取该词的字符级词嵌入，将二者拼接得到字词融合表示，作为上下文编码层的输入。上下文编码层使用BiLSTM进行特征提取，获取其上下文语义信息。图注意力层基于创建好的共指关系图，通过图注意力机制来更新节点的特征表示。随后通过向量拼接来融合上下文编码层的输出，输入到条件随机场层，条件随机场层使用CRF作为解码器来预测输入序列的实体标签。

3.1字词融合层

字词融合层用于将输入文本转换成向量表示，通过连接词级嵌入wi和字符级嵌入c_i得到融合字词特征的词向量表示x_i＝[w_i；c_i]，作为上下文编码层的输入。具体而言，对于输入的心梗医学语句T＝{t₁,t₂,...t_n}，通过PubMedBERT预训练语言模型获取每个单词t_i的词嵌入向量w_i，若该单词被拆分成多个子词，则对子词的词嵌入向量求平均值作为该词的词嵌入向量。PubMedBERT通过堆叠多层Transformer编码器模块来进行文本编码，Transformer编码器通过引入自注意力机制来对文本上下文特征进行抽取，能够更好地建模远距离依赖特征。

同时，通过CharCNN模型来提取心梗医学文本中单词的字符级词嵌入表示c_i。对于输入的心梗医学文本中的单词t_i，根据单词中的每个字符在字符表中的位置索引将单词转换成向量表示，然后通过字符嵌入将向量中的每个字符表示转换成一个维度为d的向量，这些向量构成一个矩阵C∈R^d×l，l是最长的单词的长度。然后创建多个不同窗口大小的卷积核来扫描这个矩阵，每次扫描完成后得到向量f。最后使用最大池化提取向量f的最大值，将每次扫描得到的结果组成单词的字符嵌入向量c_i。

在此采用微软开源的BiomedNLP-PubMedBERT-base-uncased-abstract模型，在训练时固定其参数以缩短训练时间，该模型隐藏层维度为768，即输出的单词的词嵌入向量维度为768。CharCNN模型则根据心梗医学文本中单词的最大长度和字符表大小将单词转化成48×96的输入矩阵，通过字符嵌入层将其转化成48×16的字符嵌入矩阵，随后采用5个不同窗口大小的卷积核分别对该矩阵进行卷积，经过池化层后拼接，得到向量维度为300的单词的字符级特征向量表示，与词嵌入向量进行拼接得到向量维度为1068的融合字词特征的词向量表示。

3.2上下文编码层

上下文编码层通过BiLSTM捕获字词融合层输出的融合字词特征向量x_i的顺序上下文信息。BiLSTM采用双向LSTM结构，对输入序列分别采用前向和后向输入，得到前向和后向LSTM隐藏状态表示，然后将其连接为编码表示h_i，具体计算如公式(4-1)、公式(4-2)和公式(4-3)所示，其中θ是LSTM的可训练参数。

在此使用BiLSTM的隐藏层维度为768，对输入序列进行上下文特征提取，将每个节点的特征表示h_i更新到图注意力层的共指图的对应节点i，同时通过与图注意层的输出进行拼接融合，并输入给条件随机场层。

3.3图注意力层

图注意力层用于融合共指关系图中相邻节点的特征表示，首先通过算法1来构建该文档的共指关系图G＝(V,A)，由于图中的节点代表文档中的单词，因此在模型训练时节点i会被初始化为经过BiLSTM编码的相应节点的单词的上下文特征表示h_i，将其与邻接矩阵A作为图注意力层的输入，其中A∈R^n×n,n为节点数，然后通过图注意力机制来获得新的节点特征表示。

图注意力层首先生成一个投影矩阵W，通过线性映射的方式对节点i的特征表示h_i进行特征变化。然后计算共指关系图中任意两个节点之间的注意力权重，用a来表示为。节点j对节点i的重要性的计算如公式(4-4)所示。

e_ij＝a(Wh_i,Wh_j) (4-4)

节点i的一阶相邻节点集合N_i表示与该节点具有共指关系的节点，使用softmax函数对节点间的注意力系数进行归一化，然后将其与节点特征进行加权求和，得到融合了共指关系节点信息的新特征，用h_i'来表示，其计算如公式(4-5)和公式(4-6)所示。

此外，实际训练过程中采用多头注意力来提高注意力机制的泛化能力，即使用K组相互独立的单头注意力层，分别计算出自己的结果后拼接在一起，得到最终节点特征表示如公式(4-7)所示。

其中，在图注意力层使用的注意力头数为4，最终输出融合相邻节点的单词特征表示维度为300，将其与上下文编码层的输出拼接融合后输入给条件随机场层。

3.4条件随机场层

若在心梗数据实体识别过程中直接利用上下文编码层和图注意力层的融合特征去预测实体标签，则可能出现“B-Disease->I-Gene,I-Gene->B-Gene”的错误结果，这种预测标签序列相互独立，在句子层面没有合理性。条件随机场层使用CRF将输入的特征表示解码为实体标签，其优点是可以通过相邻标签的关系来约束预测的实体标签序列，预测结果更合理且准确率更高。

具体而言，CRF在解码过程中，采用维特比算法搜索概率最高的标签序列。对于输入的序列X，输出预测标签序列y的得分计算如公式(4-8)所示，其中转移矩阵E的元素E_yi,yi+1表示标签从y_i到y_i+1的转移概率，P_i,yi代表输入的第i个词被标记为y_i的概率。

CRF在所有可能的标签序列y上定义了条件概率p(y|X)，输出预测标签序列y的概率计算如公式(4-9)所示，其中Y_x表示所有可能的标签组合，

表示真实标签，模型通过最大化p(y|x)来找到最终的输出标签序列。

在训练过程中，为防止模型过拟合，采用L2正则化最小化对数似然损失来优化模型，损失函数的定义如公式(4-10)所示，其中λ是L2的正则化参数，θ是参与训练的网络参数集。

二、应用实施例。为了证明本发明的技术方案的创造性和技术价值，该部分是对权利要求技术方案进行具体产品上或相关技术上的应用实施例。

本发明的应用实施例提供了一种计算机设备，所述计算机设备包括存储器和处理器，所述存储器存储有计算机程序，所述计算机程序被所述处理器执行时，使得所述处理器执行所述基于字词融合表示与图注意力网络的心梗实体识别方法。

本发明的应用实施例提供了一种计算机可读存储介质，存储有计算机程序，所述计算机程序被处理器执行时，使得所述处理器执行所述基于字词融合表示与图注意力网络的心梗实体识别方法。

本发明的应用实施例提供了一种信息数据处理终端，所述信息数据处理终端用于执行所述基于字词融合表示与图注意力网络的心梗实体识别方法。

三、实施例相关效果的证据。本发明实施例在研发或者使用过程中取得了一些积极效果，和现有技术相比的确具备很大的优势，下面内容结合试验过程的数据、图表等进行描述。

实体识别实验

利用心梗数据中对本发明提出的模型的进行实验和评估，进而完成心梗数据的实体识别任务。为更好地检验模型的实体识别效果，也将其应用到公开数据集的实体识别。

本词实体识别实验采用精确率(Precision)、召回率(Recall)以及F1值作为评价指标来评价方法的优劣，评价指标的计算分别如公式(5-1)、公式(5-2)和公式(5-3)所示。

所有实验基于统一的实验环境，具体环境配置如表1所示。

表1实验环境配置

3.1心梗数据的实体识别实验

本发明实验数据为从HDO、KEGG、CTD和Wikipedia获取的心梗词汇，以及从PubMed网站上的获取的心梗医学文本。经过处理得到1343个实体和1526个三元组；同时将获取的实体在相应医学数据中的术语名称、类别以及同义名称存储到心梗词库中。目的是识别其中疾病、化学药品、基因和蛋白质等四种实体。

3.1.1数据预处理

由于本发明研究的心梗医学文本来源于PubMed医学文献摘要，因此本发明使用在PubMed文献中被广泛使用的医学主题词表(Medical subject heading,MeSH)和通用蛋白质知识库(Universal Protein Knowledgebase,UniProtKB)作为标注词典，预处理步骤如下：

Step 1:本次实验中模型的输入样本以文档为单位，由于PubMedBERT模型的最大输入长度为512(不包括[CLS]与[SEP])，采用NLTK对文档进行分词处理，在分词后对超出最大长度的部分进行截断。

Step 2:为了防止由于词形不同导致实体标注时实体名称与词典无法匹配，采用词形还原工具NLTK将单词或者词组转换成最基本的形式。

Step 3:根据词典中实体的字符个数进行排序，在加载词典时优先选择字符个数更多的实体，防止短实体对长实体的重复标注。然后编写Python脚本分别遍历词典中的疾病、化学药品、基因、蛋白质类别的实体名称，根据“连续且完整”的匹配要求，将该实体名称与文本进行匹配，匹配到的实体根据其类别以BIO三位标注法进行标注，比如对于“clopidogrel bisulfate”这个化学药品实体，文本中必须包含连续且完整的“clopidogrel bisulfate”词组，才能进行标注，若文本中存在词典词组相应的首字母缩写形式也作为匹配成功的实体进行标注，标注完成后该词组不再参与下一轮实体匹配。

Step 4:在标注完成后，由于部分样本中的实体存在其他变形而与词典匹配失败，被错误标注成了“O”，导致样本中实体标注最多的有40个，最少的只有2个。为了提高数据集的质量，根据每个样本中包含的实体数目对样本进行排序，选取前50％的样本作为训练数据，其中训练集、验证集和测试集的划分比例为4:1:1，另外50％的样本作为待识别的心梗数据用于发现新的实体。

3.1.2实验参数设置

本次实验采用早停法进行样本迭代，将早停轮次设置成10，即模型停止训练的条件为连续10个epoch没有获得更好的模型。由于图注意力层使用单个样本的共指图来更新节点，因此将批处理样本数目设置为1，实验主要参数设置如表2所示。

表2基于字词融合表示与图注意力网络的实体识别模型参数设置

3.1.3实验结果分析

通过对不同模块进行组合，可以得到多个模型，将这些模型应用于处理好的心梗训练数据进行训练和验证，采用5折交叉验证法进行实验，并取5次实验结果的平均值作为最终实验结果，最终实验结果如表3所示。

表3心梗数据实体识别实验结果

从实验结果可以看出，BiLSTM-CRF模型的效果相对较差，单独引入字词融合表示后，M7相较于M1的F1值提高了8.07％。单独引入图注意力机制后，M2相较于M1的F1值提高了0.44％。同时引入字词融合表示和图注意力机制后，本发明提出的模型M8的P、R、F1值分别达到了75.21％、76.56％、75.88％，实体识别效果最好。

为了更直观的说明不同模块的加入对模型实体识别效果的影响，如图3所示，展示了在心梗数据的实体识别实验中，控制是否加入PubMedBERT模块、CharCNN模块和GAT模块对模型F1值的影响。

下面单独分析不同模块的使用对实验效果的影响。

在其他条件相同的情况下，使用PubMedBERT词嵌入的模型实验效果要明显优于未使用PubMedBERT词嵌入的模型，本发明认为其原因是PubMedBERT预训练语言模型在经过大规模生物医学语料的学习后，能够更好的表征生物医学实体的语义，进而有效地提高了实体识别的效果。

在其他条件相同的情况下，使用字符级词嵌入的模型要优于未使用字符级词嵌入的模型，本发明认为这是因为CharCNN模型可以高效地学习单词的前缀、后缀等形态学特征信息，将这种单词内部信息和单词的上下文语义信息相结合，提高了模型的上下文编码能力。

在其他条件相同的情况下，使用GAT模块的模型在准确率和F1值上都有一定的提升，本发明认为其原因是通过图注意力机制融合共指图中相邻节点的特征表示能够减少上下文不一致预测的产生，进而提高实体识别的准确率。

综上所述，本发明提出的基于字词融合表示与图注意力网络的实体识别模型能够在一定程度上提升心梗数据的实体识别效果。可以用于待识别的心梗数据的实体识别任务。

(1)通过以上实验完成模型的对比和评估后，通过训练好的模型从待识别的心梗数据识别出10349个实体。为了优化预测结果，随机抽取200个预测结果中含有实体的样本进行人工核查，总结其中错误识别的情况，利用如下规则对预测结果进一步处理。

(2)样本中有某个词或者词组被识别为实体，且样本其他位置的该词或词组被识别成“O”，那么将该位置的预测结果改成相同类别的实体。

(3)若实体中左右括号数不一致，则根据括号进行扩展，使其括号平衡。然后判断括号中内容是否为括号外内容的缩写，若是则将其按括号内外拆分为两个实体，如“nuclear factor(”被扩展成“nuclear factor(NF)”，然后被拆分成“nuclear factor”和“NF”，若不是则不拆分。

若实体包含斜线“/”，则将该实体按“/”拆分成两个实体，如将“E2F-1/DP1”拆分为“E2F-1”和“DP1”。

(4)删除掉开头和结尾为标点符号的实体。

经过处理后，从识别的10349个实体中筛选出9268个实体，其中部分实体如表4所示。

表4心梗数据实体识别结果部分数据展示

3.2公开数据集的实体识别实验

为更好地检验模型的实体识别效果，在GENIA和BC5CDR这两个公开数据集上进行实验。

3.2.1GENIA数据集的实体识别实验

GENIA数据集基于语料库GENIA3.0.2构建而成，其中共有2000篇MEDLINE摘要。GENIA数据集的实体类别和分布情况如表5所示。

表5 GENIA数据集实体类别及分布

将GENIA数据集中的句子按照所属的文档编号归为单个样本，然后以4:1:1的比例进行训练集、验证集、测试集的划分。

本次实验所使用实验评价指标、实验环境和模型参数配置与心梗数据实体识别实验保持一致，实验结果分别如表6所示。

表6 GENIA数据集实体识别实验结果

图4展示了在GENIA数据集的实体识别实验中，不同模块的引入对模型F1值的影响。

从实验结果可以看出，单独引入字词融合表示后，M7相较于M1的F1值提高了7.76％。继续引入图注意力机制后，M8相较于M7的F1值提高了0.17％。本发明提出的模型M8的P、R、F1值分别达到了79.11％、81.13％、80.11％，实体识别效果最好，从图4也可以看出不同模块的引入均可以提高模型的F1值，该实验证明字词融合表示和图注意力机制的引入对模型效果提升作用的。

3.2.2 BC5CDR数据集的实体识别实验

(1)数据集与预处理

BC5CDR数据集由1500篇PubMed摘要组成，由医学主题词表和比较毒理基因组学数据库的专家注释员团队对其中的实体和关系进行手动注释得到，数据集包含4409种化学物质、5818种疾病和3116种化学物质-疾病相互作用。

编写Python转换脚本根据BC5CDR数据集中的实体提及起止位置和实体类别，采用BIO标注法将BC5CDR数据集转换成与GENIA数据集相同的格式。然后对BC5CDR数据集以4:1:1的比例进行训练集、验证集、测试集的划分。

本次实验所使用实验评价指标、实验环境和模型参数配置与心梗数据实体识别实验保持一致，实验结果如表7所示。

表7 BC5CDR数据集实体识别实验结果

图5展示了在BC5CDR数据集的实体识别实验中，不同模块的引入对模型F1值的影响。

从实验结果可以看出，本发明提出的模型M8的P、R、F1值分别达到了87.54％、88.20％、87.87％，实体识别效果最好。模型在BC5CDR数据集上F1值显著高于心梗数据和GENIA数据集，本发明认为其原因一方面可能是因为BC5CDR数据集的实体类别较少，只有化学药品和疾病两类实体，因此分类效果更好。另一方面可能是因为BC5CDR数据集中疾病和化学药品实体的标注更符合MeSH中的规范化概念名称，因此更易进入PubMedBERT词汇表中，从而避免被分成多个子词，因此具有更好的特征表示。

综上所述，本发明提出的模型在心梗数据、GENIA数据集和BC5CDR数据集中的F1值分别达到了75.88％、80.11％、87.87％，均优于其他对比模型，可以说明本发明提出的基于字词融合表示与图注意力网络的实体识别模型对实体识别有提升的效果。另外，相较于心梗数据上的实验结果，在公开数据及上的各项实验指标都要更高，认为其原因是GENIA数据集和BC5CDR数据集的作为黄金标准(Gold Standard)数据集，其数据集标注的准确度要高于本发明标注的心梗数据，训练出来的模型性能更强。

应当注意，本发明的实施方式可以通过硬件、软件或者软件和硬件的结合来实现。硬件部分可以利用专用逻辑来实现；软件部分可以存储在存储器中，由适当的指令执行系统，例如微处理器或者专用设计硬件来执行。本领域的普通技术人员可以理解上述的设备和方法可以使用计算机可执行指令和/或包含在处理器控制代码中来实现，例如在诸如磁盘、CD或DVD-ROM的载体介质、诸如只读存储器(固件)的可编程的存储器或者诸如光学或电子信号载体的数据载体上提供了这样的代码。本发明的设备及其模块可以由诸如超大规模集成电路或门阵列、诸如逻辑芯片、晶体管等的半导体、或者诸如现场可编程门阵列、可编程逻辑设备等的可编程硬件设备的硬件电路实现，也可以用由各种类型的处理器执行的软件实现，也可以由上述硬件电路和软件的结合例如固件来实现。

以上所述，仅为本发明的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等，都应涵盖在本发明的保护范围之内。

Claims

1.一种基于字词融合表示与图注意力网络的心梗实体识别方法，其特征在于，所述基于字词融合表示与图注意力网络的心梗实体识别方法包括：

2.如权利要求1所述基于字词融合表示与图注意力网络的心梗实体识别方法，其特征在于，所述基于字词融合表示与图注意力网络的心梗实体模型包括：

字词融合层、上下文编码层、图注意力层、条件随机场层；

3.如权利要求1所述基于字词融合表示与图注意力网络的心梗实体识别方法，其特征在于，所述基于字词融合表示与图注意力网络的心梗实体识别方法包括以下步骤：

4.如权利要求3所述基于字词融合表示与图注意力网络的心梗实体识别方法，其特征在于，所述步骤一中，对获取的待识别的心梗数据进行预处理包括：

5.如权利要求3所述基于字词融合表示与图注意力网络的心梗实体识别方法，其特征在于，所述步骤二中，对构建的基于字词融合表示与图注意力网络的心梗实体模型进行训练包括：

(7)重复步骤(2)至步骤(6)，直到网络收敛；

6.如权利要求5所述基于字词融合表示与图注意力网络的心梗实体识别方法，其特征在于，所述步骤(2)中，根据训练集中的每一个样本构建相应的共指关系图包括：

7.如权利要求6所述基于字词融合表示与图注意力网络的心梗实体识别方法，其特征在于，所述样本的共指关系图如下：

G＝(V，A)；

其中V表示文本中所有单词的节点集合，A表示邻接矩阵。

8.一种计算机设备，其特征在于，所述计算机设备包括存储器和处理器，所述存储器存储有计算机程序，所述计算机程序被所述处理器执行时，使得所述处理器执行如权利要求1-7任意一项所述基于字词融合表示与图注意力网络的心梗实体识别方法如下步骤：

9.一种计算机可读存储介质，存储有计算机程序，所述计算机程序被处理器执行时，使得所述处理器执行如权利要求1-7任意一项所述基于字词融合表示与图注意力网络的心梗实体识别方法如下步骤：

10.一种信息数据处理终端，其特征在于，所述信息数据处理终端用于执行如权利要求1-7任意一项所述基于字词融合表示与图注意力网络的心梗实体识别方法。