CN112597774B

CN112597774B - 中文医疗命名实体识别方法、系统、存储介质和设备

Info

Publication number: CN112597774B
Application number: CN202011468199.2A
Authority: CN
Inventors: 王红; 王正军; 杨杰; 王彩雨; 杨雪; 李刚; 滑美芳; 胡斌; 王吉华; 贾伟宽; 闫伟
Original assignee: Shandong Normal University
Current assignee: Micro Test Cloud Anhui Medical Information Co ltd
Priority date: 2020-12-14
Filing date: 2020-12-14
Publication date: 2023-06-23
Anticipated expiration: 2040-12-14
Also published as: CN112597774A

Abstract

本发明属于中文医疗命名实体识别技术领域，提供了一种中文医疗命名实体识别方法、系统、存储介质和设备。其中，中文医疗命名实体识别方法包括获取临床文本数据；将临床文本数据分别转换为医疗文本的字符嵌入表示、医学概念嵌入特征向量和跨语言中文嵌入表示并进行拼接，得到多元数据融合特征向量；将多元数据融合特征向量输入至基于多图的命名实体识别模型中，识别出中文医疗命名实体类型；基于多图的命名实体识别模型包括多图网络和LSTM‑CRF模型，多图网络用于接收以多元数据融合特征向量为节点构成的文本图，输出节点的最终状态并传送至LSTM‑CRF模型，由LSTM‑CRF模型输出识别结果。其提高了中文医疗命名实体识别准确性。

Description

中文医疗命名实体识别方法、系统、存储介质和设备

技术领域

本发明属于中文医疗命名实体识别技术领域，尤其涉及一种中文医疗命名实体识别方法、系统、存储介质和设备。

背景技术

本部分的陈述仅仅是提供了与本发明相关的背景技术信息，不必然构成在先技术。

命名实体识别是指识别自由文本中具有特定意义的实体，如人名、地名、专有名词等。医疗命名实体识别从医生的治疗记录中识别疾病、症状、治疗等实体。医疗命名实体识别是电子病历语义结构化的基础和关键，其任务是从电子病历的医疗文本中识别出不同的实体，如疾病、症状、治疗、药物、手术和解析部位等，为后续的关系抽取、实体连接、知识图谱构建等工作提供重要的支持。中文命名实体识别对临床实践和研究中具有广泛的实用价值，对其研究具有非常重要的意义。

在实现本公开的过程中，发明人发现现有技术中存在以下技术问题：

中文的医疗实体识别与英文的相比，存在诸多难点，挑战更大，目前未解决的难题更多。例如中文医疗文本具有予以提取不完整，分割错误和语义歧义等问题。具体来说，中文医疗文本语义信息，例如药物和临床疾病的诊断记录，很难提取完整，因为中文医疗文本的语义信息以不同的形式展现，例如字和词，如果仅采用基于字的分割来提取语义信息，虽然方法简单，并且不会出现单词边界划分错误，但是这种方法会缺失语义信息，也就是说，由于没有单词、位置、语法结构以及领域知识等其他类型的补充信息，可能会产生语义歧义。相反的，如果采用基于词的分割方式提取语义，很可能会产生分割错误，因为中文文本和英文文本不同，中文文本中词之间没有明显的分隔符。这种分割错误会级联地导致语义信息提取错误。比如“乙状结肠癌根治性切除术”，“奥沙利铂”等。如果没有医学领域知识的指导，对这些专业术语的分词变得非常困难。另外，很多中文词存在“同名异义或者异名同义”现象，即，同一个词，在不同上下文中的含义也可能不同。例如，“疾”字有“疾病”的意思也有“快”的意思，如果没有领域知识的指导，也可能会产生歧义。

发明内容

为了解决上述背景技术中存在的至少一项技术问题，本发明提供一种中文医疗命名实体识别方法、系统、存储介质和设备，其基于医学概念和跨语言，学习了一组紧凑的医学概念，作为隐藏语义与观察到的医学证据之间的桥梁，提取细粒度语义信息，减少多义词的歧义，结合跨语言知识迁移方法将高资源语言知识迁移到中文医疗文本中进行知识补充，以提高中文医疗命名实体识别的准确性。

为了实现上述目的，本发明采用如下技术方案：

本发明的第一个方面提供一种中文医疗命名实体识别方法。

在一个或多个实施例中，一种中文医疗命名实体识别方法，包括：

获取临床文本数据；

将临床文本数据分别转换为医疗文本的字符嵌入表示、医学概念嵌入特征向量和跨语言中文嵌入表示并进行拼接，得到多元数据融合特征向量；

将多元数据融合特征向量输入至基于多图的命名实体识别模型中，识别出中文医疗命名实体类型；

其中，基于多图的命名实体识别模型包括多图网络和LSTM-CRF模型，多图网络用于接收以多元数据融合特征向量为节点构成的文本图，输出节点的最终状态并传送至LSTM-CRF模型，由LSTM-CRF模型输出识别结果。

本发明的第二个方面提供一种中文医疗命名实体识别系统。

在一个或多个实施例中，一种中文医疗命名实体识别系统，包括：

数据获取模块，其用于获取临床文本数据；

融合特征模块，其用于将临床文本数据分别转换为医疗文本的字符嵌入表示、医学概念嵌入特征向量和跨语言中文嵌入表示并进行拼接，得到多元数据融合特征向量；

实体识别模块，其用于将多元数据融合特征向量输入至基于多图的命名实体识别模型中，识别出中文医疗命名实体类型；

本发明的第三个方面提供一种计算机可读存储介质。

在一个或多个实施例中，一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现如上述所述的中文医疗命名实体识别方法中的步骤。

本发明的第四个方面提供一种计算机设备。

在一个或多个实施例中，一种计算机设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现如上述所述的中文医疗命名实体识别方法中的步骤。

与现有技术相比，本发明的有益效果是：

(1)本发明引入实体词典，将语义嵌入到实体表示中，能够更好的理解句子中丰富的语法和语义信息；

(2)本发明学习了一组紧凑的医学概念，作为隐藏语义与观察到的医学证据之间的桥梁，提取细粒度语义信息，减少了多义词的歧义；

(3)本发明采用跨语言知识迁移方法，将高资源语言知识迁移到中文医疗文本中，进行知识补充，借助外部语言知识监督中文命名实体识别任务；

(4)本发明提取医疗文本的多粒度特征，融合单词序列和字符序列信息，从而给出更一致的信号，丰富单词的语义，提高了实体识别的准确性。。

本发明附加方面的优点将在下面的描述中部分给出，部分将从下面的描述中变得明显，或通过本发明的实践了解到。

附图说明

构成本发明的一部分的说明书附图用来提供对本发明的进一步理解，本发明的示意性实施例及其说明用于解释本发明，并不构成对本发明的不当限定。

图1是本发明实施例的中文医疗命名实体识别方法流程图；

图2是本发明实施例的字符嵌入表示生成流程图；

图3是本发明实施例的医学概念嵌入特征向量生成流程图；

图4是本发明实施例的跨语言中文嵌入表示生成流程图；

图5是本发明实施例的多元数据融合特征向量生成流程图；

图6是本发明实施例的文本图结构示意图；

图7是本发明实施例的中文医疗命名实体识别系统结构示意图；

图8是本发明实施例的不同类型实体的统计信息。

具体实施方式

下面结合附图与实施例对本发明作进一步说明。

应该指出，以下详细说明都是例示性的，旨在对本发明提供进一步的说明。除非另有指明，本文使用的所有技术和科学术语具有与本发明所属技术领域的普通技术人员通常理解的相同含义。

需要注意的是，这里所使用的术语仅是为了描述具体实施方式，而非意图限制根据本发明的示例性实施方式。如在这里所使用的，除非上下文另外明确指出，否则单数形式也意图包括复数形式，此外，还应当理解的是，当在本说明书中使用术语“包含”和/或“包括”时，其指明存在特征、步骤、操作、器件、组件和/或它们的组合。

实施例一

参照图1，本实施例的一种中文医疗命名实体识别方法，其包括：

S101：获取临床文本数据。

具体地，从电子病历中获取临床文本数据。电子病历为患者健康信息的集合，包括临床文本、药物记录、疾病诊断记录、生理指标、实验室结果、非书面记录(医学图像、心电图和录音等)、手术史，遗传病史和医疗费用等；根据电子病历纯文本文档中的内容，提取其实体内容以及对应的位置，实体类别包括：疾病和诊断、检查、检验、手术、药物、解剖部位。

S102：将临床文本数据分别转换为医疗文本的字符嵌入表示、医学概念嵌入特征向量和跨语言中文嵌入表示并进行拼接，得到多元数据融合特征向量。

在本实施例中，医学概念是指包含语义信息的观察到的临床事件的组合，是潜在空间中临床事件的一种密集表表示。

临床事件为电子病历中记录的项目，它的值来自电子病历数据集中的所有可能医疗实体的串联，其中包括所有可能的诊断，药物，实验室检查和程序。

本实施例包括1967名患者的病历记录。其记录内容为：疾病和诊断，检查(影像检查+造影+超声+心电图)，检验(在实验室进行的物理或化学检查)，手术，药物和解剖部位。其中，379例未标记的语料作为测试数据集对评估模型进行评估。在训练过程中，出于模型调优以及超参数选择的需求，我们随机抽取1200例作为训练数据，400例作为验证数据。图8显示了六种不同类型实体的统计信息。

具体地，将数据转换为具有不同形式的嵌入表示，采用基于BERT的预训练模型获得医疗文本的字符嵌入，其具体步骤包括，如图2所示：

首先将输入的医疗文本转换成字符向量的序列，用预训练模型BRET生成嵌入向量，将每一个字符嵌入到向量中。

此处需要说明的是，BRET模型为现有的网络结构模块，此处不再累述。

利用基于注意力机制的语义树获取医学概念嵌入特征，其具体步骤包括，如图3所示：

构造语义树，以Hownet作为知识库，为每个该概念提供语义解释，并构造一棵语义树，实现更细粒度的特征提取。

采用注意力机制获得医学概念嵌入表示，给定一个词，首先通过检索Hownet获得它的所有语义相似的单词

利用/>

表示单词w的语义相似单词的集合。然后通过注意力机制将每个单词/>

转化为向量/>

然后，在目标词w的多个语义相似单词上利用上下文词注意机制，构建嵌入表达，如公式(1)所示；

其中

表示词w的嵌入表达，l表示概念的个数，/>

表示每个词的注意分数。上下文注意的定义如公式(2)所示：

其中，w′_c是上下文嵌入，l表示语义相似词的个数,其中

表示第j个词w的语义相似词的嵌入表达。因为每个单词对应的语义相似词不止一个，因为我们采用平均法得到最终的语义嵌入，就是医学概念的嵌入表达，如公式(3)所示：

利用注意力机制将源语言单词翻译的多个目标语言单词嵌入到单词表示中，得到多元数据融合特征向量。如图4所示，多元数据融合特征向量的获取具体过程为：

采取特征迁移的方法，将高资源特征向低资源迁移。在迁移过程中，采用双语对齐实现双语之间的投影，通过这种方式，不同的语言可以进行知识的互补。首先根据语料库生成源语言(中文)词典，然后通过机器翻译，将源语言词典翻译成目标语言(英文)，将两部分合并形成平行双语词典，获得的高资源特征，通过注意力机制进行融合，即可实现特征的迁移采用双语词典作为中介，实现双语单词之间的投影。假设给定双语词典

其中，x_i和y_i表示词典中每一个词的词向量矩阵，通过注意力机制将目标语言中的单词表示成我们需要的嵌入表示。词向量表示如公式(4)所示。

其中l表示高资源单词的个数，y_j表示每个高资源单词嵌入表达，att(y_j)表示每个单词的注意，如公式(5)所示：

其中w′_c表示低资源的单词嵌入表达，

表示翻译的多个高资源单词嵌入表达。

在具体实施中，如图5所示，多元数据融合特征向量表达为：

S103：将多元数据融合特征向量输入至基于多图的命名实体识别模型中，识别出中文医疗命名实体类型。

本实施例的基于多图的命名实体识别模型构建具体步骤包括：

首先创建词典。根据临床文本中的实体类型，创造手术词典、疾病词典、解剖部位词典、药物词典、检验词典和基于临床文本实体类型的词典。

然后创建文本图，第一步，创建节点。节点有两类节点组成，分别是字符节点和词典节点。字符节点为句子中的每一个字符，我们用V_C如图6所示。词典节点由开始节点和结束节点组成，例如drug_s表示药物词典中的开始节点，drug_e表示药物词典中的结束节点。我们用V_S表示开始节点，V_e表示结束节点，如图6所示。第二步，创建边。同样也有两类不同的边，第一类为字符节点之间的边，我们用E来表示，图6中用黑色箭头表示；第二类字符节点与词典节点的之间的边，我们用L来表示，如图6所示。其中，第一类边可以用来指示字符之间的自然顺序。第二类边可以用来指示实体类型和范围。

用G表示多图结构，G＝(V，E，L)其中V表示不同的节点集合，E和L表示不同的边集合。其中V＝V_C∪V_s∪V_e，

其中l_c表示字符之间的连边，l_gi表示在文本内容中的实体的连边，m表示词典节点的个数。

将文本图输入多图网络，学习加权组合。节点的初始状态

定义如下：

其中W^c和W^bi是节点所代表的字符或者双字符的查找表。在字符节点的基础上，使用一个二元嵌入表W^bi，相同标签的边具有相同的权重。接下来，GRU更新隐藏状态。此传播网络的基本重现性为：

其中

是节点v在t时刻处的隐藏状态，A表示存储图结构信息的邻接矩阵，/>

是邻接矩阵A中节点v对应的行向量。W和U表示学习的参数。H是在时间步长(t-1)创建的状态矩阵。公式(10)～(13)来自相邻节点的信息和节点的当前隐藏状态结合起来计算时间步长t处的新隐藏状态。在t步之后，我们得到了节点v的最终状态/>

最后将GGNN的最终字符节点状态输入到LSTM-CRF中，使用双向LSTM从全局上下文中学习字符的隐藏表示。其LSTM网络学到的特征可以表示为h₁，h₂，h₃，...，h_n。LSTM网络的主要结构可以形式化地表示为：

i_t＝σ(W_i·[h_t-1，x_t]+b_i) (14)

f_t＝σ(W_f·[h_t-1，x_t]+b_f) (15)

o_t＝σ(W_o·[h_t-1，x_t]+b_o) (16)

h_t＝o_t·tanh(c_t) (20)

其中，x_t为输入向量，σ、tanh表示sigmod函数和双曲正切函数；W、b表示权重矩阵；i_t，f_t，o_t分别表示t时刻对应的输入门、忘记门和输出们。c_t表示t时刻获得的不同路径的单词序列和位置信息的状态；

表示tanh层创建的新候选值向量；h表示最后的输出。

在基于字符的命名实体识别任务中，需要考虑标签的依赖关系，例如，I-DRUG(药物实体的中间位置)标签后应跟I-DRUG标签或者E-DRUG(药物实体结束位置)标签，而I-DRUG标签不能跟B-DRUG标签或S-DRUG(单个)标签。因此，本实施例采用CRF解码字符的标签，CRF能够考虑到相邻标签的关系获得一个全局最优的标记序列。通常，CRF层由连接连续的输出层的线表示，并具有状态转移矩阵作为参数。通过这一层，我们可以有效地使用过去和将来的标签来预测当前标签，这类似于通过LSTM网络使用过去和将来的输入功能。此任务将CRF融合到LSTM模块中，对联合输出

进行处理，获得全局最优的标记序列。对于一个句子X＝{x₁，x₂，x₃，...，x_n}送入网络中训练，对于一个预测序列y＝{y₁，y₂，y₃，...，y_n}，则预测序列的总得分为：

对所有可能的序列路径进行归一化，产生关于输出序列y的概率分布，其中

表示全局特征向量。如公式(22)所示：

在训练过程中，最大化正确标签序列y*的对数概率，如公式(23)所示：

由公式(23)可知，采用句级似然函数的目的是生成正确的标签序列。在解码阶段，预测总得分最高的序列作为最优序列，如公式(24)所示：

本实施例引入实体词典，将语义嵌入到实体表示中，能够更好的理解句子中丰富的语法和语义信息；学习了一组紧凑的医学概念，作为隐藏语义与观察到的医学证据之间的桥梁，提取细粒度语义信息，减少了多义词的歧义；采用跨语言知识迁移方法，将高资源语言知识迁移到中文医疗文本中，进行知识补充，借助外部语言知识监督中文命名实体识别任务；提取医疗文本的多粒度特征，融合单词序列和字符序列信息，从而给出更一致的信号，丰富单词的语义，提高了实体识别的准确性。

实施例二

参照图7，本实施例提供了一种中文医疗命名实体识别系统，其包括：

数据获取模块，其用于获取临床文本数据；

本实施例的中文医疗命名实体识别系统中的各个模块，与实施例一中的中文医疗命名实体识别方法中的各个步骤一一对应，其具体实施过程相同，此处不再累述。

实施例三

本实施例提供了一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现如上述实施例一所述的中文医疗命名实体识别方法中的步骤。

实施例四

本实施例提供了一种计算机设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现如上述实施例一所述的中文医疗命名实体识别方法中的步骤。

本领域内的技术人员应明白，本发明的实施例可提供为方法、系统、或计算机程序产品。因此，本发明可采用硬件实施例、软件实施例、或结合软件和硬件方面的实施例的形式。而且，本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器和光学存储器等)上实施的计算机程序产品的形式。

本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的程序可存储于一计算机可读取存储介质中，该程序在执行时，可包括如上述各方法的实施例的流程。其中，所述的存储介质可为磁碟、光盘、只读存储记忆体(Read-Only Memory，ROM)或随机存储记忆体(RandomAccessMemory，RAM)等。

以上所述仅为本发明的优选实施例而已，并不用于限制本发明，对于本领域的技术人员来说，本发明可以有各种更改和变化。凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种中文医疗命名实体识别方法，其特征在于，包括：

获取临床文本数据；

其中，采用基于BERT的预训练模型，获得医疗文本的字符嵌入表示；利用基于注意力机制的语义树，获取医学概念嵌入特征向量；采用注意力机制将源语言单词翻译的多个目标语言单词嵌入到单词表示中，得到跨语言中文嵌入表示；

其中，基于多图的命名实体识别模型包括多图网络和LSTM-CRF模型，多图网络用于接收以多元数据融合特征向量为节点构成的文本图，输出节点的最终状态并传送至LSTM-CRF模型，由LSTM-CRF模型输出识别结果；

多元数据融合特征向量的获取具体过程为：采取特征迁移的方法，将高资源特征向低资源迁移；

在迁移过程中，采用双语对齐实现双语之间的投影，首先根据语料库生成中文源语言词典，然后通过机器翻译，将源语言词典翻译成英文目标语言，将两部分合并形成平行双语词典，获得的高资源特征，通过注意力机制进行融合，实现特征的迁移，采用双语词典作为中介，实现双语单词之间的投影；

假设给定双语词典

其中，x_i和y_i表示词典中每一个词的词向量矩阵，通过注意力机制将目标语言中的单词表示成需要的嵌入表示；词向量/>

表示为：

其中l表示高资源单词的个数，y_j表示每个高资源单词嵌入表达，att(y_j)表示每个单词的注意：

其中w_c′表示低资源的单词嵌入表达，

表示翻译的多个高资源单词嵌入表达。

2.如权利要求1所述的中文医疗命名实体识别方法，其特征在于，文本图中的节点有两类节点组成，分别是字符节点和词典节点，字符节点为句子中的每一个字符，词典节点由开始节点和结束节点组成。

3.如权利要求2所述的中文医疗命名实体识别方法，其特征在于，词典节点隶属于手术词典、疾病词典、解剖部位词典、药物词典、检验词典或基于临床文本实体类型的词典，这些词典根据临床文本中的实体类型得到。

4.如权利要求1所述的中文医疗命名实体识别方法，其特征在于，在所述LSTM-CRF模型中，采用双向LSTM从全局上下文中学习字符的隐藏表示，采用CRF解码字符的标签。

5.一种中文医疗命名实体识别系统，其特征在于，包括：

数据获取模块，其用于获取临床文本数据；

其中，采用基于BERT的预训练模型，获得医疗文本的字符嵌入表示；利用基于注意力机制的语义树，获取医学概念嵌入特征向量；用注意力机制将源语言单词翻译的多个目标语言单词嵌入到单词表示中，得到跨语言中文嵌入表示；

其中，假设给定双语词典

表示为：

其中w_c′表示低资源的单词嵌入表达，

表示翻译的多个高资源单词嵌入表达。

6.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，该程序被处理器执行时实现如权利要求1-4中任一项所述的中文医疗命名实体识别方法中的步骤。

7.一种计算机设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其特征在于，所述处理器执行所述程序时实现如权利要求1-4中任一项所述的中文医疗命名实体识别方法中的步骤。