CN114564959B

CN114564959B - 中文临床表型细粒度命名实体识别方法及系统

Info

Publication number: CN114564959B
Application number: CN202210041524.XA
Authority: CN
Inventors: 周雪忠; 杨扩; 邹群盛; 程闯; 舒梓心
Original assignee: Beijing Jiaotong University
Current assignee: Beijing Jiaotong University
Priority date: 2022-01-14
Filing date: 2022-01-14
Publication date: 2024-07-05
Anticipated expiration: 2042-01-14
Also published as: CN114564959A

Abstract

本发明提供一种基于中文临床表型细粒度命名实体识别方法及系统，属于临床病历信息处理技术领域，通过自然语言预训练模型BERT进行临床文本的字符级嵌入特征抽取；利用双向长短词记忆模型BiLSTM对字符级嵌入特征和临床文本的序列特征进行整合并进行特征编码，得到标签；利用条件随机场CRF进行标签的解码预测，得到命名实体识别结果。本发明建立了用于细粒度命名实体实验的临床细粒度表型实体标准数据集，其区分了阴性症状和阳性症状，为临床分析提供更为精确的结构化数据。

Description

中文临床表型细粒度命名实体识别方法及系统

技术领域

本发明涉及临床病历信息处理技术领域，具体涉及一种中文临床表型细粒度命名实体识别方法及系统。

背景技术

中文临床电子病历(Chinese Electronic Medical Records,CEMRs)作为重要临床数据，以文本或半结构化的形式记录了患者的症状体征、既往史及诊断等信息。因此，结构化地提取病历文本中的信息对于后续临床数据分析尤其重要，其中命名实体识别(NamedEntity Recognition,NER)是关键技术之一。中文临床病历命名实体识别是指利用人工智能、数据挖掘等计算机技术，通过对临床电子病历数据进行训练和学习，构建实体抽取模型。这种模型可以自动地从病历文本中提取患者的表型实体，通常包含症状、疾病诊断、检查、检验指标等医学实体。

目前已有的中文临床病历NER方法与技术如下：

目前的表型谱抽取方法以机器学习，尤其是其中近年来取得较大进展的深度学习方法为主。原旎等人分别提出了基于词嵌入Word2Vec和基于网络嵌入Node2Vec的方法构建现病史特征，并使用基于CRF和结构化支持向量机的方法进行现病史病历症状表型命名实体识别研究。Zhang等人针对中文特点提出Lattice LSTM模型，同时处理中文文本中的字和词的特征。近期，Devlin等人提出了一种预训练的双向语言模型，并在许多NLP任务中表现出色。

在临床领域，已经形成一些基于规则的方法用于否定表达的检测。例如，Chapman等人开发了NegEx系统来识别叙述性医学报告中对症状和疾病的否定。Auerbuch等人开发了一种算法来自动学习临床病历中的负面情景模式。该算法利用信息增益学习上下文模式。Morante和Daelemans开发了一种两阶段的方法来检测生物医学文献中否定的范围。

由于中文形式的复杂性和缺乏词边界问题，现有中文命名实体识别方法的准确性相对较低。此外，现有的命名实体识别方法大多基于粗粒度数据集，因此在提取临床信息时，阴性症状和阳性症状没有体现出区别。事实上，症状是疾病的主观指征，准确提取症状及其相应的持续时间对于临床分析非常重要。例如，在电子病历中有一句话：“患者9天前出现发热、咳嗽，无胸闷、胸痛等不适。”。其中，“发热”和“咳嗽”是阳性症状，这意味着患者确实有这些症状；而“无胸闷、胸痛等不适”是阴性症状，意味着患者没有“胸闷”和“胸痛”的症状。如果只进行症状级的抽取，则模型会提取“发热”、“咳嗽”、“胸闷”和“胸痛”作为症状用于临床分析，对分析结果造成误导。

发明内容

本发明的目的在于提供一种充分利用中文病历文本中的全局和局部信息及实体标签之间的依赖关系，能够区分阴阳性症状，为临床分析提供准确的结构化数据的中文临床表型细粒度命名实体识别方法及系统，以解决上述背景技术中存在的至少一项技术问题。

为了实现上述目的，本发明采取了如下技术方案：

一方面，本发明提供一种中文临床表型细粒度命名实体识别方法，包括：

通过自然语言预训练模型BERT进行临床文本的字符级嵌入特征抽取；

利用双向长短词记忆模型BiLSTM对字符级嵌入特征和临床文本的序列特征进行整合并进行特征编码，得到标签；

利用条件随机场CRF进行标签的解码预测，得到命名实体识别结果。

优选的，自然语言预训练模型BERT的输入数据为患者的临床病历文本序列，它使用双向Transformer捕获文本中的上下文信息；在进行训练时，BERT会随机掩盖部分字信息，通过对掩盖信息的预测完成上下文的学习。

优选的，通过BERT模型对患者的临床病历文本进行字符嵌入表示，得到病历文本每个字的字符级嵌入向量特征。

优选的，双向长短词记忆模型BiLSTM，对于字符级嵌入特征，分别以从左到右和从右到左的方向得到字符嵌入特征的潜在表示，通过将两个方向的特征的潜在表示进行融合，得到每个字符隐藏层表示。

优选的，将隐藏层表示按照句子中每个字的顺序排列，得到句子的向量序列，句子的向量序列对应于一个标注序列，基于所有可能的标注序列的集合得到用于训练条件随机场CRF的损失函数。

优选的，在CRF层中，使用维特比算法得到最优的标签序列，得到的标签序列就是对于临床病历文本的最优命名实体标注结果。

第二方面，本发明提供一种中文临床表型细粒度命名实体识别系统，包括：

提取模块，用于通过自然语言预训练模型BERT进行临床文本的字符级嵌入特征抽取；

编码模块，用于利用双向长短词记忆模型BiLSTM对字符级嵌入特征和临床文本的序列特征进行整合并进行特征编码，得到标签；

解码模块，用于利用条件随机场CRF进行标签的解码预测，得到命名实体识别结果。

第三方面，本发明提供一种计算机设备，包括存储器和处理器，所述处理器和所述存储器相互通信，所述存储器存储有可被所述处理器执行的程序指令，所述处理器调用所述程序指令执行如上所述的中文临床表型细粒度命名实体识别方法。

第四方面，本发明提供一种电子设备，包括存储器和处理器，所述处理器和所述存储器相互通信，所述存储器存储有可被所述处理器执行的程序指令，所述处理器调用所述程序指令执行如上所述的中文临床表型细粒度命名实体识别方法。

第五方面，本发明提供一种计算机可读存储介质，其存储有计算机程序，所述计算机程序被处理器执行时实现如上所述的中文临床表型细粒度命名实体识别方法。

本发明有益效果：建立了用于细粒度命名实体实验的临床细粒度表型实体标准数据集，其区分了阴性症状和阳性症状，为临床分析提供更为精确的结构化数据。

本发明附加的方面和优点将在下面的描述中部分给出，这些将从下面的描述中变得明显，或通过本发明的实践了解到。

附图说明

为了更清楚地说明本发明实施例的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例所述的中文临床表型细粒度命名实体识别方法流程框架图。

具体实施方式

下面详细叙述本发明的实施方式，所述实施方式的示例在附图中示出，其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过附图描述的实施方式是示例性的，仅用于解释本发明，而不能解释为对本发明的限制。

本技术领域技术人员可以理解，除非另外定义，这里使用的所有术语(包括技术术语和科学术语)具有与本发明所属领域中的普通技术人员的一般理解相同的意义。

还应该理解的是，诸如通用字典中定义的那些术语应该被理解为具有与现有技术的上下文中的意义一致的意义，并且除非像这里一样定义，不会用理想化或过于正式的含义来解释。

本技术领域技术人员可以理解，除非特意声明，这里使用的单数形式“一”、“一个”、“所述”和“该”也可包括复数形式。应该进一步理解的是，本发明的说明书中使用的措辞“包括”是指存在所述特征、整数、步骤、操作、元件和/或组件，但是并不排除存在或添加一个或多个其他特征、整数、步骤、操作、元件和/或它们的组。

在本说明书的描述中，参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。而且，描述的具体特征、结构、材料或者特点可以在任一个或多个实施例或示例中以合适的方式结合。此外，在不相互矛盾的情况下，本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。

为便于理解本发明，下面结合附图以具体实施例对本发明作进一步解释说明，且具体实施例并不构成对本发明实施例的限定。

本领域技术人员应该理解，附图只是实施例的示意图，附图中的部件并不一定是实施本发明所必须的。

实施例1

本实施例1提供一种中文临床表型细粒度命名实体识别系统，该系统包括：

本实施例1中，利用上述的系统，实现了中文临床表型细粒度命名实体识别方法，该方法包括：

自然语言预训练模型BERT的输入数据为患者的临床病历文本序列，它使用双向Transformer捕获文本中的上下文信息；在进行训练时，BERT会随机掩盖部分字信息，通过对掩盖信息的预测完成上下文的学习。具体的，BERT是一种预训练语言表示模型，它使用双向Transformer捕获文本中的上下文信息。在进行训练时，BERT会随机掩盖部分字信息，一般掩盖的信息占总体的15％，通过对掩盖信息的预测完成上下文的学习。相对于word2vec和one-hot等词向量模型，BERT模型构建的字向量更注重语义变化，即同一个字在不同语境之中向量表示也不同。最终，通过BERT模型对患者的临床病历文本进行字符嵌入表示，得到病历文本每个字的字符级嵌入向量特征。

其中，通过BERT模型对患者的临床病历文本进行字符嵌入表示，得到病历文本每个字的字符级嵌入向量特征。

双向长短词记忆模型BiLSTM，对于字符级嵌入特征，分别以从左到右和从右到左的方向得到字符嵌入特征的潜在表示，通过将两个方向的特征的潜在表示进行融合，得到每个字符隐藏层表示。具体的，双向长短词记忆模型BiLSTM在自然语言处理任务中常被用来建模文本的上下文信息，其是由前向LSTM(Long Short-Term Memory，长短词记忆模型)与后向LSTM组合而成。相比于LSTM，BiLSTM可以更好的捕捉双向的语义依赖。

对于BERT层得到的字符嵌入特征e₁,e₂,...,e_n，其中e_i表示BERT对c_i的字符级嵌入，c_i是病历文本序列c₁,c₂,...,c_n中的第i个字符，BiLSTM分别从左到右和从右到左的方向得到以上字符嵌入特征的潜在表示，即和通过将两个方向的特征融合，可以得到每个字符隐藏层h_i，如下：

将隐藏层表示按照句子中每个字的顺序排列，得到句子的向量序列，句子的向量序列对应于一个标注序列，基于所有可能的标注序列的集合得到用于训练条件随机场CRF的损失函数。

在CRF层中，使用维特比算法得到最优的标签序列，得到的标签序列就是对于临床病历文本的最优命名实体标注结果。

具体的，在预测序列标签的部分，当标签彼此独立时，一种简单有效的策略是：直接将BERT得到的字符隐藏层状态和预测分类层进行连接，给出预测标签。但是表型实体通常由几个字组成，这意味着当前标签与其上下文标签存在一定关联。例如，在CoNLL-2003任务中，I-ORG(即组织机构实体ORG中间部分)不能跟在B-PER(即实体PER的头部)或O(即非实体)之后。条件随机场CRF是一种常用于命名实体识别的判别模型，其通过全局归一化克服了标签偏性问题。同时，CRF还可以通过添加一些约束以避免错误的预测。

对于具有n个字的句子，将h_i定义为句子中第i个字符的隐藏层表示，h＝h₁,h₂,...,h_n是句子的向量序列，y＝y₁,y₂,...,y_n是h的标注序列，Y(h)是所有可能的标注序列的集合。

综上，本实施例1中，通过不同粒度的数据集进行训练学习，使模型能够自动地、准确地从病历文本中提取患者的表型实体，并且能够区分阴阳性症状，为临床分析提供更为精确的结构化数据。

实施例2

本实施例2中，提供一种基于中文临床病历的细粒度表型命名实体识别方法Phenonizer，如下图1所示。在本方法框架，首先通过自然语言预训练模型BERT进行临床文本的字符级嵌入特征抽取，再利用双向长短词记忆模型BiLSTM对字符级特征和文本序列特征进行整合并进行特征编码，最后利用条件随机场CRF进行标签的解码预测。

本实施例2中，Phenonizer技术框架共包含三层文本信息处理模块，具体流程阐述如下：

1)基于BERT层进行字符级嵌入表示

自然语言预训练模型BERT方法的输入数据为患者的临床病历文本序列。

BERT是一种预训练语言表示模型，它使用双向Transformer捕获文本中的上下文信息。在进行训练时，BERT会随机掩盖部分字信息，一般掩盖的信息占总体的15％，通过对掩盖信息的预测完成上下文的学习。相对于word2vec和one-hot等词向量模型，BERT模型构建的字向量更注重语义变化，即同一个字在不同语境之中向量表示也不同。最终，通过BERT模型对患者的临床病历文本进行字符嵌入表示，得到病历文本每个字的字符级嵌入向量特征。

2)以字符级嵌入为输入进行BiLSTM层编码

BiLSTM层对BERT层得到的字符嵌入向量进行编码。

双向长短词记忆模型BiLSTM在自然语言处理任务中常被用来建模文本的上下文信息，其是由前向LSTM(Long Short-Term Memory，长短词记忆模型)与后向LSTM组合而成。相比于LSTM，BiLSTM可以更好的捕捉双向的语义依赖。

3)基于条件随机场CRF层进行解码标签解码

在预测序列标签的部分，当标签彼此独立时，一种简单有效的策略是：直接将BERT得到的字符隐藏层状态和预测分类层进行连接，给出预测标签。但是表型实体通常由几个字组成，这意味着当前标签与其上下文标签存在一定关联。例如，在CoNLL-2003任务中，I-ORG(即组织机构实体ORG中间部分)不能跟在B-PER(即实体PER的头部)或O(即非实体)之后。条件随机场CRF是一种常用于命名实体识别的判别模型，其通过全局归一化克服了标签偏性问题。同时，CRF还可以通过添加一些约束以避免错误的预测。

对于具有n个字的句子，将h_i定义为句子中第i个字符的隐藏层表示，h＝h₁,h₂,...,h_n是句子的向量序列，y＝y₁,y₂,...,y_n是h的标注序列，Y(h)是所有可能的标注序列的集合。于是，可以定义损失函数，如下：

Y(h)中共有N个可能的标注序列，S_i表示第i个标注序列的分数。h_i,yi对应于从BiLSTM层获得的标注为y_i的第i个字符。T是转移矩阵，其中t_p，q表示从标签p转移到标签q的分数。在训练过程中，对模型参数进行更新以不断减少损失。于是，可以获得分值最高的标注序列，表示如下：

在CRF层中，使用维特比(Viterbi)算法来解决优化问题并得到最优的标签序列。这个标签序列就是对于临床病历文本，整个模型Phenonizer给出的最优命名实体标注结果。

实验验证：

1)基准数据集

本实施例2中，使用了三个用于中文临床命名实体识别的基准数据集TCM-CV19，TCM-HN和TCM-HB。如表1所示，这三个数据集基于临床病例文本，由中医专业人员进行细粒度的手工标注而形成的。

表1基准数据集中各类实体数量分布

2)粗粒度和细粒度的实体抽取实验对比

阴性症状和阳性症状的区分提取是本技术的重点。迄今为止，大多数现有研究都仅仅关注粗粒度的实体抽取。在本实验中，基于TCM-CV19数据集，构建了区分阴阳性症状以及不区分阴阳性症状的两个子数据集，其目的是对比本技术框架在这两种情况下的性能。这两个数据集分别命名为Non-Negation(NonNeg)和WithNegation(WithNeg)。其中，NonNeg是症状级别的数据集，而WithNeg是区分阴阳性症状的数据集。在训练部分，我们在两个数据集上分别训练了具有相同结构和参数的模型，称为退化模型(Degraded)和正常模型(Normal)，最后我们在WithNeg数据集测试并对比两种模型的性能。

为了评价方法的性能，采用了准确率、召回率和F1值作为实验的评价指标，实验结果如下表2所示：

表2命名实体识别实验结果对比

一方面，无论是退化模型还是正常模型，本实施例中Phenonizer方法比现有的基线方法在准确率、召回率和F1-score上都有更好的预测性能。另一方面，从结果可以看到，退化模型的召回率几乎保持不变，但精确率显著下降。召回率高于0.9，这表明大多数的阳性症状已经被退化模型正确识别。精确度下降至约0.6，这是因为退化模型没有考虑到阴性症状的前缀或后缀，从而导致将阴性症状识别为阳性症状，而这正是临床分析所不希望看到的。

因此，如果NER模型对症状的识别粒度仅停留在症状的级别，则每份中文临床病历的结构化结果中都包含大量错误的阳性症状，这将误导临床分析的结果。

3)模型的泛化性能

为了评估模型相对于不同数据集(来自不同医院的相似数据)的泛化性能，本节使用TCM-HN数据作为训练集和验证集来训练模型，TCM-HB作为测试集。数据设置方面，将TCM-HN数据按3:1的比例分为训练集和验证集，然后将所有TCM-HB作为异源测试集。由于数据来自不同的医院，因此标注的实体标签集略有不同。在实验过程中，在两个数据集中选择了相同的标签(阳性症状、阴性症状和舌脉)。

实验结果如下表3所示：

表3命名实体识别泛化能力评估实验结果

从上表可以看出，各模型在异源数据集上的迁移能力较差，但相比于基线方法，Phenonizer依旧获得了最好的预测性能。此外，从实验结果发现Phenonizer的准确率未达到最优。可能的原因是Phenonizer强大的表型实体抽取能力使其识别出TCM-HB中可能被遗漏的正确实体(此类实体在TCM-HN是正确的，但对于TCM-HB来说可有可无，故未被完整标注)，以致在评估性能时，Phenonizer的准确率未达到最优。

综上，本实施例2所述的中文临床表型细粒度命名实体识别方法，首先通过自然语言预训练模型BERT进行临床文本的字符级嵌入特征抽取，再利用双向长短词记忆模型BiLSTM对字符级特征和文本序列特征进行整合并进行特征编码，最后利用条件随机场CRF进行标签的解码预测；将BERT、BiLSTM和CRF等结合，充分利用中文病历文本中的全局和局部信息及实体标签间的依赖关系，在构建的标准数据集上取得了优异的表型实体识别性能，并能准确地识别并区分阴阳性症状。

实施例3

本发明实施例3提供一种电子设备，包括存储器和处理器，所述处理器和所述存储器相互通信，所述存储器存储有可被所述处理器执行的程序指令，所述处理器调用所述程序指令执行中文临床表型细粒度命名实体识别方法，该方法包括如下流程步骤：

实施例4

本发明实施例4提供一种计算机可读存储介质，其存储有计算机程序，所述计算机程序被处理器执行时实现中文临床表型细粒度命名实体识别方法，该方法包括如下流程步骤：

实施例5

本发明实施例5提供一种计算机设备，包括存储器和处理器，所述处理器和所述存储器相互通信，所述存储器存储有可被所述处理器执行的程序指令，所述处理器调用所述程序指令执行中文临床表型细粒度命名实体识别方法及系统，该方法包括如下步骤：

本领域内的技术人员应明白，本发明的实施例可提供为方法、系统、或计算机程序产品。因此，本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

上述虽然结合附图对本发明的具体实施方式进行了描述，但并非对本发明保护范围的限制，所属领域技术人员应该明白，在本发明公开的技术方案的基础上，本领域技术人员在不需要付出创造性劳动即可做出的各种修改或变形，都应涵盖在本发明的保护范围之内。

Claims

1.一种中文临床表型细粒度命名实体识别方法，其特征在于，包括：

利用条件随机场CRF进行标签的解码预测，得到命名实体识别结果；

自然语言预训练模型BERT的输入数据为患者的临床病历文本序列，它使用双向Transformer捕获文本中的上下文信息；在进行训练时，BERT会随机掩盖部分字信息，通过对掩盖信息的预测完成上下文的学习；

通过BERT模型对患者的临床病历文本进行字符嵌入表示，得到病历文本每个字的字符级嵌入向量特征；

双向长短词记忆模型BiLSTM，对于字符级嵌入特征，分别以从左到右和从右到左的方向得到字符嵌入特征的潜在表示，通过将两个方向的特征的潜在表示进行融合，得到每个字符隐藏层表示；

将隐藏层表示按照句子中每个字的顺序排列，得到句子的向量序列，句子的向量序列对应于一个标注序列，基于所有可能的标注序列的集合得到用于训练条件随机场CRF的损失函数；

2.一种中文临床表型细粒度命名实体识别系统，其特征在于，包括：

解码模块，用于利用条件随机场CRF进行标签的解码预测，得到命名实体识别结果；

其中，

自然语言预训练模型BERT的输入数据为患者的临床病历文本序列，它使用双向Transformer捕获文本中的上下文信息；在进行训练时，BERT会随机掩盖部分字信息，通过对掩盖信息的预测完成上下文的学习；通过BERT模型对患者的临床病历文本进行字符嵌入表示，得到病历文本每个字的字符级嵌入向量特征；双向长短词记忆模型BiLSTM，对于字符级嵌入特征，分别以从左到右和从右到左的方向得到字符嵌入特征的潜在表示，通过将两个方向的特征的潜在表示进行融合，得到每个字符隐藏层表示；将隐藏层表示按照句子中每个字的顺序排列，得到句子的向量序列，句子的向量序列对应于一个标注序列，基于所有可能的标注序列的集合得到用于训练条件随机场CRF的损失函数；在CRF层中，使用维特比算法得到最优的标签序列，得到的标签序列就是对于临床病历文本的最优命名实体标注结果。

3.一种计算机设备，包括存储器和处理器，所述处理器和所述存储器相互通信，所述存储器存储有可被所述处理器执行的程序指令，所述处理器调用所述程序指令执行如权利要求1所述的中文临床表型细粒度命名实体识别方法。

4.一种电子设备，其特征在于，包括存储器和处理器，所述处理器和所述存储器相互通信，所述存储器存储有可被所述处理器执行的程序指令，所述处理器调用所述程序指令执行如权利要求1所述的中文临床表型细粒度命名实体识别方法。

5.一种计算机可读存储介质，其特征在于，其存储有计算机程序，所述计算机程序被处理器执行时实现如权利要求1所述的中文临床表型细粒度的命名实体识别方法。