CN112507717A

CN112507717A - 融合实体关键字特征的医疗领域实体分类方法

Info

Publication number: CN112507717A
Application number: CN202011482958.0A
Authority: CN
Inventors: 吕学强; 游新冬; 董志安
Original assignee: Beijing Information Science and Technology University
Current assignee: Beijing Information Science and Technology University
Priority date: 2020-12-16
Filing date: 2020-12-16
Publication date: 2021-03-16

Abstract

本申请公开了一种融合实体关键字特征的医疗领域实体分类方法，包括：文本向量化操作；特征提取；序列标注。本申请实施例提供的融合实体关键字特征的医疗领域实体分类方法，采用TF‑IDF辅助构建关键字表，将这些关键字作为特征输入模型，采用BERT模型进行文本向量化操作生成字向量，将字向量输入BILSTM‑CNN混合模型学习特征，再经过CRF层进行序列标注，能够实现医疗领域实体分类，且能够大大提高医疗领域实体分类的准确率、召回率和F1值。

Description

融合实体关键字特征的医疗领域实体分类方法

技术领域

本申请涉及文本处理技术领域，具体涉及一种融合实体关键字特征的医疗领域实体分类方法。

背景技术

大数据时代的到来为获取信息带来了便利，面对大量的信息，信息抽取可以帮助人们快速的从大量文档中获取有效的信息并对有效信息进行分析，因此信息抽取得到了广泛的应用。实体抽取是信息抽取中十分重要的内容，同时也是构建知识图谱、对话系统、机器翻译等的基础任务，近年来，随着机器学习、深度学习等方法也被广泛应用于实体抽取研究。智慧医疗的出现打破了传统医疗的禁锢，在互联网+医疗健康的背景下，人工智能应用于医疗健康领域是大势所趋，越来越多的学者开始从事医疗领域实体抽取、关系抽取等信息抽取研究。

在现有的实体抽取研究方法中，常常将数据处理为字符级或是词级，作为模型的输入部分。词级的数据往往是通过各类分词工具得到，错误的分词结果可能会导致错误的抽取结果，分词的准确性就会直接影响到实体抽取的准确性。而词性、词频、词长、依存句法分析等可以辅助进行实体抽取的特征也大多是基于词的，如果采用字符级的数据作为输入，则无法直接融入词级特征，而目前也鲜有可用于字符级的特征。同时，现有的实体抽取研究较少聚焦在特定领域数据的独特性上。

发明内容

本申请的目的是提供一种融合实体关键字特征的医疗领域实体分类方法。为了对披露的实施例的一些方面有一个基本的理解，下面给出了简单的概括。该概括部分不是泛泛评述，也不是要确定关键/重要组成元素或描绘这些实施例的保护范围。其唯一目的是用简单的形式呈现一些概念，以此作为后面的详细说明的序言。

根据本申请实施例的一个方面，提供一种融合实体关键字特征的医疗领域实体分类方法，包括：

文本向量化操作；

特征提取；

序列标注。

进一步地，所述文本向量化操作包括：经过BERT预训练语言模型将标注数据以及关键字特征转化为字向量。

进一步地，在所述文本向量化操作之前，所述方法还包括：采用TF-IDF辅助构建关键字。

进一步地，所述采用TF-IDF辅助构建关键字，包括：

构建停用词表；

计算词频；

计算逆文档频率；

计算TF-IDF值；

将得到的TF-IDF值按降序排列，提取出关键词；

从关键词中筛选出关键字。

进一步地，所述特征提取包括：将所述字向量输入BILSTM中进行处理，再将处理结果经过CNN层进一步处理，得到提取的特征。

进一步地，所述序列标注包括：将CNN层输出的结果输入到CRF层进行标注，得到标注序列。

进一步地，所述文本向量化操作，包括：

通过BERT预训练模型对输入的医疗领域实验数据进行嵌入操作，将输入的字符转化为向量；

句子嵌入；

定义位置信息进行位置嵌入，标记该字符在输入数据中所处的位置；

将嵌入生成的结果组合起来，得到BERT模型生成的向量。

进一步地，所述序列标注，包括：通过CRF模型使用动态规划算法、维特比算法得到最优标记序列，根据最优标记序列进行标注。

本申请实施例的其中一个方面提供的技术方案可以包括以下有益效果：

本申请实施例提供的融合实体关键字特征的医疗领域实体分类方法，能够实现医疗领域实体分类，且能够大大提高医疗领域实体分类的准确率、召回率和F1值。

本申请的其他特征和优点将在随后的说明书中阐述，并且，部分地从说明书中变得显而易见，或者，部分特征和优点可以从说明书中推知或毫无疑义地确定，或者通过实施本申请实施例了解。本申请的目的和其他优点可通过在所写的说明书、权利要求书、以及附图中所特别指出的结构来实现和获得。

附图说明

为了更清楚地说明本申请实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请中记载的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本申请一实施例中所采用的医疗领域实体分类模型结构示意图；

图2为本申请一实施例中所采用的LSTM整体结构图；

图3为本申请一实施例中所采用的BILSTM结构图。

具体实施方式

为了使本申请的目的、技术方案及优点更加清楚明白，下面结合附图和具体实施例对本申请做进一步说明。应当理解，此处所描述的具体实施例仅用以解释本申请，并不用于限定本申请。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

本技术领域技术人员可以理解，除非另外定义，这里使用的所有术语(包括技术术语和科学术语)，具有与本申请所属领域中的普通技术人员的一般理解相同的意义。还应该理解的是，诸如通用字典中定义的那些术语，应该被理解为具有与现有技术的上下文中的意义一致的意义，并且除非像这里一样被特定定义，否则不会用理想化或过于正式的含义来解释。

实体抽取是自然语言处理中的一项基础任务，基于实体抽取的医疗领域实体分类是医疗知识图谱构建的基础，现有的实体抽取方法鲜有基于字符级的特征。早期的实体识别方法一般由人工提取特征，主要包括基于规则的方法和基于统计的方法。通过构造规则模板进行实体识别的方法需要人工构造规则，且在面对复杂数据的数据时，难以达到较好的抽取效果。

深度学习是机器学习的一个重要的发展方向，是机器学习中十分重要的领域，因此，利用深度学习来解决NER(Name Entity Recognition)问题已经成为当前的一种重要趋势。与传统的实体识别方法相比，深度学习的最大的优势是它可以通过算法提取出处理过的数据的特征，而不需要通过人工的方法得到，且有较强的迁移能力。

近年来，运用深度学习方法进行医疗领域实体抽取的研究也逐渐增多。医疗领域实体抽取和通用领域相比，难点在于语料中的专业名词较多，待抽取实体较为复杂，因此在医疗实体抽取问题中多使用双向LSTM充分利用上下文信息以提高抽取准确性。

通过对国内外命名实体识别相关工作进行分析，可以发现，近年来在进行医疗实体抽取任务时，大多使用双向LSTM模型。还可以发现现有的实体抽取研究中鲜有基于字符级的特征，因此提出的KBLCC方法融合实体关键字特征、加入BILSTM模型进行医疗领域实体分类研究。

实体抽取是自然语言处理中的一项基础任务，基于实体抽取的医疗领域实体分类是医疗知识图谱构建的基础，现有的实体抽取方法鲜有基于字符级的特征。

本申请的一个实施例提出了一种融合实体关键字特征的医疗领域实体分类方法，简称KBLCC方法。

医疗领域实体分类模型

KBLCC方法将医疗领域实体分类问题转化为序列标注问题，构建医疗领域关键字表，提出一种融合实体关键字的医疗领域实体分类方法，抽取数据集中的检验指标、疾病、症状这三种实体，模型整体结构如图1所示。整个模型主要分为三个模块：

(1)BERT向量化模块：进行向量化操作，经过BERT预训练语言模型将标注数据以及关键字特征转化为字向量。

(2)BILSTM-CNN特征提取模块：将字向量输入BILSTM中进行处理，再将处理结果经过CNN层进一步处理，得到CNN层输出的结果即提取的特征。

(3)CRF序列标注模块：将CNN层输出的结果输入到CRF层进行标注，得到标注序列，从而实现医疗实体分类。

医疗实体关键字表

关键字又称保留字(keyword)往往是一篇文章的中心主旨，一句话中的重点，或是一个词汇中有代表性的关键信息，在自然语言处理任务中也经常会用到关键词或是关键字。聚焦医疗领域数据，研究医疗实体分类任务，通过观察、分析医疗领域数据，可以发现医疗领域数据中所要抽取的实体往往也都包含关键字信息，如表1中展示的数据示例所示，因此借助关键字信息辅助实体抽取任务。

表1 医疗领域数据

采用TF-IDF辅助构建关键字，考虑到关键字信息一般出现在关键词中，因此采用TF-IDF首先抽取医疗领域实体关键词，再通过关键词构建关键字。TF-IDF根据词在文中出现的次数，来评估一个词的重要程度。在使用TF-IDF来抽取关键词时，首先要构建停用词表，去除语料中无关紧要的标点符号和词语，接下来就需要计算词频即词语在文件中出现的次数，如公式(1)所示，其中N_k是词k在文本中出现的次数N是文本中词的个数，再根据大量医疗领域数据，计算逆文档频率(IDF)，计算方法如公式(2)所示，其中Y是语料文档总数Y_k是包含词k的文档数，最后计算TF-IDF值如公式(3)所示。将得到的TF-IDF值按降序排列，选择前800个作为提取出的关键词。接下来以人工的方法从抽取的关键词中筛选、构建了医疗领域关键字表，再将关键字作为特征，与字向量一起输入模型进行实体分类，部分关键字示例如表2所示。

TF-IDF_k＝TF_k*IDF_k (3)

表2 医疗实体关键字表

BERT向量化模块

BERT能够对句子中的语义信息进行识别，因此BERT模型生成的字向量包含着语境信息，这对医疗领域的实体抽取将会有很大的帮助，因此KBLCC方法采用BERT预处理模型生成字向量，提高生成的字向量的质量，以便达到更高的实体分类效果。

在实验过程中，输入序列X＝(x₁，x₂，x₃，...，x_n)，对每个序列最开始的位置添加“[CLS]”字符，用于存储整个输入序列的语义信息，再用“[SEP]”分隔、区分句子，在每个句子的末尾加上特殊字符“[SEP]”。使用BERT模型训练词向量，需要进行三个Embedding操作，它的输入向量分别是词嵌入、句子嵌入和位置嵌入。

(1)KBLCC方法的输入部分是字符级的数据，因此首先进行字嵌入，就是经过BERT预训练模型对输入的医疗领域实验数据进行Embedding操作，将输入的字符转化为向量。

(2)接下来是句子嵌入，需要区分输入实验数据为句子A或是句子B，对标记语料N中的s个句子按句子所在位置的奇偶性进行划分，如N＝{n₁，n₂，n₃，...，n_k，...，n_s}若句子所在位置k为奇数，将这句话中每个字向量的Segment Embeddings定义为E_A，如句子所在位置k为偶数，则定义为E_B。

(3)然后定义位置信息进行位置嵌入，标记该字符在输入数据中所处的位置。

(4)最后将这三个Embedding对应位置生成的结果组合起来，得到BERT模型生成的向量T＝(T₁，T₂，T₃，...，T_n)。

分别将语料中的字与输入的关键字特征通过BERT模型进行训练，生成字向量，作为BILSTM-CNN特征提取模型的输入部分。

BILSTM-CNN特征提取模块

LSTM(Long Short Term Memory)整体结构如图2所示，LSTM引入了门控结构，即遗忘门、输入门和输出门，通过门控结构实现了对信息的长期记忆，还可以实现信息的选择性记忆与遗忘。在此基础上提出的BILSTM(Bidirectional Long-Short Term Memory)模型，近年来广泛应用于各领域实体识别任务。

医疗领域数据上下文具有较强的逻辑性与连贯性，待抽取的医疗领域实体描述具有多样性，且某些实体较为复杂，在进行实体抽取的过程中往往需要利用上下文信息。BILSTM是由前向LSTM和后向LSTM组成的，结构如图3所示，前向LSTM能够记忆上文信息，而后向LSTM能够实现对下文信息的记忆，BILSTM能够更加充分发利用上下文信息，也因此，KBLCC方法采用双向LSTM模型进行特征提取，将各个位置输出的正向序列

和反向序列

在合并层进行拼接

得到完整序列。

CNN(Convolutional Neural Network)是前馈神经网络中的一种，卷积神经网络的关键就在于对输入数据进行卷积操作，对数据中的隐藏特征进行提取。BILSTM有着出色的利用上下文信息的能力，对处理长距离文本中的信息有更好的效果，而CNN更适合对局部特征进行提取。

KBLCC方法将BILSTM与CNN融合进行特征提取，在BILSTM层后加入四层CNN，卷积核尺寸为(5，256)维。BERT模型生成的向量T＝(T₁，T₂，T₃，...，T_n)，经过BILSTM层进行特征提取，BILSTM层输出的特征向量h＝(h₁，h₂，...，h_n-1，h_n)包含了丰富的上下文信息、初始标记信息、关键字特征信息以及输出标记信息，再将BILSTM输出的特征向量输入CNN提取局部特征，得到输出矩阵P_n*k＝(p₁，p₂，p₃，...，p_n)其中k为定义的标签个数，P_n*k＝(p₁，p₂，p₃，...，p_n)就是输入字的各个标签打分值，如p_ij为第i个字是第j个标签的打分值。但是仅依据打分值的高低进行预测，结果并不准确这就需要引入CRF模型。

CRF序列标注模块

CRF条件随机场(conditional random fields)用于词性标注、分词、命名实体识别等自然语言处理任务中，常与LSTM融合解决实体抽取问题。KBLCC方法引入CRF层进行序列标注，CRF层能够对预测标签添加约束，可以在标注过程中利用已有的标注信息，比如实体中标签为“B-”的字的下一个字对应的标签应该是“I-”或“O”，CRF还能在训练过程中从数据集中学习到某些约束，比如实体中第一个字的标签应该是“B-”或“O”。

通过BILSTM-CNN特征提取模块的叙述可知，序列X＝(x₁，x₂，x₃，...，x_n)经过特征提取得到了输出矩阵P_n*k＝(p₁，p₂，p₃，...，p_n)，对于预测序列Y＝(y₁，y₂，y₃，...，y_n)，定义它的分数函数公式(4)

其中A_i，j为其由i标签转移为j标签的得分，各个位置分值之和为整个序列的打分值每个位置的分值由两部分组成，一部分是CRF的转移分数矩阵A，另一部分是特征提取模块的输出矩阵P。

CRF模型在进行预测时，使用动态规划算法、维特比算法得到最优标记序列，根据最优标记序列进行标注。公式如下，其中Y_r为真实标注数据序列如式(5)所示。

F1值、准确率(P)和召回率(R)作为验证实体分类方法有效性的评价标准，其中P、R和F1的计算公式(6)、(7)、(8)：

KBLCC方法旨在研究医疗领域实体分类问题，针对目前存在的中文医疗领域公开数据集较少以及在实体抽取研究中字符级特征较少等问题，提出一种融合实体关键字特征的医疗领域实体分类方法。通过对大量医疗领域数据进行观察，发现待抽取的医疗实体中通常包含的一些明显关键字信息，采用TF-IDF辅助构建关键字表，将这些关键字作为特征输入模型，采用BERT模型进行文本向量化操作生成字向量，将字向量输入BILSTM-CNN混合模型学习特征，再经过CRF层进行序列标注，最终实现医疗实体分类。KBLCC方法能够有效地解决医疗领域实体分类问题。

本申请实施例提出了一种融合实体关键字特征的医疗领域实体分类方法，通过对医疗领域文本的语言特点进行分析与总结，发现医疗领域实体通常包含一些明显的关键字特征，能够辅助实体分类任务，融合实体关键字特征构建了BERT-BILSTM-CNN-CRF混合模型将医疗领域实体划分为检验指标、疾病、症状。使用本申请实施例的方法进行医疗领域实体分类能够大大提高准确率、召回率和F1值。

在此提供的算法和显示不与任何特定计算机、虚拟装置或者其它设备固有相关。各种通用装置也可以与基于在此的示教一起使用。根据上面的描述，构造这类装置所要求的结构是显而易见的。此外，本申请也不针对任何特定编程语言。应当明白，可以利用各种编程语言实现在此描述的本申请的内容，并且上面对特定语言所做的描述是为了披露本申请的最佳实施方式。

类似地，应当理解，为了精简本公开并帮助理解各个发明方面中的一个或多个，在上面对本申请的示例性实施例的描述中，本申请的各个特征有时被一起分组到单个实施例、图、或者对其的描述中。然而，并不应将该公开的方法解释成反映如下意图：即所要求保护的本申请要求比在每个权利要求中所明确记载的特征更多的特征。更确切地说，如下面的权利要求书所反映的那样，发明方面在于少于前面公开的单个实施例的所有特征。因此，遵循具体实施方式的权利要求书由此明确地并入该具体实施方式，其中每个权利要求本身都作为本申请的单独实施例。

应该理解的是，虽然附图的流程图中的各个步骤按照箭头的指示依次显示，但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本实施例中有明确的说明，这些步骤的执行并没有严格的顺序限制，其可以以其他的顺序执行。而且，附图的流程图中的至少一部分步骤可以包括多个子步骤或者多个阶段，这些子步骤或者阶段并不必然是在同一时刻执行完成，而是可以在不同的时刻执行，其执行顺序也不必然是依次进行，而是可以与其他步骤或者其他步骤的子步骤或者阶段的至少一部分轮流或者交替地执行。

以上所述实施例仅表达了本申请的实施方式，其描述较为具体和详细，但并不能因此而理解为对本申请专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本申请构思的前提下，还可以做出若干变形和改进，这些都属于本申请的保护范围。因此，本申请的保护范围应以所附权利要求为准。

Claims

1.一种融合实体关键字特征的医疗领域实体分类方法，其特征在于，包括：

文本向量化操作；

特征提取；

序列标注。

2.根据权利要求1所述的方法，其特征在于，所述文本向量化操作包括：经过BERT预训练语言模型将标注数据以及关键字特征转化为字向量。

3.根据权利要求2所述的方法，其特征在于，在所述文本向量化操作之前，所述方法还包括：采用TF-IDF辅助构建关键字。

4.根据权利要求3所述的方法，其特征在于，所述采用TF-IDF辅助构建关键字，包括：

构建停用词表；

计算词频；

计算逆文档频率；

计算TF-IDF值；

将得到的TF-IDF值按降序排列，提取出关键词；

从关键词中筛选出关键字。

5.根据权利要求1所述的方法，其特征在于，所述特征提取包括：将所述字向量输入BILSTM中进行处理，再将处理结果经过CNN层进一步处理，得到提取的特征，。

6.根据权利要求1所述的方法，其特征在于，所述序列标注包括：将CNN层输出的结果输入到CRF层进行标注，得到标注序列。

7.根据权利要求1所述的方法，其特征在于，所述文本向量化操作，包括：

句子嵌入；

将嵌入生成的结果组合起来，得到BERT模型生成的向量。

8.根据权利要求1所述的方法，其特征在于，所述序列标注，包括：通过CRF模型使用动态规划算法、维特比算法得到最优标记序列，根据最优标记序列进行标注。