CN111651991A

CN111651991A - 一种利用多模型融合策略的医疗命名实体识别方法

Info

Publication number: CN111651991A
Application number: CN202010295002.3A
Authority: CN
Inventors: 王嫄; 刘雯; 赵婷婷; 梁琨; 杨巨成; 唐晓雯; 刘玉桥
Original assignee: Tianjin University of Science and Technology
Current assignee: Beijing Contention Technology Co ltd
Priority date: 2020-04-15
Filing date: 2020-04-15
Publication date: 2020-09-11
Anticipated expiration: 2040-04-15
Also published as: CN111651991B

Abstract

本发明涉及一种利用多模型融合策略的医疗命名实体识别方法，其技术特点是：人工标记文本中出现的医疗概念，得到训练文本集合；对训练文本集合数据进行预处理，得到分词后文本；构建分词后文本中词的词特征、词性特征和医学特征，得到词的完整编码特征；将分词后文本及词的完整编码特征分别输入到奇数个序列标注模型中进行模型学习，得到对应模型参数；根据人工指定的规则对初步标注结果进行融合，得到最终序列标注结果。本发明有效利用模型多样性和非线性建模能力提升医疗实体自动标注的准确率和查全率，可以广泛用于非数值类的医学实体标注工作，对医疗命名实体标注研究提供新指南，对推动智慧医疗具有显著的意义。

Description

一种利用多模型融合策略的医疗命名实体识别方法

技术领域

本发明属于医疗信息数据处理技术领域，尤其是一种利用多模型融合策略的医疗命名实体识别方法。

背景技术

病历是医务人员对患者疾病的发生、发展、转归进行检查、诊断和治疗等医疗过程的记录，也是对采集到的资料加以归纳、整理、综合分析并按规定的格式和要求书写的患者医疗健康档案。病历对医疗、预防、教学、科研、医院管理等都有重要的作用。随着互联网技术的发展，大部分医院已实现临床病历的电子化，电子病历是用电子设备保存、管理、传输和重现的数字化的病人医疗记录，取代手写纸张病历，具有主动性、完整、正确、知识关联、及时获取等优点。

近年来，医疗命名实体识别技术逐渐成为热门的关注领域。医疗命名实体识别能够提高采集、存储、传输、处理和利用病人健康状况和医疗信息的效率，使患者用较短的等疗时间、支付基本的医疗费用就能享受安全、便利、优质的诊疗服务，真正推进智慧医疗的建设发展。

对于医疗领域广泛的命名实体识别任务尚未出现准确率高、置信度高、多类别医疗通用的标注方法。目前，常用的电子病历中医疗命名实体识别主要采用单模型策略，但是，该方法存在准确率和查全率有限以及繁琐复杂的问题。

发明内容

本发明的目的在于克服现有技术的不足，提出一种设计合理、准确率及查全率高且快速简单的利用多模型融合策略的医疗命名实体识别方法。

本发明解决其技术问题是采取以下技术方案实现的：

一种利用多模型融合策略的医疗命名实体识别方法，包括以下步骤：

步骤1、收集电子病历文本，人工标记文本中出现的医疗概念，得到训练文本集合；

步骤2、对训练文本集合数据进行预处理，得到分词后文本；

步骤3、构建分词后文本中词的词特征、词性特征和医学特征，依次连接上述三个特征，得到词的完整编码特征；

步骤4、将分词后文本及词的完整编码特征分别输入到奇数个序列标注模型中进行模型学习，得到对应模型参数；

步骤5、根据人工指定的规则对初步标注结果进行融合，得到最终序列标注结果。

进一步，所述步骤1的具体实现方法为：基于规范的医疗术语集合并与医护人员达成共识的准则，采用BIO标注模式人工标记文本出现疾病和诊断、检查、检验、手术、药物、解剖部位六个医疗概念，得到标注有医疗概念在文本中位置及医疗概念对应类别的训练文本集合。

进一步，所述训练文本集合中每一条数据均包含一条原始文本和医疗概念在该文本中位置及医疗概念对应类别。

进一步，所述步骤2对训练文本集合进行数据预处理的方法为：去掉指定无用的符号、分词和停用词。

进一步，所述步骤3的具体实现方法为：在已训练好的词向量模型中检索分词后文本中的每个词，得到对应的词向量，作为对应位置词的词特征；利用词性标注工具对分词后文本进行标注，得到词性特征；确定词是否在世界卫生组织发布的《国际疾病分类》中出现，如出现则这一特征为1，未出现为0，得到词的医学特征；最后，将词特征、词性特征和医学特征依次连接作为分词后文本中词的完整编码特征，得到词的完整编码特征。

进一步，所述词特征的维度为256维或512维；所述词性特征的维度为28维；所述医学特征的维度为1维。

进一步，所述奇数个序列标注模型包括序列层、编码层和标注层，其中：

序列层是序列标注模型的第一层，用于得到词的低维稠密的完整编码特征；

编码层是序列标注模型的第二层，由双向长短时记忆网络模型自动提取序列特征；标注层是条件随机场模型，用于序列的标注。

进一步，所述条件随机场模型的参数是一个(k+2)×(k+2)的转移矩阵A，k为标签数，k+2表示在序列首尾分别添加一个起始状态和终止状态。

进一步，所述步骤5的具体实现方法为：将第一个序列标注模型为最优模型，最优模型标注出结果并结合其他模型序列标注结果进行融合。

本发明的优点和积极效果是：

1、本发明通过搭建医疗实体识别模型框架并采用多模型融合策略，有效利用模型多样性和非线性建模能力提升医疗实体自动标注的准确率和查全率，避免了单标注模型存在的归纳偏置而导致方法失效的问题，特别是提升了稀疏类别样本的识别准确率。

2、本发明可以广泛用于非数值类的医学实体标注工作，并且通过设计任务相关特征，还可适用于其他实体标注工作中，对医疗命名实体标注研究提供新指南，对推动智慧医疗具有显著的意义。

附图说明

图1是本发明的整体处理流程图；

图2是本发明多模型融合策略图。

具体实施方式

以下结合附图对本发明做进一步详述。

一种利用多模型融合策略的医疗命名实体识别方法，如图1所示，包括以下步骤：

步骤1、收集电子病历文本，人工标记文本中出现的医疗概念，得到训练文本集合。

本步骤的具体实现方法为：基于规范的医疗术语集合并与医护人员达成共识的准则，采用BIO模式人工标记文本出现的六个医疗概念，得到标注有医疗概念在文本中位置及医疗概念对应类别的训练文本集合。训练文本集合中每一条数据均包含一条原始文本和医疗概念在该文本中位置及医疗概念对应类别。该训练文本集合中医疗概念分为六类：

疾病和诊断：医学上所定义的疾病以及医生在临床工作中对病因、病生理、分型分期等所作的判断；

检查：影像检查(如X线、CT、MR、PETCT等)、造影、超声、心电图等，为避免检查操作与手术操作过多冲突，不包含此外其它的诊断性操作(如胃镜、肠镜等)；

检验：在实验室进行的物理或化学检查，本实施例特指临床工作中检验科进行的化验，不含免疫组化等广义实验室检查；

手术：医生在患者身体局部进行的切除、缝合等治疗，属外科的主要治疗方法；

药物：用于疾病治疗的具体化学物质；

解剖部位：指疾病、症状和体征发生的人体解剖学部位。

每一种实体用BIO表示当前词在该实体中的具体位置，则有：疾病与诊断：{‘DISEASE-B’:1}，{‘DISEASE-I’:2}；诊断：{‘CHECK-B’:3}，{‘CHECK-I’:4}；检查：{‘EXAMINE-B’:5}，{‘EXAMINE-I’:6}；手术：{‘OPERATION-B’:7}，{‘OPERATION-I’：8}；药物：{‘MEDICINE-B’:9}，{‘MEDICINE-I’:10}；解剖部位：{‘BODY-B’:11}，{‘BODY-I’:12}及{‘O’：13}，共13个类别，其中，B表示当前词在命名实体的开始，O指的是当前词在命名实体的内部，O指的是当前词不属于命名实体的任何部分。

例如，缘于(‘O’)入院(‘O’)因(‘O’)诊断(‘O’)“胃癌(‘DISEASE-B’)”，在我院(‘O’)全麻(‘MEDICINE-B’)上行(‘O’)“根治性(‘O’)远端(‘O’)胃(‘BODY-B’)大部(‘BODY-I’)切除(‘OPERATION-B’)术(‘OPERATION-I’)，ROUX-Y(‘OPERATION-B’)吻合(‘OPERATION-I’)，D2(‘OPERATION-B’)，R0(‘OPERATION-B’)”

步骤2、对训练文本集合数据进行预处理，得到分词后文本。

在本步骤中，对所述训练文本集合进行数据预处理，包括去掉指定无用的符号、分词和停用词，得到分词后文本，如“的”、“了”、“同时”、“给与”，得到分词后文本。

步骤3、构建分词后文本中词的词特征、词性特征和医学特征，依次连接该三个特征，得到词的完整编码特征。

本步骤的具体实现方法为：利用词向量学习工具word2vec得到中文词语对应的词向量，word2vec采用百度百科数据作为训练文本集合得到中文词语的词向量，将分词后文本中的词字符串匹配中文词语，检索得到对应词向量作为词特征，词特征维度设置为一定值，如256维、512维等；利用词性标注工具对分词后文本进行标注，得到词性特征，词性特征维度设置为28，可采用任意准确率在95％以上的词性标注工具进行词性标注；确定词是否在世界卫生组织发布的《国际疾病分类》中出现，出现则这一特征为1，未出现为0，得到词的医学特征，医学特征维度设置为1维。最后将词特征、词性特征和医学特征依次连接作为分词后文本中词的完整编码特征，得到词的完整编码特征。

例如，分词处理后“患者/有/咳嗽/发热/症状/”一句话，其中“咳嗽”一词，词特征可通过word2vec工具获得256维向量(0.23，0.35，-0.35,···，0.01)；其词性特征在28维的词性字典中属于动词，如词性字典序为(动词，名词，形容词，······)，则咳嗽可标记为(1，0，0，···，0)；“咳嗽”词出现在《国际疾病分类》，医学特征这一维为(1)，然后连接词特征、词性特征和医学特征组成“咳嗽”一词285维的完整编码特征。

步骤4、将训练文本集合预处理后的分词后文本及词的完整编码特征分别输入到奇数个序列标注模型中进行模型学习，得到对应模型参数。

在本步骤中，奇数个序列标注模型得到的模型参数不同但标注原理相同，均包括序列层、编码层和标注层。例如：

首先，向该序列标注模型中输入步骤4中得到的词的独热向量，即以序列为单位，将一个含有n个词的序列记作x＝(x₁,x₂,...,x_n)，其中x_i表示该序列的第i个词在词典文件中的序号，进而得到词的独热向量，独热向量维度为词典文件的大小。

序列层是序列标注模型的第一层，用于得到词的低维稠密的完整编码特征。利用word2vec模型工具进行预训练或随机初始化的词向量矩阵将序列中的每个词x_i由独热向量映射为低维稠密的词完整编码特征，其中，x_i∈R^d，R为词完整编码特征矩阵，d为词完整编码特征的维度。下一层为编码层，在输入编码层之前，需要设置随机抛弃来减少过拟合问题。

编码层是序列标注模型的第二层，由双向长短时记忆网络模型自动提取序列特征。将一个序列各个词的词向量序列(x₁,x₂,...,x_n)作为双向长短时记忆网络模型各个时间步的输入，再将正向长短时记忆网络模型输出的隐状态序列与反向长短时记忆网络模型的序列在各个位置输出的隐状态进行按位置拼接，得到完整的隐状态序列(h₁,h₂,...,h_n)∈R^n×m。在设置随机抛弃后，接入一个线性层，将隐状态向量从m维映射到k维，k是训练集的标签数，即为13，从而得到自动提取的序列特征，记作矩阵P＝(p₁,p₂,...,p_n)∈R^n×k。将p_i∈R^k的每一维p_i,j都视作将词x_i分类到第j个标签的打分值。此后为了能利用已经标注过的信息标注，接入标注层来进行标注。

条件随机场模型为标注层，用于序列的标注。条件随机场模型的参数是一个(k+2)×(k+2)的转移矩阵A，k为标签数，k上加2是因为需要在序列首尾分别添加一个起始状态和终止状态。A_i,j表示的是从第i个标签到第j个标签的转移得分，因此在为一个位置进行标注时仍可利用此前已经标注过的标签。记一个标签序列y＝(y₁,y₂,...,y_n)，其标签长度等于序列长度，则条件随机场模型对序列x的标签等于y的打分可由下面公式(1)得：

可知，整个序列的打分等于各个位置的打分之和，而每个位置的打分由两部分得到，一部分由长短时记忆网络模型的序列特征矩阵p_i决定，另一部分则由条件随机场模型层的转移矩阵A决定，再利用非线性归一化得到归一化后的概率：

将步骤4中得到的词的完整编码特征输入至上述双向长短时记忆网络序列标注模型中得到类别标签序列，标签序列为输入词的完整编码特征时对应的标签。

在本步骤中，采用人工指定的规则对奇数个序列标注模型的标注结果进行融合。

所述奇数个序列标注模型包括序列层、编码层和标注层。其中，序列层用于得到词的低维稠密的词的完整编码特征，编码层用于自动提取序列特征，标注层用于对序列进行标注。

由于融合层将融合多模型标签序列结果以提高最终标注的正确率，因此，本发明选择奇数个具有最佳初始化性能的双向长短时记忆网络-条件随机场模型，通过调整超参数进行融合。如图2所示，第一个序列标注模型(模型1)为最优模型，最优模型标注出结果并结合其他模型序列标注结果进行融合。在对应位置处，如果最优模型标出B或I，则可视为最终标注结果；如果最优模型标注O，需考虑其他模型结果，若其他模型标注结果一致，即全部标注B或全部标注I，此时将标注一致结果视为最终标注结果，若其他模型标注结果不一致，即模型或标注B或标注I或标注O，则最终标注结果为O。以五个序列模型为例，模型1标注O，模型2和模型3标注B，模型4标注I，模型5标注O，根据人工指定规则对以上五个模型标注结果融合，最终结果标注为O。融合策略不仅可以保持最优模型，还可以将其他两个较优模型的结果交加，从而降低错误标注率，提升模型总体效果。

本发明提出的利用多模型融合策略的医疗命名实体识别方法可以通过图1所示的流程在计算机上实现。

需要强调的是，本发明所述的实施例是说明性的，而不是限定性的，因此本发明包括并不限于具体实施方式中所述的实施例，凡是由本领域技术人员根据本发明的技术方案得出的其他实施方式，同样属于本发明保护的范围。

Claims

1.一种利用多模型融合策略的医疗命名实体识别方法，其特征在于包括以下步骤：

步骤2、对训练文本集合数据进行预处理，得到分词后文本；

2.根据权利要求1所述的一种利用多模型融合策略的医疗命名实体识别方法，其特征在于：所述步骤1的具体实现方法为：基于规范的医疗术语集合并与医护人员达成共识的准则，采用BIO标注模式人工标记文本出现疾病和诊断、检查、检验、手术、药物、解剖部位六个医疗概念，得到标注有医疗概念在文本中位置及医疗概念对应类别的训练文本集合。

3.根据权利要求1或2所述的一种利用多模型融合策略的医疗命名实体识别方法，其特征在于：所述训练文本集合中每一条数据均包含一条原始文本和医疗概念在该文本中位置及医疗概念对应类别。

4.根据权利要求1所述的一种利用多模型融合策略的医疗命名实体识别方法，其特征在于：所述步骤2对训练文本集合进行数据预处理的方法为：去掉指定无用的符号、分词和停用词。

5.根据权利要求1所述的一种利用多模型融合策略的医疗命名实体识别方法，其特征在于：所述步骤3的具体实现方法为：在已训练好的词向量模型中检索分词后文本中的每个词，得到对应的词向量，作为对应位置词的词特征；利用词性标注工具对分词后文本进行标注，得到词性特征；确定词是否在世界卫生组织发布的《国际疾病分类》中出现，如出现则这一特征为1，未出现为0，得到词的医学特征；最后，将词特征、词性特征和医学特征依次连接作为分词后文本中词的完整编码特征，得到词的完整编码特征。

6.根据权利要求5所述的一种利用多模型融合策略的医疗命名实体识别方法，其特征在于：所述词特征的维度为256维或512维；所述词性特征的维度为28维；所述医学特征的维度为1维。

7.根据权利要求1所述的一种利用多模型融合策略的医疗命名实体识别方法，其特征在于：所述奇数个序列标注模型包括序列层、编码层和标注层，其中：

编码层是序列标注模型的第二层，由双向长短时记忆网络模型自动提取序列特征；

标注层是条件随机场模型，用于序列的标注。

8.根据权利要求1所述的一种利用多模型融合策略的医疗命名实体识别方法，其特征在于：所述条件随机场模型的参数是一个(k+2)×(k+2)的转移矩阵A，k为标签数，k+2表示在序列首尾分别添加一个起始状态和终止状态。

9.根据权利要求1所述的一种利用多模型融合策略的医疗命名实体识别方法，其特征在于：所述步骤5的具体实现方法为：将第一个序列标注模型为最优模型，最优模型标注出结果并结合其他模型序列标注结果进行融合。