CN110688855A

CN110688855A - 基于机器学习的中文医疗实体识别方法及系统

Info

Publication number: CN110688855A
Application number: CN201910936307.5A
Authority: CN
Inventors: 王红; 王彩雨; 王峰; 赵丽丽; 虞凤萍; 庄鲁贺; 李威; 胡斌; 张伟
Original assignee: Shandong Normal University
Current assignee: Shandong Normal University
Priority date: 2019-09-29
Filing date: 2019-09-29
Publication date: 2020-01-14

Abstract

本公开公开了基于机器学习的中文医疗实体识别方法及系统，获取训练用的电子病历；构建训练用的电子病历的字典；构建训练用的电子病历的词典；对训练用的电子病历进行数据标记，得到每一个字和每一个字对应的标记符号；将嵌入字向量和词向量后的长短期记忆网络LSTM的输出端和嵌入字向量的卷积神经网络模型CNN的输出端，均与条件随机场CRF的输入端相连接，构建机器学习模型；将已进行数据标记的训练用的电子病历，输入到机器学习模型中，对机器学习模型进行训练，得到训练好的机器学习模型；获取待识别的电子病历，将待识别的电子病历输入到机器学习模型中，输出电子病历的中文医疗实体识别结果。

Description

基于机器学习的中文医疗实体识别方法及系统

技术领域

本公开涉及中文医疗实体识别技术领域，特别是涉及基于机器学习的中文医疗实体识别方法及系统。

背景技术

本部分的陈述仅仅是提到了与本公开相关的背景技术，并不必然构成现有技术。

医疗实体识别是文本处理中的关键技术，它在信息检索、机器翻译、问答系统等自然语言处理技术中，发挥着重要的作用，医疗实体识别的任务是对文本中出现的具有特定意义的词或短语进行识别。

在医学临床领域的医疗实体识别中，其目的是从电子病历中挖掘出专家感兴趣的专业术语，例如，药物：替吉奥胶囊、奥沙利铂等；手术：直肠根治术、根治性远端胃大部切除术等；疾病和诊断：食管癌、慢性萎缩性胃炎等；解剖部位：腹部、胃底部等。准确识别出此类的医学实体，从而研究实体之间的关系，对医学研究来说是重要的一步。因此医学医疗实体识别的研究具有非常重要的意义。

在实现本公开的过程中，发明人发现现有技术中存在以下技术问题：

中文的医疗实体识别与英文的相比，挑战更大，目前未解决的难题更多。英语中的医疗实体具有比较明显的形式标志，即实体中的每个词的第一个字母要大写，所以实体边界识别相对容易，任务的重点是确定实体的类别。和英语相比，汉语医疗实体识别任务更加复杂，而且相对于实体类别标注子任务，实体边界的识别更加困难；汉语文本没有类似英文文本中空格之类的显式标示词的边界标示符，医疗实体识别的第一步就是确定词的边界，即分词。

综上所述，对于中文医疗实体识别精准和快速的识别方法，尚缺乏有效的解决方案。

发明内容

为了解决现有技术的不足，本公开提供了基于机器学习的中文医疗实体识别方法及系统；

第一方面，本公开提供了基于机器学习的中文医疗实体识别方法；

基于机器学习的中文医疗实体识别方法，包括：

获取训练用的电子病历；构建训练用的电子病历的字典；构建训练用的电子病历的词典；

对训练用的电子病历进行数据标记，得到每一个字和每一个字对应的标记符号；

将训练用的电子病历的文本数据与构建的字典进行匹配，得到字向量；将训练用的电子病历的文本数据与构建的词典进行匹配，得到词向量；将字向量和词向量同时嵌入到长短期记忆网络LSTM中；

将训练用的电子病历的文本数据与构建的字典匹配，得到字向量；将字向量嵌入到卷积神经网络模型CNN中；

将嵌入字向量和词向量后的长短期记忆网络LSTM的输出端和嵌入字向量的卷积神经网络模型CNN的输出端，均与条件随机场CRF的输入端相连接，构建机器学习模型；

将已进行数据标记的训练用的电子病历，输入到机器学习模型中，对机器学习模型进行训练，得到训练好的机器学习模型；

获取待识别的电子病历，将待识别的电子病历输入到机器学习模型中，输出电子病历的中文医疗实体识别结果。

第二方面，本公开还提供了基于机器学习的中文医疗实体识别系统；

基于机器学习的中文医疗实体识别系统，包括：

字典和词典构建模块，其被配置为：获取训练用的电子病历；构建训练用的电子病历的字典；构建训练用的电子病历的词典；

数据标记模块，其被配置为：对训练用的电子病历进行数据标记，得到每一个字和每一个字对应的标记符号；

字向量和词向量嵌入模块，其被配置为：将训练用的电子病历的文本数据与构建的字典进行匹配，得到字向量；将训练用的电子病历的文本数据与构建的词典进行匹配，得到词向量；将字向量和词向量同时嵌入到长短期记忆网络LSTM中；

机器学习模型构建模块，其被配置为：将嵌入字向量和词向量后的长短期记忆网络LSTM的输出端和嵌入字向量的卷积神经网络模型CNN的输出端，均与条件随机场CRF的输入端相连接，构建机器学习模型；

训练模块，其被配置为：将已进行数据标记的训练用的电子病历，输入到机器学习模型中，对机器学习模型进行训练，得到训练好的机器学习模型；

识别模块，其被配置为：获取待识别的电子病历，将待识别的电子病历输入到机器学习模型中，输出电子病历的中文医疗实体识别结果。

第三方面，本公开还提供了一种电子设备，包括存储器和处理器以及存储在存储器上并在处理器上运行的计算机指令，所述计算机指令被处理器运行时，完成第一方面所述方法的步骤。

第四方面，本公开还提供了一种计算机可读存储介质，用于存储计算机指令，所述计算机指令被处理器执行时，完成第一方面所述方法的步骤。

与现有技术相比，本公开的有益效果是：

在训练阶段，通过患者的电子病历构建字典和词典，而不是使用业内普遍使用的字典和词典，而且将新构建的字典和词典嵌入到LSTM模型和CNN模型中，可以提升中文医疗实体识别的准确度，避免新登录词不能被准确识别；

利用LSTM模型，将字符信息和词与词之间的信息相融合，在确保准确的同时，又利用词的上下文信息，可增强标记的准确性。

利用LSTM模型和CNN模型的结合使用，可以初步对待识别病历进行中文医疗实体的初次识别；

利用条件随机场CRF对LSTM模型和CNN模型的输出值进行二次识别，提升了中文医疗实体识别的准确度。

附图说明

构成本申请的一部分的说明书附图用来提供对本申请的进一步理解，本申请的示意性实施例及其说明用于解释本申请，并不构成对本申请的不当限定。

图1为第一个实施例的方法流程图；

图2为第一个实施例的使用BIOES标记示意图；

图3为第一个实施例的基于字符的LSTM结构图

图4为第一个实施例的基于词的LSTM结构图；

图5为第一个实施例的基于词的信息流传播图；

图6为第一个实施例的lattice LSTM结构图；

图7为第一个实施例的准确率图；

图8为第二个实施例的系统功能模块图。

具体实施方式

应该指出，以下详细说明都是示例性的，旨在对本申请提供进一步的说明。除非另有指明，本文使用的所有技术和科学术语具有与本申请所属技术领域的普通技术人员通常理解的相同含义。

需要注意的是，这里所使用的术语仅是为了描述具体实施方式，而非意图限制根据本申请的示例性实施方式。如在这里所使用的，除非上下文另外明确指出，否则单数形式也意图包括复数形式，此外，还应当理解的是，当在本说明书中使用术语“包含”和/或“包括”时，其指明存在特征、步骤、操作、器件、组件和/或它们的组合。

实施例一，本实施例提供了基于机器学习的中文医疗实体识别方法；

如图1所示，基于机器学习的中文医疗实体识别方法，包括：

S1：获取训练用的电子病历；构建训练用的电子病历的字典；构建训练用的电子病历的词典；

S2：对训练用的电子病历进行数据标记，得到每一个字和每一个字对应的标记符号；

S3：将训练用的电子病历的文本数据与构建的字典进行匹配，得到字向量；将训练用的电子病历的文本数据与构建的词典进行匹配，得到词向量；将字向量和词向量同时嵌入到长短期记忆网络LSTM中；

S4：将嵌入字向量和词向量后的长短期记忆网络LSTM的输出端和嵌入字向量的卷积神经网络模型CNN的输出端，均与条件随机场CRF的输入端相连接，构建机器学习模型；

S5：将已进行数据标记的训练用的电子病历，输入到机器学习模型中，对机器学习模型进行训练，得到训练好的机器学习模型；

S6：获取待识别的电子病历，将待识别的电子病历输入到机器学习模型中，输出电子病历的中文医疗实体识别结果。

所述电子病历，记录每一位患者的疾病、吃过的药物、做过的手术等等；根据电子病历纯文本文档中的内容，提取其实体内容以及对应的位置，实体类别包括：疾病和诊断、检查、检验、手术、药物、解剖部位。

本实施例包括1000名患者的临床信息构成初始数据集，数据集格式为json格式，每位患者数据包括，纯文本的病历记录以及记录中对应的实体类别，类体类别如表1所示。

表1实体类别计数

作为一个或多个实施例，S1中，所述构建训练用的电子病历的字典的具体步骤包括：

对训练用的电子病历，采用one-hot编码进行处理，得到若干个汉字和每一个汉字对应的编码；将所述若干个汉字和每一个汉字对应的编码，视为字典。

作为一个或多个实施例，S1中，所述构建训练用的电子病历的词典的具体步骤包括：

对训练用的电子病历，采用word2vec模型进行处理，得到若干个词和每一个词对应的词向量；将所述若干个词和每一个词对应的词向量，视为词典。

数据输入，中文文本与英文文本的不同之处在于，中文文本中的单词没有分隔符，所以，需要将文本分割成字符和词。形式上，一句话的字符级序列表示为：s^c＝c₁,c₂,c₃,…,c_m，其中，c_j指第j个字符，词序列表示为：s＝w₁,w₂,w₃,…,w_n，w_i指句中第i个词。然后我们利用嵌入向量，将每一个字符及词嵌入到向量中，针对序列s，对每一个字符和词，其对应的向量表示为：

使用

表示以字符索引b开头并以字符索引e结尾的子序列，如，在序列“患者诊断为直肠癌”中，是“患者”和

是“直肠癌”。序列中的词使用word2vec分词器获得。

因此，用词向量所表示的序列为：

作为一个或多个实施例，S2中，对训练用的电子病历进行数据标记，得到每一个字和每一个字对应的标记符号；具体步骤包括：

使用BIOES标记规则对训练用的待识别电子病历进行数据标记，得到每一个字和每一个字对应的标记符号。

根据不同的实体类别，定义类别名称，包括：疾病和诊断、检查、检验、手术、药物、解剖部位。使用BIOES(B-begin，I-inside，O-outside，E-end，S-single)标记规则来进行基于词和基于字符的命名实体标记，标记过程中按照标记内容及其对应的位置进行准确标记。如图2所示。

B表示当前实体中最开始的字，I表示当前实体中中间的字，O表示不属于当前实体的字，E表示当前实体中最后的字，S表示单字实体。

作为一个或多个实施例，基于嵌入字向量和词向量后的长短期记忆网络LSTM、嵌入字向量的卷积神经网络模型CNN、和条件随机场模型CRF构建机器学习模型；具体步骤包括：

嵌入字向量的长短期记忆网格网络：

嵌入词向量后的长短期记忆网格网络：

输入门,

遗忘门，由于标注只是在字级进行，所有词cell就不需要输出门。有了

就有更多的信息流入每个比如图7中对于输入源有

(穿孔)和

(阑尾炎穿孔)，把所有的其中

结合起来给对于每个子序列

都有一个附加的门

来控制它进入

门值

和

经过归一化之后得到的。

将长短期记忆网格网络LSTM的输出值与卷积神经网络模型CNN的输出值进行拼接后，输入到条件随机场模型CRF的输入端中；得到机器学习模型。

给定序列s其对应的概率表示为：

y＝l₁,l₂,l₃,…,l_τ为序列s对应的标签，基于字符时，τ为n，基于词时，τ为m。为模型参数，

为模型偏差。

我们使用一阶维特比算法在基于字或基于字符的输入序列上找到最高得分标签序列。给定一组手动标记的训练数据

使用L₂正则化对数似然损失来训练模型：

其中λ是正则化参数，Θ表示参数集合。

作为一个或多个实施例，S5中，所述将已进行数据标记的训练用的电子病历，输入到机器学习模型中，对机器学习模型进行训练，得到训练好的机器学习模型；具体步骤包括：

将数据转换得到的每一个字，输入到机器学习模型的长短期记忆网络LSTM的输入端，长短期记忆网络LSTM的输出端输出第一识别结果；

将数据转换得到的每一个字，输入到机器学习模型的卷积神经网络模型CNN的输入端，卷积神经网络模型CNN的输出端输出第二识别结果；

将长短期记忆网络LSTM的第一识别结果与卷积神经网络模型CNN的第二识别结果进行拼接得到第三识别结果，将第三识别结果输入到条件随机场CRF的输入端中；

条件随机场模型CRF将第三识别结果进行进一步识别，输出预测的中文医疗实体识别结果；

将预测的中文医疗实体识别结果与已知的每一个字对应的标记符号进行比较，如果识别结果正确率达到设定阈值，则停止训练，输出识别结果正确率最高时对应的机器学习模型即为训练好的机器学习模型；否则，就继续训练。

图3为第一个实施例的基于字符的LSTM结构图；图4为第一个实施例的基于词的LSTM结构图；图5为第一个实施例的基于词的信息流传播图；图6为第一个实施例的latticeLSTM结构图；图7为第一个实施例的准确率图。

实施例二，本实施例还提供了基于机器学习的中文医疗实体识别系统；

如图8所示，基于机器学习的中文医疗实体识别系统，包括：

实施例三，本实施例还提供了一种电子设备，包括存储器和处理器以及存储在存储器上并在处理器上运行的计算机指令，所述计算机指令被处理器运行时，完成实施例一所述方法的步骤。

实施例四，本实施例还提供了一种计算机可读存储介质，用于存储计算机指令，所述计算机指令被处理器执行时，完成实施例一所述方法的步骤。

以上所述仅为本申请的优选实施例而已，并不用于限制本申请，对于本领域的技术人员来说，本申请可以有各种更改和变化。凡在本申请的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本申请的保护范围之内。

Claims

1.基于机器学习的中文医疗实体识别方法，其特征是，包括：

2.如权利要求1所述的方法，其特征是，所述构建训练用的电子病历的字典的具体步骤包括：

3.如权利要求1所述的方法，其特征是，所述构建训练用的电子病历的词典的具体步骤包括：

4.如权利要求1所述的方法，其特征是，对训练用的电子病历进行数据标记，得到每一个字和每一个字对应的标记符号；具体步骤包括：

5.如权利要求1所述的方法，其特征是，所述将已进行数据标记的训练用的电子病历，输入到机器学习模型中，对机器学习模型进行训练，得到训练好的机器学习模型；具体步骤包括：

6.基于机器学习的中文医疗实体识别系统，其特征是，包括：

7.一种电子设备，其特征是，包括存储器和处理器以及存储在存储器上并在处理器上运行的计算机指令，所述计算机指令被处理器运行时，完成权利要求1-5任一项方法所述的步骤。

8.一种计算机可读存储介质，其特征是，用于存储计算机指令，所述计算机指令被处理器执行时，完成权利要求1-5任一项方法所述的步骤。