CN111916169B

CN111916169B - 一种中医电子病历结构化方法和终端

Info

Publication number: CN111916169B
Application number: CN202010605691.3A
Authority: CN
Inventors: 李文友; 赵静; 沈新; 吴海杰; 何洁
Original assignee: Nanjing Dajing Tcm Information Technology Co ltd
Current assignee: Nanjing Dajing Tcm Information Technology Co ltd
Priority date: 2020-06-29
Filing date: 2020-06-29
Publication date: 2021-04-27
Anticipated expiration: 2040-06-29
Also published as: CN111916169A

Abstract

本发明提出了一种中医电子病历结构化方法和终端，该方法包括：将中医电子病历文本数据输入训练好的Bert‑CRF模型，得到中医实体；基于中医实体库对所述中医实体进行边界修正，得到修正后的修正实体；基于症状分解元素字典树和最大正向匹配算法对症状所述修正实体中的症状实体进行分解，得到分解后的实体元素；基于所述实体元素在元素图谱中进行查询，得到对应所述实体元素的标准元素节点，并通过所述标准元素节点得到标准症状组。解决部分中医实体识别的边界问题，提高了实体识别的准确率与召回率；本方案了中医症状归一化方法，能够准确进行症状归一化。

Description

一种中医电子病历结构化方法和终端

技术领域

本发明涉及数据结构化技术领域，特别涉及一种中医电子病历结构化方法和终端。

背景技术

由于中医病历文本表示的复杂性以及特殊性，中医病历中拥有许多专有名词以及表示，往往与常见的中文表示有较大的不同，这种情况导致容易出现失误等情况，由此需要对其中的名称，特别针对症状进行名称的标准化。

目前已有的方案中，主要使用HMM，CRF等模型来进行电子病历实体识别。HMM，CRF等模型来进行电子病历实体识别的方法是西医电子病历实体识别中常用的方法，但其在中医领域并不能取得预期的效果，由于训练的语料中并不包含大量的中医相关语料，在中医电子病历的实体识别任务上也无法达到预期的效果。至于症状归一化常用的方法中，主要通过计算症状与中医标准症状库中标准症状之间的相似度，相似度最高的作为症状归一化后的标准症状。通常相似度计算基于最小编辑距离，Jaccard相似系数，词向量余弦相似度等。但是最小编辑距离和Jaccard相似系数等都是基于字符串的相似度计算方法，无法处理字符完全不同意思却相同的情况，例如“纳差”和“食欲不振”字符层面上差别极大，意义却高度近似。基于词向量的方法，由于词向量来源于基于上下文训练的语言模型得到的词向量，会导致常常一起出现的症状词向量具有高度相似性，会导致相似度计算误差。例如“恶心”和“呕吐”两个症状常常一起出现，导致两个症状的词向量余弦相似度极高。

由此，目前需要一种更好的方案以解决上述问题。

发明内容

针对现有技术中的缺陷，本发明提出了一种中医电子病历结构化方法和终端。本方案解决了部分中医实体识别的边界问题，提高了实体识别的准确率与召回率；本方案解决了中医症状归一化方法，能够准确进行症状归一化。

本发明实施例提出了一种中医电子病历结构化方法，包括：

将中医电子病历文本数据输入训练好的Bert-CRF模型，得到中医实体；

基于中医实体库对所述中医实体进行边界修正，得到修正后的修正实体；

基于症状分解元素字典树和最大正向匹配算法对所述修正实体中的症状实体进行分解，得到分解后的实体元素；

基于所述实体元素在元素图谱中进行查询，得到对应所述实体元素的标准元素节点，并通过所述标准元素节点得到标准症状组。

在一个具体的实施例中，在“将中医电子病历文本数据输入训练好的Bert-CRF模型”之前，还包括：

通过Bert模型在中医语料库上进行增强预训练，以在所述Bert模型上已有预训练任务的基础上增加预测中医实体的任务；

在完成增强预训练的所述Bert模型接入CRF层，得到Bert-CRF模型；

通过所述Bert-CRF模型在进行了人工标注的中医电子病历实体识别数据集上进行训练，得到训练好的Bert-CRF模型。

在一个具体的实施例中，所述预测中医实体的任务包括以下操作：通过所述Bert模型随机mask中医实体，让所述Bert模型从包含被mask掉的中医实体以及其他随机采样实体的待选实体集合中找出所述被mask掉的中医实体。

在一个具体的实施例中，所述找到所述被mask掉的中医实体的概率通过以下公式来确定：

其中，W_i ⁰表示中医实体W_i的第一个位置的上下文向量表示，e_k表示第k个待选中医实体的特征向量表示，e_j表示第j个待选中医实体的特征向量表示。

在一个具体的实施例中，其中，所述CRF层用于保证通过所述Bert-CRF模型得到的中医实体的类别标签是合法的；

该方法还包括：

通过中医电子病历历史数据计算中医实体的类别标签之间的条件概率；

基于所述条件概率初始化所述CRF层中的条件转移概率矩阵参数，以加速所述加速CRF层的参数收敛，且屏蔽掉与预设不可能发生的中医实体的类别标签转移。

在一个具体的实施例中，所述条件概率是通过以下公式来进行确定的：

P(类别标签B|类别标签A)＝P(连续的类别标签A和类别标签B次数)/P(类别标签B次数)。

在一个具体的实施例中，所述“基于中医实体库对所述中医实体进行边界修正，得到修正后的修正实体”，包括：

找出中医实体库中包含所述中医实体的所有实体；

针对各所述中医实体，确定所述中医实体在病历文本中的位置；

获取以所述位置作为中心预设范围内的字符串；

若所述字符串与所述中医实体完全相同，则将所述字符串作为对所述中医实体进行修正后的修正实体。

在一个具体的实施例中，所述实体元素包括：部位元素、表示部位的描述元素、标识部位和描述的整体元素；

所述元素图谱中包括标准症状；其中，所述标准症状包括与所述整体元素对应的标准整体节点、以及对应所述部位元素的标准部位节点、对应所述描述元素的标准描述节点；其中，所述标准部位节点与所述标准部位节点关联。

在一个具体的实施例中，所述“基于所述实体元素在元素图谱中进行查询，得到对应所述实体元素的标准元素节点，并通过所述标准元素节点得到标准症状组”

基于所述实体元素在元素图谱中进行查询，得到对应所述实体元素的标准整体节点，或得到对应所述实体元素的标准部位节点与标准描述节点；

基于得到的且关联的所述标准部位节点与所述标准描述节点得到标准症状组；以及

基于得到的标准整体节点得到标准症状组。

本发明实施例还提出了一种终端，包括处理端，所述处理端用于执行上述的方法。

以此，本发明实施例提出了一种中医电子病历结构化方法和终端，该方法包括：将中医电子病历文本数据输入训练好的Bert-CRF模型，得到中医实体；基于中医实体库对所述中医实体进行边界修正，得到修正后的修正实体；基于症状分解元素字典树和最大正向匹配算法对所述修正实体中的症状实体进行分解，得到分解后的实体元素；基于所述实体元素在元素图谱中进行查询，得到对应所述实体元素的标准元素节点，并通过所述标准元素节点得到标准症状组。解决部分中医实体识别的边界问题，提高了实体识别的准确率与召回率；本方案了中医症状归一化方法，能够准确进行症状归一化

附图说明

为了更清楚地说明本发明实施例的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，应当理解，以下附图仅示出了本发明的某些实施例，因此不应被看作是对范围的限定，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他相关的附图。

图1为本发明实施例提出的一种中医电子病历结构化方法的流程示意图；

图2为本发明实施例提出的一种中医电子病历结构化方法中症状元素分解示意图；

图3为本发明实施例提出的一种中医电子病历结构化方法症状元素图谱的示意图；

图4为本发明实施例提出的一种中医电子病历结构化方法中实体识别的流程示意图；

图5为本发明实施例提出的一种中医电子病历结构化方法中症状归一化流程图；

图6为本发明实施例提出的一种中医电子病历结构化方法症状归一化效果图。

具体实施方式

在下文中，将更全面地描述本公开的各种实施例。本公开可具有各种实施例，并且可在其中做出调整和改变。然而，应理解：不存在将本公开的各种实施例限于在此公开的特定实施例的意图，而是应将本公开理解为涵盖落入本公开的各种实施例的精神和范围内的所有调整、等同物和/或可选方案。

在本公开的各种实施例中使用的术语仅用于描述特定实施例的目的并且并非意在限制本公开的各种实施例。如在此所使用，单数形式意在也包括复数形式，除非上下文清楚地另有指示。除非另有限定，否则在这里使用的所有术语(包括技术术语和科学术语)具有与本公开的各种实施例所属领域普通技术人员通常理解的含义相同的含义。所述术语(诸如在一般使用的词典中限定的术语)将被解释为具有与在相关技术领域中的语境含义相同的含义并且将不被解释为具有理想化的含义或过于正式的含义，除非在本公开的各种实施例中被清楚地限定。

实施例1

本发明实施例1公开了一种中医电子病历结构化方法，如图1、4、5所示，包括以下步骤：

步骤101、将中医电子病历文本数据(例如可以为待结构化的病历文本)输入训练好的Bert-CRF模型，得到中医实体；

具体的，在步骤101中的“将中医电子病历文本数据输入训练好的Bert-CRF模型”之前，还包括：

通过Bert模型在预设的中医语料库(其中包含有各种中医相关的名称，以及与各名称对应的标准名称)上进行增强预训练，以在所述Bert模型上已有预训练任务的基础上增加预测中医实体的任务；具体的，所述预测中医实体的任务包括以下操作：所述预测中医实体的任务包括以下操作：通过所述Bert模型随机mask(也即遮掩的含义)中医实体(具体的，可以在随机mask字符的过程中执行该过程)，让所述Bert模型从包含被mask掉的中医实体以及其他随机采样实体(也即被mask掉的中医实体以外的其他中医实体)的待选实体集合中找出所述被mask掉的中医实体。

所述找到所述被mask掉的中医实体的概率通过以下公式来确定：

其中，W_i ⁰表示中医实体W_i(用于表示第i个中医实体)的第一个位置的上下文向量表示，e_k表示第k个待选中医实体的特征向量表示，e_j表示第j个待选中医实体的特征向量表示。

在完成增强预训练的所述Bert模型接入CRF层，得到Bert-CRF模型；其中，所述CRF层用于保证通过所述Bert-CRF模型得到的中医实体的类别标签是合法的；该方法还包括：通过中医电子病历历史数据计算实体的类别标签之间的条件概率；基于所述条件概率初始化所述CRF层中的条件转移概率矩阵参数，以加速所述加速CRF层的参数收敛，且屏蔽掉与预设不可能发生的实体的类别标签转移。所述条件概率是通过以下公式来进行确定的：P(类别标签B|类别标签A)＝P(连续的类别标签A和类别标签B次数)/P(类别标签B次数)。

具体的类别标签是指的实体的类别，例如共有n个类别，每个类别i可以由类别标签Bi,Ei两个类别标签表示。例如实体“甘草”类别为中药，中药类别为1，“甘”标签为B1,“草”标签为E1。Bi表示每个实体类别的开头，Ei表示每个实体类别的后面部分。

具体的，如图4所示，识别过程可以包括如下过程：

第一，进行模型预训练：具体的Bert模型在中医语料库上进行增强预训练，在Bert模型原有的预训练任务上增加预测中医实体的任务。此任务为在Bert模型随机mask字符的过程中随机mask中医实体，让模型从包含被mask掉的正确实体的负采样实体组中找出这个正确的实体。

第二，进行模型训练：通过模型预训练之后得到的Bert模型，在Bert模型的输出之后接上CRF层，得到Bert-CRF模型(具体的该模型的数据从Bert模型得到输出后，将该输出作为CRF层的输入进行运算，得到最终的输出作为Bert-CRF模型的输出)，并且在人工标注的中医电子病历实体识别数据集上进行训练。CRF层的作用是为最后预测的实体类别标签添加一些约束来保证预测的类别标签是合法的。通过对CRF层的条件转移概率矩阵进行特殊的初始化，以加速CRF层的参数收敛，并且屏蔽掉某些不可能发生的实体类别标签转移(例如：连续的“症状开头”类别标签和“处方结尾”类别标签是不可能发生的)。具体的，通过中医电子病历历史数据中计算实体类别标签之间的条件概率(计算公式为公式2：即P(类别标签B|类别标签A)＝P(连续的类别标签A和类别标签B次数)/P(类别标签B次数))。以得到的条件概率初始化CRF层中的条件转移概率矩阵参数，对于概率为0的类别标签转移，设为-10000。

第三，进行实体识别预测：通过训练得到的Bert-CRF模型，把中医电子病历文本转换成Bert-CRF模型的输入格式，输入Bert-CRF模型，得到Bert-CRF模型的预测输出，作为实体识别的结果(即中医实体)。

步骤102、基于中医实体库对所述中医实体进行边界修正，得到修正后的修正实体；

具体的，步骤102中的所述“基于中医实体库对所述中医实体进行边界修正，得到修正后的修正实体”，包括：找出中医实体库中包含所述中医实体的所有实体(具体的可以为一定长度且保护所述中医实体的内容，进一步，该内容可以为文本内容)；针对各所述中医实体，确定所述中医实体在病历文本中的位置；获取以所述位置作为中心预设范围内的字符串；若所述字符串与所述中医实体完全相同，则将所述字符串作为对所述中医实体进行修正后的修正实体。

具体的，对于预测得到的中医实体，通过中医实体库(其中包含有各种中医实体以及包含中医实体的中医相关内容，例如包括治疗相关的内容)对一些预测得到的实体进行边界修正。具体过程如下：

1.找出中医实体库中包含预测实体的所有实体。

2.找到预测实体在病历文本中的位置，在一定范围内左右滑动窗口，得到不同的字符串。如果得到的某个字符串与1中几个相近实体中的某一个完全相同，则此字符串作为预测实体的修正之后的结果，否则预测的实体保持不变。例如预测得到的实体为“精神不”，病历文本中的原文为“病人精神不振”。通过步骤1得到相近的实体“精神不振”，“精神不佳”等。通过步骤2，我们可以得到“病人精神不振”，“精神不振”，“人精神不”等字符串，最后得到“精神不振”为修正之后的实体作为预测结果。

步骤103、基于症状分解元素字典树和最大正向匹配算法对所述修正实体中的症状实体进行分解，得到分解后的实体元素；

从中医电子病历中自动识别中医实体，中医实体主要包括症状，体征，症型，处方，药品，剂量等不同类型。

所述实体元素包括：部位元素、表示部位的描述元素、标识部位以及描述的整体元素；所述元素图谱中包括标准症状；其中，所述标准症状包括与整体元素对应的标准整体节点、以及对应部位元素的标准部位节点、对应所述描述元素的标准描述节点；其中，所述标准部位节点与所述标准部位节点关联。

具体的，会进行以下操作：

第一，进行症状元素分解标注：具体的，中医实体中的症状可以被分解成部位和描述两种元素，对于不可分割的症状，则作为整体元素。可以把分解的元素分为3类，1类表示部位，2类表示部位的描述，3类表示整体(如图2所示)。通过人工分解中医症状库中的症状以得到症状分解元素库并构建元素字典树。

第二，进行症状元素图谱构建：通过症状分解元素库，构建每个元素的标准元素节点，以及标准元素组合成的标准症状的节点；对于标准位置节点和标准表述节点，构建共同连接的标准症状节点，来表示此标准症状由标准位置与标准描述组成；对于标准整体节点，构建单个连接的标准症状节点，来表示此标准症状由单个标准整体组成(如图3)。

第三，进行症状分解：具体的利用症状分解元素字典树和最大正向匹配算法对症状进行分解，能够分解的症状得到部位和描述元素，无法分解的症状得到整体元素。例如症状“苔薄黄”分解后为((“苔”,1),(“薄”,2),(“黄”,2))。

步骤104、基于所述实体元素在元素图谱中进行查询，得到对应所述实体元素的标准元素节点，并通过所述标准元素节点得到标准症状组。

具体的，步骤104中的所述“基于所述实体元素在元素图谱中进行查询，得到对应所述实体元素的标准元素节点，并通过所述标准元素节点得到标准症状组”，包括：基于所述实体元素在元素图谱中进行查询，得到对应所述实体元素的标准整体节点，或得到对应所述实体元素的标准部位节点与标准描述节点；基于得到的且关联的所述标准部位节点于标准描述节点得到标准症状组；以及基于得到的标准整体节点得到标准症状组。

对于分解症状后的得到元素，通过元素谱图进行查询节点，找出元素的标准元素节点，通过标准元素节点找到所有能够连接到的标准症状节点。对于标准位置节点和标准描述节点，必须是共同连接的标准症状节点才满足条件。例如：((“苔”,1),(“薄”,2),(“黄”,2))，通过搜索元素图谱后得到标准症状组(“苔薄”,“苔黄”)，作为归一化后的结果。

实施例2

本发明实施例2还公开了一种终端，包括处理端，所述处理端用于执行上述实施例1中所述的方法。具体的，本发明实施例2还公开有其他特征，处于简要的目的，本方案未进行重复展示，具体的内容请参见实施例1中的记载。

与现有技术相比，本发明的优点在于：1.本发明实现了提升Bert模型在中医文本处理任务上的性能；2.本发明实现了CRF层的类别标签条件转移概率参数特殊初始化，提高了CRF层参数的收敛速度，屏蔽了不可能发生的类别标签条件转移，提高了实体识别的准确率与召回率；3.本发明实现了解决部分中医实体识别的边界问题，提高了实体识别的准确率与召回率。4.本发明实现了中医症状归一化方法，能够准确进行症状归一化。

本领域技术人员可以理解附图只是一个优选实施场景的示意图，附图中的模块或流程并不一定是实施本发明所必须的。

本领域技术人员可以理解实施场景中的装置中的模块可以按照实施场景描述进行分布于实施场景的装置中，也可以进行相应变化位于不同于本实施场景的一个或多个装置中。上述实施场景的模块可以合并为一个模块，也可以进一步拆分成多个子模块。

上述本发明序号仅仅为了描述，不代表实施场景的优劣。

以上公开的仅为本发明的几个具体实施场景，但是，本发明并非局限于此，任何本领域的技术人员能思之的变化都应落入本发明的保护范围。

Claims

1.一种中医电子病历结构化方法，其特征在于，包括：

2.如权利要求1所述的一种中医电子病历结构化方法，其特征在于，在“将中医电子病历文本数据输入训练好的Bert-CRF模型”之前，还包括：

3.如权利要求2所述的一种中医电子病历结构化方法，其特征在于，所述预测中医实体的任务包括以下操作：通过所述Bert模型随机mask中医实体，让所述Bert模型从包含被mask掉的中医实体以及其他随机采样实体的待选实体集合中找出所述被mask掉的中医实体。

4.如权利要求3所述的一种中医电子病历结构化方法，其特征在于，所述找出所述被mask掉的中医实体的概率通过以下公式来确定：

5.如权利要求2所述的一种中医电子病历结构化方法，其特征在于，其中，所述CRF层用于保证通过所述Bert-CRF模型得到的中医实体的类别标签是合法的；

该方法还包括：

基于所述条件概率初始化所述CRF层中的条件转移概率矩阵参数，以加速所述CRF层的参数收敛，且屏蔽掉与预设不可能发生的中医实体的类别标签转移。

6.如权利要求5所述的一种中医电子病历结构化方法，其特征在于，所述条件概率是通过以下公式来进行确定的：

7.如权利要求1所述的一种中医电子病历结构化方法，其特征在于，所述“基于中医实体库对所述中医实体进行边界修正，得到修正后的修正实体”，包括：

找出中医实体库中包含所述中医实体的所有实体；

获取以所述位置作为中心预设范围内的字符串；

8.如权利要求1所述的一种中医电子病历结构化方法，其特征在于，所述实体元素包括：部位元素、表示部位的描述元素、标识部位和描述的整体元素；

9.如权利要求8所述的一种中医电子病历结构化方法，其特征在于，所述“基于所述实体元素在元素图谱中进行查询，得到对应所述实体元素的标准元素节点，并通过所述标准元素节点得到标准症状组”包括：

基于得到的标准整体节点得到标准症状组。

10.一种终端，其特征在于，包括处理端，所述处理端用于执行权利要求1-9中任意一项所述的方法。