CN112802570A

CN112802570A - 一种针对电子病历命名实体识别系统及方法

Info

Publication number: CN112802570A
Application number: CN202110169271.XA
Authority: CN
Inventors: 杜斌; 朱智源
Original assignee: Chengdu Yanhua Western Health And Medical Information Industry Research Institute Co ltd
Current assignee: Chengdu Yanhua Western Health And Medical Information Industry Research Institute Co ltd
Priority date: 2021-02-07
Filing date: 2021-02-07
Publication date: 2021-05-14

Abstract

本发明公开了一种针对电子病历命名实体识别系统及方法；进行数据清洗，将清洗之后的数据进行基于规则的预标注，将结果返回给标注算法进行二次标注并生成预标注数据集，再将结果返回给标注人员进行校正与标注从而生成标准数据集。根据对比分析预标注数据集与标准数据集的差异，修正规则与算法。获取线上预测数据，通过人工进行核对校验补充进标准数据集，将原始数据送入预标注系统补充预标注数据集，累计到一定规模之后重新训练模型迭代模型。本发明将命名实体识别整个工业应用流程进行整合与改造，构建出适用于工业场景的命名实体识别框架。

Description

一种针对电子病历命名实体识别系统及方法

技术领域

本发明属于新一代信息技术领域，具体涉及一种针对电子病历命名实体识别系统及方法。

背景技术

电子病历命名实体识别是电子病历结构化的基础性研究，能够准确的识别出电子病历中的命名实体就能为后续的电子病历分析提供强有力的支撑。电子病历是一种半结构化的数据结构，其中存在可读性很高的结构化数据，同时也存在解析难度很高的自由文本。然而在自由文本中存在大量的诊疗相关信息，这些信息具有诊疗数据追踪、医学统计分析、地区流行病预防等重要应用。命名实体识别就是针对电子病历中自由文本进行实体抽取。

一个高效合理的电子病历命名实体识别框架是得到电子病历命名实体识别模型的基础。通常框架包含了从数据获取→数据标注→数据处理→模型训练→模型保存整个流程。框架各单元相关连接，相互依赖。

随着电子病历命名实体工作的持续升温，对于这种医疗自由文本有着更为深入的分析，从而发现当前的电子病历命名实体识别框架已经无法满足当前的应用需求，同时电子病历命名实体识别模型本身的准确性还远远不够。

因此对目前业界存在的问题总结如下：

A由于电子病历命名实体识别框架的高耦合性与相互依赖特点使得电子病历命名实体识别框架各个环节无法有效拆分，功能之间无法独立。

B使用ai技术进行电子病历命名实体识别的核心模型存在‘黑盒’效应，无法达到对电子病历命名实体识别做到可控。

C电子病历命名实体识别鲜有能够识别出嵌套命名实体(Nested Named EntityRecognition)，然而嵌套命名实体在电子病历中却很常见。

D电子病历命名实体识别模型的输入数据挖掘还不够充分，需要充分利用电子病历数据强标准化特点，完善对语句中标点符号的深度挖掘。

E使用较高准确性的先验数据来提升模型整体准确性的方案还需要充分挖掘。

因此本申请的电子病历命名实体识别框架将针对上述问题进行逐个解决。

发明内容

本发明目的在于提供一种针对电子病历命名实体识别系统及方法，用于解决上解决上述场景的问题，如：从工业应用场景出发，针对标注数据成本过高，框架内部过度依赖，模型输入数据信息挖掘不充分，无法识别嵌套命名实体等问题。

为实现上述目的，本发明的技术方案是：

一种针对电子病历命名实体识别系统，包括：

数据清洗单元，对电子病历的原始数据进行数据清洗，得到规范原始数据；

规则预标注单元，通过标注规则对规范原始数据进行规则预标注，得到规则预标注数据；

算法预标注单元，通过标注算法对规则预标注数据进行算法预标注，得到预标注数据集；

人工检验与标注单元，标注人员对预标注数据集进行校正与标注从而生成标准数据集；

构建输入数据单元，针对已经标准数据集进行分类构建输入，得到输入数据；

模型搭建单元，搭建电子病历命名实体识别模型，即，第一层采用transformer特征提取的方式提取输入数据的特征信息，第二层采用随机删除dropout的方式进行输出，第三层采用批量归一化Batch Normalization的方式进行防止梯度爆炸，第四层采用bilstm对特征进行二次提取，第五层采用随机删除dropout的方式进行防止过拟合，第六层采用前馈神经网络将上一层的结果进行压缩到标签类别数并使用sigmoid函数进行激活；

模型训练单元，将输入数据输入到电子病历命名实体识别模型进行训练；

超参数调整单元，通过训练过程中loss下降情况以及测试集中f1综合调整超参数到最优参数；

模型生成单元，超参数调整完毕之后保存模型结构，保存模型权重，即得到最终的电子病历命名实体识别模型。

进一步的，数据清洗单元中数据清洗是指将中文、标点符号、英文进行规范统一。

进一步的，规则预标注单元中，针对规范原始数据中的时间点和时间段的描述进行正则提取，编写正则库，针对不同规律的时间表述进行分类，将提取之后的实体进行预标注。

进一步的，算法预标注单元中，使用规范的药品库、疾病库、手术库、症状库规范名称构建相对应的实体字典，字典作为需要迭代更新的专有实体名称，字典中的名称剔除字符长度小于2的词，使用北京大学分词包pkuseg，设定分词模型为medicine；对原始语句进行分词，使用标点符号进行识别出子序列；针对子序列采用由长到短的递归合并方式字典查询；如果某几个子词的合并能够在标准词典中找到，则直接对这个子串进行实体标注并使用特殊的占位字符进行占位；其他子序列中的词继续执行递归合并方式字典查询直到所有的子序列都查询完毕。

进一步的，人工检验与标注单元中，标注人员针对预标注数据集进行人工核对，针对其中标注错误的地方进行修正，针对预标注没有标注到的地方进行标注；将所有的修正与标注操作记录下来构建日志，为后续的统计分析这部分操作积累数据，为迭代预标注的规则库以及算法提供决策指导；将人工校验与标注后的数据作为标注数据，即标准数据集。

进一步的，构建输入数据单元中，针对标准数据集进行分类构建输入；使用预训练的字向量库获取到输入语料字符级语义序列向量；针对输入序列中的标点符号根据在序列中的位置获取出标点符号one_hot编码，从而构建出基于位置的标点符号序列向量；根据预标注信息对输入数据对应位置上的实体类别标签进行类别信息编码并构建为融合实体类别信息与位置信息的序列向量；将三个序列向量进行拼接构建成一个序列向量作为模型的输入数据。

进一步的，模型训练单元中，将训练数据输入模型，通过模型计算得到输出，该输出为序列向量；设定一个超参数阈值0.5，对模型输出数据中大于0.5的索引位置数值进行向上取整，其他数据向下取整，从而形成新的输出序列向量；对比标准数据的序列标记向量，使用二分类交叉熵损失函数binary_crossentropy对预测值与标签进行loss构建；使用adam优化函数进行优化。

进一步的，超参数调整单元，整个模型的超参数：transformer层的隐藏神经元个数h1，两个dropout层的随机删除率deal1和deal2，bilstm层的影藏神经元个数h2，截取输出阈值s1；针对模型训练过程中loss下降情况以及测试集中f1综合调整超参数到最优参数。

一种针对电子病历命名实体识别方法，包括以下步骤：

步骤S1，对电子病历的原始数据进行数据清洗，得到规范原始数据；

步骤S2，通过标注规则对规范原始数据进行规则预标注，得到规则预标注数据；

步骤S3，通过标注算法对规则预标注数据进行算法预标注，得到预标注数据集；

步骤S4，标注人员对预标注数据集进行校正与标注从而生成标准数据集；

步骤S5，针对标准数据集进行分类构建输入，得到输入数据；

步骤S6，搭建电子病历命名实体识别模型，即，第一层采用transformer特征提取的方式提取输入数据的特征信息，第二层采用随机删除dropout的方式进行输出，第三层采用批量归一化Batch Normalization的方式进行防止梯度爆炸，第四层采用bilstm对特征进行二次提取，第五层采用随机删除dropout的方式进行防止过拟合，第六层采用前馈神经网络将上一层的结果进行压缩到标签类别数并使用sigmoid函数进行激活；

步骤S7，将输入数据输入到电子病历命名实体识别模型进行训练；

步骤S8，通过训练过程中loss下降情况以及测试集中f1综合调整超参数到最优参数；

步骤S9，超参数调整完毕之后保存模型结构，保存模型权重，即得到最终的电子病历命名实体识别模型。

与现有技术相比，本发明所具有的有益效果为：

本方案的一个创新点在于，本申请采用两个分离模块进行构建整体框架，分别是预标注模块和模型模块。整体流程依然需要包含现在最流行的框架子流程。预标注部分需要完成基于规则和算法的实体预标注，之后通过人工对这部分标注数据进行校正构建成标注数据，而模型模块部分使用预标注之后的数据进行模型数据，同时需要搭建模型、训练模型、保存模型等操作。这种两个大模型之间耦合性就很低，两个模块都能够孤立迭代循环，这就降低了整个框架的耦合性同时也不失整个框架的完整性。

本方案的一个创新点在于，预标注部分采用基于规则的规则库和基于算法的算法库，这里的算法不包含神经网络算法。整个预标注过程中还需要依赖专业词词典，通过获取医疗相关的专业术语信息构建词典。数据进入预标注阶段直接使用规则和算法进行无监督的预标注，这种预标注数据准确性能够达到70％以上。标注人员针对大部分都标注正确的数据进行校正调整，可以节约大量的标注时间。整个规则库作为基础版本，如果是某些地区或者某些医院具有一些带有特性的术语，可以针对这些特性术语进行规则定制化调整以及字典更新，做到一定的可控性与精准性。

本方案的一个创新点在于，电子病历中出现嵌套命名实体是普遍现象，以往的电子病历命名实体识别模型对嵌套实体识别非常少，很多从模型设计本身就不支持这种嵌套实体识别。本申请采用变更输出层激活函数的方式，使得多分类问题转变为多标签分类问题，从而使得模型具有嵌套命名实体识别功能。

本方案的一个创新点在于，电子病历命名实体识别是在输入数据上对语义本身挖掘的较深，从词到笔画都进行embedding。然而电子病历文本中标点符号的使用是具有明确规范的，标点符号所包含的隐藏逻辑关系非常重要。本申请对模型输入数据中引入标点符号embedding，将标点符号所具有的隐藏逻辑信息嵌入到输入数据中。

本方案的一个创新点在于，电子病历命名实体识别模型没有考虑过使用高准确性的预标注数据进行实体抽取。本申请则是利用预标注数据进行实体抽取，预标注数据包含70％的正确实体标注，这些正确的实体标注为模型提供了先验信息。基于电子病历语言本身的特点，文本中实体与同类实体或者不同类实体之间并不是相互独立的，他们之间具有潜在的语义关联性和位置关联性，这种关联性在高准确性预标注数据下贡献了极为有效的关联信息与先验信息。预标注过程完全由规则和算法进行完成，无需人工标注，即使预标注数据中还存在近30％的错误数据，但是这种高准确性数据的情况下依然使得模型非常有效。

附图说明

图1是本发明具体实施方式的实施例预标注迭代流程示意图。

图2是本发明具体实施方式的实施例模型迭代流程示意图。

图3是本发明具体实施方式的实施例模型结构示意图。

图4是本发明具体实施方式的实施例整体框架示意图。

图5是本发明具体实施方式的实施例工业场景下流程示意图。

具体实施方式

下面结合本发明的附图1-5，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

实施例一：

如图4所示，提出一种针对电子病历命名实体识别系统，包括：

构建输入数据单元，针对标准数据集进行分类构建输入，得到输入数据；

模型搭建单元，搭建电子病历命名实体识别模型，即，第一层采用transformer特征提取的方式提取输入数据的特征信息，第二层采用随机删除dropout的方式进行输出，第三层采用批量归一化Batch Normalization的方式进行防止梯度爆炸，第四层采用bilstm对特征进行二次提取，第五层采用随机删除dropout的方式进行防止过拟合，第六层采用前馈神经网络将上一层的结果进行压缩到标签类别数并使用sigmoid函数进行激活；如图3所示；

其中，预标注部分迭代流程：数据预标注过程是整个系统的一部分，但是又完全可以独立出来成为一个子系统。首先进行数据清洗，将清洗之后的数据进行基于规则的预标注，将结果返回给标注算法进行二次标注并生成预标注数据集，再将结果返回给标注人员进行校正与标注从而生成标准数据集。根据对比分析预标注数据集与标准数据集的差异，修正规则与算法，提升预标注精度。具体的流程图如图1所示。

模型部分迭代流程：获取线上预测数据，通过人工进行核对校验补充进标准数据集，将原始数据送入预标注系统补充预标注数据集，累计到一定规模之后重新训练模型迭代模型，如图2所示。

实施例二：

一种针对电子病历命名实体识别方法，包括以下步骤：

1、数据清洗

对原始的数据进行数据清洗，主要是将标点符号、英文等进行规范统一。

2、规则预标注

针对电子病历中的时间点和时间段的描述进行正则提取，编写正则库，针对不同规律的时间表述进行分类，将提取之后的实体进行预标注。

3、算法预标注

4、使用规范的药品库、疾病库、手术库、症状库等规范名称构建相对应的实体字典，这部分字典作为需要迭代更新的专有实体名称，字典中的名称需要剔除字符长度小于2的词。使用北京大学分词包pkuseg，设定分词模型为medicine。对原始语句进行分词，使用标点符号进行识别出子序列；针对子序列采用由长到短的递归合并方式字典查询；如果某几个子词的合并能够在标准词典中找到，则直接对这个子串进行实体标注并使用特殊的占位字符进行占位；其他子序列中的词继续执行递归合并方式字典查询直到所有的子序列都查询完毕。

5、人工校验与标注

标注人员针对已经预标注完成的数据进行人工核对，针对其中标注错误的地方进行修正，针对预标注没有标注到的地方进行标注。将所有的修正与标注操作记录下来构建日志，为后续的统计分析这部分操作积累数据，为迭代预标注的规则库以及算法提供决策指导。将人工校验与标注后的数据作为标注数据。

6、构建输入数据

针对已经预标注的数据进行分类构建输入。使用预训练的字向量获取到输入语料字符对应的序列向量；针对输入序列中的标点符号根据在序列中的位置获取出标点符号one_hot编码，从而构建出基于位置的标点符号序列向量；根据预标注的信息将输入对应位置上的实体类别标签进行类别信息编码构建成为根据位置信息的预标注类别序列向量。将三个序列向量进行拼接构建成一个序列向量作为模型的输入数据。

7、模型搭建

第一层采用transformer特征提取的方式提取输入数据的特征信息，第二层采用随机删除dropout的方式进行输出，第三层使用，采用批量归一化Batch Normalization的方式进行防止梯度爆炸，第四层采用bilstm对特征进行二次提取，第五层采用dropout的方式进行防止过拟合，第六层采用前馈神经网络将上一层的结果进行压缩到标签类别数并使用sigmoid函数进行激活。

8、模型训练

将训练数据输入模型，通过模型计算得到了输出，该输出为序列向量。设定一个超参数阈值0.5，将模型输出的数据中大于0.5索引位置的数据构建成1，其他数据构建成0，从而形成新的输出序列向量。对比标准数据的序列标记向量，使用二分类交叉熵损失函数binary_crossentropy对预测值与标签进行loss构建。使用adam优化函数进行优化。

9、超参调整

整个模型的超参数：transformer层的隐藏神经元个数h1，两个dropout层的随机删除率deal1和deal2，bilstm层的影藏神经元个数h2，截取输出阈值s1。针对模型训练过程中loss下降情况以及测试集中f1综合调整超参到最优参数。

10、模型生成

模型超参调整完毕之后保存模型结构，保存模型权重，并定义版本号。

综上，提供完整的电子病历命名实体识别框架，将各个环节进一步细分出预标注部分与模型迭代部分。预标注部分完全可以独立成为一个子系统，提供粗糙的实体标注，在精度要求不高的情况下甚至能够当做实体识别结果。预标注引入先验知识为后续模型训练提供更丰富的特征。对输入数据的深度挖掘，提出根据位置编码独立性的标点符号one_hot序列向量，根据先验知识引入实体类别标签序列向量，丰富输入数据的特征以提升实体识别的精度。使用多标签分类方式，使得实体识别能够适应嵌套实体的场景。利用整个框架的分块迭代循环过程，使得整个框架耦合性与独立性都适用于工业开发场景，形成封闭的良性循环，便于迭代更新。

以上是本发明的较佳实施例，凡依本发明技术方案所作的改变，所产生的功能作用未超出本发明技术方案的范围时，均属于本发明的保护范围。

Claims

1.一种针对电子病历命名实体识别系统，其特征在于，包括：

2.如权利要求1所述的一种针对电子病历命名实体识别系统，其特征在于，数据清洗单元中数据清洗是指将中文、标点符号、英文进行规范统一。

3.如权利要求1所述的一种针对电子病历命名实体识别系统，其特征在于，规则预标注单元中，针对规范原始数据中的时间点和时间段的描述进行正则提取，编写正则库，针对不同规律的时间表述进行分类，将提取之后的实体进行预标注。

4.如权利要求1所述的一种针对电子病历命名实体识别系统，其特征在于，算法预标注单元中，使用规范的药品库、疾病库、手术库、症状库规范名称构建相对应的实体字典，字典作为需要迭代更新的专有实体名称，字典中的名称剔除字符长度小于2的词，使用北京大学分词包pkuseg，设定分词模型为medicine；对原始语句进行分词，使用标点符号进行识别出子序列；针对子序列采用由长到短的递归合并方式字典查询；如果某几个子词的合并能够在标准词典中找到，则直接对这个子串进行实体标注并使用特殊的占位字符进行占位；其他子序列中的词继续执行递归合并方式字典查询直到所有的子序列都查询完毕。

5.如权利要求1所述的一种针对电子病历命名实体识别系统，其特征在于，人工检验与标注单元中，标注人员针对预标注数据集进行人工核对，针对其中标注错误的地方进行修正，针对预标注没有标注到的地方进行标注；将所有的修正与标注操作记录下来构建日志，为后续的统计分析这部分操作积累数据，为迭代预标注的规则库以及算法提供决策指导；将人工校验与标注后的数据作为标注数据，即标准数据集。

6.如权利要求1所述的一种针对电子病历命名实体识别系统，其特征在于，构建输入数据单元中，针对标准数据集进行分类构建输入；使用预训练的字向量库获取到输入语料字符级语义序列向量；针对输入序列中的标点符号根据在序列中的位置获取出标点符号one_hot编码，从而构建出基于位置的标点符号序列向量；根据预标注信息对输入数据对应位置上的实体类别标签进行类别信息编码并构建为融合实体类别信息与位置信息的序列向量；将三个序列向量进行拼接构建成一个序列向量作为模型的输入数据。

7.如权利要求1所述的一种针对电子病历命名实体识别系统，其特征在于，模型训练单元中，将训练数据输入模型，通过模型计算得到输出，该输出为序列向量；设定一个超参数阈值0.5，对模型输出数据中大于0.5的索引位置数值进行向上取整，其他数据向下取整，从而形成新的输出序列向量；对比标准数据的序列标记向量，使用二分类交叉熵损失函数binary_crossentropy对预测值与标签进行loss构建；使用adam优化函数进行优化。

8.如权利要求1所述的一种针对电子病历命名实体识别系统，其特征在于，超参数调整单元，整个模型的超参数：transformer层的隐藏神经元个数h1，两个dropout层的随机删除率deal1和deal2，bilstm层的影藏神经元个数h2，截取输出阈值s1；针对模型训练过程中loss下降情况以及测试集中f1综合调整超参数到最优参数。

9.一种针对电子病历命名实体识别方法，其特征在于，包括以下步骤：