CN111755091B

CN111755091B - 一种电子病历的处理方法及装置

Info

Publication number: CN111755091B
Application number: CN202010598583.8A
Authority: CN
Inventors: 尚亚飞; 李鹏涛; 刘宇; 胡可云; 陈联忠
Original assignee: Beijing Jiahesen Health Technology Co ltd
Current assignee: Beijing Jiahesen Health Technology Co ltd
Priority date: 2020-06-28
Filing date: 2020-06-28
Publication date: 2024-02-27
Anticipated expiration: 2040-06-28
Also published as: CN111755091A

Abstract

本发明提供了一种电子病历的处理方法及装置，通过调用电子病历分类模型对电子病历进行准确分类，并在此基础上，根据电子病历的类型对电子病历的章节进行准确拆分，从章节维度进行信息抽取，避免由于电子病历数据错乱导致从电子病历类别的维度进行信息抽取时导致的信息抽取错漏问题，提高了对电子病历进行信息抽取的准确性。

Description

一种电子病历的处理方法及装置

技术领域

本发明涉及数据处理技术领域，更具体的，涉及一种电子病历的处理方法及装置。

背景技术

随着医院信息化建设的不断完善，医院的各个业务系统都会产生大量的临床数据，对于医院产生的最重要的临床研究数据-电子病历数据，其包含着巨大的临床研究价值。但是由于电子病历数据往往是非结构化的数据，很难直接进行应用，为了充分挖掘电子病历中的临床研究价值，需要对电子病历数据进行结构化的处理，从而进行精准的信息抽取工作。

根据电子病历的书写规范，对于住院和门诊的就诊患者，在电子病历系统中往往产生不同的类型的电子病历，不同类型的电子病历具有不同的类别编码，其记录的内容具有一定的差异性。为了对电子病历中的数据进行准确抽取，一般会先根据电子病历的类别编码确定电子病历的类型，然后采用相应的信息抽取方法对电子病历进行信息抽取。

但是在医院电子病历系统的实际应用过程中，很多电子病历存在大量的错乱数据，在一个电子病历中可能存在多种类型的病历数据，例如，出院记录中既有出院记录又有手术记录。因此，仅根据电子病历的类别编码无法对电子病历进行准确分类，从而导致无法准确对电子病历进行信息抽取。

发明内容

有鉴于此，本发明提供了一种电子病历的处理方法及装置，通过对电子病历进行准确分类和章节拆分，提高信息抽取的准确性。

为了实现上述发明目的，本发明提供的具体技术方案如下：

一种电子病历的处理方法，包括：

调用电子病历分类模型，确定电子病历的类型；

根据电子病历的类型，对电子病历的章节进行拆分，得到电子病历的章节信息；

分别调用与章节信息类型相对应的信息抽取模型对每个章节信息进行信息抽取；

将每个章节信息的抽取结果进行整合，得到电子病历的结构化数据。

可选的，所述调用电子病历分类模型，确定电子病历的类型，包括：

对电子病历进行预处理，将电子病历转化为预设格式的电子病历；

提取预设格式的电子病历的文本主题特征；

将提取到的文本主题特征输入到病历分类模型中进行处理，得到电子病历的类型，所述病历分类模型为预先利用病历分类训练样本对预设分类器进行后训练得到的。

可选的，所述根据电子病历的类型，对电子病历的章节进行拆分，得到电子病历的章节信息，包括：

删除电子病历中的非必要信息，得到待拆分电子病历；

采用与所述电子病历的类型相对应的章节拆分规则，对所述待拆分电子病历进行章节拆分，得到电子病历的章节信息。

在采用与所述电子病历的类型相对应的章节拆分规则无法得到章节信息的情况下，调用与所述电子病历的类型相对应的章节分割模型，对所述待拆分电子病历进行章节拆分，得到电子病历的章节信息。

可选的，所述调用与所述电子病历的类型相对应的章节分割模型，对所述待拆分电子病历进行章节拆分，得到电子病历的章节信息，包括：

将所述待拆分电子病历输入与所述电子病历的类型相对应的章节分割模型，将所述待拆分电子病历进行切分，得到多个句子；

分别对每个句子进行文本分类，得到每个句子的索引和预测章节标签；

依据每个句子的索引的顺序，将预测章节标签相同的句子进行合并，得到与预测章节标签相对应的章节信息。

可选的，所述分别调用与章节信息类型相对应的信息抽取模型对每个章节信息进行信息抽取，包括：

分别对每个章节信息进行错别字校验；

分别调用与章节信息类型相对应的信息抽取模型，识别错别字校验后的章节信息中的实体，并建立实体之间的关系。

在调用与章节信息类型相对应的信息抽取模型无法对章节信息进行抽取的情况下，利用预设规则抽取方式抽取规则性实体。

可选的，在所述分别调用与章节信息类型相对应的信息抽取模型对每个章节信息进行信息抽取之后，所述方法还包括：

对抽取到的章节信息进行语义逻辑检测，并将检测到的错误信息进行标注。

可选的，所述对抽取到的章节信息进行语义逻辑检测，并将检测到的错误信息进行标注，包括：

对抽取到的章节信息中同一类实体中同一实例的前后文抽取结果进行一致性性检测，并将检测到的错误信息进行标注；

对抽取到的章节信息中每类实体中的每个实例的取值进行合法性检测，并将检测到的错误信息进行标注。

一种电子病历的处理装置，包括：

病历分类单元，用于调用电子病历分类模型，确定电子病历的类型；

章节拆分单元，用于根据电子病历的类型，对电子病历的章节进行拆分，得到电子病历的章节信息；

信息抽取单元，用于分别调用与章节信息类型相对应的信息抽取模型对每个章节信息进行信息抽取；

信息整合单元，用于将每个章节信息的抽取结果进行整合，得到电子病历的结构化数据。

可选的，所述病历分类单元，具体用于：

提取预设格式的电子病历的文本主题特征；

可选的，所述章节拆分单元，具体用于：

删除电子病历中的非必要信息，得到待拆分电子病历；

可选的，所述章节拆分单元，还用于：

可选的，所述章节拆分单元，具体用于：

可选的，所述信息抽取单元，具体用于：

分别对每个章节信息进行错别字校验；

可选的，所述信息抽取单元，还用于：

可选的，所述装置还包括：

逻辑检测单元，用于在所述分别调用与章节信息类型相对应的信息抽取模型对每个章节信息进行信息抽取之后，对抽取到的章节信息进行语义逻辑检测，并将检测到的错误信息进行标注。

可选的，所述逻辑检测单元，具体用于：

相对于现有技术，本发明的有益效果如下：

本发明公开的一种电子病历的处理方法，通过调用电子病历分类模型对电子病历进行准确分类，并在此基础上，根据电子病历的类型对电子病历的章节进行准确拆分，从章节维度进行信息抽取，避免由于电子病历数据错乱导致从电子病历类别的维度进行信息抽取时导致的信息抽取错漏问题，提高了对电子病历进行信息抽取的准确性。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据提供的附图获得其他的附图。

图1为本发明实施例公开的一种电子病历的处理方法的流程示意图；

图2为本发明实施例公开的一种电子病历的分类示意图；

图3为本发明实施例公开的一种章节之间划分比较清晰的电子病历示意图；

图4为本发明实施例公开的一种章节之间划分比较清晰的电子病历的章节拆分结果示意图；

图5为本发明实施例公开的一种章节混合的电子病历示意图；

图6为本发明实施例公开的一种章节混合的电子病历的章节拆分结果示意图；

图7为本发明实施例公开的标注错误信息的抽取结果示意图；

图8为本发明实施例公开的一种电子病历的处理装置的结构示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

为了提高对电子病历进行信息抽取的准确率，本发明提供了一种电子病历的处理方法，在对电子病历进行准确分类的基础上，根据电子病历的类型对电子病历的章节进行准确拆分，从章节维度进行信息抽取，最后将每个章节信息的抽取结果进行整合，得到电子病历的结构化数据。

具体的，请参阅图1，本实施例公开的一种电子病历的处理方法包括以下步骤：

S101：调用电子病历分类模型，确定电子病历的类型；

电子病历系统中的电子病历一般为HTML格式的，为了便于对电子病历的处理，需要对电子病历系统中导出的电子病历进行预处理，将电子病历转化为预设格式的电子病历，如将HTML格式的电子病历转化为TEXT格式的电子病历。

然后，提取预设格式的电子病历的文本主题特征，将提取到的文本主题特征输入到病历分类模型中进行处理，得到电子病历的类型，其中，病历分类模型为预先利用病历分类训练样本对预设分类器进行后训练得到的。

如图2所示，左侧是电子病历的内容，右侧为利用病历分类模型预测到的电子病历类型，本实施例可以确定电子病历系统中的所有电子病历所对应的电子病历类型。

S102：根据电子病历的类型，对电子病历的章节进行拆分，得到电子病历的章节信息；

格式转换后的电子病历中可能存在页眉、页脚等非必要信息，为了便于后续的章节拆分，需要预先删除电子病历中的非必要信息，得到待拆分电子病历。

对于如图3所示的章节之间划分比较清晰的电子病历，可以采用与电子病历的类型相对应的章节拆分规则，对待拆分电子病历进行章节拆分，如根据章节之间的分隔符，对电子病历进行章节拆分，如将入院记录的主诉、现病史、既往史、家族史、婚育史等章节进行准确拆分，拆分后的章节信息如图4所示。

对于如图5所示的章节混合的电子病历，需要调用与所述电子病历的类型相对应的章节分割模型，对所述待拆分电子病历进行章节拆分，得到电子病历的章节信息。

具体的，将所述待拆分电子病历输入与所述电子病历的类型相对应的章节分割模型，按句号将所述待拆分电子病历进行切分，得到多个句子，分别对每个句子进行文本分类，得到每个句子的索引和预测章节标签，依据每个句子的索引的顺序，将预测章节标签相同的句子进行合并，得到与预测章节标签相对应的章节信息。

例如：对于一个存在8句话的电子病历，其预测章节标签序列:[(1，“主诉”)，(2，“现病史”)，(3，“现病史”)，(4，“现病史”)，(5,“现病史”)，(6,“现病史”)，(7，“体格检查”)，(8，“体格检查”)]，标签序列中括号对应的(句子索引，预测章节标签)，其合并的具体结果为主诉、现病史、体格检查章节，最终得到的拆分后的章节信息如图6所示。

S103：分别调用与章节信息类型相对应的信息抽取模型对每个章节信息进行信息抽取；

在实际应用中，电子病历中经常会出现错别字，错别字将影响后续的信息抽取，为了解决由于错别字引起的信息抽取错漏，本实施例在对每个章节信息进行信息抽取之前，分别对每个章节信息进行错别字校验，对章节信息中的错别字进行修正。

考虑到医疗领域对抽取结果的准确性的要求比较高，因此错别字校验过程中，必须要保证错别字检测的准确率。本实施例采用了错别字词典纠错方式，使用中文文本纠错工具pycorrector，并添加了医疗领域常见的错别字和修正字词典，实现对各个章节信息的错别字检测和修正。

在此基础上，分别调用与章节信息类型相对应的信息抽取模型，识别错别字校验后的章节信息中的实体，并建立实体之间的关系。

在调用与章节信息类型相对应的信息抽取模型无法对章节信息进行抽取的情况下，如部分不能够通过分词得到的实体或者较简单的数值信息数据，本实施例利用预设规则抽取方式抽取规则性实体。

规则性实体为规律性较强的实体内容，如电子病历中对体征信息的描述，体温37.2℃，脉搏60次/分，考虑到这样的数据具有很强的规则性，而且采用规则的方式速度很快，所以综合效果和性能两个方面，本实施例采用规则的方式抽取该类数据。预先设定体温、身高、脉搏、血压等规则抽取方式，抽取这些规则性实体。

发明人通过研究发现：在实际的电子病历内容中，存在一些前后语义描述存在矛盾的问题或者因书写问题导致病历内容描述不符合实际逻辑，抽取到的信息在后续分析使用中将存在问题，为了解决这一技术问题，本实施例对抽取到的章节信息进行语义逻辑检测，并将检测到的错误信息进行标注。

语义逻辑检测主要包括一致性检测和合法性检测，一致性检测为对抽取到的章节信息中同一类实体中同一实例的前后文抽取结果进行一致性性检测，如对于疾病实体中出现的高血压实例来说，如果前面说了高血压3年，后面又否认高血压，则说明抽取到的高血压这个结果存在语义逻辑冲突的，需要对这个抽取结果进行抽取逻辑错误标识。合法性检测为对抽取到的章节信息中每类实体中的每个实例的取值进行合法性检测，对于病历中常见的抽取结果实例中，设定值域范围，如果超出这个范围，则认为存在逻辑错误。例如，患者血压15090mmHg，导致抽取血压结果是15090，这样的结果往往不符合逻辑，对于这样的变量直接根据规定的值域进行校验，如果不符合实际逻辑的，则直接标记为抽取逻辑错误。

将病历内容中存在问题的抽取结果，可以用特殊字段进行标注，具体如下述示例；

对于个人史章节，“生于山东省，久居本地，无疫水，疫源接触史。否认冶游史。无性病。吸烟500年。”，描述了吸烟500年，是一个明显的逻辑错误，我们则对抽取的结果进行逻辑校验，存在逻辑错误的抽取结果，则需要将其放入到相应的抽取字段，默认情况下是原始字段+”_error”来描述存在逻辑错误的抽取结果，具体如图7所示。

后续工作人员可以根据标注的错误进行修正，或系统自动将错误信息修改为与错误信息类型相对应的默认值。

S104：将每个章节信息的抽取结果进行整合，得到电子病历的结构化数据。

对于每个章节信息抽取的结果合并之后得到最终结果所示：

可见，本实施例公开的一种电子病历的处理方法，通过调用电子病历分类模型对电子病历进行准确分类，并在此基础上，根据电子病历的类型对电子病历的章节进行准确拆分，从章节维度进行信息抽取，避免由于电子病历数据错乱导致从电子病历类别的维度进行信息抽取时导致的信息抽取错漏问题，并通过错别字校验、语义逻辑检测，进一步提高了对电子病历进行信息抽取的准确性。

基于上述实施例公开的一种电子病历的处理方法，本实施例对应公开了一种电子病历的处理装置，请参阅图8，该装置包括：

病历分类单元100，用于调用电子病历分类模型，确定电子病历的类型；

章节拆分单元200，用于根据电子病历的类型，对电子病历的章节进行拆分，得到电子病历的章节信息；

信息抽取单元300，用于分别调用与章节信息类型相对应的信息抽取模型对每个章节信息进行信息抽取；

信息整合单元400，用于将每个章节信息的抽取结果进行整合，得到电子病历的结构化数据。

可选的，所述病历分类单元100，具体用于：

提取预设格式的电子病历的文本主题特征；

可选的，所述章节拆分单元200，具体用于：

删除电子病历中的非必要信息，得到待拆分电子病历；

可选的，所述章节拆分单元200，还用于：

可选的，所述章节拆分单元200，具体用于：

可选的，所述信息抽取单元300，具体用于：

分别对每个章节信息进行错别字校验；

可选的，所述信息抽取单元300，还用于：

可选的，所述装置还包括：

可选的，所述逻辑检测单元，具体用于：

本实施例公开的一种电子病历的处理装置，通过调用电子病历分类模型对电子病历进行准确分类，并在此基础上，根据电子病历的类型对电子病历的章节进行准确拆分，从章节维度进行信息抽取，避免由于电子病历数据错乱导致从电子病历类别的维度进行信息抽取时导致的信息抽取错漏问题，提高了对电子病历进行信息抽取的准确性。

本说明书中各个实施例采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似部分互相参见即可。对于实施例公开的装置而言，由于其与实施例公开的方法相对应，所以描述的比较简单，相关之处参见方法部分说明即可。

还需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

结合本文中所公开的实施例描述的方法或算法的步骤可以直接用硬件、处理器执行的软件模块，或者二者的结合来实施。软件模块可以置于随机存储器(RAM)、内存、只读存储器(ROM)、电可编程ROM、电可擦除可编程ROM、寄存器、硬盘、可移动磁盘、CD-ROM、或技术领域内所公知的任意其它形式的存储介质中。

对所公开的实施例的上述说明，使本领域专业技术人员能够实现或使用本发明。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的，本文中所定义的一般原理可以在不脱离本发明的精神或范围的情况下，在其它实施例中实现。因此，本发明将不会被限制于本文所示的这些实施例，而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

Claims

1.一种电子病历的处理方法，其特征在于，包括：

调用电子病历分类模型，确定电子病历的类型；

其中，所述根据电子病历的类型，对电子病历的章节进行拆分，得到电子病历的章节信息，包括：删除电子病历中的非必要信息，得到待拆分电子病历；所述非必要信息包括页眉和页脚；采用与所述电子病历的类型相对应的章节拆分规则，对所述待拆分电子病历进行章节拆分，得到电子病历的章节信息；当所述待拆分电子病历为章节混合的电子病历时，将所述待拆分电子病历输入与所述电子病历的类型相对应的章节分割模型，将所述待拆分电子病历进行切分，得到多个句子；分别对每个句子进行文本分类，得到每个句子的索引和预测章节标签；依据每个句子的索引的顺序，将预测章节标签相同的句子进行合并，得到与预测章节标签相对应的章节信息；

2.根据权利要求1所述的方法，其特征在于，所述调用电子病历分类模型，确定电子病历的类型，包括：

提取预设格式的电子病历的文本主题特征；

3.根据权利要求1所述的方法，其特征在于，所述分别调用与章节信息类型相对应的信息抽取模型对每个章节信息进行信息抽取，包括：

分别对每个章节信息进行错别字校验；

4.根据权利要求3所述的方法，其特征在于，所述分别调用与章节信息类型相对应的信息抽取模型对每个章节信息进行信息抽取，包括：

5.根据权利要求4所述的方法，其特征在于，在所述分别调用与章节信息类型相对应的信息抽取模型对每个章节信息进行信息抽取之后，所述方法还包括：

6.根据权利要求5所述的方法，其特征在于，所述对抽取到的章节信息进行语义逻辑检测，并将检测到的错误信息进行标注，包括：

7.一种电子病历的处理装置，其特征在于，包括：

其中，所述章节拆分单元，具体用于：删除电子病历中的非必要信息，得到待拆分电子病历；所述非必要信息包括页眉和页脚；采用与所述电子病历的类型相对应的章节拆分规则，对所述待拆分电子病历进行章节拆分，得到电子病历的章节信息；当所述待拆分电子病历为章节混合的电子病历时，将所述待拆分电子病历输入与所述电子病历的类型相对应的章节分割模型，将所述待拆分电子病历进行切分，得到多个句子；分别对每个句子进行文本分类，得到每个句子的索引和预测章节标签；依据每个句子的索引的顺序，将预测章节标签相同的句子进行合并，得到与预测章节标签相对应的章节信息；