CN112800767A

CN112800767A - 一种病历文本中患者基本信息的检查方法及系统

Info

Publication number: CN112800767A
Application number: CN202110132076.XA
Authority: CN
Inventors: 李雪; 沈洁; 刘升平; 梁家恩
Original assignee: Unisound Intelligent Technology Co Ltd; Xiamen Yunzhixin Intelligent Technology Co Ltd
Current assignee: Unisound Intelligent Technology Co Ltd; Xiamen Yunzhixin Intelligent Technology Co Ltd
Priority date: 2021-01-31
Filing date: 2021-01-31
Publication date: 2021-05-14
Anticipated expiration: 2041-01-31
Also published as: CN112800767B

Abstract

本发明涉及一种病历文本中患者基本信息的检查方法及系统，该方法包括：步骤1、利用文本抽取，从病历首页获取患者的第一基本信息实体，以及病历中描述患者病情的病历描述文本；步骤2、根据所述第一基本信息实体，从所述病历描述文本中抽取第二基本信息实体；步骤3、根据标准基本信息对所述第一基本信息实体和所述第二基本信息实体进行检查。本发明利用文本抽取和比对的方式，能够自动化完成对病历文本中患者基本信息的检查，大大提高了检查效率和检查质量。

Description

一种病历文本中患者基本信息的检查方法及系统

技术领域

本发明涉及文本处理领域，具体涉及一种病历文本中患者基本信息的检查方法及系统。

背景技术

一份病历中，除了病案首页填写患者的基本信息外，查房记录，病程记录等文书中会多次描述患者的基本信息(姓名、性别、年龄等)，其中可能会存在书写错误的文书，目前是采用人工校验核对的方式，工作量大、效率低且容易出现漏检的情况。

发明内容

本发明提供一种病历文本中患者基本信息的检查方法及系统，能够解决现有人工检查方式存在的上述技术问题。

本发明解决上述技术问题的技术方案如下：

第一方面，本发明提供一种病历文本中患者基本信息的检查方法，包括：

步骤1、利用文本抽取，从病历首页获取患者的第一基本信息实体，以及病历中描述患者病情的病历描述文本；

步骤2、根据所述第一基本信息实体，从所述病历描述文本中抽取第二基本信息实体；

步骤3、根据标准基本信息对所述第一基本信息实体和所述第二基本信息实体进行检查。

本发明的有益效果是：利用文本抽取和比对的方式，能够自动化完成对病历文本中患者基本信息的检查，大大提高了检查效率和检查质量。

进一步，步骤2具体包括：

步骤2.1、利用所述第一基本信息实体对所述病历描述文本进行回标，得到粗标数据；

步骤2.2、利用预先构建的规则集对所述粗标数据进行规则修正和增强，得到修正数据；

步骤2.3、采用预训练语言模型在所述修正数据上进行微调，得到预测结果；

步骤2.4、根据所述预测结果，完善所述规则集；

重复执行步骤2.2-步骤2.4，直到所述预训练语言模型的预测效果不再提升。

上述进一步方案的有益效果是，利用规则集能够有效识别标注错误的数据，并利用预训练语言模型强大的信息表征能力和泛化能力，可以显著提升信息抽取的有效性。

进一步，步骤2.1中，在利用所述第一基本信息实体对所述病历描述文本进行回标之前，还包括对所述病历描述文本进行清洗的步骤。

上述进一步方案的有益效果是，通过对文本进行清洗，能够减少文本中的无用信息。

进一步，所述预训练语言模型采用BERT+CRF。

进一步，步骤3具体包括：

比较标准基本信息与所述第一基本信息实体和第二基本信息实体，若不能完全匹配，则生成基本信息填写错误的提示信息。

第二方面，本发明提供一种病历文本中患者基本信息的检查系统，包括：

第一抽取模块，用于利用文本抽取，从病历首页获取患者的第一基本信息实体，以及病历中描述患者病情的病历描述文本；

第二抽取模块，用于根据所述第一基本信息实体，从所述病历描述文本中抽取第二基本信息实体；

检查模块，用于根据标准基本信息对所述第一基本信息实体和所述第二基本信息实体进行检查。

进一步，第二抽取模块具体包括：

粗标单元，用于利用所述第一基本信息实体对所述病历描述文本进行回标，得到粗标数据；

修正单元，用于利用预先构建的规则集对所述粗标数据进行规则修正和增强，得到修正数据；

预测单元，用于采用预训练语言模型在所述修正数据上进行微调，得到预测结果；

完善单元，用于根据所述预测结果，完善所述规则集；

调用单元，用于重复调用所述修正单元、预测单元和完善单元，直到所述预训练语言模型的预测效果不再提升。

进一步，检查模块，具体用于：

第三方面，本发明提供一种终端设备，包括：

处理器；以及

存储器，其上存储有可执行代码，当所述可执行代码被所述处理器执行时，使所述处理器执行如权利要求1-5中任一项所述的方法。

第四方面，本发明提供一种非暂时性机器可读存储介质，其上存储有可执行代码，当所述可执行代码被电子设备的处理器执行时，使所述处理器执行如权利要求1-5中任一项所述的方法。

附图说明

图1为本发明实施例提供的一种病历文本中患者基本信息的检查方法的流程图；

图2为本发明实施例提供的一种病历文本中患者基本信息的检查系统的结构框图。

具体实施方式

以下结合附图对本发明的原理和特征进行描述，所举实例只用于解释本发明，并非用于限定本发明的范围。

本发明实施例提供的一种病历文本中患者基本信息的检查方法，如图1所示，该方法包括：

110、利用文本抽取，从病历首页获取患者的第一基本信息实体，以及病历中描述患者病情的病历描述文本；

具体的，步骤110中获取患者的第一基本信息实体，如姓名、性别、年龄等，分别以e_n，e_g，e_a表示，还获取病历中描述患者病情的长文本X，并用x₁x₂x₃...x_n表示，xi(i＝1……n)表示长文本X中的单个文字。

120、根据所述第一基本信息实体，从所述病历描述文本中抽取第二基本信息实体；

具体的，利用步骤110抽取的第一基本信息实体，即可对病历描述文本中抽取相匹配的第二基本信息实体。

130、根据标准基本信息对所述第一基本信息实体和所述第二基本信息实体进行检查。

具体的，最后，利用预先采集的标准基本信息，即可对步骤110和步骤120抽取的第二基本信息实体进行检查，从而完成病历文本中患者基本信息的检查。

本发明实施例提供的一种病历文本中患者基本信息的检查方法，利用文本抽取和比对的方式，能够自动化完成对病历文本中患者基本信息的检查，大大提高了检查效率和检查质量。

可选地，步骤102具体包括：

1201、利用所述第一基本信息实体对所述病历描述文本进行回标，得到粗标数据；

具体的，以姓名实体的回标为例，即若e_n＝x_ix_j，则将文本x_ix_j标注为姓名实体，从而得到姓名实体的粗标数据，其他实体的回标过程类似，在此不再赘述。该步骤中，利用病历数据的天然优势，可以有效规避不合法的信息。

1202、利用预先构建的规则集对所述粗标数据进行规则修正和增强，得到修正数据；

具体的，步骤1201的粗标数据会存在一些标注错误，需要利用规则集进行修正，如“男性患者多于女性患者”，此句中的“男”，“女”若标注为性别实体，则修正标注为非实体；另外，还需要增强易混淆的信息，如“张XX主任医师查房示”中“张XX”标注为非实体，通过上述修正和增强来得到修正数据。

1203、采用预训练语言模型在所述修正数据上进行微调，得到预测结果；

具体的，预训练语言模型可采用多种现有技术实现，例如，可采用BERT+CRF，其中，BERT中蕴含了大量的通用知识，利用预训练好的BERT模型，再用少量的标注数据进行微调(FINETUNE)可以快速达到很好的命名实体识别(NER)的效果。

1204、根据所述预测结果，完善所述规则集；

重复执行步骤1202-步骤1204，直到所述预训练语言模型的预测效果不再提升。

采用正则抽取无法保证信息的有效性，如“患者老年女性”，直接利用正则可能将“老年”抽取为姓名。相比于正则抽取的方法，本实施例中，利用规则集能够有效识别标注错误的数据，并利用预训练语言模型强大的信息表征能力和泛化能力，可以显著提升信息抽取的有效性。

可选地，步骤1201中，在利用所述第一基本信息实体对所述病历描述文本进行回标之前，还包括对所述病历描述文本进行清洗的步骤。

本实施例中，通过对文本进行清洗，能够减少文本中的无用信息。

可选地，步骤130具体包括：

本发明实施例提供一种病历文本中患者基本信息的检查系统，该系统中各个功能模块的具体功能已在前述方法实施例中进行了具体说明，以下不再赘述。

如图2所示，该系统包括：

可选地，第二抽取模块具体包括：

完善单元，用于根据所述预测结果，完善所述规则集；

可选地，检查模块，具体用于：

本发明实施例提供一种终端设备，包括：

处理器；以及

存储器，其上存储有可执行代码，当所述可执行代码被所述处理器执行时，使所述处理器执行上述的方法。

处理器可以是中央处理单元(Central Processing Unit，CPU)，还可以是其他通用处理器、数字信号处理器(Digital Signal Processor，DSP)、专用集成电路(Application Specific Integrated Circuit，ASIC)、现场可编程门阵列(Field-Programmable Gate Array，FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。

存储器可以包括各种类型的存储单元，例如系统内存、只读存储器(ROM)，和永久存储装置。其中，ROM可以存储处理器或者计算机的其他模块需要的静态数据或者指令。永久存储装置可以是可读写的存储装置。永久存储装置可以是即使计算机断电后也不会失去存储的指令和数据的非易失性存储设备。在一些实施方式中，永久性存储装置采用大容量存储装置(例如磁或光盘、闪存)作为永久存储装置。另外一些实施方式中，永久性存储装置可以是可移除的存储设备(例如软盘、光驱)。系统内存可以是可读写存储设备或者易失性可读写存储设备，例如动态随机访问内存。系统内存可以存储一些或者所有处理器在运行时需要的指令和数据。此外，存储器可以包括任意计算机可读存储媒介的组合，包括各种类型的半导体存储芯片(DRAM，SRAM，SDRAM，闪存，可编程只读存储器)，磁盘和/或光盘也可以采用。在一些实施方式中，存储器可以包括可读和/或写的可移除的存储设备，例如激光唱片(CD)、只读数字多功能光盘(例如DVD-ROM，双层DVD-ROM)、只读蓝光光盘、超密度光盘、闪存卡(例如SD卡、min SD卡、Micro-SD卡等等)、磁性软盘等等。计算机可读存储媒介不包含载波和通过无线或有线传输的瞬间电子信号。

存储器上存储有可执行代码，当可执行代码被处理器处理时，可以使处理器执行上文述及的方法中的部分或全部。

上文中已经参考附图详细描述了本发明的方案。在上述实施例中，对各个实施例的描述都各有侧重，某个实施例中没有详细描述的部分，可以参见其他实施例的相关描述。本领域技术人员也应该知悉，说明书中所涉及的动作和模块并不一定是本发明所必须的。另外，可以理解，本发明实施例方法中的步骤可以根据实际需要进行顺序调整、合并和删减，本发明实施例装置中的模块可以根据实际需要进行合并、划分和删减。

此外，根据本发明的方法还可以实现为一种计算机程序或计算机程序产品，该计算机程序或计算机程序产品包括用于执行本发明的上述方法中部分或全部步骤的计算机程序代码指令。

或者，本发明还可以实施为一种非暂时性机器可读存储介质(或计算机可读存储介质、或机器可读存储介质)，其上存储有可执行代码(或计算机程序、或计算机指令代码)，当所述可执行代码(或计算机程序、或计算机指令代码)被电子设备(或计算设备、服务器等)的处理器执行时，使所述处理器执行根据本发明的上述方法的各个步骤的部分或全部。

本领域技术人员还将明白的是，结合这里的公开所描述的各种示例性逻辑块、模块、电路和算法步骤可以被实现为电子硬件、计算机软件或两者的组合。

附图中的流程图和框图显示了根据本发明的多个实施例的系统和方法的可能实现的体系架构、功能和操作。在这点上，流程图或框图中的每个方框可以代表一个模块、程序段或代码的一部分，所述模块、程序段或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意，在有些作为替换的实现中，方框中所标记的功能也可以以不同于附图中所标记的顺序发生。例如，两个连续的方框实际上可以基本并行地执行，它们有时也可以按相反的顺序执行，这依所涉及的功能而定。也要注意的是，框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合，可以用执行规定的功能或操作的专用的基于硬件的系统来实现，或者可以用专用硬件与计算机指令的组合来实现。

以上，仅为本发明的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到各种等效的修改或替换，这些修改或替换都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应以权利要求的保护范围为准。

Claims

1.一种病历文本中患者基本信息的检查方法，其特征在于，包括：

2.根据权利要求1所述的一种病历文本中患者基本信息的检查方法，其特征在于，步骤2具体包括：

步骤2.4、根据所述预测结果，完善所述规则集；

3.根据权利要求2所述的一种病历文本中患者基本信息的检查方法，其特征在于，步骤2.1中，在利用所述第一基本信息实体对所述病历描述文本进行回标之前，还包括对所述病历描述文本进行清洗的步骤。

4.根据权利要求2所述的一种病历文本中患者基本信息的检查方法，其特征在于，所述预训练语言模型采用BERT+CRF。

5.根据权利要求1-4任一项所述的一种病历文本中患者基本信息的检查方法，其特征在于，步骤3具体包括：

6.一种病历文本中患者基本信息的检查系统，其特征在于，包括：

7.根据权利要求6所述的一种病历文本中患者基本信息的检查系统，其特征在于，第二抽取模块具体包括：

完善单元，用于根据所述预测结果，完善所述规则集；

8.根据权利要求2所述的一种病历文本中患者基本信息的检查方法，其特征在于，检查模块，具体用于：

9.一种终端设备，其特征在于，包括：

处理器；以及

10.一种非暂时性机器可读存储介质，其上存储有可执行代码，其特征在于，当所述可执行代码被电子设备的处理器执行时，使所述处理器执行如权利要求1-5中任一项所述的方法。