CN108711443B

CN108711443B - 电子病历的文本数据解析方法和装置

Info

Publication number: CN108711443B
Application number: CN201810430349.7A
Authority: CN
Inventors: 陈曦
Original assignee: Chengdu Zhixin Electronic Technology Co ltd
Current assignee: Suzhou Yiyuan Wanshu Technology Co.,Ltd.
Priority date: 2018-05-07
Filing date: 2018-05-07
Publication date: 2021-11-30
Anticipated expiration: 2038-05-07
Also published as: CN108711443A

Abstract

本申请涉及一种电子病历的文本数据解析方法和装置，所述方法包括：对样本文件进行处理，获取样本文件中的所有文本信息；根据获取的文本信息和样本文件的标签结构，建立知识框架字典；获取待解析的电子病历，提取出其中的原始文本信息；将原始文本信息与所述知识框架字典中的内容进行对比判断，完成原始文本信息的结构化解析。本申请能够在XML文件存在大量标签，或标签设计和内容填写混乱的情况下，以简洁的方法抽取文本内容；抛弃了现有的文本解析方法对XML标签的依赖，大大减少了代码量；并结合知识框架字典，保证了结构解析的正确性。

Description

电子病历的文本数据解析方法和装置

技术领域

本申请涉及计算机数据库技术领域，具体涉及一种电子病历的文本数据解析方法和装置。

背景技术

EMR(Electronic Medical Record，电子病历)是利用用电子设备(如，计算机)来保存、管理、传输和重现的数字化的医疗记录，一般包括病人的疾病和诊疗情况。EMR能够取代手写纸张病历，便于进行数字化、信息化的管理。电子病历一般以XML结构下的文本数据形式呈现，由于电子病历种类繁多，内容量大，如何用简洁、高效的方式对其进行解析是需要考虑的问题。

相关技术中，常见的是利用XML标签进行解析的方式。即通过人工分析XML文件，并对其中的所有标签作用了解后，每个标签对应一段定位到具体标签位置和抽取数据的代码，从而解析出其结构和内容。这种方法存在以下问题：首先，电子病历涉及的XML文件种类很多，常达上千种，涉及的标签结构可能成千上万，对应的代码工作量大；其次，标签一般由电子病历厂商的技术人员定义，同一级父级标签下面可能会出现多个相同名字、不同属性的子级标签，导致对应的代码实现困难；并且，电子病历的填写人员在进行内容填写时会出现内容合并的情况，导致按标签取出的内容不正确。

发明内容

为至少在一定程度上克服相关技术中存在的问题，本申请提供一种电子病历的文本数据解析方法和装置。

根据本申请实施例的第一方面，提供一种电子病历的文本数据解析方法，包括：

对样本文件进行处理，获取样本文件中的所有文本信息；

根据获取的文本信息和样本文件的标签结构，建立知识框架字典；

获取待解析的电子病历，提取出其中的原始文本信息；

将原始文本信息与所述知识框架字典中的内容进行对比判断，完成原始文本信息的结构化解析。

进一步地，所述获取样本文件中的所有文本信息，包括：

利用正则表达式获取样本文件中的所有文本信息；

所述文本信息中包括关键词和关键词所对应的内容值。

进一步地，所述建立知识框架字典，包括：

对样本文件的标签结构进行分析，从获取的文本信息中提取出关键词；

从获取的文本信息中找出每一种关键词所对应的所有的内容值；

将所有种类的关键词摘取出来单独存储，并在每一种关键词下面存储其对应的所有的内容值，形成知识框架字典。

进一步地，所述提取出其中的原始文本信息，包括：

利用正则表达式提取出待解析的电子病历中的原始文本信息；

所述原始文本信息中包括多条数据。

进一步地，所述将原始文本信息与所述知识框架字典中的内容进行对比判断，包括：

读取所述原始文本信息中的一条数据；

在所述知识框架字典中查询是否存在该条数据；

如果存在，则对该条数据进行解析；如果不存在，则将该条数据加入到指定的文件中；

重复进行上述操作，依次处理所述原始文本信息中的每一条数据。

进一步地，所述在所述知识框架字典中查询是否存在该条数据，包括：

直接对比所述知识框架字典中是否存在与该条数据相同的数据；

依次计算该条数据与所述知识框架字典中的每一条数据之间的相似度，判断是否存在大于阈值的相似度；

如果上述两种情况中的任意一种为存在，则认为所述知识框架字典中存在该条数据；如果上述两种情况均为不存在，则认为所述知识框架字典中不存在该条数据。

进一步地，所述对该条数据进行解析，包括：

查看所述知识框架字典中存在的该条数据的类型为关键词还是内容值；

将该条数据确定为相同的类型；

在确定类型之后的关键词和内容值之间建立对应关系。

根据本申请实施例的第二方面，提供一种电子病历的文本数据解析装置，包括：

样本处理模块，用于对样本文件进行处理，获取样本文件中的所有文本信息；

字典模块，用于根据获取的文本信息和样本文件的标签结构，建立知识框架字典；

提取模块，用于获取待解析的电子病历，提取出其中的原始文本信息；

解析模块，用于将原始文本信息与所述知识框架字典中的内容进行对比判断，完成原始文本信息的结构化解析。

根据本申请实施例的第三方面，提供一种非临时性计算机可读存储介质，当所述存储介质中的指令由计算设备的处理器执行时，使得计算设备执行一种电子病历的文本数据解析方法，所述方法包括：

对样本文件进行处理，获取样本文件中的所有文本信息；

获取待解析的电子病历，提取出其中的原始文本信息；

根据本申请实施例的第四方面，提供一种电子病历的文本数据解析设备，包括：

处理器；

用于存储处理器可执行指令的存储器；

其中，所述处理器被配置为：

对样本文件进行处理，获取样本文件中的所有文本信息；

获取待解析的电子病历，提取出其中的原始文本信息；

本申请的实施例提供的技术方案可以包括以下有益效果：

本申请能够在XML文件存在大量标签，或标签设计和内容填写混乱的情况下，以简洁的方法抽取文本内容。本申请抛弃了现有的文本解析方法对XML标签的依赖，大大减少了代码量；并结合知识框架字典，保证了结构解析的正确性。

应当理解的是，以上的一般描述和后文的细节描述仅是示例性和解释性的，并不能限制本申请。

附图说明

此处的附图被并入说明书中并构成本说明书的一部分，示出了符合本申请的实施例，并与说明书一起用于解释本申请的原理。

图1是根据一示例性实施例示出的一种电子病历的文本数据解析方法的流程图。

图2是根据一示例性实施例示出的一种根据知识框架字典进行文本解析的流程图。

图3是根据一示例性实施例示出的一种电子病历的文本数据解析装置的电路框图。

具体实施方式

这里将详细地对示例性实施例进行说明，其示例表示在附图中。下面的描述涉及附图时，除非另有表示，不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本申请相一致的所有实施方式。相反，它们仅是与如所附权利要求书中所详述的、本申请的一些方面相一致的装置和方法的例子。

图1是根据一示例性实施例示出的一种电子病历的文本数据解析方法的流程图，该方法包括以下步骤。

步骤101：对样本文件进行处理，获取样本文件中的所有文本信息；

步骤102：根据获取的文本信息和样本文件的标签结构，建立知识框架字典；

步骤103：获取待解析的电子病历，提取出其中的原始文本信息；

步骤104：将原始文本信息与所述知识框架字典中的内容进行对比判断，完成原始文本信息的结构化解析。

在步骤101和步骤102中，可以根据实际的需要选择样本文件的范围。

在通常情况下，可以利用爬虫等手段收集大批量的电子病历样本，对其进行分析处理后，获得一个通用的知识框架字典，这样的知识框架字典中基本能够涵盖所有可能出现的关键词。因而，后续在分析任何一个电子病历文件时，都使用这个通用的知识框架字典进行对比判断。

如果针对某一个厂商的电子病历文件，或者小范围的若干个厂商的电子病历文件，可以在较小的范围内采集样本文件，形成一个特定的知识框架字典。这样的知识框架字典涵盖范围较窄，只能在特定的范围内使用。

一些实施例中，步骤101中，所述获取样本文件中的所有文本信息，包括：

利用正则表达式获取样本文件中的所有文本信息；

所述文本信息中包括关键词和关键词所对应的内容值。

其中，正则表达式可以认为是一种带格式约束的模糊匹配。比如“/a.c/”这个正则表达式中，句点(.)可以匹配字符串中的各种打印或非打印字符；只有一个字符例外，这个例外就是换行符(\n)。因此上述的正则表达式能够匹配aac、abc、acc、adc，以及a1c、a2c、a-c和a#c等字符串。

类似的，可以采用正则表达式取出XML文件中符合一定格式、能够取出的部分。可以理解的是，正则表达式也可以应用于其他形式的文件中，比如HTML文件。在一些实施例中，以下表达式可以匹配出HTML文件中的标签属性：<\\/？\\w+((\\s+\\w+(\\s*＝\\s*(？:".*？"|'.*？'|[\\^'">\\s]+))？)+\\s*|\\s*)\\/？>。

一些实施例中，步骤102中，所述建立知识框架字典，包括：

分析XML的标签结构，获取关键词。比如，对以下部分：

获取的关键词是：

{“姓名：”；“年龄：”}

通过对大量的样本文件进行分析，将所有的关键词都提取出来，然后合并相同的关键词，形成知识框架字典。知识框架字典以关键词为线索，每个关键词下面都保存有附属的内容值，上述实施例中，内容值“20岁”附属于关键词“年龄：”，内容值“张诚”附属于关键词“姓名：”。多个相同的关键词合并之后，它们附属的多个内容值都添加到同一个关键词之下。因此，所述知识框架字典能不仅够体现出多个内容值之间的关系，也能够体现出内容值所属的关键字。

一些实施例中，步骤103中，所述提取出其中的原始文本信息，包括：

所述原始文本信息中包括多条数据。

仍然使用上述的实施例进行说明，利用正则表达式读取XML文件时，会把以下信息都提取出来：

{“姓名：”；“张诚”；“年龄：”；“20岁”}

然后再将所述原始文本信息与之前提取出的知识框架字典进行对比，就获得想要的文本结构化解析：

{“姓名：张诚”；“年龄：20岁”}

本申请的方法抛弃XML的标签结构，直接通过正则表达式获取XML文件的所有文本信息，此时这些信息只包括所关心的原始信息，不体现内容结构。本方法能够规避采用XML文件标签获取文本信息时将会遇到的问题。

容易理解的是，如果电子病历以HTML格式呈现，本申请的方法仍然适用。此外，如果电子病历以纯文本的形式呈现，则无需采用正则化表达式即可直接获取所述的原始文本信息，并且后续的处理过程仍然适用。

如图2所示，在一些实施例中，步骤104中，所述将原始文本信息与所述知识框架字典中的内容进行对比判断，包括：

读取所述原始文本信息中的一条数据；

在所述知识框架字典中查询是否存在该条数据；

本申请的解析方法是，逐条读取原始文本信息中的每一条数据，与知识框架字典中的信息进行对比判断，区分出关键字和内容值，最终实现原始文本的结构化解析。

一些实施例中，所述在所述知识框架字典中查询是否存在该条数据，包括：

一些实施例中，所述对该条数据进行解析，包括：

将该条数据确定为相同的类型；

在确定类型之后的关键词和内容值之间建立对应关系。

判断一条数据是否存在于知识框架字典中，可以先在知识框架字典中查询是否有相同的字段，如果有，则直接判断存在；如果没有，再进行下一步，进行字符串的相似度对比。相似度可以采用字符串的模糊匹配算法，也可以采用自然语言处理的语义分析，或者其它能够比较相似程度的方法。如果确认一条数据存在于知识框架字典中，则同时可以确认它的类型是关键词还是内容值。

确认数据的类型之后，如果是关键词，考察已确认类型的内容值中是否有附属于该关键词的；如果是内容值，则考察它是否附属于已确认类型的某个关键词。对于存在附属关系的关键词和内容值，在它们之间建立对应关系。

图3是根据一示例性实施例示出的一种电子病历的文本数据解析装置的电路框图。参照图3，该装置包括样本处理模块301、字典模块302、提取模块303和解析模块304。

样本处理模块301用于对样本文件进行处理，获取样本文件中的所有文本信息；

字典模块302用于根据获取的文本信息和样本文件的标签结构，建立知识框架字典；

提取模块303用于获取待解析的电子病历，提取出其中的原始文本信息；

解析模块304用于将原始文本信息与所述知识框架字典中的内容进行对比判断，完成原始文本信息的结构化解析。

关于上述实施例中的装置，其中各个模块执行操作的具体方式已经在有关该方法的实施例中进行了详细描述，此处将不做详细阐述说明。

本申请还提供如下的实施例：

一种非临时性计算机可读存储介质，当所述存储介质中的指令由计算设备的处理器执行时，使得计算设备执行一种电子病历的文本数据解析方法，所述方法包括：

对样本文件进行处理，获取样本文件中的所有文本信息；

获取待解析的电子病历，提取出其中的原始文本信息；

本申请还提供如下的实施例：

一种电子病历的文本数据解析设备，包括：

处理器；

用于存储处理器可执行指令的存储器；

其中，所述处理器被配置为：

对样本文件进行处理，获取样本文件中的所有文本信息；

获取待解析的电子病历，提取出其中的原始文本信息；

可以理解的是，上述各实施例中相同或相似部分可以相互参考，在一些实施例中未详细说明的内容可以参见其他实施例中相同或相似的内容。

需要说明的是，在本申请的描述中，术语“第一”、“第二”等仅用于描述目的，而不能理解为指示或暗示相对重要性。此外，在本申请的描述中，除非另有说明，“多个”的含义是指至少两个。

流程图中或在此以其他方式描述的任何过程或方法描述可以被理解为，表示包括一个或更多个用于实现特定逻辑功能或过程的步骤的可执行指令的代码的模块、片段或部分，并且本申请的优选实施方式的范围包括另外的实现，其中可以不按所示出或讨论的顺序，包括根据所涉及的功能按基本同时的方式或按相反的顺序，来执行功能，这应被本申请的实施例所属技术领域的技术人员所理解。

应当理解，本申请的各部分可以用硬件、软件、固件或它们的组合来实现。在上述实施方式中，多个步骤或方法可以用存储在存储器中且由合适的指令执行系统执行的软件或固件来实现。例如，如果用硬件来实现，和在另一实施方式中一样，可用本领域公知的下列技术中的任一项或他们的组合来实现：具有用于对数据信号实现逻辑功能的逻辑门电路的离散逻辑电路，具有合适的组合逻辑门电路的专用集成电路，可编程门阵列(PGA)，现场可编程门阵列(FPGA)等。

本技术领域的普通技术人员可以理解实现上述实施例方法携带的全部或部分步骤是可以通过程序来指令相关的硬件完成，所述的程序可以存储于一种计算机可读存储介质中，该程序在执行时，包括方法实施例的步骤之一或其组合。

此外，在本申请各个实施例中的各功能单元可以集成在一个处理模块中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个模块中。上述集成的模块既可以采用硬件的形式实现，也可以采用软件功能模块的形式实现。所述集成的模块如果以软件功能模块的形式实现并作为独立的产品销售或使用时，也可以存储在一个计算机可读取存储介质中。

上述提到的存储介质可以是只读存储器，磁盘或光盘等。

在本说明书的描述中，参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本申请的至少一个实施例或示例中。在本说明书中，对上述术语的示意性表述不一定指的是相同的实施例或示例。而且，描述的具体特征、结构、材料或者特点可以在任何的一个或多个实施例或示例中以合适的方式结合。

尽管上面已经示出和描述了本申请的实施例，可以理解的是，上述实施例是示例性的，不能理解为对本申请的限制，本领域的普通技术人员在本申请的范围内可以对上述实施例进行变化、修改、替换和变型。

Claims

1.一种电子病历的文本数据解析方法，其特征在于，包括：

对样本文件进行处理，获取样本文件中的所有文本信息；

所述建立知识框架字典，包括：对样本文件的标签结构进行分析，从获取的文本信息中提取出关键词；从获取的文本信息中找出每一种关键词所对应的所有的内容值；将所有种类的关键词摘取出来单独存储，并在每一种关键词下面存储其对应的所有的内容值，形成知识框架字典；

获取待解析的电子病历，提取出其中的原始文本信息；

将原始文本信息与所述知识框架字典中的内容进行对比判断，完成原始文本信息的结构化解析；

所述将原始文本信息与所述知识框架字典中的内容进行对比判断，包括：读取所述原始文本信息中的一条数据；在所述知识框架字典中查询是否存在该条数据；如果存在，则对该条数据进行解析；

所述对该条数据进行解析，包括：查看所述知识框架字典中存在的该条数据的类型为关键词还是内容值；将该条数据确定为相同的类型；确认数据的类型之后，如果是关键词，考察已确认类型的内容值中是否有附属于该关键词的；如果是内容值，则考察它是否附属于已确认类型的某个关键词，对于存在附属关系的关键词和内容值，在它们之间建立对应关系。

2.根据权利要求1所述的一种电子病历的文本数据解析方法，其特征在于，所述获取样本文件中的所有文本信息，包括：

利用正则表达式获取样本文件中的所有文本信息；

所述文本信息中包括关键词和关键词所对应的内容值。

3.根据权利要求1所述的一种电子病历的文本数据解析方法，其特征在于，所述提取出其中的原始文本信息，包括：

所述原始文本信息中包括多条数据。

4.根据权利要求1所述的一种电子病历的文本数据解析方法，其特征在于，所述将原始文本信息与所述知识框架字典中的内容进行对比判断，包括：

读取所述原始文本信息中的一条数据；

在所述知识框架字典中查询是否存在该条数据；

如果不存在，则将该条数据加入到指定的文件中；

5.根据权利要求1或4所述的一种电子病历的文本数据解析方法，其特征在于，所述在所述知识框架字典中查询是否存在该条数据，包括：

如果上述两种情况中的任意一种为存在，则认为所述知识框架字典中存在该条数据；

如果上述两种情况均为不存在，则认为所述知识框架字典中不存在该条数据。

6.一种电子病历的文本数据解析装置，其特征在于，包括：样本处理模块，用于对样本文件进行处理，获取样本文件中的所有文本信息；

字典模块，用于根据获取的文本信息和样本文件的标签结构，建立知识框架字典；所述建立知识框架字典，包括：对样本文件的标签结构进行分析，从获取的文本信息中提取出关键词；从获取的文本信息中找出每一种关键词所对应的所有的内容值；将所有种类的关键词摘取出来单独存储，并在每一种关键词下面存储其对应的所有的内容值，形成知识框架字典；

解析模块，用于将原始文本信息与所述知识框架字典中的内容进行对比判断，完成原始文本信息的结构化解析；

7.一种非临时性计算机可读存储介质，其特征在于，当所述存储介质中的指令由计算设备的处理器执行时，使得计算设备执行一种电子病历的文本数据解析方法，所述方法包括：

对样本文件进行处理，获取样本文件中的所有文本信息；

根据获取的文本信息和样本文件的标签结构，建立知识框架字典；所述建立知识框架字典，包括：对样本文件的标签结构进行分析，从获取的文本信息中提取出关键词；从获取的文本信息中找出每一种关键词所对应的所有的内容值；将所有种类的关键词摘取出来单独存储，并在每一种关键词下面存储其对应的所有的内容值，形成知识框架字典；

获取待解析的电子病历，提取出其中的原始文本信息；

8.一种电子病历的文本数据解析设备，其特征在于，包括：

处理器；

用于存储处理器可执行指令的存储器；

其中，所述处理器被配置为：

对样本文件进行处理，获取样本文件中的所有文本信息；

获取待解析的电子病历，提取出其中的原始文本信息；