CN113033177B

CN113033177B - 一种电子病历数据的解析方法及装置

Info

Publication number: CN113033177B
Application number: CN201911346926.5A
Authority: CN
Inventors: 杨宝山; 强晟
Original assignee: Yidu Cloud Beijing Technology Co Ltd
Current assignee: Yidu Cloud Beijing Technology Co Ltd
Priority date: 2019-12-24
Filing date: 2019-12-24
Publication date: 2024-05-10
Anticipated expiration: 2039-12-24
Also published as: CN113033177A

Abstract

本发明公开了一种电子病历数据的解析方法、装置、计算机可读存储介质及电子设备，方法包括：确定待解析电子病历文档对应的文本串序列；根据预设字段名称集合和所述待解析电子病历文档对应的文本串序列，确定所述待解析电子病历文档对应的配置文件集合；根据所述待解析电子病历文档对应的配置文件集合，对所述待解析电子病历文档中的电子病历数据进行解析。通过本发明的技术方案，可提高对待解析电子病历文档中电子病历数据的解析效率。

Description

一种电子病历数据的解析方法及装置

技术领域

本发明涉及数据处理技术领域，尤其涉及一种电子病历数据的解析方法及装置。

背景技术

随着计算机技术的发展，电子病历的数量呈现爆发式的增长，电子病历(Electronic Medical Record，简称EMR)是利用电子设备(如，计算机)来保存、管理、传输和重现的数字化的医疗记录，一般包括病人的疾病和诊疗情况。电子病历能够取代手写纸张病历，便于进行数字化、信息化的管理。电子病历大多是自然语言记录的文档，一般以可扩展标准语言(Extensible Markup Language，简称XML)或超文本标记语言(Hyper TextMarkup Language，简称HTML)结构下的文本内容形式呈现，通常需要对电子病历进行解析，进而获得结构化电子病历，之后，即可对结构化电子病历进行数据挖掘。由于电子病历种类繁多，内容量大，如何用简洁、高效的方式对其进行解析是亟待解决的问题。

目前，通过人工分析电子病历中的文本，在了解电子病历中数据的可扩展标准语言标签或者超文本标记语言标签的作用后，每个标签对应一段定位到具体标签位置和抽取数据的代码，从而解析出电子病历中的文本。

但是，电子病历的可扩展标准语言标签或者超文本标记语言标签的种类很多，常达上千种，涉及的标签结构可能成千上万，使得解析效率较低。

发明内容

本发明提供了一种电子病历数据的解析方法、装置、计算机可读存储介质及电子设备，可提高对待解析电子病历文档中电子病历数据的解析效率。

第一方面，本发明提供了一种电子病历数据的解析方法，包括：

确定待解析电子病历文档对应的文本串序列；

根据预设字段名称集合和所述待解析电子病历文档对应的文本串序列，确定所述待解析电子病历文档对应的配置文件集合；

根据所述待解析电子病历文档对应的配置文件集合，对所述待解析电子病历文档中的电子病历数据进行解析。

优选地，所述确定待解析电子病历文档对应的文本串序列，包括：

获取待解析电子病历文档；

根据预设标点符号，对所述待解析电子病历文档中的文本内容进行分句，确定所述待解析电子病历文档对应的文本串序列。

优选地，所述根据预设字段名称集合和所述待解析电子病历文档对应的文本串序列，确定所述待解析电子病历文档对应的配置文件集合，包括：

根据预设字段名称集合，对所述待解析电子病历文档对应的文本串序列进行字段划分，确定所述待解析电子病历文档对应的至少一个字段名称组合，所述字段名称组合包括开始字段名称和结束字段名称；

针对每个所述字段名称组合，确定所述字段名称组合对应的字段配置文件；

根据各个所述字段名称组合分别对应的字段配置文件，确定所述待解析电子病历文档对应的配置文件集合。

优选地，所述确定所述字段名称组合对应的字段配置文件，包括：

生成所述字段名称组合对应的初始字段配置文件；

将预设辅助函数加入所述初始字段配置文件中，以确定所述字段名称组合对应的字段配置文件。

优选地，所述根据各个所述字段名称组合分别对应的字段配置文件，确定所述待解析电子病历文档对应的配置文件集合，包括：

当各个所述字段配置文件的数量小于预设值时，对所述待解析电子病历文档对应的属性数据进行扫描，以确定所述待解析电子病历文档中至少一个字段名称，所述预设字段名称集合包括所述字段名称；

针对每个所述字段名称，确定所述字段名称对应的节点配置文件，所述节点配置文件包括所述字段名称对应的字段内容的节点路径；

通过各个所述字段配置文件和各个所述节点配置文件，形成所述待解析电子病历文档对应的配置文件集合。

优选地，所述根据所述待解析电子病历文档对应的配置文件集合，对所述待解析电子病历文档中的电子病历数据进行解析，包括：

对各个所述待解析电子病历文档分别对应的配置文件集合进行合并，以确定合并配置文件集合；

针对所述合并配置文件集合中的每个配置文件，确定所述配置文件在所述合并配置文件集合中的重复次数；

将满足预设条件的所述重复次数对应的所述配置文件确定为目标配置文件；

根据各个所述目标配置文件，对所述待解析电子病历文档中的电子病历数据进行解析。

优选地，所述文本串序列中的文本串顺序与所述待解析电子病历文档中电子病历数据的先后顺序匹配。

第二方面，本发明提供了一种电子病历数据的解析装置，包括：

序列确定模块，用于确定待解析电子病历文档对应的文本串序列；

集合确定模块，用于根据预设字段名称集合和所述待解析电子病历文档对应的文本串序列，确定所述待解析电子病历文档对应的配置文件集合；

解析模块，用于根据所述待解析电子病历文档对应的配置文件集合，对所述待解析电子病历文档中的电子病历数据进行解析。

第三方面，本发明提供了一种计算机可读存储介质，包括执行指令，当电子设备的处理器执行所述执行指令时，所述处理器执行如第一方面中任一所述的方法。

第四方面，本发明提供了一种电子设备，包括处理器以及存储有执行指令的存储器，当所述处理器执行所述存储器存储的所述执行指令时，所述处理器执行如第一方面中任一所述的方法。

本发明提供了一种电子病历数据的解析方法、装置、计算机可读存储介质及电子设备，该方法通过确定待解析电子病历文档对应的文本串序列，从而便于对待解析电子病历文档进行数据处理，然后，基于字段名称集合和待解析电子病历文档对应的文本串序列，确定待解析电子病历文档对应的配置文件集合，基于待解析电子病历文档对应的配置文件集合，对待解析电子病历文档进行解析。综上所述，通过本发明的技术方案，可提高对待解析电子病历文档的解析效率。

上述的非惯用的优选方式所具有的进一步效果将在下文中结合具体实施方式加以说明。

附图说明

为了更清楚地说明本发明实施例或现有的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明中记载的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1为本发明一实施例提供的一种电子病历数据的解析方法的流程示意图；

图2为本发明一实施例提供的另一种电子病历数据的解析方法的流程示意图；

图3为本发明一实施例提供的一种电子病历数据的解析装置的结构示意图；

图4为本发明一实施例提供的一种电子设备的结构示意图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚，下面将结合具体实施例及相应的附图对本发明的技术方案进行清楚、完整地描述。显然，所描述的实施例仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

前述已知，电子病历文档中的电子病历数据的解析往往依靠一段定位到具体标签位置和抽取数据的代码，实现对电子病历中电子病历数据的解析。而标签结构种类较多，导致上述方法的解析效率较低。本发明则试图基于待解析电子病历文档对应的文本串序列及预设字段名称集合，确定待解析电子病历文档对应的配置文件集合，基于配置文件集合，实现对待解析电子病历文档的解析。所以相对于传统方法，本发明实施例可提高对待解析电子病历文档中电子病历数据的解析效率，降低解析成本。

参照图1所示，为本发明所述电子病历数据的解析方法的一个具体实施例。本实施例中所述方法包括以下步骤：

步骤101，确定待解析电子病历文档对应的文本串序列。

待解析电子病历文档具体指的是需要解析的电子病历文档，其数据结构可以是HL7临床文档结构(Clinical Document Architecture，简称CDA)，HL7临床文档结构是一种指定结构和语义的文档标记标准，通常以可扩展标准语言或超文本标记语言的格式进行数据存储，同时这些存储的数据大多以键值对的形式进行组织，因此，待解析电子病历文档为可扩展标准语言文档或超文本标记语言文档。待解析电子病历文档的数量可以是多个，多个待解析电子病历文档可以对应相同的电子病历模板，也可以对应不同的电子病历模板，电子病历模板具体指的是一类具有相似的数据分布特点及内容设定的电子病历，通常电子病历模板包含多个字段名称和每个字段名称对应的待填写内容。电子病历模板对应的多个待解析电子病历文档的数量可以是几十万，甚至上百万，这些待解析电子病历文档中的字段名称是一样的，但是字段名称对应的内容存在差异。

需要说明的是，这些待解析电子病历文档来源包括但不限于医院电子病历系统中存储的电子病历，可以来自同一医院的电子病历系统，也可以是不同医院的电子病历系统。文本串序列指的是按照一定顺序排列的文本串，文本串的先后顺序与待解析电子病历文档中电子病历数据的先后顺序相同，从而确保文本串序列的准确完整。

举例来说，待解析电子病历文档中的部分内容如下：

姓名：张某某籍贯：河南

则，上述待解析电子病历文档对应的文本串序列为[“姓名”，“张某某”，“籍贯”，“河南”]，其中，“姓名”、“张某某”、“籍贯”、“河南”均为文本串。

步骤102，根据预设字段名称集合和所述待解析电子病历文档对应的文本串序列，确定所述待解析电子病历文档对应的配置文件集合。

考虑到不同科室和/或不同电子病历系统对同一字段名称有不同的定义，导致对于相同语义的字段名称具有不同的表达，因此，预设字段名称集合中存在语义相同表述不同的若干个字段名称。字段名称集合通常是综合各种电子病历模板确定的，从而使得字段名称集合的若干个字段名称可以组成各种电子病历模板，后续，仅仅需要对字段名称集合进行更新，无需考虑待解析电子病历文档对应的电子病历模板差异。显而易见的，当多个待解析电子病历文档对应同一电子病历模板，为了降低计算量，提高解析效率，预设字段集合可以仅仅包括多个待解析电子病历文档对应的电子病历模板中的所有字段名称。字段名称指示了一类信息对应的名称，比如，字段名称可以是“手术过程描述、姓名、电话”等某一专题名称。

配置文件集合包括若干个配置文件，每个配置文件均可解析一条字段内容，即配置文件指示了如何解析出字段内容，字段内容为字段名称对应的内容，比如，“姓名：张某某”，其中，“姓名”为字段名称，“张某某”为字段内容。显而易见的，待解析电子病历文档中所有字段内容均对应有字段名称，为了对待解析电子病历文档中电子病历数据进行完整的解析，在这里，配置文件集合中文件的数量和待解析电子病历文档中字段名称的数量相同。举例来说，若待解析电子病历文档数据中有N个字段名称，则待解析电子病历文档对应的配置文件集合中的文件数量也是N。

步骤103，根据所述待解析电子病历文档对应的配置文件集合，对所述待解析电子病历文档中的电子病历数据进行解析。

根据待解析电子病历文档对应的配置文件集合，提取出待解析电子病历文档中的若干个字段内容，从而实现对待解析电子病历文档中电子病历数据的解析。

本领域技术人员应当理解的，本发明实施也适用于非电子病历文档，不应当理解为仅适用于电子病历文档。

通过以上技术方案可知，本实施例所述方法具备的有益效果是：

本实施例通过预设字段名称集合和待解析电子病历文档对应的文本串序列，可确定出待解析电子病历文档对应的配置文件集合，根据配置文件集合，对待解析电子病历文档进行解析，以提取出待解析电子病历文档中的电子病历数据，考虑到配置文件集合仅仅考虑到待解析电子病历文档中电子病历数据的数据结构，而电子病历数据的数据结构相对于标签结构的复杂性较低、复用性较高，因此，通过上述方法可提高对待解析电子病历文档中电子病历数据的解析效率和配置文件的复用性，降低解析成本。

图1所示仅为本发明所述方法的基础实施例，在其基础上进行一定的优化和拓展，还能够得到所述方法的其他优选实施例。

如图2所示，为本发明所述电子病历数据的解析方法的另一个具体实施例。本实施例在前述实施例的基础上，对于电子病历数据的解析过程进行了更具体的描述和一定程度的优化。

本实施例中所述方法包括以下步骤：

步骤201、获取待解析电子病历文档；根据预设标点符号，对所述待解析电子病历文档中的文本内容进行分句，确定所述待解析电子病历文档对应的文本串序列。

待解析电子病历文档中的文本内容通常包括若干个复句，复句是由若干个句子组成的意思完整的句子，在自然语言处理过程中，通常需要对复句进行分句以高效准确的处理数据，分句指的是从复句里划分出来的相当于单句的部分，分句和分句之间一般有标点符号，标点符号包括但不限于逗号、分号、冒号、空格等，分句可降低了句子和句子之间的相关性，但是不改变句子的语义，以保证数据的真实准确。待解析电子病历文档中包括显示的文本内容和不显示的属性数据，这些属性数据通常是描述节点标签的数据，这些属性数据为利用代码语言编写的数据。

举例来说，一个标签的内容如下：

<Content_Text>鼻咽癌放化疗后多发转移末次化疗后2周</Content_Text>

</Section>

其中，</Section>表示标签的结束；Section表示标签；Type表示标签类型；ControlName表示标签内容的名称；Content_Text表示标签内容；<Section Type＝“1”ControlName＝“主诉”>是描述“鼻咽癌放化疗后多发转移末次化疗后2周”的属性数据，这个是不会显示出来的，显示的是<Content_Text>和</Content_Text>之间的内容，即“鼻咽癌放化疗后多发转移末次化疗后2周”，而文本串序列中的文本串是从显示的文本内容中确定的。

具体地，获取多个待解析电子病历文档，针对每个待解析电子病历文档，为了保证字段名称的完整性，根据标点符号，按照待解析电子病历文档中数据的顺序对其中显示的文本内容进行分句，以确定待解析电子病历文档对应的文本串序列，文本串序列中的文本串顺序和待解析电子病历文档中的数据先后顺序一一对应，从而确保了文本串序列的完整准确。显而易见的，待解析电子病历文档对应的文本串序列包括待解析电子病历文档中所有显示的字段名称和字段内容，文本串序列中的文本串为语义完整的句子、短语等。

举例来说，文本内容为“手术过程描述：取上腹部正中切口左侧绕脐，逐层进腹。肝脏外观正常，表面光滑，无结节”，根据标点符号对该文本内容进行分句，得到的文本串序列为[“手术过程描述”，“取上腹部正中切口左侧绕脐”，“逐层进腹”，“肝脏外观正常”，“表面光滑”，“无结节”]，文本串序列中的6个文本串分别为手术过程描述、取上腹部正中切口左侧绕脐、逐层进腹、肝脏外观正常、表面光滑、无结节。

步骤202、根据预设字段名称集合，对所述待解析电子病历文档对应的文本串序列进行字段划分，确定所述待解析电子病历文档对应的至少一个字段名称组合，所述字段名称组合包括开始字段名称和结束字段名称。

显而易见的，字段内容具体指的是字段名称对应的内容，字段内容在字段名称之后，其他字段名称之前，因此，字段内容通常位于两个不同字段名称之间，举例来说，“主诉”和“既往史”这两个字段名称之间的内容为主诉对应的字段内容。

在这里，字段划分具体指的是从文本串序列中确定出字段内容的前后字段名称。具体地，按照文本串序列中文本串的先后顺序，依次检查预设字段名称集合中是否包括文本串序列中的文本串，当第一次检查到第一文本串在预设字段名称集合中时，该第一文本串为开始字段名称，之后，当第二次检查到的第二文本串在预设字段名称集合中时，该第二文本串为结束字段名称，开始字段名称和结束字段名称之间的内容即为字段内容，此时将开始字段名称和结束字段名称确定为字段名称组合，之后，将结束字段名称确定为开始字段名称，按照上述相似的流程，确定文本串序列对应的若干个字段名称组合。显而易见的，也可以确定出文本串序列中位于预设字段名称集合中的字段文本串序列，字段文本串序列中字段名称之间先后顺序和其对应在文本串序列中的先后顺序相同，针对字段文本串序列，以字段文本串序列中排在第一位的字段名称为开始字段名称，与开始字段名称之后相邻的字段名称为结束字段名称，之后，以结束字段名称为开始字段名称，确定出若干个字段名称组合。在这里，字段名称组合主要是针对键值对形式的文本内容的解析。

举例来说，文本串序列为[“姓名”，“张某某”，“籍贯”，“河南”，“年龄”，“25”，“民族”，“汉族”，……]，此时，按照文本串序列中文本串的顺序依次对文本串进行检查，确定预设字段名称集合中是否包括该文本串，在一种可能的实现方式中，先检查“姓名”这一文本串，若“姓名”在预设字段名称集合中，则“姓名”为开始字段名称，之后，对“张某某”进行检查，“张某某”不在预设字段名称集合中，对“籍贯”进行检查，若“籍贯”在预设字段名称集合中，则“籍贯”为结束字段名称，此时，确定出一个字段名称组合，该字段名称组合为[姓名，籍贯]，按照上述相似的方法，可依次确定出字段名称组合为[籍贯，年龄]、[年龄，民族]、……。在另一种可能的实现方式中，依次检查文本串序列中的“姓名”、“张某某”、“籍贯”、“河南”、“年龄”、“25”、“民族”、“汉族”、……，确定出的字段文本串序列为[“姓名”，“籍贯”，“年龄”，“民族”，……]，之后，即可确定出若干个字段名称组合为[姓名，籍贯]、[籍贯，年龄]、[年龄，民族]、……。

步骤203、针对每个所述字段名称组合，生成各个所述字段名称组合分别对应的初始字段配置文件；将预设辅助函数加入所述初始字段配置文件中，以确定所述字段名称组合对应的字段配置文件。

需要说明的是，可以在生成字段名称组合的同时生成字段配置文件，也可以先生成所有的字段名称组合，再生成字段配置文件。

初始字段配置文件指示了字段内容在待解析电子病历文档中的位置，包括但不限于开始字段名称、结束字段名称、配置文件标识、解析类型，这里，开始字段名称说明字段内容的开始位置，结束字段名称说明了字段内容的结束位置，字段内容位于开始字段名称和结束字段名称之间，配置文件标识用于区分不同的配置文件，解析类型用于说明区分不同的解析方法，这里，解析类型是键值对解析方法，举例来说，配置文件1的开始字段名称是“入院时间”、结束字段名称是“籍贯”，则利用配置文件1能够解析出待解析电子病历文档中入院时间和籍贯之间的字段内容。

辅助函数主要用来对从待解析电子病历文档中提取出的字段内容进行结构化，辅助函数包括但不限于时间格式化函数、文档格式转换函数。以辅助函数为时间格式化函数为例进行说明，如果待解析电子病历文档中字段内容为2019月10月14日，时间格式化函数用于将其他时间格式转化为“yyyy-MM-dd”的数据格式，此时，2019月10月14日这一字段内容经过辅助函数处理后的得到的电子病历数据为2019-10-14。

字段配置文件指示了字段内容的位置以及对字段内容的数据处理方式，包括但不限于开始字段名称、结束字段名称、配置文件标识、解析类型以及辅助函数，举例来说，配置文件2的开始字段名称是“入院时间”、结束字段名称是“籍贯”，辅助函数是“Xml2Text”，这里，辅助函数的意思是将将可扩展标记语言文档转化为需要显示的纯文本，则利用配置文件2能够解析出待解析电子病历文档中入院时间和籍贯之间的字段内容，并对字段内容进行格式转化，这里，需要说明的是，对待解析电子病历文档进行解析是得到是可扩展标记语言文档，可能包括不需要显示的属性数据，因此，需要将可扩展标记语言文档转化为纯文本，滤除不需要在电子设备上显示的属性数据。

显而易见的，对于开始字段名称和结束字段名称相同的字段配置文件的配置文件标识应当相同。

步骤204、当各个所述字段配置文件的数量小于预设值时，对所述待解析电子病历文档对应的属性数据进行扫描，以确定所述待解析电子病历文档中至少一个字段名称，所述预设字段名称集合包括所述字段名称。

待解析电子病历文档对应有多个字段配置文件，若待解析电子病历文档对应的字段配置文件的总数量不满足预设值时，预设值通常指的是待解析电子病历文档中所有显示的字段内容的总数，此时，待解析电子病历文档中包括键值对数据结构之外的数据结构，举例来说，如果是键值对的数据形式，则显示的内容应当为“key：value”的形式，比如“主诉：鼻咽癌放化疗后多发转移末次化疗后2周”，如果仅仅显示“鼻咽癌放化疗后多发转移末次化疗后2周”，而没有显示该内容对应的字段名称“主诉”，则说明该内容对应的字段名称“主诉”未显示，此时，数据结构不是键值对形式。

为了更为准确的确定出待解析电子病历文档中的字段内容对应的字段配置文件，此时，需要对待解析电子病历文档对应的属性数据进行扫描，从而确定待解析电子病历文档中的若干个隐藏的字段名称，预设字段名称集合中包括这些字段名称。属性数据为待解析电子病历文档中的隐藏数据，即不会显示的数据，这些属性数据通常指的是节点的属性信息，节点的属性信息可以理解为用于反映节点的本质的数据，例如，节点的属性信息可以包括属性名称、数据格式、数据来源、占位符等。属性数据在待解析电子病历文档中，但是不会显示在电子设备的屏幕上。

举例来说，待解析电子病历文档中的字段内容的条数为M，字段配置文件的数量为M-i，此时，则说明待解析电子病历文档中电子病历数据的数据结构除了键值对之外，还有其他数据结构，导致待解析电子病历文档在电子设备的屏幕上仅仅显示了字段内容，未显示字段内容对应的字段名称。

步骤205、针对每个所述字段名称，确定所述字段名称对应的节点配置文件，所述节点配置文件包括所述字段名称对应的字段内容的节点路径。

考虑到属性数据中的字段名称不会显示在电子设备的屏幕上，因此，无法确定出属性数据中的字段名称对应的字段名称组合，因此，需要配置该字段名称对应的节点配置文件，以确定该字段名称对应的字段内容在属性数据中的节点路径，在这里，节点配置文件可以是Xpath(XPath是一种可扩展标准语言文档的路径语言，可以用来选取可扩展标准语言文档中的节点)路径配置文件。

需要说明的是，节点配置文件包括但不限于配置文件标识、解析类型、节点路径等，这里，解析类型是节点路径解析方法，举例来说，假设节点路径为“//Section[contains(@ControlName,\“主诉\”)]/Content_Text”表示Xpath路径，其中，“Section”表示节点标签；“contains”表示包含函数；“ControlName”表示节点属性；“主诉”为“ControlName”节点属性对应的属性值；“Content_Text”表示“Section”这一节点标签对应的文本内容；则“//Section[contains(@ControlName,\“主诉\”)]/Content_Text”，表示找到包含ControlName节点属性的属性值为主诉的Section节点标签，并找到Section节点标签下的Content_Text节点的文本内容，从而实现字段内容的解析。

步骤206、通过各个所述字段配置文件和各个所述节点配置文件，形成所述待解析电子病历文档对应的配置文件集合。

配置文件集合包括待解析电子病历文档对应的所有的字段配置文件和所有的节点配置文件，从而使得配置文件集合可对键值对数据结构和键值对之外的数据结构对应的数据进行解析。配置文件集合能够对待解析电子病历文档进行完整的解析及简单的数据结构化处理。

步骤207、对各个所述待解析电子病历文档分别对应的配置文件集合进行合并，以确定合并配置文件集合。

合并配置文件集合包括所有的待解析电子病历文档分别对应的配置文件集合，即合并配置文件集合包括所有待解析电子病历文档分别对应的所有字段配置文件以及所有节点配置文件。

步骤208、针对所述合并配置文件集合中的每个配置文件，确定所述配置文件在所述合并配置文件集合中的重复次数。

显然，合并配置文件集合中的配置文件可以是上述字段配置文件或节点配置文件。

考虑到待解析电子病历文档的数量为海量时，这些海量的待解析电子病历文档对应有若干个电子病历模板，每个电子病历模板对应一定数据比例的待解析电子病历文档，同时，这些海量的待解析电子病历文档对应有若干个标签模板，每个标签模板对应一定数据比例的待解析电子病历文档，因此，针对海量的待解析电子病历文档，配置文件出现重复的可能性较高。

步骤209、将满足预设条件的所述重复次数对应的所述配置文件确定为目标配置文件。

在对海量的待解析电子病历文档进行解析时，考虑到重复次数较少的配置文件可能是误召回，误召回的配置文件需要过滤掉，在这里，将不小于预设值的重复次数对应的配置文件确定为目标配置文件，从而过滤掉可能是误召回的配置文件，提高配置文件的准确性。显而易见的，满足预设条件的重复次数具体指的是重复次数大于预设值，该预设值通常需要结合待解析电子病历文档的数量和类型确定，与上述各个字段配置文件的数量小于预设值中的预设值不同。

步骤210、根据各个所述目标配置文件，对所述待解析电子病历文档中的电子病历数据进行解析。

利用步骤209确定出若干个目标配置文件，之后，利用这些目标配置文件对待解析电子病历文档进行解析，从而提取出待解析电子病历文档中的字段内容，并利用辅助函数对字段内容的数据进行简单的数据处理，从而得到电子病历数据。

需要说明的是，这些目标配置文件综合考虑到海量待解析电子病历文档中的文本内容结构和标签种类，从而确保了目标配置文件的复用性。

通过以上技术方案可知，本实施例所述方法在图1所示实施例的基础上，进一步实现的有益效果是：对海量的待解析电子病历文档对应的配置文件集合进行合并，并对合并的合并配置文件集合进行过滤筛选，提高配置文件的准确性及复用性。在配置文件中加入辅助函数，使得利用配置文件对待解析电子病历文档进行解析得到的字段内容进行数据处理，从而提高解析出的字段内容的数量质量。

基于与本发明方法实施例相同的构思，请参考图3，本发明实施例还提供了一种电子病历数据的解析装置，包括：

序列确定模块301，用于确定待解析电子病历文档对应的文本串序列；

集合确定模块302，用于根据预设字段名称集合和所述待解析电子病历文档对应的文本串序列，确定所述待解析电子病历文档对应的配置文件集合；

解析模块303，用于根据所述待解析电子病历文档对应的配置文件集合，对所述待解析电子病历文档中的电子病历数据进行解析。

本发明一个实施例中，所述序列确定模块301，包括：获取单元以及序列确定单元；其中，

所述获取单元，用于获取待解析电子病历文档；

所述序列确定单元，用于根据预设标点符号，对所述待解析电子病历文档中的文本内容进行分句，确定所述待解析电子病历文档对应的文本串序列。

本发明一个实施例中，所述集合确定模块302，包括：划分单元、第一配置文件确定单元以及集合确定单元；其中，

所述划分单元，用于根据预设字段名称集合，对所述待解析电子病历文档对应的文本串序列进行字段划分，确定所述待解析电子病历文档对应的至少一个字段名称组合，所述字段名称组合包括开始字段名称和结束字段名称；

所述第一配置文件确定单元，用于针对每个所述字段名称组合，确定所述字段名称组合对应的字段配置文件；

所述集合确定单元，用于根据各个所述字段名称组合分别对应的字段配置文件，确定所述待解析电子病历文档对应的配置文件集合。

本发明一个实施例中，所述第一配置文件确定单元，具体用于执行如下步骤：

生成所述字段名称组合对应的初始字段配置文件；

本发明一个实施例中，所述集合确定单元，具体用于执行如下步骤：

针对每个所述字段名称，确定所述字段名称对应的节点配置文件，所述第三配置文件包括所述字段名称对应的字段内容的节点路径；

本发明一个实施例中，所述解析模块303，包括：合并单元、次数确定单元、第二配置文件确定单元以及解析单元；其中，

所述合并单元，用于对各个所述待解析电子病历文档分别对应的配置文件集合进行合并，以确定合并配置文件集合；

所述次数确定单元，用于针对所述合并配置文件集合中的每个配置文件，确定所述配置文件在所述合并配置文件集合中的重复次数；

所述第二配置文件确定单元，用于将满足预设条件的所述重复次数对应的所述配置文件确定为目标配置文件；

所述解析单元，用于根据各个所述目标配置文件，对所述待解析电子病历文档中的电子病历数据进行解析。

本发明一个实施例中，所述文本串序列中的文本串顺序与所述待解析电子病历文档中电子病历数据的先后顺序匹配。

图4是本发明实施例提供的一种电子设备的结构示意图。在硬件层面，该电子设备包括处理器401以及存储有执行指令的存储器402，可选地还包括内部总线403及网络接口404。其中，存储器402可能包含内存4021，例如高速随机存取存储器(Random-AccessMemory，RAM)，也可能还包括非易失性存储器4022(non-volatile memory)，例如至少1个磁盘存储器等；处理器401、网络接口404和存储器402可以通过内部总线403相互连接，该内部总线403可以是ISA(Industry Standard Architecture，工业标准体系结构)总线、PCI(Peripheral Component Interconnect，外设部件互连标准)总线或EISA(ExtendedIndustry Standard Architecture，扩展工业标准结构)总线等；内部总线403可以分为地址总线、数据总线、控制总线等，为便于表示，图4中仅用一个双向箭头表示，但并不表示仅有一根总线或一种类型的总线。当然，该电子设备还可能包括其他业务所需要的硬件。当处理器401执行存储器402存储的执行指令时，处理器401执行本发明任意一个实施例中的方法，并至少用于执行如图1、图2所示的方法。

在一种可能实现的方式中，处理器从非易失性存储器中读取对应的执行指令到内存中然后运行，也可从其它设备上获取相应的执行指令，以在逻辑层面上形成一种电子病历数据的解析装置。处理器执行存储器所存放的执行指令，以通过执行的执行指令实现本发明任一实施例中提供的一种电子病历数据的解析方法。

处理器可能是一种集成电路芯片，具有信号的处理能力。在实现过程中，上述方法的各步骤可以通过处理器中的硬件的集成逻辑电路或者软件形式的指令完成。上述的处理器可以是通用处理器，包括中央处理器(Central Processing Unit，CPU)、网络处理器(Network Processor，NP)等；还可以是数字信号处理器(Digital Signal Processor，DSP)、专用集成电路(Application Specific Integrated Circuit，ASIC)、现场可编程门阵列(Field－Programmable Gate Array，FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。可以实现或者执行本发明实施例中的公开的各方法、步骤及逻辑框图。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。

本发明实施例还提供了一种计算机可读存储介质，包括执行指令，当电子设备的处理器执行执行指令时，所述处理器执行本发明任意一个实施例中提供的方法。该电子设备具体可以是如图4所示的电子设备；执行指令是一种电子病历数据的解析装置所对应计算机程序。

本领域内的技术人员应明白，本发明的实施例可提供为方法或计算机程序产品。因此，本发明可采用完全硬件实施例、完全软件实施例，或软件和硬件相结合的形式。

本发明中的各个实施例均采用递进的方式描述，各个实施例之间相同相似的部分互相参见即可，每个实施例重点说明的都是与其他实施例的不同之处。尤其，对于装置实施例而言，由于其基本相似于方法实施例，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。

还需要说明的是，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、商品或者锅炉不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、商品或者锅炉所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、商品或者锅炉中还存在另外的相同要素。

以上所述仅为本发明的实施例而已，并不用于限制本发明。对于本领域技术人员来说，本发明可以有各种更改和变化。凡在本发明的精神和原理之内所作的任何修改、等同替换、改进等，均应包含在本发明的权利要求范围之内。

Claims

1.一种电子病历数据的解析方法，其特征在于，包括：

确定待解析电子病历文档对应的文本串序列；

根据所述待解析电子病历文档对应的配置文件集合，对所述待解析电子病历文档中的电子病历数据进行解析，其中包括：

2.根据权利要求1所述的方法，其特征在于，所述确定待解析电子病历文档对应的文本串序列，包括：

获取待解析电子病历文档；

3.根据权利要求1所述的方法，其特征在于，所述根据预设字段名称集合和所述待解析电子病历文档对应的文本串序列，确定所述待解析电子病历文档对应的配置文件集合，包括：

4.根据权利要求3所述的方法，其特征在于，所述确定所述字段名称组合对应的字段配置文件，包括：

生成所述字段名称组合对应的初始字段配置文件；

5.根据权利要求3所述的方法，其特征在于，所述根据各个所述字段名称组合分别对应的字段配置文件，确定所述待解析电子病历文档对应的配置文件集合，包括：

当各个所述字段配置文件的数量小于第一预设值时，对所述待解析电子病历文档对应的属性数据进行扫描，以确定所述待解析电子病历文档中至少一个字段名称，所述预设字段名称集合包括所述字段名称；

6.根据权利要求1至5中任一所述的方法，其特征在于，所述文本串序列中的文本串顺序与所述待解析电子病历文档中电子病历数据的先后顺序匹配。

7.一种电子病历数据的解析装置，其特征在于，包括：

解析模块，用于根据所述待解析电子病历文档对应的配置文件集合，对所述待解析电子病历文档中的电子病历数据进行解析；

所述解析模块包括：合并单元、次数确定单元、第二配置文件确定单元以及解析单元；其中，

所述合并单元用于对各个所述待解析电子病历文档分别对应的配置文件集合进行合并，以确定合并配置文件集合；

所述次数确定单元用于针对所述合并配置文件集合中的每个配置文件，确定所述配置文件在所述合并配置文件集合中的重复次数；

所述第二配置文件确定单元用于将满足预设条件的所述重复次数对应的所述配置文件确定为目标配置文件；

所述解析单元用于根据各个所述目标配置文件，对所述待解析电子病历文档中的电子病历数据进行解析。

8.一种计算机可读存储介质，包括执行指令，当电子设备的处理器执行所述执行指令时，所述处理器执行如权利要求1至6中任一所述的方法。

9.一种电子设备，包括处理器以及存储有执行指令的存储器，当所述处理器执行所述存储器存储的所述执行指令时，所述处理器执行如权利要求1至6中任一所述的方法。