CN117195866A

CN117195866A - 一种电子病历数据解析方法及系统

Info

Publication number: CN117195866A
Application number: CN202311451497.4A
Authority: CN
Inventors: 李文强; 彭培军; 龚世文
Original assignee: China Power Data Service Co ltd
Current assignee: China Power Data Service Co ltd
Priority date: 2023-11-03
Filing date: 2023-11-03
Publication date: 2023-12-08
Anticipated expiration: 2043-11-03
Also published as: CN117195866B

Abstract

本发明公开一种电子病历数据解析方法及系统，涉及数据处理领域，该方法包括：对于每一病历模版，根据病历模版中的标签名称提取目标电子病历数据中与标签名称相对应的数据项，得到每一病历模版对应的第一字符串，并将病历模版的标签名称进行组合，得到病历模版的第二字符串；计算第一字符串与第一字符串对应的第二字符串的差异值；将最小的差异值对应的病历模版作为最优解析模版；采用最优解析模版对目标电子病历数据进行解析，得到结构化数据。本发明依据差异值，可以快速的寻找出目标电子病历数据的最优解析模版，从而通过最优解析模版对目标电子病历数据进行解析，得到结构化数据，提高了电子病历数据解析的效率。

Description

一种电子病历数据解析方法及系统

技术领域

本发明涉及数据处理技术领域，特别是涉及一种电子病历数据解析方法及系统。

背景技术

区域内不同医疗机构不同承建厂家的电子病历数据格式、排版、内容等等都存在差异化，为了更好的开展临床诊断、治疗、预后的研究，需要对使用电子病历数据进行解析处理，目前，现有处理方法是对电子病历内容进行分词，但是分词的准确度依赖于选择医学词典知识库，后续还需要不断的进行更新，对电子病历内容分词意味着每条数据得到的内容都存在差异，因此在数据量大的情况下，分词的性能和速度也会比较慢，并且分词出的数据如何分类、数据如何直观的进行查阅、方便数据的挖掘和有效利用等等诸多问题都需要大量的研发量和人力成本。因此，亟需一种快速的、便捷的电子病历数据解析方法。

发明内容

本发明的目的是提供一种更加快速的、便捷的电子病历数据解析方法及系统。

为实现上述目的，本发明提供了如下方案：

一种电子病历数据解析方法，所述方法包括：

对于每一病历模版，根据所述病历模版中的标签名称提取目标电子病历数据中与所述标签名称相对应的数据项，得到每一所述病历模版对应的第一字符串，并将所述病历模版的标签名称进行组合，得到所述病历模版的第二字符串；所述病历模版由多个标签名称组成；所述标签名称为电子病历数据上的信息属性；一所述第一字符串对应一所述第二字符串；

对于每一所述病历模版，计算所述病历模版对应的所述第一字符串与所述第一字符串对应的所述第二字符串的差异值；

从所有所述差异值中选取最小的差异值，将最小的差异值对应的病历模版作为所述目标电子病历数据的最优解析模版；

根据所述最优解析模版中的标签名称对所述目标电子病历数据进行解析，得到所述目标电子病历数据的结构化数据。

可选的，在所述根据所述病历模版中的标签名称提取目标电子病历数据中与所述标签名称相对应的数据项，得到每一所述病历模版对应的第一字符串之前，还包括：

获取若干个电子病历数据；

从若干个电子病历数据筛选出若干个病历模版，并提取每一所述病历模版中的标签名称。

可选的，所述提取每一所述电子病历数据的标签名称，具体包括：

根据配置方法提取每一所述电子病历数据的标签名称；所述配置方法包括前后截取、JSON提取、XML提取和/或正则提取。

可选的，所述计算所述病历模版对应的所述第一字符串与所述第一字符串对应的所述第二字符串的差异值，具体包括：

利用动态规划算法计算所述病历模版对应的所述第一字符串与所述第一字符串对应的所述第二字符串的差异值。

可选的，在所述根据所述最优解析模版中的标签名称对所述目标电子病历数据进行解析，得到所述目标电子病历数据的结构化数据之后，还包括：

通过人工删除所述结构化数据中的特殊字符。

可选的，在获取若干个电子病历数据之前，还包括：

对采集到的数据进行解密和进制转化处理，得到电子病历数据。

本发明还提供了一种电子病历数据解析系统，所述系统包括：

字符串生成模块，用于对于每一病历模版，根据所述病历模版中的标签名称提取目标电子病历数据中与所述标签名称相对应的数据项，得到每一所述病历模版对应的第一字符串，并将所述病历模版的标签名称进行组合，得到所述病历模版的第二字符串；所述病历模版由多个标签名称组成；所述标签名称为电子病历数据上的信息属性；一所述第一字符串对应一所述第二字符串；

差异值计算模块，用于对于每一所述病历模版，计算所述病历模版对应的所述第一字符串与所述第一字符串对应的所述第二字符串的差异值；

最优解析模版选取模块，用于从所有所述差异值中选取最小的差异值，将最小的差异值对应的病历模版作为所述目标电子病历数据的最优解析模版；

解析模块，用于根据所述最优解析模版中的标签名称对所述目标电子病历数据进行解析，得到所述目标电子病历数据的结构化数据。

根据本发明提供的具体实施例，本发明公开了以下技术效果：本发明提供了一种电子病历数据解析方法及系统，该方法包括：对于每一病历模版，根据病历模版中的标签名称提取目标电子病历数据中与标签名称相对应的数据项，得到每一病历模版对应的第一字符串，并将病历模版的标签名称进行组合，得到病历模版的第二字符串；计算每一病历模版对应的第一字符串与第一字符串对应的第二字符串的差异值；从所有差异值中选取最小的差异值，将最小的差异值对应的病历模版作为目标电子病历数据的最优解析模版；根据最优解析模版中的标签名称对目标电子病历数据进行解析，得到目标电子病历数据的结构化数据。基于上述方法，本发明依据差异值，可以快速的寻找出目标电子病历数据的最优解析模版，从而通过最优解析模版对目标电子病历数据进行解析，得到结构化数据，提高了电子病历数据解析的效率。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例提供的电子病历数据解析方法流程示意图；

图2为本发明实施例提供的源电子病历数据样式一示意图；

图3为本发明实施例提供的源电子病历数据样式二示意图；

图4为本发明实施例提供的电子病历数据解析系统框图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

为使本发明的上述目的、特征和优点能够更加明显易懂，下面结合附图和具体实施方式对本发明作进一步详细的说明。

如图1所示，本发明提供了一种电子病历数据解析方法，所述方法包括：

S1：对于每一病历模版，根据所述病历模版中的标签名称提取目标电子病历数据中与所述标签名称相对应的数据项，得到每一所述病历模版对应的第一字符串，并将所述病历模版的标签名称进行组合，得到所述病历模版的第二字符串；所述病历模版由多个标签名称组成；所述标签名称为电子病历数据上的信息属性；一所述第一字符串对应一所述第二字符串。

S2：对于每一所述病历模版，计算所述病历模版对应的所述第一字符串与所述第一字符串对应的所述第二字符串的差异值。

S3：从所有所述差异值中选取最小的差异值，将最小的差异值对应的病历模版作为所述目标电子病历数据的最优解析模版。

S4：根据所述最优解析模版中的标签名称对所述目标电子病历数据进行解析，得到所述目标电子病历数据的结构化数据。

在所述根据所述病历模版中的标签名称提取目标电子病历数据中与所述标签名称相对应的数据项，得到每一所述病历模版对应的第一字符串之前，还包括：

获取若干个电子病历数据。

具体地：首先需要将电子病历数据进行汇聚：区域内电子病历数据来源于多个医疗机构，涉及的医疗机构存在数据库类型、数据结构、网络环境、业务繁忙程度等不同。基于接入医疗机构出于安全考虑不直接提供外网连接，所以需要前置机作为连接的“中转站”，来实现电子病历数据汇聚。

接收汇聚中心下发的消息参数，消息参数包括所在医疗机构、前置机ip、采集模式、采集端口、服务状态和电子病历数据结构信息等。前置机执行电子病历数据采集任务，因为电子病历数据存在差异化，所以在采集完成后，将电子病历数据全部转为加密16进制，并进行压缩传输至汇聚中心。

汇聚中心负责采集前置机规则配置，采集前置机任务创建与调度、数据传输流量管控。

在获取若干个电子病历数据之前，还包括：

具体地，汇聚中心将汇聚而来的数据进行解密、16进制转码成明文使用NoSQL方式进行存储，得到病历库。上述汇聚的电子病历数据格式各异，例如，源电子病历数据样式一如图2所示，源电子病历数据样式二如图3所示。

从上述经汇聚中心处理后的电子病历数据中筛选若干个病历模版，并提取每个病历模版中的数据项名称。病历模版可能根据医疗机构、科室等的不同而不同。数据项名称包括手术时间、病床号、科室、入院开始时间、入院结束时间、手术开始时间和手术结束时间等。

将上述数据项名称作为对应模版的标签，并形成标签库。提取每一所述电子病历数据的标签名称，具体包括：根据配置方法提取每一所述电子病历数据的标签名称；所述配置方法包括前后截取、JSON提取、XML提取和/或正则提取。

具体地：根据电子病历标签数据特点进行数据解析配置。配置方法有以下几种方法，可以选择其中一种或者几种方法：

1.前后截取:

设置前后截取中开始字符串、结束字符串；根据需要额外设置其他附加配置（1）是否需要循环；（2）是否包含前后字符串；（3）特殊含义字符：(*)表示任意字符或字符串。

2.JSON提取:

设置JSON所需的结构节点；根据需要额外设置其他附加配置（1）是否需要循环；（2）是否包含前后字符串。

3.XML提取:

设置XML所需的结构节点；根据需要额外设置其他附加配置（1）是否需要循环；（2）是否包含前后字符串。

4.正则提取:

编写正则表达式语法；根据需要额外设置其他附加配置（1）是否需要循环；（2）是否包含前后字符串。

例如，在本实施例中，通过某电子病历中截取部分内容以“前后截取”配置获取“手术时间”标签内容为2023-2-24，具体的配置信息如下：

某电子病历部分内容：<TD class=T_L_B_Line style="LINE-HEIGHT：180%" edit="0">手术时间</TD>2023-2-24</TD>

在模版标签库中，选取的病历模版为出院小结，标签名称为手术时间。

其前后截取配置结果为：开始字符串：<TD(*)手术时间(*)> 结束字符串：</TD>。

根据目标电子病历数据提取含有每一病历模版导入标签库中的标签名称，并将提取的标签名称按顺序排列成字符串，得到第一字符串。在本实施例中将第一字符串表示为参数A。按顺序排列是指将模板中的字段提取出来，若无字段则为空，形成一串字符串。目标电子病历数据为上述病历库中的任一电子病历数据。

然后将病历模版对应的标签名称按顺序排列形成字符串，得到第二字符串。并将第二字符串表示为参数B。

对于每一病历模版，将得到的第一字符串和第二字符串传递到差异模型中进行分析得到差距值（差异值）。两参数的差距值越小，则它们越相似。如果两参数相同，则它们通过差异模型分析出的差异值为0。两个参数差距值肯定不超过它们中的最大长度。

差异模型分析过程为：差异模型分析得出差距值主要使用动态规划进行得到；动态规划过程是：每次决策依赖于当前状态，又随即引起状态的转移。一个决策序列就是在变化的状态中产生出来的，所以，这种多阶段最优化决策解决问题的过程就称为动态规划。动态规划的意义就是通过采用递推（或者分而治之）的策略，通过解决大问题的子问题从而解决整体的做法。动态规划的核心思想是巧妙的将问题拆分成多个子问题，通过计算子问题而得到整体问题的解。而子问题又可以拆分成更多的子问题，从而用类似递推迭代的方法解决要求的问题。

所述计算所述病历模版对应的所述第一字符串与所述第一字符串对应的所述第二字符串的差异值，具体包括：

差异模型分析使用的动态规划算法方程为：

（1）当i=0，j=0时，emr[i][j]=0；说明电子病历和病历模版知识库（病历模版）都为空。

（2）当i=0，j>0时，emr[i][j]=j；说明电子病历记录完全没有模版知识库匹配上

（3）当i>0,j=0时，emr[i][j]=i；说明模版知识库没有导入成功

（4）当i>0，j>0时，emr[i][j]=min(emr[i-1][j]+1，emr[i][j-1]+1，emr[i-1][j-1]+flag)。其中参数A对应i字符和参数B对应j字符相同，即A[i]=B[j]时，flag=0；反之；参数A对应i字符和参数B对应j字符不同，即A[i]<>B[j]时，flag=1。

上述动态规划算法方程用emr[i][j]表示参数A和参数B的差距值。emr[i][j]表示：参数A从第0个字符开始到第i个字符和参数B从第0个字符开始到第j个字符，这两个字符串的差距值。字符串的下标从1开始。emr[i-1][j]+1相当于在参数B字符串的最后插入了参数A字符串中最后一个字符，插入操作使得emr+1，之后计算emr[i-1][j]；emr[i][j-1]+1相当于将参数B字符串的最后一个字符删除，删除操作emr+1，之后计算emr[i][j-1]；emr[i-1][j-1]+flag相当于将参数B字符串的最后一个字符替换为参数A字符串的最后一个字符。其中，flag标记替换的有效次数。

通过差异分析模型可以得到电子病历中涉及的数据和各病历的差距值，差距值越小的说明越接近，当差距值为0的情况下，说明该电子病历的数据使用的是对应病历模版的标签库。在本实施例中，采用下述案例来说明该差异模型分析得出的差异值；例：汇聚而来的电子病历数据中筛选出某模版标签库的标签名称为：病床号、入院西医诊断；通过筛选出的标签名称组成一串字符串作为参数A（第一字符串）：病床号入院西医诊断。对应的模版标签库中的标签名称为：病床号、入院中医诊断；同样的，将该病历模版的标签名称组成一串字符串作为参数B（第二字符串）：病床号入院中医诊断。要计算参数A和参数B的差异值，首先根据两个参数的内容先创建一个表，并标上各自坐标。由于参数A长度为9，参数B长度为9，将行和列各加2，得到的表的大小为11*11，如表1所示。

表1 基于参数A和参数B的内容创建的表

		病	床	号	入	院	西	医	诊	断
												0	1	2	3	4	5	6	7	8	9
病	1
											床	2
号	3
											入	4
院	5
											中	6
医	7
											诊	8
断	9

从（1，1）格开始，利用差异模型分析使用的动态规划算法方程进行计算出每个格的值；然后依次循环计算每行中格的值，推出结果如表2：

表2 动态规划算法方程计算的每格的值

		病	床	号	入	院	西	医	诊	断
												0	1	2	3	4	5	6	7	8	9
病	1	0	1	2	3	4	5	6	7	8
											床	2	1	0	1	2	3	4	5	6	7
号	3	1	1	0	1	2	3	4	5	6
											入	4	1	2	1	0	1	2	3	4	5
院	5	1	2	2	1	0	1	2	3	4
											中	6	1	2	3	2	1	1	2	3	4
医	7	1	2	3	3	2	2	1	2	3
											诊	8	1	2	3	4	3	3	2	1	2
断	9	1	2	3	4	4	3	3	2	1

根据差异分析模型得出差距值为右下角的值1；故参数A（病床号入院西医诊断）与参数B（病床号入院中医诊断）的差距值为1。差距值越小的说明越接近，若选择这个差异值作为电子病历解析项，可以解析出病床号对应的值。最完美的情况下是差距值为0，那么就能完全解析出所需要的数据项。

根据差异值选择最优模板，根据最优模板对电子病历解析映射，得到二维表结构。汇聚而来的电子病历数据，通过差异分析模型运行出目标电子病历数据与各病历模版的差异值，选择最小的差异值，将最小的差异值对应的病历模版作为最优模版，采用最优模版中的标签名称对目标电子病历数据进行数据解析，得到目标电子病历数据的结构化数据；解析后的目标电子病历数据根据模版标签库的标签名称进行结构化存储，也就是得到的二维表结构（也叫结构化表）。

在所述根据所述最优解析模版中的标签名称对所述目标电子病历数据进行解析，得到所述目标电子病历数据的结构化数据之后，还包括：

通过人工删除所述结构化数据中的特殊字符。

具体地，在本实施例中，通过程序解析而来的目标电子病历数据的结构化数据，可能数据中还有不规范的字符，这时可以人工查看结构化数据，并通过调参进行数据的优化。主要调参的项目比如：删除某HTML、XML标签（链接<a、表格<table、表格体<tbody、表格行<tr、单元格<td、字体<font、<层div等等）或者删除某特殊字符串。截取部分结构数据作为案例，如表3为解析映射结构化存储的数据，即目标电子病历数据的结构化数据，通过表4人工调参设置的优化项可得到表5的最终数据。

表3

科室

床号

手术日期

手术开始时间

手术结束时间

术前诊断

术中诊断

15

2018-05-17

09：20

10：05

<tr>1、直肠脱垂</tr><tr>2、环状混合痣</tr><tr>3、<tr>2型糖尿病<tr>4、高脂血症</tr>

1、直肠脱垂2、环状混合痣3、2型糖尿病4、高脂血症

表4

人工增加调参设置
	HTML标签排除项：<a>、<td>、<table>、<td>、<tr>

表5

科室

床号

手术日期

手术开始时间

手术结束时间

术前诊断

术中诊断

肛肠科区

15

2018-05-17

09：20

10：05

1、直肠脱垂2、环状混合痣3、2型糖尿病4、高脂血症

将病历库中所有不同规格或类型目标电子病历数据，均进行上述步骤，得到每一目标电子病历数据的最优解析模版，得到其对应的结构化数据。

最终电子病历会解析成各模版作为集市存储，模版对应的标签将为集市对应的结构化数据项。如表6为入院诊断集市某条电子病历结构化数据项。

出院科室名称

病床号

入院时间

出院时间

实际住院天数

入院西医诊断

入院中医诊断

骨科(九病区)

13

2020-12-16 11:14

2020-12-19 08:45

3

腰椎间盘突出症

腰痛病-气虚血瘀症

区域内各医疗机构电子病历数据汇聚形成海量电子病历库，该库通过上述各步骤将区域内差异的电子病历解析成结构化电子病历库。基于解析后这类关系型结构数据，这类数据对于数据查阅、分析、利用、挖掘潜在数据价值都比较直观、快速和便捷，利用更加便捷、解决了病历数据结构化改造复杂性、快速实现区域内电子病历标准化、场景应用更广，比如：提取相关专病并形成专病数据中心、将区域内差异电子病历数据进行规范标准数据集，提供规范化电子病历报告应用，对海量关系型结构数据更好的开展临床诊断、治疗、预后的研究提供支撑，提升研究质量，促进医院诊断和治疗水平的提高等等。

本发明涉及区域内不同医疗机构不同承建厂家的电子病历数据，数据形态可能为半结构化或非结构化，各医疗机构中相关电子病历承建商实际存储在数据库中的电子病历是以html、xml、文本这三种格式的形式进行存储，部分会以加密的形式进行存储。贯穿患者整个诊疗过程的电子病历数据，可以有效地利用数据进行专病研究的分析和挖掘，使数据真正转化成科研成果，提高科研创新能力和医疗服务水平，已成为医疗信息化中一个关注的重点也可以更好的发挥海量数据价值。

如图4所示，本发明还提供了一种电子病历数据解析系统，所述系统包括：

字符串生成模块T1，用于对于每一病历模版，根据所述病历模版中的标签名称提取目标电子病历数据中与所述标签名称相对应的数据项，得到每一所述病历模版对应的第一字符串，并将所述病历模版的标签名称进行组合，得到所述病历模版的第二字符串；所述病历模版由多个标签名称组成；所述标签名称为电子病历数据上的信息属性；一所述第一字符串对应一所述第二字符串。

差异值计算模块T2，用于对于每一所述病历模版，计算所述病历模版对应的所述第一字符串与所述第一字符串对应的所述第二字符串的差异值。

最优解析模版选取模块T3，用于从所有所述差异值中选取最小的差异值，将最小的差异值对应的病历模版作为所述目标电子病历数据的最优解析模版。

解析模块T4，用于根据所述最优解析模版中的标签名称对所述目标电子病历数据进行解析，得到所述目标电子病历数据的结构化数据。

本说明书中每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似部分互相参见即可。对于实施例公开的系统而言，由于其与实施例公开的方法相对应，所以描述的比较简单，相关之处参见方法部分说明即可。

本文中应用了具体个例对本发明的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本发明的方法及其核心思想；同时，对于本领域的一般技术人员，依据本发明的思想，在具体实施方式及应用范围上均会有改变之处。综上所述，本说明书内容不应理解为对本发明的限制。

Claims

1.一种电子病历数据解析方法，其特征在于，所述方法包括：

2.根据权利要求1所述的电子病历数据解析方法，其特征在于，在所述根据所述病历模版中的标签名称提取目标电子病历数据中与所述标签名称相对应的数据项，得到每一所述病历模版对应的第一字符串之前，还包括：

获取若干个电子病历数据；

3.根据权利要求1所述的电子病历数据解析方法，其特征在于，所述提取每一所述电子病历数据的标签名称，具体包括：

4.根据权利要求1所述的电子病历数据解析方法，其特征在于，所述计算所述病历模版对应的所述第一字符串与所述第一字符串对应的所述第二字符串的差异值，具体包括：

5.根据权利要求1所述的电子病历数据解析方法，其特征在于，在所述根据所述最优解析模版中的标签名称对所述目标电子病历数据进行解析，得到所述目标电子病历数据的结构化数据之后，还包括：

通过人工删除所述结构化数据中的特殊字符。

6.根据权利要求2所述的电子病历数据解析方法，其特征在于，在获取若干个电子病历数据之前，还包括：

7.一种电子病历数据解析系统，其特征在于，所述系统包括：