CN112233746A

CN112233746A - 一种医疗数据自动标准化的方法

Info

Publication number: CN112233746A
Application number: CN202011223649.1A
Authority: CN
Inventors: 叶舟; 李定坤; 敬帅; 李灼辉
Original assignee: Guangzhou Datastory Information Technology Co ltd; Karamay Central Hospital
Current assignee: Guangzhou Datastory Information Technology Co ltd; Karamay Central Hospital
Priority date: 2020-11-05
Filing date: 2020-11-05
Publication date: 2021-01-15
Anticipated expiration: 2040-11-05
Also published as: CN112233746B

Abstract

本发明公开了一种医疗数据自动标准化的方法，该方法包括：形成标准字典表、形成业务数据元信息表、获取字段值域信息、计算相似度、对每个字段对应的标准字典表中的数据元信息进行排序并选出各个字段对应的相似度最高的数据元信息、生成取值映射表以及对待标准化的业务表进行标准转化共七个步骤。该方法基于对医疗数据标准信息和待标准化的业务表字段数据的整理、相似度分析、关系映射等处理过程，自动地完成医疗数据的标准化转化，由于整个过程尽量少的引入专家参与，不仅降低了标准化转化成本，也在很大程度上提高了标准化的效率。

Description

一种医疗数据自动标准化的方法

技术领域

本发明涉及医疗数据处理技术领域，更具体的说是涉及一种医疗数据自动标准化的方法。

背景技术

目前，医疗行业已经存在相对完善的数据标准，包括国家标准、行业标准、地方标准、国际标准等，但是这些标准数据的发布时间不一致，具体医院信息系统上线时间也不一致，导致医疗信息系统中累计的大量数据没有统一的数据标准，限制了数据的使用价值。这就需要对医疗系统(例如HIS、LIS等)数据按照统一的国家行业标准进行标准化。数据标准化程度对数据互联互通，大数据应用的建设起着至关重要的作用。

传统的医疗数据标准化主要依赖于专家经验，包括医疗知识经验和信息系统经验，参见附图1，实现医疗数据标准化的过程如下：

1)专家制定规则：专家需要熟悉和了解医疗行业的数据标准规范，例如“WS 371-2012基本信息基本数据集个人信息”，并熟悉和了解信息系统业务数据，进而判断数据表的单个字段是否符合标准字典表中对应的国家标准，例如，病患住院信息表的“费用类型”字段应该符合标准“WS 373.2-2012医疗服务基本数据集第2部分：住院摘要”的“DE07.00.008.00住院费用分类代码”。该标准规定费用类型的标准取值范围是“床位费|护理费|西药|中成药|中草药|放射费|化验费|输氧费|输血费|诊疗费|手术费|接生费|检查费|麻醉费|婴儿费|陪床费|其他”；

2)软件开发人员观察数据表字段的数据分布情况，发现现有类型包括“检验科、体检、核医学科、血液肿瘤科化验室、急诊抢救留观室...”；

3)软件开发人员配置转化规则，具体体现为规则映射表，例如“检验科→化验费、核医学科→检查费、血液肿瘤科化验室→化验费...”；

4)软件开发人员根据规则配置表，开发ETL程序。

但是，上述现有的医疗数据标准化的方式存在开发效率低、开发成本高的问题，由于想要找到同时熟悉医疗行业知识也熟悉信息化系统的专家，非常困难，导致医疗行业数据标准化实施成本攀高。同时，由于不同厂家的医疗信息系统，业务数据表的模型差别较大，不同项目之间的数据知识可复用程度很低，基本上每个项目都要单个表、单个字段地配置规则，极大程度降低了项目开发的效率。

因此，如何提供一种智能高效、成本更低的医疗数据自动标准化的方法是本领域技术人员亟需解决的问题。

发明内容

有鉴于此，本发明提供了一种医疗数据自动标准化的方法，该方法基于对医疗数据标准信息和待标准化的业务表字段数据的整理、比对分析、映射自动地完成医疗数据的标准化转化，解决了现有的医疗数据标准化方法效率低、成本高的问题。

为了实现上述目的，本发明采用如下技术方案：

一种医疗数据自动标准化的方法，该方法包括：

步骤1：从国家行业的数据标准信息中抽取各项数据元信息，形成标准字典表；

步骤2：从待标准化的业务表中抽取各字段基本信息，形成业务数据元信息表；

步骤3：从待标准化的业务表中统计各字段的取值分布信息，得到字段值域信息；

步骤4：分别计算所述业务数据元信息表中各字段基本信息与所述标准字典表中相应的数据元信息之间的相似度，并计算所述各字段的字段值域信息与所述标准字典表中相应的数据元信息之间的相似度，得到相似度计算结果；

步骤5：根据所述相似度计算结果对所述业务数据元信息表中每个字段对应的所述标准字典表中的数据元信息进行排序，选出所述业务数据元信息表中各个字段对应的相似度最高的数据元信息；

步骤6：将所述业务数据元信息表中各个字段的取值与相似度最高的数据元的合法取值一一对应，生成取值映射表；

步骤7：根据所述取值映射表对所述待标准化的业务表进行标准转化。

进一步地，所述标准字典表中记录所有数据元的信息，包括：数据元ID、数据元定义、数据元类型、表示方式以及数据元值域。

进一步地，所述业务数据元信息表中包含单个字段的字段名、定义以及类型。

进一步地，所述步骤4具体包括：

步骤401：计算所述数据元定义与字段定义之间的定义相似度，因为定义是文本描述，采用“编辑距离”计算其相似度，计算公式为：

式中，a、b分别表示两个不同的字符串，长度分别为|a|和|b|，i是字符串a的下标，j是字符串b的下标。lev_a,b(i,j)表示a的前i个字符与b的前j个字符的距离。

步骤402：通过查询提前定义好的类型映射表，获得数据元类型与字段类型之间的类型相似度；

步骤403:值域相似度使用向量相似度来计算，数据元值域的向量表示为：<<meta_code1,meta_value1>,<meta_code2,meta_value2>,...,<meta_codek,meta_valuek>>，字段取值分布(即字段值域)使用向量表示，两个向量之间的聚类使用“余弦相似度”。计算公式为：

式中，A、B分别表示数据元值域对应的向量和字段值域对应的向量，A_i和B_i表示两个向量在第i维上的取值，共有n个维度。

步骤404：将所述定义相似度、类型相似度和值域相似度三个值求和，得到最终的相似度计算结果。

进一步地，为了提高医疗数据标准化过程的质量，在所述步骤6之后、所述步骤7之前，还包括：

步骤8：专家对所述取值映射表进行审核确认。

此过程虽然有人工参与，但是业务专家的角色已经从“数据观察+规则提出”变成了“规则审核”，极大提高了工作效率和输出质量。

经由上述的技术方案可知，与现有技术相比，本发明公开提供了一种医疗数据自动标准化的方法，该方法基于对医疗数据标准信息和待标准化的业务表字段数据的整理、相似度分析、关系映射等处理过程，自动地完成医疗数据的标准化转化，由于整个过程尽量少的引入专家参与，不仅降低了标准化转化成本，也在很大程度上提高了标准化的效率。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据提供的附图获得其他的附图。

图1为现有的医疗数据标准化的实现原理示意图；

图2为本发明提供的一种医疗数据自动标准化的方法的实现流程示意图；

图3为本发明实施例中医疗数据自动标准化的方法的实现原理示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

参见附图2和图3，本发明实施例公开了一种医疗数据自动标准化的方法，该方法包括：

S1：从国家行业的数据标准信息中抽取各项数据元信息，形成标准字典表；标准字典表中记录所有数据元的信息，包括：数据元ID、定义、类型、表示方式、值域；

标准字典表中的数据样例如下：

DE07.00.008.00,费用类型,N2,可枚举,1,床位费

DE07.00.008.00,费用类型,N2,可枚举,2,护理费

...

DE02.01.039.00,患者姓名,A..50,不可枚举,,A..50

S2：从待标准化的业务表中抽取各字段基本信息，形成业务数据元信息表；包含单个字段的：字段名、定义、类型；

某字段基本信息的数据样例如下：

hospital_fee,住院费用,String,

S3：从待标准化的业务表中统计各字段的取值分布信息，得到字段值域信息；输出格式形如：检验科3860000人次、体检720000人次、核医学科490000人次、血液肿瘤科化验室250000人次；

某字段的取值分布情况的数据样例如下：<检验科|001|3860000,体检|002|720000,核医学科|003|490000,血液肿瘤科化验室|004|250000>，将该字段值域信息和上述步骤S2中得到的结果一起构成向量：

hospital_fee,住院费用,String,<检验科|001|3860000,体检|002|720000,核医学科|003|490000,血液肿瘤科化验室|004|250000>。

S4：分别计算业务数据元信息表中各字段基本信息与标准字典表中相应的数据元信息之间的相似度，并计算各字段的字段值域信息与标准字典表中相应的数据元信息之间的相似度，得到相似度计算结果；

计算数据元和业务表字段的相似度，主要根据3个字段：<数据元定义,字段定义>、<数据元类型,字段类型>、<数据元值域,字段取值分布>。

其中，因为定义是文本描述，采用“编辑距离”计算相似度。计算公式如下：

式中，a、b分别表示两个不同的字符串，长度分别为|a|和|b|。i是字符串a的下标，j是字符串b的下标。lev_a,b(i,j)表示a的前i个字符与b的前j个字符的距离。

类型相似度直接采用查询类型映射表的方式获得，根据提前定义好的类型映射表，例如数据元的S1类型对应字段的String类型。相似度映射表格如下表1所示：

表1相似度映射表

上表中，各参量的含义如下：

S1：表示不可枚举的，且以字符描述的形式；

S2：表示枚举型，且列表值不超过3个；

S3：表示代码表的形式；

N:通过“0”到“9”数字形式表示的值的类型。

D:采用GB/T 7408中规定的YYYYMMDD格式表示的值的类型。

DT:采用GB/T 7408中规定的YYYYMMDDThhmmss格式表示的值的类型。(字符T作为时间的标志符，说明时间表示的开始。)

T:采用GB/T 7408中规定的hhmmss格式表示的值的类型。

Int表示整数；float表示浮点数；double表示双精度浮点数；date表示日期；timestamp表示时间戳；varchar表示字符串；text表示文本；取值0表示不相似；取值1表示相似。

值域相似度使用向量相似度来计算，数据元值域的向量表示为：<<meta_code1,meta_value1>,<meta_code2,meta_value2>,...,<meta_codek,meta_valuek>>，字段取值分布使用向量表示，两个向量之间的聚类使用“余弦相似度”。计算公式如下：

式中，A、B分别表示数据元值域对应的向量和字段值域对应的向量，A_i和B_i表示两个向量在第i维上的取值，一共有n个维度。

最终上述3个相似度值计算成为一个最终的相似度。

例如，distance(vector_meta_std,vector_meta_attribute)＝distance(费用类型,住院费用)+distance(N2,String)+distance(<1|床位费,2|护理费>,<检验科|001|3860000,体检|002|720000,核医学科|003|490000,血液肿瘤科化验室|004|250000>)。最终计算得到的相似度数值等于0.013。

S5：根据相似度计算结果对业务数据元信息表中每个字段对应的标准字典表中的数据元信息进行排序，选出业务数据元信息表中各个字段对应的相似度最高的数据元信息；由于同一个业务数据字段的相似数据元可能多个，按照最终的相似度进行排序。可以选择topN，即排名靠前的前n个信息进行展示，本实施例中设置相似度越高排名越靠前，且设置为候选字段top3，即选出排序后前3个信息进行展示。

例如，根据相似度排序和字段“住院费用”相似的数据源分别是：

1、DE07.00.008.00，费用类型，0.013

2、DE07.00.002.00，门诊收费，0.008

3、DE07.00.010.00，费用金额，0.003

S6：将业务数据元信息表中各个字段的取值与相似度最高的数据元的合法取值一一对应，生成取值映射表；

针对上述数据元DE07.00.008.00，映射关系如下：

检验科→化验费、核医学科→检查费、血液肿瘤科化验室→化验费。

S7：业务专家对标准转化表(即取值映射表)进行最终的确认，通过的映射关系直接进入下一个流程。

S8：根据取值映射表对待标准化的业务表进行标准转化。本实施例中通过ETL编程语言实现，ETL编程语言支持case when语义，当“原始值等于A的时候，按照标准值B存入新的字段”，可以完成标准转化过程的代码自动化。

根据上述数据元DE07.00.008.00得到的映射关系，自动生成标准化ETL代码如下：

insert into new_table select case when hospital_fee＝'检验科'then'化验费'when old_table.hospital_fee＝'核医学科'then'检查费'when old_table.hospital_fee＝'血液肿瘤科化验室'then'化验费'END DE07 from old_table；

不难看出，本发明实施例公开的医疗数据自动标准化的方法，基于对医疗数据的知识积累和计算机算法，自动地完成标准化代码的生成，在很大程度上减少了对专家经验的依赖性，提高了开发效率，并且节省了成本。需要说明的是，为了保障数据标准化之后的质量问题，该方法仍然需要业务专家对“标准转化表”进行审核。虽然有人工参与，但是业务专家的角色已经从“数据观察+规则提出”变成了“规则审核”，提高了工作效率和输出质量。

本说明书中各个实施例采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似部分互相参见即可。对于实施例公开的装置而言，由于其与实施例公开的方法相对应，所以描述的比较简单，相关之处参见方法部分说明即可。

对所公开的实施例的上述说明，使本领域专业技术人员能够实现或使用本发明。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的，本文中所定义的一般原理可以在不脱离本发明的精神或范围的情况下，在其它实施例中实现。因此，本发明将不会被限制于本文所示的这些实施例，而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

Claims

1.一种医疗数据自动标准化的方法，其特征在于，包括：

步骤1：从国家医疗行业的数据标准信息中抽取各项数据元信息，形成标准字典表；

2.根据权利要求1所述的一种医疗数据自动标准化的方法，其特征在于，所述标准字典表中的数据元信息包括：数据元ID、数据元定义、数据元类型、表示方式以及数据元值域。

3.根据权利要求2所述的一种医疗数据自动标准化的方法，其特征在于，所述业务数据元信息表中的字段基本信息包括：字段名、字段定义和字段类型。

4.根据权利要求3所述的一种医疗数据自动标准化的方法，其特征在于，所述步骤4具体包括：

步骤401：计算所述数据元定义与字段定义之间的定义相似度，计算公式Levenshteindistance为：

式中，a、b分别表示两个不同的字符串，长度分别为|a|和|b|，i是字符串a的下标，j是字符串b的下标，lev_a,b(i,j)表示a的前i个字符与b的前j个字符的距离；

步骤402：通过查询预设的类型映射表，获得数据元类型与字段类型之间的类型相似度；

步骤403:分别将所述数据元值域和所述字段值域用向量进行表示，计算所述数据元值域与所述字段值域间的相似度，计算公式为：

式中，A、B分别表示数据元值域对应的向量和字段值域对应的向量，A_i和B_i表示两个向量在第i维上的取值，共有n个维度；

步骤404：将所述定义相似度、类型相似度和值域相似度求和，得到最终的相似度计算结果。

5.根据权利要求1所述的一种医疗数据自动标准化的方法，其特征在于，所述步骤6与所述步骤7之间，还包括：

步骤8：专家对所述取值映射表进行审核确认。