CN112233746A - 一种医疗数据自动标准化的方法 - Google Patents

一种医疗数据自动标准化的方法 Download PDF

Info

Publication number
CN112233746A
CN112233746A CN202011223649.1A CN202011223649A CN112233746A CN 112233746 A CN112233746 A CN 112233746A CN 202011223649 A CN202011223649 A CN 202011223649A CN 112233746 A CN112233746 A CN 112233746A
Authority
CN
China
Prior art keywords
field
data element
information
similarity
value
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202011223649.1A
Other languages
English (en)
Other versions
CN112233746B (zh
Inventor
叶舟
李定坤
敬帅
李灼辉
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Guangzhou Datastory Information Technology Co ltd
Karamay Central Hospital
Original Assignee
Guangzhou Datastory Information Technology Co ltd
Karamay Central Hospital
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Guangzhou Datastory Information Technology Co ltd, Karamay Central Hospital filed Critical Guangzhou Datastory Information Technology Co ltd
Priority to CN202011223649.1A priority Critical patent/CN112233746B/zh
Publication of CN112233746A publication Critical patent/CN112233746A/zh
Application granted granted Critical
Publication of CN112233746B publication Critical patent/CN112233746B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H10/00ICT specially adapted for the handling or processing of patient-related medical or healthcare data
    • G16H10/60ICT specially adapted for the handling or processing of patient-related medical or healthcare data for patient-specific data, e.g. for electronic patient records
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/25Integrating or interfacing systems involving database management systems
    • G06F16/254Extract, transform and load [ETL] procedures, e.g. ETL data flows in data warehouses
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/22Matching criteria, e.g. proximity measures
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02PCLIMATE CHANGE MITIGATION TECHNOLOGIES IN THE PRODUCTION OR PROCESSING OF GOODS
    • Y02P90/00Enabling technologies with a potential contribution to greenhouse gas [GHG] emissions mitigation
    • Y02P90/30Computing systems specially adapted for manufacturing

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Primary Health Care (AREA)
  • Artificial Intelligence (AREA)
  • Health & Medical Sciences (AREA)
  • Medical Informatics (AREA)
  • General Health & Medical Sciences (AREA)
  • Epidemiology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Public Health (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • Medical Treatment And Welfare Office Work (AREA)

Abstract

本发明公开了一种医疗数据自动标准化的方法,该方法包括:形成标准字典表、形成业务数据元信息表、获取字段值域信息、计算相似度、对每个字段对应的标准字典表中的数据元信息进行排序并选出各个字段对应的相似度最高的数据元信息、生成取值映射表以及对待标准化的业务表进行标准转化共七个步骤。该方法基于对医疗数据标准信息和待标准化的业务表字段数据的整理、相似度分析、关系映射等处理过程,自动地完成医疗数据的标准化转化,由于整个过程尽量少的引入专家参与,不仅降低了标准化转化成本,也在很大程度上提高了标准化的效率。

Description

一种医疗数据自动标准化的方法
技术领域
本发明涉及医疗数据处理技术领域,更具体的说是涉及一种医疗数据自动标准化的方法。
背景技术
目前,医疗行业已经存在相对完善的数据标准,包括国家标准、行业标准、地方标准、国际标准等,但是这些标准数据的发布时间不一致,具体医院信息系统上线时间也不一致,导致医疗信息系统中累计的大量数据没有统一的数据标准,限制了数据的使用价值。这就需要对医疗系统(例如HIS、LIS等)数据按照统一的国家行业标准进行标准化。数据标准化程度对数据互联互通,大数据应用的建设起着至关重要的作用。
传统的医疗数据标准化主要依赖于专家经验,包括医疗知识经验和信息系统经验,参见附图1,实现医疗数据标准化的过程如下:
1)专家制定规则:专家需要熟悉和了解医疗行业的数据标准规范,例如“WS 371-2012基本信息基本数据集个人信息”,并熟悉和了解信息系统业务数据,进而判断数据表的单个字段是否符合标准字典表中对应的国家标准,例如,病患住院信息表的“费用类型”字段应该符合标准“WS 373.2-2012医疗服务基本数据集第2部分:住院摘要”的“DE07.00.008.00住院费用分类代码”。该标准规定费用类型的标准取值范围是“床位费|护理费|西药|中成药|中草药|放射费|化验费|输氧费|输血费|诊疗费|手术费|接生费|检查费|麻醉费|婴儿费|陪床费|其他”;
2)软件开发人员观察数据表字段的数据分布情况,发现现有类型包括“检验科、体检、核医学科、血液肿瘤科化验室、急诊抢救留观室...”;
3)软件开发人员配置转化规则,具体体现为规则映射表,例如“检验科→化验费、核医学科→检查费、血液肿瘤科化验室→化验费...”;
4)软件开发人员根据规则配置表,开发ETL程序。
但是,上述现有的医疗数据标准化的方式存在开发效率低、开发成本高的问题,由于想要找到同时熟悉医疗行业知识也熟悉信息化系统的专家,非常困难,导致医疗行业数据标准化实施成本攀高。同时,由于不同厂家的医疗信息系统,业务数据表的模型差别较大,不同项目之间的数据知识可复用程度很低,基本上每个项目都要单个表、单个字段地配置规则,极大程度降低了项目开发的效率。
因此,如何提供一种智能高效、成本更低的医疗数据自动标准化的方法是本领域技术人员亟需解决的问题。
发明内容
有鉴于此,本发明提供了一种医疗数据自动标准化的方法,该方法基于对医疗数据标准信息和待标准化的业务表字段数据的整理、比对分析、映射自动地完成医疗数据的标准化转化,解决了现有的医疗数据标准化方法效率低、成本高的问题。
为了实现上述目的,本发明采用如下技术方案:
一种医疗数据自动标准化的方法,该方法包括:
步骤1:从国家行业的数据标准信息中抽取各项数据元信息,形成标准字典表;
步骤2:从待标准化的业务表中抽取各字段基本信息,形成业务数据元信息表;
步骤3:从待标准化的业务表中统计各字段的取值分布信息,得到字段值域信息;
步骤4:分别计算所述业务数据元信息表中各字段基本信息与所述标准字典表中相应的数据元信息之间的相似度,并计算所述各字段的字段值域信息与所述标准字典表中相应的数据元信息之间的相似度,得到相似度计算结果;
步骤5:根据所述相似度计算结果对所述业务数据元信息表中每个字段对应的所述标准字典表中的数据元信息进行排序,选出所述业务数据元信息表中各个字段对应的相似度最高的数据元信息;
步骤6:将所述业务数据元信息表中各个字段的取值与相似度最高的数据元的合法取值一一对应,生成取值映射表;
步骤7:根据所述取值映射表对所述待标准化的业务表进行标准转化。
进一步地,所述标准字典表中记录所有数据元的信息,包括:数据元ID、数据元定义、数据元类型、表示方式以及数据元值域。
进一步地,所述业务数据元信息表中包含单个字段的字段名、定义以及类型。
进一步地,所述步骤4具体包括:
步骤401:计算所述数据元定义与字段定义之间的定义相似度,因为定义是文本描述,采用“编辑距离”计算其相似度,计算公式为:
Figure BDA0002762939130000031
式中,a、b分别表示两个不同的字符串,长度分别为|a|和|b|,i是字符串a的下标,j是字符串b的下标。leva,b(i,j)表示a的前i个字符与b的前j个字符的距离。
步骤402:通过查询提前定义好的类型映射表,获得数据元类型与字段类型之间的类型相似度;
步骤403:值域相似度使用向量相似度来计算,数据元值域的向量表示为:<<meta_code1,meta_value1>,<meta_code2,meta_value2>,...,<meta_codek,meta_valuek>>,字段取值分布(即字段值域)使用向量表示,两个向量之间的聚类使用“余弦相似度”。计算公式为:
Figure BDA0002762939130000041
式中,A、B分别表示数据元值域对应的向量和字段值域对应的向量,Ai和Bi表示两个向量在第i维上的取值,共有n个维度。
步骤404:将所述定义相似度、类型相似度和值域相似度三个值求和,得到最终的相似度计算结果。
进一步地,为了提高医疗数据标准化过程的质量,在所述步骤6之后、所述步骤7之前,还包括:
步骤8:专家对所述取值映射表进行审核确认。
此过程虽然有人工参与,但是业务专家的角色已经从“数据观察+规则提出”变成了“规则审核”,极大提高了工作效率和输出质量。
经由上述的技术方案可知,与现有技术相比,本发明公开提供了一种医疗数据自动标准化的方法,该方法基于对医疗数据标准信息和待标准化的业务表字段数据的整理、相似度分析、关系映射等处理过程,自动地完成医疗数据的标准化转化,由于整个过程尽量少的引入专家参与,不仅降低了标准化转化成本,也在很大程度上提高了标准化的效率。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据提供的附图获得其他的附图。
图1为现有的医疗数据标准化的实现原理示意图;
图2为本发明提供的一种医疗数据自动标准化的方法的实现流程示意图;
图3为本发明实施例中医疗数据自动标准化的方法的实现原理示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
参见附图2和图3,本发明实施例公开了一种医疗数据自动标准化的方法,该方法包括:
S1:从国家行业的数据标准信息中抽取各项数据元信息,形成标准字典表;标准字典表中记录所有数据元的信息,包括:数据元ID、定义、类型、表示方式、值域;
标准字典表中的数据样例如下:
DE07.00.008.00,费用类型,N2,可枚举,1,床位费
DE07.00.008.00,费用类型,N2,可枚举,2,护理费
...
DE02.01.039.00,患者姓名,A..50,不可枚举,,A..50
S2:从待标准化的业务表中抽取各字段基本信息,形成业务数据元信息表;包含单个字段的:字段名、定义、类型;
某字段基本信息的数据样例如下:
hospital_fee,住院费用,String,
S3:从待标准化的业务表中统计各字段的取值分布信息,得到字段值域信息;输出格式形如:检验科3860000人次、体检720000人次、核医学科490000人次、血液肿瘤科化验室250000人次;
某字段的取值分布情况的数据样例如下:<检验科|001|3860000,体检|002|720000,核医学科|003|490000,血液肿瘤科化验室|004|250000>,将该字段值域信息和上述步骤S2中得到的结果一起构成向量:
hospital_fee,住院费用,String,<检验科|001|3860000,体检|002|720000,核医学科|003|490000,血液肿瘤科化验室|004|250000>。
S4:分别计算业务数据元信息表中各字段基本信息与标准字典表中相应的数据元信息之间的相似度,并计算各字段的字段值域信息与标准字典表中相应的数据元信息之间的相似度,得到相似度计算结果;
计算数据元和业务表字段的相似度,主要根据3个字段:<数据元定义,字段定义>、<数据元类型,字段类型>、<数据元值域,字段取值分布>。
其中,因为定义是文本描述,采用“编辑距离”计算相似度。计算公式如下:
Figure BDA0002762939130000061
式中,a、b分别表示两个不同的字符串,长度分别为|a|和|b|。i是字符串a的下标,j是字符串b的下标。leva,b(i,j)表示a的前i个字符与b的前j个字符的距离。
类型相似度直接采用查询类型映射表的方式获得,根据提前定义好的类型映射表,例如数据元的S1类型对应字段的String类型。相似度映射表格如下表1所示:
表1相似度映射表
Figure BDA0002762939130000071
上表中,各参量的含义如下:
S1:表示不可枚举的,且以字符描述的形式;
S2:表示枚举型,且列表值不超过3个;
S3:表示代码表的形式;
N:通过“0”到“9”数字形式表示的值的类型。
D:采用GB/T 7408中规定的YYYYMMDD格式表示的值的类型。
DT:采用GB/T 7408中规定的YYYYMMDDThhmmss格式表示的值的类型。(字符T作为时间的标志符,说明时间表示的开始。)
T:采用GB/T 7408中规定的hhmmss格式表示的值的类型。
Int表示整数;float表示浮点数;double表示双精度浮点数;date表示日期;timestamp表示时间戳;varchar表示字符串;text表示文本;取值0表示不相似;取值1表示相似。
值域相似度使用向量相似度来计算,数据元值域的向量表示为:<<meta_code1,meta_value1>,<meta_code2,meta_value2>,...,<meta_codek,meta_valuek>>,字段取值分布使用向量表示,两个向量之间的聚类使用“余弦相似度”。计算公式如下:
Figure BDA0002762939130000081
式中,A、B分别表示数据元值域对应的向量和字段值域对应的向量,Ai和Bi表示两个向量在第i维上的取值,一共有n个维度。
最终上述3个相似度值计算成为一个最终的相似度。
例如,distance(vector_meta_std,vector_meta_attribute)=distance(费用类型,住院费用)+distance(N2,String)+distance(<1|床位费,2|护理费>,<检验科|001|3860000,体检|002|720000,核医学科|003|490000,血液肿瘤科化验室|004|250000>)。最终计算得到的相似度数值等于0.013。
S5:根据相似度计算结果对业务数据元信息表中每个字段对应的标准字典表中的数据元信息进行排序,选出业务数据元信息表中各个字段对应的相似度最高的数据元信息;由于同一个业务数据字段的相似数据元可能多个,按照最终的相似度进行排序。可以选择topN,即排名靠前的前n个信息进行展示,本实施例中设置相似度越高排名越靠前,且设置为候选字段top3,即选出排序后前3个信息进行展示。
例如,根据相似度排序和字段“住院费用”相似的数据源分别是:
1、DE07.00.008.00,费用类型,0.013
2、DE07.00.002.00,门诊收费,0.008
3、DE07.00.010.00,费用金额,0.003
S6:将业务数据元信息表中各个字段的取值与相似度最高的数据元的合法取值一一对应,生成取值映射表;
针对上述数据元DE07.00.008.00,映射关系如下:
检验科→化验费、核医学科→检查费、血液肿瘤科化验室→化验费。
S7:业务专家对标准转化表(即取值映射表)进行最终的确认,通过的映射关系直接进入下一个流程。
S8:根据取值映射表对待标准化的业务表进行标准转化。本实施例中通过ETL编程语言实现,ETL编程语言支持case when语义,当“原始值等于A的时候,按照标准值B存入新的字段”,可以完成标准转化过程的代码自动化。
根据上述数据元DE07.00.008.00得到的映射关系,自动生成标准化ETL代码如下:
insert into new_table select case when hospital_fee='检验科'then'化验费'when old_table.hospital_fee='核医学科'then'检查费'when old_table.hospital_fee='血液肿瘤科化验室'then'化验费'END DE07 from old_table;
不难看出,本发明实施例公开的医疗数据自动标准化的方法,基于对医疗数据的知识积累和计算机算法,自动地完成标准化代码的生成,在很大程度上减少了对专家经验的依赖性,提高了开发效率,并且节省了成本。需要说明的是,为了保障数据标准化之后的质量问题,该方法仍然需要业务专家对“标准转化表”进行审核。虽然有人工参与,但是业务专家的角色已经从“数据观察+规则提出”变成了“规则审核”,提高了工作效率和输出质量。
本说明书中各个实施例采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似部分互相参见即可。对于实施例公开的装置而言,由于其与实施例公开的方法相对应,所以描述的比较简单,相关之处参见方法部分说明即可。
对所公开的实施例的上述说明,使本领域专业技术人员能够实现或使用本发明。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的,本文中所定义的一般原理可以在不脱离本发明的精神或范围的情况下,在其它实施例中实现。因此,本发明将不会被限制于本文所示的这些实施例,而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

Claims (5)

1.一种医疗数据自动标准化的方法,其特征在于,包括:
步骤1:从国家医疗行业的数据标准信息中抽取各项数据元信息,形成标准字典表;
步骤2:从待标准化的业务表中抽取各字段基本信息,形成业务数据元信息表;
步骤3:从待标准化的业务表中统计各字段的取值分布信息,得到字段值域信息;
步骤4:分别计算所述业务数据元信息表中各字段基本信息与所述标准字典表中相应的数据元信息之间的相似度,并计算所述各字段的字段值域信息与所述标准字典表中相应的数据元信息之间的相似度,得到相似度计算结果;
步骤5:根据所述相似度计算结果对所述业务数据元信息表中每个字段对应的所述标准字典表中的数据元信息进行排序,选出所述业务数据元信息表中各个字段对应的相似度最高的数据元信息;
步骤6:将所述业务数据元信息表中各个字段的取值与相似度最高的数据元的合法取值一一对应,生成取值映射表;
步骤7:根据所述取值映射表对所述待标准化的业务表进行标准转化。
2.根据权利要求1所述的一种医疗数据自动标准化的方法,其特征在于,所述标准字典表中的数据元信息包括:数据元ID、数据元定义、数据元类型、表示方式以及数据元值域。
3.根据权利要求2所述的一种医疗数据自动标准化的方法,其特征在于,所述业务数据元信息表中的字段基本信息包括:字段名、字段定义和字段类型。
4.根据权利要求3所述的一种医疗数据自动标准化的方法,其特征在于,所述步骤4具体包括:
步骤401:计算所述数据元定义与字段定义之间的定义相似度,计算公式Levenshteindistance为:
Figure FDA0002762939120000021
式中,a、b分别表示两个不同的字符串,长度分别为|a|和|b|,i是字符串a的下标,j是字符串b的下标,leva,b(i,j)表示a的前i个字符与b的前j个字符的距离;
步骤402:通过查询预设的类型映射表,获得数据元类型与字段类型之间的类型相似度;
步骤403:分别将所述数据元值域和所述字段值域用向量进行表示,计算所述数据元值域与所述字段值域间的相似度,计算公式为:
Figure FDA0002762939120000022
式中,A、B分别表示数据元值域对应的向量和字段值域对应的向量,Ai和Bi表示两个向量在第i维上的取值,共有n个维度;
步骤404:将所述定义相似度、类型相似度和值域相似度求和,得到最终的相似度计算结果。
5.根据权利要求1所述的一种医疗数据自动标准化的方法,其特征在于,所述步骤6与所述步骤7之间,还包括:
步骤8:专家对所述取值映射表进行审核确认。
CN202011223649.1A 2020-11-05 2020-11-05 一种医疗数据自动标准化的方法 Active CN112233746B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011223649.1A CN112233746B (zh) 2020-11-05 2020-11-05 一种医疗数据自动标准化的方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011223649.1A CN112233746B (zh) 2020-11-05 2020-11-05 一种医疗数据自动标准化的方法

Publications (2)

Publication Number Publication Date
CN112233746A true CN112233746A (zh) 2021-01-15
CN112233746B CN112233746B (zh) 2023-09-01

Family

ID=74122684

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011223649.1A Active CN112233746B (zh) 2020-11-05 2020-11-05 一种医疗数据自动标准化的方法

Country Status (1)

Country Link
CN (1) CN112233746B (zh)

Cited By (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113032532A (zh) * 2021-05-21 2021-06-25 杭州未名信科科技有限公司 基于健康医疗大数据标准库的多源数据处理方法与系统
CN113223689A (zh) * 2021-05-23 2021-08-06 杭州医康慧联科技股份有限公司 适用于医疗数据的标准化配置方法
CN113392939A (zh) * 2021-08-16 2021-09-14 江苏苏宁银行股份有限公司 一种行业代码标准化方法、装置、电子设备和存储介质
CN113593683A (zh) * 2021-07-27 2021-11-02 浙江省人民医院 一种影像诊断报告书写质量评价方法及系统
CN113626558A (zh) * 2021-07-07 2021-11-09 厦门市美亚柏科信息股份有限公司 一种基于智能推荐的字段标准化的方法和系统
CN113688126A (zh) * 2021-08-25 2021-11-23 云从科技集团股份有限公司 确定源数据与标准数据的映射关系的方法、系统和介质
CN113704250A (zh) * 2021-07-16 2021-11-26 杭州医康慧联科技股份有限公司 适用于医疗数据的数据批量处理方法
CN113704811A (zh) * 2021-07-16 2021-11-26 杭州医康慧联科技股份有限公司 数据价值管理方法
CN113704555A (zh) * 2021-07-16 2021-11-26 杭州医康慧联科技股份有限公司 基于医疗方向联邦学习的特征管理方法
TWI827409B (zh) * 2022-12-20 2023-12-21 綺源碼有限公司 自動化組織值域映射方法、電子裝置及電腦可讀媒介
CN118093897A (zh) * 2024-04-28 2024-05-28 浙江大华技术股份有限公司 一种数据元匹配方法、电子设备及计算机可读存储介质

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105787282A (zh) * 2016-03-24 2016-07-20 国家卫生计生委统计信息中心 一种医疗数据字典自动标准化的方法与系统
CN109766436A (zh) * 2018-12-04 2019-05-17 北京明略软件系统有限公司 一种数据表的字段与知识库的数据元匹配的方法和装置
CN110197214A (zh) * 2019-05-22 2019-09-03 浙江大学 一种基于多字段相似度计算的患者身份匹配方法
CN110502516A (zh) * 2019-08-22 2019-11-26 深圳前海环融联易信息科技服务有限公司 表格数据解析方法、装置、计算机设备及存储介质
CN111061833A (zh) * 2019-12-10 2020-04-24 北京明略软件系统有限公司 数据处理方法、装置、电子设备和计算机可读存储介质
KR20200070775A (ko) * 2018-12-10 2020-06-18 한국전자통신연구원 이기종 시스템의 보안정보 정규화 장치 및 방법
CN111681724A (zh) * 2020-05-07 2020-09-18 浙江大学医学院附属第四医院(浙江省义乌医院、浙江大学医学院附属第四医院医共体) 一种电子病历关键实体标准化识别方法及识别系统

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105787282A (zh) * 2016-03-24 2016-07-20 国家卫生计生委统计信息中心 一种医疗数据字典自动标准化的方法与系统
CN109766436A (zh) * 2018-12-04 2019-05-17 北京明略软件系统有限公司 一种数据表的字段与知识库的数据元匹配的方法和装置
KR20200070775A (ko) * 2018-12-10 2020-06-18 한국전자통신연구원 이기종 시스템의 보안정보 정규화 장치 및 방법
CN110197214A (zh) * 2019-05-22 2019-09-03 浙江大学 一种基于多字段相似度计算的患者身份匹配方法
CN110502516A (zh) * 2019-08-22 2019-11-26 深圳前海环融联易信息科技服务有限公司 表格数据解析方法、装置、计算机设备及存储介质
CN111061833A (zh) * 2019-12-10 2020-04-24 北京明略软件系统有限公司 数据处理方法、装置、电子设备和计算机可读存储介质
CN111681724A (zh) * 2020-05-07 2020-09-18 浙江大学医学院附属第四医院(浙江省义乌医院、浙江大学医学院附属第四医院医共体) 一种电子病历关键实体标准化识别方法及识别系统

Cited By (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113032532B (zh) * 2021-05-21 2021-08-17 杭州未名信科科技有限公司 基于健康医疗大数据标准库的多源数据处理方法与系统
CN113032532A (zh) * 2021-05-21 2021-06-25 杭州未名信科科技有限公司 基于健康医疗大数据标准库的多源数据处理方法与系统
CN113223689A (zh) * 2021-05-23 2021-08-06 杭州医康慧联科技股份有限公司 适用于医疗数据的标准化配置方法
CN113626558A (zh) * 2021-07-07 2021-11-09 厦门市美亚柏科信息股份有限公司 一种基于智能推荐的字段标准化的方法和系统
CN113704555A (zh) * 2021-07-16 2021-11-26 杭州医康慧联科技股份有限公司 基于医疗方向联邦学习的特征管理方法
CN113704555B (zh) * 2021-07-16 2023-11-07 杭州医康慧联科技股份有限公司 基于医疗方向联邦学习的特征管理方法
CN113704250A (zh) * 2021-07-16 2021-11-26 杭州医康慧联科技股份有限公司 适用于医疗数据的数据批量处理方法
CN113704811A (zh) * 2021-07-16 2021-11-26 杭州医康慧联科技股份有限公司 数据价值管理方法
CN113593683A (zh) * 2021-07-27 2021-11-02 浙江省人民医院 一种影像诊断报告书写质量评价方法及系统
CN113392939A (zh) * 2021-08-16 2021-09-14 江苏苏宁银行股份有限公司 一种行业代码标准化方法、装置、电子设备和存储介质
CN113688126A (zh) * 2021-08-25 2021-11-23 云从科技集团股份有限公司 确定源数据与标准数据的映射关系的方法、系统和介质
TWI827409B (zh) * 2022-12-20 2023-12-21 綺源碼有限公司 自動化組織值域映射方法、電子裝置及電腦可讀媒介
CN118093897A (zh) * 2024-04-28 2024-05-28 浙江大华技术股份有限公司 一种数据元匹配方法、电子设备及计算机可读存储介质
CN118093897B (zh) * 2024-04-28 2024-08-02 浙江大华技术股份有限公司 一种数据元匹配方法、电子设备及计算机可读存储介质

Also Published As

Publication number Publication date
CN112233746B (zh) 2023-09-01

Similar Documents

Publication Publication Date Title
CN112233746A (zh) 一种医疗数据自动标准化的方法
Luo et al. Synthesizing natural language to visualization (NL2VIS) benchmarks from NL2SQL benchmarks
US7707169B2 (en) Specification-based automation methods for medical content extraction, data aggregation and enrichment
US20050183002A1 (en) Data and metadata linking form mechanism and method
US20050144166A1 (en) Method for assisting in automated conversion of data and associated metadata
WO2021032055A1 (zh) 临床试验报告自动录入方法及装置、电子设备、存储介质
CN111460173A (zh) 一种甲状腺癌的疾病本体模型的构建方法
Brahim et al. Model Driven Extraction of NoSQL Databases Schema: Case of MongoDB.
CN117542467B (zh) 基于患者数据的专病标准数据库自动构建方法
CN118093632A (zh) 基于大语言模型和图结构的图数据库查询方法和装置
US10192031B1 (en) System for extracting information from DICOM structured reports
EP1745390A2 (en) Data and metadata linking form mechanism and method
CN112347121B (zh) 一种可配置的自然语言转sql的方法及系统
Chondrogiannis et al. An Intelligent Ontology Alignment Tool Dealing with Complicated Mismatches.
CN117112732A (zh) 一种基于llm多表自适应选择的nl2sql方法
CN117236300A (zh) 一种基于pdf的crf采集表的自动生成方法、装置及设备
O’Connor et al. Unleashing the value of Common Data Elements through the CEDAR Workbench
CN113221528B (zh) 基于openEHR模型的临床数据质量评估规则的自动生成与执行方法
CN115080594A (zh) 一种对数据进行多维度分析方法、系统和电子设备
CN118377771B (zh) 基于图数据结构的数据建模方法和系统
CN118394954B (zh) 一种生物医学数据集标准数据元的知识图谱构建方法及系统
CN109977269B (zh) 一种针对xml文件的数据自适应融合方法
US20240347146A1 (en) Multinational clinical data standardization method and device
Bednar et al. Ontologies and knowledge graphs: A new way to represent and communicate values in technology design
CN118888067A (zh) 一种基于模板的临床数据自动化转换系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant