CN113254433A - 医疗数据治理方法、装置、计算机设备和存储介质 - Google Patents
医疗数据治理方法、装置、计算机设备和存储介质 Download PDFInfo
- Publication number
- CN113254433A CN113254433A CN202110584190.6A CN202110584190A CN113254433A CN 113254433 A CN113254433 A CN 113254433A CN 202110584190 A CN202110584190 A CN 202110584190A CN 113254433 A CN113254433 A CN 113254433A
- Authority
- CN
- China
- Prior art keywords
- data
- medical
- row
- treated
- medical data
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 64
- 238000013523 data management Methods 0.000 title claims abstract description 21
- 238000003860 storage Methods 0.000 title claims abstract description 16
- 238000006243 chemical reaction Methods 0.000 claims abstract description 53
- 238000012545 processing Methods 0.000 claims abstract description 43
- 238000010606 normalization Methods 0.000 claims abstract description 29
- 230000008569 process Effects 0.000 claims abstract description 14
- 238000004590 computer program Methods 0.000 claims description 25
- 238000004140 cleaning Methods 0.000 claims description 13
- 238000001914 filtration Methods 0.000 claims description 12
- 238000000605 extraction Methods 0.000 claims description 7
- 238000013524 data verification Methods 0.000 claims description 6
- 238000012795 verification Methods 0.000 claims description 6
- 238000013501 data transformation Methods 0.000 claims description 2
- 238000010801 machine learning Methods 0.000 abstract description 7
- 238000007405 data analysis Methods 0.000 abstract description 6
- 238000005065 mining Methods 0.000 abstract description 6
- 238000011160 research Methods 0.000 abstract description 6
- 238000003759 clinical diagnosis Methods 0.000 abstract description 4
- 238000009825 accumulation Methods 0.000 abstract description 2
- 238000001556 precipitation Methods 0.000 abstract description 2
- 238000010586 diagram Methods 0.000 description 6
- 238000004364 calculation method Methods 0.000 description 4
- 238000006467 substitution reaction Methods 0.000 description 4
- 208000024891 symptom Diseases 0.000 description 4
- 238000012360 testing method Methods 0.000 description 4
- 238000007689 inspection Methods 0.000 description 3
- 230000000717 retained effect Effects 0.000 description 3
- 238000007619 statistical method Methods 0.000 description 3
- 230000002159 abnormal effect Effects 0.000 description 2
- 201000010099 disease Diseases 0.000 description 2
- 208000037265 diseases, disorders, signs and symptoms Diseases 0.000 description 2
- 230000008676 import Effects 0.000 description 2
- 238000010339 medical test Methods 0.000 description 2
- 206010000830 Acute leukaemia Diseases 0.000 description 1
- 230000001133 acceleration Effects 0.000 description 1
- 238000004458 analytical method Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000004422 calculation algorithm Methods 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 238000013075 data extraction Methods 0.000 description 1
- 238000003745 diagnosis Methods 0.000 description 1
- 230000008030 elimination Effects 0.000 description 1
- 238000003379 elimination reaction Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 230000036541 health Effects 0.000 description 1
- 208000032839 leukemia Diseases 0.000 description 1
- 238000007726 management method Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000003672 processing method Methods 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
- 238000005406 washing Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/21—Design, administration or maintenance of databases
- G06F16/215—Improving data quality; Data cleansing, e.g. de-duplication, removing invalid entries or correcting typographical errors
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/22—Indexing; Data structures therefor; Storage structures
- G06F16/2282—Tablespace storage structures; Management thereof
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/25—Integrating or interfacing systems involving database management systems
- G06F16/258—Data format conversion from or to a database
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16H—HEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
- G16H70/00—ICT specially adapted for the handling or processing of medical references
Landscapes
- Engineering & Computer Science (AREA)
- Databases & Information Systems (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Quality & Reliability (AREA)
- Software Systems (AREA)
- Health & Medical Sciences (AREA)
- Epidemiology (AREA)
- General Health & Medical Sciences (AREA)
- Medical Informatics (AREA)
- Primary Health Care (AREA)
- Public Health (AREA)
- Medical Treatment And Welfare Office Work (AREA)
Abstract
本申请涉及一种医疗数据治理方法、装置、计算机设备和存储介质。本申请的方法通过获取散乱的一列多行模式的待治理医疗数据,依照数据的数据属性以及关键字段,将这部分数据转换为更易于处理的一行多列模式的待治理医疗数据后,将一行多列模式的待治理医疗数据导入仓库数据表集合;并对仓库数据表集合内的医疗数据进行数据转换以及数据归一化处理,解决了多源、异构、海量数据的格式化问题。为基于医疗数据的大数据分析、机器学习提供了数据基础。方便大数据查询、挖掘,为临床诊断和科研项目提供数据支撑。大大提高了科研工作效率及准确性。并为后续数据价值沉淀、业务能力积累奠定框基础。
Description
技术领域
本申请涉及计算机领域,特别是涉及一种医疗数据治理方法、装置、计算机设备和存储介质。
背景技术
医疗信息化是指运用计算机、数据库、网络等信息技术,为各医院之间及医院内各部门之间提供患者、管理等信息的收集、存储、处理、提取和数据交换,从而提高医疗系统的运行效率。医疗信息化有效简化了看病流程、提升了医疗服务质量,随着医疗卫生信息化建设进程的不断加快,医疗数据的类型和规模也在以前所未有的速度迅猛增长。
目前基于关系数据库存储的海量的医学数据,如医学校验数据受限于数据格式不同、数据分布杂乱、数据情况未知等因素的影响,无法被有效利用,从而导致这部分医学数据的大数据查询以及挖掘等工作无法开展,无法为临床诊断和科研项目提供数据支撑。
发明内容
基于此,有必要针对上述技术问题,提供一种能对医学数据进行数据治理,以使其能被有效利用的医疗数据治理方法、装置、计算机设备和存储介质。
一种医疗数据治理方法,所述方法包括:
获取一列多行模式的待治理医疗数据;
识别所述待治理医疗数据的数据属性与关键字段,根据所述数据属性创建一行多列模式的仓库数据表集合;
基于所述关键字段,将所述一列多行模式的待治理医疗数据转换为一行多列模式的待治理医疗数据后,将所述一行多列模式的待治理医疗数据导入所述仓库数据表集合;
对所述仓库数据表集合内的医疗数据进行数据转换以及数据归一化处理,完成对所述待治理医疗数据的数据治理。
在其中一个实施例中,所述获取一列多行模式的待治理医疗数据包括:
获取一列多行模式的原始医疗数据,识别所述原始医疗数据对应的数据表格式;
根据所述数据表格式建立所述待处理数据表集合;
抽取所述原始医疗数据内数据,并根据抽取结果更新所述待处理数据表集合,获取一列多行模式的待治理医疗数据。
在其中一个实施例中,所述基于所述关键字段,将所述一列多行模式的待治理医疗数据转换为一行多列模式的待治理医疗数据之前,还包括:
对所述待治理医疗数据进行数据清洗处理;
所述将所述一行多列模式的待治理医疗数据导入所述仓库数据表集合包括:
将数据清洗处理后的所述一行多列模式的待治理医疗数据导入所述仓库数据表集合。
在其中一个实施例中,所述基于所述关键字段,将所述一列多行模式的待治理医疗数据转换为一行多列模式的待治理医疗数据后,将所述一行多列模式的待治理医疗数据导入所述仓库数据表集合包括:
以所述关键字段为索引项,遍历所述待治理医疗数据;
识别所述一列多行模式的待治理医疗数据中的数据属性以及所述数据属性对应的属性值;
将所述一列多行模式的待治理医疗数据中的数据属性以及所述数据属性对应的属性值转换为一行多列模式的待治理医疗数据后,将所述数据属性以及所述数据属性对应的属性值导入所述仓库数据表集合;
将所述关键字段导入所述仓库数据表集合。
在其中一个实施例中,所述将所述数据属性以及所述数据属性对应的属性值导入所述仓库数据表集合之后,还包括:
基于所述一列多行模式的待治理医疗数据,对所述仓库数据表集合内的数据属性以及所述数据属性对应的属性值进行数据校验以及数据修复。
在其中一个实施例中,所述关键字段包括身份数据以及检验日期数据;
所述对所述仓库数据表集合内的医疗数据进行数据转换以及数据归一化处理,完成对所述待治理医疗数据的数据治理之前,还包括:
识别所述检验日期数据中的日期最大值数据;
基于所述身份数据以及日期最大值数据,对所述仓库数据表集合内的医疗数据进行过滤处理;
所述对所述仓库数据表集合内的医疗数据进行数据转换以及数据归一化处理,完成对所述待治理医疗数据的数据治理包括:
对数据过滤处理后的所述仓库数据表集合内的医疗数据进行数据转换以及数据归一化处理,完成对所述待治理医疗数据的数据治理。
在其中一个实施例中,对所述仓库数据表集合内的医疗数据进行数据转换处理包括:
基于预设数据转换方法,将所述仓库数据表集合内的医疗数据中的非结构化数据以及半结构化数据转换为结构化数据。
一种医疗数据治理装置,所述装置包括:
数据获取模块,用于获取一列多行模式的待治理医疗数据;
数据识别模块,用于识别所述待治理医疗数据的数据属性与关键字段,根据所述数据属性创建一行多列模式的仓库数据表集合;
格式转换模块,用于基于所述关键字段,将所述一列多行模式的待治理医疗数据转换为一行多列模式的待治理医疗数据后,将所述一行多列模式的待治理医疗数据导入所述仓库数据表集合;
数据转换模块,用于对所述仓库数据表集合内的医疗数据进行数据转换以及数据归一化处理,完成对所述待治理医疗数据的数据治理。
一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,所述处理器执行所述计算机程序时实现以下步骤:
获取一列多行模式的待治理医疗数据;
识别所述待治理医疗数据的数据属性与关键字段,根据所述数据属性创建一行多列模式的仓库数据表集合;
基于所述关键字段,将所述一列多行模式的待治理医疗数据转换为一行多列模式的待治理医疗数据后,将所述一行多列模式的待治理医疗数据导入所述仓库数据表集合;
对所述仓库数据表集合内的医疗数据进行数据转换以及数据归一化处理,完成对所述待治理医疗数据的数据治理。
一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现以下步骤:
获取一列多行模式的待治理医疗数据;
识别所述待治理医疗数据的数据属性与关键字段,根据所述数据属性创建一行多列模式的仓库数据表集合;
基于所述关键字段,将所述一列多行模式的待治理医疗数据转换为一行多列模式的待治理医疗数据后,将所述一行多列模式的待治理医疗数据导入所述仓库数据表集合;
对所述仓库数据表集合内的医疗数据进行数据转换以及数据归一化处理,完成对所述待治理医疗数据的数据治理。
上述医疗数据治理方法、装置、计算机设备和存储介质,方法通过获取一列多行模式的待治理医疗数据;识别待治理医疗数据的数据属性与关键字段,根据数据属性创建一行多列模式的仓库数据表集合;而基于关键字段,将一列多行模式的待治理医疗数据转换为一行多列模式的待治理医疗数据后,将一行多列模式的待治理医疗数据导入仓库数据表集合;对仓库数据表集合内的医疗数据进行数据转换以及数据归一化处理,完成对待治理医疗数据的数据治理。本申请通过获取散乱的一列多行模式的待治理医疗数据,依照数据的数据属性以及关键字段,将这部分数据转换为更易于处理的一行多列模式的待治理医疗数据后,将一行多列模式的待治理医疗数据导入仓库数据表集合;并对仓库数据表集合内的医疗数据进行数据转换以及数据归一化处理,解决了多源、异构、海量数据的格式化问题。为基于医疗数据的大数据分析、机器学习提供了数据基础。方便大数据查询、挖掘,并可以为临床诊断和科研项目提供数据支撑。
附图说明
图1为一个实施例中医疗数据治理方法的应用环境图;
图2为一个实施例中医疗数据治理方法的流程示意图;
图3为一个实施例中图2中步骤201的子流程示意图;
图4为一个实施例中图2中步骤205的子流程示意图;
图5为一个实施例中医疗数据治理装置的结构框图;
图6为一个实施例中计算机设备的内部结构图。
具体实施方式
为了使本申请的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本申请进行进一步详细说明。应当理解,此处描述的具体实施例仅仅用以解释本申请,并不用于限定本申请。
机器学习在医疗领域具有巨大的潜力,能够帮助临床医生、医生和研究人员从现有数据集中发现规律,从而提升医疗效率,改善医疗质量。而对于机器学习而言,医疗数据,如医疗检验数据,数据量较为庞大,数据类型多种多样,数据处理速度快,医学检验的结果信息意义重大,这是临床医生对病人做出正确诊断的重要辅助手段,完全符合大数据的特征:数据规模大、数据类型多样、数据价值高、数据处理速度快。因此可以基于医疗检验数据等医疗数据来进行大数据分析或者机器学习等领域的分析,而为了得到可用于大数据分析或者机器学习的医疗数据,可以通过本申请的医疗数据治理方法来完成对医疗数据的治理。
本申请提供的医疗数据治理方法,可以应用于如图1所示的应用环境中。其中用于终端102可以与服务器104通过网络连接,终端102可以向服务器104发送待治理医疗数据或者原始医疗数据,通过服务器104来对这些数据进行数据治理,以使其成为可以被有效利用的数据。服务器104获取一列多行模式的待治理医疗数据;识别待治理医疗数据的数据属性与关键字段,根据数据属性创建一行多列模式的仓库数据表集合;基于关键字段,将一列多行模式的待治理医疗数据转换为一行多列模式的待治理医疗数据后,将一行多列模式的待治理医疗数据导入仓库数据表集合;对仓库数据表集合内的医疗数据进行数据转换以及数据归一化处理,完成对待治理医疗数据的数据治理。其中,终端102可以但不限于是各种个人计算机、笔记本电脑、智能手机、平板电脑和便携式可穿戴设备,服务器104可以用独立的服务器或者是多个服务器组成的服务器集群来实现。
在一个实施例中,如图2所示,提供了一种医疗数据治理方法,本实施例以该方法应用于图1中的数据处理服务器102为例进行说明。本实施例中,该方法包括以下步骤:
步骤201,获取一列多行模式的待治理医疗数据。
其中,待处理的医疗数据是本申请的医疗数据治理方法所治理的目标数据。而一列多行模式,即对于待治理医疗数据而言,每个病例在医院治疗或者检验时,医院的数据系统都会生成对应的若干条医疗数据。如对于医疗检验数据,每个病例一次会检验数十个乃至上百个项目。从而生成一列多行模式的待治理医疗数据,每行都对应着一个检验项目。这种数据表结构适合展示每个病例的数据或所有病例的简单统计分析。无法支持对项目之间的关系挖掘,以及每个项目与症状的相关度等复杂的数据计算。因此可以通过本申请的医疗数据治理对这些数据进行治理。
具体地,服务器104可以直接获取原始的一列多行模式的待治理医疗数据,而后对这些待治理医疗数据进行相应的数据治理处理。
步骤203,识别待治理医疗数据的数据属性与关键字段,根据数据属性创建一行多列模式的仓库数据表集合。
步骤205,基于关键字段,将一列多行模式的待治理医疗数据转换为一行多列模式的待治理医疗数据后,将一行多列模式的待治理医疗数据导入仓库数据表集合。
其中,数据属性是指数据所属的类型,如对于医疗检验数据而言,数据属性具体可以为医疗检验的项目编码以及项目名称等,待治理医疗数据中可能还包括与数据属性对应的数据值。而关键字段是指一些预设的关键数据,主要用于检索或者分类等工作。如对于医疗检验数据而言,关键数据具体可以为患者ID以及检验日期等。而一行多列模式的数据表相对于一列多行模式的待治理医疗数据,主要区别在于,一列多行模式的待治理医疗数据中一个数据属性对应一行数据,如一个患者,其对应多行医疗检验数据。而在一行多列模式的数据表中,可以基于患者的身份信息等信息,将多行医疗检验数据归纳到一行中,而一行中对应有多项关键数据。
具体地,在得到一列多行模式的待治理医疗数据后,可以识别出待治理医疗数据的数据属性与关键字段。而根据数据属性创建一行多列模式的仓库数据表集合则具体是指,先统计数据属性的类型,如对于医疗检验数据,数据属性具体为医疗检验数据所涉及的检验项目的类型,而数据属性对应的数据值该类型检验项目的检验结果。需要通过待治理医疗数据中涉及的医疗检验数据中所包含的检验项目有哪些,来创建对应的一行多列模式的仓库数据表集合,对于一行多列模式的第一数据表,其表头包括了关键字段以及待治理医疗数据所涉及所有数据属性。在其中一个实施例中,对于医疗检验数据,可以通过项目编码来表示检验项目,此时服务器104可以统计待治理医疗数据中所出现的项目编码的类型。在仓库数据表集合的数据表的列表头具体可以包括:病历号、性别、年龄、检验日期以及病症等关键字段,还包括了项目编码1、项目编码2以及项目编码3等若干的检验项目。在进行数据表转换时,可以基于一列多行模式的待治理医疗数据中这些关键字段,将不同行的待治理医疗数据归纳到仓库数据表集合内数据表的同行数据内,完成初步的数据治理流程。
步骤207,对仓库数据表集合内的医疗数据进行数据转换以及数据归一化处理,完成对待治理医疗数据的数据治理。
其中,数据转换具体是指将仓库数据表集合内的医疗数据中的数据转换为格式化数据,以方便后续处理,而数据归一化是指一种简化计算的方式,将数据经过处理之后限定到一定的范围之内,一般会将数据限定在[0,1]。数据归一化可以加快算法的收敛速度,而且在后续的数据处理上也会比较方便。
具体地,在将一行多列模式的待治理医疗数据导入仓库数据表集合之后,为了后续数据利用的便捷性,可以对数据进行进一步地治理,具体可以通过数据转换以及数据归一化处理,来完成对待治理医疗数据的数据治理。其中数据转换用于将数据转化为更利于使用的结构化数据,而归一化的具体计算方法可以用数学公式来表示:y=(x-最小值)/(最大值-最小值),这里的最大值和最小值分别是针对数据表全表的每一个属性的最大值和最小值,x是属性中的值,y为最终归一化结果。
上述医疗数据治理方法,方法通过获取一列多行模式的待治理医疗数据;识别待治理医疗数据的数据属性与关键字段,根据数据属性创建一行多列模式的仓库数据表集合;而基于关键字段,将一列多行模式的待治理医疗数据转换为一行多列模式的待治理医疗数据后,将一行多列模式的待治理医疗数据导入仓库数据表集合;对仓库数据表集合内的医疗数据进行数据转换以及数据归一化处理,完成对待治理医疗数据的数据治理。本申请通过获取散乱的一列多行模式的待治理医疗数据,依照数据的数据属性以及关键字段,将这部分数据转换为更易于处理的一行多列模式的待治理医疗数据后,将一行多列模式的待治理医疗数据导入仓库数据表集合;并对仓库数据表集合内的医疗数据进行数据转换以及数据归一化处理,解决了多源、异构、海量数据的格式化问题。为基于医疗数据的大数据分析、机器学习提供了数据基础。方便大数据查询、挖掘,为临床诊断和科研项目提供数据支撑。大大提高了科研工作效率及准确性。并为后续数据价值沉淀、业务能力积累奠定框基础。
在一个实施例中,如图3所示,步骤201包括:
步骤302,获取一列多行模式的原始医疗数据,识别原始医疗数据对应的数据表格式。
步骤304,根据数据表格式建立待处理数据表集合。
步骤306,抽取原始医疗数据内数据,并根据抽取结果更新待处理数据表集合,获取一列多行模式的待治理医疗数据。
其中,原始医疗数据是指现有关系数据库的数据或者已经从关系数据库中生成的Excel、TXT、CMB等文件中的数据。而待处理数据表集合则是预设数据仓库中的数据表集合,用于存储抽取得到数据。
为了处理的方便,本申请可以在预设数据仓库完成数据治理。而对原始医疗数据的数据梳理工作与数据抽取工作,这个过程需要先得到一列多行模式的原始医疗数据。其中数据梳理是统计、分析现有关系数据库包括的数据特征(字段),统计数据记录,统计异常数据数值,如:‘*’、‘<’、‘>’、‘--’、‘未检出’、‘未做’等非规范数据。统计分析适合进行数据转换的数据特征(字段),如:性别、部门、症状、检验结果等。而数据抽取则是将原始医疗数据导入到预设数据仓库内新建的待处理数据表集合,以便于后续的数据分析。在其中一个实施例中,原始医疗数据的数据表参看表1,而待处理数据表集合内的数据表也与表1格式。
表1:原始医疗数据的数据表
在本实施例中,通过在现有关系数据库与数据仓库建立数据通道,可以有效地对原始医疗数据进行数据抽取的并存放到待处理数据表集合中对应的数据表,形成医疗数据治理方法所使用的数据仓库的数据源。
在其中一个实施例中,步骤205之前,还包括:对待治理医疗数据进行数据清洗处理。步骤205包括:将数据清洗处理后的一行多列模式的待治理医疗数据导入仓库数据表集合。
具体地,数据清洗是指对抽取过来的数据去除无效、无关的数据,如对于医疗校验数据,抽取得到的数据可能有部分无法利用,如异常统计数据、姓名、单位、参考值、重复属性数据(如项目编码、项目名称(英文)、项目名称(中文))等。因此可以预先指定好需要清洗的数据类型,而后通过数据清洗来清洗这些数据。如对于上述的表1,清洗后的数据具体可以参照表2.
表2:数据清洗处理后的待治理医疗数据
本实施例中,通过数据清洗,可以有效地将重复以及无用的数据从待治理医疗数据,从而提高后续数据治理过程的处理效率。
在其中一个实施例中,如图4所示,步骤205包括:
步骤401,以关键字段为索引项,遍历待治理医疗数据。
步骤403,识别一列多行模式的待治理医疗数据中的数据属性以及数据属性对应的属性值。
步骤405,将一列多行模式的待治理医疗数据中的数据属性以及数据属性对应的属性值转换为一行多列模式的待治理医疗数据后,将数据属性以及数据属性对应的属性值导入仓库数据表集合。
步骤407,将关键字段导入仓库数据表集合。
具体地,可以在医疗数据治理时,通过数据表结构转换来实现对待治理医疗数据的数据治理。数据表结构转换是指将现有关系数据库中的表结构,可以参看上述表2,当然,实际并不局限于此。每个病例一次会检验数十个乃至上百个项目。这种数据表结构适合展示每个病例的数据或所有病例的简单统计分析。无法支持对项目之间的关系挖掘,以及每个项目与症状的相关度等复杂的数据计算。需要将表结构转换为数据仓库的简单表结构模式。在其中一个实施例中,在进行数据表格式转换时,首先可以以患者ID、检验日期等为关键字,遍历待治理医疗数据,得到全部的数据,而后识别一列多行模式的待治理医疗数据中的数据属性以及数据属性对应的属性值;将一列多行模式的待治理医疗数据中的数据属性以及数据属性对应的属性值转换为一行多列模式的待治理医疗数据后,将数据属性以及数据属性对应的属性值导入仓库数据表集合,完成数据表格式转换的流程。最后将关键字段导入仓库数据表集合,得到一行多列模式的待治理医疗数据。本实施例可以有效地将一行多列模式的待治理医疗数据导入到仓库数据表集合。具体地,表2中数据清洗处理后的待治理医疗数据转换为的一行多列模式的待治理医疗数据可以参照下列表3:
表3:一行多列模式的待治理医疗数据
在其中一个实施例中,步骤405之后,还包括:
基于一列多行模式的待治理医疗数据,对仓库数据表集合内的数据属性以及数据属性对应的属性值进行数据校验以及数据修复。
具体地,在将数据属性以及数据属性对应的属性值导入仓库数据表集合后,由于患者可能并未检测所有的检验项目,因此可能有部分数据属性并不存在对应的属性值。因此还可以通过数据校验的方式来对导入的数据进行校验,并对校验出的错误进行修复,以保证仓库数据表集合内数据的准确性。具体地,可以对全部数据以仓库数据表集合中的数据属性所在列的具体属性值为判断依据,判断仓库数据表集合中数据属性所在列的属性值是否与待治理医疗数据对应的属性值相等,如果相等则保留该数据,不相等则以“0”或其他非冲突且有业务意义的数据代替。将获得的属性数据写入到对应的属性。从而保证仓库数据表集合内数据的准确性。
在其中一个实施例中,关键字段包括身份数据以及检验日期数据;
步骤207之前,还包括:识别检验日期数据中的日期最大值数据;基于身份数据以及日期最大值数据,对仓库数据表集合内的医疗数据进行过滤处理;步骤207包括:对数据过滤处理后的仓库数据表集合内的医疗数据进行数据转换以及数据归一化处理,完成对待治理医疗数据的数据治理。
具体地,因为患者可能在不同的时间内进行了相同的治疗或者医学检验,此时为了保证后续数据处理的有效性,可以针对性地只保留患者最近的待治理医疗数据来作为数据处理的目标,具体可以以患者的身份数据、检验日期等为关键字,遍历仓库数据表集合,对每个患者的具体检查日期的相应属性求最大值,进行数据过滤,而后保留最大值形成新的仓库数据表集合。本实施例中,通过数据过滤,可以有效地精简待治理医疗数据,从而保证后续数据处理过程的处理效率。
在其中一个实施例中,步骤207包括:基于预设数据转换方法,将仓库数据表集合内的医疗数据中的非结构化数据以及半结构化数据转换为结构化数据。
具体地,数据转换是指把非结构化或半结构化的数据转化为结构化数据。至于预设数据转换方法是预先设置或约定好的数据替代方法,如对于待治理医疗数据中的病人类型的门诊、住院分别用0,1替代,性别的男、女分别用1,0替代,年龄的“岁”清除,病症的急性白血病、白血病分别用1,0替代。通过数据转换,将非结构化或半结构化的数据转化为结构化数据,可以有效提高数据的可读性,从而保证后续数据处理过程的处理效率。
应该理解的是,虽然图2-4中的流程图中的各个步骤按照箭头的指示依次显示,但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明,这些步骤的执行并没有严格的顺序限制,这些步骤可以以其它的顺序执行。而且,图2-4中的至少一部分步骤可以包括多个步骤或者多个阶段,这些步骤或者阶段并不必然是在同一时刻执行完成,而是可以在不同的时刻执行,这些步骤或者阶段的执行顺序也不必然是依次进行,而是可以与其它步骤或者其它步骤中的步骤或者阶段的至少一部分轮流或者交替地执行。
在一个实施例中,如图5所示,提供了一种医疗数据治理装置,包括:
数据获取模块502,用于获取一列多行模式的待治理医疗数据。
数据识别模块504,用于识别待治理医疗数据的数据属性与关键字段,根据数据属性创建一行多列模式的仓库数据表集合。
格式转换模块506,用于基于关键字段,将一列多行模式的待治理医疗数据转换为一行多列模式的待治理医疗数据后,将一行多列模式的待治理医疗数据导入仓库数据表集合。
数据转换模块508,用于对仓库数据表集合内的医疗数据进行数据转换以及数据归一化处理,完成对待治理医疗数据的数据治理。
在其中一个实施例中,数据获取模块502具体用于:获取一列多行模式的原始医疗数据,识别原始医疗数据对应的数据表格式;根据数据表格式建立待处理数据表集合;抽取原始医疗数据内数据,并根据抽取结果更新待处理数据表集合,获取一列多行模式的待治理医疗数据。
在其中一个实施例中,还包括数据清洗模块,用于:对待治理医疗数据进行数据清洗处理。格式转换模块506具体用于:将数据清洗处理后的一行多列模式的待治理医疗数据导入仓库数据表集合。
在其中一个实施例中,格式转换模块506具体用于:以关键字段为索引项,遍历待治理医疗数据;识别一列多行模式的待治理医疗数据中的数据属性以及数据属性对应的属性值;将一列多行模式的待治理医疗数据中的数据属性以及数据属性对应的属性值转换为一行多列模式的待治理医疗数据后,将数据属性以及数据属性对应的属性值导入仓库数据表集合;将关键字段导入仓库数据表集合。
在其中一个实施例中,还包括数据校验模块,用于:基于一列多行模式的待治理医疗数据,对仓库数据表集合内的数据属性以及数据属性对应的属性值进行数据校验以及数据修复。
在其中一个实施例中,关键字段包括身份数据以及检验日期数据;装置还包括数据清洗模块,用于:识别检验日期数据中的日期最大值数据;基于身份数据以及日期最大值数据,对仓库数据表集合内的医疗数据进行过滤处理;数据转换模块508具体用于:对数据过滤处理后的仓库数据表集合内的医疗数据进行数据转换以及数据归一化处理,完成对待治理医疗数据的数据治理。
在其中一个实施例中,数据转换模块508具体用于:基于预设数据转换方法,将仓库数据表集合内的医疗数据中的非结构化数据以及半结构化数据转换为结构化数据。
关于医疗数据治理装置的具体限定可以参见上文中对于医疗数据治理方法的限定,在此不再赘述。上述医疗数据治理装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中,也可以以软件形式存储于计算机设备中的存储器中,以便于处理器调用执行以上各个模块对应的操作。
在一个实施例中,提供了一种计算机设备,该计算机设备可以是服务器,其内部结构图可以如图6所示。该计算机设备包括通过系统总线连接的处理器、存储器和网络接口。其中,该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统、计算机程序和数据库。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的数据库用于存储医疗数据治理相关数据。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种医疗数据治理方法。
本领域技术人员可以理解,图6中示出的结构,仅仅是与本申请方案相关的部分结构的框图,并不构成对本申请方案所应用于其上的计算机设备的限定,具体的计算机设备可以包括比图中所示更多或更少的部件,或者组合某些部件,或者具有不同的部件布置。
在一个实施例中,提供了一种计算机设备,包括存储器和处理器,存储器中存储有计算机程序,该处理器执行计算机程序时实现以下步骤:
获取一列多行模式的待治理医疗数据;
识别待治理医疗数据的数据属性与关键字段,根据数据属性创建一行多列模式的仓库数据表集合;
基于关键字段,将一列多行模式的待治理医疗数据转换为一行多列模式的待治理医疗数据后,将一行多列模式的待治理医疗数据导入仓库数据表集合;
对仓库数据表集合内的医疗数据进行数据转换以及数据归一化处理,完成对待治理医疗数据的数据治理。
在一个实施例中,处理器执行计算机程序时还实现以下步骤:获取一列多行模式的原始医疗数据,识别原始医疗数据对应的数据表格式;根据数据表格式建立待处理数据表集合;抽取原始医疗数据内数据,并根据抽取结果更新待处理数据表集合,获取一列多行模式的待治理医疗数据。
在一个实施例中,处理器执行计算机程序时还实现以下步骤:对待治理医疗数据进行数据清洗处理。
在一个实施例中,处理器执行计算机程序时还实现以下步骤:以关键字段为索引项,遍历待治理医疗数据;识别一列多行模式的待治理医疗数据中的数据属性以及数据属性对应的属性值;将一列多行模式的待治理医疗数据中的数据属性以及数据属性对应的属性值转换为一行多列模式的待治理医疗数据后,将数据属性以及数据属性对应的属性值导入仓库数据表集合;将关键字段导入仓库数据表集合。
在一个实施例中,处理器执行计算机程序时还实现以下步骤:基于一列多行模式的待治理医疗数据,对仓库数据表集合内的数据属性以及数据属性对应的属性值进行数据校验以及数据修复。
在一个实施例中,处理器执行计算机程序时还实现以下步骤:识别检验日期数据中的日期最大值数据;基于身份数据以及日期最大值数据,对仓库数据表集合内的医疗数据进行过滤处理。
在一个实施例中,处理器执行计算机程序时还实现以下步骤:基于预设数据转换方法,将仓库数据表集合内的医疗数据中的非结构化数据以及半结构化数据转换为结构化数据。
在一个实施例中,提供了一种计算机可读存储介质,其上存储有计算机程序,计算机程序被处理器执行时实现以下步骤:
获取一列多行模式的待治理医疗数据;
识别待治理医疗数据的数据属性与关键字段,根据数据属性创建一行多列模式的仓库数据表集合;
基于关键字段,将一列多行模式的待治理医疗数据转换为一行多列模式的待治理医疗数据后,将一行多列模式的待治理医疗数据导入仓库数据表集合;
对仓库数据表集合内的医疗数据进行数据转换以及数据归一化处理,完成对待治理医疗数据的数据治理。
在一个实施例中,计算机程序被处理器执行时还实现以下步骤:获取一列多行模式的原始医疗数据,识别原始医疗数据对应的数据表格式;根据数据表格式建立待处理数据表集合;抽取原始医疗数据内数据,并根据抽取结果更新待处理数据表集合,获取一列多行模式的待治理医疗数据。
在一个实施例中,计算机程序被处理器执行时还实现以下步骤:对待治理医疗数据进行数据清洗处理。
在一个实施例中,计算机程序被处理器执行时还实现以下步骤:以关键字段为索引项,遍历待治理医疗数据;识别一列多行模式的待治理医疗数据中的数据属性以及数据属性对应的属性值;将一列多行模式的待治理医疗数据中的数据属性以及数据属性对应的属性值转换为一行多列模式的待治理医疗数据后,将数据属性以及数据属性对应的属性值导入仓库数据表集合;将关键字段导入仓库数据表集合。
在一个实施例中,计算机程序被处理器执行时还实现以下步骤:基于一列多行模式的待治理医疗数据,对仓库数据表集合内的数据属性以及数据属性对应的属性值进行数据校验以及数据修复。
在一个实施例中,计算机程序被处理器执行时还实现以下步骤:识别检验日期数据中的日期最大值数据;基于身份数据以及日期最大值数据,对仓库数据表集合内的医疗数据进行过滤处理。
在一个实施例中,计算机程序被处理器执行时还实现以下步骤:基于预设数据转换方法,将仓库数据表集合内的医疗数据中的非结构化数据以及半结构化数据转换为结构化数据。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,的计算机程序可存储于一非易失性计算机可读取存储介质中,该计算机程序在执行时,可包括如上述各方法的实施例的流程。其中,本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用,均可包括非易失性和易失性存储器中的至少一种。非易失性存储器可包括只读存储器(Read-OnlyMemory,ROM)、磁带、软盘、闪存或光存储器等。易失性存储器可包括随机存取存储器(RandomAccessMemory,RAM)或外部高速缓冲存储器。作为说明而非局限,RAM可以是多种形式,比如静态随机存取存储器(StaticRandomAccessMemory,SRAM)或动态随机存取存储器(DynamicRandomAccessMemory,DRAM)等。
以上实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。
以上实施例仅表达了本申请的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对发明专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本申请构思的前提下,还可以做出若干变形和改进,这些都属于本申请的保护范围。因此,本申请专利的保护范围应以所附权利要求为准。
Claims (10)
1.一种医疗数据治理方法,所述方法包括:
获取一列多行模式的待治理医疗数据;
识别所述待治理医疗数据的数据属性与关键字段,根据所述数据属性创建一行多列模式的仓库数据表集合;
基于所述关键字段,将所述一列多行模式的待治理医疗数据转换为一行多列模式的待治理医疗数据后,将所述一行多列模式的待治理医疗数据导入所述仓库数据表集合;
对所述仓库数据表集合内的医疗数据进行数据转换以及数据归一化处理,完成对所述待治理医疗数据的数据治理。
2.根据权利要求1所述的方法,其特征在于,所述获取一列多行模式的待治理医疗数据包括:
获取一列多行模式的原始医疗数据;
识别所述原始医疗数据对应的数据表格式;
根据所述数据表格式建立所述待处理数据表集合;
抽取所述原始医疗数据内数据,并根据抽取结果更新所述待处理数据表集合,获取一列多行模式的待治理医疗数据。
3.根据权利要求1所述的方法,其特征在于,所述基于所述关键字段,将所述一列多行模式的待治理医疗数据转换为一行多列模式的待治理医疗数据之前,还包括:
对所述待治理医疗数据进行数据清洗处理;
所述将所述一行多列模式的待治理医疗数据导入所述仓库数据表集合包括:
将数据清洗处理后的所述一行多列模式的待治理医疗数据导入所述仓库数据表集合。
4.根据权利要求1所述的方法,其特征在于,所述基于所述关键字段,将所述一列多行模式的待治理医疗数据转换为一行多列模式的待治理医疗数据后,将所述一行多列模式的待治理医疗数据导入所述仓库数据表集合包括:
以所述关键字段为索引项,遍历所述待治理医疗数据;
识别所述一列多行模式的待治理医疗数据中的数据属性以及所述数据属性对应的属性值;
将所述一列多行模式的待治理医疗数据中的数据属性以及所述数据属性对应的属性值转换为一行多列模式的待治理医疗数据后,将所述数据属性以及所述数据属性对应的属性值导入所述仓库数据表集合;
将所述关键字段导入所述仓库数据表集合。
5.根据权利要求4所述的方法,其特征在于,所述将所述数据属性以及所述数据属性对应的属性值导入所述仓库数据表集合之后,还包括:
基于所述一列多行模式的待治理医疗数据,对所述仓库数据表集合内的数据属性以及所述数据属性对应的属性值进行数据校验以及数据修复。
6.根据权利要求4所述的方法,其特征在于,所述关键字段包括身份数据以及检验日期数据;
所述对所述仓库数据表集合内的医疗数据进行数据转换以及数据归一化处理,完成对所述待治理医疗数据的数据治理之前,还包括:
识别所述检验日期数据中的日期最大值数据;
基于所述身份数据以及日期最大值数据,对所述仓库数据表集合内的医疗数据进行过滤处理;
所述对所述仓库数据表集合内的医疗数据进行数据转换以及数据归一化处理,完成对所述待治理医疗数据的数据治理包括:
对数据过滤处理后的所述仓库数据表集合内的医疗数据进行数据转换以及数据归一化处理,完成对所述待治理医疗数据的数据治理。
7.根据权利要求1所述的方法,其特征在于,对所述仓库数据表集合内的医疗数据进行数据转换处理包括:
基于预设数据转换方法,将所述仓库数据表集合内的医疗数据中的非结构化数据以及半结构化数据转换为结构化数据。
8.一种医疗数据治理装置,其特征在于,所述装置包括:
数据获取模块,用于获取一列多行模式的待治理医疗数据;
数据识别模块,用于识别所述待治理医疗数据的数据属性与关键字段,根据所述数据属性创建一行多列模式的仓库数据表集合;
格式转换模块,用于基于所述关键字段,将所述一列多行模式的待治理医疗数据转换为一行多列模式的待治理医疗数据后,将所述一行多列模式的待治理医疗数据导入所述仓库数据表集合;
数据转换模块,用于对所述仓库数据表集合内的医疗数据进行数据转换以及数据归一化处理,完成对所述待治理医疗数据的数据治理。
9.一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,其特征在于,所述处理器执行所述计算机程序时实现权利要求1至7中任一项所述方法的步骤。
10.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1至7中任一项所述的方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110584190.6A CN113254433A (zh) | 2021-05-27 | 2021-05-27 | 医疗数据治理方法、装置、计算机设备和存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110584190.6A CN113254433A (zh) | 2021-05-27 | 2021-05-27 | 医疗数据治理方法、装置、计算机设备和存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN113254433A true CN113254433A (zh) | 2021-08-13 |
Family
ID=77184723
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110584190.6A Pending CN113254433A (zh) | 2021-05-27 | 2021-05-27 | 医疗数据治理方法、装置、计算机设备和存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113254433A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2024169438A1 (zh) * | 2023-02-17 | 2024-08-22 | 上海新红医医疗科技有限公司 | 一种医疗数据的归集方法和装置 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2012203548A (ja) * | 2011-03-24 | 2012-10-22 | Hitachi Information & Control Solutions Ltd | 健診データ管理装置、健診データ管理方法およびプログラム |
CN106815336A (zh) * | 2016-12-31 | 2017-06-09 | 深圳市易特科信息技术有限公司 | 基于大数据关联存储的医疗数据查询系统及方法 |
WO2017152802A1 (zh) * | 2016-03-07 | 2017-09-14 | 陈宽 | 将文本类医疗报告转换为结构化数据的智能系统及方法 |
CN109446191A (zh) * | 2018-11-09 | 2019-03-08 | 医渡云(北京)技术有限公司 | 医疗数据处理系统及方法、存储介质和电子设备 |
CN112768063A (zh) * | 2021-01-26 | 2021-05-07 | 武汉大学 | 一种健康医疗数据的预处理方法及系统 |
-
2021
- 2021-05-27 CN CN202110584190.6A patent/CN113254433A/zh active Pending
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2012203548A (ja) * | 2011-03-24 | 2012-10-22 | Hitachi Information & Control Solutions Ltd | 健診データ管理装置、健診データ管理方法およびプログラム |
WO2017152802A1 (zh) * | 2016-03-07 | 2017-09-14 | 陈宽 | 将文本类医疗报告转换为结构化数据的智能系统及方法 |
CN106815336A (zh) * | 2016-12-31 | 2017-06-09 | 深圳市易特科信息技术有限公司 | 基于大数据关联存储的医疗数据查询系统及方法 |
CN109446191A (zh) * | 2018-11-09 | 2019-03-08 | 医渡云(北京)技术有限公司 | 医疗数据处理系统及方法、存储介质和电子设备 |
CN112768063A (zh) * | 2021-01-26 | 2021-05-07 | 武汉大学 | 一种健康医疗数据的预处理方法及系统 |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2024169438A1 (zh) * | 2023-02-17 | 2024-08-22 | 上海新红医医疗科技有限公司 | 一种医疗数据的归集方法和装置 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
WO2021184729A1 (zh) | 一种药品分类方法、装置、存储介质和智能设备 | |
CN109346145B (zh) | 一种药物不良反应的主动监测方法和系统 | |
CN112349369A (zh) | 医疗影像大数据智能分析方法、系统及存储介质 | |
CN111180024A (zh) | 基于词频逆文档频率的数据处理方法、装置和计算机设备 | |
CN106933859B (zh) | 一种医疗数据的迁移方法和装置 | |
CN115497631A (zh) | 一种临床科研大数据分析系统 | |
CN113808738B (zh) | 一种基于自识别影像的疾病识别系统 | |
WO2021151302A1 (zh) | 基于机器学习的药品质控分析方法、装置、设备及介质 | |
CN113345545B (zh) | 临床数据的稽查方法、装置、电子设备及可读存储介质 | |
US7805421B2 (en) | Method and system for reducing a data set | |
CN111429989A (zh) | 一种生成诊前病历的方法及装置 | |
CN114882967A (zh) | 基于大数据的患者信息存储系统 | |
CN110569372B (zh) | 一种心脏病大数据知识图谱系统的构建方法 | |
CN113254433A (zh) | 医疗数据治理方法、装置、计算机设备和存储介质 | |
Begoli et al. | Towards a heterogeneous, polystore-like data architecture for the US Department of Veteran Affairs (VA) enterprise analytics | |
CN113239096A (zh) | 一种提升dicom影像云归档入库速度的方法 | |
CN115831298B (zh) | 基于医院管理信息系统的临床试验患者招募方法及装置 | |
CN112382413A (zh) | 关于联合用药不良反应的检测方法 | |
CN109522331B (zh) | 以个人为中心的区域化多维度健康数据处理方法及介质 | |
Wah et al. | Development of a data warehouse for lymphoma cancer diagnosis and treatment decision support | |
US20230377697A1 (en) | System and a way to automatically monitor clinical trials - virtual monitor (vm) and a way to record medical history | |
CN115391315A (zh) | 一种数据清洗方法及装置 | |
CN110010231A (zh) | 一种数据处理系统及计算机可读存储介质 | |
CN114155970A (zh) | 一种基于大数据的临床肺部感染数据信息处理方法及系统 | |
CN113111048A (zh) | 一种基于大数据技术的临床科研专病库构建方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20210813 |