CN104462082B - 一种基于数据仓库的医疗数据整合方法及系统 - Google Patents

一种基于数据仓库的医疗数据整合方法及系统 Download PDF

Info

Publication number
CN104462082B
CN104462082B CN201310415629.8A CN201310415629A CN104462082B CN 104462082 B CN104462082 B CN 104462082B CN 201310415629 A CN201310415629 A CN 201310415629A CN 104462082 B CN104462082 B CN 104462082B
Authority
CN
China
Prior art keywords
data
dimension
fact
tables
mark
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201310415629.8A
Other languages
English (en)
Other versions
CN104462082A (zh
Inventor
王浩
陈汝林
郑秋芳
吴晓琳
李家宝
陶然
杨忠波
王艺元
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shenzhen Lianfeng Medical Data Service Co., Ltd.
Original Assignee
SHENZHEN ZHONGKE JINZHENG TECHNOLOGY Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by SHENZHEN ZHONGKE JINZHENG TECHNOLOGY Co Ltd filed Critical SHENZHEN ZHONGKE JINZHENG TECHNOLOGY Co Ltd
Priority to CN201310415629.8A priority Critical patent/CN104462082B/zh
Publication of CN104462082A publication Critical patent/CN104462082A/zh
Application granted granted Critical
Publication of CN104462082B publication Critical patent/CN104462082B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/25Integrating or interfacing systems involving database management systems
    • G06F16/254Extract, transform and load [ETL] procedures, e.g. ETL data flows in data warehouses

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Medical Treatment And Welfare Office Work (AREA)

Abstract

本发明适用于医疗数据技术领域,提供了一种基于数据仓库的医疗数据整合方法及系统。在本发明中,通过获取医院端的源数据,将源数据保存至数据仓库中的ODS操作型数据存储层,对源数据进行标准化操作,将标准化后的数据与源数据相结合加载至数据仓库维度Dimension表和事实表中,从而减轻了医院服务器端的访问压力。同时通过设定参数值替代异常数据进行数据加载,且当源数据的维度数据变化后,自动更新已经加载的维度数据,使得数据发生异常时能自动进行数据校验更新,可以单节点的处理异常数据,不需要重新整批处理,提高了处理效率。

Description

一种基于数据仓库的医疗数据整合方法及系统
技术领域
本发明属于医疗数据技术领域,尤其涉及一种基于数据仓库的医疗数据整合方法及系统。
背景技术
当前,人们越来越多的关注民生,其中医疗卫生一直是热点问题。与此同时,国家也一直对医疗进行改革,颁布和实施一些新的政策。医疗行业也开始迅猛发展,数据越来越趋于高度集中化,大规模区域医疗信息系统和大型医疗数据中心将逐步建立,数据总量可达TB(Terabyte,万亿字节)级。因此,海量医疗数据的处理方法及系统逐步形成,而在海量医疗数据处理中,海量医疗数据的集成整合是至关重要的一个环节。
目前,医疗数据的集成整合还存在以下缺陷:1、数据仓库未保留医院端源数据,直接从医院生产环境获取数据,造成医院服务器端的访问压力;2、数据仓库只存储了标准化数据,数据仓库模型设计时只存储了经过清洗转换后的数据,数据发生异常时难以做到数据的还原追溯;3、ETL(Extraction Transformation Loading,提取、转换、加载)处理数据异常时,容错不足,在数据抽取、清洗、转换过程中遇到数据异常时,通常记录异常数据,停止ETL的运行,向管理相关员报告错误,这种处理机制会因一个节点的数据异常,导致整个ETL运行停止,数据全部得重新进行清洗装载,只能由人工干预解决异常,需要花费大量时间进行数据校验。
发明内容
本发明目的在于提供一种将标准化后数据与源数据相结合的基于数据仓库的医疗数据整合方法,旨在解决现有整合方法造成的医院服务器端的访问压力、数据发生异常时难以做到数据的还原追溯。
进一步的,本发明的目的在于提供一种通过设定参数值替代异常数据进行数据加载旨在解决需要花费大量时间进行数据校验以及不能单节点的处理异常数据,只能由人工干预解决异常,整批处理的问题。
本发明实施例是这样实现的,一种基于数据仓库的医疗数据整合方法,包括:
获取医院端的源数据;
将所述源数据保存至数据仓库中的ODS操作型数据存储层,所述ODS操作型数据存储层是在数据仓库中增加的;
将所述的源数据进行标准化操作,将标准化后的数据与源数据相结合加载至数据仓库的维度Dimension表和事实Fact表中。
优选的,所述的将所述的源数据进行标准化操作,将标准化后的数据与源数据相结合加载至数据仓库的维度Dimension表和事实Fact表中,还包括:当出现异常数据时,通过设定参数值替代异常数据进行数据加载。
优选的,所述的将所述的源数据进行标准化操作,将标准化后的数据与源数据相结合加载至数据仓库的维度Dimension表和事实Fact表中,还包括:当医院端源数据发生变化后,通过已加载的数据与源数据进行查找匹配,自动更新已经加载的数据。
本发明还提供一种基于数据仓库的医疗数据整合系统,包括:
获取模块,存储模块,转换加载模块;
所述获取模块,用于获取医院端的源数据;
所述存储模块,用于将所述源数据保存至数据仓库中的ODS操作型数据存储层;
所述转换加载模块,用于将所述的源数据进行标准化操作,将标准化后的数据与源数据相结合加载至数据仓库的维度Dimension表和事实Fact表中。
优选的,所述转换加载模块还包括:处理模块,用于当出现异常数据时,通过设定参数值替代异常数据进行数据加载。
优选的,所述转换加载模块还包括:自动更新模块,用于当医院端源数据发生变化后,通过已加载的数据与源数据进行查找匹配,自动更新已经加载的数据。
在本发明实施例中,通过获取医院端的源数据,将源数据保存至数据仓库中的ODS操作型数据存储层,对源数据进行标准化操作,将标准化后的数据与源数据相结合加载至数据仓库维度Dimension表和事实表中,从而减轻了医院服务器端的访问压力。同时通过设定参数值替代异常数据进行数据加载,且当源数据发生变化后,通过将已经加载的数据与变更的源数据进行查找匹配,自动更新已经加载的数据,使得数据发生异常时能自动进行数据校验更新,可以单节点的处理异常数据,不需要重新整批处理,提高了效率。
附图说明
图1是本发明实施例提供的基于数据仓库的医疗数据整合方法的实现流程图;
图2是本发明实施例通过设定参数值替代异常数据进行数据加载过程实现流程图;
图3是本发明实施例提供的医院端源数据中维度数据的维度标识以及事实数据的维度标识都发生变化后自动更新已经加载的数据实现流程图;
图4是本发明实施例提供的源数据中维度标识由空值更新为非空值后自动更新已经加载的数据实现流程图;
图5是本发明实施例提供的基于数据仓库的医疗数据整合系统的结构框图。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
图1示出了本发明实施例提供的一种基于数据仓库的医疗数据整合方法的实现流程,详述如下:
步骤101、获取医院端的源数据。
具体的,获取医院服务器端的源数据,源数据包括后续系统需要分析的各种数据,包括医院科室、医务人员、日均就诊人数、就诊等候时间、疾病类型、药品种类、医疗费用、医务人员工作负荷等等。
步骤102、将所述源数据保存至数据仓库中的ODS(Operational Data Store,操作型数据存储)操作型数据存储层,所述ODS操作型数据存储层是在数据仓库中增加的。
具体的,在数据仓库中增加ODS操作型数据存储层,那么所述数据仓库结构主要分为五层:ODS Staging操作型数据存储缓冲层,Fact Staging事实缓冲层,ODS操作型数据存储层,Dimension维度、Fact事实、Dictionary词典、Reference参照层和Aggregate聚合、View视图层。在数据仓库中增加ODS操作型数据存储层,能够保存医院端的源数据,避免频繁访问医院端服务器数据库,降低医院服务器端数据库的压力。
将从医院获取的数据以1:1比例保存至ODS操作型数据存储层,ETL将使用数据仓库的ODS操作型数据存储层作为源数据,进行数据抽取清洗转换,ODS操作型数据存储层隔开了ETL集成时对医院端的影响,也降低了医院服务器数据库的压力。
步骤103、将所述的源数据进行标准化操作,将标准化后的数据与源数据相结合加载至数据仓库的维度Dimension表和事实Fact表中。
具体的,通过ETL工具抽取所述保存至数据仓库中的ODS操作型数据存储层的源数据,然后进行标准化操作,也就是进行清洗转换。所述数据仓库的数据模型将标准化数据与非标准化数据相结合,也就是维度Dimension表和事实Fact表中既包括标准化的数据也包括非标准化的数据。所述非标准化数据也就是没做清洗转换的源数据。
例如,将非标准化后的维度标识如外科一的维度标识AC加载至维度Dimension表中,维度Dimension表如表一所示。
表1
具体科室
AC(外科一)
对非标准化后的维度标识外科一进行标准化,标准后的维度标识为DID2,DID2表示外科。那么将标准后的维度标识DID2与非标准化维度标识AC相结合加载至维度Dimension表,维度Dimension表如表2所示:
表2
标准化后的科室 具体科室
DID2(外科) AC(外科一)
通过ETL工具对所述保存至数据仓库中的ODS操作型数据存储层的源数据进行标准化操作后,将标准化后得到的数据与源数据相结合加载至数据仓库的维度Dimension表和事实表中。将标准化与非标准化结合,可以提供标准化报表也可以提供非标准报表,为医疗数据的分析提供方便,同时在数据发生异常时容易还原追溯。
进一步的,所述步骤103还包括:当出现异常数据时,通过设定参数值替代异常数据进行数据加载。具体的,为了防止ETL因某一节点数据异常导致停止运行,通过设定参数值替代异常数据进行运行,保证数据正常装载进数据仓库。所述的异常数据包括但不限于:维度数据异常、数据存储长度过大造成数据异常或者数据格式不匹配造成的异常。所述维度数据异常包括维度标识或者维度属性的异常。进一步的,所述步骤103还包括:当医院端源数据发生变化后,通过已加载的数据与源数据进行查找匹配,自动更新已经加载的数据。比如当医院端源数据中新增了维度标识或维度属性,或者维度标识或维度属性进行修改了,那么可以将已经加载的维度标识与变化后的维度标识进行查找匹配或者将已经加载的维度属性与变化后的维度属性进行查找匹配,对已经加载的维度标识和标准化后的维度标识或已经加载的维度属性和标准化后的维度属性进行更新,包括增加或者修改等。
为了更加详细的描述通过设定参数值替代异常数据进行数据加载过程,本发明实施例结合附图2,对维度数据的维度标识缺失异常处理过程做以下详细描述:
步骤201、加载ODS操作型数据存储层源数据中包含维度标识的维度数据以及标准化的维度标识至数据仓库的维度Dimension表中。
具体的,通过ODS Staging层加载ODS操作型数据存储层源数据中包含维度标识的维度数据以及标准化的维度标识至维度Dimension表中。维度数据包括维度标识与属性。
步骤202、加载ODS操作型数据存储层源数据的事实数据至Fact Staging事实缓冲层,所述事实数据包括医院端的唯一标识序列号、维度标识、度量值。
步骤203、根据Fact Staging事实缓冲层中的事实数据中的维度标识查找维度Dimension表中是否含有的所述维度标识,如果是则执行步骤204,之后执行步骤206,如果否则执行步骤205,之后再执行步骤206。
步骤204、在事实数据中添加维度Dimension表中与所述维度标识对应的标准化后的维度标识。
步骤205、设定一参数值,并将所述参数值作为标准化后维度标识添加到事实数据中。
步骤206、将添加后的事实数据加载至数据仓库的事实Fact表中。
例如:通过ODS Staging层加载ODS操作型数据存储层源数据的包含维度标识(例如外科一的维度标识AC)的维度数据以及标准化的维度标识(例如外科一标准化后的维度标识为外科DID2)至维度Dimension表中,如表3所示。为了描述方便,省略了维度属性和标准化后的维度属性。维度属性及标准化后的维度属性加载类似。
表3
标准化后的科室 具体科室
DID2(外科) AC(外科一)
通过ODS Staging层加载源数据中的事实数据至Fact Staging事实缓冲层,事实数据包括医院端的唯一标识序列号、维度标识、度量值。如表4所示,表4中含有3条事实数据,维度标识为具体科室的标识AB即内科一、AC即外科一、AD即神经科二,度量值为看病人数。
表4
在Fact Staging事实缓冲层中根据事实数据中的维度标识查找维度Dimension表中是否含有的所述维度标识,如果是,则在事实数据中添加维度Dimension表中与所述维度标识对应的标准化后的维度标识,之后将添加后的事实数据加载至数据仓库的事实Fact表中,如果否,则设定一参数值,并将所述参数值作为标准化后维度标识添加到事实数据中,再将添加后的事实数据加载至数据仓库的Fact表中。例如,根据表4中的维度标识AB、AC、AD在维度Dimension表3中是否有维度标识AB、AC、AD,在维度Dimension表3中只有维度标识AC,则将在事实数据中添加维度Dimension表中与所述维度标识AC对应的标准化后的维度标识DID2,在维度Dimension表3中没有维度标识AB、AD,则以设定参数值比如-99作为与维度标识AB、AD对应的标准化后维度标识添加到事实数据中,再将添加后的事实数据加载到事实Fact表中,如表5所示。
表5
这样,以设定的参数值-99代替标准化后的维度标识,不会因为维度标识没有事实数据中相应维度标识而导致停止加载从而后续需要进行数据的全部重新加载。
类似的,若维度数据的维度属性丢失,则以设定的参数值替代维度属性加载至维度Dimension表中。或者维度数据或者事实数据中某个数据(比如维度标识)格式错误或者长度过长造成不能加载,同样以设定的参数值进行替代,然后再进行加载。
优选的,为了防止因为多个医院端出现相同的事实数据导致后续分析难以区分,因此,对所述的事实数据增加相应的事实标识,所述的事实标识是唯一的标识,每个事实标识对应一条事实数据。比如对前述表4的对应的事实数据添加事实标识,如表5所示。那么对应的加载到事实中的数据为表6所示。
表5
表6
为了更加详细的描述当医院端源数据发生变化后,通过已加载的数据与源数据进行查找匹配,自动更新已经加载的数据,本发明实施例结合附图3,对源数据中维度数据的维度标识以及事实数据的维度标识都发生变化后自动更新已经加载的数据过程做以下详细描述,该过程包括以下步骤:
步骤301、使用CDC(CDC,Changed Data Capture)捕获变化数据技术抓取医院端源数据更新的维度标识。
步骤302、更新ODS操作型数据存储层中维度数据的维度标识以及事实数据的维度标识。
步骤303、加载ODS操作型数据存储层源数据中更新的维度标识以及标准化后的更新的维度标识至维度Dimension表中。
步骤304、加载ODS操作型数据存储层源数据中更新的事实数据至Fact Staging事实缓冲层,所述更新的事实数据包括医院端唯一标识序列号、更新后的维度标识、度量值。
步骤305、根据Fact Staging事实缓冲层中的事实数据中的更新的维度标识查找维度Dimension表中含有的所述更新的维度标识。
步骤306、在Fact Staging事实缓冲层中的更新的事实数据中添加维度Dimension表中的与所述更新的维度标识对应的标准化后的更新的维度标识。
步骤307、将Fact Staging事实缓冲层添加后的更新的事实数据加载至事实Fact表中,替换事实Fact表中与所述更新的事实数据有相同医院端唯一标识序列号的事实数据。
例如,如前述实施例所述的例子,当医院端的源数据中维度数据增加了维度标识口腔科一AA,且源数据的事实数据中的维度标识内科一AB修改成了口腔科一AA,使用CDC技术抓取源数据库的维度标识更新数据,通过ODS Staging层更新ODS操作型数据存储层中的维度数据和事实数据中的维度标识,然后加载ODS操作型数据存储层源数据的更新的维度标识以及标准化后的更新的维度标识至维度Dimension表中,那么维度Dimension表就变成如表7所示。同样为描述方便,省略了维度属性。
表7
标准化后的科室 具体科室
DID1(口腔科) AA(口腔科一)
DID2(外科) AC(外科一)
通过ODS Staging层加载源数据中更新的事实数据至Fact Staging事实缓冲层,如表8所示。
表8
在Fact Staging事实缓冲层中根据事实数据中的更新的维度标识AA查找到维度Dimension表中DID1+AA含有更新的维度标识AA。将标准化后的更新的维度标识DID1添加到Fact Staging事实缓冲层中的更新的事实数据中,如表9所示。
表9
将Fact Staging事实缓冲层添加后的更新的事实数据加载至事实Fact表中,替换事实Fact表中与所述更新的事实数据有相同医院端唯一标识序列号的事实数据。例如将表9的事实数据加载到事实表中,替换表5中的医院端唯一标识序列号为0001的事实数据,表5就更新为表10所示。这样就实现了自动更新过程。
表10
当源数据中维度属性发生变化后,通过CDC抓取变化的维度数据,并将变化的维度数据加载至维度Dimension表中,替换原有的与该变化的维度数据具有相同的维度标识的维度数据。
优选的,所述事实数据如前述实施例中所述,可以增加相应的事实标识。
进一步的,为了更加详细的描述当源数据发生变化后,通过已加载的数据与源数据进行查找匹配,自动更新已经加载的数据,本发明实施例结合附图4,对源数据中维度标识由空值更新为非空值后,自动更新已经加载的数据过程做以下详细描述,所述自动更新已经加载的数据过程包括以下步骤:
步骤401、使用CDC技术抓取医院端源数据中更新的维度标识;
步骤402、通过ODS Staging层加载医院端源数据中更新的维度标识,并更新ODS操作型数据存储层中维度数据的维度标识。
步骤403、加载ODS操作型数据存储层源数据的更新的维度标识以及标准化的更新的维度标识至维度Dimension表中;
步骤404、查找事实Fact表中的标准化后的维度标识为之前设定的参数值的事实数据。
步骤405、在事实表中根据事实数据中的维度标识查找维度Dimension表中是否含有所述维度标识,如果有则将原有的用设定参数替代的标准化维度标识变更为标准化后的更新的维度标识,否则的话则正常结束。
例如,如前述实施例所述的例子,之前医院端源数据的维度数据中没有维度标识神经科一AD,现在医院端源数据更新后维度数据有维度标识AD了,那么使用CDC技术抓源数据库的维度更新数据,并更新ODS操作型数据存储层中的维度数据的维度标识,通过ODSStaging层加载ODS操作型数据存储层源数据的更新后的维度标识以及标准化的更新后的维度标识至维度Dimension表中,那么维度Dimension表就如表11所示。
表11
标准化后的科室 具体科室
DID1(口腔科) AA(口腔科一)
DID2(外科) AC(外科一)
DID3(神经科) AD(神经科一)
查找事实Fact表中的标准化后的维度标识为之前设定的参数值的事实数据,在事实表中根据事实数据中的维度标识查找维度Dimension表中是否含有所述维度标识,如果有则将原有的用设定参数替代的标准化维度标识变更为标准化后的更新的维度标识,否则的话则正常结束。例如查找之前加载的事实数据表10中的标准化后的标识为-99的事实数据,根据维度标识AD,查找维度Dimension表中含有维度标识AD,则将-99替换为标准化后的更新的维度标识DID3,那么事实表中的事实数据如表12所示。
表12
优选的,所述事实数据如前述实施例中所述,可以增加相应的事实标识。
在本发明实施例中,通过获取医院端的源数据,将所述源数据保存至数据库中的ODS操作型数据存储层,将所述的源数据进行标准化操作,将标准化后得到的数据与源数据相结合加载至维度Dimension表和事实表中,自动处理异常数据以及自动更新加载的数据,减轻了医院服务器端的访问压力大,数据发生异常时能自动进行数据校验与修正及更新,可以单节点的处理异常数据,不需要人工干预解决异常。
需要说明的是,对于前述的各方法实施例,为了简单描述,故将其都表述为一系列的动作组合,但是本领域技术人员应该知悉,本发明并不受所描述的动作顺序的限制,因为依据本发明,某些步骤可以采用其他顺序或者同时进行。
图5示出了本发明实施例五提供的一种基于数据仓库的医疗数据整合系统,所述系统能实现前述实施例的方法。该系统包括:获取模块51,存储模块52,转换加载模块53。所述获取模块51,用于获取医院端的源数据;存储模块52,用于将所述源数据保存至数据仓库中的ODS操作型数据存储层,所述ODS操作型数据存储层是在数据仓库中增加的;转换加载模块53,用于将所述的源数据进行标准化操作,并将标准化后的数据与源数据相结合加载至数据仓库的维度Dimension表和事实Fact表中。
进一步的,上述转换加载模块还包括:处理模块531,用于当出现异常数据时,通过设定参数值替代异常数据进行数据加载。具体的加载过程如前述实施例所述。
进一步的,上述处理更新模块还包括:自动更新模块532,用于当医院端源数据发生变化后,通过已加载的数据与源数据进行查找匹配,自动更新已经加载的数据。具体的更新过程如前述实施例所述。
以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明的保护范围之内。

Claims (10)

1.一种基于数据仓库的医疗数据整合方法,其特征在于,包括:
获取医院端的源数据;
将所述源数据保存至数据仓库中的ODS操作型数据存储层,所述ODS操作型数据存储层是在数据仓库中增加的;
将所述的源数据进行标准化操作,将标准化后的数据与源数据相结合加载至数据仓库维度Dimension表和事实Fact表中;
所述将所述的源数据进行标准化操作,将标准化后的数据与源数据相结合加载至数据仓库维度Dimension表和事实Fact表中,包括:
当维度数据中维度标识缺失异常时,加载ODS操作型数据存储层源数据中包含维度标识的维度数据以及标准化后的维度标识至维度Dimension表中;
加载ODS操作型数据存储层源数据的事实数据至Fact Staging事实缓冲层,所述事实数据包括医院端的唯一标识序列号、维度标识、度量值;
根据Fact Staging事实缓冲层中的事实数据中的维度标识查找维度Dimension表中是否含有所述维度标识,如果是,则在事实数据中添加维度Dimension表中与所述维度标识对应的标准化后的维度标识,之后将添加后的事实数据加载至数据仓库的事实Fact表中,如果否,则设定一参数值,并将所述参数值作为标准化后维度标识添加到事实数据中,再将添加后的事实数据加载至数据仓库的事实Fact表中。
2.如权利要求1所述的方法,其特征在于,所述的将所述的源数据进行标准化操作,将标准化后的数据与源数据相结合加载至数据仓库的维度Dimension表和事实Fact表中,还包括:
当医院端源数据发生变化后,通过已加载的数据与变化后的源数据进行查找匹配,自动更新已经加载的数据。
3.如权利要求2所述的方法,其特征在于,所述的当医院端源数据发生变化后,通过已加载的数据与源数据进行查找匹配,自动更新已经加载的数据,包括:
当医院端源数据的维度标识变化后,使用CDC捕获变化数据技术抓取源数据中更新的维度标识;
更新ODS操作型数据存储层中的维度数据的维度标识以及事实数据中的维度标识;
加载ODS操作型数据存储层源数据中更新的维度标识以及标准化后的更新的维度标识至维度Dimension表中;
加载ODS操作型数据存储层源数据中更新的事实数据至Fact Staging事实缓冲层,所述更新的事实数据包括医院端唯一标识序列号、更新后的维度标识、度量值;
根据Fact Staging事实缓冲层中的事实数据中的更新的维度标识查找维度Dimension表中含有的所述更新的维度标识;
在Fact Staging事实缓冲层更新的事实数据中添加维度Dimension表中的与所述更新的维度标识对应的标准化后的更新的维度标识;
将Fact Staging事实缓冲层添加后的更新的事实数据加载至事实Fact表中,替换事实Fact表中与所述更新的事实数据有相同医院端唯一标识序列号的事实数据。
4.如权利要求2所述的方法,其特征在于,所述的当医院端源数据发生变化后,通过已加载的数据与变化后的源数据进行查找匹配,自动更新已经加载的数据,包括:
当医院端源数据中维度标识由空值更新为非空值时,使用CDC技术抓取医院端源数据中更新的维度标识;
通过ODS Staging层加载医院端源数据中更新的维度标识,并更新ODS操作型数据存储层中维度数据的维度标识;
加载ODS操作型数据存储层源数据的更新的维度标识以及标准化的更新的维度标识至维度Dimension表中;
查找事实Fact表中的标准化后的维度标识为设定参数值的事实数据;
在事实表中根据事实数据中的维度标识查找维度Dimension表中是否含有所述维度标识,如果有则将原有的用设定参数替代的标准化维度标识变更为标准化后的更新的维度标识,否则的话则正常结束。
5.如权利要求1、3、4之一所述的方法,其特征在于,所述方法还包括:
对所述的事实数据增加相对应的事实标识。
6.一种基于数据仓库的医疗数据整合系统,其特征在于,包括:
获取模块,存储模块,转换加载模块;
所述获取模块,用于获取医院端的源数据;
所述存储模块,用于将所述源数据保存至数据仓库中的ODS操作型数据存储层,所述ODS操作型数据存储层是在数据仓库中增加的;
所述转换加载模块,用于将所述的源数据进行标准化操作,并将标准化后的数据与源数据相结合加载至数据仓库的维度Dimension表和事实Fact表中;
所述转换加载模块具体用于:
当维度数据中维度标识缺失异常时,加载ODS操作型数据存储层源数据中包含维度标识的维度数据以及标准化后的维度标识至维度Dimension表中;
加载ODS操作型数据存储层源数据的事实数据至Fact Staging事实缓冲层,所述事实数据包括医院端的唯一标识序列号、维度标识、度量值;
根据Fact Staging事实缓冲层中的事实数据中的维度标识查找维度Dimension表中是否含有所述维度标识,如果是,则在事实数据中添加维度Dimension表中与所述维度标识对应的标准化后的维度标识,之后将添加后的事实数据加载至数据仓库的事实Fact表中,如果否,则设定一参数值,并将所述参数值作为标准化后维度标识添加到事实数据中,再将添加后的事实数据加载至数据仓库的事实Fact表中。
7.如权利要求6所述的系统,其特征在于,所述转换加载模块还包括:
自动更新模块,用于当医院端源数据发生变化后,通过已加载的数据与源数据进行查找匹配,自动更新已经加载的数据。
8.如权利要求7所述的系统,其特征在于,所述自动更新模块具体用于:
当医院端源数据的维度标识变化后,使用CDC捕获变化数据技术抓取源数据中更新的维度标识;
更新ODS操作型数据存储层中的维度数据的维度标识以及事实数据中的维度标识;
加载ODS操作型数据存储层源数据中更新的维度标识以及标准化后的更新的维度标识至维度Dimension表中;
加载ODS操作型数据存储层源数据中更新的事实数据至Fact Staging事实缓冲层,所述更新的事实数据包括医院端唯一标识序列号、更新后的维度标识、度量值;
根据Fact Staging事实缓冲层中的事实数据中的更新的维度标识查找维度Dimension表中含有的所述更新的维度标识;
在Fact Staging事实缓冲层更新的事实数据中添加维度Dimension表中的与所述更新的维度标识对应的标准化后的更新的维度标识;
将Fact Staging事实缓冲层添加后的更新的事实数据加载至事实Fact表中,替换事实Fact表中与所述更新的事实数据有相同医院端唯一标识序列号的事实数据。
9.如权利要求7所述的系统,其特征在于,所述自动更新模块具体用于:
当医院端源数据中维度标识由空值更新为非空值时,使用CDC技术抓取医院端源数据中更新的维度标识;
通过ODS Staging层加载医院端源数据中更新的维度标识,并更新ODS操作型数据存储层中维度数据的维度标识;
加载ODS操作型数据存储层源数据的更新的维度标识以及标准化的更新的维度标识至维度Dimension表中;
查找事实Fact表中的标准化后的维度标识为设定参数值的事实数据;
在事实表中根据事实数据中的维度标识查找维度Dimension表中是否含有所述维度标识,如果有则将原有的用设定参数替代的标准化维度标识变更为标准化后的更新的维度标识,否则的话则正常结束。
10.如权利要求7、8、9之一所述的系统,其特征在于,所述自动更新模块还用于对所述的事实数据增加相对应的事实标识。
CN201310415629.8A 2013-09-12 2013-09-12 一种基于数据仓库的医疗数据整合方法及系统 Active CN104462082B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201310415629.8A CN104462082B (zh) 2013-09-12 2013-09-12 一种基于数据仓库的医疗数据整合方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201310415629.8A CN104462082B (zh) 2013-09-12 2013-09-12 一种基于数据仓库的医疗数据整合方法及系统

Publications (2)

Publication Number Publication Date
CN104462082A CN104462082A (zh) 2015-03-25
CN104462082B true CN104462082B (zh) 2017-11-17

Family

ID=52908148

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201310415629.8A Active CN104462082B (zh) 2013-09-12 2013-09-12 一种基于数据仓库的医疗数据整合方法及系统

Country Status (1)

Country Link
CN (1) CN104462082B (zh)

Families Citing this family (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106407233B (zh) * 2015-08-03 2019-08-02 阿里巴巴集团控股有限公司 一种数据处理方法和设备
CN105550259A (zh) * 2015-12-09 2016-05-04 浪潮电子信息产业股份有限公司 一种在线管理的方法及装置
CN106066881B (zh) * 2016-05-31 2019-10-22 深圳市永兴元科技股份有限公司 数据处理方法及装置
CN106709269B (zh) * 2017-03-13 2018-08-07 山东众阳软件有限公司 一种医疗大数据仓库的创建方法及系统
CN109426576B (zh) * 2017-08-30 2022-03-29 华为技术有限公司 容错处理方法以及容错组件
CN108399182B (zh) * 2017-10-27 2022-04-12 平安科技(深圳)有限公司 医疗数据清洗方法、电子装置及存储介质
CN109634941B (zh) * 2018-11-14 2021-07-09 金色熊猫有限公司 医疗数据处理方法、装置、电子设备及存储介质

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101105793A (zh) * 2006-07-11 2008-01-16 阿里巴巴公司 数据仓库中的数据处理方法及系统
CN101814072A (zh) * 2009-02-19 2010-08-25 上海众恒信息产业股份有限公司 一种实现数据加载的系统及方法
CN102831546A (zh) * 2011-06-17 2012-12-19 吉贝克信息技术(北京)有限公司 支持证券经纪业精细化客户价值管理的信息分析系统
CN103136335A (zh) * 2013-01-31 2013-06-05 北京千分点信息科技有限公司 一种基于数据平台的数据控制方法

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8255454B2 (en) * 2002-09-06 2012-08-28 Oracle International Corporation Method and apparatus for a multiplexed active data window in a near real-time business intelligence system

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101105793A (zh) * 2006-07-11 2008-01-16 阿里巴巴公司 数据仓库中的数据处理方法及系统
CN101814072A (zh) * 2009-02-19 2010-08-25 上海众恒信息产业股份有限公司 一种实现数据加载的系统及方法
CN102831546A (zh) * 2011-06-17 2012-12-19 吉贝克信息技术(北京)有限公司 支持证券经纪业精细化客户价值管理的信息分析系统
CN103136335A (zh) * 2013-01-31 2013-06-05 北京千分点信息科技有限公司 一种基于数据平台的数据控制方法

Also Published As

Publication number Publication date
CN104462082A (zh) 2015-03-25

Similar Documents

Publication Publication Date Title
CN104462082B (zh) 一种基于数据仓库的医疗数据整合方法及系统
Neuraz et al. Patient mortality is associated with staff resources and workload in the ICU: a multicenter observational study
Serhani et al. An hybrid approach to quality evaluation across big data value chain
CN107103025A (zh) 一种数据处理方法及数据处理平台
US20170103164A1 (en) System and method for dynamic autonomous transactional identity management
CN106649378A (zh) 一种数据同步方法及装置
JP2017037648A (ja) ハイブリッドデータを保存するためのハイブリッドデータストレージシステム、方法及びプログラム
CN107818115A (zh) 一种处理数据表的方法及装置
WO2019071834A1 (zh) 一种基于元数据的智能化区域移动医疗集成数据中心系统原型
CN106547786A (zh) 一种数据存储方法及装置
US20200320405A1 (en) Knowledge management system
US8756208B2 (en) Encoded data processing
Begoli et al. A lakehouse architecture for the management and analysis of heterogeneous data for biomedical research and mega-biobanks
CN104166951B (zh) 一种为医疗机构双向转诊提供数据支撑的方法及系统
CN112199425A (zh) 基于混合数据库结构的医疗大数据中心及其建设方法
CN108062399A (zh) 数据处理方法及装置
CN108351895A (zh) 向去识别化的数据库整合和/或添加纵向信息
CN104462462B (zh) 基于业务变化频度的数据仓库建模方法和建模装置
CN105574042A (zh) 一种电子健康档案数据的处理方法及装置
CN104598520A (zh) 一种处理商品信息的方法和装置
CN115456800A (zh) 一种通过保险理赔单据还原疾病病程的方法
US10585916B1 (en) Systems and methods for improved efficiency
WO2014114761A1 (en) Data management system
Famutimi et al. An empirical comparison of the performances of single structure columnar in-memory and disk-resident data storage techniques using healthcare big data
Aghdam et al. On enhancing data utility in k-anonymization for data without hierarchical taxonomies

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
CP03 Change of name, title or address

Address after: 518000 East Side of 6th Floor of High-tech South Five Golden Certificate Science and Technology Building, Nanshan Science and Technology Park South District, Shenzhen City, Guangdong Province

Patentee after: Shenzhen Lianfeng Medical Data Service Co., Ltd.

Address before: 518057 Nanshan District, Shenzhen City, Guangdong Province, High-tech South Five Golden Certificate Science and Technology Building, 6th Floor

Patentee before: SHENZHEN ZHONGKE JINZHENG TECHNOLOGY CO., LTD.

CP03 Change of name, title or address