CN110069478A - 面向医疗大数据的多源异构数据整合系统 - Google Patents

面向医疗大数据的多源异构数据整合系统 Download PDF

Info

Publication number
CN110069478A
CN110069478A CN201711240821.2A CN201711240821A CN110069478A CN 110069478 A CN110069478 A CN 110069478A CN 201711240821 A CN201711240821 A CN 201711240821A CN 110069478 A CN110069478 A CN 110069478A
Authority
CN
China
Prior art keywords
data
module
submodule
real time
increment type
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201711240821.2A
Other languages
English (en)
Inventor
周峻松
徐继峰
祁建明
陈墩金
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Guangzhou Ming - Collar Gene Technology Co Ltd
Original Assignee
Guangzhou Ming - Collar Gene Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Guangzhou Ming - Collar Gene Technology Co Ltd filed Critical Guangzhou Ming - Collar Gene Technology Co Ltd
Priority to CN201711240821.2A priority Critical patent/CN110069478A/zh
Publication of CN110069478A publication Critical patent/CN110069478A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/14Error detection or correction of the data by redundancy in operation
    • G06F11/1402Saving, restoring, recovering or retrying
    • G06F11/1446Point-in-time backing up or restoration of persistent data
    • G06F11/1458Management of the backup or restore process
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/21Design, administration or maintenance of databases
    • G06F16/215Improving data quality; Data cleansing, e.g. de-duplication, removing invalid entries or correcting typographical errors
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/242Query formulation
    • G06F16/2425Iterative querying; Query formulation based on the results of a preceding query
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2453Query optimisation
    • G06F16/24534Query rewriting; Transformation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2455Query execution
    • G06F16/24552Database cache management
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/25Integrating or interfacing systems involving database management systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/25Integrating or interfacing systems involving database management systems
    • G06F16/254Extract, transform and load [ETL] procedures, e.g. ETL data flows in data warehouses
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F2201/00Indexing scheme relating to error detection, to error correction, and to monitoring
    • G06F2201/80Database-specific techniques

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Computational Linguistics (AREA)
  • Quality & Reliability (AREA)
  • Mathematical Physics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种面向医疗大数据的多源异构数据整合系统,该系统包括:数据实时采集模块、备份数据存储集群模块以及增量式映射管理模块;其中,所述数据实时采集模块负责对原生产系统上的实时数据及历史数据进行采集和过滤;所述备份数据存储集群模块用于存储所述数据实时采集模块处理后分发的数据,并将此异构数据作为所述增量式映射管理模块的数据源进行提供;所述增量式映射管理模块负责对所提供数据进行实时整合,并进行相应后续处理。本发明方案利用数据中间件的形式对多源异构数据进行清洗转换,为上层应用提供标准数据集,提升了高质量数据的采集效率。

Description

面向医疗大数据的多源异构数据整合系统
技术领域
本发明属于多源异构数据整合技术领域,涉及一种面向医疗大数据的多源异构数据整合系统。
背景技术
信息技术及互联网的高速发展和全球的数字信息资源的急剧增加,推动着大数据时代的来临,各行各业每天都在产生数量巨大的数据碎片,如何从这些碎片中采集高质量的数据,用以完成对隐藏于大数据中有价值的信息进行分析与挖掘,成为当前首要关注的问题。
医院信息化的飞速发展使得信息系统的建设规模越来越大,这些系统因处理的业务和采用的技术架构不同,其采集、处理、存储和交换数据的标准均存在较大的差异。从数据的结构形式来看,分为结构化数据、半结构化数据和非结构化数据:而从信息记录的模式来看,同一实体可能在多个系统均有记录,但具体属性集合可能各有不同,即便是同一属性,其命名或数据也可能在交互过程因系统或手工记录的原因发生错误而存在相互矛盾、冲突的地方。很明显,医疗行业中的数据呈现出一种多源异构性,该特性会产生严重的数据质量问题,对医疗大数据的后续利用产生极为不利的影响。
但传统的数据仓库策略多为离线处理,面对海量的实时数据处理,处理效率不高;其次,这种策略在抽取之前就需要定义好规则和标准,难以应对可能随时会变更的需求;最后,若想不中断在用生产系统即无增量数据产生的前提下,对海量的存量数据进行一次性的ETL,成本太高。
发明内容
本发明目的在于提供一种面向医疗大数据的多源异构数据整合系统,针对传统的数据仓库策略处理效率不高而成本太高以及应变能力不强等不足,利用数据中间件的形式,在不影响医院在用的生产系统的基础上,对多源异构数据进行清洗转换,为上层应用提供标准数据集,有效地解决了传统的数据仓库策略所产生的若干问题,提升了高质量数据的采集效率。
为解决上述技术问题,本发明采用如下的技术方案:一种面向医疗大数据的多源异构数据整合系统,该系统包括:数据实时采集模块、备份数据存储集群模块以及增量式映射管理模块;其中,所述数据实时采集模块负责对原生产系统上的实时数据及历史数据进行采集和过滤;所述备份数据存储集群模块用于存储所述数据实时采集模块处理后分发的数据,并将此异构数据作为所述增量式映射管理模块的数据源进行提供;所述增量式映射管理模块负责对所提供数据进行实时整合,并进行相应后续处理。
进一步地,所述数据实时采集模块由数据采集子模块与数据预处理子模块组成,实现对历史数据及实时数据的采集后,对其进行无效信息过滤、数据加密与数据压缩预处理操作。
进一步地,所述增量式映射管理模块由查询处理子模块、模式匹配子模块、语义转换子模块、知识库管理子模块、缓存管理子模块、缓存集群子模块及知识库子模块组成,负责对所述备份数据存储集群模块提供的异构数据进行实时整合,建立缓存库和知识库,并为大数据分析平台提供标准化的数据接口。
本发明与现有技术相比具有以下的有益效果:
本发明方案针对传统的数据仓库策略处理效率不高而成本太高以及应变能力不强等不足,利用数据中间件的形式,在不影响医院在用的生产系统的基础上,对多源异构数据进行清洗转换,为上层应用提供标准数据集,提升了高质量数据的采集效率。
附图说明
图1是面向医疗大数据的多源异构数据整合系统的整体框架图。
图2是模式匹配子模块的处理流程图。
图3是语义转换子模块的示例图。
图4是面向医疗大数据的多源异构数据整合系统的工作流程图。
具体实施方式
下面结合附图及具体实施例对本发明进行更加详细与完整的说明。可以理解的是,此处所描述的具体实施例仅用于解释本发明,而非对本发明的限定。
参照图1,本发明的一种面向医疗大数据的多源异构数据整合系统,该系统包括:数据实时采集模块、备份数据存储集群模块以及增量式映射管理模块;其中,所述数据实时采集模块负责对原生产系统上的实时数据及历史数据进行采集和过滤;所述备份数据存储集群模块用于存储所述数据实时采集模块处理后分发的数据,并将此异构数据作为所述增量式映射管理模块的数据源进行提供;所述增量式映射管理模块负责对所提供数据进行实时整合,并进行相应后续处理。
数据实时采集模块由数据采集子模块与数据预处理子模块组成。
数据采集子模块的功能可分为历史数据采集和实时数据采集。其中,历史数据的采集采用设置规则过滤后全量导入的方式;实时数据的采集采用基于数据库日志解析的方式来获取增量变更实现数据的同步,这种方法对在用的生产系统几乎不会产生任何负面的影响。
数据预处理子模块负责对数据进行以下预处理:(1)无效信息过滤,识别并剔除错误数据和重复数据,提高处理效率和整合的准确度;(2)数据加密,为保障数据安全,对原始数据进行加密;(3)数据压缩,对原始数据采用无损的压缩处理,提升存储空间利用率和传输效率。
增量式映射管理模块由查询处理子模块、模式匹配子模块、语义转换子模块、知识库管理子模块、缓存管理子模块、缓存集群子模块及知识库子模块组成,其工作流程如下:
用户或上层分析系统发起数据查询,向系统请求某些字段具体数据;查询处理子模块接到数据查询请求,首先查找缓存管理子模块中是否已经整合过该请求,若查找成功,对于已缓存的数据集,直接返回结果;对于未缓存数据集的查询,直接由步骤2开始至全部执行完;如果查找失败,则从步骤1开始至全部执行完。步骤1:调用模式匹配子模块,根据查询需求对各异构数据与标准目标数据进行匹配,建立映射关系;根据模式的映射关系,转换查询请求并下发到各匹配的异构数据源;步骤2:查询处理子模块整合返回的结果数据集,并调用语义转换子模块对部分结果进行语义转换,并通过知识库管理子模块更新知识库。查询处理子模块通过同一数据接口标准向上层系统提供查询结果。
为提高系统效率,各个子模块在必要情况下会对部分数据或中间结果进行缓存,而不是每次都重新计算或者重新查找。系统会随着中间计算结果和映射的缓存不断扩大,知识库的不断丰富,不断提升查询的效率与精确度。
以下对系统的关键处理子模块——模式匹配子模块和语义转换子模块的工作方式进行介绍:
1、模式匹配子模块
该模块的匹配流程如图2所示,进行模式匹配的依据为属性的相似度,其简易的度量公式如下:
sim(S1.ei,S2.ej)=AGG(simf(S1.ei,S2.ej)) (1)
其中,ei与ej是分属于模式S1和S2的两个属性,simf是基于特征f的相似度算法。AGG为聚合函数。该公式根据一定的聚合规则,综合考虑多个相似度算法的结果,得出两个属性的最终相似度。目前,国内外正在研究的相似度算法即属性匹配器有:基于单词相似度的属性匹配器,基于单词编辑距离的属性匹配器,基于数据类型的属性匹配器,基于数据实例的属性匹配器。在实际应用场景中,还可以根据业务实际情况,添加自定义的属性匹配器,通过各属性匹配器的合理搭配使用,提高属性近似度的精度。
2、语义转换子模块
该模块主要负责将各异构数据源的属性数据转换成标准数据。例如,上层分析系统可能需要获取医嘱的具体内容,而某些数据源中仅仅包含医嘱代码。这时,语义转换子模块就可以根据知识库中医嘱代码与医嘱具体内容的映射关系,将医嘱代码转换为医嘱内容。可设定一个阀值T,当在一个数据表中成功匹配到T及以上个样例数据,则匹配成功。
如图3所示的匹配过程中,设定T值为1,经过第一轮匹配,可发现Table1中存在样例数据(“qd”→“每日一次”),Table2中存在样例数据(“bid”→“每日两次”),即从知识库中匹配到了两个数据表;根据Tablel和Table2中的数据,继续转换Query中“advice_code”属性未转换的数据。Tablel中存在“qid”与“q2h”的数据,Table2中存在“qn”与“qh”的数据可直接转换,但Query中“M.D.S”却没有找到对应的结果;进行第二次迭代匹配时发现了Table3,并在其中找到了“M.D.S”对应的转换结果。
以上示例过程中,通过增加迭代匹配的次数来提高转换率,但这种处理会导致执行时间的延长。因此,在实际场景中,需要对转换率和执行时间做一个折中。另外,还可通过机器学习、人为干预等方式,不断丰富及完善医院知识库,从而提高其支撑的语义转换子模块的转换率。
参见图4,本发明的工作流程主要分成以下几个部分:
1、增量式数据采集
医院各系统中的历史数据可进行批量导入,对于生产环境下不断更新的数据,本发明通过数据采集子模块一方面根据原始格式存储在备份数据存储集群模块中,另一方面实时推送最新数据至增量式映射管理模块以供分析使用。
2、模式匹配和查询转换
本发明的输入为查询SQL和涉及的数据模式,查询处理子模块首先在缓存中查找该数据模式是否已经建立映射,如果未建立映射,则会将对应的数据模式传递给模式匹配子模块,将其与底层各数据源之间进行增量式模式匹配,模式匹配完成后,根据映射关系将SQL进行转换并下发至底层各异构数据源,查找各对应的匹配数据模式的数据记录。
3、查询结果整合
各异构数据源完成数据查询并返回结果后,查询处理子模块对这些数据集进行整合,并通过语义转换子模块进行数据的补全和修正,完成数据的标准化。此时的语义转换子模块需要建立一个不断完善的知识库,医院可以通过知识库管理子模块来维护语义转换需要用到的各种映射关系。
4、缓存和性能优化
以上过程中,本发明的系统性能主要消耗在模式匹配和查询转换以及查询结果整合中。因此,若通过缓存管理,存储模式匹配的映射关系以及查询结果数据集,可以在很大程度上提高系统的性能。当然,也必须设计合理的缓存策略,平衡好提高命中率和降低存储成本之间的矛盾。
以上所述仅为本发明的优选实施例,并不用于限制本发明,对于本领域技术人员而言,本发明可以有各种改动和变化。凡在本发明的精神和原理之内所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (3)

1.面向医疗大数据的多源异构数据整合系统,其特征在于,所述系统包括:数据实时采集模块、备份数据存储集群模块以及增量式映射管理模块;其中,所述数据实时采集模块负责对原生产系统上的实时数据及历史数据进行采集和过滤;所述备份数据存储集群模块用于存储所述数据实时采集模块处理后分发的数据,并将此异构数据作为所述增量式映射管理模块的数据源进行提供;所述增量式映射管理模块负责对所提供数据进行实时整合,并进行相应后续处理。
2.根据权利要求1所述的面向医疗大数据的多源异构数据整合系统,其特征在于,所述数据实时采集模块由数据采集子模块与数据预处理子模块组成,实现对历史数据及实时数据的采集后,对其进行无效信息过滤、数据加密与数据压缩预处理操作。
3.根据权利要求1所述的面向医疗大数据的多源异构数据整合系统,其特征在于,所述增量式映射管理模块由查询处理子模块、模式匹配子模块、语义转换子模块、知识库管理子模块、缓存管理子模块、缓存集群子模块及知识库子模块组成,负责对所述备份数据存储集群模块提供的异构数据进行实时整合,建立缓存库和知识库,并为大数据分析平台提供标准化的数据接口。
CN201711240821.2A 2017-12-01 2017-12-01 面向医疗大数据的多源异构数据整合系统 Pending CN110069478A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201711240821.2A CN110069478A (zh) 2017-12-01 2017-12-01 面向医疗大数据的多源异构数据整合系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201711240821.2A CN110069478A (zh) 2017-12-01 2017-12-01 面向医疗大数据的多源异构数据整合系统

Publications (1)

Publication Number Publication Date
CN110069478A true CN110069478A (zh) 2019-07-30

Family

ID=67364922

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201711240821.2A Pending CN110069478A (zh) 2017-12-01 2017-12-01 面向医疗大数据的多源异构数据整合系统

Country Status (1)

Country Link
CN (1) CN110069478A (zh)

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110427415A (zh) * 2019-08-02 2019-11-08 泰康保险集团股份有限公司 知识库共享方法、装置、系统介质及电子设备
CN111198893A (zh) * 2019-12-31 2020-05-26 南京医睿科技有限公司 一种数据更新方法、装置、可读介质及电子设备
CN111563068A (zh) * 2020-05-18 2020-08-21 中建材信息技术股份有限公司 一种多源风控数据清洗处理方法
CN112214479A (zh) * 2020-12-01 2021-01-12 王跃 基于大数据的医疗数据管理系统及方法
CN113143658A (zh) * 2021-04-26 2021-07-23 中国人民解放军海军军医大学第一附属医院 智能手术用床
CN113190608A (zh) * 2021-05-28 2021-07-30 北京红山信息科技研究院有限公司 数据标准化采集方法、装置、设备及存储介质
CN113764091A (zh) * 2021-09-24 2021-12-07 卫宁健康科技集团股份有限公司 医疗质量智慧管理平台

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110427415A (zh) * 2019-08-02 2019-11-08 泰康保险集团股份有限公司 知识库共享方法、装置、系统介质及电子设备
CN111198893A (zh) * 2019-12-31 2020-05-26 南京医睿科技有限公司 一种数据更新方法、装置、可读介质及电子设备
CN111198893B (zh) * 2019-12-31 2023-05-02 医渡云(北京)技术有限公司 一种数据更新方法、装置、可读介质及电子设备
CN111563068A (zh) * 2020-05-18 2020-08-21 中建材信息技术股份有限公司 一种多源风控数据清洗处理方法
CN112214479A (zh) * 2020-12-01 2021-01-12 王跃 基于大数据的医疗数据管理系统及方法
CN113143658A (zh) * 2021-04-26 2021-07-23 中国人民解放军海军军医大学第一附属医院 智能手术用床
CN113190608A (zh) * 2021-05-28 2021-07-30 北京红山信息科技研究院有限公司 数据标准化采集方法、装置、设备及存储介质
CN113764091A (zh) * 2021-09-24 2021-12-07 卫宁健康科技集团股份有限公司 医疗质量智慧管理平台
CN113764091B (zh) * 2021-09-24 2024-03-01 卫宁健康科技集团股份有限公司 医疗质量智慧管理平台

Similar Documents

Publication Publication Date Title
CN110069478A (zh) 面向医疗大数据的多源异构数据整合系统
CN109299102B (zh) 一种基于Elastcisearch的HBase二级索引系统及方法
CN104123288B (zh) 一种数据查询方法及装置
CN107038222B (zh) 数据库缓存实现方法及其系统
CA2562281C (en) Partial query caching
CN107291807B (zh) 一种基于图遍历的sparql查询优化方法
Khandelwal et al. Zipg: A memory-efficient graph store for interactive queries
CN109614432B (zh) 一种基于语法分析的获取数据血缘关系的系统及方法
EP3702932A1 (en) Method, apparatus, device and medium for storing and querying data
CN107729371B (zh) 区块链的数据索引及查询方法、装置、设备及存储介质
CN109656958B (zh) 数据查询方法以及系统
WO2016029018A2 (en) Executing constant time relational queries against structured and semi-structured data
US20140046928A1 (en) Query plans with parameter markers in place of object identifiers
CN106844545A (zh) 一种基于标准sql的双引擎数据库系统的实现方法
CN102999563A (zh) 基于资源描述框架的网络资源语义检索方法及系统
CN107491476B (zh) 一种适用于多种大数据管理系统的数据模型转换及查询分析方法
CN103810224A (zh) 信息持久化和查询方法及装置
CN101710336A (zh) 一种利用关系中间件加速数据处理的方法
CN109885782B (zh) 一种生态环境空间大数据集成方法
US10558636B2 (en) Index page with latch-free access
CN106021306A (zh) 基于本体匹配的案例搜索系统
Park et al. A Study on the Link Server Development Using B-Tree Structure in the Big Data Environment
CN102411730A (zh) 描述逻辑与可废止逻辑整合的不一致本体非单调推理方法
CN110321456B (zh) 一种海量不确定xml近似查询方法
CN113254725A (zh) 一种面向图数据库的数据管理与检索增强的方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
WD01 Invention patent application deemed withdrawn after publication
WD01 Invention patent application deemed withdrawn after publication

Application publication date: 20190730