CN110069478A

CN110069478A - 面向医疗大数据的多源异构数据整合系统

Info

Publication number: CN110069478A
Application number: CN201711240821.2A
Authority: CN
Inventors: 周峻松; 徐继峰; 祁建明; 陈墩金
Original assignee: Guangzhou Ming - Collar Gene Technology Co Ltd
Current assignee: Guangzhou Ming - Collar Gene Technology Co Ltd
Priority date: 2017-12-01
Filing date: 2017-12-01
Publication date: 2019-07-30

Abstract

本发明公开了一种面向医疗大数据的多源异构数据整合系统，该系统包括：数据实时采集模块、备份数据存储集群模块以及增量式映射管理模块；其中，所述数据实时采集模块负责对原生产系统上的实时数据及历史数据进行采集和过滤；所述备份数据存储集群模块用于存储所述数据实时采集模块处理后分发的数据，并将此异构数据作为所述增量式映射管理模块的数据源进行提供；所述增量式映射管理模块负责对所提供数据进行实时整合，并进行相应后续处理。本发明方案利用数据中间件的形式对多源异构数据进行清洗转换，为上层应用提供标准数据集，提升了高质量数据的采集效率。

Description

面向医疗大数据的多源异构数据整合系统

技术领域

本发明属于多源异构数据整合技术领域，涉及一种面向医疗大数据的多源异构数据整合系统。

背景技术

信息技术及互联网的高速发展和全球的数字信息资源的急剧增加，推动着大数据时代的来临，各行各业每天都在产生数量巨大的数据碎片，如何从这些碎片中采集高质量的数据，用以完成对隐藏于大数据中有价值的信息进行分析与挖掘，成为当前首要关注的问题。

医院信息化的飞速发展使得信息系统的建设规模越来越大，这些系统因处理的业务和采用的技术架构不同，其采集、处理、存储和交换数据的标准均存在较大的差异。从数据的结构形式来看，分为结构化数据、半结构化数据和非结构化数据：而从信息记录的模式来看，同一实体可能在多个系统均有记录，但具体属性集合可能各有不同，即便是同一属性，其命名或数据也可能在交互过程因系统或手工记录的原因发生错误而存在相互矛盾、冲突的地方。很明显，医疗行业中的数据呈现出一种多源异构性，该特性会产生严重的数据质量问题，对医疗大数据的后续利用产生极为不利的影响。

但传统的数据仓库策略多为离线处理，面对海量的实时数据处理，处理效率不高；其次，这种策略在抽取之前就需要定义好规则和标准，难以应对可能随时会变更的需求；最后，若想不中断在用生产系统即无增量数据产生的前提下，对海量的存量数据进行一次性的ETL，成本太高。

发明内容

本发明目的在于提供一种面向医疗大数据的多源异构数据整合系统，针对传统的数据仓库策略处理效率不高而成本太高以及应变能力不强等不足，利用数据中间件的形式，在不影响医院在用的生产系统的基础上，对多源异构数据进行清洗转换，为上层应用提供标准数据集，有效地解决了传统的数据仓库策略所产生的若干问题，提升了高质量数据的采集效率。

为解决上述技术问题，本发明采用如下的技术方案：一种面向医疗大数据的多源异构数据整合系统，该系统包括：数据实时采集模块、备份数据存储集群模块以及增量式映射管理模块；其中，所述数据实时采集模块负责对原生产系统上的实时数据及历史数据进行采集和过滤；所述备份数据存储集群模块用于存储所述数据实时采集模块处理后分发的数据，并将此异构数据作为所述增量式映射管理模块的数据源进行提供；所述增量式映射管理模块负责对所提供数据进行实时整合，并进行相应后续处理。

进一步地，所述数据实时采集模块由数据采集子模块与数据预处理子模块组成，实现对历史数据及实时数据的采集后，对其进行无效信息过滤、数据加密与数据压缩预处理操作。

进一步地，所述增量式映射管理模块由查询处理子模块、模式匹配子模块、语义转换子模块、知识库管理子模块、缓存管理子模块、缓存集群子模块及知识库子模块组成，负责对所述备份数据存储集群模块提供的异构数据进行实时整合，建立缓存库和知识库，并为大数据分析平台提供标准化的数据接口。

本发明与现有技术相比具有以下的有益效果：

本发明方案针对传统的数据仓库策略处理效率不高而成本太高以及应变能力不强等不足，利用数据中间件的形式，在不影响医院在用的生产系统的基础上，对多源异构数据进行清洗转换，为上层应用提供标准数据集，提升了高质量数据的采集效率。

附图说明

图1是面向医疗大数据的多源异构数据整合系统的整体框架图。

图2是模式匹配子模块的处理流程图。

图3是语义转换子模块的示例图。

图4是面向医疗大数据的多源异构数据整合系统的工作流程图。

具体实施方式

下面结合附图及具体实施例对本发明进行更加详细与完整的说明。可以理解的是，此处所描述的具体实施例仅用于解释本发明，而非对本发明的限定。

参照图1，本发明的一种面向医疗大数据的多源异构数据整合系统，该系统包括：数据实时采集模块、备份数据存储集群模块以及增量式映射管理模块；其中，所述数据实时采集模块负责对原生产系统上的实时数据及历史数据进行采集和过滤；所述备份数据存储集群模块用于存储所述数据实时采集模块处理后分发的数据，并将此异构数据作为所述增量式映射管理模块的数据源进行提供；所述增量式映射管理模块负责对所提供数据进行实时整合，并进行相应后续处理。

数据实时采集模块由数据采集子模块与数据预处理子模块组成。

数据采集子模块的功能可分为历史数据采集和实时数据采集。其中，历史数据的采集采用设置规则过滤后全量导入的方式；实时数据的采集采用基于数据库日志解析的方式来获取增量变更实现数据的同步，这种方法对在用的生产系统几乎不会产生任何负面的影响。

数据预处理子模块负责对数据进行以下预处理：(1)无效信息过滤，识别并剔除错误数据和重复数据，提高处理效率和整合的准确度；(2)数据加密，为保障数据安全，对原始数据进行加密；(3)数据压缩，对原始数据采用无损的压缩处理，提升存储空间利用率和传输效率。

增量式映射管理模块由查询处理子模块、模式匹配子模块、语义转换子模块、知识库管理子模块、缓存管理子模块、缓存集群子模块及知识库子模块组成，其工作流程如下：

用户或上层分析系统发起数据查询，向系统请求某些字段具体数据；查询处理子模块接到数据查询请求，首先查找缓存管理子模块中是否已经整合过该请求，若查找成功，对于已缓存的数据集，直接返回结果；对于未缓存数据集的查询，直接由步骤2开始至全部执行完；如果查找失败，则从步骤1开始至全部执行完。步骤1：调用模式匹配子模块，根据查询需求对各异构数据与标准目标数据进行匹配，建立映射关系；根据模式的映射关系，转换查询请求并下发到各匹配的异构数据源；步骤2：查询处理子模块整合返回的结果数据集，并调用语义转换子模块对部分结果进行语义转换，并通过知识库管理子模块更新知识库。查询处理子模块通过同一数据接口标准向上层系统提供查询结果。

为提高系统效率，各个子模块在必要情况下会对部分数据或中间结果进行缓存，而不是每次都重新计算或者重新查找。系统会随着中间计算结果和映射的缓存不断扩大，知识库的不断丰富，不断提升查询的效率与精确度。

以下对系统的关键处理子模块——模式匹配子模块和语义转换子模块的工作方式进行介绍：

1、模式匹配子模块

该模块的匹配流程如图2所示，进行模式匹配的依据为属性的相似度，其简易的度量公式如下：

sim(S1.e_i,S2.e_j)＝AGG(sim_f(S1.e_i,S2.e_j)) (1)

其中，e_i与e_j是分属于模式S1和S2的两个属性，sim_f是基于特征f的相似度算法。AGG为聚合函数。该公式根据一定的聚合规则，综合考虑多个相似度算法的结果，得出两个属性的最终相似度。目前，国内外正在研究的相似度算法即属性匹配器有：基于单词相似度的属性匹配器，基于单词编辑距离的属性匹配器，基于数据类型的属性匹配器，基于数据实例的属性匹配器。在实际应用场景中，还可以根据业务实际情况，添加自定义的属性匹配器，通过各属性匹配器的合理搭配使用，提高属性近似度的精度。

2、语义转换子模块

该模块主要负责将各异构数据源的属性数据转换成标准数据。例如，上层分析系统可能需要获取医嘱的具体内容，而某些数据源中仅仅包含医嘱代码。这时，语义转换子模块就可以根据知识库中医嘱代码与医嘱具体内容的映射关系，将医嘱代码转换为医嘱内容。可设定一个阀值T，当在一个数据表中成功匹配到T及以上个样例数据，则匹配成功。

如图3所示的匹配过程中，设定T值为1，经过第一轮匹配，可发现Table1中存在样例数据(“qd”→“每日一次”)，Table2中存在样例数据(“bid”→“每日两次”)，即从知识库中匹配到了两个数据表；根据Tablel和Table2中的数据，继续转换Query中“advice_code”属性未转换的数据。Tablel中存在“qid”与“q2h”的数据，Table2中存在“qn”与“qh”的数据可直接转换，但Query中“M.D.S”却没有找到对应的结果；进行第二次迭代匹配时发现了Table3，并在其中找到了“M.D.S”对应的转换结果。

以上示例过程中，通过增加迭代匹配的次数来提高转换率，但这种处理会导致执行时间的延长。因此，在实际场景中，需要对转换率和执行时间做一个折中。另外，还可通过机器学习、人为干预等方式，不断丰富及完善医院知识库，从而提高其支撑的语义转换子模块的转换率。

参见图4，本发明的工作流程主要分成以下几个部分：

1、增量式数据采集

医院各系统中的历史数据可进行批量导入，对于生产环境下不断更新的数据，本发明通过数据采集子模块一方面根据原始格式存储在备份数据存储集群模块中，另一方面实时推送最新数据至增量式映射管理模块以供分析使用。

2、模式匹配和查询转换

本发明的输入为查询SQL和涉及的数据模式，查询处理子模块首先在缓存中查找该数据模式是否已经建立映射，如果未建立映射，则会将对应的数据模式传递给模式匹配子模块，将其与底层各数据源之间进行增量式模式匹配，模式匹配完成后，根据映射关系将SQL进行转换并下发至底层各异构数据源，查找各对应的匹配数据模式的数据记录。

3、查询结果整合

各异构数据源完成数据查询并返回结果后，查询处理子模块对这些数据集进行整合，并通过语义转换子模块进行数据的补全和修正，完成数据的标准化。此时的语义转换子模块需要建立一个不断完善的知识库，医院可以通过知识库管理子模块来维护语义转换需要用到的各种映射关系。

4、缓存和性能优化

以上过程中，本发明的系统性能主要消耗在模式匹配和查询转换以及查询结果整合中。因此，若通过缓存管理，存储模式匹配的映射关系以及查询结果数据集，可以在很大程度上提高系统的性能。当然，也必须设计合理的缓存策略，平衡好提高命中率和降低存储成本之间的矛盾。

以上所述仅为本发明的优选实施例，并不用于限制本发明，对于本领域技术人员而言，本发明可以有各种改动和变化。凡在本发明的精神和原理之内所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.面向医疗大数据的多源异构数据整合系统，其特征在于，所述系统包括：数据实时采集模块、备份数据存储集群模块以及增量式映射管理模块；其中，所述数据实时采集模块负责对原生产系统上的实时数据及历史数据进行采集和过滤；所述备份数据存储集群模块用于存储所述数据实时采集模块处理后分发的数据，并将此异构数据作为所述增量式映射管理模块的数据源进行提供；所述增量式映射管理模块负责对所提供数据进行实时整合，并进行相应后续处理。

2.根据权利要求1所述的面向医疗大数据的多源异构数据整合系统，其特征在于，所述数据实时采集模块由数据采集子模块与数据预处理子模块组成，实现对历史数据及实时数据的采集后，对其进行无效信息过滤、数据加密与数据压缩预处理操作。

3.根据权利要求1所述的面向医疗大数据的多源异构数据整合系统，其特征在于，所述增量式映射管理模块由查询处理子模块、模式匹配子模块、语义转换子模块、知识库管理子模块、缓存管理子模块、缓存集群子模块及知识库子模块组成，负责对所述备份数据存储集群模块提供的异构数据进行实时整合，建立缓存库和知识库，并为大数据分析平台提供标准化的数据接口。