CN109473178B

CN109473178B - 医疗数据整合的方法、系统、设备及存储介质

Info

Publication number: CN109473178B
Application number: CN201811342590.0A
Authority: CN
Inventors: 李林峰; 张春宇
Original assignee: Beijing Yiyiyun Technology Co ltd
Current assignee: Beijing Yiyiyun Technology Co ltd
Priority date: 2018-11-12
Filing date: 2018-11-12
Publication date: 2022-04-01
Anticipated expiration: 2038-11-12
Also published as: CN109473178A

Abstract

本发明提供了一种医疗数据整合的方法、系统、设备及存储介质，包括步骤获取原数据表的多个原数据表字段；提供一交互界面并在交互界面上提供多个原数据表字段与目标数据表的多个目标数据表字段的匹配关系的选择；接收用户选择的原数据表字段与目标数据表字段的匹配关系，根据匹配关系生成SQL语句；在Spark SQL中执行SQL语句，通过HIVE调动原数据表的数据生成目标数据表，将不同的原数据表统一为目标数据表，将不同系统中获取的原数据表的临床数据转化整合为统一的数据排布形式。

Description

医疗数据整合的方法、系统、设备及存储介质

技术领域

本发明涉及医疗以及数据分析领域，具体地说，涉及医疗数据整合的方法、系统、设备及存储介质。

背景技术

随着信息技术的发展，对于海量数据的分析成为一个非常迫切且重要的需求，然而对于海量数据进行分析前，由于数据来源的差异，首先需要对数据进行整合。对于医疗领域而言，医院的临床数据，按照业务不同，分布在多个不同的诊疗信息系统中，较为常见的有his(医院信息系统),lis(检验信息系统),ris(放射信息管理系统),pacs(医学影像存档与通讯系统),emr(电子病历)等。这些信息系统的主要功能和设计都是面向医院的特定业务，主要目的是方便医院的信息管理。这些系统在满足医院信息化需求的同时也存储了大量患者诊疗信息，是医学科研数据的重要来源和依据。

然而，由于这些系统中数据的设计都是以满足业务需求为原则的，各个系统相对独立，且存在多个系统供应商而导致系统中的原数据表设计存在很大差异，因此如何将不同信息系统中的临床数据转化整合为统一格式的数据排布形式以供后期进行医疗科学研究，成为急需解决的技术问题。

发明内容

针对上述技术中的问题，本发明为了解决上述技术问题，提供了一种医疗数据整合的方法、系统、设备及存储介质，本发明的第一方面提供一种医疗数据整合的方法，包括步骤：获取原数据表的多个原数据表字段；提供一交互界面并在交互界面上提供多个原数据表字段与目标数据表的多个目标数据表字段的匹配关系的选择；接收用户选择的原数据表字段与目标数据表字段的匹配关系，根据匹配关系生成SQL语句；在Spark SQL中执行SQL语句，通过HIVE调动原数据表的数据生成目标数据表。

优选地，在交互界面上提供多个原数据表字段与目标数据表的多个目标数据表字段的匹配关系的选择的步骤包括：在交互界面上提供多个可移动控件，多个固定控件以及多个与固定控件一一对应的第一区域，可移动控件标识原数据表字段，固定控件标识目标数据表字段，或者可移动控件标识目标数据表字段，固定控件标识原数据表字段。

优选地，接收用户选择的原数据表字段与目标数据表字段的匹配关系的步骤包括：监测用户在交互界面上的触发动作；根据触发动作读取第一区域中的可移动控件的原数据表字段的标识或目标数据表字段的标识，以获得原数据表字段以及目标数据表字段的匹配关系。

优选地，在交互界面上提供多个原数据表字段与目标数据表的多个目标数据表字段的匹配关系的选择包括：在交互界面上提供多个标识目标数据表字段的控件以及多个与目标数据表字段一一对应的选项控件，选项控件中包含多个原数据表字段，或者在交互界面上提供多个标识原数据表字段以及多个与原数据表字段一一对应的选项控件，选项控件中包含多个目标数据表字段。

优选地，接收用户选择的原数据表字段与目标数据表字段的匹配关系的步骤包括：监测用户在交互界面上的触发动作；根据触发动作确定用户选择的选项控件的原数据表字段或目标数据表字段，以获得原数据表字段以及目标数据表字段的匹配关系。

优选地，还包括步骤：根据字段的数据类型以及数据格式，在交互界面上提供原数据表字段与目标数据表字段的预对应关系。

优选地，目标数据表的多个目标数据表字段以患者字段以及病例字段为键。

本发明的第二方面还提供一种医疗数据整合的系统，包括：元数据模块，元数据模块用于获取原数据表的多个原数据表字段；SQL语句生成模块，SQL语句生成模块用于提供一交互界面并在交互界面上提供多个原数据表字段与目标数据表的多个目标数据表字段的匹配关系的选择，接收用户选择的原数据表字段与目标数据表字段的匹配关系，根据字段对应关系生成SQL语句；目标数据表生成模块，目标数据表生成模块用于在Spark SQL中执行SQL语句，通过HIVE调动原数据表的数据生成目标数据表。

本发明的第三方面还提供一种医疗数据整合设备，包括：处理器；存储器，其中存储有处理器的可执行指令；其中，处理器配置为经由执行可执行指令来执行上述第一方面的医疗数据整合的方法的步骤。

本发明的第四方面还提供一种计算机可读存储介质，用于存储程序，程序被执行时实现上述第一方面的医疗数据整合的方法的步骤。

本发明所提供的医疗数据整合的方法、系统、设备及存储介质通过交互界面获取原数据表字段与目标数据表字段的匹配关系，并根据匹配关系生成SQL语句，在Spark SQL中执行所述SQL语句，通过HIVE调动原数据表的数据生成目标数据表，从而将不同的原数据表统一为目标数据表，将不同系统中获取的原数据表的临床数据转化整合为统一的数据排布形式。

附图说明

通过阅读参照以下附图对非限制性实施例所作的详细描述，本发明的其它特征、目的和优点将会变得更明显。

图1是本发明一实施例的医疗数据整合的方法的流程图；

图2是本发明一实施例的交互界面的示意图；

图3是本发明另一实施例交互界面的示意图；

图4是本发明一实施例的包括医疗数据整合的系统的模块示意图；

图5是本发明一实施例的医疗数据整合的设备的结构示意图；以及

图6是本发明一实施例的计算机可读存储介质的结构示意图。

具体实施方式

现在将参考附图更全面地描述示例实施方式。然而，示例实施方式能够以多种形式实施，且不应被理解为限于在此阐述的实施方式。相反，提供这些实施方式使得本发明将全面和完整，并将示例实施方式的构思全面地传达给本领域的技术人员。在图中相同的附图标记表示相同或类似的结构，因而将省略对它们的重复描述。

现有的临床数据通常分布在多个不同的诊疗信息系统中，因此临床数据的数据排布形式有较大差异性，难以进行数据分析以及医疗科学研究。本发明通过设置交互界面获取原数据表字段与目标数据表字段的匹配关系，并根据匹配关系生成SQL语句，在SparkSQL中执行所述SQL语句，通过HIVE调动原数据表的数据生成目标数据表，从而将不同的原数据表统一为目标数据表，将不同系统中获取的原数据表的临床数据转化整合为统一的数据排布形式的目标数据表。

下面具体介绍本发明的实施方式，图1是本发明一实施例的医疗数据整合的方法的流程图，如图1所示，本发明的医疗数据整合的方法包括以下步骤：

S11、获取原数据表的多个原数据表字段。

S12、提供一交互界面并在交互界面上提供多个原数据表字段与目标数据表的多个目标数据表字段的匹配关系的选择。

S13、接收用户选择的原数据表字段与目标数据表字段的匹配关系，根据匹配关系生成SQL语句(structured query language，结构化查询语言)。

S14、在Spark SQL中执行SQL语句，通过HIVE调动原数据表的数据生成目标数据表。

具体而言，根据医学科研需求，设计统一数据排布形式的目标数据表，目标数据表包含多个目标数据表字段。优选地，多个目标数据表字段以患者字段以及病例字段为键，即为主要字段，从而便于进行数据分析，也便于与外部其他医疗信息数据进行进一步整合。

首先执行步骤S11，从医院既有的诊疗信息系统中获取原数据表的多个原数据表字段并存储。

接着，如步骤S12以及步骤S13，提供一个交互界面，并在交互界面上提供匹配关系的选择，接收用户选择的匹配关系，根据匹配关系生成SQL语句。

图2是本发明一实施例的交互界面的示意图。如图2所示，在交互界面100上提供多个可移动控件101，多个固定控件102以及多个与固定控件102一一对应的第一区域103。可移动控件101标识原数据表字段，固定控件102标识目标数据表字段。

监测用户在交互界面100上的触发动作。在本实例中，触发动作为拖拽，即检测到可移动控件101被拖拽至第一区域103中。在其他实施例中触发动作也可设置为其他动作。

根据触发动作读取第一区域103中的控件的原数据表字段的标识，以获得原数据表字段以及目标数据表字段的匹配关系。每个第一区域103中仅能容纳一个可移动控件101。由于第一区域103与固定控件102是一一对应的关系，因此，在第一区域103中的可移动控件101也与固定控件102一一对应，从而确定可移动控件101上标识的原数据表字段与固定控件102上的目标数据表字段的匹配关系。

由于不同诊疗信息系统中的原数据表字段设置差异化，以及诊疗信息系统通常具有较大数据量，因此需要编制的SQL语句数据较大，几乎无法通过人工完成，而本发明通过交互界面获取匹配关系，并根据匹配关系生成SQL语句，以直观简单的交互操作实现复杂繁琐的SQL语句的编制过程，提高便捷性以及效率。

优选地，本实施例中在交互界面100上提供原数据表字段与目标数据表字段的预对应关系。具体而言，根据原数据表字段以及目标数据表字段的数据类型以及数据格式，将数据类型以及数据格式匹配的原数据表字段以及目标数据表字段预设为存在对应关系。在对应的目标数据表字段的第一区域103中预先放置存在预对应关系的原数据表字段的可移动控件101，用户可以对第一区域103的可移动控件101进行变更选择，更正对应关系。通过提供原数据表字段与目标数据表字段的预对应关系进一步简化操作，提高效率。

获取原数据表字段与目标数据表字段的匹配关系后，根据所述匹配关系形成原数据表字段与目标数据表字段的映射关系，从而根据映射关系生成SQL语句。

在其他实施例中，也可以在可移动控件101上标识目标数据表字段，而在固定控件102上标识原数据表字段，根据触发动作读取第一区域103中的可移动控件的目标数据表字段的标识，以获得原数据表字段以及目标数据表字段的匹配关系。

图3是本发明另一实施例交互界面的示意图。如图3所示，提供交互界面200，并在交互界面200上多个标识目标数据表字段的控件201以及多个与控件201一一对应的选项控件202，每一个选项控件202中包含多个原数据表字段。

监测用户在交互界面200上的触发动作。在本实例中，触发动作为对选项控件202的内容选择，即检测到选项控件202中的多个原数据表字段的中的一个被选择。

根据触发动作确定用户选择的原数据表字段，以获得原数据表字段以及目标数据表字段的匹配关系。每一个选项控件202中的内容仅有一项能够被最终选择。标识目标数据表字段的控件201与选项控件202一一对应，因此，控件201上标识的目标数据表字段与选项控件202被选择的原数据表字段一一对应，形成匹配关系。

优选地，本实施例中在交互界面200上提供原数据表字段与目标数据表字段的预对应关系。具体而言，根据原数据表字段以及目标数据表字段的数据类型以及数据格式，将数据类型以及数据格式匹配的原数据表字段以及目标数据表字段预设为存在对应关系。在对应的目标数据表字段的选项控件202中预先选择存在预对应关系的原数据表字段，用户可以对选项控件202的内容进行变更选择，更正对应关系。

在其他实施例中，也可以在交互界面200上提供多个标识原数据表字段的控件201以及多个与原数据表字段一一对应的选项控件202，选项控件202中包含多个目标数据表字段，根据触发动作确定用户选择的选项控件202的目标数据表字段，以获得原数据表字段以及目标数据表字段的匹配关系。

接着如步骤S14，在Spark SQL中执行SQL语句，通过HIVE调动原数据表的数据生成目标数据表。

步骤S14中会用到spark SQL,HIVE,HDFS等大数据技术。其中Spark是专为大规模数据处理而设计的快速通用的计算引擎,Spark SQL是应用于Spark的一个组件。HIVE是基于Hadoop的一个数据仓库工具，可以将结构化的数据文件映射为一张数据库表。HDFS是Hadoop分布式文件系统，用于存储数据表中的数据。

传统的关系型数据库管理技术经过40多年的发展，在扩展性方面遇到了巨大的障碍，无法胜任海量数据的分析任务，以谷歌的MapReduce(参见文献：Dean J,GhemawatS.MapReduce:simplified data processing on large clusters[J].Communications ofthe ACM,2008,51(1):107-113.)为代表的非关系型数据的处理和分析技术及其社区开源实现Hadoop(参见文献：Shvachko K,Kuang H,Radia S,et al.The hadoop distributedfile system[C]，Mass storage systems and technologies(MSST),2010IEEE26thsymposium on.IEEE,2010:1-10.)以其良好的扩展性、并行性、容错性，成为了大数据处理的标准之一。

基于Hadoop的数据仓库工具HIVE(Thusoo A,Sarma J S,Jain N,et al.Hive:awarehousing solution over a map-reduce framework[J].Proceedings of the VLDBEndowment,2009,2(2):1626-1629.)提供更高层的SQL操作，支持数据的提取、转化和加载，避免了用户编写MapReduce程序带来的复杂性。

由于Hadoop频繁写磁盘、缺乏作业的规划，迭代处理能力差等缺点，UC BerkeleyAMPLab提出了类MapReduce通用并行处理框架Spark(参见文献：Zaharia M,Chowdhury M,Das T,et al.Resilient distributed datasets:A fault-tolerant abstraction forin-memory cluster computing[C]，Proceedings of the 9th USENIX conference onNetworked Systems Design and Implementation.USENIX Association,2012:2-2.)，有效弥补了Hadoop在迭代计算和交互式方面的不足。其中，Spark SQL(Armbrust M,Xin R S,Lian C,et al.Spark sql:Relational data processing in spark[C]，Proceedings ofthe 2015ACM SIGMOD International Conference on Management of Data.ACM,2015:1383-1394.)作为Spark软件栈中的一员，在大数据分析、机器学习、深度学习等方面发挥着工具和桥梁作用。Spark SQL兼容HIVE，拥有比HIVE更好的性能，目前已支持TPC-DS基准，是大数据背景下优良的数据仓库解决方案之一。

本发明针对医疗行业的不同信息系统中的临床数据的整合，相较于使用MapReduce编写程序，程序复杂度会非常高，程序可维护性差，不具备可扩展性，使用SQL语句，则程序简洁清晰，可维护性好。

本实施例中，将SQL语句输入Spark SQL中执行，Spark SQL通过HIVE调动原数据表的数据生成目标数据表。具体而言，Spark SQL通过HIVE执行SQL语句，创建临时表，临时表位于分布式文件系统HDFS中，该临时表用来作为最终数据表的数据源。

创建带分区信息的目标数据表，在本实施例中按照SQL语句中的分区信息，优选地按照患者字段以及病例字段的字符串进行分区，在其他实施例中也可以按时间进行分区，也可以按整数区间进行分区，或者进行组合分区。创建带有分区信息的目标数据表可以将数据分区处理，以提高数据查询的速度。

根据原数据表中的数据格式，执行Spark SQL语句或者Hadoop支持的Load语句，将原数据表中的数据直接导入临时表中。

将临时表中的数据根据配置分为RDD数据块，每个RDD数据块分配给指定任务进行并行处理，再通过Spark SQL的内部转化机制，将SQL语句中的分区信息转化为针对RDD数据块的特定操作方法，从而基于RDD数据块对数据进行分区，并将分区后的数据进行压缩处理，写入到分布式文件系统HDFS中，从而将临时表数据处理并存入带有分区信息的目标数据表，以生成最终的目标数据表。

在其他实施例中，也可以使用其他现有的Spark内部处理方式，但均是通过SQL语句输入Spark SQL中执行，Spark SQL通过HIVE调动原数据表的数据生成目标数据表。。

本发明通过交互界面获取原数据表字段与目标数据表字段的匹配关系，并根据匹配关系生成SQL语句，在Spark SQL中执行所述SQL语句，通过HIVE调动原数据表的数据生成目标数据表，从而将不同的原数据表统一为目标数据表，将不同系统中获取的原数据表的临床数据转化整合为统一的数据排布形式。

通过交互界面获取匹配关系，并根据匹配关系生成SQL语句，以直观简单的交互操作实现复杂繁琐的SQL语句的编制过程，提高便捷性以及效率。

通过在Spark SQL中执行SQL语句，避免使用复杂的编程语言，实现程序简洁清晰化，维护性好。

本发明还提供了一种医疗数据整合的系统，针对现有的临床数据通常分布在多个不同的诊疗信息系统中，因此临床数据的数据排布形式有较大差异性，难以进行数据分析以及医疗科学研究。本发明通过设置交互界面获取原数据表字段与目标数据表字段的匹配关系，并根据匹配关系生成SQL语句，在Spark SQL中执行所述SQL语句，通过HIVE调动原数据表的数据生成目标数据表，从而将不同的原数据表统一为目标数据表，将不同系统中获取的原数据表的临床数据转化整合为统一的数据排布形式的目标数据表。

图4是本发明一实施例的包括医疗数据整合的系统的模块示意图，如图4所示，本发明的医疗数据整合的系统30包括元数据模块31，SQL语句生成模块32以及目标数据表生成模块33。

元数据模块31用于获取原数据表的多个原数据表字段。元数据模块31与外部的多个诊疗信息系统40数据连接，并从诊疗信息系统40中获取原数据表的多个原数据表字段。

SQL语句生成模块32用于提供一交互界面并在交互界面上提供多个原数据表字段与目标数据表的多个目标数据表字段的匹配关系的选择，接收用户选择的原数据表字段与目标数据表字段的匹配关系，根据字段对应关系生成SQL语句。

目标数据表生成模块33包括Spark SQL，HIVE以及HDFS，用于在Spark SQL中执行SQL语句，通过HIVE调动原数据表的数据生成目标数据表。其中Spark是专为大规模数据处理而设计的快速通用的计算引擎,Spark SQL是应用于Spark的一个组件。HIVE是基于Hadoop的一个数据仓库工具，可以将结构化的数据文件映射为一张数据库表。HDFS是Hadoop分布式文件系统，用于存储数据表中的数据。

可以理解的是，本医疗数据整合的系统30还包括其他支持医疗数据整合的系统30运行的现有功能模块。图4显示的医疗数据整合的系统30仅仅是一个示例，不应对本发明实施例的功能和使用范围带来任何限制。

本实施例中的医疗数据整合的系统30用于实现上述的医疗数据整合的方法，因此对于医疗数据整合的系统30的具体实施步骤可以参照上述对医疗数据整合的方法的描述，此处不再赘述。

本发明实施例还提供一种医疗数据整合设备，包括处理器。存储器，其中存储有处理器的可执行指令。其中，处理器配置为经由执行可执行指令来执行的上述的医疗数据整合的方法的步骤。

如上，该通过设置交互界面获取原数据表字段与目标数据表字段的匹配关系，并根据匹配关系生成SQL语句，在Spark SQL中执行所述SQL语句，通过HIVE调动原数据表的数据生成目标数据表，从而将不同的原数据表统一为目标数据表，将不同系统中获取的原数据表的临床数据转化整合为统一的数据排布形式的目标数据表。

所属技术领域的技术人员能够理解，本发明的各个方面可以实现为系统、方法或程序产品。因此，本发明的各个方面可以具体实现为以下形式，即：完全的硬件实施方式、完全的软件实施方式(包括固件、微代码等)，或硬件和软件方面结合的实施方式，这里可以统称为“电路”、“模块”或“平台”。

图5是本发明一实施例的医疗数据整合设备的结构示意图。下面参照图5来描述根据本发明的这种实施方式的医疗数据整合设备600。图5显示的医疗数据整合设备600仅仅是一个示例，不应对本发明实施例的功能和使用范围带来任何限制。

如图5所示，医疗数据整合设备600以通用计算设备的形式表现。医疗数据整合设备600的组件可以包括但不限于：至少一个处理单元610、至少一个存储单元620、连接不同平台组件(包括存储单元620和处理单元610)的总线630、显示单元640等。

其中，存储单元存储有程序代码，程序代码可以被处理单元610执行，使得处理单元610执行本说明书上述电子处方流转处理方法部分中描述的根据本发明各种示例性实施方式的步骤。例如，处理单元610可以执行如图1中所示的步骤。

存储单元620可以包括易失性存储单元形式的可读介质，例如随机存取存储单元(RAM)6201和/或高速缓存存储单元6202，还可以进一步包括只读存储单元(ROM)6203。

存储单元620还可以包括具有一组(至少一个)程序模块6205的程序/实用工具6204，这样的程序模块6205包括但不限于：操作系统、一个或者多个应用程序、其它程序模块以及程序数据，这些示例中的每一个或某种组合中可能包括网络环境的实现。

总线630可以为表示几类总线结构中的一种或多种，包括存储单元总线或者存储单元控制器、外围总线、图形加速端口、处理单元或者使用多种总线结构中的任意总线结构的局域总线。

医疗数据整合设备600也可以与一个或多个外部设备700(例如键盘、指向设备、蓝牙设备等)通信，还可与一个或者多个使得用户能与该医疗数据整合设备600交互的设备通信，和/或与使得该医疗数据整合设备600能与一个或多个其它计算设备进行通信的任何设备(例如路由器、调制解调器等等)通信。这种通信可以通过输入/输出(I/O)接口650进行。并且，医疗数据整合设备600还可以通过网络适配器660与一个或者多个网络(例如局域网(LAN)，广域网(WAN)和/或公共网络，例如因特网)通信。网络适配器660可以通过总线630与医疗数据整合设备600的其它模块通信。应当明白，尽管图中未示出，可以结合医疗数据整合设备600使用其它硬件和/或软件模块，包括但不限于：微代码、设备驱动器、冗余处理单元、外部磁盘驱动阵列、RAID系统、磁带驱动器以及数据备份存储平台等。

本发明实施例还提供一种计算机可读存储介质，用于存储程序，程序被执行时实现上述实施例中的医疗数据整合的方法的步骤。在一些可能的实施方式中，本发明的各个方面还可以实现为一种程序产品的形式，其包括程序代码，当程序产品在终端设备上运行时，程序代码用于使终端设备执行本说明书上述电子处方流转处理方法部分中描述的根据本发明各种示例性实施方式的步骤。

如上所示，该实施例的计算机可读存储介质的程序在执行时，通过设置交互界面获取原数据表字段与目标数据表字段的匹配关系，并根据匹配关系生成SQL语句，在SparkSQL中执行所述SQL语句，通过HIVE调动原数据表的数据生成目标数据表，从而将不同的原数据表统一为目标数据表，将不同系统中获取的原数据表的临床数据转化整合为统一的数据排布形式的目标数据表。

图6是本发明一实施例的计算机可读存储介质的结构示意图。参考图6所示，描述了根据本发明的实施方式的用于实现上述方法的程序产品800，其可以采用便携式紧凑盘只读存储器(CD-ROM)并包括程序代码，并可以在终端设备，例如个人电脑上运行。然而，本发明的程序产品不限于此，在本文件中，可读存储介质可以是任何包含或存储程序的有形介质，该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。

程序产品可以采用一个或多个可读介质的任意组合。可读介质可以是可读信号介质或者可读存储介质。可读存储介质例如可以为但不限于电、磁、光、电磁、红外线、或半导体的系统、装置或器件，或者任意以上的组合。可读存储介质的更具体的例子(非穷举的列表)包括：具有一个或多个导线的电连接、便携式盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。

计算机可读存储介质可以包括在基带中或者作为载波一部分传播的数据信号，其中承载了可读程序代码。这种传播的数据信号可以采用多种形式，包括但不限于电磁信号、光信号或上述的任意合适的组合。可读存储介质还可以是可读存储介质以外的任何可读介质，该可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。可读存储介质上包含的程序代码可以用任何适当的介质传输，包括但不限于无线、有线、光缆、RF等等，或者上述的任意合适的组合。

可以以一种或多种程序设计语言的任意组合来编写用于执行本发明操作的程序代码，程序设计语言包括面向对象的程序设计语言—诸如Java、C++等，还包括常规的过程式程序设计语言—诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算设备上执行、部分地在用户设备上执行、作为一个独立的软件包执行、部分在用户计算设备上部分在远程计算设备上执行、或者完全在远程计算设备或服务器上执行。在涉及远程计算设备的情形中，远程计算设备可以通过任意种类的网络，包括局域网(LAN)或广域网(WAN)，连接到用户计算设备，或者，可以连接到外部计算设备(例如利用因特网服务提供商来通过因特网连接)。

本发明的医疗数据整合的方法、系统、设备及存储介质本发明通过交互界面获取原数据表字段与目标数据表字段的匹配关系，并根据匹配关系生成SQL语句，在Spark SQL中执行所述SQL语句，通过HIVE调动原数据表的数据生成目标数据表，从而将不同的原数据表统一为目标数据表，将不同系统中获取的原数据表的临床数据转化整合为统一的数据排布形式，已提供后续进行数据分析。

以上内容是结合具体的优选实施方式对本发明所作的进一步详细说明，不能认定本发明的具体实施只局限于这些说明。对于本发明所属技术领域的普通技术人员来说，在不脱离本发明构思的前提下，还可以做出若干简单推演或替换，都应当视为属于本发明的保护范围。

Claims

1.一种医疗数据整合的方法，其特征在于，包括步骤：

从医院诊疗信息系统获取原数据表的多个原数据表字段；

提供一交互界面并在所述交互界面上提供多个所述原数据表字段与目标数据表的多个目标数据表字段的匹配关系的选择；

根据所述原数据表字段以及目标数据表字段的数据类型和数据格式，将数据类型以及数据格式匹配的原数据表字段以及目标数据表字段预设为存在对应关系，并在所述交互界面上提供所述原数据表字段与所述目标数据表字段的预对应关系；

接收用户对所述交互界面中控件的操作，以接收用户对原数据表字段与目标数据表字段之间预对应关系的更正；

根据所述更正确定原数据表字段与目标数据表字段的匹配关系，根据所述匹配关系生成SQL语句；

在Spark SQL中执行所述SQL语句，通过HIVE调动原数据表的数据生成目标数据表，包括：根据所述SQL语句中的分区信息，创建带有分区信息的所述目标数据表，所述分区信息包括按照患者字段和/或病历字段进行分区，所述目标数据表的多个目标数据表字段以患者字段以及病例字段为键。

2.如权利要求1所述的医疗数据整合的方法，其特征在于，在所述交互界面上提供多个所述原数据表字段与目标数据表的多个目标数据表字段的匹配关系的选择的步骤包括：在所述交互界面上提供多个可移动控件，多个固定控件以及多个与固定控件一一对应的第一区域，所述可移动控件标识原数据表字段，所述固定控件标识目标数据表字段，或者所述可移动控件标识目标数据表字段，所述固定控件标识原数据表字段。

3.如权利要求2所述的医疗数据整合的方法，其特征在于，接收用户选择的原数据表字段与目标数据表字段的匹配关系的步骤包括：

监测所述用户在所述交互界面上的触发动作；

根据所述触发动作读取所述第一区域中的可移动控件的原数据表字段的标识或目标数据表字段的标识，以获得原数据表字段以及目标数据表字段的匹配关系。

4.如权利要求1所述的医疗数据整合的方法，其特征在于，所述在所述交互界面上提供多个所述原数据表字段与目标数据表的多个目标数据表字段的匹配关系的选择包括：在所述交互界面上提供多个标识目标数据表字段的控件以及多个与目标数据表字段一一对应的选项控件，所述选项控件中包含多个所述原数据表字段，或者在所述交互界面上提供多个标识原数据表字段以及多个与原数据表字段一一对应的选项控件，所述选项控件中包含多个所述目标数据表字段。

5.如权利要求4所述的医疗数据整合的方法，其特征在于，接收用户选择的原数据表字段与目标数据表字段的匹配关系的步骤包括：

监测所述用户在所述交互界面上的触发动作；

根据所述触发动作确定用户选择的所述选项控件的原数据表字段或目标数据表字段，以获得原数据表字段以及目标数据表字段的匹配关系。

6.一种医疗数据整合的系统，其特征在于包括：

元数据模块，所述元数据模块用于从医院诊疗信息系统获取原数据表的多个原数据表字段；

SQL语句生成模块，所述SQL语句生成模块用于提供一交互界面并在所述交互界面上提供多个所述原数据表字段与目标数据表的多个目标数据表字段的匹配关系的选择，根据所述原数据表字段以及目标数据表字段的数据类型和数据格式，将数据类型以及数据格式匹配的原数据表字段以及目标数据表字段预设为存在对应关系，并在所述交互界面上提供所述原数据表字段与所述目标数据表字段的预对应关系，接收用户对所述交互界面中控件的操作，以用户对原数据表字段与目标数据表字段之间预对应关系的更正，根据所述更正确定原数据表字段与目标数据表字段的匹配关系，根据所述匹配关系生成SQL语句；

目标数据表生成模块，所述目标数据表生成模块用于在Spark SQL中执行所述SQL语句，通过HIVE调动原数据表的数据生成目标数据表，包括：根据所述SQL语句中的分区信息，创建带有分区信息的所述目标数据表，所述分区信息包括按照患者字段和/或病历字段进行分区，所述目标数据表的多个目标数据表字段以患者字段以及病例字段为键。

7.一种医疗数据整合的设备，其特征在于，包括：

处理器；

存储器，其中存储有所述处理器的可执行指令；

其中，所述处理器配置为经由执行所述可执行指令来执行权利要求1至5中任意一项所述医疗数据整合的方法的步骤。

8.一种计算机可读存储介质，用于存储程序，其特征在于，所述程序被执行时实现权利要求1至5中任意一项所述医疗数据整合的方法的步骤。