CN110120251A

CN110120251A - 基于Spark的多维健康数据的统计分析方法及系统

Info

Publication number: CN110120251A
Application number: CN201810121391.0A
Authority: CN
Inventors: 许勇
Original assignee: Beijing First Perspective Technology Co Ltd
Current assignee: Beijing First Perspective Technology Co Ltd
Priority date: 2018-02-07
Filing date: 2018-02-07
Publication date: 2019-08-13

Abstract

本发明提供一种基于Spark的多维健康数据的统计分析方法及系统，从待分析的数据文件中根据检索变量筛选出待分析的健康数据，在待分析的健康数据的数据量大于预设量时，通过Spark模块进行统计分析，接收并显示所述Spark模块反馈的统计分析结果。通过Spark模块对数据量大的健康数据进行统计分析具有计算速度更快、运行所需时间更少、计算结果更为精准的效果。

Description

基于Spark的多维健康数据的统计分析方法及系统

技术领域

本发明涉及多维医疗数据的统计分析技术领域，具体涉及一种基于Spark的多维健康数据的统计分析方法及系统。

背景技术

近年来医疗信息化发展迅速，而随着测序技术的普及，以基因、蛋白、代谢和微生物等为代表的生物信息数据已成为精准医学研究的基础，它们与临床、文献、人群队列、随访、药物、专利和医疗指南等数据共同构成了医学大数据，其具有海量、高增长、多维、时变、不完整、可信度不同、多源和异构等复杂特性。

而现有技术中对如此庞杂医疗数据进行统计分析时，仅靠统计学和SPSS、MATLAB等工具。这类统计分析技术适用于少量、单一维度情况下的数据统计分析，而在大量多维数据情况下，其明显暴露出效率低、准确性差的缺陷，因此传统的数据统计分析供给应用于医疗大数据中时性能还存在很大的改进空间。

发明内容

本发明要解决的技术问题是采用传统数据统计分析方法对医疗大数据进行处理已经无法适应其对速度和准确性方面的要求，进而提供一种基于Spark的多维健康数据的统计分析方法及系统。

基于上述问题，本发明提供一种基于Spark的多维健康数据的统计分析方法，包括如下步骤：

数据获取步骤：获取待分析的数据文件，接收预设的检索变量；

数据提取步骤：从所述待分析的数据文件中筛选出符合所述检索变量的待分析的健康数据；

统计分析步骤：若所述待分析的健康数据的数据量大于预设量，则将所述待分析的健康数据发送至Spark模块进行统计分析，并接收所述Spark模块反馈的统计分析结果；

结果显示步骤：显示所述统计分析结果。

优选地，上述的基于Spark的多维健康数据的统计分析方法中，在所述统计分析步骤中，还包括：若所述待分析的健康数据的数据量小于或等于所述预设量，则将所述待分析的健康数据发送至由Kubernets系统和TensorFlow系统组成的云计算模块进行统计分析，并接收所述云计算模块反馈的统计分析结果。

优选地，上述的基于Spark的多维健康数据的统计分析方法中，在所述数据获取步骤中：所述检索变量包括多个，不同检索变量用于从不同维度对所述待分析的数据文件进行筛选，得到多维的待分析的健康数据。

基于同一发明构思，本发明还提供一种基于Spark的多维健康数据的统计分析系统，包括基本处理模块和Spark模块，其中：

所述基本处理模块包括数据获取单元、数据提取单元、统计分析单元和结果显示单元，其中：

所述数据获取单元获取待分析的数据文件，接收预设的检索变量；

所述数据提取单元从所述待分析的数据文件中筛选出符合所述检索变量的待分析的健康数据；

所述统计分析单元在所述待分析的健康数据的数据量大于预设量时，将所述待分析的健康数据发送至Spark模块；

所述Spark模块，用于接收所述待分析的健康数据，对所述待分析的健康数据进行统计分析，并将统计分析结果发送至所述统计分析单元；

所述结果显示单元显示所述统计分析结果。

优选地，上述的基于Spark的多维健康数据的统计分析系统中，还包括由Kubernets系统和TensorFlow系统组成的云计算模块：

所述统计分析单元在所述待分析的健康数据的数据量小于或等于所述预设量时，将所述待分析的健康数据发送至所述云计算模块；

所述计算资源服务模块对所述待分析的健康数据进行统计分析后，将统计分析结果发送至所述统计分析单元。

优选地，上述的基于Spark的多维健康数据的统计分析系统中，所述数据获取单元接收的所述检索变量包括多个，不同检索变量用于从不同维度对所述待分析的数据文件进行筛选，得到多维的待分析的健康数据；

所述Spark模块，其包括多个处理单元，每一处理单元用于对一个维度的待分析的健康数据进行统计分析，且不同所述处理单元同步对多个维度的健康数据进行统计分析；每一所述处理单元将统计分析结果发送至所述统计分析单元。

优选地，上述的基于Spark的多维健康数据的统计分析系统中，每一所述处理单元采用多线程方式对所一个维度的待分析的健康数据进行统计分析。

优选地，上述的基于Spark的多维健康数据的统计分析系统中，所述基本处理模块配置有云计算调用接口，所述基本处理模块通过所述云计算调用接口与Kubernets系统和TensorFlow系统进行数据通信。

优选地，上述的基于Spark的多维健康数据的统计分析系统中，还包括资源提供模块：

所述资源提供模块包括GPU服务器，CPU服务器与虚拟服务器，所述资源提供模块与所述云计算模块实现数据通信，为所述云计算模块提供计算资源。

优选地，上述的基于Spark的多维健康数据的统计分析系统中，还包括数据存储模块：

所述数据存储模块包括Hadoop分布式文件系统，用于接收并存储所述统计分析单元输出的统计分析结果。

本发明提供的以上技术方案，与现有技术相比，至少具有如下有益效果：

（1）本发明提供的基于Spark的多维健康数据的统计分析方法及系统，从待分析的数据文件中根据检索变量筛选出待分析的健康数据，在待分析的健康数据的数据量大于预设量时，通过Spark模块进行统计分析，接收并显示所述Spark模块反馈的统计分析结果。通过Spark模块对数据量大的健康数据进行统计分析具有计算速度更快、运行所需时间更少、计算结果更为精准的效果。

（2）本发明提供的基于Spark的多维健康数据的统计分析方法及系统，在待分析的健康数据的数据量小于或等于所述预设量时，通过由Kubernets系统和TensorFlow系统组成的云计算模块进行统计分析，通过Kubernetes可以快速有效地响应需求，快速而有预期地部署和扩展应用，并且能够节省资源，优化硬件资源的使用；通过TensorFlow提供高层次的机器学习计算，并且具备更好的灵活性和可延展性。

（3）本发明提供的基于Spark的多维健康数据的统计分析方法及系统，其中的检索变量包括多个，不同检索变量用于从不同维度对所述待分析的数据文件进行筛选，得到多维的待分析的健康数据。Spark模块包括多个处理单元，不同处理单元同步对多个维度的健康数据进行统计分析，因此Spark模块提供的是一种分布式架构下的数据统计分析方法，能够实现多用户、多任务同时并行处理，按需分配计算资源，从而能够适用于多维度健康数据的统计分析并且依然能够保持较高的分析效率。

附图说明

图1为本发明一个实施例所述基于Spark的多维健康数据的统计分析方法的流程图；

图2为本发明一个实施例所述基于Spark的平台下采用多元线性回归的统计分析方法对健康数据进行分析的实验结果图；

图3为本发明一个实施例所述基于Stata平台下采用多元线性回归的统计分析方法对健康数据进行分析的实验结果图；

图4为本发明一个实施例所述基于Spark的多维健康数据的统计分析系统的原理框图。

具体实施方式

为了使本发明的上述目的、特征和优点能够更为明显易懂，下面结合附图对本发明的具体实施方式做详细的说明。在本发明的描述中，需要说明的是，术语“中心”、“上”、“下”、“左”、“右”、“竖直”、“水平”、“内”、“外”等指示的方位或位置关系为基于附图所示的方位或位置关系，仅是为了便于描述本发明的简化描述，而不是指示或暗示所指的装置或组件必须具有特定的方位、以特定的方位构造和操作，因此不能理解为对本发明的限制。此外，术语“第一”、“第二”、“第三”仅用于描述目的，而不能理解为指示或暗示相对重要性。其中，术语“第一位置”和“第二位置”为两个不同的位置。另外，除非另有明确的规定和限定，术语“安装”、“相连”、“连接”应做广义理解，例如，可以是固定连接，也可以是可拆卸连接，或一体地连接；可以是机械连接，也可以是电连接；可以是直接相连，也可以通过中间媒介间接相连，可以是两个组件内部的连通。对于本领域的普通技术人员而言，可以具体情况理解上述术语在本发明中的具体含义。

实施例1

本实施例提供一种基于Spark的多维健康数据的统计分析方法，如图1所示，包括如下步骤：

S101：数据获取步骤：获取待分析的数据文件，接收预设的检索变量；其中，待分析的数据文件可以为记录有健康数据的电子档文件，所述检索变量可以由用户自行设置，例如可以选择性别、年龄、血样中的某一参数指标、代谢物中的某一参数指标等。显然，检索变量越少，其最终筛选出的数据量越大，而检索变量越多其所需要加进行的统计分析工作量也就越多。本实施例中的方案，能够适用于检索量为多个的情况下，也即能够对待分析的数据文件进行多维度的统计分析。

S102：数据提取步骤：从所述待分析的数据文件中筛选出符合所述检索变量的待分析的健康数据；根据所述检索变量，从所述数据文件中提取以检索变量为关键词的字段以及该字段对应的数据作为待分析的健康数据。例如，需要筛选年龄段为30-35岁、性别为女、蛋氨酸含量的相关数据，则检索变量即可设定为：Age：30-35；male；met。

S103：统计分析步骤：若所述待分析的健康数据的数据量大于预设量，则执行步骤S104；否则执行步骤S105；其中预设量可以为预先设定的一个标定值，也可以是根据统计分析运算的实际环境进行自动推算。其参考单位可以根据数据量的大小、数据量所占用的存储空间的大小、数据量所需要的统计分析时间等。例如，以数据量所需要的统计分析时间为例，当得到待分析的健康数据之后，能够预估采用传统统计分析方式对其进行统计分析所需要的时间，预先将可接受的时间上限值保存，如果预估到的时间超过该可接受的时间上限值，则认为待分析的健康数据的数据量大于预设量。

S104：将所述待分析的健康数据发送至Spark模块进行统计分析，并接收所述Spark模块反馈的统计分析结果。

S105：将所述待分析的健康数据发送至由Kubernets系统和TensorFlow系统组成的云计算模块进行统计分析，并接收所述云计算模块反馈的统计分析结果。

S106：结果显示步骤：显示所述统计分析结果。所述统计分析结果包括要统计分析的检索变量的字段以及该字段对应的数据。

本实施例提供的上述方案，在待分析的健康数据的数据量大于预设量时，通过Spark模块进行统计分析。通过Spark模块对数据量大的健康数据进行统计分析具有计算速度更快、运行所需时间更少、计算结果更为精准的效果。图2和图3能够直观地展示出本实施例上述方案所带来的效果。

图2和图3展示的是基于同一待分析的数据文件（待分析的数据文件具有数据量大的特点），变量均为met、is_female、age_at_study_date、_conf的统计分析结果。其中图2表示的是在Spark平台下采用基于Spark的多维健康数据的统计分析方法得到的统计分析结果。图3表示的是在Stata平台下采用传统统计分析方法得到的统计分析结果。需要说明的是，无论是基于哪一种平台，对于数据进行统计分析时，均可以根据待分析的数据的自身特性选择最适当的统计学方法进行统计分析，例如多元线性回归方法、聚类分析方法、典型相关分析方法、因子分析方法等。在医院研究领域，已经有较为成熟的研究成果提供不同实际情况下应选择何种统计分析方法。由于这一点并非本发明的发明点所在，因此不再详细叙述。

图2和图3所给出的结果为采用多元线性回归方法对筛选出的数据进行统计分析的分析结果。对比图2和图3可以得到，采用本实施例中提供基于Spark平台下的统计分析结果和基于Stata平台下的统计分析结果相同，但基于Spark平台下的统计分析结果更为精确，以met的结果为例，基于Spark平台下的统计分析结果为：0.022485666890689787，精确至0.000000000000000001；而基于Stata平台下的统计分析结果为0.0224857，精确至0.0000001，显然精度获得了非常大的提高。另外，采用Stata平台的计算时间是10秒，而利用Spark平台的计算时间为6秒，处理时间上也得到了大幅度降低。

以上方案中，当待分析的健康数据的数据量小于或等于所述预设量时，可以采用传统的统计分析方法对其进行统计分析，例如SPSS、MATLAB等。如图1所示，本实施例中通过步骤S105的方式执行，通过Kubernetes可以快速有效地响应需求，快速而有预期地部署和扩展应用，并且能够节省资源，优化硬件资源的使用；通过TensorFlow提供高层次的机器学习计算，并且具备更好的灵活性和可延展性。

实施例2

本实施例提供一种基于Spark的多维健康数据的统计分析系统，如图4所示，包括基本处理模块400和Spark模块500。其中，所述基本处理模块400包括数据获取单元401、数据提取单元402、统计分析单元403和结果显示单元404。

所述数据获取单元401获取待分析的数据文件，接收预设的检索变量；其中，待分析的数据文件可以为记录有健康数据的电子档文件，所述检索变量可以由用户自行设置，例如可以选择性别、年龄、血样中的某一参数指标、代谢物中的某一参数指标等。显然，检索变量越少，其最终筛选出的数据量越大，而检索变量越多其所需要加进行的统计分析工作量也就越多。本实施例中的方案，能够适用于检索量为多个的情况下，也即能够对待分析的数据文件进行多维度的统计分析。

所述数据提取单元402从所述待分析的数据文件中筛选出符合所述检索变量的待分析的健康数据；根据所述检索变量，从所述数据文件中提取以检索变量为关键词的字段以及该字段对应的数据作为待分析的健康数据。例如，需要筛选年龄段为30-35岁、性别为女、蛋氨酸含量的相关数据，则检索变量即可设定为：Age：30-35；male；met。

所述统计分析单元403在所述待分析的健康数据的数据量大于预设量时，将所述待分析的健康数据发送至Spark模块；预设量可以为预先设定的一个标定值，也可以是根据统计分析运算的实际环境进行自动推算。其参考单位可以根据数据量的大小、数据量所占用的存储空间的大小、数据量所需要的统计分析时间等。例如，以数据量所需要的统计分析时间为例，当得到待分析的健康数据之后，能够预估采用传统统计分析方式对其进行统计分析所需要的时间，预先将可接受的时间上限值保存，如果预估到的时间超过该可接受的时间上限值，则认为待分析的健康数据的数据量大于预设量。

所述Spark模块500，用于接收所述待分析的健康数据，对所述待分析的健康数据进行统计分析，并将统计分析结果发送至所述统计分析单元；

所述结果显示单元404显示所述统计分析结果。所述统计分析结果包括要统计分析的检索变量的字段以及该字段对应的数据。

本实施例提供的上述方案，在待分析的健康数据的数据量大于预设量时，通过Spark模块进行统计分析。通过Spark模块对数据量大的健康数据进行统计分析具有计算速度更快、运行所需时间更少、计算结果更为精准的效果。

以上方案中，当待分析的健康数据的数据量小于或等于所述预设量时，可以采用传统的统计分析方法对其进行统计分析，例如SPSS、MATLAB等。本实施例中通过云计算模块600实现。如图4，其还还包括由Kubernets系统601和TensorFlow系统602组成的云计算模块600：所述统计分析单元403在所述待分析的健康数据的数据量小于或等于所述预设量时，将所述待分析的健康数据发送至所述云计算模块600；所述计算资源服务模块600对所述待分析的健康数据进行统计分析后，将统计分析结果发送至所述统计分析单元403。通过Kubernetes可以快速有效地响应需求，快速而有预期地部署和扩展应用，并且能够节省资源，优化硬件资源的使用；通过TensorFlow提供高层次的机器学习计算，并且具备更好的灵活性和可延展性。

以上方案中，所述数据获取单元401接收的所述检索变量包括多个，不同检索变量用于从不同维度对所述待分析的数据文件进行筛选，得到多维的待分析的健康数据；所述Spark模块500，其包括多个处理单元，每一处理单元用于对一个维度的待分析的健康数据进行统计分析，且不同所述处理单元同步对多个维度的健康数据进行统计分析；每一所述处理单元将统计分析结果发送至所述统计分析单元。其中，不同的处理单元彼此之间相互独立，每一处理单元中包括自己的处理器和存储器，因此不同的处理单元之间可以同时对不同的数据进行分析处理，彼此不会相互影响。而且，为了更进一步提高数据处理的效率，每一所述处理单元采用多线程方式对所一个维度的待分析的健康数据进行统计分析。也就是说Spark模块500提供的是一种分布式架构下的数据统计分析方法，能够实现多用户、多任务同时并行处理，按需分配计算资源，从而能够适用于多维度健康数据的统计分析并且依然能够保持较高的分析效率。

结合图4可知基本处理模块400能够直接与Kubernets系统601和TensorFlow系统602进行数据通信。优选地，所述基本处理模块配置有云计算调用接口405，所述基本处理模块400通过所述云计算调用接口405与Kubernets系统601和TensorFlow系统602进行数据通信。另外，以上方案中还包括资源提供模块700，所述资源提供模块700包括GPU服务器701，CPU服务器702与虚拟服务器703，所述资源提供模块700与所述云计算模块600实现数据通信，为所述云计算模块600提供计算资源。

优选地，以上方案中还包括数据存储模块800，所述数据存储模块800包括Hadoop分布式文件系统，用于接收并存储所述统计分析单元403输出的统计分析结果。Hadoop分布式文件系统是一个高度容错性的系统，对于硬件的要求很低，其能提供高吞吐量的数据访问，非常适合大规模数据、超大规模数据上的应用。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件。基于这样的理解，上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在计算机可读存储介质中，如ROM/RAM、磁碟、光盘等，包括若干指令用以使得一台计算机设备（可以是个人计算机，服务器，或者网络设备等）执行各个实施例或者实施例的某些部分所述的方法。

最后应说明的是：以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims

1.一种基于Spark的多维健康数据的统计分析方法，其特征在于，包括如下步骤：

结果显示步骤：显示所述统计分析结果。

2.根据权利要求1所述的基于Spark的多维健康数据的统计分析方法，其特征在于，在所述统计分析步骤中，还包括：

若所述待分析的健康数据的数据量小于或等于所述预设量，则将所述待分析的健康数据发送至由Kubernets系统和TensorFlow系统组成的云计算模块进行统计分析，并接收所述云计算模块反馈的统计分析结果。

3.根据权利要求1或2所述的基于Spark的多维健康数据的统计分析方法，其特征在于：

在所述数据获取步骤中：所述检索变量包括多个，不同检索变量用于从不同维度对所述待分析的数据文件进行筛选，得到多维的待分析的健康数据。

4.一种基于Spark的多维健康数据的统计分析系统，其特征在于，包括基本处理模块和Spark模块，其中：

所述结果显示单元显示所述统计分析结果。

5.根据权利要求4所述的基于Spark的多维健康数据的统计分析系统，其特征在于，还包括由Kubernets系统和TensorFlow系统组成的云计算模块：

6.根据权利要求4或5所述的基于Spark的多维健康数据的统计分析系统，其特征在于：

所述数据获取单元接收的所述检索变量包括多个，不同检索变量用于从不同维度对所述待分析的数据文件进行筛选，得到多维的待分析的健康数据；

7.根据权利要求6所述的基于Spark的多维健康数据的统计分析系统，其特征在于：

每一所述处理单元采用多线程方式对所一个维度的待分析的健康数据进行统计分析。

8.根据权利要求4-7任一项所述的基于Spark的多维健康数据的统计分析系统，其特征在于：

所述基本处理模块配置有云计算调用接口，所述基本处理模块通过所述云计算调用接口与Kubernets系统和TensorFlow系统进行数据通信。

9.根据权利要求8所述的基于Spark的多维健康数据的统计分析系统，其特征在于，还包括资源提供模块：

10.根据权利要求9所述的基于Spark的多维健康数据的统计分析系统，其特征在于，还包括数据存储模块：