CN107516022A

CN107516022A - 基于离散关联决策树的表型‑基因型的数据处理方法和系统

Info

Publication number: CN107516022A
Application number: CN201610430453.7A
Authority: CN
Inventors: 曹诗琴
Original assignee: Beijing Guangda Longtai Technology Co Ltd
Current assignee: Beijing Guangda Longtai Technology Co Ltd
Priority date: 2016-06-17
Filing date: 2016-06-17
Publication date: 2017-12-26

Abstract

一种基于离散关联决策树的表型‑基因型的数据处理方法和系统，处理方法包括如下步骤：采集表型数据和基因型数据；将表型数据和基因型数据进行标准化处理，得到标准化数据；将标准化数据进行检测和离散处理，得到离散数据；采用离散关联决策树算法对离散数据进行处理，得到目标数据；将目标数据进行可视化展示。上述基于离散关联决策树的表型‑基因型的数据处理方法，通过将采集的表型数据和基因型数据进行离散处理并得到离散数据后，再采用离散关联决策树算法对离散数据进行处理，用于得到能够进行可视化展示的目标数据，这样，能够克服传统处理方法中由于大样本数据单机内存的上限引发的问题，进而提高了数据处理分析效率。

Description

基于离散关联决策树的表型-基因型的数据处理方法和系统

技术领域

本发明涉及表型-基因型的数据处理技术领域，特别是涉及一种基于离散关联决策树的表型-基因型的数据处理方法和系统。

背景技术

目前，随着基因测序价格越来越低，越来越多的基因数据将积累起来，基因技术对健康的影响，正演变成计算和分析的能力问题。

随着基因测序技术的革新、生物医学分析技术的进步以及大数据分析工具的出现，这些正成为推动精准医疗的核心力量。而如何及时获取、结构化整合、快速分析这些数据，并与临床数据相结合，正成为当前首要解决的问题。

尤其是一些采用单机形式进行工作分析工具，其通常选取小样本数据进行处理分析，较难突破大样本数据单机内存的上限，即数据处理分析效率较低。

举一个例子对上述问题进行说明，Plink是一个开放且免费的全基因组关联分析工具，其分析的基础是基因型和表型数据，并进行显著性水平调解，从而选择出与疾病关联的治病基因。通过整合gplink和Haploview，即通过link-gPLINK-Haploview，使得分析结果变得可视化。然而，导致Plink无法突破大样本单机内存的上限，即数据处理分析效率较低，无法满足大数据大队列研究。

发明内容

基于此，有必要提供一种处理分析效率较高的基于离散关联决策树的表型-基因型的数据处理方法和系统。

一种基于离散关联决策树的表型-基因型的数据处理方法，包括如下步骤：

步骤S10，采集表型数据和基因型数据；

步骤S20，将所述表型数据和所述基因型数据进行标准化处理，得到标准化数据；

步骤S30，将所述标准化数据进行检测和离散处理，得到离散数据；

步骤S40，采用离散关联决策树算法对所述离散数据进行处理，得到目标数据；

步骤S50，将所述目标数据进行可视化展示。

在其中一个实施例中，在步骤S10中，采用接口传输方式、文件交换方式、数据上传方式和/或基因芯片方式采集所述表型数据和所述基因型数据。

在其中一个实施例中，在步骤S10中，还对采集得到的所述表型数据和所述基因型数据进行存储。

在其中一个实施例中，在步骤S20中，所述标准化处理包括对所述表型数据和所述基因型数据进行清洗处理、缺失值检测处理、缺失值补充处理、单位换算处理、与国家标准统一化处理以及与行业标准化统一处理。

在其中一个实施例中，在步骤S30中，采用离群点检测方式、聚类方式和/或自动分类方式对所述标准化数据进行检测和离散处理。

在其中一个实施例中，在步骤S30之前以及步骤S40之后，还包括如下步骤：

采用稀疏矩阵拆分方式和/或块列矩阵拆分方式将所述离散数据拆分到Hadoop平台，并以HDFS的文件形式进行存储；采用Spark平台对存储文件进行计算。

在其中一个实施例中，在步骤S40中，所述目标数据至少包括具有高风险的基因SNP、保护因素的基因SNP和表型指标。

在其中一个实施例中，在步骤S50中，采用基因关联图、交互作用影响图、基因通路图、位点人种分布图、力导向图、树状决策图、类目散点图、趋势图和/或直方图将所述目标数据进行可视化展示。

一种基于离散关联决策树的表型-基因型的数据处理系统，包括：

数据采集模块，用于采集表型数据和基因型数据；

数据标准化模块，用于将所述表型数据和所述基因型数据进行标准化处理，得到标准化数据；

数据离散模块，用于将所述标准化数据进行检测和离散处理，得到离散数据；

数据处理模块，用于采用离散关联决策树算法对所述离散数据进行处理，得到目标数据；

数据可视化模块，用于将所述目标数据进行可视化展示。

在其中一个实施例中，还包括数据存储模块，用于存储所述数据采集模块采集的所述表型数据和所述基因型数据。

上述基于离散关联决策树的表型-基因型的数据处理方法，通过将采集的表型数据和基因型数据进行离散处理并得到离散数据后，再采用所述离散关联决策树算法对所述离散数据进行处理，用于得到能够进行可视化展示的目标数据，这样，能够克服传统处理方法中由于大样本数据单机内存的上限引发的问题，进而提高了数据处理分析效率。

附图说明

图1为本发明一实施方式的基于离散关联决策树的表型-基因型的数据处理方法的步骤流程图；

图2为本发明一实施方式的基于离散关联决策树的表型-基因型的数据处理系统的功能模块图。

具体实施方式

为使本发明的上述目的、特征和优点能够更加明显易懂，下面结合附图对本发明的具体实施方式做详细的说明。在下面的描述中阐述了很多具体细节以便于充分理解本发明。但是本发明能够以很多不同于在此描述的其它方式来实施，本领域技术人员可以在不违背本发明内涵的情况下做类似改进，因此本发明不受下面公开的具体实施的限制。

如图1所示，本发明一实施方式的基于离散关联决策树的表型-基因型的数据处理方法包括如下步骤：

步骤S10，采集表型数据和基因型数据。

通过步骤S10，用于采集患者的表型数据和基因型数据，如，用于采集大样本的海量复杂“表型-基因型”数据，为后续的数据处理提供原始数据。

例如，在步骤S10中，采用接口传输方式、文件交换方式、数据上传方式和/或基因芯片方式采集所述表型数据和所述基因型数据；又如，在步骤S10中，至少采用接口传输方式、文件交换方式、数据上传方式和/或基因芯片方式采集所述表型数据和所述基因型数据；又如，在步骤S10中，数据采集模块通过接口、文件交换、数据上传和基因芯片等多种手段收集患者表型数据和基因型数据，其中，基因测序包括芯片和高通量等多种数据。

例如，在步骤S10中，还对采集得到的所述表型数据和所述基因型数据进行存储。

步骤S20，将所述表型数据和所述基因型数据进行标准化处理，得到标准化数据。

通过步骤S20，能够对所述表型数据和所述基因型数据进行标准化处理，用于得到标准化数据，为后续的数据处理提供标准化的数据，使得后续的数据处理能够顺利进行。

例如，在步骤S20中，所述标准化处理包括对所述表型数据和所述基因型数据进行清洗处理、缺失值检测处理、缺失值补充处理、单位换算处理、与国家标准统一化处理和与行业标准化统一处理；又如，数据标准化模块用于进行数据初步处理和对各类数据进行标准化处理加工；又如，数据标准化模块用于对数据进行清洗、缺失值的检测与补充、单位的换算以及与国家标准和行业标准统一。

步骤S30，将所述标准化数据进行检测和离散处理，得到离散数据。

通过步骤S30，能够对所述标准化数据进行检测和离散处理，用于得到离散数据，而通过对大样本海量复杂的“表型-基因型”数据，如，标准化的“表型-基因型”数据，进行离散处理，能够起到化繁为简，逐一处理的效果，是克服传统处理方法中由于大样本数据单机内存的上限引发的问题的关键步骤之一。

例如，在步骤S30中，采用离群点检测方式、聚类方式和/或自动分类方式对所述标准化数据进行检测和离散处理；又如，根据国家标准、行业标准或其他分类标准对所述标准化数据进行检测和离散；又如，运用计算机的离群点检测、聚类和自动分类等多种手段进行检测和离散；又如，按照自定义标准进行离散。

例如，在步骤S30之前和/或步骤S40之后，还包括如下步骤：采用稀疏矩阵拆分方式和/或块列矩阵拆分方式将所述离散数据拆分到Hadoop平台，并以HDFS的文件形式进行存储；采用Spark平台对存储文件进行计算，这样，可以进一步加强离散效果，提高处理分析效率。又如，在步骤S30之前，还包括如下步骤：采用稀疏矩阵拆分方式和/或块列矩阵拆分方式将所述离散数据拆分到Hadoop平台，并以HDFS的文件形式进行存储；采用Spark平台对存储文件进行计算。又如，步骤S40之后，还包括如下步骤：采用稀疏矩阵拆分方式和/或块列矩阵拆分方式将所述离散数据拆分到Hadoop平台，并以HDFS的文件形式进行存储；采用Spark平台对存储文件进行计算。

步骤S40，采用离散关联决策树算法对所述离散数据进行处理，得到目标数据。

通过步骤S40的离散关联决策树算法可以分析或挖掘高风险基因SNP、保护因素的基因SNP和表型指标，例如，所述离散关联决策树算法支持运用行业工具Plink、SPSS和R等，还支持典型机器学习算法如随机森林、多元回归、神经网络等，还支持单机Hadoop和Spark的大数据架构等。

在对上述标准化数据进行检测和离散处理并得到离散数据后，再采用所述离散关联决策树算法对所述离散数据进行处理，用于得到能够进行可视化展示的目标数据，这样，可以克服传统处理方法中由于大样本数据单机内存的上限引发的问题，进而提高了数据处理分析效率。

需要说明的是，所述离散关联决策树算法，即基于面向海量复杂“表型-基因型”数据智能处理的离散关联决策树算法，是一个决策树过程，其每一步计算均将自上一步得到的病患集合一分为二，为了进一步解释所述离散关联决策树算法，需要对一些数据、信息或处理方式等进行定义，如，定义为数学符号、字母或数字等，例如，所述离散关联决策树算法包括如下步骤：

步骤S41：P₀定义为所有数据集中病人组成的集合；T₀定义为所有数据集中出现的基因型组成的集合，其上有一个全序结构定义为在第i步将病患集一分为二时，其中具有更高不良反应风险的那个子集；P_i定义为第i步得到的病患集合；T_i定义为P₀的子集，为直到第i步时还没有被用来构造P_j，1≤j＜i的基因型；α定义为置信概率，其中，α＝0.01；

步骤S42：下面描述如何从P_i-1出发构造P_i，所有以下讨论均发生在集合P_i-1和T_i-1中，其中，T_i-1上带有继承自T₀的全序关系其中，步骤S42为第i步的步骤S42；

若则停止；

否则对于每一个进行如下计算；

第j小步：考虑T_i-1中第j个基因型引入以下定义符号：

m：子集中病患人数；

m1：子集中Y＝1的病患人数，也就是具有基因型并有严重不良反应的病患人数；

n：子集中病患人数；

n1：子集中Y＝1的病患人数，也就是具有基因型并有严重不良反应的病患人数；

m*n≠0终止第j小步，考虑T_i-1中下一个，即第j+1个基因型，若j为T_i-1中最后一个，则执行步骤S43，如执行第i步的步骤S43；

否则m*n≠0，计算下列表达式，所述表达式类似于OR值：

之后前往第j+1小步，其中，考虑到T_i-1中第j+1个基因型，若第j基因型已经是最后一个基因型，则执行步骤S43，如执行第i步的步骤S43；

步骤S43：若在第i步的步骤S42中没有计算任何也就是对于所有的都由m*n＝0，则停止；

否则，在寻找一个具有最大r，并且满足如下条件的基因型；

具体操作过程如下：首先寻找具有最大r的计算其B，若满足条件就取它，不满足条件就寻找具有较大r的基因型并检查其B，以此类推；若两个基因型具有相同的r，取具有较小B的那个基因型；若两个基因型同时具有相同的r和B，就任取一个；重复上述过程直到找到满足条件的基因型，或者遍历T_i-1中所有基因型之后找不到满足B＜α条件的基因型；

若所有基因型都不满足B＜α，则停止；定义为P_i：P_i-1的子集的子集以及之后前往第i+1步；

基于此，构造一个递降集合列

以及一个P₀的子集列

子集被称为“第i个高危子集”。的风险被定义为：

其中，尤其关注初始风险R(P₀)和剩余风险R(P_k)

通过关注初始风险R(P₀)和剩余风险R(P_k)，能够筛选出具有高风险基因SNP、具有保护因素的基因SNP和表型指标等目标数据，为后续的可视化展示步骤提供数据。例如，初始风险R(P₀)和剩余风险R(P_k)为目标集合，如，通过关注初始风险R(P₀)和剩余风险R(P_k)得到高风险的基因SNP、保护因素的基因SNP和表型指标。

步骤S50，将所述目标数据进行可视化展示。

通过将所述目标数据进行可视化展示，能够较好地给行业分析人员提供更直观和精确的分析依据，从而找到某一疾病所对应的基因变异位点等信息，对疾病的早期治疗和防治具有很好的作用。

例如，在步骤S40中，所述目标数据至少包括具有高风险的基因SNP、保护因素的基因SNP和表型指标。

例如，在步骤S50中，采用基因关联图、交互作用影响图、基因通路图、位点人种分布图、力导向图、树状决策图、类目散点图、趋势图和/或直方图将所述目标数据进行可视化展示；又如，运用基因关联图、交互作用影响图、基因通路图、位点人种分布图、力导向图、树状决策图、类目散点图、趋势图和直方图等多种可视化展示方式用于展示原始数据与分析结果。

首先，上述基于离散关联决策树的表型-基因型的数据处理方法能够支持大队列并行计算，并利用稀疏矩阵、块列矩阵将数据拆分到Hadoop集群存储中，运用Spark进行并行计算，能更好地克服传统处理方法中由于大样本数据单机内存的上限引发的问题，进而提高了数据处理分析效率。

其次，当样本数量较小时，采用上述基于离散关联决策树的表型-基因型的数据处理方法能够对基因型数据+表型数据，即基因型数据-表型数据进行分析，判断基因型与表型的影响力。

最后，采用上述基于离散关联决策树的表型-基因型的数据处理方法中的所述离散关联决策树算法，能够有效地判断次要影响因素和混杂因素。

为了进一步对上述基于离散关联决策树的表型-基因型的数据处理方法进行解释说明，以加深对本发明构思的理解。

又一个例子是，一种基于离散关联决策树的表型-基因型的数据处理系统，其采用上述任一实施例所述的基于离散关联决策树的表型-基因型的数据处理方法。

如图2所示，本发明一实施方式的基于离散关联决策树的表型-基因型的处理系统10，包括数据采集模块100、数据标准化模块200、数据离散模块300、数据处理模块400以及数据可视化模块500。

数据采集模块100，用于采集表型数据和基因型数据。

例如，基于离散关联决策树的表型-基因型的数据处理系统还包括数据存储模块，用于存储所述数据采集模块采集的所述表型数据和所述基因型数据，用于给数据标准化模块200提供所述表型数据和所述基因型数据。

数据标准化模块200，用于将所述表型数据和所述基因型数据进行标准化处理，得到标准化数据300。

数据离散模块400，用于将所述标准化数据进行检测和离散处理，得到离散数据。例如，采用Plink平台执行数据离散关联模块400执行的操作。

数据处理模块500，用于采用离散关联决策树算法对所述离散数据进行处理，得到目标数据。

数据可视化模块，用于将所述目标数据进行可视化展示。

下文将给出一具体实施例用于进一步说明上述基于离散关联决策树的表型-基因型的数据处理方法。例如具体实施例如下：

以儿童结核病肝损伤影响因素为例进行说明，其中，数据来源为从某医院获得的240例的儿童结核病患者文件。

如图3所示，一实施方式的基于离散关联决策树的表型-基因型的数据处理方法包括如下步骤：

首先，将患者文件导入数据采集模块，然后按照国家标准将患者血氧浓度分为高中低，将患者年龄按照0岁～2.5岁，2.5岁～5岁，5岁～7岁三个区间进行离散，完成上述数据处理后将数据存入HDFS中，之后运用基于面向海量复杂“表型-基因型”数据智能处理的离散关联决策树算法，即离散关联决策树算法对处理后的表型数据和基因数据进行关联分析，可视化展示后，分析得出20个基因位点(NAT2等)与儿童结核病肝损伤高度相关。

又一个例子是，一种基于离散关联决策树的表型-基因型的数据处理系统包括：包括：数据采集模块、数据标准化模块、数据离散模块、数据的基因型-表型关联分析模块以及数据可视化模块组成；数据采集模块通过接口、文件交换、数据上传、基因芯片等多种手段收集患者表型数据和基因数据；数据采集存储后，在数据标准化模块进行数据初步对各类数据进行标准化处理加工；之后在数据离散模块根据国家标准或其他分类标准进行检测和离散；而后在数据基因型-表型关联分析模块运用基于面向海量复杂“表型-基因型”数据智能处理的离散关联决策树算法挖掘高风险基因SNP、保护因素的基因SNP和表型指标；最后在数据可视化模块运用基因关联图、交互作用影响图、基因通路图、位点人种分布图、力导向图、树状决策图、类目散点图、趋势图、直方图等多种手段展示原始数据与分析结果。

又一个例子是，一种基于离散关联决策树的表型-基因型的数据处理系统包括：基因型和表型数据采集模块，用于支持通过接口、文件交换、数据上传等多种手段收集患者表型数据，基因测序包括芯片和高通量等多种数据；数据标准化模块，用于支持对数据进行清洗、缺失值的检测与补充、单位的换算以及与国家标准和行业标准统一；数据的离散模块，用于支持运用按照国家和行业标准进行检测和离散；支持运用计算机的离群点检测、聚类、自动分类等多种手段进行检测和离散，支持按照自定义标准进行离散；数据基因型-表型关联分析模块，用于支持运用基于面向海量复杂“表型-基因型”数据智能处理的离散关联决策树算法进行基因型-表型关联分析，挖掘高风险和保护因素的基因SNP和其他表型指标，支持运用行业工具Plink，SPSS、R等；支持典型机器学习算法如随机森林、多元回归、神经网络等；支持单机Hadoop、Spark的大数据架构；数据可视化模块，用于支持运用基因关联图、交互作用影响图、基因通路图、位点人种分布图、力导向图、树状决策图、类目散点图、趋势图、直方图等多种手段展示原始数据与分析结果。

以上所述实施例仅表达了本发明的几种实施方式，其描述较为具体和详细，但并不能因此而理解为对本发明专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本发明构思的前提下，还可以做出若干变形和改进，这些都属于本发明的保护范围。因此，本发明专利的保护范围应以所附权利要求为准。

Claims

1.一种基于离散关联决策树的表型-基因型的数据处理方法，其特征在于，包括如下步骤：

步骤S10，采集表型数据和基因型数据；

步骤S50，将所述目标数据进行可视化展示。

2.根据权利要求1所述的基于离散关联决策树的表型-基因型的数据处理方法，其特征在于，在步骤S10中，采用接口传输方式、文件交换方式、数据上传方式和/或基因芯片方式采集所述表型数据和所述基因型数据。

3.根据权利要求1所述的基于离散关联决策树的表型-基因型的数据处理方法，其特征在于，在步骤S10中，还对采集得到的所述表型数据和所述基因型数据进行存储。

4.根据权利要求1所述的基于离散关联决策树的表型-基因型的数据处理方法，其特征在于，在步骤S20中，所述标准化处理包括对所述表型数据和所述基因型数据进行清洗处理、缺失值检测处理、缺失值补充处理、单位换算处理、与国家标准统一化处理以及与行业标准化统一处理。

5.根据权利要求1所述的基于离散关联决策树的表型-基因型的数据处理方法，其特征在于，在步骤S30中，采用离群点检测方式、聚类方式和/或自动分类方式对所述标准化数据进行检测和离散处理。

6.根据权利要求1所述的基于离散关联决策树的表型-基因型的数据处理方法，其特征在于，在步骤S30之前以及步骤S40之后，还包括如下在步骤：

7.根据权利要求1所述的基于离散关联决策树的表型-基因型的数据处理方法，其特征在于，在步骤S40中，所述目标数据至少包括具有高风险的基因SNP、保护因素的基因SNP和表型指标。

8.根据权利要求1所述的基于离散关联决策树的表型-基因型的数据处理方法，其特征在于，在步骤S50中，采用基因关联图、交互作用影响图、基因通路图、位点人种分布图、力导向图、树状决策图、类目散点图、趋势图和/或直方图将所述目标数据进行可视化展示。

9.一种基于离散关联决策树的表型-基因型的数据处理系统，其特征在于，包括：

数据采集模块，用于采集表型数据和基因型数据；

数据可视化模块，用于将所述目标数据进行可视化展示。

10.根据权利要求9所述的基于离散关联决策树的表型-基因型的数据处理系统，其特征在于，还包括数据存储模块，用于存储所述数据采集模块采集的所述表型数据和所述基因型数据。