CN107516022A - 基于离散关联决策树的表型‑基因型的数据处理方法和系统 - Google Patents

基于离散关联决策树的表型‑基因型的数据处理方法和系统 Download PDF

Info

Publication number
CN107516022A
CN107516022A CN201610430453.7A CN201610430453A CN107516022A CN 107516022 A CN107516022 A CN 107516022A CN 201610430453 A CN201610430453 A CN 201610430453A CN 107516022 A CN107516022 A CN 107516022A
Authority
CN
China
Prior art keywords
data
discrete
genotype
decision tree
phenotype
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201610430453.7A
Other languages
English (en)
Inventor
曹诗琴
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Guangda Longtai Technology Co Ltd
Original Assignee
Beijing Guangda Longtai Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Guangda Longtai Technology Co Ltd filed Critical Beijing Guangda Longtai Technology Co Ltd
Priority to CN201610430453.7A priority Critical patent/CN107516022A/zh
Publication of CN107516022A publication Critical patent/CN107516022A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B45/00ICT specially adapted for bioinformatics-related data visualisation, e.g. displaying of maps or networks
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B40/00ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B50/00ICT programming tools or database systems specially adapted for bioinformatics

Abstract

一种基于离散关联决策树的表型‑基因型的数据处理方法和系统,处理方法包括如下步骤:采集表型数据和基因型数据;将表型数据和基因型数据进行标准化处理,得到标准化数据;将标准化数据进行检测和离散处理,得到离散数据;采用离散关联决策树算法对离散数据进行处理,得到目标数据;将目标数据进行可视化展示。上述基于离散关联决策树的表型‑基因型的数据处理方法,通过将采集的表型数据和基因型数据进行离散处理并得到离散数据后,再采用离散关联决策树算法对离散数据进行处理,用于得到能够进行可视化展示的目标数据,这样,能够克服传统处理方法中由于大样本数据单机内存的上限引发的问题,进而提高了数据处理分析效率。

Description

基于离散关联决策树的表型-基因型的数据处理方法和系统
技术领域
本发明涉及表型-基因型的数据处理技术领域,特别是涉及一种基于离散关联决策树的表型-基因型的数据处理方法和系统。
背景技术
目前,随着基因测序价格越来越低,越来越多的基因数据将积累起来,基因技术对健康的影响,正演变成计算和分析的能力问题。
随着基因测序技术的革新、生物医学分析技术的进步以及大数据分析工具的出现,这些正成为推动精准医疗的核心力量。而如何及时获取、结构化整合、快速分析这些数据,并与临床数据相结合,正成为当前首要解决的问题。
尤其是一些采用单机形式进行工作分析工具,其通常选取小样本数据进行处理分析,较难突破大样本数据单机内存的上限,即数据处理分析效率较低。
举一个例子对上述问题进行说明,Plink是一个开放且免费的全基因组关联分析工具,其分析的基础是基因型和表型数据,并进行显著性水平调解,从而选择出与疾病关联的治病基因。通过整合gplink和Haploview,即通过link-gPLINK-Haploview,使得分析结果变得可视化。然而,导致Plink无法突破大样本单机内存的上限,即数据处理分析效率较低,无法满足大数据大队列研究。
发明内容
基于此,有必要提供一种处理分析效率较高的基于离散关联决策树的表型-基因型的数据处理方法和系统。
一种基于离散关联决策树的表型-基因型的数据处理方法,包括如下步骤:
步骤S10,采集表型数据和基因型数据;
步骤S20,将所述表型数据和所述基因型数据进行标准化处理,得到标准化数据;
步骤S30,将所述标准化数据进行检测和离散处理,得到离散数据;
步骤S40,采用离散关联决策树算法对所述离散数据进行处理,得到目标数据;
步骤S50,将所述目标数据进行可视化展示。
在其中一个实施例中,在步骤S10中,采用接口传输方式、文件交换方式、数据上传方式和/或基因芯片方式采集所述表型数据和所述基因型数据。
在其中一个实施例中,在步骤S10中,还对采集得到的所述表型数据和所述基因型数据进行存储。
在其中一个实施例中,在步骤S20中,所述标准化处理包括对所述表型数据和所述基因型数据进行清洗处理、缺失值检测处理、缺失值补充处理、单位换算处理、与国家标准统一化处理以及与行业标准化统一处理。
在其中一个实施例中,在步骤S30中,采用离群点检测方式、聚类方式和/或自动分类方式对所述标准化数据进行检测和离散处理。
在其中一个实施例中,在步骤S30之前以及步骤S40之后,还包括如下步骤:
采用稀疏矩阵拆分方式和/或块列矩阵拆分方式将所述离散数据拆分到Hadoop平台,并以HDFS的文件形式进行存储;采用Spark平台对存储文件进行计算。
在其中一个实施例中,在步骤S40中,所述目标数据至少包括具有高风险的基因SNP、保护因素的基因SNP和表型指标。
在其中一个实施例中,在步骤S50中,采用基因关联图、交互作用影响图、基因通路图、位点人种分布图、力导向图、树状决策图、类目散点图、趋势图和/或直方图将所述目标数据进行可视化展示。
一种基于离散关联决策树的表型-基因型的数据处理系统,包括:
数据采集模块,用于采集表型数据和基因型数据;
数据标准化模块,用于将所述表型数据和所述基因型数据进行标准化处理,得到标准化数据;
数据离散模块,用于将所述标准化数据进行检测和离散处理,得到离散数据;
数据处理模块,用于采用离散关联决策树算法对所述离散数据进行处理,得到目标数据;
数据可视化模块,用于将所述目标数据进行可视化展示。
在其中一个实施例中,还包括数据存储模块,用于存储所述数据采集模块采集的所述表型数据和所述基因型数据。
上述基于离散关联决策树的表型-基因型的数据处理方法,通过将采集的表型数据和基因型数据进行离散处理并得到离散数据后,再采用所述离散关联决策树算法对所述离散数据进行处理,用于得到能够进行可视化展示的目标数据,这样,能够克服传统处理方法中由于大样本数据单机内存的上限引发的问题,进而提高了数据处理分析效率。
附图说明
图1为本发明一实施方式的基于离散关联决策树的表型-基因型的数据处理方法的步骤流程图;
图2为本发明一实施方式的基于离散关联决策树的表型-基因型的数据处理系统的功能模块图。
具体实施方式
为使本发明的上述目的、特征和优点能够更加明显易懂,下面结合附图对本发明的具体实施方式做详细的说明。在下面的描述中阐述了很多具体细节以便于充分理解本发明。但是本发明能够以很多不同于在此描述的其它方式来实施,本领域技术人员可以在不违背本发明内涵的情况下做类似改进,因此本发明不受下面公开的具体实施的限制。
如图1所示,本发明一实施方式的基于离散关联决策树的表型-基因型的数据处理方法包括如下步骤:
步骤S10,采集表型数据和基因型数据。
通过步骤S10,用于采集患者的表型数据和基因型数据,如,用于采集大样本的海量复杂“表型-基因型”数据,为后续的数据处理提供原始数据。
例如,在步骤S10中,采用接口传输方式、文件交换方式、数据上传方式和/或基因芯片方式采集所述表型数据和所述基因型数据;又如,在步骤S10中,至少采用接口传输方式、文件交换方式、数据上传方式和/或基因芯片方式采集所述表型数据和所述基因型数据;又如,在步骤S10中,数据采集模块通过接口、文件交换、数据上传和基因芯片等多种手段收集患者表型数据和基因型数据,其中,基因测序包括芯片和高通量等多种数据。
例如,在步骤S10中,还对采集得到的所述表型数据和所述基因型数据进行存储。
步骤S20,将所述表型数据和所述基因型数据进行标准化处理,得到标准化数据。
通过步骤S20,能够对所述表型数据和所述基因型数据进行标准化处理,用于得到标准化数据,为后续的数据处理提供标准化的数据,使得后续的数据处理能够顺利进行。
例如,在步骤S20中,所述标准化处理包括对所述表型数据和所述基因型数据进行清洗处理、缺失值检测处理、缺失值补充处理、单位换算处理、与国家标准统一化处理和与行业标准化统一处理;又如,数据标准化模块用于进行数据初步处理和对各类数据进行标准化处理加工;又如,数据标准化模块用于对数据进行清洗、缺失值的检测与补充、单位的换算以及与国家标准和行业标准统一。
步骤S30,将所述标准化数据进行检测和离散处理,得到离散数据。
通过步骤S30,能够对所述标准化数据进行检测和离散处理,用于得到离散数据,而通过对大样本海量复杂的“表型-基因型”数据,如,标准化的“表型-基因型”数据,进行离散处理,能够起到化繁为简,逐一处理的效果,是克服传统处理方法中由于大样本数据单机内存的上限引发的问题的关键步骤之一。
例如,在步骤S30中,采用离群点检测方式、聚类方式和/或自动分类方式对所述标准化数据进行检测和离散处理;又如,根据国家标准、行业标准或其他分类标准对所述标准化数据进行检测和离散;又如,运用计算机的离群点检测、聚类和自动分类等多种手段进行检测和离散;又如,按照自定义标准进行离散。
例如,在步骤S30之前和/或步骤S40之后,还包括如下步骤:采用稀疏矩阵拆分方式和/或块列矩阵拆分方式将所述离散数据拆分到Hadoop平台,并以HDFS的文件形式进行存储;采用Spark平台对存储文件进行计算,这样,可以进一步加强离散效果,提高处理分析效率。又如,在步骤S30之前,还包括如下步骤:采用稀疏矩阵拆分方式和/或块列矩阵拆分方式将所述离散数据拆分到Hadoop平台,并以HDFS的文件形式进行存储;采用Spark平台对存储文件进行计算。又如,步骤S40之后,还包括如下步骤:采用稀疏矩阵拆分方式和/或块列矩阵拆分方式将所述离散数据拆分到Hadoop平台,并以HDFS的文件形式进行存储;采用Spark平台对存储文件进行计算。
步骤S40,采用离散关联决策树算法对所述离散数据进行处理,得到目标数据。
通过步骤S40的离散关联决策树算法可以分析或挖掘高风险基因SNP、保护因素的基因SNP和表型指标,例如,所述离散关联决策树算法支持运用行业工具Plink、SPSS和R等,还支持典型机器学习算法如随机森林、多元回归、神经网络等,还支持单机Hadoop和Spark的大数据架构等。
在对上述标准化数据进行检测和离散处理并得到离散数据后,再采用所述离散关联决策树算法对所述离散数据进行处理,用于得到能够进行可视化展示的目标数据,这样,可以克服传统处理方法中由于大样本数据单机内存的上限引发的问题,进而提高了数据处理分析效率。
需要说明的是,所述离散关联决策树算法,即基于面向海量复杂“表型-基因型”数据智能处理的离散关联决策树算法,是一个决策树过程,其每一步计算均将自上一步得到的病患集合一分为二,为了进一步解释所述离散关联决策树算法,需要对一些数据、信息或处理方式等进行定义,如,定义为数学符号、字母或数字等,例如,所述离散关联决策树算法包括如下步骤:
步骤S41:P0定义为所有数据集中病人组成的集合;T0定义为所有数据集中出现的基因型组成的集合,其上有一个全序结构定义为在第i步将病患集一分为二时,其中具有更高不良反应风险的那个子集;Pi定义为第i步得到的病患集合;Ti定义为P0的子集,为直到第i步时还没有被用来构造Pj,1≤j<i的基因型;α定义为置信概率,其中,α=0.01;
步骤S42:下面描述如何从Pi-1出发构造Pi,所有以下讨论均发生在集合Pi-1和Ti-1中,其中,Ti-1上带有继承自T0的全序关系其中,步骤S42为第i步的步骤S42;
则停止;
则停止;
否则对于每一个进行如下计算;
第j小步:考虑Ti-1中第j个基因型引入以下定义符号:
m:子集中病患人数;
m1:子集中Y=1的病患人数,也就是具有基因型并有严重不良反应的病患人数;
n:子集中病患人数;
n1:子集中Y=1的病患人数,也就是具有基因型并有严重不良反应的病患人数;
m*n≠0终止第j小步,考虑Ti-1中下一个,即第j+1个基因型,若j为Ti-1中最后一个,则执行步骤S43,如执行第i步的步骤S43;
否则m*n≠0,计算下列表达式,所述表达式类似于OR值:
之后前往第j+1小步,其中,考虑到Ti-1中第j+1个基因型,若第j基因型已经是最后一个基因型,则执行步骤S43,如执行第i步的步骤S43;
步骤S43:若在第i步的步骤S42中没有计算任何也就是对于所有的都由m*n=0,则停止;
否则,在寻找一个具有最大r,并且满足如下条件的基因型;
具体操作过程如下:首先寻找具有最大r的计算其B,若满足条件就取它,不满足条件就寻找具有较大r的基因型并检查其B,以此类推;若两个基因型具有相同的r,取具有较小B的那个基因型;若两个基因型同时具有相同的r和B,就任取一个;重复上述过程直到找到满足条件的基因型,或者遍历Ti-1中所有基因型之后找不到满足B<α条件的基因型;
若所有基因型都不满足B<α,则停止;定义为Pi:Pi-1的子集 的子集以及之后前往第i+1步;
基于此,构造一个递降集合列
以及一个P0的子集列
子集被称为“第i个高危子集”。的风险被定义为:
其中,尤其关注初始风险R(P0)和剩余风险R(Pk)
通过关注初始风险R(P0)和剩余风险R(Pk),能够筛选出具有高风险基因SNP、具有保护因素的基因SNP和表型指标等目标数据,为后续的可视化展示步骤提供数据。例如,初始风险R(P0)和剩余风险R(Pk)为目标集合,如,通过关注初始风险R(P0)和剩余风险R(Pk)得到高风险的基因SNP、保护因素的基因SNP和表型指标。
步骤S50,将所述目标数据进行可视化展示。
通过将所述目标数据进行可视化展示,能够较好地给行业分析人员提供更直观和精确的分析依据,从而找到某一疾病所对应的基因变异位点等信息,对疾病的早期治疗和防治具有很好的作用。
例如,在步骤S40中,所述目标数据至少包括具有高风险的基因SNP、保护因素的基因SNP和表型指标。
例如,在步骤S50中,采用基因关联图、交互作用影响图、基因通路图、位点人种分布图、力导向图、树状决策图、类目散点图、趋势图和/或直方图将所述目标数据进行可视化展示;又如,运用基因关联图、交互作用影响图、基因通路图、位点人种分布图、力导向图、树状决策图、类目散点图、趋势图和直方图等多种可视化展示方式用于展示原始数据与分析结果。
上述基于离散关联决策树的表型-基因型的数据处理方法,通过将采集的表型数据和基因型数据进行离散处理并得到离散数据后,再采用所述离散关联决策树算法对所述离散数据进行处理,用于得到能够进行可视化展示的目标数据,这样,能够克服传统处理方法中由于大样本数据单机内存的上限引发的问题,进而提高了数据处理分析效率。
首先,上述基于离散关联决策树的表型-基因型的数据处理方法能够支持大队列并行计算,并利用稀疏矩阵、块列矩阵将数据拆分到Hadoop集群存储中,运用Spark进行并行计算,能更好地克服传统处理方法中由于大样本数据单机内存的上限引发的问题,进而提高了数据处理分析效率。
其次,当样本数量较小时,采用上述基于离散关联决策树的表型-基因型的数据处理方法能够对基因型数据+表型数据,即基因型数据-表型数据进行分析,判断基因型与表型的影响力。
最后,采用上述基于离散关联决策树的表型-基因型的数据处理方法中的所述离散关联决策树算法,能够有效地判断次要影响因素和混杂因素。
为了进一步对上述基于离散关联决策树的表型-基因型的数据处理方法进行解释说明,以加深对本发明构思的理解。
又一个例子是,一种基于离散关联决策树的表型-基因型的数据处理系统,其采用上述任一实施例所述的基于离散关联决策树的表型-基因型的数据处理方法。
如图2所示,本发明一实施方式的基于离散关联决策树的表型-基因型的处理系统10,包括数据采集模块100、数据标准化模块200、数据离散模块300、数据处理模块400以及数据可视化模块500。
数据采集模块100,用于采集表型数据和基因型数据。
例如,基于离散关联决策树的表型-基因型的数据处理系统还包括数据存储模块,用于存储所述数据采集模块采集的所述表型数据和所述基因型数据,用于给数据标准化模块200提供所述表型数据和所述基因型数据。
数据标准化模块200,用于将所述表型数据和所述基因型数据进行标准化处理,得到标准化数据300。
数据离散模块400,用于将所述标准化数据进行检测和离散处理,得到离散数据。例如,采用Plink平台执行数据离散关联模块400执行的操作。
数据处理模块500,用于采用离散关联决策树算法对所述离散数据进行处理,得到目标数据。
数据可视化模块,用于将所述目标数据进行可视化展示。
下文将给出一具体实施例用于进一步说明上述基于离散关联决策树的表型-基因型的数据处理方法。例如具体实施例如下:
以儿童结核病肝损伤影响因素为例进行说明,其中,数据来源为从某医院获得的240例的儿童结核病患者文件。
如图3所示,一实施方式的基于离散关联决策树的表型-基因型的数据处理方法包括如下步骤:
首先,将患者文件导入数据采集模块,然后按照国家标准将患者血氧浓度分为高中低,将患者年龄按照0岁~2.5岁,2.5岁~5岁,5岁~7岁三个区间进行离散,完成上述数据处理后将数据存入HDFS中,之后运用基于面向海量复杂“表型-基因型”数据智能处理的离散关联决策树算法,即离散关联决策树算法对处理后的表型数据和基因数据进行关联分析,可视化展示后,分析得出20个基因位点(NAT2等)与儿童结核病肝损伤高度相关。
又一个例子是,一种基于离散关联决策树的表型-基因型的数据处理系统包括:包括:数据采集模块、数据标准化模块、数据离散模块、数据的基因型-表型关联分析模块以及数据可视化模块组成;数据采集模块通过接口、文件交换、数据上传、基因芯片等多种手段收集患者表型数据和基因数据;数据采集存储后,在数据标准化模块进行数据初步对各类数据进行标准化处理加工;之后在数据离散模块根据国家标准或其他分类标准进行检测和离散;而后在数据基因型-表型关联分析模块运用基于面向海量复杂“表型-基因型”数据智能处理的离散关联决策树算法挖掘高风险基因SNP、保护因素的基因SNP和表型指标;最后在数据可视化模块运用基因关联图、交互作用影响图、基因通路图、位点人种分布图、力导向图、树状决策图、类目散点图、趋势图、直方图等多种手段展示原始数据与分析结果。
又一个例子是,一种基于离散关联决策树的表型-基因型的数据处理系统包括:基因型和表型数据采集模块,用于支持通过接口、文件交换、数据上传等多种手段收集患者表型数据,基因测序包括芯片和高通量等多种数据;数据标准化模块,用于支持对数据进行清洗、缺失值的检测与补充、单位的换算以及与国家标准和行业标准统一;数据的离散模块,用于支持运用按照国家和行业标准进行检测和离散;支持运用计算机的离群点检测、聚类、自动分类等多种手段进行检测和离散,支持按照自定义标准进行离散;数据基因型-表型关联分析模块,用于支持运用基于面向海量复杂“表型-基因型”数据智能处理的离散关联决策树算法进行基因型-表型关联分析,挖掘高风险和保护因素的基因SNP和其他表型指标,支持运用行业工具Plink,SPSS、R等;支持典型机器学习算法如随机森林、多元回归、神经网络等;支持单机Hadoop、Spark的大数据架构;数据可视化模块,用于支持运用基因关联图、交互作用影响图、基因通路图、位点人种分布图、力导向图、树状决策图、类目散点图、趋势图、直方图等多种手段展示原始数据与分析结果。
以上所述实施例仅表达了本发明的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对本发明专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本发明构思的前提下,还可以做出若干变形和改进,这些都属于本发明的保护范围。因此,本发明专利的保护范围应以所附权利要求为准。

Claims (10)

1.一种基于离散关联决策树的表型-基因型的数据处理方法,其特征在于,包括如下步骤:
步骤S10,采集表型数据和基因型数据;
步骤S20,将所述表型数据和所述基因型数据进行标准化处理,得到标准化数据;
步骤S30,将所述标准化数据进行检测和离散处理,得到离散数据;
步骤S40,采用离散关联决策树算法对所述离散数据进行处理,得到目标数据;
步骤S50,将所述目标数据进行可视化展示。
2.根据权利要求1所述的基于离散关联决策树的表型-基因型的数据处理方法,其特征在于,在步骤S10中,采用接口传输方式、文件交换方式、数据上传方式和/或基因芯片方式采集所述表型数据和所述基因型数据。
3.根据权利要求1所述的基于离散关联决策树的表型-基因型的数据处理方法,其特征在于,在步骤S10中,还对采集得到的所述表型数据和所述基因型数据进行存储。
4.根据权利要求1所述的基于离散关联决策树的表型-基因型的数据处理方法,其特征在于,在步骤S20中,所述标准化处理包括对所述表型数据和所述基因型数据进行清洗处理、缺失值检测处理、缺失值补充处理、单位换算处理、与国家标准统一化处理以及与行业标准化统一处理。
5.根据权利要求1所述的基于离散关联决策树的表型-基因型的数据处理方法,其特征在于,在步骤S30中,采用离群点检测方式、聚类方式和/或自动分类方式对所述标准化数据进行检测和离散处理。
6.根据权利要求1所述的基于离散关联决策树的表型-基因型的数据处理方法,其特征在于,在步骤S30之前以及步骤S40之后,还包括如下在步骤:
采用稀疏矩阵拆分方式和/或块列矩阵拆分方式将所述离散数据拆分到Hadoop平台,并以HDFS的文件形式进行存储;采用Spark平台对存储文件进行计算。
7.根据权利要求1所述的基于离散关联决策树的表型-基因型的数据处理方法,其特征在于,在步骤S40中,所述目标数据至少包括具有高风险的基因SNP、保护因素的基因SNP和表型指标。
8.根据权利要求1所述的基于离散关联决策树的表型-基因型的数据处理方法,其特征在于,在步骤S50中,采用基因关联图、交互作用影响图、基因通路图、位点人种分布图、力导向图、树状决策图、类目散点图、趋势图和/或直方图将所述目标数据进行可视化展示。
9.一种基于离散关联决策树的表型-基因型的数据处理系统,其特征在于,包括:
数据采集模块,用于采集表型数据和基因型数据;
数据标准化模块,用于将所述表型数据和所述基因型数据进行标准化处理,得到标准化数据;
数据离散模块,用于将所述标准化数据进行检测和离散处理,得到离散数据;
数据处理模块,用于采用离散关联决策树算法对所述离散数据进行处理,得到目标数据;
数据可视化模块,用于将所述目标数据进行可视化展示。
10.根据权利要求9所述的基于离散关联决策树的表型-基因型的数据处理系统,其特征在于,还包括数据存储模块,用于存储所述数据采集模块采集的所述表型数据和所述基因型数据。
CN201610430453.7A 2016-06-17 2016-06-17 基于离散关联决策树的表型‑基因型的数据处理方法和系统 Pending CN107516022A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201610430453.7A CN107516022A (zh) 2016-06-17 2016-06-17 基于离散关联决策树的表型‑基因型的数据处理方法和系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201610430453.7A CN107516022A (zh) 2016-06-17 2016-06-17 基于离散关联决策树的表型‑基因型的数据处理方法和系统

Publications (1)

Publication Number Publication Date
CN107516022A true CN107516022A (zh) 2017-12-26

Family

ID=60720469

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201610430453.7A Pending CN107516022A (zh) 2016-06-17 2016-06-17 基于离散关联决策树的表型‑基因型的数据处理方法和系统

Country Status (1)

Country Link
CN (1) CN107516022A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110010203A (zh) * 2019-03-29 2019-07-12 广州基迪奥生物科技有限公司 一种基于生物云平台的交互式动态qtl分析系统及方法
CN111261230A (zh) * 2020-01-17 2020-06-09 中南大学湘雅三医院 基因组合确定方法和装置

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102473247A (zh) * 2009-06-30 2012-05-23 陶氏益农公司 用于在包含分子遗传标志物的植物和动物数据集中挖掘关联规则,继而利用由这些关联规则创建的特征进行分类或预测的机器学习方法的应用

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102473247A (zh) * 2009-06-30 2012-05-23 陶氏益农公司 用于在包含分子遗传标志物的植物和动物数据集中挖掘关联规则,继而利用由这些关联规则创建的特征进行分类或预测的机器学习方法的应用

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
黄金: "聚类和分类技术在生物信息学中的应用", 《中国优秀硕士学位论文全文数据库(电子期刊)基础科学辑》 *
黄金等: "基于P-tree的多决策树基因表达数据分类", 《电脑学习》 *

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110010203A (zh) * 2019-03-29 2019-07-12 广州基迪奥生物科技有限公司 一种基于生物云平台的交互式动态qtl分析系统及方法
CN110010203B (zh) * 2019-03-29 2022-05-27 广州基迪奥生物科技有限公司 一种基于生物云平台的交互式动态qtl分析系统及方法
CN111261230A (zh) * 2020-01-17 2020-06-09 中南大学湘雅三医院 基因组合确定方法和装置
CN111261230B (zh) * 2020-01-17 2023-09-15 中南大学湘雅三医院 基因组合确定方法和装置

Similar Documents

Publication Publication Date Title
US9940433B2 (en) Discovering population structure from patterns of identity-by-descent
CN104408547B (zh) 一种基于数据挖掘的医保欺诈行为的检测方法
CN105528529B (zh) 基于大数据分析的中医临床技能评价体系的数据处理方法
CN111223553A (zh) 一种两阶段深度迁移学习中医舌诊模型
CN107358014A (zh) 一种生理数据的临床前处理方法及系统
CN109686439B (zh) 遗传病基因检测的数据分析方法、系统及存储介质
WO2021051875A1 (zh) 细胞分类方法、装置、介质及电子设备
CN112951413B (zh) 一种基于决策树和改进smote算法的哮喘病诊断系统
CN106874658A (zh) 一种基于主成分分析算法的医保欺诈识别方法
CN112786204A (zh) 一种机器学习糖尿病发病风险预测方法及应用
CN115064215B (zh) 一种通过相似度进行菌株溯源及属性鉴定的方法
CN107358056A (zh) 一种自动在线全面分析基因组序列的方法
CN105279369A (zh) 一种基于二代测序的冠心病遗传风险评估方法
CN104946740A (zh) 一种海洋褐潮生物群落结构的检测方法
CN107516022A (zh) 基于离散关联决策树的表型‑基因型的数据处理方法和系统
Wang et al. Is the Atkinson discriminant function a reliable method for distinguishing between Betula pendula and B. pubescens (Betulaceae)?
CN106446575A (zh) 智能推送医疗资源的方法及系统
CN110334767B (zh) 一种用于空气质量分类的改进随机森林方法
CN109657875A (zh) 基于大数据环境下的成绩预测方法及系统
Kapruwan et al. Artificial Intelligence Enabled Diagnostic Digital Cytopathology System for Cervical Intraepithelial Neoplasia Detection: Advantages and Challenges
CN112466395B (zh) 基于snp多态性位点的样本识别标签筛选方法与样本识别检测方法
CN109060715A (zh) 一种基于自组织神经网络的近红外光谱共识模型的构建方法
CN110010231A (zh) 一种数据处理系统及计算机可读存储介质
Noor-E-Alam et al. Robust nonparametric testing for causal inference in observational studies
CN109994171B (zh) 一种用于临床路径对比的流形可视化方法及系统

Legal Events

Date Code Title Description
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
WD01 Invention patent application deemed withdrawn after publication

Application publication date: 20171226

WD01 Invention patent application deemed withdrawn after publication