CN110211631B - 一种全基因组关联分析方法、系统及电子设备 - Google Patents
一种全基因组关联分析方法、系统及电子设备 Download PDFInfo
- Publication number
- CN110211631B CN110211631B CN201810133320.2A CN201810133320A CN110211631B CN 110211631 B CN110211631 B CN 110211631B CN 201810133320 A CN201810133320 A CN 201810133320A CN 110211631 B CN110211631 B CN 110211631B
- Authority
- CN
- China
- Prior art keywords
- sample
- snp
- samples
- information
- feature
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000012097 association analysis method Methods 0.000 title claims abstract description 15
- 239000013598 vector Substances 0.000 claims abstract description 96
- 238000012163 sequencing technique Methods 0.000 claims abstract description 39
- 238000000034 method Methods 0.000 claims abstract description 36
- 108090000623 proteins and genes Proteins 0.000 claims abstract description 24
- 238000000605 extraction Methods 0.000 claims abstract description 21
- 238000012545 processing Methods 0.000 claims abstract description 17
- 238000004422 calculation algorithm Methods 0.000 claims description 17
- 238000010219 correlation analysis Methods 0.000 claims description 13
- 238000004458 analytical method Methods 0.000 claims description 11
- 238000013507 mapping Methods 0.000 claims description 9
- 239000002773 nucleotide Substances 0.000 claims description 8
- 125000003729 nucleotide group Chemical group 0.000 claims description 8
- 238000010606 normalization Methods 0.000 claims description 6
- 238000012098 association analyses Methods 0.000 abstract description 19
- 201000010099 disease Diseases 0.000 description 16
- 208000037265 diseases, disorders, signs and symptoms Diseases 0.000 description 16
- 108700028369 Alleles Proteins 0.000 description 7
- 238000001514 detection method Methods 0.000 description 7
- 238000005516 engineering process Methods 0.000 description 7
- 238000003860 storage Methods 0.000 description 6
- 230000002068 genetic effect Effects 0.000 description 5
- 238000010586 diagram Methods 0.000 description 4
- 102000054766 genetic haplotypes Human genes 0.000 description 4
- 238000000540 analysis of variance Methods 0.000 description 3
- 238000004364 calculation method Methods 0.000 description 3
- 238000004590 computer program Methods 0.000 description 3
- 238000013461 design Methods 0.000 description 3
- 230000008030 elimination Effects 0.000 description 3
- 238000003379 elimination reaction Methods 0.000 description 3
- 230000003993 interaction Effects 0.000 description 3
- 238000005457 optimization Methods 0.000 description 3
- 230000008569 process Effects 0.000 description 3
- 238000000638 solvent extraction Methods 0.000 description 3
- 238000012360 testing method Methods 0.000 description 3
- 108091028043 Nucleic acid sequence Proteins 0.000 description 2
- 244000269722 Thea sinensis Species 0.000 description 2
- 238000013459 approach Methods 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 2
- 238000007418 data mining Methods 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 238000002372 labelling Methods 0.000 description 2
- 238000007477 logistic regression Methods 0.000 description 2
- 230000035772 mutation Effects 0.000 description 2
- 102000054765 polymorphisms of proteins Human genes 0.000 description 2
- 238000011160 research Methods 0.000 description 2
- 238000007619 statistical method Methods 0.000 description 2
- 208000024827 Alzheimer disease Diseases 0.000 description 1
- 101710095339 Apolipoprotein E Proteins 0.000 description 1
- 108091026890 Coding region Proteins 0.000 description 1
- 241000134253 Lanka Species 0.000 description 1
- 108700026244 Open Reading Frames Proteins 0.000 description 1
- 235000011464 Pachycereus pringlei Nutrition 0.000 description 1
- 240000006939 Pachycereus weberi Species 0.000 description 1
- 235000011466 Pachycereus weberi Nutrition 0.000 description 1
- 238000007405 data analysis Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 239000003814 drug Substances 0.000 description 1
- 229940079593 drug Drugs 0.000 description 1
- 230000002922 epistatic effect Effects 0.000 description 1
- 230000006870 function Effects 0.000 description 1
- 230000007614 genetic variation Effects 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 238000010295 mobile communication Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000005192 partition Methods 0.000 description 1
- 238000003976 plant breeding Methods 0.000 description 1
- 238000003672 processing method Methods 0.000 description 1
- 238000005215 recombination Methods 0.000 description 1
- 230000006798 recombination Effects 0.000 description 1
- 230000009467 reduction Effects 0.000 description 1
- 238000000611 regression analysis Methods 0.000 description 1
- 230000035945 sensitivity Effects 0.000 description 1
- 239000007787 solid Substances 0.000 description 1
- 241000894007 species Species 0.000 description 1
- 238000001228 spectrum Methods 0.000 description 1
- 201000010700 sporadic breast cancer Diseases 0.000 description 1
- 238000003466 welding Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B30/00—ICT specially adapted for sequence analysis involving nucleotides or amino acids
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B40/00—ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding
Landscapes
- Physics & Mathematics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Health & Medical Sciences (AREA)
- Engineering & Computer Science (AREA)
- Medical Informatics (AREA)
- Biophysics (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Spectroscopy & Molecular Physics (AREA)
- General Health & Medical Sciences (AREA)
- Evolutionary Biology (AREA)
- Biotechnology (AREA)
- Bioinformatics & Computational Biology (AREA)
- Theoretical Computer Science (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Bioethics (AREA)
- Public Health (AREA)
- Evolutionary Computation (AREA)
- Epidemiology (AREA)
- Databases & Information Systems (AREA)
- Data Mining & Analysis (AREA)
- Software Systems (AREA)
- Artificial Intelligence (AREA)
- Chemical & Material Sciences (AREA)
- Analytical Chemistry (AREA)
- Proteomics, Peptides & Aminoacids (AREA)
- Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)
- Apparatus Associated With Microorganisms And Enzymes (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本申请属于基因数据处理技术领域,特别涉及一种全基因组关联分析方法、系统及电子设备。所述全基因组关联分析方法包括:步骤a:对样本的原始测序数据进行SNP点位确定,得到样本的SNP位点信息;步骤b:建立基于参考基因组SNP信息的坐标轴,并根据基于参考基因组SNP信息的坐标轴对样本的SNP位点信息进行特征提取,得到样本的特征向量;步骤c:将样本的特征向量进行聚类,得到样本的代表特征向量,并将所述代表特征向量进行合并,得到非冗余样本。本申请通过将原始数据进行聚类,对样本进行特征表达,找到重要的特征,降低数据的计算量,根据各个样本之间的相似度,将相似度高的样本合并起来,去掉其余的样本,大大降低了内存的需求,提高了效率。
Description
技术领域
本申请属于基因数据处理技术领域,特别涉及一种全基因组关联分析方法、系统及电子设备。
背景技术
全基因组关联分析(Genome-Wide Association Studies,GWAS)在2005年首次提出,建立在SNP(Single Nucleotide Polymorphism)测序技术的基础上,在过去的十几年里,SNP测序技术的快速发展,全基因组关联分析已逐步在物种重要经济性状、植物育种、基因改良、尤其是在人类复杂疾病分析等方面起着越来越重要的作用。全基因组关联分析的目的是在整个基因组范围内找到与表型相关的易感基因位点变异。近年来,在全基因组关联分析领域涌现了大量的基因及其交互作用检测算法,尽管这些算法在领域内取得了巨大的成功,但当前依然存在着一些难题。
目前在进行全基因组关联分析时,采用病例-对照的思路(case-control)设计分析流程,设立两组样本,其中一组为健康的对照组,另一组为患病的病例组,主要的分析方法是在单位点关联分析的大规模列联表里对等位基因或者基因型进行计数,确认某一等位基因出现在病例组中的个数和出现在对照组中的个数,其比值的结果若大于1就可能表明这一等位基因与疾病相关。若采用多位点关联分析分析,则一般使用全部变异位点或根据连锁不平衡原理选择相邻的几个变异位点进行多变量的关联分析。常用的分析方法有基于单体型的分析、多变量logistic回归和多变量显著性差异检验。基于单体型的分析过程与根据发生比确认关联信息的过程类似,主要的好处是分析过程所要需要考虑的自由度很少,同时可以进一步把单体型信息作为分类标志与回归分析结合在一起进行深一层次的处理。多变量logistic回归则尝试在疾病与位点的基因型之间建立回归模型来检验是否有关联。
SNP是指在不同个体中基因组水平上的单个核苷酸——A,T,G,C的差异性。SNP在基因组中的分布并不均匀,SNP发生在非编码区的频率比在编码区更高一些,这是自然选择的结果[Kumanayake P C.Genome-wide SNP discovery in associating with humandiseases phenotypes[J].Sri Lanka Journal of Bio-Medical Informatics,2013,3(1)],其它因素如基因重组和变异率也可以决定SNP密度[SNP Data Analysis in Genome-Wide Association Studies:[D].Hong Kong:The Hong Kong University of Scienceand Technology,2011]。在人群中SNP可以被指定一个次等位基因频率——在特定人群中在一个位点的最低等位基因频率。群体之间的差异性很大,所以某个SNP位点的等位基因在一个地域或种群可能很常见,而在其它地区就变得很稀有。个体之间的基因的多态性在背后影响着我们对疾病的易感性。疾病的严重程度和我们的身体响应治疗的方式也是遗传变异的表现形式。比如,在载脂蛋白E基因的单碱基突变与阿尔兹海默病相关联[E.Waldron,J.C.Whittaker,and D.J.Balding.Fine mapping of disease genes via haplotypeclustering.Genetic Epidemiology,2006,30(2):170–179]。据统计,SNP占所有已知多态性的90%以上,人类对药物敏感、疾病倾向及表型性状差异大多与SNP有关,所以SNP自1994年提出之后就一直是各领域的研究重点[Reich,D.E.,Lander,E.S.,On the allelicspectrum of human disease[J].TRENDS in Genetics,2001,17(9):502-510;Pritchard,J.K.,Cox,N.J.,The allelic architecture of human disease genes:common disease-common variant…or not?[J].Human molecular genetics,2002,11(20):2417-2423]。
在SNPS常用的穷尽搜索方法是指在全基因组关联高维数据下,列举所有可能的SNPS及SNPS组合,然后一一对应分别建模用以寻找易感基因位点或基因位点组合,如美国密歇根大学的Nelson等提出的组合划分方法(combinatorial partitioning method,CPM)[Nelson,M.R.,Kardia,S.L.,Ferrell,R.E.,etc.,A combinatorial partitioningmethod to identify multilocus genotypic partitions that predict quantitativetrait variation[J].Genome Res,Mar,2001,11(3):458-70],华盛顿大学圣路易斯药学院的Culverhouse等提出的限制划分方法(restricted partitioning method,RPM)[Culverhouse,R.,Klein,T.,Shannon,W.,Detecting epistatic interactionscontributing to quantitative traits[J].Genet Epidemiol,Sep,2004,27(2):141-52],牛津大学统计系的Marchini等提出的全交互模型(Full Interaction Model,FIM)[Marchini,J.,Donnelly,P.,Cardon,L.R.,Genome-wide strategies for detectingmultiple loci that influence complex diseases[J].Nat Genet,Apr,2005,37(4):413-7],范德比尔特大学的Richie等提出的多因子降维法(multifactor dimensionalityreduction,MDR)[Ritchie,M.D.,Hahn,L.W.,Roodi,N.,etc.,Multifactor-dimensionality reduction reveals high-order interactions among estrogen-metabolism genes in sporadic breast cancer[J].The American Journal of HumanGenetics,2001,69(1):138-147],香港科技大学的wan等提出的基于布尔运算的筛选检测算法(BOolean Operation-based Screening and Testing,BOOST)[Wan,X.,Yang,C.,Yang,Q.,etc.,BOOST:A fast approach to detecting gene-gene interactions ingenome-wide case-control studies[J].The American Journal of Human Genetics,2010,87(3):325-340],北卡罗来纳大学圣堂山分校生物统计系的zhang等提出的快速方差分析法(Fast analysis of variance,Fast ANOVA)[Zhang,X.,Zou,F.,Wang,W.Fastanova:an efficient algorithm for genome-wide association study[A],InProceedings of the 14th ACM SIGKDD international conference on Knowledgediscovery and data mining[C],2008:821-829],基于凸优化的上位性检测算法(ConvexOptimization-based Epistasis detection algorithm,COE)[Zhang,X.,Pan,F.,Xie,Y.,etc.COE:a general approach for efficient genome-wide two-locus epistasis testin disease association study[A],In Research in Computational MolecularBiology[C],2009:253-269]及基于树的上位效应关联检测算法(Tree-based EpistasisAssociation Mapping,TEAM)等一系列算法[Zhang,X.,Huang,S.,Zou,F.,etc.,TEAM:efficient two-locus epistasis tests in human genome-wide association study[J].Bioinformatics,2010,26(12):1217-1227]。
上述中,目前的全基因组关联分析中的SNPS信息量特别大,一般引入上千个个体,每个个体又会产生至少50万个SNP marker,因此在全基因组关联分析中,会拥有数十亿个基因型,传统的计算方法已经不能满足大规模的计算需求,这些数据的计算对计算机是个巨大的挑战,特别是对内存的要求。如何高效的利用内存来存贮基因型数据在全基因组关联分析中占了非常重的位置,例如,在Framingham Heart Study(FHS)项目里,有12461个样本和550000个SNP信息,这样规格的数据需要占用多于6.6G的内存来产生简单的可以计算的输入输出数据。目前一般的电脑内存为2G左右,远远不能满足全基因组关联分析中的数据部分。
发明内容
本申请提供了一种全基因组关联分析方法、系统及电子设备,旨在至少在一定程度上解决现有技术中的上述技术问题之一。
为了解决上述问题,本申请提供了如下技术方案:
一种全基因组关联分析方法,包括以下步骤:
步骤a:对样本的原始测序数据进行SNP点位确定,得到样本的SNP位点信息;
步骤b:建立基于参考基因组SNP信息的坐标轴,并根据基于参考基因组SNP信息的坐标轴对样本的SNP位点信息进行特征提取,得到样本的特征向量;
步骤c:将样本的特征向量进行聚类,得到样本的代表特征向量,并将所述代表特征向量进行合并,得到非冗余样本。
本申请实施例采取的技术方案还包括:所述步骤a还包括:对样本进行基因测序,得到样本的原始测序数据。
本申请实施例采取的技术方案还包括:在所述步骤a中,所述对样本的原始测序数据进行SNP点位确定具体为:利用GATK对样本的原始测序数据进行SNP点位确定。
本申请实施例采取的技术方案还包括:在所述步骤b中,所述根据基于参考基因组SNP信息的坐标轴对样本的SNP位点信息进行特征提取具体为:利用genetic track将参考基因组SNP信息生成一行的坐标轴,坐标轴上的每个点都是向量的每一维;通过genetictrack将样本的SNP位点信息映射到基于参考基因组SNP信息的坐标轴中,得到长度为N维的特征向量Vx,如果Vx中维i的位置被一个点或一个区域覆盖,则i的数值为1,反之,则为0;最终得到样本的特征表达Sj,j=1,…,M,共有M个样本。
本申请实施例采取的技术方案还包括:在所述步骤c中,所述将样本的特征向量进行聚类具体为:对样本的特征表达Sj,j=1,…,M进行归一化处理,通过Kmeans无监督聚类算法对样本的特征向量进行聚类,得到n个小groups,分别找出每个小groups中心的特征向量,并将所述中心的特征向量作为每个小groups的代表特征向量。
本申请实施例采取的另一技术方案为:一种全基因组关联分析系统,包括:
SNP信息获取模块:用于对样本的原始测序数据进行SNP点位确定,得到样本的SNP位点信息;
特征提取模块:用于建立基于参考基因组SNP信息的坐标轴,并根据基于参考基因组SNP信息的坐标轴对样本的SNP位点信息进行特征提取,得到样本的特征向量;
特征聚类模块:用于将样本的特征向量进行聚类,得到样本的代表特征向量;
去冗余模块:用于将所述代表特征向量进行合并,得到非冗余样本。
本申请实施例采取的技术方案还包括基因测序模块,所述基因测序模块用于对样本进行基因测序,得到样本的原始测序数据。
本申请实施例采取的技术方案还包括:所述SNP信息获取模块对样本的原始测序数据进行SNP点位确定具体为:利用GATK对样本的原始测序数据进行SNP点位确定。
本申请实施例采取的技术方案还包括:所述特征提取模块根据基于参考基因组SNP信息的坐标轴对样本的SNP位点信息进行特征提取具体为:利用genetic track将参考基因组SNP信息生成一行的坐标轴,坐标轴上的每个点都是向量的每一维;通过genetictrack将样本的SNP位点信息映射到基于参考基因组SNP信息的坐标轴中,得到长度为N维的特征向量Vx,如果Vx中维i的位置被一个点或一个区域覆盖,则i的数值为1,反之,则为0;最终得到样本的特征表达Sj,j=1,…,M,共有M个样本。
本申请实施例采取的技术方案还包括:所述特征聚类模块将样本的特征向量进行聚类具体为:对样本的特征表达Sj,j=1,…,M进行归一化处理,通过Kmeans无监督聚类算法对样本的特征向量进行聚类,得到n个小groups,分别找出每个小groups中心的特征向量,并将所述中心的特征向量作为每个小groups的代表特征向量。
本申请实施例采取的又一技术方案为:一种电子设备,包括:
至少一个处理器;以及
与所述至少一个处理器通信连接的存储器;其中,
所述存储器存储有可被所述一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行上述的全基因组关联分析方法的以下操作:
步骤a:对样本的原始测序数据进行SNP点位确定,得到样本的SNP位点信息;
步骤b:建立基于参考基因组SNP信息的坐标轴,并根据基于参考基因组SNP信息的坐标轴对样本的SNP位点信息进行特征提取,得到样本的特征向量;
步骤c:将样本的特征向量进行聚类,得到样本的代表特征向量,并将所述代表特征向量进行合并,得到非冗余样本。
相对于现有技术,本申请实施例产生的有益效果在于:本申请实施例的全基因组关联分析方法、系统及电子设备针对大规模高维度的SNP信息—基因组水平上由单个核苷酸的变异所引起的DNA序列多态性,设计了基于大型数据的节约内存的处理架构,预先将数据进行去冗余处理,将原始数据进行聚类,对样本进行特征表达,找到重要的特征,降低数据的计算量,根据各个样本之间的相似度,将相似度高的样本合并起来,去掉其余的样本,利用最后剩余的样本数据进行全基因组关联分析,大大降低了内存的需求,提高了效率;在全基因组关联分析中,通过引入并行聚类技术,结合高性能计算系统的高速连接网络以及异构计算技术,实现高度复杂统计分析任务的分布式处理,获得更深层次的对于变异位点和疾病之间关系的理解,整体性能伸缩性和效率较高。
附图说明
图1是本申请实施例的全基因组关联分析方法的流程图;
图2是本申请实施例的全基因组关联分析系统的结构示意图;
图3是本申请实施例提供的全基因组关联分析方法的硬件设备结构示意图。
具体实施方式
为了使本申请的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本申请进行进一步详细说明。应当理解,此处所描述的具体实施例仅用以解释本申请,并不用于限定本申请。
请参阅图1,是本申请实施例的全基因组关联分析方法的流程图。本申请实施例的全基因组关联分析方法包括以下步骤:
步骤100:对样本进行基因测序,得到样本的原始测序数据;
步骤200:利用GATK(The Genome Analysis Toolkit,是Broad Institute开发的用于二代重测序数据分析的一款软件)对样本的原始测序数据进行SNP点位确定,得到样本的SNP位点信息;
步骤300:建立基于参考基因组SNP信息的坐标轴,并根据基于参考基因组SNP信息的坐标轴对样本的SNP位点信息进行特征提取,得到样本的特征向量;
在步骤300中,特征提取的方式具体为:利用genetic track将参考基因组SNP信息生成一行的坐标轴,坐标轴上的每个点都是向量的每一维;基于参考基因组SNP信息生成的坐标轴,对样本的SNP位点信息进行标注:通过genetic track将样本的SNP位点信息映射到基于参考基因组SNP信息的坐标轴中,得到长度为N(N是指参考基因组SNP信息坐标轴的维度)维的特征向量Vx,如果Vx中的某一维i的位置被一个点或一个区域覆盖,则i的数值为1;反之,则为0;最终得到样本的特征表达Sj,j=1,…,M,共有M个样本。本申请实施例中,样本SNPs信息的genetic track特征表达,更有效衡量各个样本间的相似度。
步骤400:将样本的特征向量进行聚类,得到n个代表特征向量;
在步骤400中,对特征向量进行聚类具体为:首先对样本的特征表达Sj,j=1,…,M,进行归一化处理,然后通过Kmeans无监督聚类算法对样本的特征向量进行聚类,得到n个小groups,分别找出每个小groups中心的特征向量,并将其作为每个小groups的代表特征向量。n为聚类的类别数目,可根据实际应用进行设定。本申请通过将kmeans无监督聚类算法应用到全基因组关联分析中,可以有效的对样本进行去冗余。
步骤500:分别去掉n个小groups中代表特征向量以外的其他特征向量,并将n个代表特征向量进行合并,得到最终的非冗余样本。
在步骤500中,本申请根据各个特征向量之间的相似度,将相似度高的特征向量合并起来,去掉其余的特征向量,得到最终的非冗余样本,利用最后剩余的非冗余样本进行全基因组关联分析,大大降低了内存的需求,提高了效率。
请参阅图2,是本申请实施例的全基因组关联分析系统的结构示意图。本申请实施例的全基因组关联分析系统包括基因测序模块、SNP信息获取模块、特征提取模块、特征聚类模块和去冗余模块。
基因测序模块:用于对样本进行基因测序,得到样本的原始测序数据;
SNP信息获取模块:用于利用GATK对样本的原始测序数据进行SNP点位确定,得到样本的SNP位点信息;
特征提取模块:用于建立基于参考基因组SNP信息的坐标轴,并根据基于参考基因组SNP信息的坐标轴对样本的SNP位点信息进行特征提取,得到样本的特征向量;其中,特征提取的方式具体为:利用genetic track将参考基因组SNP信息生成一行的坐标轴,坐标轴上的每个点都是向量的每一维;基于参考基因组SNP信息生成的坐标轴,对样本的SNP位点信息进行标注:通过genetic track将样本的SNP位点信息映射到基于参考基因组SNP信息的坐标轴中,得到长度为N维的特征向量Vx,如果Vx中的某一维i的位置被一个点或一个区域覆盖,则i的数值为1;反之,则为0;最终得到样本的特征表达Sj,j=1,…,M,共有M个样本。本申请实施例中,样本SNPs信息的genetic track特征表达,更有效衡量各样本间的相似度。
特征聚类模块:用于将样本的特征向量进行聚类,得到n个代表特征向量;其中,对特征向量进行聚类具体为:首先对样本的特征表达Sj,j=1,…,M,进行归一化处理,然后通过Kmeans无监督聚类算法对样本的特征向量进行聚类,得到n个小groups,分别找出每个小groups中心的特征向量,并将其作为每个小groups的代表特征向量。n为聚类的类别数目,可根据实际应用进行设定。本申请通过将kmeans无监督聚类算法应用到全基因组关联分析中,可以有效的对样本进行去冗余。
去冗余模块:用于分别去掉n个小groups中代表特征向量以外的其他特征向量,并将n个代表特征向量进行合并,得到最终的非冗余样本。其中,本申请根据各个特征向量之间的相似度,将相似度高的特征向量合并起来,去掉其余的特征向量,得到最终的非冗余样本,利用最后剩余的非冗余样本进行全基因组关联分析,大大降低了内存的需求,提高了效率。
图3是本申请实施例提供的全基因组关联分析方法的硬件设备结构示意图。如图3所示,该设备包括一个或多个处理器以及存储器。以一个处理器为例,该设备还可以包括:输入系统和输出系统。
处理器、存储器、输入系统和输出系统可以通过总线或者其他方式连接,图3中以通过总线连接为例。
存储器作为一种非暂态计算机可读存储介质,可用于存储非暂态软件程序、非暂态计算机可执行程序以及模块。处理器通过运行存储在存储器中的非暂态软件程序、指令以及模块,从而执行电子设备的各种功能应用以及数据处理,即实现上述方法实施例的处理方法。
存储器可以包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需要的应用程序;存储数据区可存储数据等。此外,存储器可以包括高速随机存取存储器,还可以包括非暂态存储器,例如至少一个磁盘存储器件、闪存器件、或其他非暂态固态存储器件。在一些实施例中,存储器可选包括相对于处理器远程设置的存储器,这些远程存储器可以通过网络连接至处理系统。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。
输入系统可接收输入的数字或字符信息,以及产生信号输入。输出系统可包括显示屏等显示设备。
所述一个或者多个模块存储在所述存储器中,当被所述一个或者多个处理器执行时,执行上述任一方法实施例的以下操作:
步骤a:对样本的原始测序数据进行SNP点位确定,得到样本的SNP位点信息;
步骤b:建立基于参考基因组SNP信息的坐标轴,并根据基于参考基因组SNP信息的坐标轴对样本的SNP位点信息进行特征提取,得到样本的特征向量;
步骤c:将样本的特征向量进行聚类,得到样本的代表特征向量,并将所述代表特征向量进行合并,得到非冗余样本。
上述产品可执行本申请实施例所提供的方法,具备执行方法相应的功能模块和有益效果。未在本实施例中详尽描述的技术细节,可参见本申请实施例提供的方法。
本申请实施例提供了一种非暂态(非易失性)计算机存储介质,所述计算机存储介质存储有计算机可执行指令,该计算机可执行指令可执行以下操作:
步骤a:对样本的原始测序数据进行SNP点位确定,得到样本的SNP位点信息;
步骤b:建立基于参考基因组SNP信息的坐标轴,并根据基于参考基因组SNP信息的坐标轴对样本的SNP位点信息进行特征提取,得到样本的特征向量;
步骤c:将样本的特征向量进行聚类,得到样本的代表特征向量,并将所述代表特征向量进行合并,得到非冗余样本。
本申请实施例提供了一种计算机程序产品,所述计算机程序产品包括存储在非暂态计算机可读存储介质上的计算机程序,所述计算机程序包括程序指令,当所述程序指令被计算机执行时,使所述计算机执行以下操作:
步骤a:对样本的原始测序数据进行SNP点位确定,得到样本的SNP位点信息;
步骤b:建立基于参考基因组SNP信息的坐标轴,并根据基于参考基因组SNP信息的坐标轴对样本的SNP位点信息进行特征提取,得到样本的特征向量;
步骤c:将样本的特征向量进行聚类,得到样本的代表特征向量,并将所述代表特征向量进行合并,得到非冗余样本。
本申请实施例的全基因组关联分析方法、系统及电子设备针对大规模高维度的SNP信息—基因组水平上由单个核苷酸的变异所引起的DNA序列多态性,设计了基于大型数据的节约内存的处理架构,预先将数据进行去冗余处理,将原始数据进行聚类,对样本进行特征表达,找到重要的特征,降低数据的计算量,根据各个样本之间的相似度,将相似度高的样本合并起来,去掉其余的样本,利用最后剩余的样本数据进行全基因组关联分析,大大降低了内存的需求,提高了效率;在全基因组关联分析中,通过引入并行聚类技术,结合高性能计算系统的高速连接网络以及异构计算技术,实现高度复杂统计分析任务的分布式处理,获得更深层次的对于变异位点和疾病之间关系的理解,整体性能伸缩性和效率较高。
对所公开的实施例的上述说明,使本领域专业技术人员能够实现或使用本申请。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的,本文中所定义的一般原理可以在不脱离本申请的精神或范围的情况下,在其它实施例中实现。因此,本申请将不会被限制于本文所示的这些实施例,而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。
Claims (7)
1.一种全基因组关联分析方法,其特征在于,包括以下步骤:
步骤a:对样本的原始测序数据进行SNP点位确定,得到样本的SNP位点信息;
步骤b:建立基于参考基因组SNP信息的坐标轴,并根据基于参考基因组SNP信息的坐标轴对样本的SNP位点信息进行特征提取,得到样本的特征向量;
步骤c:将样本的特征向量进行聚类,得到样本的代表特征向量,并将所述代表特征向量进行合并,得到非冗余样本;
其中:在所述步骤b中,所述根据基于参考基因组SNP信息的坐标轴对样本的SNP位点信息进行特征提取具体为:利用基因追踪将参考基因组SNP信息生成一行的坐标轴,坐标轴上的每个点都是向量的每一维;通过基因追踪将样本的SNP位点信息映射到基于参考基因组SNP信息的坐标轴中,得到长度为N维的特征向量Vx,如果Vx中维i的位置被一个点或一个区域覆盖,则i的数值为1,反之,则为0;最终得到样本的特征表达Sj,j=1,…,M,共有M个样本;
在所述步骤c中,所述将样本的特征向量进行聚类具体为:对样本的特征表达Sj,j=1,…,M进行归一化处理,通过K均值无监督聚类算法对样本的特征向量进行聚类,得到n个小组,分别找出每个小组中心的特征向量,并将所述中心的特征向量作为每个小组的代表特征向量。
2.根据权利要求1所述的全基因组关联分析方法,其特征在于,所述步骤a还包括:对样本进行基因测序,得到样本的原始测序数据。
3.根据权利要求2所述的全基因组关联分析方法,其特征在于,在所述步骤a中,所述对样本的原始测序数据进行SNP点位确定具体为:利用基因组分析工具包对样本的原始测序数据进行SNP点位确定。
4.一种全基因组关联分析系统,其特征在于,包括:
SNP信息获取模块:用于对样本的原始测序数据进行SNP点位确定,得到样本的SNP位点信息;
特征提取模块:用于建立基于参考基因组SNP信息的坐标轴,并根据基于参考基因组SNP信息的坐标轴对样本的SNP位点信息进行特征提取,得到样本的特征向量;
特征聚类模块:用于将样本的特征向量进行聚类,得到样本的代表特征向量;
去冗余模块:用于将所述代表特征向量进行合并,得到非冗余样本;
其中:所述特征提取模块根据基于参考基因组SNP信息的坐标轴对样本的SNP位点信息进行特征提取具体为:利用基因追踪将参考基因组SNP信息生成一行的坐标轴,坐标轴上的每个点都是向量的每一维;通过基因追踪将样本的SNP位点信息映射到基于参考基因组SNP信息的坐标轴中,得到长度为N维的特征向量Vx,如果Vx中维i的位置被一个点或一个区域覆盖,则i的数值为1,反之,则为0;最终得到样本的特征表达Sj,j=1,…,M,共有M个样本;
所述特征聚类模块将样本的特征向量进行聚类具体为:对样本的特征表达Sj,j=1,…,M进行归一化处理,通过K均值无监督聚类算法对样本的特征向量进行聚类,得到n个小组,分别找出每个小组中心的特征向量,并将所述中心的特征向量作为每个小组的代表特征向量。
5.根据权利要求4所述的全基因组关联分析系统,其特征在于,还包括基因测序模块,所述基因测序模块用于对样本进行基因测序,得到样本的原始测序数据。
6.根据权利要求5所述的全基因组关联分析系统,其特征在于,所述SNP信息获取模块对样本的原始测序数据进行SNP点位确定具体为:利用基因组分析工具包对样本的原始测序数据进行SNP点位确定。
7.一种电子设备,包括:
至少一个处理器;以及
与所述至少一个处理器通信连接的存储器;其中,
所述存储器存储有可被所述一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行上述权利要求1至3任一项所述的全基因组关联分析方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810133320.2A CN110211631B (zh) | 2018-02-07 | 2018-02-07 | 一种全基因组关联分析方法、系统及电子设备 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810133320.2A CN110211631B (zh) | 2018-02-07 | 2018-02-07 | 一种全基因组关联分析方法、系统及电子设备 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN110211631A CN110211631A (zh) | 2019-09-06 |
CN110211631B true CN110211631B (zh) | 2024-02-09 |
Family
ID=67778575
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201810133320.2A Active CN110211631B (zh) | 2018-02-07 | 2018-02-07 | 一种全基因组关联分析方法、系统及电子设备 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110211631B (zh) |
Families Citing this family (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111028884B (zh) * | 2019-11-22 | 2023-08-25 | 中国科学院深圳先进技术研究院 | 基因型数据缺失的填充方法、装置及服务器 |
CN111091867B (zh) * | 2019-12-18 | 2021-11-09 | 中国科学院大学 | 基因变异位点筛选方法及系统 |
CN111261230B (zh) * | 2020-01-17 | 2023-09-15 | 中南大学湘雅三医院 | 基因组合确定方法和装置 |
CN111816250B (zh) * | 2020-06-17 | 2022-02-15 | 华中科技大学 | 将大分子复合物结构映射到基因组和突变数据库的方法 |
CN112458159A (zh) * | 2020-08-27 | 2021-03-09 | 中国人民解放军军事科学院军事医学研究院 | 与新型冠状病毒肺炎重症相关的21q22.3区域的多态性的检测方法、试剂盒及其应用 |
CN112017731B (zh) * | 2020-10-20 | 2021-01-12 | 平安科技(深圳)有限公司 | 一种数据处理方法、装置、服务器及计算机可读存储介质 |
Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2004044225A2 (en) * | 2002-11-11 | 2004-05-27 | Affymetrix, Inc. | Methods for identifying dna copy number changes |
KR20050083244A (ko) * | 2004-02-21 | 2005-08-26 | 삼성전자주식회사 | 누락된 유전자형 데이터 대체 방법 및 그 시스템 |
CN101539967A (zh) * | 2008-12-12 | 2009-09-23 | 深圳华大基因研究院 | 一种单核苷酸多态性检测方法 |
CN102952854A (zh) * | 2011-08-25 | 2013-03-06 | 深圳华大基因科技有限公司 | 单细胞分类和筛选方法及其装置 |
CN104541276A (zh) * | 2012-08-07 | 2015-04-22 | 皇家飞利浦有限公司 | 使用基于树的空间数据结构对基因数据集的群体分类 |
CN104615912A (zh) * | 2015-03-04 | 2015-05-13 | 中国农业科学院北京畜牧兽医研究所 | 一种改进的基于通路的全基因组关联分析算法 |
CN104651517A (zh) * | 2015-03-02 | 2015-05-27 | 南京农业大学 | 一种基于snpldb标记的限制性二阶段全基因组关联分析方法 |
CN106169034A (zh) * | 2016-05-26 | 2016-11-30 | 中国农业科学院作物科学研究所 | 基因组信息辅助育种方法ⅰ‑基于snp聚类信息和pav变异信息的育种亲本选择 |
CN106715712A (zh) * | 2014-09-30 | 2017-05-24 | 深圳华大基因科技有限公司 | 用于鉴定多个生物样本之间身份关系的方法和系统 |
Family Cites Families (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20090125248A1 (en) * | 2007-11-09 | 2009-05-14 | Soheil Shams | System, Method and computer program product for integrated analysis and visualization of genomic data |
WO2014080323A1 (en) * | 2012-11-26 | 2014-05-30 | Koninklijke Philips N.V. | Diagnostic genetic analysis using variant-disease association with patient-specific relevance assessment |
-
2018
- 2018-02-07 CN CN201810133320.2A patent/CN110211631B/zh active Active
Patent Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2004044225A2 (en) * | 2002-11-11 | 2004-05-27 | Affymetrix, Inc. | Methods for identifying dna copy number changes |
KR20050083244A (ko) * | 2004-02-21 | 2005-08-26 | 삼성전자주식회사 | 누락된 유전자형 데이터 대체 방법 및 그 시스템 |
CN101539967A (zh) * | 2008-12-12 | 2009-09-23 | 深圳华大基因研究院 | 一种单核苷酸多态性检测方法 |
CN102952854A (zh) * | 2011-08-25 | 2013-03-06 | 深圳华大基因科技有限公司 | 单细胞分类和筛选方法及其装置 |
CN104541276A (zh) * | 2012-08-07 | 2015-04-22 | 皇家飞利浦有限公司 | 使用基于树的空间数据结构对基因数据集的群体分类 |
CN106715712A (zh) * | 2014-09-30 | 2017-05-24 | 深圳华大基因科技有限公司 | 用于鉴定多个生物样本之间身份关系的方法和系统 |
CN104651517A (zh) * | 2015-03-02 | 2015-05-27 | 南京农业大学 | 一种基于snpldb标记的限制性二阶段全基因组关联分析方法 |
CN104615912A (zh) * | 2015-03-04 | 2015-05-13 | 中国农业科学院北京畜牧兽医研究所 | 一种改进的基于通路的全基因组关联分析算法 |
CN106169034A (zh) * | 2016-05-26 | 2016-11-30 | 中国农业科学院作物科学研究所 | 基因组信息辅助育种方法ⅰ‑基于snp聚类信息和pav变异信息的育种亲本选择 |
Non-Patent Citations (1)
Title |
---|
孟金涛,魏彦杰.基因与疾病关联分析中的宏基因组组 装工具SWAP-Meta.《科研信息化技术与应用》.2014,第第5卷卷(第第3期期),第30-37页. * |
Also Published As
Publication number | Publication date |
---|---|
CN110211631A (zh) | 2019-09-06 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110211631B (zh) | 一种全基因组关联分析方法、系统及电子设备 | |
Wei et al. | Detecting epistasis in human complex traits | |
Yang et al. | CMDR based differential evolution identifies the epistatic interaction in genome-wide association studies | |
AU2013312355A1 (en) | Using haplotypes to infer ancestral origins for recently admixed individuals | |
Huang et al. | Evaluation of variant detection software for pooled next-generation sequence data | |
He et al. | Population genetics, diversity and forensic characteristics of Tai–Kadai-speaking Bouyei revealed by insertion/deletions markers | |
Yoosefzadeh-Najafabadi et al. | Genome-wide association study statistical models: A review | |
Mu et al. | CNAPE: a machine learning method for copy number alteration prediction from gene expression | |
Guan et al. | DESeeker: detecting epistatic interactions using a two-stage differential evolution algorithm | |
Batnyam et al. | An efficient classification for single nucleotide polymorphism (snp) dataset | |
Kang et al. | EMINIM: an adaptive and memory-efficient algorithm for genotype imputation | |
KR20210110241A (ko) | 인간백혈구항원 하플로타입 기반 다중 분류 인공지능 모델을 이용한 면역항암제 적응증 및 반응 예측 시스템 및 방법 | |
Wang et al. | SCOPE: a normalization and copy number estimation method for single-cell DNA sequencing | |
Yang et al. | An improved fuzzy set-based multifactor dimensionality reduction for detecting epistasis | |
Liao et al. | A novel method to select informative SNPs and their application in genetic association studies | |
Cheng et al. | Inferring novel associations between SNP sets and gene sets in eQTL study using sparse graphical model | |
Wang | Big Data, Big Challenges. | |
EP2390811B1 (en) | Identification of ribosomal DNA sequences | |
Yang et al. | Fuzzy logic system application for detecting SNP-SNP interaction | |
Brinza et al. | Combinatorial methods for disease association search and susceptibility prediction | |
Tongnueasuk et al. | TAE-ML: a random forest model for detecting RNA editing sites | |
Lee et al. | Cluster-based multifactor dimensionality reduction method to identify gene-gene interactions for quantitative traits in genome-wide studies | |
Kwon et al. | GWAS-GMDR: A program package for genome-wide scan of gene-gene interactions with covariate adjustment based on multifactor dimensionality reduction | |
Patel et al. | Cross-validation and cross-study validation of chronic lymphocytic leukemia with exome sequences and machine learning | |
Zhang et al. | Epistasis detection using heterogeneous bio-molecular network |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |