CN110211631B

CN110211631B - 一种全基因组关联分析方法、系统及电子设备

Info

Publication number: CN110211631B
Application number: CN201810133320.2A
Authority: CN
Inventors: 郭宁; 魏彦杰; 张慧玲; 郑志春; 葛健秋; 冯圣中
Original assignee: Shenzhen Institute of Advanced Technology of CAS
Current assignee: Shenzhen Institute of Advanced Technology of CAS
Priority date: 2018-02-07
Filing date: 2018-02-07
Publication date: 2024-02-09
Anticipated expiration: 2038-02-07
Also published as: CN110211631A

Abstract

本申请属于基因数据处理技术领域，特别涉及一种全基因组关联分析方法、系统及电子设备。所述全基因组关联分析方法包括：步骤a：对样本的原始测序数据进行SNP点位确定，得到样本的SNP位点信息；步骤b：建立基于参考基因组SNP信息的坐标轴，并根据基于参考基因组SNP信息的坐标轴对样本的SNP位点信息进行特征提取，得到样本的特征向量；步骤c：将样本的特征向量进行聚类，得到样本的代表特征向量，并将所述代表特征向量进行合并，得到非冗余样本。本申请通过将原始数据进行聚类，对样本进行特征表达，找到重要的特征，降低数据的计算量，根据各个样本之间的相似度，将相似度高的样本合并起来，去掉其余的样本，大大降低了内存的需求，提高了效率。

Description

一种全基因组关联分析方法、系统及电子设备

技术领域

本申请属于基因数据处理技术领域，特别涉及一种全基因组关联分析方法、系统及电子设备。

背景技术

全基因组关联分析(Genome-Wide Association Studies,GWAS)在2005年首次提出，建立在SNP(Single Nucleotide Polymorphism)测序技术的基础上，在过去的十几年里，SNP测序技术的快速发展，全基因组关联分析已逐步在物种重要经济性状、植物育种、基因改良、尤其是在人类复杂疾病分析等方面起着越来越重要的作用。全基因组关联分析的目的是在整个基因组范围内找到与表型相关的易感基因位点变异。近年来，在全基因组关联分析领域涌现了大量的基因及其交互作用检测算法，尽管这些算法在领域内取得了巨大的成功，但当前依然存在着一些难题。

目前在进行全基因组关联分析时，采用病例-对照的思路(case-control)设计分析流程，设立两组样本，其中一组为健康的对照组，另一组为患病的病例组，主要的分析方法是在单位点关联分析的大规模列联表里对等位基因或者基因型进行计数，确认某一等位基因出现在病例组中的个数和出现在对照组中的个数，其比值的结果若大于1就可能表明这一等位基因与疾病相关。若采用多位点关联分析分析，则一般使用全部变异位点或根据连锁不平衡原理选择相邻的几个变异位点进行多变量的关联分析。常用的分析方法有基于单体型的分析、多变量logistic回归和多变量显著性差异检验。基于单体型的分析过程与根据发生比确认关联信息的过程类似，主要的好处是分析过程所要需要考虑的自由度很少，同时可以进一步把单体型信息作为分类标志与回归分析结合在一起进行深一层次的处理。多变量logistic回归则尝试在疾病与位点的基因型之间建立回归模型来检验是否有关联。

SNP是指在不同个体中基因组水平上的单个核苷酸——A,T,G,C的差异性。SNP在基因组中的分布并不均匀，SNP发生在非编码区的频率比在编码区更高一些，这是自然选择的结果[Kumanayake P C.Genome-wide SNP discovery in associating with humandiseases phenotypes[J].Sri Lanka Journal of Bio-Medical Informatics,2013,3(1)]，其它因素如基因重组和变异率也可以决定SNP密度[SNP Data Analysis in Genome-Wide Association Studies:[D].Hong Kong:The Hong Kong University of Scienceand Technology,2011]。在人群中SNP可以被指定一个次等位基因频率——在特定人群中在一个位点的最低等位基因频率。群体之间的差异性很大，所以某个SNP位点的等位基因在一个地域或种群可能很常见，而在其它地区就变得很稀有。个体之间的基因的多态性在背后影响着我们对疾病的易感性。疾病的严重程度和我们的身体响应治疗的方式也是遗传变异的表现形式。比如，在载脂蛋白E基因的单碱基突变与阿尔兹海默病相关联[E.Waldron,J.C.Whittaker,and D.J.Balding.Fine mapping of disease genes via haplotypeclustering.Genetic Epidemiology,2006,30(2):170–179]。据统计，SNP占所有已知多态性的90％以上，人类对药物敏感、疾病倾向及表型性状差异大多与SNP有关，所以SNP自1994年提出之后就一直是各领域的研究重点[Reich,D.E.,Lander,E.S.,On the allelicspectrum of human disease[J].TRENDS in Genetics,2001,17(9):502-510；Pritchard,J.K.,Cox,N.J.,The allelic architecture of human disease genes:common disease-common variant…or not？[J].Human molecular genetics,2002,11(20):2417-2423]。

在SNPS常用的穷尽搜索方法是指在全基因组关联高维数据下，列举所有可能的SNPS及SNPS组合，然后一一对应分别建模用以寻找易感基因位点或基因位点组合，如美国密歇根大学的Nelson等提出的组合划分方法(combinatorial partitioning method,CPM)[Nelson,M.R.,Kardia,S.L.,Ferrell,R.E.,etc.,A combinatorial partitioningmethod to identify multilocus genotypic partitions that predict quantitativetrait variation[J].Genome Res,Mar,2001,11(3):458-70]，华盛顿大学圣路易斯药学院的Culverhouse等提出的限制划分方法(restricted partitioning method,RPM)[Culverhouse,R.,Klein,T.,Shannon,W.,Detecting epistatic interactionscontributing to quantitative traits[J].Genet Epidemiol,Sep,2004,27(2):141-52]，牛津大学统计系的Marchini等提出的全交互模型(Full Interaction Model，FIM)[Marchini,J.,Donnelly,P.,Cardon,L.R.,Genome-wide strategies for detectingmultiple loci that influence complex diseases[J].Nat Genet,Apr,2005,37(4):413-7]，范德比尔特大学的Richie等提出的多因子降维法(multifactor dimensionalityreduction,MDR)[Ritchie,M.D.,Hahn,L.W.,Roodi,N.,etc.,Multifactor-dimensionality reduction reveals high-order interactions among estrogen-metabolism genes in sporadic breast cancer[J].The American Journal of HumanGenetics,2001,69(1):138-147]，香港科技大学的wan等提出的基于布尔运算的筛选检测算法(BOolean Operation-based Screening and Testing，BOOST)[Wan,X.,Yang,C.,Yang,Q.,etc.,BOOST:A fast approach to detecting gene-gene interactions ingenome-wide case-control studies[J].The American Journal of Human Genetics,2010,87(3):325-340]，北卡罗来纳大学圣堂山分校生物统计系的zhang等提出的快速方差分析法(Fast analysis of variance，Fast ANOVA)[Zhang,X.,Zou,F.,Wang,W.Fastanova:an efficient algorithm for genome-wide association study[A],InProceedings of the 14th ACM SIGKDD international conference on Knowledgediscovery and data mining[C],2008:821-829]，基于凸优化的上位性检测算法(ConvexOptimization-based Epistasis detection algorithm，COE)[Zhang,X.,Pan,F.,Xie,Y.,etc.COE:a general approach for efficient genome-wide two-locus epistasis testin disease association study[A],In Research in Computational MolecularBiology[C],2009:253-269]及基于树的上位效应关联检测算法(Tree-based EpistasisAssociation Mapping，TEAM)等一系列算法[Zhang,X.,Huang,S.,Zou,F.,etc.,TEAM:efficient two-locus epistasis tests in human genome-wide association study[J].Bioinformatics,2010,26(12):1217-1227]。

上述中，目前的全基因组关联分析中的SNPS信息量特别大，一般引入上千个个体，每个个体又会产生至少50万个SNP marker，因此在全基因组关联分析中，会拥有数十亿个基因型，传统的计算方法已经不能满足大规模的计算需求，这些数据的计算对计算机是个巨大的挑战，特别是对内存的要求。如何高效的利用内存来存贮基因型数据在全基因组关联分析中占了非常重的位置，例如，在Framingham Heart Study(FHS)项目里，有12461个样本和550000个SNP信息，这样规格的数据需要占用多于6.6G的内存来产生简单的可以计算的输入输出数据。目前一般的电脑内存为2G左右，远远不能满足全基因组关联分析中的数据部分。

发明内容

本申请提供了一种全基因组关联分析方法、系统及电子设备，旨在至少在一定程度上解决现有技术中的上述技术问题之一。

为了解决上述问题，本申请提供了如下技术方案：

一种全基因组关联分析方法，包括以下步骤：

步骤a：对样本的原始测序数据进行SNP点位确定，得到样本的SNP位点信息；

步骤b：建立基于参考基因组SNP信息的坐标轴，并根据基于参考基因组SNP信息的坐标轴对样本的SNP位点信息进行特征提取，得到样本的特征向量；

步骤c：将样本的特征向量进行聚类，得到样本的代表特征向量，并将所述代表特征向量进行合并，得到非冗余样本。

本申请实施例采取的技术方案还包括：所述步骤a还包括：对样本进行基因测序，得到样本的原始测序数据。

本申请实施例采取的技术方案还包括：在所述步骤a中，所述对样本的原始测序数据进行SNP点位确定具体为：利用GATK对样本的原始测序数据进行SNP点位确定。

本申请实施例采取的技术方案还包括：在所述步骤b中，所述根据基于参考基因组SNP信息的坐标轴对样本的SNP位点信息进行特征提取具体为：利用genetic track将参考基因组SNP信息生成一行的坐标轴，坐标轴上的每个点都是向量的每一维；通过genetictrack将样本的SNP位点信息映射到基于参考基因组SNP信息的坐标轴中，得到长度为N维的特征向量Vx，如果Vx中维i的位置被一个点或一个区域覆盖，则i的数值为1，反之，则为0；最终得到样本的特征表达Sj，j＝1,…,M，共有M个样本。

本申请实施例采取的技术方案还包括：在所述步骤c中，所述将样本的特征向量进行聚类具体为：对样本的特征表达Sj，j＝1,…,M进行归一化处理，通过Kmeans无监督聚类算法对样本的特征向量进行聚类，得到n个小groups，分别找出每个小groups中心的特征向量，并将所述中心的特征向量作为每个小groups的代表特征向量。

本申请实施例采取的另一技术方案为：一种全基因组关联分析系统，包括：

SNP信息获取模块：用于对样本的原始测序数据进行SNP点位确定，得到样本的SNP位点信息；

特征提取模块：用于建立基于参考基因组SNP信息的坐标轴，并根据基于参考基因组SNP信息的坐标轴对样本的SNP位点信息进行特征提取，得到样本的特征向量；

特征聚类模块：用于将样本的特征向量进行聚类，得到样本的代表特征向量；

去冗余模块：用于将所述代表特征向量进行合并，得到非冗余样本。

本申请实施例采取的技术方案还包括基因测序模块，所述基因测序模块用于对样本进行基因测序，得到样本的原始测序数据。

本申请实施例采取的技术方案还包括：所述SNP信息获取模块对样本的原始测序数据进行SNP点位确定具体为：利用GATK对样本的原始测序数据进行SNP点位确定。

本申请实施例采取的技术方案还包括：所述特征提取模块根据基于参考基因组SNP信息的坐标轴对样本的SNP位点信息进行特征提取具体为：利用genetic track将参考基因组SNP信息生成一行的坐标轴，坐标轴上的每个点都是向量的每一维；通过genetictrack将样本的SNP位点信息映射到基于参考基因组SNP信息的坐标轴中，得到长度为N维的特征向量Vx，如果Vx中维i的位置被一个点或一个区域覆盖，则i的数值为1，反之，则为0；最终得到样本的特征表达Sj，j＝1,…,M，共有M个样本。

本申请实施例采取的技术方案还包括：所述特征聚类模块将样本的特征向量进行聚类具体为：对样本的特征表达Sj，j＝1,…,M进行归一化处理，通过Kmeans无监督聚类算法对样本的特征向量进行聚类，得到n个小groups，分别找出每个小groups中心的特征向量，并将所述中心的特征向量作为每个小groups的代表特征向量。

本申请实施例采取的又一技术方案为：一种电子设备，包括：

至少一个处理器；以及

与所述至少一个处理器通信连接的存储器；其中，

所述存储器存储有可被所述一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行上述的全基因组关联分析方法的以下操作：

相对于现有技术，本申请实施例产生的有益效果在于：本申请实施例的全基因组关联分析方法、系统及电子设备针对大规模高维度的SNP信息—基因组水平上由单个核苷酸的变异所引起的DNA序列多态性，设计了基于大型数据的节约内存的处理架构，预先将数据进行去冗余处理，将原始数据进行聚类，对样本进行特征表达，找到重要的特征，降低数据的计算量，根据各个样本之间的相似度，将相似度高的样本合并起来，去掉其余的样本，利用最后剩余的样本数据进行全基因组关联分析，大大降低了内存的需求，提高了效率；在全基因组关联分析中，通过引入并行聚类技术，结合高性能计算系统的高速连接网络以及异构计算技术，实现高度复杂统计分析任务的分布式处理，获得更深层次的对于变异位点和疾病之间关系的理解，整体性能伸缩性和效率较高。

附图说明

图1是本申请实施例的全基因组关联分析方法的流程图；

图2是本申请实施例的全基因组关联分析系统的结构示意图；

图3是本申请实施例提供的全基因组关联分析方法的硬件设备结构示意图。

具体实施方式

为了使本申请的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本申请进行进一步详细说明。应当理解，此处所描述的具体实施例仅用以解释本申请，并不用于限定本申请。

请参阅图1，是本申请实施例的全基因组关联分析方法的流程图。本申请实施例的全基因组关联分析方法包括以下步骤：

步骤100：对样本进行基因测序，得到样本的原始测序数据；

步骤200：利用GATK(The Genome Analysis Toolkit，是Broad Institute开发的用于二代重测序数据分析的一款软件)对样本的原始测序数据进行SNP点位确定，得到样本的SNP位点信息；

步骤300：建立基于参考基因组SNP信息的坐标轴，并根据基于参考基因组SNP信息的坐标轴对样本的SNP位点信息进行特征提取，得到样本的特征向量；

在步骤300中，特征提取的方式具体为：利用genetic track将参考基因组SNP信息生成一行的坐标轴，坐标轴上的每个点都是向量的每一维；基于参考基因组SNP信息生成的坐标轴，对样本的SNP位点信息进行标注：通过genetic track将样本的SNP位点信息映射到基于参考基因组SNP信息的坐标轴中，得到长度为N(N是指参考基因组SNP信息坐标轴的维度)维的特征向量Vx，如果Vx中的某一维i的位置被一个点或一个区域覆盖，则i的数值为1；反之，则为0；最终得到样本的特征表达Sj，j＝1,…,M，共有M个样本。本申请实施例中，样本SNPs信息的genetic track特征表达，更有效衡量各个样本间的相似度。

步骤400：将样本的特征向量进行聚类，得到n个代表特征向量；

在步骤400中，对特征向量进行聚类具体为：首先对样本的特征表达Sj，j＝1,…,M，进行归一化处理，然后通过Kmeans无监督聚类算法对样本的特征向量进行聚类，得到n个小groups，分别找出每个小groups中心的特征向量，并将其作为每个小groups的代表特征向量。n为聚类的类别数目，可根据实际应用进行设定。本申请通过将kmeans无监督聚类算法应用到全基因组关联分析中，可以有效的对样本进行去冗余。

步骤500：分别去掉n个小groups中代表特征向量以外的其他特征向量，并将n个代表特征向量进行合并，得到最终的非冗余样本。

在步骤500中，本申请根据各个特征向量之间的相似度，将相似度高的特征向量合并起来，去掉其余的特征向量，得到最终的非冗余样本，利用最后剩余的非冗余样本进行全基因组关联分析，大大降低了内存的需求，提高了效率。

请参阅图2，是本申请实施例的全基因组关联分析系统的结构示意图。本申请实施例的全基因组关联分析系统包括基因测序模块、SNP信息获取模块、特征提取模块、特征聚类模块和去冗余模块。

基因测序模块：用于对样本进行基因测序，得到样本的原始测序数据；

SNP信息获取模块：用于利用GATK对样本的原始测序数据进行SNP点位确定，得到样本的SNP位点信息；

特征提取模块：用于建立基于参考基因组SNP信息的坐标轴，并根据基于参考基因组SNP信息的坐标轴对样本的SNP位点信息进行特征提取，得到样本的特征向量；其中，特征提取的方式具体为：利用genetic track将参考基因组SNP信息生成一行的坐标轴，坐标轴上的每个点都是向量的每一维；基于参考基因组SNP信息生成的坐标轴，对样本的SNP位点信息进行标注：通过genetic track将样本的SNP位点信息映射到基于参考基因组SNP信息的坐标轴中，得到长度为N维的特征向量Vx，如果Vx中的某一维i的位置被一个点或一个区域覆盖，则i的数值为1；反之，则为0；最终得到样本的特征表达Sj，j＝1,…,M，共有M个样本。本申请实施例中，样本SNPs信息的genetic track特征表达，更有效衡量各样本间的相似度。

特征聚类模块：用于将样本的特征向量进行聚类，得到n个代表特征向量；其中，对特征向量进行聚类具体为：首先对样本的特征表达Sj，j＝1,…,M，进行归一化处理，然后通过Kmeans无监督聚类算法对样本的特征向量进行聚类，得到n个小groups，分别找出每个小groups中心的特征向量，并将其作为每个小groups的代表特征向量。n为聚类的类别数目，可根据实际应用进行设定。本申请通过将kmeans无监督聚类算法应用到全基因组关联分析中，可以有效的对样本进行去冗余。

去冗余模块：用于分别去掉n个小groups中代表特征向量以外的其他特征向量，并将n个代表特征向量进行合并，得到最终的非冗余样本。其中，本申请根据各个特征向量之间的相似度，将相似度高的特征向量合并起来，去掉其余的特征向量，得到最终的非冗余样本，利用最后剩余的非冗余样本进行全基因组关联分析，大大降低了内存的需求，提高了效率。

图3是本申请实施例提供的全基因组关联分析方法的硬件设备结构示意图。如图3所示，该设备包括一个或多个处理器以及存储器。以一个处理器为例，该设备还可以包括：输入系统和输出系统。

处理器、存储器、输入系统和输出系统可以通过总线或者其他方式连接，图3中以通过总线连接为例。

存储器作为一种非暂态计算机可读存储介质，可用于存储非暂态软件程序、非暂态计算机可执行程序以及模块。处理器通过运行存储在存储器中的非暂态软件程序、指令以及模块，从而执行电子设备的各种功能应用以及数据处理，即实现上述方法实施例的处理方法。

存储器可以包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需要的应用程序；存储数据区可存储数据等。此外，存储器可以包括高速随机存取存储器，还可以包括非暂态存储器，例如至少一个磁盘存储器件、闪存器件、或其他非暂态固态存储器件。在一些实施例中，存储器可选包括相对于处理器远程设置的存储器，这些远程存储器可以通过网络连接至处理系统。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。

输入系统可接收输入的数字或字符信息，以及产生信号输入。输出系统可包括显示屏等显示设备。

所述一个或者多个模块存储在所述存储器中，当被所述一个或者多个处理器执行时，执行上述任一方法实施例的以下操作：

上述产品可执行本申请实施例所提供的方法，具备执行方法相应的功能模块和有益效果。未在本实施例中详尽描述的技术细节，可参见本申请实施例提供的方法。

本申请实施例提供了一种非暂态(非易失性)计算机存储介质，所述计算机存储介质存储有计算机可执行指令，该计算机可执行指令可执行以下操作：

本申请实施例提供了一种计算机程序产品，所述计算机程序产品包括存储在非暂态计算机可读存储介质上的计算机程序，所述计算机程序包括程序指令，当所述程序指令被计算机执行时，使所述计算机执行以下操作：

本申请实施例的全基因组关联分析方法、系统及电子设备针对大规模高维度的SNP信息—基因组水平上由单个核苷酸的变异所引起的DNA序列多态性，设计了基于大型数据的节约内存的处理架构，预先将数据进行去冗余处理，将原始数据进行聚类，对样本进行特征表达，找到重要的特征，降低数据的计算量，根据各个样本之间的相似度，将相似度高的样本合并起来，去掉其余的样本，利用最后剩余的样本数据进行全基因组关联分析，大大降低了内存的需求，提高了效率；在全基因组关联分析中，通过引入并行聚类技术，结合高性能计算系统的高速连接网络以及异构计算技术，实现高度复杂统计分析任务的分布式处理，获得更深层次的对于变异位点和疾病之间关系的理解，整体性能伸缩性和效率较高。

对所公开的实施例的上述说明，使本领域专业技术人员能够实现或使用本申请。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的，本文中所定义的一般原理可以在不脱离本申请的精神或范围的情况下，在其它实施例中实现。因此，本申请将不会被限制于本文所示的这些实施例，而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

Claims

1.一种全基因组关联分析方法，其特征在于，包括以下步骤：

步骤c：将样本的特征向量进行聚类，得到样本的代表特征向量，并将所述代表特征向量进行合并，得到非冗余样本；

其中：在所述步骤b中，所述根据基于参考基因组SNP信息的坐标轴对样本的SNP位点信息进行特征提取具体为：利用基因追踪将参考基因组SNP信息生成一行的坐标轴，坐标轴上的每个点都是向量的每一维；通过基因追踪将样本的SNP位点信息映射到基于参考基因组SNP信息的坐标轴中，得到长度为N维的特征向量Vx，如果Vx中维i的位置被一个点或一个区域覆盖，则i的数值为1，反之，则为0；最终得到样本的特征表达Sj，j＝1,…,M，共有M个样本；

在所述步骤c中，所述将样本的特征向量进行聚类具体为：对样本的特征表达Sj，j＝1,…,M进行归一化处理，通过K均值无监督聚类算法对样本的特征向量进行聚类，得到n个小组，分别找出每个小组中心的特征向量，并将所述中心的特征向量作为每个小组的代表特征向量。

2.根据权利要求1所述的全基因组关联分析方法，其特征在于，所述步骤a还包括：对样本进行基因测序，得到样本的原始测序数据。

3.根据权利要求2所述的全基因组关联分析方法，其特征在于，在所述步骤a中，所述对样本的原始测序数据进行SNP点位确定具体为：利用基因组分析工具包对样本的原始测序数据进行SNP点位确定。

4.一种全基因组关联分析系统，其特征在于，包括：

去冗余模块：用于将所述代表特征向量进行合并，得到非冗余样本；

其中：所述特征提取模块根据基于参考基因组SNP信息的坐标轴对样本的SNP位点信息进行特征提取具体为：利用基因追踪将参考基因组SNP信息生成一行的坐标轴，坐标轴上的每个点都是向量的每一维；通过基因追踪将样本的SNP位点信息映射到基于参考基因组SNP信息的坐标轴中，得到长度为N维的特征向量Vx，如果Vx中维i的位置被一个点或一个区域覆盖，则i的数值为1，反之，则为0；最终得到样本的特征表达Sj，j＝1,…,M，共有M个样本；

所述特征聚类模块将样本的特征向量进行聚类具体为：对样本的特征表达Sj，j＝1,…,M进行归一化处理，通过K均值无监督聚类算法对样本的特征向量进行聚类，得到n个小组，分别找出每个小组中心的特征向量，并将所述中心的特征向量作为每个小组的代表特征向量。

5.根据权利要求4所述的全基因组关联分析系统，其特征在于，还包括基因测序模块，所述基因测序模块用于对样本进行基因测序，得到样本的原始测序数据。

6.根据权利要求5所述的全基因组关联分析系统，其特征在于，所述SNP信息获取模块对样本的原始测序数据进行SNP点位确定具体为：利用基因组分析工具包对样本的原始测序数据进行SNP点位确定。

7.一种电子设备，包括：

至少一个处理器；以及

与所述至少一个处理器通信连接的存储器；其中，

所述存储器存储有可被所述一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行上述权利要求1至3任一项所述的全基因组关联分析方法。