CN110910959B - 群体遗传进化图谱及其构建方法 - Google Patents
群体遗传进化图谱及其构建方法 Download PDFInfo
- Publication number
- CN110910959B CN110910959B CN201911068002.3A CN201911068002A CN110910959B CN 110910959 B CN110910959 B CN 110910959B CN 201911068002 A CN201911068002 A CN 201911068002A CN 110910959 B CN110910959 B CN 110910959B
- Authority
- CN
- China
- Prior art keywords
- region
- centromere
- phylogenetic tree
- snp sites
- snp
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B30/00—ICT specially adapted for sequence analysis involving nucleotides or amino acids
- G16B30/10—Sequence alignment; Homology search
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/36—Creation of semantic tools, e.g. ontology or thesauri
- G06F16/367—Ontology
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02A—TECHNOLOGIES FOR ADAPTATION TO CLIMATE CHANGE
- Y02A90/00—Technologies having an indirect contribution to adaptation to climate change
- Y02A90/10—Information and communication technologies [ICT] supporting adaptation to climate change, e.g. for weather forecasting or climate simulation
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Theoretical Computer Science (AREA)
- Proteomics, Peptides & Aminoacids (AREA)
- Medical Informatics (AREA)
- Health & Medical Sciences (AREA)
- Analytical Chemistry (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Biotechnology (AREA)
- Evolutionary Biology (AREA)
- General Health & Medical Sciences (AREA)
- Biophysics (AREA)
- Spectroscopy & Molecular Physics (AREA)
- Chemical & Material Sciences (AREA)
- Animal Behavior & Ethology (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)
Abstract
本发明提供了一种群体遗传进化图谱及其构建方法。该构建方法包括选择重组冷点区域;利用重组冷点区域的SNP位点构建系统进化树;对系统进化树进行聚类分析,确定物种之间的演化关系,从而获得群体遗传进化图谱。通过选取重组冷点区域(如着丝粒区域)的SNP位点进行系统进化树的构建,一方面由于重组发生率低,在亲本与子代之间稳定遗传,因而遗传进化关系明确,使得构建的系统进化树更准确,另一方面所选用的序列中SNP位点的数量相比全基因组序列的少,又较单倍型分析法中的SNP位点多和全面。因而,能够实现快速准确地构建系统进化树。
Description
技术领域
本发明涉及群体遗传进化领域,具体而言,涉及一种群体遗传进化图谱及其构建方法。
背景技术
系统发育就是指生物谱系的分支演化历史,或是指生命自起源后的整个遗传进化史。
系统发育树是描述物种间或操作分类单元间系统发育关系的图论模型。操作分类单元可以是现存物种、基因、基因组或者是任何其他可操作单元。系统发育树的构建就是从现存物种和古生物学记录存留的证据来重现生命进化史的科学探索。用伟大的进化生物学家的名言“如果没有进化论,生物学的一切便毫无意义”来强调系统发育树的重要性是恰如其分的。
由于技术限制,最初分类学家只能依靠生物的形态特征来推断物种间的亲缘关系。随着分子生物学研究的不断发展和检测核苷酸序列和各种氨基酸序列技术的成熟,使得从小分子层面上构建系统发育树成为可能。近年来测序技术的迅猛发展,使得测序成本降低,促使人们可从更大范围上建立物种间的遗传进化关系。分子水平的进化研究具有传统方法不可比拟的优势,可从核酸和氨基酸序列差异程度来精确判断物种进化的时期和速度,确定亲缘关系极远的生物体间的进化关系,同时能对体型较小的微生物间的进化关系进行深入研究。
目前许多系统发育树构建算法都是从解决最优化问题出发,如最大简约法、最大似然法等,但是这些方法受物种数量严格限制,当物种数量较多时,构建系统发育树是一个典型的难题。这意味着在多项式时间内不能被计算机求解,只能被非确定机求解;不能得到绝对数值解,只能通过比较相对解来确定最合适的答案。
目前对于进化的研究主要是利用全基因组序列或者与进化相关的基因序列,构建进化树,根据进化树分支聚集阐释进化关系。
1)基于全基因组序列,由于进化过程中会发生遗传重组,子代是两个亲本的全基因组序列重组的结果,不能明确直系祖先的来源地;并且利用全基因组构建进化树所需时间长。
2)驯化基因在进化过程中在个体间会发生基因的流动,容易误导形成单一起源模式。
3)单倍型分析,所用的SNP数量较少,对于进化的研究比较片面,可能丢失了重要信息。
因此,如何快速准确地构建系统进化树,目前还没有有效的解决方案。
发明内容
本发明的主要目的在于提供一种群体遗传进化图谱及其构建方法,以解决现有技术中所构建的群体遗传进化图谱(即系统进化树)不够准确的问题。
为了实现上述目的,本发明提供了一种构建群体遗传进化图谱的方法,该方法包括:选择重组冷点区域;利用重组冷点区域的SNP位点构建系统进化树;对系统进化树进行聚类分析,确定物种之间的演化关系,从而获得群体遗传进化图谱。
进一步地,选择重组冷点区域步骤包括:对每条染色体单独处理,在每条染色体中随机选取200个以上满足质量要求的SNP位点进行连锁不平衡分析,得到一个或多个连锁区域,重组冷点区域为连锁区域的至少部分区域。
进一步地,连锁区域包括着丝粒区域,着丝粒区域包括:着丝粒位点、着丝粒位点的左侧翼区及右侧翼区,其中,左侧翼区和右侧翼区的位置是根据连锁不平衡分析确定,着丝粒位点的位置通过着丝粒特异性的重复序列与参考基因组序列比对确定。
进一步地,左侧翼区和右侧翼区分别包括多个区段,方法还包括去除SNP位点数量显著低于其余区段中SNP位点数量的区段。
进一步地,去除SNP位点数量显著低于其余区段中SNP位点数量的区段包括:将左侧翼区和右侧翼区划分为多个等长度的窗口,各区段含有相同或不同数量的窗口,若至少一个窗口内出现的SNP位点数量显著低于所有窗口的SNP位点的平均数量,则去除对应的区段。
进一步地,将左侧翼区和右侧翼区划分为多个1~100kb的窗口。
进一步地,满足质量要求的SNP位点指满足缺失率<50%且最小等位基因频率>5%的SNP位点。
进一步地,采用邻接法构建系统进化树。
进一步地,根据构建的系统进化树,确定直系祖先的来源地。
进一步地,在聚类分析步骤中,根据分支聚类确定直系祖先的来源地,并通过分析系统进化树中各物种的先后顺序,确定物种之间的演化关系,从而获得群体遗传进化图谱。
应用本发明的技术方案,重组冷点区域,如着丝粒区域的序列,在进化过程中,着丝粒左右两端不发生重组的序列(包括整段着丝粒去掉重复序列高的部分,比如重复50次以上的部分),重组频率很低,能够稳定的遗传给后代,因而亲本与子代的遗传关系明确,能够更大程度的还原进化的过程。上述方法通过选取重组冷点区域(如着丝粒区域)的SNP位点进行系统进化树的构建,一方面由于重组发生率低,在亲本与子代之间稳定遗传,因而遗传进化关系明确,使得构建的系统进化树更准确,另一方面所选用的序列中SNP位点的数量相比全基因组序列的少,又较单倍型分析法中的SNP位点多和全面。因而,能够实现快速准确地构建系统进化树。
附图说明
构成本申请的一部分的说明书附图用来提供对本发明的进一步理解,本发明的示意性实施例及其说明用于解释本发明,并不构成对本发明的不当限定。在附图中:
图1示出了根据本发明的实施例1的方法所确定的着丝粒区域的示意图;以及
图2示出了根据本发明的实施例1的方法所构建的12条水稻染色体的进化树;
图3示出了根据现有技术的全基因组的方法所构建的水稻染色体的进化树。
具体实施方式
需要说明的是,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互组合。下面将结合实施例来详细说明本发明。
术语解释:
系统进化树(phylogenetic tree)又叫系统发育树或群体遗传进化图谱,它是用类似树状分支的图来表示各种(类)生物之间的亲缘关系,通过对生物序列的研究来推测物种的进化历史。主要是通过DNA序列、蛋白质序列或蛋白质结构等来构建系统发育树,或者通过蛋白质结构比较,包括刚体结构叠合和多结构特征比较等方法建立结构进化树。
系统发育树主要是它的拓扑结构和分支长度。根据拓扑结构的不同,系统发育树可以分为有根树和无根树。
有根树有一个根节点,代表所有其他节点的共同祖先,从根节点只有唯一路径进化到达其他任何节点。
无根树只表明了节点之间的关系,没有进化方向,但是通过引入外群(outgroup)或外部参考物种,可以在无根树中指派根节点。
系统发育树构建的一般过程为:选择同源序列---序列比对---计算推断进化树---评估进化树。
系统发育树构建的第一步进行多序列比对,常用的软件包括MEGA,Cluster X,Muscle,phylip等。其中,MEGA是最常用的比对建树软件,优点是可视化图形界面,简单方便;缺点是比对速度慢,输出格式单一。Cluster X的优点是图形界面,可输出多种格式,缺点慢。Muscle,phylip运算快,但需要输入代码。
第二步,选择建树方法,构建系统发育树的常用方法有邻接法(neighbor-joining)和最大简约法(maximum parsimony)
邻接法的思想不仅仅计算最小两两比对距离,还对整个树的长度进行最小化,从而对树的拓扑结构进行限制。这种算法由一颗星状树开始,所有的物种都从一个中心节点出发,然后通过计算最小分支长度的和相继寻找到近邻的两个序列,每一轮过冲中考虑所有可能的序列对,把能使树的整个分支长度最小的序列对一组,从而产生新的距离矩阵,指导寻找所有的近邻序列。
最大简约法是基于奥卡姆剃刀原则(Occam’s razor)发展起来的一种进化树重构的方法,即突变越少的进化关系就越可能是物种之间的真实的进化关系,系统发生突变越少,该系统发生的结论就越可信。用最大简约法推断系统发生关系,首先判断信息位点,信息位点是那些产生突变,能把其中的一棵树同其他树区别开来的位点。最大简约法中只考虑位点信息而不考虑非位点信息。
用MEGA6根据细菌的16s rRNA基因构建系统发育树的步骤,示例如下:
首先,准备要建树的序列,可以从NCBI上通过Blast查找得到相近的序列,以fasta格式置于txt文件中。
其次,打开MEGA6,按如下操作步骤进行:Align(比对)---Edit/Build Alignment(编辑/建立比对)---Creat a new Alignment---DNA(or Protein)(此处打开了一个序列比对的新窗口)—Edit---Insert sequence from file(选择已存储序列的文件)---Alignment---Alignment by ClustalW(点OK)---等待比对(比对结果相同的碱基会在同一列上)---data---Phylogenetic Analysis(即回到主界面进行系统发育树的构建)---phylogeny(可以选择构建系统发育树的方法,一般是邻接法和最大简约法)---Constructneighbor-join(此处选择构建邻接树,会出现一个窗口)---在Test of phylogeny选择Bootstap method(自展法),并设定其值为1000----complete---这样系统发育树就构建好了,在树的生成界面可以对其形状大小等进行调节。
Haploview是基于图形界面的软件,是进行连锁不平衡(LD)分析的主流软件之一,能够根据SNP位点对各染色体上的不同区域的连锁紧密程度进行图形化展示,从而可以看到不同的连锁区域(block)。
如背景技术中所提到的,现有技术中难以快速准确地构建系统进化树,为改善这一状况,本申请的发明人综合分析现有的系统进化树的构建方法,现有方法都侧重从构建进化树的算法本身进行优化,比如,邻接法或最大简约法。发明人认为,这些方法无论怎么优化,其都要基于所选择的SNP位点进行构建,因而从选择SNP位点的角度来进行改进,更有助于提高系统进化树构建的准确性。本着这样的改进思路,发明人对所选择的目标区域的SNP进行了深入研究。具体分析如下:
现有技术中通过全基因组的SNP位点进行系统进化树的构建方法,由于大量杂交的存在,在进化过程中,全基因组层面上会有不同程度的遗传重组发生或者基因流动,导致遗传信息混乱;并且全基因组SNP数量较多,在构建进化树的时候,需要的时间较长。而基于单倍型的SNP位点进行系统进化树的构建方法,通常情况下单倍型序列较短,SNP较少及遗传关系存在偏差的缺陷。因此,发明人认为,所选取的SNP位点在进化过程中是否发生过一次或多次重组,利用上述方法无法体现出来是导致现有方法构建的进化关系不够准确的原因,因此,发明人想到可以尝试利用同源重组这一生物进化的重要方式去理解和选择SNP位点。
同源重组是普遍存在的生物学现象,从噬菌体、细菌到真核生物均有存在。在植物中,同源重组是一个极其关键的过程,它不仅在植物基因组进化中发挥着重要作用,而且与植物育种的成败密切相关。研究表明同源重组发生的频率在染色体上的分布是不均匀的,有些区域重组频率高,有些区域重组频率很低甚至没有重组发生(因此,这些区域被称为重组冷点区域)。
染色体主缢痕处的特殊分化区域由富含重复序列的异染色质组成,称为着丝粒。真核细胞的每条染色体都具备一个着丝粒,通过着丝粒附着纺锤丝,进行细胞分裂及染色体分离。在所有的真核细胞中,着丝粒对于有丝分裂和减数分裂II的姐妹染色单体,以及减数分裂I的同源染色体,正确分离至子细胞,起着关键作用。着丝粒参与的主要功能包括,S期至分裂后期维持染色单体黏合,分裂中期附着纺锤丝,在分裂中期的初期和分裂后期参与染色体的迁移作用。在每个细胞周期之中以及细胞分裂的各个世代之间,每条染色体的着丝粒位置都保持不变,着丝粒的位置在生物进化中能够稳定遗传。在减数分裂时,着丝点同源染色体间的交换会被抑制(故着丝点区域也是一种重组冷点区域),在这些区域的重组会引起染色体的错分和非整倍性。
有丝分裂和减数分裂过程中着丝粒具有两个功能:一个是姐妹染色单体附着位点和分离位点,另一个是控制动粒组装和纺锤丝微管附着,确保染色体正确分离及遗传信息准确传递。着丝粒及周缘异染色质区域DNA序列重组频率较低,在缺少重复序列的重组冷点区域存在少数具有转录活性的功能基因。
相对古老的短花药野生稻起源时间为中新世中期10~15百万年前,与染色体短臂上的功能基因相比,着丝粒功能基因长期承受负(纯化)选择压力,序列分化和突变速率显著降低,暗示维持着丝粒功能基因转录活性的机制,与维持着丝粒重复序列快速趋异进化的机制完全不同,因为着丝粒功能基因在细胞间期具有转录活性,而着丝粒在细胞分裂期发挥功能。
着丝粒是染色体上重要的功能结构区域,是一种特殊的染色质结构。在真核生物有丝分裂和减数分裂过程中,纺锤丝结合到染色体的着丝粒区域,牵引染色体向细胞两极运动,将复制后的染色体平均地分配到两个子细胞中。着丝粒是染色体正确分离和传递所必需的染色体区域,在有丝分裂和减数分裂过程中具有两个关键的染色体功能,作为姊妹染色单体粘附位点和分离的调节位点作为动粒形成的中心,纺锤体微管通过动粒与染色体相连,使染色体在早中期集合到赤道板,在后期分开移向两极。动粒是细胞分裂的重要细胞器,是着丝粒特殊的外层结构,细胞分裂时纺锤丝附着的地方,对染色体的运动起着关键作用。构建在着丝粒之上的动粒是一个蛋白质复合体,其中部分亚基可能与着丝粒区的染色质紧密结合。着丝粒的这些功能在所有真核生物都是高度保守的,该功能一旦失常,往往会导致细胞染色体结构和数目发生变化。同时,着丝粒也是构建人工染色体的另一关键元件。
着丝粒的功能高度保守,但与着丝粒关联的序列却缺乏保守性,不同的生物具有显著不同的着丝粒序列。许多生物的着丝粒是包埋在若干百万碱基对长的高度重复序列中,一般包括着丝粒串联重复序列和着丝粒专一的反转录转座子,目前从多种植物中已分离到许多种不同的着丝粒序列。着丝粒串联重复序列是着丝粒的优势组分,在植物基因组中着丝粒重复序列比较丰富,其长度可以达几个的串联重复阵列。
而玉米不同染色体着丝粒的阵列的长度不唯一。在每一着丝粒串联重复阵列中,串联重复单位首尾相接,但同一着丝粒的不同串联重复阵列其重复单位的方向可能相反。拟南芥的着丝粒,反转录转座子Athila是一种Ty3-gypsy反转录转座子,该反转录转座子与卫星重复序列阵列混杂在一起,形成~3Mb的着丝粒核心区。在水稻着丝粒中也通常含有逆转座子序列,序列来源于两个相似的逆转座子,这种仅集中出现在着丝粒区域一个相对较小的范围内。进一步的研究发现着丝粒组蛋白就结合在着丝粒DNA序列上。
在上述研究结果的基础上,发明人认为选择着丝粒左右两端不发生重组的序列片段(包括着丝粒去掉重复序列高的部分)进行系统进化树的构建,一方面由于重组发生率低,在亲本与子代之间稳定遗传,因而遗传进化关系明确,使得构建的系统进化树更准确,另一方面所选用的序列中SNP位点的数量相比全基因组序列的少,又较单倍型分析法中的SNP位点多和全面,因而,能够实现快速准确地构建系统进化树。
基于此,在本申请一种典型的实施方式中,提供了一种构建群体遗传进化图谱的方法,该方法包括:选择重组冷点区域,利用重组冷点区域的SNP位点构建系统进化树;对系统进化树进行聚类分析,确定物种之间的演化关系,从而获得群体遗传进化图谱。
如上述,重组冷点区域,如着丝粒区域的序列,在进化过程中,着丝粒左右两端不发生重组的序列(包括整段着丝粒去掉重复序列高的部分),重组频率很低,能够稳定的遗传给后代,因而亲本与子代的遗传关系明确,能够更大程度的还原进化的过程。上述方法通过提取重组冷点区域(如着丝粒区域的序列)进行系统进化树的构建,一方面由于重组发生率低,在亲本与子代之间稳定遗传,因而遗传进化关系明确,使得构建的系统进化树更准确,另一方面所选用的序列中SNP位点的数量相比全基因组序列的少,又较单倍型分析法中的SNP位点多和全面。因而,能够实现快速准确地构建系统进化树。
上述重组冷点区域,除了着丝粒区域外,也可以是全基因组上其他重组频率低的区域。重组冷点区域根据不同物种和不同染色体,其所在的位置有所不同,但可以确定的是,都包含着丝粒区域。为了更全面地选择各染色体上的重组频率比较低的区域,在一种优选的实施例中,选择所述重组冷点区域步骤包括:对每条染色体单独处理,在每条染色体中随机选取200个以上满足缺失率(missing rates)<50%并且最小等位基因频率(MAF)>5%的SNP位点进行连锁不平衡分析,得到一个或多个连锁区域,重组冷点区域为各连锁区域的至少部分区域。
上述重组冷点区域的确定步骤中,根据不同物种,不同染色体,所选择的用来进行连锁不平衡(LD)分析的SNP位点数也不同,但这些SNP位点最好都满足一定的质量要求(比如,缺失率(missing rates)<50%,并且最小等位基因频率(MAF)>5%),以便使分析的连锁关系更准确。
不同物种,不同染色体,根据LD分析,能够得到至少一个连锁区域(即着丝粒区域),还可能在别的区域筛选到连锁比较紧密的区域。对于某一个连锁区域而言,其可以整体作为一个重组冷点区域进行上述系统进化树的构建,也可以对该连锁区域内,根据所含SNP位点分布密度的不同进行筛选后再作为重组冷点区域使用。
在本申请一种优选的实施例中,上述连锁区域包括着丝粒区域,着丝粒区域包括:着丝粒位点、着丝粒位点的左侧翼区及右侧翼区,其中,左侧翼区和所述右侧翼区的位置是根据上述连锁不平衡分析确定,着丝粒位点的位置可进一步通过着丝粒特异性的重复序列与参考基因组序列比对确定。
比如,对于水稻而言,根据LD分析,发现整个着丝粒位点及其左右侧翼区是一个序列范围大于1Mb的连锁区域。
为了使所选取SNP位点更具代表性,上述在确定左右侧翼区域时,最好选择该区域内SNP位点分布均匀的区段。由于靠近着丝粒位点,左右侧翼区域也存在一些重复序列,这些重复序列存在或分布的区域,重组发生相对较低,与该区域内无重复序列的区段相比,SNP位点显著减少,因而在一种优选的实施例中,选择将这些显著较低的SNP位点的区段去除,而选择其余区段的SNP位点作为重组冷点区域的SNP位点。
优选地,上述左侧翼区和右侧翼区分别包括多个区段,该方法还包括去除SNP位点数量显著低于其余区段中SNP位点数量的区段。
在一种优选的实施例中,去除SNP位点数量显著低于其余区段中SNP位点数量的区段包括:将左侧翼区和右侧翼区划分为多个等长度的窗口,各区段含有相同或不同数量的窗口,若至少一个窗口内出现的SNP位点数量显著低于所有窗口的SNP位点的平均数量,则去除对应的区段。更优选地,上述等长度的窗口为1~100Kb长度的窗口,也可以根据实际需要合理设置窗口大小。
上述方法中,在选取着丝粒区域的序列片段上的SNP位点构建系统进化树时,具体的构建方法可以采用现有的构建方法,比如邻接法或最大简约法。在一种优选的实施例中,采用邻接法构建系统进化树。
在一种优选的实施例中,根据构建的系统进化树,确定直系祖先的来源地。具体的确定原则可以按照现有的原则来确定,比如,根据在进化树或者聚类关系中,与栽培稻聚类最近的野生稻,确定为直系祖先的起源地或根据不同地方野生稻多样性,野生稻多样性大的区域为直系祖先的来源地。
采用现有的系统发育树的构建软件进行构建,从而获得相应的群体遗传进化图谱。在一种优选的实施例中,在聚类分析步骤中,根据分支聚类确定直系祖先的来源地,并通过分析系统进化树中各物种的先后顺序,确定物种之间的演化关系,从而获得群体遗传进化图谱。
下面将结合具体的实施例进一步说明本申请的有益效果。
实施例1利用水稻着丝粒左右两端不发生重组的区域研究水稻演化
(1)确定了水稻IRGSP 4.0参考基因组的着丝粒位置
1.155bp的CentO卫星重复序列是水稻着丝粒DNA的核心元件。水稻每条染色体的着丝粒中,CentO在数量上是可变的,大小范围从65kb到2Mb。利用CentO序列作为种子序列,去比对IRGSP4.0参考基因组的每条染色体,根据比对上的位置信息,利用10Kb窗口做数量统计,确定每条染色体的着丝粒边界。
2.统计数据集的SNP分布,以10Kb为窗口。
3.选择着丝粒两端不发生重组的200Kb序列的SNP。
结果如图1所示。图1中:蓝色实心方框代表着丝粒,黑色方框代表着丝粒左右两端200Kb范围;每条染色体含有两部分,第一部分:着丝粒位置的确定,利用种子序列比对参考基因组,黑色线条代表种子序列比对到参考基因组的次数(窗口为10Kb),第二部分:SNP的分布,红色线条代表10Kb范围内出现SNP的数量。结果显示,SNP不存在的空白区域是着丝粒的位置。
(2)利用所选范围的SNP,利用邻接法构建进化树。
结果如图2所示,图2示出了水稻12条染色体的进化树,其中,a至l分别代表chr01、chr02、chr03、chr04、chr05、chr06、chr07、chr08、chr09、chr10、chr11、chr12;灰色(除广东广西海南外区域)、黑色(广东广西海南区域)箭头代表粳稻分支最近的野生稻,绿色分支代表粳稻分支第一个粳稻。红色、绿色代表粳稻;蓝色代表籼稻;黑色、灰色代表野生稻;黄色代表中间型。
从图2中可以看出,五号染色体的所有栽培稻材料都聚集到一个分支,并且它们的直系祖先来自广西海南;其他11条染色体籼、粳稻分别形成独立的分枝。表明水稻是独立起源,并且起源于广西海南,随后迁徙到其他地方,为适应环境变化以及人为驯化而形成籼、粳稻。
对比例1
采用现有技术中的全基因组的SNP位点构建进化树,图3所示(其中,Or-I、Or-II、Or-IIIa及Or-IIIb,表示野生稻,japonica表示粳稻,indica表示籼稻,具体参见Huang,X.et al.A map of rice genome variation reveals the origin of cultivatedrice.Nature 490,497-501,doi:10.1038/nature11532(2012).)。全基因组SNP共8百万个,着丝粒区域的SNP数量相对少(每条染色体各1万左右)。在构建进化树的时候,全基因组所需的时间较长。
从图3中可以看出,籼、粳分成独立的两个分枝。利用着丝粒区域构建的SNP,除5号染色体外,其他染色体同样是粳、籼分成独立的两枝。
籼、粳稻两个亚种之间,存在基因的流动或者有遗传重组发生。在全基因组中,部分籼稻可能含有粳稻的基因片段,但是在进化树中是处于籼稻分枝中(同样粳稻中可能含有籼稻的基因片段,在进化树中可能处于粳稻分枝中),会造成粳稻来自籼稻或者籼稻来自粳稻的错误结论。
从以上的描述中,可以看出,本发明上述的实施例实现了如下技术效果:
1)通过利用重组冷点区域左右两端不发生重组的序列SNP构建系统进化树,所选SNP的数量少于全基因组,因此构建进化树所需时间短;
2)SNP数量较单倍型多,能够为物种之间的演化关系提供更多的信息;
3)通过进化树,能够明确直系祖先的来源地。
4)根据进化树中分支材料聚集,确定物种分类;根据进化树中分支材料的分布,确定演化过程,从而能够更大程度的还原进化过程。
本申请的系统进化树的构建方法通过采用重组冷点区域左右不发生重组的序列进行构建,序列筛选及进化树的构建方便快捷,根据进化树能够精确的确定直系祖先来源,确定物种分类,明确演化关系,该方法对于所有真核生物的演化分析具有广泛的适用性。
以上所述仅为本发明的优选实施例而已,并不用于限制本发明,对于本领域的技术人员来说,本发明可以有各种更改和变化。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
Claims (8)
1.一种构建群体遗传进化图谱的方法,其特征在于,所述方法包括:
选择重组冷点区域;
利用所述重组冷点区域的SNP位点构建系统进化树;
对所述系统进化树进行聚类分析,确定物种之间的演化关系,从而获得所述群体遗传进化图谱;
其中,选择所述重组冷点区域步骤包括:对每条染色体单独处理,在每条染色体中随机选取200个以上满足质量要求的SNP位点进行连锁不平衡分析,得到一个或多个连锁区域,所述重组冷点区域为所述连锁区域的至少部分区域;
所述连锁区域包括着丝粒区域,所述着丝粒区域包括:着丝粒位点、所述着丝粒位点的左侧翼区及右侧翼区,
其中,所述左侧翼区和所述右侧翼区的位置是根据所述连锁不平衡分析确定,所述着丝粒位点的位置通过着丝粒特异性的重复序列与参考基因组序列比对确定。
2.根据权利要求1所述的方法,其特征在于,所述左侧翼区和所述右侧翼区分别包括多个区段,所述方法还包括去除SNP位点数量显著低于其余所述区段中SNP位点数量的区段。
3.根据权利要求2所述的方法,其特征在于,去除SNP位点数量显著低于其余所述区段中SNP位点数量的区段包括:
将所述左侧翼区和所述右侧翼区划分为多个等长度的窗口,各所述区段含有相同或不同数量的所述窗口,若至少一个所述窗口内出现的SNP位点数量显著低于所有窗口的SNP位点的平均数量,则去除对应的所述区段。
4.根据权利要求3所述的方法,其特征在于,将所述左侧翼区和所述右侧翼区划分为多个1~100kb的所述窗口。
5.根据权利要求1至4中任一项所述的方法,其特征在于,所述满足质量要求的SNP位点指满足缺失率<50%且最小等位基因频率>5%的SNP位点。
6.根据权利要求1所述的方法,其特征在于,采用邻接法构建所述系统进化树;根据构建的所述系统进化树,确定直系祖先的来源地。
7.根据权利要求1所述的方法,其特征在于,在所述聚类分析步骤中,根据分支聚类确定直系祖先的来源地,并通过分析所述系统进化树中各物种的先后顺序,确定所述物种之间的演化关系,从而获得所述群体遗传进化图谱。
8.一种执行权利要求1至7中任一项所述的方法构建的群体遗传进化图谱的设备。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911068002.3A CN110910959B (zh) | 2019-11-04 | 2019-11-04 | 群体遗传进化图谱及其构建方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911068002.3A CN110910959B (zh) | 2019-11-04 | 2019-11-04 | 群体遗传进化图谱及其构建方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN110910959A CN110910959A (zh) | 2020-03-24 |
CN110910959B true CN110910959B (zh) | 2022-08-30 |
Family
ID=69816224
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201911068002.3A Active CN110910959B (zh) | 2019-11-04 | 2019-11-04 | 群体遗传进化图谱及其构建方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110910959B (zh) |
Families Citing this family (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111477281B (zh) * | 2020-04-03 | 2024-05-31 | 北京诺禾致源科技股份有限公司 | 基于系统进化树的泛基因组构建方法和构建装置 |
CN111564180A (zh) * | 2020-05-12 | 2020-08-21 | 西藏自治区农牧科学院水产科学研究所 | 一种鮡科鱼类古染色体进化比较分析的方法 |
CN112071367B (zh) * | 2020-09-02 | 2023-04-07 | 吉林大学 | 一种流形进化图构建方法、装置、设备及可存储介质 |
CN112017731B (zh) * | 2020-10-20 | 2021-01-12 | 平安科技(深圳)有限公司 | 一种数据处理方法、装置、服务器及计算机可读存储介质 |
CN112837739B (zh) * | 2021-01-29 | 2022-12-02 | 西北大学 | 基于自编码器与蒙特卡洛树的层次化特征系统发育模型 |
CN112967754B (zh) * | 2021-03-01 | 2024-05-31 | 中国水稻研究所 | 一种估测生物分化时间的方法及其系统 |
Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2007030014A2 (en) * | 2005-09-09 | 2007-03-15 | Keygene N.V. | Homologous recombination in plants |
WO2008137031A2 (en) * | 2007-05-04 | 2008-11-13 | The Jackson Laboratory | Panels of genetically diverse samples and methods of use thereof |
CN102952855A (zh) * | 2011-08-26 | 2013-03-06 | 深圳华大基因科技有限公司 | 遗传图谱构建方法和装置、单体型分析方法和装置 |
CN107058600A (zh) * | 2017-06-23 | 2017-08-18 | 沈阳农业大学 | 一种划分玉米优势群体的snp分子标记及其应用 |
CN107400723A (zh) * | 2017-09-15 | 2017-11-28 | 山东大学 | 种子植物物种的鉴定方法和用途 |
CN107779499A (zh) * | 2017-10-17 | 2018-03-09 | 中国林业科学研究院森林生态环境与保护研究所 | 基于snp位点的川金丝猴遗传监测和繁育管理方法 |
CN107988422A (zh) * | 2018-01-29 | 2018-05-04 | 吉林省农业科学院 | 与大豆种子油分含量相关的snp标记、区间、引物及应用 |
CN109762922A (zh) * | 2019-01-30 | 2019-05-17 | 山东省农作物种质资源中心 | 用于菜豆种质资源鉴定的snp标记及其筛选方法 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2009132089A2 (en) * | 2008-04-24 | 2009-10-29 | Monsanto Technology Llc | A method to identify asian soybean rust resistance quantitative trait loci in soybean and compositions thereof |
-
2019
- 2019-11-04 CN CN201911068002.3A patent/CN110910959B/zh active Active
Patent Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2007030014A2 (en) * | 2005-09-09 | 2007-03-15 | Keygene N.V. | Homologous recombination in plants |
WO2008137031A2 (en) * | 2007-05-04 | 2008-11-13 | The Jackson Laboratory | Panels of genetically diverse samples and methods of use thereof |
CN102952855A (zh) * | 2011-08-26 | 2013-03-06 | 深圳华大基因科技有限公司 | 遗传图谱构建方法和装置、单体型分析方法和装置 |
CN107058600A (zh) * | 2017-06-23 | 2017-08-18 | 沈阳农业大学 | 一种划分玉米优势群体的snp分子标记及其应用 |
CN107400723A (zh) * | 2017-09-15 | 2017-11-28 | 山东大学 | 种子植物物种的鉴定方法和用途 |
CN107779499A (zh) * | 2017-10-17 | 2018-03-09 | 中国林业科学研究院森林生态环境与保护研究所 | 基于snp位点的川金丝猴遗传监测和繁育管理方法 |
CN107988422A (zh) * | 2018-01-29 | 2018-05-04 | 吉林省农业科学院 | 与大豆种子油分含量相关的snp标记、区间、引物及应用 |
CN109762922A (zh) * | 2019-01-30 | 2019-05-17 | 山东省农作物种质资源中心 | 用于菜豆种质资源鉴定的snp标记及其筛选方法 |
Non-Patent Citations (3)
Title |
---|
Comparison Study of Melanocortin 4 Receptor in Cattle, Buffalo, Sheep and Goat Based on Genbank Data;Latifah等;《2018 1st International Conference on Bioinformatics, Biotechnology, and Biomedical Engineering - Bioinformatics and Biomedical Engineering》;20190117;1-6 * |
利用简化基因组技术分析甘薯种间单核苷酸多态性;石璇等;《作物学报》;20160218;第42卷(第5期);641-647 * |
甘蓝型油菜遗传结构分析和选择驯化研究;魏大勇;《中国博士学位论文全文数据库(电子期刊)农业科技辑》;20151115;D047-33 * |
Also Published As
Publication number | Publication date |
---|---|
CN110910959A (zh) | 2020-03-24 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110910959B (zh) | 群体遗传进化图谱及其构建方法 | |
Sun et al. | Chromosome-scale and haplotype-resolved genome assembly of a tetraploid potato cultivar | |
Kumar et al. | SNP discovery through next-generation sequencing and its applications | |
Nelson et al. | Ancient and recent introgression shape the evolutionary history of pollinator adaptation and speciation in a model monkeyflower radiation (Mimulus section Erythranthe) | |
Jansen et al. | Constructing dense genetic linkage maps | |
Patwardhan et al. | Molecular markers in phylogenetic studies-a review | |
Lovell et al. | Mutation accumulation in an asexual relative of Arabidopsis | |
KR20200011471A (ko) | 심층 신경망에 기반한 변이체 분류자 | |
Lillie et al. | Genomic signatures of 60 years of bidirectional selection for 8-week body weight in chickens | |
Flagel et al. | GOOGA: A platform to synthesize mapping experiments and identify genomic structural diversity | |
CN111477281A (zh) | 基于系统进化树的泛基因组构建方法和构建装置 | |
Lucek et al. | Drivers of linkage disequilibrium across a species’ geographic range | |
Xuan et al. | Chromosome restructuring and number change during the evolution of Morus notabilis and Morus alba | |
Wessinger et al. | A few essential genetic loci distinguish Penstemon species with flowers adapted to pollination by bees or hummingbirds | |
CN107058298B (zh) | 一种基于人工减数分裂的辅助基因组组装方法 | |
Zhang et al. | Basics for bioinformatics | |
Moore et al. | How computational experiments can improve our understanding of the genetic architecture of common human diseases | |
CN107354151A (zh) | 基于梅花鹿全基因组开发的str分子标记及其应用 | |
CN112359102A (zh) | 一种基于基因组学构建烟草核心种质的方法及其应用 | |
Bohutínská et al. | Population genomic analysis of diploid-autopolyploid species | |
CN110055317A (zh) | 小麦远缘杂交后代小片段易位系中发掘外源功能候选基因的方法 | |
Flagel et al. | A synthesis of mapping experiments reveals extensive genomic structural diversity in the Mimulus guttatus species complex | |
Bilton | Developing statistical methods for genetic analysis of genotypes from genotyping-by-sequencing data | |
Collier-Zans | Recombination in the chloroplasts of the florally diverse Andean subtribe Iochrominae (Solanaceae) | |
Lu et al. | Independent assessment and improvement of wheat genome assemblies using Fosill jumping libraries |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |