CN111816248B

CN111816248B - 一种基于Pacbio subreads和Hi-C reads的全基因组分型方法

Info

Publication number: CN111816248B
Application number: CN202010441252.3A
Authority: CN
Inventors: 卢锐
Original assignee: Wuhan Frasergen Information Co ltd
Current assignee: Wuhan Frasergen Information Co ltd
Priority date: 2020-05-22
Filing date: 2020-05-22
Publication date: 2023-12-01
Anticipated expiration: 2040-05-22
Also published as: CN111816248A

Abstract

本发明涉及一种基于Pacbio subreads和Hi‑C reads的全基因组分型方法，包括以下步骤：1)准备参考基因组；2)将二代测序数据比对到参考基因组，检测出各染色体的所有SNP位点；3)将Hi‑C建库测序数据比对到参考基因组，结合SNP位点，采用HapCUT2构建连锁SNP群；4)基于MVP Block对Pacbio subreads进行分组，然后再分别组装，最终获取到每条染色单体序列；5)对亲本基因组进行全基因组测序，将测序结果比对到上步分出的染色单体序列上，按照比对结果将染色单体分为两组，对应父母本基因组。本方法避开Hi‑C数据组装过程中无法组装酶切位点数太少的contigs的缺陷，而是采用从基因组整体出发先构建连锁SNP群，再结合Pacbio long reads，大大降低了分型的错误风险。

Description

一种基于Pacbio subreads和Hi-C reads的全基因组分型方法

【技术领域】

本发明涉及基因组组装分型领域，具体涉及一种基于Pacbio subreads和Hi-Creads的全基因组分型方法。

【背景技术】

1985年，美国科学家提出了人类基因组计划(Human Genome Project)，对人类基因组进行测序，以获取完整的人类基因组。该计划一经提出就得到了全球性的重视，先后有六个国家(包括中国)参与其中。各国鼎力合作，终于在2001年正式发表了人类基因组草图，这也标志着基因组时代的到来。随后，包括重测序，转录组，三维基因组在内的一系列技术蓬勃发展，而这些技术的基础都可以归结到拥有高质量参考基因组序列。目前，如果对某个新物种开展分子水平的研究，通常都是从测序和组装开始。

然而，目前尚没有一种测序技术可以一次连续地测出整条染色体，通常先会获取到长度不等的文库片段，再采用测序仪对文库片段进行测序。测序得到的结果称为读长(read)，读长之间可能存在重叠(overlap)的部分，按照不同的算法对这些reads不断拼接，最后获取到基因组草图，整个过程通常称为基因组从头组装(de novo assembly)。随着测序技术不断提高，测序成本越来越低，人们对测序后基因组组装的要求也越来越高。高质量的组装结果通常要求高连续性(high contiguity)、高完整性(high completeness)和组装的准确性(correctness)。随着第三代测序技术越来越多地应用到基因组组装课题，基因组的组装质量也在不断提升，然而基因组依然存在一些复杂区域无法被测序或者无法被某种算法组装，这些gap区域严重地影响着基因组的构建。

科研工作者不断探索全基因水平的组装策略，先后提出了基于遗传图谱的方法和基于基因组空间联结的Hi-C(High-throughput Chromosome Conformation Capture)技术等。这些技术可以极大地提高基因组的连续性，特别是Hi-C技术，通过对Hi-C数据的分析可以清晰准确地将基因组草图挂载到染色体水平，该技术已应用于人类、山羊、埃及伊蚊和大麦等物种的染色体构建。

早在上世纪末，科研工作者在研究单基因疾病(即孟德尔型疾病)时就已经意识到复合杂合性现象(phenomenon of compound heterozygosity)。复合杂合性即基因组上某个区域可检测到两个变异位点，但这两个变异位点可能都位于同一条染色单体或来自不同染色单体，前者仅一条染色单体失活，而后者两条同源染色单体均失活。随着研究的深入，科研工作者发现等位区域不仅在核酸水平上存在差异，而且在基因水平上也存在差异。Geneimprint网站(http://www.geneimprint.com/)已公布人类约有200个印记基因，小鼠约有120个印记基因。其中，“印记基因”表示同源染色体上仅一条染色单体特有的基因，也即父本或母本特有的基因。这些印记基因的变异，大多会引起疾病，例如安格尔曼综合症(Angelman Syndrome,AS)和Prader-Willi综合征(Prader-Willi syndrome,PWS)等。科研工作者将这种依靠单亲传递某些遗传学性状的现象称为亲源效应(parent-of-origineffects)，Nature杂志甚至将印记性(imprinting)作为专栏进行报道，以引起学术界的重视。

为了应对环境的变化，大多数已知的动物和植物都进化为二倍体或多倍体，很少存在单倍体。然而，当前已公布的大多数组装到染色体水平的基因组，通常是同源染色单体混在一起的基因组(collapsed genome)。这种基因组失去了倍性特征(diploid nature)，无疑阻碍了基因组等位特异性(allele-specific)相关的研究。特别是在高杂合基因组中，姊妹染色单体之间的差异比较大，这时更需要将姊妹染色单体分开组装，这个过程即分型(phasing)，或称为单体型水平的基因组(Haplotype-resolved genome)组装。

早在2002年，科研工作者已经认识到染色单体之间存在着一些差异，这些遗传多态位点和特定疾病风险相关，为了从基因组水平预防、诊断和治疗疾病，六个国家(包括中国)的科研团队合作提出了国际人类基因组单体型图计划(International HapMapProject)。自此，人们对单体型的研究不断深入，并提出各种分型策略。包括实验分型技术(例如CPT-Seq，HaploSeq等)，测序分型技术(例如10X Genomics，Pore-C等)以及生物信息分型软件(例如tri-canu，whatshap等)。然而，基于实验分型的方法成本巨大，且耗时耗力不利于大范围推广；而无论是基于测序技术还是基于生物信息算法的分型方法，如果不涉及Hi-C数据，很难做到全染色体水平分型。

2013年，Siddarth Selvaraj及其合作者首次将Hi-C技术应用到分型领域，并开发了HapCUT软件。自此，科研工作者逐渐认识到Hi-C技术在全基因组分型中的重要性，先后开发了Falcon-Phase和ALLHIC等一系列分型工具。

然而，目前存在的分型流程均存在一些缺陷，例如HapCUT仅能对变异位点分型，不涉及组装；因为在短的contigs上酶切位点少，Falcon-Phase和ALLHIC均无法准确地对较短的contigs分型，而且ALLHIC软件需先提供近缘物种组装到染色体水平的基因组作为参考序列。因此，有必要研究一种新的分型流程。

【发明内容】

本发明针对高杂合二倍体基因组，提出一种基于Pacbio subreads和Hi-C reads的全基因组分型方法，采用Pacbio subreads和Hi-C reads完成全基因组水平的分型。经测试可以准确地对SNP(single-nucleotide polymorphism)和中等长度的Indel(Insertionor deletion)进行分型，再经过后续组装步骤，可以实现全基因组水平的分型。

本发明解决其技术问题所采用的技术方案是：

一种基于Pacbio subreads和Hi-C reads的全基因组分型方法，包括以下步骤：

1.准备参考基因组；

1)采用MECAT2或Falcon软件对Pacbio subreads进行组装；

2)采用purge_haplotigs或purge_dups等软件对基因组去杂合；

3)用Hi-C辅助组装方法对基因组进行组装获取到collapsed genome，作为后续分析的参考基因组。

2.将二代测序数据比对到参考基因组，检测出各染色体的所有SNP位点。

3.将Hi-C建库测序数据比对到参考基因组，结合上步检测出的SNP位点，采用HapCUT2构建连锁SNP群和MVP Block；其中，所述MVP Block为SNP位点数最多，并在染色体上跨度最大的SNP群；

4.基于MVP Block对Pacbio subreads进行分组，然后再分别组装，最终获取到每条染色单体序列；

进一步地，所述分组按照Pacbio subreads上各haplotype中SNP的个数以及SNP的占比来进行分组；

更进一步地，所述分组步骤如下：

1)选取SNP位点数大于3的subreads，进入下一步；将SNP位点数为0的subreads既分到phase1又分到phase2；弃除SNP位点数为其他值的subreads；

2)按照MVP block信息计算所选的subreads经过的SNP位点，分别得到对应phase1和phase2的bases数量；

3)分别计算phase1与phase2的bases数与连接的总的SNP位点数的比值，若phase1的bases数与连接的总的SNP位点数的比值大于80％，则该subreads划分到列phase1；若phase2的bases数与连接的总的SNP位点数的比值大于80％，则该subreads划分到列phase2；若两者比值均不大于80％，则弃除该subreads；

采取以上程序分组的原因在于：以目前Pacbio测序平台为代表的三代测序技术而言，其下机的reads(Pacbio平台称为subreads)的测序错误较多，而且subreads长度有限，通过subreads overlap关系来分型时，通常很难达到全染色体水平，特别是基因组上的着丝粒和高复杂区域，对subreads而言很难跨越。因此需要借助Hi-C reads构建的MVP block(MVP block是通过SNP位置构建的)，对subreads进行分组。

5.对亲本基因组进行全基因组测序，将测序结果比对到上步分型出的染色单体序列上，按照比对结果将染色单体分为两组，对应父母本基因组；

优选地，对亲本基因组进行全基因组测序选择二代测序方法。

经过测试发现杂合度高的基因组父母本之间的差异比较大，采用与父母本同种的个体进行测序也可以得到比较可靠的结果(Zhuang,W.,Chen,H.,Yang,M.et al.Thegenome of cultivated peanut provides insight into legume karyotypes,polyploidevolution and crop domestication.Nat Genet 51,865–876(2019))，也克服了样本对应的父母本不易获取的问题。

本发明的有益效果为：

本发明有效避开了Hi-C数据组装过程中固有的缺陷——无法组装酶切位点数太少的contigs，采用从基因组整体出发先构建连锁SNP群，在基因组水平上保证了分型准确性；再结合Pacbio long reads，又确保局部分型的准确性，从而大大降低了分型的错误风险。

【附图说明】

为了更清楚地说明本发明实施例的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，应当理解，以下附图仅示出了本发明的某些实施例，因此不应被看作是对范围的限定，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他相关的附图。

图1是构建分型过程总流程图。

图2是subreads分组原理图。

图3是subreads分组依据流程图。

图4是分型结果Hi-C互作热图。

【具体实施方式】

以下实例用于说明本发明，但不限制本发明的范围。在不背离本发明精神和实质的前提下，对本发明的方法、步骤或条件所作的修改或替换，均属于本发明的范围。

以下实施例中研究的物种为高杂合小黑杨(Populus xiaohei)，核型为2n＝2x＝36，其父本为欧洲黑杨(Populus nigra)，母本为小叶杨(或称南京白杨，Populussimonii)。本发明构建分型过程总流程如图1所示。

实施例1：参考序列构建

本实例中可获取到高杂合小黑杨的双单倍体植株，因此先对双单倍体植物进行全基因组测序(采用三代Pacbio Sequel测序平台测序)，并采用Falcon进行组装，完成后再采用Hi-C技术对其进行建库测序，利用测序得到的Hi-C数据对Falcon组装出的基因组草图做染色体挂载，最终获取到高质量双单倍体植株的基因组，作为后续分析的参考序列。

实施例2：将高杂合小黑杨测序数据比对到参考序列

利用三代Pacbio Sequel测序平台对高杂合小黑杨进行测序(约560X)；同时也采用Hi-C技术对高杂合小黑杨建库测序，获取Hi-C reads(约515X)；此外还利用到之前用于评估高杂合小黑杨基因组杂合度时的shotgun sequencing数据(约289X)。将三份数据比对到参考基因组上，三代数据采用NGMLR软件比对，二代数据采用BWA MEM方法进行比对，完成后获取到三份比对结果。

实施例3：构建MVP blocks

采用HapCUT2对shotgun sequencing数据和Hi-C数据进行分析，构建连锁SNP信息，其中每条染色体均获取到一条MVP block。

实施例4：分Pacbio subreads

采用自主设计的流程按MVP blocks对Pacbio subreads进行分组(分组的原理如图2所示，分组依据及流程如图3所示)，成功获取到来自36条染色单体的subreads，再分别对每组subreads进行组装，最终获取到36条染色单体序列，而且比较清晰地获取到成对信息。例如可以知道36条染色单体序列中哪两条来自1号染色体。

实施例5：按父母本测序数据分为两套单倍体

本实例中可获取到高杂合小黑杨对应的亲本植株，因此对其亲本进行shotgunsequencing，获取到父母本全基因组测序数据，再将父母本数据分别比对到上步组装出的36条染色单体上，结果可以清晰地分为两类。

至此成功构建出高杂合小黑杨两套完整的基因组，并可对应为父母本基因组，比较准确地完成了全基因组分型，分型后最终结果Hi-C互作热图如图4所示。

本发明并不仅仅限于说明书和实施方式中所描述，因此对于熟悉领域的人员而言可容易地实现另外的优点和改进，故在不背离权利要求及等同范围所限定的一般概念的精神和范围的情况下，本发明并不限于特定的细节、代表性的方案和这里示出与描述的图示示例。

Claims

1.一种基于Pacbio subreads和Hi-C reads的全基因组分型方法，其特征在于，包括以下步骤：

S1.准备参考基因组；

S2.将二代测序数据比对到参考基因组，检测出各染色体的所有SNP位点；

S3.将Hi-C建库测序数据比对到参考基因组，结合上步检测出的SNP位点，采用HapCUT2构建连锁SNP群和MVP Block；其中，所述MVP Block为SNP位点数最多，且在染色体上跨度最大的SNP群；

S4.基于MVP Block对Pacbio subreads进行分组，然后再分别组装，最终获取到每条染色单体序列；

S5.对亲本基因组进行全基因组测序，将测序结果比对到步骤S4分型出的染色单体序列上，按照比对结果将染色单体分为两组，对应父母本基因组。

2.根据权利要求1所述的一种基于Pacbio subreads和Hi-C reads的全基因组分型方法，其特征在于，所述步骤S1为：

a.采用软件对Pacbio subreads进行组装；

b.采用软件对基因组去杂合；

c.采用Hi-C辅助组装方法对基因组进行组装获取到collapsed genome，作为参考基因组。

3.根据权利要求1所述的一种基于Pacbio subreads和Hi-C reads的全基因组分型方法，其特征在于，所述步骤S1中组装软件为MECAT2或Falcon。

4.根据权利要求1所述的一种基于Pacbio subreads和Hi-C reads的全基因组分型方法，其特征在于，所述步骤S1中去杂合软件为purge_haplotigs或purge_dups。

5.根据权利要求1所述的一种基于Pacbio subreads和Hi-C reads的全基因组分型方法，其特征在于，所述步骤S4按照Pacbio subreads上各haplotype中SNP的个数以及SNP的占比来进行分组。

6.根据权利要求1所述的一种基于Pacbio subreads和Hi-C reads的全基因组分型方法，其特征在于，所述步骤S5对亲本基因组进行全基因组测序选择二代测序方法。

7.根据权利要求1或5所述的一种基于Pacbio subreads和Hi-C reads的全基因组分型方法，其特征在于，所述步骤S4分组步骤如下：

2)按照MVP block信息计算所选subreads经过的SNP位点，分别得到对应phase1和phase2的bases数量；

3)分别计算phase1与phase2的bases数量与连接的总的SNP位点数的比值，若phase1的bases数量与连接的总的SNP位点数的比值大于80％，则该subreads划分到列phase1，若phase2的bases数与连接的总的SNP位点数的比值大于80％，则该subreads划分到列phase2，若两者比值均不大于大于80％，则弃除该subreads。