CN109698009A

CN109698009A - 一种基于存在/缺失变异的泛基因组构建方法

Info

Publication number: CN109698009A
Application number: CN201910156551.XA
Authority: CN
Inventors: 陈玲玲; 朱玺桐; 穆罕默德·塔希尔·乌尔·卡马尔; 邢锋
Original assignee: Huazhong Agricultural University
Current assignee: Huazhong Agricultural University
Priority date: 2019-03-01
Filing date: 2019-03-01
Publication date: 2019-04-30

Abstract

本发明提供了一种基于存在/缺失变异的泛基因组构建方法，涉及泛基因组构建技术领域。本发明所述构建方法，输入非常简单，只需要一个个体的基因组以及相应的注释文件作为参考基因组，其他个体的基因组和注释文件作为查询(query)基因组，便可以用参考基因组为骨架，构建包含所有查询基因组完整信息并且已经注释好的泛基因组。利用PAVs构建物种的泛基因组，构建方法简单，构建出的泛基因组不但包含完整的DNA序列，也包括相应的基因注释，为后续分析提供了一个非常完整的参考。

Description

一种基于存在/缺失变异的泛基因组构建方法

技术领域

本发明属于泛基因组构建技术领域，具体涉及一种基于存在/缺失变异的泛基因组构建方法。

背景技术

在遗传和环境因素的共同作用下，不同物种或个体在形态上存在很大差异。这其中，造成差异的主要遗传变异有单核苷酸多态性(single nucleotide polymorphism,SNPs)、插入/缺失变异(InDel)和结构变异(structure variations)等。存在/缺失变异(Presence/Absence Variation,PAVs)属于结构变异中的一种，是一种重要的遗传变异：一方面PAVs的存在会对个体的基因组成产生影响，如重要基因的缺失和重复都会使个体产生表型变异；另一方面新组装出的基因组依赖于旧的参考基因组来检查其完整性，一个重要的指标就是新基因组相对于旧参考基因组的PAVs。因此，PAVs不但能辅助评估新基因组组装的完整性，还能够反映基因组的多态性，对人们理解个体或物种的进化有重要意义。

自人类基因组计划完成以来，人们已经完成了对数万种生物基因组的组装，并且随着基因组测序技术的创新和测序成本的降低，可以预见未来会有更多生物的基因组被测定。除了组装出更多物种的基因组，人们对同一物种内部的不同亚种或个体也进行了全面地研究，如亚洲栽培稻中的籼稻(Oryza sativa subsp.xian)和粳稻(Oryza sativasubsp.geng)。由于生物本身固有的复杂性，单个参考基因组无法为整个物种的研究提供全面的信息，泛基因组(Pan-genome)应运而生。一个物种的泛基因组通常由该物种内所有个体的基因组成，因而可以为人们提供关于该物种更全面的参考信息，同时帮助人们鉴定潜在的、与重要遗传性状(如疾病)相关基因位点。

已有泛基因组的构建多基于基因，即将物种内个体的基因合并在一起，构成一个包含所有个体基因的集合。这种方法首先需要对不同个体的基因进行分类，区分共有基因和个体特有的基因，一般是通过比较蛋白质序列的相似性来实现的。进行基于基因的泛基因组构建的前提是识别出已组装好的基因组上的基因，包括从头预测的基因和通过多种证据(如同源蛋白质序列)注释出的基因。目前有很多生物信息学软件可以对以这种方式构建的泛基因组进行详细而全面的分析，这些软件的功能包括基因分类、泛基因组图谱分析、基因注释整合以及系统发生树的构建等。Panseq和The pan-genomes analysis pipeline是长期以来比较流行的泛基因组分析工具。此外，GET_HOMOLOGUES等工具还提供了很多可视化工具，用于分析泛基因组的合理性和诸多特征。

另一种方式是整合不同个体的基因组序列，即通过合并PAVs来构建一个包含所有个体基因组序列的泛基因组。这样的泛基因组不但包含所有个体的基因，也包含没有基因的基因组区域。因此除了可以进行上述基于基因的泛基因组分析外，还可以对基因组序列本身进行研究。以这种方式构建泛基因组的第一步是要鉴定出不同个体间的PAVs。目前鉴定PAVs的流程化软件只有2018年推出的scanPAV，它通过比较两个基因组来鉴定并提取PAVs序列。灵敏度和精确度评估显示，对于人类基因组，scanPAV可以鉴定出99％的模拟的长插入序列和93％的模拟的长缺失序列，是比较优秀的一款PAVs鉴定软件，但是操作复杂，参数需求量大。

目前并没有一种利用MUMmer构建包含两个或多个个体DNA序列以及基因注释信息在内的泛基因组的方法。

发明内容

有鉴于此，本发明的目的在于提供一种基于存在/缺失变异的泛基因组构建方法，对于基因组较小的物种，可快速构建包含所有输入个体基因信息的泛基因组；构建方法简单，数据需求量少且不受查询基因组数量的限制。

为了实现上述发明目的，本发明提供以下技术方案：

本发明提供了一种基于存在/缺失变异的泛基因组构建方法，包括以下步骤：

(1)以一个个体的基因组和注释文件作为参考基因组，以同种的其他个体基因组和注释文件作为查询基因组，利用MUMmer 4.0将所述参考基因组和所述查询基因组进行比对，筛选并提取只存在于查询基因组上的DNA序列，得第一PAVs；

(2)筛选所述第一PAVs中长度不低于100bp的序列，得第二PAVs；

(3)使用BLASTn将所述第二PAVs比对到所述参考基因组上，得第三PAVs；所述第三PAVs与所述参考基因组的相似性低于95％，所述第三PAVs的自身覆盖度低于90％；

(4)将所述第三PAVs与所述查询基因组重叠的PAVs合并，校正PAVs边界，使其覆盖整个基因区域，得第四PAVs；

(5)将所述第四PAVs连接成一条序列，在每条所述第四PAVs之间以100bp的‘N’相隔，同时将所述第四PAVs在所述查询基因组上的基因注释提取出来，得第五PAVs；

(6)将所述第五PAVs合并到所述参考基因组上，整合注释信息，构建初步泛基因组；

(7)将所述初步泛基因组与所述查询基因组上的基因序列进行比对，筛选并提取未比对上的基因和相似性低于80％的基因序列，得第六PAVs；

(8)将所述第六PAVs添加到第四PAVs中，合并有重叠的部分，延伸与基因区域有重叠PAVs，得第七PAVs；

(9)将所述第七PAVs整合到所述参考基因组上，得基于存在/缺失变异的泛基因组。

优选的，步骤(1)所述基因组小于1Gb。

优选的，步骤(1)所述比对为利用MUMmer 4.0中的NUCmer将所述查询基因组比对到所述参考基因组上。

优选的，步骤(1)所述筛选为利用delta-filter对所述比对后的结果进行过滤。

本发明提供了一种基于存在/缺失变异的泛基因组构建方法，只需要一个个体的基因组以及相应的注释文件作为参考基因组，其他个体的基因组和注释文件作为查询(query)基因组，便可以用参考基因组为骨架，构建包含所有查询基因组完整信息并且已经注释好的泛基因组。本发明所述构建方法只利用MUMmer 4.0软件即可完成，输入简单、运行速度快，且不需要使用任何其他类型的数据(例如RNA-seq数据)，只需要相应物种已组装好的基因组和注释文件。本方法所述构建方法可以使用任意多个个体的基因组来构建泛基因组，不受查询基因组数量的限制。在本发明实施例中，25个CPU小时内完成水稻三个品系泛基因组的构建；2个CPU小时内即可完成甘薯两个品系泛基因组的构建。

附图说明

图1为本发明所述泛基因组构建方法的构建流程图；

图2为本发明一个合并有重叠的PAVs以及PAVs边界校正的示意图。

具体实施方式

(2)筛选所述第一PAVs中长度不低于100bp的序列，得第二PAVs；

本发明所述构建方法流程如图1所示，以一个个体的基因组和注释文件作为参考基因组，以同种的其他个体基因组和注释文件作为查询基因组，利用MUMmer 4.0将所述参考基因组和所述查询基因组进行比对，筛选并提取只存在于查询基因组上的DNA序列，得第一PAVs。本发明所述存在/缺失变异(Presence/Absence Variation,PAVs)指存在于某一个体或物种内，但在其它的个体或物种内完全缺失的DNA序列。本发明所述基因组优选为小基因组，更优选为小于1Gb的基因组。本发明所述比对优选为利用MUMmer 4.0中的NUCmer将所述查询基因组比对到所述参考基因组上，寻找只存在于查询基因组上的DNA序列(PAVs)。本发明所述筛选优选为利用delta-filter对所述比对后的结果进行过滤，只保留一对一的比对。本发明在所述筛选后优选还包括提取，所述提取优选为利用show-coord命令提取比对序列的坐标。

得第一PAVs后，本发明筛选所述第一PAVs中长度不低于100bp的序列，得第二PAVs。本发明对所述筛选的方法并没有特殊限定，利用本领域的常规筛选方式即可。

得第二PAVs后，本发明使用BLASTn将所述第二PAVs比对到所述参考基因组上，得第三PAVs；所述第三PAVs与所述参考基因组的相似性低于95％，所述第三PAVs的自身覆盖度低于90％。本发明所述比对可验证筛选得到的第二PAVs的准确性。本发明使用BLASTn将所述第二PAVs比对到所述参考基因组上，可得到两大类结果：第一类为与所述参考基因组的相似性很高(默认为95％)并且自身覆盖度(比对长度除以PAVs自身长度)也很高(默认为90％)的PAVs，这部分PAVs对下游分析没有意义因为它们存在于参考基因组上，因此将其丢弃；第二类为低于前述阈值以及完全未比对上的PAVs，这部分PAVs会用于后续的分析，命名为第三PAVs。

得第三PAVs后，本发明将所述第三PAVs与所述查询基因组重叠的PAVs合并，校正PAVs边界，使其覆盖整个基因区域，得第四PAVs。本发明在将所述第三PAVs与所述查询基因组重叠的PAVs合并前，优选还包括将所述第三PAVs与所述查询基因组作比较，将互相之间有重叠的PAVs合并在一起。此时，若PAVs与基因区域重叠，则如图2所示，将PAVs进行延伸，校正PAVs边界，使其覆盖整个基因区域。本发明图2中，CDS代表coding sequence，蛋白质编码区域；UTR为untranslated region，非翻译区域；Intron为内含子。在本发明实施例1中，以两个来自蜀恢498的1号染色体上的基因为例，基因第一个PAV由步骤(1)产生，但没有覆盖整个OsR498G0101472900.01基因区域，因此在步骤(4)中对其进行延伸和边界校正，生成PAV-draft；延伸后，PAV-draft与OsR498G0101473200.01产生新的重叠，因此在步骤(8)中再次进行校正，以此来覆盖整个基因区域。

得第四PAVs后，本发明将所述第四PAVs连接成一条序列，在每条所述第四PAVs之间以100bp的‘N’相隔，同时将所述第四PAVs在所述查询基因组上的基因注释提取出来，得第五PAVs。本发明在将所述第四PAVs连接成一条序列时，优选按照PAVs在基因组上的顺序进行连接。

得第五PAVs后，本发明所述第五PAVs合并到所述参考基因组上，整合注释信息，构建初步泛基因组。本发明对所述合并和整合的方法并没有特殊限定，利用本领域的常规方法即可。

得初步泛基因组后，本发明将所述初步泛基因组与所述查询基因组上的基因序列进行比对，筛选并提取未比对上的基因和相似性低于80％的基因序列，得第六PAVs；本发明进行所述比对时，优选将所述查询基因组上的基因序列提取出来，使用BLAT比对到所述初步基因组上。

得第六PAVs后，本发明将所述第六PAVs添加到第四PAVs中，合并有重叠的部分，延伸与基因区域有重叠的PAVs，得第七PAVs。本发明对所述添加、合并和延伸的方法并没有特殊限定，利用本领域的常规方法即可。

得第七PAVs后，本发明将所述第七PAVs整合到所述参考基因组上，得基于存在/缺失变异的泛基因组。

本发明所述构建方法还可以用于构建具有多个查询基因组的泛基因组，只需要将得到的泛基因组依次整合为一个更完整的泛基因组。

下面结合实施例对本发明提供的基于存在/缺失变异的泛基因组构建方法进行详细的说明，但是不能把它们理解为对本发明保护范围的限定。

实施例1

根据图1所述流程，选取三个水稻(Oryza sativa)品系：粳稻日本晴、籼稻蜀恢498和明恢63来构建泛基因组。以日本晴为参考基因组(基因组大小为364Mb，包含38,869个基因)，将蜀恢498(基因组大小为373Mb，包含38,339个基因)、明恢63(基因组大小375Mb，包38,047个基因)依次作为查询基因组来构建泛基因组。最终得到的泛基因组大小为420Mb，包含43,081个基因，向日本晴基因组骨架上添加了11,687个PAVs和4,212个基因。使用24个线程，整个过程在25个CPU小时内完成。

实验1

将由3,010份亚洲栽培稻构建的泛基因组基因比对到实施例1得到的泛基因组上，在所有的50,955个基因中，48,302个也存在于实施例泛基因组上，准确率为94.79％。

3,010份亚洲栽培稻泛基因组构建方法：首先对3,010份水稻品系进行DNA测序，然后对每个品系使用SOAPdenovo2进行重头组装(De novo assembly，参见Luo,R.etal.SOAPdenovo2:an empirically improved memory-efficient short-read de novoassembler.Gigascience,2012,1:18.)。组装完成后，将所有品系组装好的长度在500bp以上的contigs比对到日本晴参考基因组(Nipponbare RefSeq)上，得到所有未比对上的contigs序列。最后将来自所有品系未比对上的序列和日本晴参考基因组合并在一起，完成泛基因组的构建(参见Wang WS et al.Genomic variation in 3,010diverse accessionsofAsian cultivated rice.Nature,2018,557(7703):43.)。

实施例2

根据图1所述流程，选用两个二倍体甘薯(I.trifida(参考基因组)和I.triloba)构建泛基因组。其中I.trifida基因组大小约为478Mb，包含32,301个基因；I.triloba基因组大小约为448Mb，包含31,426个基因。最终得到的泛基因组大小为656Mb，一共包含44,124个基因。使用24个线程，整个过程在2个CPU小时内完成。

本发明提供了一种基于存在/缺失变异的泛基因组构建方法，利用PAVs构建物种的泛基因组，构建方法简单，构建出的泛基因组不但包含完整的DNA序列，也包括相应的基因注释，为后续分析提供了一个非常完整的参考。

以上所述仅是本发明的优选实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也应视为本发明的保护范围。

Claims

1.一种基于存在/缺失变异的泛基因组构建方法，其特征在于，包括以下步骤：

(2)筛选所述第一PAVs中长度不低于100bp的序列，得第二PAVs；

2.根据权利要求1所述构建方法，其特征在于，步骤(1)所述基因组小于1Gb。

3.根据权利要求1所述构建方法，其特征在于，步骤(1)所述比对为利用MUMmer 4.0中的NUCmer将所述查询基因组比对到所述参考基因组上。

4.根据权利要求3所述所述构建方法，其特征在于，步骤(1)所述筛选为利用delta-filter对所述比对后的结果进行过滤。