CN104450682A

CN104450682A - 一种组装叶绿体基因组序列的方法

Info

Publication number: CN104450682A
Application number: CN201410782756.6A
Authority: CN
Inventors: 洪棋斌; 龚桂芝
Original assignee: Southwest University
Current assignee: Southwest University
Priority date: 2014-12-16
Filing date: 2014-12-16
Publication date: 2015-03-25
Anticipated expiration: 2034-12-16
Also published as: CN104450682B

Abstract

本发明公开了一种组装叶绿体基因组序列的方法，不需要专门分离叶绿体，通过利用新一代测序技术对样品进行测序，根据参考叶绿体基因组序列筛选能mapping到参考基因组的Reads，对筛选获得的Reads进行多个kmer组装，构建Contigs，Contigs序列与参考叶绿体基因组序列比对并排序，选择一个kmer的组装排序结果为主，按照排序结果实现序列的延伸，合并头部和尾部多出部分序列的叠加区域，获得参考组装叶绿体基因组完整序列。本发明方法直接利用NGS基因组测序数据进行DeNovo组装以获得完整叶绿体基因组序列，自身形成了有效的组装和验证的闭环，可以对组装序列的质量进行评价判断。

Description

一种组装叶绿体基因组序列的方法

技术领域

本发明属于生物信息技术领域，具体涉及一种组装叶绿体基因组序列的方法。

背景技术

NGS基因组测序(Next Generation Sequencing)，是相对于传统的桑格测序(Sanger Sequencing)而言的新一代通量和效率都更高的DNA测序方法。Roche公司的GS FLX测序系统、ABI公司(AppliedBiosystems)的SOLiD测序平台、Illumina公司的Solexa测序平台，是目前世界上领先的NGS测序平台，相对于传统的桑格测序，均具有更高的通量，但又各具有不同的优缺点。GS FLX测序在读长上的优势明显，读长超过400碱基时，其准确性仍能达到99％以上，但成本和通量的劣势已让其在NGS竞争中受到限制，SOLiD最大的优势是高准确率，准确率高达99.99％，而Solexa测序的优势则是其极高的通量和相对较低的成本，目前已在NGS竞争中得到快速壮大，产出大量的测序数据，但测序片段的读长一般较短，仅数十碱基到150碱基，是其不足。

一个生物性状归根结底是由遗传决定的，遗传的本源则是其完整的基因组序列，包括核基因组和伴随的细胞器基因组(线粒体和/或叶绿体)序列。解读出完整的序列并进行比较研究，是准确研究系统进化，发掘基因功能的更有效而可靠的手段。但完整的基因组序列非常大，即使是较小的线粒体和叶绿体序列也远大于NGS测序产生的片段长度，动物线粒体基因组序列一般长约15-23kb，植物的叶绿体基因组序列则一般长约为130-150kb。尽管已有众多顶尖科研机构和人员进行大量研究，目前由大量测序小片段准确组装出较大的大片段已获得不少进步，但仍然极为困难，组装获得较大的完整基因组，尤其是核基因组就更为困难。

线粒体和叶绿体的基因组相对较小，如果分离获得纯净的线粒体和叶绿体进行NGS测序，目前一般已能组装获得完整的基因组序列，但其分离和纯化的设备要求高、难度大，而且费时费钱费力。如果能从目前已大量产生的混合基因组重测序数据中，分离和组装获得完整的线粒体和叶绿体基因组序列，则将极大地降低成本，推动相关研究。

发明内容

针对现有技术存在的缺陷，本发明旨在提供一种组装叶绿体基因组序列的方法，本发明提出的组装方法自身形成了有效的组装和验证的闭环，可以对组装序列的质量进行评价判断。

本发明方法具体通过以下技术方案实现：

一种组装叶绿体基因组序列的方法，包括以下步骤：

1)利用NGS测序技术对样品进行测序；

2)根据参考叶绿体基因组序列筛选能mapping到参考基因组的Reads；

3)对筛选获得的Reads进行多个kmer组装，构建Contigs；

4)Contigs序列与参考叶绿体基因组序列比对并排序；

5)选择一个kmer的组装排序结果为主，按照排序结果提取比对上的叠连群序列并按同一序列方向排列序列，根据前后序列的叠加区域实现序列的延伸；

6)对出现的空隙区域序列进行填补和延伸；

7)合并头部和尾部多出部分序列的叠加区域，获得组装叶绿体基因组完整序列；

8)以组装叶绿体基因组序列为参考，重复步骤(1)～(7)过程，获得新组装序列；

9)对参考组装叶绿体基因组和新组装序列进行序列比对分析，对差异区域进行检视，判定其来源和可靠性，获得样本的最终叶绿体基因组序列。

进一步的，

步骤(1)样本不需要专门分离叶绿体，测序采用pair-end模式建库测序，测序长度为100bp或以上，样本单倍基因组覆盖10倍或以上。

步骤(2)选择与样本亲缘关系较近的物种的叶绿体基因组序列为参考。

步骤(4)具体为以参考叶绿体基因组序列为目标序列，组装叠连群序列为询问序列，相似度设为60％，进行序列比对，筛选获得能比对上的叠连群序列，并对比对上的叠连群序列编号按照参考叶绿体基因组序列进行排序。

步骤(5)中选择kmer较大的组装排序结果，参照排序结果提取比对上的叠连群序列，并使所有序列均按照同一方向排列，根据前后序列的叠加区域实现序列的延伸。

步骤(6)对不能顺利延伸而出现的空隙区域，搜寻其它kmer组装中相同或相近位置的互补序列，将互补序列按(5)中提到的方法进行操作，完成空隙区域序列的延伸。

步骤(7)以参考叶绿体基因组的头部为起始，将组装序列的头部以前序列搬到尾部，搜寻叠加区域，合并头部和尾部序列，获得组装叶绿体基因组完整序列。

本发明不需要对叶绿体基因组进行分离和纯化，直接利用NGS基因组测序数据进行DeNovo组装以获得完整叶绿体基因组序列，进而实现对叶绿体基因组全部序列结构和变化的研究；本发明提出的组装方法自身形成了有效的组装和验证的闭环，可以对组装序列的质量进行评价判断。

具体实施方式

下面结合实施例对本发明做进一步的说明，以下所述，仅是对本发明的较佳实施例而已，并非对本发明做其他形式的限制，任何熟悉本专业的技术人员可能利用上述揭示的技术内容加以变更为同等变化的等效实施例。凡是未脱离本发明方案内容，依据本发明的技术实质对以下实施例所做的任何简单修改或等同变化，均落在本发明的保护范围内。

采用本发明技术方案，基于我们的重测序的甜橙数据，我们已组装获得了重测序甜橙的完整叶绿体序列，并对不同重测序甜橙的叶绿体基因组进行了比较研究。

实施例1

1、重测序甜橙的数据。

我们的甜橙重测序由Illumina公司的Hiseq2000测序平台完成，采用pair-end模式建库测序，测序读长为100bp，共获得约2553万paired-reads，总数据量约5.1G，大约覆盖柑桔单倍基因组14倍。

pair-end模式建库测序可以在后续的组装分析中进行理论覆盖度的计算，为通过覆盖度的差异进行少数相同区位的相似序列取舍提供依据。

2、参考基因组序列的获得和测序Reads的筛选。

采用已发表的甜橙叶绿体基因组序列(Bausher MG,Singh ND,Lee SB,Jansen RK,Daniell H(2006)The complete chloroplast genomesequence of Citrus sinensis(L.)Osbeck var‘Ridge Pineapple’:organization and phylogenetic relationships to other angiosperms.BMCPlant Biol 6:21)作为参考基因组序列，该序列可从网上下载。我们采用mapping软件Bowtie2从测序数据中筛选能mapping到参考基因组的Reads，生成一个mapping Reads的文件，如对奉节951脐橙筛选叶绿体序列形成cpSW_Fengjie951.sam文件。

3、筛选Reads的组装。

我们采用Velvet短序列组装软件对筛选获得的Reads进行多个kmer组装。选了63,73,83和93共计4个kmer进行组装，每个kmer均能组装构建一组Contigs。以下是我们对奉节951脐橙筛选叶绿体序列进行组装的程序：

/home/breeding/velvet/velveth/home/breeding/test 63,95,10-sam-shortPaired/home/breeding/tem/cpSW_Fengjie951.sam

/home/breeding/velvet/velvetg/home/breeding/test_93-cov_cutoffauto-ins_length 400-exp_cov auto

4、Contigs序列与参考叶绿体基因组序列比对并排序。

采用Exonerate序列比对软件对各组Contigs序列与参考叶绿体基因组序列进行比对，筛选出能比对上的Contigs。根据参考叶绿体基因组序列先后顺序对比对上的各组Contigs序列进行排序。

以下载的测序甜橙叶绿体基因组序列为目标序列，构建的叠连群序列，如奉节951脐橙kmer93的Contigs Fengjie951_93.fa为询问序列，相似度设为60％，进行序列比对，获得序列比对文件。

以下是对奉节951脐橙Contigs序列进行比对的程序：

exonerate--model affine:local--percent 60--query/home/breeding/chloroplast/Fengjie951_93.fa--target/home/breeding/analysis/chloroplast_orange.fa>/home/breeding/chloroplast/comp_cpSW_Fengjie951-60percent93

根据参考叶绿体基因组序列顺序，对获得的奉节951脐橙comp_cpSW_Fengjie951-60percent93比对上的序列进行排序。

5、序列的拼接延伸。

选择一个kmer的组装排序结果为主，按照排序结果提取比对上的叠连群序列并按同一序列方向排列序列，根据前后序列的叠加区域实现序列的延伸。

一般选择kmer较大的组装排序结果可以减少延伸排序中的工作量。在我们的操作中选择了kmer 93中比对上的Contigs序列优先进行序列排列和延伸。按照排序结果提取比对上的叠连群内序列，将序列拷贝到word等文字处理工具中，如果所组装的序列与参考叶绿体基因组相反，需要将该部分序列进行反向重复处理，使得所有序列均按照同一方向排列；根据前后序列的叠加区域实现序列的延伸。

6、对可能出现的空隙区域序列进行填补和延伸。

不同kmer的组装都有可能出现空隙区域，但这些空隙区域在不同kmer的组装中一般能找到互补的序列，将互补序列按(5)中提到的方法进行操作，完成空隙区域序列的延伸。

在我们对奉节951脐橙kmer93进行序列的拼接延伸时，就出现了4个比较大的空隙，通过对kmer63和kmer83组装中相近或相似区域的搜寻，找到了互补的序列，顺利完成了空隙区域序列的延伸。

7、合并头部和尾部多出部分序列的叠加区域，获得参考组装叶绿体基因组完整序列。

叶绿体基因组序列为环状DNA，在初步完成的组装中一般会出现头部和/或尾部多出或少掉部分序列的现象，需要根据参考叶绿体基因组的头部以及本组装的头部和尾部多出部分序列的叠加区域，合并多出序列，获得新组装叶绿体基因组的完整序列。

相比于发表的甜橙叶绿体基因组序列，我们初步组装获得的奉节951脐橙叶绿体基因组全序列的长度为160204bp，头部多出来88个碱基，尾部4个碱基。将头部多出部分序列搬到尾部，发现叠加区域，合并多出序列，获得新组装叶绿体基因组的完整序列，其长度为160112bp。

8、以新组装叶绿体基因组序列为参考，按照前述程序1-7步骤进行再一轮组装过程。

根据参考叶绿体基因组序列进行组装时，如果参考叶绿体基因组与待组装样本存在较大差异时，可能存在少部分序列难以判定的问题，通过以首轮组装叶绿体基因组序列为参考，按照前述程序进行再一轮组装过程，可以获得更准确的组装。

对获得的奉节951脐橙新组装叶绿体全序列进行再组装。

9、获得样本的最终叶绿体基因组序列

利用开源序列比对软件Exonerate，以再组装叶绿体基因组序列为目标序列，首轮组装序列为询问序列，相似度设为60％，再进行序列比对，对差异区域进行检视，判定其来源和可靠性，消除操作失误等可能带来的错误，获得样本的最终叶绿体基因组序列。

对获得的奉节951脐橙再组装叶绿体全序列，与第7步获得的新组装叶绿体以及发表的甜橙叶绿体基因组序列进行比较分析，发现再组装叶绿体全序列与第7步获得新组装叶绿体完全一致，与发表的甜橙叶绿体基因组序列160129bp，存在长度上的少量差异以及序列上的部分单核苷酸位点差异(SNPs)和插入缺失差异。

Claims

1.一种组装叶绿体基因组序列的方法，其特征在于，包括以下步骤：

1)利用NGS测序技术对样品进行测序；

3)对筛选获得的Reads进行多个kmer组装，构建Contigs；

4)Contigs序列与参考叶绿体基因组序列比对并排序；

6)对出现的空隙区域序列进行填补和延伸；

2.根据权利要求1所述的组装叶绿体基因组序列的方法，其特征在于：步骤(1)样本不需要分离叶绿体，测序采用pair-end模式建库测序，测序长度为100bp或以上，样本单倍基因组覆盖10倍或以上。

3.根据权利要求1所述的组装叶绿体基因组序列的方法，其特征在于：步骤(2)选择与样本亲缘关系较近的物种的叶绿体基因组序列为参考。

4.根据权利要求1所述的组装叶绿体基因组序列的方法，其特征在于：步骤(4)具体为以参考叶绿体基因组序列为目标序列，组装叠连群序列为询问序列，相似度设为60％，进行序列比对，筛选获得能比对上的叠连群序列，并对比对上的叠连群序列编号按照参考叶绿体基因组序列进行排序。

5.根据权利要求1所述的组装叶绿体基因组序列的方法，其特征在于：步骤(5)中选择kmer较大的组装排序结果，照排序结果提取比对上的叠连群序列，并使所有序列均按照同一方向排列，根据前后序列的叠加区域实现序列的延伸。

6.根据权利要求1所述的组装叶绿体基因组序列的方法，其特征在于：步骤(6)具体为对不能顺利延伸而出现的空隙区域，搜寻其它kmer组装中相同或相近位置的互补序列，将互补序列按步骤(5)操作，完成空隙区域序列的延伸。

7.根据权利要求1所述的组装叶绿体基因组序列的方法，其特征在于：步骤(7)具体为以参考叶绿体基因组的头部为起始，将组装序列的头部以前序列搬到尾部，搜寻叠加区域，合并头部和尾部序列，获得组装叶绿体基因组完整序列。