CN104450682B - 一种组装叶绿体基因组序列的方法 - Google Patents

一种组装叶绿体基因组序列的方法 Download PDF

Info

Publication number
CN104450682B
CN104450682B CN201410782756.6A CN201410782756A CN104450682B CN 104450682 B CN104450682 B CN 104450682B CN 201410782756 A CN201410782756 A CN 201410782756A CN 104450682 B CN104450682 B CN 104450682B
Authority
CN
China
Prior art keywords
sequence
assembling
chloroplast gene
chloroplast
gene sequence
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
CN201410782756.6A
Other languages
English (en)
Other versions
CN104450682A (zh
Inventor
洪棋斌
龚桂芝
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Southwest University
Original Assignee
Southwest University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Southwest University filed Critical Southwest University
Priority to CN201410782756.6A priority Critical patent/CN104450682B/zh
Publication of CN104450682A publication Critical patent/CN104450682A/zh
Application granted granted Critical
Publication of CN104450682B publication Critical patent/CN104450682B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Abstract

本发明公开了一种组装叶绿体基因组序列的方法,不需要专门分离叶绿体,通过利用新一代测序技术对样品进行测序,根据参考叶绿体基因组序列筛选能mapping到参考基因组的Reads,对筛选获得的Reads进行多个kmer组装,构建Contigs,Contigs序列与参考叶绿体基因组序列比对并排序,选择一个kmer的组装排序结果为主,按照排序结果实现序列的延伸,合并头部和尾部多出部分序列的叠加区域,获得参考组装叶绿体基因组完整序列。本发明方法直接利用NGS基因组测序数据进行DeNovo组装以获得完整叶绿体基因组序列,自身形成了有效的组装和验证的闭环,可以对组装序列的质量进行评价判断。

Description

一种组装叶绿体基因组序列的方法
技术领域
本发明属于生物信息技术领域,具体涉及一种组装叶绿体基因组序列的方法。
背景技术
NGS基因组测序(Next Generation Sequencing),是相对于传统的桑格测序(Sanger Sequencing)而言的新一代通量和效率都更高的DNA测序方法。Roche公司的GSFLX测序系统、ABI公司(Applied Biosystems)的SOLiD测序平台、Illumina公司的Solexa测序平台,是目前世界上领先的NGS测序平台,相对于传统的桑格测序,均具有更高的通量,但又各具有不同的优缺点。GS FLX测序在读长上的优势明显,读长超过400碱基时,其准确性仍能达到99%以上,但成本和通量的劣势已让其在NGS竞争中受到限制,SOLiD最大的优势是高准确率,准确率高达99.99%,而Solexa测序的优势则是其极高的通量和相对较低的成本,目前已在NGS竞争中得到快速壮大,产出大量的测序数据,但测序片段的读长一般较短,仅数十碱基到150碱基,是其不足。
一个生物性状归根结底是由遗传决定的,遗传的本源则是其完整的基因组序列,包括核基因组和伴随的细胞器基因组(线粒体和/或叶绿体)序列。解读出完整的序列并进行比较研究,是准确研究系统进化,发掘基因功能的更有效而可靠的手段。但完整的基因组序列非常大,即使是较小的线粒体和叶绿体序列也远大于NGS测序产生的片段长度,动物线粒体基因组序列一般长约15-23kb,植物的叶绿体基因组序列则一般长约为130-150kb。尽管已有众多顶尖科研机构和人员进行大量研究,目前由大量测序小片段准确组装出较大的大片段已获得不少进步,但仍然极为困难,组装获得较大的完整基因组,尤其是核基因组就更为困难。
线粒体和叶绿体的基因组相对较小,如果分离获得纯净的线粒体和叶绿体进行NGS测序,目前一般已能组装获得完整的基因组序列,但其分离和纯化的设备要求高、难度大,而且费时费钱费力。如果能从目前已大量产生的混合基因组重测序数据中,分离和组装获得完整的线粒体和叶绿体基因组序列,则将极大地降低成本,推动相关研究。
发明内容
针对现有技术存在的缺陷,本发明旨在提供一种组装叶绿体基因组序列的方法,本发明提出的组装方法自身形成了有效的组装和验证的闭环,可以对组装序列的质量进行评价判断。
本发明方法具体通过以下技术方案实现:
一种组装叶绿体基因组序列的方法,包括以下步骤:
1)利用NGS测序技术对样品进行测序;
2)根据参考叶绿体基因组序列筛选能mapping到参考基因组的Reads;
3)对筛选获得的Reads进行多个kmer组装,构建Contigs;
4)Contigs序列与参考叶绿体基因组序列比对并排序;
5)选择一个kmer的组装排序结果为主,按照排序结果提取比对上的叠连群序列并按同一序列方向排列序列,根据前后序列的叠加区域实现序列的延伸;
6)对出现的空隙区域序列进行填补和延伸;
7)合并头部和尾部多出部分序列的叠加区域,获得组装叶绿体基因组完整序列;
8)以组装叶绿体基因组序列为参考,重复步骤(1)~(7)过程,获得新组装序列;
9)对参考组装叶绿体基因组和新组装序列进行序列比对分析,对差异区域进行检视,判定其来源和可靠性,获得样本的最终叶绿体基因组序列。
进一步的,
步骤(1)样本不需要专门分离叶绿体,测序采用pair-end模式建库测序,测序长度为100bp或以上,样本单倍基因组覆盖10倍或以上。
步骤(2)选择与样本亲缘关系较近的物种的叶绿体基因组序列为参考。
步骤(4)具体为以参考叶绿体基因组序列为目标序列,组装叠连群序列为询问序列,相似度设为60%,进行序列比对,筛选获得能比对上的叠连群序列,并对比对上的叠连群序列编号按照参考叶绿体基因组序列进行排序。
步骤(5)中选择kmer较大的组装排序结果,参照排序结果提取比对上的叠连群序列,并使所有序列均按照同一方向排列,根据前后序列的叠加区域实现序列的延伸。
步骤(6)对不能顺利延伸而出现的空隙区域,搜寻其它kmer组装中相同或相近位置的互补序列,将互补序列按(5)中提到的方法进行操作,完成空隙区域序列的延伸。
步骤(7)以参考叶绿体基因组的头部为起始,将组装序列的头部以前序列搬到尾部,搜寻叠加区域,合并头部和尾部序列,获得组装叶绿体基因组完整序列。
本发明不需要对叶绿体基因组进行分离和纯化,直接利用NGS基因组测序数据进行DeNovo组装以获得完整叶绿体基因组序列,进而实现对叶绿体基因组全部序列结构和变化的研究;本发明提出的组装方法自身形成了有效的组装和验证的闭环,可以对组装序列的质量进行评价判断。
具体实施方式
下面结合实施例对本发明做进一步的说明,以下所述,仅是对本发明的较佳实施例而已,并非对本发明做其他形式的限制,任何熟悉本专业的技术人员可能利用上述揭示的技术内容加以变更为同等变化的等效实施例。凡是未脱离本发明方案内容,依据本发明的技术实质对以下实施例所做的任何简单修改或等同变化,均落在本发明的保护范围内。
采用本发明技术方案,基于我们的重测序的甜橙数据,我们已组装获得了重测序甜橙的完整叶绿体序列,并对不同重测序甜橙的叶绿体基因组进行了比较研究。
实施例1
1、重测序甜橙的数据。
我们的甜橙重测序由Illumina公司的Hiseq2000测序平台完成,采用pair-end模式建库测序,测序读长为100bp,共获得约2553万paired-reads,总数据量约5.1G,大约覆盖柑桔单倍基因组14倍。
pair-end模式建库测序可以在后续的组装分析中进行理论覆盖度的计算,为通过覆盖度的差异进行少数相同区位的相似序列取舍提供依据。
2、参考基因组序列的获得和测序Reads的筛选。
采用已发表的甜橙叶绿体基因组序列(Bausher MG,Singh ND,Lee SB,JansenRK,Daniell H(2006)The complete chloroplast genome sequence of Citrus sinensis(L.)Osbeck var‘Ridge Pineapple’:organization and phylogenetic relationshipsto other angiosperms.BMC Plant Biol 6:21)作为参考基因组序列,该序列可从网上下载。我们采用mapping软件Bowtie2从测序数据中筛选能mapping到参考基因组的Reads,生成一个mapping Reads的文件,如对奉节951脐橙筛选叶绿体序列形成cpSW_Fengjie951.sam文件。
3、筛选Reads的组装。
我们采用Velvet短序列组装软件对筛选获得的Reads进行多个kmer组装。选了63,73,83和93共计4个kmer进行组装,每个kmer均能组装构建一组Contigs。以下是我们对奉节951脐橙筛选叶绿体序列进行组装的程序:
/home/breeding/velvet/velveth/home/breeding/test 63,95,10-sam-shortPaired/home/breeding/tem/cpSW_Fengjie951.sam
/home/breeding/velvet/velvetg/home/breeding/test_93-cov_cutoff auto-ins_length 400-exp_cov auto
4、Contigs序列与参考叶绿体基因组序列比对并排序。
采用Exonerate序列比对软件对各组Contigs序列与参考叶绿体基因组序列进行比对,筛选出能比对上的Contigs。根据参考叶绿体基因组序列先后顺序对比对上的各组Contigs序列进行排序。
以下载的测序甜橙叶绿体基因组序列为目标序列,构建的叠连群序列,如奉节951脐橙kmer93的Contigs Fengjie951_93.fa为询问序列,相似度设为60%,进行序列比对,获得序列比对文件。
以下是对奉节951脐橙Contigs序列进行比对的程序:
exonerate--model affine:local--percent 60--query/home/breeding/chloroplast/Fengjie951_93.fa--target/home/breeding/analysis/chloroplast_orange.fa>/home/breeding/chloroplast/comp_cpSW_Fengjie951-60perce nt93
根据参考叶绿体基因组序列顺序,对获得的奉节951脐橙comp_cpSW_Fengjie951-60percent93比对上的序列进行排序。
5、序列的拼接延伸。
选择一个kmer的组装排序结果为主,按照排序结果提取比对上的叠连群序列并按同一序列方向排列序列,根据前后序列的叠加区域实现序列的延伸。
一般选择kmer较大的组装排序结果可以减少延伸排序中的工作量。在我们的操作中选择了kmer 93中比对上的Contigs序列优先进行序列排列和延伸。按照排序结果提取比对上的叠连群内序列,将序列拷贝到word等文字处理工具中,如果所组装的序列与参考叶绿体基因组相反,需要将该部分序列进行反向重复处理,使得所有序列均按照同一方向排列;根据前后序列的叠加区域实现序列的延伸。
6、对可能出现的空隙区域序列进行填补和延伸。
不同kmer的组装都有可能出现空隙区域,但这些空隙区域在不同kmer的组装中一般能找到互补的序列,将互补序列按(5)中提到的方法进行操作,完成空隙区域序列的延伸。
在我们对奉节951脐橙kmer93进行序列的拼接延伸时,就出现了4个比较大的空隙,通过对kmer63和kmer83组装中相近或相似区域的搜寻,找到了互补的序列,顺利完成了空隙区域序列的延伸。
7、合并头部和尾部多出部分序列的叠加区域,获得参考组装叶绿体基因组完整序列。
叶绿体基因组序列为环状DNA,在初步完成的组装中一般会出现头部和/或尾部多出或少掉部分序列的现象,需要根据参考叶绿体基因组的头部以及本组装的头部和尾部多出部分序列的叠加区域,合并多出序列,获得新组装叶绿体基因组的完整序列。
相比于发表的甜橙叶绿体基因组序列,我们初步组装获得的奉节951脐橙叶绿体基因组全序列的长度为160204bp,头部多出来88个碱基,尾部4个碱基。将头部多出部分序列搬到尾部,发现叠加区域,合并多出序列,获得新组装叶绿体基因组的完整序列,其长度为160112bp。
8、以新组装叶绿体基因组序列为参考,按照前述程序1-7步骤进行再一轮组装过程。
根据参考叶绿体基因组序列进行组装时,如果参考叶绿体基因组与待组装样本存在较大差异时,可能存在少部分序列难以判定的问题,通过以首轮组装叶绿体基因组序列为参考,按照前述程序进行再一轮组装过程,可以获得更准确的组装。
对获得的奉节951脐橙新组装叶绿体全序列进行再组装。
9、获得样本的最终叶绿体基因组序列
利用开源序列比对软件Exonerate,以再组装叶绿体基因组序列为目标序列,首轮组装序列为询问序列,相似度设为60%,再进行序列比对,对差异区域进行检视,判定其来源和可靠性,消除操作失误等可能带来的错误,获得样本的最终叶绿体基因组序列。
对获得的奉节951脐橙再组装叶绿体全序列,与第7步获得的新组装叶绿体以及发表的甜橙叶绿体基因组序列进行比较分析,发现再组装叶绿体全序列与第7步获得新组装叶绿体完全一致,与发表的甜橙叶绿体基因组序列160129bp,存在长度上的少量差异以及序列上的部分单核苷酸位点差异(SNPs)和插入缺失差异。

Claims (7)

1.一种组装叶绿体基因组序列的方法,其特征在于,包括以下步骤:
1)利用NGS测序技术对样品进行测序;
2)根据参考叶绿体基因组序列筛选能mapping到参考基因组的Reads;
3)对筛选获得的Reads进行多个kmer组装,构建Contigs;
4)Contigs序列与参考叶绿体基因组序列比对并排序;
5)选择一个kmer的组装排序结果为主,按照排序结果提取比对上的叠连群序列并按同一序列方向排列序列,根据前后序列的叠加区域实现序列的延伸;
6)对出现的空隙区域序列进行填补和延伸;
7)合并头部和尾部多出部分序列的叠加区域,获得组装叶绿体基因组完整序列;
8)以组装叶绿体基因组序列为参考,重复步骤(1)~(7)过程,获得新组装序列;
9)对参考组装叶绿体基因组和新组装序列进行序列比对分析,对差异区域进行检视,判定其来源和可靠性,获得样本的最终叶绿体基因组序列。
2.根据权利要求1所述的组装叶绿体基因组序列的方法,其特征在于:步骤(1)样本不需要分离叶绿体,测序采用pair-end模式建库测序,测序长度为100bp或以上,样本单倍基因组覆盖10倍或以上。
3.根据权利要求1所述的组装叶绿体基因组序列的方法,其特征在于:步骤(2)选择与样本亲缘关系较近的物种的叶绿体基因组序列为参考。
4.根据权利要求1所述的组装叶绿体基因组序列的方法,其特征在于:步骤(4)具体为以参考叶绿体基因组序列为目标序列,组装叠连群序列为询问序列,相似度设为60%,进行序列比对,筛选获得能比对上的叠连群序列,并对比对上的叠连群序列编号按照参考叶绿体基因组序列进行排序。
5.根据权利要求1所述的组装叶绿体基因组序列的方法,其特征在于:步骤(5)中选择kmer较大的组装排序结果,照排序结果提取比对上的叠连群序列,并使所有序列均按照同一方向排列,根据前后序列的叠加区域实现序列的延伸。
6.根据权利要求1所述的组装叶绿体基因组序列的方法,其特征在于:步骤(6)具体为对不能顺利延伸而出现的空隙区域,搜寻其它kmer组装中相同或相近位置的互补序列,将互补序列按步骤(5)操作,完成空隙区域序列的延伸。
7.根据权利要求1所述的组装叶绿体基因组序列的方法,其特征在于:步骤(7)具体为以参考叶绿体基因组的头部为起始,将组装序列的头部以前序列搬到尾部,搜寻叠加区域,合并头部和尾部序列,获得组装叶绿体基因组完整序列。
CN201410782756.6A 2014-12-16 2014-12-16 一种组装叶绿体基因组序列的方法 Expired - Fee Related CN104450682B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201410782756.6A CN104450682B (zh) 2014-12-16 2014-12-16 一种组装叶绿体基因组序列的方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201410782756.6A CN104450682B (zh) 2014-12-16 2014-12-16 一种组装叶绿体基因组序列的方法

Publications (2)

Publication Number Publication Date
CN104450682A CN104450682A (zh) 2015-03-25
CN104450682B true CN104450682B (zh) 2017-07-07

Family

ID=52897434

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201410782756.6A Expired - Fee Related CN104450682B (zh) 2014-12-16 2014-12-16 一种组装叶绿体基因组序列的方法

Country Status (1)

Country Link
CN (1) CN104450682B (zh)

Families Citing this family (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106021978B (zh) * 2016-04-06 2019-03-29 晶能生物技术(上海)有限公司 基于光学图谱平台Irys的一种de novo测序数据组装方法
CN106834465A (zh) * 2017-01-22 2017-06-13 西北农林科技大学 一种简便、高效且通用的植物叶绿体基因组测序方法
CN107784199A (zh) * 2017-10-18 2018-03-09 中国科学院昆明植物研究所 一种基于总dna测序结果的细胞器基因组筛选方法
CN110042148B (zh) * 2018-01-16 2023-01-31 深圳华大基因科技有限公司 一种高效获取叶绿体dna测序数据的方法及其应用
CN109411014B (zh) * 2018-10-09 2021-11-09 中国科学院昆明植物研究所 一种基于二代测序的植物叶绿体全基因组组装成环方法
CN111128303B (zh) * 2018-10-31 2023-09-15 深圳华大生命科学研究院 基于已知序列确定目标物种中对应序列的方法和系统
CN112259169B (zh) * 2020-11-18 2024-01-30 东北农业大学 一种从转录组数据中快速获取叶绿体基因组的方法

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
人参基因组测序和叶绿体基因组结构研究;殷金龙;《中国博士学位论文全文数据库农业科技辑》;20140715;D047-32 *
基于reads引导的基因组序列拼接;曾培龙;《中国优秀硕士学位论文全文数据库基础科学辑》;20140415;A006-11 *
基于混合样品高通量测序数据的植物叶绿体基因组拼接和分析;白雪菲;《中国优秀硕士学位论文全文数据库基础科学辑》;20140215;A006-42 *

Also Published As

Publication number Publication date
CN104450682A (zh) 2015-03-25

Similar Documents

Publication Publication Date Title
CN104450682B (zh) 一种组装叶绿体基因组序列的方法
Silva‐Junior et al. A flexible multi‐species genome‐wide 60K SNP chip developed from pooled resequencing of 240 Eucalyptus tree genomes across 12 species
Wächter et al. Proposal for a subdivision of the family Psathyrellaceae based on a taxon-rich phylogenetic analysis with iterative multigene guide tree
Kosentka et al. Evolution of the toxins muscarine and psilocybin in a family of mushroom-forming fungi
Johnson et al. Phylogenomics clarifies repeated evolutionary origins of inbreeding and fungus farming in bark beetles (Curculionidae, Scolytinae)
CN106845151A (zh) CRISPR-Cas9系统sgRNA作用靶点的筛选方法及装置
Alwadani et al. Chloroplast genome analysis of box-ironbark Eucalyptus
CN109346130A (zh) 一种直接从全基因组重测序数据中得到微单体型及其分型的方法
Ma et al. Bioinformatics-assisted, integrated omics studies on medicinal plants
CN105653899A (zh) 同时确定多种样本的线粒体基因组序列信息的方法和系统
CN107345256A (zh) 一种基于转录组测序开发山黧豆est‑ssr引物组及方法和应用
CN109337997B (zh) 一种山茶属多态性叶绿体基因组微卫星分子标记引物及筛选和甄别近缘种的方法
CN109411014A (zh) 一种基于二代测序的植物叶绿体全基因组组装成环方法
CN107217101A (zh) 适于农作物品种分子身份鉴别和确权鉴定的检测方法
Adebali et al. Phylogenetic analysis of SARS-CoV-2 genomes in Turkey
CN109830261A (zh) 一种筛选数量性状候选基因的方法
Yang et al. From single-to multi-omics: future research trends in medicinal plants
CN107862177B (zh) 一种区分鲤群体的单核苷酸多态性分子标记集的构建方法
Jiang et al. Genetic diversity and population structure of Chinese chestnut (Castanea mollissima Blume) cultivars revealed by GBS resequencing
KR101539737B1 (ko) 유전체 정보와 분자마커를 이용한 여교잡 선발의 효율성 증진 기술
CN105861729B (zh) 一种用于凡纳滨对虾种质鉴定的分子标记组合及其应用
Hapsari et al. Haplotype network analysis of wild banana relatives Ensete glaucum, Musa acuminata and Musa balbisiana based on cpDNA rbcL sequences in ex-situ collection
CN106709273A (zh) 基于微藻蛋白质特征序列标签匹配的蛋白质快速检测方法及系统
CN104573409B (zh) 基因定位的多重检验方法
Raverdy et al. Linkage mapping of biomass production and composition traits in a Miscanthus sinensis population

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
EXSB Decision made by sipo to initiate substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20170707

Termination date: 20181216

CF01 Termination of patent right due to non-payment of annual fee