CN110021356A

CN110021356A - 利用转录组数据获取岷县龙胆叶绿体基因组序列的方法

Info

Publication number: CN110021356A
Application number: CN201810008272.4A
Authority: CN
Inventors: 高庆波; 迟晓峰; 张发起; 王文娟; 陈世龙; 李彦; 王久利
Original assignee: Northwest Institute of Plateau Biology of CAS
Current assignee: Northwest Institute of Plateau Biology of CAS
Priority date: 2018-01-04
Filing date: 2018-01-04
Publication date: 2019-07-16

Abstract

本发明公开了一种利用转录组数据获取岷县龙胆叶绿体基因组序列的方法，通过二代测序技术获得岷县龙胆的转录组测序原始数据，经过过滤以及与已知的龙胆属叶绿体基因组进行比对，筛出叶绿体基因reads，将筛出的reads组装成叠连群，其后将叠连群建成本地比对数据库，与参考序列比对，根据比对结果排序和拼接，每拼接5—6kb，将新组装的序列与其它叶绿体基因组序列进行比对，以检查所拼接的序列，最后根据首尾的重叠区将序列组装成环，再通过PCR和一代测序技术填补其中的间隙，最终获得岷县龙胆的叶绿体基因组序列。本发明有利于了解岷县龙胆叶绿体基因组结构等重要信息，也进一步地开发了转录组数据的价值。

Description

利用转录组数据获取岷县龙胆叶绿体基因组序列的方法

技术领域

本发明涉及生物科学领域，具体涉及利用转录组数据获取岷县龙胆叶绿体基因组序列的方法。

背景技术

获取叶绿体基因组序列对研究绿色植物的光合作用等能量代谢过程以及研究物种的系统发育等有重要意义；目前常用的获取叶绿体基因组序列的方法有三种：①提取纯净的叶绿体DNA，然后通过测序获得，该方法对实验材料要求较高且实验难度大，②利用通用引物通过长片段PCR方法将植物总DNA中的叶绿体DNA扩增出来，然后通过测序获得，但该方法所用的引物往往不具有广泛的通用性，导致许多植物类群的叶绿体DNA并不能完整扩增，③直接对植物总DNA进行测序，然后通过生物信息学的方法将其中的叶绿体DNA筛选出来，然后通过拼接组装获得，然而该方法的测序结果中，非叶绿体DNA（核DNA和线粒体DNA）序列往往会占据极大部分的数据量，导致实验成本偏高。

转录组在细胞表型和功能、基因结构、基因功能、基因表达以及分子标记开发等领域有重要研究价值，因而在过去的相关研究工作中产生了大量的植物转录组数据；中国科学院昆明植物研究所的高立志研究组研究表明，植物的整个叶绿体基因组能发生全转录；如果能从转录组数据中将来自叶绿体的RNA序列全部筛选出来，然后经过拼接组装形成全转录组闭合环状序列，该闭合环状序列即可代表相应物种的叶绿体基因组序列，这必然可以让我们获得叶绿体基因组的大量信息，也可以进一步的发掘转录组数据的价值。

发明内容

针对现有技术的不足之处以及现在已经存在大量转录组数据的事实，本发明旨在提供一种充分发掘转录组数据价值以及获得叶绿体基因组序列的方法。

本发明方法具体通过以下技术方案实现：

利用转录组数据获取岷县龙胆叶绿体基因组序列的方法，包括以下步骤：

1）利用高通量测序技术对相应植物叶片的转录组样品进行测序；

2）过滤掉冗余的、不理想的与非目标数据，从而获得转录组的有效数据（clean data）；

3）从clean data中筛选出能定位到参考叶绿体基因组上的reads；

4）组装步骤（3）所获得的reads，构建叠连群（contigs）；

5）根据参考基因组对叠连群进行排序以及进一步的拼接和组装；

6）每拼接5—6kb则将新拼接的序列与已知的核酸序列进行blast，以检查所拼接的序列；

7）合并首尾序列的重叠部分，获得环状序列；

8）如果存在间隙（gaps），则根据gaps两端序列设计引物对gap进行PCR，通过一代测序法获得gap区序列以填补gap，从而获得完整的叶绿体基因组序列；

进一步的，

步骤（3）选取选取与样本物种亲缘关系近的物种的叶绿体基因组序列作为参考叶绿体基因组序列。

本发明避免了叶绿体基因组的分离与纯化以及长片段PCR等实验操作，直接利用转录组的高通量测序数据进行组装以获得完整的叶绿体基因组序列；本发明所用的组装、检测与填补gap的方法使所获得的叶绿体DNA序列形成完整的闭环结构，并可判断所获得序列的质量；本发明不鼓励测得转录组序列仅用于叶绿体基因组序列的发掘。

具体实施方式

利用转录组数据获取岷县龙胆叶绿体基因组的序列的方法，包括以下步骤:

(1)岷县龙胆的转录组在illumina的hiseq2500/miseq平台上完成测序，采用双末端模式建库测序，获得原始数据（raw data）；

(2)利用SolwxaQA过滤掉低质量数据，从而获得转录组的有效数据（clean data）；

(3)从clean data中筛选出能定位到参考叶绿体基因组上的reads；

(4)使用SOAPdenovo软件组装所获得的reads，构建叠连群（contigs）；

(5)根据参考基因组，借助BioEdit软件的本地比对（local blast）功能对叠连群进行排序以及进一步的拼接和组装；

(6)每拼接5—6kb，利用NCBI网站上的BLAST工具将新拼接的序列与NCBI的所有序列进行blast，以检查所拼接的序列；

(7)合并首尾序列的重叠部分，获得环状序列；

(8)如果存在缺失（gaps），则根据gaps两端序列设计引物对gap进行PCR，通过一代测序法获得gap区序列以填补gap，从而获得完整的叶绿体基因组序列；

进一步的，

本发明避免了叶绿体基因组的分离与纯化以及长片段PCR等实验操作，直接利用转录组的高通量测序数据进行组装以获得完整的叶绿体基因组序列；本发明所用的组装、检测与填补gap的方法使所获得的叶绿体DNA序列形成完整的闭环结构，并可判断所获得序列的质量。

Claims

1.利用转录组数据获取岷县龙胆叶绿体基因组序列的方法，其特征在于，包括以下步骤：

利用高通量测序技术对岷县龙胆叶片的转录组样品进行测序，获得原始数据；

过滤掉低质量数据，从而获得转录组的有效数据；

从有效数据中筛选出能定位到参考叶绿体基因组上的机读序列（reads）；

组装所获得的reads，构建叠连群（contigs）；

根据参考叶绿体基因组对叠连群进行排序以及进一步的拼接和组装；

每拼接5—6kb，将新拼接的序列已知的众多序列进行blast比对，以检查所拼接的序列；

合并首尾序列的重叠部分，获得环状序列；

根据所存在的间隙（gap）两端序列设计引物对gap进行PCR，通过末端终止测序法（即一代测序）获得gap区序列以填补gap，从而获得完整的叶绿体基因组序列。

2.根据权利要求1所述的利用转录组数据获取岷县龙胆叶绿体基因组序列的方法，其特征在于：步骤（1）不需要分离叶绿体，甚至不需要提取DNA，而是采用高通量双末端测序方法对转录组进行建库测序。

3.根据权利要求1所述的利用转录组数据获取岷县龙胆叶绿体基因组序列的方法，其特征在于：步骤（3）中所用参考叶绿体基因组为岷县龙胆的近缘物种的叶绿体基因组，即已知的龙胆科植物叶绿体基因组。

4.根据权利要求1所述的利用转录组数据获取岷县龙胆叶绿体基因组序列的方法，其特征在于：步骤（6）可以判断组装质量。