CN112259169B

CN112259169B - 一种从转录组数据中快速获取叶绿体基因组的方法

Info

Publication number: CN112259169B
Application number: CN202011296845.1A
Authority: CN
Inventors: 王傲雪; 汪杨; 莫福磊; 张念; 柴畅; 陈秀玲
Original assignee: Northeast Agricultural University
Current assignee: Northeast Agricultural University
Priority date: 2020-11-18
Filing date: 2020-11-18
Publication date: 2024-01-30
Anticipated expiration: 2040-11-18
Also published as: CN112259169A

Abstract

本发明涉及一种从转录组数据中快速获取叶绿体基因组的方法，属于生物科学技术领域。为解决现有拼接、组装方法无法快速获取植物叶绿体基因组的问题，本发明提供了一种从转录组数据中快速获取叶绿体基因组的方法，以近源物种叶绿体基因组序列作为叶绿体参考基因组，使用hisat2软件进行比对、筛选；使用bwa软件再次比对、筛选；使用samtools软件进行重排，最后通过bcftools软件进行一致序列的获取，得到待测植物物种的叶绿体基因组序列。本发明不需要分离纯化叶绿体，而以全转录组数据为模板，利用叶绿体的保守特性，无需进行拼接组装，直接比对就可以筛选出完整的叶绿体基因组，简化了流程，提高了效率和实用性。

Description

一种从转录组数据中快速获取叶绿体基因组的方法

技术领域

本发明属于生物科学技术领域，尤其涉及一种从转录组数据中快速获取叶绿体基因组的方法。

背景技术

叶绿体是大多数绿色植物光合作用的细胞器，它也是活跃的代谢中心，更是植物细胞中普遍存在的质体。叶绿体通过光合作用和释放氧气将太阳能转化为碳水化合物来维持地球上的生命。虽然光合作用通常被认为是叶绿体的关键功能，但是它在植物正常发育和生理的其他方面也发挥着至关重要的作用，其中包括氨基酸、核苷酸、脂肪酸的合成，植物激素的产生，一些维生素和多种次生代谢产物，以及氮和硫的同化作用。许多叶绿体次生代谢产物除了对于植物的基本代谢功能而言是必需的以外，对于植物与环境的相互作用也很重要。例如植物对低温、高温、干旱、盐、强光等环境的反应，以及在植物对入侵病原体的防御方面也很重要。因此叶绿体可以在细胞对信号的反应中充当代谢中心，并通过逆行信号做出反应，因此叶绿体在细胞对信号的反应中充当枢纽。有许多的编码基因在叶绿体基因组中是参与光合作用和其他代谢过程的关键性蛋白。

由于高通量测序技术的出现，叶绿体遗传学和基因组学相关领域正在高速发展。在1986年测序的烟草叶绿体基因组是第一个测序完成的叶绿体基因组，现如今已经超出1500个完整的叶绿体基因组序列在国家生物技术信息中心(NCBI)细胞器基因组数据库中可以查到，其中包括600多个来自作物和树木的基因组。从完整的叶绿体基因组序列中获得的见解，增强了我们对植物生物学多样性的理解，叶绿体基因组在一些植物的系统发育进化研究和解决系统发育分支中的进化关系方面做出了突出贡献。

申请号为201410782756.6的发明专利申请公开了一种组装叶绿体基因组序列的方法，该方法直接利用NGS基因组测序数据进行DeNovo组装以获得完整叶绿体基因组序列。

申请号为201710062510.5的发明专利申请公开了一种植物叶绿体基因组测序方法，该方法采用基因组DNA高通量测序后，利用生物学信息学方法抓取其中的叶绿体reads，然后组装、拼接获得其叶绿体基因组全序列。

申请号为201810008272.4的发明专利申请公开了利用转录组数据获得叶绿体基因组序列的方法，该方法通过二代测序获得转录组测序原始数据，经过过滤以及与已知叶绿体基因组进行比对，筛出叶绿体基因reads，将筛出的reads组装成叠连群，其后将叠连群建成本地比对数据库，与参考序列比对，根据比对结果排序和拼接，每拼接5-6kb，将新组装的序列与其他叶绿体基因组序列进行比对，以检查所拼接的序列，最后根据收尾的重叠区将序列组装成环，再通过PCR和一代测序技术填补其中的间隙，最终获得叶绿体基因组序列。

上述方法无论以基因组数据为基础，还是以转录组数据为基础，都需要进行组装、拼接，在实际应用过程中，组装软件经常无法有效识别叶绿体的反向重复区域-IR序列，因此常常需要进行复杂的基因注释或反复的PCR验证。因此组装和拼接的过程耗时较长，无法快速获取叶绿体基因组。

发明内容

为解决现有拼接、组装的方法无法快速获取植物叶绿体基因组的问题，本发明提供了一种从转录组数据中快速获取叶绿体基因组的方法。

本发明的技术方案：

一种从转录组数据中快速获取叶绿体基因组的方法，对所获得的待测植物物种的转录组数据进行质控预处理，去除低质量序列得到用于候选分析的预处理数据；以待测植物物种的近源物种叶绿体基因组序列作为叶绿体参考基因组，使用转录组对比软件hisat2对所述预处理数据和叶绿体参考基因组进行比对，筛选能mapping到所述叶绿体参考基因组的reads-1并将其以fastq格式文件进行保存；使用bwa软件对所得reads-1和叶绿体参考基因组进行比对，筛选能mapping到所述叶绿体参考基因组的reads-2并将其以sam格式文件进行保存；使用samtools软件对所得sam格式文件进行重排，最后通过bcftools软件进行一致序列的获取，得到待测植物物种的叶绿体基因组序列。

进一步的，所述待测植物物种的转录组数据由NCBI数据库下载获得或由植物物种转录组样品测序获得，所述待测植物物种的近源物种叶绿体基因组序列由NCBI数据库下载获得。

进一步的，对待测植物物种的转录组数据进行质控预处理使用的是fastq软件。

进一步的，使用bcftools软件能够直接call出SNP和indel，得到待测植物物种叶绿体基因组序列和叶绿体参考基因组的差异。

进一步的，还包括对所得待测植物物种的叶绿体基因组序列进行验证和评估的步骤。

进一步的，所述验证和评估是指使用网页程序pipmaker将所得待测植物物种叶绿体基因组序列与其他已知植物物种叶绿体基因组序列进行比较，当比较结果表现出一条笔直的对角线状态，表明所得待测植物物种的叶绿体基因组序列是正确的。

本发明的有益效果：

本发明提供的从转录组数据中快速获取叶绿体基因组的方法，不需要分离纯化叶绿体，直接采用RNA的高通量测序结果，以近源物种的叶绿体基因组作为参考基因组，利用生物信息学方法抓取其中的叶绿体reads，直接得到物种的叶绿体基因组。与现有组装、拼接方法相比，本发明直接以全转录组数据为模板，利用叶绿体的保守特性，无需进行叶绿体基因组组装，直接利用Linux系统进行比对就可以筛选出完整的叶绿体基因组。本发明无需复杂的PCR产物测序及克隆片段的拼接组装，并且可以直接call出SNP和indel，得到物种的叶绿体和已知叶绿体序列的差异，减少了实验步骤，简化了实验流程，提高了效率和实用性，显著缩短了获得差异的时间。将本发明提供的方法应用于植物育种领域，能够加快优良植物品种培育、筛选和纯化的速度，提高植物育种效率。

附图说明

图1为本发明一种从转录组数据中快速获取叶绿体基因组的方法的流程示意图；

图2为实施例6中多毛番茄叶绿体基因组序列与栽培番茄叶绿体基因组序列在pipmaker获得的序列对比图；

图3为实施例6中多毛番茄叶绿体基因组序列与马铃薯叶绿体基因组序列在pipmaker获得的序列对比图。

具体实施方式

下面结合实施例对本发明的技术方案做进一步的说明，但并不局限于此，凡是对本发明技术方案进行修改或者等同替换，而不脱离本发明技术方案的精神和范围，均应涵盖在本发明的保护范围中。下列实施例中未具体注明的工艺设备或装置均采用本领域内的常规设备或装置，若未特别指明，本发明实施例中所用的原料等均可市售获得；若未具体指明，本发明实施例中所用的技术手段均为本领域技术人员所熟知的常规手段。

实施例1

实施例2

本实施例提供了一种从转录组数据中快速获取叶绿体基因组的方法，具体步骤如下：

步骤一、由NCBI数据库下载获得或由植物物种转录组样品测序获得待测植物物种的转录组数据；由NCBI数据库下载获得待测植物物种的近源物种叶绿体基因组序列；

步骤二、用fastq软件对所获得的待测植物物种的转录组数据进行质控预处理，去除低质量序列得到用于候选分析的预处理数据；

步骤三、以待测植物物种的近源物种叶绿体基因组序列作为叶绿体参考基因组，使用转录组对比软件hisat2对所述预处理数据和叶绿体参考基因组进行比对，筛选能mapping到所述叶绿体参考基因组的reads-1并将其以fastq格式文件进行保存；

步骤四、使用bwa软件对所得reads-1和叶绿体参考基因组进行比对，筛选能mapping到所述叶绿体参考基因组的reads-2并将其以sam格式文件进行保存；

步骤五、使用samtools软件对所得sam格式文件进行重排，最后通过bcftools软件进行一致序列的获取，得到待测植物物种的叶绿体基因组序列。

实施例3

步骤六、使用bcftools软件能够直接call出SNP和indel，得到待测植物物种叶绿体基因组序列和叶绿体参考基因组的差异。

实施例4

使用转录组对比软件hisat2对所述预处理数据和叶绿体参考基因组进行比对时的具体命令为：

双端的具体命令为hisat2-p 6--rg-id＝UHR_Rep1--rg SM:UHR--rg LB:UHR_Rep1_ERCC-Mix1--rg PL:ILLUMINA--rg PU:CXX1234-ACTGAC.1-x chloroplast--dta--rna-strandness RF-1 1_1.fastq.gz-2SRR4041970_2.fastq.gz-S chloroplast.sam 2>chloroplast.summary--al-conc./chloroplast/chloroplast_pe.fastq；

单端的具体命令为hisat2-p 6--rg-id＝UHR_Rep1--rg SM:UHR--rg LB:UHR_Rep1_ERCC-Mix1--rg PL:ILLUMINA--rg PU:CXX1234-ACTGAC.1-x chloroplast--dta--rna-strandness RF-U cp1.fastq.gz-S chloroplast.sam 2>chloroplast.summary--al./cp/chloroplast_se.fastq。

使用bwa软件对所得reads-1和叶绿体参考基因组进行比对时的具体命令为：bwaaln-t 6chloroplast.fasta chloroplast_pe.1.fastq>chloroplast_pe.1.sai，bwa aln-t 6chloroplast.fasta chloroplast_pe.2.fastq>chloroplast_pe.2.sai，双端bwasampe chloroplast.fasta chloroplast_pe.1.sai chloroplast_pe.2.saichloroplast_pe.1.fastq chloroplast_pe.1.fastq>chloroplast.sam，单端bwa samsechloroplast.fasta chloroplast_pe.sai chloroplast_pe.fastq>chloroplast.sam。

步骤五、使用samtools软件对所得sam格式文件进行重排，最后通过bcftools软件进行一致序列的获取，得到待测植物物种的叶绿体基因组序列；

通过bcftools软件进行一致序列获取时的具体命令为：

samtools view-bS chloroplast.sam-o chloroplast.bam，samtools sortchloroplast.bam>chloroplast.sort.bam，samtools mpileup-gSDf chloroplast.fastachloroplast.sort.bam>chloroplast.seq.bcf，bcftools view chloroplast.seq.bcf-Oz-o chloroplast.seq.vcf，bgzip-c chloroplast.seq.vcf>chloroplast.seq.vcf.gz，bcftools consensus-f chloroplast.fasta chloroplast.seq.vcf.gz>chloroplast.fasta。

实施例5

本实施例利用实施例4提供的方法从胁迫环境下的栽培番茄转录组数据中快速获取了胁迫环境下番茄的叶绿体基因组，具体方法步骤如下：

步骤一、由NCBI下载胁迫环境下的栽培番茄转录组数据，其NCBI登录号为SRR4041970；由NCBI下载已发表的NCBI登录号为NC007898.3的正常环境下的栽培番茄叶绿体基因组序列。

步骤二、用fastq软件对所获得的胁迫环境下的栽培番茄转录组数据进行质控预处理，去除低质量序列得到用于候选分析的预处理数据；

步骤三、以正常环境下栽培番茄叶绿体基因组序列作为叶绿体参考基因组，使用转录组对比软件hisat2对胁迫环境下的栽培番茄转录组预处理数据和叶绿体参考基因组进行比对，筛选能mapping到叶绿体参考基因组的reads-1并将其以fastq格式文件进行保存，最终得到连个73M的fastq文件；

步骤四、使用bwa软件对所得reads-1和叶绿体参考基因组进行比对，筛选能mapping到叶绿体参考基因组的reads-2并将其以sam格式文件进行保存；

使用bwa软件对所得reads-1和叶绿体参考基因组进行比对时的具体命令为：bwaaln-t 6chloroplast.fasta chloroplast_pe.1.fastq>chloroplast_pe.1.sai，bwa aln-t 6chloroplast.fasta chloroplast_pe.2.fastq>chloroplast_pe.2.sai，双端bwasampe chloroplast.fasta chloroplast_pe.1.sai chloroplast_pe.2.saichloroplast_pe.1.fastq chloroplast_pe.1.fastq>chloroplast.sam。

步骤五、使用samtools软件对所得sam格式文件进行重排，最后通过bcftools软件进行一致序列的获取，得到一个155kb大小的胁迫环境下的番茄的叶绿体基因组序列；

通过bcftools软件进行一致序列获取时的具体命令为：

步骤六、使用bcftools软件能够直接call出SNP和indel，得到胁迫环境下的番茄叶绿体基因组序列和正常环境下的栽培番茄叶绿体参考基因组的差异。

利用本发明提供的方法能够快速获得待测植物叶绿体基因组与叶绿体参考基因组的差异，将其用于考察胁迫环境下的植物时，只需通过植物转录组数据就能够快速得到胁迫环境下植物叶绿体基因碱基的不同，以及其叶绿体基因组上是否发生了小片段序列的插入或删除。相比现有技术必须进行两个月以上长时间的对照测序才能获得差异，本发明能够显著缩短获得差异的时间，加快优良植物品种培育、筛选和纯化的速度，提高植物育种效率。

实施例6

本实施例利用实施例4提供的方法从多毛番茄转录组数据中快速获取了多毛番茄的叶绿体基因组，具体方法步骤如下：

步骤一、实验室测序获得了多毛番茄LA1777的全长转录组数据；由NCBI下载已发表的多毛番茄的近源物种——NCBI登录号为HG975525.1的栽培番茄叶绿体基因组序列。

步骤二、用fastq软件对所获得的多毛番茄转录组数据进行质控预处理，去除低质量序列得到用于候选分析的预处理数据；

步骤三、以栽培番茄叶绿体基因组序列作为叶绿体参考基因组，使用转录组对比软件hisat2对多毛番茄转录组预处理数据和叶绿体参考基因组进行比对，筛选能mapping到叶绿体参考基因组的reads-1并将其以fastq格式文件进行保存，最终得到连个73M的fastq文件；

单端的具体命令为hisat2-p 6--rg-id＝UHR_Rep1--rg SM:UHR--rg LB:UHR_Rep1_ERCC-Mix1--rg PL:ILLUMINA--rg PU:CXX1234-ACTGAC.1-x chloroplast--dta--rna-strandness RF-U cp1.fastq.gz-S chloroplast.sam2>chloroplast.summary--al./cp/chloroplast_se.fastq。

使用bwa软件对所得reads-1和叶绿体参考基因组进行比对时的具体命令为：bwaaln-t 6chloroplast.fasta chloroplast_se.fastq>chloroplast_se.sai，单端bwasamse chloroplast.fasta chloroplast_se.sai chloroplast_se.fastq>chloroplast.sam。

步骤五、使用samtools软件对所得sam格式文件进行重排，最后通过bcftools软件进行一致序列的获取，得到一个155kb大小的多毛番茄的叶绿体基因组序列；

通过bcftools软件进行一致序列获取时的具体命令为：

步骤六、使用bcftools软件能够直接call出SNP和indel，得到多毛番茄叶绿体基因组序列和栽培番茄叶绿体参考基因组的差异。

步骤七、对所得多毛番茄叶绿体基因组序列进行验证和评估的步骤：使用网页程序pipmaker将多毛番茄叶绿体基因组序列与NCBI登录号为HG975525.1的栽培番茄、NCBI登录号为NC_008096.2的马铃薯的叶绿体基因组序列进行两两比较，比对结果如图2、图3所示，多毛番茄叶绿体基因组序列与栽培番茄、马铃薯的叶绿体基因组序列均表现出一条笔直的对角线状态，表明所得多毛番茄的叶绿体基因组序列是正确的。

Claims

1.一种从转录组数据中快速获取叶绿体基因组的方法，其特征在于，对所获得的待测植物物种的转录组数据进行质控预处理，去除低质量序列得到用于候选分析的预处理数据；以待测植物物种的近源物种叶绿体基因组序列作为叶绿体参考基因组，使用转录组对比软件hisat2对所述预处理数据和叶绿体参考基因组进行比对，筛选能mapping到所述叶绿体参考基因组的reads-1并将其以fastq格式文件进行保存；使用bwa软件对所得reads-1和叶绿体参考基因组进行比对，筛选能mapping到所述叶绿体参考基因组的reads-2并将其以sam格式文件进行保存；使用samtools软件对所得sam格式文件进行重排，最后通过bcftools软件进行一致序列的获取，得到待测植物物种的叶绿体基因组序列。

2.根据权利要求1所述一种从转录组数据中快速获取叶绿体基因组的方法，其特征在于，所述待测植物物种的转录组数据由NCBI数据库下载获得或由植物物种转录组样品测序获得，所述待测植物物种的近源物种叶绿体基因组序列由NCBI数据库下载获得。

3.根据权利要求1或2所述一种从转录组数据中快速获取叶绿体基因组的方法，其特征在于，对待测植物物种的转录组数据进行质控预处理使用的是fastq软件。

4.根据权利要求3所述一种从转录组数据中快速获取叶绿体基因组的方法，其特征在于，使用bcftools软件能够直接call出SNP和indel，得到待测植物物种叶绿体基因组序列和叶绿体参考基因组的差异。

5.根据权利要求4所述一种从转录组数据中快速获取叶绿体基因组的方法，其特征在于，还包括对所得待测植物物种的叶绿体基因组序列进行验证和评估的步骤。

6.根据权利要求5所述一种从转录组数据中快速获取叶绿体基因组的方法，其特征在于，所述验证和评估是指使用网页程序pipmaker将所得待测植物物种叶绿体基因组序列与其他已知植物物种叶绿体基因组序列进行比较，当比较结果表现出一条笔直的对角线状态，表明所得待测植物物种的叶绿体基因组序列是正确的。