CN112259169B - 一种从转录组数据中快速获取叶绿体基因组的方法 - Google Patents

一种从转录组数据中快速获取叶绿体基因组的方法 Download PDF

Info

Publication number
CN112259169B
CN112259169B CN202011296845.1A CN202011296845A CN112259169B CN 112259169 B CN112259169 B CN 112259169B CN 202011296845 A CN202011296845 A CN 202011296845A CN 112259169 B CN112259169 B CN 112259169B
Authority
CN
China
Prior art keywords
chloroplast
genome
software
plant species
sequence
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202011296845.1A
Other languages
English (en)
Other versions
CN112259169A (zh
Inventor
王傲雪
汪杨
莫福磊
张念
柴畅
陈秀玲
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Northeast Agricultural University
Original Assignee
Northeast Agricultural University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Northeast Agricultural University filed Critical Northeast Agricultural University
Priority to CN202011296845.1A priority Critical patent/CN112259169B/zh
Publication of CN112259169A publication Critical patent/CN112259169A/zh
Application granted granted Critical
Publication of CN112259169B publication Critical patent/CN112259169B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B30/00ICT specially adapted for sequence analysis involving nucleotides or amino acids
    • G16B30/10Sequence alignment; Homology search
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B20/00ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations

Landscapes

  • Life Sciences & Earth Sciences (AREA)
  • Physics & Mathematics (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Health & Medical Sciences (AREA)
  • Engineering & Computer Science (AREA)
  • Biotechnology (AREA)
  • Medical Informatics (AREA)
  • Biophysics (AREA)
  • Theoretical Computer Science (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Proteomics, Peptides & Aminoacids (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Chemical & Material Sciences (AREA)
  • Evolutionary Biology (AREA)
  • General Health & Medical Sciences (AREA)
  • Analytical Chemistry (AREA)
  • Molecular Biology (AREA)
  • Genetics & Genomics (AREA)
  • Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)

Abstract

本发明涉及一种从转录组数据中快速获取叶绿体基因组的方法,属于生物科学技术领域。为解决现有拼接、组装方法无法快速获取植物叶绿体基因组的问题,本发明提供了一种从转录组数据中快速获取叶绿体基因组的方法,以近源物种叶绿体基因组序列作为叶绿体参考基因组,使用hisat2软件进行比对、筛选;使用bwa软件再次比对、筛选;使用samtools软件进行重排,最后通过bcftools软件进行一致序列的获取,得到待测植物物种的叶绿体基因组序列。本发明不需要分离纯化叶绿体,而以全转录组数据为模板,利用叶绿体的保守特性,无需进行拼接组装,直接比对就可以筛选出完整的叶绿体基因组,简化了流程,提高了效率和实用性。

Description

一种从转录组数据中快速获取叶绿体基因组的方法
技术领域
本发明属于生物科学技术领域,尤其涉及一种从转录组数据中快速获取叶绿体基因组的方法。
背景技术
叶绿体是大多数绿色植物光合作用的细胞器,它也是活跃的代谢中心,更是植物细胞中普遍存在的质体。叶绿体通过光合作用和释放氧气将太阳能转化为碳水化合物来维持地球上的生命。虽然光合作用通常被认为是叶绿体的关键功能,但是它在植物正常发育和生理的其他方面也发挥着至关重要的作用,其中包括氨基酸、核苷酸、脂肪酸的合成,植物激素的产生,一些维生素和多种次生代谢产物,以及氮和硫的同化作用。许多叶绿体次生代谢产物除了对于植物的基本代谢功能而言是必需的以外,对于植物与环境的相互作用也很重要。例如植物对低温、高温、干旱、盐、强光等环境的反应,以及在植物对入侵病原体的防御方面也很重要。因此叶绿体可以在细胞对信号的反应中充当代谢中心,并通过逆行信号做出反应,因此叶绿体在细胞对信号的反应中充当枢纽。有许多的编码基因在叶绿体基因组中是参与光合作用和其他代谢过程的关键性蛋白。
由于高通量测序技术的出现,叶绿体遗传学和基因组学相关领域正在高速发展。在1986年测序的烟草叶绿体基因组是第一个测序完成的叶绿体基因组,现如今已经超出1500个完整的叶绿体基因组序列在国家生物技术信息中心(NCBI)细胞器基因组数据库中可以查到,其中包括600多个来自作物和树木的基因组。从完整的叶绿体基因组序列中获得的见解,增强了我们对植物生物学多样性的理解,叶绿体基因组在一些植物的系统发育进化研究和解决系统发育分支中的进化关系方面做出了突出贡献。
申请号为201410782756.6的发明专利申请公开了一种组装叶绿体基因组序列的方法,该方法直接利用NGS基因组测序数据进行DeNovo组装以获得完整叶绿体基因组序列。
申请号为201710062510.5的发明专利申请公开了一种植物叶绿体基因组测序方法,该方法采用基因组DNA高通量测序后,利用生物学信息学方法抓取其中的叶绿体reads,然后组装、拼接获得其叶绿体基因组全序列。
申请号为201810008272.4的发明专利申请公开了利用转录组数据获得叶绿体基因组序列的方法,该方法通过二代测序获得转录组测序原始数据,经过过滤以及与已知叶绿体基因组进行比对,筛出叶绿体基因reads,将筛出的reads组装成叠连群,其后将叠连群建成本地比对数据库,与参考序列比对,根据比对结果排序和拼接,每拼接5-6kb,将新组装的序列与其他叶绿体基因组序列进行比对,以检查所拼接的序列,最后根据收尾的重叠区将序列组装成环,再通过PCR和一代测序技术填补其中的间隙,最终获得叶绿体基因组序列。
上述方法无论以基因组数据为基础,还是以转录组数据为基础,都需要进行组装、拼接,在实际应用过程中,组装软件经常无法有效识别叶绿体的反向重复区域-IR序列,因此常常需要进行复杂的基因注释或反复的PCR验证。因此组装和拼接的过程耗时较长,无法快速获取叶绿体基因组。
发明内容
为解决现有拼接、组装的方法无法快速获取植物叶绿体基因组的问题,本发明提供了一种从转录组数据中快速获取叶绿体基因组的方法。
本发明的技术方案:
一种从转录组数据中快速获取叶绿体基因组的方法,对所获得的待测植物物种的转录组数据进行质控预处理,去除低质量序列得到用于候选分析的预处理数据;以待测植物物种的近源物种叶绿体基因组序列作为叶绿体参考基因组,使用转录组对比软件hisat2对所述预处理数据和叶绿体参考基因组进行比对,筛选能mapping到所述叶绿体参考基因组的reads-1并将其以fastq格式文件进行保存;使用bwa软件对所得reads-1和叶绿体参考基因组进行比对,筛选能mapping到所述叶绿体参考基因组的reads-2并将其以sam格式文件进行保存;使用samtools软件对所得sam格式文件进行重排,最后通过bcftools软件进行一致序列的获取,得到待测植物物种的叶绿体基因组序列。
进一步的,所述待测植物物种的转录组数据由NCBI数据库下载获得或由植物物种转录组样品测序获得,所述待测植物物种的近源物种叶绿体基因组序列由NCBI数据库下载获得。
进一步的,对待测植物物种的转录组数据进行质控预处理使用的是fastq软件。
进一步的,使用bcftools软件能够直接call出SNP和indel,得到待测植物物种叶绿体基因组序列和叶绿体参考基因组的差异。
进一步的,还包括对所得待测植物物种的叶绿体基因组序列进行验证和评估的步骤。
进一步的,所述验证和评估是指使用网页程序pipmaker将所得待测植物物种叶绿体基因组序列与其他已知植物物种叶绿体基因组序列进行比较,当比较结果表现出一条笔直的对角线状态,表明所得待测植物物种的叶绿体基因组序列是正确的。
本发明的有益效果:
本发明提供的从转录组数据中快速获取叶绿体基因组的方法,不需要分离纯化叶绿体,直接采用RNA的高通量测序结果,以近源物种的叶绿体基因组作为参考基因组,利用生物信息学方法抓取其中的叶绿体reads,直接得到物种的叶绿体基因组。与现有组装、拼接方法相比,本发明直接以全转录组数据为模板,利用叶绿体的保守特性,无需进行叶绿体基因组组装,直接利用Linux系统进行比对就可以筛选出完整的叶绿体基因组。本发明无需复杂的PCR产物测序及克隆片段的拼接组装,并且可以直接call出SNP和indel,得到物种的叶绿体和已知叶绿体序列的差异,减少了实验步骤,简化了实验流程,提高了效率和实用性,显著缩短了获得差异的时间。将本发明提供的方法应用于植物育种领域,能够加快优良植物品种培育、筛选和纯化的速度,提高植物育种效率。
附图说明
图1为本发明一种从转录组数据中快速获取叶绿体基因组的方法的流程示意图;
图2为实施例6中多毛番茄叶绿体基因组序列与栽培番茄叶绿体基因组序列在pipmaker获得的序列对比图;
图3为实施例6中多毛番茄叶绿体基因组序列与马铃薯叶绿体基因组序列在pipmaker获得的序列对比图。
具体实施方式
下面结合实施例对本发明的技术方案做进一步的说明,但并不局限于此,凡是对本发明技术方案进行修改或者等同替换,而不脱离本发明技术方案的精神和范围,均应涵盖在本发明的保护范围中。下列实施例中未具体注明的工艺设备或装置均采用本领域内的常规设备或装置,若未特别指明,本发明实施例中所用的原料等均可市售获得;若未具体指明,本发明实施例中所用的技术手段均为本领域技术人员所熟知的常规手段。
实施例1
一种从转录组数据中快速获取叶绿体基因组的方法,对所获得的待测植物物种的转录组数据进行质控预处理,去除低质量序列得到用于候选分析的预处理数据;以待测植物物种的近源物种叶绿体基因组序列作为叶绿体参考基因组,使用转录组对比软件hisat2对所述预处理数据和叶绿体参考基因组进行比对,筛选能mapping到所述叶绿体参考基因组的reads-1并将其以fastq格式文件进行保存;使用bwa软件对所得reads-1和叶绿体参考基因组进行比对,筛选能mapping到所述叶绿体参考基因组的reads-2并将其以sam格式文件进行保存;使用samtools软件对所得sam格式文件进行重排,最后通过bcftools软件进行一致序列的获取,得到待测植物物种的叶绿体基因组序列。
实施例2
本实施例提供了一种从转录组数据中快速获取叶绿体基因组的方法,具体步骤如下:
步骤一、由NCBI数据库下载获得或由植物物种转录组样品测序获得待测植物物种的转录组数据;由NCBI数据库下载获得待测植物物种的近源物种叶绿体基因组序列;
步骤二、用fastq软件对所获得的待测植物物种的转录组数据进行质控预处理,去除低质量序列得到用于候选分析的预处理数据;
步骤三、以待测植物物种的近源物种叶绿体基因组序列作为叶绿体参考基因组,使用转录组对比软件hisat2对所述预处理数据和叶绿体参考基因组进行比对,筛选能mapping到所述叶绿体参考基因组的reads-1并将其以fastq格式文件进行保存;
步骤四、使用bwa软件对所得reads-1和叶绿体参考基因组进行比对,筛选能mapping到所述叶绿体参考基因组的reads-2并将其以sam格式文件进行保存;
步骤五、使用samtools软件对所得sam格式文件进行重排,最后通过bcftools软件进行一致序列的获取,得到待测植物物种的叶绿体基因组序列。
实施例3
本实施例提供了一种从转录组数据中快速获取叶绿体基因组的方法,具体步骤如下:
步骤一、由NCBI数据库下载获得或由植物物种转录组样品测序获得待测植物物种的转录组数据;由NCBI数据库下载获得待测植物物种的近源物种叶绿体基因组序列;
步骤二、用fastq软件对所获得的待测植物物种的转录组数据进行质控预处理,去除低质量序列得到用于候选分析的预处理数据;
步骤三、以待测植物物种的近源物种叶绿体基因组序列作为叶绿体参考基因组,使用转录组对比软件hisat2对所述预处理数据和叶绿体参考基因组进行比对,筛选能mapping到所述叶绿体参考基因组的reads-1并将其以fastq格式文件进行保存;
步骤四、使用bwa软件对所得reads-1和叶绿体参考基因组进行比对,筛选能mapping到所述叶绿体参考基因组的reads-2并将其以sam格式文件进行保存;
步骤五、使用samtools软件对所得sam格式文件进行重排,最后通过bcftools软件进行一致序列的获取,得到待测植物物种的叶绿体基因组序列。
步骤六、使用bcftools软件能够直接call出SNP和indel,得到待测植物物种叶绿体基因组序列和叶绿体参考基因组的差异。
实施例4
本实施例提供了一种从转录组数据中快速获取叶绿体基因组的方法,具体步骤如下:
步骤一、由NCBI数据库下载获得或由植物物种转录组样品测序获得待测植物物种的转录组数据;由NCBI数据库下载获得待测植物物种的近源物种叶绿体基因组序列;
步骤二、用fastq软件对所获得的待测植物物种的转录组数据进行质控预处理,去除低质量序列得到用于候选分析的预处理数据;
步骤三、以待测植物物种的近源物种叶绿体基因组序列作为叶绿体参考基因组,使用转录组对比软件hisat2对所述预处理数据和叶绿体参考基因组进行比对,筛选能mapping到所述叶绿体参考基因组的reads-1并将其以fastq格式文件进行保存;
使用转录组对比软件hisat2对所述预处理数据和叶绿体参考基因组进行比对时的具体命令为:
双端的具体命令为hisat2-p 6--rg-id=UHR_Rep1--rg SM:UHR--rg LB:UHR_Rep1_ERCC-Mix1--rg PL:ILLUMINA--rg PU:CXX1234-ACTGAC.1-x chloroplast--dta--rna-strandness RF-1 1_1.fastq.gz-2SRR4041970_2.fastq.gz-S chloroplast.sam 2>chloroplast.summary--al-conc./chloroplast/chloroplast_pe.fastq;
单端的具体命令为hisat2-p 6--rg-id=UHR_Rep1--rg SM:UHR--rg LB:UHR_Rep1_ERCC-Mix1--rg PL:ILLUMINA--rg PU:CXX1234-ACTGAC.1-x chloroplast--dta--rna-strandness RF-U cp1.fastq.gz-S chloroplast.sam 2>chloroplast.summary--al./cp/chloroplast_se.fastq。
步骤四、使用bwa软件对所得reads-1和叶绿体参考基因组进行比对,筛选能mapping到所述叶绿体参考基因组的reads-2并将其以sam格式文件进行保存;
使用bwa软件对所得reads-1和叶绿体参考基因组进行比对时的具体命令为:bwaaln-t 6chloroplast.fasta chloroplast_pe.1.fastq>chloroplast_pe.1.sai,bwa aln-t 6chloroplast.fasta chloroplast_pe.2.fastq>chloroplast_pe.2.sai,双端bwasampe chloroplast.fasta chloroplast_pe.1.sai chloroplast_pe.2.saichloroplast_pe.1.fastq chloroplast_pe.1.fastq>chloroplast.sam,单端bwa samsechloroplast.fasta chloroplast_pe.sai chloroplast_pe.fastq>chloroplast.sam。
步骤五、使用samtools软件对所得sam格式文件进行重排,最后通过bcftools软件进行一致序列的获取,得到待测植物物种的叶绿体基因组序列;
通过bcftools软件进行一致序列获取时的具体命令为:
samtools view-bS chloroplast.sam-o chloroplast.bam,samtools sortchloroplast.bam>chloroplast.sort.bam,samtools mpileup-gSDf chloroplast.fastachloroplast.sort.bam>chloroplast.seq.bcf,bcftools view chloroplast.seq.bcf-Oz-o chloroplast.seq.vcf,bgzip-c chloroplast.seq.vcf>chloroplast.seq.vcf.gz,bcftools consensus-f chloroplast.fasta chloroplast.seq.vcf.gz>chloroplast.fasta。
步骤六、使用bcftools软件能够直接call出SNP和indel,得到待测植物物种叶绿体基因组序列和叶绿体参考基因组的差异。
实施例5
本实施例利用实施例4提供的方法从胁迫环境下的栽培番茄转录组数据中快速获取了胁迫环境下番茄的叶绿体基因组,具体方法步骤如下:
步骤一、由NCBI下载胁迫环境下的栽培番茄转录组数据,其NCBI登录号为SRR4041970;由NCBI下载已发表的NCBI登录号为NC007898.3的正常环境下的栽培番茄叶绿体基因组序列。
步骤二、用fastq软件对所获得的胁迫环境下的栽培番茄转录组数据进行质控预处理,去除低质量序列得到用于候选分析的预处理数据;
步骤三、以正常环境下栽培番茄叶绿体基因组序列作为叶绿体参考基因组,使用转录组对比软件hisat2对胁迫环境下的栽培番茄转录组预处理数据和叶绿体参考基因组进行比对,筛选能mapping到叶绿体参考基因组的reads-1并将其以fastq格式文件进行保存,最终得到连个73M的fastq文件;
使用转录组对比软件hisat2对所述预处理数据和叶绿体参考基因组进行比对时的具体命令为:
双端的具体命令为hisat2-p 6--rg-id=UHR_Rep1--rg SM:UHR--rg LB:UHR_Rep1_ERCC-Mix1--rg PL:ILLUMINA--rg PU:CXX1234-ACTGAC.1-x chloroplast--dta--rna-strandness RF-1 1_1.fastq.gz-2SRR4041970_2.fastq.gz-S chloroplast.sam 2>chloroplast.summary--al-conc./chloroplast/chloroplast_pe.fastq;
步骤四、使用bwa软件对所得reads-1和叶绿体参考基因组进行比对,筛选能mapping到叶绿体参考基因组的reads-2并将其以sam格式文件进行保存;
使用bwa软件对所得reads-1和叶绿体参考基因组进行比对时的具体命令为:bwaaln-t 6chloroplast.fasta chloroplast_pe.1.fastq>chloroplast_pe.1.sai,bwa aln-t 6chloroplast.fasta chloroplast_pe.2.fastq>chloroplast_pe.2.sai,双端bwasampe chloroplast.fasta chloroplast_pe.1.sai chloroplast_pe.2.saichloroplast_pe.1.fastq chloroplast_pe.1.fastq>chloroplast.sam。
步骤五、使用samtools软件对所得sam格式文件进行重排,最后通过bcftools软件进行一致序列的获取,得到一个155kb大小的胁迫环境下的番茄的叶绿体基因组序列;
通过bcftools软件进行一致序列获取时的具体命令为:
samtools view-bS chloroplast.sam-o chloroplast.bam,samtools sortchloroplast.bam>chloroplast.sort.bam,samtools mpileup-gSDf chloroplast.fastachloroplast.sort.bam>chloroplast.seq.bcf,bcftools view chloroplast.seq.bcf-Oz-o chloroplast.seq.vcf,bgzip-c chloroplast.seq.vcf>chloroplast.seq.vcf.gz,bcftools consensus-f chloroplast.fasta chloroplast.seq.vcf.gz>chloroplast.fasta。
步骤六、使用bcftools软件能够直接call出SNP和indel,得到胁迫环境下的番茄叶绿体基因组序列和正常环境下的栽培番茄叶绿体参考基因组的差异。
利用本发明提供的方法能够快速获得待测植物叶绿体基因组与叶绿体参考基因组的差异,将其用于考察胁迫环境下的植物时,只需通过植物转录组数据就能够快速得到胁迫环境下植物叶绿体基因碱基的不同,以及其叶绿体基因组上是否发生了小片段序列的插入或删除。相比现有技术必须进行两个月以上长时间的对照测序才能获得差异,本发明能够显著缩短获得差异的时间,加快优良植物品种培育、筛选和纯化的速度,提高植物育种效率。
实施例6
本实施例利用实施例4提供的方法从多毛番茄转录组数据中快速获取了多毛番茄的叶绿体基因组,具体方法步骤如下:
步骤一、实验室测序获得了多毛番茄LA1777的全长转录组数据;由NCBI下载已发表的多毛番茄的近源物种——NCBI登录号为HG975525.1的栽培番茄叶绿体基因组序列。
步骤二、用fastq软件对所获得的多毛番茄转录组数据进行质控预处理,去除低质量序列得到用于候选分析的预处理数据;
步骤三、以栽培番茄叶绿体基因组序列作为叶绿体参考基因组,使用转录组对比软件hisat2对多毛番茄转录组预处理数据和叶绿体参考基因组进行比对,筛选能mapping到叶绿体参考基因组的reads-1并将其以fastq格式文件进行保存,最终得到连个73M的fastq文件;
使用转录组对比软件hisat2对所述预处理数据和叶绿体参考基因组进行比对时的具体命令为:
单端的具体命令为hisat2-p 6--rg-id=UHR_Rep1--rg SM:UHR--rg LB:UHR_Rep1_ERCC-Mix1--rg PL:ILLUMINA--rg PU:CXX1234-ACTGAC.1-x chloroplast--dta--rna-strandness RF-U cp1.fastq.gz-S chloroplast.sam2>chloroplast.summary--al./cp/chloroplast_se.fastq。
步骤四、使用bwa软件对所得reads-1和叶绿体参考基因组进行比对,筛选能mapping到叶绿体参考基因组的reads-2并将其以sam格式文件进行保存;
使用bwa软件对所得reads-1和叶绿体参考基因组进行比对时的具体命令为:bwaaln-t 6chloroplast.fasta chloroplast_se.fastq>chloroplast_se.sai,单端bwasamse chloroplast.fasta chloroplast_se.sai chloroplast_se.fastq>chloroplast.sam。
步骤五、使用samtools软件对所得sam格式文件进行重排,最后通过bcftools软件进行一致序列的获取,得到一个155kb大小的多毛番茄的叶绿体基因组序列;
通过bcftools软件进行一致序列获取时的具体命令为:
samtools view-bS chloroplast.sam-o chloroplast.bam,samtools sortchloroplast.bam>chloroplast.sort.bam,samtools mpileup-gSDf chloroplast.fastachloroplast.sort.bam>chloroplast.seq.bcf,bcftools view chloroplast.seq.bcf-Oz-o chloroplast.seq.vcf,bgzip-c chloroplast.seq.vcf>chloroplast.seq.vcf.gz,bcftools consensus-f chloroplast.fasta chloroplast.seq.vcf.gz>chloroplast.fasta。
步骤六、使用bcftools软件能够直接call出SNP和indel,得到多毛番茄叶绿体基因组序列和栽培番茄叶绿体参考基因组的差异。
步骤七、对所得多毛番茄叶绿体基因组序列进行验证和评估的步骤:使用网页程序pipmaker将多毛番茄叶绿体基因组序列与NCBI登录号为HG975525.1的栽培番茄、NCBI登录号为NC_008096.2的马铃薯的叶绿体基因组序列进行两两比较,比对结果如图2、图3所示,多毛番茄叶绿体基因组序列与栽培番茄、马铃薯的叶绿体基因组序列均表现出一条笔直的对角线状态,表明所得多毛番茄的叶绿体基因组序列是正确的。

Claims (6)

1.一种从转录组数据中快速获取叶绿体基因组的方法,其特征在于,对所获得的待测植物物种的转录组数据进行质控预处理,去除低质量序列得到用于候选分析的预处理数据;以待测植物物种的近源物种叶绿体基因组序列作为叶绿体参考基因组,使用转录组对比软件hisat2对所述预处理数据和叶绿体参考基因组进行比对,筛选能mapping到所述叶绿体参考基因组的reads-1并将其以fastq格式文件进行保存;使用bwa软件对所得reads-1和叶绿体参考基因组进行比对,筛选能mapping到所述叶绿体参考基因组的reads-2并将其以sam格式文件进行保存;使用samtools软件对所得sam格式文件进行重排,最后通过bcftools软件进行一致序列的获取,得到待测植物物种的叶绿体基因组序列。
2.根据权利要求1所述一种从转录组数据中快速获取叶绿体基因组的方法,其特征在于,所述待测植物物种的转录组数据由NCBI数据库下载获得或由植物物种转录组样品测序获得,所述待测植物物种的近源物种叶绿体基因组序列由NCBI数据库下载获得。
3.根据权利要求1或2所述一种从转录组数据中快速获取叶绿体基因组的方法,其特征在于,对待测植物物种的转录组数据进行质控预处理使用的是fastq软件。
4.根据权利要求3所述一种从转录组数据中快速获取叶绿体基因组的方法,其特征在于,使用bcftools软件能够直接call出SNP和indel,得到待测植物物种叶绿体基因组序列和叶绿体参考基因组的差异。
5.根据权利要求4所述一种从转录组数据中快速获取叶绿体基因组的方法,其特征在于,还包括对所得待测植物物种的叶绿体基因组序列进行验证和评估的步骤。
6.根据权利要求5所述一种从转录组数据中快速获取叶绿体基因组的方法,其特征在于,所述验证和评估是指使用网页程序pipmaker将所得待测植物物种叶绿体基因组序列与其他已知植物物种叶绿体基因组序列进行比较,当比较结果表现出一条笔直的对角线状态,表明所得待测植物物种的叶绿体基因组序列是正确的。
CN202011296845.1A 2020-11-18 2020-11-18 一种从转录组数据中快速获取叶绿体基因组的方法 Active CN112259169B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011296845.1A CN112259169B (zh) 2020-11-18 2020-11-18 一种从转录组数据中快速获取叶绿体基因组的方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011296845.1A CN112259169B (zh) 2020-11-18 2020-11-18 一种从转录组数据中快速获取叶绿体基因组的方法

Publications (2)

Publication Number Publication Date
CN112259169A CN112259169A (zh) 2021-01-22
CN112259169B true CN112259169B (zh) 2024-01-30

Family

ID=74266347

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011296845.1A Active CN112259169B (zh) 2020-11-18 2020-11-18 一种从转录组数据中快速获取叶绿体基因组的方法

Country Status (1)

Country Link
CN (1) CN112259169B (zh)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113284556A (zh) * 2021-04-29 2021-08-20 安徽农业大学 从动植物转录组数据中挖掘内生微生物组信息的方法
CN114882950B (zh) * 2022-05-18 2024-11-01 东北林业大学 基于软件识别宏基因组序列中微生物种类与序列的方法

Citations (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104450682A (zh) * 2014-12-16 2015-03-25 西南大学 一种组装叶绿体基因组序列的方法
WO2015102226A1 (ko) * 2013-12-31 2015-07-09 서울대학교산학협력단 차세대 시퀀싱 방법을 이용하여 생물체의 엽록체, 미토콘드리아 또는 핵 리보솜 dna의 완전한 게놈 서열을 해독하는 방법
CN106754879A (zh) * 2016-12-22 2017-05-31 东北农业大学 一种植物叶片dna简化快速提取方法
CN106834465A (zh) * 2017-01-22 2017-06-13 西北农林科技大学 一种简便、高效且通用的植物叶绿体基因组测序方法
CN107784199A (zh) * 2017-10-18 2018-03-09 中国科学院昆明植物研究所 一种基于总dna测序结果的细胞器基因组筛选方法
CN109411014A (zh) * 2018-10-09 2019-03-01 中国科学院昆明植物研究所 一种基于二代测序的植物叶绿体全基因组组装成环方法
CN110021356A (zh) * 2018-01-04 2019-07-16 中国科学院西北高原生物研究所 利用转录组数据获取岷县龙胆叶绿体基因组序列的方法
CN110042148A (zh) * 2018-01-16 2019-07-23 深圳华大生命科学研究院 一种高效获取叶绿体dna测序数据的方法及其应用
CN110379462A (zh) * 2019-06-21 2019-10-25 中南民族大学 一种基于Illumina技术组装中华金腰叶绿体基因组序列的方法
CN110890134A (zh) * 2019-10-31 2020-03-17 南京师范大学 利用叶绿体基因组大单拷贝区鉴别枫斗类石斛基源的方法
CN111018958A (zh) * 2019-12-10 2020-04-17 广东省农业科学院蔬菜研究所 突变型atpA基因及其应用
CN111893132A (zh) * 2020-06-09 2020-11-06 东北农业大学 一种提高植物pal酶活性与苯丙烷合成通路活性的方法

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20070067862A1 (en) * 2003-07-03 2007-03-22 University Of Florida Research Foundation, Inc. Chloroplast transgenic approach to express and purify human serum albumin, a protein highly susceptible to proteolytic degradation

Patent Citations (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2015102226A1 (ko) * 2013-12-31 2015-07-09 서울대학교산학협력단 차세대 시퀀싱 방법을 이용하여 생물체의 엽록체, 미토콘드리아 또는 핵 리보솜 dna의 완전한 게놈 서열을 해독하는 방법
CN104450682A (zh) * 2014-12-16 2015-03-25 西南大学 一种组装叶绿体基因组序列的方法
CN106754879A (zh) * 2016-12-22 2017-05-31 东北农业大学 一种植物叶片dna简化快速提取方法
CN106834465A (zh) * 2017-01-22 2017-06-13 西北农林科技大学 一种简便、高效且通用的植物叶绿体基因组测序方法
CN107784199A (zh) * 2017-10-18 2018-03-09 中国科学院昆明植物研究所 一种基于总dna测序结果的细胞器基因组筛选方法
CN110021356A (zh) * 2018-01-04 2019-07-16 中国科学院西北高原生物研究所 利用转录组数据获取岷县龙胆叶绿体基因组序列的方法
CN110042148A (zh) * 2018-01-16 2019-07-23 深圳华大生命科学研究院 一种高效获取叶绿体dna测序数据的方法及其应用
CN109411014A (zh) * 2018-10-09 2019-03-01 中国科学院昆明植物研究所 一种基于二代测序的植物叶绿体全基因组组装成环方法
CN110379462A (zh) * 2019-06-21 2019-10-25 中南民族大学 一种基于Illumina技术组装中华金腰叶绿体基因组序列的方法
CN110890134A (zh) * 2019-10-31 2020-03-17 南京师范大学 利用叶绿体基因组大单拷贝区鉴别枫斗类石斛基源的方法
CN111018958A (zh) * 2019-12-10 2020-04-17 广东省农业科学院蔬菜研究所 突变型atpA基因及其应用
CN111893132A (zh) * 2020-06-09 2020-11-06 东北农业大学 一种提高植物pal酶活性与苯丙烷合成通路活性的方法

Non-Patent Citations (5)

* Cited by examiner, † Cited by third party
Title
Complete chloroplast genome of Dongxiang wild rice and its application in phylogenetic analysis;Lin Zhangxiang;Wang Yingying;Fu Fei;Ye Chuyu;Fan Longjiang;浙江大学学报. 农业与生命科学版;第40卷(第4期);全文 *
基于高通量测序组装‘赤霞珠’叶绿体基因组及其特征分析;谢海坤;焦健;樊秀彩;张颖;姜建福;孙海生;刘崇怀;中国农业科学;第50卷(第9期);全文 *
射干及类似药用植物叶绿体rbcL基因序列分析;秦民坚, 黄芸, 杨光, 徐珞珊, 周开亚;药学学报;-;第-卷(第02期);全文 *
番茄热激转录因子HSF家族的系统进化分析;王婷婷;仇有文;王沛文;陈宏宇;杨俊颖;王窦逗;伍淼;王傲雪;;江苏农业科学(第01期);全文 *
蝶形花科植物叶绿体基因组研究进展;唐萍;南方农业学报;第46卷(第1期);全文 *

Also Published As

Publication number Publication date
CN112259169A (zh) 2021-01-22

Similar Documents

Publication Publication Date Title
Alonge et al. Automated assembly scaffolding elevates a new tomato system for high-throughput genome editing
Liu et al. Hi-TOM: a platform for high-throughput tracking of mutations induced by CRISPR/Cas systems
Gallaher et al. High‐throughput sequencing of the chloroplast and mitochondrion of Chlamydomonas reinhardtii to generate improved de novo assemblies, analyze expression patterns and transcript speciation, and evaluate diversity among laboratory strains and wild isolates
CN112259169B (zh) 一种从转录组数据中快速获取叶绿体基因组的方法
Qi et al. The haplotype-resolved chromosome pairs of a heterozygous diploid African cassava cultivar reveal novel pan-genome and allele-specific transcriptome features
Li et al. Genome sequencing and population genomics modeling provide insights into the local adaptation of weeping forsythia
CN112908415B (zh) 一种获得染色体水平基因组的方法
CN107345256A (zh) 一种基于转录组测序开发山黧豆est‑ssr引物组及方法和应用
Acosta et al. Exome resequencing reveals evolutionary history, genomic diversity, and targets of selection in the conifers Pinus taeda and Pinus elliottii
CN103093118B (zh) 一种系统进化树的重建方法
Wang et al. An optimized FACS-free single-nucleus RNA sequencing (snRNA-seq) method for plant science research
Wei et al. Time-sequential detection of quantitative trait loci and candidate genes underlying the dynamic growth of Salix suchowensis
Fang et al. MODMS: a multi-omics database for facilitating biological studies on alfalfa (Medicago sativa L.)
US10179934B2 (en) High-throughput detection method for DNA synthesis product
Hwang et al. Transcriptome analysis of Korean fir (Abies koreana) in response to elevated carbon dioxide and high temperature
CN112481413A (zh) 基于二代和三代测序技术的植物线粒体基因组组装方法
Zhang et al. Diversity of RNA editing in chloroplast transcripts across three main plant clades
Liu et al. Phylogenetic analysis of 25 plant species representing 19 angiosperm families and one gymnosperm family based on 390 orthologous genes
Llaca Sequencing technologies and their use in plant biotechnology and breeding
Yang et al. A comparative analysis of stably expressed genes across diverse angiosperms exposes flexibility in underlying promoter architecture
Wei et al. Inspecting abundantly expressed genes in male strobili in sugi (Cryptomeria japonica D. Don) via a highly accurate cDNA assembly
Lee et al. Transcriptome atlas by long-read RNA sequencing: contribution to a reference transcriptome
CN115044700B (zh) 水稻抽穗期QTL qHd1功能标记及其应用
CN116121437B (zh) 一种杧果品种的snp标记组合及杧果育种中的应用
Park Design and debugging of ultrastable engineered genetic systems

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant