CN112259169A - 一种从转录组数据中快速获取叶绿体基因组的方法 - Google Patents
一种从转录组数据中快速获取叶绿体基因组的方法 Download PDFInfo
- Publication number
- CN112259169A CN112259169A CN202011296845.1A CN202011296845A CN112259169A CN 112259169 A CN112259169 A CN 112259169A CN 202011296845 A CN202011296845 A CN 202011296845A CN 112259169 A CN112259169 A CN 112259169A
- Authority
- CN
- China
- Prior art keywords
- chloroplast
- genome
- plant species
- software
- chloroplast genome
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 210000003763 chloroplast Anatomy 0.000 title claims abstract description 211
- 238000000034 method Methods 0.000 title claims abstract description 38
- 241000196324 Embryophyta Species 0.000 claims abstract description 63
- 238000012216 screening Methods 0.000 claims abstract description 21
- 241000894007 species Species 0.000 claims abstract description 14
- 238000013507 mapping Methods 0.000 claims description 15
- 238000003908 quality control method Methods 0.000 claims description 10
- 238000004458 analytical method Methods 0.000 claims description 8
- 238000012795 verification Methods 0.000 claims description 3
- 238000011156 evaluation Methods 0.000 claims description 2
- 230000008569 process Effects 0.000 abstract description 4
- 238000000746 purification Methods 0.000 abstract 1
- 238000000926 separation method Methods 0.000 abstract 1
- 240000003768 Solanum lycopersicum Species 0.000 description 17
- 235000007688 Lycopersicon esculentum Nutrition 0.000 description 16
- 238000012163 sequencing technique Methods 0.000 description 12
- 235000014296 Solanum habrochaites Nutrition 0.000 description 10
- 241000896499 Solanum habrochaites Species 0.000 description 10
- 230000029553 photosynthesis Effects 0.000 description 4
- 238000010672 photosynthesis Methods 0.000 description 4
- 244000061456 Solanum tuberosum Species 0.000 description 3
- 235000002595 Solanum tuberosum Nutrition 0.000 description 3
- 210000004027 cell Anatomy 0.000 description 3
- 238000012165 high-throughput sequencing Methods 0.000 description 3
- 238000003976 plant breeding Methods 0.000 description 3
- 108090000623 proteins and genes Proteins 0.000 description 3
- 230000004044 response Effects 0.000 description 3
- IJGRMHOSHXDMSA-UHFFFAOYSA-N Atomic nitrogen Chemical compound N#N IJGRMHOSHXDMSA-UHFFFAOYSA-N 0.000 description 2
- 108700031407 Chloroplast Genes Proteins 0.000 description 2
- 240000002072 Solanum torvum Species 0.000 description 2
- 235000013358 Solanum torvum Nutrition 0.000 description 2
- 238000003766 bioinformatics method Methods 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 239000012634 fragment Substances 0.000 description 2
- 230000002503 metabolic effect Effects 0.000 description 2
- 210000003463 organelle Anatomy 0.000 description 2
- 238000002864 sequence alignment Methods 0.000 description 2
- 244000061176 Nicotiana tabacum Species 0.000 description 1
- 235000002637 Nicotiana tabacum Nutrition 0.000 description 1
- 235000002560 Solanum lycopersicum Nutrition 0.000 description 1
- 235000018709 Solanum muricatum Nutrition 0.000 description 1
- 240000007417 Solanum muricatum Species 0.000 description 1
- NINIDFKCEFEMDL-UHFFFAOYSA-N Sulfur Chemical compound [S] NINIDFKCEFEMDL-UHFFFAOYSA-N 0.000 description 1
- 241001464837 Viridiplantae Species 0.000 description 1
- 150000001413 amino acids Chemical class 0.000 description 1
- QVGXLLKOCUKJST-UHFFFAOYSA-N atomic oxygen Chemical compound [O] QVGXLLKOCUKJST-UHFFFAOYSA-N 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000015572 biosynthetic process Effects 0.000 description 1
- 150000001720 carbohydrates Chemical class 0.000 description 1
- 235000014633 carbohydrates Nutrition 0.000 description 1
- 230000007123 defense Effects 0.000 description 1
- 235000014113 dietary fatty acids Nutrition 0.000 description 1
- 238000002474 experimental method Methods 0.000 description 1
- 239000000194 fatty acid Substances 0.000 description 1
- 229930195729 fatty acid Natural products 0.000 description 1
- 150000004665 fatty acids Chemical class 0.000 description 1
- 238000001914 filtration Methods 0.000 description 1
- 238000012268 genome sequencing Methods 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 230000007102 metabolic function Effects 0.000 description 1
- 230000004060 metabolic process Effects 0.000 description 1
- 239000002207 metabolite Substances 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 229910052757 nitrogen Inorganic materials 0.000 description 1
- 239000002773 nucleotide Substances 0.000 description 1
- 125000003729 nucleotide group Chemical group 0.000 description 1
- 229910052760 oxygen Inorganic materials 0.000 description 1
- 239000001301 oxygen Substances 0.000 description 1
- 244000052769 pathogen Species 0.000 description 1
- 230000008121 plant development Effects 0.000 description 1
- 239000003375 plant hormone Substances 0.000 description 1
- 230000037039 plant physiology Effects 0.000 description 1
- 210000002706 plastid Anatomy 0.000 description 1
- 102000004169 proteins and genes Human genes 0.000 description 1
- 239000002994 raw material Substances 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 150000003839 salts Chemical class 0.000 description 1
- 229930000044 secondary metabolite Natural products 0.000 description 1
- 230000011664 signaling Effects 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 239000011593 sulfur Substances 0.000 description 1
- 229910052717 sulfur Inorganic materials 0.000 description 1
- 238000003786 synthesis reaction Methods 0.000 description 1
- 238000013518 transcription Methods 0.000 description 1
- 230000035897 transcription Effects 0.000 description 1
- 239000011782 vitamin Substances 0.000 description 1
- 229930003231 vitamin Natural products 0.000 description 1
- 229940088594 vitamin Drugs 0.000 description 1
- 235000013343 vitamin Nutrition 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B30/00—ICT specially adapted for sequence analysis involving nucleotides or amino acids
- G16B30/10—Sequence alignment; Homology search
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B20/00—ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
Landscapes
- Life Sciences & Earth Sciences (AREA)
- Physics & Mathematics (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Health & Medical Sciences (AREA)
- Engineering & Computer Science (AREA)
- Biotechnology (AREA)
- Medical Informatics (AREA)
- Biophysics (AREA)
- Theoretical Computer Science (AREA)
- Spectroscopy & Molecular Physics (AREA)
- Proteomics, Peptides & Aminoacids (AREA)
- Bioinformatics & Computational Biology (AREA)
- Chemical & Material Sciences (AREA)
- Evolutionary Biology (AREA)
- General Health & Medical Sciences (AREA)
- Analytical Chemistry (AREA)
- Molecular Biology (AREA)
- Genetics & Genomics (AREA)
- Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)
Abstract
本发明涉及一种从转录组数据中快速获取叶绿体基因组的方法,属于生物科学技术领域。为解决现有拼接、组装方法无法快速获取植物叶绿体基因组的问题,本发明提供了一种从转录组数据中快速获取叶绿体基因组的方法,以近源物种叶绿体基因组序列作为叶绿体参考基因组,使用hisat2软件进行比对、筛选;使用bwa软件再次比对、筛选;使用samtools软件进行重排,最后通过bcftools软件进行一致序列的获取,得到待测植物物种的叶绿体基因组序列。本发明不需要分离纯化叶绿体,而以全转录组数据为模板,利用叶绿体的保守特性,无需进行拼接组装,直接比对就可以筛选出完整的叶绿体基因组,简化了流程,提高了效率和实用性。
Description
技术领域
本发明属于生物科学技术领域,尤其涉及一种从转录组数据中快速获取叶绿体基因组的方法。
背景技术
叶绿体是大多数绿色植物光合作用的细胞器,它也是活跃的代谢中心,更是植物细胞中普遍存在的质体。叶绿体通过光合作用和释放氧气将太阳能转化为碳水化合物来维持地球上的生命。虽然光合作用通常被认为是叶绿体的关键功能,但是它在植物正常发育和生理的其他方面也发挥着至关重要的作用,其中包括氨基酸、核苷酸、脂肪酸的合成,植物激素的产生,一些维生素和多种次生代谢产物,以及氮和硫的同化作用。许多叶绿体次生代谢产物除了对于植物的基本代谢功能而言是必需的以外,对于植物与环境的相互作用也很重要。例如植物对低温、高温、干旱、盐、强光等环境的反应,以及在植物对入侵病原体的防御方面也很重要。因此叶绿体可以在细胞对信号的反应中充当代谢中心,并通过逆行信号做出反应,因此叶绿体在细胞对信号的反应中充当枢纽。有许多的编码基因在叶绿体基因组中是参与光合作用和其他代谢过程的关键性蛋白。
由于高通量测序技术的出现,叶绿体遗传学和基因组学相关领域正在高速发展。在1986年测序的烟草叶绿体基因组是第一个测序完成的叶绿体基因组,现如今已经超出1500个完整的叶绿体基因组序列在国家生物技术信息中心(NCBI)细胞器基因组数据库中可以查到,其中包括600多个来自作物和树木的基因组。从完整的叶绿体基因组序列中获得的见解,增强了我们对植物生物学多样性的理解,叶绿体基因组在一些植物的系统发育进化研究和解决系统发育分支中的进化关系方面做出了突出贡献。
申请号为201410782756.6的发明专利申请公开了一种组装叶绿体基因组序列的方法,该方法直接利用NGS基因组测序数据进行DeNovo组装以获得完整叶绿体基因组序列。
申请号为201710062510.5的发明专利申请公开了一种植物叶绿体基因组测序方法,该方法采用基因组DNA高通量测序后,利用生物学信息学方法抓取其中的叶绿体reads,然后组装、拼接获得其叶绿体基因组全序列。
申请号为201810008272.4的发明专利申请公开了利用转录组数据获得叶绿体基因组序列的方法,该方法通过二代测序获得转录组测序原始数据,经过过滤以及与已知叶绿体基因组进行比对,筛出叶绿体基因reads,将筛出的reads组装成叠连群,其后将叠连群建成本地比对数据库,与参考序列比对,根据比对结果排序和拼接,每拼接5-6kb,将新组装的序列与其他叶绿体基因组序列进行比对,以检查所拼接的序列,最后根据收尾的重叠区将序列组装成环,再通过PCR和一代测序技术填补其中的间隙,最终获得叶绿体基因组序列。
上述方法无论以基因组数据为基础,还是以转录组数据为基础,都需要进行组装、拼接,在实际应用过程中,组装软件经常无法有效识别叶绿体的反向重复区域-IR序列,因此常常需要进行复杂的基因注释或反复的PCR验证。因此组装和拼接的过程耗时较长,无法快速获取叶绿体基因组。
发明内容
为解决现有拼接、组装的方法无法快速获取植物叶绿体基因组的问题,本发明提供了一种从转录组数据中快速获取叶绿体基因组的方法。
本发明的技术方案:
一种从转录组数据中快速获取叶绿体基因组的方法,对所获得的待测植物物种的转录组数据进行质控预处理,去除低质量序列得到用于候选分析的预处理数据;以待测植物物种的近源物种叶绿体基因组序列作为叶绿体参考基因组,使用转录组对比软件hisat2对所述预处理数据和叶绿体参考基因组进行比对,筛选能mapping到所述叶绿体参考基因组的reads-1并将其以fastq格式文件进行保存;使用bwa软件对所得reads-1和叶绿体参考基因组进行比对,筛选能mapping到所述叶绿体参考基因组的reads-2并将其以sam格式文件进行保存;使用samtools软件对所得sam格式文件进行重排,最后通过bcftools软件进行一致序列的获取,得到待测植物物种的叶绿体基因组序列。
进一步的,所述待测植物物种的转录组数据由NCBI数据库下载获得或由植物物种转录组样品测序获得,所述待测植物物种的近源物种叶绿体基因组序列由NCBI数据库下载获得。
进一步的,对待测植物物种的转录组数据进行质控预处理使用的是fastq软件。
进一步的,使用bcftools软件能够直接call出SNP和indel,得到待测植物物种叶绿体基因组序列和叶绿体参考基因组的差异。
进一步的,还包括对所得待测植物物种的叶绿体基因组序列进行验证和评估的步骤。
进一步的,所述验证和评估是指使用网页程序pipmaker将所得待测植物物种叶绿体基因组序列与其他已知植物物种叶绿体基因组序列进行比较,当比较结果表现出一条笔直的对角线状态,表明所得待测植物物种的叶绿体基因组序列是正确的。
本发明的有益效果:
本发明提供的从转录组数据中快速获取叶绿体基因组的方法,不需要分离纯化叶绿体,直接采用RNA的高通量测序结果,以近源物种的叶绿体基因组作为参考基因组,利用生物信息学方法抓取其中的叶绿体reads,直接得到物种的叶绿体基因组。与现有组装、拼接方法相比,本发明直接以全转录组数据为模板,利用叶绿体的保守特性,无需进行叶绿体基因组组装,直接利用Linux系统进行比对就可以筛选出完整的叶绿体基因组。本发明无需复杂的PCR产物测序及克隆片段的拼接组装,并且可以直接call出SNP和indel,得到物种的叶绿体和已知叶绿体序列的差异,减少了实验步骤,简化了实验流程,提高了效率和实用性,显著缩短了获得差异的时间。将本发明提供的方法应用于植物育种领域,能够加快优良植物品种培育、筛选和纯化的速度,提高植物育种效率。
附图说明
图1为本发明一种从转录组数据中快速获取叶绿体基因组的方法的流程示意图;
图2为实施例6中多毛番茄叶绿体基因组序列与栽培番茄叶绿体基因组序列在pipmaker获得的序列对比图;
图3为实施例6中多毛番茄叶绿体基因组序列与马铃薯叶绿体基因组序列在pipmaker获得的序列对比图。
具体实施方式
下面结合实施例对本发明的技术方案做进一步的说明,但并不局限于此,凡是对本发明技术方案进行修改或者等同替换,而不脱离本发明技术方案的精神和范围,均应涵盖在本发明的保护范围中。下列实施例中未具体注明的工艺设备或装置均采用本领域内的常规设备或装置,若未特别指明,本发明实施例中所用的原料等均可市售获得;若未具体指明,本发明实施例中所用的技术手段均为本领域技术人员所熟知的常规手段。
实施例1
一种从转录组数据中快速获取叶绿体基因组的方法,对所获得的待测植物物种的转录组数据进行质控预处理,去除低质量序列得到用于候选分析的预处理数据;以待测植物物种的近源物种叶绿体基因组序列作为叶绿体参考基因组,使用转录组对比软件hisat2对所述预处理数据和叶绿体参考基因组进行比对,筛选能mapping到所述叶绿体参考基因组的reads-1并将其以fastq格式文件进行保存;使用bwa软件对所得reads-1和叶绿体参考基因组进行比对,筛选能mapping到所述叶绿体参考基因组的reads-2并将其以sam格式文件进行保存;使用samtools软件对所得sam格式文件进行重排,最后通过bcftools软件进行一致序列的获取,得到待测植物物种的叶绿体基因组序列。
实施例2
本实施例提供了一种从转录组数据中快速获取叶绿体基因组的方法,具体步骤如下:
步骤一、由NCBI数据库下载获得或由植物物种转录组样品测序获得待测植物物种的转录组数据;由NCBI数据库下载获得待测植物物种的近源物种叶绿体基因组序列;
步骤二、用fastq软件对所获得的待测植物物种的转录组数据进行质控预处理,去除低质量序列得到用于候选分析的预处理数据;
步骤三、以待测植物物种的近源物种叶绿体基因组序列作为叶绿体参考基因组,使用转录组对比软件hisat2对所述预处理数据和叶绿体参考基因组进行比对,筛选能mapping到所述叶绿体参考基因组的reads-1并将其以fastq格式文件进行保存;
步骤四、使用bwa软件对所得reads-1和叶绿体参考基因组进行比对,筛选能mapping到所述叶绿体参考基因组的reads-2并将其以sam格式文件进行保存;
步骤五、使用samtools软件对所得sam格式文件进行重排,最后通过bcftools软件进行一致序列的获取,得到待测植物物种的叶绿体基因组序列。
实施例3
本实施例提供了一种从转录组数据中快速获取叶绿体基因组的方法,具体步骤如下:
步骤一、由NCBI数据库下载获得或由植物物种转录组样品测序获得待测植物物种的转录组数据;由NCBI数据库下载获得待测植物物种的近源物种叶绿体基因组序列;
步骤二、用fastq软件对所获得的待测植物物种的转录组数据进行质控预处理,去除低质量序列得到用于候选分析的预处理数据;
步骤三、以待测植物物种的近源物种叶绿体基因组序列作为叶绿体参考基因组,使用转录组对比软件hisat2对所述预处理数据和叶绿体参考基因组进行比对,筛选能mapping到所述叶绿体参考基因组的reads-1并将其以fastq格式文件进行保存;
步骤四、使用bwa软件对所得reads-1和叶绿体参考基因组进行比对,筛选能mapping到所述叶绿体参考基因组的reads-2并将其以sam格式文件进行保存;
步骤五、使用samtools软件对所得sam格式文件进行重排,最后通过bcftools软件进行一致序列的获取,得到待测植物物种的叶绿体基因组序列。
步骤六、使用bcftools软件能够直接call出SNP和indel,得到待测植物物种叶绿体基因组序列和叶绿体参考基因组的差异。
实施例4
本实施例提供了一种从转录组数据中快速获取叶绿体基因组的方法,具体步骤如下:
步骤一、由NCBI数据库下载获得或由植物物种转录组样品测序获得待测植物物种的转录组数据;由NCBI数据库下载获得待测植物物种的近源物种叶绿体基因组序列;
步骤二、用fastq软件对所获得的待测植物物种的转录组数据进行质控预处理,去除低质量序列得到用于候选分析的预处理数据;
步骤三、以待测植物物种的近源物种叶绿体基因组序列作为叶绿体参考基因组,使用转录组对比软件hisat2对所述预处理数据和叶绿体参考基因组进行比对,筛选能mapping到所述叶绿体参考基因组的reads-1并将其以fastq格式文件进行保存;
使用转录组对比软件hisat2对所述预处理数据和叶绿体参考基因组进行比对时的具体命令为:
双端的具体命令为hisat2-p 6--rg-id=UHR_Rep1--rg SM:UHR--rg LB:UHR_Rep1_ERCC-Mix1--rg PL:ILLUMINA--rg PU:CXX1234-ACTGAC.1-x chloroplast--dta--rna-strandness RF-1 1_1.fastq.gz-2SRR4041970_2.fastq.gz-S chloroplast.sam 2>chloroplast.summary--al-conc./chloroplast/chloroplast_pe.fastq;
单端的具体命令为hisat2-p 6--rg-id=UHR_Rep1--rg SM:UHR--rg LB:UHR_Rep1_ERCC-Mix1--rg PL:ILLUMINA--rg PU:CXX1234-ACTGAC.1-x chloroplast--dta--rna-strandness RF-U cp1.fastq.gz-S chloroplast.sam 2>chloroplast.summary--al./cp/chloroplast_se.fastq。
步骤四、使用bwa软件对所得reads-1和叶绿体参考基因组进行比对,筛选能mapping到所述叶绿体参考基因组的reads-2并将其以sam格式文件进行保存;
使用bwa软件对所得reads-1和叶绿体参考基因组进行比对时的具体命令为:bwaaln-t 6chloroplast.fasta chloroplast_pe.1.fastq>chloroplast_pe.1.sai,bwa aln-t 6chloroplast.fasta chloroplast_pe.2.fastq>chloroplast_pe.2.sai,双端bwasampe chloroplast.fasta chloroplast_pe.1.sai chloroplast_pe.2.saichloroplast_pe.1.fastq chloroplast_pe.1.fastq>chloroplast.sam,单端bwa samsechloroplast.fasta chloroplast_pe.sai chloroplast_pe.fastq>chloroplast.sam。
步骤五、使用samtools软件对所得sam格式文件进行重排,最后通过bcftools软件进行一致序列的获取,得到待测植物物种的叶绿体基因组序列;
通过bcftools软件进行一致序列获取时的具体命令为:
samtools view-bS chloroplast.sam-o chloroplast.bam,samtools sortchloroplast.bam>chloroplast.sort.bam,samtools mpileup-gSDf chloroplast.fastachloroplast.sort.bam>chloroplast.seq.bcf,bcftools view chloroplast.seq.bcf-Oz-o chloroplast.seq.vcf,bgzip-c chloroplast.seq.vcf>chloroplast.seq.vcf.gz,bcftools consensus-f chloroplast.fasta chloroplast.seq.vcf.gz>chloroplast.fasta。
步骤六、使用bcftools软件能够直接call出SNP和indel,得到待测植物物种叶绿体基因组序列和叶绿体参考基因组的差异。
实施例5
本实施例利用实施例4提供的方法从胁迫环境下的栽培番茄转录组数据中快速获取了胁迫环境下番茄的叶绿体基因组,具体方法步骤如下:
步骤一、由NCBI下载胁迫环境下的栽培番茄转录组数据,其NCBI登录号为SRR4041970;由NCBI下载已发表的NCBI登录号为NC007898.3的正常环境下的栽培番茄叶绿体基因组序列。
步骤二、用fastq软件对所获得的胁迫环境下的栽培番茄转录组数据进行质控预处理,去除低质量序列得到用于候选分析的预处理数据;
步骤三、以正常环境下栽培番茄叶绿体基因组序列作为叶绿体参考基因组,使用转录组对比软件hisat2对胁迫环境下的栽培番茄转录组预处理数据和叶绿体参考基因组进行比对,筛选能mapping到叶绿体参考基因组的reads-1并将其以fastq格式文件进行保存,最终得到连个73M的fastq文件;
使用转录组对比软件hisat2对所述预处理数据和叶绿体参考基因组进行比对时的具体命令为:
双端的具体命令为hisat2-p 6--rg-id=UHR_Rep1--rg SM:UHR--rg LB:UHR_Rep1_ERCC-Mix1--rg PL:ILLUMINA--rg PU:CXX1234-ACTGAC.1-x chloroplast--dta--rna-strandness RF-1 1_1.fastq.gz-2SRR4041970_2.fastq.gz-S chloroplast.sam 2>chloroplast.summary--al-conc./chloroplast/chloroplast_pe.fastq;
步骤四、使用bwa软件对所得reads-1和叶绿体参考基因组进行比对,筛选能mapping到叶绿体参考基因组的reads-2并将其以sam格式文件进行保存;
使用bwa软件对所得reads-1和叶绿体参考基因组进行比对时的具体命令为:bwaaln-t 6chloroplast.fasta chloroplast_pe.1.fastq>chloroplast_pe.1.sai,bwa aln-t 6chloroplast.fasta chloroplast_pe.2.fastq>chloroplast_pe.2.sai,双端bwasampe chloroplast.fasta chloroplast_pe.1.sai chloroplast_pe.2.saichloroplast_pe.1.fastq chloroplast_pe.1.fastq>chloroplast.sam。
步骤五、使用samtools软件对所得sam格式文件进行重排,最后通过bcftools软件进行一致序列的获取,得到一个155kb大小的胁迫环境下的番茄的叶绿体基因组序列;
通过bcftools软件进行一致序列获取时的具体命令为:
samtools view-bS chloroplast.sam-o chloroplast.bam,samtools sortchloroplast.bam>chloroplast.sort.bam,samtools mpileup-gSDf chloroplast.fastachloroplast.sort.bam>chloroplast.seq.bcf,bcftools view chloroplast.seq.bcf-Oz-o chloroplast.seq.vcf,bgzip-c chloroplast.seq.vcf>chloroplast.seq.vcf.gz,bcftools consensus-f chloroplast.fasta chloroplast.seq.vcf.gz>chloroplast.fasta。
步骤六、使用bcftools软件能够直接call出SNP和indel,得到胁迫环境下的番茄叶绿体基因组序列和正常环境下的栽培番茄叶绿体参考基因组的差异。
利用本发明提供的方法能够快速获得待测植物叶绿体基因组与叶绿体参考基因组的差异,将其用于考察胁迫环境下的植物时,只需通过植物转录组数据就能够快速得到胁迫环境下植物叶绿体基因碱基的不同,以及其叶绿体基因组上是否发生了小片段序列的插入或删除。相比现有技术必须进行两个月以上长时间的对照测序才能获得差异,本发明能够显著缩短获得差异的时间,加快优良植物品种培育、筛选和纯化的速度,提高植物育种效率。
实施例6
本实施例利用实施例4提供的方法从多毛番茄转录组数据中快速获取了多毛番茄的叶绿体基因组,具体方法步骤如下:
步骤一、实验室测序获得了多毛番茄LA1777的全长转录组数据;由NCBI下载已发表的多毛番茄的近源物种——NCBI登录号为HG975525.1的栽培番茄叶绿体基因组序列。
步骤二、用fastq软件对所获得的多毛番茄转录组数据进行质控预处理,去除低质量序列得到用于候选分析的预处理数据;
步骤三、以栽培番茄叶绿体基因组序列作为叶绿体参考基因组,使用转录组对比软件hisat2对多毛番茄转录组预处理数据和叶绿体参考基因组进行比对,筛选能mapping到叶绿体参考基因组的reads-1并将其以fastq格式文件进行保存,最终得到连个73M的fastq文件;
使用转录组对比软件hisat2对所述预处理数据和叶绿体参考基因组进行比对时的具体命令为:
单端的具体命令为hisat2-p 6--rg-id=UHR_Rep1--rg SM:UHR--rg LB:UHR_Rep1_ERCC-Mix1--rg PL:ILLUMINA--rg PU:CXX1234-ACTGAC.1-x chloroplast--dta--rna-strandness RF-U cp1.fastq.gz-S chloroplast.sam2>chloroplast.summary--al./cp/chloroplast_se.fastq。
步骤四、使用bwa软件对所得reads-1和叶绿体参考基因组进行比对,筛选能mapping到叶绿体参考基因组的reads-2并将其以sam格式文件进行保存;
使用bwa软件对所得reads-1和叶绿体参考基因组进行比对时的具体命令为:bwaaln-t 6chloroplast.fasta chloroplast_se.fastq>chloroplast_se.sai,单端bwasamse chloroplast.fasta chloroplast_se.sai chloroplast_se.fastq>chloroplast.sam。
步骤五、使用samtools软件对所得sam格式文件进行重排,最后通过bcftools软件进行一致序列的获取,得到一个155kb大小的多毛番茄的叶绿体基因组序列;
通过bcftools软件进行一致序列获取时的具体命令为:
samtools view-bS chloroplast.sam-o chloroplast.bam,samtools sortchloroplast.bam>chloroplast.sort.bam,samtools mpileup-gSDf chloroplast.fastachloroplast.sort.bam>chloroplast.seq.bcf,bcftools view chloroplast.seq.bcf-Oz-o chloroplast.seq.vcf,bgzip-c chloroplast.seq.vcf>chloroplast.seq.vcf.gz,bcftools consensus-f chloroplast.fasta chloroplast.seq.vcf.gz>chloroplast.fasta。
步骤六、使用bcftools软件能够直接call出SNP和indel,得到多毛番茄叶绿体基因组序列和栽培番茄叶绿体参考基因组的差异。
步骤七、对所得多毛番茄叶绿体基因组序列进行验证和评估的步骤:使用网页程序pipmaker将多毛番茄叶绿体基因组序列与NCBI登录号为HG975525.1的栽培番茄、NCBI登录号为NC_008096.2的马铃薯的叶绿体基因组序列进行两两比较,比对结果如图2、图3所示,多毛番茄叶绿体基因组序列与栽培番茄、马铃薯的叶绿体基因组序列均表现出一条笔直的对角线状态,表明所得多毛番茄的叶绿体基因组序列是正确的。
Claims (6)
1.一种从转录组数据中快速获取叶绿体基因组的方法,其特征在于,对所获得的待测植物物种的转录组数据进行质控预处理,去除低质量序列得到用于候选分析的预处理数据;以待测植物物种的近源物种叶绿体基因组序列作为叶绿体参考基因组,使用转录组对比软件hisat2对所述预处理数据和叶绿体参考基因组进行比对,筛选能mapping到所述叶绿体参考基因组的reads-1并将其以fastq格式文件进行保存;使用bwa软件对所得reads-1和叶绿体参考基因组进行比对,筛选能mapping到所述叶绿体参考基因组的reads-2并将其以sam格式文件进行保存;使用samtools软件对所得sam格式文件进行重排,最后通过bcftools软件进行一致序列的获取,得到待测植物物种的叶绿体基因组序列。
2.根据权利要求1所述一种从转录组数据中快速获取叶绿体基因组的方法,其特征在于,所述待测植物物种的转录组数据由NCBI数据库下载获得或由植物物种转录组样品测序获得,所述待测植物物种的近源物种叶绿体基因组序列由NCBI数据库下载获得。
3.根据权利要求1或2所述一种从转录组数据中快速获取叶绿体基因组的方法,其特征在于,对待测植物物种的转录组数据进行质控预处理使用的是fastq软件。
4.根据权利要求3所述一种从转录组数据中快速获取叶绿体基因组的方法,其特征在于,使用bcftools软件能够直接call出SNP和indel,得到待测植物物种叶绿体基因组序列和叶绿体参考基因组的差异。
5.根据权利要求4所述一种从转录组数据中快速获取叶绿体基因组的方法,其特征在于,还包括对所得待测植物物种的叶绿体基因组序列进行验证和评估的步骤。
6.根据权利要求5所述一种从转录组数据中快速获取叶绿体基因组的方法,其特征在于,所述验证和评估是指使用网页程序pipmaker将所得待测植物物种叶绿体基因组序列与其他已知植物物种叶绿体基因组序列进行比较,当比较结果表现出一条笔直的对角线状态,表明所得待测植物物种的叶绿体基因组序列是正确的。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011296845.1A CN112259169B (zh) | 2020-11-18 | 2020-11-18 | 一种从转录组数据中快速获取叶绿体基因组的方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011296845.1A CN112259169B (zh) | 2020-11-18 | 2020-11-18 | 一种从转录组数据中快速获取叶绿体基因组的方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112259169A true CN112259169A (zh) | 2021-01-22 |
CN112259169B CN112259169B (zh) | 2024-01-30 |
Family
ID=74266347
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202011296845.1A Active CN112259169B (zh) | 2020-11-18 | 2020-11-18 | 一种从转录组数据中快速获取叶绿体基因组的方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112259169B (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113284556A (zh) * | 2021-04-29 | 2021-08-20 | 安徽农业大学 | 从动植物转录组数据中挖掘内生微生物组信息的方法 |
CN114882950A (zh) * | 2022-05-18 | 2022-08-09 | 东北林业大学 | 基于软件识别宏基因组序列中微生物种类与序列的方法 |
Citations (13)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20070067862A1 (en) * | 2003-07-03 | 2007-03-22 | University Of Florida Research Foundation, Inc. | Chloroplast transgenic approach to express and purify human serum albumin, a protein highly susceptible to proteolytic degradation |
CN104450682A (zh) * | 2014-12-16 | 2015-03-25 | 西南大学 | 一种组装叶绿体基因组序列的方法 |
WO2015102226A1 (ko) * | 2013-12-31 | 2015-07-09 | 서울대학교산학협력단 | 차세대 시퀀싱 방법을 이용하여 생물체의 엽록체, 미토콘드리아 또는 핵 리보솜 dna의 완전한 게놈 서열을 해독하는 방법 |
CN106754879A (zh) * | 2016-12-22 | 2017-05-31 | 东北农业大学 | 一种植物叶片dna简化快速提取方法 |
CN106834465A (zh) * | 2017-01-22 | 2017-06-13 | 西北农林科技大学 | 一种简便、高效且通用的植物叶绿体基因组测序方法 |
CN107784199A (zh) * | 2017-10-18 | 2018-03-09 | 中国科学院昆明植物研究所 | 一种基于总dna测序结果的细胞器基因组筛选方法 |
CN109411014A (zh) * | 2018-10-09 | 2019-03-01 | 中国科学院昆明植物研究所 | 一种基于二代测序的植物叶绿体全基因组组装成环方法 |
CN110021356A (zh) * | 2018-01-04 | 2019-07-16 | 中国科学院西北高原生物研究所 | 利用转录组数据获取岷县龙胆叶绿体基因组序列的方法 |
CN110042148A (zh) * | 2018-01-16 | 2019-07-23 | 深圳华大生命科学研究院 | 一种高效获取叶绿体dna测序数据的方法及其应用 |
CN110379462A (zh) * | 2019-06-21 | 2019-10-25 | 中南民族大学 | 一种基于Illumina技术组装中华金腰叶绿体基因组序列的方法 |
CN110890134A (zh) * | 2019-10-31 | 2020-03-17 | 南京师范大学 | 利用叶绿体基因组大单拷贝区鉴别枫斗类石斛基源的方法 |
CN111018958A (zh) * | 2019-12-10 | 2020-04-17 | 广东省农业科学院蔬菜研究所 | 突变型atpA基因及其应用 |
CN111893132A (zh) * | 2020-06-09 | 2020-11-06 | 东北农业大学 | 一种提高植物pal酶活性与苯丙烷合成通路活性的方法 |
-
2020
- 2020-11-18 CN CN202011296845.1A patent/CN112259169B/zh active Active
Patent Citations (13)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20070067862A1 (en) * | 2003-07-03 | 2007-03-22 | University Of Florida Research Foundation, Inc. | Chloroplast transgenic approach to express and purify human serum albumin, a protein highly susceptible to proteolytic degradation |
WO2015102226A1 (ko) * | 2013-12-31 | 2015-07-09 | 서울대학교산학협력단 | 차세대 시퀀싱 방법을 이용하여 생물체의 엽록체, 미토콘드리아 또는 핵 리보솜 dna의 완전한 게놈 서열을 해독하는 방법 |
CN104450682A (zh) * | 2014-12-16 | 2015-03-25 | 西南大学 | 一种组装叶绿体基因组序列的方法 |
CN106754879A (zh) * | 2016-12-22 | 2017-05-31 | 东北农业大学 | 一种植物叶片dna简化快速提取方法 |
CN106834465A (zh) * | 2017-01-22 | 2017-06-13 | 西北农林科技大学 | 一种简便、高效且通用的植物叶绿体基因组测序方法 |
CN107784199A (zh) * | 2017-10-18 | 2018-03-09 | 中国科学院昆明植物研究所 | 一种基于总dna测序结果的细胞器基因组筛选方法 |
CN110021356A (zh) * | 2018-01-04 | 2019-07-16 | 中国科学院西北高原生物研究所 | 利用转录组数据获取岷县龙胆叶绿体基因组序列的方法 |
CN110042148A (zh) * | 2018-01-16 | 2019-07-23 | 深圳华大生命科学研究院 | 一种高效获取叶绿体dna测序数据的方法及其应用 |
CN109411014A (zh) * | 2018-10-09 | 2019-03-01 | 中国科学院昆明植物研究所 | 一种基于二代测序的植物叶绿体全基因组组装成环方法 |
CN110379462A (zh) * | 2019-06-21 | 2019-10-25 | 中南民族大学 | 一种基于Illumina技术组装中华金腰叶绿体基因组序列的方法 |
CN110890134A (zh) * | 2019-10-31 | 2020-03-17 | 南京师范大学 | 利用叶绿体基因组大单拷贝区鉴别枫斗类石斛基源的方法 |
CN111018958A (zh) * | 2019-12-10 | 2020-04-17 | 广东省农业科学院蔬菜研究所 | 突变型atpA基因及其应用 |
CN111893132A (zh) * | 2020-06-09 | 2020-11-06 | 东北农业大学 | 一种提高植物pal酶活性与苯丙烷合成通路活性的方法 |
Non-Patent Citations (5)
Title |
---|
LIN ZHANGXIANG;WANG YINGYING;FU FEI;YE CHUYU;FAN LONGJIANG: "Complete chloroplast genome of Dongxiang wild rice and its application in phylogenetic analysis", 浙江大学学报. 农业与生命科学版, vol. 40, no. 4 * |
唐萍: "蝶形花科植物叶绿体基因组研究进展", 南方农业学报, vol. 46, no. 1 * |
王婷婷;仇有文;王沛文;陈宏宇;杨俊颖;王窦逗;伍淼;王傲雪;: "番茄热激转录因子HSF家族的系统进化分析", 江苏农业科学, no. 01 * |
秦民坚, 黄芸, 杨光, 徐珞珊, 周开亚: "射干及类似药用植物叶绿体rbcL基因序列分析", 药学学报, no. 02 * |
谢海坤;焦健;樊秀彩;张颖;姜建福;孙海生;刘崇怀: "基于高通量测序组装‘赤霞珠’叶绿体基因组及其特征分析", 中国农业科学, vol. 50, no. 9 * |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113284556A (zh) * | 2021-04-29 | 2021-08-20 | 安徽农业大学 | 从动植物转录组数据中挖掘内生微生物组信息的方法 |
CN114882950A (zh) * | 2022-05-18 | 2022-08-09 | 东北林业大学 | 基于软件识别宏基因组序列中微生物种类与序列的方法 |
Also Published As
Publication number | Publication date |
---|---|
CN112259169B (zh) | 2024-01-30 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Gallaher et al. | High‐throughput sequencing of the chloroplast and mitochondrion of Chlamydomonas reinhardtii to generate improved de novo assemblies, analyze expression patterns and transcript speciation, and evaluate diversity among laboratory strains and wild isolates | |
Tausta et al. | Developmental dynamics of Kranz cell transcriptional specificity in maize leaf reveals early onset of C4-related processes | |
Wilkins et al. | Genotype and time of day shape the Populus drought response | |
Li et al. | Genome sequencing and population genomics modeling provide insights into the local adaptation of weeping forsythia | |
Qi et al. | The haplotype-resolved chromosome pairs of a heterozygous diploid African cassava cultivar reveal novel pan-genome and allele-specific transcriptome features | |
CN112259169A (zh) | 一种从转录组数据中快速获取叶绿体基因组的方法 | |
Wang et al. | Status of duckweed genomics and transcriptomics | |
Lauterbach et al. | C3 cotyledons are followed by C4 leaves: intra-individual transcriptome analysis of Salsola soda (Chenopodiaceae) | |
CN109411014A (zh) | 一种基于二代测序的植物叶绿体全基因组组装成环方法 | |
Kandziora et al. | How to tackle phylogenetic discordance in recent and rapidly radiating groups? Developing a workflow using Loricaria (Asteraceae) as an example | |
CN103093118B (zh) | 一种系统进化树的重建方法 | |
Douglas | Populus as a model tree | |
Wang et al. | An optimized FACS-free single-nucleus RNA sequencing (snRNA-seq) method for plant science research | |
Baute et al. | Using genomic approaches to unlock the potential of CWR for crop adaptation to climate change | |
Wei et al. | Time-sequential detection of quantitative trait loci and candidate genes underlying the dynamic growth of Salix suchowensis | |
Aagaard et al. | Selection on plant male function genes identifies candidates for reproductive isolation of yellow monkeyflowers | |
Wang et al. | Genome-wide analysis of pentatricopeptide-repeat proteins of an aquatic plant | |
Fetter et al. | Landscape genomics of angiosperm trees: from historic roots to discovering new branches of adaptive evolution | |
Sanjaya et al. | Arabidopsis EGY1 is critical for chloroplast development in leaf epidermal guard cells | |
Llaca | Sequencing technologies and their use in plant biotechnology and breeding | |
Ariani et al. | Comprehensive workflow for the genome-wide identification and expression meta-analysis of the ATL E3 ubiquitin ligase gene family in grapevine | |
CN108642166B (zh) | 利用梨花粉单细胞进行基因组单倍型组装的方法 | |
Wei et al. | Inspecting abundantly expressed genes in male strobili in sugi (Cryptomeria japonica D. Don) via a highly accurate cDNA assembly | |
Parray et al. | Advancement in sustainable agriculture: Computational and bioinformatics tools | |
Yang et al. | A comparative analysis of stably expressed genes across diverse angiosperms exposes flexibility in underlying promoter architecture |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |