CN110021356A - 利用转录组数据获取岷县龙胆叶绿体基因组序列的方法 - Google Patents

利用转录组数据获取岷县龙胆叶绿体基因组序列的方法 Download PDF

Info

Publication number
CN110021356A
CN110021356A CN201810008272.4A CN201810008272A CN110021356A CN 110021356 A CN110021356 A CN 110021356A CN 201810008272 A CN201810008272 A CN 201810008272A CN 110021356 A CN110021356 A CN 110021356A
Authority
CN
China
Prior art keywords
sequence
chloroplast gene
transcript profile
rough gentian
minxian county
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201810008272.4A
Other languages
English (en)
Inventor
高庆波
迟晓峰
张发起
王文娟
陈世龙
李彦
王久利
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Northwest Institute of Plateau Biology of CAS
Original Assignee
Northwest Institute of Plateau Biology of CAS
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Northwest Institute of Plateau Biology of CAS filed Critical Northwest Institute of Plateau Biology of CAS
Priority to CN201810008272.4A priority Critical patent/CN110021356A/zh
Publication of CN110021356A publication Critical patent/CN110021356A/zh
Pending legal-status Critical Current

Links

Classifications

    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q1/00Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions
    • C12Q1/68Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions involving nucleic acids
    • C12Q1/6869Methods for sequencing
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B30/00ICT specially adapted for sequence analysis involving nucleotides or amino acids

Landscapes

  • Life Sciences & Earth Sciences (AREA)
  • Chemical & Material Sciences (AREA)
  • Proteomics, Peptides & Aminoacids (AREA)
  • Organic Chemistry (AREA)
  • Health & Medical Sciences (AREA)
  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Zoology (AREA)
  • Biophysics (AREA)
  • Biotechnology (AREA)
  • Analytical Chemistry (AREA)
  • General Health & Medical Sciences (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Wood Science & Technology (AREA)
  • Immunology (AREA)
  • Biochemistry (AREA)
  • Molecular Biology (AREA)
  • General Engineering & Computer Science (AREA)
  • Microbiology (AREA)
  • Genetics & Genomics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • Medical Informatics (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Theoretical Computer Science (AREA)
  • Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)

Abstract

本发明公开了一种利用转录组数据获取岷县龙胆叶绿体基因组序列的方法,通过二代测序技术获得岷县龙胆的转录组测序原始数据,经过过滤以及与已知的龙胆属叶绿体基因组进行比对,筛出叶绿体基因reads,将筛出的reads组装成叠连群,其后将叠连群建成本地比对数据库,与参考序列比对,根据比对结果排序和拼接,每拼接5—6kb,将新组装的序列与其它叶绿体基因组序列进行比对,以检查所拼接的序列,最后根据首尾的重叠区将序列组装成环,再通过PCR和一代测序技术填补其中的间隙,最终获得岷县龙胆的叶绿体基因组序列。本发明有利于了解岷县龙胆叶绿体基因组结构等重要信息,也进一步地开发了转录组数据的价值。

Description

利用转录组数据获取岷县龙胆叶绿体基因组序列的方法
技术领域
本发明涉及生物科学领域,具体涉及利用转录组数据获取岷县龙胆叶绿体基因组序列的方法。
背景技术
获取叶绿体基因组序列对研究绿色植物的光合作用等能量代谢过程以及研究物种的系统发育等有重要意义;目前常用的获取叶绿体基因组序列的方法有三种:①提取纯净的叶绿体DNA,然后通过测序获得,该方法对实验材料要求较高且实验难度大,②利用通用引物通过长片段PCR方法将植物总DNA中的叶绿体DNA扩增出来,然后通过测序获得,但该方法所用的引物往往不具有广泛的通用性,导致许多植物类群的叶绿体DNA并不能完整扩增,③直接对植物总DNA进行测序,然后通过生物信息学的方法将其中的叶绿体DNA筛选出来,然后通过拼接组装获得,然而该方法的测序结果中,非叶绿体DNA(核DNA和线粒体DNA)序列往往会占据极大部分的数据量,导致实验成本偏高。
转录组在细胞表型和功能、基因结构、基因功能、基因表达以及分子标记开发等领域有重要研究价值,因而在过去的相关研究工作中产生了大量的植物转录组数据;中国科学院昆明植物研究所的高立志研究组研究表明,植物的整个叶绿体基因组能发生全转录;如果能从转录组数据中将来自叶绿体的RNA序列全部筛选出来,然后经过拼接组装形成全转录组闭合环状序列,该闭合环状序列即可代表相应物种的叶绿体基因组序列,这必然可以让我们获得叶绿体基因组的大量信息,也可以进一步的发掘转录组数据的价值。
发明内容
针对现有技术的不足之处以及现在已经存在大量转录组数据的事实,本发明旨在提供一种充分发掘转录组数据价值以及获得叶绿体基因组序列的方法。
本发明方法具体通过以下技术方案实现:
利用转录组数据获取岷县龙胆叶绿体基因组序列的方法,包括以下步骤:
1)利用高通量测序技术对相应植物叶片的转录组样品进行测序;
2)过滤掉冗余的、不理想的与非目标数据,从而获得转录组的有效数据(clean data);
3)从clean data中筛选出能定位到参考叶绿体基因组上的reads;
4)组装步骤(3)所获得的reads,构建叠连群(contigs);
5)根据参考基因组对叠连群进行排序以及进一步的拼接和组装;
6)每拼接5—6kb则将新拼接的序列与已知的核酸序列进行blast,以检查所拼接的序列;
7)合并首尾序列的重叠部分,获得环状序列;
8)如果存在间隙(gaps),则根据gaps两端序列设计引物对gap进行PCR,通过一代测序法获得gap区序列以填补gap,从而获得完整的叶绿体基因组序列;
进一步的,
步骤(3)选取选取与样本物种亲缘关系近的物种的叶绿体基因组序列作为参考叶绿体基因组序列。
本发明避免了叶绿体基因组的分离与纯化以及长片段PCR等实验操作,直接利用转录组的高通量测序数据进行组装以获得完整的叶绿体基因组序列;本发明所用的组装、检测与填补gap的方法使所获得的叶绿体DNA序列形成完整的闭环结构,并可判断所获得序列的质量;本发明不鼓励测得转录组序列仅用于叶绿体基因组序列的发掘。
具体实施方式
利用转录组数据获取岷县龙胆叶绿体基因组的序列的方法,包括以下步骤:
(1)岷县龙胆的转录组在illumina的hiseq2500/miseq平台上完成测序,采用双末端模式建库测序,获得原始数据(raw data);
(2)利用SolwxaQA过滤掉低质量数据,从而获得转录组的有效数据(clean data);
(3)从clean data中筛选出能定位到参考叶绿体基因组上的reads;
(4)使用SOAPdenovo软件组装所获得的reads,构建叠连群(contigs);
(5)根据参考基因组,借助BioEdit软件的本地比对(local blast)功能对叠连群进行排序以及进一步的拼接和组装;
(6)每拼接5—6kb,利用NCBI网站上的BLAST工具将新拼接的序列与NCBI的所有序列进行blast,以检查所拼接的序列;
(7)合并首尾序列的重叠部分,获得环状序列;
(8)如果存在缺失(gaps),则根据gaps两端序列设计引物对gap进行PCR,通过一代测序法获得gap区序列以填补gap,从而获得完整的叶绿体基因组序列;
进一步的,
步骤(3)选取选取与样本物种亲缘关系近的物种的叶绿体基因组序列作为参考叶绿体基因组序列。
本发明避免了叶绿体基因组的分离与纯化以及长片段PCR等实验操作,直接利用转录组的高通量测序数据进行组装以获得完整的叶绿体基因组序列;本发明所用的组装、检测与填补gap的方法使所获得的叶绿体DNA序列形成完整的闭环结构,并可判断所获得序列的质量。

Claims (4)

1.利用转录组数据获取岷县龙胆叶绿体基因组序列的方法,其特征在于,包括以下步骤:
利用高通量测序技术对岷县龙胆叶片的转录组样品进行测序,获得原始数据;
过滤掉低质量数据,从而获得转录组的有效数据;
从有效数据中筛选出能定位到参考叶绿体基因组上的机读序列(reads);
组装所获得的reads,构建叠连群(contigs);
根据参考叶绿体基因组对叠连群进行排序以及进一步的拼接和组装;
每拼接5—6kb,将新拼接的序列已知的众多序列进行blast比对,以检查所拼接的序列;
合并首尾序列的重叠部分,获得环状序列;
根据所存在的间隙(gap)两端序列设计引物对gap进行PCR,通过末端终止测序法(即一代测序)获得gap区序列以填补gap,从而获得完整的叶绿体基因组序列。
2.根据权利要求1所述的利用转录组数据获取岷县龙胆叶绿体基因组序列的方法,其特征在于:步骤(1)不需要分离叶绿体,甚至不需要提取DNA,而是采用高通量双末端测序方法对转录组进行建库测序。
3.根据权利要求1所述的利用转录组数据获取岷县龙胆叶绿体基因组序列的方法,其特征在于:步骤(3)中所用参考叶绿体基因组为岷县龙胆的近缘物种的叶绿体基因组,即已知的龙胆科植物叶绿体基因组。
4.根据权利要求1所述的利用转录组数据获取岷县龙胆叶绿体基因组序列的方法,其特征在于:步骤(6)可以判断组装质量。
CN201810008272.4A 2018-01-04 2018-01-04 利用转录组数据获取岷县龙胆叶绿体基因组序列的方法 Pending CN110021356A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810008272.4A CN110021356A (zh) 2018-01-04 2018-01-04 利用转录组数据获取岷县龙胆叶绿体基因组序列的方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810008272.4A CN110021356A (zh) 2018-01-04 2018-01-04 利用转录组数据获取岷县龙胆叶绿体基因组序列的方法

Publications (1)

Publication Number Publication Date
CN110021356A true CN110021356A (zh) 2019-07-16

Family

ID=67187371

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810008272.4A Pending CN110021356A (zh) 2018-01-04 2018-01-04 利用转录组数据获取岷县龙胆叶绿体基因组序列的方法

Country Status (1)

Country Link
CN (1) CN110021356A (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112259169A (zh) * 2020-11-18 2021-01-22 东北农业大学 一种从转录组数据中快速获取叶绿体基因组的方法
CN112786110A (zh) * 2021-01-29 2021-05-11 武汉希望组生物科技有限公司 一种序列组装方法及系统
CN118380052A (zh) * 2024-06-24 2024-07-23 安诺优达基因科技(北京)有限公司 基因组结构预测的方法及电子装置

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112259169A (zh) * 2020-11-18 2021-01-22 东北农业大学 一种从转录组数据中快速获取叶绿体基因组的方法
CN112259169B (zh) * 2020-11-18 2024-01-30 东北农业大学 一种从转录组数据中快速获取叶绿体基因组的方法
CN112786110A (zh) * 2021-01-29 2021-05-11 武汉希望组生物科技有限公司 一种序列组装方法及系统
CN112786110B (zh) * 2021-01-29 2023-08-15 武汉希望组生物科技有限公司 一种序列组装方法及系统
CN118380052A (zh) * 2024-06-24 2024-07-23 安诺优达基因科技(北京)有限公司 基因组结构预测的方法及电子装置

Similar Documents

Publication Publication Date Title
US11306308B2 (en) High-throughput CRISPR-based library screening
CN110021356A (zh) 利用转录组数据获取岷县龙胆叶绿体基因组序列的方法
KR20080026153A (ko) 다이태그 서열의 처리 방법 및/또는 게놈 맵핑
CN104153004A (zh) 一种用于扩增子测序的建库方法
CN104450682B (zh) 一种组装叶绿体基因组序列的方法
CN105274198A (zh) 一种基于转录组测序开发鸟巢蕨est-ssr引物的方法
CN104313172A (zh) 一种大量样本同时分型的方法
CN107506614B (zh) 一种细菌ncRNA预测方法
CA3005386A1 (en) Method for determining cell clonality
CN111192636A (zh) 一种适用于oligodT富集的mRNA二代测序结果分析方法
CN106282330B (zh) 一种开发沙冬青植物基因组简单重复序列分子标记的方法
CN112481413B (zh) 基于二代和三代测序技术的植物线粒体基因组组装方法
CN104357563A (zh) 二次dna片段化的基因组单倍型高通量测序方法
CN107862177B (zh) 一种区分鲤群体的单核苷酸多态性分子标记集的构建方法
US20120238457A1 (en) Rna analytics method
CN112259169A (zh) 一种从转录组数据中快速获取叶绿体基因组的方法
Rothnagel et al. Short open reading frames and their encoded peptides
CN108733974A (zh) 一种基于高通量测序的线粒体序列拼接及拷贝数测定的方法
KR101648252B1 (ko) 염기서열 확인 과정에서 분리된 핵산 단편들을 회수하는 방법
KR101953663B1 (ko) 하나의 올리고뉴클레오티드를 이용해서 올리고뉴클레오티드 풀을 생산하는 방법
CN102747147A (zh) 一种非编码基因的高通量鉴定方法
Trucchi et al. Genomic and metagenomic analyses reveal parallel ecological divergence in Heliosperma pusillum (Caryophyllaceae)
CN104911179B (zh) 一种提取dna的方法
Cannon et al. Phylogenomics using transcriptome data
Bayega et al. Complete closed de novo assembly of simple genomes using nanopore long read sequencing

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
WD01 Invention patent application deemed withdrawn after publication

Application publication date: 20190716

WD01 Invention patent application deemed withdrawn after publication