CN114974425A - 植物rna编辑位点的检测方法 - Google Patents

植物rna编辑位点的检测方法 Download PDF

Info

Publication number
CN114974425A
CN114974425A CN202210428220.9A CN202210428220A CN114974425A CN 114974425 A CN114974425 A CN 114974425A CN 202210428220 A CN202210428220 A CN 202210428220A CN 114974425 A CN114974425 A CN 114974425A
Authority
CN
China
Prior art keywords
data
rna editing
rna
sequencing data
sequencing
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202210428220.9A
Other languages
English (en)
Inventor
董珊珊
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shenzhen Xianhu Botanical Garden Shenzhen Garden Research Center
Original Assignee
Shenzhen Xianhu Botanical Garden Shenzhen Garden Research Center
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shenzhen Xianhu Botanical Garden Shenzhen Garden Research Center filed Critical Shenzhen Xianhu Botanical Garden Shenzhen Garden Research Center
Priority to CN202210428220.9A priority Critical patent/CN114974425A/zh
Publication of CN114974425A publication Critical patent/CN114974425A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B30/00ICT specially adapted for sequence analysis involving nucleotides or amino acids
    • G16B30/10Sequence alignment; Homology search
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B30/00ICT specially adapted for sequence analysis involving nucleotides or amino acids
    • G16B30/20Sequence assembly
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B50/00ICT programming tools or database systems specially adapted for bioinformatics
    • G16B50/10Ontologies; Annotations
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02PCLIMATE CHANGE MITIGATION TECHNOLOGIES IN THE PRODUCTION OR PROCESSING OF GOODS
    • Y02P60/00Technologies relating to agriculture, livestock or agroalimentary industries
    • Y02P60/40Afforestation or reforestation

Landscapes

  • Life Sciences & Earth Sciences (AREA)
  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Engineering & Computer Science (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Biophysics (AREA)
  • Theoretical Computer Science (AREA)
  • Medical Informatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Biotechnology (AREA)
  • Evolutionary Biology (AREA)
  • General Health & Medical Sciences (AREA)
  • Chemical & Material Sciences (AREA)
  • Proteomics, Peptides & Aminoacids (AREA)
  • Analytical Chemistry (AREA)
  • Bioethics (AREA)
  • Databases & Information Systems (AREA)
  • Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)

Abstract

本发明涉及生物技术领域,公开了一种植物RNA编辑位点的检测方法。该方法获取裸子植物类群的样本进行测序,获得基因组测序数据、转录组测序数据;将基因组测序数据、转录组测序数据分别比对到线粒体参考基因组上,获得DNA比对数据、RNA比对数据;分别提取DNA比对数据、RNA比对数据中的单核苷酸多态性位点,获得第一变异位点数据、第二变异位点数据,从第二变异位点数据中去除与第一变异位点数据的重复数据,获得RNA编辑位点原始数据;对RNA编辑位点原始数据进行过滤,获得RNA编辑位点,根据RNA编辑位点的注释信息对蛋白质编码基因进行注释、合并,获得RNA编辑位点数据库。本发明提供的植物RNA编辑位点的检测方法排除了假阴性和假阳性数据,提高了准确度。

Description

植物RNA编辑位点的检测方法
技术领域
本发明涉及生物技术领域,尤其涉及一种植物RNA编辑位点的检测方法。
背景技术
植物的线粒体和叶绿体转录本上存在RNA编辑现象,胞嘧啶(C)位点经脱氨基反应变异为尿嘧啶(U),在mRNA水平改变物种的遗传信息,使翻译的蛋白质不同于基因组DNA模版序列预测的蛋白质产物。植物线粒体基因的RNA编辑位点数量最大,每个物种平均可达几百个位点,是叶绿体基因RNA编辑位点数量的5-10倍。RNA编辑在植物中通常是非同义突变占主导,且编辑效率很高(~80%左右),可以通过改变氨基酸的种类影响植物表型和生长。植物的RNA编辑具有位点特异性,可以在不改变基因组遗传信息的情况下,通过RNA水平的编辑改良植物生态特性和功能特性,同时由于非同义突变受到自然选择作用,植物的RNA编辑位点能够反映植物的进化特征。
在现有工作中,RNA编辑位点的检测数据经常会出现假阴性和假阳性。假阴性主要是由数据类型不匹配造成的实际测序深度不够造成的,由于植物中RNA编辑的主要场所是细胞器基因组,而细胞器是原核转录模式,常规的真核转录组测序数据对于细胞器基因组的覆盖是严重不够的,导致RNA编辑位点的分析结果容易出现错漏。假阳性产生的原因主要是基因的注释错误,比如外显子-内含子边界的注释错误造成RNA测序数据比对的错误,以及未排除DNA水平的单核苷酸多态性位点;此外,由于RNA编辑位点的进化规律在各个类群有所不同,被子植物中比较保守,可以通过同源预测的方式来注释,其他植物类群的RNA编辑位点的保守性则很差,使得基于已有数据的同源预测结果发生严重偏离甚至错误导致假阳性。
裸子植物是北半球最重要的造林树种,裸子植物形成的针叶林面积占我国森林总面积的52%,目前RNA编辑位点在被子植物中检测较多,其次是苔藓植物,而对于含有丰富RNA编辑位点的裸子植物的检测较少。因此,需要一种RNA编辑位点的检测方法,对裸子植物的RNA编辑位点进行准确检测,构建裸子植物线粒体的RNA编辑位点数据库。
发明内容
本发明提供一种植物RNA编辑位点的检测方法,以解决对裸子植物的RNA编辑位点进行检测时出现假阴性和假阳性数据,检测覆盖度和准确性不够的问题。
本发明提供了一种植物RNA编辑位点的检测方法,包括:
获取裸子植物类群的样本,对所述样本进行测序,获得基因组测序数据、转录组测序数据;
对所述基因组测序数据进行组装、注释,获得线粒体参考基因组;
将所述基因组测序数据比对到所述线粒体参考基因组上,获得DNA比对数据,将所述转录组测序数据比对到所述线粒体参考基因组上,获得RNA比对数据;
提取所述DNA比对数据中的单核苷酸多态性位点,获得第一变异位点数据,提取所述RNA比对数据中的单核苷酸多态性位点,获得第二变异位点数据,从所述第二变异位点数据去除与所述第一变异位点数据重复的数据,获得RNA编辑位点原始数据;
对所述RNA编辑位点原始数据进行过滤,获得RNA编辑位点,获取所述基因组测序数据的蛋白质编码基因,根据所述RNA编辑位点的注释信息对所述蛋白质编码基因进行注释、合并,获得RNA编辑位点数据库。
本发明提供的植物RNA编辑位点的检测方法,获取裸子植物类群的样本进行测序,获得基因组测序数据、转录组测序数据;将基因组测序数据、转录组测序数据分别比对到线粒体参考基因组上,获得DNA比对数据、RNA比对数据;分别提取DNA比对数据、RNA比对数据中的单核苷酸多态性位点,获得第一变异位点数据、第二变异位点数据,从第二变异位点数据中去除与第一变异位点数据的重复数据,获得RNA编辑位点原始数据;对RNA编辑位点原始数据进行过滤,获得RNA编辑位点,根据RNA编辑位点的注释信息对蛋白质编码基因进行注释、合并,获得RNA编辑位点数据库。本发明提供的RNA编辑位点的检测方法排除了假阴性数据和假阳性数据,提高了对裸子植物的RNA编辑位点的检测准确度,构建覆盖全面裸子植物的RNA编辑位点数据库有利于实现裸子植物的生态价值和经济价值。
附图说明
为了更清楚地说明本发明实施例的技术方案,下面将对本发明实施例的描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1是本发明一实施例中植物RNA编辑位点的检测方法的一流程示意图;
图2是本发明一实施例中裸子植物蛋白质编码基因的RNA编辑位点数量统计图。
具体实施方式
为了使本发明所解决的技术问题、技术方案及有益效果更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。以下通过实施例对本发明进行进一步的说明。
在一实施例中,如图1所示,提供一种植物RNA编辑位点的检测方法,包括如下步骤S10~S50。
S10、获取裸子植物类群的样本,对所述样本进行测序,获得基因组测序数据、转录组测序数据。
可理解地,裸子植物类群包括5纲9目12科71属近800种,裸子植物为多年生木本植物,广布于南北半球,尤以北半球更为广泛,从低海拔至高海拔、从低纬度至高纬度几乎都有分布。为了获得RNA编辑位点在裸子植物类群中的分布规律、编辑机制和进化特征,需要采集不同属级的裸子植物样本,对采集到的样本进行测序获得测序数据。生物的主要遗传物质是DNA,细胞或生物体中一套完整的遗传物质的总和称为基因组,基因组测序是在DNA水平直接进行测序获得的基因组测序序列数据。转录组是特定组织或细胞在某一发育阶段或功能状态下转录出来的所有RNA的总和,主要包括mRNA和非编码RNA。基因组DNA是通过转录组RNA来进行表达的,转录组测序的对象为RNA,通过反转录获得遗传信息,转录组测序能够从RNA水平揭示基因功能、基因结构以及特定的生物学过程,转录组测序数据中包括了植物的RNA编辑位点。
S20、对所述基因组测序数据进行组装、注释,获得线粒体参考基因组。
可理解地,测序得到的基因组测序数据是分散的序列片段,为了保证比对线粒体基因组的效率和准确度,需要对基因组测序数据进行组装、注释,构建线粒体参考基因组。基因组组装是把测序产生的序列片段(reads)经过拼接组装生成基因组的长序列,基因组组装可以分为从头组装和映射比对组装,从头组装是指不需要依靠任何已知的基因组信息进行组装,而映射比对组装需要把测序序列和参考基因组来比对,找到序列的对应位置再进行组装。本实施例采用映射比对组装,通过裸子植物的线粒体基因组作为参考基因组进行组装。基因组注释是利用生物信息学方法和工具,对基因组所有基因和其他结构进行注释,基因组注释有助于序列比对和识别筛选。
S30、将所述基因组测序数据比对到所述线粒体参考基因组上,获得DNA比对数据,将所述转录组测序数据比对到所述线粒体参考基因组上,获得RNA比对数据。
可理解地,对线粒体参考基因组的序列采用SAMTOOLS建立索引,将测序获得的基因组测序数据和转录组测序数据分别比对到线粒体参考基因组上。其中,基因组测序数据的比对采用BOWTIE2,转录组测序数据的比对采用TOPHAT2,比对之后生成BAM比对文件,用SAMTOOLS进行排序,并过滤掉未比对上的、重复的和未配对的测序片段数据,获得线粒体参考基因组的DNA比对数据和线粒体参考基因组的RNA比对数据。
S40、提取所述DNA比对数据中的单核苷酸多态性位点,获得第一变异位点数据,提取所述RNA比对数据中的单核苷酸多态性位点,获得第二变异位点数据,从所述第二变异位点数据去除与所述第一变异位点数据重复的数据,获得RNA编辑位点原始数据。
可理解地,单核苷酸多态性主要是指在基因组水平上由单个核苷酸的变异所引起的DNA序列多态性,多态性只涉及到单个核苷酸的变异,由单个核苷酸碱基的转换或颠换所引起。单核苷酸多态性既有可能在基因序列内,也有可能在基因以外的非编码序列上。在DNA比对数据中的单核苷酸多态性位点是DNA水平的变异位点,转录组测序获得的测序数据是由RNA反转录得到的,因此在RNA比对数据中的单核苷酸多态性位点不仅包括转录翻译之前已经存在的DNA水平的变异位点,还包括转录翻译过程存在的RNA水平的变异位点,即RNA编辑位点。本实施例分别提取DNA比对数据中的第一变异位点数据和RNA比对数据中的第二变异位点数据,第一变异位点数据会导致第二变异位点数据中获得的RNA编辑位点数据出现假阳性,因此需要从第二变异位点数据中去除与第一变异位点数据重复的数据,获得RNA编辑位点原始数据。
S50、对所述RNA编辑位点原始数据进行过滤,获得RNA编辑位点,获取所述基因组测序数据的蛋白质编码基因,根据所述RNA编辑位点的注释信息对所述蛋白质编码基因进行注释、合并,获得RNA编辑位点数据库。
可理解地,RNA编辑位点原始数据中的编辑效率有高有低,对RNA编辑位点原始数据进行过滤获得高质量的RNA编辑位点信息,获取RNA编辑位点的注释信息对基因组测序数据的蛋白质编码基因进行注释,对于注释后的基因组,批量提取蛋白质编码区基因,得到裸子植物线粒体基因组的单基因矩阵。植物的RNA编辑位点是植物的DNA在进行RNA转录过程中通过改变蛋白质的氨基酸种类来影响植物的生态特征,因此需要提取蛋白质编码基因,构建单基因矩阵。通过比对将分散的RNA编辑位点注释信息全部转移合并到参考物种的蛋白质编码基因上,对单个位置上注释到多个RNA编辑位点的情况进行去冗余,获得裸子植物线粒体的RNA编辑位点数据库。
本实施例通过获取裸子植物类群的样本进行测序获得基因组测序数据、转录组测序数据;构建线粒体参考基因组,将基因组测序数据、转录组测序数据分别比对到线粒体参考基因组上,获得DNA比对数据、RNA比对数据;分别提取DNA比对数据、RNA比对数据中的单核苷酸多态性位点,获得第一变异位点数据、第二变异位点数据,从第二变异位点数据中去除与第一变异位点数据的重复数据,获得RNA编辑位点原始数据;对RNA编辑位点原始数据进行过滤,获得RNA编辑位点信息,根据RNA编辑位点的注释信息对蛋白质编码基因进行注释、合并,获得RNA编辑位点数据库。
可选的,步骤S10中,即所述对所述样本进行测序,获得基因组测序数据、转录组测序数据,包括:
S101、获取裸子植物类群的样本,对所述样本进行DNA测序,获得DNA原始测序数据;对所述样本进行RNA测序,获得RNA原始测序数据;
S102、对所述DNA原始测序数据进行过滤,获得所述基因组测序数据;对所述RNA原始测序数据进行过滤,获得所述转录组测序数据。
可理解地,DNA原始测序数据和RNA原始测序数据是通过测序平台获得的下机数据,包括所有的测序片段。测序得到的原始测序序列数据(raw reads),里面含有带接头的reads和低质量的reads。为了保证测序数据的质量,必须对raw reads过滤,得到cleanreads,后续的检测都基于基因组测序数据和转录组测序数据的clean reads。本实施例对裸子植物类群的样本分别进行DNA测序和RNA测序,对获得的DNA原始测序数据和RNA原始测序数据进行过滤,得到了基因组测序数据和转录组测序数据。
可选的,步骤S101中,即所述对所述样本进行DNA测序,获得DNA原始测序数据,包括:
S1011、提取所述样本的DNA,根据所述DNA进行文库构建,获得DNA短片段文库;
S1012、对所述DNA短片段文库进行双端测序,获得所述DNA原始测序数据。
可理解地,DNA测序领域中一代、二代、三代的测序方法都是借助于全基因组鸟枪法(Whole genome shotgun)将基因组打断成小片段进行测序。鸟枪法测序首先利用物理方法(如剪切力、超声波等)或酶化学方法(如限制性内切核酸酶)将生物细胞染色体DNA切割成为基因水平的许多片段,然后将这些片段与适当的载体结合,将重组DNA转入受体菌扩增,进行基因文库构建,再结合筛选方法,从众多的转化子菌株中选出含有某一基因的菌株,从中将重组的DNA分离、回收,获得原始测序数据。单端测序只有一种测序引物,使得扩增只能沿着一个方向进行,双端测序是在DNA的两个方向上分别进行测序,有两个不同方向的测序引物。本实施例通过构建文库进行DNA双端测序,测序的正确率更高,获得DNA原始测序数据。
可选的,所述DNA测序的测序深度为5×~10×。
可理解地,测序深度是基因组DNA中单个碱基平均被测到的次数,测序深度的选择会影响测序结果的准确率。DNA测序的序列读长较短,文库构建时利用聚合酶链式反应(PCR)富集序列,有一些含量较少的序列可能无法被大量扩增,覆盖度不够造成一些信息的丢失,因此想要得到准确的测序结果,需要的测序深度较大。裸子植物基因组大多十分巨大,DNA测序数据量需要满足深度要求,有利于后续提取单核苷酸多态性位点的灵敏度和准确度,本实施例中DNA测序的测序深度为5×~10×。
可选的,步骤S101中,即所述对所述样本进行RNA测序获得RNA原始测序数据,包括:
S1013、提取所述样本的RNA,将所述RNA去除rRNA后,通过随机引物反转录获得cDNA;
S1014、根据所述cDNA进行文库构建,获得lncRNA文库;
S1015、对所述lncRNA文库进行测序,获得所述RNA原始测序数据。
可理解地,cDNA是指具有与RNA链呈互补碱基序列的DNA。与RNA链互补的单链DNA,以其RNA为模板在适当引物的存在下由依赖RNA的DNA聚合酶(反转录酶)作用而合成,并且在合成单链cDNA后,再用碱处理除去与其对应的RNA以后,以单链cDNA为模板由DNA聚合酶作用合成双链cDNA。从细胞提取到的RNA序列中占大部分(80%以上)的都是rRNA,然而在转录组测序中rRNA并不是目标序列,不去除rRNA会产生很多无用的rRNA序列数据。lncRNA文库会保留植物总RNA中的原核转录本,使细胞器基因组的参考基因序列获得很高的深度,排除假阴性数据,对于准确鉴定RNA编辑位点十分重要。本实施例提取样品总RNA后,对于细胞器原核转录用试剂盒去除rRNA,得到片段RNA,再以片段RNA为模板,用六碱基随机引物反转录合成cDNA,根据cDNA制备由接头连接的lncRNA文库,对lncRNA文库进行测序,获得RNA原始测序数据。
可选的,步骤S102中,即所述对所述DNA原始测序数据进行过滤,获得所述基因组测序数据;对所述RNA原始测序数据进行过滤,获得所述转录组测序数据,包括:
S1021、获取DNA原始测序数据,过滤所述DNA原始测序数据中的接头序列数据和低质量测序数据,获得基因组测序数据;
S1022、获取RNA原始测序数据,过滤所述RNA原始测序数据中的接头序列数据和低质量测序数据,获得转录组测序数据。
可选的,所述低质量测序数据为质量值小于10的测序数据。
可理解地,在测序得到的原始测序数据中,含有许多错误的或低质量的reads,为了保证后续检测的准确性,必须对原始测序数据进行质量控制。原始测序数据中碱基的质量值是碱基识别出错的概率的整数映射,质量值越高表明碱基识别越可靠,碱基测错的可能性越小。本实施例中将质量值小于10的测序数据过滤,获得高质量的有效测序数据。
可选的,步骤S20中,即所述对所述基因组测序数据进行组装、注释,获得线粒体参考基因组,包括:
S201、获取诱饵序列,根据所述诱饵序列对所述基因组测序数据进行抓取,获得线粒体基因组测序数据;
S202、对所述线粒体基因组测序数据进行组装、拼接,获得线粒体基因组长序列;
S203、利用空白序列将所述线粒体基因组长序列进行间隔、连接后,根据所述诱饵序列的蛋白质编码基因进行注释,获得所述线粒体参考基因组。
可理解地,裸子植物线粒体基因组通常结构复杂,含有大量的重复序列,基因密度低,组装碎片化十分严重。为了获得线粒体的参考基因组,并保证编码区基因序列的完整性,本实施例选择已知全部裸子植物的线粒体基因组的蛋白质编码基因序列作为诱饵序列,利用诱饵序列对基因组测序数据进行抓取获得线粒体基因组测序数据。对线粒体基因组测序数据的序列片段(reads),根据reads之间的重叠区域对片段进行拼接成较长的连续序列(contig),再将contigs拼接成包含空白序列(gap)的长序列scaffolds,将长序列连接并利用蛋白质编码基因进行注释获得线粒体参考基因组。蛋白质编码基因(CDS)是与蛋白质序列一一对应的DNA序列,整个过程为DNA转录成mRNA,mRNA经剪接等加工后翻译出蛋白质。本实施例通过设置诱饵序列对基因组测序数据进行抓取获得线粒体基因组测序数据,对线粒体基因组测序数据进行组装、拼接、注释,构建线粒体参考基因组。
可选的,所述对所述RNA编辑位点原始数据进行过滤的编辑位点序列深度>10×,编辑效率>5%。
可理解地,编辑效率是指编辑位点发生变化的reads的条数*100/该编辑位点的总reads深度,编辑位点序列深度和编辑效率对于准确的检测RNA编辑位点十分重要。对RNA编辑位点原始数据进行编辑位点序列深度和编辑效率的过滤,可以进一步排除覆盖度不够和编辑效率偏低的假阳性数据,提高RNA编辑位点的有效性,获得高质量的RNA编辑位点。
可选的,步骤S50中,即所述获取所述基因组测序数据的蛋白质编码基因,根据所述RNA编辑位点的注释信息对所述蛋白质编码基因进行注释、合并,获得RNA编辑位点数据库,包括:
S501、获取所述基因组测序数据的蛋白质编码基因,根据所述RNA编辑位点的注释信息对所述蛋白质编码基因进行注释、提取,获得线粒体蛋白质编码基因的单基因矩阵;
S502、获取参考物种的比对序列,根据所述比对序列将所述注释信息进行转移后,提取所述单基因矩阵中的参考物种基因序列,获得参考物种蛋白质编码基因序列;
S503、对所述参考物种蛋白质编码基因序列进行合并,对所述注释信息进行去冗余,获得RNA编辑位点数据库。
可理解地,裸子植物的线粒体RNA编辑位点数量丰富,编辑水平高,主要是C to U的模式,RNA编辑主要发生在密码子的第一位和第二位,且蛋白质编码基因上的RNA编辑位点最为丰富。RNA编辑位点的注释信息包含了在RNA转录过程中发生变异的编辑位点对应于基因组DNA中的位点位置,通过RNA编辑位点的注释信息对蛋白质编码基因进行注释,可以获得线粒体蛋白质编码基因。通过提取单基因序列,构建线粒体蛋白质编码基因的单基因矩阵,并转移注释信息,将裸子植物的RNA编辑位点合并到参考物种蛋白质编码基因序列,对于参考物种蛋白质编码基因序列中单个核苷酸上注释到多个RNA编辑位点的情况,根据注释信息只保留一个RNA编辑位点进行去冗余,获得RNA编辑位点数据库。为了更全面的包含裸子植物的RNA编辑位点,选择银杏作为参考物种,参考物种的比对序列包括参考物种银杏的线粒体基因序列,银杏的线粒体基因在裸子植物中最为丰富,可以有效的承载RNA编辑位点信息,而其他更年轻的类群则会出现不同程度的基因丢失或向核基因转移,银杏的进化速率适中序列保守。本实施例通过RNA编辑位点的注释信息对蛋白质编码基因进行注释,利用参考物种将RNA编辑位点进行转移,对蛋白质编码基因进行合并,对RNA编辑位点注释信息进行去冗余,获得裸子植物线粒体的RNA编辑位点数据库。
一实施例中,通过广泛的野外采集和标本鉴定获得了46个具有系统代表性物种的裸子植物的新鲜样本,对这些样本进行DNA提取,DNA短片段文库构建后进行双端测序,获得DNA测序的原始数据,测序深度大概在5~10×;此外我们还需要提取样本的RNA,过滤掉所有的核糖体rRNA,通过随机引物反转录成cDNA,进行lncRNA文库的构建和测序,获得大约10-12G的RNA测序原始数据。并对DNA测序和RNA测序的原始数据进行过滤,去掉接头序列和低质量测序数据,获得基因组测序数据和转录组测序数据。
将已知全部裸子植物的线粒体基因组的蛋白质编码基因序列作为诱饵序列,采用Hybpiper流程对基因组测序数据按照与诱饵序列的相似度进行抓取,并组装成scaffold,得到新测裸子植物基因组的线粒体蛋白编码基因的scaffold,对scaffold用100个空白序列间隔,彼此连接得到了裸子物种的线粒体基因组参考序列草图。因为裸子植物的线粒体基因通常会大量转移到核基因组,所以用Hybpiper流程来抓取线粒体reads组装线粒体基因组参考序列更合适,Hybpiper的流程可以通过深度不同来甄别线粒体的拷贝和核基因的拷贝,线粒体自身的基因拷贝深度较高,而核基因组转移的线粒体基因拷贝其深度较浅,且具有明显差异。对这条序列草图用Geneious的ANNOTATE功能用已知的高质量银杏线粒体基因组的蛋白质编码基因进行注释,得到了注释完成的裸子植物的线粒体参考基因组。
将线粒体基因组参考序列用SAMTOOLS建立索引,采用BOWTIE2将基因组测序数据比对到该参考序列上,采用TOPHAT2将转录组测序数据比对到该参考序列上。比对之后生成BAM比对文件,用SAMTOOLS对其进行排序,并过滤掉未比对上的reads,重复reads,和未配对的reads。为了保证比对的转录组测序数据来源于成熟的mRNA,剔除编辑未完全的转录本,TOPHAT2 的比对参数中罚分设置为-4,gap open 值设置为50,gap extend 设置为50。
对于排序后的BAM比对文件,用BCFTOOLS分别提取DNA比对数据和RNA比对数据中的单核苷酸多态性位点,然后用自编脚本提取单碱基变异位点。由于DNA的单核苷酸多态性位点反应了基因组水平的变异,不是真实的RNA编辑位点,因此需要从RNA比对数据得到的单核苷酸多态性位点数据中过滤掉DNA比对数据得到的单核苷酸多态性位点,获得真正的RNA水平的编辑位点原始数据。
对RNA编辑位点原始数据采用reads的深度>10×、编辑效率>5%进行过滤,获得高质量的RNA编辑位点。在命令行终端处理RNA编辑位点的注释信息格式,并将RNA编辑位点的注释信息追加到基因组测序数据的注释文件中,在Geneious软件中加载注释后的基因组测序数据,批量提取蛋白质编码基因,得到单基因序列文件,对其应用MAFFT软件采用“--localpair --maxiterate 1000”参数进行批量排列,得到线粒体蛋白质编码基因的单基因矩阵;然后对每一个单基因矩阵,选择所有的比对子序列,用ANNOTATE功能将注释信息全部转移到参考物种银杏的对应序列上;接着提取单基因矩阵中所有银杏的基因序列,此时银杏的基因序列上已经包含了所有裸子植物线粒体的RNA编辑位点信息(共计11486个编辑位点);合并输出银杏的线粒体基因组的所有蛋白质编码基因序列及其注释信息,在linux终端对蛋白质编码基因序列出现单个核苷酸上注释了多个RNA编辑位点的情况只保留一个进行去冗余,得到包含2537个RNA编辑位点信息的gff3格式的裸子植物线粒体的RNA编辑位点数据库。本实施例的裸子植物线粒体的RNA编辑位点数据收录了所有裸子植物中已知的线粒体蛋白质编码基因的RNA编辑位点信息,有利于研究和利用裸子植物RNA编辑位点的系统规律和编辑机制。
本实施例通过植物RNA编辑位点的检测方法对属级取样的46个裸子植物的RNA编辑位点进行检测,检测结果如表1所示,共获得11486个位点,平均每个物种~250个RNA编辑位点。
表1 46种裸子植物的RNA编辑位点数量
类群ID RNA编辑位点数量
74301 Pinopsida Cupressales Cupressaceae Callitropsis funebris 234
99814 Pinopsida Cupressales Cupressaceae Xanthocyparis vietnamensis 223
453927 Pinopsida Cupressales Cupressaceae Juniperus formosana 260
103965 Pinopsida Cupressales Cupressaceae Calocedrus macrolepis 201
58046 Pinopsida Cupressales Cupressaceae Platycladus orientalis 271
89191 Pinopsida Cupressales Cupressaceae Chamaecyparis hodginsii 197
307274 Pinopsida Cupressales Cupressaceae Thuja sutchuenensis 208
13727 Pinopsida Cupressales Cupressaceae Thujopsis dolabrata 112
3369 Pinopsida Cupressales Cupressaceae Cryptomeria japonica 232
28982 Pinopsida Cupressales Cupressaceae Taxodium distichum 221
28980 Pinopsida Cupressales Cupressaceae Sequoia sempervirens 234
99814 Pinopsida Cupressales Cupressaceae Sequoiadendron giganteum 282
3371 Pinopsida Cupressales Cupressaceae Metasequoia glyptostroboides 213
50187 Pinopsida Cupressales Cupressaceae Taiwania cryptomerioides 212
28977 Pinopsida Cupressales Cupressaceae Cunninghamia lanceolata 213
25625 Pinopsida Cupressales Taxaceae Amentotaxus argotaenia 186
58047 Pinopsida Cupressales Taxaceae Torreya grandis 183
29808 Pinopsida Cupressales Taxaceae Taxus chinensis 189
89484 Pinopsida Cupressales Taxaceae Cephalotaxus sinensis 222
50181 Pinopsida Araucariales Podocarpaceae Dacrycarpus imbricatus 138
191702 Pinopsida Araucariales Podocarpaceae Dacrydium elatum 190
165205 Pinopsida Araucariales Podocarpaceae Afrocarpus gracilior 208
120634 Pinopsida Araucariales Podocarpaceae Prumnopitys andina 217
56994 Pinopsida Araucariales Araucariaceae Araucaria cunninghamii 198
3377 Gnetopsida Welwitschiales Welwitschiaceae Welwitschia mirabilis 11
3381 Gnetopsida Gnetales Gnetaceae Gnetum montanum 114
173280 Gnetopsida Ephedrales Ephedraceae Ephedra equisetina 23
123601 Pinopsida Pinales Pinaceae Nothotsuga longibracteata 301
71407 Pinopsida Pinales Pinaceae Pseudotsuga sinensis 262
675088 Pinopsida Pinales Pinaceae Keteleeria fortunei 366
1045218 Pinopsida Pinales Pinaceae Abies recurvata var. ernestii 332
3355 Pinopsida Pinales Pinaceae Pseudolarix amabilis 329
3322 Pinopsida Pinales Pinaceae Cedrus deodara 308
64686 Pinopsida Pinales Pinaceae Cathaya argyrophylla 355
308677 Pinopsida Pinales Pinaceae Picea likiangensis 274
179211 Cycadopsida Cycadales Zamiaceae Encephalartos longifolius 418
257623 Cycadopsida Cycadales Zamiaceae Lepidozamia peroffskyana 314
1115392 Cycadopsida Cycadales Zamiaceae Macrozamia johnsonii 335
13365 Cycadopsida Cycadales Cycadaceae Bowenia serrulata 366
171009 Cycadopsida Cycadales Zamiaceae Ceratozamia hildae 339
34343 Cycadopsida Cycadales Zamiaceae Stangeria eriopus 388
115879 Cycadopsida Cycadales Zamiaceae Microcycas calocoma 342
42329 Cycadopsida Cycadales Zamiaceae Zamia furfuracea 359
414532 Cycadopsida Cycadales Zamiaceae Dioon caputoi 304
1115364 Cycadopsida Cycadales Cycadaceae Cycas chevalieri 336
3311 Ginkgoopsida Ginkgoales Ginkgoaceae Ginkgo biloba 266
根据RNA编辑位点信息对基因组数据进行注释、排列比对、合并去冗余,获得了裸子植物线粒体基因组40个蛋白质编码基因的RNA编辑位点数据库。RNA编辑位点数据库中的RNA编辑位点数量如图2所示,统计获得了2537个RNA编辑位点,RNA编辑位点覆盖率达到了蛋白质编码基因序列总长(34473 bp)的7.5%。
本实施例中蛋白质atp1编码基因对应的核苷酸序列如SEQ ID NO.1所示,蛋白质atp1编码基因对应的RNA编辑位点的注释信息如下:
atp1 Geneious misc_feature 4 4 100.0 . . Name=RNA editing
atp1 Geneious misc_feature 5 5 100.0 . . Name=RNA editing
atp1 Geneious misc_feature 8 8 20.85 . . Name=RNA editing
atp1 Geneious misc_feature 9 9 80.0 . . Name=RNA editing
atp1 Geneious misc_feature 12 12 84.2 . . Name=RNA editing
atp1 Geneious misc_feature 15 15 41.74 . . Name=RNA editing
atp1 Geneious misc_feature 29 29 27.75 . . Name=RNA editing
atp1 Geneious misc_feature 38 38 73.45 . . Name=RNA editing
atp1 Geneious misc_feature 41 41 20.6 . . Name=RNA editing
atp1 Geneious misc_feature 61 61 27.45 . . Name=RNA editing
atp1 Geneious misc_feature 69 69 33.0 . . Name=RNA editing
atp1 Geneious misc_feature 74 74 19.94 . . Name=RNA editing
atp1 Geneious misc_feature 103 103 63.43 . . Name=RNA editing
atp1 Geneious misc_feature 108 108 23.9 . . Name=RNA editing
atp1 Geneious misc_feature 137 137 31.57 . . Name=RNA editing
atp1 Geneious misc_feature 147 147 81.54 . . Name=RNA editing
atp1 Geneious misc_feature 148 148 86.52 . . Name=RNA editing
atp1 Geneious misc_feature 167 167 17.39 . . Name=RNA editing
atp1 Geneious misc_feature 203 203 81.46 . . Name=RNA editing
atp1 Geneious misc_feature 204 204 93.72 . . Name=RNA editing
atp1 Geneious misc_feature 222 222 70.46 . . Name=RNA editing
atp1 Geneious misc_feature 233 233 88.81 . . Name=RNA editing
atp1 Geneious misc_feature 249 249 99.57 . . Name=RNA editing
atp1 Geneious misc_feature 274 274 60.0 . . Name=RNA editing
atp1 Geneious misc_feature 317 317 97.41 . . Name=RNA editing
atp1 Geneious misc_feature 365 365 97.26 . . Name=RNA editing
atp1 Geneious misc_feature 374 374 88.89 . . Name=RNA editing
atp1 Geneious misc_feature 378 378 26.43 . . Name=RNA editing
atp1 Geneious misc_feature 388 388 100.0 . . Name=RNA editing
atp1 Geneious misc_feature 409 409 100.0 . . Name=RNA editing
atp1 Geneious misc_feature 419 419 100.0 . . Name=RNA editing
atp1 Geneious misc_feature 440 440 42.86 . . Name=RNA editing
atp1 Geneious misc_feature 443 443 94.87 . . Name=RNA editing
atp1 Geneious misc_feature 455 455 96.0 . . Name=RNA editing
atp1 Geneious misc_feature 473 473 78.14 . . Name=RNA editing
atp1 Geneious misc_feature 481 481 100.0 . . Name=RNA editing
atp1 Geneious misc_feature 503 503 95.08 . . Name=RNA editing
atp1 Geneious misc_feature 526 526 44.44 . . Name=RNA editing
atp1 Geneious misc_feature 551 551 38.52 . . Name=RNA editing
atp1 Geneious misc_feature 557 557 94.78 . . Name=RNA editing
atp1 Geneious misc_feature 610 610 52.43 . . Name=RNA editing
atp1 Geneious misc_feature 616 616 21.03 . . Name=RNA editing
atp1 Geneious misc_feature 647 647 36.25 . . Name=RNA editing
atp1 Geneious misc_feature 656 656 98.17 . . Name=RNA editing
atp1 Geneious misc_feature 668 668 51.99 . . Name=RNA editing
atp1 Geneious misc_feature 670 670 59.14 . . Name=RNA editing
atp1 Geneious misc_feature 686 686 12.5 . . Name=RNA editing
atp1 Geneious misc_feature 694 694 25.19 . . Name=RNA editing
atp1 Geneious misc_feature 701 701 99.89 . . Name=RNA editing
atp1 Geneious misc_feature 702 702 23.06 . . Name=RNA editing
atp1 Geneious misc_feature 734 734 . . . Name=RNA editing
atp1 Geneious misc_feature 743 743 36.44 . . Name=RNA editing
atp1 Geneious misc_feature 745 745 83.33 . . Name=RNA editing
atp1 Geneious misc_feature 754 754 15.58 . . Name=RNA editing
atp1 Geneious misc_feature 776 776 80.0 . . Name=RNA editing
atp1 Geneious misc_feature 779 779 33.07 . . Name=RNA editing
atp1 Geneious misc_feature 803 803 58.21 . . Name=RNA editing
atp1 Geneious misc_feature 810 810 91.63 . . Name=RNA editing
atp1 Geneious misc_feature 821 821 17.33 . . Name=RNA editing
atp1 Geneious misc_feature 860 860 30.61 . . Name=RNA editing
atp1 Geneious misc_feature 863 863 63.16 . . Name=RNA editing
atp1 Geneious misc_feature 881 881 99.26 . . Name=RNA editing
atp1 Geneious misc_feature 890 890 97.28 . . Name=RNA editing
atp1 Geneious misc_feature 904 904 32.35 . . Name=RNA editing
atp1 Geneious misc_feature 905 905 82.38 . . Name=RNA editing
atp1 Geneious misc_feature 911 911 43.95 . . Name=RNA editing
atp1 Geneious misc_feature 916 916 94.11 . . Name=RNA editing
atp1 Geneious misc_feature 918 918 19.6 . . Name=RNA editing
atp1 Geneious misc_feature 923 923 97.82 . . Name=RNA editing
atp1 Geneious misc_feature 926 926 76.17 . . Name=RNA editing
atp1 Geneious misc_feature 1022 1022 96.59 . . Name=RNA editing
atp1 Geneious misc_feature 1039 1039 30.95 . . Name=RNA editing
atp1 Geneious misc_feature 1044 1044 17.91 . . Name=RNA editing
atp1 Geneious misc_feature 1060 1060 42.86 . . Name=RNA editing
atp1 Geneious misc_feature 1064 1064 30.26 . . Name=RNA editing
atp1 Geneious misc_feature 1065 1065 56.35 . . Name=RNA editing
atp1 Geneious misc_feature 1067 1067 92.15 . . Name=RNA editing
atp1 Geneious misc_feature 1081 1081 21.05 . . Name=RNA editing
atp1 Geneious misc_feature 1110 1110 . . . Name=RNA editing
atp1 Geneious misc_feature 1117 1117 18.97 . . Name=RNA editing
atp1 Geneious misc_feature 1139 1139 25.0 . . Name=RNA editing
atp1 Geneious misc_feature 1148 1148 97.12 . . Name=RNA editing
atp1 Geneious misc_feature 1168 1168 . . . Name=RNA editing
atp1 Geneious misc_feature 1173 1173 . . . Name=RNA editing
atp1 Geneious misc_feature 1178 1178 . . . Name=RNA editing
atp1 Geneious misc_feature 1184 1184 . . . Name=RNA editing
atp1 Geneious misc_feature 1190 1190 . . . Name=RNA editing
atp1 Geneious misc_feature 1217 1217 60.0 . . Name=RNA editing
atp1 Geneious misc_feature 1226 1226 32.95 . . Name=RNA editing
atp1 Geneious misc_feature 1238 1238 11.76 . . Name=RNA editing
atp1 Geneious misc_feature 1252 1252 13.64 . . Name=RNA editing
atp1 Geneious misc_feature 1259 1259 22.94 . . Name=RNA editing
atp1 Geneious misc_feature 1262 1262 30.15 . . Name=RNA editing
atp1 Geneious misc_feature 1292 1292 13.0 . . Name=RNA editing
atp1 Geneious misc_feature 1309 1309 14.71 . . Name=RNA editing
atp1 Geneious misc_feature 1316 1316 23.78 . . Name=RNA editing
atp1 Geneious misc_feature 1337 1337 26.09 . . Name=RNA editing
atp1 Geneious misc_feature 1343 1343 55.83 . . Name=RNA editing
atp1 Geneious misc_feature 1345 1345 45.83 . . Name=RNA editing
atp1 Geneious misc_feature 1366 1366 58.0 . . Name=RNA editing
atp1 Geneious misc_feature 1397 1397 82.96 . . Name=RNA editing
atp1 Geneious misc_feature 1415 1415 91.91 . . Name=RNA editing
atp1 Geneious misc_feature 1424 1424 52.74 . . Name=RNA editing
atp1 Geneious misc_feature 1436 1436 97.5 . . Name=RNA editing
atp1 Geneious misc_feature 1451 1451 30.43 . . Name=RNA editing
atp1 Geneious misc_feature 1473 1473 100.0 . . Name=RNA editing
atp1 Geneious misc_feature 1490 1490 97.1 . . Name=RNA editing
atp1 Geneious misc_feature 1498 1498 20.21 . . Name=RNA editing
atp1 Geneious misc_feature 1499 1499 41.03 . . Name=RNA editing
atp1 Geneious misc_feature 1500 1500 79.54 . . Name=RNA editing
atp1 Geneious misc_feature 1502 1502 97.09 . . Name=RNA editing
atp1 Geneious misc_feature 1520 1520 50.19 . . Name=RNA editing
atp1 Geneious misc_feature 1527 1527 83.54 . . Name=RNA editing
本实施例中蛋白质nad9编码基因对应的核苷酸序列如SEQ ID NO.2所示,蛋白质nad9编码基因对应的RNA编辑位点的注释信息如下:
nad9 Geneious misc_feature 2 2 17.91 . . Name=RNA editing
nad9 Geneious misc_feature 19 19 29.01 . . Name=RNA editing
nad9 Geneious misc_feature 20 20 44.0 . . Name=RNA editing
nad9 Geneious misc_feature 29 29 36.07 . . Name=RNA editing
nad9 Geneious misc_feature 41 41 96.35 . . Name=RNA editing
nad9 Geneious misc_feature 52 52 73.53 . . Name=RNA editing
nad9 Geneious misc_feature 74 74 50.25 . . Name=RNA editing
nad9 Geneious misc_feature 75 75 15.38 . . Name=RNA editing
nad9 Geneious misc_feature 92 92 22.22 . . Name=RNA editing
nad9 Geneious misc_feature 113 113 37.5 . . Name=RNA editing
nad9 Geneious misc_feature 125 125 42.11 . . Name=RNA editing
nad9 Geneious misc_feature 134 134 30.49 . . Name=RNA editing
nad9 Geneious misc_feature 158 158 21.05 . . Name=RNA editing
nad9 Geneious misc_feature 167 167 21.74 . . Name=RNA editing
nad9 Geneious misc_feature 178 178 38.89 . . Name=RNA editing
nad9 Geneious misc_feature 195 195 15.38 . . Name=RNA editing
nad9 Geneious misc_feature 214 214 18.69 . . Name=RNA editing
nad9 Geneious misc_feature 218 218 22.22 . . Name=RNA editing
nad9 Geneious misc_feature 223 223 31.12 . . Name=RNA editing
nad9 Geneious misc_feature 230 230 20.0 . . Name=RNA editing
nad9 Geneious misc_feature 233 233 15.9 . . Name=RNA editing
nad9 Geneious misc_feature 250 250 15.0 . . Name=RNA editing
nad9 Geneious misc_feature 271 271 23.53 . . Name=RNA editing
nad9 Geneious misc_feature 298 298 60.0 . . Name=RNA editing
nad9 Geneious misc_feature 311 311 24.68 . . Name=RNA editing
nad9 Geneious misc_feature 328 328 52.63 . . Name=RNA editing
nad9 Geneious misc_feature 356 356 19.23 . . Name=RNA editing
nad9 Geneious misc_feature 368 368 62.77 . . Name=RNA editing
nad9 Geneious misc_feature 398 398 24.91 . . Name=RNA editing
nad9 Geneious misc_feature 406 406 44.83 . . Name=RNA editing
nad9 Geneious misc_feature 413 413 64.04 . . Name=RNA editing
nad9 Geneious misc_feature 440 440 98.71 . . Name=RNA editing
nad9 Geneious misc_feature 478 478 90.2 . . Name=RNA editing
nad9 Geneious misc_feature 491 491 87.96 . . Name=RNA editing
nad9 Geneious misc_feature 517 517 84.11 . . Name=RNA editing
nad9 Geneious misc_feature 524 524 53.27 . . Name=RNA editing
nad9 Geneious misc_feature 526 526 85.89 . . Name=RNA editing
nad9 Geneious misc_feature 533 533 40.0 . . Name=RNA editing
nad9 Geneious misc_feature 534 534 71.33 . . Name=RNA editing
nad9 Geneious misc_feature 550 550 92.92 . . Name=RNA editing
本实施例中蛋白质sdh4编码基因对应的核苷酸序列如SEQ ID NO.3所示,蛋白质sdh4编码基因对应的RNA编辑位点的注释信息如下:
sdh4 Geneious misc_feature 8 8 . . . Name=RNA editing
sdh4 Geneious misc_feature 29 29 . . . Name=RNA editing
sdh4 Geneious misc_feature 33 33 . . . Name=RNA editing
sdh4 Geneious misc_feature 36 36 . . . Name=RNA editing
sdh4 Geneious misc_feature 39 39 . . . Name=RNA editing
sdh4 Geneious misc_feature 42 42 . . . Name=RNA editing
sdh4 Geneious misc_feature 47 47 . . . Name=RNA editing
其中,蛋白质atp1编码基因对应的核苷酸序列共包含1527个核苷酸位点,根据RNA编辑位点的注释信息可知核苷酸序列在转录翻译蛋白质过程中发生RNA编辑现象的核苷酸位点,蛋白质atp1编码基因对应的核苷酸序列存在113个RNA编辑位点,即蛋白质atp1基因的编码序列上约有7.4%的位点在不同的裸子植物中发生了RNA编辑。注释信息“atp1Geneious misc_feature 4 4 100.0 . . Name=RNA editing”表明蛋白质atp1编码基因对应的核苷酸序列的第4位为RNA编辑位点,RNA编辑效率为100.0%。对nad9和sdh4等蛋白质编码基因进行同样的方法处理,裸子植物线粒体基因组的蛋白质编码基因中不同物种之间包含的RNA编辑位点是不同的,本实施例将裸子植物线粒体基因组的RNA编辑位点合并到参考物种银杏的对应基因序列进行去冗余,获得了包括atp1、nad9和sdh4在内的共40个蛋白质编码基因的RNA编辑位点数据库,共包含2537个RNA编辑位点。
本发明提供的植物RNA编辑位点的检测方法从取样到获得裸子植物线粒体RNA编辑位点,排除了假阴性数据和假阳性数据,提高了对裸子植物的RNA编辑位点的覆盖全面性和检测准确度;通过对蛋白质编码基因的RNA编辑位点进行注释合并,构建了裸子植物线粒体的RNA编辑位点数据库,覆盖全面的RNA编辑位点数据库有助于提高蛋白质功能分析和进化分析的可靠性。
以上所述实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围,均应包含在本发明的保护范围之内。
序列表
<110> 深圳市仙湖植物园(深圳市园林研究中心)
<120> RNA编辑位点的检测方法
<160> 3
<170> SIPOSequenceListing 1.0
<210> 1
<211> 1527
<212> DNA
<213> Ginkgo biloba
<400> 1
acgaaagtct atcccagagc tgcggaactc actactatat caggaggaag aattaccaac 60
cattgcacca atttacaagt tgatgagatc ggtcgagtgg tcccagtcgg agatgggatt 120
gcacgtgttt atggattgaa cgagattcaa gctggggaaa tggttgaatt tgccagcggt 180
gtgaaaggaa tagcgctgaa tcttgaggat gagaatgtag gtattgttgt atttggtagt 240
gataccgcca ttaaagaagg agatctcgtc aagcgcactg gatctattgt ggatgttcct 300
gtgggaaagg ccatgttagg tcgtgtggtc gatgcgttgg gagtacctat tgatggaaaa 360
ggggcttcaa gcgatcacga acgaagacgt gtcgaagcga aagcccctgg gattattgaa 420
cgtaaatctg tgcacgaacc tatgcaaaca gggttaaaag cagtggatag cctggttcct 480
ataggccgtg gtcaacgaga actgataatc ggggaccgac aaactgggaa aaccgctata 540
gctatcgata tcatattgaa ccagaagcga atgaactcaa agggcacctc tgatagtgaa 600
aaattgtatt gcgtctatgt agcgattgga cagaaacgct cgaccgtggc acaattggtt 660
caaattattt cggaagcgga tgctttggaa tattccatta tcgtagcagc caccgcttcg 720
gatcctgctc ctccgcaatt tctggcccca tattccgggt gtgctatggg agaatatttc 780
cgcgataatg gaatgcacgc attaataatc tatgatgatc ttagtaaaca ggcggtggca 840
tatcgacaaa tgtcattatt gctacgccga ccaccaggcc gtgaggcttt cccaggggat 900
gttttctatt tacattcccg tctattggaa agagccgcta aacgatcgga ccagacaggt 960
gcgggtagct tgaccgcgtt acccgtcatt gaaacacaag ctggagacgt gtcggcctat 1020
atccctacca atgtgatctc cattacagat ggacagatct gtttggaaac agagctcttt 1080
tatcgcggaa ttagacctgc tattaacgtc ggcttatctg tcagtcgcgt cgggtctgcc 1140
gctcagttga aagctatgaa acaagtacgt ggcagttcaa aaccagaatc ggcacaatat 1200
cgtgaagtgg ccgcctctgc tcaatttggg tcagaccttg atgctgctac tcaggcacca 1260
tcaaatagag gtgctaggct tactgaagtt ccgaaacaac cgcaatatcc accacctcct 1320
attgagaaac aaattctagt tattcatgca gctgtaaaag ggttttgtga tcgaatgcca 1380
ctagacagaa tttctcgata tgagagagcc atttcaagta gtatagatcc cgaatcacta 1440
caatccgttc cggaaaaagg tgagttaact aacgaaatag agatgaaact agatgctttt 1500
tcaaagggaa gcgttaacct ctgctga 1527
<210> 2
<211> 594
<212> DNA
<213> Ginkgo biloba
<400> 2
acggataacc aattaattct caaatatcca agagagactt cacccaataa atgggtacat 60
aaaatggaaa gatcggaaca cgagaatata tcatatacca atacggacta cccatttcaa 120
ttgttatggt ctccgaaata tcatacctat acgcgttctc aagtttcgat cgatattcgc 180
ggagttgatt atccctctcg aaaacgaaga tttgaagtgg ttcataattc accaagtact 240
cggtataacc cacgcattcg tgtacaaacc agtgtagacg aaataacacg aatatctccg 300
gtagtaagtc catctccatc agccggccgg tgggagcgag aagtatggga tacgtccggt 360
gtttatctca tcaatcatcc ggatctacgc cgtgtattaa cagattatgg tttcgagggt 420
catccatcac gaaaagactt ccctctgagt ggatacgtgg aagtacgcta tgatgatccg 480
gagaaacgtg tggtttctga accaattgag atgacccaag aatttcgcta ttctgatttt 540
gctagtcctt gggaacaaat ggcgcgtagc gacggatcgg ataatgaaga atag 594
<210> 3
<211> 396
<212> DNA
<213> Ginkgo biloba
<400> 3
atggtaccgg catttcgtag acgtggttcg gtcatcccca tctgtcccta tctattggtg 60
gggaggtcta tgaagggacg aacaagtgga ttgagaaatg aaagctcgga gacaaagaga 120
accgggcttt tccgaagaat tactgctgct tccccacccc ctttgattat catatcgaaa 180
gtttcttcca cttctccacc aaatatctat ttattccggc atattgatgt agggatcgga 240
gagattacgg cagatcatgt tcaccaagaa atgacccgaa attggatcct aatctatccg 300
ggatcgttcc ttttaatcgt aataaaagat gctttcctgt ctttcgctta ttttccgaac 360
aaatggaata acccaatgga tcgaaccaat ccttga 396

Claims (10)

1.一种植物RNA编辑位点的检测方法,其特征在于,包括:
获取裸子植物类群的样本,对所述样本进行测序,获得基因组测序数据、转录组测序数据;
对所述基因组测序数据进行组装、注释,获得线粒体参考基因组;
将所述基因组测序数据比对到所述线粒体参考基因组上,获得DNA比对数据,将所述转录组测序数据比对到所述线粒体参考基因组上,获得RNA比对数据;
提取所述DNA比对数据中的单核苷酸多态性位点,获得第一变异位点数据,提取所述RNA比对数据中的单核苷酸多态性位点,获得第二变异位点数据,从所述第二变异位点数据去除与所述第一变异位点数据重复的数据,获得RNA编辑位点原始数据;
对所述RNA编辑位点原始数据进行过滤,获得RNA编辑位点,获取所述基因组测序数据的蛋白质编码基因,根据所述RNA编辑位点的注释信息对所述蛋白质编码基因进行注释、合并,获得RNA编辑位点数据库。
2.根据权利要求1所述的植物RNA编辑位点的检测方法,其特征在于,所述对所述样本进行测序,获得基因组测序数据、转录组测序数据,包括:
获取裸子植物类群的样本,对所述样本进行DNA测序,获得DNA原始测序数据;对所述样本进行RNA测序,获得RNA原始测序数据;
对所述DNA原始测序数据进行过滤,获得所述基因组测序数据;对所述RNA原始测序数据进行过滤,获得所述转录组测序数据。
3.根据权利要求2所述的植物RNA编辑位点的检测方法,其特征在于,所述对所述样本进行DNA测序获得DNA原始测序数据,包括:
提取所述样本的DNA,根据所述DNA进行文库构建,获得DNA短片段文库;
对所述DNA短片段文库进行双端测序,获得所述DNA原始测序数据。
4.根据权利要求2所述的植物RNA编辑位点的检测方法,其特征在于,所述DNA测序的测序深度为5×~10×。
5.根据权利要求2所述的植物RNA编辑位点的检测方法,其特征在于,所述对所述样本进行RNA测序获得RNA原始测序数据,包括:
提取所述样本的RNA,将所述RNA去除rRNA后,通过随机引物反转录获得cDNA;
根据所述cDNA进行文库构建,获得lncRNA文库;
对所述lncRNA文库进行测序,获得所述RNA原始测序数据。
6.根据权利要求2所述的植物RNA编辑位点的检测方法,其特征在于,所述对所述DNA原始测序数据进行过滤,获得所述基因组测序数据;对所述RNA原始测序数据进行过滤,获得所述转录组测序数据,包括:
获取DNA原始测序数据,过滤所述DNA原始测序数据中的接头序列数据和低质量测序数据,获得基因组测序数据;
获取RNA原始测序数据,过滤所述RNA原始测序数据中的接头序列数据和低质量测序数据,获得转录组测序数据。
7.根据权利要求6所述的植物RNA编辑位点的检测方法,其特征在于,所述低质量测序数据为质量值小于10的测序数据。
8.根据权利要求1所述的植物RNA编辑位点的检测方法,其特征在于,所述对所述基因组测序数据进行组装、注释,获得线粒体参考基因组,包括:
获取诱饵序列,根据所述诱饵序列对所述基因组测序数据进行抓取,获得线粒体基因组测序数据;
对所述线粒体基因组测序数据进行组装、拼接,获得线粒体基因组长序列;
利用空白序列将所述线粒体基因组长序列进行间隔、连接后,根据所述诱饵序列的蛋白质编码基因进行注释,获得所述线粒体参考基因组。
9.根据权利要求1所述的植物RNA编辑位点的检测方法,其特征在于,所述对所述RNA编辑位点原始数据进行过滤的编辑位点序列深度>10×,编辑效率>5%。
10.根据权利要求1所述的植物RNA编辑位点的检测方法,其特征在于,所述获取所述基因组测序数据的蛋白质编码基因,根据所述RNA编辑位点的注释信息对所述蛋白质编码基因进行注释、合并,获得RNA编辑位点数据库,包括:
获取所述基因组测序数据的蛋白质编码基因,根据所述RNA编辑位点的注释信息对所述蛋白质编码基因进行注释、提取,获得线粒体蛋白质编码基因的单基因矩阵;
获取参考物种的比对序列,根据所述比对序列将所述注释信息进行转移后,提取所述单基因矩阵中的参考物种基因序列,获得参考物种蛋白质编码基因序列;
对所述参考物种蛋白质编码基因序列进行合并,对所述注释信息进行去冗余,获得RNA编辑位点数据库。
CN202210428220.9A 2022-04-22 2022-04-22 植物rna编辑位点的检测方法 Pending CN114974425A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210428220.9A CN114974425A (zh) 2022-04-22 2022-04-22 植物rna编辑位点的检测方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210428220.9A CN114974425A (zh) 2022-04-22 2022-04-22 植物rna编辑位点的检测方法

Publications (1)

Publication Number Publication Date
CN114974425A true CN114974425A (zh) 2022-08-30

Family

ID=82979173

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210428220.9A Pending CN114974425A (zh) 2022-04-22 2022-04-22 植物rna编辑位点的检测方法

Country Status (1)

Country Link
CN (1) CN114974425A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116312776A (zh) * 2022-12-08 2023-06-23 上海生物制品研究所有限责任公司 一种检测差异化rna编辑位点的方法

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116312776A (zh) * 2022-12-08 2023-06-23 上海生物制品研究所有限责任公司 一种检测差异化rna编辑位点的方法
CN116312776B (zh) * 2022-12-08 2024-01-19 上海生物制品研究所有限责任公司 一种检测差异化rna编辑位点的方法

Similar Documents

Publication Publication Date Title
JP6830496B2 (ja) 遺伝子突然変異を検出するマルチポジショニングダブルタグアダプターセット、及びその調製方法と応用
Rastas et al. Construction of ultradense linkage maps with Lep-MAP2: stickleback F 2 recombinant crosses as an example
Bachy et al. Accuracy of protist diversity assessments: morphology compared with cloning and direct pyrosequencing of 18S rRNA genes and ITS regions using the conspicuous tintinnid ciliates as a case study
Sullivan et al. The mitogenome of Norway spruce and a reappraisal of mitochondrial recombination in plants
Sucher et al. DNA fingerprinting, DNA barcoding, and next generation sequencing technology in plants
US11047002B2 (en) Sequencing process
Ma et al. Rapid sequencing of the bamboo mitochondrial genome using Illumina technology and parallel episodic evolution of organelle genomes in grasses
US20230074210A1 (en) Methods for removal of adaptor dimers from nucleic acid sequencing preparations
CN109234442B (zh) 一种与绵羊多羔性状相关的snp分子标记及其检测试剂盒和应用
JP2017099400A (ja) 核酸分子数計測法
Jespersen et al. Impact of genome reduction in microsporidia
CN114974425A (zh) 植物rna编辑位点的检测方法
AU2020102035A4 (en) A kind of lentil kasp marker based on rna-seq and its application
CN107365840B (zh) 基于dna条形码的鹿科动物快速鉴定试剂盒及其应用
Wang et al. Further analyses on the evolutionary “key‐protist” Halteria (Protista, Ciliophora) based on transcriptomic data
CN107002150B (zh) 一种dna合成产物的高通量检测方法
CN114717330B (zh) 与绵羊单胎产羔数相关的snp分子标记、引物组、试剂盒及检测方法和应用
CN111094587A (zh) 转座酶组合物、制备方法和筛选方法
Calcino et al. Heteroplasmy and repeat expansion in the plant-like mitochondrial genome of a bivalve mollusc
Bellec et al. Long read sequencing technology to solve complex genomic regions assembly in plants
Imai et al. The molecular clock in long-lived tropical trees is independent of growth rate
Heintzman et al. Paleogenomics
Freedman et al. Rethinking eco‐evo studies of gene expression for non‐model organisms in the genomic era
CN114672574B (zh) 与绵羊单胎产羔数相关的snp分子标记、引物组、试剂盒及检测方法和应用
CN115961054B (zh) 用于华南虎个体识别和/或亲子鉴定的遗传标记及应用

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination