CN111028885B - 一种检测牦牛rna编辑位点的方法及装置 - Google Patents

一种检测牦牛rna编辑位点的方法及装置 Download PDF

Info

Publication number
CN111028885B
CN111028885B CN201911413840.XA CN201911413840A CN111028885B CN 111028885 B CN111028885 B CN 111028885B CN 201911413840 A CN201911413840 A CN 201911413840A CN 111028885 B CN111028885 B CN 111028885B
Authority
CN
China
Prior art keywords
rna
sample
detected
cdna
rna editing
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201911413840.XA
Other languages
English (en)
Other versions
CN111028885A (zh
Inventor
王嘉博
钟金城
柴志欣
王吉坤
王会
武志娟
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Southwest Minzu University
Original Assignee
Southwest Minzu University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Southwest Minzu University filed Critical Southwest Minzu University
Priority to CN201911413840.XA priority Critical patent/CN111028885B/zh
Publication of CN111028885A publication Critical patent/CN111028885A/zh
Application granted granted Critical
Publication of CN111028885B publication Critical patent/CN111028885B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B20/00ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
    • G16B20/30Detection of binding sites or motifs
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B25/00ICT specially adapted for hybridisation; ICT specially adapted for gene or protein expression
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B30/00ICT specially adapted for sequence analysis involving nucleotides or amino acids
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02ATECHNOLOGIES FOR ADAPTATION TO CLIMATE CHANGE
    • Y02A90/00Technologies having an indirect contribution to adaptation to climate change
    • Y02A90/10Information and communication technologies [ICT] supporting adaptation to climate change, e.g. for weather forecasting or climate simulation

Landscapes

  • Life Sciences & Earth Sciences (AREA)
  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Engineering & Computer Science (AREA)
  • Biotechnology (AREA)
  • Evolutionary Biology (AREA)
  • Biophysics (AREA)
  • Theoretical Computer Science (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Medical Informatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Chemical & Material Sciences (AREA)
  • Proteomics, Peptides & Aminoacids (AREA)
  • Analytical Chemistry (AREA)
  • Genetics & Genomics (AREA)
  • Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)

Abstract

本发明适用于牦牛基因功能挖掘技术领域,提供了一种检测牦牛RNA编辑位点的方法及装置,该检测方法包括以下步骤:获取待测样品的RNA,并去除待测样品的RNA中的rRNA;将剩余的RNA转录成cDNA,并对cDNA进行高通量测序,获得RNA‑seq数据;根据RNA‑seq数据对待测样品在不同组织和/或不同环境的cDNA基因型进行鉴定,获得待测样品的cDNA基因型和RNA表达量;根据待测样品的cDNA基因型以及待测样品的RNA表达量,确定待测样品的RNA编辑位点,最后通过RNA编辑位点的蛋白编码能力改变鉴定RNA编辑位点的变异能力,确定有效变异的RNA编辑位点。本发明利用表达量对候选位点进行过滤,使结果更加可信,以排除假阳性位点,提高了预测RNA编辑位点的准确性。

Description

一种检测牦牛RNA编辑位点的方法及装置
技术领域
本发明属于牦牛基因功能挖掘技术领域,尤其涉及一种检测牦牛RNA编辑位点的方法及装置。
背景技术
牦牛是青藏高原独特的大型动物,高原地区人民的生产生活离不开牦牛。因为牦牛独特的高原适应能力,牦牛被称为“高原之舟”,可以适应高海拔、低氧、强紫外线等恶劣的自然环境。通过遗传图谱分析发现,牦牛的基因组与北美野牛亲缘最近,因此推测两个物种最早起源于蒙古和西伯利亚寒冷地区,在地球冰川时期,一支进入青藏高原地区,另一支通过冰冻的白令海峡进入美洲。目前诸多研究表明,牦牛的这种独特的高原适应性在主要来自遗传,也就是脱氧核糖核酸(DeoxyriboNucleic Acid,DNA)和核糖核酸(RibonucleicAcid,RNA)序列中某些特殊基因或者集团。这些基因和集团编码的蛋白构成了多样的生物体,然而深入的基因测序使我们了解到牦牛相对于普通肉牛或者水牛,其基因组结构98%具有相似性,而对于那些差异基因的分析又不能完全解释牦牛独特的生理结构和环境适应性。因此,目前学术界将这些和环境作用的因素归为DNA到RNA的变异。这种变异是由于共同的DNA片段,转录成RNA时,受到某些小RNA的调节,导致转录的RNA出现点突变或者片段突变,这些突变被称为RNA编辑位点(RNA Editing sites,REs)。了解这些REs不仅有助于解释诸多环境和基因互作的关系,还能解释同一个个体不同组织间,功能、结构、发育上的不同,有助于帮助人们了解生物不同组织的发育过程以及功能的特异性。
目前REs的探测主要集中在不同组织的转录组测序技术(RNA-seq)数据分析上,多数方法利用RNA序列与参考基因组比对,通过多个组织或环境下的序列差异找到REs位点,这些方法从原理上解释了REs的发生过程,但是这些方法具有十分高的假阳性,由于测序技术带来的测序错误,会影响RNA-seq数据中许多序列测序的准确性,这就会影响反转录互补脱氧核糖核酸(complementary DNA,cDNA)的准确率。
因此,目前用于检测牦牛中REs的方法存在准确率较低的问题。
发明内容
本发明实施例的目的在于提供一种检测牦牛RNA编辑位点的方法,旨在解决目前用于检测牦牛中REs的方法存在准确率较低的问题。
本发明实施例是这样实现的,一种检测牦牛RNA编辑位点的方法,包括以下步骤:
获取待测样品的RNA,并去除所述待测样品的RNA中的rRNA,获得剩余的RNA;
将所述剩余的RNA转录成cDNA,并对所述cDNA进行高通量测序,获得RNA-seq数据;
基于预设的参考基因组,根据所述RNA-seq数据对所述待测样品在不同组织和/或不同环境的cDNA基因型进行鉴定,获得所述待测样品的cDNA基因型;
基于预设的参考基因组,根据所述RNA-seq数据获取所述待测样品的RNA表达量;
根据所述待测样品的cDNA基因型以及所述待测样品的RNA表达量,确定所述待测样品的RNA编辑位点。
本发明实施例的另一目的在于提供一种检测牦牛RNA编辑位点的装置,其包括:
数据获取单元,用于获取待测样品的RNA-seq数据;
基因型鉴定单元,用于基于预设的参考基因组,根据所述RNA-seq数据对所述待测样品在不同组织和/或不同环境的cDNA基因型进行鉴定,获得所述待测样品的cDNA基因型;
表达量鉴定单元,用于基于预设的参考基因组,根据所述RNA-seq数据获取所述待测样品的RNA表达量;
位点确定单元,用于根据所述待测样品的cDNA基因型以及所述待测样品的RNA表达量,确定所述待测样品的RNA编辑位点。
本发明实施例提供的一种检测牦牛RNA编辑位点的方法,该检测方法包括以下步骤:获取待测序样品的总RNA,并根据牦牛参考基因组中rRNA的数据去除待测样品总RNA中的rRNA;将剩余的RNA反转录成cDNA,随机打断cDNA成片段状并进行高通量测序,获得总的粗数据;通过对粗数据的去重复、一定的质量控制和筛选,最终比对到牦牛参考基因组上,获得不同环境或不同组织上的反转录基因型数据;通过对粗数据进行质量控制和筛选,对比到牦牛参考基因组上,获得在不同环境或组织上的基因表达数据;根据待测样品的反转录基因型以及待测样品的RNA表达量,获得待测样品的候选RNA编辑位点;最后通过RNA编辑位点的蛋白编码能力改变鉴定RNA编辑位点的变异能力,最终确定有效变异的RNA编辑位点。本发明综合反转录基因型和基因表达量,缩小候选RNA编辑位点的范围,并利用编码蛋白能力的改变来推测有效变异,使结果更加可信,以排除假阳性位点,提高了预测RNA编辑位点的准确性。本发明实施例提供的检测方法除了需要参考基因组和RNA-seq数据之外,不需要额外的数据,其在方法应用上给用户带来了很大的方便。另外,本发明实施例从原理上拓展了RNA编辑位点的检测方法,利用表达量对候选位点进行过滤,使结果更加可信,以排除假阳性位点,提高了预测RNA编辑位点的准确性。其中,该RNA编辑位点的检测方法可有效探测组织间和多环境下牦牛的RNA编辑位点,从而可以帮助遗传学者研究基因与环境互作的关系。
附图说明
图1为本发明实施例提供的一种检测牦牛RNA编辑位点的方法的流程图;
图2为本发明实施例提供的步骤S103的流程图;
图3为本发明实施例提供的步骤S104的流程图;
图4为本发明实施例提供的步骤S105的流程图;
图5为本发明实施例提供的另一种检测牦牛RNA编辑位点的方法的流程图;
图6为本发明实施例提供的一种检测牦牛RNA编辑位点的装置的结构框图;
图7为本发明实施例提供的基因型鉴定单元的结构框图;
图8为本发明实施例提供的表达量鉴定单元的结构框图;
图9为本发明实施例提供的位点确定单元的结构框图;
图10为本发明实施例提供的另一种检测牦牛RNA编辑位点的装置的结构框图;
图11为三种方法预测REs编码蛋白能力的文氏图。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
可以理解,本申请所使用的术语“第一”、“第二”等可在本文中用于描述各种元件,但除非特别说明,这些元件不受这些术语限制。这些术语仅用于将第一个元件与另一个元件区分。举例来说,在不脱离本申请的范围的情况下,可以将第一xx脚本称为第二xx脚本,且类似地,可将第二xx脚本称为第一xx脚本。
如附图1所示,图1为本发明实施例提供一种检测牦牛RNA编辑位点的方法的流程图,其包括以下步骤:
步骤S101,获取待测样品的RNA,并去除所述待测样品的RNA中的rRNA,获得剩余的RNA;
步骤S102,将所述剩余的RNA转录成cDNA,并对所述cDNA进行高通量测序,获得RNA-seq数据;
步骤S103,基于预设的参考基因组,根据所述RNA-seq数据对所述待测样品在不同组织和/或不同环境的cDNA基因型进行鉴定,获得所述待测样品的cDNA基因型;
步骤S104,基于预设的参考基因组,根据所述RNA-seq数据获取所述待测样品的RNA表达量;
步骤S105,根据所述待测样品的cDNA基因型以及所述待测样品的RNA表达量,确定所述待测样品的RNA编辑位点。
具体的,在步骤S101和S102中,首先对待测样品进行消毒、收集和总RNA提取,需要说明的是,对于总RNA的提取办法可以采用现有技术,对此没有限制;获得总RNA后,通过参考基因组的核糖体RNA比对,去掉rRNA,其中,牦牛的参考基因组可以采用现有的GCF_000298355.1BosGru v2.0,其可以通过在NCBI网站上下载得到;然后,通过反转录试剂将剩余RNA转录成cDNA,并通过物理手段随机打断成200bp以下的小片段;便可在测序平台对打断得到的小片段进行高通量测序,以获得待测样品的RNA-seq数据。另外,对于RNA-seq数据,还需要根据测序数据质量要求进行数据质量控制,其中具体数据质量要求如下:Q20数据要求大于95%,Q30数据要求大于90%,片段比对率达到95%以上,牦牛数据中GC含量(指牦牛基因数据中AGCT四种碱基GC所占得比例)应达到40%以上。
如附图2所示,作为本发明实施例的一个优选方案,所述基于预设的参考基因组,根据所述RNA-seq数据对所述待测样品在不同组织和/或不同环境的cDNA基因型进行鉴定,获得所述待测样品的cDNA基因型的步骤S103,具体包括:
步骤S201,滤除所述RNA-seq数据中的重复序列,获得滤除后的RNA-seq数据;
步骤S202,将所述滤除后的RNA-seq数据中的序列按照染色体顺序进行排列,生成滤除后的基因组;
步骤S203,将所述滤除后的基因组与所述预设的参考基因组进行比对,生成第一比对数据;
步骤S204,根据所述第一对比数据对所述待测样品在不同组织和/或不同环境的cDNA基因型进行鉴定,获得所述待测样品的cDNA基因型。
具体的,步骤S103的主要是为了快速鉴定同一个个体不同组织或者不同环境下cDNA的基因型。其中,RNA-seq数据转单核苷酸多态性(Single Nucleotide Polymorphism,SNP)基因型时,首先需要去掉重复序列,并且通过samtools软件按照染色体顺序排列生成滤除后的基因组,该基因组可以通过sam和bam文件保存;随后利用预设的牦牛参考基因组(GCF_000298355.1BosGru v2.0)进行基因组比对,生成第一比对数据;最后,根据第一比对数据整理所有组织或环境下cDNA基因型,生成待测样品的cDNA基因型,可以以vcf文件进行保存,其包含不同组织或者不同环境下的cDNA基因型。
如附图3所示,作为本发明实施例的另一个优选方案,所述基于预设的参考基因组,根据所述RNA-seq数据获取所述待测样品的RNA表达量的步骤S104,具体包括:
步骤S301,将所述RNA-seq数据中的基因与所述预设的参考基因组进行比对,生成第二比对数据;
步骤S302,根据所述第二比对数据,计算所述待测样品与所述预设的参考基因组的相对表达量;
步骤S303,根据所述待测样品与所述预设的参考基因组的相对表达量,获得所述待测样品的RNA表达量。
具体的,步骤S104主要用来组装转录本,并计算各个基因的表达量。首先直接将步骤S102获取的RNA-seq数据进行参考基因组比对,参考基因组同样可以采用现有牦牛参考基因组(GCF_000298355.1BosGru v2.0),比对后的结果需要拼装转录本并计算相关表达量,这里可以使用TPM(Transcripts Per Million)进行定义相对表达量,TPM的计算方法为现有技术,在这边就不作详细赘述,该方法可以在保证多样本之间总表达量一致的同时,将基因直接的表达量描述清楚。
如附图4所示,作为本发明实施例的另一个优选方案,所述根据所述待测样品的cDNA基因型以及所述待测样品的RNA表达量,确定所述待测样品的RNA编辑位点的步骤S105,具体包括:
步骤S401,根据所述待测样品的cDNA基因型,滤除所述待测样品中在不同组织和/或不同环境下具有相同的单核苷酸多态性和/或拷贝数变异的位点以及未知基因型的位点,以总体变异率1%作为阈值筛选候选RNA编辑位点,获得第一RNA编辑位点候选群;
步骤S402,基于预设的阈值,根据所述待测样品的RNA表达量滤除所述待测样品中表达不明确的位点,获得第二RNA编辑位点候选群;
步骤S403,根据所述第一RNA编辑位点候选群以及所述第二RNA编辑位点候选群,确定所述待测样品的RNA编辑位点。
其中,在步骤S401中,需要对待测样品的cDNA基因型数据中的单核苷酸多态性和拷贝数变异进行初步滤除,具体的,滤除方法遵循以下原则:过滤掉那些在所有组织或者环境下相同的单核苷酸多态性或者拷贝数变异以及过滤掉那些未知基因型的数据(测序数据基因型会经常出现NA,即缺失的情况,这种情况可能是测序技术还不完善,或者这个位置比较难于探测。这里我们用最严格的方式去掉NA数据,而非其他方法的保留一部分再进行填充);另外,根据输入个体数量确定保留在不同组织或者环境下变异趋势一致的基因型位点,以构成第一RNA编辑位点候选群(比如在三个个体上,三个组织中基因的表达趋势一致的位点需要保留下来,构成第一RNA编辑位点候选群)。
此外,在步骤S402中,实际上是需要保留所有组织样本或者环境下均明确表达的基因位点,即以TPM≥1作为阈值进行过滤,滤除所述待测样品中表达不明确的位点,同时保留在不同个体之间,组织样本或者环境下相对表达量趋势一致的基因位点,即可构成第二RNA编辑位点候选群。其中,第一RNA编辑位点候选群和第二RNA编辑位点候选群的交集,即为所确定的待测样品的RNA编辑位点。
如附图5所示,作为本发明实施例的另一个优选方案,上述RNA编辑位点的检测方法,还包括以下步骤:
步骤S506,基于预设的基因编译蛋白分析方法,对所述待测样品的RNA编辑位点进行分析,判断所述待测样品的RNA编辑位点是否会影响蛋白翻译,以确定待测样品的有效变异的RNA编辑位点。
具体的,步骤S506是用于对RNA编辑位点的功能进行预测和鉴定,其主要通过位点信息将整个基因的外显子从个体基因组数据中提炼出来,通过现有的基因编译蛋白分析法(该方法是基于现有的软件CNCI,CPAT或CPC2实现的)对这些RNA编辑位点进行分析,以判断RNA编辑位点是否会带来蛋白质的改变,同时给这些RNA编辑位点进行评分,其评分标准主要依赖编码蛋白预测软件,这些评分用来评RNA编辑位点是否影响蛋白翻译,以便于为用户下游实验提供参考。参考附图11,该图为CNCI(A)、CPAT(B)和CPC2(C)三种方法预测RNA编辑位点编码蛋白能力的文氏图,其利用CNCI、CPAT和CPC2对牦牛的RNA编辑位点的编码蛋白能力进行预测,其中中间三个方法交集的部分代表这三个方法均预测RNA编辑位点带来了蛋白质翻译的改变。其中428个RNA编辑位点是A-G变异,592个RNA编辑位点是C-T变异,剩余37个RNA编辑位点是缺失变异。这些位点的探测证明了RNA编辑位点具有改变蛋白翻译的作用,同时也为未来RNA编辑提高牦牛生产性能或解决特定遗传疾病,提供了详细的、准确的RNA编辑位点参考。
如附图6所示,本发明实施例还提供了一种检测牦牛RNA编辑位点的装置,其包括:
数据获取单元610,用于获取待测样品的RNA-seq数据;
基因型鉴定单元620,用于基于预设的参考基因组,根据所述RNA-seq数据对所述待测样品在不同组织和/或不同环境的cDNA基因型进行鉴定,获得所述待测样品的cDNA基因型;
表达量鉴定单元630,用于基于预设的参考基因组,根据所述RNA-seq数据获取所述待测样品的RNA表达量;
位点确定单元640,用于根据所述待测样品的cDNA基因型以及所述待测样品的RNA表达量,确定所述待测样品的RNA编辑位点。
如附图7所示,作为本发明实施例的另一个优选方案,所述基因型鉴定单元620包括:
序列滤除模块721,用于滤除所述RNA-seq数据中的重复序列,获得滤除后的RNA-seq数据;
序列排列模块722,用于将所述滤除后的RNA-seq数据中的序列按照染色体顺序进行排列,生成滤除后的基因组;
第一比对模块723,用于将所述滤除后的基因组与所述预设的参考基因组进行比对,生成第一比对数据;
基因型获取模块724,用于根据所述第一对比数据对所述待测样品在不同组织和/或不同环境的cDNA基因型进行鉴定,获得所述待测样品的cDNA基因型。
如附图8所示,作为本发明实施例的另一个优选方案,所述表达量鉴定单元630包括:
第二比对模块831,用于将所述RNA-seq数据中的基因与所述预设的参考基因组进行比对,生成第二比对数据;
相对表达量计算模块832,用于根据所述第二比对数据,计算所述待测样品与所述预设的参考基因组的相对表达量;
表达量获取模块833,用于根据所述待测样品与所述预设的参考基因组的相对表达量,获得所述待测样品的RNA表达量。
如附图9所示,作为本发明实施例的另一个优选方案,所述位点确定单元640包括:
第一位点滤除模块941,用于根据所述待测样品的cDNA基因型,滤除所述待测样品中在不同组织和/或不同环境下具有相同的单核苷酸多态性和/或拷贝数变异的位点以及未知基因型的位点,以总体变异率1%作为阈值筛选候选RNA编辑位点,获得第一RNA编辑位点候选群;
第二位点滤除模块942,用于基于预设的阈值,根据所述待测样品的RNA表达量滤除所述待测样品中表达不明确的位点,获得第二RNA编辑位点候选群;
RNA编辑位点确定模块943,用于根据所述第一RNA编辑位点候选群以及所述第二RNA编辑位点候选群,确定所述待测样品的RNA编辑位点。
如附图9所示,作为本发明实施例的另一个优选方案,上述RNA编辑位点的检测装置,还包括:
位点分析单元1050,用于基于预设的基因编译蛋白分析方法,对所述待测样品的RNA编辑位点进行分析,判断所述待测样品的RNA编辑位点是否会影响蛋白翻译,以确定待测样品的有效变异的RNA编辑位点。
需要说明的是,上述各单元可以实现为一种计算机程序的形式,计算机程序可在计算机设备上运行,计算机设备的存储器中可存储组成各单元中各模块构成的计算机程序使得处理器执行上述RNA编辑位点的检测方法的各个步骤。
在本发明的一个实施例中,提供了一种计算机设备,其包括存储器和处理器,所述的存储器中存储有计算机程序,所述计算机程序被所述处理器执行时,使得所述处理器执行上述RNA编辑位点的检测方法的各个步骤。
在本发明的一个实施例中,提供了一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时,使得所述处理器执行上述RNA编辑位点的检测方法的各个步骤。
应该理解的是,虽然本发明各实施例的流程图中的各个步骤按照箭头的指示依次显示,但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明,这些步骤的执行并没有严格的顺序限制,这些步骤可以以其它的顺序执行。而且,各实施例中的至少一部分步骤可以包括多个子步骤或者多个阶段,这些子步骤或者阶段并不必然是在同一时刻执行完成,而是可以在不同的时刻执行,这些子步骤或者阶段的执行顺序也不必然是依次进行,而是可以与其它步骤或者其它步骤的子步骤或者阶段的至少一部分轮流或者交替地执行。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的程序可存储于一非易失性计算机可读取存储介质中,该程序在执行时,可包括如上述各方法的实施例的流程。其中,本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用,均可包括非易失性和/或易失性存储器。
以上所述实施例仅表达了本发明的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对本发明专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本发明构思的前提下,还可以做出若干变形和改进,这些都属于本发明的保护范围。因此,本发明专利的保护范围应以所附权利要求为准。

Claims (8)

1.一种检测牦牛RNA编辑位点的方法,其特征在于,包括以下步骤:
获取待测样品的RNA,并去除所述待测样品的RNA中的rRNA,获得剩余的RNA;
将所述剩余的RNA转录成cDNA,并对所述cDNA进行高通量测序,获得RNA-seq数据;
基于预设的参考基因组,根据所述RNA-seq数据对所述待测样品在不同组织和/或不同环境的cDNA基因型进行鉴定,获得所述待测样品的cDNA基因型;
基于预设的参考基因组,根据所述RNA-seq数据获取所述待测样品的RNA表达量;
根据所述待测样品的cDNA基因型以及所述待测样品的RNA表达量,确定所述待测样品的RNA编辑位点;
基于预设的基因编译蛋白分析方法,对所述待测样品的RNA编辑位点进行分析,判断所述待测样品的RNA编辑位点是否会影响蛋白翻译,以确定待测样品的有效变异的RNA编辑位点。
2.根据权利要求1所述的一种检测牦牛RNA编辑位点的方法,其特征在于,所述基于预设的参考基因组,根据所述RNA-seq数据对所述待测样品在不同组织和/或不同环境的cDNA基因型进行鉴定,获得所述待测样品的cDNA基因型的步骤,具体包括:
滤除所述RNA-seq数据中的重复序列,获得滤除后的RNA-seq数据;
将所述滤除后的RNA-seq数据中的序列按照染色体顺序进行排列,生成滤除后的基因组;
将所述滤除后的基因组与所述预设的参考基因组进行比对,生成第一比对数据;
根据所述第一对比数据对所述待测样品在不同组织和/或不同环境的cDNA基因型进行鉴定,获得所述待测样品的cDNA基因型。
3.根据权利要求1所述的一种检测牦牛RNA编辑位点的方法,其特征在于,所述基于预设的参考基因组,根据所述RNA-seq数据获取所述待测样品的RNA表达量的步骤,具体包括:
将所述RNA-seq数据中的基因与所述预设的参考基因组进行比对,生成第二比对数据;
根据所述第二比对数据,计算所述待测样品与所述预设的参考基因组的相对表达量;
根据所述待测样品与所述预设的参考基因组的相对表达量,获得所述待测样品的RNA表达量。
4.根据权利要求1所述的一种检测牦牛RNA编辑位点的方法,其特征在于,根据所述待测样品的cDNA基因型以及所述待测样品的RNA表达量,确定所述待测样品的RNA编辑位点的步骤,具体包括:
根据所述待测样品的cDNA基因型,滤除所述待测样品中在不同组织和/或不同环境下具有相同的单核苷酸多态性和/或拷贝数变异的位点以及未知基因型的位点,以总体变异率1%作为阈值筛选候选RNA编辑位点,获得第一RNA编辑位点候选群;
基于预设的阈值,根据所述待测样品的RNA表达量滤除所述待测样品中表达不明确的位点,获得第二RNA编辑位点候选群;
根据所述第一RNA编辑位点候选群以及所述第二RNA编辑位点候选群,确定所述待测样品的RNA编辑位点。
5.一种检测牦牛RNA编辑位点的装置,其特征在于,包括:
数据获取单元,用于获取待测样品的RNA-seq数据;
基因型鉴定单元,用于基于预设的参考基因组,根据所述RNA-seq数据对所述待测样品在不同组织和/或不同环境的cDNA基因型进行鉴定,获得所述待测样品的cDNA基因型;
表达量鉴定单元,用于基于预设的参考基因组,根据所述RNA-seq数据获取所述待测样品的RNA表达量;
位点确定单元,用于根据所述待测样品的cDNA基因型以及所述待测样品的RNA表达量,确定所述待测样品的RNA编辑位点;
位点分析单元,用于基于预设的基因编译蛋白分析方法,对所述待测样品的RNA编辑位点进行分析,判断所述待测样品的RNA编辑位点是否会影响蛋白翻译,以确定待测样品的有效变异的RNA编辑位点。
6.根据权利要求5所述的一种检测牦牛RNA编辑位点的装置,其特征在于,所述基因型鉴定单元包括:
序列滤除模块,用于滤除所述RNA-seq数据中的重复序列,获得滤除后的RNA-seq数据;
序列排列模块,用于将所述滤除后的RNA-seq数据中的序列按照染色体顺序进行排列,生成滤除后的基因组;
第一比对模块,用于将所述滤除后的基因组与所述预设的参考基因组进行比对,生成第一比对数据;
基因型获取模块,用于根据所述第一对比数据对所述待测样品在不同组织和/或不同环境的cDNA基因型进行鉴定,获得所述待测样品的cDNA基因型。
7.根据权利要求5所述的一种检测牦牛RNA编辑位点的装置,其特征在于,所述表达量鉴定单元包括:
第二比对模块,用于将所述RNA-seq数据中的基因与所述预设的参考基因组进行比对,生成第二比对数据;
相对表达量计算模块,用于根据所述第二比对数据,计算所述待测样品与所述预设的参考基因组的相对表达量;
表达量获取模块,用于根据所述待测样品与所述预设的参考基因组的相对表达量,获得所述待测样品的RNA表达量。
8.根据权利要求5所述的一种检测牦牛RNA编辑位点的装置,其特征在于,所述位点确定单元包括:
第一位点滤除模块,用于根据所述待测样品的cDNA基因型,滤除所述待测样品中在不同组织和/或不同环境下具有相同的单核苷酸多态性和/或拷贝数变异的位点以及未知基因型的位点,以总体变异率1%作为阈值筛选候选RNA编辑位点,获得第一RNA编辑位点候选群;
第二位点滤除模块,用于基于预设的阈值,根据所述待测样品的RNA表达量滤除所述待测样品中表达不明确的位点,获得第二RNA编辑位点候选群;
RNA编辑位点确定模块,用于根据所述第一RNA编辑位点候选群以及所述第二RNA编辑位点候选群,确定所述待测样品的RNA编辑位点。
CN201911413840.XA 2019-12-31 2019-12-31 一种检测牦牛rna编辑位点的方法及装置 Active CN111028885B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201911413840.XA CN111028885B (zh) 2019-12-31 2019-12-31 一种检测牦牛rna编辑位点的方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201911413840.XA CN111028885B (zh) 2019-12-31 2019-12-31 一种检测牦牛rna编辑位点的方法及装置

Publications (2)

Publication Number Publication Date
CN111028885A CN111028885A (zh) 2020-04-17
CN111028885B true CN111028885B (zh) 2023-05-30

Family

ID=70197759

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201911413840.XA Active CN111028885B (zh) 2019-12-31 2019-12-31 一种检测牦牛rna编辑位点的方法及装置

Country Status (1)

Country Link
CN (1) CN111028885B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116312776B (zh) * 2022-12-08 2024-01-19 上海生物制品研究所有限责任公司 一种检测差异化rna编辑位点的方法

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO1998056910A1 (en) * 1997-06-11 1998-12-17 Chiron Corporation DETECTION OF LOSS OF THE WILD-TYPE huBUB1 GENE
CN105483210A (zh) * 2014-09-30 2016-04-13 深圳华大基因科技有限公司 一种rna编辑位点的检测方法
EP3219810A1 (en) * 2014-11-14 2017-09-20 Institute for Basic Science Method for detecting off-target site of genetic scissors in genome
CN108251540A (zh) * 2018-02-07 2018-07-06 西藏自治区农牧科学院畜牧兽医研究所 牦牛全基因组snp位点的应用及检测用引物组和试剂盒
CN108753994A (zh) * 2018-06-27 2018-11-06 四川农业大学 一种基于转录组的准确高效的真核生物基因鉴定方法
CN109658983A (zh) * 2018-12-20 2019-04-19 深圳市海普洛斯生物科技有限公司 一种识别和消除核酸变异检测中假阳性的方法和装置

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20160078168A1 (en) * 2012-02-13 2016-03-17 Splicingcodes.Com Fusion transcript detection methods and fusion transcripts identified thereby

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO1998056910A1 (en) * 1997-06-11 1998-12-17 Chiron Corporation DETECTION OF LOSS OF THE WILD-TYPE huBUB1 GENE
CN105483210A (zh) * 2014-09-30 2016-04-13 深圳华大基因科技有限公司 一种rna编辑位点的检测方法
EP3219810A1 (en) * 2014-11-14 2017-09-20 Institute for Basic Science Method for detecting off-target site of genetic scissors in genome
CN108251540A (zh) * 2018-02-07 2018-07-06 西藏自治区农牧科学院畜牧兽医研究所 牦牛全基因组snp位点的应用及检测用引物组和试剂盒
CN108753994A (zh) * 2018-06-27 2018-11-06 四川农业大学 一种基于转录组的准确高效的真核生物基因鉴定方法
CN109658983A (zh) * 2018-12-20 2019-04-19 深圳市海普洛斯生物科技有限公司 一种识别和消除核酸变异检测中假阳性的方法和装置

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
基于RNA-Seq技术的牦牛体外受精胚胎发育转录组分析;字向东等;《中国农业科学》(第08期);201-213 *
基于测序技术的畜禽基因组学研究进展;梁素芸等;《遗传》(第04期);17-33 *
基于种子发育过程RNA-Seq的山核桃SSR位点分析;赵国淼等;《分子植物育种》;第13卷(第11期);2516-2521 *
长链非编码RAN的研究进展;宋娜娜等;《生物技术通报》(第09期);28-36 *

Also Published As

Publication number Publication date
CN111028885A (zh) 2020-04-17

Similar Documents

Publication Publication Date Title
Zhao et al. Misuse of RPKM or TPM normalization when comparing across samples and sequencing protocols
Lowe et al. Transcriptomics technologies
Shin et al. Analysis of the mouse gut microbiome using full-length 16S rRNA amplicon sequencing
Hannon et al. Methylation QTLs in the developing brain and their enrichment in schizophrenia risk loci
Navarro et al. Chromosomal speciation and molecular divergence--accelerated evolution in rearranged chromosomes
Magi et al. Characterization of MinION nanopore data for resequencing analyses
Wilhelm et al. Dynamic repertoire of a eukaryotic transcriptome surveyed at single-nucleotide resolution
US11043283B1 (en) Systems and methods for automating RNA expression calls in a cancer prediction pipeline
CN107849612B (zh) 比对和变体测序分析管线
EP2718862B1 (en) Method for assembly of nucleic acid sequence data
Svensson et al. Genome-wide survey for biologically functional pseudogenes
CN107408163B (zh) 用于分析基因的方法及装置
CN110189796A (zh) 一种绵羊全基因组重测序分析方法
Ma et al. The analysis of ChIP-Seq data
Wood et al. Recommendations for accurate resolution of gene and isoform allele-specific expression in RNA-Seq data
WO2017218798A1 (en) Systems and methods for diagnosing familial hypercholesterolemia
Esteve-Codina RNA-seq data analysis, applications and challenges
CN109461473B (zh) 胎儿游离dna浓度获取方法和装置
CN111028885B (zh) 一种检测牦牛rna编辑位点的方法及装置
KR101770962B1 (ko) 유전자 서열 기반 개인 마커에 관한 정보를 제공하는 방법 및 이를 이용한 장치
Myers The age of the “ome”: genome, transcriptome and proteome data set collection and analysis
Mir Sequencing genomes: from individuals to populations
Marques et al. Mountain hare transcriptome and diagnostic markers as resources to monitor hybridization with European hares
Roy et al. NGS-μsat: Bioinformatics framework supporting high throughput microsatellite genotyping from next generation sequencing platforms
Erzurumluoglu et al. Identifying highly penetrant disease causal mutations using next generation sequencing: guide to whole process

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant