CN112927756B - 鉴别转录组rRNA污染源的方法、装置和改善rRNA污染的方法 - Google Patents

鉴别转录组rRNA污染源的方法、装置和改善rRNA污染的方法 Download PDF

Info

Publication number
CN112927756B
CN112927756B CN201911239692.4A CN201911239692A CN112927756B CN 112927756 B CN112927756 B CN 112927756B CN 201911239692 A CN201911239692 A CN 201911239692A CN 112927756 B CN112927756 B CN 112927756B
Authority
CN
China
Prior art keywords
rrna
transcriptome
sequencing data
sample
depth distribution
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201911239692.4A
Other languages
English (en)
Other versions
CN112927756A (zh
Inventor
陈俊清
蔡雄颖
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
BGI Technology Solutions Co Ltd
Original Assignee
BGI Technology Solutions Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by BGI Technology Solutions Co Ltd filed Critical BGI Technology Solutions Co Ltd
Priority to CN201911239692.4A priority Critical patent/CN112927756B/zh
Publication of CN112927756A publication Critical patent/CN112927756A/zh
Application granted granted Critical
Publication of CN112927756B publication Critical patent/CN112927756B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B25/00ICT specially adapted for hybridisation; ICT specially adapted for gene or protein expression
    • G16B25/10Gene or protein expression profiling; Expression-ratio estimation or normalisation
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02ATECHNOLOGIES FOR ADAPTATION TO CLIMATE CHANGE
    • Y02A90/00Technologies having an indirect contribution to adaptation to climate change
    • Y02A90/10Information and communication technologies [ICT] supporting adaptation to climate change, e.g. for weather forecasting or climate simulation

Abstract

一种鉴别转录组rRNA污染源的方法、装置和改善rRNA污染的方法,其中鉴别转录组rRNA污染源的方法包括:获取待鉴别的样本的转录组二代测序数据;将转录组二代测序数据比对到参考基因组,获得rRNA测序数据占二代测序数据的比例超过第一预设值的候选样本;分析候选样本中rRNA测序数据比对到基因组反义链的情况得到rRNA残留的样本;对rRNA残留的样本的rRNA测序数据进行设定区域的覆盖度分析获得测序读长深度分布结果;将测序读长深度分布结果与深度分布预设模型进行比较,得到由于样本变性不完全导致的rRNA污染情况。本发明解决rRNA污染比例高的问题,节约RNA‑seq建库和测序成本。

Description

鉴别转录组rRNA污染源的方法、装置和改善rRNA污染的方法
技术领域
本发明涉及转录组技术领域,具体涉及一种鉴别转录组rRNA污染源的方法、装置和改善转录组rRNA污染的方法。
背景技术
众所周知,rRNA在细胞中相对恒定表达,在总RNA中占比达到95%以上,但在转录组、基因表达定量检测中常被去除后进行研究。RNA-seq建库针对不同物种的rRNA去除采用不同策略。具有代表性的技术是Illumina公司的Ribo-zero Human kit,采用rRNA生物素标记探针杂交捕获再与链霉亲和素磁珠结合去除的方法,该方法针对性地去除rRNA,保留总RNA中的lncRNA和mRNA等。
根据Illumina公司提供的操作手册(Protocol),从总RNA中去除rRNA的操作流程是:将10μL RNA与5μL rRNA结合缓冲液(rRNA Binding Buffer)和5μL rRNA去除混合液(rRNA Removal Mix)混合,在68℃下孵育5min,然后25℃下孵育1min;在20μL反应产物中加入35μL rRNA去除磁珠(rRNA Removal Beads),在室温静置5min,置于磁力架上静置1min,转移45μL上清至新的PCR板,置于磁力架上静置1min,转移上清至纯化板;然后加入35μL无水乙醇和15μL DEPC水,充分混合。加入81μL RNA Clean XP Beads(1.8X)纯化,用200μL70%乙醇清洗一次,用洗脱缓冲液回收至8.5μL。
然而,由于rRNA结构复杂,根据Illumina公司提供的操作手册(Protocol)进行操作,经常出现rRNA污染,rRNA去除效率极其不稳定,甚至污染比例高达70%以上,造成严重的测序数据浪费,导致基因表达定量的不准确及研究的失败。现阶段采用的Illumina公司试剂盒操作手册存在20%左右比例的样本的rRNA残留过高(≥10%),造成严重数据浪费及返工重做现象。
现有针对rRNA污染排查的方法是将污染部分的rRNA数据比对到动物、植物、真菌的数据库,判断污染源是否是物种污染引起,该方法往往得到的结果不能够定位到实验过程的具体实验步骤,存在局限性。
发明内容
本申请提供一种鉴别转录组rRNA污染源的方法、装置和改善转录组rRNA污染的方法,解决rRNA污染比例高的问题,节约RNA-seq建库和测序成本。
根据第一方面,本发明提供一种鉴别转录组rRNA污染源的方法,包括:
获取至少一个待鉴别的样本的转录组二代高通量测序数据;
将上述转录组二代高通量测序数据比对到参考基因组,获得比对结果中rRNA测序数据占上述转录组二代高通量测序数据的比例超过第一预设值的样本作为候选样本;
分析上述候选样本中上述rRNA测序数据比对到基因组反义链的情况,将上述rRNA测序数据比对到基因组反义链占比超过第二预设值的情况视作rRNA残留;
针对上述rRNA残留的情况,对上述rRNA测序数据进行设定区域的覆盖度分析以获得测序读长深度分布结果;
将上述测序读长深度分布结果与深度分布预设模型进行比较,得到与上述深度分布预设模型符合的样本,视作存在样本变性不完全导致的rRNA污染情况。
在优选实施例中,上述方法还包括:分析上述候选样本中rRNA测序数据比对到基因组正义链的情况,将rRNA测序数据比对到基因组正义链占比超过第二预设值的情况视作探针污染。
在优选实施例中,上述转录组是从总RNA中去除rRNA保留mRNA和lncRNA的样本转录组。
在优选实施例中,上述从总RNA中去除rRNA采用rRNA生物素标记探针杂交捕获再与链霉亲和素磁珠结合的方法实现,或采用DNA探针与rRNA杂交再利用RNAse H酶进行消化的方式实现。
在优选实施例中,上述第一预设值是10%。
在优选实施例中,上述第二预设值是90%。
在优选实施例中,上述设定区域是rRNA长度超过第三预设值、GC%含量超过第四预设值且具有形成二级结构倾向的区域。
在优选实施例中,上述第三预设值是10kbp,上述第四预设值是55%。
在优选实施例中,上述测序读长深度分布结果是读长深度分布图,上述读长深度分布图上呈现设定区间范围内的测序读长深度,上述深度分布预设模型包括上述设定区间范围和上述测序读长深度的阈值区间。
在优选实施例中,上述设定区间范围和对应的测序读长深度的阈值区间包括:
3500~5500bp范围,其GC%=62%,平均深度≥1000X;
8000~11000bp范围,其GC%=73%,平均深度≥1000X;
11000~13000bp范围,其GC%=71%,平均深度≥1000X。
根据第二方面,本发明提供一种鉴别转录组rRNA污染源的装置,该装置包括:
测序数据获取单元,用于获取至少一个待鉴别的样本的转录组二代高通量测序数据;
测序数据比对单元,用于将上述转录组二代高通量测序数据比对到参考基因组,获得比对结果中rRNA测序数据占上述转录组二代高通量测序数据的比例超过第一预设值的样本作为候选样本;
污染情况分类单元,用于分析上述候选样本中上述rRNA测序数据比对到基因组反义链的情况,将上述rRNA测序数据比对到基因组反义链占比超过第二预设值的情况视作rRNA残留;
覆盖度分析单元,用于针对上述rRNA残留的情况,对上述rRNA测序数据进行设定区域的覆盖度分析以获得测序读长深度分布结果;
污染情况确认单元,用于将上述测序读长深度分布结果与深度分布预设模型进行比较,得到与上述深度分布预设模型符合的样本,视作存在样本变性不完全导致的rRNA污染情况。
根据第三方面,本发明提供一种计算机可读存储介质,包括程序,该程序能够被处理器执行以实现如第一方面的方法。
根据第四方面,本发明提供一种改善转录组rRNA污染的方法,包括:
通过第一方面的鉴别转录组rRNA污染源的方法确定由于样本变性不完全导致rRNA污染的样本;
针对上述rRNA污染的样本,重新进行转录组和rRNA去除步骤,其中在转录组的去除rRNA的环节中改善变性温度和/或时间条件以降低rRNA污染。
在优选实施例中,上述改善变性温度和/或时间条件是提高变性温度和/或变性时间。
在优选实施例中,将变性温度提高5-30℃,将变性时间提高2-20min。
本发明的鉴别转录组rRNA污染源的方法能够通过对转录组二代高通量测序数据进行分析,得到由于样本变性不完全导致的rRNA污染情况,基于rRNA污染情况能够及时改善转录组rRNA污染,解决rRNA污染比例高的问题,节约RNA-seq建库和测序成本。
附图说明
图1为本发明实施例中一种鉴别转录组rRNA污染源的方法流程图;
图2为本发明实施例中rRNA污染模型图,其中横坐标轴以1000bp为窗口对全长45SrRNA进行划分,纵坐标覆盖度按照每5000X为一窗格进行划分;
图3为本发明实施例中一种鉴别转录组rRNA污染源的装置结构框图;
图4为本发明实施例中rRNA测序读长深度分布图,其中横坐标轴以1000bp为窗口对全长45S rRNA进行划分,纵坐标覆盖度按照每1000X为一窗格进行划分。
具体实施方式
下面通过具体实施方式结合附图对本发明作进一步详细说明。在以下的实施方式中,很多细节描述是为了使得本申请能被更好的理解。然而,本领域技术人员可以毫不费力的认识到,其中部分特征在不同情况下是可以省略的,或者可以由其他元件、材料、方法所替代。
另外,说明书中所描述的特点、操作或者特征可以以任意适当的方式结合形成各种实施方式。同时,方法描述中的各步骤或者动作也可以按照本领域技术人员所能显而易见的方式进行顺序调换或调整。因此,说明书和附图中的各种顺序只是为了清楚描述某一个实施例,并不意味着是必须的顺序,除非另有说明其中某个顺序是必须遵循的。
目前,RNA-Seq在NGS领域是一个重要的基因分析工具,通过第二代高通量测序技术对样本里的mRNA进行表达定量分析,及lncRNA的定位分析。目前采用的一个重要技术是去除样本里的rRNA,保留mRNA及lncRNA信息,但在去除rRNA的链酶亲和素的方法过程中,存在rRNA残留问题。
根据转录组链特异性原理,对后续数据中存在的污染可以分为如下几种情况:跨物种污染,这种污染可以通过直接进行物种间基因组比较鉴别;以及,文库自身实验过程中出现的rRNA处理不全的情况,这种情况又包括两种:(1)探针污染,试剂盒里的rRNA过量探针的残留被当成RNA分子,反转录后一并连接上接头被测序出来;(2)自身rRNA残留,残留的rRNA随lncRNA和mRNA等分子一并进入到后续实验环节被测序出来,导致实验失败。
本发明针对rRNA残留的样本的rRNA测序数据的来源进行分析,针对上述第(2)点的情况进行改进,通过实验条件调整变性温度和/或时间,提高探针结合效率来改善rRNA的去除效率。
如图1所示,本发明的一种实施例提供一种鉴别转录组rRNA污染源的方法,包括如下步骤:
S101:测序数据获取
获取至少一个待鉴别的样本的转录组二代高通量测序数据。
本发明中,转录组一般是指从总RNA中去除rRNA保留mRNA和lncRNA的样本转录组。例如,具有代表性的是Illumina公司的Ribo-zero Human kit,采用rRNA生物素标记探针杂交捕获再与链霉亲和素磁珠结合去除的方法去除rRNA,该方法针对性地去除rRNA,保留总RNA中的lncRNA和mRNA等。在其他实施例中,还可以采用DNA探针与rRNA杂交再利用RNAse H酶进行消化的方式实现从总RNA中去除rRNA的目的。然而,由于实验过程中出现的rRNA处理不全的原因,转录组中除了含有期望的mRNA和lncRNA,还可能含有去除不完全的rRNA。本发明的方法正是针对rRNA去除不完全进行分析,以期待鉴别转录组rRNA污染源情况。
S102:测序数据比对
将转录组二代高通量测序数据比对到参考基因组,获得比对结果中rRNA测序数据占转录组二代高通量测序数据的比例超过第一预设值的样本作为候选样本。
本发明中,参考基因组是与转录组对应的物种来源的参考基因组。例如,在采用Illumina公司的Ribo-zero Human kit,用rRNA生物素标记探针杂交捕获再与链霉亲和素磁珠结合去除的方法去除rRNA的方法中,所对应的参考基因组就是人类参考基因组。
本发明中,将转录组二代高通量测序数据比对到参考基因组能够获得比对结果,该比对结果包括rRNA测序数据在总测序数据(即“转录组二代高通量测序数据”中的百分占比,该百分占比即表征rRNA污染程度,该百分占比越高,表明转录组中rRNA污染程度越高。一般而言,rRNA测序数据在总测序数据超过一定比例(即本发明中“第一预设值”),可以认为存在rRNA污染,需要进一步分析rRNA污染来源。在本发明的一个实施例中,第一预设值是10%,即rRNA测序数据在总测序数据中占比超过10%,就认为rRNA残留过高,会造成严重数据浪费,因此需要进一步分析rRNA污染来源,以便优化实验以期降低rRNA污染。
S103:污染情况分类
分析候选样本中rRNA测序数据比对到基因组反义链的情况,将rRNA测序数据比对到基因组反义链占比超过第二预设值的情况视作rRNA残留。
本发明中,根据rRNA测序数据比对到基因组正、反义链的情况,将rRNA污染分为两类:第一类是探针污染,是指试剂盒里的rRNA过量探针的残留被当成RNA分子,反转录后一并连接上接头被测序出来。本发明实施例中,将rRNA测序数据比对到基因组正义链占比超过一定比例(即“第二预设值”)的情况,视作探针污染。第二类是rRNA残留,是指样本变性不完全、二级结构未打开导致残留的rRNA随lncRNA和mRNA等分子一并进入到后续实验环节被测序出来。本发明实施例中,将rRNA测序数据比对到基因组反义链占比超过一定比例(即“第二预设值”)的情况,视作rRNA残留。本发明的方法主要对第二类情况,即rRNA残留的情况进行改善处理。
在本发明的一个实施例中,第二预设值是90%。例如,一个实施例中,根据rRNA测序文库的链特异性,测序数据是否90%以上只比对到基因组的一条链上,若90%以上的测序数据比对到基因组的正义链,则为探针污染;若90%以上的测序数据比对到反义链则为rRNA样本变性不完全、二级结构未打开导致未被捕获完全;若比对到正、反义链都有一定比例,反义链比例占比绝大部分则为两种情况同时存在。在其他实施例中,第二预设值可以是其他百分比。
S104:覆盖度分析
针对rRNA残留的情况,对rRNA测序数据进行设定区域的覆盖度分析以获得测序读长深度分布结果。
本发明实施例中,特别针对rRNA残留的情况,即rRNA测序数据比对到基因组反义链占比超过第二预设值的情况进行分析,即分析rRNA测序数据在设定区域的覆盖度。在本发明的一个实施例中,设定区域是rRNA长度超过一定数值(即“第三预设值”)、GC%含量超过一定数值(即“第四预设值”)且具有形成二级结构倾向的区域。在本发明的一个实施例中,第三预设值是10kbp,第四预设值是55%,即选择rRNA长度超过10kbp、GC%含量超过55%(优选60%以上)的rRNA区域。
在本发明的一个实施例中,设定区域是指如下区域:3500~5500bp范围,其GC%=62%;8000~11000bp范围,其GC%=73%;11000~13000bp范围,其GC%=71%。
S105:污染情况确认
将测序读长深度分布结果与深度分布预设模型进行比较,得到与深度分布预设模型符合的样本,视作存在样本变性不完全导致的rRNA污染情况。
在本发明的一个实施例中,测序读长深度分布结果是读长深度分布图,读长深度分布图上呈现设定区间范围内的测序读长深度,深度分布预设模型包括设定区间范围和测序读长深度的阈值区间。
在本发明的一个实施例中,设定区间范围和对应的测序读长深度的阈值区间包括:
3500~5500bp范围,其GC%=62%,平均深度≥1000X;
8000~11000bp范围,其GC%=73%,平均深度≥1000X;
11000~13000bp范围,其GC%=71%,平均深度≥1000X。
在本发明的一个实施例中,对样本rRNA测序数据进行深度分析,观察rRNA测序数据在全长rRNA上的分布,如图2所示,其分布并非均匀,呈现出多峰状,在峰位置的部分同时是GC%高的部分。
对于待测样本,对其测序数据进行分析生成读长深度分布图,若形成与图2所示模型样式类似,且同时符合如下三个特征:3500~5500bp范围,其GC%=62%,平均深度≥1000X;8000~11000bp范围,其GC%=73%,平均深度≥1000X;11000~13000bp范围,其GC%=71%,平均深度≥1000X,则可认为待测样本的rRNA污染是由样本变性不完全、二级结构未打开所致,可通过提高变性温度和/或变性时间改善rRNA污染。
对应于本发明的鉴别转录组rRNA污染源的方法,本发明还提供一种鉴别转录组rRNA污染源的装置,如图3所示,该装置包括:测序数据获取单元301,用于获取至少一个待鉴别的样本的转录组二代高通量测序数据;测序数据比对单元302,用于将上述转录组二代高通量测序数据比对到参考基因组,获得比对结果中rRNA测序数据占上述转录组二代高通量测序数据的比例超过第一预设值的样本作为候选样本;污染情况分类单元303,用于分析上述候选样本中上述rRNA测序数据比对到基因组反义链的情况,将上述rRNA测序数据比对到基因组反义链占比超过第二预设值的情况视作rRNA残留;覆盖度分析单元304,用于针对上述rRNA残留的情况,对上述rRNA测序数据进行设定区域的覆盖度分析以获得测序读长深度分布结果;污染情况确认单元305,用于将上述测序读长深度分布结果与深度分布预设模型进行比较,得到与上述深度分布预设模型符合的样本,视作存在样本变性不完全导致的rRNA污染情况。
本领域技术人员可以理解,上述实施方式中各种方法的全部或部分功能可以通过硬件的方式实现,也可以通过计算机程序的方式实现。当上述实施方式中全部或部分功能通过计算机程序的方式实现时,该程序可以存储于一计算机可读存储介质中,存储介质可以包括:只读存储器、随机存储器、磁盘、光盘、硬盘等,通过计算机执行该程序以实现上述功能。例如,将程序存储在设备的存储器中,当通过处理器执行存储器中程序,即可实现上述全部或部分功能。另外,当上述实施方式中全部或部分功能通过计算机程序的方式实现时,该程序也可以存储在服务器、另一计算机、磁盘、光盘、闪存盘或移动硬盘等存储介质中,通过下载或复制保存到本地设备的存储器中,或对本地设备的系统进行版本更新,当通过处理器执行存储器中的程序时,即可实现上述实施方式中全部或部分功能。
因此,本发明的一种实施例中提供一种计算机可读存储介质,包括程序,该程序能够被处理器执行以实现如下的方法:获取至少一个待鉴别的样本的转录组二代高通量测序数据;将上述转录组二代高通量测序数据比对到参考基因组,获得比对结果中rRNA测序数据占上述转录组二代高通量测序数据的比例超过第一预设值的样本作为候选样本;分析上述候选样本中上述rRNA测序数据比对到基因组反义链的情况,将上述rRNA测序数据比对到基因组反义链占比超过第二预设值的情况视作rRNA残留;针对上述rRNA残留的情况,对上述rRNA测序数据进行设定区域的覆盖度分析以获得测序读长深度分布结果;将上述测序读长深度分布结果与深度分布预设模型进行比较,得到与上述深度分布预设模型符合的样本,视作存在样本变性不完全导致的rRNA污染情况。
此外,本发明还提供一种改善转录组rRNA污染的方法,包括:
通过本发明的上述鉴别转录组rRNA污染源的方法确定由于样本变性不完全导致rRNA污染的样本;和
针对rRNA污染的样本,重新进行转录组和rRNA去除步骤,其中在转录组的去除rRNA的环节中改善变性温度和/或时间条件以降低rRNA污染。
在本发明的一个实施例中,通过提高变性温度和/或变性时间改善rRNA污染。例如,将变性温度提高5-30℃,将变性时间提高2-20min。例如,在本发明的一个实施例中,变性温度可以从68℃提高到95℃不等,孵育时间(即变性时间)可由5分钟提高至15分钟不等。例如,一种改善方法是:变性条件由68℃孵育5min改成75℃孵育10min,另一种改善方法是:先95℃孵育2min,迅速降温至68℃维持,开盖加入杂交缓冲液,再继续孵育5min。
以下通过具体实施例详细说明本发明的技术方案,应当理解,实施例仅是示例性的,不能理解为对本发明保护范围的限制。
实施例1
取一样本进行第一次建库,存在高rRNA污染的样本测序数据按照本发明的方法进行生物信息分析。
第一次建库中,采用Illumina公司的Ribo-zero Human kit,用rRNA生物素标记探针杂交捕获再与链霉亲和素磁珠结合去除rRNA,根据Illumina公司提供的操作手册(Protocol)进行操作。具体而言,去除rRNA的条件和流程,如下表1所示:
表1
Figure BDA0002305865650000111
Figure BDA0002305865650000121
对第一次建库得到的测序文库进行测序,然后按照如下方法鉴别转录组rRNA污染源:获取待鉴别的样本的转录组二代高通量测序数据;将转录组二代高通量测序数据比对到参考基因组,获得比对结果中rRNA测序数据占转录组二代高通量测序数据的比例超过10%的样本作为候选样本;分析候选样本中rRNA测序数据比对到基因组正、反义链的情况,将rRNA测序数据比对到基因组正义链占比超过90%的情况视作探针污染,将rRNA测序数据比对到基因组反义链占比超过90%的情况视作rRNA残留;针对rRNA残留的情况,对rRNA测序数据进行设定区域(长度大于10kbp的rRNA,NR_046235.1)的覆盖度分析以获得测序读长深度分布结果;得到测序读长深度分布图(图2),得出如下结果:
3500~5500bp范围,GC%=62%(NCBI),平均深度≥8000X;
8000bp~11000bp范围,GC%=73%(NCBI),平均深度≥15000X;
11000bp~13000bp范围,GC%=71%(NCBI),平均深度≥8000X。
表明存在样本变性不完全导致的rRNA污染情况。该样本rRNA污染残留可能原因是高GC含量部分变性不足,探针杂交失败,继而导致rRNA污染数据占比过高。
对该文库发起重新建库,在实验端去除rRNA时改变实验条件如下表2所示:
表2
Figure BDA0002305865650000131
对后续建库完成的文库进行测序得到的数据进行分析生成rRNA测序读长深度分布图如图4所示,得出如下结果:
3500~5500bp范围,GC%=62%(NCBI),平均深度≤1000X;
8000~11000bp范围,GC%=73%(NCBI),平均深度≤1000X;
11000~13000bp范围,GC%=71%(NCBI),平均深度≤1000X。
相比第一次建库测序的结果,重新建库的结果在设定的区域内,平均测序深度低于1000X,有极大的改善。
以上应用了具体个例对本发明进行阐述,只是用于帮助理解本发明,并不用以限制本发明。对于本发明所属技术领域的技术人员,依据本发明的思想,还可以做出若干简单推演、变形或替换。

Claims (12)

1.一种鉴别转录组rRNA污染源的方法,其特征在于,所述方法包括:
获取至少一个待鉴别的样本的转录组二代高通量测序数据;
将所述转录组二代高通量测序数据比对到参考基因组,获得比对结果中rRNA测序数据占所述转录组二代高通量测序数据的比例超过第一预设值的样本作为候选样本;
分析所述候选样本中所述rRNA测序数据比对到基因组反义链的情况,将所述rRNA测序数据比对到基因组反义链占比超过第二预设值的情况视作rRNA残留;
针对所述rRNA残留的情况,对所述rRNA测序数据进行设定区域的覆盖度分析以获得测序读长深度分布结果;所述测序读长深度分布结果是读长深度分布图,所述读长深度分布图上呈现设定区间范围内的测序读长深度,所述深度分布预设模型包括所述设定区间范围和所述测序读长深度的阈值区间;所述设定区域是rRNA长度超过第三预设值、GC%含量超过第四预设值且具有形成二级结构倾向的区域;
将所述测序读长深度分布结果与深度分布预设模型进行比较,得到与所述深度分布预设模型符合的样本,视作存在样本变性不完全导致的rRNA污染情况。
2.根据权利要求1所述的方法,其特征在于,所述方法还包括:分析所述候选样本中所述rRNA测序数据比对到基因组正义链的情况,将所述rRNA测序数据比对到基因组正义链占比超过第二预设值的情况视作探针污染。
3.根据权利要求1所述的方法,其特征在于,所述转录组是从总RNA中去除rRNA保留mRNA和lncRNA的样本转录组。
4.根据权利要求3所述的方法,其特征在于,所述从总RNA中去除rRNA采用rRNA生物素标记探针杂交捕获再与链霉亲和素磁珠结合的方法实现,或采用DNA探针与rRNA杂交再利用RNAse H酶进行消化的方式实现。
5.根据权利要求1所述的方法,其特征在于,所述第一预设值是10%,所述第二预设值是90%。
6.根据权利要求1所述的方法,其特征在于,所述第三预设值是10kbp,所述第四预设值是55%。
7.根据权利要求1所述的方法,其特征在于,所述设定区间范围和对应的测序读长深度的阈值区间包括:
3500~5500bp范围,其GC%=62%,平均深度≥1000X;
8000~11000bp范围,其GC%=73%,平均深度≥1000X;
11000~13000bp范围,其GC%=71%,平均深度≥1000X。
8.一种鉴别转录组rRNA污染源的装置,其特征在于,所述装置包括:
测序数据获取单元,用于获取至少一个待鉴别的样本的转录组二代高通量测序数据;
测序数据比对单元,用于将所述转录组二代高通量测序数据比对到参考基因组,获得比对结果中rRNA测序数据占所述转录组二代高通量测序数据的比例超过第一预设值的样本作为候选样本;
污染情况分类单元,用于分析所述候选样本中所述rRNA测序数据比对到基因组反义链的情况,将所述rRNA测序数据比对到基因组反义链占比超过第二预设值的情况视作rRNA残留;
覆盖度分析单元,用于针对所述rRNA残留的情况,对所述rRNA测序数据进行设定区域的覆盖度分析以获得测序读长深度分布结果;所述测序读长深度分布结果是读长深度分布图,所述读长深度分布图上呈现设定区间范围内的测序读长深度,所述深度分布预设模型包括所述设定区间范围和所述测序读长深度的阈值区间;所述设定区域是rRNA长度超过第三预设值、GC%含量超过第四预设值且具有形成二级结构倾向的区域;
污染情况确认单元,用于将所述测序读长深度分布结果与深度分布预设模型进行比较,得到与所述深度分布预设模型符合的样本,视作存在样本变性不完全导致的rRNA污染情况。
9.一种计算机可读存储介质,其特征在于,包括程序,所述程序能够被处理器执行以实现如权利要求1-7中任一项所述的方法。
10.一种改善转录组rRNA污染的方法,其特征在于,所述方法包括:
通过权利要求1~7任意一项所述的鉴别转录组rRNA污染源的方法确定由于样本变性不完全导致rRNA污染的样本;
针对所述rRNA污染的样本,重新进行转录组和rRNA去除步骤,其中在转录组的去除rRNA的环节中改善变性温度和/或时间条件以降低rRNA污染。
11.根据权利要求10所述的方法,其特征在于,所述改善变性温度和/或时间条件是提高变性温度和/或变性时间。
12.根据权利要求11所述的方法,其特征在于,将变性温度提高5-30℃,将变性时间提高2-20min。
CN201911239692.4A 2019-12-06 2019-12-06 鉴别转录组rRNA污染源的方法、装置和改善rRNA污染的方法 Active CN112927756B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201911239692.4A CN112927756B (zh) 2019-12-06 2019-12-06 鉴别转录组rRNA污染源的方法、装置和改善rRNA污染的方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201911239692.4A CN112927756B (zh) 2019-12-06 2019-12-06 鉴别转录组rRNA污染源的方法、装置和改善rRNA污染的方法

Publications (2)

Publication Number Publication Date
CN112927756A CN112927756A (zh) 2021-06-08
CN112927756B true CN112927756B (zh) 2023-05-30

Family

ID=76162313

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201911239692.4A Active CN112927756B (zh) 2019-12-06 2019-12-06 鉴别转录组rRNA污染源的方法、装置和改善rRNA污染的方法

Country Status (1)

Country Link
CN (1) CN112927756B (zh)

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2012064739A2 (en) * 2010-11-08 2012-05-18 The Trustees Of Columbia University In The City Of New York Microbial enrichment primers
CN110444255A (zh) * 2019-08-30 2019-11-12 深圳裕策生物科技有限公司 基于二代测序的生物信息质控方法、装置和存储介质

Family Cites Families (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2007019444A2 (en) * 2005-08-05 2007-02-15 Euclid Diagnostics Llc Subtractive separation and amplification of non-ribosomal transcribed rna (nrrna)
CN101168774A (zh) * 2007-11-06 2008-04-30 东南大学 实现dna序列分析中增加测序阅读长度的测定方法
DK2816111T3 (en) * 2009-08-14 2016-06-06 Epicentre Tech Corp Methods, compositions, and kits for the generation of rRNA-depleted samples or isolation of rRNA from samples
JP2016515383A (ja) * 2013-03-15 2016-05-30 ザ・ブロード・インスティテュート・インコーポレイテッド 樹状細胞応答遺伝子発現、組成物およびその使用方法
CN105095686B (zh) * 2014-05-15 2018-08-14 中国科学院青岛生物能源与过程研究所 基于多核cpu硬件的高通量转录组测序数据质量控制方法
CN104630206A (zh) * 2015-02-05 2015-05-20 北京诺禾致源生物信息科技有限公司 转录组文库的构建方法
CN106086013B (zh) * 2016-06-30 2018-10-19 厦门艾德生物医药科技股份有限公司 一种用于核酸富集捕获的探针及设计方法
CN109385468B (zh) * 2017-08-11 2022-08-16 深圳华大基因股份有限公司 检测链特异性效率的成套试剂与方法
CN107893260B (zh) * 2017-11-27 2021-01-12 广州市锐博生物科技有限公司 高效去除核糖体rna的构建转录组测序文库的方法及试剂盒
CN109559780A (zh) * 2018-09-27 2019-04-02 华中科技大学鄂州工业技术研究院 一种高通量测序的rna数据处理方法
CN109439726B (zh) * 2018-11-30 2021-11-02 上海锐翌生物科技有限公司 用于人源粪便dna甲基化分析的核酸纯化方法

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2012064739A2 (en) * 2010-11-08 2012-05-18 The Trustees Of Columbia University In The City Of New York Microbial enrichment primers
CN110444255A (zh) * 2019-08-30 2019-11-12 深圳裕策生物科技有限公司 基于二代测序的生物信息质控方法、装置和存储介质

Also Published As

Publication number Publication date
CN112927756A (zh) 2021-06-08

Similar Documents

Publication Publication Date Title
Yong et al. Profiling genome-wide DNA methylation
Frumkin et al. DNA methylation-based forensic tissue identification
US20200354792A1 (en) Nucleic acids and methods for detecting chromosomal abnormalities
Fullwood et al. Chromatin interaction analysis using paired‐end tag sequencing
Johnson et al. Single nucleotide analysis of cytosine methylation by whole‐genome shotgun bisulfite sequencing
CN105734048A (zh) 一种基因组DNA的PCR-free测序文库制备方法
CN107506614B (zh) 一种细菌ncRNA预测方法
CN114196761A (zh) 一种主选父系品种猪饲料报酬的液相芯片的制作方法
CN112927756B (zh) 鉴别转录组rRNA污染源的方法、装置和改善rRNA污染的方法
Lu et al. Improved tagmentation-based whole-genome bisulfite sequencing for input DNA from less than 100 mammalian cells
CN111575349B (zh) 一种接头序列及其应用
CN111524552B (zh) 简化基因组测序文库构建分析方法、检测设备及存储介质
Levin et al. Optimization for sequencing and analysis of degraded FFPE-RNA samples
CN108265049B (zh) 全基因组互作文库及其构建方法
CA3068110A1 (en) Target-enriched multiplexed parallel analysis for assessment of fetal dna samples
CN110993024B (zh) 建立胎儿浓度校正模型的方法及装置与胎儿浓度定量的方法及装置
CN113981070A (zh) 胚胎染色体微缺失的检测方法、装置、设备和存储介质
Tost Current and emerging technologies for the analysis of the genome-wide and locus-specific DNA methylation patterns
JP7170711B2 (ja) Dna分析のためのオフターゲット配列の使用
JP2022544779A (ja) ポリヌクレオチド分子の集団を生成するための方法
Czado et al. The effectiveness of various strategies to improve DNA analysis of formaldehyde‐damaged tissues from embalmed cadavers for human identification purposes
CN107794257B (zh) 一种dna大片段文库的构建方法及其应用
CN110684830A (zh) 一种石蜡切片组织rna分析方法
CN113817804B (zh) 一种测序文库自连接头消除的方法及应用
WO2012167083A2 (en) Method for measuring somatic dna mutational profiles

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
REG Reference to a national code

Ref country code: HK

Ref legal event code: DE

Ref document number: 40045104

Country of ref document: HK

GR01 Patent grant
GR01 Patent grant