CN105349617A - 一种对高通量rna测序数据的质量控制方法及装置 - Google Patents

一种对高通量rna测序数据的质量控制方法及装置 Download PDF

Info

Publication number
CN105349617A
CN105349617A CN201410409210.6A CN201410409210A CN105349617A CN 105349617 A CN105349617 A CN 105349617A CN 201410409210 A CN201410409210 A CN 201410409210A CN 105349617 A CN105349617 A CN 105349617A
Authority
CN
China
Prior art keywords
analysis
rna
external source
source object
expression
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201410409210.6A
Other languages
English (en)
Inventor
郁颖
庆涛
赵琛
杜婷婷
郑媛婷
石乐明
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fudan University
Original Assignee
Fudan University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fudan University filed Critical Fudan University
Priority to CN201410409210.6A priority Critical patent/CN105349617A/zh
Publication of CN105349617A publication Critical patent/CN105349617A/zh
Pending legal-status Critical Current

Links

Abstract

本发明属于高通量RNA测序技术领域,公开了一种通过加入外源参照物对高通量RNA测序数据进行质量评估和质量控制的方法,其包括:系统评估外源参照序列在测定样品中的比例、定量水平、基因覆盖度及测序错误率等特征,以及评估批次效应并在此基础上优化数据分析方案。本发明还公开了一种对高通量测序进行质量控制的装置,包括:基因表达测算单元、相关性分析单元、基因覆盖度分析单元和碱基错误率分析单元。本发明可以针对RNA质量、转录组测序实验过程及数据分析流程等多个环节进行质量控制,从而大幅提高高通量测序数据的可靠性和可重复性。

Description

一种对高通量RNA测序数据的质量控制方法及装置
技术领域
本发明属于生物技术领域,涉及一种对高通量RNA测序数据进行质量控制的方法及装置。
背景技术
转录组分析用的RNA-Seq作为一门高通量转录本定性和定量技术,在转录组的分析中已逐渐占据了主导地位。相对于基因芯片等技术,RNA-Seq能够对未知转录本进行定性和定量,同时,其原理是边合成边测序(SequencingbySynthesis,SBS),可以获得每个片段的碱基排序,所以也可以完成定量以外的其他分析,包括:单核苷酸多态性分析、基因融合分析和剪切异构分析等。RNA-Seq的这些优势使其得到了广泛的应用,尤其在疾病研究等方面,如,可以利用RNA-Seq寻找疾病相关的生物标志物,研究疾病和药物作用的机理,对疾病做出诊断和预测,等等,所以RNA-Seq为生物医药和个体化治疗的研究提供了有效的手段。
RNA-Seq作为一项新的技术有很多的优势,也面临许多挑战。如,从获得生物样本到RNA的提取、建库、测序,RNA经历了复杂的处理过程,这些处理过程会为最终的RNA测序结果引入相应的误差,这些误差会直接影响RNA-Seq技术的准确性及RNA-Seq数据分析结果的可靠性。目前关于RNA-Seq测序质量研究主要集中于建库引入的误差以及后期数据分析的可靠性。在RNA-Seq实验中,需要有RNA富集的过程,在RNA的富集过程中经常会残留RNA降解产物,并且富集过程对某些序列的富集存在偏差,这些误差将会在后续的处理步骤中被放大。
所述RNA-Seq还面临测序后生物信息学分析的问题,每次测序可以获得极大量的数据,在分析处理这些数据的过程中需要减低图像分析和碱基识别带来的误差,并且去除低质量测序读段,如何对数据作均一化处理,这些都是RNA-Seq所要面临的挑战;另外,RNA-Seq对于低丰表达转录本的定量存在偏差,均一化方法也会引入偏差。
因此,亟需一种方法对RNA-Seq测序质量及测序后的数据分析进行客观评估,进行质量控制,优化分析方案,从而提高数据可靠性和可重复性。外源参照物为此提供了契机。
ERCC(ExternalRNAControlConsortium)是序列和浓度已知的92条长约250-2000nt外源参照物RNA转录本,浓度有约106倍浓度差别。这些转录本主要来自于人工合成序列,以及一些病毒基因组序列,在模式生物和常用的非模式生物的样本中无法被检测到,因此是外源参照物。ERCC目前已经商业化销售,通常为需要外标RNA作为质控的芯片和测序等研究提供标准样品。ERCC混合样品有两种不同的浓度组成(Mix1和Mix2),两种混合样本都包含92条ERCC序列,92条序列被分为4组(A、B、C和D,每组23条序列),A、B、C和D四组中的转录本在Mix1和Mix2中的浓度差别比例为4.0、1.0、0.67和0.5倍。通过实验中加入ERCC可以比较理论加入浓度和实际测定浓度的关系。目前,在基因芯片和qPCR等实验中加入ERCC,可以对实验进行质量评估和控制。
然而,目前尚未见有关系统有效地利用ERCC对RNA-Seq测序与数据分析进行质量控制的方法与装置的报道。
发明内容
本发明要解决的一个技术问题是提供一种基因表达的RNA测序数据质量控制的方法和装置,尤其是一种对高通量RNA测序数据的质量控制方法及装置。采用该方法及装置可以分析外源参照物所得到的结果而检验测序数据的质量,并对数据处理过程的各个操作步骤进行质量控制,提高数据及分析结果的可靠性。
本发明公开了一种通过加入外源参照物对高通量RNA测序数据进行质量评估和质量控制的方法,其包括:系统评估外源参照序列在测定样品中的比例、定量水平、基因覆盖度及测序错误率等特征,以及评估批次效应并在此基础上优化数据分析方案。
更具体的,本发明的对高通量RNA测序数据的质量控制方法,其包括步骤:
(1)在待测RNA样品建库前加入一定比例的外源参照物,如ERCC(ExternalRNAControlConsortium)外源RNA标准品;
(2)由计算机接收包含转录组测序数据的数据集,该数据集包含有比对到外源参照物转录本的所有读段序列及质量参数;
(3)在(2)的基础上,计算外源参照物各个转录本测得读段量,进行标准化处理;
(4)在(3)的基础上,根据表达水平进行表达聚类分析及表达水平与理论表达值结果对比分析,判断测序过程及分析流程可靠性;
(5)在(3)的基础上,根据外源参照物转录本表达水平偏差,判断基因表达定量方法可靠性;
(6)在(3)的基础上,根据基因覆盖度,判断测序深度;
(7)在(3)的基础上,根据序列错误率,推测测序错误率及可靠性;
(8)根据步骤(4)到步骤(7)得到的参数调整优化数据分析方案。
本方法中,还包括:通过高通量测序技术对一组样品片段的基因表达进行测序,并随机加入外源参照物混合样品1和混合样品2,根据混合样品1和混合样品2理论表达差异与实际测序表达差异判断定量准确性。
本方法中,还包括:利用外源参照物样品序列、浓度已知的特性,对经过高通量测序测得的外源参照物与理论值(真实值)在表达量方面进行比较。
本方法中,还包括:通过对经过高通量测序测得的外源参照物3’/5’覆盖率分析,对RNA完整性与比对偏好方面进行比较。
本方法中,还包括:利用外源参照物样品序列、浓度已知的特性,对经过高通量测序测得的外源参照物与理论值(真实值)在碱基特征
本发明进一步公开了对高通量RNA测序数据的质量控制的装置,其包括:基因表达测算单元、相关性分析单元、基因覆盖度分析单元和碱基错误率分析单元;其中,
(1)基因表达测算单元:对高通量测序得到的测序片段进行转录组分析(RNA-Seq)分析;
(2)相关性分析单元:对多个转录组分析结果相关性聚类分析,及将转录组分析的结果与理论值的结果进行相关性对比分析;
(3)基因覆盖度分析单元:分析读段在转录本区域的覆盖水平;
(4)碱基错误率分析单元:分析测序读段序列与理论序列差异的发生比例。
本发明装置中,所述基因表达测算单元,还包括基因比对子单元、基因计数子单元、表达水平标准化子单元。
本发明装置中,所述相关性分析单元,还包括基于相关性的聚类分析子单元,及测量与理论值相关性分析子单元。
所述相关性分析单元中,所述理论值为理论浓度的对数值。
本发明可以针对RNA质量、转录组测序实验过程及数据分析流程等多个环节进行质量控制,从而大幅提高高通量测序数据的可靠性和可重复性。
附图说明
图1为一种关于基因表达的RNA测序的质控方法的流程图。
图2为两组外源参照物样品的ERCCMix1与Mix2表达聚类分析结果。
图3为两组外源参照物样品的ERCCMix1与Mix2测序分析结果与理论值对比结果,其中图3(a)为ERCCMix1测序分析结果与理论值对比结果,图3(b)为ERCCMix2测序分析结果与理论值对比结果。
图4为样品的表达量最高的20个ERCC转录本平均覆盖度。
图5为样品的ERCC转录本3’/5’覆盖比例。
图6为样品的序列碱基错误率与读段位点关系。
具体实施方式
下面参照附图用本发明的示例性实施例对本发明进行更全面的描述及说明,但并不意味着本发明仅限于此。
实施例1关于基因表达的高通量RNA测序的质控方法的流程图
结合附图1,所述质控方法的流程包括下述步骤:
(1)测量待测RNA样品总RNA质量,按照mRNA占总RNA2%估算mRNA质量;
(2)加入量为mRNA估算量的1%的已商业化的ERCC混合样本(Mix1或Mix2);
(3)对混合的RNA进行标准方法构建文库,进行高通量测序,获得待测样品的转录本测序数据;本实施例中的测序方法采用高通量测序技术IlluminaHiSeq2000测序平台,Illumina测序技术的核心是利用了基于芯片原理的“DNA簇”(DNAcluster)技术和“可逆终止化合物染料”技术,基于边合成边测序技术通过利用单分子阵列实现在小型芯片(FlowCell)上进行桥式PCR反应;新的可逆阻断技术可实现每次只合成一个碱基,不需要标记荧光基团,再利用相应的激光激发荧光基团捕获激发光,从而读取碱基信息;
(4)测序数据与ERCC转录本参考序列进行比对,获得可以比对到ERCC转录本的读段;
(5)计算ERCC各个转录本测得读段量,使用被称为每百万映射读取每千碱基读取(RPKM)的技术,对92条ERCC序列进行标准化处理,并用以2为底的指数转化,为避免出现无穷值,RPKM值均加1,并进行表达聚类分析及表达水平与理论表达值结果对比分析;
(6)为了估计基因是否被均一的读段完整覆盖,进行基因覆盖度分析;
(7)为了估计测序碱基错误率,对所有比对上的读段各个碱基位置的碱基错误率分析。
实施例2对320个加入ERCC的模式生物(大鼠)高通量RNA测序样品的质量控制
实验方法:本发明实施例中320个大鼠高通量RNA样品中,随机选160个样品加入ERCC混合样品Mix1,另160个样品加入ERCC混合样品Mix2。根据设计,ERCC混合样品1与混合样品2包含相同的92条ERCC序列,但浓度分布不同;
结果如图2-图6所示,结果显示:该实施例RNA质量、测序过程和分析方法均表现良好;另外序列读段前5bp错误率偏高,因此在后续样品分析中,应加入过滤条件,去除前5bp,或谨慎判断落于该位置的碱基突变;
图2示出本发明实施例的ERCC混合样品1与混合样品2表达聚类分析结果;本发明实施例中,ERCC表达水平按照ERCC混合样品1/2聚为不同分支,混合样品内部Pearson相关系数较高,而ERCC混合样品1与混合样品2之间相关系数较低,说明测序方法与分析流程有可靠性,可以将上述浓度差异的样品区分开来;
图3示出本发明两组样品的ERCCMix1与Mix2测序分析结果与理论值散点图结果;根据设计,92条ERCC混合物有106浓度差异;本发明实施例中,测量获得ERCC表达水平(y轴)与理论ERCC浓度(x轴)呈线性关系(蓝色线为线性拟合线),此外,低浓度ERCC表达水平的离散度比高浓度ERCC高,说明测序方法与分析流程的可靠性,同时指明测序表达水平RPKM可靠值范围;
图4示出本发明样品的表达量最高的20个ERCC基因平均覆盖度。基因覆盖度按照以下公式计算:
基因覆盖度(%)=(有至少一个读段覆盖碱基数/基因长度)x100%
如图4所示,本发明实例样品基因覆盖度在98%,其中有2个样品基因表达水平低且覆盖度差,提示在ERCC加入过程中可能出现漏加的情况;
图5示出本发明实施例样品的ERCC基因3’/5’覆盖率,理论上基因3’/5’覆盖率为1,由于ERCC序列末端的polyA序列,在序列比对时会存在一定偏差,因此ERCC理论3’/5’覆盖率应略低于1;若3’/5’覆盖率>1则提示3’偏好,显示出可能RNA存在降解,RNA质量较差;基因3’/5’覆盖率按照以下公式计算:
3’/5’覆盖率=3’端50bp碱基平均覆盖度/5’端50bp碱基平均覆盖度
3′/5′覆盖率=3′端50bp碱基平均覆盖度/5′端50bp碱基平均覆盖度
如图5所示,本发明实例样品ERCC平均3’/5’覆盖率为0.823,说明ERCC质量良好,无3’偏好现象;
图6示出本发明实施例样品的序列碱基错误率与读段位点关系,由于ERCC序列碱基组成已知,根据测得的碱基与理论值比较即获得序列每个读段位点的碱基错误率;由图6所示,本发明实施例样品采用50bp单端测序技术,其中前5bp错误率明显高于其他位置,因此在后续样品分析中,应加入过滤条件,去除前5bp,或谨慎判断落于该位置的碱基突变。
应说明的是:参考前述本发明示例性的描述,本领域技术人员可以清楚的知晓本发明提供的于外源参照物对高通量RNA测序的质量控制装置所具有的前述优点,本发明提供的质控方案适用于高通量测序技术,能够有效地评估RNA测序的稳定性,确保测序工作的准确性。本发明的描述是为了示例和描述起见而给出的,本发明中描述的功能模块以及功能单元的划分方式仅为说明本发明的思想,是对本发明的描述而不是无遗漏的或限定所描述的形式,基于本发明思想的其它实施方式,均在本发明的保护范围之中。

Claims (9)

1.一种对高通量RNA测序数据的质量控制方法,其特征在于,包括以下步骤:
(1)在待测RNA样品建库前加入一定比例的外源参照物,如ERCC(ExternalRNAControlConsortium)外源RNA标准品;
(2)由计算机接收包含转录组测序数据的数据集,该数据集包含有比对到外源参照物转录本的所有读段序列及质量参数;
(3)在(2)的基础上,计算外源参照物各个转录本测得读段量,进行标准化处理;
(4)在(3)的基础上,根据表达水平进行表达聚类分析及表达水平与理论表达值结果对比分析,判断测序过程及分析流程可靠性;
(5)在(3)的基础上,根据外源参照物转录本表达水平偏差,判断基因表达定量方法可靠性;
(6)在(3)的基础上,根据基因覆盖度,判断测序深度;
(7)在(3)的基础上,根据序列错误率,推测测序错误率及可靠性;
(8)根据步骤(4)到步骤(7)得到的参数调整优化数据分析方案。
2.根据权利要求1所述的方法,其特征在于,所述方法还包括:通过高通量测序技术对一组样品片段的基因表达进行测序,并随机加入外源参照物混合样品1和混合样品2,根据混合样品1和混合样品2理论表达差异与实际测序表达差异判断定量准确性。
3.根据权利要求1所述的方法,其特征在于,所述方法还包括:利用外源参照物样品序列、浓度已知的特性,对经过高通量测序测得的外源参照物与理论值(真实值)在表达量方面进行比较。
4.根据权利要求1所述的方法,其特征在于,所述方法还包括:通过对经过高通量测序测得的外源参照物3’/5’覆盖率分析,对RNA完整性与比对偏好方面进行比较。
5.根据权利要求1所述的方法,其特征在于,所述方法还包括:利用外源参照物样品序列、浓度已知的特性,对经过高通量测序测得的外源参照物与理论值(真实值)在碱基特征方面进行比较。
6.一种对高通量RNA测序数据的质量控制的装置,其特征在于,包括:
(1)基因表达测算单元:对高通量测序得到的测序片段进行转录组分析(RNA-Seq)分析;
(2)相关性分析单元:对多个转录组分析结果相关性聚类分析,及将转录组分析的结果与理论值的结果进行相关性对比分析;
(3)基因覆盖度分析单元:分析读段在转录本区域的覆盖水平;
(4)碱基错误率分析单元:分析测序读段序列与理论序列差异的发生比例。
7.根据权利要求6所述的装置,其特征在于,所述基因表达测算单元,还包括基因比对子单元、基因计数子单元、表达水平标准化子单元。
8.根据权利要求6所述的装置,其特征在于,所述相关性分析单元,还包括基于相关性的聚类分析子单元,及测量与理论值相关性分析子单元。
9.根据权利要求6所述的装置,其特征在于,所述相关性分析单元,其中,所述理论值为理论浓度的对数值。
CN201410409210.6A 2014-08-19 2014-08-19 一种对高通量rna测序数据的质量控制方法及装置 Pending CN105349617A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201410409210.6A CN105349617A (zh) 2014-08-19 2014-08-19 一种对高通量rna测序数据的质量控制方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201410409210.6A CN105349617A (zh) 2014-08-19 2014-08-19 一种对高通量rna测序数据的质量控制方法及装置

Publications (1)

Publication Number Publication Date
CN105349617A true CN105349617A (zh) 2016-02-24

Family

ID=55325679

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201410409210.6A Pending CN105349617A (zh) 2014-08-19 2014-08-19 一种对高通量rna测序数据的质量控制方法及装置

Country Status (1)

Country Link
CN (1) CN105349617A (zh)

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106701995A (zh) * 2017-02-20 2017-05-24 元码基因科技(北京)有限公司 通过单细胞转录组测序进行细胞质量控制的方法
WO2017181368A1 (zh) * 2016-04-20 2017-10-26 华为技术有限公司 基因组变异检测方法、装置及终端
CN108707663A (zh) * 2018-04-19 2018-10-26 深圳华大基因股份有限公司 用于癌症样本miRNA测序定量结果评价的试剂、制备方法和应用
CN109385468A (zh) * 2017-08-11 2019-02-26 深圳华大基因股份有限公司 检测链特异性效率的成套试剂与方法
CN109559780A (zh) * 2018-09-27 2019-04-02 华中科技大学鄂州工业技术研究院 一种高通量测序的rna数据处理方法
CN109996877A (zh) * 2016-12-16 2019-07-09 深圳华大基因股份有限公司 一种用于核酸样品标识的基因标签、试剂盒及其应用
CN110021347A (zh) * 2018-09-30 2019-07-16 南京派森诺基因科技有限公司 一种基于miRBase数据库的动物有参的miRNA数据分析方法

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
QING TAO等: "mRNA enrichment protocols determine the quantification characteristics of external RNA spike-in controls in RNA-Seq studies", 《SCI CHINA LIFE SCI》 *
张春兰等: "转录组与RNA-seq技术", 《生物技术通报》 *
高山等: "《R语言与Bioconductor生物信息学应用》", 31 January 2014, 天津科技翻译出版有限公 *

Cited By (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2017181368A1 (zh) * 2016-04-20 2017-10-26 华为技术有限公司 基因组变异检测方法、装置及终端
CN109996877A (zh) * 2016-12-16 2019-07-09 深圳华大基因股份有限公司 一种用于核酸样品标识的基因标签、试剂盒及其应用
CN106701995A (zh) * 2017-02-20 2017-05-24 元码基因科技(北京)有限公司 通过单细胞转录组测序进行细胞质量控制的方法
CN109385468A (zh) * 2017-08-11 2019-02-26 深圳华大基因股份有限公司 检测链特异性效率的成套试剂与方法
CN109385468B (zh) * 2017-08-11 2022-08-16 深圳华大基因股份有限公司 检测链特异性效率的成套试剂与方法
CN108707663A (zh) * 2018-04-19 2018-10-26 深圳华大基因股份有限公司 用于癌症样本miRNA测序定量结果评价的试剂、制备方法和应用
CN108707663B (zh) * 2018-04-19 2022-03-08 深圳华大基因股份有限公司 用于癌症样本miRNA测序定量结果评价的试剂、制备方法和应用
CN109559780A (zh) * 2018-09-27 2019-04-02 华中科技大学鄂州工业技术研究院 一种高通量测序的rna数据处理方法
CN110021347A (zh) * 2018-09-30 2019-07-16 南京派森诺基因科技有限公司 一种基于miRBase数据库的动物有参的miRNA数据分析方法
CN110021347B (zh) * 2018-09-30 2023-08-08 南京派森诺基因科技有限公司 一种基于miRBase数据库的动物有参的miRNA数据分析方法

Similar Documents

Publication Publication Date Title
CN105349617A (zh) 一种对高通量rna测序数据的质量控制方法及装置
US20220282303A1 (en) Methods for standardized sequencing of nucleic acids and uses thereof
Coenen-Stass et al. Evaluation of methodologies for microRNA biomarker detection by next generation sequencing
US20230127610A1 (en) Methods and systems for visualizing data quality
Luthra et al. Next-generation sequencing in clinical molecular diagnostics of cancer: advantages and challenges
US11615863B2 (en) Universal method to determine real-time PCR cycle threshold values
Borgström et al. Large scale library generation for high throughput sequencing
Bohers et al. cfDNA sequencing: technological approaches and bioinformatic issues
JP2012501658A (ja) 核酸配列決定の検証、較正、および標準化のための方法およびシステム
US9944973B2 (en) Methods for standardized sequencing of nucleic acids and uses thereof
CN111566225A (zh) 归一化肿瘤突变负荷
JP2008533558A (ja) 遺伝子型分析のための正規化方法
EP2821501A1 (en) Method and device for detecting microdeletion in chromosome sts area
CN104178556A (zh) 神经胶质瘤分子分型基因群及其应用
CN108351918B (zh) 对目标分析物的数据集的校准方法
WO2018106884A1 (en) Methods for detecting mutation load from a tumor sample
EP4152334A1 (en) Gene sequencing analysis method and apparatus, and storage medium and computer device
KR20220073859A (ko) 미세부수체 불안정성을 결정하기 위한 시스템 및 방법
CN103902852A (zh) 基因表达的定量方法及装置
EP2761302B1 (en) Method and systems for image analysis identification
Ogawa et al. The efficacy and further functional advantages of random-base molecular barcodes for absolute and digital quantification of nucleic acid molecules
WO2023034531A1 (en) Compositions, methods, and systems for non-invasive prenatal testing
EP3844755A1 (en) Methods for detecting mutation load from a tumor sample
CN105695581B (zh) 一种基于二代测试平台的中通量基因表达分析方法
JP7160349B2 (ja) 核酸をシークエンシングする方法および解析する方法

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20160224

RJ01 Rejection of invention patent application after publication