CN113463202B

CN113463202B - 一种新的rna高通量测序的方法、引物组和试剂盒及其应用

Info

Publication number: CN113463202B
Application number: CN202010248230.5A
Authority: CN
Inventors: 潘星华; 麦丽瑶; 王琳琳; 丘银彬; 尹瑶; 王斯琪
Original assignee: Guangzhou Sequmed Biotechnology Inc; Southern Medical University
Current assignee: Guangzhou Sequmed Biotechnology Inc
Priority date: 2020-03-31
Filing date: 2020-03-31
Publication date: 2022-04-15
Anticipated expiration: 2040-03-31
Also published as: CN113463202A

Abstract

本发明公开了用于高通量构建RNA测序文库的引物组和建库方案及相关试剂盒及其应用；本发明还公开了该文库的构建方法和测序数据的分析方法。用于RNA高通量测序文库构建的引物组，其包括反转录引物，所述反转录引物包含转录子水平的独特分子标记(UMI)，或/和样品条码(barcode)，或/和实验批次索引(Index)以及与特定二代测序平台相兼容的测序文库5’接头序列(Adapter 5’)相兼容的序列。采用本发明的文库构建方法、测序方法和数据分析方法，建库流程简单，操作方便；建库时间显著缩短；能进行较大量样品的高通量操作，建库效率提高；分析过程更简单；建库、测序和分析成本显著降低。

Description

一种新的RNA高通量测序的方法、引物组和试剂盒及其应用

技术领域

本发明涉及RNA高通量测序技术领域，尤其是用于RNA高通量测序的引物组、试剂盒和方法及其应用。

背景技术

转录组测序(RNA-Seq，通常指mRNA-seq)对正常和病理样本提供数字化和可视化转录组图谱，促进了对生命和疾病过程的分子机制的理解，有重要的应用前景，是功能基因组学的关键组成部分。虽然RNA-seq已经从群体细胞测序深入到单细胞水平，但群体细胞RNA测序文库构建仍然具有最广泛的市场，然而目前的测序建库技术步骤繁多、费用昂贵、费时费力、建库和测序成本高。人们期望一种更高效、高通量的简便RNA-seq技术。我们注意到，在RNA测序应用中，多数主要是需要分析基因表达差异，并不需要得到全长转录本的序列；另外，现今文库构建方案中有些步骤其实是多余的。

诞生于20世纪70年代的第一代测序技术(Sanger测序)^[1]，帮助科学家们开始探索基因组信息，在基因组序列的解密上取得了前所未有的重大突破；但是，由于测序的通量低以及费时费力。在这种情况下。高通量测序又称为“下一代测序技术”或“二代测序技术”(Next Generation Sequencing，NGS)应运而生。它能一次并行对百万甚至亿级的DNA分子进行序列测定，具有高效性等特点，推动了人类基因组计划和后基因组计划等重大研究的完成。近年来，高通量测序技术也在逐步地获得更新，并发展到转录组、表观组、蛋白质组及多维组学领域，并得到越来越广泛的关注和应用，使我们能够不仅对一个物种的基因组进行细致全貌的分析，而且也促进了人类健康和疾病的分子机制和调控机制研究以及诊疗的突破性进展。

近年来，测序工业一直由Illumina主导，Illumina采用基于边合成边测序方法，使用荧光标记的可逆终止核苷酸。测序文库中的DNA分子被原位克隆扩增，固定在流动槽(flow cell)的表面上。目前，Illumina HiSeq是RNA-Seq最常用的一种测序平台，并为NGS测序设定了标准。该平台有不同数量的流动槽，每个流动槽提供八个独立的通泳道(lane)，一个lane包含两列，每一列有60个小区(tile)，每个tile会种下不同的簇(cluster)，从而进行测序反应，每个通泳道可以加入多个测序文库。每个文库各有独立的索引(Index)，每个文库可以是一个样品或者是多个样品；如果是多个样品则每个样品还必须相互区分，例如在单细胞测序中用条码(Barcode)。

目前市场上关于从群体细胞样品(即纯化RNA)进行RNA-Seq(这里专指mRNA-seq)的建库试剂盒主要来自于Illumina、NEB、Qiagen以及Invitrogen公司。Illumina、NEB和Qiagen公司现有的mRNA-Seq的建库流程相似，步骤如下：提取总RNA后，使用oligo dT磁珠富集Poly A RNA(mRNA)；然后片段化mRNA，并用随机引物进行反转录；接下来对cDNA片段的3’末端加A以便于连接含有批次索引index和测序引物结合位点“Y”形接头；最后，连接的cDNA被PCR扩增并准备用于测序分子簇生成和测序(如图1A)。Invitrogen的RNA文库制备试剂盒与前三种有部分不同，它的主要步骤如下：提取总RNA后，需要进行rRNA的去除或者mRNA的富集；再进行RNA片段化；之后加入一组DNA/RNA接头混合物，其一端具有单链简并序列，另一端具有确定序列，其简并序列可与片段化RNA结合并将接头带至RNA附近，之后加入连接酶混合物以连接接头；再加入反转录引物合成cDNA第一条链；最后用带有测序平台的引物PCR扩增cDNA用于簇生成和测序(如图1B)。

上述建库方法存在以下几个缺点：操作步骤较多(使用磁珠富集mRNA较麻烦，mRNA需要片段化，cDNA末端需要修饰，并需要连寡核苷酸双链接头)，尤其在进行大量样品建库时，每个样品分别操作费时费力，容易出错(包括污染等)；PCR的扩增过程中会产生PCR偏差，某些片段被大量扩增而有些片段被扩增的量很少，甚至没有被扩增，结果就导致高通量测序只能测到样本中很少一部分的片段序列，而且PCR偏差会随着PCR扩增次数的增加而放大；整个实验步骤按照建库试剂盒来进行，建库成本较高；目前的群体细胞RNA-seq一般需要进行全长RNA测序，而在实际应用中在很多情况下只用到RNA表达信息(测序数据中基因剪切信息、位点特异性表达信息、序列突变信息等往往较少应用)，浪费了测序资源、增加了费用(如表1所示)。

发明内容

基于上述问题，本发明的目的在于克服上述现有技术的不足之处而提供一种转录组高通量RNA测序文库的构建方法，该方法成本更低，耗时更短。

为实现上述目的，本发明采取的技术方案包括以下四个主要方面：引物组、试剂盒、实验方案(即检测方法)、和应用。

在第一个方面，本发明提供了用于RNA高通量测序文库构建的引物组，其中引物包含转录子水平的独特分子标记(UMI)，或/和样品条码(barcode)；

优选地，所述引物还包含实验批次索引(Index)以及与特定二代测序平台相兼容的测序文库接头序列(Adapter)相兼容的序列。

更优选地，所述引物组包括反转录引物，和cDNA二链合成引物、及PCR扩增引物。所述(3种)引物包含转录子水平的独特分子标记(UMI)，或/和样品条码(barcode)，或/和实验批次索引(Index)以及与特定二代测序平台相兼容的测序文库接头序列(Adapter)相兼容的序列。

在一个特定实施方案中，所述引物组包括反转录引物(即第一链cDNA合成引物)，所述引物3’末端带有oligo-dT，长度为6～40个碱基(即核苷酸，本发明中，碱基代指核苷酸，两者互换使用)，优选为18-24个碱基；优选地，所述引物5’端包括测序文库5’接头序列(Adapter)相兼容的序列(即本发明标准程序方案中的Index)。

在一个特定实施方案中，所述3’末端的oligo-dT末端为TnVN-3’、TnV-3’、Tn-3’、或TnN-3’，优选为TnVN-3’或TnV-3’，其中n为6～40，V代表C、G或A；N表示A、T、C和G中任意一种。

在一个特定实施方案中，所述反转录引物5’和/或3’末端具有硫代磷酸酯修饰或其他保护性修饰，以保护末端不被降解。

优选地，所述反转录引物5’和/或3’末端及近末端第1-5核苷酸位置之间具有稳定核苷酸免于降解的修饰，更优选地，所述修饰为硫代磷酸酯修饰。

在一个特定实施方案中，所述独特分子标记(UMI)、样品条码(barcode)和实验批次索引(Index)分别是由长度为1～30个碱基组成的寡核苷酸。

在一个特定实施方案中，所述独特分子标记(UMI)、样品条码(barcode)和实验批次索引(Index)中每个位置的碱基为A、T、C和G中任意一种，3种/2种碱基中任意一种，或特定碱基。

在一个特定实施方案中，所述引物组还包括cDNA第二链的合成引物。

在一个特定实施方案中，所述cDNA第二链的合成引物的3’末端随机序列或半随机序列长度为3～15个碱基，由完全随机序列、部分随机序列或特定碱基序列组成；cDNA第二链的合成引物的5’末端具有与特定测序平台3’测序系统相兼容的序列。其中兼容序列指的是，含有该序列的测序文库在加入测序平台后，能被测序系统所识别、并有效处理和测序。

优选地，合成所述cDNA第二链的的引物的碱基序列为“GCCTTGGCACCCGAGAATTCCANNNNNNTT”。

优选地，所述引物包括cDNA文库PCR扩增引物，包括：PCR引物之一，其兼容所述反转录引物，用于捕获、扩增mRNA 3’端cDNA序列；以及

PCR引物之二，其兼容cDNA第二链的合成引物，用于捕获、扩增mRNA远3’端方向的cDNA序列。

在一个特定实施方案中，所述引物组还包括对mRNA3’端对应cDNA片段的有效扩增和富集的PCR引物，可用作第一次文库扩增和第二次文库扩增。所用引物对(包括每组2个引物)兼容所述反转录引物(相当于捕获mRNA 3’端所对应cDNA序列)及第二链合成引物(相当于捕获mRNA的远3’端方向所对应cDNA序列)。这里兼容指的是，所述扩增引物能有效扩增含有mRNA3’端对应的cDNA序列。

需要指出的是，PCR扩增需要2个引物。如果PCR产物两端有较长的一致序列，包括用同一个较长的引物在一个DNA片段的2个末端进行扩增，将能形成较稳定的发夹，从而抑制后续的扩增；即长的单引物扩增效率极低(PCR抑制效应)。故如果在同一个反应体系同时存在含有不同引物的DNA片段的PCR扩增，含有同一个引物的DNA序列将不能有效扩增并在扩增中剔除^[13].

本系统(即本发明)的PCR引物对分别捕获mRNA的3’端所对应cDNA片段的两端，包括不同片段的2端，其中一个是mRNA近3’端方向(对应于mRNA3’末端cDNA)，一个是mRNA远3’端方向(对应于mRNA3’末端序列polyA的另外方向，即对应cDNA片段的远3’端方向)。由于前期的反转录和第二链cDNA合成反应引进的序列较长，PCR扩增产物两端固定序列也就较长，因此，不含有mRNA3’末端所对应的cDNA序列的cDNA中间片段(其两端只可能含有一种引物，即与二链合成引物相对应的PCR引物)将会剔除。同时，含有mRNA3’末端所对应的cDNA序列即cDNA末端片段，其两端将含有2种不同引物，片段将会有效扩增，而得到高效富集。

还需要说明的是，本系统(即本发明)每次扩增都需要2个引物，分别对应于cDNA

(mRNA)的3’端片段的两端，即不同片段的2端，其中一个是近3端(对应于mRNA3’末端)，一个是远3’端；并不是每次扩增只要一个引物。由于PCR扩增引物较长，并且由于同一个较长的引物在一个DNA片段的2个末端能形成发夹及PCR抑制效应，故含有同一个引物的DNA序列将不能有效扩增并在扩增中剔除。因此，不含有mRNA3’末端对对应的cDNA序列的cDNA中间片段将会剔除，故而，采用这一个系统(即本发明)，能够高效富集mRNA3’端的cDNA序列。

在一个特定实施方案中，所述反转录引物的碱基序列如SEQ ID NO.1～8中任一项所示。

在一个特定实施方案中，所述cDNA第二链的合成引物的碱基序列如SEQ ID NO.9或10所示。

在一个特定实施方案中，所述PCR引物之一的碱基序列如SEQ ID NO.11所示。

在一个特定实施方案中，所述PCR引物之二的碱基序列如SEQ ID NO.12所示。

在第二个方面，本发明提供了用于RNA高通量测序文库构建的试剂盒，其包含上述的引物组。

在一个特定实施方案中，所述RNA为样品的总RNA，或者是从从总DNA分离的mRNA。

在一个特定实施方案中，所述样品是群体细胞、2个以上的小群体细胞或单个细胞。

在一个特定实施方案中，所述高通量测序平台是Illumina测序平台HiSeq、NextSeq、MiniSeq、MiSeq、NovaSeq、或华大基因(BGI)的MGISEQ。

在一个特定实施方案中，所述高通量测序平台是Illumina HiSeq×10高通量测序仪。

在第三个方面，本发明提供了用于RNA高通量测序的方法，包括以下步骤：

(1)获得1个以上样品的RNA；

(2)用二代测序平台相兼容、测序文库5’端序列相偶联的反转录引物对步骤(1)所得RNA进行反转录，以使poly A选择和反转录合成第一条cDNA同步完成，得到反转录产物；

(3)用二代测序平台相兼容测序文库3’接头的引物合成第二条cDNA，得到双链cDNA；

(4)在第二链cDNA合成之前或之后，合并多个平行操作的样品(1-500个样品)的产物到一个试管中，然后纯化、浓缩；

(5)以步骤(4)所得双链cDNA为底物，进行第一次PCR扩增，得到仅包含mRNA的3’末端相对应的cDNA的初步文库；扩增基于由3’端方向引物(对应于mRNA远3’端)和5端’方向引物(对应于mRNA近3’端)构成的一对PCR引物进行；其中5端’引物包含批次索引(Index)；引物对与特定二代测序平台相兼容；

(6)对上述文库，进行片段长度选择、富集或回收，和纯化，获得适合于测序平台的长度的文库；

(7)用二代测序平台对步骤(6)所得测序文库测序，以获得混合样品的转录组表达谱；

(8)通过信息分析解码步骤(7)所得转录组表达谱，获得各个批次、和各个样品的转录组表达谱，即得。

优选地，所述步骤(5)之后还包括第二次PCR扩增，以获得适合二代测序的最终测序文库；

更优选地，第二次PCR扩增时，采用第一次PCR同样的引物对，包括同样的Index；或者其中的部分序列。

优选地，所述步骤(1)中的RNA为总RNA，或者是从总DNA分离的mRNA。

优选地，所述步骤(1)中的样品是直接采用群体细胞、2个以上的小群体细胞、或单个细胞进行管内裂解释放，而不经过前期的RNA纯化、洗脱、回收过程。

优选地，所述步骤(1)中，在分裂总RNA时，将基因组DNA采用物理方法、化学方法或酶解法剔除。

优选地，所述步骤(1)中的RNA为细胞的总RNA，总RNA通过去污剂裂解样品细胞膜而释放游离出来，同时剔除基因组DNA。

优选地，所述步骤(2)中引物为权利要求1-13所述引物组。

优选地，所述步骤(3)中的cDNA第二链合成引物的3’末端序列是完全随机或部分随机序列或特定碱基组成的序列，其长度为3～15个碱基，同时引物5’端有与特定测序平台3’测序系统相兼容的序列。

优选地，所述步骤(3)中的cDNA第二链合成引物的3’末端为1个或2个T。

优选地，所述步骤(2)、(3)、(6)、(7)中的测序平台为Illumina测序平台HiSeq、NextSeq、MiniSeq、MiSeq、NovaSeq、或华大基因(BGI)的MGISEQ。

优选地，所述步骤(6)中测序文库进行纯化或回收特定长度序列，回收特定序列长度为250bp-1000bp，优选400bp-800bp、更优选4000bp-700bp、最优选400bp-600bp。

优选地，其中初步测序文库或/和最终测序文库进行特定长度序列的回收，回收特定序列长度的方法为凝胶电泳、可分选DNA长度的磁珠、或HPLC；所述磁珠优选AMPure XPBeads。

优选地，所述第一次PCR扩增和第二次PCR扩增所用引物兼容SEQ ID NO.1～8、SEQID NO.9或10的全长序列、或其部分序列。

优选地，所述步骤(7)中测序平台采用Illumina Hiseq X10高通量测序仪，以及双端或单端测序；优选地，所述双端测序长度为150bp，

更优选地，单端或双端进行不同长度测序。

优选地，所述步骤(8)中测序数据的信息解码分析方法，包括如下步骤：

1)对步骤(5)的转录组表达谱测序数据进行预处理，包括：质量控制、Index分流、barcode分流、去除polyA序列、去除测序接头和低质量碱基、根据UMI进行读数的扩增偏差剔除；

2)对步骤1)预处理后的测序数据进行比对、比对结果质控、Reads count计数、Reads count标准化、计算检出基因数并绘制Venn图、Pearon相关系数评估、检出基因富集分析、GO富集分析、热图分析、相关性分析和差异基因分析。

优选地，所述步骤(8)中测序数据的信息解码分析方法，对特定研究对象转录组终止位点进行解析。

在第四个方面，本发明提供了上述的引物组、试剂盒或测序方法在在生物科学研究、医学研究、临床诊断或药物研发，和农业、植物、动物、微生物研究中的应用，包括但是不限于发育、肿瘤、免疫、遗传病、实验针对、病毒、畜牧、中药、药物研发领域。

相比现有的其它基于Illumina测序平台的RNA-Seq建库方法，SuperSMART具有以下优势：1)建库方法超级简单，操作方便；2)能进行高通量操作：程序早期合并多个样品之后单管操作，减少操作过程中的批次效应和劳动强度；3)时间大大缩短：7个小时内可完成一批文库构建；4)文库构建成本大大下降；5)需要的测序读数较低、测序经济效率高；6)对RNA样品质量有较好的耐受性；7)数据更低噪声、分析更简单；8)该方法具有需要更少起始RNA的潜力，甚至进行单细胞RNA测序。

附图说明

图1是SuperSMART与常用RNA建库方法的工作流程图，其中，A是Illumina、NEB、Qiagen RNA建库流程图；B是Invitrogen RNA建库流程图；C是SuperSMART RNA建库流程图；

图2是SuperSMART文库结构图；

图3是原始数据中每个碱基的质量结果图；

图4是K562细胞示意图；

图5是Jurkat细胞示意图；

图6是实验组Countess II细胞计数仪检测K562和Jurkat细胞活性及数目图；

图7是K562细胞总RNA样本1μL的Agilent 2100生物分析仪图像；

图8是Jurkat细胞总RNA样本1μL的Agilent 2100生物分析仪图像；

图9是Illumina Tru-Seq K562细胞总RNA样本1μL的Agilent TapeStation图像；

图10是SuperSMART四个文库样本的E-Gel成像仪图像，其中，从左至右依次为Marker、水、K1(K562细胞系样品1，以下均简称K1)、水、K2(K562细胞系样品2，以下均简称K2)、水、JK1(Jurkat细胞系样品1，以下均简称JK1)、水、JK2(Jurkat细胞系样品2，以下均简称JK2)、水、Marker；

图11是SuperSMART四个文库样本切胶300bp-800bp后的E-Gel成像仪图像，其中，从左至右依次为Marker、水、K1、水、K2、水、JK1、水、JK2、水、Marker；

图12是SuperSMART四个样品文库浓度Qubit 3.0荧光计检测结果图，其中，从上至下依次为：JK2、JK1、K2、K1；

图13是SuperSMART四个样品切胶后文库样本的Agilent 2100生物分析仪图像，其中，

A为(样品1)K562细胞切胶后文库样本1μL的Agilent 2100生物分析仪图像；

B为(样品2)K562细胞切胶后文库样本1μL的Agilent 2100生物分析仪图像；

C为(样品3)Jurkat细胞切胶后文库样本1μL的Agilent 2100生物分析仪图像；

D为(样品4)Jurkat细胞切胶后文库样本1μL的Agilent 2100生物分析仪图像；

图14是Illumina Tru-Seq K562细胞文库样本1μL的Agilent TapeStation图像；

图15是SuperSMART中四个样品的碱基质量图，其中，A是K562细胞样品1的read 2碱基质量图，B是K562细胞样品2的read 2碱基质量图，C是Jurkat细胞样品1的read 2碱基质量图，D是Jurkat细胞样品2的read 2碱基质量图；

图16是Illumina Tru-Seq中两个样品的碱基质量图，其中，A是K562细胞样品1的read 1碱基质量图，B是K562细胞样品1的read 2碱基质量图，C是K562细胞样品2的read 1碱基质量图，D是K562细胞样品2的read 2碱基质量图；

图17是SuperSMART中四个样品的tile质量图，其中，A是K562细胞样品1的read 2中每个tile质量图，B是K562细胞样品2的read 2中每个tile质量图，C是Jurkat细胞样品1的read 2中每个tile质量图，D是Jurkat细胞样品2的read 2中每个tile质量图；

图18是Illumina Tru-Seq中两个样品的tile质量图，其中，A是K562细胞样品1的read 1中每个tile质量图，B是K562细胞样品1的read 2中每个tile质量图，C是K562细胞样品2的read 1中每个tile质量图，D是K562细胞样品2的read 2中每个tile质量图；

图19是SuperSMART四个样品的ATCG四种碱基的分布结果图，其中，

A显示K562细胞样品1的read 2中所有reads的每一个位置中ATCG四种碱基的分布，

B显示K562细胞样品2的read 2中所有reads的每一个位置中ATCG四种碱基的分布，

C显示Jurkat细胞样品1的read 2中所有reads的每一个位置中ATCG四种碱基的分布，

D显示Jurkat细胞样品2的read 2中所有reads的每一个位置中ATCG四种碱基的分布；

图20是Illumina Tru-Seq两个样品的ATCG四种碱基的分布结果图，其中，

A显示K562细胞样品1的read 1中所有reads的每一个位置中ATCG四种碱基的分布，

B显示K562细胞样品1的read 2中所有reads的每一个位置中ATCG四种碱基的分布，

C显示K562细胞样品2的read 1中所有reads的每一个位置中ATCG四种碱基的分布，

D显示K562细胞样品2的read 2中所有reads的每一个位置中ATCG四种碱基的分布；

图21是SuperSMART四个样品的reads平均GC含量的分布结果图，其中，A显示K562细胞样品1的read 2中所有reads平均GC含量的分布，B显示K562细胞样品2的read 2中所有reads平均GC含量的分布，C显示Jurkat细胞样品1的read 2中所有reads平均GC含量的分布，D显示Jurkat细胞样品2的read 2中所有reads平均GC含量的分布；

图22是Illumina Tru-Seq两个样品的reads平均GC含量的分布结果图，其中，A显示K562细胞样品1的reads中所有reads平均GC含量的分布，B显示K562细胞样品2的reads中所有reads平均GC含量的分布；

图23是SuperSMART和Illumina Tru-Seq中六个样本比对到的Reads在基因组不同区域分布结果图，其中，

A显示SuperSMART中K562样品1的Reads在基因组的分布(外显子区域：91.64％)，

B显示SuperSMART中K562样品2的Reads在基因组的分布(外显子区域：92.6％)，

C显示SuperSMART中Jurkat样品1的Reads在基因组的分布(外显子区域：92.86％)，

D显示SuperSMART中Jurkat样品2的Reads在基因组的分布(外显子区域：93.51％)，

E显示Illumina Tru-Seq中K562样品1的Reads在基因组的分布(外显子区域：94.23％)，

F显示Illumina Tru-Seq中K562样品1的Reads在基因组的分布(外显子区域：93.57％)；

图24是SuperSMART和Illumina Tru-Seq中六个样本的基因覆盖度结果图，其中，A显示SuperSMART和Illumina Tru-Seq中六个样本的基因覆盖度，B是SuperSMART和Illumina Tru-Seq中六个样本的基因覆盖度热图；

图25是SuperSMART方法中K562#1文库的测序饱和度分析结果图；

图26是SuperSMART两种细胞的样本间相关性以及Illumina Tru-Seq样本间的相关性结果图，其中，

A显示SuperSMART中K562细胞两个样本之间的相关性(R＝0.977402)，

B显示SuperSMART中Jurkat细胞两个样本之间的相关性(R＝0.9759779)，

C是SuperSMART中K562细胞和Jurkat细胞样本间相关性热图，

D显示Illumina Tru-Seq中K562细胞两个样本之间的相关性(R＝0.9878312)；

图27是SuperSMART与Illumina Tru-Seq两种方法中六个样本的相关性对比结果图；

图28是SuperSMART与Illumina Tru-Seq两种方法中K562细胞检测基因数量的对比结果图(RPKM＞0.1)；

图29是SuperSMART与Illumina Tru-Seq两种方法中K562细胞富集的通路数量对比结果图；

图30是SuperSMART和Illumina Tru-Seq中K562样品检测的基因富集到的通路结果图，其中，A显示SuperSMART中K562样品RPKM＞0.1的11763个基因富集到的最显著的20条通路，B显示Illumina Tru-Seq中K562样品RPKM＞0.1的17292个基因富集到的最显著的20条通路。

具体实施方式

本发明提供了一种新的文库构建和测序方法(以下简称SuperSMART)及其设计和实验验证。这种测序方法是一种超级简便快捷的群体细胞3’端RNA转录组建库和测序方法。与现行的RNA建库测序方法如Illumina Tru-Seq方案相比，该方法免去mRNA组分离及其5’端捕获及体外转录过程，同时早期特异选取和标记各样品mRNA组并合并在单试管进行后续操作。该方法便于简便、快速地进行高通量文库构建，不需要特殊设备，而且测序数据要求大大减少，因而该方法经济而且高效。

在一些实施例中，本发明的文库构建和RNA测序方法，包括以下基本步骤：

1)样品中提取总RNA；

2a)用带有UMI(独特分子标记)和barcode(样品条码)以及Illumina 5’接头的oligo-dT引物反转录polyA-RNA；

2b)带有Illumina 3’接头的3’端随机引物合成cDNA第二条链，随后合并多个样品；

2c)通过物理方法选择文库长度，并用批次索引(Index)专门引物选择性地扩增转录子3’端，完成建库；

3)二代测序，同一测序泳道可包括多个样品文库；

4)数据提取和生物信息分析。

在一些实施例中，本发明采用K562和Jurkat2种细胞系测试SuperSMART测序方法的可行性，并与Tru-Seq测序结果相对照，实验结果显示：

1)两种方法测序reads的CG含量都接近正态分布(但对照组结果更典型)，峰值接近45％；

2)本方法和对照方法测序reads比对到基因组中的分布，两者均有超过90％以上的reads分布于外显子区域；

3)SuperSMART的覆盖范围集中在3’端，Illumina Tru-Seq的覆盖范围为5’到3’端，符合建库设计预期；

4)SuperSMART的4个样本平均得到了13381个基因且同种细胞样本间的相关性达到R＝0.977，能有效区分不同种细胞系样品的转录组谱；对照组现行方法Illumina Tru-Seq检测K562的2个样本中平均得到了18625个基因且同种细胞样本间的相关性达到R＝0.987；

5)进行GO分析(FDR<0.05且P<0.05)发现，SuperSMART富集到2029个通路，而Illumina Tru-Seq富集到2074个通路，双方享有共同通路1814条，重合率近90％；

6)上述分析中，SuperSMART所用读数为Tru-Seq读数的八分之一(1/8)，基因检出达饱和；模拟用50％读数分析时，SuperSMART检出基因数减少仅5％。

上述实验结果表明，SuperSMART的设计成功、结果可靠、方法可行、效率提高；其特征是测序结果覆盖mRNA的3’端，因而检测到的基因数数量比金标准Illumina Tru-Seq有所减少(71.8％)，符合单端转录子测序与全长测序的预期差异；但检出分子通路数目基本相同，重合率近90％；建库和测序经济效率和工作效率呈数量级提高。SuperSMART是本领域首个针对大量群体样品RNA-Seq的高通量建库、测序方法。与现行方法相比，本发明的SuperSMART具有更高经济效率、工作效率和时间效率，将在二代测序进行群体细胞甚至单细胞转录组图谱研究中发挥重要作用。

发明人所在实验室的研究关注于单细胞测序技术的开发和应用，在开发新的单细胞测序技术的过程中，综合分析前人的建库技术，包括群体细胞和单细胞建库方法，创新地设计了SuperSMART-seq(其优点参见下表1)，其能方便、简单、快速、经济地进行群体细胞的RNA-seq文库构建和测序，本发明首次描述第一种针对群体细胞样品RNA的3’端，高通量建库及测序方法。

在一些实施例中，本发明的高通量建库和RNA测序方法，首先直接用oligo-dT引发进行反转录(RT)选择多腺苷酸化RNA，使poly A选择和RT在一个步骤中有效地完成。通过将Illumina接头作为oligo-dT和随机引物的5’端直接插入反转录过程中来消除末端修饰和接头连接这些步骤。同时通过实验程序的早期引入样品条码(barcode)，在单链反转录后，立即合并多个样品反应物，实现下游实验程序的单管操作；实验程序早期还同时引入分子标识符(UMI)，使得PCR扩增过程中可能产生的拷贝数偏差，在数据分析时能够客观地系统地纠正。这种设计在保证测序质量的前提下减少了实验时间和劳动强度，也减少了对试剂盒的需求，降低了实验成本，提高了建库和测序效率。

表1本发明的SuperSMART和常用4种RNA建库方法的比较

UMIs(Unique Molecular Identifiers)是一种有多个脱氧核糖核苷酸随机组合序列，长度在4-20bp之间。在扩增步骤之前(通常在反转录期间)，UMIs被添加在每个转录本cDNA的3’或5’端之后，每个转录本都有独特的UMI标记。它起到的作用，是在经过PCR，再深度测序得到的reads中可以看出哪些reads是来自于一个原始cDNA分子的。这样，就可以将起始于一个原始cDNA分子，因为PCR扩增而产生的多个reads，简并成一个原始的cDNA分子。UMIs可以排除各种cDNA因为PCR扩增效率的不同而导致最后reads数量的偏差，也就是排除“PCR bias”。总的来说，通过使用独特的分子标识符(UMIs)可以消除扩增偏好性，使得样品中的每个分子都不同^[2]。同时在反转录引物中加入另外一套样品条码barcode(每个样品各具有独立的barcode)，在完成反转录后可将多个样品合并后再进行后续实验，实现高通量测序并可减少批次效应。

此外，和现行的全长RNA-Seq相比，本发明的方法得到的是RNA的3’端，而3’末端测序具有以下几个优点：1)低噪声基因表达谱；2)对RNA样品质量/完整性变化敏感性较低耐受性较强(与poly A富集方案相比)；3)需要的测序读数较低；4)建库方法更简单；5)与标准RNA-Seq相比，成本约为全长测序的十分之一到五分之一；6)总体成本低于或等于微阵列分析，但动态范围更高。

在一些实施例中，本发明的方法(命名为SuperSMART)的步骤包括：提取总RNA后，使用带有Illumina 5’接头，UMI和样品barcode的oligo dT引物结合Poly A RNA反转录合成cDNA；RNase H去除单链RNA；再用带有Illumina 3’接头的随机引物进行反转录合成cDNA第二条链；AMPure XP磁珠纯化去除多余的随机引物；最后加入带有批次索引index和测序平台的引物PCR扩增cDNA用于簇生成和测序(如图1C所示)。实际上，本发明的方法获得的数据在反应基因表达差异方面已经基本满足大多数项目的要求。现阶段的RNA测序技术中，一般不需要得到全长转录本的序列，一般并不进行转录组剪切分析。因此，3’端测序是检测RNA表达情况性价比最高的测序方案。

在一个特定实施方案中，本发明的用于RNA高通量测序的方法，包括以下步骤：

(1)获得1个以上样品的RNA；

(2)用二代测序平台相兼容、测序文库5’端相兼容序列相偶联的oligo-dT反转录引物对步骤(1)所得RNA进行反转录，以使poly A选择和反转录合成第一条cDNA同步完成，得到反转录产物；

(3)用二代测序平台相兼容测序文库3’接头的引物合成第二条cDNA，得到双链cDNA；在第二链cDNA合成之前或之后，合并多个样品的产物到一个试管中；

(4)以步骤(3)所得双链cDNA为底物，进行PCR扩增，得到初步测序文库；

(5)将步骤(4)所得双链初步测序文库，进行片段长度选择和纯化(用胶纯化、HPLC纯化，或特定磁珠纯化)，获得只包含与mRNA的3’末端相对应的cDNA片段的靶序列的测序文库，该文库排除了不包含3’末端序列的cDNA片段，长度为250-1000bp，优选400bp-800bp、更优选4000bp-700bp、最优选400bp-600bp。

(6)用二代测序平台对步骤(5)所得测序文库测序，以获得混合样品的转录组表达谱；

(7)通过信息分析解码步骤(5)所得转录组表达谱，获得各个批次、和各个样品的转录组表达谱，即得。需要说明的是，该测序方法可用在包括但不限制于文库构建、二代测序、数据分析、产品和应用范围；所述步骤(2)可进行任意数目的多个样品平行操作。

在一个特定实施方案中，所述步骤(5)中还包括第二次PCR扩增，以获得适合二代测序的最终测序文库。应当说明的是，该步骤可以根据需要选择进行或不进行第二次PCR扩增。

在一个特定实施方案中，所述步骤(1)中，在提取总RNA时，将基因组DNA采用物理方法、化学方法或酶解法剔除。

在一个特定实施方案中，所述步骤(1)中的RNA为总RNA或mRNA，总RNA通过去污剂裂解样品细胞膜而释放游离出来，同时剔除基因组DNA。需要说明的是，这种操作适用于(但不限于)单细胞或极微量的细胞群体的总RNA或mRNA文库构建。

在一个特定实施方案中，所述步骤(2)中oligo-dT反转录引物包含转录子水平的独特分子标记(UMI)，或/和样品条码(barcode)，或/和实验批次索引(Index)，和与特定二代测序平台相兼容的测序文库5’接头序列(Adapter 5’)相兼容的序列。优选地所述反转录引物的3’末端的oligo-dT长度为6～40碱基。更优选地，所述反转录引物的5’端或/和3’端具有核苷酸硫代磷酸酯修饰或其他核苷酸保护性修饰。需要说明的是，反转录引物的5’端或/和3’端可以是但不限于硫代磷酸酯Phosphorothiate修饰，还可以采用其它修饰，或者不修饰。

在一个特定实施方案中，引物组所述反转录引物3’末端的oligo-dT末端为TnVN-3’或TnV-3’或Tn-3’或TnN-3’，优选为TnVN-3’或TnV-3’；其中n为6～30；V表示C、G或A；N表示C、G、T和A中任意一种。

在一个特定实施方案中，引物组所述各种引物的独特分子标记(UMI)、和样品条码(barcode)、和实验批次索引(Index)中每个位置的碱基为A、T、C和G中任意一种，3种/2种碱基中任意一种，或特定碱基。由此，碱基的各个位置由完全随机的4种碱基中的任意单碱基(N)组成，或由部分随机的碱基特定组合(简并碱基)或特定碱基(C、G、T、A)所组成。

在一个特定实施方案中，所述步骤(3)中的cDNA第二链合成引物的3’末端序列是完全随机或部分随机序列或特定碱基组成的序列，其长度为3～15个碱基，同时引物5’端有与特定测序平台3’测序系统相兼容的序列。优选地，合成所述cDNA第二链的的引物的碱基序列为“GCCTTGGCACCCGAGAATTCCANNNNNNTT”。

在一个特定实施方案中，所述步骤(3)中的cDNA第二链合成引物的3’末端为1个或2个T。

在一个特定实施方案中，所述独特分子标记(UMI)、或/和样品条码(barcode)、或/和实验批次索引(Index)的序列碱基(寡核苷酸)长度为0～30。其中，0表示该标记不使用的情形。

在一个特定实施方案中，所述步骤(2)中，测序文库5’端相兼容序列相偶联的oligo-dT反转录引物的碱基序列包括但不限于如SEQ ID NO.1～8所示。在本发明中，SEQID NO.1～8作为第一链反转录引物，又称oligo-dT引物。

在一个特定实施方案中，所述步骤(3)中，合成cDNA第二链的引物碱基序列包括但不限于如SEQ ID NO.9或10所示。在本发明中，SEQ ID NO.9或10作为第二链cDNA合成引物，又称随机引物。

在一个特定实施方案中，所述步骤(3)中的cDNA第二链合成之前，或cDNA第二链合成之后，混合多个所有平行操作的样品于单一试管中，然后纯化、浓缩。

在一个特定实施方案中，所述步骤(2)、(3)、(5)中的测序平台包括但不限于Illumina测序平台HiSeq、NextSeq、MiniSeq、MiSeq、NovaSeq、或华大基因(BGI)的MGISEQ。

在一个特定实施方案中，所述步骤(4)中初步测序文库进行回收特定长度序列，回收特定序列长度为250-1000bp，优选400bp-800bp、更优选4000bp-700bp、最优选400bp-600bp。

在一个特定实施方案中，所述初步测序文库或/和最终测序文库进行特定长度序列的回收，回收特定序列长度的方法包括但不限于凝胶电泳，还可以是琼脂糖凝胶或PAGE凝胶、可分选DNA长度的磁珠、或HPLC；所述磁珠优选AMPure XP Beads。

在一个特定实施方案中，所述步骤(4)中初步测序文库回收特定长度片段之后，进行第二次PCR扩增，并进行特定长度的文库片段回收，获得最终测序文库。

在一个特定实施方案中，所述第一次PCR扩增和第二次PCR扩增所用引物兼容SEQID NO.1～8、SEQ ID NO.9或10的全长序列、或其部分序列。

在一个特定实施方案中，所述PCR扩增所用引物之一的碱基序列如SEQ ID NO.11所示，引物之二的碱基序列如SEQ ID NO.12所示。需要说明的是，引物之一兼容cDNA第一链引物，用于捕获mRNA的3’端相对应cDNA；引物之二兼容cDNA第二链引物，用于捕获mRNA远3’端方向对应cDNA。

在一个特定实施方案中，所述步骤(5)中测序平台采用Illumina Hiseq X10高通量测序仪，以及双端150bp测序。需要说明的是，单端或双端可进行不同长度的测序。

在一个特定实施方案中，所述步骤(6)中测序数据的信息解码分析方法，包括但不限于如下步骤：

1)对步骤(5)的转录组表达谱测序数据进行预处理，包括但不限于：质量控制、Index分流、barcode分流、去除poly A序列、去除测序接头和低质量碱基、根据UMI进行读数的扩增偏差剔除；

为更好的说明本发明的目的、技术方案和优点，下面将结合附图和具体实施例对本发明作进一步说明。如无特别说明，本发明中的材料或试剂均可以从市场或其它公开渠道获得。如无特别说明，本发明中的实验方法均为常规方法。在文末提供了本发明中的英文缩略词(表8)，以及SuperSMART中K562细胞检测基因富集到的GO通路(表9)，和IlluminaTru-Seq中K562细胞检测基因富集到的GO通路(表10)。

下述实施例中涉及的实验分为实验组和对照组，实验组是以K562，Jurkat细胞为材料，使用本发明的建库方法SuperSMART，Illumina HiseqX10为测序平台的数据。对照组是以K562细胞为材料，使用Illumina TruSeq建库试剂盒，Illumina Hiseq2000为测序平台的已发表的公共数据：https://www.encodeproject.org/experiments/ENCSR000AEO/。

实施例1 SuperSMART组(实验组)

1.1实验材料

实验试剂：

RPMI 1640 Medium-RPMI 1640培养基(Gibco，cat.no.11875093)

RNeasy Micro Kit(Qiagen，cat.no.74004)

Klenow fragment–克列诺片段(Takara，cat.no.2140A)

Zymoclean^TM Gel DNA Recovery Kit(ZYMO RESEARCH，cat.no.D4007)

Qubit dsDNA high-sensitivity(HS)Kit(Invitrogen，cat.no.Q32851)

DNA-OFF(Takara，cat.no.9036)

RNA-OFF(Takara，cat.no.9037)

Agilent high-sensitivity DNA Kit(Agilent Technologies，cat.no.5067-4626)

Adapter oligos(See Reagent Setup)All oligos were subjected toULTRAPAGE purification.

引物：

第一链反转录引物，或称oligo dT引物(5’-3’)，其中B为G、T或C，V表示G、A或C，N表示A、T、C或G。

方案1：

BU1SdT24-1：

GGGAGTTCTACAGTCCGACGATCNBBNBBAGACTCTTTTTTTTTTTTTTTTTTTTTTTT(SEQ IDNO.1)

BU1SdT24-2：

GGGAGTTCTACAGTCCGACGATCNBBNBBAGCTAGTTTTTTTTTTTTTTTTTTTTTTTT(SEQ IDNO.2)

BU1SdT24-4：

GGGAGTTCTACAGTCCGACGATCNBBNBBAGCTTCTTTTTTTTTTTTTTTTTTTTTTTT(SEQ IDNO.3)

BU1SdT24-5：

GGGAGTTCTACAGTCCGACGATCNBBNBBCATGAGTTTTTTTTTTTTTTTTTTTTTTTT(SEQ IDNO.4)

方案2：

BU1SdT24-1a：

GGGAGTTCTACAGTCCGACGATCNBBNBBAGACTCTTTTTTTTTTTTTTTTTTTTTTTTVN(SEQ IDNO.5)

BU1SdT24-2a：

GGGAGTTCTACAGTCCGACGATCNBBNBBAGCTAGTTTTTTTTTTTTTTTTTTTTTTTTVN(SEQ IDNO.6)

BU1SdT24-4a：

GGGAGTTCTACAGTCCGACGATCNBBNBBAGCTTCTTTTTTTTTTTTTTTTTTTTTTTTVN(SEQ IDNO.7)

BU1SdT24-5a：

GGGAGTTCTACAGTCCGACGATCNBBNBBCATGAGTTTTTTTTTTTTTTTTTTTTTTTTVN(SEQ IDNO.8)

第二链cDNA合成引物，或称随机引物(5’-3’)

方案1：

TTRan RTpri：GCCTTGGCACCCGAGAATTCCANNNNNNTT(SEQ ID NO.9)

方案2：

TRan RTpri：GCCTTGGCACCCGAGAATTCCANNNNNNT(SEQ ID NO.10)

第一次和第二次文库扩增的PCR引物，简称扩增引物(5’-3’)

RPI(兼容cDNA第一链引物，相当于扩增mRNA的3’端引物)：

AATGATACGGCGACCACCGAGATCTACACGTTCAGAGTTCTACAGTCCGA(SEQ ID NO.11)

RPI1(兼容cDNA第二链引物，相当于扩增、捕获mRNA远3’端方向引物)：

CAAGCAGAAGACGGCATACGAGATCGTGATGTGACTGGAGTTCCTTGGCACCCGAGAATTCCA(SEQID NO.12)

实验耗材：

程序降温盒(CellHome-30)(Kemesser Technology)

COUNTESS CELL COUNTING CHAMBER(ThermoFisher，cat.no.C10228)

Qubit Assay Tubes(Invitrogen，cat.no.Q32856)

实验设备：

金属浴(天根生化科技(北京)有限公司，cat.no.OSE-DB-01)

E-Gel Safe Imager Real-time Transilluminator(Invitrogen，cat.no.E189045)

Countess II FL Automated Cell Counter(ThermoFisher，cat.no.AMQAF1000)

Magnetic stand(ThermoFisher，cat.no.12331D)

Qubit 3.0 fluorometer(Invitrogen，cat.no.Q33216)

Agilent 2100 Bioanalyzer(Agilent Technologies，cat.no.G2938C)

1.2实验方法

1.2.1细胞培养(K562和Jurkat)

本发明中所使用的细胞系K562和Jurkat由Weissman Lab(Genetics，School ofMedicine，Yale University)提供。

(一)培养基的配制及试剂的分装

1.胎牛血清(500mL)分装成9个50mL+5个10mL试管于-20℃保存；

2.培养基的配制：44mL 1640培养液+5mL胎牛血清+1mL双抗，4℃保存备用；

3.PBS(500mL)分装出50mL，4℃保存备用。

(二)细胞的复苏、换液、传代、冻存、均采用本领域的常规方法，在此省略。

1.2.2 RNA的提取

(一)细胞的计数采用本领域常规方法。

(二)Total RNA的提取

本实验提取RNA所用试剂盒为Qiagen公司的RNeasy Micro Kit(cat.no.74004)

1.准备好1mL细胞悬液于1.5mL离心管中(细胞数目控制在5×10⁵个，如想要最后的RNA浓度更高，可增加细胞数目)。

2. 300×g离心5min，小心用枪头轻轻的弃去上清，注意不要吸走细胞，留下细胞沉淀。

3.加入350μL Buffer RLT重悬细胞。

4.加入一倍体积的70％酒精，吹打均匀。

5.将Rneasy MinElute spin column放在2mL的收集管中，将4中所有的液体转移至层析柱中。小心盖上管盖，≥8000×g(≥10000rpm)离心15s，去除滤液。

6.向层析柱中加入350μL Buffer RW1，小心盖上管盖，≥8000×g(≥10000rpm)离心15s，去除滤液。

7.向70μL的Buffer RDD中加入10μL的DNase I，颠倒混匀。

8.将7中80μL混合液直接加入层析柱中，20℃-30℃孵育15min。

9.向层析柱中加入350μL Buffer RW1，小心盖上管盖，≥8000×g(≥10000rpm)离心15s，去除滤液。

10.将层析柱放在一个新的2mL收集管中，加入500μL Buffer RPE，小心盖上管盖，≥8000×g(≥10000rpm)离心15s，去除滤液。

11.向层析柱中加入500μL的80％酒精，小心盖上管盖，≥8000×g(≥10000rpm)离心2min，去除滤液。

12.将层析柱放在一个新的2mL收集管中，打开管盖，最大转速离心5min，扔掉收集管。

13.将层析柱放在一个新的1.5mL收集管中，向层析柱中央加入14μL RNase-freewater，小心盖上管盖，最大转速离心1min，收集RNA产物，并置于冰上防止RNA降解。

(三)RNA浓度的检测

使用Nano Drop 2000检测RNA浓度。

1.轻轻将得到的RNA混匀待用，并放置于冰上，首先对机器进行blank，用移液枪吸取1μL的dd H₂O加入到孔上，然后进行blank，用无尘纸擦拭后，加入1μL的RNA，然后进行测量，得到相应的浓度。

2.样品测完之后，要用移液枪吸取1μL的dd H₂O清洗三遍，每次清洗完之后要用无尘纸擦拭。

3.测完之后记得关闭电脑和机器。

(四)RNA完整性的检测

1.取650μL胶加入到带滤膜的离心管中，取下层滤过的胶加1μL的染料，涡旋震荡混匀，13000rpm，10min。

2.取9μL胶加入到芯片中带○G的孔中，枪头不要触及芯片底部。

3.将芯片放到注胶平台上对齐，扣紧注胶平台，注射器下压60s，打开卡位待注射器自然弹回。

4.取9μL胶加入到芯片中另外两个带G的孔中，无须再用注射器压。

5.向芯片中除了带G的孔之外的每个孔中加入5μL Marker，可加入孔底。每个孔中加入1μL的样品，注意不要产生气泡(RNA浓度范围最好在150ng/μL-500ng/μL)。

6.向芯片中的梯子孔总加入1μL Ladder，置于振荡器上2000rpm，1min，放入2100机器内固定好。

7.打开软件，Assay设置检测类型，点击START开始检测。

8.待样品跑完之后，查看相应的实验结果，关闭电脑和2100。

9.向清洗芯片内加满ddH₂O，置于电机中浸泡5-10min，室温干燥电极5-10min，再将干燥剂防置于电极下方。

1.2.3 RNA的建库

(一)合成cDNA第一条链

1.通过加入2μL 100μM BU1Sdt引物和18μL的nuclease-free水混合均匀将BU1Sdt引物稀释成10μM。

2.将提取的RNA稀释成1ug/μL。

3.在0.2-mL thin-walled PCR管中加入1μL RNA，1μL BU1Sdt引物,1μL dNTP mixand 1.5μL nuclease-free水

4.盖上离心管盖简短离心，用手指轻触管底混匀，再简短离心，快速放置冰盒上。

5. 72℃孵育3min(热盖温度设置80℃)。

6.将样品取出后放置于冰盒上，简短离心收集管壁液体，再立即转移至冰盒上。现在BU1Sdt引物已与所有mRNA分子的Poly(A)尾结合。

7.混合下表中的试剂，准备反转录反应体系(本次实验中有四个样本，所以准备4.3×的Mix，将Mix加到离心管时，要将试剂加在离心管壁上，加完Mix后要盖上离心管盖简短离心，用手指轻触管底混匀，再简短离心)。

8.每个样品中加入5.5μL的RT混合液，盖上离心管盖简短离心，用手指轻触管底混匀，再简短离心，快速放置冰盒上。

9.在热循环仪中孵育反应，具体反应条件如下(热盖温度85℃)：

10.将样品取出后放置于冰盒上，简短离心收集管壁液体，再立即转移至冰盒上。

11.Optional：根据需要和处理的样品数，可以进行多个样品合并，并纯化(除去多余引物和反应试剂、缓冲液)，浓缩总样品体积。或者，此步不进行多样品合并，而待二链完成后进行多样品合并和纯化。

(二)合成cDNA第二条链

12.通过混合下表中的试剂，准备下一步反应体系：(本次实验中有四个样本，所以准备4.3×的Mix，将Mix加到离心管时，要将试剂加在离心管壁上，加完Mix后要盖上离心管盖简短离心，用手指轻触管底混匀，再简短离心。)

13.每个样品中加入5μl的混合液，盖上离心管盖简短离心，用手指轻触管底混匀，再简短离心，快速放置冰盒上。

14.在热循环仪中孵育反应，具体反应条件如下(热盖温度50℃)：

15.拿出来放在冰盒，简短离心收集管壁液体，再立即转移至冰盒上。

16.每个样品中加入1μL TT random primer(100μM)，盖上离心管盖简短离心，用手指轻触管底混匀，再简短离心，快速放置冰盒上。

17.在热循环仪中孵育反应，具体反应条件如下(热盖温度85℃)：

18.将样品取出后放置于冰盒上，简短离心收集管壁液体，再立即转移至冰盒上。

19.通过混合下表中的试剂，准备下一步反应体系：(本次实验中有四个样本，所以准备4.3×的Mix，将Mix加到离心管时，要将试剂加在离心管壁上，加完Mix后要盖上离心管盖简短离心，用手指轻触管底混匀，再简短离心。)

20.每个样品中加入4μL的混合液，盖上离心管盖简短离心，用手指轻触管底混匀，再简短离心，快速放置冰盒上。

21.在热循环仪中孵育反应，具体反应条件如下(热盖温度85℃)：

22.将样品取出后放置于冰盒上，简短离心收集管壁液体，再立即转移至冰盒上。

23.样品的合并设计在此步进行。根据需要和处理的样品数，可以进行多个样品合并，合并后，并接下一步纯化(除去多余引物和反应试剂、缓冲液)，浓缩总样品体积。如果样品较多，总体积过大，先用帮助沉淀剂+乙醇沉淀法先行部分浓缩、溶解DNA沉淀物，以部分减少体积，再接下一步纯化。

(三)第一次纯化

24.在开始纯化步骤之前，涡旋振荡AMPure XP磁珠直至分散，再简短离心将壁珠甩下，在室温下平衡AMPure XP磁珠15分钟。

25.每个样品中加入17μL的beads(0.85倍)，吹打10次直至溶液混匀。

26.室温孵育8分钟使DNA与磁珠相结合。

27.置于磁力架上至少五分钟，直至液体清亮。

28.小心弃去上清，避免碰到磁珠。

29.加200μL新配的80％乙醇。

30.孵育至少30秒，弃上清，注意勿吸出磁珠。

31.重复第29步(尽可能的弃去乙醇，先用200μl的吸头，再用10μL的吸头。)

32.室温干燥至少5分钟或直到磁珠表面出现小裂缝。

33.加24μL无核酸酶水重悬。

34.室温孵育2分钟。

35.置于磁力架上至少五分钟，直至液体清亮。

36.将移液枪的体积设定为23μL，吸取上清液而避免碰到磁珠并将其转移到新的0.2mL PCR管中。

(四)PCR扩增

37.通过混合下表中的试剂，准备PCR反应体系(本次实验中有四个样本，所以准备4.3×的Mix，将Mix加到离心管时，要将试剂加在离心管壁上，加完Mix后要盖上离心管盖简短离心，用手指轻触管底混匀，再简短离心。)

38.加入27μL的Mix到上一步纯化后的新的0.2mL PCR管中，总体积为50μL。

39.盖上离心管盖简短离心，再用手指轻触管底混匀，再简短离心，快速放置冰盒上。

40.在热循环仪中孵育反应，具体反应条件如下(热盖温度105℃，循环数29)：

(五)第二次纯化

41.在开始纯化步骤之前，涡旋振荡AMPure XP磁珠直至分散，再简短离心将壁珠甩下，在室温下平衡AMPure XP磁珠15分钟。

42.每个样品中加入30μL的磁珠(0.6倍)，吹打10次直至溶液混匀。

43.室温孵育8分钟使DNA与磁珠相结合。

44.置于磁力架上至少五分钟，直至液体清亮。

45.小心的弃去上清，避免碰到磁珠。

46.加200μL新配的80％乙醇。

47.孵育至少30秒，弃上清，注意勿吸出磁珠。

48.重复第46步(尽可能的弃去乙醇，先用200μL的吸头，再用10μL的吸头)

49.室温干燥至少5分钟或直到磁珠表面出现小裂缝。

50.加21μL无核酸酶水重悬。

51.室温孵育2分钟。

52.置于磁力架上至少五分钟，直至液体清亮。

53.将移液枪的体积设定为20μL，吸取上清液而避免碰到磁珠并将其转移到新的0.2mL PCR管中。

(六)Run 2％E-gel

54打开2％的预制胶，做好标记。

55.点样：向两个Marker孔中加入16μL的H₂O和4μL的50bp Marker。

55.跑胶：0.8％～2％的胶跑18min，按GO开始跑(由于本次跑E胶为了回收300bp～800bp的胶，所以需要50bp片段跑到接近E胶黑色阴影即可，不可变黑色阴影遮挡，以免观察不到)

56.看胶：在凝胶成像系统上观看条带情况并拍照。

57.切胶回收：将胶背过来装进仪器中，用笔将所要回收的区域画出来。从仪器上将胶取出来，正面朝上，用平铲沿胶缝小心撬开。用一次性手术刀片将回收区域的胶切下来回收到1.5mL离心管中(一般一个样本有1个胶：300bp～800bp)，保存于4℃中。

58.看胶：切好胶回收之后，将不要的胶盖好，重新拿到凝胶成像系统进行拍照。

(七)胶回收

59. 0.1g胶加3倍的ADB，大约300μL(每个样本有一块胶，即300bp-800bp)。

60. 55℃金属浴溶解15分钟。

61.上下颠倒混匀后，简短离心并将混合液转移至层析柱中，25℃，10000rpm离心30s后弃去滤液，重复利用收集管。

62.向层析柱中加入200μL Wash buffer，25℃，10000rpm离心30s后弃去滤液，重复利用收集管。

63.重复步骤62。

64.将层析柱重新置于一个新的1.5mL离心管中，向层析柱中加入8μL预热60℃的H₂O，室温孵育1min，25℃，10000rpm离心1min；离心后，再直接加入8μL预热60℃的H₂O，25℃10000rpm离心1min。最后收集在离心管中的DNA样品约14μL

(八)检测文库最终浓度

用Qubit 3.0fluorometer测量每个文库的浓度。首先在做实验之前先将实验试剂拿到室温平衡直至试剂完全呈均匀液体状态，由于实验中有荧光染料，所以整个实验过程中避光。

65.做实验之前先对仪器进行标准化，首先取两个0.5mL离心管置于桌面上，向每个管子中加入199μL的working buffer，然后再加入1μL的荧光染料，简短离心后再涡旋混匀，离心后置于桌面上，用枪头弃掉10μL液体，然后再入10μL的标准试剂，简短离心后再涡旋混匀，离心后置于桌面上，室温静置，孵育2分钟后，将管子置于仪器中，按照指示进行标准化。

66.测量浓度。根据样本数量取与之相对应的离心管，置于桌面上，向每个离心管中加入199μL的working buffer，并向每个离心管中依次加入1μL的荧光染料，盖好盖子，并将每个离心管做好标记，简短离心后再涡旋混匀，离心后置于桌面上，每个样品用枪头弃掉1μL溶液，再向每个离心管中加入1μL的样品，简短离心后再涡旋混匀，离心后置于桌面上，室温静置，孵育2分钟后，将管子置于仪器中以测浓度。

(九)Agilent 2100Bioanalyzer检测文库质量

67.取650μL胶加入到带滤膜的离心管中，取下层滤过的胶加1μL的染料，涡旋震荡混匀，13000rpm，10min。

68.取9μL胶加入到芯片中带○G的孔中，枪头不要触及芯片底部。

36.将芯片放到注胶平台上对齐，扣紧注胶平台，注射器下压60s，打开卡位待注射器自然弹回。

69.取9μL胶加入到芯片中另外两个带○G的孔中，无须再用注射器压。

70.向芯片中除了带○G的孔之外的每个孔中加入5μL的Marker，可加入孔底。

71.每个孔中加入1μL的样品，注意不要产生气泡。

72.向芯片中的梯子孔中加入1μL的Ladder，置于振荡器上2000rpm，1min，放入2100机器内固定好。

73.打开软件，Assay设置检测类型，点击START开始检测。

74.待样品跑完之后，根据实验需要选取相应的片段，关闭电脑和2100。

75.向清洗芯片内加满dd H₂O，置于电机中浸泡5-10min，室温干燥电极5-10min，再将干燥剂放置于电极下方。

(十)测序方法

构建好测序文库后待检测合格后上机测序，测序仪选择Illumina Hiseq X10高通量测序仪，采用双端150bp测序。

实施例2 Illumina Tru-Seq组(对照组)

(对照组实验材料及方法来源于https://www.encodeproject.org/experiments/ ENCSR000AEO/)

2.1实验材料

K562细胞

Agilent TapeStation仪器(cat.no.5067-5576)

Trizol(LifeTech cat.no.15596-018)

RNA Screen Tape

Illumina TruSeq Stranded mRNA样品制备试剂盒(目录号RS-122-2101或RS-122-2102)

AMPure XP磁珠(Beckman Coulter，cat.no.A63881)

Agilent Tapestation D100 screen tape(cat.no.50675582)

2.2实验方法

2.2.1细胞培养

1.从液氮储存罐中取出K562冻存管。

2. 37℃水浴溶解。

3.当细胞冻存液溶解时，转移至培养基中。

4.细胞离心，1000rpm，5min。

5.用枪头重悬细胞，使细胞浓度达到1×10⁵。

6. 2-3天将细胞进行传代。

7.培养细胞到所需要的浓度。

2.2.2 RNA质量检测

从K562细胞中提取RNA(Trizol(LifeTech cat.no.15596-018))。使用具有RNA筛选胶带的Agilent TapeStation仪器(cat.no.5067-5576)测量RNA的质量。

1.混合1μL RNA和5μL RNA样品缓冲液。

2.涡旋并短暂旋转以确保样品位于管的底部。

3.将热循环仪中的样品加热至72℃3分钟。

4.将样品置于冰上，然后短暂旋转以确保样品位于离心管底部。

5.在RNA Screen Tape上运行样品。

2.2.3文库制备

按照Illumina TruSeq Stranded mRNA样品制备试剂盒(目录号RS-122-2101或RS-122-2102)制备RNA-Seq文库，Spike-in RNAs从NIH获得(目录号ERCC-78A-11119)。

(一)mRNA的纯化和片段化

该方法使用poly-dT寡核苷酸连接的磁珠，对含有polyA的mRNA分子进行两轮纯化。

在

第二轮polyA RNA的洗脱中，RNA也被片段化并用于cDNA合成。

1.在含有1：1000比例的掺入spike-ins的0.3mL PCR管中，用无核酸酶的超纯水稀释1μg总RNA至终体积25μL。

2.剧烈涡旋振荡oligo-dT磁珠直至分散。

3.向样品中加入25μL磁珠，使poly A RNA与oligo dT磁珠结合。

4.轻轻地吹打六次直至溶液混合均匀。

5.将样品在65℃热循环仪中孵育5分钟后放在4℃保存，使RNA变性并促进RNA与磁珠的结合。

6.将样品在室温下置于磁力架上5分钟，以从溶液中分离出与polyARNA结合的磁珠。

7.弃上清，从磁力架上取下样品。

8.加入150μL磁珠洗涤缓冲液除去未结合的RNA。

9.轻轻地吹打六次直至溶液混合均匀。

10.将样品置于磁力架上室温孵育5分钟。

11.弃上清，从磁力架上取下样品。

12.向样品中加入25μL洗脱缓冲液，轻轻地吹打6次，彻底混匀。

13.将样品在80℃热循环仪中孵育2分钟并保持在25℃，以从磁珠中洗脱mRNA。

14.当热循环仪降到25℃时取出样品，室温放置。

15.向样品中加入25μL磁珠结合缓冲液，使mRNA特异性地重新结合磁珠，同时减少非特异性结合的rRNA的量。

16.轻轻地吹打六次直至溶液混合均匀。

17.将样品置于室温下的磁力架上5分钟。

18.弃上清，从磁力架上取下样品。

19.加入150μL磁珠洗涤缓冲液洗涤磁珠。

20.轻轻地吹打六次以彻底混合。

21.将样品置于磁力架上室温孵育5分钟。

22.弃上清，从磁力架上取下样品。

23.向样品中加入11μL Fragment，Prime，Finish Mix。

24.轻轻地吹打整个体积6次以彻底混合。

(Fragment，Prime，Finish Mix分别为用于反转录的随机六聚体和用作第一链cDNA合成的反应缓冲液。)

25.将样品置于94℃热循环仪中孵育4分钟并在4℃保存，以洗脱片段化RNA。

26.从热循环仪中取出样品并短暂离心。

(二)合成cDNA第一条链

该过程使用反转录酶和随机引物将片段化的RNA反转录成cDNA第一条链。向Firsttrand Synthesis Act D添加放线菌素D可防止假DNA依赖性合成，同时允许RNA依赖性合成，提高链特异性。

1.将样品置于磁力架上室温孵育5分钟。

2.将8.5μL上清液转移到新的0.3mL离心管中。

3.将Super Script II添加到第一个Strand Synthesis Act D混合管中，使FirstStrand Synthesis Act D Mix与Super Script II的比例9:1。

4.将4μL第三步中的混合物加入到样品中，轻轻地吹打六次以彻底混合。

5.将样品置于热循环仪中，在25℃下孵育10分钟，在42℃下孵育15分钟，在70℃下孵育15分钟，并保存在4℃。

6.从热循环仪中取出样品，立即进行cDNA第二链的合成反应。

(三)合成cDNA第二条链

1.向反应中加入2.5μL重悬缓冲液。

2.向反应中加入10μL第二链标记混合物(Second Strand Marking Master Mix)。

3.轻轻地上下吹打六次以彻底混合。

4.将反应物置于预热的热循环仪中，关闭盖子并在16℃下孵育1小时。

5.从热循环仪中取出反应物，室温放置。

6.向样品中加入45μL充分混合的AMPure XP磁珠(Beckman Coulter，cat.no.A63881)。

7.轻轻地上下吹打十次以彻底混合并在室温下孵育15分钟。

8.将反应物置于磁力架上室温孵育5分钟。

9.从反应中取出并弃去65μL上清液。

10.将离心管放在磁力架上，加入150μL新鲜配制的80％乙醇，注意不要碰到磁珠。

11.在室温下孵育30秒，弃除上清液。

12.重复步骤10-11，总共进行两次80％乙醇洗涤。

13.在室温下静置15分钟使其干燥，然后从磁力架上取下。

14.加入11.25μL重悬缓冲液，轻轻地上下吹打10次，彻底混匀。

15.在室温下孵育2分钟后，置于磁力架上室温孵育5分钟。

16.将8.75μL上清液(ds cDNA)从管中转移到新的0.3mL PCR管中

(四)3’端加’A’尾

将单个’dA’添加到cDNA3’末端以防止在接头连接反应期间彼此连接，同时接头3’末端上相应的单个’dT’提供了互补的突出端，便于将接头连接到cDNA上。

1.向每个反应中加入6.25μL解冻的dA-Tailing混合物。

2.轻轻地上下吹打10次以彻底混合。

3.将离心管置于热循环仪中，将热盖预热至100℃，盖上盖子，在37℃下孵育30分钟，在70℃下孵育5分钟，并保存在4℃。

(五)连接接头

该过程将多个带有index的接头连接到ds cDNA的末端，便于它们与测序平台结合。

1.向每个反应中加入1.25μL重悬缓冲液。

2.向每个反应中加入1.25μL连接混合物。

3.向每个反应中加入1.25μL RNA接头。

4.轻轻地上下吹打10次以彻底混合。

5.将样品放入预热的热循环仪中，盖上盖子，在30℃下孵育10分钟。

6.从热循环仪中取出样品。

7.向每个反应中加入2.5μL终止连接缓冲液以灭活连接酶。

8.轻轻地上下吹打10次以彻底混合。

9.将AMPure XP磁珠涡旋至少1分钟或直至磁珠分散均匀。

10.在每个反应中加入21μL混合的AMPure XP Beads。

11.轻轻地上下吹打10次以彻底混合。

12.将样品在室温下孵育15分钟。

13.将样品放置在磁力架上5分钟或直至液体澄清。

14.弃38μL上清液，注意不要碰到磁珠。

15.将离心管置于磁力架上，加入150μL新鲜制备的80％乙醇，避免触碰磁珠。

16.在室温下孵育30秒，弃除上清液，避免触碰磁珠。

17.重复步骤15-16，共进行两次80％乙醇洗涤。

18.将样品置于磁力架上室温干燥15分钟。

19.从磁力架上取下离心管。

20.向每个离心管管中加入27.5μL重悬缓冲液。

21.轻轻地上下吹打10次以彻底混合或直至磁珠完全重悬。

22.在室温下孵育2分钟。

23.将反应物置于磁力架上室温孵育5分钟或直至液体澄清。

24.将25μL上清液从试管转移到新的0.3mL PCR管中。避免触碰磁珠。

25.涡旋AMPure XP磁珠，直到分散均匀。

26.向每个样品中加入25μL混合的AMPure XP磁珠进行第二次纯化。

27.轻轻地上下吹打10次以彻底混合。

28.在室温下孵育15分钟。

29.将样品置于磁力架上孵育5分钟或直至液体澄清。

30.弃47.5μL上清液，避免触碰磁珠。

31.将离心管放在磁力架上，加入150μl新鲜制备的80％乙醇，避免触碰磁珠。

32.在室温下孵育30秒，弃除上清液。

33.重复步骤31-32，总共进行两次80％乙醇洗涤。

34.将离心管放在磁力架上，室温干燥15分钟，从磁力架中取出离心管。

35.将12.5μL重悬缓冲液加入管中。

36.轻轻地上下吹打10次以彻底混合或直至磁珠完全重悬。

37.在室温下孵育2分钟。

38.将样品置于磁力架上室温孵育5分钟或直至液体澄清。

39.将10μL上清液转移到新的0.3mL PCR管中，避免触碰磁珠注意不要碰到磁珠。

(六)扩增DNA片段

该过程使用PCR选择性地富集两端均具有接头的DNA片段并扩增文库中DNA的量。应最大限度地减少PCR循环次数，以避免文库产生偏差。

1.向样品中加入2.5μL PCR引物混合物。

2.向样品中加入12.5μL PCR Master混合物。

3.轻轻地上下吹打10次以彻底混合。

4.将离心管放入预先设好程序并将热盖预热至100℃的热循环仪中，盖上盖子，在98℃下孵育30秒，在98℃下孵育10秒，60℃下30秒，72℃下30秒，这三步进行15个循环，72℃下孵育5分钟，并保存在4℃。

5.向管中加入25μL AMPureXP磁珠。

6.轻轻地上下吹打10次以彻底混合。

7.将样品在室温下孵育15分钟。

8.将样品置于磁力架上室温孵育5分钟或直至液体澄清。

9.弃47.5μL上清液。

10.在磁力架上，加入150μL新鲜配制的80％乙醇，不要碰到磁珠。

11.在室温下孵育30秒，然后弃所有上清液。

12.重复步骤10-11，总共进行两次80％乙醇洗涤。

13.将样品置于磁力架上干燥15分钟后，从磁力架上取下样品。

14.向样品中加入27.5μL重悬缓冲液。

15.轻轻地上下吹打10次以彻底混合。

16.在室温下孵育2分钟。

17.将样品置于磁力架上室温孵育5分钟或直至液体澄清。

18.将25μL上清液从管中转移到新的0.3mL PCR管中。

(七)检测文库质量

1.首先通过Nanodrop或Tecan对文库进行定量。

2.通过在Agilent Tapestation D100 screen tape(cat.no.50675582)上运行来进一步验证文库。将每个库中的1μL样品稀释到3μL样品缓冲液并在Tapestation上运行。

(八)测序方法

构建好测序文库后待检测合格后上机测序，测序仪选择Illumina Hiseq 2000

高通量测序仪，采用双端100bp测序。

实施例3数据分析流程

3.1概述

SuperSMART为群体细胞RNA测序(K562，Jurkat各两个生物学重复)，IlluminaTru-Seq群体K562细胞RNA测序数据(两个样本)。本实施例对数据的处理包括拆分、质控、过滤、再进行比对、组装、检测基因统计、相关性分析、特殊基因和通路分析、绘制相关性图及韦恩图。

3.2文库结构及分析思路

SuperSMART文库结构如图2所示，包括：P5 adapter，Read1 SP，Barcode

(6bp)，UMI(6bpNBBNBB)，poly-dT，insert cDNA，随机引物，Read2 SP，index，P5adapter。

P5/P7 adapter：连接到测序仪上的接头序列；

Read1/Read2-SP：测序引物；

Barcode：区分不同的单细胞，序列为NBBNBB，共6bp；其中，B表示G、T、C这3种碱基中的任意一种，但不是A碱基；

UMI(Unique Molecular indentifier)：转录分子识别标签；

Index：区分不同样本序列。

3.3数据预处理

3.3.1质量控制

软件：通过FastQC^[3]实现原始数据的质量控制。

由图3可以看出受poly-dT序列影响，read 1数据从40bp开始碱基质量低于20，且Barcode(6bp)+UMI(6bp)+poly-dT(24bp)序列已有36bp，Insert cDNA部分质量很低无法使用，故read 1只用来记录BC和UMI序列信息，根据read 1序列信息将read 2序列分流和记录UMI，再用read 2单端进行后续分析。这种read 1和read 2组合分析及其质量特点在预期之中，也符合其他类似分析的情况。

3.3.2 Barcode分流

测序数据首先根据4种Barcode分出4种细胞reads，并进行reads数和分流率统计，结果如表2所示：

表2 SuperSMART分流结果统计

实际fastqc报告中，barcode位置理论上在1bp～6bp处，而实际上在1bp～7bp，原因可能与测序质量有关，Rawdata base Q30：54.1700％。

3.3.3去除测序接头及低质量碱基

软件：通过cutadapt^[4]去除测序接头及低质量碱基。

-a 3’端接头序列；

-m当去接头后去掉长度小于40的reads；

-q过滤质量低于28的碱基

3.3.4去除polyA序列

运用perl语言脚本，当识别多于5个A碱基时，提取polyA其前面的序列结果文件：

3.4比对

软件：采用Tophat2^[5]进行序列比对，比对结果参见表3。

-p为安排运行tophat所需要的CPU线程数。

-o为文件输出路径。

-G参考基因组的注释文件，首先被tophat2调用bowtie2建立index。

结果文件：

表3 SuperSMART比对结果

3.5 Reads count计数

软件：采用htseq-count^[6]进行Reads count计数。

htseq-count是一款用于reads计数的软件，能对位于基因组上的一些单位的reads数进行统计。

-f指定输入文件的格式，可以是sam或bam格式，默认是sam；

-r对于双端测序数据，必须要对SAM文件进行排序，可以是name或pos，默认是name；

-s<yes/no/reverse>这个数据是否来自链特异性建库，默认yes；

-a指定一个最低read mapping质量值，低于会被过滤；

-t指定最小计数单位类型,指定后其他单位类型将被忽略，默认值exon；

-I GFF文件的属性，默认采用Ensembl GTF文件类型时，默认值gene_id；

-m reads属于某个基因的模型，用来判断统计reads的时候对一些比较特殊的reads定义是否计入。包括：默认的union和intersection-strict、intersection-nonempty(默认union)。

-q屏蔽程序报告和警告

3.6 Reads count标准化——构建RPKM矩阵

一般来讲每个基因比对上的reads数受基因长度和测序深度的影响，基因长度越长，比对reads数目越多，测序深度越深，比对reads数目越多，所以需要对每个基因比对上的reads数目进行标准化。RPKM(Reads Per Kilobase per Million mapping reads)与FPKM(Fragments Per Kilobase per Million mapping reads)是经典的对测序深度和基因长度进行校正的方法，由于本论文的测序数据中read 1端含有poly-dT序列，根据质量控制结果read 1质量低，故使用单端read 2进行比对。因此，本发明根据htseq-count的mapping reads count结果求RPKM表达量，进行测序深度和基因长度标准化，分为如下几个步骤：基因长度的提取、测序深度标准化和基因长度标准化。

3.6.1从gtf文件获取基因长度

R包：采用GenomicFeatures^[7]获取基因长度。

3.6.2通过R语言程序进行计算

3.7比对结果质控

软件：通过RSeQC^[8]对比对结果进行质控。

RSeQC提供许多模块，可以全面综合评估高通量RNA-seq数据的结果，包括reads比对基因组区域分布、覆盖度评估、链特异性、GC含量、测序饱和度、RNA完整性等特征。同时也包括可变剪接注释。

3.8检出基因数计算

为避免假阳性基因检出，发明人选取RPKM>0.1作为基因检出阈值，分别计算SuperSMART和Truseq方法检出基因找到共同检出基因、二者特异检出基因，并绘制Venn图^[9]。

3.9 Pearson相关系数

为评估其样本重复之间的稳定性和SuperSMART与Truseq基因表达相关性，我们选取Pearson相关系数进行评估。Pearson相关系数是由Karl Pearson根据Francis Galton的一个相关理念在18世纪80年代开发的^[10]，它是两个变量的协方差除以各自标准差的乘积，即均值调整后的随机变量乘积的均值；

相关性不会低于-1，相关系数为-1的数据点恰好位于直线下降线上，变量完全呈负线性关系；相关性为0意味着两变量没有任何线性关系。但是，两个变量之间可能存在一些非线性关系。相关系数不会高于1，相关系数为1表示两个变量完全正线性相关，数据点恰好位于上升线上。故当Pearson相关系数越趋近于1，两个变量相关性越强。

3.10检出基因富集分析

应用Cluster Profiler包对两种方法各自检出的基因进行GO富集分析^[11]。

结果与分析

采用实施例1～3的方法得到的实验结果包括如下：

4.1细胞培养结果

正常培养的k562细胞(如图4)和Jurkat细胞(如图5)是均匀地悬浮在培养液中的，在10倍倒置显微镜下折光性很好，总体大小一致，形态良好，用Countless II测细胞活性，活性均在90％以上。K562细胞数量为5.04×10⁵/mL，活性为97.68％。Jurkat细胞数量为2.61*10⁶/mL，活性为94.18％(如图6)。

4.2 RNA质量图

RNA的质量可以通过安捷伦2100生物分析仪测量，K562细胞的RNA分子完整数(RIN)为10，rRNA比值(28S/18S)是1.9(如图7)。Jurkat细胞的RNA分子完整数(RIN)为10，rRNA比值(28S/18S)是2.0(如图8)。RIN数值越大表明RNA分子完整性越高，其中数值为10时，RNA分子的完整性最高，降解最少。如果28S/18S为1.8-2.0表明所提取RNA完整性较好，基本无降解发生。对照组使用Agilent TapeStation检测RNA质量(如图9)。

图10来源于https://www.encodeproject.org/experiments/ENCSR000AEO/

4.3建库质量图

将每种细胞系做两个生物学重复，在跑胶图(如图10)中可以看到初级文库的分布，E-gel的最外边两条带是已经均匀跑开的Marker条带，中间标注的数字(K1，K2，JK1，JK2)是对应的K562#1，K562#2，Jurkat#1，Jurkat#2样品条带，下文称为样品1、2、3、4。从图10可知样品已经均匀的从加样孔中向远端跑开，一般来说，亮度越高，浓度越高。各个样品条带间用水隔开防止相互交叉污染。

目的文库片段为300bp至800bp，切下每个样品相应的文库区间进行切胶回收(如图11)。再用Qubit 3.0荧光计测得每个样品的浓度(如图12)，样品1的浓度为1.85ng/μL，样品2的浓度为1.43ng/μL，样品3的浓度为1.39ng/μL，样品4的浓度为1.21ng/μL。

最后在送测序前可通过在Agilent 2100生物分析仪上运行来进一步验证最终文库的分布(如图13)。可以看出四个文库的分布较为均匀，峰值集中在700bp左右。

Illumina Tru-Seq在Agilent Tapestation D100 screen tape上运行验证文库，文库分布均匀，区间位于300bp至700bp中，峰值在400bp左右(如图14)。

图14来源于https://www.encodeproject.org/experiments/ENCSR000AEO/

4.4测序结果

4.4.1测序数据结果

实验组四个样本一起测序共获得21.8G数据量，但在测序得到的某些原始下机序列含有测序接头序列以及低质量序列。为了保证数据分析的质量，测序公司会对原始序列进行过滤，得到较高质量的Clean Reads，再进行后续分析，后续分析都基于Clean Reads(如表4)。

对照组可从https://www.encodeproject.org/experiments/ENCSR000AEO/得到数据量。其中一个样本Read 1数据是5.25G，Read2数据是5.14G，共10.39G，另一个样本Read1数据是6.69G，Read2数据是6.73G，共13.42G。由于数据过滤的结果是由测序公司直接提供，所以关于对照组的数据过滤统计结果就不得而知。

表4 SuperSMART数据过滤统计分析表

注释：(Raw Reads Number：原始未过滤数据的Reads数；Raw Base Number：原始未过滤数据的碱基数；Clean Reads Number：过滤后剩余的Reads数；Clean Reads Rate(％)：过滤后剩余的Reads数占原始未过滤Reads数的比例，这个值越大，说明测序质量或者文库质量越好；Clean Base Number：过滤后剩余的碱基数；Low-quality Reads Number：被低质量过滤标准去掉的Reads数；Low-quality Reads Rate(％)：被低质量过滤标准去掉的Reads的比例；Ns Reads Number：由于含N过高，被去掉的序列数；Ns Reads Rate(％)：由于含N过高，被去掉的序列占原始下机序列的比例；Adapter Polluted Reads Number：去掉含有接头污染的Reads数；Adapter Polluted Reads Rate(％)：去掉含有接头污染的Reads数占原始未过滤Reads数的比例；PolyG Reads Number：去掉含有polyG(reads中G碱基数超过75)的reads数；PolyG Reads Rate(％)：去掉含有polyG的reads占原始未过滤Reads数的比例；Raw Q30 Base Rate(％)：过滤前，原始序列中质量值大于30(错误率小于0.1％)的碱基数占总碱基数的比例；Clean Q30Base Rate(％)：过滤后，总序列中质量值大于30(错误率小于0.1％)的碱基数的比例，该值越大说明测序质量越好。)

4.4.2测序质量结果

查看原始reads的质量常用的工具就是fastqc(http://www.bioinformatics.babraham.ac.uk/projects/fastqc/)。fastqc的详细使用说明书：http：//www.bioinformatics,babraham.ac.uk/projects/fastqc/Help/。如果输入的fastq文件名是target.fq，fastqc的输出的压缩文件将是target.fq_fastqc.zip。解压后，查看html格式的结果报告。重要结果分为以下几项：

(1)Basic Statistics(如表5)：统计了SuperSMART和Illumina Tru-Seq中所有样品的总读数，序列长度以及GC含量的百分比。由于SuperSMART中有一端读数受poly-dT影响，读数质量太低，所以只选取Read 2的读数。SuperSMART中所有样品平均读数为5663573，序列长度是40-142bp，GC平均含量43％。Illumina Tru-Seq中所有样品平均读数为46060183，序列长度为45-95bp，GC平均含量是46％。

表5所有样品数据基本统计表

(2)Per base sequence quality：横轴为read长度，纵轴为质量得分，Q＝-10*log10(error P)。柱状表示该位置所有序列的测序质量的统计，柱状是25％～75％区间质量分布，error bar是10％～90％区间质量分布，蓝线表示平均数。一般要求所有位置的10％分位数大于20，即大于最多允许该位置10％的序列低于Q20。SuperSMART(如图15)中四个样品的平均数都位于Q30以上，Q30比例达到100％，10％分位数均大于Q20，所以碱基质量与预期相符，可用于后续分析。Illumina Tru-Seq(如图16)的两个样品的平均数都位于Q30以上，Q30比例达到100％，10％分位数均大于Q20，所以碱基质量与预期相符，可用于后续分析。

(3)Per tile sequence quality：每个tail测序情况，横轴表示碱基位置，纵轴表示tail的编号，这个图主要是为了防止在测序过程中某些tail受到不可控因素的影响而出现测序质量偏低，蓝色表示测序质量很高，暖色表示测序质量不高。当某些tail出现暖色，在后续的分析中会把该tail测序结果全部去除。SuperSMART(如图17)中四个样品的背景大多为蓝色，偶有暖色但无太大影响，所以测序质量较高。Illumina Tru-Seq(如图18)中两个样品的背景几乎为蓝色，所以测序质量高。

(4)Per base sequence content：对所有reads的每一个位置，统计ATCG四种碱基(正常情况)的分布：横轴为位置，纵轴为百分比。SuperSMART中(如图19)几个样品的四条线在某些位置纷乱交织，可能是部分位置碱基的比例出现bias，或者出现overrepresentedsequence的污染。Illumina Tru-Seq(如图20)的两个样品四种碱基的出现频率是接近的，四条线平行且接近。

(5)Per sequence GC content：统计reads的平均GC含量的分布。横轴表示GC含量，纵轴表示reads的GC分布。SuperSMART(如图21)四个样品的整体形状呈锯齿状，与正态分布存在一定偏差，这可能是由于reads数少，AT含量的影响等。Illumina Tru-Seq的形状和位置都接近正态分布(如图22)。

4.4.3比对结果

(1)基因组不同区域分布：检测SuperSMART和Illumina Tru-Seq中六种细胞比对到的Reads在基因组中的分布，可以发现超过90％以上位于外显子区域(如图23)。SuperSMART方法中K562样品1有91.64％位于外显子区域，6.67％位于内含子区域，1.69％位于基因间区域；K562样品2有92.6％位于外显子区域，5.82％位于内含子区域，1.58％位于基因间区域；Jurkat样品1有92.86％位于外显子区域，5.23％位于内含子区域，1.9％位于基因间区域；Jurkat样品2有93.51％位于外显子区域，4.88％位于内含子区域，1.6％位于基因间区域。Illumina Tru-Seq方法中K562样品1有94.23％位于外显子区域，4.59％位于内含子区域，1.18％位于基因间区域；K562样品2有93.57％位于外显子区域，5.09％位于内含子区域，1.34％位于基因间区域。

(2)基因的序列覆盖度：指的是基因组上至少被检测到1次的区域占整个基因组的比例。(如图24)可以看出SuperSMART的覆盖范围几乎集中在3’端，而Illumina Tru-Seq的覆盖范围从5’到3’端都有。这个结果也恰好与这两种建库方法相对应，SuperSMART检测RNA的3’端，而Illumina Tru-Seq检测RNA的全长。

4.4.4检测基因数及相关性

(1)基因数的检测：为了避免假阳性，我们将RPKM>0.1作为基因检出的标准。SuperSMART方法中K562样品1的比对率是91.2％，检测到的基因数量是13728个；K562样品2的比对率是71.4％，检测到的基因数量是13428个；Jurkat样品1的比对率是86.1％，检测到的基因数量是13111个；Jurkat样品2的比对率是87.3％，检测到的基因数量是13255个。

Illumina Tru-Seq方法中K562样品1的比对率是92.6％，检测到的基因数量是18544个；K562样品2的比对率是91.7％，检测到的基因数量是18707个(如表6)。

表6 SuperSMART和Illumina Tru-Seq检测基因数(RPKM>0.1)

(2)测序读数与检测基因数分析：用SuperSMART方法中K562#1样本的有效读数进行随机抽样分析，以期查明读数与检测的基因数的关系，见表格7及图25。结果表明，目前的有效读数而言，检测到的基因数已经处于饱和状态。当读数下降到原来来读数的50％时，检测到的基因数为13000，比原来的基因数(13728)减少仅5.3％；当读数下降到原来来读数的10％时，检测到的基因数为9614，比原来的基因数(13728)减少30％。

表7 SuperSMART方法中K562#1文库的测序饱和度分析

(3)相关性检测：在SuperSMART的K562两样本中，二者RPKM>0的基因表达相关性为0.977402，大于0.95有显著相关性；在SuperSMART的Jurkat两样本中，二者RPKM>0.1的基因表达相关性为0.9759779，大于0.95有显著相关性；在Illumina Tru-Seq的K562两样本中，二者RPKM>0.1的基因表达相关性为0.9872312，大于0.95有显著相关性。这说明同种建库方法在同种细胞样本之间的一致性显著(如图26)。

同时，接着对SuperSMART与Illumina Tru-Seq两种方法中所有细胞样本中RPKM>0的基因进行相关性分析，其中SuperSMART两个同种细胞样品间的相关性R＝0.97，SuperSMART两个不同种细胞样品间即K562细胞与Jurkat细胞间的相关性R＝0.86，Illumina Tru-Seq两个同种细胞样品之间的相关性R＝0.99，两种方法中K562细胞样品的最高相关性R＝0.78(如图27)。

(3)GO富集分析：将SuperSMART中K562两个样品中同时满足RPKM>0.1的11763个基因与Illumina Tru-Seq中K562两个样品中同时满足RPKM>0.1的17292个基因对比，通过比对可以看出双方都能检测到的基因数量有10962个，SuperSMART特异检测到的基因数为801个，Illumina Tru-Seq特异检测到的基因数为6330个(如图28)。

将SuperSMART中K562两个样品中同时满足RPKM>0.1的11763个基因与IlluminaTru-Seq中K562两个样品中同时满足RPKM>0.1的17292个基因使用R包Cluster Profiler进行GO富集分析(FDR<0.05且P<0.05)。SuperSMART富集到2029个通路，Illumina Tru-Seq富集到2074个通路，通过比对可以发现双方富集到的通路有1814个相同，SuperSMART富集到的特异通路有215个，Illumina Tru-Seq富集到的特异通路有260个(如图29)。这些结果表明虽然SuperSMART只能检测RNA的3’端，但是其能富集到的通路与现行方法有90％的重合。列举了这两种方法富集到的P值最小即最显著的20条通路，有参与非编码RNA的加工，核糖体的生物合成，RNA剪切，DNA复制等功能(如图30)，其余的请参考表9和10(由于篇幅有限，表9和10中只列出P值最小的前100条通路)。在这前20条最显著通路中，两个方法有15条相同，重复率达到75％；在前100条最显著通路中有86条相同，重复率达到86％。

上述实验结果研究表明，SuperSMART设计成功、结果可靠、方法可行。本发明的SuperSMART相对于现行金标准Illumina Tru-Seq试剂盒方案的优势体现在以下方面：

(1)步骤简单，而且可以进行早期合并多个样品实施单管操作，便于实现大量样品的高通量建库，大大提高了建库效率。

(2)快速高效。例如对于现行方法，大约需要7个实验框架和较多个反应步骤，而SuperSMART建库，每个样品仅需要5个实验框架和较少的实验步骤，从开始到结束，所有步骤均可在七个小时内完成；重要的是SuperSMART方法允许在样品标记后合并多个样品，随后所有反应步骤在单一试管中进行。相比之下，Illumina Tru-Seq现行方法需要十一个小时，而且每个样品必须从头到尾独立操作，每人每次操作的样品及其有限，劳动强度大。SuperSMART的这些改进大大简化了群体细胞样品RNA-Seq文库构建的步骤。考虑到多个样品高通量建库，时间和劳动强度将成几何数量级的减少。

(3)成本大降。现行方法利用市售的试剂盒进行扩增和测序文库制备，IlluminaTru-Seq试剂盒的市场价约30,000RMB，仅能做48个样品，平均每个样品约600RMB。而SuperSMART平均每个样品约200RMB，这使得SuperSMART的成本更低。考虑到多个样品高通量建库时后续步骤都在同一试管中操作，试剂成本将更随着通量增加而显著减少，例如：如果一次操作96个样品，成本将下降近20-50倍。同时，理论上，3’mRNA末端测序需要检测大约200bp，而全长mRNA测序检测大约2000bp，故测序成本也成10倍左右的下降。

实际上，目前的实验结果中，SuperSMART四个样品平均可用的读数为5,663,575，而现行方法两个样品平均可用读数为46,060,183，每个样品两种方法测序读数的量相差近8倍。但是，发明人发现即使用1/8的读数，superSMART方法检测的基因数已经足够并接近饱和，并且与此前3’端测序和全长测序所检测到的基因数的趋势一致^[12]。

(4)分析相对简单。由于专注3’端测序分析，分析更简单，用户将容易自己掌握，并潜在地能够有更多机会发现新的转录子3’端。

(5)SuperSMART与Illumina Tru-Seq建库测序的结果，无论检出的转录子数目，通路数目，read序列的CG含量，等都具有可比性，能够反映同一样品的同源性和不同细胞系之间的差异。例如，在使用R包Cluster Profiler对各自检出的基因进行GO分析。SuperSMART富集到2029个通路，Illumina Tru-Seq富集到2074个通路，双方检测到的通路有1814个相同。这些结果表明虽然SuperSMART只能检测RNA的3’端，但是其能富集到的通路与现行全长测序的金标准方法有90％的重合，而且检测到的通路数目接近。

4.5结论

本发明主要围绕创建高效高通量群体细胞转录组测序技术及其验证。本发明人在分析现有RNA-Seq技术的建库流程和优缺点的基础上，设计了新的文库构建和测序技术SuperSMART，阐述了该技术方案的原理和优势，同时与现有最常用的Illumina Tru-Seq技术为对照进行比较，以实验数据初步验证SuperSMART方案的可行性及有效性。小结如下：

(1)SuperSMART是基于RNA 3’端的建库测序技术，其基本步骤包括：1)从感兴趣的样品中提取总RNA；2a)直接用带有UMI(独特分子标记)和barcode(样品条码)以及Illumina5’接头的oligo-dT引物反转录polyA-RNA，使poly A选择和反转录cDNA在一个步骤中有效地完成；2b)再用带有Illumina 3’接头的3’端随机引物合成cDNA第二条链，随后合并多个样品(从此多个样品在单一试管中进行；可轻松进行大量的样品的建库)；2c)在胶电泳纯化或磁珠方法选择文库长度的基础上进行PCR指数扩增、完成建库；3)进行Illumina平台测序；4)数据提取和分析。

(2)与Illumina Tru-Seq技术相比，SuperSMART建库程序具有以下特点：1)免去mRNA纯化及mRNA 5’端捕获及体外转录过程。2)同时早期标记各样品RNA并合并，随后单管操作。该方法便于简便快速地进行高通量文库构建，不需要特殊设备，而且测序数据量要求少，因而具有可靠而高效的潜力。

(3)与Illumina Tru-Seq技术相比，SuperSMART测序结果特点是：1)SuperSMART每个样品读数5.66百万(为本实验分析所用有效数据)，已经饱和，而Illumina Tru-Seq每个样品读数是46百万(为本实验分析所用数据)，每个样品两种方法测序读数的量相差近8倍。2)对比测序的到的Reads在基因组中的分布情况，SuperSMART的覆盖范围集中在3’端，而Illumina Tru-Seq的覆盖范围从5’到3’端都有；这与两种建库方法的原理相对应，SuperSMART检测RNA的3’端，而Illumina Tru-Seq检测RNA的全长。3)两种建库方法的到的Reads均超过90％以上位于外显子区域，SuperSMART略低于Illumina Tru-Seq(均值92.65％VS93.90％)。4)两种方法的有效测序数据的CG含量都接近正态分布，峰值接近45％，但Illumina True-Seq结果更呈典型正态分布。5)检测基因数量方面，SuperSMART稍低于Illumina Tru-Seq(均值13381 VS 18626)。6)对SuperSMART与Illumina Tru-Seq两种方法中所有细胞样本中RPKM>0的基因进行相关性分析，与Illumina Tru-Seq相比，两种方法同种细胞系样品间的相关性R均高于0.95(0.97VS 0.99)。7)对两种方法中在同种K562细胞系样本中检测到的RPKM＞0.1的基因进行GO富集分析，SuperSMART富集到2029个通路，Illumina Tru-Seq富集到2074个通路，且有1814个通路为双方共有(～87.5％)。

(4)相对于现有的其它基于Illumina测序平台的RNA-Seq建库方法，SuperSMART具有以下优势：1)建库方法超级简单，操作方便；2)能进行高通量操作：程序早期合并多个样品之后单管操作，减少操作过程中的批次效应和劳动强度；3)时间大大缩短：7个小时内可完成一批文库构建；4)文库构建成本大大下降；5)需要的测序读数较低、测序经济效率高；6)对RNA样品质量有较好的耐受性；7)数据更低噪声、分析更简单；8)该方法具有需要更少起始RNA的潜力，甚至进行单细胞RNA测序。

(5)总之，SuperSMART是本领域针对多个群体细胞样品mRNA转录组测序的第一种高通量建库、测序方法。与现行的基于Illumina测序平台的RNA-Seq方法/金标准相比，SuperSMART高通量文库构建新技术质量可靠，而且具有更高的经济效率、工作效率和时间效率。在前期实验设计的基础上，发明人以2种细胞系为材料进行了初步实验研究，特别是在整体实验程序、引物、试剂等方面及相应数据分析技术进行了创新和初步优化。实验结果分析显示，SuperSMART的设计是成功的，结果是可靠的，方法是可行的，效率大大提升。其特征是测序结果覆盖mRNA的3’端，因而检测到的基因数和分子通路的数量比Illumina Tru-Seq略有减少，加上建库可实现高通量，总的经济效率呈数量级别提高(经济效率将可能提高2位数量级以上)，工作效率和建库速度也将大大提高。同时，实验结果表明，总体测序结果质量与标准方法Tru-Seq接近，具有可比性，方法可靠。

表8英文缩略词表

表9：SuperSMART中K562细胞检测基因富集到的GO通路

表10：Illumina Tru-Seq中K562细胞检测基因富集到的GO通路

最后应当说明的是，以上实施例仅用以说明本发明的技术方案而非对本发明保护范围的限制，尽管参照较佳实施例对本发明作了详细说明，本领域的普通技术人员应当理解，可以对本发明的技术方案进行修改或者等同替换，而不脱离本发明技术方案的实质和范围。

参考文献：

[1]Sanger F,Nicklen S,Coulson A R.DNA sequencing with chain-terminating inhibitors.1977[J].Biotechnology(Reading,Mass.).1992,24:104.

[2]Kivioja T,

A,Karlsson K,et al.Counting absolute numbers ofmolecules using unique molecular identifiers[J].Nature Methods.2012,9(1):72-74.

[3]Angela R Wu N F N T.Quantitative assessment of single-cell RNA-sequencing methods[J].Nature Methods.2014,11(1):41-46.

[4]Martin M.CUTADAPT removes adapter sequences from high-throughputsequencing reads[Z].2011:17.

[5]Kim D,Pertea G,Trapnell C,et al.TopHat2:accurate alignment oftranscriptomes in the presence of insertions,deletions and gene fusions[J].Genome Biology.2013,14(4):R36.

[6]Simon A,Paul Theodor P,Wolfgang H.HTSeq--a Python framework towork with high-throughput sequencing data[J].Bioinformatics.2015,31(2):166-169.

[7]Lawrence M,Huber W,Pagès H,et al.Software for Computing andAnnotating Genomic Ranges[J].PLOS Computational Biology.2013,9(8):e1003118.

[8]Liguo W,Shengqin W,Wei L.RSeQC:quality control of RNA-seqexperiments.[J].Bioinformatics(Oxford,England).2012,28(16).

[9]Chen H,Boutros P C.VennDiagram:a package for the generation ofhighly-customizable Venn and Euler diagrams in R[J].BMC Bioinformatics.2011,12(1):35.

[10]Pearson K.Note on Regression and Inheritance in the Case of TwoParents[J].Proceedings of the Royal Society of London.1895,58:240-242.

[11]Yu G,Wang L,Han Y,et al.clusterProfiler:an R package forcomparing biological themes among gene clusters[J].Omics:a journal ofintegrative biology.2012,16(5):284-287.

[12]Ziegenhain C,Vieth B,Parekh S,et al.Comparative Analysis ofSingle-Cell RNA Sequencing Methods[J].Molecular Cell.2017,65(4):631-643.

[13]Xinghua Pan and Sherman M.Weissman.An approach for globalscanning of single nucleotide variations[J]PNAS.2002 99(14)9346-9351；https://doi.org/10.1073/pnas.132218699.

SEQUENCE LISTING

<110> 广州序科码生物技术有限责任公司；南方医科大学

<120> 一种新的RNA高通量测序的方法、引物组和试剂盒及其应用

<130> 2020

<160> 12

<170> PatentIn version 3.3

<210> 1

<211> 59

<212> DNA

<213> 人工序列

<400> 1

gggagttcta cagtccgacg atcnbbnbba gactcttttt tttttttttt ttttttttt 59

<210> 2

<211> 59

<212> DNA

<213> 人工序列

<400> 2

gggagttcta cagtccgacg atcnbbnbba gctagttttt tttttttttt ttttttttt 59

<210> 3

<211> 59

<212> DNA

<213> 人工序列

<400> 3

gggagttcta cagtccgacg atcnbbnbba gcttcttttt tttttttttt ttttttttt 59

<210> 4

<211> 59

<212> DNA

<213> 人工序列

<400> 4

gggagttcta cagtccgacg atcnbbnbbc atgagttttt tttttttttt ttttttttt 59

<210> 5

<211> 61

<212> DNA

<213> 人工序列

<400> 5

gggagttcta cagtccgacg atcnbbnbba gactcttttt tttttttttt tttttttttv 60

n 61

<210> 6

<211> 61

<212> DNA

<213> 人工序列

<400> 6

gggagttcta cagtccgacg atcnbbnbba gctagttttt tttttttttt tttttttttv 60

n 61

<210> 7

<211> 61

<212> DNA

<213> 人工序列

<400> 7

gggagttcta cagtccgacg atcnbbnbba gcttcttttt tttttttttt tttttttttv 60

n 61

<210> 8

<211> 61

<212> DNA

<213> 人工序列

<400> 8

gggagttcta cagtccgacg atcnbbnbbc atgagttttt tttttttttt tttttttttv 60

n 61

<210> 9

<211> 30

<212> DNA

<213> 人工序列

<400> 9

gccttggcac ccgagaattc cannnnnntt 30

<210> 10

<211> 29

<212> DNA

<213> 人工序列

<400> 10

gccttggcac ccgagaattc cannnnnnt 29

<210> 11

<211> 50

<212> DNA

<213> 人工序列

<400> 11

aatgatacgg cgaccaccga gatctacacg ttcagagttc tacagtccga 50

<210> 12

<211> 63

<212> DNA

<213> 人工序列

<400> 12

caagcagaag acggcatacg agatcgtgat gtgactggag ttccttggca cccgagaatt 60

cca 63

Claims

1.用于RNA高通量测序的方法，包括以下步骤：

（1）获得1个以上样品的RNA；

（2）用二代测序平台相兼容、测序文库5’端序列相偶联的反转录引物对步骤（1）所得RNA进行反转录，以使poly A选择和反转录合成第一条cDNA链同步完成，得到反转录产物；

（3）反转录第一条cDNA链之后，进行RNA裂解，将样品中的RNA清除；

（4）用二代测序平台相兼容测序文库3’接头的引物合成第二条cDNA链，得到双链cDNA；

（5）在第二链cDNA合成之前或之后，合并多个平行操作的样品的产物到一个试管中，然后纯化、浓缩；

（6）以步骤（5）所得双链cDNA为底物，进行第一次PCR扩增，得到仅包含mRNA的3’末端相对应的cDNA的初步文库；扩增基于由对应于mRNA近3’端的3’端方向引物和对应于mRNA远3’端的5’端方向引物构成的一对PCR引物进行；其中5’端引物包含批次索引（Index）；引物对与特定二代测序平台相兼容；

（7）对上述文库，进行片段长度选择、富集或回收，和纯化，获得适合于测序平台的长度的文库；

（8）用二代测序平台对步骤（7）所得测序文库测序，以获得混合样品的转录组表达谱；

（9）通过信息分析解码步骤（8）所得转录组表达谱，获得各个批次、和各个样品的转录组表达谱，即得；

其中，所述步骤（2）中的反转录引物包含碱基序列为（NBB）n的分子标记，N表示A/T/C/G四种类型的脱氧核糖核甘酸中的任意一种，B代表T/C/G三种类型的脱氧核糖核甘酸中的任意一种，n代表正整数；所述步骤（4）中的cDNA第二链合成引物的3’末端为1个或2个T。

2.根据权利要求1所述的方法，其中所述步骤（6）之后还可包括第二次PCR扩增，以获得适合二代测序的最终测序文库。

3.根据权利要求2所述的方法，其中，第二次PCR扩增时，采用第一次PCR同样的引物对，包括同样的批次索引（Index）；或者其中的部分序列。

4.根据权利要求1所述的方法，其中所述步骤（6）的PCR扩增引物的碱基序列如SEQ IDNO.11和12所示。

5.根据权利要求1所述的方法，其中所述步骤（1）中的RNA为总RNA，或者是从总DNA分离的mRNA。

6.根据权利要求1所述的方法，其中所述步骤（1）中的样品是直接采用群体细胞、或单个细胞进行管内裂解释放，而不经过前期的RNA纯化、洗脱、回收过程。

7.根据权利要求1所述的方法，其中所述步骤（1）中，在获得RNA时，将基因组DNA采用物理方法、化学方法或酶解法剔除。

8.根据权利要求1所述的方法，其中所述步骤（2）中反转录引物3’末端带有oligo-dT，长度为6～40个碱基。

9.根据权利要求8所述的方法，其中所述长度为18-24个碱基。

10.根据权利要求8所述的方法，其中所述引物5’端包括测序文库5’接头序列（Adapter）相兼容的序列。

11.根据权利要求8所述的方法，其中所述反转录引物包含转录子水平的独特分子标记（UMI），或/和样品条码（barcode）。

12.根据权利要求11所述的方法，其中所述反转录引物还包含实验批次索引（Index）以及与特定二代测序平台相兼容的测序文库接头序列（Adapter）相兼容的序列。

13.根据权利要求8所述的方法，其中所述3’末端的oligo-dT末端为TnVN-3’ 、TnV-3’、Tn-3’、或TnN-3’，其中n为6～40，V代表C、G或A；N表示A、T、C和G中任意一种。

14.根据权利要求13所述的方法，其中所述oligo-dT末端为TnVN-3’ 或TnV-3’。

15.根据权利要求8所述的方法，其中所述反转录引物5’和/或3’末端及近末端第1-5核苷酸位置之间具有稳定核苷酸免于降解的修饰。

16.根据权利要求15所述的方法，其中所述修饰为硫代磷酸酯修饰。

17.根据权利要求8所述的方法，其中所述反转录引物的碱基序列如SEQ ID NO.1~8中任一项所示。

18.根据权利要求1所述的方法，其中所述cDNA第二链的合成引物的碱基序列如SEQ IDNO.9或10所示。

19.根据权利要求1所述的方法，其中所述步骤（2）、（4）、（7）、（8）中的测序平台为Illumina测序平台HiSeq、NextSeq、MiniSeq、MiSeq、NovaSeq、或华大基因的MGISEQ。

20.根据权利要求1所述的方法，其中所述步骤（7）中测序文库进行纯化或回收特定长度序列，回收特定序列长度为250bp-1000bp。

21.根据权利要求20所述的方法，其中所述特定序列长度为400bp-800bp。

22.根据权利要求20所述的方法，其中所述特定序列长度为400bp-600bp。

23.根据权利要求1所述的方法，其中初步测序文库或/和最终测序文库进行特定长度序列的回收，回收特定序列长度的方法为凝胶电泳、可分选DNA长度的磁珠、或HPLC。

24.根据权利要求23所述的方法，其中所述磁珠为AMPure XP Beads。

25.根据权利要求2所述的方法，其中所述第一次PCR扩增和第二次PCR扩增所用引物兼容SEQ ID NO.1~8、SEQ ID NO.9或10的全长序列、或其部分序列。

26.根据权利要求1所述的方法，其中所述步骤（8）中测序平台采用Illumina HiseqX10 高通量测序仪实施双端或单端测序。

27.根据权利要求26所述的方法，其中所述双端测序的两端的长度均为150bp。

28.根据权利要求26所述的方法，其中所述单端或双端进行不同长度测序。

29.根据权利要求1所述的方法，其中所述步骤（9）中测序数据的信息解码分析方法，包括如下步骤：

1）对步骤（6）的转录组表达谱测序数据进行预处理，包括：质量控制、Index分流、barcode分流、去除polyA序列、去除测序接头和低质量碱基、根据UMI进行读数的扩增偏差剔除；

2）对步骤1）预处理后的测序数据进行比对、比对结果质控、Reads count计数、Readscount标准化、计算检出基因数并绘制Venn图、Pearon相关系数评估、检出基因富集分析、GO富集分析、热图分析、相关性分析和差异基因分析。

30.根据权利要求1所述的方法，其中所述步骤（9）中测序数据的信息解码分析方法，对特定研究对象转录组终止位点进行解析。

31.根据权利要求1～30任一项所述的方法在药物研发和非诊断的生命科学基础研究中的应用。