CN113789364B

CN113789364B - 一种超微量全长rna测序文库的构建方法

Info

Publication number: CN113789364B
Application number: CN202110936057.2A
Authority: CN
Inventors: 葛芹玉; 施华娟; 贾二腾; 赵祥伟; 刘芝余; 白云飞
Original assignee: Southeast University
Current assignee: Southeast University
Priority date: 2021-08-16
Filing date: 2021-08-16
Publication date: 2024-03-15
Anticipated expiration: 2041-08-16
Also published as: CN113789364A

Abstract

本发明公开超微量的全长总RNA测序文库的构建方法，包括以下步骤：1）对获得细胞或者亚细胞样本中的超微量的总RNA，进行cDNA文库的构建，获得包含rRNA序列信息的cDNA文库；2）对获得的cDNA文库进行无偏性扩增；3）根据相应物种的rRNA序列，设计sgRNA序列组合；4）将sgRNA序列组合配置的溶液与步骤扩增产生的cDNA文库进行混合，获得不包含rRNA信息的cDNA文库。本发明能够实现超微量的总RNA及全长建库，同时又能够在cDNA合成之后使用CRISPR/Cas9高效切割PCR扩增产生的含有rRNA的cDNA文库，从而避免RNA的降解；适用于超低起始量的转录组建库，且花费较低。

Description

一种超微量全长RNA测序文库的构建方法

技术领域

本发明属于生物技术领域，涉及一种超微量全长总RNA测序文库构建方法，尤其涉及一种基于模板转换逆转录及CRISPR/Cas9高效切割去除rRNA，同时能够通过编码进行细胞或者亚细胞样本并行测序与分析的超微量的全长总RNA转录组建库方法。

背景技术

最近，随着高通量测序技术的发展，单细胞RNA测序技术(Single cell RNAsequencing,scRNA-seq)成为可能。2009年，Tang等人发表了第一个单细胞RNA-seq测序方案。但由于测序通量低，随后STRT-seq和SCRB-seq作为新的方法被引入，它们可以同时处理多个不同的样本，但通常会引入3′端或5′端的偏差，与之相比，Smart-seq2结合模板转换方法，进行了全转录组的测序，可用于融合基因检测、单核苷酸变异(SNV)分析、可变剪切等，成为了一种单细胞全长转录组测序分析的理想方法。此外，为了减少上述方法中PCR扩增所产生的偏差，CEL-seq和MARS-seq方法使用体外逆转录(IVT)替代PCR扩增，获得足够多的cDNA量进行测序，且降低了PCR扩增偏差。最近，基于液滴和分裂池连接的方法能够获得数千个单细胞，为解析细胞异质性和稀有细胞类型提供的新的可能。但所有的这些方法的不足都是通过oligo-dT的方法进行mRNA及少量长链非编码RNA的富集，而其它的非编码RNA很难获取。这就限制了我们对非编码RNA的深入解析，成为解析单个细胞中全部转录信息的主要障碍。

目前，研究者们在努力开发单细胞全转录组RNA-seq方法，如最早的SUPeR-seq，利用特异性随机引物富集非polyA的RNA，包括circRNAs。然而，SUPeR-seq对非polyA尾巴的RNA敏感性相对较低(20％-30％)。这为研究scRNA-seq测序非poly(A)尾RNAs的富集方法提供了空间。此外，一个不可忽视的问题就是在总RNA测序中，不感兴趣的RNA物种丰度(如rRNA占细胞总量的80％-90％)会占据测序的容量，影响其它低丰度转录物的结果分析，同时还增加了测序的成本。目前，从总RNA中去除rRNA的方法包括两种，直接富集多聚腺苷酸化(polyA)的转录本和靶向去除rRNA。前者主要由于rRNA无polyA尾，因此可以使用oligo(dT)引物富集含polyA尾的mRNA，也由于操作步骤简单方便而成为了大多数scRNA-seq富集mRNA的主要方法，包括Smart-seq2/3、CEL-Seq2等。然而，这种方法很容易产生偏差，因为它去除了除rRNA之外所有的非编码转录本，如长的非编码RNA(lncRNA)、3′末端降解的mRNA等。另一种方法，rRNA特异性去除方法，通过使用生物素标记的特异性探针(如Illumina’sRibo-Zero和Thermo Fisher’s RiboMinus)或RNase H介导的降解(如：NEB’s NEBNext)。虽然这些靶向去除的方法保留了大部分的非rRNA，但往往需要较高的样本投入量10ng-1μg，远高于单细胞RNA量的要求，很难在scRNA-seq中应用，从而限制了研究者对单细胞全转录组信息的分析。

因此为了以最高效率从scRNA-seq文库中去除rRNA，研究者们提出了在cDNA合成过程中或者合成之后进行rRNA的去除，从而降低了对RNA输入量的要求。目前最具代表性的方法为以Takara为代表的scZapR and scR-Probes，可在单细胞建库中高效率的去除rRNA，但其价格及其昂贵。此外随着CRISPR技术的日益成熟，研究者开发了一种新的通过利用CRISPR/Cas9技术杂交去除非靶标序列(DASH)，其原理是Cas9核酸酶与single guide RNAs(sgRNAs)形成复合物，在特定sgRNA互补位置诱导双链断裂(DSBs)，从而去除靶基因，如rRNA。此外，研究者也应用CRISPR/Cas9从ATAC-seq文库中切割去除线粒体DNA。

目前，现有技术中无法准确的对样本转录组中不带poly(A)尾的RNA进行测序的问题，尤其是无法去除细胞或者亚细胞样本转录组中的rRNA，亟待出现一种方法能够解决上述问题。

发明内容

发明目的：本发明所要解决的技术问题是提供了一种能够进行超微量全长总RNA建库，同时能够高效去除rRNA。

技术方案：为了实现上述目的，本申请采用了以下技术方案：一种超微量全长总RNA测序文库的构建方法，所述构建方法主要包括以下步骤：

1)对获得的细胞或亚细胞样本中的超微量总RNA，按照常规的方法进行cDNA文库的构建，获得包含rRNA序列信息的cDNA文库；

2)对步骤1)中获得的cDNA文库进行扩增；

3)根据细胞或亚细胞的相应物种的rRNA序列，设计特异性的sgRNA序列组合，所述的sgRNA序列组合包括SEQ ID No.1-SEQ ID No.58；

4)将sgRNA序列组合配置的溶液与步骤2)扩增的cDNA文库进行混合，利用CRISPR/Cas9系统在Cas9蛋白作用下进行特异性的切割，获得不包含rRNA信息的cDNA文库。

其中，所述步骤1)细胞或者亚细胞的RNA的起始量为0.5～500pg。

其中，所述步骤2)的文库扩增可采用PCR或等温扩增。

其中，所述步骤4)中配置rRNA的sgRNA混合池及Cas9的RNP复合物的反应体系，37℃孵育0.5-2h。

其中，所述步骤4)中Cas9蛋白的浓度为10nM-2μM。

其中，所述步骤4)中sgRNA序列组合的浓度为0.1-1μM。

其中，所述超微量全长转录组测序文库的构建方法具体包括如下步骤：

s1)将细胞或者亚细胞裂解获得RNA；

s2)RNA片段化、逆转录及模板转换：将RNA置于二价阳离子溶液、带有修饰和编码的半随机引物、dNTP、第一链合成试剂的混合液中进行片段化，其后在模板转换引物、RNA酶抑制剂、SMARTScirbe逆转录酶、DTT、甜菜碱及片段化的产物进行模板置换合成二链cDNA；

s3)将得到的二链cDNA预扩增及PCR产物纯化；

s4)二轮PCR扩增及二轮PCR扩增产物纯化及片段筛选；

s5)利用CRISPR/Cas9系统进行特异性的切割，获得不包含rRNA信息的cDNA文库；

s6)cDNA文库上机测序。

其中，所述步骤s3)预扩增反应循环数是15～24，所述步骤4)第二轮反应循环数为18～25。

其中，所述步骤s2)的带有修饰和编码的半随机引物序列为：biotin-5'-GTCTCGTGGGCTCGGAGATGTGTATAAGAGACAGXXXXXXXXNNNNNsN-3'；其中X代表的是编码序列。

其中，所述步骤s2)的模板转换引物序列为：biotin-5'-TCGTCGGCAGCGTCAGATGTGTATAAGAGACAGrGrGrG-3'。

其中，所述步骤s3)的预扩增的扩增引物包括ISPCR-Oligo引物和ISPCR-TSO引物，所述ISPCR-Oligo引物序列为：GTCTCGTGGGCTCGGAGATGTGTATAAGAGACAG；所述ISPCR-TSO引物序列为：TCGTCGGCAGCGTCAGATGTGTATAAGAGACAG。

其中，所述步骤s4)的二轮PCR扩增使用P5引物(引物序列：AATGATACGGCGACCACCGAGATCTACACTCGTCGGCAGCGTC)、P7引物(引物序列：CAAGCAGAAGACGGCATACGAGATYYYYYYYYGTCTCGTGGGCTCGG；Y为index序列，长度为6～8bp)和2X KAPA的高保真酶进行PCR扩增反应。

其中，所述步骤s5)根据相应物种的rRNA序列，设计了如下sgRNA的引物序列：

表1sgRNA序列

本发明的一种能够进行超微量全长总RNA建库方法，在RNA到cDNA的逆转录过程中所使用的引物包含随机引物和特定序列，随机引物位于特定序列的3’端，二者之间有1～5个碱基，随机序列由3～18个碱基组成，优选6～15个随机碱基组成(A、T、G、C任意合成六到十五聚体)，特定序列为8～45个碱基的同聚体，优选15～32个碱基的同聚体，特定序列的碱基选自A、T、G、C中的任意一个。常用的oligo-dT作为引物的方法中，由于引物只能结合在mRNA链末端的聚腺苷酸尾巴上，导致绝大部分情况下能够覆盖的片段都在整条核糖核酸链的末尾段，不利于完整转录组的研究及揭示可变剪切等现象。本发明的半随机引物理论上可以结合整条核糖核酸链的各个部位，因此可以大大提高逆转录的均匀性，反应细胞中转录本的真实状态。然后利用PCR等扩增方法进行微量cDNA的放大；针对待去除的rRNA基因的CDS区域设计得到sgRNA(single guide RNA)pool，使cDNA文库样本与sgRNA pool、Cas9蛋白接触，使其对相应的cDNA序列进行切割，最后获得除核糖体RNA以外的所有细胞RNA序列全转录组测序文库。在该方法中，所述建库过程较常规转录组建库的优势在于可以进行低至～0.5pg的样本建库，同时能够实现RNA的全长测序和rRNA的高效去除。

在该方法中，逆转录之前使用化学方法(如Mg²⁺，Zn²⁺等)在70～90℃将RNA打断，反应时间2～25min，优选5～20min，更优选10min。RNA通常具有丰富的二级结构，在常规的方法中，逆转录前对RNA在65℃条件下加热5min使RNA的二级结构充分打开，实际上较为稳定的二级结构在这种条件下并不能完全打开。因此本方法通过优化精确控制加热温度和时间，使RNA的二级结构充分打开，从而增加了逆转录效率。在该方法中，提供了一整套rRNA的sgRNA序列，弥补了其它技术方案仅有线粒体或者细胞质的rRNA的sgRNA序列。在该方法中，提供了一整套完整的编码信息，克服超微量RNA全长转录组单管测序的障碍，可实现大量样本的并行测序与分析。

本发明提供了一整套完整的超微量全长总RNA建库流程。得到的样品直接用于核酸文库构建操作，所以需要达到一定的文库构建起始量，需要进行两轮的PCR反应，第一轮预扩增反应循环数是15～24，第二轮反应循环数为18～25，需要根据实验起始量的大小(总的核苷酸含量多少)决定。以10pg核糖核酸起始量为例，第一轮和第二轮PCR扩增分别需要20和25个循环。本方法适用于样本起始量低至～0.5pg的实验，虽然测序结果显示，随着样本投入量的增加，基因的覆盖度显著增加，但ng级别的样本起始量已经达到饱和，过度的扩增会带来更大的偏差，超过500ng的样本起始量得到的实验结果的稳定性可能反而不如100ng。

使用本发明的超微量全长总RNA建库方法拥有很高的可重复性，适于分析单细胞及微量样本中全长转录组信息，从而可以更加全面的研究单细胞或微量样本的全长转录组，对更多未知的核糖核酸展开研究。同时，本发明可以克服超微量全长转录组单管测序的障碍，实现大量样本的并行测序与分析。

本发明的该方法使用包含随机序列的“半随机引物”进行逆转录，不依赖polyA尾，因此可以覆盖所有核糖核酸种类；同时在逆转录之后使用CRISPR/Cas9进行高效的rRNA的去除，解决了超低量样本和单细胞样本投入量的需求。

本发明采用了带有编码和修饰的半随机引物进行逆转录，在cDNA合成之后使用CRISPR/Cas9技术从总RNA中去除rRNA，从而实现全长转录组建库，且同时能够通过编码进行大量样本的并行测序与分析，具有成本低廉，且能表征各种类型细胞转录本信息的差异性，非编码RNA信息，为生物医学相关领域提供更加全面和精确的转录本信息。

有益效果：与现有技术相比，本发明具有以下显著优势：

(1)既能对带polyA尾的RNA进行测序，又能对不带polyA尾的RNA进行测序；

(2)在cDNA合成后使用CRISPR/Cas9进行高效rRNA的去除，rRNA的比对率可低至1.5％，显著优于现有的试剂盒。

(3)适用于超低起始量的转录组测序建库，RNA的起始量可低至0.5pg。

(4)可以克服多样本全长转录组单管测序的障碍，实现大量样本并行测序与分析。

(5)可以实现RNA的全长建库测序。

附图说明

图1建库流程图；

图2预扩增结果，样本1和样本2分别表示的从小鼠大脑区域获取的2个单细胞样本；

图3PCR扩增结果，样本1和样本2分别表示的从小鼠大脑区域获取的2个单细胞样本。

图4数据过滤的统计图，样本1和样本2分别表示的从小鼠大脑区域获取的2个单细胞样本。Adapter Polluted Reads Rate(％)：去掉含有接头污染的Reads数占原始未过滤Reads数的比例；Ns Reads Rate(％)：由于含N过高，被去掉的序列占原始下机序列的比例；Low-quality Reads Rate(％)：被低质量过滤标准去掉的Reads的比例；Clean Reads Rate(％)：过滤后剩余的Reads数占原始未过滤Reads数的比例，这个值越大，说明测序质量或者文库质量越好。

具体实施方式

以下描述用于揭露本发明以使本领域技术人员能够实现本发明。以下描述中的实施例只作为举例，本领域技术人员可以想到其它显而易见的变型。在以下描述中界定的本发明的基本原理可以应用于其他实施方案、变形方案、改进方案、等同方案以及没有背离本发明的精神和范围的其他技术方案。

下述实施例中所使用的实验方法如无特殊说明，均为常规方法。

下述实施例中所用材料、试剂等，如无特殊说明，均可从商业途径得到。

本文使用的所有技术和科学术语具有与本领域技术人员通常理解的相同的含义。例如，术语“RNA”是指单条RNA链和多条RNA链。

本发明提供了超微量全长总RNA测序文库构建方法。相对于现有的转录组文库构建方法，本发明可有效的去除rRNA，获取样本全转录组信息。本发明超微量全长转录组rRNA去除文库构建方法还对微量和降解样品中RNA进行转录组文库构建和测序。进一步地，本发明超微量全长总RNA测序文库构建方法的半随机引物反转录步骤使用了随机引物序列，提高了RNA的捕获能力。此外本发明提供了一整套完整的编码信息，克服多样本全长转录组单管测序的障碍，实现大量样本并行测序与分析。同时本发明提供了一整套rRNA的sgRNA序列，弥补了其它技术方案仅有线粒体或者细胞质的rRNA的sgRNA序列。

本发明的所有序列均由生工生物工程(上海)股份有限公司，Sangon Biotech(Shanghai)合成。

在一个具体的实施方案中，所有的操作在一个无酶的环境中进行。操作前对超净台进行彻底清洗，用RNA酶去除试剂进行擦拭，实验前利用紫外灯照射半小时以上。

实施例1

本实例样本选择了小鼠脑的单细胞样本，使用从上海南方模式生物科技股份有限公司购买的1只健康小鼠，收集小鼠脑的样本对其进行石蜡切片，然后使用东南大学生科院的激光显微切割仪(北京安麦格贸易有限公司，LMD6)，从小鼠脑样本的不同区域中分离单个细胞(命名为样本1和样本2)，其后对样本1和样本2进行超微量全长总RNA建库。

本实施例全长转录组文库构建包括小鼠脑单细胞样本制备、细胞裂解、RNA片段化、逆转录(RT)反应、cDNA扩增、CRISPR/Cas9去除核糖体RNA等一系列步骤。试剂加样操作和PCR操作按照以下说明进行。

1、小鼠脑单细胞样本制备

将制备好的石蜡切片样本置于Pixcell显微激光切割系统10×10倍目前直视观察，重点观察细胞形态。找到细胞密集、形态较好、染色满意区域，装载细胞收集器；在10×20倍目镜下调节监视器，按照如下条件：Power 100mV、Duration 15.5s、Spots size 15.5μm、Current 8.0mA，每张切片平均8000shorts条件进行捕获，其后选择其中捕获的两个细胞命名为样本1和样本2进行下述的文库构建。

2、细胞裂解液的制备

参照单细胞裂解试剂盒(Invitrogen,#4458355)说明书，配置如下裂解液(表2)，混合均匀，室温放置5min；加入0.25μL的单细胞终止液，室温放置2min，置于冰上。

表2细胞RNA裂解

3、RNA片段化、逆转录及模板转换

片段化和逆转录是指将RNA(10pg)置于25mM的氯化镁，10μM的随机引物(引物序列：biotin-5'-GTCTCGTGGGCTCGGAGATGTGTATAAGAGACAGXXXXXXXX NNNNNsN-3'；引物合成：生工生物工程(上海)股份有限公司，Sangon Biotech(Shanghai)Co.,Ltd.；N为随机碱基：A、T、C、G；X代表的是编码序列，10mM的dNTP(Takara，#639132)，5X SMARTScirbe一链合成Buffer(Takara，#639536)的混合液中，在80℃条件下反应5min，进行RNA的片段化；其后在10μM的模板转换引物(TSO)(biotin-5'-TCGTCGGCAGCGTCAGATGTGTATAAGAGACAGrGrGrG-3'；引物合成公司同上)，40U/μL RNase酶抑制剂(Takara，#2313A)，100U/μL SMARTScirbe逆转录酶(Takara，#639536)，100μM的DTT(Invitrogen,#18064-014)，5M的甜菜碱(Sigma，#61962)及片段化的RNA在42℃，90min；10循环(50℃，2min；42℃，2min)；85℃，5min；4℃条件下进行一链合成和模板转化。

表3逆转录反应体系

表4模板转换体系

4、预扩增

上述cDNA合成之后，在其混合液中加入5μM引物ISPCR-oligo(引物序列：GTCTCGTGGGCTCGGAGATGTGTATAAGAGACAG；引物合成公司同上)、5μM引物ISPCR-TSO(引物序列：TCGTCGGCAGCGTCAGATGTGTATAAGAGACAG；引物合成公司同上)和2X KAPA的高保真酶(Roach，#KK2631)，在95℃，3min；18循环(98℃，20s；67℃，15s；72℃，3min)；72℃，5min的条件下进行PCR扩增，增加cDNA的浓度。此处尽可能少的使用PCR循环数，降低过多循环数带来的PCR扩增偏差)反应体系如表5所示：

表5预扩增反应体系

5、上述PCR产物纯化

1)向上述每个PCR产物中加入无酶水至总体积50μL，然后使用AgencourtAMPureXP磁珠(Beckman Coulter,Beverly,USA，#A63880)，进行纯化；

2)涡旋振荡混匀Agencourt AMPure XP磁珠并吸取35μL体积至50μL PCR产物中，使用移液器轻轻吹打10次充分混匀。室温孵育5min；

3)将反应管放置磁力架上5min，分离磁珠和液体；

4)去除上清液，用200μL 80％的乙醇清洗2次，每次清洗30s。弃乙醇，使磁珠干燥。

5)加入12.5μL的无酶水溶解，用移液器轻轻吹打10次充分混匀，室温孵育5

min。

6)放置磁力架上澄清，吸取10μL至新的PCR管。其中8μL用于下面的PCR扩增，另外2μL用于琼脂糖凝胶电泳(琼脂糖凝胶电泳结果如图2，样本1和样本2分别表示的从小鼠大脑区域获取的2个单细胞样本)。

6、接头添加

在上述纯化后的产物样本1和样本2中分别加入5μM的P5端通用引物(引物序列：AATGATACGGCGACCACCGAGATCTACACTCGTCGGCAGCGTC；合成公司同上)、5μM的P7端测序引物(样本1添加的引物序列：CAAGCAGAAGACGGCATACGAGAT TAAGGCGAGTCTCGTGGGCTCGG；样本2添加的引物序列：CAAGCAGAAGACGGCA TACGAGATCGTACTAGGTCTCGTGGGCTCGG；合成公司同上)及2XKAPA的高保真酶(Roach，#KK2631)，在98℃，45s；20循环(98℃，15s；60℃，30s；72℃，10s)；72℃，1min的条件下进行PCR扩增。反应体系如表6所示：

表6PCR扩增反应体系

7、上述PCR产物纯化

2)涡旋振荡混匀Agencourt AMPure XP磁珠并吸取37.5μL体积至50μL PCR产物中，使用移液器轻轻吹打10次充分混匀，室温孵育5min；

3)将反应管放置磁力架上5min，分离磁珠和液体；

5)加入15μL的无酶水溶解，用移液器轻轻吹打10次充分混匀，室温孵育5min。

6)放置磁力架上澄清，吸取14μL至新的PCR管。其中12μL用于rRNA的去除，另外2μL用于琼脂糖凝胶电泳(琼脂糖凝胶电泳结果如图3，样本1和样本2分别表示的从小鼠大脑区域获取的2个单细胞样本)。

8、使用CRISPR/Cas9技术进行rRNA的去除

CRISPR/Cas9系统是通过RNA介导的DNA内切酶进行基因组编辑操作，它们分别是CRISPR RNA(crRNA)和反式作用CRISPR RNA(trans-acting CRISPR RNA，tracrRNA)。这两种RNA可以被"改装"成一个向导RNA(single-guide RNA，sgRNA)。sgRNA包括一段20bp左右的DNA识别区与一段固定序列，其DNA识别区与靶位点处碱基互补，引导Cas9蛋白在结合区随机切割DNA双链。

1)设计rRNA去除的CRISPR/Cas9敲除文库

从NCBI数据库下载45S rRNA基因(登入号：18S：NR_003286.2；5.8S：NR_003285.2；28S：NR_003287.2)的CDS序列，选择多个转录本共同的CDS序列。利用sgRNACas9 3.0.5软件，结合在线设计网站http://crispr.mit.edu/及使用Benchling在目标序列的正链和负链上设计sgRNA，计算每个sgRNA的特异性评分(脱靶评分)和效率评分(目标评分)。从18S、5.8S和28S rRNA基因7,096bp序列中筛选出58个sgRNA，长度为20bp，GC含量范围为40％～60％。完整的sgRNA序列列表见表1(生工生物工程(上海)股份有限公司，Sangon Biotech(Shanghai)合成)。

2)sgRNA的体外合成

sgRNA的体外合成通常有两种策略：一种为构建含特异性序列的转录质粒，另一种则使用合成的oligo退火延伸生成含T7的转录启动子的双链DNA分子，进而再使用T7RNA聚合酶进行体外转录，从而获得sgRNA。利用合成的Oligo直接制备sgRNA，具有操作简单快速、可实现高通量等优势，因此体外合成sgRNA成为本实验首选方案。应用HaiGene一步法sgRNA合成试剂盒(海基生物科技有限公司，#D0601)获得的sgRNA，为37℃过夜孵育的sgRNA，以下设计的试剂均来自试剂盒提供，操作步骤如下：

A：Target Sense Oligo的设计：选取Target DNA序列PAM(NGG)的5'端20bp进行Sense Oligo引物设计，Sense Oligo引物结构包含保护碱基(AAGC)、T7promoter(TTCTAATACGACTCACTATAGG)、Target DNA片段(20bp)和互补片段(GTTTTAGAGCTAGA)。

Sense Oligo设计如下：

Target Sense Oligo：

5’-AAGCTTCTAATACGACTCACTATAGG(N)₂₀GTTTTAGAGCTAGA-3’

转录得到的Anti sgRNA Oligo靶序列如下：

CTCAGTATGATGCTTCTGAGCTGAAAGCGTCCATGAAGGGGCTGGGGACTGATGAGGACTCTCTCATTGAGATTCTGCTCAAGGACCAACCAGGAGCTGCAGGAAATCAACAGAGTCTACAAGGAAATGCAACCTTCATTTCCC TGCTGGAGAAGGACATGCAACCTTCATTTCCCTGCTGGTCGTTTCCGACACCTGGCCACCTGGAGACAGTGATTTTGGGCCTATTGAAAACACCTG横线部分为设计的sgRNA靶区域，根据sgRNA靶区序列需要合成的Target Sense Oligo入列为：

Target Sense Oligo：

5’-AAGCTTCTAATACGACTCACTATAGGACCTTCATTTCCCTGCGTTTTAGAGCTAGA-3’

Anti sgRNA Oligo转录后获得的sgRNA序列如下，其中：GG转录起始位点；粗体中的序列为gRNA区；下划线为crRNA区。

B：转录sgRNA体系的配制，反应体系如表7。

表7转录sgRNA体系的配制

/>

37℃反应过夜，转录sgRNA产量为159ng/μL(孵育时间越长，sgRNA产量越高)；转录完成后向上述反应液中加入2μL的无酶水，其后37℃孵育15min去除DNA模板。反应完毕后将其置于-80℃冰箱中备用。

C：Cas9的RNP复合物的形成(CRISPR/Cas9 RNP)

通常来说CRISPR/Cas9 RNP(核糖核蛋白复合物)是由sgRNA及Cas9蛋白组成。步骤B中合成的sgRNA与Cas9蛋白混合后，可去除靶基因序列(rRNA)。之所以采用这种方法的原因，是脱靶效应会比较低，且不会出现完成DNA整合的风险，更适合本实验。详细的反应体系如表8；

表8Cas9的RNP复合物的形成体系

在37℃，20min。其后进行核糖体cDNA的去除，操作步骤如下：

D：rRNA的去除

①添加第7)步纯化的cDNA 1ng样本到上述10μL核糖核蛋白复合物的反应溶液中；②另添加2X Cas9 buffer，用无酶水将体系补足到20μL；37℃，90min；

E：Cas9蛋白去除及样本纯化

①向步骤D的溶液中添加1μL蛋白酶K(20mg/mL)，37℃，15min；

②向上述产物中加入无酶水至总体积50μL，然后使用Agencourt AMPure XP磁珠(Beckman Coulter,Beverly,USA，#A63880)，进行纯化；

③涡旋振荡混匀Agencourt AMPure XP磁珠并吸取37.5μL体积至50μL PCR产物中，使用移液器轻轻吹打10次充分混匀，室温孵育5min；

④将反应管放置磁力架上5min，分离磁珠和液体；

⑤去除上清液，用200μL 80％的乙醇清洗2次，每次清洗30s。弃乙醇，使磁珠干燥；⑥加入12μL的无酶水溶解，用移液器轻轻吹打10次充分混匀，室温孵育5min。

⑦放置磁力架上澄清，吸取10μL至新的PCR管，使用Illumina HiSeq X-10(Illumina Inc.,San Diego,CA,USA)的双末端2×150bp测序平台进行测序；

9、测序数据分析

1)原始数据的过滤

由于测序得到的原始序列中，会含有测序接头序列及低质量序列。因此在序列比对之前，我们首先对原始数据进行过滤，得到高质量的Clean Reads(过滤后剩余的Reads数)，后续分析都基于Clean Reads。其中原始数据的处理通常包含以下三部分：去除接头污染的reads，去除低质量reads(reads中质量值Q<19的碱基占总碱基的50％以上，对于上端测序，若一端为低质量reads，则会去掉两端reads)等，其结果如图4所示。

2)测序数据比对

获得Clean Reads数据后，首先进行rRNA的比对和剩余部分rRNA的去除，从RNAcentral上下载小鼠的rRNA参考序列，使用Hista2构建索引，其后进行rRNA的比对及rRNA序列的去除，其中rRNA比对结果参见表9。

使用去除rRNA序列的数据进行mRNA比对，流程如下：首先在hisat2官网下载小鼠参考基因组(https://genome-idx.s3.amazonaws.com/hisat/mm10_genome.tar.gz tar-zxvf mm10_genome.tar.gz)，在Gencode下载注释基因(http://ftp.ebi.ac.uk/pub/databases/gencode/Gencode_mouse/release_M27/gencode.vM

27.annotation.gtf.gz)进行比对和计数，其结果参见表9。

最后检测鉴定非编码RNA—环状RNA(circRNA)数量：首先使用BWA(比对方法记载如下文献中：Li H,Durbin R.Fast and accurate short read alignment with burrows–wheeler transform.Bioinformatics.2009；25(14):1754-1760)进行比对，其后使用CIRI2(比对方法记载如下文献中：Gao Y,Wang J,Zhao F.CIRI:an efficient and unbiasedalgorithm for de novo circular RNA identification.Genome biology.2015；16(1):4)对circRNA进行鉴定和计数，其结果参见表9。

表9建库测序结果

以上结果表明，本发明的超微量全长转录组建库方法可以在微量样本输入的条件下，有效去除rRNA，同时能检测到较多的基因和非编码RNA(如环状RNA)数量。

序列表

<110> 东南大学

<120> 一种超微量全长RNA测序文库的构建方法

<160> 58

<170> SIPOSequenceListing 1.0

<210> 1

<211> 23

<212> DNA

<213> 人工序列(Artificial Sequence)

<400> 1

cggtacagtg aaactgcgaa ngg 23

<210> 2

<211> 23

<212> DNA

<213> 人工序列(Artificial Sequence)

<400> 2

tagagctaat acatgccgac ngg 23

<210> 3

<211> 23

<212> DNA

<213> 人工序列(Artificial Sequence)

<400> 3

tctagagtca ccaaagccgc ngg 23

<210> 4

<211> 23

<212> DNA

<213> 人工序列(Artificial Sequence)

<400> 4

catggtgacc acgggtgacg ngg 23

<210> 5

<211> 23

<212> DNA

<213> 人工序列(Artificial Sequence)

<400> 5

aattacccac tcccgacccg ngg 23

<210> 6

<211> 23

<212> DNA

<213> 人工序列(Artificial Sequence)

<400> 6

tttaacgagg atccattgga ngg 23

<210> 7

<211> 23

<212> DNA

<213> 人工序列(Artificial Sequence)

<400> 7

ggcggtggct cgcctcgcgg ngg 23

<210> 8

<211> 23

<212> DNA

<213> 人工序列(Artificial Sequence)

<400> 8

tcttagctga gtgtcccgcg ngg 23

<210> 9

<211> 23

<212> DNA

<213> 人工序列(Artificial Sequence)

<400> 9

ggaataatgg aataggaccg ngg 23

<210> 10

<211> 23

<212> DNA

<213> 人工序列(Artificial Sequence)

<400> 10

attcttggac cggcgcaaga ngg 23

<210> 11

<211> 23

<212> DNA

<213> 人工序列(Artificial Sequence)

<400> 11

gtttatggtc ggaactacga ngg 23

<210> 12

<211> 23

<212> DNA

<213> 人工序列(Artificial Sequence)

<400> 12

ccaaagtctt tgggttccgg ngg 23

<210> 13

<211> 23

<212> DNA

<213> 人工序列(Artificial Sequence)

<400> 13

tgtcaatcct gtccgtgtcc ngg 23

<210> 14

<211> 23

<212> DNA

<213> 人工序列(Artificial Sequence)

<400> 14

tccgataacg aacgagactc ngg 23

<210> 15

<211> 23

<212> DNA

<213> 人工序列(Artificial Sequence)

<400> 15

tgttattgct caatctcggg ngg 23

<210> 16

<211> 23

<212> DNA

<213> 人工序列(Artificial Sequence)

<400> 16

agcgtgtgcc taccctacgc ngg 23

<210> 17

<211> 23

<212> DNA

<213> 人工序列(Artificial Sequence)

<400> 17

caatcggtag tagcgacggg ngg 23

<210> 18

<211> 23

<212> DNA

<213> 人工序列(Artificial Sequence)

<400> 18

ggtcgaactt gactatctag ngg 23

<210> 19

<211> 23

<212> DNA

<213> 人工序列(Artificial Sequence)

<400> 19

actcttagcg gtggatcact ngg 23

<210> 20

<211> 23

<212> DNA

<213> 人工序列(Artificial Sequence)

<400> 20

cgagaattaa tgtgaattgc ngg 23

<210> 21

<211> 23

<212> DNA

<213> 人工序列(Artificial Sequence)

<400> 21

gggtcgccac gtctgatctg ngg 23

<210> 22

<211> 23

<212> DNA

<213> 人工序列(Artificial Sequence)

<400> 22

tcagtaacgg cgagtgaaca ngg 23

<210> 23

<211> 23

<212> DNA

<213> 人工序列(Artificial Sequence)

<400> 23

ggacggtgtg aggccggtag ngg 23

<210> 24

<211> 23

<212> DNA

<213> 人工序列(Artificial Sequence)

<400> 24

atagtcaaca agtaccgtaa ngg 23

<210> 25

<211> 23

<212> DNA

<213> 人工序列(Artificial Sequence)

<400> 25

gcccggagga ttcaacccgg ngg 23

<210> 26

<211> 23

<212> DNA

<213> 人工序列(Artificial Sequence)

<400> 26

gcagcactcg ccgaatcccg ngg 23

<210> 27

<211> 23

<212> DNA

<213> 人工序列(Artificial Sequence)

<400> 27

ctcgcggggg attccccgcg ngg 23

<210> 28

<211> 23

<212> DNA

<213> 人工序列(Artificial Sequence)

<400> 28

gtgggagagc ggtcgcgccg ngg 23

<210> 29

<211> 23

<212> DNA

<213> 人工序列(Artificial Sequence)

<400> 29

ctcttcgggg gacgcgcgcg ngg 23

<210> 30

<211> 23

<212> DNA

<213> 人工序列(Artificial Sequence)

<400> 30

ctaacacgtg cgcgagtcgg ngg 23

<210> 31

<211> 23

<212> DNA

<213> 人工序列(Artificial Sequence)

<400> 31

aggcctctcc agtccgccga ngg 23

<210> 32

<211> 23

<212> DNA

<213> 人工序列(Artificial Sequence)

<400> 32

actctggtgg aggtccgtag ngg 23

<210> 33

<211> 23

<212> DNA

<213> 人工序列(Artificial Sequence)

<400> 33

atcctgaggg aaacttcgga ngg 23

<210> 34

<211> 23

<212> DNA

<213> 人工序列(Artificial Sequence)

<400> 34

agaataggtt gagatcgttt ngg 23

<210> 35

<211> 23

<212> DNA

<213> 人工序列(Artificial Sequence)

<400> 35

aggcactcgc attccacgcc ngg 23

<210> 36

<211> 23

<212> DNA

<213> 人工序列(Artificial Sequence)

<400> 36

tgatatagac agcaggacgg ngg 23

<210> 37

<211> 23

<212> DNA

<213> 人工序列(Artificial Sequence)

<400> 37

gccggcagtc gagagtggac ngg 23

<210> 38

<211> 23

<212> DNA

<213> 人工序列(Artificial Sequence)

<400> 38

gtcgcggcgt agcgtccgcg ngg 23

<210> 39

<211> 23

<212> DNA

<213> 人工序列(Artificial Sequence)

<400> 39

agccttgaag cctagggcgc ngg 23

<210> 40

<211> 23

<212> DNA

<213> 人工序列(Artificial Sequence)

<400> 40

cgatcggccg agggcaacgg ngg 23

<210> 41

<211> 23

<212> DNA

<213> 人工序列(Artificial Sequence)

<400> 41

ccgatcccgg agaagccggc ngg 23

<210> 42

<211> 23

<212> DNA

<213> 人工序列(Artificial Sequence)

<400> 42

ggaaagcgtc gcggttccgg ngg 23

<210> 43

<211> 23

<212> DNA

<213> 人工序列(Artificial Sequence)

<400> 43

ggtaagggaa gtcggcaagc ngg 23

<210> 44

<211> 23

<212> DNA

<213> 人工序列(Artificial Sequence)

<400> 44

gctggggcga tccacgggaa ngg 23

<210> 45

<211> 23

<212> DNA

<213> 人工序列(Artificial Sequence)

<400> 45

cgcgcgcgcg acgagacgtg ngg 23

<210> 46

<211> 23

<212> DNA

<213> 人工序列(Artificial Sequence)

<400> 46

ctaagtcggc tgctaggcgc ngg 23

<210> 47

<211> 23

<212> DNA

<213> 人工序列(Artificial Sequence)

<400> 47

catcgcgtca acacccgccg ngg 23

<210> 48

<211> 23

<212> DNA

<213> 人工序列(Artificial Sequence)

<400> 48

gcgtcactaa ttagatgacg ngg 23

<210> 49

<211> 23

<212> DNA

<213> 人工序列(Artificial Sequence)

<400> 49

cgggcttggc ggaatcagcg ngg 23

<210> 50

<211> 23

<212> DNA

<213> 人工序列(Artificial Sequence)

<400> 50

tatttcaccg gcggcccgca ngg 23

<210> 51

<211> 23

<212> DNA

<213> 人工序列(Artificial Sequence)

<400> 51

ggtgtcctaa ggcgagctca ngg 23

<210> 52

<211> 23

<212> DNA

<213> 人工序列(Artificial Sequence)

<400> 52

gaatacagac cgtgaaagcg ngg 23

<210> 53

<211> 23

<212> DNA

<213> 人工序列(Artificial Sequence)

<400> 53

tgggtgaaca atccaacgct ngg 23

<210> 54

<211> 23

<212> DNA

<213> 人工序列(Artificial Sequence)

<400> 54

ctcagtacga gaggaaccgc ngg 23

<210> 55

<211> 23

<212> DNA

<213> 人工序列(Artificial Sequence)

<400> 55

gctgccgtat cgttccgcct ngg 23

<210> 56

<211> 23

<212> DNA

<213> 人工序列(Artificial Sequence)

<400> 56

cgccccgttt cccaggacga ngg 23

<210> 57

<211> 23

<212> DNA

<213> 人工序列(Artificial Sequence)

<400> 57

agaagcaggt cgtctacgaa ngg 23

<210> 58

<211> 23

<212> DNA

<213> 人工序列(Artificial Sequence)

<400> 58

gaaagtcagc cctcgacaca ngg 23

Claims

1.一种超微量全长RNA测序文库的构建方法，其特征在于，所述构建方法主要包括以下步骤：

1）获得小鼠细胞或者小鼠亚细胞样本中的超微量的总RNA，构建包含rRNA序列信息的cDNA文库；

2）对步骤1）中获得的cDNA文库进行扩增；

3）根据细胞或者亚细胞相应物种的rRNA序列，设计特异性的sgRNA序列组合，所述的sgRNA序列组合包括SEQ ID No.1- SEQ ID No.58；

4）将sgRNA序列组合配置的溶液与步骤2）扩增的cDNA文库进行混合，利用CRISPR/Cas9系统在Cas9蛋白作用下进行特异性的切割，获得不包含rRNA信息的cDNA文库。

2. 根据权利要求1所述的超微量全长RNA测序文库构建方法，其特征在于，所述细胞或者亚细胞样本中的超微量的总RNA的起始量为0.5-500 pg。

3.根据权利要求1所述的超微量全长RNA测序文库构建方法，其特征在于，步骤2）中扩增为PCR扩增或等温扩增。

4. 根据权利要求1所述的超微量全长RNA测序文库构建方法，其特征在于，步骤4）中配置rRNA去除反应体系，37 ℃孵育0.5-2 h。

5. 根据权利要求1所述的超微量全长RNA测序文库构建方法，其特征在于，步骤4）中Cas9蛋白的浓度为10 nM-2 µM。

6. 根据权利要求1所述的超微量全长RNA测序文库构建方法，其特征在于，步骤4）中所述sgRNA序列组合在配置的溶液中的浓度为0.1-1 µM。