发明内容
本文第一方面提供一种切割RNA-DNA:cDNA杂交双链体的方法,该方法包括混合Cas酶、sgRNA和该RNA-DNA:cDNA杂交双链体的步骤;其中,该DNA包含该Cas酶所识别的前间区序列邻近基序(protospacer adjacent motif,PAM);该sgRNA能特异性结合该cDNA链的一部分;和该Cas酶能特异性识别该sgRNA,并切割所述杂交双链体。
在一个或多个实施方案中,所述sgRNA序列由靶标区和Cas识别区组成,其中,靶标区的碱基序列由所述RNA-DNA序列上长15~25个碱基、优选长18~22个碱基的片段组成,该片段紧邻该PAM序列的第1个碱基,或该片段的最后1个碱基与该PAM序列第1个碱基之间隔开8个以内、优选5个以内的碱基。
在一个或多个实施方案中,所述Cas酶选自Cas1、Cas1B、Cas2、Cas3、Cas4、Cas5、Cas6、Cas7、Cas8、Cas9、Cas10、Csy1、Csy2、Csy3、Cse1、Cse2、Csc1、Csc2、Csa5、Csn2、Csm2、Csm3、Csm4、Csm5、Csm6、Cmr1、Cmr3、Cmr4、Cmr5、Cmr6、Csb1、Csb2、Csb3、Csx17、Csx14、Csx10、Csx16、CsaX、Csx3、Csx1、Csx15、Csf1、Csf2、Csf3、Csf4、其同源物或其修饰形式。
在一个或多个实施方案中,所述Cas酶为Cas9酶,包括但不限于来自化脓链球菌的Cas9(SpCas9)、来自金黄色葡萄球菌的Cas9(SaCas9),以及来自嗜热链球菌的Cas9(St1Cas9)。
在一个或多个实施方案中,所述PAM的第1个碱基为所述DNA紧邻所述RNA的第1个碱基,所述sgRNA的靶标区由所述RNA靠近所述DNA一侧的15~25个碱基组成,或由与该PAM序列第1个碱基隔开8个碱基以内的所述RNA的长15~25个碱基的片段组成。
在一个或多个实施方案中,所述PAM序列的第1个碱基为所述DNA靠近所述RNA一侧的第m个碱基,m≥2,所述sgRNA的靶标区由跨所述RNA和所述DNA的片段组成。
在一个或多个实施方案中,所述片段的碱基序列中至少一半以上为所述RNA的序列。
在一个或多个实施方案中,所述RNA-DNA:cDNA杂交双链体产生于RNA测序文库的构建过程中。
在一个或多个实施方案中,所述RNA为RNA测序文库构建过程中使用的5’接头,所述DNA为RNA测序文库构建过程中使用的3’接头。
在一个或多个实施方案中,所述混合在适于所述Cas酶切割RNA-DNA:cDNA杂交双链体的条件下进行。
本文第二方面提供一种去除RNA测序文库构建时产生的5’和3’接头连接副产物的方法,该方法包括:
(1)使用3’接头和5’接头与待测序RNA进行连接反应,获得连接反应的产物;
(2)对步骤(1)获得的产物进行反转录,获得反转录产物;和
(3)使步骤(2)获得的反转录产物与Cas酶和sgRNA混合,从而除去反转录产物中5’和3’接头连接副产物;
其中,所述3’接头含有所述Cas酶所识别的前间区序列邻近基序(PAM);所述sgRNA能特异性结合反转录产生的cDNA链的一部分;和所述Cas酶能特异性识别所述sgRNA,并切割所述5’和3’接头连接副产物。
在一个或多个实施方案中,所述sgRNA序列由靶标区和Cas识别区组成,其中,靶标区的碱基序列由所述5’和3’接头连接副产物上长15~25个碱基、优选长18~22个碱基的片段组成,该片段紧邻该PAM序列的第1个碱基,或该片段的最后1个碱基与该PAM序列第1个碱基之间隔开8个以内、优选5个以内的碱基。
在一个或多个实施方案中,所述Cas酶选自Cas1、Cas1B、Cas2、Cas3、Cas4、Cas5、Cas6、Cas7、Cas8、Cas9、Cas10、Csy1、Csy2、Csy3、Cse1、Cse2、Csc1、Csc2、Csa5、Csn2、Csm2、Csm3、Csm4、Csm5、Csm6、Cmr1、Cmr3、Cmr4、Cmr5、Cmr6、Csb1、Csb2、Csb3、Csx17、Csx14、Csx10、Csx16、CsaX、Csx3、Csx1、Csx15、Csf1、Csf2、Csf3、Csf4、其同源物或其修饰形式。
在一个或多个实施方案中,所述Cas酶为Cas9酶,包括但不限于来自化脓链球菌的Cas9(SpCas9)、来自金黄色葡萄球菌的Cas9(SaCas9),以及来自嗜热链球菌的Cas9(St1Cas9)。
在一个或多个实施方案中,所述PAM序列的第1个碱基为所述3’接头紧邻5’接头的第1个碱基,所述sgRNA的靶标区由所述5’接头靠近3’接头一侧的15~25个碱基组成,或由与该PAM序列第1个碱基隔开8个碱基以内的所述5’接头的长15~25个碱基的片段组成。
在一个或多个实施方案中,所述PAM序列的第1个碱基为所述3’接头靠近5’接头一侧的第m个碱基,m≥2,所述sgRNA的靶标区由跨所述5’接头和所述3’接头的片段组成。
在一个或多个实施方案中,所述片段的碱基序列中至少一半以上为所述5’接头的序列。
在一个或多个实施方案中,步骤(3)在在适于所述Cas酶切割5’和3’接头连接副产物的条件下进行。
在一个或多个实施方案中,步骤(1)包括:
(1a)混合3’接头与待测RNA序列,进行3’接头连接反应;
(1b)加入3’接头的互补序列,退火,使互补序列与3’接头结合,并使步骤(1a)使用的连接酶变性失活;
(1c)混合5’接头与步骤(1b)获得的反应产物,进行5’接头连接反应;
从而获得含有5’和3’接头连接副产物和5’接头-RNA-3’接头的连接反应产物。
本文第三方面提供一种构建RNA测序文库的方法,所述方法包括采用本文第一方面或第二方面所述方法去除构建文库过程中产生的RNA-DNA:cDNA杂交双链体或5’和3’接头连接副产物的步骤。
在一个或多个实施方案中,该方法包括:
(1)使用3’接头和5’接头与待测序RNA进行连接反应,获得连接反应的产物;
(2)对步骤(1)获得的产物进行反转录,获得反转录产物;
(3)使步骤(2)获得的反转录产物与Cas酶和sgRNA混合,从而除去反转录产物中5’和3’接头连接副产物;和
(4)对步骤(3)所获得的5’接头-RNA-3’接头:cDNA双链杂交体进行PCR扩增,从而构建RNA测序文库;
其中,所述3’接头含有所述Cas酶所识别的前间区序列邻近基序(PAM);所述sgRNA能特异性结合反转录产生的cDNA链的一部分;和所述Cas酶能特异性识别所述sgRNA,并切割所述5’和3’接头连接副产物。
在一个或多个实施方案中,所述sgRNA序列由靶标区和Cas识别区组成,其中,靶标区的碱基序列由所述5’和3’接头连接副产物上长15~25个碱基、优选长18~22个碱基的片段组成,该片段紧邻该PAM序列的第1个碱基,或该片段的最后1个碱基与该PAM第1个碱基之间隔开8个以内、优选5个以内的碱基。
在一个或多个实施方案中,所述Cas酶选自Cas1、Cas1B、Cas2、Cas3、Cas4、Cas5、Cas6、Cas7、Cas8、Cas9、Cas10、Csy1、Csy2、Csy3、Cse1、Cse2、Csc1、Csc2、Csa5、Csn2、Csm2、Csm3、Csm4、Csm5、Csm6、Cmr1、Cmr3、Cmr4、Cmr5、Cmr6、Csb1、Csb2、Csb3、Csx17、Csx14、Csx10、Csx16、CsaX、Csx3、Csx1、Csx15、Csf1、Csf2、Csf3、Csf4、其同源物或其修饰形式。
在一个或多个实施方案中,所述Cas酶为Cas9酶,包括但不限于来自化脓链球菌的Cas9(SpCas9)、来自金黄色葡萄球菌的Cas9(SaCas9),以及来自嗜热链球菌的Cas9(St1Cas9)。
在一个或多个实施方案中,所述PAM序列的第1个碱基为所述3’接头紧邻所述5’接头的第1个碱基,所述sgRNA的靶标区由所述5’接头靠近3’接头一侧的15~25个碱基组成,或由与该PAM序列第1个碱基隔开8个碱基以内的所述5’接头的长15~25个碱基的片段组成。
在一个或多个实施方案中,所述PAM序列的第1个碱基为所述3’接头靠近5’接头一侧的m个碱基,m≥2,所述sgRNA的靶标区由跨所述5’接头和所述3’接头的片段组成。
在一个或多个实施方案中,所述片段的碱基序列中至少一半以上为所述5’接头的序列。
在一个或多个实施方案中,所述步骤(1)包括:
(1a)混合3’接头与待测RNA序列,进行3’接头连接反应;
(1b)加入3’接头的互补序列,退火,使互补序列与3’接头结合,并使步骤(1a)使用的连接酶变性失活;
(1c)混合5’接头与步骤(1b)获得的反应产物,进行5’接头连接反应;
从而获得含有5’和3’接头连接副产物和5’接头-RNA-3’接头的连接反应产物。
在一个或多个实施方案中,步骤(3)在在适于所述Cas酶切割5’和3’接头连接副产物的条件下进行。
本文第四方面提供一种试剂盒,所述试剂盒包括:Cas酶,sgRNA,3’接头和5’接头;其中,所述3’接头含有所述Cas酶所识别的前间区序列邻近基序(PAM序列);所述sgRNA能特异性结合由5’和3’接头连接副产物反转录产生的cDNA链的一部分;和所述Cas酶能特异性识别所述sgRNA,并切割所述5’和3’接头连接副产物。
本文第五方面提供所述试剂盒在构建RNA深度测序文库中的应用。
在一个或多个实施方案中,所述构建RNA深度测序文库包括构建小RNA测序文库、转录组文库、CLIP文库、RIP文库或GRO文库。
本文第六方面提供本文第一和二方面所述的方法在构建RNA深度测序文库中的应用。
在一个或多个实施方案中,所述构建RNA深度测序文库包括构建小RNA测序文库、转录组文库、CLIP文库、RIP文库或GRO文库。
具体实施方式
基于5’和3’接头的连接反应克隆RNA是构建小RNA或RNA片段的深度测序文库的重要方法之一。但5’和3’接头间连接产生的大量副产物限制了该方法在微量RNA文库构建中的应用。本发明将CRISPR用于特异性去除非经典CRISPR底物形式的接头连接副产物,具体是利用CRISPR系统除去测序文库构建中5’和3’接头连接副产物。图1对用CRISPR去除文库构建中形成的5’和3’接头间连接产生的副产物的机制进行了说明。与经典的CRISPR系统识别和切割双链DNA底物不同,小RNA文库构建过程中5’接头(RNA)与3’接头(DNA)间连接后产生的副产物为RNA-DNA杂合链,该杂合链经过反转录酶反转录产生cDNA链,两者共同组成了RNA-DNA:cDNA杂交双链。因此,本发明中Cas酶识别和切割的是一种非经典的RNA-DNA:cDNA杂交双链底物。作为一个例子,如图2所示,3’接头序列起始端的TGG序列为spCas9所识别的PAM序列,sgRNA的靶标识别区域设计为针对5’接头的序列,spCas9/sgRNA复合物识别该RNA-DNA:cDNA杂交双链,并在cDNA链的特定位置进行切断,从而有效防止在后续的PCR反应中对该5’和3’接头连接产生的副产物的cDNA序列进行扩增。
因此,本发明的主要特征是:1)使用CRISPR系统复合物Cas/sgRNA识别并切割非经典的RNA-DNA:DNA杂交底物;2)将该特征应用在RNA深度测序文库构建中,特异性地去除5’和3’接头间连接产生的副产物。关于CRISPR系统的内容,除本文下文所述外,还可参见CN201380049665.5和CN 201380072752.2,本文将其全部内容以引用的方式纳入本文。
CRISPR系统
CRISPR(Clustered Regularly Interspaced Short Palindromic Repeats)是细菌抵御病毒侵袭或躲避哺乳动物免疫反应的基因编辑系统。该系统经过改造和优化,目前已被广泛应用在体外生化反应、细胞与个体的基因编辑中〔Hsu,P.D.,E.S.Lander和F.Zhang,Development and applications of CRISPR-Cas9 for genome engineering,Cell,2014,157(6):p.1262-1278〕。
适用于本文的CRISPR系统通常含有具有核酸内切酶活性的Cas蛋白和单链sgRNA,或由具有核酸内切酶活性的Cas蛋白和单链sgRNA组成。Cas/sgRNA复合物通过sgRNA的配对区与靶标DNA中的模板链进行互补配对,由Cas在特定位置将双链DNA切断。
Cas蛋白
适用于本发明的Cas蛋白可以是本领域周知的各种具有核酸内切酶活性的Cas蛋白及其变异体。该Cas蛋白能指导在靶序列的位置处的一条或两条链的切割,例如指导在靶序列内和/或在靶序列的互补序列内的切割。
Cas蛋白质的非限制性例子包括Cas1、Cas1B、Cas2、Cas3、Cas4、Cas5、Cas6、Cas7、Cas8、Cas9(也称为Csn1和Csx12)、Cas10、Csy1、Csy2、Csy3、Cse1、Cse2、Csc1、Csc2、Csa5、Csn2、Csm2、Csm3、Csm4、Csm5、Csm6、Cmr1、Cmr3、Cmr4、Cmr5、Cmr6、Csb1、Csb2、Csb3、Csx17、Csx14、Csx10、Csx16、CsaX、Csx3、Csx1、Csx15、Csf1、Csf2、Csf3、Csf4、其同源物或其修饰形式。
在一些实施方案中,使用II型CRISPR系统,该系统含有一种Cas9酶和单链sgRNA。Cas9酶可以是来自不同物种的Cas9酶,包括但不限于来自化脓链球菌的Cas9(SpCas9)、来自金黄色葡萄球菌的Cas9(SaCas9),以及来自嗜热链球菌的Cas9(St1Cas9)等。可以使用Cas9酶的各种变体,只要该变体具有核酸内切酶活性、指导在靶序列的位置处的一条或两条链的切割即可。
sgRNA
sgRNA通常包括两部分:靶标区和Cas蛋白识别区。靶标区与Cas蛋白识别区通常以5’到3’的方向连接。
靶标区的长度通常为15~25个碱基,更通常为18~22个碱基。靶标区用于与5’和3’接头连接副产物(RNA-DNA)的反转录产物(cDNA)的一部分特异性结合。靶标区的碱基序列可完全由5’接头的片段组成,也可由5’和3’接头连接副产物跨5’接头和3’接头的片段(即含有5’接头的3’端序列与3’接头的5’端的碱基序列)组成。当靶标区由5’和3’接头连接副产物跨5’接头和3’接头的片段组成时,优选的是,该片段的碱基序列中至少30%以上、优选40%以上(例如50%以上、60%以上、70%以上、80%以上)更优选至少90%以上的序列为5’接头的序列。
5’和3’接头连接副产物上对应于靶标区序列的部分,其3’端最后一个碱基通常紧邻3’接头上的PAM的第1个碱基,或者两者可相隔最多10个碱基,例如相隔最多8个碱基,或相隔最多5个碱基,或最多相隔3个碱基,或者相隔5-10个碱基,或相隔1-8个碱基,或相隔1-5个碱基。例如,PAM第1个碱基为5’和3’接头连接副产物的第a个碱基,那么靶标区的序列可以是该5’和3’接头连接副产物第a个碱基前与该第a个碱基间隔0~10,或者0~8,或者0~5,或者0~3个碱基的长15~25、优选长18~22个碱基的片段。
此外,已知Cas酶在cDNA链上的切割位点通常为PAM前十几个碱基的范围内,大部分Cas酶在PAM前的1~5个碱基进行切割。因此,可根据此原则设计sgRNA,使sgRNA与cDNA互补结合后离cDNA上PAM互补序列的第1个碱基的最小距离在十几个碱基的范围内,例如在15个碱基范围内,或在8个碱基范围内,例如间隔0~15个碱基,0~10个碱基,0~8个碱基,0~5个碱基或1~5个碱基等。
通常,每种Cas酶识别的sgRNA都不一样。因此,针对不同Cas酶需设计相应的Cas蛋白识别区。而针对不同Cas酶的Cas蛋白识别区是本领域周知的。
以图2中spCas9的sgRNA序列为例,其中5’端的2~20nt是sgRNA的靶标区序列,sgRNA序列第20nt之后的序列是Cas蛋白的识别区序列。
可根据所具体使用的5’接头设计sgRNA的靶标区,即,使该靶标区与5’接头的至少部分序列(例如长15~25个碱基,或长18~22个碱基的连续部分)完全相同;然后可根据所使用的Cas蛋白选择该Cas蛋白识别的序列。之后可采用常规的核酸合成方法合成所述sgRNA,包括采用化学合成和体外转录的方法制备sgRNA。
接头
Cas/sgRNA复合物行使功能需要在DNA的非模板链有前间区序列邻近基序(protospacer adjacent motif,PAM)。本文中,通过3’接头(DNA序列)引入PAM。应理解的是,不同Cas酶,其对应的PAM并不完全相同。例如,针对SpCas9的PAM通常是NGG;针对SaCas9酶的PAM通常是NNGRR;针对St1Cas9酶的PAM通常是NNAGAA;其中,N为A、C、T或G,R为G或A。
在某些优选的实施方式中,针对SaCas9酶的PAM是NNGRRT。在某些优选的实施方式中,针对SpCas9的PAM是TGG。
适用于本文的3’接头通常在其5’端具有PAM。对于3’接头其余部分的碱基序列并无特殊要求,可采用任意碱基序列,或可根据本领域常规的方法设计。因此,例如,3’接头序列可以是:
5’-NGGNNNNNNNNNNNNNNNNN-3’(SEQ ID NO:12),
5’-NNGRRNNNNNNNNNNNNNNN-3’(SEQ ID NO:13),或
5’-NNAGAANNNNNNNNNNNNNN-3’(SEQ ID NO:14);
其中,下划线表示PAM,N为A、T、G或C,R为G或A。
PAM可从3’接头的第2个碱基起算,包括例如从第3位、第4位、第5位等位置起算。因此,3’接头序列可以是例如:
5’-NNGGNNNNNNNNNNNNNNNN-3’(SEQ ID NO:15),
5’-NNNGRRNNNNNNNNNNNNNN-3’(SEQ ID NO:16),
5’-NNNAGAANNNNNNNNNNNNN-3’(SEQ ID NO:17),
5’-NNNGGNNNNNNNNNNNNNNN-3’(SEQ ID NO:18),
5’-NNNNGRRNNNNNNNNNNNNN-3’(SEQ ID NO:19),或
5’-NNNNAGAANNNNNNNNNNNN-3’(SEQ ID NO:20),等等,
其中,下划线表示PAM,N为A、T、G或C,R为G或A。
因此,在sgRNA的靶标区的对侧区域紧邻PAM的情况下,如果PAM的第一个碱基不是3’接头序列的第一个碱基,则sgRNA的靶标区就需要向PAM区域移动相应位数的碱基。例如,如果PAM从3’接头的第2个碱基起算,那么sgRNA的靶标区将由5’接头3’端相应的碱基序列以及3’接头5’端的第1个碱基组成。如果sgRNA的靶标区长19个碱基,那么该靶标区将由5’接头3’端的最后18个碱基与3’接头5’端的第1个碱基按5’到3’的方向组成。
因此,在具体实施方案中,如果3’接头中PAM的第1个碱基为3’接头5’端(即靠近5’接头的那一端)的第m个碱基(m≥2),则sgRNA的靶标区序列为5’-X-Y-3’,其中X为5’接头的3’端(即靠近3’接头的那一端)长度为L-(m-1)个碱基的序列,Y为3’接头5’端的第1位到第m-1位碱基,L表示靶标区的长度。
除此之外,Cas酶在cDNA链上的切割位点最好在5’和3’接头连接处附近,例如在5’和3’接头连接处的上下游15个碱基以内,例如10个碱基以内,或8个碱基以内,或5个碱基以内,或3个碱基以内,这样5’和3’接头之间的连接产物被Cas酶切断后就难以被PCR所扩增。因此,在设计3’接头时,可设置PAM所处的位置,并依此设计sgRNA,以使Cas酶的切割位点满足上述要求。
对3’接头的序列长度也无特殊限制,其长度为常规的长度,例如12~30个碱基,或者15~25个碱基,如18~23个碱基等。以spCas9为例,3’接头PAM序列之后的接头区长度(即3’接头PAM后靠近其3’端的序列)最好大于10个碱基,更优选大于15个碱基,此时Cas酶的切割效率更高(O Connell,M.R.,et al.,Programmable RNA recognition and cleavage byCRISPR/Cas9.Nature,2014.516(7530):p.263-266)。其它不同的Cas蛋白的特性可能不同,需要根据具体情况灵活设计。
对5’接头的序列(RNA)无特殊限制。其碱基组成可以是常规的通过5’接头和3’接头构建测序文库时使用的5’接头的碱基组成。例如,5’接头通常是一条RNA序列,其长度在15~35个碱基的范围内,例如在20~30个碱基的范围内。
通常,5’接头的两端可没有任何修饰。3’接头的5’端通常有能促进该3’接头与其它碱基序列连接的修饰,例如App修饰。可使用截短型RNA连接酶2(K227Q),该连接酶仅能识别5’端有App的接头作为连接的底物,从而提高反应的特异性。3’接头的3’端可含有任何可阻止该3’端与其它序列连接的修饰,例如阻止与其它接头(包括3’接头本身的5’端)与该3’接头的3’端连接的修饰。这类修饰包括但不限于ddC、C3修饰和NH2修饰等。
文库构建
可使用具有本文所述结构特征的3’接头和5’接头构建测序文库。本文中,文库通常为RNA文库。在某些实施方案中,测序文库的构建为RNA深度测序文库的构建,包括但不限于小RNA测序文库的构建,转录组文库的构建,CLIP文库的构建,RIP文库的构建以及GRO文库的构建等。
小RNA文库的构建方法为本领域常规的方法。例如,通常,先进行3’接头的连接。具体而言,使起始RNA与本文所述的3’接头混合,将混合物中的RNA变性后,使用连接酶进行连接,获得与3’接头连接的RNA-DNA连接产物(RNA-3’接头)。对此,起始RNA的量、3’接头的用量、变性条件(例如温度、时间等)、以及连接所使用的连接酶、缓冲剂、RNA酶抑制剂及其它合适的试剂及其用量都是本领域常规的技术手段。
小RNA文库构建中使用的起始RNA为生物体内天然存在的小RNA。可采用常规的方法分离得到这些天然存在的小RNA。也可使用其它来源或方法制备得到的RNA序列。例如,通过富集转录组RNA将其打断,可获得适用于转录组RNA文库构建的起始RNA;通过将细胞样品进行紫外交联,用抗体拉下特异性RNA结合蛋白并用RNA酶消化,可获得适用于CLIP文库构建的起始RNA;裂解细胞,用特异性抗体免疫沉淀目的RNA结合蛋白,洗涤,RNA酶消化RNA,可获得适用于RIP文库构建的起始RNA;分离细胞核,在体外转录中掺入Br-UTP,转录一段时间后用偶联Br-UTP抗体的磁珠拉下这些转录片段,回收,打断,可获得适用于GRO文库构建的起始RNA。
通常,起始RNA需先去磷酸化,然后在其5’端加磷酸,纯化后即可用于与本文所述的3’接头混合。
获得RNA-3’接头产物后,加入3’接头的互补序列,退火使该互补序列与3’接头结合,同时使连接酶变性失活。然后加入5’接头的连接反应体系进行连接。同样地,所述5’接头的连接反应体系包括本文所述的5’接头序列,以及本领域常规的连接酶、ATP、RNA酶抑制剂等试剂。由此获得的产物为5’接头-RNA-3’接头,该产物的3’端为双链体接头,互补结合有3’接头的互补序列。
如前文所述,应理解的是,产物中存在接头连接副产物,即5’接头与3’接头连接形成的接头副产物。同样地,该副产物的3’端为双链体接头,互补结合有3’接头的互补序列。如图1所示。
将包括接头副产物在内的所有产物进行反转录。反转录中使用到的引物可根据例如3’接头序列进行设计,通常是与3’接头互补的序列。如前所述,与3’接头互补的序列在进行5’接头连接之前已互补结合到3’接头上。可采用常规的方法进行反转录,例如使用M-MuLV Reverse Transcriptase(购自NEB公司)并按照其说明配制反应体系进行反转录。当然也可根据实际情况使用其它反转录酶。反转录的温度可根据所使用的反转录酶的最适温度确定。
之后,可将本文所述的CRISPR系统加到反转录产物中。具体而言,可将含Cas及sgRNA的混合物加到反转录产物中。如前所述,sgRNA包含靶标区和Cas蛋白识别区。靶标区的序列与连接反应中所使用的5’接头的至少部分连续序列相同,Cas蛋白识别区是所使用的Cas蛋白识别的序列。
如图2所示,sgRNA的靶标区将与5’接头的反转录产物特异性结合,Cas蛋白通过sgRNA的Cas蛋白识别区而与反转录产物结合,并通过反转录产物上存在的对应于该Cas蛋白的PAM序列而行使切割功能。如图1所示,由于期望的产物5’接头-RNA-3’接头在3’接头和5’接头间连接入了其它序列(即感兴趣的RNA序列),Cas/sgRNA就不会发生切割作用。因此,5’接头与3’接头连接形成的副产物将被Cas/sgRNA复合物切割,而目标产物将得以保留。
使用CRISPR系统进行的处理可根据该系统中所用的Cas酶而设置具体的处理条件。例如,可将处理温度设置为所用的Cas酶的最适反应温度。反应时间也可根据实际情况(例如反应物的量等)设置。通常,可先配制Cas酶和sgRNA复合物的混合体系,该体系可含有例如Cas酶、sgRNA、水(优选为经焦碳酸二乙酯处理过并经高温高压灭菌的MiliQ纯水,即DEPC水)、Cas酶的缓冲液等。在合适的温度下温育所述混合体系一段时间后,再将其加入反转录产物中。该混合体系中Cas酶、sgRNA、水以及缓冲液等的用量可根据实际情况,例如反转录产物的量、Cas酶的活性等容易确定。
经CRISPR系统处理后,将处理所得产物进行PCR扩增。PCR扩增的条件为常规的PCR扩增条件,可根据不同的目标产物做出适当的调整。例如,在某些实施方案中,PCR程序包括:94℃变性2分钟,98℃变性10秒,60℃退火25秒,68℃延伸15秒,按照具体需求调整循环数,68℃延伸5分钟。PCR使用的聚合酶也可根据待扩增的产物来选择。由此完成文库的构建。通常,在PCR的第一步变性时,Cas酶即可被不可逆失活,释放出底物。因此,通常可将CRISPR系统处理所得的产物直接进行PCR。
可采用常规的方法回收PCR扩增产物,例如,可采用常规的凝胶电泳回收。
之后,可将回收所得产物进行测序,例如在常规的测序平台上进行测序。
方法
因此,本文提供一种切割RNA-DNA:cDNA杂交双链体的方法,该方法包括使用Cas酶和sgRNA处理该RNA-DNA:cDNA杂交双链体的步骤,其中,该DNA的5’端包含该Cas酶所识别的PAM序列,该sgRNA能特异性结合该cDNA链上与该RNA互补的部分,并能被所述Cas酶特异性识别。
本文提供的切割RNA-DNA:cDNA杂交双链体的方法可用于RNA文库的构建中,尤其用于基于5’和3’接头的连接反应或类似的连接反应的RNA文库构建中。这类文库构建不仅包括用于小RNA测序文库的构建,还包括转录组文库,CLIP文库,RIP文库,和GRO文库等文库的构建。
本文因此提供一种去除RNA测序文库构建时产生的5’和3’接头连接副产物的方法,该方法包括:
(1)使用3’接头和5’接头与待测序RNA进行连接反应,获得连接反应的产物;
(2)对步骤(1)获得的产物进行反转录,获得反转录产物;和
(3)使步骤(2)获得的反转录产物与Cas酶和sgRNA混合,从而除去反转录产物中5’和3’接头连接副产物;
其中,所述sgRNA能特异性结合5’接头的反转录产物,并能被所述Cas酶特异性识别;所述3’接头的5’端含有所述Cas酶所识别的PAM序列。
本申请还提供一种构建RNA测序文库的方法,该方法包括:
(1)使用3’接头和5’接头与待测序RNA进行连接反应,获得连接反应的产物;
(2)对步骤(1)获得的产物进行反转录,获得反转录产物;
(3)使步骤(2)获得的反转录产物与Cas酶和sgRNA混合,从而除去反转录产物中5’和3’接头连接副产物;和
(4)对步骤(3)所获得的5’接头-RNA-3’接头:cDNA双链杂交体进行PCR扩增,从而构建RNA测序文库;
其中,所述sgRNA能特异性结合5’接头的反转录产物,并能被所述Cas酶特异性识别;所述3’接头的5’端含有所述Cas酶所识别的PAM序列。
适用于本文所述方法进行文库构建的RNA可以是来自各种物种的RNA,包括生物内源性RNA,经过打断及生化处理的RNA,或者合成的RNA。通常,该RNA的5’端带有磷酸,3’端为羟基或者其它能发生连接反应的RNA修饰。
上述方法中的各步骤的反应条件,例如温度和时间等,可采用本领域周知或本文所述的反应条件,或者可参照本文所述的反应条件依据不同的反应情况而加以调整。
试剂盒
本文提供一种试剂盒,该试剂盒包括:Cas酶,sgRNA,3’接头和5’接头;其中,所述sgRNA能特异性结合该5’接头的反转录产物,并能被所述Cas酶特异性识别;所述3’接头的5’端含有所述Cas酶所识别的PAM序列。
通常,3’接头和5’接头位于不同的容器中,而Cas酶与sgRNA可位于相同或不同的容器中。试剂盒中还可包括用于配制Cas/sgRNA复合物的试剂,包括但不限于水(如DEPC水)和适用于Cas酶的缓冲液。适用于Cas酶的缓冲液为本领域所周知。
试剂盒所含的Cas酶,sgRNA,3’接头和5’接头应满足前文所述的各种条件或其组合。
试剂盒中还可含有用于提取RNA的试剂、用于进行反转录的试剂、以及用于进行PCR的试剂中的一种或多种。
优选的是,试剂盒中还包括说明书,用以指导技术人员使用试剂盒中所含有的成分实施本文所述的一种或多种方法。
本文将以小RNA测序为例简述基于接头连接反转录法测序建库技术的过程和特性。下述实施例仅仅是阐述性的,并非限制本发明的保护范围。实施例中所用的方法和材料,除非另有说明,否则为本领域常规的方法和材料。
一、材料与方法
1、Cas9/sgRNA切割底物实验及文库构建所需的DNA/RNA序列
3’接头序列(SEQ ID NO:1):
5'-/5rApp/TGGAATTCTCGGGTGCCAAGG/3ddC/-3’;
5’接头序列(SEQ ID NO:2):
5'-rGrUrUrCrArGrArGrUrUrCrUrArCrArGrUrCrCrGrArCrGrArUrC-3’;
CY5-ssDNA(SEQ ID NO:3):
5’-/CY5/GCCTTGGCACCCGAGAATTCCAGATCGTCGGACTGTAGAACTCTGAAC-3’;
ssDNA RC(SEQ ID NO:4):
5’-GTTCAGAGTTCTACAGTCCGACGATCTGGAATTCTCGGGTGCCAAGGC-3’;
接头嵌合体(SEQ ID NO:5):
5'-rGrUrUrCrArGrArGrUrUrCrUrArCrArGrUrCrCrGrArCrGrArUrCTGGAATTCTCGGGTGCCAAGG/3ddC/-3’;
RT引物(RTP)(SEQ ID NO:6):
5’-GCCTTGGCACCCGAGAATTCCA-3’;
PCR上游引物(RP1)(SEQ ID NO:7):
5’-AATGATACGGCGACCACCGAGATCTACACGTTCAGAGTTCTACAGTCCGA-3’;
PCR下游引物(SEQ ID NO:8;RPI,RNA PCR引物,6N是指标序列,可参照NEB或者illumina公司设计);
5’-CAAGCAGAAGACGGCATACGAGATNNNNNNGTGACTGGAGTTCCTTGGCACCCGAGAATTCCA-3’;
sgRNA体外转录上游PCR引物(SEQ ID NO:9):
5’-TAATACGACTCACTATAGGTTCTACAGTCCGACGATCGTTTTAGAGCTAGAAATAGCAAGTT-3’;
sgRNA体外转录下游PCR引物(SEQ ID NO:10):
5’-AAAAAAGCACCGACTCGGTGCC-3’;
体外转录的sgRNA序列(SEQ ID NO:11,由T7体外转录制备的RNA,5’端都带有三磷酸的修饰):
5’-ppprGrGrUrUrCrUrArCrArGrUrCrCrGrArCrGrArUrCrGrUrUrUrUrArGrArGrCrUrArGrArArArUrArGrCrArArGrUrUrArArArArUrArArGrGrCrUrArGrUrCrCrGrUrUrArUrCrArArCrUrUrGrArArArArArGrUrGrGrCrArCrCrGrArGrUrCrGrGrUrGrC-3’;
注:“r”表示序列骨架为核糖核酸。
2、体外切割实验
本发明所用Cas9/sgRNA体外切割实验使用15pmol的不同类型序列(包括3’接头、ssDNA RC、和接头嵌合体)与10pmol的CY5-ssDNA(上海生工合成)在5ul 250mM氯化钠的条件下进行退火(70度30秒,60度30秒,50度30秒,40度30秒),分别制备得到图5的图A中第2、3和4项所示结构的序列。
然后使用DEPC水稀释到250ul。取2.5ul稀释液,加入2.5ul含有1pmol spCas9/sgRNA复合物(spCas9购自NEB公司),37度反应1小时。之后加入5ul去离子甲酰胺(购自Amasco公司)上12%聚丙烯酰胺8M尿素变性胶,或者加入5ul 20%甘油上12%聚丙烯酰胺非变性胶,使用1xTBE缓冲体系180伏特,45分钟。使用FLA-9000同位素成像仪,按照其操作说明进行检测。
3、细胞培养,RNA抽提及定量
本实施例所用到的HEK 293细胞都是生长在含10%胎牛血清的DMEM培养基(购自GIBCO公司)中并于37℃、5%CO2的环境下培养。
细胞总RNA的提取都是使用Trizol试剂(购自Takara公司)并按其说明进行操作。提纯的RNA使用Nanodrop进行定量(Thermo公司),并使用DEPC水(购自Ambion公司)稀释待用。
4、体外转录sgRNA
首先使用sgRNA上下游引物以lentiGuide puro质粒(购自Addgene cat#1000000049)为sgRNA模板进行PCR,使用2%琼脂糖凝胶纯化回收PCR产物,并使用MEGAshortscript T7 Transcription Kit按照其说明书要求进行体外转录并回收定量RNA。
5、文库构建流程
接头序列连接:起始RNA 1ng与0.25皮摩尔的3’接头序列混合,使用5ul体系70℃2分钟变性RNA,并迅速置于冰上。另加入连接酶2缓冲液(购自NEB公司,终浓℃为1x)、PEG8000(购自NEB公司,终浓度为10%),RNA酶抑制剂(购自Thermo Fisher,终浓度为2U/ul),并加入RNL2tr K227Q(4U/ul,购自NEB公司),按照NEB的说明进行操作,22℃连接2小时。加入1ul 5皮摩尔的RTP,并对反应75℃5分钟热失活。加入含有5’接头的连接反应体系3.5ul,包含5皮摩尔5’接头序列、10皮摩尔ATP、10 U T4 RNA连接酶1(购自NEB公司)和20 URiboLock RNA酶抑制剂(购自Thermo Fisher公司),22℃连接1小时。
反转录:RT使用M-MuLV Reverse Transcriptase(购自NEB公司),并按照其说明配制25ul反应体系,44℃1小时。
Cas9/sgRNA复合物处理:按照NEB公司的说明进行操作,配制10ul Cas9/sgRNA复合物的混合体系,包含5ul DEPC水(购自Ambion公司)、10xNEB cas9缓冲液1ul、体外转录的sgRNA 60ng,Cas9 2ul(购自NEB公司,1000nM浓度),37℃孵育15分钟。并吸取1ul孵育后的Cas9/sgRNA复合物加入RT产物中,37℃反应30分钟。
PCR扩增:PCR使用KOD Neo plus酶(购自东洋纺公司),30 ul体系,使用RP1和RPI引物,使用6ul经过或未经过Cas9/sgRNA处理的RT产物。并按照其说明书配制反应体系。94℃变性2分钟,98℃变性10秒,60℃退火25秒,68℃延伸15秒,按照具体需求调整循环数,68℃延伸5分钟。
文库产物纯化回收:使用6%非变形丙烯酰胺胶对文库产物进行电泳,使用GeneGreen dye(购自天根公司)进行显色,割胶回收130-160 bp的产物,并进行回收(具体的回收方法参见Illumina公司Truseq small RNA library preparation)。样品定量使用Qubit2.0(购自Invitrogen公司),并按照其说明书进行操作。
最后,文库于Illumina测序平台进行测序。
二、结果
1、体外切割实验结果
Cas9/sgRNA复合物切割不同类型底物的效率如图5所示。图B显示变性胶结果,结果证明Cas9对于经典和非经典底物(图A的1、2、3和4所示的序列)均具有良好的切割效果。图C显示非变性胶图,结果显示Cas9/sgRNA与不同底物(图A的1、2、3和4所示的序列)的结合情况。
图5的结果证明,Cas9可识别并切割非经典底物(ssDNA+接头嵌合体),其效率与已有报道的底物(ssDNA+3’接头),以及经典底物(ssDNA+ssDNA-RC)相近(Sternberg,S.H.等,DNA interrogation by the CRISPR RNA-guided endonuclease Cas9,Nature,2014,507(7490):p.62-67)。
2、文库构建结果
本发明使用1ng HEK293细胞系RNA作为起始,在完成反转录反应后,分别进行加入Cas9/sgRNA处理和不进行处理的文库构建。实验选择阴性对照为不含RNA模板的DEPC水,并对实验组设计了两个技术重复,如图3所示。实验结果表明,不加Cas9/sgRNA处理的实验样本在相同的建库条件下会产生大量的5’和3’接头间连接产生的副产物,如图中实线箭头所示,并且在虚线箭头所示的位置看不见目的条带。而在加入Cas9/sgRNA组中,实线箭头所示的120bp位置的条带有效地减少。而虚线箭头所示的140bp目的条带(主要为miRNA)则清晰可见。说明依照图2中设计的Cas9/sgRNA复合物对于副产物进行了有效的降低,使PCR中目的条带被有效富集。
将以上的两个1ng HEK 293总RNA Cas9/sgRNA处理的技术重复样本进行二代测序,并对文库中miRNA表达谱系进行关联分析,R2=0.9996,如图4,显示了该建库方法的鲁棒性。
在文库构建的过程中,使用Cas9/sgRNA复合物特异性地去除文库中5’和3’接头间连接产生的副产物,大大提高了目的产物在PCR反应中的扩增效率。该种设计方案能够扩展应用到其它基于接头连接的文库设计,如CLIP-seq,RIP-seq,GRO-seq等,可大量降低起始样本的用量,提升方法灵敏度,使得一些珍贵稀有的样本的RNA解析成为可能。基于此法开发的多种RNA深度测序文库构建,为未来的科学研究及诊断领域提供新的方法,具有十分广阔的市场应用前景。