CN107109698B - Rna stitch测序:用于直接映射细胞中rna:rna相互作用的测定 - Google Patents

Rna stitch测序:用于直接映射细胞中rna:rna相互作用的测定 Download PDF

Info

Publication number
CN107109698B
CN107109698B CN201580063376.XA CN201580063376A CN107109698B CN 107109698 B CN107109698 B CN 107109698B CN 201580063376 A CN201580063376 A CN 201580063376A CN 107109698 B CN107109698 B CN 107109698B
Authority
CN
China
Prior art keywords
rna
rnas
chimeric
protein
cell
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201580063376.XA
Other languages
English (en)
Other versions
CN107109698A (zh
Inventor
钟声
阮池公
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
University of California
Original Assignee
University of California
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by University of California filed Critical University of California
Publication of CN107109698A publication Critical patent/CN107109698A/zh
Application granted granted Critical
Publication of CN107109698B publication Critical patent/CN107109698B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q1/00Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions
    • C12Q1/68Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions involving nucleic acids
    • C12Q1/6869Methods for sequencing
    • C12Q1/6874Methods for sequencing involving nucleic acid arrays, e.g. sequencing by hybridisation
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q1/00Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions
    • C12Q1/68Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions involving nucleic acids
    • C12Q1/6809Methods for determination or identification of nucleic acids involving differential detection
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q1/00Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions
    • C12Q1/68Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions involving nucleic acids
    • C12Q1/6806Preparing nucleic acids for analysis, e.g. for polymerase chain reaction [PCR] assay
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q1/00Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions
    • C12Q1/68Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions involving nucleic acids
    • C12Q1/6876Nucleic acid products used in the analysis of nucleic acids, e.g. primers or probes
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B20/00ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B40/00ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q2600/00Oligonucleotides characterized by their use
    • C12Q2600/136Screening for pharmacological compounds
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q2600/00Oligonucleotides characterized by their use
    • C12Q2600/178Oligonucleotides characterized by their use miRNA, siRNA or ncRNA

Abstract

提供了用于产生包含在细胞中彼此相互作用的RNA的嵌合RNA的方法和组合物。在一些实施方案中,嵌合RNA可用于鉴定细胞中至少100个、至少500个、至少1000个或多于1000个RNA‑RNA相互作用。

Description

RNA STITCH测序:用于直接映射细胞中RNA:RNA相互作用的 测定
相关申请的交叉引用
本申请要求2014年9月22日提交的美国临时专利申请62/053,615的优先权的权益。上述申请的全部公开内容通过引用全部明确地并入本文。
关于联邦赞助的R&D的声明
本发明是在美国国立卫生研究院颁发的授权号NIH DP2-OD007417下由政府支持完成。政府对本发明具有特定的权利。
序列表、表格或计算机程序列表的参考
本申请与电子格式的序列表一起提交。所提供的序列表的名称为UCSD089-001WO.TXT,于2015年9月18日创建,文件大小为11Kb。电子格式的序列表中的信息通过引用整体并入本文。
技术领域
提供了用于鉴定细胞中彼此相互作用的RNA的方法和组合物。
背景技术
目前,没有可以直接快速测定细胞类型中基本上所有RNA-RNA相互作用的有效方法。已有两种方法来部分实现这一目标,但二者均有缺点。如HITS-CLIP和CLASH等技术可以检测许多miRNA的靶点。然而,这两种方法都集中在仅包含小部分RNA的miRNA。因此,这些技术不能揭示大多数RNA-RNA相互作用。此外,每项技术还有其他缺点。例如,不能直接从HITS-CLIP推导出miRNA与其靶mRNA的直接配对。换句话说,HITS-CLIP不直接通知哪个miRNA调控哪些mRNA(没有一对一的信息)。
最近称为CLASH(交联、连接和混合测序)的方法可以允许直接观察miRNA-靶配对。然而,与测序读段(read)的数量相比,相互作用的数量仍然很小:只有2%的测序读段是嵌合的,98%仍然是单一读段。这需要更深入的测序覆盖或多个样品的制备以获得足够的miRNA-mRNA相互作用的覆盖。
发明内容
本发明的一些实施方案在以下编号的段落中提供:
1、一种用于产生包含在细胞中彼此相互作用的RNA的嵌合RNA的方法,所述方法包括将RNA与蛋白质交联并将与相同蛋白质分子交联的RNA连接在一起以形成嵌合RNA。
2、根据段落1所述的方法,其中所述RNA与蛋白质的交联在完整细胞上或在细胞裂解物中进行。
3、根据段落1或2任一项所述的方法,其中所述交联包括UV交联。
4、根据段落1-3任一项所述的方法,其还包括将所述蛋白质与有助于将所述蛋白质在表面上固定的试剂相关联。
5、根据段落4所述的方法,其中促进固定的所述试剂包括生物素。
6、根据段落1-5任一项所述的方法,其还包括将与所述相同蛋白质分子交联的所述RNA片段化。
7、根据段落6所述的方法,其中所述片段化包括在有助于所述RNA部分消化的条件下,将与所述相同蛋白质分子交联的所述RNA与RNAse接触。
8、根据段落1-7任一项所述的方法,其还包括将与所述相同蛋白质分子交联的所述RNA连接至有助于所述RNA的回收的试剂。
9、根据段落8所述的方法,其中所述连接包括将所述RNA的末端连接至所述试剂。
10、根据段落9所述的方法,其中有助于所述RNA的回收的所述试剂包括核酸。
11、根据段落10所述的方法,其中所述核酸包括其上具有生物素的核酸。
12、根据段落11所述的方法,其中所述其上具有生物素的核酸与所述RNA的所述末端的所述连接包括:在将与相同蛋白质分子交联的所述RNA连接在一起以形成嵌合RNA之前,将其上具有生物素的所述核酸连接至所述RNA的5'末端。
13、根据段落12所述的方法,其还包括从所述嵌合RNA的5'区域除去所述生物素。
14、根据段落1-13任一项所述的方法,其还包括回收所述嵌合RNA。
15、根据段落1-14任一项所述的方法,其还包括片段化所述嵌合RNA。
16、根据段落1-15任一项所述的方法,其中所述嵌合RNA的所述片段化包括:在有助于所述RNA部分消化的条件下,使所述嵌合RNA与RNAse接触。
17、根据段落1-16任一项所述的方法,其还包括反转录所述嵌合RNA以产生嵌合cDNA。
18、根据段落1-17任一项所述的方法,其还包括测定所述嵌合RNA或嵌合cDNA中源自所述嵌合RNA或嵌合cDNA中每个RNA的至少一部分序列。
19、根据段落1-17任一项所述的方法,其还包括鉴定存在于所述嵌合RNA中的RNA,从而鉴定在细胞中彼此相互作用的RNA。
20、根据段落19所述的方法,其中鉴定出所述细胞中至少100个、至少500个、至少1000个或多于1000个RNA-RNA相互作用。
21、根据段落19所述的方法,其中鉴定出所述细胞中基本上所有的彼此相互作用的RNA。
22、根据段落21所述的方法,其中鉴定出所述细胞中至少70%、至少80%、至少90%或超过90%的直接RNA-RNA相互作用。
23、根据段落19-22任一项所述的方法,其中在细胞中彼此相互作用的RNA的鉴定包括使用自动测序装置对所述嵌合RNA进行序列读段。
24、根据段落23所述的方法,其中在细胞中彼此相互作用的RNA的鉴定包括从所有序列读段中鉴定嵌合序列。
25、根据段落19-24任一项所述的方法,其还包括使用计算机将所述嵌合RNA转化为注释的RNA簇。
26、根据段落25所述的方法,其还包括使用由计算机执行的统计检验来鉴定所述RNA簇之间的直接相互作用。
27、一种分离的复合体,其包括与蛋白质交联的嵌合RNA,其中所述嵌合RNA包括在细胞中彼此相互作用的RNA。
28、一种鉴定候选治疗剂的方法,其包括:
使用根据段落1-26任一项所述的方法鉴定细胞中彼此相互作用的RNA;和评估试剂减少或增加所述RNA的相互作用的能力,其中如果所述试剂能够减少或增加所述RNA的相互作用,则所述试剂是候选治疗剂。
29、根据段落28所述的方法,其中所述试剂包括核酸。
30、根据段落28所述的方法,其中所述试剂包括化学化合物。
31、一种制备药物的方法,其包括将使用根据段落28-30任一项所述的方法鉴定的试剂配制在药学上可接受的载体中。
32、一种药物,其使用根据段落31所述的方法制备。
33、一种用于产生包含在细胞中彼此相互作用的RNA的嵌合RNA的方法,所述方法包括将RNA与蛋白质中间体和/或蛋白质复合体交联并将与蛋白质中间体和/或蛋白质复合体交联的RNA连接在一起以形成嵌合RNA,并且其中所述蛋白质复合体包括两种以上的相互作用蛋白。
34、根据段落33所述的方法,其中RNA与蛋白质中间体和/或蛋白质复合体的所述交联在完整细胞上或在细胞裂解物中进行。
35、根据段落33或34所述的方法,其中所述交联包括UV交联。
36、根据段落33-35任一项所述的方法,其还包括将所述蛋白质中间体和/或蛋白质复合体与有助于所述蛋白质中间体和/或蛋白质复合体在表面上固定的试剂相关联。
37、根据段落36所述的方法,其中有助于固定的所述试剂包括生物素。
38、根据段落33-37任一项所述的方法,其还包括将与至少一种蛋白质分子交联的所述RNA片段化。
39、根据段落38所述的方法,其中所述片段化包括在有助于所述RNA部分消化的条件下将与蛋白质中间体和/或蛋白质复合体交联的所述RNA与RNAse接触。
40、根据段落33-39任一项所述的方法,其还包括将与蛋白质中间体和/或蛋白质复合体交联的所述RNA连接至有助于所述RNA的回收的试剂。
41、根据段落40所述的方法,其中所述连接包括将所述RNA的末端连接至所述试剂。
42、根据段落41所述的方法,其中有助于所述RNA回收的所述试剂包括核酸。
43、根据段落42所述的方法,其中所述核酸包括其上具有生物素的核酸。
44、根据段落43所述的方法,其中其上具有生物素的所述核酸与所述RNA的所述末端的连接包括在将与蛋白质中间体和/或蛋白质复合体交联的所述RNA连接在一起以形成嵌合RNA之前将其上具有生物素的所述核酸连接至所述RNA的5'末端。
45、根据段落44所述的方法,其还包括从所述嵌合RNA的5'区域除去所述生物素。
46、根据段落33-45任一项所述的方法,其还包括回收所述嵌合RNA。
47、根据段落33-46任一项所述的方法,其还包括片段化所述嵌合RNA。
48、根据段落33-47任一项所述的方法,其中所述嵌合RNA的所述片段化包括在有助于所述RNA部分消化的条件下使所述嵌合RNA与RNAse接触。
49、根据段落33-48任一项所述的方法,其还包括反转录所述嵌合RNA以产生嵌合cDNA。
50、根据段落33-49任一项所述的方法,其还包括测定所述嵌合RNA或嵌合cDNA中源自所述嵌合RNA或嵌合cDNA中每个RNA的至少一部分序列。
51、根据段落33-49任一项所述的方法,其还包括鉴定存在于所述嵌合RNA中的RNA,从而鉴定在细胞中彼此相互作用的RNA。
52、根据段落51所述的方法,其中鉴定出细胞中至少100个、至少500个、至少1000个或多于1000个RNA-RNA相互作用。
53、根据段落51所述的方法,其中鉴定出所述细胞中基本上所有的彼此相互作用的RNA。
54、根据段落53所述的方法,其中鉴定出所述细胞中至少70%、至少80%、至少90%或超过90%的直接RNA-RNA相互作用。
55、根据段落51-54任一项所述的方法,其中在细胞中彼此相互作用的RNA的鉴定包括使用自动测序装置对所述嵌合RNA进行序列读段。
56、根据段落55所述的方法,其中在细胞中彼此相互作用的RNA的鉴定包括从所有序列读段中鉴定嵌合序列。
57、根据段落51-56任一项所述的方法,其还包括使用计算机将所述嵌合RNA转化为注释的RNA簇。
58、根据段落57所述的方法,其还包括使用由计算机执行的统计检验来鉴定所述RNA簇之间的直接相互作用。
59、根据段落33-58任一项所述的方法,其中在细胞中彼此相互作用的所述RNA与所述蛋白质中间体或蛋白质复合体中的不同蛋白质进行交联。
60、一种分离的复合体,其包括与蛋白质中间体和/或蛋白质复合体交联的嵌合RNA,其中所述嵌合RNA包括在细胞中彼此相互作用的RNA,其中所述蛋白质复合体包括两种以上的相互作用蛋白。
61、根据段落59所述的分离的复合体,其中所述嵌合RNA包括与所述蛋白质中间体或蛋白质复合体中的不同蛋白质交联的RNA。
附图说明
图1.RNA Hi-C。(A)主要实验步骤:1.将RNA与蛋白质交联,2.RNA片段化和蛋白质生物素化(球代表生物素),3.固定化,4.连接生物素化的RNA接头(链上的球是接头上的生物素),5.极度稀释条件下的邻位连接,6.RNA纯化和反转录,7.生物素下拉,8.构建测序文库。嵌合RNA示意图中所示的是具有P5特异性引物、Pr特异性引物和RNA1之间的条形码、RNA1和RNA2之间的接头特异性反向引物以及P7区域的期望嵌合产物。在所示的不完整的产物中,P5区域与条形码相邻,条形码位于P5区域和接头之间,然后是RNA2区域和P7区域。(B)RNA1-接头-RNA2嵌合体的PCR验证,其预期从P5测序引物到接头为91bp以上以及P5至P7测序引物为200bp以上。不包括RNA1的将产生从P5到接头的91bp产物。不包括RNA2的将产生从P5到接头以及从P5到P7的类似大小的产物。每个泳道顶部标记有PCR引物。测序文库的尺寸分布也由生物分析仪(Bioanalyzer)评估。如从左至右的期望嵌合产物所示的是P5特异性正向引物、条形码、RNA1、接头(与接头特异性引物互补)、RNA2和P7。如不完全产物所示,是P5,条形码,接头,RNA2和P7。(C)映射到基因组的RNA Hi-C数据。Trim25和Snora1RNA的连接在ES-1和ES-2文库中由46个双端读段实验支持。Ago CLIP-seq:小鼠ES细胞的AGO HITS-CLIP(GEO:GSM622570)。小RNA-seq:具有用酶切割产生的3'羟基的小RNA测序(GEO:GSM945907)。(D)RNA相互作用物组的大型模块。没有显示涉及4个以下相互作用的RNA的小模块。没有显示涉及snoRNA、snRNA和tRNA的相互作用。列表中的大部分序列是mRNA,其余的是假基因(FPl30=ps3,Gm16580,Gm12715,Gm13226,Rp128-ps3,Fpl28-ps1,Rps16-ps2,Gm4707,Gm13340,Gm13408,Gm15590,Grl2,Gm11400,Gm17087,Gm15725,Gm12346,Gm11478),lincRNA (Gm16869,Malat1,Snhg7,Gm16702,4930417H01Rik),miRNA (Mir5100,Mir692-1,Mir692-2b,Ac117657,Mir5099)和反义RNA (Gm15444)。
图2.RNA相互作用位点。(A)代表不同相互作用(虚线)的多重RNA Hi-C读段,重叠在Eef1a1基因的特定区域上。(B)通过重叠读段的“峰”来查找相互作用位点。峰1和2是RNA2,峰3和4是RNA2。(C)不同类型的RNA基因和转座子中相互作用位点的分布。(D)两个RNA(浅灰色,左侧)的相互作用位点之间和随机改组碱基(白色,右侧)之间的结合能(ΔG,kcal/mol)的分布。来自Wilcoxon秩检验的P值标记在每个图的底部。(E)通过平均PhyloP得分测量的保守水平,在连接的RNA片段的连接接合点(黑条,x轴上的0位置)达到峰值。对照:随机选择的基因组区域的保守水平。如图所示,图中左侧的数据表示RNA1,右侧数据表示RNA2。
图3.RNA结构。(A)解析RNA邻近位点的示意图。核酸示意图上的指示箭头:RNase I切割位点。(B)映射到Snora73的“切割和连接”产物。垂直色条:支持一对邻近位点的一组读段对。邻近位点上的数字对应于图3中E和F图中的序列上的数字。(C)RNase I切割的密度。邻近位点上的数字对应于图3中E和F图中的序列上的数字。(D)RNA的任何两个位置之间的连接频率的热图。每个彩色圆圈对应于图A中的垂直色条,并且表示一对邻近位点。(E)承认的二级结构中单链区域和推断的邻位位点的足迹。(F)由于蛋白质辅助的RNA折叠,一对推断的邻位位点,其不受基于序列的二级结构的支持,在体内物理上接近。
图4.所示为基于逐步测序以映射RNA-RNA相互作用的技术。
图5.计算部分的工作流程。(A)用于鉴定嵌合RNA序列的流程图。如主要序列的插入框所示,是“无接头”、“仅接头”、“仅反向”、“仅正向”和“配对”的序列。如图所示,无接头的序列具有:1)5'索引,2)5'索引、第1部分和第2部分,3)5'索引、第1部分,和3)5'索引和第2部分。如图所示,仅接头序列具有5'索引和第2部分。如图所示,“仅反向”具有5'索引、接头和第2部分。如图所示,“仅正向”具有5'索引和接头。如图所示,“配对”具有5'索引、第1部分、接头和第2部分。(B)如何鉴定大量嵌合RNA支持的RNA-RNA相互作用的图示。如顶图示出R1中的区段,下图示出R2中的区段。如图所示,它们在嵌合RNA中配对。
图6.初步结果。(A)嵌合cDNA文库的尺寸分布。注意128bp是引物序列。(B)不同类型RNA之间相互作用的比例。(C)将18个连接的RNA对映射到SNORA1和Trim25。映射的位点与Ago CLIP-seq数据(GSM622570)相符。(D)在导向分化过程中SNORA1和Trim25的反向相关性。如图所示,Trim25在第4天从约35个RNA-seq RPKM减少到约5个,而SNORA1从第0天到第6天增加。
图7.用于构建测序文库的环化策略。该图详细说明了RNA Hi-C程序的步骤8。(图7A)将反转录(RT)适配子(adaptor)连接至RNA的3'末端。该RT适配子与一部分RT引物互补,RT引物还含有用于P5测序引物的适配子,10nt条形码和BamHI限制性位点。环化后,将含有BamHI位点的DNA寡核苷酸与RT引物区杂交,提供用于BamHI消化的双链底物。通过截短的PCR引物DP5和DP3扩增线性化的ss-cDNA,得到~100ng的ds-cDNA,然后将其变性并再退火。使用双链特异性核酸酶(DSN)来耗尽源自rRNA的cDNA。DSN选择性地除去在再退火过程中较早形成的ds-cDNA。源自rRNA的cDNA应该是丰度较高的,因此比其他cDNA更快再退火。通过Illumina PCR引物PE 1.0和2.0再次PCR扩增经DSN处理的产物以产生适于测序的文库。将基于DSN的rRNA去除应用于ES-1。对ES-2进行基于抗体的rRNA去除策略,未在该图中描绘。最终显示的是P5、条形码、RNA1、适配子、RNA2和P7的产物(图7B)。
图8.RNA Hi-C样品的描述。“读段对的总数#”是每个样品的双端顺序读段的数量。“RNA1-接头-RNA2”形式的非重复读段对#”是生物信息学流程的步骤4解析嵌合cDNA的输出中的双端读段的数量。
图9.优化用于第一次片段化的RNase I浓度。通过加入等体积的2x蛋白酶K缓冲液(100mM Tris-HCl pH7.5,100mM NaCl,2%SDS,20mM EDTA)和1:5体积的20mg/ml的蛋白酶K(NEB),并在55℃下孵育2小时,然后进行苯酚:氯仿处理和乙醇沉淀,来从RNaseI处理的ES细胞裂解物中纯化RNA。每毫升细胞裂解物的RNase I的量为:0U(样品1,图9A),2.5U(样品2(图9B)),3.3U(样品3,图9C),5U(样品4,图9D)和12.5(样品5,图9E)。选择产生500-1000ntRNA片段(样品4)的5.0U RNase I/ml裂解物的浓度用于RNA Hi-C步骤2。
图10.测试珠上接头连接的效率。固定的RNA用RNase I消化,然后与生物素标记的RNA接头连接(1)。连接和蛋白酶K消化除去蛋白质后,纯化和定量RNA(1.3μg)(2)。然后将纯化的RNA进行链霉亲和素-生物素下拉以选择连接至生物素标记的接头的RNA(3)。洗涤和洗脱结合至链霉亲和素珠的RNA并乙醇沉淀后,收集到0.22μg RNA。同时,生物素标记的RNA接头进行相同的链霉亲和素-生物素下拉,洗脱和乙醇沉淀(4)。假设步骤3和4中生物素下拉、RNA洗脱和乙醇沉淀的效率相同,约19.6%(1.96μg/10.0μg),估计连接效率(0.22μg/19.6%)/1.3μg=86%。
图11.RNAHi-C程序的不同步骤的RNA尺寸分布。只有ES间接和MEF样品才有足够的中间产物用于该回顾性分析。在链接到链霉亲和素珠之前的MEF(泳道1)和ES-间接(泳道2)的裂解物中,在固定化后的上清液(泳道3和4)中,以及在邻位连接后固定在珠上(ES-间接:泳道5,MEF:泳道6)的RNA的尺寸分布。RNA在2X RNA上样染料(NEB)中在70℃变性5分钟,在1.5%天然琼脂糖凝胶上电泳并用SYBR Gold(Invitrogen)染色。
图12.构建测序文库的PCR循环数的优化。在RNAHi-C程序的步骤8中,使用截短形式的Illumina PCR测序引物(DP5,DP3),用12个循环的PCR来预扩增ES-1样品的单链cDNA。PCR产物用1.8×SPRISelect珠纯化,其在通过双链特异性核酸酶耗尽由rRNA合成的cDNA之前产生86ng双链DNA。使用NEBNext High-Fidelity 2X PCR Master Mix(NEB)和IlluminaPE Primer 1.0和2.0,以不同的PCR循环数(12,15,18),扩增来自总计22μl的rRNA耗尽的双链cDNA的1μl等分试样。在6%TBE PAGE凝胶上测定PCR产物并用SYBR Gold(Invitrogen)染色。基于凝胶结果,然后用11个循环的PCR扩增18μl原始rRNA耗尽的双链DNA,以产生测序文库。
图13.RNAHi-C文库的比较。(图A-B)将接头的5'末端(RNA1)和3'末端(RNA2)上的读段片段分别作为两个RNA-seq实验分析。所有已知RNA在ES-1和ES-2样品之间的读段计数分布(FPKM)的以对数标度计的散点图。R:皮尔逊相关。S:斯皮尔曼相关。(图13C)每个样品的FPKM的分层聚类。
图14.RNA-HiC工具的在线文档。该在线资源(http://systemsbio.ucsd.edu/RNA-Hi-C)包括分析和可视化工具、使用示例、示例输出文件和图形的详细描述。还提供了一些工具作为应用程序编程接口(API)。
图15.用于分析RNAHi-C数据的计算流程。(A)从双端测序读段中移除PCR重复(步骤1)。基于4nt实验条形码('XXXX',步骤2)分离多重样品。'N':随机条形码的核苷酸。'X':实验条形码的核苷酸。(B)如果可能,每对正向(Read1)和反向(Read2)读段被用于在输入测序文库中回收cDNA。(C)基于RNA片段和接头序列的配置对回收的cDNA进行分类(步骤4)。提供RNA1-接头-RNA2型cDNAs作为输出。(D)将RNA1部分和RNA2部分分别映射到基因组。输出是RNA1和RNA2唯一地映射到基因组的cDNA。(E)基于关联测试鉴定RNA-RNA相互作用。如图所示,簇1和簇2具有RNA1,簇3和簇4具有RNA2。
图16.RNA-HiC-工具的可视化能力。(A-B)RNA内RNA(A)和RNA间RNA(B)相互作用中RNA相互作用位点的详细视图。将含有两个相互作用的RNA的两个基因组区域平行绘制(图B)。将每个RNA1-接头-RNA2型嵌合RNA作图,其中将RNA1和RNA2片段映射到相应的基因组区域,通过表示接头的斜线连接。块表示重叠的RNAHi-C读段的“峰”,它们是候选RNA相互作用位点。连接两个RNA相互作用位点的半透明多边形代表了强相互作用。(C)RNA-RNA相互作用的全局视图。RNA1和RNA2片段的读段密度分别显示在染色质细胞带表意文字内的阴影区域。每个鉴定的RNA-RNA相互作用显示为连接两个RNA的基因座位点的曲线,并通过相互作用的RNA的类型着色。
图17.具有miRNA样相互作用的snoRNA。(A)RNAHi-C与小RNA-seq(GSM945907)和AGO HITS-CLIP(GSM622570)的比较。在小RNA-seq和AGO HITS-CLIP中参与RNAHi-C鉴定的相互作用的每种类型的RNA的平均FPKM以对数标度显示。RNAHi-C鉴定的相互作用中的miRNA和snoRNA在小RNA-seq和AGO HITS-CLIP中均富集。如图17的A图所示,该图表示为代表小RNA-seq数据的柱超过代表H1TS-CLIP数据的柱。(B)每对相互作用的snoRNA和mRNA之间基因表达的相关性分布。由AGO结合的相互作用的snoRNA-mRNA对(深灰色)(由AGO HITS-CLIP定义)与不被AGO结合的对(浅灰色)相比更负相关(p值=4.18-5,Kolmogorov-Smirnov检验)。如图所示,AGO结合峰出现在约0.075、0.25、0、-0.5和-1相关。(C)通过杂交能测量的相互作用的RNA的碱基配对。由AGO结合的snoRNA-mRNA对(与AGO HITS-CLIP相交,左侧)表现出比不被AGO结合的(右侧)更强的杂交能量(p值<2.2-16,Wilcoxon符号秩检验)。所有这些相互作用显示出比具有随机改组序列的那些更强的杂交能。如图所示,深灰色表示“真实”,浅灰色表示“随机”。(D)在小RNA-seq和AGO HITS-CLIP中与mRNA的UTR区相互作用的snoRNA富集。snoRNA和mRNA编码区(左)之间的相互作用的总数(y轴)分解为在小RNA-seq和AGO HITS-CLIP中检测到的,仅在小RNA-seq中检测到的,仅在HITS-CLIP中检测到的,以及在两个数据集中都未检测到的。snoRNA和mRNAUTR之间的相互作用相似地分解(右)。如左侧柱形图所示,顶部是小RNA和CLIP,接着是CLIP数据、小RNA和“两者都不”。
图18.RNAHi-C和小RNA-seq和AGO HITS-CLIP之间的比较。与小RNA-seq、AGOHITS-CLIP和两者交叉的RNA Hi-C鉴定的相互作用的百分比。RNA Hi-C相互作用按照参与RNA的类型进行分类,并按与HITS-CLIP的重叠对分类进行排名。misc_RNA:混杂的RNA(miscellaneous RNA),包括RNase_MRP,7SK RNA等。新:未注释的RNA。如图所示,数据从上到下分为“与两者重叠”,“与小RNA-seq”重叠,以及“与HITS-CLIP重叠”的数据。
图19.酶处理的SNORA14和Mcl1mRNA之间的相互作用。(A)与小RNA-seq交叉的SNORA14上的RNA Hi-C鉴定的相互作用位点,表明SNORA14RNA被酶处理成较短的形式(峰上的突出显示区域,第2行)。这种酶促处理的小RNA对应于SNORA14发夹的末端(二级结构上的突出显示区域),以及Mcl1的3'UTR的反义(SNOARA14序列上方(B)中的突出显示区域))。(C)在ES细胞分化为内中胚层细胞期间从SNORA14RNA和Mcl1mRNA处理的小RNA的表达水平。如图所示,Mcl1从第0天到第6天下降,而SNORA14从第0天到第6天增加。
图20.读段计数和FDR的分布以及与基因表达的关系。(A)映射到每对RNA的读段对数量的分布。(B)Fisher精确检验中每个RNA对的FDR分布。(C)映射到每个RNA的RNA Hi-C读段数(y轴)和FPKM(x轴)的散点图。(D)与每个RNA的相互作用相关联的最小FDR(以负对数计)和该RNA的FPKM的散点图。FPKM值通过用针对mm9的bowtie2-2.2.4映射来自小鼠ENCODE数据集ENCSR000CWC(E14小鼠ES细胞的双端RNA-Seq)[1]的原始读段,然后用cufflink2.2.1进行处理而获得。在ENCSR000CWC数据和RNA-Hi-C小鼠ES细胞数据中发现的具有独特Ensembl ID的所有基因都包含在图(C)和(D)中。
图21.在不同类型RNA中鉴定的46,780个RNA-RNA相互作用的分布。从分析中用实验方法(实验步骤6.2)和生物信息学方法(分析步骤6)移除rRNA。
图22.RNA-RNA相互作用网络的程度分布。节点数(RNA)与其作为无标度网络的特征的log标度(A)的程度(相互作用数)成反比。从网络(B)中删除snRNA、snoRNA和tRNA后,该属性没有改变。
图23.不同类型基因和转座子中相互作用位点的分布。新:未注释的基因组区域。
图24.RNA Hi-C鉴定的相互作用的RNA之间的碱基互补的实例。相互作用的RNA的类型包括mRNA-mRNA(A),lincRNA-mRNA(B),假基因RNA-mRNA(C),mRNA-LTR(D),LINE-mRNA(E),mRNA-miRNA(F)。LTR和LINE代表转座子转录物。将RNA的3'末端连接至第二个RNA的序列的左侧的曲线表示接头位置。支持每个相互作用的连接的嵌合RNA的数量在曲线旁边的括号中给出。ΔG:杂交能。改组:随机改组碱基的平均杂交能。
图25.相互作用的RNA的保守水平。相互作用由RNA类型分类。对于每种类型的相互作用,保守水平与以RNA连接接合点(x轴上为0位)为中心的基因组区域(1000bp)的平均PhyloP得分近似。将相同长度的随机基因组区域的保守水平绘制为对照。图的底部是RNA1-接头-RNA2嵌合RNA的RNA1(右)和RNA2(左)片段的图示。虚线:接头。如图所示,图25A为具有mRNA的结构,图25B为具有LINE的结构,图25C为具有LTR的结构。
图26.保守水平的比较。通过相互作用位点每个核苷酸的平均PhyloP得分(y轴)定量保守水平。为了调整外显子、内含子和UTR的保守性差异,将注释的外显子、内含子和UTR(称为基因组特征)中的相互作用位点(配对柱左侧的柱)与具有相同的基因组特征的200,000个随机取样的基因组序列(配对柱右侧的柱)进行比较。随机取样的基因组序列的大小与相互作用位点的大小具有相同的平均值和偏差。由单侧双样品t检验计算P值。**:p值<10-12;*:p值<10-6。
图27.RNA酶I消化密度和单链区域的相关性(图27A-D)。将通过在每个位置(y轴)处结束或开始的读段片段数量测量的消化频率与已知二级结构(fRNAdb数据库v3.4)(x轴)进行比较。x轴上的括号表示双链区域。在单链(ss)和双链(ds)中每个位置结束或开始的读段片段的总计数总结在右图上。
图28.分子内连接。(A)通过转录物的RNase I消化产生分子内(自身)连接,然后进行接头连接和邻位连接。因此,接头两侧的两个RNA片段来自相同的RNA分子。用严格的生物信息学标准鉴定了这些分子内连接事件,筛选出可能从连续转录物产生的双端读段。将只能通过切割和连接过程产生的双端读段用于RNA结构分析。下图:不同RNA类型中分子内连接的分布。(B)各RNA类型的分子内连接数(y轴)与转录物长度(x轴)。误差条:平均值的标准偏差。显示的是每个基因的长度超过1000nt的lincRNA,每个基因小于10个自身连接的长度小于100nt的tRNA,每个基因超过100个自身连接的长度超过100nt的snoRNA,每个基因小于100个自身连接的长度超过100nt的snRNA。(C)根据检测到的分子内连接数(x轴)分类的lincRNA和mRNA基因的数量(阴影柱)和长度(盒型图)。
图29.SNORA14上的RNA Hi-C读段。(A)映射到SNORA14的分子内连接产物。在黑色区域显示的是连接接合点。阴影数字是接头5'和3'处主要代表的连接接合点的位置。1-6、1-4和5-5位置的空间邻近度与序列预测的二级结构(B)一致。箭头指向在序列预测二级结构上彼此不接近的3-5个位置。
图30.产生结构稳定转录物的推定的新基因。(A)RNA Hi-C预测的新基因的基因组位置和种间保守性。(B)分子内连接产物映射到该新基因。黑色区域:连接接合点。阴影数字:主要代表的连接接合点的位置。(C)从该推定基因产生的长(底)和短(顶)转录物的序列预测二级结构。每个碱基上的RNase I消化的频率(热图)与预测的单链区域(底部)相关。连接位置(箭头)在测序的预测二级结构上接近。
图31.mRNA的一部分的推断结构。将RNA Hi-C读段对叠加在从Gcn111基因的第27个外显子的序列中预测的二级结构上。标记曲线分别对应于测序的嵌合RNA的RNA1和RNA2部分。阴影曲线:接头。阴影曲线上的黑色区域:连接接合点。指针表示RNase I切割位置。切割和连接过程交换两个RNA片段的5'-3'顺序:在测序的嵌合cDNA(插入)上交换mRNA的5'片段(碱基3122-33163,红色)和3'片段(碱基3164-3194,蓝色)。这将不得不通过制图适当地遮蔽。
图32.用于在测序文库中回收嵌合cDNA的工作流程。使用局部比对来鉴定读段对中的正向和反向读段之间的任何重叠。使用四次本地比对(ALIGN1-ALING4)来区分任何读段对的四种类型可能的构型。输出中包含三种类型(类型1-3)。类型1cDNA短于100bp。类型2cDNA位于100bp和200bp之间。类型3cDNA长于200bp。作为质量控制,弃去短于100bp但没有P5或P7测序引物已知序列的cDNA(类型4)。每次比对表示为‘local-align(seq1,seq2){M,m,o,e}’,其中‘seq1’和‘seq2’是两个输入序列‘M’,‘m’,‘o’,‘e’是匹配(match)、错配(mismatch)、开放空位罚分(open-gap penality)和延伸空位罚分(extend-gap penality)的参数。每次比对的输出(X)包括比对得分(ScoreX)、第一个(BeginPos1_X,EndPos1_X)和第二个序列(BeginPos2_X,EndPos2_X)中比对的开始位置和结束位置。
图33.模拟分析。(A)cDNA的预测长度(y轴)和真实长度的散点图。预测长度大于200bp的cDNA不包括在内,因为它们的准确长度无法预测。(B)预测RNA对和模拟RNA对之间的重叠。(C)每种类型的参与RNA的预测RNA对的灵敏度和特异性。
图34.小鼠ES细胞(A)和脑(B)的整个观察到的RNA-RNA相互作用网络的程度分布。节点数(RNA)与其作为无标度网络的特征的log标度的程度(相互作用数)成反比。
定义
在下面的描述中,广泛使用了许多术语。提供以下定义以便于理解本替代方案。
如本文所用,“一个/种(a)”或“一个/种(an)”可指一个/种或多于一个/种。
如本文所用,术语“约”指一数值,该数值包括用于确定数值的方法的固有的误差变化,或实验之间存在的变化。
本文所述的“核糖核酸”,“RNA”是指与其在编码、解码、调控和表达基因中的作用有关的聚合物分子的核酸。在本文所述的一些实施方案中,RNA可通过催化生物反应、控制基因表达或感知和传递对细胞信号的响应而在细胞内起积极作用。有几种类型的RNA。不受限制地,RNA可以包括例如信使RNA(mRNA),lincRNA,转座子RNA,假RNA,调控RNA,小核RNA(snRNA),小核仁RNA(snoRNA),双链RNA,长非编码RNA(长ncRNA或lncRNA),微小RNA(miRNA),短干扰RNA(siRNA),Piwi相互作用RNA(piRNA)和其他类型的短RNA。在一些实施方案中,提供了用于产生包含在细胞中彼此相互作用的RNA的嵌合RNA的方法。该方法可以包括将RNA与蛋白质交联并将与相同蛋白质分子交联的RNA连接在一起以形成嵌合RNA。在一些实施方案中,RNA是信使RNA(mRNA),调控RNA,小核RNA(snRNA),小核仁RNA(snoRNA),双链RNA,长非编码RNA(长ncRNA或lncRNA),微小RNA(miRNA),短干扰RNA(siRNA),Piwi相互作用的RNA(piRNA)或本领域技术人员已知的其它类型的短RNA。
如本文所述的“嵌合RNA”是指RNA复合体,其中RNA复合体包含连接至相同蛋白质分子的连接的RNA,并且RNA彼此连接以形成该嵌合RNA。在一些实施方案中,提供了用于产生包括在细胞中彼此相互作用的RNA的嵌合RNA的方法。该方法可以包括将RNA与蛋白质交联并将与相同蛋白质分子交联的RNA连接在一起以形成嵌合RNA。在一些实施方案中,RNA是信使RNA(mRNA),调控RNA,小核RNA(snRNA),双链RNA,长非编码RNA(长ncRNA或lncRNA),微小RNA(miRNA),短干扰RNA(siRNA),Piwi相互作用的RNA(piRNA),小核仁RNA(snoRNA)或本领域技术人员已知的其它类型的短RNA。在一些实施方案中,提供了分离的复合体,其中所述分离的复合体包括与蛋白质交联的嵌合RNA,其中所述嵌合RNA包括在细胞中彼此相互作用的RNA。
如本文所述的“交联”或“交联的”是指可将一种聚合物与另一种聚合物连接的键。交联可通过共价键或离子键发生。在一些实施方案中,RNA通过UV诱导的交联与蛋白质交联。使用紫外光照射蛋白质-核酸复合体(包含蛋白质和核酸的复合体、中间体蛋白质和核酸、或者蛋白质复合体和核酸)可以在核酸和与核酸紧密接触的蛋白质之间形成共价键。在本文的一些实施方案中,RNA通过UV辐射与蛋白质交联。
交联也可以通过使用接头以及本领域技术人员已知的其它交联方法来进行。在一些实施方案中,交联可以通过使用探针将蛋白质连接在一起以及本领域技术人员已知的其它交联方法来进行。交联可用于聚合物合成化学以及生物科学。交联可以通过各种条件引发的化学反应形成。不受限制地,可以例如通过加热、压力变化、pH变化、UV光、电子束曝光、γ辐射和/或本领域技术人员已知的其它类型的辐射来引发交联。此外,也可以通过交联试剂诱导交联,产生导致两种聚合物之间的交联的化学反应。在本文所述的一些实施方案中,通过热、压力变化、pH变化、UV光、电子束曝光、γ辐射和/或本领域技术人员已知的其它类型的辐射来引发交联。
交联试剂可以包括但不限于胺-胺交联剂,巯基(sulfhydryl)-巯基的交联剂,胺-巯基交联剂,巯基-碳水化合物交联剂,光反应性交联剂,化学选择性连接交联试剂,体内交联试剂和羧基-胺交联剂。在一些实施方案中,交联试剂包括甲醛,DSG(二琥珀酰亚胺戊二酸酯),DSS(二琥珀酰亚胺辛二酸酯),BS3(双(磺基琥珀酰亚胺)辛二酸酯),TSAT(三(琥珀酰亚胺)氨基三乙酸酯),BS(PEG)5(PEG化双(磺基琥珀酰亚胺)辛二酸酯),BS(PEG)9(PEG化双(磺基琥珀酰亚胺)辛二酸酯),DSP(二硫代双(琥珀酰亚胺丙酸酯)),DTSSP(3,3'-二硫代双(磺基琥珀酰亚胺丙酸酯)),DST(二琥珀酰亚胺酒石酸酯),BSOCOES(双(2-(琥珀酰亚氨基氧基羰基氧基)乙基)砜),EGS(乙二醇双(琥珀酰亚胺琥珀酸酯)),磺基-EGS(乙二醇双(磺基琥珀酰亚胺琥珀酸酯)),DMA(己二亚胺酸二甲酯),DMP(庚二亚氨酸二甲酯)DMS(辛二亚氨酸二甲酯),DTBP(Wang and Richard's Reagent),DFDNB(1,5-二氟-2,4-二硝基苯),BMOE(双马来酰亚胺乙烷),BMB(1,4-双马来酰亚胺丁烷),BMH(双马来酰亚胺己烷),TMEA三(2-马来酰亚氨基乙基)胺),BM(PEG)2(1,8-双马来酰亚氨基二甘醇),BM(PEG)3(1,11-双马来酰亚氨基-三甘醇),DTME(二硫代二马来酰亚氨基乙烷),SIA(琥珀酰亚胺碘乙酸酯),SBAP(琥珀酰亚胺基3-(溴乙酰胺基)丙酸酯),SIAB(琥珀酰亚胺基(4-碘乙酰基)氨基苯甲酸酯),磺基-SIAB(磺基琥珀酰亚胺基(4-碘乙酰基)氨基苯甲酸酯),AMAS(N-α-马来酰亚胺乙酰基-氧代琥珀酰亚胺酯),BMPS(N-β-马来酰亚胺基丙基氧代琥珀酰亚胺酯),GMBS(N-γ-马来酰亚胺基丁酰基-氧代琥珀酰亚胺酯),磺基-GMBS(N-γ-马来酰亚胺基丁酰基-氧代磺基琥珀酰亚胺酯),MBS(间马来酰亚胺基苯甲酰-N-羟基琥珀酰亚胺酯),磺基-MBS(间马来酰亚胺基苯甲酰-N-羟基磺基琥珀酰亚胺酯),SMCC(琥珀酰亚胺基4-(N-马来酰亚胺基甲基)环己烷-1-羧酸酯),磺基-SMCC(磺基琥珀酰亚胺基4-(N-马来酰亚胺基甲基)环己烷-1-羧酸酯),EMCS(N-ε-马来酰亚胺基己酰基-氧代琥珀酰亚胺酯),磺基EMCS(N-ε-马来亚胺基己酰基-氧代磺基琥珀酰亚胺酯,SMPB(琥珀酰亚胺基4-(对马来酰亚胺基苯基)丁酸酯)),磺基-SMPB(磺基琥珀酰亚胺基4-(N-马来酰亚胺基苯基)丁酸酯),SMPH(琥珀酰亚胺基6-((β-马来酰亚胺基丙酰胺基)己酸酯)),LC-SMCC(琥珀酰亚胺4-(N-马来酰亚胺基甲基)环己烷-1-羧基-(6-酰氨基己酸酯)),磺基-KMUS(N-κ-马来酰亚胺基癸酰基-氧代磺基琥珀酰亚胺酯),SPDP(琥珀酰亚胺基3-(2-吡啶基二硫代)丙酸酯),LC-SPDP(琥珀酰亚胺基6-(3(2-吡啶基二硫代)丙酰胺基)己酸酯),磺基-LC-SPDP(磺基琥珀酰亚胺基6-(3'-(2-吡啶基二硫代)丙酰胺基)己酸酯),SMPT(4-琥珀酰亚胺氧基羰基-α-甲基-α(2-吡啶基二硫代)甲苯),PEG4-SPDP(PEG化长链SPDP交联剂),PEG12-SPDP(PEG化长链SPDP交联剂),SM(PEG)2(PEG化SMCC交联剂),SM(PEG)4(PEG化SMCC交联剂),SM(PEG)6(PEG化长链SMCC交联剂),SM(PEG)8(PEG化长链SMCC交联剂)(PEG)12(PEG化长链SMCC交联剂),SM(PEG)24(PEG化长链SMCC交联剂),琥珀酰亚胺基3-(2-吡啶基二硫代)丙酸酯(SPDP),SMCC,琥珀酰亚胺基反式-4-(马来酰亚胺基甲基)环己烷-1-羧酸酯,BMPH(N-β-马来酰亚胺丙酸酰肼),EMCH(N-ε-马来酰亚氨基己酸酰肼),MPBH(4-(4-N-马来酰亚胺基苯基)丁酸酰肼),KMUH(N-κ-马来酰亚胺十一酸酰肼),PDPH(3-(2-吡啶基二硫代)丙酰肼),ANB-NOS(N-5-叠氮基-2-硝基苯甲酰基-氧代琥珀酰亚胺),磺基-SANPAH(磺基琥珀酰亚胺基6-(4'-氨基-2'-硝基苯基氨基)己酸酯),SDA(NHS-双吖丙啶(Diazirine))(琥珀酰亚胺基4,4'-叠氮戊酸酯),磺基-SDA(磺基-NHS-双吖丙啶)(磺基琥珀酰亚胺基4,4'-叠氮戊酸酯),LC-SDA(NHS-LC-双吖丙啶)(琥珀酰亚胺基6-(4,4'-叠氮戊酰胺基)己酸酯),磺基-LC-SDA(磺基-NHS-LC-双吖丙啶)(磺基琥珀酰亚胺基6-(4,4'-叠氮戊酰胺基)己酸酯),SDAD(NHS-SS-双吖丙啶)(琥珀酰亚胺基2-((4,4'-叠氮戊酰胺基)乙基)-1,3'-二硫代丙酸酯),磺基-SDAD(磺基-NHS-SS-双吖丙啶)(磺基琥珀酰亚胺基2-((4,4'-叠氮戊酰胺基)乙基)-1,3'-二硫代丙酸酯),ATFB,SE,4-叠氮基-2,3,5,6-四氟苯甲酸,琥珀酰亚胺酯,SDA(NHS-双吖丙啶)(琥珀酰亚胺基4,4'-叠氮戊酸酯),SPB(琥珀酰亚胺基-[4-(补骨脂素-8-基氧基)]-丁酸酯),L-光-亮氨酸,L-光-甲硫氨酸,ManNAz(四酰化N-叠氮基乙酰基甘露糖胺),GalNAz(四酰化N-叠氮基乙酰基半乳糖胺),DCC(二环己基碳二亚胺),DyLightTM550-膦,DyLightTM 650-膦,EZ-LinkTM膦-PEG3-生物素,EZ-LinkTM膦-PEG4-脱硫生物素,EDC(1-乙基-3-(3-二甲基氨基丙基)碳二亚胺盐酸盐),NHS(N-羟基琥珀酰亚胺),磺基-NHS(N-羟基磺基琥珀酰亚胺),磺基-NHS(N-羟基磺基琥珀酰亚胺),磺基-NHS(N-羟基磺基琥珀酰亚胺)或磺基-NHS(N-羟基磺基琥珀酰亚胺)。
如本文所述的“固定”是指捕获分子,其中捕获由特异于特定分子或标记的第一分子进行。在一些实施方案中,通过将捕获分子附着在固体支持物上来进行固定。固体支持物可以是珠或柱。在一些实施方案中,固体支持物包含用于捕获分子的链霉亲和素分子,例如链霉亲和素或其部分。在一些实施方案中,蛋白质在半胱氨酸残基处被生物素化。
如本文所述的“片段化”可以指消化或打断核酸。在本文所述方法的一些实施方案中,RNA被酶片段化。RNA降解可以通过许多类型的核酸酶进行。例如,核糖核酸酶(RNAse)是一种可以催化RNA降解成较小组分的核酸酶。RNAse可以分为核糖核酸内切酶和核糖核酸外切酶。在一些实施方案中,提供了用于产生包括在细胞中彼此相互作用的RNA的嵌合RNA的方法,其中所述方法包括将RNA与蛋白质交联并将与相同蛋白质分子交联的RNA连接在一起以形成嵌合RNA。在一些实施方案中,RNA与蛋白质的交联在完整细胞上或在细胞裂解物中进行。在一些实施方案中,交联包括UV交联。在一些实施方案中,所述方法还包括将所述蛋白质与有助于所述蛋白质在表面上固定化的试剂相关联。在一些实施方案中,有助于固定的所述试剂包括生物素。在一些实施方案中,蛋白质在半胱氨酸残基处被生物素化。在一些实施方案中,该方法还包括将与相同蛋白质分子交联的所述RNA片段化。在一些实施方案中,所述片段化包括在有助于所述RNA部分消化的条件下将与相同蛋白质分子交联的所述RNA与RNAse接触。
本文所述的“生物素”是指也称为维生素H或辅酶R的水溶性维生素B。在本文所述的多个实施方案中,生物素可用于标记RNA用于通过固体支持物如珠上的链霉亲和素分子捕获。在一些实施方案中,提供用于产生包括在细胞中彼此相互作用的RNA的嵌合RNA的方法,其中所述方法包括将RNA与蛋白质交联并将与相同蛋白质分子交联的RNA连接在一起以形成嵌合RNA。在一些实施方案中,RNA与蛋白质的交联在完整细胞上或在细胞裂解物中进行。在一些实施方案中,交联包括UV交联。在一些实施方案中,所述方法还包括将所述蛋白质与有助于所述蛋白质在表面上固定的试剂相关联。在一些实施方案中,有助于固定的所述试剂包括生物素。在一些实施方案中,蛋白质在半胱氨酸残基处被生物素化。在一些实施方案中,该方法还包括将与相同蛋白质分子交联的所述RNA片段化。在一些实施方案中,所述片段化包括在有助于所述RNA部分消化的条件下将与相同蛋白质分子交联的所述RNA与RNAse接触。在一些实施方案中,所述方法还包括将与相同蛋白质分子交联的所述RNA连接至有助于所述RNA的回收的试剂。在一些实施方案中,所述连接包括将所述RNA的末端连接至所述试剂。在一些实施方案中,有助于所述RNA回收的所述试剂包含核酸。在一些实施方案中,所述核酸包括其上具有生物素的核酸。在一些实施方案中,所述其上具有生物素的核酸与所述RNA的所述末端的所述连接包括在将与相同蛋白质分子交联的所述RNA连接在一起以形成嵌合RNA之前将其上具有生物素的所述核酸连接至所述RNA的5'末端。在一些实施方案中,所述方法还包括从所述嵌合RNA的5'区域除去所述生物素。在一些实施方案中,所述方法还包括回收所述嵌合RNA。在一些实施方案中,所述方法还包括将所述嵌合RNA片段化。
本文所述的“蛋白质”是指包含一个或多个多肽链的大分子。因此,蛋白质可以由肽组成,肽是由任何一个或多个氨基酸形成的肽(酰胺)键连接的氨基酸单体的链。蛋白质或肽可以含有至少两个氨基酸,并且对能够包含蛋白质或肽序列的氨基酸的最大数目没有限制。不受限制地,氨基酸例如是精氨酸,组氨酸,赖氨酸,天冬氨酸,谷氨酸,丝氨酸,苏氨酸,天冬酰胺,谷氨酰胺,半胱氨酸,胱氨酸,甘氨酸,脯氨酸,丙氨酸,缬氨酸,羟脯氨酸,异亮氨酸,亮氨酸,吡咯赖氨酸,甲硫氨酸,苯丙氨酸,酪氨酸,色氨酸,鸟氨酸,S-腺苷甲硫氨酸和硒代半胱氨酸。蛋白质还可以包含非肽组分,例如碳水化合物基团。碳水化合物和其他非肽取代基可以通过产生蛋白质的细胞加入到蛋白质中,并且将随细胞类型而变化。不受限制地,蛋白质可通过催化代谢反应、DNA复制、响应刺激和将分子从一个位置传递到另一个位置而在生物体内起作用。例如,蛋白质可以是酶,跨膜蛋白和抗体,用于转运的小生物分子,受体或激素。在一些实施方案中,提供了用于产生包括在细胞中彼此相互作用的RNA的嵌合RNA的方法,其中所述方法包括将RNA与蛋白质交联并将与相同蛋白质分子交联的RNA连接在一起以形成嵌合RNA。在一些实施方案中,所述蛋白质是酶。在一些实施方案中,所述蛋白质参与转运或催化代谢反应。
本文所述的“相互作用物组(Interactome)”是指特定细胞中的分子相互作用的整个集合。该术语具体指分子之间的物理相互作用(例如蛋白质之间的,也称作蛋白质-蛋白质相互作用),但也可以描述基因之间的间接相互作用(遗传相互作用)的集合,如RNA-RNA相互作用或一个或多个RNA和蛋白质分子之间的相互作用。在一些实例中,可以将相互作用物组以图形展示出来。在一些实施方案中,本发明的方法和组合物在一次测定中基本上描绘了所有蛋白质辅助的RNA-RNA相互作用。在本文描述的一些实施方案中,已经应用了该方法来产生RNA相互作用物组的第一幅全局图。在一些实施方案中,从特定细胞产生相互作用物组。在一些实施方案中,细胞来自人。在一些实施方案中,细胞是癌细胞,肿瘤细胞,淋巴细胞或免疫细胞。在一些实施方案中,相互作用物组可用于确定或预测疾病途径。
如本文所定义的“蛋白质复合体”是指一组或两组以上的相结合的蛋白或多肽链,也可称为“多蛋白复合体”。在一些实施方案中,提供了包括结合至蛋白质复合体的核酸的复合体。在一些实施方案中,所述核酸是RNA。
本文定义的“蛋白质中间体”是指可以在过程或特定途径期间彼此结合和解脱的蛋白质,并且还可以称为“蛋白质结合中间体”。不受限制地,其中可见蛋白质中间体结合的实例可以包括转录、翻译和代谢途径等过程。不受限制地,蛋白质结合中间体的实例可包括聚合酶,核酸结合蛋白,RNA识别动力蛋白(motic protein),异质核糖核蛋白颗粒和本领域技术人员已知的其它蛋白质结合中间体。在一些实施方案中,提供了包含与蛋白质中间体结合的核酸的复合体。在一些实施方案中,所述核酸是RNA。在一些实施方案中,蛋白质中间体与其它蛋白质中间体相互作用,从而形成蛋白质复合体,其中所述蛋白质复合体包含蛋白质中间体。
具体实施方式
本文公开了用于鉴定细胞中直接RNA-RNA相互作用的方法和组合物。在一些实施方案中,所述方法和组合物可用于鉴定细胞中至少约100个、至少约500个、至少约1000个或多于约1000个RNA-RNA相互作用。在一些实施方案中,所述方法和组合物可用于鉴定约100、约200、约300、约300、约500、约600、约700、约800、约900、约1000、约2000、约3000、约4000、约5000、约6000、约7000、约8000、约9000或约10,000个RNA-RNA相互作用或任意两个上述这些值之间的任何其它数目的RNA-RNA相互作用。在其它实施方案中,所述方法和组合物可用于鉴定细胞中基本上所有的直接RNA-RNA相互作用。例如,方法和组合物可用于鉴定细胞中直接RNA-RNA相互作用的至少约70%、至少约80%、至少约90%或多于约90%。在一些实施方案中,所述方法和组合物可用于鉴定细胞中直接RNA-RNA相互作用的至少约70%、至少约80%、至少约90%或约100%,或者任意两个上述值之间的任何其它百分数。该方法不依赖于任何特定RNA序列的知识,其中一个优点是鉴定未知的RNA-RNA相互作用。
只有约5%的基因组编码翻译成蛋白质的RNA。约50%的基因组转录成RNA,包括非编码RNA(ncRNA)如微小RNA和长ncRNA(长于200nt)。ncRNA通常通过蛋白质相关的相互作用与其他RNA相互作用。因此,可以使用基于蛋白质的捕获方法鉴定直接RNA-RNA相互作用。在一些实施方案中,可以使用基于蛋白质的捕获方法鉴定直接RNA-RNA相互作用。
尽管RNA-RNA相互作用对于RNA的调控功能是至关重要的,但是目前还没有技术来对其进行全面调查。包括HITS-CLIP(Nature 460,497-486)和CLASH(Cell 153,654-665)的可用技术仅能够映射所选择的蛋白质附着的RNA。这种一次一种蛋白的方法不能映射整个RNA相互作用物组。
在一些实施方案中,本发明的方法和组合物在一次测定中基本上映射了所有蛋白质辅助的RNA-RNA相互作用。在本文描述的一些实施方案中,已经应用了该方法来产生RNA相互作用物组的第一幅全局图。在一些实施方案中,本发明的方法和组合物规避了对于蛋白质特异性抗体的需求或表达标记蛋白质的需要。这允许RNA相互作用物组的无偏倚映射。据我们所知,其他方法一次只能对一种RNA结合蛋白起作用。本文描述的实施方案导致了可以为多个RNA结合蛋白确定RNA-RNA相互作用的出乎意料的结果。
在一些实施方案中,本发明的方法和组合物分析内源性细胞状况,在交联之前不引入任何外源核苷酸或蛋白质编码基因(CLASH)。不需要转化的细胞系(CLASH),一些实施方案通常可用于分析任何细胞类型或组织。
在一些实施方案中,本发明的方法和组合物克服了HITS-CLIP的重要缺点。在分析的细胞中,HITS-CLIP推测的RNA-RNA相互作用并不一定发生。这是因为在HITS-CLIP中共同出现的任意两种RNA可能是由于RNA独立地附着到靶蛋白的不同拷贝上而产生的。然而,在一些实施方案中,本发明的方法和组合物可靠地表示RNA的物理相互作用。
已经对小鼠胚胎干细胞(ES)细胞中的RNA相互作用物组进行了映射,并且新的发现显示:
1.长RNA经常彼此相互作用。在小鼠ES细胞中有数千个mRNA-mRNA相互作用和数百个lincRNA-mRNA、转座子RNA-mRNA、假基因RNA-mRNA相互作用。
2.长RNA之间的相互作用经常使用一小部分转录物。类似于蛋白质相互作用域,本文提出了RNA相互作用位点的概念。RNA相互作用位点利用碱基配对来促进长RNA的相互作用,这表明了一种新型的反式调控(trans regulatory)序列。这些反式调控序列比转录物的其他部分在进化上更加保守。
3.RNA相互作用物组是一个无标度的网络,含有几个高度连接的lincRNA和mRNA中枢。在一个示例性实施方案中,使用双色单分子RNA-FISH已经实验证实了两个中枢,Malat1lincRNA和Slc2a3mRNA之间的相互作用。
4.基本上每个表达的snoRNA被酶促加工成miRNA样小RNA并与RISC复合体中的mRNA相互作用。
虽然本发明的方法和组合物的一些实施方案可用于映射分子间相互作用,但是它们也可以揭示关于RNA结构的独特信息。RNA Hi-C的分子内读段提供了RNA的各个片段的空间邻近信息。因此,这是第一次以高通量的方式获得这些信息。另外,在相同的测定中作为副产物获得每个RNA的单链区域。在一个示例性实施方案中,RNA被蛋白质弯曲,并且通过RNA Hi-C的分子内读段捕获这种四级结构。
在一些实施方案中,所述方法包括:(1)将RNA1和RNA2与蛋白质(或蛋白质中间体或蛋白质复合体)交联以形成复合体,(2)标记蛋白质(例如生物素),(3)片段化RNA,(4)捕获标记的蛋白质(例如生物素-链霉亲和素-珠),(5)将生物素标记的RNA接头连接至RNA1和RNA2的5'末端,(6)进行邻位连接以连接RNA1-接头-RNA2形成嵌合体,(7)蛋白酶处理复合体以释放RNA1-接头-RNA2嵌合体(DNAse处理),(8)与和生物素标记的RNA接头互补的DNA探针杂交并用T7外切核酸酶处理以去除非连接的生物素标记的RNA接头,(9)将核酸片段化至约150nt以辅助最终测序,(10)使用链霉亲和素珠捕获RNA1-接头-RNA2嵌合体,(11)将RNA1-接头-RNA2转化为cDNA并测序至少一部分cDNA。在一些实施方案中,使用生物信息学来鉴定RNA1和RNA2。
本发明的方法和组合物可以在多种情况下得到应用,包括RNA治疗公司寻找新的治疗靶点的用途,研究人员研究RNA-RNA相互作用的用途,以及设备和试剂公司研究和发现设备的开发。
非编码RNA(ncRNA)参与包括调控基因表达在内的广泛细胞过程。微小RNA(miRNA)和长ncRNA(lncRNA)是具有已知调控功能的两类ncRNA。这些ncRNA在转录后或表观遗传学水平调控基因表达的能力为基于ncRNA的治疗提供了新的机会。鉴定ncRNA和信使RNA(mRNA)之间的直接相互作用是了解ncRNA调控作用的必然步骤。MiRNA和lincRNA靶点仅是可以通过本文实施方案中描述的技术检测的相互作用的一小部分,还设计发现了其他ncRNA的潜在调控功能。然而,仅由这两类ncRNA驱动的诊断和治疗的市场已经是显著的。
MiRNA是充当基因表达的关键调控剂的一组非编码核糖核酸。最近的研究进一步揭示了miRNA在疾病,特别是癌症、心血管和神经疾病中的重要性。大规模的克隆工作已经揭示了miRNA的丰度和多样性。人类基因组估计可以编码多达1000种miRNA,预计这些miRNA可调控所有基因的三分之一。在神经学过程中,miRNA是中枢神经系统(CNS)发育和可塑性的关键调控因子。越来越多的证据表明miRNA参与各种各样的神经病症,如创伤性脊髓损伤、创伤性脑损伤、阿尔茨海默氏病、帕金森病和亨廷顿病。基于miRNA的调控的一个有力特征是单个miRNA调控多个功能相关的mRNA的能力,如调控多种代谢基因的肝特异性miR-122所例证的。平均来说,给定的miRNA可以调控数百个转录物,这些转录物的效应分子在细胞途径和网络内的各个位点起作用。因此,miRNA能够在细胞程序之间瞬时切换,因此通常被视为人类基因组的主要调控因子。
仅在10年前发现了第一种人类miRNA,而基于miRNA的治疗已经进入了第2阶段临床试验(miR-122拮抗剂,由Santaris开发的SPC3649,被施用于HCV患者以阻断病毒复制)。从发现到发展的这种快速进程反映了miRNA作为人类疾病中的关键调控因子的重要性,并且具有产生一类新的治疗药物的潜力,这可能代表着对目前药物渠道的有吸引力的补充。
适用于开发基于miRNA的治疗的原理与采用药物靶向药物的路径的其他靶向治疗保持相同。例如,靶标鉴定和验证是选择在病因上参与疾病过程的miRNA的关键。此外,努力的药物开发对于确保令人满意的功效、特异性和缺乏毒性是必要的。然而,由于miRNA构成与任何其他物质无关的一类药物靶标,因此还需要新的辅助技术和方法。利用miRNA治疗潜力的关键缺失部分是确定miRNA的靶mRNA的检测方法。在一些实施方案中,本发明的方法和组合物可用于开发治疗策略和组合物。
癌症治疗市场目前接近1000亿,预计未来五年将呈指数级增长。基于微小RNA的治疗已经成为该领域的前沿,根据一些分析师的预计,假设有50种具有治疗潜力的miRNA被批准使用,基于每个治疗性miRNA的1.5亿美元市场,将占据价值75亿美元的市场空间。
在一些实施方案中,本发明的组合物和方法提供了在任何miRNA驱动的治疗应用中不能避开的缺失部分。本发明方法和组合物的其它应用包括神经病症中的治疗应用和实验室研究。
lincRNA是长于200nt的非蛋白编码转录物,其可以介导表观遗传重塑复合体和染色质之间的相互作用。更深入地了解人类癌症中的lncRNA功能不仅可以扩展潜在的目标癌症基因的数量,而且还可以促进新型抗癌疗法的发展,例如由反义RNA介导的基因调控或靶向lncRNA-蛋白质相互作用。随着更深入了解lncRNA在正常和疾病状态中的作用,相信lncRNA也可以用作诊断或预测生物标志物。例如,lncRNA HOTAIR在原发性乳腺肿瘤和转移中的表达增加,其在原发性肿瘤中的表达水平是最终转移和死亡的有力预测因子。更接近临床地,在尿液中恰好发现了一种在前列腺癌中高度过表达的称为前列腺癌抗原3(PCA3)的lncRNA,使得易于检测。被称为Progensa PCA3检测的商业试剂盒已被FDA最近批准用于临床应用,这是第一个基于尿液的分子检测来帮助确定重复前列腺活组织检查的需要。lncRNA的疾病调控重要性不仅限于癌症。Gibb指出,它们在遗传性疾病中也发挥重要作用,其中lncRNA去调控与短指症和HELLP综合征有关。另一种lncRNA显示可稳定阿尔茨海默病途径中关键酶的mRNA。越来越多的证据表明,lncRNA与主要的人类疾病密切相关,与蛋白质编码RNA相比,可以在疾病诊断和预后方面表现得更好。此外,大多数目前可用的药物和工具化合物表现出抑制作用机制,并且相对缺乏能够增加对治疗有益的效应子或途径的活性的药剂。实际上,在特定情况下,期望许多基因的上调,包括肿瘤抑制子,生长因子,转录因子和各种遗传疾病中缺陷的基因。许多报道表明,lncRNA通常可以被RNAi触发子抑制。通过沉默其他基因的RNAi来靶向lncRNA可以激活基因表达。在一些实施方案中,所述方法和组合物可用于检测感兴趣的细胞中上调基因的存在与否。在一些实施方案中,细胞包含肿瘤细胞、癌细胞或免疫细胞。在一些实施方案中,所述方法可用于通过评估包含上调基因的信息的转录组来鉴定或预测疾病或疾病结果。
因此,在一些实施方案中,本发明的方法和组合物可以由使用miRNA模拟物来标准化癌细胞上的基因调控网络、或治疗心血管和肌肉疾病的miRNA治疗市场中的公司使用。在示例性实施例中,本发明的方法和组合物可用于验证候选产品并且还可以搜索新的目标。
在一些实施方案中,本发明的方法和组合物可用于制备RNA Hi-C试剂盒。在其它实施方案中,本发明的方法和组合物可用于提供用于研究的寡核苷酸。例如,本发明的方法和组合物可以用于大型lncRNA靶向RNAi触发子文库的环境中。在一些实施方案中,本发明的方法和组合物用于鉴定RNAi靶向用的潜在的lncRNA候选物。
一个实施方案提供了在细胞中映射出RNA-RNA相互作用的技术。在一个实施方案中,所述方法和组合物在一个实验中无偏倚地映射出基本上所有的RNA-RNA相互作用,并且提供了一对一的分辨率(哪个RNA与哪个RNA相互作用)。一些实施方案包括新的实验组件和新的计算策略。从某种细胞类型的细胞开始,一些实施方案映射出了该细胞类型的直接相互作用的RNA的列表。本发明的方法和组合物已经应用于小鼠胚胎干细胞,并使用一个实验鉴定了4049个RNA-RNA相互作用。在一个实施方案中,实验组件将这些细胞作为输入,将基本上所有直接RNA-RNA相互作用转化为嵌合RNA分子,并使用双端测序对这些嵌合RNA进行序列测定。一些实施方案包括(1)将所有蛋白质-RNA复合体(包含蛋白质和核酸的复合体,中间体蛋白质和核酸或蛋白质复合体和核酸)固定在磁珠上;(2)相互作用的RNA的基于接近度的连接;(3)嵌合RNA分子的选择性纯化;(4)嵌合转录物的高通量测序。在本文描述的实施方案中,该方法还可以包括使用生物信息学程序将这些测序数据作为输入,并产生高置信RNA-RNA相互作用的列表。
目前,没有可以直接快速测定细胞类型中基本上所有RNA-RNA相互作用的有效方法。已有两种方法来部分实现这一目标,但二者均有缺点。首先,实验表征仅一种miRNA/lincRNA在体内的靶点被认为是一种开创性的技术[Lal等人,2011;Baigude等人,2012;Kretz等人,2013]。其次,可以检测多种miRNA的靶点的其他技术,如HITS-CLIP和CLASH也有限制。一个主要的常见限制是它们都集中在仅包含小部分RNA的miRNA。因此,这些技术不能揭示大多数RNA-RNA相互作用。此外,每种技术都有自己的特殊弱点。
通过交联免疫沉淀(HITS-CLIP)分离的RNA的高通量测序是目前对miRNA靶标的全基因组分析的最可靠的方法[Chi等人,2009]。HITS-CLIP允许鉴定组织中存在的miRNA的总集,以及由miRNA调控的mRNA的所有总集。然而,直接将miRNA与其靶mRNA配对不能从HITS-CLIP直接推导出来。换句话说,HITS-CLIP不直接通知哪个miRNA调控哪些mRNA(没有一对一的信息)。
最近称为CLASH(交联、连接和混合测序)的方法可以允许直接观察miRNA-靶标对。然而,与测序读段的数量相比,相互作用的数量仍然很小:只有2%的测序读段是嵌合的,98%仍然是单一读段。这需要更深入的测序覆盖或多个样品的制备以获得足够的miRNA-mRNA相互作用的覆盖。
在一些实施方案中,本发明的方法和组合物包括制备和富集RNA嵌合体的实验组件和计算组件,使得可以映射所有RNA-RNA相互作用的信息的无偏倚的全基因组的直接测定。
在一些实施方案中,本发明的方法和组合物提供:
1.使用嵌合RNA以一对一分辨率直接测定所有RNA-RNA相互作用。
2.利用特定的接头提高连接效率和相互作用鉴别的准确性。
3.选择性纯化期望的嵌合RNA-RNA产物是通过除去未连接的产物和生物素下拉来实现的。
4.通过使用ssDNA Circligase来连接测序适配子而不是RNA连接酶,提高用于高通量测序的文库制备的效率。
在一些实施方案中,本发明的方法和组合物能够:
1.从实验步骤产生的所有序列读段中鉴定嵌合RNA序列;
2.将这些嵌合体转化为注释的RNA簇;
3.使用统计检验来确定这些RNA簇之间的强直接相互作用。
如前所述,一些技术仅显示了一种miRNA/lincRNA在体内的靶点(例如,Lal等,2011;Baigude等,2012;RNA相互作用物组分析)。
如前所述,一些技术可以检测许多miRNA的靶标,但是限于miRNA(例如,HITS-CLIP,PAR-CLIP,其也缺乏直接的一对一信息,和CLASH,其仅提供一小部分嵌合RNA)。因此,本文描述的本实施方案通过不将RNA限制在诸如miRNA等小子集而导致相对于现有方法的优点。
在图4中示出了一个示例性实施方案。简而言之,细胞通过UV交联在体内交联。UV交联的优点是RNA与目的蛋白共价结合,但蛋白质彼此不交联。RNA和蛋白质之间形成的共价相互作用可以使交联的RNA片段得到严格的纯化。裂解细胞,裂解物经RNase I进行部分RNase消化。此外,在蛋白质上将半胱氨酸残基生物素化。包括蛋白质-RNA复合体(包括蛋白质和核酸的复合体,中间体蛋白质和核酸,或蛋白质复合体和核酸,其中核酸是RNA)的蛋白质固定在链霉亲和素珠上。然后将RNA的5'末端与生物素标记的RNA接头(24nt)连接以促进随后的嵌合RNA的选择性纯化。接下来,在有利于交联RNA片段之间连接的稀释条件下,在珠上进行基于接近度的连接。然后从链霉亲和素珠洗脱蛋白质-RNA复合体(包括蛋白质和核酸的复合体,中间体蛋白质和核酸或蛋白质复合体和核酸,其中核酸是RNA),并通过消化结合的蛋白质来回收RNA。洗脱的RNA进行严格的DNase处理以消除DNA污染。然后将纯化的RNA与同24nt RNA接头互补的DNA探针杂交,并用T7外切核酸酶处理以除去非连接的生物素化RNA接头。结果,只有成功连接的嵌合RNA在连接点处含有生物素标记的接头。将该嵌合的RNA文库再次片段化至平均150个核苷酸,并用链霉亲和素包被的磁珠将连接接合点下拉。终产物是~150nt嵌合RNA的文库。该文库预期富集R1-接头-R2形式的嵌合体,其中R1和R2是相互作用的RNA的片段。将该文库转化为cDNA,并用双端下一代测序进行序列测定。
测序的cDNA的生物信息学分析的一个示例性实施方案如图5所示。首先,对于两端彼此完全相同的读段,删除PCR重复(duplicate)。然后,回收送至测序的片段,并且基于每个读段对的两端之间的BLAST比对来估计片段长度。由此,选择具有R1-接头-R2构型的有信息的嵌合RNA,其中R1和R2是相互作用的RNA的片段(图5A)。收集嵌合RNA后,将R1和R2片段比对回基因组,并且为R1和R2池并行生成由大量重叠的、经比对的读段支持的簇(使用Union-Find算法)。
接下来,开展超几何检验以基于连接的嵌合体(R1-接头-R2)的数量鉴定R1和R2池内的簇之间的强相互作用。不同类型的强相互作用通过R1和R2池中的簇的基因组注释来确定。(图5B)
已经进行了使用小鼠胚胎干(ES)细胞的两个独立实验。这两个实验产生了可比的结果。cDNA的范围为75至200nt(图6A,减去128nt引物),其产生~2400万个非冗余双端读段。鉴定了R1-接头-R2形式的嵌合RNA(240万个)。通过超几何检验鉴定了总共4049个相互作用,并分类了不同类型的相互作用(图6B),其中snoRNA-mRNA相互作用最丰富。在242个相互作用中,snoRNA靶向mRNA的3'UTR,这支持最近提出的假设,即snoRNA可以被加工成更小的分子并且像miRNA那样起作用[Brameier等人,2011;Scott等人,2011]。例如,18个非冗余嵌合RNA将SNORA1snoRNA与Trim25mRNA的3'UTR连接(图6C)。Argonaute蛋白质下拉随后进行RNA测序(CLIP-seq)数据[Lueng等人,2011]证实SNORA1和Trim25都与Argonaute连接(图6C)。ES细胞分化的时程分析[Shu等人,2012]证实了反向相关(图6D),与一种RNA抑制另一种RNA的想法一致。
我们的技术的这种原理实验证据产生了4049对相互作用的RNA的列表。基于p值和支持读段对的数量的前10个相互作用列于表1。
表1:通过RNA-Stich-Seq在胚胎干细胞中鉴定的前10个RNA-RNA相互作用。每行提供了一对相互作用的RNA的信息,命名为相互作用的RNA 1和相互作用的RNA 2。由于这种相互作用对而形成并被反映为双端测序读段的嵌合RNA的数目列于最后一列。双向箭头表示直接相互作用。
Figure GDA0002048945670000291
Figure GDA0002048945670000301
许多生物过程受RNA-RNA相互作用的调控(Kretz,M.den等人,Control ofsomatic tissue differentiation by the long non-coding RNA TINCR.Nature 493,231-235,doi:10.1038/nature11661(2013)),然而分析整个RNA相互作用物组仍然是艰巨的。在一个示例性实施方案中,开发了一种方法,RNA Hi-C,用于在体内映射蛋白质辅助的RNA-RNA相互作用。通过避免特异性RNA结合蛋白的选择(Hafner,M.等人,Transcriptome-wide identification of RNA-binding protein and microRNA target sites by PAR-CLIP.Cell 141,129-141,doi:10.1016/j.cell.2010.03.009(2010);Chi,S.W.,Zang,J.B.,Mele,A.&Darnell,R.B.Argonaute HITS-CLIP decodes microRNA-mRNAinteraction maps.Nature 460,479-486,doi:10.1038/nature08170(2009);Helwak,A.,Kudla,G.,Dudnakova,T.&Tollervey,D.Mapping the human miRNA interactome byCLASH reveals frequent noncanonical binding.Cell 153,654-665,doi:10.1016/j.cell.2013.03.043(2013);Kudla,G.,Granneman,S.,Hahn,D.,Beggs,J.D.&Tollervey,D.Cross-linking,ligation,and sequencing of hybrids reveals RNA-RNAinteractions in yeast.Proceedings of the National Academy of Sciences of theUnited States of America108,10010-10015,doi:10.1073/pnas.1017386108(2011)),该方法大大扩展了RNA相互作用物组的可鉴定部分。使用这种技术,允许在小鼠胚胎干细胞中的RNA相互作用物组的映射,其由46,780个RNA-RNA相互作用组成。RNA相互作用物组是一个无标度的网络,其中有几个作为中枢出现的lincRNA和mRNA。使用单分子RNA荧光原位杂交,在两个中枢Malat1和Slc2a3之间验证了相互作用。在长RNA的相互作用位点观察到碱基配对,并且该碱基配对在转座子RNA-mRNA和lincRNA-mRNA相互作用中特别强。这揭示了一种以反式作用的、新型的调控序列。与其假设作用一致,RNA相互作用位点比转录物的其他区域在进化上更加保守。RNA Hi-C还提供了关于RNA结构的新信息,同时揭示了单链区域和每个RNA的空间邻位位点的印迹。因此,具有细胞生理学最小扰动的蛋白质辅助的RNA相互作用物组的无偏倚映射对现有方法是有利的,并且将大大扩展调查RNA功能的能力。
RNA分子之间的相互作用发挥关键的调控作用,并且通常由RNA结合蛋白(Ray,D.等人,A compendium of RNA-binding motifs for decoding gene regulation.Nature499,172-177,doi:10.1038/nature12311(2013))如ARGONAUTE蛋白(AGO)(Meister,G.Argonaute proteins:functional insights and emerging roles.Naturereviews.Genetics 14,447-459,doi:10.1038/nrg3462(2013))、PUM2、QKI(Hafner,M.等人,Transcriptome-wide identification of RNA-binding protein and microRNAtarget sites by PAR-CLIP.Cell 141,129-141,doi:10.1016/j.cell.2010.03.009(2010)),和snoRNP蛋白(Granneman,S.,Kudla,G.,Petfalski,E.&Tollervey,D.Identification of protein binding sites on U3snoRNA and pre-rRNA by UVcross-linking and high-throughput analysis of cDNAs.Proceedings of theNational Academy of Sciences of the United States of America106,9613-9618,doi:10.1073/pnas.0901997106(2009))介导。尽管最近有进展,如PAR-CLIP(Hafner,M.等人,Transcriptome-wide identification of RNA-binding protein and microRNAtarget sites by PAR-CLIP.Cell 141,129-141,doi:10.1016/j.cell.2010.03.009(2010)),HITS-CLIP(Chi,S.W.,Zang,J.B.,Mele,A.&Darnell,R.B.Argonaute HITS-CLIPdecodes microRNA-mRNA interaction maps.Nature 460,479-486,doi:10.1038/nature08170(2009)),和CLASH(Helwak,A.,Kudla,G.,Dudnakova,T.& Tollervey,D.Mapping the human miRNA interactome by CLASH reveals frequent noncanonicalbinding.Cell 153,654-665,doi:10.1016/j.cell.2013.03.043(2013);Kudla,G.,Granneman,S.,Hahn,D.,Beggs,J.D.&Tollervey,D.Cross-linking,ligation,andsequencing of hybrids reveals RNA-RNA interactions in yeast.Proceedings ofthe National Academy of Sciences of the United States of America 108,10010-10015,doi:10.1073/pnas.1017386108(2011)),然而映射所有蛋白质辅助的RNA-RNA相互作用仍然是一项艰巨的挑战。
在这三种方法的每一个中,每个实验只能分析一种RNA结合蛋白介导的相互作用。另外,每个实验需要蛋白质特异性抗体(HITS-CLIP或PAR-CLIP)或转化细胞系中标记蛋白质的稳定表达(CLASH)。此外,在HITS-CLIP或PAR-CLIP中共同出现的任意两种RNA可能是由于RNA独立地附着到靶蛋白的不同拷贝上而产生的。例如,假设细胞中存在10个AGO蛋白,每个蛋白都被不同的RNA结合;这10个RNA将被鉴定为与AGO HITS-CLIP相互作用。因此,HITS-CLIP和PAR-CLIP推断的RNA-RNA相互作用在分析的细胞中不一定发生。
在本文所述的示例性实施方案中,开发了RNA Hi-C方法以检测体内蛋白质辅助的RNA-RNA相互作用。在该过程中,RNA与其结合的蛋白质交联,然后连接至生物素化的RNA接头,使得RNA,RNA1和RNA2,由形成RNA1-接头-RNA2形式的嵌合RNA的相同蛋白质共同结合。使用链亲和素包被的磁珠分离这些含接头的嵌合RNA,并使其进行双端测序(方法,图1A,图7)。因此,每个非冗余双端读段反映一种分子相互作用。
RNA Hi-C方法提供了映射RNA-RNA相互作用的几个优点。首先,仅捕获由相同蛋白质分子聚集的RNA,克服了HITS-CLIP中的缺点,在HITS-CLIP中当不同的RNA独立地结合到相同蛋白质的不同拷贝时,其将所述不同的RNA视为是相互作用的。第二,使用生物素化的接头作为选择标志物避免对于蛋白质特异性抗体的需求或表达带标记的蛋白的需要。这允许RNA相互作用物组的无偏倚映射。如本领域所述,其它方法一次只能对一种RNA结合蛋白起作用。因此,这种方法导致一次有效地对多于一种RNA结合蛋白起作用的惊人效果。第三,通过在极度稀释的条件下在链霉亲和素珠上进行RNA连接步骤,使得由RNA随机连接至其他附近RNA产生的假阳性最小化。第四,RNA接头提供了一个清晰的边界,描绘跨越连接位点的测序读段,从而避免了映射测序读段的含糊不清。第五,RNA Hi-C直接分析内源细胞条件而在交联之前不引入任何外源核苷酸(Hafner,M.等人,Transcriptome-wideidentification of RNA-binding protein and microRNA target sites by PAR-CLIP.Cell 141,129-141,doi:10.1016/j.cell.2010.03.009(2010);Lal,A.deng等人,Capture of microRNA-bound mRNAs identifies the tumor suppressor miR-34a as aregulator of growth factor signaling.PLoS genetics 7,e1002363,doi:10.1371/journal.pgen.1002363(2011);Baigude,H.,Ahsanullah,Li,Z.,Zhou,Y.&Rana,T.M.miR-TRAP:a benchtop chemical biology strategy to identify microRNA targets.AngewChem Int Ed Engl 51,5880-5883,doi:10.1002/anie.201201512(2012))或蛋白编码基因(Helwak,A.,Kudla,G.,Dudnakova,T.&Tollervey,D.Mapping the human miRNAinteractome by CLASH reveals frequent noncanonical binding.Cell 153,654-665,doi:10.1016/j.cell.2013.03.043(2013))。第六,通过在PCR扩增之前将随机的6个核苷酸条形码附着至各嵌合RNA并随后仅一次计数与相同的条形码完全重叠的测序读段来除去潜在的PCR扩增偏倚(Chi,S.W.,Zang,J.B.,Mele,A.&Darnell,R.B.Argonaute HITS-CLIPdecodes microRNA-mRNA interaction maps.Nature 460,479-486,doi:10.1038/nature08170(2009);Loeb,G.B.deng’ren等人,Transcriptome-wide miR-155binding mapreveals widespread noncanonical microRNA targeting.Molecular cell 48,760-770,doi:10.1016/j.molcel.2012.10.002(2012);Wang,Z.等人,iCLIP predicts the dualsplicing effects of TIA-RNA interactions.PLoS biology 8,e1000530,doi:10.1371/journal.pbio.1000530(2010);Konig,J.等人,iCLIP reveals the function of hnRNPparticles in splicing at individual nucleotide resolution.Nature structural&molecular biology 17,909-915,doi:10.1038/nsmb.1838(2010))。
在一个示例性实施方案中,以较小的技术差异对小鼠胚胎干(ES)细胞进行了两个独立的RNA Hi-C测定(图8-12),其被称为ES-1和ES-2。为了控制由大蛋白质复合体组装的RNA(Zhao,J.等人Genome-wide identification of polycomb-associated RNAs by RIP-seq.Molecular cell 40,939-953,doi:10.1016/j.molcel.2010.12.011(2010))或细胞器而不是单个蛋白质,使用在核苷酸和蛋白质之间以及在蛋白质之间形成共价键的两个交联剂(甲醛和EGS)产生RNA Hi-C文库(ES间接)(Nowak,D.E.,Tian,B.&Brasier,A.R.Two-stepcross-linking method for identification of NF-kappaB gene network bychromatin immunoprecipitation.BioTechniques 39,715-725(2005);Zeng,P.Y.,Vakoc,C.R.,Chen,Z.C.,Blobel,G.A.&Berger,S.L.In vivo dual cross-linking foridentification of indirect DNA-associated proteins by chromatin immunoprecipitation.BioTechniques 41,694,696,698(2006))。另一个文库由小鼠胚胎成纤维细胞(MEF)产生,为生物信息学质量评估提供了又一个数据集(图13)。证实每个文库含有期望形式(RNA1-接头-RNA2)和长度的RNA构建体(图1B)。对每个文库测序,平均得到4730万个双端读段,其中大约1510万个非冗余双端读段代表期望的嵌合形式(图1C)。
创建了一组生物信息学工具(RNA-HiC-工具)来分析和显现RNA Hi-C数据(图14-15)。RNA-HiC-工具自动化分析步骤,包括去除PCR重复,分离复用样品,鉴定接头序列,分离连接点读段,召集(call)相互作用RNA,进行统计学评估,分类RNA相互作用类型,召集相互作用位点和分析RNA结构(方法)。它还为RNA相互作用物组和RNA内的邻位位点提供可视化工具(图16)。
比较四种RNA Hi-C文库。通过FPKMs的相关性(针对接头的左侧和右侧的读段片段分别计算)判断ES-1和ES-2最相似,接着是ES-间接,然后是MEF(图13)。从ES-1和ES-2鉴定的相互作用的RNA对表现出强重叠(p值<10-35,置换检验)。在MEF中鉴定的相互作用与ES样品中的那些没有显著的重叠(每个重叠的p值=1,置换检验)。例如,Trim25RNA的3'UTR与小核仁RNA(snoRNA)Snora1之间的相互作用分别由ES-1和ES-2样品中的24个和22个双端读段支持,但在ES-间接或MEF文库中未检测到(图1C)。包括Snora1在内的被鉴定为与mRNA相互作用的多达172个snoRNA由AGO HITS-CLIP(图1C)和小RNA测序数据支持(u,P.etal.Spatiotemporal clustering of the epigenome reveals rules of dynamic generegulation.Genome research 23,352-364,doi:10.1101/gr.144949.112(2013))(图1C,图17-19),表明大多数表达的snoRNA基因被酶促加工成miRNA样小RNA并与RISC复合体中的mRNA相互作用(Ender,C.等人,A human snoRNA with microRNA-likefunctions.Molecular cell 32,519-528,doi:10.1016/j.molcel.2008.10.017(2008);Brameier,M.,Herwig,A.,Reinhardt,R.,Walter,L.&Gruber,J.Human box C/D snoRNAswith miRNA like functions:expanding the range of regulatory RNAs.NucleicAcids Res 39,675-686,doi:10.1093/nar/gkq776(2011))(文本S1)。
然后需要知道其他RNA是否可以经历与miRNA生物发生相似的过程,并且也与mRNA相互作用。为此,RNA Hi-C鉴定的相互作用的RNA与通过小RNA测序(小RNA-seq)发现的那些和与ES细胞中的AGO蛋白(HITS-CLIP)结合的那些相交(S.W.Chi,J.B.Zang,A.Mele,R.B.Darnell,Argonaute HITS-CLIP decodes microRNA-mRNA interaction maps.Nature460,479(Jul 23,2009))。小RNA-seq选择性测序,“miRNA和具有由Dicer或其他RNA加工酶的酶促裂解产生的3'羟基的其他小RNA”(Illumina,“TruSeq(R)Samll RNA SamplePreparation Guide”(2014))。除了miRNA之外,包括snoRNA、假基因RNA、mRNA UTR等其他RNA类型也有贡献于小RNA池,并附着于AGO(图17A)。此外,大部分RNA Hi-C鉴定的相互作用的RNA对共同出现在AGO HITS-CLIP数据中(图18)。该数据表明存在由DICER或其他RNA加工酶消化并被并入RISC复合体的非miRNA。
为了阐明哪些类型的非miRNA基因最可能经历miRNA样生物发生,RNA Hi-C鉴定的RNA-RNA相互作用经受以下过滤:
1.相互作用涉及一个mRNA(称为靶)和一个其他RNA(源RNA);
2.通过酶裂解将源RNA加工成小RNA(小RNA-seq中的FPKM>0);
3.靶RNA和源RNA都出现在AGO HITS-CLIP(两个RNA的FPKM>0);
4.源RNA和靶RNA的RNA Hi-C鉴定的相互作用位点表现出强的碱基配对(p值<0.05,Wilcoxon符号秩检验,比较每一双端读段的RNA1和RNA2序列之间的结合能与随机改组的核苷酸序列的结合能)。
总共302个RNA-RNA相互作用通过了这些过滤。这些相互作用中大多数(79%)的源RNA是snoRNA(表2)。因此,snoRNA优先进行功能分析。
表2.miRNA样RNA。通过(1)涉及mRNA(称为靶)和另一个RNA(称为源RNA),(2)源RNA存在于小RNA-seq中,(3)靶RNA和源RNA出现在AGO HITS-CLIP中,(4)源RNA和靶RNA的RNAHi-C鉴定的相互作用位点表现出强的碱基配对,过滤RNA Hi-C鉴定的RNA-RNA相互作用。第2列列出了满足标准1-3的相互作用位点的数量。第3列列出了满足标准1-4的相互作用位点的数量。第4列列出了满足标准1-4的相互作用位点的数量。
Figure GDA0002048945670000361
假设大量snoRNA被酶促加工成miRNA样短RNA并与mRNA相互作用。这一假设得到了919个RNA Hi-C鉴定的snoRNA-mRNA相互作用的支持,其中mRNA和snoRNA都被AGO结合。此外,AGO结合的snoRNA及其相互作用的mRNA在ES细胞向中内胚层的指导分化期间显示出反相关表达变化(P.Yu等人,Spatiotemporal clustering of the epigenome revealsrules of dynamic gene regulation.Genome research 23,352(Feb,2013))(图17B)。另外,与没有AGO结合的相比,AGO结合的snoRNA及其靶mRNA表现出更强的碱基配对(图17C)。最后,用作参考地,从snoRNA处理的小RNA与mRNA的UTR区域相互作用。在涉及RNA-RNA相互作用的497个snoRNA中,243个与UTR区域相互作用,其中在小RNA-seq中检测到223个(92%),表明经历了酶切(图17D)。相比之下,与非UTR区相互作用的其他254个snoRNA含有较少的(55%)小RNA。此外,相比于与非UTR相互作用的snoRNA,两倍以上的UTRO相互作用的sno-siRNA是AGO结合的(p值<2.2-16,卡方检验)。例如,Snora14RNA靶向Mcl1mRNA的3'UTR(图19A)。Snora14RNA(110-135nt)上的相互作用位点与酶处理的小RNA以及AGO结合区精确重叠。Snora14RNA的酶促处理部分完全位于发夹环的一侧(图19B),并且对Mcl1UTR上的靶位点显示出强结合亲和力(-60kCal/mol)。经处理的Snora14RNA的表达与Mcl1mRNA的表达反相关(图19C)。总之,该数据表明大量小干扰RNA源自snoRNA基因,其与ES细胞中的900个以上的mRNA相互作用。
合并ES-1和ES-2文库以推断ES细胞中的RNA相互作用物组。这些数据包括454万个非重复的双端读段,将其明确地分成两个RNA片段,两个片段都独特地映射到基因组(mm9)。鉴定了46,780个RNA间相互作用(FDR<0.05,Fisher精确检验)(图20)。mRNA-snoRNA相互作用是最丰富的类型,尽管还检测到数千个mRNA-mRNA和数百个lincRNA-mRNA,假基因RNA-mRNA,miRNA-mRNA相互作用(图21)。这可能是任何生物体中描述的第一个RNA相互作用物组。因此,对于整个实验和分析程序该模拟表明了大约66%的灵敏度和93%的特异性(文本S2)。
RNA Hi-C的模拟分析
1.1数据合成。为了评估RNA Hi-C的灵敏度和特异性(包括其实验和计算程序),进行了模拟分析。模拟了通过计算模拟数据生成过程的1,000,000个双端读段。用于模拟的参数是从实际数据中得出的。模拟数据生成过程如下。
对于每个双端读段(2×100个碱基):
1.选择来自具有相同概率的四个样品条形码的样品条形码,并将其与6nt随机条形码串联(如图15A所示)。
2.分别以[0.1、0.3、0.1、0.3、0.2]概率将该双端读段分配到[仅接头、无接头、RNA1-接头、接头-RNA2、RNA1-接头-RNA2]的列表中的一种类型的cDNA(如图15C所示)。
3.如果将此读段对分配给含接头的类型,则以相等的概率随机选择1或2个接头。应注意,少量的含接头的读段对包含2个接头;使用相等的概率是估计最坏情况的保守选择。
4.根据步骤2中确定的cDNA类型,产生RNA1和RNA2部分的序列。对于RNA1和RNA2两者,
a.由l~Unif(15,150)模拟其长度,
b.基于以下概率从[“miRNA”、“mRNA、“lincRNA”、“snoRNA”、“snRNA”、“tRNA”]中选择RNA类型:
i.如果长度l<50,使用[0.2、0.2、0.1、0.2、0.2、0.1],
ii.否则,使用[0.05、0.4、0.2、0.2、0.1、0.05];
c.根据Ensembl采集的RNA型(释放67,小鼠NCBIM37)随机选择一种RNA,
d.从所选RNA随机取长度l的序列片段。
5.串联由步骤1、3、4生成的条形码、接头和RNA片段,产生合成cDNA序列。
6.如果步骤5中的合成cDNA为100bp以上,则分别从正义链和反义链的合成cDNA的两端取100个碱基。
7.如果步骤5中的合成cDNA短于100bp,则将其正义链和反义链分配为正向读段和反向读段,并将P5和P7引物序列连接至两个读段。
8.在每个碱基上以0.01的比率模拟测序误差(N.J.Loman等人,Performancecomparison of benchtop high-throughput sequencing platforms.Naturebiotechnology 30,434(May,2012))。
步骤1-5根据实验程序模拟了cDNA序列,步骤6-8基于该cDNA序列模拟了双端读段。保持模拟的相互作用的RNA对,以及每个部分(RNA1、接头和RNA2,如果适用)的cDNA类型和长度,用于与计算预测进行比较。
1.2.评估中间结果和最终结果。合成数据用于评估两个中间分析步骤以及最终预测的灵敏度和特异性。
首先,比较预测的cDNA长度(RNA-HiC-工具的步骤3的输出)与实际长度(表3)。该步骤“3.在测序文库中回收cDNA”将每个cDNA根据它们的长度分配为四种类型,即类型1(<100bp);类型2(100~200bp);类型3(>200bp);类型4(未知)(图32)。该算法实现了对每种类型的预测的高灵敏度和特异性。只有很少(0.58%)的短于200bp的cDNA预测为超过200bp。这些错误是由于正向和反向读段的小重叠(通常在0到5bps之间),这无法由局部比对所检测到。
表3.预测和真实cDNA长度范围的比较。将每种类型的预测cDNA(第1-4列)的计数与其真实类型(行)进行比较。
Figure GDA0002048945670000391
当预测长度短于200bp(类型1和类型2)时,可以预测精确的长度。在这些情况下,预测长度通常与模拟cDNA的长度精确匹配(图33A)。
接下来,比较每个cDNA的预测嵌合构型(RNA-HiC-工具的步骤4的输出)与合成构型。在步骤“4.解析嵌合cDNA”中,基于接头序列的存在,该算法将cDNA分为五类。该算法对“RNA1-接头-RNA2”形式的cDNA灵敏度达到99.89%,特异性为95.82%(表4)。
表4.预测的和真实的cDNA构型的比较。将预测构型(列)的cDNA数与其真实构型(行)进行比较。
Figure GDA0002048945670000401
最后,比较预测的和模拟的RNA-RNA相互作用。模拟数据集包含200,200个嵌合RNA对,其中检测到131,571对RNA(灵敏度=65.72%,特异性=92.57%,图33C)。还分别计算了每种类型RNA的相互作用的灵敏度和特异性(图33C)。无论参与的RNA类型如何,该方法显示很少的假阳性(特异性≥90%)。不涉及转座子RNA或snRNA的相互作用比那些涉及的显示出更少的假阴性。这是由于转座子和snRNA序列的重复性质。最严重的情况涉及LINE RNA,其中灵敏度下降到52%。据保守估计,涉及转座子RNA的相互作用约有一半可能被该程序错过。估计约2/3至3/4的不涉及转座子RNA的相互作用将被鉴定出来。
每个RNA的相互作用的伴侣的数量是非常不平衡的。ES细胞RNA相互作用物组是无标度网络,其度分布符合幂定律(P(k)~k,γ=3)(图22A)(Barabasi,A.L.&Oltvai,Z.N.Network biology:understanding the cell's functional organization.Naturereviews.Genetics 5,101-113,doi:10.1038/nrg1272(2004))。为了查看无标度性质是否由少量高度连接的snoRNA、snRNA和tRNA驱动,将它们从网络中移除。仅由mRNA、lincRNA、miRNA、假基因RNA和反义RNA组成的相互作用保持无标度(图22B)。许多mRNA、假基因RNA和lincRNAs作为中枢出现(具有大量连接的节点,图1D)。最大的mRNA中枢是Suv420h2,其与21个mRNA和2个lincRNA相互作用。最大的lincRNA中枢是Malat1,其与4个mRNA相互作用,包括Slc2a3的mRNA中枢。
大多数(83.05%)的相互作用的RNA显示重叠的RNA Hi-C读段(图2A),表明相互作用通常集中在RNA的特定区段。鉴定重叠阅读片段的“峰”,称为“相互作用位点”(图2B)。相互作用位点不仅出现在miRNA(整个成熟miRNA)mRNA、lincRNA上,而且也出现在假基因和转座子RNA上(图2C)。在L1、SINE、ERVK、MaLR和ERV1转座子RNA中存在超过2000个相互作用位点(图23),表明它们与其他RNA频繁相互作用(Shalgi,R.,Pilpel,Y.&Oren,M.Repressionof transposable-elements-a microRNA anti-cancer defense mechanism?Trends ingenetics:TIG 26,253-259,doi:10.1016/j.tig.2010.03.006(2010);Yuan,Z.,Sun,X.,Liu,H.&Xie,J.MicroRNA genes derived from repetitive elements and expanded bysegmental duplication events in mammalian genomes.PloS one 6,e17666,doi:10.1371/journal.pone.0017666(2011))。
推测碱基互补是否被不同类型的RNA-RNA相互作用利用。一对相互作用的RNA的杂交能通过连接片段对(RNA1,RNA2)的平均杂交能评估(Bellaousov,S.,Reuter,J.S.,Seetin,M.G.&Mathews,D.H.RNAstructure:web servers for RNA secondary structureprediction and analysis.Nucleic Acids Res 41,W471-W474,doi:Doi 10.1093/Nar/Gkt290(2013)),并与碱基的随机改组产生的对照RNA的杂交能进行比较。互补碱基在几乎所有类型的RNA-RNA相互作用中都是优选的,并且在转座子RNA-mRNA、mRNA-mRNA、假基因RNA-mRNA,lincRNA-mRNA、miRNA-mRNA相互作用(p值<2.4-18)中最显著,但是在LTR-假基因RNA相互作用中没有观察到(图2D,图24)。该数据表明一种新的机制,其中碱基配对有助于长RNA中序列特异性的转录后调控。
如果这些RNA-RNA相互作用是序列特异性的,则RNA相互作用位点应该处于选择性压力之下。发现种间保守水平(Cooper,G.M.等人,Distribution and intensity ofconstraint in mammalian genomic sequence.Genome research 15,901-913,doi:10.1101/gr.3577405(2005))在相互作用位点处强烈增加,保守峰精确地定位两个RNA片段的连接点(图2D)。当与lincRNA、假基因RNA、转座子RNA或其他mRNA相互作用时,mRNA上的相互作用位点比其余转录物更保守(图25)。lincRNA和假基因RNA上的相互作用位点在lincRNAs-mRNA、假基因RNA-mRNA和假基因RNA-转座子RNA相互作用中表现出增加的保守性(图25)。相互作用位点上增加的保守性不是由于外显子-内含子的边界(图26)。总之,碱基互补在长RNA的相互作用中广泛传播,并被进化选择。这表明了基因组中编码的新型调控信息。
尽管RNA Hi-C最初设计用于映射分子间相互作用,但是发现RNA Hi-C揭示了RNA二级结构和三级结构。以上分析均基于分子间读段。通过阅读分子内读段,可以了解RNA结构的几个方面。首先,通过RNase I消化位点的密度(连接前应用RNase I消化,参见图1A中的步骤2,图27)鉴定RNA的单链区域的足迹。第二,通过邻位连接捕获每个RNA的空间邻位位点(图1A中的步骤5)。总共67,221个读段对映射到各个基因,但不在彼此或相同的链上的2,000bp内,因此是从分子内切割和连接产生的(图28A)。通过将测序读段中的RNA1和RNA2的取向与其在基因组中的取向进行比较,每个切割和连接的序列可以明确地分配到两个结构类别之一(图3A)。例如,从Snora73转录物产生277个切割和连接的序列(图3B)。RNase I消化位点的密度(图3C)强烈地预测了RNA的单链区域(热图,图3E)。检测到6对邻位位点(圆,图3D)。每对由三个以上的具有重叠连接位置的切割和连接的序列支持(黑点,图3B)。六个邻位位点对中的五个在通常接受的二级结构中物理上接近(箭头,图3E)。在Snora14上,根据测序推断的二级结构,一对推断的邻位位点出现较远(图29)。然而,核糖核蛋白DYSKERIN在体内弯曲Snora14转录物(Kiss,T.,Fayet-Lebaron,E.&Jady,B.E.Box H/ACA smallribonucleoproteins.Molecular cell 37,597-606,doi:10.1016/j.molcel.2010.01.032(2010)),使两个假尿苷酸化环彼此接近,如通过切割和连接的序列所预测的(图3F)。结构信息甚至可以在新的转录物和mRNA的一些部分得到(图30-31)。迄今为止,解析任何单个RNA的空间邻位碱基仍然是一项艰巨的挑战。RNA Hi-C为数千个RNA提供分子内空间邻位信息。此外,每个RNA的单链足迹同时映射。因此,RNA Hi-C大大扩大了我们检测RNA结构的能力。
映射RNA相互作用的关键是选择。在RNA Hi-C中引入可选择的接头使得能够无偏倚地选择相互作用的RNA,使得可以全局地映射RNA相互作用物组。ES细胞中每个RNA的相互作用伴侣的数量是非常不平衡的,导致无标度的RNA网络。长RNA之间的相互作用经常使用一小部分转录物。类似于蛋白质相互作用域,提出了RNA相互作用位点的概念。RNA相互作用位点利用碱基配对来促进长RNA的相互作用,提示了一种新型的反式调控序列。这些反式调控序列比转录物的其他部分在进化上更加保守。RNA结构也可以通过RNA Hi-C进行映射。本文提供了其中RNA被蛋白质弯曲的示例性实施方案,并且通过RNA Hi-C的分子内读段显示这种三级结构。因此,这种方法和数据应该大大有助于将来对RNA功能和调控作用的调查。
软件访问
RNA-HiC-工具软件可在http://systemsbio.ucsd.edu/RNA-Hi-C获得,其公开内容通过引用整体并入本文。
材料和方法
细胞培养
未分化小鼠E14ES细胞在无饲养条件下培养。将ES细胞接种在明胶包被的培养皿上,并在补充有15%胎牛血清(FBS;Gemini Gemcell)、0.055mM 2-巯基乙醇(Sigma)、2mMGlutamax(GIBCO)、0.1mM MEM非必需氨基酸(GIBCO),5,000U/ml青霉素/链霉素(GIBCO)和1,000U/ml LIF(Millipore)的杜氏改良的Eagle培养基(DMEM;GIBCO))中培养。将细胞保持在37℃和5%CO2的培养箱中。
在15cm培养皿中在补充有15%胎牛血清(FBS;Gemini Gemcell)、0.055mM2-巯基乙醇(Sigma)、2mM Glutamax(GIBCO)、0.1mM MEM非必需氨基酸(GIBCO)、5,000U/ml青霉素/链霉素(GIBCO)的DMEM(GIBCO)中培养小鼠胚胎成纤维细胞(MEF)。MEF也保持在37℃和5%CO2的培养箱中。
将果蝇S2细胞(Invitrogen)保持在28℃的无CO2培养箱中的15cm平板中的补充有10%热灭活的胎牛血清(FBS;Gemini Gemcell)和5ml 1:100青霉素-链霉素的施耐德果蝇培养基(Schneider's Drosophila Medium,GIBCO)中。
组织解剖和准备
小鼠处理由加利福尼亚大学圣地亚哥分校的机构动物护理和使用委员会批准。成年雌性(C57BL/6J背景)通过颈脱位处死并立即收集全脑,用冰冷PBS冲洗三次并快速冷冻。使用研钵和研杵将冷冻的全鼠脑组织在液氮中研磨成细粉末。将组织粉末快速转移到干冰床上的陪替氏培养皿中,并在UV交联剂(254nm)中以400mJ/cm2在干冰上照射三次,每次照射之间轻轻涡旋。立即将交联的粉状组织溶解并进行如所述的RNA Hi-C程序。
RNA Hi-C方法概述
RNA Hi-C设计为:(i)以无偏倚方式在体内捕获相互作用的RNA,而不遗传地或瞬时地引入外源分子;(ii)允许严格去除细胞裂解后形成的非生理关联(S.Mili,J.A.Steitz,RNA 10,1692(2004));(iii)选择邻位连接的嵌合RNA;(iv)允许相互作用的RNA的明确的生物信息学鉴定。这些目标可以通过以下方式实现:(i)所有RNA-蛋白质复合体(包括蛋白质和核酸的复合体,含核酸的中间体蛋白质或结合至核酸的蛋白质复合体,其中核酸为RNA)在链霉亲和素珠中的交联和固定,并通过变性条件去除非特异性结合;(ii)连接生物素标记的RNA接头以促进嵌合RNA构建体的选择性富集;(iii)使用接头序列从测序读段对中明确分离相互作用的RNA。
步骤1:将RNA与蛋白质交联
UV照射用于在光活性核苷酸碱基和氨基酸之间形成共价键。UV照射在RNA内产生高反应性、短寿命的状态的核苷酸碱基,仅在其接触点与氨基酸形成共价键,而没有可能引起构象扰动的附加元件(I.G.Pashev,S.I.Dimitrov,D.Angelov,Trends in BiochemicalSciences 16,323(1991))。254nm处的UV照射不会由于氨基酸吸收的不同波长而促进蛋白质-蛋白质的交联。具体地,将细胞在冰冷的PBS中洗涤两次,并在冰上冰冷的PBS中以400mJ/cm2的UV-C(254nm)照射。通过刮擦收获细胞,并在4℃下以1,000×g离心5分钟来沉淀细胞。细胞沉淀物在液氮中快速冷冻并储存在-80℃。
产生RNA Hi-C文库(ES间接),其中蛋白质-蛋白质复合体也是交联的。这是为了捕获通过蛋白质相互作用汇集在一起的RNA。以先前验证的参数实施体内双重交联法(Illumina,“TruSeq(R)Samll RNA Sample Preparation Guide”(2014);P.Yu等人,Spatiotemporal clustering of the epigenome reveals rules of dynamic generegulation.Genome research 23,352(Feb,2013);N.J.Loman等人,Performancecomparison of benchtop high-throughput sequencing platforms.Naturebiotechnology 30,434(May,2012))。简言之,首先用室温PBS冲洗细胞,并在室温下在摇床上用新鲜制备的PBS中的1.5mM乙基甘醇二(琥珀酰亚胺基琥珀酸酯)(EGS,Pierce ProteinResearch Products,Rockford,Illinois)处理细胞45分钟。用甲醛(Pierce ProteinResearch Products,Rockford,Illinois)进一步处理细胞至终浓度为1%,并在室温下摇动孵育20分钟。加入甘氨酸至终浓度为250mM,并在室温下孵育10分钟以淬灭交联反应。然后将细胞用PBS在室温下洗涤一次,刮掉,在4℃下以1,000×g沉淀5分钟,在液氮中快速冷冻并储存在-80℃。
进行对照实验(ES间接),其中蛋白质-蛋白质复合体也是交联的。这为通过蛋白质相互作用汇集在一起的RNA提供对照。因此,以先前验证的参数实施体内双重交联法(S.K.Kurdistani,M.Grunstein,Methods 31,90(2003);D.E.Nowak,B.Tian,A.R.Brasier,BioTechniques 39,715(2005);J.Zhang等人,Methods 58,289(2012))。简言之,首先用室温PBS冲洗细胞,并在室温下在摇床上用新鲜制备的PBS中的1.5mM乙基甘醇二(琥珀酰亚胺基琥珀酸酯)(EGS,Pierce Protein Research Products,Rockford,Illinois)处理细胞45分钟。用甲醛(Pierce Protein Research Products,Rockford,Illinois)进一步处理细胞至终浓度为1%,并在室温下摇动孵育20分钟。加入甘氨酸至终浓度为250mM,并在室温下孵育10分钟以淬灭交联反应。然后将细胞用PBS在室温下洗涤一次,刮掉,在4℃下以1,000×g沉淀5分钟,在液氮中快速冷冻并储存在-80℃。
步骤2:细胞裂解、RNA片段化和蛋白质生物素化
将储存在-80℃的大约6×108个交联的细胞在冰上融化并重悬于~3体积的裂解缓冲液(50mM Tris-HCl pH7.5,100mM NaCl,0.1%SDS,1%IGEPAL CA-630,0.5%脱氧胆酸钠,1mM EDTA,补充有1:20体积的无EDTA完全蛋白酶抑制剂混合物(Roche))。在冰上进行裂解20分钟。通过在4℃下以20,000×g离心10分钟除去细胞碎片和不溶性染色质。收集上清液,并用浓度为10μl TURBO DNase/ml裂解物的TURBO DNase(Invitrogen)在37℃处理20分钟。通过每ml裂解物加入10μl的1:100稀释的RNase I(NEB)并在37℃下孵育3分钟,将RNA消化成~1000-2000nt(ES-1)或~1000nt(ES-2)片段。在RNase I处理后,立即将裂解物转移至冰中至少5分钟。RNase I和基于超声处理的片段化均留下与RNA连接不相容的5'-OH和3'-P末端,抑制不需要的RNA连接。为了停止DNase消化,添加EDTA(Ambion)至25mM终浓度,并在4℃下旋转孵育混合物15分钟。片段化的双重交联(ES间接)裂解物如下制备:在冰上裂解20分钟后,悬浮液通过在下述设置下的超声处理(Covaris E220)直接进行片段化:4℃下,20分钟,具有5%的占空比,峰值入射功率为140瓦,每次爆发(burst)200个循环。
对于跨物种实验(Fly-Mm),分别裂解约3×108个E14mES细胞和3×108个果蝇S2细胞,然后在蛋白质生物素化之前将其混合。
为了解离松散结合的蛋白质,加入终浓度500mM的NaCl,并将溶液在4℃下旋转孵育10分钟。为了进一步解离蛋白复合体和非交联RNA并停止RNase I的活性,加入SDS至终浓度0.3%,并在65℃下在750r.p.m下振荡孵育混合物15分钟。使溶液混合物冷却至室温后,通过加入裂解物1:5体积的25mM(13.56mg/ml)EZlink碘乙酰基-PEG2-生物素(IPB)(PierceProtein Research Products)并在室温下将混合物在黑暗中旋转90分钟来使半胱氨酸残基生物素化。通过加入DTT至5mM浓度并在室温下孵育15分钟,淬灭生物素化反应。为了中和SDS,加入Triton X-100(Sigma)至2%终浓度,并在37℃下孵育15分钟。将裂解物样品在20kD截留的Slide-A-Lyzer透析盒(Pierce Protein Research Products,Rockford,Illinois)中在2升透析缓冲液(20mM Tris-HCl pH 7.5,1mM EDTA)中室温下透析以去除过量的生物素。透析缓冲液至少更换三次,每2小时一次。透析后,将裂解物转移到15ml管中。
步骤3:珠上固定化
蛋白质-RNA复合体以低珠表面密度固定在链霉亲和素包被的珠上(800μl MyOne链霉亲和素T1珠,相当于200cm2表面积)。在固体表面上固定化的优点包括:(i)减少非交联寡核苷酸之间的随机分子间连接(R.Kalhor,H.Tjong,N.Jayathilaka,F.Alber,L.Chen,Nat Biotech 30,90(2012)),(ii)允许有效的缓冲液交换,(iii)通过严格洗涤去除非生理相互作用。
800μl MyOne T1珠用PBST(含有0.1%Tween-20的PBS)洗涤三次,重新悬浮于800μl相同的缓冲液中并转移到生物素化的裂解物中。将珠-裂解物悬浮液在室温下旋转45分钟。在该孵育期间,通过加入相等摩尔数的DTT并在室温下孵育至少30分钟来制备200μl中和的25mM IPB。使用磁性支架将珠固定,并将大部分上清液吸出,留下4ml上清液。将珠在剩余的溶液中重悬,然后加入200μl中和的IPB。IPB用于将固定化后过量的未结合的链霉亲和素饱和,过量的未结合的链霉亲和素可干扰涉及生物素标记的RNA接头的后续步骤。为了除去非共价连接至蛋白质或经非特异性蛋白质-蛋白质相互作用的不需要的RNA(S S.C.Kwon等人,Nat Struct Mol Biol 20,1122(2013);A.Castello et al.,Nat.Protocols 8,491(2013)),4℃下将珠用冰冷的变性洗涤缓冲液I(50mM Tris-HCl pH7.5,0.5%十二烷基硫酸锂,500mM氯化锂,7mM EDTA,3mM EGTA,5mM DTT)旋转洗涤三次,每次5分钟。然后将珠用冰冷的高盐洗涤缓冲液II(50mM Tris-HCl pH7.5,1M NaCl,0.1%SDS,1%IGEPAL CA-630,1%脱氧胆酸钠,5mM EDTA,2.5mM EGTA,5mM DTT),洗涤缓冲液III(1×PBS,1%Triton X-100,1mM EDTA,1mM DTT)和PNK洗涤缓冲液(20mM Tris-HCl pH 7.5,10mM MgCl2,0.2%Tween-20,1mM DTT)洗涤;各缓冲液在第二次洗涤期间在4℃旋转5分钟两次。
步骤4:生物素-标记的RNA接头的连接
接下来,将生物素标记的RNA接头(5'-rCrUrArG/iBiodT/rArGrCrCrCrArUrGrCrArArUrGrCrGrArGrGrA)(SEQ ID NO:1)连接至RNA的5'末端。生物素标记的接头充当用于富集连接的RNA的选择标记;其也勾画出明确的边界,以明确地分离覆盖连接接合点的任何测序读段。RNA接头的5'末端暂时“阻止”连接,以避免接头环化或串联。这是通过合成含5'-OH基团的接头而实现的,该基团与连接不相容但可以通过磷酸化被“再活化”。然而,RNase I留下与接头连接不相容的5'-OH末端,因此5'末端首先用T4多核苷酸激酶(PNK),3'磷酸酶减(NEB)进行磷酸化。野生型T4PNK由于其额外的3'磷酸酶活性而无法使用,其额外的3'磷酸酶活性将RNA的3'末端从3'-P修饰为3'-OH,使其易于自连接。
这通过去除洗涤缓冲液并随后将珠重悬于100μl PNK反应混合物(73μl无RNase的水,10μl 10×PNK缓冲液,10μl 10mM ATP,5μl 10U/μl T4PNK(3'磷酸酶减)(NEB),2μlRNAsin Plus(Promega)),并在37℃下孵育1小时,每2分钟在1,200rpm下间歇振荡5秒来实现。用洗涤缓冲液I、II、III和PNK洗涤珠,每次缓冲液在第二次洗涤中在4℃旋转5分钟两次。使用冰冷的洗涤液来消除任何可磷酸化RNA接头诱导其可能连接至RNA的3'末端的剩余的PNK。洗涤缓冲液除去后,通过加入含有2μl RNAsin Plus(Promega),16μl 10mM ATP,16μl 10×RNA连接酶缓冲液,16μl 1mg/ml BSA,30μl 20μM生物素标记的接头,64μl 50%PEG8000(NEB),16μl 10U/μl T4RNA连接酶1(NEB)的160μl RNA连接反应混合物,将生物素标记的RNA接头连接至RNA5'末端。连接在37℃下进行1小时,在16℃下进行过夜,每2分钟在1,200r.p.m下间歇振荡15秒。加入BSA以增强T4RNA连接酶的活性并防止珠聚集。PEG用于通过增加供体和受体末端的浓度来增强分子间连接(D.B.Munafó,G.B.Robb,RNA 16,2537(2010))。
步骤5:邻位连接
接下来,将珠用冰冷的洗涤缓冲液II洗涤两次,用冰冷的洗涤缓冲液III和PNK洗涤缓冲液洗涤一次。为了准备邻位连接,首先使用T4PNK的3'磷酸酶活性对RNA3'-末端进行脱磷酸化,留下3'-羟基(I.Huppertz等人,Methods 65,274(2014))。弃去洗涤缓冲液后,将珠与73μl无RNase的水、20μl 5×PNK缓冲液pH6.5(350mM Tris-HCl pH6.5,50mM MgCl2,10mM DTT)、5μl 10U/μl T4PNK(3'磷酸酶减)(NEB)、2μl RNAsin Plus(Promega)混合,并在37℃下孵育20分钟,每2分钟在1,200r.p.m.下间歇振荡5秒。将珠用PNK洗涤缓冲液洗涤一次,并将生物素标记的接头的5'-末端在100μl PNK反应混合物(73μl无RNase的水,10μl10×PNK缓冲液,10μl 10mM ATP,5μl 10U/μl T4PNK(3'磷酸酶减)(NEB),2μl RNAsin Plus(Promega))中在37℃下间歇振荡1小时进行磷酸化。在磷酸化后,将珠在PNK洗涤缓冲液中洗涤两次,然后在极度稀释的条件下在15ml总体积反应物(8.9ml无RNase的水,1.5ml的10mM ATP,1.5ml的10×RNA连接酶缓冲液,75μl 20mg/ml BSA(NEB),25μl 1M DTT,2.25ml100%DMSO,0.75ml 10U/μl T4RNA连接酶1(NEB))中进行邻位连接以最小化复合体间连接。邻位连接在37℃下进行1小时,并在16℃下进行过夜,持续旋转。加入二甲基亚砜(DMSO)至15%(v/v)终浓度以刺激高度结构化的RNA的连接。
步骤6.期望的RNA-RNA相互作用的选择和提取和反转录
第二天,通过加入EDTA至终浓度为25mM并在4℃下旋转15分钟来停止连接,以防止当珠集中在管壁上时发生分子间连接。将珠在PBST中洗涤一次。在100μl洗脱缓冲液(100mMTris-HCl pH7.5,50mM NaCl,10mM EDTA,1%SDS,10mM DTT,2.5mM D-生物素(Invitrogen))中,通过加热至95℃5分钟从链霉亲和素珠中洗脱两次蛋白质-RNA复合体。将所得溶液合并,与50μl 800U/ml蛋白酶(NEB)混合,并在55℃下孵育2小时。然后将混合物补充无RNase的水至终体积为400μl。RNA在400μl苯酚:氯仿:异戊醇(125:24:1,pH4.5)(Ambion)中提取,并在1000r.p.m下振荡的情况下在37℃下孵育20分钟。将混合物转移到2ml MaXtract高密度锁相凝胶管(Qiagen)中,并在室温下以16,000xg离心5分钟。通过向相同的MaXtract管中加入400μl氯仿并在室温下以16,000xg离心5分钟除去残留的苯酚。离心后,将水相转移到新管中,通过加入1:9体积的3M乙酸钠pH5.2、1.5μl glycoblue(Ambion)和1ml 1:1的乙醇:异丙醇并在-20℃孵育过夜,来析出RNA。通过在4℃下以21,000g离心30分钟使析出的RNA沉淀。弃去上清液后,将沉淀物用80%乙醇洗涤两次,风干直到乙醇完全蒸发。在此阶段纯化的RNA是没有接头的RNA(RNA1或RNA2),与接头连接但不与其它RNA邻位连接的RNA(5'-接头-RNA2),以及5'-RNA1-接头-RNA2形式的期望嵌合构建体的混合物。通过选择生物素标记的接头可耗尽RNA1。因此,非信息性的5'-接头-RNA2被耗尽以及在与T7外切核酸酶的下一个反应中。
6.1.从末端接头(5'-接头-RNA2)中除去生物素。这是基于T7外切核酸酶的RNaseH活性,其不仅从双链DNA除去5'单核苷酸,而且还在RNA-DNA杂合子的RNA链上发挥核酸外切活性(K.Shinozaki,O.Tuneko,Nucleic Acids Research 5,4245(1978))。互补的DNA寡核苷酸(5'-T*C*G*C*ATTGCATGGGCT ACTAGCAT(SEQ ID NO:2),其中*表示通过T7外切核酸酶阻断其消化的硫代磷酸酯键(T.T.Nikiforov,R.B.Rendle,M.L.Kotewicz,Y.H.Rogers,Genome Research 3,285(1994)),与RNA接头退火,在RNA接头和互补DNA链之间产生双链DNA-RNA杂合子。设计互补DNA链,以便在退火后,使RNA接头的5'末端嵌入,同时使DNA链的3'末端突出。然后将退火产物用T7外切核酸酶处理。
将RNA沉淀物重悬于17μl无RNase的水、4μl 10×NEBuffer4,7μl 100μM互补DNA寡核苷酸中。在70℃下变性5分钟,然后缓慢地(以-0.1℃/s)将温度缓降至60℃,在60℃下再孵育5分钟,然后缓慢冷却(-0.1℃/s)至37℃,并在37℃下孵育15分钟,来进行退火。然后将退火的混合物与8μl 10U/μl T7外切核酸酶(NEB)、4μl 1mg/ml BSA混合,并在37℃下孵育30分钟,在30℃下再孵育30分钟。使用TURBO DNase严格处理除去DNA寡核苷酸以及任何污染的基因组DNA:加入44μl无RNase的水、10μl 10×TURBO DNase缓冲液、6μl TURBO DNase(Invitrogen),所得混合物在37℃下孵育1小时。DNase处理的RNA通过如上所述的苯酚:氯仿萃取和乙醇沉淀来纯化。
6.2.ES-2,MEF样品中通过基于抗体的RNA-DNA杂合子的耗尽(GeneRead rRNADepletion Kit(Qiagen))来除去rRNA。根据制造商的说明书伴以下列修改除去rRNA。不通过RNeasy MinElute旋转柱清除耗尽的RNA,这些柱将去除短于200个核苷酸的RNA,通过严格的DNase处理除去过量的rRNA捕获探针。DNase处理的RNA也通过如上所述的苯酚:氯仿提取和乙醇沉淀来纯化。
6.3.RNA剪切。乙醇沉淀后,通过使用RNase III片段化试剂盒根据制造商的方案,将RNA片段化为最适用于Illumina HiSeq的测序的150-400bp的大小范围。通过2.2×SPRISelect珠(Beckman Coulter Genomics)纯化片段化的RNA并如上所述进行乙醇沉淀。
6.4.与反转录适配子连接。接下来,将RNA与用作RT反应的引物的3'反转录(RT)适配子(/5rApp/AGATCGGAAGAGCGGTTCAG/3ddC/(SEQ ID NO:3))连接。乙醇沉淀后,将RNA沉淀物重悬于20μl的连接反应混合物:1μl RNAsin Plus(Promega),2μl 10×RNA连接酶缓冲液,7μl 20μM预腺苷酸化L3-App适配子,8μl 50%PEG8000(NEB),2μl 200U/μl T4RNA连接酶2,截短的KQ(NEB)。将反应物在16℃孵育过夜。
6.5.反转录。连接后,通过2×SPRISelect珠(Beckman Coulter Genomics)纯化RNA,并在无RNase的水中洗脱。对于2μg的RNA描述以下RT反应,并且对于更高量的RNA相应地按比例增加。对于每个实验或重复,使用含有独特实验条形码序列的不同RT引物。每个RT引物具有5’-/5Phos/NNXXXXNNNNAGATCGGAAGAGCGTCGTGgatcCTGAACCGCTC TTCCGATCT(SEQID NO:4)的形式。根据该方案,每个测序读段对的第一个读段包含采用NNNNXXXXNN(SEQ IDNO:5)(来自RT引物的反向互补)的构型的条形码,其中N是用于去除PCR重复的随机6nt条形码(G.B.Loeb等人,Molecular cell 48,760(Dec 14,2012);Z.Wang等人,PLoS Biol 8,e1000530(2010);J.Konig等人,Nature structural&molecular biology 17,909(Jul,2010);S.W.Chi,J.B.Zang,A.Mele,R.B.Darnell,Nature 460,479(Jul 23,2009))。具有相同映射位置和随机条形码的任何两个双端读段将仅计数为一个。XXXX是用于多重测序的固定的4nt样品条形码(用于ES-1的AGGT,用于ES-2的CGCC,用于ES间接的CATT,用于MEF的CGCC)。任何两个4nt的样品条形码都有不同的三个核苷酸,以避免突变或测序错误引起的潜在混淆。
对于cDNA合成,将9μl RNA与1μl 10mM dNTP和1μl 50μM RT引物混合。将混合物在65℃下加热5分钟,并在冰中快速冷却至少2分钟。加入4μl 5×第一链缓冲液(Invitrogen),1μl DTT 0.1M,1μl RNasin Plus,1μl 10mg/ml T4基因32蛋白(NEB)。将所得混合物在50℃下孵育2分钟,然后加入反转录酶,以尽量减少引导错误。然后向溶液中加入2μl 200U/μl Superscript III反转录酶(Invitrogen)。然后将RT反应混合物在50℃孵育45分钟,55℃孵育20分钟,随后保持4℃。这里,为了维持RNA-cDNA杂合子,省略了反转录酶的热失活。
步骤7.嵌合RNA-DNA杂合子的生物素下拉
使用链霉亲和素-生物素亲和纯化来富集嵌合RNA-DNA杂合子。这种下拉是在第二次RNA片段化和反转录之后进行的,以便允许在读段对的一端大部分测序读段对覆盖RNA-接头或接头-RNA接合点。
具体地,50μl Myone C1珠(Invitrogen)通过用1×Tween B&W缓冲液(5mM Tris-HCl pH8.0,0.5mM EDTA,1M NaCl,0.05%Tween)洗涤两次,并用1×B&W缓冲液(5mM Tris-HCl pH 8.0,0.5mM EDTA,1M NaCl)洗涤一次来制备。然后将珠用100μl 2×B&W缓冲液(10mM Tris-HCl pH 8.0,1mM EDTA,2M NaCl)重悬。在与100μl C1珠悬浮液合并之前,将RT混合物补充无RNase的水至终体积为100μl,并在RT下孵育30分钟。将珠回收并用1×B&W缓冲液洗涤三次,然后转移到新管中,随后用TE缓冲液pH8.0洗涤一次。接下来,通过在37℃下在50μl RNase H洗脱混合物(39.5μl无RNase的水,5μl 10×RNase H反应缓冲液,0.5μl10%Tween-20,5μl 5U/μl RNase H(NEB))中完全消化RNA链1小时,从链霉亲和素珠释放cDNA链。使用磁力收集器在管壁上收集珠,并将上清液收集在新管中用于随后的操作。通过在70℃加热20分钟使RNase H失活。通过2.2×SPRISelect珠(Beckman Coulter Genomics)(v/v)纯化cDNA。
步骤8.测序文库的构建
考虑到UV诱导的交联位点有时会阻止反转录,导致缺少5'适配子的截短的cDNA(Y.Sugimoto等人Genome Biology 13,R67(2012)),采用了允许甚至从截短的cDNA构建测序文库的环化策略(I.Huppertz等人,Methods 65,274(2014))(图7)。RT引物含有适配子区域以通过Illumina PE PCR正向引物1.0(5'-AATGATACGGCGACCACCGAGATCTACACTCTTTCCCTACACGACGC TCTTCCGATCT)(SEQ ID NO:6)和PE PCR反向引物2.0(5'-CAAGCAGAAGA CGGCATACGAGATCGGTCTCGGCATTCCTGCTGAACCGCTCTTCCGATCT)(SEQ ID NO:7)引发PCR扩增,侧翼为BamHI限制性位点和测序条形码。
8.1.环化。通过CircLigase II(Epicenter)环化cDNA。简言之,在20μlCircLigase反应混合物(12μl无菌水,2μl CircLigase II 10×反应缓冲液,1μl 50mMMnCl2,4μl 5M甜菜碱,1μl 100U/μl CircLigase II(Epicenter))中将cDNA从SPRISelect珠洗脱,并在60℃下孵育2小时。通过将反应物在80℃下孵育10分钟使CircLigase II失活。
8.2.重线性化。将互补DNA寡核苷酸与RT引物退火,产生适合于BamHI限制性位点的短双链区。该策略还阻止BamHI对其他内源性BamHI限制性位点的活性。接下来,应用BamHI,产生在5'末端和3'末端具有适配子的线性cDNA,以引发随后的PCR扩增。接下来,将寡核苷酸退火混合物(43μl水,6μl10×FastDigest缓冲液(Fermentas),5μl 20μM Cut_oligo(5'-GTTCAGGATCCACGACGCTCTTC AAAA/3InvdT/)(SEQ ID NO:8)加入到CircLigaseII反应物中。加热至95℃2分钟,然后进行71个循环,每次20秒,从95℃开始并且在每个循环之后将温度降低1℃,降至25℃并保持在25℃,来进行退火。加入6μl FastDigest BamHI(Fermentas),并在37℃孵育30分钟。通过2×SPRISelect珠(Beckman Coulter Genomics)(v/v)纯化重线性化的cDNA,并在无核酸酶的水中洗脱。
8.3.第一次PCR预扩增和尺寸选择。首先使用截短型PCR引物(正向引物DP5,5’-CACGACGCTCTTCCGATCT(SEQ ID NO:9);反向引物DP3,5’-CTGAACCGCTCTTCCGATCT)(SEQ IDNO:10)),以少量循环(6个循环)进行第一次PCR预扩增单链cDNA。已经发现,通过在此阶段进行尺寸选择,最终的文库不容易被不期望的较小尺寸片段(引物二聚体,仅含有条形码和/或RNA接头的产物)污染。
使用以下温度在包含20μl NEBNext High-Fidelity 2×PCR Master Mix(NEB),各0.625μM的DP5/DP3引物的40μl反应物中进行六个循环的PCR:在98℃下初始变性1个循环30秒;6个循环的扩增:98℃下10秒、65℃30秒、72℃30秒;然后在72℃最后延伸5分钟;并保持在4℃。PCR产物通过1.8×SPRISelect珠(v/v)纯化,并使用E-gel EX 2%琼脂糖凝胶(Invitrogen)进行尺寸选择。从凝胶上切下150bp至350bp之间的DNA片段,并用MinElute凝胶提取试剂盒(Qiagen)纯化。
8.4.通过双链特异性核酸酶(DSN)方法(H.Yi等人,Nucleic Acids Research39,e140(2011))(ES-1,ES-间接)去除rRNA。为了减少来自ES-1和ES间接文库的rRNA cDNA,也使用截短的PCR引物DP5/DP3预扩增ss-cDNA。然而,通过1.8×SPRISelect珠(BeckmanCoulter Genomics)(v/v)纯化后,增加PCR循环数直到可获得80-100ng的cDNA。跳过通过琼脂糖凝胶的尺寸选择,因为该步骤将大大减少DNA的量。将从SPRISelect珠洗脱的DNA与4.5μl杂交缓冲液(2M NaCl,200mM HEPES,pH8.0)和无菌水(如果需要)混合至终体积为18μl。所得混合物在98℃变性2分钟,并在热循环仪上在68℃下再退火5小时。当反应混合物管仍然在热循环仪中时,将20μl 68℃预热的2×DSN缓冲液(Axxora)加入到反应混合物中,通过上下抽吸10次充分混合,并在68℃孵育该反应物10分钟。加入2μl 1U/μl DSN酶(Axxora),混合,并在68℃孵育25分钟以上。通过向反应混合物管中加入40μl 2×DSN终止液(Axxora)终止反应,充分混合并将管转移到冰上。然后使用1.8×SPRISelect珠纯化反应混合物。
8.5.最终PCR扩增。对使用全长PCR引物PE 1.0和2.0(Illumina)从先前步骤产生的DNA进行PCR扩增。通过用小等分DNA运行试验(pilots)PCR来仔细滴定PCR循环数以避免过度扩增。PCR产物通过1.8×SPRISelect珠(v/v)纯化并尺寸选择在250-550(120-420bp的嵌入加上~130bp,Illumina PE 1.0/2.0的组合长度)的片段。最终文库由Qubit(Invitrogen)和qPCR定量,经生物分析仪(Agilent Technologies)质量检测,并提交给Illumina HiSeq平台上的双端测序。
RNA Hi-C中使用的寡核苷酸序列
本方法中使用的定制设计的RNA和DNA寡核苷酸为:
生物素化的RNA接头(从IDT纯化的无RNase的HPLC):
5'-rCrUrA rG/iBiodT/rA rGrCrC rCrArU rGrCrA rArUrG rCrGrA rGrGrA-3'(SEQ ID NO:11)
含有RNA接头的互补DNA链(不含RNase的HPLC-纯化的,来自Sigma):
5'-T*C*G*C*ATTGCATGGGCTACTAGCAT-3'(SEQ ID NO:12)
预先腺苷酸化的RT适配子(无RNase的HPLC-纯化的,来自IDT):
5’-/5rApp/AGATCGGAAGAGCGGTTCAG/3ddC/(SEQ ID NO:13)
RT引物(由(I.Huppertz等人,Methods 65,274(2014))改编的)(不含RNase的HPLC纯化的,来自Sigma):
用于ES-1样品的RT引物:
5’-/5Phos/NNAGGTNNNAGATCGGAAGAGCGTCGTGgatcCTGAACCGCTC TTCCGATCT(SEQID NO:14)
用于ES-2和MEF样品的RT引物(在不同通道测序):
5’-/5Phos/NNCGCCNNNNAGATCGGAAGAGCGTCGTGgatcCTGAACCGCT CTTCCGATCT(SEQID NO:15)
用于ES间接样品的RT引物:
5’-/5Phos/NNCATTNNNNAGATCGGAAGAGCGTCGTGgatcCTGAACCGCT CTTCCGATCT(SEQID NO:16)
Cut_oligo(HPLC-纯化的,来自IDT)
5'-GTTCAGGATCCACGACGCTCTTCAAAA/3InvdT/-3'(SEQ ID NO:17)
BamHI限制性位点为下划线并粗体印刷的部分。
截短的PCR正向引物DP5(HPLC-纯化的,来自IDT):
5’-CACGACGCTCTTCCGATCT(SEQ ID NO:18)
截短的PCR反向引物DP3(HPLC-纯化的,来自IDT):
5’-CTGAACCGCTCTTCCGATCT(SEQ ID NO:19)
Illumina PE PCR正向引物1.0(PAGE-纯化的,来自Sigma):
5’-AATGATACGGCGACCACCGAGATCTACACTCTTTCCCTACA
CGACGCTCTTCCGATCT(SEQ ID NO:20)
Illumina PE PCR反向引物2.0(PAGE-纯化的,来自Sigma):
5’-CAAGCAGAAGACGGCATACGAGATCGGTCTCGGCATTCC
TGCTGAACCGCTCTTCCGATCT(SEQ ID NO:21)。
计算流程(computational pipeline)(RNA-HiC-工具)
RNA-HiC-工具是用于分析RNA Hi-C数据的一系列命令行工具。其是用Python和R编写的,由GitHub版本控制。完整的文档位于http://systemsbio.ucsd.edu/RNA-Hi-C。流程将双端测序读段作为输入(图15A)。RNA接头的寡核苷酸序列和用于多重测序的样品条形码也提供给流程。主要输出包括:1.解析的cDNA文库,包括RNA1-接头-RNA2形式的嵌合cDNA的列表(参见图7,15C的终产物),2.每种嵌合cDNA的RNA1和RNA2的基因组定位(图15D),3.从嵌合cDNA的统计学富集推断的相互作用的RNA对(图15E)。分析步骤如下。
1.去除PCR重复
正向读段(图15A中的读段1)在5'端包含4nt样品条形码和6nt随机条形码。读段对被分类为另一个读段对的PCR重复,因此如果两个读段对具有相同的序列并且包含相同的条形码(10nt),则将其丢弃。工具'remove_dup_PE.py'提供此功能,并生成一个包含非重复读段的fastq/fasta文件,并报告去除的重复数量。
2.将多重测序读段分配给相应的实验样品
工具'split_library_pairend.py'通过将每个读段中的样品条形码与样品条形码列表(用户输入文本文件)中的样品条形码进行匹配,将每个双端读段分配给样品,生成一个分配给每个样品的读段的fastq/fasta文件以及未分配读段的fastq/fasta文件。
3.在测序文库中回收cDNA
该步骤识别每个读段对的两端的重叠区域(如果有的话)。它也尽可能地回收测序文库中cDNA的整个序列。
如果存在重叠,则将该读段对从100bp和200bp之间的cDNA(不计算P5和P7的长度)进行测序(类型2,图32)。在这种情况下,通过将正向读段(读段1)与反向读段(读段2)的非重叠区域串联来完整覆盖cDNA的整个序列。
如果cDNA短于100bp,则验证cDNA两端的P5和P7引物的存在(类型1)。弃去不包含P5或P7的cDNA(类型4)。
在没有重叠下,读段对从长于200bp的cDNA进行测序,其序列只能部分回收(类型3,图32)。
此功能由“recoverFragment.py”实现,其使用本地比对来识别重叠区域。当与读段长度(每端100bp)相比,重叠小(15bp以下)时,局部比对可能不灵敏。为了克服这种不灵敏性,“recoverFragment.py”在第一次比对之后(ALIGN1,图32)收集读段对,而无可识别的重叠,将每个读段截短为其长度的三分之一(在每个读段的3'处保留33bp),重复局部比对(ALIGN4)。
4.解析嵌合cDNA
该步骤基于它们的构型对cDNA进行分类(图15C)。这采用完全回收的cDNA序列(类型1和类型2,图32)和部分回收的(类型3)cDNA序列,以及接头序列作为输入。它识别cDNA中接头的位置,并根据接头序列的位置产生5类cDNA,其中包括:
1.没有接头。不包含接头序列的任何类型1或类型2的cDNA均属于该类别。该类别可以进一步分为三个子集,包括:
a.仅条形码。整个cDNA是10nt条形码(4nt样品条形码+6nt随机条形码),最可能是未连接的RT引物污染的结果。
b.单个RNA。整个cDNA是RNA的连续部分。
c.RNA1-RNA2。这些可能在接头连接之前由邻位连接产生。
包含四个接头的类别,包括:
2.RNA1-接头-RNA2。这些是从期望的嵌合RNA产生的。其两个读段完全比对两个不同的RNA基因的任意无接头的类型3的cDNA也归于该类别中。要求RNA1和RNA2两侧均含有至少5bp序列。
3.接头-RNA2。接头成功地连接至RNA的5'末端,但是邻位连接不成功。
4.RNA1-接头。接头连接至RNA的3'末端。这可能是由具有3'-OH基团的RNA或RNA片段产生的,或者在第二次片段化步骤期间从RNA1-接头-RNA2嵌合体切掉其它RNA(RNA2)产生的。
5.仅接头。整个cDNA是条形码和接头序列。
该步骤输出属于RNA1-接头-RNA2类别的cDNA的列表。
5.映射到基因组
以下,所有分析基于读段对的RNA1-接头-RNA2类型。首先,丢弃在接头的RNA1或RNA2侧上含有小于15bp的任何cDNA,因为在映射步骤中不可能将15bp以下的序列唯一地映射到基因组。然后使用Bowtie版本0.12.7(B.Langmead,C.Trapnell,M.Pop,S.L.Salzberg,Genome Biology 10,(2009))和参数-f-n 1-l 15-e 200-p 9–S将接头每侧的两个RNA片段(RNA1和RNA2)分别映射到小鼠基因组mm9/NCBI37。在“Stitch-seq_Aligner.py”中执行的该步骤输出了RNA1和RNA2唯一地映射到基因组的读段对。
使用Bowtie2(B.Langmead,S.L.Salzberg,Nat Methods 9,357(Apr,2012))的“--灵敏-局部”模式,利用参数“-D 15-R 2-N 0-L 20-i S,1,0.75”测试潜在的更灵敏的映射方法。这种“多种子比对”使用20bp的种子,允许任何种子中的0个错配,种子之间9bp间隔
Figure GDA0002048945670000571
多达15次连续的种子延伸尝试,以及多达2次的“再播种”。事实证明,这种替代策略比Bowtie 0.12.7鉴定出略少一些的唯一比对。因此,Bowtie 0.12.7的结果被传递到下一步。
6.鉴定相互作用的RNA对
注释从Ensembl(释放67,小鼠NCBIM37)检索,包括mRNA,lincRNA,rRNA,snRNA,snoRNA,miRNA,misc_RNAs,tRNA和转座子的基因。在该分析中,相同转座子的不同基因组拷贝被认为是不同的基因。从进一步分析中去除映射到rRNA的读段。对每个基因计数唯一比对读段(来自RNA1-接头-RNA2型的RNA1或RNA2)的数目。将读段计数小于5的任何基因滤出。接下来,用Fisher精确检验测试任何两个基因之间的关联。无效假设是基因A和基因B独立地贡献于测序读段。另一种假设是它们对读段计数的贡献是相关的。cA,cB分别被表示为基因A和基因B的读段计数,以及IA,B表示为其中两个基因共同出现在相同的读段对上的共同出现的读段计数。对每个基因对进行Fisher精确检验,
Figure GDA0002048945670000581
作为检验统计,其中
Figure GDA0002048945670000582
是除基因A(基因B)之外的其他基因的读段计数。对于每个基因对,计算了p值和FDR(Benjamini-Hochberg程序(Y.Benjamini,Y.Hochberg,Journal of the RoyalStatistical Society.57,289(1995)),该步骤输出FDR<0.05的基因对和倍数变化(FC)≥3。FC计算为(IA,B+0.5)/(I′A,B+0.5),其中I′A,B为对照样品(ES间接)中共同出现的读段计数。该步骤在“Select_strongInteraction_RNA.py”中执行,其输出强相互作用的RNA对,带有相互作用区域的信息,支持对的数目,有意义的p值,FDR和倍数变化。
7.鉴定RNA相互作用位点
RNA相互作用位点定义为通常有助于RNA-RNA相互作用的连续RNA区段。RNA相互作用位点从RNA Hi-C数据推断为具有多重重叠读段和与其他RNA频繁共同出现(邻位连接)的连续RNA区段。首先,由5个以上的唯一比对读段覆盖的任何连续RNA区段被鉴定为候选相互作用位点。其次,任何两个候选位点之间的关联都用Fisher精确检验进行了检验。无效假设是候选位点A和基因B独立地贡献于测序读段。另一种假设是它们对读段计数的贡献是相关的。cA,cB分别表示为候选位点A和B的读段计数,以及IA,B表示两个位点共同出现在同一读段对上的共同出现的读段计数。对每个位点对进行Fisher精确检验,
Figure GDA0002048945670000583
作为检验统计,其中
Figure GDA0002048945670000584
是除A(B)之外的其他候选位点的读段计数。对于每对候选位点计算p值和FDR(Benjamini-Hochberg程序)。表现出显著相关的候选位点(FDR<0.05)被认为是RNA相互作用位点。该步骤在“Select_strongInteraction_pp.py”中自动执行,其输出所鉴定的RNA相互作用位点。
开发了“Plot_interaction.py”工具,用于可视化RNA相互作用位点和这些位点的连接事件(图16A-16B)。假设任何两个基因组区域作为输入,例如两个基因的位置,该工具以RNA1-接头-RNA2的形式显示所有支持读段对,其中RNA1和RNA2与两个基因组位置中的每一个比对。也绘制每个RNA对的接头。该工具还在输入区域(如果有的话)中绘制RNA相互作用位点,以及所鉴定的这些位点之间的相互作用。
工具“Plot_Circos.R”提供了RNA-RNA相互作用物组的全局视图(图16C)。它将整个基因组绘制为一个圆圈,任何RNA-RNA相互作用都作为连接两个贡献基因的曲线。涉及不同类型RNA的相互作用以不同的颜色编码。RNA1和RNA2读段片段的密度与每个染色体一起显示为内圈。其他分析和可视化工具在http://systemsbio.ucsd.edu/RNA-Hi-C中描述。
RNA相互作用位点之间的结合能
通过来自RNA结构版本5.6(S.Bellaousov,J.S.Reuter,M.G.Seetin,D.H.Mathews,Nucleic Acids Res 41,W471(Jul,2013))的DuplexFold程序计算两个RNA相互作用位点之间的结合能。两个相互作用位点之间的碱基配对由MiRanda版本3.3a确定(D.Betel,A.Koppal,P.Agius,C.Sander,C.Leslie,Genome Biol 11,(2010)。
RNA相互作用位点的保守水平
对于RNA1-接头-RNA2类别(步骤4的输出)中的每个读段对,获得了两个1000bp基因组区域的PhyloP保守得分(GM Cooper等人,Genome Res 15,901(Jul,2005)),一个集中在RNA1-接头的连接接合点,另一个集中在接头-RNA2的连接接合点。绘制所有RNA1-接头-RNA2型读段对的平均PhyloP得分。作为对照,获得了来自相同长度的相同数目的随机基因组区域的平均PhyloP得分。
网络分析
鉴定的RNA-RNA相互作用(步骤6的输出)被转换为表格格式并被导入到Cytoscape3.1.0(R.Saito等,Nat Methods 9,1069(Nov,2012))中以进行可视化。每个节点代表一个基因,并由基因型进行颜色编码。每个节点的程度由Cytoscape计算。
检测分子内切割和连接产生的读段对
从RNA1-接头-RNA2型读段对(步骤6的输出)开始,实施以下过滤用于鉴定从自身相互作用的RNA产生的双端读段:
1.去除映射到两个不同基因的读段对。
2.如果读段对映射到相同的基因,也去除这样的读段对:(1)不含任何部分的接头序列;(2)在2000bp内映射到相反链的正向和反向读段;(3)在该对内,在基因组中,映射到正链的读段比映射到负链的读段具有更小的坐标。该步骤使得任何完整(连续)RNA片段在结构分析中的包含最小化。
RNA折叠和二级结构预测
具有已知或普遍接受的结构的RNA的结构信息以DOT格式(图形描述语言)从fRNAdb数据库v3.4(T.Mituyama等,Nucleic Acids Research 37,D89(Jan,2009))下载。使用VARNA Applet版本3.9的命令行版本(K.Darty,A.Denise,Y.Ponty,Bioinformatics 25,1974(Aug 1,2009))从DOT文件中绘图。对于在fRNAdb中没有结构信息的RNA,其二级结构基于序列使用RNA结构版本5.6中的“折叠”程序进行预测(S.Bellaousov,J.S.Reuter,M.G.Seetin,D.H.Mathews,Nucleic Acids Res 41,W471(Jul,2013))。
RNA Hi-C的对照实验
第一个对照实验跳过该过程中的交联步骤。第二个对照实验跳过蛋白质生物素化步骤。第三个对照实验对小鼠ES细胞和果蝇S2细胞的混合细胞裂解物进行了整个过程。
首先进行了具有约3×108个小鼠ES细胞的非交联对照。通过如前所述的蛋白质消化来纯化固定有链霉亲和素珠上的蛋白质的RNA。纯化的RNA通过Qubit RNA HS测定(Invitrogen)进行定量。RNA低于测定的检测限(250pg/μl)。样品体积为20μl(与前述相同),表明RNA丰度不超过5ng。在此,停止了实验,因为没有机会完成接头选择和文库构建。在先前描述的实验中,纯化的RNA在该步骤处于μg范围内。
第二,通过不进行蛋白质生物素化(保持交联),用3×108个小鼠ES细胞来进行另一个对照。结果证明,从珠纯化的RNA低于Qubit RNA HS测定的检测限。
第三,以3×108个果蝇S2细胞和3×108个小鼠ES细胞(跨物种对照)开始实验。将细胞交联并裂解。在蛋白质生物素化和邻位连接之前将来自两个细胞系的裂解物混合。将混合物进行实验程序的其余部分以产生测序文库(Fly-Mm)。Fly-Mm包含27,748,688个读段对。在去除重复读段并由接头分离后,有16,881,326个RNA1-RNA2对。将每个RNA部分(RNA1或RNA2)映射到果蝇基因组(dm6)和映射到小鼠基因组(mm9)。总共7,188,769对具有至少一部分(RNA1或RNA2),其不能与小鼠或果蝇基因组相映射。其余9,692,557个RNA1-RNA2对都具有映射到基因组的两个部分,其中有8,484,807对具有每个RNA部分唯一映射到仅一个基因组。这些映射的RNA对的分布如下(表6)。映射到两个物种的RNA对的比例为0.52%(44,229/8,484,807)。
此外,询问如果要对ES-1文库(纯小鼠样品)进行上述分析将会发生什么。结果证明,0.55%的RNA1-RNA2对将具有唯一映射到小鼠基因组的一个RNA部分,另一部分被唯一地映射到果蝇基因组。因此,Fly-Mm样品(0.52%)的“污染率”甚至比ES-1样品(“0.55%”)的更低,这表明实验污染(可能是由于随机连接)是如此之低,以至于落入信息学过程的误差范围之内。
双重交联和UV交联之间的差异
将FA-DSG双重交联与RAP测序中的补骨脂素交联和甲醛(FA)交联进行比较(J.M.Engreit等人,RNA-RNA interactions enable specific targeting of noncodingRNAs to nascent Pre-mRNAs and chromatin sites.Cell 159,188(Sep 25,2014))。交联后,Engreitz等人使用反义寡核苷酸纯化核Malat1RNA,并对与Malat1一起纯化的RNA进行测序。Engreitz等人发现双重交联和其他两种交联方法之间的Malat1靶标几乎没有重叠。除了一种RNA以外,在双重交联中与Malat1共同纯化的数百种RNA都是唯一的(Engreitz等人的补充表3)。Engreitz等人将其归因于双重交联能够“有效地捕获通过多种蛋白质中间体间接连接的RNA”的想法。UV交联(我们的方法)在核酸与核酸交联中比补骨脂素的效果差,总体上比FA的效果差。基于公布的数据,没有想到通过UV交联和双重交联检测到的RNA对强烈重叠。
更具体地,snoRNA是短的(~150nt),并且当与mRNA相互作用时可能包裹在snoRNP蛋白复合体周围或内部。预期双重交联将保留整个snoRNP复合体。snoRNP复合体预期会阻碍RNase I切割snoRNA,并阻碍RNA连接。因此,预期涉及snoRNA的检测到的相互作用的差异大。
具有miRNA样相互作用的其它RNA。
询问其它RNA是否可以经历与miRNA生物发生相似的过程并且也与mRNA相互作用。RNA Hi-C鉴定的相互作用的RNA与通过小RNA测序(小RNA-seq)的发现那些和与ES细胞中的AGO蛋白(HITS-CLIP)结合的那些相交。小RNA-seq选择性测序,“miRNA和具有由Dicer或其他RNA加工酶的酶促裂解产生的3'羟基的其他小RNA”。除了miRNA之外,包括snoRNA、假基因RNA、mRNA UTR等其他RNA类型也有贡献于小RNA池,并附着于AGO(图17)。此外,大部分RNAHi-C鉴定的相互作用的RNA对共同出现在AGO HITS-CLIP数据中(图18)。该数据表明存在由DICER或其他RNA加工酶消化并被并入RISC复合体的非miRNA。
为了阐明哪些类型的非miRNA基因最可能经历miRNA样生物发生,RNA Hi-C鉴定的RNA-RNA相互作用经受以下过滤:
1.相互作用涉及一个mRNA(称为靶)和一个其他RNA(源RNA);
2.通过酶裂解将源RNA加工成小RNA(小RNA-seq中的FPKM>0);
3.靶RNA和源RNA都出现在AGO HITS-CLIP(两个RNA的FPKM>0);
4.源RNA和靶RNA的RNA Hi-C鉴定的相互作用位点表现出强碱基配对(p值<0.05,Wilcoxon符号秩检验,比较每一双端读段的RNA1和RNA2序列之间的结合能与随机改组的核苷酸序列的结合能)。
总共302个RNA-RNA相互作用通过了这些过滤。这些相互作用中大多数(79%)的源RNA是snoRNA(表ST2)。因此,snoRNA优先进行功能分析。
假设大量snoRNA被酶促加工成miRNA样短RNA并与mRNA相互作用。这一假设得到了919个RNA Hi-C鉴定的snoRNA-mRNA相互作用的支持,其中mRNA和snoRNA都被AGO结合。此外,AGO结合的snoRNA及其相互作用的mRNA在ES细胞向中内胚层的指导分化期间显示出反相关表达变化(P.Yu等人,Spatiotemporal clustering of the epigenome revealsrules of dynamic gene regulation.Genome research 23,352(Feb,2013))(图17B)。另外,与没有AGO结合的相比,AGO结合的snoRNA及其靶mRNA表现出更强的碱基配对(图17C)。最后,用作参考地,从snoRNA处理的小RNA与mRNA的UTR区域相互作用。在RNA-RNA相互作用涉及的497个snoRNA中,243个与UTR区域相互作用,其中在小RNA-seq中检测到223个(92%),表明经历了酶切(图17D)。相比之下,与非UTR区相互作用的其他254个snoRNA含有较少的(55%)小RNA。此外,相比于与非UTR相互作用的snoRNA,两倍以上的UTRO相互作用的sno-siRNA是AGO结合的(p值<2.2-16,卡方检验)。例如,Snora14RNA靶向Mcl1mRNA的3'UTR(图19A)。Snora14RNA(110-135nt)上的相互作用位点与酶处理的小RNA(浅紫色道)以及AGO结合区(绿色道)精确重叠。Snora14RNA的酶促处理部分完全位于发夹环的一侧(图19B),并且对Mcl1UTR的靶位点显示出强结合亲和力(-60kCal/mol)。经处理的Snora14RNA的表达与Mcl1mRNA的表达负相关(图19C)。总之,该数据表明大量小干扰RNA源自snoRNA基因,其与ES细胞中的900个以上的mRNA相互作用。
无扰动的映射体内RNA-RNA相互作用物组和RNA结构
分析整个RNA-RNA相互作用物组仍然是艰巨的。开发了RNA Hi-C技术,从而在无任何扰动下在体内映射任何单一蛋白质所包含的RNA-RNA相互作用。在胚胎干细胞中系统地映射RNA-RNA相互作用物组,揭示了46,780个相互作用。使用RAP-seq 1验证了7种相互作用。在该相互作用物组中,大多数miRNA和lincRNA都与一种mRNA特异性相互作用,这与目前的“混杂”RNA相互作用的教导相矛盾。在长RNA之间的相互作用区域观察到碱基配对,表明一类以反式作用的调控序列。此外,通过同时揭示单链区域的足迹和每个RNA的空间邻位位点,RNA Hi-C提供了关于RNA结构的新信息。该技术大大扩展了RNA-RNA相互作用物组的可识别部分,而不扰乱RNA表达的内源水平。
RNA Hi-C的模拟分析
数据合成。为了评估RNA Hi-C的灵敏度和特异性(包括其实验和计算程序),进行了模拟分析。通过计算模拟数据生成过程,模拟了1,000,000个双端读段。用于模拟的参数是从实际数据中得出的。模拟数据生成过程如下。
对于每个双端读段(2×100个碱基):
1.从具有相同概率的四个样品条形码选择样品条形码,并将其与6nt随机条形码串联(如图15A所示)。
2.分别以[0.1、0.3、0.1、0.3、0.2]概率将该双端读段分配到[仅接头、无接头、RNA1-接头、接头-RNA2、RNA1-接头-RNA2]的列表中的一种类型的cDNA(如图15C所示)。
3.如果将此读段对分配给含接头的类型,则以相等的概率随机选择1或2个接头。应注意,少量的含接头的读段对包含2个接头;使用相等的概率是估计最坏情况的保守选择。
4.根据步骤2中确定的cDNA类型,产生RNA1和RNA2部分的序列。对于RNA1和RNA2两者,
a.由l~Unif(15,150)模拟其长度,
b.基于以下概率从[“miRNA”、“mRNA、“lincRNA”、“snoRNA”、“snRNA”、“tRNA”]中选择RNA类型:
c如果长度l<50,使用[0.2、0.2、0.1、0.2、0.2、0.1],
d否则,使用[0.05、0.4、0.2、0.2、0.1、0.05];
e.根据Ensembl采集的RNA型(释放67,小鼠NCBIM37)随机选择一种RNA,
f.从所选RNA随机取长度l的序列片段。
5.串联由步骤1、3、4生成的条形码、接头和RNA片段,产生合成cDNA序列。
6.如果步骤5中的合成cDNA为100bp以上,则分别从正义链和反义链的合成cDNA的两端取100个碱基。
7.如果步骤5中的合成cDNA短于100bp,则将其正义链和反义链分配为正向读段和反向读段,并将P5和P7引物序列连接至两个读段。
8.在每个碱基上以0.01的比率模拟测序误差(N.J.Loman等人,Performancecomparison of benchtop high-throughput sequencing platforms.Naturebiotechnology 30,434(May,2012))。
步骤1-5根据实验程序模拟了cDNA序列,步骤6-8基于该cDNA序列模拟了双端读段。保持模拟的相互作用的RNA对,以及每个部分(RNA1、接头和RNA2,如果适用)的cDNA类型和长度,用于与计算预测进行比较。
评估中间结果和最终结果。
合成数据用于评估两个中间分析步骤以及最终预测的灵敏度和特异性。
首先,比较程序鉴定的cDNA长度(RNA-HiC-工具的步骤3的输出)与实际(合成的)长度(表8)。该步骤“3.在测序文库中回收cDNA”将每个cDNA根据它们的长度分配为四种类型,即类型1(<100bp);类型2(100~200bp);类型3(>200bp);类型4(未知)(图S32)。该算法实现了对每种类型的鉴定的高灵敏度和特异性。只有很少(0.58%)的短于200bp的cDNA被鉴定为超过200bp。这些错误是由于正向读段和反向读段的小重叠(通常在0到5bps之间),这无法由局部比对所检测到。
表8.程序鉴定的和真实的cDNA长度范围的比较。将每种类型的程序鉴定的cDNA的计数(列1-4)与其真实类型(行)进行比较。
Figure GDA0002048945670000651
当程序鉴定的长度短于200bp(类型1和类型2)时,可以计算精确长度。在这些情况下,程序鉴定的长度通常与模拟cDNA的长度精确匹配(图33A)。
接下来,比较每个cDNA的程序鉴定的嵌合构型(RNA-HiC-工具的步骤4的输出)与合成构型。在步骤“4.解析嵌合cDNA”中,基于接头序列的存在,该算法将cDNA分为五类。该算法对“RNA1-接头-RNA2”形式的cDNA灵敏度达到99.89%,特异性为95.82%(表9)。
表9.程序鉴定的和真实的cDNA构型的比较。将程序鉴定的构型(列)的cDNA计数与其真实构型(行)进行比较。
Figure GDA0002048945670000661
最后,比较程序预测的和模拟的RNA-RNA相互作用。模拟数据集包含200,200个嵌合RNA对,其中检测到131,571对RNA(灵敏度=65.72%,特异性=92.57%,图ST1-C)。还分别计算了每种类型RNA的相互作用的灵敏度和特异性(图33C)。无论参与的RNA类型如何,该方法显示很少的假阳性(特异性≥90%)。不涉及转座子RNA或snRNA的相互作用比那些涉及的显示出更少的假阴性。这是由于转座子序列和snRNA序列的重复性质。最严重的情况涉及LINE RNA,灵敏度下降到52%。据保守估计,涉及转座子RNA的相互作用约有一半可能被该程序错过。估计约2/3至3/4的不涉及转座子RNA的相互作用将被鉴定出来。
RAP-seq验证
进行小鼠ES细胞的Malat1RAP测序实验。交联后,使用5个反义寡核苷酸下拉Malat1,然后测序与Malat1一起纯化的其他RNA。进行肌动蛋白RAP测序作为对照。Malat1RNA本身在Malat1RAP-seq中显示比肌动蛋白RAP-seq增加5.81倍,证实了纯化的有效性。RNA Hi-C报道,Malat1作为与Tfrc、Slc2a3、Eif4a2和0610007P14Rik RNA相互作用的“中枢”lincRNA。这些RNA在Malat1RAP-seq中显示比肌动蛋白RAP-seq增加14.6(0610007P14Rik)、4.53(Slc2a3)、3.38(Eif4a2)和2.39(Tfrc)倍(最大卡方检验p值<0.0003)。这表明来自RNA Hi-C和Malat1RAP-seq的Malat1靶标的强烈重叠。
对于另一个验证,进行Tfrc RAP-seq实验。Tfrc被RNA Hi-C鉴定为Malat1相互作用的RNA(图1D)。问及Tfrc下拉是否可以反向鉴别Malat1。与肌动蛋白RAP-seq相比,TfrcRNA本身在Tfrc RAP-seq中显示2.87倍增加。在相同的数据集中,Malat1RNA显示3.84倍增加,比较Tfrc RAP-seq与肌动蛋白RAP-seq(p值<2.2×10-16,来自检验无效假设倍数变化=1)。
检查与由RNA Hi-C鉴定的Tfrc相互作用的其它RNA,并且也可以由Tfrc RAP-seq验证。RNA Hi-C数据鉴定了与Tfrc相互作用的总共5种RNA。除了Malat1,其余四个都是snoRNA,即Snord13,SNORA3,Snord52,SNORA74。与肌动蛋白RAP-seq相比,这4种snoRNA中的3种在Tfrc RNA-seq中显示出倍数增加(Snord13为1.4倍,SNORA3为13.6倍,SNORA74为8.7倍),证实了这些相互作用(卡方检验p值<0.00002)。总之,RAP-seq证实了几乎所有的RNAHi-C鉴定的相互作用。通过两种类型的实验(RNA Hi-C和RAP-seq),几种RNA相互作用(如上所述)在小鼠ES细胞中被记为“真实的”。
snoRNA-mRNA相互作用与mRNA假尿苷的比较
将假尿苷酸化测序数据(Ψ-seq)与RNA-相互作用位点进行比较。Schwartz等人在酵母和小鼠骨髓来源的树突状细胞(BMDDC)中进行Ψ-seq。检索BMDDCΨ-seq数据(CMC处理的GSM1464234和对照GSM1464235),并使用文中描述的生物信息学过程称为假尿苷(Ψ位点)。简言之,Ψ位点被确定为在正确的链和方向上具有超过5个经CMC处理的读段位于'U'旁边并且具有大于3的Ψ-fc值。这产生了在总数8,194,131个'U'位中的386个Ψ-位点(0.00471%U是Ψ位点)。
接下来,比较这386个位点与RNA Hi-C鉴定的RNA相互作用位点。已经认识到Ψ-seq和RNA Hi-C在不同的细胞类型中进行。然而,在RNA相互作用的位点中,共551,634个U中有93个是Ψ位点(0.0109%)。因此,通过RNA Hi-C确定的RNA相互作用位点富集有Ψ位点(优势率=4.4,卡方检验p值=7.70×10-95)。
此外,询问是否在由RNA Hi-C检测的snoRNA-mRNA相互作用位点中富集了Ψ位点。在snoRNA参与的相互作用位点中,总共136,535个U(0.0381%)中共有57个Ψ位点。与整个转录组相比,RNA Hi-C检测到的snoRNA参与的相互作用位点大量富集有Ψ位点(优势率=10.2,卡方检验p值<1×10-100)。虽然已知snoRNA会促进RNA假尿苷化,但这些数据表明哪些snoRNA可能是专门负责的。(表10)。
表10Ψ位点和RNA相互作用位点关联检验的双向相依表。
Figure GDA0002048945670000681
RNA分子之间的相互作用发挥关键的调控作用,并且通常由RNA结合蛋白介导(Ray,D.等人A compendium of RNA-binding motifs for decoding generegulation.Nature 499,172-177,doi:10.1038/nature12311(2013)),如ARGONAUTE蛋白(AGO)、PUM2、QKI和snoRNP蛋白(Meister,G.Argonaute proteins:functional insightsand emerging roles.Nat Rev Genet 14,447-459,doi:10.1038/nrg3462(2013);Hafner,M.等人Transcriptome-wide identification of RNA-binding protein and microRNAtarget sites by PAR-CLIP.Cell 141,129-141,doi:10.1016/j.cell.2010.03.009(2010);Granneman,S.,Kudla,G.,Petfalski,E.&Tollervey,D.Identification ofprotein binding sites on U3snoRNA and pre-rRNA by UV cross-linking and high-throughput analysis of cDNAs.Proceedings of the National Academy of Sciencesof the United States of America 106,9613-9618,doi:10.1073/pnas.0901997106(2009))。尽管最近有进展,例如PAR-CLIP 4,HITS-CLIP 6和CLASH 7、8,但映射所有蛋白质辅助的RNA-RNA相互作用仍然是艰巨挑战(Hafner,M.等人Transcriptome-wideidentification of RNA-binding protein and microRNA target sites by PAR-CLIP.Cell 141,129-141,doi:10.1016/j.cell.2010.03.009(2010);Chi,S.W.,Zang,J.B.,Mele,A.&Darnell,R.B.Argonaute HITS-CLIP decodes microRNA-mRNAinteraction maps.Nature 460,479-486,doi:10.1038/nature08170(2009);Helwak,A.,Kudla,G.,Dudnakova,T.&Tollervey,D.Mapping the human miRNA interactome byCLASH reveals frequent noncanonical binding.Cell 153,654-665,doi:10.1016/j.cell.2013.03.043(2013).Kudla,G.,Granneman,S.,Hahn,D.,Beggs,J.D.&Tollervey,D.Cross-linking,ligation,and sequencing of hybrids reveals RNA-RNAinteractions in yeast.Proc Natl Acad Sci U S A108,10010-10015,doi:10.1073/pnas.1017386108(2011))。在这三种方法的每一种中,每个实验只能分析由一种RNA结合蛋白介导的相互作用。另外,每个实验需要蛋白质特异性抗体(HITS-CLIP或PAR-CLIP)或转化细胞系中标记蛋白质的稳定表达(CLASH)。
早期方法通常需要所提出的相互作用的一个或几个组分的异位表达。这些方法包括荧光素酶报告分析和使用合成RNA模拟物进行靶捕获(Nicolas,F.E.Experimentalvalidation of microRNA targets using a luciferase reporter system.Methods inmolecular biology 732,139-152,doi:10.1007/978-1-61779-083-6_11(2011);Lal,A.等人,Capture of microRNA-bound mRNAs identifies the tumor suppressor miR-34a asa regulator of growth factor signaling.PLoS Genet 7,e1002363,doi:10.1371/journal.pgen.1002363(2011))。因为异位表达很少再现内源性表达水平,因此谨慎地将这些方法的结果解释为潜在的相互作用而不是体内相互作用。要注意的是,miRNA倾向于“混杂地”与许多mRNA相互作用的前提主要来源于使用异位表达的数据(Du,T.&Zamore,P.D.Beginning to understand microRNA function.Cell Res 17,661-663,doi:10.1038/cr.2007.67(2007)).。
开发RNA Hi-C方法检测体内蛋白质辅助的RNA-RNA相互作用。在该程序中,RNA分子与其结合的蛋白质交联,然后连接至生物素化的RNA接头,使得由相同蛋白质共同结合的RNA分子形成RNA1-接头-RNA2形式的嵌合RNA。使用链霉亲和素包被的磁珠分离这些含接头的嵌合RNA,并进行双端测序(方法,图1A,图7)。因此,每个非冗余双端读段反映了分子相互作用。该技术的一些设计方面受到染色体构象捕获方法的启发(Kalhor,R.,Tjong,H.,Jayathilaka,N.,Alber,F.&Chen,L.Genome architectures revealed by tetheredchromosome conformation capture and population-based modeling.Naturebiotechnology 30,90-98,doi:10.1038/nbt.2057(2012);Belton,J.M.等人,Hi-C:acomprehensive technique to capture the conformation of genomes.Methods 58,268-276,doi:10.1016/j.ymeth.2012.05.001(2012))。
RNA Hi-C方法提供了映射RNA-RNA相互作用的数个优点。首先,RNA Hi-C直接分析内源细胞特征,而不在交联前引入任何外源核苷酸或蛋白质编码基因(Hafner,M.等人,Transcriptome-wide identification of RNA-binding protein and microRNA targetsites by PAR-CLIP.Cell 141,129-141,doi:10.1016/j.cell.2010.03.009(2010);Helwak,A.,Kudla,G.,Dudnakova,T.&Tollervey,D.Mapping the human miRNAinteractome by CLASH reveals frequent noncanonical binding.Cell 153,654-665,doi:10.1016/j.cell.2013.03.043(2013);Lal,A.等人Capture of microRNA-boundmRNAs identifies the tumor suppressor miR-34a as a regulator of growth factorsignaling.PLoS Genet 7,e1002363,doi:10.1371/journal.pgen.1002363(2011);Baigude,H.,Ahsanullah,Li,Z.,Zhou,Y.&Rana,T.M.miR-TRAP:a benchtop chemicalbiology strategy to identify microRNA targets.Angew Chem Int Ed Engl 51,5880-5883,doi:10.1002/anie.201201512(2012))。这消除了通过改变RNA或蛋白质表达水平产生的报告伪相互作用的不确定性。此外,它使RNA Hi-C非常适合于测定组织样品。第二,使用生物素化的接头作为选择标记可以避免对于蛋白质特异性抗体的需求或表达标记蛋白的需要。这允许RNA-RNA相互作用物组的无偏倚映射。如文献中所述,其它方法一次只能对一种RNA结合蛋白起作用。第三,仅捕获由相同的单个蛋白质分子聚集的RNA,避免捕获单独结合至相同蛋白质的不同拷贝的独立的RNA分子(可能导致报告伪相互作用)(Hafner,M.等人,Transcriptome-wide identification of RNA-binding protein and microRNAtarget sites by PAR-CLIP.Cell 141,129-141,doi:10.1016/j.cell.2010.03.009(2010);Chi,S.W.,Zang,J.B.,Mele,A.&Darnell,R.B.Argonaute HITS-CLIP decodesmicroRNA-mRNA interaction maps.Nature 460,479-486,doi:10.1038/nature08170(2009))。第四,通过在极度稀释的条件下在链霉亲和素珠上进行RNA连接步骤,使得通过RNA随机连接至其它附近RNA产生的假阳性最小化。第五,RNA接头提供了一个清晰的边界,描绘跨越连接位点的测序读段,从而避免了映射测序读段的含糊不清。第六,通过在PCR扩增前将随机6个核苷酸条形码连接至每个嵌合RNA中,随后仅一次计数与相同的条形码完全重叠的测序读段,来去除潜在的PCR扩增偏倚(Chi,S.W.,Zang,J.B.,Mele,A.&Darnell,R.B.Argonaute HITS-CLIP decodes microRNA-mRNA interaction maps.Nature 460,479-486,doi:10.1038/nature08170(2009),Loeb,G.B.等人,Transcriptome-wide miR-155binding map reveals widespread noncanonical microRNA targeting.Mol Cell48,760-770,doi:10.1016/j.molcel.2012.10.002(2012);Wang,Z.等人,iCLIP predictsthe dual splicing effects of TIA-RNA interactions.PLoS Biol 8,e1000530,doi:10.1371/journal.pbio.1000530(2010);Konig,J.等人,iCLIP reveals the function ofhnRNP particles in splicing at individual nucleotide resolution.Nat StructMol Biol 17,909-915,doi:10.1038/nsmb.1838(2010))。
在具有较小技术差异的小鼠胚胎干(ES)细胞(其被称为ES-1和ES-2)上进行了两个独立的RNA Hi-C测定(表5,图9-12)。使用两种交联剂(甲醛和EGS),其“有效捕获通过多重蛋白质中间体间接连接的RNA”1(ES间接),产生用于间接RNA相互作用的文库((Engreitz,J.M.等人,RNA-RNA interactions enable specific targeting ofnoncoding RNAs to nascent Pre-mRNAs and chromatin sites.Cell 159,188-199,doi:10.1016/j.cell.2014.08.018(2014);Nowak,D.E.,Tian,B.&Brasier,A.R.Two-stepcross-linking method for identification of NF-kappaB gene network bychromatin immunoprecipitation.Biotechniques 39,715-725(2005);Zeng,P.Y.,Vakoc,C.R.,Chen,Z.C.,Blobel,G.A.&Berger,S.L.In vivo dual cross-linking foridentification of indirect DNA-associated proteins by chromatin immunoprecipitation.BioTechniques 41,694-698(2006);Zhao,J.等人,Genome-wide identificationof polycomb-associated RNAs by RIP-seq.Mol Cell 40,939-953,doi:10.1016/j.molcel.2010.12.011(2010))。从小鼠胚胎成纤维细胞(MEF)和小鼠脑中产生另外两个独特的文库,为生物信息学质量评估提供两个额外的数据集(图13)。证实每个文库含有期望形式(RNA1-接头-RNA2)和长度的RNA构建体(图1B)。对每个文库测序,平均得到4730万个双端读段,其中大约1510万个非冗余双端读段代表期望的嵌合形式(图1C)。此外,进行了三个对照实验。第一和第二对照实验分别排除了交联步骤(非交联对照)和蛋白质生物素化步骤(非生物素化对照)(RNA Hi-C的对照实验)。第三个对照实验使用果蝇S2细胞和小鼠ES细胞来测试RNA随机连接的程度(跨物种对照)。交联后,来自两个细胞系的裂解物在蛋白质生物素化和邻位连接之前混合。将混合物进行实验程序的其余部分,并产生测序文库(Fly-Mm)。映射到两个物种(假阳性)的RNA对的比例为0.52%。然而,当ES-1测序文库进行相同的信息学分析时,将0.55%RNA对映射到两个物种(小鼠和果蝇基因组),表明实验性假阳性(可能是由于随机连接)与信息学程序的误差范围相比较不频繁(RNA Hi-C的对照实验)。
表5:RNA Hi-C样品的描述。“读段对的总数”是每个样品的双端测序读段的数量。“RNA1-接头-RNA2”形式的非重复读段对的数量是生物信息学流程的步骤4(其解析嵌合cDNA)的输出中的双端读段的数量。
Figure GDA0002048945670000721
Figure GDA0002048945670000731
创建了一套生物信息学工具(RNA-HiC-工具)来分析和显现RNA Hi-C数据(图14-15)。RNA-HiC-工具自动化分析步骤,包括去除PCR重复,分离复用样品,鉴定接头序列,分离连接点读段,召集相互作用的RNA,进行统计学评估,分类RNA相互作用类型,召集相互作用位点和分析RNA结构(方法)。它还为RNA-RNA相互作用物组和RNA内的邻位位点提供可视化工具(图16)。
比较5种RNA Hi-C文库。ES-1和ES-2最相似,其由FPKMs的相关性判断(对于接头的左侧和右侧的读段片段分别计算的),接着是ES-间接,然后是MEF和脑组织(图13)。从ES-1和ES-2鉴定的相互作用的RNA对表现出强重叠(p值<10-35,置换检验)(表6)。在MEF中鉴定的相互作用与ES样品中鉴定的没有显著的重叠(每个重叠的p值=1,置换检验)。例如,Trim25RNA的3'UTR与小核仁RNA(snoRNA)Snora1之间的相互作用分别由ES-1和ES-2样品中的24个和22个双端读段支持,但在ES-间接中(双重交联和UV交联之间的差异)或MEF文库未检测到(图1C)。包括Snora1的多达172个snoRNA被鉴定为与AGO HITS-CLIP数据(绿色泳道,图1C)和酶促处理的小RNA(红色泳道,图1C,图17-19)中检测到的mRNA相互作用(Yu,P.等人,Spatiotemporal clustering of the epigenome reveals rules of dynamic generegulation.Genome Res 23,352-364,doi:10.1101/gr.144949.112(2013).)。这支持了snoRNA基因的转录物可以酶促加工成miRNA样小RNA并与RISC复合体中的mRNA相互作用的提议(Ender,C.等人,A human snoRNA with microRNA-like functions.Mol Cell 32,519-528,doi:10.1016/j.molcel.2008.10.017(2008);Brameier,M.,Herwig,A.,Reinhardt,R.,Walter,L.&Gruber,J.Human box C/D snoRNAs with miRNA likefunctions:expanding the range of regulatory RNAs.Nucleic Acids Res 39,675-686,doi:10.1093/nar/gkq776(2011))。(具有miRNA样相互作用的其它RNA)。
表6.映射到两个基因组的读段对的分布。不包括在本表中的读段不能映射到任何基因组或将相同的RNA部分映射到两个基因组。RNA部分是接头序列任一侧的读段序列。
Figure GDA0002048945670000741
合并ES-1和ES-2文库以推断ES细胞中的RNA-RNA相互作用物组。这些数据包括454万个非重复的双端读段,将其明确地分成两个RNA片段,两个片段都独特地映射到基因组(mm9)。鉴定了46,780个RNA间相互作用(FDR<0.05,Fisher精确检验和Benjamin&Hochberg校正)(图20)。如预期的,RNA表达水平(FPKM)与每个RNA上的RNA Hi-C读段的数量微弱相关,但FPKM与相互作用的统计学显著性(FDR)无关(图20C-D)。mRNA-snoRNA相互作用是最丰富的类型,尽管还检测到数千个mRNA-mRNA和数百个lincRNA-mRNA,假基因RNA-mRNA,miRNA-mRNA相互作用(图21)。这可能是任何生物体中描述的第一个RNA-RNA相互作用物组。对于整个实验和分析程序我们的模拟表明了大约66%的灵敏度和93%的特异性(RNA Hi-C的模拟分析)。
为了确认更大规模的相互作用,进行RNA反义寡核苷酸纯化测序(RAP-seq)(Engreitz,J.M.等人,RNA-RNA interactions enable specific targeting ofnoncoding RNAs to nascent Pre-mRNAs and chromatin sites.Cell 159,188-199,doi:10.1016/j.cell.2014.08.018(2014))。首先,进行Malat1RAP-seq和Actb RAP-seq(对照)以检测涉及Malat1的相互作用(snoRNA-mRNA相互作用与mRNA假尿苷的比较)。Malat1RNA本身在Malat1RAP-seq中显示出比Acta RAP-seq增加5.81倍,证实了纯化的有效性。RNA-Hi C报告的Malat1相互作用的RNA(图1D)显示,在Malat1RAP-seq中比Acta RAP-seq增加14.6(0610007P14Rik)、4.53(Slc2a3)、3.38(Eif4a2)和2.39(Tfrc)倍(p值<0.0003,卡方检验)。这表明Malat1靶标在RNA Hi-C和Malat1RAP-seq中的强烈重叠。接下来,问及Tfrc RAP是否通过Tfrc RAP-seq反向鉴定Malat1(snoRNA-mRNA相互作用与mRNA假尿苷的比较)。TfrcRNA本身在Tfrc RAP-seq中显示相比于Actb RAP-seq的2.87倍增加。Malat1表现出3.84倍的增加(p值<2.2×10-16,来源于检验无效假设倍数变化=1)。此外,由RNA Hi-C鉴定的四种其他Tfrc相互作用的RNA中,有三种显示出1.4-13.6倍的增加(p值<0.00002,卡方检验)。总之,RAP-seq验证了另外7种RNA Hi-C鉴定的相互作用。
已经报道了RNA-RNA相互作用是“令人惊讶的混杂”(Du,T.&Zamore,P.D.Beginning to understand microRNA function.Cell Res 17,661-663,doi:10.1038/cr.2007.67(2007))。提示一种细胞类型中每个miRNA与300至1,000个mRNA相互作用,对lincRNA也提出了类似的内容(Chi,S.W.,Zang,J.B.,Mele,A.&Darnell,R.B.Argonaute HITS-CLIP decodes microRNA-mRNA interaction maps.Nature 460,479-486,doi:10.1038/nature08170(2009);Guttman,M.等人,Chromatin signaturereveals over a thousand highly conserved large non-coding RNAs inmammals.Nature 458,223-227,doi:10.1038/nature07672(2009))。然而,观察到的RNA-RNA相互作用物组(46,780个相互作用)是无标度的网络,其程度分布符合幂定律(图1D,图34)(Barabasi,A.L.&Oltvai,Z.N.Network biology:understanding the cell'sfunctional organization.Nat Rev Genet 5,101-113,doi:10.1038/nrg1272(2004))。换句话说,参与RNA-RNA相互作用的大多数RNA具有特定的相互作用伴侣,并且具有给定数量的相互作用伴侣的RNA的数量随着相互作用伴侣数量的增加而呈指数级降低。如果相互作用仅限于mRNA,lincRNAs,miRNAs,假基因RNA和反义转录物,则这种全局性质不会改变(图1D)。此外,源自小鼠脑的RNA-RNA相互作用物组(57,833个相互作用)是无标度的(图34B),表明这种全局性质不是细胞类型特异的。在每种细胞类型中,绝大多数miRNA和lincRNA与1至3个mRNA相互作用,其中超过80%与一种mRNA特异性相互作用(图1E)。总而言之,“混杂”的RNA是来源于RNA Hi-C的RNA-RNA相互作用物组中的特例。据推测,这是因为与以前的方法不同,RNA Hi-C直接捕获在内源性细胞条件下与每个单独的蛋白质分子共连接的RNA分子。
大部分(83.05%)的相互作用的RNA显示重叠的RNA Hi-C读段(图3A),表明相互作用通常集中在RNA的特定区段。鉴定重叠读段片段的“峰”,称为“相互作用位点”(图3B)。相互作用位点不仅出现在miRNA(整个成熟miRNA)、mRNA、lincRNA上,而且也出现在假基因和转座子RNA上(图3C)。在L1、SINE、ERVK、MaLR和ERV1转座子RNA中存在超过2000个相互作用位点(表7),表明它们与其他RNAs频繁相互作用(Shalgi,R.,Pilpel,Y.&Oren,M.Repression of transposable-elements-a microRNA anti-cancer defensemechanism?Trends in genetics:TIG 26,253-259,doi:10.1016/j.tig.2010.03.006(2010);Yuan,Z.,Sun,X.,Liu,H.&Xie,J.MicroRNA genes derived from repetitiveelements and expanded by segmental duplication events in mammaliangenomes.PloS one 6,e17666,doi:10.1371/journal.pone.0017666(2011)。另外,假尿苷在snoRNA-mRNA相互作用的mRNA相互作用位点富集,证实了某些RNA区段在某些类型的RNA相互作用中是有利的(Schwartz,S.et al.Transcriptome-wide mapping revealswidespread dynamic-regulated pseudouridylation of ncRNA and mRNA.Cell 159,148-162,doi:10.1016/j.cell.2014.08.028(2014))。
表7.不同类型基因和转座子中相互作用位点的分布。新:未注释的基因组区域。
Figure GDA0002048945670000761
Figure GDA0002048945670000771
问及碱基互补是否被不同类型的RNA-RNA相互作用所利用。通过连接片段对(RNA1,RNA2)的平均杂交能估计一对相互作用的RNA的杂交能,并将其与由碱基的随机改组产生的对照RNA的杂交能进行比较(Ray,D.等人,A compendium of RNA-binding motifsfor decoding gene regulation.Nature 499,172-177,doi:10.1038/nature12311(2013);Bellaousov,S.,Reuter,J.S.,Seetin,M.G.&Mathews,D.H.RNAstructure:webservers for RNA secondary structure prediction and analysis.Nucleic AcidsResearch 41,W471-W474,doi:Doi10.1093/Nar/Gkt290(2013))。互补碱基在几乎所有类型的RNA-RNA相互作用中都是优选的,并且在转座子RNA-mRNA,mRNA-mRNA,假基因RNA-mRNA,lincRNA-mRNA,miRNA-mRNA相互作用中最显著(p值<2.4-18),但是在LTR-假基因RNA相互作用中没有观察到(图3D,图24)。这个数据表明一种新的机制,其中碱基配对有助于长RNA中序列特异性的转录后调控。
如果这些RNA-RNA相互作用是序列特异性的,则RNA相互作用位点应该处于选择压力下(Gong,C.&Maquat,L.E.lncRNAs transactivate STAU1-mediated mRNAdecay byduplexing with 3'UTRs via Alu elements.Nature 470,284-288,doi:10.1038/nature09701(2011))。已经发现,在相互作用位点处,种间保守水平强烈增加,保守峰精确地确定了两个RNA片段的连接点(图3D)(Cooper,G.M.等人,Distribution and intensityof constraint in mammalian genomic sequence.Genome Res 15,901-913,doi:10.1101/gr.3577405(2005))。当与lincRNA,假基因RNA,转座子RNA或其他mRNAs相互作用时,mRNA上的相互作用位点比其余转录物更保守(图25)。lincRNA和假基因RNA的相互作用位点在lincRNAs-mRNA,假基因RNA-mRNA和假基因RNA-转座子RNA相互作用中表现出增加的保守性(图25)。相互作用位点上增加的保守性不是由于外显子-内含子的边界(图26)。总之,碱基互补在长RNA的相互作用中广泛传播。互补区域在进化上是保守的。
虽然设计的RNAHi-C最初用于映射分子间相互作用,但是发现RNAHi-C显示RNA二级结构和三级结构。以上所有分析均基于分子间读段。通过观察分子内读段,了解RNA结构的两个特征。首先,通过RNase I消化位点的密度(连接前应用RNase I消化,参见图1A中的步骤2,图27)鉴定RNA的单链区域的足迹。第二,通过邻位连接捕获每个RNA的空间邻位位点(图1A中的步骤5)。总共67,221个读段对映射到单个基因,但没有映射到彼此或相同的链上的2,000bp内,因此是从分子内切割和连接产生的(图28)。通过将测序读段中的RNA1和RNA2的取向与其在基因组中的取向相比较,每个切割和连接的序列可以明确地分配给两个结构类之一(图4A)。这些读段提供2,374个RNA的空间邻近信息,包括来自1,696个已知基因和678个新基因的RNA。例如,从Snora73转录物产生277个切割和连接的序列(图4B)。RNase I消化位点的密度(图4C)强烈地预测了RNA的单链区域(热图,图4E)。检测到6对邻位位点(圆形,图4D)。每一对由三个以上的具有重叠连接位置的切割和连接的序列(黑点,图4B)支持。六个邻位位点对中的五个在通常接受的二级结构中物理上接近(相同颜色的箭头,图4E)。在Snora14上,根据测序推断的二级结构,一对推断的邻位位点出现较远(图29)。然而,核糖核蛋白DYSKERIN在体内弯曲Snora14转录物,使得两个假尿苷酸化环彼此接近,如通过切割和连接的序列所预测的(箭头,图4F)(Kiss,T.,Fayet-Lebaron,E.&Jady,B.E.Box H/ACAsmall ribonucleoproteins.Mol Cell 37,597-606,doi:10.1016/j.molcel.2010.01.032(2010))。结构信息甚至可以在新的转录物和mRNA的一些部分得到(图30,31)。迄今为止,解析任何单个RNA的空间邻位碱基仍然是一项艰巨的挑战。ES细胞中的RNA Hi-C提供数千个RNA的分子内空间邻近信息。此外,每个RNA的单链足迹同时映射。因此,RNAHi-C大大扩大了我们检测RNA结构的能力。
映射RNA相互作用的关键是选择。在RNA Hi-C中引入可选择的接头使得能够无偏倚地选择相互作用的RNA,使得可以全局地映射RNA相互作用物组。ES细胞中每个RNA的相互作用伴侣的数量是非常不平衡的,导致无标度的RNA网络。长RNA之间的相互作用经常使用一小部分转录物。类似于蛋白质相互作用域,提出了RNA相互作用位点的概念。RNA相互作用位点利用碱基配对来促进长RNA的相互作用,提示了一种新型的反式调控序列。这些反式调控序列比转录物的其他部分更进化保守。RNA结构也可以通过RNA Hi-C进行映射。本文提供了其中RNA被蛋白质弯曲的示例性实施方案,并且通过RNA Hi-C的分子内读段显示这种三级结构。因此,这种方法和数据应该大大有助于将来对RNA功能和调控作用的调查。
软件访问
RNA-HiC-工具软件可以在http://systemsbio.ucsd.edu/RNA-Hi-C获得。
从上述可以理解,为了说明的目的,本文已经描述了本公开的各种实施方案,并且在不脱离本公开的范围和精神的情况下可以进行各种修改。因此,本文公开的各种实施方案并不意图是限制性的,其真实范围和精神由所附权利要求表示。
附加实施例
在一些实施方案中,一种用于产生包含在细胞中彼此相互作用的RNA的嵌合RNA的方法,其中所述方法包括将RNA与蛋白质交联并将与相同蛋白质分子交联的RNA连接在一起以形成嵌合RNA。在一些实施方案中,RNA与蛋白质的所述交联在完整细胞上或在细胞裂解物中进行。在一些实施方案中,所述交联包括UV交联。在一些实施方案中,所述方法还包括将所述蛋白质与有助于所述蛋白质在表面上固定化的试剂相关联。在一些实施方案中,促进固定化的所述试剂包括生物素。在一些实施方案中,蛋白质至少一个半胱氨酸被生物素化。在一些实施方案中,该方法还包括将与相同蛋白质分子交联的所述RNA片段化。在一些实施方案中,所述片段化包括在有助于所述RNA部分消化的条件下将与相同蛋白质分子交联的所述RNA与RNAse接触。在一些实施方案中,所述方法还包括将与相同蛋白质分子交联的所述RNA连接至有助于所述RNA的回收的试剂。在一些实施方案中,所述连接包括将所述RNA的末端连接至所述试剂。在一些实施方案中,将RNA与生物素标记的RNA接头连接。在一些实施方案中,生物素标记的RNA接头是2,3,4,5,6,7,8,9,10,11,12,13,14,15,16,17,18.19,20,21,22,23,24,25,26,27,28,29或30个核苷酸长度或任何上述值之间的任何长度。在一些实施方案中,有助于所述RNA回收的所述试剂包含核酸。在一些实施方案中,所述核酸包括其上具有生物素的核酸。在一些实施方案中,所述其上具有生物素的核酸与所述RNA的所述末端的所述连接包括在将与相同蛋白质分子交联的所述RNA连接在一起以形成嵌合RNA之前将其上具有生物素的所述核酸连接至所述RNA的5'末端。在一些实施方案中,所述方法还包括从所述嵌合RNA的5'区域除去所述生物素。在一些实施方案中,所述方法还包括回收所述嵌合RNA。在一些实施方案中,所述方法还包括将所述嵌合RNA片段化。在一些实施方案中,该方法还包括DNAse处理以消除DNA污染。在一些实施方案中,所述嵌合RNA的所述片段化包括在有助于所述RNA部分消化的条件下使所述嵌合RNA与RNAse接触。在一些实施方案中,所述方法还包括反转录所述嵌合RNA以产生嵌合cDNA。在一些实施方案中,所述方法还包括测定所述嵌合RNA或嵌合cDNA中源自所述嵌合RNA或嵌合cDNA中的每个RNA的至少一部分序列。在一些实施方案中,该方法还包括鉴定存在于所述嵌合RNA中的RNA,从而鉴定在细胞中彼此相互作用的RNA。在一些实施方案中,鉴定出细胞中至少100个、至少500个、至少1000个或多于1000个RNA-RNA相互作用。在一些实施方案中,鉴定出在细胞中彼此相互作用的基本上所有的RNA。在一些实施方案中,鉴定出细胞中至少70%、至少80%、至少90%或超过90%的直接RNA-RNA相互作用。在一些实施方案中,在细胞中彼此相互作用的RNA的鉴定包括使用自动测序装置对所述嵌合RNA进行序列读段。在一些实施方案中,在细胞中彼此相互作用的RNA的所述鉴定包括从所有序列读段鉴定嵌合序列。在一些实施方案中,所述方法还包括使用计算机将嵌合RNA转化为注释的RNA簇。在一些实施方案中,所述方法还包括使用由计算机执行的统计检验来鉴定所述RNA簇之间的直接相互作用。
在一些实施方案中,提供了分离的复合体。分离的复合体可以包含与蛋白质交联的嵌合RNA,其中所述嵌合RNA包含在细胞中彼此相互作用的RNA。分离的复合体还可以包括包含蛋白质和核酸的复合体,中间体蛋白质和核酸,或蛋白质复合体和核酸,其中所述核酸是RNA。在一些实施方案中,分离的复合体包括包含蛋白质和核酸的复合体,中间体蛋白质和核酸,或蛋白质复合体和核酸,其中所述核酸是RNA。
在一些实施方案中,提供了用于鉴定候选治疗剂的方法,其中所述方法包括使用本文所述任何实施方案的方法鉴定细胞中彼此相互作用的RNA,并评估试剂减少或增加所述RNA的相互作用的能力,其中如果所述试剂能够减少或增加所述RNA的相互作用,则所述试剂是候选治疗剂。在一些实施方案中,用于鉴定在细胞中彼此相互作用的RNA的方法包括将RNA与蛋白质交联并将与相同蛋白质分子交联的RNA连接在一起以形成嵌合RNA。在一些实施方案中,所述RNA与蛋白质的交联在完整细胞上或在细胞裂解物中进行。在一些实施方案中,所述交联包括UV交联。在一些实施方案中,所述方法还包括将所述蛋白质与有助于所述蛋白质在表面上固定化的试剂相关联。在一些实施方案中,有助于固定化的所述试剂包括生物素。在一些实施方案中,该方法还包括将与相同蛋白质分子交联的所述RNA片段化。在一些实施方案中,所述片段化包括在有助于所述RNA部分消化的条件下将与相同蛋白质分子交联的所述RNA与RNAse接触。在一些实施方案中,所述方法还包括将与相同蛋白质分子交联的所述RNA连接至有助于所述RNA的回收的试剂。在一些实施方案中,所述连接包括将所述RNA的末端连接至所述试剂。在一些实施方案中,有助于所述RNA回收的所述试剂包括核酸。在一些实施方案中,所述核酸包括其上具有生物素的核酸。在一些实施方案中,所述其上具有生物素的核酸与所述RNA的所述末端的所述连接包括在将与相同蛋白质分子交联的所述RNA连接在一起以形成嵌合RNA之前将其上具有生物素的所述核酸连接至所述RNA的5'末端。在一些实施方案中,所述方法还包括从所述嵌合RNA的5'区域除去所述生物素。在一些实施方案中,所述方法还包括回收所述嵌合RNA。在一些实施方案中,所述方法还包括将所述嵌合RNA片段化。在一些实施方案中,所述嵌合RNA的所述片段化包括在有助于所述RNA部分消化的条件下使所述嵌合RNA与RNAse接触。在一些实施方案中,所述方法还包括反转录所述嵌合RNA以产生嵌合cDNA。在一些实施方案中,所述方法还包括测定所述嵌合RNA或嵌合cDNA中源自所述嵌合RNA或嵌合cDNA中的每个RNA的至少一部分序列。在一些实施方案中,该方法还包括鉴定存在于所述嵌合RNA中的RNA,从而鉴定在细胞中彼此相互作用的RNA。在一些实施方案中,鉴定出细胞中至少100个、至少500个、至少1000个或多于1000个RNA-RNA相互作用。在一些实施方案中,鉴定出在细胞中彼此相互作用的基本上所有的RNA。在一些实施方案中,鉴定出细胞中至少70%、至少80%、至少90%或超过90%的直接RNA-RNA相互作用。在一些实施方案中,在细胞中彼此相互作用的RNA的鉴定包括使用自动测序装置对所述嵌合RNA进行序列读段。在一些实施方案中,在细胞中彼此相互作用的RNA的所述鉴定包括从所有序列读段鉴定嵌合序列。在一些实施方案中,所述方法还包括使用计算机将嵌合RNA转化为注释的RNA簇。在一些实施方案中,所述方法还包括使用由计算机执行的统计检验来鉴定所述RNA簇之间的直接相互作用。在一些实施方案中,所述试剂包括核酸。在一些实施方案中,所述试剂包括化学化合物。
在一些实施方案中,提供了制备药物的方法,其中所述方法包括将使用本文所述任何实施方案的方法鉴定的试剂配制在药学上可接受的载体中。在一些实施方案中,通过用于鉴定候选治疗剂的方法来配制所鉴定的试剂,其中所述方法包括使用本文所述的任何实施方案的方法鉴定在细胞中彼此相互作用的RNA,并评估其用于减少或增加所述RNA的相互作用的能力,其中如果所述试剂能够减少或增加所述RNA的相互作用,则所述试剂是候选治疗剂。在一些实施方案中,用于鉴定在细胞中彼此相互作用的RNA的方法包括将RNA与蛋白质交联并将与相同蛋白质分子交联的RNA连接在一起以形成嵌合RNA。在一些实施方案中,所述RNA与蛋白质的交联在完整细胞上或在细胞裂解物中进行。在一些实施方案中,所述交联包括UV交联。在一些实施方案中,所述方法还包括将所述蛋白质与有助于所述蛋白质在表面上固定化的试剂相关联。在一些实施方案中,有助于固定化的所述试剂包括生物素。在一些实施方案中,该方法还包括将与相同蛋白质分子交联的所述RNA片段化。在一些实施方案中,所述片段化包括在有助于所述RNA部分消化的条件下将与相同蛋白质分子交联的所述RNA与RNAse接触。在一些实施方案中,所述方法还包括将与相同蛋白质分子交联的所述RNA连接至有助于所述RNA的回收的试剂。在一些实施方案中,所述连接包括将所述RNA的末端连接至所述试剂。在一些实施方案中,有助于所述RNA回收的所述试剂包括核酸。在一些实施方案中,所述核酸包括其上具有生物素的核酸。在一些实施方案中,所述其上具有生物素的核酸与所述RNA的所述末端的所述连接包括在将与相同蛋白质分子交联的所述RNA连接在一起以形成嵌合RNA之前将其上具有生物素的所述核酸连接至所述RNA的5'末端。在一些实施方案中,所述方法还包括从所述嵌合RNA的5'区域除去所述生物素。在一些实施方案中,所述方法还包括回收所述嵌合RNA。在一些实施方案中,所述方法还包括将所述嵌合RNA片段化。在一些实施方案中,所述嵌合RNA的所述片段化包括在有助于所述RNA部分消化的条件下使所述嵌合RNA与RNAse接触。在一些实施方案中,所述方法还包括反转录所述嵌合RNA以产生嵌合cDNA。在一些实施方案中,所述方法还包括测定所述嵌合RNA或嵌合cDNA中源自所述嵌合RNA或嵌合cDNA中的每个RNA的至少一部分序列。在一些实施方案中,该方法还包括鉴定存在于所述嵌合RNA中的RNA,从而鉴定在细胞中彼此相互作用的RNA。在一些实施方案中,鉴定出细胞中至少100个、至少500个、至少1000个或多于1000个RNA-RNA相互作用。在一些实施方案中,鉴定出在细胞中彼此相互作用的基本上所有的RNA。在一些实施方案中,鉴定出细胞中至少70%、至少80%、至少90%或超过90%的直接RNA-RNA相互作用。在一些实施方案中,在细胞中彼此相互作用的RNA的鉴定包括使用自动测序装置对所述嵌合RNA进行序列读段。在一些实施方案中,在细胞中彼此相互作用的RNA的所述鉴定包括从所有序列读段鉴定嵌合序列。在一些实施方案中,所述方法还包括使用计算机将嵌合RNA转化为注释的RNA簇。在一些实施方案中,所述方法还包括使用由计算机执行的统计检验来鉴定所述RNA簇之间的直接相互作用。在一些实施方案中,所述试剂包括核酸。在一些实施方案中,所述试剂包括化学化合物。
在一些实施方案中,提供一种药物,其中所述药物是使用本文所述任何实施方案的方法制备的。在一些实施方案中,该方法包括将使用本文所述的任何实施方案的方法鉴定的试剂配制在药学上可接受的载体中。在一些实施方案中,通过用于鉴定候选治疗剂的方法来配制所鉴定的试剂,其中所述方法包括使用本文所述的任何实施方案的方法鉴定在细胞中彼此相互作用的RNA,并评估其用于减少或增加所述RNA的相互作用的能力,其中如果所述试剂能够减少或增加所述RNA的相互作用,则所述试剂是候选治疗剂。在一些实施方案中,用于鉴定在细胞中彼此相互作用的RNA的方法包括将RNA与蛋白质交联并将与相同蛋白质分子交联的RNA连接在一起以形成嵌合RNA。在一些实施方案中,所述RNA与蛋白质的交联在完整细胞上或在细胞裂解物中进行。在一些实施方案中,所述交联包括UV交联。在一些实施方案中,所述方法还包括将所述蛋白质与有助于所述蛋白质在表面上固定化的试剂相关联。在一些实施方案中,有助于固定化的所述试剂包括生物素。在一些实施方案中,该方法还包括将与相同蛋白质分子交联的所述RNA片段化。在一些实施方案中,所述片段化包括在有助于所述RNA部分消化的条件下将与相同蛋白质分子交联的所述RNA与RNAse接触。在一些实施方案中,所述方法还包括将与相同蛋白质分子交联的所述RNA连接至有助于所述RNA的回收的试剂。在一些实施方案中,所述连接包括将所述RNA的末端连接至所述试剂。在一些实施方案中,有助于所述RNA回收的所述试剂包括核酸。在一些实施方案中,所述核酸包括其上具有生物素的核酸。在一些实施方案中,所述其上具有生物素的核酸与所述RNA的所述末端的所述连接包括在将与相同蛋白质分子交联的所述RNA连接在一起以形成嵌合RNA之前将其上具有生物素的所述核酸连接至所述RNA的5'末端。在一些实施方案中,所述方法还包括从所述嵌合RNA的5'区域除去所述生物素。在一些实施方案中,所述方法还包括回收所述嵌合RNA。在一些实施方案中,所述方法还包括将所述嵌合RNA片段化。在一些实施方案中,所述嵌合RNA的所述片段化包括在有助于所述RNA部分消化的条件下使所述嵌合RNA与RNAse接触。在一些实施方案中,所述方法还包括反转录所述嵌合RNA以产生嵌合cDNA。在一些实施方案中,所述方法还包括测定所述嵌合RNA或嵌合cDNA中的源自所述嵌合RNA或嵌合cDNA中的每个RNA的至少一部分序列。在一些实施方案中,该方法还包括鉴定存在于所述嵌合RNA中的RNA,从而鉴定在细胞中彼此相互作用的RNA。在一些实施方案中,鉴定出细胞中至少100个、至少500个、至少1000个或多于1000个RNA-RNA相互作用。在一些实施方案中,鉴定出在细胞中彼此相互作用的基本上所有的RNA。在一些实施方案中,鉴定出细胞中至少70%、至少80%、至少90%或超过90%的直接RNA-RNA相互作用。在一些实施方案中,在细胞中彼此相互作用的RNA的鉴定包括使用自动测序装置对所述嵌合RNA进行序列读段。在一些实施方案中,在细胞中彼此相互作用的RNA的所述鉴定包括从所有序列读段鉴定嵌合序列。在一些实施方案中,所述方法还包括使用计算机将嵌合RNA转化为注释的RNA簇。在一些实施方案中,所述方法还包括使用由计算机执行的统计检验来鉴定所述RNA簇之间的直接相互作用。在一些实施方案中,所述试剂包括核酸。在一些实施方案中,所述试剂包括化学化合物。
在一些实施方案中,提供了用于产生包含在细胞中彼此相互作用的RNA的嵌合RNA的方法,其中所述方法包括将RNA与蛋白质中间体和/或蛋白质复合体交联并将与蛋白质中间体和/或蛋白质复合体交联的RNA连接在一起以形成嵌合RNA,并且其中所述蛋白质复合体包含两种或更多种相互作用蛋白。在一些实施方案中,所述RNA与蛋白质中间体和/或蛋白质复合体的交联在完整细胞上或在细胞裂解物中进行。在一些实施方案中,所述交联包括UV交联。在一些实施方案中,所述方法还包括将所述蛋白质中间体和/或蛋白质复合体与有助于蛋白质中间体和/或蛋白质复合体在表面上固定化的试剂相关联。在一些实施方案中,有助于固定化的所述试剂包括生物素。在一些实施方案中,所述方法还包括将与所述至少一种蛋白质分子交联的所述RNA片段化。在一些实施方案中,片段化包括在有助于所述RNA的部分消化的条件下将与蛋白质中间体和/或蛋白质复合体交联的所述RNA与RNAse接触。在一些实施方案中,所述方法还包括将与蛋白质中间体和/或蛋白质复合体交联的所述RNA连接至有助于所述RNA的回收的试剂。在一些实施方案中,所述连接包括将所述RNA的末端连接至所述试剂。在一些实施方案中,有助于所述RNA回收的所述试剂包括核酸。在一些实施方案中,所述核酸包括其上具有生物素的核酸。在一些实施方案中,其上具有生物素的所述核酸与所述RNA的所述末端的连接包括在将与蛋白质中间体和/或蛋白质复合体交联的所述RNA连接在一起以形成嵌合RNA之前将其上具有生物素的所述核酸连接至所述RNA的5'末端。在一些实施方案中,所述方法还包括从所述嵌合RNA的5'区域除去所述生物素。在一些实施方案中,所述方法还包括回收所述嵌合RNA。在一些实施方案中,所述方法还包括将所述嵌合RNA片段化。在一些实施方案中,所述嵌合RNA的所述片段化包括在有助于所述RNA部分消化的条件下使所述嵌合RNA与RNAse接触。在一些实施方案中,所述方法还包括反转录所述嵌合RNA以产生嵌合cDNA。在一些实施方案中,该方法还包括鉴定存在于所述嵌合RNA中的RNA,从而鉴定在细胞中彼此相互作用的RNA。在一些实施方案中,鉴定出细胞中至少100个、至少500个、至少1000个或多于1000个RNA-RNA相互作用。在一些实施方案中,鉴定出在细胞中彼此相互作用的基本上所有的RNA。在一些实施方案中,鉴定出细胞中至少70%、至少80%、至少90%或超过90%的直接RNA-RNA相互作用。在一些实施方案中,在细胞中彼此相互作用的RNA的鉴定包括使用自动测序装置对所述嵌合RNA进行序列读段。在一些实施方案中,在细胞中彼此相互作用的RNA的所述鉴定包括从所有序列读段鉴定嵌合序列。在一些实施方案中,所述方法还包括使用计算机将嵌合RNA转化为注释的RNA簇。在一些实施方案中,所述方法还包括使用由计算机执行的统计检验来鉴定所述RNA簇之间的直接相互作用。在一些实施方案中,在细胞中彼此相互作用的所述RNA与所述蛋白质中间体或蛋白质复合体中的不同蛋白质交联。
在一些实施方案中,提供了包含与蛋白质中间体和/或蛋白质复合体交联的嵌合RNA的分离复合体,其中所述嵌合RNA包含在细胞中彼此相互作用的RNA,其中所述蛋白质复合体包含两个以上的相互作用蛋白质。在一些实施方案中,所述嵌合RNA包含与所述蛋白质中间体或蛋白质复合体中的不同蛋白质交联的RNA。
本文列出的每个参考文献通过引用整体并入本文。
参考文献
1.Engreitz,J.M.et al.RNA-RNA interactions enable specific targetingof noncoding RNAs to nascent Pre-mRNAs and chromatin sites.Cell 159,188-199,doi:10.1016/j.cell.2014.08.018(2014).
2.Ray,D.et al.A compendium of RNA-binding motifs for decoding generegulation.Nature 499,172-177,doi:10.1038/nature12311(2013).
3.Meister,G.Argonaute proteins:functional insights and emergingroles.Nat Rev Genet 14,447-459,doi:10.1038/nrg3462(2013).
4.Hafner,M.et al.Transcriptome-wide identification of RNA-bindingprotein and microRNA target sites by PAR-CLIP.Cell 141,129-141,doi:10.1016/j.cell.2010.03.009(2010).
5.Granneman,S.,Kudla,G.,Petfalski,E.&Tollervey,D.Identification ofprotein binding sites on U3snoRNA and pre-rRNA by UV cross-linking and high-throughput analysis of cDNAs.Proceedings of the National Academy of Sciencesof the United States of America 106,9613-9618,doi:10.1073/pnas.0901997106(2009).
6.Chi,S.W.,Zang,J.B.,Mele,A.&Darnell,R.B.Argonaute HITS-CLIP decodesmicroRNA-mRNA interaction maps.Nature 460,479-486,doi:10.1038/nature08170(2009).
7.Helwak,A.,Kudla,G.,Dudnakova,T.&Tollervey,D.Mapping the human miRNAinteractome by CLASH reveals frequent noncanonical binding.Cell 153,654-665,doi:10.1016/j.cell.2013.03.043(2013).
8.Kudla,G.,Granneman,S.,Hahn,D.,Beggs,J.D.&Tollervey,D.Cross-linking,ligation,and sequencing of hybrids reveals RNA-RNA interactions in yeast.ProcNatl Acad Sci U S A 108,10010-10015,doi:10.1073/pnas.1017386108(2011).
9.Nicolas,F.E.Experimental validation of microRNA targets using aluciferase reporter system.Methods in molecular biology 732,139-152,doi:10.1007/978-1-61779-083-6_11(2011).
10.Lal,A.et al.Capture of microRNA-bound mRNAs identifies the tumorsuppressor miR-34a as a regulator of growth factor signaling.PLoS Genet 7,e1002363,doi:10.1371/journal.pgen.1002363(2011).
11.Du,T.&Zamore,P.D.Beginning to understand microRNA function.CellRes17,661-663,doi:10.1038/cr.2007.67(2007).
12.Kalhor,R.,Tjong,H.,Jayathilaka,N.,Alber,F.&Chen,L.Genomearchitectures revealed by tethered chromosome conformation capture andpopulation-based modeling.Nature biotechnology 30,90-98,doi:10.1038/nbt.2057(2012).
13.Belton,J.M.et al.Hi-C:a comprehensive technique to capture theconformation of genomes.Methods 58,268-276,doi:10.1016/j.ymeth.2012.05.001(2012).
14.Baigude,H.,Ahsanullah,Li,Z.,Zhou,Y.&Rana,T.M.miR-TRAP:a benchtopchemical biology strategy to identify microRNA targets.Angew Chem Int Ed Engl51,5880-5883,doi:10.1002/anie.201201512(2012).
15.Loeb,G.B.et al.Transcriptome-wide miR-155 binding map revealswidespread noncanonical microRNA targeting.Mol Cell 48,760-770,doi:10.1016/j.molcel.2012.10.002(2012).
16.Wang,Z.et al.iCLIP predicts the dual splicing effects of TIA-RNAinteractions.PLoS Biol 8,e1000530,doi:10.1371/journal.pbio.1000530(2010).
17.Konig,J.et al.iCLIP reveals the function of hnRNP particles insplicing at individual nucleotide resolution.Nat Struct Mol Biol 17,909-915,doi:10.1038/nsmb.1838(2010).
18.Nowak,D.E.,Tian,B.&Brasier,A.R.Two-step cross-linking method foridentification of NF-kappaB gene network by chromatin immunoprecipitation.Biotechniques 39,715-725(2005).
19.Zeng,P.Y.,Vakoc,C.R.,Chen,Z.C.,Blobel,G.A.&Berger,S.L.In vivo dualcross-linking for identification of indirect DNA-associated proteins bychromatin immunoprecipitation.BioTechniques 41,694-698(2006).
20.Zhao,J.et al.Genome-wide identification of polycomb-associatedRNAs by RIP-seq.Mol Cell 40,939-953,doi:10.1016/j.molcel.2010.12.011(2010).
21.Yu,P.et al.Spatiotemporal clustering of the epigenome revealsrules of dynamic gene regulation.Genome Res 23,352-364,doi:10.1101/gr.144949.112(2013).
22.Ender,C.et al.A human snoRNA with microRNA-like functions.Mol Cell32,519-528,doi:10.1016/j.molcel.2008.10.017(2008).
23.Brameier,M.,Herwig,A.,Reinhardt,R.,Walter,L.&Gruber,J.Human box C/D snoRNAs with miRNA like functions:expanding the range of regulatoryRNAs.Nucleic Acids Res 39,675-686,doi:10.1093/nar/gkq776(2011).
24.Guttman,M.et al.Chromatin signature reveals over a thousand highlyconserved large non-coding RNAs in mammals.Nature 458,223-227,doi:10.1038/nature07672(2009).
25.Barabasi,A.L.&Oltvai,Z.N.Network biology:understanding the cell'sfunctional organization.Nat Rev Genet 5,101-113,doi:10.1038/nrg1272(2004).
26.Shalgi,R.,Pilpel,Y.&Oren,M.Repression of transposable-elements-amicroRNA anti-cancer defense mechanism?Trends in genetics:TIG 26,253-259,doi:10.1016/j.tig.2010.03.006(2010).
27.Yuan,Z.,Sun,X.,Liu,H.&Xie,J.MicroRNA genes derived from repetitiveelements and expanded by segmental duplication events in mammaliangenomes.PloS one 6,e17666,doi:10.1371/journal.pone.0017666(2011).
28.Schwartz,S.et al.Transcriptome-wide mapping reveals widespreaddynamic-regulated pseudouridylation of ncRNA and mRNA.Cell 159,148-162,doi:10.1016/j.cell.2014.08.028(2014).
29.Bellaousov,S.,Reuter,J.S.,Seetin,M.G.&Mathews,D.H.RNAstructure:webservers for RNA secondary structure prediction and analysis.Nucleic AcidsResearch 41,W471-W474,doi:Doi 10.1093/Nar/Gkt290(2013).
30.Gong,C.&Maquat,L.E.lncRNAs transactivate STAU1-mediated mRNA decayby duplexing with 3'UTRs via Alu elements.Nature 470,284-288,doi:10.1038/nature09701(2011).
31.Cooper,G.M.et al.Distribution and intensity of constraint inmammalian genomic sequence.Genome Res 15,901-913,doi:10.1101/gr.3577405(2005).
32.Kiss,T.,Fayet-Lebaron,E.&Jady,B.E.Box H/ACA smallribonucleoproteins.Mol Cell 37,597-606,doi:10.1016/j.molcel.2010.01.032(2010).
序列表
<110> Sheng Zhong 钟声
Tri Cong Nguyen 阮池公
<120> RNA STITCH SEQUENCING: AN ASSAY FOR DIRECT MAPPING OF RNA : RNAINTERACTIONS IN CELLS
RNA STITCH测序:用于直接映射细胞中RNA: RNA相互作用的测定
<130> UCSD089.001WO
<150> 62/053615
<151> 2014-09-22
<160> 21
<170> FastSEQ 用于Windows 版本4.0
<210> 1
<211> 24
<212> RNA
<213> 人工序列
<220>
<221> 尚未归类的特性
<222> (5)...(5)
<223> 生物素化
<220>
<223> 生物素标记的RNA接头
<400> 1
cuagtagccc augcaaugcg agga 24
<210> 2
<211> 24
<212> DNA
<213> 人工序列
<220>
<223> 互补的DNA寡核苷酸
<220>
<221> 尚未归类的特性
<222> (1)...(5)
<223> 核酸之间的硫代磷酸酯键
<400> 2
tcgcattgca tgggctacta gcat 24
<210> 3
<211> 20
<212> DNA
<213> 人工序列
<220>
<223> 3’反转录(RT)适配子
<220>
<221> 尚未归类的特性
<222> (1)...(1)
<223> 适配子4rApp
<220>
<221> 尚未归类的特性
<222> (20)...(20)
<223> 适配子3ddC
<400> 3
agatcggaag agcggttcag 20
<210> 4
<211> 53
<212> DNA
<213> 人工序列
<220>
<223> RT 引物
<220>
<221> 尚未归类的特性
<222> (1)...(1)
<223> 5phos
<220>
<221> 尚未归类的特性
<222> (1)...(2)
<223> N为A,C, T或G
<220>
<221> 尚未归类的特性
<222> (3)...(3)
<223> N为A或C
<220>
<221> 尚未归类的特性
<222> (4)...(4)
<223> N为G或A
<220>
<221> 尚未归类的特性
<222> (5)...(5)
<223> N为G, C或T
<220>
<221> 尚未归类的特性
<222> (6)...(6)
<223> N 为T或C
<400> 4
nnnnnnnnnn agatcggaag agcgtcgtgg atcctgaacc gctcttccga tct 53
<210> 5
<211> 10
<212> DNA
<213> 人工序列
<220>
<223> 条形码
<220>
<221> 尚未归类的特性
<222> (1)...(1)
<223> N为A,C, T或G
<220>
<221> 尚未归类的特性
<222> (2)...(2)
<223> N为A,C, T或G
<220>
<221> 尚未归类的特性
<222> (3)...(3)
<223> N为A,C, T或G
<220>
<221> 尚未归类的特性
<222> (4)...(4)
<223> N为A,C, T或G
<220>
<221> 尚未归类的特性
<222> (5)...(5)
<223> N为A或C
<220>
<221> 尚未归类的特性
<222> (6)...(6)
<223> N为G或A
<220>
<221> 尚未归类的特性
<222> (7)...(7)
<223> N为G, C或T
<220>
<221> 尚未归类的特性
<222> (8)...(8)
<223> N为T或C
<220>
<221> 尚未归类的特性
<222> (9)...(9)
<223> N为A, C, T或G
<220>
<221> 尚未归类的特性
<222> (10)...(10)
<223> N为A, C, T或G
<400> 5
nnnnnnnnnn 10
<210> 6
<211> 58
<212> DNA
<213> 人工序列
<220>
<223> Illumina PE PCR正向引物 1.0
<400> 6
aatgatacgg cgaccaccga gatctacact ctttccctac acgacgctct tccgatct 58
<210> 7
<211> 61
<212> DNA
<213> 人工序列
<220>
<223> PE PCR反向引物 2.0
<400> 7
caagcagaag acggcatacg agatcggtct cggcattcct gctgaaccgc tcttccgatc 60
t 61
<210> 8
<211> 28
<212> DNA
<213> 人工序列
<220>
<223> 切割_寡核苷酸
<220>
<221> 修饰的碱基
<222> (28)...(28)
<223> idT
<400> 8
gttcaggatc cacgacgctc ttcaaaat 28
<210> 9
<211> 19
<212> DNA
<213> 人工序列
<220>
<223>正向引物 DP5
<400> 9
cacgacgctc ttccgatct 19
<210> 10
<211> 20
<212> DNA
<213> 人工序列
<220>
<223> 反向引物 DP3
<400> 10
ctgaaccgct cttccgatct 20
<210> 11
<211> 24
<212> RNA
<213> 人工序列
<220>
<223> 生物素化的RNA接头
<220>
<221> 尚未归类的特性
<222> (5)...(5)
<223> 生物素化的
<400> 11
cuagtagccc augcaaugcg agga 24
<210> 12
<211> 24
<212> DNA
<213> 人工序列
<220>
<223> 含RNA接头的互补DNA链
<220>
<221> 尚未归类的特性
<222> (1)...(5)
<223> 核酸碱基之间的硫代磷酸酯键
<400> 12
tcgcattgca tgggctacta gcat 24
<210> 13
<211> 20
<212> DNA
<213> 人工序列
<220>
<223> 预腺苷化的RT适配子(无RNase的HPLC-纯化自IDT)
<220>
<221> 尚未归类的特性
<222> (1)...(1)
<223> 54rApp
<220>
<221> 尚未归类的特性
<222> (20)...(20)
<223> 3ddC
<400> 13
agatcggaag agcggttcag 20
<210> 14
<211> 52
<212> DNA
<213> 人工序列
<220>
<223> 用于ES-1样品的RT 引物
<220>
<221> 尚未归类的特性
<222> (1)...(1)
<223> 5Phos
<220>
<221> 尚未归类的特性
<222> (1)...(1)
<223> N为A,C, T或G
<220>
<221> 尚未归类的特性
<222> (2)...(2)
<223> N为A,C, T或G
<220>
<221> 尚未归类的特性
<222> (7)...(7)
<223> N为A,C, T或G
<220>
<221> 尚未归类的特性
<222> (8)...(8)
<223> N为A,C, T或G
<220>
<221> 尚未归类的特性
<222> (9)...(9)
<223> N为A,C, T或G
<400> 14
nnaggtnnna gatcggaaga gcgtcgtgga tcctgaaccg ctcttccgat ct 52
<210> 15
<211> 53
<212> DNA
<213> 人工序列
<220>
<223> 用于ES-2样品和MEF样品的RT 引物
<220>
<221> 尚未归类的特性
<222> (1)...(1)
<223> 5Phos
<220>
<221> 尚未归类的特性
<222> (1)...(1)
<223> N为A,C, T或G
<220>
<221> 尚未归类的特性
<222> (2)...(2)
<223> N为A,C, T或G
<220>
<221> 尚未归类的特性
<222> (7)...(7)
<223> N为A,C, T或G
<220>
<221> 尚未归类的特性
<222> (8)...(8)
<223> N为A,C, T或G
<220>
<221> 尚未归类的特性
<222> (9)...(9)
<223> N为A,C, T或G
<220>
<221> 尚未归类的特性
<222> (10)...(10)
<223> N为A,C, T或G
<400> 15
nncgccnnnn agatcggaag agcgtcgtgg atcctgaacc gctcttccga tct 53
<210> 16
<211> 53
<212> DNA
<213> 人工序列
<220>
<223> 用于ES-间接样品的RT 引物
<220>
<221> 尚未归类的特性
<222> (1)...(1)
<223> 5Phos
<220>
<221> 尚未归类的特性
<222> (1)...(1)
<223> N为A,C, T或G
<220>
<221> 尚未归类的特性
<222> (2)...(2)
<223> N为A,C, T或G
<220>
<221> 尚未归类的特性
<222> (7)...(7)
<223> N为A,C, T或G
<220>
<221> 尚未归类的特性
<222> (8)...(8)
<223> N为A,C, T或G
<220>
<221> 尚未归类的特性
<222> (9)...(9)
<223> N为A,C, T或G
<220>
<221> 尚未归类的特性
<222> (10)...(10)
<223> N为A,C, T或G
<400> 16
nncattnnnn agatcggaag agcgtcgtgg atcctgaacc gctcttccga tct 53
<210> 17
<211> 28
<212> DNA
<213> 人工序列
<220>
<223> 切割_寡核苷酸 (HPLC-纯化自IDT)
<220>
<221> 尚未归类的特性
<222> (28)...(28)
<223> idT
<400> 17
gttcaggatc cacgacgctc ttcaaaat 28
<210> 18
<211> 19
<212> DNA
<213> 人工序列
<220>
<223> 截短的PCR正向引物 DP5
<400> 18
cacgacgctc ttccgatct 19
<210> 19
<211> 20
<212> DNA
<213> 人工序列
<220>
<223> 截短的PCR 反向引物 DP3
<400> 19
ctgaaccgct cttccgatct 20
<210> 20
<211> 58
<212> DNA
<213> 人工序列
<220>
<223> Illumina PE PCR正向引物 1.0
<400> 20
aatgatacgg cgaccaccga gatctacact ctttccctac acgacgctct tccgatct 58
<210> 21
<211> 61
<212> DNA
<213> 人工序列
<220>
<223> Illumina PE PCR 反向引物 2.0
<400> 21
caagcagaag acggcatacg agatcggtct cggcattcct gctgaaccgc tcttccgatc 60
t 61

Claims (46)

1.一种用于产生嵌合RNA的方法,所述方法包含将细胞中彼此相互作用的RNA与蛋白质交联,将所述蛋白质与有助于将所述蛋白质在表面上固定化的第一试剂相连接,将与相同蛋白质分子交联的RNA的末端连接至有助于所述RNA回收的其上具有生物素的核酸;并将与相同蛋白质分子交联的RNA连接在一起以形成嵌合RNA,其中在所述交联之前不引入外源核苷酸或蛋白质编码基因,并且其中对多种蛋白质产生嵌合RNA。
2.根据权利要求1所述的方法,其中所述交联在完整细胞上或在细胞裂解物中进行。
3.根据权利要求1或2任一项所述的方法,其中所述交联包括UV交联。
4.根据权利要求1所述的方法,其中所述第一试剂包括生物素。
5.根据权利要求1或2所述的方法,其还包括将与所述相同蛋白质分子交联的所述RNA片段化。
6.根据权利要求5所述的方法,其中所述片段化包括在有助于所述RNA部分消化的条件下将与所述相同蛋白质分子交联的所述RNA与RNAse接触。
7.根据权利要求1所述的方法,其中所述其上具有生物素的核酸与所述RNA的所述末端的所述连接包括在将与相同蛋白质分子交联的所述RNA连接在一起以形成嵌合RNA之前将其上具有生物素的所述核酸连接至所述RNA的5'末端。
8.根据权利要求7所述的方法,其还包括从所述嵌合RNA的5'区域除去所述生物素。
9.根据权利要求8所述的方法,其还包括回收所述嵌合RNA。
10.根据权利要求9所述的方法,其还包括片段化所述嵌合RNA。
11.根据权利要求10所述的方法,其中所述嵌合RNA的所述片段化包括在有助于所述RNA部分消化的条件下使所述嵌合RNA与RNAse接触。
12.根据权利要求11所述的方法,其还包括反转录所述嵌合RNA以产生嵌合cDNA。
13.根据权利要求12所述的方法,其还包括测定所述嵌合RNA或嵌合cDNA中源自所述嵌合RNA或嵌合cDNA中每个RNA的至少一部分序列。
14.根据权利要求13所述的方法,其还包括鉴定存在于所述嵌合RNA中的RNA,从而鉴定在细胞中彼此相互作用的RNA。
15.根据权利要求14所述的方法,其中鉴定出所述细胞中至少100个、至少500个、至少1000个或多于1000个RNA-RNA相互作用。
16.根据权利要求14所述的方法,其中鉴定出在细胞中彼此相互作用的基本上所有的RNA。
17.根据权利要求14所述的方法,其中鉴定出所述细胞中至少70%、至少80%、至少90%或超过90%的直接RNA-RNA相互作用。
18.根据权利要求14所述的方法,其中在细胞中彼此相互作用的RNA的鉴定包括使用自动测序装置对所述嵌合RNA进行序列读段。
19.根据权利要求18所述的方法,其中在细胞中彼此相互作用的RNA的鉴定包括从所有序列读段中鉴定嵌合序列。
20.根据权利要求14所述的方法,其还包括使用计算机将所述嵌合RNA转化为注释的RNA簇。
21.根据权利要求20所述的方法,其还包括使用由计算机执行的统计检验来鉴定所述RNA簇之间的直接相互作用。
22.一种鉴定候选治疗剂的方法,其包括:
使用根据权利要求1所述的方法鉴定细胞中彼此相互作用的RNA;和
评估试剂减少或增加所述RNA的相互作用的能力,其中如果所述试剂能够减少或增加所述RNA的相互作用,则所述试剂是候选治疗剂。
23.根据权利要求22所述的方法,其中所述试剂包括核酸。
24.根据权利要求22所述的方法,其中所述试剂包括化学化合物。
25.一种用于产生嵌合RNA的方法,所述方法包括将在细胞中彼此相互作用的RNA与蛋白质中间体和/或蛋白质复合体交联,将所述蛋白质中间体和/或蛋白质复合体与有助于所述蛋白质中间体和/或蛋白质复合体在表面上固定化的第一试剂相连接,将与所述蛋白中间体和/或蛋白复合物交联的RNA的末端连接至促进所述RNA回收的其上具有生物素的核酸;并将与所述蛋白质中间体和/或蛋白质复合体交联的RNA连接在一起以形成嵌合RNA,并且其中所述蛋白质复合体包括两种以上的相互作用蛋白,其中在所述交联之前不引入外源核苷酸或蛋白质编码基因,并且其中对多种蛋白质产生嵌合RNA。
26.根据权利要求25所述的方法,其中所述交联在完整细胞上或在细胞裂解物中进行。
27.根据权利要求25或26所述的方法,其中所述交联包括UV交联。
28.根据权利要求25所述的方法,其中所述第一试剂包括生物素。
29.根据权利要求25或26所述的方法,其还包括将与所述蛋白质中间体和/或蛋白质复合体交联的所述RNA片段化。
30.根据权利要求29所述的方法,其中所述片段化包括在有助于所述RNA部分消化的条件下将与蛋白质中间体和/或蛋白质复合体交联的所述RNA与RNAse接触。
31.根据权利要求25所述的方法,其中其上具有生物素的所述核酸与所述RNA的所述末端的连接包括在将与蛋白质中间体和/或蛋白质复合体交联的所述RNA连接在一起以形成嵌合RNA之前将其上具有生物素的所述核酸连接至所述RNA的5'末端。
32.根据权利要求31所述的方法,其还包括从所述嵌合RNA的5'区域除去所述生物素。
33.根据权利要求32所述的方法,其还包括回收所述嵌合RNA。
34.根据权利要求33所述的方法,其还包括片段化所述嵌合RNA。
35.根据权利要求34所述的方法,其中所述嵌合RNA的所述片段化包括在有助于所述RNA部分消化的条件下使所述嵌合RNA与RNAse接触。
36.根据权利要求35所述的方法,其还包括反转录所述嵌合RNA以产生嵌合cDNA。
37.根据权利要求36所述的方法,其还包括测定所述嵌合RNA或嵌合cDNA中源自所述嵌合RNA或嵌合cDNA中每个RNA的至少一部分序列。
38.根据权利要求37所述的方法,其还包括鉴定存在于所述嵌合RNA中的RNA,从而鉴定在细胞中彼此相互作用的RNA。
39.根据权利要求38所述的方法,其中鉴定出细胞中至少100个、至少500个、至少1000个或多于1000个RNA-RNA相互作用。
40.根据权利要求38所述的方法,其中鉴定出在细胞中彼此相互作用的基本上所有的RNA。
41.根据权利要求38所述的方法,其中鉴定出所述细胞中至少70%、至少80%、至少90%或超过90%的直接RNA-RNA相互作用。
42.根据权利要求38所述的方法,其中在细胞中彼此相互作用的RNA的鉴定包括使用自动测序装置由所述嵌合RNA上进行序列读段。
43.根据权利要求42所述的方法,其中在细胞中彼此相互作用的RNA的鉴定包括从所有序列读段中鉴定嵌合序列。
44.根据权利要求43所述的方法,其还包括使用计算机将所述嵌合RNA转化为注释的RNA簇。
45.根据权利要求44所述的方法,其还包括使用由计算机执行的统计检验来鉴定所述RNA簇之间的直接相互作用。
46.根据权利要求25或26所述的方法,其中所述RNA与所述蛋白质中间体和/或蛋白质复合体中的不同蛋白质交联。
CN201580063376.XA 2014-09-22 2015-09-18 Rna stitch测序:用于直接映射细胞中rna:rna相互作用的测定 Active CN107109698B (zh)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US201462053615P 2014-09-22 2014-09-22
US62/053,615 2014-09-22
PCT/US2015/051075 WO2016048843A1 (en) 2014-09-22 2015-09-18 Rna stitch sequencing: an assay for direct mapping of rna : rna interactions in cells

Publications (2)

Publication Number Publication Date
CN107109698A CN107109698A (zh) 2017-08-29
CN107109698B true CN107109698B (zh) 2021-07-20

Family

ID=55581854

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201580063376.XA Active CN107109698B (zh) 2014-09-22 2015-09-18 Rna stitch测序:用于直接映射细胞中rna:rna相互作用的测定

Country Status (5)

Country Link
US (1) US20200190574A1 (zh)
EP (1) EP3198063A4 (zh)
JP (1) JP2017529104A (zh)
CN (1) CN107109698B (zh)
WO (1) WO2016048843A1 (zh)

Families Citing this family (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2017196264A1 (en) 2016-05-12 2017-11-16 Agency For Science, Technology And Research Ribonucleic acid (rna) interactions
CN110265084A (zh) * 2019-06-05 2019-09-20 复旦大学 预测癌症基因组中富含或缺失riboSnitch元件的方法及相关设备
CN110205365B (zh) * 2019-07-02 2023-07-25 中山大学孙逸仙纪念医院 一种高效研究rna相互作用组的高通量测序方法及其应用
WO2021113353A1 (en) * 2019-12-02 2021-06-10 Beth Israel Deaconess Medical Center, Inc. Methods for dual dna/protein tagging of open chromatin
CN111816250B (zh) * 2020-06-17 2022-02-15 华中科技大学 将大分子复合物结构映射到基因组和突变数据库的方法
CN113174429B (zh) * 2021-04-25 2022-04-29 中国人民解放军军事科学院军事医学研究院 一种基于邻位连接的检测rna病毒高级结构的方法
WO2023023584A2 (en) * 2021-08-19 2023-02-23 Eclipse Bioinnovations, Inc. Methods for detecting rna binding protein complexes

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP2581447A1 (en) * 2011-10-12 2013-04-17 Royal College of Surgeons in Ireland Selective isolation of a messenger RNA molecule having its cognate micro RNA molecules bound thereto
WO2013135910A1 (en) * 2012-03-16 2013-09-19 Max-Delbrück-Centrum für Molekulare Medizin Method for identification of the sequence of poly(a)+rna that physically interacts with protein
CN103983555A (zh) * 2014-05-28 2014-08-13 国家纳米科学中心 一种检测生物分子相互作用的方法

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2010033822A2 (en) * 2008-09-19 2010-03-25 Immune Disease Institute, Inc Therapeutic and diagnostic strategies
US8748354B2 (en) * 2011-08-09 2014-06-10 The Board Of Trustees Of The Leland Stanford Junior University RNA interactome analysis

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP2581447A1 (en) * 2011-10-12 2013-04-17 Royal College of Surgeons in Ireland Selective isolation of a messenger RNA molecule having its cognate micro RNA molecules bound thereto
WO2013135910A1 (en) * 2012-03-16 2013-09-19 Max-Delbrück-Centrum für Molekulare Medizin Method for identification of the sequence of poly(a)+rna that physically interacts with protein
CN103983555A (zh) * 2014-05-28 2014-08-13 国家纳米科学中心 一种检测生物分子相互作用的方法

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
Cross-linking, ligation, and sequencing of hybrids reveals RNA–RNA interactions in yeast;Grzegorz Kudla;《PNAS》;20110614;第108卷(第24期);第10014-10015页:Materials and Methods,第10013-10014页discussion,图1及其图注 *
Hyb: a bioinformatics pipeline for the analysis of CLASH (crosslinking, ligation and sequencing of hybrids) data.;Anthony J. Travis;《Methods》;20140228;第65卷(第3期);第264页第2,3节,图1 *
Mapping the Human miRNA Interactome by CLASH Reveals Frequent Noncanonical Binding;Aleksandra Helwak;《Cell》;20130425;第153卷(第3期);第655页左栏第2段, 第656页图1A及其图注 *
Transcriptome-wide identification of RNA-binding protein and microRNA target sites by PAR-CLIP.;Markus Hafner;《Cell》;20100430;第141卷(第1期);全文 *

Also Published As

Publication number Publication date
EP3198063A1 (en) 2017-08-02
EP3198063A4 (en) 2018-05-02
CN107109698A (zh) 2017-08-29
JP2017529104A (ja) 2017-10-05
US20200190574A1 (en) 2020-06-18
WO2016048843A1 (en) 2016-03-31

Similar Documents

Publication Publication Date Title
Jathar et al. Technological developments in lncRNA biology
CN107109698B (zh) Rna stitch测序:用于直接映射细胞中rna:rna相互作用的测定
Nguyen et al. Mapping RNA–RNA interactome and RNA structure in vivo by MARIO
Sun et al. Principles and innovative technologies for decrypting noncoding RNAs: from discovery and functional prediction to clinical application
US20220213533A1 (en) Method for generating double stranded dna libraries and sequencing methods for the identification of methylated
EP3765616B1 (en) Novel crispr dna and rna targeting enzymes and systems
Hafner et al. Genome-wide identification of miRNA targets by PAR-CLIP
US11466307B2 (en) Compositions for RNA-chromatin interaction analysis and uses thereof
JP6557151B2 (ja) 混合物中の核酸を配列決定する方法およびそれに関する組成物
US20100311602A1 (en) Sequencing method
EP2083090B1 (en) Nucleic acid interaction analysis
US20150045237A1 (en) Method for identification of the sequence of poly(a)+rna that physically interacts with protein
KR20230057395A (ko) 이중 가닥 파손의 단리 방법
JP2023547394A (ja) オリゴハイブリダイゼーションおよびpcrベースの増幅による核酸検出方法
WO2019168771A1 (en) Improved dna library construction of immobilized chromatin immunoprecipitated dna
EP2984182B1 (en) Targeted chromosome conformation capture
Spicuglia et al. An update on recent methods applied for deciphering the diversity of the noncoding RNA genome structure and function
Wang et al. Capture, amplification, and global profiling of microRNAs from low quantities of whole cell lysate
Nguyen Development of high-throughput technologies to map RNA structures and interactions
Becker Dissecting Gene Regulation at the RNA and Chromatin Levels
JP2023548857A (ja) ヘアピンオリゴヌクレオチド及びその使用
Evans Expanding High-Throughput Sequencing to Investigate RNA Biology
Hung RNA interactome identification by next-generation sequencing (RIINGS): a novel method for identifying microRNA-RNA interactome in exact correspondence
Sridhar RNA in the nucleus: insight into location and biological function
Kargapolova A novel crosslinking and immunoprecipitation method reveals the function of CSTF2tau in alternative processing of snRNAs

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant