CN116964220A - Rna和dna修饰的多路复用分析 - Google Patents

Rna和dna修饰的多路复用分析 Download PDF

Info

Publication number
CN116964220A
CN116964220A CN202180091957.XA CN202180091957A CN116964220A CN 116964220 A CN116964220 A CN 116964220A CN 202180091957 A CN202180091957 A CN 202180091957A CN 116964220 A CN116964220 A CN 116964220A
Authority
CN
China
Prior art keywords
nucleic acid
barcode
target nucleic
binding molecule
rna
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202180091957.XA
Other languages
English (en)
Inventor
G·施滕格尔
皇甫钰奾
J·桑托斯
B·珀斯
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Alida Biosciences
Original Assignee
Alida Biosciences
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Alida Biosciences filed Critical Alida Biosciences
Priority claimed from PCT/US2021/060829 external-priority patent/WO2022115608A1/en
Publication of CN116964220A publication Critical patent/CN116964220A/zh
Pending legal-status Critical Current

Links

Abstract

本文提供了分别用于跨转录组和基因组的RNA和DNA修饰的多路复用分析的组合物和方法。所述方法将靶核酸的非常规特征(例如,碱基修饰、主链修饰、损伤和/或结构元件)的分子识别与使用条形码将来自该识别事件的信息写入靶核酸的邻近遗传序列的步骤相结合。然后将得到的条形码编码的核酸转化成测序文库中,并通过DNA/RNA测序方法读取。该步骤揭示了条形码的序列,该条形码与靶核酸中的非常规特征相关联。本文描述的高通量分析方法允许定位靶核酸中的一个或多个修饰。该方法还允许平行鉴定数个或所有DNA/RNA修饰的性质和位置。

Description

RNA和DNA修饰的多路复用分析
相关申请的交叉引用
本申请要求2021年5月26日提交的美国临时申请63/193,402和2020年11月25日提交的美国临时申请63/118,409的优先权,出于所有目的通过引用其全部内容并入本文。
技术领域
本公开总体上涉及对核酸(包括RNA和DNA)的结构或非常规(noncanonical)特征的表观转录组(epitranscriptomic)、表观遗传(epigenetic)和其它修饰的鉴定和分析。
联邦资金支持条款
本发明是在美国政府的支持下完成的,由美国国家人类基因组研究所(NationalHuman Genome Research institute)授予的授权号为1R43HG012170-01支持。美国政府拥有本发明的某些权利。
序列表
本申请包含以ASCII格式电子提交的序列表,其全部内容通过引用并入本文。该ASCII副本创建于2021年11月24日,命名为ALID_001_02WO_SeqList_ST25.txt,大小为40千字节。
背景技术
表观遗传变化,包括核苷酸的化学改变,广泛存在于生物过程中,例如基因表达、基因沉默和对DNA损伤的反应中,并起主要作用。同样,RNA的化学修饰,称为表观转录组修饰,经常发生在细胞内转录期间或之后。
多种疾病、行为和其它健康指标与DNA的表观遗传变化相关,包括几乎所有类型的癌症、认知功能障碍和呼吸、心血管、生殖、自身免疫和神经行为疾病。然而,人们对表观遗传变化在整个基因组中的分布知之甚少,特别是与健康和疾病相关的变化。虽然已知一些表观转录组修饰的功能,但许多功能是未知的,主要是由于缺乏在整个细胞RNA中定位和定量这些修饰的分析方法。目前,几乎对表观转录组RNA修饰的相关水平及其在细胞中的变化一无所知,因为缺乏同时分析大量这些修饰的可靠、可行的方法。
化学衍生化方法、分子识别(通常使用抗体,用于富集和检测)和通过逆转录测序的组合已为有限数量的DNA和RNA修饰提供了分析方法。然而,这些方法缺乏高灵敏度,导致一些核酸降解或碎片化,并且通常不能用于以单碱基分辨率鉴定修饰的位置。此外,这些方法不适于多路复用。现有的对常见表观转录组RNA修饰进行测序的方法在检测到修饰的数量(相差超过一个数量级)和修饰位置的方面经常给出相互矛盾的结果。
因此,本领域需要用于鉴定、分析、定量和定位DNA和RNA修饰的改进的组合物和方法。这些进步将为发现健康和疾病的关键生物学调控机制以及开发新的医学治疗模式铺平道路。
发明内容
本文提供了用于鉴定和分析核酸(包括RNA和DNA)结构的表观转录组、表观遗传和其它化学修饰的组合物和方法。本公开提供了高度并行、灵敏、准确和高通量的方法,用于在单个分子水平上同时分析潜在的无限数量的DNA和/或RNA修饰。
在一些实施方案中,本公开提供了包含结合结构域和衔接子的核酸结合分子,其中所述结合结构域特异性结合DNA或RNA的非常规特征,其中所述衔接子包含对由所述结合结构域特异性结合的非常规特征独特的核酸条形码序列。
在一些实施方案中,本公开提供了制备核酸结合分子的方法,所述方法包括将衔接子连接至结合结构域,以形成衔接子结合结构域缀合物。
在一些实施方案中,本公开提供了用于分析多个靶核酸的方法,所述方法包括:将靶核酸与本文所述的核酸结合分子接触;(i)在基本上防止脱靶产生条形码编码的核酸的环境中,将核酸条形码转移至靶核酸上,以产生条形码编码的靶核酸,或(ii)产生靶核酸的条形码编码的拷贝;修饰条形码编码的靶核酸或其条形码编码的拷贝,使得非常规特征的位置可基于条形码编码的靶核酸或其条形码编码的拷贝的一级核酸序列进行鉴定;以及对条形码编码的靶核酸进行测序。
在一些实施方案中,本公开提供了用于检测和/或定量多个靶核酸中的两种或多种非常规特征的方法,所述方法包括:将靶核酸与至少两种核酸结合分子接触,其中每种核酸结合分子包含结合结构域和衔接子,其中每种核酸结合分子的结合结构域与DNA或RNA的不同的非常规特征结合,其中衔接子包含对由每种结合结构域特异性结合的非常规特征独特的核酸条形码序列;(i)在基本上防止脱靶产生条形码编码的核酸的环境中,将核酸条形码转移至靶核酸上,以产生条形码编码的靶核酸,或(ii)产生靶核酸的条形码编码的拷贝;修饰条形码编码的靶核酸或其条形码编码的拷贝,使得非常规特征的位置可基于条形码编码的靶核酸或其条形码编码的拷贝的一级核酸序列进行鉴定;以及对条形码编码的靶核酸进行测序。
在一些实施方案中,本公开提供了用于检测靶核酸中的非常规特征的方法,所述方法包括:将靶核酸与本文所述的核酸结合分子接触;(i)在基本上防止脱靶产生条形码编码的核酸的环境中,将核酸条形码转移至靶核酸上,以产生条形码编码的靶核酸,或(ii)产生靶核酸的条形码编码的拷贝;以及检测靶核酸或其拷贝中条形码的存在。
在一些实施方案中,本公开提供了以单碱基分辨率确定靶核酸中非常规特征位置的方法,所述方法包括:将靶核酸与本文所述的核酸结合分子接触;(i)在基本上防止脱靶产生条形码编码的核酸的环境中,将核酸条形码转移至靶核酸上,以产生条形码编码的靶核酸,或(ii)产生靶核酸的条形码编码的拷贝;以及检测靶核酸或其拷贝中条形码的存在;其中所述核酸结合分子包含具有以下一种或多种能力的结合结构域:在靶核酸中诱导突变,或防止聚合酶旁路并因此导致靶核酸复制过程中的截短。
在一些实施方案中,本公开提供包含碱基编辑酶的核酸结合分子,其中碱基编辑酶为脱氨酶。
本文还提供了包含与靶核酸结合的核酸结合分子的复合物。
本文还提供了与本文所述的核酸结合分子连接的底物。
本文还提供了与本文所述的核酸结合分子连接的聚合物。
参考以下详细描述、权利要求、实施方案、程序、化合物和/或组合物以及相关背景信息和参考文献(通过引用全部内容并入本文),本发明的这些和其它方面将变得显而易见。
附图说明
图1A-1D是显示本文描述的各种分子的功能元件的示意图。图1A显示了双链核酸加上碱基修饰(即,非常规特征)。图1B显示了具有碱基修饰的单链核酸。图1C显示了具有结构元件(即,非常规特征)的单链核酸。图1D显示了与衔接子(例如,包含条形码序列或由条形码序列组成的衔接子)缀合的结合结构域。
图1E-1G是显示复合物的示意图,所述复合物包含与靶核酸结合的本文所述的不同核酸结合分子。图1E显示了包含双链条形码的核酸结合分子与具有修饰的双链核酸的结合。图1F显示了包含单链条形码的核酸结合分子与具有修饰的单链核酸的结合。图1G显示了结构特异性核酸结合分子与具有非常规结构元件的单链核酸的结合。
图2A-2G是显示各种DNA衔接子的架构的示意图。图2A显示了包含UFP或URP的衔接子。图2B显示了可用于通过环化制备文库的衔接子。图2C显示了可用于通过连接进行条形码转移的衔接子。图2D显示了可用于通过引物延伸进行单个或多个条形码转移的衔接子。图2E显示了包含随机或靶向的脚和茎区用于内部引发和长阅读构建的衔接子。图2F显示了可用于内部引发和短阅读构建的衔接子。图2G显示了可用于通过引物延伸进行条形码编码并通过与DNA地址杂交将DNA编辑酶靶向结合结构域的衔接子。如图例所示,“UFP”是通用正向引物的缩写,“URP”是通用反向引物的缩写,“MBC”是修饰编码条形码的缩写,“UMI”是独特分子标识符的缩写,“CLS”是切割位点的缩写,“SP”是间隔区的缩写。
图3A-3E是显示不同衔接子转移方案的示意图,包括单链连接(图3A)、夹板连接(图3B)、引物或夹板延伸(图3C)、模板延伸(图3D)和双链连接(图3E)。
图4A-4D是显示复合物内衔接子转移的不同形式的示意图,包括识别元件的表面固定(图4A),通过多聚腺苷酸尾(poly-A tail)的RNA捕获(图4B),通过杂交探针的DNA或RNA捕获(图4C),和核酸靶的直接表面束缚(surface tethering)(图4D)。
图5A-5C是显示微珠上复合物内衔接子转移的不同形式和相关微珠库的组成的示意图。微珠可以用单一类型的核酸结合分子(图5A)或多种类型的核酸结合分子(图5B)来修饰。或者,微珠可以展示用于通过杂交捕获RNA分子的寡核苷酸(图5C)。
图6A-6D是显示将核酸修饰酶(在本实施例中为脱氨酶)靶向核酸修饰位点的不同架构的示意图。这些方法包括将脱氨酶束缚至与一抗结合的二抗上(图6A),将脱氨酶束缚至与核酸结合结构域连接的互补寡核苷酸(DNA地址)杂交的寡核苷酸上(图6B),以及将脱氨酶遗传融合到SpyCatcher蛋白上,该蛋白自发地与核酸结合结构域展示的肽SpyTag形成共价键(图6C)。或者,脱氨酶可以束缚至与一抗结合的蛋白G上(图6D)。核苷酸序列作为示例性的条形码编码位点提供(SEQ ID NO:52-54)。
图7是显示具有修饰分析的说明性RNA seq工作流程的示意图,其适于测量RNA修饰的化学计量和丰度。
图8是显示通过条形码连接和cDNA截短进行RNA分析的说明性方法的示意图。cDNA截短后,通过PCR扩增样品并为测序做准备。
图9是显示通过条形码连接和用胞嘧啶脱氨酶进行碱基编辑进行DNA分析的说明性方法的示意图。
图10是显示通过用腺苷脱氨酶进行碱基编辑和样品分离进行RNA分析的说明性方法的示意图。
图11是显示通过条形码连接和用二抗-腺苷脱氨酶缀合物进行碱基编辑进行RNA分析并保存链信息的说明性方法的示意图。
图12是显示用于RNA分析的说明性方法的示意图,其中靶RNA片段包含两种或多种修饰。cDNA洗脱后,通过PCR扩增样品并准备用于分析。
图13是显示多重RNA修饰的循环分析的说明性方法的示意图。在进行了图示的步骤后,所得的DNA构建体可以经逆转录并用于文库制备。
图14A是显示通过引物延伸和碱基编辑进行结合条形码编码的循环分析的说明性方法的示意图。
图14B还显示了使用由不同DNA地址(地址1,地址1’,地址2,地址2’)指向的差异碱基编辑进行循环分析的说明性方法。
图15A-15D是一系列示意图,显示了通过标签化进行RNA分析的说明性方法。
图16是显示具有长阅读构建的RNA分析的说明性方法的示意图。
图17A是将纳米体的尺寸与结合至二抗的一抗的尺寸进行比较的示意图。
图17B显示了纳米体的三维结构。图中显示了DNA衔接子、脱氨酶和表面的示例性连接位点。
图17C显示了用于衔接子的位点特异性连接(即,DNA条形码标记)和抗体固定化在底物表面上的说明性方法。
图18A-18B为显示用于测量模型系统中条形码串扰的说明性方法的示意图。
图19提供了通过ELISA获得的几种示例性RNA修饰特异性抗体及其靶的结合曲线。生物素化的RNA靶以高密度固定在链霉亲和素平板上,允许抗体在一定浓度范围内结合。结合曲线用1:1结合模型拟合,以导出解离常数(KD)。RNA靶是单链(ss-RNA)或双链RNA/DNA异源双链体(dsRNA/DNA),包含侧翼为简并序列的单个修饰。未修饰的简并序列用作阴性对照(无修饰)。Ab01至Ab19是抗体编号;实施例1中提供了抗体来源。抗体以高亲和力和特异性与其RNA靶结合。
图20A和20B显示了用于产生核酸结合分子的实验数据。使用HyNic(肼基-烟酰胺)化学,用DNA衔接子随机标记RNA修饰特异性抗体。在图20A中,一个示例性抗体以HyNic比抗体摩尔过量10至50倍进行标记。通过非还原SDS凝胶电泳的分析显示了相关的标记化学计量。图20B显示了用相同的DNA衔接子以20倍过量的HyNic标记几种RNA修饰特异性抗体的结果。获得的标记化学计量取决于抗体的同种型。
图21A-21E说明了不同抗体标记方法和标记化学计量的功能影响。图21A-21C显示了用HyNic化学随机标记抗体之前或之后的ELISA结合曲线。与未标记的抗体相比,核酸结合分子的亲和力降低了10-15倍。图21D-21E比较了通过随机HyNic化学或通过位点选择性聚糖化学对抗m6A抗体的标记。图21D显示了核酸结合分子的SDS凝胶,证明了1或2个衔接子与抗体的连接。图21E示出了通过ELISA测量的用聚糖标记的结合活性的保留。
图22显示了不同抗体对修饰的或未修饰的(N30)RNA靶的下拉的实验数据。在这个实验中,抗体被固定在蛋白G珠上,并与四种不同RNA靶的混合物一起孵育。每种抗体偏好其靶,特异性相对于N30对照介于3至44。特异性依赖于序列。
图23A-23D显示了通过将通用序列连接到3’端进行引物延伸来制备用于条形码编码的RNA文库的实验方法。图23A提供了通过均聚物加尾或通过连接引入已知序列(例如SEQID NO:55)的间隔区的方法的概述。图23B-23C提供了RNA靶的酶促A-尾的实验结果。图23B显示了通过向反应中加入poly-dT竞争寡核苷酸((dT)20)来控制A-尾大小的概念。在没有poly-dT竞争物的情况下,A-尾具有100至200b之间的宽尺寸分布。在poly-dT竞争物的情况下,A-尾长约25b。图23C显示了在不同温度和不同长度的poly-dT竞争物((dT)10=10b,(dT)20=20b,(dT)30=30b)下A-尾的实验结果。图23D显示了通过单链连接将通用序列连接到RNA的3’端的数据。将30b简并RNA文库连接到10b、20b、30b和50b通用序列上。连接产物的形成作为时间的函数作图,其揭示了中等长度(20和30b)的通用序列的反应速率更快。
图23E-23F提供了在不存在核酸结合分子的情况下通过引物延伸进行条形码编码的实验实例。设计这些实验是为了检测间隔区(参见通用序列)的长度、靶核酸的二级结构和反应条件对条形码完整性的影响。图23E比较了使用带有8b(adap-SP8)、10b(adap-SP10)或12b(adap-SP12)间隔区的DNA衔接子的条形码编码产量。尽管50b RNA靶(长RNA)的条形码编码产量都很低,但不管间隔区长度如何,50b DNA靶和15b RNA靶很容易用8b间隔区(adap-SP8)延伸。该结果表明,条形码编码的产量由靶间隔区的可及性决定,而对于较长的RNA来说,典型的稳定的二级结构可能会阻碍其接近。将间隔区长度从8b增加到12b不足以与分子内二级结构竞争。图23F显示了在较高的反应温度和更长的时间下,以及加入DMSO时,条形码编码产量总体提高。使用18b间隔区衔接子(adap-18SP)可以获得几乎完整的条形码编码。
图24A-24C显示了使用核酸结合分子对DNA和RNA靶进行条形码编码的实验结果。核酸结合分子包括实施例1中描述的RNA特异性抗体,其与条形码编码的DNA衔接子缀合。核酸结合分子固定在蛋白G珠上,并与两种核酸靶的等摩尔混合物一起孵育。在图24A-24B中,核酸结合分子拉下它们的同源靶,引物延伸混合物的加入触发条形码转移。结果表明,与游离衔接子相比,核酸结合分子的条形码编码更有效。图24A强调了适当间隔区长度的重要性。因为Ab05和Ab10在功能上受到标记的影响,所以需要12b间隔区来恢复它们的结合活性。对于随机标记的m6A抗体(Ab05),12b间隔区支持正确靶的条形码编码,而错误靶由抗肌苷抗体(Ab10)条形码编码。图24B显示,当进行位点选择性标记时,两种抗体都能够通过8b间隔区进行靶上条形码编码。图24C提供了使用蛋白G珠测定形式通过连接进行条形码编码的实例。m6A抗体(Ab01)用衔接子进行位点特异性标记,产生核酸结合分子(BAC01)。用BAC01条形码编码比游离衔接子的连接更有效。
图25描述了具有可调捕获分子(例如捕获探针)密度的微珠的制备。具有单分子距离的捕获分子的微珠提供了一种测定形式,用于对具有自由扩散的核酸结合分子进行条形码编码。核酸杂交探针(捕获分子)与钝化分子(passivating molecule)一起共固定。该图显示了通过qPCR测定的不同接枝与钝化分子比例下获得的每种微珠的分子数。
图26A-26C提供了溶液中和单分子珠上条形码编码的结果(参见图25),并突出了控制分子间距离的重要性。图26A说明了由链霉亲和素和生物素化DNA衔接子构成的核酸结合分子的制备。根据链霉亲和素与衔接子的比例,通过天然凝胶电泳鉴定,形成具有1、2、3或4个衔接子的核酸结合分子。选择链霉亲和素:衔接子比例为1:2的核酸分子用于条形码编码实验。图26B描绘了溶液中条形码编码的结果。生物素特异性核酸结合分子与生物素和m6A修饰RNA的混合物一起孵育。通过加入T4 RNA连接酶I(T4 Rnl1)开始通过连接进行条形码编码。通过添加0至25%的聚乙二醇(PEG8k),分子间间隔逐渐减小。条形码在低浓度的PEG8k下具有特异性,而在较高浓度下由于分子间的串扰使其越来越非特异性。图26C显示了相同测定组分的反应,但是RNA靶通过序列特异性杂交固定在微珠上。在该实验中,通过使用具有不同接枝:钝化分子比例的微珠来改变分子间距离(参见图25)。数据表明,接枝:钝化分子比例为1:100的微珠会产生串扰,而接枝:钝化分子比例为1:1000时条形码编码对生物素具有特异性。
图27是用于通过靶向脱氨基作用对RNA修饰进行位置标记的融合蛋白设计的蛋白结构域组织的示意图。APOBEC1=胞苷脱氨酶,YTH=m6A阅读蛋白,Spytag=用于共价靶向的肽,Spycatcher=用于共价靶向的蛋白,TEV=TEV蛋白酶的切割位点,His-tag=用于纯化的亲和标签,MBD=麦芽糖结合结构域,一种用于亲和纯化的标签,其改善了蛋白的溶解性。
图28显示了通过SDS凝胶电泳分析的不同融合蛋白的表达产物的尺寸、数量和细胞定位。
图29A-29B显示了通过Ni柱(图29A)和通过MBD柱(图29B)成功纯化MBD-TEV-APOBEC1-Spycatcher融合蛋白。
图30是设计用于通过靶向脱氨基作用对核酸修饰进行位置标记的融合蛋白的蛋白质结构域组织和氨基酸序列的示意图(SEQ ID NO:42和SEQ ID NO:43)。
图31显示了通过体外翻译表达的APOBEC融合蛋白的脱氨基活性。上:用于APOBEC活性测试的USER测定示意图。下:含有APOBEC酶的无细胞提取物的系列稀释液(1:1、1:2、1:4、1:8、1:16)的脱氨活性数据。前两条泳道是对照,显示通过USER切割的100%胞苷或100%尿嘧啶检测。
图32是中毒引物测定(poisoned primer assay,PPA)的示意图。PPA测定设计用于测量脱氨酶活性窗口的大小。用于检测脱氨酶活性的模板包含一系列由AGAA序列分开的胞苷。“U”=脱氨作用产生的尿嘧啶。灰色虚线=从引物寡核苷酸延伸的聚合或逆转录产物。“ddA”=双脱氧腺苷(反应终止剂)。凝胶示意图中的深灰色条带代表预期的凝胶分析结果。
图33显示了使用PPA测定测量商业APOBEC3A酶活性的实例。PPA实验在RNA和DNA靶上进行,分别使用逆转录酶(MuLV)和DNA聚合酶(Klenow exo-)作为PPA酶。APOBEC3A对DNA的活性很高,但对RNA的活性很弱。
图34说明了在通过Spytag肽靶向酶后,用于测量脱氨酶活性窗口大小的PPA测定。Spytag与Spycatcher快速反应,从而将APOBEC3A-Spycatcher融合蛋白束缚于DNA模板的特定位点(例如SEQ ID NO:50)。上:测定设计的示意图。“C”=胞苷作为编辑位点。箭头=不同位点的脱氨活性。颜色越深代表脱氨基活性越强,颜色越浅代表脱氨基活性越弱。下:测定中使用的靶寡核苷酸序列和用于分析的FAM标记引物(SEQ ID NO:51)。标明了SpyTag标记位点(远端和近端,分别为SEQ ID NO:48和SEQ ID NO:49)。
图35显示了通过hAPOBEC3A(E109Q)-SpyCatcher的靶向脱氨作用。在Spytag存在的情况下,与Spytag最接近的胞苷优选被编辑,表明成功的靶向。单独的hAPOBEC3A(E109Q)或不带SpyTag对照的hAPOBEC3A(E109Q)-SpyCatcher在所有可用位点表现出非特异性编辑。D:在第一个胞苷的远端位点具有SpyTag的寡核苷酸。P:在第一个胞苷的近端位点具有SpyTag的寡核苷酸。出现在凝胶底部附近的条带(即较小的条带)代表第一个胞苷处的编辑,出现在凝胶较高处的条带(即较大的条带)代表后面胞苷处的编辑。
图36是显示由靶标记促进的条形码编码的示意图。通过序列特异性杂交探针在磁珠上捕获序列(步骤A)。捕获的RNA进行逆转录(步骤B)。将不同条形码编码的i5-ME-抗体缀合物的个体或库加入到固定的RNA/DNA双链体中,并孵育以达到饱和结合(步骤C)。接下来,原位组装功能性转座体(transposome):在第一步中,通过向表面结合的i5-ME-抗体缀合物中加入游离的Tn5转座酶和ME’寡核苷酸产生抗体束缚的i5-Tn5单体(步骤D)。Tn5与此时的双链i5-ME/ME’衔接子结合。第二步,加入预先装载i7-ME/ME’衔接子的Tn5,产生i5-/i7-Tn5二聚体(步骤E)。转座体组装后,通过加入含MgCl2的缓冲液开始标记(步骤F),形成带有条形码编码的衔接子的产物。
具体实施方式
本文提供了分别用于跨转录组和基因组的RNA和DNA修饰的多路复用分析的组合物和方法。所述方法将靶核酸的非常规特征(例如,碱基修饰、主链修饰、损伤和/或结构元件)的分子识别与使用条形码将来自该识别事件的信息写入靶核酸的邻近遗传序列的步骤相结合。然后将所得的条形码编码的核酸转化成测序文库,并通过例如DNA/RNA测序方法或其它方法进行读取。该步骤揭示了条形码的序列,该条形码与靶核酸中的非常规特征相关联。测序也可以能够在靶核酸中定位非常规特征。本文描述的高通量分析方法允许平行鉴定数个或所有DNA/RNA修饰的性质和位置。这些方法还允许确定DNA/RNA修饰的丰度和化学计量。
在一些实施方案中,所公开的方法不仅用于鉴定靶核酸上的修饰,而且用于以高达1个碱基的分辨率定位靶核酸上的修饰。
下文使用说明性非限制性实施方案,并参考附图,对本发明进行了更全面的描述。然而,本发明可以以许多不同的形式实施,并且不应该解释为限于下面阐述的实施方案。相反,提供这些实施方案是为了使本公开彻底,并向本领域技术人员传达本文描述的范围。
除非另有定义,否则本文使用的所有技术和科学术语的含义与本公开所属领域的普通技术人员通常理解的含义相同。本文详细描述中使用的术语仅用于描述特定实施方案的目的,并不旨在进行限制。
本文提及的所有出版物、专利申请、专利、GenBank/Uniprot或其它登记号和其它参考文献均出于所有目的通过引用整体并入本文。
定义
本说明书和所附权利要求书中使用了以下术语。
单数形式“一个(a)”、“一种(an)”和“该(the)”也旨在包括复数形式,除非上下文另有明确说明。
此外,本文使用的术语“约”当指可测量的值,例如多核苷酸或多肽序列的长度、剂量、时间、温度等的量时,意在包括指定量的±20%、±10%、±5%、±1%、±0.5%或甚至±0.1%的变化。
本文使用的“和/或”是指并包含一个或多个相关所列项目的任何和所有可能的组合,以及在解释为替代(“或”)时是指并包含组合缺失。
除非上下文另有说明,否则本文所述的各种特征可用于任何组合。此外,在一些实施方案中,可以排除或省略本文阐述的任何特征或特征组合。为了进一步说明,例如,如果说明书指出特定的DNA碱基可以选自A、T、G和/或C,该语言也指出该碱基可以选自这些碱基的任何子集,例如A、T、G或C;A、T或C;T或G;只有C;等等,就像每个这样的子组合在本文被明确阐述一样。此外,这种语言也表明一个或多个特定的碱基可以被放弃。例如,在一些实施方案中,核酸不是A、T或G;不是A;不是G或C;等等,就像每一个这样的可能的放弃都在本文明确列出。
如本文所用,术语“减少(reduce)”、“减少(reduces)”、“减少(reduction)”和类似术语是指减少至少约10%、约15%、约20%、约25%、约35%、约50%、约75%、约80%、约85%、约90%、约95%、约97%或更多。
如本文所用,术语“增加(increase)”、“改善(improve)”、“增强(enhance)”、“增强(enhances)”、“增强(enhancement)”和类似术语表示增加至少约10%、约15%、约20%、约25%、约50%、约75%、约100%、约150%、约200%、约300%、约400%、约500%或更多。
术语“表观遗传变化”在本文中用于指活细胞、生物体等中的表型变化,其不在该细胞或生物体DNA的一级序列(即A、T、C和G)中编码。表观遗传变化可以包括,例如,核苷酸和/或组蛋白(即,参与细胞核中DNA卷曲和包装的蛋白质)的化学改变。说明性的DNA核苷酸修饰包括常见的表观遗传标记5-甲基胞苷(5mc)及其氧化产物5-羟甲基胞苷(5hmC)、5-甲酰胞苷(5fC)、5-羧甲基胞苷(5caC)。5mC在基因沉默中的作用是众所周知的,越来越多的证据表明氧化中间体5hmC、5fC和5caC在5mC去甲基化途径中的代谢功能。其他代谢相关的DNA修饰包括氧化、烷基化、二聚化、交联和其它与DNA损伤相关的化学修饰的核苷酸。这种DNA修饰与了解毒性有关,但当损伤发生时,它们在基因组中的分布并不清楚。DNA修饰可能具有额外的调控作用,例如作为启动子和基因组其它区域中G-四链体动力学的参与者。
术语“表观转录组变化”在本文中用于指在转录期间或之后发生的RNA的化学修饰。已知超过170种不同的RNA修饰,包括核碱基、核糖和磷酸二酯骨架的化学变化。在所有类型的RNA中(包括mRNA、tRNA、rRNA、IncRNA、miRNA)发现了RNA修饰,并且它们可以通过改变RNA结构和动力学和/或通过改变其它生物分子例如蛋白质对RNA的分子识别来改变细胞表型。表观转录组(epitranscriptome)的自然发生的化学RNA修饰调节RNA代谢中的广泛功能,包括RNA加工、剪接、聚腺苷酸化、编辑、结构、稳定性、定位、翻译起始和基因表达。表观转录组在不同的细胞类型、代谢条件和健康状态下有所不同,在细胞表型和功能的分化中起着至关重要(但了解甚少)的作用,并有助于解释具有相同初级遗传序列的相同生物体的细胞之间的显著表型差异。表观转录组的变化与疾病相关。例如,已知mRNA和ncRNA修饰在癌症干细胞分化期间调控时空基因表达变化,从而在疾病进展中发挥协调作用。此外,强烈怀疑RNA修饰是RNA病毒(例如冠状病毒科(Coronaviridae)和黄病毒科(Flaviviridae))破坏宿主并逃避先天免疫系统的关键机制。
术语“基因组”指细胞或细胞群体中的所有DNA,或特定类型DNA分子的选择(例如,编码DNA、非编码DNA、线粒体DNA或叶绿体DNA)。术语“转录组”指在一个或一群细胞中产生的所有RNA分子,或包含在完整转录组中的特定类型RNA分子的选择(例如,mRNA对ncRNA,或mRNA转录组中的特定mRNA)。在一些实施方案中,转录组包含多种不同类型的RNA,例如编码RNA(即翻译成蛋白质的RNA,例如mRNA)和非编码RNA。在转录组中发现的各种类型的RNA分子的非限制性列表包括:7SK RNA、信号识别颗粒RNA、反义RNA、CRISPR RNA、引导RNA、长非编码RNA、微小RNA、信使RNA、piwi-相互作用RNA、重复相关siRNA、反转录转座子、核糖核酸酶MRP、核糖核酸酶P、核糖体RNA、小Cajal体特异性RNA、小干扰RNA、smY RNA、小核仁RNA、小核RNA和反式作用siRNA,这些所有都可能包含修饰的核苷。
如本文所用,核酸的术语“非常规特征”是指核酸与其一级序列分离且不同的特征。例如,非常规特征可以是对DNA或RNA碱基,或者对DNA或RNA主链的化学修饰。在一些实施方案中,非常规特征可以是结构序列,例如发夹或环。在一些实施方案中,非常规特征可以是核酸损伤,例如DNA或RNA损伤。其它示例性的非常规结构包括但不限于Z-DNA结构、G-四链体、i-基序、凸起、脱碱基位点、三链体、三向接合、十字形结构、四环、核糖拉链、假结等。核酸,包括DNA和RNA,可能包含许多非常规特征。根据RNA和特征类型,这些修饰的频率变化很大,尽管可能发生成簇的修饰。在一些实施方案中,非常规特征可能由DNA和/或RNA损伤引起。术语“非常规特征”和“修饰”在本文中可以互换使用,这是本领域普通技术人员在上下文中可以理解的。
如本文所用,术语“靶核酸”指包含一个或多个非常规特征的核酸。当分子的结合结构域识别非常规特征时,本文所述的核酸结合分子可以结合靶核酸。
如本文所用,术语“底物”将用于指任何固体支持物。例如,底物可以是微珠、芯片、平板、载玻片、培养皿或三维基质。如本文所述,本文所述的核酸结合分子可与一种或多种底物连接,底物可与一种或多种核酸结合分子连接。底物可以由多种材料形成。在一些实施方案中,底物是树脂、膜、纤维或聚合物。在一些实施方案中,底物包括琼脂糖凝胶、琼脂糖、纤维素、聚苯乙烯、聚甲基丙烯酸酯和/或聚丙烯酰胺。在一些实施方案中,底物包括聚合物,例如合成聚合物。合成聚合物的非限制性列表包括:聚(乙二醇)、聚异腈肽聚合物(polyisocyanopeptide polymer)、聚乳酸-乙醇酸共聚物(polylactic-co-glycolicacid)、聚(ε-己内酯)(PCL)、聚乳酸、聚(3-羟基丁酸酯-共-3-羟基戊酸酯)(PHBV)、壳聚糖和纤维素。
如本文所用,术语“条形码”是指合成产生的核酸。可以将独特的条形码分配给特定的核酸修饰,以允许在本文所述的方法中特异性鉴定那些修饰。因此,如果在本文所述的一种或多种方法中,条形码被专用于鉴定非常规修饰,则该条形码对于非常规修饰是“独特的”。条形码可以使用本领域已知的方法产生,例如固相寡核苷酸合成。在一些实施方案中,条形码可以是DNA条形码(即,它可以包含DNA序列)。在一些实施方案中,条形码可以包含合成的DNA结构,例如肽核酸(PNA)或锁定核酸(LNA)。在一些实施方案中,合成DNA结构可以包含一个或多个修饰的碱基。在一些实施方案中,条形码可以是RNA条形码(即,它可以包含RNA序列)。条形码可以是任何长度,例如长度在约4个至约150个核苷酸的范围内。在一些实施方案中,条形码的长度为约4个至约20个核苷酸,例如长度为约4、约5、约6、约7、约8、约9、约10、约11、约12、约13、约14、约15、约16、约17、约18、约19或约20个核苷酸。典型地,条形码将包括在任何已知生物体的基因组中没有发现的合理设计的序列。然而,在一些实施方案中,条形码可以包括已知的序列。例如,条形码的序列可以包括与病原体或其它生物材料相关联的特征。在一些实施方案中,条形码可以包括被配置为促进测序反应的序列。术语“条形码”和“衔接子”在本文有时可以互换使用。如本领域将理解的,在一些实施方案中,衔接子可以由条形码组成。在一些实施方案中,衔接子可以包括条形码和一个或多个附加元件,如下所述以及如图2A-2G所示。
当用于核酸时,术语“扩增”是指产生核酸的拷贝。可以使用例如聚合酶链式反应(PCR)来扩增核酸。核酸扩增的替代方法包括解旋酶依赖性扩增(HAD)、重组酶聚合酶扩增(RPA)、环介导等温扩增(LAMP)、基于核酸序列的扩增(NASBA)、自持序列复制(3SR)和滚环扩增(RCA)。
如本文所用,术语“复合体内衔接子转移”或“复合体内条形码转移”是指将衔接子和/或条形码转移至靶核酸(例如,DNA或RNA),同时核酸结合分子与之结合。因此,在本文中,术语“复合物”是指靶核酸和其同源核酸结合蛋白之间形成的复合物。
如本文所用,术语“串扰”、“条形码串扰”和类似术语指核酸条形码的脱靶转移。例如,当核酸结合分子的条形码被转移到未与核酸结合分子的结合结构域结合的核酸时,可能发生条形码串扰。
术语“DNA地址”是指用作可编程结合元件以促进特定结合事件的DNA或RNA序列和/或其互补序列。例如,脱氨酶可与结合靶DNA或RNA序列(例如,第二DNA地址)的DNA或RNA序列(即,第一DNA地址)连接,从而将脱氨酶导向靶DNA或RNA序列。例如在图14B中示出了第一DNA地址与第二DNA地址的结合(例如,地址1和地址1’)。
“核酸损伤”例如“DNA损伤”或“RNA损伤”是核酸的化学修饰,其可作为内源过程和/或外源因素的结果而发生。例如,DNA损伤可能是由氧化损伤(例如8-氧鸟嘌呤)、与亲电试剂和烷化剂(包括存在于烧焦的肉和烟草烟雾中的亲电试剂和烷化剂)的反应(苯并[a]芘加合物和烷基化的核碱基)、UV损伤(环丁烷嘧啶二聚体和6-4嘧啶-嘧啶光产物)、金属络合(汞络合物和镀铂交联)引起。由于内源性过程而发生的DNA损伤经常发生——据估计,它们在每个细胞中每天发生约50000次。在遗传密码的复制过程中,DNA损伤通常被多种修复酶修复或被损伤旁路聚合酶旁路,后一过程导致突变。导致非自然细胞生长和增殖的突变是癌症的驱动因素。常规DNA测序很容易检测到突变,但使用标准DNA测序工作流程无法检测到损伤本身。损伤在整个基因组中不是均匀分布的,修复的功效与DNA位点和细胞状态有关。此外,最常见的癌症化疗药物(顺铂、吉西他滨等)诱导DNA损伤,因此绘制整个人类基因组的DNA损伤图为理解衰老和癌症病因学以及提高癌症化疗药物的有效性和降低其毒性提供了巨大的潜力。
核酸结合分子及其制备方法
本文提供了包含结合结构域和衔接子的核酸结合分子,下文更详细对它们中的每一个进行描述。
衔接子
如本文所用,术语“衔接子”指可连接至DNA或RNA分子末端并赋予某些功能的任何短核酸序列。例如,在一些实施方案中,衔接子可以促进DNA或RNA分子的测序和/或鉴定。
在一些实施方案中,衔接子包含5’磷酸。在一些实施方案中,衔接子包含3’磷酸。在一些实施方案中,衔接子包含5’磷酸和3’磷酸。在一些实施方案中,衔接子是单链的。在一些实施方案中,衔接子是双链的。在一些实施方案中,双链衔接子可以包含与互补寡核苷酸杂交的单链衔接子。
在一些实施方案中,衔接子可以是可切割的。例如,衔接子可以包含一个或多个切割位点。切割位点可以包括例如一个或数个尿嘧啶碱基、酶(例如限制性酶或其它核酸酶)识别序列、或合成的化学部分。
在一些实施方案中,衔接子包含通用正向引物(UFP)。在一些实施方案中,衔接子包含通用反向引物(URP)。在一些实施方案中,衔接子包括UFP和URP。在一些实施方案中,衔接子由UFP或URP组成。UFP和URP序列是非天然存在的DNA序列,只允许选择性扩增那些导入靶核酸(或其拷贝)的序列。在测序过程中,UFP和/或URP退火至DNA靶,为新DNA分子(即其拷贝)的延伸提供起始位点。说明性的UFP和URP的列表可以在万维网(网址Islabs.com/resources/universal-primer-list)上找到。在一些实施方案中,衔接子中使用(并转移至靶核酸)的通用引物序列与已建立的DNA测序平台相容,并可用于在下游PCR反应中引入表面衔接子,例如IIllumina P5和P7。
在一些实施方案中,衔接子可包括条形码,例如修饰编码条形码(MBC)。MBC是一个短的、独特的核酸序列。每个MBC用于与特定的表观遗传或表观转录组修饰结合,以帮助其鉴定和/或分析。例如,MBC可用于与特定非常规特征所特有的结合结构域缀合的衔接子中。在一些实施方案中,衔接子可以由条形码组成。在一些实施方案中,衔接子可以由MBC组成。
在一些实施方案中,衔接子可包含独特分子标识符(UMI)。UMI由短的随机序列组成,该序列具有4[UMI长度]的独特变体。例如,一个10碱基长的UMI可以编码1,048,576(410)个独特的分子。UMI用于测序读数的绝对定量,以便校正PCR扩增偏差和误差。例如,RNA样品可能包含转录A的100个拷贝和转录B的100个拷贝。在PCR扩增后,可以检测到转录A的1M拷贝和转录B的2M拷贝,因为转录B的扩增效率更高。然而,UMI标记将100个独特的UMI关联到A,将100个独特的UML关联到B。当对转录A使用UMI时,将检测到100个UMI变体的10,000个拷贝,而对转录B将检测到100个UMI变体的20,000个拷贝。计算UMI变体的数量而不是计算读数的数量提供了分子的绝对数量。
典型地,选择UMI长度以避免UMI冲突,UMI冲突定义为观察到具有相同序列和相同UMI但来源于两个不同基因组分子的两个读数的事件。UMI冲突是所用UMI数量、独特等位基因数量和群体中每个等位基因频率的函数。UMI的理想长度还取决于测序平台的错误率和测序深度。错误率较高的测序平台需要较长的UMI,因为UMI中的错误可能会导致意外的UMI冲突。靶向测序,其中所选基因座的测序深度大于全基因组测序,也使用更长的UMI,因为来自不同基因组分子的许多等位基因将共享相同的序列。避免过长的UMI,因为它们需要大量的测序循环,从而缩短了实际靶序列的读数。长UMI也可能导致PCR反应中的错误引发,并产生测序假象。UML通常在约3个至约25个核苷酸的范围内。在一些实施方案中,UMI的长度为约3至约20个核苷酸,例如长度为约3、约4、约5、约6、约7、约8、约9、约10、约11、约12、约13、约14、约15、约16、约17、约18、约19或约20个核苷酸。在一些实施方案中,UMI的长度可以是8个核苷酸。在一些实施方案中,UMI的长度可以是10个核苷酸。
图2A-2G示出了示例性的核酸衔接子架构,并且图例提供了其中使用的每个元件的描述。为了便于参考,这些衔接子被标记为A型、B型、C型、D型、E型、F型和G型。
图2A所示的衔接子(A型)代表可包含UFP或URP序列的最小衔接子。A型衔接子不包含任何可用于鉴定或分析非常规核酸特征的序列,而是用于构建文库。在一些实施方案中,A型衔接子与不包含非常规特征的核酸分子连接。在一些实施方案中,在将条形码衔接子引入靶核酸的另一端后,A型衔接子与含有非常规特征的核酸分子连接。例如,在添加一个或多个条形码后,A型衔接子可用于封闭和制备用于PCR扩增的核酸。
图2B-2G所示的衔接子各包含一个MBC,其对一个非常规DNA/RNA特征(例如,修饰的碱基)是特异性的。如图2B所示,B型衔接子可用于涉及cDNA环化的文库制备工作流程。它们包含一个切割位点(CLS)。B型衔接子的切割可以在PCR扩增之前进行。如图2C所示,C型衔接子缺少CLS,只含有一个通用引物区。C型衔接子可用于例如通过连接反应进行的条形码转移。它们可以与用于合成第二链的方法结合,例如根据Smart-Seq技术的模板转换寡核苷酸或另一种衔接子连接。如图2D所示,D型衔接子是专门为引物延伸编码而设计的。D型衔接子可在任一端包含一个3’端间隔区(SP)或两个间隔区(例如SP1,SP2)。通过将短间隔区(SP)连接到靶核酸的3’端,并将D型衔接子与互补间隔区结合,从而引发反应。间隔区可以在所有核酸结合分子和循环中通用,对每种类型的核酸结合分子是独特的,或者对条形码的每个循环是独特的。在一些实施方案中,衔接子包括一个、两个、三个或四个间隔区。在一些实施方案中,衔接子包括一个间隔区。在一些实施方案中,衔接子包括两个间隔区。在一些实施方案中,间隔区的长度为3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19或20个核苷酸。在一些实施方案中,间隔区长度为6个核苷酸。在一些实施方案中,间隔区长度为7个核苷酸。在一些实施方案中,间隔区长度为8个核苷酸。在一些实施方案中,间隔物包含SEQ ID NO:19。D型衔接子可用于例如通过引物延伸反应进行的单次条形码转移,或用于多次、连续的条形码转移。条形码的多个循环可用于在每个循环中查询一个或一个子集的非常规特征。例如,第一个编码循环可以使用对m5C特异的核酸结合分子。第二个编码循环可以使用对m6A特异的核酸结合分子。第三个编码循环可以使用对肌苷等特异的核酸结合分子。在另一个实施方案中,第一个循环可以查询m5C和m6A,第二个循环可以查询肌苷。在另一个实施方案中,第一编码循环可以查询所有非常规特征,并且第二编码循环可以第二次查询所有非常规特征。如图2E所示,E型衔接子采取具有随机脚的发夹形式,如果通过包含衔接子的核酸结合分子定位,其结合修饰附近的靶核酸。脚可以是随机序列或感兴趣的靶区域。此外,它们可能含有修饰的碱基,可提高核酸双链体的解链温度,并抵消逆转录酶和DNA聚合酶引起的链置换。在一些实施方案中,发夹的茎区稳定退火,并且尽可能短以最小化冗余测序内容。类似于间隔区,茎在所有核酸结合分子中可以是通用的或多样的。在一些实施方案中,环区是可切割的。例如,E型衔接子可用于内部引发和长阅读构建。如图2F所示,F型衔接子是E型衔接子的改进型,包括一个断开的环路。F型衔接子的整体架构可以是Y形、L形或其组合。如图2G所示,G型衔接子是通过包括DNA地址而从D型衔接子衍生来的。DNA地址可以包含在任何衔接子架构中。
在一些实施方案中,衔接子包括UFP、URP或UFP和URP。在一些实施方案中,衔接子包括UFP和/或URP,并且还包括MBC。在一些实施方案中,衔接子包括UFP和/或URP、MBC和UMI。在一些实施方案中,衔接子包括UFP和/或URP、MBC、UMI和CLS。在一些实施方案中,衔接子包括UFP和/或URP、MBC、UMI、CLS和SP。在一些实施方案中,衔接子包括UFP、CLS、URP、UMI和MBC。在一些实施方案中,衔接子包括UFP、UMI和MBC。在一些实施方案中,衔接子包括URP、UMI和MBC。在一些实施方案中,衔接子包括第一SP、MBC、UMI和第二SP。
在一些实施方案中,衔接子具有发夹形状。在一些实施方案中,包含MBC的衔接子具有发夹形状。在一些实施方案中,包含MBC的衔接子具有发夹形状,其中发夹包含长度为4-20个碱基对的茎区和两个随机或靶向的脚,其中每个脚的长度为约4-10个碱基对。
在一些实施方案中,衔接子具有L形、Y形或其组合。在一些实施方案中,具有L形或Y形的衔接子包括UFP、MBC和URP。在一些实施方案中,具有L形或Y形的衔接子包含UFP、MBC和URP,其中衔接子包含长度为约4至约20个碱基对的茎区,并且进一步包含随机或靶向的脚,其中每个脚具有约4-10个碱基对的长度。
在一些实施方案中,本文所述的衔接子可包含一个或多个接头,例如有助于将结合结构域连接至衔接子的接头。接头可以包括聚乙二醇、碳氢化合物、肽、DNA或RNA。接头的长度可以不同。当DNA或RNA的非常规特征远离核酸序列的5’端或3’端时,可以使用较长的接头。当DNA或RNA的非常规特征相对接近核酸序列的5’端或3’端时,可以使用较短的接头。
在一些实施方案中,衔接子或其中包含的接头序列是可切割的。例如,衔接子可以包含一个或多个切割位点。衔接子可以是化学、光化学或酶促可切割的。切割位点可以包括例如一个或数个尿嘧啶碱基、酶(例如限制性酶或其它核酸酶)识别序列、或合成的化学部分,例如二硫化物、碳酸酯、腙、顺式乌头基或β-葡萄糖苷酸。
如下文进一步详述,可使用条形码转移反应将衔接子融合至单链或双链靶核酸(例如,DNA或RNA)。
在一些实施方案中,引物延伸包括将3’poly-rA尾附加到RNA靶。在一些实施方案中,引物延伸包括将3’poly-rA尾附加到RNA靶上,如图23A所示。使用任何已知的聚(A)聚合酶(例如大肠杆菌聚(A)聚合酶)通过聚腺苷酸化来附加3’poly-rA尾。在一些实施方案中,RNA靶与聚(A)聚合酶和竞争性poly-dT寡核苷酸一起孵育。用聚(A)聚合酶和竞争性poly-dT寡核苷酸的共同处理来控制附加的3’poly-rA尾的长度。典型地,聚腺苷酸化产生平均约150个碱基的3’poly-rA尾长度。在一些实施方案中,3’poly-rA尾的长度为约5、约10、约15、约20、约25、约30、约35、约40、约45、约50、约55或约60个碱基。
在一些实施方案中,引物延伸包括将3’poly-U尾、3’poly-G尾、3’poly-A尾或3’poly-G尾附加至RNA靶。使用任何已知的聚(U)聚合酶(例如粟酒裂殖酵母(Schizosaccharomyces pombe)Cid1)添加均聚物尾。在一些实施方案中,RNA靶与聚(U)聚合酶、GTP和竞争性poly-dC寡核苷酸一起孵育。用聚(U)聚合酶和竞争性poly-dC寡核苷酸的共同处理来控制附加的3’poly-G尾的长度。在一些实施方案中,3’poly-G尾的长度为约5、约10、约15、约20、约25、约30、约35、约40、约45、约50、约55或约60个碱基。
在一些实施方案中,衔接子包括SEQ ID NO:56。在一些实施方案中,衔接子包括SEQ ID NO:57。在一些实施方案中,衔接子包括SEQ ID NO:6。在一些实施方案中,包含间隔区的衔接子包含SEQ ID NO:25。在一些实施方案中,包含间隔区的衔接子包含SEQ ID NO:26。在一些实施方案中,包含间隔区的衔接子包含SEQ ID NO:27。在一些实施方案中,包含间隔区的衔接子包含SEQ ID NO:38。在一些实施方案中,生物素衔接子包含SEQ ID NO:33。在一些实施方案中,DBCO标记的衔接子包含SEQ ID NO:22。在一些实施方案中,位点点击(site-clicked)的衔接子包含SEQ ID NO:39。
结合结构域
如本文所用,术语“结合结构域”指任何核酸、多肽等,其结合靶核酸的非常规特征,例如修饰的核苷。术语“结合结构域”在本文中可与术语“结合物”、“识别元件”、“抗体”等互换使用,如本领域技术人员将从上下文中理解的。在一些实施方案中,结合结构域结合靶核酸的非常规特征。在一些实施方案中,结合结构域不结合非常规特征侧翼的任何核酸特征。在一些实施方案中,结合结构域结合(i)靶核酸的非常规特征,和(ii)非常规特征侧翼的一个或多个核酸特征(例如,核碱基、糖、磷酸或其组合)。在一些实施方案中,结合结构域可以结合保守序列基序。例如,m6A经常出现在以下基序中:GG(m6A)CT。因此,当结合结构域结合m6A时,它也可以结合与其相邻的一个或多个核酸(例如GG或CT)。作为另一个实例,结合结构域可以结合tRNA的全部或部分反密码子环。在一些实施方案中,结合结构域结合tRNA,其中结合结构域结合tRNA上的修饰和已知序列。
本文所述的核酸结合分子包含一个或多个结合结构域,其中所述结合结构域特异性结合DNA或RNA的非常规特征。本文所述的结合结构域可以是能够识别并结合靶核酸的非常规特征的任何蛋白质、核酸或其片段或衍生物。例如,在一些实施方案中,结合结构域包括抗体、适体、阅读蛋白(reader protein)、书写蛋白(writer protein)、擦除蛋白(eraserprotein)、工程化大分子支架、工程化蛋白质支架、或选择性共价捕获试剂、或其片段或衍生物。在一些实施方案中,结合结构域包含IgG抗体、抗原结合片段(Fab)、单链可变片段(scFv)或重链或轻链单结构域(VH和VL)。在一些实施方案中,结合结构域包含重链抗体(hcAb)或hcAb的VHH结构域(纳米体)。在一些实施方案中,结合结构域包含工程蛋白质支架,例如附着蛋白(adnectin)、亲和体(affibody)、affilin、抗运载蛋白(anticalin)、atrimer、高亲合性多聚体(avimer)、双环肽(bicyclic peptide)、centyrin、cys-knot、darpin、fynomer、kunitz结构域、obody或pronectin。
IgG抗体是免疫球蛋白的主要同种型。IgG包含两条相同的重链和两条相同的轻链,它们通过二硫键共价连接并稳定。IgG通过重链(VH)和轻链(VL)的可变N端结构域和六个互补决定区(CDR)识别抗原。与一些修饰的DNA和RNA碱基结合的抗体可以从市场上买到。例如,一些公司出售hm5C的特异性抗体,包括活性基序(Active Motif)和西格玛(Sigma)。Eurogentec S.A.(比利时)销售一种与m5C结合的单克隆抗体。Megabase ResearchProducts(美国)出售与m5C6-甲基腺苷和7-甲基鸟苷结合的兔多克隆血清。Abcam(美国)销售针对RNA修饰m6A、ac4C、m1A、m2、2G、m4C、m2A、m6、6A和m8A的重组抗体。
结合修饰碱基的抗体也可以根据本领域普通技术人员已知和实践的方法开发。在一些实施方案中,抗体可以是单克隆抗体、多克隆抗体或其功能片段或变体。本文使用的术语“抗体”涵盖任何具有所需特异性的结合域的特异性结合底物。因此,该术语涵盖抗体的抗体片段、衍生物、功能等同物和同源物,包括包含免疫球蛋白结合结构域的任何多肽,无论是天然的还是合成的、单克隆的还是多克隆的。还包括包含与另一种多肽融合的免疫球蛋白结合结构域或等同物的嵌合分子。
在一些实施方案中,结合域可以包括纳米体。纳米体包含重链抗体的单一可变结构域(VHH),由骆驼科动物和数种软骨鱼类产生。VHH结构域包含三个CDR,与IgG抗体的CDR相比,这三个CDR扩大了,并且提供了与IgG尺寸相似的尺寸的抗原相互作用表面(即,约)。纳米体以与IgG抗体相似的亲和力结合抗原,并提供了与之相关的几个优势:它们更小(15kDa),由于二硫键更少而对还原环境更不敏感,更易溶解,并且没有翻译后糖基化。纳米体可以在细菌表达系统中产生,因此它们可以通过噬菌体和其它展示技术进行亲和力和特异性成熟。其它优点包括改进的热稳定性和溶解性,以及直接进行位点特异性标记。由于其尺寸小,纳米体可以形成凸形的副表位,使其适合结合难以接近的抗原。生产纳米体的说明性方法包括用感兴趣的抗原免疫相应的动物(例如骆驼),通过进一步发展现有的原始文库,或通过其组合。
在一些实施方案中,结合域包含阅读蛋白(reader protein)、书写蛋白(writerprotein)或擦除蛋白(eraser protein)。“阅读蛋白”是选择性识别并结合DNA或RNA上特定化学修饰的蛋白。“书写蛋白”是对DNA或RNA添加特定化学修饰的蛋白。“擦除蛋白”是从DNA或RNA中去除特定化学修饰的酶。在一些实施方案中,结合结构域包含阅读蛋白、书写蛋白或擦除蛋白的片段或衍生物。在一些实施方案中,结合结构域包含工程化形式的阅读蛋白、书写蛋白或擦除蛋白,例如已经被工程化以保留核酸结合但缺乏任何酶活性的形式。表1和表2中列出了可用于本文所述结合结构域的示例性阅读蛋白、书写蛋白和擦除蛋白。其他阅读蛋白、书写蛋白和擦除蛋白在以下万维网址中列出:rnawre.bio2db.com。
表1:阅读蛋白、书写蛋白和擦除蛋白
表2:RNA修饰蛋白,由此产生的RNA修饰,以及与癌症发展的关系
/>
/>
/>
图例:W:书写蛋白,E:擦除蛋白,R:阅读蛋白,TS:肿瘤抑制基因,Onc:致癌基因。
RNA修饰:m1A:1-甲基腺苷、ms2i6A:2-甲硫基-N6-异戊烯基-腺苷、i6A:N6-异戊烯基腺苷(N6-lisopentenyladenosine)、m6A:N6-甲基腺苷、m3C:3-甲基胞嘧啶、m5C:5-甲基胞嘧啶、ac4C:N4-乙酰胞嘧啶、m7Gpp(pN):7-甲基鸟苷帽、m7G:7-甲基鸟苷内、m2,2G:N2,N2-二甲基鸟苷、m2G:N2-甲基鸟苷、Q:辫苷(queuosine)、yWet等:怀丁苷(Wybutosine)及衍生物、m5U:5-甲基尿苷、ncm5U:5-氨甲酰基-甲基尿苷、mcm5U:5-甲氧羰基-甲基尿苷、mcm5s2U:5-甲氧基羰基甲基-2-硫尿苷、D:二氢尿苷、Ψ:假尿苷、Nm:2’-O-甲基核苷酸、m(pN):5’磷酸单甲基化、A变为I:腺苷脱氨、C变为U:胞嘧啶脱氨。RNA修饰酶类:ADAR1-3:腺苷脱氨酶RNA特异性1-3、ALKBH1/3/5/8:AlkB同系物1/3/5/8、APOBEC1/3G:载脂蛋白B mRNA编辑酶催化亚基1/3G、BCDIN3D:含有BCDIN3结构域的RNA甲基转移酶、BUD23:RRNA甲基转移酶和核糖体成熟因子、CDK5RAP1:CDK5调控亚基相关蛋白1、CMTR1/2:帽甲基转移酶1/2、CTU1/2:胞质硫尿苷酸酶亚基1/2、DKC1:角化不良蛋白假尿苷合酶1、DNMT2:tRNA天冬氨酸甲基转移酶1、DUS2:二氢尿苷合成酶2、ELP3:延伸体乙酰转移酶复合物亚基3、FTO:FTOα-酮戊二酸依赖性双加氧酶,HENMT1:HEN甲基转移酶1、METTL1/2/3/6/8/14/16:甲基转移酶样-1/2/3/6/8/16,NAT 10:N-乙酰转移酶10、NSUN1-5:NOP2/Sun RNA甲基转移酶1-5、NUDT16:Nudix水解酶16、RNMT:RNA鸟嘌呤-7甲基转移酶、TGT:Queuine TRNA-核糖基转移酶催化亚基1、TRIT1:tRNA异戊烯基转移酶1、TRMT1/2A/2B1/5/6/10C/11/61A/61B/112:tRNA甲基转移酶亚基、TYW2:tRNA-YW合成蛋白2同源物。
在一些实施方案中,结合结构域包含阅读蛋白。在一些实施方案中,结合结构域包含选自NUDT16和YTHDC2的阅读蛋白。NUDT是U8 snoRNA脱帽酶(参见,例如,Uniprot登录号Q96DE0)。YTHDC2是3’-5’RNA解旋酶(参见,例如,Uniprot登录号Q9H6S0)。在一些实施方案中,结合结构域包含NUDT16或YTHDC2的片段或衍生物。
在一些实施方案中,结合结构域包含书写蛋白。在一些实施方案中,结合结构域包含选自DNTM1、DNTM3A/B、NAT10、METTL3、METTL8、METTL15、TRM、BMT、DUS2、PUS和NSUN2的书写蛋白。DNMT1和DNTM3A/B是DNA(胞嘧啶-5)-甲基转移酶。NAT10是RNA胞苷乙酰转移酶(参见,例如,Uniprot登录号Q9H0A0)。METTL3是N6-腺苷-甲基转移酶催化亚基(参见,例如,Uniprot登录号Q86U44)。NSUN2是RNA胞嘧啶C(5)-甲基转移酶(参见,例如,Uniprot登录号Q08J23)。在一些实施方案中,结合结构域包含为NAT10、METTL3或NSUN2的片段或衍生物的书写蛋白。
在一些实施方案中,结合结构域包含擦除蛋白。在一些实施方案中,结合结构域包含选自FTO、ALKBH3和ALKBH5的工程擦除蛋白。FTO是α-酮戊二酸依赖性双加氧酶(参见例如Uniprot登录号Q9C0B1)。ALKBH3是α-酮戊二酸依赖性双加氧酶alkB同源物3(参见,例如,Uniprot登录号Q96Q83)。ALKBH5是RNA脱甲基酶(参见,例如,Uniprot登录号Q6P6C2)。在一些实施方案中,结合结构域包含为FTO、ALKBH3或ALKBH5的片段或衍生物的书写蛋白。
可选择和/或工程化结合结构域以结合DNA或RNA的任何非常规特征。例如,非常规特征可以是修饰的碱基、DNA损伤、修饰的主链或结构元件。在一些实施方案中,结合结构域可以结合两个或多个非常规特征。在一些实施方案中,结合结构域结合具有相同结合基序的突变家族。例如,在一些实施方案中,结合结构域结合5-甲基胞苷(5mC)及其氧化产物5-羟甲基胞苷(5hmC)、5-甲酰胞苷(5fC)。
在一些实施方案中,结合域结合经修饰的碱基和/或核苷。在一些实施方案中,结合结构域接触至少一种、至少两种或至少三种修饰的核苷。在一些实施方案中,结合结构域接触至少一种修饰的核苷。在一些实施方案中,结合结构域接触至少一种修饰的核苷和与其相邻的一个或多个核苷酸。表3A提供了可能存在于人体和其它生物中的示例性修饰核苷。表3B列出了已知存在于人体中的修饰核苷。其它修饰的碱基和核苷列在万维网址genesilico.pl/modomics/modifications上。
表3A:修饰的核苷
/>
*如本领域技术人员所理解的,通常出现在RNA中的修饰的碱基/核苷有时可能出现在DNA中,并且通常出现在DNA中的修饰的碱基/核苷有时可能出现在RNA中。
表3B:人体内出现的修饰核苷
/>
在一些实施方案中,结合结构域结合下列一种或多种修饰的核苷:3-甲基胞苷(m3C)、5-甲基胞苷(m5C)、N4-乙酰胞苷(ac4C)、假尿苷(Ψ)、1-甲基腺苷(m1A)、N6-甲基腺苷(m6A)、肌苷(I)、7-甲基鸟苷(m7G)、二氢尿苷(D)、3-甲基尿苷(m3U)、5-甲基尿苷(m5U)、1-甲基鸟苷(m1G)、N2-甲基鸟苷(m2G)、5-甲基脱氧胞苷(m5dC)、N4-甲基脱氧胞苷、5-羟甲基胞苷(5-hmC)、5-羟甲基脱氧胞苷(5hmdC)、5-羧基脱氧胞苷(5cadC)、5-甲酰基胞苷(5fC)、5-甲酰基脱氧胞苷(5fdC)、6-甲基脱氧腺苷、N7-甲基鸟苷(m7G)、2,7,2’-甲基鸟苷或核糖甲基化(Nm)。
在一些实施方案中,非常规特征为:3-甲基胞苷(m3C)、5-甲基胞苷(m5C)、N4-乙酰胞苷(ac4C)、假尿苷(Ψ)、1-甲基腺苷(m1A)、N6-甲基腺苷(m6A)、肌苷(I)、7-甲基鸟苷(m7G)、二氢尿苷(D)、3-甲基尿苷(m3U)、5-甲基尿苷(m5U)、1-甲基鸟苷(m1G)、N2-甲基鸟苷(m2G)、5-甲基脱氧胞苷(m5dC)、N4-甲基脱氧胞苷、5-羟甲基胞苷(5-hmC)、5-羟甲基脱氧胞苷(5hmdC)、5-羧基脱氧胞苷(5cadC)、5-甲酰基胞苷(5fC)、5-甲酰基脱氧胞苷(5fdC)、6-甲基脱氧腺苷、N7-甲基鸟苷(m7G)、2,7,2’-甲基鸟苷或核糖甲基化(Nm)。
在一些实施方案中,所述结合结构域与核酸损伤结合,所述核酸损伤由自然发生的氧化或紫外光诱导的损伤,或由外源试剂导致的聚化加合物(bulky adduct)形成或碱基烷基化产生。在一些实施方案中,核酸损伤是8-氧代鸟嘌呤(8-oxoG)、一个或多个脱碱基位点、顺铂交联、苯并(a)芘二醇环氧化物(BPDE)-加合物、环丁烯嘧啶二聚体(CPD)、嘧啶-嘧啶酮(6-4)光产物(6-4PP)、6-O-甲基鸟嘌呤(O6-MedG)或O6-(羧甲基)-2’-脱氧鸟苷(O6-CMdG)。在一些实施方案中,非常规特征是由自然发生的氧化或紫外光诱导的损伤,或由外源试剂导致的聚化加合物形成或碱基烷基化产生的核酸损伤。在一些实施方案中,核酸损伤是8-氧代鸟嘌呤(8-oxoG)、一个或多个脱碱基位点、顺铂交联、苯并(a)芘二醇环氧化物(BPDE)-加合物、环丁烯嘧啶二聚体(CPD)、嘧啶-嘧啶酮(6-4)光产物(6-4PP)、6-O-甲基鸟嘌呤(O6-MedG)或O6-(羧甲基)-2’-脱氧鸟苷(O6-CMdG)。
在一些实施方案中,结合结构域结合结构元件。该结构元件可以是例如发夹或环。其它说明性的结构元件包括但不限于Z-DNA结构、G-四链体、I-基序、凸起、三链体、三向接合、十字形结构、四环、核糖拉链、假结等。
核酸结合分子及其制备方法
本文提供了包含结合结构域和衔接子的核酸结合分子。本文所述的核酸结合分子的示例性结构如图1D所示。结合结构域特异性结合DNA或RNA的非常规特征。衔接子包含对由结合结构域特异性结合的非常规特征独特的核酸条形码序列。
在一些实施方案中,本文所述的核酸结合分子可进一步包含一个或多个额外特征。例如,在一些实施方案中,包含结合结构域和衔接子的核酸结合分子可以进一步包含酶或其催化片段。在一些实施方案中,包含结合结构域和衔接子的核酸结合分子可以进一步包含缺乏催化活性的酶(或其片段)。在一些实施方案中,酶是DNA N-糖基化酶或RNA N-糖基化酶,或其催化片段或变体。这些酶产生的脱碱基位点可以阻止逆转录。
在一些实施方案中,核酸结合分子可以包含碱基编辑酶。在一些实施例中,酶是DNA甲基化酶、RNA甲基化酶或假尿苷合酶。碱基编辑酶可以是例如APOBEC家族的胞苷脱氨酶、ADAR家族的腺苷脱氨酶或其催化片段或变体。在一些实施方案中,碱基编辑酶是APOBEC1。在一些实施方案中,碱基编辑酶是APOBEC3A。在一些实施方案中,胞苷脱氨酶包含麦芽糖结合结构域以增强脱氨酶的溶解性。在一些实施方案中,胞苷脱氨酶包含Spycatcher肽以增强脱氨酶的溶解性。在一些实施方案中,胞苷脱氨酶包含麦芽糖结合结构域和Spycatcher肽以增强脱氨酶的溶解性。在一些实施方案中,核酸结合分子可以包含转座酶。转座酶可以是例如DDE转座酶、酪氨酸(Y)转座酶、丝氨酸(S)转座酶、Y2转座酶或Y1转座酶。在一些实施方案中,转座酶是Tn5转座酶,或其片段或衍生物。在一些实施方案中,转座酶是睡美人转座酶,或其片段或衍生物。在一些实施方案中,核酸结合分子可包含整合酶,例如HIV整合酶。
本文所述的核酸结合分子可特异性结合RNA或可特异性结合DNA。在一些实施方案中,核酸结合分子可以结合RNA和DNA。在一些实施方案中,核酸结合分子可以特异性结合具有一个或多个非常规特征的双链核酸,例如如图1A所示的修饰核苷。在一些实施方案中,核酸结合分子可以特异性结合具有一个或多个非常规特征的单链核酸,例如如图1B所示的修饰核苷或如图1C所示的结构特征。
在一些实施方案中,核酸结合分子与靶核酸的非常规特征的结合将DNA衔接子定位在靶核酸的5’端或3’端附近。例如,图1E描述了核酸结合分子与双链靶核酸上的修饰核苷的结合,其将双链条形码定位在靶核酸的3’端附近。图1F描述了核酸结合分子与单链靶核酸上的修饰核苷的结合,其将单链条形码定位在靶核酸的3’端附近。图1G描述了核酸结合分子与靶核酸的结构特征的结合,将条形码定位在其3’端附近。
可使用标准分子生物学和/或化学技术制备核酸结合分子。例如,在一些实施方案中,结合结构域与衔接子连接,形成结合结构域-衔接子缀合物。在一些实施方案中,DNA衔接子包含接头,结合结构域通过接头与衔接子连接。在一些实施方案中,连接步骤可以是共价或非共价的。
可使用几种不同的方法将衔接子(例如,包含接头的衔接子)连接至结合结构域。在一些实施方案中,衔接子可以通过随机标记与结合结构域共价连接。例如,衔接子上的NHS活化残基可以与结合结构域的表面暴露蛋白质赖氨酸残基的一个或多个胺基基团反应。类似地,马来酰亚胺活化的衔接子可以与结合结构域的天然或工程化半胱氨酸反应。如本领域技术人员所理解的,连接到结合结构域的衔接子的数量将分别取决于活性赖氨酸或半胱氨酸残基的数量,以及反应条件的选择。
也可使用位点选择性连接方法。位点特异性连接避免了影响结合结构域的功能,并允许可重复生产材料。结合结构域的位点选择性内部标记可以通过使用具有工程化氨酰基-tRNA合成酶/tRNA对的细胞系遗传引入非天然氨基酸来实现。引入的非天然氨基酸表现出可以进行生物正交反应的部分。通常使用的是带有能够进行铜催化的叠氮炔环加成(CuAAC)、光活化的1,3-偶极环加成、应变促进的叠氮炔环加成(SPAAC)或逆电子需求Diels-Alder环加成(IEDDA)的部分的氨基酸。一种用于结合结构域的C端或N端标记的说明性通用方法包括使用蛋白质或肽标签。蛋白标签例如SNAP标签、Halo标签、Spy标签、Snoop标签、Isopep标签、Dog标签、Sdy标签、Clip标签是小蛋白质或肽,其可被克隆到任何表达结合结构域的基因中,以将结合结构域表达为蛋白质-标签融合蛋白。这种蛋白标签可以自催化与特定肽或底物形成共价键。例如,SpyCatcher是一种识别SpyTag的113个残基的蛋白质,SpyTag是一种13个残基的肽,可以容易地与任何DNA序列结合。在一些实施方案中,SpyCatcher包括SEQ ID NO:12。在一些实施方案中,SpyTag包含SEQ ID NO:10。根据结合结构域的分子量,较小的肽标签可能是优选的。肽标签长度通常为10-12个氨基酸,在酶介导的连接反应中起作用。在一些实施方案中,用于标记C端的肽包含SEQ ID NO:11(LCxPxR,其中x是任何氨基酸)。用于将结合结构域连接至衔接子上的酶介导反应的例子包括但不限于:(a)使用生物素连接酶来连接AP肽标记的结合结构域和生物素DNA(例如,生物素-接头),(b)使用硫辛酸连接酶来连接LAP肽标记的结合结构域和硫辛酸DNA(例如,硫辛酸-接头),(c)使用微管蛋白酪氨酸连接酶来连接Tub-tag标记的结合结构域和酪氨酸修饰的DNA(例如,酪氨酸修饰的接头),(d)使用分选酶A(Sortase-A),其与LPxTG肽和甘氨酸修饰的DNA(例如甘氨酸修饰的接头)反应,等等。此外,可以使用一组金属离子识别标签和小分子结合基序。肽标记的另一个变体是重定向内源性细胞机制,以将醛引入重组蛋白。该方法利用甲酰甘氨酸生成酶(FGE),其在保守的13位残基共有序列内将半胱氨酸共翻译转化为甲酰甘氨酸(FGly)。得到的醛标记物可以容易地用连接到DNA上的活性胺进行修饰。
在一些实施方案中,衔接子可通过生物正交化学与结合结构域连接。在一些实施方案中,结合结构域包括促进条形码连接的DNA寡核苷酸。具有氨基、叠氮基、生物素和炔修饰的DNA寡核苷酸很容易从商业上获得。炔和叠氮寡核苷酸可以在铜催化的叠氮炔环加成或应变促进的叠氮炔环加成中连接至非天然氨基酸上。氨基寡核苷酸可与甲酰甘氨酸反应,甲酰甘氨酸可通过13aa保守序列内的甲酰甘氨酸生成酶(FGE)引入结合结构域。
一旦本文所述的核酸结合分子与靶核酸结合,就形成复合物。在一些实施方案中,复合物的核酸结合分子可以与靶核酸共价连接。例如,核酸结合分子可以化学和/或光化学方式与靶核酸连接。
衔接子/条形码转移反应
本文所述的核酸结合分子可用于将衔接子转移至靶核酸,例如包含条形码的衔接子。因此,在一些实施方案中,本文所述的核酸结合分子可用于将条形码转移至靶核酸。条形码可以是MBC,即,对于由核酸结合分子的结合结构域特异性结合的非常规特征来说是独特的条形码。转移了衔接子的靶核酸在本文中被称为“标记的靶核酸”、“标记的靶”或类似术语。转移了条形码的靶核酸在本文中被称为“条形码编码的靶核酸”、“条形码编码的靶”或类似术语。衔接子转移到靶核酸上的反应在本文中称为“衔接子转移反应”。类似地,条形码转移到靶核酸的反应在本文中被称为“条形码转移反应”。
衔接子/条形码转移的目标是将衔接子/条形码共价连接至靶核酸分子。例如,在一些实施方案中,通过将条形码共价连接至靶核酸的5’或3’端,来将条形码转移至靶核酸。在一些实施方案中,通过将条形码或其互补序列共价连接至靶核酸的5’或3’端,来将条形码转移至靶核酸。在一些实施方案中,标记的/条形码编码的核酸分子可以在下游步骤中测序。在一些实施方案中,可以对标记的靶核酸的拷贝进行测序。图3A-3E提供了衔接子/条形码转移反应的实例。
对于DNA和RNA靶核酸,用于衔接子转移的酶不同,并取决于衔接子的架构。可以使用一种或多种酶,例如T4 DNA连接酶、环化连接酶(CircLigase)、Klenow片段或Bsu DNA聚合酶,将衔接子/条形码转移到靶DNA上。可以使用例如T4 RNA连接酶、T4 RNA连接酶2或RtcB连接酶将衔接子/条形码转移到靶RNA上。例如,图3A说明了单链DNA衔接子(例如,包含条形码或由条形码组成的衔接子)与单链靶核酸的连接。在一些实施方案中,其中靶核酸是RNA,衔接子包含5’磷酸,并由T4 RNA连接酶催化。或者,衔接子可以是5’-预腺苷酸化的,并通过T4 RNA连接酶2转移,以避免对ATP的需要,并将反应限制在单次转换。或者,可以使用未磷酸化的衔接子,并且可以使用RtcB连接酶将其转移至3’-磷酸化的RNA。在一些实施方案中,其中靶核酸是DNA,衔接子/条形码可以在由环化连接酶催化的反应中转移。
夹板连接(Splint ligation)也可用于将衔接子/条形码转移到靶核酸上。在夹板连接中,桥接DNA或RNA寡核苷酸用于将两个核酸连接在一起,这两个核酸可以通过一种或多种酶连接。例如,可以使用T4连接酶和与RNA互补的桥接RNA寡核苷酸进行两个RNA(例如,靶RNA和衔接子/条形码)的夹板连接。例如,图3B所示的夹板核酸构建体可以通过使用夹板连接来产生。当退火为DNA或RNA互补体时,SplintR连接酶可用于将RNA的3’端连接到5’-pDNA上。如果靶分子是DNA,可以使用酶(例如T4 DNA连接酶、T3 DNA连接酶、T7 DNA连接酶或大肠杆菌DNA连接酶)进行夹板DNA连接。
夹板延伸和引物延伸是可用于将衔接子/条形码转移至靶核酸的其它方法。“夹板”是跨越连接接口(ligation junction)的序列。当使用引物时,它通常不跨越连接接口。图3C描述了通过夹板延伸的衔接子转移,其中使用衔接子序列作为夹板,制备了靶核酸分子序列的拷贝。如果靶核酸分子是RNA,该反应可以经逆转录酶以及完全或部分匹配的DNA衔接子的3’端催化,逆转录酶例如禽成髓细胞瘤病毒(AMV)逆转录酶和莫洛尼鼠白血病病毒(M-MuLV,MMLV)。因此,夹板的3’端可能含有随机碱基或合成的通用碱基,它们混杂配对。如果靶分子是DNA,可以用任何合适的具有或不具有3’至5’核酸外切酶活性的DNA聚合酶来延伸引物。
在一些实施方案中,模板延伸可用于将衔接子/条形码转移至靶核酸。图3D显示了通过引物延伸直接进行衔接子转移,其中衔接子通过聚合酶使用衔接子的结合拷贝作为模板复制到靶核酸中。在一些实施方案中,聚合酶在能够产生短间隔序列的温度下工作,并且没有3’至5’核酸外切酶和3’加尾活性。对于DNA衔接子/条形码,该反应可以由DNA聚合酶(例如Klenow片段、T7、T4或Bsu DNA聚合酶)催化。图3D可以作为多循环编码过程的一部分来执行,或者作为单循环来执行。在一些实施方案中,作为最后一步,用通用引物给产生的条形码编码核酸加帽。通用引物作为逆转录的起始位点。在一些实施方案中,逆转录引物包含SEQ ID NO:8。
此外,双链连接也可用于将衔接子/条形码转移至靶核酸。例如,图3E示出了用于衔接子/条形码转移的双链连接。在一些实施方案中,靶核酸分子可以是双链DNA,或RNA/DNA杂交体,并且可以具有平端或粘端。双链DNA的平端和粘端连接可以由T4、T3、T7或大肠杆菌连接酶催化。
在一些实施方案中,可以使用化学连接将衔接子/条形码转移至靶核酸。
通过空间分离促进复合体内衔接子/条形码转移的方法
可通过反应中涉及的分子的空间分离来促进复合物内衔接子/条形码转移。具体而言,可以通过分离核酸结合分子、靶核酸和/或包含与靶核酸结合的核酸结合分子的复合物来促进转移,使得核酸结合分子只能与其结合的靶核酸相互作用。
可在允许空间分离的几种不同环境中进行条形码转移。例如,可以通过高度稀释包含与溶液中靶核酸结合的核酸结合分子的复合物来实现空间分离。该溶液必须足够稀释,以允许包含与其中存在的靶核酸结合的核酸结合分子的任何复合物的空间分离。这种空间分离促进了复合物内的条形码转移,并基本上防止了核酸-结合分子复合物之间的条形码转移。在一些实施方案中,稀释溶液中复合物的浓度小于10nM、小于1nM、小于0.1nM、小于0.01nM或小于0.001nM。
在一些实施方案中,可通过表面固定实现空间分离。例如,本文所述的核酸结合分子可以通过连接至底物上而固定。每个底物可以仅包含一种类型的核酸结合分子(图5A),或者可以包含至少两种、至少三种、至少四种、至少五种或更多种类型的核酸结合分子(图5B)。每种“类型”的核酸结合分子结合不同的非常规特征和/或包含不同的条形码。在一些实施方案中,第一核酸结合分子与底物表面上的第二核酸结合分子在空间上分离。可以定制表面结合能力和形式,以实现靶分子和修饰的绝对或相对定量。
可与核酸结合分子连接的示例性底物包括,例如,微珠、芯片、平板、载玻片、培养皿或三维基质。在一些实施方案中,底物是树脂、膜、纤维或聚合物。在一些实施方案中,底物是微珠,例如包含琼脂糖凝胶、琼脂糖、纤维素、聚苯乙烯、聚甲基丙烯酸酯和/或聚丙烯酰胺的微珠。在一些实施方案中,底物是磁珠。在一些实施方案中,支持物是聚合物,例如合成聚合物。合成聚合物的非限制性列表包括:聚苯乙烯、聚(乙二醇)、聚异腈肽聚合物、聚乳酸-乙醇酸共聚物、聚(ε-己内酯)(PCL)、聚乳酸、聚(3-羟基丁酸酯-共-3-羟基戊酸酯)(PHBV)、壳聚糖和纤维素。
核酸结合分子可直接连接至底物表面。例如,分子可以通过一个或多个共价或非共价键直接连接至底物上。在底物是3D基质或其它3D结构的实施方案中,核酸结合分子可以连接至底物的多个表面上。
在一些实施方案中,核酸结合分子可间接连接至底物表面。例如,核酸结合分子可以通过捕获分子间接连接至底物表面,其中捕获分子直接连接至底物。捕获分子可以是任何核酸、蛋白质、糖、化学接头等,其可以结合或连接至底物和核酸结合分子和/或靶核酸。在一些实施方案中,捕获分子与核酸结合分子结合。在一些实施方案中,捕获分子与核酸结合分子的结合结构域或衔接子(例如,衔接子的接头)结合。在一些实施方案中,捕获分子结合靶核酸。在一些实施方案中,捕获分子结合靶核酸的序列或结构特征(图5C)。例如,在一些实施方案中,捕获分子可以结合至靶核酸的多聚腺苷酸尾或特定的DNA或RNA序列。
在一些实施方案中,靶核酸可通过反应性化学基团直接连接至底物表面。例如,核酸靶可以用叠氮基团修饰,该叠氮基团与炔烃修饰的微珠进行铜催化的点击化学。其它实例:反式环辛烯(TCO)/甲基四嗪、DBCO/叠氮基。
在一些实施方案中,第一核酸结合分子与底物表面上的第二核酸结合分子分离,以确保每一核酸结合分子仅可与一个靶核酸相互作用。在一些实施方案中,第一核酸结合分子与第二核酸结合分子相隔至少50nm。例如,第一和第二核酸结合分子可以相隔约50nm至约500nm,例如约50nm至约100nm、约100nm至约150nm、约150nm至约200nm、约200nm至约250nm、约250nm至约300nm、约300nm至约350nm、约350nm至约400nm、约400nm至约450nm、或约450nm至约500nm。在一些实施方案中,第一和第二核酸结合分子可以相隔超过约500nm。
一般而言,将核酸结合分子(或靶核酸)连接至底物上的目的是确保衔接子和/或条形码在复合体内的转移。可以使用本领域技术人员已知的方法产生包含两种或多种空间分离的核酸结合分子的底物。图4A-4D提供了核酸结合分子或靶核酸可以连接至和固定在底物上的方式的非限制性实例。下面将更详细地描述这些实施例。图5A-5C示出了可以将核酸结合分子或靶核酸固定在微珠上的方式的非限制性实施例。
核酸结合分子与底物的连接
图4A显示了与底物直接或间接连接的核酸结合分子。在一些实施方案中,可以使用位点特异性化学将多个核酸结合分子固定在底物上。例如,在一些实施方案中,核酸结合分子的结合结构域可以包含允许其固定在底物上的位点,和用于束缚DNA衔接子的位点。可通过将自催化蛋白标签融合到结合域的末端(例如,Spycatcher、分选酶A、SNAP标签、Halo标签和CLIP标签)来促进结合结构域与底物表面的缀合。然后,结合结构域上的这些蛋白标签可以与底物表面上它们的同源反应部分发生共价反应。例如,Spycatcher蛋白可以被工程化为结合结构域。Spytag与Spytag蛋白(13aa肽)形成共价连接。如果Spytag连接至底物表面,Spycatcher连接的结合结构域和Spytag之间的反应将用于将结合结构域共价连接到底物。类似地,结合结构域可以与分选酶A标签融合,其可以用于与连接至底物表面的五甘氨酸(pentaglycine)反应。作为另一个实例,结合结构域可以与SNAP标签融合,其可以用于与连接至底物表面的O6-苄基鸟嘌呤反应。在一些实施方案中,结合结构域可以与CLIP标签融合,其可以用于与连接至底物表面的O2-苄基胞嘧啶反应。在一些实施方案中,结合结构域可与Halo标签融合,其可用于与存在于底物表面上的烷基卤化物反应。
在一些实施方案中,结合分子可包含生物素部分。这种结合分子可以通过结合生物素(例如链霉亲和素)的捕获分子固定在底物表面上。
图17A-B示出了纳米体尺寸(图17A)和分子结构(图17B),包括三个互补决定区(CDR)。图17B显示了通过巯基-马来酰亚胺化学与N端位点特异性结合的DNA衔接子。脱氨酶Spycatcher融合蛋白与C端SpyTag肽位点特异性结合。核酸结合分子的表面固定是通过氨氧基官能化的表面和内部13aa肽之间的反应完成,该肽通过甲酰甘氨酸生成酶(FGE)共翻译转化为甲酰甘氨酸。图17C显示了(i)对包含抗体的结合结构域进行条形码标记以形成核酸结合分子,和(ii)核酸结合分子在底物表面上进行位点特异性固定的实例。在该实例中,DNA条形码通过内部13位氨基酸的肽与抗体轻链的C端结构域位点特异性结合,以形成核酸结合分子,所述肽通过甲酰甘氨酸生成酶(FGE)共翻译转化为甲酰甘氨酸。核酸结合分子的表面固定是通过Spytag和Spycatcher之间的反应完成的。Spytag是一种短的13aa肽,被工程化至抗体重链的C端。底物表面展示适当密度的Spycatcher蛋白。Spytag的C端和Spycatcher的N端自发反应,形成异肽键。
将靶核酸连接至底物上
图4B显示了通过捕获分子间接连接至底物的核酸结合分子。在该实施例中,捕获分子包含与靶核酸的聚腺苷酸尾结合的核酸序列,然而也可以使用靶核酸上任何其它独特的碱基序列。图4C显示了通过捕获分子间接连接至底物上的靶核酸,其中捕获分子是与靶核酸结合的杂交探针(即,它对靶核酸的一级序列或二级结构具有特异性)。图4D显示了通过共价束缚直接连接至底物上的靶核酸。
因此,在一些实施方案中,可使用与靶核酸的特征杂交的寡核苷酸捕获分子来修饰底物。例如,mRNA可以通过与包含poly-dT寡核苷酸或基因特异性序列的捕获分子杂交来捕获。在一些实施方案中,捕获分子以低表面密度存在,以物理隔离核酸结合分子。例如,低表面密度通常用于图4B、4C和4D所示的底物附着方案。在靶核酸结合至核酸结合分子之前或之后,靶核酸可以与捕获分子杂交。在一些实施方案中,从核酸结合分子到靶核酸的条形码转移可以在表面结合状态下发生(即,当靶核酸与底物连接时)。
用于通过杂交捕获靶核酸的微珠可通过将5’-氨基修饰的寡核苷酸直接缀合至表面活化的微珠来制备。表面活化的微珠可以呈现用于共价连接的环氧基、甲苯磺酰基、羧酸基或胺基。羧基珠通常需要与碳二亚胺反应以促进肽键形成,而胺珠通常需要双功能NHS接头。在一些实施方案中,微珠的表面被钝化以防止非特异性结合。在一些实施方案中,钝化可以通过用相同的连接化学共接枝聚乙二醇(PEG)分子来实现。例如,使用5’-氨基修饰的寡核苷酸和氨基封端的聚乙二醇(PEG),使得平均而言,大多数底物位点将被PEG分子占据,这将用于空间分布寡核苷酸。如果使用过量的PEG,寡核苷酸将平均在空间上彼此分离。捕获分子的表面密度可以通过改变寡核苷酸与PEG分子的比例来调节。
在一些实施方案中,微珠是mTet(四嗪)和羧基-PEG制成的琼脂糖凝胶珠。mTet与羧基-PEG比例的下降降低了靶核酸之间的串扰。在一些实施方案中,mTet:羧基-PEG的比例为1:500、1:600、1:700、1:800、1:900、1:1000、1:1100、1:1200、1:1300、1:1400、1:500、1:1000、1:2000、1:3000、1:4000、1:5000、1:6000、1:7000、1:8000、1:9000或1:10000。在一些实施方案中,mTet:羧基-PEG的比例为1:1000。
结合结构域-酶缀合物
本文还提供了包含与酶或其片段连接的结合结构域的缀合物。酶或其片段可以是催化活性的或催化无活性的。在一些实施方案中,酶或其片段可以共价或非共价连接至结合结构域。例如,酶或片段可以合成地束缚于结合结构域,或遗传地融合于结合结构域。在一些实施方案中,结合结构域和酶(或片段)可以作为单一转录物表达(例如,作为融合蛋白)。在一些实施方案中,结合结构域通过接头与酶(或片段)连接。
在一些实施方案中,酶可以是核碱基编辑酶(本文中也称为碱基编辑酶)。碱基编辑酶可以是例如腺苷脱氨酶、胞嘧啶脱氨酶、糖基化酶、甲基化酶、脱甲基酶、双加氧酶或修饰DNA或RNA的一个或多个核碱基的任何其它酶。
在一些实施方案中,酶可以是转座酶。在一些实施方案中,酶是Tn5转座酶。转座酶存在于原核生物和真核生物中,通过“剪切和粘贴”机制催化限定的DNA元件(转座子)移动到基因组的另一部分。转座酶广泛用于许多生物医学应用中。例如,来自大肠杆菌的工程化高活性Tn5转座酶可以结合到双链合成的19bp嵌合末端(ME)识别序列,该序列可以附加到任何测序衔接子上。在一些实施方案中,ME-衔接子包括CTGTCTCTTATACACATCT;SEQ ID NO:58。在一些实施方案中,ME-衔接子包含AGATGTGTATAAGAGACAG;SEQ ID NO:59。在一些实施方案中,ME-衔接子包含TTTGTGAUGCGATGAACTCAGAGTGCTTNNNNNNNNNNNNAGATGTGTATAAGAGACAG;SEQ ID NO:60,其中N是条形码。在一些实施方案中,包含SEQ ID NO:58的嵌合末端与包含SEQ ID NO:60的ME-衔接子杂交。每个转座酶分子同时装载两个ME标记的衔接子。使用双链DNA或RNA/DNA异源双链体作为底物,Tn5转座酶已被用于体外标记反应(用测序衔接子同时片段化和标记靶序列)。标记的主要优点在于其减少了输入核酸的量,并显著简化了测定工作流程。标记通常用皮克的DNA或RNA进行,并且已经成功用于单细胞方法。
在一些实施方案中,结合结构域-酶缀合物包含特异性结合RNA修饰、DNA修饰或RNA和DNA修饰两者的结合结构域,且其将转座酶导向靶核酸。经与修饰特异性结合结构域缀合,转座酶将特异性条形码插入RNA/DNA双链体,从而也附加通用和反向引物位点。标记是镁离子依赖性的,添加镁离子可以触发标记。标记双链体的长度取决于反应条件,可以优化到短至30个碱基对。因此,靶向标记可以检测DNA或RNA修饰,碱基分辨率高达30个碱基对。
在一些实施方案中,转座酶可能不直接束缚或融合于识别DNA/RNA修饰的结合结构域。在一些实施方案中,转座酶可以束缚或融合到肽或蛋白质结构域,所述肽或蛋白质结构域共价或非共价结合至识别DNA/RNA修饰的结合结构域的结构元件。在一些实施方案中,结合结构域,例如抗体,与Spy标记(Spy-tag)肽遗传融合,而转座酶与SpyCatcher蛋白遗传融合。Spy-tag和Spy-Catcher将自发形成共价键,从而将转座酶靶向到修饰位点。在一些实施方案中,转座酶与蛋白质A、G或L遗传融合。在一些实施方案中,转座酶与蛋白质A遗传融合。在一些实施方案中,转座酶与蛋白质G遗传融合。在一些实施方案中,转座酶与蛋白质L遗传融合。蛋白质A、G或L结合IgG抗体的特定区域,并将转座酶活性导向DNA或RNA修饰结合的抗体。
在一些实施方案中,转座酶可结合与结合结构域共价缀合的ME-标记的衔接子。衔接子可以以ME标记的单链形式存在,ME互补序列的杂交触发了转座酶的原位装载。结合结构域可以展示两种或多种ME-衔接子分子,以使转座酶能够装载两种衔接子,这对于标记是必需的。在一些实施方案中,ME-衔接子分子具有相同的序列。在一些实施方案中,ME-衔接子分子具有不同的序列。在一些实施方案中,ME-衔接子包含对DNA或RNA修饰特异的条形码。
胞嘧啶脱氨酶催化胞嘧啶水解脱氨为尿嘧啶,从而将C-G碱基对突变为T-A碱基对。APOBEC(载脂蛋白B mRNA编辑催化多肽样)蛋白家族的胞嘧啶脱氨酶在人类健康和疾病中具有多种重要功能。所有的APOBEC酶都结合单链DNA和RNA,但只有其中一些使RNA碱基脱氨。值得注意的是,APOBEC1和APOBEC3A修饰DNA和RNA。大肠杆菌胞嘧啶脱氨酶CodA催化5-氟胞嘧啶(5FC)转化为5-氟尿嘧啶(5FU);这种活性允许由非细胞毒性前体形成细胞毒性化疗剂。APOBEC酶已经被工程化来处理双链DNA。
作用于RNA(ADAR)的腺苷脱氨酶催化腺苷水解脱氨为肌苷。因为肌苷在细胞机制中的作用类似鸟嘌呤,这相当于将A-T碱基对突变为G-C碱基对。两种不同的酶负责人体的腺苷脱氨作用:ADAR1和ADAR2。ADAR蛋白具有模块化结构,具有双链RNA结合结构域和C端脱氨酶结构域。ADAR活性需要双链RNA;然而,最近的一份报告证明了ADAR在RNA/DNA异源双链体的DNA链上的活性。最近,ADAR2被工程化为在将腺苷为肌苷之外,还将胞嘧啶转化为尿嘧啶。
在一些实施方案中,结合结构域-酶缀合物包含特异性结合RNA和/或DNA修饰的结合结构域,并且其将胞嘧啶和腺苷脱氨酶导向靶核酸。在靶位点,脱氨酶引入单点定位,这标志着DNA/RNA非常规特征的位置。碱基编辑是用于定位修饰的另一种方法,并且是通过蛋白质和核酸的光交联产生截短的cDNA来实现该目的的替代方法。在一些实施方案中,将胞嘧啶编辑为尿嘧啶可用于引入切割位点。
在一些实施方案中,碱基编辑酶可以不直接束缚或融合于识别DNA/RNA修饰的结合结构域。相反,碱基编辑酶可以被束缚或融合到肽或蛋白质结构域,所述肽或蛋白质结构域共价或非共价结合至识别DNA/RNA修饰的结合结构域的结构元件,如图6A-6C所示。例如,识别RNA/DNA修饰的结合结构域可以是一抗,脱氨酶束缚或融合至二抗(图6A)。在一些实施方案中,结合结构域,例如纳米体,呈现包含DNA地址、接头和条形码的DNA衔接子。脱氨酶用与DNA地址互补的序列标记,该序列通过DNA杂交将酶靶向修饰位点(图6B)。在一些实施方案中,结合结构域,例如纳米体,与Spy-tag肽遗传融合,而脱氨酶与SpyCatcher蛋白遗传融合。Spy-tag和Spy-Catcher将自发形成共价键,从而将脱氨酶靶向修饰位点(图6C)。在一些实施方案中,脱氨酶与结合一抗的G蛋白融合(图6D)。在一些实施方案中,酶是融合到蛋白A(UniProt登录号P38507和P02976)、蛋白质G(UniProt登录号Q54181和P19909)或蛋白质L(UniProt登录号Q51918)的碱基编辑酶。在一些实施方案中,酶是融合到蛋白A的碱基编辑酶。在一些实施方案中,酶是融合到蛋白G的碱基编辑酶。在一些实施方案中,酶是融合到蛋白L的碱基编辑酶。
在一些实施方案中,缀合物包含(i)核酸结合分子和肽标签,和(ii)融合到蛋白质的酶或其片段,所述蛋白质可与肽标签共价反应。在一些实施方案中,缀合物包含(i)包含肽标签的酶或其片段,和(ii)融合到蛋白质的核酸结合分子,所述蛋白质可与肽标签共价反应。在一些实施方案中,缀合物包含(i)核酸结合分子和蛋白标签,和(ii)融合到肽标签的酶或其片段,所述肽标签能够与蛋白标签共价反应。在一些实施方案中,缀合物包含(i)核酸结合分子和(ii)融合到蛋白质的酶或其片段,所述蛋白质可以高亲和力结合到结合结构域的特定区域。在一些实施方案中,肽标签是Spytag。在一些实施方案中,酶是脱氨酶。在一些实施方案中,可与肽标签共价反应的蛋白质是Spycatcher蛋白质。
在一些实施方案中,缀合物包含(i)核酸结合分子和肽标签,和(ii)融合到蛋白标签的酶或其片段,所述蛋白标签可与肽标签共价反应。在一些实施方案中,缀合物包含(i)包含肽标签的酶或其片段,和(ii)融合到蛋白标签的核酸结合分子,所述蛋白标签可与肽标签共价反应。在一些实施方案中,缀合物包含(i)核酸结合分子和蛋白标签,和(ii)融合到肽标签的酶或其片段,所述肽标签能够与蛋白标签共价反应。在一些实施方案中,缀合物包含(i)核酸结合分子和(ii)融合到蛋白标签的酶或其片段,所述蛋白标签可以高亲和力结合到结合域的特定区域。在一些实施方案中,肽标签是Spytag。在一些实施方案中,酶是脱氨酶。在一些实施方案中,可与肽标签共价反应的蛋白质是Spycatcher蛋白质。
在一些实施方案中,缀合物为共价连接。在一些实施方案中,缀合物是非共价连接。
核酸分析方法,包括通过修饰或编辑靶核酸来定位非常规特征
本文所述的核酸结合分子(能够如上所述进行复合物内条形码转移),可用于分析核酸的各种方法中,特别是用于识别靶核酸上的非常规特征。因此,本公开提供了用于分析靶核酸上的非常规特征的方法,包括用于对跨转录组和基因组的RNA和DNA修饰进行多路复用分析的方法。在这些方法中,RNA或DNA的非常规特征被核酸结合分子的结合结构域识别。然后将衔接子或其部分(例如条形码)从核酸结合分子转移到靶核酸上(即产生标记的/条形码编码的靶核酸)。因为条形码对于由靶核酸结合的特定非常规特征是独特的,所以该步骤用于将来自识别事件的信息写入靶核酸的核酸序列中。然后将所得条形码编码的靶核酸转化到测序文库中,并通过DNA/RNA测序方法读取。该步骤揭示了条形码的序列,该条形码与靶核酸中的非常规特征相关联。测序也可以定位靶核酸中的非常规特征。本文描述的高通量分析方法允许平行鉴定几个或所有DNA/RNA修饰的性质和位置。
本文所述的方法包括一系列步骤,如下所述。如本领域技术人员将理解的,在一些实施方案中,各种步骤可以被省略和/或以不同的顺序执行。
核酸结合分子和靶核酸的接触
在一些实施方案中,本文所述的方法包括使一种或多种核酸结合分子与一种或多种靶核酸接触的步骤。靶核酸可以包括DNA、RNA或DNA和RNA的组合。例如,靶核酸可以从生物体的细胞或组织中分离。在一些实施方案中,靶核酸可以是片段化的。
核酸结合分子与靶核酸的接触可在溶液中进行。例如,包含一种或多种靶核酸的组合物可以与包含一种或多种核酸结合分子的组合物接触。在一些实施方案中,接触可以在稀溶液中进行,使得只有一种核酸结合分子可以与每种靶核酸相互作用。
在一些实施方案中,接触发生在底物上。例如,一种或多种靶核酸可以连接至底物上,一种或多种核酸结合分子可以与连接至底物上的靶核酸接触。在一些实施方案中,一种或多种核酸结合分子可以连接至底物上,一种或多种靶核酸可以与连接至底物上的核酸结合分子接触。包含核酸结合分子的底物及其制备方法如上所述,并在图4A-4D和图5A-5C中示出。
靶核酸可仅与一种类型的核酸结合蛋白接触(即,仅检测一种类型的非常规特征),或在一些实施方案中,靶核酸可与一种以上类型的核酸结合分子接触,以检测多种非常规特征。例如,靶核酸可以与至少一种、至少两种、至少三种、至少四种、至少五种、至少六种、至少七种、至少八种、至少九种、至少十种或更多不同类型的核酸结合分子接触。在一些实施方案中,靶核酸可以与1-5、5-10、10-25、25-50、50-100、100-150、150-175、175-200种或更多不同类型的核酸结合分子接触。当使用多种类型的核酸结合分子时,接触可以同时发生(即靶核酸与识别不同非常规特征的多种核酸结合分子同时接触),或者接触可以是顺序的(即靶核酸与识别第一非常规特征的第一核酸结合分子接触,然后与识别第二非常规特征的第二核酸结合分子接触)。
在一些实施方案中,靶核酸与核酸结合分子的第一库接触,然后与核酸结合分子的第二库接触。在一些实施方案中,库可包含不同类型的核酸结合分子(即,识别不同类型的非常规特征)。在一些实施方案中,每个库可以包含1-5、5-10、10-25、25-50、50-100、100-150、150-175、175-200种或更多不同类型的核酸结合分子。
条形码转移
每种核酸结合分子特异性结合靶核酸的非常规特征,使核酸的衔接子紧邻靶核酸的3’端或5’端。然后可以将衔接子(例如,包含条形码或由条形码组成的衔接子)转移到靶核酸上。在一些实施方案中,转移发生在基本上防止条形码编码的核酸产生脱靶的环境中。这种环境可以是,例如,其中靶核酸不能彼此相互作用的环境(即,只有一种核酸结合分子可以与每种靶核酸相互作用)。这可以通过例如在非常稀的溶液中进行条形码转移反应,或者通过将靶核酸或核酸结合分子固定在底物上以实现其空间分离来进行。在一些实施方案中,通过复制靶核酸来进行转移,以产生靶核酸的标记/条形码编码的拷贝。例如,如果条形码被转移至靶核酸上,或者被带到靶核酸附近,聚合酶链式反应(PCR)可以用于产生靶核酸的条形码编码的拷贝。
上文以及图3A-3E描述了条形码转移反应和空间分离。
靶核酸(或其拷贝)的修饰
在一些实施方案中,该方法可以包括修饰条形码编码的靶核酸或其条形码编码的拷贝的步骤。这种修饰可以发生在核酸结合分子已经结合到非常规特征之后,在一些实施方案中,修饰可以发生在条形码已经转移至靶核酸(或者靶核酸的条形码编码的拷贝已产生)之后。
进行修饰,使得非常规特征的位置可基于条形码编码靶核酸的一级核酸序列或其条形码编码拷贝来鉴定,并因此可在下游测序步骤中检测。许多不同类型的修饰可用于此目的。例如,在一些实施方案中,修饰可以防止靶核酸(或其条形码编码拷贝)复制过程中的聚合酶旁路。
在一些实施方案中,部分通过化学修饰核酸结合分子的结合结构域来实现修饰。在一些实施方案中,这可以在靶核酸复制期间诱导截短,而结合结构域与之结合。
在一些实施方案中,修饰包括将核酸结合分子(或其片段,例如结合结构域)光化学连接至靶核酸(或其条形码编码拷贝)。光化学连接核酸和蛋白质的方法是本领域技术人员已知的。例如,光化学连接可以通过将包含核酸结合分子和靶核酸的复合物暴露于紫外(UV)光来诱导。
在一些实施方案中,修饰包括在核酸结合分子与靶核酸结合的位点处或其附近编辑碱基。例如,可以使用胞嘧啶脱氨酶或腺苷脱氨酶编辑碱基。碱基编辑分子可以任选地与核酸结合分子或其部分连接,或者可以与识别核酸结合分子的结合物连接,例如与一抗DNA衔接子缀合物结合的二抗(图6A-6C)。腺苷脱氨酶将腺苷(A)转化为肌苷(I),该扩增酶与胞嘧啶(C)碱基配对,从而引入胸腺嘧啶(T)突变为胞嘧啶(C)的突变。胞嘧啶脱氨酶将修饰位点附近的胞嘧啶(C)转化为尿嘧啶(U),从而引入鸟嘌呤(G)突变为腺苷(A)的突变。定位非常规特征的另一种方法是随后通过USERTM(尿嘧啶脱糖基酶和核酸内切酶VIII的混合物)上切割尿嘧啶(U),产生截短的读数。/>
扩增和测序
在靶核酸(或其条形码编码拷贝)被修饰后,可将其扩增,然后测序。该步骤揭示了条形码的序列,该条形码与最初由靶核酸中的核酸结合分子结合的非常规特征相关。测序也可以揭示截短片段的长度,这允许定位靶核酸中的非常规特征。测序也可以揭示非常规特征附近的突变,由此可以信息性地推导出非常规特征的位置。突变可能是用脱氨酶进行碱基编辑的结果,或者它可能是用于复制核酸靶的酶(如果靶是DNA,则是DNA聚合酶;如果靶是RNA,则是逆转录酶)的碱基插入错误率增加的结果。非常规特征可以自然地增加酶旁路错误率,或者可以通过化学修饰非常规特征来放大这种影响。
因此,在一些实施方案中,本文所述的方法可包括对条形码编码的靶核酸或其拷贝进行测序的步骤。测序步骤可以使用本领域已知的任何合适的方法进行。例如,测序可以使用下一代测序(NGS)方法、大规模平行测序方法或深度测序方法进行。有许多NGS平台可以与本公开的方法一起使用。例如,测序的工作原理是在每个碱基发出荧光信号时同时鉴定DNA碱基,并将它们添加到核酸链中。/>454测序基于焦磷酸测序,这是一种在核苷酸被聚合酶引入新的DNA链后,使用荧光检测焦磷酸释放的技术。lonTorrent(质子/PGM测序)测量通过DNA聚合酶从单个核苷酸的引入中直接释放质子(H+)。
在一些实施方案中,检测靶核酸不需要测序。例如,可以使用PCR检测靶核酸。例如,PCR可用于检测靶核酸(例如,条形码)是否存在。在一些实施方案中,使用荧光探针(例如,荧光标记的杂交探针)检测靶核酸。在一些实施方案中,使用微阵列或其它核酸阵列来检测靶核酸。用于分析来自本文所述检测靶核酸的任何方法的测序结果或数据的方法是本领域技术人员已知的。例如,标准生物信息学方法用于分析测序结果。
在一些实施方案中,通过核酸结合分子介导的反应检测条形码的添加,不需要测序。例如,DNA/RNA修饰的存在可通过使用核酸电泳、荧光杂交探针、PCR或任何其它可由条形码触发的核酸扩增方法检测相关条形码来确认。
用于识别、定量和/或定位靶核酸上非常规特征的说明性方法
在一些实施方案中,本文所述的方法不仅可用于识别靶核酸上的修饰(即,非常规特征),还可用于定量所述修饰,并以高达1个碱基的分辨率定位靶核酸上的修饰(参见,例如,图8)。在一些实施方案中,该方法允许以高达2个碱基、3个碱基、4个碱基、5个碱基、6个碱基、7个碱基、8个碱基、9个碱基或10个碱基的分辨率定位修饰。
在一些实施方案中,如图7中概述的双工作流方法所示,提供包含经修饰和未经修饰的RNA转录物的RNA样品。在该图中,未修饰的RNA转录物标记为“转录物A”,1型和2型RNA修饰代表任何类型的修饰。RNA样品的每个转录物可以包含或不包含非常规特征。
然后将RNA转录物与微珠接触,其中微珠直接或间接与特异于非常规特征(即,图7的1型和/或2型RNA修饰)的核酸结合分子连接。修饰的RNA分子与微珠结合,而未修饰的RNA留在上清液中。为了能够定量RNA修饰的水平,两种级分(底物结合和上清液)都可以进行处理并转化为测序文库。未修饰的RNA分子在每一端用包含UFP和URP的衔接子封端,而修饰的RNA分子接收指示其修饰的条形码(即,它从与其结合的核酸结合分子处转移)。
如图7所示,标准化探针(对照)可加标到两个工作流(表面结合,上清液)中,以实现相对定量。此外,可以通过对核酸结合分子的衔接子中可能存在的独特的分子标识符进行计数来实现绝对定量。许多RNA修饰以低拷贝数发生。因此,分离工作流程的优点在于,修饰的和未修饰的部分可以以一定的比例组合,该比例为给定测序深度下的低拷贝数转录物提供最佳灵敏度。这种分离工作流程允许测量RNA修饰的化学计量和丰度。“化学计量”是一个相对数,其计算方法是包含非常规特征的特定基因座的拷贝数除以该基因座的所有拷贝数。“丰度”是给定基因座中核酸的非常规特征出现的绝对数量。
在一些实施方案中,用于分析多种靶核酸的方法可包括通过连接进行条形码转移的RNA分析,以及通过cDNA截短定位非常规特征(参见,例如,图8)。在一些实施方案中,该方法包括消耗或富集RNA样品,例如通过使用保留RNA修饰的条件以物理或化学方式使RNA片段化(参见图8,步骤A)。然后可以将一种或多种核酸结合分子加入到RNA样品中。核酸结合分子的结合结构域识别RNA修饰,并将衔接子(例如含有DNA条形码的衔接子)并置到RNA靶的末端(见图8,步骤B)。在一些实施方案中,为了产生防止逆转录酶复制越过识别元件(即修饰)的标记,靶RNA和核酸结合分子的结合结构域可以交联(例如光化学交联)。在一些实施方案中,可以通过选择和工程化识别元件来产生没有交联的终止点,所述识别元件破坏聚合酶-RNA相互作用和/或呈现可为相同目的参与的额外反应性基团(参见图8,步骤D)。然后可以使用单链衔接子连接为逆转录提供引物结合位点,并且可以通过引物延伸合成cDNA(参见图8,步骤F)。合成cDNA,使得转录物的末端标记RNA修饰的位置。可对修饰进行定位的分辨率将取决于截断机制的性质。
cDNA分子可以环化。例如,具有B型衔接子的cDNA分子可以被环化连接酶环化(参见图8,步骤H)。环化cDNA的切割释放出链特异性的线性cDNA片段,并且可以使用PCR扩增容易地转化成测序文库(参见图8,步骤I)。引物可用于引入额外的衔接子片段,这对下游过程例如测序是有用的。
图9说明了通过条形码编码和酶碱基编辑(例如,添加尿嘧啶)产生截断位点来分析DNA修饰的方法。因为DNA是双链的,用脱氨酶进行碱基编辑需要单链核酸,所以第一步是分离DNA链。这可以通过根据标准方案(即末端修复、A-加尾、衔接子连接)将Y形衔接子连接到DNA片段的末端来完成。在一些实施方案中,Y形衔接子的一个臂包含5’叠氮基基团作为化学把柄(Chemical handle)。双链DNA可以在95%甲酰胺中变性,然后连接至珠上,例如磁珠。例如,可以添加具有表面暴露的炔基基团的磁珠(以每100nm2 1个炔基基团的密度)。Cu(I)的加入引发了核酸与微珠的共价结合。因为互补的DNA链现在随机地附着在微珠的表面,并且在空间上彼此分离,所以它们在生理缓冲条件下不能杂交。然后,与微珠连接的单链DNA可以与指示DNA修饰的核酸结合分子和条形码接触。随后,可以通过连接将条形码转移至单链靶核酸上。然后加入结合结构域-酶缀合物,其包含例如对核酸结合分子的结合结构域特异的抗体(例如,抗小鼠抗体),和碱基编辑酶(例如,胞嘧啶脱氨酶)。当结合结构域-酶缀合物接触核酸结合分子的结合结构域时,酶(胞嘧啶脱氨酶)编辑单链靶核酸中的碱基(例如,它在修饰的附近将尿嘧啶(U)改变胞嘧啶(C))。加入USER(尿嘧啶脱糖基酶和核酸内切酶VIII的混合物)使脱氨酶失活并切割DNA链。通过DNA聚合酶的引物延伸产生截短的读数,其指示DNA修饰的位置。这些读数被转化成可以用标准方法测序的文库。
在一些实施方案中,用于分析多种靶核酸的方法可用于检测/定量每个反应中单一类型的DNA或RNA修饰。在一些实施方案中,用于分析多种靶核酸的方法可适于通过样品分离来检测多个DNA或RNA修饰,如图10所示。例如,可以将与碱基编辑酶(例如腺嘌呤脱氨酶)缀合的结合结构域引入每个反应中。腺嘌呤脱氨酶将腺嘌呤(A)转化为肌苷(I),肌苷诱导T->C突变并标记RNA修饰的位点。在图10所示的分离方案中,使用了没有束缚的衔接子的结合结构域。每个部分仅包含单一类型的结合结构域-脱氨酶缀合物,免疫沉淀后,将C型衔接子加入每个部分并连接到富集的靶上。附着C型条形码允许在RNA测序文库制备之前汇集分离的反应。
在一些实施方案中,可将多路复用修饰分析和碱基编辑相结合。图11示出了使用条形码连接和腺苷脱氨酶的碱基编辑进行RNA分析的方法。这些步骤类似于图9所示的工作流程,除了结合结构域-酶缀合物包含腺苷脱氨酶。在通过逆转录将腺苷(A)转化为肌苷(I)以指示修饰和第一链合成的位置后,用保留链信息的方法合成第二条cDNA链。通过将尿嘧啶专门引入到第二链中,第二链可以通过USER切割来去除。当使用碱基编辑时,链状DNA文库的制备可能是有利的,因为只有编辑过的链被扩增。
本文所述的方法也可用于分析包含两个或多个修饰(即非常规特征)的DNA或RNA。例如,如图12所示,可以采用两轮分析分别将反向和正向衔接子附加到靶RNA的5’端和3’端。第一步是将带有游离3’OH的反向衔接子连接到靶RNA片段的磷酸化5’端。衔接子通过5’端束缚至核酸结合分子上,并呈现游离的3’端。最靠近5’端的核酸结合分子可能比更靠近3’端结合的识别元件更有优势。条形码从核酸结合分子上转移,而核酸结合分子的其余部分仍与5’端保持化学连接。然后可以加入另外一组具有不同衔接子架构的核酸结合分子,并与具有游离5’端的正向衔接子缀合。衔接子通过3’端束缚于附加的核酸结合分子,并呈现游离的5’磷酸化末端。根据第一个循环中用于去除使用的核酸结合分子的条件,其结合结构域可以再次结合并阻断接近已经编码的位点,这降低了双重分析的机会。来自第二循环的核酸结合分子的条形码转移可以通过延伸夹板寡核苷酸(例如,通过逆转录酶)来完成。该方案产生了带有正向和反向引物的cDNA片段,这些片段可以通过PCR扩增,并为测序做好准备。
图13提供了用于分析任何数量的RNA修饰(例如2、3、4、5、6、7、8、9、10种或更多RNA修饰)的说明性反应方案。在第一步中,将单链间隔区连接到靶核酸上。接下来,加入带有D型衔接子的核酸结合分子。如果存在匹配的RNA修饰,核酸结合分子的结合结构域结合并允许D型衔接子的间隔区退火。条形码和间隔区由DNA聚合酶(例如Klenow片段、Bsu聚合酶、T4和T7聚合酶、Bst聚合酶或类似的酶)复制。然后,去除核酸结合分子,并将靶核酸与第二种核酸结合分子(即具有不同结合特异性的核酸结合分子)接触,这在3’端添加了另一个条形码。在最后一个循环中,3’端用通用引物(例如UFP或URP)加帽,该引物用作逆转录酶的引物。
图14B示出了解决以下情况的方法,其中在修饰分析的每个循环中,相同类型的修饰的多个拷贝沿着靶RNA链存在,并且脱氨酶通过互补DNA地址的杂交靶向结合结构域。一个或多个相同修饰的存在通过用G型衔接子转移条形码来指示,G型衔接子衍生自D型衔接子,如图13所述。该方法中使用的结合结构域-G型衔接子缀合物包括DNA地址,地址1。结合该结合结构域后,通过引物延伸开始条形码转移。为了标记每个修饰的位置,加入包含胞苷脱氨酶和互补DNA地址(地址1’)的缀合物,并与结合结构域-D型衔接子缀合物中的地址(地址1)结合。使脱氨酶在循环1中编辑所有修饰位点。在循环2中,引入了不同的结合结构域-D型衔接子缀合物,包括地址2,特异于其它RNA修饰。开始引物延伸,随后加入匹配的胞苷脱氨酶和地址2’,允许编辑以标记第二种修饰类型的位置。
图15A-15D示出了使用标记的条形码方法。该方法使用包含与转座酶缀合的结合结构域的二聚体核酸结合分子。转座酶分子装载有双链DNA衔接子,其指示特定的RNA修饰。转座酶结合双链DNA衔接子,并通过连接到双链DNA底物的5’端来切割和插入这些衔接子。它们不标记3’端,出现的缺口可以通过聚合酶反应来填补。在一些实施方案中,转座酶可以使用DNA/RNA异源双链体作为底物。标记反应通常产生200-300nt长的片段,可以通过样品输入进行优化。在一些实施方案中,将核酸-结合分子-转座酶缀合物加入到未断裂的总RNA或富集/消耗的RNA中。在识别修饰的RNA碱基时,转座酶将特定的条形码插入RNA/DNA双链体,从而也附加通用和反向引物位点。使用合适的聚合酶填补缺口完成文库制备。标记通过特定的条形码框出RNA修饰的位点,位置信息将通过将转座酶接头工程化为优化位置分辨率的长度来获得。
图16示出了使用E型衔接子对结合长阅读构建的多重修饰进行分析的方法。E型衔接子包含条形码和在修饰附近杂交的短随机脚。通过合适的接头和脚设计,它们将排列在RNA上,并代表RNA修饰的顺序和类型。用逆转录酶填补缺口,并通过连接进行连接。通过使用模板转换的smart-Seq方法保留链信息。Smart-Seq依赖于逆转录酶的特性,以短的poly-C序列作为平端的尾部。poly-C尾用短的LNA-GGG引物引发,该引物引发第二链合成。
在一些实施方案中,用于分析多种靶核酸的方法包括:(i)将靶核酸与本文所述的核酸结合分子接触;(ii)(a)在基本上防止脱靶产生条形码编码的核酸的环境中,将核酸条形码转移至靶核酸上,以产生条形码编码的靶核酸,或者(b)产生靶核酸的条形码编码的拷贝;(iii)修饰条形码编码的靶核酸或其条形码编码的拷贝,使得非常规特征的位置可基于条形码编码的靶核酸或其条形码编码的拷贝的一级核酸序列进行鉴定;和(vi)对条形码编码的靶核酸进行测序。在一些实施方案中,步骤(i)至(iii)重复至少一次(例如,至少两次、至少三次、至少四次、至少五次、至少六次、至少七次、至少八次、至少九次、至少十次或更多次)。在一些实施方案中,每次重复步骤(i)-(iii)时,使用不同的核酸结合分子。在一些实施方案中,每次重复步骤(i)-(iii)时,使用相同的核酸结合分子。在一些实施方案中,该方法包括在测序前扩增条形码编码的靶核酸或其拷贝。
在一些实施方案中,用于检测和/或定量多种靶核酸中的两种或多种非常规特征的方法包括:(i)将靶核酸与至少两种核酸结合分子接触,其中每种核酸结合分子包含结合结构域和衔接子;其中每种核酸结合分子的结合结构域结合DNA或RNA的不同非常规特征;其中所述衔接子包含对由每个结合结构域特异性结合的非常规特征独特的核酸条形码序列;(ii)(a)在基本上防止脱靶产生条形码编码的核酸的环境中,将核酸条形码转移至靶核酸上,以产生条形码编码的靶核酸,或者(b)产生靶核酸的条形码编码的拷贝;(iii)修饰条形码编码的靶核酸或其条形码编码的拷贝,使得非常规特征的位置可基于条形码编码的靶核酸或其条形码编码的拷贝的一级核酸序列进行鉴定;和(vi)对条形码编码的靶核酸进行测序。在一些实施方案中,该方法包括在测序前扩增条形码编码的靶核酸或其拷贝。
在一些实施方案中,用于检测靶核酸中的非常规特征的方法包括:(i)将靶核酸与本文所述的核酸结合分子接触;(ii)(a)在基本上防止脱靶产生条形码编码的核酸的环境中,将核酸条形码转移至靶核酸上,以产生条形码编码的靶核酸,或者(b)产生靶核酸的条形码编码的拷贝;和(iii)检测靶核酸或其拷贝中条形码的存在。
以单碱基分辨率确定靶核酸中非常规特征位置的方法,该方法包括:(i)将靶核酸与本文所述的核酸结合分子接触;(ii)在基本上防止脱靶产生条形码编码的核酸的环境中,将核酸条形码转移至靶核酸上,以产生条形码编码的靶核酸;和(iii)检测靶核酸或其拷贝中条形码的存在;其中所述核酸结合分子包含具有以下一种或多种能力的结合结构域:在靶核酸中诱导突变;或防止聚合酶旁路并因此导致靶核酸复制过程中的截短。在一些实施方案中,步骤(i)-(iii)重复至少一次。在一些实施方案中,每次重复步骤(i)-(iii)时,使用不同的核酸结合分子。在一些实施方案中,每次重复步骤(i)-(iii)时,使用相同的核酸结合分子。
本文所述的方法可用于诊断疾病、障碍或病症。例如,在一些实施方案中,该方法可用于诊断有需要的受试者的癌症。在一些实施方案中,所述试剂盒可用于随时间监测疾病、障碍或病症,例如响应一种或多种治疗。例如,该试剂盒可用于监测接受癌症治疗(即化疗、放疗等)的受试者随时间的表观遗传和/或表观转录组变化。在一些实施方案中,该方法可用于分析来自有需要的受试者的细胞或组织。例如,该方法可用于检测从血液样品、活检样品、尸检样品等中分离的细胞或组织中的非常规特征。
在一些实施方案中,所述方法可用于检测和/或监测商业上用于生产一种或多种产品的细胞中的表观遗传变化,例如用于工业发酵的细胞。在一些实施方案中,该方法可用于检测和/或监测植物细胞或组织中的表观遗传变化。
包含核酸结合分子的组合物
本文还提供了包含本公开的一种或多种核酸结合分子的组合物。在一些实施方案中,组合物包含一种或多种类型的核酸结合分子。例如,组合物可以包含结合第一非常规特征的第一核酸结合分子,和结合第二非常规特征的第二核酸结合分子。在一些实施方案中,组合物可以包含1、2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、21、22、23、24或25种或更多不同类型的核酸结合分子。
本文还提供了包含一种或多种复合物的组合物,其中每种复合物包含与靶核酸结合的核酸结合分子。
在一些实施方案中,本文所述的组合物包含一种或多种载体、赋形剂、缓冲剂等。组合物可以具有约0.5、约1.0、约1.5、约2.0、约2.5、约3.0、约3.5、约4.0、约4.5、约5.0、约5.5、约6.0、约6.5、约7.0、约7.5、约8.0、约8.5、约9.0、约9.5、约10.0、约10.5、约11.0、约11.5、约12.0、约12.5、约13.0、约13.5或约14.0的pH值。在一些实施方案中,组合物是药物组合物。
用于分析核酸的试剂盒
本文所述的核酸结合分子可在试剂盒中提供(例如,作为试剂盒的组成部分)。例如,试剂盒可以包含核酸结合分子,或其一种或多种成分,以及信息材料。信息材料可以是例如解释材料、指导材料、销售材料或关于本文所述方法和/或核酸结合分子使用的其它材料。试剂盒的信息材料不限于形式。在一些实施方案中,信息材料可包括关于核酸结合分子的生产、分子量、浓度、有效期、批次或生产地点信息等的信息。在一些实施方案中,信息材料可以包括可以使用试剂盒诊断或评估的障碍和/或病症的列表。
在一些实施方案中,可以合适的方式(例如,在易于使用的管中,以合适的浓度等)提供核酸结合分子,用于本文所述的方法中。在一些实施方案中,试剂盒可能需要在使用前对核酸结合分子进行一些制备或操作。在一些实施方案中,核酸结合分子以液体、干燥或冻干形式提供。在一些实施方案中,核酸结合分子在水溶液中提供。在一些实施方案中,核酸结合分子在无菌、无核酸酶的溶液中提供。在一些实施方案中,核酸结合分子以组合物的形式提供,除了可能包含分子本身的核酸之外,该组合物基本上不含任何核酸。
在一些实施方案中,试剂盒可包括一个或多个注射器、管、安瓿、箔包装或泡罩包装。试剂盒的容器可以是气密的、防水的(即,防止水分或蒸发的变化),和/或包括光屏蔽。
在一些实施方案中,该试剂盒可用于实施本文所述的一种或多种方法,例如用于分析靶核酸群体的方法。在一些实施方案中,试剂盒可用于诊断疾病、障碍或病症。例如,在一些实施方案中,试剂盒可用于诊断癌症。在一些实施方案中,试剂盒可用于随时间监测疾病、障碍或病症,例如响应一种或多种治疗。例如,试剂盒可用于监测接受癌症治疗的受试者随时间的表观遗传和/或表观转录组变化。
实施例
以下非限制性实施例进一步说明了本公开的组合物和方法的实施方案。
实施例1:结合结构域的设计、选择和表征
结合结构域设计用于结合N6-甲基腺苷(m6A)、假尿苷(Ψ)、肌苷(I)和5-甲基胞嘧啶(m5C)的核酸结合分子(也称为BAC结合结构域衔接子缀合物)。首先,对市售抗体进行了筛选。选择具有有利特征的抗体(例如,单克隆抗体等)用于进一步表征。
通过平板ELISA进行初始抗体表征。在4℃下,将表4所示的包含m6A(SEQ ID NO:1)、Ψ(SEQ ID NO:2)、I(SEQ ID NO:3)或m5C(SEQ ID NO:4)的生物素化RNA寡核苷酸(Horizon Discovery)和未修饰的参照寡核苷酸(SEQ ID NO:5)固定在链霉亲和素包被的96孔板(Thermo Fisher,货号15125),然后用磷酸盐缓冲盐水(PBS)洗涤。在一个单独的实验中,寡核苷酸通过逆转录(Protoscript II,NEB货号M0368L)转化为RNA/DNA异源双链体,来评估抗体在双链体环境中结合RNA修饰的能力。因为RNA序列采用稳定的二级结构,所以RNA修饰通常以双链体的形式呈现,识别修饰而不依赖于其碱基配对状态的抗体被认为是更好的。向平板中加入抗体,并在22℃孵育60min。洗去未结合的抗体,加入缀合了碱性磷酸酶(AP)的检测抗体(Thermo Fisher,货号31430和31460)。洗去未结合的检测抗体后,将AP底物加入平板(Thermo Fisher,货号34028),并使用450nm处的吸光度检测来确定结合抗体的存在。
表4:生物素化RNA寡核苷酸
*其中“N”代表任何核苷酸,“r”代表核糖核苷酸。
通过滴定测定中使用的抗体量并将所得曲线拟合到结合模型来评估抗体结合的亲和力。图19显示了对m6A(Thermo Fisher,货号61755(Ab01)、MA5-33030(Ab02),Synapticsystem,货号345E11(Ab05))、m5C(Thermo Fisher,货号MA5-24694(Ab16),I(Diagenode,货号C15200251(Ab10))和Ψ(Diagenode,货号C15200247(Ab11)、MBL,货号D347-3(Ab19))具有有利结合特性的抗体子集的结合曲线。除假尿苷抗体外,所有抗体都以亚纳摩尔解离常数KD(亲和力的一种量度)和大于100倍的特异性结合单链RNA中的同源抗原。假尿苷抗体仅具有纳摩尔亲和力,约10倍的特异性。Ab02、Ab05和Ab16是特别理想的,因为它们表现出与RNA/DNA异源双链体的强结合。从这种ELISA形式得到的解离常数是亲和力的结果,因为表面上的RNA链密度高,两个抗体臂都可以结合到修饰的碱基上。众所周知,这种双齿结合模式可以减缓解离速率,提高整体亲和力。基于本文提供的数据,预计单分子1:1复合物中的亲和力将更低。选择Ab05、Ab10、Ab16和Ab19用于进一步分析。
实施例2:确定结合结构域突变概况和截短模式
突变分析和截短模式将被表征为(1)实施例1中识别的抗体,或(2)其衍生物(例如,包含来自实施例1抗体的CDR序列的scFv)。具体而言,结合结构域,例如实施例1中描述的那些,与核酸靶结合。结合结构域和核苷酸是交联的。在靶核苷酸连接衔接子后,使用逆转录产生cDNA,该cDNA经PCR扩增并测序以评估靶核苷酸的突变和截短特征。
首先,抗体结合RNA链逆转录产生的突变模式用体外转录的RNA进行评估。首先,包括一个或多个修饰(m6A、Ψ和/或m5C)的RNA,在存在不同比例的修饰和未修饰的核苷酸三磷酸(NTP)(TriLink)的情况下,使用AmpliScribeTM T7高产转录试剂盒(Lucigen),通过体外转录500个核苷酸的RNA来产生。使用RNA片段化试剂(Thermo)将转录物片段化至50至150个核苷酸的大小,并与每种候选抗体一起孵育。
为了确定UV交联是否在修饰位点诱导逆转录的截短,用UV光(例如,约0.15J/cm2,254nm)辐射每个抗体-RNA复合物溶液。交联后,通过将辐射溶液与微珠在4℃下孵育1-2h,将抗体-RNA复合物捕获在蛋白A/G Dynabead(Thermo)上。蛋白A/G以高亲和力结合抗体的Fc区。然后,用多核苷酸激酶(NEB)将RNA的3’端去磷酸化,用T4 RNA连接酶(NEB)将DNA衔接子连接到其上。衔接子在5’端预腺苷酸化:5rApp/AGATCGGAAGAGCGGTTCAG/3ddC,其中5rapp指5’预腺苷酸化,3ddC指3’双脱氧-C(SEQ ID NO:6)。
从微珠上洗脱衔接子连接的RNA,纯化并用与连接的衔接子互补的寡核苷酸引发(即,逆转录酶引物)。逆转录酶引物经5’磷酸化的以使下游能够环化,并且包含由简并碱基框住的4字母条形码、BamHI限制性位点(gatc,SEQ ID NO:7)以及正向和反向引物结合位点:5’P-NNAACCNNNAGATCGGAAGAGCGTCGTGgatcCTGAACCGC-3’(SEQ ID NO:8)。
进行逆转录以产生cDNA。使用一组逆转录酶(包括例如Superscript III(Thermo))进行逆转录,以允许比较每种酶的突变和截短模式。用AMPure珠(Agencourt)对cDNA进行尺寸选择后,用环化连接酶II(Lucigen)在60℃环化cDNA,并用BamHI限制性内切酶切割。用合适的测序衔接子对文库进行PCR扩增,并在MiSeq仪器(Illumina)上测序。对照参考RNA序列比对读数,并评估突变和截短模式。
实施例3:使用结合结构域的随机标记制备核酸结合分子
通过胺反应化学将DNA寡核苷酸缀合至实施例1中所述的抗体来制备核酸结合分子。使用寡核苷酸缀合试剂盒(Vector Labs,货号S-9011-1)将氨基修饰的DNA寡核苷酸随机连接至抗体上。第一步是用4FB交联剂修饰氨基末端的DNA寡核苷酸,并用HyNic试剂修饰抗体的赖氨酸残基。活化的寡核苷酸和抗体的简单混合使得它们之间形成共价键。
如实施例1所述,通过SDS凝胶电泳评估标记的化学计量,并通过平板ELISA确认功能。图20A显示了Ab01的寡核苷酸标记效率如何响应HyNic浓度(即0、10、25或50倍摩尔过量)而变化。在10倍摩尔过量的HyNic下,存在具有0、1或2个寡核苷酸的抗体缀合物,而在50倍过量的HyNic下,寡核苷酸的数量在1至7的范围内。
对于在条形码测定中的使用,优选最小化未标记抗体量的HyNic浓度,同时避免标记对功能重要的赖氨酸残基。实际上,最佳HyNic比率取决于IgG同种型和副表位的序列(图20B)。Ab05每个抗体呈现多达8个寡核苷酸,Ab10多达5个,Ab16多达3个,Ab19多达1个。用于图20B中所有标记反应的衔接子是相同的,并且设计用于通过引物延伸的条形码(2D型衔接子),并且包含PEG接头(iSp18)、封闭的3’端(3SpC3)和用于缀合到结合结构域的5’胺(5AmMC6)(/5AmMC6/T/iSp18/TATAAGAGACAGACACAGGCCACTCAGTCTAT/3SpC3/;SEQ ID NO:9)。用于通过引物延伸进行条形码编码和通常用于测序的衔接子具有以下架构: SEQ ID NO:56(5AmMC6=5’胺、iSp18=PEG接头、斜体=Illumina衔接子、NN N=UMI、下划线=7b MBC(修饰-编码条形码)、加粗=8b间隔区、3SpC3=3’封闭基团)。PEG接头为高效条形码转移增加了空间灵活性。寡核苷酸序列、可能的末端修饰和束缚方向可以根据每个核酸结合分子的具体需要而改变。
实施例1中所述的ELISA实验用于在用寡核苷酸标记后确认抗体结合活性。比较标记前后相同抗体的结合曲线显示,Ab05、Ab16和Ab10都丧失了一些活性,其中Ab05损失最严重,KD损失>15倍(图21A-21C)。然而,这些实验证明了抗体作为用于识别核苷酸修饰的结合结构域的可检测结合。
实施例4:使用抗体碳水化合物结构域的位点特异性标记制备核酸结合分子
为了避免减损结合活性,使用位点点击抗体叠氮基修饰试剂盒(Thermo Fisher,货号S20026)。位点点击标记(SiteClick labeling)使用酶将叠氮基部分特异性连接到IgG抗体的重链上,确保抗原结合结构域保持不变,用于与抗原靶结合。这种位点选择性通过靶向基本上所有IgG抗体(无关同种型和宿主物种)上存在的碳水化合物结构域来实现。β-半乳糖苷酶催化β-1,4连接的D-吡喃半乳糖残基的水解,然后使用工程化β-1,4-半乳糖转移酶连接叠氮基-吡喃半乳糖。一旦经叠氮基修饰,DBCO(二苯并环辛基)标记的衔接子(例如DBCO/5AmMC6/T/iSp18/TATAAGA GAC AGACACAGGCCACTCAGTCTAT/3SpC3/;SEQ ID NO:22)与Fc区缀合,产生呈现一个或两个衔接子的抗体,但也有一些未标记的抗体(图21D)。ELISA测定证实了位点特异性标记的抗体具有未改变的结合亲和力(图21E)。
实施例5:通过基因工程使用位点特异性标记制备核酸结合分子,并将其固定在微珠上
当核酸结合分子用于基于微珠的测定时,分子以保持结合活性的方向被固定在表面上。为了可重复地制备用于这种测定的核酸结合分子,使用结合结构域(例如抗体或其片段)的位点特异性标记。以下方法可适用于任何蛋白质结合结构域,并且不限于抗体。
首先,抗体工程化如下。Spytag肽(AHIVMVDAYKPTK,SEQ ID NO:10)融合至抗体重链的C端。抗体轻链的C端用短肽LCxPxR修饰,其中x可以是任何氨基酸(SEQ ID NO:11)。这种肽是甲酰甘氨酸生成酶(FGE)的底物。因此,表达并用两种肽融合标签纯化抗体(图17C)。
选择表达FGE的细菌表达系统。这种酶共翻译地引入甲酰甘氨酸。甲酰甘氨酸的醛基基团是反应性化学把柄,用于在将氨基基团转化为肟或腙后连接氨基-DNA。
为了将核酸结合分子固定在珠上,用Spycatcher蛋白修饰珠。Spycatcher的N端与核酸结合分子的结合结构域所展示的C端Spytag快速且完全地反应,从而形成共价的异肽键。天然的Spycatcher是139个氨基酸的蛋白质并且不含半胱氨酸:msyyhhhhhhdydipttenl yfqgamvdtl sglsseqgqs gdmtieedsa thikfskrde dgkelagatm elrdssgktistwisdgqvk dfylypgkyt fvetaapdgy evataitftv neqgqvtvng katkgdahi(SEQ ID NO:12)。在C端引入单个半胱氨酸突变,以允许通过马来酰亚胺化学进行表面连接(参见实施例9)。
实施例6:核酸结合分子在蛋白G珠上的固定和核酸靶下拉
用于核酸修饰的多路复用检测的最简单的测定形式显示在图5A中。微珠仅装载一种类型的核酸结合分子,代表“微珠类型”。为了同时查询几种核酸修饰,将几种珠类型组合并与核酸靶混合。因为珠型的所有核酸结合分子免疫沉淀相同的靶,所以不需要严格控制它们的表面密度。与一个核酸结合结构域结合但被相邻核酸结合分子条形码编码的靶将被正确识别。
固定IgG抗体的通用方法是使用商业蛋白G珠。蛋白G是一种在C组和G组链球菌中表达的免疫球蛋白结合蛋白。它是一种65kDa(G148蛋白G)和58kDa(C40蛋白G)的细胞表面蛋白,结合大多数IgG同种型的Fab和Fc区。本实施例描述了随机衔接子标记的核酸结合分子在蛋白G珠上的固定和修饰的RNA序列的特异性下拉(pulldown)。
将m6A(Ab05)、m5C(Ab16)和I(Ab10)的未标记抗体装载至磁性蛋白G Dynabead(Thermo Fisher,货号10009D)。洗涤50μL Dynabeads,并与在PBST(含0.1%20去污剂的PBS)中的200μL抗体(0.05μg/μL)一起孵育。抗体在22℃下结合20min,然后用200μLPBST洗涤微珠。在22℃下,将装载的微珠暴露于合成RNA靶的混合物中1小时,每个靶呈现单一修饰(m6A(SEQ ID NO:13)、m5C(SEQ ID NO:18)、I(肌苷)(SEQ ID NO:16),或者没有修饰,如表5所示。用荧光素(FAM)对靶进行5’修饰,以便能够在凝胶上进行比率检测。用PBST洗涤后,通过用2xTBU加样缓冲液(Thermo Fisher,货号LC6876)在70℃孵育2分钟回收免疫沉淀的RNA。在15% TBU凝胶(Thermo Fisher,货号EC62755BoX)上分离靶并定量(图22)。所有抗体都表现出对其同源靶的明显偏好,特异性水平各不相同。对于大多数抗体-靶组合来说,后者等于或高于10倍,这低于通过ELISA测量预测的情况(实施例1)。该结果归因于在固定抗体而不是RNA靶的反向形式中缺乏亲合力,以及洗涤程序严格性的差异。
表5:合成的RNA靶
/>
*其中“r”代表核糖核苷酸。
实施例7:通过引物延伸实现RNA序列随机汇集的条形码编码
通过引物延伸的条形码编码需要在靶RNA的3’端存在合理设计的序列(间隔区,SP;参见图2D和3D)。用于通过引物延伸进行条码编码的衔接子含有与间隔区互补的序列。衔接子与靶间隔区的杂交形成一个凹陷的3’端,3’端可以被DNA聚合酶或逆转录酶延伸,从而将条形码序列复制到靶RNA上。以下实施例提供了使用加尾或连接反应,用间隔区标记随机RNA序列库的方法(图23A)。
第一种方法将3’poly-rA尾附加至RNA靶上。在1mM ATP存在下,使用大肠杆菌聚(A)聚合酶(NEB,货号M0276L)将简并30b RNA序列(rN30)聚腺苷酸化。添加至随机30b RNA分子库(5'-FAM-(rN)30;SEQ ID NO:23)中的A的数量具有宽高斯分布,平均值约为150b。通过向反应中加入过量的所需长度的竞争poly(dT)寡核苷酸来控制A-尾的尺寸。竞争物与新生的A-尾结合,取代了聚合酶,从而中止了反应。图23B描述了通过向加尾反应中加入poly(dT)20寡核苷酸产生20b间隔区。图23C描述了通过向加尾反应中加入相应长度的poly(dT)寡核苷酸来产生10b、20b和30b间隔区,并研究了温度的影响。20b和30b poly(dT)竞争物生产了所需的间隔区长度,然而,10b竞争物未能控制间隔区长度。这可能是因为10bA/T双链体在测试的反应温度下不稳定。在GTP或CTP和互补的10b竞争寡核苷酸存在下,使用聚(U)聚合酶可以产生较短的均聚物尾。该方法可扩展到允许在给定反应温度下竞争物与均聚物尾杂交的任何间隔区长度。
信使RNA(mRNA)天然地包括3’-A-尾,这些尾被广泛用于mRNA分子与固定的poly-dT探针的选择性杂交。除了提供间隔区连接的方法之外,任何RNA群体都可以用这种方法加尾,并通过杂交固定在微珠上,如图4B所示。
第二种方法使用酶连接。通过T4 RNA连接酶I(NEB,货号M0204L)催化的3’连接引入包含任何碱基序列的间隔区。该反应需要RNA去磷酸化的3’端和5’-磷酸化的DNA间隔区。图23D显示了尺寸范围为10b、20b、30b和50b的5’-磷酸化DNA序列(分别为SEQ ID NO:28-31,参见表6)与30b简并RNA文库(SEQ ID NO:23)的连接。选择尺寸范围以提供用于引入间隔区(典型的间隔区尺寸约为10b)和根据图3A通过连接进行条形码编码的有用信息(典型的衔接子尺寸>25b)。连接间隔区或衔接子的标准条件是相同的:使用优化的连接缓冲液(500nM RNA靶、2.5μM 5’磷酸化DNA、50mM Tris pH 7.5、10mM MgCl2、1mM DTT、0.5mM ATP、20% PEG-8000和0.5单位/μL T4 RNA连接酶I)在室温下孵育反应1小时。通过变性凝胶电泳分析连接产物。凝胶的定量表明,对于中等长度的DNA序列(20和30b),反应进行得最快,对于非常短的(10b)和更长的(50b)序列,反应进行得较慢(图23D)。因此,过夜进行典型的间隔区连接以最大化转化率,并且通过相同的连接反应进行条形码编码的衔接子设计不超过50b。
核酸结合分子呈现通过引物延伸进行条形码编码的衔接子,其经由非常规特征特异性地接触靶RNA,并且经由间隔区非特异性地接触靶RNA。与通过连接的条形码编码相比,结合模式从一价变为二价,因此增加了工程化的亲和力。虽然这是增加结合亲和力的机会,但该设计具有降低结合特异性的风险。为了避免对特异性的负面影响,间隔区相互作用需要非常弱,以至于在缺乏非常规特征的情况下是不可持续的。因此,间隔区应该尽可能短,但足够长以使聚合酶能够结合,并有效地与特别是由RNA形成的分子内二级结构竞争。
使用典型结构复杂性的50b RNA序列(SEQ ID NO:13),在没有核酸结合分子(也称为合成游离衔接子的互补序列)的情况下,间隔区长度对引物延伸的影响如图23E所示。如表6所示,平行测试50b DNA靶(SEQ ID NO:15)和18b RNA靶(SEQ ID NO:24),以确定可能由结构复杂性引起的差异。所有的靶都呈现序列为ACTGAGTG(SEQ ID NO:19)的3’DNA间隔区。以超过靶1或5倍的量施加于溶液中的衔接子包含8、10或12-b互补间隔区(SEQ ID NO:25-27和38,如表5所示)。典型的引物延伸反应包含10mM Tris pH 7.9、2mM MgCl2、100uMdNTP、0.1%吐温-20、1μM靶、1或5μM衔接子和0.25单位/μL Klenow片段(3’→5’exo-),以及任选的6% DMSO。标准反应条件是在22℃下引物延伸5min。数据显示,无论间隔区长度如何,与DNA和短RNA靶相比,长RNA延伸较差。在使分子内二级结构不稳定的条件下,例如升高的温度(37℃下5min)、DMSO的存在和较高的衔接子浓度(超过靶5倍),较长的间隔区是有利的(图23F)。该发现表明,间隔区的进入受到RNA二级结构的阻碍,甚至12b间隔区也不容易侵入稳定的RNA二级结构,除非通过额外的措施使该结构不稳定。下面的实施例8表明,当由核酸结合分子介导时,引物延伸更容易。本文中,结合结构域的抗原识别将衔接子固定在RNA靶的直接邻近处,导致衔接子的高度局部集中,从而加速酶促反应(“邻近效应”)。
表6:衔接子和合成靶
根据整合DNA技术使用的语法,对修饰进行缩写。
5AmMC6=5’胺,iSp18=PEG接头,5Phos=5’磷酸,3ddC=双脱氧胞苷
实施例8:条形码转移至免疫沉淀的RNA
该实施例是实施例6的扩展,其中将随机衔接子标记的抗体而不是未标记的抗体装载至蛋白G珠上,并且通过引物延伸或连接诱导条形码转移至免疫沉淀的核酸靶。
蛋白G珠分别装载有m6A核酸结合分子(具有8b或12b间隔区引物延伸衔接子的Ab05)、m5C核酸结合分子(具有8b间隔区引物延伸衔接子的Ab16)或I核酸结合分子(具有带有8b或12b间隔区引物延伸衔接子的Ab05的Ab10)。
每种装载的珠类型与两种RNA或DNA靶的混合物一起孵育。Ab05和Ab16珠与表7所示的m6A和m5C RNA靶(SEQ ID NO:13和SEQ ID NO:14)一起孵育。Ab10珠与m5C和IDNA靶(SEQ ID NO:15和SEQ ID NO:16)一起孵育。使RNA链与微珠结合,并使用磷酸盐缓冲盐水(PBS)洗涤以去除任何未结合的核酸。然后将微珠悬浮在含有Klenow片段的引物延伸缓冲液中。
在15% TBU凝胶上显现所得产物(即,通过条形码延伸的靶RNA),并分析产物长度和数量(图24A)。具有8b间隔区引物延伸衔接子的Ab16正确地对m5C RNA靶进行了条形码编码。没有检测到m6A靶的背景条形码,这为反应的特异性提供了证据。具有12b间隔区的Ab05正确地条形码编码m6A RNA靶,然而,8b间隔区版本未能拉下任何靶。已知未标记的Ab05很容易拉下m6A靶,这表明标记将结合亲和力削弱到一种程度,该程度下12b间隔区的额外稳定是提供结合所必需的。Ab10表现出相同的表型。12b间隔区版本拉下目标,而8b间隔区版本没有。然而,Ab10已经完全失去了特异性,间隔区相互作用压倒了抗体的选择性。图24B显示使用8b间隔区恢复了Ab05的活性和Ab10的特异性,并且标记抗体位点选择性地避免了结合结构域的损伤。总之,在抗体介导的形式中,引物延伸反应具有高效率,但是随机标记会削弱结合亲和力(见Abo5),或者在存在12b间隔区的情况下负面影响特异性(见Ab10)。尽管实施例7中的引物延伸表明12b间隔区可能是延伸RNA所必需的,但是该数据集清楚地表明邻近效应加速了反应,并且12b间隔区太长并且可能与缺乏特异性有关。因此,未来的核酸结合分子将用8b间隔区衔接子标记,如图24B所示。
通过引物连接的条形码编码缺乏稳定的间隔区相互作用。图24C显示了用位点点击衔接子(SEQ ID NO:39)标记的Ab01对m6A标记的RNA靶(SEQ ID NO:17)的条形码编码。用于通过连接进行条形码编码和通过序列进行分析的衔接子序列具有以下架构:SEQ ID NO:57(5phos=5’磷酸、加粗=MBC、NNN=UMI、斜体=Illumina衔接子、iSP18=PEG接头,3AmMO=3’胺)。连接条件与实施例6中描述的相同。反应的产率比游离衔接子的连接高约10%,再次证明了邻近的加速作用。
表7:合成靶和衔接子
实施例9:制备包含单分子间距的核酸结合分子的微珠
尽管通过固定在蛋白A/G Dynabead上的抗体下拉核酸靶是CHIP-Seq中的标准方法,但本实施例中使用的微珠是定制的,以提供多种益处:(i)通过改善的表面钝化避免假阳性(钝化的表面避免了与微珠的非特异性结合,因此修饰的核酸的结合基本上是通过与核酸结合分子的相互作用);(ii)珠表面上的核酸结合分子的密度是可调节的,例如提供表面上分子之间的适当空间分离,如根据图5B的条形码编码所要求的;(iii)可以设计微珠以促进除抗体Fc区之外的其它识别元件的捕获和/或共移植;(iv)核酸结合分子共价连接,并且在工作流程步骤中不共洗脱;和(v)多种类型的核酸结合分子可以存在于表面上,这与一些应用相关。
羧基化Dynabead(Thermo)表面包覆有氨基-PEG4-醇(Broadpharm,BP-20589)和Mal(马来酰亚胺)-PEG2-胺(Broadpharm,BP-23313)的二元混合物。Mal(马来酰亚胺)-PEG2-胺用于连接半胱氨酸修饰的Spycatcher,而氨基-PEG-醇隔开核酸结合分子并钝化微珠表面以对抗非特异性结合。调节氨基-PEG4-醇与Mal-PEG2-胺(即钝化分子:活化分子)的比例,以约每100nm2固定一个Spycatcher分子。这在空间上分离了核酸结合分子,并在与靶RNA结合时将它们与其它分子隔离,从而加强了分子内条形码转移。
在pH为5的25mM MES(2-(N-吗啉代)乙磺酸)中洗涤Dynabead后,将在pH为5的25mMMES中的50μL新鲜EDC(N-(3-二甲基氨基丙基)-N’-乙基碳二亚胺盐酸盐)和50μLNHS(N-羟基琥珀酰亚胺)加入到100μL微珠的悬浮液中。使反应在室温下进行30分钟。然后除去上清液,并再次洗涤微珠。在EDC/NHS步骤后,用氨基-PEG4-醇和MAL-PEG2-胺的二元混合物包被Dynabead。在下一步中,马来酰亚胺基团共价束缚至Spycatcher上。将Spycatcher溶解在pH为7的20mM Tris中,用TCEP(三(2-羧乙基)膦)还原半胱氨酸基团。将马来酰亚胺活化的微珠和Spycatcher蛋白混合,并在室温下反应2小时。洗涤微珠后,通过Spycatcher蛋白与Spytag-DNA缀合物反应并对缀合物进行qPCR定量来计算每个微珠的Spycatcher蛋白的数量。Spycatcher修饰的微珠与实施例4中描述的spytag-结合物-条形码缀合物反应。
实施例10:制备具有可调捕获探针密度的钝化珠
根据图4C的靶向核酸修饰分析涉及在微珠上捕获感兴趣的核酸序列,随后编码非常规特征。通过精确控制编码复合物的表面密度来分离编码复合物可以防止相邻分子之间的串扰。以下方法描述了具有一系列捕获探针密度的微珠的制备。
在100%异丙醇和1mM盐酸中洗涤多孔NHS活化的琼脂糖珠(Cytiva,货号17071601)。为了钝化和化学功能化微珠,它们在室温下在pH为8的0.25M碳酸氢钠缓冲液、0.5M NaCl、40mM COOH-PEG4-胺(钝化分子;Broadpharm,货号BP-20423)和可变数量的mTet(四嗪)-PEG4-胺(官能化分子;Broadpharm,货号BP-22435)中孵育16h。使用40μM、400μM和4000μM的mTet-PEG制备mTet-PEG:羧基-PEG比例为1:1000、1:10000、1:100000的微珠。产生100%羧基-PEG珠来测量背景。DNA捕获探针的3’胺(CATCTGACGCTGCCGACGATTTTTT/3AmMO/;SEQ ID NO:20)用NHS-PEG-TCO(反式环辛烯)(Broadpharm,货号BP-22418)活化,并通过在22℃下在1x PBST(137mM NaCl,2.7mM KCl,10mM Na2HPO4,1.8mM KH2PO4,0.1%20去污剂)中与mTet反应16h而锚定在微珠上。mTet/TCO对是一种被充分研究的逆需求Diels-Alder环加成,在生理条件下以>800M-1s-1的速率发生,形成二氢哒嗪键。
在将可扩增的示踪寡核苷酸(TCGTCGGCAGCGTCAGATGATTGTGTTAGGCTAGTAAG TAGATGGATTAGACCGTCGAGTGAGTAGAGTACGTAGTGCA,SEQ ID NO:21)与珠上的捕获探针杂交后,通过qPCR测定捕获探针密度。基于校准曲线,将阈值循环(Ct)值转化为每个微珠的DNA分子数(图25)。mTet-PEG每增加10倍,可捕获10倍以上的示踪寡核苷酸,与理论预测一致。以防止相邻相互作用的距离隔开编码复合物的mTet浓度通过实验确定(参见实施例12)。背景较低,在无mTet珠上检测到的DNA链的数量相当于在最高密度珠上检测到的分子的0.1%。
实施例11:使用模型核酸结合结构域和连接在溶液中进行近端条形码编码
链霉亲和素和生物素的解离常数约为10-14mol/L,这是自然界中已知的最强亲和力相互作用之一,比抗体对修饰的RNA碱基的典型亲和力强几个数量级。设计了一种简单的核酸结合分子,其包含作为结合结构域的链霉亲和素和生物素化的连接衔接子。这种方法的目的是将核酸结合分子的条形码专门转移到靶RNA上,该分子使用具有极高亲和力和特异性的结合结构域结合到该靶RNA上。这种模型系统作为过程控制和探索在核酸结合分子的准无限亲和力下进行条形码编码的上限是非常宝贵的。
在低离子强度缓冲液(10mM Tris pH 7.5,50mM NaCl,1mM EDTA,0.05%吐温-20)中以1:1,1:2,1:3和1:4的比例混合链霉亲和素和生物素-衔接子(SEQ ID NO.33),并通过使用天然8% TBE凝胶的电泳分析所得复合物(图26A)。四个链霉亲和素的生物素结合袋中的三个装有浓度递增的生物素-衔接子。1:2的比例最适合编码,因为不存在未标记的链霉亲和素,并且结合袋可用于结合生物素化的RNA靶。
为了证明溶液中的近端编码,将链霉亲和素核酸结合分子与m6A修饰的RNA(脱靶;SEQ ID NO:32)和生物素-RNA(中靶;SEQ ID NO:40)的等摩尔混合物混合。RNA链被染料标记并且尺寸不同,以通过凝胶电泳区分中靶和脱靶编码。在22℃下,在50mM Tris-HClpH7.5、10mM MgCl2、1mM DTT、0.5mM ATP、400nM 1:2链霉亲和素-生物素-衔接子缀合物和每个RNA靶100nM中进行连接1小时。连接反应中的PEG-8000浓度从0到25%变化,以通过分子拥挤(molecular crowding)调节平均分子间间距。连接后,通过用USER(NEB,货号M5505L)在单个尿嘧啶处切割衔接子,将链霉亲和素从衔接子上断开,以促进凝胶分析。分子拥挤减少了生物分子可用的体积,从而有效地增加了浓度。理论预测在低PEG浓度下的特定条形码,其中分子间间距大,而较高的PEG浓度使分子凝聚并触发串扰,结果与理论一致(图26B)。在该实施例中,当链霉亲和素缀合物与正确的生物素-RNA结合,但是对另一个非常接近但未结合的m6A RNA进行条形码编码时,观察到串扰。该实施例表明,如果严格控制条形码编码复合物的平均距离,在溶液中进行中靶条形码编码是可能的。
表8:衔接子和RNA序列
实施例12:通过单分子珠上RNA的序列特异性捕获和使用模型核酸结合结构域的条形码编码进行条形码转移
该实施例使用与实施例11所述相同的衍生自链霉亲和素的模型结合结构域和实验设计。然而,连接反应是在如实施例10中所述制备的固定化微珠上进行的。使用两种类型的微珠:具有1∶100比例的mTet:羧基-PEG的琼脂糖珠或1:1000比例的mTet:羧基-PEG的琼脂糖珠。
每个反应包含2000个1:100mTET/羧基微珠或20000个1:1000mTET/羧基微珠,微珠用捕获DNA(SEQ ID NO:20)修饰。将微珠与生物素(SEQ ID NO:31)和m6A RNA(SEQ ID NO:32)的1.5μM混合物在80μL含有0.1%吐温20的5XSSC缓冲液中于37℃孵育1小时。两种RNA靶都呈现与微珠上的捕获探针互补的21b区域。杂交完成后,通过用200μL高盐PBST(含0.1%吐温20和360mM NaCl的PBS)洗涤两次和用100μL PBT(含0.1%吐温20 和360mM NaCl的PBS)洗涤一次,除去未结合的靶。将微珠与链霉亲和素-衔接子缀合物在高盐PBST中孵育20min。如针对RNA靶所述,洗去过量的缀合物。如实施例11中那样进行连接和分析。图26B显示了生物素靶与1:1000mTET/羧基珠的特异性条形码编码,以及与1:100mTET/羧基珠的串扰。在该实施例中,串扰是RNA靶以1:100mTET/羧基珠的较大密度紧密堆积在表面上的结果。
实施例13:通过PCR测量在溶液中使用连接和引物延伸的条形码转移
以下方法的目标是将核酸结合蛋白(即,如实施例3和4中所述的核酸结合蛋白)的条形码专门转移至与该分子结合的靶RNA。
将具有m6A和m5C修饰的两种靶RNA(图18A和18B)和它们的同源核酸结合分子混合并进行结合。在溶液中进行条形码转移反应,条形码转移机制是连接或引物延伸。对于通过连接进行的条形码转移,条形码通过5’端束缚于核酸结合分子(即抗体)的结合结构域,条形码的3’端预先腺苷酸化。通过加入T4 RNA连接酶II开始连接。对于通过引物延伸进行的条形码转移,在靶RNA的3’端添加短的间隔区序列,条形码包含与间隔区序列互补的区域。用DNA聚合酶(例如Klenow片段)和dNTP(脱氧核糖核苷酸三磷酸)在37℃下进行间隔区延伸5min。
条形码转移效率以及脱靶条形码通过PCR使用模型寡核苷酸系统来测量。如图18A和18B所述,基于PCR产物的长度来确定正确和不正确的条形码配对。具体而言,在条形码转移反应完成后,将反应产物进行PCR扩增,并通过凝胶电泳观察产物的尺寸。非预期尺寸的条带表示出现了脱靶的条形码转移。该反应方案用于优化衔接子架构、酶的选择和反应条件,以实现最大的条形码转移效率和最小的脱靶活性。
实施例14:通过RNA的序列特异性捕获进行条形码转移
当靶RNA本身连接至微珠表面时,也可进行条形码转移(图4C)。靶RNA通过核酸杂交被捕获在珠表面上(即,靶RNA在珠表面上的捕获不依赖于核酸结合分子对靶RNA修饰的识别)。通过核酸杂交的靶捕获使得能够选择性富集感兴趣的基因组或转录组区域。
根据实施例4制备展示DNA捕获探针的珠;硫醇化的DNA寡核苷酸代替半胱氨酸修饰的Spycatcher被固定,其中硫醇化的DNA寡核苷酸的序列与靶RNA的区域互补。这些捕获寡核苷酸在微珠表面上以每100nm2少于1个分子的量存在,以确保分子内条形码转移反应的特异性。m6A和m5C模型寡核苷酸(图18A和18B)被捕获在杂交缓冲液中。洗涤后,加入能够结合m6A和m5C的核酸结合分子库。然后通过连接或引物延伸进行条形码转移反应,如实施例6和7中所述。通过PCR测量条形码转移效率和特异性。
实施例15:结合结构域-胞嘧啶脱氨酶缀合物的制备和碱基编辑的测量
胞嘧啶脱氨酶催化胞嘧啶水解脱氨为尿嘧啶(C突变为U)。这种酶已被用于基因编辑,其中它通过与无催化活性的Cas9-向导RNA复合物融合而靶向感兴趣的基因区域。在该实施例中,胞嘧啶脱氨酶通过结合结构域(例如,通过抗体结合)靶向RNA修饰。目标是设计一种结合结构域-脱氨酶缀合物,将脱氨酶活性限制在与RNA修饰一致的几个碱基的范围内。
大多数胞嘧啶脱氨酶作用于单链DNA。APOBEC1和APOBEC3A是仅有的具有RNA编辑活性的酶,并且大鼠APOBEC1(Uniprot登录号P38483)已经成功用于由无催化活性的Cas9-向导RNA复合物介导的靶向RNA编辑。人YTHDF2(Uniprot登录号Q9Y5A9)是一种天然m6A阅读蛋白,它结合m6A,解离常数范围为KD=150nM-1200nM,取决于序列环境。追求两种方法来获得m6A靶向结合结构域-脱氨酶缀合物。一种方法是将APOBEC1直接融合到YTHDF2(Meyer,K.Nature Methods 16,1275-1280(2019))。另一种方法是将Spytag与APOBEC1融合,将Spycatcher与YTHDF2融合,并让它们反应形成共价结合物,作为测定工作流程的一部分。
首先,在大肠杆菌细胞中表达三种融合构建体:(1)APOBEC1-YTH-His,包含大鼠APOBEC1(aa 1-229)和YTHDF2的结合结构域(aa 385-579)(图27和SEQ ID NO:34)。(2)APOBEC1-Spytag-His,包含相同的APOBEC1和Spytag002(图27和SEQ ID NO:35)。(3)Spycatcher-YTH-His包含如表6中提供的相同YTHDF2片段和Spycatcher002(图27和SEQ IDNO:36)。(4)MBD-TEV-APOBEC1-Spycatcher-His,包含麦芽糖结合结构域(MBD)、TEV蛋白酶切割位点(TEV)以及如上所述的APOBEC1和Spycatcher。Spytag002和Spycatcher002是Spy系统的最新发布版本,显示了共价肽标签有报道以来最快的反应速率。对基因进行密码子优化、合成,克隆至pET-30a载体中具有C端his标签的框,并在BL21细胞中表达。图28显示了在15℃下16小时后和在37℃下4小时后的类似诱导。然而,在可溶部分中仅存在Spycatcher-YTH-His,而含APOBEC的蛋白大部分不溶。为了解决APOBEC的溶解性问题,产生了MBD-TEV-APOBEC1-Spycatcher-His,其包含侧接麦芽糖结合结构域(MBD)和Spycatcher的APOBEC,两者都以其优异的溶解性而闻名。引入TEV切割位点以去除MBD。该构建体产生可溶性蛋白质,特别是在15℃下表达16小时时(图28)。在高盐缓冲液中裂解细胞以破坏与核酸的静电相互作用,并用核酸酶(50mM Tris,500mM NaCl,1mM TCEP,pH 8.0,核酸酶(Thermo Fisher,货号88700))处理。与MBD或Ni柱的结合都是中等的,表明两种亲和标签都不容易接近。收集洗脱的部分并进行尺寸排阻纯化(Superdex 200柱)(图29A和29B)。尽管最初开发的脱氨酶缀合物缺乏溶解性,但这些数据证明了可溶的蛋白标签-脱氨酶缀合物的产生,其用于将脱氨酶活性限制在非常接近感兴趣的靶核苷酸修饰处。
表6:融合建构体
/>
实施例16:通过条形码编码、cDNA截短和环化的RNA分析
在该实施例中,通过核酸结合分子的识别和随后将条形码转移到RNA靶上来鉴定靶RNA上的修饰。通过逆转录过程中cDNA的截短揭示了修饰的位置(图8),该截短是由核酸结合分子的结合结构域的交联诱导的,或者是由相应工程化的结合结构域诱导的。
总人参照RNA(Thermo)是核糖RNA,通过在95℃下与镁(Mg2+)离子一起孵育而被损耗并断裂成100-150个核苷酸的平均尺寸。使用T4多核苷酸激酶(NEB)和虾碱性磷酸酶(NEB)使RNA的3’端去磷酸化。将含有N6-甲基腺苷(m6A)、假尿苷(Ψ)和5-甲基胞嘧啶(m5C)的对照RNA寡核苷酸和未经修饰的类似寡核苷酸以已知浓度掺入RNA样品中作为阳性对照。
使用实施例4和5中描述的方法制备展示核酸结合分子的微珠,核酸结合分子识别RNA修饰m6A、Ψ或m5C。每种微珠类型展示单一种类的核酸结合分子。衔接子的设计如图2B所示。将微珠与RNA样品在结合缓冲液中混合并孵育,随后用0.15J/cm-2(254nm)的UV光进行交联。上清液含有未修饰的RNA,而修饰的RNA与微珠结合。
为了测量RNA修饰的丰度和化学计量,使用分离工作流程将未修饰和修饰的RNA部分转化为RNA-Seq文库(参见图7)。未修饰的RNA部分的条形码编码按如下进行:将B型衔接子(图2B)加入到上清液中,并用T4 RNA连接酶连接至RNA的3’端。衔接子不与核酸结合分子连接,所有未修饰的RNA链接受相同的衔接子和条形码。必要时,在测定步骤之间,使用在含乙醇的RLT缓冲液(Qiagen)中的DynabeadsTM MyOneTM硅烷(Thermo Fisher)的物理吸附来纯化RNA。对于修饰的RNA,条形码从微珠固定的核酸结合分子转移至RNA分子上。RNA分子仍然通过核酸结合分子与微珠结合。在此步骤之后,所有的方案步骤对于未修饰和修饰的RNA都是相同的。添加通用引物并通过Superscript III(Thermo)延伸,由此cDNA在修饰位点被截短。为了形成环状cDNA,通过在60℃下与环化连接酶II(Lucigen)一起孵育来启动分子内连接。在用限制性内切酶在UFP和URP区之间切割衔接子后(图2B),通过用测序衔接子进行PCR将cDNA转化为文库。在测序前将修饰的和未修饰的部分合并,并在2000万次读取下进行测序。m6A、Ψ、m5C的类型、数量和位置由信息确定。对照寡核苷酸用作参照,说明平行文库制备过程中的低效率。
实施例17:通过条形码编码和碱基编辑进行修饰分析的靶向捕获和链RNA文库制备
在该实施例中,通过杂交富集特定的RNA序列,并且在文库制备期间保留链信息。如实施例10所述制备具有单分子间距的捕获探针的微珠。每种微珠类型展示了针对特定RNA基因座的捕获探针,并且将微珠类型汇集以处理任意数量的RNA基因座。
将片段化的RNA与微珠库在杂交缓冲液(5×柠檬酸钠盐(SSC)、40%甲酰胺、0.1%吐温-20去污剂)中在37℃下孵育16小时。无论修饰状态如何,RNA链都与捕获探针结合。加入针对10种不同修饰的核酸结合分子库。核酸结合分子包含具有Spytag(SEQ ID NO:10)的修饰特异性IgG抗体,Spytag基因工程化到轻链的C端。对于修饰的位置标记,加入脱氨酶-spycatcher融合蛋白,其与spytag快速反应,并用C至U突变标记修饰的位置。去除蛋白缀合物后,用游离衔接子进行第二步连接,对未修饰的RNA部分进行条形码编码。对于给定的基因座,修饰化学计量对应于修饰条形码的数量除以所有条形码。然后使用标准方法进行第一链cDNA合成,并在dUTP存在下合成第二链。用USER酶(NEB)处理所得文库去除第二链,从而保留了链信息。然后DNA测序鉴定RNA样品中所有位点的RNA修饰的位置。
实施例18:通过链分离、条形码编码和碱基编辑分析DNA修饰。
在该实施例中,将衔接子连接的DNA共价固定到微珠上用于强制保持链分离,使得能够通过单链特异性胞嘧啶脱氨酶进行碱基编辑,以进行非常规特征的准确定位标记(图9)。
使用剪切力或本领域技术人员已知的其它常用方法将DNA样品片段化。在DNA链的末端修复和A-加尾后,将Y形衔接子连接到两个末端。这些衔接子以3’-叠氮基修饰为特征,这是合成寡核苷酸的一种广泛可用的修饰。在适于双链DNA变性(链分离)的条件下(例如在极性有机溶剂,诸如乙醇和乙腈中或在95%甲酰胺水溶液中),使用点击反应以单分子间距将单DNA链共价连接到底物上。这种点击反应可以是叠氮基-DNA和表面束缚的低密度炔烃之间的Cu(I)催化的叠氮炔烃环加成、应变促进的叠氮炔烃环加成或这种Huisgen化学的其它变体。
固定后,去除变性条件(例如,通过改变溶剂或蒸发溶剂),并引入缓冲水溶液以及与其条形码连接的核酸结合分子。然后通过T4 DNA连接酶催化的夹板DNA连接进行条形码转移,这由非常规特征的特异性识别来确定。
条形码转移完成后,引入与胞嘧啶脱氨酶缀合的二抗,其在非常接近非常规特征的位点处进行C至U碱基编辑。碱基编辑后,使用USER切割将DNA链从底物上切割下来。然后引入引物并与衔接子结合,DNA聚合酶用于cDNA合成,并在尿嘧啶位点处截短。然后进行文库制备和DNA测序鉴定DNA样品中所有位点的非常规特征的位置。
实施例19:具有两轮RNA修饰分析和碱基编辑的DNA文库制备
在该实施例中,在同一RNA靶链上检测到多个修饰及其出现。这是通过核酸结合分子的两轮修饰识别和随后通过引物延伸的条形码转移来实现的(如图14A和14B中所述)。每次引物延伸后,通过碱基编辑记录相同类型的多个修饰的存在。
为了区分编辑循环,在第一个循环中通过腺苷脱氨酶进行碱基编辑(A至I突变),在第二个循环中,将cyRNA化学片段化至约200bp-300bp的平均尺寸。为了允许通过引物延伸进行条形码转移,将短的8个碱基的间隔区连接至RNA的3’端。间隔区充当进入条形码和通用引物的杂交位点。使用一种珠类型免疫沉淀连接的RNA片段,并使其结合约2小时。洗涤微珠后,通过在37℃下与Klenow片段和dNTP一起孵育约5分钟来进行条形码转移。该步骤标记了DNA靶所结合的微珠的类型。
通过在修饰位点附近引入A至I突变来编码修饰的位置。为此,加入二抗-腺苷脱氨酶缀合物并使其反应。
当编辑完成时,用第二种珠类型洗脱并免疫沉淀RNA。重复条形码转移和碱基编辑,但这次碱基编辑是用胞嘧啶脱氨酶进行的,引入了C至U突变。在第二个循环中转移的条形码包含通用引物帽,以使DNA靶可扩增。具有耐受尿嘧啶修饰的DNA聚合酶的衔接子PCR产生用于测序的文库。
实施例20:用于体外翻译和功能测试的APOBEC-Spycatcher融合蛋白的设计
该实施例采用无细胞体外翻译系统来表达设计用于靶向脱氨的脱氨酶。在大肠杆菌中表达APOBEC1观察到的溶解性和蛋白质折叠问题可能归因于细胞毒性,因为APOBEC的DNA编辑活性破坏了宿主细胞的基因组。体外翻译系统通常用于有毒和难以表达的蛋白质。图30显示了通过XTEN接头融合到Spycatcher的APOBEC1和APOBEC3A(E109A)的氨基酸序列(分别为SEQ ID NO:42和SEQ ID NO:43)。与实施例15中使用的基因相反,省略了用于亲和纯化的his标签和任何不必要的GS接头,以最小化酶的结构扰动。对于APOBEC1融合蛋白,使用具有T7启动子区的引物,从表达SEQ ID NO.37的质粒中PCR扩增基因。APOBEC3A酶由相同的质粒通过克隆到具有APOBEC3A(E109A)序列(IDT)的gblock中构建得到。使用体外蛋白质合成试剂盒(New England Biolabs)在有和没有Spycatcher融合的情况下表达两种酶。使用500ng每种PCR扩增的基因作为输入,根据制造商的方案组装反应。在37℃下进行蛋白质表达5小时。
通过向中心位置含有单个C的FAM标记的DNA寡核苷酸中加入含有感兴趣的酶的未纯化无细胞提取物来测量酶活性。胞苷脱氨酶活性将C转化为U,随后被USER酶(NEB)切割。图31显示了在37℃孵育30min后,在降低的无细胞提取物浓度下观察到的切割产物。最浓缩的反应在10μL反应体积(100nM FAM-DNA,10mM双-Tris-丙烷-HCl pH 7,10mM MgCl2,100μg/mL BSA)中包含1.25μL无细胞提取物。将无细胞提取物进一步稀释至1:2、1:4、1:8和1:16。APOBEC1A表现出弱的脱氨基活性,在spycatcher蛋白存在下该活性增强。相比之下,APOBEC3A的活性至少是APOBEC1A的10倍,然而,加入spycatcher融合蛋白具有轻度抑制作用。
这些结果证实了可以在体外翻译系统中表达具有催化活性的APOBEC1和APOBEC3A融合酶。
实施例21:APOBEC-Spycatcher融合蛋白的靶向脱氨作用
该实施例证明APOBEC-spycatcher融合蛋白可通过spycatcher和spytag的相互作用靶向DNA链的特定位点。共价Spycatcher/Spytag反应将脱氨酶活性限制在附着位点附近的区域。
图32描述了用于测量脱氨酶活性窗口大小的中毒引物分析(PPA)。含有几个规则间隔的C的DNA或RNA模板与FAM标记的引物杂交。用脱氨酶处理模板后,在dCTP、dTTP、dGTP和ddATP以及DNA聚合酶(DNA模板的Klenow片段)或逆转录酶(RNA模板的M-MLV)存在下进行引物延伸。C至U编辑的存在促使ddATP的引入,从而导致引物终止。通过变性凝胶电泳分析延伸产物的尺寸分布以定位碱基编辑位点。
首先,用商业版本的APOBEC3A(New England Biolabs)测试PPA测定。图33显示APOBEC3A对DNA模板(U和C模板分别为SEQ ID NO:44和SEQ ID NO:45)具有高活性,但对RNA具有弱活性(U和C模板分别为SEQ ID NO:46和SEQ ID NO:47)。因此,这种酶是标记DNA中非常规特征位置的合适候选者。
为了测试如图6C所示的将脱氨酶靶向非常规特征的能力,使用了简化的模型系统(图34)。不使用Spytag标记的结合结构域,而是将Spytag肽直接束缚在DNA链(例如SEQ IDNO:50)的胸腺嘧啶位置。Spytag肽附着在胸腺嘧啶离第一个C 26b的远端(SEQ ID NO:48),或者附着在胸腺嘧啶离第一个C 2b的近端(SEQ ID NO:49)。
图35描绘了用APOBEC3A融合蛋白进行靶向脱氨测定的结果。将100nm DNA模板(有或没有SpyTag)与7.6μL含有APOBEC3A和APOBEC3A-spycatcher的无细胞提取物在脱氨缓冲液(10mM Bis-Tris-丙烷-HCl pH 7,10mM MgCl2,100μg/mL BSA)中孵育,总反应体积为42μL。在1、3、8、15分钟后收集8μL时间点,并立即在95℃下热灭活脱氨酶。向反应中加入1μLKlenow DNA聚合酶混合物,以产生最终浓度为10μM dTTP、10μM dCTP、10μM dGTP、200μMddATP和0.2单位/μL的Klenow DNA聚合酶exo(-)。在37℃下进行PPA反应10min,并通过变性凝胶电泳进行分析。使用FAM标记的引物(SEQ ID NO:51)来定位编辑的位置。
图35显示了在有和没有spycatcher融合的APOBEC3A中观察到的凝胶条带模式的明显差异。如果没有spycatcher和spytag,七个C中的每一个都被同等地编辑,如各种尺寸的编辑(停滞)带所示。在两者都存在的情况下,随着时间的推移,只有引物+2和+7条带积累,表明酶的作用范围有限。当Spytag连接至近端位置时,这些流产产物的积累更明显。
该实施例展示了通过Spytag/Spycatcher将APOBEC3A束缚至反应位点来强制位点特异性脱氨基的第一个实施例。
实施例22:DNA/RNA异源双链体的双重靶向标记
在该实施例中,通过靶向标记促进了RNA修饰特异性条形码编码。这是通过将具有标记能力的嵌合末端(mosaic end,ME)衔接子与RNA特异性抗体缀合来实现的。抗体与RNA修饰结合后,通过将Tn5转座酶装载至抗体束缚的ME衔接子上,原位组装活性转座体。这将转座酶靶向修饰位点,并允许位点特异性标记,从而在修饰附近插入条形码编码的衔接子。
使用位点点击化学,用两个条形码编码的i5-ME序列(i5-ME-BC1)修饰m6A特异性抗体,并将m5C特异性抗体与两个其它i5-ME序列(i5-ME-BC2)缀合(实施例4)。修饰的对照RNA模板用T7 RNA聚合酶通过体外转录质粒DNA而产生。PhiX基因组的2000bp PCR扩增子(NEB,货号N3023S)在m6A三磷酸的存在下被转录,M13mp18单链DNA的2000bp PCR扩增子(NEB,货号N4040S)在m5C三磷酸的存在下被转录。两个序列都通过序列特异性杂交探针被捕获在磁珠上(图36,步骤A)。使用捕获探针作为SuperScript II逆转录酶的引物对捕获的RNA进行逆转录(图36,步骤B)。将单独的条形码编码的i5-ME-抗体缀合物或不同条形码编码的i5-ME-抗体缀合物的库加入到固定的RNA/DNA双链体中,并孵育以达到饱和结合(图36,步骤C)。接下来,原位组装功能性转座体:在第一步中,通过向表面结合的i5-ME-抗体缀合物加入游离的Tn5和ME’寡核苷酸产生抗体束缚的i5-Tn5单体(图36,步骤D)。Tn5与此时的双链i5-ME/ME’衔接子结合。在第二步中,加入预先装装i7-ME/ME’衔接子的Tn5,产生i5-/i7-Tn5二聚体(图36,步骤E)。在转座体组装后,通过加入含MgCl2的缓冲液开始标记(图36,步骤F),并且形成具有条形码编码的衔接子的产物,如图15A-15D所示。标记从微珠中释放RNA/DNA片段,并在PCR前后通过毛细管电泳分析上清液的尺寸分布。进行测序并将获得的读数与PhiX或M13基因组比对,证实m5C特异性条形码被正确分配给M13读数,m6A特异性条形码被正确分配给PhiX读数。因此,该方法允许通过靶向标记在单一反应中检测一种或多种RNA修饰。
编号的实施方案
尽管附加了权利要求,以下编号的实施方案也构成了本公开的一部分。
1.一种核酸结合分子,包含:
i)结合结构域,和
ii)衔接子,
其中所述结合结构域特异性结合DNA或RNA的非常规特征;其中所述衔接子包含核酸条形码序列,所述核酸条形码序列对于由所述结合结构域特异性结合的非常规特征是独特的。
2.实施方案1所述的核酸结合分子,其中所述结合结构域包含抗体、纳米体、适体、阅读蛋白、书写蛋白、擦除蛋白、工程化大分子支架、工程化蛋白支架、或选择性共价捕获试剂、或其片段或衍生物。
3.实施方案2所述的核酸结合分子,其中所述阅读蛋白是NUDT16或YTHDC2,或其片段或衍生物。
4.实施方案2所述的核酸结合分子,其中所述书写蛋白是DNTM1、DNTM3A/B、NAT10、METTL3、METTL8、METTL14、METTL16、TRM、BMT、DUS2、PUS或NSUN2,或其片段或衍生物。
5.实施方案2所述的核酸结合分子,其中擦除蛋白是FTO、ALKBH3或ALKBH5或其片段或衍生物。
6.实施方案2所述的核酸结合分子,其中所述结合结构域不具有催化活性。
7.实施方案1-6中任一项所述的核酸结合分子,其中所述衔接子是可切割的。
8.实施方案1-7中任一项所述的核酸结合分子,其中所述衔接子包含通用正向引物(UFP)和通用反向引物(URP)中的至少一种。
9.实施方案1-8中任一项所述的核酸结合分子,其中所述衔接子包含独特分子标识符(UMI)。
10.实施方案1-9中任一项所述的核酸结合分子,其中所述非常规特征是修饰的核苷。
11.实施方案10所述的核酸结合分子,其中所述修饰的核苷是3-甲基胞苷(m3C)、5-甲基胞苷(m5C)、N4-乙酰胞苷(ac4C)、假尿苷(Ψ)、1-甲基腺苷(m1A)、N6-甲基腺苷(m6A)、肌苷(I)、7-甲基鸟苷(m7G)、二氢尿苷(D)、3-甲基尿苷(m3U)、5-甲基尿苷(m5U)、1-甲基鸟苷(m1G)、N2-甲基鸟苷(m2G)、5-甲基脱氧胞苷(m5dC)、N4-甲基脱氧胞苷、5-羟甲基胞苷(5-hmC)、5-羟甲基脱氧胞苷(5hmdC)、5-羧基脱氧胞苷(5cadC)、5-甲酰胞苷(5fC)、5-甲酰脱氧胞苷(5fdC)、6-甲基脱氧腺苷、N7-甲基鸟苷(m7G)、2,7,2’-甲基鸟苷或核糖甲基化(Nm)。
12.实施方案1-9中任一项所述的核酸结合分子,其中所述非常规特征是核酸损伤。
13.实施方案12所述的方法,其中核酸损伤由氧化过程或与紫外光接触引起。
14.实施方案12所述的方法,其中核酸损伤由外源试剂形成聚化加合物或碱基烷基化引起。
15.实施方案12所述的核酸结合分子,其中所述损伤是8-氧代鸟嘌呤(8-oxoG)、一个或多个脱碱基位点、顺铂交联、苯并(a)芘二醇环氧化物(BPDE)-加合物、环丁烯嘧啶二聚体(CPD)、嘧啶-嘧啶酮(6-4)光产物(6-4PP)、6-O-甲基鸟嘌呤(O6-MedG)或O6-(羧甲基)-2’-脱氧鸟苷(O6-CMdG)。
16.实施方案1-9中任一项所述的核酸结合分子,其中非常规特征是结构元件。
17.实施方案16所述的核酸结合分子,其中所述结构元件是发夹、环、Z-DNA结构、G-四链体、I-基序、凸起、三链体、三向接合、十字形结构、四环、核糖拉链或假结。
18.实施方案1-17中任一项所述的核酸结合分子,其中所述结合结构域接触至少一个修饰的核苷。
19.实施方案1-18中任一项所述的核酸结合分子,其中所述结合结构域接触修饰的核苷和与其相邻的一个或多个核苷酸。
20.实施方案1-19中任一项所述的核酸结合分子,其中所述衔接子包含接头,所述结合结构域与所述接头连接。
21.实施方案1-20中任一项所述的核酸结合分子,其中所述核酸结合分子另外包含酶或其催化片段或衍生物。
22.实施方案21所述的核酸结合分子,其中所述酶是碱基编辑酶。
23.实施方案22所述的核酸结合分子,其中所述碱基编辑酶是胞嘧啶脱氨酶或腺苷脱氨酶。
24.实施方案23所述的核酸结合分子,其中所述碱基编辑酶是APOBEC1或APOBEC3A,或其催化片段或衍生物。
25.实施方案23所述的核酸结合分子,其中所述酶是DNA或RNA甲基化酶或假尿苷合酶,或其催化片段或衍生物。
26.实施方案21所述的核酸结合分子,其中所述酶是DNA N-糖基化酶或RNAN-糖基化酶。
27.实施方案21所述的核酸结合分子,其中所述酶是转座酶或整合酶。
28.实施方案21所述的核酸结合分子,其中所述酶缺乏催化活性。
29.一种缀合物,其包含结合结构域和酶或其片段,其中所述结合结构域与实施方案1-28中任一项所述的核酸结合分子结合。
30.实施方案29所述的缀合物,其中所述结合结构域和酶或其片段共价缀合。
31.实施方案29所述的缀合物,其中所述结合结构域和酶或其片段非共价缀合。
32.实施方案29-31中任一项所述的缀合物,其中所述酶是Tn5转座酶。
33.实施方案32所述的缀合物,其中所述标签酶与蛋白A、G或L融合
34.一种缀合物,其包含(i)实施方案1-28中任一项所述的核酸结合分子,还包含肽标签,和(ii)融合到蛋白标签的酶或其片段,所述蛋白标签能够与肽标签共价反应。
35.一种缀合物,其包含(i)实施方案1-28中任一项所述的核酸结合分子,还包含蛋白标签,和(ii)融合到肽标签的酶或其片段,所述肽标签能够与蛋白标签共价反应。
36.实施方案34-35中任一项所述的缀合物,其中所述肽标签是Spytag。
37.实施方案34-36中任一项所述的缀合物,其中所述酶是脱氨酶,并且与Spycatcher蛋白融合。
38.一种缀合物,其包含(i)实施方案1-28中任一项所述的核酸结合分子和(ii)融合到蛋白质的酶或其片段,所述蛋白质能够以高亲和力结合到结合结构域的特定区域。
39.实施方案38所述的缀合物,其中所述结合结构域是IgG抗体或其片段。
40.实施方案39所述的缀合物,其中所述酶是融合到蛋白A、G或L的脱氨酶。
41.一种缀合物,其包含(i)实施方案1-28中任一项的所述核酸结合分子,还包含核酸标签,和(ii)融合到互补核酸标签的酶或其片段,所述互补核酸标签能够与所述核酸结合分子的核酸标签杂交。
42.一种复合物,其包含与靶核酸结合的实施方案1-28中任一项所述的核酸结合分子。
43.实施方案42的所述复合物,其中所述核酸结合分子和靶核酸共价连接。
44.一种底物,其与实施方案1-28中任一项所述的核酸结合分子连接。
45.实施方案44所述的底物,其中所述底物是微珠、芯片、平板、载玻片、培养皿或三维基质。
46.实施方案45所述的底物,其中所述核酸结合分子连接至底物的表面。
47.实施方案46所述的底物,其中所述核酸结合分子经由捕获分子间接连接至底物表面,其中捕获分子直接连接至底物。
48.实施方案47所述的底物,其中所述捕获分子结合所述核酸结合分子。
49.实施方案47所述的底物,其中所述捕获分子结合所述靶核酸。
50.实施方案47所述的底物,其中所述核酸结合分子结合靶核酸,所述靶核酸与捕获分子结合。
51.实施方案44-50中任一项所述的底物,其中所述核酸结合分子与底物表面上的第二核酸结合分子在空间上分离。
52.一种聚合物,其与实施方案1-28中任一项所述的核酸结合分子连接。
53.一种制备实施方案1-28中任一项所述的核酸结合分子的方法,所述方法包括将结合结构域连接至衔接子,以形成结合结构域-衔接子缀合物。
54.一种分析多种靶核酸的方法,所述方法包括:
(i)将靶核酸与实施方案1-28中任一项所述的核酸结合分子接触;
(ii)(a)在基本上防止脱靶产生条形码编码的核酸的环境中,将核酸条形码转移至靶核酸上,以产生条形码编码的靶核酸,或者(b)产生靶核酸的条形码编码的拷贝;
(iii)修饰条形码编码的靶核酸或其条形码编码的拷贝,使得非常规特征的位置可基于条形码编码的靶核酸或其条形码编码的拷贝的一级核酸序列进行鉴定;和
(iv)对条形码编码的靶核酸进行测序。
55.实施方案54所述的方法,其包括在步骤(i)之前将短核酸序列附加到靶核酸的3’端以促进条形码转移。
56.实施方案54所述的方法,其中步骤(i)-(iii)重复至少一次。
57.实施方案56所述的方法,其中每次重复步骤(i)-(iii)时使用不同的核酸结合分子。
58.实施方案56所述的方法,其中每次重复步骤(i)-(iii)时使用相同的核酸结合分子。
59.实施方案21所述的方法,其中通过单链连接、夹板连接、引物延伸或双链连接将核酸条形码酶促转移至靶核酸。
60.实施方案59所述的方法,其中通过引物延伸将核酸条形码转移至靶核酸,其中引物延伸之前将具有通用序列的核酸连接至靶核酸的3’端。
61.实施方案60所述的方法,其中通过引物延伸将核酸条形码转移至靶RNA,其中在引物延伸之前,用大肠杆菌聚(A)聚合酶或粟酒裂殖酵母Cid1的聚(U)聚合酶,结合一种类型的核糖核苷酸和竞争性互补poly-dT、poly-dA、poly-dG或poly-dC寡核苷酸,酶促地在靶核酸的3’端加尾。
62.实施方案54-61中任一项所述的方法,其包括在测序前扩增条形码编码的靶核酸或其拷贝。
63.实施方案54-61中任一项所述的方法,其中所述靶核酸包括DNA、RNA或其混合物。
64.实施方案54-63中任一项所述的方法,其中所述靶核酸包含至少一种非常规特征。
65.实施方案64所述的方法,其中所述非常规特征是修饰的核苷。
66.实施方案61所述的方法,其中所述修饰的核苷是3-甲基胞苷(m3C)、5-甲基胞苷(m5C)、N4-乙酰胞苷(ac4C)、假尿苷(Ψ)、1-甲基腺苷(m1A)、N6-甲基腺苷(m6A)、肌苷(I)、7-甲基鸟苷(m7G)、二氢尿苷(D)、3-甲基尿苷(m3U)、5-甲基尿苷(m5U)、1-甲基鸟苷(m1G)、N2-甲基鸟苷(m2G)、5-甲基脱氧胞苷(m5dC)、N4-甲基脱氧胞苷、5-羟甲基胞苷(5-hmC)、5-羟甲基脱氧胞苷(5hmdC)、5-羧基脱氧胞苷(5cadC)、5-甲酰胞苷(5fC)、5-甲酰脱氧胞苷(5fdC)、6-甲基脱氧腺苷、N7-甲基鸟苷(m7G)、2,7,2’-甲基鸟苷或核糖甲基化(Nm)。
67.实施方案64所述的方法,其中所述非常规特征是核酸损伤。
68.实施方案67所述的方法,其中所述核酸损伤由氧化过程或与紫外光接触引起。
69.实施方案67所述的方法,其中所述核酸损伤由外源试剂形成聚化加合物或碱基烷基化引起。
70.实施方案64所述的核酸结合分子,其中所述损伤是8-氧代鸟嘌呤(8-oxoG)、一个或多个脱碱基位点、顺铂交联、苯并(a)芘二醇环氧化物(BPDE)-加合物、环丁烯嘧啶二聚体(CPD)、嘧啶-嘧啶酮(6-4)光产物(6-4PP)、6-O-甲基鸟嘌呤(O6-MedG)或O6-(羧甲基)-2’-脱氧鸟苷(O6-CMdG)。
71.实施方案64所述的方法,其中所述非常规特征是结构元件。
72.实施方案71所述的方法,其中所述结构元件是发夹、环、Z-DNA结构、G-四链体、I-基序、凸起、三链体、三向接合、十字形结构、四环、核糖拉链或假结。
73.实施方案54-72中任一项所述的方法,其中所述核酸结合分子与底物表面连接,并且在空间上与其它核酸结合分子分离,使得每个靶核酸只能接触一种靶核酸结合分子。
74.实施方案54-73中任一项所述的方法,其中通过将条形码或其互补序列共价连接至靶核酸的5’端或3’端,将核酸条形码转移至靶核酸。
75.实施方案54-73中任一项所述的方法,其中通过单链连接、夹板连接、引物延伸或双链连接将核酸条形码酶促转移至靶核酸。
76.实施方案54-73中任一项所述的方法,其中通过化学连接将核酸条形码转移至靶核酸。
77.实施方案54-76中任一项所述的方法,其中所述修饰包括将核酸结合分子经光化学或化学连接至靶核酸。
78.实施方案54-77中任一项所述的方法,其中所述结合结构域在促进与所述核酸靶共价反应的方向上展示化学交联部分。
79.实施方案54-77中任一项所述的方法,其中所述修饰包括在核酸结合分子与靶核酸结合的位点处或附近编辑碱基。
80.一种检测和/或定量多个靶核酸中的两种或多种非常规特征的方法,所述方法包括:
(i)将靶核酸与至少两种核酸结合分子接触,其中每种核酸结合分子包含结合结构域和衔接子;其中每种核酸结合分子的结合结构域结合DNA或RNA的不同的非常规特征;其中所述衔接子包含对由每个结合结构域特异性结合的非常规特征独特的核酸条形码序列;
(ii)(a)在基本上防止脱靶产生条形码编码的核酸的环境中,将核酸条形码转移至靶核酸上,以产生条形码编码的靶核酸,或者(b)产生靶核酸的条形码编码的拷贝;
(iii)修饰条形码编码的靶核酸或其条形码编码的拷贝,使得非常规特征的位置可基于条形码编码的靶核酸或其条形码编码的拷贝的一级核酸序列进行鉴定;和
(vi)对条形码编码的靶核酸进行测序。
81.实施方案80所述的方法,其包括在测序前扩增条形码编码的靶核酸或其拷贝。
82.实施方案80或81所述的方法,其中所述靶核酸包括DNA、RNA或其混合物。
83.实施方案80-82中任一项所述的方法,其中至少一种非常规特征是修饰的核苷。
84.实施方案83所述的方法,其中所述修饰的核苷是3-甲基胞苷(m3C)、5-甲基胞苷(m5C)、N4-乙酰胞苷(ac4C)、假尿苷(Ψ)、1-甲基腺苷(m1A)、N6-甲基腺苷(m6A)、肌苷(I)、7-甲基鸟苷(m7G)、二氢尿苷(D)、3-甲基尿苷(m3U)、5-甲基尿苷(m5U)、1-甲基鸟苷(m1G)、N2-甲基鸟苷(m2G)、5-甲基脱氧胞苷(m5dC)、N4-甲基脱氧胞苷、5-羟甲基胞苷(5-hmC)、5-羟甲基脱氧胞苷(5hmdC)、5-羧基脱氧胞苷(5cadC)、5-甲酰胞苷(5fC)、5-甲酰脱氧胞苷(5fdC)、6-甲基脱氧腺苷、N7-甲基鸟苷(m7G)、2,7,2’-甲基鸟苷或核糖甲基化(Nm)。
85.实施方案82所述的方法,其中所述非常规特征是核酸损伤。
86.实施方案85所述的方法,其中所述核酸损伤由氧化过程或与紫外光接触引起。
87.实施方案85所述的方法,其中所述核酸损伤由外源试剂形成聚化加合物或碱基烷基化引起。
88.实施方案82所述的核酸结合分子,其中所述损伤是8-氧代鸟嘌呤(8-oxoG)、一个或多个脱碱基位点、顺铂交联、苯并(a)芘二醇环氧化物(BPDE)-加合物、环丁烯嘧啶二聚体(CPD)、嘧啶-嘧啶酮(6-4)光产物(6-4PP)、6-O-甲基鸟嘌呤(O6-MedG)或O6-(羧甲基)-2’-脱氧鸟苷(O6-CMdG)。
89.实施方案80-82中任一项所述的方法,其中至少一种非常规特征是结构元件。
90.实施方案89所述的方法,其中所述结构元件是发夹、环、Z-DNA结构、G-四链体、I-基序、凸起、三链体、三向接合、十字形结构、四环、核糖拉链或假结。
91.实施方案80-90中任一项所述的方法,其中所述核酸结合分子连接至底物表面上,并且在空间上分离,使得每种靶核酸只能接触一种靶核酸结合分子。
92.实施方案80-91中任一项所述所述的方法,其中通过将条形码或其互补序列共价连接至靶核酸的5’端或3’端,将核酸条形码转移至靶核酸。
93.实施方案80-91中任一项所述的方法,其中通过单链连接、夹板连接、引物延伸或双链连接将核酸条形码酶促转移至靶核酸。
94.实施方案80-90中任一项所述的方法,其中通过化学连接将核酸条形码转移至靶核酸。
95.实施方案80-94中任一项所述的方法,其中所述修饰包括将核酸结合分子经光化学连接至靶核酸。
96.实施方案80-94中任一项所述的方法,其中所述修饰包括在核酸结合分子与靶核酸结合的位点处或附近编辑碱基。
97.一种检测靶核酸中的非常规特征的方法,所述方法包括:
(i)将靶核酸与实施方案1-28中任一项所述的核酸结合分子接触;
(ii)(a)在基本上防止脱靶产生条形码编码的核酸的环境中,将核酸条形码转移至靶核酸上,以产生条形码编码的靶核酸;和
(iii)检测靶核酸或其拷贝中条形码的存在。
98.实施方案97所述的方法,其中所述非常规特征是修饰的核苷。
99.实施方案98所述的方法,其中所述修饰的核苷是3-甲基胞苷(m3C)、5-甲基胞苷(m5C)、N4-乙酰胞苷(ac4C)、假尿苷(Ψ)、1-甲基腺苷(m1A)、N6-甲基腺苷(m6A)、肌苷(I)、7-甲基鸟苷(m7G)、二氢尿苷(D)、3-甲基尿苷(m3U)、5-甲基尿苷(m5U)、1-甲基鸟苷(m1G)、N2-甲基鸟苷(m2G)、5-甲基脱氧胞苷(m5dC)、N4-甲基脱氧胞苷、5-羟甲基胞苷(5-hmC)、5-羟甲基脱氧胞苷(5hmdC)、5-羧基脱氧胞苷(5cadC)、5-甲酰胞苷(5fC)、5-甲酰脱氧胞苷(5fdC)、6-甲基脱氧腺苷、N7-甲基鸟苷(m7G)、2,7,2’-甲基鸟苷或核糖甲基化(Nm)。
100.实施方案97所述的方法,其中所述非常规特征是核酸损伤。
101.实施方案100所述的方法,其中所述核酸损伤由氧化过程或与紫外光接触产生。
102.实施方案100所述的方法,其中所述核酸损伤由外源试剂形成聚化加合物或碱基烷基化引起。
103.实施方案100所述的方法,其中所述损伤是8-氧代鸟嘌呤(8-oxoG)、一个或多个脱碱基位点、顺铂交联、苯并(a)芘二醇环氧化物(BPDE)-加合物、环丁烯嘧啶二聚体(CPD)、嘧啶-嘧啶酮(6-4)光产物(6-4PP)、6-O-甲基鸟嘌呤(O6-MedG)或O6-(羧甲基)-2’-脱氧鸟苷(O6-CMdG)。
104.实施方案100所述的方法,其中所述非常规特征是结构元件。
105.实施方案104所述的方法,其中所述结构元件是发夹、环、Z-DNA结构、G-四链体、I-基序、凸起、三链体、三向接合、十字形结构、四环、核糖拉链或假结。
106.实施方案97-105中任一项所述的方法,其中所述转移包括将条形码或其互补序列共价连接至靶核酸的5’端或3’端。
107.实施方案97-105中任一项所述的方法,其中通过单链连接、夹板连接、夹板延伸、模板延伸或双链连接将核酸条形码转移至靶核酸。
108.实施方案97-105中任一项所述的方法,其中通过化学连接将核酸条形码转移至靶核酸。
109.实施方案97-108中任一项所述的方法,其中步骤(i)-(iii)重复至少一次。
110.实施方案97-109中任一项所述的方法,其中检测条形码的存在包括修饰条形码编码的靶核酸或其条形码编码的拷贝。
111.实施方案97-109中任一项所述的方法,其中检测条形码的存在包括扩增条形码编码的靶核酸或其拷贝。
112.实施方案97-109中任一项所述的方法,其中检测条形码的存在包括对条形码编码的靶核酸进行测序。
113.一种以接近或处于单碱基分辨率确定靶核酸中非常规特征的位置的方法,所述方法包括:
(i)将靶核酸与实施方案1-28中任一项所述的核酸结合分子接触;
(ii)在基本上防止脱靶产生条形码编码的核酸的环境中,将核酸条形码转移至靶核酸上,以产生条形码编码的靶核酸;和
(iii)检测靶核酸或其拷贝中条形码的存在;
其中所述核酸结合分子包含具有以下一种或多种能力的结合结构域:
(a)在靶核酸中诱导突变;或
(b)防止聚合酶旁路并因此导致靶核酸复制过程中的截短。
114.实施方案113所述的方法,其中防止聚合酶旁路包括将核酸结合分子与靶核酸化学或光化学连接。
115.实施方案113所述的方法,其中防止聚合酶旁路包括化学修饰结合结构域以在靶核酸复制期间诱导截短。
116.实施方案113-115中任一项所述的方法,其中所述非常规特征是修饰的核苷。
117.实施方案116所述的方法,其中所述修饰的核苷是3-甲基胞苷(m3C)、5-甲基胞苷(m5C)、N4-乙酰胞苷(ac4C)、假尿苷(Ψ)、1-甲基腺苷(m1A)、N6-甲基腺苷(m6A)、肌苷(I)、7-甲基鸟苷(m7G)、二氢尿苷(D)、3-甲基尿苷(m3U)、5-甲基尿苷(m5U)、1-甲基鸟苷(m1G)、N2-甲基鸟苷(m2G)、5-甲基脱氧胞苷(m5dC)、N4-甲基脱氧胞苷、5-羟甲基胞苷(5-hmC)、5-羟甲基脱氧胞苷(5hmdC)、5-羧基脱氧胞苷(5cadC)、5-甲酰胞苷(5fC)、5-甲酰脱氧胞苷(5fdC)、6-甲基脱氧腺苷、N7-甲基鸟苷(m7G)、2,7,2’-甲基鸟苷或核糖甲基化(Nm)。
118.实施方案113-115中任一项所述的方法,其中所述非常规特征是核酸损伤。
119.实施方案118所述的方法,其中所述核酸损伤由氧化过程或与紫外光接触引起。
120.实施方案118所述的方法,其中所述核酸损伤由外源试剂形成聚化加合物或碱基烷基化引起。
121.实施方案118所述的方法,其中所述损伤是8-氧代鸟嘌呤(8-oxoG)、一个或多个脱碱基位点、顺铂交联、苯并(a)芘二醇环氧化物(BPDE)-加合物、环丁烯嘧啶二聚体(CPD)、嘧啶-嘧啶酮(6-4)光产物(6-4PP)、6-O-甲基鸟嘌呤(O6-MedG)或O6-(羧甲基)-2’-脱氧鸟苷(O6-CMdG)。
122.实施方案113-115中任一项所述的方法,其中所述非规范特征是结构元件。
123.实施方案122所述的方法,其中所述结构元件是发夹、环、Z-DNA结构、G-四链体、I-基序、凸起、三链体、三向接合、十字形结构、四环、核糖拉链或假结。
124.实施方案113-123中任一项所述的方法,其中转移包括将条形码或其互补序列共价连接至靶核酸的5’端或3’端。
125.实施方案113-123中任一项所述的方法,其中步骤(i)-(iii)重复至少一次。
126.实施方案124所述的方法,其中每次重复步骤(i)-(iii)时使用不同的核酸结合分子。
127.实施方案124所述的方法,其中每次重复步骤(i)-(iii)时使用相同的核酸结合分子。
128.实施方案113-127中任一项所述的方法,其中检测条形码的存在包括修饰条形码编码的靶核酸或其条形码编码的拷贝。
129.实施方案113-127中任一项所述的方法,其中检测条形码的存在包括扩增条形码编码的靶核酸或其拷贝。
130.实施方案113-127中任一项所述的方法,其中检测条形码的存在包括对条形码编码的靶核酸进行测序。
131.实施方案113-127中任一项所述的方法,其中检测条形码的存在包括对核酸和核酸结合分子的衔接子进行测序。
132.实施方案113-131中任一项所述的方法,其中将核酸条形码转移至靶核酸包括将条形码或其互补序列共价连接至靶核酸的5’端或3’端。
SEQUENCE LISTING
<110> 阿丽达生物科学公司
<120> RNA和DNA修饰的多路复用分析
<130> P23JM1WN00415US
<150> US 63/193,402
<151> 2021-05-26
<150> US 63/118,409
<151> 2020-11-25
<160> 60
<170> PatentIn version 3.5
<210> 1
<211> 17
<212> RNA
<213> 人工序列(Artificial Sequence)
<220>
<223> 合成结构
<220>
<221> misc_feature
<222> (1)..(1)
<223> 生物素化
<220>
<221> misc_feature
<222> (1)..(8)
<223> n是任何核糖核苷酸
<220>
<221> modified_base
<222> (9)..(9)
<223> N6-甲基腺苷
<220>
<221> misc_feature
<222> (10)..(17)
<223> n是任何核糖核苷酸
<400> 1
nnnnnnnnnn nnnnnnn 17
<210> 2
<211> 17
<212> RNA
<213> 人工序列(Artificial Sequence)
<220>
<223> 合成结构
<220>
<221> misc_feature
<222> (1)..(1)
<223> 生物素化
<220>
<221> misc_feature
<222> (1)..(8)
<223> n是任何核糖核苷酸
<220>
<221> modified_base
<222> (9)..(9)
<223> 肌苷
<220>
<221> misc_feature
<222> (10)..(17)
<223> n是任何核糖核苷酸
<400> 2
nnnnnnnnnn nnnnnnn 17
<210> 3
<211> 17
<212> RNA
<213> 人工序列(Artificial Sequence)
<220>
<223> 合成结构
<220>
<221> misc_feature
<222> (1)..(1)
<223> 生物素化
<220>
<221> misc_feature
<222> (1)..(8)
<223> n是任何核糖核苷酸
<220>
<221> modified_base
<222> (9)..(9)
<223> 假尿苷
<220>
<221> misc_feature
<222> (10)..(17)
<223> n是任何核糖核苷酸
<400> 3
nnnnnnnnnn nnnnnnn 17
<210> 4
<211> 17
<212> RNA
<213> 人工序列(Artificial Sequence)
<220>
<223> 合成结构
<220>
<221> misc_feature
<222> (1)..(1)
<223> 生物素化
<220>
<221> misc_feature
<222> (1)..(8)
<223> n是任何核糖核苷酸
<220>
<221> modified_base
<222> (9)..(9)
<223> 5-甲基胞嘧啶
<220>
<221> misc_feature
<222> (10)..(17)
<223> n是任何核糖核苷酸
<400> 4
nnnnnnnnnn nnnnnnn 17
<210> 5
<211> 16
<212> RNA
<213> 人工序列(Artificial Sequence)
<220>
<223> 合成结构
<220>
<221> misc_feature
<222> (1)..(1)
<223> 生物素化
<220>
<221> misc_feature
<222> (1)..(16)
<223> n是任何核糖核苷酸
<400> 5
nnnnnnnnnn nnnnnn 16
<210> 6
<211> 21
<212> DNA
<213> 人工序列(Artificial Sequence)
<220>
<223> 合成结构
<220>
<221> misc_feature
<222> (1)..(1)
<223> 5' 预腺苷酸化
<220>
<221> modified_base
<222> (21)..(21)
<223> 双脱氧胞苷
<400> 6
agatcggaag agcggttcag n 21
<210> 7
<211> 4
<212> DNA
<213> 未知
<220>
<223> BamHI 限制性位点
<400> 7
gatc 4
<210> 8
<211> 41
<212> DNA
<213> 人工序列(Artificial Sequence)
<220>
<223> 合成结构
<220>
<221> misc_feature
<222> (1)..(1)
<223> 5' 磷酸
<220>
<221> misc_feature
<222> (1)..(2)
<223> n是任何核苷酸
<220>
<221> misc_feature
<222> (7)..(9)
<223> n是任何核苷酸
<400> 8
nnaaccnnna gatcggaaga gcgtcgtgga tcctgaaccg c 41
<210> 9
<211> 33
<212> DNA
<213> 人工序列(Artificial Sequence)
<220>
<223> 合成结构
<220>
<221> misc_feature
<222> (1)..(1)
<223> 5' 胺
<220>
<221> misc_feature
<222> (1)..(2)
<223> PEG 接头
<220>
<221> misc_feature
<222> (33)..(33)
<223> 封闭的3’端
<400> 9
ttataagaga cagacacagg ccactcagtc tat 33
<210> 10
<211> 13
<212> PRT
<213> 人工序列(Artificial Sequence)
<220>
<223> 合成结构
<400> 10
Ala His Ile Val Met Val Asp Ala Tyr Lys Pro Thr Lys
1 5 10
<210> 11
<211> 6
<212> PRT
<213> 人工序列(Artificial Sequence)
<220>
<223> 合成结构
<220>
<221> misc_feature
<222> (3)..(3)
<223> Xaa 是任何氨基酸
<220>
<221> misc_feature
<222> (5)..(5)
<223> Xaa 是任何氨基酸
<400> 11
Leu Cys Xaa Pro Xaa Arg
1 5
<210> 12
<211> 139
<212> PRT
<213> 人工序列(Artificial Sequence)
<220>
<223> 合成结构
<400> 12
Met Ser Tyr Tyr His His His His His His Asp Tyr Asp Ile Pro Thr
1 5 10 15
Thr Glu Asn Leu Tyr Phe Gln Gly Ala Met Val Asp Thr Leu Ser Gly
20 25 30
Leu Ser Ser Glu Gln Gly Gln Ser Gly Asp Met Thr Ile Glu Glu Asp
35 40 45
Ser Ala Thr His Ile Lys Phe Ser Lys Arg Asp Glu Asp Gly Lys Glu
50 55 60
Leu Ala Gly Ala Thr Met Glu Leu Arg Asp Ser Ser Gly Lys Thr Ile
65 70 75 80
Ser Thr Trp Ile Ser Asp Gly Gln Val Lys Asp Phe Tyr Leu Tyr Pro
85 90 95
Gly Lys Tyr Thr Phe Val Glu Thr Ala Ala Pro Asp Gly Tyr Glu Val
100 105 110
Ala Thr Ala Ile Thr Phe Thr Val Asn Glu Gln Gly Gln Val Thr Val
115 120 125
Asn Gly Lys Ala Thr Lys Gly Asp Ala His Ile
130 135
<210> 13
<211> 50
<212> DNA
<213> 人工序列(Artificial Sequence)
<220>
<223> 合成结构
<220>
<221> misc_feature
<222> (1)..(1)
<223> FAM 标记
<220>
<221> misc_feature
<222> (1)..(42)
<223> 核糖核苷酸
<220>
<221> misc_feature
<222> (29)..(29)
<223> N6-甲基腺苷
<400> 13
ucgucggcag cgucagaugc auaaggucna uauuaaguau agactgagtg 50
<210> 14
<211> 40
<212> DNA
<213> 人工序列(Artificial Sequence)
<220>
<223> 合成结构
<220>
<221> misc_feature
<222> (1)..(1)
<223> FAM 标记
<220>
<221> misc_feature
<222> (1)..(32)
<223> 核糖核苷酸
<220>
<221> misc_feature
<222> (25)..(25)
<223> 5-甲基胞嘧啶
<400> 14
ucgucggcag cgucagauga uauungaagu auactgagtg 40
<210> 15
<211> 50
<212> DNA
<213> 人工序列(Artificial Sequence)
<220>
<223> 合成结构
<220>
<221> misc_feature
<222> (1)..(1)
<223> FAM 标记
<220>
<221> misc_feature
<222> (29)..(29)
<223> 5-甲基胞嘧啶
<400> 15
tcgtcggcag cgtcagatgc ataatctana tcttaagtat agactgagtg 50
<210> 16
<211> 40
<212> DNA
<213> 人工序列(Artificial Sequence)
<220>
<223> 合成结构
<220>
<221> misc_feature
<222> (1)..(1)
<223> FAM 标记
<220>
<221> misc_feature
<222> (25)..(25)
<223> 肌苷
<400> 16
tcgtcggcag cgtcagatga tactngcagt atactgagtg 40
<210> 17
<211> 44
<212> RNA
<213> 人工序列(Artificial Sequence)
<220>
<223> 合成结构
<220>
<221> misc_feature
<222> (1)..(1)
<223> FAM 标记
<220>
<221> misc_feature
<222> (29)..(29)
<223> N6-甲基腺苷
<400> 17
ucgucggcag cgucagaugc auaaggucna uauuaaguau agac 44
<210> 18
<211> 34
<212> RNA
<213> 人工序列(Artificial Sequence)
<220>
<223> 合成结构
<220>
<221> misc_feature
<222> (1)..(1)
<223> FAM 标记
<220>
<221> misc_feature
<222> (24)..(24)
<223> 5-甲基胞嘧啶
<400> 18
cgucggcagc gucagaugau auungaagua ugac 34
<210> 19
<211> 8
<212> DNA
<213> 人工序列(Artificial Sequence)
<220>
<223> 合成结构
<400> 19
actgagtg 8
<210> 20
<211> 25
<212> DNA
<213> 人工序列(Artificial Sequence)
<220>
<221> misc_feature
<222> (25)..(25)
<223> 3' 胺
<220>
<223> 合成结构
<400> 20
catctgacgc tgccgacgat ttttt 25
<210> 21
<211> 79
<212> DNA
<213> 人工序列(Artificial Sequence)
<220>
<223> 合成结构
<400> 21
tcgtcggcag cgtcagatga ttgtgttagg ctagtaagta gatggattag accgtcgagt 60
gagtagagta cgtagtgca 79
<210> 22
<211> 33
<212> DNA
<213> 人工序列(Artificial Sequence)
<220>
<221> misc_feature
<222> (1)..(1)
<223> 二苯并环辛基标记,5' 胺
<220>
<221> misc_feature
<222> (1)..(2)
<223> PEG 接头
<220>
<221> misc_feature
<222> (33)..(33)
<223> 封闭的 3' 端
<220>
<223> 合成结构
<400> 22
ttataagaga cagacacagg ccactcagtc tat 33
<210> 23
<211> 30
<212> RNA
<213> 人工序列(Artificial Sequence)
<220>
<223> 合成结构
<220>
<221> misc_feature
<222> (1)..(1)
<223> FAM 标记
<220>
<221> misc_feature
<222> (1)..(30)
<223> n是任何核糖核苷酸
<400> 23
nnnnnnnnnn nnnnnnnnnn nnnnnnnnnn 30
<210> 24
<211> 18
<212> DNA
<213> 人工序列(Artificial Sequence)
<220>
<223> 合成结构
<220>
<221> misc_feature
<222> (1)..(1)
<223> FAM 标记
<220>
<221> misc_feature
<222> (1)..(10)
<223> 核糖核苷酸
<400> 24
uuaaguauag actgagtg 18
<210> 25
<211> 29
<212> DNA
<213> 人工序列(Artificial Sequence)
<220>
<223> 合成结构
<220>
<221> misc_feature
<222> (1)..(1)
<223> 5' 胺
<220>
<221> misc_feature
<222> (1)..(2)
<223> PEG 接头
<400> 25
ttataagaga cagacacagg ccactcagt 29
<210> 26
<211> 31
<212> DNA
<213> 人工序列(Artificial Sequence)
<220>
<223> 合成结构
<220>
<221> misc_feature
<222> (1)..(1)
<223> 5' 胺
<220>
<221> misc_feature
<222> (1)..(2)
<223> PEG 接头
<400> 26
ttataagaga cagacacagg ccactcagtc t 31
<210> 27
<211> 33
<212> DNA
<213> 人工序列(Artificial Sequence)
<220>
<223> 合成结构
<220>
<221> misc_feature
<222> (1)..(1)
<223> 5' 胺
<220>
<221> misc_feature
<222> (1)..(2)
<223> PEG 接头
<400> 27
ttataagaga cagacacagg ccactcagtc tat 33
<210> 28
<211> 10
<212> DNA
<213> 人工序列(Artificial Sequence)
<220>
<223> 合成结构
<220>
<221> misc_feature
<222> (1)..(1)
<223> 5' 磷酸
<220>
<221> misc_feature
<222> (1)..(2)
<223> n是任何核苷酸
<220>
<221> modified_base
<222> (10)..(10)
<223> 双脱氧胞苷
<400> 28
nnactgagtn 10
<210> 29
<211> 20
<212> DNA
<213> 人工序列(Artificial Sequence)
<220>
<223> 合成结构
<220>
<221> misc_feature
<222> (1)..(1)
<223> 5' 磷酸
<220>
<221> misc_feature
<222> (1)..(2)
<223> n是任何核苷酸
<220>
<221> modified_base
<222> (20)..(20)
<223> 双脱氧胞苷
<400> 29
nnactgagtg gcctgtgtcn 20
<210> 30
<211> 30
<212> DNA
<213> 人工序列(Artificial Sequence)
<220>
<223> 合成结构
<220>
<221> misc_feature
<222> (1)..(1)
<223> 5' 磷酸
<220>
<221> misc_feature
<222> (1)..(2)
<223> n是任何核苷酸
<220>
<221> modified_base
<222> (30)..(30)
<223> 双脱氧胞苷
<400> 30
nnactgagtg gcctgtgtct gtctcttatn 30
<210> 31
<211> 52
<212> DNA
<213> 人工序列(Artificial Sequence)
<220>
<223> 合成结构
<220>
<221> misc_feature
<222> (1)..(1)
<223> 5' 磷酸
<220>
<221> misc_feature
<222> (1)..(2)
<223> n是任何核苷酸
<220>
<221> modified_base
<222> (52)..(52)
<223> 双脱氧胞苷
<400> 31
nnactgagtg gcctgtgtct gtctcttata cacatctccg agcccacgag an 52
<210> 32
<211> 40
<212> RNA
<213> 人工序列(Artificial Sequence)
<220>
<223> 合成结构
<220>
<221> misc_feature
<222> (1)..(1)
<223> 5' FAM 标记
<220>
<221> misc_feature
<222> (30)..(30)
<223> N6-甲基腺苷
<400> 32
ucgucggcag cgucagaugc cugcaaaggn cugcuuugac 40
<210> 33
<211> 29
<212> DNA
<213> 人工序列(Artificial Sequence)
<220>
<223> 合成结构
<220>
<221> misc_feature
<222> (1)..(1)
<223> 5' 磷酸
<220>
<221> misc_feature
<222> (21)..(21)
<223> 核糖核苷酸
<220>
<221> misc_feature
<222> (28)..(29)
<223> PEG 接头
<220>
<221> misc_feature
<222> (29)..(29)
<223> 3' 生物素-三乙二醇
<400> 33
cggacacaga cagagaatat uatatatat 29
<210> 34
<211> 442
<212> PRT
<213> 人工序列(Artificial Sequence)
<220>
<223> 合成结构
<400> 34
Met Ser Ser Glu Thr Gly Pro Val Ala Val Asp Pro Thr Leu Arg Arg
1 5 10 15
Arg Ile Glu Pro His Glu Phe Glu Val Phe Phe Asp Pro Arg Glu Leu
20 25 30
Arg Lys Glu Thr Cys Leu Leu Tyr Glu Ile Asn Trp Gly Gly Arg His
35 40 45
Ser Ile Trp Arg His Thr Ser Gln Asn Thr Asn Lys His Val Glu Val
50 55 60
Asn Phe Ile Glu Lys Phe Thr Thr Glu Arg Tyr Phe Cys Pro Asn Thr
65 70 75 80
Arg Cys Ser Ile Thr Trp Phe Leu Ser Trp Ser Pro Cys Gly Glu Cys
85 90 95
Ser Arg Ala Ile Thr Glu Phe Leu Ser Arg Tyr Pro His Val Thr Leu
100 105 110
Phe Ile Tyr Ile Ala Arg Leu Tyr His His Ala Asp Pro Arg Asn Arg
115 120 125
Gln Gly Leu Arg Asp Leu Ile Ser Ser Gly Val Thr Ile Gln Ile Met
130 135 140
Thr Glu Gln Glu Ser Gly Tyr Cys Trp Arg Asn Phe Val Asn Tyr Ser
145 150 155 160
Pro Ser Asn Glu Ala His Trp Pro Arg Tyr Pro His Leu Trp Val Arg
165 170 175
Leu Tyr Val Leu Glu Leu Tyr Cys Ile Ile Leu Gly Leu Pro Pro Cys
180 185 190
Leu Asn Ile Leu Arg Arg Lys Gln Pro Gln Leu Thr Phe Phe Thr Ile
195 200 205
Ala Leu Gln Ser Cys His Tyr Gln Arg Leu Pro Pro His Ile Leu Trp
210 215 220
Ala Thr Gly Leu Lys Gly Gly Ser Gly Gly Ser Gly Gly Ser Gly Gly
225 230 235 240
Ser Pro His Pro Val Leu Glu Lys Leu Arg Ser Ile Asn Asn Tyr Asn
245 250 255
Pro Lys Asp Phe Asp Trp Asn Leu Lys His Gly Arg Val Phe Ile Ile
260 265 270
Lys Ser Tyr Ser Glu Asp Asp Ile His Arg Ser Ile Lys Tyr Asn Ile
275 280 285
Trp Cys Ser Thr Glu His Gly Asn Lys Arg Leu Asp Ala Ala Tyr Arg
290 295 300
Ser Met Asn Gly Lys Gly Pro Val Tyr Leu Leu Phe Ser Val Asn Gly
305 310 315 320
Ser Gly His Phe Cys Gly Val Ala Glu Met Lys Ser Ala Val Asp Tyr
325 330 335
Asn Thr Cys Ala Gly Val Trp Ser Gln Asp Lys Trp Lys Gly Arg Phe
340 345 350
Asp Val Arg Trp Ile Phe Val Lys Asp Val Pro Asn Ser Gln Leu Arg
355 360 365
His Ile Arg Leu Glu Asn Asn Glu Asn Lys Pro Val Thr Asn Ser Arg
370 375 380
Asp Thr Gln Glu Val Pro Leu Glu Lys Ala Lys Gln Val Leu Lys Ile
385 390 395 400
Ile Ala Ser Tyr Lys His Thr Thr Ser Ile Phe Asp Asp Phe Ser His
405 410 415
Tyr Glu Lys Arg Gln Glu Glu Glu Glu Ser Val Lys Lys Glu Arg Gln
420 425 430
Gly Arg Gly Lys His His His His His His
435 440
<210> 35
<211> 254
<212> PRT
<213> 人工序列(Artificial Sequence)
<220>
<223> 合成结构
<400> 35
Met Ser Ser Glu Thr Gly Pro Val Ala Val Asp Pro Thr Leu Arg Arg
1 5 10 15
Arg Ile Glu Pro His Glu Phe Glu Val Phe Phe Asp Pro Arg Glu Leu
20 25 30
Arg Lys Glu Thr Cys Leu Leu Tyr Glu Ile Asn Trp Gly Gly Arg His
35 40 45
Ser Ile Trp Arg His Thr Ser Gln Asn Thr Asn Lys His Val Glu Val
50 55 60
Asn Phe Ile Glu Lys Phe Thr Thr Glu Arg Tyr Phe Cys Pro Asn Thr
65 70 75 80
Arg Cys Ser Ile Thr Trp Phe Leu Ser Trp Ser Pro Cys Gly Glu Cys
85 90 95
Ser Arg Ala Ile Thr Glu Phe Leu Ser Arg Tyr Pro His Val Thr Leu
100 105 110
Phe Ile Tyr Ile Ala Arg Leu Tyr His His Ala Asp Pro Arg Asn Arg
115 120 125
Gln Gly Leu Arg Asp Leu Ile Ser Ser Gly Val Thr Ile Gln Ile Met
130 135 140
Thr Glu Gln Glu Ser Gly Tyr Cys Trp Arg Asn Phe Val Asn Tyr Ser
145 150 155 160
Pro Ser Asn Glu Ala His Trp Pro Arg Tyr Pro His Leu Trp Val Arg
165 170 175
Leu Tyr Val Leu Glu Leu Tyr Cys Ile Ile Leu Gly Leu Pro Pro Cys
180 185 190
Leu Asn Ile Leu Arg Arg Lys Gln Pro Gln Leu Thr Phe Phe Thr Ile
195 200 205
Ala Leu Gln Ser Cys His Tyr Gln Arg Leu Pro Pro His Ile Leu Trp
210 215 220
Ala Thr Gly Leu Lys Gly Gly Ser Arg Gly Val Pro His Ile Val Met
225 230 235 240
Val Asp Ala Tyr Lys Arg Tyr Lys His His His His His His
245 250
<210> 36
<211> 320
<212> PRT
<213> 人工序列(Artificial Sequence)
<220>
<223> 合成结构
<400> 36
Met Val Thr Thr Leu Ser Gly Leu Ser Gly Glu Gln Gly Pro Ser Gly
1 5 10 15
Asp Met Thr Thr Glu Glu Asp Ser Ala Thr His Ile Lys Phe Ser Lys
20 25 30
Arg Asp Glu Asp Gly Arg Glu Leu Ala Gly Ala Thr Met Glu Leu Arg
35 40 45
Asp Ser Ser Gly Lys Thr Ile Ser Thr Trp Ile Ser Asp Gly His Val
50 55 60
Lys Asp Phe Tyr Leu Tyr Pro Gly Lys Tyr Thr Phe Val Glu Thr Ala
65 70 75 80
Ala Pro Asp Gly Tyr Glu Val Ala Thr Pro Ile Glu Phe Thr Val Asn
85 90 95
Glu Asp Gly Gln Val Thr Val Asp Gly Glu Ala Thr Glu Gly Asp Ala
100 105 110
His Thr Gly Gly Gly Gly Ser Pro His Pro Val Leu Glu Lys Leu Arg
115 120 125
Ser Ile Asn Asn Tyr Asn Pro Lys Asp Phe Asp Trp Asn Leu Lys His
130 135 140
Gly Arg Val Phe Ile Ile Lys Ser Tyr Ser Glu Asp Asp Ile His Arg
145 150 155 160
Ser Ile Lys Tyr Asn Ile Trp Cys Ser Thr Glu His Gly Asn Lys Arg
165 170 175
Leu Asp Ala Ala Tyr Arg Ser Met Asn Gly Lys Gly Pro Val Tyr Leu
180 185 190
Leu Phe Ser Val Asn Gly Ser Gly His Phe Cys Gly Val Ala Glu Met
195 200 205
Lys Ser Ala Val Asp Tyr Asn Thr Cys Ala Gly Val Trp Ser Gln Asp
210 215 220
Lys Trp Lys Gly Arg Phe Asp Val Arg Trp Ile Phe Val Lys Asp Val
225 230 235 240
Pro Asn Ser Gln Leu Arg His Ile Arg Leu Glu Asn Asn Glu Asn Lys
245 250 255
Pro Val Thr Asn Ser Arg Asp Thr Gln Glu Val Pro Leu Glu Lys Ala
260 265 270
Lys Gln Val Leu Lys Ile Ile Ala Ser Tyr Lys His Thr Thr Ser Ile
275 280 285
Phe Asp Asp Phe Ser His Tyr Glu Lys Arg Gln Glu Glu Glu Glu Ser
290 295 300
Val Lys Lys Glu Arg Gln Gly Arg Gly Lys His His His His His His
305 310 315 320
<210> 37
<211> 776
<212> PRT
<213> 人工序列(Artificial Sequence)
<220>
<223> 合成结构
<400> 37
Met Lys Ile Glu Glu Gly Lys Leu Val Ile Trp Ile Asn Gly Asp Lys
1 5 10 15
Gly Tyr Asn Gly Leu Ala Glu Val Gly Lys Lys Phe Glu Lys Asp Thr
20 25 30
Gly Ile Lys Val Thr Val Glu His Pro Asp Lys Leu Glu Glu Lys Phe
35 40 45
Pro Gln Val Ala Ala Thr Gly Asp Gly Pro Asp Ile Ile Phe Trp Ala
50 55 60
His Asp Arg Phe Gly Gly Tyr Ala Gln Ser Gly Leu Leu Ala Glu Ile
65 70 75 80
Thr Pro Asp Lys Ala Phe Gln Asp Lys Leu Tyr Pro Phe Thr Trp Asp
85 90 95
Ala Val Arg Tyr Asn Gly Lys Leu Ile Ala Tyr Pro Ile Ala Val Glu
100 105 110
Ala Leu Ser Leu Ile Tyr Asn Lys Asp Leu Leu Pro Asn Pro Pro Lys
115 120 125
Thr Trp Glu Glu Ile Pro Ala Leu Asp Lys Glu Leu Lys Ala Lys Gly
130 135 140
Lys Ser Ala Leu Met Phe Asn Leu Gln Glu Pro Tyr Phe Thr Trp Pro
145 150 155 160
Leu Ile Ala Ala Asp Gly Gly Tyr Ala Phe Lys Tyr Glu Asn Gly Lys
165 170 175
Tyr Asp Ile Lys Asp Val Gly Val Asp Asn Ala Gly Ala Lys Ala Gly
180 185 190
Leu Thr Phe Leu Val Asp Leu Ile Lys Asn Lys His Met Asn Ala Asp
195 200 205
Thr Asp Tyr Ser Ile Ala Glu Ala Ala Phe Asn Lys Gly Glu Thr Ala
210 215 220
Met Thr Ile Asn Gly Pro Trp Ala Trp Ser Asn Ile Asp Thr Ser Lys
225 230 235 240
Val Asn Tyr Gly Val Thr Val Leu Pro Thr Phe Lys Gly Gln Pro Ser
245 250 255
Lys Pro Phe Val Gly Val Leu Ser Ala Gly Ile Asn Ala Ala Ser Pro
260 265 270
Asn Lys Glu Leu Ala Lys Glu Phe Leu Glu Asn Tyr Leu Leu Thr Asp
275 280 285
Glu Gly Leu Glu Ala Val Asn Lys Asp Lys Pro Leu Gly Ala Val Ala
290 295 300
Leu Lys Ser Tyr Glu Glu Glu Leu Val Lys Asp Pro Arg Ile Ala Ala
305 310 315 320
Thr Met Glu Asn Ala Gln Lys Gly Glu Ile Met Pro Asn Ile Pro Gln
325 330 335
Met Ser Ala Phe Trp Tyr Ala Val Arg Thr Ala Val Ile Asn Ala Ala
340 345 350
Ser Gly Arg Gln Thr Val Asp Glu Ala Leu Lys Asp Ala Gln Thr Asn
355 360 365
Ser Ser Ser Asn Asn Asn Asn Asn Asn Asn Asn Asn Asn Leu Gly Ile
370 375 380
Glu Gly Arg Ile Ser His Met Gly Ser Gly Ser Ser Gly Ser Gly Glu
385 390 395 400
Asn Leu Tyr Phe Gln Gly Met Ser Ser Glu Thr Gly Pro Val Ala Val
405 410 415
Asp Pro Thr Leu Arg Arg Arg Ile Glu Pro His Glu Phe Glu Val Phe
420 425 430
Phe Asp Pro Arg Glu Leu Arg Lys Glu Thr Cys Leu Leu Tyr Glu Ile
435 440 445
Asn Trp Gly Gly Arg His Ser Ile Trp Arg His Thr Ser Gln Asn Thr
450 455 460
Asn Lys His Val Glu Val Asn Phe Ile Glu Lys Phe Thr Thr Glu Arg
465 470 475 480
Tyr Phe Cys Pro Asn Thr Arg Cys Ser Ile Thr Trp Phe Leu Ser Trp
485 490 495
Ser Pro Cys Gly Glu Cys Ser Arg Ala Ile Thr Glu Phe Leu Ser Arg
500 505 510
Tyr Pro His Val Thr Leu Phe Ile Tyr Ile Ala Arg Leu Tyr His His
515 520 525
Ala Asp Pro Arg Asn Arg Gln Gly Leu Arg Asp Leu Ile Ser Ser Gly
530 535 540
Val Thr Ile Gln Ile Met Thr Glu Gln Glu Ser Gly Tyr Cys Trp Arg
545 550 555 560
Asn Phe Val Asn Tyr Ser Pro Ser Asn Glu Ala His Trp Pro Arg Tyr
565 570 575
Pro His Leu Trp Val Arg Leu Tyr Val Leu Glu Leu Tyr Cys Ile Ile
580 585 590
Leu Gly Leu Pro Pro Cys Leu Asn Ile Leu Arg Arg Lys Gln Pro Gln
595 600 605
Leu Thr Phe Phe Thr Ile Ala Leu Gln Ser Cys His Tyr Gln Arg Leu
610 615 620
Pro Pro His Ile Leu Trp Ala Thr Gly Leu Lys Ser Gly Ser Glu Thr
625 630 635 640
Pro Gly Thr Ser Glu Ser Ala Thr Pro Glu Ser Met Val Thr Thr Leu
645 650 655
Ser Gly Leu Ser Gly Glu Gln Gly Pro Ser Gly Asp Met Thr Thr Glu
660 665 670
Glu Asp Ser Ala Thr His Ile Lys Phe Ser Lys Arg Asp Glu Asp Gly
675 680 685
Arg Glu Leu Ala Gly Ala Thr Met Glu Leu Arg Asp Ser Ser Gly Lys
690 695 700
Thr Ile Ser Thr Trp Ile Ser Asp Gly His Val Lys Asp Phe Tyr Leu
705 710 715 720
Tyr Pro Gly Lys Tyr Thr Phe Val Glu Thr Ala Ala Pro Asp Gly Tyr
725 730 735
Glu Val Ala Thr Pro Ile Glu Phe Thr Val Asn Glu Asp Gly Gln Val
740 745 750
Thr Val Asp Gly Glu Ala Thr Glu Gly Asp Ala His Thr Gly Ser Ser
755 760 765
Gly Ser His His His His His His
770 775
<210> 38
<211> 39
<212> DNA
<213> 人工序列(Artificial Sequence)
<220>
<223> 合成结构
<220>
<221> misc_feature
<222> (1)..(1)
<223> 5' 磷酸
<220>
<221> misc_feature
<222> (1)..(2)
<223> PEG 接头
<400> 38
ttataagaga cagacacagg ccactcagtc tatacttaa 39
<210> 39
<211> 29
<212> DNA
<213> 人工序列(Artificial Sequence)
<220>
<223> 合成结构
<220>
<221> misc_feature
<222> (1)..(1)
<223> 5' 磷酸
<220>
<221> misc_feature
<222> (21)..(21)
<223> 核糖核苷酸
<220>
<221> misc_feature
<222> (28)..(29)
<223> PEG 接头
<220>
<221> misc_feature
<222> (29)..(29)
<223> 3' 胺
<400> 39
cggacacaga cagagaatat uatatatat 29
<210> 40
<211> 45
<212> RNA
<213> 人工序列(Artificial Sequence)
<220>
<223> 合成结构
<220>
<221> misc_feature
<222> (1)..(1)
<223> 5' FAM 标记
<220>
<221> misc_feature
<222> (30)..(30)
<223> 生物素化
<400> 40
ggcagcguca gaugcaucau cauaaggucu auauuaagua uagac 45
<210> 41
<211> 41
<212> DNA
<213> 人工序列(Artificial Sequence)
<220>
<223> 合成结构
<220>
<221> misc_feature
<222> (1)..(1)
<223> 5' FAM 标记
<220>
<221> misc_feature
<222> (1)..(33)
<223> 核糖核苷酸
<220>
<221> modified_base
<222> (25)..(25)
<223> 肌苷
<400> 41
ucgucggcag cgucagaugc auacnaccca uagactgagt g 41
<210> 42
<211> 359
<212> PRT
<213> 人工序列(Artificial Sequence)
<220>
<223> 合成结构
<400> 42
Met Ser Ser Glu Thr Gly Pro Val Ala Val Asp Pro Thr Leu Arg Arg
1 5 10 15
Arg Ile Glu Pro His Glu Phe Glu Val Phe Phe Asp Pro Arg Glu Leu
20 25 30
Arg Lys Glu Thr Cys Leu Leu Tyr Glu Ile Asn Trp Gly Gly Arg His
35 40 45
Ser Ile Trp Arg His Thr Ser Gln Asn Thr Asn Lys His Val Glu Val
50 55 60
Asn Phe Ile Glu Lys Phe Thr Thr Glu Arg Tyr Phe Cys Pro Asn Thr
65 70 75 80
Arg Cys Ser Ile Thr Trp Phe Leu Ser Trp Ser Pro Cys Gly Glu Cys
85 90 95
Ser Arg Ala Ile Thr Glu Phe Leu Ser Arg Tyr Pro His Val Thr Leu
100 105 110
Phe Ile Tyr Ile Ala Arg Leu Tyr His His Ala Asp Pro Arg Asn Arg
115 120 125
Gln Gly Leu Arg Asp Leu Ile Ser Ser Gly Val Thr Ile Gln Ile Met
130 135 140
Thr Glu Gln Glu Ser Gly Tyr Cys Trp Arg Asn Phe Val Asn Tyr Ser
145 150 155 160
Pro Ser Asn Glu Ala His Trp Pro Arg Tyr Pro His Leu Trp Val Arg
165 170 175
Leu Tyr Val Leu Glu Leu Tyr Cys Ile Ile Leu Gly Leu Pro Pro Cys
180 185 190
Leu Asn Ile Leu Arg Arg Lys Gln Pro Gln Leu Thr Phe Phe Thr Ile
195 200 205
Ala Leu Gln Ser Cys His Tyr Gln Arg Leu Pro Pro His Ile Leu Trp
210 215 220
Ala Thr Gly Leu Lys Ser Gly Ser Glu Thr Pro Gly Thr Ser Glu Ser
225 230 235 240
Ala Thr Pro Glu Ser Met Val Thr Thr Leu Ser Gly Leu Ser Gly Glu
245 250 255
Gln Gly Pro Ser Gly Asp Met Thr Thr Glu Glu Asp Ser Ala Thr His
260 265 270
Ile Lys Phe Ser Lys Arg Asp Glu Asp Gly Arg Glu Leu Ala Gly Ala
275 280 285
Thr Met Glu Leu Arg Asp Ser Ser Gly Lys Thr Ile Ser Thr Trp Ile
290 295 300
Ser Asp Gly His Val Lys Asp Phe Tyr Leu Tyr Pro Gly Lys Tyr Thr
305 310 315 320
Phe Val Glu Thr Ala Ala Pro Asp Gly Tyr Glu Val Ala Thr Pro Ile
325 330 335
Glu Phe Thr Val Asn Glu Asp Gly Gln Val Thr Val Asp Gly Glu Ala
340 345 350
Thr Glu Gly Asp Ala His Thr
355
<210> 43
<211> 329
<212> PRT
<213> 人工序列(Artificial Sequence)
<220>
<223> 合成结构
<400> 43
Met Glu Ala Ser Pro Ala Ser Gly Pro Arg His Leu Met Asp Pro His
1 5 10 15
Ile Phe Thr Ser Asn Phe Asn Asn Gly Ile Gly Arg His Lys Thr Tyr
20 25 30
Leu Cys Tyr Glu Val Glu Arg Leu Asp Asn Gly Thr Ser Val Lys Met
35 40 45
Asp Gln His Arg Gly Phe Leu His Asn Gln Ala Lys Asn Leu Leu Cys
50 55 60
Gly Phe Tyr Gly Arg His Ala Glu Leu Arg Phe Leu Asp Leu Val Pro
65 70 75 80
Ser Leu Gln Leu Asp Pro Ala Gln Ile Tyr Arg Val Thr Trp Phe Ile
85 90 95
Ser Trp Ser Pro Cys Phe Ser Trp Gly Cys Ala Gly Gln Val Arg Ala
100 105 110
Phe Leu Gln Glu Asn Thr His Val Arg Leu Arg Ile Phe Ala Ala Arg
115 120 125
Ile Tyr Asp Tyr Asp Pro Leu Tyr Lys Glu Ala Leu Gln Met Leu Arg
130 135 140
Asp Ala Gly Ala Gln Val Ser Ile Met Thr Tyr Asp Glu Phe Lys His
145 150 155 160
Cys Trp Asp Thr Phe Val Asp His Gln Gly Cys Pro Phe Gln Pro Trp
165 170 175
Asp Gly Leu Asp Glu His Ser Gln Ala Leu Ser Gly Arg Leu Arg Ala
180 185 190
Ile Leu Gln Asn Gln Gly Asn Ser Gly Ser Glu Thr Pro Gly Thr Ser
195 200 205
Glu Ser Ala Thr Pro Glu Ser Met Val Thr Thr Leu Ser Gly Leu Ser
210 215 220
Gly Glu Gln Gly Pro Ser Gly Asp Met Thr Thr Glu Glu Asp Ser Ala
225 230 235 240
Thr His Ile Lys Phe Ser Lys Arg Asp Glu Asp Gly Arg Glu Leu Ala
245 250 255
Gly Ala Thr Met Glu Leu Arg Asp Ser Ser Gly Lys Thr Ile Ser Thr
260 265 270
Trp Ile Ser Asp Gly His Val Lys Asp Phe Tyr Leu Tyr Pro Gly Lys
275 280 285
Tyr Thr Phe Val Glu Thr Ala Ala Pro Asp Gly Tyr Glu Val Ala Thr
290 295 300
Pro Ile Glu Phe Thr Val Asn Glu Asp Gly Gln Val Thr Val Asp Gly
305 310 315 320
Glu Ala Thr Glu Gly Asp Ala His Thr
325
<210> 44
<211> 41
<212> DNA
<213> 人工序列(Artificial Sequence)
<220>
<223> 合成结构
<220>
<221> misc_feature
<222> (15)..(15)
<223> 核糖核苷酸
<400> 44
agaacagaac agaauagatg ataggaagga tgaaggtgag t 41
<210> 45
<211> 41
<212> DNA
<213> 人工序列(Artificial Sequence)
<220>
<223> 合成结构
<400> 45
agaagagaag agaacagatg ataggaagga tgaaggtgag t 41
<210> 46
<211> 41
<212> RNA
<213> 人工序列(Artificial Sequence)
<220>
<223> 合成结构
<400> 46
agaacagaac agaauagaug auaggaagga ugaaggugag u 41
<210> 47
<211> 41
<212> RNA
<213> 人工序列(Artificial Sequence)
<220>
<223> 合成结构
<400> 47
agaacagaac agaacagaug auaggaagga ugaaggugag u 41
<210> 48
<211> 60
<212> DNA
<213> 人工序列(Artificial Sequence)
<220>
<223> 合成结构
<400> 48
gaacagaaca gaacagaaca gaacagaaca gaacagatga taggaaggat gaaggtgagt 60
<210> 49
<211> 60
<212> DNA
<213> 人工序列(Artificial Sequence)
<220>
<223> 合成结构
<220>
<221> misc_feature
<222> (60)..(60)
<223> SpyTag 肽连接
<400> 49
gaacagaaca gaacagaaca gaacagaaca gaacagatga taggaaggat gaaggtgagt 60
<210> 50
<211> 60
<212> DNA
<213> 人工序列(Artificial Sequence)
<220>
<223> 合成结构
<220>
<221> misc_feature
<222> (38)..(38)
<223> SpyTag 肽连接
<400> 50
gaacagaaca gaacagaaca gaacagaaca gaacagatga taggaaggat gaaggtgagt 60
<210> 51
<211> 25
<212> DNA
<213> 人工序列(Artificial Sequence)
<220>
<223> 合成结构
<220>
<221> misc_feature
<222> (25)..(52)
<223> 3' FAM 标记
<400> 51
ctactatcct tcctacttcc actca 25
<210> 52
<211> 4
<212> DNA
<213> 人工序列(Artificial Sequence)
<220>
<223> 合成结构
<400> 52
atcg 4
<210> 53
<211> 4
<212> DNA
<213> 人工序列(Artificial Sequence)
<220>
<223> 合成结构
<400> 53
aatc 4
<210> 54
<211> 4
<212> DNA
<213> 人工序列(Artificial Sequence)
<220>
<223> 合成结构
<400> 54
ttag 4
<210> 55
<211> 8
<212> DNA
<213> 人工序列(Artificial Sequence)
<220>
<223> 合成结构
<400> 55
gatgatgt 8
<210> 56
<211> 40
<212> DNA
<213> 人工序列(Artificial Sequence)
<220>
<223> 合成结构
<220>
<221> misc_feature
<222> (1)..(1)
<223> 5' 胺
<220>
<221> misc_feature
<222> (1)..(2)
<223> PEG 接头
<220>
<221> misc_feature
<222> (23)..(25)
<223> n是任何核苷酸
<220>
<221> misc_feature
<222> (40)..(40)
<223> 封闭的 3' 端
<400> 56
tagacgtgtg ctcttccgat ctnnnactaa ttcactcagt 40
<210> 57
<211> 32
<212> DNA
<213> 人工序列(Artificial Sequence)
<220>
<223> 合成结构
<220>
<221> misc_feature
<222> (1)..(1)
<223> 5' 磷酸
<220>
<221> misc_feature
<222> (8)..(10)
<223> n是任何核苷酸
<220>
<221> misc_feature
<222> (31)..(32)
<223> PEG 接头
<220>
<221> misc_feature
<222> (32)..(32)
<223> 3' 胺
<400> 57
actaattnnn agatcggaag agcacacgtc tt 32
<210> 58
<211> 19
<212> DNA
<213> 人工序列(Artificial Sequence)
<220>
<223> 合成结构
<400> 58
ctgtctctta tacacatct 19
<210> 59
<211> 19
<212> DNA
<213> 人工序列(Artificial Sequence)
<220>
<223> 合成结构
<400> 59
agatgtgtat aagagacag 19
<210> 60
<211> 59
<212> DNA
<213> 人工序列(Artificial Sequence)
<220>
<223> 合成结构
<220>
<221> misc_feature
<222> (8)..(8)
<223> 核糖核苷酸
<220>
<221> misc_feature
<222> (29)..(40)
<223> n是任何核苷酸
<400> 60
tttgtgaugc gatgaactca gagtgcttnn nnnnnnnnnn agatgtgtat aagagacag 59

Claims (132)

1.一种核酸结合分子,包含:
i)结合结构域,和
ii)衔接子,
其中所述结合结构域特异性结合DNA或RNA的非常规特征;
其中所述衔接子包含核酸条形码序列,所述核酸条形码序列对于由所述结合结构域特异性结合的非常规特征是独特的。
2.根据权利要求1所述的核酸结合分子,其中所述结合结构域包含抗体、纳米体、适体、阅读蛋白、书写蛋白、擦除蛋白、工程化大分子支架、工程化蛋白支架、或选择性共价捕获试剂、或其片段或衍生物。
3.根据权利要求2所述的核酸结合分子,其中所述阅读蛋白是NUDT16或YTHDC2,或其片段或衍生物。
4.根据权利要求2所述的核酸结合分子,其中所述书写蛋白是DNTM1、DNTM3A/B、NAT10、METTL3、METTL8、METTL14、METTL16、TRM、BMT、DUS2、PUS或NSUN2,或其片段或衍生物。
5.根据权利要求2所述的核酸结合分子,其中所述擦除蛋白是FTO、ALKBH3或ALKBH5,或其片段或衍生物。
6.根据权利要求2所述的核酸结合分子,其中所述结合结构域不具有催化活性。
7.根据权利要求1-6中任一项所述的核酸结合分子,其中所述衔接子是可切割的。
8.根据权利要求1-7中任一项所述的核酸结合分子,其中所述衔接子包含通用正向引物(UFP)和通用反向引物(URP)中的至少一种。
9.根据权利要求1-8中任一项所述的核酸结合分子,其中所述衔接子包含独特分子标识符(UMI)。
10.根据权利要求1-9中任一项所述的核酸结合分子,其中所述非常规特征是修饰的核苷。
11.根据权利要求10所述的核酸结合分子,其中所述修饰的核苷是3-甲基胞苷(m3C)、5-甲基胞苷(m5C)、N4-乙酰胞苷(ac4C)、假尿苷(Ψ)、1-甲基腺苷(m1A)、N6-甲基腺苷(m6A)、肌苷(I)、7-甲基鸟苷(m7G)、二氢尿苷(D)、3-甲基尿苷(m3U)、5-甲基尿苷(m5U)、1-甲基鸟苷(m1G)、N2-甲基鸟苷(m2G)、5-甲基脱氧胞苷(m5dC)、N4-甲基脱氧胞苷、5-羟甲基胞苷(5-hmC)、5-羟甲基脱氧胞苷(5hmdC)、5-羧基脱氧胞苷(5cadC)、5-甲酰胞苷(5fC)、5-甲酰脱氧胞苷(5fdC)、6-甲基脱氧腺苷、N7-甲基鸟苷(m7G)、2,7,2’-甲基鸟苷或核糖甲基化(Nm)。
12.根据权利要求1-9中任一项所述的核酸结合分子,其中所述非常规特征是核酸损伤。
13.根据权利要求12所述的方法,其中所述核酸损伤由氧化过程或与紫外光接触引起。
14.根据权利要求12所述的方法,其中所述核酸损伤由外源试剂形成聚化加合物或碱基烷基化引起。
15.根据权利要求12所述的核酸结合分子,其中所述损伤是8-氧代鸟嘌呤(8-oxoG)、一个或多个脱碱基位点、顺铂交联、苯并(a)芘二醇环氧化物(BPDE)-加合物、环丁烯嘧啶二聚体(CPD)、嘧啶-嘧啶酮(6-4)光产物(6-4PP)、6-O-甲基鸟嘌呤(O6-MedG)或O6-(羧甲基)-2’-脱氧鸟苷(O6-CMdG)。
16.根据权利要求1-9中任一项所述的核酸结合分子,其中所述非常规特征是结构元件。
17.根据权利要求16所述的核酸结合分子,其中所述结构元件是发夹、环、Z-DNA结构、G-四链体、三链体、I-基序、凸起、三链体、三向接合、十字形结构、四环、核糖拉链或假结。
18.根据权利要求1-17中任一项所述的核酸结合分子,其中所述结合结构域接触至少一个修饰的核苷。
19.根据权利要求1-18中任一项所述的核酸结合分子,其中所述结合结构域接触修饰的核苷和与其相邻的一个或多个核苷酸。
20.根据权利要求1-19中任一项所述的核酸结合分子,其中所述衔接子包含接头,所述结合结构域与所述接头连接。
21.根据权利要求1-20中任一项所述的核酸结合分子,其中所述核酸结合分子另外包含酶或其催化片段或衍生物。
22.根据权利要求21所述的核酸结合分子,其中所述酶是碱基编辑酶。
23.根据权利要求22所述的核酸结合分子,其中所述碱基编辑酶是胞嘧啶脱氨酶或腺苷脱氨酶。
24.根据权利要求23所述的核酸结合分子,其中所述碱基编辑酶是APOBEC1或APOBEC3A,或其催化片段或衍生物。
25.根据权利要求23所述的核酸结合分子,其中所述酶是DNA或RNA甲基化酶或假尿苷合酶,或其催化片段或衍生物。
26.根据权利要求21所述的核酸结合分子,其中所述酶是DNA N-糖基化酶或RNA N-糖基化酶。
27.根据权利要求21所述的核酸结合分子,其中所述酶是转座酶或整合酶。
28.根据权利要求21所述的核酸结合分子,其中所述酶缺乏催化活性。
29.一种缀合物,其包含结合结构域和酶或其片段,其中所述结合结构域与权利要求1-28中任一项所述的核酸结合分子结合。
30.根据权利要求29所述的缀合物,其中所述结合结构域和酶或其片段共价缀合。
31.根据权利要求29所述的缀合物,其中所述结合结构域和酶或其片段非共价缀合。
32.根据权利要求29-31中任一项所述的缀合物,其中所述酶是Tn5转座酶。
33.根据权利要求32所述的缀合物,其中所述标签酶与蛋白A、G或L融合。
34.一种缀合物,其包含(i)权利要求1-28中任一项所述的核酸结合分子,还包含肽标签,和(ii)融合到蛋白标签的酶或其片段,所述蛋白标签能够与肽标签共价反应。
35.一种缀合物,其包含(i)权利要求1-28中任一项所述的核酸结合分子,还包含蛋白标签,和(ii)融合到肽标签的酶或其片段,所述肽标签能够与蛋白标签共价反应。
36.根据权利要求34-35中任一项所述的缀合物,其中所述肽标签是Spytag。
37.根据权利要求34-36中任一项所述的缀合物,其中所述酶是脱氨酶,并且与Spycatcher蛋白融合。
38.一种缀合物,其包含(i)权利要求1-28中任一项所述的核酸结合分子和(ii)融合到蛋白的酶或其片段,所述蛋白能够以高亲和力结合到结合结构域的特定区域。
39.根据权利要求38所述的缀合物,其中所述结合结构域是IgG抗体或其片段。
40.根据权利要求39所述的缀合物,其中所述酶是融合到蛋白A、G或L的脱氨酶。
41.一种缀合物,其包含(i)权利要求1-28中任一项的所述核酸结合分子,还包含核酸标签,和(ii)融合到互补核酸标签的酶或其片段,所述互补核酸标签能够与所述核酸结合分子的核酸标签杂交。
42.一种复合物,其包含与靶核酸结合的权利要求1-28中任一项所述的核酸结合分子。
43.根据权利要求42的所述复合物,其中所述核酸结合分子和靶核酸共价连接。
44.一种底物,其与权利要求1-28中任一项所述的核酸结合分子连接。
45.根据权利要求44所述的底物,其中所述底物是微珠、芯片、平板、载玻片、培养皿或三维基质。
46.根据权利要求45所述的底物,其中所述核酸结合分子连接至底物的表面。
47.根据权利要求46所述的底物,其中所述核酸结合分子经由捕获分子间接连接至底物表面,其中捕获分子直接连接至底物。
48.根据权利要求47所述的底物,其中所述捕获分子结合所述核酸结合分子。
49.根据权利要求47所述的底物,其中所述捕获分子结合所述靶核酸。
50.根据权利要求47所述的底物,其中所述核酸结合分子结合靶核酸,所述靶核酸与捕获分子结合。
51.根据权利要求44-50中任一项所述的底物,其中所述核酸结合分子与底物表面上的第二核酸结合分子在空间上分离。
52.一种聚合物,其与权利要求1-28中任一项所述的核酸结合分子连接。
53.一种制备权利要求1-28中任一项所述的核酸结合分子的方法,所述方法包括将结合结构域连接至衔接子,以形成结合结构域-衔接子缀合物。
54.一种分析多种靶核酸的方法,所述方法包括:
(i)将靶核酸与权利要求1-28中任一项所述的核酸结合分子接触;
(ii)(a)在基本上防止脱靶产生条形码编码的核酸的环境中,将核酸条形码转移至靶核酸上,以产生条形码编码的靶核酸,或者(b)产生靶核酸的条形码编码的拷贝;
(iii)修饰条形码编码的靶核酸或其条形码编码的拷贝,使得非常规特征的位置可基于条形码编码的靶核酸或其条形码编码的拷贝的一级核酸序列进行鉴定;和
(iv)对条形码编码的靶核酸进行测序。
55.根据权利要求54所述的方法,其包括在步骤(i)之前将短核酸序列附加到靶核酸的3’端以促进条形码转移。
56.根据权利要求54所述的方法,其中步骤(i)-(iii)重复至少一次。
57.根据权利要求56所述的方法,其中每次重复步骤(i)-(iii)时使用不同的核酸结合分子。
58.根据权利要求56所述的方法,其中每次重复步骤(i)-(iii)时使用相同的核酸结合分子。
59.根据权利要求21所述的方法,其中通过单链连接、夹板连接、引物延伸或双链连接将核酸条形码酶促转移至靶核酸。
60.根据权利要求59所述的方法,其中通过引物延伸将核酸条形码转移至靶核酸,其中引物延伸之前将具有通用序列的核酸连接至靶核酸的3’端。
61.根据权利要求60所述的方法,其中通过引物延伸将核酸条形码转移至靶RNA,其中在引物延伸之前,用大肠杆菌聚(A)聚合酶或粟酒裂殖酵母Cid1的聚(U)聚合酶,结合一种类型的核糖核苷酸和竞争性互补poly-dT、poly-dA、poly-dG或poly-dC寡核苷酸,酶促地在靶核酸的3’端加尾。
62.根据权利要求54-61中任一项所述的方法,其包括在测序前扩增条形码编码的靶核酸或其拷贝。
63.根据权利要求54-61中任一项所述的方法,其中所述靶核酸包括DNA、RNA或其混合物。
64.根据权利要求54-63中任一项所述的方法,其中所述靶核酸包含至少一种非常规特征。
65.根据权利要求64所述的方法,其中所述非常规特征是修饰的核苷。
66.根据权利要求61所述的方法,其中所述修饰的核苷是3-甲基胞苷(m3C)、5-甲基胞苷(m5C)、N4-乙酰胞苷(ac4C)、假尿苷(Ψ)、1-甲基腺苷(m1A)、N6-甲基腺苷(m6A)、肌苷(I)、7-甲基鸟苷(m7G)、二氢尿苷(D)、3-甲基尿苷(m3U)、5-甲基尿苷(m5U)、1-甲基鸟苷(m1G)、N2-甲基鸟苷(m2G)、5-甲基脱氧胞苷(m5dC)、N4-甲基脱氧胞苷、5-羟甲基胞苷(5-hmC)、5-羟甲基脱氧胞苷(5hmdC)、5-羧基脱氧胞苷(5cadC)、5-甲酰胞苷(5fC)、5-甲酰脱氧胞苷(5fdC)、6-甲基脱氧腺苷、N7-甲基鸟苷(m7G)、2,7,2’-甲基鸟苷或核糖甲基化(Nm)。
67.根据权利要求64所述的方法,其中所述非常规特征是核酸损伤。
68.根据权利要求67所述的方法,其中所述核酸损伤由氧化过程或与紫外光接触引起。
69.根据权利要求67所述的方法,其中所述核酸损伤由外源试剂形成聚化加合物或碱基烷基化引起。
70.根据权利要求64所述的核酸结合分子,其中所述损伤是8-氧代鸟嘌呤(8-oxoG)、一个或多个脱碱基位点、顺铂交联、苯并(a)芘二醇环氧化物(BPDE)-加合物、环丁烯嘧啶二聚体(CPD)、嘧啶-嘧啶酮(6-4)光产物(6-4PP)、6-O-甲基鸟嘌呤(O6-MedG)或O6-(羧甲基)-2’-脱氧鸟苷(O6-CMdG)。
71.根据权利要求64所述的方法,其中所述非常规特征是结构元件。
72.根据权利要求71所述的方法,其中所述结构元件是发夹、环、Z-DNA结构、G-四链体、三链体、I-基序、凸起、三链体、三向接合、十字形结构、四环、核糖拉链或假结。
73.根据权利要求54-72中任一项所述的方法,其中所述核酸结合分子与底物表面连接,并且在空间上与其它核酸结合分子分离,使得每个靶核酸只能接触一种靶核酸结合分子。
74.根据权利要求54-73中任一项所述的方法,其中通过将条形码或其互补序列共价连接至靶核酸的5’端或3’端,将核酸条形码转移至靶核酸。
75.根据权利要求54-73中任一项所述的方法,其中通过单链连接、夹板连接、引物延伸或双链连接将核酸条形码酶促转移至靶核酸。
76.根据权利要求54-73中任一项所述的方法,其中通过化学连接将核酸条形码转移至靶核酸。
77.根据权利要求54-76中任一项所述的方法,其中所述修饰包括将核酸结合分子经光化学或化学连接至靶核酸。
78.根据权利要求54-77中任一项所述的方法,其中所述结合结构域在促进与所述核酸靶共价反应的方向上展示化学交联部分。
79.根据权利要求54-77中任一项所述的方法,其中所述修饰包括在核酸结合分子与靶核酸结合的位点处或附近编辑碱基。
80.一种检测和/或定量多个靶核酸中的两种或多种非常规特征的方法,所述方法包括:
(i)将靶核酸与至少两种核酸结合分子接触,其中每种核酸结合分子包含结合结构域和衔接子;其中每种核酸结合分子的结合结构域结合DNA或RNA的不同的非常规特征;其中所述衔接子包含对由每个结合结构域特异性结合的非常规特征独特的核酸条形码序列;
(ii)(a)在基本上防止脱靶产生条形码编码的核酸的环境中,将核酸条形码转移至靶核酸上,以产生条形码编码的靶核酸,或者(b)产生靶核酸的条形码编码的拷贝;
(iii)修饰条形码编码的靶核酸或其条形码编码的拷贝,使得非常规特征的位置可基于条形码编码的靶核酸或其条形码编码的拷贝的一级核酸序列进行鉴定;和
(vi)对条形码编码的靶核酸进行测序。
81.根据权利要求80所述的方法,其包括在测序前扩增条形码编码的靶核酸或其拷贝。
82.根据权利要求80或81所述的方法,其中所述靶核酸包括DNA、RNA或其混合物。
83.根据权利要求80-82中任一项所述的方法,其中至少一种非常规特征是修饰的核苷。
84.根据权利要求83所述的方法,其中所述修饰的核苷是3-甲基胞苷(m3C)、5-甲基胞苷(m5C)、N4-乙酰胞苷(ac4C)、假尿苷(Ψ)、1-甲基腺苷(m1A)、N6-甲基腺苷(m6A)、肌苷(I)、7-甲基鸟苷(m7G)、二氢尿苷(D)、3-甲基尿苷(m3U)、5-甲基尿苷(m5U)、1-甲基鸟苷(m1G)、N2-甲基鸟苷(m2G)、5-甲基脱氧胞苷(m5dC)、N4-甲基脱氧胞苷、5-羟甲基胞苷(5-hmC)、5-羟甲基脱氧胞苷(5hmdC)、5-羧基脱氧胞苷(5cadC)、5-甲酰胞苷(5fC)、5-甲酰脱氧胞苷(5fdC)、6-甲基脱氧腺苷、N7-甲基鸟苷(m7G)、2,7,2’-甲基鸟苷或核糖甲基化(Nm)。
85.根据权利要求82所述的方法,其中所述非常规特征是核酸损伤。
86.根据权利要求85所述的方法,其中所述核酸损伤由氧化过程或与紫外光接触引起。
87.根据权利要求85所述的方法,其中所述核酸损伤由外源试剂形成聚化加合物或碱基烷基化引起。
88.根据权利要求82所述的核酸结合分子,其中所述损伤是8-氧代鸟嘌呤(8-oxoG)、一个或多个脱碱基位点、顺铂交联、苯并(a)芘二醇环氧化物(BPDE)-加合物、环丁烯嘧啶二聚体(CPD)、嘧啶-嘧啶酮(6-4)光产物(6-4PP)、6-O-甲基鸟嘌呤(O6-MedG)或O6-(羧甲基)-2’-脱氧鸟苷(O6-CMdG)。
89.根据权利要求80-82中任一项所述的方法,其中至少一种非常规特征是结构元件。
90.根据权利要求89所述的方法,其中所述结构元件是发夹、环、Z-DNA结构、G-四链体、三链体、I-基序、凸起、三链体、三向接合、十字形结构、四环、核糖拉链或假结。
91.根据权利要求80-90中任一项所述的方法,其中所述核酸结合分子连接至底物表面上,并且在空间上分离,使得每种靶核酸只能接触一种靶核酸结合分子。
92.根据权利要求80-91中任一项所述所述的方法,其中通过将条形码或其互补序列共价连接至靶核酸的5’端或3’端,将核酸条形码转移至靶核酸。
93.根据权利要求80-91中任一项所述的方法,其中通过单链连接、夹板连接、引物延伸或双链连接将核酸条形码酶促转移至靶核酸。
94.根据权利要求80-90中任一项所述的方法,其中通过化学连接将核酸条形码转移至靶核酸。
95.根据权利要求80-94中任一项所述的方法,其中所述修饰包括将核酸结合分子经光化学连接至靶核酸。
96.根据权利要求80-94中任一项所述的方法,其中所述修饰包括在核酸结合分子与靶核酸结合的位点处或附近编辑碱基。
97.一种检测靶核酸中的非常规特征的方法,所述方法包括:
(i)将靶核酸与权利要求1-28中任一项所述的核酸结合分子接触;
(ii)(a)在基本上防止脱靶产生条形码编码的核酸的环境中,将核酸条形码转移至靶核酸上,以产生条形码靶核酸;和
(iii)检测靶核酸或其拷贝中条形码的存在。
98.根据权利要求97所述的方法,其中所述非常规特征是修饰的核苷。
99.根据权利要求98所述的方法,其中所述修饰的核苷是3-甲基胞苷(m3C)、5-甲基胞苷(m5C)、N4-乙酰胞苷(ac4C)、假尿苷(Ψ)、1-甲基腺苷(m1A)、N6-甲基腺苷(m6A)、肌苷(I)、7-甲基鸟苷(m7G)、二氢尿苷(D)、3-甲基尿苷(m3U)、5-甲基尿苷(m5U)、1-甲基鸟苷(m1G)、N2-甲基鸟苷(m2G)、5-甲基脱氧胞苷(m5dC)、N4-甲基脱氧胞苷、5-羟甲基胞苷(5-hmC)、5-羟甲基脱氧胞苷(5hmdC)、5-羧基脱氧胞苷(5cadC)、5-甲酰胞苷(5fC)、5-甲酰脱氧胞苷(5fdC)、6-甲基脱氧腺苷、N7-甲基鸟苷(m7G)、2,7,2’-甲基鸟苷或核糖甲基化(Nm)。
100.根据权利要求97所述的方法,其中所述非常规特征是核酸损伤。
101.根据权利要求100所述的方法,其中所述核酸损伤由氧化过程或与紫外光接触产生。
102.根据权利要求100所述的方法,其中所述核酸损伤由外源试剂形成聚化加合物或碱基烷基化引起。
103.根据权利要求100所述的方法,其中所述损伤是8-氧代鸟嘌呤(8-oxoG)、一个或多个脱碱基位点、顺铂交联、苯并(a)芘二醇环氧化物(BPDE)-加合物、环丁烯嘧啶二聚体(CPD)、嘧啶-嘧啶酮(6-4)光产物(6-4PP)、6-O-甲基鸟嘌呤(O6-MedG)或O6-(羧甲基)-2’-脱氧鸟苷(O6-CMdG)。
104.根据权利要求100所述的方法,其中所述非常规特征是结构元件。
105.根据权利要求104所述的方法,其中所述结构元件是发夹、环、Z-DNA结构、G-四链体、三链体、I-基序、凸起、三链体、三向接合、十字形结构、四环、核糖拉链或假结。
106.根据权利要求97-105中任一项所述的方法,其中所述转移包括将条形码或其互补序列共价连接至靶核酸的5’端或3’端。
107.根据权利要求97-105中任一项所述的方法,其中通过单链连接、夹板连接、夹板延伸、模板延伸或双链连接将核酸条形码转移至靶核酸。
108.根据权利要求97-105中任一项所述的方法,其中通过化学连接将核酸条形码转移至靶核酸。
109.根据权利要求97-108中任一项所述的方法,其中步骤(i)-(iii)重复至少一次。
110.根据权利要求97-109中任一项所述的方法,其中检测条形码的存在包括修饰条形码编码的靶核酸或其条形码编码的拷贝。
111.根据权利要求97-109中任一项所述的方法,其中检测条形码的存在包括扩增条形码编码的靶核酸或其拷贝。
112.根据权利要求97-109中任一项所述的方法,其中检测条形码的存在包括对条形码编码的靶核酸进行测序。
113.一种以接近或处于单碱基分辨率确定靶核酸中非常规特征的位置的方法,所述方法包括:
(i)将靶核酸与权利要求1-28中任一项所述的核酸结合分子接触;
(ii)在基本上防止脱靶产生条形码编码的核酸的环境中,将核酸条形码转移至靶核酸上,以产生条形码编码的靶核酸;和
(iii)检测靶核酸或其拷贝中条形码的存在;
其中所述核酸结合分子包含具有以下一种或多种能力的结合结构域:
(a)在靶核酸中诱导突变;或
(b)防止聚合酶旁路并因此导致靶核酸复制过程中的截短。
114.根据权利要求113所述的方法,其中防止聚合酶旁路包括将所述核酸结合分子与所述靶核酸化学或光化学连接。
115.根据权利要求113所述的方法,其中防止聚合酶旁路包括化学修饰所述结合结构域以在靶核酸复制期间诱导截短。
116.根据权利要求113-115中任一项所述的方法,其中所述非常规特征是修饰的核苷。
117.根据权利要求116所述的方法,其中所述修饰的核苷是3-甲基胞苷(m3C)、5-甲基胞苷(m5C)、N4-乙酰胞苷(ac4C)、假尿苷(Ψ)、1-甲基腺苷(m1A)、N6-甲基腺苷(m6A)、肌苷(I)、7-甲基鸟苷(m7G)、二氢尿苷(D)、3-甲基尿苷(m3U)、5-甲基尿苷(m5U)、1-甲基鸟苷(m1G)、N2-甲基鸟苷(m2G)、5-甲基脱氧胞苷(m5dC)、N4-甲基脱氧胞苷、5-羟甲基胞苷(5-hmC)、5-羟甲基脱氧胞苷(5hmdC)、5-羧基脱氧胞苷(5cadC)、5-甲酰胞苷(5fC)、5-甲酰脱氧胞苷(5fdC)、6-甲基脱氧腺苷、N7-甲基鸟苷(m7G)、2,7,2’-甲基鸟苷或核糖甲基化(Nm)。
118.根据权利要求113-115中任一项所述的方法,其中所述非常规特征是核酸损伤。
119.根据权利要求118所述的方法,其中所述核酸损伤由氧化过程或与紫外光接触引起。
120.根据权利要求118所述的方法,其中所述核酸损伤由外源试剂形成聚化加合物或碱基烷基化引起。
121.根据权利要求118所述的方法,其中所述损伤是8-氧代鸟嘌呤(8-oxoG)、一个或多个脱碱基位点、顺铂交联、苯并(a)芘二醇环氧化物(BPDE)-加合物、环丁烯嘧啶二聚体(CPD)、嘧啶-嘧啶酮(6-4)光产物(6-4PP)、6-O-甲基鸟嘌呤(O6-MedG)或O6-(羧甲基)-2’-脱氧鸟苷(O6-CMdG)。
122.根据权利要求113-115中任一项所述的方法,其中所述非规范特征是结构元件。
123.根据权利要求122所述的方法,其中所述结构元件是发夹、环、Z-DNA结构、G-四链体、三链体、I-基序、凸起、三链体、三向接合、十字形结构、四环、核糖拉链或假结。
124.根据权利要求113-123中任一项所述的方法,其中所述转移包括将条形码或其互补序列共价连接至靶核酸的5’端或3’端。
125.根据权利要求113-123中任一项所述的方法,其中步骤(i)-(iii)重复至少一次。
126.根据权利要求124所述的方法,其中每次重复步骤(i)-(iii)时使用不同的核酸结合分子。
127.根据权利要求124所述的方法,其中每次重复步骤(i)-(iii)时使用相同的核酸结合分子。
128.根据权利要求113-127中任一项所述的方法,其中检测条形码的存在包括修饰条形码编码的靶核酸或其条形码编码的拷贝。
129.根据权利要求113-127中任一项所述的方法,其中检测条形码的存在包括扩增条形码编码的靶核酸或其拷贝。
130.根据权利要求113-127中任一项所述的方法,其中检测条形码的存在包括对条形码编码的靶核酸进行测序。
131.根据权利要求113-127中任一项所述的方法,其中检测条形码的存在包括对核酸和核酸结合分子的衔接子进行测序。
132.根据权利要求113-131中任一项所述的方法,其中将核酸条形码转移至靶核酸包括将条形码或其互补序列共价连接至靶核酸的5’端或3’端。
CN202180091957.XA 2020-11-25 2021-11-24 Rna和dna修饰的多路复用分析 Pending CN116964220A (zh)

Applications Claiming Priority (4)

Application Number Priority Date Filing Date Title
US63/118,409 2020-11-25
US202163193402P 2021-05-26 2021-05-26
US63/193,402 2021-05-26
PCT/US2021/060829 WO2022115608A1 (en) 2020-11-25 2021-11-24 Multiplexed profiling of rna and dna modifications

Publications (1)

Publication Number Publication Date
CN116964220A true CN116964220A (zh) 2023-10-27

Family

ID=88451521

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202180091957.XA Pending CN116964220A (zh) 2020-11-25 2021-11-24 Rna和dna修饰的多路复用分析

Country Status (1)

Country Link
CN (1) CN116964220A (zh)

Similar Documents

Publication Publication Date Title
US20220213533A1 (en) Method for generating double stranded dna libraries and sequencing methods for the identification of methylated
US11965209B2 (en) Method for obtaining structural information concerning an encoded molecule and method for selecting compounds
US10450608B2 (en) Nucleic acid adaptors and uses thereof
US11466307B2 (en) Compositions for RNA-chromatin interaction analysis and uses thereof
JP2019180415A (ja) 混合物中の核酸を配列決定する方法およびそれに関する組成物
US20240117337A1 (en) Methods and polynucleotides for amplifying a target polynucleotide
US20240110222A1 (en) Multiplexed profiling of rna and dna modifications
CN107614700A (zh) 基因型和表型偶联
JP7026248B2 (ja) 二本鎖dnaを増幅するための方法およびキット
US20240002921A1 (en) Rna and dna analysis using engineered surfaces
CN116964220A (zh) Rna和dna修饰的多路复用分析

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination