CN113891893A

CN113891893A - 用于修饰靶分子的组合物和方法

Info

Publication number: CN113891893A
Application number: CN202080037231.3A
Authority: CN
Inventors: M·B·弗朗西斯; M·J·洛巴; J·C·马萨; A·M·马尔梅斯坦因; J·A·多德纳; C·费尔曼; C·S·莫吉列夫斯基
Original assignee: University of California
Current assignee: University of California
Priority date: 2019-03-22
Filing date: 2020-03-19
Publication date: 2022-01-04
Also published as: US20220153779A1; CA3134423A1; EP3941927A1; WO2020197934A1; EP3941927A4; KR20220003506A; AU2020247788A1; JP2022527247A

Abstract

本公开提供了一种用于化学选择性修饰靶分子的方法。主题方法包括使包含硫醇部分的靶分子与包含反应性部分的生物分子接触，其中所述反应性部分通过使包含酚部分或儿茶酚的生物分子与能够氧化所述酚部分或所述儿茶酚部分的酶反应而产生。所述接触在足以使所述靶分子与所述生物分子缀合的条件下进行，从而产生修饰的靶分子。本公开提供了包含含硫醇部分的主题靶分子和含酚部分或儿茶酚部分的生物分子的组合物。本公开提供用于执行主题方法的试剂盒。本公开还提供了修饰的靶分子及其使用方法。

Description

用于修饰靶分子的组合物和方法

交叉引用

本申请要求于2019年3月22日提交的美国临时专利申请第62/822,616号和于2019年10月4日提交的美国临时专利申请第62/910,836号的权益，这些申请全文以引用方式并入本文中。

以引用方式并入作为文本文件提供的序列表

序列表同时提供作为于2020年3月17日创建并且具有8,056KB大小的文本文件“BERK-405WO_SEQ_LISTING_ST25.txt”。该文本文件的内容全文以引用方式并入本文。

关于联邦资助研究的声明

本发明根据国家科学基金会授予的授权号1059083和1808189下的政府资助产生。政府享有本发明的某些权利。

引言

将生物分子偶联至靶分子以产生缀合物，同时保持生物分子和靶分子的功能，长期以来一直是化学生物学和生物制药研究的目标。缀合物的实例包括用于疫苗开发的蛋白质-肽缀合物、抗体-药物和用于免疫治疗的抗体-蛋白质缀合物。

虽然已经开发了许多技术以允许将中等大小的分子附着到蛋白质上，但是开发可以将蛋白质或生物分子以位点特异性方式附着到蛋白质表面上的任何位置的简单的生物分子修饰程序是具有挑战性的。

需要能够以简单但位点特异性的方式修饰靶分子的改进的靶分子修饰程序。

发明内容

本公开提供了一种用于化学选择性修饰靶分子的方法。主题方法包括使包含硫醇部分的靶分子与包含反应性部分的生物分子接触，其中所述反应性部分通过使包含酚部分或儿茶酚的生物分子与能够氧化所述酚部分或所述儿茶酚部分的酶反应而产生。所述接触在足以使所述靶分子与所述生物分子缀合的条件下进行，从而产生修饰的靶分子。本公开提供了包含主题靶分子和生物分子的组合物，所述主题靶分子包含硫醇部分，所述生物分子包含酚部分或儿茶酚部分。本公开提供用于执行主题方法的试剂盒。本公开还提供了修饰的靶分子及其使用方法。

附图说明

当与附图结合阅读下列详细描述时能最佳理解本发明。要强调的是，根据惯例，附图的各种特征不是按比例的。相反，为了清楚起见，各种特征的尺寸被任意扩大或缩小。附图中包括以下图式。应当理解，下面描述的附图仅用于说明目的。附图不旨在以任何方式限制本发明教导的范围。

图1A示出了用酪氨酸酶活化酚和儿茶酚部分以提供醌中间体，随后醌中间体与潜在亲核试剂反应。

图1B示出了靶蛋白与溶剂暴露的硫醇(A)和含酪氨酸/苯酚的偶联配偶体(B)的示例性主题化学选择性修饰反应，以提供共价结合的缀合产物(C)。

图2的A图描绘了显示用α-内啡肽修饰的MS2 N87C以及马来酰亚胺封闭实验的ESI-TOF数据，从而示出了通过蛋白质上的马来酰亚胺封端硫醇通过酪氨酸酶催化反应阻断加成，并且当首先进行酪氨酸酶时，这也阻断马来酰亚胺的反应。该图表明表面半胱氨酸是被修饰的残基。图2的B图描绘了在各种条件下蛋白质-肽缀合物的稳定性研究。在所述条件下将所有样品保存在50mM磷酸盐缓冲液中。

图3示出了在主题方法中相容的包含酚部分的生物分子的示例性实例。

图4示出了显示各种肽与MS2病毒衣壳的含半胱氨酸突变体偶联的ESI-TOF数据。肽由具有酰化N端的以下序列组成：2NLS：Ac-YGPKKKRKVGGSPKKKRKV(SEQ ID NO:943)；IL13：Ac-GYACGEMGWVRCGGSK(SEQ ID NO:944)；R8：Ac-YGRRRRRRRR(SEQ ID NO:945)；以及HIV-Tat：Ac-YGRKKRRQRRRPPQ(SEQ ID NO:946)。

图5的A图示出了显示Cas9(C80，C574)被内啡肽修饰两次的ESI-TOF数据。图5的B图描绘了体外DNA切割分析，证明用肽(末端)修饰的Cas9(RNP)即使在添加指导RNA(apo)之前修饰也保持切割活性。对于每次处理，在浓度梯度上添加RNP以测定靶DNA链上的活性。图5的C图示出了显示成功的Cas9-GFP缀合的ESI-TOF数据。序列如下所示：GYGGS(SEQ ID NO:1021)、MYGGS(SEQ ID NO:1022)。图5的D图描绘了体外切割分析，显示与对照相比，用GFP修饰的Cas9保持活性。序列如下所示：MYGGS(SEQ ID NO:1022)、SGGGGY(SEQ ID NO:1040)。

图6示出了被含有两拷贝SV40核定位序列的肽修饰的Cas9能够进入并编辑神经祖细胞，从而允许编辑效率增加20倍。

图7示出了显示用小分子硫醇修饰含酚的蛋白质的ESI-TOF数据。

图8和图9提供了蘑菇酪氨酸酶氨基酸序列。图8的序列在SEQ ID NO:971中示出。图9的序列在SEQ ID NO:972中示出。

图10A至图10Z和图10AA至图10VV提供了巨大芽孢杆菌(Bacillus megaterium)酪氨酸酶氨基酸序列。图10A至图10Z的序列在SEQ ID NO:973-998中示出。图10AA至图10VV的序列在SEQ ID NO:999-1020中示出。

图11示出了abTYR-肽电荷筛选：使用abTYR将含有5-聚体酪氨酸的肽与Y182C GFP和pAF MS2偶联。使用Q-TOF质谱法分析所得反应混合物。反应条件：50MμM GFP，250μM肽，0.167μM酪氨酸酶，10mM缓冲液pH 6.5，在室温下30分钟，所有反应用10mM托酚酮猝灭。序列如下所示：GGGGY(SEQ ID NO:1024)、RGGGY(SEQ ID NO:1025)、RGRGY(SEQ ID NO:1026)、RRRGY(SEQ ID NO:1027)、RRRRY(SEQ ID NO:1028)、EGGGY(SEQ ID NO:1029)、EGEGY(SEQID NO:1030)、EEEGY(SEQ ID NO:1031)、EEEEY(SEQ ID NO:1032)、GGGWY(SEQ ID NO:1033)、GGWGY(SEQ ID NO:1034)、RRRWY(SEQ ID NO:1035)、RRWRY(SEQ ID NO:1036)、EEEWY(SEQ ID NO:1037)、EEWEY(SEQ ID NO:1038)。

图12A至图12B示出了abTYR和bmTYR模型：由于谷氨酸和天冬氨酸残基的丰度，abTYR(a)在其活性位点周围具有总负电荷(红色残基)。相反，bmTYR(b)在其活性位点周围具有轻微的正电荷(蓝色残基)。

图13示出了bmTYR电荷筛选：使用bmTYR将含有5-聚体酪氨酸的肽与Y182C GFP偶联。使用Q-TOF质谱法分析所得反应混合物，表明bmTYR偏好带负电荷的底物。反应条件：50MμM GFP，250μM肽，0.2μM酪氨酸酶，10mM缓冲液pH 6.5，在37摄氏度下30Min，所有反应用10mM托酚酮猝灭。序列如下所示：GGGGY(SEQ ID NO:1024)、GGGWY(SEQ ID NO:1033)、EEEGY(SEQ ID NO:1031)、RRRGY(SEQ ID NO:1027)。

图14示出了abTYR和bmTYR相对于EGGGY(SEQ ID NO:1029)和EEEEY(SEQ ID NO:1032)肽的比较。反应条件(abTYR)：50MμM GFP，250μM肽，0.167μM酪氨酸酶，10mM缓冲液pH6.5，在室温下30Min。反应条件(bmTYR)：10MμM GFP，50μM肽，0.8μM酪氨酸酶，10mM缓冲液pH6.5，在室温下1H，所有反应用10mM托酚酮猝灭。

图15A至图15C显示了用于蛋白质修饰的氧化偶联策略。a)利用邻醌和邻亚氨基醌以与N端脯氨酸残基和氨基苯基偶联的化学和物理方法。b)酪氨酸酶介导的酚氧化以与N端脯氨酸残基偶联。c)酪氨酸标记蛋白，用于在蛋白N端或C端选择性酪氨酸酶介导产生邻醌，然后与外源胺亲核试剂偶联。

图16A至图16B显示含Tyr的肽与含对氨基苯丙氨酸的MS2(pAF-MS2)的连接。N-Ac-α-内啡肽在其N端具有可接近的酪氨酸残基。该位点可被酪氨酸酶氧化并与pAF-MS2衣壳偶联，所述衣壳含有使用Schultz琥珀密码子抑制方法引入的苯胺基团。序列如下所示：GGFMTSEKSQTPLVT(SEQ ID NO:1039)(b)180个苯胺基团的位置在全病毒衣壳(PDB ID：2MS2)上以粉红色显示。ESI-TOF MS分析显示几乎完全转化为预期产物(预期：15589Da)。未观察到过度修饰。

图17A至图17E示出了双孢蘑菇(A.bisporus)酪氨酸酶介导的与胺亲核试剂的偶联的效率a)C端-GGY标记的曲妥珠单抗scFv用作模型偶联配偶体。b)组成scFv的曲妥珠单抗重链和轻链可变结构域的晶体结构。c)起始scFv-GGY在与150μM苯胺偶联之前和之后的代表性质谱。d)在25μM至750μM的浓度下筛选4-氨基苯基衍生的亲核试剂。e)在100μM至5000μM的浓度下筛选吡咯烷和哌嗪衍生的亲核试剂。通过TOF-LCMS的积分估计转化率。代表性光谱参见支持图X。

图18显示了使用双孢蘑菇酪氨酸酶成功偶联的酪氨酸标记的蛋白质底物。C端以红色突出显示，并且内部酪氨酸残基以橙色突出显示。用酪氨酸酶和苯胺在pH 6.5的磷酸盐缓冲液中进行反应。a)N端标记的泛素。b)C端-(GGGGS)₂GGY标记的sfGFP。(SEQ ID NO:947)c)C端-GGY标记的曲妥珠单抗scFv。序列如下所示：SGGGGY(SEQ ID NO:1040)。

图19A至图19C显示了荧光团偶联的曲妥珠单抗scFv结合SKBR3(HER2+)细胞的流式细胞术研究。a)GGY标记的scFv与12U/L双孢蘑菇酪氨酸酶和50μM苯胺-俄勒冈绿488的氧化偶联。b)ESI TOF-MS表明scFv-GGY以85％的转化率偶联。未标记形式的scFv是未修饰的。

图20A至图20B显示了C端接头的探索和巨大芽孢杆菌(B.Megaterium)酪氨酸酶的效用。a)将各种类型和长度的接头附加到蛋白L的C端，包括利用结构域4和5的天然域间接头序列的两个接头。对蛋白L变体进行与巨大芽孢杆菌酪氨酸酶的标准偶联反应。序列在SEQ ID NO:1041中示出。b)在用巨大芽孢杆菌酪氨酸酶处理后通过TOF-LCMS观察到转化。这些变体都不能被双孢蘑菇酪氨酸酶修饰。序列如下所示：(G₄S)₂GGY(SEQ ID NO:947)、(G₄S)₃GGY(SEQ ID NO:1042)、A(EAAAK)₂AGGY(SEQ ID NO:1043)、(AP)₃GGY(SEQ ID NO:1044)、AN₂₀GGY(SEQ ID NO:1045)、EIKRTGGY(SEQ ID NO:1046)、G₄SGGY(SEQ ID NO:968)。

图21A至图21C示出了C端酪氨酸标记的MBP的巨大芽孢杆菌介导的氧化偶联。a)C端以红色突出显示的MBP的晶体结构。酪氨酸残基以橙色显示。结合麦芽糖以黄色显示。b)与MBP-SSGGGGY(SEQ ID NO:948)的数据；c)与MBP-GGY的数据。

图22A至图22D显示了使用蛋白-L-O.G.488缀合物“二级”亲和试剂检测HER2+细胞。a)检测方案：非酪氨酸标记的曲妥珠单抗scFv结合至HER2+SK-BR-3细胞并被O.G.488修饰的蛋白-L识别。b)使用25μM O.G.488-苯胺与巨大芽孢杆菌酪氨酸酶由-AN20GGY封端的蛋白-L变体制备二级亲和试剂。c)修饰前后的蛋白-L-AN20GGY的质谱。d)根据上述方案处理的SK-BR-3细胞和阴性对照的流式细胞术荧光数据。MDA-MB-468细胞用作HER2-对照。序列如下所示：AN₂₀GGY(SEQ ID NO:1045)。

图23显示了经受氧化偶联条件的C端-GGY酪氨酸标记的和未标记的曲妥珠单抗scFv。12U/mL abTYR、150μM苯胺、20mM磷酸钠缓冲液、pH 6.5、1小时。

图24A至图24D显示了abTyr和苯胺浓度在-GGY标记的曲妥珠单抗scFv转化时的变化。a)反应方案b)代表性质谱：具有可变abTYR浓度的1000M苯胺c)表列的曲妥珠单抗(“Tras.”)scFv-GGY向苯胺偶联产物的转化率％。d)Tras.scFv-GGY向苯胺偶联产物转化的图形表示。

图25显示了后期亲核试剂加成实验。在酪氨酸酶之后5、10、20、40或60分钟将苯胺添加至abTYR介导的氧化偶联中。

图26显示了与4-氨基苯基衍生的亲核试剂的氧化偶联反应的代表性光谱。a)邻甲苯胺，b)2,6-二甲基苯胺，c)4-氨基苯基-N-甲基酰胺。

图27显示了氧化偶联反应的代表性光谱。

图28显示了蛋白L变体的氧化偶联反应。序列如下所示：(G₄S)₂GGY(SEQ ID NO:947)；(G₄S)₃GGY(SEQ IDNO:1042)、A(EAAAK)₂AGGY(SEQ ID NO:1043)、(AP)₃GGY(SEQ IDNO:1044)。

图29A至图29B显示了在4℃下储存的蛋白质储存缓冲液(20mM Na₂HPO₄，150mMNaCl，含有15％甘油，pH 7.4)加10mM二硫苏糖醇(DTT)中的曲妥珠单抗scFv-GGY的稳定性研究。各柱中的TOF-LCMS光谱来自在指定时间点取样的相同等分蛋白质。用于未偶联和偶联蛋白的二硫化物还原的scFv-GGY的计算质量分别为26,337.2Da和26,442.2Da。苯胺偶联+还原+DTT＝26,594.45Da a)进行abTYR介导的与苯胺的氧化偶联。b)不进行氧化偶联反应。

图30A至图30B显示了在4℃下储存的蛋白质储存缓冲液(20mM Na2HPO4，150mMNaCl，含有15％甘油，pH 7.4)中的曲妥珠单抗scFv-GGY的稳定性研究。各柱中的TOF-LCMS光谱来自在指定时间点取样的相同等分蛋白质。用于未偶联和偶联蛋白的二硫化物还原的scFv-GGY的计算质量分别为26,337.2Da和26,442.2Da。a)进行abTYR介导的与苯胺的氧化偶联并交换到蛋白质储存缓冲液中。b)不进行氧化偶联反应。

图31A至图31B显示了在4℃下储存的蛋白质储存缓冲液(20mM Na₂HPO₄，150mMNaCl，含有15％甘油，pH 7.4)加10mM谷胱甘肽中的曲妥珠单抗scFv-GGY的稳定性研究。各柱中的TOF-LCMS光谱来自在指定时间点取样的相同等分蛋白质。用于未偶联和偶联蛋白的二硫化物还原的scFv-GGY的计算质量分别为26,337.2Da和26,442.2Da。苯胺偶联+还原+1x谷胱甘肽＝26,747.58Da；苯胺偶联+还原+2x谷胱甘肽＝27,052.89Da a)进行abTYR介导的与苯胺的氧化偶联。b)不进行氧化偶联反应。

图32显示了氧化偶联反应产物中硫醇交换的研究。将曲妥珠单抗scFv-GGY交换到蛋白质储存缓冲液(20mM Na₂HPO₄，150mM NaCl，含有15％甘油，pH 7.4)加10mM谷胱甘肽中，并在4℃下储存。在24小时后，对一部分样品进行TOF-LCMS分析，并将剩余部分交换到蛋白质储存缓冲液加10mM DTT中，并在4℃下再储存24小时。然后对第二个样品进行TOF-LCMS分析。

图33显示了蛋白质构建体的平均质量。序列如下所示：GGGGSGGY(SEQ ID NO:968)；(GGGGS)₂GGY(SEQ ID NO:947)；(AP)₄GGY(SEQ ID NO:1061)；AN₂₀GGY(SEQ ID NO:1045)、SSGGGGY(SEQ ID NO:948)、(GGGGS)₃GGY(SEQ ID NO:1042)、AEAAAKEAAAKAGGY(SEQID NO:1043)、(AP)₃GGY(SEQ ID NO:1044)、EIKRTGGY(SEQ ID NO:1046)、GGGGSGGY(SEQ IDNO:968)。

图34A至图34E提供了蛋白质构建体的氨基酸序列。图34A至图34E的序列在SEQ IDNO:1049-1053中示出。

图35描绘了巨大芽孢杆菌酪氨酸酶(bmTYR)的D55K突变体将苯酚标记的核酸偶联到含半胱氨酸的蛋白质上的用途。

图36A至图36C描绘了使用本公开的方法将核酸偶联至多肽。

图37A至图37C描绘了bmTYR的各种突变对其对带电底物的偏好的影响。

图38描绘了abTYR在活化带负电荷的底物上缺乏活性。

图39A至图39G示意性地描绘了使用本公开的方法的蛋白质连接。

图40A至图40C描绘了靶分子-生物分子缀合物在人血清中的稳定性。

图41描绘了Cas9与以下各项的偶联：i)Ig Fc多肽；ii)并且使用本公开的方法与纳米抗体偶联。

图42描绘了Cas9-纳米抗体缀合物的飞行时间质谱数据。

图43A至图43B描绘了：i)直接标记活哺乳动物细胞表面的方法(图43A)；和ii)使用本公开的方法将多肽偶联至细胞表面。

图44A至图44B描绘了其中靶分子包括两个硫醇部分的反应。

定义

在进一步描述本发明之前，应当理解，本发明不限于所述的特定实施方案，因而当然可以改变。还应当理解，本文所用的术语仅用于描述特定实施方案的目的，而不是旨在进行限制，因为本发明的范围将仅由所附权利要求书限制。

在提供数值范围时，应该理解在所述范围的上下限之间的每个中间值(除非上下文另外清楚地指出，否则所述中间值达到下限单位的十分之一)和任何其他说明的或在所述说明范围中的中间值涵盖在本发明内。这些较小范围的上限和下限可独立地包括在较小范围内并且也涵盖在本发明内，以规定范围内任何明确排除的限值为条件。当规定范围包括一个或两个限值时，排除了那些所包括的限值中的任一个或两个的范围也包括在本发明中。

除非另外定义，否则本文所用的所有技术和科学术语均具有与本发明所属领域的普通技术人员通常所理解的相同含义。尽管与本文所述的那些类似或等同的任何方法和材料也可用于本发明的实践或测试，但现在描述优选的方法和材料。本文提及的所有出版物以引用方式并入本文，以结合所引用的出版物公开并描述方法和/或材料。

必须注意，如本文和所附权利要求书中所用，除非上下文另外明确指出，否则单数形式“一(a/an)”和“所述(the)”包括复数指代物。因此，例如，提及“硫醇基团”包括多个此类硫醇基团并且提及“所述硫醇基团”包括提及一个或多个硫醇基团和其本领域技术人员已知的等效物，等。还应当注意，权利要求书可被起草以排除任何任选元素。因而，这种陈述意图充当结合权利要求要素的叙述来使用诸如“仅仅”、“仅”等排他性术语或使用“否定”限制的前提基础。

应当理解，为了清楚起见在单独的实施方案的上下文中描述的本发明的某些特征也可在单个实施方案中组合提供。相反，为了简洁起见，在单个实施方案的上下文中描述的本发明的各种特征也可单独地或以任何合适的子组合提供。本发明特别地涵盖与本发明有关的实施方案的所有组合，并且在此公开，就如同单独地和明确地公开了每个组合一样。另外，本发明也特别地涵盖各种实施方案和其元素的所有子组合，并且在此公开，就如同每个此类子组合单独地和明确地在此公开一样。

本文所讨论的出版物仅提供其在本申请的提交日期之前的公开内容。本文的任何内容均不应解释为承认本发明无权凭借在先发明而先于此类出版物。此外，所提供的出版日期可能与实际出版日期不同，这可能需要独立地确认。

如本文所用，术语“亲和标签”是指特异性结合对的成员，即两个分子，其中一个分子通过化学或物理方式与另一个分子特异性结合。亲和标签的互补成员可以被固定(例如，固定到层析载体、珠子或平坦表面)以产生特异性结合亲和标签的亲和层析载体。用亲和标签标记感兴趣的化合物允许通过亲和，例如使用亲和色谱法，从未标记化合物的混合物中分离化合物。特异性结合对的实例包括生物素和链霉亲和素(或抗生物素蛋白)，以及抗原和抗体，尽管也设想了结合对，例如核酸杂合体、多组氨酸和镍，以及叠氮基和炔基(例如环辛炔基)或膦基。特异性结合对可包括原始特异性结合成员的类似物、衍生物和片段。

如本文所用，术语“生物素部分”是指包括生物素或生物素类似物如脱硫生物素、氧生物素、2'-亚氨基生物素、二氨基生物素、生物素亚砜、生物胞素等的亲和标签。生物素部分以至少10^-8M的亲和力结合至链霉亲和素。生物素部分还可包括接头，例如─LC-生物素、─LC-LC-生物素、─SLC-生物素或─PEG_n ¹-生物素，其中n¹是3-12。

“连接基团”、“接头部分”等中的“连接”或“接头”是指通过共价键连接两个基团的连接部分。接头可以是直链、支链、环状或单个原子。此类连接基团的实例包括烷基、亚烯基、亚炔基、亚芳基、亚烷芳基、亚芳烷基和含有官能团的连接部分，所述官能团包括但不限于：酰氨基(-NH-CO-)、亚脲基(-NH-CO-NH-)、酰亚胺基(-CO-NH-CO-)、环氧基(-O-)、环硫(-S-)、环二氧基(-O-O-)、环二硫(-S-S-)、羰基二氧基(-O-CO-O-)、烷基二氧基(-O-(CH2)n-O-)、环氧亚氨基(-O-NH-)、环亚胺基(-NH-)、羰基(-CO-)等。在某些情况下，接头主链的一个、两个、三个、四个或五个或更多个碳原子可以任选地被硫、氮或氧杂原子取代。主链原子之间的键可以是饱和的或不饱和的，通常不超过一个、两个或三个不饱和键将存在于接头主链中。接头可包含一个或多个取代基，例如具有烷基、芳基或烯基。接头可包括但不限于聚(乙二醇)单元(例如，-(CH₂-CH₂-O)-)；醚、硫醚、胺、烷基(例如(C₁-C₁₂)烷基)，其可以是直链或支链的，例如甲基、乙基、正丙基、1-甲基乙基(异丙基)、正丁基、正戊基，1,1-二甲基乙基(叔丁基)等。接头主链可包括环状基团，例如芳基、杂环或环烷基，其中在主链中包含环状基团的2个或更多个原子，例如2个、3个或4个原子。接头可以是可切割的或不可切割的。可以使用接头与连接基团的任何方便的取向和/或连接。

“烷基”是指具有1至10个碳原子，例如1至6个碳原子的单价饱和脂族烃基。该术语包括例如直链和支链烃基，例如甲基(CH₃-)、乙基(CH₃CH₂-)、正丙基(CH₃CH₂CH₂-)、异丙基((CH₃)₂CH-)、正丁基(C H₃CH₂CH₂CH₂-)、异丁基((CH₃)₂CHCH₂-)、仲丁基((CH₃)(CH₃CH₂)CH-)、叔丁基((CH₃)₃C-)、正戊基(CH₃CH₂CH₂CH₂CH₂-)和新戊基((CH₃)₃CCH₂-)。

术语“取代的烷基”是指如上定义的烷基，其中烷基链中的一个或多个碳原子(除了C₁碳原子)任选被杂原子诸如-O-、-N-、-S-、-S(O)_n ²-(其中n²为0至2)、-NR-(其中R为氢或烷基)取代，并具有1至5个选自由以下构成的组的取代基：烷氧基、取代的烷氧基、环烷基、取代的环烷基、环烯基、取代的环烯基、酰基、酰基氨基、酰基氧基、氨基、氨基酰基、氨基酰基氧基、氧基氨基酰基、叠氮基、氰基、卤素、羟基、氧代、硫代酮基、羧基、羧基烷基、硫代芳基氧基、硫代杂芳基氧基、硫代杂环氧基、巯基、硫代烷氧基、取代的硫代烷氧基、芳基、芳基氧基、杂芳基、杂芳基氧基、杂环基、杂环氧基、羟基氨基、烷氧基氨基、硝基、-SO-烷基、-SO-芳基、-SO-杂芳基、-SO₂-烷基、-SO₂-芳基、-SO₂-杂芳基和-NR^aR^b，其中R’和R”可以相同或不同，并且选自氢、任选取代的烷基、环烷基、烯基、环烯基、炔基、芳基、杂芳基和杂环基。

“芳基”或“Ar”是指具有单环(如存在于苯基中)或具有多个稠环的环系(此类芳族环系的实例包括萘基、蒽基和茚满基)的具有6至18个碳原子的单价芳族碳环基团，所述稠环可以是或可以不是芳族的，条件是连接点通过芳环的原子。该术语包括例如苯基和萘基。除非在芳基取代基的定义上另有限制，否则此类芳基可任选被1至5个取代基或1至3个取代基取代，所述取代基选自酰基氧基、羟基、巯基、酰基、烷基、烷氧基、烯基、炔基、环烷基、环烯基、取代的烷基、取代的烷氧基、取代的烯基、取代的炔基、取代的环烷基、取代的环烯基、氨基、取代的氨基、氨基酰基、酰基氨基、烷芳基、芳基、芳基氧基、叠氮基、羧基、羧基烷基、氰基、卤素、硝基、杂芳基、杂芳基氧基、杂环基、杂环氧基、氨基酰氧基、氧基酰基氨基、硫代烷氧基、取代的硫代烷氧基、硫代芳基氧基、硫代杂芳基氧基、-SO-烷基、-SO-取代的烷基、-SO-芳基、-SO-杂芳基、-SO₂-烷基、-SO₂-取代的烷基、-SO₂-芳基、-SO₂-杂芳基和三卤代甲基。

“氨基”是指基团–NH₂。

术语“取代的氨基”是指基团-NRR，其中每个R独立地选自由以下构成的组：氢、烷基、取代的烷基、环烷基、取代的环烷基、烯基、取代的烯基、环烯基、取代的环烯基、炔基、取代的炔基、芳基、杂芳基和杂环基，条件是至少一个R不是氢。

除了本文的公开内容之外，术语“取代的”当用于修饰指定的基团(group/radical)时，还可以意指指定基团的一个或多个氢原子各自彼此独立地被如下定义的相同或不同的取代基取代。

除本文中关于各个术语公开的基团外，除非另有说明，否则用于取代指定基团中的饱和碳原子上的一个或多个氢(单个碳上的任何两个氢可被＝O、＝NR⁷⁰、＝N-OR⁷⁰、＝N₂或＝S置换)的取代基为-R⁶⁰、卤代基、＝O、-OR⁷⁰、-SR⁷⁰、-NR⁸⁰R⁸⁰、三卤代甲基、-CN、-OCN、-SCN、-NO、-NO₂、＝N₂、-N₃、-SO₂R⁷⁰、-SO₂O^–M⁺、-SO₂OR⁷⁰、-OSO₂R⁷⁰、-OSO₂O^–M⁺、-OSO₂OR⁷⁰、-P(O)(O^–)₂(M⁺)₂、-P(O)(OR⁷⁰)O^–M⁺、-P(O)(OR⁷⁰)₂、-C(O)R⁷⁰、-C(S)R⁷⁰、-C(NR⁷⁰)R⁷⁰、-C(O)O^–M⁺、-C(O)OR⁷⁰、-C(S)OR⁷⁰、-C(O)NR⁸⁰R⁸⁰、-C(NR⁷⁰)NR⁸⁰R⁸⁰、-OC(O)R⁷⁰、-OC(S)R⁷⁰、-OC(O)O^-M⁺、-OC(O)OR⁷⁰、-OC(S)OR⁷⁰、-NR⁷⁰C(O)R⁷⁰、-NR⁷⁰C(S)R⁷⁰、-NR⁷⁰CO₂ ^–M⁺、-NR⁷⁰CO₂R⁷⁰、-NR⁷⁰C(S)OR⁷⁰、-NR⁷⁰C(O)NR⁸⁰R⁸⁰、-NR⁷⁰C(NR⁷⁰)R⁷⁰和-NR⁷⁰C(NR⁷⁰)NR⁸⁰R⁸⁰，其中R⁶⁰选自由以下构成的组：任选取代的烷基、环烷基、杂烷基、杂环烷基烷基、环烷基烷基、芳基、芳基烷基、杂芳基和杂芳基烷基，每个R⁷⁰独立地是氢或R⁶⁰；每个R⁸⁰独立地是R⁷⁰或另选地两个R⁸⁰与其所键合的氮原子一起形成5元、6元或7元杂环烷基，所述杂环烷基可任选地包括1至4个相同或不同的选自由O、N和S构成的组的杂原子，其中N可具有-H或C₁-C₃烷基取代；并且每个M⁺是具有净单一正电荷的抗衡离子。每个M⁺可独立地是例如碱离子，如K⁺、Na⁺、Li⁺；铵离子，如⁺N(R⁶⁰)₄；或碱土金属离子，如[Ca²⁺]_0.5、[Mg²⁺]_0.5或[Ba²⁺]_0.5(“下标0.5”意指此类二价碱土金属离子的抗衡离子中的一者可以是本发明化合物的离子化形式并且另一者为典型抗衡离子，如氯离子，或本文所公开的两种离子化化合物可充当此类二价碱土金属离子的抗衡离子，或本发明的双离子化化合物可充当此类二价碱土金属离子的抗衡离子)。作为具体实例，-NR⁸⁰R⁸⁰意指包括-NH₂、-NH-烷基、N-吡咯烷基、N-哌嗪基、4N-甲基-哌嗪-1-基和N-吗啉基。

除本文的公开内容以外，除非另有说明，否则“取代的”烯烃、炔烃、芳基和杂芳基中的不饱和碳原子上的氢的取代基是-R⁶⁰、卤代基、-O^-M⁺、-OR⁷⁰、-SR⁷⁰、-S^–M⁺、-NR⁸⁰R⁸⁰、三卤代甲基、-CF₃、-CN、-OCN、-SCN、-NO、-NO₂、-N₃、-SO₂R⁷⁰、-SO₃ ^–M⁺、-SO₃R⁷⁰、-OSO₂R⁷⁰、-OSO₃ ^–M⁺、-OSO₃R⁷⁰、-PO₃ ^-2(M⁺)₂、-P(O)(OR⁷⁰)O^–M⁺、-P(O)(OR⁷⁰)₂、-C(O)R⁷⁰、-C(S)R⁷⁰、-C(NR⁷⁰)R⁷⁰、-CO₂ ^–M⁺、-CO₂R⁷⁰、-C(S)OR⁷⁰、-C(O)NR⁸⁰R⁸⁰、-C(NR⁷⁰)NR⁸⁰R⁸⁰、-OC(O)R⁷⁰、-OC(S)R⁷⁰、-OCO₂ ^–M⁺、-OCO₂R⁷⁰、-OC(S)OR⁷⁰、-NR⁷⁰C(O)R⁷⁰、-NR⁷⁰C(S)R⁷⁰、-NR⁷⁰CO₂ ^–M⁺、-NR⁷⁰CO₂R⁷⁰、-NR⁷⁰C(S)OR⁷⁰、-NR⁷⁰C(O)NR⁸⁰R⁸⁰、-NR⁷⁰C(NR⁷⁰)R⁷⁰和-NR⁷⁰C(NR⁷⁰)NR⁸⁰R⁸⁰，其中R⁶⁰、R⁷⁰、R⁸⁰和M⁺如前述所定义，条件是在取代的烯烃或炔烃的情况下，取代基不是-O^-M⁺、-OR⁷⁰、-SR⁷⁰或-S^–M⁺。

除关于本文各个术语公开的基团以外，除非另有说明，否则“取代的”杂烷基和环杂烷基中的氮原子上的氢的取代基是-R⁶⁰、-O^-M⁺、-OR⁷⁰、-SR⁷⁰、-S^-M⁺、-NR⁸⁰R⁸⁰、三卤代甲基、-CF₃、-CN、-NO、-NO₂、-S(O)₂R⁷⁰、-S(O)₂O^-M⁺、-S(O)₂OR⁷⁰、-OS(O)₂R⁷⁰、-OS(O)₂O^-M⁺、-OS(O)₂OR⁷⁰、-P(O)(O^-)₂(M⁺)₂、-P(O)(OR⁷⁰)O^-M⁺、-P(O)(OR⁷⁰)(OR⁷⁰)、-C(O)R⁷⁰、-C(S)R⁷⁰、-C(NR⁷⁰)R⁷⁰、-C(O)OR⁷⁰、-C(S)OR⁷⁰、-C(O)NR⁸⁰R⁸⁰、-C(NR⁷⁰)NR⁸⁰R⁸⁰、-OC(O)R⁷⁰、-OC(S)R⁷⁰、-OC(O)OR⁷⁰、-OC(S)OR⁷⁰、-NR⁷⁰C(O)R⁷⁰、-NR⁷⁰C(S)R⁷⁰、-NR⁷⁰C(O)OR⁷⁰、-NR⁷⁰C(S)OR⁷⁰、-NR⁷⁰C(O)NR⁸⁰R⁸⁰、-NR⁷⁰C(NR⁷⁰)R⁷⁰和-NR⁷⁰C(NR⁷⁰)NR⁸⁰R⁸⁰，其中R⁶⁰、R⁷⁰、R⁸⁰和M⁺如前述所定义。

除了本文的公开内容以外，在某些实施方案中，被取代的基团具有1、2、3或4个取代基，1、2或3个取代基，1或2个取代基，或1个取代基。

据了解，在以上定义的所有取代的基团中，通过定义具有针对本身的其他取代基的取代基(例如，具有本身被取代的芳基取代的取代的芳基作为取代基的取代的芳基，其进一步被取代的芳基取代等)得到的聚合物不意图包括在本文中。在这种情况下，此类取代的最大数目是三。例如，本文具体考虑的取代的芳基的连续取代限于取代的芳基-(取代的芳基)-取代的芳基。

关于含有一个或多个取代基的任何本文公开的基团，当然应理解，此类基团不包含任何在空间上不切实际和/或在合成上不可行的取代或取代模式。另外，主题化合物包括由这些化合物的取代产生的所有立体化学异构体。

在某些实施方案中，取代基可有助于化合物的光学异构和/或立体异构。化合物的盐、溶剂化物、水合物和前药形式也是感兴趣的。本公开包括所有此类的形式。因此，本文所述的化合物包括其盐、溶剂化物、水合物、前药和异构体形式，包括其药学上可接受的盐、溶剂化物、水合物、前药和异构体。在某些实施方案中，化合物可以代谢成药物活性衍生物。

除非另有说明，否则提及原子是指包括该原子的同位素。例如，提及H是指包括¹H、²H(即，D)和³H(即，T)，并且提及C是指包括¹²C和碳的所有同位素(如¹³C)。

如本文所用，术语“可裂解的接头”或“可裂解地连接的”是指使用刺激(例如，物理、化学或酶刺激)可选择性断裂的接头或键，所述刺激使键所连接的部分保持完整。文献中已经描述了几种可裂解的键(例如，Brown(1997)Contemporary Organic Synthesis 4(3)；216-237)。和Guillier等人(Chem.Rev.2000 1000:2091-2157)。二硫键(其可被DDT断裂)和光可裂解接头是可裂解的键的实例。

术语“荧光团”是指能够吸收第一波长的能量并在不同的第二波长重新发射能量的任何分子实体。在某些实施方案中，主题生物分子包括连接到生物分子一端或中心位置的荧光团。在一些实施方案中，荧光团可连接到生物分子的一端。连接到生物分子的荧光团不必是单个分子，而可以包括多个分子。

如本领域技术人员已知，荧光团在性质上可以是合成的或生物的。更一般地，可以使用在偶联条件下稳定并且当紧密接近猝灭剂时可以被充分抑制的任何荧光团，使得荧光团的荧光强度的显著变化响应于与探针特异性结合的靶标是可检测的。合适的荧光团的实例包括但不限于俄勒冈绿488染料、若丹明和若丹明衍生物、异硫氰酸荧光素、荧光素、6-羧基荧光素(6-FAM)、香豆素和香豆素衍生物、花青和花青衍生物、Alexa Fluors、DyLightFluors等。

在某些实施方案中，生物分子包括金属螯合剂。本文所用的关于金属和螯合配体之间的络合物的“螯合物”是指与一个或多个配体键合以形成杂环结构的金属离子的组合。通过中和金属离子的正电荷形成螯合物可以通过离子键、共价键或配位共价键形成。在某些实施方案中，金属螯合剂包括但不限于1,4,7,10-四氮杂环十二烷-1,4,7,10-四乙酸(也称为DOTA或tetraxetan)。

在本文中可互换使用的术语“多核苷酸”和“核酸”是指任何长度的核苷酸(核糖核苷酸或脱氧核糖核苷酸)的聚合形式。因此，该术语包括但不限于单链、双链或多链DNA或RNA、基因组DNA、cDNA、DNA-RNA杂交体、或包含嘌呤和嘧啶碱基或其他天然的、经化学或生物化学修饰的、非天然或衍生的核苷酸碱基的聚合物。

本文中可互换使用的术语“多肽”和“蛋白质”是指任何长度的氨基酸的聚合形式，其可包括编码和非编码氨基酸、化学或生物化学修饰的或衍生的氨基酸以及具有修饰的肽骨架的多肽。术语“融合蛋白”或其语法等同物是指包括由多种多肽组分组成的蛋白质，所述多肽组分在其天然状态下通常不连接，但通常通过肽键由其各自的氨基和羧基末端连接以形成单一连续的多肽。融合蛋白可以是两种、三种或甚至四种或更多种不同蛋白的组合。

一般来讲，多肽可以具有任何长度，例如2个或更多个氨基酸、大于4个氨基酸、大于约10个氨基酸、大于约20个氨基酸、大于约50个氨基酸、大于约100个氨基酸，大于约300个氨基酸，通常至多约500或1000个或更多个氨基酸。“肽”通常长度为2个或更多个氨基酸，例如大于4个氨基酸、大于约10个氨基酸、大于约20个氨基酸，通常至多约50个氨基酸。在一些实施方案中，肽的长度为2至30个氨基酸。

如本文所用，术语“靶蛋白”是指靶家族的所有成员，和其片段和对映异构体，以及其蛋白质模拟物。除非另有明确说明，否则本文所述的感兴趣的靶蛋白旨在包括靶家族的所有成员，和其片段和对映异构体，以及其蛋白质模拟物。靶蛋白可以是任何感兴趣的蛋白，例如治疗或诊断靶，包括但不限于：激素、生长因子、受体、酶、细胞因子、骨诱导因子、集落刺激因子和免疫球蛋白。术语“靶蛋白”旨在包括可以使用任何方便的重组表达方法或使用任何方便的合成方法制备，或商业购买的重组和合成分子，以及含有靶分子的融合蛋白。

术语“生理条件”意指涵盖与活细胞相容的那些条件，例如与活细胞相容的温度、pH、盐度等的主要水性条件。

“固体载体”、“载体”和“固相载体”可互换使用，并且是指具有一个或多个刚性或半刚性表面的材料或材料组。在许多实施方案中，固体载体的至少一个表面将是基本上平坦的，尽管在一些实施方案中，可能期望用例如孔、凸起区域、针、蚀刻沟槽等物理分离不同化合物的合成区域。根据其他实施方案，固体载体将采取珠、树脂、凝胶、微球或其他几何构型的形式。

术语“抗体”和“免疫球蛋白”包括任何同种型的抗体或免疫球蛋白、保留与抗原特异性结合的抗体片段，包括但不限于Fab、Fv、scFv和Fd片段、嵌合抗体、人源化抗体、单链抗体(scAb)、单结构域抗体(dAb)、单结构域重链抗体、单结构域轻链抗体、纳米抗体、双特异性抗体、多特异性抗体以及包含抗体的抗原结合(在本文中也称为抗原结合)部分和非抗体蛋白的融合蛋白。抗体可以被可检测地标记，例如用放射性同位素、产生可检测产物的酶、荧光蛋白等。抗体可以进一步与其他部分缀合，如特异性结合对的成员，例如生物素(生物素-抗生物素蛋白特异性结合对的成员)等。抗体也可以结合至固体载体，包括但不限于聚苯乙烯板或珠等。该术语还涵盖Fab'、Fv、F(ab’)₂和/或保持与抗原特异性结合的其他抗体片段以及单克隆抗体。如本文所用，单克隆抗体是由一组相同细胞产生的抗体，所有这些细胞都是通过重复的细胞复制从单个细胞产生的。即，细胞克隆仅产生单一抗体种类。虽然可以使用杂交瘤生产技术生产单克隆抗体，但是也可以使用本领域技术人员已知的其他生产方法(例如，来源于抗体噬菌体展示库的抗体)。抗体可以是单价或二价的。抗体可以是Ig单体，其为由四条多肽链组成的“Y形”分子：通过二硫键连接的两条重链和两条轻链。

本文所用的术语“人源化免疫球蛋白”是指包含不同来源的免疫球蛋白部分的免疫球蛋白，其中至少一部分包含人类来源的氨基酸序列。例如，人源化抗体可包含源自具有所需特异性的非人类来源的免疫球蛋白(例如小鼠)和来源于人类来源的免疫球蛋白序列(例如嵌合免疫球蛋白)的部分，通过常规技术(例如合成)化学连接在一起或使用基因工程技术制备为连续多肽(例如编码嵌合抗体的蛋白质部分的DNA可被表达以产生连续多肽链)。人源化免疫球蛋白的另一个实例是含有一条或多条免疫球蛋白链的免疫球蛋白，所述一条或多条免疫球蛋白链包含来源于非人类来源的抗体的互补决定区(CDR)和来源于人类来源的轻链和/或重链的构架区(例如，具有或不具有构架改变的CDR移植抗体)。术语人源化免疫球蛋白也涵盖嵌合或CDR移植的单链抗体。参见例如Cabilly等人，美国专利第4,816,567号；Cabilly等人，欧洲专利第0,125,023B1号；Boss等人，美国专利第4,816,397号；Boss等人，欧洲专利第0,120,694B1号；Neuberger,M.S.等人，WO 86/01533；Neuberger,M.S.等人，欧洲专利第0,194,276B1号；Winter，美国专利第5,225,539号；Winter，欧洲专利第0,239,400B1号；Padlan,E.A.等人，欧洲专利申请第0,519,596A1号。关于单链抗体，还参见Ladner等人，美国专利第4,946,778号；Huston，美国专利第5,476,786号；以及Bird,R.E.等人,Science,242:423-426(1988))。

如本文所用，术语“纳米抗体”(Nb)是指来源于天然存在的重链抗体的最小抗原结合片段或单可变结构域(V_HH)，并且是本领域技术人员已知的。它们来源于见于骆驼科动物中的仅有重链的抗体(Hamers-Casterman等人,(1993)Nature 363:446；Desmyter等人,(1996)Nature Struct.Biol.3:803)。在“骆驼科动物”家族中，发现了没有轻多肽链的免疫球蛋白。“骆驼科动物”包括旧世界骆驼科动物(双峰驼和单峰驼)和新世界骆驼科动物(例如，羊驼(Llama paccos)、大羊驼(Llama glama)、原驼(Llama guanicoe)和骆马(Llamavicugna))。单可变结构域重链抗体在本文中称为纳米抗体或V_HH抗体。

“抗体片段”包括完整抗体的一部分，例如完整抗体的抗原结合区或可变区。抗体片段的实例包括Fab、Fab'、F(ab')₂和Fv片段；双抗体；线性抗体(Zapata等人,ProteinEng.8(10):1057-1062(1995))；结构域抗体(dAb；Holt等人(2003)Trends Biotechnol.21:484)；单链抗体分子；以及由抗体片段形成的多特异性抗体。木瓜蛋白酶消化抗体产生两个相同的抗原结合片段，称为“Fab”片段，每个片段都有单个抗原结合位点；以及残留的“Fc”片段，这一名称反映了容易结晶的能力。胃蛋白酶处理产生具有两个抗原结合位点并且仍然能够交联抗原的F(ab')₂片段。

“Fv”是包含有完整抗原识别位点和结合位点的最小抗体片段。该区域由紧密、非共价缔合的一个重链可变结构域和一个轻链可变结构域的二聚体组成。正是在这种构型中，每个可变结构域的三个CDRS相互作用以在V_H-V_L二聚体的表面上界定抗原结合位点。六个CDR共同赋予抗体抗原结合特异性。然而，即使单个可变结构域(或仅包含三个对抗原特异的CDR的Fv的一半)也具有识别且结合抗原的能力，尽管亲和力低于整个结合位点。

“Fab”片段也包含轻链的恒定结构域和重链的第一恒定结构域(CH₁)。Fab片段与Fab'片段的不同之处在于其在重链CH₁结构域的羧基末端添加了几个残基，包括来自抗体铰链区的一个或多个半胱氨酸。Fab'-SH在本文中称为Fab'，其中恒定结构域的半胱氨酸残基带有游离硫醇基团。F(ab')₂抗体片段起初以Fab'片段对的形式产生，所述Fab'片段对在Fab'片段之间具有铰链半胱氨酸。抗体片段的其他化学偶联物也是已知的。

来自任何脊椎动物物种的抗体(免疫球蛋白)的“轻链”可基于其恒定结构域的氨基酸序列而归属于两种明显不同类型中的一种，称为κ和λ。根据其重链恒定结构域的氨基酸序列，免疫球蛋白可归属于不同的类别。有五种主要类别的免疫球蛋白：IgA、IgD、IgE、IgG和IgM，并且可以将这些类别中的几种进一步分成亚类(同种型)，例如IgG1、IgG2、IgG3、IgG4、IgA和IgA2。所述亚类可进一步分为各类型，例如IgG2a和IgG2b。

“单链Fv”或“sFv”或“scFv”抗体片段包含抗体的V_H和V_L结构域，其中这些结构域存在于单个多肽链中。在一些实施方案中，Fv多肽还在V_H与V_L结构域之间包含肽接头，其使得sFv能够形成抗原结合所需的结构。关于sFv的综述，参见Pluckthun in The Pharmacologyof Monoclonal Antibodies，第113卷，Rosenburg and Moore eds.,Springer-Verlag,NewYork，第269-315页(1994)。

术语“双抗体”指具有两个抗原结合位点的小抗体片段，所述片段包含与同一条多肽链(V_H-V_L)中的轻链可变结构域(V_L)连接的重链可变结构域(V_H)。通过使用太短而不允许同一条链上两个结构域之间配对的接头，迫使所述结构域与另一条链的互补结构域配对并产生两个抗原结合位点。双抗体在例如EP 404,097；WO 93/11161；以及Hollinger等人(1993)Proc.Natl.Acad.Sci.USA 90:6444-6448中进行了较充分的描述。

如本文所用，术语“亲和力”是指两种药剂(例如抗体和抗原)的可逆结合的平衡常数，并且表示为解离常数(K_D)。亲和力可以比抗体对不相关氨基酸序列的亲和力大至少1倍、大至少2倍、大至少3倍、大至少4倍、大至少5倍、大至少6倍、大至少7倍、大至少8倍、大至少9倍、大至少10倍、大至少20倍、大至少30倍、大至少40倍、大至少50倍、大至少60倍、大至少70倍、大至少80倍、大至少90倍、大至少100倍或大至少1,000倍或更多。抗体对靶蛋白的亲和力可以是例如约100纳摩尔(nM)至约0.1nM，约100nM至约1皮摩尔(pM)，或约100nM至约1飞摩尔(fM)或更高。如本文所用，术语“亲合力”是指两种或更多种药剂的复合物在稀释后对解离的抗性。术语“免疫反应性”和“优先结合”在本文中相对于抗体和/或抗原结合片段可互换使用。

术语“结合”是指由于例如共价、静电、疏水和离子和/或氢键相互作用(包括如盐桥和水桥的相互作用)而在两个分子之间的直接缔合。“特异性结合”是指以至少约10^-7M或更大，例如5x 10^-7M、10^-8M、5x 10^-8M和更大的亲和力结合。“非特异性结合”是指以小于约10^-7M的亲和力结合，例如以10^-6M、10^-5M、10^-4M等的亲和力结合。

“分离的”多肽是已经从其天然环境的组分中鉴定和分离和/或回收的多肽。其天然环境的污染组分是会干扰多肽的诊断或治疗用途的物质，并且可包括酶、激素和其他蛋白质或非蛋白质溶质。在一些实施方案中，将多肽纯化(1)至大于蛋白质的90重量％、大于95重量％或大于98重量％，如通过Lowry方法测定，例如大于99量％重，(2)纯化至足以通过使用旋转杯测序仪获得N端或内部氨基酸序列的至少15个残基的程度，或(3)通过十二烷基硫酸钠-聚丙烯酰胺凝胶电泳(SDS-PAGE)在还原或非还原条件下使用考马斯蓝或银染纯化至均一性。分离的多肽包括在重组细胞中原位的多肽，因为多肽的天然环境的至少一种组分将不存在。在某些情况下，分离的多肽将通过至少一个纯化步骤制备。

如本领域技术人员在阅读本公开后所显而易知，本文中描述和说明的每个个别实施方案具有可轻易地与任何其他几个实施方案的功能件分离或组合的分立组件和功能件，而不背离本发明的范围或精神。任何所陈述方法均可以所陈述事件的顺序或以逻辑上可能的任何其他顺序进行。

必须注意，如本文和所附权利要求书中所用，除非上下文另外明确指出，否则单数形式“一(a/an)”和“所述(the)”包括复数指代物。因此，例如，提及“靶分子”包括多个此类靶分子并且提及“生物分子”包括提及一种或多种生物分子和其本领域技术人员已知的等效物等。还应当注意，权利要求书可被起草以排除任何任选元素。因而，这种陈述意图充当结合权利要求要素的叙述来使用诸如“仅仅”、“仅”等排他性术语或使用“否定”限制的前提基础。

具体实施方式

本公开提供了一种用于化学选择性修饰靶分子的方法。本公开提供了包含主题靶分子和生物分子的组合物，所述主题靶分子包含硫醇部分，所述生物分子包含酚部分或儿茶酚部分。本公开提供试剂盒，所述试剂盒提供包括主题组合物的第一容器和包括能够氧化酚部分或儿茶酚部分的酶的第二容器。本公开还提供了修饰的靶分子，所述靶分子可用于递送用于基因疗法的生物分子、通过抗体缀合物的新型免疫疗法、生物材料构建和疫苗开发。

方法

如上概述，本公开的方面包括用于化学选择性修饰靶分子的方法。主题方法包括使包含硫醇部分的靶分子与包含反应性部分的生物分子接触，其中所述反应性部分通过使包含酚部分或儿茶酚部分的生物分子与能够氧化所述酚部分或所述儿茶酚部分的酶反应而产生。所述接触在足以使所述靶分子与所述生物分子缀合的条件下进行，从而产生修饰的靶分子。

在一些情况下，用于化学选择性修饰靶分子的主题方法包括使以下物质接触：i)包含硫醇部分的靶分子；ii)包含酚部分或儿茶酚部分的生物分子；以及iii)能够氧化所述酚或儿茶酚部分的酶；其中所述酶氧化所述生物分子的所述酚或儿茶酚部分以产生反应性部分，从而产生包含所述反应性部分的生物分子，并且其中所述反应性部分与所述硫醇部分反应，从而使所述靶分子和所述生物分子彼此缀合，从而产生修饰的靶分子。在一些情况下，靶分子包含单个硫醇部分。在一些情况下，靶分子包含两个硫醇部分。

靶分子可以是多种分子中的任一种(例如，多肽；核酸；小分子；等)。类似地，生物分子可以是多种分子中的任一种(例如，多肽；核酸；小分子；等)。在一些情况下，靶分子是多肽；并且生物分子是核酸。在一些情况下，靶分子是核酸；并且生物分子是多肽。在一些情况下，靶分子是多肽；并且生物分子是小分子(例如，癌症化疗剂)。在一些情况下，靶分子是第一多肽；并且生物分子是第二多肽，其中第一多肽和第二多肽可以相同或不同。

主题方法提供了一种简单的偶联程序，所述偶联程序能够以位点特异性方式将感兴趣的生物分子连接到靶分子表面上的任何位置，从而产生修饰的感兴趣的靶分子。在一些实施方案中，靶分子是第二生物分子(例如，如本文所述)。在一些实施方案中，第二生物分子是多肽。

感兴趣的生物分子包括但不限于多肽、多核苷酸、碳水化合物、脂质、脂肪酸、类固醇、嘌呤、嘧啶、其衍生物、结构类似物以及其组合。在某些情况下，感兴趣的生物分子是抗体。在某些情况下，感兴趣的生物分子是抗体片段或其结合衍生物。在某些情况下，抗体片段或其结合衍生物选自由以下构成的组：Fab片段、F(ab')2片段、单链Fv(scFv)、双抗体、纳米抗体和三抗体。合适的生物分子包括例如小分子(例如，癌症化疗剂等)、细胞因子、激素、免疫调节多肽等。在一些情况下，生物分子是核酸；并且靶分子是抗体(例如scFv；纳米抗体；等等)。在一些情况下，生物分子是小分子(例如，癌症化疗剂)；并且靶分子是抗体(例如scFv；纳米抗体；等等)。在一些情况下，例如，当靶分子是抗体时，生物分子连接到靶分子的Fc部分。在一些情况下，靶分子是免疫球蛋白(Ig)Fc多肽。

在某些实施方案中，包含酚或儿茶酚部分的生物分子还包含一个或多个选自以下的部分：荧光团、活性小分子、亲和标签和金属螯合剂(例如，如本文所述)。在某些情况下，感兴趣的生物分子是荧光蛋白。在某些情况下，荧光蛋白是绿色荧光蛋白(GFP)。在某些情况下，生物分子是酶。在某些情况下，生物分子是受体的配体。在某些情况下，生物分子是受体。

在一些实施方案中，能够氧化酚部分或儿茶酚部分的酶是酚氧化酶或儿茶酚氧化酶。在某些情况下，酶是酪氨酸酶。

本文所用的术语“酪氨酸酶”是指单酚单加氧酶(EC 1.14.18.1；CAS号：9002-10-2)，一种催化酚(如酪氨酸)氧化的酶。它是存在于植物和动物组织中的含铜酶，所述酶通过氧化来催化由酪氨酸产生黑色素和其他色素。所有的酪氨酸酶在其活性位点内共同具有双核3型铜中心。这里的两个铜原子各自与三个组氨酸残基配位。Matoba等人,“Crystallographic evidence that the dinuclear copper center of tyrosinase isflexible during catalysis,”J Biol Chem.2006年3月31日；281(13):8981-90。Epub2006年1月25日公开了酪氨酸酶催化中心的三维模型。

在某些实施方案中，主题酶附着于在固体载体系统，如珠粒、树脂、凝胶、微球或其他几何构型。在某些情况下，固体载体是玻璃珠。在一些情况下，固体载体是树脂珠。使用附着于固体载体系统的酶可以允许主题酶的多种用途，并且可以通过允许酶容易地从反应混合物中去除而促进主题靶分子的纯化。在某些实施方案中，附着于固体载体系统的主题酶可以允许主题方法在连续流系统中进行。在某些实施方案中，附着于固体载体系统的主题酶可促进主题方法的大批量处理。

在某些情况下，主题酚部分存在于酪氨酸残基中。在某些情况下，酪氨酸残基是感兴趣的生物分子的一部分。在某些情况下，将酪氨酸残基合成引入感兴趣的生物分子中。在一些其他情况下，酪氨酸残基经由接头(例如，如本文所述)连接至感兴趣的生物分子。可以使用标准重组技术引入酪氨酸残基，例如通过修饰编码多肽生物分子的核苷酸序列，从而将酪氨酸残基引入多肽生物分子中。

在一些情况下，酚或儿茶酚部分是引入感兴趣的生物分子的非天然(非遗传编码)氨基酸的一部分。例如，琥珀密码子(TAG)抑制可用于掺入包含酚部分或儿茶酚部分的非遗传编码的氨基酸残基。参见，例如，Chin等人(2002)J.Am.Chem.Soc.124:9026；Chin和Schultz(2002)Chem.Biol.Chem.3:1135；Chin等人(2002)Proc.Natl.Acad.Sci.USA 99:11020；U.S.2015/0240249；以及US 2018/0171321。作为另一个实例，正交RNA合成酶和/或正交tRNA可用于将非遗传编码的氨基酸引入生物分子中，其中该非遗传编码的氨基酸包含酚部分或儿茶酚部分。

在主题方法的一些实施方案中，存在于靶分子中的硫醇部分是半胱氨酸残基的一部分。在某些情况下，半胱氨酸残基是天然半胱氨酸残基。在某些情况下，半胱氨酸残基是合成引入靶分子中的残基。

在某些实施方案中，反应性部分是邻醌或半醌基团，或其组合。在某些实施方案中，主题方法提供邻醌反应性中间体与硫醇部分之间的反应，如以下方案1中所描绘：

其中Y¹是任选地包含一个或多个选自以下的部分的任何方便的生物分子：活性小分子、可裂解探针、荧光团和金属螯合剂；L是任选的接头(例如，如本文所述)；X¹选自氢和羟基；Y²是任何方便的生物分子；并且n为1至3的整数。

如方案1中所示，在某些实施方案中，包含酚或儿茶酚部分的生物分子(例如，具有式(I))用能够氧化酚或儿茶酚部分的酶进行活化。在一些情况下，在氧的存在下用酪氨酸酶实现活化以产生包含反应性部分的中间体(例如，式(II)的邻醌和/或式(IIA)的半醌基团)，并且反应性部分与包含基于硫醇的亲核试剂的靶分子(例如，具有式(III))反应，以导致靶分子与生物分子缀合，从而产生修饰的靶分子(例如，具有式(genIV))。在某些实施方案中，式(III)的靶分子可包含任何方便的生物分子，例如，如本文所述。在某些情况下，式(III)中的Y²是多肽。在某些情况下，修饰的分子由式(IV)描述。在一些情况下，修饰的靶分子由式(IVA)描述。在某些情况下，修饰的靶分子由式(IV)-(IVL)中的任一者描述，如本文所述。

在某些实施方案中，主题方法提供邻醌反应性中间体与硫醇部分之间的反应，如以下方案2中所描绘：

如方案2中所示，在某些实施方案中，包含酚部分的生物分子(例如，具有式(IB))在氧的存在下用酪氨酸酶进行活化以产生包含反应性部分的中间体(例如，式(II)的邻醌)，并且所述反应性部分与包含基于硫醇的亲核试剂的靶分子(例如，具有式(III))反应，导致靶分子与生物分子缀合，从而产生修饰的靶分子(例如，具有式(IVM))。在某些实施方案中，式(III)的靶分子可包含任何方便的生物分子，例如，如本文所述。在某些情况下，式(III)中的Y²是多肽。在式(IVM)的修饰分子的某些情况下，硫醇基团处于儿茶酚环的3位。在式(IVM)的修饰分子的某些情况下，硫醇基团处于儿茶酚环的5位。在式(IVM)的修饰分子的某些情况下，硫醇基团处于儿茶酚环的6位。

在某些实施方案中，式(I)的生物分子可以是式(IA)-(IDb)中的任一者，例如，如本文所述和下文更详细讨论的。在某些实施方案中，修饰的靶分子可以具有式(IV)-(IVL)中的任一者，例如，如本文所述和下文更详细讨论的。在某些实施方案中，修饰的靶分子是单一缀合的产物，例如，如式(IV1)-(IV3)、(IVA1)-(IVA3)、(IVB1)-(IVB3)、(IVC1)-(IVC3)、(IVD1)-(IVD3)、(IVE1)-(IVE3)、(IVF1)-(IVF3)、(IVG1)-(IVG3)、(IVH1)-(IVH3)和(IVJ1)-(IVJ3)中所示。在某些情况下，修饰的靶分子是双缀合的产物，例如，如式(IV4)-(IV5)、(IVA4)-(IVA5)、(IVB4)-(IVB5)、(IVC4)-(IVC5)、(IVD4)-(IVD5)、(IVE4)-(IVE5)、(IVF4)-(IVF5)、(IVG4)-(IVG5)、(IVH4)-(IVH5)和(IVJ4)-(IVJ5)中所示。

在某些实施方案中，主题方法在4至9，例如4.2、4.5、4.8、5.0、5.2、5.5、5.8、6.0、6.2、6.5、6.8、7.0、7.2、7.5、7.8、8.0、8.2、8.5、8.8或9的pH下进行。在某些实施方案中，主题方法在5至8，例如5.2、5.5、5.8、6.0、6.2、6.5、6.8、7.0、7.2、7.5、7.8或8.0的pH下进行。在某些情况下，主题方法在6至7.5，例如6.0、6.3、6.4、6.5、6.6、6.8、7.0、7.2、7.4或7.5的pH下进行。在某些实施方案中，主题方法在中性pH下进行。如本文所用，表述“中性pH”意指约7.0至约7.4的pH。表述“中性pH”包括约7.0、7.05、7.1、7.15、7.2、7.25、7.3、7.35和7.4的pH值。

在某些实施方案中，主题方法可以在生理条件下进行。在一些实施方案中，所述方法在活细胞上体外进行。在其他实施方案中，所述方法在活细胞上离体进行。

在某些实施方案中，主题方法可以在水性介质中在一种或多种缓冲液的存在下进行。感兴趣的缓冲液包括但不限于磷酸盐缓冲液、2-氨基-2-(羟甲基)丙烷-1,3-二醇(TRIS)、4-[4-(2-羟乙基)哌嗪-1-基]乙磺酸(HEPES)等。在某些实施方案中，主题方法可以在有机溶剂中进行。在某些情况下，有机溶剂是水混溶性溶剂。在某些情况下，有机溶剂是偶极非质子溶剂。在某些情况下，有机溶剂选自乙腈、二甲基甲酰胺、甲醇和丙酮。在某些情况下，有机溶剂相对于水的存在量为1％至20％，例如2％、5％、10％、15％或20％。在一些情况下，主题方法在1％至20％，例如5％、10％、15％或20％乙腈中进行。在一些情况下，主题方法在1％至20％，例如5％、10％、15％或20％二甲基甲酰胺中进行。在一些情况下，主题方法在1％至20％，例如5％、10％、15％或20％甲醇中进行。在一些情况下，主题方法在1％至20％，例如5％、10％、15％或20％丙酮中进行。

在主题方法的某些实施方案中，修饰的靶分子是双重或三重缀合的产物(例如，参见式(IV)，当n是2或3时，在本文中统称为“多重缀合产物”)。在主题方法的某些实施方案中，按一种或多种多重缀合产物相对于单一缀合产物(例如，参见式(IV)，当n是1时)的重量计，多重缀合产物以小于1份/10份存在，诸如小于1份/20份、小于1份/25份、小于1份/50份、小于1份/75份、小于1份/100份或甚至更少。在主题方法的某些实施方案中，没有观察到多重缀合产物。

在该方法的某些实施方案中，修饰的靶分子在一定范围的pH值和温度值下以及在多种另外的分子的存在下是稳定的。在一些情况下，修饰的靶分子在0℃至50℃，诸如4℃至40℃，诸如4℃至37℃是稳定的。在某些情况下，修饰的靶分子在4至9的pH范围内，诸如在pH4、4.5、5、5.5、6、6.5、7、7.5、8、8.5或9下是稳定的。在某些情况下，修饰的靶分子在生物学相关分子的存在下是稳定的。在某些情况下，修饰的靶分子在诸如精氨酸残基的胍基、赖氨酸残基的伯胺和苯胺部分的分子存在下是稳定的。在一些情况下，修饰的靶分子在生理条件下是稳定的；例如，在一些情况下，修饰的靶分子在人血清中是稳定的。在一些情况下，修饰的靶分子(在本文中也称为“靶分子-生物分子缀合物”)在37℃下在人血清中稳定至少2天、至少3天、至少4天、至少5天、至少6天、至少7天、至少10天或至少14天的时间段。在一些情况下，修饰的靶分子(在本文中也称为“靶分子-生物分子缀合物”)在人血清中在37℃下稳定约2天至约7天、约7天至约10天或约10天至约14天的时间段。

如上所述，在一些情况下，靶分子包括单个硫醇部分。在其他情况下，靶分子包括两个硫醇部分。除了在初始氧化偶联反应中是有能力的之外，在重新氧化时，可以在第二时间内添加在新形成的儿茶酚附近带有第二硫醇的亲核试剂。第二次添加的分子内性质可以防止或最小化谷胱甘肽或在生物环境中带有游离硫醇的其他分子的第二次添加。使用二硫醇亲核试剂(二硫醇靶分子)的实例示意性描绘于图44A中。

该策略的另一个实施方案可以是具有两个半胱氨酸残基的蛋白质偶联配偶体。半胱氨酸残基可以由于其在蛋白质的氨基酸序列中的位置而彼此紧密接近，或者它们可以由于其在蛋白质的三维结构中的位置而紧密空间接近。多肽可包括二硫醇，其中多肽包含例如：CC、CGC、CGGC(SEQ ID NO:1055)或CGGGC(SEQ ID NO:1056)序列。例如，多肽可包含以下通式的氨基酸序列：X_n1C(X)_n2CX_n3(SEQ ID NO:1057)，其中X是任何天然(编码的)或非天然(非编码的)氨基酸，n1和n3各自独立地是零或1至5000(或大于5000)的整数，并且n2是零或1至约10的整数。使用此类二硫醇靶分子的实例示意性地描述于图44B中。

酪氨酸酶多肽

适用于产生反应性部分(例如，邻醌)的酪氨酸酶多肽包括与图8、图9、图10A至图10Z和图10AA至图10VV中所示的任一个酪氨酸酶氨基酸序列具有至少75％、至少80％、至少85％、至少90％、至少95％、至少98％、至少99％或100％氨基酸序列同一性的酪氨酸酶多肽。在一些情况下，酪氨酸酶多肽是双孢蘑菇酪氨酸酶多肽。在一些情况下，酪氨酸酶多肽是巨大芽孢杆菌酪氨酸酶多肽。在一些情况下，酪氨酸酶多肽是栗色浑圆链霉菌(Streptomyces castaneoglobisporus)酪氨酸酶多肽。在一些情况下，酪氨酸酶多肽是弗氏柠檬酸杆菌(Citrobacter freundii)酪氨酸酶多肽。在一些情况下，酪氨酸酶多肽是智人(Homo sapiens)酪氨酸酶多肽。在一些情况下，酪氨酸酶多肽是苹果(Malus domestica)酪氨酸酶多肽。在一些情况下，酪氨酸酶多肽是米曲霉(Aspergillus oryzae)酪氨酸酶多肽。在一些情况下，酪氨酸酶多肽是番茄(Solanum lycopersicum)酪氨酸酶多肽。在一些情况下，酪氨酸酶多肽是泰国伯克霍尔德氏菌(Burkholderia thailandensis)酪氨酸酶多肽。在一些情况下，酪氨酸酶多肽是核桃(Juglans regia)酪氨酸酶多肽。参见，例如Pretzler等人Sci.Rep.2017,7(1),1810；Ren等人BMC Biotechnol.2013,13,18；Faccio等人Process Biochem.2012,47(12),1749–1760；Fairhead等人FEBS J.2010,277(9),2083–2095；Do等人Sci.Rep.2017,7(1),17267；Elsayed和Danial J.Appl.Pharm.Sci.2018,8(09),93–101；Lopez-Tejedor和Palomo Protein Expr.Purif.2018,145,64–70；以及Fairhead等人Nature Biotechnol.2012,29(2),183–191。

在一些情况下，酪氨酸酶多肽选择性地作用于(例如，产生反应性部分诸如邻醌)包含酚部分(例如，酪氨酸)或儿茶酚部分的底物(生物分子)，其中底物在酚或儿茶酚部分的

内(例如，在

内，在

内，在

内或在

内)是中性的或带正电荷的。例如，与图8或图9中所示的任一个酪氨酸酶氨基酸序列具有至少75％、至少80％、至少85％、至少90％、至少95％、至少98％、至少99％或100％氨基酸序列同一性的酪氨酸酶可以选择性地修饰底物上的酚或儿茶酚部分，其中底物在酚或儿茶酚部分的

内(例如，在

内，在

内，在

内或在

内)是中性的或带正电荷的。例如，当生物分子是多肽时，在一些情况下，生物分子在酚部分(例如酪氨酸)或儿茶酚部分的10个氨基酸内包含至少2个中性或带正电荷的氨基酸。例如，当生物分子是多肽时，在一些情况下，生物分子在酚部分(例如酪氨酸)或儿茶酚部分的10个氨基酸内包含2、3、4、5、6、7、8、9或10个中性或带正电荷的氨基酸。例如，当生物分子是多肽时，在一些情况下，生物分子包含氨基酸序列RRRY(SEQ ID NO:949)、YRRR(SEQ ID NO:950)、RRRRY(SEQ ID NO:951)或YRRRR(SEQ IDNO:952)。

内(例如，在

内，在

内，在

内或在

内)是带负电荷的。例如，与图10A至图10Z和图10AA至图10VV中所示的任一个酪氨酸酶氨基酸序列具有至少75％、至少80％、至少85％、至少90％、至少95％、至少98％、至少99％或100％氨基酸序列同一性的酪氨酸酶可以选择性地修饰底物上的酚或儿茶酚部分，其中底物在酚或儿茶酚部分的

内(例如，在

内，在

内，在

内或在

内)是带负电荷的。例如，当生物分子是多肽时，在一些情况下，生物分子在酚部分(例如酪氨酸)或儿茶酚部分的10个氨基酸内包含至少2个带负电荷的氨基酸。例如，当生物分子是多肽时，在一些情况下，生物分子在酚部分(例如酪氨酸)或儿茶酚部分的10个氨基酸内包含2、3、4、5、6、7、8、9或10个带负电荷的氨基酸。例如，当生物分子是多肽时，在一些情况下，生物分子包含氨基酸序列EEEY(SEQID NO:953)、YEEE(SEQ ID NO:954)、EEEEY(SEQ ID NO:955)或YEEEE(SEQ ID NO:956)。

在一些情况下，酪氨酸酶多肽包含与图10M所示的酪氨酸酶氨基酸序列具有至少75％、至少80％、至少85％、至少90％、至少95％、至少98％、至少99％或100％氨基酸序列同一性的氨基酸序列，其中酪氨酸酶多肽包含D55的氨基酸取代，例如其中D55被Lys取代。当生物分子具有净负电荷和/或围绕酚或儿茶酚部分的区域具有净负电荷时(例如，当酚基团是Tyr时，Tyr可以存在于EEEEY(SEQ ID NO:955)或EEEY(SEQ ID NO:953)肽中)，此类酪氨酸酶多肽是特别有用的。当生物分子是核酸时，此类酪氨酸酶多肽是特别有用的。

在一些情况下，酪氨酸酶多肽包含与图10C所示的酪氨酸酶氨基酸序列具有至少75％、至少80％、至少85％、至少90％、至少95％、至少98％、至少99％或100％氨基酸序列同一性的氨基酸序列，其中酪氨酸酶多肽包含R209的氨基酸取代，例如其中R209被His取代。当生物分子具有净正电荷和/或围绕酚或儿茶酚部分的区域具有净正电荷时(例如，当酚基团是Tyr时，Tyr可以存在于RRRY(SEQ ID NO:949)或RRRRY(SEQ ID NO:951)肽中)，此类酪氨酸酶多肽是特别有用的。

细胞表面修饰

在一些实施方案中，主题方法用于修饰细胞表面。因此，在一方面，本发明提供一种体外修饰细胞表面的方法。该方法通常包括使靶分子中的硫醇基团与包含反应性部分的生物分子反应以在细胞表面提供化学选择性缀合。在一些实施方案中，该方法包括用硫醇部分修饰细胞表面上的靶分子；以及使靶分子中的硫醇部分与包含反应性部分(例如，邻醌部分)的生物分子反应。在其他实施方案中，该方法包括活化细胞表面上的包含酚部分的生物分子以产生包含反应性部分的生物分子；以及使生物分子中的反应性部分与包含硫醇部分的靶分子反应。

用可检测标记、药物和其他分子修饰靶分子

在一些实施方案中，本公开提供感兴趣的生物分子与包含硫醇部分的靶分子的连接。该方法通常包括使含有硫醇的靶分子与包含反应性部分(例如，邻醌部分)的主题生物分子反应。靶分子和感兴趣的生物分子包括但不限于多肽、多核苷酸、碳水化合物、脂肪酸、类固醇、嘌呤、嘧啶、衍生物；等等。

感兴趣的生物分子与载体的连接

包含反应性部分的生物分子还可以包含一个或多个烃接头(例如，烷基或其衍生物，诸如烷基酯或PEG)，所述烃接头缀合至提供与固体基质连接(例如，以促进分析)的部分，或缀合至提供容易分离的部分(例如，由结合至磁珠的抗体识别的半抗原)。在一个实施方案中，本发明的方法用于提供蛋白质(或含有或可被修饰成含有硫醇的其他分子)以确定的方向附着到芯片上。例如，本公开的方法和组合物可用于将标签或其他部分(例如，如本文所述)递送至靶分子的硫醇，所述靶分子例如在选定位点(例如，在N端处或附近)具有硫醇部分的多肽。然后标签或其他部分可用作将分子附着于载体(例如固体或半固体载体，例如适用作高通量分析中的微芯片的载体)的附着位点。

用于递送至靶位点的生物分子的附着

在一些实施方案中，包含反应性部分的生物分子将包含小分子药物、毒素或用于递送至细胞的其他分子。在一些实施方案中，小分子药物、毒素或其他分子将提供药理学活性。在一些实施方案中，小分子药物、毒素或其他分子将用作递送其他分子的靶标。

小分子药物可以是分子量大于50且小于约2,500道尔顿的小的有机或无机化合物。小分子药物可包含与蛋白质结构相互作用，特别是氢键结合所必需的官能团，并且可以包括至少一个胺、羰基、羟基或羧基，并且可以包含至少两个官能化学基团。药物可以包含被一个或多个上述官能团取代的环碳或杂环结构和/或芳族或多芳族结构。小分子药物也存在于生物分子中，包括肽、糖、脂肪酸、类固醇、嘌呤、嘧啶、衍生物、结构类似物或其组合。

在另一个实施方案中，包含反应性部分的主题生物分子包含一对结合配偶体(例如配体；受体的配体结合部分；抗体；抗体的抗原结合片段；抗原；半抗原；凝集素；凝集素结合碳水化合物；等)。例如，生物分子可以包含用作病毒受体的多肽，并且当与病毒包膜蛋白或病毒衣壳蛋白结合时，促进病毒附着到展示生物分子的细胞表面。或者，生物分子包含由抗体(例如单克隆抗体)特异性结合的抗原，以促进在细胞表面上展示抗原的宿主细胞的检测和/或分离。在另一个实例中，生物分子包含受体的配体结合部分或配体的受体结合部分。

化合物

包含酚部分或儿茶酚部分的生物分子

在主题方法的某些实施方案中，包含酚部分或儿茶酚部分的生物分子由式(I)描述。

其中Y¹是生物分子，所述生物分子任选地包含一个或多个选自以下的部分：活性小分子、亲和标签、荧光团和金属螯合剂；X¹选自氢和羟基；并且L是任选的接头。

在式(I)的某些实施方案中，X¹是氢，使得生物分子包含酚部分。在式(I)的其他实施方案中，X¹是羟基，使得生物分子包含儿茶酚部分。

在式(I)的一些实施方案中，酚部分存在于酪氨酸残基中。在某些情况下，式(I)的包含酚部分的生物分子具有式(IB)或(IC)：

其中R²选自烷基和取代的烷基；并且R³选自氢、烷基、取代的烷基、肽和多肽。

在主题方法的某些实施方案中，包含酚部分或儿茶酚的生物分子(例如，具有式(I))包括接头(例如，如本文所述)。合适的接头包括但不限于羧酸、烷基酯、芳基酯、取代的芳基酯、醛、酰胺、芳基酰胺、烷基卤化物、硫酯、磺酰酯、烷基酮、芳基酮、取代的芳基酮、卤代磺酰基、腈、硝基、PEG和肽接头。

用于将酚部分连接至感兴趣的主题生物分子的示例性接头在一些实施方案中将包括PEG接头。本文所用的术语“PEG”是指聚乙二醇或改性的聚乙二醇。改性的聚乙二醇聚合物包括甲氧基聚乙二醇和未取代的或在一端被烷基、取代的烷基或官能团取代的聚合物(例如，如本文所述)。可以在PEG的末端使用任何方便的连接基团以将该基团连接至感兴趣的部分，包括但不限于烷基、芳基、羟基、氨基、酰基、酰氧基、羧基酯和酰氨基末端和/或取代基。在某些情况下，接头包括多于1个PEG单元，诸如2、3、4、5、6、7、8、9或10个PEG单元。在某些情况下，接头包括少于10个PEG单元，诸如9、8、7、6、5、4、3、2或1个PEG单元。在某些情况下，接头由4个或更少的PEG单元构成。

在某些情况下，包含酚部分的生物分子由式(IA)描述：

其中：

Y¹是生物分子，所述生物分子任选地包含一个或多个选自以下的基团：活性小分子、亲和标签、荧光团和金属螯合剂；

每个R¹独立地选自氢、酰基、取代的酰基、烷基和取代的烷基；

X¹选自氢和羟基；以及

L¹是选自直链或支链烷基、直链或支链取代的烷基、聚乙二醇(PEG)、取代的PEG和一种或多种肽的接头。

在某些实施方案中，X¹是氢，使得式(IA)化合物具有式(IAa)：

在式(IA)-(IAa)中的任一者的某些实施方案中，至少一个R¹是氢。在某些情况下，两个R¹基团都是氢。在某些情况下，一个R¹基团是氢，并且另一个R¹基团选自烷基、取代的烷基、酰基和取代的酰基。在某些情况下，一个R¹基团是氢并且另一个R¹基团是烷基。在一些情况下，一个R¹基团是氢并且另一个R¹基团是取代的烷基。在一些情况下，一个R¹基团是氢并且另一个R¹基团是酰基。在一些情况下，一个R¹基团是氢，并且另一个R¹基团是取代的酰基。在一些情况下，酰基具有式-C(O)R⁴，其中R⁴是低级烷基，例如甲基、乙基、丙基、丁基、戊基或己基。在一些情况下，取代的酰基具有式-C(O)R⁴NH₂，其中R⁴是低级烷基，例如甲基、乙基、丙基、丁基、戊基或己基。在一些情况下，取代的酰基具有式-C(O)CH₂NH₂。

在式(IA)-(IAa)中任一者的某些实施方案中，L¹是直链或支链烷基。在某些情况下，L¹是低级烷基，例如甲基、乙基、丙基、丁基、戊基或己基。在某些情况下，L¹是取代的烷基。在某些情况下，L¹是取代的低级烷基。在某些情况下，L¹是PEG或取代的PEG(例如，如本文所述)。在某些其他情况下，L¹是肽。在某些其他情况下，L¹是多肽。在某些情况下，L¹是长度为1至12个原子，诸如长度为1-10、1-8或1-6个原子，例如长度为1、2、3、4、5或6个原子的线性接头。接头L¹可以是(C_1-6)烷基接头或取代的(C_1-6)烷基接头，任选地被杂原子或连接官能团取代，诸如酯(-CO₂-)、酰胺基(CONH)、氨基甲酸酯(OCONH)、醚(-O-)、硫醚(-S-)和/或氨基(-NR-，其中R是H或烷基)。在某些情况下，接头L¹可包括酮基(C＝O)。在某些情况下，酮基与接头链中的氨基、硫醇或醚基团一起可提供酰胺基、酯或硫酯基团连接。

在某些实施方案中，连接基团L或L¹是可裂解接头，例如，如本文所述。

在某些实施方案中，包含酚或儿茶酚部分的生物分子由式(ID)描述：

其中Y¹是生物分子，所述生物分子任选地包含一个或多个选自以下的基团：活性小分子、亲和标签、荧光团和金属螯合剂；X¹选自氢和羟基；并且n为0至20的整数。在某些情况下，n为10或更小，诸如9、8、7、6、5、4、3、2、1或0。在某些情况下，n为5。在某些情况下，n为4。在某些情况下，n为3。在某些情况下，n为2。在某些情况下，n为1。在某些情况下，n为0。

在某些实施方案中，n为1，使得式(ID)化合物具有式(IDa)：

在式(ID)或(IDa)的某些情况下，X¹是氢，使得生物分子包含酚部分。在式(ID)或(IDa)的其他实施方案中，X¹是羟基，使得生物分子包含儿茶酚部分。

在某些情况下，式(IDa)化合物具有式(IDb)：

式(ID)-(IDb)中任一者的化合物可以通过使酪胺或相应的含酚或儿茶酚的胺与包括N-羟基琥珀酰亚胺(NHS)酯或马来酰亚胺基团的生物分子在合适的溶剂中反应来制备。例如，式(IDb)化合物可以通过NHS-酯(Y¹-NHS)与酪胺在无水二甲基甲酰胺(DMF)中反应以提供化合物(IDb)来制备，如以下方案3中所示：

应理解，包含酚部分或儿茶酚部分的生物分子(例如，具有式(I)-(IDb)中的任一者)可通过任何方便的方法制备。提供适用于合成含主题酚和儿茶酚部分的通常已知的化学合成方案和条件的许多通用参考文献是可获得的(参见，例如Smith和March,March’sAdvanced Organic Chemistry:Reactions,Mechanisms,and Structure,第五版,Wiley-Interscience,2001；或Vogel,A Textbook of Practical Organic Chemistry,IncludingQualitative Organic Analysis,第四版,New York:Longman,1978)。如本文所公开，在某些情况下，主题酚部分存在于酪氨酸残基中。酪氨酸残基可以是感兴趣的生物分子的一部分。在其他情况下，可以将酪氨酸部分合成引入感兴趣的生物分子中。例如，当生物分子是肽或多肽时，酪氨酸残基可以通过标准固相Fmoc肽化学引入(Fields GB,Noble RL.Solidphase peptide synthesis utilizing 9-fluorenylmethoxycarbonyl amino acids.IntJ Pept Protein Res 35:161–214,1990)。在一些情况下，酚或儿茶酚部分是引入感兴趣的生物分子的非天然(非遗传编码)氨基酸的一部分。例如，琥珀密码子(TAG)抑制可用于掺入包含酚部分或儿茶酚部分的非遗传编码的氨基酸残基。参见，例如，Chin等人(2002)J.Am.Chem.Soc.124:9026；Chin和Schultz(2002)Chem.Biol.Chem.3:1135；Chin等人(2002)Proc.Natl.Acad.Sci.USA 99:11020；U.S.2015/0240249；以及US2018/0171321。作为另一个实例，正交RNA合成酶和/或正交tRNA可用于将非遗传编码的氨基酸引入生物分子中，其中该非遗传编码的氨基酸包含酚部分或儿茶酚部分。

在式(I)-(IDb)中任一者的一些实施方案中，感兴趣的生物分子包含一个或多个选自以下的基团：活性小分子、亲和标签、荧光团和金属螯合剂。在某些情况下，荧光团是罗丹明染料。在某些情况下，荧光团是呫吨染料。在某些情况下，荧光团是俄勒冈绿488。在某些情况下，金属螯合剂是1,4,7,10-四氮杂环十二烷-1,4,7,10-四乙酸(也称为DOTA或tetraxetan)。在某些情况下，亲和标签是生物素部分(例如，如本文所述)。

在某些情况下，包含酚部分的生物分子由图3中所示的结构描述。

包含硫醇部分的靶分子

包含硫醇部分并适用于主题方法的分子以及制备适用于主题方法的包含硫醇的分子的方法是本领域公知的。

靶分子可以是天然存在的，或可以是合成或重组产生的，并且可以是分离的，基本上纯化的，或存在于未修饰的分子的天然环境中，含硫醇的靶分子基于该未修饰的分子(例如，在细胞表面上或在细胞内，包括在宿主动物内，例如哺乳动物，诸如鼠类宿主(例如，大鼠、小鼠)、仓鼠、犬、猫、牛，猪等)。在一些实施方案中，靶分子存在于体外无细胞反应中。在其他实施方案中，靶分子存在于细胞中和/或展示在细胞表面上。在许多感兴趣的实施方案中，靶分子在活细胞中；在一个活细胞的表面上；在活的生物体中，例如在活的多细胞生物体中。合适的活细胞包括作为活的多细胞生物体的一部分的细胞；从多细胞生物分离的细胞；永生化细胞系；等等。

靶分子可以由D-氨基酸、L-氨基酸或两者构成，并且可以被进一步天然地、合成地或重组地修饰以包括其他部分。例如，靶分子可以是脂蛋白、糖蛋白或其他此类修饰蛋白。

一般来讲，靶分子包含至少一个硫醇部分，用于与包含根据本发明的反应性部分的生物分子反应，但可以包含2个或更多个、3个或更多个、5个或更多个、10个或更多个硫醇部分。可存在于靶分子中的硫醇部分的数目将根据反应的修饰的靶分子的预期应用、靶分子本身的性质和本领域普通技术人员在实践如本文所公开的方法时将容易明白的其他考虑而变化。

靶分子可被修饰以在需要与包含反应性部分的生物分子连接的点处包含硫醇部分。例如，当靶分子是肽或多肽时，可以修饰靶分子底物以含有N端硫醇部分，从而产生包含硫醇部分的主题靶肽或多肽。应当理解，可以修饰肽或多肽底物上的任何方便的位置以含有硫醇部分，从而产生用于主题方法的靶肽或多肽。

在某些实施方案中，包含硫醇部分的靶分子是CRISPR-Cas效应子多肽。

在某些情况下，硫醇部分存在于半胱氨酸残基中。在某些情况下，半胱氨酸残基对于CRISPR-Cas效应子多肽是天然的。在其他情况下，将半胱氨酸残基引入CRISPR-Cas效应子多肽中。例如，半胱氨酸残基可以通过标准固相Fmoc肽化学引入(Fields GB,NobleRL.Solid phase peptide synthesis utilizing 9-fluorenylmethoxycarbonyl aminoacids.Int J Pept Protein Res 35:161–214,1990)。

修饰的靶分子

在主题方法的某些实施方案中，产生的修饰的靶分子具有式(IV)或(IVA)，或其组合。因此，本公开的方面包括式(IV)或(IVA)的化合物：

其中Y1是生物分子，所述生物分子任选地包含一个或多个选自以下的部分：活性小分子、亲和标签、荧光团和金属螯合剂；L是任选的接头；Y2是第二生物分子；并且n为1至3的整数。

在式(IV)或(IVA)的某些实施方案中，n小于3，诸如2或1。在某些情况下，n为2。在某些情况下，n为1。在某些情况下，主题修饰的靶分子是式(IV)化合物。在某些情况下，主题修饰的靶分子是式(IVA)化合物。

在一些实施方案中，式(IV)的修饰的靶分子，n是1，并且所述化合物由式(IV1)-(IV3)中的任一个者描述：

在一些实施方案中，式(IV)的修饰的靶分子，n是2，并且所述化合物由式(IV4)-(IV5)中的任一者描述：

在一些实施方案中，修饰的靶分子具有式(IVA)，n是1，并且所述化合物由式(IVA1)-(IVA3)中的任一者描述：

在一些实施方案中，修饰的靶分子具有式(IVA)，n是2，并且所述化合物由式(IVA4)-(IVA5)中的任一者描述：

在某些实施方案中，修饰的靶分子包括接头(例如，如本文所述)。合适的接头包括但不限于羧酸、烷基酯、芳基酯、取代的芳基酯、醛、酰胺、芳基酰胺、烷基卤化物、硫酯、磺酰酯、烷基酮、芳基酮、取代的芳基酮、卤代磺酰基、腈、硝基和肽接头。

在一些实施方案中，用于将邻醌连接至生物分子(Y¹)的示例性接头将包括酰胺，诸如–(CR¹ ₂)_mNHC(O)-，其中R¹选自氢或取代基(例如，如本文所述)并且m为1至20的整数。示例性接头还可以包括PEG或取代的PEG接头，例如，如本文所述。

在某些实施方案中，接头是可裂解接头，例如，如本文所述。

在某些实施方案中，修饰的靶分子由式(IVB)或(IVC)描述：

其中Y¹是生物分子，所述生物分子任选地包含一个或多个选自以下的基团：活性小分子，亲和标签，荧光团和金属螯合剂；每个R¹独立地选自氢、酰基、取代的酰基、烷基和取代的烷基；Y²是第二生物分子；L¹是选自直链或支链烷基、直链或支链取代的烷基、聚乙二醇(PEG)、取代的PEG和一种或多种肽的接头；并且n为1至3的整数。

在式(IVB)或(IVC)的某些实施方案中，n小于3，诸如2或1。在某些情况下，n为2。在某些情况下，n为1。在某些情况下，主题修饰的靶分子是式(IVB)化合物。在某些情况下，主题修饰的靶分子是式(IVC)化合物。

在一些实施方案中，式(IVB)的修饰的靶分子，n为1，并且所述化合物由式(IVB1)-(IVB3)中的任一者描述：

在一些实施方案中，式(IVB)的修饰的靶分子，n为2，并且所述化合物由式(IVB4)-(IVB5)中的任一者描述：

在一些实施方案中，修饰的靶分子具有式(IVC)，n为1，并且所述化合物由式(IVC1)-(IVC3)中的任一者描述：

在一些实施方案中，修饰的靶分子具有式(IVC)，n为2，并且所述化合物由式(IVC4)-(IVC5)中的任一者描述：

在式(IVB)-(IVC5)中任一者的某些实施方案中，至少一个R¹是氢。在某些情况下，两个R¹基团都是氢。在某些情况下，一个R¹基团是氢，并且另一个R¹基团选自烷基、取代的烷基、酰基和取代的酰基。在某些情况下，一个R¹基团是氢并且另一个R¹基团是烷基。在一些情况下，一个R¹基团是氢并且另一个R¹基团是取代的烷基。在一些情况下，一个R¹基团是氢并且另一个R¹基团是酰基。在一些情况下，一个R¹基团是氢，并且另一个R¹基团是取代的酰基。在一些情况下，酰基具有式-C(O)R⁴，其中R⁴是低级烷基，例如甲基、乙基、丙基、丁基、戊基或己基。在一些情况下，取代的酰基具有式-C(O)R⁴NH₂，其中R⁴是低级烷基，例如甲基、乙基、丙基、丁基、戊基或己基。在一些情况下，取代的酰基具有式-C(O)CH₂NH₂。

在式(IVB)-(IVC5)中任一者的某些实施方案中，L¹是直链或支链烷基。在某些情况下，L¹是低级烷基，例如甲基、乙基、丙基、丁基、戊基或己基。在某些情况下，L¹是取代的烷基。在某些情况下，L¹是取代的低级烷基。在某些情况下，L¹是PEG或取代的PEG(例如，如本文所述)。在某些其他情况下，L¹是肽。在某些其他情况下，L¹是多肽。在某些情况下，L¹是长度为1至12个原子，诸如长度为1-10、1-8或1-6个原子，例如长度为1、2、3、4、5或6个原子的线性接头。接头L¹可以是(C_1-6)烷基接头或取代的(C_1-6)烷基接头，任选地被杂原子或连接官能团取代，诸如酯(-CO₂-)、酰胺基(CONH)、氨基甲酸酯(OCONH)、醚(-O-)、硫醚(-S-)和/或氨基(-NR-，其中R是H或烷基)。在某些情况下，接头L¹可包括酮基(C＝O)。在某些情况下，酮基与接头链中的氨基、硫醇或醚基团一起可提供酰胺基、酯或硫酯基团连接。

在某些实施方案中，连接基团L¹是可裂解接头，例如，如本文所述。

在某些实施方案中，修饰的靶分子由式(IVD)-(IVG)中的任一者描述：

其中R²选自烷基和取代的烷基；R³选自氢、烷基、取代的烷基、肽和多肽；并且n为1至3的整数。

在式(IVD)-(IVG)中任一者的某些实施方案中，n小于3，诸如2或1。在某些情况下，n为2。在某些情况下，n为1。在某些情况下，主题修饰的靶分子是式(IVD)化合物。在某些情况下，主题修饰的靶分子是式(IVE)化合物。在某些情况下，主题修饰的靶分子是式(IVF)化合物。在某些情况下，主题修饰的靶分子是式(IVG)化合物。

在某些实施方案中，式(IVD)-(IVG)中的任一者可具有如以下结构中所示的相对立体化学：

在一些实施方案中，式(IVD)的修饰的靶分子，n为1，并且所述化合物由式(IVD1)-(IVD3)中的任一者描述：

在一些实施方案中，式(IVD)的修饰的靶分子，n为2，并且所述化合物由式(IVD4)-(IVD5)中的任一者描述：

在一些实施方案中，式(IVE)的修饰的靶分子，n为1，并且所述化合物由式(IVE1)-(IVE3)中的任一者描述：

在一些实施方案中，式(IVE)的修饰的靶分子，n为2，并且所述化合物由式(IVE4)-(IVE5)中的任一者描述：

在一些实施方案中，式(IVF)的修饰的靶分子，n为1，并且所述化合物由式(IVF1)-(IVF3)中的任一者描述：

在一些实施方案中，式(IVF)的修饰的靶分子，n为2，并且所述化合物由式(IVF4)-(IVF5)中的任一者描述：

在一些实施方案中，式(IVG)的修饰的靶分子，n为1，并且所述化合物由式(IVG1)-(IVG3)中的任一者描述：

在一些实施方案中，式(IVG)的修饰的靶分子，n为2，并且所述化合物由式(IVG4)-(IVG5)中的任一者描述：

在本文所述的靶分子的某些实施方案中，R²是烷基。在某些情况下，R²是取代的烷基。在某些情况下，烷基是低级烷基，例如甲基、乙基、丙基、丁基、戊基或己基。

在本文所述的靶分子的某些实施方案中，R³是氢。在某些情况下，R³为烷基。在某些情况下，R³是取代的烷基。在某些情况下，烷基是低级烷基，例如甲基、乙基、丙基、丁基、戊基或己基。在某些情况下，R³是肽。在某些情况下，R³是多肽。

在某些实施方案中，修饰的靶分子由式(IVH)或(IVJ)描述：

其中Y¹是生物分子，所述生物分子任选地包含一个或多个选自以下的基团：活性小分子、亲和标签、荧光团和金属螯合剂；Y²是第二生物分子；n为1至3的整数；并且m为0至20的整数。在某些情况下，m为10或更小，诸如9、8、7、6、5、4、3、2、1或0。在某些情况下，m为5。在某些情况下，m为4。在某些情况下，m为3。在某些情况下，m为2。在某些情况下，m为1。在某些情况下，m为0。

在主题方法的某些实施方案中，修饰的靶分子由式(IVK)或(IVL)描述：

在式(IVH)-(IVJ)中任一者的某些实施方案中，n小于3，诸如2或1。在某些情况下，n为2。在某些情况下，n为1。

在一些实施方案中，式(IVH)的修饰的靶分子，n为1，并且所述化合物由式(IVH1)-(IVH3)中的任一者描述：

在一些实施方案中，式(IVH)的修饰靶分子，n为2，并且所述化合物由式(IVH4)-(IVH5)中的任一者描述：

在一些实施方案中，式(IVJ)的修饰的靶分子，n为1，并且所述化合物由式(IVJ1)-(IVJ3)中的任一者描述：

在一些实施方案中，式(IVJ)的修饰的靶分子，n为2，并且所述化合物由式(IVJ4)-(IVJ5)中的任一者描述：

在某些实施方案中，包含硫醇基团的靶分子是CRISPR-Cas效应子多肽(例如，如本文所述)。

在式(IV)至(IVJ5)中任一者的某些实施方案中，Y¹是多肽。在某些情况下，Y¹多肽选自荧光蛋白、抗体和酶。在某些情况下，荧光蛋白是绿色荧光蛋白。其他合适的多肽在本文其他地方描述。

可裂解接头

可用于感兴趣的主题分子的可裂解接头包括亲电可裂解接头、亲核可裂解接头、光可裂解接头、金属可裂解接头、电解可裂解接头和在还原和氧化条件下可裂解的接头。在某些情况下，可裂解接头在酸性条件下裂解。在某些情况下，可裂解接头由酶裂解。在某些情况下，可裂解接头是在还原条件下裂解的接头。在某些情况下，可裂解接头通过谷胱甘肽还原而快速裂解。在某些情况下，可裂解接头包括二硫键。在某些情况下，可裂解接头通过物理刺激而裂解。在某些情况下，可裂解接头是光可裂解的。

在某些情况下，L或L¹是酸不稳定的接头。在某些情况下，接头在6或更低的pH下裂解，诸如6.0、5.95、5.9、5.85、5.8、5.75、5.7、5.65、5.6、5.55、5.5、5.45、5.4、5.35、5.3、5.25、5.2、5.15、5.1、5.05、5.0、4.9、4.85、4.80、4.75、4.7、4.65、4.6、4.55、4.5或甚至更低。

在某些情况下，L或L¹是光可裂解接头。合适的可光裂解接头包括基于邻硝基苄基的接头、苯甲酰甲基接头、烷氧基苯偶姻接头、铬芳烃络合物接头、NpSSMpact接头和新戊酰基二醇接头，如Guillier等人(Chem.Rev.2000 1000:2091-2157)中所述。

在一些情况下，L或L¹是可蛋白水解裂解的接头。

该可蛋白水解切割接头可包括由选自由以下项组成的组的蛋白酶识别的蛋白酶识别序列：丙氨酸羧肽酶、蜜环菌虾红素、细菌亮氨酰氨肽酶、癌促凝物质、组织蛋白酶B、梭菌蛋白酶、胞质溶胶丙氨酰氨肽酶、弹性蛋白酶、内切蛋白酶Arg-C、肠激酶、胃亚蛋白酶、明胶酶、Gly-X羧肽酶、甘氨酰基内肽酶、人鼻病毒3C蛋白酶、皮蝇素C、IgA-特异性丝氨酸内肽酶、亮氨酰基氨肽酶、亮氨酰基内肽酶、lysC、溶酶体pro-X羧肽酶、赖氨酰基氨肽酶、甲硫氨酰基氨肽酶、粘球菌(myxobacter)、苯乙肼裂解酶(nardilysin)、胰腺内肽酶E、细小核糖核酸病毒内肽酶(picornain)2A、细小核糖核酸病毒内肽酶3C、内肽酶原、脯氨酰基氨肽酶、原蛋白转化酶I、原蛋白转化酶II、拉塞尔溶素(russellysin)、糖胃蛋白酶(saccharopepsin)、精液凝固酶(semenogelase)、T-血纤维蛋白溶酶原激活因子、凝血酶、组织激肽释放酶、烟草蚀刻病毒(TEV)、披盖病毒素(togavirin)、色氨酰基氨肽酶、U-血纤维蛋白溶酶原激活因子、V8、蛇毒凝血酶样酶A(venombin A)、蛇毒凝血酶样酶AB和Xaa-pro氨肽酶。

例如，可蛋白水解切割接头可包含基质金属蛋白酶切割位点，例如选自胶原酶-1、胶原酶-2和胶原酶-3(MMP-1、MMP-8和MMP-13)、明胶酶A和B(MMP-2和MMP-9)、溶基质素1、2和3(MMP-3、MMP-10和MMP-11)、基质溶解素(MMP-7)和膜金属蛋白酶(MT1-MMP和MT2-MMP)的MMP的切割位点。例如，MMP-9的切割序列为Pro-X-X-Hy(SEQ ID NO:1054)(其中，X表示任意残基；Hy，疏水残基)，例如Pro-X-X-Hy-(Ser/Thr)(SEQ ID NO:847)，例如Pro-Leu/Gln-Gly-Met-Thr-Ser(SEQ ID NO:848)或Pro-Leu/Gln-Gly-Met-Thr(SEQ ID NO:849)。蛋白酶切割位点的另一个实例为血纤溶酶原激活因子切割位点，例如uPA或组织血纤溶酶原激活因子(tPA)切割位点。在一些情况下，切割位点为弗林蛋白酶切割位点。uPA和tPA的切割序列的具体实例包括包含Val-Gly-Arg的序列。可包括在可蛋白水解切割接头中的蛋白酶切割位点的另一个实例为烟草蚀刻病毒(TEV)蛋白酶切割位点，例如其中蛋白酶在谷氨酰胺与丝氨酸之间切割的ENLYTQS(SEQ ID NO:850)。TEV蛋白酶识别通式EX₁X₂YX₃Q(G/S)的线性氨基酸序列(SEQ ID NO:)，其中每个X₁、X₂和X₃是任何氨基酸，并且其中切割发生在Q和G或Q和S之间。TEV蛋白酶可切割接头可以包括ENLYFQG(SEQ ID NO:957)；ENLYTQS(SEQ ID NO:958)；ENLYFQGGY(SEQ ID NO:959)；ENLYFQS(SEQ ID NO:960)；等等。可包括在可蛋白水解切割接头中的蛋白酶切割位点的另一个实例为肠激酶切割位点，例如其中切割发生在赖氨酸残基之后的DDDDK(SEQ ID NO:851)。可包括在可蛋白水解切割接头中的蛋白酶切割位点的另一个实例为凝血酶切割位点，例如LVPR(SEQ ID NO:852)。包含蛋白酶切割位点的附加合适的接头包括包含以下氨基酸序列中的一者或多者的接头：LEVLFQGP(SEQ ID NO:853)，由PreScission蛋白酶(包含人鼻病毒3C蛋白酶和谷胱甘肽-S-转移酶的融合蛋白；Walker等人(1994)Biotechnol.12:601)切割；凝血酶切割位点，例如CGLVPAGSGP(SEQ ID NO:854)；SLLKSRMVPNFN(SEQ ID NO:855)或SLLIARRMPNFN(SEQ ID NO:856)，由组织蛋白酶B切割；SKLVQASASGVN(SEQ ID NO:857)或SSYLKASDAPDN(SEQ ID NO:858)，由爱泼斯坦-巴尔(Epstein-Barr)病毒蛋白酶切割；RPKPQQFFGLMN(SEQ ID NO:859)，由MMP-3(溶基质素)切割；SLRPLALWRSFN(SEQ ID NO:860)，由MMP-7(基质溶素)切割；SPQGIAGQRNFN(SEQ ID NO:861)，由MMP-9切割；DVDERDVRGFASFL SEQ ID NO:862)，由嗜热菌蛋白酶样MMP切割；SLPLGLWAPNFN(SEQ ID NO:863)，由基质金属蛋白酶2(MMP-2)切割；SLLIFRSWANFN(SEQ IDNO:864)，由组织蛋白酶L切割；SGVVIATVIVIT(SEQ ID NO:865)，由组织蛋白酶D切割；SLGPQGIWGQFN(SEQ ID NO:866)，由基质金属蛋白酶1(MMP-1)切割；KKSPGRVVGGSV(SEQ IDNO:867)，由尿激酶型血纤溶酶原激活因子切割；PQGLLGAPGILG(SEQ ID NO:868)，由1型膜基质金属蛋白酶(MT-MMP)切割；HGPEGLRVGFYESDVMGRGHARLVHVEEPHT(SEQ ID NO:869)，由溶基质素3(或MMP-11)、嗜热菌蛋白酶、成纤维细胞胶原酶和溶基质素-1切割；GPQGLAGQRGIV(SEQ ID NO:870)，由基质金属蛋白酶13(胶原酶-3)切割；GGSGQRGRKALE(SEQID NO:871)，由组织型血纤溶酶原激活因子(tPA)切割；SLSALLSSDIFN(SEQ ID NO:872)，由人前列腺-特异性抗原切割；SLPRFKIIGGFN(SEQ ID NO:873)，由激肽释放酶(hK3)切割；SLLGIAVPGNFN(SEQ ID NO:874)，由嗜中性粒细胞弹性蛋白酶切割；和FFKNIVTPRTPP(SEQID NO:875)，由钙蛋白酶(钙激活中性蛋白酶)切割。

在一些情况下，接头包含二硫键并且在还原条件下是可裂解的，例如使用β-巯基乙醇、半胱氨酸-HCl、三(2-羧乙基)膦盐酸盐或另一种还原剂。

在一些情况下，接头包含二肽，例如缬氨酸-瓜氨酸二肽或缬氨酸-赖氨酸二肽。

生物分子

适用于本公开的方法或缀合物的生物分子包括多肽、多核苷酸、碳水化合物、脂质、脂肪酸、类固醇、嘌呤、嘧啶、其衍生物、结构类似物和其组合。

合适的生物分子包括但不限于多肽、核酸、糖蛋白、小分子、碳水化合物、脂质、糖脂、脂蛋白、脂多糖、糖、氨基酸、有机染料、合成聚合物等。

合适的脂质包括，例如，3-N-[(甲氧基聚(乙二醇)2000)氨基甲酰基]-1,2-二肉豆蔻基氧基-丙胺(PEG-C-DMA)、1,2-二亚油基氧基-N,N-二甲基-3-氨基丙烷(DLinDMA)、1,2-二硬脂酰-sn-甘油基-3-磷酸胆碱(DSPC)、胆固醇、二棕榈酰磷脂酰胆碱、3-N-[(w-甲氧基聚(乙二醇)2000)氨基甲酰基]-1,2-二肉豆蔻基氧基丙胺、1,2-二亚油基氧基-3-N,N二甲基氨基丙烷、1,2-二硬脂酰-sn-甘油基-3-磷酸胆碱、PEG-cDMA、1,2-二亚油基氧基-3-(N；N-二甲基)氨基丙烷(DLinDMA)、2,2-二亚油基-4-二甲基氨基乙基-[1,3]-二氧戊环(DLin-KC2-DMA)等。

合适的生物分子包括亲和部分。合适的亲和部分包括His5(HHHHH)(SEQ ID NO:876)；HisX6(HHHHHH)(SEQ ID NO:877)；c-myc(EQKLISEEDL)(SEQ ID NO:878)；Flag(DYKDDDDK)(SEQ ID NO:879)；StrepTag(WSHPQFEK)(SEQ ID NO:880)；血凝素，例如HA标签(YPYDVPDYA)(SEQ ID NO:881)；谷胱甘肽-S-转移酶(GST)；硫氧还蛋白；纤维素结合域，RYIRS(SEQ ID NO:882)；Phe-His-His-Thr(SEQ ID NO:883)；几丁质结合域；S-肽；T7肽；SH2结构域；C端RNA标签，WEAAAREACCRECCARA(SEQ ID NO:884)；金属结合域，例如锌结合域或钙结合域，如来自钙结合蛋白的那些，所述钙结合蛋白例如钙调蛋白、肌钙蛋白C、钙调磷酸酶B、肌球蛋白轻链、恢复蛋白、S-调节蛋白、视锥蛋白、VILIP、神经钙蛋白、海马钙结合蛋白、聚集蛋白、钙牵蛋白、钙蛋白酶大亚基、S100蛋白、小清蛋白、钙结合蛋白D9K、钙结合蛋白D28K和钙网膜蛋白；生物素；链霉亲和素；MyoD；亮氨酸拉链多肽；以及麦芽糖结合蛋白。在一些情况下，合适的生物分子是生物素。

在一些情况下，适用于与靶多肽缀合的生物分子是二聚化结构域。合适的二聚化结构域的非限制性实例包括以下二聚化对的多肽：

a)FK506结合蛋白(FKBP)和FKBP；

b)FKBP和钙调磷酸酶催化亚基A(CnA)；

c)FKBP和亲环蛋白；

d)FKBP和FKBP-雷帕霉素相关蛋白(FRB)；

e)促旋酶B(GyrB)和GyrB；

f)二氢叶酸还原酶(DHFR)和DHFR；

g)DmrB和DmrB；

h)PYL和ABI；

i)Cry2和CIB1；以及

j)GAI和GID1。

例如，在一些情况下，生物分子是与以下氨基酸FKBP氨基酸序列包含至少约85％、至少约90％、至少约95％、至少约98％或100％氨基酸序列同一性的多肽：

MGVQVETISPGDGRTFPKRGQTCVVHYTGMLEDGKKFDSSRDRNKPFKFMLGKQEVIRGWEEGVAQMSVGQRAKLTISPDYAYGATGHPGIIPPHATLVFDVELLKLE(SEQ ID NO:885)。

在一些情况下，适用于与靶多肽缀合的生物分子是特异性结合对的成员。特异性结合对包括例如：i)抗体-抗原；ii)细胞粘附分子-细胞外基质；iii)配体-受体；iv)生物素-抗生物素蛋白；等等。

合适的合成聚合物包括但不限于聚亚烷基，如聚乙烯和聚丙烯和聚乙二醇(PEG)；聚氯丁二烯；聚乙烯醚，如聚(乙酸乙烯酯)；聚卤乙烯，如聚(氯乙烯)；聚硅氧烷；聚苯乙烯；聚氨基甲酸酯；聚丙烯酸酯，如聚((甲基)丙烯酸甲酯)、聚((甲基)丙烯酸乙酯)、聚((甲基)丙烯酸正丁酯)、聚((甲基)丙烯酸异丁酯)、聚((甲基)丙烯酸叔丁酯)、聚((甲基)丙烯酸己酯)、聚((甲基)丙烯酸异癸酯)、聚((甲基)丙烯酸月桂酯)、聚((甲基)丙烯酸苯酯)、聚(丙烯酸甲酯)、聚(丙烯酸异丙酯)、聚(丙烯酸异丁酯)和聚(丙烯酸十八烷基酯)；聚丙烯酰胺，如聚(丙烯酰胺)、聚(甲基丙烯酰胺)、聚(乙基丙烯酰胺)、聚(乙基甲基丙烯酰胺)、聚(N-异丙基丙烯酰胺)、聚(正、异和叔丁基丙烯酰胺)；以及它们的共聚物和混合物。

在一些情况下，待缀合至靶多肽的生物分子是多肽。合适的多肽包括例如荧光蛋白；受体；酶；结构蛋白；亲和标签；等等。

合适的荧光蛋白包括但不限于绿色荧光蛋白(GFP)或其变体、GFP的蓝色荧光变体(BFP)、GFP的青色荧光变体(CFP)、GFP的黄色荧光变体(YFP)、增强型GFP(EGFP)、增强型CFP(ECFP)、增强型YFP(EYFP)、GFPS65T、Emerald、Topaz(TYFP)、Venus、Citrine、mCitrine、GFPuv、去稳定化EGFP(dEGFP)、去稳定化ECFP(dECFP)、去稳定化EYFP(dEYFP)、mCFPm、Cerulean、T-Sapphire、CyPet、YPet、mKO、HcRed、t-HcRed、DsRed、DsRed2、DsRed-单体、J-Red、二聚体2、t-二聚体2(12)、mRFP1、普奇洛孔蛋白(pocilloporin)、海肾GFP(RenillaGFP)、Monster GFP、paGFP、Kaede蛋白和点燃蛋白(kindling protein)、藻胆蛋白和藻胆蛋白缀合物(包括B-藻红蛋白、R-藻红蛋白和别藻蓝蛋白)。荧光蛋白的其他实例包括mHoneydew、mBanana、mOrange、dTomato、tdTomato、mTangerine、mStrawberry、mCherry、mGrape1、mRaspberry、mGrape2、mPlum(Shaner等人(2005)Nat.Methods 2:905-909)等。如在例如Matz等人(1999)Nature Biotechnol.17:969-973中所述的来自珊瑚虫物种的多种荧光蛋白和有色蛋白中的任一种是适合使用的。

在一些情况下，生物分子是抗体。本文别处描述了合适的抗体。抗体可以是任何基于抗原结合抗体的多肽，其种类繁多是本领域已知的。在一些情况下，抗体是单链Fv(scFv)。适合使用其他基于抗体的识别结构域(cAb VHH(骆驼科动物抗体可变结构域)和人源化形式、IgNAR VH(鲨鱼抗体可变结构域)和人源化形式、sdAb VH(单结构域抗体可变结构域)和“骆驼化”抗体可变结构域。在某些情况下，基于T细胞受体(TCR)的识别结构域如单链TCR(scTv，含有VαVβ的单链双结构域TCR)也适用。

抗体可特异于抗原如CD19、CD20、CD38、CD30、Her2/neu、ERBB2、CA125、MUC-1、前列腺特异性膜抗原(PSMA)、CD44表面粘附分子、间皮素、癌胚抗原(CEA)、表皮生长因子受体(EGFR)、EGFRvIII、血管内皮生长因子受体-2(VEGFR2)、高分子量黑素瘤相关抗原(HMW-MAA)、MAGE-A1、IL-13R-a2、GD2等。在一些情况下，抗体对细胞因子具有特异性。在一些情况下，抗体对细胞因子受体具有特异性。在一些情况下，抗体对生长因子具有特异性。在一些情况下，抗体对生长因子受体具有特异性。在一些情况下，抗体对细胞表面受体具有特异性。在一些情况下，抗体是抗CD3抗体。

在一些情况下，靶分子和生物分子都是抗体。在一些情况下，靶分子是对第一抗原具有特异性的第一抗体，并且生物分子是对第二抗原具有特异性的第二抗体。第一抗原和第二抗原可以是完全分离的分子。例如，第一抗原可以是第一多肽，并且第二抗原可以是第二多肽。第一抗原可以是抗原展示的第一表位，并且第二抗原可以是相同抗原展示的第二表位。所得缀合物可以是双特异性抗体。

在一些情况下，生物分子赋予靶生物分子诸如以下的性质：i)增加的血清半衰期；ii)增加的免疫原性；iii)增强的药代动力学特性；iv)穿过血脑屏障的转运增加；等等。例如，在一些情况下，增加血清半衰期的生物分子是人血清白蛋白。在一些情况下，增加血清半衰期的生物分子是白蛋白结合域。在一些情况下，增加血清半衰期的生物分子是甲状腺素转运蛋白。在一些情况下，增加血清半衰期的生物分子是甲状腺激素结合蛋白。在一些情况下，生物分子是免疫球蛋白Fc多肽。在一些情况下，促进跨血脑屏障转运的生物分子是运铁蛋白受体(TR)、胰岛素受体(HIR)、胰岛素样生长因子受体(IGFR)、低密度脂蛋白受体相关蛋白1和2(LPR-1和2)、白喉毒素受体、美洲驼单结构域抗体、蛋白转导结构域、TAT、穿透素或聚精氨酸肽。

合适的生物分子包括小分子，例如癌症化疗剂。合适的癌症化疗剂包括例如烷化剂，如氮芥(例如苯丁酸氮芥、氮芥、环磷酰胺、异环磷酰胺和美法仑)；亚硝基脲类(例如，卡莫司汀、福莫司汀、洛莫司汀和链佐星)；铂化合物(例如，卡铂、顺铂、奥沙利铂和BBR3464)；白消安；达卡巴嗪；氮芥；丙卡巴肼；替莫唑胺；塞替派；乌拉莫司汀；抗代谢物，如叶酸(例如甲氨蝶呤、培美曲塞和雷替曲塞)；嘌呤(例如，克拉屈滨、氯法拉滨、氟达拉滨、巯嘌呤和硫鸟嘌呤)；嘧啶(例如，卡培他滨)；阿糖孢苷；氟尿嘧啶；吉西他滨；植物生物碱，如鬼臼(例如，依托泊苷和替尼泊苷)、紫杉烷(例如，多西他赛和紫杉醇)、长春花(例如，长春碱、长春新碱、长春地辛和长春瑞滨)；细胞毒性/抗肿瘤抗生素，如蒽环类家族成员(例如柔红霉素、多柔比星、表柔比星、伊达比星、米托蒽醌和戊柔比星)、博来霉素、利福平、羟基脲和丝裂霉素；拓扑异构酶抑制剂，如拓扑替康和伊立替康；光敏剂，如氨基乙酰丙酸、氨基乙酰丙酸甲酯、卟吩姆钠和维替泊芬；以及其他药剂，如阿利维A酸、六甲蜜胺、安吖啶、阿那格雷、三氧化二砷、天冬酰胺酶、阿西替尼、蓓萨罗丁、贝伐单抗、硼替佐米、塞来昔布、地尼白介素、厄洛替尼、雌莫司汀、吉非替尼、羟基尿素、伊马替尼、拉帕替尼、帕唑帕尼、喷司他丁、马索罗酚、米托坦、培门冬酶、他莫昔芬、索拉非尼、舒尼替尼、威罗菲尼、凡德他尼和维甲酸。例如，在一些情况下，靶分子是抗体；并且生物分子是癌症化疗剂。

合适的生物分子包括细胞因子、趋化因子、肽激素等。合适的生物分子包括例如干扰素(例如IFN-γ)；白介素(例如IL-1α、IL-1β、IL-2、IL-4、IL-5、IL-6、IL-7、IL-9、IL-10、IL-12p40、IL-12p70、IL-13、IL-15、IL-17等)；IP-10、KC、MCP-1、MIP-1α、MIP-1β、M-CSFMIP-2、MIG；α趋化因子(例如CXC趋化因子；例如CXC-1至CXC-17)；β趋化因子(CC趋化因子)如RANTES或CCL20(也称为MIP-3α)；肿瘤坏死因子-α(TNF-α)；嗜酸性粒细胞趋化因子；粒细胞集落刺激因子(G-CSF)；粒细胞-巨噬细胞-集落刺激因子(GM-CSF)；红细胞生成素；胰岛素；Gro-α；Groβ；Gro-γ；基质细胞衍生因子；血小板衍生生长因子(PDGF)；血管内皮生长因子(VEGF)；胰岛素样生长因子(IGF)；纤维母细胞生长因子(FGF)；表皮生长因子(EGF)；白血病抑制因子(LIF)；肝细胞生长因子(HGF)；血小板生成素；等等。

合适的生物分子包括核酸。在一些情况下，核酸是DNA分子。

在一些情况下，核酸是RNA分子。在一些情况下，核酸包含脱氧核糖核苷酸和核糖核苷酸两者。在一些情况下，核酸是单链DNA分子。在一些情况下，核酸是双链DNA分子。在一些情况下，核酸是单链RNA分子。合适的核酸包括例如小干扰RNA(siRNA)、短发夹RNA(shRNA)、微RNA(miRNA)、核酶等。合适的核酸包括作为或充当siRNA或其他RNA干扰试剂(RNAi药剂或iRNA药剂)、shRNA、反义寡核苷酸、自切割RNA、核酶、其片段和/或其变体(如肽基转移酶23S rRNA、RNA酶P、I型和II型内含子、GIR1分支核酶、Leadzyme、发夹核酶、锤头型核酶、HDV核酶、哺乳动物CPEB3核酶、VS核酶、glmS核酶、CoTC核酶等)、microRNA、microRNA模拟物、supermirs、适体、antimirs、antagomirs、Ul衔接子、三链体形成寡核苷酸、RNA激活因子、长非编码RNA、短非编码RNA(例如piRNA)、免疫调节寡核苷酸(如免疫刺激寡核苷酸、免疫抑制寡核苷酸)、GNA、LNA、ENA、PNA、TNA、HNA、TNA、XNA、HeNA、CeNA、吗啉、G-四链体(RNA和DNA)、抗病毒寡核苷酸和诱骗寡核苷酸。核酸可以具有任何长度，并且可以包括修饰的核糖核苷酸碱基、修饰的脱氧核糖核苷酸碱基、修饰的脱氧核糖、修饰的核糖和修饰的主链键合(例如硫代磷酸酯键合)中的一者或多者。

用于与CRISPR-Cas效应子多肽缀合的生物分子

在一些情况下，待缀合至靶多肽的生物分子是适合于缀合至CRISPR-Cas效应子多肽的生物分子。

在一些情况下，适合于缀合至CRISPR-Cas效应子多肽的生物分子是可以调节靶DNA的转录(例如，抑制转录、增加转录)的生物分子。例如，在一些情况下，生物分子是抑制转录的蛋白质(或来自蛋白质的结构域)(例如，转录阻遏物，一种通过转录抑制蛋白的募集、靶DNA的修饰诸如甲基化、DNA修饰物的募集、与靶DNA相关联的组蛋白的调节、组蛋白修饰物(诸如修饰组蛋白的乙酰化和/或甲基化的那些组蛋白修饰物)的募集等起作用的蛋白质)。在一些情况下，生物分子是增加转录的蛋白质(或来自蛋白质的结构域)(例如，转录激活因子，一种通过转录激活蛋白的募集、靶DNA的修饰诸如甲基化、DNA修饰物的募集、与靶DNA相关联的组蛋白的调节、组蛋白修饰物(诸如修饰组蛋白的乙酰化和/或甲基化的那些组蛋白修饰物)的募集等起作用的蛋白质)。

在一些情况下，适合于缀合至CRISPR-Cas效应子多肽的生物分子是具有修饰靶核酸的酶活性(例如，核酸酶活性如FokI核酸酶活性、甲基转移酶活性、脱甲基酶活性、DNA修复活性、DNA损伤活性、脱氨基活性、歧化酶活性、烷基化活性、脱嘌呤活性、氧化活性、嘧啶二聚体形成活性、整合酶活性、转座酶活性、重组酶活性、聚合酶活性、连接酶活性、解旋酶活性、光裂合酶活性或糖基化酶活性)的多肽。

在一些情况下，适合于缀合至CRISPR-Cas效应子多肽的生物分子是具有修饰与靶核酸相关联的多肽(例如，组蛋白)的酶活性(例如，甲基转移酶活性、脱甲基酶活性、乙酰转移酶活性、脱乙酰酶活性、激酶活性、磷酸酶活性、泛素连接酶活性、去泛素化活性、腺苷酸化活性、脱腺苷酸化活性、SUMO化活性、脱SUMO化活性、核糖基化活性、脱核糖基化活性、豆蔻酰化活性或脱豆蔻酰化活性)的多肽。

可用于增加转录并且适合作为用于缀合至CRISPR-Cas效应子多肽的生物分子的蛋白质(或其片段)的实例包括但不限于：转录激活因子，诸如VP16、VP64、VP48、VP160、p65亚结构域(例如，来自NFkB)以及EDLL的活化结构域和/或TAL激活结构域(例如，针对植物中的活性)；组蛋白赖氨酸甲基转移酶，诸如SET1A、SET1B、MLL1至5、ASH1、SYMD2、NSD1等；组蛋白赖氨酸脱甲基酶，诸如JHDM2a/b、UTX、JMJD3等；组蛋白乙酰转移酶，诸如GCN5、PCAF、CBP、p300、TAF1、TIP60/PLIP、MOZ/MYST3、MORF/MYST4、SRC1、ACTR、P160、CLOCK等；以及DNA脱甲基酶，诸如10-11易位(TET)双加氧酶1(TET1CD)、TET1、DME、DML1、DML2、ROS1等。

可用于减少转录并且适合作为适用于缀合至CRISPR-Cas效应子多肽的生物分子的蛋白质(或其片段)的实例包括但不限于：转录阻遏物，诸如Krüppel相关盒(KRAB或SKD)；KOX1阻遏结构域；Mad mSIN3相互作用结构域(SID)；ERF阻遏物结构域(ERD)、SRDX阻遏结构域(例如，针对植物中的阻遏)等；组蛋白赖氨酸甲基转移酶，诸如Pr-SET7/8、SUV4-20H1、RIZ1等；组蛋白赖氨酸脱甲基酶，诸如JMJD2A/JHDM3A、JMJD2B、JMJD2C/GASC1、JMJD2D、JARID1A/RBP2、JARID1B/PLU-1、JARID1C/SMCX、JARID1D/SMCY等；组蛋白赖氨酸脱乙酰酶，诸如HDAC1、HDAC2、HDAC3、HDAC8、HDAC4、HDAC5、HDAC7、HDAC9、SIRT1、SIRT2、HDAC11等；DNA甲基化酶，诸如HhaI DNA m5c-甲基转移酶(M.HhaI)、DNA甲基转移酶1(DNMT1)、DNA甲基转移酶3a(DNMT3a)、DNA甲基转移酶3b(DNMT3b)、METI、DRM3(植物)、ZMET2、CMT1、CMT2(植物)等；以及外周募集元件，诸如核纤层蛋白A、核纤层蛋白B等。

在一些情况下，待缀合至CRISPR-Cas效应子多肽的生物分子具有修饰靶核酸(例如ssRNA、dsRNA、ssDNA、dsDNA)的酶活性。可由生物分子提供的酶活性的实例包括但不限于：核酸酶活性，诸如由限制性酶(例如，FokI核酸酶)提供的活性；甲基转移酶活性，诸如由甲基转移酶(例如，HhaI DNA m5c-甲基转移酶(M.HhaI)、DNA甲基转移酶1(DNMT1)、DNA甲基转移酶3a(DNMT3a)、DNA甲基转移酶3b(DNMT3b)、METI、DRM3(植物)、ZMET2、CMT1、CMT2(植物)等)提供的活性；脱甲基酶活性，诸如由脱甲基酶(例如；10-11易位(TET)双加氧酶1(TET1CD)、TET1、DME、DML1、DML2、ROS1等)提供的活性；DNA修复活性；DNA损伤活性；脱氨基活性，诸如由脱氨酶(例如，胞嘧啶脱氨酶，诸如大鼠APOBEC1)提供的活性；歧化酶活性；烷基化活性；脱嘌呤活性；氧化活性；嘧啶二聚体形成活性；整合酶活性，诸如由整合酶和/或解离酶(例如，Gin转化酶诸如Gin转化酶的过度活跃突变体GinH106Y、人免疫缺陷病毒1型整合酶(IN)、Tn3解离酶等)提供的活性；转座酶活性；重组酶活性，诸如由重组酶(例如，Gin重组酶的催化结构域)提供的活性；聚合酶活性；连接酶活性；解旋酶活性；光裂合酶活性和糖基化酶活性)。

在一些情况下，待缀合至CRISPR-Cas效应子多肽的生物分子具有修饰与靶核酸(例如ssRNA、dsRNA、ssDNA、dsDNA)相关联的蛋白质(例如组蛋白、RNA结合蛋白、DNA结合蛋白等)的酶活性。可由生物分子提供的酶活性(修饰与靶核酸相关联的蛋白质)的实例包括但不限于：甲基转移酶活性，诸如由组蛋白甲基转移酶(HMT)(例如，花斑抑制因子3-9同源物1(SUV39H1，也称为KMT1A)、常染色体组蛋白赖氨酸甲基转移酶2(G9A，也称为KMT1C和EHMT2)、SUV39H2、ESET/SETDB1等、SET1A、SET1B、MLL1至5、ASH1、SYMD2、NSD1、DOT1L、Pr-SET7/8、SUV4-20H1、EZH2、RIZ1)提供的活性；脱甲基酶活性，诸如由组蛋白脱甲基酶(例如，赖氨酸脱甲基酶1A(KDM1A，也称为LSD1)、JHDM2a/b、JMJD2A/JHDM3A、JMJD2B、JMJD2C/GASC1、JMJD2D、JARID1A/RBP2、JARID1B/PLU-1、JARID1C/SMCX、JARID1D/SMCY、UTX、JMJD3等)提供的活性；乙酰转移酶活性，诸如由组蛋白乙酰转移酶(例如，人乙酰转移酶p300、GCN5、PCAF、CBP、TAF1、TIP60/PLIP、MOZ/MYST3、MORF/MYST4、HBO1/MYST2、HMOF/MYST1、SRC1、ACTR、P160、CLOCK等的催化核心/片段)提供的活性；脱乙酰酶活性，诸如由组蛋白脱乙酰酶(例如，HDAC1、HDAC2、HDAC3、HDAC8、HDAC4、HDAC5、HDAC7、HDAC9、SIRT1、SIRT2、HDAC11等)提供的活性；激酶活性；磷酸酶活性；泛素连接酶活性；去泛素化活性；腺苷酸化活性；脱腺苷酸化活性；SUMO化活性；脱SUMO化活性；核糖基化活性；脱核糖基化活性；豆蔻酰化活性和脱豆蔻酰化活性。

在一些情况下，待缀合至CRISPR-Cas效应子多肽的生物分子是催化活性核酸内切酶。例如，在一些情况下，靶多肽是CRISPR-Cas效应子多肽，其是无催化活性的(例如，不表现出核酸内切酶活性)并且保持靶核酸结合活性(当与指导RNA复合时)；并且待缀合至CRISPR-Cas效应子多肽的生物分子是催化活性核酸内切酶。例如，在一些情况下，催化活性核酸内切酶是FokI多肽。作为一个非限制性实例，在一些情况下，待缀合至CRISPR-Cas效应子多肽的生物分子是FokI核酸酶，其包含与下文提供的FokI氨基酸序列具有至少85％、至少90％、至少95％、至少98％、至少99％或100％氨基酸序列同一性的氨基酸序列；其中FokI核酸酶的长度为约195个氨基酸至约200个氨基酸。

FokI核酸酶氨基酸序列：

QLVKSELEEKKSELRHKLKYVPHEYIELIEIARNSTQDRILEMKVMEFFMKVYGYRGKHLGGSRKPDGAIYTVGSPIDYGVIVDTKAYSGGYNLPIGQADEMQRYVEENQTRNKHINPNEWWKVYPSSVTEFKFLFVSGHFKGNYKAQLTRLNHITNCNGAVLSVEELLIGGEMIKAGTLTLEEVRRKFNNGEINF(SEQ ID NO:886)。

在一些情况下，待缀合至CRISPR-Cas效应子多肽的生物分子是脱氨酶。在一些情况下，靶CRISPR-Cas效应子多肽是无催化活性的。合适的脱氨酶包括胞苷脱氨酶和腺苷脱氨酶。

合适的腺苷脱氨酶是能够使DNA中的腺苷脱氨基的任何酶。在一些情况下，脱氨酶是TadA脱氨酶。

在一些情况下，合适的腺苷脱氨酶包含与以下氨基酸序列具有至少80％、至少85％、至少90％、至少95％、至少98％、至少99％或100％氨基酸序列同一性的氨基酸序列：

MSEVEFSHEYWMRHALTLAKRAWDEREVPVGAVLVHNNRVIGE

GWNRPIGRHDPTAHAEIMALRQGGLVMQNYRLIDATLYVTLEPC

VMCAGAMIHSRIGRVVFGARDAKTGAAGSLMDVLHHPGMNHRVEITEGILADECAALLSDFFRMRRQEIKAQKKAQSSTD(SEQ ID NO:887)

MRRAFITGVFFLSEVEFSHEYWMRHALTLAKRAWDEREVPVGAV

LVHNNRVIGEGWNRPIGRHDPTAHAEIMALRQGGLVMQNYRLID

ATLYVTLEPCVMCAGAMIHSRIGRVVFGARDAKTGAAGSLMDVL

HHPGMNHRVEITEGILADECAALLSDFFRMRRQEIKAQKKAQSSTD(SEQ ID NO:888)。

在一些情况下，合适的腺苷脱氨酶包含与以下金黄色葡萄球菌TadA氨基酸序列具有至少80％、至少85％、至少90％、至少95％、至少98％、至少99％或100％氨基酸序列同一性的氨基酸序列：

MGSHMTNDIYFMTLAIEEAKKAAQLGEVPIGAIITKDDEVIARAHNLRETLQQPTAHAEHIAIERAAKVLGSWRLEGCTLYVTLEPCVMCAGTIVMSRIPRVVYGADDPKGGCSGSLMNLLQQSNFNHRAIVDKGVLKEACSTLLTTFFK NLRANKKSTN:(SEQ ID NO:889)

在一些情况下，合适的腺苷脱氨酶包含与以下枯草杆菌(Bacillus subtilis)TadA氨基酸序列具有至少80％、至少85％、至少90％、至少95％、至少98％、至少99％或100％氨基酸序列同一性的氨基酸序列：

MTQDELYMKEAIKEAKKAEEKGEVPIGAVLVINGEIIARAHNLRETEQRSIAHAEMLVIDEACKALGTWRLEGATLYVTLEPCPMCAGAVVLSRVEKVVFGAFDPKGGCSGTLMNLLQEERFNHQAEVVSGVLEEECGGMLSAFFRELRKKKKAARKNLSE(SEQ ID NO:890)

在一些情况下，合适的腺苷脱氨酶包含与以下鼠伤寒沙门菌(Salmonellatyphimurium)TadA具有至少80％、至少85％、至少90％、至少95％、至少98％、至少99％或100％氨基酸序列同一性的氨基酸序列：

MPPAFITGVTSLSDVELDHEYWMRHALTLAKRAWDEREVPVGAVLVHNHRVIGEGWNRPIGRHDPTAHAEIMALRQGGLVLQNYRLLDTTLYVTLEPCVMCAGAMVHSRIGRVVFGARDAKTGAAGSLIDVLHHPGMNHRVEIIEGVLRDECATLLSDFFRMRRQEIKALKKADRAEGAGPAV(SEQ ID NO:891)

在一些情况下，合适的腺苷脱氨酶包含与以下腐败希瓦菌(Shewanellaputrefaciens)TadA氨基酸序列具有至少80％、至少85％、至少90％、至少95％、至少98％、至少99％或100％氨基酸序列同一性的氨基酸序列：

MDEYWMQVAMQMAEKAEAAGEVPVGAVLVKDGQQIATGYNLSISQHDPTAHAEILCLRSAGKKLENYRLLDATLYITLEPCAMCAGAMVHSRIARVVYGARDEKTGAAGTVVNLLQHPAFNHQVEVTSGVLAEACSAQLSRFFKRRRDEKKALKLAQRAQQGIE(SEQ ID NO:892)

在一些情况下，合适的腺苷脱氨酶包含与以下流感嗜血杆菌(Haemophilusinfluenzae)F3031 TadA氨基酸序列具有至少80％、至少85％、至少90％、至少95％、至少98％、至少99％或100％氨基酸序列同一性的氨基酸序列：

MDAAKVRSEFDEKMMRYALELADKAEALGEIPVGAVLVDDARNIIGEGWNLSIVQSDPTAHAEIIALRNGAKNIQNYRLLNSTLYVTLEPCTMCAGAILHSRIKRLVFGASDYKTGAIGSRFHFFDDYKMNHTLEITSGVLAEECSQKLS TFFQKRREEKKIEKALLKSLSDK(SEQ ID NO:893)

在一些情况下，合适的腺苷脱氨酶包含与以下新月柄杆菌(Caulobactercrescentus)TadA氨基酸序列具有至少80％、至少85％、至少90％、至少95％、至少98％、至少99％或100％氨基酸序列同一性的氨基酸序列：

MRTDESEDQDHRMMRLALDAARAAAEAGETPVGAVILDPSTGEVIATAGNGPIAAHDPTAHAEIAAMRAAAAKLGNYRLTDLTLVVTLEPCAMCAGAISHARIGRVVFGADDPKGGAVVHGPKFFAQPTCHWRPEVTGGVLADESADLLRGFFRARRKAKI(SEQ ID NO:894)

在一些情况下，合适的腺苷脱氨酶包含与以下硫还原地杆菌(Geobactersulfurreducens)TadA氨基酸序列具有至少80％、至少85％、至少90％、至少95％、至少98％、至少99％或100％氨基酸序列同一性的氨基酸序列：

MSSLKKTPIRDDAYWMGKAIREAAKAAARDEVPIGAVIVRDGAVIGRGHNLREGSNDPSAHAEMIAIRQAARRSANWRLTGATLYVTLEPCLMCMGAIILARLERVVFGCYDPKGGAAGSLYDLSADPRLNHQVRLSPGVCQEECGTMLSDFFRDLRRRKKAKATPALFIDERKVPPEP(SEQ ID NO:895)

适合作为待缀合至CRISPR-Cas效应子多肽的生物分子的胞苷脱氨酶包括能够使DNA中的胞苷脱氨基的任何酶。

在一些情况下，胞苷脱氨酶是来自脱氨酶的载脂蛋白B mRNA-编辑复合物(APOBEC)家族的脱氨酶。在一些情况下，APOBEC家族脱氨酶选自由以下构成的组：APOBEC1脱氨酶、APOBEC2脱氨酶、APOBEC3A脱氨酶、APOBEC3B脱氨酶、APOBEC3C脱氨酶、APOBEC3D脱氨酶、APOBEC3F脱氨酶、APOBEC3G脱氨酶和APOBEC3H脱氨酶。在一些情况下，胞苷脱氨酶是激活诱导的脱氨酶(AID)。

在一些情况下，合适的胞苷脱氨酶包含与以下氨基酸序列具有至少80％、至少85％、至少90％、至少95％、至少98％、至少99％或100％氨基酸序列同一性的氨基酸序列：

MDSLLMNRRKFLYQFKNVRWAKGRRETYLCYVVKRRDSATSFSLDFGYLRNKNGCHVELLFLRYISDWDLDPGRCYRVTWFTSWSPCYDCARHVADFLRGNPNLSLRIFTARLYFCEDRKAEPEGLRRLHRAGVQIAIMTFKDYFYCWNTFVENHERTFKAWEGLHENSVRLSRQLRRILLPLYEVDDLRDAFRTLGL(SEQ ID NO:896)

在一些情况下，合适的胞苷脱氨酶是AID并且包含与以下氨基酸序列具有至少80％、至少85％、至少90％、至少95％、至少98％、至少99％或100％氨基酸序列同一性的氨基酸序列：MDSLLMNRRK FLYQFKNVRW AKGRRETYLC YVVKRRDSAT SFSLDFGYLR NKNGCHVELLFLRYISDWDL DPGRCYRVTW FTSWSPCYDC ARHVADFLRG NPNLSLRIFT ARLYFCEDRK AEPEGLRRLHRAGVQIAIMT FKENHERTFK AWEGLHENSV RLSRQLRRIL LPLYEVDDLR DAFRTLGL(SEQ ID NO:897)。

在一些情况下，合适的胞苷脱氨酶是AID并且包含与以下氨基酸序列具有至少80％、至少85％、至少90％、至少95％、至少98％、至少99％或100％氨基酸序列同一性的氨基酸序列：MDSLLMNRRK FLYQFKNVRW AKGRRETYLC YVVKRRDSAT SFSLDFGYLR NKNGCHVELLFLRYISDWDL DPGRCYRVTW FTSWSPCYDC ARHVADFLRG NPNLSLRIFT ARLYFCEDRK AEPEGLRRLHRAGVQIAIMT FKDYFYCWNT FVENHERTFK AWEGLHENSV RLSRQLRRIL LPLYEVDDLR DAFRTLGL(SEQ ID NO:898)。

在一些情况下，本公开的用于将生物分子缀合至CRISPR-Cas效应子多肽的方法在海藻糖的存在下进行。海藻糖的浓度可为25mM至约100mM(例如，25mM至50mM，50mM至100mM)。例如，在一些情况下，本公开的用于将生物分子缀合至CRISPR-Cas效应子多肽的方法在以下条件下进行：20mM Tris HCl、300mM KCl、50mM海藻糖pH 7.0、4℃1小时；10μMCRISPR-Cas效应子多肽。

靶分子

适于修饰的靶分子包括但不限于多肽、多核苷酸、碳水化合物、脂质、糖脂、糖多肽等。待根据本公开的方法修饰的靶分子包含或被修饰成包含酚部分或儿茶酚部分。

在一些情况下，靶分子是多肽(“靶多肽”)。

可以使用本公开的方法修饰的靶多肽包括但不限于酶、抗体、结构多肽、受体的配体、受体等。靶多肽可以包括结构蛋白；受体；酶；细胞表面蛋白；与细胞功能整合的蛋白质；参与催化活性的蛋白质；参与运动活动的蛋白质；参与解旋酶活性的蛋白质；参与代谢过程(合成代谢和分解代谢)的蛋白质；参与抗氧化活性的蛋白质；参与蛋白水解的蛋白质；参与生物合成的蛋白质；具有激酶活性的蛋白质；具有氧化还原酶活性的蛋白质；具有转移酶活性的蛋白质；具有水解酶活性的蛋白质；具有裂解酶活性的蛋白质；具有异构酶活性的蛋白质；具有连接酶活性的蛋白质；具有酶调节剂活性的蛋白质；具有信号转导活性的蛋白质；结构多肽；具有结合活性的多肽；受体多肽；参与细胞运动的蛋白质；参与膜融合的蛋白质；参与细胞通讯的蛋白质；参与调节生物过程的蛋白质；参与发育的蛋白质；参与细胞分化的蛋白质；参与刺激反应的蛋白质；行为蛋白；细胞粘附蛋白；参与细胞死亡的蛋白质；参与转运的蛋白质(包括蛋白质转运蛋白活性、核转运、离子转运蛋白活性、通道转运蛋白活性等)；参与分泌活性的蛋白质；参与电子转运蛋白活性的蛋白质；参与发病机理的蛋白质；参与伴侣蛋白调节剂活性的蛋白质；具有核酸结合活性的蛋白质；具有转录调节活性的蛋白质；参与细胞外组织的蛋白质；参与生物发生的蛋白质；参与转译调节的蛋白质；等等。

在一些情况下，靶多肽是抗体。抗体可以是任何基于抗原结合抗体的多肽，其种类繁多是本领域已知的。在一些情况下，抗体是单链Fv(scFv)。适合使用其他基于抗体的识别结构域(cAb VHH(骆驼科动物抗体可变结构域)和人源化形式、IgNAR VH(鲨鱼抗体可变结构域)和人源化形式、sdAb VH(单结构域抗体可变结构域)和“骆驼化”抗体可变结构域。在某些情况下，基于T细胞受体(TCR)的识别结构域如单链TCR(scTv，含有VαVβ的单链双结构域TCR)也适用。

在一些情况下，抗体选自：806、9E10、3F8、81C6、8H9、阿巴伏单抗、阿巴西普、阿昔单抗、阿比妥珠单抗、阿利鲁单抗、阿克托舒单抗、阿达木单抗、阿德木单抗、阿杜那单抗、阿非莫单抗、阿夫土珠、培戈-阿拉赛珠单抗、ALD518、阿法西普、阿仑单抗、阿利库单抗、喷替酸阿妥莫单抗、阿麦妥单抗、AMG 102、马安莫单抗、雷星-阿奈妥单抗、阿尼鲁单抗、安芦组单抗、阿泊珠单抗、阿西莫单抗、阿伐苏单抗、阿塞珠单抗、阿塞西普、阿特珠单抗、阿替奴单抗、托西珠单抗、阿托木单抗、AVE1642、巴匹组单抗、巴利昔单抗、巴维昔单抗、贝妥莫单抗、贝戈洛单抗、贝利木单抗、贝那利珠单抗、柏替木单抗、贝索单抗、贝伐珠单抗、贝洛托舒单抗、比西单抗、比玛卢单抗、比美吉珠单抗、美比伐珠单抗(Bivatuzumab mertansine)、兰妥莫单抗、布索组单抗、BMS-936559、伯考赛珠单抗、维布妥昔单抗、布雷奴单抗、柏达鲁单抗、布洛赛珠单抗、布隆妥珠单抗、卡那单抗、美坎组单抗、雷坎妥组单抗、卡拉西单抗、卡罗单抗喷地肽、卡芦单抗、卡妥索单抗、cBR96－多柔比星免疫缀合物、CC49、CDP791、西利珠单抗、培化舍单抗、西妥昔单抗、cG250、Ch.14.18、泊西他组单抗、西妥木单抗、克拉扎珠单抗、克立昔单抗、泰坦-克利妥珠单抗、考曲妥珠单抗、雷考妥昔单抗、可那木单抗、康西组单抗、CP 751871、CR6261、克瑞组单抗、CS-1008、达西组单抗、达克珠单抗、达罗托组单抗、培戈-达匹利珠单抗、达雷妥尤单抗、德屈库单抗、登赛珠单抗、马德尼妥组单抗、地诺单抗、地洛妥单抗生物素、地莫单抗、地努图希单抗、地利伏单抗、阿托度莫单抗、曲齐妥单抗、杜利他单抗、度匹鲁单抗、德瓦鲁单抗、度司妥单抗、依美昔单抗、依库珠单抗、埃巴单抗、依决洛单抗、依法珠单抗、依芬古单抗、埃迪鲁单抗、依更妥单抗、依妥组单抗、艾西莫单抗、依米妥珠单抗、依玛妥珠单抗、依那妥组单抗、维汀-恩弗妥单抗、培化恩莫单抗、依诺妥珠单抗、依诺凯组单抗、依诺苏单抗、恩妥昔单抗、西依匹莫单抗、依帕珠单抗、厄利珠单抗、厄妥索单抗、依那西普、埃达组单抗、依曲利组单抗、依维苏单抗、依洛尤单抗、艾韦单抗、F19、法索单抗(Fanolesomab)、法拉莫单抗、法妥组单抗、法司努单抗、FBTA05、泛维珠单抗、非扎奴单抗、非拉妥组单抗、芬妥木单抗、非利伏单抗、法兰妥单抗、夫来库单抗、芳妥珠单抗、福雷芦单抗、福拉韦单抗、非苏木单抗、福拉奴单抗、伏妥昔单抗、加利昔单抗、加尼妥单抗、更汀芦单抗、加维莫单抗、吉妥单抗、吉伏组单抗、吉妥昔单抗、维汀-格巴妥木单抗(Glembatumumabvedotin)、戈利木单抗、戈利昔单抗、古塞奇尤单抗、HGS-ETR2、hu3S193、huA33、伊巴组单抗、替伊莫单抗、艾芦库单抗、艾达赛珠单抗、IGN101、IgN311、伊戈伏单抗、IIIA4、IM-2C6、IMAB362、伊玛鲁单抗、IMC-A12、英西单抗、伊马曲单抗、伊拉库单抗(Inclacumab)、雷英妥昔单抗、维汀-英度妥单抗、英利昔单抗、伊诺莫单抗、伊组单抗奥加米星、英妥木单抗、伊匹木单抗、伊妥木单抗、艾萨妥昔单抗、伊利组单抗、伊卡组单抗、J591、KB004、凯利昔单抗、KW-2871、拉贝珠单抗、帕博利珠单抗、兰帕利珠单抗、来瑞组单抗、来马索单抗、仑兹鲁单抗、乐德木单抗、来沙木单抗、利韦单抗、维汀-利法妥珠单抗、利戈组单抗、赛塔坦立罗妥单抗(Lilotomab satetraxetan)、林妥珠单抗、利瑞鲁单抗、洛迪赛珠单抗、洛吉维单抗、莫星-洛沃妥珠单抗、卢卡木单抗、培戈-鲁利珠单抗、鲁昔单抗、鲁妥珠单抗、马帕木单抗、玛格妥昔单抗、马司莫单抗、马妥珠单抗、玛弗利木单抗、MEDI4736、美泊珠单抗、美替木单抗、METMAB、米拉组单抗、明瑞莫单抗、索星-米妥昔单抗、米妥莫单抗、MK-0646、MK-3475、MM-121、莫格利组单抗、MORAb-003、莫罗木单抗、莫维组单抗、MOv18、帕西妥莫单抗、MPDL33280A、莫罗单抗-CD3、他那可单抗、那美芦单抗、埃托-那普妥莫单抗、纳奈妥单抗、那他珠单抗、奈巴库单抗、奈妥木单抗、奈莫利珠单抗、奈瑞莫单抗、奈伐苏单抗、尼妥组单抗、纳武单抗、巯诺莫单抗、奥托萨昔单抗、奥滨尤妥珠单抗、奥卡妥珠单抗、奥瑞组单抗、奥度莫单抗、奥法木单抗、奥拉妥单抗、奥洛组单抗、奥马珠单抗、奥那妥组单抗、昂妥昔珠单抗、奥匹努单抗、莫妥组单抗、奥戈伏单抗、奥替苏单抗、奥昔组单抗、奥乐妥珠单抗、奥塞芦单抗、奥扎奈珠单抗、奥利组单抗、帕昔单抗、帕利珠单抗、帕木单抗、潘科曼单抗、帕巴库单抗、帕萨妥珠单抗、帕考珠单抗、帕妥昔珠单抗、帕替组单抗、帕曲妥单抗、帕博利珠单抗、排姆妥姆单抗(Pemtumomab)、培拉凯珠单抗、珀妥珠单抗、培克珠单抗、匹地利珠单抗、维汀-匹那妥珠单抗、平妥单抗、普拉鲁单抗、维汀-波妥珠单抗(Polatuzumab vedotin)、泊奈组单抗、普立昔单抗、瑞托萨昔单抗、普林木单抗、PRO 140、奎利珠单抗、R1507、雷妥莫单抗、雷曲妥单抗、雷韦单抗、雷泮赛珠单抗、雷莫芦单抗、雷珠单抗、雷昔库单抗、瑞法奈珠单抗、瑞加韦单抗、瑞利珠单抗、利妥木单抗、利努苏单抗、利妥昔单抗、罗妥木单抗、罗来度单抗、洛莫索珠单抗、隆利组单抗、罗维珠单抗、卢利珠单抗、戈维替康-沙西妥珠单抗、沙马组单抗、沙利姆单抗(Sarilumab)、喷地肽沙妥莫单抗、SCH 900105、司库奴单抗、瑟瑞妥单抗、瑟托萨昔单抗、司韦单抗、SGN-CD19A、SGN-CD33A、西罗珠单抗、西法木单抗、塞妥昔单抗、辛妥珠单抗、西利珠单抗、西鲁库单抗、维汀-索非妥珠单抗、苏兰组单抗、索利托单抗、索奈普单抗(Sonepcizumab)、松妥组单抗、司他芦单抗、硫索单抗、舒维组单抗、他贝芦单抗、替赛坦他卡妥珠单抗(Tacatuzumab tetraxetan)、他度组单抗、他利珠单抗、他尼组单抗、帕他莫单抗、他瑞妥单抗、替非组单抗、阿替莫单抗、替妥莫单抗、替奈昔单抗、替利组单抗、替妥木单抗、特度鲁单抗、特度洛单抗(Tetulomab)、TGN1412、替西木单抗/曲美木单抗(Ticilimumab/tremelimumab)、替加组单抗、替拉珠单抗、TNX-650、托珠单抗、托利珠单抗、托萨托舒单抗、托西莫单抗、托维妥单抗、曲罗芦单抗、曲司珠单抗、TRBS07、曲利组单抗、曲美木单抗、曲戈卢单抗、西莫白介素单抗、妥韦单抗、乌妥昔单抗、乌洛鲁单抗、乌瑞芦单抗、乌珠单抗、乌司奴单抗、维汀-万多妥珠单抗、万替妥单抗、伐努赛珠单抗、伐利昔单抗、伐立鲁单抗、伐利组单抗、维多组单抗、维妥组单抗、维帕莫单抗、维森库单抗、维西珠单抗、伏洛昔单抗、玛汀-沃瑟妥珠单抗、伏妥莫单抗、扎芦木单抗、扎木单抗、扎妥昔单抗(Zatuximab)、齐拉木单抗和阿佐莫单抗。

在一些情况下，靶多肽是CRISPR-Cas效应子多肽。合适的CRISPR-Cas效应子多肽是2类CRISPR/Cas核酸内切酶，诸如II型、V型或VI型CRISPR-Cas效应子多肽。在一些情况下，合适的RNA指导的核酸内切酶是2类CRISPR/Cas核酸内切酶。在一些情况下，合适的RNA指导的核酸内切酶是2类II型CRISPR/Cas核酸内切酶(例如Cas9蛋白)。在一些情况下，CRISPR-Cas效应子多肽是2类V型CRISPR-Cas效应子多肽(例如，Cpf1蛋白、C2c1蛋白或C2c3蛋白)。在一些情况下，合适的CRISPR-Cas效应子多肽是2类VI型CRISPR-Cas效应子多肽(例如，C2c2蛋白；也称为“Cas13a”蛋白)。还合适的是CasX蛋白。还合适的是CasY蛋白。

在一些情况下，CRISPR/Cas效应子多肽是II型CRISPR/Cas效应子多肽。在一些情况下，CRISPR/Cas效应子多肽是Cas9多肽。Cas9蛋白借助于其与Cas9指导RNA的蛋白结合区段的缔合而被引导至靶核酸序列(例如染色体序列或染色体外序列，例如游离体序列、微环序列，线粒体序列、叶绿体序列等)内的靶位点(例如，在靶位点处稳定)。在一些情况下，Cas9多肽包含与SEQ ID NO:753中所示的酿脓链球菌(Streptococcus pyogenes)Cas9具有至少50％、至少60％、至少70％、至少80％、至少90％、至少95％、至少98％、至少99％或大于99％氨基酸序列同一性的氨基酸序列。在一些情况下，Cas9多肽包含SEQ ID NO:5-816中任一个所示的氨基酸序列。在一些情况下，Cas9多肽包含与SEQ ID NO:5-816中任一个所示的氨基酸序列具有至少50％、至少60％、至少70％、至少80％、至少90％、至少95％、至少98％、至少99％或大于99％的氨基酸序列同一性的氨基酸序列。

在一些情况下，Cas9多肽是金黄色葡萄球菌Cas9(saCas9)多肽。在一些情况下，saCas9多肽包含与SEQ ID NO:249中所示的saCas9氨基酸序列具有至少85％、至少90％、至少95％、至少98％、至少99％或100％氨基酸序列同一性的氨基酸序列。

在一些情况下，Cas9多肽是空肠弯曲菌(Campylobacter jejuni)Cas9(CjCas9)多肽。CjCas9将5′-NNNVRYM-3′识别为前间隔序列邻近基序(PAM)。CjCas9的氨基酸序列在SEQID NO:55中给出。在一些情况下，合适的Cas9多肽包含与SEQ ID NO:55中所示的CjCas9氨基酸序列具有至少50％、至少60％、至少70％、至少80％、至少90％、至少95％、至少98％、至少99％或大于99％氨基酸序列同一性的氨基酸序列。

在一些情况下，合适的Cas9多肽是高保真(HF)Cas9多肽。Kleinstiver等人(2016)Nature 529:490。例如，酿脓链球菌Cas9氨基酸序列(例如，SEQ ID NO:5)的氨基酸N497、R661、Q695和Q926被例如丙氨酸取代。例如，HF Cas9多肽可包含与酿脓链球菌Cas9(例如，SEQ ID NO:5)具有至少90％、至少95％、至少98％、至少99％或100％氨基酸序列同一性的氨基酸序列，其中氨基酸N497、R661、Q695和Q926被例如丙氨酸取代。在一些情况下，合适的Cas9多肽表现出改变的PAM特异性。参见，例如，Kleinstiver等人(2015)Nature523:481。

在一些情况下，合适的Cas9多肽包含与以下Cas9-HF1序列具有至少90％、至少95％、至少98％、至少99％或100％氨基酸序列同一性的氨基酸序列：

DKKYSIGLAIGTNSVGWAVITDEYKVPSKKFKVLGNTDRHSIKKNLIGALLFDSGETAEATRLKRTARRRYTRRKNRICYLQEIFSNEMAKVDDSFFHRLEESFLVEEDKKHERHPIFGNIVDEVAYHEKYPTIYHLRKKLVDSTDKADLRLIYLALAHMIKFRGHFLIEGDLNPDNSDVDKLFIQLVQTYNQLFEENPINASGVDAKAILSARLSKSRRLENLIAQLPGEKKNGLFGNLIALSLGLTPNFKSNFDLAEDAKLQLSKDTYDDDLDNLLAQIGDQYADLFLAAKNLSDAILLSDILRVNTEITKAPLSASMIKRYDEHHQDLTLLKALVRQQLPEKYKEIFFDQSKNGYAGYIDGGASQEEFYKFIKPILEKMDGTEELLVKLNREDLLRKQRTFDNGSIPHQIHLGELHAILRRQEDFYPFLKDNREKIEKILTFRIPYYVGPLARGNSRFAWMTRKSEETITPWNFEEVVDKGASAQSFIERMTAFDKNLPNEKVLPKHSLLYEYFTVYNELTKVKYVTEGMRKPAFLSGEQKKAIVDLLFKTNRKVTVKQLKEDYFKKIECFDSVEISGVEDRFNASLGTYHDLLKIIKDKDFLDNEENEDILEDIVLTLTLFEDREMIEERLKTYAHLFDDKVMKQLKRRRYTGWGALSRKLINGIRDKQSGKTILDFLKSDGFANRNFMALIHDDSLTFKEDIQKAQVSGQGDSLHEHIANLAGSPAIKKGILQTVKVVDELVKVMGRHKPENIVIEMARENQTTQKGQKNSRERMKRIEEGIKELGSQILKEHPVENTQLQNEKLYLYYLQNGRDMYVDQELDINRLSDYDVDHIVPQSFLKDDSIDNKVLTRSDKNRGKSDNVPSEEVVKKMKNYWRQLLNAKLITQRKFDNLTKAERGGLSELDKAGFIKRQLVETRAITKHVAQILDSRMNTKYDENDKLIREVKVITLKSKLVSDFRKDFQFYKVREINNYHHAHDAYLNAVVGTALIKKYPKLESEFVYGDYKVYDVRKMIAKSEQEIGKATAKYFFYSNIMNFFKTEITLANGEIRKRPLIETNGETGEIVWDKGRDFATVRKVLSMPQVNIVKKTEVQTGGFSKESILPKRNSDKLIARKKDWDPKKYGGFDSPTVAYSVLVVAKVEKGKSKKLKSVKELLGITIMERSSFEKNPIDFLEAKGYKEVKKDLIIKLPKYSLFELENGRKRMLASAGELQKGNELALPSKYVNFLYLASHYEKLKGSPEDNEQKQLFVEQHKHYLDEIIEQISEFSKRVILADANLDKVLSAYNKHRDKPIREQAENIIHLFTLTNLGAPAAFKYFDTTIDRKRYTSTKEVLDATLIHQSITGLYETRIDLSQLGGD(SEQ ID NO:899)。

在一些情况下，合适的CRISPR/Cas效应子多肽是V型CRISPR/Cas效应子多肽。在一些情况下，V型CRISPR/Cas效应子多肽是Cpf1蛋白。在一些情况下，Cpf1蛋白包含与SEQ IDNO:818-822中任一个所示的Cpf1氨基酸序列具有至少30％、至少35％、至少40％、至少45％、至少50％、至少55％、至少60％、至少65、，至少70％、至少75％、至少80％、至少85％、至少90％、至少95％、至少90％或100％氨基酸序列一致性的氨基酸序列。

在一些情况下，合适的CRISPR/Cas效应子多肽是CasX或CasY多肽。CasX和CasY多肽描述于Burstein等人(2017)Nature 542:237中。

在一些情况下，合适的CRISPR/Cas效应子多肽是包含与异源多肽(也称为“融合配偶体”)融合的CRISPR/Cas效应子多肽的融合蛋白。在一些情况下，CRISPR/Cas效应子多肽与提供亚细胞定位的氨基酸序列(融合配偶体)融合，即融合配偶体是亚细胞定位序列(例如，用于靶向细胞核的一个或多个核定位信号(NLS)、两个或更多个NLS、三个或更多个NLS等)。

与2类CRISPR/Cas效应子多肽(例如，Cas9蛋白；V型或VI型CRISPR/Cas蛋白；Cpf1蛋白)结合并且将复合物靶向靶核酸内的特定位置的核酸在本文中称为“指导RNA”或“CRISPR/Cas指导核酸”或“CRISPR/Cas指导RNA”。指导RNA通过包括靶向区段提供对复合物(RNP复合物)的靶特异性，所述靶向区段包括作为与靶核酸序列互补的核苷酸序列的指导序列(本文也称为靶向序列)。

在一些情况下，指导RNA包括两个分开的核酸分子：“激活因子”和“靶向子”，并且在本文中被称为“双指导RNA”、“双分子指导RNA(double-molecule guide RNA)”、“双分子指导RNA(two-molecule guide RNA)”或“dgRNA”。在一些情况下，指导RNA是一个分子(例如，对于一些2类CRISPR/Cas蛋白，相应的指导RNA是单分子；并且在一些情况下，激活因子和靶向子例如通过插入核苷酸彼此共价连接)，并且指导RNA被称为“单指导RNA”、“单分子指导RNA(single-molecule guide RNA)”、“单分子指导RNA(one-molecule guide RNA)”或简称为“sgRNA”。

2类CRISPR/Cas效应子多肽

在2类CRISPR系统中，效应子复合物的功能(例如，靶DNA的切割)通过单核酸内切酶进行(例如，参见Zetsche等人Cell.2015年10月22日；163(3):759-71；Makarova等人,NatRev Microbiol.2015年11月；13(11):722-36；Shmakov等人,Mol Cell.2015年11月5日；60(3):385-97)；和Shmakov等人(2017)Nature Reviews Microbiology15:169。因此，术语“2类CRISPR/Cas蛋白”在本文中用于涵盖来自2类CRISPR系统的CRISPR/Cas效应子多肽(例如，靶核酸切割蛋白)。因此，如本文所用的术语“2类CRISPR/Cas效应子多肽”涵盖II型CRISPR/Cas效应子多肽(例如，Cas9)；V-A型CRISPR/Cas效应子多肽(例如，Cpf1(也称为“Cas12a”))；V-B型CRISPR/Cas效应子多肽(例如，C2c1(也称为“Cas12b”))；V-C型CRISPR/Cas效应子多肽(例如，C2c3(也称为“Cas12c”))；V-U1型CRISPR/Cas效应子多肽(例如，C2c4)；V-U2型CRISPR/Cas效应子多肽(例如，C2c8)；V-U5型CRISPR/Cas效应子多肽(例如，C2c5)；V-U4型CRISPR/Cas蛋白(例如，C2c9)；V-U3型CRISPR/Cas效应子多肽(例如，C2c10)；VI-A型CRISPR/Cas效应子多肽(例如，C2c2(也称为“Cas13a”))；VI-B型CRISPR/Cas效应子多肽(例如，Cas13b(也称为C2c4))；和VI-C型CRISPR/Cas效应子多肽(例如，Cas13c(也称为C2c7))。迄今为止，2类CRISPR/Cas效应子多肽涵盖II型、V型和VI型CRISPR/Cas效应子多肽，但该术语还意指涵盖适合于结合至相对应的指导RNA并形成RNP复合物的任何2类CRISPR/Cas效应子多肽。

II型CRISPR/Cas核酸内切酶(例如，Cas 9)

在天然II型CRISPR/Cas系统中，Cas9起到RNA指导的核酸内切酶的作用，该核酸内切酶使用具有crRNA和反式激活crRNA(tracrRNA)的双指导RNA，用于通过涉及Cas9中的两个核酸酶活性位点的机制进行靶标识别和切割，该核酸酶活性位点一起产生双链DNA断裂(DSB)，或可以单独产生单链DNA断裂(SSB)。II型CRISPR核酸内切酶Cas9和工程化的双指导(dgRNA)或单指导RNA(sgRNA)形成可以靶向期望的DNA序列的核糖核蛋白(RNP)复合物。通过双RNA复合物或嵌合的单指导RNA指导，Cas9在双链DNA(dsDNA)靶核酸内产生位点特异性DSB或SSB，其通过非同源末端连接(NHEJ)或同源定向重组(HDR)修复。

II型CRISPR/Cas效应子多肽是一种类型的2类CRISPR/Cas核酸内切酶。在一些情况下，II型CRISPR/Cas核酸内切酶是Cas9蛋白。Cas9蛋白与Cas9指导RNA形成复合物。指导RNA通过具有与靶核酸(如本文别处所述)的序列(靶位点)互补的核苷酸序列(指导序列)而提供对Cas9指导RNA复合物的靶特异性。复合物的Cas9蛋白提供位点特异性活性。换言之，Cas9蛋白借助于其与Cas9指导RNA的蛋白结合区段的缔合而被引导至靶核酸序列(例如染色体序列或染色体外序列，例如游离型序列、微环序列、线粒体序列、叶绿体序列等)内的靶位点(例如在靶位点处稳定)。

Cas9蛋白可结合和/或修饰(例如，切割、切口、甲基化、去甲基化等)靶核酸和/或与靶核酸相关的多肽(例如，组蛋白尾部的甲基化或乙酰化)(例如，当Cas9蛋白包括具有活性的融合配偶体时)。在一些情况下，Cas9蛋白是天然存在的蛋白(例如，天然存在于细菌和/或古细菌细胞中)。在其他情况下，Cas9蛋白不是天然存在的多肽(例如，Cas9蛋白是变体Cas9蛋白、嵌合蛋白等)。

合适的Cas9蛋白的实例包括但不限于SEQ ID NO:5-816中所示的那些。天然存在的Cas9蛋白结合Cas9指导RNA，从而导向靶核酸(靶位点)内的特定序列，并切割靶核酸(例如，切割dsDNA以产生双链断裂，切割ssDNA，切割ssRNA等)。嵌合Cas9蛋白是包含与异源蛋白(称为融合配偶体)融合的Cas9多肽的融合蛋白，其中该异源蛋白提供活性(例如，不是由Cas9蛋白提供的活性)。融合配偶体可提供活性，例如酶活性(例如核酸酶活性、DNA和/或RNA甲基化活性、DNA和/或RNA切割活性、组蛋白乙酰化活性、组蛋白甲基化活性、RNA修饰活性、RNA结合活性、RNA剪接活性等)。在一些情况下，Cas9蛋白的一部分(例如，RuvC结构域和/或HNH结构域)相对于野生型Cas9蛋白的相应部分(例如，在一些情况下，Cas9蛋白是切口酶)表现出降低的核酸酶活性。在一些情况下，Cas9蛋白是酶失活的，或相对于野生型Cas9蛋白(例如，相对于酿脓链球菌Cas9)具有降低的酶活性。

在某些情况下，融合蛋白包含：a)无催化活性的Cas9蛋白(或其他无催化活性的CRISPR效应子多肽)；和b)催化活性核酸内切酶。例如，在一些情况下，催化活性核酸内切酶是FokI多肽。作为一个非限制性实例，在一些情况下，融合蛋白包含：a)无催化活性的Cas9蛋白(或其他无催化活性的CRISPR效应子多肽)；和b)是FokI核酸酶，该FokI核酸酶包含与下文提供的FokI氨基酸序列具有至少85％、至少90％、至少95％、至少98％、至少99％或100％氨基酸序列同一性的氨基酸序列；其中FokI核酸酶的长度为约195个氨基酸至约200个氨基酸。

FokI核酸酶氨基酸序列：

QLVKSELEEKKSELRHKLKYVPHEYIELIEIARNSTQDRILEMKVMEFFMKVYGYRGKHLGGSRKPDGAIYTVGSPIDYGVIVDTKAYSGGYNLPIGQADEMQRYVEENQTRNKHINPNEWWKVYPSSVTEFKFLFVSGHFKGNYKAQLTRLNHITNCNGAVLSVEELLIGGEMIKAGTLTLEEVRRKFNNGEINF(SEQ ID NO:900)。

用于确定给定蛋白质是否与Cas9指导RNA相互作用的分析可以是测试蛋白质和核酸之间结合的任何方便的结合分析。合适的结合分析(例如，凝胶位移分析)将是本领域普通技术人员已知的(例如，包括向靶核酸中添加Cas9指导RNA和蛋白质的分析)。

用于确定蛋白质是否具有活性(例如，用于确定蛋白质是否具有切割靶核酸的核酸酶活性和/或一些异源活性)的分析可以是任何方便的分析(例如，测试核酸切割的任何方便的核酸切割分析)。合适的分析(例如，切割分析)将是本领域普通技术人员已知的并且可以包括将Cas9指导RNA和蛋白质添加至靶核酸中。

在一些情况下，合适的Cas9蛋白包含与SEQ ID NO:5中所示的Cas9氨基酸序列的氨基酸7-166或731-1003，或与SEQ ID NO:6-816中所示的任一个氨基酸序列中的相应部分具有60％或更多、70％或更多、75％或更多、80％或更多、85％或更多、90％或更多、95％或更多、99％或更多或100％氨基酸序列同一性的氨基酸序列。

各种Cas9蛋白(和Cas9结构域结构)和Cas9指导RNA的实例(以及关于与存在于靶向核酸中的前间隔序列邻近基序(PAM)序列有关的要求的信息)可以在本领域中找到，例如，参见Jinek等人,Science.2012年8月17日；337(6096):816-21；Chylinski等人,RNABiol.2013年5月；10(5):726-37；Ma等人,Biomed Res Int.2013；2013:270805；Hou等人,Proc Natl Acad Sci U S A.2013年9月24日；110(39):15644-9；Jinek等人,Elife.2013；2:e00471；Pattanayak等人,Nat Biotechnol.2013年9月；31(9):839-43；Qi等人,Cell.2013年2月28日；152(5):1173-83；Wang等人,Cell.2013年5月9日；153(4):910-8；Auer等人,Genome Res.2013年10月31日；Chen等人,Nucleic Acids Res.2013年11月1日；41(20):e19；Cheng等人,Cell Res.2013年10月；23(10):1163-71；Cho等人,Genetics.2013年11月；195(3):1177-80；DiCarlo等人,Nucleic Acids Res.2013年4月；41(7):4336-43；Dickinson等人,Nat Methods.2013年10月；10(10):1028-34；Ebina等人,Sci Rep.2013；3:2510；Fujii等人,Nucleic Acids Res.2013年11月1日；41(20):e187；Hu等人,CellRes.2013年11月；23(11):1322-5；Jiang等人,Nucleic Acids Res.2013年11月1日；41(20):e188；Larson等人,Nat Protoc.2013年11月；8(11):2180-96；Mali等人,NatMethods.2013年10月；10(10):957-63；Nakayama等人,Genesis.2013年12月；51(12):835-43；Ran等人,Nat Protoc.2013年11月；8(11):2281-308；Ran等人,Cell.2013年9月12日；154(6):1380-9；Upadhyay等人,G3(Bethesda).2013年12月9日；3(12):2233-8；Walsh等人,Proc Natl Acad Sci U S A.2013年9月24日；110(39):15514-5；Xie等人,Mol Plant.2013年10月9日；Yang等人,Cell.2013年9月12日；154(6):1370-9；Briner等人,Mol Cell.2014年10月23日；56(2):333-9；Shmakov等人,Nat Rev Microbiol.2017年3月；15(3):169-182；以及美国专利和专利申请：8,906,616；8,895,308；8,889,418；8,889,356；8,871,445；8,865,406；8,795,965；8,771,945；8,697,359；20140068797；20140170753；20140179006；20140179770；20140186843；20140186919；20140186958；20140189896；20140227787；20140234972；20140242664；20140242699；20140242700；20140242702；20140248702；20140256046；20140273037；20140273226；20140273230；20140273231；20140273232；20140273233；20140273234；20140273235；20140287938；20140295556；20140295557；20140298547；20140304853；20140309487；20140310828；20140310830；20140315985；20140335063；20140335620；20140342456；20140342457；20140342458；20140349400；20140349405；20140356867；20140356956；20140356958；20140356959；20140357523；20140357530；20140364333；以及20140377868；所述文献中的每一者特此以全文引用的方式并入。

变体Cas9蛋白-切口酶和dCas9

在一些情况下，Cas9蛋白是变体Cas9蛋白。当与相对应的野生型Cas9蛋白的氨基酸序列相比时，变体Cas9蛋白具有至少一个氨基酸不同的氨基酸序列(例如，具有缺失、插入、取代、融合)。在一些情况下，变体Cas9蛋白具有降低Cas9蛋白的核酸酶活性的氨基酸改变(例如，缺失、插入或取代)。例如，在一些情况下，变体Cas9蛋白具有相对应的野生型Cas9蛋白的50％或更少、40％或更少、30％或更少、20％或更少、10％或更少、5％或更少、或1％或更少的核酸酶活性。在一些情况下，变体Cas9蛋白基本上不具有核酸酶活性。当Cas9蛋白是基本上不具有核酸酶活性的变体Cas9蛋白时，其可被称为核酸酶缺陷型Cas9蛋白或“死亡”Cas9的“dCas9”。切割双链靶核酸的一条链但不切割另一条链的蛋白(例如，2类CRISPR/Cas蛋白，例如，Cas9蛋白)在本文中称为“切口酶”(例如，“切口酶Cas9”)。

在一些情况下，变体Cas9蛋白可切割靶核酸的互补链(在本领域中有时称为靶链)，但切割靶核酸的非互补链(在本领域中有时称为非靶链)的能力降低。例如，变体Cas9蛋白可具有降低RuvC结构域功能的突变(氨基酸取代)。因此，Cas9蛋白可以是切割互补链但不切割非互补链的切口酶。作为一个非限制性实例，在一些实施方案中，变体Cas9蛋白在对应于SEQ ID NO:5的残基D10(例如，D10A，天冬氨酸至丙氨酸)的氨基酸位置(或SEQ IDNO:6-261和264-816中所示的任何蛋白的对应位置)处具有突变，并且因此可以切割双链靶核酸的互补链，但切割双链靶核酸的非互补链的能力降低(因此当变体Cas9蛋白切割双链靶核酸时导致单链断裂(SSB)而不是双链断裂(DSB))(参见例如Jinek等人,Science.2012年8月17日；337(6096):816-21)。参见例如SEQ ID NO:262。

在一些情况下，变体Cas9蛋白可切割靶核酸的非互补链，但切割靶核酸的互补链的能力降低。例如，变体Cas9蛋白可具有降低HNH结构域功能的突变(氨基酸取代)。因此，Cas9蛋白可以是切割非互补链但不切割互补链的切口酶。作为一个非限制性实例，在一些实施方案中，变体Cas9蛋白在对应于SEQ ID NO:5的残基H840(例如，H840A突变，组氨酸至丙氨酸)的氨基酸位置(或如SEQ ID NO:6-261和264-816所示的任何蛋白的对应位置)处具有突变，并且因此可切割靶核酸的非互补链，但切割(例如，不切割)靶核酸的互补链的能力降低。此类Cas9蛋白切割靶核酸(例如单链靶核酸)的能力降低，但保留结合靶核酸(例如单链靶核酸)的能力。参见例如SEQ ID NO:263。

在一些情况下，变体Cas9蛋白切割双链靶核酸的互补链和非互补链两者的能力降低。作为一个非限制性实例，在一些情况下，变体Cas9蛋白在对应于SEQ ID NO:5的残基D10和H840(例如，D10A和H840A)(或如SEQ ID NO:6-261和264-816所示的任何蛋白的对应残基)的氨基酸位置处具有突变，使得多肽切割(例如，不切割)靶核酸的互补链和非互补链两者的能力降低。此类Cas9蛋白切割靶核酸(例如单链或双链靶核酸)的能力降低，但保留结合靶核酸的能力。不能切割靶核酸(例如，由于一个或多个突变，例如在RuvC和HNH结构域的催化结构域中)的Cas9蛋白被称为“死亡”Cas9或简称为“dCas9”。参见例如SEQ ID NO:264。

V型和VI型CRISPR/Cas核酸内切酶

在一些情况下，合适的CRISPR/Cas效应子多肽是V型或VI型CRISPR/Cas核酸内切酶(即，CRISPR/Cas效应子多肽是V型或VI型CRISPR/Cas核酸内切酶)(例如，Cpf1、C2c1、C2c2、C2c3)。V型和VI型CRISPR/Cas核酸内切酶是一种类型的2类CRISPR/Cas核酸内切酶。V型CRISPR/Cas核酸内切酶的实例包括但不限于：Cpf1、C2c1和C2c3。VI型CRISPR/Cas效应子多肽的实例是C2c2。在一些情况下，合适的CRISPR/Cas效应子多肽是V型CRISPR/Cas核酸内切酶(例如，Cpf1、C2c1、C2c3)。在一些情况下，V型CRISPR/Cas效应子多肽是Cpf1蛋白。在一些情况下，合适的CRISPR/Cas效应子多肽是VI型CRISPR/Cas核酸内切酶(例如，Cas13a)。

与II型CRISPR/Cas核酸内切酶一样，V型和VI型CRISPR/Cas核酸内切酶与相应的指导RNA形成复合物。指导RNA通过具有与靶核酸(如本文别处所述)的序列(靶位点)互补的核苷酸序列(指导序列)来提供对核酸内切酶-指导RNA RNP复合物的靶特异性。复合物的核酸内切酶提供位点特异性活性。换言之，核酸内切酶借助于其与指导RNA的蛋白质结合区段的缔合而被引导至靶核酸序列(例如染色体序列或染色体外序列，例如游离型序列、微环序列、线粒体序列、叶绿体序列等)内的靶位点(例如，在靶位点处稳定)。

与V型和VI型CRISPR/Cas蛋白(例如，Cpf1、C2c1、C2c2和C2c3指导RNA)相关的实例和指导可见于本领域中，例如参见Zetsche等人,Cell.2015年10月22日；163(3):759-71；Makarova等人,Nat Rev Microbiol.2015年11月；13(11):722-36；Shmakov等人,MolCell.2015年11月5日；60(3):385-97；以及Shmakov等人(2017)Nature ReviewsMicrobiology 15:169。

在一些情况下，V型或VI型CRISPR/Cas核酸内切酶(例如，Cpf1、C2c1、C2c2、C2c3)具有酶活性，例如，V型或VI型CRISPR/Cas多肽在结合至指导RNA时切割靶核酸。在一些情况下，V型或VI型CRISPR/Cas核酸内切酶(例如，Cpf1、C2c1、C2c2、C2c3)相对于相应的野生型V型或VI型CRISPR/Cas核酸内切酶(例如，Cpf1、C2c1、C2c2、C2c3)表现出降低的酶活性，并且保留DNA结合活性。

在一些情况下，V型CRISPR/Cas核酸内切酶是Cpf1蛋白。在一些情况下，Cpf1蛋白包含与SEQ ID NO:818-822中任一个所示的Cpf1氨基酸序列具有至少30％、至少35％、至少40％、至少45％、至少50％、至少55％、至少60％、至少65％、至少70％、至少75％、至少80％、至少85％、至少90％、至少95％、至少90％或100％氨基酸序列同一性的氨基酸序列。在一些情况下，Cpf1蛋白包含与SEQ ID NO:818-822中任一个所示的Cpf1氨基酸序列的100个氨基酸至200个氨基酸(aa)、200个aa至400个aa、400个aa至600个aa、600个aa至800个aa、800个aa至1000个aa、1000个aa至1100个aa、1100个aa至1200个aa或1200个aa至1300个aa的连续段具有至少30％、至少35％、至少40％、至少45％、至少50％、至少55％、至少60％、至少65％、至少70％、至少75％、至少80％、至少85％、至少90％、至少95％、至少90％或100％氨基酸序列一致性的氨基酸序列。

在一些情况下，Cpf1蛋白包含与SEQ ID NO:818-822中任一个所示的Cpf1氨基酸序列的RuvCI结构域具有至少30％、至少35％、至少40％、至少45％、至少50％、至少55％、至少60％、至少65％、至少70％、至少75％、至少80％、至少85％、至少90％、至少95％、至少90％或100％氨基酸序列同一性的氨基酸序列。在一些情况下，Cpf1蛋白包含与SEQ ID NO:818-822中任一个所示的Cpf1氨基酸序列的RuvCII结构域具有至少30％、至少35％、至少40％、至少45％、至少50％、至少55％、至少60％、至少65％、至少70％、至少75％、至少80％、至少85％、至少90％、至少95％、至少90％或100％氨基酸序列同一性的氨基酸序列。在一些情况下，Cpf1蛋白包含与SEQ ID NO:818-822中任一个所示的Cpf1氨基酸序列的RuvCIII结构域具有至少30％、至少35％、至少40％、至少45％、至少50％、至少55％、至少60％、至少65％、至少70％、至少75％、至少80％、至少85％、至少90％、至少95％、至少90％或100％氨基酸序列同一性的氨基酸序列。在一些情况下，Cpf1蛋白包含与SEQ ID NO:818-822中任一个所示的Cpf1氨基酸序列的RuvCI、RuvCII和RuvCIII结构域具有至少30％、至少35％、至少40％、至少45％、至少50％、至少55％、至少60％、至少65％、至少70％、至少75％、至少80％、至少85％、至少90％、至少95％、至少90％或100％氨基酸序列同一性的氨基酸序列。

在一些情况下，Cpf1蛋白相对于野生型Cpf1蛋白(例如，相对于包含SEQ ID NO:818-822中任一个所示的氨基酸序列的Cpf1蛋白)表现出降低的酶活性，并且保留DNA结合活性。在一些情况下，Cpf1蛋白包含与SEQ ID NO:818-822中任一个所示的Cpf1氨基酸序列具有至少30％、至少35％、至少40％、至少45％、至少50％、至少55％、至少60％、至少65％、至少70％、至少75％、至少80％、至少85％、至少90％、至少95％、至少90％或100％氨基酸序列一致性的氨基酸序列；并且在对应于SEQ ID NO:818中所示的Cpf1氨基酸序列的氨基酸917的氨基酸残基处包含氨基酸取代(例如，D→A取代)。在一些情况下，Cpf1蛋白包含与SEQID NO:818-822中任一个所示的Cpf1氨基酸序列具有至少30％、至少35％、至少40％、至少45％、至少50％、至少55％、至少60％、至少65％、至少70％、至少75％、至少80％、至少85％、至少90％、至少95％、至少90％或100％氨基酸序列一致性的氨基酸序列；并且在对应于SEQID NO:818中所示的Cpf1氨基酸序列的氨基酸1006的氨基酸残基处包含氨基酸取代(例如，E→A取代)。在一些情况下，Cpf1蛋白包含与SEQ ID NO:818-822中任一个所示的Cpf1氨基酸序列具有至少30％、至少35％、至少40％、至少45％、至少50％、至少55％、至少60％、至少65％、至少70％、至少75％、至少80％、至少85％、至少90％、至少95％、至少90％或100％氨基酸序列一致性的氨基酸序列；并且在对应于SEQ ID NO:818中所示的Cpf1氨基酸序列的氨基酸1255的氨基酸残基处包含氨基酸取代(例如，D→A取代)。

在一些情况下，合适的Cpf1蛋白包含与SEQ ID NO:818-822中任一个所示的Cpf1氨基酸序列具有至少30％、至少35％、至少40％、至少45％、至少50％、至少55％、至少60％、至少65％、至少70％、至少75％、至少80％、至少85％、至少90％、至少95％、至少90％或100％氨基酸序列同一性的氨基酸序列。

在一些情况下，V型CRISPR/Cas核酸内切酶是C2c1蛋白(实例包括如SEQ ID NO:823-830所示的那些)。在一些情况下，C2c1蛋白包含与SEQ ID NO:823-830中任一个所示的C2c1氨基酸序列具有至少30％、至少35％、至少40％、至少45％、至少50％、至少55％、至少60％、至少65％、至少70％、至少75％、至少80％、至少85％、至少90％、至少95％、至少90％或100％氨基酸序列同一性的氨基酸序列。在一些情况下，C2c1蛋白包含与SEQ ID NO:823-830中任一个所示的C2c1氨基酸序列的100个氨基酸至200个氨基酸(aa)、200个aa至400个aa、400个aa至600个aa、600个aa至800个aa、800个aa至1000个aa、1000个aa至1100个aa、1100个aa至1200个aa或1200个aa至1300个aa的连续段具有至少30％、至少35％、至少40％、至少45％、至少50％、至少55％、至少60％、至少65％、至少70％、至少75％、至少80％、至少85％、至少90％、至少95％、至少90％或100％氨基酸序列同一性的氨基酸序列。

在一些情况下，C2c1蛋白包含与SEQ ID NO:823-830中任一个所示的C2c1氨基酸序列的RuvCI结构域具有至少30％、至少35％、至少40％、至少45％、至少50％、至少55％、至少60％、至少65％、至少70％、至少75％、至少80％、至少85％、至少90％、至少95％、至少90％或100％氨基酸序列同一性的氨基酸序列)。在一些情况下，C2c1蛋白包含与SEQ IDNO:823-830中任一个所示的C2c1氨基酸序列的RuvCII结构域具有至少30％、至少35％、至少40％、至少45％、至少50％、至少55％、至少60％、至少65％、至少70％、至少75％、至少80％、至少85％、至少90％、至少95％、至少90％或100％氨基酸序列同一性的氨基酸序列。在一些情况下，C2c1蛋白包含与SEQ ID NO:823-830中任一个所示的C2c1氨基酸序列的RuvCIII结构域具有至少30％、至少35％、至少40％、至少45％、至少50％、至少55％、至少60％、至少65％、至少70％、至少75％、至少80％、至少85％、至少90％、至少95％、至少90％或100％氨基酸序列同一性的氨基酸序列。在一些情况下，C2c1蛋白包含与SEQ ID NO:823-830中任一个所示的C2c1氨基酸序列的RuvCI、RuvCII和RuvCIII结构域具有至少30％、至少35％、至少40％、至少45％、至少50％、至少55％、至少60％、至少65％、至少70％、至少75％、至少80％、至少85％、至少90％、至少95％、至少90％或100％氨基酸序列同一性的氨基酸序列。

在一些情况下，V型CRISPR/Cas核酸内切酶是C2c3蛋白(实例包括如SEQ ID NO:831-834所示的那些)。在一些情况下，C2c3蛋白包含与SEQ ID NO:831-834中任一个所示的C2c3氨基酸序列具有至少30％、至少35％、至少40％、至少45％、至少50％、至少55％、至少60％、至少65％、至少70％、至少75％、至少80％、至少85％、至少90％、至少95％、至少90％或100％氨基酸序列同一性的氨基酸序列。在一些情况下，C2c3蛋白包含与SEQ ID NO:831-834中任一个所示的C2c3氨基酸序列的100个氨基酸至200个氨基酸(aa)、200个aa至400个aa、400个aa至600个aa、600个aa至800个aa、800个aa至1000个aa、1000个aa至1100个aa、1100个aa至1200个aa或1200个aa至1300个aa的连续段具有至少30％、至少35％、至少40％、至少45％、至少50％、至少55％、至少60％、至少65％、至少70％、至少75％、至少80％、至少85％、至少90％、至少95％、至少90％或100％氨基酸序列同一性的氨基酸序列。

在一些情况下，C2c3蛋白包含与SEQ ID NO:831-834中任一个所示的C2c3氨基酸序列的RuvCI结构域具有至少30％、至少35％、至少40％、至少45％、至少50％、至少55％、至少60％、至少65％、至少70％、至少75％、至少80％、至少85％、至少90％、至少95％、至少90％或100％氨基酸序列同一性的氨基酸序列。在一些情况下，C2c3蛋白包含与SEQ ID NO:831-834中任一个所示的C2c3氨基酸序列的RuvCII结构域具有至少30％、至少35％、至少40％、至少45％、至少50％、至少55％、至少60％、至少65％、至少70％、至少75％、至少80％、至少85％、至少90％、至少95％、至少90％或100％氨基酸序列同一性的氨基酸序列。在一些情况下，C2c3蛋白包含与SEQ ID NO:831-834中任一个所示的C2c3氨基酸序列的RuvCIII结构域具有至少30％、至少35％、至少40％、至少45％、至少50％、至少55％、至少60％、至少65％、至少70％、至少75％、至少80％、至少85％、至少90％、至少95％、至少90％或100％氨基酸序列同一性的氨基酸序列。在一些情况下，C2c3蛋白包含与SEQ ID NO:831-834中任一个所示的C2c3氨基酸序列的RuvCI、RuvCII和RuvCIII结构域具有至少30％、至少35％、至少40％、至少45％、至少50％、至少55％、至少60％、至少65％、至少70％、至少75％、至少80％、至少85％、至少90％、至少95％、至少90％或100％氨基酸序列同一性的氨基酸序列。

在一些情况下，C2c3蛋白相对于野生型C2c3蛋白(例如，相对于包含SEQ ID NO:831-834中任一个所示的氨基酸序列的C2c3蛋白)表现出降低的酶活性，并且保留DNA结合活性。在一些情况下，合适的C2c3蛋白包含与SEQ ID NO:831-834中任一个所示的C2c3氨基酸序列具有至少30％、至少35％、至少40％、至少45％、至少50％、至少55％、至少60％、至少65％、至少70％、至少75％、至少80％、至少85％、至少90％、至少95％、至少90％或100％氨基酸序列同一性的氨基酸序列。

在一些情况下，VI型CRISPR/Cas核酸内切酶是C2c2蛋白(实例包括如SEQ ID NO:835-846所示的那些)。在一些情况下，C2c2蛋白包含与SEQ ID NO:835-846中任一个所示的C2c2氨基酸序列具有至少30％、至少35％、至少40％、至少45％、至少50％、至少55％、至少60％、至少65％、至少70％、至少75％、至少80％、至少85％、至少90％、至少95％、至少90％或100％氨基酸序列同一性的氨基酸序列。在一些情况下，C2c2蛋白包含与SEQ ID NO:835-846中任一个所示的C2c2氨基酸序列的100个氨基酸至200个氨基酸(aa)、200个aa至400个aa、400个aa至600个aa、600个aa至800个aa、800个aa至1000个aa、1000个aa至1100个aa、1100个aa至1200个aa或1200个aa至1300个aa的连续段具有至少30％、至少35％、至少40％、至少45％、至少50％、至少55％、至少60％、至少65％、至少70％、至少75％、至少80％、至少85％、至少90％、至少95％、至少90％或100％氨基酸序列同一性的氨基酸序列。

在一些情况下，C2c2蛋白包含与SEQ ID NO:835-846中任一个所示的C2c2氨基酸序列的RuvCI结构域具有至少30％、至少35％、至少40％、至少45％、至少50％、至少55％、至少60％、至少65％、至少70％、至少75％、至少80％、至少85％、至少90％、至少95％、至少90％或100％氨基酸序列同一性的氨基酸序列。在一些情况下，C2c2蛋白包含与SEQ ID NO:835-846中任一个所示的C2c2氨基酸序列的RuvCII结构域具有至少30％、至少35％、至少40％、至少45％、至少50％、至少55％、至少60％、至少65％、至少70％、至少75％、至少80％、至少85％、至少90％、至少95％、至少90％或100％氨基酸序列同一性的氨基酸序列。在一些情况下，C2c2蛋白包含与SEQ ID NO:835-846中任一个所示的C2c2氨基酸序列的RuvCIII结构域具有至少30％、至少35％、至少40％、至少45％、至少50％、至少55％、至少60％、至少65％、至少70％、至少75％、至少80％、至少85％、至少90％、至少95％、至少90％或100％氨基酸序列同一性的氨基酸序列。在一些情况下，C2c2蛋白包含与SEQ ID NO:835-846中任一个所示的C2c2氨基酸序列的RuvCI、RuvCII和RuvCIII结构域具有至少30％、至少35％、至少40％、至少45％、至少50％、至少55％、至少60％、至少65％、至少70％、至少75％、至少80％、至少85％、至少90％、至少95％、至少90％或100％氨基酸序列同一性的氨基酸序列。

在一些情况下，C2c2蛋白相对于野生型C2c2蛋白(例如，相对于包含SEQ ID NO:835-846中任一个所示的氨基酸序列的C2c2蛋白)表现出降低的酶活性，并且保留DNA结合活性。在一些情况下，合适的C2c2蛋白包含与SEQ ID NO:835-846中任一个所示的C2c2氨基酸序列具有至少30％、至少35％、至少40％、至少45％、至少50％、至少55％、至少60％、至少65％、至少70％、至少75％、至少80％、至少85％、至少90％、至少95％、至少90％或100％氨基酸序列同一性的氨基酸序列。

与V型或VI型CRISPR/Cas核酸内切酶(包括结构域结构)和指导RNA有关的实例和指导(以及关于与存在于靶核酸中的前间隔序列邻近基序(PAM)序列有关的要求的信息)可以在本领域中找到，例如参见Zetsche等人,Cell.2015年10月22日；163(3):759-71；Makarova等人,Nat Rev Microbiol.2015年11月；13(11):722-36；Shmakov等人,MolCell.2015年11月5日；60(3):385-97；以及Shmakov等人,Nat Rev Microbiol.2017年3月；15(3):169-182；以及美国专利和专利申请：9,580,701；20170073695、20170058272、20160362668、20160362667、20160298078、20160289637、20160215300、20160208243和20160208241，所述文献中的每一者特此以全文引用的方式并入。

CasX和CasY蛋白

合适的CRISPR/Cas效应子多肽包括CasX和CasY多肽。参见例如Burstein等人(2017)Nature 542:237。合适的CasX多肽包括WO2018/064371中描述的那些。合适的CasY多肽包括WO 2018/064352中描述的那些。

CRISPR/Cas效应子融合多肽

在一些情况下，CRISPR/Cas效应子多肽是CRISPR/Cas效应子融合多肽，其包含：i)CRISPR/Cas效应子多肽；和ii)异源融合配偶体。

在一些情况下，融合配偶体可调节靶DNA的转录(例如，抑制转录、增加转录)。例如，在一些情况下，融合配偶体是抑制转录的蛋白质(或来自蛋白质的结构域)(例如，转录阻遏物，一种通过转录抑制蛋白的募集、靶DNA的修饰诸如甲基化、DNA修饰物的募集、与靶DNA相关联的组蛋白的调节、组蛋白修饰物(诸如修饰组蛋白的乙酰化和/或甲基化的那些组蛋白修饰物)的募集等起作用的蛋白质)。在一些情况下，融合配偶体是增加转录的蛋白质(或来自蛋白质的结构域)(例如，转录激活因子，一种通过转录激活蛋白的募集、靶DNA的修饰诸如甲基化、DNA修饰物的募集、与靶DNA相关联的组蛋白的调节、组蛋白修饰物(诸如修饰组蛋白的乙酰化和/或甲基化的那些组蛋白修饰物)的募集等起作用的蛋白质)。

在一些情况下，CRISPR/Cas效应子融合多肽包括具有修饰靶核酸的酶活性(例如，核酸酶活性(诸如FokI核酸酶活性)、甲基转移酶活性、脱甲基酶活性、DNA修复活性、DNA损伤活性、脱氨基活性、歧化酶活性、烷基化活性、脱嘌呤活性、氧化活性、嘧啶二聚体形成活性、整合酶活性、转座酶活性、重组酶活性、聚合酶活性、连接酶活性、解旋酶活性、光裂合酶活性或糖基化酶活性)的异源多肽。

在一些情况下，CRISPR/Cas效应子融合多肽包括具有修饰与靶核酸相关联的多肽(例如，组蛋白)的酶活性(例如，甲基转移酶活性、脱甲基酶活性、乙酰转移酶活性、脱乙酰酶活性、激酶活性、磷酸酶活性、泛素连接酶活性、去泛素化活性、腺苷酸化活性、脱腺苷酸化活性、SUMO化活性、脱SUMO化活性、核糖基化活性、脱核糖基化活性、豆蔻酰化活性或脱豆蔻酰化活性)的异源多肽。

可用于增加转录且适合作为异源融合配偶体的蛋白质(或其片段)的实例包括但不限于：转录激活因子，诸如VP16、VP64、VP48、VP160、p65亚结构域(例如，来自NFkB)以及EDLL的激活结构域和/或TAL激活结构域(例如，针对植物中的活性)；组蛋白赖氨酸甲基转移酶，诸如SET1A、SET1B、MLL1至5、ASH1、SYMD2、NSD1等；组蛋白赖氨酸脱甲基酶，诸如JHDM2a/b、UTX、JMJD3等；组蛋白乙酰转移酶，诸如GCN5、PCAF、CBP、p300、TAF1、TIP60/PLIP、MOZ/MYST3、MORF/MYST4、SRC1、ACTR、P160、CLOCK等；以及DNA脱甲基酶，诸如10-11易位(TET)双加氧酶1(TET1CD)、TET1、DME、DML1、DML2、ROS1等。

可用于减少转录且适合作为异源融合配偶体的蛋白质(或其片段)的实例包括但不限于：转录阻遏物，诸如Krüppel相关盒(KRAB或SKD)；KOX1阻遏结构域；Mad mSIN3相互作用结构域(SID)；ERF阻遏物结构域(ERD)、SRDX阻遏结构域(例如，针对植物中的阻遏)等；组蛋白赖氨酸甲基转移酶，诸如Pr-SET7/8、SUV4-20H1、RIZ1等；组蛋白赖氨酸脱甲基酶，诸如JMJD2A/JHDM3A、JMJD2B、JMJD2C/GASC1、JMJD2D、JARID1A/RBP2、JARID1B/PLU-1、JARID1C/SMCX、JARID1D/SMCY等；组蛋白赖氨酸脱乙酰酶，诸如HDAC1、HDAC2、HDAC3、HDAC8、HDAC4、HDAC5、HDAC7、HDAC9、SIRT1、SIRT2、HDAC11等；DNA甲基化酶，诸如HhaI DNA m5c-甲基转移酶(M.HhaI)、DNA甲基转移酶1(DNMT1)、DNA甲基转移酶3a(DNMT3a)、DNA甲基转移酶3b(DNMT3b)、METI、DRM3(植物)、ZMET2、CMT1、CMT2(植物)等；以及外周募集元件，诸如核纤层蛋白A、核纤层蛋白B等。

在一些情况下，融合配偶体具有修饰靶核酸(例如，ssRNA、dsRNA、ssDNA、dsDNA)的酶活性。可由融合配偶体提供的酶活性的实例包括但不限于：核酸酶活性，诸如由限制性酶(例如，FokI核酸酶)提供的活性；甲基转移酶活性，诸如由甲基转移酶(例如，HhaI DNAm5c-甲基转移酶(M.HhaI)、DNA甲基转移酶1(DNMT1)、DNA甲基转移酶3a(DNMT3a)、DNA甲基转移酶3b(DNMT3b)、METI、DRM3(植物)、ZMET2、CMT1、CMT2(植物)等)提供的活性；脱甲基酶活性，诸如由脱甲基酶(例如；10-11易位(TET)双加氧酶1(TET1CD)、TET1、DME、DML1、DML2、ROS1等)提供的活性；DNA修复活性；DNA损伤活性；脱氨基活性，诸如由脱氨酶(例如，胞嘧啶脱氨酶，诸如大鼠APOBEC1)提供的活性；歧化酶活性；烷基化活性；脱嘌呤活性；氧化活性；嘧啶二聚体形成活性；整合酶活性，诸如由整合酶和/或解离酶(例如，Gin转化酶诸如Gin转化酶的过度活跃突变体GinH106Y、人免疫缺陷病毒1型整合酶(IN)、Tn3解离酶等)提供的活性；转座酶活性；重组酶活性，诸如由重组酶(例如，Gin重组酶的催化结构域)提供的活性；聚合酶活性；连接酶活性；解旋酶活性；光裂合酶活性和糖基化酶活性)。

在一些情况下，融合配偶体具有修饰与靶核酸(例如，ssRNA、dsRNA、ssDNA、dsDNA)相关联的蛋白质(例如，组蛋白、RNA结合蛋白、DNA结合蛋白等)的酶活性。可由融合配偶体提供的酶活性(修饰与靶核酸相关联的蛋白质)的实例包括但不限于：甲基转移酶活性，诸如由组蛋白甲基转移酶(HMT)(例如，花斑抑制因子3-9同源物1(SUV39H1，也称为KMT1A)、常染色体组蛋白赖氨酸甲基转移酶2(G9A，也称为KMT1C和EHMT2)、SUV39H2、ESET/SETDB1等、SET1A、SET1B、MLL1至5、ASH1、SYMD2、NSD1、DOT1L、Pr-SET7/8、SUV4-20H1、EZH2、RIZ1)提供的活性；脱甲基酶活性，诸如由组蛋白脱甲基酶(例如，赖氨酸脱甲基酶1A(KDM1A，也称为LSD1)、JHDM2a/b、JMJD2A/JHDM3A、JMJD2B、JMJD2C/GASC1、JMJD2D、JARID1A/RBP2、JARID1B/PLU-1、JARID1C/SMCX、JARID1D/SMCY、UTX、JMJD3等)提供的活性；乙酰转移酶活性，诸如由组蛋白乙酰转移酶(例如，人乙酰转移酶p300、GCN5、PCAF、CBP、TAF1、TIP60/PLIP、MOZ/MYST3、MORF/MYST4、HBO1/MYST2、HMOF/MYST1、SRC1、ACTR、P160、CLOCK等的催化核心/片段)提供的活性；脱乙酰酶活性，诸如由组蛋白脱乙酰酶(例如，HDAC1、HDAC2、HDAC3、HDAC8、HDAC4、HDAC5、HDAC7、HDAC9、SIRT1、SIRT2、HDAC11等)提供的活性；激酶活性；磷酸酶活性；泛素连接酶活性；去泛素化活性；腺苷酸化活性；脱腺苷酸化活性；SUMO化活性；脱SUMO化活性；核糖基化活性；脱核糖基化活性；豆蔻酰化活性和脱豆蔻酰化活性。

在一些情况下，融合蛋白包含：a)无催化活性的CRISPR/Cas效应子多肽(例如，无催化活性的Cas9多肽)；以及b)催化活性核酸内切酶。例如，在一些情况下，催化活性核酸内切酶是FokI多肽。作为一个非限制性实例，在一些情况下，融合蛋白包含：a)无催化活性的Cas9蛋白(或其他无催化活性的CRISPR效应子多肽)；和b)是FokI核酸酶，其包含与下文提供的FokI氨基酸序列具有至少85％、至少90％、至少95％、至少98％、至少99％或100％氨基酸序列同一性的氨基酸序列；其中FokI核酸酶具有约195个氨基酸至约200个氨基酸的长度。

FokI核酸酶氨基酸序列：

QLVKSELEEKKSELRHKLKYVPHEYIELIEIARNSTQDRILEMKVMEFFMKVYGYRGKHLGGSRKPDGAIYTVGSPIDYGVIVDTKAYSGGYNLPIGQADEMQRYVEENQTRNKHINPNEWWKVYPSSVTEFKFLFVSGHFKGNYKAQLTRLNHITNCNGAVLSVEELLIGGEMIKAGTLTLEEVRRKFNNGEINF(SEQ ID NO:901)。

在一些情况下，融合配偶体是脱氨酶。因此，在一些情况下，CRISPR/Cas效应子多肽融合多肽包含：a)CRISPR/Cas效应子多肽；和b)脱氨酶。在一些情况下，CRISPR/Cas效应子多肽是无催化活性的。合适的脱氨酶包括胞苷脱氨酶和腺苷脱氨酶。

MSEVEFSHEYWMRHALTLAKRAWDEREVPVGAVLVHNNRVIGEGWNRPIGRHDPTAHAEIMALRQGGLVMQNYRLIDATLYVTLEPCVMCAGAMIHSRIGRVVFGARDAKTGAAGSLMDVLHHPGMNHRVEITEGILADECAALLSDFFRMRRQEIKAQKKAQSSTD(SEQ ID NO:902)

MRRAFITGVFFLSEVEFSHEYWMRHALTLAKRAWDEREVPVGAVLVHNNRVIGEGWNRPIGRHDPTAHAEIMALRQGGLVMQNYRLIDATLYVTLEPCVMCAGAMIHSRIGRVVFGARDAKTGAAGSLMDVLHHPGMNHRVEITEGILADECAALLSDFFRMRRQEIKAQKKAQSSTD(SEQ ID NO:903)。

MGSHMTNDIYFMTLAIEEAKKAAQLGEVPIGAIITKDDEVIARAHNLRETLQQPTAHAEHIAIERAAKVLGSWRLEGCTLYVTLEPCVMCAGTIVMSRIPRVVYGADDPKGGCSGSLMNLLQQSNFNHRAIVDKGVLKEACSTLLTTFFK NLRANKKSTN:(SEQ ID NO:904)

在一些情况下，合适的腺苷脱氨酶包含与以下枯草杆菌TadA氨基酸序列具有至少80％、至少85％、至少90％、至少95％、至少98％、至少99％或100％氨基酸序列同一性的氨基酸序列：

MTQDELYMKEAIKEAKKAEEKGEVPIGAVLVINGEIIARAHNLRETEQRSIAHAEMLVIDEACKALGTWRLEGATLYVTLEPCPMCAGAVVLSRVEKVVFGAFDPKGGCSGTLMNLLQEERFNHQAEVVSGVLEEECGGMLSAFFRELRKKKKAARKNLSE(SEQ ID NO:905)

MPPAFITGVTSLSDVELDHEYWMRHALTLAKRAWDEREVPVGAVLVHNHRVIGEGWNRPIGRHDPTAHAEIMALRQGGLVLQNYRLLDTTLYVTLEPCVMCAGAMVHSRIGRVVFGARDAKTGAAGSLIDVLHHPGMNHRVEIIEGVLRDECATLLSDFFRMRRQEIKALKKADRAEGAGPAV(SEQ ID NO:906)

在一些情况下，合适的腺苷脱氨酶包含与以下腐败希瓦菌TadA氨基酸序列具有至少80％、至少85％、至少90％、至少95％、至少98％、至少99％或100％氨基酸序列同一性的氨基酸序列：

MDEYWMQVAMQMAEKAEAAGEVPVGAVLVKDGQQIATGYNLSISQHDPTAHAEILCLRSAGKKLENYRLLDATLYITLEPCAMCAGAMVHSRIARVVYGARDEKTGAAGTVVNLLQHPAFNHQVEVTSGVLAEACSAQLSRFFKRRRDEKKALKLAQRAQQGIE(SEQ ID NO:907)

在一些情况下，合适的腺苷脱氨酶包含与以下流感嗜血杆菌F3031 TadA氨基酸序列具有至少80％、至少85％、至少90％、至少95％、至少98％、至少99％或100％氨基酸序列同一性的氨基酸序列：

MDAAKVRSEFDEKMMRYALELADKAEALGEIPVGAVLVDDARNIIGEGWNLSIVQSDPTAHAEIIALRNGAKNIQNYRLLNSTLYVTLEPCTMCAGAILHSRIKRLVFGASDYKTGAIGSRFHFFDDYKMNHTLEITSGVLAEECSQKLS TFFQKRREEKKIEKALLKSLSDK(SEQ ID NO:908)

在一些情况下，合适的腺苷脱氨酶包含与以下新月柄杆菌TadA氨基酸序列具有至少80％、至少85％、至少90％、至少95％、至少98％、至少99％或100％氨基酸序列同一性的氨基酸序列：

MRTDESEDQDHRMMRLALDAARAAAEAGETPVGAVILDPSTGEVIATAGNGPIAAHDPTAHAEIAAMRAAAAKLGNYRLTDLTLVVTLEPCAMCAGAISHARIGRVVFGADDPKGGAVVHGPKFFAQPTCHWRPEVTGGVLADESADLLRGFFRARRKAKI(SEQ ID NO:909)

MSSLKKTPIRDDAYWMGKAIREAAKAAARDEVPIGAVIVRDGAVIGRGHNLREGSNDPSAHAEMIAIRQAARRSANWRLTGATLYVTLEPCLMCMGAIILARLERVVFGCYDPKGGAAGSLYDLSADPRLNHQVRLSPGVCQEECGTMLSDFFRDLRRRKKAKATPALFIDERKVPPEP(SEQ ID NO:910)

适合于包括在CRISPR/Cas效应子多肽融合多肽中的胞苷脱氨酶包括能够使DNA中的胞苷脱氨基的任何酶。

MDSLLMNRRKFLYQFKNVRWAKGRRETYLCYVVKRRDSATSFSLDFGYLRNKNGCHVELLFLRYISDWDLDPGRCYRVTWFTSWSPCYDCARHVADFLRGNPNLSLRIFTARLYFCEDRKAEPEGLRRLHRAGVQIAIMTFKDYFYCWNTFVENHERTFKAWEGLHENSVRLSRQLRRILLPLYEVDDLRDAFRTLGL(SEQ ID NO:911)

在一些情况下，合适的胞苷脱氨酶是AID并且包含与以下氨基酸序列具有至少80％、至少85％、至少90％、至少95％、至少98％、至少99％或100％氨基酸序列同一性的氨基酸序列：MDSLLMNRRK FLYQFKNVRW AKGRRETYLC YVVKRRDSAT SFSLDFGYLR NKNGCHVELLFLRYISDWDL DPGRCYRVTW FTSWSPCYDC ARHVADFLRG NPNLSLRIFT ARLYFCEDRK AEPEGLRRLHRAGVQIAIMT FKENHERTFK AWEGLHENSV RLSRQLRRIL LPLYEVDDLR DAFRTLGL(SEQ ID NO:912)。

在一些情况下，合适的胞苷脱氨酶是AID并且包含与以下氨基酸序列具有至少80％、至少85％、至少90％、至少95％、至少98％、至少99％或100％氨基酸序列同一性的氨基酸序列：MDSLLMNRRK FLYQFKNVRW AKGRRETYLC YVVKRRDSAT SFSLDFGYLRNKNGCHVELLFLRYISDWDL DPGRCYRVTW FTSWSPCYDC ARHVADFLRG NPNLSLRIFT ARLYFCEDRK AEPEGLRRLHRAGVQIAIMT FKDYFYCWNT FVENHERTFK AWEGLHENSV RLSRQLRRIL LPLYEVDDLR DAFRTLGL(SEQ ID NO:913)。

在一些情况下，CRISPR/Cas效应子多肽融合多肽包含表现出切口酶活性的CRISPR/Cas效应子多肽。本文别处描述了合适的切口酶。

在一些情况下，融合CRISPR/Cas效应子多肽包含一个或多个定位信号肽。合适的定位信号(“亚细胞定位信号”)包括例如用于靶向细胞核的核定位信号(NLS)；用于将融合蛋白保持在细胞核外的序列，例如核输出序列(NES)；用于将融合蛋白保留在细胞质中的序列；用于靶向线粒体的线粒体定位信号；用于靶向叶绿体的叶绿体定位信号；内质网(ER)滞留信号；以及ER输出信号；等等。在一些情况下，融合多肽不包括NLS，使得蛋白质不靶向细胞核(这可能是有利的，例如，当靶核酸是存在于胞质溶胶中的RNA时)。

在一些情况下，融合多肽包括(融合至)核定位信号(NLS)(例如，在一些情况下2个或更多个、3个或更多个、4个或更多个或5个或更多个NLS)。因此，在一些情况下，融合多肽包括一个或多个NLS(例如，2个或更多个、3个或更多个、4个或更多个或5个或更多个NLS)。在一些情况下，一个或多个NLS(2个或更多个、3个或更多个、4个或更多个或者5个或更多个NLS)定位在N末端和/或C末端处或附近(例如，在50个氨基酸内)。在一些情况下，一个或多个NLS(2个或更多个、3个或更多个、4个或更多个或者5个或更多个NLS)定位在N末端处或附近(例如，在50个氨基酸内)。在一些情况下，一个或多个NLS(2个或更多个、3个或更多个、4个或更多个或者5个或更多个NLS)定位在C末端处或附近(例如，在50个氨基酸内)。在一些情况下，一个或多个NLS(3个或更多个、4个或更多个或者5个或更多个NLS)定位在N末端和C末端二者处或附近(例如，在50个氨基酸内)。在一些情况下，NLS定位在N末端，并且NLS定位在C末端。

在一些情况下，融合多肽包括(融合至)1个至10个NLS(例如，1-9、1-8、1-7、1-6、1-5、2-10、2-9、2-8、2-7、2-6或2-5个NLS)。在一些情况下，融合多肽包括(融合至)2个至5个NLS(例如，2-4或2-3个NLS)。

NLS的非限制性实例包括衍生自以下的NLS序列：SV40病毒大T抗原的NLS，具有氨基酸序列PKKKRKV(SEQ ID NO:914)；来自核质蛋白的NLS(例如，具有序列KRPAATKKAGQAKKKK(SEQ ID NO:915)的核质蛋白二分NLS)；c-myc NLS，具有氨基酸序列PAAKRVKLD(SEQ ID NO:916)或RQRRNELKRSP(SEQ ID NO:917)；hRNPA1 M9 NLS，具有序列NQSSNFGPMKGGNFGGRSSGPYGGGGQYFAKPRNQGGY(SEQ ID NO:918)；来自输入蛋白-α的IBB结构域的序列RMRIZFKNKGKDTAELRRRRVEVSVELRKAKKDEQILKRRNV(SEQ ID NO:919)；肌瘤T蛋白的序列VSRKRPRP(SEQ ID NO:920)和PPKKARED(SEQ ID NO:921)；人p53的序列PQPKKKPL(SEQID NO:922)；小鼠c-abl IV的序列SALIKKKKKMAP(SEQ ID NO:923)；流感病毒NS1的序列DRLRR(SEQ ID NO:924)和PKQKKRK(SEQ ID NO:925)；肝炎病毒δ抗原的序列RKLKKKIKKL(SEQ ID NO:926)；小鼠Mx1蛋白的序列REKKKFLKRR(SEQ ID NO:927)；人聚(ADP-核糖)聚合酶的序列KRKGDEVDGVDEVAKKKSKK(SEQ ID NO:928)；以及类固醇激素受体(人)糖皮质激素的序列RKCLQAGMNLEARKTKK(SEQ ID NO:929)。在一些情况下，NLS包含氨基酸序列MDSLLMNRRKFLYQFKNVRWAKGRRETYLC(SEQ ID NO:930)。一般来讲，NLS(或多个NLS)具有足够的强度以驱动融合多肽以可检测的量在真核细胞的细胞核中积累。可通过任何合适的技术执行细胞核中的积累的检测。例如，可检测标记物可与融合多肽融合，使得细胞内的位置可被可视化。也可从细胞中分离细胞核，然后可通过任何合适的检测蛋白质的方法(诸如免疫组织化学、蛋白质印迹或酶活性测定)分析细胞核的内容物。也可间接确定细胞核中的积累。

在一些情况下，CRISPR/Cas效应子多肽融合多肽包括“蛋白质转导结构域”或PTD(也称为CPP-细胞穿透肽)，其是指促进横穿脂质双层、胶束、细胞膜、细胞器膜或囊泡膜的多肽、多核苷酸、碳水化合物或有机化合物或无机化合物。连接至另一个分子(所述分子可在小极性分子至大的高分子和/或纳米颗粒的范围内)的PTD促进分子横穿膜，例如从细胞外空间进入细胞内空间或从胞质溶胶进入细胞器内。在一些实施方案中，PTD共价连接至多肽的氨基末端。在一些实施方案中，PTD共价连接至多肽的羧基末端。在一些情况下，PTD在合适的插入位点处内插在融合多肽中(即，不在融合多肽的N端或C端)。在一些情况下，主题融合多肽包括(缀合至、融合至)一个或多个PTD(例如，两个或更多个、三个或更多个、四个或更多个PTD)。在一些情况下，PTD包括核定位信号(NLS)(例如，在一些情况下，2个或更多个、3个或更多个、4个或更多个或5个或更多个NLS)。因此，在一些情况下，融合多肽包括一个或多个NLS(例如，2个或更多个、3个或更多个、4个或更多个或5个或更多个NLS)。在一些实施方案中，PTD共价连接至核酸(例如，指导核酸、编码指导核酸的多核苷酸、编码融合多肽的多核苷酸、供体多核苷酸等)。PTD的实例包括但不限于最小十一氨基酸多肽蛋白转导结构域(对应于包含YGRKKRRQRRR；SEQ ID NO:931的HIV-1TAT的残基47-57)；包含足以直接进入细胞中的多个精氨酸(例如，3个、4个、5个、6个、7个、8个、9个、10个或10-50个精氨酸)的聚精氨酸序列；VP22结构域(Zender等人(2002)Cancer Gene Ther.9(6):489-96)；果蝇触角足基因(Antennapedia)蛋白转导结构域(Noguchi等人(2003)Diabetes 52(7):1732-1737)；截短的人降钙素肽(Trehin等人(2004)Pharm.Research 21:1248-1256)；聚赖氨酸(Wender等人(2000)Proc.Natl.Acad.Sci.USA 97:13003-13008)；RRQRRTSKLMKR(SEQ IDNO:932)；运输蛋白(Transportan)GWTLNSAGYLLGKINLKALAALAKKIL(SEQ ID NO:933)；KALAWEAKLAKALAKALAKHLAKALAKALKCEA(SEQ ID NO:934)；和RQIKIWFQNRRMKWKK(SEQ ID NO:935)。示例性PTD包括但不限于：YGRKKRRQRRR(SEQ ID NO:936)；RKKRRQRRR(SEQ ID NO:937)；具有3个精氨酸残基至50个精氨酸残基的精氨酸均聚物；示例性PTD结构域氨基酸序列包括但不限于以下序列中的任一个：YGRKKRRQRRR(SEQ ID NO:938)；RKKRRQRR(SEQ IDNO:939)；YARAAARQARA(SEQ ID NO:940)；THRLPRRRRRR(SEQ ID NO:941)；以及GGRRARRRRRR(SEQ ID NO:942)。在一些实施方案中，PTD是可激活的CPP(ACPP)(Aguilera等人(2009)Integr Biol(Camb)6月；1(5-6):371-381)。ACPP包括经由可切割接头连接至匹配聚阴离子(例如，Glu9或“E9”)的聚阳离子CPP(例如，Arg9或“R9”)，这使净电荷减小至接近零并由此抑制粘附和吸收到细胞中。当切割接头时，释放聚阴离子，局部暴露聚精氨酸和其固有的粘附性，从而“激活”ACPP以横穿膜。

指导RNA

当靶多肽是CRISPR/Cas效应子多肽时，在一些情况下，CRISPR/Cas效应子多肽与CRISPR/Cas效应子多肽指导RNA(也称为“CRISPR-Cas指导RNA”)复合。

与CRISPR/Cas效应子多肽蛋白结合并将复合物靶向靶核酸内的特定位置的核酸分子在本文中称为“CRISPR/Cas效应子多肽指导RNA”或简称为“指导RNA”。

指导RNA(可以说包括两个区段，第一区段(本文称为“靶向区段”)；和第二区段(本文称为“蛋白质结合区段”)。“区段”是指分子的区段/部分/区域，例如核酸分子中的连续核苷酸片段。区段还可意指复合物的区域/部分以使得区段可包含多于一个分子的区域。“靶向区段”在本文中也称为指导RNA的“可变区”。“蛋白质结合区段”在本文中也称为指导RNA的“恒定区”。在一些情况下，指导RNA是Cas9指导RNA。

指导RNA的第一区段(靶向区段)包括与靶核酸(例如，靶ssRNA、靶ssDNA、双链靶DNA的互补链等)内的特定序列(靶位点)互补(并因此与其杂交)的核苷酸序列(指导序列)。蛋白质结合区段(或“蛋白质结合序列”)与CRISPR/Cas效应子多肽相互作用(结合)。指导RNA的蛋白质结合区段包括彼此杂交以形成双链RNA双链体(dsRNA双链体)的两段互补核苷酸。靶核酸(例如，基因组DNA)的位点特异性结合和/或切割可发生在由指导RNA(指导RNA的指导序列)与靶核酸之间的碱基配对互补性确定的位置(例如，靶基因座的靶序列)处。

指导RNA和CRISPR/Cas效应子多肽形成复合物(例如，经由非共价相互作用结合)。指导RNA通过包括靶向区段来提供对复合物的靶特异性，所述靶向区段包括指导序列(与靶核酸序列互补的核苷酸序列)。复合物的CRISPR/Cas效应子多肽提供位点特异性活性(例如，切割活性或当CRISPR/Cas效应子多肽是CRISPR/Cas效应子多肽融合多肽，即具有融合配偶体时由CRISPR/Cas效应子多肽提供的活性)。换言之，CRISPR/Cas效应子多肽借助于其与指导RNA的缔合而被引导至靶核酸序列(例如染色体核酸中的靶核酸，例如染色体；染色体外核酸中的靶序列，例如游离型核酸、微环、ssRNA、ssDNA等；线粒体核酸中的靶序列；叶绿体核酸中的靶序列；质粒中的靶序列；病毒核酸中的靶序列；等)。

可以修饰也称为指导RNA的“靶向序列”的“指导序列”，使得指导RNA可将CRISPR/Cas效应子多肽靶向任何所需靶核酸的任何所需序列，除了可以考虑前间隔序列邻近基序(PAM)序列之外。因此，例如，指导RNA可具有靶向区段，所述靶向区段具有与真核细胞中的核酸(例如病毒核酸、真核核酸(例如，真核染色体、染色体序列、真核RNA等)等)中的序列互补(例如可与其杂交)的序列(指导序列)。

在一些实施方案中，指导RNA包括两个分开的核酸分子：“激活因子”和“靶向子”，并且在本文中被称为“双指导RNA”、“双分子指导RNA”或“双分子指导RNA”或“双指导RNA”或“dgRNA”。在一些实施方案中，激活因子和靶向子彼此共价连接(例如，通过插入核苷酸)，并且指导RNA被称为“单指导RNA”、“Cas9单指导RNA”、“单分子Cas9指导RNA(single-moleculeCas9 guide RNA)”或“单分子Cas9指导RNA(one-molecule Cas9 guide RNA)”，或简称为“sgRNA”。

指导RNA包含crRNA样(“CRISPR RNA”/“靶向子”/“crRNA”/“crRNA重复”)分子和对应的tracrRNA样(“反式作用CRISPR RNA”/“激活因子”/“tracrRNA”)分子。crRNA样分子(靶向子)包含指导RNA的靶向区段(单链)和形成指导RNA的蛋白质结合区段的dsRNA双链体的一半的核苷酸段(“双链体形成区段”)。对应的tracrRNA样分子(激活因子/tracrRNA)包含形成指导核酸的蛋白质结合区段的dsRNA双链体的另一半的核苷酸段(双链体形成区段)。换言之，crRNA样分子的核苷酸段与tracrRNA样分子的核苷酸段互补并与其杂交以形成指导RNA的蛋白质结合结构域的dsRNA双链体。因此，可以说每个靶向分子具有相应的激活分子(其具有与靶向子杂交的区域)。靶向分子另外提供靶向区段。因此，靶向分子和激活分子(作为相应的对)杂交以形成指导RNA。给定的crRNA或tracrRNA分子的精确序列为其中发现RNA分子的物种的特征。双指导RNA可以包括任何相应的激活因子和靶向子对。

本文使用的术语“激活因子”或“激活因子RNA”是指双指导RNA的tracrRNA样分子(tracrRNA：“反式作用CRISPR RNA”)(并且因此当“激活因子”和“靶向子”通过例如插入核苷酸而连接在一起时，是指单指导RNA的tracrRNA样分子)。因此，例如，指导RNA(dgRNA或sgRNA)包含激活因子序列(例如，tracrRNA序列)。tracr分子(tracrRNA)是与CRISPR RNA分子(crRNA)杂交以形成双指导RNA的天然存在的分子。术语“激活因子”在本文中用于涵盖天然存在的tracrRNA，但也涵盖具有修饰(例如，截短、序列变化、碱基修饰、主链修饰、连接修饰等)的tracrRNA，其中激活因子保留tracrRNA的至少一种功能(例如，有助于与Cas9蛋白结合的dsRNA双链体)。在一些情况下，激活因子提供可与Cas9蛋白相互作用的一个或多个茎环。激活因子可被称为具有tracr序列(tracrRNA序列)并且在一些情况下是tracrRNA，但术语“激活因子”不限于天然存在的tracrRNA。

本文使用的术语“靶向子”或“靶向子RNA”是指双指导RNA的crRNA样分子(crRNA：“CRISPR RNA”)(并且因此当“激活因子”和“靶向子”例如通过插入核苷酸连接在一起时，是指单指导RNA的crRNA样分子)。因此，例如，指导RNA(dgRNA或sgRNA)包含靶向区段(其包括与靶核酸杂交(与其互补)的核苷酸)和双链体形成区段(例如，crRNA的双链体形成区段，其也可称为crRNA重复序列)。因为使用者修饰了靶向子的靶向区段(与靶核酸的靶序列杂交的区段)的序列以与所需靶核酸杂交，所以靶向子的序列通常是非天然存在的序列。然而，与激活因子的双链体形成区段杂交的靶向子的双链体形成区段(下文更详细描述)可包括天然存在的序列(例如，可包括天然存在的crRNA的双链体形成区段的序列，其也可称为crRNA重复序列)。因此，术语“靶向子”在本文中用于区别于天然存在的crRNA，尽管事实上靶向子的部分(例如，双链体形成区段)通常包括来自crRNA的天然存在的序列。然而，术语“靶向子”涵盖天然存在的crRNA。

指导RNA也可以说包括3个部分：(i)靶向序列(与靶核酸的序列杂交的核苷酸序列)；(ii)激活因子序列(如上所述)(在一些情况下，称为tracr序列)；以及(iii)与激活因子序列的至少一部分杂交以形成双链双链体的序列。靶向子具有(i)和(iii)；而激活因子具有(ii)。

指导RNA(例如双指导RNA或单指导RNA)可以包括任何相应的激活因子和靶向子对。在一些情况下，双链体形成区段可以在激活因子与靶向子之间交换。换言之，在一些情况下，靶向子包括来自tracrRNA的双链体形成区段的核苷酸序列(该序列通常是激活因子的一部分)，而激活因子包括来自crRNA的双链体形成区段的核苷酸序列(该序列通常是靶向子的一部分)。

如上所述，靶向子包含指导RNA的靶向区段(单链)和形成指导RNA的蛋白质结合区段的dsRNA双链体的一半的核苷酸段(“双链体形成区段”)。相应的tracrRNA样分子(激活因子)包含形成指导RNA的蛋白质结合片段的dsRNA双链体的另一半的核苷酸段(双链体形成区段)。换言之，靶向子的核苷酸段与激活因子的核苷酸段互补并与其杂交以形成指导RNA的蛋白质结合区段的dsRNA双链体。因此，可以说每个靶向子具有相应的激活因子(其具有与靶向子杂交的区域)。靶向分子另外提供靶向区段。因此，靶向子和激活因子(作为相应对)杂交以形成指导RNA。给定的天然存在的crRNA或tracrRNA分子的特定序列为其中发现RNA分子的物种的特征。合适的激活因子和靶向子的实例是本领域公知的。

核酸修饰

在一些情况下，CRISPR-Cas指导RNA具有一个或多个修饰(例如，碱基修饰、主链修饰、糖修饰等)以提供具有新的或增强的特征(例如，改善的稳定性)的核酸。

合适的核酸修饰包括但不限于：2'O-甲基修饰的核苷酸、2'氟修饰的核苷酸、锁核酸(LNA)修饰的核苷酸、肽核酸(PNA)修饰的核苷酸、具有硫代磷酸酯键的核苷酸和5'帽(例如，7-甲基鸟苷酸帽(m7G))。

其中含有磷原子的适合的修饰的核酸主链包括例如，硫代磷酸酯、手性硫代磷酸酯、二硫代磷酸酯、磷酸三酯、氨基烷基磷酸三酯、甲基和其他烷基磷酸酯包括3'-亚烷基磷酸酯、5'-亚烷基磷酸酯和手性磷酸酯、次膦酸酯、氨基磷酸酯包括3'-氨基氨基磷酸酯和氨基烷基氨基磷酸酯、二氨基磷酸酯、硫代磷酰胺酯、硫代烷基磷酸酯、硫代烷基磷酸三酯、具有正常3'-5'键的硒代磷酸酯和硼代磷酸酯、这些的2'-5'连接类似物以及具有反极性的那些，其中一个或多个核苷酸间键为3'至3'、5'至5'或2'至2'键。具有反极性的合适的寡核苷酸在最3'核苷酸间键处包含单个3'至3'键，即可为碱性(核碱基丢失或其被羟基替代)的单个反核苷残基。还包括各种盐(例如像钾或钠)、混合盐和游离酸形式。

在一些情况下，CRISPR-Cas指导RNA具有通过硫代磷酸酯键连接的一个或多个核苷酸(即，主题核酸具有一个或多个硫代磷酸酯键)。硫代磷酸酯(PS)键(即，硫代磷酸酯键(phosphorothioate linkage))硫原子取代核酸(例如，寡核苷酸)的磷酸酯主链中的非桥接氧。这种修饰使得核苷酸间键对核酸酶降解具有抗性。可在寡核苷酸的5'或3'末端的最后3-5个核苷酸之间引入硫代磷酸酯键以抑制外切核酸酶降解。在寡核苷酸内(例如，在整个寡核苷酸中)包含硫代磷酸酯键也可帮助减少内切核酸酶的攻击。

还适合的是具有在例如美国专利号5,034,506中所述的吗啉代主链结构的CRISPR-Cas指导RNA。例如，在一些实施方案中，CRISPR-Cas指导RNA包含代替核糖环的6元吗啉代环。在这些实施方案的一些实施方案中，二氨基磷酸酯或其他非磷酸二酯核苷间键替代磷酸二酯键。

CRISPR-Cas指导RNA还可包括一个或多个取代的糖部分。合适的多核苷酸包含选自以下的糖取代基团：OH；F；O-、S-或N-烷基；O-、S-或N-烯基；O-、S-或N-炔基；或O-烷基-O-烷基，其中烷基、烯基和炔基可以是取代或未取代的C₁至C₁₀烷基或C₂至C₁₀烯基和炔基。特别合适的是：O((CH₂)_nO)_mCH₃、O(CH₂)_nOCH₃、O(CH₂)_nNH₂、O(CH₂)_nCH₃、O(CH₂)_nONH₂和O(CH₂)_nON((CH₂)_nCH₃)₂，其中n和m为1至约10。其他合适的多核苷酸包含选自以下的糖取代基团：C₁至C₁₀低级烷基、取代的低级烷基、烯基、炔基、烷芳基、芳烷基、O-烷芳基或O-芳烷基、SH、SCH₃、OCN、Cl、Br、CN、CF₃、OCF₃、SOCH₃、SO₂CH₃、ONO₂、NO₂、N₃、NH₂、杂环烷基、杂环烷芳基、氨基烷氨基、聚烷氨基、取代的硅烷基、RNA切割基团、报告基团、嵌入剂、具有改进寡核苷酸的药物代谢动力学特性的基团、或具有改进寡核苷酸的药效动力学特性的基团，以及其他具有相似特性的取代基。适合的修饰包括2'-甲氧基乙氧基(2'-O-CH₂ CH₂OCH₃，也称为2'-O-(2-甲氧基乙基)或2'-MOE)(Martin等人,Helv.Chim.Acta,1995,78,486-504)，即烷氧基烷氧基。另外合适的修饰包括2'-二甲基氨基氧基乙氧基，即O(CH₂)₂ON(CH₃)₂基团，又称为2'-DMAOE，如在下文的实施例中所述；和2'-二甲基氨基乙氧基乙氧基(在本领域中又称为2'-O-二甲基-氨基-乙氧基-乙基或2'-DMAEOE)，即2'-O-CH₂-O-CH₂-N(CH₃)₂。

通过偶联蛋白偶联两种蛋白的方法

本公开提供了通过偶联多肽化学选择性偶联第一多肽和第二多肽的方法。化学选择性偶联的产物可以按N端到C端的顺序包含：i)第一多肽；ii)偶联多肽；以及iii)第二多肽。如上所述，该方法利用酪氨酸酶多肽的底物偏好。

例如，在一些情况下，本公开提供一种用于将第一多肽和第二多肽化学选择性偶联至偶联多肽的方法，该方法包括：a)使所述第一多肽与所述偶联多肽接触，以产生第一多肽-偶联多肽缀合物，其中所述第一多肽包含硫醇部分(例如，Cys，其中该Cys可以在第一多肽内的任何溶剂可及的位置处)，其中所述偶联多肽包含与存在于所述第一多肽中的所述硫醇部分形成共价键的N端反应性部分，其中包含所述N端反应性部分的所述偶联多肽通过使包含N端酚或儿茶酚部分和C端酚或儿茶酚部分的多肽(“偶联前体多肽”)与能够氧化所述N端酚或儿茶酚部分但不氧化所述C端酚或儿茶酚部分的第一酶反应以产生所述N端反应性部分而产生；并且其中所述偶联多肽在所述N端酚或儿茶酚部分的十个氨基酸内包含两个或更多个带正电荷或中性的氨基酸并且在所述C端苯酚或儿茶酚部分的十个氨基酸内包含两个或更多个带负电荷的氨基酸；以及b)使所述第二多肽与所述第一多肽-偶联多肽缀合物接触，其中所述第二多肽包含硫醇部分(例如，Cys，其中该Cys可以在所述第二多肽内的任何溶剂可及的位置处)，其中所述第一多肽-偶联多肽缀合物包含与存在于所述第二多肽中的硫醇部分形成共价键的C端反应性部分，其中包含所述C端反应性部分的所述第一多肽-偶联多肽缀合物通过使所述第一多肽-偶联多肽缀合物与能够氧化所述C端酚或儿茶酚部分的第二酶反应以产生C端反应性部分而产生；并且其中所述接触产生第一多肽-偶联多肽-第二多肽缀合物。在一些情况下，所述第一酶是包含与图8或图9中描绘的abTYR氨基酸序列具有至少75％氨基酸序列同一性的氨基酸序列的酪氨酸酶多肽；并且所述第二酶是包含与图10A至图10Z和图10AA至图10VV中任一者描绘的任一个氨基酸序列具有至少75％氨基酸序列同一性的氨基酸序列的酪氨酸酶多肽。

作为另一个实例，在一些情况下，本公开提供了一种用于将第一多肽和第二多肽化学选择性偶联至偶联多肽的方法，该方法包括：a)使所述第一多肽与所述偶联多肽接触，以产生第一多肽-偶联多肽缀合物，其中所述第一多肽包含硫醇部分，其中所述偶联多肽包含与存在于所述第一多肽中的硫醇部分形成共价键的N端反应性部分，其中包含所述N端反应性部分的所述偶联多肽通过使包含N端酚或儿茶酚部分和C端酚或儿茶酚部分的多肽与能够氧化所述N端酚或儿茶酚部分但不氧化所述C端酚或儿茶酚部分的第一酶反应以产生所述N端反应性部分而产生；其中所述偶联多肽在所述N端酚或儿茶酚部分的十个氨基酸内包含两个或更多个带负电荷的氨基酸并且在所述C端酚或儿茶酚部分的十个氨基酸内包含两个或更多个带正电或中性的氨基酸；以及b)使所述第二多肽与所述第一多肽-偶联多肽缀合物接触，其中所述第二多肽包含硫醇部分，其中所述第一多肽-偶联多肽缀合物包含端反应性部分，所述C端反应性部分与存在于所述第二多肽中的硫醇部分形成共价键，其中包含所述C端反应性部分的所述第一多肽-偶联多肽缀合物通过使所述第一多肽-偶联多肽缀合物与能够氧化所述C端酚或儿茶酚部分的第二酶反应以产生C端反应性部分而产生；并且其中所述接触产生第一多肽-偶联多肽-第二多肽缀合物。在一些情况下，所述第一酶是包含与图10A至图10Z和图10AA至图10VV中任一者描绘的任一个氨基酸序列具有至少75％氨基酸序列同一性的氨基酸序列的酪氨酸酶多肽；以及b)所述第二酶是包含与图8或图9中描绘的abTYR氨基酸序列具有至少75％氨基酸序列同一性的氨基酸序列的酪氨酸酶多肽。

偶联多肽可以具有10个氨基酸至100个氨基酸，或多于100个氨基酸的长度。在一些情况下，偶联多肽具有10个氨基酸至25个氨基酸的长度。在一些情况下，偶联多肽具有25个氨基酸至50个氨基酸的长度。在一些情况下，偶联多肽具有50个氨基酸至100个氨基酸的长度。在一些情况下，偶联多肽具有多于100个氨基酸的长度；例如，在一些情况下，偶联多肽具有100个氨基酸至200个氨基酸、200个氨基酸至500个氨基酸，或多于500个氨基酸(例如，500至1000、1000至2000、或多于2000个氨基酸)的长度。在一些情况下，N端酚部分和C端酚部分都是酪氨酸，并且产生反应性部分的酶是酪氨酸酶。

如上所述，在一些情况下，偶联多肽包含：a)在N端酚或儿茶酚部分的十个氨基酸内的两个或更多个带负电荷的氨基酸；或b)在C端酚或儿茶酚部分的十个氨基酸内的两个或更多个带负电荷的氨基酸。在此种情况下，偶联多肽可包含：a)在N端酚或儿茶酚部分的十个氨基酸内的2、3、4、5、6、7、8、9或10个带负电荷的氨基酸；或b)在C端酚或儿茶酚部分的十个氨基酸内的2、3、4、5、6、7、8、9或10个带负电荷的氨基酸。作为一个非限制性实例，偶联多肽包含以下氨基酸序列：YEEEE(X)_nRRRRY(SEQ ID NO:961)，其中X是任何氨基酸，并且其中n为0至40的整数(例如，其中n为0至5、5至10、10至15、15至20、20至25、25至30、30至35或35至40的整数)。作为另一个非限制性实例，偶联多肽包含以下氨基酸序列：YDDDD(X)_nKKKKY(SEQ ID NO:962)，其中X是任何氨基酸，并且其中n为0至40的整数(例如，其中n为0至5、5至10、10至15、15至20、20至25、25至30、30至35或35至40的整数)。

如上所述，在一些情况下，偶联多肽包含：a)在N端酚或儿茶酚部分的十个氨基酸内的两个或更多个带正电荷的氨基酸；或b)在C端酚或儿茶酚部分的十个氨基酸内的两个或更多个带正电荷的氨基酸。在此种情况下，偶联多肽可包含：a)在N端酚或儿茶酚部分的十个氨基酸内的2、3、4、5、6、7、8、9或10个带正电荷的氨基酸；或b)在C端酚或儿茶酚部分的十个氨基酸内的2、3、4、5、6、7、8、9或10个带正电荷的氨基酸。作为一个非限制性实例，偶联多肽包含以下氨基酸序列：YKKKK(X)_nDDDDY(SEQ ID NO:963)，其中X是任何氨基酸，并且其中n为0至40的整数(例如，其中n为0至5、5至10、10至15、15至20、20至25、25至30、30至35或35至40的整数)。作为另一个非限制性实例，偶联多肽包含以下氨基酸序列：YRRRR(X)_nEEEEY(SEQ ID NO:964)，其中X是任何氨基酸，并且其中n为0至40的整数(例如，其中n为0至5、5至10、10至15、15至20、20至25、25至30、30至35或35至40的整数)。

如上所述，本公开提供了一种偶联多肽。本公开提供了一种包含本公开的偶联多肽的组合物。本公开提供了一种组合物，所述组合物包含：a)本公开的偶联多肽；以及b)缓冲液。

合适的第一和第二多肽包括任何上述多肽。例如，在一些情况下，第一和/或第二多肽是抗体(例如，单链抗体)。作为另一个实例，在一些情况下，第一和/或第二多肽是CRISPR/Cas效应子多肽。作为一个实例，在一些情况下，第一多肽是CRISPR/Cas效应子多肽；并且第二多肽是Ig Fc多肽。作为另一个实例，在一些情况下，第一多肽是CRISPR/Cas效应子多肽；并且第二多肽是纳米抗体。作为另一个实例，在一些情况下，第一多肽是CRISPR/Cas效应子多肽；并且第二多肽是scFv多肽。

偶联两种或更多种多肽的方法

本公开提供了一种以顺序方式将两种或更多种多肽彼此偶联的方法。如上所述，该方法利用酪氨酸酶多肽的底物偏好。该方法可以在不溶性基质，即固定的表面，诸如珠子上进行。在图39A至图39G中示意性地描述了用于以顺序方式将两种或更多种多肽彼此偶联的本公开的方法。

因此，本公开提供了将第一多肽共价连接至第二多肽的方法，该方法包括：a)使所述第一多肽与固定的反应性部分接触，其中所述固定的反应性部分通过使固定的酚部分或儿茶酚部分与第一酶的反应而产生，其中所述第一酶能够氧化所述固定的酚部分或儿茶酚部分，从而产生所述固定的反应性部分，其中所述第一多肽包含：i)硫醇部分；以及ii)酚部分或儿茶酚部分，其中所述第一多肽在所述酚部分或所述儿茶酚部分的十个氨基酸内包含两个或更多个带负电荷的氨基酸，并且其中所述固定的反应性部分与存在于所述第一多肽中的硫醇部分形成共价键，从而产生固定的第一多肽；b)使所述固定的第一多肽与第二酶接触，其中所述第二酶能够氧化存在于所述第一多肽中的所述酚部分或所述儿茶酚部分以产生包含反应性部分的固定的第一多肽；以及c)使包含反应性部分的所述固定的第一多肽与第二多肽接触，其中所述第二多肽包含：i)硫醇部分；以及ii)酚部分或儿茶酚部分，其中所述第二多肽在所述酚部分或所述儿茶酚部分的十个氨基酸内包含两个或更多个中性或带正电荷的，其中存在于所述固定的第一多肽中的所述反应性部分与存在于所述第二多肽中的所述硫醇部分形成共价键，从而产生包含与所述第二多肽共价连接的所述第一多肽的固定的缀合物。在一些情况下，所述第一酶是包含与图8、图9、图10A至图10Z和图10AA至图10VV中任一者描绘的任一个氨基酸序列具有至少75％氨基酸序列同一性的氨基酸序列的酪氨酸酶多肽。在一些情况下，存在于第一多肽中的硫醇部分存在于Cys(例如，溶剂可及的Cys；例如N端Cys)中，并且其中存在于第一多肽中的苯酚部分存在于Tyr残基中。在一些情况下，Tyr残基存在于包含EEEY(SEQ ID NO:953)、EEEEY(SEQ ID NO:955)、DDDDY(SEQ IDNO:965)或DDDDY(SEQ ID NO:965)的氨基酸段中。在一些情况下，所述第二酶是包含与图10A至图10Z和图10AA至图10VV中任一者描绘的任一个氨基酸序列具有至少75％氨基酸序列同一性的氨基酸序列的酪氨酸酶多肽。在一些情况下，所述第二酶是包含与图10M中描绘的氨基酸序列具有至少75％、至少80％、至少85％、至少90％、至少95％、至少98％、至少99％或100％氨基酸序列同一性的氨基酸序列的酪氨酸酶多肽，其中酪氨酸酶多肽包含D55的取代(例如，包含D55K取代)。

该方法可用于以顺序方式连接任何数量的多肽。例如，在一些情况下，该方法还包括c)使所述固定的缀合物与第三酶接触，其中所述第三酶能够氧化存在于所述第二多肽中的所述酚部分或所述儿茶酚部分以产生包含反应性部分的固定的缀合物；以及d)使包含反应性部分的所述固定的缀合物与第三多肽接触，其中所述第三多肽包含：i)硫醇部分；以及ii)酚部分或儿茶酚部分，其中所述第三多肽在所述酚部分或所述儿茶酚部分的十个氨基酸内包含两个或更多个带负电荷的，并且其中存在于所述固定的缀合物中的所述反应性部分与存在于所述第二多肽中的所述硫醇部分形成共价键，从而产生包含与所述第二多肽共价连接的所述第三多肽的固定的缀合物。在一些情况下，所述第三种酶是包含与图8或图9中描述的氨基酸序列具有至少75％氨基酸序列同一性的氨基酸序列的酪氨酸酶多肽。

交替使用：a)酪氨酸酶，其优先修饰存在于带负电环境中的Tyr残基(例如，当多肽在Tyr残基的十个氨基酸内包含两个或更多个带负电荷时)；以及b)酪氨酸酶，其优先修饰存在于中性或带正电环境中的Tyr残基(例如，当多肽在Tyr残基的十个氨基酸内包含两个或更多个中性或带正电荷时)，可以将多肽底物依次添加到包含一个、两个、三个或更多个多肽的固定的缀合物中。可以修饰上述方法，例如使得所述第一多肽包含：i)硫醇部分；以及ii)酚部分或儿茶酚部分，其中所述第一多肽在所述酚部分或所述儿茶酚部分的十个氨基酸内包含两个或更多个中性或带正电荷的氨基酸；在此类情况下，所述第二多肽将包含：i)硫醇部分；以及ii)酚部分或儿茶酚部分，其中所述第一多肽在所述酚部分或所述儿茶酚部分的十个氨基酸内包含两个或更多个带负电荷的氨基酸。

在一些情况下，在该方法的任何两个步骤之间和在添加另外的酪氨酸酶之前，酪氨酸酶被失活或去除。例如，在一些情况下，在上述方法的步骤(b)和步骤(c)之间，使第二酶失活或去除。在一些情况下，存在于第二多肽中的硫醇部分存在于Cys中，并且存在于第二多肽中的酚部分存在于Tyr残基中。在一些情况下，Tyr残基存在于包含RRRY(SEQ ID NO:949)、RRRRY(SEQ ID NO:951)、KKKY(SEQ ID NO:966)或KKKKY(SEQ ID NO:967)的氨基酸段中。

如图39A中示意性描绘，abTYR用于连接生物素-酚和包含硫醇基团和EEEEY(SEQID NO:955)序列的第一多肽(“蛋白A”)，以产生生物素-第一多肽缀合物。生物素-第一多肽缀合物可以与链霉亲和素珠接触，以固定生物素-第一多肽缀合物。包含硫醇基团和RRRRY(SEQ ID NO:951)序列的第二多肽(“蛋白B”)可以通过bmTYR(D55K)(例如，图10M中描绘的bmTYR(D55K))的作用缀合至固定的生物素-第一多肽缀合物的第一多肽，以产生固定的第一多肽-第二多肽缀合物。在一些情况下，将两种不同的多肽(例如，“蛋白A”和“蛋白B”)交替添加到多联体中，如图39A、图39B和图39C中所示。另选地，连接单个多肽的多个拷贝，如图39D和图39E中所示。作为另一种可能性，在一些情况下，连接的每种多肽与其他多肽不同，如图39F和图39G中所示(例如，“蛋白A”；“蛋白B”；和“蛋白C”)。

组合物

本公开的方面还提供了包括药物组合物的组合物，所述组合物包含：式(III)的包含硫醇的靶分子，以及式(I)的包含酚部分或儿茶酚部分的生物分子：

其中Y1是生物分子，所述生物分子任选地包含一个或多个选自以下的部分：活性小分子、亲和标签、荧光团和金属螯合剂；L是任选的接头；X1选自氢和羟基；并且Y2是第二生物分子。

在某些实施方案中，提供了一种式(III)的包含硫醇的靶分子和药学上可接受的赋形剂的组合物。

在某些实施方案中，提供了一种式(I)的包含酚部分或儿茶酚部分的生物分子和药学上可接受的赋形剂的组合物。

在主题组合物的某些实施方案中，Y²是CRISPR-Cas效应子多肽，例如，如本文所述。

在主题组合物的某些实施方案中，式(I)由本文公开的式(IA)、(IAa)、(IB)、(IC)、(ID)、(IDa)和(IDb)中的任一者描述。

主题组合物通常包含：式(III)的包含硫醇的主题靶分子；式(I)的包含酚部分或儿茶酚部分的生物分子；以及至少一种附加化合物。合适的附加的化合物包括但不限于：盐，例如镁盐、钠盐等，例如NaCl、MgCl₂、KCl、MgSO₄等；缓冲剂，例如Tris缓冲液、N-(2-羟乙基)哌嗪-N'-(2-乙磺酸)(HEPES)、2-(N-吗啉代)乙磺酸(MES)、2-(N-吗啉代)乙磺酸钠盐(MES)、3-(N-吗啉代)丙磺酸(MOPS)、N-三[羟甲基]甲基-3-氨基丙磺酸(TAPS)等；增溶剂；去污剂，例如非离子去污剂，诸如Tween-20等；蛋白酶抑制剂；等等。

在一些实施方案中，主题组合物包含：式(III)的包含硫醇的主题靶分子；式(I)的包含酚部分或儿茶酚部分的生物分子；以及药学上可接受的赋形剂。多种药学上可接受的赋形剂在本领域中是已知的，并且不需要在本文中进行详细论述。已在各种出版物中充分描述了药学上可接受的赋形剂，所述出版物包括例如A.Gennaro(2000)“Remington:TheScience and Practice of Pharmacy,”第20版,Lippincott,Williams,&Wilkins；Pharmaceutical Dosage Forms and Drug Delivery Systems(1999)H.C.Ansel等人编,第7版,Lippincott,Williams,&Wilkins；以及Handbook of Pharmaceutical Excipients(2000)A.H.Kibbe等人编,第3版Amer.Pharmaceutical Assoc。

药学上可接受的赋形剂，诸如媒介物、佐剂、载体或稀释剂，是公众可容易获得的。此外，药学上可接受的辅助物质，诸如pH调节剂和缓冲剂、张力调节剂、稳定剂、湿润剂等，是公众可容易获得的。

试剂盒

本文所述的化合物和组合物可包装为试剂盒，该试剂盒可任选地包括在各种示例性应用中使用化合物或组合物的说明书。非限制性实例包括含有例如呈粉末或冻干形式的化合物或组合物的试剂盒，以及用于主题方法中的使用说明书，包括重构、剂量信息和储存信息。试剂盒可以任选地包含备用的液体形式的化合物或组合物的容器，或需要进一步与溶液混合用于施用。

本公开的方面包括一种试剂盒，所述试剂盒包括第一容器，所述第一容器包含组合物，所述组合物包含式(III)的包含硫醇的主题靶分子，以及式(I)的包含酚部分的生物分子；以及第二容器，所述第二容器包含能够氧化酚或儿茶酚部分的酶。在某些情况下，酶是酪氨酸酶。

在某些实施方案中，主题试剂盒包括第一容器，所述第一容器包含式(III)的包含硫醇的主题靶分子；第二容器，所述第二容器包含式(I)的包含酚部分或儿茶酚部分的生物分子；以及第三容器，所述第三容器包含能够氧化酚或儿茶酚部分的酶。在某些情况下，酶是酪氨酸酶。

该试剂盒可包括有助于主题方法的任选组分，诸如用于重构粉末形式的小瓶等。该试剂盒可在具有密封的容器中提供，该密封适合于用皮下注射针单次或多次穿刺(例如卷曲隔膜密封闭合)，同时保持无菌完整性。试剂盒部件可组装成纸箱、泡罩包装、瓶、管等。

除上述部件之外，主题试剂盒还可包括实施主题方法的说明书。这些说明书可以多种形式存在于主题试剂盒中，所述形式中的一种或多种可存在于该试剂盒中。这些说明书可以存在的一种形式是在合适的介质或基底上印刷的信息，例如在其上印刷信息的一张或多张纸，在试剂盒的包装中，在包装说明书中等。另一种方式将是计算机可读介质，例如在其上记录或存储信息的CD、DVD、蓝光光碟、计算机可读存储器(例如，闪速储存器)等。还可以存在的另一种方式是网站地址，例如，诸如到网站的链接，用于下载用于检测功能染料的合适的智能电话app，其可以经由因特网使用以访问移除站点处的信息。试剂盒中可以存在任何方便的手段。

实用性

主题化合物、组合物、试剂盒和主题修饰方法可用于多种应用，包括研究应用和诊断应用。

感兴趣的研究应用包括其中关注靶分子、生物分子、细胞、颗粒和表面的选择性操作的任何应用，该应用包括体外操作、标记和追踪生物分子(例如蛋白质)。

主题方法和组合物还可用于治疗应用，例如，感兴趣的治疗应用包括其中抗体-药物缀合物(ADC)可用于(例如，新颖的免疫疗法)、基因治疗的蛋白质递送、疫苗开发的应用。

筛选酪氨酸酶变体的方法

本公开提供了一种鉴定对特定底物具有偏好的酪氨酸酶变体的方法。该方法可提供对存在于特定序列中，带负电环境中或带正电环境中的酚或儿茶酚具有偏好的酪氨酸酶变体的鉴定。该方法通常涉及：a)使肽与测试酪氨酸酶和硫醇修饰的生物素(生物素-硫醇)接触，其中肽具有约4个氨基酸至约25个氨基酸(例如，约4、5、6、7、8、9、10、11、12、13、14、15至20或20至25个氨基酸)的长度，并且其中肽具有C端Tyr残基；b)使生物素-肽缀合物与链霉亲和素缀合的珠(例如，与磁珠缀合的链霉亲和素)接触，从而产生链霉亲和素-生物素-肽复合物；以及c)确定链霉亲和素-生物素-肽复合物中的肽的氨基酸序列。在一些情况下，该方法还包括洗涤链霉亲和素-生物素-肽复合物以去除未结合的肽(未与生物素缀合的肽的步骤。在一些情况下，该方法还包括在测定肽的氨基酸序列之前从链霉亲和素-生物素-肽复合物中释放肽的步骤。通过在包含过量游离生物素、乙腈和甲酸(例如，80％乙腈、5％甲酸和2mM生物素)的混合物中孵育链霉亲和素-生物素-肽复合物，可以从链霉亲和素-生物素-肽复合物中释放(洗脱)肽。存在于链霉亲和素-生物素-肽复合物中的肽(例如，洗脱的肽)的氨基酸序列可以使用多种熟知方法中的任一种来测定，包括例如质谱法(MS)(例如串联MS)。肽文库可用于确定测试酪氨酸酶是否对特定氨基酸序列、带负电环境或带正电环境具有偏好。

本公开的非限制性方面的实例

方面A

上述本发明主题的包括各实施方案的各方面可在单独或与一个或多个其他方面或实施方案组合的情况下是有益的。在不限制前述描述的情况下，下文提供本公开的某些非限制性方面，其编号为1-39。如本领域的技术人员在阅读本公开后将显而易见的，单独编号方面中的每一者可与先前或随后单独编号方面中的任一者一起使用或组合。这旨在为各方面的所有此类组合提供支持，并且不限于以下明确提供的各方面的组合：

方面1.一种用于化学选择性修饰靶分子的方法，所述方法包括：使包含硫醇部分的靶分子与包含反应性部分的生物分子接触；其中包含所述反应性部分的所述生物分子通过使包含酚部分或儿茶酚部分的生物分子与能够氧化所述酚或儿茶酚部分的酶反应而产生；并且其中所述接触在足以使所述靶分子与所述生物分子缀合的条件下进行，从而产生修饰的靶分子。

方面2.如方面1所述的方法，其中所述靶分子是多肽。

方面3.如方面1或2所述的方法，其中所述酶是酪氨酸酶。

方面4.如方面1至3中任一项所述的方法，其中所述酶与固体载体结合。

方面5.如方面1至4中任一项所述的方法，其中所述酚部分存在于酪氨酸残基中。

方面6.如方面1至5中任一项所述的方法，其中所述硫醇部分存在于半胱氨酸残基中。

方面7.如方面6所述的方法，其中所述半胱氨酸残基是天然半胱氨酸残基。

方面8.如方面1至7中任一项所述的方法，其中所述生物分子包含一个或多个选自以下的部分：荧光团、活性小分子、亲和标签和金属螯合剂。

方面9.如方面1至8中任一项所述的方法，其中所述反应性部分是邻醌或半醌基团，或它们的组合。

方面10.如方面1至9中任一项所述的方法，其中所述生物分子是多肽。

方面11.如方面10所述的方法，其中所述生物分子是选自荧光蛋白、抗体、酶、受体的配体和受体的多肽。

方面12.如方面1至11中任一项所述的方法，其中包含酚部分或儿茶酚部分的所述生物分子具有式(I)，并且其中包含反应性部分的所述生物分子具有式(II)或(IIA)，或它们的组合：

其中：

Y¹是生物分子，所述生物分子任选地包含一个或多个选自以下的部分：活性小分子、亲和标签、荧光团和金属螯合剂；

X¹选自氢和羟基；以及

L是任选的接头。

方面13.如方面1至12中任一项所述的方法，其中包含硫醇部分的所述靶分子具有式(III)，并且其中所述修饰的靶分子具有式(IV)或(IVA)，或它们的组合：

其中：

Y²是第二生物分子；

L是任选的接头；以及

n是1至3的整数。

方面14.如方面13所述的方法，其中式(IV)的所述修饰的靶分子具有式(IV1)-(IV3)中的任一者：

式(IVA)的所述修饰的靶分子具有式(IVA1)-(IVA3)中的任一者：

方面15.如方面13所述的方法，其中式(IV)的所述修饰的靶分子具有式(IV5)-(IV6)中的任一者：

式(IVA)的所述修饰的靶分子具有式(IVA4)-(IVA5)中的任一者：

方面16.如方面1至15中任一项所述的方法，其中包含酚部分或儿茶酚部分的所述生物分子由式(IA)描述：

其中：

X¹选自氢和羟基；以及

方面17.如方面16所述的方法，其中所述荧光团是罗丹明染料或呫吨染料。

方面18.如方面1至17中任一项所述的方法，其中所述修饰的靶分子由式(IVB)或(IVC)或它们的组合描述：

其中：

Y²是第二生物分子；

L¹是选自直链或支链烷基、直链或支链取代的烷基、聚乙二醇(PEG)、取代的PEG和一种或多种肽的接头；以及

n是1至3的整数。

方面19.如方面18所述的方法，其中式(IVB)的所述修饰的靶分子具有式(IVB1)-(IVZB3)中的任一者：

式(IVC)的所述修饰的靶分子具有式(IVC1)-(IVC3)中的任一者：

方面20.如方面18所述的方法，其中式(IVB)的所述修饰的靶分子具有式(IVB5)-(IVB6)中的任一者：

式(IVC)的所述修饰的靶分子具有式(IVC4)-(IVC5)中的任一者：

方面21.如方面1至20中任一项所述的方法，其中所述方法在4至9的pH下进行。

方面22.如方面21所述的方法，其中所述方法在中性pH下进行。

方面23.如方面1至22中任一项所述的方法，其中包含硫醇基团的所述靶分子是CRISPR-Cas效应子多肽。

方面24.一种组合物，其包含：

式(III)的包含硫醇的靶分子：

以及

式(I)的包含酚部分或儿茶酚部分的生物分子：

其中：

X¹选自氢和羟基；

L是任选的接头；以及

Y²是第二生物分子。

方面25.如方面24所述的组合物，其中Y²是CRISPR-Cas效应子多肽。

方面26.如方面24或25所述的组合物，其中式(I)由式(IA)描述：

其中：

X¹选自氢和羟基；以及

方面27.一种试剂盒，其包括：

第一容器，所述第一容器包含如方面24至26中任一项所述的组合物；以及

第二容器，所述第二容器包含能够氧化所述酚或儿茶酚部分的酶。

方面28.如权利要求27所述的试剂盒，其中所述酶是酪氨酸酶。

方面29.一种式(IV)或(IVA)的化合物：

其中：

L是任选的接头；

Y²是第二生物分子；以及

n是1至3的整数。

方面30.如方面29所述的化合物，其中式(IV)的所述修饰的靶分子具有式(IV1)-(IV5)中的任一者：

方面31.如方面29所述的化合物，其中式(IVA)的所述修饰的靶分子具有式(IVA1)-(IVA5)中的任一者：

方面32.如方面29至31中任一项所述的化合物，其中L是可裂解的接头。

方面33.如方面29至32中任一项所述的化合物，其中Y¹是多肽。

方面34.如方面33所述的化合物，其中Y¹选自荧光蛋白、抗体和酶。

方面35.如方面29至34中任一项所述的化合物，所述化合物由式(IVB)或(IVC)描述：

其中：

Y²是第二生物分子；

n是1至3的整数。

方面36.如方面35所述的化合物，其中式(IVB)的所述修饰的靶分子具有式(IVB1)-(IVZB5)中的任一者：

方面37.如方面35所述的化合物，其中式(IV)的所述修饰的靶分子具有式(IVC1)-(IVC5)中的任一者：

方面38.如方面29至37中任一项所述的化合物，所述化合物由式(IVD)-(IVG)中的任一者描述：

其中：

R²选自烷基和取代的烷基；

R³选自氢、烷基、取代的烷基、肽和多肽；以及

n是1至3的整数。

方面39.如方面29至38中任一项所述的化合物，其中Y²是CRISPR-Cas效应子多肽。

方面B

上述本发明主题的包括各实施方案的各方面可在单独或与一个或多个其他方面或实施方案组合的情况下是有益的。在不限制前述描述的情况下，下文提供本公开的某些非限制性方面，其编号为1-71。如本领域的技术人员在阅读本公开后将显而易见的，单独编号方面中的每一者可与先前或随后单独编号方面中的任一者一起使用或组合。这旨在为各方面的所有此类组合提供支持，并且不限于以下明确提供的各方面的组合：

方面2.如方面1所述的方法，其中所述靶分子是多肽或多核苷酸。

方面3.如方面1或方面2所述的方法，其中所述酶是酪氨酸酶多肽。

方面4.如方面1至3中任一项所述的方法，其中所述酪氨酸酶多肽是双孢蘑菇酪氨酸酶(abTYR)多肽。

方面5.如方面1至3中任一项所述的方法，其中所述酪氨酸酶多肽包含与图8或图9中描绘的abTYR氨基酸序列具有至少75％氨基酸序列同一性的氨基酸序列。

方面6.如方面4或方面5所述的方法，其中包含所述酚部分或所述儿茶酚部分的所述生物分子在所述酚或儿茶酚部分的50埃

内是中性的或带正电荷的。

方面7.如方面1至3中任一项所述的方法，其中所述酪氨酸酶多肽是巨大芽孢杆菌酪氨酸酶(bmTYR)多肽。

方面8.如方面1至3中任一项所述的方法，其中所述酪氨酸酶多肽包含与图10A至图10Z和图10AA至图10VV中任一者描绘的任一个氨基酸序列具有至少75％氨基酸序列同一性的氨基酸序列。

方面9.如方面7或方面8所述的方法，其中包含酚部分或儿茶酚部分的所述生物分子在所述酚或儿茶酚部分的

内是带负电荷的。

方面10.如方面1至9中任一项所述的方法，其中所述靶分子是多核苷酸。

方面11.如方面10所述的方法，其中所述靶分子是DNA分子。

方面12.如方面10所述的方法，其中所述靶分子是RNA分子。

方面13.如方面10至12中任一项所述的方法，其中所述生物分子是多肽。

方面14.如方面1至13中任一项所述的方法，其中所述酶与固体载体结合。

方面15.如方面1至14中任一项所述的方法，其中所述酚部分存在于酪氨酸残基中。

方面16.如方面1至15中任一项所述的方法，其中所述硫醇部分存在于半胱氨酸残基中。

方面17.如方面16所述的方法，其中所述半胱氨酸残基是天然半胱氨酸残基。

方面18.如方面1至17中任一项所述的方法，其中所述生物分子包含一个或多个选自以下的部分：荧光团、活性小分子、亲和标签和金属螯合剂。

方面19.如方面1至18中任一项所述的方法，其中所述反应性部分是邻醌或半醌基团，或它们的组合。

方面20.如方面1至19中任一项所述的方法，其中所述生物分子是多肽。

方面21.如方面20所述的方法，其中所述生物分子是选自荧光蛋白、抗体、酶、受体的配体和受体的多肽。

方面22.如方面1至21中任一项所述的方法，其中包含酚部分或儿茶酚部分的所述生物分子具有式(I)，并且其中包含反应性部分的所述生物分子具有式(II)或(IIA)，或它们的组合：

其中：

X¹选自氢和羟基；以及

L是任选的接头。

方面23.如方面1至22中任一项所述的方法，其中包含硫醇部分的所述靶分子具有式(III)，并且其中所述修饰的靶分子具有式(IV)或(IVA)，或它们的组合：

其中：

Y²是第二生物分子；

L是任选的接头；以及

n是1至3的整数。

方面24.如方面23所述的方法，其中式(IV)的所述修饰的靶分子具有式(IV1)-(IV3)中的任一者：

式(IVA)的所述修饰的靶分子具有式(IVA1)-(IVA3)中的任一者：

方面25.如方面23所述的方法，其中式(IV)的所述修饰的靶分子具有式(IV5)-(IV6)中的任一者：

式(IVA)的所述修饰的靶分子具有式(IVA4)-(IVA5)中的任一者：

方面26.如方面1至25中任一项所述的方法，其中包含酚部分或儿茶酚部分的所述生物分子由式(IA)描述：

其中：

X¹选自氢和羟基；以及

方面27.如方面26所述的方法，其中所述荧光团是罗丹明染料或呫吨染料。

方面28.如方面1至27中任一项所述的方法，其中所述修饰的靶分子由式(IVB)或(IVC)或它们的组合描述：

其中：

Y²是第二生物分子；

n是1至3的整数。

方面29.如方面28所述的方法，其中式(IVB)的所述修饰的靶分子具有式(IVB1)-(IVZB3)中的任一者：

式(IVC)的所述修饰的靶分子具有式(IVC1)-(IVC3)中的任一者：

方面30.如方面28所述的方法，其中式(IVB)的所述修饰的靶分子具有式(IVB5)-(IVB6)中的任一者：

式(IVC)的所述修饰的靶分子具有式(IVC4)-(IVC5)中的任一者：

方面31.如方面1至30中任一项所述的方法，其中所述方法在4至9的pH下进行。

方面32.如方面31所述的方法，其中所述方法在中性pH下进行。

方面33.如方面1至32中任一项所述的方法，其中包含硫醇基团的所述靶分子是CRISPR-Cas效应子多肽。

方面34.一种组合物，其包含：

式(III)的包含硫醇的靶分子：

以及

式(I)的包含酚部分或儿茶酚部分的生物分子：

其中：

X¹选自氢和羟基；

L是任选的接头；以及

Y²是第二生物分子。

方面35.如方面34所述的组合物，其中包含酚部分或儿茶酚部分的所述生物分子在所述酚部分或儿茶酚部分的

内是中性的或带正电荷的。

方面36.如方面34所述的组合物，其中包含酚部分或儿茶酚部分的所述生物分子在所述酚部分或儿茶酚部分的

内是带负电荷的。

方面37.如方面34至36中任一项所述的组合物，其中Y¹是多肽并且其中Y²是多肽。

方面38.如方面34至36中任一项所述的组合物，其中Y¹是多核苷酸并且其中Y²是多肽。

方面39.如方面34至38中任一项所述的组合物，其中Y²是CRISPR-Cas效应子多肽。

方面40.如方面34至39中任一项所述的组合物，其中式(I)由式(IA)描述：

其中：

X¹选自氢和羟基；以及

方面41.一种试剂盒，其包括：

第一容器，所述第一容器包含如方面34至40中任一项所述的组合物；以及

方面42.如方面41所述的试剂盒，其中所述酶是酪氨酸酶多肽。

方面43.如方面42所述的试剂盒，其中所述酪氨酸酶是双孢蘑菇酪氨酸酶(abTYR)。

方面44.如方面42所述的试剂盒，其中所述酪氨酸酶多肽包含与图8或图9中描绘的abTYR氨基酸序列具有至少75％氨基酸序列同一性的氨基酸序列。

方面45.如方面42所述的试剂盒，其中所述酪氨酸酶是巨大芽孢杆菌酪氨酸酶(bmTYR)。

方面46.如方面42所述的试剂盒，其中所述酪氨酸酶多肽包含与图10A至图10Z和图10AA至图10VV中任一者描绘的任一个氨基酸序列具有至少75％氨基酸序列同一性的氨基酸序列。

方面47.一种式(IV)或(IVA)的化合物：

其中：

L是任选的接头；

Y²是第二生物分子；以及

n是1至3的整数。

方面48.如方面47所述的化合物，其中式(IV)的所述修饰的靶分子具有式(IV1)-(IV5)中的任一者：

方面49.如方面47所述的化合物，其中式(IVA)的所述修饰的靶分子具有式(IVA1)-(IVA5)中的任一者：

方面50.如方面47至49中任一项所述的化合物，其中L是可裂解的接头。

方面51.如方面47至50中任一项所述的化合物，其中Y¹是多肽。

方面52.如方面51所述的化合物，其中Y¹选自荧光蛋白、抗体和酶。

方面53.如方面47至52中任一项所述的化合物，所述化合物由式(IVB)或(IVC)描述：

其中：

Y²是第二生物分子；

n是1至3的整数。

方面54.如方面53所述的化合物，其中式(IVB)的所述修饰的靶分子具有式(IVB1)-(IVZB5)中的任一者：

方面55.如方面53所述的化合物，其中式(IV)的所述修饰的靶分子具有式(IVC1)-(IVC5)中的任一者：

方面56.如方面47至55中任一项所述的化合物，所述化合物由式(IVD)-(IVG)中的任一者描述：

其中：

R²选自烷基和取代的烷基；

R³选自氢、烷基、取代的烷基、肽和多肽；以及

n是1至3的整数。

方面57.如方面47至56中任一项所述的化合物，其中Y²是CRISPR-Cas效应子多肽。

方面58.一种将第一多肽和第二多肽化学选择性偶联至偶联多肽的方法，所述方法包括：

a)使所述第一多肽与所述偶联多肽接触，以产生第一多肽-偶联多肽缀合物，

其中所述第一多肽包含硫醇部分，

其中所述偶联多肽包含与存在于所述第一多肽中的所述硫醇部分形成共价键的N端反应性部分，

其中包含所述N端反应性部分的所述偶联多肽通过使包含N端酚或儿茶酚部分和C端酚或儿茶酚部分的多肽与能够氧化所述N端酚或儿茶酚部分但不氧化所述C端酚或儿茶酚部分的第一酶反应以产生所述N端反应性部分而产生；

其中所述偶联多肽在所述N端酚或儿茶酚部分的十个氨基酸内包含两个或更多个带正电荷或中性的氨基酸并且在所述C端酚或儿茶酚部分的十个氨基酸内包含两个或更多个带负电荷的氨基酸；以及

b)使所述第二多肽与所述第一多肽－偶联多肽缀合物接触，

其中所述第二多肽包含硫醇部分，

其中所述第一多肽-偶联多肽缀合物包含与存在于所述第二多肽中的所述硫醇部分形成共价键的C端反应性部分，

其中包含所述C端反应性部分的所述第一多肽-偶联多肽缀合物通过使所述第一多肽－偶联多肽缀合物与能够氧化所述C端酚或儿茶酚部分的第二酶反应以产生C端反应性部分而产生；并且

其中所述接触产生第一多肽-偶联多肽-第二多肽缀合物。

方面59.如方面58所述的方法，其中：

a)所述第一酶是包含与图8或图9中描绘的abTYR氨基酸序列具有至少75％氨基酸序列同一性的氨基酸序列的酪氨酸酶多肽；以及

b)所述第二酶是包含与图10A至图10Z和图10AA至图10VV中任一者描绘的任一个氨基酸序列具有至少75％氨基酸序列同一性的氨基酸序列的酪氨酸酶多肽。

方面60.一种将第一多肽和第二多肽化学选择性偶联至偶联多肽的方法，所述方法包括：

其中所述第一多肽包含硫醇部分，

其中所述偶联多肽在所述N端酚或儿茶酚部分的十个氨基酸内包含两个或更多个带负电荷的氨基酸并且在所述C端酚或儿茶酚部分的十个氨基酸内包含两个或更多个带正电荷或中性的氨基酸；以及

b)使所述第二多肽与所述第一多肽-偶联多肽缀合物接触，

其中所述第二多肽包含硫醇部分，

其中包含所述C端反应性部分的所述第一多肽-偶联多肽缀合物通过使所述第一多肽-偶联多肽缀合物与能够氧化所述C端酚或儿茶酚部分的第二酶反应以产生所述C端反应性部分而产生；以及其中所述接触产生第一多肽-偶联多肽-第二多肽缀合物。

方面61.如方面60所述的方法，其中：

a)所述第一酶是包含与图10A至图10Z和图10AA至图10VV中任一者描绘的任一个氨基酸序列具有至少75％氨基酸序列同一性的氨基酸序列的酪氨酸酶多肽；以及

b)所述第二酶是包含与图8或图9中描绘的abTYR氨基酸序列具有至少75％氨基酸序列同一性的氨基酸序列的酪氨酸酶多肽。

方面62.一种将第一多肽共价连接至第二多肽的方法，所述方法包括：

a)使所述第一多肽与固定的反应性部分接触，

其中所述固定的反应性部分通过使固定的酚部分或儿茶酚部分与第一酶反应而产生，其中所述第一酶能够氧化所述固定的酚部分或儿茶酚部分，从而产生所述固定的反应性部分，

其中所述第一多肽包含：i)硫醇部分；以及ii)酚部分或儿茶酚部分，其中所述第一多肽在所述酚部分或儿茶酚部分的十个氨基酸内包含两个或更多个带负电荷的氨基酸，

其中所述固定的反应性部分与存在于所述第一多肽中的所述硫醇部分形成共价键，从而产生固定的第一多肽；

b)使所述固定的第一多肽与第二酶接触，其中所述第二酶能够氧化存在于所述第一多肽中的所述酚部分或所述儿茶酚部分以产生包含反应性部分的固定的第一多肽；以及

c)使包含反应性部分的所述固定的第一多肽与第二多肽接触，

其中所述第二多肽包含：i)硫醇部分；以及ii)酚部分或儿茶酚部分，其中所述第二多肽在所述酚部分或所述儿茶酚部分的十个氨基酸内包含两个或更多个中性或带正电荷的，

其中存在于所述固定的第一多肽中的所述反应性部分与存在于所述第二多肽中的所述硫醇部分形成共价键，从而产生包含与所述第二多肽共价连接的所述第一多肽的固定的缀合物。

方面63.如方面62所述的方法，其中所述第一酶是包含与图8、图9、图10A至图10Z和图10AA至图10VV中任一者描绘的任一个氨基酸序列具有至少75％氨基酸序列同一性的氨基酸序列的酪氨酸酶多肽。

方面64.如方面62或方面63所述的方法，其中存在于所述第一多肽中的所述硫醇部分存在于Cys中，并且其中存在于所述第一多肽中的所述酚部分存在于Tyr残基中。

方面65.如方面64所述的方法，其中所述Tyr残基存在于包含EEEY(SEQ ID NO:953)、EEEEY(SEQ ID NO:955)、DDDDY(SEQ ID NO:965)或DDDDY(SEQ ID NO:965)的氨基酸段中。

方面66.如方面62至65中任一项所述的方法，其中所述第二酶是包含与图10A至图10Z和图10AA至图10VV中任一者描绘的任一个氨基酸序列具有至少75％氨基酸序列一致性的氨基酸序列的酪氨酸酶多肽。

方面67.如方面62至66中任一项所述的方法，所述方法更包括：

c)使所述固定的缀合物与第三酶接触，其中所述第三酶能够氧化存在于所述第二多肽中的所述酚部分或所述儿茶酚部分以产生包含反应性部分的固定的缀合物；以及

c)使包含反应性部分的所述固定的缀合物与第三多肽接触，

其中所述第三多肽包含：i)硫醇部分；以及ii)酚部分或儿茶酚部分，其中所述第三多肽在所述酚部分或所述儿茶酚部分的十个氨基酸内包含两个或更多个带负电荷的，

其中存在于所述固定的缀合物中的所述反应性部分与存在于所述第二多肽中的所述硫醇部分形成共价键，从而产生包含与所述第二多肽共价连接的所述第三多肽的固定的缀合物。

方面68.如方面67所述的方法，其中所述第三酶是包含与图8或图9中描绘的氨基酸序列具有至少75％氨基酸序列同一性的氨基酸序列的酪氨酸酶多肽。

方面69.如方面67或68所述的方法，其中在步骤(b)与步骤(c)之间，所述第二酶被灭活或去除。

方面70.如方面67至69中任一项所述的方法，其中存在于所述第二多肽中的所述硫醇部分存在于Cys中，并且其中存在于所述第二多肽中的所述酚部分存在于Tyr残基中。

方面71.如方面70所述的方法，其中所述Tyr残基存在于包含RRRY(SEQ ID NO:949)、RRRRY(SEQ ID NO:951)、KKKY(SEQ ID NO:966)或KKKKY(SEQ ID NO:967)的氨基酸段中。

实施例

给出以下实施例以便向本领域普通技术人员提供对如何制备和使用本发明的完整公开和描述，并且不旨在限制发明者所视为的他们的发明的范围，它们也不旨在表示以下实验是所进行的所有或仅有实验。已努力确保关于所用数值(例如数量、温度等)的准确性，但应考虑一些实验误差和偏差。除非另有说明，否则份数是重量份，分子量是重量平均分子量，温度是摄氏度，并且压力是大气压或接近大气压。可使用标准缩写，例如，bp，碱基对；kb，千碱基；pl，皮升；s或sec，秒；min，分钟；h或hr，小时；aa，氨基酸；kb，千碱基；bp，碱基对；nt，核苷酸；i.m.，肌内；i.p.，腹膜内；s.c.，皮下；等。

示例性含酚和儿茶酚的中间体可以使用任何方便的方法合成。可适用于制备本公开的示例性含酚和儿茶酚的中间体的方法包括由Maza等人在“Enzymatic Modificationof N-Terminal Proline Residues Using Phenol Derivatives”,J.Am.Chem.Soc.(2019),141,3885-3892中描述的那些方法，其公开内容通过全文引用的方式并入本文。提供适用于合成所公开的化合物的通常已知的化学合成方案和条件的许多通用参考文献也是可获得的(参见，例如Smith和March,March's Advanced Organic Chemistry:Reactions,Mechanisms,and Structure,第五版,Wiley-Interscience,2001；或Vogel,ATextbook of Practical Organic Chemistry,Including Qualitative OrganicAnalysis,第四版,New York:Longman,1978)。反应可以通过薄层色谱法(TLC)、LC/MS监测，并且反应产物通过LC/MS和¹H NMR表征。

实施例1

除非另有说明，否则所有化学品均购自Sigma Aldrich。肽购自Genescript。肽序列可以在SI中找到。

酪氨酸酶偶联反应

在衣壳的半胱氨酸突变体上进行MS2缀合，所述突变体用半胱氨酸替换第87位的天冬酰胺残基(N87C)。偶联条件是20mM pH 6.5磷酸盐、10uM N87C MS2、购自Sigma-Aldrich的酪氨酸酶(CAS号9002-10-2)，稀释于50mM磷酸盐pH 6.5中，以1:10比率添加至0.16μM的最终浓度。除非另有说明，否则添加偶联剂至50μM的最终浓度或5x MS2单体浓度。添加超纯水(Milipore Sigma，18uohm电阻)至20μL的最终体积。反应在室温下进行30分钟，然后用2uL 20mM托酚酮和20mM TCEP猝灭，得到各自2mM的最终浓度。

对于稳定性研究，用与树脂偶联的酶替换松散的酪氨酸酶。如上进行反应，添加通过0.2um过滤器的过滤步骤以去除过量的酪氨酸酶，以及用1mM托酚酮和TCEP猝灭。

Cas9偶联在以下条件下发生：20mM Tris HCl、300mM KCl、50mM海藻糖pH 7.0(缓冲液A)、4℃1hr、10uM Cas9。使用上述猝灭溶液猝灭所有样品，然后使用100,000kDa MWCO自旋浓缩器将溶剂交换到缓冲液A中三次。对于肽偶联，以5x比例添加肽，得到50uM肽浓度。在蛋白质-蛋白质偶联中发现1:1比率的Cas9:靶蛋白在过滤后产生接近定量的转化为单修饰的Cas9，而1:5比率的Cas9:靶标产生完全转化为双重修饰的产物。

图1示出了蛋白质规模的反应方案。

图2的A图示出通过蛋白质上的马来酰亚胺封端硫醇阻断了通过酪氨酸酶催化反应的加成，反之，其中首先进行酪氨酸酶，也阻断了马来酰亚胺的反应。

图2的B图示出了一系列稳定性研究，证明缀合键在各种缓冲条件下随时间稳定。

图3示出了已经在主题方法中使用的底物的不同阵列。

图4示出了支持使用主题方法添加多种肽的质谱数据。

图5的A图证明了可以使用主题方法修饰Cas9。

图5的B图证明了修饰的Cas9保持活性，即使在apo蛋白上进行反应，即Cas9没有其指导RNA。

图5的C图证明了Cas9可以用另一种蛋白质修饰，在这种情况下是具有N端酪氨酸的GFP。

图5的D图证明了GFP-Cas9缀合物保留活性。

图6证明了用肽修饰的Cas9，所述肽是2NLS序列Ac-YGPKKKRKVGGSPKKKRKV(SEQ IDNO:943)，在这种情况下神经祖细胞中的编辑有20倍的改善。

实施例2

开发了一种系统，其利用abTYR的电荷限制，同时采用来自细菌巨大芽孢杆菌(bmTYR)的半正交酪氨酸酶(Goldfeder等人(2013)Biochim.Biophys.Acta-ProteinsProteomics 1834:629；Kanteev等人(2013)J.Biol.Inorg.Chem.18:895；Kanteev等人(2015)Protein Sci 24:1360；Sendovski等人(2010)Acta Crystallogr.Sect.FStruct.Biol.Cryst.Commun.66:1101；Shuster Ben-Yosef等人(2010)EnzymeMicrob.Technol.47:372；Shuster等人(2009)J.Mol.Microbiol.Biotechnol.17:188)。

为了探索底物电荷对abTYR的影响，获得十五个5-聚体肽文库，并通过比较肽文库与Y182C GFP和pAF MS2两者之间的偶联反应的产率来进行abTYR的电荷筛选。选择这些底物，因为它们在Y182C GFP的情况下代表单个硫醇，并且在pAF MS2的情况下代表单个苯胺，以及同时代表带正电荷和带负电荷的蛋白质底物。基于该数据，似乎abTYR对酪氨酸残基周围的电荷和空间位阻都敏感，负电荷是比空间体积更有害得多的因素。在两种情况下，-4电荷足以完全抑制肽上的酪氨酸酶活性(图11)。

为了探索abTYR的电荷偏好背后的潜在原因，检查蛋白质的晶体结构，并且注意到abTYR由于谷氨酸和天冬氨酸残基的丰度而在其活性位点周围具有大的总体负电荷。假设这些“看门人”残基是引起abTYR的电荷偏好的残基(图12A)。

在细菌中表达真核酶是重要的；此外，abTYR是杂四聚体，这进一步增加了其表达的复杂性。鉴定了具有公开晶体结构的单体细菌酪氨酸酶。对来自巨大芽孢杆菌的酪氨酸酶(bmTYR)(Goldfeder等人(2013)同上；Kanteev等人(2013)同上；Kanteev等人(2015)同上；Sendovski等人(2010)同上；Shuster Ben-Yosef等人(2010)同上；Shuster等人(2009)同上)进行研究。bmTYR具有带正电荷的活性位点，这通过晶体结构证实(图12B)。bmTYR在大肠杆菌(E.Coli)中表达并且进行肽电荷筛选的初始试验。数据表明bmTYR可以接受带负电荷的底物(图13、图14)。另外，与abTYR类似，bmTYR由托酚酮抑制。可以进行表达bmTYR突变体以便增加催化活性。基于文献而言，突变：F197A、R209H、V218G和V218F(Kanteev等人(2015)同上；Sendovski等人(2010)同上；Shuster Ben Yosef等人(2010)同上；ShusterBen-Yosef(2010)同上)产生一些变化的和有益的特性，包括铜分子的更好保留、对酚类靶标的更大选择性和对空间体积的增加和降低的敏感性两者。另外，可使用具有突变D55K和E141K的bmTYR，这应产生仅作用于带负电荷的底物的酪氨酸酶。这些残基D55和E141位于活性位点附近并以红色突出显示(图12B)。

实施例3

结果

在对abTYR介导的酚官能化货物的氧化偶联的初始研究过程中，询问α-内啡肽(图16a)上的N端酪氨酸残基是否在空间上可接近足以到达abTYR活性位点中。测试了与对氨基苯丙氨酸(pAF)MS2病毒衣壳偶联配偶体的这种反应。观察到向功能化病毒衣壳的完全、接近定量的转化(图16b)。α-内啡肽N端的乙酰化对于该反应的成功是必要的，因为游离的N端将容易攻击近端邻醌，正如它在黑色素生物合成过程中对游离的L-酪氨酸氨基酸的氧化之后所做的那样(Ramsden等人(2014)Bioorganic Med.Chem.22:2388)。

为了测试在挑战性蛋白质底物上的反应，选择GGY标签以附加到曲妥珠单抗抗体的单链可变片段(scFv)。曲妥珠单抗是FDA批准的用于治疗HER2⁺乳腺癌的单克隆抗体(Plosker等人(2006)Drugs 66:449)，并且被广泛用作测试生物缀合反应的模型构建体(Chen等人(2016)Sci.rep.6:1；Zhang等人(2015)Nat.Chem.8:120；Ban等人(2013)Bioconjug.Chem.24:520；Bruins等人(2017)Bioconjug.Chem.28:1189)。曲妥珠单抗也通常以单链可变片段(scFv)形式使用，其由于其相对于全长抗体改善的组织和肿瘤穿透性(Yokota等人(1992)Cancer Res.52:3402；Batra等人(2002)13:603)以及其用于构建双特异性抗体的潜力(Brinkmann等人(2017)MAbs 9:182)而受到关注。选择已确立的大肠杆菌周质表达方案以产生具有C端-GGY标记的曲妥珠单抗scFv(Rouet等人(2012)Nat.Protoc.7:364)。由该底物提出的一个潜在挑战是，在其15个酪氨酸残基中，8个位于抗原结合位点上，其酚侧链朝向本体溶液。尽管内部酪氨酸残基的脱靶氧化的可能性，但观察到scFv的C端-GGY标记的形式接近定量地偶联于模型苯胺亲核试剂(图16)，而未标记的形式在反应条件下实际上未触及(图23)。

该底物的特别完全的转化导致将其用作测试反应的几个参数的模型。在进行这些研究的同时，以U/mL为单位测量abTYR浓度，因为发现等质量的不同批次的abTYR的酶促活性略有不同(例如1mg/mL酪氨酸酶储备溶液通常具有900与1200U/mL之间的活性，对应于在典型的12U/mL反应中的150至200nM的酶)。将苯胺的浓度从25μM改变至750μM显示在150μM的浓度下(图16b)用至少8U/mL abTYR实现最大转化。然而，在较低abTYR浓度下，较高浓度的苯胺似乎抑制酪氨酸酶，如这些反应中残余的未氧化的起始物质所证明(图24)。为了减少亲核偶联配偶体对abTYR的抑制，用邻甲苯胺和2,6-二甲基苯胺重复浓度筛选(图26、图17)，假设不易于封闭酪氨酸酶活性位点。然而，这些亲核试剂在每种测试浓度下提供比苯胺更低的转化率。

残余的未偶联的蛋白质在与至少8U/mL酪氨酸酶的反应中被TOF-LCMS完全氧化的事实表明偶联配偶体在其被竞争过程猝灭之前具有有限的时间截取邻醌中间体。晚期亲核试剂添加实验(其中在酪氨酸酶之后5、10、20、40或60min将苯胺添加至一系列scFv-GGY OC反应中)显示，虽然在每种情况下起始蛋白质完全氧化，但所形成的产物的量取决于在反应开始之后多快添加偶联配偶体(图25)。

考虑到亲核试剂与邻醌中间体反应的速率的重要性，研究了可能在4-氨基苯基基团与其货物之间的最佳偶联配偶体。将4-氨基苯基-N-甲基酰胺、对茴香胺和对甲苯胺用作模型化合物以探测将4-氨基苯酚连接到其他底物的最佳方式。4-氨基苯基-N-甲基酰胺提供最清洁的反应，而对茴香胺和对甲苯胺提供差的结果。*对茴香胺反应变为橙色，表明亲核试剂的氧化和蛋白质的二次修饰。最后，评估各种哌嗪和外消旋N-甲基吡咯烷的偶联效率。这些被证明是次等亲核试剂，因为需要高得多的微摩尔和毫摩尔浓度来实现良好的转化(图16c；图27)。N-甲基-吡咯烷-脯氨酸N端的模型-在这类亲核试剂中提供了最好的转化。

为了证明abTYR介导的对-GGY标记的曲妥珠单抗scFv的修饰不干扰该构建体的结合活性，将荧光染料俄勒冈绿(O.G.)488用苯胺亲核试剂衍生化并氧化偶联到scFv上。最佳地用25μM苯胺-O.G.488与12U/mL abTYR进行反应，得到具有85％转化率的scFv-GGY-An-O.G.488构建体。流式细胞术显示该构建体可相对于HER2-MDA-MB-468乳腺癌细胞选择性地识别HER2+SK-BR-3乳腺癌细胞系(图22d)。

由高碘酸钠和铁氰化钾介导的对氨基苯丙氨酸与邻甲氧基苯酚和邻氨基苯酚之间的氧化偶联反应的产物结构(Obermeyer等人(2014)Angew.Chemie–Int.Ed.53:1057；Elsohly等人(2017)J.Am.Chem.Soc.139:3767)先前已经表征并且在酪氨酸酶介导的偶联中观察到的产物质量与预期结构一致。尽管如此，通过NMR表征偶联产物以证实反应的等同性。在N-乙酰基-L-酪氨酸和对甲苯胺之间在具有abTYR的D₂O中，进行小分子模型反应。该反应需要更多的酪氨酸酶和延长的反应时间以在D₂O中进行并变成暗紫色。反应混合物的直接NMR观察揭示与图中所示一致的单一主要产物。

在4℃下在具有15％甘油的标准磷酸盐和NaCl蛋白储存缓冲液(pH 7.4)中在7天的过程中监测苯胺与Tyr标记的scFv缀合的稳定性，并且发现键联是完整的(图30)。添加10mM二硫苏糖醇(图29)或谷胱甘肽(图31)导致硫醇加合物的形成。在谷胱甘肽的情况下，这种进一步的修饰在24小时内定量发生。图32显示用谷胱甘肽，然后用DTT依序处理苯胺偶联的scFv。尽管有该额外的修饰，但在两种情况下苯胺键联保持完整。

还通过表达在N或C末端具有酪氨酸标签的几种全长蛋白质，在不同的蛋白质底物上测试了该方法。

蛋白-L是识别人κ轻链可变区的IgG结合蛋白。在致病性大消化链球菌(Peptostreptococcus magnus)中发现，其由五个结合结构域组成(Donaldson等人(2013)Proc.Natl.Acad.Sci.U.S.A.110:17456)，该结合结构域由短的9-10个氨基酸接头串联连接(Kastern等人(1992)J.Biol.Chem.267:12820)(图20a)。这五个结构域的组合相互作用的亲合力允许蛋白质在pH 8时达到130nM的K_d(Beckingham等人(1999)Biochem.J.340:193)。当重组表达时，通常省略野生型蛋白质的细胞壁锚定结构域，并且一些截短形式仅具有3个或4个轻链结合结构域。蛋白-L通常用于scFv的纯化(Song等人(2015)ProteinExpr.Purif.116:98)，并且已被用作表达嵌合抗原受体(CAR)的细胞的通用流式细胞术标记(Zheng等人(2012)J.Transl.Med.10:1)，其通常利用scFv以识别它们的靶标。因为蛋白-L与可变轻链结合而不干扰抗原识别环，所以其可用作结合的scFv以及IgG的“二级”检测试剂。

蛋白-L在具有悬垂-GGY和-GGGGSGGY(SEQ ID NO:968)标签的大肠杆菌中表达，用于用苯胺官能化的O.G.488进行abTYR介导的修饰以产生二级scFv检测试剂。然而，这些构建体对abTYR的氧化具有抗性，最可能是因为末端酪氨酸残基没有延伸到离蛋白质结构的主体足够远以到达空间上封闭的abTYR活性位点。当短的-GGY和-SSGGGGY(SEQ ID NO:948)标签附加到麦芽糖结合蛋白(MBP)的C端时，会遇到同样的问题。为了克服该问题，产生了在酪氨酸标签之前具有各种类型和长度的C端接头的蛋白-L变体的集合(图20b、图28)。除柔性(G₄S)_1-3接头之外，蛋白质-L用α-螺旋(EAAAK)₂(SEQ ID NO:969)重复序列(Arai等人(2001)Protein Eng.14:529)、刚性非氢键合(AP)₃重复序列(Chen等人(2013)Adv.DrugDeliv.Rev.65:1357)、聚天冬酰胺(N₂₀)序列和易于修饰的曲妥珠单抗scFv的C端序列(EIKRTGGY)(SEQ ID NO:970)延伸。另外，缺失C端第5轻链结合结构域，并将第4和第5轻链结合结构域之间的天然接头用-GGY和-G₄SGGY(SEQ ID NO:968)标签延伸。令人失望的是，这些变体都不能被abTYR氧化。

已经认识到，120kDa酪氨酸酶蛋白的空间体积将可能使得在许多蛋白质底物上难以接近活性位点。虽然原则上可以通过继续延伸C端接头产生abTYR-可氧化变体，但是更长的接头增加了标签干扰蛋白质功能的风险，并且更难以通过PCR安装，降低了酪氨酸标记方法的便利性。因此，有动机表达和测试小得多的巨大芽孢杆菌酪氨酸酶(bmTYR)。该35.5kDa蛋白质在BL21(DE3)大肠杆菌中稳健表达，其产率高达200mg/L，并且与abTYR相比具有大得多的空间暴露活性位点。令人满意地，暴露于bmTYR的所有酪氨酸标记的蛋白-L变体被定量氧化并与150μM苯胺反应，转化率超过90％，而未标记的变体未被接触(图20b、图28)。酪氨酸标记的MBP变体也成功地被bmTYR氧化，尽管在这种情况下，反应耗费超过1小时才能达到高转化率。

在进行中的蛋白-L修饰的解决方案的情况下，用25μM苯胺-O.G.488亲核试剂在-AN₂₀GGY标记的蛋白-L变体上进行bmTYR介导的OC。以转化率为87％得到所需缀合物(图22c)。然后将该构建体施加至已用非酪氨酸标记的曲妥珠单抗scFv预处理的HER2+(SK-BR-3)或HER2-(MDA-MB-468)乳腺癌细胞。只有用苯胺-O.G.488在bmTYR介导的OC条件下修饰的蛋白-L构建体在暴露于scFv后能够标记HER2+细胞(图22d)。不具有HER2的细胞或具有从偶联和标记工作流程中省略的组分的样品未经标记。

材料和方法

试剂

除非另有说明，否则所有化学品均从Sigma Aldrich或ThermoFisher Scientific订购并按原样使用。使用Milli-Q H₂O。

双孢蘑菇酪氨酸酶(“来自蘑菇的酪氨酸酶”)作为冻干粉末从Sigma Aldrich获得并且在接收到时储存在-20℃下。1mg/mL储备溶液在50mM磷酸盐缓冲液中，在15％甘油水溶液(pH 6.5)中制备，储存在-80℃下。在使用前不久将等分试样在冰上解冻，并测定每种新原液的活性。稳定性研究表明，以这种方式储存的abTYR等分试样的活性在-80℃下储存数月内变化很小。

蛋白质构建体

蛋白质基因块从Integrated DNA Technologies订购，经密码子优化用于大肠杆菌表达。Bsa1切割位点存在于用于克隆入pET28b金门进入载体中的基因序列的任一端。该载体能对用携带插入基因的质粒成功转化的菌落进行绿色/白色筛选。

用于后续TOF-LCMS分析的代表性酪氨酸酶介导的氧化偶联反应

将一定体积的每种储备溶液添加至Eppendorf管，最后添加酪氨酸酶。使所得溶液在室温下静置60分钟，然后添加5.0μL的21mM托酚酮水溶液。猝灭的反应物在10kDa MWCO500μL amicon超离心过滤器中进行四个循环的旋转脱盐，在每个循环之前用400μL的Milli-Q H₂O稀释以去除苯胺和磷酸盐缓冲液。使所得35-50μL液滴通过0.22μm乙酸纤维素离心过滤器并进行TOF-LCMS分析。

重组蛋白的胞质表达－升规模

将BL21(DE3)Star大肠杆菌于含有50μg/mL卡那霉素的TB培养基中的10mL过夜培养物接种到含有1L无菌Terrific Broth培养基和卡那霉素的2.8L三叉锥形瓶中。培养物在37℃下以220rpm振荡生长直到600nm处的O.D.达到0.6-0.8。为了诱导表达，从1.0M储备液添加IPTG至1.0mM的最终浓度。在上表中给出的温度、时间和振荡速度下孵育培养物。通过离心(3,200g，15min，4℃)使培养物沉淀，并弃去上清液。从该点开始的所有步骤用冷(4℃)缓冲液并在冰上进行。将每种沉淀物再悬浮于45mL的D.I.H₂O中，然后在50mL离心管中沉淀(3,200g，15min，4℃)。倒出上清液并将沉淀物储存在-80℃下或立即裂解。

使每种细胞沉淀物(来自0.5L培养物)再悬浮于25mL裂解缓冲液(PBS，20mM咪唑，pH 7.4，含有0.1mM苯甲基磺酰氟，0.05U/mL苄胺酶和0.5mg/mL鸡蛋清溶菌酶)中。将细胞在冰上孵育至少30分钟，然后通过10min超声处理(2秒开启，3秒关闭脉冲，振幅为60％)裂解。将所得悬浮液离心(14,000g，30min，4℃)并使上清液通过0.2μm针筒式过滤器。使用与缓冲液A(含有20mM咪唑的PBS，pH 7.4)平衡的G.E.Healthcare HisTrap HP 5mL亲和柱对粗裂解物进行NiNTA纯化。使用0-100％缓冲液B(含有400mM咪唑的PBS，pH 7.4)的梯度历经20个柱体积洗脱蛋白质。使用SDS-PAGE鉴定含有产物的级分并根据需要进行进一步纯化。通过在10kDa MWCO、15mL amicon超离心过滤器中4轮旋转浓缩将纯化的蛋白质交换到蛋白质储存缓冲液(含有15％甘油的PBS)中，在每次旋转前用储存缓冲液稀释。

重组蛋白的胞质表达-10-50mL规模

如上进行表达和细胞沉淀处理。

将沉淀物再悬浮于1.0mL裂解缓冲液中并超声处理45秒(5秒开启，5秒关闭脉冲，振幅为50％)。将裂解物以16,100g离心10min。保留上清液并丢弃固体。对于每种裂解物，每mL细胞培养物10μL的HisPur NiNTA树脂(Thermo Scientific Products#88221；每mL悬浮树脂60mg His₆-蛋白质的容量)用结合缓冲液(PBS，20mM咪唑，pH 7.4)平衡。然后将树脂悬浮在细胞裂解物中并在4℃下孵育1小时。在结合后，用结合缓冲液洗涤树脂等分试样2次，然后用洗脱缓冲液(PBS，80mM咪唑，pH 7.4)释放结合的蛋白质。用SDS-PAGE和TOF-LCMS评估洗脱蛋白的纯度。通过以下方式将蛋白质交换到蛋白质储存缓冲液(20mM Na₂HPO₄，150mMNaCl，在15％甘油中，pH 7.4)中：在10kDa MWCO 500μL amicon超旋转脱盐过滤器中进行4个离心循环(14,000g，20min，4℃)，在每个循环之前用蛋白质储存缓冲液稀释至500μL。

麦芽糖结合蛋白(MBP)

在NiNTA纯化后，合并含MBP的级分，在10kDa MWCO、15mL amicon超离心过滤器中浓缩至20mL，然后透析到阴离子交换缓冲液A(25mM TRIS-HCl，20mM NaCl，pH 7.9)中，然后装载到G.E.Healthcare HiTrap Q HP 5mL柱上并用0-100％缓冲液B(25mM TRIS-HCl，500mM NaCl，pH 7.9)的梯度历经20个柱体积洗脱。

曲妥珠单抗scFv的周质表达和纯化

以下程序改编自Rouet等人(2012)，同上的方案。含有1L的各含50μg/mL卡那霉素的无菌Terrific Broth培养基的两个无翅4L锥形瓶接种有10mL BL21(DE3)Star大肠杆菌细胞的过夜TB培养基培养物，所述细胞在pET28b中携带PelB–曲妥珠单抗scFv–GGY或野生型C端基因构建体。培养物在37℃下以220rpm振荡生长直到600nm处的O.D.达到0.6-0.8。为了诱导表达，从1.0M储备液添加IPTG至0.4mM的最终浓度。然后将培养物在28℃下以200rpm振荡孵育。在4小时后，将各1L培养物分成两个离心瓶并通过离心(3,200g，15min，4℃)沉淀并弃去上清液。从该点开始的所有步骤用冷(4℃)缓冲液并在冰上进行。将每种沉淀物(来自0.5L培养物)再悬浮于25mL周质提取缓冲液1(20％w/v蔗糖，100mM TRIS-HCl，1.0mMEDTA，pH 8.0)中并孵育30min。使用固定角度转子通过离心(10,000g，10min，4℃)将细胞沉淀，并且倒出上清液并保存为“周质提取物1”。将沉淀物各自再悬浮于25mL周质提取缓冲液2(5.0mM MgCl₂)中并在冰上孵育30min。通过离心(10,000g，10min，4℃)再次沉淀细胞，并且倒出上清液并保存为“周质提取物2”。通过SDS-PAGE发现周质提取物都含有scFv。合并提取物，在10kDa MWCO amicon超离心过滤器(4000g，20min，4℃)中通过多轮离心浓缩至50mL，然后通过0.22μm PES针筒式过滤器。将周质提取物转移到3500Da MWCO透析盒，并在温和搅拌下在4L PBS中孵育过夜。

使用缓冲液A(50mM柠檬酸盐，400mM NaCl，pH 6.0)平衡5mL G.E.HealthcareCapto L(树脂结合的蛋白L)亲和柱。透析的周质提取物再次通过0.22μm PES针筒式滤器，装载到Capto L柱上，并用0-100％缓冲液B(50mM柠檬酸盐，pH 2.5)的梯度历经22个柱体积洗脱。用1.0mL 1.0M TRIS HCl缓冲液(pH 8.0)预填充级分收集管，以中和洗脱缓冲液。scFv通常在100％缓冲液B下洗脱并且通过TOF-LCMS纯化。获得每升0.8mg至1.2mg的表达培养基。

合成

将5.0mg(9.8μmol)来自ThermoFisher Scientific的Oregon Green^TM 488羧酸、琥珀酰亚胺酯、5-异构体溶解于200μL DMF中。添加29.1μL的45μg/μL 4-(2-氨基乙基)苯胺(1.34mg,9.8μmol)于DMF中的溶液和52.8μL的60μg/μL TEA(3.17mg，31.3μmol)于DMF中的溶液。将所得亮红橙色溶液避光，并允许在室温下搅拌18小时。反应混合物通过半制备性HPLC，使用50-60％溶剂B(ACN)/溶剂A(Milli-Q H₂O)的梯度，历经8分钟来纯化。将含有产物的级分(绿色)合并，通过旋转蒸发部分浓缩以去除ACN，在-80℃下冷冻并冻干，同时避光。得到2.418mg(46％)橙色粉末。将产物在20％ACN/H₂O中溶解至750μM的储备浓度，并用于偶联反应而无需进一步表征。

用于scFv结合的细胞制备：

含有MDA-MB-468(Her2^-)细胞或SK-BR-3(Her2⁺)的T-25烧瓶获自Berkeley CellCulture Facility，并且在具有5％CO₂的37℃孵育箱中生长至90-100％汇合度。在准备分析时，去除生长培养基并用D-PBS冲洗粘附细胞。通过在37℃下用0.25％胰蛋白酶处理10-15min来分离细胞。通过添加细胞结合缓冲液(补充有10％胎牛血清(FBS)和1.0％w/v NaN₃以防止细胞表面标记内化的DPBS)至13-15mL的总体积来停止胰蛋白酶消化。将细胞添加到15mL离心管中并进行两个循环的离心(300g，5min，室温)，在每个循环后去除上清液并在第二个循环前用14mL结合缓冲液稀释。将细胞再悬浮于1.0mL细胞结合缓冲液中，并用BioRadTC20自动细胞计数器计数。活细胞计数>95％，如台盼蓝染色所示。用另外的结合缓冲液将细胞浓度调节至2.0x 10⁶个细胞/mL。将100μL等分试样的细胞悬浮液转移到Eppendorf管并置于冰上。

scFv-O.G.488缀合物和阴性对照的结合

向每个100μL细胞等分试样中添加31.3μL的0.048μg/μL曲妥珠单抗scFv构建体(-GGY标记的或未标记的并且经受abTYR介导的具有或不具有O.G.-488或abTYR的O.C.条件)，使得向每个样品中添加1.5μg scFv。样品在冰上在暗处孵育1小时。然后对样品进行3个循环的离心(300g，3min)，在每个循环之前将细胞再悬浮于1000μL细胞结合缓冲液中，并在每个循环之后弃去上清液。在离心后，将细胞沉淀物再悬浮于1000μL含0.5％多聚甲醛的DPBS中，并在冰上保持1-3小时，直至准备进行流式细胞术分析。

蛋白-L-AN₂₀GGY-O.G.488缀合物与曲妥珠单抗scFv处理的细胞的结合

向每个100μL细胞等分试样中添加2.0μL的1.5μg/μL未标记的曲妥珠单抗scFv。样品在冰上避光孵育1小时。然后对样品进行2个循环的离心(300g，3min)，在每个循环之前将细胞再悬浮于1000μL细胞结合缓冲液中，并在每个循环之后弃去上清液。将细胞沉淀物再悬浮于100μL细胞结合缓冲液并且添加60μL的0.045μg/μL蛋白-L-AN₂₀GGY-O.G.488缀合物或阴性对照构建体，每个样品总共2.7μg蛋白L构建体。样品在冰上在暗处孵育1小时。然后对样品进行3个循环的离心(300g，3min)，在每个循环之前将细胞再悬浮于1000μL细胞结合缓冲液中，并在每个循环之后弃去上清液。在离心后，将细胞沉淀物再悬浮于1000μL含0.5％多聚甲醛的DPBS中，并在冰上保持1-3小时，直至准备进行流式细胞术分析。

实施例4

这里显示bmTYR的D55K突变体(图10M中所示的氨基酸序列)能够有效地将用酚标记的DNA偶联到含半胱氨酸的蛋白质。在该实验中，携带C6-胺接头的寡核苷酸(购自Integrated DNA Technologies)通过与10x摩尔过量的NHS-苯酚在pH 8.0下于室温下孵育2小时来用酚修饰，并通过离子交换纯化。反应条件如下：i)50μM GFP；157nM abTYR(或bmTYR或D55K bmTYR的等效活性)；ii)250μM DNA-苯酚；iii)10mM磷酸盐，pH 6.5。使反应在室温(RT)下进行30分钟。GFP：27.550kDa；DNA：约8kDa。

数据如图35中所示。在GFP上方出现大的暗带表明使用bmTYR或D55K bmTYR，而不是abTYR的DNA偶联是成功的。

该反应可以相反方向进行，即通过将具有N端或C端酪氨酸标签的蛋白质与具有硫醇修饰的寡核苷酸合并，仍然产生蛋白质-核苷酸缀合物。

实施例5

图36A-36C描绘了使用本公开的方法将核酸偶联至多肽。

如图36A中所示，NHS酚与核酸的胺末端核苷酸偶联，产生含酚的核酸(核酸-酚)。如图36C中所示，然后将核酸-酚偶联至含硫醇的蛋白质(例如，使用具有D55K取代的酪氨酸酶(例如，如图10M中所示的TYR多肽))，产生核酸-蛋白质缀合物。如图36B中所示，abTYR(图8；图9)没有催化反应。

核酸的核苷酸序列中可以包括限制性核酸内切酶，提供从核酸-蛋白质缀合物的蛋白质中选择性切割核酸的能力。

实施例6：TYR突变体的电荷偏好

在这些实验中，将50μM Y182C GFP与200μM的EEEEY(SEQ ID NO:955)、RRRRY(SEQID NO:951)或两者合并，其具有与相关酪氨酸酶的200nm abTYR相当的活性。反应在室温下进行30min，然后用托酚酮猝灭并通过ESI-TOF MS进行分析。数据如图37A-37C中所示。

图37A-37C示出了bmTYR的各种突变对其对带电底物的偏好的影响。如图37C中所示，野生型bmTYR(图10A中提供的氨基酸序列)对带负电荷的底物EEEEY(SEQ ID NO:955)(产物质量28260)具有轻微的偏好。如图37B中所示，R209H突变体(图10C中提供的氨基酸序列)对阳离子RRRRY(SEQ ID NO:951)底物(产物质量28369)显示更多的活性。如图37A中所示，D55K突变体(图10M中提供的氨基酸序列)显示对阳离子RRRRY(SEQ ID NO:951)底物几乎没有活性。

如图38中所示，abTYR没有能力显示出激活带负电荷的EEEEY(SEQ ID NO:955)底物(产物的预期质量＝28260)，仅留下质量＝27548的起始物质。

实施例7：作为接头/标记的生物素

为了分析酪氨酸-硫醇键的稳定性，将200μM生物素-PEG₄-苯酚与50μM Y182C GFP和200nM abTYR在室温下合并1小时。在比较反应中，将500μM生物素-马来酰亚胺与50μMY182C GFP在室温下分别孵育2小时，然后进行缓冲液交换以去除过量的马来酰亚胺。这产生酪氨酸-GFP-生物素和马来酰亚胺-GFP-生物素，然后将其在人血清(来自SigmaAldrich)或缓冲液中孵育。在孵育后，将样品与25μL链霉亲和素磁珠(来自New EnglandBiolabs)在室温下合并1小时。在3轮洗涤后，通过在室温下与80％乙腈、5％甲酸和2mM生物素的混合物一起孵育10分钟来从珠上洗脱样品。然后在Agilent 6224ESI-TOF质谱仪上分析样品并定量相对质量。

数据如图40A-40C中所示。在室温(RT)或37℃(“37”)下，将酪氨酸-GFP-生物素(BT)和马来酰亚胺-GFP-生物素(BM)在人血清中孵育1天(图40A)、2天(图40B)或7天(图40C)。如图40A和图40B中所示，酪氨酸-GFP-生物素和马来酰亚胺-GFP-生物素两者仍然存在。然而，如图40C中所示，在7天后，不再检测到马来酰亚胺-GFP-生物素(BM)缀合物，而酪氨酸-GFP-生物素水平保持较高，即使在37℃下孵育。这些结果表明使用酪氨酸酶产生的硫醇-酚偶联在人血清中是稳定的，并且比马来酰亚胺偶联更稳定。

实施例8：将Ig Fc蛋白或纳米抗体偶联至CRISPR/Cas效应子多肽

使用本公开的方法将免疫球蛋白(Ig)Fc和纳米抗体分别缀合至Cas9蛋白。将10μMCas9和20μM Fc结构域与200nM abTYR在20mM磷酸盐、200mM海藻糖和300mM NaCl中在pH6.5下在冰上合并1小时。将10μM Cas9与20μM纳米抗体在海藻糖缓冲液中合并1小时。在凝胶上分析缀合物，单独或与指导RNA复合。数据显示于图41中。

泳道2、3、4和6分别是非缀合的Ig Fc(包含NNNY(SEQ ID NO:1059)序列)、非缀合的Ig Fc(包含GGYNNN(SEQ ID NO:1060)序列)、纳米抗体和Cas9。泳道8和9是不具有(泳道8)或具有(泳道9)指导RNA的Cas9-Ig Fc缀合物。泳道10和11是不具有(泳道10)或具有(泳道11)指导RNA的Cas9-Ig Fc缀合物。泳道12和13是不具有(泳道12)或具有(泳道13)指导RNA的纳米抗体-Cas9缀合物。

使用TOF-MS分析纳米抗体-Cas9缀合物。数据显示于图42中。

实施例9：修饰活哺乳动物细胞的表面

本文所述的方法可用于直接标记活的哺乳动物细胞表面，例如使用酪氨酸酶和酪氨酸标记的抗原结合蛋白。GFP结合纳米抗体作为模型底物附着到Jurkat细胞；在附着到细胞表面之后，纳米抗体保持结合抗原的能力。该方法在图43A中示意性地示出。

简而言之，将Jurkat细胞悬浮在含有400nM abTYR和10至200μM GFP结合纳米抗体的溶液中。在反应后，用25μM GFP冲洗细胞，然后最终冲洗并通过流式细胞术分析。数据显示于图43B中。基于纳米抗体浓度的绿色荧光水平的增加表明GFP与纳米抗体缀合的细胞存在剂量依赖性结合。

尽管已经参考本发明的特定实施方案描述了本发明，但本领域技术人员应当理解，在不脱离本发明的真实精神和范围的情况下，可进行各种改变并且可用等同物进行替换。此外，可进行许多修改以使特定的情况、材料、物质的组成、过程、一个或多个过程步骤适应本发明的目的、精神和范围。所有这些修改旨在落入所附权利要求的范围内。

Claims

1.一种用于化学选择性修饰靶分子的方法，所述方法包括：

使包含硫醇部分的靶分子与包含反应性部分的生物分子接触；

其中包含所述反应性部分的所述生物分子通过使包含酚部分或儿茶酚部分的生物分子与能够氧化所述酚或儿茶酚部分的酶的反应而产生；并且

其中所述接触在足以使所述靶分子与所述生物分子缀合的条件下进行，从而产生修饰的靶分子。

2.如权利要求1所述的方法，其中所述靶分子是多肽或多核苷酸。

3.如权利要求1或权利要求2所述的方法，其中所述酶是酪氨酸酶多肽。

4.如权利要求1-3中任一项所述的方法，其中所述酪氨酸酶多肽是双孢蘑菇酪氨酸酶(abTYR)多肽。

5.如权利要求1-3中任一项所述的方法，其中所述酪氨酸酶多肽包含与图8或图9中描绘的abTYR氨基酸序列具有至少75％氨基酸序列同一性的氨基酸序列。

6.如权利要求4或权利要求5所述的方法，其中包含所述酚部分或所述儿茶酚部分的所述生物分子在所述酚或儿茶酚部分的50埃

内是中性的或带正电荷的。

7.如权利要求1-3中任一项所述的方法，其中所述酪氨酸酶多肽是巨大芽孢杆菌酪氨酸酶(bmTYR)多肽。

8.如权利要求1-3中任一项所述的方法，其中所述酪氨酸酶多肽包含与图10A-10Z和图10AA-10VV中任一者描绘的任一个氨基酸序列具有至少75％氨基酸序列同一性的氨基酸序列。

9.如权利要求7或权利要求8所述的方法，其中包含酚部分或儿茶酚部分的所述生物分子在所述酚或儿茶酚部分的

内是带负电荷的。

10.如权利要求1-9中任一项所述的方法，其中所述靶分子是多核苷酸。

11.如权利要求10所述的方法，其中所述靶分子是DNA分子。

12.如权利要求10所述的方法，其中所述靶分子是RNA分子。

13.如权利要求10-12中任一项所述的方法，其中所述生物分子是多肽。

14.如权利要求1至13中任一项所述的方法，其中所述酶与固体载体结合。

15.如权利要求1至14中任一项所述的方法，其中所述酚部分存在于酪氨酸残基中。

16.如权利要求1至15中任一项所述的方法，其中所述硫醇部分存在于半胱氨酸残基中。

17.如权利要求16所述的方法，其中所述半胱氨酸残基是天然半胱氨酸残基。

18.如权利要求1至17中任一项所述的方法，其中所述生物分子包含一个或多个选自以下的部分：荧光团、活性小分子、亲和标签和金属螯合剂。

19.如权利要求1至18中任一项所述的方法，其中所述反应性部分是邻醌或半醌基团，或它们的组合。

20.如权利要求1至19中任一项所述的方法，其中所述生物分子是多肽。

21.如权利要求20所述的方法，其中所述生物分子是选自荧光蛋白、抗体、酶、受体的配体和受体的多肽。

22.如权利要求1至21中任一项所述的方法，其中包含酚部分或儿茶酚部分的所述生物分子具有式(I)，并且其中包含反应性部分的所述生物分子具有式(II)或(IIA)，或它们的组合：

其中：

X¹选自氢和羟基；以及

L是任选的接头。

23.如权利要求1至22中任一项所述的方法，其中包含硫醇部分的所述靶分子具有式(III)，并且其中所述修饰的靶分子具有式(IV)或(IVA)，或它们的组合：

其中：

Y²是第二生物分子；

L是任选的接头；以及

n是1至3的整数。

24.如权利要求23所述的方法，其中式(IV)的所述修饰的靶分子具有式(IV1)-(IV3)中的任一者：

式(IVA)的所述修饰的靶分子具有式(IVA1)-(IVA3)中的任一者：

25.如权利要求23所述的方法，其中式(IV)的所述修饰的靶分子具有式(IV5)-(IV6)中的任一者：

式(IVA)的所述修饰的靶分子具有式(IVA4)-(IVA5)中的任一者：

26.如权利要求1至25中任一项所述的方法，其中包含酚部分或儿茶酚部分的所述生物分子由式(IA)描述：

其中：

X¹选自氢和羟基；以及

27.如权利要求26所述的方法，其中所述荧光团是若丹明染料或呫吨染料。

28.如权利要求1至27中任一项所述的方法，其中所述修饰的靶分子由式(IVB)或(IVC)或它们的组合描述：

其中：

Y²是第二生物分子；

n是1至3的整数。

29.如权利要求28所述的方法，其中式(IVB)的所述修饰的靶分子具有式(IVB1)-(IVZB3)中的任一者：

并且

式(IVC)的所述修饰的靶分子具有式(IVC1)-(IVC3)中的任一者：

30.如权利要求28所述的方法，其中式(IVB)的所述修饰的靶分子具有式(IVB5)-(IVB6)中的任一者：

式(IVC)的所述修饰的靶分子具有式(IVC4)-(IVC5)中的任一者：

31.如权利要求1至30中任一项所述的方法，其中所述方法在4至9的pH下进行。

32.如权利要求31所述的方法，其中所述方法在中性pH下进行。

33.如权利要求1至32中任一项所述的方法，其中包含硫醇基团的所述靶分子是CRISPR-Cas效应子多肽。

34.一种组合物，其包含：

式(III)的包含硫醇的靶分子：

以及

式(I)的包含酚部分或儿茶酚部分的生物分子：

其中：

X¹选自氢和羟基；

L是任选的接头；以及

Y²是第二生物分子。

35.如权利要求34所述的组合物，其中包含酚部分或儿茶酚部分的所述生物分子在所述酚部分或儿茶酚部分的

内是中性的或带正电荷的。

36.如权利要求34所述的组合物，其中包含酚部分或儿茶酚部分的所述生物分子在所述酚部分或儿茶酚部分的

内是带负电荷的。

37.如权利要求34-36中任一项所述的组合物，其中所述Y¹是多肽并且其中Y²是多肽。

38.如权利要求34-36中任一项所述的组合物，其中Y¹是多核苷酸并且其中Y²是多肽。

39.如权利要求34至38中任一项所述的组合物，其中Y²是CRISPR-Cas效应子多肽。

40.如权利要求34至39中任一项所述的组合物，其中式(I)由式(IA)描述：

其中：

X¹选自氢和羟基；以及

41.一种试剂盒，其包括：

第一容器，所述第一容器包含如权利要求34至40中任一项所述的组合物；以及

42.如权利要求41所述的试剂盒，其中所述酶是酪氨酸酶多肽。

43.如权利要求42所述的试剂盒，其中所述酪氨酸酶是双孢蘑菇酪氨酸酶(abTYR)。

44.如权利要求42所述的试剂盒，其中所述酪氨酸酶多肽包含与图8或图9中描绘的abTYR氨基酸序列具有至少75％氨基酸序列同一性的氨基酸序列。

45.如权利要求42所述的试剂盒，其中所述酪氨酸酶是巨大芽孢杆菌酪氨酸酶(bmTYR)。

46.如权利要求42所述的试剂盒，其中所述酪氨酸酶多肽包含与图10A-10Z和图10AA-10VV中任一者描绘的任一个氨基酸序列具有至少75％氨基酸序列同一性的氨基酸序列。

47.一种式(IV)或(IVA)的化合物：

其中：

L是任选的接头；

Y²是第二生物分子；以及

n是1至3的整数。

48.如权利要求47所述的化合物，其中式(IV)的所述修饰的靶分子具有式(IV1)-(IV5)中的任一者：

49.如权利要求47所述的化合物，其中式(IVA)的所述修饰的靶分子具有式(IVA1)-(IVA5)中的任一者：

50.如权利要求47至49中任一项所述的化合物，其中L是可裂解的接头。

51.如权利要求47至50中任一项所述的化合物，其中Y¹是多肽。

52.如权利要求51所述的化合物，其中Y¹选自荧光蛋白、抗体和酶。

53.如权利要求47至52中任一项所述的化合物，其由式(IVB)或(IVC)描述：

其中：

Y²是第二生物分子；

n是1至3的整数。

54.如权利要求53所述的化合物，其中式(IVB)的所述修饰的靶分子具有式(IVB1)-(IVZB5)中的任一者：

55.如权利要求53所述的化合物，其中式(IV)的所述修饰的靶分子具有式(IVC1)-(IVC5)中的任一者：

56.如权利要求47至55中任一项所述的化合物，其由式(IVD)-(IVG)中的任一者描述：

其中：

R²选自烷基和取代的烷基；

R³选自氢、烷基、取代的烷基、肽和多肽；以及

n是1至3的整数。

57.如权利要求47至56中任一项所述的化合物，其中Y²是CRISPR-Cas效应子多肽。

58.一种用于将第一多肽和第二多肽化学选择性偶联至偶联多肽的方法，所述方法包括：

其中所述第一多肽包含硫醇部分，

b)使所述第二多肽与所述第一多肽-偶联多肽缀合物接触，

其中所述第二多肽包含硫醇部分，

其中包含所述C端反应性部分的所述第一多肽-偶联多肽缀合物通过使所述第一多肽-偶联多肽缀合物与能够氧化所述C端酚或儿茶酚部分的第二酶反应以产生C端反应性部分而产生；以及

其中所述接触产生第一多肽-偶联多肽-第二多肽缀合物。

59.如权利要求58所述的方法，其中：

b)所述第二酶是包含与图10A-10Z和图10AA-10VV中任一者描绘的任一个氨基酸序列具有至少75％氨基酸序列同一性的氨基酸序列的酪氨酸酶多肽。

60.一种用于将第一多肽和第二多肽化学选择性偶联至偶联多肽的方法，所述方法包括：

其中所述第一多肽包含硫醇部分，

b)使所述第二多肽与所述第一多肽-偶联多肽缀合物接触，

其中所述第二多肽包含硫醇部分，

其中所述接触产生第一多肽-偶联多肽-第二多肽缀合物。

61.如权利要求60所述的方法，其中：

a)所述第一酶是包含与图10A-10Z和图10AA-10VV中任一者描绘的任一个氨基酸序列具有至少75％氨基酸序列同一性的氨基酸序列的酪氨酸酶多肽；以及

62.一种将第一多肽共价连接至第二多肽的方法，所述方法包括：

a)使所述第一多肽与固定的反应性部分接触，

其中所述第一多肽包含：i)硫醇部分；以及ii)酚部分或儿茶酚部分，其中所述第一多肽在所述酚部分或所述儿茶酚部分的十个氨基酸内包含两个或更多个带负电荷的氨基酸，

63.如权利要求62所述的方法，其中所述第一酶是包含与图8、图9、图10A-10Z和图10AA-10VV中任一者描绘的任一个氨基酸序列具有至少75％氨基酸序列同一性的氨基酸序列的酪氨酸酶多肽。

64.如权利要求62或权利要求63所述的方法，其中存在于所述第一多肽中的所述硫醇部分存在于Cys中，并且其中存在于所述第一多肽中的所述酚部分存在于Tyr残基中。

65.如权利要求64所述的方法，其中所述Tyr残基存在于包含EEEY(SEQ ID NO:953)、EEEEY(SEQ ID NO:955)、DDDDY(SEQ ID NO:965)或DDDDY(SEQ ID NO:965)的氨基酸段中。

66.如权利要求62-65中任一项所述的方法，其中所述第二酶是包含与图10A-10Z和图10AA-10VV中任一者描绘的任一个氨基酸序列具有至少75％氨基酸序列同一性的氨基酸序列的酪氨酸酶多肽。

67.如权利要求62-66中任一项所述的方法，其还包括：

c)使包含反应性部分的所述固定的缀合物与第三多肽接触，

68.如权利要求67所述的方法，其中所述第三酶是包含与图8或图9中描绘的氨基酸序列具有至少75％氨基酸序列同一性的氨基酸序列的酪氨酸酶多肽。

69.如权利要求67或68所述的方法，其中在步骤(b)与步骤(c)之间，所述第二酶被灭活或去除。

70.如权利要求67-69中任一项所述的方法，其中存在于所述第二多肽中的所述硫醇部分存在于Cys中，并且其中存在于所述第二多肽中的所述酚部分存在于Tyr残基中。

71.如权利要求70所述的方法，其中所述Tyr残基存在于包含RRRY(SEQ ID NO:949)、RRRRY(SEQ ID NO:951)、KKKY(SEQ ID NO:966)或KKKKY(SEQ ID NO:967)的氨基酸段中。