CN116034158A

CN116034158A - 具有改变的特异性的工程化的n-糖基转移酶

Info

Publication number: CN116034158A
Application number: CN202180062741.0A
Authority: CN
Inventors: M·C·杰维特; W·K·奈特林格; M·米克西奇; L·林
Original assignee: Northwestern University
Current assignee: Northwestern University
Priority date: 2020-07-14
Filing date: 2021-07-14
Publication date: 2023-04-28
Also published as: WO2022016188A3; JP2023534462A; EP4182451A2; KR20230037615A; CA3185940A1; AU2021310498A1; WO2022016188A2

Abstract

本发明公开了用于在体外和体内合成糖蛋白或重组糖蛋白的组合物、系统和方法。特别地，本发明涉及修饰的N‑糖基转移酶(NGT)，用于产生修饰的NGT的方法，用于鉴定和/或产生用于通过NGT的糖基化的修饰的受体肽序列的方法，以及用于使用修饰的NGT和/或受体肽序列在体外和体内制备糖蛋白和重组糖蛋白的方法。

Description

具有改变的特异性的工程化的N-糖基转移酶

关于联邦资助研究或开发的声明

本发明是在美国国防威胁降低局授予的11631647(HDTRA1-15-10052/P00011)和美国国家科学基金会授予的DGE-1324585的政府支持下完成的。美国政府对本发明有一定的权利。

相关专利申请的交叉引用

本申请根据35 U.S.C.§119(e)要求在2020年7月14日提交的美国临时申请号63/051,825的优先权，其内容通过引用并入本文。

发明领域

本发明一般地涉及用于糖蛋白蛋白合成的组分、系统和方法。特别地，本发明涉及具有改变的特异性的新型N-糖基转移酶的鉴定及其在细胞中、使用纯化的酶或在无细胞蛋白质合成(CFPS)中合成糖蛋白和重组糖蛋的用途。

发明背景

蛋白质糖基化在调节蛋白质治疗剂的活性和功效方面发挥的重要作用推动了活细菌中和在体外的合成糖基化系统的发展。一个关键挑战是缺乏糖基转移酶，这种酶可以有效地和位点特异性地糖基化所需的靶蛋白，而不需要改变在受体位点处的一级氨基酸序列。在此，本发明人报告了一种高效和系统的方法来工程化能够并行修饰受体肽序列综合组的糖基转移酶文库。这种方法通过无细胞蛋白质合成和自组装单层的质谱法来实现，并用于工程化最近发现的原核N-糖基转移酶(NGT)。本发明人筛选了位点饱和的NGT文库的26个池，以鉴定确定多肽特异性的相关残基，然后使用1,052个独特的肽和52,894个独特的反应条件对122个NGT突变体进行表征。本发明人定义了14个NGT的组，该组可以修饰典型X_-1-N-X₊₁-S/T真核糖基化序列内所有序列的93％，以及用于许多非典型序列(具有在X₊₂位置处17个非S/T氨基酸中的10个)的另一个组。然后，发明人成功地应用NGT的组来提高三种经批准的蛋白质治疗剂的糖基化效率。这项工作有望显著地扩大可用于体外和细菌糖工程化的底物。

发明概述

本发明公开了具有增强的糖基化活性的修饰的N-糖基转移酶(NGT)。特别是，修饰的NGT能够识别和糖基化典型和非典型真核靶肽序列，并以比未修饰的NGT更高的效率糖基化这些序列，从而显著地扩大可用于在体外和细菌糖工程化的底物。

附图说明

图1A-D。肽文库筛选以鉴定决定受体肽特异性的ApNGT残基。(a)ApNGT(PDB ID：3Q3H²⁹)的结合口袋，具有26个潜在的肽结合残基(红色)。供体UDP结合口袋为黄色。(b)合成包含等量的所有19个非野生型氨基酸的位点饱和变体文库(SSVL)作为ApNGT突变体Q469A(ApQ)的每个残基的线性DNA模板。以ApQ的A469 SSVL为例。通过PCR扩增这些SSVL以产生LET，并在CFPS中表达以产生蛋白质SSVL。然后使用蛋白质SSVL来修饰具有基序X_-1-N-X₊₁-TRC的肽底物文库，并通过SAMDI-MS进行分析。显示了肽修饰的热图(右下)，其中在X_-1和X₊₁位置处的氨基酸的平均修饰的降序分别与ApQ相同。生成了-ln(1-Y)的新热图(左下)，其中Y是肽修饰。由于本发明人使用的肽浓度远低于K_M，可以使用热图中的平均-ln(1-Y)(以粗体灰色正方形中的0.36，)，用公式k_cat/K_M＝-ln(1-Y)/c/t计算每个SSVL的平均k_cat/K_M。相对于ApQ的平均k_cat/K_M如(c)所示。所有SSVL显示降低的平均k_cat/K_M。(d)将每个SSVL的每一行X_-1氨基酸和每一列X₊₁氨基酸中-ln(1-Y)的平均值与ApQ的平均值进行比较，ApQ选择具有与SSVL相同的整个文库的平均-ln(1-Y)值，以使用等式2*|Ave(X)-Ave(ApQ)|/(Ave(X)+Ave(ApQ))显示百分比差异。X_-1(左)和X₊₁(右)位置的平均百分比差异分别使用所有行和列的百分比差的平均值表示。高于20％和30％的值分别以浅灰色条和箭头突出显示。所有实验均以n＝1完成。

图2A-C。筛选对X_-1和X₊₁受体肽位置具有独特特异性的ApQ突变体。(a)针对X_-1-N-X₊₁-TRC肽文库，与ApQ相比，来自T438、A469和H219的单个突变体的相对平均k_cat/K_M。只有T438S显示相对活性的略有增加(1.1倍)，而T438D/E/K/R/W和H219R显示较差活性，低于ApQ的0.001倍(未用整个文库筛选H219R，筛选了T438D/D/K/R/W，但修饰较差，见图22)。(b)与ApQ相比，每个突变体的X_-1(上)、X₊₁(中)和整个文库(下)的平均百分比差异。整个库的平均百分比差异是X_-1和X₊₁值的平均值。高于75％的值用箭头表示。(c)针对在ApQ的X_-1和X₊₁位置处氨基酸以及三个所选残基(T438、A469和H219)的所有个体突变体的相对选择性的热图。相对特异性定义为每个氨基酸泳道的平均-ln(1-Y)与所有19个X_-1或X₊₁泳道的最大值之比。在X_-1和X₊₁位置处的氨基酸以与修饰热图相同的顺序组织，并且在每个残基处的单个突变体的顺序与a和b相同。图25中还显示了带数值的热图。这些数据清楚地表明，对于X_-1位置的T438突变体、对于X₊₁的H219F/W以及对于X_-1和X₊₁两者的A469突变体表现出较大的特异性差异。所有实验均以n＝1完成。

图3A-D。可用于通过工程化的NGT进行糖基化的肽序列的扩大集。(a-b)对于ApQ的肽文库X_-1-N-X₊₁-T(a)或X_-1-N-X₊₁-S(b)的修饰热图(左)和来自14个所选NGT(ApQ、H219F、H219W、T438S、T439E、A469G、A469I、H495D、H219F-T438S、H219F-H495D、H219W-T438S、H219WH495D和A469I-H495D)的最大修饰(右)。所有NGT均使用相同的条件进行测试：在LET-CFPS中产生0.545μM NGT，30℃进行3h。对于ApQ无效修饰的肽有显著改善。具体而言，与单独的ApQ相比，具有在X₊₁位置处的Asn、Asp以及在X_-1位置处的Lys、Arg的肽通过14个NGT的组以高得多的效率进行修饰。用每个肽底物的数值和最佳NGT进行注释的热图如图32所示。所有实验均以n＝1完成。(c-d)典型糖基化基序(在c中X_-1-N-X₊₁-T，X₊₁≠P)或X_-1-N-X-₊₁-S(在d中X+1≠P)内的所有肽底物的比较，其通过ApQ在a-b中的修饰效率超过80％(左)和14个选择的NGT的最大值(右)。对于X_-1-N-X₊₁-T文库，具有超过80％修饰的肽的百分比(以蓝色突出显示)从56％增加到80％，对于X_-1-N-X₊₁-S文库，从33％增加到51％。

图4A-C。选择的NGT突变体能够对治疗蛋白进行更优异的修饰。(a)与ApQ相比，当被纯化的突变体糖基化时，具有经批准的治疗蛋白序列的肽被证实具有更大的修饰性。每个肽都呈现相对ApQ的数倍修饰。所有实验均以n＝3次IVG反应完成。实验条件：1μM(TNYS)、0.05μM(LNLS)或0.2μM(YNST)纯化的NGT，30℃进行3h。在图中，ApQ和A469I是第一组柱：ApQ和T438S是第二组柱；ApQ和H495是第三组柱。(b)与ApQ相比，当被所选突变体糖基化时，纯化的经批准的治疗蛋白表现出增强的修饰。每个蛋白质糖基化位点都呈现相对ApQ的数倍修饰。IVG后，对溶液进行透析，胰蛋白酶化，并用LC-qTOF进行分析。ApQ没有显示出对IFNγ可检测修饰(标记为“ND”)。所有实验均以n＝2或n＝3个单独的IVG反应完成(如图所示)。实验条件：5μM纯化的NGT，5mM UDP-Glc，30℃，12h。在图中，A469I为第一个柱；ApQ是第二个柱；T438S是第三个柱。(c)对于H495D比ApQ，Fc显示在CFPS表达中的修饰增加。存在相对ApQ的数倍修饰。具有6xHis标签的Fc由补充有纯化的NGT和UDP-Glc的LET-CFPS表达。CFPS反应后，用磁珠纯化Fc，透析，胰蛋白酶化，并用LC-qTOF进行分析。在图中，ApQ是第一个柱，H495D是第二个柱。所有实验均以n＝3个单独的CFPS反应完成。实验条件：2μM纯化的NGT，5mM UDP-Glc，30℃LET-CFPS，6h。所有蛋白质修饰效率可见于图12。所有p值均来自双尾t检验，p<0.01(**)或p<0.001(***)。

图5A-B。在X₊₂位置处针对扩大的特异性筛选NGT突变体。(a)所有R177和D215个体突变体在X₊₂处的非S/T氨基酸的平均-ln(1-Y)热图(T/S值如下所示)。ApQ优选的六个X_-1-N-X₊₁-T肽序列在X₊₂处被18个氨基酸(Cys除外)取代，并针对所有单独的R177和D215突变体进行筛选。所有热图均显示来自n＝1个实验的结果。所有反应均使用0.545μM在LET-CFPS中产生的NGT在30℃进行12h。X₊₂氨基酸泳道按与ApQ相同的降序排列，如图18所示。图36中显示了用ApQ和所有个体突变体对X₊₂的修饰热图。(b)基于a中数据的X₊₂的相对氨基酸选择性，除以每个突变体的所有X₊₂(S/T除外)的最大值。S/T的相对选择性也如下显示在相同的最大值上，并且可以高于100％。当在X₊₂处存在Asn时，如果对于W-N-I/V-N-RC的修饰比A-N-I/V-N-1RC更优选，则修饰可以来自在NRC处的第二Asn，而不是N-X-N。

图6。提供列出实施例1中使用的菌株和质粒的表。

图7。提供显示实施例1中使用的ApQ的单突变体和双突变体的表。

图8。提供显示实施例1中使用的肽文库的平均相对电离因子(RIF)的表。对于每个肽文库，分析六到十二个代表性肽以计算平均RIF。根据公式I(P)/(I(S)*RIF+I(P))计算肽修饰，其中I(P)是质谱中糖基化的肽的强度，I(S)是质谱中糖基化的肽的强度。

图9。提供显示SSVL和具有肽文库的个体单个突变体的反应条件的表。指示浓度的在LET-CFPS中产生的NGT与50μM肽和2.5mM UDP-Glc在100mM HEPES缓冲液(pH 8)和500mMNaCl中反应。反应在30℃孵育指定的反应时间。

图10。提供显示了在相同反应条件下ApQ突变体以显著更高的效率糖基化的本工作中发现的肽序列的表。总共，与ApQ相比，来自722个成员X_-1NX₊1S/TRC肽文库的227个肽被选择的NGT突变体糖基化至少20％更有效。反应条件：0.545μM在LET-CFPS中产生的NGT，30℃进行3h。“Y”表示所选突变体的修饰效率，“ApQ的Y”表示ApQ的效率，并且“ΔY”表示与ApQ相比，用所示ApQ突变体处理时观察到的修饰增加。

图11。提供显示了本工作中发现的肽序列的表，所述肽与突变体表现出显著更高的近似k_cat/K_M。从由ApQ修饰的每个X_-1NX₊₁TRC肽文库和具有不同反应条件的所选突变体中，发明人计算了每个肽的近似k_cat/K_M(参见方法)。总的来说，在图3a中，发现通过ApQ以>75％的效率糖基化的33个肽，与ApQ相比，与在本研究中开发的ApQ突变体显示出两倍以上的活性。

图12。提供显示来自胰蛋白酶处理的糖基化蛋白治疗剂的肽的LC-qTOF分析结果的表。未观察到(即未检测到)的肽种类用“-”标记。在标记为“纯化”的部分中，将10μM纯化的蛋白底物与5μM纯化的酶在30℃反应12h。在“CFPSe”部分中，在LET-CFPS中，在2μM ApQ、2μM H495D或5μM H495 D(标记为H495D')浓度的纯化酶存在下，在30℃进行6小时产生Fc。对于“CFPS之后”部分下的Fc样品，首先在LET-CFPS中在30℃进行20小时，然后补充2μM纯化的ApQ并在30℃孵育6小时产生Fc。

图13。提供显示用于PCR诱变的引物的表。重叠的序列用下划线指示，突变位点用粗体突出显示，并用于计算Tm₁。延伸的序列为斜体，并用于计算Tm₂(见方法)。

图14A-E。LET-CFPS反应以相似的水平表达ApQ、SSVL和个体突变体。(A)通过PCR扩增ApQ和26个SSVL线性表达模板的DNA凝胶。该线性表达模板包含编码序列以及启动子和终止子。在所有泳道中观察到约2.2kb的条带，表明ApQ和SSVL的扩增。PCR产物直接用于NGT的LET-CFPS。(B)可溶性CFPS级分的SDS-PAGE。ApQ和所有26个SSVL在大肠杆菌BL21 Star(DE3)裂解物中以相似的水平通过LET-CFPS表达。(C)ApQ和19个个体T438突变体的可溶性CFPS级分的SDS-PAGE。NGT突变体以相似的水平表达。使用SfGFP作为对照。(D)具有类似结果的n＝2个实验的代表性放射自显影图证实，CFPS反应主要产生相等全长的NGT，而在可溶性片段中没有大的截短。放射自显影是通过将CFPS中产生的NGT的SDS-PAGE凝胶暴露¹⁴C亮氨酸48小时而产生的。B-D中的所有SDS-PAGE凝胶均使用4-12％的Bis-tris凝胶，在150V下使用MOPS缓冲液和SeeBlue Plus2预染色阶梯进行，然后用InstantBlue Coomassie染料(Expedeon)进行染色。(E)使用¹⁴C亮氨酸掺入测定CFPS反应中NGT的总产率和可溶性产率(n＝3个实验)。观察到所有NGT的总表达水平以及可溶性级分的表达水平相等。所有CFPS反应在22℃孵育20小时。在4℃以12,000xg离心15分钟后，分离A-E中的可溶性级分。本发明人对LET-CFPS中表达的所有NGT(包括ApQ、SSVL以及个体单个和双NGT突变体)使用平均浓度10.9μM。

图15。跨X_-1-N-X₊₁-TRC肽文库中筛选的SSVL的修饰效率热图。X_-1NX₊₁TRC和X_-1NX₊ ₁SRC文库热图中的所有X_-1和X₊₁氨基酸泳道按照与在通过0.0218μM ApQ修饰的X_-1NX₊₁TRC文库热图中观察到的从左到右和从上到下的平均修饰的相同降序排列(图16)。所有实验均以n＝1进行。反应条件如图9所示。

图16A-D。ApQ参考热图和肽选择性百分比差异的计算。(A)在CFPS中合成的六种浓度的ApQ与肽文库X_-1-N-X₊₁-TRC在30℃反应1h，以生成具有各种平均-ln(1-Y)值的参考热图，用于计算突变体和ApQ之间的百分比差异(见下文和方法)。反应后，分析葡萄糖修饰并生成修饰热图。所有X_-1和X₊₁氨基酸泳道的安置与在用0.0218μM ApQ修饰的X_-1NX₊₁TRC文库热图中观察到的从左到右和从上到下的平均修饰的降序相同。本工作中，所有X_-1NX₊₁TRC和X_-1NX₊₁SRC热图均采用该相同的顺序。(B)相应的ApQ参考热图的值为-ln(1-Y)，其中Y是修饰产量。(C)A469X和ApQ之间百分比差异的示例计算。在两个相近浓度的热图之间进行了线性假设。对于通过A469X修饰的X_-1NX₊₁TRC文库的平均-ln(1-Y)值为0.36，介于0.0142μMApQ(0.23)和0.0218μM ApQ(0.39)的参考ApQ热图的值之间。然后，发明人使用这两个参考ApQ热图的线性插值来生成平均-ln(1-Y)为0.36的ApQ的理论热图。然后，发明人计算了该理论ApQ热图和A469X热图中每个X_-1和X₊₁泳道的平均-ln(1-Y)值之间的百分比差异。所有X_-1泳道的平均百分比差异为0.29，所有X₊₁泳道的平均比率差异为0.50。(D)基于参考热图，平均k_cat/K_M对ApQ平均ln(1-Y)的依赖性。当计算与ApQ相比的每个突变体(或SSVL)的相对k_cat/K_M时，发明人还使用线性插值调整ApQ的k_cat/K_M以匹配突变体热图的平均-ln(1-Y)。所有实验以n＝1进行。

图17。对于X_-1(顶部)和X₊₁(底部)，26个SSVL和ApQ中任何一个的平均百分比差异。基于图15所示的X_-1NX₊₁TRC热图，发明人根据每个SSVL和ApQ之间的平均百分比差异计算了26个SSVL中的任意两个与ApQ之间平均百分比差异(参见方法)。高于20％和40％的值分别以蓝色和红色突出显示。SSVL按照与所有其他的平均差异降序排列。与所有其他SSVL相比，T438X和A469X显示出特异性的最大变化。基于它们在晶体结构中的位置，发明人认为T438和A469都与受体肽的X_-1位置相互作用。发明人随后得出结论，R177、M218和H219可能与受体肽的X₊₁位置相互作用。虽然H214也影响特异性，但与其他假定的结合残基相比，其在晶体结构中的位置不支持与肽的X₊₁位置的直接相互作用。

图18。SSVL筛选以确定对于X₊₂特异性的重要残基。基于晶体结构以及对于X_-1和X₊₁的可能结合残基，被鉴定为与受体肽的X₊₂位置相互作用的候选SSVL跨(X_-1NX₊₁)X₊₂RC文库进行筛选。所有X₊₂氨基酸泳道以与ApQ相同的降序排列。已知与受体肽的X_-1位置相互作用的残基的SSVL，T438X和A469X也被筛选为阴性对照。R177X和D215X对除典型S/T外在X₊₂处的其他氨基酸表现出偏好。基于数据、晶体结构和在X₊₂处S/T对修饰的重要性，发明人假设D215在X₊₂处与S/T形成氢键。虽然发明人不确定R177如何与X₊₂位置相互作用，但这表明R177在确定酶特异性方面起着重要作用。所有实验均以n＝1进行。反应条件如图9所示。

图19。SSVL筛选以确定对于X_-2特异性的重要残基。基于晶体结构以及对于X_-1和X₊₁的可能结合残基被鉴定为与受体肽的X_-2位置相互作用的候选SSVL跨X_-2(X_-1NX₊₁)TRC文库进行筛选。所有X_-2氨基酸泳道以与ApQ相同的降序排列。H277X显示了在X_-2处用Ile和Gln对肽的增加修饰，而Pro减少修饰。当在X_-1处存在Trp残基时，H277X也显示出减少的修饰，这与X_-1NX₊₁TRC筛选中对于H277X的结果一致(图15)。所有实验以n＝1进行。反应条件如图9所示。

图20。SSVL筛选以确定对于X₊₃特异性的重要残基。基于晶体结构以及对于X₊₁和X₊₂的可能结合残基被鉴定为与受体肽的X₊₃位置相互作用的候选SSVL跨(X_-1NX₊₁)TX₊₃RC文库进行筛选。所有X₊₃氨基酸泳道以与ApQ相同的降序排列。H214X显示在X₊₃处用Pro、Asp和Glu对肽的增加修饰。R177X还显示了在X₊₃处用Arg、Lys和His对肽的增加修饰，这可能是这些氨基酸与残基R177之间的静电排斥。所有实验均以n＝1进行。反应条件如图9所示。

图21。基于筛选结果的假设肽结合残基。基于ApNGT晶体结构和图15和17-20中的筛选结果，发明人提出了酶残基和受体肽的位置之间的以下相互作用：H277结合X_-2；T438和A469结合X_-1；R177、M218和H219结合X₊₁；R177和D215结合X₊₂；H214结合X₊₃。还显示了影响在X_-1处对于K/R的选择性的另一个残基H495(数据如图29A-C所示)。虽然需要进一步的结构研究来确认这些相互作用，但这为了解哪些残基将对NGT的特异性产生最严重的影响提供了模型。这是基于ApNGT²(PDB#3Q3H)的结构，因此图中的残基469是Gln。基于晶体结构以及针对X₊₁和X₊₂的可能结合残基鉴定为与受体肽的X₊₃位置相互作用的候选SSVL跨(X_-1NX₊₁)TX₊ ₃RC文库进行筛选。所有X₊₃氨基酸泳道以与ApQ相同的降序排列。H214X显示在X₊₃处用Pro、Asp和Glu对肽的增加修饰。R177X还显示在X₊₃处用Arg、Lys和His对肽的增加修饰，这可能是这些氨基酸与残基R177之间的静电排斥。所有实验均以n＝1进行。反应条件如图9所示。

图22。针对跨X_-1-N-X₊₁-TRC肽文库筛选的个体T438突变体的修饰效率热图。所有实验以n＝1进行。反应条件如图9所示。

图23。针对跨X_-1-N-X₊₁-TRC肽库筛选的个体A469突变体的修饰效率热图。所有实验以n＝1进行。反应条件如图9所示。

图24。针对跨X_-1-N-X₊₁-TRC肽文库筛选的个体H219突变体的修饰效率热图。所有实验以n＝1进行。反应条件如图9所示。

图25。ApQ和个体T438、A469和H219突变体对在X_-1和X₊₁位置处的氨基酸的相对选择性用数值进行注释。图2C显示了无数值的热图。

图26。跨整个X_-1NX₊₁TRC文库的个体T438(顶部)、A469(中部)和H219(底部)突变体以及ApQ的平均百分比差异热图。发明人计算了跨整个X_-1NX₊₁TRC文库对于T438(顶部)、A469(中部)和H219(底部)突变体以及ApQ的任意两个NGT之间的平均百分比差异(参见方法)。突变体以对所有其他突变体的平均差异的降序排列。大于0.40和0.80的值分别以蓝色和红色突出显示。T438H/L/Q/P/F/Y/N/G、A469E/P/R/Y/N/H/F/D/G/M/L/K和H219W/F具有比ApQ更高的平均差异。

图27。跨X_-1NX₊₁TRC肽文库的ApQ和所选个体突变体的修饰效率热图。所有实验均以n＝1进行。反应条件：0.545μM CFPS NGT，30℃进行3h。

图28。跨X_-1NX₊₁SRC肽文库的ApQ和所选个体突变体的修饰效率热图。所有实验以n＝1进行。反应条件：0.545μM CFPS NGT，30℃进行3h。

图29A-C。鉴定对在X_-1处具有Lys或Arg的肽具有增加的特异性的突变体。(A)显示相对高活性并具有预测在X_-1位置附近的突变残基的SSVL用K/R-N-X₊₁-TRC针对增加的修饰进行筛选。H495X和T439X对某些肽显示出比ApQ更多的修饰，以红色突出显示。(B)对于具有肽K/R-N-Y-TRC的T439X SSVL的糖基化增加主要来自T439D/E突变体。用肽筛选所有19个单独的H495突变体。H495D显著改善了大多数肽的修饰。(C)用K/R-N-X₊₁-SRC筛选B中显示增加的修饰的突变体。所有实验以n＝1进行。所有反应条件：0.545μM CFPS NGT，30℃进行3h。

图30。对于代表性突变体T439E、H495D和H495Q的整个X_-1NX₊₁TRC文库的修饰效率热图。T439E和H495D显示在X_-1处具有K/R的肽之间增加的选择性，而H495Q没有。所有实验以n＝1进行。反应条件如图9所示。

图31A-B。双突变体的修饰效率热图。(A)用K/R-N-X₊₁-S/T-RC筛选了具有H495D的4个双突变体。(B)用X_-1-N-N/D-S/T-RC筛选了具有H219F/W的四个双突变体。所有实验以n＝1进行。所有反应条件：0.545μMCFPS NGT，30℃进行3h。

图32。每个典型糖基化序列的最佳NGT突变体的图谱。该肽图显示了通过ApQ和本工作中发现的13个选定的单或双突变体(中心列出)跨典型糖基化序列(X_-1NX₊₁SRC和X_-1NX₊ ₁SRC)实现的最大修饰效率。这与图3a-b中发现的数据相同，并源自图27和29-31。大于0.05的修饰以灰色突出显示，并被视为可以修饰的序列(典型序列的93％)。肽修饰值由产生最大修饰的NGT进行颜色编码。

图33A-C。经批准的治疗蛋白内靶向胰蛋白酶化肽的LC-qTOF MS/MS。通过MS/MS进行的肽测序证实了胰蛋白酶化肽以及具有几乎相同MS/MS光谱的糖肽的身份。这些胰蛋白酶化肽的MS1的提取离子色谱图用于图4中糖基化的定量。(A)IFNγ靶肽：LTNYSVTDLNVQR，在MS1中+2带电m/z为761.90；Glc肽，MS1中+2带电m/z为842.92。(B)GM-CSF靶肽：LLNLSR，在MS1中+1带电m/z为715.45；Glc肽，在MS1中+1带电m/z为877.50。(C)Fc靶肽：EEQYNSTYR，在MS1中+2带电m/z为595.26；Glc肽，在MS1中+2带电m/z为676.29。使用50eV的碰撞能量。

图34A-B。具有预先存在的NGT或CFPS后添加的NGT的LET-CFPS中的Fc表达。(A)在LET-CFPS中Fc的20h表达并离心以分离可溶性级分后，添加2μM纯化的ApQ和5mM UDP-Glc，并在30℃孵育反应6h。与在CFPS反应开始时添加纯化的ApQ时的46％相比，实现了15％的修饰(如图4c和图12所示)。(B)Fc的LET-CFPS表达期间(在30℃持续6h)存在5μM纯化的H495D和5mM UDP Glc，Fc以80％进行修饰。所有实验以n＝2个单独的IVG反应完成。

图35。(X_-1NX₊₁)X₊₂RC肽文库中单独R177和D215突变体的修饰效率热图。X₊₁氨基酸以与图18相同的降序排列。所有实验以n＝1进行。反应条件：0.545μM CFPS NGT，30℃进行12h。

图36。跨X_-1-N-X₊₁-TRC肽文库库针对单独R177突变体的修饰效率热图。R177个体突变体在X_-1和X₊₁选择性方面显示差异。该数据用于为每个突变体选择具有独特X₊₂偏好的X_-1和X₊₁组合。所有实验以n＝1进行。反应条件如图9所示。

图37。ApQ和用UDP-GlcN和六种代表性肽筛选的四种高活性突变体的百分比强度热图。T438S和A469I在某些肽上显示出比ApQ更高的GlcN修饰。所有实验以n＝1进行。反应条件：1.09μM在LET-CFPS中产生的NGT，2.5mM UDP GlcN，30℃进行12h。

图38。提供编码由LET-CFPS表达的NGT、由大肠杆菌表达和纯化的NGT以及在LET-CPFS中表达的底物蛋白的DNA序列。关键点：翻译区(全部大写)；突变位点(带下划线的大写字母)；非翻译区域(小写)；T7启动子(小写下划线)；T7终止子(斜体，小写)。

图39。提供以下生物的NGT氨基酸序列：肠道沙门氏菌(Salmonella enterica)；金氏金格杆菌(Kingella kingae)；嗜沫聚集杆菌(Aggregatibacter aphrophilus)；伯克霍尔德氏菌属物种(Burkholderia sp)；海藻百伯史坦菌(Bibersteinia trehalosi)；大肠杆菌(Escherichia coli)；杜克雷嗜血杆菌(Haemophilus ducreyi)；溶血性曼氏杆菌(Mannheimia haemolytica)；流感嗜血杆菌(Haemophilus influenzae)；小肠结肠炎耶尔森氏菌(Yersinia enterocolitia)；鼠疫耶尔森氏菌(Yersinia pestis)；和胸膜肺炎放线杆菌(Actinobacillius pleuropneumoniae)。

图40。提供以下生物的NGT氨基酸序列的CLUSTAL OMEGA比对：金氏金格杆菌；流感嗜血杆菌；嗜沫聚集杆菌；溶血性曼式杆菌；海藻百伯史坦菌；杜克雷嗜血杆菌；胸膜肺炎放线杆菌；伯克霍尔德氏菌属物种；小肠结肠炎耶尔森氏菌；鼠疫耶尔森氏菌；肠道沙门氏菌；和大肠杆菌。

图41。提供显示蛋白质序列同一性百分比的表。表左上部分所示的金氏金格杆菌、流感嗜血杆菌、嗜沫聚集杆菌、溶血性曼式杆菌、海藻百伯史坦菌、杜克雷嗜血杆菌和胸膜肺炎放线杆菌的氨基酸同一性百分比为62.5％至76.25％。

图42A-B。提供由PHYRE2蛋白质折叠识别引擎(http://www.sbg.bio.ic.ac.uk/～phyre2/html/page.cgiid？id＝index)生成的结构比对表明大肠杆菌NGT(EcNGT)、嗜沫聚集杆菌NGT(AaNGT)、胸膜肺炎放线杆菌NGT(ApNGT)(发现它们具有不同的序列)实际上具有相似的结构，因此可以以与ApNGT相似的方式进行工程化。PHYRE2使用所有目前已知的晶体结构来基于它们的序列预测未结晶蛋白质的最可能折叠。A)显示了EcNGT(红色)和APNGT(蓝色)的比对。活性位点中的UDP配体显示为绿色球体。B)显示了AaNGT(红色)和APNGT(蓝色)的比对。活性位点中的UDP配体显示为绿色球体。

图43。提供以下生物的氨基酸序列的CLUSTAL OMEGA比对：金氏金格杆菌、流感嗜血杆菌、嗜沫聚集杆菌、溶血性曼式杆菌、海藻百伯史坦菌、杜克雷嗜血杆菌和胸膜肺炎放线杆菌。

图44A-B。提供了由PHYRE2蛋白质折叠识别引擎生成的结构比对，表明金氏金格杆菌NGT(KkNGT)、溶血性曼氏杆菌(MhNGT)和ApNGT实际上具有相似的结构，并因此可以以与ApNGT相似的方式进行工程化。在图43中提供的NGT序列中，KkNGT与ApNGT最为不同；MhNGT为中间发散型。A)显示了KkNGT(红色)和ApNGT(青色)的比对。活性位点中的UDP配体显示为绿色球体。B)显示了MhNGT(红色)和APNGT(青色)的比对。活性位点中的UDP配体显示为绿色球体。

图45。提供以下生物的NGT氨基酸序列的CLUSTAL OMEGA比对：溶血性曼氏杆菌(MH)、杜克雷嗜血杆菌(HD)和胸膜肺炎放线杆菌(AP)。粗体的氨基酸对应于ApNGT氨基酸F39、R177、H214、D215、M218、H219、Y222、H272、H277、S278、I279、R281、M349、G370、H371、T438、T439、M440、K441、Q469、H495、P497、Y498、F517、N521、D525。

图46A-B。提供了由PHYRE2蛋白质折叠识别引擎生成的结构比对，表明杜克雷嗜血杆菌NGT(HdNGT)、溶血性曼氏杆菌NGT(MhNGT)和ApNGT具有相似的结构，并因此可以以与ApNGT相似的方式进行工程化。A)显示了HdNGT(红色)与ApNGT(青色)的比对。活性位点中的UDP配体用绿色球体表示。B)显示了MnNGT(红色)与ApNGT(青色)的比对。活性位点中的UDP配体显示为绿色球体。

发明详述

定义和术语

所公开的用于糖蛋白和重组糖蛋白蛋白质合成的组分、系统和方法可以使用如下定义和术语进一步描述。本文中使用的定义和术语仅用于描述特定实施方案的目的，并不旨在进行限制。

如在本说明书和权利要求中使用的，单数形式“一个”、“一种”和“该”包括复数形式，除非上下文另有明确规定。例如，术语“一个/一种寡糖”或“一个/一种N-糖基转移酶”应分别解释为是指“一个或多个/一种或多种寡糖”和“一个或多个/一种或多种N-糖基转移酶”，除非上下文另有明确规定。如本文所用，术语“多个/多种”是指“两个或更多个/两种或更多种”。

如本文所用，“约”、“大约”、“基本上”和“显著”将被本领域普通技术人员理解并且将在它们使用的上下文中在一定程度上变化。如果考虑到使用它的上下文，该术语的使用对于本领域的普通技术人员来说是不清楚的，则“约”和“大约”将意味着特定术语的多至正负10％，并且“基本上”和“显著”将意味着超过特定术语的正负10％。

如本文所用，术语“包括”和“包括的”与术语“包含”和“包含的”具有相同的含义。术语“包括”和“包含”应被解释为“开放”过渡性术语，其允许进一步包括在权利要求中记载的那些组分之外的附加组分。术语“组成”和“由……组成”应被解释为“封闭式”过渡性术语，其不允许包括除权利要求中记载的组分之外的附加组分。术语“基本上由……组成”应被解释为部分封闭，其仅允许包含不会根本上改变要求保护的主题的性质的附加组分。

短语“诸如”应被解释为“例如，包括”。此外，任何和所有示例性语言的使用，包括但不限于“诸如”，仅意在更好地阐明本发明而不对本发明的范围构成限制，除非另有声明。

此外，在其中使用类似于“A、B和C等中的至少一个”的常规表述的那些情况下，一般而言，这样的造句意在具有本领域普通技术人员将理解该常规表述的意义(例如，“具有A、B和C中的至少一个的系统”将包括但不限于具有单独的A、单独的B、单独的C、A和B一起、A和C一起、B和C一起和/或A、B和C一起的系统)。本领域技术人员将进一步理解，呈现两个或更多个备选项目的实际上任何分离词和/或短语(无论是在说明书还是附图中)都应该被理解为考虑包括该项目中的一个、该项目中的任一个或该项目中的两者的可能性。例如，短语“A或B”将被理解为包括“A”或“B”或“A和B”的可能性。

诸如“多至”、“至少”、“大于”、“小于”等的所有语言包括所列举的数字并且指的是随后可以被分解为多个范围和子范围的范围。范围包括每个个体成员。因此，例如，具有1-3个成员的组是指具有1、2或3个成员的组。类似地，具有6个成员的组是指具有1、2、3、4或6个成员的组，以此类推。

情态动词“可以”是指在几个所描述的实施方案或包含在其中的特征中的一个或多个选项或选择的优选使用或选择。当没有公开关于特定实施方案或其中包含的特征的选项或选择时，情态动词“可以”是指关于如何制作或使用所描述的实施方案或包含在其中的特征的方面的肯定行为，或使用关于所描述的实施方案或包含在其中的特征的特定技能的最终决定。在后一种情况下，情态动词“可以”与助动词“能够”具有相同的含义和内涵。

如本文所用，术语“结合”、“结合的”、“相互作用”、“相互作用的”、“占据”和“占据的”是指共价相互作用、非共价相互作用和立体相互作用。共价相互作用是两个原子或自由基之间的化学键联，通过共享一对电子(单键)、两对电子(双键)或三对电子(三键)形成。共价相互作用在本领域中也称为电子对相互作用或电子对键。非共价相互作用包括但不限于范德华相互作用、氢键、弱化学键(通过短程非共价力)、疏水相互作用、离子键等。非共价相互作用的综述可以参见Alberts等人,Molecular Biology of the Cell，第3版，GarlandPublishing，1994。立体相互作用通常被理解为包括化合物的结构使得其能够凭借其三维结构占据位点的那些，而不是化合物和位点之间的任何吸引力。

多核苷酸和合成方法

如本文所用，术语“核酸”和“寡核苷酸”是指聚脱氧核糖核苷酸(含有2-脱氧-D-核糖)、聚核糖核苷酸(含有D-核糖)，以及作为嘌呤或嘧啶碱基的N糖苷的任何其他类型的多核苷酸。术语“核酸”、“寡核苷酸”和“多核苷酸”之间在长度上没有有意的区别，并且这些术语将互换使用。这些术语仅指分子的一级结构。因此，这些术语包括双链和单链DNA，以及双链和单链RNA。为了在本方法中使用，寡核苷酸还可以包括其中碱基、糖或磷酸主链被修饰的核苷酸类似物以及非嘌呤或非嘧啶核苷酸类似物。

寡核苷酸可以通过任何合适的方法制备，包括通过诸如Narang等人，1979,Meth.Enzymol.68:90-99的磷酸三酯方法；Brown等人，1979，Meth.Enzymol.68:109-151的磷酸二酯方法；Beaucage等人，1981，Tetrahedron Letters22:1859-1862的二乙基亚磷酰胺方法；和美国专利号4,458,066的固体支持方法(每个都通过引用并入本文)的方法直接化学合成。Goodchild，1990，Bioconjugate Chemistry 1(3):165-187中提供了寡核苷酸和修饰的核苷酸的缀合物的合成方法的综述，该文献通过引用并入本文。

术语“扩增反应”是指任何化学反应，包括酶促反应，其导致模板核酸序列的增加的拷贝或导致模板核酸的转录。扩增反应包括逆转录、聚合酶链式反应(PCR)，包括实时PCR(参见美国专利号4,683,195和4,683,202；PCR Protocols:A Guide to Methods andApplications(Innis等人编，1990))，和连接酶链式反应(LCR)(参见Barany等人，美国专利号5,494,810)。示例性的“扩增反应条件”或“扩增条件”通常包括两步或三步循环。两步循环具有高温变性步骤，接着是杂交/延伸(或连接)步骤。三步循环包括变性步骤，接着是杂交步骤，接着是单独的延伸步骤。

如本文所用，术语“靶标”、“靶序列”、“靶区域”和“靶核酸”是同义词，并且是指待扩增、测序或检测的核酸的区域或序列。

如本文所用，术语“杂交”是指由于互补碱基配对由两条单链核酸形成双链体结构。杂交可发生在完全互补的核酸链之间或包含少量错配区域的“基本互补”核酸链之间。其中完全互补的核酸链的杂交是强烈优先的条件称为“严格杂交条件”或“序列特异性杂交条件”。在不太严格的杂交条件下可以获得基本互补序列的稳定双链体；可以通过适当调整杂交条件来控制容许的错配程度。核酸技术领域的技术人员可以根据经验确定双链体稳定性，其中考虑许多变量，包括例如寡核苷酸的长度和碱基对组成、离子强度和错配碱基对的发生率，遵循本领域提供的指导(参见，例如，Sambrook等人，1989，Molecular Cloning–ALaboratory Manual,Cold Spring Harbor Laboratory，Cold Spring Harbor，New York；Wetmur，1991，Critical Review in Biochem.and Mol.Biol.26(3/4):227-259；和Owczarzy等人，2008，Biochemistry，47:5336-5353，其通过引用并入本文)。

如本文所用，术语“引物”是指在合适的条件下能够充当DNA合成起始点的寡核苷酸。此类条件包括其中在四种不同的三磷酸核苷和用于延伸的试剂(例如，DNA聚合酶或逆转录酶)的存在下在适当的缓冲液中并且在合适的温度下诱导与核酸链互补的引物延伸产物的合成的那些条件。

引物优选地是单链DNA。引物的合适长度取决于引物的预期用途，但通常范围为约6至约225个核苷酸，包括中间范围，例如15至35个核苷酸、18至75个核苷酸和25至150个核苷酸。短引物分子通常需要较低的温度以与模板形成足够稳定的杂交复合物。引物不需要反映模板核酸的确切序列，但必须充分互补以与模板杂交。用于扩增给定靶序列的合适引物的设计是本领域众所周知的并且描述于本文引用的文献中。

引物可以包括允许检测或固定化引物但不改变引物的基本特性(即作为DNA合成起始点)的附加特征。例如，引物可以在5’端包含额外的核酸序列，该序列不与靶核酸杂交，但其有助于扩增产物的克隆或检测，或其使得能够转录RNA(例如，通过包含启动子)或翻译蛋白质(例如，通过包含5’-UTR，例如内部核糖体进入位点(IRES)或3’-UTR元件，例如聚(A)_n序列，其中n在约20至约200的范围内)。与模板充分互补以杂交的引物区域在本文中称为杂交区域。

如本文所用，如果在足够严格的条件下用于扩增反应中时，引物主要与靶核酸杂交，则引物对于靶序列是“特异性的”。通常，如果引物-靶标双链体稳定性大于引物与样品中发现的任何其他序列之间形成的双链体的稳定性，则引物对靶序列具有特异性。本领域技术人员将认识到各种因素(例如盐条件以及引物的碱基组成和错配的位置)将影响引物的特异性，并且引物特异性的常规实验确认将在很多情况下是需要的。可以选择杂交条件，在该条件下引物可以仅与靶序列形成稳定的双链体。因此，在适当严格的扩增条件下使用靶特异性引物能够选择性扩增含有靶引物结合位点的那些靶序列。

如本文所用，“聚合酶”是指催化核苷酸的聚合的酶。“DNA聚合酶”催化脱氧核糖核苷酸的聚合。已知的DNA聚合酶包括例如激烈火球菌(Pyrococcus furiosus)(Pfu)DNA聚合酶、大肠杆菌DNA聚合酶I、T7 DNA聚合酶和水生栖热菌(Thermus aquaticus)(Taq)DNA聚合酶等。“RNA聚合酶”催化核糖核苷酸的聚合。DNA聚合酶的上述实例也称为DNA依赖性DNA聚合酶。RNA依赖性DNA聚合酶也属于DNA聚合酶的范围。逆转录酶，包括由逆转录病毒编码的病毒聚合酶，是RNA依赖性DNA聚合酶的一个实例。RNA聚合酶(“RNAP”)的已知实例包括例如T3 RNA聚合酶、T7 RNA聚合酶、SP6 RNA聚合酶和大肠杆菌RNA聚合酶等。RNA聚合酶的上述实例也称为DNA依赖性RNA聚合酶。任何上述酶的聚合酶活性可以通过本领域公知的方法测定。

术语“启动子”是指顺式作用DNA序列，其指导RNA聚合酶和其他反式作用转录因子从包含顺式作用DNA序列的DNA模板起始RNA转录。

如本文所用，术语“序列确定的生物聚合物”是指具有特定一级序列的生物聚合物。在基因编码具有特定一级序列的生物聚合物的情况下，序列确定的生物聚合物可以等同于基因编码的确定的生物聚合物。

本文考虑的多核苷酸序列可以存在于表达载体中。例如，载体可以包含：(a)编码蛋白质的ORF的多核苷酸；(b)表达RNA的多核苷酸，该RNA指导靶DNA序列的RNA介导的结合、切口和/或裂解；以及(a)和(b)。载体中存在的多核苷酸可以与原核或真核启动子可操作地连接。“可操作地连接”是指其中将第一核酸序列放置于与第二核酸序列的功能关系中的情况。例如，如果启动子影响编码序列的转录或表达，则启动子与编码序列可操作地连接。可操作地连接的DNA序列可以非常接近或连续并且在需要连接两个蛋白质编码区时处在同一阅读框中。本文考虑的载体可包含与编码蛋白质的多核苷酸可操作地连接的异源启动子(例如，真核或原核启动子)。“异源启动子”是指不是所表达的蛋白质或RNA的天然或内源启动子的启动子。本文公开的载体可包括质粒载体。

如本文所用，“表达”是指多核苷酸从DNA模板转录的过程(例如转录成mRNA或其他RNA转录物)和/或转录的mRNA随后翻译成肽、多肽或蛋白质的过程。转录物和编码的多肽可以统称为“基因产物”。如果多核苷酸源自基因组DNA，则表达可包括在真核细胞中mRNA的剪接。

如本文所用，“表达模板”是指作为底物用于转录至少一种可以翻译成序列确定的生物聚合物(例如，多肽或蛋白质)的RNA的核酸。表达模板包括由DNA或RNA组成的核酸。将核酸用于表达模板的DNA的合适来源包括基因组DNA、cDNA和可以转化为cDNA的RNA。基因组DNA、cDNA和RNA可以来自任何生物来源，例如组织样品、活组织检查、拭子、痰、血液样品、粪便样品、尿液样品、刮屑等。基因组DNA、cDNA和RNA可以来自宿主细胞或病毒来源以及来自任何物种，包括现存和灭绝的生物体。如本文所用，“表达模板”和“转录模板”具有相同含义并可互换使用。

在某些示例性实施方案中，提供了包含编码本文所述的一种或多种rRNA或报告多肽和/或蛋白质的核酸的载体，例如表达载体。如本文所用，术语“载体”是指能够运输与其连接的另一种核酸的核酸分子。一种类型的载体是“质粒”，它指的是环状双链DNA环，其中可以连接额外的DNA区段。此类载体在本文中称为“表达载体”。通常，可用于重组DNA技术的表达载体通常是质粒形式。在本说明书中，“质粒”和“载体”可以互换使用。然而，所公开的方法和组合物旨在包括此类其他形式的表达载体，例如起到等效功能的病毒载体(例如复制缺陷型逆转录病毒、腺病毒和腺相关病毒)。

在某些示例性实施方案中，重组表达载体包含适合在本文所述的一种或多种方法中表达核酸序列的形式的核酸序列(例如编码本文所述的一种或多种rRNA或报告多肽和/或蛋白质的核酸序列)，这意味着重组表达载体包括与待表达的核酸序列可操作地连接的一种或多种调节性序列。在重组表达载体内，“可操作地连接”旨在意指编码一种或多种rRNA或报告多肽和/或本文所述的蛋白质的核苷酸序列以允许表达核苷酸序列(例如，在体外转录和/或翻译系统中)的方式连接至一种或多种调节序列。术语“调节序列”旨在包括启动子、增强子和其他表达控制元件(例如，聚腺苷酸化信号)。例如，在Goeddel；GeneExpression Technology:Methods in Enzymology 185，Academic Press，SanDiego，Calif.(1990)中描述了这样的调节序列。

寡核苷酸和多核苷酸可以任选地包括一种或多种非标准核苷酸、核苷酸类似物和/或修饰的核苷酸。修饰的核苷酸的实例包括但不限于二氨基嘌呤、S²T、5-氟尿嘧啶、5-溴尿嘧啶、5-氯尿嘧啶、5-碘尿嘧啶、次黄嘌呤、黄嘌呤、4-乙酰胞嘧啶、5-(羧基羟甲基)尿嘧啶、5-羧甲基氨基甲基-2-硫尿苷、5-羧甲基氨基甲基尿嘧啶、二氢尿嘧啶、β-D-半乳糖基Q核苷(galactosylqueosine)、肌苷、N6-异戊烯基腺嘌呤、1-甲基鸟嘌呤、1-甲基肌苷、2,2-二甲基鸟嘌呤、2-甲基腺嘌呤、2-甲基鸟嘌呤、3-甲基胞嘧啶、5-甲基胞嘧啶、N6-腺嘌呤、7-甲基鸟嘌呤、5-甲基氨基甲基尿嘧啶、5-甲氧基氨基甲基-2-硫尿嘧啶、β-D-甘露糖基Q核苷(mannosylqueosine)、5’-甲氧基羧甲基尿嘧啶、5-甲氧基尿嘧啶、2-甲硫基-D46-异戊烯基腺嘌呤、尿嘧啶-5-羟乙酸(v)、wybutoxosine、假尿嘧啶、Q核苷(queosine)、2-巯基胞嘧啶、5-甲基-2-硫尿嘧啶、2-硫尿嘧啶、4-硫尿嘧啶、5-甲基尿嘧啶、尿嘧啶-5-羟乙酸甲酯、尿嘧啶-5-羟乙酸(v)、5-甲基-2-硫尿嘧啶、3-(3-氨基-3-N-2-羧丙基)尿嘧啶、(acp3)w、2,6-二氨基嘌呤等。核酸分子也可以在碱基部分(例如，在通常可用于与互补核苷酸形成氢键的一个或多个原子处和/或在通常不能与互补核苷酸形成氢键的一个或多个原子处)、糖部分或磷酸主链处进行修饰。

术语“多核苷酸”、“多核苷酸序列”、“核酸”和“核酸序列”是指核苷酸、寡核苷酸、多核苷酸(这些术语可以互换使用)或其任何片段。这些短语也指基因组、天然或合成来源的DNA或RNA(其可以是单链或双链，并且可以代表有义链或反义链)。

关于多核苷酸序列，术语“同一性百分比”和“％同一性”是指使用标准化算法比对的至少两个多核苷酸序列之间的残基匹配的百分比。这样的算法可以以标准化和可重复的方式在被比较的序列中插入缺口以优化两个序列之间的比对，并因此实现两个序列的更有意义的比较。核酸序列的同一性百分比可以如本领域所理解的那样确定。(参见，例如，美国专利号7,396,664，其通过引用整体并入本文)。美国国家生物技术信息中心(NCBI)基本局部比对搜索工具(BLAST)提供了一套常用且可免费获得的序列比较算法，其可从多个来源获得，包括NCBI，Bethesda，Md.，在其网站上获得。BLAST软件套件包括各种序列分析程序，包括“blastn”，其用于将已知的多核苷酸序列与来自各种数据库的其他多核苷酸序列进行比对。还可用的是称为“BLAST 2Sequences”的工具，其用于两个核苷酸序列的直接成对比较。“BLAST 2Sequences”可以在NCBI网站上以交互方式访问和使用。“BLAST 2Sequences”工具可用于blastn和blastp(如上所讨论的)。

关于多核苷酸序列，同一性百分比可以在整个确定的多核苷酸序列(例如，如由特定的SEQ ID号确定的)的长度上测量，或者可以在较短的长度上测量，例如，在取自更大的、确定的序列的片段的长度(例如至少20、至少30、至少40、至少50、至少70、至少100或至少200个连续核苷酸的片段)上测量。此类长度仅是示例性的，并且应理解，本文在表格、附图或序列表中所示序列支持的任何片段长度可用于描述在其上可测量同一性百分比的长度。

关于多核苷酸序列，“变体”、“突变体”或“衍生物”可以定义为使用美国国家生物技术信息中心网站上提供的blastn和“BLAST 2Sequences”工具在核酸序列之一的特定长度上与特定核酸序列具有至少50％序列同一性的核酸序列。(参见Tatiana A.Tatusova,Thomas L.Madden(1999),"Blast 2sequences-a new tool for comparing protein andnucleotide sequences",FEMS Microbiol Lett.174:247-250)。此类核酸对可在某个确定的长度上显示例如至少60％、至少70％、至少80％、至少85％、至少90％、至少91％、至少92％、至少93％、至少94％、至少95％、至少96％、至少97％、至少98％或至少99％或更高的序列同一性。

由于遗传密码的简并性(其中多个密码子可以编码单一氨基酸)，因此不显示高度同一性的核酸序列仍然可以编码相似的氨基酸序列。应当理解，可以使用这种简并性来改变核酸序列以产生全部编码基本相同蛋白质的多个核酸序列。例如，本文考虑的多核苷酸序列可以编码蛋白质并且可以针对在特定宿主中的表达进行密码子优化。在本领域中，已经为包括人、小鼠、大鼠、猪、大肠杆菌、植物和其他宿主细胞在内的许多宿主生物制备了密码子使用频率表。

“重组核酸”是非天然存在的序列或具有通过人工组合序列的两个或更多个另外分离的区段而制成的序列。这种人工组合通常通过化学合成来实现，或者更常见的通过人工操作核酸的分离的区段(例如通过本领域已知的基因工程技术)来实现。术语重组体包括仅通过添加、取代或缺失一部分核酸而改变的核酸。通常，重组核酸可包括与启动子序列可操作地连接的核酸序列。这样的重组核酸可以是用于例如转化细胞的载体的一部分。

本文公开的核酸可以是“基本上分离的或纯化的”。术语“基本上分离或纯化”是指从其天然环境中去除的核酸，并且至少60％不含，优选至少75％不含，以及更优选至少90％不含，甚至更优选至少95％不含与它天然相关的其他组分。

肽、多肽、蛋白质和合成方法

如本文所用，术语“肽”、“多肽”和“蛋白质”是指包含通过酰胺键连接的氨基酸残基的聚合物链的分子。术语“氨基酸残基”包括但不限于包含在由丙氨酸(Ala或A)、半胱氨酸(Cys或C)、天冬氨酸(Asp或D)、谷氨酸(Glu或E)、苯丙氨酸(Phe或F)、甘氨酸(Gly或G)、组氨酸(His或H)、异亮氨酸(Ile或I)、赖氨酸(Lys或K)、亮氨酸(Leu或L)、甲硫氨酸(Met或M)、天冬酰胺(Asn或N)、脯氨酸(Pro或P)、谷氨酰胺(Gln或Q)、精氨酸(Arg或R)、丝氨酸(Ser或S)、苏氨酸(Thr或T)、缬氨酸(Val或V)、色氨酸(Trp或W)和酪氨酸(Tyr或Y)残基组成的组中的氨基酸残基。术语“氨基酸残基”还可包括非标准或非天然氨基酸。术语“氨基酸残基”可包括α-、β-、γ-和δ-氨基酸。

在一些实施方案中，术语“氨基酸残基”可包括包含在由高半胱氨酸、2-氨基己二酸、N-乙基天冬酰胺、3-氨基己二酸、羟赖氨酸、β-丙氨酸、β-氨基丙酸、别羟赖氨酸、2-氨基丁酸、3-羟脯氨酸、4-氨基丁酸、4-羟脯氨酸、哌啶酸、6-氨基己酸、异锁链素、2-氨基庚酸、别异亮氨酸、2-氨基异丁酸、N-甲基甘氨酸、肌氨酸、3-氨基异丁酸、N-甲基异亮氨酸、2-氨基庚二酸、6-N-甲基赖氨酸、2,4-二氨基丁酸、N-甲基缬氨酸、锁链素、正缬氨酸、2,2’-二氨基庚二酸、正亮氨酸、2,3-二氨基丙酸、鸟氨酸和N-乙基甘氨酸组成的组中的非标准或非天然氨基酸残基。术语“氨基酸残基”可包括任何上述氨基酸的L异构体或D异构体。

非标准或非天然氨基酸的其他实例包括但不限于对-乙酰基-L-苯丙氨酸、对-碘-L-苯丙氨酸、O-甲基-L-酪氨酸、对炔丙氧基苯丙氨酸、对-炔丙基-苯丙氨酸、L-3-(2-萘基)丙氨酸、3-甲基-苯丙氨酸、O-4-烯丙基-L-酪氨酸、4-丙基-L-酪氨酸、三-O-乙酰基-GlcNAcpβ-丝氨酸、L-多巴、氟化苯丙氨酸、异丙基-L-苯丙氨酸、对-叠氮基-L-苯丙氨酸、对-酰基-L-苯丙氨酸、对-苯甲酰基-L-苯丙氨酸、L-磷酸丝氨酸、磷酸丝氨酸、磷酸酪氨酸、对溴苯丙氨酸、对-氨基-L-苯丙氨酸、异丙基-L-苯丙氨酸、酪氨酸氨基酸的非天然类似物；谷氨酰胺氨基酸的非天然类似物；苯丙氨酸氨基酸的非天然类似物；丝氨酸氨基酸的非天然类似物；苏氨酸氨基酸的非天然类似物；甲硫氨酸氨基酸的非天然类似物；亮氨酸氨基酸的非天然类似物；异亮氨酸氨基酸的非天然类似物；烷基、芳基、酰基、叠氮基、氰基、卤素、肼、酰肼、羟基、烯基、炔基、醚、硫醇、磺酰基、硒基、酯、硫代酸、硼酸盐、硼酸酯、26ufa26hor、膦酰基、膦、杂环、烯酮、亚胺、醛、羟胺、酮或氨基取代的氨基酸，或其组合；具有可光活化交联剂的氨基酸；自旋标记的氨基酸；荧光氨基酸；金属结合氨基酸；含金属的氨基酸；放射性氨基酸；光笼罩的和/或光致异构化氨基酸；含生物素或生物素类似物的氨基酸；含酮的氨基酸；包含聚乙二醇或聚醚的氨基酸；重原子取代的氨基酸；可化学裂解或可光裂解的氨基酸；具有延长侧链的氨基酸；含有毒性基团的氨基酸；糖取代的氨基酸；碳连接的含糖氨基酸；具有氧化还原活性的氨基酸；含α-羟基的酸；麦角氨酸(amino thioacid)；α,α双取代氨基酸；β-氨基酸；γ-氨基酸，脯氨酸或组氨酸以外的环状氨基酸，苯丙氨酸、酪氨酸或色氨酸以外的芳香族氨基酸。

如本文所用，“肽”被定义为氨基酸的短聚合物，其长度通常为20个或更少氨基酸，更通常长度为12个或更少氨基酸(Garrett&Grisham，Biochemistry，第2版，1999，Brooks/Cole,110)。在一些实施方案中，如本文所考虑的肽可包括不超过约2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19或20个氨基酸。多肽，也称为蛋白质，通常具有≥100个氨基酸的长度(Garrett&Grisham，Biochemistry，第2版，1999，Brooks/Cole,110)。如本文所考虑的多肽可包含但不限于100、101、102、103、104、105、约110、约120、约130、约140、约150、约160、约170、约180、约190、约200、约210、约220、约230、约240、约250、约275、约300、约325、约350、约375、约400、约425、约450、约475、约500、约525、约550、约575、约600、约625、约650、约675、约700、约725、约750、约775、约800、约825、约850、约875、约900、约925、约950、约975、约1000、约1100、约1200、约1300、约1400、约1500、约1750、约2000、约2250、约2500个或更多氨基酸残基。

如本文所考虑的肽或多肽可以被进一步修饰以包括非氨基酸部分。修饰可以包括但不限于酰化(例如，O-酰化(酯)、N-酰化(酰胺)、S-酰化(硫酯))、乙酰化(例如，在蛋白质的N-末端或在赖氨酸残基处添加乙酰基)、甲酰化脂酰化(例如，附接硫辛酸酯，一种C8官能团)、肉豆蔻酰化(例如，附接肉豆蔻酸酯，一种C14饱和酸)、棕榈酰化(例如，附接棕榈酸酯，一种C16饱和酸)、烷基化(例如，烷基的添加，例如在赖氨酸或精氨酸残基处添加甲基)、异戊二烯化或戊二烯化(例如，添加类异戊二烯基团，例如法呢醇或香叶基香叶醇)、在C-末端的酰胺化、糖基化(例如，在天冬酰胺、羟赖氨酸、丝氨酸或苏氨酸上添加糖基，产生糖蛋白)。不同于糖化，被认为是糖的非酶促附接、聚唾液酸化(例如，添加聚唾液酸)、糖基磷脂酰肌醇化(glypiation)(例如，糖基磷脂酰肌醇(GPI)锚形成)、羟基化、碘化(例如甲状腺激素的)和磷酸化(例如，添加磷酸基团，通常添加到丝氨酸、酪氨酸、苏氨酸或组氨酸)。

本文公开的修饰的氨基酸序列可以包括一个或多个氨基酸的缺失。如本文所用，“缺失”是指相对于天然氨基酸序列去除一个或多个氨基酸。本文公开的修饰的氨基酸序列可以包括一个或多个氨基酸的插入。如本文所用，“插入”是指向天然氨基酸序列添加一个或多个氨基酸。本文公开的修饰的氨基酸序列可以包括一个或多个氨基酸的取代。如本文所用，“取代”意指用对氨基酸序列而言非天然的氨基酸替换天然氨基酸序列的氨基酸。

例如，本文公开的修饰的NGT可以包括一个或多个缺失、插入和/或取代，以便修饰酶的天然氨基酸序列以增强功能。

作为另一个实例，“受体肽”或“受体肽序列”被修饰为包括一个或多个被N-糖基转移酶糖基化的异源氨基酸基序。如本文所用，术语“受体肽”或“受体肽序列”是指被NGT靶向用于糖基化的肽序列。示例性受体肽序列是[X_-1]-[N]-[X₊₁]-[S/T]，其中X是任何典型氨基酸，任选地，其中[X₊₁]不是P。受体肽序列的另一个实例是[X_-1]-[N]-[X₊₁]-[X₊₂]，其中X是任何典型氨基酸，任选地，其中[X₊₁]不是P，并且任选地，[X₊₂]不是S或T。受体肽序列的另一个实例是[X_-2]-[X_-1]-[N]-[X₊₁]-[X₊₂]-[X₊₃]，其中X是任何典型氨基酸，任选地，[X₊₁]不是P，并且任选地其中[X₊₂]不是S和T。如本文所用，术语“靶多肽”是指可以被修饰、纯化、分离或进一步研究的多肽。在一些实施方案中，靶多肽包含受体肽序列并被NGT糖基化。

关于蛋白质，“缺失”是指导致一个或多个氨基酸残基的不存在的氨基酸序列的变化。缺失可以去除至少1、2、3、4、5、10、20、50、100、200或更多个氨基酸残基。缺失可包括内部缺失和/或末端缺失(例如，参考多肽的N-末端截短、C-末端截短或两者)。参考多肽序列的“变体”、“突变体”或“衍生物”可以包括相对于参考多肽序列的缺失。

关于蛋白质，“片段”是与参考序列在序列上相同但长度比参考序列短的氨基酸序列的一部分。片段可以包含多至参考序列的整个长度，减去至少一个氨基酸残基。例如，片段可分别包含参考多肽的5至1000个连续氨基酸残基。在一些实施方案中，片段可包含参考多肽的至少5、10、15、20、25、30、40、50、60、70、80、90、100、150、250或500个连续氨基酸残基。片段可以优先选自分子的某些区域。术语“至少一个片段”包括全长多肽。相对于全长蛋白质，片段可以包括N-末端截短、C-末端截短或这两种截短。参考多肽序列的“变体”、“突变体”或“衍生物”可以包括参考多肽序列的片段。

关于蛋白质，词语“插入”和“添加”是指导致一个或多个氨基酸残基的添加的氨基酸序列的变化。插入或添加可指1、2、3、4、5、10、20、30、40、50、60、70、80、90、100、150、200或更多个氨基酸残基。参考多肽序列的“变体”、“突变体”或“衍生物”可以包括相对于参考多肽序列的插入或添加。蛋白质的变体可具有N-末端插入、C-末端插入、内部插入或N-末端插入、C-末端插入和内部插入的任意组合。

关于蛋白质，短语“同一性百分比”和“％同一性”是指使用标准化算法比对的至少两个氨基酸序列之间的残基匹配的百分比。氨基酸序列比对的方法是众所周知的。一些比对方法考虑了保守氨基酸取代。下文更详细解释的此类保守取代通常保留取代位点处的电荷和疏水性，从而保留多肽的结构(并因此保留功能)。氨基酸序列的同一性百分比可以如本领域所理解的那样确定。(参见，例如，美国专利号7,396,664，其通过引用整体并入本文)。国家生物技术信息中心(NCBI)基本局部比对搜索工具(BLAST)提供了一套常用且可免费获得的序列比较算法，其可从多个来源获得，包括NCBI，Bethesda，Md.，在其网站上获得。BLAST软件套件包括各种序列分析程序，包括“blastp”，其用于将已知氨基酸序列与来自各种数据库的其他氨基酸序列进行比对。

关于蛋白质，同一性百分比可以在整个确定的多肽序列(例如，如由特定的SEQ ID号确定的)的长度上测量，或可以在较短的长度上测量，例如，在取自更大的、确定的多肽序列的片段的长度(例如至少15、至少20、至少30、至少40、至少50、至少70或至少150个连续残基的片段)上测量。此类长度仅是示例性的，并且应理解，本文在表格、附图或序列表中所示序列支持的任何片段长度可用于描述在其上可测量同一性百分比的长度。

关于蛋白质，如本文所考虑的变体、突变体或衍生物的氨基酸序列可以包括相对于参考氨基酸序列的保守氨基酸取代。例如，变体、突变体或衍生物蛋白质可以包括相对于参考分子的保守氨基酸取代。“保守氨基酸取代”是将氨基酸取代为不同氨基酸的那些取代，其中预测该取代对参考多肽的特性干扰最少。换言之，保守氨基酸取代基本上保留了参考多肽的结构和功能。下表提供了本文考虑的示例性保守氨基酸取代的列表：

保守氨基酸取代通常保持(a)取代区域中的多肽主链的结构，例如作为β片层或α螺旋构象，(b)在取代位点处分子的电荷或疏水性，和/或(c)大部分侧链。非保守氨基酸通常破坏(a)取代区域中的多肽主链的结构，例如，作为β片层或α螺旋构象，(b)在取代位点处分子的电荷或疏水性，和/或(c)大部分侧链。

本文所述的公开的蛋白质、突变体、变体可以具有由参考多肽展示的一种或多种功能或生物活性(例如，由野生型蛋白质展示的一种或多种功能或生物活性)。在一些实施方案中，变体或突变蛋白(例如，本文公开的修饰的NGT)的活性可具有与可比野生型或对照NGT酶相比增强的活性，或可具有与可比或野生型或对照NGT酶相比替代的活性或改变的活性。作为示例，但不作为限制，与野生型或对照NGT相比，本文公开的修饰的NGT具有糖基化独特或非典型靶肽序列的能力，和/或具有增加的糖基化效率。示例性野生型NGT是胸膜肺炎放线杆菌的NGT，其氨基酸序列如SEQ ID NO:1所示。

胸膜肺炎放线杆菌NGT(SEQ ID NO:1)

胸膜肺炎放线杆菌NGT(SEQ ID NO:1a)

修饰的NGT

氨基酸SEQ ID NO:1a(如上所示)与SEQ ID NO:1除Q469A的单个氨基酸取代外相同。在一些实施方案中，参照SEQ ID NO:1a描述了修饰的NGT，氨基酸位置469处的变化称为“A469X”。如本领域所知，NGT的来源可以来源于多种细菌。作为示例，但不作为限制，示例性细菌包括放线杆菌属(Actinobacillus)物种、大肠杆菌属(Escherichia)物种、嗜血杆菌属(Haemophilus)物种或曼氏杆菌属(Mannheimia)物种。在一些实施方案中，NGT源自胸膜肺炎放线杆菌、流感嗜血杆菌、溶血性曼氏杆菌、杜克雷嗜血杆菌、鼠疫耶尔森氏菌或大肠杆菌。本文公开了修饰的N-糖基转移酶(NGT)、产生修饰的NGT的方法以及使用修饰的NGT在体外和体内制备糖蛋白和重组糖蛋白的方法。在一些实施方案中，本文公开的NGT包括一个或多个取代突变，并且与相同反应条件下的未修饰的NGT相比，通常糖基化更广泛的受体肽序列，和/或与相同反应状态下的未修饰的NGT相比对更广泛的受体肽序列具有亲和力。

在一些实施方案中，本公开的NGT包括肽结合口袋。在一些实施方案中，肽结合口袋包含例如胸膜肺炎放线杆菌NGT的氨基酸F39、R177、H214、D215、M218、H219、Y222、H272、H277、S278、I279、R281、M349、G370、H371、T438、T439、M440、K441、A469、H495、P497、Y498、F517、N521、D525或不同生物体的另一NGT中的等同氨基酸位置。在一些实施方案中，一个或多个取代突变位于结合口袋氨基酸中。作为示例，但不作为限制，在一些实施方案中，修饰的NGT在例如SEQ ID NO:1(或1a)的氨基酸位置H219、T438、A496(或ApNGT的Q496)或H495或另一NGT中的等同位置处包含一个或多个突变。在一些实施方案中，包含SEQ ID NO:1或1a的NGT包括至少一个选自以下的取代突变：H219F、H219W、T438S、T439E、A469G、A469I、H495D、H219F-T438S、H219F-H495D、H219W-T438S、H219W-H495D、A469G-H495D和A469I-H495D。

所公开的蛋白质可以是基本上分离或纯化的。术语“基本上分离或纯化的”是指从其自然环境中取出的蛋白质，并且至少60％不含，优选至少75％不含，更优选至少90％不含，甚至更优选至少95％不含与其天然相关联的其他组分。

如本领域所知，来自不同生物体的NGT在氨基酸序列上可能存在差异。因此，在放线杆菌属物种NGT(如胸膜肺炎放线杆菌(ApNGT))的氨基酸位置469处的突变可能具有另一物种的NGT中氨基酸位置469的“等同物”，尽管不是精确的对应物。因此，如本文所用，术语“等同物”在指代突变氨基酸位置时，是指另一NGT的氨基酸序列中的可比位置。

虽然本文详细举例说明了胸膜肺炎放线杆菌的NGT，可以理解来自其他生物体的NGT可以以相似的方式进行修饰，并且产生具有相同或类似改变功能的修饰的NGT(例如，与相同反应条件下的未修饰的NGT对照相比，糖基化更广泛系列的受体肽序列，和/或与相同反应状态下的未修饰的NGT对照相比，对更广泛的受体肽序列的亲和力)。为此，除了胸膜肺炎放线杆菌NGT(SEQ ID NO:1)的氨基酸序列外，图39中还提供了来自10种不同生物体的10种不同NGT的氨基酸序列。图40、43和45提供了这些序列的比对，图41提供了显示这些NGT之间百分比同一性的表格汇总。图42、44和46显示了这些NGT中几个之间的结构比对，示例说明了结构和功能结构域的对应关系，如结合口袋。例如，图45显示了溶血性曼氏杆菌(MH)、杜克雷嗜血杆菌(HD)和胸膜肺炎放线杆菌(AP)的比对。粗体的氨基酸对应于AP氨基酸F39、R177、H214、D215、M218、H219、Y222、H272、H277、S278、I279、R281、M349、G370、H371、T438、T439、M440、K441、Q469、H495、P497、Y498、F517、N521、D525，如图45所示，对应于MH和HD NGT中的相同氨基酸。图46A-B显示了这三个NGT的结构比对，并示例说明了三级(即结构和功能)构型中的接近同一性。

无细胞蛋白质合成(CFPS)

本文公开的组分、系统和方法可以应用于本领域已知的无细胞蛋白质合成方法。参见，例如，美国专利号5,478,730；5,556,769；5,665,563；6,168,931；6,548,276；6,869,774；6,994,986；7,118,883；7,186,525；7,189,528；7,235,382；7,338,789；7,387,884；7,399,610；7,776,535；7,817,794；8,703,471；8,298,759；8,715,958；8,734,856；8,999,668；和9,005,920。还参见美国公开申请号2018/0016614，2018/0016612，2016/0060301，2015-0259757，2014/0349353，2014-0295492，2014-0255987，2014-0045267，2012-0171720，2008-0138857，2007-0154983，2005-0054044，和2004-0209321。还参见美国公开申请号2005-0170452；2006-0211085；2006-0234345；2006-0252672；2006-0257399；2006-0286637；2007-0026485；2007-0178551。还参见公开的PCT国际申请号2003/056914；2004/013151；2004/035605；2006/102652；2006/119987；和2007/120932。还参见Jewett,M.C.,Hong,S.H.,Kwon,Y.C.,Martin,R.W.,和Des Soye,B.J.2014,“Methods for improved invitro protein synthesis with proteins containing non-standard amino acids,”美国专利申请系列号:62/044,221；Jewett,M.C.,Hodgman,C.E.,和Gan,R.2013,“Methodsfor yeast cell-free protein synthesis,”美国专利申请系列号:61/792,290；Jewett,M.C.,J.A.Schoborg,和C.E.Hodgman.2014,“Substrate Replenishment and ByproductRemoval Improve Yeast Cell-Free Protein Synthesis,”美国专利申请系列号:61/953,275；和Jewett,M.C.,Anderson,M.J.,Stark,J.C.,Hodgman,C.E.2015,“Methods foractivating natural energy metabolism for improved yeast cell-free proteinsynthesis,”美国专利申请系列号:62/098,578。还参见Guarino,C.,&DeLisa,M.P.(2012).A prokaryote-based cell-free translation system that efficiently synthesizesglycoproteins.Glycobiology,22(5),596-601。所有这些参考文献的内容通过引用整体并入本申请。

在一些实施方案中，“CFPS反应混合物”通常可包含粗制或部分纯化的细胞提取物、RNA翻译模板和用于促进从RNA翻译模板的无细胞蛋白质合成的合适的反应缓冲液中的一种或多种。在一些方面，CFPS反应混合物可以包括外源RNA翻译模板。在其他方面，CFPS反应混合物可以包括编码与DNA依赖性RNA聚合酶的启动子元件可操作地连接的开放阅读框的DNA表达模板。在这些其他方面，CFPS反应混合物还可包括DNA依赖性RNA聚合酶以指导编码开放阅读框的RNA翻译模板的转录。在这些其他方面，CFPS反应混合物中可以包含额外的NTP和二价阳离子辅因子。如果反应混合物包含实现反应所需的所有试剂，则称其为完全反应混合物，如果其仅包含一部分必需试剂，则称其为不完全反应混合物。本领域普通技术人员将理解，反应组分通常作为单独的溶液储存，每个溶液包含总组分的一个子集，这是出于方便、储存稳定性的原因，或以允许组分浓度的应用依赖性调整，并且在反应之前将反应组分合并以产生完全反应混合物。此外，本领域普通技术人员将理解，为了商业化，反应组分被分开包装，并且有用的商业试剂盒可以包含本发明的反应组分的任何子集。

所公开的无细胞蛋白质合成系统可以利用粗制的和/或至少部分分离和/或纯化的组分。如本文所用，术语“粗制”可以指通过破碎和裂解细胞获得的组分，并且至多最低限度地纯化来自破碎和裂解的细胞的粗制组分，例如通过离心破碎和裂解的细胞并从离心后的上清液和/或沉淀收集粗制组分。术语“分离的或纯化的”是指从其天然环境中取出的组分，并且至少60％不含，优选至少75％不含，以及更优选至少90％不含，甚至更优选至少95％不含与它天然相关的其他组分。

如本文所用，多肽的“翻译模板”是指来自表达模板的转录的RNA产物，其可被核糖体用于合成多肽或蛋白质。

如本文所用，术语“反应混合物”是指含有进行给定反应所需的试剂的溶液。如果反应混合物包含进行反应所需的所有试剂，则该反应混合物被称为完全反应混合物。反应混合物的组分可以分别储存在单独的容器中，每个容器包含全部组分中的一种或多种。组分可以单独包装用于商业化，并且有用的商业试剂盒可以包含反应混合物的反应组分中的一种或多种。

反应混合物可以包括表达模板、翻译模板或表达模板和翻译模板两者。表达模板用作用于转录至少一种RNA的底物，该RNA可以翻译成序列确定的生物聚合物(例如，多肽或蛋白质)。翻译模板是一种RNA产物，其可以被核糖体用来合成序列确定的生物聚合物。在某些实施方案中，平台包括表达模板和翻译模板。在某些特定实施方案中，反应混合物可包含偶联的转录/翻译(“Tx/Tl”)系统，其中从相同细胞提取物合成翻译模板和序列确定的生物聚合物。

反应混合物可以包含能够从表达模板产生翻译模板的一种或多种聚合酶。聚合酶可以外源提供或可以从用于制备提取物的生物体提供。在某些特定实施方案中，聚合酶由存在于用于制备提取物的生物体中的质粒和/或用于制备提取物的生物体的基因组中的整合位点表达。

改变CFPS反应的物理化学环境以更好地模拟细胞质可以改善蛋白质合成活性。以下参数可以单独考虑或与一种或多种其他组分组合考虑以改善基于粗制细胞提取物(例如，S12、S30和S60提取物)的稳健CFPS反应平台。

温度可以是适合于CFPS的任何温度。温度可在约10℃至约40℃的一般范围内，包括该一般范围内的中间特定范围，包括约15℃至约35℃、约15℃至约30℃，约15℃至约25℃。在某些方面，反应温度可以是约15℃、约16℃、约17℃、约18℃、约19℃、约20℃、约21℃、约22℃、约23℃、约24℃、约25℃。

反应混合物可以包括适用于CFPS的任何有机阴离子。在某些方面，有机阴离子可以是谷氨酸根、乙酸根等。在某些方面，有机阴离子的浓度独立地在约0mM至约200mM的一般范围内，包括该一般范围内的中间特定值，例如约0mM、约10mM、约20mM、约30mM、约40mM、约50mM、约60mM、约70mM、约80mM、约90mM、约100mM、约110mM、约120mM、约130mM、约140mM、约150mM、约160mM、约170mM、约180mM、约190mM和约200mM，等等。

反应混合物可以包括适用于CFPS的任何卤化物阴离子。在某些方面，卤化物阴离子可以来自氯化物、溴化物、碘化物等。优选的卤化物阴离子来自氯化物。通常，卤化物阴离子(如果存在于反应中)的浓度在约0mM至约200mM的一般范围内，包括该一般范围内的中间特定值，例如本文一般公开的用于有机阴离子的那些。

反应混合物可以包括适用于CFPS的任何有机阳离子。在某些方面，有机阳离子可以来自多胺，例如亚精胺或腐胺等。优选地多胺存在于CFPS反应中。在某些方面，反应中有机阳离子的浓度通常可为约0mM至约3mM、约0.5mM至约2.5mM、约1mM至约2mM。在某些方面，可以存在多于一种有机阳离子。

反应混合物可以包括适用于CFPS的任何无机阳离子。例如，合适的无机阳离子可包括一价阳离子，例如钠、钾、锂等阳离子；和二价阳离子，例如镁、钙、锰等阳离子。在某些方面，无机阳离子是镁离子。在这样的方面，镁离子浓度可以在约1mM至约50mM的一般范围内，包括在这个一般范围内的中间特定值，例如约1mM、约2mM、约3mM、约5mM、约6mM、约7mM、约8mM、约9mM、约10mM等。在优选的方面，无机阳离子的浓度可在约4mM至约9mM的特定范围内，更优选在约5mM至约7mM的范围内。

反应混合物可以包括内源性NTP(即，存在于细胞提取物中的NTP)和/或外源性NTP(即，添加到反应混合物中的NTP)。在某些方面，反应使用ATP、GTP、CTP和UTP。在某些方面，个体NTP的浓度在约0.1mM至约2mM的范围内。

反应混合物可以包括适用于CFPS的任何醇。在某些方面，醇可以是多元醇，更具体地是甘油。在某些方面，醇在约0％(v/v)至约25％(v/v)的一般范围内，包括约5％(v/v)、约10％(v/v)和约15％(v/v)和约20％(v/v)等的特定中间值。

本文公开的组分、系统和方法可应用于重组细胞系统(例如体外)和无细胞蛋白质合成方法(例如体内)，以制备糖基化蛋白质。在一些实施方案中，方法、系统和组合物可以使用一个或多个体内步骤进行。例如，原核或真核细胞可被工程化以表达一种或多种如本文所公开的修饰的NGT，和/或表达一种或多种靶多肽，其中靶多肽各自包含一个受体肽序列。每个靶多肽的受体序列可以相同，或者每个多肽的受体肽序列可以不同。在一些实施方案中，工程化的NGT和受体肽序列可以成对选择；也就是说，本文公开的一些工程化的NGT可以具有较其他与某些受体肽序列更强的亲和力和/或更有效的糖基化活性。因此，在一些实施方案中，靶多肽也可以被工程化以包括特定受体肽序列，或者靶多肽在不进行工程化的情况下可以包括特定的受体肽序列。在一些实施方案中，与未修饰的NGT对应物相比，工程化的NGT对更大范围的不同受体肽序列具有更强的亲和力和/或更有效的糖基化活性。在一些实施方案中，方法包括一个或多个体外步骤。例如，可以将修饰的NGT和靶肽添加到无细胞方法中或与无细胞方法组合。

可以使用所公开的组分、系统和方法制备的糖基化蛋白质可以包括具有N-连接的糖基化(即，附接至天冬酰胺的氮的聚糖)的蛋白质。本文公开的糖基化蛋白质可以包括由本领域已知的一种或多种单体组成的不分支和/或分支的糖链，所述单体例如葡萄糖(例如，β-D-葡萄糖)、半乳糖(例如，β-D-半乳糖)、甘露糖(例如，β-D-甘露糖)、岩藻糖(例如，α-L-岩藻糖)、N-乙酰基-葡糖胺(GlcNAc)、N-乙酰基-半乳糖胺(GalNAc)、神经氨酸、N-乙酰神经氨酸(即唾液酸)和木糖，它们可以通过各自的糖基转移酶(例如，N-糖基转移酶)附接至糖基化的蛋白质、生长的聚糖链或供体分子(例如，糖供体核苷酸)。本文公开的糖基化蛋白可包括本领域已知的聚糖，包括但不限于Man₃GlcNAc₂聚糖、Man₅GlcNAc₃聚糖和完全唾液酸化的人聚糖Man₃GlcNAc₄Gal₂Neu₅Ac₂。

在某些示例性实施方案中，本文所述的一种或多种方法在容器例如单个容器中进行。如本文所用，术语“容器”是指适合容纳本文所述的一种或多种反应物(例如，用于一个或多个转录、翻译和/或糖基化步骤)的任何容器。容器的实例包括但不限于微量滴定板、试管、微量离心管、烧杯、烧瓶、多孔板、比色皿、流动系统、微纤维、显微镜载玻片等。

原核生物中的糖基化

原核生物中的糖基化是本领域已知的。(参见，例如，美国专利号8,703,471；和8,999,668；和美国公开申请号2005/0170452；2006/0211085；2006/0234345；2006/0252672；2006/0257399；2006/0286637；2007/0026485；2007/0178551；和国际公开申请WO2003/056914A1；WO2004/035605A2；WO2006/102652A2；WO2006/119987A2；和WO2007/120932A2；其全部内容通过引用整体并入本文)。

用于基质辅助激光解吸/电离质谱的自组装单层(SAMDI-MS)

所公开的方法可利用用于基质辅助激光解吸/电离质谱的自组装单层(SAMDI-MS)，例如，作为所公开方法和系统中检测肽和蛋白质的糖基化的方法。SAMDI-MS是本领域已知的，并已用于研究肽、蛋白质和碳水化合物及其反应产物。(参见Ban等人,“Discoveryof Glycosyltransferases Using Carbohydrate Arrays and Mass Spectrometry,”Nat.Chem.Biol.,2012,8,769-773；Ban等人,“On-Chip Synthesis and Label-FreeAssays of Oligosaccharide Arrays,”Chem.Int.Ed.,2008,47(18),3396-3399；Houseman等人,“Maleimide-Functionalized Self-Assembled Monolayers for the Preparationof Peptide and Carbohydrate Biochips,”Langmuir,2003,19(5),1522-1531；Su等人,“Using Mass Spectrometry to Characterize Self-Assembled Monolayers PresentingPeptides,Proteins and Carbohydrates,”Angew.Chem.Int.Ed.,2002,41,4715-4718；Houseman等人,“Toward Quantitative Assays with Peptide Chips:A SurfaceEngineering Approach,”Trends Biotech.,2002,20(7),279-281；Houseman等人,“Carbohydrate Arrays for the Evaluation of Protein Binding and EnzymeActivity,”Chem.Biol.,2002,9,443-454)；和Laurent,N.,等人(2008)."EnzymaticGlycosylation of Peptide Arrays on Gold Surfaces."Chembiochem 9(6):883-887)；其全部内容通过引用并入本文)。

优点

下文提供了本文公开的组合物和方法的示例性、非限制性优点。

大多数糖蛋白合成方法使用真核生物。目前批准的糖蛋白治疗剂是在哺乳动物或酵母细胞内使用基于OST的糖基化系统生产的。细菌和体外糖基化系统为更密切地控制糖基化模式和更快速地开发更多样的糖基化体系提供了机会。大多数现有的方法使用膜结合的寡糖基转移酶(OST)将脂质连接的糖供体整体转移到蛋白质上。

NGT是一种可溶性酶，它将糖从激活的供体直接转移到蛋白质上，而不使用膜结合的组分。然而，它们尚未被广泛用于异源蛋白的修饰，这可能是由于与人基于OST的糖基化系统相比，它们的肽受体和糖供体特异性存在差异。迄今为止，NGT用于修饰重组蛋白通常需要对靶序列进行工程化，因此无法设计有效修饰的糖基化位点。这项工作的广泛目标是开发一系列能够糖基化任何目标序列的工程化的NGT，减轻或消除改变天然存在糖基化位点的靶蛋白的一级氨基酸序列的需要。

Naegali等人2014年的两项研究表明，NGT可以有效地用葡萄糖、半乳糖、木糖或甘露糖修饰某些N-X-S/T基序，并在活细胞中显示出修饰趋势。这项研究还表明，ApNGT可以修饰大肠杆菌细胞质中的野生型人促红细胞生成素(尽管蛋白质溶解度和糖基化效率尚未确定)。Aebi实验室在一项专利中披露的其他工作表明，野生型细菌自体转运蛋白(NGT的天然底物)在细胞中的修饰及其作为疫苗的潜在用途。

2017年，Qitao Song等人的一项题为“Production of homogeneousglycoprotein with multisite modifications by an engineered N-glycosyltransferase mutant”的研究发现，与野生型相比，ApNGT(Q469A)突变体表现出增加的混杂性(promiscuity)和活性。不幸的是，本发明人发现，该突变体仍然只能有效地修饰45％的X-N-X-S/T形式的可能的4-mer糖基化序列(>80％修饰)和对80％的序列无效(>5％修饰)。在本工作中，本发明人对ApNGT(Q469A)酶(SEQ ID NO:1a)进行了进一步的工程化，并发现本发明人引入的额外突变允许超过66％的可能的4-mer糖基化序列有效(>80％修饰)和93％的序列无效(>5％)。

通过发现具有新特异性的NGT，本发明克服的另一个问题是独特糖在单个重组蛋白内不同N-连接糖基化位点处的位点特异性安装。已经有许多在肽上安装独特聚糖的实例，因为它们可以通过使用糖基化的氨基酸作为底物的Fmoc固相合成来组装。然而，事实证明，在生物生产的蛋白质内多个位点上特异性控制糖基化的位点更为困难。这一领域的大部分工作由牛津大学的Benjamin Davis教授和同事引领，他们专注于使用双正交或半双正交化学方法对蛋白质内天然存在的氨基酸或非典型氨基酸进行化学修饰。马里兰大学Lai-Xi Wang教授领导的另一组该领域的论文证明了糖苷酶用于指导抗体(PNAS，2018)和赤藓素(ACS Chem Biol，2017)的位点特异性糖基化。

本研究中所述的NGT将提供一组大大增加的酶特异性，从而实现连续糖基化策略的潜在正交性。

本文公开的组合物和方法的其他非限制性优点包括下述：

NGT糖基化系统允许多肽的有效修饰，而无需真核宿主、脂质结合的底物和酶，或无需转运至细菌的细胞周质(如使用现有的低聚糖基转移酶糖基化方法所需)。以前，该系统只能修饰有限的一组受体肽序列，并且通常需要修饰天然蛋白质序列以实现有效修饰。目前的发现增加了一组可以有效修饰的序列，使得天然蛋白质序列不需要改变。这些工程化的NGT可以应用于在体外或活细胞中实现糖基化。

通过使用工程化的NGT，证明了几种治疗蛋白(包括IFN-γ、GM-CSF和人IgG Fc片段)在大肠杆菌细胞质中和体外通过其天然糖基化序列的改善的糖基化。

使用不同的N-糖基转移酶特异性证明了两种不同的聚糖在单个蛋白质上的安装。

使用线性模板进行无细胞蛋白质合成，然后进行SAMDI-MS分析的方法允许快速合成和表征具有>50,000个反应的许多酶变体和变体库。目前对糖基转移酶特异性的研究需要通过亲和纯化、通过结合放射性或化学标记的糖或液相色谱(LC)方法进行筛选以及通过质谱(通常为LC-MS)进行验证，从细胞中表达和纯化酶。这些方法将研究限制在10-100个肽。

本文公开的发现允许通过使用工程化的N-糖基转移酶在体外和在细菌细胞质中对天然治疗性蛋白质进行位点特异性和有效的酶促N-连接糖基化。这项技术可以加快糖蛋白治疗剂的开发并降低生产成本。本发明人使用SAMDI-MS和CFPS开发的方法可以快速概括其他目标酶同源物或酶变体的这些结果。

应用

本文公开的组合物和方法的非限制性应用包括下述：

在体外或在细胞中通过工程化的N-糖基转移酶对于改善糖基化的治疗性多肽氨基酸序列的设计；

用于替代糖供体或受体肽特异性的高通量工程化糖基转移酶；

在工业细菌宿主生物体中产生高滴度的蛋白质(如治疗剂)，其在细菌细胞质中是糖基化位点特异性的，无需改变一级氨基酸序列；

活细胞中产生的蛋白质的体外糖基化，无需改变其一级氨基酸序列；

天然不含典型N-糖基化序列的蛋白质(如治疗剂)的细菌生产或体外糖基化，无需改变其一级氨基酸序列；

工程化的N-糖基转移酶在真核细胞胞质内糖基化蛋白质或作为真核N-连接糖基化的正交糖基化方法的用途；

我们的工程化的NGT具有比自然界中发现的那些更广泛的肽受体特异性。这可用于糖基化在细菌或体外系统中无法被糖基化的蛋白质。NGT特异性之间的差异和正交性也可用于通过用工程化的或天然N-糖基转移酶进行连续处理，并通过中间的细化步骤，将不同的聚糖定点特异性地安装到单个蛋白质内的多个位置；

分离使用工程化的或天然N-糖基转移酶在所有典型糖基化位点的子集修饰的蛋白质。

本发明允许在体外或在细菌系统内生产糖基化的蛋白质，而不修饰其天然氨基酸序列。糖基化的蛋白质，包括蛋白质治疗剂和疫苗。该系统的脂质非依赖性使其对蛋白质治疗剂的体外修饰和细菌细胞质中的糖基化具有吸引力。这些高滴度、快速表达的系统可以使糖蛋白治疗剂更快速、成本更低地开发和生产。

本发明还允许在单个蛋白质内的多个位置处位点特异性地安装不同的聚糖。例如，这可以用于将免疫调节聚糖安装到糖缀合疫苗中，或者简单地优化在多个位置处的糖基化结构(例如IgG抗体的Fab或Fc区)。

本发明鉴定了用于位点特异性糖基化的酶，特别是工程化的酶，以及序列。

其他非限制性应用还包括：

修饰的酶(工程化的N-糖基转移酶(NGT)突变体)用于修饰靶蛋白的用途。

活细胞中多肽和修饰的酶(工程化的N-糖基转移酶(NGT)突变体)的共表达。

多肽序列和修饰的酶(工程化的N-糖基转移酶(NGT)突变体)作为体外糖基化手段的用途。

使用用于解吸附电离质谱的自组装单层(SAMDI-MS)来快速工程化突变的N-糖基转移酶肽和糖特异性的肽和糖特异性的方法。

如上所述修饰的酶(工程化的N-糖基转移酶(NGT)突变体)的用途和快速工程化的方法，其中通过无细胞蛋白质合成来合成NGT。

如上所述修饰的酶(工程化的N-糖基转移酶(NGT)突变体)的用途和快速工程化的方法来表征和获得具有新特异性的酶。

修饰的酶(工程化的N-糖基转移酶(NGT)突变体)来安装替代单糖例如葡萄糖、半乳糖和N-葡糖胺的用途。

使用天然存在或工程化的NGT的独特肽受体特异性对蛋白质进行顺序修饰，以在单个蛋白质上安装多个不同的聚糖，或直接修饰所有存在的N-糖基化位点的子集。

其他

除非本文另有说明或与上下文明显矛盾，否则本文描述的方法的步骤可以以任何合适的顺序执行。除非本文另有说明或与上下文明显矛盾，否则这些步骤可以重复或反复任意次数以实现期望的目标。

本文描述了本发明的优选方面，包括发明人已知的用于实施本发明的最佳模式。在阅读上述描述后，那些优选方面的变化对于本领域普通技术人员来说将变得明显。发明人期望本领域的普通技术人员适当地采用这种变化，并且发明人打算以不同于本文具体描述的方式来实践本发明。因此，本发明包括在适用法律允许的情况下在所附权利要求中记载的主题的所有修改和等效物。此外，除非本文另有说明或与上下文明显矛盾，否则本发明涵盖其所有可能变化形式的上述要素的任何组合。

示例说明的实施方案

以下实施方案是说明性的，并且不应解释为限制所要求保护的主题的范围。

实施方案1.一种修饰的N-糖基转移酶(NGT)，其选自以下组或其同源物：(i)在氨基酸位置F39、R177、H214、D215、M218、H219、Y222、H272、H277、S278、I279、R281、M349、G370、H371、T438、T439、M440、K441、A469(Q469)、H495、P497、Y498、F517、N521和D525处包含一个或多个取代的放线杆菌属物种(任选地修饰的SEQ ID NO:1的胸膜肺炎放线杆菌的NGT)；(ii)在氨基酸位置F42、R181、H218、D219、M222、H219、Y223、H276、H281、S282、I283、R285、M354、G375、H376、T443、T444、M445、K446、A474(Q474)、H500、P502、Y503、F522、N526和D530处包含一个或多个取代的金氏菌属物种(任选地修饰的SEQ ID NO:2的金氏金格杆菌的NGT)；(iii)在氨基酸位置F68、R204、H241、D242、M245、H246、Y249、H298、H303、S304、I305、R307、M375、G396、H397、T464、T465、M466、K467、A495(Q495)、H521、P523、Y524、F543、N547和D551处包含一个或多个取代的嗜血杆菌属物种(任选地修饰的SEQ ID NO:3的肺炎嗜血杆菌的NGT)；(iv)在氨基酸位置F39、R177、H214、D215、M218、H219、Y222、H270、H275、S276、I277、R279、M348、G369、H370、T437、T438、M439、K440、A468(Q468)、H494、P496、Y497、F516、N520和D524处包含一个或多个取代的聚集杆菌属物种(任选地修饰的SEQ ID NO:4的嗜沫聚集杆菌的NGT)；(v)在氨基酸位置F39、R177、H214、D215、M218、H219、Y222、H272、H277、S278、I279、R281、M349、G370、H371、T438、T439、M440、K441、A469(Q469)、H495、P497、Y498、F517、N521和D525处包含一个或多个取代的曼氏杆菌属物种(任选地修饰的SEQ ID NO:5的溶血性曼氏杆菌的NGT)；(vi)在氨基酸位置F40、R180、H217、D218、M221、H222、Y225、H274、H279、S280、I281、R283、M351、G372、H373、T440、T441、M442、K443、A471(Q471)、H497、P499、Y500、F519、N523和D527处包含一个或多个取代的百伯史坦菌属物种(任选地修饰的SEQIDNO:6的海藻百伯史坦菌的NGT)；和(vii)在氨基酸位置F38、R176、H213、D214、M217、H218、Y221、H271、H276、S277、I278、R280、M348、G369、H370、T437、T438、M439、K440、A468(Q468)、H494、P496、Y497、F516、N520和D524处包含一个或多个取代的嗜血杆菌属物种(任选地修饰的SEQ ID NO:7的杜克雷嗜血杆菌的NGT)。

实施方案2.实施方案1的修饰的NGT，其中参考SEQ ID NO:1，氨基酸取代位于选自由H219、T438、A696和H495或其同源位置组成的组的一个或多个位置。

实施方案3.实施方案1的修饰的NGT，其中参考SEQ ID NO:1，氨基酸取代位于选自由以下组成的组的一个或多个位置：H219F或H219W；T438S或T438E；A696G或A696I；和H495D或其同源位置。

实施方案4.实施方案1的修饰的NGT，其中野生型NGT包含SEQ ID NO:1-7中的任何一个，并且参考SEQ ID NO:1，修饰的NGT在选自由以下组成的组的位置处包含至少一个取代突变：H219F、H219W、T438S、T439E、A469G、A469I、H495D、H219F-T438S、H219F-H495D、H219W-T438S、H219W-H495D、A469G-H495D和A469I-H495D或其同源位置；其中H219F-T438S、H219F-H495D、H219W-T438S、H219W-H495D、A469G-H495D和A469I-H495D是两个取代突变的组合。

实施方案5.前述实施方案中任一项的修饰的NGT，其中与相同反应条件下的未修饰的NGT相比，修饰的NGT糖基化更广泛的受体肽序列。

实施方案6.前述实施方案中任一项的修饰的NGT，其中与相同反应条件下的未修饰的NGT相比，修饰NGT对更广泛的受体肽序列具有亲和力。

实施方案7.前述实施方案中任一项的修饰的NGT，其中受体肽序列包含氨基酸序列[X_-2-]-[X_-1-]-[N]-[X₊₁]-[X₊₁]-[X₊₂]-[X₊₃]，其中X是任何典型氨基酸，并且任选地其中[X₊₁]不是P。

实施方案8.前述实施方案中任一项的修饰的NGT，其中受体肽序列包含氨基酸序列[X_-2]-[X_-1-]-[N]-[X₊₁]-[X₊₁]-[X₊₂]-[X₊₃]，其中X是任何典型氨基酸，并且任选地其中[X₊₁]不是P，并且任选地其中[X₊₂]不是S或T。

实施方案9.一种多核苷酸序列，其编码前述实施方案中任一项的修饰的NGT。

实施方案10.一种表达载体，其包含实施方案9的多核苷酸序列。

实施方案11.一种细菌细胞，其包含实施方案1-8中任一项的修饰的NGT、实施方案9的多核苷酸序列或实施方案10的表达载体。

实施方案12.实施方案11的细菌细胞，进一步包含靶多肽。

实施方案13.一种真核细胞，其包含实施方案1-8中任一项的修饰的NGT、实施方案9的多核苷酸序列或实施方案10的表达载体。

实施方案14.实施方案13的真核细胞，进一步包含靶多肽。

实施方案15.一种用于糖基化靶多肽的方法，其中靶多肽包含受体肽序列，所述方法包括：在合适的反应条件下使靶多肽与实施方案1-8中任一项的修饰的NGT和聚糖接触。

实施方案16.实施方案15的方法，其中靶多肽包括治疗性多肽。

实施方案17.实施方案15或16的方法，其中方法在体内进行。

实施方案18.实施方案15或16的方法，其中方法在体外进行。

实施方案19.实施方案15-18中任一项的方法，其中靶多肽是原核蛋白质。

实施方案20.实施方案15-18中任一项的方法，其中靶多肽是真核蛋白质。

实施方案21.实施方案15-20中任一项的方法，其中靶多肽包含受体肽序列，所述受体肽序列包含氨基酸序列[X_-2]-[X_-1-]-[N]-[X₊₁]-[X₊₁]-[X₊₂]-[X₊₃]，其中X是任何典型氨基酸，并且任选地其中[X₊₁]不是P，并且任选地其中[X₊₂]不是S或T。

实施方案22.实施方案15-21中任一项的方法，其中NGT用一种或多种聚糖来糖基化靶多肽。

实施方案23.实施方案15-22中任一项的方法，其中聚糖包含一种或多种选自由葡萄糖、半乳糖和N-葡糖胺组成的组的单糖。

实施方案24.一种修饰的N-糖基转移酶(NGT)，其包含在对应于SEQ ID NO:1的胸膜肺炎放线杆菌NGT的下述氨基酸位置处的一个或多个取代：F39、R177、H214、D215、M218、H219、Y222、H272、H277、S278、I279、R281、M349、G370、H371、T438、T439、M440、K441、A469、H495、P497、Y498、F517、N521和D525。

实施方案25.实施方案24的修饰的NGT，其中NGT衍生自选自以下组成的组的生物体：金氏金格杆菌；流感嗜血杆菌；嗜沫聚集杆菌；溶血性曼氏杆菌；海藻百伯史坦菌；杜克雷嗜血杆菌；伯克霍尔德氏菌属物种；小肠结肠炎耶尔森氏菌；鼠疫耶尔森氏菌；肠道沙门氏菌；和大肠杆菌。

实施方案26.实施方案24的修饰的NGT，其中NGT衍生自选自由溶血性曼氏杆菌和杜克雷嗜血杆菌组成的组的生物体。

实施方案27.实施方案24-26中任一项的修饰的NGT，其中与相同反应条件下的未修饰的NGT相比，修饰的NGT糖基化更广泛的受体肽序列。

实施方案28.实施方案24-26中任一项的修饰的NGT，其中与相同反应条件下的未修饰的NGT相比，修饰的NGT对更广泛的受体肽序列具有亲和力。

实施方案29.一种治疗组合物，其包含实施方案16的治疗肽。

实施方案30.实施方案29的治疗组合物，其中组合物包含疫苗。

实施例

以下实施例是示例说明性的，并不旨在限制所请求保护的主题的范围。

实施例1–使用高通量分析以工程化具有改变特异性的N-糖基转移酶

A.引言

N-连接蛋白质糖基化是用复合寡糖修饰天冬酰胺侧链，是自然界中最常见和最复杂的翻译后修饰(PTM)之一¹。在真核生物中，N-聚糖安装在典型序列基序N-X-S/T(其中X≠P)处²。大多数蛋白质治疗剂是N-糖基化的³，并且已知糖基化模式的差异对生物活性^4,5、蛋白质稳定性⁶和血清半衰期⁷有强烈影响。也已经证明在治疗性蛋白质中引入额外的N-糖基化位点可以改善治疗特性，包括延长血清半衰期^8,9。尽管使用具有内源性N-糖基化途径的哺乳动物细胞系是生产糖蛋白治疗剂的最常见方法，但这些组成系统限制了可以构建的聚糖结构的多样性^10,11，并且常常受到糖蛋白产物的异质性的影响^3,12,13。这些限制促使开发在大肠杆菌(E.coli)中或在体外的合成糖基化系统，以安装^10,14-18或重塑^12,16定义的聚糖，以精确控制糖蛋白的结构和性质。

在这些合成糖基化系统中，一类被称为N-糖基转移酶(NGT)的细菌胞质酶对糖工程化很重要，因为它们可以有效地将尿嘧啶-二磷酸-葡萄糖(UDP-Glc)糖供体的单个葡萄糖残基转移到某些天然真核序列上^19,20。然后可以使用糖基转移酶²¹或内切糖苷酶化学酶聚糖重塑^22,23将该葡萄糖残基延伸成全长聚糖。对NGT特异性的严格分析表明，NGT只能修饰所有可能的真核N-糖基化序列的一部分^19,22。由于存在一组不断扩大的可通过糖工程化进行优化的潜在治疗性蛋白质靶标，包括不含典型N-X-S/T糖基化序列的蛋白质，因此显然需要工程化或发现能够修饰一组扩大的受体序列的NGT。这项工作的广泛目标是开发一系列能够糖基化任何目标序列的NGT，减轻改变靶蛋白用于天然存在的糖基化位点的一级氨基酸序列或引入新糖基化位置的需要。

基于传统定向进化的方法对于将酶活性工程化至单一底物是有效的，但还不适合开发显示多种功能(即，不同的肽特异性)的酶。Wells和合作者通过开发一种方法来解决这一限制，该方法通过使用液相色谱串联质谱(LC-MS/MS)蛋白质组学方法从大肠杆菌蛋白质组中鉴定修饰的底物来工程化肽连接酶²⁴。虽然蛋白质组学鉴定对连接酶和蛋白酶很有效²⁵，但很难应用于糖基化酶，因为糖肽的富集方法不可推广，底物肽长度的差异强烈影响糖基化效率¹⁹。此外，蛋白质组学鉴定提供了一些关于底物偏好的信息，但不直接测量活性。本发明人已经开发了一种称为用于基质辅助激光解吸/电离质谱的自组装单层(SAMDI-MS)的通用和多用途测定法，其可以快速和定量地测量大量底物上的酶特异性和活性，而无需纯化酶或底物^19,26,27。发明人最近将该方法与酶的无细胞蛋白质合成(CFPS)相组合，以创建GlycoSCORES工作流程，发明人将其用于分析几种NGT的特异性^19,22。

在此，本发明人公开了利用GlycoSCORES工作流程和来自PCR衍生的线性表达模板的高通量CFPS反应(LET-CFPS)²⁸来开发一组NGT，其显著扩大了可直接糖基化的序列范围。开发该组的并行工作流程依赖于两个关键步骤。首先，发明人在亲本NGT的26个位点饱和变体文库(SSVL)的池中筛选受体序列特异性。每个SSVL由在特定残基处的19个突变体组成，所述特定残基是基于NGT晶体结构和与底物肽的预期相互作用的检查而被靶向诱变的。通过在底物肽文库上筛选这些SSVL，本发明人分别鉴定了相对于糖基化的天冬酰胺在底物肽的X_-2、X_-1、X₊₁、X₊₂和X₊₃位置处决定特异性的残基。其次，本发明人产生并严格表征了精确的单或双突变体，它们共同扩大了与单独的亲本NGT相比可以有效修饰的典型(N-X-S/T，其中X≠P)和非典型(N-X-Z，其中X≠P和Z≠S/T)肽序列的集合。除了亲本NGT之外，本发明人发现了13个NGT突变体，其显著增加了所有X_-1和X₊₁典型序列组合(总共684个)的比例，这些组合可以以约45％至65％的产率进行高效修饰。另一组NGT允许修饰具有X₊₂位置(除S/T之外，17个氨基酸中的10个，例如Ala、Asp、Met和Val)的多种序列。此外，与亲本NGT相比，本发明人通过提高经批准的治疗性蛋白质的修饰效率，而不修饰其氨基酸序列，证明了NGT突变体组的效用。本发明人预期该方法将有助于开发具有改变的特异性的额外酶，并且本发明人预期在此发现的NGT突变体将显著扩大细菌和体外糖工程的应用领域。

B.结果

1.通过位点饱和文库筛选来鉴定特异性决定残基

为了开发一组突变NGT酶，其能够有效地修饰广泛的所定义蛋白质糖基化位点，发明人首先着手鉴定直接决定底物特异性的残基。虽然NGT复合物与底物的晶体结构可以提供这一信息，但来自胸膜肺炎放线杆菌(ApNGT)的NGT²⁹的已知晶体结构不提供受体肽的位置，仅显示UDP-Glc糖供体的尿嘧啶-二磷酸(UDP)部分。因此，有必要首先通过直接筛选酶突变体来鉴定决定特异性的残基。为此，本发明人选择了ApNGT的UDP结合口袋周围的26个残基进行诱变(图1a)。然后，本发明人使用先前报道的ApNGT的Q469A突变体(我们将该亲本突变体称为ApQ)^20,30作为起点(因为其对于肽底物的活性远高于野生型ApNGT)，为这些残基中的每一个订购了完全饱和的文库作为线性DNA。这些SSVL中的每一个含有DNA编码酶，所述酶为在26个靶向残基中的一个残基处具有19个非野生型氨基酸(由“X”表示)的近似相等的混合物。通过这种方式，本发明人将每个文库作为一个池而不是单个克隆进行测试，以确定对活性和肽特异性具有最大影响的残基。

本发明人对这些SSVL中的每一个进行PCR，并直接使用所得的线性表达模板(LET)来驱动CFPS中蛋白质SSVL的表达(图1b)。与ApQ相比，所有26个SSVL的表达水平相似(图14A-E)。所有26个蛋白质SSVL以及亲本ApQ直接用于具有基序X_-1-N-X₊₁-TRC的361个成员底物文库中每个肽的糖基化测定法，其中X_-1和X₊₁是19个氨基酸之一(Cys除外)。体外糖基化(IVG)后，肽和糖肽通过与C-末端半胱氨酸反应共价地下拉到马来酰亚胺官能化的自组装单层上，然后用SAMDI-MS分析肽修饰(修饰热图如图15所示)。

为了比较ApQ和每个SSVL之间的差异，本发明人首先计算了整个肽文库的平均活性。本发明人使用的肽底物浓度通常比大多数肽和NGT组合的K_M低10倍^19,20，并因此能够使用等式-ln(1-Y)＝k_cat/K_M*c*t来比较每个反应的近似k_cat/K_M，其中c是酶浓度，t是反应时间，Y是修饰的产率。本发明人转换了26个蛋白质SSVL的每个热图内的每个修饰数据点，以生成显示-ln(1-Y)的热图(图1b)，并然后获得了所有361个肽中每个SSVL近似的平均k_cat/K_M值。虽然这种定量方法不能为每种酶-底物组合提供精确的k_cat/K_M值(这样做需要对每种底物进行数十次单独的测量)，但它确实允许基于文库中每种肽底物的361个数据点来呈现和比较每种SSVL的平均k_cat/K_M的一个近似值。为了进行比较，然后将每个SSVL的平均k_cat/K_M针对ApQ的平均k_cat/K_M归一化(图1c，详见方法)。正如可以预期的，没有SSVL(测量为所有361个肽的平均值)显示出比亲本ApQ更大的活性。本发明人观察到，R177X、D215X、R281X和M440X SSVL具有最差的平均活性(相对于ApQ小于2％)，表明这些SSVL中没有个体突变体提供接近ApQ的活性，并且这些残基可能对ApQ的催化或底物(肽受体或糖供体)结合很重要。

接下来，为了确定在底物肽的每个位置处强烈影响特异性的残基，本发明人定量地比较了每个SSVL与ApQ的底物特异性差异。本发明人首先测量了不同浓度ApQ下X_-1-N-X₊₁-TRC肽文库的修饰，以生成具有平均-ln(1-Y)的不同水平的ApQ的一系列热图。通过这种方式，本发明人可以选择适当的热图，以便使用具有相同值的平均-ln(1-Y)的热图来比较ApQ和26个蛋白质SSVL中的每一个的肽选择性差异(图16)。然后，本发明人使用等式2*|Ave(X)-Ave(ApQ)|/(Ave(X)+Ave(ApQ))，从该X_-1氨基酸内所有19个肽的平均-ln(1-Y)值计算出相比于ApQ，每个SSVL的每个X_-1氨基酸(热图的每行)的百分比差异，其中Ave(X)和Ave(ApQ)分别是每个SSVL和ApQ的平均-ln(1-Y)。X_-1氨基酸行中所有19个百分比差异的平均值给出了X_-1位置的平均百分比差异(图1d)。本发明人进行了类似的分析，以确定每个SSVL的X₊₁位置的平均百分比差异(图1d)。ApQ和所有SSVL之间的平均百分比差异热图如图17所示。基于这些数据，本发明人得出结论，在决定酶对受体肽的X_-1位置的特异性方面发挥最强作用的残基从最强到最弱依次为：T438、A469、Y498、H214和I279。类似地，本发明人发现，对于X₊₁位置，残基A469、H214、R177、H219和T438对特异性的影响最大。本发明人发现，残基469在确定X_-1和X₊₁位置两者以及先前报道的UDP糖供体的酶特异性方面发挥了相对强大的作用^29、30。

在鉴定了在决定ApQ对受体肽的X_-1和X₊₁位置的多肽特异性方面发挥最强作用的残基之后，本发明人接下来进行了类似的实验，以鉴定影响对于X₊₂、X_-2和X₊₃位置的特异性的残基。在此，本发明人选择了ApQ优选的六个代表性X_-1-N-X₊₁-TRC肽序列，并产生了新的肽文库，该肽文库分别在X₊₂位置用其他18个氨基酸取代Thr，添加19个X_-2氨基酸，或插入19个X₊₃氨基酸(同样，在所有肽中排除Cys)。然后，本发明人筛选了对早期实验表明在特异性中具有重要作用的每个位置进行选择SSVL的特异性。本发明人发现，D215和R177对于决定X₊₂位置的特异性、H277对于决定X_-2和H214对于决定X₊₃位置的特异性是重要的(图18-20)。这些观察结果鉴定了与受体肽相互作用并决定其特异性的那些残基(如图21所示)；然而，他们并没有严格地确定相互作用是直接的。

2.筛选具有独特底物特异性的单个NGT突变体

在鉴定特异性决定残基后，本发明人试图筛选在这些残基处的个体突变体，以了解哪些肽序列优选作为底物。基于他们的分析，本发明人决定使用X_-1-N-X₊₁-TRC肽文库对26个SSVL中的三个(H219、T438和A469)内的每个突变体的活性进行去卷积(deconvolute)(图22-24)。本发明人首先通过线性DNA的环化和所得质粒的转化从SSVL中分离个体突变体(参见方法)。本发明人发现，每个个体变体的表达水平相似(图14A-E)。只有T438S显示平均糖基化活性的增加超过ApQ(图2a)，而T438D/E/K/R/W和H219R的活性最差(相对于ApQ小于0.1％)。T438处的突变体(根据筛选，T438可能是肽结合的重要残基)的活性在19个突变体中显著变化。本发明人还分析了针对这些个体突变体的肽选择性(图2b)。大多数T438突变体对X_-1位置表现出改变的特异性，对X₊₁位置几乎没有影响；然而，T438H显示出改变的X₊₁特异性和X_-1特异性的微小变化。大多数A469突变体对X_-1和X₊₁位置两者显示出不同的偏好。A469到F/H/P/R/Y的突变对X_-1特异性的影响更强，而到G/I/N/S的突变对X₊₁的影响更强。在H219突变体中，只有H219F/W强烈影响在X₊₁位置处的肽选择性。

每个突变体对在X_-1或X₊₁位置处氨基酸的不同选择性允许它们用于独特目的(例如，位点特异性修饰)(图2c)。例如，大多数T438突变体在X_-1处的其他氨基酸优先于Pro和Ala，而大多数A469突变体在X₊₁处的其他氨基酸优先于Ile和Met；H219F和H219W具有非常相似的肽特异性，并且表现出对在X₊₁处具有Asn和Asp的肽的偏好显著增加。本发明人还对每个残基处所有个体NGT突变体之间的特异性差异进行了成对比较，并发现许多突变体具有独特的偏好(图26)。

3.通过选择的NGT突变体来扩展符合糖基化条件的序列集

为了鉴定一组能够修饰受体序列复合集的突变体NGT，本发明人首先选择了来自其初始筛选的六种NGT(T438S、A469G、A469I、H219F和H219W，以及ApQ)。这组NGT组合提供了针对初始X_-1-N-X₊₁-TRC底物文库中最宽范围的肽的最高活性(基于每个肽-NGT组合计算的合适k_cat/K_M)。然后，本发明人在相同条件下(30℃下0.545μM NGT 3小时)对X_-1-N-X₊₁-TRC和X_-1-N-X₊₁-SRC形式的总共684个肽序列筛选了这些NGT的活性(图27-28)。这六个NGT均显示在X₊₂位置Ser的活性低于Thr。添加到组中的五个ApQ突变体显著地扩大了X_-1-N-X₊₁-S/T基序内的序列集，该序列集可以有效地糖基化(其中修饰大于80％)(17％，684个肽中的118个)。

然而，本发明人注意到，即使有这五个额外的ApQ突变体，对在X_-1位置处具有Lys或Arg的肽底物的糖基化仍具有挑战性。为了解决这一差距并进一步扩大允许的底物范围，本发明人测试了具有突变的酶，针对位于假设的X_-1结合位点附近的残基(图21)，并在SSVL筛选(T439、H495和P497)中显示出高活性(详情如图29A-C所示)。本发明人发现，T439E和一些单独的H495突变体(尤其是H495D)显示出对在X_-1位置处具有Lys或Arg的肽的显著增加的偏好(代表性突变体修饰完整X_-1-N-X₊₁-TRC底物文库的热图如图30所示)。为了进一步扩大优选序列的集合，本发明人还产生并筛选了组合上述鉴定的两个单一突变的双突变体。具体而言，本本发明人将H495D与在X₊₁位置处提供独特特异性的突变(A469G、A469I和H219F/W)相组合。本发明人还将H219F/W与在X_-1处提供独特特异性的突变(T438S和H495D)相组合(图31A-B)。

最后，发明人在相同的反应条件下组装并测试了14个选择的NGT(ApQ、H219F、H219W、T438S、T439E、A469G、A469I、H495D、H219F-T438S、H219F-H495D、H219W-T438S、H219W-H495D、A469G-H495D和A469I-H495D)的组，其包含全部或部分X_-1-N-X₊₁-TRC和X_-1-N-X₊₁-SRC肽文库(图27-29，31)。他们的目标是证明该NGT组能够使多种肽糖基化。本发明人观察到，与单独的ApQ相比，这些酶确实显著提高了684个典型X_-1-N-X₊₁-S/T糖基化序列中260个的最大修饰效率(图3a-b和图10-11)。具体而言，本发明人将修饰大于80％的肽的百分比从45％增加到66％(图3c-d)并且修饰大于5％的肽的百分比从80％增加到93％(图32)。

4.使用NGT突变体对经批准的治疗性蛋白质进行糖基化

作为原理的证明，本发明人接下来证明了上述开发的NGT突变体组的特异突变体对糖基化模型治疗性蛋白质的效用：干扰素γ(IFNγ)、粒细胞巨噬细胞集落刺激因子(GM-CSF)和人免疫球蛋白抗体(IgG1)的恒定区(Fc)。在肽水平上，发明人发现纯化的A469I突变体对IFNγ中的序列TNYS糖基化比ApQ更有效(图4a)。类似地，T438S糖基化GM-CSF的LNLS序列比ApQ更有效，并且H495D糖基化Fc的YNST序列比ApQ更有效(图4a)。然后，本发明人使用纯化的IFNγ和GM-CSF作为底物在蛋白质水平上证实了这些相对活性。糖基化后，用胰蛋白酶消化靶蛋白，并通过液相色谱四极飞行时间(LC-qTOF)质谱进行分析(图4b)。使用整合提取离子色谱图的面积百分比(面积％)进行的相对修饰表明，NGT突变体比ApQ更有效地实现糖基化(图4b)。本发明人还使用MS²来确认靶向肽的身份(图33A-C)。值得注意的是，折叠的完整蛋白质内的序列的糖基化效率低于那些作为游离肽的序列。使用Fc作为实例，本发明人表明，通过在CFPS反应开始时补充NGT以同时表达和糖基化底物蛋白，可以改善蛋白质的修饰。通过在CFPS反应中Fc表达之前而不是之后添加2μM ApQ，本发明人发现Fc的糖基化效率从15％增加到46％(图34A-B和图12)。在CFPS之前补充2μM H495D突变体而不是ApQ显著地增加Fc的修饰至60％或1.3倍(图4c和图12)。通过补充5μM的H495D，可以实现Fc的80％修饰(图34A-B)。总之，这些数据表明，具有典型糖基化序列N-X-S/T的天然氨基酸序列可以用我们高通量实验鉴定的突变NGT更有效地修饰。

5.将X₊₂选择性扩展到典型糖基化基序之外

到目前为止，靶蛋白的酶促N-糖基化需要典型的N-X-S/T糖基化基序，该基序要么自然存在，要么通过改变一级氨基酸序列引入。这一要求对推广蛋白质糖基化的酶提出了重大限制。然而，在不修饰一级氨基酸序列的情况下引入新的糖基化位点也可以通过工程化的NGT来实现，所述工程化的NGT具有超过典型糖基化基序N-X-S/T的序列偏好。因此，开发在X₊₂位置处不需要Ser或Thr的NGT将显著扩大适合糖基化的序列和蛋白质的范围。基于他们先前的特异性筛选和假设的肽结合残基(图18和21)，本发明人试图通过在(X_-1NX₊₁)X₊ ₂RC形式的肽文库中筛选R177和D215的所有个体突变体，来发现可以糖基化在X₊₂位置处不含Ser或Thr的肽的突变体(图35)。正如预期的那样，本发明人发现大多数突变体耐受在X₊₂位置处的S/T。然而，本发明人还发现，在X₊₂位置，R177个体突变体耐受A/R/P/V，D215个体突变体耐受A/D/E/V/I/L，ApQ耐受A/G(图5a)。D215G对X₊₂氨基酸表现出最广泛的杂合性，可以用A/M/D/V/I/L以相对较高的效率修饰序列，以及用G/Q/W/E/N/F/Y以中等效率修饰序列。有趣的是，本发明人发现D215F/I/L/V失去了其对在X₊₂处具有S/T的肽的偏好(图5b)。该信息可用于指导选择NGT突变体以靶向具有给定X₊₂氨基酸的序列(图5a)或选择性地靶向具有一个X₊₂氨基酸而非另一个的序列(图5b)。

最后，本发明人试图探索哪些非典型序列可能被他们新发现的R177和D215突变体所靶向，这些突变体针对X₊₂位置处表现出扩大的特异性。在之前的SSVL筛选中，D215X在X_-1和X₊₁特异性方面几乎没有变化。因此，D215X的X_-1-N-X₊₁-TRC筛选(图15)可用于近似所有D215突变体对X_-1和X₊₁组合的特异性。然而，本发明人还观察到R177X显著改变了对X_-1位置的酶选择性。因此，本发明人用X_-1-N-X₊₁-TRC筛选了所有R177突变体，以确定哪些X_-1和X₊₁组合可以与在X₊₂位置处的非S/T氨基酸一起使用(图36)。总体而言，本发明人发现在X₊₂位置处的10个非S/T氨基酸(A/G/M/R/D/E/P/V/I/L)可以在肽水平上以相对高的效率被修饰。然而，本发明人注意到，非典型序列的修饰仍然不如典型序列的修饰有效。需要对靶向非典型肽序列的NGT进行进一步的工程化或进化，以实现治疗性蛋白质中非典型序列的高效修饰。

C.讨论

在这项工作中，发明人提出了一种系统的方法来鉴定决定对肽底物的每个氨基酸位置的特异性的酶残基，并且本发明人使用这些位点作为起点来开发一组特异性不同的NGT，其能够修饰底物序列的独特集合。他们的高通量GlycoSCORES表征技术能够通过52,894个独立反应筛选123个个体NGT。据发明人所知，这是迄今为止完成的最详细的糖基转移酶工程化和表征工作，超过了现有技术的水平近四倍¹⁹。通过对工作流程的轻微调整，这种开发用于修饰整个底物文库的酶库的方法应适用于其他糖基转移酶¹⁹、蛋白酶²⁶、磷酸酶³¹、脱乙酰酶³²和其他酶^33,34。

两个关键特征使该方法变得重要。首先，严格的表征使得能够开发14个NGT的组，显著扩大了可用于细菌酶糖基化的序列集。在本发明人调查的典型真核糖基化基序(X_-1-N-X₊₁-S/T，其中X₊₁≠P)内的684个肽中，发现与ApQ相比，13个NGT突变体之一以显著更高的效率修饰了260个肽(图10-11)。这些变体将可以被NGT高效糖基化的序列的百分比从45％提高到66％(～0.5μM NGT和3h反应的修饰率超过80％)。通过从图32中报告的热图中鉴定最佳NGT，该扩大的NGT组允许目标序列的合理糖基化。本发明人成功地应用该策略以分别使用ApQ的A469I、T438S和H495D突变体来增加治疗性蛋白质IFNγ、GM-CSF和Fc的修饰。本发明人还开发了NGT，其可以糖基化甚至优选在X₊₂位置处具有非S/T氨基酸的典型N-X-S/T基序之外的序列。这一发现拓宽了糖工程化的范围，使研究人员能够研究如何使用聚糖来改善更多样组别的蛋白质的性质，而无需修饰其天然氨基酸序列。值得注意的是，在这项工作中发现的许多突变体具有非常不同的底物特异性，这可能通过顺序修饰在单个蛋白质的多个序列上实现糖基化结构的位点特异性控制²²，从而实现协同聚糖相互作用的精确工程化。

其次，这项工作很重要，因为它突出了高通量实验的重要性。虽然典型的定向进化工作流程导致能够执行单个反应的酶，但这种方法可用于开发具有多种性质的酶。事实上，GlycoSCORES(CFPS和SAMDI-MS的组合)实现的活性监测的并行方法产生了具有独特特异性的变体，其在许多不同底物上实现了活性模式，并为糖工程化提供了新的可能性。

虽然这项工作侧重于糖基化的起始步骤，但已经开发了许多酶和化学酶技术，以将NGT安装的单糖细化为类人或其他有用的聚糖。例如，使用内切糖苷酶和化学合成的噁唑啉供体的化学酶法可用于安装全长人聚糖^22,23。这些全长人聚糖可增加蛋白质的血清半衰期³⁵，或通过在人IgG4的Fc区上安装同质的N-聚糖来提供调节其他治疗效果的方法^4,12。还开发了将NGT安装的葡萄糖扩展到多种有用聚糖(包括聚唾液酸)的生物合成方法²¹。值得注意的是，人N-聚糖的还原性末端糖是N-乙酰氨基葡萄糖(GlcNAc)，而不是NGT安装的葡萄糖。这种差异对糖蛋白免疫原性和其他特性的影响尚不清楚，需要对每种应用进行评估。已经开发了使用ApQ安装N-葡糖胺(GlcN)和乙酰转移酶GlmA的两步方法³⁰，并且本发明人目前正在致力于发现可以更有效地转移GlcN、甚至GlcNAc的NGT突变体。例如，本发明人发现A469I和T438S可以比ApQ更有效地用GlcN修饰某些肽(图37)。在这项工作中发现的几个其他高活性突变体也可以用GlcN修饰肽(图37)。

尽管显著增加了可被糖基化的序列范围，但本发明人确实认识到围绕靶向的糖基化序列的蛋白质结构会影响修饰的效率。NGT通常在翻译后作用于折叠的蛋白质，因此被掩埋或刚性锁定在二级或三级结构中的位点可能不可被NGT所修饰。因此，一些靶标可能需要使用其他现有的糖基化方法，该糖基化方法使用低聚糖基转移酶(OST)。虽然OST是复杂的整体膜蛋白，并需要脂质连接的寡糖(LLO)底物，但它们能够在未折叠位点进行共翻译修饰^36,37。尽管最近努力工程化或发现具有扩大特异性的OST^38,39，但通常仍需要通过延伸或以其他方式改变靶蛋白的一级氨基酸序列来安装糖基化标签(GlycyTag)，以实现糖基化^17,40。因此，也迫切需要对OST进行类似于本文针对NGT进行的工作的全面工程化，以扩大允许使用OST进行修饰的序列集。

总之，本发明人通过使用LET-CFPS和SAMDI-MS在广泛的底物上并行生成和表征许多酶突变体，证明了高通量实验在工程化糖基转移酶方面的应用。使用该方法，本发明人开发了一组严格表征、易于表达、完全可溶的N-糖基化酶，其具有独特的活性，将作为糖工程化界的宝贵资源。本发明人预期，这组NGT将在蛋白质治疗剂的细菌或体外糖工程化中特别有用，因为它减轻了改变一级氨基酸序列以实现许多蛋白质治疗剂的糖基化的需要。最终，本发明人的方法有望促进对糖科学的基本理解，并实现糖工程化的新应用。

E.方法

1.肽文库合成和SAMDI筛选

如前所述，使用N-乙酰基和C-酰胺合成所有肽文库¹⁹。每个肽文库的平均浓度也如前所述进行确定¹⁹，以及平均相对电离因子(RIF)的计算。如前所述，制备SAMDI平板，并将其用于肽筛选¹⁹。

对于肽筛选，将50μM肽与指定浓度的NGT(在LET-CFPS中纯化或生产)以及在100mMHEPES(pH 8.0)和500mM NaCl中的2.5mM UDP-Glc于30℃反应指定时间。类似地，使用50μM肽和1.09μM NGT(在LET-CFPS中产生)以及在100mM HEPES(pH 8.0)和500mM NaCl中的2.5mM UDP GlcN(在Chemically Glycoscience中定制合成)于30℃进行12h来完成对肽的UDP-GlcN修饰的筛选。IVG反应后，加入TCEP树脂(Pierce)，并于37℃孵育1h。将这些还原的IVG的2μL溶液添加到384孔的马来酰亚胺官能化SAMDI平板的岛上并于室温孵育0.5h。由于在1-h TCEP还原和0.5-hSAMDI孵育步骤期间反应未被淬灭，因此本发明人将此时间近似为额外的1h反应，用于近似k_cat/K_M计算。然后用水、乙醇、水和乙醇洗涤SAMDI平板，然后用氮气流进行干燥。将在丙酮中的10mg/mL 2’,4’,6’-三羟基苯乙酮一水合物(THAP；SigmaAldrich)作为基质施加到SAMDI平板上。然后，使用AB SCIEX 5800TOF/TOF仪器，用基质辅助激光解吸电离飞行时间(MALDI-TOF)质谱法分析平板。光谱使用Applied BiosystemsSciEx Time of Flight Series Explorer软件4.1.0版进行处理。所有肽文库筛选均以n＝1完成。使用由相对电离因子(RIF)调整的光谱峰比来确定修饰效率¹⁹(图8)，除了UDP-GlcN的数据，其显示了糖肽(产物峰)与所有肽(底物和产物峰)的相对强度。

2.线性和质粒SSVL的合成。Twist Bioscience在卡那霉素抗性基因内开放的pJL1无细胞表达骨架的线性化形式内合成了ApQ SSVL的26个的线性DNA，从而使安装在5'和3'端的SapI限制性酶位点再环化将产生pJL1.ApQ。SSVL的质粒形式是通过使用有SapI限制酶的Golden Gate组装方法环化这些线性文库而产生的⁴¹。将30ng(6μl)的每个线性文库与1μl的每种10,000U/mL SapI限制酶、10mM ATP、10x CutSmart缓冲液和2,000,000 T4连接酶(所有产品均来自New England Biolabs)孵育。环化反应进行30个循环，于37℃进行1min，于16℃进行1min和随后于65℃进行5min。然后将完成的环化反应转化到DH5α电感受态细胞中，并铺板在LB(KAN+)上。所有平板均产生100多个菌落(确保文库覆盖率为5倍)。过夜生长后，用5mL的LB培养基洗涤这些LB(KAN+)平板，并进行小型制备以生成质粒文库。

3.从SSVL中分离单个NGT突变体

通过热激将选择的残基R177、D215、H219、T438、A469和H495的质粒SSVL转化到DH5α高效化学感受态细胞(New England Biolabs)中，然后在LB琼脂平板(KAN+)上孵育。从每个SSVL转化中挑选50多个克隆，在LB(KAN+)培养基中培养，进行小型制备并测序，以分离所有19个个体突变体。

4.单突变体和双突变体的构建

使用先前报道的pJL1.ApQ模板的单位点PCR诱变产生ApQ的单突变体⁴²。简而言之，进行了25μL PCR反应，其包含12.5μL Q5热启动高保真2x主混合物(New EnglandBiolabs)、1ng模板、500nM引物对。用于这些PCR的引物和Tm温度如图13所示。PCR于98℃启动30s；随后是15个循环：于98℃进行10秒、Tm₂进行30秒和72℃进行2min；于Tm₁进行1min和于72℃进行4min以结束。PCR后，加入2.5μL 10x CutSmart缓冲液和0.5μL DpnI(NewEngland Biolabs)，并于37℃孵育2h。使用琼脂糖凝胶电泳确认产生全长PCR产物(～3.5kb)。PCR溶液(经DpnI处理后)通过热激转化DH5α高效化学感受态细胞中，并铺板在LB琼脂平板(KAN+)上。每个平板的两个克隆被挑取、培养、小型制备和测序。除了使用单个突变体作为初始质粒模板外，类似地产生了双突变体。

5.LET-CFPS

如前所述使用源自大肠杆菌菌株BL21 Star(DE3)的粗制裂解物进行CFPS反应^22,43，其中使用PCR产生的线性DNA表达模板而非质粒²⁸。如前所述通过BL21 Star(DE3)大肠杆菌细胞的生长、收获和裂解来制备CFPS的粗制裂解物⁴³，其中使用总能量输入为640J，用于裂解1mL细胞悬浮液。LET-CFPS反应在含有1.2mM ATP(pH 7.2)，0.85mM GTP、UTP和CTP(pH 7.2)；34μg/mL亚叶酸；171μg/mL大肠杆菌-tRNA混合物；2mM的20个标准氨基酸；0.33mM烟酰胺腺嘌呤二核苷酸(NAD)；0.27mM辅酶A(CoA)；1.5mM精胺；1mM腐胺；4mM草酸钠；130mM谷氨酸钾；10mM谷氨酸铵；8mM谷氨酸镁；57mM HEPES(pH 7.2)；33mM磷酸烯醇式丙酮酸盐(PEP，pH 7)；20％v/v NGT线性模板；以及27％v/v的BL21粗提取物的2.0mL离心管内以50μL进行。在PCR反应中生成NGT线性模板，并直接使用，无需纯化。60μL PCR反应包含30μL Q5热启动高保真2x主混合物、1.2ng模板(由Twist合成的线性SSVL或单个突变质粒)、500nM引物对(ccaccctgactgagtgagcgttc和gcagttcattgatgctcgatg)。PCR于98℃启动30s；然后是36个循环：于98℃进行10s、于65℃进行30s和于72℃进行1min；于72进行2min来结束。除来自菌株MRE600和PEP(Roche Applied Science)的大肠杆菌总tRNA混合物外，CFPS中使用的所有试剂均购自Sigma-Aldrich。所有CFPS反应均于22℃进行20h。反应后，向CFPS溶液中加入1:1v/v的2x Roche完全蛋白酶抑制剂混合物和5mM EDTA，将溶液在液氮中快速冷冻，并储存于-80℃以备将来使用。

6.肽文库X_-1-N-X₊₁-TRC的近似k_cat/K_M计算

根据先前的研究，ApNGT的X_-2-X_-1-N-X₊₁-T-X₊₃-RC形式的优化肽的K_M大于0.5mM¹⁹，并且长肽底物通常表现出比短肽更低的K_M值²⁰。先前的报告还发现，与ApNGT相比，ApQ的K_M相差约1.5倍²⁰。基于这些发现，本发明人使用的肽浓度(50μM)远小于本研究中使用的NGT变体的K_M。因此，本发明人使用方程k_cat/K_M＝-ln(1-Y)/c/t来近似k_cat/K_M的值，其中Y是肽的修饰，c是所用酶的浓度，并且t是糖基化的反应时间。从修饰热图产生热图，显示了-ln(1-Y)的值，其与肽的k_cat/K_M、c(NGT)和t成正比。

虽然近似，但这一计算使我们能够比较所有肽-酶组合的活性，其反应比严格确定k_cat/K_M值所需的反应少10倍以上。本发明人还注意到，来自361个条件的完整文库的平均k_cat/K_M值将比单个k_cat/K_M近似值更准确。本发明人使用平均k_cat/K_M来比较不同酶浓度和反应时间下每个突变体或SSVL之间的活性。由于表观平均k_cat/K_M受平均-ln(1-Y)值的影响(图16A-D)，突变体的相对平均k_cat/K_M与产生相同平均-ln(1-Y)值的ApQ筛选进行比较。通过计算每个肽-NGT组合的近似k_cat/K_M并选择提供最高值的NGT突变体，确定了为全套典型真核糖基化序列(X_-1-N-X₊₁-T/S-RC)的糖基化选择的最佳NGT(图27-28)。选择的NGT(包括ApQ)在相同条件下进行筛选。具体而言，在LET-CFPS中产生0.545μM NGT，并于30℃孵育3h前与2.5mM UDP-Glc和50μM肽组合。

7.SSVL或单个突变体与ApQ之间的平均百分比差异分析

为了作为比较SSVL或单个突变体的特异性与ApQ的特异性的参考，在使用不同量ApQ进行IVG后，分析了几个X_-1-N-X₊₁-TRC热图，产生了具有不同-ln(1-Y)平均值的热图，其中Y是修饰。使用这些ApQ参考热图中的两个之间的线性插值，生成了具有与给定SSVL或单个突变体的测量热图相同的平均-ln(1-Y)的理论ApQ热图(图16A-D中的参考ApQ热图和计算过程描述)。然后，本发明人使用方程2*|Ave(X)-Ave(ApQ)|/(Ave(X)+Ave(ApQ))计算了理论ApQ热图中具有给定X_-1氨基酸泳道的所有19个肽的-ln(1-Y)值的平均值(定义为Ave(ApQ))与测量突变体热图中的具有给定X_-1氨基酸泳道的所有19个肽的-ln(1-Y)值的平均值(定义为Ave(X))。并且，所有19个X_-1氨基酸行的百分比差异平均值提供X_-1的平均百分比差异。相似地计算X₊₁平均百分比差异值。整个X_-1-N-X₊₁-TRC文库的平均百分比差异是所有X_-1和X₊₁泳道的平均百分比差异的平均值。该计算方法用于生成图1A-D、-2A-C和图16A-D所示的平均百分比差异。

8.通过平均百分比差异对SSVL和单个突变体特异性进行组合比较

为了比较单个突变体或SSVL彼此之间的特异性，本发明人根据每个突变体与ApQ的平均百分比差异计算了任意两个突变体之间的平均百分比差异。每个X_-1或X₊₁泳道的2*(Ave(X)-Ave(ApQ))/(Ave(X)+Ave(ApQ))的数值，而不是绝对值，如上所述针对每个突变体进行计算，并定义为突变体1的PD1和突变体2的PD₂。然后使用方程|PD₁-PD₂|/(1-PD₁*PD₂)计算每个X_-1或X₊₁泳道处突变体1和2之间的百分比差异。使用该方法，本发明人分别计算了X_-1、X₊₁或整个文库的每个残基处所有SSVL或分离的突变体之间的平均百分比差异。该计算基于这样的假设：当从具有不同-ln(1-Y)平均值的热图进行确定时，两个NGT之间的每个X_-1和X₊₁泳道的百分比差异保持不变。该计算方法用于生成图17和26中的平均百分比差异。

9.ApQ和突变质粒的构建、在大肠杆菌中的表达和纯化

ApQ突变体构建体在pET21b载体中产生，用于体内表达和纯化。对pJL1载体中的体外构建体，以与上述相同的方式进行诱变。所用的引物和Tm如图13所示。NGT如前所述进行了纯化，并进行了少量修饰¹⁹。简言之，通过热激，用pET21b.ApQ或突变质粒转化BL21Star(DE3)化学感受态细胞。在LB(CARB+)培养基中接种过夜培养物。新鲜LB(CARB+)以初始OD600＝0.08接种，细胞于37℃、在250rpm下生长至0.6–0.8OD，并于30℃用1mM异丙基β-d-1-硫代吡喃半乳糖苷(IPTG)诱导6h。通过于4℃以5000×g离心10min将细胞成团，再悬浮于缓冲液3(20mM Tris-HCl和250mM NaCl，pH 8.0)中，通过于4℃以8000×g离心10min再次成团，并于-80℃快速冷冻。然后将团粒解冻并以每克湿团粒重量5mL缓冲液3重新悬浮在缓冲液3中，并补充1mg/mL溶菌酶(Sigma)、1μL苯并酶(benzonase，Millipore)和1×Halt蛋白酶抑制剂(Thermo Fisher Scientific)。然后通过在21,000psig(Avestin)下的单通匀浆化裂解细胞，并于4℃以13000×g离心20min。向上清液中加入咪唑至终浓度为20mM。将上清液施加到1mL Ni-NTA琼脂糖树脂(Qiagen)中(树脂用含有20mM咪唑的缓冲液3进行平衡)。1-h孵育后，用5个柱体积的含有20mM咪唑的缓冲液3洗涤树脂一次，用5个柱体积的含有30mM咪唑的缓冲液3洗涤两次，再用5个柱体积的含有40mM咪唑的缓冲液3洗涤一次。用1个柱体积的含有500mM咪唑的缓冲液3中洗脱蛋白质。洗脱液针对50mM HEPES、200mM NaCl、pH 7.0进行透析，并于-80℃快速冷冻。使用以下参数用NanoDrop UV-Vis分光光度计(ThermoFisher)定量蛋白质浓度：分子量：71502.50Da，消光系数：63260M^-1cm^-1。

10.胰蛋白酶化糖肽的体外蛋白质糖基化和LC-qTOF分析。

10μM IFNγ(Millipore)或GM-CSF(R&D Systems)与缓冲液1(50mM NaH₂PO₄(pH 8)和300mM NaCl)中的5μM纯化ApQ或突变体和5mM UDP-Glc反应。反应于30℃进行12h。反应后，将10μL溶液稀释至30μL，并于室温用Pierce 96孔微透析平板(3.5k MWCO)针对1:4稀释的缓冲液1进行透析8h。将1μL 0.5mg/mL胰蛋白酶(Pierce，在1mM HCl中)加入透析的溶液中，并于37℃孵育16h。向反应物中加入1μL的0.25mM DTT，然后在冰上静置1h。如前所述分析胰蛋白酶化糖肽²²。简言之，将5-10μL胰蛋白酶消化的样品注入配备ACQUITY UPLC肽BEHC18柱的Bruker Elute UPLC系统，C18柱为

1.7μm，2.1mm X 100mm(WatersCorporation的186003686)，带有10mm保护柱(186004629Waters Corporation)，连接到Impact-II UHR TOF质谱仪(Bruker Daltonics,Inc.)。色谱分离方法使用100％水和0.1％甲酸作为溶剂A，100％乙腈和0.1％甲酸作为溶剂B。使用100％A进行1min，0％至50％B的梯度进行4min来完成色谱。流速保持在0.5mL/min。以8Hz收集100～3000Da范围内的质谱。对所有光谱进行了外部校准。本发明人使用MS/MS以监测碰撞能量为50eV的靶肽和糖肽(图33A-C所示的光谱)。Bruker Compass数据分析软件4.1版用于分析数据。将靶肽和糖肽质量的提取离子色谱图中的目标峰进行积分，以使用％面积、面积(P)/(面积(S)+面积(P))计算修饰。结果如图12所示。

11.LET-CFPS蛋白表达和糖基化

pJL1.Fc以与NGT相同的方式在LET-CFPS中表达，添加2或5μM纯化的ApQ或H495D突变体和5mM UDP-Glc。于30℃的6-h CFPS孵育后，将70μL缓冲液1(含有5mM咪唑)加入50μLCFPS溶液中。反应物于4℃以12000xg离心15min，上清液与30μL His Dynabeads(Invitrogen)混合用于10-min孵育。珠粒用120μL缓冲液1(含有5mM咪唑)洗涤三次，并用80μL缓冲液1(含有500mM咪唑)进行洗脱。洗脱溶液用Pierce 96孔微透析板(3.5k MWCO)于室温针对1:4稀释的缓冲液1透析8h。将1μL 0.5mg/mL胰蛋白酶(Pierce，在1mM HCl中)加入40μL透析溶液中，并于37℃孵育16h。向反应中加入1μL 0.25mM DTT，然后将其置于冰上1h。如上所述进行LC-qTOF分析。

当注意到Fc的糖基化在CFPS(折叠后)后完成时，Fc在LET-CFPS中在30℃和20-h孵育进行表达，然后离心并补充2μM纯化的ApQ和5mM UDP-Glc。然后将该IVG反应于30℃孵育6h。如上所述进行这些反应物的纯化、透析、胰蛋白酶化和LC-qTOF分析。

12.t检验和数据分析

双尾学生t检验和所得p值在Microsoft Excel 2016中计算。对于所有肽文库筛选，仅使用n＝1个实验。对于靶蛋白序列的肽IVG，进行n＝3个独立反应。对于治疗性蛋白质修饰，如点图所示，进行n＝2或n＝3个独立反应。在n>1的数据分析中，给出了平均值，并且标准偏差(s.d.)显示为误差条。所有热图均在Microsoft Excel 2016中生成。

E.参考文献

1.Khoury,G.A.,Baliban,R.C.&Floudas,C.A.Proteome-wide post-translational modification statistics:Frequency analysis and curation of theswiss-prot database.Sci.Rep.1,90(2011).

2.Schwarz,F.&Aebi,M.Mechanisms and principles of n-linked protein glycosylation.Curr.Opin.Struc.Biol.21,576-582(2011).

3.Sethuraman,N.&Stadheim,T.A.Challenges in therapeutic glycoproteinproduction.Curr.Opin.Biotech.17,341-346(2006).

4.Li,T.et al.Modulating igg effector function by fc glycan engineering.Proc.Natl.Acad.Sci.U.S.A.114,3485-3490(2017).

5.Murakami,M.et al.Chemical synthesis of erythropoietin glycoformsfor insights into the relationship between glycosylation pattern andbioactivity.Sci.Adv.2,e1500678(2016).

6.Mimura,Y.et al.The influence of glycosylation on the thermalstability and effector function expression of human igg1-fc:Properties of aseries of truncated glycoforms.Mol.Immunol.37,697-706(2000).

7.Wissing,S.et al.Expression of glycoproteins with excellentglycosylation profile and serum half-life in cap-go cells.BMC Proc.9,P12(2015).

8.Elliott,S.et al.Enhancement of therapeutic protein in vivoactivities through glycoengineering.Nat.Biotechnol.21,414-421(2003).

9.Perlman,S.et al.Glycosylation of an n-terminal extension prolongsthe half-life and increases the in vivo activity of follicle stimulating hormone.J.Clin.Endocrinol.Metab.88,3227-3235(2003).

10.Valderrama-Rincon,J.D.et al.An engineered eukaryotic proteinglycosylation pathway in escherichia coli.Nat.Chem.Biol.8,434-436(2012).

11.Keys,T.G.&Aebi,M.Engineering protein glycosylation in prokaryotes.Curr.Opin.Syst.Biol.5,23-31(2017).

12.Lin,C.-W.et al.Acommon glycan structure on immunoglobulin g forenhancement of effector functions.Proc.Natl.Acad.Sci.U.S.A.112,10611-10616(2015).

13.Wang,L.-X.&Amin,M.N.Chemical and chemoenzymatic synthesis ofglycoproteins for deciphering functions.Chem.Biol.21,51-66(2014).

14.Jaroentomeechai,T.et al.Single-pot glycoprotein biosynthesis usinga cell-free transcription-translation system enriched with glycosylationmachinery.Nat.Commun.9,2686(2018).

15.Schwarz,F.et al.Acombined method for producing homogeneousglycoproteins with eukaryotic n-glycosylation.Nat.Chem.Biol.6,264-266(2010).

16.Guarino,C.&DeLisa,M.P.A prokaryote-based cell-free translationsystem that efficiently synthesizes glycoproteins.Glycobiology 22,596-601(2012).

17.Schoborg,J.A.et al.A cell-free platform for rapid synthesis andtesting of active oligosaccharyltransferases.Biotechnol.Bioeng.,739-750(2018).

18.Wacker,M.et al.N-linked glycosylation in campylobacter jejuni andits functional transfer into e.Coli.Science 298,1790-1793(2002).

19.Kightlinger,W.et al.Design of glycosylation sites by rapidsynthesis and analysis of glycosyltransferases.Nat.Chem.Biol.14,627-635(2018).

20.Song,Q.et al.Production of homogeneous glycoprotein with multisitemodifications by an engineered n-glycosyltransferase mutant.J.Biol.Chem.292,8856-8863(2017).

21.Keys,T.G.et al.A biosynthetic route for polysialylating proteinsin escherichia coli.Metab.Eng.44,293-301(2017).

22.Lin,L.,Kightlinger,W.,Hockenberry,A.J.,Jewett,M.C.&Mrksich,M.Sequential glycosylation of proteins with substrate-specificn-glycosyltransferases.ACS Cent.Sci.In revision(2019).

23.Lomino,J.V.et al.A two-step enzymatic glycosylation ofpolypeptides with complex n-glycans.Bioorg.Med.Chem.21,2262-2270(2013).

24.Weeks,A.M.&Wells,J.A.Engineering peptide ligase specificity byproteomic identification of ligation sites.Nat.Chem.Biol.14,50-57(2018).

25.Schilling,O.&Overall,C.M.Proteome-derived,database-searchablepeptide libraries for identifying protease cleavage sites.Nat.Biotechnol.26,685-694(2008).

26.Wood,S.E.et al.A bottom-up proteomic approach to identifysubstrate specificity of outer-membrane protease ompt.Angew.Chem.Int.Ed.129,16758-16762(2017).

27.Gurard-Levin,Z.A.,Kim,J.&Mrksich,M.Combining mass spectrometry andpeptide arrays to profile the specificities of histonedeacetylases.ChemBioChem 10,2159-2161(2009).

28.Schinn,S.M.,Broadbent,A.,Bradley,W.T.&Bundy,B.C.Protein synthesisdirectly from pcr:Progress and applications of cell-free protein synthesiswith linear DNA.New Biotechnol.33,480-487(2016).

29.Kawai,F.et al.Structural insights into the glycosyltransferaseactivity of the actinobacillus pleuropneumoniae hmw1c-likeprotein.J.Biol.Chem.286,38546-38557(2011).

30.Xu,Y.et al.A novel enzymatic method for synthesis of glycopeptidescarrying natural eukaryotic n-glycans.Chem.Commun.53,9075-9077(2017).

31.Szymczak,L.C.,Huang,C.F.,Berns,E.J.&Mrksich,M.Combining samdi massspectrometry and peptide arrays to profile phosphatase activities.MethodsEnzymol.607,389-403(2018).

32.Kuo,H.Y.,DeLuca,T.A.,Miller,W.M.&Mrksich,M.Profiling deacetylaseactivities in cell lysates with peptide arrays and samdi massspectrometry.Anal.Chem.85,10635-10642(2013).

33.Kornacki,J.R.,Stuparu,A.D.&Mrksich,M.Acetyltransferase p300/cbpassociated factor(pcaf)regulates crosstalk-dependent acetylation of histoneh3 by distal site recognition.ACS Chem.Biol.10,157-164(2015).

34.Houseman,B.T.,Huh,J.H.,Kron,S.J.&Mrksich,M.Peptide chips for thequantitative evaluation of protein kinase activity.Nat.Biotechnol.20,270-274(2002).

35.Kontermann,R.E.Strategies for extended serum half-life of proteintherapeutics.Curr.Opin.Biotech.22,868-876(2011).

36.Wild,R.et al.Structure of the yeast oligosaccharyltransferasecomplex gives insight into eukaryotic n-glycosylation.Science,545-550(2018).

37.Lizak,C.,Gerber,S.,Numao,S.,Aebi,M.&Locher,K.P.X-ray structure ofa bacterial oligosaccharyltransferase.Nature 474,350-355(2011).

38.Ollis,A.A.et al.Substitute sweeteners:Diverse bacterialoligosaccharyltransferases with unique n-glycosylation sitepreferences.Sci.Rep.5,15237(2015).

39.Ollis,A.A.,Zhang,S.,Fisher,A.C.&DeLisa,M.P.Engineeredoligosaccharyltransferases with greatly relaxed acceptor-sitespecificity.Nat.Chem.Biol.10,816-822(2014).

40.Fisher,A.C.et al.Production of secretory and extracellular n-linked glycoproteins in escherichia coli.Appl.Environ.Microbiol.77,871-881(2011).

41.Engler,C.,Kandzia,R.&Marillonnet,S.A one pot,one step,precisioncloning method with high throughput capability.PLoS ONE 3,e3647(2008).

42.Liu,H.&Naismith,J.H.An efficient one-step site-directed deletion,insertion,single and multiple-site plasmid mutagenesis protocol.BMCBiotechnol.8,91(2008).

43.Kwon,Y.-C.&Jewett,M.C.High-throughput preparation methods of crudeextract for robust cell-free protein synthesis.Sci.Rep.5,8663(2015)。

其他参考文献

Lin,L.,Kightlinger,W.,Hockenberry,A.J.,Jewett,M.C.&Mrksich,M.Sequential glycosylation of proteins with substrate-specific n-glycosyltransferases.ACS Cent.Sci.In revision(2019).

Kawai,F.et al.Structural insights into the glycosyltransferaseactivity of the actinobacillus pleuropneumoniae hmw1c-likeprotein.J.Biol.Chem.286,38546-38557(2011).

Naegeli,A.et al.Substrate Specificity of Cytoplasmic N-Glycosyltransferase.Journal of Biological Chemistry 289,24521-24532(2014).

Naegeli,A.et al.Molecular analysis of an alternative N-glycosylationmachinery by functional transfer from Actinobacillus pleuropneumoniae toEscherichia coli.The Journal of biological chemistry 289,2170-2179(2014).

Cuccui,J.et al.The N-linking glycosylation system from Actinobacilluspleuropneumoniae is required for adhesion and has potential use inglycoengineering.Open biology 7(2017).

Song,Q.et al.Production of homogeneous glycoprotein with multi-sitemodifications by an engineered N-glycosyltransferase mutant.Journal ofBiological Chemistry(2017).

Schwarz,F.,Fan,Y.-Y.,Schubert,M.&Aebi,M.Cytoplasmic N-Glycosyltransferase of Actinobacillus pleuropneumoniae Is an Inverting Enzymeand Recognizes the NX(S/T)Consensus Sequence.Journal of Biological Chemistry286,35267-35274(2011).

Kightlinger,W.et al.Design of glycosylation sites by rapid synthesisand analysis of glycosyltransferases.Nat.Chem.Biol.14,627-635(2018).

Keys,T.G.et al.A biosynthetic route for polysialylating proteins inescherichia coli.Metab.Eng.44,293-301(2017).

Tytgat,H.L.P.,Lin,C.,Levasseur,M.D.et al.Cytoplasmic glycoengineeringenables biosynthesis of nanoscale glycoprotein assemblies.Nat Commun 10,5403(2019).

Ban,L.et al.Discovery of glycosyltransferases using carbohydratearrays and mass spectrometry.Nature chemical biology 8,769-773(2012).

Laurent,N.,et al.(2008)."Enzymatic Glycosylation of Peptide Arrays onGold Surfaces."Chembiochem 9(6):883-887.

Guarino,C.,&DeLisa,M.P.(2012).A prokaryote-based cell-freetranslation system that efficiently synthesizes glycoproteins.Glycobiology,22(5),596-601.

Schoborg,J.A.et al.A cell-free platform for rapid synthesis andtesting of active oligosaccharyltransferases.Biotechnol.Bioeng.,739-750(2018).

Jaroentomeechai,T.et al.Single-pot glycoprotein biosynthesis using acell-free transcription-translation system enriched with glycosylationmachinery.Nat.Commun.9,2686(2018).

Ollis,Anne A et al.“Engineered oligosaccharyltransferases withgreatly relaxed acceptor-site specificity.”Nature chemical biology vol.10,10(2014):816-22.doi:10.1038/nchembio.1609.

Ollis,A.A.；Chai,Y.；Natarajan,A.；Perregaux,E.；Jaroentomeechai,T.；Guarino,C.；Smith,J.；Zhang,S.；DeLisa,M.P.,Substitute sweeteners:diversebacterial oligosaccharyltransferases with unique N-glycosylation sitepreferences.Scientific reports 2015,5,15237.

van Kasteren,S.I.；Kramer,H.B.；Gamblin,D.P.；Davis,B.G.,Site-selectiveglycosylation of proteins:Creating synthetic glycoproteins.Nat.Protoc.2007,2(12),3185-3194.

van Kasteren,S.I.；Kramer,H.B.；Jensen,H.H.；Campbell,S.J.；Kirkpatrick,J.；Oldham,N.J.；Anthony,D.C.；Davis,B.G.,Expanding the diversity of chemicalprotein modification allows post-translational mimicry.Nature 2007,446(7139),1105-1109.

Wright,T.H.；Bower,B.J.；Chalker,J.M.；Bernardes,G.J.；Wiewiora,R.；Ng,W.L.；Raj,R.；Faulkner,S.；Vallee,M.R.；Phanumartwiwath,A.；Coleman,O.D.；Thezenas,M.L.；Khan,M.；Galan,S.R.；Lercher,L.；Schombs,M.W.；Gerstberger,S.；Palm-Espling,M.E.；Baldwin,A.J.；Kessler,B.M.；Claridge,T.D.；Mohammed,S.；Davis,B.G.,Posttranslational mutagenesis:A chemical strategy for exploring protein side-chain diversity.Science 2016,354(6312),aag1465.

Yang,Q.；An,Y.；Zhu,S.；Zhang,R.；Loke,C.M.；Cipollo,J.F.；Wang,L.-X.,Glycan Remodeling of Human Erythropoietin(EPO)Through Combined Mammalian CellEngineering and Chemoenzymatic Transglycosylation.ACS Chemical Biology 2017,12(6),1665-1673.

Giddens,J.P.；Lomino,J.V.；DiLillo,D.J.；Ravetch,J.V.；Wang,L.-X.,Site-selective chemoenzymatic glycoengineering of Fab and Fc glycans of atherapeutic antibody.Proceedings of the National Academy of Sciences 2018,115(47),12023-12027.

专利参考：US20140194345A1,US20180354997A1,CN 201610012793,US8703471,US8999668,US20050170452,US20060211085,US20060234345,US20060252672,US20060257399,US20060286637,US20070026485,US20070178551,WO2003056914A1,WO2004035605A2,WO2006102652A2,WO2006119987A2,WO2007120932A2。

在上述描述中，本领域技术人员很容易理解，在不脱离本发明的范围和精神的情况下，可以对本文公开的发明进行各种替换和修改。本文中说明性描述的本发明可以在不存在本文中未具体公开的任何一个或多个元素或限制的情况下适当地实践。已经使用的术语和表达被用作描述的术语而非限制性的术语，并且在使用这些术语和表达时无意排除所示出和描述的特征或其部分的任何等价物，但是应当认识到，在本发明的范围内可以进行各种修改。因此，应当理解，虽然本发明已经通过特定实施方案和可选特征来说明，但是本领域技术人员可以采用本文公开的概念的修改和/或变化，并且这种修改和变化被认为在本发明的范围内。

本文中描述的所有方法都可以以任何合适的顺序执行，除非本文中另有说明或上下文中另有明确矛盾。本文中提供的任何和所有示例的应用仅旨在更好地说明本发明，并且除非另有要求，否则不对本发明的范围构成限制。说明书中的任何语言都不应被解释为将任何未要求保护的元素指示为本发明的实践所必需的。

本文引用了许多专利和非专利参考文献。引用的参考文献通过引用全部并入本文。如果与引用的参考文献中的术语定义相比，说明书中的术语的定义不一致，则应根据说明书中的定义来解释该术语。

Claims

1.一种修饰的N-糖基转移酶(NGT)，其选自下组或其同源物：

(i)在氨基酸位置F39、R177、H214、D215、M218、H219、Y222、H272、H277、S278、I279、R281、M349、G370、H371、T438、T439、M440、K441、A469(Q469)、H495、P497、Y498、F517、N521和D525处包含一个或多个取代的放线杆菌属物种(Actinobacillus spp.)(任选地修饰的SEQID NO:1的胸膜肺炎放线杆菌(Actinobacillus pleuropneumoniae)的NGT)；

(ii)在氨基酸位置F42、R181、H218、D219、M222、H219、Y223、H276、H281、S282、I283、R285、M354、G375、H376、T443、T444、M445、K446、A474(Q474)、H500、P502、Y503、F522、N526和D530处包含一个或多个取代的金氏菌属物种(Kingella spp.)(任选地修饰的SEQ ID NO:2的金氏金格杆菌(Kingella kingae)的NGT)；

(iii)在氨基酸位置F68、R204、H241、D242、M245、H246、Y249、H298、H303、S304、I305、R307、M375、G396、H397、T464、T465、M466、K467、A495(Q495)、H521、P523、Y524、F543、N547和D551处包含一个或多个取代的嗜血杆菌属物种(Haemophilus spp.)(任选地修饰的SEQ IDNO:3的肺炎嗜血杆菌(Haemophilus pneumoniae)的NGT)；

(iv)在氨基酸位置F39、R177、H214、D215、M218、H219、Y222、H270、H275、S276、I277、R279、M348、G369、H370、T437、T438、M439、K440、A468(Q468)、H494、P496、Y497、F516、N520和D524处包含一个或多个取代的聚集杆菌属物种(Aggregatibacter spp.)(任选地修饰的SEQ IDNO:4的嗜沫聚集杆菌(Aggregatibacter aphrophilus)的NGT)；

(v)在氨基酸位置F39、R177、H214、D215、M218、H219、Y222、H272、H277、S278、I279、R281、M349、G370、H371、T438、T439、M440、K441、A469(Q469)、H495、P497、Y498、F517、N521和D525处包含一个或多个取代的曼氏杆菌属物种(Mannheimia spp.)(任选地修饰的SEQ IDNO:5的溶血性曼氏杆菌(Mannheimia haemolytica)的NGT)；

(vi)在氨基酸位置F40、R180、H217、D218、M221、H222、Y225、H274、H279、S280、I281、R283、M351、G372、H373、T440、T441、M442、K443、A471(Q471)、H497、P499、Y500、F519、N523和D527处包含一个或多个取代的百伯史坦菌属物种(Bibersteinia spp.)(任选地修饰的SEQIDNO:6的海藻百伯史坦菌(Bibersteinia trehalosi)的NGT)；和

(vii)在氨基酸位置F38、R176、H213、D214、M217、H218、Y221、H271、H276、S277、I278、R280、M348、G369、H370、T437、T438、M439、K440、A468(Q468)、H494、P496、Y497、F516、N520和D524处包含一个或多个取代的嗜血杆菌属物种(任选地修饰的SEQ ID NO:7的杜克雷嗜血杆菌(Haemophilus ducreyi)的NGT)。

2.权利要求1所述的修饰的NGT，其中参考SEQ ID NO:1，氨基酸取代位于选自由H219、T438、A696和H495或其同源位置组成的组的一个或多个位置。

3.权利要求1所述的修饰的NGT，其中参考SEQ ID NO:1，氨基酸取代位于选自由以下组成的组的一个或多个位置：H219F或H219W；T438S或T438E；A696G或A696I；和H495D或其同源位置。

4.权利要求1所述的修饰的NGT，其中野生型NGT包含SEQ ID NO:1-7中的任何一个，并且参考SEQ ID NO:1，修饰的NGT在选自由以下组成的组的位置处包含至少一个取代突变：H219F、H219W、T438S、T439E、A469G、A469I、H495D、H219F-T438S、H219F-H495D、H219W-T438S、H219W-H495D、A469G-H495D和A469I-H495D或其同源位置；其中H219F-T438S、H219F-H495D、H219W-T438S、H219W-H495D、A469G-H495D和A469I-H495D是两个取代突变的组合。

5.权利要求1所述的修饰的NGT，其中与相同反应条件下的未修饰的NGT相比，修饰的NGT糖基化更广泛的受体肽序列。

6.权利要求1所述的修饰的NGT，其中与相同反应条件下的未修饰的NGT相比，修饰的NGT对更广泛的受体肽序列具有亲和力。

7.权利要求1所述的修饰的NGT，其中受体肽序列包含氨基酸序列[X_-2-]-[X_-1-]-[N]-[X₊₁]-[X₊₁]-[X₊₂]-[X₊₃]，其中X是任何典型氨基酸，并且任选地其中[X₊₁]不是P。

8.权利要求1所述的修饰的NGT，其中受体肽序列包含氨基酸序列[X_-2]-[X_-1-]-[N]-[X₊₁]-[X₊₁]-[X₊₂]-[X₊₃]，其中X是任何典型氨基酸，并且任选地其中[X₊₁]不是P，并且任选地其中[X₊₂]不是S或T。

9.一种多核苷酸序列，其编码权利要求1所述的修饰的NGT。

10.一种表达载体，其包含权利要求9所述的多核苷酸序列。

11.一种细菌细胞，其包含权利要求1所述的修饰的NGT。

12.权利要求11所述的细菌细胞，其进一步包含靶多肽。

13.一种真核细胞，其包含权利要求1所述的修饰的NGT。

14.权利要求13所述的真核细胞，其进一步包含靶多肽。

15.一种用于糖基化靶多肽的方法，其中靶多肽包含受体肽序列，所述方法包括：在合适的反应条件下使靶多肽与权利要求1所述的修饰的NGT和聚糖接触。

16.权利要求15所述的方法，其中靶多肽包括治疗性多肽。

17.权利要求15所述的方法，其中方法在体内进行。

18.权利要求15所述的方法，其中方法在体外进行。

19.权利要求15所述的方法，其中靶多肽是原核蛋白质。

20.权利要求15所述的方法，其中靶多肽是真核蛋白质。

21.权利要求15所述的方法，其中靶多肽包含受体肽序列，所述受体肽序列包含氨基酸序列[X_-2]-[X_-1-]-[N]-[X₊₁]-[X₊₁]-[X₊₂]-[X₊₃]，其中X是任何典型氨基酸，并且任选地其中[X₊₁]不是P，并且任选地其中[X₊₂]不是S或T。

22.权利要求15所述的方法，其中NGT用一种或多种聚糖来糖基化靶多肽。

23.权利要求15所述的方法，其中聚糖包含一种或多种选自由葡萄糖、半乳糖和N-葡糖胺组成的组的单糖。

24.一种修饰的N-糖基转移酶(NGT)，其包含在对应于SEQ ID NO:1的胸膜肺炎放线杆菌NGT的下述氨基酸位置处的一个或多个取代：F39、R177、H214、D215、M218、H219、Y222、H272、H277、S278、I279、R281、M349、G370、H371、T438、T439、M440、K441、A469、H495、P497、Y498、F517、N521和D525。

25.权利要求24所述的修饰的NGT，其中NGT衍生自选自由以下组成的组的生物体：金氏金格杆菌；流感嗜血杆菌；嗜沫聚集杆菌；溶血性曼氏杆菌；海藻百伯史坦菌；杜克雷嗜血杆菌；伯克霍尔德氏菌属物种(Burkholderia sp)；小肠结肠炎耶尔森氏菌(Yersiniaenterocolitia)；鼠疫耶尔森氏菌(Yersinia pestis)；肠道沙门氏菌(Salmonellaenterica)；和大肠杆菌(Escherichia coli)。

26.权利要求24所述的修饰的NGT，其中NGT衍生自选自由溶血性曼氏杆菌和杜克雷嗜血杆菌组成的组的生物体。

27.权利要求24所述的修饰的NGT，其中与相同反应条件下的未修饰的NGT相比，修饰的NGT糖基化更广泛的受体肽序列。

28.权利要求24所述的修饰的NGT，其中与相同反应条件下的未修饰的NGT相比，修饰的NGT对更广泛的受体肽序列具有亲和力。

29.一种治疗组合物，其包含权利要求16所述的治疗肽。

30.权利要求29所述的治疗组合物，其中组合物包含疫苗。