CN111183221B

CN111183221B - 用于o-糖蛋白的蛋白酶和结合多肽

Info

Publication number: CN111183221B
Application number: CN201880050251.7A
Authority: CN
Inventors: 弗雷德里克·里奥; 罗尔夫·卢德; 史蒂芬·比约克; 马林·梅贾尔; 弗雷德里克·奥尔森
Original assignee: Genovis AB
Current assignee: Genovis AB
Priority date: 2017-05-26
Filing date: 2018-05-25
Publication date: 2024-04-09
Anticipated expiration: 2038-05-25
Also published as: IL270950A; PL3630968T3; CN111183221A; JP7195008B2; DK3630967T3; EP3630967B1; EP3630968A1; IL270949A; EP3630967A1; US11584922B2; WO2018215656A1; AU2018272984A1; AU2018272400A1; PT3630968T; KR20200011955A; JP7557896B2; US20230212543A1; WO2018215657A9; PT3630967T; JP2020521460A

Abstract

本发明涉及一种新型内切蛋白酶，该内切蛋白酶具有结合但缺乏水解活性或具有降低的水解活性的突变体，以及在研究和分出O‑连接糖蛋白的方法中的用途。

Description

用于O-糖蛋白的蛋白酶和结合多肽

技术领域

本发明涉及一种具有结合活性但缺乏水解活性或具有降低的水解活性的新型内切蛋白酶、其突变体，以及在研究和分出O-连接糖蛋白的方法中的用途。

背景技术

近来，糖基化对生物学功能的影响已引起越来越多的关注，特别是在O-连接的聚糖方面。然而，尽管已经恢复对这些重要的蛋白质修饰的兴趣，但仍缺乏有效研究聚糖和糖蛋白的工具。

已经开发有对从天然蛋白中去除O-连接的聚糖和对聚糖测序都非常有用的几种外切糖苷酶和内切糖苷酶。这两种方法均可单独使用，以减少糖蛋白的异质性，从而有助于在质谱中分析蛋白质及其片段化的肽。还可以通过对受水解影响的功能进行下游分析来实施对聚糖的生物学效应的更有效的分析。然而，这样的工具例如在方便O-连接的糖蛋白的鉴定、糖基化位点的确定和O-连接的糖肽的纯化上不是有效的。

1991/1992年报道了首个O-糖蛋白特异性内切蛋白酶，O-糖蛋白特异性内切蛋白酶与O-聚糖结合并主要水解接近聚糖的R-N键(Abdullah et al.,J Bacteriol 173,5597–5603(1991)；Abdullah et al.,Infect Immun 60,56–62(1992))。然而，该酶在医学和生物技术中的用途是有限的，因为该酶仅对包含唾液酸的O-聚糖(大部分但远非所有O-连接的聚糖)具有特异性，并且要求特定的氨基酸，从而通常导致水解水平低，因此需要更好的用于研究O连接的糖蛋白的工具。

发明内容

本发明人已经鉴定、纯化和表征了来自嗜粘蛋白艾克曼菌(Akkermansiamuciniphila)的新型多肽，在本文中被称为LS。该多肽充当内切蛋白酶，该内切蛋白酶特别地切割/水解在O-连接的聚糖的N末端且与O-连接的聚糖接近的氨基酸键，而不显示出对特定氨基酸序列的任何特异性或限制。

本发明人还修饰了LS的序列，并鉴定了能够结合O-连接的聚糖但缺乏水解糖蛋白能力或具有降低的水解糖蛋白能力的突变体。这些突变体可用于选择性去除、富集或纯化游离的O-聚糖、O-糖肽和/或O-糖蛋白。

因此，在本发明的第一方面，提供一种对O-糖基化蛋白具有特异性内切蛋白酶活性的多肽，该多肽包含：

(a)SEQ ID NO:1的氨基酸序列；

(b)与SEQ ID NO:1的氨基酸序列至少85％一致的氨基酸序列；或

(c)这样的氨基酸序列：该氨基酸序列为SEQ ID NO:1的序列的片段或与SEQ IDNO:1的氨基酸序列85％一致的氨基酸序列的片段。

本发明还提供一种水解O-糖蛋白的方法，其中该方法包括使包含该蛋白质的样品与本发明的多肽接触，并且任选地还包括对水解产物的检测或分析。

另外，提供一种评估蛋白质的糖基化状态的方法，该方法包括使包含该蛋白质的样品与本发明的多肽接触，以及检测和/或分析产生的产物，任选地，其中使用切割产物存在或不存在来确定样品中O-糖蛋白的存在/不存在，和/或其中进行所述分析以鉴定O-糖链的类型和/或O-糖链与O-糖蛋白的连接位置。

在本发明的第二方面，提供一种能够与O-聚糖、O-糖肽和/或O-糖蛋白结合并且对O-糖基化蛋白缺乏特异性内切蛋白酶活性或具有降低的特异性内切蛋白酶活性的多肽，该多肽包含：

(a)SEQ ID NO:5的氨基酸序列；

(b)与SEQ ID NO:5或SEQ ID NO:20的氨基酸序列至少85％一致的氨基酸序列；或

(c)这样的氨基酸序列：该氨基酸序列为SEQ ID NO:5或SEQ ID NO:20的序列的片段或与SEQ ID NO:5或SEQ ID NO:20的氨基酸序列85％一致的氨基酸序列的片段。

本发明还提供一种与O-聚糖、O-糖肽和/或O-糖蛋白结合的方法，其中该方法包括使包含O-聚糖、O-糖肽和/或O-糖蛋白的样品与本发明的多肽接触，以及任选地确定是否已结合O-聚糖、O-糖肽或O-糖蛋白和/或从所得混合物中使O-聚糖与任何连接的糖蛋白、O-糖肽或O-糖蛋白分离。

另外，提供一种用于评估蛋白质的糖基化状态的方法，该方法包括使包含蛋白质的样品与本发明的多肽接触，以及确定蛋白质是否与所述多肽结合。

还提供了一种用于检测样品中O-糖肽和/或O-糖蛋白的方法，其中该方法包括：

(a)使所述样品与本发明的多肽接触，从而使得在本发明的多肽与O-连接的糖肽和/或O-糖蛋白之间形成复合物(O-连接的糖肽/蛋白质-多肽复合物)；

(b)任选地从接触的样品中分离出所述多肽；和

(c)确定分离的多肽是否与O-连接的糖肽或糖蛋白结合，从而确定样品中存在或不存在O-连接的糖肽或糖蛋白。

附图说明

图1：LS的表达和纯化。LS在pET21(a)+载体中表达为具有C末端His-tag的融合蛋白。转化进BL21(DE3)Star后，表达了四个单独的克隆，并在His GravityFlow柱上纯化至均一。基于纯化样品中蛋白质的总量以及基于SDS-PAGE的纯度，所研究的所有四个克隆均同样表达良好。

图2：LS特异性作用于含有O-聚糖的蛋白质-图中显示了通过SDS-PAGE分析的产物。LS与IgG或IgA孵育导致IgA特异性降解，但对IgG(赫赛汀/曲妥珠单抗)没有明显的活性。所有孵育均在37℃下在PBS中进行。在这些条件下，添加唾液酸酶(Am0707)不是LS的活性所需的。

图3：最佳酶促条件。LS在很宽的pH范围内有活性(A)，能很好地耐受NaCl(B)，但对EDTA高度敏感(C，D)，并且被Zn2+部分抑制(D)。所有实验(pH测定除外)均在PBS中在37℃下过夜进行。为了确定优化pH，将酶在20mM Tris-HCl(pH 6.8-8.8)或50mM乙酸(pH 5.6)中孵育。

图4：聚糖组成调节LS的活性。(A)在用LS水解30分钟之前依次去除特定聚糖导致在唾液酸化蛋白中的活性非常低，在去唾液酸化蛋白中的活性高，而在除去半乳糖的样品中则没有活性。(S)唾液酸酶，(SG)唾液酸酶和半乳糖苷酶，(LS)LS。(B)长时间孵育(过夜)经完全糖基化的糖蛋白(Enbrel)或经唾液酸酶处理的糖蛋白(Enbrel(S))导致两个样品中完全水解。Enbrel在本文中也可称为依那西普(etanercept)。(C)用唾液酸酶(“唾液酸酶”)、O-糖苷酶/唾液酸酶(“O-糖”)或PNGaseF(“N-糖”)预处理依那西普的TNFα结合部分(TNFαR)，以分别除去唾液酸、O-聚糖和N-聚糖。将LS添加到样品中，并在分析前继续过夜孵育。LS在除了用O-糖苷酶处理的那些样品之外的所有样品中外均具有活性。

图5：搜索结果显示LS水解了O-聚糖的糖蛋白N末端。对用LS水解成片段且随后用O-糖苷酶处理去糖基化的对依那西普进行质谱分析(LC/MS和MS/MS)。根据m/z值和MS/MS数据，将鉴定出的肽(白色和阴影框)拟合到依那西普序列上，y'和b'离子标被记为小灰色框。所有灰色和阴影框(例如肽)直接以O-聚糖所连接的T或S开始。前面的氨基酸变化(P、S、H、T、G)，并且似乎可能不影响水解。(A)使用偏倚方法(biased approach)，特别是搜索由S/T肽酶生成的肽，进行分析。(B)使用无偏方法(unbiased approach)进行分析。

图6：灭活的LS特异性结合O-连接的糖蛋白。使金属蛋白酶活性位点突变以除去催化能力，同时不影响底物亲和力或相互作用。具体而言，这是通过将E换为A来完成的，从而创建克隆“LS_mut”(也称为LS_E206A)。(A)虽然在唾液酸酶存在下LS能够水解Enbrel，但失活的Lsmut在测试条件下不能水解Enbrel。SDS-PAGE证实活性丧失。(B)尽管失去了水解活性，但LS_mut仍然能够与O-糖蛋白结合。在具有固定LS_E206A的旋转柱上验证了特异性结合，证明对O-连接的糖蛋白具有特异性亲和力。通过将LSmut固定在琼脂糖凝胶(sepharose)上，我们能够对IgA进行亲和纯化。缺乏O-聚糖的赫赛汀(曲妥珠单抗)以及O-糖苷酶处理的IgA不与柱子结合，但可以在流过液(FT)中检测到。Neur＝神经氨酸酶/唾液酸酶0707。

图7：α2-3键合的唾液酸限制了LS的效率。使用Enbrel作为糖蛋白底物，将LS与一系列不同的唾液酸酶同时孵育30分钟至20小时，显示在存在α2-3特异性唾液酸酶1757或混合液(0707+1757)的情况下效率更高，而广谱唾液酸酶0707并不是LS的似乎完全的活性所必需的，因此表明α2-6(和α2-8)键与LS活性无关。

图8：LS活性的示意图。LS优先结合连接至O-连接的GalNAc的末端半乳糖，导致连接有聚糖的丝氨酸或苏氨酸的N末端水解。唾液酸的存在会降低LS的效率，但不会抑制LS。在N-连接的聚糖上不能观察到活性。

图9：促红细胞生成素用LS、用于去除N-聚糖的PNGaseF、用于去除唾液酸的唾液酸酶以及与用于去除O-聚糖的O-糖苷酶的不同组合切割的实验结果。通过SDS-PAGE、RPLC和ESI质谱来分析反应产物。(A)SDS-PAGE分析的结果：泳道1＝用PNGaseF和唾液酸酶处理的EPO；泳道2＝用PNGaseF和唾液酸酶+LS处理的EPO；泳道3＝用PNGaseF+LS处理的EPO；泳道4＝用PNGaseF、唾液酸酶、O-糖苷酶然后用LS处理的EPO；泳道5＝酶对照。条带X＝未切割的EPO；条带Y＝LS消化的EPO的N末端片段；条带Z＝LS消化的EPO的C末端片段。泳道2和3显示在唾液酸已被去除的情况下以及在它们完好的情况下，LS切割EPO。泳道2–3显示LS也切割EPO，其中N-聚糖被PNGaseF去除。泳道4显示，LS没有切割EPO，其中O-聚糖已被去除。(B)UV色谱图显示了用PNGaseF和唾液酸酶+LS处理的EPO的RPLC分离结果。如图所示，鉴定出两个主峰。峰1是被LS消化的EPO的C末端片段；峰2是被LS消化的EPO的N末端片段；(C，D)显示了质谱分析的结果。图C显示了具有仍然与(目前是N末端的)丝氨酸连接的O聚糖的EPO的C末端片段的质量(正方形＝GlcNAc，圆圈＝半乳糖)。质量差异是由于样品中某些部分的O-聚糖的降解(损失末端半乳糖)的差异而引起的，这很可能是MS仪器中的电离能引起的。图D显示了缺少聚糖的EPO的N末端片段，加上仍连接有聚糖的未消化的EPO。

图10：显示LS_E206A保留一定活性而LS_H205A/E206A(也可以称为LS_HE206AA)完全失活的实验结果。针对包含依那西普的TNFα结合部分(TNFaR2；在本文中也称为TNFaR)和依那西普本身(Etanercept)的去唾液酸化O糖基化底物，评估了LS突变体LS_E206A(A)和LS_H205A/E206A(B)对比野生型LS酶的活性。将不同浓度的LS突变体添加到1mg底物(1:1至15:1，酶:底物)，在PBS中在37℃下孵育过夜，然后在SDS-PAGE上分析。

A)泳道1：仅去唾液酸化底物；泳道2：仅LS，泳道3：0.5μg LS_E206A，泳道4：5μgLS_E206A，泳道5：TNFaR2+LS(比例为1:1)，泳道6：TNFaR2+LS_E206A(比例为1:1)。

B)泳道1：仅去唾液酸化底物；泳道2：LS_H205A/E206A+依那西普(比例为15:1)，泳道3：LS_H205A/E206A+依那西普(比例为5:1)，泳道4：LS_H205A/E206A+依那西普(比例为1:1)，泳道5：LS+依那西普(比例为1:1)，泳道6：LS_H205A/E206A。

图11：显示固定在树脂上的LS_H205A/E206A与含有O-聚糖的蛋白质特异性结合的实验结果。图中显示了在每种情况下对起始/装载材料、流过液(FT)和洗脱液(E)的SDS-PAGE分析：(A)包含BSA(牛血清白蛋白)、依那西普、IgA和IgG的样品，该样品是天然的或用如所示的唾液酸酶混合物+/-O-糖苷酶预处理的；(B)包括O-糖基化蛋白(TNFαR和ApoE)、N-糖基化蛋白(阿柏西普(aflibercept)、AGP(α-1-酸糖蛋白)、IgG Fc(IgG的Fc结构域)和非糖基化蛋白(BSA)的混合物的样品用唾液酸酶混合物预处理。(C)包括N-糖基化蛋白(西妥昔单抗、阿柏西普、AGP)和非糖基化蛋白(BSA、碳酸酐酶)和混合物的样品用唾液酸酶混合物预处理。

图12：显示固定的LS_H205A/E206A具有结合O-糖蛋白的浓度依赖性能力的实验结果。去唾液酸化依那西普(50-250μg；100μl在PBS中)添加到50μl PBS平衡的具有不同的LS_H205A/E206A固定条件(5-15mg/mL)的LS_H205A/E206A树脂中。在室温下通过颠倒旋转使蛋白质与树脂结合2小时。将树脂用PBS(350μl)洗涤3次，然后通过添加8M尿素(50μl，5分钟孵育；重复两次)洗脱。为了研究尿素和盐酸胍(GHCl)在结合中的作用，将其与50μg去唾液酸化依那西普一起包含在结合缓冲液中，但处理方法相同。(A)所有样品在SDS-PAGE上分离，并使用GelDoc EZ和ImageLab软件通过光密度测定法确定条带强度。所示的百分比表示与对照相比的条带强度。(B)，将根据条带强度确定的蛋白质结合能力相对固定的LS_H205A/E206A的量作图。

图13：显示LS_H205A/E206A可以对约3mg依那西普/mL树脂进行亲和纯化的实验结果。去唾液酸化依那西普(10-200μg；在PBS中为100μl)添加到50μl PBS平衡的LS_H205A/E206A树脂中。在室温下通过颠倒旋转使蛋白质与树脂结合2小时。将树脂用PBS(350μl)洗涤3次，然后通过添加8M尿素(50μl，5分钟孵育；重复两次)洗脱。所有样品在SDS-PAGE上分离，并使用GelDoc EZ和ImageLab软件通过光密度测定法确定条带强度。所示的百分比表示与对照相比的条带强度。

图14：显示LS_H205A/E206A-底物的相互作用对高离子强度和缓冲液体积/类型的差异不敏感且可在较宽的pH范围内工作的实验结果。(A)所示的去唾液酸化依那西普(50μg；在PBS中为100μl)与以不同浓度添加的NaCl；(B)如所示的去唾液酸化依那西普(50μg；在PBS中为100-300μl)；(C)来自去唾液酸化依那西普(50μg)和BSA(50μg)的样品在不同缓冲液中不同的pH下的流过液；(D)来自C样品的洗脱液。

图15：显示变性或添加去污剂洗脱与LS_H205A/E206A结合的O-糖蛋白的实验结果。去唾液酸化依那西普(50μg；在PBS中为100μl)添加到50μl PBS平衡的LS_H205A/E206A树脂中。在室温下通过颠倒旋转使蛋白质与树脂结合2小时。将树脂用PBS(350μl)洗涤3次，然后通过添加1M至8M尿素或1.25％至10％SDS(50μl，5分钟孵育；重复两次)洗脱。所有样品在SDS-PAGE上分离以用于分析。

图16A：使用LS酶促洗脱LS_H205A/E206A结合的O-糖蛋白的实验结果。去唾液酸化阿巴西普(10μg；在PBS中为100μl)和依那西普(50μg；在PBS中为100μl)添加到50μl PBS平衡的LS_H205A/E206A树脂中。在室温下通过颠倒旋转使蛋白质与树脂结合2小时。将树脂用结合缓冲液(350μl)洗涤3次，然后添加在总体积为100μl PBS中的50个单位的LS。将样品在摇动(450rpm)下于37℃下再孵育6至24小时。通过离心(1000g，1分钟)收集LS释放的O糖蛋白/糖肽，然后通过添加8M尿素(50μl，5分钟孵育；重复两次)最后洗脱柱子。所有样品在SDS-PAGE上分离以用于分析。

图16B：用LS洗脱的依那西普的质谱分析(LC/MS和MS/MS)结果。鉴定出的肽(图16B.1)与依那西普在LS消化中产生的肽(图16B.2)一致。根据m/z值和MS/MS数据，将鉴定出的肽(白色方框)拟合到依那西普的序列上，y'和b'离子标记为小灰方框。所有白框(例如肽)直接从与O-聚糖连接的T或S处开始。

图17：表明O-糖基化血清蛋白的亲和纯化和富集的结果。(A)去唾液酸化血清(20μl；在PBS中为100μl)添加到50μl PBS平衡的LS_H205A/E206A树脂中。在室温下通过颠倒旋转使蛋白质与树脂结合2小时。将树脂用结合缓冲液(350μl)洗涤3次，然后通过添加8M尿素洗脱。(B)为了研究聚糖对相互作用的影响，将样品用唾液酸酶混合物+/-O-糖苷酶预处理。如上所述进行下游纯化。(C)将血清(40μl)与PBS(高达100μl)和唾液酸酶混合物(50-500个单位)混合，并添加到PBS平衡的柱子，在室温下孵育2小时并颠倒旋转，此后如上所述洗涤并洗脱样品。所有样品在SDS-PAGE上分离以用于分析。

图18：显示来自人血清中的O-糖蛋白富集的结果。将在PBS中稀释2.5倍至100μl的人血清涂在旋转柱中的50μl PBS平衡的LS_H205A/E206A树脂。添加50-500个单位的唾液酸酶混合物并在室温下在树脂上共孵育2小时。收集流过液，并用PBS洗涤树脂5至10次。结合的蛋白在8M尿素中洗脱，然后通过添加5mM DTT并在37℃下孵育60分钟来变性和还原。将还原的半胱氨酸在室温下和黑暗中用15mM碘乙酰胺烷基化30分钟。在旋转脱盐柱上使样品进行缓冲液交换至50mM Tris pH 8.0中。将胰蛋白酶(2.5μg)添加到溶液中，并在37℃下消化过夜。使用RP-LC MS/MS在C18柱上以0.1％FA的MQ溶液:0.1％FA的95％ACN的梯度溶液以45℃及0.2ml/分钟的流量分离并分析肽。检测在ESI-Q-TOF上进行。数据转换为mgf格式文件，并在Swiss Prot数据库中进行搜索(A)鉴定出的肽来自标注为O-糖基化蛋白或非O-糖基化蛋白的蛋白。仅包括具有>6个匹配肽且MASCOT得分>200的蛋白。(B)不同的洗涤步骤导致所鉴定出的肽的变化，以及O-糖基化蛋白与非O-糖基化蛋白的比例改变(C)Sia＝唾液酸酶处理的；Sia Pre＝唾液酸酶预处理的。

图19：显示固定的双突变体也与较短的O-糖肽结合的实验结果。A显示了与O-糖基化肽(糖基果蝇肽(glycodrosocin；GD))和几种非糖基化肽(H2686、H4062、H8390和胰岛素氧化的β链(IOB))的制备的混合物结合的LC/MS分析代表性结果。B显示了IgA的示意图，展示胰蛋白酶消化将产生单个O-糖基化的肽。C显示了与IgA的胰蛋白酶消化物结合的LC/MS分析的代表性结果。

图20：显示固定的双突变体比其他可商购的O-糖蛋白结合基质有优势。A显示了代表性的SDS-PAGE凝胶，比较了在与所示的不同的固定的凝集素或LS双突变体孵育后，流过液(FT)或洗脱液(E)中的依那西普或去唾液酸化依那西普(依那西普(S))的存在。B显示相对于1.5μg直接加样底物阳性对照的凝胶光密度分析。

序列的简要说明

SEQ ID NO:1是具有O-糖蛋白特异性内切蛋白酶活性的多肽的氨基酸序列。

SEQ ID NO:2是具有O-糖蛋白特异性内切蛋白酶活性的本发明示例性多肽的氨基酸序列。相对于SEQ ID NO:1，SEQ ID NO:2在N末端包括另外的甲硫氨酸，并且在C末端包括接头+His₆标签。由该序列组成的多肽在本文中可以称为LS。

SEQ ID NO:3是编码具有SEQ ID NO:2的序列的多肽的核苷酸序列。

SEQ ID NO:4是具有O-糖蛋白特异性内切蛋白酶活性的自嗜粘蛋白艾克曼菌分出的多肽的野生型氨基酸序列。相对于SEQ ID NO:1，SEQ ID NO:4包括N末端的信号基序。

SEQ ID NO:5是能够与O-聚糖结合但缺乏O-糖蛋白特异性内切蛋白酶活性或具有降低的O-糖蛋白特异性内切蛋白酶活性的多肽的氨基酸序列。

SEQ ID NO:6是能够与O-聚糖结合但缺乏O-糖蛋白特异性内切蛋白酶活性或具有降低的O-糖蛋白特异性内切蛋白酶活性的本发明示例性多肽的氨基酸序列。相对于SEQ IDNO:5，SEQ ID NO:6包括另外的N末端甲硫氨酸和C末端接头+His₆标签。由该序列组成的多肽在本文中可以称为LS_E206A。

SEQ ID NO:7是编码具有SEQ ID NO:6的序列的多肽的核苷酸序列。

SEQ ID NO:8是具有O-糖蛋白特异性内切蛋白酶活性的本发明示例性多肽的金属蛋白酶结构域基序。

SEQ ID NO:9是自嗜粘蛋白艾克曼菌分出的唾液酸酶Am1757的野生型氨基酸序列。SEQ ID NO:9包括N末端的信号基序。

SEQ ID NO:10是唾液酸酶Am1757的野生型氨基酸序列，相对于SEQ ID NO:9缺少N末端的信号基序。

SEQ ID NO:11是示例性唾液酸酶Am1757的氨基酸序列。相对于SEQ ID NO:10，SEQID NO:11包括另外的N末端甲硫氨酸和C末端接头+His₆标签。

SEQ ID NO:12是自嗜粘蛋白艾克曼菌分出的唾液酸酶Am0707的野生型氨基酸序列。SEQ ID NO:12包括N末端的信号基序。

SEQ ID NO:13是唾液酸酶Am0707的野生型氨基酸序列，相对于SEQ ID NO:12在N末端缺少信号基序。

SEQ ID NO:14是示例性唾液酸酶Am0707的氨基酸序列。相对于SEQ ID NO:13，SEQID NO:14包括另外的N末端甲硫氨酸和C末端接头+His₆标签。

SEQ ID NO:15是自口腔链球菌(S.oralis)分出的O-糖苷酶的氨基酸序列。

SEQ ID NO:16和17是引物序列。

SEQ ID NO:18显示了EPO的氨基酸序列。

SEQ ID NO:20是能够与O-聚糖结合但缺乏O-糖蛋白特异性内切蛋白酶活性或具有降低的O-糖蛋白特异性内切蛋白酶活性的多肽的氨基酸序列。

SEQ ID NO:21是能够与O-聚糖结合但缺乏O-糖蛋白特异性内切蛋白酶活性或具有降低的O-糖蛋白特异性内切蛋白酶活性的本发明示例性多肽的氨基酸序列。相对于SEQID NO:20，SEQ ID NO:21包括另外的N末端甲硫氨酸和C末端接头+His₆标签。由该序列组成的多肽在本文中可以称为LS_HE206AA或LS_H205A/E206A。

SEQ ID NO:22是编码具有SEQ ID NO:21的序列的多肽的核苷酸序列。

SEQ ID NO:23、24和25是被破坏的金属蛋白酶结构域基序的序列，各自来自能够与O-聚糖结合但缺乏O-糖蛋白特异性内切蛋白酶活性或具有降低的O-糖蛋白特异性内切蛋白酶活性的本发明的多肽。

SEQ ID NO:26、27和28是各自具有O-糖蛋白特异性内切蛋白酶活性的多肽的氨基酸序列。

SEQ ID NO:29、30和31是具有O-糖蛋白特异性内切蛋白酶活性的示例性多肽的氨基酸序列。相对于SEQ ID NO:26、27和28，SEQ ID NO:29、30和31各自包括另外的N末端甲硫氨酸和C末端接头+His₆标签。

SEQ ID NO:32、33和34分别是自铜绿假单胞菌(Pseudomonas aeruginosa)PAO1、多形拟杆菌(Bacteroides thetaiotaomicron)VPI-5482和产气荚膜梭菌(Clostridiumperfringens)分出的具有O-糖蛋白特异性内切蛋白酶活性的多肽的野生型氨基酸序列。分别地，相对于SEQ ID NO:26、27和28，各自包含N末端的信号基序。

SEQ ID NO:35、36和37是各自能够与O-聚糖结合但缺乏O-糖蛋白特异性内切蛋白酶活性或具有降低的O-糖蛋白特异性内切蛋白酶活性的多肽的氨基酸序列。

SEQ ID NO:38、39和40是各自能够与O-聚糖结合但缺乏O-糖蛋白特异性内切蛋白酶活性或具有降低的O-糖蛋白特异性内切蛋白酶活性的本发明示例性多肽的氨基酸序列。分别地，相对于SEQ ID NO:35、36和37，SEQ ID NO:38、39和40各自包括另外的N末端甲硫氨酸和C末端接头+His₆标签。

SEQ ID NO:41至43是O-糖蛋白特异性内切蛋白酶的代表性金属蛋白酶基序的氨基酸序列。

SEQ ID NO:44至46是能够与O-聚糖结合但缺乏O-糖蛋白特异性内切蛋白酶活性或O-糖蛋白特异性内切蛋白酶活性降低的多肽的代表性破坏性金属蛋白酶基序的氨基酸序列。

SEQ ID NO:47是糖基果蝇肽的氨基酸序列。T残基上有O-糖基化位点。

SEQ ID NO:48至50是未被O-糖基化的肽的氨基酸序列。

具体实施方式

应当理解，所公开的产品和方法的不同应用可以适合于本领域的特定需求。还应理解，本文所用的术语仅出于描述本发明的特定实施方式的目的，而并非旨在进行限制。本文引用的所有出版物、专利和专利申请，无论是上文还是下文中的，均通过引用全文并入本文。

除非文中另外明确指出，如在本说明书和所附权利要求书中所使用的，单数形式“一个/一种(a/an)”和“该(the)”包括复数个指示物。因此，例如，提及“多肽(apolypeptide)”包括“多个多肽(polypeptides)”等。

一般的多肽特征

“多肽”在本文以最广泛的意义使用，是指两个或更多个亚基氨基酸、氨基酸类似物或其他拟肽的化合物。因此，术语“多肽”包括短肽序列以及更长的多肽和蛋白质。术语“蛋白质”、“肽”和“多肽”可以互换使用。如本文所用，术语“氨基酸”是指天然和/或非天然或合成的氨基酸，包括D或L旋光异构体，以及氨基酸类似物和拟肽。

多肽可以通过合适的方法产生，包括重组或合成方法。例如，多肽可以使用本领域已知的标准技术直接合成，例如Fmoc固相化学、Boc固相化学或通过溶液相肽合成。可供选择地，可以通过用编码所述多肽的核酸分子或载体转化细胞，通常转化细菌细胞来产生多肽。下文描述了并且在实施例中举例说明了通过在细菌宿主细胞中表达来产生多肽的方法。本发明提供了编码本发明多肽的核酸分子和载体。本发明还提供了包含这种核酸或载体的宿主细胞。编码本文公开的多肽的示例性多核苷酸分子以SEQ ID NO:3和7提供。这些序列中的每一条在5”端包括N末端甲硫氨酸(ATG)的密码子，并且在3端在终止密码子(TAA)之前包括Gly-Ser-Gly接头和6x His标签的密码子，可以任选不包括所述GSGLE接头和6xHis标签的密码子。下文将更详细地讨论另外的甲硫氨酸和标签的任性包含。

术语“核酸分子”和“多核苷酸”在本文可互换使用，并且是指任何长度的核苷酸(无论是脱氧核糖核苷酸还是核糖核苷酸)的聚合形式或其类似物。多核苷酸的非限制性实例包括基因、基因片段、信使RNA(mRNA)、cDNA、重组多核苷酸、质粒、载体、任何序列的分离的DNA、任何序列的分离的RNA、核酸探针和引物。本发明的多核苷酸编码本发明的多肽，并且可以以分离的或基本上分离的形式提供。基本上分离是指可以从任何周围介质中基本上但不完全分离多肽。可以将多核苷酸与不会干扰其预期用途的运载体或稀释剂混合，并且仍然被认为是基本上分离的。“编码”所选多肽的核酸序列是这样一种核酸分子，所述核酸分子在受适当调控序列控制时，在活体内转录(对于DNA而言)并翻译(对于mRNA而言)成多肽，例如在表达载体中。编码序列的边界由5'(氨基)末端的起始密码子和3'(羧基)末端的翻译终止密码子确定。出于本发明的目的，这样的核酸序列可以包括但不限于来自病毒的cDNA、原核或真核mRNA、来自病毒的基因组序列、或原核DNA或RNA，甚至合成的DNA序列。转录终止序列可以位于编码序列的3'处。

多核苷酸可以根据本领域众所周知的方法来合成，如例如Sambrook et al.(1989，分子克隆-实验指南(Molecular Cloning-a laboratory manual)；冷泉港出版社)中所描述。本发明的核酸分子可以以表达盒的形式提供，所述表达盒包括可操作地连接至插入序列的控制序列，从而允许本发明的多肽在活体内(例如，在原核或真核表达系统中)表达。这些表达盒又通常在载体(例如质粒或重组病毒载体)内提供。可以将这样的表达盒直接给药至宿主对象。可供选择地，可以将包含本发明的多核苷酸的载体给药至宿主对象。优选地，使用遗传载体进行多核苷酸制备和/或给药。合适的载体可以是能够携带足量的遗传信息并允许表达本发明的多肽的任何载体。

因此，本发明包括包含这样的多核苷酸序列的表达载体。这样的表达载体在分子生物学领域中是常规构建的，并且例如可以涉及使用质粒DNA和适当的起始子、启动子、增强子和其他元件，例如，为了允许表达本发明的肽而可能是必要的并且以正确的取向定位的聚腺苷酸化信号。其他合适的载体对本领域技术人员来说将是显而易见的。作为在这方面的进一步的实例，我们参考Sambrook et al.。

本发明还包括已经修饰以表达本发明的多肽的细胞。这样的细胞通常包括原核细胞，例如细菌细胞，例如大肠杆菌。可以使用常规方法培养这样的细胞以产生本发明的多肽。

多肽可以衍生化或经修饰以有助于该多肽的产生、分离或纯化。例如，在通过细菌宿主细胞中的重组表达来产生本发明的多肽的情况下，该多肽的序列可以在N末端包含另外的甲硫氨酸(M)残基以改善表达。作为另一个实例，本发明的多肽可以通过添加能够直接且特异性地与分开手段结合的配体来衍生化或进行修饰。可供选择地，多肽可以通过添加结合对中的一个成员来衍生化或进行修饰，并且分开手段包括通过添加结合对中的其他成员而衍生化或进行修饰的试剂。可以使用任何合适的结合对。在用于本发明的多肽通过添加结合对中的一个成员而衍生化或进行修饰的优选实施方式中，该多肽优选是组氨酸标记的或生物素标记的。通常，在基因水平上包括组氨酸或生物素标签的氨基酸编码序列，并且该多肽在大肠杆菌中进行重组表达。组氨酸或生物素标签通常存在于多肽的任一端，优选地在C末端。组氨酸或生物素标签可以与多肽直接连接或通过任何合适的接头序列(例如3、4或5个甘氨酸残基或甘氨酸和丝氨酸残基的混合物)间接连接。组氨酸标签通常由六个组氨酸残基组成，尽管组氨酸标签可以比这更长，通常多达7、8、9、10或20个氨基酸，或更短，例如5、4、3、2或1个氨基酸。

多肽可以以基本上分离的或纯化的形式提供。也就是说，从存在于表达多肽的细胞的细胞提取物中的其他大部分成分中分离的。将理解的是，基本上纯化是指多肽被纯化至至少50％、60％、70％、80％或优选至少90％同质性。纯度水平可通过任何合适的方法进行评估，但通常涉及样品的SDS-PAGE分析，然后进行考马斯蓝检测。多肽可以与不会干扰多肽预期目的的运载体、稀释剂或防腐剂混合，并且仍被为是基本上分离的或纯化的。在多肽提供于具有另外的活性成分例如另一种多肽的组合物中的情况下，则将每种所述多肽分别纯化至高水平的同质性，然后以适当的比例混合以用于各自的预期目的。例如，可以将两种多肽各自纯化至至少90％的同质性，然后以1:1的比例组合。

多肽(或其混合物)可以以适于在使用前在水溶液中重构的冻干形式提供。冻干的组合物具有改善的稳定性，使得能够更长久地储存多肽。本文提供了一种制备冻干形式的多肽(或其混合物)的方法，所述方法包括在合适的缓冲液(例如Tris-缓冲盐水(TBS))中冷冻干燥所述多肽(或混合物)。多肽在冷冻干燥之前通常是基本上纯化的。还提供了冻干形式的所得多肽(或混合物)。还提供了一种制备多肽(或混合物)的溶液的方法，该方法包括提供冻干形式的多肽(或混合物)并用合适的运载体或稀释剂(例如水)重构。

多肽可以使用本领域已知的方法固定，例如Datta S et al.,Enzymeimmobilization:an overview on techniques and support materials,3Biotech,3(1):1-9(2013)中所述。例如，可以通过吸附、共价结合、亲和力固定或包封来固定多肽。可用作支持物的材料包括但不限于，例如天然支持物(例如琼脂糖(agarose)、胶原、明胶、纤维素、果胶、琼脂糖凝胶)、无机材料(例如陶瓷、二氧化硅、玻璃、活性炭或木炭)或合成聚合物。例如，多肽可以固定在任选地作为树脂提供的琼脂糖凝胶、或琼脂糖上。

具有内切蛋白酶活性的多肽

具有内切蛋白酶活性的多肽的功能特征

在一种实施方式中，本发明涉及一种对O-糖基化蛋白具有特异性内切蛋白酶活性的多肽。换句话说，该多肽具有O-糖蛋白特异性内切蛋白酶活性。该多肽切割任何O-连接的糖蛋白，优选任何O-连接的人糖蛋白。O-连接的糖蛋白的实例包括包含免疫球蛋白的全部或部分的或由免疫球蛋白的全部或部分组成的任何蛋白质，包括全长抗体、Fc片段和Fc融合蛋白，特别是IgA、IgD和IgG3同种型的那些。O-连接糖蛋白的另一个实例是依那西普，依那西普具有许多O-糖基化位点，是人TNFα受体2的配体结合域与IgG1的Fc部分连接的融合蛋白。O-连接糖蛋白的其他实例包括促红细胞生成素(EPO)、TNFα受体、胎球蛋白和纤溶酶原。

底物糖蛋白的水解(即切割)通常以高特异性发生在O-糖基化丝氨酸或苏氨酸的N末端和紧密接近O-糖基化丝氨酸或苏氨酸的肽键处，并且是O-聚糖依赖性的。本发明的多肽优选能够切割这种与底物糖蛋白中的每个O-糖基化位点紧密接近的肽键。该反应优选不显示任何氨基酸特异性或限制性，并且特别地，不需要任何特定的氨基酸存在于O-糖基化的丝氨酸或苏氨酸的N末端。当使用标准质谱参数评估时，通常观察到切割位点在与每个O-糖基化残基的N末端紧邻的肽键处。

给定多肽的内切蛋白酶活性和特异性可以通过合适的测定手段来确定。例如，可以将标准的O-糖蛋白底物(例如IgA分子或促红细胞生成素(EPO))与测试多肽一起孵育。然后可以通过SDS-PAGE和/或质谱来分析起始材料和反应产物，以确定切割产物(如果有的话)的存在，并且如果需要还可以进一步表征那些产物。未O-糖基化的糖蛋白底物(例如IgG1分子)可以用作阴性对照。可以将结果与在底物与本发明的示例性多肽(例如由SEQ IDNO:2的氨基酸序列组成的多肽)接触时在相同测定中获得的结果进行比较。一个单位的SEQID NO:2的多肽定义为根据SDS-PAGE的监测，与一个单位唾液酸酶混合物组合在20mM Tris缓冲液(pH 6.8)中37℃下过夜消化大约90％的1μg促红细胞生成素(EPO)所需的量(优选的唾液酸酶混合物在下文中进一步描述)。测试多肽优选在以相同的量存在时达到相似的活性水平。示例性测定也在实施例中进行描述。

具有内切蛋白酶活性的多肽的结构特征

本部分列出了根据该实施方式的多肽的结构特征，除了在前一部分中概述的功能特征外，这些结构特征也适用。

多肽的长度通常至少为150、200、250、275、280、290、300、310、320、330、340、350或360个氨基酸。多肽的长度通常不大于400、395、390、385、380、375、370或365个氨基酸。应当理解，以上列出的任何下限可以与以上列出的任何上限组合以提供多肽长度的范围。例如，该多肽的长度可以为150至400个氨基酸，或长度为280至380个氨基酸。多肽的长度优选为340至380个氨基酸，多肽的长度最优选为360至375个氨基酸。

多肽的一级结构(氨基酸序列)基于嗜粘蛋白艾克曼菌的Amuc1119基因所编码的多肽的一级结构。该多肽的完整序列示于SEQ ID NO:4，该序列包括第1至24位上的信号基序。去除了信号基序的序列示于SEQ ID NO:1。

本发明的多肽可以包含SEQ ID NO:1的序列、基本上由SEQ ID NO:1的序列组成或由SEQ ID NO:1的序列组成。

可供选择地，本发明的多肽可以包含以下、基本上由以下组成或由以下组成：与SEQ ID NO:1的氨基酸序列至少50％一致的SEQ ID NO:1的氨基酸序列的变体。变体序列可以与SEQ ID NO:1的氨基酸序列至少60％、至少70％、至少80％、至少、85％、至少90％、至少95％、至少98％或至少99％一致。一致性水平优选为至少85％或更高。相对于SEQ ID NO:1的序列的一致性可以在SEQ ID NO:1所示的序列的至少100、至少200、至少300或至少350或更多个连续氨基酸的区域上测量，或更优选在SEQ ID NO:1的全长上测量。变体的长度通常比参考序列长或短不超过50个氨基酸，并且优选具有与参考序列大约(或完全)相同的长度。

可以使用任何合适的算法来计算氨基酸一致性。例如，PILEUP和BLAST算法可用于计算一致性或将序列对齐(例如识别等效序列或相应序列(通常在其默认设置上))，如在Altschul S.F.(1993)J Mol Evol 36:290-300；Altschul,S,F et al(1990)J Mol Biol215:403-10中所描述。进行BLAST分析的软件可通过美国国家生物技术信息中心(NationalCenter for Biotechnology Information；http://www.ncbi.nlm.nih.gov/)公开获得。该算法涉及首先通过在与数据库序列中相同长度的字比对时在匹配或满足一些正值阈值得分T的查询序列中鉴定长度为W的短字来鉴定高评分序列对(HSP)。T被称为邻近字得分阈值(Altschul et al，同上)。这些最初的邻近字命中充当启动搜索以查找包含它们的HSP的种子。字命中沿着每个序列在两个方向上延伸，直到可以增加累积比对得分为止。在以下情况下，停止在每个方向上的字命中扩展：累积比对得分从其最大实现值下降了数量X；由于一个或多个负得分残基比对的累积，累积得分变为零或更低；或到达任一序列的末尾。BLAST算法参数W、T和X确定比对的灵敏度和速度。BLAST程序使用默认值字长(W)为11，BLOSUM62评分矩阵(请参见Henikoff and Henikoff(1992)Proc.Natl.Acad.Sci.USA 89:10915-10919)比对(B)为50，期望(E)为10，M＝5，N＝4，以及对两条链的比较。

BLAST算法对两个序列之间的相似性进行统计分析。参见例如Karlin andAltschul(1993)Proc.Natl.Acad.Sci.USA 90:5873-5787。BLAST算法提供的一种相似性度量是最小总和概率(P(N))，最小总和概率(P(N))提供偶然会发生两个多核苷酸或氨基酸序列匹配的概率的指示。例如，如果第一序列与第二序列相比的最小总和概率小于约1，优选小于约0.1，更优选小于约0.01，并且最优选小于约0.001，则认为该序列与另一个序列相似。可供选择地，UWGCG软件包提供BESTFIT程序，该程序可用于计算一致性(例如以其默认设置使用)(Devereux et al(1984)Nucleic Acids Research 12,387-395)。

本发明的多肽的序列可以包含相对于SEQ ID NO:1氨基酸序列进行了修饰(例如氨基酸添加、缺失或取代)的SEQ ID NO:1序列的变体。除非另有说明，修饰优选是保守氨基酸取代。保守取代用具有相似化学结构、相似化学性质或相似侧链体积的其他氨基酸来替代氨基酸。所引入的氨基酸可以具有与它们所替代的氨基酸相似的极性、亲水性、疏水性、碱性、酸性、中性或电荷。可供选择地，保守取代可以引入另一种芳族或脂族氨基酸替代现有的芳族或脂族氨基酸。保守的氨基酸变化是本领域熟知的，并且可以根据以下表A1中定义的20种主要氨基酸的性质进行选择。在氨基酸具有相似的极性的情况下，可以通过参考表A2中氨基酸侧链的亲水性等级来确定。本发明的多肽序列可以包含SEQ ID NO:1的氨基酸序列进行了多达10、20、30、40、50或60个保守取代的变体。

表A1-氨基酸的化学性质

表A2-亲水等级

本发明的多肽的氨基酸序列可以包含如上所述的SEQ ID NO:1的氨基酸序列的变体。然而，SEQ ID NO:1的氨基酸序列中的某些残基优选保留在所述变体序列内。例如，所述变体序列通常保留已知内切蛋白酶活性所需的某些残基。因此，优选将SEQ ID NO:1的第182位(与SEQ ID NO:4的第206位对应)的谷氨酸保留在本发明多肽的氨基酸序列中。该残基被认为是在活性部位进行电子转移所需的。因此，本发明的多肽通常包括SEQ ID NO:1的氨基酸序列的变体，所述变体在所述变体序列的与SEQ ID NO:1的第182位对应的位置处具有谷氨酸(E)。类似地，SEQ ID NO:1的第181位(与SEQ ID NO:4的第205位对应)上的组氨酸优选保留在本发明多肽的氨基酸序列中。该残基被认为是与锌离子辅因子结合所需的。

所述谷氨酸和所述组氨酸残基通常都包含在具有基序HEbbH的金属蛋白酶结构域中，其中b是不带电荷的氨基酸，例如氨基酸A、C、F、G、I、L、M、N、P、Q、S、T、V或W。这样的结构域的优选实例有序列HELGH(SEQ ID NO:41)，该序列与SEQ ID NO:1的第181至185位对应(与SEQ ID NO:4的第205至209位对应)。从而，本发明的多肽通常包含SEQ ID NO:1的氨基酸序列的变体，该变体在与SEQ ID NO:1的第181至185位对应的位置处包含基序HEbbH(例如HEIGH(SEQ ID NO:42)或HELGH，优选HELGH)。本发明的多肽通常包含位于金属蛋白酶结构域C末端的O-聚糖特异性结合域。

基序HEbbH可在具有基序abxHEbbHbc的较大的金属蛋白酶结构域内受损，其中a是氨基酸V、T或G，b是不带电荷的氨基酸，例如氨基酸A、C、F、G、I、L、M、N、P、Q、S、T、V或W，x是任何氨基酸，c是疏水性氨基酸，例如A、C、F、I、L、M、P、V、W或Y。这样的结构域的优选实例具有序列GMAHELGHGL(SEQ ID NO:8)，该序列与SEQ ID NO:1的第178至187位对应(SEQ ID NO:4的第202至211位)。其它实例包括GVAHELGHNF(SEQ ID NO:43)。因此，本发明的多肽优选包含SEQ ID NO:1的氨基酸序列的变体，该变体包含在与SEQ ID NO:1的第178至187位对应的位置处的基序abxHEbbHbc(例如GMAHELGHGL或GVAHELGHNF，优选GMAHELGHGL)。本发明的多肽通常包含位于金属蛋白酶结构域C末端的O-聚糖特异性结合域。

可供选择地，本发明的多肽可包含以下，基本上由以下组成或由以下组成：SEQ IDNO:1的较短片段或其如上所述的变体。所述片段可以描述为保留O-糖蛋白特异性内切蛋白酶活性的SEQ ID NO:1的截短形式。这样的片段比SEQ ID NO:1短，并且长度通常为至少100、150或200个氨基酸。所述片段通常包括在与SEQ ID NO:1的第178至187位对应的位置处的金属蛋白酶结构域和位于金属蛋白酶结构域的C末端的O-聚糖特异性结合域，该金属蛋白酶结构域包括与SEQ ID NO:1的第182位对应的位置处的谷氨酸残基(E)和与SEQ IDNO:1的第181位对应的位置处的组氨酸残基(H)。

包含SEQ ID NO:1的本发明的任何多肽或其变体或其任一片段可任选地在N末端包括另外的甲硫氨酸和在C末端包括组氨酸或其他标签。这样的另外的序列可有助于表达和/或纯化。组氨酸标签优选由六个组氨酸残基组成。组氨酸标签优选通过通常是短氨基酸序列(例如3至5个氨基酸)的接头连接至C末端。接头通常主要由甘氨酸和丝氨酸残基组成，并且可以优选地包括序列GSG。例如，GSG和GSGLE是合适的接头。

因此，总之，本发明的多肽是一种具有O-糖蛋白特异性内切蛋白酶活性的多肽，所述多肽包含：

(a)SEQ ID NO:1的氨基酸序列；

(b)与SEQ ID NO:1的氨基酸序列至少85％一致的氨基酸序列；或

(c)这样的氨基酸序列：所述氨基酸序列为SEQ ID NO:1的序列的片段或与SEQ IDNO:1的氨基酸序列85％一致的氨基酸的片段；

任选地，其中所述多肽在N末端包括另外的甲硫氨酸和/或在C末端包括组氨酸标签，该标签可以通过接头与C末端连接。

本发明的示例性多肽的序列以SEQ ID NO:2提供。该多肽可以包含SEQ ID NO:2的氨基酸序列或由SEQ ID NO:2的氨基酸序列组成。编码该多肽的示例性多核苷酸序列示于SEQ ID NO:3。

具有O-糖蛋白特异性内切蛋白酶活性的可供选择的多肽已在铜绿假单胞菌PAO1、多形拟杆菌VPI-5482和产气荚膜梭菌中鉴定出来(参见Noach et al；PNAS 2017,pE679-688和支持附录，特别是用于克隆、蛋白表达和纯化的材料和方法(Materials and Methodsfor Cloning,Protein Expression and Purification)中描述的三种肽酶)。这些多肽的全长序列以SEQ ID NO:32、33和34提供。这些序列中的每种都包括如上所述的具有基序HEbbH的金属蛋白酶结构域。产气荚膜梭菌序列也具有如上所述的具有基序abxHEbbHbc的较长的金属蛋白酶结构域。这些序列中的每种可以任选地进行修饰，以去除可能存在的任何信号序列或酶原序列和/或包括在N末端的另外的甲硫氨酸和/或包括在C末端的组氨酸或其他标签。这样的另外的序列可以帮助表达(例如在大肠杆菌中)和/或纯化。去除信号和其他未成熟序列的相应序列以SEQ ID NO:26、27和28提供。针对在大肠杆菌中表达和随后纯化(通过在N末端包括另外的甲硫氨酸和/或在C末端包括组氨酸标签)而优化的这些序列的版本以SEQ ID NO:29、30和31提供。在本文所述的具有O-糖蛋白特异性内切蛋白酶活性的本发明多肽的使用方法中，本发明的多肽可以任选地被这些多肽之一替代。因此，用于这样的方法的优选多肽包含SEQ ID NO:26至31中的任一种，基本上由SEQ ID NO:26至31中的任一种组成或由SEQ ID NO:26至31中的任一种组成。

利用多肽内切蛋白酶活性的方法

本发明还提供了一种水解O-糖蛋白的方法，其中所述方法包括使所述蛋白的样品与具有O-糖蛋白特异性内切蛋白酶活性的本发明的多肽接触，并且任选地还包括检测水解产物。

本发明还可以包括一种用于评估蛋白质的糖基化状态的方法，该方法包括使所述样品与具有O-糖蛋白特异性内切蛋白酶活性的本发明的多肽接触和分析所产生的产物。切割产物的存在表明所述样品中的蛋白质是O-糖基化的，因此该方法也可用于检测O-糖蛋白。可以任选地进一步分析切割产物以鉴定聚糖链及其与蛋白质的连接位置。

在这样的方法中，在适于多肽与样品中的任何蛋白质相互作用并且适于发生水解/切割反应(内切蛋白酶活性)的条件下，使样品与本发明的多肽接触。合适的条件包括与本发明的多肽孵育至少20分钟、30分钟、40分钟、50分钟、60分钟、70分钟、80分钟、90分钟或120分钟、3小时、5小时、10小时或过夜。孵育优选在室温下进行，更优选在约20℃、25℃、30℃、35℃、40℃或45℃下，最优选在约37℃下进行。上述方法可以在任何合适的pH下进行。合适的pH值包括例如约3.0、3.5、4、4.5、5、5.5、6、6.5、7、7.5、8、8.5、9或9.5的pH。本发明多肽的活性的优选pH在5.6至6.8的范围内。该方法可以在任何合适的缓冲液中进行，例如tris缓冲盐水(TBS)或磷酸盐缓冲盐水(PBS)。本发明的多肽与样品的蛋白质含量(酶:底物)的近似比例可以是1:1、2:1、4:1、6:1、10:1、15:1、20:1、1:2、1:4或1:6、1:10、1:15、1:20、1:40、1:100、1:200或1:400。优选的比例是1:20。如果需要更短的反应时间，或者如果O-糖蛋白大量唾液酸化，则较高的酶与底物的比例可能是有益的。可供选择地，如下文中更详细地讨论的，可以使用较早或同时的唾液酸酶孵育步骤来降低唾液酸含量。底物通常以0.1mg/ml至10mg/ml，优选为约0.1mg/ml至2mg/ml的浓度存在。

可以通过任何合适的分析方法来评估所产生产物的检测或分析，所述分析方法例如但不限于质谱、HPLC、亲和色谱、凝胶电泳、SDS-PAGE、ELISA、凝集素印迹、光谱测定、毛细管电泳和其他标准的实验室蛋白质分析技术。

上述任何方法中的样品可以是取自患者，优选人类患者的样品。获得的结果可以用于诊断目的，例如用以检测涉及O-连接的糖基化的癌症的存在。这样的用途可以涉及将从患者样品获得的结果与使用从健康对照获得的样品得到的结果进行比较。

在本发明的任何方法中，该多肽可以与另一种酶(例如蛋白酶或糖苷酶)组合使用。另外的蛋白酶或糖苷酶通常将进一步消化底物蛋白，这可增强本发明的多肽的活性和/或允许更容易或更详细地分析产物。

例如，本发明人已经确定，如果首先修饰底物蛋白的O-聚糖以去除唾液酸，则本发明的多肽表现出改善的内切蛋白酶活性。因此，在本发明的优选方法中，使样品与试剂接触以去除唾液酸。所述试剂优选可以是唾液酸酶或这样的酶的混合物，所述唾液酸酶或这样的酶的混合物可以存在于合适的缓冲液例如TBS或PBS中。缓冲液优选包含低浓度的NaCl，通常最高至300mM、250mM、200mM或150mM。NaCl浓度优选为约150mM，例如125mM至175mM。唾液酸酶(或神经氨酸酶)催化末端唾液酸从糖蛋白上的复杂碳水化合物中被切割，并显示出高度的特异性。这些酶靶向O-糖蛋白中常见的三个独特的唾液酸键，即α2-3、α2-6和α2-8键。适用于所述方法的唾液酸酶包括靶向所有α2-3、α2-6或α2-8键的广谱唾液酸酶，以及通常仅靶向一种类型的键的窄谱唾液酸酶。α2-3键是人类糖蛋白中最常见的键，因此，如果使用窄谱唾液酸酶，则该窄谱唾液酸酶优选靶向该键。合适的唾液酸酶可以包括病毒或哺乳动物唾液酸酶，但是优选是自细菌分出的唾液酸酶，所述细菌包括但不限于产气荚膜梭菌，产脲节杆菌(Arthrobacter ureafaciens)，肺炎链球菌(Streptococcus pneumoniae)，霍乱弧菌(Vibrio cholera)和嗜粘蛋白艾克曼菌的菌株。

优选的窄谱唾液酸酶是从嗜粘蛋白艾克曼菌分出的Am1757。Am1757对α2-3键具有特异性活性。Am1757的野生型序列以SEQ ID NO:9提供，SEQ ID NO:9包括信号序列。缺少信号序列的Am1757的野生型序列以SEQ ID NO:10提供。可以任选地修饰这些序列，以在N末端包括另外的甲硫氨酸和/或在C末端包括组氨酸或其他标签。这样的另外的序列可以帮助表达(例如在大肠杆菌中)和/或纯化。组氨酸标签优选由六个组氨酸残基组成。组氨酸标签优选通过通常是短氨基酸序列(例如3至5个氨基酸)的接头连接至C末端。接头通常主要由甘氨酸和丝氨酸残基组成，并且可以优选地包括序列GSG。例如，GSG和GSGLE是合适的接头。在N末端具有另外的甲硫氨酸且在C末端具有GSGLE接头和His₆标签的示例性的Am1757序列以SEQ ID NO:11提供。本发明中任何对Am1757的提及都可以表示SEQ ID NO：9、10或11中的任一种，但优选地是指包含SEQ ID NO:10的氨基酸序列或由SEQ ID NO:10的氨基酸序列组成的多肽。最优选地是由SEQ ID NO:11的氨基酸序列组成的多肽。

优选的广谱唾液酸酶是从嗜粘蛋白艾克曼菌分出的Am0707。Am0707对α2-3、α2-6和α2-8键具有活性。Am0707的野生型序列以SEQ ID NO:12提供，SEQ ID NO:12包括信号序列。缺少信号序列的Am0707的野生型序列以SEQ ID NO:13提供。可以任选地修饰这些序列，以在N末端包括另外的甲硫氨酸和/或在C末端包括组氨酸或其他标签。这样的另外的序列可以帮助表达和/或纯化。组氨酸标签优选由六个组氨酸残基组成。组氨酸标签优选通过通常是短氨基酸序列(例如3至5个氨基酸)的接头连接至C末端。接头通常主要由甘氨酸和丝氨酸残基组成，并且可以优选地包括序列GSG。例如，GSG和GSGLE是合适的接头。在N末端具有另外的甲硫氨酸且在C末端具有GSGLE接头和His₆标签的示例性的Am0707序列以SEQ IDNO:14提供。本发明中任何对Am0707的提及都可以表示SEQ ID NO：12、13或14中的任一种，但优选地是指包含SEQ ID NO:13的氨基酸序列或由SEQ ID NO:13组成的多肽。最优选地，是由SEQ ID NO:14的氨基酸序列组成的多肽。

能够水解所有唾液酸键的优选的唾液酸酶混合物包含从嗜粘蛋白艾克曼菌分出的Am1757和Am0707。Am1757和Am0707的比例通常为1:1。特别优选的混合物可以包含由SEQID NO:11的氨基酸序列组成的多肽和由SEQ ID NO:14的氨基酸序列组成的多肽。

本发明的方法可优选包括在适合唾液酸酶活性的条件下，在本发明的多肽之前或与本发明的多肽同时，将样品与Am1757或与Am1757和Am0707的混合物一起孵育。本发明还提供了包含本发明的多肽以及Am1757或Am1757和Am0707的混合物的组合物(冻干或溶液形式)。这样的组合物可以优选在pH可约为7.6的tris缓冲盐水中冻干。在这样的组合物中，Am1757和Am0707将优选彼此以1:1的比例存在，并且总唾液酸酶含量(Am1757+Am0707)相对于本发明的多肽也以1:1的比例存在。例如，如果组合物包含2000个单位的本发明的多肽，则该组合物还将包含2000个单位的唾液酸酶，其中所述2000个单位的唾液酸酶包含1000个单位的Am1757和1000个单位的Am0707。一个单位唾液酸酶混合物通常是当在20mM Tris pH6.8中在37℃下孵育2小时时，根据SDS-PAGE所监测的，从大约90％的1μg糖蛋白(胎球蛋白)中水解唾液酸所需的量。一个单位的本发明的多肽通常是当在20mM Tris缓冲液(pH 6.8)中孵育时，根据SDS-PAGE所监测的，与一个单位唾液酸酶混合物在37℃下过夜消化大约90％的1μg促红细胞生成素(EPO)所需的量。

本发明还提供了一种试剂盒，该试剂盒在单独的容器中包含来自Am1757或Am1757和Am0707的混合物的本发明的多肽，以及关于不同酶的组合使用的说明。

作为另一个实例，在本文所述的任何方法中，在将样品与本发明的多肽接触之前、同时或之后，可以将样品与N-糖苷酶一起孵育，以从靶蛋白去除N-聚糖。示例性的N-糖苷酶是PNGaseF。当样品包括免疫球蛋白时，可以使用的其他N-糖苷酶是EndoS(参见WO2008071418的SEQ ID NO:1)或EndoS2(可以称为EndoS49，参见WO2013037824的SEQ IDNO:1)。这些酶中的每一种均从IgG1的Asn-297去除N-连接的糖蛋白。在特别的实施方式中，除了本发明的多肽之外，样品还可以与N-糖苷酶和唾液酸酶(或其混合物)接触。在这样的方法中，可以在同时添加N-糖苷酶和本发明的多肽之前首先应用唾液酸酶(或混合物)。这种方法特别适合于随后的O-糖基化位点的评估，通常通过分离产物(例如使用RPLC)和对不同的级分的后续分析(例如使用质谱)来实现。

作为另一个实例，在本文所述的任何方法中，在将样品与本发明的多肽接触之前、同时或之后，可以将样品与蛋白酶一起孵育以进一步消化靶蛋白。合适的一般蛋白酶包括胰蛋白酶、胰凝乳蛋白酶、Lys-C、Asp-N、Glu-C、Arg-C或类似的内切蛋白酶、或牙龈卟啉单胞菌(Porphyromonas gingivalis)的Arg-牙龈蛋白酶(RgpB)。

如果样品包括免疫球蛋白，则可以使用免疫球蛋白蛋白酶，例如SpeB(参见WO2015040125中的序列)，化脓性链球菌(S.pyogenes)的免疫球蛋白G降解酶(IdeS-参见WO2015040125的序列)，马链球菌兽疫亚种的免疫球蛋白G降解酶(IdeZ)，牙龈卟啉单胞菌的Lys-牙龈蛋白酶(Kgp)和无乳链球菌(S.agalactiae)的免疫球蛋白G降解酶(IgdE_无乳-参见PCT/EP2017/052463的SEQ ID NO:3)。在本发明的方法中使用这些蛋白酶的任何组合可有助于例如使用质谱(自中向下(middle down)法)确定单克隆抗体及其亚基上的O-糖基化位点。

作为另一个实例，在本文描述的任何方法中，在使样品与本发明的多肽接触之后，可以将样品与O-糖苷酶一起孵育。例如，为了简化对产生的产物的分析，在通过任何合适的方法进一步分析之前，通过O-糖苷酶使产物进行消化以除去O-聚糖。合适的O-糖苷酶可从以下细菌获得：粪肠球菌(Enterococcus faecalis)、口腔链球菌(Streptococcusoralis)、两歧双歧杆菌(Bifidobacterium bifidum)，优选粪肠球菌或口腔链球菌，最优选口腔链球菌。来自口腔链球菌的示例性O-糖苷酶的序列以SEQ ID NO:15提供。

与O-糖蛋白结合但缺乏内切蛋白酶活性或具有降低的内切蛋白酶活性的多肽

缺乏内切蛋白酶活性的多肽的功能特征

在一种实施方式中，本发明涉及一种在保持结合O-聚糖的能力的同时缺乏内切蛋白酶活性或具有降低的内切蛋白酶活性的多肽。换句话说，该多肽可以被描述为不显著水解连接有所述聚糖的糖蛋白的O-聚糖特异性结合剂。

O-糖蛋白内切蛋白酶活性可以使用任何合适的方法来确定，但是通常可以采用与上文针对具有这样的活性的本发明多肽所述相同的测定法。与O-糖蛋白底物一起孵育后，不存在切割产物将表明测试多肽中缺乏活性。包含SEQ ID NO:1的氨基酸序列的多肽对相同底物的切割可以用作阳性对照。可以通过与相同对照比较来确定测试多肽的活性的降低。本发明的多肽通常具有相对于包含SEQ ID NO:1的氨基酸序列的多肽的活性降低的O-糖蛋白内切蛋白酶活性。与SEQ ID NO:1氨基酸序列的多肽的活性相比，本发明的多肽通常具有小于95％、90％、85％、80％、75％、70％、65％、60％、55％、50％、45％、40％、35％、30％、25％、20％、15％、10％或5％的O-糖蛋白内切蛋白酶活性。

多肽与O-聚糖或O-糖蛋白结合的能力也可以通过任何合适的方法来评估。一种这样的方法涉及将测试多肽固定在例如旋转柱中的琼脂糖凝胶上，然后与含有O-糖蛋白和/或O-聚糖的样品一起孵育。如果测试多肽具有O-聚糖和/或O-糖蛋白结合能力，则可检测到O-糖蛋白和/或O-聚糖结合到色谱柱或在随后的洗脱液中。优选地，该多肽能够结合可被包含SEQ ID NO:1的氨基酸序列的多肽水解的所有O-糖蛋白。

在实施例中描述了该类型的示例性测定。

缺乏内切蛋白酶活性的多肽的结构特征

本部分列出了根据该实施方式的多肽的结构特征，除了在前面部分中概述的功能特征外，这些结构特征也适用。除了通过一个或多个氨基酸的添加、缺失或取代来修饰氨基酸序列使得所述活性降低或消除之外，根据本发明该实施方式的多肽可具有与具有内切蛋白酶活性的多肽相同的上述结构特征。通常，根据本发明该实施方式的多肽将不包括完整的金属蛋白酶基序HEbbH或abxHEbbHbc。所述基序可以通过添加、缺失或取代而被破坏，优选通过至少一个氨基酸取代而被破坏。优选地，取代涉及用可供选择的氨基酸取代所述基序中的谷氨酸(E)残基和/或替代与较短的基序的第1位(较长的基序的第4位)对应的位置中的组氨酸(H)残基和/或替代与较短的基序的第5位(较长的基序的第8位)对应的位置中的组氨酸(H)残基。优选地，三种所述取代中的一种或两种或全部是非保守的。E残基的取代应减少或消除电子转移。H残基中任一个的取代应减少或消除锌离子辅因子结合。因此，E残基优选被非极性或不带电荷的氨基酸取代，例如A、C、F、G、I、L、M、N、P、Q、S、T、V或W，但是大多数优选被丙氨酸(A)或甘氨酸(G)取代。H残基可各自独立地被任何非H氨基酸取代，但是非极性氨基酸(例如A和G)仍然是优选的。

因此，本发明的多肽可以包含SEQ ID NO:1的氨基酸序列、基本上由SEQ ID NO:1的氨基酸序列组成或由SEQ ID NO:1的氨基酸序列组成，在SEQ ID NO:1的氨基酸序列中，金属蛋白酶基序HEbbH或abxHEbbHbc优选通过用可供选择的氨基酸替代在与SEQ ID NO:1的182位对应的位置处的谷氨酸残基和/或替代在与SEQ ID NO:1的181位对应的位置处的位置处的组氨酸残基和/或用可供选择的氨基酸替代在SEQ ID NO:1的185位对应的位置处的组氨酸残基而被破坏。换句话说，该多肽可被描述为不包含金属蛋白酶基序HEbbH，并且优选包含所述基序的破坏形式，使得：

(a)第一位的H被可供选择的氨基酸替代，所述可供选择的氨基酸优选A或G；和/或

(b)第二位的E被不带电荷的氨基酸替代，所述不带电荷的氨基酸任选地为A、C、F、G、I、L、M、N、P、Q、S、T、V或W，优选为A或G；和/或

(c)第五位的H被可供选择的氨基酸，优选A或G替代，

其中所述基序中的b是不带电荷的氨基酸，任选地为A、C、F、G、I、L、M、N、P、Q、S、T、V或W。

因此，所述多肽可以描述为包含基序xbbbx，其中：

(a)x优选为除H以外的任何氨基酸，并且优选为A或G；和/或

(b)b是不带电荷的氨基酸，任选地为A、C、F、G、I、L、M、N、P、Q、S、T、V或W，优选A或G；

任选地，其中所述基序存在于所述多肽中与SEQ ID NO:1的第181至185位相对应的位置。

因此，所述多肽可以包含破坏的金属蛋白酶基序，例如具有以下序列中的任何一个：HALGH(SEQ ID NO:44)、AELGH(SEQ ID NO:45)或最优选AALGH(SEQ ID NO:46)。包含这种类型的对SEQ ID NO:1的特异性改变的序列示于SEQ ID NO:5和SEQ ID NO:20。换句话说，因此，本发明该实施方式的多肽可以包含SEQ ID NO:5或SEQ ID NO:20的氨基酸序列、基本上由SEQ ID NO:5或SEQ ID NO:20的氨基酸序列组成或由SEQ ID NO:5或SEQ ID NO:20的氨基酸序列组成。

所述多肽可替代地被描述为包含基序abxxbbbxbc，其中：

(a)a为氨基酸V、T或G；

(c)x是任何氨基酸，除了基序的第4位和/或第8位的氨基酸优选不是N，并且优选是A或G；和

(d)c为疏水性氨基酸，任选地为A、C、F、I、L、M、P、V、W或Y；任选地，其中所述基序存在于所述多肽中在与SEQ ID NO:1的第178至187位对应的位置处。

因此，所述多肽可以包含破坏的金属蛋白酶基序，例如具有以下序列中的任一种：GMAHALGHGL(SEQ ID NO:23)，GMAAELGHGL(SEQ ID NO:24)或最优选GMAAALGHGL(SEQ IDNO:25)。包含这种类型的对SEQ ID NO:1的特异性改变的序列示于SEQ ID NO:5和SEQ IDNO:20。因此，换句话说，本发明该实施方式的多肽可以包含SEQ ID NO:5或SEQ ID NO:20的氨基酸序列、基本上由SEQ ID NO:5或SEQ ID NO:20的氨基酸序列组成或由SEQ ID NO:5或SEQ ID NO:20的氨基酸序列组成。

可供选择地，本发明的多肽可以包含以下、基本上由以下组成或由以下组成：与SEQ ID NO:5的氨基酸序列至少50％一致的SEQ ID NO:5或SEQ ID NO:20的氨基酸序列的变体，条件是在与SEQ ID NO:1的第182位对应的位置处不引入谷氨酸残基和/或在与SEQID NO:1的第181位对应的位置处不引入组氨酸残基和/或在与SEQ ID NO:1的第185位对应的位置处不引入组氨酸残基。

变体序列可以与SEQ ID NO:5的序列至少60％、至少70％、至少80％、至少85％、至少90％、至少95％、至少98％或至少99％一致。一致性水平优选为至少85％或更高。相对于SEQ ID NO:5或SEQ ID NO:20的序列的一致性可以在SEQ ID NO:5或SEQ ID NO:20所示的序列的至少100、至少200、至少300或至少350或更多个连续氨基酸的区域上测量，或更优选在SEQ ID NO:5或SEQ ID NO:20的全长上测量。本发明的多肽的序列可以包含SEQ ID NO:5或SEQ ID NO:20的进行了多达10、20、30、40、50或60个保守取代的氨基酸序列的变体。序列一致性的确定以及对保守和非保守取代的解释在与具有内切蛋白酶活性的多肽有关的部分中提供，并且在此同样适用。

可供选择地，本发明的多肽可以包含以下、基本上由以下组成或由以下组成：SEQID NO:5或SEQ ID NO:20的较短片段或其如上所述的变体。所述片段可以描述为SEQ IDNO:5或SEQ ID NO:20的保留O-糖蛋白结合活性的截短形式。这样的片段比SEQ ID NO:1短，并且长度通常为至少100、150或200个氨基酸。

包含SEQ ID NO:5或SEQ ID NO:20或其变体或其任一片段的本发明的任何多肽可任选地在N末端包括另外的甲硫氨酸和在C末端包括组氨酸或其他标签。这样的另外的序列可有助于表达和/或纯化。组氨酸标签优选由六个组氨酸残基组成。组氨酸标签优选通过通常是短氨基酸序列(例如3至5个氨基酸)的接头连接至C末端。接头通常主要由甘氨酸和丝氨酸残基组成，并且可以优选地包括序列GSG。例如，GSG和GSGLE是合适的接头。

因此，总而言之，本发明的多肽是具有O-糖蛋白结合活性但缺乏O-糖蛋白特异性内切蛋白酶活性或具有降低的O-糖蛋白特异性内切蛋白酶活性的多肽，该多肽包括：

(a)SEQ ID NO:5或SEQ ID NO:20的氨基酸序列；

(b)与SEQ ID NO:5或SEQ ID NO:20的氨基酸序列至少85％一致的氨基酸序列；

(c)这样的氨基酸序列：所述氨基酸序列为SEQ ID NO:5或SEQ ID NO:20的序列的片段或与SEQ ID NO:5或SEQ ID NO:20的氨基酸序列85％一致的氨基酸的片段；

本发明的示例性多肽的序列以SEQ ID NO:6提供。该多肽可以包含SEQ ID NO:6的氨基酸序列或由SEQ ID NO:6的氨基酸序列组成。编码该多肽的示例性多核苷酸序列示于SEQ ID NO:7。本发明的另一个示例性多肽的序列以SEQ ID NO:21提供。该多肽可以包含SEQ ID NO:21的氨基酸序列或由SEQ ID NO:21的氨基酸序列组成。编码该多肽的示例性多核苷酸序列示于SEQ ID NO:22。

所述多肽优选以固定形式提供，例如在琼脂糖或琼脂糖凝胶上，任选地以树脂形式提供。

具有O-糖蛋白结合活性但缺乏O-糖蛋白特异性内切蛋白酶活性或具有降低的O-糖蛋白特异性内切蛋白酶活性的本发明的另外的多肽可以通过破坏包含金属蛋白酶结构域基序HEbbH或abxHEbbHbc的具有O-糖蛋白特异性内切蛋白酶活性的任何其他多肽中的金属蛋白酶结构域基序HEbbH或abxHEbbHbc来产生。在本文所述的缺乏O-糖蛋白特异性内切蛋白酶活性或具有降低的O-糖蛋白特异性内切蛋白酶活性的本发明多肽的使用方法中，对本发明多肽的提及包括这样的多肽。优选如上所述地实现对所述基序的破坏，使得：

(c)第五位的H被可供选择的氨基酸，优选A或G替代，

其中所述基序中的b是不带电荷的氨基酸，任选地是A、C、F、G、I、L、M、N、P、Q、S、T、V或W。

因此，所述多肽可以描述为包含基序xbbbx，其中：

(a)x优选为除H以外的任何氨基酸，并且优选为A或G；和/或

上文描述了具有O-糖蛋白特异性内切蛋白酶活性并可能以这种方式被破坏的其他多肽，这些多肽已在铜绿假单胞菌PAO1、多形拟杆菌VPI-5482和产气荚膜梭菌中被鉴定出(参见Noach et al；PNAS 2017,pE679-688和支持附录，特别是用于克隆、蛋白表达和纯化的材料和方法(Materials and Methods for Cloning,Protein Expression andPurification)中描述的三种肽酶)。这些多肽的全长序列以SEQ ID NO:32、33和34提供。相应的成熟序列(例如，去除信号和其他序列)以SEQ ID NO:26、27和28提供。针对在大肠杆菌中表达和随后纯化(通过在N末端包括另外的甲硫氨酸和/或在C末端包括组氨酸标签)而优化的这些序列的变体以SEQ ID NO:29、30和31提供。因此，SEQ ID NO:26至34中每个都包含具有基序HEbbH的金属蛋白酶结构域以产生本发明的另外的多肽，所述基序HEbbH可以被破坏以产生如上所述的基序xbbbx。HEbbH基序已被如此破坏的SEQ ID NO:26、27和28的变体以SEQ ID NO:35、36和37提供。针对在大肠杆菌中表达和随后纯化(通过在N末端包括另外的甲硫氨酸和/或在C末端包括组氨酸标签)而优化的这些序列的变体以SEQ ID NO:38、39和40提供。缺乏O-糖蛋白特异性内切蛋白酶活性或具有降低的O-糖蛋白特异性内切蛋白酶活性的本发明的多肽可包含以下，基本上由以下组成或由以下组成：SEQ ID NO:35、36、37、38、39或40中的任一种。

使用缺少内切蛋白酶活性或具有降低的内切蛋白酶活性的LS突变体的方法

本发明还提供了与O-聚糖结合的方法，其中该方法包括使包含O-聚糖的样品与本发明的能够与O-聚糖结合并且缺乏O-糖基化蛋白特异性内切蛋白酶活性或具有降低的O-糖基化蛋白特异性内切蛋白酶活性的多肽接触。该方法任选地进一步包括确定是否已经结合O-聚糖和/或从所得混合物中分离出O-聚糖和任何连接的糖蛋白。

本发明还可以包括一种用于评估蛋白质的糖基化状态的方法，该方法包括使所述样品与本发明的能够与O-聚糖结合并且缺乏O-糖基化蛋白特异性内切蛋白酶活性或具有降低的O-糖基化蛋白特异性内切蛋白酶活性的多肽接触，以及确定蛋白质是否与所述多肽结合。

本发明还可以包括用于检测样品中的O-连接的糖蛋白的方法，其中该方法包括使所述样品与本发明的能够与O-聚糖结合并且缺乏O-糖基化蛋白特异性内切蛋白酶活性或具有降低的O-糖基化蛋白特异性内切蛋白酶活性的多肽接触，从而允许形成O-连接的糖蛋白-多肽复合物。该方法可以任选地包括从接触的样品中分离所述多肽，以及确定分离的多肽是否与O-连接的糖蛋白结合，从而确定样品中O-连接的糖蛋白存在或不存在。该方法还可用于从包含O-聚糖或O-连接的糖蛋白的样品中分出O-聚糖或O-连接的糖蛋白。

在这样的方法中，在适于使多肽与样品中的任何O-聚糖或蛋白质相互作用并发生结合的条件下，使样品与本发明的多肽接触。合适的条件包括与本发明的多肽孵育至少20分钟、30分钟、40分钟、50分钟、60分钟、70分钟、80分钟、90分钟或120分钟、3小时、5小时、10小时或过夜，通常伴随混合，例如颠倒混合。孵育优选在室温下进行，更优选在约20℃、25℃、30℃、35℃、40℃或45℃下，最优选在约37℃下进行。上述方法可以在任何合适的pH下实施。合适的pH值包括例如约3.0、3.5、4、4.5、5、5.5、6、6.5、7、7.5、8、8.5、9或9.5的pH。对于本发明多肽的活性，优选pH为5.6至6.8。该方法可以在任何合适的缓冲液中进行，例如tris缓冲盐水(TBS)或磷酸盐缓冲盐水(PBS)。本发明的多肽与样品的蛋白质含量的近似比例可以是1:1、2:1、4:1、6:1、10:1、15:1、20:1、1:2、1:4或1:6、1:10、1:15、1:20、1:40、1:100、1:200或1:400(wt:wt)。优选的比例是1:1(wt:wt)。如果需要更短的反应时间，或者如果O-糖蛋白大量唾液酸化，则较高的多肽与底物的比例可能是有益的。可供选择地，如下文中更详细地讨论的，可以使用较早或同时的唾液酸酶孵育步骤来降低唾液酸含量。底物的浓度通常为约0.01mg/ml至10mg/ml，优选为约0.1mg/ml至10mg/ml、约0.01mg/ml至2mg/ml或约0.1mg/ml至2mg/ml。

可以通过任何合适的分析方法来评估样品的检测或分析以确定是否已经结合O-聚糖或O-连接的糖蛋白，所述分析方法例如但不限于质谱、HPLC、亲和色谱、凝胶电泳、SDS-PAGE、ELISA、凝集素印迹、光谱测定、毛细管电泳和其他标准的实验室蛋白质分析技术。例如，可以分析多肽的分子量。与未结合O-聚糖或O-连接的糖蛋白的多肽相比，与O-聚糖或O-连接的糖蛋白结合的本发明的多肽将具有更高的分子量。

结合的O-聚糖或O-连接的糖蛋白和本发明的多肽的分离可以通过任何合适的分离手段实施。例如，分离手段可包括磁性纳米颗粒群。这些可以使用磁场分离，优选高梯度磁场分离来从样品中分离。试剂或分离手段的实例是能够结合本发明多肽的磁性颗粒群。例如，在用组氨酸标签使多肽衍生化的情况下，磁性颗粒在其表面上包含带有镍、铜或锌离子的螯合基团。可供选择地，在用生物素标签使多肽衍生化的情况下，磁性颗粒在其表面上包含链霉亲和素。

分离手段还可以包括固定有本发明的多肽的固体支持物。固体支持物的实例包括在先前部分中描述的那些，并且可以包括琼脂糖或琼脂糖凝胶树脂、交联的琼脂糖珠粒或类似物。支持物可以用作亲和色谱柱中的基质。可供选择地，固体支持物可包含可直接吸附本发明的多肽的合适的基于二氧化硅的材料或聚苯乙烯、或塑料容器，例如微量滴定板或等同物。

替代的分离手段包括包含可以通过本领域标准方法产生的对本发明的多肽的具有特异性的抗体的试剂。在这种意义上的抗体包括单克隆抗体、多克隆抗体、单链抗体、嵌合抗体、CDR移植抗体或人源化抗体。该抗体可以是完整的免疫球蛋白分子或其片段，例如Fab、F(ab')2或Fv片段。如果存在一种以上的抗体，则这些抗体优选具有不同的非重叠决定簇，使得这些抗体优选可以同时结合本发明的多肽。抗体可以结合到固体支持物上，或者可以标记或缀合到另一个化学基团或分子上，以帮助抗体分离或分出。例如，典型的化学基团包括荧光标记(例如荧光素(FITC)或藻红蛋白(PE))或标签(例如生物素)。

其他合适的分离手段包括通过使来自接触的样品的多肽与合适的洗脱缓冲液接触以从(通常是固定的)多肽洗脱蛋白质。洗脱缓冲液的选择可能取决于蛋白质的酸敏感性。优选的洗脱缓冲液可包含高摩尔浓度的尿素(通常至少5M、6M、7M或最优选至少8M)或高浓度的去污剂(通常至少约1％，5％或10％)。合适的去污剂包括Nonidet P40、Triton X-100、Tween 20、CHAPS、脱氧胆酸钠和RapiGest SF表面活性剂，但是十二烷基硫酸钠(SDS)是优选的。高摩尔尿素比去污剂更优选，因为下游程序更可能对去污剂的存在是敏感的。

另一种优选的洗脱缓冲液包含本发明的具有O-糖蛋白内切蛋白酶活性的多肽，例如SEQ ID NO:1的多肽。该多肽在O-聚糖处的切割将释放结合的O-糖蛋白，从而消除对基于尿素或去污剂的洗脱液的需求。

实施例中证明了从本发明的固定的多肽洗脱O-糖蛋白的优选方法。

上述任何方法中的样品可以是取自患者(优选人类患者)的样品。获得的结果可以用于诊断目的，例如用于检测涉及O-连接的糖基化的癌症的存在。这样的用途可以涉及将获得自患者样品的结果与使用自健康对照获得的样品得到的结果进行比较。

在本发明的任何方法中，该多肽可以与另一种酶(例如蛋白酶或糖苷酶)组合使用。另外的蛋白酶或糖苷酶通常将进一步消化底物蛋白质或聚糖，这可以使得对产物进行更容易或更详细的分析。

例如，本发明的多肽可以与试剂结合使用以去除唾液酸。所述试剂可以优选是唾液酸酶或以上部分中所述的这些酶的混合物。本发明还提供了包含本发明的多肽和Am1757或Am1757和Am0707的混合物的组合物(冻干或溶液形式)。本发明还提供一种试剂盒，该试剂盒在分离的容器中包含来自Am1757或Am1757和Am0707的混合物的本发明的多肽，以及关于不同酶组合使用的说明。

作为另一个实例，在本文所述的任何方法中，在将样品与本发明的多肽接触之前、同时或之后，可以将样品与N-糖苷酶一起孵育，以从靶蛋白去除N-聚糖。示例性的N-糖苷酶是PNGaseF。当样品包括免疫球蛋白时可以使用的其他N-糖苷酶是EndoS(参见WO2008071418的SEQ ID NO:1)或EndoS2(可以称为EndoS49-参见WO2013037824的SEQ IDNO:1)。这些酶中的每一种均从IgG1的Asn-297去除N-连接的糖蛋白。除了本发明的多肽之外，样品还可以与N-糖苷酶和唾液酸酶(或其混合物)接触。在这样的方法中，可以在同时添加N-糖苷酶和本发明的多肽之前首先应用唾液酸酶(或混合物)。

作为另一个实例，在本文所述的任何方法中，在将样品与本发明的多肽接触之前、同时或之后，可以将样品与蛋白酶一起孵育以进一步消化靶蛋白。合适的一般蛋白酶包括胰蛋白酶、胰凝乳蛋白酶、Lys-C、Asp-N、Glu-C、Arg-C或类似的内切蛋白酶、或牙龈卟啉单胞菌的Arg-牙龈蛋白酶(RgpB)。

如果样品包括免疫球蛋白，则可以使用免疫球蛋白蛋白酶，例如SpeB(参见WO2015040125中的序列)，化脓性链球菌(S.pyogenes)的免疫球蛋白G降解酶(IdeS-参见WO2015040125的序列)，马链球菌兽疫亚种的免疫球蛋白G降解酶(IdeZ)，牙龈卟啉单胞菌的Lys-牙龈蛋白酶(Kgp)和无乳链球菌(S.agalactiae)的免疫球蛋白G降解酶(IgdE_无乳-参见PCT/EP2017/052463的SEQ ID NO:3)。在本发明的方法中使用这些蛋白酶的任何组合可有助于例如使用质谱来分析底物蛋白质或聚糖。

作为另一个实例，在本文描述的任何方法中，在通过任何合适的方法进一步分析之前，可以将分出的O-连接的糖蛋白与O-糖苷酶一起孵育以去除O-聚糖。合适的O-糖苷酶可从以下细菌获得：粪肠球菌、口腔链球菌、或两歧双歧杆菌，优选粪肠球菌或口腔链球菌，最优选口腔链球菌。来自口腔链球菌的示例性O-糖苷酶的序列以SEQ ID NO:15提供。

以下实施例说明了本发明：

实施例1

材料和方法

LS的诱变

使用引物E206A_fwd 5’-ATGGCGCACGC GCTGGGCCACG-3’和5’-GCCACCGTACCATTTCGTC-3’(rev)，根据制造商的说明(退火温度68℃，延伸3分钟)，使用Q5(NEB)进行定点诱变；因此，将来自嗜粘蛋白艾克曼菌的Amuc1119基因中的谷氨酸变为丙氨酸，从而产生突变体Amuc1119_E206A(LS_E206A)。将构建体转化到DH5α大肠杆菌中，分离并使用测序(GATCBiotech)来验证。

LS和LS_E206A的重组表达

将来自嗜粘蛋白艾克曼菌ATCC BAA-835的基因Amuc1119和突变体Amuc1119_E206A(Amuc1119-LS；Amuc1119 _E206A-LS _E206A)针对在大肠杆菌(DNA 2.0)中表达进行优化，并克隆到具有作为融合蛋白的一部分的C末端6xHis标签的表达载体中。

将经密码子优化的基因转化到BL21(DE3)Star细胞中。在LB中在37℃下在180rpm下常规地培养大肠杆菌。在质粒存在下，添加50μg/mL卡那霉素。过夜孵育后，将培养物以1:20稀释在新鲜的LB(kana)中，并使培养物生长至OD₆₂₀约为0.7至0.8，之后通过添加1mMIPTG诱导重组蛋白表达，并且表达持续6小时，然后收集细胞并冷冻。将冷冻的细胞解冻并溶解在His结合缓冲液中(20mM NaP pH 7.4、500mM NaCl，20mM咪唑)中，进行超声处理以释放细胞内蛋白质。通过离心去除细胞碎片。在镍柱上对无菌的过滤的上清液进行亲和纯化，并在PD-25柱上重新缓冲至20mM Tris-HCl pH 8.0中。使用Nanodrop确定蛋白质的浓度，并通过SDS-PAGE估算纯度。

使用蛋白质底物进行活性评估

将TNFαR与LS以2:1的比例混合，并在37℃下孵育15至60分钟，然后在4％至20％Novex梯度SDS-PAGE上分离蛋白质。研究了NaCl(0至1M)、二价阳离子、EDTA和pH对LS活性的影响，并使用Gel Doc EZ(BioRad)通过光密度分析法测量了生成的水解片段的差异。

活性的时间和剂量依赖性

将TNFαR(0.5μg)与不同剂量的LS在PBS中于37℃孵育15或60分钟，然后在4％-20％Novex梯度SDS-PAGE上分离蛋白质。使用生成的片段的强度(光密度测定)确定有效孵育条件的最佳剂量和时间。

底物特异性

LS与各种N-连接和O-连接的底物在37℃下以2:1的比例(底物:酶)孵育过夜。LS与EPO(0.3mg/ml)以50:1的比例(底物:酶)孵育。将蛋白质分离，并在4％至20％Novex梯度SDS-PAGE凝胶上进行分析。

LS_E206A的固定

将LS_E206A重悬于偶联缓冲液(0.2M NaHCO₃,0.5M NaCl pH 8.3)中，并浓缩至20mg/ml。根据制造商的说明，准备了NHS活化的琼脂糖4Fast Flow(GE Healthcare)以进行偶联(例如，在偶联缓冲液中进行HCl洗涤和平衡)。LS_E206A通过用琼脂糖在4℃下过夜孵育而固定，缓慢摇动以保持恒定混合。通过添加0.1M Tris pH 8.5封闭琼脂糖，用0.1M Tris pH8.5/0.1M NaAc，0.5M NaCl pH 5.0重复洗涤3次，并保存在EtOH中直至使用。

LS_E206A的结合亲和力

PBS平衡的具有50μl固定的LS_E206A的旋转柱与10μg糖蛋白一起孵育，所述糖蛋白用唾液酸混合物(Am0707:Am1757)或用唾液酸和口腔链球菌内-α-N-乙酰半乳糖苷酶(例如O-糖苷酶)的组合进行了预处理。将样品在37℃下孵育2小时，此后用PBS(10体积；100g，30s)洗涤色谱柱，并用0.1M甘氨酸pH 3.0洗脱。在SDS-PAGE上分析级分。

质谱分析

依那西普是经临床批准的与TNFα结合的Fc融合蛋白。依那西普含有几种O-聚糖。为了测试酶促切割特异性，将内切蛋白酶与依那西普一起在37℃下孵育过夜。为了简化质谱分析，使用唾液酸酶和O-糖苷酶(过夜，在PBS中，所有单种酶的比例为1:40)进行了第二轮酶促处理，以去除残留的O-聚糖。在通过C18反相液相色谱使肽分离之后，通过MS/MS分析产生的肽。

结果

LS是推定的金属蛋白酶

基于序列和结构域的相似性，LS与几种金属蛋白酶具有同源性，包含推定的活性位点序列GMAHELGHGL，从而与一般的金属蛋白酶序列abxHEbbHbc(a＝V/T，b＝不带电荷的，c＝疏水性的)共有相似性。组氨酸通常参与底物结合和Zn²⁺亲和，而谷氨酸与组氨酸一起介导电子转移，从而介导水解作用。为了能够进一步表征该酶，我们构建了LS_E206A突变体，该突变体能够结合底物，但是通过将E改变为A而缺乏水解能力或具有降低的水解能力。进一步修饰(例如，将H改变为A)对于完全失活可能是必需的。两种构建体均表达良好，并且容易地基于其His标签使用亲和色谱法进行纯化(图1)。

LS特异性水解带有O-聚糖的糖蛋白

为了研究LS的底物特异性，将蛋白酶与多种蛋白质一起孵育。如图2所示，将LS与IgA和赫赛汀(曲妥珠单抗)一起孵育。LS仅能作用于具有O-连接的聚糖的蛋白质，例如IgA。尽管末端唾液酸的存在似乎部分地抑制LS的活性，但唾液酸的存在并不是水解的先决条件(图4)。

LS可以在多种条件下作用于O-连接的糖蛋白

实施SDS-PAGE凝胶的光密度分析，以评估LS的酶促性质。LS在大多数条件下是有活性的，优选略酸性的pH值和低NaCl浓度(图3A-B)。尽管Mg²⁺和Ca²⁺离子均积极影响LS的水解活性，但Zn ²⁺的存在显著降低了该活性，而EDTA则完全消除该活性(图3C-D)。

O-连接的半乳糖苷酶残基对LS的活性至关重要

尽管在不存在末端唾液酸的情况下具有增加的活性，但是O-聚糖中其他碳水化合物对LS活性的重要性还没有被完全理解。尽管在不存在末端唾液酸的情况下LS的活性显著增加，但是去除半乳糖完全抑制了LS的活性(图4A)。此外，如过夜孵育后的完全水解所证明，LS对唾液酸化蛋白的活性较低不是由于在唾液酸存在下不能使键水解(图4B)。LS的活性完全依赖于O-聚糖，因为去除N-聚糖不影响LS的水解(图4C)。

O-连接的聚糖引导LS的切割位点

已经证明了O-聚糖对于活性至关重要，我们接下来试图研究LS的特定切割位点。使用质谱，我们能够证明LS水解O-糖基化的Ser/Thr及其N末端氨基酸之间的氨基键，无论氨基酸的类型如何(例如似乎不能抑制脯氨酸水解)(图5)。

依那西普因其O-连接的聚糖丰度高而用作模型蛋白，将依那西普用LS处理，此后用O-糖苷酶进行后续处理以便于质谱分析。将质谱分析产生的m/z值与MS/MS数据相结合，拟合至依那西普。所有鉴定出的肽具有N末端丝氨酸或苏氨酸，这与LS仅切割O-聚糖的N末端一致(图5)。该分析以定向搜索(在参数中定义S/T水解；图5A)和无偏方法(图5B)鉴定了肽。

LS的水解失活变体特异性结合含O-聚糖的蛋白质

由于LS结合O聚糖并特异性水解紧邻聚糖(例如，紧邻Ser/Thr)的氨基酸键的能力，我们假设LS的E₂₀₆A突变体将缺乏水解活性，但保留结合能力。这样的工具对于以下以及其他将是有价值的：a)鉴定O-连接的糖蛋白，b)用于去除或用于研究的O-连接的糖肽的亲和纯化，以及c)对O-聚糖进行亲和纯化。

图6A显示突变体LS不具有任何可检测的水解活性。尽管在唾液酸酶存在下LS能够水解依那西普，但LSmut不能水解依那西普，这证实了在测试条件下遗传改变确实使O-糖基蛋白酶失活。

将LS_E206A固定在琼脂糖凝胶上，并添加到旋转柱上，以便于处理。重要的是，LS_E206A与不同底物的结合与LS的水解活性完全相关(图6B)。LS_E206A(标记为LS_mut)显示出对O连接的糖蛋白的特异性亲和力。通过将LS_mut固定在琼脂糖凝胶上，我们能够对IgA进行亲和纯化。然而，由于亲和力强，我们无法洗脱蛋白质。缺乏O-聚糖以及O-糖苷酶处理的IgA的赫赛汀(曲妥珠单抗)没有结合到色谱柱上，但可以在流过液(FT)中检测到。

2-3唾液酸键对于去除LS的全部活性是重要的

我们最近确定，内切蛋白酶活性依赖于特定的唾液酸键，从而为了完整的作用，必须去除2-3和2-6连接的唾液酸。为了确定特定唾液酸键对LS活性的单独作用，我们将Enbrel与不同的唾液酸酶和LS组合一起孵育了30分钟至20小时。对LS水解来说，去除2-3键似乎是足够的(图7)。

LS切割促红细胞生成素(EPO)

将EPO用PNGaseF、唾液酸酶(Smix，包含Am0707和Am1757)和/或O-糖苷酶处理，并与LS一起孵育。

然后通过SDS-PAGE和考马斯蓝染色以及RPLC和质谱来分析所得产物。SDS-PAGE的结果示于图9A，该图显示了当唾液酸被去除和当它们完好时，LS均会切割EPO。此外，LS还消化了已用PNGaseF去除N-聚糖的EPO，从而证实LS活性不受N-聚糖去除的影响。然而，当用O-糖苷酶去除O-聚糖时，LS不切割EPO，这表明LS切割蛋白需要O-聚糖。以10:1、5:1和2:1(底物:酶)的比例观察到了等效的结果(数据未显示)。

与PNGaseF、Smix和LS孵育后的样品混合物通过反相液相色谱来进行分离，并通过ESI质谱进行分析以鉴定酶促处理后的反应产物。

图9B显示了来自RPLC的UV色谱图。如所预期的，假设EPO仅具有一个建议的O-聚糖位置(参见下文的SEQ ID NO:14的预测位置)，则色谱图显示与由LS切割产生的2个片段对应的2个峰。

通过MS对这些片段进行了进一步分析(参见图9C和D)，并鉴定如下：

SAAPLRTITADTFRKLFRVYSNFLRGKLKLYTGEACRTGD(质量＝4900.5868Da–与序列C末端至切割位点对应，因此包括仍连接至N末端丝氨酸的O-聚糖)；和APPRLICDSRVLERYLLEAKEAEDITTGCAEHCSLDENITVPDTKVDFYAWKRMEVGQQAVEVWQGLALLSEAVLRGQALLVNSSQPWEPLQLHVDKAVSGLRSLTTLLRALGAQKEAISPPDAA(质量＝13714.1199Da，与序列N末端至切割点对应)。

因此，结合使用PNGaseF、唾液酸酶混合物和LS允许分出和精确鉴定EPO中带有O-聚糖的丝氨酸。这种类型的方法可适用于任何O-糖蛋白，并允许快速识别O-聚糖连接位置。

实施例2

介绍

实施例1中描述的LSE206A突变体掺入了LS的活性位点的定点突变(abxHEbbHbc至abxHAbbHbc)，从而去除了酶促切割的电子转移能力。如以下进一步解释的，在进一步的压力测试上，发现尽管这种改变相对于野生型序列降低了O-糖基蛋白酶的活性，但是并未完全消除该活性。因此，本发明人已经开发并表征了在酶促切割中掺入了另外的取代基的另一种突变体。具体而言，将对辅因子锌离子的取向重要的His残基替代为Ala。所得的双突变体被称为H205A/E206A(abxHEbbHbc变为abxAAbbHbc)。

2.1双突变体的产生

相对于嗜粘蛋白艾克曼菌的Amuc1119基因，将使用标准方案(例如如实施例1中的标准方案)进行的定点诱变用于将组氨酸和谷氨酸改变为丙氨酸，以产生双突变体Amuc1119H205A/E206A(LS_H205A/E206A)。如实施例1中所述，将构建体转化到大肠杆菌中，分出和使用测序进行验证。如实施例1中所述在大肠杆菌中进行表达。表达的蛋白质的序列以SEQ ID NO:21提供。

2.2双突变体的表征

2.2.1双突变体使LS的活性完全失活

如实施例1所示，鉴于单突变体LSE206A无法在2小时内水解O-糖蛋白，因此单突变体LSE206A被认为是失活的。然而，在压力测试中，发现O-糖基蛋白酶的活性没有完全被消除，而只是降低了，因为在更高的酶:O-糖蛋白比例和更长孵育时间下观察到了一些活性。

LSE206A:去唾液酸化的O-糖蛋白以1:1(wt:wt)的比例孵育24小时会导致底物的显著水解，尽管程度不如野生型LS(图10A)。相比之下，双突变LSH205A/E206A在过夜孵育后，甚至在酶:O-糖蛋白的比例为15:1(wt:wt)时也没有产生任何水解迹象(图10B)，表明该酶在添加第二种突变时是完全失活的。

2.2.2双突变体特异性结合O-糖蛋白

为了评估与不同蛋白的结合，固定的LS_H205A/E206A(50μl树脂)(使用与实施例1相同的方案制备)在PBS中平衡，此后以0.5mg/mL的浓度添加50μg不同的蛋白样品，在室温下颠倒旋转孵育2小时。流过液通过离心(200g，1分钟)来收集，树脂用350μl PBS洗涤3次。结合的蛋白质通过与50μl 8M尿素孵育5分钟，相继两次，然后离心(1000g，1分钟)来洗脱。所有样品均以相同体积上样。通过SDS-PAGE评估起始/上样材料、流过液和洗脱液。

在第一个实验中(参见图11A)，用唾液酸酶混合物(Am0707:Am1757)或唾液酸酶混合物与口腔链球菌内-α-N-乙酰半乳糖苷酶(例如O-糖苷酶)的组合预处理糖基化蛋白或非糖基化蛋白，然后与树脂一起孵育、洗涤并洗脱。根据制造商的说明，对样品进行预处理(唾液酸酶混合物+/-O-糖苷酶)。在不存在唾液酸的情况下，仅具有O-聚糖的蛋白质与树脂结合，并具有增加的亲和力。如用O-糖苷酶处理后缺乏相互作用所表明，O-聚糖的存在对于任何结合都是必不可少的。

在第二个实验中(参见图11B)，将N-糖基化蛋白、O-糖基化蛋白和非糖基化蛋白的混合物与LS双突变体树脂一起孵育。仅O-糖基化蛋白(TNFαR和ApoE)与基质结合，并用8M尿素洗脱。N-糖基化(阿柏西普、AGP(α-1-酸糖蛋白)、IgG的Fc结构域(IgG Fc))和非糖基化(BSA)未结合至LS双突变体树脂，并在流过液中被发现。因此，当该样品包含N-糖基化蛋白、O-糖基化蛋白和非糖基化蛋白的混合物时，双突变体树脂仅与O糖基化蛋白特异性结合。

在第三个实验中(参见图11C)，N-糖基化和非糖基化蛋白的混合物与LS双突变体树脂一起孵育。即使在不存在可能与O-糖蛋白竞争的情况下，也没有非特异性结合(均不存在)。在洗脱液中未发现蛋白质。因此，双突变体树脂不与缺乏O-聚糖的蛋白质结合。

2.2.3双突变体可以固定在不同浓度的树脂上以增强容量

为了研究提高固定的双突变体树脂结合更多O-糖基化蛋白的能力，在固定到树脂上的过程中使用了不同浓度的双突变体(5mg/mL至15mg/mL)。代表性凝胶示于图12A。所示的％是相对于阳性对照的结合水平，并通过凝胶的光密度分析来确定。结果显示在图12B的图表中。当在固定过程中使用较高浓度的双突变体时，观察到容量随较高的O-糖蛋白结合能力而呈剂量依赖性增加。使用15mg/mL的固定的双突变体继续进行进一步的实验。另外，即使在存在1M尿素和1M GHCl的情况下，也维持高度的O-糖蛋白结合，即便1M尿素和1MGHCl显著降低了结合效率。

2.2.4双突变体的亲和纯化能力为约3mg糖蛋白/mL树脂

为了专门研究双突变体树脂对O-糖蛋白的亲和纯化能力，以及样品浓度对该能力的影响，向树脂中添加了不同量和不同浓度的去唾液酸化依那西普。单个柱子(包含50μl双突变体树脂)具有结合约150μg O-糖蛋白的容量(即3mg O-糖蛋白/mL树脂)。图13显示了代表性的凝胶。

2.2.5O-糖蛋白与双突变体的结合不受离子强度或缓冲液体积/类型的显著影响，并且在宽pH范围内起作用

在室温下，在一系列不同条件下，通过颠倒旋转，使样品蛋白与双突变体树脂结合2小时，以测试离子强度、缓冲液体积/类型和pH对树脂的结合能力的影响。在每种情况下，然后将树脂用其各自的结合缓冲液(350μl)洗涤三次，然后通过添加8M尿素洗脱(50μl，孵育5分钟；重复2次)。然后通过SDS-PAGE分析所有样品。

在第一个实验中(参见图14A)，为了研究在具有不同离子强度的缓冲液中相互作用的稳定性，样品由去唾液酸化依那西普组成，该样品与双突变体树脂在0至4M NaCl中孵育，以及用相应的NaCl浓度执行所有洗涤步骤。添加NaCl不会显著影响去唾液酸化依那西普的结合。

在第二个实验中(参见图14B)，样品由一系列不同体积的PBS中的去唾液酸化依那西普组成。洗涤步骤使用PBS。底物体积在100μl至300μl之间变化不会显著影响效率。

在第三个实验中(参见图14C和D)，样品由不同pH(pH 4至9)下的不同缓冲液(100mM乙酸钠、50mM磷酸钠和50mM Tris)中的去唾液酸化依那西普和BSA组成。洗涤步骤使用匹配的缓冲液。发现pH 6-8作用最佳，而pH 4完全不起作用，pH 9的效率略低于pH8。不包含任何O-聚糖的BSA在任何结合条件下均不与树脂结合。

2.2.6尿素和SDS可以洗脱亲和结合的O-糖蛋白

基于双突变体与其O-糖蛋白底物之间的高亲和力，本发明人研究了不基于离子强度从树脂上洗脱结合蛋白的不同方法。尿素呈剂量依赖性洗脱，使用8M尿素时洗脱接近100％(图15A)。高浓度的SDS(例如5％-10％)也洗脱了大多数的结合蛋白(图15B)。然而，由于许多下游应用对去污剂的存在敏感，因此使用高水平尿素对于结合蛋白/肽的非酶促释放可能是更具实用性的。

2.2.7野生型LS可用于洗脱结合双突变体的O-糖蛋白

本发明人推测，向结合双突变体的蛋白中添加LS可以导致蛋白释放，因此不必须为洗脱而添加尿素。阿巴西普和依那西普均可在6小时内被LS水解并从双突变体树脂上洗脱下来，但在24h后洗脱略微更完全(图16A)。此后添加尿素表明非常少的O-糖蛋白保持附着在亲和基质上，这表明LS洗脱策略是高效的。

对LS洗脱的依那西普也进行质谱分析(LC/MS和MS/MS)。鉴定出的肽(图16B.1)与依那西普的LS消化过程中产生的肽(图16B.2)一致。下表显示了该实验的其他MS数据：

2.2.8双突变体可用于对来自复杂样品中的O-糖蛋白进行亲和纯化

作为对该系统不仅可以在简化的系统中而且可以在复杂的培养基中充当O-糖基化蛋白的一般亲和基质的观点的证明，本发明人研究了双突变体从人血清中纯化O-糖蛋白的能力。人血清主要由非糖基化(BSA)和N-糖基化(IgG)蛋白质组成，而总血清蛋白质组中只有一小部分是O-糖基化的。

向50μl固定的双突变体树脂柱施加20μl唾液酸酶处理的血清(约1.2mg蛋白质)，使得去除几乎所有的非糖基化蛋白和N-糖基化蛋白，而洗脱几种选定的蛋白质(图17A)。通过添加更高量的经过或未经过唾液酸酶和O-糖苷酶预处理的血清(例如2.5mg蛋白)，证明了相互作用取决于O-聚糖以及末端唾液酸的去除(图17B)。此外，得出结论，与未经唾液酸酶处理的样品相比，唾液酸酶的预处理显著增加了结合的O-糖蛋白的量。添加50U唾液酸酶混合物(Am0707:Am1757)足以改善亲和纯化的O-糖蛋白的量(图17C)。

通过质谱分析，可以将绝大多数亲和纯化的血清蛋白标注为O-糖基化蛋白(参见图18A，以及下表中的粗体斜体字的名称)。相对于非O-糖蛋白肽，已鉴定的O-糖蛋白肽的数量可能会受到洗涤步骤中不同严格性的影响，无论是在鉴定出的肽的总数方面(图18B)，还是在O-糖蛋白肽对比非O糖蛋白肽的比例上(图18C)。因此清楚的是，亲和树脂在O-糖蛋白的特异性和选择性亲和纯化和富集的能力方面是高效的。下表显示了该实验的其他MS数据。

2.2.9固定的双突变体还与较短的O-糖肽结合

为了证明LS双突变体对O-糖肽的特异性，进行了一系列实验。在第一个实验中，将O-糖基化肽(糖基果蝇肽(GD)＝在苏氨酸上具有核心1O-聚糖的GKPRPYSPRPTSHPRPIRV(SEQID NO:47))和几种非糖基化肽(H2686、H4062 H8390和胰岛素氧化β链(IOB))的混合物与LS双突变体树脂一起孵育。(H2686＝YIYGSFK(SEQ ID NO:48)，H4062＝KKLVFFA(SEQ ID NO:49)，H8390＝FLPLILGKLVKGLL(SEQ ID NO:50))。

在室温下通过颠倒旋转使肽混合物与50μl固定的双突变体树脂结合2小时。用结合缓冲液(300μl)洗涤树脂五次，然后添加8M尿素洗脱。用LC/MS分析加样液、流过液和洗脱液中的肽。在RP-LC C18柱上(Advance BioPeptide Map 2.1x100 2.7μm，来自Agilent)进行分离，并用ESI-Q-TOF Bruker Impact II检测。结果示于图19A。糖基果蝇肽是混合物中唯一包含O-GalNAcGal的肽，主要存在于洗脱级分中，而非糖基化肽则存在于流过级分中。

在第二个实验中，研究了LS双突变体能否从胰蛋白酶蛋白质消化物(例如不同类型的肽混合物)中富集O-糖基化肽。

选择IgA作为消化的靶标。根据IgA中的胰蛋白酶位点和已报道的O-糖基化位点，胰蛋白酶消化应仅产生与IgA第89至126位对应的单个O-糖基化肽(请参见图19B中的示意图)。

为了产生胰蛋白酶消化物，将IgA与尿素混合至6M，与DTT混合至5mM，然后在37℃下孵育1小时。将IAM添加至15mM，然后在黑暗中在室温下孵育30分钟。然后将样品在Zebaspin 7000K色谱柱上缓冲液交换至pH 8.0的50mM Tris中。然后以1:20的比例添加胰蛋白酶，接着在37℃下孵育过夜。添加胰蛋白酶抑制剂1mg/mg，然后在室温下孵育20分钟。将唾液酸酶混合物和NaCl添加到所得的胰蛋白酶消化物中。在室温下通过颠倒旋转使混合物与树脂结合2小时。将树脂用PBS缓冲液(300μl)洗涤10次，然后通过添加8M尿素(50μl，2分钟，重复2次)来洗脱。

使用RP-LC MSMS在C18色谱柱(Advance BioPeptide Plus 2.1x150mm 2.7μm，来自Agilent Technologies)上，在0.1％FA的MQ溶液:0.1％FA的95％CAN梯度溶液中，在45℃下，以0.2ml/分钟的流速分离和分析加样液、流过液和洗脱液中的肽。在ESI-Q-TOF BrukerImpact II仪器上进行检测。结果示于图19C。O-糖基化肽89-126在洗脱液中显著富集，鉴定出完整的特异性O-糖肽89-126。

2.2.10固定的双突变体优于其他O-糖蛋白结合基质

本发明人评估了双突变体对比其他可商购的O-糖蛋白结合基质(特别是凝集素花生凝集素(PNA)和野豌豆凝集素(VVA))对O-糖蛋白的亲和纯化能力。使用依那西普和去唾液酸化依那西普用作模型底物。

向50μl体积的在各自的缓冲液(总共100μl)中平衡的不同的固定的凝集素或LS双突变体树脂添加50μg在PBS(PNA和LS双突变体)或凝集素结合缓冲液(VVA)中的底物。(凝集素结合缓冲液是20mM Tris-HCl pH 7.4，150mM NaCl，MgCl2，CaCl2，ZnCl2和MnCl2各1mM)。在室温下，使底物与树脂通过颠倒混合相互作用2小时。未结合的蛋白质分别用PBS或凝集素结合缓冲液洗掉(100g，1分钟；3x)。通过离心(1000g，1分钟)干燥树脂。根据生产商通过添加8M尿素(对于PNA和LS双突变体树脂)或VVA洗脱缓冲液(针对VVA树脂)洗脱结合蛋白(50μl，5分钟处理然后1000g离心1分钟；2x)，将流过液(FT)和洗脱液(E)在SDS-PAGE上分析。将1.5μg底物添加到每种凝胶(例如3μl)中作为阳性对照，并且进行光密度分析，从而相对于假设为100％效率的1.5μg负载底物，评估树脂的效率。依那西普和去唾液酸化依那西普(Etanercept S)的代表性凝胶示于图20A。密度分析的结果示于图20B。LSH205A/E206A双突变体在纯化去唾液酸化底物的效率上至少与性能最佳的商业凝集素一样好。

序列

SEQ ID NO:1

EVTVPDALKDRIALKKTARQLNIVYFLGSDTEPVPDYERRLSELLLYLQQFYGKEMQRHGYGARSFGLDIKSPGRVNIIEYKAKNPAAHYPYENGGGWKAAQELDEFFKAHPDRKKSQHTLIIMPTWNDEKNGPDNPGGVPFYGMGRNCFALDYPAFDIKHLGQKTREGRLLTKWYGGMAHELGHGLNLPHNHQTASDGKKYGTALMGSGNYTFGTSPTFLTPASCALLDACEVFSVTPSQQFYEGKPEVEVGDVAISFKGDQILVSGNYKSPQTVKALNVYIQDPPYAVNQDYDAVSFSRRLGKKSGKFSMKIDKKELEGLNNNEFRISLMFILANGLHMQKHFTFHWDALQDYRDGSKS

SEQ ID NO:2

MEVTVPDALKDRIALKKTARQLNIVYFLGSDTEPVPDYERRLSELLLYLQQFYGKEMQRHGYGARSFGLDIKSPGRVNIIEYKAKNPAAHYPYENGGGWKAAQELDEFFKAHPDRKKSQHTLIIMPTWNDEKNGPDNPGGVPFYGMGRNCFALDYPAFDIKHLGQKTREGRLLTKWYGGMAHELGHGLNLPHNHQTASDGKKYGTALMGSGNYTFGTSPTFLTPASCALLDACEVFSVTPSQQFYEGKPEVEVGDVAISFKGDQILVSGNYKSPQTVKALNVYIQDPPYAVNQDYDAVSFSRRLGKKSGKFSMKIDKKELEGLNNNEFRISLMFILANGLHMQKHFTFHWDALQDYRDGSKSGSGHHHHHH

SEQ ID NO:3

ATGGAAGTCACTGTGCCGGACGCCCTGAAAGATCGCATCGCGCTGAAGAAAACCGCTCGTCAGCTGAATATCGTCTACTTCCTGGGTTCTGATACCGAACCGGTTCCGGACTACGAGCGCCGTCTGAGCGAGCTGCTGTTGTATCTGCAGCAATTCTATGGTAAAGAAATGCAGCGCCATGGCTATGGCGCACGCAGCTTTGGTCTGGACATTAAGTCACCGGGTCGTGTGAACATTATCGAGTACAAAGCGAAGAACCCGGCAGCGCATTACCCGTATGAGAATGGTGGCGGCTGGAAAGCTGCACAAGAACTGGACGAATTTTTCAAGGCCCATCCAGACCGCAAGAAAAGCCAGCACACCCTGATCATCATGCCTACCTGGAATGATGAGAAAAATGGTCCTGACAATCCGGGTGGCGTTCCGTTCTATGGTATGGGTCGTAATTGTTTTGCGTTGGACTACCCGGCGTTTGATATCAAGCACCTGGGTCAGAAAACGCGTGAGGGTCGTCTGCTGACGAAATGGTACGGTGGCATGGCGCACGAACTGGGCCACGGCCTGAATCTGCCGCACAATCACCAGACCGCGAGCGATGGCAAGAAATATGGCACCGCCCTGATGGGTAGCGGCAACTACACGTTCGGTACCAGCCCGACGTTCCTGACCCCGGCGAGCTGTGCGCTGCTGGATGCCTGCGAAGTGTTCAGCGTTACCCCGAGCCAACAGTTTTATGAGGGTAAGCCAGAAGTCGAGGTTGGTGATGTTGCAATTTCCTTCAAGGGTGATCAAATCTTGGTCAGCGGTAACTACAAGAGCCCGCAAACCGTGAAAGCTCTGAACGTTTACATTCAGGATCCGCCGTACGCCGTGAACCAAGACTACGATGCAGTGAGCTTTAGCCGTCGTCTGGGCAAAAAGTCCGGTAAGTTTAGCATGAAGATTGACAAAAAAGAACTGGAAGGCCTGAATAACAACGAATTCCGTATTTCCTTGATGTTCATTCTGGCAAACGGCTTACACATGCAGAAGCACTTTACGTTTCACTGGGATGCGCTGCAAGACTACCGTGACGGTAGCAAATCTGGTTCGGGTCATCATCACCACCATCACTGA

SEQ ID NO:4

MLKRLLSAFFSLFFLGAASGTSFAEVTVPDALKDRIALKKTARQLNIVYFLGSDTEPVPDYERRLSELLLYLQQFYGKEMQRHGYGARSFGLDIKSPGRVNIIEYKAKNPAAHYPYENGGGWKAAQELDEFFKAHPDRKKSQHTLIIMPTWNDEKNGPDNPGGVPFYGMGRNCFALDYPAFDIKHLGQKTREGRLLTKWYGGMAHELGHGLNLPHNHQTASDGKKYGTALMGSGNYTFGTSPTFLTPASCALLDACEVFSVTPSQQFYEGKPEVEVGDVAISFKGDQILVSGNYKSPQTVKALNVYIQDPPYAVNQDYDAVSFSRRLGKKSGKFSMKIDKKELEGLNNNEFRISLMFILANGLHMQKHFTFHWDALQDYRDGSKS(信号序列加有下划线)

SEQ ID NO:5

EVTVPDALKDRIALKKTARQLNIVYFLGSDTEPVPDYERRLSELLLYLQQFYGKEMQRHGYGARSFGLDIKSPGRVNIIEYKAKNPAAHYPYENGGGWKAAQELDEFFKAHPDRKKSQHTLIIMPTWNDEKNGPDNPGGVPFYGMGRNCFALDYPAFDIKHLGQKTREGRLLTKWYGGMAHALGHGLNLPHNHQTASDGKKYGTALMGSGNYTFGTSPTFLTPASCALLDACEVFSVTPSQQFYEGKPEVEVGDVAISFKGDQILVSGNYKSPQTVKALNVYIQDPPYAVNQDYDAVSFSRRLGKKSGKFSMKIDKKELEGLNNNEFRISLMFILANGLHMQKHFTFHWDALQDYRDGSKS

SEQ ID NO:6

MEVTVPDALKDRIALKKTARQLNIVYFLGSDTEPVPDYERRLSELLLYLQQFYGKEMQRHGYGARSFGLDIKSPGRVNIIEYKAKNPAAHYPYENGGGWKAAQELDEFFKAHPDRKKSQHTLIIMPTWNDEKNGPDNPGGVPFYGMGRNCFALDYPAFDIKHLGQKTREGRLLTKWYGGMAHALGHGLNLPHNHQTASDGKKYGTALMGSGNYTFGTSPTFLTPASCALLDACEVFSVTPSQQFYEGKPEVEVGDVAISFKGDQILVSGNYKSPQTVKALNVYIQDPPYAVNQDYDAVSFSRRLGKKSGKFSMKIDKKELEGLNNNEFRISLMFILANGLHMQKHFTFHWDALQDYRDGSKSGSGHHHHHH

SEQ ID NO:7

ATGGAAGTCACTGTGCCGGACGCCCTGAAAGATCGCATCGCGCTGAAGAAAACCGCTCGTCAGCTGAATATCGTCTACTTCCTGGGTTCTGATACCGAACCGGTTCCGGACTACGAGCGCCGTCTGAGCGAGCTGCTGTTGTATCTGCAGCAATTCTATGGTAAAGAAATGCAGCGCCATGGCTATGGCGCACGCAGCTTTGGTCTGGACATTAAGTCACCGGGTCGTGTGAACATTATCGAGTACAAAGCGAAGAACCCGGCAGCGCATTACCCGTATGAGAATGGTGGCGGCTGGAAAGCTGCACAAGAACTGGACGAATTTTTCAAGGCCCATCCAGACCGCAAGAAAAGCCAGCACACCCTGATCATCATGCCTACCTGGAATGATGAGAAAAATGGTCCTGACAATCCGGGTGGCGTTCCGTTCTATGGTATGGGTCGTAATTGTTTTGCGTTGGACTACCCGGCGTTTGATATCAAGCACCTGGGTCAGAAAACGCGTGAGGGTCGTCTGCTGACGAAATGGTACGGTGGCATGGCGCACGCGCTGGGCCACGGCCTGAATCTGCCGCACAATCACCAGACCGCGAGCGATGGCAAGAAATATGGCACCGCCCTGATGGGTAGCGGCAACTACACGTTCGGTACCAGCCCGACGTTCCTGACCCCGGCGAGCTGTGCGCTGCTGGATGCCTGCGAAGTGTTCAGCGTTACCCCGAGCCAACAGTTTTATGAGGGTAAGCCAGAAGTCGAGGTTGGTGATGTTGCAATTTCCTTCAAGGGTGATCAAATCTTGGTCAGCGGTAACTACAAGAGCCCGCAAACCGTGAAAGCTCTGAACGTTTACATTCAGGATCCGCCGTACGCCGTGAACCAAGACTACGATGCAGTGAGCTTTAGCCGTCGTCTGGGCAAAAAGTCCGGTAAGTTTAGCATGAAGATTGACAAAAAAGAACTGGAAGGCCTGAATAACAACGAATTCCGTATTTCCTTGATGTTCATTCTGGCAAACGGCTTACACATGCAGAAGCACTTTACGTTTCACTGGGATGCGCTGCAAGACTACCGTGACGGTAGCAAATCTGGTTCGGGTCATCATCACCACCATCACTGA

SEQ ID NO:8

GMAHELGHGL(金属蛋白酶基序)

SEQ ID NO:9

MKNLLFALLTGSFCCCYAQQKAAPVPEPEVVATPPADAGRGLIRVDSREIRHYSGTRKEPDYLVSRDNGKTWEMKAAPAGYPPNYGGIPKESPAIVRNPLTREFIRVQPIGGFVFLSRGGLDGKWLAVTNDGKLEEDWKDPEKRKNLKKLGGIMRTPVFVNKGRRVIVPFHNMGGGTKFHISDDGGLTWHVSRNGVTSPRHEARPPHQGVRWFNNAVEATVLEMKDGTLWALARTSQDQAWQAFSKDYGETWSKPEPSRFFGTLTMNTLGRLDDGTIVSLWTNTMALPENATAGNGTWEDVFTNRDSHHIAMSGDEGKTWYGFREIILDEHRNHPGYATLDGPEDRGKHQSEMVQLDKNRILISLGQHKNHRRLVIVDRRWVGAKTRATQTGKDLDSQWTIHTYIPQKKGHCSYNRKPSAELVQDPSGGTKKVLQIKRLDDPELVNEKSNVDYRNGGATWNFPNGTTGLVKFRFRVVDGEQADDSGLQVSLTDRLFNACDSTTKDYALFTFPIRLKPAPHLLLGMKKVPFTPGAWHEISLLWQGGQAVVSLDGKKAGTLKMANKSPNGASYIHFISTGSQPDAGILLDTVNARVK(信号序列加有下划线)

SEQ ID NO:10

QQKAAPVPEPEVVATPPADAGRGLIRVDSREIRHYSGTRKEPDYLVSRDNGKTWEMKAAPAGYPPNYGGIPKESPAIVRNPLTREFIRVQPIGGFVFLSRGGLDGKWLAVTNDGKLEEDWKDPEKRKNLKKLGGIMRTPVFVNKGRRVIVPFHNMGGGTKFHISDDGGLTWHVSRNGVTSPRHEARPPHQGVRWFNNAVEATVLEMKDGTLWALARTSQDQAWQAFSKDYGETWSKPEPSRFFGTLTMNTLGRLDDGTIVSLWTNTMALPENATAGNGTWEDVFTNRDSHHIAMSGDEGKTWYGFREIILDEHRNHPGYATLDGPEDRGKHQSEMVQLDKNRILISLGQHKNHRRLVIVDRRWVGAKTRATQTGKDLDSQWTIHTYIPQKKGHCSYNRKPSAELVQDPSGGTKKVLQIKRLDDPELVNEKSNVDYRNGGATWNFPNGTTGLVKFRFRVVDGEQADDSGLQVSLTDRLFNACDSTTKDYALFTFPIRLKPAPHLLLGMKKVPFTPGAWHEISLLWQGGQAVVSLDGKKAGTLKMANKSPNGASYIHFISTGSQPDAGILLDTVNARVK

SEQ ID NO:11

MQQKAAPVPEPEVVATPPADAGRGLIRVDSREIRHYSGTRKEPDYLVSRDNGKTWEMKAAPAGYPPNYGGIPKESPAIVRNPLTREFIRVQPIGGFVFLSRGGLDGKWLAVTNDGKLEEDWKDPEKRKNLKKLGGIMRTPVFVNKGRRVIVPFHNMGGGTKFHISDDGGLTWHVSRNGVTSPRHEARPPHQGVRWFNNAVEATVLEMKDGTLWALARTSQDQAWQAFSKDYGETWSKPEPSRFFGTLTMNTLGRLDDGTIVSLWTNTMALPENATAGNGTWEDVFTNRDSHHIAMSGDEGKTWYGFREIILDEHRNHPGYATLDGPEDRGKHQSEMVQLDKNRILISLGQHKNHRRLVIVDRRWVGAKTRATQTGKDLDSQWTIHTYIPQKKGHCSYNRKPSAELVQDPSGGTKKVLQIKRLDDPELVNEKSNVDYRNGGATWNFPNGTTGLVKFRFRVVDGEQADDSGLQVSLTDRLFNACDSTTKDYALFTFPIRLKPAPHLLLGMKKVPFTPGAWHEISLLWQGGQAVVSLDGKKAGTLKMANKSPNGASYIHFISTGSQPDAGILLDTVNARVKGSGLEHHHHHH

SEQ ID NO:12

MTWLLCGRGKWNKVKRMMNSVFKCLMSAVCAVALPAFGQEEKTGFPTDRAVTVFSAGEGNPYASIRIPALLSIGKGQLLAFAEGRYKNTDQGENDIIMSVSKNGGKTWSRPRAIAKAHGATFNNPCPVYDAKTRTVTVVFQRYPAGVKERQPNIPDGWDDEKCIRNFMIQSRNGGSSWTKPQEITKTTKRPSGVDIMASGPNAGTQLKSGAHKGRLVIPMNEGPFGKWVISCIYSDDGGKSWKLGQPTANMKGMVNETSIAETDNGGVVMVARHWGAGNCRRIAWSQDGGETWGQVEDAPELFCDSTQNSLMTYSLSDQPAYGGKSRILFSGPSAGRRIKGQVAMSYDNGKTWPVKKLLGEGGFAYSSLAMVEPGIVGVLYEENQEHIKKLKFVPITMEWLTDGEDTGLAPGKKAPVLK(信号序列加有下划线)

SEQ ID NO:13

QEEKTGFPTDRAVTVFSAGEGNPYASIRIPALLSIGKGQLLAFAEGRYKNTDQGENDIIMSVSKNGGKTWSRPRAIAKAHGATFNNPCPVYDAKTRTVTVVFQRYPAGVKERQPNIPDGWDDEKCIRNFMIQSRNGGSSWTKPQEITKTTKRPSGVDIMASGPNAGTQLKSGAHKGRLVIPMNEGPFGKWVISCIYSDDGGKSWKLGQPTANMKGMVNETSIAETDNGGVVMVARHWGAGNCRRIAWSQDGGETWGQVEDAPELFCDSTQNSLMTYSLSDQPAYGGKSRILFSGPSAGRRIKGQVAMSYDNGKTWPVKKLLGEGGFAYSSLAMVEPGIVGVLYEENQEHIKKLKFVPITMEWLTDGEDTGLAPGKKAPVLK

SEQ ID NO:14

MQEEKTGFPTDRAVTVFSAGEGNPYASIRIPALLSIGKGQLLAFAEGRYKNTDQGENDIIMSVSKNGGKTWSRPRAIAKAHGATFNNPCPVYDAKTRTVTVVFQRYPAGVKERQPNIPDGWDDEKCIRNFMIQSRNGGSSWTKPQEITKTTKRPSGVDIMASGPNAGTQLKSGAHKGRLVIPMNEGPFGKWVISCIYSDDGGKSWKLGQPTANMKGMVNETSIAETDNGGVVMVARHWGAGNCRRIAWSQDGGETWGQVEDAPELFCDSTQNSLMTYSLSDQPAYGGKSRILFSGPSAGRRIKGQVAMSYDNGKTWPVKKLLGEGGFAYSSLAMVEPGIVGVLYEENQEHIKKLKFVPITMEWLTDGEDTGLAPGKKAPVLKGSGLEHHHHHH

SEQ ID NO:15–来自口腔链球菌的O-糖苷键

MDKRFFEKRCKFSIRKFTLGVASVMIGATFFAASPVLADQARVGSTDNLPSELADLDKKASDEGHDFDKEAAAQNPGSAETTEGPQTEEELLAQEKEKSEKPSNLPKELEDKLEKAEDNGREVDKDQLAQDTGKLVPEDVAKTTNGELNYGATVKIKTPSGEGSGIVVAKDLVLTVSHNFIKDSQEGNIRKVVDNDQGDGDIYSISYPGLPDVKFSKKDIIHWDREGYLKGFKNDLALVRLRTVLENTPVEVTKKPVVKKIGDKLHVFGYPEGKLNPIVNTTVDFAEPYGEGVQGIGYQGGKPGASGGGIFDTEGKLVGVHQNGVVGKRSGGILFSPAQLKWIQDHMQGISSVKPADLEEKEKPAEEKPKEDKPAAAKPETPKAVTPEWQTVANKEQQGTVTIREEKGVRYNQLSSTAQNDNDGKPALFEKQGLTVDANGNATVDLTFKDDSEKGKSRFGVFLKFKDTKNNVFVGYDQGGWFWEYKTPGNSTWYKGNRVAAPEPGSVNRLSITLKSDGQLNASNNDVNLFDTVTLPGAVNENLKNEKKILLKAGTYSNDRTVVSVKTDNQEGVKADDTPAQKETGPAVDDSKVTYDTIQSKVLKAVIDQAFPRVKEYTLNGHTLPGQVQQFNQVFINNHRITPEVTYKKINETTAEYLMKLRDDAHLINAEMTVRLQVVDNQLHFDVTKIVNHNQVTPGQKIDDERKLLSTISFLGNALVSVSSDQAGAKFDGATMSNNTHVSGDDHIDVTNPMKDLAKGYMYGFVSTDKLAAGVWSNSQNSYGGGSNDWTRLTAYKETVGNANYVGIHSSEWQWEKAYKGIVFPEYTKELPSAKVVITEDANADNKVDWQDGAIAYRSIMNNPQGWEKVKDITAYRIAMNFGSQAQNPFLMTLDGIKKINLHTDGLGQGVLLKGYGSEGHDSGHLNYADIGKRIGGVEDFKTLIEKAKKYGAHLGIHVNASETYPESKYFNENILRKNPDGSYSYGWNWLDQGINIDAAYDLAHGRLARWEDLKKKLGEGLDFIYVDVWGNGQSGDNGAWATHVLAKEINKQGWRFAIEWGHGGEYDSTFQHWAADLTYGGYTNKGINSAITRFIRNHQKDSWVGDYRSYGGAANYPLLGGYSMKDFEGWQGRSDYNGYVTNLFAHDVMTKYFQHFTVSKWENGTPVTMTDNGSTYKWTPEMKVELVDAAGNKVVVTRKSNDVNSPQYRERTVTLNGRVIQDGSAYLTPWNWDANGKKLPTEKEKMYYFNTQAGATTWTLPSDWANSKVYLYKLTDQGKTEEQELTVTDGKITLDLLANQPYVLYRSKQTNPEMSWSEGMHIYDQGFNSGTLKHWTISGDASKAEIVKSQGANEMLRIQGNKSKVSLTQKLTGLKPNTKYAVYVGVDNRSNAKASITVNTGEKEVTTYTNKSLALNYIKAYAHNNRRENATVDDTSYFQNMYAFFTTGSDVSNVTLTLSREAGDEATYFDEIRTFENNSSMYGDKHDTGQGTFKQDFENVAQGIFPFVVGGVEGVEDNRTHLSEKHDPYTQRGWNGKKVDDVIEGNWSLKTNGLVSRRNLVYQTIPQNFRFEAGKTYRVTFEYEAGSDNTYAFVVGKGEFQSGRRGTQASNLEMHELPNTWTDSKKAKKVTFLVTGAETGDTWVGIYSTGNASNTRGDAGGNANFRGYNDFMMDNLQIEEITLTGKMLTENALKNYLPTVAMTNYTKESMDALKEAVFNLSQADDDISVEEARAEIAKIEALKNALVQKKTALVAEDFESLDAPAQPGEGLENAFDGNVSSLWHTSWNGGDVGKPATMVLKEPTEITGLRYVPRASDSNGNLRDVKLVVTDESGKEHTFNVTDWPNNNKPKDIDFGKTIKAKKIVLTGTKTYGDGGDKYQSAAELIFTRPQVAETPLDLSGYEAALAKAQKLTDKDNQEEVASVQASMKYATDNHLLTERMVAYFADYLNQLKDSATKPDAPTSSKGEEQPPVLDVPEFKGGVNATEAAVHEVPEFKGGVNAVQALVHELPEYKGGANAVLAAANEVPEYKGGANAVEALVNEKPAYTGVLATAGDQAAPTVEKPEYPLTPSPVADTKTPGAKDEEKLPATGEHSSEVALFLASVSIALSAAVLATKRKEEGSGLEHHHHHH

SEQ ID NO:16-E206A_正向引物

ATGGCGCACGC GCTGGGCCACG

SEQ ID NO:17–E206A_反向引物

GCCACCGTAC CATTTCGTC

SEQ ID NO:18–EPO

APPRLICDSRVLERYLLEAKEAEDITTGCAEHCSLDENITVPDTKVDFYAWKRMEVGQQAVEVWQGLALLSEAVLRGQALLVNSSQPWEPLQLHVDKAVSGLRSLTTLLRALGAQKEAISPPDAASAAPLRTITADTFRKLFRVYSNFLRGKLKLYTGEACRTGDR

(注意：预测的带有丝氨酸的O-聚糖加有下划线；C末端精氨酸在表达过程中通常是截短的)

SEQ ID NO:20

EVTVPDALKDRIALKKTARQLNIVYFLGSDTEPVPDYERRLSELLLYLQQFYGKEMQRHGYGARSFGLDIKSPGRVNIIEYKAKNPAAHYPYENGGGWKAAQELDEFFKAHPDRKKSQHTLIIMPTWNDEKNGPDNPGGVPFYGMGRNCFALDYPAFDIKHLGQKTREGRLLTKWYGGMAAALGHGLNLPHNHQTASDGKKYGTALMGSGNYTFGTSPTFLTPASCALLDACEVFSVTPSQQFYEGKPEVEVGDVAISFKGDQILVSGNYKSPQTVKALNVYIQDPPYAVNQDYDAVSFSRRLGKKSGKFSMKIDKKELEGLNNNEFRISLMFILANGLHMQKHFTFHWDALQDYRDGSKS

SEQ ID NO:21

MEVTVPDALKDRIALKKTARQLNIVYFLGSDTEPVPDYERRLSELLLYLQQFYGKEMQRHGYGARSFGLDIKSPGRVNIIEYKAKNPAAHYPYENGGGWKAAQELDEFFKAHPDRKKSQHTLIIMPTWNDEKNGPDNPGGVPFYGMGRNCFALDYPAFDIKHLGQKTREGRLLTKWYGGMAAALGHGLNLPHNHQTASDGKKYGTALMGSGNYTFGTSPTFLTPASCALLDACEVFSVTPSQQFYEGKPEVEVGDVAISFKGDQILVSGNYKSPQTVKALNVYIQDPPYAVNQDYDAVSFSRRLGKKSGKFSMKIDKKELEGLNNNEFRISLMFILANGLHMQKHFTFHWDALQDYRDGSKSGSGHHHHHH

SEQ ID NO:22

ATGGAAGTCACTGTGCCGGACGCCCTGAAAGATCGCATCGCGCTGAAGAAAACCGCTCGTCAGCTGAATATCGTCTACTTCCTGGGTTCTGATACCGAACCGGTTCCGGACTACGAGCGCCGTCTGAGCGAGCTGCTGTTGTATCTGCAGCAATTCTATGGTAAAGAAATGCAGCGCCATGGCTATGGCGCACGCAGCTTTGGTCTGGACATTAAGTCACCGGGTCGTGTGAACATTATCGAGTACAAAGCGAAGAACCCGGCAGCGCATTACCCGTATGAGAATGGTGGCGGCTGGAAAGCTGCACAAGAACTGGACGAATTTTTCAAGGCCCATCCAGACCGCAAGAAAAGCCAGCACACCCTGATCATCATGCCTACCTGGAATGATGAGAAAAATGGTCCTGACAATCCGGGTGGCGTTCCGTTCTATGGTATGGGTCGTAATTGTTTTGCGTTGGACTACCCGGCGTTTGATATCAAGCACCTGGGTCAGAAAACGCGTGAGGGTCGTCTGCTGACGAAATGGTACGGTGGCATGGCGGCCGCGCTGGGCCACGGCCTGAATCTGCCGCACAATCACCAGACCGCGAGCGATGGCAAGAAATATGGCACCGCCCTGATGGGTAGCGGCAACTACACGTTCGGTACCAGCCCGACGTTCCTGACCCCGGCGAGCTGTGCGCTGCTGGATGCCTGCGAAGTGTTCAGCGTTACCCCGAGCCAACAGTTTTATGAGGGTAAGCCAGAAGTCGAGGTTGGTGATGTTGCAATTTCCTTCAAGGGTGATCAAATCTTGGTCAGCGGTAACTACAAGAGCCCGCAAACCGTGAAAGCTCTGAACGTTTACATTCAGGATCCGCCGTACGCCGTGAACCAAGACTACGATGCAGTGAGCTTTAGCCGTCGTCTGGGCAAAAAGTCCGGTAAGTTTAGCATGAAGATTGACAAAAAAGAACTGGAAGGCCTGAATAACAACGAATTCCGTATTTCCTTGATGTTCATTCTGGCAAACGGCTTACACATGCAGAAGCACTTTACGTTTCACTGGGATGCGCTGCAAGACTACCGTGACGGTAGCAAATCTGGTTCGGGTCATCATCACCACCATCACTGA

SEQ ID NO:23

GMAHALGHGL(被破坏的金属蛋白酶基序)

SEQ ID NO:24

GMAAELGHGL(被破坏的金属蛋白酶基序)

SEQ ID NO:25

GMAAALGHGL(被破坏的金属蛋白酶基序)

SEQ ID 26

铜绿假单胞菌PAO1(去除了信号序列的天然序列)

ATQEEILDAALVSGDSSQLTDSHLVALRLQQQVERIRQTRTQLLDGLYQNLSQAYDPGAASMWVLPANPDNTLPFLIGDKGRVLASLSLEAGGRGLAYGTNVLTQLSGTNAAHAPLLKRAVQWLVNGDPGAATAKDFKVSVVGVDKTAALNGLKSAGLQPADAACNALTDASCASTSKLLVLGNGASAASLSATVRARLQAGLPILFVHTNGWNQSSTGQQILAGLGLQEGPYGGNYWDKDRVPSSRTRTRSVELGGAYGQDPALVQQIVDGSWRTDYDWSKCTSYVGRTTCDDVPGLSDFSKRVDVLKGALDAYNQKAQNLFALPGTTSLRLWLLWADAVRQNIRYPMDKAADTARFQETFVADAIVGYVREAGAAQKELGSYAGQRQQSMPVSGSEETLTLTLPSAQGFTAIGRMAAPGKRLSIRIEDAGQASLAVGLNTQRIGSTRLWNTRQYDRPRFLKSPDIKLQANQSVALVSPYGGLLQLVYSGATPGQTVTVKVTGAASQPFLDIQPGEDSSQAIADFIQALDADKADWLEIRSGSVEVHAKVEKVRGSIDKDYGGDVQRFIRELNEVFIDDAYTLAGFAIPNQAKTPAIQQECAARGWDCDSETLHKLPGTQHINVDQYAQCGGGCSGNPYDQTWGLNPRGWGESHELGHNLQVNRLKVYGGRSGEISNQIFPLHKDWRVLREFGQNLDDTRVNYRNAYNLIVAGRAEADPLAGVYKRLWEDPGTYALNGERMAFYTQWVHYWADLKNDPLQGWDIWTLLYLHQRQVDKSDWDANKAALGYGTYAQRPGNSGDASSTDGNDNLLLGLSWLTQRDQRPTFALWGIRTSAAAQAQVAAYGFAEQPAFFYANNRTNEYSTVKLLDMSQGSPAWPFP

金属蛋白酶基序加有下划线。

SEQ ID 27

多形拟杆菌VPI-5482(去除了信号序列的天然序列)

DKWEKEFRIRSYEPYSNIAEWADKLMTKKYSDLDNPTGISVKAGDDIIVLVGDTYGQNISMQCIWETGTEYKQTASSGDVYMLNPGVNKLTMKGEGQLFVMYNTELTSNTAKPIKIHIPLGSGTVNGFFDLKEHKTDEKYAELLKKSTHKYFCIRGEKIMFYFHRNKLLEYVPNNILSAIHLWDNIVGWQQELMGIDDVRPSQVNNHLFAISPEGSYMWASDYQIGFVYTYLGNILLEDNVMAAEDNAWGPAHEIGHVHQAAINWASSTESSNNLFSNFIIYKLGKYKSRGNGLGSVATARYANGQAWYNMGDATHQNEDTETHMRMNWQLWIYYHRCEYKTDFWQTLFKLMREVNMTEGEDPGKKQLEFAKMASKAANQNLTDFFEMWGFFEPVNTTIEQYGTYKYYVSDAMIREAKEYMAQFPAPKHAFQYIEDRKKSEFPSNDYRYSAVGDVGYYTQFKENQKITKAITAELAGRKVSIQNGDEAVAFELRENDENGKLLYFSTFTTFEIPSSILMVNAKLYAVQADGKRILL

金属蛋白酶基序加有下划线。

SEQ ID NO:28

产气荚膜梭菌(去除了信号序列的天然序列)

VLELEMRGDSISEAKKRKVWNFQDWQITGLSARAGDKITVYVDVAEGDPTPTLLYKQSLTQHGGATSFQLKPGKNEITIPEINYESNGIPKDVIQGGDLFFTNYKSDSQKRAPKVRIEGASKYPVFILGKSDENEVMKELEAYVEKIKAEPKTTPNIFAVSSNKSLEFVQATYALDWYKKNNKTPKYTAEQWDQYIADAMGFWGFDNSKDVNSDFNFRIMPMVKNLSGGAFMNAGNGVIGIRPGNQDAILAANKGWGVAHELGHNFDTGGRTIVEVTNNMMPLFFESKYKTKTRITDQNIWENNTYPKVGLDDYSNNELYNKADSTHLAQLAPLWQLYLYDNTFYGKFERQFRERDFGNKNREDIYKSWVVAASDAMELDLTEFFARHGIRVDDKVKEDLAKYPKPDKKIYYLNDLAMNYKGDGFTENAKVSVSTSGSNGNIKLSFSVDDENKDNILGYEIRRDGKYVGFTSNDSFVDTKSNLDEDGVYVVTPYDRKLNTLNPIEVN

金属蛋白酶基序加有下划线。

SED ID NO:29

铜绿假单胞菌PAO1(N末端Met，C末端接头/标签)

MATQEEILDAALVSGDSSQLTDSHLVALRLQQQVERIRQTRTQLLDGLYQNLSQAYDPGAASMWVLPANPDNTLPFLIGDKGRVLASLSLEAGGRGLAYGTNVLTQLSGTNAAHAPLLKRAVQWLVNGDPGAATAKDFKVSVVGVDKTAALNGLKSAGLQPADAACNALTDASCASTSKLLVLGNGASAASLSATVRARLQAGLPILFVHTNGWNQSSTGQQILAGLGLQEGPYGGNYWDKDRVPSSRTRTRSVELGGAYGQDPALVQQIVDGSWRTDYDWSKCTSYVGRTTCDDVPGLSDFSKRVDVLKGALDAYNQKAQNLFALPGTTSLRLWLLWADAVRQNIRYPMDKAADTARFQETFVADAIVGYVREAGAAQKELGSYAGQRQQSMPVSGSEETLTLTLPSAQGFTAIGRMAAPGKRLSIRIEDAGQASLAVGLNTQRIGSTRLWNTRQYDRPRFLKSPDIKLQANQSVALVSPYGGLLQLVYSGATPGQTVTVKVTGAASQPFLDIQPGEDSSQAIADFIQALDADKADWLEIRSGSVEVHAKVEKVRGSIDKDYGGDVQRFIRELNEVFIDDAYTLAGFAIPNQAKTPAIQQECAARGWDCDSETLHKLPGTQHINVDQYAQCGGGCSGNPYDQTWGLNPRGWGESHELGHNLQVNRLKVYGGRSGEISNQIFPLHKDWRVLREFGQNLDDTRVNYRNAYNLIVAGRAEADPLAGVYKRLWEDPGTYALNGERMAFYTQWVHYWADLKNDPLQGWDIWTLLYLHQRQVDKSDWDANKAALGYGTYAQRPGNSGDASSTDGNDNLLLGLSWLTQRDQRPTFALWGIRTSAAAQAQVAAYGFAEQPAFFYANNRTNEYSTVKLLDMSQGSPAWPFPGSGHHHHHH

金属蛋白酶基序加有下划线。

SEQ ID NO:30

多形拟杆菌VPI-5482(N末端Met，C末端接头/标签)

MDKWEKEFRIRSYEPYSNIAEWADKLMTKKYSDLDNPTGISVKAGDDIIVLVGDTYGQNISMQCIWETGTEYKQTASSGDVYMLNPGVNKLTMKGEGQLFVMYNTELTSNTAKPIKIHIPLGSGTVNGFFDLKEHKTDEKYAELLKKSTHKYFCIRGEKIMFYFHRNKLLEYVPNNILSAIHLWDNIVGWQQELMGIDDVRPSQVNNHLFAISPEGSYMWASDYQIGFVYTYLGNILLEDNVMAAEDNAWGPAHEIGHVHQAAINWASSTESSNNLFSNFIIYKLGKYKSRGNGLGSVATARYANGQAWYNMGDATHQNEDTETHMRMNWQLWIYYHRCEYKTDFWQTLFKLMREVNMTEGEDPGKKQLEFAKMASKAANQNLTDFFEMWGFFEPVNTTIEQYGTYKYYVSDAMIREAKEYMAQFPAPKHAFQYIEDRKKSEFPSNDYRYSAVGDVGYYTQFKENQKITKAITAELAGRKVSIQNGDEAVAFELRENDENGKLLYFSTFTTFEIPSSILMVNAKLYAVQADGKRILLGSGHHHHHH

金属蛋白酶基序加有下划线。

SEQ ID NO:31

产气荚膜梭菌(N末端Met，C末端接头/标签)

MVLELEMRGDSISEAKKRKVWNFQDWQITGLSARAGDKITVYVDVAEGDPTPTLLYKQSLTQHGGATSFQLKPGKNEITIPEINYESNGIPKDVIQGGDLFFTNYKSDSQKRAPKVRIEGASKYPVFILGKSDENEVMKELEAYVEKIKAEPKTTPNIFAVSSNKSLEFVQATYALDWYKKNNKTPKYTAEQWDQYIADAMGFWGFDNSKDVNSDFNFRIMPMVKNLSGGAFMNAGNGVIGIRPGNQDAILAANKGWGVAHELGHNFDTGGRTIVEVTNNMMPLFFESKYKTKTRITDQNIWENNTYPKVGLDDYSNNELYNKADSTHLAQLAPLWQLYLYDNTFYGKFERQFRERDFGNKNREDIYKSWVVAASDAMELDLTEFFARHGIRVDDKVKEDLAKYPKPDKKIYYLNDLAMNYKGDGFTENAKVSVSTSGSNGNIKLSFSVDDENKDNILGYEIRRDGKYVGFTSNDSFVDTKSNLDEDGVYVVTPYDRKLNTLNPIEVNGSGHHHHHH

金属蛋白酶基序加有下划线。

SEQ ID NO:32铜绿假单胞菌PAO1(包含信号序列的完整天然序列)

MSLSTTAFPSLQGENMSRSPIPRHRALLAGFCLAGALSAQAATQEEILDAALVSGDSSQLTDSHLVALRLQQQVERIRQTRTQLLDGLYQNLSQAYDPGAASMWVLPANPDNTLPFLIGDKGRVLASLSLEAGGRGLAYGTNVLTQLSGTNAAHAPLLKRAVQWLVNGDPGAATAKDFKVSVVGVDKTAALNGLKSAGLQPADAACNALTDASCASTSKLLVLGNGASAASLSATVRARLQAGLPILFVHTNGWNQSSTGQQILAGLGLQEGPYGGNYWDKDRVPSSRTRTRSVELGGAYGQDPALVQQIVDGSWRTDYDWSKCTSYVGRTTCDDVPGLSDFSKRVDVLKGALDAYNQKAQNLFALPGTTSLRLWLLWADAVRQNIRYPMDKAADTARFQETFVADAIVGYVREAGAAQKELGSYAGQRQQSMPVSGSEETLTLTLPSAQGFTAIGRMAAPGKRLSIRIEDAGQASLAVGLNTQRIGSTRLWNTRQYDRPRFLKSPDIKLQANQSVALVSPYGGLLQLVYSGATPGQTVTVKVTGAASQPFLDIQPGEDSSQAIADFIQALDADKADWLEIRSGSVEVHAKVEKVRGSIDKDYGGDVQRFIRELNEVFIDDAYTLAGFAIPNQAKTPAIQQECAARGWDCDSETLHKLPGTQHINVDQYAQCGGGCSGNPYDQTWGLNPRGWGESHELGHNLQVNRLKVYGGRSGEISNQIFPLHKDWRVLREFGQNLDDTRVNYRNAYNLIVAGRAEADPLAGVYKRLWEDPGTYALNGERMAFYTQWVHYWADLKNDPLQGWDIWTLLYLHQRQVDKSDWDANKAALGYGTYAQRPGNSGDASSTDGNDNLLLGLSWLTQRDQRPTFALWGIRTSAAAQAQVAAYGFAEQPAFFYANNRTNEYSTVKLLDMSQGSPAWPFP

Uniprot登录号：Q9I5W4.1

金属蛋白酶基序加有下划线。

信号序列加粗且加有下划线。

SEQ ID NO:33

多形拟杆菌VPI-5482(包含信号序列和其他序列的完整天然序列)

MTIKRFITNLLALFTLFTVSLACKDTEKSIINSSFSISEEYLIQNLDKSSTSVQIPINTSMELAQWSVSYEANWLQCSKQKTAAEGTFLRITVNENTGETKRTANIKVTSTTATYTITVNQYAKGEVIVEGDIKVTPTGGKASEHQEGQDIENTYDGKFSTDGAAPFHTPWGQSAKFPVTLEYYFKGDTEIDYLIYYTRSGNGNFGKVKVYTTTNPDRSDYTLQGEYDFKEQNAPSKVSFSEGIKATGIKFEVLSGLGDFVSCDEMEFYKTNTDKTLDKQLLTVFTDITCTEIKNNVTNEQIQALPDYFVRIAEAVRDNTYDKWEKEFRIRSYEPYSNIAEWADKLMTKKYSDLDNPTGISVKAGDDIIVLVGDTYGQNISMQCIWETGTEYKQTASSGDVYMLNPGVNKLTMKGEGQLFVMYNTELTSNTAKPIKIHIPLGSGTVNGFFDLKEHKTDEKYAELLKKSTHKYFCIRGEKIMFYFHRNKLLEYVPNNILSAIHLWDNIVGWQQELMGIDDVRPSQVNNHLFAISPEGSYMWASDYQIGFVYTYLGNILLEDNVMAAEDNAWGPAHEIGHVHQAAINWASSTESSNNLFSNFIIYKLGKYKSRGNGLGSVATARYANGQAWYNMGDATHQNEDTETHMRMNWQLWIYYHRCEYKTDFWQTLFKLMREVNMTEGEDPGKKQLEFAKMASKAANQNLTDFFEMWGFFEPVNTTIEQYGTYKYYVSDAMIREAKEYMAQFPAPKHAFQYIEDRKKSEFPSNDYRYSAVGDVGYYTQFKENQKITKAITAELAGRKVSIQNGDEAVAFELRENDENGKLLYFSTFTTFEIPSSILMVNAKLYAVQADGKRILL

Uniprot登录号：Q89ZX7.1

金属蛋白酶基序加有下划线。

信号序列加粗且加有下划线。

成熟蛋白质中去除的其他序列加粗且倾斜。

SEQ ID NO:34

产气荚膜梭菌(包含信号和其他序列的完整天然序列)

MNKRKIAAIILATMITNLSATTIDVLAQELNTKNNSKVEVSHDDESHQARVSKFDLYNSDKLDAYNQEFQVSRSNIKSINNNGGKYNSSTIDKAIDGNLETHWETGKPNDANFTNEVVVTFNEITNIDRIVYSARRDSARGKGFAKEFEIYASLKDEGDDFNLVSSGEYTESTRDLVEIKFNPTDFKRLKFKFKKADQNWASAAEFMFYKEDKLNEKFNGLFTDSSMNKVSEEFNTLEKLNAFENELKDHPIYDLYKEGLNNARAILTETSENPTKATLGQITYNLNDDYNNQYRMPYKNIKAIKNNGRHYAAQNIEKAIDNDVNTYWETGTLNSSSFNNEVEVEFNDLVTLDRIVYGSRQSDLKGFAEEVYIYASRTSKGDTYKLVATGAHEATKGLVEAKFEPTEFKRVKFKFKKSKQNSATLNELMFYKPDEVYSSIPKLFTDGTMSELSEEFNSLEKINAFKEKAKNHPLYNDFNETIELAESLISNPRKEDVLELEMRGDSISEAKKRKVWNFQDWQITGLSARAGDKITVYVDVAEGDPTPTLLYKQSLTQHGGATSFQLKPGKNEITIPEINYESNGIPKDVIQGGDLFFTNYKSDSQKRAPKVRIEGASKYPVFILGKSDENEVMKELEAYVEKIKAEPKTTPNIFAVSSNKSLEFVQATYALDWYKKNNKTPKYTAEQWDQYIADAMGFWGFDNSKDVNSDFNFRIMPMVKNLSGGAFMNAGNGVIGIRPGNQDAILAANKGWGVAHELGHNFDTGGRTIVEVTNNMMPLFFESKYKTKTRITDQNIWENNTYPKVGLDDYSNNELYNKADSTHLAQLAPLWQLYLYDNTFYGKFERQFRERDFGNKNREDIYKSWVVAASDAMELDLTEFFARHGIRVDDKVKEDLAKYPKPDKKIYYLNDLAMNYKGDGFTENAKVSVSTSGSNGNIKLSFSVDDENKDNILGYEIRRDGKYVGFTSNDSFVDTKSNLDEDGVYVVTPYDRKLNTLNPIEVNALQPTLSVNPVITLALGEEFNEEEYIVAKDIKGNSLSESVKVKSSNVNTSKVGEYEVLYSLEDSKGNEYTKTSKVNVVSRKEYMSDLTPKQSSNGWGTVRKDKSISGGVIGLTRDGDFVDYNKGLGLHSNAEYVYDLEGKDYDYFESYVGVDKAMSSRPASSVIFKVLVDGEEKFNSGVMRSTTPQKYVKVDVKNAKELKLIVNDAGDGDSSDHASFGDAKLATLSSKPIIKGENLAYSMDEKVDLMKGITATDIEDGNITSKVQIKSSDFVEGKSGIFTVVYSVTDSDGLTSECSRTIAVTDKETQLSDLNWKSATIGSGSVRKDRAVSGNQIRLLNEDNSVETFAKGIGTHSYSEIVYNSEGYDIFDTWVGIDRHVADKKVSSVKFKVYVDGELKAETDVMRIDTPKKRLVVDVRNSKEIKLVVDVADNGNNWDHADWADAKFRNLAEYDASELNKAIEEAKKLDLNNYTEESSEALKNAISKGEEALLSKDKETINSALEELNKEMNSLVKVDLNAVINIPDKYLLKSIQNQLNKTGDITLGDMYSLTTLTLSGVEDLTGLENAKNLETLNMDYNEVKDLRPLSKLKKLNTLNAQEQFIAAGELKPSNGKVIGDSKVYNREGKNVAKTIRVVDKNGNTILEQDAKDEFTINTKDLSSGLYGVHVLFEDEGFSGVMFYLFNV

Uniprot登录号：A0A0H2YN38.1

金属蛋白酶基序加有下划线。

信号序列加粗且加有下划线。

成熟蛋白质中去除的其他序列加粗且倾斜。

SEQ ID NO:35

铜绿假单胞菌PAO1(去除信号序列的双突变体)

ATQEEILDAALVSGDSSQLTDSHLVALRLQQQVERIRQTRTQLLDGLYQNLSQAYDPGAASMWVLPANPDNTLPFLIGDKGRVLASLSLEAGGRGLAYGTNVLTQLSGTNAAHAPLLKRAVQWLVNGDPGAATAKDFKVSVVGVDKTAALNGLKSAGLQPADAACNALTDASCASTSKLLVLGNGASAASLSATVRARLQAGLPILFVHTNGWNQSSTGQQILAGLGLQEGPYGGNYWDKDRVPSSRTRTRSVELGGAYGQDPALVQQIVDGSWRTDYDWSKCTSYVGRTTCDDVPGLSDFSKRVDVLKGALDAYNQKAQNLFALPGTTSLRLWLLWADAVRQNIRYPMDKAADTARFQETFVADAIVGYVREAGAAQKELGSYAGQRQQSMPVSGSEETLTLTLPSAQGFTAIGRMAAPGKRLSIRIEDAGQASLAVGLNTQRIGSTRLWNTRQYDRPRFLKSPDIKLQANQSVALVSPYGGLLQLVYSGATPGQTVTVKVTGAASQPFLDIQPGEDSSQAIADFIQALDADKADWLEIRSGSVEVHAKVEKVRGSIDKDYGGDVQRFIRELNEVFIDDAYTLAGFAIPNQAKTPAIQQECAARGWDCDSETLHKLPGTQHINVDQYAQCGGGCSGNPYDQTWGLNPRGWGESAALGHNLQVNRLKVYGGRSGEISNQIFPLHKDWRVLREFGQNLDDTRVNYRNAYNLIVAGRAEADPLAGVYKRLWEDPGTYALNGERMAFYTQWVHYWADLKNDPLQGWDIWTLLYLHQRQVDKSDWDANKAALGYGTYAQRPGNSGDASSTDGNDNLLLGLSWLTQRDQRPTFALWGIRTSAAAQAQVAAYGFAEQPAFFYANNRTNEYSTVKLLDMSQGSPAWPFP

被破坏的金属蛋白酶基序加有下划线

SEQ ID NO:36

多形拟杆菌VPI-5482(去除信号序列和其他未成熟序列的双突变体)

DKWEKEFRIRSYEPYSNIAEWADKLMTKKYSDLDNPTGISVKAGDDIIVLVGDTYGQNISMQCIWETGTEYKQTASSGDVYMLNPGVNKLTMKGEGQLFVMYNTELTSNTAKPIKIHIPLGSGTVNGFFDLKEHKTDEKYAELLKKSTHKYFCIRGEKIMFYFHRNKLLEYVPNNILSAIHLWDNIVGWQQELMGIDDVRPSQVNNHLFAISPEGSYMWASDYQIGFVYTYLGNILLEDNVMAAEDNAWGPAAAIGHVHQAAINWASSTESSNNLFSNFIIYKLGKYKSRGNGLGSVATARYANGQAWYNMGDATHQNEDTETHMRMNWQLWIYYHRCEYKTDFWQTLFKLMREVNMTEGEDPGKKQLEFAKMASKAANQNLTDFFEMWGFFEPVNTTIEQYGTYKYYVSDAMIREAKEYMAQFPAPKHAFQYIEDRKKSEFPSNDYRYSAVGDVGYYTQFKENQKITKAITAELAGRKVSIQNGDEAVAFELRENDENGKLLYFSTFTTFEIPSSILMVNAKLYAVQADGKRILL

被破坏的金属蛋白酶基序加有下划线

SEQ ID NO:37

产气荚膜梭菌(去除信号序列和其他未成熟序列的双突变体)

VLELEMRGDSISEAKKRKVWNFQDWQITGLSARAGDKITVYVDVAEGDPTPTLLYKQSLTQHGGATSFQLKPGKNEITIPEINYESNGIPKDVIQGGDLFFTNYKSDSQKRAPKVRIEGASKYPVFILGKSDENEVMKELEAYVEKIKAEPKTTPNIFAVSSNKSLEFVQATYALDWYKKNNKTPKYTAEQWDQYIADAMGFWGFDNSKDVNSDFNFRIMPMVKNLSGGAFMNAGNGVIGIRPGNQDAILAANKGWGVAAALGHNFDTGGRTIVEVTNNMMPLFFESKYKTKTRITDQNIWENNTYPKVGLDDYSNNELYNKADSTHLAQLAPLWQLYLYDNTFYGKFERQFRERDFGNKNREDIYKSWVVAASDAMELDLTEFFARHGIRVDDKVKEDLAKYPKPDKKIYYLNDLAMNYKGDGFTENAKVSVSTSGSNGNIKLSFSVDDENKDNILGYEIRRDGKYVGFTSNDSFVDTKSNLDEDGVYVVTPYDRKLNTLNPIEVN

被破坏的金属蛋白酶基序加有下划线

SEQ ID NO:38

铜绿假单胞菌PAO1(去除信号序列并且具有N末端Met、C末端接头/标签的双突变体)

MATQEEILDAALVSGDSSQLTDSHLVALRLQQQVERIRQTRTQLLDGLYQNLSQAYDPGAASMWVLPANPDNTLPFLIGDKGRVLASLSLEAGGRGLAYGTNVLTQLSGTNAAHAPLLKRAVQWLVNGDPGAATAKDFKVSVVGVDKTAALNGLKSAGLQPADAACNALTDASCASTSKLLVLGNGASAASLSATVRARLQAGLPILFVHTNGWNQSSTGQQILAGLGLQEGPYGGNYWDKDRVPSSRTRTRSVELGGAYGQDPALVQQIVDGSWRTDYDWSKCTSYVGRTTCDDVPGLSDFSKRVDVLKGALDAYNQKAQNLFALPGTTSLRLWLLWADAVRQNIRYPMDKAADTARFQETFVADAIVGYVREAGAAQKELGSYAGQRQQSMPVSGSEETLTLTLPSAQGFTAIGRMAAPGKRLSIRIEDAGQASLAVGLNTQRIGSTRLWNTRQYDRPRFLKSPDIKLQANQSVALVSPYGGLLQLVYSGATPGQTVTVKVTGAASQPFLDIQPGEDSSQAIADFIQALDADKADWLEIRSGSVEVHAKVEKVRGSIDKDYGGDVQRFIRELNEVFIDDAYTLAGFAIPNQAKTPAIQQECAARGWDCDSETLHKLPGTQHINVDQYAQCGGGCSGNPYDQTWGLNPRGWGESAALGHNLQVNRLKVYGGRSGEISNQIFPLHKDWRVLREFGQNLDDTRVNYRNAYNLIVAGRAEADPLAGVYKRLWEDPGTYALNGERMAFYTQWVHYWADLKNDPLQGWDIWTLLYLHQRQVDKSDWDANKAALGYGTYAQRPGNSGDASSTDGNDNLLLGLSWLTQRDQRPTFALWGIRTSAAAQAQVAAYGFAEQPAFFYANNRTNEYSTVKLLDMSQGSPAWPFPGSGHHHHHH

被破坏的金属蛋白酶基序加有下划线

SEQ ID NO:39

多形拟杆菌VPI-5482(去除信号序列和来自不成熟蛋白的其他序列并且具有N末端Met、C末端接头/标签的双突变体)

MDKWEKEFRIRSYEPYSNIAEWADKLMTKKYSDLDNPTGISVKAGDDIIVLVGDTYGQNISMQCIWETGTEYKQTASSGDVYMLNPGVNKLTMKGEGQLFVMYNTELTSNTAKPIKIHIPLGSGTVNGFFDLKEHKTDEKYAELLKKSTHKYFCIRGEKIMFYFHRNKLLEYVPNNILSAIHLWDNIVGWQQELMGIDDVRPSQVNNHLFAISPEGSYMWASDYQIGFVYTYLGNILLEDNVMAAEDNAWGPAAAIGHVHQAAINWASSTESSNNLFSNFIIYKLGKYKSRGNGLGSVATARYANGQAWYNMGDATHQNEDTETHMRMNWQLWIYYHRCEYKTDFWQTLFKLMREVNMTEGEDPGKKQLEFAKMASKAANQNLTDFFEMWGFFEPVNTTIEQYGTYKYYVSDAMIREAKEYMAQFPAPKHAFQYIEDRKKSEFPSNDYRYSAVGDVGYYTQFKENQKITKAITAELAGRKVSIQNGDEAVAFELRENDENGKLLYFSTFTTFEIPSSILMVNAKLYAVQADGKRILLGSGHHHHHH

被破坏的金属蛋白酶基序加有下划线

SEQ ID NO:40

产气荚膜梭菌(去除信号序列和来自不成熟蛋白的其他序列并且具有N末端Met、C末端接头/标签的双突变体)

MVLELEMRGDSISEAKKRKVWNFQDWQITGLSARAGDKITVYVDVAEGDPTPTLLYKQSLTQHGGATSFQLKPGKNEITIPEINYESNGIPKDVIQGGDLFFTNYKSDSQKRAPKVRIEGASKYPVFILGKSDENEVMKELEAYVEKIKAEPKTTPNIFAVSSNKSLEFVQATYALDWYKKNNKTPKYTAEQWDQYIADAMGFWGFDNSKDVNSDFNFRIMPMVKNLSGGAFMNAGNGVIGIRPGNQDAILAANKGWGVAAALGHNFDTGGRTIVEVTNNMMPLFFESKYKTKTRITDQNIWENNTYPKVGLDDYSNNELYNKADSTHLAQLAPLWQLYLYDNTFYGKFERQFRERDFGNKNREDIYKSWVVAASDAMELDLTEFFARHGIRVDDKVKEDLAKYPKPDKKIYYLNDLAMNYKGDGFTENAKVSVSTSGSNGNIKLSFSVDDENKDNILGYEIRRDGKYVGFTSNDSFVDTKSNLDEDGVYVVTPYDRKLNTLNPIEVNGSGHHHHHH

被破坏的金属蛋白酶基序加有下划线

SEQ ID NO:41

HELGH(金属蛋白酶基序)

SEQ ID NO:42

HEIGH(金属蛋白酶基序)

SEQ ID NO:43

GVAHELGHNF(金属蛋白酶基序)

SEQ ID NO:44

HALGH(被破坏的金属蛋白酶基序)

SEQ ID NO:45

AELGH(被破坏的金属蛋白酶基序)

SEQ ID NO:46

AALGH(被破坏的金属蛋白酶基序)

SEQ ID NO:47

GKPRPYSPRPTSHPRPIRV(在T上具有O糖基化位点的糖基果蝇肽)

SEQ ID NO:48

YIYGSFK(非O-糖基化肽)

SEQ ID NO:49

KKLVFFA(非O-糖基化肽)

SEQ ID NO:50

FLPLILGKLVKGLL(非O-糖基化肽)

序列表

<110> 杰诺维斯公司

<120> 用于O-糖蛋白的蛋白酶和结合多肽

<130> N410795WO

<150> GB1708471.6

<151> 2017-05-26

<150> GB1708476.5

<151> 2017-05-26

<150> GB1806655.5

<151> 2018-04-24

<160> 50

<170> PatentIn version 3.5

<210> 1

<211> 361

<212> PRT

<213> Akkermansia muciniphila

<400> 1

Glu Val Thr Val Pro Asp Ala Leu Lys Asp Arg Ile Ala Leu Lys Lys

1 5 10 15

Thr Ala Arg Gln Leu Asn Ile Val Tyr Phe Leu Gly Ser Asp Thr Glu

20 25 30

Pro Val Pro Asp Tyr Glu Arg Arg Leu Ser Glu Leu Leu Leu Tyr Leu

35 40 45

Gln Gln Phe Tyr Gly Lys Glu Met Gln Arg His Gly Tyr Gly Ala Arg

50 55 60

Ser Phe Gly Leu Asp Ile Lys Ser Pro Gly Arg Val Asn Ile Ile Glu

65 70 75 80

Tyr Lys Ala Lys Asn Pro Ala Ala His Tyr Pro Tyr Glu Asn Gly Gly

85 90 95

Gly Trp Lys Ala Ala Gln Glu Leu Asp Glu Phe Phe Lys Ala His Pro

100 105 110

Asp Arg Lys Lys Ser Gln His Thr Leu Ile Ile Met Pro Thr Trp Asn

115 120 125

Asp Glu Lys Asn Gly Pro Asp Asn Pro Gly Gly Val Pro Phe Tyr Gly

130 135 140

Met Gly Arg Asn Cys Phe Ala Leu Asp Tyr Pro Ala Phe Asp Ile Lys

145 150 155 160

His Leu Gly Gln Lys Thr Arg Glu Gly Arg Leu Leu Thr Lys Trp Tyr

165 170 175

Gly Gly Met Ala His Glu Leu Gly His Gly Leu Asn Leu Pro His Asn

180 185 190

His Gln Thr Ala Ser Asp Gly Lys Lys Tyr Gly Thr Ala Leu Met Gly

195 200 205

Ser Gly Asn Tyr Thr Phe Gly Thr Ser Pro Thr Phe Leu Thr Pro Ala

210 215 220

Ser Cys Ala Leu Leu Asp Ala Cys Glu Val Phe Ser Val Thr Pro Ser

225 230 235 240

Gln Gln Phe Tyr Glu Gly Lys Pro Glu Val Glu Val Gly Asp Val Ala

245 250 255

Ile Ser Phe Lys Gly Asp Gln Ile Leu Val Ser Gly Asn Tyr Lys Ser

260 265 270

Pro Gln Thr Val Lys Ala Leu Asn Val Tyr Ile Gln Asp Pro Pro Tyr

275 280 285

Ala Val Asn Gln Asp Tyr Asp Ala Val Ser Phe Ser Arg Arg Leu Gly

290 295 300

Lys Lys Ser Gly Lys Phe Ser Met Lys Ile Asp Lys Lys Glu Leu Glu

305 310 315 320

Gly Leu Asn Asn Asn Glu Phe Arg Ile Ser Leu Met Phe Ile Leu Ala

325 330 335

Asn Gly Leu His Met Gln Lys His Phe Thr Phe His Trp Asp Ala Leu

340 345 350

Gln Asp Tyr Arg Asp Gly Ser Lys Ser

355 360

<210> 2

<211> 371

<212> PRT

<213> Artificial Sequence

<220>

<223> LS (N terminal methionine and a C-terminal linker + His6 tag)

<400> 2

Met Glu Val Thr Val Pro Asp Ala Leu Lys Asp Arg Ile Ala Leu Lys

1 5 10 15

Lys Thr Ala Arg Gln Leu Asn Ile Val Tyr Phe Leu Gly Ser Asp Thr

20 25 30

Glu Pro Val Pro Asp Tyr Glu Arg Arg Leu Ser Glu Leu Leu Leu Tyr

35 40 45

Leu Gln Gln Phe Tyr Gly Lys Glu Met Gln Arg His Gly Tyr Gly Ala

50 55 60

Arg Ser Phe Gly Leu Asp Ile Lys Ser Pro Gly Arg Val Asn Ile Ile

65 70 75 80

Glu Tyr Lys Ala Lys Asn Pro Ala Ala His Tyr Pro Tyr Glu Asn Gly

85 90 95

Gly Gly Trp Lys Ala Ala Gln Glu Leu Asp Glu Phe Phe Lys Ala His

100 105 110

Pro Asp Arg Lys Lys Ser Gln His Thr Leu Ile Ile Met Pro Thr Trp

115 120 125

Asn Asp Glu Lys Asn Gly Pro Asp Asn Pro Gly Gly Val Pro Phe Tyr

130 135 140

Gly Met Gly Arg Asn Cys Phe Ala Leu Asp Tyr Pro Ala Phe Asp Ile

145 150 155 160

Lys His Leu Gly Gln Lys Thr Arg Glu Gly Arg Leu Leu Thr Lys Trp

165 170 175

Tyr Gly Gly Met Ala His Glu Leu Gly His Gly Leu Asn Leu Pro His

180 185 190

Asn His Gln Thr Ala Ser Asp Gly Lys Lys Tyr Gly Thr Ala Leu Met

195 200 205

Gly Ser Gly Asn Tyr Thr Phe Gly Thr Ser Pro Thr Phe Leu Thr Pro

210 215 220

Ala Ser Cys Ala Leu Leu Asp Ala Cys Glu Val Phe Ser Val Thr Pro

225 230 235 240

Ser Gln Gln Phe Tyr Glu Gly Lys Pro Glu Val Glu Val Gly Asp Val

245 250 255

Ala Ile Ser Phe Lys Gly Asp Gln Ile Leu Val Ser Gly Asn Tyr Lys

260 265 270

Ser Pro Gln Thr Val Lys Ala Leu Asn Val Tyr Ile Gln Asp Pro Pro

275 280 285

Tyr Ala Val Asn Gln Asp Tyr Asp Ala Val Ser Phe Ser Arg Arg Leu

290 295 300

Gly Lys Lys Ser Gly Lys Phe Ser Met Lys Ile Asp Lys Lys Glu Leu

305 310 315 320

Glu Gly Leu Asn Asn Asn Glu Phe Arg Ile Ser Leu Met Phe Ile Leu

325 330 335

Ala Asn Gly Leu His Met Gln Lys His Phe Thr Phe His Trp Asp Ala

340 345 350

Leu Gln Asp Tyr Arg Asp Gly Ser Lys Ser Gly Ser Gly His His His

355 360 365

His His His

370

<210> 3

<211> 1116

<212> DNA

<213> Artificial Sequence

<220>

<223> Nucleotide sequence of LS

<400> 3

atggaagtca ctgtgccgga cgccctgaaa gatcgcatcg cgctgaagaa aaccgctcgt 60

cagctgaata tcgtctactt cctgggttct gataccgaac cggttccgga ctacgagcgc 120

cgtctgagcg agctgctgtt gtatctgcag caattctatg gtaaagaaat gcagcgccat 180

ggctatggcg cacgcagctt tggtctggac attaagtcac cgggtcgtgt gaacattatc 240

gagtacaaag cgaagaaccc ggcagcgcat tacccgtatg agaatggtgg cggctggaaa 300

gctgcacaag aactggacga atttttcaag gcccatccag accgcaagaa aagccagcac 360

accctgatca tcatgcctac ctggaatgat gagaaaaatg gtcctgacaa tccgggtggc 420

gttccgttct atggtatggg tcgtaattgt tttgcgttgg actacccggc gtttgatatc 480

aagcacctgg gtcagaaaac gcgtgagggt cgtctgctga cgaaatggta cggtggcatg 540

gcgcacgaac tgggccacgg cctgaatctg ccgcacaatc accagaccgc gagcgatggc 600

aagaaatatg gcaccgccct gatgggtagc ggcaactaca cgttcggtac cagcccgacg 660

ttcctgaccc cggcgagctg tgcgctgctg gatgcctgcg aagtgttcag cgttaccccg 720

agccaacagt tttatgaggg taagccagaa gtcgaggttg gtgatgttgc aatttccttc 780

aagggtgatc aaatcttggt cagcggtaac tacaagagcc cgcaaaccgt gaaagctctg 840

aacgtttaca ttcaggatcc gccgtacgcc gtgaaccaag actacgatgc agtgagcttt 900

agccgtcgtc tgggcaaaaa gtccggtaag tttagcatga agattgacaa aaaagaactg 960

gaaggcctga ataacaacga attccgtatt tccttgatgt tcattctggc aaacggctta 1020

cacatgcaga agcactttac gtttcactgg gatgcgctgc aagactaccg tgacggtagc 1080

aaatctggtt cgggtcatca tcaccaccat cactga 1116

<210> 4

<211> 385

<212> PRT

<213> Akkermansia muciniphila

<400> 4

Met Leu Lys Arg Leu Leu Ser Ala Phe Phe Ser Leu Phe Phe Leu Gly

1 5 10 15

Ala Ala Ser Gly Thr Ser Phe Ala Glu Val Thr Val Pro Asp Ala Leu

20 25 30

Lys Asp Arg Ile Ala Leu Lys Lys Thr Ala Arg Gln Leu Asn Ile Val

35 40 45

Tyr Phe Leu Gly Ser Asp Thr Glu Pro Val Pro Asp Tyr Glu Arg Arg

50 55 60

Leu Ser Glu Leu Leu Leu Tyr Leu Gln Gln Phe Tyr Gly Lys Glu Met

65 70 75 80

Gln Arg His Gly Tyr Gly Ala Arg Ser Phe Gly Leu Asp Ile Lys Ser

85 90 95

Pro Gly Arg Val Asn Ile Ile Glu Tyr Lys Ala Lys Asn Pro Ala Ala

100 105 110

His Tyr Pro Tyr Glu Asn Gly Gly Gly Trp Lys Ala Ala Gln Glu Leu

115 120 125

Asp Glu Phe Phe Lys Ala His Pro Asp Arg Lys Lys Ser Gln His Thr

130 135 140

Leu Ile Ile Met Pro Thr Trp Asn Asp Glu Lys Asn Gly Pro Asp Asn

145 150 155 160

Pro Gly Gly Val Pro Phe Tyr Gly Met Gly Arg Asn Cys Phe Ala Leu

165 170 175

Asp Tyr Pro Ala Phe Asp Ile Lys His Leu Gly Gln Lys Thr Arg Glu

180 185 190

Gly Arg Leu Leu Thr Lys Trp Tyr Gly Gly Met Ala His Glu Leu Gly

195 200 205

His Gly Leu Asn Leu Pro His Asn His Gln Thr Ala Ser Asp Gly Lys

210 215 220

Lys Tyr Gly Thr Ala Leu Met Gly Ser Gly Asn Tyr Thr Phe Gly Thr

225 230 235 240

Ser Pro Thr Phe Leu Thr Pro Ala Ser Cys Ala Leu Leu Asp Ala Cys

245 250 255

Glu Val Phe Ser Val Thr Pro Ser Gln Gln Phe Tyr Glu Gly Lys Pro

260 265 270

Glu Val Glu Val Gly Asp Val Ala Ile Ser Phe Lys Gly Asp Gln Ile

275 280 285

Leu Val Ser Gly Asn Tyr Lys Ser Pro Gln Thr Val Lys Ala Leu Asn

290 295 300

Val Tyr Ile Gln Asp Pro Pro Tyr Ala Val Asn Gln Asp Tyr Asp Ala

305 310 315 320

Val Ser Phe Ser Arg Arg Leu Gly Lys Lys Ser Gly Lys Phe Ser Met

325 330 335

Lys Ile Asp Lys Lys Glu Leu Glu Gly Leu Asn Asn Asn Glu Phe Arg

340 345 350

Ile Ser Leu Met Phe Ile Leu Ala Asn Gly Leu His Met Gln Lys His

355 360 365

Phe Thr Phe His Trp Asp Ala Leu Gln Asp Tyr Arg Asp Gly Ser Lys

370 375 380

Ser

385

<210> 5

<211> 361

<212> PRT

<213> Artificial Sequence

<220>

<223> Polypeptide capable of binding to O-glycans but lacks or has

reduced O-glycoprotein-specific endoprotease activity

<400> 5

Glu Val Thr Val Pro Asp Ala Leu Lys Asp Arg Ile Ala Leu Lys Lys

1 5 10 15

Thr Ala Arg Gln Leu Asn Ile Val Tyr Phe Leu Gly Ser Asp Thr Glu

20 25 30

Pro Val Pro Asp Tyr Glu Arg Arg Leu Ser Glu Leu Leu Leu Tyr Leu

35 40 45

Gln Gln Phe Tyr Gly Lys Glu Met Gln Arg His Gly Tyr Gly Ala Arg

50 55 60

Ser Phe Gly Leu Asp Ile Lys Ser Pro Gly Arg Val Asn Ile Ile Glu

65 70 75 80

Tyr Lys Ala Lys Asn Pro Ala Ala His Tyr Pro Tyr Glu Asn Gly Gly

85 90 95

Gly Trp Lys Ala Ala Gln Glu Leu Asp Glu Phe Phe Lys Ala His Pro

100 105 110

Asp Arg Lys Lys Ser Gln His Thr Leu Ile Ile Met Pro Thr Trp Asn

115 120 125

Asp Glu Lys Asn Gly Pro Asp Asn Pro Gly Gly Val Pro Phe Tyr Gly

130 135 140

Met Gly Arg Asn Cys Phe Ala Leu Asp Tyr Pro Ala Phe Asp Ile Lys

145 150 155 160

His Leu Gly Gln Lys Thr Arg Glu Gly Arg Leu Leu Thr Lys Trp Tyr

165 170 175

Gly Gly Met Ala His Ala Leu Gly His Gly Leu Asn Leu Pro His Asn

180 185 190

His Gln Thr Ala Ser Asp Gly Lys Lys Tyr Gly Thr Ala Leu Met Gly

195 200 205

Ser Gly Asn Tyr Thr Phe Gly Thr Ser Pro Thr Phe Leu Thr Pro Ala

210 215 220

Ser Cys Ala Leu Leu Asp Ala Cys Glu Val Phe Ser Val Thr Pro Ser

225 230 235 240

Gln Gln Phe Tyr Glu Gly Lys Pro Glu Val Glu Val Gly Asp Val Ala

245 250 255

Ile Ser Phe Lys Gly Asp Gln Ile Leu Val Ser Gly Asn Tyr Lys Ser

260 265 270

Pro Gln Thr Val Lys Ala Leu Asn Val Tyr Ile Gln Asp Pro Pro Tyr

275 280 285

Ala Val Asn Gln Asp Tyr Asp Ala Val Ser Phe Ser Arg Arg Leu Gly

290 295 300

Lys Lys Ser Gly Lys Phe Ser Met Lys Ile Asp Lys Lys Glu Leu Glu

305 310 315 320

Gly Leu Asn Asn Asn Glu Phe Arg Ile Ser Leu Met Phe Ile Leu Ala

325 330 335

Asn Gly Leu His Met Gln Lys His Phe Thr Phe His Trp Asp Ala Leu

340 345 350

Gln Asp Tyr Arg Asp Gly Ser Lys Ser

355 360

<210> 6

<211> 371

<212> PRT

<213> Artificial Sequence

<220>

<223> LS E206A (N-terminal methionine and a C-terminal linker + His6

tag)

<400> 6

Met Glu Val Thr Val Pro Asp Ala Leu Lys Asp Arg Ile Ala Leu Lys

1 5 10 15

Lys Thr Ala Arg Gln Leu Asn Ile Val Tyr Phe Leu Gly Ser Asp Thr

20 25 30

Glu Pro Val Pro Asp Tyr Glu Arg Arg Leu Ser Glu Leu Leu Leu Tyr

35 40 45

Leu Gln Gln Phe Tyr Gly Lys Glu Met Gln Arg His Gly Tyr Gly Ala

50 55 60

Arg Ser Phe Gly Leu Asp Ile Lys Ser Pro Gly Arg Val Asn Ile Ile

65 70 75 80

Glu Tyr Lys Ala Lys Asn Pro Ala Ala His Tyr Pro Tyr Glu Asn Gly

85 90 95

Gly Gly Trp Lys Ala Ala Gln Glu Leu Asp Glu Phe Phe Lys Ala His

100 105 110

Pro Asp Arg Lys Lys Ser Gln His Thr Leu Ile Ile Met Pro Thr Trp

115 120 125

Asn Asp Glu Lys Asn Gly Pro Asp Asn Pro Gly Gly Val Pro Phe Tyr

130 135 140

Gly Met Gly Arg Asn Cys Phe Ala Leu Asp Tyr Pro Ala Phe Asp Ile

145 150 155 160

Lys His Leu Gly Gln Lys Thr Arg Glu Gly Arg Leu Leu Thr Lys Trp

165 170 175

Tyr Gly Gly Met Ala His Ala Leu Gly His Gly Leu Asn Leu Pro His

180 185 190

Asn His Gln Thr Ala Ser Asp Gly Lys Lys Tyr Gly Thr Ala Leu Met

195 200 205

Gly Ser Gly Asn Tyr Thr Phe Gly Thr Ser Pro Thr Phe Leu Thr Pro

210 215 220

Ala Ser Cys Ala Leu Leu Asp Ala Cys Glu Val Phe Ser Val Thr Pro

225 230 235 240

Ser Gln Gln Phe Tyr Glu Gly Lys Pro Glu Val Glu Val Gly Asp Val

245 250 255

Ala Ile Ser Phe Lys Gly Asp Gln Ile Leu Val Ser Gly Asn Tyr Lys

260 265 270

Ser Pro Gln Thr Val Lys Ala Leu Asn Val Tyr Ile Gln Asp Pro Pro

275 280 285

Tyr Ala Val Asn Gln Asp Tyr Asp Ala Val Ser Phe Ser Arg Arg Leu

290 295 300

Gly Lys Lys Ser Gly Lys Phe Ser Met Lys Ile Asp Lys Lys Glu Leu

305 310 315 320

Glu Gly Leu Asn Asn Asn Glu Phe Arg Ile Ser Leu Met Phe Ile Leu

325 330 335

Ala Asn Gly Leu His Met Gln Lys His Phe Thr Phe His Trp Asp Ala

340 345 350

Leu Gln Asp Tyr Arg Asp Gly Ser Lys Ser Gly Ser Gly His His His

355 360 365

His His His

370

<210> 7

<211> 1116

<212> DNA

<213> Artificial Sequence

<220>

<223> Nucleotide sequence encoding LS E206A

<400> 7

atggaagtca ctgtgccgga cgccctgaaa gatcgcatcg cgctgaagaa aaccgctcgt 60

cagctgaata tcgtctactt cctgggttct gataccgaac cggttccgga ctacgagcgc 120

cgtctgagcg agctgctgtt gtatctgcag caattctatg gtaaagaaat gcagcgccat 180

ggctatggcg cacgcagctt tggtctggac attaagtcac cgggtcgtgt gaacattatc 240

gagtacaaag cgaagaaccc ggcagcgcat tacccgtatg agaatggtgg cggctggaaa 300

gctgcacaag aactggacga atttttcaag gcccatccag accgcaagaa aagccagcac 360

accctgatca tcatgcctac ctggaatgat gagaaaaatg gtcctgacaa tccgggtggc 420

gttccgttct atggtatggg tcgtaattgt tttgcgttgg actacccggc gtttgatatc 480

aagcacctgg gtcagaaaac gcgtgagggt cgtctgctga cgaaatggta cggtggcatg 540

gcgcacgcgc tgggccacgg cctgaatctg ccgcacaatc accagaccgc gagcgatggc 600

aagaaatatg gcaccgccct gatgggtagc ggcaactaca cgttcggtac cagcccgacg 660

ttcctgaccc cggcgagctg tgcgctgctg gatgcctgcg aagtgttcag cgttaccccg 720

agccaacagt tttatgaggg taagccagaa gtcgaggttg gtgatgttgc aatttccttc 780

aagggtgatc aaatcttggt cagcggtaac tacaagagcc cgcaaaccgt gaaagctctg 840

aacgtttaca ttcaggatcc gccgtacgcc gtgaaccaag actacgatgc agtgagcttt 900

agccgtcgtc tgggcaaaaa gtccggtaag tttagcatga agattgacaa aaaagaactg 960

gaaggcctga ataacaacga attccgtatt tccttgatgt tcattctggc aaacggctta 1020

cacatgcaga agcactttac gtttcactgg gatgcgctgc aagactaccg tgacggtagc 1080

aaatctggtt cgggtcatca tcaccaccat cactga 1116

<210> 8

<211> 10

<212> PRT

<213> Artificial Sequence

<220>

<223> Metalloprotease domain motif

<400> 8

Gly Met Ala His Glu Leu Gly His Gly Leu

1 5 10

<210> 9

<211> 595

<212> PRT

<213> Akkermansia muciniphila

<400> 9

Met Lys Asn Leu Leu Phe Ala Leu Leu Thr Gly Ser Phe Cys Cys Cys

1 5 10 15

Tyr Ala Gln Gln Lys Ala Ala Pro Val Pro Glu Pro Glu Val Val Ala

20 25 30

Thr Pro Pro Ala Asp Ala Gly Arg Gly Leu Ile Arg Val Asp Ser Arg

35 40 45

Glu Ile Arg His Tyr Ser Gly Thr Arg Lys Glu Pro Asp Tyr Leu Val

50 55 60

Ser Arg Asp Asn Gly Lys Thr Trp Glu Met Lys Ala Ala Pro Ala Gly

65 70 75 80

Tyr Pro Pro Asn Tyr Gly Gly Ile Pro Lys Glu Ser Pro Ala Ile Val

85 90 95

Arg Asn Pro Leu Thr Arg Glu Phe Ile Arg Val Gln Pro Ile Gly Gly

100 105 110

Phe Val Phe Leu Ser Arg Gly Gly Leu Asp Gly Lys Trp Leu Ala Val

115 120 125

Thr Asn Asp Gly Lys Leu Glu Glu Asp Trp Lys Asp Pro Glu Lys Arg

130 135 140

Lys Asn Leu Lys Lys Leu Gly Gly Ile Met Arg Thr Pro Val Phe Val

145 150 155 160

Asn Lys Gly Arg Arg Val Ile Val Pro Phe His Asn Met Gly Gly Gly

165 170 175

Thr Lys Phe His Ile Ser Asp Asp Gly Gly Leu Thr Trp His Val Ser

180 185 190

Arg Asn Gly Val Thr Ser Pro Arg His Glu Ala Arg Pro Pro His Gln

195 200 205

Gly Val Arg Trp Phe Asn Asn Ala Val Glu Ala Thr Val Leu Glu Met

210 215 220

Lys Asp Gly Thr Leu Trp Ala Leu Ala Arg Thr Ser Gln Asp Gln Ala

225 230 235 240

Trp Gln Ala Phe Ser Lys Asp Tyr Gly Glu Thr Trp Ser Lys Pro Glu

245 250 255

Pro Ser Arg Phe Phe Gly Thr Leu Thr Met Asn Thr Leu Gly Arg Leu

260 265 270

Asp Asp Gly Thr Ile Val Ser Leu Trp Thr Asn Thr Met Ala Leu Pro

275 280 285

Glu Asn Ala Thr Ala Gly Asn Gly Thr Trp Glu Asp Val Phe Thr Asn

290 295 300

Arg Asp Ser His His Ile Ala Met Ser Gly Asp Glu Gly Lys Thr Trp

305 310 315 320

Tyr Gly Phe Arg Glu Ile Ile Leu Asp Glu His Arg Asn His Pro Gly

325 330 335

Tyr Ala Thr Leu Asp Gly Pro Glu Asp Arg Gly Lys His Gln Ser Glu

340 345 350

Met Val Gln Leu Asp Lys Asn Arg Ile Leu Ile Ser Leu Gly Gln His

355 360 365

Lys Asn His Arg Arg Leu Val Ile Val Asp Arg Arg Trp Val Gly Ala

370 375 380

Lys Thr Arg Ala Thr Gln Thr Gly Lys Asp Leu Asp Ser Gln Trp Thr

385 390 395 400

Ile His Thr Tyr Ile Pro Gln Lys Lys Gly His Cys Ser Tyr Asn Arg

405 410 415

Lys Pro Ser Ala Glu Leu Val Gln Asp Pro Ser Gly Gly Thr Lys Lys

420 425 430

Val Leu Gln Ile Lys Arg Leu Asp Asp Pro Glu Leu Val Asn Glu Lys

435 440 445

Ser Asn Val Asp Tyr Arg Asn Gly Gly Ala Thr Trp Asn Phe Pro Asn

450 455 460

Gly Thr Thr Gly Leu Val Lys Phe Arg Phe Arg Val Val Asp Gly Glu

465 470 475 480

Gln Ala Asp Asp Ser Gly Leu Gln Val Ser Leu Thr Asp Arg Leu Phe

485 490 495

Asn Ala Cys Asp Ser Thr Thr Lys Asp Tyr Ala Leu Phe Thr Phe Pro

500 505 510

Ile Arg Leu Lys Pro Ala Pro His Leu Leu Leu Gly Met Lys Lys Val

515 520 525

Pro Phe Thr Pro Gly Ala Trp His Glu Ile Ser Leu Leu Trp Gln Gly

530 535 540

Gly Gln Ala Val Val Ser Leu Asp Gly Lys Lys Ala Gly Thr Leu Lys

545 550 555 560

Met Ala Asn Lys Ser Pro Asn Gly Ala Ser Tyr Ile His Phe Ile Ser

565 570 575

Thr Gly Ser Gln Pro Asp Ala Gly Ile Leu Leu Asp Thr Val Asn Ala

580 585 590

Arg Val Lys

595

<210> 10

<211> 577

<212> PRT

<213> Akkermansia muciniphila

<400> 10

Gln Gln Lys Ala Ala Pro Val Pro Glu Pro Glu Val Val Ala Thr Pro

1 5 10 15

Pro Ala Asp Ala Gly Arg Gly Leu Ile Arg Val Asp Ser Arg Glu Ile

20 25 30

Arg His Tyr Ser Gly Thr Arg Lys Glu Pro Asp Tyr Leu Val Ser Arg

35 40 45

Asp Asn Gly Lys Thr Trp Glu Met Lys Ala Ala Pro Ala Gly Tyr Pro

50 55 60

Pro Asn Tyr Gly Gly Ile Pro Lys Glu Ser Pro Ala Ile Val Arg Asn

65 70 75 80

Pro Leu Thr Arg Glu Phe Ile Arg Val Gln Pro Ile Gly Gly Phe Val

85 90 95

Phe Leu Ser Arg Gly Gly Leu Asp Gly Lys Trp Leu Ala Val Thr Asn

100 105 110

Asp Gly Lys Leu Glu Glu Asp Trp Lys Asp Pro Glu Lys Arg Lys Asn

115 120 125

Leu Lys Lys Leu Gly Gly Ile Met Arg Thr Pro Val Phe Val Asn Lys

130 135 140

Gly Arg Arg Val Ile Val Pro Phe His Asn Met Gly Gly Gly Thr Lys

145 150 155 160

Phe His Ile Ser Asp Asp Gly Gly Leu Thr Trp His Val Ser Arg Asn

165 170 175

Gly Val Thr Ser Pro Arg His Glu Ala Arg Pro Pro His Gln Gly Val

180 185 190

Arg Trp Phe Asn Asn Ala Val Glu Ala Thr Val Leu Glu Met Lys Asp

195 200 205

Gly Thr Leu Trp Ala Leu Ala Arg Thr Ser Gln Asp Gln Ala Trp Gln

210 215 220

Ala Phe Ser Lys Asp Tyr Gly Glu Thr Trp Ser Lys Pro Glu Pro Ser

225 230 235 240

Arg Phe Phe Gly Thr Leu Thr Met Asn Thr Leu Gly Arg Leu Asp Asp

245 250 255

Gly Thr Ile Val Ser Leu Trp Thr Asn Thr Met Ala Leu Pro Glu Asn

260 265 270

Ala Thr Ala Gly Asn Gly Thr Trp Glu Asp Val Phe Thr Asn Arg Asp

275 280 285

Ser His His Ile Ala Met Ser Gly Asp Glu Gly Lys Thr Trp Tyr Gly

290 295 300

Phe Arg Glu Ile Ile Leu Asp Glu His Arg Asn His Pro Gly Tyr Ala

305 310 315 320

Thr Leu Asp Gly Pro Glu Asp Arg Gly Lys His Gln Ser Glu Met Val

325 330 335

Gln Leu Asp Lys Asn Arg Ile Leu Ile Ser Leu Gly Gln His Lys Asn

340 345 350

His Arg Arg Leu Val Ile Val Asp Arg Arg Trp Val Gly Ala Lys Thr

355 360 365

Arg Ala Thr Gln Thr Gly Lys Asp Leu Asp Ser Gln Trp Thr Ile His

370 375 380

Thr Tyr Ile Pro Gln Lys Lys Gly His Cys Ser Tyr Asn Arg Lys Pro

385 390 395 400

Ser Ala Glu Leu Val Gln Asp Pro Ser Gly Gly Thr Lys Lys Val Leu

405 410 415

Gln Ile Lys Arg Leu Asp Asp Pro Glu Leu Val Asn Glu Lys Ser Asn

420 425 430

Val Asp Tyr Arg Asn Gly Gly Ala Thr Trp Asn Phe Pro Asn Gly Thr

435 440 445

Thr Gly Leu Val Lys Phe Arg Phe Arg Val Val Asp Gly Glu Gln Ala

450 455 460

Asp Asp Ser Gly Leu Gln Val Ser Leu Thr Asp Arg Leu Phe Asn Ala

465 470 475 480

Cys Asp Ser Thr Thr Lys Asp Tyr Ala Leu Phe Thr Phe Pro Ile Arg

485 490 495

Leu Lys Pro Ala Pro His Leu Leu Leu Gly Met Lys Lys Val Pro Phe

500 505 510

Thr Pro Gly Ala Trp His Glu Ile Ser Leu Leu Trp Gln Gly Gly Gln

515 520 525

Ala Val Val Ser Leu Asp Gly Lys Lys Ala Gly Thr Leu Lys Met Ala

530 535 540

Asn Lys Ser Pro Asn Gly Ala Ser Tyr Ile His Phe Ile Ser Thr Gly

545 550 555 560

Ser Gln Pro Asp Ala Gly Ile Leu Leu Asp Thr Val Asn Ala Arg Val

565 570 575

Lys

<210> 11

<211> 589

<212> PRT

<213> Artificial Sequence

<220>

<223> Am1757 (N-terminal methionine and a C-terminal linker + His6 tag)

<400> 11

Met Gln Gln Lys Ala Ala Pro Val Pro Glu Pro Glu Val Val Ala Thr

1 5 10 15

Pro Pro Ala Asp Ala Gly Arg Gly Leu Ile Arg Val Asp Ser Arg Glu

20 25 30

Ile Arg His Tyr Ser Gly Thr Arg Lys Glu Pro Asp Tyr Leu Val Ser

35 40 45

Arg Asp Asn Gly Lys Thr Trp Glu Met Lys Ala Ala Pro Ala Gly Tyr

50 55 60

Pro Pro Asn Tyr Gly Gly Ile Pro Lys Glu Ser Pro Ala Ile Val Arg

65 70 75 80

Asn Pro Leu Thr Arg Glu Phe Ile Arg Val Gln Pro Ile Gly Gly Phe

85 90 95

Val Phe Leu Ser Arg Gly Gly Leu Asp Gly Lys Trp Leu Ala Val Thr

100 105 110

Asn Asp Gly Lys Leu Glu Glu Asp Trp Lys Asp Pro Glu Lys Arg Lys

115 120 125

Asn Leu Lys Lys Leu Gly Gly Ile Met Arg Thr Pro Val Phe Val Asn

130 135 140

Lys Gly Arg Arg Val Ile Val Pro Phe His Asn Met Gly Gly Gly Thr

145 150 155 160

Lys Phe His Ile Ser Asp Asp Gly Gly Leu Thr Trp His Val Ser Arg

165 170 175

Asn Gly Val Thr Ser Pro Arg His Glu Ala Arg Pro Pro His Gln Gly

180 185 190

Val Arg Trp Phe Asn Asn Ala Val Glu Ala Thr Val Leu Glu Met Lys

195 200 205

Asp Gly Thr Leu Trp Ala Leu Ala Arg Thr Ser Gln Asp Gln Ala Trp

210 215 220

Gln Ala Phe Ser Lys Asp Tyr Gly Glu Thr Trp Ser Lys Pro Glu Pro

225 230 235 240

Ser Arg Phe Phe Gly Thr Leu Thr Met Asn Thr Leu Gly Arg Leu Asp

245 250 255

Asp Gly Thr Ile Val Ser Leu Trp Thr Asn Thr Met Ala Leu Pro Glu

260 265 270

Asn Ala Thr Ala Gly Asn Gly Thr Trp Glu Asp Val Phe Thr Asn Arg

275 280 285

Asp Ser His His Ile Ala Met Ser Gly Asp Glu Gly Lys Thr Trp Tyr

290 295 300

Gly Phe Arg Glu Ile Ile Leu Asp Glu His Arg Asn His Pro Gly Tyr

305 310 315 320

Ala Thr Leu Asp Gly Pro Glu Asp Arg Gly Lys His Gln Ser Glu Met

325 330 335

Val Gln Leu Asp Lys Asn Arg Ile Leu Ile Ser Leu Gly Gln His Lys

340 345 350

Asn His Arg Arg Leu Val Ile Val Asp Arg Arg Trp Val Gly Ala Lys

355 360 365

Thr Arg Ala Thr Gln Thr Gly Lys Asp Leu Asp Ser Gln Trp Thr Ile

370 375 380

His Thr Tyr Ile Pro Gln Lys Lys Gly His Cys Ser Tyr Asn Arg Lys

385 390 395 400

Pro Ser Ala Glu Leu Val Gln Asp Pro Ser Gly Gly Thr Lys Lys Val

405 410 415

Leu Gln Ile Lys Arg Leu Asp Asp Pro Glu Leu Val Asn Glu Lys Ser

420 425 430

Asn Val Asp Tyr Arg Asn Gly Gly Ala Thr Trp Asn Phe Pro Asn Gly

435 440 445

Thr Thr Gly Leu Val Lys Phe Arg Phe Arg Val Val Asp Gly Glu Gln

450 455 460

Ala Asp Asp Ser Gly Leu Gln Val Ser Leu Thr Asp Arg Leu Phe Asn

465 470 475 480

Ala Cys Asp Ser Thr Thr Lys Asp Tyr Ala Leu Phe Thr Phe Pro Ile

485 490 495

Arg Leu Lys Pro Ala Pro His Leu Leu Leu Gly Met Lys Lys Val Pro

500 505 510

Phe Thr Pro Gly Ala Trp His Glu Ile Ser Leu Leu Trp Gln Gly Gly

515 520 525

Gln Ala Val Val Ser Leu Asp Gly Lys Lys Ala Gly Thr Leu Lys Met

530 535 540

Ala Asn Lys Ser Pro Asn Gly Ala Ser Tyr Ile His Phe Ile Ser Thr

545 550 555 560

Gly Ser Gln Pro Asp Ala Gly Ile Leu Leu Asp Thr Val Asn Ala Arg

565 570 575

Val Lys Gly Ser Gly Leu Glu His His His His His His

580 585

<210> 12

<211> 419

<212> PRT

<213> Akkermansia muciniphila

<400> 12

Met Thr Trp Leu Leu Cys Gly Arg Gly Lys Trp Asn Lys Val Lys Arg

1 5 10 15

Met Met Asn Ser Val Phe Lys Cys Leu Met Ser Ala Val Cys Ala Val

20 25 30

Ala Leu Pro Ala Phe Gly Gln Glu Glu Lys Thr Gly Phe Pro Thr Asp

35 40 45

Arg Ala Val Thr Val Phe Ser Ala Gly Glu Gly Asn Pro Tyr Ala Ser

50 55 60

Ile Arg Ile Pro Ala Leu Leu Ser Ile Gly Lys Gly Gln Leu Leu Ala

65 70 75 80

Phe Ala Glu Gly Arg Tyr Lys Asn Thr Asp Gln Gly Glu Asn Asp Ile

85 90 95

Ile Met Ser Val Ser Lys Asn Gly Gly Lys Thr Trp Ser Arg Pro Arg

100 105 110

Ala Ile Ala Lys Ala His Gly Ala Thr Phe Asn Asn Pro Cys Pro Val

115 120 125

Tyr Asp Ala Lys Thr Arg Thr Val Thr Val Val Phe Gln Arg Tyr Pro

130 135 140

Ala Gly Val Lys Glu Arg Gln Pro Asn Ile Pro Asp Gly Trp Asp Asp

145 150 155 160

Glu Lys Cys Ile Arg Asn Phe Met Ile Gln Ser Arg Asn Gly Gly Ser

165 170 175

Ser Trp Thr Lys Pro Gln Glu Ile Thr Lys Thr Thr Lys Arg Pro Ser

180 185 190

Gly Val Asp Ile Met Ala Ser Gly Pro Asn Ala Gly Thr Gln Leu Lys

195 200 205

Ser Gly Ala His Lys Gly Arg Leu Val Ile Pro Met Asn Glu Gly Pro

210 215 220

Phe Gly Lys Trp Val Ile Ser Cys Ile Tyr Ser Asp Asp Gly Gly Lys

225 230 235 240

Ser Trp Lys Leu Gly Gln Pro Thr Ala Asn Met Lys Gly Met Val Asn

245 250 255

Glu Thr Ser Ile Ala Glu Thr Asp Asn Gly Gly Val Val Met Val Ala

260 265 270

Arg His Trp Gly Ala Gly Asn Cys Arg Arg Ile Ala Trp Ser Gln Asp

275 280 285

Gly Gly Glu Thr Trp Gly Gln Val Glu Asp Ala Pro Glu Leu Phe Cys

290 295 300

Asp Ser Thr Gln Asn Ser Leu Met Thr Tyr Ser Leu Ser Asp Gln Pro

305 310 315 320

Ala Tyr Gly Gly Lys Ser Arg Ile Leu Phe Ser Gly Pro Ser Ala Gly

325 330 335

Arg Arg Ile Lys Gly Gln Val Ala Met Ser Tyr Asp Asn Gly Lys Thr

340 345 350

Trp Pro Val Lys Lys Leu Leu Gly Glu Gly Gly Phe Ala Tyr Ser Ser

355 360 365

Leu Ala Met Val Glu Pro Gly Ile Val Gly Val Leu Tyr Glu Glu Asn

370 375 380

Gln Glu His Ile Lys Lys Leu Lys Phe Val Pro Ile Thr Met Glu Trp

385 390 395 400

Leu Thr Asp Gly Glu Asp Thr Gly Leu Ala Pro Gly Lys Lys Ala Pro

405 410 415

Val Leu Lys

<210> 13

<211> 381

<212> PRT

<213> Akkermansia muciniphila

<400> 13

Gln Glu Glu Lys Thr Gly Phe Pro Thr Asp Arg Ala Val Thr Val Phe

1 5 10 15

Ser Ala Gly Glu Gly Asn Pro Tyr Ala Ser Ile Arg Ile Pro Ala Leu

20 25 30

Leu Ser Ile Gly Lys Gly Gln Leu Leu Ala Phe Ala Glu Gly Arg Tyr

35 40 45

Lys Asn Thr Asp Gln Gly Glu Asn Asp Ile Ile Met Ser Val Ser Lys

50 55 60

Asn Gly Gly Lys Thr Trp Ser Arg Pro Arg Ala Ile Ala Lys Ala His

65 70 75 80

Gly Ala Thr Phe Asn Asn Pro Cys Pro Val Tyr Asp Ala Lys Thr Arg

85 90 95

Thr Val Thr Val Val Phe Gln Arg Tyr Pro Ala Gly Val Lys Glu Arg

100 105 110

Gln Pro Asn Ile Pro Asp Gly Trp Asp Asp Glu Lys Cys Ile Arg Asn

115 120 125

Phe Met Ile Gln Ser Arg Asn Gly Gly Ser Ser Trp Thr Lys Pro Gln

130 135 140

Glu Ile Thr Lys Thr Thr Lys Arg Pro Ser Gly Val Asp Ile Met Ala

145 150 155 160

Ser Gly Pro Asn Ala Gly Thr Gln Leu Lys Ser Gly Ala His Lys Gly

165 170 175

Arg Leu Val Ile Pro Met Asn Glu Gly Pro Phe Gly Lys Trp Val Ile

180 185 190

Ser Cys Ile Tyr Ser Asp Asp Gly Gly Lys Ser Trp Lys Leu Gly Gln

195 200 205

Pro Thr Ala Asn Met Lys Gly Met Val Asn Glu Thr Ser Ile Ala Glu

210 215 220

Thr Asp Asn Gly Gly Val Val Met Val Ala Arg His Trp Gly Ala Gly

225 230 235 240

Asn Cys Arg Arg Ile Ala Trp Ser Gln Asp Gly Gly Glu Thr Trp Gly

245 250 255

Gln Val Glu Asp Ala Pro Glu Leu Phe Cys Asp Ser Thr Gln Asn Ser

260 265 270

Leu Met Thr Tyr Ser Leu Ser Asp Gln Pro Ala Tyr Gly Gly Lys Ser

275 280 285

Arg Ile Leu Phe Ser Gly Pro Ser Ala Gly Arg Arg Ile Lys Gly Gln

290 295 300

Val Ala Met Ser Tyr Asp Asn Gly Lys Thr Trp Pro Val Lys Lys Leu

305 310 315 320

Leu Gly Glu Gly Gly Phe Ala Tyr Ser Ser Leu Ala Met Val Glu Pro

325 330 335

Gly Ile Val Gly Val Leu Tyr Glu Glu Asn Gln Glu His Ile Lys Lys

340 345 350

Leu Lys Phe Val Pro Ile Thr Met Glu Trp Leu Thr Asp Gly Glu Asp

355 360 365

Thr Gly Leu Ala Pro Gly Lys Lys Ala Pro Val Leu Lys

370 375 380

<210> 14

<211> 393

<212> PRT

<213> Artificial Sequence

<220>

<223> Am0707 (including N-terminal methionine and a C-terminal linker +

His6 tag)

<400> 14

Met Gln Glu Glu Lys Thr Gly Phe Pro Thr Asp Arg Ala Val Thr Val

1 5 10 15

Phe Ser Ala Gly Glu Gly Asn Pro Tyr Ala Ser Ile Arg Ile Pro Ala

20 25 30

Leu Leu Ser Ile Gly Lys Gly Gln Leu Leu Ala Phe Ala Glu Gly Arg

35 40 45

Tyr Lys Asn Thr Asp Gln Gly Glu Asn Asp Ile Ile Met Ser Val Ser

50 55 60

Lys Asn Gly Gly Lys Thr Trp Ser Arg Pro Arg Ala Ile Ala Lys Ala

65 70 75 80

His Gly Ala Thr Phe Asn Asn Pro Cys Pro Val Tyr Asp Ala Lys Thr

85 90 95

Arg Thr Val Thr Val Val Phe Gln Arg Tyr Pro Ala Gly Val Lys Glu

100 105 110

Arg Gln Pro Asn Ile Pro Asp Gly Trp Asp Asp Glu Lys Cys Ile Arg

115 120 125

Asn Phe Met Ile Gln Ser Arg Asn Gly Gly Ser Ser Trp Thr Lys Pro

130 135 140

Gln Glu Ile Thr Lys Thr Thr Lys Arg Pro Ser Gly Val Asp Ile Met

145 150 155 160

Ala Ser Gly Pro Asn Ala Gly Thr Gln Leu Lys Ser Gly Ala His Lys

165 170 175

Gly Arg Leu Val Ile Pro Met Asn Glu Gly Pro Phe Gly Lys Trp Val

180 185 190

Ile Ser Cys Ile Tyr Ser Asp Asp Gly Gly Lys Ser Trp Lys Leu Gly

195 200 205

Gln Pro Thr Ala Asn Met Lys Gly Met Val Asn Glu Thr Ser Ile Ala

210 215 220

Glu Thr Asp Asn Gly Gly Val Val Met Val Ala Arg His Trp Gly Ala

225 230 235 240

Gly Asn Cys Arg Arg Ile Ala Trp Ser Gln Asp Gly Gly Glu Thr Trp

245 250 255

Gly Gln Val Glu Asp Ala Pro Glu Leu Phe Cys Asp Ser Thr Gln Asn

260 265 270

Ser Leu Met Thr Tyr Ser Leu Ser Asp Gln Pro Ala Tyr Gly Gly Lys

275 280 285

Ser Arg Ile Leu Phe Ser Gly Pro Ser Ala Gly Arg Arg Ile Lys Gly

290 295 300

Gln Val Ala Met Ser Tyr Asp Asn Gly Lys Thr Trp Pro Val Lys Lys

305 310 315 320

Leu Leu Gly Glu Gly Gly Phe Ala Tyr Ser Ser Leu Ala Met Val Glu

325 330 335

Pro Gly Ile Val Gly Val Leu Tyr Glu Glu Asn Gln Glu His Ile Lys

340 345 350

Lys Leu Lys Phe Val Pro Ile Thr Met Glu Trp Leu Thr Asp Gly Glu

355 360 365

Asp Thr Gly Leu Ala Pro Gly Lys Lys Ala Pro Val Leu Lys Gly Ser

370 375 380

Gly Leu Glu His His His His His His

385 390

<210> 15

<211> 2133

<212> PRT

<213> Streptococcus oralis

<400> 15

Met Asp Lys Arg Phe Phe Glu Lys Arg Cys Lys Phe Ser Ile Arg Lys

1 5 10 15

Phe Thr Leu Gly Val Ala Ser Val Met Ile Gly Ala Thr Phe Phe Ala

20 25 30

Ala Ser Pro Val Leu Ala Asp Gln Ala Arg Val Gly Ser Thr Asp Asn

35 40 45

Leu Pro Ser Glu Leu Ala Asp Leu Asp Lys Lys Ala Ser Asp Glu Gly

50 55 60

His Asp Phe Asp Lys Glu Ala Ala Ala Gln Asn Pro Gly Ser Ala Glu

65 70 75 80

Thr Thr Glu Gly Pro Gln Thr Glu Glu Glu Leu Leu Ala Gln Glu Lys

85 90 95

Glu Lys Ser Glu Lys Pro Ser Asn Leu Pro Lys Glu Leu Glu Asp Lys

100 105 110

Leu Glu Lys Ala Glu Asp Asn Gly Arg Glu Val Asp Lys Asp Gln Leu

115 120 125

Ala Gln Asp Thr Gly Lys Leu Val Pro Glu Asp Val Ala Lys Thr Thr

130 135 140

Asn Gly Glu Leu Asn Tyr Gly Ala Thr Val Lys Ile Lys Thr Pro Ser

145 150 155 160

Gly Glu Gly Ser Gly Ile Val Val Ala Lys Asp Leu Val Leu Thr Val

165 170 175

Ser His Asn Phe Ile Lys Asp Ser Gln Glu Gly Asn Ile Arg Lys Val

180 185 190

Val Asp Asn Asp Gln Gly Asp Gly Asp Ile Tyr Ser Ile Ser Tyr Pro

195 200 205

Gly Leu Pro Asp Val Lys Phe Ser Lys Lys Asp Ile Ile His Trp Asp

210 215 220

Arg Glu Gly Tyr Leu Lys Gly Phe Lys Asn Asp Leu Ala Leu Val Arg

225 230 235 240

Leu Arg Thr Val Leu Glu Asn Thr Pro Val Glu Val Thr Lys Lys Pro

245 250 255

Val Val Lys Lys Ile Gly Asp Lys Leu His Val Phe Gly Tyr Pro Glu

260 265 270

Gly Lys Leu Asn Pro Ile Val Asn Thr Thr Val Asp Phe Ala Glu Pro

275 280 285

Tyr Gly Glu Gly Val Gln Gly Ile Gly Tyr Gln Gly Gly Lys Pro Gly

290 295 300

Ala Ser Gly Gly Gly Ile Phe Asp Thr Glu Gly Lys Leu Val Gly Val

305 310 315 320

His Gln Asn Gly Val Val Gly Lys Arg Ser Gly Gly Ile Leu Phe Ser

325 330 335

Pro Ala Gln Leu Lys Trp Ile Gln Asp His Met Gln Gly Ile Ser Ser

340 345 350

Val Lys Pro Ala Asp Leu Glu Glu Lys Glu Lys Pro Ala Glu Glu Lys

355 360 365

Pro Lys Glu Asp Lys Pro Ala Ala Ala Lys Pro Glu Thr Pro Lys Ala

370 375 380

Val Thr Pro Glu Trp Gln Thr Val Ala Asn Lys Glu Gln Gln Gly Thr

385 390 395 400

Val Thr Ile Arg Glu Glu Lys Gly Val Arg Tyr Asn Gln Leu Ser Ser

405 410 415

Thr Ala Gln Asn Asp Asn Asp Gly Lys Pro Ala Leu Phe Glu Lys Gln

420 425 430

Gly Leu Thr Val Asp Ala Asn Gly Asn Ala Thr Val Asp Leu Thr Phe

435 440 445

Lys Asp Asp Ser Glu Lys Gly Lys Ser Arg Phe Gly Val Phe Leu Lys

450 455 460

Phe Lys Asp Thr Lys Asn Asn Val Phe Val Gly Tyr Asp Gln Gly Gly

465 470 475 480

Trp Phe Trp Glu Tyr Lys Thr Pro Gly Asn Ser Thr Trp Tyr Lys Gly

485 490 495

Asn Arg Val Ala Ala Pro Glu Pro Gly Ser Val Asn Arg Leu Ser Ile

500 505 510

Thr Leu Lys Ser Asp Gly Gln Leu Asn Ala Ser Asn Asn Asp Val Asn

515 520 525

Leu Phe Asp Thr Val Thr Leu Pro Gly Ala Val Asn Glu Asn Leu Lys

530 535 540

Asn Glu Lys Lys Ile Leu Leu Lys Ala Gly Thr Tyr Ser Asn Asp Arg

545 550 555 560

Thr Val Val Ser Val Lys Thr Asp Asn Gln Glu Gly Val Lys Ala Asp

565 570 575

Asp Thr Pro Ala Gln Lys Glu Thr Gly Pro Ala Val Asp Asp Ser Lys

580 585 590

Val Thr Tyr Asp Thr Ile Gln Ser Lys Val Leu Lys Ala Val Ile Asp

595 600 605

Gln Ala Phe Pro Arg Val Lys Glu Tyr Thr Leu Asn Gly His Thr Leu

610 615 620

Pro Gly Gln Val Gln Gln Phe Asn Gln Val Phe Ile Asn Asn His Arg

625 630 635 640

Ile Thr Pro Glu Val Thr Tyr Lys Lys Ile Asn Glu Thr Thr Ala Glu

645 650 655

Tyr Leu Met Lys Leu Arg Asp Asp Ala His Leu Ile Asn Ala Glu Met

660 665 670

Thr Val Arg Leu Gln Val Val Asp Asn Gln Leu His Phe Asp Val Thr

675 680 685

Lys Ile Val Asn His Asn Gln Val Thr Pro Gly Gln Lys Ile Asp Asp

690 695 700

Glu Arg Lys Leu Leu Ser Thr Ile Ser Phe Leu Gly Asn Ala Leu Val

705 710 715 720

Ser Val Ser Ser Asp Gln Ala Gly Ala Lys Phe Asp Gly Ala Thr Met

725 730 735

Ser Asn Asn Thr His Val Ser Gly Asp Asp His Ile Asp Val Thr Asn

740 745 750

Pro Met Lys Asp Leu Ala Lys Gly Tyr Met Tyr Gly Phe Val Ser Thr

755 760 765

Asp Lys Leu Ala Ala Gly Val Trp Ser Asn Ser Gln Asn Ser Tyr Gly

770 775 780

Gly Gly Ser Asn Asp Trp Thr Arg Leu Thr Ala Tyr Lys Glu Thr Val

785 790 795 800

Gly Asn Ala Asn Tyr Val Gly Ile His Ser Ser Glu Trp Gln Trp Glu

805 810 815

Lys Ala Tyr Lys Gly Ile Val Phe Pro Glu Tyr Thr Lys Glu Leu Pro

820 825 830

Ser Ala Lys Val Val Ile Thr Glu Asp Ala Asn Ala Asp Asn Lys Val

835 840 845

Asp Trp Gln Asp Gly Ala Ile Ala Tyr Arg Ser Ile Met Asn Asn Pro

850 855 860

Gln Gly Trp Glu Lys Val Lys Asp Ile Thr Ala Tyr Arg Ile Ala Met

865 870 875 880

Asn Phe Gly Ser Gln Ala Gln Asn Pro Phe Leu Met Thr Leu Asp Gly

885 890 895

Ile Lys Lys Ile Asn Leu His Thr Asp Gly Leu Gly Gln Gly Val Leu

900 905 910

Leu Lys Gly Tyr Gly Ser Glu Gly His Asp Ser Gly His Leu Asn Tyr

915 920 925

Ala Asp Ile Gly Lys Arg Ile Gly Gly Val Glu Asp Phe Lys Thr Leu

930 935 940

Ile Glu Lys Ala Lys Lys Tyr Gly Ala His Leu Gly Ile His Val Asn

945 950 955 960

Ala Ser Glu Thr Tyr Pro Glu Ser Lys Tyr Phe Asn Glu Asn Ile Leu

965 970 975

Arg Lys Asn Pro Asp Gly Ser Tyr Ser Tyr Gly Trp Asn Trp Leu Asp

980 985 990

Gln Gly Ile Asn Ile Asp Ala Ala Tyr Asp Leu Ala His Gly Arg Leu

995 1000 1005

Ala Arg Trp Glu Asp Leu Lys Lys Lys Leu Gly Glu Gly Leu Asp

1010 1015 1020

Phe Ile Tyr Val Asp Val Trp Gly Asn Gly Gln Ser Gly Asp Asn

1025 1030 1035

Gly Ala Trp Ala Thr His Val Leu Ala Lys Glu Ile Asn Lys Gln

1040 1045 1050

Gly Trp Arg Phe Ala Ile Glu Trp Gly His Gly Gly Glu Tyr Asp

1055 1060 1065

Ser Thr Phe Gln His Trp Ala Ala Asp Leu Thr Tyr Gly Gly Tyr

1070 1075 1080

Thr Asn Lys Gly Ile Asn Ser Ala Ile Thr Arg Phe Ile Arg Asn

1085 1090 1095

His Gln Lys Asp Ser Trp Val Gly Asp Tyr Arg Ser Tyr Gly Gly

1100 1105 1110

Ala Ala Asn Tyr Pro Leu Leu Gly Gly Tyr Ser Met Lys Asp Phe

1115 1120 1125

Glu Gly Trp Gln Gly Arg Ser Asp Tyr Asn Gly Tyr Val Thr Asn

1130 1135 1140

Leu Phe Ala His Asp Val Met Thr Lys Tyr Phe Gln His Phe Thr

1145 1150 1155

Val Ser Lys Trp Glu Asn Gly Thr Pro Val Thr Met Thr Asp Asn

1160 1165 1170

Gly Ser Thr Tyr Lys Trp Thr Pro Glu Met Lys Val Glu Leu Val

1175 1180 1185

Asp Ala Ala Gly Asn Lys Val Val Val Thr Arg Lys Ser Asn Asp

1190 1195 1200

Val Asn Ser Pro Gln Tyr Arg Glu Arg Thr Val Thr Leu Asn Gly

1205 1210 1215

Arg Val Ile Gln Asp Gly Ser Ala Tyr Leu Thr Pro Trp Asn Trp

1220 1225 1230

Asp Ala Asn Gly Lys Lys Leu Pro Thr Glu Lys Glu Lys Met Tyr

1235 1240 1245

Tyr Phe Asn Thr Gln Ala Gly Ala Thr Thr Trp Thr Leu Pro Ser

1250 1255 1260

Asp Trp Ala Asn Ser Lys Val Tyr Leu Tyr Lys Leu Thr Asp Gln

1265 1270 1275

Gly Lys Thr Glu Glu Gln Glu Leu Thr Val Thr Asp Gly Lys Ile

1280 1285 1290

Thr Leu Asp Leu Leu Ala Asn Gln Pro Tyr Val Leu Tyr Arg Ser

1295 1300 1305

Lys Gln Thr Asn Pro Glu Met Ser Trp Ser Glu Gly Met His Ile

1310 1315 1320

Tyr Asp Gln Gly Phe Asn Ser Gly Thr Leu Lys His Trp Thr Ile

1325 1330 1335

Ser Gly Asp Ala Ser Lys Ala Glu Ile Val Lys Ser Gln Gly Ala

1340 1345 1350

Asn Glu Met Leu Arg Ile Gln Gly Asn Lys Ser Lys Val Ser Leu

1355 1360 1365

Thr Gln Lys Leu Thr Gly Leu Lys Pro Asn Thr Lys Tyr Ala Val

1370 1375 1380

Tyr Val Gly Val Asp Asn Arg Ser Asn Ala Lys Ala Ser Ile Thr

1385 1390 1395

Val Asn Thr Gly Glu Lys Glu Val Thr Thr Tyr Thr Asn Lys Ser

1400 1405 1410

Leu Ala Leu Asn Tyr Ile Lys Ala Tyr Ala His Asn Asn Arg Arg

1415 1420 1425

Glu Asn Ala Thr Val Asp Asp Thr Ser Tyr Phe Gln Asn Met Tyr

1430 1435 1440

Ala Phe Phe Thr Thr Gly Ser Asp Val Ser Asn Val Thr Leu Thr

1445 1450 1455

Leu Ser Arg Glu Ala Gly Asp Glu Ala Thr Tyr Phe Asp Glu Ile

1460 1465 1470

Arg Thr Phe Glu Asn Asn Ser Ser Met Tyr Gly Asp Lys His Asp

1475 1480 1485

Thr Gly Gln Gly Thr Phe Lys Gln Asp Phe Glu Asn Val Ala Gln

1490 1495 1500

Gly Ile Phe Pro Phe Val Val Gly Gly Val Glu Gly Val Glu Asp

1505 1510 1515

Asn Arg Thr His Leu Ser Glu Lys His Asp Pro Tyr Thr Gln Arg

1520 1525 1530

Gly Trp Asn Gly Lys Lys Val Asp Asp Val Ile Glu Gly Asn Trp

1535 1540 1545

Ser Leu Lys Thr Asn Gly Leu Val Ser Arg Arg Asn Leu Val Tyr

1550 1555 1560

Gln Thr Ile Pro Gln Asn Phe Arg Phe Glu Ala Gly Lys Thr Tyr

1565 1570 1575

Arg Val Thr Phe Glu Tyr Glu Ala Gly Ser Asp Asn Thr Tyr Ala

1580 1585 1590

Phe Val Val Gly Lys Gly Glu Phe Gln Ser Gly Arg Arg Gly Thr

1595 1600 1605

Gln Ala Ser Asn Leu Glu Met His Glu Leu Pro Asn Thr Trp Thr

1610 1615 1620

Asp Ser Lys Lys Ala Lys Lys Val Thr Phe Leu Val Thr Gly Ala

1625 1630 1635

Glu Thr Gly Asp Thr Trp Val Gly Ile Tyr Ser Thr Gly Asn Ala

1640 1645 1650

Ser Asn Thr Arg Gly Asp Ala Gly Gly Asn Ala Asn Phe Arg Gly

1655 1660 1665

Tyr Asn Asp Phe Met Met Asp Asn Leu Gln Ile Glu Glu Ile Thr

1670 1675 1680

Leu Thr Gly Lys Met Leu Thr Glu Asn Ala Leu Lys Asn Tyr Leu

1685 1690 1695

Pro Thr Val Ala Met Thr Asn Tyr Thr Lys Glu Ser Met Asp Ala

1700 1705 1710

Leu Lys Glu Ala Val Phe Asn Leu Ser Gln Ala Asp Asp Asp Ile

1715 1720 1725

Ser Val Glu Glu Ala Arg Ala Glu Ile Ala Lys Ile Glu Ala Leu

1730 1735 1740

Lys Asn Ala Leu Val Gln Lys Lys Thr Ala Leu Val Ala Glu Asp

1745 1750 1755

Phe Glu Ser Leu Asp Ala Pro Ala Gln Pro Gly Glu Gly Leu Glu

1760 1765 1770

Asn Ala Phe Asp Gly Asn Val Ser Ser Leu Trp His Thr Ser Trp

1775 1780 1785

Asn Gly Gly Asp Val Gly Lys Pro Ala Thr Met Val Leu Lys Glu

1790 1795 1800

Pro Thr Glu Ile Thr Gly Leu Arg Tyr Val Pro Arg Ala Ser Asp

1805 1810 1815

Ser Asn Gly Asn Leu Arg Asp Val Lys Leu Val Val Thr Asp Glu

1820 1825 1830

Ser Gly Lys Glu His Thr Phe Asn Val Thr Asp Trp Pro Asn Asn

1835 1840 1845

Asn Lys Pro Lys Asp Ile Asp Phe Gly Lys Thr Ile Lys Ala Lys

1850 1855 1860

Lys Ile Val Leu Thr Gly Thr Lys Thr Tyr Gly Asp Gly Gly Asp

1865 1870 1875

Lys Tyr Gln Ser Ala Ala Glu Leu Ile Phe Thr Arg Pro Gln Val

1880 1885 1890

Ala Glu Thr Pro Leu Asp Leu Ser Gly Tyr Glu Ala Ala Leu Ala

1895 1900 1905

Lys Ala Gln Lys Leu Thr Asp Lys Asp Asn Gln Glu Glu Val Ala

1910 1915 1920

Ser Val Gln Ala Ser Met Lys Tyr Ala Thr Asp Asn His Leu Leu

1925 1930 1935

Thr Glu Arg Met Val Ala Tyr Phe Ala Asp Tyr Leu Asn Gln Leu

1940 1945 1950

Lys Asp Ser Ala Thr Lys Pro Asp Ala Pro Thr Ser Ser Lys Gly

1955 1960 1965

Glu Glu Gln Pro Pro Val Leu Asp Val Pro Glu Phe Lys Gly Gly

1970 1975 1980

Val Asn Ala Thr Glu Ala Ala Val His Glu Val Pro Glu Phe Lys

1985 1990 1995

Gly Gly Val Asn Ala Val Gln Ala Leu Val His Glu Leu Pro Glu

2000 2005 2010

Tyr Lys Gly Gly Ala Asn Ala Val Leu Ala Ala Ala Asn Glu Val

2015 2020 2025

Pro Glu Tyr Lys Gly Gly Ala Asn Ala Val Glu Ala Leu Val Asn

2030 2035 2040

Glu Lys Pro Ala Tyr Thr Gly Val Leu Ala Thr Ala Gly Asp Gln

2045 2050 2055

Ala Ala Pro Thr Val Glu Lys Pro Glu Tyr Pro Leu Thr Pro Ser

2060 2065 2070

Pro Val Ala Asp Thr Lys Thr Pro Gly Ala Lys Asp Glu Glu Lys

2075 2080 2085

Leu Pro Ala Thr Gly Glu His Ser Ser Glu Val Ala Leu Phe Leu

2090 2095 2100

Ala Ser Val Ser Ile Ala Leu Ser Ala Ala Val Leu Ala Thr Lys

2105 2110 2115

Arg Lys Glu Glu Gly Ser Gly Leu Glu His His His His His His

2120 2125 2130

<210> 16

<211> 22

<212> DNA

<213> Artificial Sequence

<220>

<223> E206A forward primer

<400> 16

atggcgcacg cgctgggcca cg 22

<210> 17

<211> 19

<212> DNA

<213> Artificial Sequence

<220>

<223> E206A reverse primer

<400> 17

gccaccgtac catttcgtc 19

<210> 18

<211> 166

<212> PRT

<213> Artificial Sequence

<220>

<223> EPO

<400> 18

Ala Pro Pro Arg Leu Ile Cys Asp Ser Arg Val Leu Glu Arg Tyr Leu

1 5 10 15

Leu Glu Ala Lys Glu Ala Glu Asp Ile Thr Thr Gly Cys Ala Glu His

20 25 30

Cys Ser Leu Asp Glu Asn Ile Thr Val Pro Asp Thr Lys Val Asp Phe

35 40 45

Tyr Ala Trp Lys Arg Met Glu Val Gly Gln Gln Ala Val Glu Val Trp

50 55 60

Gln Gly Leu Ala Leu Leu Ser Glu Ala Val Leu Arg Gly Gln Ala Leu

65 70 75 80

Leu Val Asn Ser Ser Gln Pro Trp Glu Pro Leu Gln Leu His Val Asp

85 90 95

Lys Ala Val Ser Gly Leu Arg Ser Leu Thr Thr Leu Leu Arg Ala Leu

100 105 110

Gly Ala Gln Lys Glu Ala Ile Ser Pro Pro Asp Ala Ala Ser Ala Ala

115 120 125

Pro Leu Arg Thr Ile Thr Ala Asp Thr Phe Arg Lys Leu Phe Arg Val

130 135 140

Tyr Ser Asn Phe Leu Arg Gly Lys Leu Lys Leu Tyr Thr Gly Glu Ala

145 150 155 160

Cys Arg Thr Gly Asp Arg

165

<210> 19

<400> 19

000

<210> 20

<211> 361

<212> PRT

<213> Artificial Sequence

<220>

<223> Polypeptide capable of binding to O-glycans but lacks or has

reduced O-glycoprotein-specific endoprotease activity

<400> 20

Glu Val Thr Val Pro Asp Ala Leu Lys Asp Arg Ile Ala Leu Lys Lys

1 5 10 15

Thr Ala Arg Gln Leu Asn Ile Val Tyr Phe Leu Gly Ser Asp Thr Glu

20 25 30

Pro Val Pro Asp Tyr Glu Arg Arg Leu Ser Glu Leu Leu Leu Tyr Leu

35 40 45

Gln Gln Phe Tyr Gly Lys Glu Met Gln Arg His Gly Tyr Gly Ala Arg

50 55 60

Ser Phe Gly Leu Asp Ile Lys Ser Pro Gly Arg Val Asn Ile Ile Glu

65 70 75 80

Tyr Lys Ala Lys Asn Pro Ala Ala His Tyr Pro Tyr Glu Asn Gly Gly

85 90 95

Gly Trp Lys Ala Ala Gln Glu Leu Asp Glu Phe Phe Lys Ala His Pro

100 105 110

Asp Arg Lys Lys Ser Gln His Thr Leu Ile Ile Met Pro Thr Trp Asn

115 120 125

Asp Glu Lys Asn Gly Pro Asp Asn Pro Gly Gly Val Pro Phe Tyr Gly

130 135 140

Met Gly Arg Asn Cys Phe Ala Leu Asp Tyr Pro Ala Phe Asp Ile Lys

145 150 155 160

His Leu Gly Gln Lys Thr Arg Glu Gly Arg Leu Leu Thr Lys Trp Tyr

165 170 175

Gly Gly Met Ala Ala Ala Leu Gly His Gly Leu Asn Leu Pro His Asn

180 185 190

His Gln Thr Ala Ser Asp Gly Lys Lys Tyr Gly Thr Ala Leu Met Gly

195 200 205

Ser Gly Asn Tyr Thr Phe Gly Thr Ser Pro Thr Phe Leu Thr Pro Ala

210 215 220

Ser Cys Ala Leu Leu Asp Ala Cys Glu Val Phe Ser Val Thr Pro Ser

225 230 235 240

Gln Gln Phe Tyr Glu Gly Lys Pro Glu Val Glu Val Gly Asp Val Ala

245 250 255

Ile Ser Phe Lys Gly Asp Gln Ile Leu Val Ser Gly Asn Tyr Lys Ser

260 265 270

Pro Gln Thr Val Lys Ala Leu Asn Val Tyr Ile Gln Asp Pro Pro Tyr

275 280 285

Ala Val Asn Gln Asp Tyr Asp Ala Val Ser Phe Ser Arg Arg Leu Gly

290 295 300

Lys Lys Ser Gly Lys Phe Ser Met Lys Ile Asp Lys Lys Glu Leu Glu

305 310 315 320

Gly Leu Asn Asn Asn Glu Phe Arg Ile Ser Leu Met Phe Ile Leu Ala

325 330 335

Asn Gly Leu His Met Gln Lys His Phe Thr Phe His Trp Asp Ala Leu

340 345 350

Gln Asp Tyr Arg Asp Gly Ser Lys Ser

355 360

<210> 21

<211> 371

<212> PRT

<213> Artificial Sequence

<220>

<223> LS HE206AA or LS H205A/E206A (including N-terminal methionine

and C-terminal linker)

<400> 21

Met Glu Val Thr Val Pro Asp Ala Leu Lys Asp Arg Ile Ala Leu Lys

1 5 10 15

Lys Thr Ala Arg Gln Leu Asn Ile Val Tyr Phe Leu Gly Ser Asp Thr

20 25 30

Glu Pro Val Pro Asp Tyr Glu Arg Arg Leu Ser Glu Leu Leu Leu Tyr

35 40 45

Leu Gln Gln Phe Tyr Gly Lys Glu Met Gln Arg His Gly Tyr Gly Ala

50 55 60

Arg Ser Phe Gly Leu Asp Ile Lys Ser Pro Gly Arg Val Asn Ile Ile

65 70 75 80

Glu Tyr Lys Ala Lys Asn Pro Ala Ala His Tyr Pro Tyr Glu Asn Gly

85 90 95

Gly Gly Trp Lys Ala Ala Gln Glu Leu Asp Glu Phe Phe Lys Ala His

100 105 110

Pro Asp Arg Lys Lys Ser Gln His Thr Leu Ile Ile Met Pro Thr Trp

115 120 125

Asn Asp Glu Lys Asn Gly Pro Asp Asn Pro Gly Gly Val Pro Phe Tyr

130 135 140

Gly Met Gly Arg Asn Cys Phe Ala Leu Asp Tyr Pro Ala Phe Asp Ile

145 150 155 160

Lys His Leu Gly Gln Lys Thr Arg Glu Gly Arg Leu Leu Thr Lys Trp

165 170 175

Tyr Gly Gly Met Ala Ala Ala Leu Gly His Gly Leu Asn Leu Pro His

180 185 190

Asn His Gln Thr Ala Ser Asp Gly Lys Lys Tyr Gly Thr Ala Leu Met

195 200 205

Gly Ser Gly Asn Tyr Thr Phe Gly Thr Ser Pro Thr Phe Leu Thr Pro

210 215 220

Ala Ser Cys Ala Leu Leu Asp Ala Cys Glu Val Phe Ser Val Thr Pro

225 230 235 240

Ser Gln Gln Phe Tyr Glu Gly Lys Pro Glu Val Glu Val Gly Asp Val

245 250 255

Ala Ile Ser Phe Lys Gly Asp Gln Ile Leu Val Ser Gly Asn Tyr Lys

260 265 270

Ser Pro Gln Thr Val Lys Ala Leu Asn Val Tyr Ile Gln Asp Pro Pro

275 280 285

Tyr Ala Val Asn Gln Asp Tyr Asp Ala Val Ser Phe Ser Arg Arg Leu

290 295 300

Gly Lys Lys Ser Gly Lys Phe Ser Met Lys Ile Asp Lys Lys Glu Leu

305 310 315 320

Glu Gly Leu Asn Asn Asn Glu Phe Arg Ile Ser Leu Met Phe Ile Leu

325 330 335

Ala Asn Gly Leu His Met Gln Lys His Phe Thr Phe His Trp Asp Ala

340 345 350

Leu Gln Asp Tyr Arg Asp Gly Ser Lys Ser Gly Ser Gly His His His

355 360 365

His His His

370

<210> 22

<211> 1116

<212> DNA

<213> Artificial Sequence

<220>

<223> Nucleotide sequence encoding LS HE206AA or LS H205A/E206A

<400> 22

atggaagtca ctgtgccgga cgccctgaaa gatcgcatcg cgctgaagaa aaccgctcgt 60

cagctgaata tcgtctactt cctgggttct gataccgaac cggttccgga ctacgagcgc 120

cgtctgagcg agctgctgtt gtatctgcag caattctatg gtaaagaaat gcagcgccat 180

ggctatggcg cacgcagctt tggtctggac attaagtcac cgggtcgtgt gaacattatc 240

gagtacaaag cgaagaaccc ggcagcgcat tacccgtatg agaatggtgg cggctggaaa 300

gctgcacaag aactggacga atttttcaag gcccatccag accgcaagaa aagccagcac 360

accctgatca tcatgcctac ctggaatgat gagaaaaatg gtcctgacaa tccgggtggc 420

gttccgttct atggtatggg tcgtaattgt tttgcgttgg actacccggc gtttgatatc 480

aagcacctgg gtcagaaaac gcgtgagggt cgtctgctga cgaaatggta cggtggcatg 540

gcggccgcgc tgggccacgg cctgaatctg ccgcacaatc accagaccgc gagcgatggc 600

aagaaatatg gcaccgccct gatgggtagc ggcaactaca cgttcggtac cagcccgacg 660

ttcctgaccc cggcgagctg tgcgctgctg gatgcctgcg aagtgttcag cgttaccccg 720

agccaacagt tttatgaggg taagccagaa gtcgaggttg gtgatgttgc aatttccttc 780

aagggtgatc aaatcttggt cagcggtaac tacaagagcc cgcaaaccgt gaaagctctg 840

aacgtttaca ttcaggatcc gccgtacgcc gtgaaccaag actacgatgc agtgagcttt 900

agccgtcgtc tgggcaaaaa gtccggtaag tttagcatga agattgacaa aaaagaactg 960

gaaggcctga ataacaacga attccgtatt tccttgatgt tcattctggc aaacggctta 1020

cacatgcaga agcactttac gtttcactgg gatgcgctgc aagactaccg tgacggtagc 1080

aaatctggtt cgggtcatca tcaccaccat cactga 1116

<210> 23

<211> 10

<212> PRT

<213> Artificial Sequence

<220>

<223> disrupted metalloprotease motif

<400> 23

Gly Met Ala His Ala Leu Gly His Gly Leu

1 5 10

<210> 24

<211> 10

<212> PRT

<213> Artificial Sequence

<220>

<223> disrupted metalloprotease motif

<400> 24

Gly Met Ala Ala Glu Leu Gly His Gly Leu

1 5 10

<210> 25

<211> 10

<212> PRT

<213> Artificial Sequence

<220>

<223> disrupted metalloprotease motif

<400> 25

Gly Met Ala Ala Ala Leu Gly His Gly Leu

1 5 10

<210> 26

<211> 882

<212> PRT

<213> Pseudomonas aeruginosa

<400> 26

Ala Thr Gln Glu Glu Ile Leu Asp Ala Ala Leu Val Ser Gly Asp Ser

1 5 10 15

Ser Gln Leu Thr Asp Ser His Leu Val Ala Leu Arg Leu Gln Gln Gln

20 25 30

Val Glu Arg Ile Arg Gln Thr Arg Thr Gln Leu Leu Asp Gly Leu Tyr

35 40 45

Gln Asn Leu Ser Gln Ala Tyr Asp Pro Gly Ala Ala Ser Met Trp Val

50 55 60

Leu Pro Ala Asn Pro Asp Asn Thr Leu Pro Phe Leu Ile Gly Asp Lys

65 70 75 80

Gly Arg Val Leu Ala Ser Leu Ser Leu Glu Ala Gly Gly Arg Gly Leu

85 90 95

Ala Tyr Gly Thr Asn Val Leu Thr Gln Leu Ser Gly Thr Asn Ala Ala

100 105 110

His Ala Pro Leu Leu Lys Arg Ala Val Gln Trp Leu Val Asn Gly Asp

115 120 125

Pro Gly Ala Ala Thr Ala Lys Asp Phe Lys Val Ser Val Val Gly Val

130 135 140

Asp Lys Thr Ala Ala Leu Asn Gly Leu Lys Ser Ala Gly Leu Gln Pro

145 150 155 160

Ala Asp Ala Ala Cys Asn Ala Leu Thr Asp Ala Ser Cys Ala Ser Thr

165 170 175

Ser Lys Leu Leu Val Leu Gly Asn Gly Ala Ser Ala Ala Ser Leu Ser

180 185 190

Ala Thr Val Arg Ala Arg Leu Gln Ala Gly Leu Pro Ile Leu Phe Val

195 200 205

His Thr Asn Gly Trp Asn Gln Ser Ser Thr Gly Gln Gln Ile Leu Ala

210 215 220

Gly Leu Gly Leu Gln Glu Gly Pro Tyr Gly Gly Asn Tyr Trp Asp Lys

225 230 235 240

Asp Arg Val Pro Ser Ser Arg Thr Arg Thr Arg Ser Val Glu Leu Gly

245 250 255

Gly Ala Tyr Gly Gln Asp Pro Ala Leu Val Gln Gln Ile Val Asp Gly

260 265 270

Ser Trp Arg Thr Asp Tyr Asp Trp Ser Lys Cys Thr Ser Tyr Val Gly

275 280 285

Arg Thr Thr Cys Asp Asp Val Pro Gly Leu Ser Asp Phe Ser Lys Arg

290 295 300

Val Asp Val Leu Lys Gly Ala Leu Asp Ala Tyr Asn Gln Lys Ala Gln

305 310 315 320

Asn Leu Phe Ala Leu Pro Gly Thr Thr Ser Leu Arg Leu Trp Leu Leu

325 330 335

Trp Ala Asp Ala Val Arg Gln Asn Ile Arg Tyr Pro Met Asp Lys Ala

340 345 350

Ala Asp Thr Ala Arg Phe Gln Glu Thr Phe Val Ala Asp Ala Ile Val

355 360 365

Gly Tyr Val Arg Glu Ala Gly Ala Ala Gln Lys Glu Leu Gly Ser Tyr

370 375 380

Ala Gly Gln Arg Gln Gln Ser Met Pro Val Ser Gly Ser Glu Glu Thr

385 390 395 400

Leu Thr Leu Thr Leu Pro Ser Ala Gln Gly Phe Thr Ala Ile Gly Arg

405 410 415

Met Ala Ala Pro Gly Lys Arg Leu Ser Ile Arg Ile Glu Asp Ala Gly

420 425 430

Gln Ala Ser Leu Ala Val Gly Leu Asn Thr Gln Arg Ile Gly Ser Thr

435 440 445

Arg Leu Trp Asn Thr Arg Gln Tyr Asp Arg Pro Arg Phe Leu Lys Ser

450 455 460

Pro Asp Ile Lys Leu Gln Ala Asn Gln Ser Val Ala Leu Val Ser Pro

465 470 475 480

Tyr Gly Gly Leu Leu Gln Leu Val Tyr Ser Gly Ala Thr Pro Gly Gln

485 490 495

Thr Val Thr Val Lys Val Thr Gly Ala Ala Ser Gln Pro Phe Leu Asp

500 505 510

Ile Gln Pro Gly Glu Asp Ser Ser Gln Ala Ile Ala Asp Phe Ile Gln

515 520 525

Ala Leu Asp Ala Asp Lys Ala Asp Trp Leu Glu Ile Arg Ser Gly Ser

530 535 540

Val Glu Val His Ala Lys Val Glu Lys Val Arg Gly Ser Ile Asp Lys

545 550 555 560

Asp Tyr Gly Gly Asp Val Gln Arg Phe Ile Arg Glu Leu Asn Glu Val

565 570 575

Phe Ile Asp Asp Ala Tyr Thr Leu Ala Gly Phe Ala Ile Pro Asn Gln

580 585 590

Ala Lys Thr Pro Ala Ile Gln Gln Glu Cys Ala Ala Arg Gly Trp Asp

595 600 605

Cys Asp Ser Glu Thr Leu His Lys Leu Pro Gly Thr Gln His Ile Asn

610 615 620

Val Asp Gln Tyr Ala Gln Cys Gly Gly Gly Cys Ser Gly Asn Pro Tyr

625 630 635 640

Asp Gln Thr Trp Gly Leu Asn Pro Arg Gly Trp Gly Glu Ser His Glu

645 650 655

Leu Gly His Asn Leu Gln Val Asn Arg Leu Lys Val Tyr Gly Gly Arg

660 665 670

Ser Gly Glu Ile Ser Asn Gln Ile Phe Pro Leu His Lys Asp Trp Arg

675 680 685

Val Leu Arg Glu Phe Gly Gln Asn Leu Asp Asp Thr Arg Val Asn Tyr

690 695 700

Arg Asn Ala Tyr Asn Leu Ile Val Ala Gly Arg Ala Glu Ala Asp Pro

705 710 715 720

Leu Ala Gly Val Tyr Lys Arg Leu Trp Glu Asp Pro Gly Thr Tyr Ala

725 730 735

Leu Asn Gly Glu Arg Met Ala Phe Tyr Thr Gln Trp Val His Tyr Trp

740 745 750

Ala Asp Leu Lys Asn Asp Pro Leu Gln Gly Trp Asp Ile Trp Thr Leu

755 760 765

Leu Tyr Leu His Gln Arg Gln Val Asp Lys Ser Asp Trp Asp Ala Asn

770 775 780

Lys Ala Ala Leu Gly Tyr Gly Thr Tyr Ala Gln Arg Pro Gly Asn Ser

785 790 795 800

Gly Asp Ala Ser Ser Thr Asp Gly Asn Asp Asn Leu Leu Leu Gly Leu

805 810 815

Ser Trp Leu Thr Gln Arg Asp Gln Arg Pro Thr Phe Ala Leu Trp Gly

820 825 830

Ile Arg Thr Ser Ala Ala Ala Gln Ala Gln Val Ala Ala Tyr Gly Phe

835 840 845

Ala Glu Gln Pro Ala Phe Phe Tyr Ala Asn Asn Arg Thr Asn Glu Tyr

850 855 860

Ser Thr Val Lys Leu Leu Asp Met Ser Gln Gly Ser Pro Ala Trp Pro

865 870 875 880

Phe Pro

<210> 27

<211> 536

<212> PRT

<213> Bacteroides thetaiotaomicron

<400> 27

Asp Lys Trp Glu Lys Glu Phe Arg Ile Arg Ser Tyr Glu Pro Tyr Ser

1 5 10 15

Asn Ile Ala Glu Trp Ala Asp Lys Leu Met Thr Lys Lys Tyr Ser Asp

20 25 30

Leu Asp Asn Pro Thr Gly Ile Ser Val Lys Ala Gly Asp Asp Ile Ile

35 40 45

Val Leu Val Gly Asp Thr Tyr Gly Gln Asn Ile Ser Met Gln Cys Ile

50 55 60

Trp Glu Thr Gly Thr Glu Tyr Lys Gln Thr Ala Ser Ser Gly Asp Val

65 70 75 80

Tyr Met Leu Asn Pro Gly Val Asn Lys Leu Thr Met Lys Gly Glu Gly

85 90 95

Gln Leu Phe Val Met Tyr Asn Thr Glu Leu Thr Ser Asn Thr Ala Lys

100 105 110

Pro Ile Lys Ile His Ile Pro Leu Gly Ser Gly Thr Val Asn Gly Phe

115 120 125

Phe Asp Leu Lys Glu His Lys Thr Asp Glu Lys Tyr Ala Glu Leu Leu

130 135 140

Lys Lys Ser Thr His Lys Tyr Phe Cys Ile Arg Gly Glu Lys Ile Met

145 150 155 160

Phe Tyr Phe His Arg Asn Lys Leu Leu Glu Tyr Val Pro Asn Asn Ile

165 170 175

Leu Ser Ala Ile His Leu Trp Asp Asn Ile Val Gly Trp Gln Gln Glu

180 185 190

Leu Met Gly Ile Asp Asp Val Arg Pro Ser Gln Val Asn Asn His Leu

195 200 205

Phe Ala Ile Ser Pro Glu Gly Ser Tyr Met Trp Ala Ser Asp Tyr Gln

210 215 220

Ile Gly Phe Val Tyr Thr Tyr Leu Gly Asn Ile Leu Leu Glu Asp Asn

225 230 235 240

Val Met Ala Ala Glu Asp Asn Ala Trp Gly Pro Ala His Glu Ile Gly

245 250 255

His Val His Gln Ala Ala Ile Asn Trp Ala Ser Ser Thr Glu Ser Ser

260 265 270

Asn Asn Leu Phe Ser Asn Phe Ile Ile Tyr Lys Leu Gly Lys Tyr Lys

275 280 285

Ser Arg Gly Asn Gly Leu Gly Ser Val Ala Thr Ala Arg Tyr Ala Asn

290 295 300

Gly Gln Ala Trp Tyr Asn Met Gly Asp Ala Thr His Gln Asn Glu Asp

305 310 315 320

Thr Glu Thr His Met Arg Met Asn Trp Gln Leu Trp Ile Tyr Tyr His

325 330 335

Arg Cys Glu Tyr Lys Thr Asp Phe Trp Gln Thr Leu Phe Lys Leu Met

340 345 350

Arg Glu Val Asn Met Thr Glu Gly Glu Asp Pro Gly Lys Lys Gln Leu

355 360 365

Glu Phe Ala Lys Met Ala Ser Lys Ala Ala Asn Gln Asn Leu Thr Asp

370 375 380

Phe Phe Glu Met Trp Gly Phe Phe Glu Pro Val Asn Thr Thr Ile Glu

385 390 395 400

Gln Tyr Gly Thr Tyr Lys Tyr Tyr Val Ser Asp Ala Met Ile Arg Glu

405 410 415

Ala Lys Glu Tyr Met Ala Gln Phe Pro Ala Pro Lys His Ala Phe Gln

420 425 430

Tyr Ile Glu Asp Arg Lys Lys Ser Glu Phe Pro Ser Asn Asp Tyr Arg

435 440 445

Tyr Ser Ala Val Gly Asp Val Gly Tyr Tyr Thr Gln Phe Lys Glu Asn

450 455 460

Gln Lys Ile Thr Lys Ala Ile Thr Ala Glu Leu Ala Gly Arg Lys Val

465 470 475 480

Ser Ile Gln Asn Gly Asp Glu Ala Val Ala Phe Glu Leu Arg Glu Asn

485 490 495

Asp Glu Asn Gly Lys Leu Leu Tyr Phe Ser Thr Phe Thr Thr Phe Glu

500 505 510

Ile Pro Ser Ser Ile Leu Met Val Asn Ala Lys Leu Tyr Ala Val Gln

515 520 525

Ala Asp Gly Lys Arg Ile Leu Leu

530 535

<210> 28

<211> 507

<212> PRT

<213> Clostridium perfringens

<400> 28

Val Leu Glu Leu Glu Met Arg Gly Asp Ser Ile Ser Glu Ala Lys Lys

1 5 10 15

Arg Lys Val Trp Asn Phe Gln Asp Trp Gln Ile Thr Gly Leu Ser Ala

20 25 30

Arg Ala Gly Asp Lys Ile Thr Val Tyr Val Asp Val Ala Glu Gly Asp

35 40 45

Pro Thr Pro Thr Leu Leu Tyr Lys Gln Ser Leu Thr Gln His Gly Gly

50 55 60

Ala Thr Ser Phe Gln Leu Lys Pro Gly Lys Asn Glu Ile Thr Ile Pro

65 70 75 80

Glu Ile Asn Tyr Glu Ser Asn Gly Ile Pro Lys Asp Val Ile Gln Gly

85 90 95

Gly Asp Leu Phe Phe Thr Asn Tyr Lys Ser Asp Ser Gln Lys Arg Ala

100 105 110

Pro Lys Val Arg Ile Glu Gly Ala Ser Lys Tyr Pro Val Phe Ile Leu

115 120 125

Gly Lys Ser Asp Glu Asn Glu Val Met Lys Glu Leu Glu Ala Tyr Val

130 135 140

Glu Lys Ile Lys Ala Glu Pro Lys Thr Thr Pro Asn Ile Phe Ala Val

145 150 155 160

Ser Ser Asn Lys Ser Leu Glu Phe Val Gln Ala Thr Tyr Ala Leu Asp

165 170 175

Trp Tyr Lys Lys Asn Asn Lys Thr Pro Lys Tyr Thr Ala Glu Gln Trp

180 185 190

Asp Gln Tyr Ile Ala Asp Ala Met Gly Phe Trp Gly Phe Asp Asn Ser

195 200 205

Lys Asp Val Asn Ser Asp Phe Asn Phe Arg Ile Met Pro Met Val Lys

210 215 220

Asn Leu Ser Gly Gly Ala Phe Met Asn Ala Gly Asn Gly Val Ile Gly

225 230 235 240

Ile Arg Pro Gly Asn Gln Asp Ala Ile Leu Ala Ala Asn Lys Gly Trp

245 250 255

Gly Val Ala His Glu Leu Gly His Asn Phe Asp Thr Gly Gly Arg Thr

260 265 270

Ile Val Glu Val Thr Asn Asn Met Met Pro Leu Phe Phe Glu Ser Lys

275 280 285

Tyr Lys Thr Lys Thr Arg Ile Thr Asp Gln Asn Ile Trp Glu Asn Asn

290 295 300

Thr Tyr Pro Lys Val Gly Leu Asp Asp Tyr Ser Asn Asn Glu Leu Tyr

305 310 315 320

Asn Lys Ala Asp Ser Thr His Leu Ala Gln Leu Ala Pro Leu Trp Gln

325 330 335

Leu Tyr Leu Tyr Asp Asn Thr Phe Tyr Gly Lys Phe Glu Arg Gln Phe

340 345 350

Arg Glu Arg Asp Phe Gly Asn Lys Asn Arg Glu Asp Ile Tyr Lys Ser

355 360 365

Trp Val Val Ala Ala Ser Asp Ala Met Glu Leu Asp Leu Thr Glu Phe

370 375 380

Phe Ala Arg His Gly Ile Arg Val Asp Asp Lys Val Lys Glu Asp Leu

385 390 395 400

Ala Lys Tyr Pro Lys Pro Asp Lys Lys Ile Tyr Tyr Leu Asn Asp Leu

405 410 415

Ala Met Asn Tyr Lys Gly Asp Gly Phe Thr Glu Asn Ala Lys Val Ser

420 425 430

Val Ser Thr Ser Gly Ser Asn Gly Asn Ile Lys Leu Ser Phe Ser Val

435 440 445

Asp Asp Glu Asn Lys Asp Asn Ile Leu Gly Tyr Glu Ile Arg Arg Asp

450 455 460

Gly Lys Tyr Val Gly Phe Thr Ser Asn Asp Ser Phe Val Asp Thr Lys

465 470 475 480

Ser Asn Leu Asp Glu Asp Gly Val Tyr Val Val Thr Pro Tyr Asp Arg

485 490 495

Lys Leu Asn Thr Leu Asn Pro Ile Glu Val Asn

500 505

<210> 29

<211> 892

<212> PRT

<213> Artificial Sequence

<220>

<223> polypeptide having O-glycoprotein-specific endoprotease activity

(including N-terminal methionine and a C-terminal linker + His6

tag)

<400> 29

Met Ala Thr Gln Glu Glu Ile Leu Asp Ala Ala Leu Val Ser Gly Asp

1 5 10 15

Ser Ser Gln Leu Thr Asp Ser His Leu Val Ala Leu Arg Leu Gln Gln

20 25 30

Gln Val Glu Arg Ile Arg Gln Thr Arg Thr Gln Leu Leu Asp Gly Leu

35 40 45

Tyr Gln Asn Leu Ser Gln Ala Tyr Asp Pro Gly Ala Ala Ser Met Trp

50 55 60

Val Leu Pro Ala Asn Pro Asp Asn Thr Leu Pro Phe Leu Ile Gly Asp

65 70 75 80

Lys Gly Arg Val Leu Ala Ser Leu Ser Leu Glu Ala Gly Gly Arg Gly

85 90 95

Leu Ala Tyr Gly Thr Asn Val Leu Thr Gln Leu Ser Gly Thr Asn Ala

100 105 110

Ala His Ala Pro Leu Leu Lys Arg Ala Val Gln Trp Leu Val Asn Gly

115 120 125

Asp Pro Gly Ala Ala Thr Ala Lys Asp Phe Lys Val Ser Val Val Gly

130 135 140

Val Asp Lys Thr Ala Ala Leu Asn Gly Leu Lys Ser Ala Gly Leu Gln

145 150 155 160

Pro Ala Asp Ala Ala Cys Asn Ala Leu Thr Asp Ala Ser Cys Ala Ser

165 170 175

Thr Ser Lys Leu Leu Val Leu Gly Asn Gly Ala Ser Ala Ala Ser Leu

180 185 190

Ser Ala Thr Val Arg Ala Arg Leu Gln Ala Gly Leu Pro Ile Leu Phe

195 200 205

Val His Thr Asn Gly Trp Asn Gln Ser Ser Thr Gly Gln Gln Ile Leu

210 215 220

Ala Gly Leu Gly Leu Gln Glu Gly Pro Tyr Gly Gly Asn Tyr Trp Asp

225 230 235 240

Lys Asp Arg Val Pro Ser Ser Arg Thr Arg Thr Arg Ser Val Glu Leu

245 250 255

Gly Gly Ala Tyr Gly Gln Asp Pro Ala Leu Val Gln Gln Ile Val Asp

260 265 270

Gly Ser Trp Arg Thr Asp Tyr Asp Trp Ser Lys Cys Thr Ser Tyr Val

275 280 285

Gly Arg Thr Thr Cys Asp Asp Val Pro Gly Leu Ser Asp Phe Ser Lys

290 295 300

Arg Val Asp Val Leu Lys Gly Ala Leu Asp Ala Tyr Asn Gln Lys Ala

305 310 315 320

Gln Asn Leu Phe Ala Leu Pro Gly Thr Thr Ser Leu Arg Leu Trp Leu

325 330 335

Leu Trp Ala Asp Ala Val Arg Gln Asn Ile Arg Tyr Pro Met Asp Lys

340 345 350

Ala Ala Asp Thr Ala Arg Phe Gln Glu Thr Phe Val Ala Asp Ala Ile

355 360 365

Val Gly Tyr Val Arg Glu Ala Gly Ala Ala Gln Lys Glu Leu Gly Ser

370 375 380

Tyr Ala Gly Gln Arg Gln Gln Ser Met Pro Val Ser Gly Ser Glu Glu

385 390 395 400

Thr Leu Thr Leu Thr Leu Pro Ser Ala Gln Gly Phe Thr Ala Ile Gly

405 410 415

Arg Met Ala Ala Pro Gly Lys Arg Leu Ser Ile Arg Ile Glu Asp Ala

420 425 430

Gly Gln Ala Ser Leu Ala Val Gly Leu Asn Thr Gln Arg Ile Gly Ser

435 440 445

Thr Arg Leu Trp Asn Thr Arg Gln Tyr Asp Arg Pro Arg Phe Leu Lys

450 455 460

Ser Pro Asp Ile Lys Leu Gln Ala Asn Gln Ser Val Ala Leu Val Ser

465 470 475 480

Pro Tyr Gly Gly Leu Leu Gln Leu Val Tyr Ser Gly Ala Thr Pro Gly

485 490 495

Gln Thr Val Thr Val Lys Val Thr Gly Ala Ala Ser Gln Pro Phe Leu

500 505 510

Asp Ile Gln Pro Gly Glu Asp Ser Ser Gln Ala Ile Ala Asp Phe Ile

515 520 525

Gln Ala Leu Asp Ala Asp Lys Ala Asp Trp Leu Glu Ile Arg Ser Gly

530 535 540

Ser Val Glu Val His Ala Lys Val Glu Lys Val Arg Gly Ser Ile Asp

545 550 555 560

Lys Asp Tyr Gly Gly Asp Val Gln Arg Phe Ile Arg Glu Leu Asn Glu

565 570 575

Val Phe Ile Asp Asp Ala Tyr Thr Leu Ala Gly Phe Ala Ile Pro Asn

580 585 590

Gln Ala Lys Thr Pro Ala Ile Gln Gln Glu Cys Ala Ala Arg Gly Trp

595 600 605

Asp Cys Asp Ser Glu Thr Leu His Lys Leu Pro Gly Thr Gln His Ile

610 615 620

Asn Val Asp Gln Tyr Ala Gln Cys Gly Gly Gly Cys Ser Gly Asn Pro

625 630 635 640

Tyr Asp Gln Thr Trp Gly Leu Asn Pro Arg Gly Trp Gly Glu Ser His

645 650 655

Glu Leu Gly His Asn Leu Gln Val Asn Arg Leu Lys Val Tyr Gly Gly

660 665 670

Arg Ser Gly Glu Ile Ser Asn Gln Ile Phe Pro Leu His Lys Asp Trp

675 680 685

Arg Val Leu Arg Glu Phe Gly Gln Asn Leu Asp Asp Thr Arg Val Asn

690 695 700

Tyr Arg Asn Ala Tyr Asn Leu Ile Val Ala Gly Arg Ala Glu Ala Asp

705 710 715 720

Pro Leu Ala Gly Val Tyr Lys Arg Leu Trp Glu Asp Pro Gly Thr Tyr

725 730 735

Ala Leu Asn Gly Glu Arg Met Ala Phe Tyr Thr Gln Trp Val His Tyr

740 745 750

Trp Ala Asp Leu Lys Asn Asp Pro Leu Gln Gly Trp Asp Ile Trp Thr

755 760 765

Leu Leu Tyr Leu His Gln Arg Gln Val Asp Lys Ser Asp Trp Asp Ala

770 775 780

Asn Lys Ala Ala Leu Gly Tyr Gly Thr Tyr Ala Gln Arg Pro Gly Asn

785 790 795 800

Ser Gly Asp Ala Ser Ser Thr Asp Gly Asn Asp Asn Leu Leu Leu Gly

805 810 815

Leu Ser Trp Leu Thr Gln Arg Asp Gln Arg Pro Thr Phe Ala Leu Trp

820 825 830

Gly Ile Arg Thr Ser Ala Ala Ala Gln Ala Gln Val Ala Ala Tyr Gly

835 840 845

Phe Ala Glu Gln Pro Ala Phe Phe Tyr Ala Asn Asn Arg Thr Asn Glu

850 855 860

Tyr Ser Thr Val Lys Leu Leu Asp Met Ser Gln Gly Ser Pro Ala Trp

865 870 875 880

Pro Phe Pro Gly Ser Gly His His His His His His

885 890

<210> 30

<211> 546

<212> PRT

<213> Artificial Sequence

<220>

<223> polypeptide having O-glycoprotein-specific endoprotease activity

(including N-terminal methionine and a C-terminal linker + His6

tag)

<400> 30

Met Asp Lys Trp Glu Lys Glu Phe Arg Ile Arg Ser Tyr Glu Pro Tyr

1 5 10 15

Ser Asn Ile Ala Glu Trp Ala Asp Lys Leu Met Thr Lys Lys Tyr Ser

20 25 30

Asp Leu Asp Asn Pro Thr Gly Ile Ser Val Lys Ala Gly Asp Asp Ile

35 40 45

Ile Val Leu Val Gly Asp Thr Tyr Gly Gln Asn Ile Ser Met Gln Cys

50 55 60

Ile Trp Glu Thr Gly Thr Glu Tyr Lys Gln Thr Ala Ser Ser Gly Asp

65 70 75 80

Val Tyr Met Leu Asn Pro Gly Val Asn Lys Leu Thr Met Lys Gly Glu

85 90 95

Gly Gln Leu Phe Val Met Tyr Asn Thr Glu Leu Thr Ser Asn Thr Ala

100 105 110

Lys Pro Ile Lys Ile His Ile Pro Leu Gly Ser Gly Thr Val Asn Gly

115 120 125

Phe Phe Asp Leu Lys Glu His Lys Thr Asp Glu Lys Tyr Ala Glu Leu

130 135 140

Leu Lys Lys Ser Thr His Lys Tyr Phe Cys Ile Arg Gly Glu Lys Ile

145 150 155 160

Met Phe Tyr Phe His Arg Asn Lys Leu Leu Glu Tyr Val Pro Asn Asn

165 170 175

Ile Leu Ser Ala Ile His Leu Trp Asp Asn Ile Val Gly Trp Gln Gln

180 185 190

Glu Leu Met Gly Ile Asp Asp Val Arg Pro Ser Gln Val Asn Asn His

195 200 205

Leu Phe Ala Ile Ser Pro Glu Gly Ser Tyr Met Trp Ala Ser Asp Tyr

210 215 220

Gln Ile Gly Phe Val Tyr Thr Tyr Leu Gly Asn Ile Leu Leu Glu Asp

225 230 235 240

Asn Val Met Ala Ala Glu Asp Asn Ala Trp Gly Pro Ala His Glu Ile

245 250 255

Gly His Val His Gln Ala Ala Ile Asn Trp Ala Ser Ser Thr Glu Ser

260 265 270

Ser Asn Asn Leu Phe Ser Asn Phe Ile Ile Tyr Lys Leu Gly Lys Tyr

275 280 285

Lys Ser Arg Gly Asn Gly Leu Gly Ser Val Ala Thr Ala Arg Tyr Ala

290 295 300

Asn Gly Gln Ala Trp Tyr Asn Met Gly Asp Ala Thr His Gln Asn Glu

305 310 315 320

Asp Thr Glu Thr His Met Arg Met Asn Trp Gln Leu Trp Ile Tyr Tyr

325 330 335

His Arg Cys Glu Tyr Lys Thr Asp Phe Trp Gln Thr Leu Phe Lys Leu

340 345 350

Met Arg Glu Val Asn Met Thr Glu Gly Glu Asp Pro Gly Lys Lys Gln

355 360 365

Leu Glu Phe Ala Lys Met Ala Ser Lys Ala Ala Asn Gln Asn Leu Thr

370 375 380

Asp Phe Phe Glu Met Trp Gly Phe Phe Glu Pro Val Asn Thr Thr Ile

385 390 395 400

Glu Gln Tyr Gly Thr Tyr Lys Tyr Tyr Val Ser Asp Ala Met Ile Arg

405 410 415

Glu Ala Lys Glu Tyr Met Ala Gln Phe Pro Ala Pro Lys His Ala Phe

420 425 430

Gln Tyr Ile Glu Asp Arg Lys Lys Ser Glu Phe Pro Ser Asn Asp Tyr

435 440 445

Arg Tyr Ser Ala Val Gly Asp Val Gly Tyr Tyr Thr Gln Phe Lys Glu

450 455 460

Asn Gln Lys Ile Thr Lys Ala Ile Thr Ala Glu Leu Ala Gly Arg Lys

465 470 475 480

Val Ser Ile Gln Asn Gly Asp Glu Ala Val Ala Phe Glu Leu Arg Glu

485 490 495

Asn Asp Glu Asn Gly Lys Leu Leu Tyr Phe Ser Thr Phe Thr Thr Phe

500 505 510

Glu Ile Pro Ser Ser Ile Leu Met Val Asn Ala Lys Leu Tyr Ala Val

515 520 525

Gln Ala Asp Gly Lys Arg Ile Leu Leu Gly Ser Gly His His His His

530 535 540

His His

545

<210> 31

<211> 517

<212> PRT

<213> Artificial Sequence

<220>

<223> polypeptide having O-glycoprotein-specific endoprotease activity

(including N-terminal methionine and a C-terminal linker + His6

tag)

<400> 31

Met Val Leu Glu Leu Glu Met Arg Gly Asp Ser Ile Ser Glu Ala Lys

1 5 10 15

Lys Arg Lys Val Trp Asn Phe Gln Asp Trp Gln Ile Thr Gly Leu Ser

20 25 30

Ala Arg Ala Gly Asp Lys Ile Thr Val Tyr Val Asp Val Ala Glu Gly

35 40 45

Asp Pro Thr Pro Thr Leu Leu Tyr Lys Gln Ser Leu Thr Gln His Gly

50 55 60

Gly Ala Thr Ser Phe Gln Leu Lys Pro Gly Lys Asn Glu Ile Thr Ile

65 70 75 80

Pro Glu Ile Asn Tyr Glu Ser Asn Gly Ile Pro Lys Asp Val Ile Gln

85 90 95

Gly Gly Asp Leu Phe Phe Thr Asn Tyr Lys Ser Asp Ser Gln Lys Arg

100 105 110

Ala Pro Lys Val Arg Ile Glu Gly Ala Ser Lys Tyr Pro Val Phe Ile

115 120 125

Leu Gly Lys Ser Asp Glu Asn Glu Val Met Lys Glu Leu Glu Ala Tyr

130 135 140

Val Glu Lys Ile Lys Ala Glu Pro Lys Thr Thr Pro Asn Ile Phe Ala

145 150 155 160

Val Ser Ser Asn Lys Ser Leu Glu Phe Val Gln Ala Thr Tyr Ala Leu

165 170 175

Asp Trp Tyr Lys Lys Asn Asn Lys Thr Pro Lys Tyr Thr Ala Glu Gln

180 185 190

Trp Asp Gln Tyr Ile Ala Asp Ala Met Gly Phe Trp Gly Phe Asp Asn

195 200 205

Ser Lys Asp Val Asn Ser Asp Phe Asn Phe Arg Ile Met Pro Met Val

210 215 220

Lys Asn Leu Ser Gly Gly Ala Phe Met Asn Ala Gly Asn Gly Val Ile

225 230 235 240

Gly Ile Arg Pro Gly Asn Gln Asp Ala Ile Leu Ala Ala Asn Lys Gly

245 250 255

Trp Gly Val Ala His Glu Leu Gly His Asn Phe Asp Thr Gly Gly Arg

260 265 270

Thr Ile Val Glu Val Thr Asn Asn Met Met Pro Leu Phe Phe Glu Ser

275 280 285

Lys Tyr Lys Thr Lys Thr Arg Ile Thr Asp Gln Asn Ile Trp Glu Asn

290 295 300

Asn Thr Tyr Pro Lys Val Gly Leu Asp Asp Tyr Ser Asn Asn Glu Leu

305 310 315 320

Tyr Asn Lys Ala Asp Ser Thr His Leu Ala Gln Leu Ala Pro Leu Trp

325 330 335

Gln Leu Tyr Leu Tyr Asp Asn Thr Phe Tyr Gly Lys Phe Glu Arg Gln

340 345 350

Phe Arg Glu Arg Asp Phe Gly Asn Lys Asn Arg Glu Asp Ile Tyr Lys

355 360 365

Ser Trp Val Val Ala Ala Ser Asp Ala Met Glu Leu Asp Leu Thr Glu

370 375 380

Phe Phe Ala Arg His Gly Ile Arg Val Asp Asp Lys Val Lys Glu Asp

385 390 395 400

Leu Ala Lys Tyr Pro Lys Pro Asp Lys Lys Ile Tyr Tyr Leu Asn Asp

405 410 415

Leu Ala Met Asn Tyr Lys Gly Asp Gly Phe Thr Glu Asn Ala Lys Val

420 425 430

Ser Val Ser Thr Ser Gly Ser Asn Gly Asn Ile Lys Leu Ser Phe Ser

435 440 445

Val Asp Asp Glu Asn Lys Asp Asn Ile Leu Gly Tyr Glu Ile Arg Arg

450 455 460

Asp Gly Lys Tyr Val Gly Phe Thr Ser Asn Asp Ser Phe Val Asp Thr

465 470 475 480

Lys Ser Asn Leu Asp Glu Asp Gly Val Tyr Val Val Thr Pro Tyr Asp

485 490 495

Arg Lys Leu Asn Thr Leu Asn Pro Ile Glu Val Asn Gly Ser Gly His

500 505 510

His His His His His

515

<210> 32

<211> 923

<212> PRT

<213> Pseudomonas aeruginosa

<400> 32

Met Ser Leu Ser Thr Thr Ala Phe Pro Ser Leu Gln Gly Glu Asn Met

1 5 10 15

Ser Arg Ser Pro Ile Pro Arg His Arg Ala Leu Leu Ala Gly Phe Cys

20 25 30

Leu Ala Gly Ala Leu Ser Ala Gln Ala Ala Thr Gln Glu Glu Ile Leu

35 40 45

Asp Ala Ala Leu Val Ser Gly Asp Ser Ser Gln Leu Thr Asp Ser His

50 55 60

Leu Val Ala Leu Arg Leu Gln Gln Gln Val Glu Arg Ile Arg Gln Thr

65 70 75 80

Arg Thr Gln Leu Leu Asp Gly Leu Tyr Gln Asn Leu Ser Gln Ala Tyr

85 90 95

Asp Pro Gly Ala Ala Ser Met Trp Val Leu Pro Ala Asn Pro Asp Asn

100 105 110

Thr Leu Pro Phe Leu Ile Gly Asp Lys Gly Arg Val Leu Ala Ser Leu

115 120 125

Ser Leu Glu Ala Gly Gly Arg Gly Leu Ala Tyr Gly Thr Asn Val Leu

130 135 140

Thr Gln Leu Ser Gly Thr Asn Ala Ala His Ala Pro Leu Leu Lys Arg

145 150 155 160

Ala Val Gln Trp Leu Val Asn Gly Asp Pro Gly Ala Ala Thr Ala Lys

165 170 175

Asp Phe Lys Val Ser Val Val Gly Val Asp Lys Thr Ala Ala Leu Asn

180 185 190

Gly Leu Lys Ser Ala Gly Leu Gln Pro Ala Asp Ala Ala Cys Asn Ala

195 200 205

Leu Thr Asp Ala Ser Cys Ala Ser Thr Ser Lys Leu Leu Val Leu Gly

210 215 220

Asn Gly Ala Ser Ala Ala Ser Leu Ser Ala Thr Val Arg Ala Arg Leu

225 230 235 240

Gln Ala Gly Leu Pro Ile Leu Phe Val His Thr Asn Gly Trp Asn Gln

245 250 255

Ser Ser Thr Gly Gln Gln Ile Leu Ala Gly Leu Gly Leu Gln Glu Gly

260 265 270

Pro Tyr Gly Gly Asn Tyr Trp Asp Lys Asp Arg Val Pro Ser Ser Arg

275 280 285

Thr Arg Thr Arg Ser Val Glu Leu Gly Gly Ala Tyr Gly Gln Asp Pro

290 295 300

Ala Leu Val Gln Gln Ile Val Asp Gly Ser Trp Arg Thr Asp Tyr Asp

305 310 315 320

Trp Ser Lys Cys Thr Ser Tyr Val Gly Arg Thr Thr Cys Asp Asp Val

325 330 335

Pro Gly Leu Ser Asp Phe Ser Lys Arg Val Asp Val Leu Lys Gly Ala

340 345 350

Leu Asp Ala Tyr Asn Gln Lys Ala Gln Asn Leu Phe Ala Leu Pro Gly

355 360 365

Thr Thr Ser Leu Arg Leu Trp Leu Leu Trp Ala Asp Ala Val Arg Gln

370 375 380

Asn Ile Arg Tyr Pro Met Asp Lys Ala Ala Asp Thr Ala Arg Phe Gln

385 390 395 400

Glu Thr Phe Val Ala Asp Ala Ile Val Gly Tyr Val Arg Glu Ala Gly

405 410 415

Ala Ala Gln Lys Glu Leu Gly Ser Tyr Ala Gly Gln Arg Gln Gln Ser

420 425 430

Met Pro Val Ser Gly Ser Glu Glu Thr Leu Thr Leu Thr Leu Pro Ser

435 440 445

Ala Gln Gly Phe Thr Ala Ile Gly Arg Met Ala Ala Pro Gly Lys Arg

450 455 460

Leu Ser Ile Arg Ile Glu Asp Ala Gly Gln Ala Ser Leu Ala Val Gly

465 470 475 480

Leu Asn Thr Gln Arg Ile Gly Ser Thr Arg Leu Trp Asn Thr Arg Gln

485 490 495

Tyr Asp Arg Pro Arg Phe Leu Lys Ser Pro Asp Ile Lys Leu Gln Ala

500 505 510

Asn Gln Ser Val Ala Leu Val Ser Pro Tyr Gly Gly Leu Leu Gln Leu

515 520 525

Val Tyr Ser Gly Ala Thr Pro Gly Gln Thr Val Thr Val Lys Val Thr

530 535 540

Gly Ala Ala Ser Gln Pro Phe Leu Asp Ile Gln Pro Gly Glu Asp Ser

545 550 555 560

Ser Gln Ala Ile Ala Asp Phe Ile Gln Ala Leu Asp Ala Asp Lys Ala

565 570 575

Asp Trp Leu Glu Ile Arg Ser Gly Ser Val Glu Val His Ala Lys Val

580 585 590

Glu Lys Val Arg Gly Ser Ile Asp Lys Asp Tyr Gly Gly Asp Val Gln

595 600 605

Arg Phe Ile Arg Glu Leu Asn Glu Val Phe Ile Asp Asp Ala Tyr Thr

610 615 620

Leu Ala Gly Phe Ala Ile Pro Asn Gln Ala Lys Thr Pro Ala Ile Gln

625 630 635 640

Gln Glu Cys Ala Ala Arg Gly Trp Asp Cys Asp Ser Glu Thr Leu His

645 650 655

Lys Leu Pro Gly Thr Gln His Ile Asn Val Asp Gln Tyr Ala Gln Cys

660 665 670

Gly Gly Gly Cys Ser Gly Asn Pro Tyr Asp Gln Thr Trp Gly Leu Asn

675 680 685

Pro Arg Gly Trp Gly Glu Ser His Glu Leu Gly His Asn Leu Gln Val

690 695 700

Asn Arg Leu Lys Val Tyr Gly Gly Arg Ser Gly Glu Ile Ser Asn Gln

705 710 715 720

Ile Phe Pro Leu His Lys Asp Trp Arg Val Leu Arg Glu Phe Gly Gln

725 730 735

Asn Leu Asp Asp Thr Arg Val Asn Tyr Arg Asn Ala Tyr Asn Leu Ile

740 745 750

Val Ala Gly Arg Ala Glu Ala Asp Pro Leu Ala Gly Val Tyr Lys Arg

755 760 765

Leu Trp Glu Asp Pro Gly Thr Tyr Ala Leu Asn Gly Glu Arg Met Ala

770 775 780

Phe Tyr Thr Gln Trp Val His Tyr Trp Ala Asp Leu Lys Asn Asp Pro

785 790 795 800

Leu Gln Gly Trp Asp Ile Trp Thr Leu Leu Tyr Leu His Gln Arg Gln

805 810 815

Val Asp Lys Ser Asp Trp Asp Ala Asn Lys Ala Ala Leu Gly Tyr Gly

820 825 830

Thr Tyr Ala Gln Arg Pro Gly Asn Ser Gly Asp Ala Ser Ser Thr Asp

835 840 845

Gly Asn Asp Asn Leu Leu Leu Gly Leu Ser Trp Leu Thr Gln Arg Asp

850 855 860

Gln Arg Pro Thr Phe Ala Leu Trp Gly Ile Arg Thr Ser Ala Ala Ala

865 870 875 880

Gln Ala Gln Val Ala Ala Tyr Gly Phe Ala Glu Gln Pro Ala Phe Phe

885 890 895

Tyr Ala Asn Asn Arg Thr Asn Glu Tyr Ser Thr Val Lys Leu Leu Asp

900 905 910

Met Ser Gln Gly Ser Pro Ala Trp Pro Phe Pro

915 920

<210> 33

<211> 857

<212> PRT

<213> Bacteroides thetaiotaomicron

<400> 33

Met Thr Ile Lys Arg Phe Ile Thr Asn Leu Leu Ala Leu Phe Thr Leu

1 5 10 15

Phe Thr Val Ser Leu Ala Cys Lys Asp Thr Glu Lys Ser Ile Ile Asn

20 25 30

Ser Ser Phe Ser Ile Ser Glu Glu Tyr Leu Ile Gln Asn Leu Asp Lys

35 40 45

Ser Ser Thr Ser Val Gln Ile Pro Ile Asn Thr Ser Met Glu Leu Ala

50 55 60

Gln Trp Ser Val Ser Tyr Glu Ala Asn Trp Leu Gln Cys Ser Lys Gln

65 70 75 80

Lys Thr Ala Ala Glu Gly Thr Phe Leu Arg Ile Thr Val Asn Glu Asn

85 90 95

Thr Gly Glu Thr Lys Arg Thr Ala Asn Ile Lys Val Thr Ser Thr Thr

100 105 110

Ala Thr Tyr Thr Ile Thr Val Asn Gln Tyr Ala Lys Gly Glu Val Ile

115 120 125

Val Glu Gly Asp Ile Lys Val Thr Pro Thr Gly Gly Lys Ala Ser Glu

130 135 140

His Gln Glu Gly Gln Asp Ile Glu Asn Thr Tyr Asp Gly Lys Phe Ser

145 150 155 160

Thr Asp Gly Ala Ala Pro Phe His Thr Pro Trp Gly Gln Ser Ala Lys

165 170 175

Phe Pro Val Thr Leu Glu Tyr Tyr Phe Lys Gly Asp Thr Glu Ile Asp

180 185 190

Tyr Leu Ile Tyr Tyr Thr Arg Ser Gly Asn Gly Asn Phe Gly Lys Val

195 200 205

Lys Val Tyr Thr Thr Thr Asn Pro Asp Arg Ser Asp Tyr Thr Leu Gln

210 215 220

Gly Glu Tyr Asp Phe Lys Glu Gln Asn Ala Pro Ser Lys Val Ser Phe

225 230 235 240

Ser Glu Gly Ile Lys Ala Thr Gly Ile Lys Phe Glu Val Leu Ser Gly

245 250 255

Leu Gly Asp Phe Val Ser Cys Asp Glu Met Glu Phe Tyr Lys Thr Asn

260 265 270

Thr Asp Lys Thr Leu Asp Lys Gln Leu Leu Thr Val Phe Thr Asp Ile

275 280 285

Thr Cys Thr Glu Ile Lys Asn Asn Val Thr Asn Glu Gln Ile Gln Ala

290 295 300

Leu Pro Asp Tyr Phe Val Arg Ile Ala Glu Ala Val Arg Asp Asn Thr

305 310 315 320

Tyr Asp Lys Trp Glu Lys Glu Phe Arg Ile Arg Ser Tyr Glu Pro Tyr

325 330 335

Ser Asn Ile Ala Glu Trp Ala Asp Lys Leu Met Thr Lys Lys Tyr Ser

340 345 350

Asp Leu Asp Asn Pro Thr Gly Ile Ser Val Lys Ala Gly Asp Asp Ile

355 360 365

Ile Val Leu Val Gly Asp Thr Tyr Gly Gln Asn Ile Ser Met Gln Cys

370 375 380

Ile Trp Glu Thr Gly Thr Glu Tyr Lys Gln Thr Ala Ser Ser Gly Asp

385 390 395 400

Val Tyr Met Leu Asn Pro Gly Val Asn Lys Leu Thr Met Lys Gly Glu

405 410 415

Gly Gln Leu Phe Val Met Tyr Asn Thr Glu Leu Thr Ser Asn Thr Ala

420 425 430

Lys Pro Ile Lys Ile His Ile Pro Leu Gly Ser Gly Thr Val Asn Gly

435 440 445

Phe Phe Asp Leu Lys Glu His Lys Thr Asp Glu Lys Tyr Ala Glu Leu

450 455 460

Leu Lys Lys Ser Thr His Lys Tyr Phe Cys Ile Arg Gly Glu Lys Ile

465 470 475 480

Met Phe Tyr Phe His Arg Asn Lys Leu Leu Glu Tyr Val Pro Asn Asn

485 490 495

Ile Leu Ser Ala Ile His Leu Trp Asp Asn Ile Val Gly Trp Gln Gln

500 505 510

Glu Leu Met Gly Ile Asp Asp Val Arg Pro Ser Gln Val Asn Asn His

515 520 525

Leu Phe Ala Ile Ser Pro Glu Gly Ser Tyr Met Trp Ala Ser Asp Tyr

530 535 540

Gln Ile Gly Phe Val Tyr Thr Tyr Leu Gly Asn Ile Leu Leu Glu Asp

545 550 555 560

Asn Val Met Ala Ala Glu Asp Asn Ala Trp Gly Pro Ala His Glu Ile

565 570 575

Gly His Val His Gln Ala Ala Ile Asn Trp Ala Ser Ser Thr Glu Ser

580 585 590

Ser Asn Asn Leu Phe Ser Asn Phe Ile Ile Tyr Lys Leu Gly Lys Tyr

595 600 605

Lys Ser Arg Gly Asn Gly Leu Gly Ser Val Ala Thr Ala Arg Tyr Ala

610 615 620

Asn Gly Gln Ala Trp Tyr Asn Met Gly Asp Ala Thr His Gln Asn Glu

625 630 635 640

Asp Thr Glu Thr His Met Arg Met Asn Trp Gln Leu Trp Ile Tyr Tyr

645 650 655

His Arg Cys Glu Tyr Lys Thr Asp Phe Trp Gln Thr Leu Phe Lys Leu

660 665 670

Met Arg Glu Val Asn Met Thr Glu Gly Glu Asp Pro Gly Lys Lys Gln

675 680 685

Leu Glu Phe Ala Lys Met Ala Ser Lys Ala Ala Asn Gln Asn Leu Thr

690 695 700

Asp Phe Phe Glu Met Trp Gly Phe Phe Glu Pro Val Asn Thr Thr Ile

705 710 715 720

Glu Gln Tyr Gly Thr Tyr Lys Tyr Tyr Val Ser Asp Ala Met Ile Arg

725 730 735

Glu Ala Lys Glu Tyr Met Ala Gln Phe Pro Ala Pro Lys His Ala Phe

740 745 750

Gln Tyr Ile Glu Asp Arg Lys Lys Ser Glu Phe Pro Ser Asn Asp Tyr

755 760 765

Arg Tyr Ser Ala Val Gly Asp Val Gly Tyr Tyr Thr Gln Phe Lys Glu

770 775 780

Asn Gln Lys Ile Thr Lys Ala Ile Thr Ala Glu Leu Ala Gly Arg Lys

785 790 795 800

Val Ser Ile Gln Asn Gly Asp Glu Ala Val Ala Phe Glu Leu Arg Glu

805 810 815

Asn Asp Glu Asn Gly Lys Leu Leu Tyr Phe Ser Thr Phe Thr Thr Phe

820 825 830

Glu Ile Pro Ser Ser Ile Leu Met Val Asn Ala Lys Leu Tyr Ala Val

835 840 845

Gln Ala Asp Gly Lys Arg Ile Leu Leu

850 855

<210> 34

<211> 1687

<212> PRT

<213> Clostridium perfringens

<400> 34

Met Asn Lys Arg Lys Ile Ala Ala Ile Ile Leu Ala Thr Met Ile Thr

1 5 10 15

Asn Leu Ser Ala Thr Thr Ile Asp Val Leu Ala Gln Glu Leu Asn Thr

20 25 30

Lys Asn Asn Ser Lys Val Glu Val Ser His Asp Asp Glu Ser His Gln

35 40 45

Ala Arg Val Ser Lys Phe Asp Leu Tyr Asn Ser Asp Lys Leu Asp Ala

50 55 60

Tyr Asn Gln Glu Phe Gln Val Ser Arg Ser Asn Ile Lys Ser Ile Asn

65 70 75 80

Asn Asn Gly Gly Lys Tyr Asn Ser Ser Thr Ile Asp Lys Ala Ile Asp

85 90 95

Gly Asn Leu Glu Thr His Trp Glu Thr Gly Lys Pro Asn Asp Ala Asn

100 105 110

Phe Thr Asn Glu Val Val Val Thr Phe Asn Glu Ile Thr Asn Ile Asp

115 120 125

Arg Ile Val Tyr Ser Ala Arg Arg Asp Ser Ala Arg Gly Lys Gly Phe

130 135 140

Ala Lys Glu Phe Glu Ile Tyr Ala Ser Leu Lys Asp Glu Gly Asp Asp

145 150 155 160

Phe Asn Leu Val Ser Ser Gly Glu Tyr Thr Glu Ser Thr Arg Asp Leu

165 170 175

Val Glu Ile Lys Phe Asn Pro Thr Asp Phe Lys Arg Leu Lys Phe Lys

180 185 190

Phe Lys Lys Ala Asp Gln Asn Trp Ala Ser Ala Ala Glu Phe Met Phe

195 200 205

Tyr Lys Glu Asp Lys Leu Asn Glu Lys Phe Asn Gly Leu Phe Thr Asp

210 215 220

Ser Ser Met Asn Lys Val Ser Glu Glu Phe Asn Thr Leu Glu Lys Leu

225 230 235 240

Asn Ala Phe Glu Asn Glu Leu Lys Asp His Pro Ile Tyr Asp Leu Tyr

245 250 255

Lys Glu Gly Leu Asn Asn Ala Arg Ala Ile Leu Thr Glu Thr Ser Glu

260 265 270

Asn Pro Thr Lys Ala Thr Leu Gly Gln Ile Thr Tyr Asn Leu Asn Asp

275 280 285

Asp Tyr Asn Asn Gln Tyr Arg Met Pro Tyr Lys Asn Ile Lys Ala Ile

290 295 300

Lys Asn Asn Gly Arg His Tyr Ala Ala Gln Asn Ile Glu Lys Ala Ile

305 310 315 320

Asp Asn Asp Val Asn Thr Tyr Trp Glu Thr Gly Thr Leu Asn Ser Ser

325 330 335

Ser Phe Asn Asn Glu Val Glu Val Glu Phe Asn Asp Leu Val Thr Leu

340 345 350

Asp Arg Ile Val Tyr Gly Ser Arg Gln Ser Asp Leu Lys Gly Phe Ala

355 360 365

Glu Glu Val Tyr Ile Tyr Ala Ser Arg Thr Ser Lys Gly Asp Thr Tyr

370 375 380

Lys Leu Val Ala Thr Gly Ala His Glu Ala Thr Lys Gly Leu Val Glu

385 390 395 400

Ala Lys Phe Glu Pro Thr Glu Phe Lys Arg Val Lys Phe Lys Phe Lys

405 410 415

Lys Ser Lys Gln Asn Ser Ala Thr Leu Asn Glu Leu Met Phe Tyr Lys

420 425 430

Pro Asp Glu Val Tyr Ser Ser Ile Pro Lys Leu Phe Thr Asp Gly Thr

435 440 445

Met Ser Glu Leu Ser Glu Glu Phe Asn Ser Leu Glu Lys Ile Asn Ala

450 455 460

Phe Lys Glu Lys Ala Lys Asn His Pro Leu Tyr Asn Asp Phe Asn Glu

465 470 475 480

Thr Ile Glu Leu Ala Glu Ser Leu Ile Ser Asn Pro Arg Lys Glu Asp

485 490 495

Val Leu Glu Leu Glu Met Arg Gly Asp Ser Ile Ser Glu Ala Lys Lys

500 505 510

Arg Lys Val Trp Asn Phe Gln Asp Trp Gln Ile Thr Gly Leu Ser Ala

515 520 525

Arg Ala Gly Asp Lys Ile Thr Val Tyr Val Asp Val Ala Glu Gly Asp

530 535 540

Pro Thr Pro Thr Leu Leu Tyr Lys Gln Ser Leu Thr Gln His Gly Gly

545 550 555 560

Ala Thr Ser Phe Gln Leu Lys Pro Gly Lys Asn Glu Ile Thr Ile Pro

565 570 575

Glu Ile Asn Tyr Glu Ser Asn Gly Ile Pro Lys Asp Val Ile Gln Gly

580 585 590

Gly Asp Leu Phe Phe Thr Asn Tyr Lys Ser Asp Ser Gln Lys Arg Ala

595 600 605

Pro Lys Val Arg Ile Glu Gly Ala Ser Lys Tyr Pro Val Phe Ile Leu

610 615 620

Gly Lys Ser Asp Glu Asn Glu Val Met Lys Glu Leu Glu Ala Tyr Val

625 630 635 640

Glu Lys Ile Lys Ala Glu Pro Lys Thr Thr Pro Asn Ile Phe Ala Val

645 650 655

Ser Ser Asn Lys Ser Leu Glu Phe Val Gln Ala Thr Tyr Ala Leu Asp

660 665 670

Trp Tyr Lys Lys Asn Asn Lys Thr Pro Lys Tyr Thr Ala Glu Gln Trp

675 680 685

Asp Gln Tyr Ile Ala Asp Ala Met Gly Phe Trp Gly Phe Asp Asn Ser

690 695 700

Lys Asp Val Asn Ser Asp Phe Asn Phe Arg Ile Met Pro Met Val Lys

705 710 715 720

Asn Leu Ser Gly Gly Ala Phe Met Asn Ala Gly Asn Gly Val Ile Gly

725 730 735

Ile Arg Pro Gly Asn Gln Asp Ala Ile Leu Ala Ala Asn Lys Gly Trp

740 745 750

Gly Val Ala His Glu Leu Gly His Asn Phe Asp Thr Gly Gly Arg Thr

755 760 765

Ile Val Glu Val Thr Asn Asn Met Met Pro Leu Phe Phe Glu Ser Lys

770 775 780

Tyr Lys Thr Lys Thr Arg Ile Thr Asp Gln Asn Ile Trp Glu Asn Asn

785 790 795 800

Thr Tyr Pro Lys Val Gly Leu Asp Asp Tyr Ser Asn Asn Glu Leu Tyr

805 810 815

Asn Lys Ala Asp Ser Thr His Leu Ala Gln Leu Ala Pro Leu Trp Gln

820 825 830

Leu Tyr Leu Tyr Asp Asn Thr Phe Tyr Gly Lys Phe Glu Arg Gln Phe

835 840 845

Arg Glu Arg Asp Phe Gly Asn Lys Asn Arg Glu Asp Ile Tyr Lys Ser

850 855 860

Trp Val Val Ala Ala Ser Asp Ala Met Glu Leu Asp Leu Thr Glu Phe

865 870 875 880

Phe Ala Arg His Gly Ile Arg Val Asp Asp Lys Val Lys Glu Asp Leu

885 890 895

Ala Lys Tyr Pro Lys Pro Asp Lys Lys Ile Tyr Tyr Leu Asn Asp Leu

900 905 910

Ala Met Asn Tyr Lys Gly Asp Gly Phe Thr Glu Asn Ala Lys Val Ser

915 920 925

Val Ser Thr Ser Gly Ser Asn Gly Asn Ile Lys Leu Ser Phe Ser Val

930 935 940

Asp Asp Glu Asn Lys Asp Asn Ile Leu Gly Tyr Glu Ile Arg Arg Asp

945 950 955 960

Gly Lys Tyr Val Gly Phe Thr Ser Asn Asp Ser Phe Val Asp Thr Lys

965 970 975

Ser Asn Leu Asp Glu Asp Gly Val Tyr Val Val Thr Pro Tyr Asp Arg

980 985 990

Lys Leu Asn Thr Leu Asn Pro Ile Glu Val Asn Ala Leu Gln Pro Thr

995 1000 1005

Leu Ser Val Asn Pro Val Ile Thr Leu Ala Leu Gly Glu Glu Phe

1010 1015 1020

Asn Glu Glu Glu Tyr Ile Val Ala Lys Asp Ile Lys Gly Asn Ser

1025 1030 1035

Leu Ser Glu Ser Val Lys Val Lys Ser Ser Asn Val Asn Thr Ser

1040 1045 1050

Lys Val Gly Glu Tyr Glu Val Leu Tyr Ser Leu Glu Asp Ser Lys

1055 1060 1065

Gly Asn Glu Tyr Thr Lys Thr Ser Lys Val Asn Val Val Ser Arg

1070 1075 1080

Lys Glu Tyr Met Ser Asp Leu Thr Pro Lys Gln Ser Ser Asn Gly

1085 1090 1095

Trp Gly Thr Val Arg Lys Asp Lys Ser Ile Ser Gly Gly Val Ile

1100 1105 1110

Gly Leu Thr Arg Asp Gly Asp Phe Val Asp Tyr Asn Lys Gly Leu

1115 1120 1125

Gly Leu His Ser Asn Ala Glu Tyr Val Tyr Asp Leu Glu Gly Lys

1130 1135 1140

Asp Tyr Asp Tyr Phe Glu Ser Tyr Val Gly Val Asp Lys Ala Met

1145 1150 1155

Ser Ser Arg Pro Ala Ser Ser Val Ile Phe Lys Val Leu Val Asp

1160 1165 1170

Gly Glu Glu Lys Phe Asn Ser Gly Val Met Arg Ser Thr Thr Pro

1175 1180 1185

Gln Lys Tyr Val Lys Val Asp Val Lys Asn Ala Lys Glu Leu Lys

1190 1195 1200

Leu Ile Val Asn Asp Ala Gly Asp Gly Asp Ser Ser Asp His Ala

1205 1210 1215

Ser Phe Gly Asp Ala Lys Leu Ala Thr Leu Ser Ser Lys Pro Ile

1220 1225 1230

Ile Lys Gly Glu Asn Leu Ala Tyr Ser Met Asp Glu Lys Val Asp

1235 1240 1245

Leu Met Lys Gly Ile Thr Ala Thr Asp Ile Glu Asp Gly Asn Ile

1250 1255 1260

Thr Ser Lys Val Gln Ile Lys Ser Ser Asp Phe Val Glu Gly Lys

1265 1270 1275

Ser Gly Ile Phe Thr Val Val Tyr Ser Val Thr Asp Ser Asp Gly

1280 1285 1290

Leu Thr Ser Glu Cys Ser Arg Thr Ile Ala Val Thr Asp Lys Glu

1295 1300 1305

Thr Gln Leu Ser Asp Leu Asn Trp Lys Ser Ala Thr Ile Gly Ser

1310 1315 1320

Gly Ser Val Arg Lys Asp Arg Ala Val Ser Gly Asn Gln Ile Arg

1325 1330 1335

Leu Leu Asn Glu Asp Asn Ser Val Glu Thr Phe Ala Lys Gly Ile

1340 1345 1350

Gly Thr His Ser Tyr Ser Glu Ile Val Tyr Asn Ser Glu Gly Tyr

1355 1360 1365

Asp Ile Phe Asp Thr Trp Val Gly Ile Asp Arg His Val Ala Asp

1370 1375 1380

Lys Lys Val Ser Ser Val Lys Phe Lys Val Tyr Val Asp Gly Glu

1385 1390 1395

Leu Lys Ala Glu Thr Asp Val Met Arg Ile Asp Thr Pro Lys Lys

1400 1405 1410

Arg Leu Val Val Asp Val Arg Asn Ser Lys Glu Ile Lys Leu Val

1415 1420 1425

Val Asp Val Ala Asp Asn Gly Asn Asn Trp Asp His Ala Asp Trp

1430 1435 1440

Ala Asp Ala Lys Phe Arg Asn Leu Ala Glu Tyr Asp Ala Ser Glu

1445 1450 1455

Leu Asn Lys Ala Ile Glu Glu Ala Lys Lys Leu Asp Leu Asn Asn

1460 1465 1470

Tyr Thr Glu Glu Ser Ser Glu Ala Leu Lys Asn Ala Ile Ser Lys

1475 1480 1485

Gly Glu Glu Ala Leu Leu Ser Lys Asp Lys Glu Thr Ile Asn Ser

1490 1495 1500

Ala Leu Glu Glu Leu Asn Lys Glu Met Asn Ser Leu Val Lys Val

1505 1510 1515

Asp Leu Asn Ala Val Ile Asn Ile Pro Asp Lys Tyr Leu Leu Lys

1520 1525 1530

Ser Ile Gln Asn Gln Leu Asn Lys Thr Gly Asp Ile Thr Leu Gly

1535 1540 1545

Asp Met Tyr Ser Leu Thr Thr Leu Thr Leu Ser Gly Val Glu Asp

1550 1555 1560

Leu Thr Gly Leu Glu Asn Ala Lys Asn Leu Glu Thr Leu Asn Met

1565 1570 1575

Asp Tyr Asn Glu Val Lys Asp Leu Arg Pro Leu Ser Lys Leu Lys

1580 1585 1590

Lys Leu Asn Thr Leu Asn Ala Gln Glu Gln Phe Ile Ala Ala Gly

1595 1600 1605

Glu Leu Lys Pro Ser Asn Gly Lys Val Ile Gly Asp Ser Lys Val

1610 1615 1620

Tyr Asn Arg Glu Gly Lys Asn Val Ala Lys Thr Ile Arg Val Val

1625 1630 1635

Asp Lys Asn Gly Asn Thr Ile Leu Glu Gln Asp Ala Lys Asp Glu

1640 1645 1650

Phe Thr Ile Asn Thr Lys Asp Leu Ser Ser Gly Leu Tyr Gly Val

1655 1660 1665

His Val Leu Phe Glu Asp Glu Gly Phe Ser Gly Val Met Phe Tyr

1670 1675 1680

Leu Phe Asn Val

1685

<210> 35

<211> 882

<212> PRT

<213> Artificial Sequence

<220>

<223> Polypeptide capable of binding to O-glycans but lack or has

reduced O-glycoprotein-specific endoprotease activity -

Pseudomonas aeruginosa PAO1 (double mutant with removed signal

sequence)

<400> 35

Ala Thr Gln Glu Glu Ile Leu Asp Ala Ala Leu Val Ser Gly Asp Ser

1 5 10 15

Ser Gln Leu Thr Asp Ser His Leu Val Ala Leu Arg Leu Gln Gln Gln

20 25 30

Val Glu Arg Ile Arg Gln Thr Arg Thr Gln Leu Leu Asp Gly Leu Tyr

35 40 45

Gln Asn Leu Ser Gln Ala Tyr Asp Pro Gly Ala Ala Ser Met Trp Val

50 55 60

Leu Pro Ala Asn Pro Asp Asn Thr Leu Pro Phe Leu Ile Gly Asp Lys

65 70 75 80

Gly Arg Val Leu Ala Ser Leu Ser Leu Glu Ala Gly Gly Arg Gly Leu

85 90 95

Ala Tyr Gly Thr Asn Val Leu Thr Gln Leu Ser Gly Thr Asn Ala Ala

100 105 110

His Ala Pro Leu Leu Lys Arg Ala Val Gln Trp Leu Val Asn Gly Asp

115 120 125

Pro Gly Ala Ala Thr Ala Lys Asp Phe Lys Val Ser Val Val Gly Val

130 135 140

Asp Lys Thr Ala Ala Leu Asn Gly Leu Lys Ser Ala Gly Leu Gln Pro

145 150 155 160

Ala Asp Ala Ala Cys Asn Ala Leu Thr Asp Ala Ser Cys Ala Ser Thr

165 170 175

Ser Lys Leu Leu Val Leu Gly Asn Gly Ala Ser Ala Ala Ser Leu Ser

180 185 190

Ala Thr Val Arg Ala Arg Leu Gln Ala Gly Leu Pro Ile Leu Phe Val

195 200 205

His Thr Asn Gly Trp Asn Gln Ser Ser Thr Gly Gln Gln Ile Leu Ala

210 215 220

Gly Leu Gly Leu Gln Glu Gly Pro Tyr Gly Gly Asn Tyr Trp Asp Lys

225 230 235 240

Asp Arg Val Pro Ser Ser Arg Thr Arg Thr Arg Ser Val Glu Leu Gly

245 250 255

Gly Ala Tyr Gly Gln Asp Pro Ala Leu Val Gln Gln Ile Val Asp Gly

260 265 270

Ser Trp Arg Thr Asp Tyr Asp Trp Ser Lys Cys Thr Ser Tyr Val Gly

275 280 285

Arg Thr Thr Cys Asp Asp Val Pro Gly Leu Ser Asp Phe Ser Lys Arg

290 295 300

Val Asp Val Leu Lys Gly Ala Leu Asp Ala Tyr Asn Gln Lys Ala Gln

305 310 315 320

Asn Leu Phe Ala Leu Pro Gly Thr Thr Ser Leu Arg Leu Trp Leu Leu

325 330 335

Trp Ala Asp Ala Val Arg Gln Asn Ile Arg Tyr Pro Met Asp Lys Ala

340 345 350

Ala Asp Thr Ala Arg Phe Gln Glu Thr Phe Val Ala Asp Ala Ile Val

355 360 365

Gly Tyr Val Arg Glu Ala Gly Ala Ala Gln Lys Glu Leu Gly Ser Tyr

370 375 380

Ala Gly Gln Arg Gln Gln Ser Met Pro Val Ser Gly Ser Glu Glu Thr

385 390 395 400

Leu Thr Leu Thr Leu Pro Ser Ala Gln Gly Phe Thr Ala Ile Gly Arg

405 410 415

Met Ala Ala Pro Gly Lys Arg Leu Ser Ile Arg Ile Glu Asp Ala Gly

420 425 430

Gln Ala Ser Leu Ala Val Gly Leu Asn Thr Gln Arg Ile Gly Ser Thr

435 440 445

Arg Leu Trp Asn Thr Arg Gln Tyr Asp Arg Pro Arg Phe Leu Lys Ser

450 455 460

Pro Asp Ile Lys Leu Gln Ala Asn Gln Ser Val Ala Leu Val Ser Pro

465 470 475 480

Tyr Gly Gly Leu Leu Gln Leu Val Tyr Ser Gly Ala Thr Pro Gly Gln

485 490 495

Thr Val Thr Val Lys Val Thr Gly Ala Ala Ser Gln Pro Phe Leu Asp

500 505 510

Ile Gln Pro Gly Glu Asp Ser Ser Gln Ala Ile Ala Asp Phe Ile Gln

515 520 525

Ala Leu Asp Ala Asp Lys Ala Asp Trp Leu Glu Ile Arg Ser Gly Ser

530 535 540

Val Glu Val His Ala Lys Val Glu Lys Val Arg Gly Ser Ile Asp Lys

545 550 555 560

Asp Tyr Gly Gly Asp Val Gln Arg Phe Ile Arg Glu Leu Asn Glu Val

565 570 575

Phe Ile Asp Asp Ala Tyr Thr Leu Ala Gly Phe Ala Ile Pro Asn Gln

580 585 590

Ala Lys Thr Pro Ala Ile Gln Gln Glu Cys Ala Ala Arg Gly Trp Asp

595 600 605

Cys Asp Ser Glu Thr Leu His Lys Leu Pro Gly Thr Gln His Ile Asn

610 615 620

Val Asp Gln Tyr Ala Gln Cys Gly Gly Gly Cys Ser Gly Asn Pro Tyr

625 630 635 640

Asp Gln Thr Trp Gly Leu Asn Pro Arg Gly Trp Gly Glu Ser Ala Ala

645 650 655

Leu Gly His Asn Leu Gln Val Asn Arg Leu Lys Val Tyr Gly Gly Arg

660 665 670

Ser Gly Glu Ile Ser Asn Gln Ile Phe Pro Leu His Lys Asp Trp Arg

675 680 685

Val Leu Arg Glu Phe Gly Gln Asn Leu Asp Asp Thr Arg Val Asn Tyr

690 695 700

Arg Asn Ala Tyr Asn Leu Ile Val Ala Gly Arg Ala Glu Ala Asp Pro

705 710 715 720

Leu Ala Gly Val Tyr Lys Arg Leu Trp Glu Asp Pro Gly Thr Tyr Ala

725 730 735

Leu Asn Gly Glu Arg Met Ala Phe Tyr Thr Gln Trp Val His Tyr Trp

740 745 750

Ala Asp Leu Lys Asn Asp Pro Leu Gln Gly Trp Asp Ile Trp Thr Leu

755 760 765

Leu Tyr Leu His Gln Arg Gln Val Asp Lys Ser Asp Trp Asp Ala Asn

770 775 780

Lys Ala Ala Leu Gly Tyr Gly Thr Tyr Ala Gln Arg Pro Gly Asn Ser

785 790 795 800

Gly Asp Ala Ser Ser Thr Asp Gly Asn Asp Asn Leu Leu Leu Gly Leu

805 810 815

Ser Trp Leu Thr Gln Arg Asp Gln Arg Pro Thr Phe Ala Leu Trp Gly

820 825 830

Ile Arg Thr Ser Ala Ala Ala Gln Ala Gln Val Ala Ala Tyr Gly Phe

835 840 845

Ala Glu Gln Pro Ala Phe Phe Tyr Ala Asn Asn Arg Thr Asn Glu Tyr

850 855 860

Ser Thr Val Lys Leu Leu Asp Met Ser Gln Gly Ser Pro Ala Trp Pro

865 870 875 880

Phe Pro

<210> 36

<211> 536

<212> PRT

<213> Artificial Sequence

<220>

<223> Polypeptide capable of binding to O-glycans but lack or has

reduced O-glycoprotein-specific endoprotease activity -

Bacteroides thetaiotaomicron VPI-5482 (double mutant with removed

signal and other immature sequences)

<400> 36

Asp Lys Trp Glu Lys Glu Phe Arg Ile Arg Ser Tyr Glu Pro Tyr Ser

1 5 10 15

Asn Ile Ala Glu Trp Ala Asp Lys Leu Met Thr Lys Lys Tyr Ser Asp

20 25 30

Leu Asp Asn Pro Thr Gly Ile Ser Val Lys Ala Gly Asp Asp Ile Ile

35 40 45

Val Leu Val Gly Asp Thr Tyr Gly Gln Asn Ile Ser Met Gln Cys Ile

50 55 60

Trp Glu Thr Gly Thr Glu Tyr Lys Gln Thr Ala Ser Ser Gly Asp Val

65 70 75 80

Tyr Met Leu Asn Pro Gly Val Asn Lys Leu Thr Met Lys Gly Glu Gly

85 90 95

Gln Leu Phe Val Met Tyr Asn Thr Glu Leu Thr Ser Asn Thr Ala Lys

100 105 110

Pro Ile Lys Ile His Ile Pro Leu Gly Ser Gly Thr Val Asn Gly Phe

115 120 125

Phe Asp Leu Lys Glu His Lys Thr Asp Glu Lys Tyr Ala Glu Leu Leu

130 135 140

Lys Lys Ser Thr His Lys Tyr Phe Cys Ile Arg Gly Glu Lys Ile Met

145 150 155 160

Phe Tyr Phe His Arg Asn Lys Leu Leu Glu Tyr Val Pro Asn Asn Ile

165 170 175

Leu Ser Ala Ile His Leu Trp Asp Asn Ile Val Gly Trp Gln Gln Glu

180 185 190

Leu Met Gly Ile Asp Asp Val Arg Pro Ser Gln Val Asn Asn His Leu

195 200 205

Phe Ala Ile Ser Pro Glu Gly Ser Tyr Met Trp Ala Ser Asp Tyr Gln

210 215 220

Ile Gly Phe Val Tyr Thr Tyr Leu Gly Asn Ile Leu Leu Glu Asp Asn

225 230 235 240

Val Met Ala Ala Glu Asp Asn Ala Trp Gly Pro Ala Ala Ala Ile Gly

245 250 255

His Val His Gln Ala Ala Ile Asn Trp Ala Ser Ser Thr Glu Ser Ser

260 265 270

Asn Asn Leu Phe Ser Asn Phe Ile Ile Tyr Lys Leu Gly Lys Tyr Lys

275 280 285

Ser Arg Gly Asn Gly Leu Gly Ser Val Ala Thr Ala Arg Tyr Ala Asn

290 295 300

Gly Gln Ala Trp Tyr Asn Met Gly Asp Ala Thr His Gln Asn Glu Asp

305 310 315 320

Thr Glu Thr His Met Arg Met Asn Trp Gln Leu Trp Ile Tyr Tyr His

325 330 335

Arg Cys Glu Tyr Lys Thr Asp Phe Trp Gln Thr Leu Phe Lys Leu Met

340 345 350

Arg Glu Val Asn Met Thr Glu Gly Glu Asp Pro Gly Lys Lys Gln Leu

355 360 365

Glu Phe Ala Lys Met Ala Ser Lys Ala Ala Asn Gln Asn Leu Thr Asp

370 375 380

Phe Phe Glu Met Trp Gly Phe Phe Glu Pro Val Asn Thr Thr Ile Glu

385 390 395 400

Gln Tyr Gly Thr Tyr Lys Tyr Tyr Val Ser Asp Ala Met Ile Arg Glu

405 410 415

Ala Lys Glu Tyr Met Ala Gln Phe Pro Ala Pro Lys His Ala Phe Gln

420 425 430

Tyr Ile Glu Asp Arg Lys Lys Ser Glu Phe Pro Ser Asn Asp Tyr Arg

435 440 445

Tyr Ser Ala Val Gly Asp Val Gly Tyr Tyr Thr Gln Phe Lys Glu Asn

450 455 460

Gln Lys Ile Thr Lys Ala Ile Thr Ala Glu Leu Ala Gly Arg Lys Val

465 470 475 480

Ser Ile Gln Asn Gly Asp Glu Ala Val Ala Phe Glu Leu Arg Glu Asn

485 490 495

Asp Glu Asn Gly Lys Leu Leu Tyr Phe Ser Thr Phe Thr Thr Phe Glu

500 505 510

Ile Pro Ser Ser Ile Leu Met Val Asn Ala Lys Leu Tyr Ala Val Gln

515 520 525

Ala Asp Gly Lys Arg Ile Leu Leu

530 535

<210> 37

<211> 507

<212> PRT

<213> Artificial Sequence

<220>

<223> Polypeptide capable of binding to O-glycans but lack or has

reduced O-glycoprotein-specific endoprotease activity -

Clostridium perfringens (double mutant with removed signal and

other immature sequences)

<400> 37

Val Leu Glu Leu Glu Met Arg Gly Asp Ser Ile Ser Glu Ala Lys Lys

1 5 10 15

Arg Lys Val Trp Asn Phe Gln Asp Trp Gln Ile Thr Gly Leu Ser Ala

20 25 30

Arg Ala Gly Asp Lys Ile Thr Val Tyr Val Asp Val Ala Glu Gly Asp

35 40 45

Pro Thr Pro Thr Leu Leu Tyr Lys Gln Ser Leu Thr Gln His Gly Gly

50 55 60

Ala Thr Ser Phe Gln Leu Lys Pro Gly Lys Asn Glu Ile Thr Ile Pro

65 70 75 80

Glu Ile Asn Tyr Glu Ser Asn Gly Ile Pro Lys Asp Val Ile Gln Gly

85 90 95

Gly Asp Leu Phe Phe Thr Asn Tyr Lys Ser Asp Ser Gln Lys Arg Ala

100 105 110

Pro Lys Val Arg Ile Glu Gly Ala Ser Lys Tyr Pro Val Phe Ile Leu

115 120 125

Gly Lys Ser Asp Glu Asn Glu Val Met Lys Glu Leu Glu Ala Tyr Val

130 135 140

Glu Lys Ile Lys Ala Glu Pro Lys Thr Thr Pro Asn Ile Phe Ala Val

145 150 155 160

Ser Ser Asn Lys Ser Leu Glu Phe Val Gln Ala Thr Tyr Ala Leu Asp

165 170 175

Trp Tyr Lys Lys Asn Asn Lys Thr Pro Lys Tyr Thr Ala Glu Gln Trp

180 185 190

Asp Gln Tyr Ile Ala Asp Ala Met Gly Phe Trp Gly Phe Asp Asn Ser

195 200 205

Lys Asp Val Asn Ser Asp Phe Asn Phe Arg Ile Met Pro Met Val Lys

210 215 220

Asn Leu Ser Gly Gly Ala Phe Met Asn Ala Gly Asn Gly Val Ile Gly

225 230 235 240

Ile Arg Pro Gly Asn Gln Asp Ala Ile Leu Ala Ala Asn Lys Gly Trp

245 250 255

Gly Val Ala Ala Ala Leu Gly His Asn Phe Asp Thr Gly Gly Arg Thr

260 265 270

Ile Val Glu Val Thr Asn Asn Met Met Pro Leu Phe Phe Glu Ser Lys

275 280 285

Tyr Lys Thr Lys Thr Arg Ile Thr Asp Gln Asn Ile Trp Glu Asn Asn

290 295 300

Thr Tyr Pro Lys Val Gly Leu Asp Asp Tyr Ser Asn Asn Glu Leu Tyr

305 310 315 320

Asn Lys Ala Asp Ser Thr His Leu Ala Gln Leu Ala Pro Leu Trp Gln

325 330 335

Leu Tyr Leu Tyr Asp Asn Thr Phe Tyr Gly Lys Phe Glu Arg Gln Phe

340 345 350

Arg Glu Arg Asp Phe Gly Asn Lys Asn Arg Glu Asp Ile Tyr Lys Ser

355 360 365

Trp Val Val Ala Ala Ser Asp Ala Met Glu Leu Asp Leu Thr Glu Phe

370 375 380

Phe Ala Arg His Gly Ile Arg Val Asp Asp Lys Val Lys Glu Asp Leu

385 390 395 400

Ala Lys Tyr Pro Lys Pro Asp Lys Lys Ile Tyr Tyr Leu Asn Asp Leu

405 410 415

Ala Met Asn Tyr Lys Gly Asp Gly Phe Thr Glu Asn Ala Lys Val Ser

420 425 430

Val Ser Thr Ser Gly Ser Asn Gly Asn Ile Lys Leu Ser Phe Ser Val

435 440 445

Asp Asp Glu Asn Lys Asp Asn Ile Leu Gly Tyr Glu Ile Arg Arg Asp

450 455 460

Gly Lys Tyr Val Gly Phe Thr Ser Asn Asp Ser Phe Val Asp Thr Lys

465 470 475 480

Ser Asn Leu Asp Glu Asp Gly Val Tyr Val Val Thr Pro Tyr Asp Arg

485 490 495

Lys Leu Asn Thr Leu Asn Pro Ile Glu Val Asn

500 505

<210> 38

<211> 892

<212> PRT

<213> Artificial Sequence

<220>

<223> Polypeptide capable of binding to O-glycans but lack or has

reduced O-glycoprotein-specific endoprotease activity -

Pseudomonas aeruginosa PAO1 (double mutant with removed signal

sequence, with N-term Met, C-term linker/tag)

<400> 38

Met Ala Thr Gln Glu Glu Ile Leu Asp Ala Ala Leu Val Ser Gly Asp

1 5 10 15

Ser Ser Gln Leu Thr Asp Ser His Leu Val Ala Leu Arg Leu Gln Gln

20 25 30

Gln Val Glu Arg Ile Arg Gln Thr Arg Thr Gln Leu Leu Asp Gly Leu

35 40 45

Tyr Gln Asn Leu Ser Gln Ala Tyr Asp Pro Gly Ala Ala Ser Met Trp

50 55 60

Val Leu Pro Ala Asn Pro Asp Asn Thr Leu Pro Phe Leu Ile Gly Asp

65 70 75 80

Lys Gly Arg Val Leu Ala Ser Leu Ser Leu Glu Ala Gly Gly Arg Gly

85 90 95

Leu Ala Tyr Gly Thr Asn Val Leu Thr Gln Leu Ser Gly Thr Asn Ala

100 105 110

Ala His Ala Pro Leu Leu Lys Arg Ala Val Gln Trp Leu Val Asn Gly

115 120 125

Asp Pro Gly Ala Ala Thr Ala Lys Asp Phe Lys Val Ser Val Val Gly

130 135 140

Val Asp Lys Thr Ala Ala Leu Asn Gly Leu Lys Ser Ala Gly Leu Gln

145 150 155 160

Pro Ala Asp Ala Ala Cys Asn Ala Leu Thr Asp Ala Ser Cys Ala Ser

165 170 175

Thr Ser Lys Leu Leu Val Leu Gly Asn Gly Ala Ser Ala Ala Ser Leu

180 185 190

Ser Ala Thr Val Arg Ala Arg Leu Gln Ala Gly Leu Pro Ile Leu Phe

195 200 205

Val His Thr Asn Gly Trp Asn Gln Ser Ser Thr Gly Gln Gln Ile Leu

210 215 220

Ala Gly Leu Gly Leu Gln Glu Gly Pro Tyr Gly Gly Asn Tyr Trp Asp

225 230 235 240

Lys Asp Arg Val Pro Ser Ser Arg Thr Arg Thr Arg Ser Val Glu Leu

245 250 255

Gly Gly Ala Tyr Gly Gln Asp Pro Ala Leu Val Gln Gln Ile Val Asp

260 265 270

Gly Ser Trp Arg Thr Asp Tyr Asp Trp Ser Lys Cys Thr Ser Tyr Val

275 280 285

Gly Arg Thr Thr Cys Asp Asp Val Pro Gly Leu Ser Asp Phe Ser Lys

290 295 300

Arg Val Asp Val Leu Lys Gly Ala Leu Asp Ala Tyr Asn Gln Lys Ala

305 310 315 320

Gln Asn Leu Phe Ala Leu Pro Gly Thr Thr Ser Leu Arg Leu Trp Leu

325 330 335

Leu Trp Ala Asp Ala Val Arg Gln Asn Ile Arg Tyr Pro Met Asp Lys

340 345 350

Ala Ala Asp Thr Ala Arg Phe Gln Glu Thr Phe Val Ala Asp Ala Ile

355 360 365

Val Gly Tyr Val Arg Glu Ala Gly Ala Ala Gln Lys Glu Leu Gly Ser

370 375 380

Tyr Ala Gly Gln Arg Gln Gln Ser Met Pro Val Ser Gly Ser Glu Glu

385 390 395 400

Thr Leu Thr Leu Thr Leu Pro Ser Ala Gln Gly Phe Thr Ala Ile Gly

405 410 415

Arg Met Ala Ala Pro Gly Lys Arg Leu Ser Ile Arg Ile Glu Asp Ala

420 425 430

Gly Gln Ala Ser Leu Ala Val Gly Leu Asn Thr Gln Arg Ile Gly Ser

435 440 445

Thr Arg Leu Trp Asn Thr Arg Gln Tyr Asp Arg Pro Arg Phe Leu Lys

450 455 460

Ser Pro Asp Ile Lys Leu Gln Ala Asn Gln Ser Val Ala Leu Val Ser

465 470 475 480

Pro Tyr Gly Gly Leu Leu Gln Leu Val Tyr Ser Gly Ala Thr Pro Gly

485 490 495

Gln Thr Val Thr Val Lys Val Thr Gly Ala Ala Ser Gln Pro Phe Leu

500 505 510

Asp Ile Gln Pro Gly Glu Asp Ser Ser Gln Ala Ile Ala Asp Phe Ile

515 520 525

Gln Ala Leu Asp Ala Asp Lys Ala Asp Trp Leu Glu Ile Arg Ser Gly

530 535 540

Ser Val Glu Val His Ala Lys Val Glu Lys Val Arg Gly Ser Ile Asp

545 550 555 560

Lys Asp Tyr Gly Gly Asp Val Gln Arg Phe Ile Arg Glu Leu Asn Glu

565 570 575

Val Phe Ile Asp Asp Ala Tyr Thr Leu Ala Gly Phe Ala Ile Pro Asn

580 585 590

Gln Ala Lys Thr Pro Ala Ile Gln Gln Glu Cys Ala Ala Arg Gly Trp

595 600 605

Asp Cys Asp Ser Glu Thr Leu His Lys Leu Pro Gly Thr Gln His Ile

610 615 620

Asn Val Asp Gln Tyr Ala Gln Cys Gly Gly Gly Cys Ser Gly Asn Pro

625 630 635 640

Tyr Asp Gln Thr Trp Gly Leu Asn Pro Arg Gly Trp Gly Glu Ser Ala

645 650 655

Ala Leu Gly His Asn Leu Gln Val Asn Arg Leu Lys Val Tyr Gly Gly

660 665 670

Arg Ser Gly Glu Ile Ser Asn Gln Ile Phe Pro Leu His Lys Asp Trp

675 680 685

Arg Val Leu Arg Glu Phe Gly Gln Asn Leu Asp Asp Thr Arg Val Asn

690 695 700

Tyr Arg Asn Ala Tyr Asn Leu Ile Val Ala Gly Arg Ala Glu Ala Asp

705 710 715 720

Pro Leu Ala Gly Val Tyr Lys Arg Leu Trp Glu Asp Pro Gly Thr Tyr

725 730 735

Ala Leu Asn Gly Glu Arg Met Ala Phe Tyr Thr Gln Trp Val His Tyr

740 745 750

Trp Ala Asp Leu Lys Asn Asp Pro Leu Gln Gly Trp Asp Ile Trp Thr

755 760 765

Leu Leu Tyr Leu His Gln Arg Gln Val Asp Lys Ser Asp Trp Asp Ala

770 775 780

Asn Lys Ala Ala Leu Gly Tyr Gly Thr Tyr Ala Gln Arg Pro Gly Asn

785 790 795 800

Ser Gly Asp Ala Ser Ser Thr Asp Gly Asn Asp Asn Leu Leu Leu Gly

805 810 815

Leu Ser Trp Leu Thr Gln Arg Asp Gln Arg Pro Thr Phe Ala Leu Trp

820 825 830

Gly Ile Arg Thr Ser Ala Ala Ala Gln Ala Gln Val Ala Ala Tyr Gly

835 840 845

Phe Ala Glu Gln Pro Ala Phe Phe Tyr Ala Asn Asn Arg Thr Asn Glu

850 855 860

Tyr Ser Thr Val Lys Leu Leu Asp Met Ser Gln Gly Ser Pro Ala Trp

865 870 875 880

Pro Phe Pro Gly Ser Gly His His His His His His

885 890

<210> 39

<211> 546

<212> PRT

<213> Artificial Sequence

<220>

<223> Polypeptide capable of binding to O-glycans but lack or has

reduced O-glycoprotein-specific endoprotease activity -

Bacteroides thetaiotaomicron VPI-5482 (double mutant with removed

signal and other sequences from immature protein, with N-term

<400> 39

Met Asp Lys Trp Glu Lys Glu Phe Arg Ile Arg Ser Tyr Glu Pro Tyr

1 5 10 15

Ser Asn Ile Ala Glu Trp Ala Asp Lys Leu Met Thr Lys Lys Tyr Ser

20 25 30

Asp Leu Asp Asn Pro Thr Gly Ile Ser Val Lys Ala Gly Asp Asp Ile

35 40 45

Ile Val Leu Val Gly Asp Thr Tyr Gly Gln Asn Ile Ser Met Gln Cys

50 55 60

Ile Trp Glu Thr Gly Thr Glu Tyr Lys Gln Thr Ala Ser Ser Gly Asp

65 70 75 80

Val Tyr Met Leu Asn Pro Gly Val Asn Lys Leu Thr Met Lys Gly Glu

85 90 95

Gly Gln Leu Phe Val Met Tyr Asn Thr Glu Leu Thr Ser Asn Thr Ala

100 105 110

Lys Pro Ile Lys Ile His Ile Pro Leu Gly Ser Gly Thr Val Asn Gly

115 120 125

Phe Phe Asp Leu Lys Glu His Lys Thr Asp Glu Lys Tyr Ala Glu Leu

130 135 140

Leu Lys Lys Ser Thr His Lys Tyr Phe Cys Ile Arg Gly Glu Lys Ile

145 150 155 160

Met Phe Tyr Phe His Arg Asn Lys Leu Leu Glu Tyr Val Pro Asn Asn

165 170 175

Ile Leu Ser Ala Ile His Leu Trp Asp Asn Ile Val Gly Trp Gln Gln

180 185 190

Glu Leu Met Gly Ile Asp Asp Val Arg Pro Ser Gln Val Asn Asn His

195 200 205

Leu Phe Ala Ile Ser Pro Glu Gly Ser Tyr Met Trp Ala Ser Asp Tyr

210 215 220

Gln Ile Gly Phe Val Tyr Thr Tyr Leu Gly Asn Ile Leu Leu Glu Asp

225 230 235 240

Asn Val Met Ala Ala Glu Asp Asn Ala Trp Gly Pro Ala Ala Ala Ile

245 250 255

Gly His Val His Gln Ala Ala Ile Asn Trp Ala Ser Ser Thr Glu Ser

260 265 270

Ser Asn Asn Leu Phe Ser Asn Phe Ile Ile Tyr Lys Leu Gly Lys Tyr

275 280 285

Lys Ser Arg Gly Asn Gly Leu Gly Ser Val Ala Thr Ala Arg Tyr Ala

290 295 300

Asn Gly Gln Ala Trp Tyr Asn Met Gly Asp Ala Thr His Gln Asn Glu

305 310 315 320

Asp Thr Glu Thr His Met Arg Met Asn Trp Gln Leu Trp Ile Tyr Tyr

325 330 335

His Arg Cys Glu Tyr Lys Thr Asp Phe Trp Gln Thr Leu Phe Lys Leu

340 345 350

Met Arg Glu Val Asn Met Thr Glu Gly Glu Asp Pro Gly Lys Lys Gln

355 360 365

Leu Glu Phe Ala Lys Met Ala Ser Lys Ala Ala Asn Gln Asn Leu Thr

370 375 380

Asp Phe Phe Glu Met Trp Gly Phe Phe Glu Pro Val Asn Thr Thr Ile

385 390 395 400

Glu Gln Tyr Gly Thr Tyr Lys Tyr Tyr Val Ser Asp Ala Met Ile Arg

405 410 415

Glu Ala Lys Glu Tyr Met Ala Gln Phe Pro Ala Pro Lys His Ala Phe

420 425 430

Gln Tyr Ile Glu Asp Arg Lys Lys Ser Glu Phe Pro Ser Asn Asp Tyr

435 440 445

Arg Tyr Ser Ala Val Gly Asp Val Gly Tyr Tyr Thr Gln Phe Lys Glu

450 455 460

Asn Gln Lys Ile Thr Lys Ala Ile Thr Ala Glu Leu Ala Gly Arg Lys

465 470 475 480

Val Ser Ile Gln Asn Gly Asp Glu Ala Val Ala Phe Glu Leu Arg Glu

485 490 495

Asn Asp Glu Asn Gly Lys Leu Leu Tyr Phe Ser Thr Phe Thr Thr Phe

500 505 510

Glu Ile Pro Ser Ser Ile Leu Met Val Asn Ala Lys Leu Tyr Ala Val

515 520 525

Gln Ala Asp Gly Lys Arg Ile Leu Leu Gly Ser Gly His His His His

530 535 540

His His

545

<210> 40

<211> 517

<212> PRT

<213> Artificial Sequence

<220>

<223> Polypeptide capable of binding to O-glycans but lack or has

reduced O-glycoprotein-specific endoprotease activity -

Clostridium perfringens (double mutant with removed signal and

other sequences from immature protein, with N-term Met, C-term

<400> 40

Met Val Leu Glu Leu Glu Met Arg Gly Asp Ser Ile Ser Glu Ala Lys

1 5 10 15

Lys Arg Lys Val Trp Asn Phe Gln Asp Trp Gln Ile Thr Gly Leu Ser

20 25 30

Ala Arg Ala Gly Asp Lys Ile Thr Val Tyr Val Asp Val Ala Glu Gly

35 40 45

Asp Pro Thr Pro Thr Leu Leu Tyr Lys Gln Ser Leu Thr Gln His Gly

50 55 60

Gly Ala Thr Ser Phe Gln Leu Lys Pro Gly Lys Asn Glu Ile Thr Ile

65 70 75 80

Pro Glu Ile Asn Tyr Glu Ser Asn Gly Ile Pro Lys Asp Val Ile Gln

85 90 95

Gly Gly Asp Leu Phe Phe Thr Asn Tyr Lys Ser Asp Ser Gln Lys Arg

100 105 110

Ala Pro Lys Val Arg Ile Glu Gly Ala Ser Lys Tyr Pro Val Phe Ile

115 120 125

Leu Gly Lys Ser Asp Glu Asn Glu Val Met Lys Glu Leu Glu Ala Tyr

130 135 140

Val Glu Lys Ile Lys Ala Glu Pro Lys Thr Thr Pro Asn Ile Phe Ala

145 150 155 160

Val Ser Ser Asn Lys Ser Leu Glu Phe Val Gln Ala Thr Tyr Ala Leu

165 170 175

Asp Trp Tyr Lys Lys Asn Asn Lys Thr Pro Lys Tyr Thr Ala Glu Gln

180 185 190

Trp Asp Gln Tyr Ile Ala Asp Ala Met Gly Phe Trp Gly Phe Asp Asn

195 200 205

Ser Lys Asp Val Asn Ser Asp Phe Asn Phe Arg Ile Met Pro Met Val

210 215 220

Lys Asn Leu Ser Gly Gly Ala Phe Met Asn Ala Gly Asn Gly Val Ile

225 230 235 240

Gly Ile Arg Pro Gly Asn Gln Asp Ala Ile Leu Ala Ala Asn Lys Gly

245 250 255

Trp Gly Val Ala Ala Ala Leu Gly His Asn Phe Asp Thr Gly Gly Arg

260 265 270

Thr Ile Val Glu Val Thr Asn Asn Met Met Pro Leu Phe Phe Glu Ser

275 280 285

Lys Tyr Lys Thr Lys Thr Arg Ile Thr Asp Gln Asn Ile Trp Glu Asn

290 295 300

Asn Thr Tyr Pro Lys Val Gly Leu Asp Asp Tyr Ser Asn Asn Glu Leu

305 310 315 320

Tyr Asn Lys Ala Asp Ser Thr His Leu Ala Gln Leu Ala Pro Leu Trp

325 330 335

Gln Leu Tyr Leu Tyr Asp Asn Thr Phe Tyr Gly Lys Phe Glu Arg Gln

340 345 350

Phe Arg Glu Arg Asp Phe Gly Asn Lys Asn Arg Glu Asp Ile Tyr Lys

355 360 365

Ser Trp Val Val Ala Ala Ser Asp Ala Met Glu Leu Asp Leu Thr Glu

370 375 380

Phe Phe Ala Arg His Gly Ile Arg Val Asp Asp Lys Val Lys Glu Asp

385 390 395 400

Leu Ala Lys Tyr Pro Lys Pro Asp Lys Lys Ile Tyr Tyr Leu Asn Asp

405 410 415

Leu Ala Met Asn Tyr Lys Gly Asp Gly Phe Thr Glu Asn Ala Lys Val

420 425 430

Ser Val Ser Thr Ser Gly Ser Asn Gly Asn Ile Lys Leu Ser Phe Ser

435 440 445

Val Asp Asp Glu Asn Lys Asp Asn Ile Leu Gly Tyr Glu Ile Arg Arg

450 455 460

Asp Gly Lys Tyr Val Gly Phe Thr Ser Asn Asp Ser Phe Val Asp Thr

465 470 475 480

Lys Ser Asn Leu Asp Glu Asp Gly Val Tyr Val Val Thr Pro Tyr Asp

485 490 495

Arg Lys Leu Asn Thr Leu Asn Pro Ile Glu Val Asn Gly Ser Gly His

500 505 510

His His His His His

515

<210> 41

<211> 5

<212> PRT

<213> Artificial Sequence

<220>

<223> Metalloprotease motif

<400> 41

His Glu Leu Gly His

1 5

<210> 42

<211> 5

<212> PRT

<213> Artificial Sequence

<220>

<223> Metalloprotease motif

<400> 42

His Glu Ile Gly His

1 5

<210> 43

<211> 10

<212> PRT

<213> Artificial Sequence

<220>

<223> Metalloprotease motif

<400> 43

Gly Val Ala His Glu Leu Gly His Asn Phe

1 5 10

<210> 44

<211> 5

<212> PRT

<213> Artificial Sequence

<220>

<223> disrupted metalloprotease motif

<400> 44

His Ala Leu Gly His

1 5

<210> 45

<211> 5

<212> PRT

<213> Artificial Sequence

<220>

<223> disrupted metalloprotease motif

<400> 45

Ala Glu Leu Gly His

1 5

<210> 46

<211> 5

<212> PRT

<213> Artificial Sequence

<220>

<223> disrupted metalloprotease motif

<400> 46

Ala Ala Leu Gly His

1 5

<210> 47

<211> 19

<212> PRT

<213> Artificial Sequence

<220>

<223> glycodrosocin peptide with O-gly site on the T

<400> 47

Gly Lys Pro Arg Pro Tyr Ser Pro Arg Pro Thr Ser His Pro Arg Pro

1 5 10 15

Ile Arg Val

<210> 48

<211> 7

<212> PRT

<213> Artificial Sequence

<220>

<223> Non-O-glycosylated peptide

<400> 48

Tyr Ile Tyr Gly Ser Phe Lys

1 5

<210> 49

<211> 7

<212> PRT

<213> Artificial Sequence

<220>

<223> Non-O-glycosylated peptide

<400> 49

Lys Lys Leu Val Phe Phe Ala

1 5

<210> 50

<211> 14

<212> PRT

<213> Artificial Sequence

<220>

<223> Non-O-glycosylated peptide

<400> 50

Phe Leu Pro Leu Ile Leu Gly Lys Leu Val Lys Gly Leu Leu

1 5 10

Claims

1.一种包含具有O-糖基化蛋白特异性内切蛋白酶活性的多肽和唾液酸酶Am1757或Am1757和Am0707的混合物的组合物、组合或试剂盒，其中所述多肽由以下组成：

（a）SEQ ID NO: 1、SEQ ID NO: 2或SEQ ID NO: 4的氨基酸序列，并且

其中Am1757为SEQ ID NO: 9至11中任何一个的多肽，并且其中Am0707是SEQ ID NOs:12至14中任何一个的多肽。

2.根据前述权利要求中任一项所述的组合物、组合或试剂盒，其特征在于，

（a）所述多肽在N末端包含另外的甲硫氨酸和/或在C末端包含His标签，

（b）所述多肽以溶液、冻干或固定的形式提供；和/或

（c）所述Am1757是由SEQ ID NO: 11组成的多肽和/或其中Am0707是由SEQ ID NO: 14组成的多肽。

3.一种水解O-糖蛋白的方法，其中，所述方法包括使包含O-糖蛋白的样品与根据权利要求1或2所述的组合物或组合接触。

4.一种用于评估蛋白质的糖基化状态的方法，所述方法包括使包含所述蛋白质的样品与根据权利要求1或2所述的组合物或组合接触，以及检测和/或分析所产生的产物。

5.根据权利要求3所述的方法，其特征在于，所述方法还包括对水解产物的检测或分析，并且其中所述分析或检测通过亲和色谱、SDS-PAGE、HPLC或质谱来实施。

6.根据权利要求4所述的方法，其特征在于，

(a) 所述分析和/或检测通过亲和色谱、SDS-PAGE、HPLC或质谱来实施；

(b) 利用存在或不存在切割产物来确定所述样品中存在或不存在O-糖蛋白；

(c) 进行所述分析以鉴定O-糖链的类型；和/或

(d) 进行所述分析以鉴定O-糖链与O-糖蛋白的连接位置。

7.一种包含多肽和唾液酸酶Am1757或Am1757和Am0707的混合物的组合物、组合或试剂盒，其中所述多肽能够与O-聚糖或O-糖蛋白结合并且缺乏O-糖基化蛋白特异性内切蛋白酶活性或具有降低的O-糖基化蛋白特异性内切蛋白酶活性，且由

SEQ ID NO: 5、SEQ ID NO: 6、SEQ ID NO: 20或SEQ ID NO: 21的氨基酸序列组成，

并且其中Am1757为SEQ ID NO: 9至11中任何一个的多肽，并且Am0707是SEQ ID NOs:12至14中任何一个的多肽。

8.根据权利要求7所述的组合物、组合或试剂盒，其特征在于，

所述多肽以溶液、冻干或固定的形式提供。

9.一种与O-聚糖、O-糖肽和/或O-糖蛋白结合的方法，其中所述方法包括使包含所述O-聚糖、O-糖肽和/或O-糖蛋白的样品与根据权利要求7或8所述的组合物或组合接触。

10. 根据权利要求9所述的方法，其特征在于，所述方法包括步骤：

（a）确定是否已结合O-聚糖、O-糖肽或O-糖蛋白；和/或

（b）从所得混合物中分离出O-聚糖和任何连接的糖蛋白、O-糖肽或O-糖蛋白；

其中所述方法用于从样品中分离出O-聚糖或连接的糖蛋白、O-糖肽或O-糖蛋白的目的。

11.根据权利要求10所述的方法，其特征在于，所述确定和/或分离通过亲和色谱、SDS-PAGE、HPLC、凝集素印迹、ELISA或质谱来实施。

12.根据权利要求10所述的方法，其特征在于，所述方法另外包括以下步骤：用缓冲液从权利要求7或8所述的组合物或组合中的所述多肽洗脱结合的物质，所述缓冲液包括：

（a）高摩尔浓度的尿素；

（b）高浓度洗涤剂；或

（c）具有O-糖基化蛋白特异性内切蛋白酶活性的多肽，其中所述多肽由以下组成：

(i) SEQ ID NO: 1、SEQ ID NO: 2或SEQ ID NO: 4的氨基酸序列。

13.一种用于评估蛋白质的糖基化状态的方法，其特征在于，所述方法包括使包含所述蛋白质的样品与根据权利要7或8所述的组合物或组合接触，以及确定所述蛋白质是否与所述组合物或组合中的所述多肽结合。

14.一种用于检测样品中O-糖肽和/或O-糖蛋白的方法，其特征在于，所述方法包括：

使所述样品与根据权利要求7或8所述的组合物或组合接触，从而使得O-糖肽和/或O-糖蛋白与所述组合物或组合中的所述多肽之间能够形成复合物。

15. 根据权利要求14所述的方法，其特征在于，所述方法还包括步骤：

（a）从接触的样品中分离出所述多肽；和

（b）确定分离的多肽是否与O-连接的糖肽或糖蛋白结合，从而确定样品中存在或者不存在O-连接的糖肽或糖蛋白。

16.根据权利要求13至15中任一项所述的方法，其特征在于，所述确定和/或分离通过亲和色谱、SDS-PAGE、HPLC、凝集素印迹、ELISA或质谱来实施。

17.根据权利要求13至15中任一项所述的方法，其特征在于，所述方法另外包括以下步骤：用缓冲液从权利要求7或8所述的组合物或组合中的所述多肽洗脱结合的物质，所述缓冲液包括：

（a）高摩尔浓度的尿素；

（b）高浓度洗涤剂；或

(i) SEQ ID NO: 1、SEQ ID NO: 2或SEQ ID NO: 4的氨基酸序列。