CN116457368A

CN116457368A - 用于鉴定纳米抗体和纳米抗体亲和力的组合物和方法

Info

Publication number: CN116457368A
Application number: CN202180045907.8A
Authority: CN
Inventors: 时毅; 向宇菲; 桑喆
Original assignee: University of Pittsburgh
Current assignee: University of Pittsburgh
Priority date: 2020-05-01
Filing date: 2021-04-29
Publication date: 2023-07-18
Also published as: EP4143582A4; EP4143582A1; JP2023524719A; CA3177089A1; US20230176070A1; WO2021222546A1

Abstract

本文提供了鉴定一组互补决定区(CDR)3、2和/或1纳米抗体氨基酸序列(CDR3、CDR2和/或CDR1序列)的方法，其中与对照相比，减少数目的所述CDR3、CDR2和/或CDR1序列为假阳性；确定纳米抗体肽序列的抗原亲和力的方法；以及训练深度学习模型的相关方法。

Description

用于鉴定纳米抗体和纳米抗体亲和力的组合物和方法

相关申请的交叉引用

本申请要求2020年5月1日提交的美国临时申请第63/018,559号的权益，所述申请明确以引用方式整体并入本文中。

背景技术

纳米抗体(Nb)是源自骆驼科动物仅重链抗体(HcAb)的V_HH域的天然抗原结合片段。它们的特征是体积小并且结构坚固、溶解性和稳定性优异、易于生物工程和制造、对人体的免疫原性低以及组织渗透速度快。由于这些原因，Nb已成为尖端生物医学、诊断和治疗应用的有前景的药剂(Muyldermans，2013；Beghein，2017；Rasmussen，2011：Jovcevska，I.和Muyldermans，S，2020)。

基于展示的技术已被开发用于发现Nb(Lauwereys，1998；Pardon，2014；McMahon，2018；Egloff，2019)。这些方法通常会产生少量靶标合成Nb，它们以中等亲和力结合特定靶标，并且不直接分析自然循环的抗原特异性HcAb/Nb库。最近，基于质谱的蛋白质组学已成为发现Nb的一种有前途的技术(Fridy，2014)。然而，至少出于以下几个原因，对抗原特异性Nb蛋白质组进行大规模、灵敏和可靠的分析仍然存在重大挑战：(a)循环抗体的多样性和动态范围比任何细胞蛋白质组都高几个数量级。(b)从免疫骆驼科动物获得的Nb序列数据库通常包含数百万个独特的序列，这对准确的数据库搜索提出了挑战(Savitski，2015)。(c)这个庞大的数据库被保守的Nb框架序列过度代表，所述序列几乎没有为鉴定提供特异性。特异性主要由互补决定区(CDR)决定，其中CDR3环可能很长，使得难以进行确信的MS分析。(d)目前的方法受到有效协议和信息学的可用性的限制，所述协议和信息学能够对大型Nb库进行准确定量和分类。

发明内容

本文提供了鉴定一组互补决定区(CDR)3、2和/或1纳米抗体氨基酸序列(CDR3、CDR2和/或CDR1序列)的方法，其中与对照相比，减少数目的CDR3、CDR2和/或CDR1序列为假阳性，所述方法包括：(a)从用抗原免疫的骆驼科动物获得血液样品；(b)使用血液样品获得纳米抗体cDNA文库；(c)鉴定文库中每个cDNA的序列；(d)从用抗原免疫的骆驼科动物的相同或第二血液样品中分离纳米抗体；(e)用胰蛋白酶或糜蛋白酶消化纳米抗体以产生一组消化产物；(f)对消化产物进行质谱分析以获得质谱数据；(g)选择步骤c.中鉴定的与质谱数据相关的序列；(h)鉴定来自步骤g.的序列中的CDR3、CDR2和/或CDR1区的序列；以及(i)从步骤h.的CDR3、CDR2和/或CDR1区序列中选择那些具有等于或大于所需片段化覆盖百分比的序列；其中步骤(i)的所选序列包含假阳性CDR3、CDR2和/或CDR1序列的数目减少的组。在一些实施方案中，步骤(d)包括从血液样品中获得血浆并使用一种或多种亲和分离方法分离纳米抗体。在一些方面，步骤(d)的一种或多种亲和分离方法包括蛋白G琼脂糖亲和色谱法和蛋白A琼脂糖亲和色谱法中的一种或多种。在一些方面，步骤(d)还包括功能选择步骤，所述步骤包括使用抗原特异性亲和色谱法选择抗原特异性纳米抗体并在不同的严格程度下洗脱抗原特异性纳米抗体，从而产生不同的纳米抗体级分，并单独地对每个部分执行步骤(e)至(i)，并基于每个纳米抗体级分中CDR3、CDR2和/或CDR1区序列的相对丰度分别估计每个不同步骤(i)CDR3、CDR2和/或CDR1区序列对抗原的亲和力。

在一些实施方案中，一组互补决定区(CDR)3纳米抗体氨基酸序列(CDR2序列)，其中与对照相比，减少数目的CDR3序列为假阳性，所述方法包括：(a)从用抗原免疫的骆驼科动物获得血液样品；(b)使用血液样品获得纳米抗体cDNA文库；(c)鉴定文库中每个cDNA的序列；(d)从用抗原免疫的骆驼科动物的相同或第二血液样品中分离纳米抗体；(e)用胰蛋白酶或糜蛋白酶消化纳米抗体以产生一组消化产物；(f)对消化产物进行质谱分析以获得质谱数据；(g)选择步骤c.中鉴定的与质谱数据相关的序列；(h)鉴定来自步骤g.的序列中的CDR3区的序列；以及(i)从步骤h.的CDR3区序列中选择那些具有等于或大于所需片段化覆盖百分比的序列；其中步骤(i)的所选序列包含假阳性CDR3序列的数目减少的组。在一些实施方案中，步骤(d)包括从血液样品中获得血浆并使用一种或多种亲和分离方法分离纳米抗体。在一些方面，步骤(d)的一种或多种亲和分离方法包括蛋白G琼脂糖亲和色谱法和蛋白A琼脂糖亲和色谱法中的一种或多种。在一些方面，步骤(d)还包括功能选择步骤，所述步骤包括使用抗原特异性亲和色谱法选择抗原特异性纳米抗体并在不同的严格程度下洗脱抗原特异性纳米抗体，从而产生不同的纳米抗体级分，并单独地对每个部分执行步骤(e)至(i)，并基于每个纳米抗体级分中CDR3区序列的相对丰度估计每个不同步骤(i)CDR3区序列对抗原的亲和力。

在一些实施方案中，一组互补决定区(CDR)2纳米抗体氨基酸序列(CDR2序列)，其中与对照相比，减少数目的CDR2序列为假阳性，所述方法包括：(a)从用抗原免疫的骆驼科动物获得血液样品；(b)使用血液样品获得纳米抗体cDNA文库；(c)鉴定文库中每个cDNA的序列；(d)从用抗原免疫的骆驼科动物的相同或第二血液样品中分离纳米抗体；(e)用胰蛋白酶或糜蛋白酶消化纳米抗体以产生一组消化产物；(f)对消化产物进行质谱分析以获得质谱数据；(g)选择步骤c.中鉴定的与质谱数据相关的序列；(h)鉴定来自步骤g.的序列中的CDR2区的序列；以及(i)从步骤h.的CDR2区序列中选择那些具有等于或大于所需片段化覆盖百分比的序列；其中步骤(i)的所选序列包含假阳性CDR2序列的数目减少的组。在一些实施方案中，步骤(d)包括从血液样品中获得血浆并使用一种或多种亲和分离方法分离纳米抗体。在一些方面，步骤(d)的一种或多种亲和分离方法包括蛋白G琼脂糖亲和色谱法和蛋白A琼脂糖亲和色谱法中的一种或多种。在一些方面，步骤(d)还包括功能选择步骤，所述步骤包括使用抗原特异性亲和色谱法选择抗原特异性纳米抗体并在不同的严格程度下洗脱抗原特异性纳米抗体，从而产生不同的纳米抗体级分，并单独地对每个部分执行步骤(e)至(i)，并基于每个纳米抗体级分中CDR2区序列的相对丰度估计每个不同步骤(i)CDR2区序列对抗原的亲和力。

在一些实施方案中，一组互补决定区(CDR)1纳米抗体氨基酸序列(CDR1序列)，其中与对照相比，减少数目的CDR1序列为假阳性，所述方法包括：(a)从用抗原免疫的骆驼科动物获得血液样品；(b)使用血液样品获得纳米抗体cDNA文库；(c)鉴定文库中每个cDNA的序列；(d)从用抗原免疫的骆驼科动物的相同或第二血液样品中分离纳米抗体；(e)用胰蛋白酶或糜蛋白酶消化纳米抗体以产生一组消化产物；(f)对消化产物进行质谱分析以获得质谱数据；(g)选择步骤c.中鉴定的与质谱数据相关的序列；(h)鉴定来自步骤g.的序列中的CDR1区的序列；以及(i)从步骤h.的CDR1区序列中选择那些具有等于或大于所需片段化覆盖百分比的序列；其中步骤(i)的所选序列包含假阳性CDR1序列的数目减少的组。在一些实施方案中，步骤(d)包括从血液样品中获得血浆并使用一种或多种亲和分离方法分离纳米抗体。在一些方面，步骤(d)的一种或多种亲和分离方法包括蛋白G琼脂糖亲和色谱法和蛋白A琼脂糖亲和色谱法中的一种或多种。在一些方面，步骤(d)还包括功能选择步骤，所述步骤包括使用抗原特异性亲和色谱法选择抗原特异性纳米抗体并在不同的严格程度下洗脱抗原特异性纳米抗体，从而产生不同的纳米抗体级分，并单独地对每个部分执行步骤(e)至(i)，并基于每个纳米抗体级分中CDR1区序列的相对丰度估计每个不同步骤(i)CDR1区序列对抗原的亲和力。

在一些实施方案中，抗原特异性亲和色谱法是与抗原结合的树脂。在一些实施方案中，抗原特异性亲和色谱法是与蛋白质标签和抗原偶联的树脂。在一些实施方案中，抗原特异性亲和色谱法是与麦芽糖结合蛋白和抗原偶联的树脂。

一些方面进一步包括产生具有在步骤(i)中鉴定的序列的CDR3、CDR2或CDR1肽。一些方面进一步包括产生包含具有步骤(i)中鉴定的序列的CDR3、CDR2和/或CDR1区。

本文还包括包含选自SEQ ID NO：1-2536和SEQ ID NO：2665-2667的氨基酸序列的纳米抗体。

本文进一步提供了一种计算机实现的方法，所述方法包括：(a)接收纳米抗体肽序列；(b)鉴定纳米抗体肽序列的多个互补决定区(CDR)区，所述CDR区包括CDR3、CDR2和/或CDR1区；(c)应用片段化过滤器丢弃纳米抗体肽序列的一个或多个假阳性CDR3、CDR2和/或CDR1区；(d)定量纳米抗体肽序列的一个或多个未丢弃的CDR3、CDR2和/或CDR1区的丰度；以及(e)基于纳米抗体肽序列的一个或多个未丢弃的CDR3、CDR2和/或CDR1区的定量丰度推断抗原亲和力。

在一些实施方案中，计算机实现的方法还包括将纳米抗体肽序列的一个或多个未丢弃的CDR3、CDR2和/或CDR1区分类为具有低抗原亲和力、中等抗原亲和力或高抗原亲和力。

在一些实施方案中，计算机实现的方法还包括将纳米抗体肽序列中分类为具有高抗原亲和力的一个或多个未丢弃的CDR3、CDR2和/或CDR1区组装成纳米抗体蛋白。

在计算机实现的方法的一些方面，片段化过滤器被配置为需要最小计算片段化覆盖百分比。在其它或另外的方面，最小计算片段化覆盖百分比为约30。在一些方面，胰蛋白酶处理的样品的最小计算片段化覆盖百分比为约50，且糜蛋白酶处理的样品的所述百分比为约40。

在一些实施方案中，计算机实现的方法还包括接收多个纳米抗体肽序列；以及将纳米抗体肽序列中的每一者与数据库进行比较，以将纳米抗体肽序列分离为排除亚组和非排除亚组，其中未在数据库中找到排除亚组的纳米抗体肽序列，并且其中仅在非排除亚组的纳米抗体肽序列中鉴定出CDR区。

在计算机实现的方法的一些实施方案中，纳米抗体肽序列的一个或多个未丢弃的CDR3、CDR2和/或CDR1区的丰度基于相对MS1离子信号强度来定量。在一些实施方案中，抗原亲和力是使用基于表位相似性的k-均值聚类推断的。

本文还提供了一种用于训练深度学习模型的方法，所述方法包括：使用上述计算机实现的方法创建数据集；以及使用所述数据集来训练深度学习模型，以对具有低抗原亲和力的纳米抗体肽序列和具有高抗原亲和力的纳米抗体肽序列进行分类，其中所述数据集包括多个纳米抗体肽序列和相应的抗原亲和标记。在一些实施方案中，深度学习模型是卷积神经网络。

本文进一步提供了一种用于确定纳米抗体肽序列的抗原亲和力的方法，所述方法包括：接收纳米抗体肽序列；将纳米抗体肽序列输入至经过训练的深度学习模型中；以及使用经过训练的深度学习模型将纳米抗体肽序列分类为具有低抗原亲和力或高抗原亲和力。在一些实施方案中，深度学习模型是卷积神经网络。在一些实施方案中，根据上述用于训练深度学习模型的方法来训练经过训练的深度学习模型。

附图说明

图1(A-K).NGS Nb数据库的计算机模拟分析揭示了糜蛋白酶在Nb蛋白质组学中的优势。(A)Nb晶体结构(PDB：4QGY)。CDR环经颜色编码。(B)数据库的CDR的序列长度分布。(C)两种蛋白酶对Nb数据库的计算机模拟消化和相应肽质量的累积图。(D)胰蛋白酶和糜蛋白酶消化的CDR3肽的长度分布。(E)基于模拟的Nb作图的胰蛋白酶和糜蛋白酶的互补性。随机选择10,000个具有独特CDR3序列的Nb并进行计算机模拟消化以产生CDR3肽。分子量为0.8-3kDa且具有足够CDR3覆盖率(≥30％)的肽用于Nb作图。(F-G)基于在MS/MS光谱中匹配的CDR3片段离子的百分比评估独特的CDR3肽鉴定(1F：胰蛋白酶；1G：糜蛋白酶)。使用“靶标”数据库(浅橙色)或“诱饵”数据库(灰色)通过数据库搜索鉴定CDR3肽。(H-K)来自靶标数据库搜索的标准化CDR3肽鉴定、CDR3片段化百分比和CDR3长度的3D图。FDR：错误发现率。CDR3鉴定的FDR在3D图上是彩色的。彩色条显示FDR的比例。低于5％的FDR以渐变红色显示。(1H：胰蛋白酶分析；1I：糜蛋白酶分析)。(J-L)。胰蛋白酶和糜蛋白酶消化的CDR3肽的代表性高质量MS/MS光谱。图1K中的序列是NTVYLEMNSLKPEDTAVYSCAAGVSDYGCYR(SEQ ID NO：2656)。图1L中的序列是YCAAAEGLASGSY(SEQ ID NO：2657)。

图2(A-G).用于对抗原结合的Nb蛋白质组进行可靠和深入分析的混合蛋白质组学管道的示意图。(A)Nb蛋白质组学管道的示意图。所述管道由三个主要部分组成：骆驼科动物免疫和抗原特异性Nb的纯化、Nb的蛋白质组学分析(由专用软件Augur Llama和深度学习促进)和抗原-Nb复合物的高通量综合结构分析。(B)GST、HSA和PDZ的三种抗原的骆驼科动物免疫反应的ELISA测量。(C)不同抗原的独特CDR组合和独特CDR3序列的鉴定。(D)胰蛋白酶与糜蛋白酶在高质量Nb_GST的CDR3作图中的比较。(E)三种不同蛋白酶(gluC、胰蛋白酶和糜蛋白酶)的Nb_GSTCDR3鉴定的比较。结果基于三个独立的实验。(F)随机选择的抗原特异性Nb的溶解度。(G)验证所选Nb的抗原结合。

图3(A-L).用于GST、HSA和PDZ结合的Nb库的分类。(A)糜蛋白酶对CDR3_GST指纹的无标记MS定量和热图分析。(B)糜蛋白酶对无标记CDR3_GST肽进行定量的再现性和精度。(C)通过定量蛋白质组学分类的不同Nb亲和簇的百分比。(D)Nb ELISA亲和力(O.D.450nm的LogIC50)与SPR K_D测量的线性相关(R²＝0.85)。(E)不同Nb簇的ELISA亲和力的箱线图。p值是基于学生t检验(student′s t test)计算的。*表示p值＜0.05，**表示＜0.01，***表示＜0.001，****表示＜0.0001，ns表示不显著。(F)总结25个Nb_HSA(圆圈)在O.D.450nm处的ELISA亲和力的图。根据ELISA排名前14位的Nb的K_D亲和力通过SPR(三角形)测量。(G)总结11个可溶性Nb_PDZ的ELISA亲和力的图。(H)来自三个不同亲和簇的代表性Nb_GST的SPR动力学分析。对于G60(C1)，Ka(1/Ms)＝4.9e3，Kd(1/s)＝5.9e-3，K_D＝1.3μM；对于G95(C2)，Ka(1/Ms)＝1.4e4，Kd(1/s)＝1.1e-3，K_D＝77nM；对于G13(C3)，Ka(1/Ms)＝4.74e5，Kd(1/s)＝1.7e-4，K_D＝360pM。(I)高亲和力Nb_HSA的代表性SPR动力学测量。对于H14，Ka(1/Ms)＝2.5e5，Kd(1/s)＝5.75e-6，K_D＝22.3pM。(J)Nb_PDZ P10的SPR动力学测量。对于P10，Ka(1/Ms)＝2.06e6，Kd(1/s)＝9.03e-6，K_D＝4.4pM。(K)不同Nb偶联戴诺珠粒(dynabeads)和GSH树脂对GST(1nM)的免疫沉淀。(L)哺乳动物线粒体外膜蛋白25的PDZ域的示意图。Nb_PDZ P10的荧光显微镜分析。Nb与Alexa Fluor 647结合，用于COS-7细胞系的天然线粒体免疫染色。Mitotracker用于阳性对照。

图4(A-K).综合结构方法揭示的HSA特异性Nb蛋白质组的结构景观。(A)人与骆驼科动物血清白蛋白之间的pI和亲水性的序列变化(上图)。通过结构对接作图的主要表位的热图(下图)。(B)四种主要HSA表位的卡通表示。HSA以灰色呈现。E1、E2和E3分别以浅橙色、橙色和青色呈现。(C)显示静电势表面与三个主要表位的共定位的表面表示。(D)基于聚合交联模型HSA表位和其分率(％)(E1：残基57-62、135-169；E2：322-331、335、356-365、395-410；E3：29-37、86-91、117-123、252-290；E4：566-585、595、598-606和E5：188-208、300-306、463-468)。(E-G)HSA-Nb复合物的代表性交联模型。呈现了最佳评分模型。满意的DSS或EDC交联显示为蓝色条。(H)呈现了Nb CDR3的谷氨酸400(HSA)与精氨酸108之间的假定盐桥。显示了HSA与骆驼科动物白蛋白之间的局部序列比对。(I)19种不同Nb与野生型HSA和点突变体(E400R)结合的ELISA亲和力筛选(热图)。*表示亲和力下降。(J)HSA-Nb交联模型的RMSD(均方根偏差)图。(K)显示满足模型的HSA-Nb的所有DSS和EDC交联的百分比的条形图。

图5(A-K).Nb亲和力成熟的机制。(A)高亲和力(深色)和低亲和力(浅色)Nb_GST和Nb_HSA的CDR3长度分布。(B)不同Nb的pI的比较。(C-D)不同Nb之间CDR的pI和亲水性的比较。(E)CDR3序列图。比对基于随机选择1,000个具有相同长度的15个残基的独特CDR3序列。CDR3架构示意图：高度可变的“头部”呈深灰色，且半可变的“躯干”呈浅灰色。(F)CDR3头部(Nb_GST和Nb_HSA)和CDR2(Nb_GST)的氨基酸组成的饼图。仅显示了最丰富的前6个残基。(G)Nb_GST和Nb_HSA的CDR3头部上的丰富氨基酸的相对变化。显示了K(赖氨酸)/R(精氨酸)/H(组氨酸)的带正电残基、D(天冬氨酸)/E(谷氨酸)的带负电残基、Y(酪氨酸)的芳香族残基和G(甘氨酸)/S(丝氨酸)的小柔性氨基酸。(H)高亲和力与低亲和力Nb_HSA之间的CDR3头部上Y、G和S的相对丰度比较。它们的相对丰度被绘制为各个残基的相对位置的函数。在CDR3头部上显示两个酪氨酸的抗原-Nb复合物的代表性结构(PDB：5F1O)被插入抗原的深袋中。(I)ELISA亲和力与Nb_HSA的CDR3头部上的特定氨基酸数目的相关图。显示了皮尔逊相关系数和统计值。(J)ELISA亲和力与Nb_GST的CDR2上的带正电残基数的相关图。(K)深度学习模型学习的两个代表性卷积CDR3过滤器的序列标志(过滤器14用于高亲和力Nb_HSA；过滤器3用于低亲和力Nb_HSA)。图5K上图的序列为SEQ ID NO：2661(YXXXXXX，残基2可为Y、L、D、R或I；残基3可为K或G；残基4可为R、Y、T或D；残基5可为P、D或R，残基6可为E、Y、V、P、W或D；残基7可为G、W、D或P)。图5K下图的序列为SEQ ID NO：2662(YXXXLXX，残基2可为D、P、K或A；残基3可为F、P、D或A；残基4可为H、T或G，残基6可为G、N；残基7可为R、P、D或Y。

图6(A-H)：Nb在抗原结合方面的出色多功能性。(A)PDZ域的静电势表面和主要E2表位(PDB：2JIK；E1：7-8、35-36、43、99-100以及E2：25-26、45-46、48、78-79、82-83、85-86)。(B)高亲和力Nb_PDZP10的长CDR3(呈深橙色)的对接模型。(C)PDZ-肽配体复合物(PDB：1EB9)的晶体结构与PDZ-Nb复合物的对接模型的比较。保守的配体结合位点以青色显示。显示了CDR3和肽配体的侧链。(D)显示11种不同Nb与野生型或突变型(R46E：K48D)PDZ结合的ELISA亲和力的热图。*表示ELISA亲和力降低10-100,000倍。(E)不同Nb(高亲和力Nb_HSA、Nb_GST、Nb_PDZ和来自序列数据库的Nb)的CDR3长度(上图)和pI(下图)的绘图比较。用高斯函数对数据进行平滑处理。(F)不同Nb之间pI和亲水性的比较。(G)Nb CDR3头部上最丰富的6种氨基酸的饼图。(H)Nb结合抗原的示意图模型。

图7(A-F).NGS Nb数据库分析和代表性假阳性CDR3肽鉴定。(A)Nb序列的标准化变异性。基于IMGT编号方案比对大约50万个独特的Nb序列以生成绘图。氨基酸基于其特性(即，正性、负性、极性和非极性)进行分组，并用颜色编码。(B)来自PeptideAtlas的约150万个人类蛋白质肽鉴定的质量分布。(C)用不同的蛋白酶(AspN、GluC、LysC、胰蛋白酶和糜蛋白酶)对Nb NGS数据库进行计算机模拟消化，并绘制肽质量图。(D)免疫美洲驼的靶标Nb序列数据库与另一本地美洲驼的诱饵数据库之间的重叠。每个数据库中包括约50万个序列。(E)胰蛋白酶CDR3肽的代表性低质量/假阳性MS/MS光谱(HCD)。(F)糜蛋白酶CDR3肽的代表性低质量/假阳性MS/MS光谱(HCD)。很少有高分辨率片段化离子在光谱中匹配。图7E中的序列是NTVYLQMNSLKPE(SEQ ID NO：2658)和DTSIYYCAATPVFQSMSTMATESVYDYWGQGTQVTVSSEPK(SEQ ID NO：2659)。图7F中的序列是CAAGSGVGLY(SEQ ID NO：2660)。

图8(A-J).用于Nb蛋白质组学和Nb结合剂验证的“Augur Llama”的信息学管道。(A)信息学管道示意图。呈现了三个模块，包括1)肽鉴定、2)Nb肽和蛋白质质量控制以及3)定量和分类。Nb蛋白质组学数据首先针对搜索引擎进行搜索。通过搜索引擎的初始鉴定可被自动注释，并基于肽和蛋白质水平的不同质量过滤器进行评估。通过质量过滤器的高质量指纹肽可被定量和聚类。(B)Nb CDR3光谱和覆盖质量过滤器的图示。(C)肽分类方法的图示。(D)鉴定的Nb_PDZ的230个独特CDR3的系统发育树和Web徽标分析。(E)从骆驼科动物的B淋巴细胞中PCR扩增HcAb可变域(V_HH)的示意图。(F)从免疫骨髓/血液制备的cDNA文库中的V_HHPCR扩增子的DNA凝胶电泳。(G)基于不同分级分离方案的分级分离Nb_GST的SDS-PAGE分析。(H)Nb_PDZ的SDS-PAGE分析。麦芽糖结合蛋白(MBP)标签与PDZ域融合，且融合蛋白用作进行分离的亲和柄。MBP用作定量的阴性对照。(I)不同抗原的独特Nb鉴定。(J)通过基于糜蛋白酶或胰蛋白酶的方法鉴定的抗原特异性Nb的比较。Y轴代表随机选择进行验证的正命中的％。

图9(A-D).Nb_GST的蛋白质组学定量、生化验证和亲和力测量。(A)基于不同分级分离方法的Nb_GST的蛋白质组学定量和热图分析。(B)不同分级分离Nb肽样品的LC保留时间的皮尔逊相关性。(C)代表性GST珠结合分析。GST偶联树脂用于从大肠杆菌裂解物中特异性分离重组Nb。红色箭头表示富集的Nb。灭活树脂用于阴性对照。(D)10种代表性Nb_GST的SPR动力学测量。

图10(A-B).高质量HSA和PDZ Nb的表征。(A)代表性高亲和力Nb_HSA的SPR动力学测量。(B)所选高质量Nb_PDZ的珠结合分析。重组MBP融合PDZ用作亲和柄，用于从大肠杆菌裂解物中分离Nb。MBP偶联树脂用于阴性对照。I：大肠杆菌裂解物输入，B：珠对照，P：PDZ的亲和力拉出。

图11(A-G).GST-Nb复合物的混合结构分析。(A)64,670个GST-Nb复合物的结构对接热图分析，显示三个聚合表位(E1：75-88、143-148；E2：33-43、107-127；E3：158-200、213-220)。(B)三个主要GST表位的卡通表示。GST二聚体以灰色呈现。E1、E2和E3分别呈淡黄色、橙色和深蓝绿色。(C)显示静电表面与三个主要表位的共定位的表面表示。(D)基于聚合交联模型的GST表位和其丰度(％)以不同颜色显示。

图12(A-H).不同Nb的CDR序列分析以及骆驼科动物和人白蛋白的序列保守性。(A-B)高亲和力与低亲和力Nb之间CDR3头部上的氨基酸丰度的比较。(C-F)不同Nb的CDR1与CDR2的比较。(G)酪氨酸(Y)、甘氨酸(G)和丝氨酸(S)在GST Nb的CDR3头部上的相对位置的比较。(H)人血清白蛋白和美洲驼血清白蛋白的序列比对。突出显示了保守的氨基酸。

图13(A-F).不同抗原表位之间的比较。(A)三种不同抗原的主要表位(即，PDZ的E2、GST二聚体的E3和HSA的E3)的几何形状的比较。不同表位在抗原结构上用颜色编码。(B)PDZ域的表面静电势和E1表位。(C)不同表位的溶剂可及面积图。y轴代表不同表位的面积，单位为平方埃。(D)表位的净形式电荷。(E)CDR3头部上的不同氨基酸的相对丰度。DB：NGSNb序列数据库。(F)不同抗原特异性Nb中CDR1与CDR2的pI比较。

图14描绘了执行在本公开的某些实施方案中描述的方法和程序的计算系统的实例。

图15(A-B)显示了源自深度学习方法的氨基酸序列过滤器的结果。序列过滤器可用于准确分离高亲和力与低亲和力结合HSA Nb。图15A的序列为SEQ ID NO：2663(LXYRXXX，残基2可为N、Y、V或G；残基5可为L或W；残基6可为E、G、N、T或S；残基7可为D或E)。图15B的序列为SEQ ID NO：2664(XXXXXXX，残基1可为C、F、Q、S、H、K、L、Y或R；残基2可为G、P、A或N；残基3可为E、S、G、T、P、V、Y、H或A；残基4可为C、A、S、P或D；残基5可为I、W、V、T或A；残基6可为M、Q或H；残基7可为K、Y、Q、V或W)。

图16(A-C)显示了源自深度学习方法的氨基酸序列过滤器的结果。序列过滤器可用于准确分离高亲和力与低亲和力结合HSA Nb。图16A的序列为SEQ ID NO：2665(TXXLXX；残基2可为D、P、K或A；残基3可为F、P、L、D或A；残基4可为H、T或G；残基6可为G、E、N或R；残基7可为R、P、G、D或Y)。图16B的序列为SEQ ID NO：2666(XXRXXXX；残基1可为E、G、W、D或I；残基2可为N、G或C；残基4可为A、H或D；残基5可为E、R、Y、A或T；残基6可为G、A或P；残基7可为L、S或Y)。图16C的序列为SEQ ID NO：2667(XXGAQXW；残基1可为R或A；残基2可为K或L；残基6可为L、G、Y或W)。

具体实施方式

本文报道的是一个综合蛋白质组学平台，用于深入发现、分类和高通量结构表征抗原结合的Nb库。使用在免疫反应中跨越三个数量级的抗原(包括来自线粒体膜的小、弱免疫原性抗原)验证了这些技术的灵敏度和稳健性。数以万计的高度多样化的特定Nb家族根据其物理化学特性被确信地鉴定和定量；很大一部分具有亚nM亲和力。使用高通量结构建模、结构蛋白质组学和深度学习，系统地调查了＞100,000个抗原-Nb复合物，以显著促进对免疫原性和Nb亲和力成熟的理解。所述研究揭示了哺乳动物体液免疫系统的惊人效率、特异性、多样性和多功能性。

术语

除非上下文另外明确规定，否则如在本说明书和权利要求书中所用，单数形式“一(a/an)”和“所述”包括复数个提及物。例如，术语“一个细胞”包括多个细胞，包括其混合物。

如本文所用的术语“约”在涉及诸如量、百分比等的可测量值时，意在涵盖相对于该可测量值的±20％、±10％、±5％或±1％的变化。

“施用”于受试者或“施用”包括向受试者引入或递送药剂的任何途径。施用可通过任何合适的途径进行，包括经口、静脉内、腹膜内、鼻内、吸入等。施用包括自施用和他人施用。

术语“抗体(antibody)”和“抗体(antibodies)”在本文中以广义使用并且包括多克隆抗体、单克隆抗体和双特异性抗体。除了完整的免疫球蛋白分子之外，术语“抗体”还包括那些免疫球蛋白分子的片段或聚合物，以及免疫球蛋白分子或其片段的人形式或人源化形式。抗体通常是约150,000道尔顿的异四聚体糖蛋白，由两条相同的轻(L)链和两条相同的重(H)链构成。每条重链在一端具有一个可变域(V_H)，然后是多个恒定域。每条轻链在一端具有一个可变域(V_L)，且在另一端具有一个恒定域。

如本文所用，术语“抗原”或“免疫原”可互换使用，是指能够在受试者中诱导免疫反应的物质，典型地是蛋白质、核酸、多糖、毒素或脂质。所述术语还指具有免疫活性的蛋白质，即一旦给予受试者(直接或通过向受试者施用编码所述蛋白质的核苷酸序列或载体)便能够引起或针对所述蛋白质的体液和/或细胞类型的免疫反应。

术语“抗原决定簇”和“表位”在本文中也可互换使用，是指由抗原结合分子(例如本发明的纳米抗体)识别的抗原或靶标上的位置。表位可由连续氨基酸(“线性表位”)或通过蛋白质三级折叠并列的非连续氨基酸形成。后一种表位(由至少一些非连续氨基酸产生的表位)在本文中被描述为“构象表位”。一个表位典型地包括至少3个，且更通常至少5个或8-10个呈独特空间构象的氨基酸。确定表位空间构象的方法包括例如X射线晶体学和二维核磁共振。参见例如Epitope Mapping Protocols in Methods in Molecular Biology，第66卷，Glenn E.Morris编(1996)。

术语“抗原结合位点”、“结合位点”和“结合域”是指结合抗原决定簇或表位的多肽，例如纳米抗体的特定元件、部分或氨基酸残基。

如本文所用，术语“生物样品”意指生物组织或体液的样品。此类样品包括但不限于从动物分离的组织。生物样品还可包括组织如活检和尸检样品的切片、出于组织学目的取得的冷冻切片、血液、血浆、血清、痰液、粪便、泪液、粘液、毛发和皮肤。生物样品还包括源自患者组织的外植体以及原代和/或转化细胞培养物。生物样品可通过从动物中取出细胞样品来提供，但也可通过使用先前分离的细胞(例如，由另一人、在另一时间和/或出于另一目的分离的细胞)，或通过在体内执行本文公开的方法。也可使用存档组织，例如具有治疗或结果历史的那些。

术语“cDNA文库”在本文是指不同cDNA片段的组合，所述片段构成给定生物体的转录组的某些部分。

术语“CDR”和“互补决定区”可互换使用，并且是指参与结合至抗原的抗体可变链的一部分。因此，CDR是“抗原结合位点”的一部分，或者是“抗原结合位点”。在一些实施方案中，纳米抗体包含三个共同形成抗原结合位点的CDR。

如本文所用的术语“包含”和其变化形式与术语“包括”和其变化形式同义使用，并且是开放的非限制性术语。尽管本文使用术语“包含”和“包括”来描述各种实施方案，但可使用术语“基本上由......组成”和“由......组成”来代替“包含”和“包括”，以提供更加具体的实施方案，并且也被公开。

“组合物”是指具有有益生物效应的任何药剂。有益生物效应包括治疗效应(例如，治疗病症或其它不良生理病况)和预防效应(例如，预防病症或其它不良生理病况)两者。所述术语还包括本文具体提及的有益药剂的药学上可接受的药理学活性衍生物，包括但不限于细菌、载体、多核苷酸、细胞、盐、酯、酰胺、前药、活性代谢物、异构体、片段、类似物等。当使用术语“组合物”时，或当具体鉴定出特定组合物时，应理解，所述术语包括组合物本身以及药学上可接受的药理学活性载体、多核苷酸、盐、酯、酰胺、前药、结合物、活性代谢物、异构体、片段、类似物等。

“对照”是在实验中用于比较目的的替代对象或样品。对照可为“阳性”或“阴性”。

“有效量”包括但不限于可改善、逆转、减轻、预防或诊断医学病况或病症(例如癌症)的症状或体征的量。除非另有明确规定或上下文规定，否则“有效量”不限于足以改善病况的最小量。疾病或病症的严重性以及治疗预防、治疗或减轻疾病或病症的能力可通过生物标志物或临床参数来测量，而不暗示任何限制。在一些实施方案中，术语“重组纳米抗体的有效量”是指足以预防、治疗或减轻癌症的重组纳米抗体的量。

“片段”或“功能片段”无论是否连接到其他序列，都可包括特定区域或特定氨基酸残基的插入、缺失、取代或其它所选修饰，条件是所述片段的活性与未修饰的肽或蛋白质相比没有显著改变或受损。这些修饰可提供一些额外的特性，例如去除或添加能够二硫键合的氨基酸、增加其生物寿命、改变其分泌特征等。无论如何，功能片段必须具有生物活性特性，例如结合至HSA和/或改善癌症。

术语“片段化覆盖百分比”是指使用下式获得的百分比：

f(x，酶)是计算酶消化的肽的片段化覆盖率(％)的函数

x是肽作图的CDR3的长度

f(x，糜蛋白酶)＝0.0023x²-0.0497x+0.7723，x[5，30]

f(x，胰蛋白酶)＝0.00006x²-0.00444x+0.9194，x[5，30]。

在一些实施方案中，需要最小计算片段化覆盖百分比。在其它或另外的方面，所需最小计算片段化覆盖百分比为约30。在一些方面，所需最小计算片段化覆盖百分比在胰蛋白酶为酶时为约50，且在糜蛋白酶为酶时为约40。

如本文所用，“功能选择步骤”是基于功能特征将纳米抗体分成不同部分或组的方法。在一些实施方案中，功能特征是纳米抗体或CD3、CD2或CD1区抗原亲和力。在其它实施方案中，功能特征是纳米抗体热稳定性。在其它实施方案中，功能特征是纳米抗体细胞内渗透。因此，本发明包括鉴定一组互补决定区(CDR)3、2或1区纳米抗体氨基酸序列(CDR3、CDR2或CDR1序列)的方法，其中与对照相比，减少数目的CDR3、CDR2或CDR1序列为假阳性，所述方法包括：从用抗原免疫的骆驼科动物获得血液样品；使用血液样品获得纳米抗体cDNA文库；鉴定文库中每个cDNA的序列；从用抗原免疫的骆驼科动物的相同或第二血液样品中分离纳米抗体；执行功能选择步骤；用胰蛋白酶或糜蛋白酶消化纳米抗体以产生一组消化产物；对消化产物进行质谱分析以获得质谱数据；选择步骤c.中鉴定的与质谱数据相关的序列；鉴定来自步骤g.的序列中的CDR3、CDR2或CDR1区的序列；以及从步骤h.的CDR3、CDR2或CDR1区序列中排除那些具有小于计算片段化覆盖百分比的序列；其中未排除的序列包含假阳性CDR3、CDR2或CDR1序列的数目减少的组。应理解，功能选择步骤之后的方法步骤可对由功能选择产生的每个不同部分或组分别执行。

本发明的氨基酸序列、化合物或多肽的“半衰期”通常可定义为例如由于序列或化合物的降解和/或序列或化合物通过自然机制的清除或隔离，氨基酸序列、化合物或多肽的血清浓度在体内降低50％所需的时间。本发明的纳米抗体、氨基酸序列、化合物或多肽的体内半衰期可以任何已知的方式确定，例如通过药物动力学分析。这些为例如Kenneth，A等人，Chemical Stability of Pharmaceuticals：A Handbook for Pharmacists；Peters等人，Pharmacokinete analysis：A Practical Approach(1996)；“Pharmacokinetics”，MGibaldi和D Perron，由Marcel Dekker出版，第2修订版(1982)。

术语“同一性”或“同源性”应解释为在比对序列后，候选序列中与与之比较的相应序列的碱基或残基相同的核苷酸碱基或氨基酸残基的百分比。如有必要，引入空位以实现整个序列的最大同一性百分比，并且不考虑将任何保守取代作为序列同一性的一部分。与另一序列具有一定百分比(例如61％、62％、63％、64％、65％、66％、67％、68％、69％、70％、71％、72％、73％、74％、75％、76％、77％、78％、79％、80％、81％、82％、83％、84％、85％、86％、87％、88％、89％、90％、91％、92％、93％、94％、95％、96％、97％、98％、99％或更高)的“序列同一性”的多核苷酸或多核苷酸区(或多肽或多肽区)意指在比较这两个序列时，所述百分比的碱基(或氨基酸)在比对时是相同的。这种比对和同源性百分比或序列同一性可使用本领域已知的软件程序来确定。可使用例如Needleman等人(1970)J.Mol.Biol.48：443-453的方法提供这种比对，所述方法由计算机程序如Align程序(DNAstar，Inc.)方便地实现。在一些实施方案中，同一性百分比是沿所比较序列的整个长度确定的。

如本文所用，术语“增加的”或“增加”通常意指静态显著量的增加；为避免任何疑问，“增加”意指与参考水平相比增加至少10％，例如与参考水平相比增加至少约20％、或至少约30％、或至少约40％、或至少约50％、或至少约60％、或至少约70％、或至少约80％、或至少约90％、或至多并包括100％的增加或10-100％之间的任何增加，或与参考水平相比至少约2倍、或至少约3倍、或至少约4倍、或至少约5倍或至少约10倍的增加，或2倍与10倍之间或更多的任何增加。

如本文所用，术语“分离”是指从生物样品，即血液、血浆、组织、外来体或细胞中分离。如本文所用，术语“分离的”当用于例如核酸的上下文中时是指至少60％不含、至少75％不含、至少90％不含、至少95％不含、至少98％不含以及甚至至少99％不含分离前与核酸相关的其它组分的感兴趣的核酸。

术语“质谱”是指样品中存在的一种或多种分子的质荷比(m/z)的测量。“质谱数据”是指样品中存在的一种或多种分子的质量、电荷、质荷比、分子量和/或氨基酸同一性或序列。在一些实施方案中，质谱数据为样品中存在的分子的氨基酸序列。与质谱数据“相关”的序列，包括cDNA序列具有在所述方法的质谱步骤中确定的预期相同或高度相似的氨基酸序列。在一些实施方案中，当存在约80％、约85％、约90％、约91％、约92％、约93％、约94％、约95％、约96％、约97％、约98％或约99％相似性或同一性时，序列与质谱数据相关。在一些实施方案中，当存在约90-100％相似性或同一性时，序列与质谱数据相关。

如本文所用，术语“纳米抗体”、“V_HH”、“V_HH抗体片段”被无差别地使用并表示在骆驼科中发现的类型的抗体的单个重链的可变域，其不含任何轻链，例如源自骆驼科动物的轻链，如以引用方式整体并入本文的PCT公开案第WO 94/04678中所述。如本文所用，“单域抗体”是指纳米抗体和Fc域。

如本文所用的术语“核酸”意指由核苷酸，例如脱氧核糖核苷酸(DNA)或核糖核苷酸(RNA)构成的聚合物。如本文所用的术语“核糖核酸”和“RNA”意指由核糖核苷酸构成的聚合物。如本文所用的术语“脱氧核糖核酸”和“DNA”意指由脱氧核糖核苷酸构成的聚合物。

如本文所用，“可操作地连接”是指多肽区段在单个多肽链内的排列，其中各个多肽区段可为但不限于蛋白质、其片段、连接肽和/或信号肽。术语可操作地连接可指不同个体多肽在单个多肽或其片段内直接融合，其中不同区段之间没有中间氨基酸，以及当个体多肽通过“接头”彼此连接时，所述“接头”包含一个或多个中间氨基酸。

如本文所用，术语“减少(reduced)”、“减少(reduce)”、“减少(reduction)”或“减少(decrease)”通常意指减少统计学显著的量。然而，为避免疑义，“减少”意指与参考水平相比减少至少5％，例如与参考水平相比减少至少约10％、或至少约20％、或至少约30％、或至少约40％、或至少约50％、或至少约60％、或至少约70％、或至少约80％、或至少约90％、或至多并包括100％的减少(即与参考样品相比不存在的水平)，或10-100％之间的任何减少。

术语“多核苷酸”和“寡核苷酸”可互换使用，并且是指任何长度的核苷酸的聚合形式(脱氧核糖核苷酸或核糖核苷酸或其类似物)。多核苷酸可具有任何三维结构，且可执行任何已知或未知的功能。以下是多核苷酸的非限制性实例：基因或基因片段、外显子、内含子、信使RNA(mRNA)、转移RNA、核糖体RNA、核酶、cDNA、重组多核苷酸、分支多核苷酸、质粒、载体、任何序列的分离DNA、任何序列的分离RNA、核酸探针和引物。多核苷酸可包含修饰的核苷酸，例如甲基化核苷酸和核苷酸类似物。如果存在，可在聚合物组装之前或之后赋予对核苷酸结构的修饰。核苷酸序列可间杂有非核苷酸成分。多核苷酸可在聚合后进一步修饰，例如通过与标记组分结合。所述术语还指双链和单链分子。除非另有规定或要求，否则本发明的任何多核苷酸实施方案都包括双链形式和已知或预期构成双链形式的两种互补单链形式中的每一种。

术语“多肽”以其最广义使用，是指两个或更多个亚基氨基酸、氨基酸类似物或肽模拟物的化合物。亚基可通过肽键连接。在另一实施方案中，亚基可通过其它键，例如酯、醚等连接。如本文所用，术语“氨基酸”是指天然和/或非天然或合成氨基酸，包括甘氨酸和D或L旋光异构体，以及氨基酸类似物和肽模拟物。如果肽链较短，则三个或更多个氨基酸的肽通常称为寡肽。如果肽链较长，则所述肽通常称为多肽或蛋白质。术语“肽”、“蛋白质”和“多肽”在本文中可互换使用。

关于多肽使用的“重组”在本文中是指两种或更多种多肽的组合，所述组合不是天然存在的。

术语“特异性”是指特定抗原结合分子(例如本发明的纳米抗体)可结合的不同类型的抗原或抗原决定簇的数目。具有低特异性的纳米抗体通过单个抗原结合位点或结合域结合至多个不同的表位(或多肽区)，而具有高特异性的纳米抗体通过单个抗原结合位点或结合域结合至一个或几个表位(或多肽区)。在一些实施方案中，少数表位(或多肽区)相似或高度相似，例如跨物种表位。如本文所用，如本文所用的关于纳米抗体的术语“特异性结合”是指与其它表位(或多肽区)相比，纳米抗体优先结合一个表位(或多肽区)。特异性结合可取决于结合亲和力和进行结合的条件的严格性。在一个实例中，当在严格条件下存在高亲和力结合时，纳米抗体特异性结合表位。在一些实施方案中，本文所述的HSA结合多肽或纳米抗体特异性结合至人血清白蛋白。

应理解，抗原结合分子(例如HSA结合多肽、本发明的纳米抗体)的特异性可基于亲和力和/或亲合力来确定。以抗原与抗原结合分子解离的平衡常数(K_D)表示的亲和力是抗原决定簇与抗原结合分子上的抗原结合位点之间的结合强度的量度：K_D值越小，抗原决定簇与抗原结合分子之间的结合强度越强(或者，亲和力也可表示为亲和力常数(K_A)，其为1/K_D)。测定亲和力的方法为本领域普通技术人员所熟知。亲合力是抗原结合分子(例如HSA结合多肽和本发明的纳米抗体)与相关抗原之间的结合强度的量度。亲合力与抗原决定簇与其抗原结合分子上的抗原结合位点之间的亲和力以及抗原结合分子上存在的相关结合位点的数目有关。典型地，抗原结合蛋白(例如本发明的HSA结合多肽和纳米抗体)将以10^-5至10^-12摩尔/升或更少、优选10^-7至10^-12摩尔/升或更少、且更优选10^-8至10^-12摩尔/升的解离常数(K_D)(即，以10⁵至10¹²升/摩尔或更多、优选10⁷至10¹²升/摩尔或更多、更优选10⁸至10¹²升/摩尔的缔合常数(K_A))与其抗原结合。在一些实施方案中，Ka(缔合速率，1Ms)为约10⁵、10⁶、10⁷、10⁸、10⁹、10¹⁰或10¹¹。在一些实施方案中，Ka为约10⁷。在一些实施方案中，Kd(解离速率，s)为约10^-5、10^-6、10^-7、10^-8、10^-9、10^-10或10^-11。在一些实施方案中，K_D为约10^-7。在一些实施方案中，本文公开的抗原结合蛋白以小于约10^-9摩尔/升的K_D与其抗原结合。任何大于10μM的K_D值通常被视为表示非特异性结合。解离常数可为实际的或表观解离常数，这对本领域普通技术人员来说将是清楚的。

术语“受试者”在本文中定义为包括动物，例如哺乳动物，包括但不限于灵长类动物(例如人)、牛、绵羊、山羊、马、狗、猫、兔、大鼠、小鼠等。在一些实施方案中，受试者是人。

组合物和方法

在一些方面，本文公开了鉴定一组互补决定区(CDR)3、2或1区纳米抗体氨基酸序列(CDR3、CDR2或CDR1序列)的方法，其中与对照相比，减少数目的CDR3、CDR2或CDR1序列为假阳性。本文中的术语“假阳性”是指表明某物存在而实际上不存在的结果。本文中的短语“序列为假阳性”是指不与测试抗原特异性结合的CDR3、CDR2和/或CDR1序列，或包含在纳米抗体中的CDR3、CDR2和/或CDR1序列，所述纳米抗体不能与测试抗原特异性结合。应理解，假阳性CDR3、CDR2和/或CDR1序列的数目或量可使用本文公开的方法减少，其中片段化过滤器对于胰蛋白酶处理的样品设置为至少约30％(例如，至少约30％、35％、40％、45％、50％、55％、60％、65％、70％、75％、80％、85％、90％、95％或99％)和/或对于糜蛋白酶处理的样品设置为至少约30％(例如，至少约30％、35％、40％、45％、50％、55％、60％、65％、70％、75％、80％、85％、90％、95％或99％)。在一些实例中，假阳性CDR3、CDR2和/或CDR1序列可使用本文公开的方法大部分去除，其中片段化过滤器对于胰蛋白酶处理的样品设置为约50％和/或对于糜蛋白酶处理的样品设置为约40％。

因此，与对照相比，所公开的鉴定CDR3、CDR2和/或CDR1序列的方法可减少假阳性CDR3、CDR2和/或CDR1序列的数目。与未使用本文所述的方法鉴定的假阳性CDR3、CDR2和/或CDR1序列的数目相比，减少可为例如至少约2倍、至少约3倍、至少约4倍、至少约5倍、至少约10倍、至少约20倍、至少约50倍或至少约100倍。

在一些实施方案中，方法包括：

a.从用抗原免疫的骆驼科动物获得血液样品；

b.使用所述血液样品获得纳米抗体cDNA文库；

c.鉴定所述cDNA文库中每个cDNA的序列；

d.从用所述抗原免疫的所述骆驼科动物的相同或第二血液样品中分离纳米抗体；

e.用胰蛋白酶或糜蛋白酶消化所述纳米抗体以产生一组消化产物；

f.对所述消化产物进行质谱分析以获得质谱数据；

g.选择步骤c.中鉴定的与所述质谱数据相关的序列；

h.鉴定来自步骤g.的所述序列中的CDR3、CDR2和/或CDR1区的序列；以及

i.从步骤h.的CDR3、CDR2和/或CDR1区序列中选择那些具有等于或大于所需片段化覆盖百分比的序列；其中所选序列包含假阳性CDR3、CDR2和/或CDR1序列的数目减少的组。

在一些实施方案中，方法包括：

a.从用抗原免疫的骆驼科动物获得血液样品；

b.使用所述血液样品获得纳米抗体cDNA文库；

c.鉴定所述文库中每个cDNA的序列；

f.对所述消化产物进行质谱分析以获得质谱数据；

g.选择步骤c.中鉴定的与所述质谱数据相关的序列；

i.从步骤h.的CDR3、CDR2和/或CDR1区序列中选择那些具有等于或大于所需片段化覆盖百分比的序列；其中当在步骤e.中使用糜蛋白酶时，片段化覆盖百分比由式f(x，糜蛋白酶)＝0.0023x2-0.0497x+0.7723，x[5，30]确定，或当在步骤e.中使用胰蛋白酶时，片段化覆盖百分比由式f(x，胰蛋白酶)＝0.00006x2-0.00444x+0.9194，x[5，30]确定，且其中x是CDR3、CDR2和/或CDR1区序列的长度；以及

j.其中步骤i.的所选序列包含假阳性CDR3、CDR2和/或CDR1序列的数目减少的组。

在一些方面，步骤i.中的所选CDR3、CDR2和/或CDR1区序列具有约30的最小所需片段化覆盖百分比。在一些方面，步骤i.中的所选CDR3、CDR2和/或CDR1区序列具有约50的最小所需片段化覆盖百分比且在步骤e中使用胰蛋白酶。在一些实施方案中，步骤i.中的所选CDR3、CDR2和/或CDR1区序列具有约40的最小所需片段化覆盖百分比且在步骤e中使用糜蛋白酶。

应理解，步骤b.中的纳米抗体cDNA文库获自免疫受试者的生物样品(例如血液样品或骨髓)。在一些实施方案中，cDNA文库获自B细胞。cDNA(克隆的cDNA或互补DNA)文库是使用逆转录技术从生物样品(例如血液样品或骨髓样品)中的mRNA产生的cDNA的组合。产生cDNA文库的方法是本领域众所周知的。因此，在一些实施方案中，步骤b.进一步包括从生物样品(例如，血液样品或骨髓样品)中分离mRNA的步骤和/或将分离的mRNA逆转录为cDNA的步骤。

接着如步骤c中所述地对产生的cDNA进行测序。在一些实施方案中，步骤c.进一步包括使用特异性引物(例如SEQ ID NO：2646和SEQ ID NO：2647)将骆驼科动物IgG重链cDNA序列从可变域扩增至CH2域的步骤、使用DNA凝胶电泳从常规IgG(具有CH1域)分离缺乏CH1域的V_HH基因的步骤、使用第2正向引物(例如SEQ ID NO：2648)和第2反向引物(例如SEQ IDNO：2649)从框架1重新扩增到框架4的步骤、纯化此第二PCR的扩增子的步骤(例如使用PCR清理试剂盒或分离试剂盒)、用引物添加用于测序分析的衔接子(例如使用正向引物SEQ IDNO：2650和反向引物SEQ ID NO：2651)用于测序分析(例如MiSeq测序分析)的另一PCR步骤。测序分析的方法可为例如单分子实时(SMRT)测序、纳米孔DNA测序、大规模平行特征测序(MPSS)、聚合酶克隆测序(polony sequencing)、454焦磷酸测序、Illumina(Solexa)测序、组合探针锚合成(cPAS)、SOLiD测序或MiSeq测序。

以上步骤d.可与步骤a、b和/或c同时、在其之前或其之后进行。在一些实例中，步骤d还包括从血液样品中获得血浆并使用一种或多种亲和分离方法分离纳米抗体。亲和分离方法可为本领域已知的任何亲和分离方法，包括例如蛋白G琼脂糖亲和色谱法、蛋白A琼脂糖亲和色谱法、羟基磷灰石色谱法、凝胶电泳或透析。蛋白G琼脂糖亲和色谱法和蛋白A琼脂糖亲和色谱法是两种众所周知的亲和色谱方法(Grodzki A.C.，Berenstein E.(2010)Antibody Purification：Affimity Chromatography-Protein A and Protein GSepharose.Oliver C.，Jamur M.(编)Immunocytochemical Methods andProtocols.Methods in Molecular Biology(Methods and Protocols)，第588卷.HumanaPress)。所述方法依赖于蛋白质与固定在色谱基质中的特定配体之间的可逆相互作用。由于静电和疏水相互作用、范德华力(van der Waals′force)和/或氢键结，样品在有利于与配体特异性结合的条件下应用。洗去未结合的物质后，通过将缓冲条件改为有利于解吸的条件来回收结合的蛋白质。由于蛋白A或G与抗体的Fc区具有高结合亲和力和特异性，因此蛋白A琼脂糖亲和色谱法和蛋白G琼脂糖亲和色谱法常用于抗体纯化。在一些实施方案中，步骤d.的一种或多种亲和分离方法包括蛋白G琼脂糖亲和色谱法和蛋白A琼脂糖亲和色谱法中的一种或多种。

在一些实例中，步骤d.还进一步包括功能选择步骤，所述步骤包括使用抗原特异性亲和色谱法选择抗原特异性纳米抗体并在不同的严格程度下洗脱抗原特异性纳米抗体，从而产生不同的纳米抗体级分，并单独地对每个级分执行步骤e.至i.，以及分别基于所述纳米抗体级分中的每一者中所述CDR3、CDR2和/或CDR1区序列的相对丰度估计所述抗原的每个不同步骤i.CDR3、CDR2和/或CDR1区序列的亲和力。在一些实施方案中，抗原特异性亲和色谱法是与抗原结合的树脂。在一些实施方案中，抗原特异性亲和色谱法是与麦芽糖结合蛋白和抗原偶联的树脂。

应理解并在本文中考虑，术语“严格程度”是指不同浓度的盐缓冲液(例如，在中性pH缓冲液中约0.1M至约20M MgCl₂，优选在中性pH缓冲液中约1M至约10M MgCl₂，或优选在中性pH缓冲液中约1M至约4.5M MgCl₂)、具有不同pH值的碱性溶液(例如，1-100mM NaOH，约pH11、12和13)、具有不同pH值的酸性溶液(例如，0.1M甘氨酸，约pH 3、2和1)或其组合。还应理解，术语“不同纳米抗体级分”或“不同生化级分”是指在不同严格程度下从抗原偶联的固体支撑物(例如树脂)洗脱的纳米抗体的不同级分。对高盐、高酸度或高碱度条件最具抗性的纳米抗体对抗原的亲和力最高。

在本文中，例如在步骤e.中，术语“消化产物”是指在用酶(包括例如胰蛋白酶、糜蛋白酶、LysC、GluC和AspN)消化的步骤之后的肽混合物。在一些实施方案中，纳米抗体用胰蛋白酶(例如Pierce^TM胰蛋白酶，MS级，目录号：90057)、糜蛋白酶(例如Pierce^TM糜蛋白酶(TLCK处理)，MS级，目录号：90056)、LysC(或Lys-C蛋白酶，例如Pierce^TM Lys-C蛋白酶，MS级，目录号：90051)、GluC(或Glu-C蛋白酶，例如Pierce^TM Glu-C蛋白酶，MS级，目录号：90054)和/或AspN(或Asp-N蛋白酶，例如Pierce^TM Asp-N蛋白酶，MS级，目录号：90053)消化，以产生对应消化产物。胰蛋白酶、糜蛋白酶、LysC、GluC和AspN是消化蛋白质的酶。这些酶消化纳米抗体的裂解规则是：

胰蛋白酶：C末端至K/R，后面不跟P

糜蛋白酶：C末端至W/F/L/Y，后面不跟P

GluC：C末端至D/E，后面不跟P

AspN：N末端至D

LysC：C末端至K

消化步骤可在约2℃至约60℃的温度下(例如在约2℃、4℃、6℃、8℃、10℃、12℃、14℃、16℃、18℃、20℃、22℃、24℃、26℃、28℃、30℃、32℃、34℃、36℃、38℃、40℃、42℃、44℃、46℃、48℃、50℃、52℃、54℃、56℃、58℃或60℃下)进行约5分钟、10分钟、30分钟、45分钟、1小时、2小时、小时、4小时、6小时、8小时、10小时、12小时、14小时、16小时、18小时、20小时、22小时、24小时、36小时、48小时或72小时。

步骤f包括对所述消化产物进行质谱分析以获得质谱数据。使用质谱进行肽分析的方法在本领域中是众所周知的。在一些实施方案中，本文的质谱分析与以下各者组合进行：气相色谱(GC-MS)、液相色谱(LC-MS)、毛细管电泳(CE-MS)、离子迁移谱-质谱(IMS/MS或IMMS)、基质辅助激光解吸电离(MALDI-TOF)、表面增强激光解吸电离(SELDI-TOF)或串联MS(MS-MS)。此步骤可基于氨基酸的质量和从步骤b.的cDNA文库翻译的多肽数据库中的序列同源性搜索来鉴定样品中纳米抗体或纳米抗体的一部分的序列。在一些实例中，质谱用于分别分析和生成来自每个纳米抗体级分的消化产物谱。在一些实例中，消化产物的光谱是指以强度与m/z(质荷比)图的形式呈现的电子电离数据。

本文中应该理解的是，纳米抗体序列的确定不仅仅基于质谱。它是通过将质谱鉴定的序列与测序鉴定的cDNA文库的序列进行匹配/关联来确定的。接着选择匹配的序列。因此，步骤g.包括选择步骤c.中鉴定的与质谱数据相关的序列且步骤h包括鉴定来自步骤g.的序列中的CDR3区的序列。

步骤i.包括从步骤h.的CDR3、CDR2和/或CDR1区序列中选择那些具有等于或大于所需片段化覆盖百分比的序列。在一些实施方案中，对于胰蛋白酶处理的样品，片段化覆盖百分比等于或大于约30％(例如约30％、35％、40％、45％、50％、55％、60％、65％、70％、75％、80％、85％、90％、95％或99％)。在一些实施方案中，对于糜蛋白酶处理的样品，片段化覆盖百分比等于或大于约30％(例如至少约30％、35％、40％、45％、50％、55％、60％、65％、70％、75％、80％、85％、90％、95％或99％)。在一些实施方案中，胰蛋白酶处理的样品的片段化覆盖百分比为约50％，且糜蛋白酶处理的样品的片段化覆盖百分比为约40％。

在一些实施方案中，本文所述的方法进一步包括产生包含具有步骤i中鉴定的序列的CDR3、CDR2和/或CDR1区的纳米抗体。将纳米抗体基因克隆至载体中，接着将其转化至感受态细胞中进行纳米抗体蛋白表达、提取和纯化。

在一些实施方案中，纳米抗体包含与选自由SEQ ID NO：1-157组成的组的序列至少80％(例如至少约80％、85％、90％、95％、98％或99％)同一的氨基酸序列。在一些实施方案中，纳米抗体具有选自由SEQ ID NO：1-157组成的组的序列。在一些实施方案中，纳米抗体包含与选自由SEQ ID NO：158-2536组成的组的序列至少80％(例如至少约80％、85％、90％、95％、98％或99％)同一的氨基酸序列。在一些实施方案中，纳米抗体具有选自由SEQID NO：158-2536组成的组的序列。在一些实施方案中，纳米抗体包含与选自由SEQ ID NO：2665-2667组成的组的序列至少80％(例如至少约80％、85％、90％、95％、98％或99％)同一的氨基酸序列。在一些实施方案中，纳米抗体具有选自由SEQ ID NO：2665-2667组成的组的序列。

本文公开了一种PDZ特异性纳米抗体，其中所述PDZ特异性纳米抗体包含选自由SEQ ID NO：158-2536组成的组的氨基酸序列。本文还公开了一种PDZ特异性纳米抗体，其中所述PDZ特异性纳米抗体包含选自由SEQ ID NO：143-157组成的组的氨基酸序列。如本文所用，“PDZ”是指在信号传导蛋白中发现的80-100个氨基酸域，也称为DHR(Dlg同源区)或GLGF(甘氨酸-亮氨酸-甘氨酸-苯丙氨酸)域。PDZ域与其它特定蛋白质的C末端的一个短区结合。PDZ域通常分为三个不同的类别，按其配体的化学性质分类。不同配体类别的区别在于在靶蛋白质的极端COOH处发现的倒数第二个结合残基的差异。I型域识别序列X-S/T-X-Φ*(其中X＝任何氨基酸，Φ＝疏水性氨基酸，*COOH末端)。II型域与具有序列X-Φ-X-Φ*的配体结合。III型域与序列X-X-C*相互作用。每个域类别内的结合特异性可由变体(X)残基以及规范结合基序之外的残基赋予。此外，一些PDZ域不属于这些特定类别中的任一者。含有PDZ域的蛋白质包括但不限于Erbin、GRIP、Htra1、Htra2、Htra3、PSD-95、SAP97、CARD10、CARD11、CARD14、PTP-BL和SYNJ2BP。在一些实施方案中，PDZ域来自SYNJ2BP。

本文公开了GST特异性纳米抗体，其中GST特异性纳米抗体包含表4中的氨基酸序列。本文还公开了GST特异性纳米抗体，其中GST特异性纳米抗体包含选自由SEQ ID NO：1-98组成的组的氨基酸序列。“谷胱甘肽S-转移酶”或“GST”在本文中是指谷胱甘肽-S-转移酶(GST)，其为催化谷胱甘肽(GSH)与多种内源性和外源性亲电子化合物的结合的II期解毒酶家族。在一些实施方案中，GST多肽是pGEX6p-1载体中的多肽。

本文公开了HSA特异性纳米抗体，其中HSA特异性纳米抗体包含表5中的氨基酸序列。本文还公开了HSA特异性纳米抗体，其中HSA特异性纳米抗体包含选自由SEQ ID NO：99-142组成的组的氨基酸序列。“人血清白蛋白”或“HSA”在本文中是指由ALB基因编码的多肽。在一些实施方案中，HSA多肽是在如下的一个或多个公共可用数据库中鉴定的：HGNC：399，Entrez Gene：213，Ensembl：ENSG00000163631，OMIM：103600，UniProtKB：P02768。在一些实施方案中，HSA多肽包含SEQ ID NO：2668的序列，或与SEQ ID NO：2668或包含SEQ ID NO：2668的一部分的多肽具有等于或大于约80％、约85％、约90％、约95％或约98％同源性的多肽序列。SEQ ID NO：2668的HSA多肽可代表成熟HSA的未成熟或预加工形式，且因此，本文包括SEQ ID NO：2668的HSA多肽的成熟或加工部分。

此处，开发了一个稳健的蛋白质组学管道，用于基于抗原-Nb复合物的高通量结构表征对抗原结合的Nb蛋白质组进行大规模定量分析和表位作图。

实施例

实施例1.糜蛋白酶在大规模Nb蛋白质组学分析中的优势。

HcAb(V_HH/Nb)cDNA文库的可变域从两只大羊驼(lama glama)的B淋巴细胞中扩增，通过下一代基因组测序(NGS)在数据库中恢复了1360万个独特的Nb序列(DeKosky，2013)。比对大约50万个Nb序列以生成序列标志(图1A、7A)。CDR3环具有最大的序列多样性和长度变化，为Nb鉴定提供了极好的特异性(图1B、1C)。Nb数据库的计算机模拟分析显示，由于Nb上的胰蛋白酶裂解位点数目有限，胰蛋白酶主要产生大的CDR3肽(图1A)。因此，大多数CDR3残基(77％)被大于2.5kDa的大胰蛋白酶肽覆盖(图1D、1E)，其对于蛋白质组学分析来说是次优的(图7B)。相比之下，很少用于蛋白质组学裂解特定的芳香族和疏水性残基的糜蛋白酶似乎更合适(方法、图1A、7B)。91％的CDR3序列可被小于2.5kDa的糜蛋白酶肽覆盖(图1D、1E)。随机选择和模拟证实糜蛋白酶可覆盖比胰蛋白酶显著更多的CDR3序列(图1F)。此外，两种酶之间存在小的重叠(约9％)，表明它们在高效Nb分析方面具有良好的互补性。

由于数据库规模大和不寻常的Nb序列结构，估计的CDR3鉴定错误发现率(FDR)可能会被夸大。为了测试这一点，用胰蛋白酶或糜蛋白酶对抗原特异性HcAb进行蛋白水解，并采用最先进的搜索引擎使用两个不同的数据库进行鉴定：一个来自免疫美洲驼的特定“靶标”数据库，以及一个来自无关美洲驼的类似大小的“诱饵”数据库，所述数据库实际上没有相同的序列(图7D)。因此，从诱饵数据库搜索中鉴定的任何CDR3肽都被认为是假阳性(Elias，J.E.和Gygi，S.P，2007)。从诱饵数据库搜索中非特异性鉴定出大量假阳性CDR3肽。发现这些假肽谱匹配通常含有较差的CDR3指纹序列上的MS/MS片段化(图7E、7F)。这些错误匹配中的绝大多数(95％)可通过使用我们已经实现的简单片段化过滤器来去除，所述过滤器要求在MS2光谱中至少覆盖50％(通过胰蛋白酶，图1G)和40％(通过糜蛋白酶，图1H)的CDR3高分辨率诊断离子(图1K、1L)。在集成到新的开源软件“Augur Llama”(图8A-8C)中进行可靠的Nb蛋白质组分析之前，基于CDR3长度进一步优化了过滤器(图1I、1J)。

实施例2.开发用于Nb发现和表征的综合蛋白质组学管道。

本文显示了用于全面定量Nb蛋白质组学和抗原-Nb复合物的高通量结构表征的稳健平台(方法、图2A)。用感兴趣的抗原对驯养骆驼科动物进行免疫。接着从免疫骆驼科动物的血液和/或骨髓中制备Nb cDNA文库(Fridy，2014)。进行NGS以创建＞10⁷个独特Nb蛋白序列的丰富数据库(图8E、8F)。同时，从血清中亲和分离抗原特异性V_HH，并使用逐步梯度的盐或pH缓冲液洗脱。用胰蛋白酶或糜蛋白酶有效消化分级分离的HcAb以释放Nb CDR肽，用于通过与高分辨率MS联用的纳流液相色谱进行鉴定和定量。通过数据库搜索的初始候选物被注释为CDR鉴定。过滤CDR3指纹以去除假阳性，定量它们来自不同生化级分的丰度以推断Nb亲和力，并组装成Nb蛋白-所有上述步骤均由Augur Llama自动化。所述管道能够鉴定和表征空前规模的多样化、特异性和高质量的Nb。同时，为了能够对数以万计的抗原-Nb相互作用进行结构分析，已经开发出一种稳健的方法来集成高通量计算对接(Schneidman-Duhovny，2005)、交联和质谱(CXMS)(Chait，2016：Rout，2019；Yu，2018；Leitner，2016)和诱变。进一步开发了一种深度学习方法来学习与Nb库相关的潜在特征。

实施例3.对抗原特异性Nb的稳健、深入和高质量鉴定。

为了验证此管道，选择了三种基准抗原：谷胱甘肽S-转移酶(GST)、人血清白蛋白(HSA)-一种重要的药物靶标(Larsen，2016)，以及源自线粒体外膜蛋白25的小PDZ域。这些抗原跨越三个数量级的免疫反应，其中PDZ仅具有弱免疫原性(图2B)，并且是评估我们技术的稳健性的理想选择。

此处，鉴定了64,670个独特的Nb_GST序列(来自3,453个CDR3 Nb家族的9,915个独特的CDR组合)、34,972个独特的Nb_HSA(来自2,286个独特的CDR3 Nb家族的7,749个独特的CDR)和2,379个高质量Nb_PDZ序列的较小队列(来自230个CDR3家族的495个独特的CDR)(方法，图2C、8G)。已证实糜蛋白酶提供了用于从所测试的各种蛋白酶中鉴定Nb的最有用的指纹信息(图2D、2E)。Nb库表现出异常的CDR3多样性(图8D)。

从三个抗原特异性Nb组中随机选择一组146个Nb，并在大肠杆菌中表达。一组130个Nb(89％)表现出优异的溶解性且可容易地大量纯化(图2F)。采用补充方法，包括免疫沉淀、ELISA和SPR以评估抗原结合(方法、图2G、9C、9D、10、表1-3)。由胰蛋白酶和糜蛋白酶鉴定的Nb的质量相当高(图8H)。GST、HSA和PDZ分别确认了86.2％(CI_95％：6.8％)、90.5％(CI_95％：11.5％)和100％真正的Nb结合剂。这些结果证明了这种方法的高灵敏度和特异性。

实施例4.Nb蛋白质组的准确大规模定量和聚类。

评估了不同策略以基于亲和力对Nb进行准确分类。简而言之，抗原特异性HcAb从血清中亲和分离并通过逐步高盐梯度、高pH缓冲液或低pH缓冲液洗脱(方法、图8I、8J)。通过无标记定量蛋白质组学对不同的HcAb级分进行了准确定量(Zhu，2010；Cox，J.和Mann，M，2008)。接着基于它们的相对离子强度将CDR3肽(和相应的Nb)聚类成三组(图3A、3B、9A和9B)。此分类通过高pH法将31％的Nb_GST和47％的Nb_HSA分配至C3高亲和力组中(图3C)。随机表达来自每个簇的许多具有独特CDR3序列的Nb_GST，并通过ELISA和SPR(R²＝0.85，图3D、表1)来评估不同的分级分离方法。虽然低pH方法没有提供足够的分辨率来分离不同的亲和力组，但盐梯度，特别是高pH方法能够基于Nb的亲和力进行显著且可重复的Nb分离(图3E)。来自高pH簇1和2(C1、C2)的Nb通常分别具有从μM几十nM的低和中等亲和力，而超过50％的C3是超高亲和力、亚nM结合剂(图3H、9D)。为了进一步验证此结果，从C3中纯化了一组随机的25个Nb_HSA(具有不同的CDR3)，并对它们的ELISA亲和力进行排序(图3F、表2)。选择前14个Nb_HSA进行SPR测量，其中11个具有数十至数百pM的亲和力与不同的结合动力学。剩余的3个Nb_HSA表现出个位数的nM K_D(图3I、10A)。纯化了13个可溶性Nb_PDZ，并通过ELISA和免疫沉淀确认了它们的高亲和力(图3G、10B和表3)。代表性的高度可溶Nb_PDZ P10的K_D为4.4pM(图3J)。

天然线粒体的免疫沉淀(Nb_GST)和荧光成像(Nb_PDZ)的超高亲和力Nb(图3K、3L)进一步得到积极评价。定量方法能够基于所需特性(如亲和力)对Nb蛋白质组进行大规模和准确的分类。

实施例5.通过综合结构测定方法揭示的抗原结合的Nb蛋白质组的景观。

高质量Nb的大型库的鉴定和分类允许研究抗原结合的体液免疫反应的总体结构景观。34,972个Nb_HSA的结构对接和聚类揭示了三个主要的HSA表位(图4A)。丰富的天然血清白蛋白(76％与HSA相同，图12H)的存在允许对骆驼科动物体液免疫的特异性进行研究。比对两个白蛋白序列，并基于pI和亲水性计算其变化(方法、图4A)。所有三个表位都与对应于大序列差异的pI和亲水性的主峰共同定位。此结果说明了Nb对抗原识别的特殊特异性。似乎Nb优先结合稳定的螺旋二级结构(图4B)。发现表位是高度带电的。E2和E3主要是负的(分别为-4和-5净形式电荷，图13D)，而E1更不均匀，具有混合电荷-2净形式电荷)(图4C)。

19个HSA-Nb复合物(Shi，2014；Kim，2018)被交联以验证通过对接鉴定的表位。总体而言，模型满足了92％的交联，所述模型的中值RMSD为(图4J、4K)。交联证实了对接结果，并鉴定了两个大量聚集的表位(E2、E3)(分别为65％和20％)(图4D、表2)。E1由低丰度(5％)的交联鉴定。交联还鉴定了对接未揭示的另外两个次要表位(图4D)。在HSA与Nb之间观察到高度的形状互补性，包括凸Nb互补位和凹HSA表位(图4E-4G)。为了进一步确认主要的E2，我们在HSA、E400R上引入了对整体结构的影响最小的单点突变(Pires，2016)。所得突变反转表面电荷以模拟骆驼科动物白蛋白的E2中直系同源位置的正电荷，可能破坏其与NbCDR3中的精氨酸之间形成的盐桥(图4H)。接着选择19种高亲和力结合剂，并通过ELISA评估HSA-Nb相互作用上的这种点突变(图4I、表2)。E400R几乎完全消除了测试的19个Nb中5个(26％)的结合，表明E2是真正的主要表位。

此方法进一步用于对64，670个GST-Nb复合物的表位作图。GST上的三个主要表位被准确鉴定(图11A、11B、11F、11G)并通过交联验证，E1、E2和E3的相对丰度分别为18.75％、31.25％和50％(图11D、11E)。E1和E3含有带负电表面贴片。E2与GST二聚化腔重叠(图11C)；在本文所示的模型中，E2Nb将其CDR3插入此腔中。与HSA相似，证实了对带电表面残基的偏好和Nb的高度形状互补性。总之，这些结果表明Nb可结合不同的蛋白质表面，并且更偏好抗原上的高电荷腔。

实施例6.探索Nb亲和力成熟的机制。

基于最可靠分类的高pH数据集，研究了区分高亲和力(成熟)和低亲和力Nb的物理化学和结构特征。较短的CDR3分别具有HSA和GST的高亲和力结合剂的不同分布(图5A)，从而降低了抗原结合的熵。观察到pI显著增加(图5B)，从低亲和力的微酸性到高亲和力Nb的相对碱性。

比较了CDR对Nb的pI和亲水性的贡献，并确定CDR3_HSA主要负责Nb_HSA的极性转变，而CDR1_GST和CDR2_GST主要负责Nb_GST的极性转变(图5C)。观察到高亲和力Nb的亲水性稍高(图5D)。

CDR3的结构可被视为具有由最高序列变异性组成的“头部”区域和较低特异性的“躯干”区域(Finn，2016)(图5E)。某些残基在CDR3头部富集，包括天冬氨酸和精氨酸(形成强静电相互作用)(Tiller，2017)、甘氨酸和丝氨酸的小而灵活的残基、丙氨酸和亮氨酸等疏水性残基、以及酪氨酸的芳香族残基(图5F和图12)。比较了不同亲和力组的Nb，并且发现了三个主要差异。第一，高亲和力Nb富含带电残基(Mitchell，L.S.和Colwell，L.J，2018)(方法、图5G)。第二，针对不同抗原鉴定了复杂的差异：高亲和力Nb_HSA倾向于通过增加带正电残基(39％)和减少(46％)CDR3头部上的带负电残基来增强静电。高亲和力Nb_GST主要改变了它们在其它CDR上的电荷。在CDR1和CDR2上分别发现带正电残基增加了29.2％和117.2％，且带负电残基减少了44.2％和21.5％。电荷的变化可能会增加Nb与表位之间的物理化学互补性。第三，对于高亲和力Nb_HSA，酪氨酸(51％)、甘氨酸和丝氨酸(58％)在CDR3头部上更富集。对于高亲和力Nb_GST，酪氨酸在CDR3头部中增加(73％)，但甘氨酸和丝氨酸的分率几乎不受影响。

为了进一步探索这些残基对增强HSA结合亲和力的推定作用，沿CDR3头部计算它们的定位频率(图5H)。酪氨酸更常见于高亲和力Nb_HSA的CDR3头部中心，使其庞大的芳香族侧链能够插入特定的表位袋(Desmyter，1996；Li，2016)。甘氨酸和丝氨酸倾向于远离CDR3中心，提供额外的灵活性并促进酪氨酸侧链在抗原袋中的定向。这些结果通过这些残基基团的数目与我们的纯化Nb的ELISA亲和力之间的相关性分析得到证实(图5I、5J)。

开发了一个深度学习模型来学习启用Nb亲和力分类的潜在特征(方法)。用于高亲和力结合剂分类的信息最丰富的Nb_HSA CDR3过滤器揭示了连续赖氨酸和精氨酸、酪氨酸和甘氨酸的模式(图5K、表4)。对于低亲和力结合剂，信息最丰富的过滤器优先选择苯丙氨酸、组氨酸和两个连续天冬氨酸。此外，此分析揭示了高亲和力和低亲和力结合剂分别具有连续的负电荷和正电荷对的趋势。

实施例7.Nb用于抗原识别的出色多功能性和弹性。

对弱免疫原性PDZ域的数百个不同的高亲和力Nb_CDR3家族的鉴定促进了对此类相互作用的结构基础的研究。基于对接鉴定了两个推定的表位(图6A、13B)。E2可为主要表位，因为它具有大的带正电表面(图6A、6B)，并且它更具有α螺旋和两条β链的结构。E2与许多PDZ相互作用蛋白之间共有的保守配体结合位点重叠(Sheng，2001；Doyle，1996)(图6C)。值得注意的是，Nb_PDZ已获得比天然PDZ配体高＞100,000倍的亲和力(以μM亲和力计)(Niethammer，1998)(图3J)。如此高的亲和力可能是通过长CDR3环缠绕在小而浅的表位周围，形成广泛的静电和疏水相互作用而实现的(图6C、13A)。建模结果表明，PDZ表位中第二条β链的R46和K48与Nb_PDZ中的相应残基形成盐桥。产生双突变PDZ(R46E：K48D)并通过ELISA评估其对Nb_PDZ的亲和力。大多数(8/11)Nb_PDZ对突变体展现显著降低的亲和力或无亲和力，证实E2确实是主要表位(图6D)。

Nb_PDZ还有其它几个观察结果。首先，CDR3环长度的分布形成了一个中值为约20aa的主峰，突破了其自然分布的上限(图6E)。其次，Nb_PDZ相当酸性，中值pI为4.9(图6F)，其主要是由CDR3贡献的(图6E、13F)。再次，尽管Nb_PDZ呈酸性，但由于疏水性残基的补偿，Nb_PDZ似乎没有明显改变亲水性(图6G、13E)。最后，带负电天冬氨酸和小甘氨酸和丝氨酸显著增加，占CDR3头部残基的一半；与高亲和力的Nb_GST和Nb_HSA相比，大体积酪氨酸的减少也很明显，反映了E2的结合袋相当浅(图7C、7E)。总的来说，这些结果证明了Nb在抗原结合方面的显著多功能性。

本研究报告了一个稳健平台的开发，所述平台集成了蛋白质组学、信息学和结构建模技术，用于分析抗原结合的Nb蛋白质组。所述管道能够灵敏且可靠地鉴定针对不同挑战性抗原的大量高质量Nb。它还可基于循环Nb的物理化学特性对它们进行准确分类。我们的技术鉴定出数以千计的超高亲和力Nb。结合计算对接和结构蛋白质组学，本研究对102,673个抗原-Nb复合物进行了结构表征、作图并验证了主要表位。这种“大数据”分析首次允许对体液免疫反应进行全局范围的蛋白质组学和结构解剖。

这些结果以前所未有的深度揭示了抗原结合的Nb的效率、特异性、多样性和多功能性，它们共同塑造了骆驼科动物抗体免疫的史诗景观(图6H)。

效率：Nb有效地利用形状和静电互补性进行结合。特定的残基，例如带电天冬氨酸和精氨酸、芳香族酪氨酸，以及小的、灵活的甘氨酸和丝氨酸允许产生高亲和力Nb的环灵活性。揭示了特定于不同CDR的复杂和微调的相互作用。此外，证实了存在多个与Nb结合的优势表位，这可作为有效识别病原体的一般机制(Akram，A.和Inman，R.D，2012)。

特异性和多样性：发现了数千个高度不同的Nb，它们进化为识别具有一些最显著序列变化的特定HSA表面袋(图4A)，以确保特异、有效且安全的免疫反应。

多功能性：对于倾向于逃避免疫反应的抗原，例如PDZ，Nb可极大地改变互补位的大小和物理化学特性，以模拟具有出色亲和力和特异性的天然配体结合。所述研究显示了蛋白质-蛋白质相互作用令人着迷的快速演变。

Nb在病毒中和以及酶活性抑制方面非常有效(Lauwereys，1998；Desmyter，1996；Acharya，2013；Arabi，2017)。这些发现表明，这些高度稳健和高效的骆驼科动物HcAb在进化上有利于它们在干旱的自然栖息地和侵袭性致病挑战中的生存，而这种令人难以置信的选择和适应背后的驱动力仍然是神秘的(Flajnik，2011)。

这些技术可在具有挑战性的生物医学应用，例如癌症生物学、脑研究和病毒学中找到广泛的用途。这些用于Nb蛋白质组学的信息学工具可免费提供给研究团体。高质量的Nb数据集可作为研究抗体-抗原的蓝图，且可促进计算抗体设计(Sircar，2011；Baran，2017；Chevalier，2017)。

实施例8.方法

动物免疫。两只美洲驼分别用1mg初始剂量的HSA和线粒体外膜蛋白25(OMP25)的GST和GST融合PDZ域的组合进行免疫，然后每3周连续三次进行0.5mg的加强免疫。在最后一次免疫增强后10天从动物身上提取出血和骨髓抽吸物。所有上述程序均由Capralogics，Inc.按照IACUC协议执行。

mRNA分离和cDNA制备。使用Ficoll梯度(Sigma)从350ml免疫血液中分离出大约1-3×10⁹个外周单核细胞，并从30ml骨髓抽吸物中分离出5-9×10⁷个浆细胞。使用RNA酶试剂盒(NEB)从各个细胞中分离出mRNA，并使用Maxima^TM H Minus cDNA Synthesis Master Mix(Thermo)将mRNA逆转录为cDNA。使用引物CALL001(GTCCTGGCTGCTCTTCTACAAGG，SEQ ID NO：2646)和CH2FORTA4(CGCCATCAAGGTACCAGTTGA，SEQ ID NO：2647)特异性扩增从可变域到CH2域的骆驼科动物IgG重链cDNA序列(Abrabi，1997)。将缺乏CH1域的V_HH基因从常规IgG中分离出来并通过DNA凝胶电泳纯化(Qiagen)，且随后使用第2正向(ATCTACACTCTTTCCCTACACGACGCTCTTCCGATCTNNNNNNNNATGGCT[C/G]A[G/T]GTGCAGCTGGTGGAGTCTGG，SEQ ID NO：2648，其中N代表A、T、C或G)和第2反向(GTGACTGGAGTTCAGACGTGTGCTCTTCCGATCTNNNNNNNNGGAGACGGTGACCTGGGT，SEQ ID NO：2649，其中N代表A、T、C或G)从框架1重新扩增到框架4。添加了随机8聚体替换接头序列以帮助Illumina MiSeq的簇鉴定。使用Monarch PCR清理试剂盒(NEB)纯化第二PCR的扩增子(大约450-500bp)。使用引物MiSeq-F(AATGATACGGCGACCACCGAGATCTACACTCTTTCCCTA，SEQ ID NO：2650)和MiSeq-R(CAAGCAGAAGACGGCATACGAGATTTCTGAATGTGACTGGAGTTCA，SEQ ID NO：2651)进行最后一轮PCR，以在MiSeq测序之前添加具有索引的P5/P7衔接子。

Illumina Miseq的下一代测序。测序基于Illumina MiSeq平台与300bp双末端模型。每个数据库生成了超过3000万个读段。FastQC v0.11.8(www.bioinformatics.babraham.ac.uk/projects/fastqc/)中的读取QC工具用于FASTQ数据的质量检查和控制。原始Illumina读段由BBMap项目(github.com/BioInfoTools/BBMap/)中的软件工具处理。在将核苷酸序列转换为氨基酸序列之前，连续去除重复的读段和DNA条形码序列。

从免疫血清中分离和生化分级分离V_HH抗体。通过Ficoll梯度(Sigma)从350ml免疫血液中分离出大约175ml血浆。骆驼科动物单链V_HH抗体通过使用蛋白G和蛋白A琼脂糖珠(Marvelgent)的两步纯化程序从血浆上清液中分离，酸洗脱，然后中和并在1×PBS缓冲液中稀释至0.1-0.3mg/ml的最终浓度。为了纯化抗原特异性V_HH抗体，将GST或HSA偶联的CNBr树脂与V_HH混合物一起在4℃下培育1小时，并用高盐缓冲液(1×PBS和350mM NaCl)充分洗涤以去除非特异性结合剂。接着使用以下洗脱条件之一从树脂中释放特异性V_HH抗体：碱性(1-100mM NaOH，pH11、12和13)、酸性(0.1M甘氨酸，pH 3、2和1)或盐洗脱(1M-4.5M MgCl₂于中性pH缓冲液中)。为了纯化PDZ特异性V_HH，产生了MBP-PDZ的融合蛋白(其中麦芽糖结合蛋白/MBP融合至PDZ域的N末端以避免偶联后小PDZ的空间位阻)并用作亲和柄。MBP偶联树脂用于对照(图6J)。在蛋白质组学分析之前，将所有洗脱的V_HH分别中和并透析至1×DPBS中。

抗原特异性Nb的蛋白水解和与质谱联用的纳流液相色谱(nLC/MS)分析。对于GST和HSA V_HH，根据以下方案分别处理每个洗脱。对于PDZ特异性V_HH，只有最严格的生化洗脱物(即pH 13、pH 1、MgCl₂ 3M和4.5M)和来自不同级分的相应非特异性MBP结合剂(阴性对照)被汇集用于蛋白水解。例如，对于由pH13缓冲液洗脱的PDZ特异性V_HH，非特异性MBP结合Nb从pH 11、pH12和pH13级分中汇集用于阴性对照，以提高我们的下游LC/MS定量的严格性。V_HH在57℃下在8M尿素缓冲液(含50mM碳酸氢铵、5mM TCEP和DTT)中还原1小时，并在室温下在黑暗中用30mM碘乙酰胺烷基化30分钟。接着将烷基化样品分成两份并在溶液中使用胰蛋白酶或糜蛋白酶进行消化。对于胰蛋白酶消化样品，添加1∶100(w/w)胰蛋白酶和Lys-C并在37℃下消化过夜，第二天早上在37℃水浴中再添加1∶100胰蛋白酶后维持4小时。对于糜蛋白酶消化样品，添加1∶50(w/w)糜蛋白酶并在37℃下消化4小时。蛋白水解后，肽混合物通过自填充的stage-tips或Sep-pak C18色谱柱(Waters)脱盐，并使用与Q Exactive^TM HF-XHybrid Quadrupole Orbitrap^TM质谱仪(Thermo Fisher)在线联用的nano-LC 1200进行分析。简而言之，将脱盐的Nb肽加载到分析柱(C18，1.6μm粒径，孔径，75μm×25cm；IonOpticks)上，并使用90分钟液相色谱梯度(5％B-7％B，0-10分钟；7％B-30％B，10-69分钟；30％B-100％B，69-77分钟；100％B，77-82分钟；100％B-5％B，82分钟-82分10秒；5％B，82分10秒-90分钟；流动相A由0.1％甲酸(FA)组成，且流动相B由含0.1％FA的80％乙腈(ACN)组成)洗脱。流速为300nl/min。QE HF-X仪器在数据依赖模式下运行，其中前12个最丰富的离子(质量范围350-2,000，电荷状态2-8)被高能碰撞解离(HCD)片段化。MS的目标分辨率为120,000，且串联MS(MS/MS)分析的目标分辨率为7,500。四极隔离窗口为1.6Th，且MS/MS的最大进样时间设置为80ms。

Nb DNA合成和克隆。Nb基因经过密码子优化以在大肠杆菌中表达，且核苷酸在体外合成(Synbiotech)。通过桑格测序验证后，将Nb基因在BamHI和XhoI(对于GST Nb)或EcoRI和NotI限制性位点(对于HSA和PDZ Nb)处克隆至pET-21b(+)载体中。

重组蛋白的纯化。根据制造商的说明书将DNA构建体转化到BL21(DE3)感受态细胞中，并在37℃下用50μg/ml氨苄青霉素在琼脂上涂铺过夜。将单个菌落接种于含有氨苄青霉素的LB培养基中，用于在37℃下过夜培养。接着将培养物以1∶100(v/v)接种在新鲜的LB培养基中，并在37℃下摇动，直至O.D.600nm达到0.4-0.6。GST、GST-PDZ和Nb用0.5mM IPTG诱导，而MBP和MBP-PDZ用0.1mM IPTG诱导。诱导在16℃下过夜进行。接着收获细胞，短暂超声处理并用裂解缓冲液(1×PBS、150mM NaCl、0.2％TX-100与蛋白酶抑制剂)在冰上裂解。裂解后，以15,000xg收集可溶性蛋白质提取物10分钟。GST和GST-PDZ使用GSH树脂纯化并用谷胱甘肽洗脱。MBP(麦芽糖结合蛋白)和MBP-PDZ融合蛋白通过使用直链淀粉树脂纯化，并根据制造商的说明书用麦芽糖洗脱。Nb用His-Cobalt树脂纯化并用咪唑洗脱。随后将洗脱的蛋白质在透析缓冲液(例如1×DPBS，pH 7.4)中透析，并在使用前储存在-80℃下。

Nb免疫沉淀分析。在Nb诱导和细胞裂解后，细胞裂解物在SDS-PAGE上运行以估计Nb表达水平。将细胞裂解中的重组Nb在1×DPBS(pH 7.4)中稀释至最终浓度为约5μM(对于GST Nb)和约50nM(对于PDZ Nb)。为了测试Nb与抗原的特异性相互作用，将不同的抗原与CNBr树脂偶联。灭活或MBP共轭的CNBr树脂用于对照。将抗原偶联树脂或对照树脂与Nb裂解物一起在4℃下培育30分钟。接着用洗涤缓冲液(1×DPBS，含150mM NaCl和0.05％Tween20)洗涤树脂三次，以去除非特异性结合。接着通过含有20mM DTT的热LDS缓冲液从树脂中洗脱特异性抗原结合的Nb，并在SDS-PAGE上运行。在抗原特异性信号与对照信号之间比较凝胶上Nb的强度，以得出假阳性结合。

ELISA(酶联免疫吸附分析)。进行间接ELISA以评估抗原的骆驼科动物免疫反应并定量抗原特异性Nb的相对亲和力。在4℃下在涂布缓冲液(15mM碳酸钠、35mM碳酸氢钠，pH9.6)中以每孔约1-10ng的量将抗原涂布至96孔ELISA板(R&D system)上过夜。接着在室温下用封闭缓冲液(DPBS、0.05％Tween 20、5％牛奶)封闭孔表面2小时。为了测试免疫反应，免疫血清在封闭缓冲液中连续稀释5倍。稀释的血清与抗原涂布的孔一起在室温下培育2小时。在封闭缓冲液中以1∶10,000稀释HRP结合的抗美洲驼Fc的二抗(Bethyl)，并在室温下与每个孔一起培育1小时。对于Nb亲和力测试，不结合感兴趣的抗原的加扰Nb用于阴性对照。用于测试和加扰阴性对照的两种特定结合剂的Nb在封闭缓冲液中从10μM连续稀释10倍至1pM。抗His-标签(Genscript)或T7-标签(Thermo)的HRP结合二抗在封闭缓冲液中以1∶5,000或1∶10,000稀释并在室温下培育1小时。用1×PBST(DPBS、0.05％Tween 20)进行三次洗涤，以去除培育之间的非特异性吸光度。最后一次洗涤后，在室温下在黑暗中将样品与新鲜制备的w3，3′，5，5′-四甲基联苯胺(TMB)底物一起进一步培育10分钟以产生信号。在STOP溶液(R&D system)后，在读板器(Multiskan GO，Thermo Fisher)上以多个波长(450nm和550nm)读取板。如果满足以下两个标准中的任何一个，则定义为假阳性Nb结合剂：i)ELISA信号只能在10μM浓度下检测到，而在1μM浓度下检测不到。ii)在1μM浓度下，与10μM的信号相比，检测到明显的信号减少(超过10倍)，而在较低浓度下则无法检测到信号。原始数据由Prism 7(GraphPad)处理以拟合4PL曲线并计算logIC50。

通过SPR测量Nb亲和力。表面等离子共振(SPR，Biacore 3000系统，GEHealthcare)用于测量Nb亲和力。通过以下步骤将抗原蛋白固定在激活的CM5传感器芯片上。蛋白质分析物在10mM乙酸钠，pH 4.5中稀释至10-30μg/ml，并以5μl/min注入SPR系统持续420s。接着用1M乙醇胺-HCl(pH 8.5)封闭传感器表面。对于每种Nb分析物，将一系列稀释液(跨越三个数量级)以20-30μl/min的流速注入含有2mM DTT的HBS-EP+运行缓冲液(GE-Healthcare)中，持续120-180秒，接着为基于解离速率的5-20分钟的解离时间。在每次注射之间，传感器芯片表面用含有10mM甘氨酸-HCl的低pH缓冲液(pH 1.5-2.5)或20-40mM NaOH的高pH缓冲液(pH 12-13)再生。再生以40-50μl/min的流速进行30秒。重复所述测量，并且仅使用高度可重复的数据进行分析。通过拟合1∶1朗缪尔模型或具有传质的1∶1朗缪尔模型，使用BIAevaluation处理和分析每个Nb的结合传感图。

抗原-纳米抗体复合物的交联和质谱分析。在交联前，将不同的Nb与等摩尔浓度的感兴趣的抗原一起在4℃下在无胺缓冲液(例如1×DPBS和2mM DTT)中培育1-2小时。分别以1mM或2mM终浓度将胺特异性二琥珀酰亚胺辛二酸(DSS)或异双功能接头1-乙基-3-(3-二甲基氨基丙基)碳二亚胺盐酸盐(EDC)添加至抗原-Nb复合物中。对于DSS交联，反应在23℃下在持续搅拌下进行25分钟。对于EDC交联，反应在23℃下进行60分钟。反应物在室温下用50mM Tris-HCl(pH 8.0)淬灭10分钟。在蛋白质还原和烷基化后，交联的样品通过4-12％SDS-PAGE凝胶(NuPAGE，Thermo Fisher)分离。如前所述(Shi，2014；Shi，2015)，切割对应于交联物种的区域并用胰蛋白酶和Lys-C进行凝胶内消化。蛋白水解后，将肽混合物脱盐并使用与Q Exactive^TM HF-X Hybrid Quadrupole-Orbitrap^TM质谱仪(Thermo Fisher)联用的nano-LC 1200(Thermo Fisher)进行分析。将交联肽加载至picochip柱(C18，3μm粒径，孔径，50μm×10.5cm；New Objective)上，并使用60分钟LC梯度洗脱：5％B-8％B，0-5分钟；8％B-32％B，5-45分钟；32％B-100％B，45-49分钟；100％B，49-54分钟；100％B-5％B，54分钟-54分10秒；5％B，54分10秒-60分10秒；流动相A由0.1％甲酸(FA)组成，且流动相B由含0.1％FA的80％乙腈组成。QE HF-X仪器在数据依赖模式下运行，其中前8个最丰富的离子(质量范围380-2,000，电荷状态3-7)被高能碰撞解离(标准化碰撞能量27)片段化。MS的目标分辨率为120,000，而MS/MS分析的目标分辨率为15,000。四极隔离窗口为1.8Th，且MS/MS的最大进样时间设置为120ms。MS分析后，通过pLink2搜索数据以鉴定交联肽(Chen，2019)。MS和MS/MS的质量精度分别指定为10和20p.p.m.。其它搜索参数包括作为固定修饰的半胱氨酸脲基甲基化和作为可变修饰的甲硫氨酸氧化。最多允许三个胰蛋白酶缺失裂解位点。初始搜索结果是使用默认的5％错误发现率获得的，使用靶标-诱饵搜索策略进行估计。接着手动检查交联光谱以去除假阳性鉴定，基本上如前所述(Shi，2014；Kim，2018；Shi，2015)。

定点诱变。HSA的哺乳动物表达质粒获自Addgene。通过Q5定点诱变试剂盒(NEB)使用引物HSA-F(GGTGTTCGACCGGTTCAAGCCTCTGG，SEQ ID NO：2652)和HSA-R(TTGGCGTAGCACTCGTGA，SEQ ID NO：2653)将E400R点突变引入HSA序列。在通过桑格测序验证序列后，根据制造商的方案，使用Lipofectamine 3000转染试剂盒(Thermo)和Opti-MEM(Gibco)将携带野生型HSA和突变体的质粒转染至HeLa细胞中。将细胞培养过夜，然后将培养基更换为不含FBS补充剂的DMEM以去除BSA。在37℃、5％CO₂下培养48小时后，表达HSA的培养基被收集并储存在-20℃下。通过SDS-PAGE和蛋白质印迹分析培养基以确认蛋白质表达。

PDZ域(在pGEX6p-1载体中)获自General Biosystems。使用PDZ-F(TGATGAAAATGGCGCAGCC，SEQ ID NO：2654)和PDZ-R(ATTTCACTCACATAGATACCACTATCATTACTAACATAC，SEQ ID NO：2655)的特异性引物，通过Q5定点诱变试剂盒引入PDZ的双点突变体(即R46E：K48D)。经桑格测序验证后，将突变载体转化至BL21(DE3)细胞中进行表达。如前所述地通过GSH树脂纯化GST融合PDZ突变蛋白。

荧光显微术。将COS-7细胞以60-70％的初始汇合度涂铺在玻璃底培养皿上，并培养过夜以使细胞附着在培养皿上。细胞与MitoTracker Orange CMTMRos(1∶4000)一起在37℃下保持30分钟，用PBS洗涤一次并用预冷的甲醇/乙醇(1∶1)固定10分钟。用PBS洗涤细胞后，细胞用5％BSA封闭1小时。接着将Alexa Fluor^TM 647结合的Nb(1∶100)添加至细胞中，在室温下培育15分钟。使用我们定制的系统在具有561nm和642nm激发激光器(MPBCommunications，Pointe-Claire，Quebec，Canada)和100X油浸物镜(NA＝1.4，UPLSAPO100XO；Olympus)的Olympus IX71倒置显微镜框架上获取双色宽视场荧光图像。

基于文本的CDR(互补确定区域)注释。CDR注释方法是从(Fridy，2014)修改的。[*]表示任何残基。

CDR1注释：首先搜索短序列基序“SC”，它位于Nb序列的残基20-残基26之间。CDR1序列的起点定义为第5个残基，后跟“SC”基序。一旦鉴定出第一个残基，我们接着就寻找另一个序列基序“W[*]R”，其位于Nb残基32-残基40之间，并将CDR1序列的末端定义为“W[*]R”基序之前的第一个残基。

CDR2注释：CDR2序列的起点定义为第14个残基，后跟“W[*]R”基序。一旦鉴定出第一个残基，接着就鉴定位于Nb残基63-残基72之间的基序“RF”，并将CDR2序列的末端定义为“RF”基序之前的第8个残基。

CDR3注释：首先搜索“Y[*]C”或“YY[*]”的基序，其位于Nb残基90-残基105之间。CDR3序列的起点定义为第3个残基，后跟“Y[*]C”或“YY[*]”基序。一旦鉴定出CDR3的第一个残基，以下序列基序(“WG[*]G”、“WGQ[*]”、”W[*]Q[*]”、“[*]GQG”、”[*][*]GQ”和”WG[*][*]”)中的任一个接着用于定位CDR3的末端。这些基序位于C末端Nb序列的最后14个残基内。CDR3在序列基序之前的1个残基处结束。更多信息可在Augur Llama脚本中找到。

不同蛋白酶对Nb进行计算机模拟消化的裂解规则：

胰蛋白酶：C末端至K/R，后面不跟P

糜蛋白酶：C末端至W/F/L/Y，后面不跟P

GluC：C末端至D/E，后面不跟P

AspN：N末端至D

LysC：C末端至K

Nb数据库的序列比对：使用软件ANARCI(Dunbar，J.和Deane，C.M，2016)。根据IMGT编号方案(Lefranc，2003)注释了三个CDR(CDR1-CDR3)和四个框架序列(FR1-FR4)。低于阈值e值100的比对被去除，且由WebLogo绘制其余序列(Crooks，2004)。

不同蛋白酶对Nb数据库的计算机模拟消化和Nb CDR3作图分析。根据上述裂解规则，使用包括胰蛋白酶、糜蛋白酶、LysC、GluC和AspN在内的不同酶对含有大约50万个独特Nb序列的高质量数据库进行计算机模拟消化。获得含有CDR3的肽以计算序列覆盖率。接着将CDR3覆盖率相加以生成图1D和7B。绘制CDR3肽长度分布(通过胰蛋白酶和糜蛋白酶)以生成图1E。

模拟Nb的胰蛋白酶和糜蛋白酶辅助的MS作图。从数据库中随机选择了10,000个具有独特CDR3指纹序列的Nb序列。接着用胰蛋白酶或糜蛋白酶对所选Nb进行计算机模拟消化(不允许错误裂解位点)以产生CDR3肽。将以下标准应用于这些肽以更好地模拟由MS进行的Nb鉴定：1)首先选择适合自下而上蛋白质组学的大小(850-3,000Da之间)的肽。2)进一步丢弃含有WGQGQVTS的高度保守的C末端FR4基序的肽。根据我们的观察，此类肽通常以C末端y离子片段化为主，而CDR3序列上的片段化离子较差，这对于明确的CDR3肽鉴定至关重要。3)去除了具有有限Nb指纹信息(含有少于30％CDR3序列覆盖率)的CDR3肽。结果，获得了2,111个独特的胰蛋白酶肽和5,154个独特的糜蛋白酶肽。接着使用这些肽对Nb蛋白作图。蛋白质组装后，仅具有足够高CDR3指纹序列覆盖率(≥60％)的Nb鉴定用于生成图1F中的维恩图(venn diagram)。

Nb CDR3序列的系统发育分析。由Clustal Omega(Sievers，2014)通过输入独特的Nb CDR3序列和额外的侧接序列(即YYCAA到CDR3序列的N末端和WGQG到所述序列的C末端)生成系统发育树，以协助比对。数据由ITol(Interactive Tree ofLife)绘制(Letunic，I.和Bork，P，2007)。使用BioPython文库计算Nb CDR3的等电点和疏水性。序列比对由Jalview(Waterhouse，2009)可视化。

评估Nb肽定量的重现性。不同LC运行之间共享的肽鉴定用于评估无标记定量方法的重现性。对于典型的90分钟LC梯度，肽峰宽度或半峰全宽(FWHM)通常小于5秒。计算不同LC运行之间肽保留时间的差异，以生成图3B中的核密度估计图。来自不同LC运行的肽保留时间用于计算皮尔逊相关性，并绘制在图9B中。

HSA和美洲驼血清白蛋白的序列比对和分析。通过tblastn(NCBI)提取美洲驼(野骆驼(Camelus Ferus))血清白蛋白序列并与HSA比对。单个氨基酸的等电点(pI)和亲水性值在线获得自(www.peptide2.com/N_peptide_hydrophobicity_hydrophilicity.php)。这些值在0至1.0之间进行标准化，并针对每个比对位置计算两种白蛋白之间的序列变化(pI和亲水性的成对差异)。对于特定的比对残基位置，值0表示在两个序列之间发现了相同的残基，而1.0表示最大的序列变化，例如从HSA的带负电残基谷氨酸400到骆驼科动物白蛋白的相应比对位置的带正电残基精氨酸的电荷反转。在鉴定出氨基酸插入或缺失的位置指定了0.5的值。因此绘制了HSA与美洲驼血清白蛋白之间pI和亲水性的序列变化。所述图通过高斯函数进一步平滑处理，以生成图4A。

分析Nb CDR上氨基酸的相对丰度。计算每个CDR(包括CDR1、CDR2和CDR3头部)的氨基酸频率并对其进行标准化以生成图6、7、12和13中的条形图和饼图。通过去除CDR3的半保守C末端四个残基获得CDR3头部序列。基于每个亲和力组的CDR残基之和，对高亲和力和低亲和力Nb两者的CDR残基频率进行标准化。

分析CDR3头部上的氨基酸位置。计算CDR3头部上残基的相对位置，其中值0表示CDR3头部的最N末端，而1.0表示最后一个残基。然后将CDR3头部序列切成20个箱，箱宽为0.05。在每个箱中，对特定类型的氨基酸(如酪氨酸、甘氨酸或丝氨酸)的出现进行计数，并将其标准化为CDR3头部上的残基总和。不同氨基酸的分布，包括它们的相对位置和丰度绘制于图5H和12G中。

候选Nb肽的蛋白质组学数据库搜索。原始MS数据通过嵌入在ProteomeDiscoverer 2.1(Thermo Fisher)中的Sequest HT根据内部生成的Nb序列数据库进行搜索，使用标准靶标-诱饵策略进行FDR估计。MS1和MS2的质量精度分别指定为10ppm和0.02Da。其它搜索参数包括作为固定修饰的半胱氨酸脲基甲基化和作为可变修饰的甲硫氨酸氧化。对于胰蛋白酶和糜蛋白酶处理的样品，分别最多允许一个或两个缺失的裂解位点。基于q值(Kall，2007)，初始搜索结果由过滤器过滤，FDR为0.01(严格)。数据库搜索后，由Augur Llama导出、处理并分析肽谱匹配(PSM)，步骤如下：

a.纳米抗体鉴定

i)CDR3指纹的质量评估

首先将候选肽注释为CDR或FR肽。为了确信地鉴定CDR3指纹肽，我们实施了一种需要在PSM中充分覆盖高分辨率CDR3片段离子的过滤器/算法(参见图8B中的说明)。使用含有大约50万个独特Nb序列的靶标序列数据库和类似大小的非重叠诱饵数据库来评估过滤器。本文使用的靶标和诱饵Nb序列数据库从不同的美洲驼获得。来自诱饵数据库的任何肽鉴定都被认为是假阳性。FDR的定义基于诱饵数据库中的肽鉴定与靶标数据库中的肽鉴定相比的％。CDR3长度也被认为能够开发灵敏的CDR3肽过滤器。CDR3片段化覆盖率定义为在质量精度窗口内与片段离子(b离子或y离子)匹配的CDR3残基的百分比。合并相同肽的光谱用于评估。只有通过此过滤器(5％FDR)的CDR3肽才被选择用于下游Nb组装。

ii)纳米抗体序列组装

包括确信的CDR3肽在内的CDR肽用于Nb蛋白组装。在能够鉴定Nb之前，必须匹配两个附加标准。这些标准包括：1)CDR1和CDR2肽都必须可用于Nb组装。2)对于任何Nb鉴定，要求至少50％的组合CDR覆盖率。

b.抗原特异性Nb库的定量和分类

MS原始数据由MSFileReader 3.1 SP4(ThermoFisher)和pymsfilereader的python库(github.com/frallain/pymsfilereader)访问。通过无标记LC/MS对通过质量过滤器的可靠CDR3肽进行定量。

i)CDR3肽定量

为了在不同的LC运行中实现CDR3肽鉴定的准确无标记定量，指定了肽峰提取的不同保留时间窗口。对于可由搜索引擎基于MS/MS光谱直接鉴定的肽，使用+/-0.5分钟保留时间(RT)偏移的小量化窗口进行峰提取。对于未从特定LC运行直接鉴定的肽(由于肽的复杂性和随机离子采样)，它们的RT是基于相邻LC的RT预测的，并使用两次LC运行之间共同鉴定的肽的中值RT差进行调整。在这种情况下，应用+/-2.0分钟的松弛RT窗口(对于典型的90分钟LC梯度)，其中大约95％的所有鉴定的肽可在两次LC运行之间匹配，以促进提取肽峰。肽的m/z和z均用于峰提取，质量精度窗口为+/-10ppm。提取肽峰并使用高斯函数进行平滑处理。计算它们的AUC(曲线下面积)并对来自重复LC运行的AUC取平均值以推断CDR3肽强度。

ii)Nb的分类

为了实现准确分类，例如基于Nb亲和力，将三个不同生化分级分离的Nb样品(F1、F2和F3)中CDR3指纹肽的相对离子强度(AUC)定量为I1、I2和I3。基于定量结果，使用以下标准将CDR3肽任意分为三个簇(C1、C2和C3)：

1)对于C3(高亲和力)簇：I3＞I1+I2(表明Nb对F3更具特异性)

2)对于C2(中等亲和力)簇：I2＞I1+I3(表明Nb对F2更具特异性)

3)对于C1(低亲和力)簇：

I1＞I2+I3(表明Nb对F1更具特异性或可能是非特异性结合剂)，或者，如果I1＜I2+I3且I2＜I1+I3且I3＜I1+I2，则这些Nb鉴定可能是非特异性鉴定的，并且也被归为C1。参见图8C中的说明。

上述方法用于对HSA和GST Nb进行分类。对高亲和力PDZ Nb的定量和表征进行了一些修改。具体来说，包括对MBP相互作用Nb的额外控制“F_控制”(离子强度为I_控制)以用于定量。当Nb CDR3肽的I2和I3的总强度比I_控制高20倍(即20*I_控制＜I2+I3)时，定义了高亲和力簇Nb(由其独特的CDR3肽表示)。对于使用超过一种独特CDR3肽进行定量的Nb，来自同一Nb的不同CDR3肽之间的分类结果必须一致；否则，在报告最终结果之前将其去除。

CDR3肽的相对强度的热图分析。根据鉴定的CDR3肽的相对MS1离子强度对它们进行定量，且随后使用Augur Llama中的脚本进行聚类。基于相对离子强度计算Z分数并用于生成图3A中的热图以用于可视化。

抗原-Nb复合物的结构建模。使用MODELLER的多模板比较建模协议(Webb，B.和Sali，A，2014)获得了Nb的结构模型。接下来，我们细化CDR3环并选择前5个评分环构象用于下游对接。接着通过PatchDock软件的抗体-抗原对接协议将每个Nb模型对接至相应的抗原，所述协议将搜索侧重于CDR(Schneidman-Duhovny，2005)。接着通过统计潜在SOAP对模型进行重新评分(Dong，2013)。根据SOAP评分，使用10个最佳评分模型中的抗原界面残基来确定表位。一旦定义了表位，我们使用k-均值聚类基于表位相似性对Nb进行聚类。所述簇揭示了抗原上最具免疫原性的表面贴片。通过基于距离约束的PatchDock协议对具有CXMS数据的抗原-Nb复合物进行建模，所述协议优化了约束满足度(Schneidman-Duhovny，2020；Russel，2012)。如果DSS和EDC交联剂的交联残基之间的Ca-Ca距离分别在和以内，则认为满足约束(Shi，2014；Fernandez-Martinez，2016)。在含糊约束，例如GST二聚体的情况下，需要满足其中一个交联。

Nb库的机器学习分析。训练深度神经网络以区分低亲和力与高亲和力Nb，所述Nb以准确的高pH分级分离方法和定量蛋白质组学为特征。此模型由一个具有批量标准化和ReLU激活函数的卷积层组成，然后是一个以全连接层结尾的最大池化层，以将提取的特征集成至导致分类器预测的logits层中。卷积层由20个1D过滤器组成，代表窗口大小为7个氨基酸的局部感受野，其足够长以捕获相关CDR，并且足够短以避免数据过度拟合。在正向传递期间，每个过滤器以固定的步幅沿着蛋白质序列滑动，与当前序列窗口执行逐元素乘法，然后将其相加以生成过滤器响应。所述模型的分类精度为92％。

为了理解网络学习的用于区分低亲和力和高亲和力结合剂的物理化学特征，通过网络计算从预测返回到激活过滤器的激活路径。与反向传播算法类似，从全连接网络的最后两层进行反向迭代，为每个序列提取输出信号并寻找对分类贡献最大权重的最高峰。以同样的方式，计算上游每个过滤器对这些峰的贡献。另外，分析CDR中的过滤器活动以提取区域特定的主要过滤器。这种网络解释过程产生每个序列的每个过滤器的独特贡献。每个过滤器沿最大池化层中下采样的序列激活。对于每个过滤器，接着挑选其最高峰以进行分类。最后，确定了每个序列中贡献最大的过滤器，并且我们还得到了一个在这些感兴趣的区域中贡献超过30％的有趣的过滤器。

计算机实现的方法

应了解，本文相对于各图描述的逻辑操作可实施为(1)运行在计算装置(例如图14中描述的计算装置)上的计算机实现的动作或程序模块(即软件)的序列，(2)计算装置内的互连机器逻辑电路或电路模块(即硬件)，和/或(3)计算装置的软件和硬件的组合。因此，本文所论述的逻辑操作并不限于硬件和软件的任何特定组合。实现是取决于计算装置的性能和其它要求的选择问题。因此，本文中描述的逻辑操作以不同的方式称为操作、结构装置、动作或模块。这些操作、结构装置、动作和模块可实施在软件、固件、专用数字逻辑以及其任何组合中。还应了解，可执行比附图中示出且本文中描述的更多或更少的操作。这些操作也可以与本文中描述的不同的次序来执行。

参看图14，示出了可在其上实现本文所述的方法的示例性计算装置500。应理解，示例性计算装置500只是可在其上实现本文所述的方法的合适计算环境的一个实例。任选地，计算装置500可为众所周知的计算系统，包括但不限于个人计算机、服务器、手持或膝上型装置、多处理器系统、基于微处理器的系统、网络个人计算机(PC)、小型计算机、大型计算机、嵌入式系统和/或分布式计算环境，包括多个上述系统或装置中的任一者。分布式计算环境使连接至通信网络或其它数据传输介质的远程计算装置能够执行各种任务。在分布式计算环境中，程序模块、应用程序和其它数据可存储在本地和/或远程计算机存储介质上。

在计算装置500最基本的配置中，所述计算装置典型地包括至少一个处理单元506和系统存储器504。根据计算装置的确切配置和类型，系统存储器504可为易失性的(如随机存取存储器(RAM))、非易失性的(如只读存储器(ROM)、闪存等)、或这两者的某个组合。这种最基本的配置在图14中以虚线502示出。处理单元506可为执行对计算装置500的操作必要的算术和逻辑操作的标准可编程处理器。计算装置500还可包括用于在计算装置500的各种部件之间传达信息的总线或其它通信机构。

计算装置500可具有另外的特征/功能。例如，计算装置500可包括另外的存储装置，如可移动存储装置508和不可移动存储装置510，包括但不限于磁性或光学盘或带。计算装置500还可包含允许装置与其它装置通信的网络连接516。计算装置500还可具有输入装置514，如键盘、鼠标、触摸屏等。还可包括输出装置512，如显示器、扬声器、打印机等。额外装置可连接至总线，以便有助于在计算装置500的部件之间的数据通信。所有这些装置是本领域中众所周知的，并且无需在此详述。

处理单元506可配置成执行编码在有形计算机可读介质中的程序代码。有形计算机可读介质是指能够提供致使计算装置500(即，机器)以特定方式操作的数据的任何介质。可利用各种计算机可读介质来向处理单元506提供指令以供执行。示例性有形计算机可读介质可包括但不限于在任何方法或技术中实施的易失性介质、非易失性介质、可移动介质和不可移动介质，用以存储信息如计算机可读指令、数据结构、程序模块或其它数据。系统存储器504、可移动存储装置508以及不可移动存储装置510均为有形计算机存储介质的实例。示例性有形计算机可读记录介质包括但不限于集成电路(例如，现场可编程门阵列或专用IC)、硬盘、光盘、磁光盘、软盘、磁带、全息存储介质、固态装置、RAM、ROM、电可擦除编程只读存储器(EEPROM)、闪存或其它存储器技术、CD-ROM、数字多功能盘(DVD)或其它光学存储装置、磁盒、磁带、磁盘存储装置或其它磁性存储装置。

在示例实施方式中，处理单元506可执行存储在系统存储器504中的程序代码。例如，总线可将数据运载至系统存储器504，处理单元506从所述系统存储器接收指令并且执行指令。系统存储器504接收到的数据可在由处理单元506执行之前或之后任选地存储在可移动存储装置508或不可移动存储装置510上。

应理解，本文中描述的各种技术可结合硬件或软件、或在适当时结合其组合来实施。本发明公开的主题的方法和设备、或其某些方面或部分可采取实施在有形介质中的程序代码(即，指令)的形式，所述有形介质如软盘、CD-ROM、硬盘驱动器或任何其它机器可读存储介质，其中当将程序代码加载到机器(如计算装置)中并由所述机器执行时，所述机器变为一种用于实践本文公开的主题的设备。在程序代码在可编程计算机上执行的情况下，计算装置通常包括处理器、可由处理器读取的存储介质(包括易失性和非易失性存储器和/或存储元件)、至少一个输入装置以及至少一个输出装置。一个或多个程序可实施或利用结合本发明公开的主题而描述的过程，例如，通过使用应用编程接口(API)、可再用控件等。此类程序可以高级过程或面向对象的编程语言来实施以与计算机系统通信。然而，如果期望的话，程序可以汇编或机器语言来实施。在任何情况下，语言可为编译或解释语言，并且其可与硬件实施方式组合。

如上所述，本文描述的逻辑操作，例如实施例8中描述的逻辑操作可用硬件、软件或在适当的情况下用其组合来实现。例如，可使用例如图14的计算装置500的一个或多个计算设备来实现逻辑操作。实施例8中描述的逻辑操作包括但不限于确定纳米抗体肽序列的抗原亲和力的方法、训练深度学习模型的方法和推断纳米抗体肽序列的抗原亲和力的基于深度学习的方法。上文详细描述了这些操作。

在一些实施方案中，计算机实现的方法包括：

接收纳米抗体肽序列；

鉴定纳米抗体肽序列的多个CDR区，所述CDR区包括CDR3区：

应用片段化过滤器以丢弃纳米抗体肽序列的一个或多个假阳性CDR3区；

定量纳米抗体肽序列的一个或多个未丢弃CDR3区的丰度；以及

基于纳米抗体肽序列的一个或多个未丢弃CDR3区的定量丰度来推断抗原亲和力。

在一些实施方案中，一种用于训练深度学习模型的方法包括：

创建包含多个纳米抗体肽序列和对应抗原亲和标记的数据集；和

使用所述数据集来训练深度学习模型，以对具有低抗原亲和力的纳米抗体肽序列和具有高抗原亲和力的纳米抗体肽序列进行分类。

在一些实施方案中，用于确定纳米抗体肽序列的抗原亲和力的方法包括：

接收纳米抗体肽序列；

将所述纳米抗体肽序列输入至经过训练的深度学习模型中；以及

使用所述经过训练的深度学习模型将所述纳米抗体肽序列分类为具有低抗原亲和力或高抗原亲和力。

表1.GST Nb以及其生物物理和理化特性的总结

表2.HSA Nb以及其生物物理和理化特性的总结。

表3.PDZ Nb以及其生物物理和理化特性的总结

表4.GST总结：源自深度学习方法的氨基酸序列过滤器

表5.HSA总结：源自深度学习方法的氨基酸序列过滤器

参考文献

1.Muyldermans，S.Nanobodies：natural single-domain antibodies.Annu RevBiochem 82，775-797(2013).

2.Beghein，E.&Gettemans，J.Nanobody Technology：A Versatile Toolkit forMicroscopic Imaging，Protein-Protein Interaction Analysis，and Protein FunctionExploration.Front Immunol 8，771(2017).

3.Rasmussen，S.G.et al.Structure of a nanobody-stabilized active stateof the beta(2)adrenoceptor.Nature 469，175-180(2011).

4.Jovcevska，I.&Muyldermans，S.The Therapeutic Potential ofNanobodies.BioDrugs 34，11-26(2020).

5.Lauwereys，M.et al.Potent enzyme inhibitors derived from dromedaryheavy-chain antibodies.The EMBO journal 17，3512-3520(1998).

6.Pardon，E.et al.A general protocol for the generation of Nanobodiesfor structural biology.Nature protocols 9，674-693(2014).

7.McMahon，C.et al.Yeast surface display platform for rapid discoveryof conformationally selective nanobodies.Nature structural&molecular biology25，289-296(2018).

8.Egloff，P.et al.Engineered peptide barcodes for in-depth analyses ofbinding protein libraries.Nature methods 16，421-428(2019).

9.Fridy，P.C.et al.A robust pipeline for rapid production of versatilenanobody repertoires.Nature methods 11，1253-1260(2014).

10.Savitski，M.M.，Wilhelm，M.，Hahne，H.，Kuster，B.&Bantscheff，M.AScalable Approach for Protein False Discovery Rate Estimation in LargeProteomic Data Sets.Molecular&cellular proteomics：MCP 14，2394-2404(2015).

11.DeKosky，B.J.et al.High-throughput sequencing of the paired humanimmunoglobulin heavy and light chain repertoire.Nature biotechnology 31，166-169(2013).

12.Elias，J.E.&Gygi，S.P.Target-decoy search strategy for increasedconfidence in large-scale protein identifications by mass spectrometry.Naturemethods 4，207-214(2007).

13.Schneidman-Duhovny，D.，Inbar，Y.，Nussinov，R.&Wolfson，H.J.PatchDockand SymmDock：servers for rigid and symmetric docking.Nucleic acids research33，W363-W367(2005).

14.Chait，B.T.，Cadene，M.，Olinares，P.D.，Rout，M.P.&Shi，Y.RevealingHigher Order Protein Structure Using Mass Spectrometry.Journal of theAmerican Society for Mass Spectrometry 27，952-965(2016).

15.Rout，M.P.&Sali，A.Principles for Integrative Structural BiologyStudies.Cell 177，1384-1403(2019).

16.Yu，C.&Huang，L.Cross-Linking Mass Spectrometry：An EmergingTechnology for Interactomics and Structural Biology.Analytical Chemistry 90，144-165(2018).

17.Leitner，A.，Faini，M.，Stengel，F.&Aebersold，R.Crosslinking and MassSpectrometry：An Integrated Technology to Understand the Structure andFunction of Molecular Machines.Trends in biochemical sciences 41，20-32(2016).

18.Larsen，M.T.，Kuhlmann，M.，Hvam，M.L.&Howard，K.A.Albumin-based drugdelivery：harnessing nature to cure disease.Mol Cell Ther 4，3(2016).

19.Zhu，W.H.，Smith，J.W.&Huang，C.M.Mass Spectrometry-Based Label-FreeQuantitative Proteomics.J Biomed Biotechnol(2010).

20.Cox，J.&Mann，M.MaxQuant enables high peptide identification rates，individualized p.p.b.-range mass accuracies and proteome-wide proteinquantification.

Nature biotechnology 26，1367-1372(2008).

21.Shi，Y.et al.Structural characterization by cross-linking revealsthe detailed architecture of a coatomer-related heptameric module from thenuclear pore complex.Molecular&cellular proteomics：MCP 13，2927-2943(2014).

22.Kim，S.J.et al.Integrative structure and functional anatomy of anuclear pore complex.Nature 555，475-482(2018).

23.Pires，D.E.V.，Ascher，D.B.&Blundell，T.L.mCSM：predicting the effectsof mutations in proteins using graph-based signatures.Bioinformatics(Oxford，England)30，335-342(2014).

24.Finn，J.A.et al.Improving Loop Modeling of the AntibodyComplementarity-Determining Region 3 Using Knowledge-Based Restraints.PloSone 11，e0154811(2016).

25.Tiller，K.E.et al.Arginine mutations in antibody complementarity-determining regions display context-dependent affinity/specificity trade-offs.The Journal of biological chemistry 292，16638-16652(2017).

26.Mitchell，L.S.&Colwell，L.J.Analysis of nanobody paratopes revealsgreater diversity than classical antibodies.Protein Eng Des Sel 31，267-275(2018).

27.Desmyter，A.et al.Crystal structure of a camel single-domain VHantibody fragment in complex with lysozyme.Nat Struct Biol 3，803-811(1996).

28.Li，T.et al.Immuno-targeting the multifunctional CD38 usingnanobody.Scientific reports 6(2016).

29.Sheng，M.&Sala，C.PDZ domains and the organization of supramolecularcomplexes.Annu Rev Neurosci 24，1-29(2001).

30.Doyle，D.A.et al.Crystal structures of a complexed and peptide-freemembrane protein-binding domain：Molecular basis of peptide recognition byPDZ.Cell 85，1067-1076(1996).

31.Niethammer，M.et al.CRIPT，a novel postsynaptic protein that bindsto the third PDZ domain of PSD-95/SAP90.Neuron 20，693-707(1998).

32.Akram，A.&Inman，R.D.Immunodominance：A pivotal principle in hostresponse to viral infections.Clin Immunol 143，99-115(2012).

33.Bar-On，Y.M.，Phillips，R.&Milo，R.The biomass distribution onEarth.Proceedings of the National Academy of Sciences of the United States ofAmerica 115，6506-6511(2018).

34.Chaplin，D.D.Overview of the immune response.J Allergy Clin Immun125，S3-S23(2010).

35.Acharya，P.et al.Heavy chain-only IgG2b llama antibody effectsnear-pan HIV-1 neutralization by recognizing a CD4-induced epitope thatincludes elements of coreceptor-and CD4-binding sites.J Virol 87，10173-10181(2013).

36.Arabi，Y.M.et al.Middle East Respiratory Syndrome.New Engl J Med376，584-594(2017).

37.Flajnik，M.F.，Deschacht，N.&Muyldermans，S.A Case Of Convergence：WhyDid a Simple Alternative to Canonical Antibodies Arise in Sharks and Camels？PLoS biology 9(2011).

38.Sircar，A.，Sanni，K.A.，Shi，J.&Gray，J.J.Analysis and modeling of thevariable region of camelid single-domain antibodies.J Immunol 186，6357-6367(2011).

39.Baran，D.et al.Principles for computational design of bindingantibodies.Proceedings of the National Academy of Sciences of the UnitedStates of America 114，10900-10905(2017).

40.Chevalier，A.et al.Massively parallel de novo protein design fortargeted therapeutics.Nature 550，74-79(2017).

41.Arbabi Ghahroudi，M.，Desmyter，A.，Wyns，L.，Hamers，R.&Muyldermans，S.Selection and identification of single domain antibody fragments from camelheavy-chain antibodies.FEBS letters 414，521-526(1997).

42.Shi，Y.et al.A strategy for dissecting the architectures of nativemacromolecular assemblies.Nature methods 12，1135-1138(2015).

43.Chen，Z.L.et al.A high-speed search engine pLink 2 with systematicevaluation for proteome-scale identification of cross-linked peptides.Naturecommunications 10，3404(2019).

44.Dunbar，J.&Deane，C.M.ANARCI：antigen receptor numbering and receptorclassification.Bioinformatics(Oxford，England)32，298-300(2016).

45.Lefranc，M.P.et al.IMGT unique numbering for immunoglobulin and Tcell receptor variable domains and Ig superfamily V-like domains.Dev CompImmunol 27，55-77(2003).

46.Crooks，G.E.，Hon，G.，Chandonia，J.M.&Brenner，S.E.WebLogo：a sequencelogo generator.Genome research 14，1188-1190(2004).

47.Sievers，F.&Higgins，D.G.Clustal Omega，accurate alignment of verylarge numbers of sequences.Methods in molecular biology 1079，105-116(2014).

48.Letunic，I.&Bork，P.Interactive Tree Of Life(iTOL)：an online toolfor phylogenetic tree display and annotation.Bioinformatics(Oxford，England)23，127-128(2007).

49.Waterhouse，A.M.，Procter，J.B.，Martin，D.M.，Clamp，M.&Barton，G.J.Jalview Version 2--a multiple sequence alignment editor and analysisworkbench.Bioinformatics(Oxford，England)25，1189-1191(2009).

50.Kall，L.，Canterbury，J.D.，Weston，J.，Noble，W.S.&MacCoss，M.J.Semi-supervised learning for peptide identification from shotgun proteomicsdatasets.Nature methods 4，923-925(2007).

51.Webb，B.&Sali，A.Comparative Protein Structure Modeling UsingMODELLER.Curr Protoc Bioinformatics 47，561-32(2014).

52.Dong，G.Q.，Fan，H.，Schneidman-Duhovny，D.，Webb，B.&Sali，A.Optimizedatomic statistical potentials：assessment of protein interfaces andloops.Bioinformatics(Oxford，England)29，3158-3166(2013).

53.Schneidman-Duhovny，D.&Wolfson，H.J.Modeling of MultimolecularComplexes.Methods in molecular biology 2112，163-174(2020).

54.Russel，D.et al.Putting the pieces together：integrative modelingplatform software for structure determination of macromolecularassemblies.PLoS biology 10，e1001244(2012).

55.Fernandez-Martinez，J.et al.Structure and Function of the NuclearPore Complex Cytoplasmic mRNA Export Platform.Cell 167，1215-1228 e1225(2016).

Claims

1.一种鉴定一组互补决定区(CDR)3、2和/或1纳米抗体氨基酸序列(CDR3、CDR2和/或CDR1序列)的方法，其中与对照相比，减少数目的所述CDR3、CDR2和/或CDR1序列为假阳性，所述方法包括：

a.从用抗原免疫的骆驼科动物获得血液样品；

b.使用所述血液样品获得纳米抗体cDNA文库；

c.鉴定所述文库中每个cDNA的序列；

f.对所述消化产物进行质谱分析以获得质谱数据；

g.选择步骤c.中鉴定的与所述质谱数据相关的序列；

i.从步骤h.的所述CDR3、CDR2和/或CDR1区序列中选择那些具有等于或大于所需片段化覆盖百分比的序列；其中当在步骤e.中使用糜蛋白酶时，所述片段化覆盖百分比由式f(x，糜蛋白酶)＝0.0023x²-0.0497x+0.7723，x[5，30]确定，或当在步骤e.中使用胰蛋白酶时，所述片段化覆盖百分比由式f(x，胰蛋白酶)＝0.00006x²-0.00444x+0.9194，x[5，30]确定，且其中x分别是所述CDR3、CDR2或CDR1区序列的长度；以及

2.如权利要求1所述的方法，其中所述所需片段化覆盖百分比为约30。

3.如权利要求1所述的方法，其中所述所需片段化覆盖百分比为约50且在步骤e中使用胰蛋白酶。

4.如权利要求1所述的方法，其中所述所需片段化覆盖百分比为约40且在步骤e中使用糜蛋白酶。

5.如权利要求1至4中任一项所述的方法，其中步骤d.包括从所述血液样品中获得血浆并使用一种或多种亲和分离方法分离纳米抗体。

6.如权利要求5所述的方法，其中步骤d.的所述一种或多种亲和分离方法包括蛋白G琼脂糖亲和色谱法和蛋白A琼脂糖亲和色谱法中的一种或多种。

7.如权利要求1至6中任一项所述的方法，其中步骤d.还包括功能选择步骤，所述步骤包括使用抗原特异性亲和色谱法选择抗原特异性纳米抗体并在不同的严格程度下洗脱所述抗原特异性纳米抗体，从而产生不同的纳米抗体级分，并单独地对每个级分执行步骤e.至i.，以及分别基于所述纳米抗体级分中的每一者中所述CDR3、CDR2和/或CDR1区序列的相对丰度估计所述抗原的每个不同步骤i.CDR3、CDR2和/或CDR1区序列的亲和力。

8.如权利要求7所述的方法，其中所述抗原特异性亲和色谱法是与所述抗原结合的树脂。

9.如权利要求7所述的方法，其中所述抗原特异性亲和色谱法是与麦芽糖结合蛋白和所述抗原偶联的树脂。

10.如权利要求1至9中任一项所述的方法，所述方法还包括产生具有在步骤i中鉴定的序列的CDR3、CDR2和/或CDR1肽。

11.如权利要求1至9中任一项所述的方法，所述方法还包括产生包含具有在步骤i中鉴定的序列的CDR3、CDR2和/或CDR1区的纳米抗体。

12.一种纳米抗体，所述纳米抗体包含选自SEQ ID NO：1-2536和SEQ ID NO：2665-2667的氨基酸序列。

13.一种计算机实现的方法，所述方法包括：

接收纳米抗体肽序列；

鉴定所述纳米抗体肽序列的多个互补决定区(CDR)区，所述CDR区包括CDR3、CDR2和/或CDR1区；

应用片段化过滤器丢弃所述纳米抗体肽序列的一个或多个假阳性CDR3、CDR2和/或CDR1区；

定量所述纳米抗体肽序列的一个或多个未丢弃的CDR3、CDR2和/或CDR1区的丰度；以及

基于所述纳米抗体肽序列的所述一个或多个未丢弃的CDR3、CDR2和/或CDR1区的所述定量丰度推断抗原亲和力。

14.如权利要求13所述的计算机实现的方法，所述方法还包括将所述纳米抗体肽序列的所述一个或多个未丢弃的CDR3、CDR2和/或CDR1区分类为具有低抗原亲和力、中等抗原亲和力或高抗原亲和力。

15.如权利要求14所述的方法，所述方法还包括将所述纳米抗体肽序列中分类为具有所述高抗原亲和力的所述一个或多个未丢弃的CDR3、CDR2和/或CDR1区组装成纳米抗体蛋白。

16.如权利要求13至15中任一项所述的计算机实现的方法，其中所述片段化过滤器被配置为需要最小计算片段化覆盖百分比。

17.如权利要求16所述的计算机实现的方法，其中所述最小计算片段化覆盖百分比为约30。

18.如权利要求17所述的计算机实现的方法，其中胰蛋白酶处理的样品的所述最小计算片段化覆盖百分比为约50，且糜蛋白酶处理的样品的所述最小计算片段化覆盖百分比为约40。

19.如权利要求13至18中任一项所述的计算机实现的方法，所述方法还包括：

接收多个纳米抗体肽序列；以及

将所述纳米抗体肽序列中的每一者与数据库进行比较，以将所述纳米抗体肽序列分离为排除亚组和非排除亚组，其中未在所述数据库中找到所述排除亚组的所述纳米抗体肽序列，并且其中仅在所述非排除亚组的所述纳米抗体肽序列中鉴定出所述CDR区。

20.如权利要求13至19中任一项所述的计算机实现的方法，其中所述纳米抗体肽序列的一个或多个未丢弃的CDR3、CDR2和/或CDR1区的所述丰度基于相对MS1离子信号强度来定量。

21.如权利要求13至20中任一项所述的计算机实现的方法，其中所述抗原亲和力是使用基于表位相似性的k-均值聚类来推断。

22.一种训练深度学习模型的方法，所述方法包括：

使用如权利要求13至21中任一项所述的计算机实现的方法创建数据集；以及

使用所述数据集来训练深度学习模型，以对具有低抗原亲和力的纳米抗体肽序列和具有高抗原亲和力的纳米抗体肽序列进行分类，其中所述数据集包括多个纳米抗体肽序列和相应的抗原亲和标记。

23.如权利要求22所述的方法，其中所述深度学习模型是卷积神经网络。

24.一种确定纳米抗体肽序列的抗原亲和力的方法，所述方法包括：

接收纳米抗体肽序列；

25.如权利要求24所述的方法，其中所述深度学习模型是卷积神经网络。

26.如权利要求24或25所述的方法，其中所述经过训练的深度学习模型是根据权利要求22训练的。