CN112041487B

CN112041487B - 鉴定抗体轻链和重链可变结构域的配对

Info

Publication number: CN112041487B
Application number: CN201980027547.1A
Authority: CN
Inventors: M·施特雷拉特; C·本德; J·福尔克尔; J·C·波利瓦尔·洛佩兹
Original assignee: Bayer AG
Current assignee: Bayer AG
Priority date: 2018-04-25
Filing date: 2019-04-16
Publication date: 2024-06-25
Anticipated expiration: 2039-04-16
Also published as: US20210166787A1; WO2019206729A1; EP3561703A1; EP3561703B1; CN112041487A

Abstract

本发明涉及在选择过程中鉴定抗体和/或抗体片段。本发明涉及一种用于鉴定编码选择的抗体和/或抗体片段的轻链和重链可变结构域的基因对的方法、系统和计算机程序产品。

Description

鉴定抗体轻链和重链可变结构域的配对

本发明涉及在选择方法中鉴定抗体和/或抗体片段。本发明的主题是一种用于鉴定编码选择的抗体和/或抗体片段的轻链和重链可变结构域的基因对的方法、系统和计算机程序产品。

人类免疫系统形成了由各种器官、细胞类型和分子组成的复杂网络，作为抵御外来入侵者的防御系统。

抗体，也称为免疫球蛋白，是脊椎动物中因对某些物质(称为抗原)的应答而形成的球蛋白类别的蛋白质。抗体为免疫系统服务；它们是由一类白细胞B淋巴细胞产生的。

充当抗原的几乎都是大分子或颗粒结合的分子，例如细菌表面的脂多糖。特定抗原通常仅诱导少数几种特定抗体的形成，在大多数情况下，它们仅通过特定的非共价键识别该外来物质。

抗体与抗原的特异性结合形成了对已入侵的外来物质防御的主要部分。

每个抗体均由两条相同的重链(H)和两条相同的轻链(L)组成，其通过共价二硫键相互连接形成Y形结构。轻链各由一个可变结构域和一个恒定结构域组成。将其称为V_L和C_L。相反，重链各具有一个可变结构域和三个(IgG，IgA)或四个(IgM，IgE)恒定结构域。以此类推，将其称为V_H和C_H1、C_H2、C_H3。

一条轻链和一条重链的可变结构域形成抗体结合位点；因此，它们对于治疗、免疫和/或诊断目的特别重要。创建抗体和/或抗体片段的大文库，并评价其在医学中的用途。

用于产生和表征抗体文库的普遍技术是“噬菌体展示”方法，其中可以将特定目标蛋白表达为噬菌体外壳蛋白上的融合多肽，并通过与固定的或可溶性的生物素化配体(抗原)结合来选择。可以将以此方法构建的噬菌体认为是结合了表型特性和基因型特性的紧凑的遗传单位。已将“噬菌体展示"技术成功应用于抗体、抗体片段、酶、DNA-结合蛋白等。

例如，为了使用抗体文库的噬菌体展示，首先从生物体中分离出相关细胞。这些涉及浆细胞，尤其是在血液、骨髓和淋巴结中发现的。从这些细胞中，分离mRNA，然后将其转录成cDNA。

借助聚合酶链式反应(PCR)，可从cDNA复制抗体轻链(V_L)和重链(V_H)可变结构域的基因。

将每组基因与特定噬菌粒载体中的M13噬菌体的外壳蛋白pIII(次要外壳蛋白)的截短基因连接，并用其转化大肠杆菌。

结果，大肠杆菌表达含有scFv片段或Fab抗体片段的pIII融合蛋白。借助于信号肽，融合蛋白被转运到周质中，在那里其折叠形成功能性的scFv或二硫键连接的Fab片段。Fv或Fab部分最初通过pIII片段保留在大肠杆菌内膜中，并在噬菌体组装完成后与衣壳结合。

通过通常负责细菌感染的外壳蛋白pIII，在用M13辅助噬菌体共同感染后，将功能性抗体片段在其成熟过程中掺入新形成的噬菌体的外壳中。同时，将含有相应抗体片段相关遗传信息的噬菌粒掺入新形成的噬菌体内部。因此，这些重组噬菌体中的每一个理论上在其表面上具有不同的抗体片段，并且同时在其内部具有相关的基因(V_L和V_H)，其与(人体)体内的数十亿个B细胞相当。

在称为生物淘选的程序中，“结合”噬菌体可以通过暴露于表面的抗体片段与固定配体(抗原)相互作用而从十亿倍无关噬菌体的背景中被选择。

通常，生物淘选涉及经过多个选择循环(淘选回合)。通常，这涉及将噬菌体展示文库暴露于底物，从而可以发生某些噬菌体的结合。洗去非特异性结合和弱结合的噬菌体。洗涤后仍然结合并因此具有特异性的噬菌体随后被分离(洗脱)。将洗脱的噬菌体倍增，并在进一步淘选回合中再次暴露于底物，直到富集了有效结合的噬菌体群。

在选择过程结束时，可以很容易地从分离的噬菌体中分离出相关的抗体基因并进行测序。然后测序产生关于抗体(片段)蓝图的信息。文献中描述了选择抗体和/或抗体片段的其他方法(参见，例如，Sai T.Reddy等：Monoclonal antibodies isolated withoutscreening by anaylzing the variable-gene repertoire of plasma cells,NatureBiotechnology Vol.28 No.9,Sept.2010,965-971)。

用于确定序列的标准方法是Sanger双脱氧法(链终止合成)。以这种方式测序(读取)的DNA片段的长度可以达到1000个以上的碱基对，但这与高成本和时间消耗有关。

噬菌体展示文库的多样性通常在10⁷和10¹¹之间。然而，目前使用Sanger测序方法仅对数百个抗体基因进行测序，即，这只是确定身份的噬菌体展示文库的10⁷至10¹¹个克隆中的一小部分。

另一种方法是下一代测序(NGS)。由于在很小的区域上检测很多平行运行和空间分离的测序反应，因此与标准品相比，可以快速实现更高的通量和更短的读取长度。NGS可实现10⁶个测序反应的量级。这意味着可以确定整个文库的多样性和质量。

即使对于涉及经过多个生物淘选周期的选择过程，NGS技术也比标准Sanger技术具有巨大的优势。Sanger测序仅能够确定一些抗体基因，通常在此基础上仅鉴定用于后续筛选的选择回合。NGS技术能够获得多个克隆(如果甚至不是所有克隆)的序列信息的可能性，将使人们对选择过程有更深入的了解，甚至可以省去后续的筛选步骤。

下一代测序系统面临的挑战是应对必须(生物)信息学评估的数据量。为了能够正确确定编码所需抗体的基因，必须正确组合多个测序的基因片段。

在具有大量确定的基因序列的情况下存在的一个问题是鉴定正确的V_L-V_H对。抗体轻链(V_L)和重链(V_H)可变结构域由不同基因编码。如果在选择方法(例如，生物淘选)的情况下对很多基因片段进行测序，则产生的是编码轻链和重链可变结构域的多个基因。然而，不清楚是将轻链的哪些基因与重链的哪些基因成对结合以确定正确的V_L-V_H对，从而确定所寻求的抗体。

US 2013/178370A1描述了通过噬菌体展示方法鉴定抗体片段。其涉及使用下一代测序以确定基因。V_L和V_H基因的配对与样品中相关蛋白频度的顺序相关。

Linling等公开了一种用于鉴定与HIV-1抗原结合的scFv抗体片段的噬菌体展示方法。进行四个选择循环，并且在每个循环后从细菌中提取质粒并通过NGS法进行测序。生物信息学分析包括提供HC和LC数据集。通过将独特的特征性HCDR3-LCDR3对放在一起来鉴定非冗余scFv克隆(Hidden Lineage Complexity of Glycan-Dependent HIV-1BroadlyNeutralizing Antibodies Uncovered by Digital Panning and Native-Like gp140Trimer,Frontiers in Immunology,Vol.8,24 August 2017(2017-08-24),XP55516159,DOI:10.3389/fimmu.2017.01025)。

Sai T.Reddy等报道了可以根据相应基因的频度找到V_L-V_H对(Monoclonalantibodies isolated without screening by anaylzing the variable-generepertoire of plasma cells,Nature Biotechnology Vol.28 No.9,Sept.2010,965-971)。

然而，在实践中，很明显，仅基于基因彼此出现的频度而仅通过基因彼此分配来鉴定V_L-V_H对并不会导致令人满意的结果。

因此，从所描述的现有技术出发，一个目的是从轻链和重链可变结构域的多个基因中鉴定出编码V_L-V_H抗体对的基因对。

根据本发明，这一目的通过独立权利要求的主题来实现。可以在从属权利要求和本说明书中找到优选的实施方式。

因此，在一个方面中，本发明提供了一种方法，所述方法包括以下步骤：

-提供抗体和/或抗体片段的文库，

-将所述抗体和/或抗体片段引入选择方法，其中所述选择方法包括至少两个选择循环，第一选择循环和第二选择循环，

-在所述第一选择循环之后和在所述第二选择循环之后对所述抗体和/或抗体片段的基因进行测序，并确定编码所述抗体和/或抗体片段的轻链可变结构域的V_L基因和编码所述抗体和/或抗体片段的重链可变结构域的V_H基因，

-确定与来自第一选择方法和来自第二选择方法的所述V_L基因和V_H基因相关的特征，其中与所述V_L基因和V_H基因相关的所述特征包括以下特征：

·在来自所述第二选择循环的池中所述V_H基因的频度，

·在来自所述第二选择循环的池中所述V_L基因的频度，

·在来自所述第一选择循环的池中所述V_H基因的频度，和

·在来自所述第一选择循环的池中所述V_L基因的频度，

-基于从所述第一选择循环和所述第二选择循环确定的特征，形成来自所述第二选择循环的V_L基因和V_H基因对的特征向量，

-将所述特征向量引入模型，其中所述模型基于其特征向量计算每对V_L基因和V_H基因的结果，其中所述结果说明所述V_L基因和所述V_H基因是否编码属于同一抗体和/或同一抗体片段的可变结构域，或者所述V_L基因和所述V_H基因是否编码不属于同一抗体和/或同一抗体片段的可变结构域，

-输出所述结果。

本发明进一步提供了一种系统，其包括：

-输入单元，

-控制单元，

-特征向量生成单元，

-计算单元，和

-输出单元，

-其中所述控制单元被配置为通过所述输入单元获取与编码抗体和/或抗体片段的轻链和重链可变结构域的V_L基因和V_H基因相关的特征，

ο其中所述抗体和/或抗体片段来源于选择方法，所述选择方法包括至少两个选择循环，第一选择循环和第二选择循环，

ο其中与所述V_L基因和V_H基因相关的所述特征包括以下特征：

·在来自所述第二选择循环的池中所述V_H基因的频度，

·在来自所述第二选择循环的池中所述V_L基因的频度，

·在来自所述第一选择循环的池中所述V_H基因的频度，和

·在来自所述第一选择循环的池中所述V_L基因的频度，

-其中所述控制单元被配置为驱使所述特征向量生成单元基于所获取的特征形成来自所述第二选择循环的V_L和V_H基因对的特征向量，

-其中所述控制单元被配置为驱使所述计算单元基于其特征向量并借助模型计算每对V_L基因和V_H基因的结果，所述结果说明所述V_L基因和所述V_H基因是否编码属于同一抗体和/或同一抗体片段的可变结构域，或者所述V_L基因和所述V_H基因是否编码不属于同一抗体和/或同一抗体片段的可变结构域，

-其中所述控制单元被配置为驱使所述输出单元输出所述结果。

本发明进一步提供了一种计算机程序产品，其包含数据载体和和储存在所述数据载体上并驱动计算机执行以下步骤的程序代码，在所述计算机中装有所述程序代码的工作存储器：

-获取与编码抗体和/或抗体片段的轻链和重链可变结构域的V_L基因和V_H基因相关的特征，

·在来自所述第二选择循环的池中所述V_H基因的频度，

·在来自所述第二选择循环的池中所述V_L基因的频度，

·在来自所述第一选择循环的池中所述V_H基因的频度，和

·在来自所述第一选择循环的池中所述V_L基因的频度，

-基于所获取的特征形成来自所述第二选择循环的V_L和V_H基因对的特征向量，

-基于其特征向量并借助模型计算V_L基因和V_H基因对的结果，其中所述结果说明所述V_L基因和所述V_H基因是否编码属于同一抗体和/或同一抗体片段的可变结构域，或者所述V_L基因和所述V_H基因是否编码不属于同一抗体和/或同一抗体片段的可变结构域，

-输出所述结果。

下文将在不区分本发明的主题的情况下更具体地阐明本发明。相反，以下说明旨在类似地应用于本发明的所有主题，而不管其出现在哪个上下文中。

如果在本说明书或权利要求中按顺序说明了步骤，则这不一定意味着本发明限于所说明的顺序。相反，可以想到的是，步骤也可以以不同的顺序执行或者彼此并行执行，除非一个步骤建立在另一步骤之上，这绝对要求随后执行该建立步骤(但是，这在个别情况下是清楚的)。因此，所说明的顺序是优选实施方式。

本发明的一个起点是抗体和/或抗体片段的文库。将所述抗体和/或抗体片段引入选择方法，以基于其表型特性选择抗体和/或抗体片段。例如，选择方法可以是生物淘选法。也可以是一种免疫方法，例如如在Nature Biotechnology Vol.28 No.9,Sept.2010,965-971中所描述的。可以考虑其他选择方法。

在本发明上下文中的选择方法包括多个选择循环。有至少两个选择循环，第一选择循环和第二选择循环。选择循环可以在选择层次结构中并列排布和/或一个接一个排布。图1显示了具有三个水平(I、II、III)的选择层次结构的实例。在第一水平(I)中，将抗体和/或抗体片段的文库引入第一选择循环。所得的第一选择循环是选择的抗体和/或抗体片段的池。在第二水平(II)中，将选择的抗体和/或抗体片段引入两个选择循环(a和b)。在通常情况下，在第二水平中的选择循环是不同的选择循环。在第二水平中的选择结果又是两个选择的抗体和/或抗体片段的池。在第三水平(III)中，将第二水平右分支(IIb)产生的抗体和/或抗体片段的池再次暴露于两个选择循环(a和b)，从而产生两个池。在通常情况下，当从上到下(例如，从第一水平经过第二水平到第三水平)通过选择层次结构时，抗体和/或抗体片段暴露于增加的选择压力下。当从上到下(例如，从第一水平经过第二水平到第三水平)通过选择层次结构时，各个池中的抗体和/或抗体片段的多样性降低。

在一个优选的实施方式中，在选择方法的选择层次中，第一选择循环和第二选择循环紧挨着彼此排布。优选地，第二选择循环紧接在第一选择循环之后，即，将来自第一选择循环的(选择的)抗体和/或抗体片段引入第二选择循环(任选地在倍增步骤和测序方法中的其他常规步骤之后)。

然而，也可以想到，第一选择循环和第二选择循环在选择方法的选择层次结构中并列排布。

在选择循环之后，通常对选择的抗体和/或抗体片段的基因测序。

测序的目的是确定编码抗体和/或抗体片段轻链可变结构域的V_L基因和编码抗体和/或抗体片段重链可变结构域的V_H基因。

可以想到的是，在每个选择循环之后进行这样的测序步骤。还可以想到的是，这样的测序步骤仅在经过多个循环的层次结构之后才进行。可以想到的是，在通过测序进行表征之前，首先要实现对特异性结合的抗体和/或抗体片段的某种富集。然而，根据本发明，至少将来自第一选择循环的池和来自第二选择循环的池的抗体和/或抗体片段的基因测序。

在根据本发明方法的一个进一步的步骤中，获取/确定与V_L和V_H基因相关的特征。

根据本发明，至少获取与来自第一选择循环和来自第二选择循环的V_L和V_H基因有关的特征，因为当形成特征向量以鉴定V_L-V_H对时，所述特征被组合在一起。可以想到的是，从进一步的选择循环获取与V_L和V_H基因有关的特征。

与V_L和V_H基因有关的重要特征是它们出现的频度。优选通过下一代测序方法，通过借助于配对识别序列(引物对)将V_H和V_L序列的片段遗传信息组装以形成完整的V_H和V_L链(或其部分)，来获得频度。然后对明确的序列进行计数，并以DNA频度的形式输出。

根据本发明，与现有技术中描述的方法相比，从多个选择循环中获取特征(优选频度)，并将其用于确定V_L-V_H对。

除频度外，还有可能获得与V_L和V_H基因有关的更多特征。例如，这些还包括关于选择循环中所用底物的信息，与执行测序循环有关的参数(浓度、温度、培养基等)，测序层次结构(水平和/或分支的数量)等。

获得的特征(比如例如，V_L和V_H基因的频度)在后续步骤中进行特征向量的生成。在通常情况下，特征向量以矢量的方式结合对象的(优选是数值上)可参数化的属性(特征)。对象的各种特征形成所述向量的各种尺寸。将整个可能的特征向量称为特征空间。例如，特征向量有助于自动分类，因为其大大减少了要分类的性质。

在当前情况下，对象是V_L基因和V_H基因对。可以为每对V_L基因和V_H基因生成特征向量。特征向量表征了特定的对。

可以将下述特征引入V_L基因和V_H基因对的特征向量：

·有关观察到的V_H基因的信息(例如，明确的标识符)

·有关观察到的V_L基因的信息(例如，明确的标识符)

·在来自第二选择循环的池中的V_H基因的绝对数量(频度)：A(V_H)

·在来自第二选择循环的池中的观察到的V_L基因的绝对数量(频度)：A(V_L)

·在来自第二选择循环的池中的不同V_H基因的绝对数量(频度)：numV_H

·在来自第二选择循环的池中的不同V_L基因的绝对数量(频度)：numV_L

·在来自第二选择循环的池中以最高频度存在的那种V_H基因的绝对数量(频度)：maxV_H

·在来自第二选择循环的池中以最高频度存在的那种V_L基因的绝对数量(频度)：maxV_L

·在来自第二选择循环的池中的V_H基因的相对频度(基于在来自所述第二选择循环的池中以最高频度存在的那种V_H基因的数量)：relV_H＝A(V_H)/maxV_H

·在来自第二选择循环的池中的V_L基因的相对频度(基于在来自所述第二选择循环的池中以最高频度存在的那种V_L基因的数量)：relV_L＝A(V_L)/maxV_L

·在来自第二选择循环的池中的所观察到的V_H基因的频度与在来自第二选择循环的池中的所观察到的VL基因的频度之间的差异(距离)(以量计)：diff＝|A(V_H)-A(V_L)|

·在来自第二选择循环的池中的V_H基因的频度与在来自第二选择循环的池中的VL基因的频度之间的相对差异(相对距离)(相对于在来自第二选择循环的池中以较高频度出现的那种基因的频度)：reldiff＝|A(V_H)–A(V_L)|/Max(A(V_H),A(V_L))，其中Max(A(V_H),A(V_L))＝A(V_H)，针对A(V_H)>A(V_L)，和Max(A(V_H),A(V_L))＝A(V_L)，针对A(V_L)≥A(V_H)

·在第二选择循环之前经过的选择循环(水平)数：prevnum

·在来自第一选择循环的池中的V_H基因的绝对数量：prevA(V_H)

·在来自第一选择循环的池中的V_L基因的绝对数量：prevA(V_L)

·在来自第一选择循环的池中的V_H基因的频度与在来自第一选择循环的池中的V_L基因的频度之间的差异(距离)(以量计)：prevdiff＝|prevA(V_H)-prevA(V_L)|

·来自第一选择循环与第二选择循环的V_H基因的数量的相对变化：

prevRelDiffV_H＝(|A(V_H)-prevA(V_H)|)/Max(A(V_H),prevA(V_H))，其中Max(A(V_H),prevA(V_H))＝A(V_H)，针对A(V_H)>prevA(V_H)，和Max(A(V_H),prevA(V_H))＝prevA(V_H)，针对prevA(V_H)≥A(V_H)

·来自第一选择循环与第二选择循环的V_L基因的数量的相对变化：

prevRelDiffV_L＝(|A(V_L)-prevA(V_L)|)/Max(A(V_L),prevA(V_L))，其中Max(A(V_L),prevA(V_L))＝A(V_L)，针对A(V_L)>prevA(V_L)，和Max(A(V_L),prevA(V_L))＝prevA(V_L)，针对prevA(V_L)≥A(V_L)

可以想到的是，除了所述特征之外，进一步的信息项也用于生成特征向量。例如，可以将来自进一步选择循环的池中的V_H基因和V_L基因频度采集为特征，并用于产生特征向量。如上所述，也可以获取与各个选择循环的选择层次结构和/或参数有关的特征，并用于生成特征向量。

将关于观察到的V_H基因的信息(例如，明确的标识符)和关于观察到的V_L基因的信息(例如，明确的标识符)用于鉴定观察到的V_H基因和观察到的V_L基因。例如，明确的标识符可以是基因序列、名称、代码编号、字母数字识别码或一些其他标识符，借助其可以明确地指定V_L基因或V_L基因，从而使其可被识别。因此，明确的标识符主要用于处理结果并将结果分配给相应的V_H和V_L基因。

将特征向量引入模型。该模型针对引入其中的每个特征向量计算被分配了特征向量的一对V_L基因和V_H基因是否编码属于同一抗体和/或抗体片段的轻链和重链的可变结构域或不属于同一抗体和/或抗体片段。

例如，该模型可以是分类模型。此类分类模型基于其特征向量将每个V_L和V_H基因对分配给至少两类之一。第一类包括编码属于同一抗体和/或同一抗体片段的轻链和重链可变结构域的那些对。第二类包括编码不属于同一抗体和/或不属于同一抗体片段的轻链和重链可变结构域的那些对。

简单地说，分类模型提供有关V_L基因和V_H基因是否属于在一起的信息。当V_L基因编码抗体和/或抗体片段的轻链可变结构域，而V_H基因编码同一抗体和/或同一抗体片段的重链可变结构域时，其属于在一起。在这种情况下，V_L和V_H基因对也称为(正确的)V_L-V_H对。当V_L基因编码抗体和/或抗体片段的轻链可变结构域，且V_H基因编码不同抗体和/或不同抗体片段的重链可变结构域时，其不属于在一起。

可以想象有两个以上类别。例如，可以想到三个类别：第一类包含其中其属于在一起的概率非常高(例如，大于90％)的对，第二类包含其中其属于在一起的概率非常低(例如，小于10％)的对，以及第三类包含其不能分配给第一类或第二类的对。因此，对于第三类的对，是否是V_L-V_H对存在一定的不确定性。可以从已经创建了特定分类模型的学习过程中确定各个概率。

然而，该模型还可以是回归模型。例如，回归模型可以基于其特征向量针对每个V_L基因和V_H基因对计算出编码属于同一抗体和/或同一抗体片段的轻链和重链可变结构域的V_L基因和V_H基因对的概率。当排除V_L基因和V_H基因对编码属于同一抗体和/或属于同一抗体片段的轻链和重链可变结构域时，回归模型的计算结果例如可以是0；当确定V_L基因和V_H基因对编码属于同一抗体和/或属于同一抗体片段的轻链和重链可变结构域时，结果例如可以是1或100％。对于大多数V_L基因和V_H基因对，计算的概率将在0至1或0至100％之间。

优选基于自学习算法来创建模型(例如，分类模型或回归模型)。特别优选地，该模型是通过监督学习的方式创建的。

例如，可以使用已知的抗体和/或抗体片段或使用已知其是否属于在一起的V_L和V_H基因对来创建模型。可以使用这些数据(训练数据集)训练模型。

为了创建分类模型，有多种方法，例如随机森林或梯度增强。为了创建回归模型，同样有多种方法，例如logistic回归。用于分类和回归的这些以及其他方法在现有技术中进行了各种描述(参见，例如，Norman Matloff:Statistical Regression andClassification–From Linear Models to Machine Learning,Texts in StatisticalScience,CRC Press 2017,ISBN 978-1-4987-1091-6；Pratap Dangeti,Statistics forMachine Learning,Packt Publishing 2017,ISBN 978-1-78829-575-8)。

模型创建的结果是其也适用于未知抗体和/或抗体片段的V_L和V_H频度的模型(分类模型或回归模型)。模型的准确度越高，训练数据集和测试数据集就越相似。例如，当将相同底物(抗原)用于训练和测试时，准确度较高，而当使用不同底物时，准确度较低。

因此，对于任何V_L和V_H基因对，可以在模型的基础上说明其是否属于同一类(具有确定的概率)。可以在下一步骤中输出该信息。例如，可以在计算机屏幕上实现输出。信息也可以通过打印机打印出来或存储在数据存储器中。

在一个优选的实施方式中，选择方法是生物淘选法，并且将来自至少两个选择循环的池中的V_L和V_H基因的频度作为特征来生成特征向量。

生物淘选选择方法的一个起点是第一噬菌体展示文库。噬菌体(简称噬菌体)在其外壳带有抗体片段；同时，在其内部带有编码抗体片段的相关基因。

必须鉴定和选择的是与一种或多种确定的抗原进行抗原-抗体反应的那些抗体和/或抗体片段。特别地，必须鉴定和选择的是那些对一个表位或对一种或多种抗原的多个表位具有相当高亲和性的抗体和/或抗体片段。所述高亲和性在具有高复合常数的特别稳定的抗原-抗体复合物中变得明显。

还可以想到的是，必须鉴定和选择与一种或多种抗原的多个表位选择性结合的抗体和/或抗体片段。

生物淘选法(简称淘选法)通常包括多个循环(选择循环)。

一个生物淘选循环至少包括以下步骤：

(1)提供噬菌体文库，其中抗体和/或抗体片段作为噬菌体外壳蛋白上的融合多肽表达，

(2)将噬菌体与底物一起孵育，

(3)将底物结合噬菌体与非结合噬菌体分离。

通常在步骤(3)之后倍增结合噬菌体。结果是产生新的(第二)噬菌体展示文库，随后将其暴露于底物，以将底物结合噬菌体与非结合噬菌体分离，依此类推。然而，还可以想到的是，在步骤(3)之后倍增非结合噬菌体，并引入另一个循环。

可以想到的是，所选噬菌体的增殖行为不同。可以想到的是，在倍增行为上的差异导致了对于可以被特别好地倍增的噬菌体的富集效应。

底物具有与噬菌体表达的抗体片段相互作用的抗原和/或抗原片段，即可以形成稳定的抗原-抗体复合物并因此结合相应的噬菌体。

可以想到的是，在每个循环中使用具有相同抗原和/或抗原片段的相同底物。在这种情况下，在循环过程中发生的是与抗原和/或抗原片段强烈相互作用的抗体和/或抗体片段的富集。

然而，还可以想到的是，在各个循环中使用具有不同抗原和/或抗原片段的不同底物。其原因之一可能是要选择对多种抗原和/或抗原片段具有亲和性的抗体和/或抗体片段。

此外，可以想到的是，在一个循环中选择与抗原和/或抗原片段尽可能少地结合的抗体和/或抗体片段。

在循环结束时，可以对结合噬菌体上的抗体和/或抗体片段的基因进行测序，并确定基因的频度。

根据本发明，至少要经过两个选择循环。如果选择循环在选择层次结构中一个接一个地排布，则至少执行以下步骤：

(2)将噬菌体与底物一起孵育，

(3)将底物结合噬菌体与非结合噬菌体分离，

(4)对结合或非结合噬菌体上的抗体和/或抗体片段的基因进行测序，并确定编码抗体和/或抗体片段的轻链可变结构域的V_L基因和编码抗体和/或抗体片段的重链可变结构域的V_H基因，

(5)确定V_L基因和V_H基因的频度，

(6)倍增结合或非结合噬菌体，从而形成新的噬菌体文库，

(1')提供新的噬菌体文库，

(2')将噬菌体与底物一起孵育，

(3')将底物结合噬菌体与非结合噬菌体分离，

(4')对结合或非结合噬菌体上的抗体和/或抗体片段的基因进行测序，并确定编码抗体和/或抗体片段的轻链可变结构域的V_L基因和编码抗体和/或抗体片段的重链可变结构域的V_H基因，

(5')确定V_L基因和V_H基因的频度。

经过步骤(1)至(5’)后显示的结果是：

-选择的抗体和/或抗体片段，

-编码选择的抗体和/或抗体片段的轻链和重链可变结构域的V_L基因和V_H基因的序列，

-经过循环(1')→(2')→(3')后V_L基因和V_H基因的频度，以及经过此前的循环(1)→(2)→(3)后V_L基因和V_H基因的频度。

在步骤(5)和(5')中确定的频度(以及任选地其他特征)可以进入特征向量的形成。借助于模型(例如，分类模型或回归模型)，可以针对每个V_L和V_H基因对确定其是否属于同一对。

因此，根据本发明方法的一个优选实施方式包括以下步骤：

(2)将噬菌体与底物一起孵育，

(3)将底物结合噬菌体与非结合噬菌体分离，

(5)倍增结合或非结合噬菌体，从而形成新的噬菌体文库，

(6)重复步骤(1)至(5)k次，步骤(4)是可选的，每次将来自步骤(5)的新的噬菌体文库用于步骤(1)，k是整数且大于0，和其中将经过步骤(1)至(3)的实施构成一个生物淘选循环，

(7)形成V_L基因和V_H基因对的特征向量，使用的特征至少是最后实施的生物淘选循环和之前的一个生物淘选循环的V_L基因和V_H基因的频度，

(8)将特征向量引入模型，其中所述模型基于其特征向量计算每对V_L基因和V_H基因的结果，其中所述结果说明V_L基因和V_H基因是否编码属于同一抗体和/或同一抗体片段的可变结构域，或者V_L基因和V_H基因是否编码不属于同一抗体和/或同一抗体片段的可变结构域，

(9)输出每对的结果。

根据本发明的系统的一个优选实施方式包括：

-输入单元，

-控制单元，

-特征向量生成单元，

-计算单元，和

-输出单元，

所述控制单元被配置为在选择抗体和/或抗体片段的至少两个生物淘选周期中，通过输入单元获取编码抗体和/或抗体片段轻链可变结构域的V_L基因的频度和编码抗体和/或抗体片段重链可变结构域的V_H基因的频度，

所述控制单元被配置为驱使特征向量生成单元形成V_L和V_H基因对的特征向量，进行特征向量的形成的特征至少是生物淘选循环和之前一个生物淘选循环的V_L基因和V_H基因的频度，

所述控制单元被配置为驱使所述计算单元基于其特征向量并借助模型计算每对V_L基因和V_H基因的结果，所述结果说明V_L基因和V_H基因是否编码属于同一抗体和/或同一抗体片段的可变结构域，或者V_L基因和V_H基因是否编码不属于同一抗体和/或同一抗体片段的可变结构域，

所述控制单元被配置为驱使输出单元输出每对的结果。

根据本发明的计算机程序产品的一个优选的实施方式包括数据载体和储存在所述数据载体上并驱动计算机以执行以下步骤的程序代码，在所述计算机中装有所述程序代码的工作存储器：

-在选择所述抗体和/或抗体片段的多个生物淘选程序循环中获取编码抗体和/或抗体片段的轻链可变结构域的V_L基因的频度和编码抗体和/或抗体片段的重链可变结构域的V_H基因的频度，

-形成V_L和V_H基因对的特征向量，进入特征向量的形成的特征至少是生物淘选循环和之前一个生物淘选循环的所述V_L基因和所述V_H基因的频度，

-基于其特征向量并借助模型计算每对V_L基因和V_H基因的结果，所述结果说明V_L基因和V_H基因是否编码属于同一抗体和/或同一抗体片段的可变结构域，或者V_L基因和V_H基因是否编码不属于同一抗体和/或同一抗体片段的可变结构域，

-输出每对的结果。

本发明的优选实施方式是：

1.一种方法，所述方法包括以下步骤：

-提供抗体和/或抗体片段的文库

-将所述抗体和/或抗体片段引入选择方法，其中所述选择方法包括至少两个选择循环，第一选择循环和第二选择循环

-在所述第一选择循环之后和在所述第二选择循环之后对所述抗体和/或抗体片段的基因进行测序，并确定编码所述抗体和/或抗体片段的轻链可变结构域的V_L基因和编码所述抗体和/或抗体片段的重链可变结构域的V_H基因

-确定与来自第一选择方法和来自第二选择方法的所述V_L基因和V_H基因相关的特征

-基于从所述第一选择循环和所述第二选择循环确定的特征，形成来自所述第二选择循环的V_L基因和V_H基因对的特征向量

-将所述特征向量引入分类模型，所述分类模型将各对分类至至少两类之一，第一类包括V_L基因和V_H基因编码属于同一抗体和/或抗体片段的可变结构域的对和第二类包括V_L基因和V_H基因编码不属于同一抗体和/或抗体片段的可变结构域的对

-输出至少与第一类中的对相关的信息。

2.根据实施方式1所述的方法，其中任选地在实施将所获得的抗体和/或抗体片段倍增的倍增步骤后，将从所述第一选择循环获得的抗体和/或抗体片段引入所述第二选择循环。

3.根据实施方式1或2所述的方法，其中所述选择方法是生物淘选法。

4.根据实施方式1至3中任一项所述的方法，其中所述测序是通过下一代测序法进行的。

5.根据实施方式1至4中任一项所述的方法，其中与所述V_L基因和V_H基因相关的所述特征包括以下特征：

·确定的V_H基因的明确标识符，

·确定的V_L基因的明确标识符，

·在来自所述第二选择循环的池中所述V_H基因的频度，

·在来自所述第二选择循环的池中所述V_L基因的频度，

·在来自所述第一选择循环的池中所述V_H基因的频度，和

·在来自所述第一选择循环的池中所述V_L基因的频度。

6.根据实施方式1至5中任一项所述的方法，其中与所述V_L基因和V_H基因相关的一个或多个其他特征选自以下列表：

·在来自所述第二选择循环的池中不同V_H基因的绝对数量

·在来自所述第二选择循环的池中不同V_L基因的绝对数量

·在来自所述第二选择循环的池中以最高频度存在的那种V_H基因的绝对数量

·在来自所述第二选择循环的池中以最高频度存在的那种V_L基因的绝对数量

·在来自所述第二选择循环的池中的所述V_H基因基于在来自所述第二选择循环的池中以最高频度存在的那种V_H基因的数量的相对频度

·在来自所述第二选择循环的池中的所述V_L基因基于在来自所述第二选择循环的池中以最高频度存在的那种V_L基因的数量的相对频度

·在来自所述第二选择循环的池中的所述V_H基因的频度与在来自所述第二选择循环的池中的所述V_L基因的频度之间的差异

·分别相对于在来自所述第二选择循环的池中以较高频度出现的V_H基因或V_L基因的频度的在来自所述第二选择循环的池中的V_H基因的频度与在来自所述第二选择循环的池中的V_L基因的频度之间的相对差异

·在所述第二选择循环之前已经进行的选择循环的数量

·在来自所述第一选择循环的池中的所述V_H基因的频度与在来自所述第一选择循环的池中的所述V_L基因的频度之间的差异

·所述第一选择循环与所述第二选择循环的所述V_H基因的数量的相对变化

·所述第一选择循环与所述第二选择循环的所述V_L基因的数量的相对变化

7.根据实施方式1至6中任一项所述的方法，其中所述分类模型是基于已知抗体和/或抗体片段以监督学习方法创建的。

8.根据实施方式1至6中任一项所述的方法，其中所述分类模型基于随机森林或梯度增强方法。

9.根据实施方式1至8中任一项所述的方法，其包括以下步骤：

(1)提供噬菌体文库，其中抗体和/或抗体片段作为融合多肽在噬菌体外壳蛋白上表达，

(2)将所述噬菌体与底物一起孵育，

(3)将底物结合噬菌体与非结合噬菌体分离，

(4)对结合或非结合噬菌体上的所述抗体和/或抗体片段的基因进行测序，并确定编码所述抗体和/或抗体片段的轻链可变结构域的V_L基因和编码所述抗体和/或抗原片段的重链可变结构域的V_H基因，

(5)确定所述V_L基因和所述V_H基因的频度，

(6)倍增所述结合或非结合噬菌体，并且在这样做时形成新的噬菌体文库并重复步骤(1)至(5)n次，其中在步骤(1)中每次使用新的噬菌体文库，n是整数且大于0，和其中步骤(1)至(4)的实施构成一个生物淘选循环，

(7)形成V_L基因和V_H基因对的特征向量，其中使用的特征至少是当前进行的生物淘选循环和之前一个生物淘选循环的所述V_L基因和所述V_H基因的频度，

(8)将所述特征向量引入分类模型，所述分类模型将各对分类至至少两类之一，第一类包括V_L基因和V_H基因编码属于同一抗体和/或抗体片段的可变结构域的对和第二类包括V_L基因和V_H基因编码不属于同一抗体和/或抗体片段的可变结构域的对，

(9)输出至少与所述第一类中的对相关的信息。

10.一种系统，其包括：

-输入单元，

-控制和计算单元，

-特征向量生成单元，

-分类单元，和

-输出单元，

-其中所述控制和计算单元被配置为通过所述输入单元获取与编码抗体和/或抗体片段的轻链和重链可变结构域的V_L基因和V_H基因相关的特征，

ο其中所述特征包括与来自所述第一选择循环和来自所述第二选择循环的所述V_L基因和V_H基因相关的信息，

-其中所述控制和计算单元被配置为驱使所述特征向量生成单元基于所获取的特征形成来自所述第二选择循环的V_L和V_H基因对的特征向量，

-其中所述控制和计算单元被配置为驱使所述分类单元基于其特征向量将V_L和V_H基因对分配至至少两类之一，第一类包括其中V_L基因和V_H基因编码属于同一抗体和/或抗体片段的可变结构域的对和第二类包括其中V_L基因和V_H基因编码不属于同一抗体和/或抗体片段的可变结构域的对，

-其中所述控制和计算单元被配置为驱使所述输出单元输出至少关于分配至所述第一类的对的信息。

11.根据实施方式10所述的系统，其包括：

-输入单元，

-控制和计算单元，

-特征向量生成单元，

-分类单元，和

-输出单元，

其中所述控制和计算单元被配置为经过选择抗体和/或抗体片段的多个生物淘选循环通过所述输入单元获取编码所述抗体和/或抗体片段的轻链可变结构域的V_L基因的频度和编码所述抗体和/或抗体片段的重链可变结构域的V_H基因的频度，

其中所述控制和计算单元被配置为驱使所述特征向量生成单元形成V_L和V_H基因对的特征向量，其中使用的特征是一个生物淘选循环和之前一个生物淘选循环的所述V_L基因和所述V_H基因的频度，

其中所述控制和计算单元被配置为驱使所述分类单元基于其特征向量将V_L和V_H基因对分配至至少两类之一，第一类包括V_L基因和V_H基因编码属于同一抗体和/或抗体片段的可变结构域的对和第二类包括V_L基因和V_H基因编码不属于同一抗体和/或抗体片段的可变结构域的对，

其中所述控制和计算单元被配置为驱使所述输出单元输出至少关于分配至所述第一类的对的信息。

12.一种计算机程序产品，其包含数据载体和储存在所述数据载体上并驱动计算机执行以下步骤的程序代码，在所述计算机中装有所述程序代码的工作存储器：

-将所述V_L和V_H基因对分配至至少两类之一，第一类包括V_L基因和V_H基因编码属于同一抗体和/或抗体片段的可变结构域的对和第二类包括V_L基因和V_H基因编码不属于同一抗体和/或抗体片段的可变结构域的对，

输出至少关于分配至所述第一类的对的信息。

13.根据实施方式12所述的计算机程序产品，其包括数据载体和储存在所述数据载体上并驱动计算机以执行实施方式1至9中任一项所述方法的一个或多个步骤的程序代码，在所述计算机中装有所述程序代码的工作存储器。

14.根据实施方式12至13中任一项所述的计算机程序产品，其包含数据载体和储存在所述数据载体上并驱动计算机执行以下步骤的程序代码，在所述计算机中装有所述程序代码的工作存储器：

-经过选择所述抗体和/或抗体片段的多个生物淘选程序循环获取编码抗体和/或抗体片段的轻链可变结构域的V_L基因的频度和编码抗体和/或抗体片段的重链可变结构域的V_H基因的频度，

-形成V_L和V_H基因对的特征向量，其中使用的所述特征至少是一个生物淘选循环和之前的一个生物淘选循环的所述V_L基因和所述V_H基因的频度，

-将所述特征向量引入分类模型，所述分类模型基于其特征向量将所述V_L和V_H基因对分配至至少两类之一，第一类包括V_L基因和V_H基因编码属于同一抗体和/或抗体片段的可变结构域的对和第二类包括V_L基因和V_H基因编码不属于同一抗体和/或抗体片段的可变结构域的对，

-输出至少关于分配至所述第一类的对的信息。

下面参考实施例和附图更具体地阐述了本发明，但不希望将本发明限制于在实施例中提及或在附图中示出的特征和特征的组合。

显示了以下内容：

图1显示了具有三个水平(I、II、III)的选择层次结构的实例。在上文中进一步详细描述了图1。

图2示意性地示出了作为选择循环实例的生物淘选循环。

在第一步中，提供了噬菌体(1a，1b，1c)的文库(1)，其中抗体和/或抗体片段(10，11，12)作为噬菌体外壳蛋白上的融合多肽表达。

此外，提供了具有固定化的抗原和/或抗原片段的底物(2)。固化的抗原和/或抗原片段具有结合位点(20)，噬菌体(1a，1b，1c)的抗体和/或抗体片段(10，11，12)能够与之结合。

在生物淘选循环的步骤A中，将噬菌体与底物一起孵育。

在此过程中，抗体/抗体片段与抗原之间发生相互作用。在目前情况下，抗体/抗体片段(1c)恰好适合固定化抗原的结合位点(20)；相互作用和产生的结合相对较强(比在其他抗体/抗体片段中的情况更强)。

在生物淘选循环的步骤B中，分离(洗去)不结合至底物或与底物仅有较弱结合的噬菌体。剩下的是结合更强的噬菌体。

在生物淘选循环的步骤C中，将结合更强的噬菌体与底物分离。

在生物淘选循环的步骤D中，倍增与底物分离的噬菌体。结果产生了能够再次暴露于底物的新噬菌体文库。

从一部分与底物分离的噬菌体，可以对抗体和/或抗体片段的基因进行测序(步骤E)。这涉及确定编码抗体和/或抗体片段的轻链可变结构域的V_L基因和编码抗体和/或抗体片段的重链可变结构域的V_H基因，优选还确定其频度。

图3示意性地示出了具有三个循环(I、II、III)的生物淘选程序。如在当前的情况下，如果每次使用相同的底物，则每个循环进一步富集最强的结合抗体/抗体片段。步骤A_I、B_I、C_I、D_I、E_I或A_II、B_II、C_II、D_II、E_II或A_III、B_III、C_III、D_III、E_III对应于图2中的步骤A、B、C、D、E。

在每个循环(I、II、III)之后，可以确定V_H和V_L基因及其频度(步骤EI、EII和EIII)。

图4示意性地示出了与图3相同的生物淘选方法，其具有循环I、II和III，以及步骤A_I、A_II、A_III、B_I、B_II、B_III、C_I、C_II、C_III、D_I、D_II、D_III、E_I、E_II和E_III。步骤E_I、E_II和E_III的结果是V_L基因{V_L ¹，V_L ²，…，V_L ⁿ}的量和V_H基因{V_H ⁱ，V_H ⁱⁱ，…，V_H ^m}的量；每个基因都可以根据明确的标识符(1，2，...至n或i，ii，...至m)进行识别。

图5以示例的方式示出了与V_L基因和V_H基因相关的特征的产生/获得。经过三个测序循环(I、II、III)。在选择循环II和III之后，对V_L基因和V_H基因进行测序。

在本实例中，在本发明的上下文中，选择循环II是“第一选择循环”和选择循环III是“第二选择循环”。

例如，与V_L基因和V_H基因相关的特征是明确的标识符({1,2,…,n}和{i,ii,…,m})。

例如，与V_L基因和V_H基因相关的其他特征是在来自第二选择循环的池中的V_L基因的频度{A(V_L ¹),A(V_L ²),…,A(V_L ⁿ)}和在来自第二选择循环的池中的V_H基因的频度{A(V_H ⁱ),A(V_H ⁱⁱ),…,A(V_H ^m)}。

例如，与V_L基因和V_H基因相关的其他特征是在来自第一选择循环的池中的V_L基因的频度{prevA(V_L ¹),prevA(V_L ²),…,prevA(V_L ⁿ)}和在来自第一选择循环的池中的V_H基因的频度{prevA(V_H ⁱ),prevA(V_H ⁱ),…,prevA(V_H ^m)}。

例如，与V_L基因和V_H基因相关的其他特征是在来自第二选择循环的池中的不同V_L基因(numV_L)和不同V_H基因(numV_H)的绝对数量。

例如，与V_L基因和V_H基因相关的其他特征是在来自第二选择循环的池中以最高频度存在的那种V_H基因的绝对数量(频度)(maxV_H)和在来自第二选择循环的池中以最高频度存在的那种V_L基因的绝对数量(频度)(maxV_L)。

可以根据所描述的特征来计算其他特征，例如：

relV_H＝A(V_H)/maxV_H

relV_L＝A(V_L)/maxV_L

diff＝|A(V_H)-A(V_L)|

reldiff＝|A(V_H)–A(V_L)|/Max(A(V_H),A(V_L))

prevdiff＝|prevA(V_H)-prevA(V_L)|

prevRelDiffV_H＝(|A(V_H)-prevA(V_H)|)/Max((A(V_H),prevA(V_H))

prevRelDiffVL＝(|A(V_L)-prevA(V_L)|)/Max((A(V_L),prevA(V_L))

将所述特征和/或另外的/其他特征用于产生特征向量。这在图6中进行了示意性描述。

图6以示例的方式示出了V_L基因和V_H基因对(V_L ^x,V_H ^y)的特征向量的产生。

针对V_L ²和V_H ⁱ对产生特征向量。

进入特征向量的特征：

-V_L ²基因的标识符：2

-V_H ⁱ基因的标识符：i

-在来自第二选择循环的池中的V_L ²基因的频度：A(V_L ²)

-在来自第二选择循环的池中的V_H ⁱ基因的频度：A(V_H ⁱ)

-在来自第一选择循环的池中的V_L ²基因的频度：prevA(V_L ²)

-在来自第一选择循环的池中的V_H ⁱ基因的频度：prevA(V_H ⁱ)

-在来自第二选择循环的池中的不同V_L基因的绝对数量：numV_L

-在来自第二选择循环的池中的不同V_H基因的绝对数量：numV_H

-在来自第二选择循环的池中以最高频度存在的V_H基因的频度：maxV_H

-在来自第二选择循环的池中以最高频度存在的V_L基因的频度：maxV_L。

分别具有标识符x和y的任意V_L ^x基因和V_H ^y基因对的优选特征向量是：

<x，y，A(V_L ^x)，A(V_H ^y)，diff^(x,y)，reldiff^(x,y)，relV_L ^x，relV_H ^y，numV_H，numV_L，maxV_H，maxV_L，prevnum，prevA(V_L ^x)，prevA(V_H ^y)，prevdiff^(x,y)，prevRelDiffV_L ^x，prevRelDiffV_H ^y>

分别具有标识符x和y的任意V_L ^x基因和V_H ^y基因对的特别优选的特征向量是：

<x，y，A(V_L ^x)，A(V_H ^y)，diff^(x,y)，reldiff^(x,y)，relV_L ^x，relV_H ^y，prevdiff^(x,y)，prevRelDiffV_L ^x，prevRelDiffV_H ^y>

当然，此处描述的特征向量中出现的特征的顺序也可以不同于此处呈现的顺序。

图7以示例的方式示出了基于规则的分类器，其可以是分类模型生成的结果。

对于V_L基因和V_H基因对(V_L ^x,V_H ^y)，一个接一个地检查条件(1)至(14)。如果条件(1)适用，则该对不是V_L-V_H对(CLASS＝neg)。分类完成。如果条件(1)不适用，则检查条件(2)。如果条件(2)适用，则该对不是V_L-V_H对(CLASS＝neg)。分类完成。如果条件(2)不适用，则检查条件(3)，以此类推。

如果条件(1)至(14)均不适用，则该对是V_L-V_H对(CLASS＝pos)。

图8示意性地显示了根据本发明的系统的一个实施方式。

系统(30)包括输入单元(31)、控制单元(32)、特征向量生成单元(33)、计算单元(34)和输出单元(35)。

通过输入单元(31)将信息引入系统(30)。通常，输入单元(31)还用作与系统(30)的用户的通信接口。输入单元(31)可以包括键盘、鼠标、触摸屏、麦克风、网络连接、与数据存储器的连接、与设备的连接等。特别地，通过输入单元(31)将与编码抗体和/或抗体片段的轻链和重链可变结构域的V_L基因和V_H基因相关的特征引入系统，以在那里进行进一步处理。在这种连接中，该信息可以由用户经由用户界面手动输入和/或经由界面从数据存储器和/或连接的设备和/或经由网络从与系统(30)连接的设备(例如，测序仪)自动读取。可以想到的是，通过输入单元(31)仅引入了与V_L基因和V_H基因相关的一些特征，而与V_L基因和V_H基因相关的其他特征是由控制单元(32)和/或特征向量生成单元(33)引入的特征计算得到的。

控制单元(32)用于控制系统(30)的组件，并协调组件之间以及系统(30)和外部设备之间的数据和信号流。控制单元(32)通常包含存储器，可以将根据本发明的计算机程序加载到该存储器中，以便执行根据本发明的方法的一个或多个步骤。

特征向量生成单元(33)从与V_L基因和V_H基因相关的特征产生针对各个V_L基因和V_H基因对的特征向量。特征向量生成单元(33)可以是控制单元(32)的一部分或独立于其的单元。还可以想到的是，通过输入单元(31)将特征向量引入系统(30)中。

计算单元(34)执行结果的计算。该结果说明V_L基因和V_H基因对是否编码属于同一抗体和/或同一抗体片段或者不属于同一抗体和/或同一抗体片段的可变结构域。基于该对的特征向量进行计算。该计算借助于模型完成。例如，如果模型是分类模型，则计算是分类且结果是将该对分配至某一类。如果计算模型是回归模型，则计算是回归且结果是该对的V_L基因和V_H基因编码属于同一抗体和/或同一抗体片段的概率。

分类模型基于各个特征向量将各个对分配至至少两类之一，第一类包括V_L基因和V_H基因编码属于同一抗体和/或抗体片段的可变结构域的对(CLASS＝pos)和第二类包括V_L基因和V_H基因编码不属于同一抗体和/或抗体片段的可变结构域的对(CLASS＝neg)。

回归模型基于各个特征向量针对各个对计算一个数，该数说明该对的V_L基因和V_H基因编码属于同一抗体和/或抗体片段的可变结构域的概率。

计算单元(34)可以是控制单元(32)的一部分和/或特征向量生成单元(33)的一部分和/或独立单元。

通过输出单元(35)输出计算单元(34)的计算结果。优选地，将输出提供给系统(30)的用户。输出单元可以包括屏幕、打印机、扬声器、数据存储器、与网络的连接、与设备的连接等。

例如，可以将根据本发明的系统配置为计算机(例如，台式计算机、平板计算机、智能电话、服务器)或计算机的组合。

Claims

1.一种方法，所述方法包括以下步骤：

-提供抗体和/或抗体片段的文库，

·在来自所述第二选择循环的池中所述V_H基因的频度，

·在来自所述第二选择循环的池中所述V_L基因的频度，

·在来自所述第一选择循环的池中所述V_H基因的频度，和

·在来自所述第一选择循环的池中所述V_L基因的频度，

-将所述特征向量引入模型，其中所述模型基于其特征向量计算每对V_L基因和V_H基因的结果，其中所述结果说明所述V_L基因和所述V_H基因是否编码属于同一抗体和/或抗体片段的可变结构域，或者所述V_L基因和所述V_H基因是否编码不属于同一抗体和/或抗体片段的可变结构域，

-输出所述结果。

2.根据权利要求1所述的方法，其中任选地在实施将所获得的抗体和/或抗体片段倍增的倍增步骤后，将从所述第一选择循环获得的抗体和/或抗体片段引入所述第二选择循环。

3.根据权利要求1或2所述的方法，其中所述选择方法是生物淘选法。

4.根据权利要求1或2所述的方法，其中所述测序是通过下一代测序法进行的。

5.根据权利要求1或2所述的方法，其中与所述V_L基因和V_H基因相关的一个或多个其他特征进入所述特征向量的形成，其中所述一个其他特征或多个其他特征选自以下列表：

·在来自所述第二选择循环的池中不同V_H基因的绝对数量

·在来自所述第二选择循环的池中不同V_L基因的绝对数量

·在来自所述第二选择循环的池中的V_H基因基于在来自所述第二选择循环的池中以最高频度出现的V_H基因的数量的相对频度

·在来自所述第二选择循环的池中的V_L基因基于在来自所述第二选择循环的池中以最高频度出现的V_L基因的数量的相对频度

·在所述第二选择循环之前已经进行的选择循环的数量

·所述第一选择循环与所述第二选择循环的所述V_L基因的数量的相对变化。

6.根据权利要求1或2所述的方法，其中基于已知哪些属于一起和哪些不属于一起的V_H基因和V_L基因的特征，已经在监督学习方法中创建了所述模型。

7.根据权利要求1或2所述的方法，其中所述模型是分类模型或回归模型。

8.根据权利要求1或2所述的方法，其包括以下步骤：

(2)将所述噬菌体与底物一起孵育，

(3)将底物结合噬菌体与非结合噬菌体分离，

(5)倍增所述结合或非结合噬菌体，并且在这样做时形成新的噬菌体文库，

(6)重复步骤(1)至(5)k次，其中在步骤(1)中每次使用新的噬菌体文库，其中k是整数且大于0，和其中步骤(1)至(4)的实施构成一个生物淘选循环，

(7)形成V_L基因和V_H基因对的特征向量，其中使用的特征至少是最后实施的生物淘选循环和之前一个生物淘选循环的所述V_L基因和所述V_H基因的频度，

(8)将所述特征向量引入模型，其中所述模型基于其特征向量计算每对V_L基因和V_H基因的结果，其中所述结果说明所述V_L基因和所述V_H基因是否编码属于同一抗体和/或抗体片段的可变结构域，或者所述V_L基因和所述V_H基因是否编码不属于同一抗体和/或抗体片段的可变结构域，

(9)输出每对的所述结果。

9.一种系统，其包括：

-输入单元，

-控制单元，

-特征向量生成单元，

-计算单元，和

-输出单元，

o其中所述抗体和/或抗体片段来源于选择方法，所述选择方法包括至少两个选择循环，第一选择循环和第二选择循环，

o其中与所述V_L基因和V_H基因相关的所述特征包括以下特征：

·在来自所述第二选择循环的池中所述V_H基因的频度，

·在来自所述第二选择循环的池中所述V_L基因的频度，

·在来自所述第一选择循环的池中所述V_H基因的频度，和

·在来自所述第一选择循环的池中所述V_L基因的频度，

-其中所述控制单元被配置为驱使所述计算单元基于其特征向量并借助模型计算每对V_L基因和V_H基因的结果，其中所述结果说明所述V_L基因和所述V_H基因是否编码属于同一抗体和/或抗体片段的可变结构域，或者所述V_L基因和所述V_H基因是否编码不属于同一抗体和/或抗体片段的可变结构域，

10.根据权利要求9所述的系统，其包括：

-输入单元，

-控制单元，

-特征向量生成单元，

-计算单元，和

-输出单元，

其中所述控制单元被配置为经过选择抗体和/或抗体片段的至少两个生物淘选循环通过所述输入单元获取编码所述抗体和/或抗体片段的轻链可变结构域的V_L基因的频度和编码所述抗体和/或抗体片段的重链可变结构域的V_H基因的频度，

其中所述控制单元被配置为驱使所述特征向量生成单元形成V_L和V_H基因对的特征向量，其中使用的特征是一个生物淘选循环和之前一个生物淘选循环的所述V_L基因和所述V_H基因的频度，

其中所述控制单元被配置为驱使所述计算单元基于其特征向量并借助模型计算每对V_L基因和V_H基因的结果，其中所述结果说明所述V_L基因和所述V_H基因是否编码属于同一抗体和/或抗体片段的可变结构域，或者所述V_L基因和所述V_H基因是否编码不属于同一抗体和/或抗体片段的可变结构域，

其中所述控制单元被配置为驱使所述输出单元输出每对的所述结果。

11.一种计算机程序产品，其包括数据载体和储存在所述数据载体上并驱动计算机执行以下步骤的程序代码，在所述计算机中装有所述程序代码的工作存储器：

o其中与所述V_L基因和V_H基因相关的所述特征包括以下特征：

·在来自所述第二选择循环的池中所述V_H基因的频度，

·在来自所述第二选择循环的池中所述V_L基因的频度，

·在来自所述第一选择循环的池中所述V_H基因的频度，和

·在来自所述第一选择循环的池中所述V_L基因的频度，

-基于其特征向量并借助模型计算每对V_L基因和V_H基因的结果，其中所述结果说明所述V_L基因和所述V_H基因是否编码属于同一抗体和/或抗体片段的可变结构域，或者所述V_L基因和所述V_H基因是否编码不属于同一抗体和/或抗体片段的可变结构域，

-输出所述结果。

12.根据权利要求11所述的计算机程序产品，其包括数据载体和储存在所述数据载体上并驱动计算机以执行根据权利要求1至8中任一项方法的一个或多个所述步骤的程序代码，在所述计算机中装有所述程序代码的工作存储器。

13.根据权利要求11至12中任一项所述的计算机程序产品，其包括数据载体和储存在所述数据载体上并驱动计算机执行以下步骤的程序代码，在所述计算机中装有所述程序代码的工作存储器：

-经过选择所述抗体和/或抗体片段的多个生物淘选循环获取编码抗体和/或抗体片段的轻链可变结构域的V_L基因的频度和编码抗体和/或抗体片段的重链可变结构域的V_H基因的频度，

-形成V_L和V_H基因对的特征向量，其中使用的特征至少是一个生物淘选循环和之前一个生物淘选循环的所述V_L基因和所述V_H基因的频度，

-基于其特征向量并借助模型计算每对V_L基因和V_H基因的结果，其中所述结果说明所述V_L基因和所述V_H基因是否编码属于同一抗体和/或抗体片段的可变结构域，或者所述V_L基因和所述V_H基因是否编码不属于同一抗体和/或抗体片段的可变结构域，-输出每对的所述结果。