CN111462815A

CN111462815A - 一种抗体库的构建方法及装置

Info

Publication number: CN111462815A
Application number: CN202010231075.6A
Authority: CN
Inventors: 赵文祥; 刘明耀; 魏海涛; 褚敏; 晁瑞华; 李亚男
Original assignee: Zhejiang Xiangyao Biomedical Co ltd; Shanghai Xiangyao Biotechnology Co ltd
Current assignee: Zhejiang Xiangyao Biomedical Co ltd; Shanghai Xiangyao Biotechnology Co ltd
Priority date: 2020-03-27
Filing date: 2020-03-27
Publication date: 2020-07-28
Anticipated expiration: 2040-03-27
Also published as: CN111462815B

Abstract

本发明涉及一种抗体库的构建方法及装置，包括以下步骤：对次级抗体库中的抗体序列进行预处理，以得到字符级抗体序列集合；利用训练好的双向生成对抗网络生成器模型对所述字符级抗体序列集合进行处理获得高活性抗体序列，以建立高级抗体库。其优点在于，通过使用训练好的双向生成对抗网络生成器模型对次级抗体库的活性抗体序列进行非理性定向进化，从而得到高活性抗体序列，并建立高级抗体库，以用于后续高亲和力抗体的筛选；方法简便，耗时短，提高进化效率和筛选效率。

Description

一种抗体库的构建方法及装置

技术领域

本发明涉及人工智能技术领域，尤其涉及一种抗体库的构建方法及装置。

背景技术

人工智能是计算机学科的一个分支，兴起于上世纪五十年代中期，首次提出了“人工智能”这个术语，然而，当时研究人工智能的起点较低，他们的目标只是实现简单的模仿人类行为的机器人。人工智能是研究使计算机来模拟人的某些思维过程和智能行为(如学习、推理、思考、规划等)的学科，主要包括计算机实现智能的原理、制造类似于人脑智能的计算机，使计算机能实现更高层次的应用。人工智能将涉及到计算机科学、心理学、哲学和语言学等学科。现阶段的人工智能处于高速发展时期，人工智能产业链则涵盖了基础层、技术层、应用层、业务层等多个方面，目前人工智能在语音识别、自然语言处理、计算机视觉、机器人等人工智能技术领域取得不俗成就，这是以往人工智能发展所不能达到的一种繁荣景象。随着人工智能的深入发展，医药研发也迎来了人工智能的时代。

生成式对抗网络(Generative Adversarial Networks，GAN)是Goodfellow等在2014年提出的一种生成式模型，目前已经成为人工智能学界一个热门的研究方向，著名学者Yann Lecun甚至将其称为“过去十年间机器学习领域最让人激动的点子”。GAN的基本思想源自博弈论的二人零和博弈，由一个生成器和一个判别器构成，通过对抗学习的方式来训练，目的是估测数据样本的潜在分布并生成新的数据样本。在图像和视觉计算、语音和语言处理、信息安全、棋类比赛等领域，GAN正在被广泛研究，具有巨大的应用前景。

GAN在结构上受博弈论中的二人零和博弈(即二人的利益之和为零，一方的所得正是另一方的所失)的启发，它设定参与游戏双方分别为一个生成器(Generator，G)和一个判别器(Discriminator，D)，生成器的目的是尽量去学习和捕捉真实数据样本的潜在分布，并生成新的数据样本；判别器是一个二分类器，目的是尽量正确判别输入数据是来自真实数据还是来自生成器，为了取得游戏胜利，这两个游戏参与者需要不断优化，各自提高自己的生成能力和判别能力，这个学习优化过程就是一个极小极大博弈(Minimax game)问题，目的是寻找二者之间的一个纳什均衡，使生成器估测到数据样本的分布。

GAN是一种以半监督方式训练分类器的方法，可以帮助解决带标签训练集样本少的问题，模型训练时不需要对隐变量做推断，生成器的参数更新不是直接来自数据样本，而是来自判别器的反向传播。理论上，只要是可微分函数都可以用于构建判别器和生成器(虽然在实践中，很难使用增强学习去训练有离散输出的生成器)，从而能够与深度神经网络结合做深度生成式模型。作为一个具有“无限"生成能力的模型，GAN的直接应用就是建模，生成与真实数据分布一致的数据样本。

定向进化是指在体外进行的“分子进化”，也即人为的创造特殊的进化条件模拟和加速生物分子向特定目标进化的过程。定向进化的对象一般是蛋白质、多肽、核酸或者其他的生物大分子。蛋白质体外定向进化的一般步骤都是对编码蛋白质的基因进行随机突变，以产生大量的突变，构建基因突变文库，然后根据所要获得的特定功能指标对这些蛋白质的变种进行筛选，从而得到具有某些预期特性的进化变种。基于生物学突变的定向进化的方法繁琐，工作量大且耗时长。

发明内容

本发明解决的问题是现有的基于生物学突变的定向进化方法，不仅繁琐，且工作量大、耗时长的技术问题。

本发明的第一个方面是，提供一种抗体库的构建方法，包括以下步骤：

对次级抗体库中的抗体序列进行预处理，以得到字符级抗体序列集合；

利用训练好的双向生成对抗网络生成器模型对所述字符级抗体序列集合进行处理获得高活性抗体序列，以建立高级抗体库。

优选地，所述训练好的双向生成对抗网络生成器模型通过如下方法训练完成：

将训练抗体序列中的氨基酸序列中的每个氨基酸映射为对应的实数，以得到氨基酸序列向量；

基于抗体类别对所述训练抗体序列进行分组，以得到对应不同分组的各个氨基酸序列向量，形成字符级抗体序列集合；

从所述字符级抗体序列集合中随机选取所述氨基酸序列向量作为迭代数据；

将选取的各个所述氨基酸序列向量中的每个氨基酸映射的实数通过Embedding操作映射为固定长度的1维向量，以得到抗体序列矩阵；

将所述抗体序列矩阵输入双向生成对抗网络生成器模型以训练双向生成对抗网络生成器模型参数，直至损失值迭代趋于稳定时停止训练，得到所述训练好的双向生成对抗网络生成器模型。

优选地，所述双向生成对抗网络生成器模型包括：生成器、编码器和判别器；

所述将所述抗体序列矩阵输入双向生成对抗网络生成器模型以训练双向生成对抗网络生成器模型参数，直至损失值迭代趋于稳定时停止训练，得到所述训练好的双向生成对抗网络生成器模型包括：

将所述抗体序列矩阵输入至所述编码器，以得到抗体序列高维向量；

将随机编码向量输入至所述生成器，以得到抗体序列低维向量；

将所述抗体序列高维向量和所述抗体序列低维向量输入至所述判别器，以得到判别结果；

根据所述判别结果计算损失值，直至所述损失值迭代趋于稳定时停止训练，以得到所述训练好的双向生成对抗网络生成器模型。

优选地，训练所述双向生成对抗网络生成器模型还包括：

使用Adam梯度下降算法对所述双向生成对抗网络生成器模型进行训练。

优选地，所述对次级抗体库中的抗体序列进行预处理，以得到字符级抗体序列集合包括：

分别将所述抗体序列中的氨基酸序列中的每个氨基酸映射为对应的实数，以得到氨基酸序列向量；

基于抗体类别对所述抗体序列进行分组，以得到对应不同分组的各个氨基酸序列向量，形成字符级抗体序列集合。

优选地，所述次级抗体库通过如下方法构建：

对初级抗体库的抗体序列进行筛选得到高活性抗体序列，以建立次级抗体库。

优选地，通过人工智能深度学习和迁移学习对所述初级抗体库的抗体序列进行筛选得到活性抗体序列。

本发明的第二个方面是，提供一种抗体库的构建装置，包括：

预处理模块，用于对次级抗体库的抗体序列进行预处理，以得到字符级抗体序列集合；

双向生成对抗网络生成器模型处理模块，用于利用训练好的双向生成对抗网络生成器模型对所述字符级抗体序列集合进行处理，以得到高活性抗体序列；

高级抗体库建立模块，用于利用所述双向生成对抗网络生成器模型处理得到的所述高活性抗体序列，以建立高级抗体库。

优选地，所述双向生成对抗网络生成器模型处理模块包括：

模型训练子模块，用于对所述双向生成对抗网络生成器模型进行训练；

其中，所述模型训练子模块包括：

训练编码处理单元，用于将训练抗体序列中的氨基酸序列中的每个氨基酸映射为对应的实数，以得到氨基酸序列向量；

训练分组处理单元，用于基于抗体类别对所述训练抗体序列进行分组，以得到对应不同分组的各个氨基酸序列向量，形成字符级抗体序列集合；

迭代数据选取单元，用于从所述字符级抗体序列向量集合中随机选取不同分组的氨基酸序列向量作为迭代数据；

映射处理单元，用于将选取的各个氨基酸序列向量中的每个氨基酸映射的实数通过Embedding操作映射为固定长度的1维向量，以得到抗体序列矩阵；

模型训练单元，用于将所述抗体序列矩阵输入双向生成对抗网络生成器模型以训练双向生成对抗网络生成器模型参数，直至损失值迭代趋于稳定时停止训练，得到所述训练好的双向生成对抗网络生成器模型。

所述模型训练单元包括：

生成器处理子单元，用于将随机编码输入至所述生成器，以得到抗体序列低维向量；

编码器处理子单元，用于将所述抗体序列矩阵输入至所述编码器，以得到抗体序列高维向量；

判别器处理子单元，用于将所述抗体序列低维向量和所述抗体序列高维向量素质所述判别器进行判别；

损失值计算子单元，用于根据判别结果计算损失值，直至所述损失值迭代趋于稳定时停止训练，以得到所述训练好的双向生成对抗网络生成器模型。

优选地，所述模型训练单元使用Adam梯度下降算法对所述双向生成对抗网络生成器模型进行训练。

优选地，所述预处理模块包括：

编码处理单元，用于分别将所述抗体序列中的氨基酸序列中的每个氨基酸映射为对应的实数，以得到氨基酸序列向量；

分组处理单元，用于基于抗体类别对所述抗体序列进行分组，以得到对应不同分组的各个氨基酸序列向量，形成字符级抗体序列集合。

优选地，还包括：

筛选模块，用于结合人工智能深度学习和迁移学习对初级抗体库进行筛选，以得到活性抗体序列；

次级抗体库建立模块，用于利用所述筛选模块处理得到的所述活性抗体序列，以建立次级抗体库。

本发明的第三个方面是，提供一种存储介质，所述存储介质包括计算机程序，其中，在所述计算机程序运行时控制所述存储介质执行如上所述的抗体库的构建方法。

本发明采用以上技术方案，与现有技术相比，具有如下技术效果：

本发明的一种抗体库的构建方法及装置，通过使用训练好的双向生成对抗网络生成器模型对次级抗体库的活性抗体序列进行非理性定向进化，从而得到高活性抗体序列，并建立高级抗体库，以用于后续高亲和力抗体的筛选；方法简便，耗时短，提高进化效率和筛选效率。

附图说明

图1是本发明的一个示意性实施例的抗体库的构建方法的流程示意图。

图2是本发明的一个示意性实施例的次级抗体库的预处理的流程示意图。

图3是本发明的一个示意性实施例的抗体库的构建方法的训练双向生成对抗网络生成器模型的流程示意图。

图4是本发明的一个示意性实施例的抗体库的构建方法的双向生成对抗网络生成器模型的示意图。

图5是本发明的一个示意性实施例的抗体库的构建方法的双向生成对抗网络生成器模型的流程示意图。

图6是本发明的一个示意性实施例的抗体库的构建装置的结构示意图。

图7是本发明的一个示意性实施例的构建装置的预处理模块的结构示意图。

图8是本发明的一个示意性实施例的构建装置的双向生成对抗网络生成器模型处理模块的结构示意图。

图9是本发明的一个示意性实施例的构建装置的模型训练单元的结构示意图。

其中的附图标记为：构建装置200、预处理模块201、双向生成对抗网络生成器模型处理模块202、高级抗体库建立模块203、筛选模块204、次级抗体库建立模块205、编码处理单元2011、分组处理单元2012、模型训练子模块2021、训练编码处理单元20211、训练分组处理单元20212、迭代数据选取单元20213、映射处理单元20214、模型训练单元20215、生成器处理子单元202151、编码器处理子单元202152、判别器处理子单元202153、损失值估计子单元202154。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动的前提下所获得的所有其他实施例，都属于本发明保护的范围。

需要说明的是，在不冲突的情况下，本发明中的实施例及实施例中的特征可以相互组合。

下面结合附图和具体实施例对本发明作进一步说明，但不作为本发明的限定。

实施例1

本发明的一个示意性实施例，如图1所示，一种抗体库的构建方法，包括以下步骤：

步骤S102、对次级抗体库中的抗体序列进行预处理，以得到字符级抗体序列集合；

步骤S104、利用训练好的双向生成对抗网络生成器模型对字符级抗体序列集合进行处理获得高活性抗体序列，以建立高级抗体库。

进一步地，在步骤S102之前，还包括：

步骤S100、对初级抗体库的抗体序列进行筛选得到活性抗体序列，以建立次级抗体库。

在步骤S100中，使用人工智能深度学习和迁移学习对初级抗体库的抗体序列进行筛选得到活性抗体序列。

其中，对初级抗体库的抗体序列按照活性高低进行排名，活性抗体序列至少为排名前10000(即Top-10000)的抗体序列。

在一个具体的实施方式中，如图2所示，步骤S102包括：

步骤S1021、分别将抗体序列中的氨基酸序列中的每个氨基酸映射为对应的实数，以得到抗体序列向量集合；

步骤S1022、基于抗体类别对抗体序列进行分组，以得到对应不同分组的各个氨基酸序列向量，形成字符级抗体序列集合。

本领域技术人员理解，抗体是由氨基酸按照不同的结构组成的一种蛋白质，通常有20种常见的氨基酸。为了使待预测抗体序列中的氨基酸序列能够被计算机识别，因此需要对每个氨基酸进行编码，使每个氨基酸映射成为一个具体的实数。

具体地，抗体序列为一些列氨基酸序列对应的英文字母组成的字符串，如EVQLVESGGGLVRPGGSLRLSCAASGF。根据如下表1所示的氨基酸编码对照表将氨基酸序列中的每个英文字母映射为一个具体的实数(例如A对应1、C对应2)，从而得到氨基酸序列向量。

表1氨基酸编码对照表

然后，基于抗体类别对抗体序列进行分组，以得到对应不同分组的各个氨基酸序列向量，形成字符级抗体序列集合。

在一个具体的实施方式中，如图3所示，步骤S104包括：

步骤S1041、将训练抗体序列中的氨基酸序列中的每个氨基酸映射为对应的实数，以得到氨基酸序列向量；

步骤S1042、基于抗体类别对训练抗体序列进行分组，以得到对应不同分组的各个氨基酸序列向量，形成字符级抗体序列集合；

步骤S1043、从字符级抗体序列集合中随机选取所述氨基酸序列向量作为迭代数据；

步骤S1044、将选取的各个氨基酸序列向量中的每个氨基酸映射的实数通过Embedding操作映射为固定长度的1维向量，以得到抗体序列矩阵；

步骤S1045、将抗体序列矩阵输入双向生成对抗网络生成器模型以训练双向生成对抗网络生成器模型参数，直至损失值迭代趋于稳定时停止训练，得到训练好的双向生成对抗网络生成器模型。

具体地，步骤S1041的实施方式与步骤S1021的实施方式相类似，在此不再赘述。由于本实施方式是对双向生成对抗网络生成器模型进行训练，因此样本是训练抗体序列。具体地，一数据集D包含m个样本，即D＝{a₁，a₂，……，a_m}，其中，a_m为氨基酸。将氨基酸序列中的每个氨基酸映射为对应的实数，以得到氨基酸序列向量。

具体地，在步骤S1042中，根据抗体的免疫球蛋白重链抗原性不同，将抗体分为以下五类：免疫球蛋白G(IgG)、免疫球蛋白M(IgM)、免疫球蛋白A(IgA)、免疫球蛋白D(IgD)、免疫球蛋白E(IgE)。

具体地，在步骤S1044中，Embedding操作会将1维的氨基酸序列向量中的每一个实数映像成为一个固定长度的向量。为了方便描述，假设固定长度(fixed length)＝8，这样在经过嵌入阶段之后，上一阶段得到的氨基酸序列向量就变成了一个8×8的抗体序列矩阵。

具体地，在步骤S1045中，训练双向生成对抗网络生成器模型参数的方法是Adam梯度下降算法。本领域技术人员理解，Adam梯度下降算法是一种可以替代传统随机梯度下降过程的一阶优化算法，它能基于训练数据迭代地更新双向对抗网络权重。基于训练好的双向生成对抗网络生成器模型后，需要保存训练完成的双向生成对抗网络生成器模型参数，以供后续使用这些双向生成对抗网络生成器模型参数。

在本实施例的一个具体实施方式中，如图4所示，双向对抗网络生成器模型包括生成器(Generator，G)、编码器(Encoder，E)和判别器(Discriminator，D)。基于该双向对抗网络生成器模型，如图5所示，步骤S1045包括：

步骤S10451、将抗体序列矩阵输入至编码器，以得到抗体序列高维向量；

步骤S10452、将随机编码向量输入至生成器，以得到抗体序列低维向量；

步骤S10453、将抗体序列高维向量和抗体序列低维向量输入至判别器，以得到判别结果；

步骤S10454、根据判别结果计算损失值，直至损失值迭代趋于稳定时停止训练，以得到训练好的双向生成对抗网络生成器模型。

其中，步骤S10451和步骤S10452这两个步骤没有固定的先后顺序，即步骤S10451和步骤S10452可以同时进行，也可以先步骤S10451后步骤S10452，也可以先步骤S10452后步骤S10451。

具体地，在步骤S10451中，将抗体序列矩阵作为输入编码向量xⁱ，将抗体序列高维向量作为输出向量

两者构成判别器的输入

具体地，在步骤S10452中，将随机编码向量作为输入编码向量zⁱ，将抗体序列低维向量作为输出向量

两者构成判别器的输入

具体地，在步骤S10453中，判别器对来自编码器的

和来自生成器的

进行判别。

具体地，在步骤S10454中，使用Adam梯度下降算法训练双向对抗网络生成器模型的参数，直至判别器无法区分生成器输出的抗体序列低维向量和编码器输出的抗体序列高维向量。

即，在初始阶段，判别器对编码器的

的判别结果为1，判别器对生成器的

判别结果为0；

随着训练的不断进行，在结束阶段，判别器对编码器的

的判别结果为1，判别器对生成器的

判别结果为1。

进一步地，在步骤S1045中，向编码器引入分布函数p_E(z|x)＝δ(z-E(x))，将输入编码向量x映射到生成模型的潜在特征空间。相对应的，判别器被修改为从潜在特征空间获取输入，预测P_D(Y|x,z)，其中，如果x是实数则Y＝1，并且如果生成x则Y＝0。因此，定义一目标函数

其中，

进一步地，步骤S104还包括：

步骤S1046、将步骤S102得到的字符级抗体序列输入至训练好的双向生成对抗网络生成器模型进行定向进化，获得高活性抗体序列，以建立高级抗体库。

实施例2

本实施例涉及实施例1中的初级抗体库，其构建过程如下：

1)从人血分离外周血单个核细胞(Peripheral blood mononuclear cell，PBMC)

2)总核糖核酸(Ribonucleic Acid，RNA)提取与互补DNA(cDNA)合成

按照TKARA的PrimeScript^TMRT Master Mix试剂盒的操作说明，将RNA反转成cDNA。

3)VK、VH基因的获取与VK酶切消化

分别使用不同引物，从cDNA中PCR扩增VH/VK片段，对其PCR产物进行回收；

将回收的VK片段以及pXY载体进行双酶切。

4)VK抗体库构建

将酶切好的VK片段以及pXY载体进行过夜连接；

连接完成后进行连接产物去离子；

将去完离子的连接产物转化TG1感受态后涂布于4块15cm的羧苄青霉素抗性平板上于37℃恒温培养箱中过夜培养；

次日使用2YT液体培养基将平板上的菌体刮下并进行抽pXY-VK质粒。

5)VH片段以及pXY-VK载体酶切

将回收的VH片段以及pXY-VK载体进行过夜酶切，回收VH酶切片段与pXY-VK载体。

6)完整VK、VH抗体库构建

将酶切好的VH片段以及pXY-VK载体在16℃过夜连接；

连接完成后进行连接产物去离子；

次日使用2YT液体培养基将平板上的菌体刮下储存备用。

通过步骤1)～6)即可构建初级抗体库。

7)NGS测序获取初级抗体库序列

取10mL上述构建好的初级抗体库的抗体库菌液，4℃，6000g离心10min，弃去上清液；按照试剂操作说明抽提质粒，最终用300μL无菌水溶解质粒沉淀，涡旋混匀后室温放置至溶解完全，Nano-300测定质粒浓度，取10ug质粒，使用NcoI/NotI对质粒进行双酶切，并进行胶回收，回收750bp左右片段；将回收的片段进行NGS测序。

实施例3

本实施例涉及实施例1中的高级抗体库的抗体的基因合成、抗体的表达以及抗体的验证。

步骤S100、使用人工智能深度学习和迁移学习对初级抗体库的抗体序列进行筛选得到Top-10000的活性抗体序列，以构建次级抗体库；

步骤S102、对次级抗体库中的Top-1000的抗体序列进行预处理，以得到字符级抗体序列集合；

对高级抗体库进行筛选，得到Top-30的抗体序列，通过基因合成，构建此30株抗体的scFV表达质粒和菌株。

具体地，将Top-30抗体菌株接种至96深孔板中，每孔加入200ul的2YT+Carb+2％glucose培养基，37℃，200rpm培养箱中培养至OD600＝0.5；4000rpm室温离心10分钟，倒置平板小心去除上清，在纸上将残夜去除干净；再向深孔板中加入200ul的2YT+Carb+IPTG(终浓度1uM)培养基，30℃，200rpm培养过夜；4000rpm室温离心10分钟，吸取上清备用，得到表达上清。

对Top-30抗体进行ELISA验证。

具体地，使用PBS配置1ug/ml的CD19抗原液，每孔100ul包被酶标板，4℃包被过夜；弃去抗原包被液，使用PBST洗板3次；在向l每孔中加入200uL2％milk(1XPBS配置)室温封闭1.5小时；弃去封闭液，使用PBST洗板3次；每孔加入制备好的表达上清，室温结合1小时；弃去上清，使用PBST洗板5次；每孔加入100ul anti-c-myc-HRP(使用2％milk 1:2500稀释)二抗，室温结合1小时；弃去二抗，使用PBST洗板5次；每孔中加入100ul TMB，显色12分钟；每孔加入100ul 2 M HCl终止液终止显色；使用酶标仪读取450nm的吸光度值。

ELISA结果如表2所示，Top-30的抗体序列有28条阳性序列(OD450>0.1)。

表2

对Top-30抗体进行FACS验证。

具体地，96孔V型稀释板每孔加入3*105个细胞；向每孔中加入100uL实施四制备的Top-100抗体上清，冰上孵育30分钟；使用Multidrop，向每孔中加入200ul PBS，1500rpm离心1min，洗3遍，最后一遍使用擦手纸拍干水分；使用PBS按照比例稀释二抗，再向每孔中加入50uL二抗，冰上孵育30分钟；使用Multidrop，向每孔中加入200ul PBS，1500rpm离心1min，洗3遍，最后一遍使用擦手纸拍干水分；使用Multidrop，每孔加入200ul PBS重悬细胞，使用Beckman CytoFLEX检测。

FACS结果如表3,Top-30的抗体序列有7条阳性序列(293T细胞系检测MFI>50000)。

表3

实施例4

本实施例为本发明的一个示意性实施例的抗体库的构建装置，如图6所示，一种抗体库的构建装置200，包括预处理模块201、双向生成对抗网络生成器模型处理模块202和高级抗体库建立模块203，其中，预处理模块201、双向生成对抗网络生成器模型处理模块202和高级抗体库建立模块203顺次连接。

其中，预处理模块201用于对次级抗体库的抗体序列进行预处理，以得到字符级抗体序列集合；

双向生成对抗网络生成器模型处理模块202用于利用训练好的双向生成对抗网络生成器模型对字符级抗体序列集合进行处理，以得到高活性抗体序列；

高级抗体库建立模块203用于利用双向生成对抗网络生成器模型处理得到的高活性抗体序列，以建立高级抗体库。

进一步地，还包括筛选模块204和次级抗体库建立模块205，其中，筛选模块204、次级抗体库建立模块205和预处理模块201顺次连接。

其中，筛选模块204用于结合人工智能深度学习和迁移学习对初级抗体库进行筛选，以得到活性抗体序列；

次级抗体库建立模块205用于利用筛选模块204处理得到的活性抗体序列，以建立次级抗体库。

进一步地，如图7所示，预处理模块201包括编码处理单元2011和分组处理单元2012，其中，编码处理单元2011和分组处理单元2012顺次连接。

其中，编码处理单元2011用于分别将抗体序列中的氨基酸序列中的每个氨基酸映射为对应的实数，以得到氨基酸序列向量；

分组处理单元2012用于基于抗体类别对抗体序列进行分组，以得到对应不同分组的各个氨基酸序列向量，形成字符级抗体序列集合。

进一步地，如图8所示，双向生成对抗网络生成器模型处理模块202包括模型训练子模块2021，其用于对双向生成对抗网络生成器模型进行训练。

具体地，模型训练子模块2021包括训练编码处理单元20211、训练分组处理单元20212、迭代数据选取单元20213、映射处理单元20214和模型训练单元20215，其中，训练编码处理单元20211、训练分组处理单元20212、迭代数据选取单元20213、映射处理单元20214和模型训练单元20215顺次连接。

其中，训练编码处理单元20211用于将训练抗体序列中的氨基酸序列中的每个氨基酸映射为对应的实数，以得到氨基酸序列向量；

训练分组处理单元20212用于基于抗体类别对训练抗体序列进行分组，以得到对应不同分组的各个氨基酸序列向量，形成字符级抗体序列集合；

迭代数据选取单元20213用于从字符级抗体序列向量集合中随机选取不同分组的氨基酸序列向量作为迭代数据；

映射处理单元20214用于将选取的各个氨基酸序列向量中的每个氨基酸映射的实数通过Embedding操作映射为固定长度的1维向量，以得到抗体序列矩阵；

模型训练单元20215用于将抗体序列矩阵输入双向生成对抗网络生成器模型以训练双向生成对抗网络生成器模型参数，直至损失值迭代趋于稳定时停止训练，得到训练好的双向生成对抗网络生成器模型。

在本发明中，双向生成对抗网络生成器模型包括生成器、编码器和判别器。基于该双向生成对抗网络生成器模型，如图9所示，模型训练单元20215进一步包括生成器处理子单元202151、编码器处理子单元202152、判别器处理子单元202153和损失值计算子单元202154，其中，判别器处理子单元202153分别和生成器处理子单元202151、编码器处理子单元202152和损失值计算子单元202154顺次连接。

其中，生成器处理子单元202151用于将随机编码输入至生成器，以得到抗体序列低维向量；

编码器处理子单元202152用于将抗体序列矩阵输入至编码器，以得到抗体序列高维向量；

判别器处理子单元202153用于将抗体序列低维向量和抗体序列高维向量素质判别器进行判别；

损失值计算子单元202154用于根据判别结果计算损失值，直至损失值迭代趋于稳定时停止训练，以得到训练好的双向生成对抗网络生成器模型。

进一步地，模型训练单元20215使用Adam梯度下降算法对双向生成对抗网络生成器模型进行训练。

实施例5

本实施例为本发明的一个示意性实施例的一种非临时性计算机可读存储介质，其上存储有计算机程序，上述计算机程序运行时控制存储介质执行本申请实施例1提供的抗体库的构建方法。

本实施例还提供了一种处理器，该处理器用于运行计算机程序，该计算机程序运行时执行本申请实施例1提供的抗体库的构建方法。

上述非临时性计算机可读存储介质可以采用一个或多个计算机可读的介质的任意组合。计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质。计算机可读存储介质例包括但不限于电、磁、光、电磁、红外线、或半导体的系统、装置或器件，或者任意以上的组合。计算机可读存储介质的更具体的例子(非穷举的列表)包括：具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机存取存储器(Random Access Memory，RAM)、只读存储器(Read Only Memory，ROM)、可擦式可编程只读存储器(ErasableProgrammable Read Only Memory，EPROM)或闪存、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本文件中，计算机可读存储介质可以是任何包含或存储程序的有形介质，该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。

计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号，其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式，包括——但不限于——电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读介质，该计算机可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。

计算机可读介质上包含的程序代码可以用任何适当的介质传输，包括——但不限于——无线、电线、光缆、RF等等，或者上述的任意合适的组合。

可以以一种或多种程序设计语言或其组合来编写用于执行本申请操作的计算机程序代码，所述程序设计语言包括面向对象的程序设计语言—诸如Java、Smalltalk、C++，还包括常规的过程式程序设计语言—诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中，远程计算机可以通过任意种类的网络——包括局域网(LocalArea Network，LAN)或广域网(Wide Area Network，WAN)连接到用户计算机，或者，可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。

以上所述仅为本发明较佳的实施例，并非因此限制本发明的实施方式及保护范围，对于本领域技术人员而言，应当能够意识到凡运用本发明说明书及图示内容所作出的等同替换和显而易见的变化所得到的方案，均应当包含在本发明的保护范围内。

Claims

1.一种抗体库的构建方法，其特征在于，包括以下步骤：

2.根据权利要求1所述的抗体库的构建方法，其特征在于，所述训练好的双向生成对抗网络生成器模型通过如下方法训练完成：

3.根据权利要求2所述的抗体库的构建方法，其特征在于，所述双向生成对抗网络生成器模型包括：生成器、编码器和判别器；

4.根据权利要求2所述的抗体库的构建方法，其特征在于，训练所述双向生成对抗网络生成器模型还包括：

5.根据权利要求1所述的抗体库的构建方法，其特征在于，所述对次级抗体库中的抗体序列进行预处理，以得到字符级抗体序列集合包括：

6.根据权利要求1所述的抗体库的构建方法，其特征在于，所述次级抗体库通过如下方法构建：

对初级抗体库的抗体序列进行筛选得到活性抗体序列，以建立次级抗体库。

7.根据权利要求6所述的抗体库的构建方法，其特征在于，通过人工智能深度学习和迁移学习对所述初级抗体库的抗体序列进行筛选得到活性抗体序列。

8.一种抗体库的构建装置，其特征在于，包括：

9.根据权利要求8所述的抗体库的构建装置，其特征在于，所述双向生成对抗网络生成器模型处理模块包括：

其中，所述模型训练子模块包括：

10.根据权利要求9所述的抗体库的构建装置，其特征在于，所述双向生成对抗网络生成器模型包括：生成器、编码器和判别器；

所述模型训练单元包括：

11.根据权利要求9所述的抗体库的构建装置，其特征在于，所述模型训练单元使用Adam梯度下降算法对所述双向生成对抗网络生成器模型进行训练。

12.根据权利要求8所述的抗体库的构建装置，其特征在于，所述预处理模块包括：

13.根据权利要求8所述的抗体库的构建装置，其特征在于，还包括：

14.一种存储介质，所述存储介质包括计算机程序，其中，在所述计算机程序运行时控制所述存储介质执行权利要求1～7中任意一项所述的抗体库的构建方法。