CN117935925A

CN117935925A - 一种基于集成学习的抗原抗体结合亲和力预测方法和系统

Info

Publication number: CN117935925A
Application number: CN202311359751.8A
Authority: CN
Inventors: 李明慧; 什瑶; 胡胜山; 郭培金
Original assignee: Huazhong University of Science and Technology
Current assignee: Huazhong University of Science and Technology
Priority date: 2023-10-18
Filing date: 2023-10-18
Publication date: 2024-04-26

Abstract

本发明公开了一种基于集成学习的抗原抗体结合亲和力预测方法，包括：获取多个待预测结合亲和力的抗原‑抗体复合物，每个复合物具有多个序列，所有抗原‑抗体复合物的所有序列构成序列集合；将多个抗原‑抗体复合物的序列集合输入预先训练好的蛋白质语言预训练模型proteinBERT，以获取每个抗原‑抗体复合物的多个序列对应的全局语义特征，该抗原‑抗体复合物的所有序列对应的所有全局语义特征构成该抗原‑抗体复合物的全局语义特征集合；为每个抗原‑抗体复合物构建残基特征矩阵，所有残基特征矩阵构成残基特征矩阵集合；将全局语义特征集合和残基特征矩阵集合输入预先训练好的抗原抗体结合亲和力预测模型中，以获取每对抗原抗体结合亲和力的预测值。

Description

一种基于集成学习的抗原抗体结合亲和力预测方法和系统

技术领域

本发明属于生物医药技术领域，更具体地，涉及一种基于集成学习的抗原抗体结合亲和力预测方法和系统。

背景技术

抗原抗体结合亲和力预测对于新药研发、免疫诊断和治疗、生物工程和蛋白工程以及疾病研究和治疗等领域具有重要意义。抗原抗体的结合机制是一种高度特异性的蛋白质相互作用，通常使用结合亲和力来衡量这种相互作用的强度和有效性。准确预测抗原抗体的结合亲和力有助于研究人员理解疾病机理、研究疾病标志物并开发相应的治疗策略。例如在癌症治疗中，利用抗原抗体结合亲和力来设计和筛选具有更强抗肿瘤活性的抗体药物。

由于抗原抗体的结合取决于抗体的互补决定区和抗原的表位之间的互补性相互作用，而传统测量方法的实验要求严苛且成本高昂，新兴生物信息技术的发展为抗原抗体结合亲和力的预测提供了新的途径。目前关于抗原-抗体结合亲和力预测的研究主要包括两种方法，一种是基于能量函数的方法，其使用分子对接预测抗原与抗体的最佳结合模式，然后通过分子力学力场和能量评分函数来计算结合亲和力；另一种是基于经典机器学习的方法，其通过对抗原与抗体相互作用的界面建模来预测结合亲和力。

然而，上述两种方法均存在一些不可忽略的缺陷：

第一、这两种方法预测亲和力均需要用到抗原与抗体的结构信息，然而，现有的抗原和抗体的结构数据相对较少，导致模型容易出现过拟合问题，尤其是基于能量函数的方法对抗原和抗体的结构高度依赖，极易受到蛋白质结构动态变化的干扰，因此这些方法在未见过的数据集上的预测效果均不佳，即泛化性较差。

第二、这两种方法均忽略了抗原和抗体序列中蕴含的语义信息，无法充分利用序列中的保守区域、远程相互作用等重要信息，从而无法达到更好的预测效果。

第三、基于经典机器学习的方法只从界面氨基酸中提取特征，而忽略了非界面氨基酸对抗原和抗体的结合同样具有影响，导致模型的预测精度较低。

发明内容

针对现有技术的以上缺陷或改进需求，本发明提供了一种基于集成学习的抗原抗体结合亲和力预测方法和系统，其目的在于，解决现有基于能量函数的方法和基于经典机器学习的方法由于依赖抗原和抗体的结构信息，导致抗原抗体结合亲和力预测模型难以泛化的技术问题；以及现有基于能量函数的方法和基于经典机器学习的方法由于忽略了抗原和抗体序列中蕴含的语义信息，导致抗原抗体结合亲和力预测模型无法学习到序列的保守区域、远程相互作用等重要信息的技术问题；以及现有基于经典机器学习的方法由于只处理界面氨基酸信息而忽略了非界面氨基酸对结合同样具有影响，导致抗原抗体结合亲和力预测模型精度不高的技术问题。

为实现上述目的，按照本发明的一个方面，提供了一种基于集成学习的抗原抗体结合亲和力预测方法，包括：

(1)获取多个待预测结合亲和力的抗原-抗体复合物，每个抗原-抗体复合物具有多个序列，所有抗原-抗体复合物的所有序列构成序列集合。

(2)将步骤(1)获取的多个抗原-抗体复合物的序列集合输入预先训练好的蛋白质语言预训练模型proteinBERT，以获取每个抗原-抗体复合物的多个序列对应的全局语义特征，该抗原-抗体复合物的所有序列对应的所有全局语义特征构成该抗原-抗体复合物的全局语义特征集合，其中每条序列对应的全局语义特征以一个768维的向量表示；

(3)为步骤(1)获取的每个抗原-抗体复合物构建残基特征矩阵，所有残基特征矩阵构成残基特征矩阵集合；

(4)将步骤(2)中获取的全局语义特征集合、以及步骤(3)中获取的残基特征矩阵集合输入预先训练好的抗原抗体结合亲和力预测模型中，以获取每对抗原抗体结合亲和力的预测值。

优选地，步骤(1)具体为，首先对待预测结合亲和力的每个抗原-抗体复合物的序列文件(其是以FASTA格式存储)进行规整处理(若序列文件中的抗体轻、重链序列两者其中之一有缺失，则以空值表示该条序列，若抗原序列若有多条，则将多条抗原序列拼接起来获取整个抗原的序列)，以获取规整处理后的序列文件(其只包含抗体轻、重链序列和抗原序列这三条序列)；然后，将规整处理后的所有序列文件合并为一个新的序列文件，其中包括了所有抗原-抗体复合物的序列集合。

优选地，步骤(3)具体为，首先，从AAindex数据库中获取表示20种氨基酸性质的特征，其中每种氨基酸有103个特征；然后，针对每种特征而言，对该特征对应的20种氨基酸的特征值进行最大值最小值归一化处理，以获取归一化后的特征；随后，针对步骤(1)获取的每个抗原-抗体复合物的序列集合中的每条序列而言，将其所有位点对应的所有归一化后的特征进行拼接，以获取该序列的残基特征矩阵；最后，将每个抗原-抗体复合物的所有序列的残基特征矩阵进行拼接并规整到同一大小，以获取该抗原-抗体复合物的残基特征矩阵，所有抗原-抗体复合物的残基特征矩阵构成残基特征矩阵集合。

对于第i个抗原-抗体复合物而言，将每个抗原-抗体复合物的所有序列的残基特征矩阵进行拼接，以获取该抗原-抗体复合物的残基特征矩阵，这一过程为：

M_i＝[al_i，ah_i，ag_i]

其中，i∈[1，步骤(1)获取的抗原-抗体复合物总数]，表示第i个抗原-抗体复合物的残基特征矩阵，/> 分别表示第i个抗原-抗体复合物的抗体轻、重链序列和抗原链序列的残基特征矩阵，p_i、q_i、r_i分别表示第i个抗原-抗体复合物的抗体轻、重链序列和抗原序列所含氨基酸的个数，n_i表示第i个抗原-抗体复合物所含氨基酸个数的总和，且有n_i＝p_i+q_i+r_i。然后将该残基特征矩阵规整到固定大小(对于n_i＜512的特征矩阵，使用零填充将其填充到大小为512×103，对于n_i＞512的特征矩阵，将其裁剪到大小为512×103)；最终每个抗原-抗体复合物的残基特征矩阵大小均为512×103。

优选地，抗原抗体结合亲和力预测模型包含依次连接的卷积模块、多层感知机模块、以及集成部分；

卷积模块包括依次连接的特征融合部分、二维卷积层、两个一维卷积层、最大池化层和全连接层，每个部分的具体结构为：

特征融合部分的输入是每个抗原-抗体复合物包含的所有序列的全局语义特征，即3个768维的向量，其首先对抗体轻、重链序列的全局语义特征在第一、二个维度上进行升维，然后对抗原序列的全局语义特征在第一、三个维度上进行升维，随后分别对抗体轻链序列和抗原序列、抗体重链序列和抗原序列进行取绝对值、相乘的融合操作，得到4个大小为1×768×768的张量，其后对这4个张量进行拼接，输出是大小为4×768×768的抗原-抗体复合物的语义特征张量；

二维卷积层的输入为特征融合部分输出的大小为4×768×768的语义特征张量，其对该语义特征张量先后进行卷积压缩和激活处理，输出大小为1×768×768的中间特征张量；

第一个一维卷积层的输入为二维卷积层输出的大小为1×768×768的中间特征张量，其对该中间特征张量先后进行卷积降维和激活处理，输出大小为1×384×768的中间特征张量；

第二个一维卷积层的输入为第一个一维卷积层输出的大小为1×384×768的中间特征张量，其对该中间特征张量先后进行卷积降维和展开处理，输出大小为768维的向量；

最大池化层的输入为第二个一维卷积层输出的768维的向量，池化核为2，输出为384维的中间向量；

全连接层的输入为最大池化层输出的384维的中间向量，其对该中间向量进行线性回归处理，输出为卷积模块的中间预测值。

多层感知机模块包括两个线性层，每个部分的具体结构为：

第一个线性层的输入为每个抗原-抗体复合物大小为512×103的残基特征矩阵，其对该残基特征矩阵先后进行展开、降维和激活处理，输出大小为256维的中间向量；

第二个线性层的输入第一个线性层输出的256维的中间向量，其对该中间向量进行线性降维处理，输出为多层感知机模块的中间预测值。

集成部分将卷积模块输出的中间预测值和多层感知机模块输出的中间预测值分别乘以权重后相加，以获取最终的抗原抗体结合亲和力预测值。

优选地，抗原抗体结合亲和力预测模型是通过以下步骤训练获取的：

(4-1)获取多个抗原-抗体复合物，每个抗原-抗体复合物具有多个序列，所有抗原-抗体复合物的所有序列构成序列集合，按照8:1:1的比例将多个抗原-抗体复合物划分为训练集、验证集和测试集，使用预训练模型proteinBERT对训练集中每个抗原-抗体复合物的所有序列进行预训练，以获取每个抗原-抗体复合物的抗体轻、重链序列及抗原序列的全局语义特征，每个抗原-抗体复合物所有序列的全局语义特征构成该抗原-抗体复合物的全局语义特征集合；为训练集中每个抗原-抗体复合物构建残基特征矩阵，所有抗原-抗体复合物的残基特征矩阵构成残基特征矩阵集合。

(4-2)对步骤(4-1)获取的每个抗原-抗体复合物的全局语义特征集合进行特征融合，以获取该抗原-抗体复合物对应的语义特征张量；

(4-3)针对步骤(4-1)获取的每个抗原-抗体复合物而言，将步骤(4-2)得到的该抗原-抗体复合物的语义特征张量升维到1×4×768×768，使用二维卷积神经网络对升维后的语义特征向量进行压缩，以获取1×1×768×768的张量，并使用ReLU激活函数对1×1×768×768的张量进行激活，以获取该抗原-抗体复合物对应的、大小为1×768×768的张量；

(4-4)针对步骤(4-1)获取的每个抗原-抗体复合物而言，将步骤(4-3)获取的该抗原-抗体复合物对应的、大小为1×768×768的张量输入到第一个一维卷积层进行压缩，以获取1×384×768的特征张量，并使用ReLU激活函数对1×384×768的特征张量进行激活，以获取的该抗原-抗体复合物对应的、大小为1×384×768的中间特征张量；

(4-5)针对步骤(4-1)获取的每个抗原-抗体复合物而言，将步骤(4-4)获取的该抗原-抗体复合物对应的、大小为1×384×768的中间特征向量输入到第二个一维卷积层进行降维，以获取大小为1×1×768的特征张量，并将这个张量在一维空间展开，以获取该抗原-抗体复合物对应的、大小为768维的特征向量；

(4-6)针对步骤(4-1)获取的每个抗原-抗体复合物而言，将步骤(4-5)获取的该抗原-抗体复合物对应的、大小为768维的特征向量输入到最大池化层(池化核为2)进行降维，以获取该抗原-抗体复合物对应的、大小为384维的中间特征向量；

(4-7)针对步骤(4-1)获取的每个抗原-抗体复合物而言，将步骤(4-6)获取的该抗原-抗体复合物对应的、大小为384维的中间特征向量输入到全连接层进行回归处理，以获取卷积模块的中间预测值其中/>表示第i个抗原-抗体复合物通过卷积模块处理后得到的中间预测值，/>表示实数集。

(4-8)针对步骤(4-1)获取的每个抗原-抗体复合物而言，将步骤(4-1)获取的该抗原-抗体复合物的残基特征矩阵在一维空间展开，以获取512×103维的特征向量，然后使用多层感知机的第一个线性层对512×103维的特征向量进行降维，以获取256维的中间特征向量，并使用ReLU激活函数对256维的中间特征向量进行激活，以获取该抗原-抗体复合物对应的、256维的中间特征向量，最后使用多层感知机的第二个线性层对256维的中间特征向量进行回归，以获取多层感知机模块的中间预测值其中/>表示第i个抗原-抗体复合物通过多层感知机模块处理后得到的中间预测值。

(4-9)针对步骤(4-1)获取的每个抗原-抗体复合物而言，将步骤(4-7)和步骤(4-8)获取的中间预测值和/>进行加权平均，以获取该抗原-抗体复合物所含的抗原抗体的结合亲和力预测值/>

(4-10)针对步骤(4-1)获取的每个抗原-抗体复合物而言，根据步骤(4-9)得到的抗原抗体结合亲和力预测值计算损失函数，利用该损失函数对抗原抗体结合亲和力预测模型进行迭代训练，并使用步骤(4-1)获取的验证集对当前模型进行验证，直到该抗原抗体结合亲和力预测模型收敛为止，从而得到初步训练好的抗原抗体结合亲和力预测模型。

(4-11)使用步骤(4-1)获取的测试集对步骤(4-10)初步训练好的抗原抗体结合亲和力预测模型进行测试，从而得到最终训练好的抗原抗体结合亲和力预测模型。

优选地，步骤(4-1)中获取多个抗原-抗体复合物，每个抗原-抗体复合物具有多个序列，所有抗原-抗体复合物的所有序列构成序列集合这一过程具体为，首先，从开源的结构抗体数据库SAbDab中下载多个标注了结合亲和力标签的原始抗原-抗体复合物数据条目；然后，从这些原始抗原-抗体复合物数据条目中筛选出由蛋白质或多肽组成的抗原-抗体复合物，获取可用的多个抗原-抗体复合物的ID及结合亲和力标签；随后，根据获取的每个抗原-抗体复合物的ID在PDB数据库中下载对应的序列文件，其中包括该抗原-抗体复合物的所有序列；其后，对每个抗原-抗体复合物的序列文件进行规整处理(若序列文件中的抗体轻、重链序列两者其中之一有缺失，则以空值表示该条序列，若抗原序列若有多条，则将多条抗原序列拼接起来获取整个抗原的序列)，以获取规整处理后的序列文件(其只包含抗体轻、重链序列和抗原序列这三条序列)；最后，将规整处理后的所有序列文件合并为一个新的序列文件，其中包括了所有抗原-抗体复合物的序列集合。

优选地，步骤(4-2)具体为，首先，对于第i个抗原-抗体复合物，从全局语义特征集合中获取其抗体轻、重链序列和抗原序列；然后，将其抗体轻链序列的全局语义特征在第1个维度和第2个维度上进行升维，得到大小为1×1×768的张量Al_i；随后将其抗原序列的全局语义特征在第1个维度和第3个维度上进行升维，得到大小为1×768×1的张量Ag_i；其后将Al_i和Ag_i依次进行取差值绝对值和相乘计算，得到和两个中间特征张量，这一过程具体为：

其后，对抗体重链序列和抗原序列的全局语义特征也进行上述操作，不做赘述，得到和/>两个中间特征张量；最后将以上四个中间特征张量在第一个维度上拼接，得到第i个抗原-抗体复合物的语义特征张量这一过程具体为：

优选地，步骤(4-9)的计算过程具体为：

其中，表示第i个抗原-抗体复合物通过模型处理得到的其所含抗原抗体的结合亲和力预测值，ω_c∈(0，1)和ω_m∈(0，1)分别表示卷积神经网络模块的中间预测值和多层感知机模块的中间预测值所占的权重。

优选地，步骤(4-10)中，对于第i个抗原-抗体复合物，损失函数为：

其中，y_i表示第i个抗原-抗体复合物的结合亲和力标签。

步骤(4-10)是使用基于随机梯度下降SGD的锐度感知最小化SAM优化器对模型进行迭代训练，学习率设为0.0001，批处理大小设为32，迭代训练次数设为30。

按照本发明的另一方面，提供了一种基于集成学习的抗原抗体结合亲和力预测系统，包括：

第一模块，用于获取多个待预测结合亲和力的抗原-抗体复合物，每个抗原-抗体复合物具有多个序列，所有抗原-抗体复合物的所有序列构成序列集合。

第二模块，用于将第一模块获取的多个抗原-抗体复合物的序列集合输入预先训练好的蛋白质语言预训练模型proteinBERT，以获取每个抗原-抗体复合物的多个序列对应的全局语义特征，该抗原-抗体复合物的所有序列对应的所有全局语义特征构成该抗原-抗体复合物的全局语义特征集合，其中每条序列对应的全局语义特征以一个768维的向量表示；

第三模块，用于为第一模块获取的每个抗原-抗体复合物构建残基特征矩阵，所有残基特征矩阵构成残基特征矩阵集合；

第四模块，用于将第二模块获取的全局语义特征集合、以及第三模块获取的残基特征矩阵集合输入预先训练好的抗原抗体结合亲和力预测模型中，以获取每对抗原抗体结合亲和力的预测值。

总体而言，通过本发明所构思的以上技术方案与现有技术相比，能够取得下列有益效果：

(1)本发明由于采用了步骤(2)至(4)，采用集成学习方式通过分别考虑整条序列和每个位点的特征，最大限度地提取抗体和抗原序列中的信息，使抗原抗体结合亲和力预测模型仅通过抗原和抗体的序列就能准确预测其结合亲和力，并且能够注意到重要的结合位点，使抗原抗体结合亲和力模型不仅能在未见过的数据集上达到较好的效果，在面对发生了点突变的突变样本时也同样起效，因此能够解决由于对抗原和抗体的结构信息的高度依赖导致模型泛化性差的技术问题；

(2)本发明由于采用了步骤(2)至(4)，通过预训练模型提取抗体的轻、重链序列和抗原链序列的全局语义特征并融合，通过卷积神经网络提取融合后的语义特征信息，使抗原抗体结合亲和力预测模型能够捕捉到抗体与抗原序列各自的重要保守区域与其之间的关联性，因此能够解决忽略抗原和抗体序列的保守区域、远程相互作用等重要信息的技术问题。

(3)本发明由于采用了步骤(2)至(4)，针对序列的全局语义特征和全体残基的理化特征设计对应的特征处理方法，使抗原抗体结合亲和力预测模型通过更全面的序列信息学习到抗原与抗体之间的相互作用，因此能够解决仅关注界面氨基酸对结合的影响导致抗原抗体结合亲和力预测模型精度不高的技术问题。

附图说明

图1是本发明基于集成学习的抗原抗体结合亲和力预测方法的整体流程图；

图2是本发明抗原抗体结合亲和力预测模型的结构示意图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。此外，下面所描述的本发明各个实施方式中所涉及到的技术特征只要彼此之间未构成冲突就可以相互组合。

本发明的基本思路在于，设计基于集成学习的抗原抗体结合亲和力预测方法，提出不同的特征提取方法将来自序列的全局语义特征和来自全体残基的理化特征进行单独处理并融合训练。全局语义特征是通过一个基于BERT语言模型微调的预训练模型proteinBERT进行嵌入获得，然后通过特征融合将抗体轻、重链序列和抗原链序列的全局语义特征进行整合并输入到卷积模块，设计多层卷积神经网络对融合后的特征进行处理。残基理化特征是通过获取序列中每个位点在AAindex数据库中的理化性质组成特征矩阵，然后使用多层感知机对这些特征矩阵进行学习，捕捉抗体与抗原结合过程中起关键作用的位点，有效提高了模型在遇到突变抗体序列时的鲁棒性。

本发明的目的是提高从序列中预测抗原抗体结合亲和力的性能。

本发明的优点在于，它提高了从序列中预测抗原抗体结合亲和力的性能，解决了抗原抗体结合亲和力的预测问题。为了使本发明的目的、技术方法及优点更加清楚明白，以下结合附图，对本发明进行进一步详细说明。

如图1所示，本发明提供了一种基于集成学习的抗原抗体结合亲和力预测方法，包括以下步骤：

具体而言，本步骤首先对待预测结合亲和力的每个抗原-抗体复合物的序列文件(是以FASTA格式存储)进行规整处理(若序列文件中的抗体轻、重链序列两者其中之一有缺失，则以空值表示该条序列，若抗原序列若有多条，则将多条抗原序列拼接起来获取整个抗原的序列)，以获取规整处理后的序列文件(其只包含抗体轻、重链序列和抗原序列这三条序列)；然后，将规整处理后的所有序列文件合并为一个新的序列文件，其中包括了所有抗原-抗体复合物的序列集合。

本步骤具体为，首先，从AAindex数据库(https：//www.genome.jp/aaindex/)中获取表示20种氨基酸性质的特征(每种氨基酸有103个特征)；然后，针对每种特征而言，对该特征对应的20种氨基酸的特征值进行最大值最小值归一化处理，以获取归一化后的特征；随后，针对步骤(1)获取的每个抗原-抗体复合物的序列集合中的每条序列而言，将其所有位点对应的所有归一化后的特征进行拼接，以获取该序列的残基特征矩阵；最后，将每个抗原-抗体复合物的所有序列的残基特征矩阵进行拼接并规整到同一大小，以获取该抗原-抗体复合物的残基特征矩阵，所有抗原-抗体复合物的残基特征矩阵构成残基特征矩阵集合。

更具体而言，对于第i个抗原-抗体复合物而言，将每个抗原-抗体复合物的所有序列的残基特征矩阵进行拼接，以获取该抗原-抗体复合物的残基特征矩阵，这一过程可以表示为：

M_i＝[al_i，ah_i，ag_i]

(4)将步骤(2)中获取的全局语义特征集合、以及步骤(3)中获取的残基特征矩阵集合输入预先训练好的抗原抗体结合亲和力预测模型中，以获取每对抗原抗体结合亲和力的预测值；

如图2所示，本发明的抗原抗体结合亲和力预测模型包含依次连接的卷积模块、多层感知机模块、以及集成部分。

二维卷积层的输入为特征融合部分输出的大小为4×768×768的语义特征张量，其对该语义特征张量先后进行卷积压缩(输入通道为4，输出通道为1，卷积核大小为3×3，步幅为默认值1，填充值为1)和激活处理，输出大小为1×768×768的中间特征张量；

第一个一维卷积层的输入为二维卷积层输出的大小为1×768×768的中间特征张量，其对该中间特征张量先后进行卷积降维(输入通道为768，输出通道为384，卷积核大小为7×7，步幅为默认值1，填充值为3)和激活处理，输出大小为1×384×768的中间特征张量；

第二个一维卷积层的输入为第一个一维卷积层输出的大小为1×384×768的中间特征张量，其对该中间特征张量先后进行卷积降维(输入通道为384，输出通道为1，其它参数与上述第一个一维卷积层保持一致)和展开处理，输出大小为768维的向量；

全连接层的输入为最大池化层输出的384维的中间向量，其对该中间向量进行线性回归(输入特征数为384，输出特征数为1)处理，输出为卷积模块的中间预测值。

多层感知机模块包括两个线性层，每个部分的具体结构为：

第一个线性层的输入为每个抗原-抗体复合物大小为512×103的残基特征矩阵，其对该残基特征矩阵先后进行展开、降维(输入特征数为512×103，输出特征数为256)和激活处理，输出大小为256维的中间向量；

第二个线性层的输入第一个线性层输出的256维的中间向量，其对该中间向量进行线性降维(输入特征数为256，输出特征数为1)处理，输出为多层感知机模块的中间预测值。

集成部分将以上卷积模块输出的中间预测值和多层感知机模块输出的中间预测值分别乘以权重后相加，以获取最终的抗原抗体结合亲和力预测值。

具体而言，本发明的抗原抗体结合亲和力预测模型是通过以下步骤训练获取的：

(4-1)获取多个抗原-抗体复合物，每个抗原-抗体复合物具有多个序列，所有抗原-抗体复合物的所有序列构成序列集合，按照8:1:1的比例将多个抗原-抗体复合物划分为训练集、验证集和测试集，使用预训练模型proteinBERT对训练集中每个抗原-抗体复合物的所有序列进行预训练，以获取每个抗原-抗体复合物的抗体轻、重链序列及抗原序列的全局语义特征，每个抗原-抗体复合物所有序列的全局语义特征构成该抗原-抗体复合物的全局语义特征集合；为训练集中每个抗原-抗体复合物构建残基特征矩阵，所有抗原-抗体复合物的残基特征矩阵构成残基特征矩阵集合(具体过程和上述步骤(3)完全相同，在此不再赘述)。

具体而言，获取多个抗原-抗体复合物，每个抗原-抗体复合物具有多个序列，所有抗原-抗体复合物的所有序列构成序列集合这一过程具体为，首先，从开源的结构抗体数据库SAbDab(https://opig.stats.ox.ac.uk/webapps/sabdab-sabpred/sabdab)中下载多个标注了结合亲和力标签(单位为kcal/mol)的原始抗原-抗体复合物数据条目；然后，从这些原始抗原-抗体复合物数据条目中筛选出由蛋白质或多肽组成的抗原-抗体复合物，获取可用的多个抗原-抗体复合物的ID及结合亲和力标签；随后，根据获取的每个抗原-抗体复合物的ID在PDB数据库(https://www.rcsb.org)中下载对应的序列文件(是以FASTA格式存储)，其中包括该抗原-抗体复合物的所有序列；其后，对每个抗原-抗体复合物的序列文件进行规整处理(若序列文件中的抗体轻、重链序列两者其中之一有缺失，则以空值表示该条序列，若抗原序列若有多条，则将多条抗原序列拼接起来表示整个抗原的序列)，以获取规整处理后的序列文件(其只包含抗体轻、重链序列和抗原序列这三条序列)；最后，将规整处理后的所有序列文件合并为一个新的序列文件，其中包括了所有抗原-抗体复合物的序列集合。

本步骤(4-1)的优点在于，通过预训练模型对蛋白质序列进行丰富而翔实的编码，通过残基特征构建模块使模型能够从先验知识中学习到起关键作用的位点。

具体而言，首先，对于第i个抗原-抗体复合物，从全局语义特征集合中获取其抗体轻、重链序列和抗原序列；然后，将其抗体轻链序列的全局语义特征在第1个维度和第2个维度上进行升维，得到大小为1×1×768的张量Al_i；随后将其抗原序列的全局语义特征在第1个维度和第3个维度上进行升维，得到大小为1×768×1的张量Ag_i；其后将Al_i和Ag_i依次进行取差值绝对值和相乘计算，得到和/>两个中间特征张量，这一过程可以表示为：

其后，对抗体重链序列和抗原序列的全局语义特征也进行上述操作，不做赘述，得到和/>两个中间特征张量；最后将以上四个中间特征张量在第一个维度上拼接，得到第i个抗原-抗体复合物的语义特征张量这一过程可以表示为：

本步骤(4-2)的优点在于，通过考虑抗体轻链和重链在结合过程中的贡献不同，因此将它们各自的全局语义特征与抗原序列的全局语义特征融合后，作为不同的通道输入卷积模块，使模型有效捕捉到抗体的轻、重链序列与抗原序列之间错综复杂的关系，从而提高学习的准确性。

上述步骤(4-3)到(4-7)的优点在于，通过卷积神经网络提取出了抗原-抗体复合物的融合特征信息，成功捕捉到抗体与抗原序列之间的全局相关性，使模型充分学习序列中的保守区域、远程相互作用以及关键结合部位。

上述步骤(4-8)的优点在于，可以帮助模型注意到重要的位点，使模型在面对突变样本时也有较好的预测结合亲和力的效果，提高了模型的泛化性。

具体而言，本步骤的计算过程可以表示为：

其中，表示第i个抗原-抗体复合物通过模型处理得到的其所含抗原抗体的结合亲和力预测值，ω_c∈(0，1)和ω_m∈(0，1)分别表示卷积神经网络模块的中间预测值和多层感知机模块的中间预测值所占的权重；优选的，ω_c设为0.7，ω_m设为0.3。

具体而言，对于第i个抗原-抗体复合物，损失函数可以表示为：

其中，y_i表示第i个抗原-抗体复合物的结合亲和力标签。

优选地，使用基于随机梯度下降(Stochastic Gradient Descent，简称SGD)的锐度感知最小化(Sharpness Awareness Minimization，简称SAM)优化器对模型进行迭代训练，学习率设为0.0001，批处理大小设为32，迭代训练次数设为30；

测试结果

本发明的测试环境：在Ubuntu 22.04操作系统下，CPU为Intel(R)Xeon(R)Gold6133，GPU为1块NVIDIA RTX4090 24GB，采用PyTorch3.7编程实现本发明的算法。

为了说明本发明方法的有效性以及对于抗原抗体结合亲和力预测效果的提升，在来源于数据集SAbDab的测试集上测试，将本发明得到的测试结果与当前先进的方法进行对比，评估结果如表1。

根据表1记载的在来源于数据集SAbDab的测试集上的测试结果，可以看到本发明中提出的基于集成学习的抗原抗体结合亲和力预测方法，在平均绝对误差(Mean AbsoluteError，简称MAE)、均方根误差(Root Mean Square Error，简称RMSE)和皮尔逊相关系数(Pearson Correlation)这三项回归预测指标上都优于现有的方法。

表1预测结果对比

本领域的技术人员容易理解，以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等，均应包含在本发明的保护范围之内。

Claims

1.一种基于集成学习的抗原抗体结合亲和力预测方法，其特征在于，包括以下步骤：

2.根据权利要求1所述的基于集成学习的抗原抗体结合亲和力预测方法，其特征在于，步骤(1)具体为，首先对待预测结合亲和力的每个抗原-抗体复合物的序列文件(其是以FASTA格式存储)进行规整处理(若序列文件中的抗体轻、重链序列两者其中之一有缺失，则以空值表示该条序列，若抗原序列若有多条，则将多条抗原序列拼接起来获取整个抗原的序列)，以获取规整处理后的序列文件(其只包含抗体轻、重链序列和抗原序列这三条序列)；然后，将规整处理后的所有序列文件合并为一个新的序列文件，其中包括了所有抗原-抗体复合物的序列集合。

3.根据权利要求1或2所述的基于集成学习的抗原抗体结合亲和力预测方法，其特征在于，

步骤(3)具体为，首先，从AAindex数据库中获取表示20种氨基酸性质的特征，其中每种氨基酸有103个特征；然后，针对每种特征而言，对该特征对应的20种氨基酸的特征值进行最大值最小值归一化处理，以获取归一化后的特征；随后，针对步骤(1)获取的每个抗原-抗体复合物的序列集合中的每条序列而言，将其所有位点对应的所有归一化后的特征进行拼接，以获取该序列的残基特征矩阵；最后，将每个抗原-抗体复合物的所有序列的残基特征矩阵进行拼接并规整到同一大小，以获取该抗原-抗体复合物的残基特征矩阵，所有抗原-抗体复合物的残基特征矩阵构成残基特征矩阵集合。

M_i＝[al_i,ah_i,ag_i]

其中，i∈[1，步骤(1)获取的抗原-抗体复合物总数]，表示第i个抗原-抗体复合物的残基特征矩阵，/> 分别表示第i个抗原-抗体复合物的抗体轻、重链序列和抗原链序列的残基特征矩阵，p_i、q_i、r_i分别表示第i个抗原-抗体复合物的抗体轻、重链序列和抗原序列所含氨基酸的个数，n_i表示第i个抗原-抗体复合物所含氨基酸个数的总和，且有n_i＝p_i+q_i+r_i。然后将该残基特征矩阵规整到固定大小(对于n_i<512的特征矩阵，使用零填充将其填充到大小为512×103，对于n_i>512的特征矩阵，将其裁剪到大小为512×103)；最终每个抗原-抗体复合物的残基特征矩阵大小均为512×103。

4.根据权利要求1至3中任意一项所述的基于集成学习的抗原抗体结合亲和力预测方法，其特征在于，

抗原抗体结合亲和力预测模型包含依次连接的卷积模块、多层感知机模块、以及集成部分；

多层感知机模块包括两个线性层，每个部分的具体结构为：

5.根据权利要求4所述的基于集成学习的抗原抗体结合亲和力预测方法，其特征在于，抗原抗体结合亲和力预测模型是通过以下步骤训练获取的：

6.根据权利要求5所述的基于集成学习的抗原抗体结合亲和力预测方法，其特征在于，步骤(4-1)中获取多个抗原-抗体复合物，每个抗原-抗体复合物具有多个序列，所有抗原-抗体复合物的所有序列构成序列集合这一过程具体为，首先，从开源的结构抗体数据库SAbDab中下载多个标注了结合亲和力标签的原始抗原-抗体复合物数据条目；然后，从这些原始抗原-抗体复合物数据条目中筛选出由蛋白质或多肽组成的抗原-抗体复合物，获取可用的多个抗原-抗体复合物的ID及结合亲和力标签；随后，根据获取的每个抗原-抗体复合物的ID在PDB数据库中下载对应的序列文件，其中包括该抗原-抗体复合物的所有序列；其后，对每个抗原-抗体复合物的序列文件进行规整处理(若序列文件中的抗体轻、重链序列两者其中之一有缺失，则以空值表示该条序列，若抗原序列若有多条，则将多条抗原序列拼接起来获取整个抗原的序列)，以获取规整处理后的序列文件(其只包含抗体轻、重链序列和抗原序列这三条序列)；最后，将规整处理后的所有序列文件合并为一个新的序列文件，其中包括了所有抗原-抗体复合物的序列集合。

7.根据权利要求6所述的基于集成学习的抗原抗体结合亲和力预测方法，其特征在于，步骤(4-2)具体为，首先，对于第i个抗原-抗体复合物，从全局语义特征集合中获取其抗体轻、重链序列和抗原序列；然后，将其抗体轻链序列的全局语义特征在第1个维度和第2个维度上进行升维，得到大小为1×1×768的张量Al_i；随后将其抗原序列的全局语义特征在第1个维度和第3个维度上进行升维，得到大小为1×768×1的张量Ag_i；其后将Al_i和Ag_i依次进行取差值绝对值和相乘计算，得到和/>两个中间特征张量，这一过程具体为：

8.根据权利要求7所述的基于集成学习的抗原抗体结合亲和力预测方法，其特征在于，

步骤(4-9)的计算过程具体为：

其中，表示第i个抗原-抗体复合物通过模型处理得到的其所含抗原抗体的结合亲和力预测值，ω_c∈(0,1)和ω_m∈(0,1)分别表示卷积神经网络模块的中间预测值和多层感知机模块的中间预测值所占的权重。

9.根据权利要求8所述的基于集成学习的抗原抗体结合亲和力预测方法，其特征在于，

步骤(4-10)中，对于第i个抗原-抗体复合物，损失函数为：

其中，y_i表示第i个抗原-抗体复合物的结合亲和力标签。

10.一种基于集成学习的抗原抗体结合亲和力预测系统，其特征在于，包括：