CN117935925A - 一种基于集成学习的抗原抗体结合亲和力预测方法和系统 - Google Patents
一种基于集成学习的抗原抗体结合亲和力预测方法和系统 Download PDFInfo
- Publication number
- CN117935925A CN117935925A CN202311359751.8A CN202311359751A CN117935925A CN 117935925 A CN117935925 A CN 117935925A CN 202311359751 A CN202311359751 A CN 202311359751A CN 117935925 A CN117935925 A CN 117935925A
- Authority
- CN
- China
- Prior art keywords
- antigen
- antibody
- antibody complex
- sequences
- feature
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 56
- 239000011159 matrix material Substances 0.000 claims abstract description 61
- 238000012549 training Methods 0.000 claims abstract description 34
- 102000004169 proteins and genes Human genes 0.000 claims abstract description 12
- 108090000623 proteins and genes Proteins 0.000 claims abstract description 12
- 239000000427 antigen Substances 0.000 claims description 76
- 102000036639 antigens Human genes 0.000 claims description 76
- 108091007433 antigens Proteins 0.000 claims description 76
- 239000013598 vector Substances 0.000 claims description 66
- 238000012545 processing Methods 0.000 claims description 29
- 230000006870 function Effects 0.000 claims description 23
- 150000001413 amino acids Chemical class 0.000 claims description 20
- 230000008569 process Effects 0.000 claims description 20
- 238000010606 normalization Methods 0.000 claims description 19
- 230000004913 activation Effects 0.000 claims description 18
- 230000004927 fusion Effects 0.000 claims description 18
- 238000011176 pooling Methods 0.000 claims description 18
- 230000009467 reduction Effects 0.000 claims description 18
- 238000012360 testing method Methods 0.000 claims description 15
- 230000001174 ascending effect Effects 0.000 claims description 12
- 230000003213 activating effect Effects 0.000 claims description 6
- 238000004364 calculation method Methods 0.000 claims description 6
- 230000006835 compression Effects 0.000 claims description 6
- 238000007906 compression Methods 0.000 claims description 6
- 238000013527 convolutional neural network Methods 0.000 claims description 6
- 230000010354 integration Effects 0.000 claims description 6
- 238000012935 Averaging Methods 0.000 claims description 3
- 238000012417 linear regression Methods 0.000 claims description 3
- 229920001184 polypeptide Polymers 0.000 claims description 3
- 108090000765 processed proteins & peptides Proteins 0.000 claims description 3
- 102000004196 processed proteins & peptides Human genes 0.000 claims description 3
- 230000001105 regulatory effect Effects 0.000 claims description 3
- 238000012216 screening Methods 0.000 claims description 3
- 229910052709 silver Inorganic materials 0.000 claims description 3
- 238000010200 validation analysis Methods 0.000 claims description 3
- 238000012795 verification Methods 0.000 claims description 3
- 230000008901 benefit Effects 0.000 description 7
- 230000003993 interaction Effects 0.000 description 7
- 230000000694 effects Effects 0.000 description 6
- 238000010801 machine learning Methods 0.000 description 5
- 201000010099 disease Diseases 0.000 description 3
- 208000037265 diseases, disorders, signs and symptoms Diseases 0.000 description 3
- 230000006872 improvement Effects 0.000 description 3
- 230000035772 mutation Effects 0.000 description 3
- 238000013459 approach Methods 0.000 description 2
- 238000013479 data entry Methods 0.000 description 2
- 238000013461 design Methods 0.000 description 2
- 239000000126 substance Substances 0.000 description 2
- 108010047041 Complementarity Determining Regions Proteins 0.000 description 1
- 206010028980 Neoplasm Diseases 0.000 description 1
- 230000000259 anti-tumor effect Effects 0.000 description 1
- 230000009830 antibody antigen interaction Effects 0.000 description 1
- 229940125644 antibody drug Drugs 0.000 description 1
- 238000013528 artificial neural network Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000008275 binding mechanism Effects 0.000 description 1
- 201000011510 cancer Diseases 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 230000000295 complement effect Effects 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 230000001419 dependent effect Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 239000003814 drug Substances 0.000 description 1
- 238000009509 drug development Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000002474 experimental method Methods 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- PCHJSUWPFVWCPO-UHFFFAOYSA-N gold Chemical compound [Au] PCHJSUWPFVWCPO-UHFFFAOYSA-N 0.000 description 1
- 229910052737 gold Inorganic materials 0.000 description 1
- 239000010931 gold Substances 0.000 description 1
- 238000000691 measurement method Methods 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000003032 molecular docking Methods 0.000 description 1
- 239000002547 new drug Substances 0.000 description 1
- 230000008447 perception Effects 0.000 description 1
- 238000003672 processing method Methods 0.000 description 1
- 230000006916 protein interaction Effects 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 230000001225 therapeutic effect Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B40/00—ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/25—Fusion techniques
- G06F18/253—Fusion techniques of extracted features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N20/00—Machine learning
- G06N20/20—Ensemble learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/0464—Convolutional networks [CNN, ConvNet]
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B20/00—ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
- G16B20/50—Mutagenesis
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16C—COMPUTATIONAL CHEMISTRY; CHEMOINFORMATICS; COMPUTATIONAL MATERIALS SCIENCE
- G16C20/00—Chemoinformatics, i.e. ICT specially adapted for the handling of physicochemical or structural data of chemical particles, elements, compounds or mixtures
- G16C20/50—Molecular design, e.g. of drugs
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16C—COMPUTATIONAL CHEMISTRY; CHEMOINFORMATICS; COMPUTATIONAL MATERIALS SCIENCE
- G16C20/00—Chemoinformatics, i.e. ICT specially adapted for the handling of physicochemical or structural data of chemical particles, elements, compounds or mixtures
- G16C20/70—Machine learning, data mining or chemometrics
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Health & Medical Sciences (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Data Mining & Analysis (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Computation (AREA)
- General Health & Medical Sciences (AREA)
- Software Systems (AREA)
- Computing Systems (AREA)
- Medical Informatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- General Physics & Mathematics (AREA)
- Biophysics (AREA)
- General Engineering & Computer Science (AREA)
- Chemical & Material Sciences (AREA)
- Molecular Biology (AREA)
- Spectroscopy & Molecular Physics (AREA)
- Mathematical Physics (AREA)
- Evolutionary Biology (AREA)
- Computational Linguistics (AREA)
- Biomedical Technology (AREA)
- Crystallography & Structural Chemistry (AREA)
- Databases & Information Systems (AREA)
- Biotechnology (AREA)
- Medicinal Chemistry (AREA)
- Analytical Chemistry (AREA)
- Genetics & Genomics (AREA)
- Proteomics, Peptides & Aminoacids (AREA)
- Pharmacology & Pharmacy (AREA)
- Bioethics (AREA)
- Epidemiology (AREA)
- Public Health (AREA)
- Peptides Or Proteins (AREA)
Abstract
本发明公开了一种基于集成学习的抗原抗体结合亲和力预测方法,包括:获取多个待预测结合亲和力的抗原‑抗体复合物,每个复合物具有多个序列,所有抗原‑抗体复合物的所有序列构成序列集合;将多个抗原‑抗体复合物的序列集合输入预先训练好的蛋白质语言预训练模型proteinBERT,以获取每个抗原‑抗体复合物的多个序列对应的全局语义特征,该抗原‑抗体复合物的所有序列对应的所有全局语义特征构成该抗原‑抗体复合物的全局语义特征集合;为每个抗原‑抗体复合物构建残基特征矩阵,所有残基特征矩阵构成残基特征矩阵集合;将全局语义特征集合和残基特征矩阵集合输入预先训练好的抗原抗体结合亲和力预测模型中,以获取每对抗原抗体结合亲和力的预测值。
Description
技术领域
本发明属于生物医药技术领域,更具体地,涉及一种基于集成学习的抗原抗体结合亲和力预测方法和系统。
背景技术
抗原抗体结合亲和力预测对于新药研发、免疫诊断和治疗、生物工程和蛋白工程以及疾病研究和治疗等领域具有重要意义。抗原抗体的结合机制是一种高度特异性的蛋白质相互作用,通常使用结合亲和力来衡量这种相互作用的强度和有效性。准确预测抗原抗体的结合亲和力有助于研究人员理解疾病机理、研究疾病标志物并开发相应的治疗策略。例如在癌症治疗中,利用抗原抗体结合亲和力来设计和筛选具有更强抗肿瘤活性的抗体药物。
由于抗原抗体的结合取决于抗体的互补决定区和抗原的表位之间的互补性相互作用,而传统测量方法的实验要求严苛且成本高昂,新兴生物信息技术的发展为抗原抗体结合亲和力的预测提供了新的途径。目前关于抗原-抗体结合亲和力预测的研究主要包括两种方法,一种是基于能量函数的方法,其使用分子对接预测抗原与抗体的最佳结合模式,然后通过分子力学力场和能量评分函数来计算结合亲和力;另一种是基于经典机器学习的方法,其通过对抗原与抗体相互作用的界面建模来预测结合亲和力。
然而,上述两种方法均存在一些不可忽略的缺陷:
第一、这两种方法预测亲和力均需要用到抗原与抗体的结构信息,然而,现有的抗原和抗体的结构数据相对较少,导致模型容易出现过拟合问题,尤其是基于能量函数的方法对抗原和抗体的结构高度依赖,极易受到蛋白质结构动态变化的干扰,因此这些方法在未见过的数据集上的预测效果均不佳,即泛化性较差。
第二、这两种方法均忽略了抗原和抗体序列中蕴含的语义信息,无法充分利用序列中的保守区域、远程相互作用等重要信息,从而无法达到更好的预测效果。
第三、基于经典机器学习的方法只从界面氨基酸中提取特征,而忽略了非界面氨基酸对抗原和抗体的结合同样具有影响,导致模型的预测精度较低。
发明内容
针对现有技术的以上缺陷或改进需求,本发明提供了一种基于集成学习的抗原抗体结合亲和力预测方法和系统,其目的在于,解决现有基于能量函数的方法和基于经典机器学习的方法由于依赖抗原和抗体的结构信息,导致抗原抗体结合亲和力预测模型难以泛化的技术问题;以及现有基于能量函数的方法和基于经典机器学习的方法由于忽略了抗原和抗体序列中蕴含的语义信息,导致抗原抗体结合亲和力预测模型无法学习到序列的保守区域、远程相互作用等重要信息的技术问题;以及现有基于经典机器学习的方法由于只处理界面氨基酸信息而忽略了非界面氨基酸对结合同样具有影响,导致抗原抗体结合亲和力预测模型精度不高的技术问题。
为实现上述目的,按照本发明的一个方面,提供了一种基于集成学习的抗原抗体结合亲和力预测方法,包括:
(1)获取多个待预测结合亲和力的抗原-抗体复合物,每个抗原-抗体复合物具有多个序列,所有抗原-抗体复合物的所有序列构成序列集合。
(2)将步骤(1)获取的多个抗原-抗体复合物的序列集合输入预先训练好的蛋白质语言预训练模型proteinBERT,以获取每个抗原-抗体复合物的多个序列对应的全局语义特征,该抗原-抗体复合物的所有序列对应的所有全局语义特征构成该抗原-抗体复合物的全局语义特征集合,其中每条序列对应的全局语义特征以一个768维的向量表示;
(3)为步骤(1)获取的每个抗原-抗体复合物构建残基特征矩阵,所有残基特征矩阵构成残基特征矩阵集合;
(4)将步骤(2)中获取的全局语义特征集合、以及步骤(3)中获取的残基特征矩阵集合输入预先训练好的抗原抗体结合亲和力预测模型中,以获取每对抗原抗体结合亲和力的预测值。
优选地,步骤(1)具体为,首先对待预测结合亲和力的每个抗原-抗体复合物的序列文件(其是以FASTA格式存储)进行规整处理(若序列文件中的抗体轻、重链序列两者其中之一有缺失,则以空值表示该条序列,若抗原序列若有多条,则将多条抗原序列拼接起来获取整个抗原的序列),以获取规整处理后的序列文件(其只包含抗体轻、重链序列和抗原序列这三条序列);然后,将规整处理后的所有序列文件合并为一个新的序列文件,其中包括了所有抗原-抗体复合物的序列集合。
优选地,步骤(3)具体为,首先,从AAindex数据库中获取表示20种氨基酸性质的特征,其中每种氨基酸有103个特征;然后,针对每种特征而言,对该特征对应的20种氨基酸的特征值进行最大值最小值归一化处理,以获取归一化后的特征;随后,针对步骤(1)获取的每个抗原-抗体复合物的序列集合中的每条序列而言,将其所有位点对应的所有归一化后的特征进行拼接,以获取该序列的残基特征矩阵;最后,将每个抗原-抗体复合物的所有序列的残基特征矩阵进行拼接并规整到同一大小,以获取该抗原-抗体复合物的残基特征矩阵,所有抗原-抗体复合物的残基特征矩阵构成残基特征矩阵集合。
对于第i个抗原-抗体复合物而言,将每个抗原-抗体复合物的所有序列的残基特征矩阵进行拼接,以获取该抗原-抗体复合物的残基特征矩阵,这一过程为:
Mi=[ali,ahi,agi]
其中,i∈[1,步骤(1)获取的抗原-抗体复合物总数],表示第i个抗原-抗体复合物的残基特征矩阵,/> 分别表示第i个抗原-抗体复合物的抗体轻、重链序列和抗原链序列的残基特征矩阵,pi、qi、ri分别表示第i个抗原-抗体复合物的抗体轻、重链序列和抗原序列所含氨基酸的个数,ni表示第i个抗原-抗体复合物所含氨基酸个数的总和,且有ni=pi+qi+ri。然后将该残基特征矩阵规整到固定大小(对于ni<512的特征矩阵,使用零填充将其填充到大小为512×103,对于ni>512的特征矩阵,将其裁剪到大小为512×103);最终每个抗原-抗体复合物的残基特征矩阵大小均为512×103。
优选地,抗原抗体结合亲和力预测模型包含依次连接的卷积模块、多层感知机模块、以及集成部分;
卷积模块包括依次连接的特征融合部分、二维卷积层、两个一维卷积层、最大池化层和全连接层,每个部分的具体结构为:
特征融合部分的输入是每个抗原-抗体复合物包含的所有序列的全局语义特征,即3个768维的向量,其首先对抗体轻、重链序列的全局语义特征在第一、二个维度上进行升维,然后对抗原序列的全局语义特征在第一、三个维度上进行升维,随后分别对抗体轻链序列和抗原序列、抗体重链序列和抗原序列进行取绝对值、相乘的融合操作,得到4个大小为1×768×768的张量,其后对这4个张量进行拼接,输出是大小为4×768×768的抗原-抗体复合物的语义特征张量;
二维卷积层的输入为特征融合部分输出的大小为4×768×768的语义特征张量,其对该语义特征张量先后进行卷积压缩和激活处理,输出大小为1×768×768的中间特征张量;
第一个一维卷积层的输入为二维卷积层输出的大小为1×768×768的中间特征张量,其对该中间特征张量先后进行卷积降维和激活处理,输出大小为1×384×768的中间特征张量;
第二个一维卷积层的输入为第一个一维卷积层输出的大小为1×384×768的中间特征张量,其对该中间特征张量先后进行卷积降维和展开处理,输出大小为768维的向量;
最大池化层的输入为第二个一维卷积层输出的768维的向量,池化核为2,输出为384维的中间向量;
全连接层的输入为最大池化层输出的384维的中间向量,其对该中间向量进行线性回归处理,输出为卷积模块的中间预测值。
多层感知机模块包括两个线性层,每个部分的具体结构为:
第一个线性层的输入为每个抗原-抗体复合物大小为512×103的残基特征矩阵,其对该残基特征矩阵先后进行展开、降维和激活处理,输出大小为256维的中间向量;
第二个线性层的输入第一个线性层输出的256维的中间向量,其对该中间向量进行线性降维处理,输出为多层感知机模块的中间预测值。
集成部分将卷积模块输出的中间预测值和多层感知机模块输出的中间预测值分别乘以权重后相加,以获取最终的抗原抗体结合亲和力预测值。
优选地,抗原抗体结合亲和力预测模型是通过以下步骤训练获取的:
(4-1)获取多个抗原-抗体复合物,每个抗原-抗体复合物具有多个序列,所有抗原-抗体复合物的所有序列构成序列集合,按照8:1:1的比例将多个抗原-抗体复合物划分为训练集、验证集和测试集,使用预训练模型proteinBERT对训练集中每个抗原-抗体复合物的所有序列进行预训练,以获取每个抗原-抗体复合物的抗体轻、重链序列及抗原序列的全局语义特征,每个抗原-抗体复合物所有序列的全局语义特征构成该抗原-抗体复合物的全局语义特征集合;为训练集中每个抗原-抗体复合物构建残基特征矩阵,所有抗原-抗体复合物的残基特征矩阵构成残基特征矩阵集合。
(4-2)对步骤(4-1)获取的每个抗原-抗体复合物的全局语义特征集合进行特征融合,以获取该抗原-抗体复合物对应的语义特征张量;
(4-3)针对步骤(4-1)获取的每个抗原-抗体复合物而言,将步骤(4-2)得到的该抗原-抗体复合物的语义特征张量升维到1×4×768×768,使用二维卷积神经网络对升维后的语义特征向量进行压缩,以获取1×1×768×768的张量,并使用ReLU激活函数对1×1×768×768的张量进行激活,以获取该抗原-抗体复合物对应的、大小为1×768×768的张量;
(4-4)针对步骤(4-1)获取的每个抗原-抗体复合物而言,将步骤(4-3)获取的该抗原-抗体复合物对应的、大小为1×768×768的张量输入到第一个一维卷积层进行压缩,以获取1×384×768的特征张量,并使用ReLU激活函数对1×384×768的特征张量进行激活,以获取的该抗原-抗体复合物对应的、大小为1×384×768的中间特征张量;
(4-5)针对步骤(4-1)获取的每个抗原-抗体复合物而言,将步骤(4-4)获取的该抗原-抗体复合物对应的、大小为1×384×768的中间特征向量输入到第二个一维卷积层进行降维,以获取大小为1×1×768的特征张量,并将这个张量在一维空间展开,以获取该抗原-抗体复合物对应的、大小为768维的特征向量;
(4-6)针对步骤(4-1)获取的每个抗原-抗体复合物而言,将步骤(4-5)获取的该抗原-抗体复合物对应的、大小为768维的特征向量输入到最大池化层(池化核为2)进行降维,以获取该抗原-抗体复合物对应的、大小为384维的中间特征向量;
(4-7)针对步骤(4-1)获取的每个抗原-抗体复合物而言,将步骤(4-6)获取的该抗原-抗体复合物对应的、大小为384维的中间特征向量输入到全连接层进行回归处理,以获取卷积模块的中间预测值其中/>表示第i个抗原-抗体复合物通过卷积模块处理后得到的中间预测值,/>表示实数集。
(4-8)针对步骤(4-1)获取的每个抗原-抗体复合物而言,将步骤(4-1)获取的该抗原-抗体复合物的残基特征矩阵在一维空间展开,以获取512×103维的特征向量,然后使用多层感知机的第一个线性层对512×103维的特征向量进行降维,以获取256维的中间特征向量,并使用ReLU激活函数对256维的中间特征向量进行激活,以获取该抗原-抗体复合物对应的、256维的中间特征向量,最后使用多层感知机的第二个线性层对256维的中间特征向量进行回归,以获取多层感知机模块的中间预测值其中/>表示第i个抗原-抗体复合物通过多层感知机模块处理后得到的中间预测值。
(4-9)针对步骤(4-1)获取的每个抗原-抗体复合物而言,将步骤(4-7)和步骤(4-8)获取的中间预测值和/>进行加权平均,以获取该抗原-抗体复合物所含的抗原抗体的结合亲和力预测值/>
(4-10)针对步骤(4-1)获取的每个抗原-抗体复合物而言,根据步骤(4-9)得到的抗原抗体结合亲和力预测值计算损失函数,利用该损失函数对抗原抗体结合亲和力预测模型进行迭代训练,并使用步骤(4-1)获取的验证集对当前模型进行验证,直到该抗原抗体结合亲和力预测模型收敛为止,从而得到初步训练好的抗原抗体结合亲和力预测模型。
(4-11)使用步骤(4-1)获取的测试集对步骤(4-10)初步训练好的抗原抗体结合亲和力预测模型进行测试,从而得到最终训练好的抗原抗体结合亲和力预测模型。
优选地,步骤(4-1)中获取多个抗原-抗体复合物,每个抗原-抗体复合物具有多个序列,所有抗原-抗体复合物的所有序列构成序列集合这一过程具体为,首先,从开源的结构抗体数据库SAbDab中下载多个标注了结合亲和力标签的原始抗原-抗体复合物数据条目;然后,从这些原始抗原-抗体复合物数据条目中筛选出由蛋白质或多肽组成的抗原-抗体复合物,获取可用的多个抗原-抗体复合物的ID及结合亲和力标签;随后,根据获取的每个抗原-抗体复合物的ID在PDB数据库中下载对应的序列文件,其中包括该抗原-抗体复合物的所有序列;其后,对每个抗原-抗体复合物的序列文件进行规整处理(若序列文件中的抗体轻、重链序列两者其中之一有缺失,则以空值表示该条序列,若抗原序列若有多条,则将多条抗原序列拼接起来获取整个抗原的序列),以获取规整处理后的序列文件(其只包含抗体轻、重链序列和抗原序列这三条序列);最后,将规整处理后的所有序列文件合并为一个新的序列文件,其中包括了所有抗原-抗体复合物的序列集合。
优选地,步骤(4-2)具体为,首先,对于第i个抗原-抗体复合物,从全局语义特征集合中获取其抗体轻、重链序列和抗原序列;然后,将其抗体轻链序列的全局语义特征在第1个维度和第2个维度上进行升维,得到大小为1×1×768的张量Ali;随后将其抗原序列的全局语义特征在第1个维度和第3个维度上进行升维,得到大小为1×768×1的张量Agi;其后将Ali和Agi依次进行取差值绝对值和相乘计算,得到和两个中间特征张量,这一过程具体为:
其后,对抗体重链序列和抗原序列的全局语义特征也进行上述操作,不做赘述,得到和/>两个中间特征张量;最后将以上四个中间特征张量在第一个维度上拼接,得到第i个抗原-抗体复合物的语义特征张量这一过程具体为:
优选地,步骤(4-9)的计算过程具体为:
其中,表示第i个抗原-抗体复合物通过模型处理得到的其所含抗原抗体的结合亲和力预测值,ωc∈(0,1)和ωm∈(0,1)分别表示卷积神经网络模块的中间预测值和多层感知机模块的中间预测值所占的权重。
优选地,步骤(4-10)中,对于第i个抗原-抗体复合物,损失函数为:
其中,yi表示第i个抗原-抗体复合物的结合亲和力标签。
步骤(4-10)是使用基于随机梯度下降SGD的锐度感知最小化SAM优化器对模型进行迭代训练,学习率设为0.0001,批处理大小设为32,迭代训练次数设为30。
按照本发明的另一方面,提供了一种基于集成学习的抗原抗体结合亲和力预测系统,包括:
第一模块,用于获取多个待预测结合亲和力的抗原-抗体复合物,每个抗原-抗体复合物具有多个序列,所有抗原-抗体复合物的所有序列构成序列集合。
第二模块,用于将第一模块获取的多个抗原-抗体复合物的序列集合输入预先训练好的蛋白质语言预训练模型proteinBERT,以获取每个抗原-抗体复合物的多个序列对应的全局语义特征,该抗原-抗体复合物的所有序列对应的所有全局语义特征构成该抗原-抗体复合物的全局语义特征集合,其中每条序列对应的全局语义特征以一个768维的向量表示;
第三模块,用于为第一模块获取的每个抗原-抗体复合物构建残基特征矩阵,所有残基特征矩阵构成残基特征矩阵集合;
第四模块,用于将第二模块获取的全局语义特征集合、以及第三模块获取的残基特征矩阵集合输入预先训练好的抗原抗体结合亲和力预测模型中,以获取每对抗原抗体结合亲和力的预测值。
总体而言,通过本发明所构思的以上技术方案与现有技术相比,能够取得下列有益效果:
(1)本发明由于采用了步骤(2)至(4),采用集成学习方式通过分别考虑整条序列和每个位点的特征,最大限度地提取抗体和抗原序列中的信息,使抗原抗体结合亲和力预测模型仅通过抗原和抗体的序列就能准确预测其结合亲和力,并且能够注意到重要的结合位点,使抗原抗体结合亲和力模型不仅能在未见过的数据集上达到较好的效果,在面对发生了点突变的突变样本时也同样起效,因此能够解决由于对抗原和抗体的结构信息的高度依赖导致模型泛化性差的技术问题;
(2)本发明由于采用了步骤(2)至(4),通过预训练模型提取抗体的轻、重链序列和抗原链序列的全局语义特征并融合,通过卷积神经网络提取融合后的语义特征信息,使抗原抗体结合亲和力预测模型能够捕捉到抗体与抗原序列各自的重要保守区域与其之间的关联性,因此能够解决忽略抗原和抗体序列的保守区域、远程相互作用等重要信息的技术问题。
(3)本发明由于采用了步骤(2)至(4),针对序列的全局语义特征和全体残基的理化特征设计对应的特征处理方法,使抗原抗体结合亲和力预测模型通过更全面的序列信息学习到抗原与抗体之间的相互作用,因此能够解决仅关注界面氨基酸对结合的影响导致抗原抗体结合亲和力预测模型精度不高的技术问题。
附图说明
图1是本发明基于集成学习的抗原抗体结合亲和力预测方法的整体流程图;
图2是本发明抗原抗体结合亲和力预测模型的结构示意图。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。此外,下面所描述的本发明各个实施方式中所涉及到的技术特征只要彼此之间未构成冲突就可以相互组合。
本发明的基本思路在于,设计基于集成学习的抗原抗体结合亲和力预测方法,提出不同的特征提取方法将来自序列的全局语义特征和来自全体残基的理化特征进行单独处理并融合训练。全局语义特征是通过一个基于BERT语言模型微调的预训练模型proteinBERT进行嵌入获得,然后通过特征融合将抗体轻、重链序列和抗原链序列的全局语义特征进行整合并输入到卷积模块,设计多层卷积神经网络对融合后的特征进行处理。残基理化特征是通过获取序列中每个位点在AAindex数据库中的理化性质组成特征矩阵,然后使用多层感知机对这些特征矩阵进行学习,捕捉抗体与抗原结合过程中起关键作用的位点,有效提高了模型在遇到突变抗体序列时的鲁棒性。
本发明的目的是提高从序列中预测抗原抗体结合亲和力的性能。
本发明的优点在于,它提高了从序列中预测抗原抗体结合亲和力的性能,解决了抗原抗体结合亲和力的预测问题。为了使本发明的目的、技术方法及优点更加清楚明白,以下结合附图,对本发明进行进一步详细说明。
如图1所示,本发明提供了一种基于集成学习的抗原抗体结合亲和力预测方法,包括以下步骤:
(1)获取多个待预测结合亲和力的抗原-抗体复合物,每个抗原-抗体复合物具有多个序列,所有抗原-抗体复合物的所有序列构成序列集合。
具体而言,本步骤首先对待预测结合亲和力的每个抗原-抗体复合物的序列文件(是以FASTA格式存储)进行规整处理(若序列文件中的抗体轻、重链序列两者其中之一有缺失,则以空值表示该条序列,若抗原序列若有多条,则将多条抗原序列拼接起来获取整个抗原的序列),以获取规整处理后的序列文件(其只包含抗体轻、重链序列和抗原序列这三条序列);然后,将规整处理后的所有序列文件合并为一个新的序列文件,其中包括了所有抗原-抗体复合物的序列集合。
(2)将步骤(1)获取的多个抗原-抗体复合物的序列集合输入预先训练好的蛋白质语言预训练模型proteinBERT,以获取每个抗原-抗体复合物的多个序列对应的全局语义特征,该抗原-抗体复合物的所有序列对应的所有全局语义特征构成该抗原-抗体复合物的全局语义特征集合,其中每条序列对应的全局语义特征以一个768维的向量表示;
(3)为步骤(1)获取的每个抗原-抗体复合物构建残基特征矩阵,所有残基特征矩阵构成残基特征矩阵集合;
本步骤具体为,首先,从AAindex数据库(https://www.genome.jp/aaindex/)中获取表示20种氨基酸性质的特征(每种氨基酸有103个特征);然后,针对每种特征而言,对该特征对应的20种氨基酸的特征值进行最大值最小值归一化处理,以获取归一化后的特征;随后,针对步骤(1)获取的每个抗原-抗体复合物的序列集合中的每条序列而言,将其所有位点对应的所有归一化后的特征进行拼接,以获取该序列的残基特征矩阵;最后,将每个抗原-抗体复合物的所有序列的残基特征矩阵进行拼接并规整到同一大小,以获取该抗原-抗体复合物的残基特征矩阵,所有抗原-抗体复合物的残基特征矩阵构成残基特征矩阵集合。
更具体而言,对于第i个抗原-抗体复合物而言,将每个抗原-抗体复合物的所有序列的残基特征矩阵进行拼接,以获取该抗原-抗体复合物的残基特征矩阵,这一过程可以表示为:
Mi=[ali,ahi,agi]
其中,i∈[1,步骤(1)获取的抗原-抗体复合物总数],表示第i个抗原-抗体复合物的残基特征矩阵,/> 分别表示第i个抗原-抗体复合物的抗体轻、重链序列和抗原链序列的残基特征矩阵,pi、qi、ri分别表示第i个抗原-抗体复合物的抗体轻、重链序列和抗原序列所含氨基酸的个数,ni表示第i个抗原-抗体复合物所含氨基酸个数的总和,且有ni=pi+qi+ri。然后将该残基特征矩阵规整到固定大小(对于ni<512的特征矩阵,使用零填充将其填充到大小为512×103,对于ni>512的特征矩阵,将其裁剪到大小为512×103);最终每个抗原-抗体复合物的残基特征矩阵大小均为512×103。
(4)将步骤(2)中获取的全局语义特征集合、以及步骤(3)中获取的残基特征矩阵集合输入预先训练好的抗原抗体结合亲和力预测模型中,以获取每对抗原抗体结合亲和力的预测值;
如图2所示,本发明的抗原抗体结合亲和力预测模型包含依次连接的卷积模块、多层感知机模块、以及集成部分。
卷积模块包括依次连接的特征融合部分、二维卷积层、两个一维卷积层、最大池化层和全连接层,每个部分的具体结构为:
特征融合部分的输入是每个抗原-抗体复合物包含的所有序列的全局语义特征,即3个768维的向量,其首先对抗体轻、重链序列的全局语义特征在第一、二个维度上进行升维,然后对抗原序列的全局语义特征在第一、三个维度上进行升维,随后分别对抗体轻链序列和抗原序列、抗体重链序列和抗原序列进行取绝对值、相乘的融合操作,得到4个大小为1×768×768的张量,其后对这4个张量进行拼接,输出是大小为4×768×768的抗原-抗体复合物的语义特征张量;
二维卷积层的输入为特征融合部分输出的大小为4×768×768的语义特征张量,其对该语义特征张量先后进行卷积压缩(输入通道为4,输出通道为1,卷积核大小为3×3,步幅为默认值1,填充值为1)和激活处理,输出大小为1×768×768的中间特征张量;
第一个一维卷积层的输入为二维卷积层输出的大小为1×768×768的中间特征张量,其对该中间特征张量先后进行卷积降维(输入通道为768,输出通道为384,卷积核大小为7×7,步幅为默认值1,填充值为3)和激活处理,输出大小为1×384×768的中间特征张量;
第二个一维卷积层的输入为第一个一维卷积层输出的大小为1×384×768的中间特征张量,其对该中间特征张量先后进行卷积降维(输入通道为384,输出通道为1,其它参数与上述第一个一维卷积层保持一致)和展开处理,输出大小为768维的向量;
最大池化层的输入为第二个一维卷积层输出的768维的向量,池化核为2,输出为384维的中间向量;
全连接层的输入为最大池化层输出的384维的中间向量,其对该中间向量进行线性回归(输入特征数为384,输出特征数为1)处理,输出为卷积模块的中间预测值。
多层感知机模块包括两个线性层,每个部分的具体结构为:
第一个线性层的输入为每个抗原-抗体复合物大小为512×103的残基特征矩阵,其对该残基特征矩阵先后进行展开、降维(输入特征数为512×103,输出特征数为256)和激活处理,输出大小为256维的中间向量;
第二个线性层的输入第一个线性层输出的256维的中间向量,其对该中间向量进行线性降维(输入特征数为256,输出特征数为1)处理,输出为多层感知机模块的中间预测值。
集成部分将以上卷积模块输出的中间预测值和多层感知机模块输出的中间预测值分别乘以权重后相加,以获取最终的抗原抗体结合亲和力预测值。
具体而言,本发明的抗原抗体结合亲和力预测模型是通过以下步骤训练获取的:
(4-1)获取多个抗原-抗体复合物,每个抗原-抗体复合物具有多个序列,所有抗原-抗体复合物的所有序列构成序列集合,按照8:1:1的比例将多个抗原-抗体复合物划分为训练集、验证集和测试集,使用预训练模型proteinBERT对训练集中每个抗原-抗体复合物的所有序列进行预训练,以获取每个抗原-抗体复合物的抗体轻、重链序列及抗原序列的全局语义特征,每个抗原-抗体复合物所有序列的全局语义特征构成该抗原-抗体复合物的全局语义特征集合;为训练集中每个抗原-抗体复合物构建残基特征矩阵,所有抗原-抗体复合物的残基特征矩阵构成残基特征矩阵集合(具体过程和上述步骤(3)完全相同,在此不再赘述)。
具体而言,获取多个抗原-抗体复合物,每个抗原-抗体复合物具有多个序列,所有抗原-抗体复合物的所有序列构成序列集合这一过程具体为,首先,从开源的结构抗体数据库SAbDab(https://opig.stats.ox.ac.uk/webapps/sabdab-sabpred/sabdab)中下载多个标注了结合亲和力标签(单位为kcal/mol)的原始抗原-抗体复合物数据条目;然后,从这些原始抗原-抗体复合物数据条目中筛选出由蛋白质或多肽组成的抗原-抗体复合物,获取可用的多个抗原-抗体复合物的ID及结合亲和力标签;随后,根据获取的每个抗原-抗体复合物的ID在PDB数据库(https://www.rcsb.org)中下载对应的序列文件(是以FASTA格式存储),其中包括该抗原-抗体复合物的所有序列;其后,对每个抗原-抗体复合物的序列文件进行规整处理(若序列文件中的抗体轻、重链序列两者其中之一有缺失,则以空值表示该条序列,若抗原序列若有多条,则将多条抗原序列拼接起来表示整个抗原的序列),以获取规整处理后的序列文件(其只包含抗体轻、重链序列和抗原序列这三条序列);最后,将规整处理后的所有序列文件合并为一个新的序列文件,其中包括了所有抗原-抗体复合物的序列集合。
本步骤(4-1)的优点在于,通过预训练模型对蛋白质序列进行丰富而翔实的编码,通过残基特征构建模块使模型能够从先验知识中学习到起关键作用的位点。
(4-2)对步骤(4-1)获取的每个抗原-抗体复合物的全局语义特征集合进行特征融合,以获取该抗原-抗体复合物对应的语义特征张量;
具体而言,首先,对于第i个抗原-抗体复合物,从全局语义特征集合中获取其抗体轻、重链序列和抗原序列;然后,将其抗体轻链序列的全局语义特征在第1个维度和第2个维度上进行升维,得到大小为1×1×768的张量Ali;随后将其抗原序列的全局语义特征在第1个维度和第3个维度上进行升维,得到大小为1×768×1的张量Agi;其后将Ali和Agi依次进行取差值绝对值和相乘计算,得到和/>两个中间特征张量,这一过程可以表示为:
其后,对抗体重链序列和抗原序列的全局语义特征也进行上述操作,不做赘述,得到和/>两个中间特征张量;最后将以上四个中间特征张量在第一个维度上拼接,得到第i个抗原-抗体复合物的语义特征张量这一过程可以表示为:
本步骤(4-2)的优点在于,通过考虑抗体轻链和重链在结合过程中的贡献不同,因此将它们各自的全局语义特征与抗原序列的全局语义特征融合后,作为不同的通道输入卷积模块,使模型有效捕捉到抗体的轻、重链序列与抗原序列之间错综复杂的关系,从而提高学习的准确性。
(4-3)针对步骤(4-1)获取的每个抗原-抗体复合物而言,将步骤(4-2)得到的该抗原-抗体复合物的语义特征张量升维到1×4×768×768,使用二维卷积神经网络对升维后的语义特征向量进行压缩,以获取1×1×768×768的张量,并使用ReLU激活函数对1×1×768×768的张量进行激活,以获取该抗原-抗体复合物对应的、大小为1×768×768的张量;
(4-4)针对步骤(4-1)获取的每个抗原-抗体复合物而言,将步骤(4-3)获取的该抗原-抗体复合物对应的、大小为1×768×768的张量输入到第一个一维卷积层进行压缩,以获取1×384×768的特征张量,并使用ReLU激活函数对1×384×768的特征张量进行激活,以获取的该抗原-抗体复合物对应的、大小为1×384×768的中间特征张量;
(4-5)针对步骤(4-1)获取的每个抗原-抗体复合物而言,将步骤(4-4)获取的该抗原-抗体复合物对应的、大小为1×384×768的中间特征向量输入到第二个一维卷积层进行降维,以获取大小为1×1×768的特征张量,并将这个张量在一维空间展开,以获取该抗原-抗体复合物对应的、大小为768维的特征向量;
(4-6)针对步骤(4-1)获取的每个抗原-抗体复合物而言,将步骤(4-5)获取的该抗原-抗体复合物对应的、大小为768维的特征向量输入到最大池化层(池化核为2)进行降维,以获取该抗原-抗体复合物对应的、大小为384维的中间特征向量;
(4-7)针对步骤(4-1)获取的每个抗原-抗体复合物而言,将步骤(4-6)获取的该抗原-抗体复合物对应的、大小为384维的中间特征向量输入到全连接层进行回归处理,以获取卷积模块的中间预测值其中/>表示第i个抗原-抗体复合物通过卷积模块处理后得到的中间预测值,/>表示实数集。
上述步骤(4-3)到(4-7)的优点在于,通过卷积神经网络提取出了抗原-抗体复合物的融合特征信息,成功捕捉到抗体与抗原序列之间的全局相关性,使模型充分学习序列中的保守区域、远程相互作用以及关键结合部位。
(4-8)针对步骤(4-1)获取的每个抗原-抗体复合物而言,将步骤(4-1)获取的该抗原-抗体复合物的残基特征矩阵在一维空间展开,以获取512×103维的特征向量,然后使用多层感知机的第一个线性层对512×103维的特征向量进行降维,以获取256维的中间特征向量,并使用ReLU激活函数对256维的中间特征向量进行激活,以获取该抗原-抗体复合物对应的、256维的中间特征向量,最后使用多层感知机的第二个线性层对256维的中间特征向量进行回归,以获取多层感知机模块的中间预测值其中/>表示第i个抗原-抗体复合物通过多层感知机模块处理后得到的中间预测值。
上述步骤(4-8)的优点在于,可以帮助模型注意到重要的位点,使模型在面对突变样本时也有较好的预测结合亲和力的效果,提高了模型的泛化性。
(4-9)针对步骤(4-1)获取的每个抗原-抗体复合物而言,将步骤(4-7)和步骤(4-8)获取的中间预测值和/>进行加权平均,以获取该抗原-抗体复合物所含的抗原抗体的结合亲和力预测值/>
具体而言,本步骤的计算过程可以表示为:
其中,表示第i个抗原-抗体复合物通过模型处理得到的其所含抗原抗体的结合亲和力预测值,ωc∈(0,1)和ωm∈(0,1)分别表示卷积神经网络模块的中间预测值和多层感知机模块的中间预测值所占的权重;优选的,ωc设为0.7,ωm设为0.3。
(4-10)针对步骤(4-1)获取的每个抗原-抗体复合物而言,根据步骤(4-9)得到的抗原抗体结合亲和力预测值计算损失函数,利用该损失函数对抗原抗体结合亲和力预测模型进行迭代训练,并使用步骤(4-1)获取的验证集对当前模型进行验证,直到该抗原抗体结合亲和力预测模型收敛为止,从而得到初步训练好的抗原抗体结合亲和力预测模型。
具体而言,对于第i个抗原-抗体复合物,损失函数可以表示为:
其中,yi表示第i个抗原-抗体复合物的结合亲和力标签。
优选地,使用基于随机梯度下降(Stochastic Gradient Descent,简称SGD)的锐度感知最小化(Sharpness Awareness Minimization,简称SAM)优化器对模型进行迭代训练,学习率设为0.0001,批处理大小设为32,迭代训练次数设为30;
(4-11)使用步骤(4-1)获取的测试集对步骤(4-10)初步训练好的抗原抗体结合亲和力预测模型进行测试,从而得到最终训练好的抗原抗体结合亲和力预测模型。
测试结果
本发明的测试环境:在Ubuntu 22.04操作系统下,CPU为Intel(R)Xeon(R)Gold6133,GPU为1块NVIDIA RTX4090 24GB,采用PyTorch3.7编程实现本发明的算法。
为了说明本发明方法的有效性以及对于抗原抗体结合亲和力预测效果的提升,在来源于数据集SAbDab的测试集上测试,将本发明得到的测试结果与当前先进的方法进行对比,评估结果如表1。
根据表1记载的在来源于数据集SAbDab的测试集上的测试结果,可以看到本发明中提出的基于集成学习的抗原抗体结合亲和力预测方法,在平均绝对误差(Mean AbsoluteError,简称MAE)、均方根误差(Root Mean Square Error,简称RMSE)和皮尔逊相关系数(Pearson Correlation)这三项回归预测指标上都优于现有的方法。
表1预测结果对比
本领域的技术人员容易理解,以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明的保护范围之内。
Claims (10)
1.一种基于集成学习的抗原抗体结合亲和力预测方法,其特征在于,包括以下步骤:
(1)获取多个待预测结合亲和力的抗原-抗体复合物,每个抗原-抗体复合物具有多个序列,所有抗原-抗体复合物的所有序列构成序列集合。
(2)将步骤(1)获取的多个抗原-抗体复合物的序列集合输入预先训练好的蛋白质语言预训练模型proteinBERT,以获取每个抗原-抗体复合物的多个序列对应的全局语义特征,该抗原-抗体复合物的所有序列对应的所有全局语义特征构成该抗原-抗体复合物的全局语义特征集合,其中每条序列对应的全局语义特征以一个768维的向量表示;
(3)为步骤(1)获取的每个抗原-抗体复合物构建残基特征矩阵,所有残基特征矩阵构成残基特征矩阵集合;
(4)将步骤(2)中获取的全局语义特征集合、以及步骤(3)中获取的残基特征矩阵集合输入预先训练好的抗原抗体结合亲和力预测模型中,以获取每对抗原抗体结合亲和力的预测值。
2.根据权利要求1所述的基于集成学习的抗原抗体结合亲和力预测方法,其特征在于,步骤(1)具体为,首先对待预测结合亲和力的每个抗原-抗体复合物的序列文件(其是以FASTA格式存储)进行规整处理(若序列文件中的抗体轻、重链序列两者其中之一有缺失,则以空值表示该条序列,若抗原序列若有多条,则将多条抗原序列拼接起来获取整个抗原的序列),以获取规整处理后的序列文件(其只包含抗体轻、重链序列和抗原序列这三条序列);然后,将规整处理后的所有序列文件合并为一个新的序列文件,其中包括了所有抗原-抗体复合物的序列集合。
3.根据权利要求1或2所述的基于集成学习的抗原抗体结合亲和力预测方法,其特征在于,
步骤(3)具体为,首先,从AAindex数据库中获取表示20种氨基酸性质的特征,其中每种氨基酸有103个特征;然后,针对每种特征而言,对该特征对应的20种氨基酸的特征值进行最大值最小值归一化处理,以获取归一化后的特征;随后,针对步骤(1)获取的每个抗原-抗体复合物的序列集合中的每条序列而言,将其所有位点对应的所有归一化后的特征进行拼接,以获取该序列的残基特征矩阵;最后,将每个抗原-抗体复合物的所有序列的残基特征矩阵进行拼接并规整到同一大小,以获取该抗原-抗体复合物的残基特征矩阵,所有抗原-抗体复合物的残基特征矩阵构成残基特征矩阵集合。
对于第i个抗原-抗体复合物而言,将每个抗原-抗体复合物的所有序列的残基特征矩阵进行拼接,以获取该抗原-抗体复合物的残基特征矩阵,这一过程为:
Mi=[ali,ahi,agi]
其中,i∈[1,步骤(1)获取的抗原-抗体复合物总数],表示第i个抗原-抗体复合物的残基特征矩阵,/> 分别表示第i个抗原-抗体复合物的抗体轻、重链序列和抗原链序列的残基特征矩阵,pi、qi、ri分别表示第i个抗原-抗体复合物的抗体轻、重链序列和抗原序列所含氨基酸的个数,ni表示第i个抗原-抗体复合物所含氨基酸个数的总和,且有ni=pi+qi+ri。然后将该残基特征矩阵规整到固定大小(对于ni<512的特征矩阵,使用零填充将其填充到大小为512×103,对于ni>512的特征矩阵,将其裁剪到大小为512×103);最终每个抗原-抗体复合物的残基特征矩阵大小均为512×103。
4.根据权利要求1至3中任意一项所述的基于集成学习的抗原抗体结合亲和力预测方法,其特征在于,
抗原抗体结合亲和力预测模型包含依次连接的卷积模块、多层感知机模块、以及集成部分;
卷积模块包括依次连接的特征融合部分、二维卷积层、两个一维卷积层、最大池化层和全连接层,每个部分的具体结构为:
特征融合部分的输入是每个抗原-抗体复合物包含的所有序列的全局语义特征,即3个768维的向量,其首先对抗体轻、重链序列的全局语义特征在第一、二个维度上进行升维,然后对抗原序列的全局语义特征在第一、三个维度上进行升维,随后分别对抗体轻链序列和抗原序列、抗体重链序列和抗原序列进行取绝对值、相乘的融合操作,得到4个大小为1×768×768的张量,其后对这4个张量进行拼接,输出是大小为4×768×768的抗原-抗体复合物的语义特征张量;
二维卷积层的输入为特征融合部分输出的大小为4×768×768的语义特征张量,其对该语义特征张量先后进行卷积压缩和激活处理,输出大小为1×768×768的中间特征张量;
第一个一维卷积层的输入为二维卷积层输出的大小为1×768×768的中间特征张量,其对该中间特征张量先后进行卷积降维和激活处理,输出大小为1×384×768的中间特征张量;
第二个一维卷积层的输入为第一个一维卷积层输出的大小为1×384×768的中间特征张量,其对该中间特征张量先后进行卷积降维和展开处理,输出大小为768维的向量;
最大池化层的输入为第二个一维卷积层输出的768维的向量,池化核为2,输出为384维的中间向量;
全连接层的输入为最大池化层输出的384维的中间向量,其对该中间向量进行线性回归处理,输出为卷积模块的中间预测值。
多层感知机模块包括两个线性层,每个部分的具体结构为:
第一个线性层的输入为每个抗原-抗体复合物大小为512×103的残基特征矩阵,其对该残基特征矩阵先后进行展开、降维和激活处理,输出大小为256维的中间向量;
第二个线性层的输入第一个线性层输出的256维的中间向量,其对该中间向量进行线性降维处理,输出为多层感知机模块的中间预测值。
集成部分将卷积模块输出的中间预测值和多层感知机模块输出的中间预测值分别乘以权重后相加,以获取最终的抗原抗体结合亲和力预测值。
5.根据权利要求4所述的基于集成学习的抗原抗体结合亲和力预测方法,其特征在于,抗原抗体结合亲和力预测模型是通过以下步骤训练获取的:
(4-1)获取多个抗原-抗体复合物,每个抗原-抗体复合物具有多个序列,所有抗原-抗体复合物的所有序列构成序列集合,按照8:1:1的比例将多个抗原-抗体复合物划分为训练集、验证集和测试集,使用预训练模型proteinBERT对训练集中每个抗原-抗体复合物的所有序列进行预训练,以获取每个抗原-抗体复合物的抗体轻、重链序列及抗原序列的全局语义特征,每个抗原-抗体复合物所有序列的全局语义特征构成该抗原-抗体复合物的全局语义特征集合;为训练集中每个抗原-抗体复合物构建残基特征矩阵,所有抗原-抗体复合物的残基特征矩阵构成残基特征矩阵集合。
(4-2)对步骤(4-1)获取的每个抗原-抗体复合物的全局语义特征集合进行特征融合,以获取该抗原-抗体复合物对应的语义特征张量;
(4-3)针对步骤(4-1)获取的每个抗原-抗体复合物而言,将步骤(4-2)得到的该抗原-抗体复合物的语义特征张量升维到1×4×768×768,使用二维卷积神经网络对升维后的语义特征向量进行压缩,以获取1×1×768×768的张量,并使用ReLU激活函数对1×1×768×768的张量进行激活,以获取该抗原-抗体复合物对应的、大小为1×768×768的张量;
(4-4)针对步骤(4-1)获取的每个抗原-抗体复合物而言,将步骤(4-3)获取的该抗原-抗体复合物对应的、大小为1×768×768的张量输入到第一个一维卷积层进行压缩,以获取1×384×768的特征张量,并使用ReLU激活函数对1×384×768的特征张量进行激活,以获取的该抗原-抗体复合物对应的、大小为1×384×768的中间特征张量;
(4-5)针对步骤(4-1)获取的每个抗原-抗体复合物而言,将步骤(4-4)获取的该抗原-抗体复合物对应的、大小为1×384×768的中间特征向量输入到第二个一维卷积层进行降维,以获取大小为1×1×768的特征张量,并将这个张量在一维空间展开,以获取该抗原-抗体复合物对应的、大小为768维的特征向量;
(4-6)针对步骤(4-1)获取的每个抗原-抗体复合物而言,将步骤(4-5)获取的该抗原-抗体复合物对应的、大小为768维的特征向量输入到最大池化层(池化核为2)进行降维,以获取该抗原-抗体复合物对应的、大小为384维的中间特征向量;
(4-7)针对步骤(4-1)获取的每个抗原-抗体复合物而言,将步骤(4-6)获取的该抗原-抗体复合物对应的、大小为384维的中间特征向量输入到全连接层进行回归处理,以获取卷积模块的中间预测值其中/>表示第i个抗原-抗体复合物通过卷积模块处理后得到的中间预测值,/>表示实数集。
(4-8)针对步骤(4-1)获取的每个抗原-抗体复合物而言,将步骤(4-1)获取的该抗原-抗体复合物的残基特征矩阵在一维空间展开,以获取512×103维的特征向量,然后使用多层感知机的第一个线性层对512×103维的特征向量进行降维,以获取256维的中间特征向量,并使用ReLU激活函数对256维的中间特征向量进行激活,以获取该抗原-抗体复合物对应的、256维的中间特征向量,最后使用多层感知机的第二个线性层对256维的中间特征向量进行回归,以获取多层感知机模块的中间预测值其中/>表示第i个抗原-抗体复合物通过多层感知机模块处理后得到的中间预测值。
(4-9)针对步骤(4-1)获取的每个抗原-抗体复合物而言,将步骤(4-7)和步骤(4-8)获取的中间预测值和/>进行加权平均,以获取该抗原-抗体复合物所含的抗原抗体的结合亲和力预测值/>
(4-10)针对步骤(4-1)获取的每个抗原-抗体复合物而言,根据步骤(4-9)得到的抗原抗体结合亲和力预测值计算损失函数,利用该损失函数对抗原抗体结合亲和力预测模型进行迭代训练,并使用步骤(4-1)获取的验证集对当前模型进行验证,直到该抗原抗体结合亲和力预测模型收敛为止,从而得到初步训练好的抗原抗体结合亲和力预测模型。
(4-11)使用步骤(4-1)获取的测试集对步骤(4-10)初步训练好的抗原抗体结合亲和力预测模型进行测试,从而得到最终训练好的抗原抗体结合亲和力预测模型。
6.根据权利要求5所述的基于集成学习的抗原抗体结合亲和力预测方法,其特征在于,步骤(4-1)中获取多个抗原-抗体复合物,每个抗原-抗体复合物具有多个序列,所有抗原-抗体复合物的所有序列构成序列集合这一过程具体为,首先,从开源的结构抗体数据库SAbDab中下载多个标注了结合亲和力标签的原始抗原-抗体复合物数据条目;然后,从这些原始抗原-抗体复合物数据条目中筛选出由蛋白质或多肽组成的抗原-抗体复合物,获取可用的多个抗原-抗体复合物的ID及结合亲和力标签;随后,根据获取的每个抗原-抗体复合物的ID在PDB数据库中下载对应的序列文件,其中包括该抗原-抗体复合物的所有序列;其后,对每个抗原-抗体复合物的序列文件进行规整处理(若序列文件中的抗体轻、重链序列两者其中之一有缺失,则以空值表示该条序列,若抗原序列若有多条,则将多条抗原序列拼接起来获取整个抗原的序列),以获取规整处理后的序列文件(其只包含抗体轻、重链序列和抗原序列这三条序列);最后,将规整处理后的所有序列文件合并为一个新的序列文件,其中包括了所有抗原-抗体复合物的序列集合。
7.根据权利要求6所述的基于集成学习的抗原抗体结合亲和力预测方法,其特征在于,步骤(4-2)具体为,首先,对于第i个抗原-抗体复合物,从全局语义特征集合中获取其抗体轻、重链序列和抗原序列;然后,将其抗体轻链序列的全局语义特征在第1个维度和第2个维度上进行升维,得到大小为1×1×768的张量Ali;随后将其抗原序列的全局语义特征在第1个维度和第3个维度上进行升维,得到大小为1×768×1的张量Agi;其后将Ali和Agi依次进行取差值绝对值和相乘计算,得到和/>两个中间特征张量,这一过程具体为:
其后,对抗体重链序列和抗原序列的全局语义特征也进行上述操作,不做赘述,得到和/>两个中间特征张量;最后将以上四个中间特征张量在第一个维度上拼接,得到第i个抗原-抗体复合物的语义特征张量这一过程具体为:
8.根据权利要求7所述的基于集成学习的抗原抗体结合亲和力预测方法,其特征在于,
步骤(4-9)的计算过程具体为:
其中,表示第i个抗原-抗体复合物通过模型处理得到的其所含抗原抗体的结合亲和力预测值,ωc∈(0,1)和ωm∈(0,1)分别表示卷积神经网络模块的中间预测值和多层感知机模块的中间预测值所占的权重。
9.根据权利要求8所述的基于集成学习的抗原抗体结合亲和力预测方法,其特征在于,
步骤(4-10)中,对于第i个抗原-抗体复合物,损失函数为:
其中,yi表示第i个抗原-抗体复合物的结合亲和力标签。
步骤(4-10)是使用基于随机梯度下降SGD的锐度感知最小化SAM优化器对模型进行迭代训练,学习率设为0.0001,批处理大小设为32,迭代训练次数设为30。
10.一种基于集成学习的抗原抗体结合亲和力预测系统,其特征在于,包括:
第一模块,用于获取多个待预测结合亲和力的抗原-抗体复合物,每个抗原-抗体复合物具有多个序列,所有抗原-抗体复合物的所有序列构成序列集合。
第二模块,用于将第一模块获取的多个抗原-抗体复合物的序列集合输入预先训练好的蛋白质语言预训练模型proteinBERT,以获取每个抗原-抗体复合物的多个序列对应的全局语义特征,该抗原-抗体复合物的所有序列对应的所有全局语义特征构成该抗原-抗体复合物的全局语义特征集合,其中每条序列对应的全局语义特征以一个768维的向量表示;
第三模块,用于为第一模块获取的每个抗原-抗体复合物构建残基特征矩阵,所有残基特征矩阵构成残基特征矩阵集合;
第四模块,用于将第二模块获取的全局语义特征集合、以及第三模块获取的残基特征矩阵集合输入预先训练好的抗原抗体结合亲和力预测模型中,以获取每对抗原抗体结合亲和力的预测值。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311359751.8A CN117935925A (zh) | 2023-10-18 | 2023-10-18 | 一种基于集成学习的抗原抗体结合亲和力预测方法和系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311359751.8A CN117935925A (zh) | 2023-10-18 | 2023-10-18 | 一种基于集成学习的抗原抗体结合亲和力预测方法和系统 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN117935925A true CN117935925A (zh) | 2024-04-26 |
Family
ID=90760001
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202311359751.8A Pending CN117935925A (zh) | 2023-10-18 | 2023-10-18 | 一种基于集成学习的抗原抗体结合亲和力预测方法和系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN117935925A (zh) |
-
2023
- 2023-10-18 CN CN202311359751.8A patent/CN117935925A/zh active Pending
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109671469B (zh) | 基于循环神经网络预测多肽与hla i型分子之间结合关系与结合亲和力的方法 | |
JP7459159B2 (ja) | Mhcペプチド結合予測のためのgan-cnn | |
Kim et al. | Computational and artificial intelligence-based methods for antibody development | |
CN114503203A (zh) | 使用自注意力神经网络的由氨基酸序列的蛋白质结构预测 | |
CN109637580A (zh) | 一种蛋白质氨基酸关联矩阵预测方法 | |
US20230298687A1 (en) | Predicting protein structures by sharing information between multiple sequence alignments and pair embeddings | |
US20240087686A1 (en) | Predicting complete protein representations from masked protein representations | |
US20240120022A1 (en) | Predicting protein amino acid sequences using generative models conditioned on protein structure embeddings | |
Zeng et al. | Identifying B-cell epitopes using AlphaFold2 predicted structures and pretrained language model | |
US20230402133A1 (en) | Predicting protein structures over multiple iterations using recycling | |
Sunny et al. | DeepBindPPI: Protein–Protein Binding Site Prediction Using Attention Based Graph Convolutional Network | |
CN116646001B (zh) | 基于联合式跨域注意力模型预测药物靶标结合性的方法 | |
CN117497058A (zh) | 基于图神经网络的抗体抗原中和作用预测方法及装置 | |
Zhang et al. | DeepANIS: Predicting antibody paratope from concatenated CDR sequences by integrating bidirectional long-short-term memory and transformer neural networks | |
CN117935925A (zh) | 一种基于集成学习的抗原抗体结合亲和力预测方法和系统 | |
CN116189776A (zh) | 一种基于深度学习的抗体结构生成方法 | |
CN114678083A (zh) | 一种化学品遗传毒性预测模型的训练方法及预测方法 | |
EP4205119A1 (en) | Predicting protein structures using auxiliary folding networks | |
Wu et al. | Fast and accurate modeling and design of antibody-antigen complex using tFold | |
US20230410938A1 (en) | Predicting protein structures using protein graphs | |
Gu et al. | Prediction of antibody-antigen interaction based on backbone aware with invariant point attention | |
Antony et al. | Towards Protein Tertiary Structure Prediction Using LSTM/BLSTM | |
Zhang et al. | Machine-learning-based structural analysis of interactions between antibodies and antigens | |
Gu et al. | Striped-Cross Attention Network with Implicit Semantic Knowledge for Antibody Structure Prediction | |
Makhlouf | Deep Learning for Prediction of Protein-Protein Interaction. |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |