CN113808664B

CN113808664B - 基于机器学习的抗体筛选方法及装置

Info

Publication number: CN113808664B
Application number: CN202111131429.0A
Authority: CN
Inventors: 郭建影
Original assignee: Ping An Technology Shenzhen Co Ltd
Current assignee: Ping An Technology Shenzhen Co Ltd
Priority date: 2021-09-26
Filing date: 2021-09-26
Publication date: 2024-03-19
Anticipated expiration: 2041-09-26
Also published as: CN113808664A

Abstract

本发明涉及人工智能技术领域，揭露一种基于机器学习的抗体筛选方法，包括：获取抗原及抗体的拓扑结构信息，以及抗原抗体相互作用的知识图谱信息，并基于所述拓扑结构信息以及所述知识图谱信息构建样本集；利用包含拓扑结构信息以及知识图谱信息的样本集以有向传递方式训练网络模型，构建可感知分子结构与知识图谱特征的抗体预测模型；响应于针对目标抗原进行目标抗体筛选的指令，将待预测目标抗原的氨基酸序列和拓扑结构信息输入至抗体预测模型，得到对目标抗原具有中和活性的目标抗体的氨基酸序列信息。本发明能够学习和挖掘抗原、抗体的拓扑结构以及抗原抗体相互作用的知识图谱特征，并作为中和抗体的预测发现，提高抗体的筛选效果。

Description

基于机器学习的抗体筛选方法及装置

技术领域

本发明涉及人工智能技术领域，尤其是涉及到基于机器学习的抗体筛选方法、装置、计算机设备及计算机存储介质。

背景技术

单克隆抗体是病毒治疗、癌症治疗、疾病监测、实验研究中时分重要的生物制品，需求量巨大。传统的单克隆抗体在筛选过程中，需要向免疫动物连续注射抗原，从小白鼠脾脏中取出效应B淋巴细胞，经HAT培养液筛选杂交瘤细胞，再从杂交瘤细胞群中筛选出能够产生针对某一预定抗原决定簇的特异性杂交瘤细胞，由一个细胞培养形成一个细胞群并且收集其所分泌的抗体，即使这样得到的单克隆抗体，让人绝大部分不具有广谱中和活性，需要继续投入大量人工成本进一步筛选，使得单克隆广谱中和抗体的研发成本高。

相关技术中，基于深度学习的单克隆广谱中和抗体的设计方式可大大降低筛选成本，缩短单克隆抗体的筛选时间，提高筛选成功率。然而，考虑到抗体对抗原的中和效力是由抗原、抗原的拓扑结构决定，且抗原抗体相互作用积累有大量知识图谱信息等待挖掘，而基于深度学习所构建的抗体库仅能针对抗体序列信息或抗体的编码基因序列进行处理，并不能学习和挖掘抗原、抗体的拓扑结构以及抗原抗体相互作用的知识图谱特征，只能用于预测现存某一种特定抗原中和抗体，无法得到广谱中和抗体，针对新发病原的抗体很难进行筛选，导致抗体筛选效果不理想。

发明内容

有鉴于此，本发明提供了一种基于机器学习的抗体筛选方法、装置、计算机设备及计算机存储介质，主要目的在于解决现有技术中基于深度学习所构建的抗体库仅能针对抗体序列信息或抗体的编码基因序列进行处理，无法学习和挖掘抗原、抗体的拓扑结构以及抗原抗体相互作用的知识图谱特征，导致抗体筛选效果不理想的问题。

依据本发明一个方面，提供了一种基于机器学习的抗体筛选方法，该方法包括：

获取抗原及抗体的拓扑结构信息，以及抗原抗体相互作用的知识图谱信息，并基于所述拓扑结构信息以及所述知识图谱信息构建样本集；

利用包含所述拓扑结构信息以及所述知识图谱信息的样本集以有向传递方式训练网络模型，构建可感知分子结构与知识图谱特征的抗体预测模型，所述抗体预测模型用于感知抗体抗原的氨基酸结合位点，并根据所述氨基酸结合位点输出抗体的氨基酸序列信息；

响应于针对目标抗原进行目标抗体筛选的指令，将待预测目标抗原的氨基酸序列和拓扑结构信息输入至所述抗体预测模型，得到对目标抗原具有中和活性的目标抗体的氨基酸序列信息。

在本发明另一实施例中，所述获取抗原及抗体的拓扑结构信息，以及抗原抗体相互作用的知识图谱信息，并基于所述拓扑结构信息以及所述知识图谱信息构建样本集，具体包括：

预先通过不同渠道发布的蛋白质数据库获取抗原及抗体的拓扑结构信息，以及抗原抗体相互作用的知识图谱信息；

基于所述拓扑结构信息和所述知识图谱信息，将存在中和作用的抗原和抗体作为正样本，将不存在中和作用的抗原和抗体作为负样本，根据所述正样本和所述负样本构建样本集。

在本发明另一实施例中，所述网络模型为基于图神经网络方法改进后的基于结构和知识的多重生成图神经网络模型，包括基于结构和知识图神经网络的第一子模型和基于结构生成图神经网络的第二子模型，所述利用包含所述拓扑结构信息以及所述知识图谱信息的样本集以有向传递方式训练网络模型，构建可感知分子结构与知识图谱特征的抗体预测模型，具体包括：

利用包含所述拓扑结构信息以及所述知识图谱信息的样本集训练第一子模型，提取得到对任一抗原具有高效中和活性的中和抗体拓扑结构；

根据所述中和抗体拓扑结构以及针对所述中和抗体拓扑结构配置的氨基酸序列标签训练第二子模型，输出中和抗体的氨基酸序列；

将所述中和抗体的氨基酸序列作为预测结果，构建可感知分子结构与知识图谱特征的抗体预测模型。

在本发明另一实施例中，所述第一子模型包括结构特征编码模块和抗原抗体结合关系预测模块，所述利用包含所述拓扑结构信息以及所述知识图谱信息的样本集训练第一子模型，提取得到对任一抗原具有高效中和活性的中和抗体拓扑结构，具体包括：

利用所述结构特征编码模块对所述拓扑结构信息进行编码，分别得到抗原和抗体拓扑结构的第一低维特征向量；

利用所述抗原抗体结合关系预测模块对所述知识图谱信息进行预测，得到反映抗原与抗体之间的相互作用的第二低维特征向量；

根据所述第一低维特征向量和所述第二低维特征向量，确定对任一抗原具有高效中和活性的中和抗体拓扑结构。

在本发明另一实施例中，所述根据所述第一低维特征向量和所述第二低维特征向量，确定对任一抗原具有高效中和活性的中和抗体拓扑结构，具体包括：

根据所述第二低维特征向量，确定对任一抗原具有高效中和活性的中和抗体；

根据所述第一低维特征向量，提取对任一抗原具有高效中和活性的中和抗体拓扑结构。

在本发明另一实施例中，所述第二子模型包括卷积模块和聚合模块，所述根据所述中和抗体拓扑结构以及针对所述中和抗体拓扑结构配置的氨基酸序列标签训练第二子模型，输出中和抗体的氨基酸序列，具体包括：

将所述中和抗体拓扑结构以及针对所述中和抗体拓扑结构配置的氨基酸序列标签生成节点属性和描述节点对之间相互作用的边属性后串联输入至卷积模块和聚合模块，所述节点属性表征氨基酸，所述边属性表征氨基酸的相对位置；

利用所述卷积模块和聚合模块更新所述边属性和所述节点属性；

使用分类函数作为输出表征氨基酸的激活函数，输出中和抗体的氨基酸序列。

在本发明另一实施例中，在所述使用分类函数作为输出表征氨基酸的激活函数，输出中和抗体的氨基酸序列之后，所述方法还包括：

利用所述中和抗体的氨基酸序列与针对所述中和抗体拓扑结构配置的氨基酸序列标签计算交叉熵损失函数；

若所述交叉熵损失函数达到收敛状态，或所述交叉熵损失函数输出的损失值小于预设数值，则判定所述第二子模型训练完成。

依据本发明另一个方面，提供了一种基于机器学习的抗体筛选装置，所述装置包括：

获取单元，用于获取抗原及抗体的拓扑结构信息，以及抗原抗体相互作用的知识图谱信息，并基于所述拓扑结构信息以及所述知识图谱信息构建样本集；

构建单元，用于利用包含所述拓扑结构信息以及所述知识图谱信息的样本集以有向传递方式训练网络模型，构建可感知分子结构与知识图谱特征的抗体预测模型，所述抗体预测模型用于感知抗体抗原的氨基酸结合位点，并根据所述氨基酸结合位点输出抗体的氨基酸序列信息；

筛选单元，用于响应于针对目标抗原进行目标抗体筛选的指令，将待预测目标抗原的氨基酸序列和拓扑结构信息输入至所述抗体预测模型，得到对目标抗原具有中和活性的目标抗体的氨基酸序列信息。

在本发明另一实施例中，所述获取单元包括：

获取模块，用于预先通过不同渠道发布的蛋白质数据库获取抗原及抗体的拓扑结构信息，以及抗原抗体相互作用的知识图谱信息；

第一构建模块，用于基于所述拓扑结构信息和所述知识图谱信息，将存在中和作用的抗原和抗体作为正样本，将不存在中和作用的抗原和抗体作为负样本，根据所述正样本和所述负样本构建样本集。

在本发明另一实施例中，所述网络模型为基于图神经网络方法改进后的基于结构和知识的多重生成图神经网络模型，包括基于结构和知识图神经网络的第一子模型和基于结构生成图神经网络的第二子模型，所述构建单元包括：

第一训练模块，用于利用包含所述拓扑结构信息以及所述知识图谱信息的样本集训练第一子模型，提取得到对任一抗原具有高效中和活性的中和抗体拓扑结构；

第二训练模块，用于根据所述中和抗体拓扑结构以及针对所述中和抗体拓扑结构配置的氨基酸序列标签训练第二子模型，输出中和抗体的氨基酸序列；

第二构建模块，用于将所述中和抗体的氨基酸序列作为预测结果，构建可感知分子结构与知识图谱特征的抗体预测模型。

在本发明另一实施例中，所述第一子模型包括结构特征编码模块和抗原抗体结合关系预测模块，所述第一训练模块包括：

编码子模块，用于利用所述结构特征编码模块对所述拓扑结构信息进行编码，分别得到抗原和抗体拓扑结构的第一低维特征向量；

预测子模块，用于利用所述抗原抗体结合关系预测模块对所述知识图谱信息进行预测，得到反映抗原与抗体之间的相互作用的第二低维特征向量；

确定子模块，用于根据所述第一低维特征向量和所述第二低维特征向量，确定对任一抗原具有高效中和活性的中和抗体拓扑结构。

在本发明另一实施例中，所述确定子模块，具体用于根据所述第二低维特征向量，确定对任一抗原具有高效中和活性的中和抗体；

所述确定子模块，具体还用于根据所述第一低维特征向量，提取对任一抗原具有高效中和活性的中和抗体拓扑结构。

在本发明另一实施例中，所述第二子模型包括卷积模块和聚合模块，所述第二训练模块包括：

生成子模块，用于将所述中和抗体拓扑结构以及针对所述中和抗体拓扑结构配置的氨基酸序列标签生成节点属性和描述节点对之间相互作用的边属性后串联输入至卷积模块和聚合模块，所述节点属性表征氨基酸，所述边属性表征氨基酸的相对位置；

更新子模块，用于利用所述卷积模块和聚合模块更新所述边属性和所述节点属性；

输出子模块，用于使用分类函数作为输出表征氨基酸的激活函数，输出中和抗体的氨基酸序列。

在本发明另一实施例中，所述第二训练模块还包括：

计算子模块，用于在所述使用分类函数作为输出表征氨基酸的激活函数，输出中和抗体的氨基酸序列之后，利用所述中和抗体的氨基酸序列与针对所述中和抗体拓扑结构配置的氨基酸序列标签计算交叉熵损失函数；

判定子模块，用于若所述交叉熵损失函数达到收敛状态，或所述交叉熵损失函数输出的损失值小于预设数值，则判定所述第二子模型训练完成。

依据本发明又一个方面，提供了一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，所述处理器执行所述计算机程序时实现基于机器学习的抗体筛选方法的步骤。

依据本发明再一个方面，提供了一种计算机存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现基于机器学习的抗体筛选方法的步骤。

借由上述技术方案，本发明提供一种基于机器学习的抗体筛选方法及装置，通过获取抗原及抗体的拓扑结构信息，以及抗原抗体相互作用的知识图谱信息，并基于拓扑结构信息以及所述知识图谱信息构建样本集，然后利用包含拓扑结构信息以及知识图谱信息的样本集以有向传递方式训练网络模型，构建可感知分子结构与知识图谱特征的抗体预测模型，该抗体预测模型用于感知抗体抗原的氨基酸结合位点，并根据氨基酸结合位点输出抗体的氨基酸序列信息，响应于针对目标抗原进行目标抗体筛选的指令，将待预测目标抗原的氨基酸序列和拓扑结构信息输入至抗体预测模型，得到对目标抗原具有中和活性的目标抗体的氨基酸序列信息。与现有技术中基于深度学习所构建的抗体库对抗体进行筛选的方式相比，本申请中利用拓扑结构信息和知识图谱信息作为中和抗体的预测发现，能够学习和挖掘抗原、抗体的拓扑结构以及抗原抗体相互作用的知识图谱特征，并准确定位到抗原与抗体结合的具体氨基酸位点，提高抗体的筛选效果。

附图说明

通过阅读下文优选实施方式的详细描述，各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的，而并不认为是对本发明的限制。而且在整个附图中，用相同的参考符号表示相同的部件。在附图中：

图1示出了本发明实施例提供的一种基于机器学习的抗体筛选方法的流程示意图；

图2示出了本发明实施例提供的另一种基于机器学习的抗体筛选方法的流程示意图；

图3示出了本发明实施例提供的一种基于机器学习的抗体筛选装置的结构示意图；

图4示出了本发明实施例提供的另一种基于机器学习的抗体筛选装置的结构示意图。

具体实施方式

下面将参照附图更详细地描述本公开的示例性实施例。虽然附图中显示了本公开的示例性实施例，然而应当理解，可以以各种形式实现本公开而不应被这里阐述的实施例所限制。相反，提供这些实施例是为了能够更透彻地理解本公开，并且能够将本公开的范围完整的传达给本领域的技术人员。

本申请实施例可以基于人工智能技术对相关的数据进行获取和处理。其中，人工智能(Artificial Intelligence，AI)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能，感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。

人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、机器人技术、生物识别技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。

本发明实施例提供了一种基于机器学习的抗体筛选方法，通过学习和挖掘抗原、抗体的拓扑结构以及抗原抗体相互作用的知识图谱特征，并作为中和抗体的预测发现，提高抗体的筛选效果，如图1所示，该方法包括：

101、获取抗原及抗体的拓扑结构信息，以及抗原抗体相互作用的知识图谱信息，并基于所述拓扑结构信息以及所述知识图谱信息构建样本集。

对于本发明实施例，可预先通过PDB、Uniprot、文献等公开的蛋白质数据库和资料，获取抗原及抗体的拓扑结构信息，以及抗原抗体相互作用的知识图谱信息。其中，抗原及抗体的拓扑结构信息可包括蛋白中氨基酸的空间结构，如α螺旋、β折叠、氨基酸相对位置、氨基酸序列等，抗原抗体相互作用的知识图谱信息可包括抗原抗体的相互作用关系、亲和力强弱等，这里不进行限定。

考虑到抗体对抗原的中和效率是直接由抗体、抗原的拓扑结构决定，这里样本集可以包括基于拓扑结构信息和知识图谱信息确定的正样本和负样本，其中，正样本为存在中和作用的抗原抗体对，负样本为不存在中合作用的抗原抗体对。

可以理解的是，上述公开的蛋白质数据和资料可通过医疗云获取，医疗云(Medical cloud)，是指在云计算、移动技术、多媒体、4G通信、大数据、以及物联网等新技术基础上，结合医疗技术，使用“云计算”来创建医疗健康服务云平台，实现了医疗资源的共享和医疗范围的扩大。因为云计算技术的运用于结合，医疗云提高医疗机构的效率，方便居民就医。像现在医院的预约挂号、电子病历、医保等都是云计算与医疗领域结合的产物，医疗云还具有数据安全、信息共享、动态扩展、布局全局的优势。

在本发明实施例中，执行主体可以为基于机器学习的抗体筛选装置，具体应用在医疗平台的服务器端，可充分利用抗原以及抗体的拓扑结构信息、抗原抗体相互作用的知识图谱信息，将其应用于单克隆广谱中和抗体的筛选，由于引入了拓扑结构信息，使得特征提取更加符合抗原抗体自身特性、可在更短时间内实现精准筛选，由于引入了知识图谱信息，可实现抗原抗体的氨基酸结合位点一一揭示，提高抗体筛选过程的可解释性。

上述服务器可以是独立的服务器，也可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、内容分发网络(ContentDelivery Network，CDN)、以及大数据和人工智能平台等基础云计算服务的云服务器。

102、利用包含所述拓扑结构信息以及所述知识图谱信息的样本集以有向传递方式训练网络模型，构建可感知分子结构与知识图谱特征的抗体预测模型。

其中，网络模型为具有单克隆高广谱中和抗体预测的功能，用于感知抗体抗原的氨基酸结合位点，并根据氨基酸结合位点输出抗体的氨基酸序列信息。具体可使用基于图神经网络方法改进后的基于结构和知识的多重生成图神经网络模型SK-MGGCN(Structureand Knowledge based Multi-GenerativeGraph Convolutional Network)，SK-MGGCN作为基于图神经网络改进后的自创模型，可包括两个子模型：基于结构和知识的图神经网络模型SK-GCN和基于结构的生成图神经网络模型S-GGCN。SK-GCN的目的在于输入给定抗原的拓扑结构，设计输出对抗原具有高效中和活性的抗体拓扑结构；S-GG CN的目的是根据SK-GCN生成的针对某抗原的中和抗体的拓扑结构，生成该中和抗体的氨基酸序列。

具体利用包含所述拓扑结构信息以及所述知识图谱信息的样本集以有向传递方式训练网络模型的过程中，需要分别针对两个子模型进行训练，首先利用样本集训练基于结构和知识的图神经网络模型SK-GCN，提取得到对任一抗原具有高效中和活性的中和抗体拓扑结构，然后利用中和抗体拓扑结构训练基于结构的生成图神经网络模型S-GGCN，生成中和抗体的氨基酸序列信息。进一步若基于结构和知识的图神经网络模型SK-GCN和基于结构的生成图神经网络模型S-GGCN均通过训练，可判定单克隆广谱中和抗体预测过程完成训练，构建抗体预测模型。

103、响应于针对目标抗原进行目标抗体筛选的指令，将待预测目标抗原的氨基酸序列和拓扑结构信息输入至所述抗体预测模型，得到对目标抗原具有中和活性的目标抗体的氨基酸序列信息。

可以理解的是，训练后的抗体预测模型，可充分利用抗原及抗体的拓扑结构信息，用于新型单克隆广谱中和抗体的预测，具体通过将图神经网络和多重生成模型相结合，可提取对给定抗原具有高效中和活性的中和抗体拓扑结构，进一步根据中和抗体拓扑结构输出中和抗体的氨基酸序列信息作为预测结果，该预测结果不仅停留在抗体预测水平，还能提示生物学机理，实现更深一层的预测，提高模型的可解释性。

本发明实施例提供的一种基于机器学习的抗体筛选方法，通过获取抗原及抗体的拓扑结构信息，以及抗原抗体相互作用的知识图谱信息，并基于拓扑结构信息以及所述知识图谱信息构建样本集，然后利用包含拓扑结构信息以及知识图谱信息的样本集以有向传递方式训练网络模型，构建可感知分子结构与知识图谱特征的抗体预测模型，该抗体预测模型用于感知抗体抗原的氨基酸结合位点，并根据氨基酸结合位点输出抗体的氨基酸序列信息，响应于针对目标抗原进行目标抗体筛选的指令，将待预测目标抗原的氨基酸序列和拓扑结构信息输入至抗体预测模型，得到对目标抗原具有中和活性的目标抗体的氨基酸序列信息。与现有技术中基于深度学习所构建的抗体库对抗体进行筛选的方式相比，本申请中利用拓扑结构信息和知识图谱信息作为中和抗体的预测发现，能够学习和挖掘抗原、抗体的拓扑结构以及抗原抗体相互作用的知识图谱特征，并准确定位到抗原与抗体结合的具体氨基酸位点，提高抗体的筛选效果。

本发明实施例提供了另一种基于机器学习的抗体筛选方法，通过学习和挖掘抗原、抗体的拓扑结构以及抗原抗体相互作用的知识图谱特征，并作为中和抗体的预测发现，提高抗体的筛选效果，如图2所示，所述方法包括：

201、预先通过不同渠道发布的蛋白质数据库获取抗原及抗体的拓扑结构信息，以及抗原抗体相互作用的知识图谱信息。

可以理解的是，由于抗原及抗体通常为蛋白质，蛋白质数据库作为生物信息许可的数据共享平台，包含有常用蛋白质信息，具体存储有分子结构定性描述、样品来源、表达载体、宿主、化学分析方法、分子结构组成成分等。

这里抗原及抗体的拓扑结构信息相当于蛋白质的拓扑结构，具体表征为蛋白质中氨基酸的空间结构，抗原抗体相互作用的知识图谱信息相当于抗原与抗体之间所发生相互作用的反应，这种反应既可以在机体内进行，也可以在机体外进行，具体表征为抗原抗体结合的特异性、可逆性以及反应中量的关系等。

202、基于所述拓扑结构信息和所述知识图谱信息，将存在中和作用的抗原和抗体作为正样本，将不存在中和作用的抗原和抗体作为负样本，根据所述正样本和所述负样本构建样本集。

为了准确筛选出对抗原具有中和作用的抗体，这里可以利用拓扑结构信息和知识图谱信息来检测抗原抗体是否存在中和作用，存在中和作用的抗体相当于中和抗体，是一种特殊的抗体，可以与细菌病毒、病原体及其产物特异性结合并发挥中和作用。

通常情况下，在病毒感染过程中，大多数抗体是普通的结合抗体，这些抗体通过与抗原结合，向T淋巴细胞发出该抗原已被锁定的信号，激发细胞免疫反应，并进一步摧毁病毒，而中和抗体与病毒结合后，可以直接阻断病毒的进一步感染，这一功能不需要通过激活T淋巴细胞系统即可完成，因此，这里可通过抗体的拓扑结构信息来判断抗体在病毒感染过程中是否需要通过激活T淋巴细胞系统，如果需要，则判定为普通的结合抗体，如果不需要，则判定为中和抗体。

203、利用包含所述拓扑结构信息以及所述知识图谱信息的样本集训练第一子模型，提取得到对任一抗原具有高效中和活性的中和抗体拓扑结构。

其中，第一子模型为基于结构和知识的图神经网络模型，具体包括结构特征编码模块和抗原抗体结合关系预测模块。这里结构特征编码模块的图网络中，节点为氨基酸，边为氨基酸的相对位置，原抗体结合关系预测模块的图网络中，节点为抗原或抗体，边为抗原和抗体之间的相互作用，边的权重为结合的亲和力(或概率)。

具体训练第一子模型的过程中，可以利用结构特征编码模块对拓扑结构信息进行编码，分别得到抗原和抗体拓扑结构的第一低维特征向量，然后利用抗原抗体结合关系预测模块对知识图谱信息进行预测，得到反映抗原与抗体之间的相互作用的第二低维特征向量，并根据第一低维特征向量和所述第二低维特征向量，确定对任一抗原具有高效中和活性的中和抗体拓扑结构。

具体在确定对任一抗原具有高效中和活性的中和抗体拓扑结构过程中，可以首先根据第二低维特征向量，确定对任一抗原具有高效中和活性的中和抗体，然后根据第一低维特征向量，提取对任一抗原具有高效中和活性的中和抗体拓扑结构。

在实际应用场景中，可首先利用结构特征编码模块以有向消息传递的方法，对抗原和抗体的拓扑结构进行编码，分别得到抗原和抗体拓扑结构对应拓扑结构特征向量；进一步地，可利用抗原抗体结合关系预测模块对抗原和抗体之间的相互作用(结合亲和力大小、结合的氨基酸位点)进行预测，得到知识图谱特征向量，最后，可根据知识图谱特征向量确定与抗原有高效中和活性的中和抗体，进而基于拓扑结构特征向量即可提取出该中和抗体的拓扑结构。

204、根据所述中和抗体拓扑结构以及针对所述中和抗体拓扑结构配置的氨基酸序列标签训练第二子模型，输出中和抗体的氨基酸序列。

其中，第二子模型为基于结构的生成图神经网络模型，具体包括卷积模块和聚合模块。这里第二子模型的节点为氨基酸，边为氨基酸的相对位置。输入是一组节点属性和一组描述节点对之间相互作用的边缘属性

具体训练第二子模型的过程中，可以将中和抗体拓扑结构以及针对中和抗体拓扑结构配置的氨基酸序列标签生成节点属性和描述节点对之间相互作用的边属性后串联输入至卷积模块和聚合模块，该节点属性表征氨基酸，边属性表征氨基酸的相对位置，然后利用卷积模块和聚合模块更新边属性和所述节点属性，并使用分类函数作为输出表征氨基酸的激活函数，输出中和抗体的氨基酸序列。

为了进一步保证第二子模型的训练效果，还可以在使用分类函数作为输出表征氨基酸的激活函数，输出中和抗体的氨基酸序列之后，利用中和抗体的氨基酸序列与针对中和抗体拓扑结构配置的氨基酸序列标签计算交叉熵损失函数，若交叉熵损失函数达到收敛状态，或交叉熵损失函数输出的损失值小于预设数值，则判定第二子模型训练完成。

在实际应用场景中，可为抗体拓扑结构配置氨基酸序列标签，将中和抗体拓扑结构和氨基酸序列标签作为第二子模型的输入，将氨基酸序列预测结果作为输出。具体在第二子网络中，可以将节点和边属性嵌入在使用线性变换的m维空间或多层感知器，所生成的节点和边的第一低维特征向量被传入N个节点与边的卷积模块和聚合模块，在卷积模块中，使用一个改进的边卷积层来更新边属性，它将节点和边属性的串联作为输入，并返回对边属性的更新，所用的神经网络结构是注意力层，最后使用分类函数作为输出节点的激活函数，生成节点标签，即抗体的氨基酸序列。

可以理解的是，这里在第二子模型训练过程中，可同时用边和节点来更新节点的特征，相比于仅采用邻近节点信息更新节点特征的方式，本申请中网络模型能够提取到更丰富的图网络信息，提高网络模型的预测性能和效率。

205、将所述中和抗体的氨基酸序列作为预测结果，构建可感知分子结构与知识图谱特征的抗体预测模型。

可以理解的是，第一子模型和第二子模型作为构建抗体预测模型所需的两个网络模型，可以使用设置的损失函数判定是否通过训练，若均通过训练，则判定抗体预测模型训练完成，可实际应用于中和抗体筛选的场景。

206、响应于针对目标抗原进行目标抗体筛选的指令，将待预测目标抗原的氨基酸序列和拓扑结构信息输入至所述抗体预测模型，得到对目标抗原具有中和活性的目标抗体的氨基酸序列信息。

本申请通过改进图神经网络方法，构建抗体预测模型，可充分利用抗原抗体拓扑结构信息和知识图谱信息，用于新型单克隆广谱中和抗体的设计，并提高模型准确度、效率，增加模型可解释性。该模型结构超越了现有用于构建抗体库的时序神经网络和对抗网络，在图神经网络的基础上，增加了基于知识的抗体结构生成功能和氨基酸序列生成功能。由于使用了抗原抗体拓扑结构信息和知识图谱，使得特征提取更加符合抗原抗体自身性质、可在更短时间内实现更精准的设计，由于知识图谱的引入，且可实现抗原抗体的氨基酸结合位点的一一揭示，并通过边的权重对抗原抗体相互作用力强弱进行量化解释，而提高了模型可解释性。

进一步地，作为图1所述方法的具体实现，本发明实施例提供了一种基于机器学习的抗体筛选装置，如图3所示，所述装置包括：获取单元31、构建单元32、筛选单元33。

获取单元31，可以用于获取抗原及抗体的拓扑结构信息，以及抗原抗体相互作用的知识图谱信息，并基于所述拓扑结构信息以及所述知识图谱信息构建样本集；

构建单元32，可以用于利用包含所述拓扑结构信息以及所述知识图谱信息的样本集以有向传递方式训练网络模型，构建可感知分子结构与知识图谱特征的抗体预测模型，所述抗体预测模型用于感知抗体抗原的氨基酸结合位点，并根据所述氨基酸结合位点输出抗体的氨基酸序列信息；

筛选单元33，可以用于响应于针对目标抗原进行目标抗体筛选的指令，将待预测目标抗原的氨基酸序列和拓扑结构信息输入至所述抗体预测模型，得到对目标抗原具有中和活性的目标抗体的氨基酸序列信息。

本发明实施例提供的一种基于机器学习的抗体筛选装置，通过获取抗原及抗体的拓扑结构信息，以及抗原抗体相互作用的知识图谱信息，并基于拓扑结构信息以及所述知识图谱信息构建样本集，然后利用包含拓扑结构信息以及知识图谱信息的样本集以有向传递方式训练网络模型，构建可感知分子结构与知识图谱特征的抗体预测模型，该抗体预测模型用于感知抗体抗原的氨基酸结合位点，并根据氨基酸结合位点输出抗体的氨基酸序列信息，响应于针对目标抗原进行目标抗体筛选的指令，将待预测目标抗原的氨基酸序列和拓扑结构信息输入至抗体预测模型，得到对目标抗原具有中和活性的目标抗体的氨基酸序列信息。与现有技术中基于深度学习所构建的抗体库对抗体进行筛选的方式相比，本申请中利用拓扑结构信息和知识图谱信息作为中和抗体的预测发现，能够学习和挖掘抗原、抗体的拓扑结构以及抗原抗体相互作用的知识图谱特征，并准确定位到抗原与抗体结合的具体氨基酸位点，提高抗体的筛选效果。

作为图3中所示基于机器学习的抗体筛选装置的进一步说明，图4是根据本发明实施例另一种基于机器学习的抗体筛选装置的结构示意图，如图4所示，所述获取单元31包括：

获取模块311，可以用于预先通过不同渠道发布的蛋白质数据库获取抗原及抗体的拓扑结构信息，以及抗原抗体相互作用的知识图谱信息；

第一构建模块312，可以用于基于所述拓扑结构信息和所述知识图谱信息，将存在中和作用的抗原和抗体作为正样本，将不存在中和作用的抗原和抗体作为负样本，根据所述正样本和所述负样本构建样本集。

在具体应用场景中，如图4所示，所述网络模型为基于图神经网络方法改进后的基于结构和知识的多重生成图神经网络模型，包括基于结构和知识图神经网络的第一子模型和基于结构生成图神经网络的第二子模型，所述构建单元32包括：

第一训练模块321，可以用于利用包含所述拓扑结构信息以及所述知识图谱信息的样本集训练第一子模型，提取得到对任一抗原具有高效中和活性的中和抗体拓扑结构；

第二训练模块322，可以用于根据所述中和抗体拓扑结构以及针对所述中和抗体拓扑结构配置的氨基酸序列标签训练第二子模型，输出中和抗体的氨基酸序列；

第二构建模块323，可以用于将所述中和抗体的氨基酸序列作为预测结果，构建可感知分子结构与知识图谱特征的抗体预测模型。

在具体应用场景中，如图4所示，所述第一子模型包括结构特征编码模块和抗原抗体结合关系预测模块，所述第一训练模块321包括：

编码子模块3211，可以用于利用所述结构特征编码模块对所述拓扑结构信息进行编码，分别得到抗原和抗体拓扑结构的第一低维特征向量；

预测子模块3212，可以用于利用所述抗原抗体结合关系预测模块对所述知识图谱信息进行预测，得到反映抗原与抗体之间的相互作用的第二低维特征向量；

确定子模块3213，可以用于根据所述第一低维特征向量和所述第二低维特征向量，确定对任一抗原具有高效中和活性的中和抗体拓扑结构。

在具体应用场景中，所述确定子模块3213，具体可以用于根据所述第二低维特征向量，确定对任一抗原具有高效中和活性的中和抗体；

所述确定子模块3213，具体还可以用于根据所述第一低维特征向量，提取对任一抗原具有高效中和活性的中和抗体拓扑结构。

在具体应用场景中，如图4所示，所述第二子模型包括卷积模块和聚合模块，所述第二训练模块322包括：

生成子模块3221，可以用于将所述中和抗体拓扑结构以及针对所述中和抗体拓扑结构配置的氨基酸序列标签生成节点属性和描述节点对之间相互作用的边属性后串联输入至卷积模块和聚合模块，所述节点属性表征氨基酸，所述边属性表征氨基酸的相对位置；

更新子模块3222，可以用于利用所述卷积模块和聚合模块更新所述边属性和所述节点属性；

输出子模块3223，可以用于使用分类函数作为输出表征氨基酸的激活函数，输出中和抗体的氨基酸序列。

在具体应用场景中，如图4所示，所述第二训练模块322还包括：

计算子模块3224，可以用于在所述使用分类函数作为输出表征氨基酸的激活函数，输出中和抗体的氨基酸序列之后，利用所述中和抗体的氨基酸序列与针对所述中和抗体拓扑结构配置的氨基酸序列标签计算交叉熵损失函数；

判定子模块3225，可以用于若所述交叉熵损失函数达到收敛状态，或所述交叉熵损失函数输出的损失值小于预设数值，则判定所述第二子模型训练完成。

需要说明的是，本实施例提供的一种基于机器学习的抗体筛选装置所涉及各功能单元的其他相应描述，可以参考图1、图2中的对应描述，在此不再赘述。

基于上述如图1、图2所示方法，相应的，本实施例还提供了一种存储介质，其上存储有计算机程序，该程序被处理器执行时实现上述如图1、图2所示的基于机器学习的抗体筛选方法。

基于这样的理解，本申请的技术方案可以以软件产品的形式体现出来，该软件产品可以存储在一个非易失性存储介质(可以是CD-ROM，U盘，移动硬盘等)中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本申请各个实施场景所述的方法。

基于上述如图1、图2所示的方法，以及图3、图4所示的虚拟装置实施例，为了实现上述目的，本申请实施例还提供了一种计算机设备，具体可以为个人计算机、服务器、网络设备等，该实体设备包括存储介质和处理器；存储介质，用于存储计算机程序；处理器，用于执行计算机程序以实现上述如图1、图2所示的基于机器学习的抗体筛选方法

可选地，该计算机设备还可以包括用户接口、网络接口、摄像头、射频(RadioFrequency，RF)电路，传感器、音频电路、WI-FI模块等等。用户接口可以包括显示屏(Display)、输入单元比如键盘(Keyboard)等，可选用户接口还可以包括USB接口、读卡器接口等。网络接口可选的可以包括标准的有线接口、无线接口(如蓝牙接口、WI-FI接口)等。

本领域技术人员可以理解，本实施例提供的基于机器学习的抗体筛选装置的实体设备结构并不构成对该实体设备的限定，可以包括更多或更少的部件，或者组合某些部件，或者不同的部件布置。

存储介质中还可以包括操作系统、网络通信模块。操作系统是管理上述计算机设备硬件和软件资源的程序，支持信息处理程序以及其它软件和/或程序的运行。网络通信模块用于实现存储介质内部各组件之间的通信，以及与该实体设备中其它硬件和软件之间通信。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到本申请可以借助软件加必要的通用硬件平台的方式来实现，也可以通过硬件实现。通过应用本申请的技术方案，与目前现有技术相比，本申请利用拓扑结构信息和知识图谱信息作为中和抗体的预测发现，能够学习和挖掘抗原、抗体的拓扑结构以及抗原抗体相互作用的知识图谱特征，并准确定位到抗原与抗体结合的具体氨基酸位点，提高抗体的筛选效果。

本领域技术人员可以理解附图只是一个优选实施场景的示意图，附图中的模块或流程并不一定是实施本申请所必须的。本领域技术人员可以理解实施场景中的装置中的模块可以按照实施场景描述进行分布于实施场景的装置中，也可以进行相应变化位于不同于本实施场景的一个或多个装置中。上述实施场景的模块可以合并为一个模块，也可以进一步拆分成多个子模块。

上述本申请序号仅仅为了描述，不代表实施场景的优劣。以上公开的仅为本申请的几个具体实施场景，但是，本申请并非局限于此，任何本领域的技术人员能思之的变化都应落入本申请的保护范围。

Claims

1.一种基于机器学习的抗体筛选方法，其特征在于，所述方法包括：

响应于针对目标抗原进行目标抗体筛选的指令，将待预测目标抗原的氨基酸序列和拓扑结构信息输入至所述抗体预测模型，得到对目标抗原具有中和活性的目标抗体的氨基酸序列信息；

所述网络模型为基于图神经网络方法改进后的基于结构和知识的多重生成图神经网络模型，包括基于结构和知识图神经网络的第一子模型和基于结构生成图神经网络的第二子模型，具体利用包含所述拓扑结构信息以及所述知识图谱信息的样本集训练第一子模型，提取得到对任一抗原具有高效中和活性的中和抗体拓扑结构；根据所述中和抗体拓扑结构以及针对所述中和抗体拓扑结构配置的氨基酸序列标签训练第二子模型，输出中和抗体的氨基酸序列；将所述中和抗体的氨基酸序列作为预测结果，构建可感知分子结构与知识图谱特征的抗体预测模型；

所述第一子模型包括结构特征编码模块和抗原抗体结合关系预测模块，具体利用所述结构特征编码模块对所述拓扑结构信息进行编码，分别得到抗原和抗体拓扑结构的第一低维特征向量；利用所述抗原抗体结合关系预测模块对所述知识图谱信息进行预测，得到反映抗原与抗体之间的相互作用的第二低维特征向量；根据所述第一低维特征向量和所述第二低维特征向量，确定对任一抗原具有高效中和活性的中和抗体拓扑结构；

所述第二子模型包括卷积模块和聚合模块，具体将所述中和抗体拓扑结构以及针对所述中和抗体拓扑结构配置的氨基酸序列标签生成节点属性和描述节点对之间相互作用的边属性后串联输入至卷积模块和聚合模块，所述节点属性表征氨基酸，所述边属性表征氨基酸的相对位置；利用所述卷积模块和聚合模块更新所述边属性和所述节点属性；使用分类函数作为输出表征氨基酸的激活函数，输出中和抗体的氨基酸序列。

2.根据权利要求1所述的方法，其特征在于，所述获取抗原及抗体的拓扑结构信息，以及抗原抗体相互作用的知识图谱信息，并基于所述拓扑结构信息以及所述知识图谱信息构建样本集，具体包括：

3.根据权利要求1所述的方法，其特征在于，所述根据所述第一低维特征向量和所述第二低维特征向量，确定对任一抗原具有高效中和活性的中和抗体拓扑结构，具体包括：

4.根据权利要求1所述的方法，其特征在于，在所述使用分类函数作为输出表征氨基酸的激活函数，输出中和抗体的氨基酸序列之后，所述方法还包括：

5.一种基于机器学习的抗体筛选装置，其特征在于，所述装置包括：

筛选单元，用于响应于针对目标抗原进行目标抗体筛选的指令，将待预测目标抗原的氨基酸序列和拓扑结构信息输入至所述抗体预测模型，得到对目标抗原具有中和活性的目标抗体的氨基酸序列信息；

所述网络模型为基于图神经网络方法改进后的基于结构和知识的多重生成图神经网络模型，包括基于结构和知识图神经网络的第一子模型和基于结构生成图神经网络的第二子模型，所述构建单元包括：第一训练模块，用于利用包含所述拓扑结构信息以及所述知识图谱信息的样本集训练第一子模型，提取得到对任一抗原具有高效中和活性的中和抗体拓扑结构；第二训练模块，用于根据所述中和抗体拓扑结构以及针对所述中和抗体拓扑结构配置的氨基酸序列标签训练第二子模型，输出中和抗体的氨基酸序列；第二构建模块，用于将所述中和抗体的氨基酸序列作为预测结果，构建可感知分子结构与知识图谱特征的抗体预测模型；

所述第一子模型包括结构特征编码模块和抗原抗体结合关系预测模块，所述第一训练模块包括：编码子模块，用于利用所述结构特征编码模块对所述拓扑结构信息进行编码，分别得到抗原和抗体拓扑结构的第一低维特征向量；预测子模块，用于利用所述抗原抗体结合关系预测模块对所述知识图谱信息进行预测，得到反映抗原与抗体之间的相互作用的第二低维特征向量；确定子模块，用于根据所述第一低维特征向量和所述第二低维特征向量，确定对任一抗原具有高效中和活性的中和抗体拓扑结构；

所述第二子模型包括卷积模块和聚合模块，所述第二训练模块包括：生成子模块，用于将所述中和抗体拓扑结构以及针对所述中和抗体拓扑结构配置的氨基酸序列标签生成节点属性和描述节点对之间相互作用的边属性后串联输入至卷积模块和聚合模块，所述节点属性表征氨基酸，所述边属性表征氨基酸的相对位置；更新子模块，用于利用所述卷积模块和聚合模块更新所述边属性和所述节点属性；输出子模块，用于使用分类函数作为输出表征氨基酸的激活函数，输出中和抗体的氨基酸序列。

6.一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，其特征在于，所述处理器执行所述计算机程序时实现权利要求1至4中任一项所述方法的步骤。

7.一种计算机存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现权利要求1至4中任一项所述的方法的步骤。