CN114333980A

CN114333980A - 模型训练、蛋白质特征提取和功能预测的方法与装置

Info

Publication number: CN114333980A
Application number: CN202110996109.5A
Authority: CN
Inventors: 吴家祥
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2021-08-27
Filing date: 2021-08-27
Publication date: 2022-04-12

Abstract

本申请实施例提供一种模型训练、蛋白质特征提取和功能预测的方法与装置，其中，模型的训练方法包括：基于起始蛋白质的三维结构，构建起始拓扑图G，其中，所述起始拓扑图G采用所述起始蛋白质的氨基酸残基作为节点，所述起始拓扑图G采用邻近氨基酸残基对作为边；和将所述起始拓扑图G输入至预训练模型，对所述预训练模型进行训练，以便获得用于对所述蛋白质进行特征提取的预训练模型，其中，所述预训练模型包括具有SE(3)等变性的图神经网络。由此，可以提高蛋白质特征提取等相关预测的预测精度，降低工作成本，提高预测效率。

Description

模型训练、蛋白质特征提取和功能预测的方法与装置

技术领域

本申请实施例涉及计算机技术领域，尤其涉及一种模型训练、蛋白质特征提取和功能预测的方法与装置。

背景技术

由氨基酸的线性链组成的蛋白质是活生物体中用途最广泛的分子之一。它们在普遍的生物学机制中起着至关重要的功能。蛋白质根据氨基酸序列自然折叠成三维结构，结构会对其功能产生直接影响。随着测序技术的出现，获得蛋白质序列变得相对更加容易，但是对于蛋白质功能的预测仍然需要大量时间和资源。

目前已有的蛋白质预训练方法中，多数是基于蛋白质的氨基酸序列或者其相关的同源序列数据，往往没有利用蛋白质的三维结构信息，但是，实际上，三维结构对于蛋白质的功能预测例如生物学功能等下游任务而言具有更直接的影响。

发明内容

本申请实施例提供一种模型训练、蛋白质特征提取和功能预测的方法与装置，以提高蛋白质特征提取等相关预测的预测精度，降低工作成本，提高预测效率。

第一方面，本申请的实施例提出了一种预训练模型的训练方法，所述预训练模型用于对蛋白质进行特征提取，该方法包括：基于起始蛋白质的三维结构，构建起始拓扑图G，其中，所述起始拓扑图G采用所述起始蛋白质的氨基酸残基作为节点，所述起始拓扑图G采用邻近氨基酸残基对作为边；和

将所述起始拓扑图G输入至预训练模型，对所述预训练模型进行训练，以便获得用于对所述蛋白质进行特征提取的预训练模型，

其中，所述预训练模型包括具有SE(3)等变性的图神经网络。

在一些实施例中，所述预训练模型在所述具有SE(3)等变性的图神经网络之前设置有注意力层。

在一些实施例中，所述注意力层为多头注意力层。

在一些实施例中，所述注意力层采用氨基酸残基的特征h，氨基酸残基之间的组合特征g以及氨基酸残基之间的α-碳原子距离r作为输入特征，输出经过更新的氨基酸残基特征h’和α-碳原子坐标s’_i。

在一些实施例中，所述图神经网络包括选自EGNN、SE(3)-Transformer和Lie-Transformer的至少之一。

在一些实施例中，对所述预训练模型进行训练包括：

基于起始蛋白质的三维结构，构建起始拓扑图G，其中，所述起始拓扑图G采用所述起始蛋白质的氨基酸残基作为节点，所述起始拓扑图G采用邻近氨基酸残基对作为边；

对所述起始拓扑图G施加预先指定的噪声，以便得到至少一个经过扰动的拓扑图G’；

采用所述经过扰动的拓扑图G’作为输入特征，对预训练模型进行去噪训练，所述去噪训练采用所述经过扰动的拓扑图G’与所述起始拓扑图G之间的真实去噪梯度作为训练标记，以便得到所述预训练模型。

第二方面，本申请的实施例提出了一种对蛋白质进行特征提取的方法，其包括：

基于蛋白质的三维结构，构建起始拓扑图G，其中，所述起始拓扑图G采用所述蛋白质的氨基酸残基作为节点，所述起始拓扑图G采用采用邻近氨基酸残基对作为边；

基于所述拓扑图G，提取所述蛋白质的特征向量；

将所述蛋白质的所述特征向量，输入预训练模型，以便获得经过预训练的氨基酸残基特征，

其中，所述预训练模型是根据具有三维结构信息的蛋白质数据进行预训练得到的，所述预训练模型包括具有SE(3)等变性的图神经网络。

在本申请的一些实施例中，进一步包括：

将所述经过预训练的氨基酸残基特征进行全局池化处理，以便获得整体蛋白质特征。

在本申请的一些实施例中，所述预训练模型在所述具有SE(3)等变性的图神经网络之前设置有注意力层。

在本申请的一些实施例中，所述注意力层为多头注意力层。

在本申请的一些实施例中，其特征在于，

所述注意力层采用氨基酸残基的特征h，氨基酸残基之间的组合特征g以及氨基酸残基之间的α-碳原子距离r作为输入特征，输出经过更新的氨基酸残基特征h’和α-碳原子坐标s’_i。

在本申请的一些实施例中，所述图神经网络包括选自EGNN、SE(3)-Transformer和Lie-Transformer的至少之一。

第三方面，本申请的实施例提出了一种对蛋白质进行功能预测的方法，其包括：

按照第二方面所述的方法，对所述蛋白质进行特征提取，以便获得预训练特征，所述预训练特征包括氨基酸残基特征和整体蛋白质特征的至少之一；

利用机器学习模型对所述预训练特征进行处理，以便对所述蛋白质进行功能预测。

在一些实施例中，所述功能预测包括下列的至少之一：

预测所述蛋白质的生物学功能；

预测所述蛋白质与其他蛋白质之间的结合位点；

预测所述蛋白质与小分子的结合位点；

预测所述蛋白质与其他实体的相互作用性质；和

预测所述蛋白质的成药性。

第四方面，本申请的实施例提出了一种训练用于蛋白质的预训练模型的装置，其包括：

起始拓扑图构建单元，用于基于起始蛋白质的三维结构，构建起始拓扑图G，其中，所述起始拓扑图G采用所述起始蛋白质的氨基酸残基作为节点，所述起始拓扑图G采用邻近氨基酸残基对作为边；

训练单元，用于将所述起始拓扑图G输入至预训练模型，对所述预训练模型进行训练，以便获得用于对所述蛋白质进行特征提取的预训练模型，其中，所述预训练模型包括具有SE(3)等变性的图神经网络。

在一些实施例中，所述训练单元进一步包括：

扰动拓扑图构建模块，用于对所述起始拓扑图G施加预先指定的噪声，以便得到至少一个经过扰动的拓扑图G’；

训练模块，用于采用所述经过扰动的拓扑图G’作为输入特征，对预训练模型进行去噪训练，所述去噪训练采用所述经过扰动的拓扑图G’与所述起始拓扑图G之间的真实去噪梯度作为训练标记，以便得到所述预训练模型。

第五方面，本申请的实施例提出了一种对蛋白质进行特征提取的装置，其包括：

拓扑图构建单元，用于基于蛋白质的三维结构，构建拓扑图G，其中，所述拓扑图G采用所述蛋白质的氨基酸残基作为节点，所述拓扑图G采用采用邻近氨基酸残基对作为边；

特征向量提取单元，用于基于所述拓扑图G，提取所述蛋白质的特征向量；

预训练单元，用于将所述蛋白质的所述特征向量输入预训练模型，以便获得经过预训练的氨基酸残基特征，

其中，所述预训练模型是经过第一方面所述的方法训练的。

在一些实施例中，进一步包括：

池化单元，用于将所述经过预训练的氨基酸残基特征进行全局池化处理，以便获得整体蛋白质特征。

第六方面，本申请的实施例提出一种对蛋白质进行功能预测的装置，其包括：

预训练单元，用于按照第二方面所述的方法，对所述蛋白质进行特征提取，以便获得预训练特征，所述预训练特征包括氨基酸残基特征和整体蛋白质特征的至少之一；

功能预测单元，用于利用机器学习模型对所述预训练特征进行处理，以便对所述蛋白质进行功能预测。

第七方面，本申请的实施例提出了一种计算设备，其包括：处理器和存储器；

所述存储器，用于存储计算机程序；

所述处理器，用于执行所述计算机程序以实现前面所述的方法。

第八方面，本申请的实施例提出了一种计算机可读存储介质，其特征在于，所述存储介质包括计算机指令，当所述指令被计算机执行时，使得所述计算机实现如前面所述的方法。

本申请实施例提供的预训练模型训练、蛋白质特征提取和蛋白质功能预测的方法与装置，能够直接对蛋白质的三维结构数据特征进行特征学习和特征提取，提取出更有效的特征数据，从而能够提高所获得预训练特征的有效性和用于进行下游任务时的预测精度。

附图说明

此处的附图被并入说明书中并构成本说明书的一部分，示出了符合本申请的实施例，并与说明书一起用于解释本申请的原理。

图1为本申请实施例涉及的一种系统架构示意图；

图2为本申请一实施例提供的用于预训练模型的训练方法流程示意图；

图3为本申请一实施例提供的用于预训练模型的训练方法流程示意图；

图4为本申请一实施例提供的基于蛋白质三维结构确定拓扑图G并进一步提取蛋白质特征向量的示意图；

图5为本申请一实施例提供的基于去噪得分函数匹配训练策略的预训练模型训练方法流程示意图；

图6为本申请一实施例提供的预训练模型的框架图；

图7为本申请一实施例提供的预训练模型的框架图；

图8为本申请一实施例提供的注意力机制的框架图；

图9为本申请一实施例提供的多头注意力机制的框架图；

图10为根据本申请一实施例对蛋白质进行特征提取的方法流程示意图

图11为根据本申请一实施例对蛋白质进行特征提取的框架图；

图12为根据本申请一实施例对蛋白质进行功能预测的方法流程图；

图13为根据本申请一实施例用于训练蛋白质的预训练模型的装置的结构示意图；

图14为根据本申请一实施例用于训练蛋白质的预训练模型的装置的结构示意图；

图15为根据本申请一实施例用于对蛋白质进行特征提取的装置的结构示意图；

图16为根据本申请一实施例用于对蛋白质进行特征提取的装置的结构示意图；

图17显示了根据本申请一实施例对蛋白质进行功能预测的装置的结构示意图；和

图18为本申请实施例涉及的计算设备的框图。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行描述。

应理解，在本申请实施例中，“与A对应的B”表示B与A相关联。在一种实现方式中，可以根据A确定B。但还应理解，根据A确定B并不意味着仅仅根据A确定B，还可以根据A和/或其它信息确定B。

在本申请的描述中，除非另有说明，“多个”是指两个或多于两个。

另外，为了便于清楚描述本申请实施例的技术方案，在本申请的实施例中，采用了“第一”、“第二”等字样对功能和作用基本相同的相同项或相似项进行区分。本领域技术人员可以理解“第一”、“第二”等字样并不对数量和执行次序进行限定，并且“第一”、“第二”等字样也并不限定一定不同。

本申请实施例应用于软件测试技术领域，尤其应用于对需求数据的合法性检查，以便于根据合法的需求数据稳定、高效地生成测试用例。

为了便于理解本申请的实施例，首先对本申请实施例涉及到的相关概念进行如下简单介绍：

人工智能(Artificial Intelligence，AI)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能，感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说，人工智能是计算机科学的一个综合技术，它企图了解智能的实质，并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法，使机器具有感知、推理与决策的功能。

人工智能技术是一门综合学科，涉及领域广泛，既有硬件层面的技术也有软件层面的技术。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。

注意力机制(Attention Mechanism)在本文中是指用于表示各特征重要性权重的向量，为了预测或推断一个目标元素(例如图像中的像素或句子中的单词)，可以使用注意力向量来估计目标元素与其他元素相关联的程度，并将这些元素的值乘以注意力向量进行加权后得到的总和作为目标元素的近似值。

预训练：通过大量无标注或者弱标注的样本进行模型的训练，得到一套模型参数；利用这套参数对模型进行初始化，实现模型“热启动”，再根据具体任务在现有模型的架构上对参数进行微调来拟合任务提供的标签数据。

蛋白质是生物体内最必需也是最通用的大分子,对它们功能的认识对于科学领域、医学领域和农业领域等的发展有着至关重要的作用。蛋白质相互作用与一系列的细胞活动紧密相关，因此，它们对于机体的健康与疾病状态至关重要。鉴于它们在一系列广泛的生物过程当中不可或缺的角色，调节蛋白质相互作用在药物开发领域具有广阔的发展空间。然而，由于蛋白质相互作用界面普遍大而平，并且缺乏明显的结构特征，因此，设计开发靶向蛋白质相互作用界面的药物将会是极富有挑战性的，而这一类重要的靶标也被一直认为是“难成药的”。

如何对蛋白质的功能进行有效的预测，是目前制备生物药的各大药厂的主要任务。在本申请的一种可能的实现方式中，蛋白质的优化主要依赖于药化专家的人工经验，通过不断的试错和验证(trial-and-error)进行迭代完善，例如，目前抗体的结合位点判定主要依赖于昂贵的结构解析实验或耗时的分子敲除筛选实验。这对人力、物力要求极高。

AI技术的最大优势是可以在短时间内通过自学习的过程，消化大量的学习数据，实现无师自通的目的。

基于此，本申请实施例提供的预训练模型训练、蛋白质特征提取和蛋白质功能预测的方法与装置，能够直接对蛋白质的三维结构数据特征进行特征学习和特征提取，从而能够提高所获得预训练特征的有效性和用于进行下游任务时的预测精度。蛋白质在生物体内发挥其实际作用(例如作为酶、结构蛋白、信号通路的重要调控因子、基因表达的调控因子，甚至还可能导致某些遗传疾病或者作为抗体对某些特定的疾病具有免疫能力)在很大程度上是由蛋白质的三维结构决定的。因此，通过本申请实施例所提供的技术方案能够对蛋白质数据提取提供更为有效的特征表示。从而使得该预训练模型得到的预训练特征在后续下游任务进行蛋白质功能预测的相关预测工作时候，其预测成本低、并且预测效率高。

本申请的应用场景包括但不限于医疗、生物、科研等领域，例如用于药物生产、药物研发、疫苗研发等，用于快速准确地识别出抗体序列与抗原的结合位点，且整个识别过程不需要人为干预，识别成本低。

在一些实施例中，本申请实施例的系统架构如图1所示。

图1为本申请实施例涉及的一种系统架构示意图，用户设备101、数据采集设备102、训练设备103、执行设备104、数据库105和内容库106。

其中，数据采集设备102用于从内容库106中读取训练数据，并将读取的训练数据存储至数据库105中。本申请实施例涉及的训练数据包括蛋白质三维结构以及其经过扰动的数据。

训练设备103基于数据库105中维护的训练数据，对预训练模型进行训练，使得训练后的预训练模型可以有效地提取基于蛋白质三维结构的特征，并且该预训练模型还可以进一步连接其他下游蛋白质功能预测模型。训练设备103得到的目标预测模型可以应用到不同的系统或设备中。

另外，参考图1，执行设备104配置有I/O接口107，与外部设备进行数据交互。比如通过I/O接口接收用户设备101发送的待预测的蛋白质信息，例如蛋白质三维结构。执行设备104中的计算模块109使用训练好的模型对输入的蛋白质信息进行处理，输出目标蛋白质的功能预测结果，并通过I/O接口将相应的结果发送至用户设备101。

其中，用户设备101可以包括手机、平板电脑、笔记本电脑、掌上电脑、移动互联网设备(mobile internet device，MID)或其他具有安装浏览器功能的终端设备。

执行设备104可以为服务器。

示例性的，服务器可以是机架式服务器、刀片式服务器、塔式服务器或机柜式服务器等计算设备。该服务器可以是独立的测试服务器，也可以是多个测试服务器所组成的测试服务器集群。

本实施例中，执行设备104通过网络与用户设备101连接。所述网络可以是企业内部网(Intranet)、互联网(Internet)、全球移动通讯系统(Global System of Mobilecommunication，GSM)、宽带码分多址(Wideband Code Division Multiple Access，WCDMA)、4G网络、5G网络、蓝牙(Bluetooth)、Wi-Fi、通话网络等无线或有线网络。

需要说明的是，图1仅是本申请实施例提供的一种系统架构的示意图，图中所示设备、器件、模块等之间的位置关系不构成任何限制。在一些实施例中，上述数据采集设备102与用户设备101、训练设备103和执行设备104可以为同一个设备。上述数据库105可以分布在一个服务器上也可以分布在多个服务器上，上述的内容库106可以分布在一个服务器上也可以分布在多个服务器上。

下面通过一些实施例对本申请实施例的技术方案进行详细说明。下面这几个实施例可以相互结合，对于相同或相似的概念或过程可能在某些实施例不再赘述。

首先结合图2对本申请实施例涉及的预测模型的训练过程进行介绍。

图2为本申请一实施例提供的预训练模型的训练方法流程示意图，该预训练模型用于对蛋白质进行特征提取，如图2所示，包括：

S301：基于起始蛋白质的三维结构，构建起始拓扑图G

参考图4，图4为本申请一实施例提供的基于蛋白质三维结构确定拓扑图G并进一步提取蛋白质特征向量的示意图。

基于蛋白质的三维结构，可以将蛋白质中的每个氨基酸残基作为拓扑图的节点V(有时也称为“顶点”)，采用邻近氨基酸残基对作为边E，由此可以构建拓扑图G，并且可以将该拓扑图进行数学表示G＝(V，E)。

由此，基于起始蛋白质的三维结构，可以构建该三维结构对应的起始拓扑图G。根据本申请的实施例，蛋白质的三维结构可以通过蛋白质的晶体进行结构分析来获得，例如通过对晶体进行三维结构分析，例如X射线晶体衍射分析，电镜三维重构技术以及核磁共振技术，可以获得蛋白质的三维结构。另外，也可以通过公开的数据库获得相关蛋白质的晶体数据，例如剑桥结构数据库(The Cambridge structural Database,CSD)、蛋白质数据库(The Protein Data Bank,PDB)、无机晶体结构数据库(The Inorganic CrystalStructure Database,ICSD)、国际衍射数据中心的粉晶数据库(JCPDS-InternationalCenter for Diffraction Data,JCPDS-ICDD)等。

另外，在确定蛋白质的相关信息(例如氨基酸序列、结构式、或部分晶体数据)之后，还可以通过多种软件进行三维结构重构或者预测蛋白质的三维结构。例如，可以采用Rosetta@home平台(网址：https://www.rosettacommons.org)、Foldit：Solve Puzzlesfor Science平台(网址：https://fold.it/portal)、The Folding@Home平台(网址：https://foldingathome.org)、Template Modeling平台(网址：https://salilab.org/modeller/)、Swiss-Model(网址：https://swissmodel.expasy.org/)等。

参考图4，在获取复合物的三维结构之后，可以通过将蛋白质中的每个氨基酸残基作为拓扑图的节点V(有时也称为“顶点”)，采用邻近氨基酸残基对作为边E，构建拓扑图G。在本申请的一些实施例中，邻近氨基酸残基对可以是指在空间或者其他层面上邻近的两个氨基酸残基。在一些实施例中，可以具体指阿尔法碳原子之间距离不超过预定阈值的一对氨基酸残基。换句话说，针对特定的氨基酸残基，以该氨基酸残基的阿尔法碳原子为中心设定邻域范围(以该预定阈值为半径)，阿尔法碳原子位于在该邻域内的所有其他氨基酸均认为分别与该特定的氨基酸构成边E。在本文中，阿尔法碳原子是指氨基酸残基中与羧基相连的碳原子，氨基酸的α碳对蛋白质折叠很重要。当描述蛋白质(是一长串的氨基酸)，通常会将氨基酸中α碳的位置视为氨基酸的位置。该预定阈值可以为大约1～20埃米，例如大约1～19埃米，大约1～18埃米，大约1～17埃米，大约1～16埃米，大约1～15埃米，大约1～14埃米，大约1～13埃米，大约1～12埃米或者大约1～10埃米。需要说明的是，上述范围涵盖了在该范围内所涉及的全部数值。另外，如无特别说明，本文中所用术语“大约”是指上下浮动10％。

在一些实施例中，由于采用氨基酸为节点，而不是以各原子作为节点从而避免了大量的背景数据，提高机器学习的训练效率和预测效率、精确度、准确性等。

参考图4，根据本申请的实施例，在获得拓扑图后，可以从拓扑图中确定特征向量。根据本方申请的实施例，这里所采用的特征向量，可以包括拓扑图的边角特征，另外还可以包括拓扑图上所涉及氨基酸残基的特征以及氨基酸残基之间的组合特征。可以将相关的特征汇总称为一个多维的向量矩阵，从而实现了对特征向量的量化表征。

关于拓扑图的边角特征，可以采用邻接矩阵和度矩阵进行表征，其中，度矩阵是对角阵，对角上的元素为各个顶点的度，顶点的度表示和该顶点相关联的边的数量。邻接矩阵表示顶点间是否存在关系。对于给定的拓扑图，本领域技术人员可以通过人工确定邻接矩阵和度矩阵特征，也可以通过一些公开的软件进行计算，例如RDKit(https://www.rdkit.org/)。

关于氨基酸残基的特征，在一些实施例中，可以提取下列特征：

各氨基酸残基自身的特征h，例如氨基酸的类型、分子量、暴露在三维结构表面还是包埋在三维结构内部、在多物种之间属于保守氨基酸还是容易突变的氨基酸、属于极性分子还是非极性分子、碱性氨基酸还是酸性氨基酸等，阿尔法碳原子的三维坐标；

氨基酸残基之间的组合特征g，例如氨基酸残基之间是否形成共价连接、氨基酸残基之间是否形成氢键、氨基酸残基的组合是否构成已知抗原表位的一部分以及氨基酸残基之间所构成的距离和角度关系等；以及

氨基酸残基之间的阿尔法碳原子(α-碳原子)距离r。

在本申请的一些实施例中，对于上述特征和属性，可以采用独热编码的方式进行表征。

S320：将所述起始拓扑图G输入至预训练模型，对所述预训练模型进行训练，以便获得用于对所述蛋白质进行特征提取的预训练模型。

在该步骤中，在获得起始拓扑图G之后，将所得到的起始拓扑图G输入至预训练模型进行训练。本领域技术人员能够理解的是，这里可以将所得到起始拓扑图G的相关特征输入至预训练模型中。

另外，根据本申请的一些实施例，所述预训练模型包括具有SE(3)等变性的图神经网络。在本文中，SE(3)等变性是指如果某个函数对于三维空间中的任意旋转和平移操作具有等变性，即当函数的输入进行了某一旋转和平移操作，该函数的输出也发生相应的变化(对应于同一组旋转和平移操作)，则称该函数具有SE(3)等变性。在一些实施例中，所述图神经网络包括具有SE(3)等变性的选自EGNN、SE(3)-Transformer和Lie-Transformer的至少之一。

由此，根据本申请的一些实施例，上述预训练模型充分考虑了蛋白质三维结构的等变性，即对蛋白质三维结构进行旋转或者平移操作，并不会对蛋白质三维结构及其相关的理化性质造成影响，从而能够提高所获得预训练特征的有效性，进一步可以提高进行下游任务时的预测精度。

与此不同的是，现有已有的蛋白质预训练方法中，大多数是基于蛋白质的氨基酸序列数据或者其同源序列数据，并没有直接利用蛋白质三维结构信息。虽然从生物学原理上来说，在给定外部环境的情况下，蛋白质的氨基酸序列可以唯一地确定其对应的三维结构，但在现有蛋白质结构预测方法尚未达到可以根据任意氨基酸序列准确预测其三维结构的情况下，蛋白质三维结构中所包含的信息仍然是远远大于氨基酸序列数据的。从而，本申请实施例的方案基于蛋白质的三维结构所设计的预训练方法，能够提取出更有效的特征数据，进一步有助于提高下游任务的预测精度，例如可以用于预测蛋白质的生物学功能或者蛋白质与其他蛋白质或者其他化学实体之间的相互作用或者结合位点等。

另外，根据本申请的实施例，参考图3，对所述预训练模型进行训练可以进一步包括：

S302：对所述起始拓扑图G施加预先指定的噪声，以便得到至少一个经过扰动的拓扑图G’

图5为本申请一实施例提供的基于去噪得分函数匹配训练策略的预训练模型训练方法流程示意图，参考图5，在得到蛋白质的起始拓扑图，可以通过对始拓扑图G施加预先指定的噪声，以便得到至少一个经过扰动的拓扑图G。由于可以为拓扑图G施加不同的噪声，因此，基于一个已知蛋白质三维结构的拓扑图G，可以产生大量经过扰动的拓扑图G’，从而可以使得预训练模型能够得到更充分的训练，使得通过监督训练得到的预训练模型具有较强的延展性，从而提高后续下游任务的训练准确性，从而使得该预训练模型得到的预训练特征在后续下游任务进行蛋白质功能预测的相关预测工作时候，其预测成本低、并且预测效率高。

这里所提到的噪声，可以是为拓扑图G中的节点施加随机扰动，例如对各节点进行不同的位移，具体的，可以针对拓扑图G的特征向量矩阵叠加一个预定的随机矩阵，从而得到经过扰动的拓扑图G’的特征向量矩阵。可以采用的噪声可以包括符合预定分布形式的噪声类型，例如可以采用高斯噪声，即一种具有正态分布(也称作高斯分布)概率密度函数的噪声。

S303：采用所述经过扰动的拓扑图G’作为输入特征，对预训练模型进行去噪训练，所述去噪训练采用所述经过扰动的拓扑图G’与所述起始拓扑图G之间的真实去噪梯度作为训练标记，以便得到预训练后的模型。

如前所述，经过扰动的拓扑图G’是通过对起始拓扑图G施加预先指定的噪声，因此，起始拓扑图G和经过扰动的拓扑图G’之间的真实去噪梯度(Ground-truth Gradients)是已经知道或者可以推断出的。例如当施加的噪声为标准差为σ的高斯噪声时，真实去噪梯度可以表示为：

其中，

为扰动后的拓扑图G’的三维坐标，x为扰动前的起始拓扑图G的三维坐标。

由于真实去噪梯度是已经知道的或可以推断出的，其可以作为输入特征的已知标记(label)，作为监督信息去训练预训练模型。具体的，通过将经过扰动的拓扑图G’作为预训练模型的输入特征，采用预训练模型处理后输出预测的去噪梯度(EstimatedGraidents)进而可以基于预测的去噪梯度与真实去噪梯度之间的差异构建损失函数，例如可以采用MSE Loss，通过反向传播算法，对预训练模型进行训练，逐步更新预训练模型中的参数和函数，以便获得经过训练后的模型。为了方便理解，去噪梯度可以理解为，将经过扰动的拓扑图G’在三维坐标上还原至起始拓扑图G所需要进行的操作。换言之，参考图5，在训练算法方面，可以使用去噪得分函数匹配(denoising score matching)训练策略。

因此在一些实施例中，对于已知三维结构的蛋白质数据，基于氨基酸残基间的序列和空间位置关系，构建图结构，即氨基酸残基作为图的节点，氨基酸残基间的相互作用作为图的边。然后，在图结构上加入随机噪声，对每个节点的三维坐标进行随机扰动，得到随机扰动后的图结构以及对应的真实梯度信息(相对于扰动后的三维坐标)。将随机扰动后的图结构，输入到预训练模型(例如后面提到的MHA-EGNN)中，模型经过多轮迭代后，输出预测的梯度信息(同样是相对于扰动后的三维坐标)。通过计算预测的梯度信息与真实梯度之间的差异，得到预训练模型的损失，再通过反向传播算法，对预训练模型进行训练。

由此，在本申请的一些实施例中，在进行预训练模型的训练中，通过采用对蛋白质三维结构的拓扑图G施加预定的噪声信号，可以获得多个经过扰动的拓扑图G’，因此，可以基于起始蛋白质三维结构得到大量可以用于机器学习训练的特征向量，从而可以使得预训练模型能够得到更充分的训练，使得通过监督训练得到的预训练模型具有较强的延展性，从而提高后续下游任务的训练准确性。而如此训练出的预训练模型，可以有效的提取蛋白质拓扑图的预训练特征，并在后续下游任务中用于进行蛋白质功能预测，其预测成本低、并且预测效率高。

下面参考图6和图7对预训练模型的框架进行说明。

简言之，本申请实施例提供的可以是设置有注意力机制的图神经网络。

注意力机制(Attention Mechanism)在本文中是指用于表示各特征重要性权重的向量。举例说明，为了预测或推断一个目标元素(例如蛋白质结构中的氨基酸残基)，可以使用注意力向量来估计目标元素与其他元素相关联的程度，并将这些元素的值乘以注意力向量进行加权后得到的总和作为目标元素的近似值。

参考图8为例说明注意力机制，最底层的输入x₁,x₂,x₃…,x_T表示输入的序列数据，比如，x₁可以代表某个蛋白质的末端氨基酸残基。首先，通过嵌入层(可选)将它们进行初步的embedding，得到a₁,a₂,a₃…,a_T；然后，使用三个矩阵W^Q、W^K和W^V分别与之相乘，得到q_i,k_i,v_i,i∈(1,2,3…T)。图8显示了与输入的x₁所对应的输出b₁是如何得到的。即：利用q₁分别与k₁,k₂,k₃…,k_T计算向量点积，得到α_1,1,α_1,2,α_1,3…,α_1,T；将α_1,1,α_1,2,α_1,3…,α_1,T输入softmax层，从而得到均在0-1之间的注意力权重值：

将上一步得到的

分别与对应位置的v₁,v₂,v₃…,v_T相乘，然后求和，这样便得到了与输入的x₁所对应的输出b₁。

同样地，与输入的x₂所对应的输出b₂也根据类似过程获得，只是此时是利用与b₂对应的q₁分别与k₁,k₂,k₃…,k_T计算向量点积。

在本申请的一些实施例中，所采用的注意力机制为多头注意力机制，或者换句话说在图神经网络之前设置多头注意力层，图9举例展示了多头注意力机制的框架。具体体现在：如果将前文中得到的q_i,k_i,v_i整体看做一个“头”，则“多头”即指对于特定的x_i来说，需要用多组W^Q、W^K和W^V与之相乘，进而得到多组q_i,k_i,v_i。

以图9以右侧示意图中输入的a₁为例，通过多头(作为示例，这里取head＝3)机制得到了三个输出

为了获得与a₁对应的输出b₁，在多头注意力机制中，可以将这里得到的

进行拼接(向量首尾相连)，然后通过转换例如通过线性转换(即不含非线性激活层的单层全连接神经网络)得到b₁。对于序列中的其他输入也是同样的处理过程，且它们可以共享这些网络的参数。

在本申请的一些实施例中，可以根据氨基酸残基的特征h，氨基酸残基之间的组合特征g以及氨基酸残基之间的α-碳原子距离r，得到经过更新的氨基酸残基特征h′和α-碳原子坐标x’。具体而言，可以将氨基酸残基的特征，氨基酸残基之间的组合特征以及氨基酸残基之间的距离作为输入特征，得到经过更新的氨基酸残基特征和坐标，然后根据该经过信息的氨基酸残基特征和坐标，对预训练模型的参数进行更新。

作为一种可能的实现方式，可以根据第一氨基酸残基的特征和第二氨基酸残基的特征，所述第一氨基酸残基与所述第二氨基酸残基的组合特征，以及所述第一氨基酸残基与所述第二氨基酸残基间的距离，得到信息向量。示例性的，第二氨基酸残基可以为第一氨基酸残基的邻域集合中的氨基酸残基，不做限定。

然后，根据所述第一氨基酸残基的特征，得到查询向量，所述查询向量用于计算注意力加权系数。

然后，根据所述第一氨基酸残基的特征，以及所述信息向量，得到索引向量，所述索引向量用于计算注意力加权系数。

然后，根据所述查询向量和所述索引向量，得到注意力加权系数。

作为一种具体的实现方式，可以根据查询向量和索引向量，得到未进行归一化的注意力加权系数。之后，根据该未进行归一化的注意力加权系数，对位于第一氨基酸残基的邻域集合内的氨基酸残基(例如所有氨基酸残基)进行归一化，得到归一化后的注意力加权系数。

对于氨基酸残基的特征的更新，在得到注意力加权系数之后，可以根据所述第一氨基酸残基的特征，位于所述第一氨基酸残基的邻域集合内的氨基酸残基(例如所有氨基酸残基)的信息向量，以及所述注意力加权系数，得到更新后的第一氨基酸残基的特征。

作为一种具体的实现方式，当更新后的第一氨基酸残基的特征向量的维度与更新前的第一氨基酸残基的特征向量的维度不一致时，可以将所述第一氨基酸残基的特征，以及位于所述第一氨基酸残基的邻域集合内的氨基酸残基(例如所有氨基酸残基)的信息向量，通过所述注意力加权系数进行加权，共同输入模型的需要训练的函数中，得到更新后的第一氨基酸残基的特征。

需要说明的是，更新后的氨基酸残基的特征向量的特征维度是预先设置的超参数，其在设计EGNN模型时确定。

作为另一种具体的实现方式，当更新后的第一氨基酸残基的特征向量的维度与更新前的第一氨基酸残基的特征向量的维度一致时，可以使用位于所述第一氨基酸残基的邻域集合内的氨基酸残基(例如所有氨基酸残基)的信息向量，通过注意力加权系数进行加权，共同输入到模型的需要训练的函数中，得到用于更新该第一氨基酸安吉的特征的残差项，然后将该残差项叠加到更新前的第一氨基酸残基的特征，得到更新后的第一氨基酸残基的特征。

对于氨基酸残基的三维坐标的更新，在得到注意力加权系数之后，可以根据所述第一氨基酸残基的三维坐标和位于所述第一氨基酸残基的邻域集合内的氨基酸残基的三维坐标、位于所述第一氨基酸残基的邻域集合内的氨基酸残基的信息向量，以及所述注意力加权系数，得到更新后的第一氨基酸残基的三维坐标。

作为一种具体的实现方式，可以对位于第一氨基酸残基的邻域集合中的氨基酸残基(例如每一个氨基酸残基)，对两组三维坐标(即第一氨基酸残基的三维坐标与位于第一氨基酸残基的邻域集合中的氨基酸残基的三维坐标)之间的差值，通过注意力加权系数以及模型的训练的函数的输出值进行线性加权，得到用于更新所述第一氨基酸残基的三维坐标的残差项，然后将该残差项叠加更新前的该第一氨基酸残基的三维坐标，得到更新后的第一氨基酸残基的三维坐标。

具体而言，在本申请的一些实施例中，在多头注意力机制中(head＝L)，采用下列运算过程输出更新后的特征：

其中，l表示第l个注意力头的运算，h_i是蛋白质中第i个氨基酸残基的特征(例如氨基酸类型)，g_ij是蛋白质中第i个氨基酸残基与第j个氨基酸残基的组合特征(例如不同氨基酸残基之间的距离和角度关系)，r_ij是蛋白质中第i个氨基酸残基与第j个氨基酸残基间的距离(例如C-Alpha原子间的距离)，x_i是蛋白质中第i个氨基酸残基的三维坐标(例如C-Alpha原子的三维坐标)，N(i)是蛋白质中第i个氨基酸残基的邻域集合，包含与第i个氨基酸残基相邻的氨基酸残基集合。

经过上述计算过程后，我们可以得到更新后的氨基酸残基特征h′_i以及C-Alpha原子的三维坐标x′_i。需要说明的是φ_m,φ_q,φ_k,φ_e,φ_h以及φ_s是在机器学习中需要进行训练的函数和参数，L为可以预先设定的超参数。由此，在一些实施例中，所述注意力层采用氨基酸残基的特征h，氨基酸残基之间的组合特征g以及氨基酸残基之间的α-碳原子距离r作为输入特征，输出经过更新的氨基酸残基特征h′和α-碳原子坐标x’。由于经过更新的氨基酸残基特征和α-碳原子坐标是经过多头注意力机制处理的，因此更能够反应各残基之间的相互关系，更能够为后续下游操作提供更有效地信息。

为了方便理解，下面对上述处理过程进行详细描述。

关于公式

在本申请的一些实施例中，该公式描述了将第i个氨基酸残基以及第j个氨基酸残基各自的特征h_i和h_j，以及第i个氨基酸残基与第j个氨基酸残基的组合特征g_ij，外加第i个氨基酸残基与第j个氨基酸残基间的距离r_ij，输入到

函数中(函数形式不限，例如可以使用MLP即多层感知机模型)，得到由第j个氨基酸残基向第i个氨基酸残基提供的信息向量

关于公式

在本申请的一些实施例中，该公式将第i个氨基酸残基的特征h_i，输入到

函数中，得到用于计算注意力加权系数的查询向量

关于公式

在本申请的一些实施例中，该公式将第i个氨基酸残基的特征h_i，以及由第j个氨基酸残基向第i个氨基酸残基提供的信息向量

输入到

函数中，得到用于计算注意力加权系数的索引向量

关于公式

在本申请的一些实施例中，该公式基于用于计算注意力加权系数的查询向量

以及索引向量

输入到

函数中，得到未进行归一化的注意力加权系数

关于公式

在本申请的一些实施例中，该公式基于未进行归一化的注意力加权系数

对位于第i个氨基酸残基的邻域集合内的所有氨基酸残基进行归一化，得到归一化后的注意力加权系数

接下来，关于公式：

在本申请的一些实施例中，该公式涉及到两个候选操作，具体选择取决于更新前后的第i个氨基酸残基的特征维度是否一致(|h_i|表示特征向量h_i的维度，更新后的该第i个氨基酸残基的特征维度|h′_i|为预先设置的超参数，在设计EGNN模型结构时确定)。

1)如果更新前后的特征维度不一致，那么需要使用更新前的第i个氨基酸残基的特征h_i，以及位于第i个氨基酸残基的邻域集合内的所有氨基酸残基的信息向量

通过注意力加权系数

进行线性加权，共同输入到φ_h()函数中，得到更新后的第i个氨基酸残基的特征h′_i。

2)如果更新前后的特征维度一致，那么可以使用类似于残差网络的更新方式，对第i个氨基酸残基的特征进行更新，即使用位于第i个氨基酸残基的邻域集合内的所有氨基酸残基的信息向量

通过注意力加权系数

进行线性加权，共同输入到φ_h()函数中，得到用于更新第i个氨基酸残基的特征的残差项，然后叠加到更新前的第i个氨基酸残基的特征h_i，得到更新后的第i个氨基酸残基的特征h′_i。

最后，关于公式

在本申请的一些实施例中，该公式使用类似于残差网络的更新方式，对第i个氨基酸残基的三维坐标x_i进行更新。具体地，对于位于第i个氨基酸残基的邻域集合中的每一个氨基酸残基，考虑两组三维坐标(第i个氨基酸残基的三维坐标x_i和邻域集合中第j个氨基酸残基的三维坐标x_j)之间的差值，可以通过注意力加权系数

以及φ_s()函数的输出值(同样是一个标量，而非矢量)进行线性加权，得到用于更新第i个氨基酸残基的三维坐标的残差项，然后叠加到更新前的第i个氨基酸残基的三维坐标x_i，得到更新后的第i个氨基酸残基的三维坐标x′_i。

根据本申请的一些实施例，通过计算模型最后一层输出的x′_i,减去最初输入到模型的x_i的差异，得到预测的梯度信息，与真实去噪梯度之间的差异构建损失函数，例如可以采用MSE Loss，通过反向传播算法，对预训练模型进行训练，逐步更新预训练模型中的参数和函数，以便获得经过训练的预训练模型。

另外，关于图神经网络(Graph Neural Network，GNN)，图中的一个节点可以通过其特征和相关节点进行定义，GNN的目标是学习一个状态嵌入用于表示每个节点的邻居信息。状态嵌入可以生成输出向量用于作为预测节点标签的分布等。本领域技术人员可以在相应的各层中进一步嵌套更多的神经网络。在每个GCN中，都可以独立地采用下列作为传播规则：

其中，

表示拓扑图G的邻接矩阵A加上表示自连接的单位矩阵I_N，

表示拓扑图G的度数矩阵，即

H^(l)表示第l层(包括0层，即输入层)的激活单元矩阵，

W^(l)表示第l层的卷积核参数矩阵。

另外，根据本申请的一些实施例，所采用的图神经网络具有SE(3)等变性。SE(3)等变性是指如果某个函数对于三维空间中的任意旋转和平移操作具有等变性，即当函数的输入进行了某一旋转和平移操作，该函数的输出也发生相应的变化(对应于同一组旋转和平移操作)，则称该函数具有SE(3)等变性。在一些实施例中，所述图神经网络包括具有SE(3)等变性的选自EGNN、SE(3)-Transformer和Lie-Transformer的至少之一。

如前所述，经过扰动的拓扑图G’是通过对起始拓扑图G施加预先指定的噪声，因此，起始拓扑G和经过扰动的拓扑图G’之间的真实去噪梯度(Ground-truth Gradients)可以作为输入特征的已知标记(label)，通过将经过扰动的拓扑图G’作为输入特征，采用预训练模型处理后输出预测的去噪梯度(Estimated Graidents)。进而可以基于预测的去噪梯度与真实去噪梯度之间的差异构建损失函数，例如可以采用MSE Loss，通过反向传播算法，对预训练模型进行训练，逐步更新预训练模型中的参数和函数，以便获得经过预训练后的模型。由此，完成了对预训练模型的训练，由于一些实施例中，该模型中引入了多头注意力机制，因此更能够反应各残基之间的相互关系，更能够为后续下游操作提供更有效的信息。另外，具有SE(3)等变性的EGNN、SE(3)-Transformer和Lie-Transformer的模型架构也能够更有效地应用于动态系统的建模预测分子性质等。

应注意，本申请实施例中并不限于上述各公式的形式，例如还可以是各公式各种变形，本申请实施例对此不限定。

前面对预训练模型的训练方法进行了描述，下面对其应用进行描述。图10显示了根据本申请一实施例对蛋白质进行特征提取的方法流程示意图，下面参考图10对该方法进行描述。

S401：基于蛋白质的三维结构，构建起始拓扑图G，其中，所述起始拓扑图G采用所述蛋白质的氨基酸残基作为节点，所述起始拓扑图G采用采用邻近氨基酸残基对作为边；

S402：基于所述拓扑图G，提取所述蛋白质的特征向量；

S403：将所述蛋白质的所述特征向量，输入预训练模型，以便获得经过预训练的氨基酸残基特征，其中，所述预训练模型是经过前面第一方面所述的方法训练的。可以将氨基酸残基特征作为“预训练特征”。

在一些实施例中，可选择预训练模型中的某一层网络的输出作为氨基酸残基特征，例如倒数第二层。

可选的，参考图11，在一些实施例中，进一步包括：将所述经过预训练的氨基酸残基特征进行全局池化处理，以便获得整体蛋白质特征。

换句话说，在基于训练得到的蛋白质三维结构预训练模型，可以进行下游任务的模型训练，具体过程如前面所述。对于下游任务中的蛋白质数据集，首先基于蛋白质三维结构，构建对应的图结构，并输入到训练得到的蛋白质三维结构预训练模型中，得到每个氨基酸残基的特征表示，并通过全局池化操作，得到整个蛋白质的特征表示，这两部分特征可以合称为“预训练特征”。将预训练特征输入到下游任务的预测模型中(具体模型结构取决于下游任务本身，预训练任务对于多种基于蛋白质三维结构数据的下游任务都是普适的)，与原有特征组合使用，以提高预测模型在下游任务上的预测精度。

应用场景

通过采用上面所描述蛋白质三维结构预训练方法，可以从蛋白质三维结构数据中提取出更有效的特征表示，从而提升在下游任务中模型的预测精度。

例如，按照论文GraphQA:protein model quality assessment using graphconvolutional networks doi:10.1093/bioinformatics/btaa714中所描述的评估方法，对于蛋白质结构预测质量评估任务(quality assessment)上，发明人将本申请实施例的方法与其他方式进行比较，明显看出加入预训练(采用多头注意力机制的EGNN模型)特征对于模型预测精度的提升效果。BC-30和BC-100分别是两个不同规模的蛋白质三维结构数据集(BC-100数据规模更大，关于二者区别可以参见https://www.rcsb.org/docs/programmatic-access/file-download-services)，从结果上来看，BC-30和BC-100预训练特征的加入，对于模型的预测精度是有一致性提升作用的。

表1：采用GraphQA预测模型进行全局QA预测任务的结果

进一步，参考图12，第三方面，本申请的实施例提出了一种对蛋白质进行功能预测的方法，其包括：

在一些实施例中，所述功能预测包括下列的至少之一：

预测所述蛋白质的生物学功能；

预测所述蛋白质与其他蛋白质之间的结合位点；

预测所述蛋白质与小分子的结合位点；

预测所述蛋白质与其他实体的相互作用性质；和

预测所述蛋白质的成药性。

如前所述，本申请实施例提供的预训练模型训练、蛋白质特征提取和蛋白质功能预测的方法与装置，能够直接对蛋白质的三维结构数据特征进行特征学习和特征提取，从而能够提高所获得预训练特征的有效性和用于进行下游任务时的预测精度。

蛋白质在生物体内发挥其实际作用(例如作为酶、结构蛋白、信号通路的重要调控因子、基因表达的调控因子，甚至还可能导致某些遗传疾病或者作为抗体对某些特定的疾病具有免疫能力)在很大程度上是由蛋白质的三维结构决定的。因此，通过本申请实施例所提供的技术方案能够对蛋白质数据提取提供更为有效的特征表示。与此不同的是，现有已有的蛋白质预训练方法中，大多数是基于蛋白质的氨基酸序列数据或者其同源序列数据，并没有直接利用蛋白质三维结构信息。虽然从生物学原理上来说，在给定外部环境的情况下，蛋白质的氨基酸序列可以唯一地确定其对应的三维结构，但在现有蛋白质结构预测方法尚未达到可以根据任意氨基酸序列准确预测其三维结构的情况下，蛋白质三维结构中所包含的信息仍然是远远大于氨基酸序列数据的。从而，本申请实施例的方案基于蛋白质的三维结构所设计的预训练方法，能够提取出更有效的特征数据，提高下游任务的预测精度，例如可以用于预测蛋白质的生物学功能或者蛋白质与其他蛋白质或者其他化学实体之间的相互作用或者结合位点等。另外，需要说明的是，在本申请的一些实施例中，在进行预训练模型的训练中，通过采用对蛋白质三维结构的拓扑图G施加预定的噪声信号，可以获得多个经过扰动的拓扑图G’，因此，可以基于起始蛋白质三维结构得到大量可以用于机器学习训练的特征向量，从而可以使得预训练模型能够得到更充分的训练，使得通过监督训练得到的预训练模型具有较强的延展性，从而提高后续下游任务的训练准确性，从而使得该预训练模型得到的预训练特征在后续下游任务进行蛋白质功能预测的相关预测工作时候，其预测成本低、并且预测效率高。

参考图13，第四方面，本申请的实施例提出了一种训练用于蛋白质的预训练模型的装置，其包括：

起始拓扑图构建单元301，用于基于起始蛋白质的三维结构，构建起始拓扑图G，其中，所述起始拓扑图G采用所述起始蛋白质的氨基酸残基作为节点，所述起始拓扑图G采用邻近氨基酸残基对作为边；

训练单元320，用于将所述起始拓扑图G输入至预训练模型，对所述预训练模型进行训练，以便获得用于对所述蛋白质进行特征提取的预训练模型，其中，所述预训练模型包括具有SE(3)等变性的图神经网络。

参考图14，根据本申请的实施例，上述训练单元320可以包括：

扰动拓扑图构建模块302，用于对所述起始拓扑图G施加预先指定的噪声，以便得到至少一个经过扰动的拓扑图G’；

训练模块303，用于采用所述经过扰动的拓扑图G’作为输入特征，对预训练模型进行去噪训练，所述去噪训练采用所述经过扰动的拓扑图G’与所述起始拓扑图G之间的真实去噪梯度作为训练标记，以便得到所述预训练模型。

参考图15和16，第五方面，本申请的实施例提出了一种对蛋白质进行特征提取的装置，其包括：

拓扑图构建单,401，用于基于蛋白质的三维结构，构建拓扑图G，其中，所述拓扑图G采用所述蛋白质的氨基酸残基作为节点，所述拓扑图G采用采用邻近氨基酸残基对作为边；

特征向量提取单元402，用于基于所述拓扑图G，提取所述蛋白质的特征向量；

预训练单元403，用于将所述蛋白质的所述特征向量输入预训练模型，以便获得经过预训练的氨基酸残基特征，

其中，所述预训练模型是经过第一方面所述的方法训练的。

在一些实施例中，进一步包括：

池化单元404，用于将所述经过预训练的氨基酸残基特征进行全局池化处理，以便获得整体蛋白质特征。

参考图17，第六方面，本申请的实施例提出一种对蛋白质进行功能预测的装置，其包括：

预训练单501，用于按照第二方面所述的方法，对所述蛋白质进行特征提取，以便获得预训练特征，所述预训练特征包括氨基酸残基特征和整体蛋白质特征的至少之一；

功能预测单元502，用于利用机器学习模型对所述预训练特征进行处理，以便对所述蛋白质进行功能预测。

所述存储器，用于存储计算机程序；

本领域技术人员能够理解，装置实施例与方法实施例可以相互对应，类似的描述可以参照方法实施例。为避免重复，此处不再赘述。具体地，各装置可以对应于执行本申请实施例的方法中的相应主体，并且各装置中的各个模块的前述和其它操作和/或功能分别为了实现上述各个方法中的相应流程，为了简洁，在此不再赘述。

上文中结合附图从功能模块的角度描述了本申请实施例的装置。应理解，该功能模块可以通过硬件形式实现，也可以通过软件形式的指令实现，还可以通过硬件和软件模块组合实现。具体地，本申请实施例中的方法实施例的各步骤可以通过处理器中的硬件的集成逻辑电路和/或软件形式的指令完成，结合本申请实施例公开的方法的步骤可以直接体现为硬件处理器执行完成，或者用处理器中的硬件及软件模块组合执行完成。可选地，软件模块可以位于随机存储器，闪存、只读存储器、可编程只读存储器、电可擦写可编程存储器、寄存器等本领域的成熟的存储介质中。该存储介质位于存储器，处理器读取存储器中的信息，结合其硬件完成上述方法实施例中的步骤。

图18为本申请实施例涉及的计算设备的框图，该设备可以是图1所示的服务器，用于执行上述实施例所述的方法，具体参见上述方法实施例中的说明。

图18所示的计算设备200包括存储器201、处理器202、通信接口203。存储器201、处理器202、通信接口203之间彼此通信连接。例如，存储器201、处理器202、通信接口203之间可以采用网络连接的方式，实现通信连接。或者，上述计算设备200还可以包括总线204。存储器201、处理器202、通信接口203通过总线204实现彼此之间的通信连接。图16是以存储器201、处理器202、通信接口203通过总线204实现彼此之间的通信连接的计算设备200。

存储器201可以是只读存储器(Read Only Memory，ROM)，静态存储设备，动态存储设备或者随机存取存储器(Random Access Memory，RAM)。存储器201可以存储程序，当存储器201中存储的程序被处理器202执行时，处理器202和通信接口203用于执行上述方法。

处理器202可以采用通用的中央处理器(Central Processing Unit，CPU)，微处理器，应用专用集成电路(Application Specific Integrated Circuit，ASIC)，图形处理器(graphics processing unit，GPU)或者一个或多个集成电路。

处理器202还可以是一种集成电路芯片，具有信号的处理能力。在实现过程中，本申请的方法可以通过处理器202中的硬件的集成逻辑电路或者软件形式的指令完成。上述的处理器202还可以是通用处理器、数字信号处理器(digital signal processing，DSP)、专用集成电路(ASIC)、现成可编程门阵列(field programmable gate array，FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。软件模块可以位于随机存储器，闪存、只读存储器，可编程只读存储器或者电可擦写可编程存储器、寄存器等本领域成熟的存储介质中。该存储介质位于存储器201，处理器202读取存储器201中的信息，结合其硬件完成本申请实施例的方法。

通信接口203使用例如但不限于收发器一类的收发模块，来实现计算设备200与其他设备或通信网络之间的通信。例如，可以通过通信接口203获取数据集。

当上述计算设备200包括总线204时，总线204可包括在计算设备200各个部件(例如，存储器201、处理器202、通信接口203)之间传送信息的通路。

根据本申请的还提供了一种计算机存储介质，其上存储有计算机程序，该计算机程序被计算机执行时使得该计算机能够执行上述方法实施例的方法。或者说，本申请实施例还提供一种包含指令的计算机程序产品，该指令被计算机执行时使得计算机执行上述方法实施例的方法。

根据本申请的还提供了一种计算机程序产品或计算机程序，该计算机程序产品或计算机程序包括计算机指令，该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令，处理器执行该计算机指令，使得该计算机设备执行上述方法实施例的方法。

换言之，当使用软件实现时，可以全部或部分地以计算机程序产品的形式实现。该计算机程序产品包括一个或多个计算机指令。在计算机上加载和执行该计算机程序指令时，全部或部分地产生按照本申请实施例该的流程或功能。该计算机可以是通用计算机、专用计算机、计算机网络、或者其他可编程装置。该计算机指令可以存储在计算机可读存储介质中，或者从一个计算机可读存储介质向另一个计算机可读存储介质传输，例如，该计算机指令可以从一个网站站点、计算机、服务器或数据中心通过有线(例如同轴电缆、光纤、数字用户线(digital subscriber line，DSL))或无线(例如红外、无线、微波等)方式向另一个网站站点、计算机、服务器或数据中心进行传输。该计算机可读存储介质可以是计算机能够存取的任何可用介质或者是包含一个或多个可用介质集成的服务器、数据中心等数据存储设备。该可用介质可以是磁性介质(例如，软盘、硬盘、磁带)、光介质(例如数字视频光盘(digital video disc，DVD))、或者半导体介质(例如固态硬盘(solid state disk，SSD))等。

本领域普通技术人员可以意识到，结合本文中所公开的实施例描述的各示例的模块及算法步骤，能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本申请的范围。

在本申请所提供的几个实施例中，应该理解到，所揭露的系统、装置和方法，可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如，该模块的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个模块或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或模块的间接耦合或通信连接，可以是电性，机械或其它的形式。

作为分离部件说明的模块可以是或者也可以不是物理上分开的，作为模块显示的部件可以是或者也可以不是物理模块，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。例如，在本申请各个实施例中的各功能模块可以集成在一个处理模块中，也可以是各个模块单独物理存在，也可以两个或两个以上模块集成在一个模块中。

所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的系统、装置和单元的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。另外，各个方法实施例之间、各个装置实施例之间也可以互相参考，在不同实施例中的相同或对应内容可以互相引用，不做赘述。

Claims

1.一种预训练模型的训练方法，所述预训练模型用于对蛋白质进行特征提取，其特征在于，包括：

基于起始蛋白质的三维结构，构建起始拓扑图G，其中，所述起始拓扑图G采用所述起始蛋白质的氨基酸残基作为节点，所述起始拓扑图G采用邻近氨基酸残基对作为边；和

其中，所述预训练模型包括具有SE(3)等变性的图神经网络。

2.根据权利要求1所述的方法，其特征在于，所述预训练模型在所述具有SE(3)等变性的图神经网络之前设置有注意力层。

3.根据权利要求2所述的方法，其特征在于，所述注意力层为多头注意力层。

4.根据权利要求2或3所述的方法，其特征在于，所述注意力层采用氨基酸残基的特征h，氨基酸残基之间的组合特征g以及氨基酸残基之间的α-碳原子距离r作为输入特征，输出经过更新的氨基酸残基特征h’和α-碳原子坐标s’_i。

5.根据权利要求2所述的方法，其特征在于，所述图神经网络包括选自EGNN、SE(3)-Transformer和Lie-Transformer的至少之一。

6.根据权利要求1所述的方法，其特征在于，对所述预训练模型进行训练包括：

对所述起始拓扑图G施加预先指定的噪声，以便得到至少一个经过扰动的拓扑图G’；和

7.一种对蛋白质进行特征提取的方法，其特征在于，包括：

基于蛋白质的三维结构，构建拓扑图G，其中，所述拓扑图G采用所述蛋白质的氨基酸残基作为节点，所述拓扑图G采用采用邻近氨基酸残基对作为边；

基于所述拓扑图G，提取所述蛋白质的特征向量；

将所述蛋白质的所述特征向量，输入预训练模型，以便获得经过预训练的氨基酸残基特征，所述预训练模型是根据具有三维结构信息的蛋白质数据进行预训练得到的，所述预训练模型包括具有SE(3)等变性的图神经网络。

8.根据权利要求7所述的方法，其特征在于，进一步包括：

9.根据权利要求7所述的方法，其特征在于，所述预训练模型在所述具有SE(3)等变性的图神经网络之前设置有注意力层。

10.根据权利要求9所述的方法，其特征在于，所述注意力层为多头注意力层。

11.根据权利要求9或10所述的方法，其特征在于，

12.根据权利要求1所述的方法，其特征在于，所述图神经网络包括选自EGNN、SE(3)-Transformer和Lie-Transformer的至少之一。

13.一种对蛋白质进行功能预测的方法，其特征在于，包括：

按照权利要求7～12任一项所述的方法，对蛋白质进行特征提取，以便获得预训练特征，所述预训练特征包括氨基酸残基特征和整体蛋白特征的至少之一作为蛋白质的预训练特征；和

利用机器学习模型对所述预训练特征进行处理，以便对所述蛋白质进行功能预测；

其中，所述功能预测包括下列的至少之一：

预测所述蛋白质的生物学功能；

预测所述蛋白质与其他蛋白质之间的结合位点；

预测所述蛋白质与小分子的结合位点；

预测所述蛋白质与其他实体的相互作用性质；和

预测所述蛋白质的成药性。

14.一种训练用于蛋白质的预训练模型的装置，其特征在于，包括：

15.根据权利要求14所述的装置，其特征在于，所述训练单元进一步包括：

16.一种对蛋白质进行特征提取的装置，其特征在于，包括：

17.根据权利要求16所述的装置，其特征在于，进一步包括：

18.一种对蛋白质进行功能预测的装置，其特征在于，包括：

预训练单元，用于按照权利要求7～12任一项所述的方法，对所述蛋白质进行特征提取，以便获得预训练特征，所述预训练特征包括氨基酸残基特征和整体蛋白质特征的至少之一；

19.一种计算设备，其特征在于，包括：处理器和存储器；

所述存储器，用于存储计算机程序；

所述处理器，用于执行所述计算机程序以实现如权利要求1～13任一项所述的方法。

20.一种计算机可读存储介质，其特征在于，所述存储介质包括计算机指令，当所述指令被计算机执行时，使得所述计算机实现如权利要求1～13任一项所述的方法。