CN117393036A

CN117393036A - 一种用于药物-靶点亲和力预测的蛋白多层次语义聚合表征方法

Info

Publication number: CN117393036A
Application number: CN202311487947.5A
Authority: CN
Inventors: 张树刚; 魏志强; 毕祥鹏
Original assignee: Ocean University of China
Current assignee: Ocean University of China
Priority date: 2023-11-09
Filing date: 2023-11-09
Publication date: 2024-01-12

Abstract

本发明提供了一种用于药物‑靶点亲和力预测的蛋白多层次语义聚合表征方法，该方法选择合适的神经网络架构分别对药物分子和靶点蛋白分子进行各自的特征编码，最后将获得药物表征和靶点蛋白表征进行联合表征学习，实现DTA的预测。过程包括药物分子特征提取、靶点蛋白特征提取、亲和力预测、预测结果可解释性方法。本发明构建了一套通用的蛋白语义信息融合框架并设计了两种层次融合策略包括自上而下、自下而上策略，来丰富蛋白质表征，用于亲和力预测任务；本发明提出了一种梯度加权可解释方法，其可以以可视化的方式反映出模型所捕获的蛋白质结合口袋信息，为亲和力预测任务提供一了种可解释途径。

Description

一种用于药物-靶点亲和力预测的蛋白多层次语义聚合表征方法

技术领域

本发明涉及蛋白质功能预测技术领域，特别涉及一种用于药物-靶点亲和力预测的蛋白多层次语义聚合表征方法。

背景技术

药物筛选可以帮助科研人员从大量的化合物中快速筛选出可能具有药理活性或潜在治疗作用的化合物，从而减少试错过程和资源的浪费，提高药物研发的效率。而预测药物-靶点结合亲和力(DTA)又是药物筛选过程中的关键一环，准确高效的预测出药物-靶点之间的结合亲和力将能大大缩短药物筛选过程。然而，基于传统生物实验的方法来确定药物-靶点亲和力需要昂贵的实验成本。近年来，为了打破这种成本上的限制，越来越多的研究将侧重点放在了基于计算机的结合亲和力预测方法上，主要分为：基于分子动力学的分子对接方法和基于数据驱动的深度学习方法。

基于分子动力学的分子对接方法主要是通过在计算机中模拟药物小分子与目标蛋白结构的相互作用，包括刚性对接和柔性对接两种方式。通过对接评分函数来预测药物-靶点对之间的相互作用，从而筛选出具有良好亲和力的药物候选化合物。尽管这种基于分子动力学的分子对接方式对于药物靶点亲和力预测具有良好的预测表现，但是分子对接需要进行大量的计算和模拟，消耗较多的计算资源和时间，对于大规模的药物筛选来说并不适用。

基于数据驱动的深度学习方法通过设计一些可学习的深度神经网络，从数据中直接学习高质量的药物分子以及靶点蛋白表征，例如卷积神经网络(CNN)、循环神经网络(RNN)、Transformer以及图神经网络(GNN)等。基于数据驱动的深度学习方法凭借其低成本、高效率的优势逐渐成为预测药物-靶点亲和力的主流方法。

在应用深度学习实现药物-靶点亲和力预测中，探索一种高效的蛋白质表征方式、提升靶点蛋白表征丰度对于提升预测性能具有重要作用。目前，根据蛋白质表征形式，现有的基于深度学习的药物-靶点亲和力预测方法大致分为三类：基于1D序列、基于2D拓扑结构、基于3D空间结构。

1)基于1D序列的方法：该方法将蛋白质的氨基酸序列视为一个句子，句子中的每个单词即是对应的氨基酸残基。通过将每个氨基酸残基映射为相应的词向量，可以得到整个蛋白质序列的残基表征，进而应用一些处理NLP的神经网络进行序列文本表征的学习。借助这种文本处理形式可以有效的捕获蛋白质序列的文本语义信息。

2)基于2D结构的方法：该方法将氨基酸残基视为节点，通过构建蛋白质残基接触图(Contact map)并将其作为残基之间的边可以将蛋白质结构映射为2D拓扑图的形式。通过在该蛋白质拓扑图上应用图神经网络可以捕获到蛋白质的拓扑语义信息，提升药物-靶点亲和力的预测性能。

3)基于3D结构的方法：为了充分利用蛋白质的空间信息，最近也提出了一些基于三维结构的方法，并显示出了良好的预测性能。它们中的大多数通过将蛋白质结构体素化，然后将残基或原子映射到3D网格上，最后引入3D卷积神经网络来捕获蛋白质的空间语义。

现有的基于深度学习的DTA预测方法对于蛋白质分支的特征提取均是从蛋白质内部出发，提取单个蛋白的表征信息(文本语义信息、拓扑语义信息、3D空间语义信息)，属于一种低阶的语义信息。然而，这些方法忽略了蕴含在生物网络中的实体间的功能联系。近些年来，生物网络作为刻画各生物实体间相互作用的有效方式被广泛用于各种生物信息任务中，其反应了生物系统背后的潜在相互作用规律，属于一种高阶的语义信息。将生物网络中提取的这种高阶语义与分子内部获得的低阶语义相结合，将可能进一步增强模型的表示学习能力，提高模型在DTA任务中的预测性能。然而，近些年来关于这方面的探索仍处于空白阶段，致使现有方法所学习到的蛋白质表征仍缺乏泛化性与丰富性。因此，本发明基于此，致力于探索一种合适的蛋白质高、低阶语义信息表征方法，并在此基础上寻求一套通用的不同尺度语义信息融合框架来提高蛋白质表征丰度。此外，大部分的DTA预测模型的可解释性不强，导致预测结果难以解释、无法指导后续实验设计，因此本发明在设计过程中考虑构建一种具有良好可解释性的DTA预测方法。

发明内容

本发明为了弥补现有技术的不足，提供了一种用于药物-靶点亲和力预测的蛋白多层次语义聚合表征方法。

本发明是通过如下技术方案实现的：一种用于药物-靶点亲和力预测的蛋白多层次语义聚合表征方法，包括以下步骤：

步骤一：药物分子特征提取

首先在药物分支层次，以药物原子为节点，以原子之间的共价键为边，将药物分子构建药物分子图，将构建的药物分子图加载到包含图卷积层的药物GCN编码器中，在最后一层GCN之后增加一个具有全局平均池化层和MLP层的读出块；

步骤二：靶点蛋白特征提取

(1)首先，设计了一种蛋白质层次图来代替传统的靶点蛋白计算建模方式：分别为数据集中的靶点蛋白构建残基尺度的蛋白质残基接触图和蛋白质尺度的蛋白质-蛋白质相互作用网络/>在此基础上进一步构建蛋白质层次图，进行全面的蛋白质表示学习，也即给定一个PPI网络/>该蛋白质层次图与/>共享相同的节点和边集，只是其中的蛋白质节点被该蛋白质的相应的残基图/>所取代；

其中，V_p为蛋白质残基接触图中的节点集合，它的每一个元素代表了一个残基节点；E_p为蛋白质残基接触图/>中的边集合，每一条边指示了两个残基节点之间的三维欧氏距离小于/>即在蛋白质的三维结构中是空间邻近的；V_ppi为PPI网络中的节点集合，每一个元素代表一个蛋白质节点；E_ppi为PPI网络中的边集合，每一条边代表两个蛋白质节点之间存在着相互作用。

(2)其次，依托该蛋白质层次图，借助图神经网络分别提取蛋白质的低阶结构语义信息以及高阶功能语义信息；在此过程中设计了两种通用的语义信息融合策略实现蛋白质语义信息的流动与融合，提升蛋白表征丰度，分别为自上而下和自下而上的层次融合策略；

步骤三：亲和力预测

将最终的药物表征d和蛋白质表征连接起来，得到药物-靶标对表示，然后通过以下方法预测药物-靶标相互作用:

其中MLP是具有三个全连接层的MLP块；

对于DTA任务，采用均方误差损失函数来计算回归损失，其表示为:

其中，为神经网络对于当前药物-靶点对(d,p)之间结合亲和力的预测值，而y_(d,p)为当前药物-靶点对(d,p)的结合亲和力真值。

步骤四：预测结果可解释性方法

使用一个训练好的模型来预测药物靶标对的亲和力得分，然后反向传播亲和力得分，进而可以计算蛋白结构GCN编码器输出的梯度，该梯度可以用来表示特定残基对最终亲和力得分的贡献。

优选的，药物分子特征提取步骤如下：

(1)首先在药物分支层次，以药物原子为节点，原子之间的共价键为边，将药物分子表示为药物分子图其中V_d为药物分子内原子节点的集合，E_d为边集，采用RDKit计算包将SMILES分子串转化为药物图；

(2)将构建的药物分子图加载到包含3个图卷积层的药物GCN编码器/>中，提取药物分子节点嵌入，每一个GCN层可以定义为:

其中H_d为药物GCN层的隐藏特征矩阵,为添加的自环的药物分子图邻接矩阵，A_d为药物分子图的节点邻接矩阵，I_n为与A_d具有相同维大小的单位矩阵，D为对角度矩阵，σ为激活函数ReLU,W^(l)为第l层GCN的可学习权重矩阵，l表示GCN的层数；

(3)为了得到最终的药物表示d，在最后一层GCN之后增加一个具有全局平均池化层和MLP层的读出块，表示为:

其中h_d,i为药物分子图中某个原子节点的最终嵌入表示，N_d为药物分子中的原子数，i为药物分子中的原子索引。

优选的，自下而上融合策略为：

在该策略中，从蛋白质残基图中提取的蛋白质图嵌入q作为PPI图/>中同一蛋白质的初始节点特征，进行进一步的监督学习，得到最终的节点嵌入h_ppi，这种策略使蛋白质残基图中的结构语义信息流动并融合到PPI图中，因此称之为自下而上。该过程表示为：

其中，φ和ψ分别表示施加在蛋白质图和PPI图上的映射函数，Sta(·)表示对所有蛋白质图嵌入q进行叠加运算，得到初始PPI图的节点特征矩阵X′_ppi。

优选的，自下而上融合策略具体过程如下：

(1)借助一个GCN编码器从蛋白质残基图中提取残基嵌入，该编码器包括三个独立的GCN层，表示为如下方程:

其中H_p为蛋白质残基图在GCN层中的隐藏特征矩阵，A_p为残基图的邻接矩阵，

该GCN编码器块通过聚合邻居节点特征迭代地进行特征平滑，使拓扑相邻的残基具有相似的节点嵌入，最终获得结构感知的残基嵌入；然后，使用一个读出块来获得蛋白质残基图的图嵌入q；

(2)将所有含有低阶结构语义信息的蛋白质残基图嵌入q堆叠成一个矩阵，并将作为PPI图的初始特征矩阵：

其中为PPI图的隐藏特征矩阵，N_ppi表示PPI网络中的蛋白质节点个数，q_i为第i个蛋白质的蛋白质图嵌入，i取值范围为1到N_ppi间的整数。该操作将使PPI图中每个蛋白质节点的初始特征隐式地包含结构语义信息；在此基础上，再借助另一个GCN编码器块通过PPI图中的相互作用边E_ppi平滑节点表示，使一组功能相似的蛋白质在特征空间上更加接近。平滑过程如下所示:

其中，为PPI图的归一化邻接矩阵，Z为与A_ppi具有相同维数的随机二值矩阵，⊙为逐元素乘法，该GCN编码器只包含两个GCN层，W⁽⁰⁾为第一层GCN中的可学习权重矩阵，W⁽¹⁾为第二层GCN中的可学习权重矩阵，Z⁽⁰⁾为第一个GCN层中的随机二值矩阵，Z⁽¹⁾为第二个GCN层中的随机二值矩阵；此外，该编码器还引入了一个DropEdge正则化项，以进一步缓解节点表征的过度平滑。该正则化项表示为一个随机二值矩阵Z，其元素为伯努利分布的随机采样；

最后，对PPI图最后的节点嵌入h_ppi进行线性变换，得到最终的蛋白质表示如下所示：

其中w是线性参数，b是偏置项。

优选的，自上而下融合策略如下：

该策略通过对PPI图的学习，首先计算PPI图的节点嵌入h_ppi，使学习到的h_ppi包含高阶功能语义信息，然后将该蛋白质的h_ppi输入到相应低阶蛋白质残基图的所有残基特征上，形成自上而下的融合方式；上述过程表示为:

其中Com(·)表示一种特殊的特征组合操作，其中X_ppi为PPI网络的初始节点特征矩阵，X_p为蛋白质残基接触图的初始节点特征矩阵，X′_p是将计算得到的PPI图节点嵌入h_ppi融合进蛋白质残基接触图的初始特征矩阵后得到的残基接触图的新特征矩阵。

自上而下融合策略具体如下：

首先在PPI图上利用一个GCN编码器块提取蛋白质的功能语义信息，这个编码器块包括两个GCN层和一个DropEdge正则化项。是由InterPro API计算得到的属于蛋白尺度的特征，其中，代表了一个实数域上的向量空间，上角标N_ppi×D_ppi表示了该向量空间的维度大小，N_ppi为PPI网络的节点数量，D_ppi代表了PPI网络中节点特征的维度大小。

其次，在得到PPI图中的最终节点嵌入h_ppi后，采用一种特征组合运算Com(·)将h_ppi融合到蛋白质残基图的特征矩阵X_p中，公式如下:其中/>和/>表示向量的元素相加和元素相减，∥表示向量拼接，x_p表示原始残基特征；对蛋白质图中的所有残基进行特征组合运算后，得到一个新的特征矩阵X′_p，该矩阵中将包含来自PPI图的功能语义信息；

最后，对蛋白质残基图应用一个GCN编码器和一个图池化层，得到最终的蛋白嵌入/>

与现有技术相比，本发明的有益之处为：

1.本发明构建了蛋白质层次图，并从中分别提取蛋白的结构语义信息和功能语义信息，用于亲和力预测任务。

2.本发明构建了一套通用的蛋白语义信息融合框架并设计了两种层次融合策略(自上而下、自下而上策略)来丰富蛋白质表征，用于亲和力预测任务。

3.本发明提出了一种梯度加权可解释方法，其可以以可视化的方式反映出模型所捕获的蛋白质结合口袋信息，为亲和力预测任务提供一了种可解释途径。

附图说明

下面结合附图对本发明进一步的说明。

图1为本发明总体技术路线图；

图2为本发明层次融合策略示意图：(1)自下而上的融合示意(2)自上而下的融合示意；

图3为本发明可解释性示意图。

具体实施方式

下面结合附图对本发明进行详细的描述。

基于深度学习的药物-靶点结合亲和力预测通常采用双编码器架构，即选择合适的神经网络架构分别对药物分子和靶点蛋白分子进行各自的特征编码，最后将获得药物表征和靶点蛋白表征进行联合表征学习，实现DTA的预测。过程包括药物分子特征提取、靶点蛋白特征提取、亲和力预测、预测结果可解释性方法。

以下将分别从药物分子特征提取、靶点蛋白特征提取、亲和力预测以及预测结果可解释性方法四个方面展开介绍。

实施例1

药物分子特征提取：

1、首先在药物分支层次，本发明以药物原子为节点，原子之间的共价键为边，将药物分子表示为药物分子图其中V_d为药物分子内原子节点的集合，E_d为边集。采用RDKit计算包将SMILES分子串转化为药物图。

2、将构建的药物分子图加载到包含3个图卷积层(GCN)的药物GCN编码器中，提取药物分子节点嵌入。每一个GCN层可以定义为:

3、其中H_d为药物GCN层的隐藏特征矩阵,为添加的自环的药物分子图邻接矩阵，D为对角度矩阵，σ为激活函数ReLU,W^(l)为第l层GCN的可学习权重矩阵。

4、然后，为了得到最终的药物表示d，在最后一层GCN之后增加一个具有全局平均池化层和MLP层的读出块，表示为:

其中h_d,i为药物分子图的最终节点嵌入，N_d为药物分子中的原子数。

实施例2

靶点蛋白特征提取

在靶点蛋白分支上，为了解决现有基于深度学习的药物-靶点亲和力预测方法对蛋白质表征信息单一、可解释性不强的问题，本次发明创新性的提出了一套通用的蛋白语义信息融合框架，并在此基础上提出了一种药物-靶点亲和力预测的可解释方法。主要技术方案如下：

1、首先，设计了一种蛋白质层次图来代替传统的靶点蛋白计算建模方式(序列、结构)：分别为数据集中的靶点蛋白构建残基尺度的蛋白质残基接触图和蛋白质尺度的蛋白质-蛋白质相互作用网络/>在此基础上可以进一步构建蛋白质层次图，进行全面的蛋白质表示学习，也即给定一个PPI网络/>该蛋白质层次图与/>共享相同的节点和边集，只是其中的蛋白质节点被该蛋白质的相应的残基图/>所取代

2、其次，依托该蛋白质层次图，借助图神经网络分别提取蛋白质的低阶结构语义信息以及高阶功能语义信息。在此过程中本发明设计了两种通用的语义信息融合策略实现蛋白质语义信息的流动与融合，提升蛋白表征丰度，分别为自上而下和自下而上的层次融合策略。

1)自下而上融合策略

在该策略中，从蛋白质残基图中提取的蛋白质图嵌入q作为PPI图/>中同一蛋白质的初始节点特征，进行进一步的监督学习，得到最终的节点嵌入h_ppi。换句话说，这种策略使蛋白质残基图中的结构语义信息流动并融合到PPI图中，因此我们称之为自下而上。该过程可表示为：

其中φ和ψ分别表示施加在蛋白质图和PPI图上的映射函数，Sta(·)表示对所有蛋白质图嵌入q进行叠加运算，得到初始PPI图的节点特征矩阵X′_ppi。

具体来说，首先借助一个GCN编码器从蛋白质残基图中提取残基嵌入。该编码器包括三个独立的GCN层，可表示为如下方程:

其中H_p为蛋白质残基图在GCN层中的隐藏特征矩阵，A_p为残基图的邻接矩阵。

该GCN编码器块通过聚合邻居节点特征迭代地进行特征平滑，使拓扑相邻的残基具有相似的节点嵌入，最终获得结构感知的残基嵌入。然后，使用一个读出块来获得蛋白质残基图的图嵌入q。

然后，将所有含有低阶结构语义信息的蛋白质残基图嵌入q堆叠成一个矩阵，并将作为PPI图的初始特征矩阵：

其中为PPI图的隐藏特征矩阵，q_i为第i个蛋白质的蛋白质图嵌入。该操作将使PPI图中每个蛋白质节点的初始特征隐式地包含结构语义信息。在此基础上，我们再借助另一个GCN编码器块/>通过PPI图中的相互作用边E_ppi平滑节点表示，使一组功能相似的蛋白质在特征空间上更加接近。平滑过程如下所示:

其中，为PPI图的归一化邻接矩阵，Z为与A_ppi具有相同维数的随机二值矩阵，⊙为逐元素乘法。考虑到构建的PPI图的规模较小，该GCN编码器只包含两个GCN层。此外，该编码器还引入了一个DropEdge正则化项，以进一步缓解过度平滑。该正则化项可以表示为一个随机二值矩阵Z，其元素为伯努利分布的随机采样。

其中w是线性参数，b是偏置项。

2)自上而下融合策略

本发明还提出了另一种分层融合策略，即自上而下策略。该策略通过对PPI图的学习，首先计算PPI图的节点嵌入h_ppi，使学习到的h_ppi包含高阶功能语义信息。然后将该蛋白质的h_ppi输入到相应低阶蛋白质残基图的所有残基特征上，形成自上而下的融合方式。上述过程可表示为:

其中Com(·)表示一种特殊的特征组合操作，将在后面详细介绍。

具体来说，首先在PPI图上利用一个GCN编码器块提取蛋白质的功能语义信息。这个编码器块包括两个GCN层和一个DropEdge正则化项，但是是由InterPro API计算得到的属于蛋白尺度的特征。其次，在得到PPI图中的最终节点嵌入h_ppi后，采用一种特征组合运算Com(·)将h_ppi融合到蛋白质残基图的特征矩阵X_p中，公式如下:

其中和/>表示向量的元素相加和元素相减，||表示向量拼接，x_p表示原始残基特征。对蛋白质图中的所有残基进行特征组合运算后，我们得到一个新的特征矩阵X′_p，该矩阵中将包含来自PPI图的功能语义信息。

实施例3

亲和力预测

其中MLP是具有三个全连接层的MLP块。

对于DTA任务，采用均方误差(Mean Squared Error,MSE)损失函数来计算回归损失，其表示为:

实施例4

预测结果可解释性方法

药物和靶标之间的相互作用通常发生在蛋白质表面的特定区域(通常称为结合口袋)，而不是整个蛋白质。因此，准确捕获蛋白质口袋信息对于预测药物-靶标相互作用至关重要，其也可以作为模型优劣和可解释性的合理指标。为了评估我们提出的模型学习蛋白质口袋信息的能力，我们使用Grad-AMM技术进行了可视化分析。具体来说，我们使用一个训练好的模型来预测药物靶标对的亲和力得分，然后反向传播亲和力得分，进而可以计算蛋白结构GCN编码器输出的梯度，该梯度可以用来表示特定残基对最终亲和力得分的贡献。

综上所述：

1)本发明构建了一种蛋白质层次图，并借助该层次图首次提取了靶点蛋白在不同尺度下的语义信息，突破了现有方法仅从蛋白质内部提取低阶语义表征的限制。

2)本发明首创性的提供了一套通用的语义信息融合框架，并提出了两种不同的语义信息层次融合策略，其可有效的融合不同尺度的蛋白语义信息，进而丰富蛋白质表征，提升了药物-靶点亲和力预测的准确性与泛化性。

3)此外，大部分的DTA预测模型的可解释性不强，本发明在设计过程中创新性地提出了一种梯度加权可解释方法，可以捕获一定的蛋白质结合口袋信息，为DTA预测模型提供了一种良好的可解释性方法。

本发明中的实施例仅用于对本发明进行说明，并不构成对权利要求范围的限制，本领域内技术人员可以想到的其他实质上等同的替代，均在本发明保护范围内。

Claims

1.一种用于药物-靶点亲和力预测的蛋白多层次语义聚合表征方法，其特征在于，包括以下步骤：

步骤一：药物分子特征提取

步骤二：靶点蛋白特征提取

步骤三：亲和力预测

其中MLP是具有三个全连接层的MLP块；

步骤四：预测结果可解释性方法

2.根据权利要求1所述的方法，其特征在于，药物分子特征提取步骤如下：

其中H_d为药物GCN层的隐藏特征矩阵,为添加的自环的药物分子图邻接矩阵，A_d为药物分子图的节点邻接矩阵，I_n为与A_d具有相同维大小的单位矩阵，D为对角度矩阵，σ为激活函数ReLU,W^(l)为第l层GCN的可学习权重矩阵l表示GCN的层数；

其中h_d,i为药物分子图的最终节点嵌入，N_d为药物分子中的原子数，i为药物分子中的原子索引。

3.根据权利要求1所述的方法，其特征在于，自下而上融合策略为：

4.根据权利要求3所述的方法，其特征在于：自下而上融合策略具体过程如下：

其中为PPI图的隐藏特征矩阵，N_ppi表示PPI网络中的蛋白质节点个数，q_i为第i个蛋白质的蛋白质图嵌入，i取值范围为1到N_ppi间的整数。该操作将使PPI图中每个蛋白质节点的初始特征隐式地包含结构语义信息；在此基础上，再借助另一个GCN编码器块/>通过PPI图中的相互作用边E_ppi平滑节点表示，使一组功能相似的蛋白质在特征空间上更加接近。平滑过程如下所示:

其中，为PPI图的归一化邻接矩阵，Z为与A_ppi具有相同维数的随机二值矩阵，⊙为逐元素乘法，该GCN编码器只包含两个GCN层，W⁽⁰⁾为第一层GCN中的可学习权重矩阵，W⁽¹⁾为第二层GCN中的可学习权重矩阵，Z⁽⁰⁾为第一个GCN层中的随机二值矩阵，Z⁽¹⁾为第二个GCN层中的随机二值矩阵；此外，该编码器还引入了一个DropEdge正则化项，以进一步缓解过度平滑。该正则化项表示为一个随机二值矩阵Z，其元素为伯努利分布的随机采样；

其中w是线性参数，b是偏置项。

5.根据权利要求1所述的方法，其特征在于，自上而下融合策略如下：

6.根据权利要求5所述的方法，其特征在于，自上而下融合策略具体如下：

首先在PPI图上利用一个GCN编码器块提取蛋白质的功能语义信息，这个编码器块包括两个GCN层和一个DropEdge正则化项，/>是由InterPro API计算得到的属于蛋白尺度的特征，其中，/>代表了一个实数域上的向量空间，上角标N_ppi×D_ppi表示了该向量空间的维度大小，N_ppi为PPI网络的节点数量，D_ppi代表了PPI网络中节点特征的维度大小；

其次，在得到PPI图中的最终节点嵌入h_ppi后，采用一种特征组合运算Com(·)将h_ppi融合到蛋白质残基图的特征矩阵X_p中，公式如下:

其中和/>表示向量的元素相加和元素相减，∥表示向量拼接，x_p表示原始残基特征；对蛋白质图中的所有残基进行特征组合运算后，得到一个新的特征矩阵X′_p，该矩阵中将包含来自PPI图的功能语义信息；