CN113936743B

CN113936743B - 一种基于异质ppi网络的蛋白质复合物识别方法

Info

Publication number: CN113936743B
Application number: CN202111341485.7A
Authority: CN
Inventors: 张益嘉; 周佩轩; 王晓旭
Original assignee: Dalian Maritime University
Current assignee: Dalian Maritime University
Priority date: 2021-11-12
Filing date: 2021-11-12
Publication date: 2024-04-26
Anticipated expiration: 2041-11-12
Also published as: CN113936743A

Abstract

本发明提供了一种基于异质PPI网络的蛋白质复合物识别方法，涉及生物信息学的技术领域。本发明使用的异质信息网络表示识别方法可以融入更多的语义信息，从而提升对蛋白质节点特征的表达效果。首先，结合基因本体属性信息和PPI数据构建异构PPI网络。其次，基于构建的网络，采用异构表示学习方法获得蛋白质节点的向量表示，加入了双重注意力机制，可以更好地学习不同种类的每个节点的重要性。最后，本发明提出了一种基于异质网络的复合物识别方法来识别蛋白质复合物。本发明解决了现有的方法只构成了生物信息和蛋白质节点的同质网络，大多忽略了不同类型的节点具有不同的重要性这些问题。

Description

一种基于异质PPI网络的蛋白质复合物识别方法

技术领域

本发明涉及生物信息学技术领域，尤其是涉及一种基于异质PPI网络的蛋白质复合物识别方法。

背景技术

蛋白质复合物是一组蛋白质用物理方式相互作用来组织细胞内的各种生物过程。理解蛋白质复合物的形成是破译细胞机制的关键之一。因此，如何能够准确地识别蛋白质复合物至关重要。

近年来，蛋白质复合物的识别越来越受到生物信息学研究者的重视。从蛋白质相互作用(PPI)网络识别蛋白质复合物的主要方法是基于蛋白质复合物的固有拓扑结构，然而，PPI网络中的蛋白质节点除了直接连接外，还具有各种连接模式，如通过共享公共GO属性节点邻居，具有间接相互连接的可能性，这些结构并没有被充分运用。

此外，多种类型的研究已经证明，引入一些关键的生物信息可以更好地分析蛋白质之间的相关性，提高蛋白质复合物识别的性能。

然而，现有的识别方法大多是基于PPI网络的拓扑结构来引入一些生物信息来分析蛋白质之间的相关性，只构成了生物信息和蛋白质节点的同质网络，大多忽略了不同类型的节点具有不同的重要性，不能准确高效的完成识别蛋白质复合物的任务。

发明内容

有鉴于此，本发明提供了一种基于异质PPI网络的蛋白质复合物识别方法，通过构建异构PPI网络可以比传统的PPI网络具有更丰富的语义信息。通过引入双重注意力机制，它可以为不同的节点和不同的类型分配权重，从而学习到蛋白质节点的嵌入，构建出一个更加精准的加权PPI网络，更好地完成识别蛋白质复合物的任务。

为此，本发明提供了以下技术方案：

一方面，本发明提供了一种基于异质PPI网络的蛋白质复合物识别方法，所述方法包括：

S1、将基因本体论数据库中两种GO属性节点MF和BP与原始的PPI网络融合，构建异质PPI网络；

S2、将MF和BP属性节点分别作为实体，基于在基因本体数据库中对GO属性的短文本描述，使用word2vec学习MF和BP的初始嵌入；对于蛋白质节点，使用其在原始PPI网络中的邻接矩阵作为初始特征；

S3、将提取出的特征输入到异质图卷积网络中，通过双重注意力机制，为每个蛋白质节点的邻居节点分配节点级权重和类型级权重，将节点级权重和类型级权重纳入所述异质图卷积网络中，得到每个蛋白质节点的嵌入；给定一个特定的蛋白质节点，类型级注意力机制用于学习蛋白质类型节点、BP类型GO属性节点和MF类型GO属性节点的权重；节点级注意力机制用于捕获不同相邻节点的重要性，并降低噪声节点的权重；

S4、基于得到的每个蛋白质节点的嵌入，计算所述蛋白质节点之间的相似度，得到加权异质PPI网络，再通过蛋白质复合物的核心-附属结构从加权异质PPI网络中识别出蛋白质复合物。

进一步地，将基因本体论数据库中两种GO属性节点MF和BP与原始的PPI网络融合，包括：根据MF和BP的连接建立蛋白质节点和两种GO属性之间的连接。

进一步地，异质图卷积网络包括：

是/>的子矩阵，其行表示所有节点，列表示其类型为τ的相邻节点；节点H^(l+1)通过聚集来自其相邻节点/>的特征的信息来表示；变换矩阵考虑了不同特征空间的差异，并将不同特征空间的差异投影到隐式公共空间/>

进一步地，将节点级权重和类型级权重纳入所述异质图卷积网络中，，得到每个蛋白质节点的嵌入，包括：

其中，代表注意力矩阵，其在v^th行v^′th列中的元素是节点级别的注意分数，在经过L层后，得到蛋白质在异质网络中的嵌入H^(L)。

进一步地，通过蛋白质复合物的核心-附属结构从加权异质PPI网络中识别出蛋白质复合物，包括：

使用集团挖掘算法枚举所述加权异质PPI网络中至少有三个节点的所有最大派系，将枚举出的派系作为候选核心，得到备选核心集；

修剪备选核心集合以生成种子核心集合；

基于种子核心集合中的小集团和候选的附属节点之间的相关性得分给每个核心检测附属节点，种子核心集合中的小集团和候选的附属节点之间的相关性得分计算如下：

其中蛋白质p_i是相应的核心小集团Clique_j其中一个邻居节点，如果蛋白质p_i和Clique_j之间的相关分数大于阈值θ，p_i被认为是相应Clique的一个附属节点；

结合核心及其附属节点识别出蛋白质复合物。

进一步地，修剪备选核心集合以生成种子核心集合，包括：

将备选核心集合中的蛋白质小集团根据密度分数由高到低排序分别表示为Clique₁，Clique₂,…,Clique_c，密度分数的计算如下：

将Clique₁从备选核心集中移除并将其放入种子核心集合中；

在备选集中剩余的每个小集团Clique_i如果与Clique₁有重合，则去掉公共的蛋白质节点，即Clique_i-Clique₁；如果去掉公共的蛋白质节点之后∣Clique_i∣＜3，则将Clique_i从备选核心集合中移除并将其放入种子核心集合中；

重复以上步骤直到备选核心集合为空时，在种子核心集合里的小集团就是蛋白质复合物的核心。

又一方面，本发明提供了一种计算机可读存储介质，该计算机可读存储介质内存储有计算机指令集，计算机指令集被处理器执行时实现如上述基于异质PPI网络的蛋白质复合物识别方法。

与现有技术相比，本发明的有益效果是：

1)通过构建异构PPI网络，将PPI数据与蛋白质的GO属性信息进行融合，有效地缓解了PPI网络的稀疏性，具有了更加丰富的语义信息。

2)在为网络中的属性节点提取特征时，应用了word2vec词嵌入方法，引入基因本体论数据库中对GO属性节点的文字描述信息，具有更加丰富的实际意义。

3)应用异构图卷积方法并引入双重注意力机制，为每个蛋白质节点的邻居节点分配节点级权重和类型级权重，可以更加准确的得到每个蛋白质节点的嵌入，为蛋白质复合物识别工作打下至关重要的基础。

4)在计算得到的加权PPI网络上，结合蛋白质复合物的core-attachment结构来识别蛋白质复合物。

本发明解决了当前蛋白质复合物识别领域中大多只关注PPI网络的拓扑结构，引入额外的生物属性信息来丰富网络语义的同时没有考虑到不同节点存在异质性这一问题。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图做以简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例中基于异质PPI网络的蛋白质复合物识别方法的流程示意图；

图2为本发明实施例中双重注意力机制的原理图。

具体实施方式

为了使本技术领域的人员更好地理解本发明方案，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分的实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都应当属于本发明保护的范围。

本发明的发明构思主要包括：首先构建了一种异质信息网络来为蛋白质节点和GO属性信息进行建模。然后，提出了一种异质图卷积方法，并基于异构PPI网络学习了蛋白质节点的表示，考虑了不同类型GO信息的异构性。此外，双重注意力机制可以分别学习到MF和BP这两种GO属性的重要性。最后，提出了一种基于异构PPI网络的蛋白质复合物识别方法，利用蛋白质复合物的core-attachment结构识别蛋白质复合物。

如图1所示，其示出了本发明实施例中一种基于异质PPI网络的蛋白质复合物识别方法的流程图，该方法包括以下步骤：

S1、构建异质蛋白质交互网络：

建立PPI异质网络建模的异质信息网络框架，该框架能够集成任何附加信息，并捕获蛋白质节点和附加信息之间的丰富关系。

本发明实施例中考虑两种类型的附加信息，即MF和BP的GO属性节点。构建异质信息网络G＝(V,E)，其中包含蛋白质节点N＝{n₁,...,n_m}，BP类型的GO属性结点P＝{p₁,...,p_k}和MF类型的GO属性节点F＝{f₁,...,f_n}，V＝N∪P∪F。

S2、为异构PPI网络中的节点提取特征：

根据MF和BP的连接建立了蛋白质节点和两种GO属性之间的连接。

将MF和BP属性节点分别作为一个实体，基于基因本体属性库中对于GO属性的短文本描述，使用word2vec学习MF和BP的初始嵌入。对于蛋白质节点，使用它们在PPI网络中的邻接矩阵来表示为初始嵌入，这可以使其包含PPI网络中蛋白质节点之间相互交互的拓扑信息。通过结合MF属性、BP属性和蛋白质节点，丰富了PPI网络的语义。对后续的蛋白质节点嵌入学习任务也有很大的帮助。

S3、蛋白质节点的嵌入：

建立基于新的双层注意力机制的异质图嵌入模型，双重注意力机制的结构如图2所示。

考虑到节点类型的异构性，为了便于理解，首先对异质图嵌入模型中的异质图卷积进行描述。

GCN(Graph Convolutional Network，图卷积网络)是一种多层神经网络，它直接对同质图进行操作，并根据节点邻域的属性来生成节点的嵌入向量。通常来说，对于一个图其中/>和ε分别代表节点和边的集合。/>为节点的特征矩阵，矩阵中的每一行x_v是节点v的特征向量。

对于图引入其邻接矩阵A′＝A+I，并添加自连接和度矩阵M，M_ii＝∑_jA′_ij，然后按层传播，如下所示：

这里，表示对称规范化邻接矩阵W^(l)是一个特定层的可训练变换矩阵。Σ(.)表示激活函数，如ReLU。/>表示l^th层中节点的隐藏表示。H⁽⁰⁾的初始值为X。

然而，由于节点的异质性，GCN不能直接应用于上述构建的异质PPI网络，为了解决这个问题，本发明提出了异质图卷积，它考虑了不同类型信息的差异，并将它们投影到一个隐式公共空间中，其中包含各自的变换矩阵。

是/>的子矩阵，其行表示所有节点，列表示其类型为τ的相邻节点。节点H^(l+1)是通过聚集来自其相邻节点/>的特征的信息来表示的。变换矩阵考虑了不同特征空间的差异，并将它们投影到隐式公共空间Rq^(l+1)。

通常，给定特定节点，不同类型的邻居节点可能会对其产生不同的影响。因此，为了获得更好的性能，本发明中设计了一种新的双层注意机制从节点和类型两方面来捕获节点的权重。

类型级注意力机制：给定一个特定的蛋白质节点，类型级注意力机制用来学习蛋白质类型节点、BP类型GO属性节点和MF类型GO属性节点的权重。具体来说，首先用来表示类型为τ节点的嵌入，它是相邻结点节点/>的总和，其中节点且为τ类型。然后，根据当前节点嵌入h_v和类型嵌入h_τ计算类型级注意分数：

其中，μ_τ是τ类型的注意力向量，||表示将两个向量“串联起来”，σ(·)表示像LeakyReLU.这样的激活函数。然后，通过使用softmax函数对所有类型的注意分数进行归一化力来获得类型级别的注意权重：

节点级注意力机制：节点级注意力机制可以捕获不同相邻节点的重要性，并降低噪声节点的权重。通常，给定类型为τ的节点v和他类型为τ′的邻居节点通过节点v′的嵌入h_v′和它的类型级注意力权重α_τ′来计算节点级注意力权重：

b_vv′＝σ(ν^T·α_τ′[h_v|h_v′]) (5)

其中，ν是注意力向量。

然后，使用softmax函数标准化节点级别的注意分数：

最后，通过将替换为以下分层传播规则，将包括类型级和节点级注意力的双层注意力机制纳入异构图卷积中：

这里，代表注意力矩阵，其在v^th行v^′th列中的元素是公式(6)中的β_vv′，在经过L层后，可以得到蛋白质在异质网络中的嵌入H^(L)。

获得每个蛋白质节点的向量表示φ∈R^d之后，生成一个加权邻接矩阵W∈R^n×n。

如下面公式所示，Cos_sim是基于前面步骤得到的蛋白质节点嵌入来计算两个相连蛋白质之间余弦相似性的函数：

S4、蛋白质复合物识别：

蛋白质复合物通常具有core-attachment结构。基于这一原理，蛋白质复合物识别工作可以分为两个步骤。首先，生成核心节点集合。为了生成核心，使用集团挖掘算法枚举PPI网络中至少有三个节点的所有最大派系。这些派系被视为候选核心，将它们收集到备选核心集中。由于备选核心集中并非所有的派系都适合作为蛋白质复合物的核心，根据以下步骤修剪备选核心集合以生成种子核心集合：

S401、将备选核心集合中的蛋白质小集团根据它们的密度分数由高到低排序分别表示为Clique₁，Clique₂,…,Clique_c.密度分数的计算如下所示

这个密度分数的计算公式同时考虑了内部的连接密度和每个小集团的生物学相关性。

S402、此时，在备选核心集中Clique₁有最大的密度分数。将Clique₁从备选核心集中移除并将其放入种子核心集合中。

S403、从备选集中移除了Clique₁之后，在备选集中剩余的每个小集团Clique_i如果与Clique₁有重合，那么则去掉公共的蛋白质节点，即Clique_i-Clique₁。如果这之后的∣Clique_i∣＜3，则认为这个小集团Clique_i与刚刚选中的小集团Clique₁十分相似，也将Clique_i从备选核心集合中移除。

重复进行以上三个步骤直到备选核心集合为空时，在种子核心集合里的小集团就是蛋白质复合物的核心(core)。

为了给每个core检测附属(attachment)节点，关注core和相应attachment连接之间的拓扑强度和生物连接强度。种子核心集合中的小集团和候选的attachment之间的相关性得分计算如下：

其中蛋白质p_i是相应的核心小集团Clique_j其中一个邻居节点，如果蛋白质p_i和Clique_j之间的相关分数大于阈值θ，p_i被认为是相应Clique的一个attachment。最后，每一种蛋白质复合物都是通过结合core及其attachment而产生的。

本发明实施例中，首先构建异构PPI网络，将PPI数据与蛋白质的GO属性信息进行融合，在为网络中的属性节点提取特征时，应用了word2vec词嵌入方法，引入基因本体论数据库中对GO属性节点的文字描述信息，然后，应用异构图卷积方法并引入双重注意力机制，为每个蛋白质节点的邻居节点分配节点级权重和类型级权重，最后，在计算得到的加权PPI网络上，结合蛋白质复合物的core-attachment结构来识别蛋白质复合物。解决了当前蛋白质复合物识别领域中大多只关注PPI网络的拓扑结构，引入额外的生物属性信息来丰富网络语义的同时没有考虑到不同节点存在异质性这一问题，能够高效准确的完成蛋白质复合物的识别。

本申请实施例还公开了一种计算机可读存储介质，该计算机可读存储介质内存储有计算机指令集，计算机指令集被处理器执行时实现如上文任一实施例所提供的一种基于异质PPI网络的蛋白质复合物识别方法。

在本申请所提供的几个实施例中，应该理解到，所揭露的技术内容，可通过其它的方式实现。其中，以上所描述的装置实施例仅仅是示意性的，例如所述单元的划分，可以为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，单元或模块的间接耦合或通信连接，可以是电性或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本发明各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可为个人计算机、服务器或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、移动硬盘、磁碟或者光盘等各种可以存储程序代码的介质。

最后应说明的是：以上各实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述各实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分或者全部技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的范围。

Claims

1.一种基于异质PPI网络的蛋白质复合物识别方法，其特征在于，所述方法包括：

2.根据权利要求1所述的一种基于异质PPI网络的蛋白质复合物识别方法，其特征在于，将基因本体论数据库中两种GO属性节点MF和BP与原始的PPI网络融合，包括：根据MF和BP的连接建立蛋白质节点和两种GO属性之间的连接。

3.根据权利要求1所述的一种基于异质PPI网络的蛋白质复合物识别方法，其特征在于，异质图卷积网络包括：

是/>的子矩阵，其行表示所有节点，列表示其类型为τ的相邻节点；节点H^(l+1)通过聚集来自其相邻节点/>的特征的信息来表示；变换矩阵/>考虑了不同特征空间的差异，并将不同特征空间的差异投影到隐式公共空间/>

4.根据权利要求3所述的一种基于异质PPI网络的蛋白质复合物识别方法，其特征在于，将节点级权重和类型级权重纳入所述异质图卷积网络中，得到每个蛋白质节点的嵌入，包括：

5.根据权利要求1所述的一种基于异质PPI网络的蛋白质复合物识别方法，其特征在于，通过蛋白质复合物的核心-附属结构从加权异质PPI网络中识别出蛋白质复合物，包括：

修剪备选核心集合以生成种子核心集合；

结合核心及其附属节点识别出蛋白质复合物。

6.根据权利要求1所述的一种基于异质PPI网络的蛋白质复合物识别方法，其特征在于，修剪备选核心集合以生成种子核心集合，包括：

将Clique₁从备选核心集中移除并将其放入种子核心集合中；

7.一种计算机可读存储介质，该计算机可读存储介质内存储有计算机指令集，计算机指令集被处理器执行时实现如权利要求1～6任一项所述的一种基于异质PPI网络的蛋白质复合物识别方法。