CN111916149A

CN111916149A - 基于层次聚类的蛋白质相互作用网络全局比对方法

Info

Publication number: CN111916149A
Application number: CN202010838335.6A
Authority: CN
Inventors: 陈璟; 田盼盼
Original assignee: Jiangnan University
Current assignee: Jiangnan University
Priority date: 2020-08-19
Filing date: 2020-08-19
Publication date: 2020-11-10
Anticipated expiration: 2040-08-19
Also published as: CN111916149B

Abstract

本发明公开了一种基于层次聚类的蛋白质相互作用网络全局比对方法，包括：获取两个生物网络的数据及序列相似性文件，节点i、节点j分别属于两个网络，考虑节点本身以及邻居节点的拓扑特征计算节点对(i,j)间的拓扑相似性得分T(i,j)，根据序列相似性文件计算序列相似性得分B(i,j)，结合T(i,j)和B(i,j)计算节点相似性得分S(i,j)；采用层次聚类算法和组合优化算法筛选种子；计算种子的邻居节点的结构相似性得分score(i,j)，根据score(i,j)扩展种子得到扩展集；构建二分图比对剩余节点对，合并得到比对集。本发明更全面地计算T(i,j)，筛选种子并扩展、合并，提高比对结果的拓扑性能且覆盖范围更广；采用层次聚类算法和组合优化算法筛选种子，提升拓扑性能的同时保证生物性能，提高效率。

Description

基于层次聚类的蛋白质相互作用网络全局比对方法

技术领域

本发明涉及生物信息学中对蛋白质相互作用网络的分析领域，具体涉及一种基于层次聚类的蛋白质相互作用网络全局比对方法。

背景技术

蛋白质相互作用(PPI，Protein-protein interaction)是指蛋白质分子之间的相关性，并从生物化学、信号转导和遗传网络的角度研究这种相关性。近年来，随着高通量筛选技术的发展，通过实验方法检测到蛋白质相互作用的数量有了大幅度增加，形成了越来越多的蛋白质相互作用网络。对蛋白质相互作用网络的分析能够增进对生物学过程的理解，不同物种间相互作用组的比对在蛋白质功能预测、保守功能成分检测、物种间知识转移等方面有着重要意义。因此，将两个蛋白质相互作用网络进行一对一比对，在两个网络中找到节点间的最佳映射关系得到了越来越多的研究。

常见的两个网络间的比对方法有二步算法和基于目标函数的搜索算法。二步算法分为两步进行，第一步是计算输入网络间的节点相似性，构建节点得分矩阵；第二步是节点相似性得分为权重，构建二分图，利用贪心或其他算法求解二分图的最大加权匹配问题，从而得到比对结果。基于目标函数的搜索算法是先构建目标函数，以目标函数为优化目标，用搜索算法不断调整比对结果以产生更优解。目标函数一般由拓扑相似性和生物相似性构成，拓扑相似性计算节点在网络结构上的相似性，现有的计算方法有计算度、Importance等；生物相似性可以是序列相似性，例如BLAST bit score、BLAST E-value等，也可以是功能相似性，利用蛋白质的GO(Gene ontology，基因本体论)术语计算节点间的语义相似性以此比较蛋白质的功能相似性。SPINAL(见文献SPINAL:scalable protein interactionnetwork alignment.[J].Bioinformatics,2013)方法将比对过程被分为粗粒度阶段和细粒度阶段，在粗粒度阶段，构建邻域二分图计算节点间的相似性；在细粒度阶段，先选择相似性得分最高的节点对为种子，先比对上种子节点，以当前比对集合中的节点对构建邻域二分图，以节点相似性为权重，寻找最大加权匹配，对匹配结果做局部优化找到最佳匹配结果并将比对结果添加到比对集合中，得到最终比对。但此方法对节点的拓扑信息研究不充分，导致比对结果中拓扑结果较差。ModuleAlign(见文献Somaye H,Jianzhu M,Hammad N,et al.ModuleAlign:module-based global alignment of protein–proteininteraction networks[J].Bioinformatics(17):i658-i664)方法首先利用HAC-ML算法划分网络模块，基于模块计算节点间的同源得分，将同源得分与节点对的拓扑得分Importance结合构成节点的比对得分矩阵。然后分两步开始比对：第一步，利用匈牙利算法计算网络中节点间的最佳匹配，以此比对拓扑和功能一致的蛋白质；第二步，通过更新比对得分来最大化进化保守相互作用的数量，重复此过程直至小网络中的节点都被比对上。这种方法利用模块化的思想来计算节点间的同源得分，但模块化的选择不适合，导致其生物性能较差，且运行时间较长、效率低。PROPER(见文献ROPER:global proteininteractionnetwork alignment through percolationmatching,BMC bioinformatics,2016,17(1):527)方法首先根据序列相似性筛选部分得分较高的节点对为种子节点，接着根据种子计算其邻居节点的结构相似性，选择得分最高的节点对扩展至比对集合，再对新添加的比对节点对计算其邻居节点的结构相似性，重复上述过程直到没有可选择的节点对。这种方法在筛选种子时，仅依靠序列信息，但序列信息存在不完整性，会导致比对错误；并且扩展过程不能覆盖到小网络中的所有节点，存在部分节点应该被比对上却未比对上的问题，拓扑性能不好。

发明内容

本发明要解决的技术问题是提供一种对两个蛋白质相互作用网络进行比对，在保证生物性能的同时提升拓扑性能，提高效率及扩大比对覆盖范围的基于层次聚类的蛋白质相互作用网络全局比对方法。

为解决上述技术问题，本发明提供了一种基于层次聚类的蛋白质相互作用网络全局比对方法，包括以下步骤：

步骤1：输入两个生物网络G₁、G₂，获取网络结构数据及其序列相似性文件，将蛋白质看做节点，节点i、节点j分别属于两个网络，考虑节点本身以及邻居节点的拓扑特征计算节点对间的拓扑相似性得分T(i,j)，根据序列相似性文件计算节点对的序列相似性得分B(i,j)，结合拓扑相似性得分T(i,j)和序列相似性得分B(i,j)计算节点相似性得分S(i,j)；

步骤2：采用层次聚类算法提取功能模块，采用组合优化算法比对功能模块，筛选出节点对作为种子；

步骤3：计算种子的邻居节点的结构相似性得分score(i,j)，根据score(i,j)选择节点对加入种子集合，不断扩展种子直到覆盖所有可能的节点对，得到扩展集；

步骤4：构建二分图对剩余节点对比对，将比对结果合并到扩展集中，得到最终的比对集，即为最终找出的网络G₁、G₂中节点间的一对一的映射关系的集合。

进一步地，所述步骤1中结合拓扑相似性和序列相似性构成节点相似性的步骤为：

步骤1-1：获取两个输入网络G₁＝(V₁,E₁)，G₂＝(V₂,E₂),V₁、V₂表示节点集合，节点表示蛋白质；E₁、E₂表示边集合，边表示蛋白质间的相互作用；N(i)、N(j)为节点i和节点j的直接相连的邻居节点的集合。拓扑相似性得分考虑了节点本身和节点的邻居节点的拓扑相似性，计算节点i、j的拓扑相似性得分T(i,j)的过程如下：

首先，初始化T⁰(i,j)＝1；其次，构建二分图G_b＝(V_b,E_b)，其中V_b由N(i)的节点和N(j)的节点的两个不相交集合组成，E_b中的边(i',j')由N(i)、N(j)中节点所有可能的连接组成，其中i'∈N(i)，j'∈N(j)，边的权重w(i',j')＝T^t(i',j')；接着，找到G_b的匹配集合M；最后，计算该匹配M对应的T^t+1(i,j)值：

其中，d(i)、d(j)表示节点i、j的度，MaxD表示在G₁、G₂所有节点中度的最大值，t是预设的迭代次数，θ是平衡邻居节点和节点本身拓扑相似性比重的参数，0≤θ≤1。多次迭代后，T^t+1(i,j)的最终值T(i,j)即为节点的拓扑相似性得分；

步骤1-2：根据序列相似性文件计算节点对的序列相似性得分B(i,j)：

其中，blast(i,j)表示节点i、j之间的BLAST bit-score得分，即序列相似性文件中的值；Minb表示G₁、G₂网络中节点对的BLAST bit-score得分的最小值，Maxb表示网络中节点对的BLAST bit-score得分的最大值；

步骤1-3：结合拓扑相似性得分T(i,j)和序列相似性得分B(i,j)，计算节点相似性得分S(i,j)：

S(i,j)＝α×B(i,j)+(1-α)×T(i,j)

其中，α是平衡拓扑和序列权重的参数，0≤α≤1。

进一步地，所述步骤1-1中找到G_b的匹配集合M的方法为采用贪心算法，具体过程为先选中权重最大的边加入到匹配集合M中，其中每一条边对应一组节点的映射关系，再删除这条边连接的两个节点及其相连的其他边，接着重复上述步骤，直到图中没有可选择的边，则比对结束，得到最终的匹配集合M。

进一步地，所述步骤2中采用的组合优化算法为匈牙利算法。

进一步地，所述步骤2中筛选种子节点对的具体过程如下：

步骤2-1：采用层次聚类方法从网络中提取功能模块，将每个网络构成的图中连接密集的且具有相似功能的子图划分为功能模块；

步骤2-2：根据功能模块内的节点相似性得分S(i,j)，将功能模块中节点相似性得分S(i,j)之和的最大值组成两个网络中提取出的各个功能模块间的相似性得分，即所有模块间的相似性之和最大时的一种模块对应关系；

步骤2-3：利用匈牙利算法对各个功能模块间的相似性得分进行处理，得到最佳功能模块匹配结果，即各个功能模块间的相似性得分的排序集合，并筛选出节点对作为种子。

进一步地，所述步骤2-1中采用的层次聚类算法为Jerarca算法，具体为先计算节点间的加权距离，接着将距离矩阵转换成层次结构树，最后根据模块内和模块间节点连接分布进行最优层次划分得到功能模块，以此将每个网络构成的图中连接密集的且具有相似功能的子图划分为功能模块。

进一步地，所述步骤2-3中筛选出节点对作为种子，其中筛选出的种子为最佳模块匹配结果中前15％的节点。

进一步地，所述步骤3中不断扩展种子直到覆盖所有可能的节点，具体过程为：

步骤3-1：将与种子节点直接连接的且跨度为1的节点集合作为邻居节点，计算种子中各节点对的邻居节点的结构相似性得分score(i,j)，将种子节点作为匹配集，score(i,j)为该节点对中其邻居节点对中属于种子的节点对数；

步骤3-2：选择结构相似性得分score(i,j)最大的节点对添加到匹配集；

步骤3-3：更新匹配集中各节点对的邻居节点的结构相似性得分score(i,j)；

步骤3-4：重复步骤3-2和步骤3-3，直到覆盖所有可能的节点，得到扩展集。

进一步地，所述步骤3-2中选择结构相似性得分score(i,j)最大的节点对添加到匹配集时，若存在多个节点对满足此条件，则进一步计算这几个节点对的度差值，选择度差值最小的节点对加入；若最小度差值也有多个节点对，则从最小度差值的节点对中找节点相似性得分S(i,j)最高的节点对添加到匹配集。

进一步地，所述步骤4中构建二分图对剩余节点比对的过程为：

步骤4-1：查找出两个生物网络G₁、G₂中不属于扩展集的节点，构建二分图G_b'，图中所有边的权重为该节点对的节点相似性得分S(i,j)；

步骤4-2：选择二分图G_b'中权重最大的边，若此边对应的节点对均未在扩展集中出现过，则将该节点对添加到扩展集中，同时删除该节点对在二分图G_b'中的相应节点对和相关的边，剩余节点对和边保持不变；

步骤4-3：重复步骤4-2，直到二分图G_b'中无可选择的节点对存在，比对结束，得到最终的比对集。

本发明的有益效果：

通过同时考虑节点本身以及邻居节点的拓扑特征，更全面地计算节点对的拓扑相似性得分；通过结构相似性得分对种子进行扩展，并在扩展后对剩余节点构建二分图，进行最大加权匹配并合并，使得所有节点都有参加比对的机会，提高比对的拓扑性能，产生更多的比对节点数、覆盖范围更广。

通过采用层次聚类算法提取功能模块，采用组合优化算法比对功能模块，从密集模块中筛选种子，减少了种子筛选错误的影响，提升拓扑性能的同时保证了生物性能，有效提高了对比效率。

上述说明仅是本发明技术方案的概述，为了能够更清楚了解本发明的技术手段，并可依照说明书的内容予以实施，以下以本发明的较佳实施例并配合附图详细说明如后。

附图说明

图1是本发明的流程图。

具体实施方式

下面结合附图和具体实施例对本发明作进一步说明，以使本领域的技术人员可以更好地理解本发明并能予以实施，但所举实施例不作为对本发明的限定。

术语“包括”意图在于覆盖不排他的包含，例如包含了一系列步骤或单元的过程、方法、系统、产品或设备，没有限定于已列出的步骤或单元而是可选地还包括没有列出的步骤或单元，或可选地还包括对于这些过程、方法、产品或设备固有的其他步骤或单元。

参照图1本发明的流程图，一种基于层次聚类的蛋白质相互作用网络全局比对方法的实施例，包括以下步骤：

步骤1：输入两个生物网络G₁、G₂，获取网络数据，即网络中需要比对的两个物质的结构信息及序列相似性文件，序列相似性文件是从生物角度可以找到的蛋白质序列间的相似性得分，输入的是由节点间的BLAST bit-score得分构成的相似性文件，将蛋白质看做节点，节点i、节点j分别属于两个网络。考虑节点本身以及邻居节点的拓扑特征计算节点对间的拓扑相似性得分T(i,j)，根据序列相似性文件计算节点对的序列相似性得分B(i,j)，结合拓扑相似性得分T(i,j)和序列相似性得分B(i,j)计算节点相似性得分S(i,j)。

步骤1-1：两个输入网络G₁＝(V₁,E₁)，G₂＝(V₂,E₂),V₁、V₂表示节点集合，节点表示蛋白质；E₁、E₂表示边集合，边表示蛋白质间的相互作用；N(i)、N(j)为节点i和节点j的直接相连的邻居节点的集合。拓扑相似性得分考虑了节点本身和节点的邻居节点的拓扑相似性，计算节点i、j的拓扑相似性得分T(i,j)的过程如下：

首先，初始化T⁰(i,j)＝1；其次，构建二分图G_b＝(V_b,E_b)，其中V_b由N(i)的节点和N(j)的节点的两个不相交集合组成，E_b中的边(i',j')由N(i)、N(j)中节点所有可能的连接组成，其中i'∈N(i)，j'∈N(j)，边的权重w(i',j')＝T^t(i',j')；接着，用贪心算法找到G_b的匹配集合M，具体过程是先选中权重最大的边加入到匹配集合M中，其中每一条边对应一组节点的映射关系，再删除这条边连接的两个节点及其相连的其他边，接着重复上述步骤，直到图中没有可选择的边，则比对结束，得到最终的匹配集合M；最后，计算该匹配M对应的T^t+1(i,j)值：

其中，d(i)、d(j)表示节点i、j的度，MaxD表示在G₁、G₂所有节点中度的最大值，t是迭代次数，本实施例中，设置的设迭代次数为2，达到迭代次数，计算结束，θ是平衡邻居节点和节点本身拓扑相似性比重的参数，本实施例中，设置的θ值为0.5。多次迭代后，T^t+1(i,j)的最终值T(i,j)即为节点的拓扑相似性得分。

其中，blast(i,j)表示节点i、j之间的BLAST bit-score得分，即序列相似性文件中的值；Minb表示G₁、G₂网络中节点对的BLAST bit-score得分的最小值，Maxb表示网络中节点对的BLAST bit-score得分的最大值。

S(i,j)＝α×B(i,j)+(1-α)×T(i,j)

其中，α是平衡拓扑和序列权重的参数，本实施例中，设置的α值为0.4。

步骤2：利用层次聚类算法从网络中提取功能模块，采用匈牙利算法比对功能模块，筛选出节点对作为种子。

步骤2-1：利用Jerarca(见文献ALDECOA R,MARIN I.Jerarca:efficientanalysis of complex networks using hierarchical clustering[J].Plos One,2010,5(7):e11585)层次聚类方法提取功能模块，首先计算节点间的加权距离，接着将距离矩阵转换成层次结构树，最后根据模块内和模块间节点连接分布进行最优层次划分得到功能模块，以此将每个网络构成的图中连接密集的且具有相似功能的子图划分为功能模块。

步骤2-2：根据功能模块内的节点相似性得分S(i,j)，将功能模块中节点相似性得分S(i,j)之和的最大值组成两个网络中提取出的各个功能模块间的相似性得分，即所有模块间的相似性之和最大时的一种模块对应关系。

步骤2-3：利用匈牙利算法对各个功能模块间的相似性得分进行处理，得到最佳功能模块匹配结果，即各个功能模块间的相似性得分的排序集合，并从中筛选出前15％的节点对作为种子。

步骤3-1：将与种子节点直接连接的且跨度为1的节点集合作为邻居节点，计算种子中各节点对的邻居节点的结构相似性得分score(i,j)，将种子节点作为匹配集。score(i,j)为该节点对中其邻居节点对中属于种子的节点对数，本实施例中，对于节点对(i,j),当且仅当(i,i')∈E₁，(j,j')∈E₂，则(i',j')∈V₁×V₂是节点对(i,j)的邻居节点对。

步骤3-2：选择结构相似性得分score(i,j)最大的节点对添加到匹配集；若存在多个节点对满足此条件，则进一步计算这几个节点对的度差值，选择度差值最小的节点对加入；若最小度差值也有多个节点对，则从最小度差值的节点对中找节点相似性得分S(i,j)最高的节点对添加到匹配集。

步骤3-3：更新匹配集中各节点对的邻居节点的结构相似性得分score(i,j)。

步骤3-4：重复步骤3-2和步骤3-3，直到所有score(i,j)≥1的节点对都比对上，结束比对，得到扩展集。

步骤4-1：查找出两个生物网络G₁、G₂中不属于扩展集的节点，构建二分图G_b'，图中所有边的权重为该节点对的节点相似性得分S(i,j)。

步骤4-2：选择二分图G_b'中权重最大的边，若此边对应的节点对均未在扩展集中出现过，则将该节点对添加到扩展集中，同时删除该节点对在二分图G_b'中的相应节点对和相关的边，剩余节点和边保持不变。

步骤4-3：重复步骤4-2，直到二分图G_b'中无可选择的节点对存在，比对结束，得到最终的比对集。使得网络中所有的节点对都有机会被比对上，从而得到更好的比对结果。

本发明的有益效果：

为了更好地说明本发明的技术效果，实施例对本发明进行试验验证。实施例在Isobase数据库的真实网络上选择ce、sc、dm、hs四个物种的网络数据，不同物种的网络中节点数和边数不同，网络规模也不同，设置四组的实验组比较本发明在不同物种对中的比对效果，表明本发明在大多数物种中的适用度。同时在NAPAbench的合成网络CG(公用的提供合成网络数据的数据库，CG是其中一组网络数据)上进行实验。设置三种方法PROPER、SPINAL、ModuleAlign与本发明进行比较，并通过拓扑指标EC(Edge correctness,边正确性)、ICS(induced con-served-structure score,诱导保守子结构得分)和S³(Symmetricsub-structure score,对称子结构得分)，生物指标FC(Functional Coherence,功能一致性)，比对节点数和运行时间对结果进行分析，其中EC、ICS、S³和FC的值越高，表示对应性能越好。

EC通过计算f映射下保守边在源网络中的比例来评估比对的质量，f表示一种映射关系，全局比对f:V₁→V₂，是将G₁中的V₁节点映射到G₂的V₂节点上，形成一对一的映射关系，EC的计算公式：

其中，f(E₁)＝{(f(u),f(u))∈E₂|(u,v)∈E₁}，f(V₁)＝{f(v)∈V₂|v∈V₁}。|E₁|表示G₁网络的边数，|f(E₁)|表示G₁中以f映射方式覆盖G₂中的边的边数。

ICS的计算公式：

其中，

表示G₂的诱导子网络的边数，诱导子网络指由G₂中比对上的所有节点构成的子网络。

S³的计算公式：

其中，分母表示根据比对f将图G₁、G₂诱导子图重叠得到的复合图中唯一边的数目。

FC利用GO术语计算，Isobase库中有网络对应的GO文件，其中有蛋白质及其对应的GO注释术语，FC的计算公式：

其中，GO(u)和GO(f(u))表示节点u和f(u)被注释的GO集合。

表1为不同方法在NAPAbench的合成网络CG下的比较结果。表2为不同方法在Isobase数据库真实网络下的比较结果，其中ce-sc表示ce和sc两个物种网络的比对结果，ce-dm表示ce和dm两个物种网络的比对结果，ce-hs表示ce和hs两个物种网络的比对结果，sc-hs表示sc和hs两个物种网络的比对结果，sc-dm表示sc和dm两个物种网络的比对结果，dm-hs表示dm和hs两个物种网络的比对结果。表3为本发明与PROPER算法在比对上的节点数上的比较结果。

	EC	ICS	S<sup>3</sup>	FC
					本发明JAlign	0.82	0.84	0.71	0.71
PROPER	0.61	0.63	0.45	0.59
					SPINAL	0.81	0.82	0.69	0.73
ModuleAlign	0.68	0.68	0.52	0.63

表1不同算法在NAPAbench的合成网络CG下的比较结果

表2不同算法在Isobase数据库真实网络下的比较结果

	CG	ce-sc	ce-dm	ce-hs	sc-hs	sc-dm	dm-hs
								本发明	2117	2679	2668	2766	5349	5093	6827
PROPER	1794	2641	2608	2697	5049	6627	5271

表3本发明与PROPER算法在比对上的节点数上的比较结果

从表1可以看出，在拓扑指标上，本发明的结果优于其他三种算法；在生物指标FC上，SPINAL、本发明分别是0.73、0.71，差距很小，PROPER的结果最差。总体而言，本发明在合成网络上的结果在几种算法表现最好。

从表2的前三组实验ce-sc、ce-dm、ce-hs可以看出，ModuleAlign的EC结果最好，本发明仅次于ModuleAlign，PROPER结果最差；ICS和S³结果都是本发明最好。在表2的后三组实验sc-hs、sc-dm、dm-hs中，除了在dm-hs中的EC结果略差于ModuleAlign，其余所有拓扑性能的指标都是结果最好的，PROPER次于本发明，这表明本发明在拓扑性能上结果最好。在生物指标FC上，PROPER表现最好，本发明和效果第二的SPINAL差距很小。结合拓扑性能效果第二的PROPER来看，本发明在保证生物性能的基础上，实现了最好的拓扑功能。

在保证生物性能的同时实现最好拓扑性能的基础上，如表3所示继续将本发明与PROPER在比对上的节点数上进行比较，除了在sc-dm中，本发明找出的节点对数都比PROPER多，能产生更多的比对节点数，本发明在覆盖范围上结果更广，进一步证明了本发明相较于PROPER带来的有益效果。在运行时间上，继续将本发明与SPINAL、ModuleAlign进行比较，SPINAL、ModuleAlign得到比对集分别需要121分50.840秒、207分46.732秒，而本发明只需要52分28.320秒，大大缩短了运行时间，提高比对效率，进一步证明了本发明相较于SPINAL、ModuleAlign带来的有益效果。

总体来看，本发明和PROPER相比在拓扑性能方面明显有很大改进，在生物性能方面略为下降，但在覆盖范围上结果更好；本发明和SPINAL、ModuleAlign相比，在拓扑性能和生物性能上都得到了提高，且运行时间大大缩短。因此，本发明在保证生物性能的基础上实现了最好的拓扑功能，且比对覆盖范围和效率都得到了提高。

以上所述实施例仅是为充分说明本发明而所举的较佳的实施例，本发明的保护范围不限于此。本技术领域的技术人员在本发明基础上所作的等同替代或变换，均在本发明的保护范围之内。本发明的保护范围以权利要求书为准。

Claims

1.一种基于层次聚类的蛋白质相互作用网络全局比对方法，其特征在于，包括以下步骤：

步骤1：输入两个生物网络G₁、G₂，获取网络结构数据及其序列相似性文件，将蛋白质看做节点，节点i、节点j分别属于两个网络，考虑节点本身以及邻居节点的拓扑特征计算节点对(i,j)间的拓扑相似性得分T(i,j)，根据序列相似性文件计算节点对的序列相似性得分B(i,j)，结合拓扑相似性得分T(i,j)和序列相似性得分B(i,j)计算节点相似性得分S(i,j)；

2.根据权利要求1所述的基于层次聚类的蛋白质相互作用网络全局比对方法，其特征在于：所述步骤1中结合拓扑相似性和序列相似性构成节点相似性的步骤为：

步骤1-1：获取两个输入网络G₁＝(V₁,E₁)，G₂＝(V₂,E₂),V₁、V₂表示节点集合，节点表示蛋白质；E₁、E₂表示边集合，边表示蛋白质间的相互作用；N(i)、N(j)为节点i和节点j的直接相连的邻居节点的集合；拓扑相似性得分考虑了节点本身和节点的邻居节点的拓扑相似性，计算节点i、j的拓扑相似性得分T(i,j)的过程如下：

其中，d(i)、d(j)表示节点i、j的度，MaxD表示在G₁、G₂所有节点中度的最大值，t是预设的迭代次数，θ是平衡邻居节点和节点本身拓扑相似性比重的参数，0≤θ≤1；多次迭代后，T^t+1(i,j)的最终值T(i,j)即为节点的拓扑相似性得分；

其中，blast(i,j)表示节点i、j之间的BLAST bit-score得分，即序列相似性文件中的值；Minb表示G₁、G₂网络中节点对的BLAST bit-score得分的最小值，Maxb表示网络中节点对的BLASTbit-score得分的最大值；

S(i,j)＝α×B(i,j)+(1-α)×T(i,j)

其中，α是平衡拓扑和序列权重的参数，0≤α≤1。

3.根据权利要求2所述的基于层次聚类的蛋白质相互作用网络全局比对方法，其特征在于：所述步骤1-1中找到G_b的匹配集合M的方法为采用贪心算法，具体过程为先选中权重最大的边加入到匹配集合M中，其中每一条边对应一组节点的映射关系，再删除这条边连接的两个节点及其相连的其他边，接着重复上述步骤，直到图中没有可选择的边，则比对结束，得到最终的匹配集合M。

4.根据权利要求1所述的基于层次聚类的蛋白质相互作用网络全局比对方法，其特征在于：所述步骤2中采用的组合优化算法为匈牙利算法。

5.根据权利要求1所述的基于层次聚类的蛋白质相互作用网络全局比对方法，其特征在于：所述步骤2中筛选种子节点对的具体过程如下：

6.根据权利要求5所述的基于层次聚类的蛋白质相互作用网络全局比对方法，其特征在于：所述步骤2-1中采用的层次聚类算法为Jerarca算法，具体为先计算节点间的加权距离，接着将距离矩阵转换成层次结构树，最后根据模块内和模块间节点连接分布进行最优层次划分得到功能模块，以此将每个网络构成的图中连接密集的且具有相似功能的子图划分为功能模块。

7.根据权利要求5所述的基于层次聚类的蛋白质相互作用网络全局比对方法，其特征在于：所述步骤2-3中筛选出节点对作为种子，其中筛选出的种子为最佳模块匹配结果中前15％的节点。

8.根据权利要求1所述的基于层次聚类的蛋白质相互作用网络全局比对方法，其特征在于：所述步骤3中不断扩展种子直到覆盖所有可能的节点，具体过程为：

9.根据权利要求8所述的基于层次聚类的蛋白质相互作用网络全局比对方法，其特征在于：所述步骤3-2中选择结构相似性得分score(i,j)最大的节点对添加到匹配集时，若存在多个节点对满足此条件，则进一步计算这几个节点对的度差值，选择度差值最小的节点对加入；若最小度差值也有多个节点对，则从最小度差值的节点对中找节点相似性得分S(i,j)最高的节点对添加到匹配集。

10.根据权利要求1所述的基于层次聚类的蛋白质相互作用网络全局比对方法，其特征在于：所述步骤4中构建二分图对剩余节点比对的过程为：