CN111599405A

CN111599405A - 融合多种拓扑信息的生物网络比对方法

Info

Publication number: CN111599405A
Application number: CN202010449458.0A
Authority: CN
Inventors: 陈璟; 刘晓
Original assignee: Jiangnan University
Current assignee: Jiangnan University
Priority date: 2020-05-25
Filing date: 2020-05-25
Publication date: 2020-08-28
Anticipated expiration: 2040-05-25
Also published as: CN111599405B

Abstract

本发明公开了一种融合多种拓扑信息的生物网络比对方法。本发明一种融合多种拓扑信息的生物网络比对方法，包括：步骤1读取网络及其序列相似性得分，分别计算两个网络的相关值矩阵，并对网络进行模块划分，同一模块内的结点具有较高的相似性；步骤2计算模块内结点的相似性得分，并对模块进行两两结点比对；步骤3计算模块间的相似性得分，并对模块进行比对；步骤4将步骤2，3中得到的结点映射关系进行整合，筛选，得到1对1的结点映射关系。本发明的有益效果：(1)从网络结构、度、结点邻居、特征向量中心性、局部边保守等方面充分挖掘了结点的拓扑相似性，提高了比对的拓扑质量。

Description

融合多种拓扑信息的生物网络比对方法

技术领域

本发明涉及生物网络领域，具体涉及一种融合多种拓扑信息的生物网络比对方法。

背景技术

近年来，随着生物实验的发展，产生了大量的生物网络数据，使用网络比对对生物网络进行分析，比较不同物种间的相互作用，可以更好地理解物种间的进化关系，发现保守的功能成分和实现功能预测。本发明研究两个网络的比对，两个网络分别为源网络和目标网络。源网络结点数目比目标网络少，且其结点功能均为已知的；目标网络中蛋白质的功能均未知。其生物意义为通过成对网络比对实现源网络与目标网络之间的功能转移，从而更好的挖掘目标网络中蛋白质的功能。网络比对算法由得分函数和搜索算法两部分组成，得分函数用于评价结点之间的相似性；搜索算法则根据得分函数搜索全局相似性最大的比对结果。

目前已有的搜索算法主要分为二步算法和基于目标函数的搜索算法，二步算法的第一步是计算两个不同输入网络的结点相似性，从而得到一个结点相似性得分矩阵。根据这个相似性得分矩阵将网络比对问题转化为最大权重的二部图匹配问题，其中第一步计算的结点相似性得分就是二部图的权重。二步算法的第二步，通过以前的经典算法或是贪婪算法来求解最大权重的二部图匹配问题。第二步中抽取比对结果的策略决定了最终比对的质量。大多数被提出的经典算法都属于二步算法。例如，IsoRank、MI-GRAAL、SPINAL以及HubAlign。基于目标函数的搜索算法首先提出一个目标函数，然后再利用各种不同的启发式搜索策略去优化目标函数。属于这类的算法有SANA，MAGNA，MAGNA++等。得分函数分为拓扑得分和生物得分，目前已有的拓扑得分计算方法有度，GDV，Importance等，序列得分一般采用由BLAST++产生的序列相似性得分。

传统技术存在以下技术问题：

1、现有技术对结点拓扑信息的挖掘不充分，导致最终比对的生物功能质量很高，但拓扑质量很差。

2、现有技术通过模块信息来挖掘节点间的生物相似性，但模块化方法的选取不恰当，导致产生错误的生物相似性得分，从而使其生物功能质量降低。

3、现有技术模块化时需要使用的blast序列相似性得分获取困难，大部分的数据库仅包含不同网络中结点间的blast序列相似性得分，很少包含同一网络结点间的blast序列相似性得分。

4、现有技术都存在拓扑与生物质量不平衡问题，一种质量的提高往往意味着另一种质量的下降。

发明内容

本发明要解决的技术问题是提供一种融合多种拓扑信息的生物网络比对方法，(1)充分挖掘结点间的拓扑相似性，以提高比对的拓扑质量。(2)模块化方法的确定，以保证比对的生物功能质量不降低。(3)普适性的提高，如何解决同一网络中结点间的blast序列相似性得分缺少问题。(4)拓扑与生物质量不平衡问题的解决，以便使在一种质量指标不降低的前提下提高另一种质量指标。

为了解决上述技术问题，本发明提供了一种融合多种拓扑信息的生物网络比对方法，包括：

步骤1读取网络及其序列相似性得分，分别计算两个网络的相关值矩阵，并对网络进行模块划分，同一模块内的结点具有较高的相似性；

步骤2计算模块内结点的相似性得分，并对模块进行两两结点比对；

步骤3计算模块间的相似性得分，并对模块进行比对；

步骤4将步骤2，3中得到的结点映射关系进行整合，筛选，得到1对1的结点映射关系；

步骤5删除已比对结点，并重复步骤2-5，小网络中的结点全部被比对上，或模块间相似性得分为0，算法停止。

在其中一个实施例中，模块划分具体如下：

模块划分是针对单个网络进行的；

首先，计算网络的相关值矩阵，该矩阵给出了结点间的相似性关系，本发明给出了结点间关系的四种定义，分别为强相关，弱相关，相关与不相关；

如果两个结点间有一条边相连，则称该对结点为强相关；

若结点间不存在直接相连的边，但可以通过其他结点间接相连，则称为弱相关；

符合强相关和弱相关的结点也称为相关；

不存在相关关系的结点对均称为不相关；

相关值计算公式如下：

其中，Θ强相关结点集，Φ为弱相关结点集，

为不相关结点集；max{1，|Φ^*|_M}指所有相关结点中所经过的中间边数目的最大值，|Φ^* _(u，v)|指从结点u到v所经过的中间边数目；公式(1)为归一化后的相关值，其值越大，表示结点间的相似性越高；

然后，根据相关值矩阵，分别对G1，G2进行模块化分，得到模块集合C_G1，C_G2；详细步骤如下：

a)构建关于网络G＝(V，E)中所有结点对的相关值矩阵Ψ；

b)对于

初始化|V|个分别以

为模块中心的模块，记为

c)模块

的构建方法为：根据Ψ，得到其他结点与

的相关值，并将其按降序排列，选取相关值在前25％的结点加入到模块

其他模块构造方法类似，最终得到

在其中一个实施例中，模块内结点比对具体如下：

将网络G1，G2分别模块化后得到两个模块集合C1，C2；将C1中的每个模块与C2中的每个模块分别使用种子扩展方法进行比对，得到|C1|*|C2|对模块比对结果，|C1|，|C2|分别指模块的数目；

其中模块比对过程中用到的结点相似性得分函数为：

为结点(s，t)间的总相似性得分，B(s，t)为结点(s，t)的序列相似性得分，该得分由BLAST++工具计算得出，用以评价结点间的生物相似性，值越大，结点相似性越高；

为结点间的拓扑相似性得分，它由一种基于特征向量中心性的拓扑向量元组

计算而来，其中

1)

表示结点

的度，即

的邻居数；

2)

表示结点

的特征向量中心性，用以衡量结点在网络中的中心性地位；

3)

表示结点

邻居的平均特征向量中心性；

因此，结点对(s，t)的拓扑相似得分

具体计算方式公式如公式(3)；其值越小，结点间越相似；

使用种子扩展方法将C_G1中的模块分别与C_G2中的模块两两进行模块内比对的详细步骤如下：

a)输入待比对模块

b)首先将

比对上；

c)分别获取

的邻居，

d)计算

中结点对的相似性

并使用匈牙利算法将

结点进行比对，其中

为

与

的笛卡尔乘积；

e)将已扩展结点

移除，并对剩余已比对结点对依次重复步骤c)d)；

f)获得模块内结点比对结果

在其中一个实施例中，模块间比对具体如下：

将每个模块看作一个结点，构建完全二部图，边的权重为模块间的相似性得分；接着使用最大加权二部图匹配算法进行模块匹配，得到模块间比对结果；其中模块间相似性得分计算如下：

为步骤2中得到的一个模块内比对结果中所比对上的结点对数目，

为该比对结果中结点对的序列相似性之和。

在其中一个实施例中，其中，

为模块间的局部边保守得分，用以衡量该比对结果的边保守性，具体计算如下：

令e_ij表示网络Gi中模块C(j)的局部边集，Ei为Gi的边集，V(C(j))为模块C(j)的结点集，e_ij表示如下：

e_i，j＝{(s1，s2)|s1，s2∈V(C(j))∧(s1，s2)∈Ei}

5)

对于网络G1＝(V1，E1)，G2＝(V2，E2)，

如果

则称

为一对模块保守边；

表示模块

的保守边逻辑矩阵，其每个元素计算方式如下：

模块

的局部边保守得分计算如下：

在其中一个实施例中，其中，根据模块相似性得分对C_G1，C_G2进行模块间比对的详细步骤如下：

a)输入网络G1，G2的模块集合C_G1，C_G2；

b)将C_G1，C_G2的每一个模块分别看作一个结点，构建完全二分图

边的权重为相似性得分

c)使用匈牙利算法对

进行求解，即可得到一对一的模块比对

在其中一个实施例中，已有比对数据处理具体如下：

将已有的结点映射关系构建超图，超图的结点为已比对的结点，每对模块的比对结果抽象为超图的一条超弧，使用超图匹配算法得到1对1的结点映射关系。

基于同样的发明构思，本申请还提供一种计算机设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现任一项所述方法的步骤。

基于同样的发明构思，本申请还提供一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现任一项所述方法的步骤。

基于同样的发明构思，本申请还提供一种处理器，所述处理器用于运行程序，其中，所述程序运行时执行任一项所述的方法。

本发明的有益效果：

(1)从网络结构、度、结点邻居、特征向量中心性、局部边保守等方面充分挖掘了结点的拓扑相似性，提高了比对的拓扑质量。

(2)选取了合适的模块化方法，并提出了相关值概念，保证了比对的生物功能质量。

(3)提出了相关值概念，解决了同一网络中结点间的blast序列相似性得分缺少问题，提高了算法的普适性。

(4)三种相似性得分函数的提出，保证了在提高拓扑质量的同时，算法的生物功能质量不降低。

附图说明

图1是本发明融合多种拓扑信息的生物网络比对方法的流程图。

图2是本发明融合多种拓扑信息的生物网络比对方法的结点间相似性关系示例图。

图3是本发明融合多种拓扑信息的生物网络比对方法的本发明与AligNet的比较结果示意图。

图4是本发明融合多种拓扑信息的生物网络比对方法的本发明与其他算法的拓扑质量图。

图5是本发明融合多种拓扑信息的生物网络比对方法的本发明与其他算法的生物功能质量图。

图6是本发明融合多种拓扑信息的生物网络比对方法的本发明与其他算法的综合表现。

具体实施方式

下面结合附图和具体实施例对本发明作进一步说明，以使本领域的技术人员可以更好地理解本发明并能予以实施，但所举实施例不作为对本发明的限定。

本发明的技术方案由图1所示的流程图示出。

一种融合多种拓扑信息的生物网络比对方法，包括以下步骤：

步骤3计算模块间的相似性得分，并对模块进行比对；

(1)模块划分

模块划分是针对单个网络进行的。

首先，计算网络的相关值矩阵，该矩阵给出了结点间的相似性关系，本发明给出了结点间关系的四种定义，分别为强相关，弱相关，相关与不相关。

如果两个结点间有一条边相连，则称该对结点为强相关；

符合强相关和弱相关的结点也称为相关；

不存在相关关系的结点对均称为不相关。

结点间相似性关系示例图如图2：

相关值计算公式如下：

其中，Θ强相关结点集，Φ为弱相关结点集，

为不相关结点集。max{1，|Φ^*|_M}指所有相关结点中所经过的中间边数目的最大值，|Φ^* _(u，v)|指从结点u到v所经过的中间边数目。公式(1)为归一化后的相关值，其值越大，表示结点间的相似性越高。

然后，根据相关值矩阵，分别对G1，G2进行模块化分，得到模块集合C_G1，C_G2。详细步骤如下：

a)构建关于网络G＝(V，E)中所有结点对的相关值矩阵Ψ；

b)对于

初始化|V|个分别以

为模块中心的模块，记为

c)模块

的构建方法为：根据Ψ，得到其他结点与

其他模块构造方法类似，最终得到

(2)模块内结点比对

将网络G1，G2分别模块化后得到两个模块集合C1，C2。将C1中的每个模块与C2中的每个模块分别使用种子扩展方法进行比对，得到|C1|*|C2|对模块比对结果，|C1|，|C2|分别指模块的数目。

其中模块比对过程中用到的结点相似性得分函数为：

S(s，t)为结点(s，t)间的总相似性得分，B(s，t)为结点(s，t)的序列相似性得分，该得分由BLAST++工具计算得出，用以评价结点间的生物相似性，值越大，结点相似性越高。

计算而来，其中

1)

表示结点

的度，即

的邻居数；

2)

表示结点

的特征向量中心性，用以衡量结点在网络中的中心性地位；

3)

表示结点

邻居的平均特征向量中心性。

因此，结点对(s，t)的拓扑相似得分

具体计算方式公式如公式(3)。其值越小，结点间越相似。

a)输入待比对模块

b)首先将

比对上；

c)分别获取

的邻居，

d)计算

中结点对的相似性

并使用匈牙利算法将

结点进行比对，其中

为

与

的笛卡尔乘积；

e)将已扩展结点

移除，并对剩余已比对结点对依次重复步骤c)d)；

f)获得模块内结点比对结果

(3)模块间比对

将每个模块看作一个结点，构建完全二部图，边的权重为模块间的相似性得分。接着使用最大加权二部图匹配算法进行模块匹配，得到模块间比对结果。其中模块间相似性得分计算如下：

为步骤2中得到的一个模块内比对结果中所比对上的几点对数目，

为该比对结果中结点对的序列相似性之和，

e_i，j＝{(s1，s2)|s1，s2∈V(C(j))∧(s1，s2)∈Ei}

5)

对于网络G1＝(V1，E1)，G2＝(V2，E2)，

如果

则称

为一对模块保守边。

表示模块

的保守边逻辑矩阵，其每个元素计算方式如下：

模块

的局部边保守得分计算如下：

根据模块相似性得分对C_G1，C_G2进行模块间比对的详细步骤如下：

a)输入网络G1，G2的模块集合C_G1，C_G2；

边的权重为相似性得分

c)使用匈牙利算法对

进行求解，即可得到一对一的模块比对

(4)已有比对数据处理

本发明的有益效果：

为测试本发明的比对效果，本发明选取了被广泛使用的IsoBase数据集的最新版本。本发明将IsoBase中的M.musculus(MUS)，C.elegans(CEL)，D.melanogaster(DME)，S.cerevisiae(SCE)四个物种分别进行两两组合，共得到6个物种对，用以评估。

本发明使用了三种评价指标EC，AFC及trade-off，分别用以评估不同算法的拓扑质量，生物功能质量及综合表现，其中EC，AFC值越高表明算法相对应的质量越高，trade-off为算法的综合排名，值越小代表排名越高，综合表现越好。

本发明方法为ECAlign，图3为本发明与AligNet算法的比较，因为本发明受启于AligNet，本发明旨在保证AligNet生物功能质量不降低的前提下提高其拓扑相似性，就拓扑质量EC而言，除在SCE-DME上保持与AligNet相同的拓扑得分外，本发明在其他物种对上的得分均高于AligNet；同时本发明不但在大部分物种对上获得了与AligNet相同的生物功能质量，且在MUS-DME与CEL-SCE两个物种对上的AFC得分均超过了AligNet。因此本发明成功做到在保证AligNet生物功能不降低的前提下，提高了其拓扑比对质量。

图4，图5为本发明与其他算法的比较。由图4可知，在物种对MUS-CEL，MUS-SCE，MUS-DME上，本发明的EC得分最高，尤其在MUS-SCE上，AligNet的比对质量较ModuleAlign低，但通过改进得到的本发明获得了比ModuleAlign更高质量的比对；本发明在其他物种对上的表现仅次于ModuleAlign，倾向于对结点数目差距较大的网络产生好的比对结果，但ModuleAlign在不同物种对上表现的稳定性相比其他算法较差，比对质量好坏不一。由5可知，本发明的AFC得分仅次于SPINAL，但实际上与SPINAL差距很小。综合来看本发明，AligNet,与SPINAL的AFC得分在大部分物种对上的差距都很小，基本保持在0.02左右，因此三种算法都可以产生高生物功能质量的比对结果，而ModuleAlign在所有物种对上的表现都是最差的。

图6为本发明与其他算法的综合比较排名，本发明获得了最高的排名，也即本发明综合表现最好。

通过实验分析，进一步证明了本发明带来了上述(1)(2)(3)(4)有益效果。

下面给出本发明的一个具体应用场景：

以ISOBASE数据库中MUS与CEL两个网络为例：

分别计算MUS与CEL的相关值矩阵，并进行模块划分，得到模块集C_MUS,C_CEL；

对于C_MUS中的每一个模块c1,分别与C_CEL中的每个模块c2利用种子扩展算法进行模块内比对，得到比对集合C；

对于比对集合C中的每个模块分别看做一个结点，模块间的相似性得分看作边权重构造完全二部图，并对二部图求解；

将已有的比对结果进行筛选整合，得到1-1的比对结果；

重复上述步骤，直到MUS中的结点全部被比对上或模块间的相似性全为0。

以上对本发明提供的融合多种拓扑信息的生物网络比对方法做了详细的描述，还有以下几点需要说明：

本发明提出了基于特征向量中心性的拓扑度量方法与局部边保守得分，充分挖掘了结点的拓扑相似性，提高了比对的拓扑质量并给出计算公式如下：

基于特征向量中心性的拓扑相似性得分：

局部边保守得分：

提出的相关值概念，解决了同一网络中结点间的blast序列相似性得分缺少问题，提高了算法的普适性。同时其与基于特征向量中心性的拓扑度量方法与局部边保守得分三种相似性得分函数，保证了在提高拓扑质量的同时，算法的生物功能质量不降低。相关值计算公式如下：

以上所述实施例仅是为充分说明本发明而所举的较佳的实施例，本发明的保护范围不限于此。本技术领域的技术人员在本发明基础上所作的等同替代或变换，均在本发明的保护范围之内。本发明的保护范围以权利要求书为准。