CN108388769A

CN108388769A - 基于边驱动的标签传播算法的蛋白质功能模块识别方法

Info

Publication number: CN108388769A
Application number: CN201810172154.7A
Authority: CN
Inventors: 邱剑锋; 张兴义; 程凡; 苏延森; 张磊; 王从涛; 巢秀琴
Original assignee: Anhui University
Current assignee: Anhui University
Priority date: 2018-03-01
Filing date: 2018-03-01
Publication date: 2018-08-10
Anticipated expiration: 2038-03-01
Also published as: CN108388769B

Abstract

本发明公开了一种基于边驱动的标签传播算法的蛋白质功能模块识别方法，包括：步骤一、为PPI网络中|E|条边随机分配一个唯一的整数值m作为边的标签；步骤二、根据所定义的标签更新规则，通过迭代来改变PPI网络中各条边的标签，直至网络中的标签不再发生变化为止。本发明能减少PPI网络中噪声的干扰，提高算法识别过程的稳定性，从而在较大规模的PPI网络中获得更精确有效的蛋白质功能模块划分结果。

Description

基于边驱动的标签传播算法的蛋白质功能模块识别方法

技术领域

本发明涉及复杂蛋白质网络功能模块识别技术领域，具体的说是一种基于边驱动的标签传播算法的蛋白质功能模块识别方法，通过将PPI网络描述为一个无向图，利用标签传播算法来识别其中的蛋白质功能模块。

背景技术

近年来，随着高通量生物实验手段的快速发展，形成了大量反映生命有机体内的所有蛋白质之间相互作用的网络，如何理解其中所隐藏的生物学意义是后基因时代非常重要的研究内容。一方面，蛋白质作为机体一切细胞和组织的重要组成部分，在人类各项生命活动中承担着重要作用；另一方面，一项复杂的生命活动不是由单一的蛋白质来协助完成的，而是需要多个不同的蛋白质通过相互作用，形成特定的蛋白质功能模块来完成。因此，如何设计高效、稳定的方法去快速、有效地识别各种具有生物学功能的蛋白质功能模块成为蛋白质组学研究中一项极为关键的科学问题。

目前随着高通量实验技术的不断发展，PPI网络的规模和复杂性呈爆炸式增长，受噪声的影响，传统的标签传播算法所识别的蛋白质功能模块结构往往不稳定。因此，需要一种准确度高、鲁棒性强的标签传播算法来获取PPI网络中的蛋白质功能模块。针对PPI网络中蛋白质功能模块的识别方法分为基于传统图理论的检测方法和基于非传统图理论的检测方法两大类：

一类是基于拓扑结构信息的传统图理论的识别方法，其中包括三类代表性的检测方法：

1)基于密度的聚类算法；该方法是通过在PPI网络中搜索稠密连接的子图作为功能模块。然而，该算法仅仅能够识别出稠密连接的蛋白质功能模块，对于一些由稀疏子图构成的功能模块的识别存在一定的局限性。

2)基于层次的聚类算法；该方法是通过形成一个树形结构来清晰地表达PPI网络的模块化构成。算法在识别过程中利用了局部节点的信息，然而一点某个节点所在的层次出现划分错误，将会导致其下的子树出现错误，因此，该类方法存在对网络噪声敏感的问题。

3)基于划分的聚类算法；该方法的优点在于其易于理解和算法实现上较为简单，其最大的问题在于所划分的簇的数目需要事先确定，且无法识别具有重叠节点的蛋白质功能模块。

另一类是基于非传统图理论的检测方法，该类方法是在图聚类的过程中借鉴、融合了一些其他领域的技术用于蛋白质功能模块的检测，主要的代表性方法包括：

1)基于流模拟聚类方法；MCL(Markov clustering)是该类方法中一个经典算法，作为一种具有随机性特点的聚类算法，MCL的识别结果容易受到给定条件的影响。

2)基于谱分析的聚类方法；该方法是通过矩阵分析技术将待求解问题转化为带约束的二次型优化问题来实现对功能模块的识别。尽管理论上该方法能够收敛于全局最优解，特征向量的选择直接与最终的聚类结果有关，如果确定特征向量的个数是该类方法的一个不足之处。

3)基于核心依附关系的聚类方法；生物学实验表明，一个蛋白质功能模块通常由核心蛋白和附属蛋白组成。从这一事实出发，研究者提出了一些利用核心依附关系进行功能模块检测的算法。该类方法具有较好的预测精度和鲁棒性，然而其较高的计算复杂性限制了其在较大PPI网络功能模块中的识别。

发明内容

本发明为克服现有技术中存在的不足之处，提出一种基基于边驱动的鲁棒性标签传播算法的蛋白质功能模块识别方法，以期能减少PPI网络中噪声的干扰，提高算法识别过程的稳定性，从而在较大规模的PPI网络中获得更精确有效的蛋白质功能模块划分结果。

本发明为解决上述技术问题采用如下技术方案：

本发明一种基于边驱动的标签传播算法的蛋白质功能模块识别方法，应用于PPI网络中的蛋白质功能模块识别，所述PPI网络表征为无向图G＝(V,E)，其中，V＝{v₁,v₂,…,v_i,…,v_n}表示所述PPI网络中所有蛋白质节点的集合，v_i表示第i个蛋白质节点，n为所述PPI网络中的蛋白质节点总数，E＝{e_ij|i＝1,2,…,n；j＝1,2,…,n；i≠j}表示蛋白质之间连接关系集合，e_ij表示第i个蛋白质节点和第j个蛋白质节点之间的连接关系；若e_ij＝1，表示第i个蛋白质节点v_i与第j个蛋白质节点v_j之间有连接关系，并用边来表征；若e_ij＝0，表示第i个蛋白质节点v_i与第j个蛋白质节点v_j之间没有连接关系，即没有边相连；若e_ij＝1且e_ik＝1，则表示第j个蛋白质节点v_j与第k个蛋白质节点v_k分别为第i个蛋白质节点v_i的邻居节点；且第i个蛋白质节点v_i的邻接边为e_ij和e_ik，e_ij和e_ik互为邻居边；记所述蛋白质之间连接关系集合E中所有边的数量为|E|；所述蛋白质功能模块识别方法是按如下步骤进行：

步骤一、为所述PPI网络中|E|条边随机分配一个唯一的整数值m作为边的标签，记为标签集合Lab＝{lab(e_ij)|e_ij∈E}，lab(e_ij)表示边e_ij的标签，m∈[1,|E|]；

步骤二、根据所定义的标签更新规则，通过迭代来改变PPI网络中各条边的标签，直至网络中的标签不再发生变化为止；

步骤2.1、利用式(1)获得任意两条相邻边e_ij和e_ik的相似性指标ELS(e_ij,e_ik)，从而得到所述PPI网络中所有相邻边的相似性指标：

式(1)表示第i个蛋白质节点v_i与示第j个蛋白质节点v_j之间的连接关系以及第i个蛋白质节点v_i与第k个蛋白质节点v_k之间的连接关系的紧密程度；N(x)表示第x个蛋白质节点v_x的邻居节点的集合，N(y)表示第y个蛋白质节点v_y的邻居节点的集合，N(x)∩N(y)表示第x个蛋白质节点v_x和第y个蛋白质节点v_y的邻居节点的交集，N(x)∪N(y)表示第x个蛋白质节点v_x和第y个蛋白质节点v_y的邻居节点的并集；

步骤2.2、利用式(2)获得第i个蛋白质节点v_i与第j个蛋白质节点v_j之间的边e_ij的权重指标H(e_ij)，从而得到所述PPI网络中所有边的重要性权重指标值：

式(2)中，N(e_ij)表示边e_ij的邻居边集合，|N(e_ij)|表示边e_ij的邻居边集合的大小；

步骤2.3、根据所述PPI网络中所有边的重要性权重指标值，对所述蛋白质之间连接关系集合E进行降序排序，得到排序后的蛋白质之间连接关系的集合E′＝{e′_ij|i＝1,2,…,n；j＝1,2,…,n；i≠j}；

步骤2.4、对所述排序后的连接关系集合E′中的所有边按先后顺序进行标签更新：

步骤2.4.1、将排序后的边e′_ij的邻居边集合N(e′_ij)按照其标签值进行分组，将相同标签值的邻居边作为一组，从而得到U个组表示排序后的边e′_ij的邻居边集合中的第u个组；记第u个组中相同标签值的边个数为

步骤2.4.2、利用式(3)得到排序后的边e′_ij与第u个组中所有邻居边的相似性指标之和从而得到排序后的边e′_ij与U个组的相似性指标之和序列

步骤2.4.3、从所述排序后的边e′_ij与U个组的相似性指标之和序列中选取最大相似性指标之和所对应的组的标签作为排序后的边e′_ij的新标签，记为lab′(e′_ij)，若U个组中存在相同的相似性指标之和，则选取平均相似性指标最大的组所对应标签作为排序后的边e′_ij的新标签lab′(e′_ij)；从而得到所述PPI网络中所有排序后的边的新标签；

步骤2.5、根据所述PPI网络中所有排序后的边的新标签，将具有相同标签的边划分到同一个边社团中，从而得到C个边社团；

步骤2.6、将所述C个边社团中第c个边社团的第a个蛋白质节点v_a的所有邻接边的标签集合记为表示第a个蛋白质节点v_a的第b条邻接边e_ab的标签；1≤c≤C；1≤b≤B；b∈N(a)；B表示第a个蛋白质节点v_a的邻接边的最大条数，即第a个蛋白质节点v_a共有B条邻接边；N(a)表示第a个蛋白质节点v_a的邻居节点的集合；

步骤2.7、将所述标签集合Lab^c(v_a)中相同标签划分为一组，并计算每一组的标签个数，并将最多的标签个数记为Max，从而计算每一组的标签个数与Max之间的比值p；

步骤2.8、将各个比值p分别与所设定阈值r进行比较，若比值小于等于阈值r，则表示相应比值所对应的标签的边为噪声边，并将所述噪声边所对应的标签从所述标签集合Lab^c(v_a)中删除，否则，保留相应标签，从而得到更新后的第c个边社团的第a个蛋白质节点v_a的邻接边的标签集合Lab^c(v_a)′；进而得到更新后的第c个边社团的每个蛋白质节点的邻接边的标签集合；最后得到更新后的C个边社团的每个蛋白质节点的邻接边的标签集合；

步骤2.9、对所述更新后的第c个边社团进行解码，得到相同的边标签所对应的第c个蛋白质节点集合，将所述第c个蛋白质节点集合作为一个蛋白质功能模块，从而完成C个蛋白质功能模块的识别。

与已有技术相比，本发明有益效果体现在：

1、本发明方法将蛋白质网络中功能模块识别问题转化为一个图聚类问题，通过一种基于边驱动的标签传播算法来识别其中的蛋白质功能模块。该方法利用网络中每个蛋白质节点的邻居节点信息定义了蛋白质交互之间的相似性，同时，在此基础上刻画了其中任意一组蛋白质之间的相互关系在网络中的重要性，并根据重要性确定对其具有的标签的更新顺序，以减少传统标签传播过程中不稳定性。此外，为减少噪声对识别算法的影响，提高算法的鲁棒性，本发明提出了一个针对边划分结果的过滤策略，以滤除噪声影响，提高了边聚类的质量，确保了解码后所得的蛋白质功能模块的质量，提高了算法的鲁棒性。

2、本发明通过定义网络中蛋白质交互(边)之间的相似性及其重要性等权重指标，使得在标签传播过程中，优先选择权重指标大的边来更新其标签，这种相对确定的标签更新顺序在一定程度上克服了传统标签传播方法中标签更新的随机性，很大程度上提高了本方法识别蛋白质功能模块的稳定性。

3、考虑到噪声对PPI网络的影响，本发明提出的过滤策略对边聚类结果进行过滤操作，以期减少噪声对后续蛋白质功能模块识别的影响，提高了识别的准确性，从而使得本算法在含噪的PPI网络中所识别的蛋白质功能模块较少受到噪声的干扰，具有较好的鲁棒性。

附图说明

图1为本发明的算法流程图；

图2a为本发明举例的一个简单的PPI网络结构图；

图2b为本发明举例的蛋白质功能模块识别过程示意图。

具体实施方式

本实施例中，一种基于边驱动的标签传播算法的蛋白质功能模块识别方法，通过提出对PPI网络中蛋白质之间连接关系的重要性度量指标，并在此基础之上定义边的重要性权重指标以确定相应边的标签更新顺序，解码时利用所提出的过滤策略减少噪声对蛋白质功能模块识别的影响，以提高蛋白质功能模块识别结果的稳定性和准确性，从而在PPI网络中得到更为有效的蛋白质功能模块划分结果。具体的说，

该蛋白质功能模块识别方法用于PPI网络中的蛋白质功能模块的识别，PPI网络表征为无向图G＝(V,E)，其中，V＝{v₁,v₂,…,v_i,…,v_n}表示PPI网络中所有蛋白质节点的集合，v_i表示第i个蛋白质节点，n为PPI网络中的蛋白质节点总数，E＝{e_ij|i＝1,2,…,n；j＝1,2,…,n；i≠j}表示蛋白质之间连接关系集合，e_ij表示第i个蛋白质节点和第j个蛋白质节点之间的连接关系；若e_ij＝1，表示第i个蛋白质节点v_i与第j个蛋白质节点v_j之间有连接关系，并用边来表征；若e_ij＝0，表示第i个蛋白质节点v_i与第j个蛋白质节点v_j之间没有连接关系，即没有边相连；若e_ij＝1且e_ik＝1，则表示第j个蛋白质节点v_j与第k个蛋白质节点v_k分别为第i个蛋白质节点v_i的邻居节点；且第i个蛋白质节点v_i的邻接边为e_ij和e_ik，e_ij和e_ik互为邻居边；记蛋白质之间连接关系集合E中所有边的数量为|E|；如图2a所示为一个包含7个蛋白质节点及其之间连接关系的PPI网络结构图，其中，每个节点代表PPI网络中的一个蛋白质，每条边代表蛋白质之间存在的连接关系。

本实施例中，如图1所示，该蛋白质功能模块识别方法是按如下步骤进行：

步骤一、首先，为PPI网络拓扑图中的每条边分配一个唯一的整数值m作为边的标签，记为标签集合Lab＝{lab(e_ij)|e_ij∈E}，lab(e_ij)表示边e_ij的标签，m∈[1,|E|]；标签代表该边所属的社团，边的标签初始化按以下步骤进行：

步骤1.1、初始化m＝1；

步骤1.2、初始化i＝1；

步骤1.3、初始化j＝1；

步骤1.4、给PPI网络中存在的所有蛋白质之间的相互作用(e_ij＝1)分配唯一的整数值m作为标签，将m的赋值给并将m+1赋值给m；

步骤1.5、将j+1赋值给j(j≤n)，判断蛋白质节点v_i的与其他蛋白质节点v_j之间是否存在相互作用，对存在的相互作用e_ij，执行步骤1.4；否则执行步骤1.6；

步骤1.6、将i+1赋值给i(i＜n)，同时将i+1赋值给j(j≤n)，判断PPI网络中剩余的蛋白质节点v_i与其他蛋白质节点v_j之间是否存在相互作用，对存在的相互作用e_ij，执行步骤1.4-步骤1.5；否则，PPI网络中边的标签初始化完成。例如，在图2a的PPI网络中7个蛋白质之间有10条边，表示该PPI网络的蛋白质之间存在10对相互作用，这些边的标签初始化结果为：{1,2,3,4,5,6,7,8,9,10}。

采用基于边驱动的鲁棒性标签传播算法将PPI网络G划分为k个蛋白质功能模块，记为C＝{C₁,C₂,…,C_x,…,C_k}；C_x表示第x个蛋白质功能模块，x＝1,2,…,k，从而实现PPI网络的蛋白质功能模块划分。步骤二中采用基于边驱动的标签传播算法则是按如下步骤进行：

步骤2.1、利用式(1)获得任意两条相邻边e_ij和e_ik的相似性指标ELS(e_ij,e_ik)，从而得到所述PPI网络中所有相邻边的相似性指标，计算公式如式(1)所示：

式(1)表示第i个蛋白质节点v_i与示第j个蛋白质节点v_j之间的连接关系以及第i个蛋白质节点v_i与第k个蛋白质节点v_k之间的连接关系的紧密程度；N(x)表示第x个蛋白质节点v_x的邻居节点的集合，N(y)表示第y个蛋白质节点v_y的邻居节点的集合，N(x)∩N(y)表示第x个蛋白质节点v_x和第y个蛋白质节点v_y的邻居节点的交集，N(x)∪N(y)表示第x个蛋白质节点v_x和第y个蛋白质节点v_y的邻居节点的并集；计算相邻边e_ij和e_ik相似性值ELS(e_ij,e_ik)过程按如下步骤进行：

步骤2.1.1、初始化i＝1；

步骤2.1.2、初始化j＝1；

步骤2.1.3、初始化k＝1；

步骤2.1.4、若第i个蛋白质节点v_i与第j个蛋白质节点v_j之间有边相连(e_ij＝1)，执行步骤2.1.5；否则执行步骤2.1.6；

步骤2.1.5、若i≠k且e_ik＝1，则表明边e_ij与边e_ik是以第i个蛋白质节点v_i为公共节点的两条邻居边，计算ELS(e_ij,e_ik)的值，并执行步骤2.1.7；否则，直接执行步骤2.1.7；

步骤2.1.6、将j+1赋值给j，判断j≤n是否成立，若成立，执行步骤2.1.4；否则执行步骤2.1.8；

步骤2.1.7、将k+1赋值给k，判断k≤n是否成立，若成立，执行步骤2.15；否则，将1赋值给k，且执行步骤2.1.6；

步骤2.1.8、将i+1赋值给i，判断i≤n是否成立，若成立，执行步骤2.1.2-2.1.7；否则该过程终止，PPI网络中所有相邻边之间的相似性计算完成；

如图2a所示，由上述定义可得：N(1)＝{2,3,4}，N(2)＝{1,3,4}，N(3)＝{1,2,4}，根据公式(1)计算图2a中边e₁₂和边e₁₃的相似性，得到：其他边之间的相似性同理可计算。在式(1)的定义中，充分考虑了相邻边对应顶点的邻居信息，与传统的相似性计算方式仅仅考虑的邻居信息不同，在本发明的定义中，增加了邻居信息，以更加全面地衡量任意两条边之间的相似程度。

步骤2.2、利用式(2)获得第i个蛋白质节点v_i与第j个蛋白质节点v_j之间的边e_ij的权重指标H(e_ij)，从而得到PPI网络中所有边的重要性权重指标值。该指标主要用于衡量蛋白质节点v_i与蛋白质节点v_j之间的相互作用在整个PPI网络中的重要性，也就是确定边e_ij在整个网络中的重要性。用于决定后续每条边的标签更新顺序，以期减少更新过程中的随机性；

式(2)中，N(e_ij)表示边e_ij的邻居边集合，|N(e_ij)|表示边e_ij的邻居边集合的大小；H值越大，对应的边在网络中越重要。过程按如下步骤进行：

步骤2.2.1、初始化i＝1；

步骤2.2.2、初始化j＝1；

步骤2.2.3、若第i个蛋白质节点v_i与第j个蛋白质节点v_j之间边相连(e_ij＝1)，则根据公式(2)计算H(e_ij)的值，衡量边e_ij的重要性；

步骤2.2.4、将j+1赋值给j，判断j≤n是否成立，若成立，执行步骤2.2.3，遍历蛋白质节点v_i与剩余相邻的蛋白质节点v_j之间的边，计算相应的H值；否则，j＞n，则表示蛋白质节点v_i与网络中剩余蛋白质节点之间的边遍历结束，执行步骤2.2.5，继续遍历PPI网络中v_i以外的蛋白质节点与剩余蛋白质节点之间的边；

步骤2.2.5、将i+1赋值给i，判断i≤n是否成立，若成立，执行步骤2.2.2-2.2.4；否则该过程终止，从而得到PPI网络中所有边的重要性权重指标值；

如图2a所示，边e12的重要性权值：其他边的重要性权值同理计算可得。

步骤2.3、根据PPI网络中所有边的重要性权重指标值，对蛋白质之间连接关系集合E进行降序排序，得到排序后的蛋白质之间连接关系的集合E′＝{e′_ij|i＝1,2,…,n；j＝1,2,…,n；i≠j}；

在PPI网络中，蛋白质之间的联系越紧密，相应的权重指标值越大，表明其在网络中有更大的重要性，因此，将优先对些标签进行更新。因此根据步骤2.2计算出的PPI网络中每条边e_ij的权重指标的大小，确定对应边的更新顺序：权重大的边被优先选来更新其标签。过程按如下步骤进行：

步骤2.3.1、初始化m＝1；

步骤2.3.2、初始化i＝1；

步骤2.3.3、初始化j＝1；

步骤2.3.4、初始化maxl＝0；

步骤2.3.5、初始化数组update，存放PPI网络中所有边的重要性权重值的递减序列；

步骤2.3.6、初始化一个中间变量maxl存放最大的H值，初始为：maxl＝0；

步骤2.3.7、将j+1赋值给j，判断j≤n是否成立，若成立，执行步骤2.3.8，遍历蛋白质节点v_i与剩余相邻的蛋白质节点v_j之间的边；否则j＞n，表明蛋白质节点v_i与网络中剩余蛋白质节点之间的边遍历完成，执行步骤2.3.10，继续遍历PPI网络中v_i以外的蛋白质节点与剩余蛋白质节点之间的边；

步骤2.3.8、若第i个蛋白质节点v_i与第j个蛋白质节点v_j之间有边相连(e_ij＝1)，执行步骤2.3.9；否则，执行2.3.7；

步骤2.3.9、判断maxl＜H(e_ij)是否成立，若成立，将H(e_ij)赋值给maxl；否则，执行步骤2.3.7；

步骤2.3.10、将i+1赋值给i，判断i≤n是否成立，若成立，将i+1赋值给j，执行步骤2.3.8；否则，最大重要性权值为H(e_ij)，将H(e_ij)赋值给update(m)，并将m+1赋值给m。如果出现H值相等的情况，则按H值的计算顺序进行标签更新。例如：同时得到相同的最大值，此时按H值的计算顺序进行标签更新，即这三条边更新顺序为：{e₁₂,e₁₃,e₂₃}。

步骤2.3.11、对剩余的边重复执行步骤2.3.2-步骤2.3.10，得到网络中所有边的重要性权重指标值的降序排列，存放在update中，并将排序后的边e_i'_j存放在集合E'中，按上述方法，得到最终的边的更新序列为：E'＝{e₁₂,e₁₃,e₂₃,e₁₄,e₂₄,e₃₄,e₆₇,e₅₆,e₅₇,e₄₅}。

步骤2.4、对排序后的连接关系集合E′中的所有边按先后顺序进行标签更新，具体步骤如下：

步骤2.4.2、根据分组结果，利用式(3)得到排序后的边e′_ij与第u个组中所有邻居边的相似性指标之和从而得到排序后的边e′_ij与U个组的相似性指标之和序列

步骤2.4.3、从排序后的边e′_ij与U个组的相似性指标之和序列中选取最大相似性指标之和所对应的组的标签作为排序后的边e′_ij的新标签，记为lab′(e′_ij)，对于边e_ij，其与每个分组的相似性指标值之和越大，则表示边e_ij与该组边的联系越紧密，故用该组对应的边的标签更新边e_ij的原标签若U个组中存在相同的相似性指标之和，则选取平均相似性指标最大的组所对应标签作为排序后的边e′_ij的新标签lab′(e′_ij)；若这多个分组的平均相似性指标相等，按照相似性指标和的计算顺序，取第一组对应的边的标签作为排序后的边e′_ij的新标签lab′(e′_ij)。从而得到PPI网络中所有排序后的边的新标签；

由步骤2.3得到的边的更新序列知：在图2a所示的PPI网络中，最先需要更新的边为e₁₂，且边e₁₂的邻居边为：{e₁₃,e₁₄,e₂₃,e₂₄}，对应的初始标签分别为：{2,3,4,5}，因此，边e₁₂的邻居边按标签种类分为4组，分别计算每个组里的边与边e₁₂的相似性指数之和，结果为：ELS(e₁₂,e₁₃)＝0.5，ELS(e₁₂,e₁₄)＝0.429，ELS(e₁₂,e₂₃)＝0.5，ELS(e₁₂,e₂₄)＝0.429。得知ELS(e₁₂,e₁₃)和ELS(e₁₂,e₂₃)的值相等且同时达到最大，均为0.5。此时，比较这两组的平均相似性指数值，仍均为0.5，故选择这两组里面最先计算的相似度ELS(e₁₂,e₁₃)中e₁₃对应的标签为边e₁₂进行更新，因此边e₁₂的标签更新为边e₁₃的标签，即更新为2。同理，其他边按照排序后的蛋白质之间连接关系的集合E'中序列的顺序依次按照更新规则更新各自对应的标签。重复上述步骤，最终得到图2b中的标签传播结果为：{2,2,2,2,2,2,2,8,8,8}。

步骤2.5、根据PPI网络中所有排序后的边的新标签，将具有相同标签对应的边e_ij划分到同一个边社团中，从而得到C个边社团；如图2b中得到的两个边社团，记为{{(1,2),(1,3),(1,4),(2,3),(2,4),(3,4),(4,5)}{(5,6),(5,7),(6,7)}}。通常的解码过程是将同一个边社团中所有边连接的蛋白质节点划分到同一个点集合中，这些蛋白质节点和它们之间的联系组成一个蛋白质功能模块。而由于受到噪声的影响，通常需要在解码之前对网络的边聚类结果进行过滤处理，以消除噪声边对聚类结果的影响。

因此，本发明提出一种过滤策略对PPI网络的边聚类结果进行过滤处理，减少噪声的影响，提高边社团划分的质量，该过滤过程实际是提前过滤掉蛋白质节点之间可能存在的不合理的连接关系，在后期解码为蛋白质功能模块时能得到更为准确的结果。

步骤2.6、将C个边社团中第c个边社团的第a个蛋白质节点v_a的所有邻接边的标签集合记为表示第a个蛋白质节点v_a的第b条邻接边e_ab的标签；1≤c≤C；1≤b≤B；b∈N(a)；B表示第a个蛋白质节点v_a的邻接边的最大条数，即第a个蛋白质节点v_a共有B条邻接边；N(a)表示第a个蛋白质节点v_a的邻居节点的集合；如图2b所示，具有相同标签的边划分为2个社团，记为：c1:{(1,2),(1,3),(1,4),(2,3),(2,4),(3,4),(4,5)}，c2:{(5,6),(5,7),(6,7)}，其中边社团c1中的蛋白质节点v₅的所有邻接边的标签集合记为Lab^c1(v₅)＝{2,8,8}。

步骤2.7、将标签集合Lab^c(v_a)中相同标签划分为一组，并计算每一组的标签个数，并将最多的标签个数记为Max，计算每一组的标签个数与Max之间的比值p，计算公式如下：

式(4)中，v_i_label_num(l).size表示蛋白质节点v_i的邻接边集合中标签为l的边的条数，Max表示蛋白质节点v_i的邻接边中相同标签出现的最大次数。如图2b所示，Lab¹(v₅)中的标签分为两组，记为v₅_label_num＝{2,8}，其中v₅_label_num(2).size＝1，v₅_label_num(8).size＝2，当l＝2时，p值为：当l＝8时，p值为：

步骤2.8、为了抑制噪声对蛋白质功能模块划分结果的影响，将各个比值p分别与所设定阈值r进行比较，判断p≤r是否成立，若成立，则该标签对应的边视为噪声边，意味着将该边对应的两个蛋白质节点之间的相互作用视为噪声，将其对应的标签从Lab^c(v_a)中删除，否则，保留相应标签。从而得到更新后的第c个边社团的第a个蛋白质节点v_a的邻接边的标签集合Lab^c(v_a)′；如图2b中，取r＝0.6，由于则将标签l＝2的边视为噪声边，将其从Lab¹(v₅)删除，在后续解码过程中不考虑边e₄₅的影响，从而得到更新后的蛋白质节点v₅的邻接边的标签集合Lab^c1(v₅)′＝{8,8}。进而得到更新后的第c个边社团的每个蛋白质节点的邻接边的标签集合；最后得到更新后的C个边社团的每个蛋白质节点的邻接边的标签集合；步骤2.9、对更新后的第c个边社团进行解码，得到相同的边标签所对应的第c个蛋白质节点集合，将第c个蛋白质节点集合作为一个蛋白质功能模块，从而完成C个蛋白质功能模块的识别。如图2b中，边社团划分结果为{{(1,2),(1,3),(1,4),(2,3),(2,4),(3,4),(4,5)}{(5,6),(5,7),(6,7)}}，经过过滤操作后，删除边e₄₅后，得到更新后的边社团划分结果为{{(1,2),(1,3),(1,4),(2,3),(2,4),(3,4)}{(5,6),(5,7),(6,7)}}，经过解码操作，将相同的边标签所对应的蛋白质节点集合划分为一个蛋白质功能模块，最终得到2个蛋白质功能模块{(1,2,3,4)(5,6,7)}。

Claims

1.一种基于边驱动的标签传播算法的蛋白质功能模块识别方法，其特征是应用于PPI网络中的蛋白质功能模块识别，所述PPI网络表征为无向图G＝(V,E)，其中，V＝{v₁,v₂,…,v_i,…,v_n}表示所述PPI网络中所有蛋白质节点的集合，v_i表示第i个蛋白质节点，n为所述PPI网络中的蛋白质节点总数，E＝{e_ij|i＝1,2,…,n；j＝1,2,…,n；i≠j}表示蛋白质之间连接关系集合，e_ij表示第i个蛋白质节点和第j个蛋白质节点之间的连接关系；若e_ij＝1，表示第i个蛋白质节点v_i与第j个蛋白质节点v_j之间有连接关系，并用边来表征；若e_ij＝0，表示第i个蛋白质节点v_i与第j个蛋白质节点v_j之间没有连接关系，即没有边相连；若e_ij＝1且e_ik＝1，则表示第j个蛋白质节点v_j与第k个蛋白质节点v_k分别为第i个蛋白质节点v_i的邻居节点；且第i个蛋白质节点v_i的邻接边为e_ij和e_ik，e_ij和e_ik互为邻居边；记所述蛋白质之间连接关系集合E中所有边的数量为|E|；所述蛋白质功能模块识别方法是按如下步骤进行：

步骤2.3、根据所述PPI网络中所有边的重要性权重指标值，对所述蛋白质之间连接关系集合E进行降序排序，得到排序后的蛋白质之间连接关系的集合E′＝{e_i′_j|i＝1,2,…,n；j＝1,2,…,n；i≠j}；

步骤2.4.1、将排序后的边e_i′_j的邻居边集合N(e_i′_j)按照其标签值进行分组，将相同标签值的邻居边作为一组，从而得到U个组表示排序后的边e_i′_j的邻居边集合中的第u个组；记第u个组中相同标签值的边个数为

步骤2.4.2、利用式(3)得到排序后的边e_i′_j与第u个组中所有邻居边的相似性指标之和从而得到排序后的边e_i′_j与U个组的相似性指标之和序列

步骤2.4.3、从所述排序后的边e_i′_j与U个组的相似性指标之和序列中选取最大相似性指标之和所对应的组的标签作为排序后的边e_i′_j的新标签，记为lab′(e_i′_j)，若U个组中存在相同的相似性指标之和，则选取平均相似性指标最大的组所对应标签作为排序后的边e_i′_j的新标签lab′(e_i′_j)；从而得到所述PPI网络中所有排序后的边的新标签；