CN111339374A

CN111339374A - 一种基于加权三角密度的稠密子图抽取方法

Info

Publication number: CN111339374A
Application number: CN202010114785.0A
Authority: CN
Inventors: 王荣杰; 王家兵
Original assignee: South China University of Technology SCUT
Current assignee: South China University of Technology SCUT
Priority date: 2020-02-25
Filing date: 2020-02-25
Publication date: 2020-06-26

Abstract

本发明公开了一种基于加权三角密度的稠密子图抽取方法，包括步骤：S1、给定一个图数据，建立起图网络；S2、用三角形抽取算法将图网络中的三角形集合抽取出来；S3、根据应用场景对每个三角形进行合适的赋权，定义密度函数；S4、利用赋权好的三角形集合，建立起流网络；S5、利用二分法搜索合适的流网络参数；S6、计算流网络的S集和输入顶点集合交集，得到稠密子图。本发明能够从稀疏的图中，根据图的结构信息抽取出边密度高的子图，并且可以结合节点本身的信息，使得抽取出的子图不仅密度大并且符合应用场景要求，能够应用在蛋白质作用分析等图挖掘应用中。

Description

一种基于加权三角密度的稠密子图抽取方法

技术领域

本发明涉及图网络数据挖掘的技术领域，尤其是指一种基于加权三角密度的稠密子图抽取方法。

背景技术

图是最常用的数据结构之一，用来表示实体之间错综复杂的关系。近年来，在应用领域和科研领域中产生了大量用图来建模和表示的数据，称为图数据。如社交网络、web网络、生物蛋白质网络等，这类数据往往规模大、关系复杂，难以分析。挖掘图数据中的有用知识已经成为一个重要的研究热点，简称图数据挖掘。其中，稠密子图发现是图数据挖掘中一个十分重要的问题。

给定一个图，稠密子图发现旨在图中挖掘出一个子图，使得子图中边的密度最大。这意味着，这个子图中的节点之间联系紧密。挖掘出联系紧密的子图，有助于我们理解和挖掘图中的有用信息。密度定义度量的只是稠密子图内部节点和边的特性，与密集子图外部的拓扑结构无关。最简单的寻找稠密子图的方法是最大团算法，然而最大团是NP难问题，具有很大的算法复杂度。因此，许多研究者，使用一些近似算法来寻找稠密子图。这些算法，在很多小图上能够搜索出密度高的子图，但是在一些稀疏的大规模图上，往往抽取出密度不高的子图。并且现有的稠密子图方法只关注在无权图上，而现实中的图挖掘场景往往是带权图，难以满足应用需要。

因此，找到一种性能更好并且能够充分图的结构信息和权重信息的算法，成为本领域一个亟待解决的问题。

发明内容

本发明的目的在于克服现有技术的缺点与不足，提出了一种基于加权三角密度的稠密子图抽取方法，能够在稀疏的大规模图上抽取出密度高的子图，并且该方法不仅能够根据图的结构信息抽取出密度高的子图，还可以结合节点本身的信息，使得抽取出的子图不仅密度大并且符合应用场景要求。

为实现上述目的，本发明所提供的技术方案为：一种基于加权三角密度的稠密子图抽取方法，包括以下步骤：

S1、给定一个图数据，建立起图网络G＝(V,E)，其中V为输入图中的顶点集合，E为输入图中的边集合；

S2、用三角形抽取算法将图网络G＝(V,E)中的三角形集合抽取出来；

S3、根据应用场景对每个三角形进行合适的赋权，定义密度函数；

S4、利用赋权好的三角形集合，建立起流网络；

S5、利用二分法搜索合适的流网络参数；

S6、计算流网络的S集和输入顶点集合交集，得到稠密子图。

在步骤S3中，对于每个三角形赋权，用w(Δ_P)表示对顶点集合为P的三角形的赋权大小，基于赋权定义密度函数：

用来表示一个子图G₁＝(V₁,E₁)的密度，其中Z₁是子图G₁中的三角形集合，|V₁|是子图G₁中顶点集合V₁的节点个数，E₁为子图G₁中的边集合。

在步骤S4中，流网络的顶点由源节点s、汇节点t、输入图中的顶点集合V、三角形节点集合Z组成；其中集合Z每一个节点代表输入图G＝(V,E)中对应的每个三角形，流网络由以下方式构建：

S41、对于集合Z每一个节点t_P和源节点s建立一条边，容量为节点t_P对应三角形Δ_P的赋权大小w(Δ_P)；

S42、对于集合Z每一个节点t_P，将节点t_P对应三角形Δ_P的三个节点和节点t_P建立一条边，容量为+∞；

S43、对于顶点集合V每一个节点和汇节点t建立一条边，容量为λ，其中，λ为可变参数，会在步骤S5中，不断更新，直至最优，而其它参数都是一开始设定，不再改变；

在步骤S5中，初始化l＝0,

作为λ的初次搜索范围，在(l,r)区间内搜索最优的λ参数；其中，w(e)是边e的权重大小，如果是边无权，统一设置每条边权重为1，下面使用以下步骤来寻找最优参数：

S51、更新λ，使得

S52、计算流网络的从源节点s到汇节点t的最大流，获取S集和T集；

S53、如果S集合只包含源节点s，更新r＝λ；否则更新l＝λ；

重复上面步骤S51-S53，直至

停止，其中，w_u为输入图中所有顶点的权重之和，如果是顶点无权，统一设置每个顶点权重为1。

在步骤S6中，使用找到合适参数的流网络的S集合和输入图G＝(V,E)顶点集合V的交集即为抽取得到稠密子图节点集合，具体如下：

基于步骤S3定义的密度函数WTD，搜索输入图G＝(V,E)中使得密度函数取得最大的子图，目标函数定义如下：

其中，G₁是由顶点集合V₁引导的子图；通过构建流网络，使用最大流算法，获取S集和T集合，根据结果使用二分法不断迭代更新参数λ，直至参数最优，计算流网络的S集和输入顶点集合交集，来抽取得到稠密子图。

本发明与现有技术相比，具有如下优点与有益效果：

1、本发明能够根据图的结构信息抽取出密度高的子图。

2、本发明抽取出的稠密子图密度和其它现有方法相比更高。

3、在大规模稀疏图中，本发明抽取出的子图密度仍然很高，和其它现有方法相比性能更好更稳定。

4、本发明还可以通过设计合适的权重来结合节点除了结构信息以外的特征，使得抽取出的子图不仅密度大并且符合应用场景要求，能广泛应用在各种图挖掘应用中。

附图说明

图1为本发明逻辑流程示意图。

图2为本发明输入图数据样例图。

图3为本发明构建的流网络示意图。

具体实施方式

下面结合具体实施例对本发明作进一步说明。

如图1所示，本实施例所提供的基于加权三角密度的稠密子图抽取方法，包括以下步骤：

S1、获取图数据，建立起图网络G＝(V,E)。

所述图数据不仅包括顶点之间的连接信息，还可以包括节点、边之间的其他特征信息。这边以一个只有顶点之间连接信息的样例作为示例，给定邻接矩阵：

如果节点之间有边，则邻接矩阵相应的位置为1，否则为0。根据上面的邻接矩阵构建图网络G＝(V,E)，如图2所示。

S2、利用三角形抽取算法将图网络G＝(V,E)中的三角形集合抽取出来。

抽取出图中的三角形集合，如图2所示，图中三角形集合包括由节点集合{1,2,4}、节点集合{1,2,5}、节点集合{1,4,5}和节点集合{2,4,5}构成的4个三角形。

S3、根据应用场景对每个三角形进行合适的赋权，定义密度函数。

对于每个三角形赋权，用w(Δ_P)表示对顶点集合为的三角形的赋权大小，基于赋权我们定义密度函数：

S4、利用赋权好的三角形集合，建立起流网络。如图3所示，流网络由以下方式构建：

S41、对于集合Z每一个节点t_P和源节点s建立一条边，容量为节点t_P对应三角形Δ_P的赋权大小w(Δ_P)。在给定的例子图中，就是把节点t₁₂₄和s建立一条边，容量为三角形Δ₁₂₄的权重大小w₁₂₄；把节点t₁₂₅和s建立一条边，容量为三角形Δ₁₂₅的权重大小w₁₂₅；把节点t₁₄₅和s建立一条边，容量为三角形Δ₁₄₅的权重大小w₁₄₅；把节点t₂₄₅和s建立一条边，容量为三角形Δ₂₄₅的权重大小w₂₄₅；

S42、对于集合Z每一个节点t_P，将节点t_P对应三角形Δ_P的三个节点和节点t_P建立一条边，容量为+∞；在给定的例子图中，就是把节点t₁₂₄和节点1,2,4建立一条边，容量为+∞；把节点t₁₂₅和节点1,2,5建立一条边，容量为+∞；把节点t₁₄₅和节点1,4,5建立一条边，容量为+∞；把节点t₂₄₅和节点2,4,5建立一条边，容量为+∞；

S43、对于顶点集合V每一个节点和汇节点t建立一条边，容量为λ；在给定的例子图中，就是把节点1,2,3,4,5,6和汇节点t建立一条边，容量为λ。

S5、利用二分法搜索合适的流网络参数，得到稠密子图。

初始化l＝0,

作为λ的初次搜索范围，在(l,r)区间内搜索最优的λ参数。其中，w(e)是边e的权重大小，给定样例图中，为无权图，统一设置每条边权重为1，即r＝9。w_u为输入图中，所有顶点的权重之和，给定样例图中，为无权图，统一设置每个顶点权重为1，即

使用以下步骤来寻找最优参数：

S51、更新λ，使得

S53、如果S集合只包含源节点s，更新r＝λ；否则更新l＝λ；

重复上面步骤S51-S53，直至

停止，即直至

停止。

S6、使用找到合适参数的流网络的S集合和输入图G＝(V,E)顶点集合V的交集即为抽取得到稠密子图节点集合，即计算流网络的S集和输入顶点集合交集，得到稠密子图。基于步骤S3定义的密度函数WTD，搜索输入图G＝(V,E)中使得密度函数取得最大的子图，目标函数定义如下：

此时，S集合{'s',1,2,4,5}和输入图顶点集合V{1,2,3,4,5,6}的交集即为抽取得到稠密子图节点集合，即节点集合{1,2,4,5}为稠密子图节点集合。

下面为本实施例上述稠密子图抽取方法的应用场景：

比如应用到蛋白质分析。近年来，生物学家们通过酵母菌双杂交技术、质谱分析技术、蛋白质芯片等高通量技术成功地确定了大量蛋白质之间存在的成对一的相互作用关系，并构建了很多含有数万条蛋白质关系数据的蛋白质相互作用关系数据库。大量的蛋白质关系集中在一起可以进一步构成蛋白质关系网络，从而使科学家们能够从更宏观的角度研究一些他们感兴趣的蛋白质关系在大量相关的蛋白质和蛋白质关系中具有什么样的意义。从拓扑结构上分析蛋白质关系网络的特性，进而探寻蛋白质复合物和功能模块、注释未知蛋白质功能正成为当今国内外研究的重要焦点。以往生物学家们在研究单个或少量相关的蛋白质关系时，往往根据对这几个蛋白质的专业知识和生物学实验经验在一个小的范围中进行分析，分析结果的信息量相对较少。而很多生物学功能是通过一组功能相似度高的蛋白质构成的蛋白质复合物来完成的，从蛋白质关系网络中生物学家可以收集更多的蛋白质之间的关系信息，并通过对网络的分析和聚类挖掘其中的蛋白质复合物。

蛋白质复合物是生物细胞内由两个或两个以上的蛋白质构成的具有特定功能的一种大分子结构，通过蛋白质之间紧密的相互联系结合而成的。这些蛋白质具有高度的功能相似性，并且都处于细胞组织结构中相同的位置，通常会参与相同的生物过程。这些由多个蛋白质组成的团体由于内部的蛋白质之间相互作用关系较为紧密，因此通常在蛋白质关系网络中表现为一些稠密的区域。

本发明方法可以通过稠密子图抽取，对蛋白质关系网络分析来自动地抽取出蛋白质网络中稠密的子图，挖掘出网络中存在的蛋白质复合物，这比通过复杂的生物学实验提高了很多效率，帮助研究者发现蛋白质复合物。

以上所述实施例只为本发明之较佳实施例，并非以此限制本发明的实施范围，故凡依本发明之形状、原理所作的变化，均应涵盖在本发明的保护范围内。

Claims

1.一种基于加权三角密度的稠密子图抽取方法，其特征在于，包括以下步骤：

S4、利用赋权好的三角形集合，建立起流网络；

S5、利用二分法搜索合适的流网络参数；

S6、计算流网络的S集和输入顶点集合交集，得到稠密子图。

2.根据权利要求1所述的一种基于加权三角密度的稠密子图抽取方法，其特征在于：在步骤S3中，对于每个三角形赋权，用w(Δ_P)表示对顶点集合为P的三角形的赋权大小，基于赋权定义密度函数：

3.根据权利要求1所述的一种基于加权三角密度的稠密子图抽取方法，其特征在于：在步骤S4中，流网络的顶点由源节点s、汇节点t、输入图中的顶点集合V、三角形节点集合Z组成；其中集合Z每一个节点代表输入图G＝(V,E)中对应的每个三角形，流网络由以下方式构建：

在步骤S5中，初始化l＝0,

S51、更新λ，使得

S53、如果S集合只包含源节点s，更新r＝λ；否则更新l＝λ；

重复上面步骤S51-S53，直至

4.根据权利要求1所述的一种基于加权三角密度的稠密子图抽取方法，其特征在于：在步骤S6中，使用找到合适参数的流网络的S集合和输入图G＝(V,E)顶点集合V的交集即为抽取得到稠密子图节点集合，具体如下：