CN111339374A - 一种基于加权三角密度的稠密子图抽取方法 - Google Patents
一种基于加权三角密度的稠密子图抽取方法 Download PDFInfo
- Publication number
- CN111339374A CN111339374A CN202010114785.0A CN202010114785A CN111339374A CN 111339374 A CN111339374 A CN 111339374A CN 202010114785 A CN202010114785 A CN 202010114785A CN 111339374 A CN111339374 A CN 111339374A
- Authority
- CN
- China
- Prior art keywords
- graph
- node
- triangle
- network
- density
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000605 extraction Methods 0.000 title claims abstract description 17
- 108090000623 proteins and genes Proteins 0.000 abstract description 32
- 102000004169 proteins and genes Human genes 0.000 abstract description 32
- 238000005065 mining Methods 0.000 abstract description 7
- 238000004458 analytical method Methods 0.000 abstract description 3
- 230000006870 function Effects 0.000 description 11
- 238000000034 method Methods 0.000 description 9
- 238000010586 diagram Methods 0.000 description 6
- 150000001875 compounds Chemical class 0.000 description 3
- 238000007418 data mining Methods 0.000 description 3
- 230000003993 interaction Effects 0.000 description 2
- 239000011159 matrix material Substances 0.000 description 2
- 101710100170 Unknown protein Proteins 0.000 description 1
- 230000002776 aggregation Effects 0.000 description 1
- 238000004220 aggregation Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000008827 biological function Effects 0.000 description 1
- 230000031018 biological processes and functions Effects 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000002474 experimental method Methods 0.000 description 1
- 238000004949 mass spectrometry Methods 0.000 description 1
- 230000004853 protein function Effects 0.000 description 1
- 230000006916 protein interaction Effects 0.000 description 1
- 238000001086 yeast two-hybrid system Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/901—Indexing; Data structures therefor; Storage structures
- G06F16/9024—Graphs; Linked lists
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B25/00—ICT specially adapted for hybridisation; ICT specially adapted for gene or protein expression
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B40/00—ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Life Sciences & Earth Sciences (AREA)
- Health & Medical Sciences (AREA)
- Databases & Information Systems (AREA)
- Medical Informatics (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Data Mining & Analysis (AREA)
- Spectroscopy & Molecular Physics (AREA)
- General Health & Medical Sciences (AREA)
- Evolutionary Biology (AREA)
- Biophysics (AREA)
- Biotechnology (AREA)
- Bioinformatics & Computational Biology (AREA)
- Software Systems (AREA)
- General Physics & Mathematics (AREA)
- Public Health (AREA)
- Evolutionary Computation (AREA)
- Epidemiology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Bioethics (AREA)
- Artificial Intelligence (AREA)
- General Engineering & Computer Science (AREA)
- Genetics & Genomics (AREA)
- Molecular Biology (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本发明公开了一种基于加权三角密度的稠密子图抽取方法,包括步骤:S1、给定一个图数据,建立起图网络;S2、用三角形抽取算法将图网络中的三角形集合抽取出来;S3、根据应用场景对每个三角形进行合适的赋权,定义密度函数;S4、利用赋权好的三角形集合,建立起流网络;S5、利用二分法搜索合适的流网络参数;S6、计算流网络的S集和输入顶点集合交集,得到稠密子图。本发明能够从稀疏的图中,根据图的结构信息抽取出边密度高的子图,并且可以结合节点本身的信息,使得抽取出的子图不仅密度大并且符合应用场景要求,能够应用在蛋白质作用分析等图挖掘应用中。
Description
技术领域
本发明涉及图网络数据挖掘的技术领域,尤其是指一种基于加权三角密度的稠密子图抽取方法。
背景技术
图是最常用的数据结构之一,用来表示实体之间错综复杂的关系。近年来,在应用领域和科研领域中产生了大量用图来建模和表示的数据,称为图数据。如社交网络、web网络、生物蛋白质网络等,这类数据往往规模大、关系复杂,难以分析。挖掘图数据中的有用知识已经成为一个重要的研究热点,简称图数据挖掘。其中,稠密子图发现是图数据挖掘中一个十分重要的问题。
给定一个图,稠密子图发现旨在图中挖掘出一个子图,使得子图中边的密度最大。这意味着,这个子图中的节点之间联系紧密。挖掘出联系紧密的子图,有助于我们理解和挖掘图中的有用信息。密度定义度量的只是稠密子图内部节点和边的特性,与密集子图外部的拓扑结构无关。最简单的寻找稠密子图的方法是最大团算法,然而最大团是NP难问题,具有很大的算法复杂度。因此,许多研究者,使用一些近似算法来寻找稠密子图。这些算法,在很多小图上能够搜索出密度高的子图,但是在一些稀疏的大规模图上,往往抽取出密度不高的子图。并且现有的稠密子图方法只关注在无权图上,而现实中的图挖掘场景往往是带权图,难以满足应用需要。
因此,找到一种性能更好并且能够充分图的结构信息和权重信息的算法,成为本领域一个亟待解决的问题。
发明内容
本发明的目的在于克服现有技术的缺点与不足,提出了一种基于加权三角密度的稠密子图抽取方法,能够在稀疏的大规模图上抽取出密度高的子图,并且该方法不仅能够根据图的结构信息抽取出密度高的子图,还可以结合节点本身的信息,使得抽取出的子图不仅密度大并且符合应用场景要求。
为实现上述目的,本发明所提供的技术方案为:一种基于加权三角密度的稠密子图抽取方法,包括以下步骤:
S1、给定一个图数据,建立起图网络G=(V,E),其中V为输入图中的顶点集合,E为输入图中的边集合;
S2、用三角形抽取算法将图网络G=(V,E)中的三角形集合抽取出来;
S3、根据应用场景对每个三角形进行合适的赋权,定义密度函数;
S4、利用赋权好的三角形集合,建立起流网络;
S5、利用二分法搜索合适的流网络参数;
S6、计算流网络的S集和输入顶点集合交集,得到稠密子图。
在步骤S3中,对于每个三角形赋权,用w(ΔP)表示对顶点集合为P的三角形的赋权大小,基于赋权定义密度函数:
用来表示一个子图G1=(V1,E1)的密度,其中Z1是子图G1中的三角形集合,|V1|是子图G1中顶点集合V1的节点个数,E1为子图G1中的边集合。
在步骤S4中,流网络的顶点由源节点s、汇节点t、输入图中的顶点集合V、三角形节点集合Z组成;其中集合Z每一个节点代表输入图G=(V,E)中对应的每个三角形,流网络由以下方式构建:
S41、对于集合Z每一个节点tP和源节点s建立一条边,容量为节点tP对应三角形ΔP的赋权大小w(ΔP);
S42、对于集合Z每一个节点tP,将节点tP对应三角形ΔP的三个节点和节点tP建立一条边,容量为+∞;
S43、对于顶点集合V每一个节点和汇节点t建立一条边,容量为λ,其中,λ为可变参数,会在步骤S5中,不断更新,直至最优,而其它参数都是一开始设定,不再改变;
S52、计算流网络的从源节点s到汇节点t的最大流,获取S集和T集;
S53、如果S集合只包含源节点s,更新r=λ;否则更新l=λ;
在步骤S6中,使用找到合适参数的流网络的S集合和输入图G=(V,E)顶点集合V的交集即为抽取得到稠密子图节点集合,具体如下:
基于步骤S3定义的密度函数WTD,搜索输入图G=(V,E)中使得密度函数取得最大的子图,目标函数定义如下:
其中,G1是由顶点集合V1引导的子图;通过构建流网络,使用最大流算法,获取S集和T集合,根据结果使用二分法不断迭代更新参数λ,直至参数最优,计算流网络的S集和输入顶点集合交集,来抽取得到稠密子图。
本发明与现有技术相比,具有如下优点与有益效果:
1、本发明能够根据图的结构信息抽取出密度高的子图。
2、本发明抽取出的稠密子图密度和其它现有方法相比更高。
3、在大规模稀疏图中,本发明抽取出的子图密度仍然很高,和其它现有方法相比性能更好更稳定。
4、本发明还可以通过设计合适的权重来结合节点除了结构信息以外的特征,使得抽取出的子图不仅密度大并且符合应用场景要求,能广泛应用在各种图挖掘应用中。
附图说明
图1为本发明逻辑流程示意图。
图2为本发明输入图数据样例图。
图3为本发明构建的流网络示意图。
具体实施方式
下面结合具体实施例对本发明作进一步说明。
如图1所示,本实施例所提供的基于加权三角密度的稠密子图抽取方法,包括以下步骤:
S1、获取图数据,建立起图网络G=(V,E)。
所述图数据不仅包括顶点之间的连接信息,还可以包括节点、边之间的其他特征信息。这边以一个只有顶点之间连接信息的样例作为示例,给定邻接矩阵:
如果节点之间有边,则邻接矩阵相应的位置为1,否则为0。根据上面的邻接矩阵构建图网络G=(V,E),如图2所示。
S2、利用三角形抽取算法将图网络G=(V,E)中的三角形集合抽取出来。
抽取出图中的三角形集合,如图2所示,图中三角形集合包括由节点集合{1,2,4}、节点集合{1,2,5}、节点集合{1,4,5}和节点集合{2,4,5}构成的4个三角形。
S3、根据应用场景对每个三角形进行合适的赋权,定义密度函数。
对于每个三角形赋权,用w(ΔP)表示对顶点集合为的三角形的赋权大小,基于赋权我们定义密度函数:
用来表示一个子图G1=(V1,E1)的密度,其中Z1是子图G1中的三角形集合,|V1|是子图G1中顶点集合V1的节点个数,E1为子图G1中的边集合。
S4、利用赋权好的三角形集合,建立起流网络。如图3所示,流网络由以下方式构建:
S41、对于集合Z每一个节点tP和源节点s建立一条边,容量为节点tP对应三角形ΔP的赋权大小w(ΔP)。在给定的例子图中,就是把节点t124和s建立一条边,容量为三角形Δ124的权重大小w124;把节点t125和s建立一条边,容量为三角形Δ125的权重大小w125;把节点t145和s建立一条边,容量为三角形Δ145的权重大小w145;把节点t245和s建立一条边,容量为三角形Δ245的权重大小w245;
S42、对于集合Z每一个节点tP,将节点tP对应三角形ΔP的三个节点和节点tP建立一条边,容量为+∞;在给定的例子图中,就是把节点t124和节点1,2,4建立一条边,容量为+∞;把节点t125和节点1,2,5建立一条边,容量为+∞;把节点t145和节点1,4,5建立一条边,容量为+∞;把节点t245和节点2,4,5建立一条边,容量为+∞;
S43、对于顶点集合V每一个节点和汇节点t建立一条边,容量为λ;在给定的例子图中,就是把节点1,2,3,4,5,6和汇节点t建立一条边,容量为λ。
S5、利用二分法搜索合适的流网络参数,得到稠密子图。
初始化l=0,作为λ的初次搜索范围,在(l,r)区间内搜索最优的λ参数。其中,w(e)是边e的权重大小,给定样例图中,为无权图,统一设置每条边权重为1,即r=9。wu为输入图中,所有顶点的权重之和,给定样例图中,为无权图,统一设置每个顶点权重为1,即
使用以下步骤来寻找最优参数:
S52、计算流网络的从源节点s到汇节点t的最大流,获取S集和T集;
S53、如果S集合只包含源节点s,更新r=λ;否则更新l=λ;
S6、使用找到合适参数的流网络的S集合和输入图G=(V,E)顶点集合V的交集即为抽取得到稠密子图节点集合,即计算流网络的S集和输入顶点集合交集,得到稠密子图。基于步骤S3定义的密度函数WTD,搜索输入图G=(V,E)中使得密度函数取得最大的子图,目标函数定义如下:
其中,G1是由顶点集合V1引导的子图;通过构建流网络,使用最大流算法,获取S集和T集合,根据结果使用二分法不断迭代更新参数λ,直至参数最优,计算流网络的S集和输入顶点集合交集,来抽取得到稠密子图。
此时,S集合{'s',1,2,4,5}和输入图顶点集合V{1,2,3,4,5,6}的交集即为抽取得到稠密子图节点集合,即节点集合{1,2,4,5}为稠密子图节点集合。
下面为本实施例上述稠密子图抽取方法的应用场景:
比如应用到蛋白质分析。近年来,生物学家们通过酵母菌双杂交技术、质谱分析技术、蛋白质芯片等高通量技术成功地确定了大量蛋白质之间存在的成对一的相互作用关系,并构建了很多含有数万条蛋白质关系数据的蛋白质相互作用关系数据库。大量的蛋白质关系集中在一起可以进一步构成蛋白质关系网络,从而使科学家们能够从更宏观的角度研究一些他们感兴趣的蛋白质关系在大量相关的蛋白质和蛋白质关系中具有什么样的意义。从拓扑结构上分析蛋白质关系网络的特性,进而探寻蛋白质复合物和功能模块、注释未知蛋白质功能正成为当今国内外研究的重要焦点。以往生物学家们在研究单个或少量相关的蛋白质关系时,往往根据对这几个蛋白质的专业知识和生物学实验经验在一个小的范围中进行分析,分析结果的信息量相对较少。而很多生物学功能是通过一组功能相似度高的蛋白质构成的蛋白质复合物来完成的,从蛋白质关系网络中生物学家可以收集更多的蛋白质之间的关系信息,并通过对网络的分析和聚类挖掘其中的蛋白质复合物。
蛋白质复合物是生物细胞内由两个或两个以上的蛋白质构成的具有特定功能的一种大分子结构,通过蛋白质之间紧密的相互联系结合而成的。这些蛋白质具有高度的功能相似性,并且都处于细胞组织结构中相同的位置,通常会参与相同的生物过程。这些由多个蛋白质组成的团体由于内部的蛋白质之间相互作用关系较为紧密,因此通常在蛋白质关系网络中表现为一些稠密的区域。
本发明方法可以通过稠密子图抽取,对蛋白质关系网络分析来自动地抽取出蛋白质网络中稠密的子图,挖掘出网络中存在的蛋白质复合物,这比通过复杂的生物学实验提高了很多效率,帮助研究者发现蛋白质复合物。
以上所述实施例只为本发明之较佳实施例,并非以此限制本发明的实施范围,故凡依本发明之形状、原理所作的变化,均应涵盖在本发明的保护范围内。
Claims (4)
1.一种基于加权三角密度的稠密子图抽取方法,其特征在于,包括以下步骤:
S1、给定一个图数据,建立起图网络G=(V,E),其中V为输入图中的顶点集合,E为输入图中的边集合;
S2、用三角形抽取算法将图网络G=(V,E)中的三角形集合抽取出来;
S3、根据应用场景对每个三角形进行合适的赋权,定义密度函数;
S4、利用赋权好的三角形集合,建立起流网络;
S5、利用二分法搜索合适的流网络参数;
S6、计算流网络的S集和输入顶点集合交集,得到稠密子图。
3.根据权利要求1所述的一种基于加权三角密度的稠密子图抽取方法,其特征在于:在步骤S4中,流网络的顶点由源节点s、汇节点t、输入图中的顶点集合V、三角形节点集合Z组成;其中集合Z每一个节点代表输入图G=(V,E)中对应的每个三角形,流网络由以下方式构建:
S41、对于集合Z每一个节点tP和源节点s建立一条边,容量为节点tP对应三角形ΔP的赋权大小w(ΔP);
S42、对于集合Z每一个节点tP,将节点tP对应三角形ΔP的三个节点和节点tP建立一条边,容量为+∞;
S43、对于顶点集合V每一个节点和汇节点t建立一条边,容量为λ,其中,λ为可变参数,会在步骤S5中,不断更新,直至最优,而其它参数都是一开始设定,不再改变;
S52、计算流网络的从源节点s到汇节点t的最大流,获取S集和T集;
S53、如果S集合只包含源节点s,更新r=λ;否则更新l=λ;
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010114785.0A CN111339374A (zh) | 2020-02-25 | 2020-02-25 | 一种基于加权三角密度的稠密子图抽取方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010114785.0A CN111339374A (zh) | 2020-02-25 | 2020-02-25 | 一种基于加权三角密度的稠密子图抽取方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN111339374A true CN111339374A (zh) | 2020-06-26 |
Family
ID=71181796
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010114785.0A Pending CN111339374A (zh) | 2020-02-25 | 2020-02-25 | 一种基于加权三角密度的稠密子图抽取方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111339374A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112214499A (zh) * | 2020-12-03 | 2021-01-12 | 腾讯科技(深圳)有限公司 | 图数据处理方法、装置、计算机设备和存储介质 |
-
2020
- 2020-02-25 CN CN202010114785.0A patent/CN111339374A/zh active Pending
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112214499A (zh) * | 2020-12-03 | 2021-01-12 | 腾讯科技(深圳)有限公司 | 图数据处理方法、装置、计算机设备和存储介质 |
CN112214499B (zh) * | 2020-12-03 | 2021-03-19 | 腾讯科技(深圳)有限公司 | 图数据处理方法、装置、计算机设备和存储介质 |
WO2022116689A1 (zh) * | 2020-12-03 | 2022-06-09 | 腾讯科技(深圳)有限公司 | 图数据处理方法、装置、计算机设备和存储介质 |
US11935049B2 (en) | 2020-12-03 | 2024-03-19 | Tencent Technology (Shenzhen) Company Limited | Graph data processing method and apparatus, computer device, and storage medium |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Yuan et al. | Structpool: Structured graph pooling via conditional random fields | |
Pujol et al. | Clustering algorithm for determining community structure in large networks | |
Ribeiro et al. | Efficient parallel subgraph counting using g-tries | |
CN111652329B (zh) | 一种图像分类方法、装置、存储介质和电子设备 | |
Ding et al. | Mining protein complexes from PPI networks using the minimum vertex cut | |
CN112508181A (zh) | 一种基于多通道机制的图池化方法 | |
CN111339374A (zh) | 一种基于加权三角密度的稠密子图抽取方法 | |
JP2023546645A (ja) | シングルセルゲノミクスデータセットからの細胞のサブサンプリング方法及びシステム | |
Pan et al. | Overlapping community detection via leader-based local expansion in social networks | |
CN107908696A (zh) | 一种并行高效的基于网格与密度的多维空间数据聚类算法griden | |
CN106841012B (zh) | 基于分布式图模型的流式细胞计数据自动门控方法 | |
CN112071362A (zh) | 一种融合全局和局部拓扑结构的蛋白质复合体的检测方法 | |
CN106599187B (zh) | 一种基于边不稳定度的社区发现系统及方法 | |
Obermeier et al. | Cluster Flow-an Advanced Concept for Ensemble-Enabling, Interactive Clustering | |
Li et al. | An accurate and efficient large-scale regression method through best friend clustering | |
Arasteh et al. | Community detection in complex networks using a new agglomerative approach | |
Zhou et al. | Ant-MST: An ant-based minimum spanning tree for gene expression data clustering | |
Carter et al. | Deployment and retrieval simulation of a single tether satellite system | |
Angelini et al. | Natural clustering: the modularity approach | |
Gandhi et al. | Comparative Study on Hierarchical and Density based Methods of Clustering using Data Analysis | |
He et al. | A novel proteins complex identification based on connected affinity and multi-level seed extension | |
Liu et al. | A Parallel Algorithm for Gene Expressing Data Biclustering. | |
Giudice et al. | Algorithms for graph and network analysis: Traversing/Searching/Sampling graphs | |
CN113436674B (zh) | 一种基于topsis种子扩张的增量式社团检测方法—tseia | |
Reddy | Intelligent Hybrid Cluster-Based Classification Algorithm For Efficient Data Analysis |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
WD01 | Invention patent application deemed withdrawn after publication | ||
WD01 | Invention patent application deemed withdrawn after publication |
Application publication date: 20200626 |