CN112817963A - 一种多维网络上的社群核分解方法及系统 - Google Patents

一种多维网络上的社群核分解方法及系统 Download PDF

Info

Publication number
CN112817963A
CN112817963A CN201911042153.1A CN201911042153A CN112817963A CN 112817963 A CN112817963 A CN 112817963A CN 201911042153 A CN201911042153 A CN 201911042153A CN 112817963 A CN112817963 A CN 112817963A
Authority
CN
China
Prior art keywords
community
core
decomposition
point
network
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201911042153.1A
Other languages
English (en)
Other versions
CN112817963B (zh
Inventor
林学民
刘博格
张帆
张文杰
张颖
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Junshuo Shanghai Information Technology Co ltd
East China Normal University
Original Assignee
Junshuo Shanghai Information Technology Co ltd
East China Normal University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Junshuo Shanghai Information Technology Co ltd, East China Normal University filed Critical Junshuo Shanghai Information Technology Co ltd
Priority to CN201911042153.1A priority Critical patent/CN112817963B/zh
Publication of CN112817963A publication Critical patent/CN112817963A/zh
Application granted granted Critical
Publication of CN112817963B publication Critical patent/CN112817963B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/22Indexing; Data structures therefor; Storage structures
    • G06F16/2228Indexing structures
    • G06F16/2237Vectors, bitmaps or matrices
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2455Query execution
    • G06F16/24553Query execution of query operations
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q50/00Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
    • G06Q50/01Social networking

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Business, Economics & Management (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Computing Systems (AREA)
  • Computational Linguistics (AREA)
  • Economics (AREA)
  • General Health & Medical Sciences (AREA)
  • Human Resources & Organizations (AREA)
  • Marketing (AREA)
  • Primary Health Care (AREA)
  • Strategic Management (AREA)
  • Tourism & Hospitality (AREA)
  • General Business, Economics & Management (AREA)
  • Software Systems (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明提出了一种多维网络上的社群核分解方法,计算和存储所有潜在的社群组合,以进行社群挖掘和网络分解分析,包括以下步骤:步骤A:对多维网络和社群进行建模;步骤B:以自顶而下的方式进行kcore核心分解;步骤C:通过存储点在不同维度上的核序数的差值,实现存储空间的优化。本发明提出的多维图上的kcore分解方法有益效果包括:效率提升:本发明在10维度的DBLP数据集上只需要375秒,传统算法需要3932秒的时间。存储空间优化:本发明提出的存储方案存储10维图的DBLP数据集只需要302MB的存储空间,而不经优化的简单存储需要32GB的空间。

Description

一种多维网络上的社群核分解方法及系统
技术领域
本发明涉及图网络数据上的社群发掘技术领域,尤其涉及一种多维图上基于kcore的社群核分解方法及系统。
背景技术
多维图指的是点集相同,但边集不同的一组图数据,其中每一张图表示一个维度。我们希望能够在多维图上找到一些社群,使得社群中的点在每一个维度上都满足最小度数大于某个阈值k的约束。其中每个点所在的最大可能k值定义为该点的核序数。
现有多维度图上的核分解算法需要把所有维度上的所有可能的k值组合都计算出来。如此过于细粒度的分解会带来两个主要问题:1)大量的冗余信息,因为在只有一个维度k值不同的情况下,获得的社群很多都是相同的;2)算法效率低下,因为现有算法需要大量的计算,因此很难提高算法效率;3)难以有效存储及查询,由于数据量巨大,因此难以实现高效率的存储,同时也导致了查询结果困难。
发明内容
本发明的目的是找到合适的kcore分解粒度、提高算法效率、及高效率的存储与查询,提出了一种多维图上的kcore分解方法。
本发明提出的多维图上的kcore分解方法,首先限制每一维度上的k值相同来避免过于细粒度的分解。本发明使用自顶向下的kcore分解算法,通过利用中间计算结果,实现了高效率的多维图kcore分解。本发明通过只存储点在不同维度上的核序数的差值,实现存数空间的优化。
本发明一种多维网络上的社群核分解方法,计算和存储所有潜在的社群组合,以进行社群挖掘和网络分解分析,包括以下步骤:
步骤A:对多维网络和社群进行建模;具体包括:(a)用图结构表示多维度网络,其中每个节点代表一个实体,如用户,每条边代表节点之间的连接关系,如合作关系;(b)将s维度图中的k核社群定义为一个节点集合,其中每个节点在每一个维度的图中与至少k个集合中的节点所连接。多维图中的社群组合即是任意s维度组合的k核社群集合,其中s和k为任意合理整数取值。
步骤B:以自顶而下的方式进行kcore核心分解;具体包括:迭代地减少每个顶点的核序数上限:每个顶点的核序数上限初始化为该点的度数,然后不断更新上限直到收敛;
具体做法为,将每个顶点的核序数初始化为该点在初始图上所有维度中的最小度数。该核序数为该点真实核序数的上限。我们使用
Figure BDA0002253142730000021
来表示顶点v在维度集合L'上的核序数上限;同时,我们使用sup(v)来表示v的邻居中上限不小于
Figure BDA0002253142730000022
的个数;Core-TD首先为每个顶点初始化sup(v)。之后Core-TD更新每个点的
Figure BDA0002253142730000023
使该点邻居中不小于
Figure BDA0002253142730000024
的个数不小于
Figure BDA0002253142730000025
Core-TD不断迭代更新直至每个点的
Figure BDA0002253142730000026
收敛。此时
Figure BDA0002253142730000027
等于该点的真实核序数值。
步骤C:通过存储点在不同维度上的核序数的差值,实现存储空间的优化;具体包括:
为维度集合L的每个子集创建文件F;如果所述子集由单层组成,它使用绝对存储来存储每个点的非零核序数;
对于其他子集L',首先计算L'上非零核数序的数量n1,然后,找到L'的子集P,使得L'和P中核序数不同的点的个数最少;所述点的个数记为n2,如果n1<n2,直接存储每个点的核序数值;否则,存储L'和P之间点的核序数差值;同时记录P作为L'的前驱;
通过核序数查询的算法不断从磁盘中根据记录的前驱加载文件,直到最终的结果被计算出来。
基于以上方法,本发明还提出了一种多维网络上的社群核分解系统,计算和存储所有潜在的社群组合,以进行社群挖掘和网络分解分析,包括以下模块:
建模模块,其用于对多维网络和社群进行建模;
分解模块,其用于以自顶而下的方式进行kcore核心分解;
存储模块,其用于通过存储点在不同维度上的核序数的差值,实现存储空间的优化。
本发明提出的多维图上的kcore分解方法有益效果包括:
1)效率提升:本发明在10维度的DBLP数据集上只需要375秒,传统算法需要3932秒的时间。
2)存储空间优化:本发明提出的存储方案存储10维图的DBLP数据集只需要302MB的存储空间,而不经优化的简单存储需要32GB的空间。
附图说明
图1是本发明多维图上的kcore分解算法的示意图。
图2是本发明存储方案的代码图。
图3是本发明核序数查询算法的代码图。
图4是本发明Kcore分解算法的效率图。
图5是本发明存储kcore分解结果所需的磁盘空间示意图。
图6是本发明核序数查询所需的时间示意图。
具体实施方式
结合以下具体实施例和附图,对发明作进一步的详细说明。实施本发明的过程、条件、实验方法等,除以下专门提及的内容之外,均为本领域的普遍知识和公知常识,本发明没有特别限制内容。
需要找到在不同社交网络中用户相同的群体。对于每个社交网络构建一个维度的图。图中顶点为用户,边为用户的之间的好友关系或者聊天记录。我们要求每个用户在不同维度上的度数不小于某个阈值k。对于由不同社交网络构建的多层图,使用Core-TD以自上而下的方式进行kcore核心分解。然后对存储结果使用Hybrid-Storage进行存储。这样在需要时就可以根据指定的k值进行不同社交网络中用户相同的群体查询。Core-TD将每个顶点的核序数初始化为该点在初始图上所有维度中的最小度数。该核序数为该点真实核序数的上限。使用
Figure BDA0002253142730000031
来表示顶点v在维度集合L'上的核序数上限;同时使用sup(v)来表示v的邻居中上限不小于
Figure BDA0002253142730000032
的个数;Core-TD首先为每个顶点初始化sup(v)。之后Core-TD更新每个点的
Figure BDA0002253142730000033
使该点邻居中不小于
Figure BDA0002253142730000034
的个数不小于
Figure BDA0002253142730000035
Core-TD不断迭代更新直至每个点的
Figure BDA0002253142730000036
收敛。此时
Figure BDA0002253142730000037
等于该点的真实核序数值。
为维度集合L的每个子集创建文件F;如果所述子集由单层组成,它使用绝对存储来存储每个点的非零核序数;
对于其他子集L',首先计算L'上非零核数序的数量n1,然后,找到L'的子集P,使得L'和P中核序数不同的点的个数最少;所述点的个数记为n2,如果n1<n2,直接存储每个点的核序数值;否则,存储L'和P之间点的核序数差值;同时记录P作为L'的前驱;
通过核序数查询的算法不断从磁盘中根据记录的前驱加载文件,直到最终的结果被计算出来。
本发明在八个数据集上测试了效果。Kcore分解算法的效率如图4所示。
本发明提出的CoreCube-TD是所有数据集中最快的算法除了亚马逊数据集以外,平均水平相比提高了一个数量级。在DBLP数据集上,CoreCube-BU和CoreCube-TD分别花费662s和375s而现有方法ML-DFS和ML-Hybrid分别花费4487秒和3932秒。在三个最大的数据集中,ML-DFS和ML-Hybrid不能在48小时内终止。
存储kcore分解结果所需的磁盘空间如图5所示。
Hybrid-Storage的磁盘使用率在所有数据集中最小。例如,在DBLP中,Hybrid-Storage仅占用302MB的磁盘。
核序数查询所需的时间如图6所示。
基于Hybrid-Storage存储模式的核序数查询算法Core-Retrieve可以在10ms内完成所有数据集上的100次查询,其中包括从磁盘加载文件所花费的时间。
本发明提出的多维网络上的社群核分解系统,包括以下模块:
建模模块,其用于对多维网络和社群进行建模;
分解模块,其用于以自顶而下的方式进行kcore核心分解;
存储模块,其用于通过存储点在不同维度上的核序数的差值,实现存储空间的优化。
本发明的保护内容不局限于以上实施例。在不背离发明构思的精神和范围下,本领域技术人员能够想到的变化和优点都被包括在本发明中,并且以所附的权利要求书为保护范围。

Claims (6)

1.一种多维网络上的社群核分解方法,其特征在于,计算和存储所有潜在的社群组合,以进行社群挖掘和网络分解分析,包括以下步骤:
步骤A:对多维网络和社群进行建模;
步骤B:以自顶而下的方式进行kcore核心分解;
步骤C:通过存储点在不同维度上的核序数的差值,实现存储空间的优化。
2.如权利要求1所述的多维网络上的社群核分解方法,其特征在于,所述步骤A包括:
(a)用图结构表示多维度网络,其中每个节点代表一个实体,每条边代表节点之间的连接关系;
(b)将s维度图中的k核社群定义为一个节点集合,其中每个节点在每一个维度的图中与至少k个集合中的节点所连接;多维图中的社群组合即是任意s维度组合的k核社群集合,其中s和k为任意合理整数取值。
3.如权利要求1所述的多维网络上的社群核分解方法,其特征在于,所述步骤B包括:迭代地减少每个顶点的核序数上限:每个顶点的核序数上限初始化为该点的度数,然后不断更新上限直到收敛。
4.如权利要求3所述的多维网络上的社群核分解方法,其特征在于,所述步骤B中,通过将每个顶点的核序数初始化为该点在初始图上所有维度中的最小度数;该核序数为该点真实核序数的上限;使用
Figure FDA0002253142720000011
来表示顶点v在维度集合L'上的核序数上限;同时使用sup(v)来表示v的邻居中上限不小于
Figure FDA0002253142720000012
的个数;Core-TD首先为每个顶点初始化sup(v);之后Core-TD更新每个点的
Figure FDA0002253142720000013
使该点邻居中不小于
Figure FDA0002253142720000014
的个数不小于
Figure FDA0002253142720000015
Core-TD不断迭代更新直至每个点的
Figure FDA0002253142720000016
收敛;此时
Figure FDA0002253142720000017
等于该点的真实核序数值。
5.如权利要求1所述的多维网络上的社群核分解方法,其特征在于,所述步骤C包括:
为维度集合L的每个子集创建文件F;如果所述子集由单层组成,它使用绝对存储来存储每个点的非零核序数;
对于其他子集L',首先计算L'上非零核数序的数量n1,然后,找到L'的子集P,使得L'和P中核序数不同的点的个数最少;所述点的个数记为n2,如果n1<n2,直接存储每个点的核序数值;否则,存储L'和P之间点的核序数差值;同时记录P作为L'的前驱;
通过核序数查询的算法不断从磁盘中根据记录的前驱加载文件,直到最终的结果被计算出来。
6.一种多维网络上的社群核分解系统,其特征在于,采用如权利要求1-5所述的多维网络上的社群核分解方法计算和存储所有潜在的社群组合,以进行社群挖掘和网络分解分析,所述系统包括以下模块:
建模模块,其用于对多维网络和社群进行建模;
分解模块,其用于以自顶而下的方式进行kcore核心分解;
存储模块,其用于通过存储点在不同维度上的核序数的差值,实现存储空间的优化。
CN201911042153.1A 2019-10-30 2019-10-30 一种多维网络上的社群核分解方法及系统 Active CN112817963B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201911042153.1A CN112817963B (zh) 2019-10-30 2019-10-30 一种多维网络上的社群核分解方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201911042153.1A CN112817963B (zh) 2019-10-30 2019-10-30 一种多维网络上的社群核分解方法及系统

Publications (2)

Publication Number Publication Date
CN112817963A true CN112817963A (zh) 2021-05-18
CN112817963B CN112817963B (zh) 2022-10-25

Family

ID=75851353

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201911042153.1A Active CN112817963B (zh) 2019-10-30 2019-10-30 一种多维网络上的社群核分解方法及系统

Country Status (1)

Country Link
CN (1) CN112817963B (zh)

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20140354649A1 (en) * 2013-05-29 2014-12-04 International Business Machines Corporation Distributed k-core view materialization and maintenance for graphs
CN104462260A (zh) * 2014-11-21 2015-03-25 深圳大学 一种基于k-核的社区搜索算法
CN106445685A (zh) * 2016-09-21 2017-02-22 华中科技大学 一种高效的分布式大规模动态图k核维护方法
CN108280121A (zh) * 2017-12-06 2018-07-13 上海师范大学 一种基于k-核分解获取社交网络意见领袖的方法
US20180315083A1 (en) * 2015-01-09 2018-11-01 Research Foundation Of The City University Of New York Method to maximize message spreading in social networks and find the most influential people in social media
WO2022056955A1 (zh) * 2020-09-16 2022-03-24 山东大学 一种基于不确定图的社区发现方法

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20140354649A1 (en) * 2013-05-29 2014-12-04 International Business Machines Corporation Distributed k-core view materialization and maintenance for graphs
CN104462260A (zh) * 2014-11-21 2015-03-25 深圳大学 一种基于k-核的社区搜索算法
US20180315083A1 (en) * 2015-01-09 2018-11-01 Research Foundation Of The City University Of New York Method to maximize message spreading in social networks and find the most influential people in social media
CN106445685A (zh) * 2016-09-21 2017-02-22 华中科技大学 一种高效的分布式大规模动态图k核维护方法
CN108280121A (zh) * 2017-12-06 2018-07-13 上海师范大学 一种基于k-核分解获取社交网络意见领袖的方法
WO2022056955A1 (zh) * 2020-09-16 2022-03-24 山东大学 一种基于不确定图的社区发现方法

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
BOHUA YANG等: "Index-Based Optimal Algorithm for Computing K-Cores in Large Uncertain Graphs", 《IEEE》 *
FAN ZHANG等: "OLAK_ an efficient algorithm to prevent unraveling in social networks", 《百度学术》 *
WEIJIE ZHU等: "K-core Minimization An Edge Manipulation Approach", 《百度学术》 *
YOU PENG等: "Efficient Probabilistic K-Core Computation on Uncertain Graphs", 《IEEE》 *

Also Published As

Publication number Publication date
CN112817963B (zh) 2022-10-25

Similar Documents

Publication Publication Date Title
CN108920720B (zh) 基于深度哈希和gpu加速的大规模图像检索方法
CN109656798B (zh) 基于顶点重排序的超级计算机大数据处理能力测试方法
CN109829066B (zh) 基于分层结构的局部敏感哈希图像索引方法
CN107330094B (zh) 动态存储键值对的布鲁姆过滤器树结构及键值对存储方法
CN112395288B (zh) 基于希尔伯特曲线的r树索引合并更新方法、装置及介质
CN116340646A (zh) 一种基于超图基序优化多元用户表示的推荐方法
CN104933143A (zh) 获取推荐对象的方法及装置
CN108614932B (zh) 基于边图的线性流重叠社区发现方法、系统及存储介质
CN113076319B (zh) 基于离群值检测技术和位图索引的动态数据库填充方法
CN111291193A (zh) 一种知识图谱在零次学习上的运用方法
CN112817963B (zh) 一种多维网络上的社群核分解方法及系统
CN113094945B (zh) 一种sa-beso联合拓扑优化方法
CN112069135B (zh) 一种海量地震数据可视化存储方法
CN109460394B (zh) 一种多级文档条目追踪矩阵的简化方法
Hacid et al. Incremental neighborhood graphs construction for multidimensional databases indexing
CN112685603A (zh) 顶级相似性表示的有效检索
CN117332543B (zh) 电网异构数据源的分布处理方法
CN113726342B (zh) 面向大规模图迭代计算的分段差值压缩与惰性解压方法
Sengupta et al. Modified K-Means Algorithm for Big Data Clustering
Bhutani et al. Degrees in random $ m $-ary hooking networks
CN113033827B (zh) 一种用于深度森林的训练方法和装置
CN102110172B (zh) 一种分布式Web文档聚类方法
CN113806612A (zh) 一种基于索引在用户电影网络中探测关键社区的方法
CN117313135B (zh) 一种基于属性划分的可高效重构的个人隐私保护方法
Otoo et al. New approaches to storing and manipulating multi-dimensional sparse arrays

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant