CN112817963B

CN112817963B - 一种多维网络上的社群核分解方法及系统

Info

Publication number: CN112817963B
Application number: CN201911042153.1A
Authority: CN
Inventors: 林学民; 刘博格; 张帆; 张文杰; 张颖
Original assignee: Junshuo Shanghai Information Technology Co ltd; East China Normal University
Current assignee: Junshuo Shanghai Information Technology Co ltd; East China Normal University
Priority date: 2019-10-30
Filing date: 2019-10-30
Publication date: 2022-10-25
Anticipated expiration: 2039-10-30
Also published as: CN112817963A

Abstract

本发明提出了一种多维网络上的社群核分解方法，计算和存储所有潜在的社群组合，以进行社群挖掘和网络分解分析，包括以下步骤：步骤A：对多维网络和社群进行建模；步骤B：以自顶而下的方式进行kcore核心分解；步骤C：通过存储点在不同维度上的核序数的差值，实现存储空间的优化。本发明提出的多维图上的kcore分解方法有益效果包括：效率提升：本发明在10维度的DBLP数据集上只需要375秒，传统算法需要3932秒的时间。存储空间优化：本发明提出的存储方案存储10维图的DBLP数据集只需要302MB的存储空间，而不经优化的简单存储需要32GB的空间。

Description

一种多维网络上的社群核分解方法及系统

技术领域

本发明涉及图网络数据上的社群发掘技术领域，尤其涉及一种多维图上基于kcore的社群核分解方法及系统。

背景技术

多维图指的是点集相同，但边集不同的一组图数据，其中每一张图表示一个维度。我们希望能够在多维图上找到一些社群，使得社群中的点在每一个维度上都满足最小度数大于某个阈值k的约束。其中每个点所在的最大可能k值定义为该点的核序数。

现有多维度图上的核分解算法需要把所有维度上的所有可能的k值组合都计算出来。如此过于细粒度的分解会带来两个主要问题：1)大量的冗余信息，因为在只有一个维度k值不同的情况下，获得的社群很多都是相同的；2)算法效率低下，因为现有算法需要大量的计算，因此很难提高算法效率；3)难以有效存储及查询，由于数据量巨大，因此难以实现高效率的存储，同时也导致了查询结果困难。

发明内容

本发明的目的是找到合适的kcore分解粒度、提高算法效率、及高效率的存储与查询，提出了一种多维图上的kcore分解方法。

本发明提出的多维图上的kcore分解方法，首先限制每一维度上的k值相同来避免过于细粒度的分解。本发明使用自顶向下的kcore分解算法，通过利用中间计算结果，实现了高效率的多维图kcore分解。本发明通过只存储点在不同维度上的核序数的差值，实现存数空间的优化。

本发明一种多维网络上的社群核分解方法，计算和存储所有潜在的社群组合，以进行社群挖掘和网络分解分析，包括以下步骤：

步骤A：对多维网络和社群进行建模；具体包括：(a)用图结构表示多维度网络，其中每个节点代表一个实体，如用户，每条边代表节点之间的连接关系，如合作关系；(b)将s维度图中的k核社群定义为一个节点集合，其中每个节点在每一个维度的图中与至少k个集合中的节点所连接。多维图中的社群组合即是任意s维度组合的k核社群集合，其中s和k为任意合理整数取值。

步骤B：以自顶而下的方式进行kcore核心分解；具体包括：迭代地减少每个顶点的核序数上限：每个顶点的核序数上限初始化为该点的度数，然后不断更新上限直到收敛；

具体做法为，将每个顶点的核序数初始化为该点在初始图上所有维度中的最小度数。该核序数为该点真实核序数的上限。我们使用

来表示顶点v在维度集合L'上的核序数上限；同时，我们使用sup(v)来表示v的邻居中上限不小于

的个数；Core-TD首先为每个顶点初始化sup(v)。之后Core-TD更新每个点的

使该点邻居中不小于

的个数不小于

Core-TD不断迭代更新直至每个点的

收敛。此时

等于该点的真实核序数值。

步骤C：通过存储点在不同维度上的核序数的差值，实现存储空间的优化；具体包括：

为维度集合L的每个子集创建文件F；如果所述子集由单层组成，它使用绝对存储来存储每个点的非零核序数；

对于其他子集L'，首先计算L'上非零核数序的数量n1，然后，找到L'的子集P，使得L'和P中核序数不同的点的个数最少；所述点的个数记为n2，如果n1<n2，直接存储每个点的核序数值；否则，存储L'和P之间点的核序数差值；同时记录P作为L'的前驱；

通过核序数查询的算法不断从磁盘中根据记录的前驱加载文件，直到最终的结果被计算出来。

基于以上方法，本发明还提出了一种多维网络上的社群核分解系统，计算和存储所有潜在的社群组合，以进行社群挖掘和网络分解分析，包括以下模块：

建模模块，其用于对多维网络和社群进行建模；

分解模块，其用于以自顶而下的方式进行kcore核心分解；

存储模块，其用于通过存储点在不同维度上的核序数的差值，实现存储空间的优化。

本发明提出的多维图上的kcore分解方法有益效果包括：

1)效率提升：本发明在10维度的DBLP数据集上只需要375秒，传统算法需要3932秒的时间。

2)存储空间优化：本发明提出的存储方案存储10维图的DBLP数据集只需要302MB的存储空间，而不经优化的简单存储需要32GB的空间。

附图说明

图1是本发明多维图上的kcore分解算法的示意图。

图2是本发明存储方案的代码图。

图3是本发明核序数查询算法的代码图。

图4是本发明Kcore分解算法的效率图。

图5是本发明存储kcore分解结果所需的磁盘空间示意图。

图6是本发明核序数查询所需的时间示意图。

具体实施方式

结合以下具体实施例和附图，对发明作进一步的详细说明。实施本发明的过程、条件、实验方法等，除以下专门提及的内容之外，均为本领域的普遍知识和公知常识，本发明没有特别限制内容。

需要找到在不同社交网络中用户相同的群体。对于每个社交网络构建一个维度的图。图中顶点为用户，边为用户的之间的好友关系或者聊天记录。我们要求每个用户在不同维度上的度数不小于某个阈值k。对于由不同社交网络构建的多层图，使用Core-TD以自上而下的方式进行kcore核心分解。然后对存储结果使用Hybrid-Storage进行存储。这样在需要时就可以根据指定的k值进行不同社交网络中用户相同的群体查询。Core-TD将每个顶点的核序数初始化为该点在初始图上所有维度中的最小度数。该核序数为该点真实核序数的上限。使用

来表示顶点v在维度集合L'上的核序数上限；同时使用sup(v)来表示v的邻居中上限不小于

使该点邻居中不小于

的个数不小于

Core-TD不断迭代更新直至每个点的

收敛。此时

等于该点的真实核序数值。

本发明在八个数据集上测试了效果。Kcore分解算法的效率如图4所示。

本发明提出的CoreCube-TD是所有数据集中最快的算法除了亚马逊数据集以外，平均水平相比提高了一个数量级。在DBLP数据集上，CoreCube-BU和CoreCube-TD分别花费662s和375s而现有方法ML-DFS和ML-Hybrid分别花费4487秒和3932秒。在三个最大的数据集中，ML-DFS和ML-Hybrid不能在48小时内终止。

存储kcore分解结果所需的磁盘空间如图5所示。

Hybrid-Storage的磁盘使用率在所有数据集中最小。例如，在DBLP中，Hybrid-Storage仅占用302MB的磁盘。

核序数查询所需的时间如图6所示。

基于Hybrid-Storage存储模式的核序数查询算法Core-Retrieve可以在10ms内完成所有数据集上的100次查询，其中包括从磁盘加载文件所花费的时间。

本发明提出的多维网络上的社群核分解系统，包括以下模块：

建模模块，其用于对多维网络和社群进行建模；

分解模块，其用于以自顶而下的方式进行kcore核心分解；

本发明的保护内容不局限于以上实施例。在不背离发明构思的精神和范围下，本领域技术人员能够想到的变化和优点都被包括在本发明中，并且以所附的权利要求书为保护范围。