CN112182306B

CN112182306B - 一种基于不确定图的社区发现方法

Info

Publication number: CN112182306B
Application number: CN202010971870.9A
Authority: CN
Inventors: 于东晓; 李峰; 王东标; 罗琦
Original assignee: Shandong University
Current assignee: Shandong University
Priority date: 2020-09-16
Filing date: 2020-09-16
Publication date: 2022-03-18
Anticipated expiration: 2040-09-16
Also published as: WO2022056955A1; CN112182306A; DE112020007405T5

Abstract

本发明公开了一种基于不确定图的社区发现方法，包括如下步骤：步骤一，采集实际网络中的不确定数据并构建不确定图，以邻接链表的形式进行存储；步骤二，使用稳定结构聚类算法挖掘不确定图中的稳定核心节点，枢纽节点和离群节点，并从稳定核心节点中构建稳定结构聚类；步骤三，从稳定结构聚类中构建社区，即不确定图中的社区结构。本发明所公开的方法同时考虑了不确定图中边的可靠性和核心节点的可靠性，在最终得到的社区中，社区中的稳定核心节点以及连接它们的可靠边均能够满足一定的可靠性保证；并且本发明采用高效的稳定结构聚类算法来计算不确定图中的稳定核心节点，并在此基础上挖掘社区结构，计算复杂度低，能够应用到大规模的图数据中。

Description

一种基于不确定图的社区发现方法

技术领域

本发明涉及数据挖掘技术领域，特别涉及一种基于不确定图的社区发现方法。

背景技术

作为一种能够表示关联关系的数据范式，随着社会和科学技术的发展，越来越多的数据能够通过图模型来进行建模、表示和组织。由于技术限制和实际需要，如测量误差，方法中带有的误差等，数据之间的关系通常带有不确定性。这种不确定性可以使用一个概率值p,p∈(0,1]来表示。这种带有不确定性的图模型可以使用不确定图来进行建模和分析。

考虑一个无权无向的不确定图

其中V是节点集合，E是边集合。对于E中的每一条边e，存在概率P_e和它对应代表该边在不确定图中存在的概率。我们使用可能世界模型来解释和分析不确定图。在可能世界模型中，每一个可能世界都是节点数为V的确定图。我们使用

来表示G是

的一个可能世界，其中G＝(V,E_G)，并且

社区是一些紧密连接的节点构成的稠密子图，属于同一个社区的节点之间的联系相对紧密，而在不同社区的节点之间的联系比较稀疏。在图模型中，社区结构通常也对应着图中明显的聚类，所以可以使用聚类的方式挖掘图中的社区结构。

结构聚类可以用来区分核心节点，枢纽节点和离群节点，其中，属于同一个聚类的核心节点之间连接比较紧密，而属于不同聚类的核心节点之间会存在枢纽节点或离群节点。

确定图上的结构聚类算法SCAN是由基于密度的聚类算法DBSCAN发展而来。DBSCAN是一个在多维数据中常用的聚类算法，它将数据点之间的距离作为数据的相似性度量，并根据两个参数∈,μ实现了对数据中密集点和噪声点的划分。和DBSCAN算法类似，在SCAN算法中使用了结构相似性来衡量节点之间的相似程度，通过给定的两个参数∈,μ可以得到图中密集连接的核心节点，枢纽节点和离群节点。由于SCAN算法对参数较为敏感并且计算复杂度较高，后续的一些结构聚类算法如PSCAN，SCAN++等分别从不同的方面对SCAN算法进行了改进，使它能够应用到大规模的图数据中。但是因为这些算法不能直接的应用于不确定图上的结构聚类，所以这些算法也不能够用于不确定图上的社区发现。

在USCAN算法中，将确定图上结构聚类的概念扩展到不确定图中。通过在不确定图中定义概率结构相似度和可靠性度量，将结构相似性的概念从确定图扩展到不确定图，并设计了一个动态规划算法来对节点间的可靠性度量进行计算，最后通过修改SCAN算法的框架实现了不确定图上的结构聚类。在得到了不确定图上的聚类之后，便可以将聚类结果作为社区结构输出。这种方法存在的一个局限是无法计算一个节点属于核心节点的概率，这就可能导致一种情况：虽然一个节点是一个可靠的核心节点，但是它在所有的可能世界中是核心节点的概率很低。

发明内容

为解决上述技术问题，本发明提供了一种基于不确定图的社区发现方法，通过对不确定图中核心节点的可靠性进行约束，解决了现有技术中核心节点存在可靠性不足的问题。

为达到上述目的，本发明的技术方案如下：

一种基于不确定图的社区发现方法，包括如下步骤：

步骤一，采集实际网络中的不确定数据并构建不确定图，以邻接链表的形式进行存储；

步骤二，使用稳定结构聚类算法挖掘不确定图中的稳定核心节点，枢纽节点和离群节点，并从稳定核心节点中构建稳定结构聚类；

步骤三，从稳定结构聚类中构建社区，即不确定图中的社区结构。

上述方案中，所述步骤一中，从实际网络中采集不确定数据，在对这些不确定数据进行测量后，如果两个节点u,v之间边上的概率不为0，则在邻接链表中保存一个三元组(u,v,p)，p表示边存在的概率。

上述方案中，所述步骤二的具体方法如下：

(1)初始化稳定结构聚类算法中的参数，包括节点之间的相似度阈值∈，概率阈值η，可靠邻居的个数阈值μ；

(2)计算不确定图中每条边的概率结构相似度和不确定图中的可靠边；

(3)计算不确定图中的稳定核心节点；

(4)计算稳定结构聚类；

(5)计算枢纽节点和离群节点；

(6)输出聚类结果。

上述方案中，步骤(1)中，节点之间的相似度阈值∈，该值的范围是0＜∈≤1，用来约束节点之间的结构相似性；概率阈值η，该值的范围是0＜η≤1，用来判断两个邻居节点能否成为可靠邻居，这两个邻居节点所在的边能否成为可靠边，和一个节点能否成为稳定核心节点；可靠邻居的个数阈值μ，该值的范围是μ≥2，用来约束一个节点可靠邻居的个数。

上述方案中，步骤(2)中，根据概率结构相似度公式

计算每条边的概率结构相似度，其中

代表不确定图，

表示G是

的可能世界，

代表G在

中的出现概率；

对于边e＝(u,v)来说，

N[u]表示为节点u的邻居个数，N[u]∩N[v]是节点u,v邻居的交集，N[u]∪N[v]是节点u,v邻居的并集；I(σ(e)≥∈)是一个指示函数，如果σ(e)≥∈，它的值为1，否则为0；

如果Pr[e,∈]≥η，那么该边是可靠边。

上述方案中，步骤(3)中，对于每一个节点，将节点的邻接边按照概率结构相似度降序排序，对于每一个邻居个数大于等于μ的节点，选择排序后的前μ条邻接边并将它们的概率结构相似度相乘，如果乘积大于等于η，则该节点属于稳定核心节点，并标记节点为未访问，否则，该节点属于非稳定核心节点。

上述方案中，步骤(4)中，对于一个未被访问过的稳定核心节点，从该稳定核心节点出发，访问能够被该节点通过可靠边到达的所有稳定核心节点并标记为已访问，这些稳定核心节点属于同一个聚类；如果存在未被访问过的稳定核心节点，重复该过程，直到所有的稳定核心节点都被标记为已访问；

对于每一个非稳定核心节点，如果该节点和一个稳定核心节点之间的边为可靠边，则将该非稳定核心节点分配到所连接的稳定核心节点所在的聚类中。

上述方案中，步骤(5)中，对于每一个不属于任何聚类的非稳定核心节点，如果它能够连接两个及两个以上的聚类，该节点属于枢纽节点，否则该节点属于离群节点。

上述方案中，步骤三中，将稳定结构聚类算法发现的稳定结构聚类作为社区结构输出

通过上述技术方案，本发明提供的一种基于不确定图的社区发现方法具有如下有益效果：

(1)本发明同时考虑了不确定图中边的可靠性和核心节点的可靠性，在最终得到的社区中，社区中的稳定核心节点以及连接它们的可靠边均能够满足一定的可靠性保证。

(2)本发明充分利用不确定图的性质，设计了一个高效的稳定结构聚类算法来计算不确定图中的稳定核心节点，并在此基础上挖掘社区结构，计算复杂度低，能够应用到大规模的图数据中。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍。

图1为本发明实施例所公开的一种基于不确定图的社区发现方法整体流程示意图；

图2为稳定结构发现阶段的主要流程示意图；

图3为稳定结构发现阶段的具体流程示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述。

本发明提供了一种基于不确定图的社区发现方法，如图1所示，具体实施例如下：

1.网络构建

不确定数据的产生可能由多种方式，如测量误差，机器学习模型中的误差等。比如在社交网络中，用户代表节点，用户之间的关系代表边，使用一个概率值表示用户之间关系的强弱，概率越大，两个用户之间的关系越紧密。在蛋白质交互网络中，蛋白质代表节点，节点之间的边代表蛋白质之间存在相互作用，在测量时产生的误差可以使用概率来表示，概率越大，代表测量的结果越可信。在对这些不确定数据进行测量后，如果两个节点(例如节点u,v)之间边上的概率不为0，则在邻接链表中保存一个三元组(u,v,p)，p表示边存在的概率。

2.稳定结构发现，如图2和图3所示，具体过程如下：

(1)设置节点之间的相似度阈值∈，该值的范围是0＜∈≤1，用来约束节点之间的结构相似性；设置概率阈值η，该值的范围是0＜η≤1，用来判断两个邻居节点能否成为可靠邻居(这两个邻居所在的边为可靠边)和一个节点能否成为稳定核心节点；设置可靠邻居的个数阈值μ，该值的范围是μ≥2，用来约束一个节点可靠邻居的个数。

(2)根据概率结构相似度公式

计算每条边的概率结构相似度，其中

代表不确定图，

表示G是

的可能世界，

代表G在

中的出现概率。对于边e＝(u,v)来说，

N[u]表示为节点u的邻居个数，N[u]∩N[v]是节点u,v邻居的交集，N[u]∪N[v]是节点u,v邻居的并集。

I(σ(e)≥∈)是一个指示函数，如果σ(e)≥∈，它的值为1，否则为0。对于每一条边e，如果Pr[e,∈]≥η，那么该边是可靠边。

(3)选择一个尚未处理的节点，将节点的邻接边按照概率结构相似度降序排序。

(4)选择排序后的前μ条邻接边并将它们的概率结构相似度相乘，如果乘积大于等于η，该节点属于稳定核心节点，并标记节点为未访问，否则，该节点属于非稳定核心节点。

(5)如果存在未处理的节点，重复步骤(4)，否则执行(6)。

(6)选择一个未被访问过的稳定核心节点，从该稳定核心节点出发，访问能够被该节点通过可靠边到达的所有稳定核心节点并标记为已访问，这些稳定核心节点属于同一个聚类。

(7)如果存在未被访问过的稳定核心节点，重复(6)，否则执行(8)。

(8)对于每一个非稳定核心节点，如果该节点和一个稳定核心节点之间的边为可靠边，则将该非稳定核心节点分配到所连接的稳定核心节点所在的聚类中。

(9)对于每一个不属于任何聚类的非稳定核心节点，如果它能够连接两个及两个以上的聚类，该节点属于枢纽节点，否则该节点属于离群节点。

3.社区构建

将步骤2中发现的稳定结构聚类作为社区结构输出。

对所公开的实施例的上述说明，使本领域专业技术人员能够实现或使用本发明。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的，本文中所定义的一般原理可以在不脱离本发明的精神或范围的情况下，在其它实施例中实现。因此，本发明将不会被限制于本文所示的这些实施例，而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

Claims

1.一种基于不确定图的社区发现方法，其特征在于，包括如下步骤：

步骤三，从稳定结构聚类中构建社区，即不确定图中的社区结构；

所述步骤二的具体方法如下：

(3)计算不确定图中的稳定核心节点；

(4)计算稳定结构聚类；

(5)计算枢纽节点和离群节点；

(6)输出聚类结果；

步骤(2)中，根据概率结构相似度公式

计算每条边的概率结构相似度，其中

代表不确定图，

表示G是

的可能世界，

代表G在

中的出现概率；

对于边e＝(u，v)来说，

N[u]表示为节点u的邻居个数，N[u]∩N[v]是节点u，v邻居的交集，N[u]∪N[v]是节点u，v邻居的并集；I(σ(e)≥∈)是一个指示函数，如果σ(e)≥∈，它的值为1，否则为0；

如果Pr[e，∈]≥η，那么该边是可靠边；

步骤(3)中，对于每一个节点，将节点的邻接边按照概率结构相似度降序排序，对于每一个邻居个数大于等于μ的节点，选择排序后的前μ条邻接边并将它们的概率结构相似度相乘，如果乘积大于等于η，则该节点属于稳定核心节点，并标记节点为未访问，否则，该节点属于非稳定核心节点。

2.根据权利要求1所述的一种基于不确定图的社区发现方法，其特征在于，所述步骤一中，从实际网络中采集不确定数据，在对这些不确定数据进行测量后，如果两个节点u，v之间边上的概率不为0，则在邻接链表中保存一个三元组(u，v，p)，p表示边存在的概率。

3.根据权利要求1所述的一种基于不确定图的社区发现方法，其特征在于，步骤(1)中，节点之间的相似度阈值∈，该值的范围是0＜∈≤1，用来约束节点之间的结构相似性；概率阈值η，该值的范围是0＜η≤1，用来判断两个邻居节点能否成为可靠邻居，这两个邻居节点所在的边能否成为可靠边，和一个节点能否成为稳定核心节点；可靠邻居的个数阈值μ，该值的范围是μ≥2，用来约束一个节点可靠邻居的个数。

4.根据权利要求1所述的一种基于不确定图的社区发现方法，其特征在于，步骤(4)中，对于一个未被访问过的稳定核心节点，从该稳定核心节点出发，访问能够被该节点通过可靠边到达的所有稳定核心节点并标记为已访问，这些稳定核心节点属于同一个聚类；如果存在未被访问过的稳定核心节点，重复该过程，直到所有的稳定核心节点都被标记为已访问；

5.根据权利要求4所述的一种基于不确定图的社区发现方法，其特征在于，步骤(5)中，对于每一个不属于任何聚类的非稳定核心节点，如果它能够连接两个及两个以上的聚类，该节点属于枢纽节点，否则该节点属于离群节点。

6.根据权利要求1所述的一种基于不确定图的社区发现方法，其特征在于，步骤三中，将稳定结构聚类算法发现的稳定结构聚类作为社区结构输出。