CN112182306B - 一种基于不确定图的社区发现方法 - Google Patents

一种基于不确定图的社区发现方法 Download PDF

Info

Publication number
CN112182306B
CN112182306B CN202010971870.9A CN202010971870A CN112182306B CN 112182306 B CN112182306 B CN 112182306B CN 202010971870 A CN202010971870 A CN 202010971870A CN 112182306 B CN112182306 B CN 112182306B
Authority
CN
China
Prior art keywords
node
nodes
uncertain
stable
graph
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202010971870.9A
Other languages
English (en)
Other versions
CN112182306A (zh
Inventor
于东晓
李峰
王东标
罗琦
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shandong University
Original Assignee
Shandong University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shandong University filed Critical Shandong University
Priority to CN202010971870.9A priority Critical patent/CN112182306B/zh
Priority to DE112020007405.6T priority patent/DE112020007405T5/de
Priority to PCT/CN2020/118130 priority patent/WO2022056955A1/zh
Publication of CN112182306A publication Critical patent/CN112182306A/zh
Application granted granted Critical
Publication of CN112182306B publication Critical patent/CN112182306B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/901Indexing; Data structures therefor; Storage structures
    • G06F16/9024Graphs; Linked lists
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/906Clustering; Classification

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Software Systems (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种基于不确定图的社区发现方法,包括如下步骤:步骤一,采集实际网络中的不确定数据并构建不确定图,以邻接链表的形式进行存储;步骤二,使用稳定结构聚类算法挖掘不确定图中的稳定核心节点,枢纽节点和离群节点,并从稳定核心节点中构建稳定结构聚类;步骤三,从稳定结构聚类中构建社区,即不确定图中的社区结构。本发明所公开的方法同时考虑了不确定图中边的可靠性和核心节点的可靠性,在最终得到的社区中,社区中的稳定核心节点以及连接它们的可靠边均能够满足一定的可靠性保证;并且本发明采用高效的稳定结构聚类算法来计算不确定图中的稳定核心节点,并在此基础上挖掘社区结构,计算复杂度低,能够应用到大规模的图数据中。

Description

一种基于不确定图的社区发现方法
技术领域
本发明涉及数据挖掘技术领域,特别涉及一种基于不确定图的社区发现方法。
背景技术
作为一种能够表示关联关系的数据范式,随着社会和科学技术的发展,越来越多的数据能够通过图模型来进行建模、表示和组织。由于技术限制和实际需要,如测量误差,方法中带有的误差等,数据之间的关系通常带有不确定性。这种不确定性可以使用一个概率值p,p∈(0,1]来表示。这种带有不确定性的图模型可以使用不确定图来进行建模和分析。
考虑一个无权无向的不确定图
Figure BDA0002684375070000011
其中V是节点集合,E是边集合。对于E中的每一条边e,存在概率Pe和它对应代表该边在不确定图中存在的概率。我们使用可能世界模型来解释和分析不确定图。在可能世界模型中,每一个可能世界都是节点数为V的确定图。我们使用
Figure BDA0002684375070000012
来表示G是
Figure BDA0002684375070000013
的一个可能世界,其中G=(V,EG),并且
Figure BDA0002684375070000014
社区是一些紧密连接的节点构成的稠密子图,属于同一个社区的节点之间的联系相对紧密,而在不同社区的节点之间的联系比较稀疏。在图模型中,社区结构通常也对应着图中明显的聚类,所以可以使用聚类的方式挖掘图中的社区结构。
结构聚类可以用来区分核心节点,枢纽节点和离群节点,其中,属于同一个聚类的核心节点之间连接比较紧密,而属于不同聚类的核心节点之间会存在枢纽节点或离群节点。
确定图上的结构聚类算法SCAN是由基于密度的聚类算法DBSCAN发展而来。DBSCAN是一个在多维数据中常用的聚类算法,它将数据点之间的距离作为数据的相似性度量,并根据两个参数∈,μ实现了对数据中密集点和噪声点的划分。和DBSCAN算法类似,在SCAN算法中使用了结构相似性来衡量节点之间的相似程度,通过给定的两个参数∈,μ可以得到图中密集连接的核心节点,枢纽节点和离群节点。由于SCAN算法对参数较为敏感并且计算复杂度较高,后续的一些结构聚类算法如PSCAN,SCAN++等分别从不同的方面对SCAN算法进行了改进,使它能够应用到大规模的图数据中。但是因为这些算法不能直接的应用于不确定图上的结构聚类,所以这些算法也不能够用于不确定图上的社区发现。
在USCAN算法中,将确定图上结构聚类的概念扩展到不确定图中。通过在不确定图中定义概率结构相似度和可靠性度量,将结构相似性的概念从确定图扩展到不确定图,并设计了一个动态规划算法来对节点间的可靠性度量进行计算,最后通过修改SCAN算法的框架实现了不确定图上的结构聚类。在得到了不确定图上的聚类之后,便可以将聚类结果作为社区结构输出。这种方法存在的一个局限是无法计算一个节点属于核心节点的概率,这就可能导致一种情况:虽然一个节点是一个可靠的核心节点,但是它在所有的可能世界中是核心节点的概率很低。
发明内容
为解决上述技术问题,本发明提供了一种基于不确定图的社区发现方法,通过对不确定图中核心节点的可靠性进行约束,解决了现有技术中核心节点存在可靠性不足的问题。
为达到上述目的,本发明的技术方案如下:
一种基于不确定图的社区发现方法,包括如下步骤:
步骤一,采集实际网络中的不确定数据并构建不确定图,以邻接链表的形式进行存储;
步骤二,使用稳定结构聚类算法挖掘不确定图中的稳定核心节点,枢纽节点和离群节点,并从稳定核心节点中构建稳定结构聚类;
步骤三,从稳定结构聚类中构建社区,即不确定图中的社区结构。
上述方案中,所述步骤一中,从实际网络中采集不确定数据,在对这些不确定数据进行测量后,如果两个节点u,v之间边上的概率不为0,则在邻接链表中保存一个三元组(u,v,p),p表示边存在的概率。
上述方案中,所述步骤二的具体方法如下:
(1)初始化稳定结构聚类算法中的参数,包括节点之间的相似度阈值∈,概率阈值η,可靠邻居的个数阈值μ;
(2)计算不确定图中每条边的概率结构相似度和不确定图中的可靠边;
(3)计算不确定图中的稳定核心节点;
(4)计算稳定结构聚类;
(5)计算枢纽节点和离群节点;
(6)输出聚类结果。
上述方案中,步骤(1)中,节点之间的相似度阈值∈,该值的范围是0<∈≤1,用来约束节点之间的结构相似性;概率阈值η,该值的范围是0<η≤1,用来判断两个邻居节点能否成为可靠邻居,这两个邻居节点所在的边能否成为可靠边,和一个节点能否成为稳定核心节点;可靠邻居的个数阈值μ,该值的范围是μ≥2,用来约束一个节点可靠邻居的个数。
上述方案中,步骤(2)中,根据概率结构相似度公式
Figure BDA0002684375070000031
计算每条边的概率结构相似度,其中
Figure BDA0002684375070000032
代表不确定图,
Figure BDA0002684375070000033
表示G是
Figure BDA0002684375070000034
的可能世界,
Figure BDA0002684375070000035
代表G在
Figure BDA0002684375070000036
中的出现概率;
对于边e=(u,v)来说,
Figure BDA0002684375070000037
N[u]表示为节点u的邻居个数,N[u]∩N[v]是节点u,v邻居的交集,N[u]∪N[v]是节点u,v邻居的并集;I(σ(e)≥∈)是一个指示函数,如果σ(e)≥∈,它的值为1,否则为0;
如果Pr[e,∈]≥η,那么该边是可靠边。
上述方案中,步骤(3)中,对于每一个节点,将节点的邻接边按照概率结构相似度降序排序,对于每一个邻居个数大于等于μ的节点,选择排序后的前μ条邻接边并将它们的概率结构相似度相乘,如果乘积大于等于η,则该节点属于稳定核心节点,并标记节点为未访问,否则,该节点属于非稳定核心节点。
上述方案中,步骤(4)中,对于一个未被访问过的稳定核心节点,从该稳定核心节点出发,访问能够被该节点通过可靠边到达的所有稳定核心节点并标记为已访问,这些稳定核心节点属于同一个聚类;如果存在未被访问过的稳定核心节点,重复该过程,直到所有的稳定核心节点都被标记为已访问;
对于每一个非稳定核心节点,如果该节点和一个稳定核心节点之间的边为可靠边,则将该非稳定核心节点分配到所连接的稳定核心节点所在的聚类中。
上述方案中,步骤(5)中,对于每一个不属于任何聚类的非稳定核心节点,如果它能够连接两个及两个以上的聚类,该节点属于枢纽节点,否则该节点属于离群节点。
上述方案中,步骤三中,将稳定结构聚类算法发现的稳定结构聚类作为社区结构输出
通过上述技术方案,本发明提供的一种基于不确定图的社区发现方法具有如下有益效果:
(1)本发明同时考虑了不确定图中边的可靠性和核心节点的可靠性,在最终得到的社区中,社区中的稳定核心节点以及连接它们的可靠边均能够满足一定的可靠性保证。
(2)本发明充分利用不确定图的性质,设计了一个高效的稳定结构聚类算法来计算不确定图中的稳定核心节点,并在此基础上挖掘社区结构,计算复杂度低,能够应用到大规模的图数据中。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍。
图1为本发明实施例所公开的一种基于不确定图的社区发现方法整体流程示意图;
图2为稳定结构发现阶段的主要流程示意图;
图3为稳定结构发现阶段的具体流程示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述。
本发明提供了一种基于不确定图的社区发现方法,如图1所示,具体实施例如下:
1.网络构建
不确定数据的产生可能由多种方式,如测量误差,机器学习模型中的误差等。比如在社交网络中,用户代表节点,用户之间的关系代表边,使用一个概率值表示用户之间关系的强弱,概率越大,两个用户之间的关系越紧密。在蛋白质交互网络中,蛋白质代表节点,节点之间的边代表蛋白质之间存在相互作用,在测量时产生的误差可以使用概率来表示,概率越大,代表测量的结果越可信。在对这些不确定数据进行测量后,如果两个节点(例如节点u,v)之间边上的概率不为0,则在邻接链表中保存一个三元组(u,v,p),p表示边存在的概率。
2.稳定结构发现,如图2和图3所示,具体过程如下:
(1)设置节点之间的相似度阈值∈,该值的范围是0<∈≤1,用来约束节点之间的结构相似性;设置概率阈值η,该值的范围是0<η≤1,用来判断两个邻居节点能否成为可靠邻居(这两个邻居所在的边为可靠边)和一个节点能否成为稳定核心节点;设置可靠邻居的个数阈值μ,该值的范围是μ≥2,用来约束一个节点可靠邻居的个数。
(2)根据概率结构相似度公式
Figure BDA0002684375070000041
计算每条边的概率结构相似度,其中
Figure BDA0002684375070000042
代表不确定图,
Figure BDA0002684375070000043
表示G是
Figure BDA0002684375070000044
的可能世界,
Figure BDA0002684375070000045
代表G在
Figure BDA0002684375070000046
中的出现概率。对于边e=(u,v)来说,
Figure BDA0002684375070000047
N[u]表示为节点u的邻居个数,N[u]∩N[v]是节点u,v邻居的交集,N[u]∪N[v]是节点u,v邻居的并集。
I(σ(e)≥∈)是一个指示函数,如果σ(e)≥∈,它的值为1,否则为0。对于每一条边e,如果Pr[e,∈]≥η,那么该边是可靠边。
(3)选择一个尚未处理的节点,将节点的邻接边按照概率结构相似度降序排序。
(4)选择排序后的前μ条邻接边并将它们的概率结构相似度相乘,如果乘积大于等于η,该节点属于稳定核心节点,并标记节点为未访问,否则,该节点属于非稳定核心节点。
(5)如果存在未处理的节点,重复步骤(4),否则执行(6)。
(6)选择一个未被访问过的稳定核心节点,从该稳定核心节点出发,访问能够被该节点通过可靠边到达的所有稳定核心节点并标记为已访问,这些稳定核心节点属于同一个聚类。
(7)如果存在未被访问过的稳定核心节点,重复(6),否则执行(8)。
(8)对于每一个非稳定核心节点,如果该节点和一个稳定核心节点之间的边为可靠边,则将该非稳定核心节点分配到所连接的稳定核心节点所在的聚类中。
(9)对于每一个不属于任何聚类的非稳定核心节点,如果它能够连接两个及两个以上的聚类,该节点属于枢纽节点,否则该节点属于离群节点。
3.社区构建
将步骤2中发现的稳定结构聚类作为社区结构输出。
对所公开的实施例的上述说明,使本领域专业技术人员能够实现或使用本发明。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的,本文中所定义的一般原理可以在不脱离本发明的精神或范围的情况下,在其它实施例中实现。因此,本发明将不会被限制于本文所示的这些实施例,而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

Claims (6)

1.一种基于不确定图的社区发现方法,其特征在于,包括如下步骤:
步骤一,采集实际网络中的不确定数据并构建不确定图,以邻接链表的形式进行存储;
步骤二,使用稳定结构聚类算法挖掘不确定图中的稳定核心节点,枢纽节点和离群节点,并从稳定核心节点中构建稳定结构聚类;
步骤三,从稳定结构聚类中构建社区,即不确定图中的社区结构;
所述步骤二的具体方法如下:
(1)初始化稳定结构聚类算法中的参数,包括节点之间的相似度阈值∈,概率阈值η,可靠邻居的个数阈值μ;
(2)计算不确定图中每条边的概率结构相似度和不确定图中的可靠边;
(3)计算不确定图中的稳定核心节点;
(4)计算稳定结构聚类;
(5)计算枢纽节点和离群节点;
(6)输出聚类结果;
步骤(2)中,根据概率结构相似度公式
Figure FDA0003466725720000011
计算每条边的概率结构相似度,其中
Figure FDA0003466725720000012
代表不确定图,
Figure FDA0003466725720000013
表示G是
Figure FDA0003466725720000014
的可能世界,
Figure FDA0003466725720000015
代表G在
Figure FDA0003466725720000016
中的出现概率;
对于边e=(u,v)来说,
Figure FDA0003466725720000017
N[u]表示为节点u的邻居个数,N[u]∩N[v]是节点u,v邻居的交集,N[u]∪N[v]是节点u,v邻居的并集;I(σ(e)≥∈)是一个指示函数,如果σ(e)≥∈,它的值为1,否则为0;
如果Pr[e,∈]≥η,那么该边是可靠边;
步骤(3)中,对于每一个节点,将节点的邻接边按照概率结构相似度降序排序,对于每一个邻居个数大于等于μ的节点,选择排序后的前μ条邻接边并将它们的概率结构相似度相乘,如果乘积大于等于η,则该节点属于稳定核心节点,并标记节点为未访问,否则,该节点属于非稳定核心节点。
2.根据权利要求1所述的一种基于不确定图的社区发现方法,其特征在于,所述步骤一中,从实际网络中采集不确定数据,在对这些不确定数据进行测量后,如果两个节点u,v之间边上的概率不为0,则在邻接链表中保存一个三元组(u,v,p),p表示边存在的概率。
3.根据权利要求1所述的一种基于不确定图的社区发现方法,其特征在于,步骤(1)中,节点之间的相似度阈值∈,该值的范围是0<∈≤1,用来约束节点之间的结构相似性;概率阈值η,该值的范围是0<η≤1,用来判断两个邻居节点能否成为可靠邻居,这两个邻居节点所在的边能否成为可靠边,和一个节点能否成为稳定核心节点;可靠邻居的个数阈值μ,该值的范围是μ≥2,用来约束一个节点可靠邻居的个数。
4.根据权利要求1所述的一种基于不确定图的社区发现方法,其特征在于,步骤(4)中,对于一个未被访问过的稳定核心节点,从该稳定核心节点出发,访问能够被该节点通过可靠边到达的所有稳定核心节点并标记为已访问,这些稳定核心节点属于同一个聚类;如果存在未被访问过的稳定核心节点,重复该过程,直到所有的稳定核心节点都被标记为已访问;
对于每一个非稳定核心节点,如果该节点和一个稳定核心节点之间的边为可靠边,则将该非稳定核心节点分配到所连接的稳定核心节点所在的聚类中。
5.根据权利要求4所述的一种基于不确定图的社区发现方法,其特征在于,步骤(5)中,对于每一个不属于任何聚类的非稳定核心节点,如果它能够连接两个及两个以上的聚类,该节点属于枢纽节点,否则该节点属于离群节点。
6.根据权利要求1所述的一种基于不确定图的社区发现方法,其特征在于,步骤三中,将稳定结构聚类算法发现的稳定结构聚类作为社区结构输出。
CN202010971870.9A 2020-09-16 2020-09-16 一种基于不确定图的社区发现方法 Active CN112182306B (zh)

Priority Applications (3)

Application Number Priority Date Filing Date Title
CN202010971870.9A CN112182306B (zh) 2020-09-16 2020-09-16 一种基于不确定图的社区发现方法
DE112020007405.6T DE112020007405T5 (de) 2020-09-16 2020-09-27 Verfahren zum Auffinden einer Gemeinschaft basierend auf einem unsicheren Graphen
PCT/CN2020/118130 WO2022056955A1 (zh) 2020-09-16 2020-09-27 一种基于不确定图的社区发现方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010971870.9A CN112182306B (zh) 2020-09-16 2020-09-16 一种基于不确定图的社区发现方法

Publications (2)

Publication Number Publication Date
CN112182306A CN112182306A (zh) 2021-01-05
CN112182306B true CN112182306B (zh) 2022-03-18

Family

ID=73921531

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010971870.9A Active CN112182306B (zh) 2020-09-16 2020-09-16 一种基于不确定图的社区发现方法

Country Status (3)

Country Link
CN (1) CN112182306B (zh)
DE (1) DE112020007405T5 (zh)
WO (1) WO2022056955A1 (zh)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112817963B (zh) * 2019-10-30 2022-10-25 华东师范大学 一种多维网络上的社群核分解方法及系统
CN115795527B (zh) * 2022-10-20 2023-08-18 福建师范大学 一种基于节点相似性的不确定图用户隐私保护方法
CN117808616A (zh) * 2024-02-28 2024-04-02 中国传媒大学 一种基于图嵌入和节点亲密度的社区发现方法及系统

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104573730A (zh) * 2015-01-29 2015-04-29 中国科学院深圳先进技术研究院 一种基于决定路径权重的不确定图分割方法及系统

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20140068650A (ko) * 2012-11-28 2014-06-09 삼성전자주식회사 중첩 커뮤니티 검출 방법
CN106980795B (zh) * 2017-02-28 2019-11-05 广西师范大学 社会网络数据隐私保护方法

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104573730A (zh) * 2015-01-29 2015-04-29 中国科学院深圳先进技术研究院 一种基于决定路径权重的不确定图分割方法及系统

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
不确定图上的结构聚类算法研究与实现;邱宇轩;《中国优秀硕士学位论文全文数据库 基础科学辑》;20190715(第07期);正文第1-17页 *

Also Published As

Publication number Publication date
WO2022056955A1 (zh) 2022-03-24
CN112182306A (zh) 2021-01-05
DE112020007405T5 (de) 2023-04-27

Similar Documents

Publication Publication Date Title
CN112182306B (zh) 一种基于不确定图的社区发现方法
CN107391512B (zh) 知识图谱预测的方法和装置
Pons et al. Post-processing hierarchical community structures: Quality improvements and multi-scale view
CN104346481B (zh) 一种基于动态同步模型的社区检测方法
CN108428015B (zh) 一种基于历史气象数据和随机模拟的风电功率预测方法
CN103838803A (zh) 一种基于节点Jaccard相似度的社交网络社团发现方法
CN110704694B (zh) 一种基于网络表示学习的组织层级划分方法及其应用
CN112700056A (zh) 复杂网络链路预测方法、装置、电子设备及介质
CN109086291B (zh) 一种基于MapReduce的并行异常检测方法及系统
CN117078048B (zh) 基于数字孪生的智慧城市资源管理方法及系统
Zhang et al. Protein complexes discovery based on protein-protein interaction data via a regularized sparse generative network model
CN112800115B (zh) 数据处理方法及数据处理装置
CN112417316A (zh) 一种基于多标签传播的半监督重叠社区发现算法
Zhang et al. Hierarchical community detection based on partial matrix convergence using random walks
CN114386466B (zh) 一种用于脉冲星搜寻中候选体信号挖掘的并行的混合聚类方法
CN114722947A (zh) 一种基于近邻搜索分簇的电力调度监控数据异常检测方法
Han et al. Generating uncertain networks based on historical network snapshots
CN113010813A (zh) 一种基于随机游走的标签传播重叠社区发现方法及系统
CN106778252B (zh) 基于粗糙集理论与waode算法的入侵检测方法
CN111209611A (zh) 一种基于双曲几何的有向网络空间嵌入方法
CN114329867B (zh) 一种基于模体的无标度网络鲁棒性度量方法
CN114969143A (zh) 基于数据挖掘的城市间大气污染物时空关联特征分析方法
CN104850646A (zh) 一种针对单个不确定图的频繁子图挖掘方法
CN112380267B (zh) 一种基于隐私图的社区发现方法
Chen et al. Robust truth discovery scheme based on mean shift clustering algorithm

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant