CN110941767A - 一种基于多相似度集成的网络社团检测对抗增强方法 - Google Patents

一种基于多相似度集成的网络社团检测对抗增强方法 Download PDF

Info

Publication number
CN110941767A
CN110941767A CN201911014746.7A CN201911014746A CN110941767A CN 110941767 A CN110941767 A CN 110941767A CN 201911014746 A CN201911014746 A CN 201911014746A CN 110941767 A CN110941767 A CN 110941767A
Authority
CN
China
Prior art keywords
community
network
similarity
occurrence
pruning
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201911014746.7A
Other languages
English (en)
Inventor
宣琦
周嘉俊
王金焕
陈丽红
俞山青
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Zhejiang University of Technology ZJUT
Original Assignee
Zhejiang University of Technology ZJUT
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Zhejiang University of Technology ZJUT filed Critical Zhejiang University of Technology ZJUT
Priority to CN201911014746.7A priority Critical patent/CN110941767A/zh
Publication of CN110941767A publication Critical patent/CN110941767A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • G06F16/9536Search customisation based on social or collaborative filtering
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/906Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q50/00Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
    • G06Q50/01Social networking

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Physics & Mathematics (AREA)
  • Business, Economics & Management (AREA)
  • Data Mining & Analysis (AREA)
  • General Engineering & Computer Science (AREA)
  • Human Resources & Organizations (AREA)
  • Health & Medical Sciences (AREA)
  • Economics (AREA)
  • General Health & Medical Sciences (AREA)
  • Computing Systems (AREA)
  • Marketing (AREA)
  • Primary Health Care (AREA)
  • Strategic Management (AREA)
  • Tourism & Hospitality (AREA)
  • General Business, Economics & Management (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

一种基于相似度的图网络社团检测对抗增强方法,包括以下步骤:S1:加载网络;S2:基于相似性进行网络重连;S3:社团检测获取社团划分;S4:集成多个社团划分结果,构造新的社团结构,具体操作步骤如下:4.1)构造共现网络;4.2)最优阈值选择;4.3)网络剪枝;4.4)孤立节点分配。本发明利用基于相似性的链路预测修复并增强网络结构,并通过集成聚类聚合多个社团划分,可以提高网络社团结构的稳定性,极大地提升了社团检测算法的性能。

Description

一种基于多相似度集成的网络社团检测对抗增强方法
技术领域
本发明涉及网络科学与数据挖掘领域,特别是涉及一种基于多相似度集成的网络社团检测对抗增强方法。
背景技术
网络中相似性较高的节点聚合成子图,称为社团,社团内部连接稠密,社团间连接稀疏。例如社交网络中,社团往往反映了具有相同关注话题的用户的集合;在科学家合作网络中,社团由具有相同研究领域的学者组成。网络的社团结构蕴含了网络重要的拓扑特征。大量研究表明,网络中社团层面的特征与全局特征存在较大的差异,忽略网络的社团结构会错过重要的网络特征。
大量的图聚类方法被提出用于网络的社区发现,以解决社会学、生物学、交通物流等学科领域的具体问题。传统的社团检测方法主要有谱聚类、模块度优化、派系过滤、层次聚类等,最新的方法聚焦于图嵌入、生成对抗网络等。然而,随着大数据时代的到来,网络数据规模不断增大,维度不断膨胀,同时网络数据的不断更新变化,都迫使着社团检测算法降低时间复杂度,提高计算速度。其次,对抗攻击(参考文献[1]:Zügner D,Akbarnejad A,Günnemann S.Adversarial attacks on neural networks for graph data[C]//Proceedings of the 24th ACM SIGKDD International Conference on KnowledgeDiscovery&Data Mining.ACM,2018:2847-2856.即Zügner D,Akbarnejad A,Günnemann S,针对图数据的神经网络对抗攻击,Proceedings of the 24th ACM SIGKDD InternationalConference on Knowledge Discovery&Data Mining.ACM,2018:2847-2856.)这一概念自提出以来,已经被广泛应用于计算机视觉、网络科学等领域。针对网络数据和算法模型的对抗攻击,严重影响了数据和算法的可靠性,使得网络数据挖掘分析出现偏差,其中也严重影响了社团检测算法的准确性。
综上,目前关于如何提升社团检测算法在大规模、对抗性数据上的检测效果的研究较为稀少。
发明内容
针对现有技术的这些难点,本发明提出网络社团检测对抗增强概念,本发明旨在结合链路预测和集成聚类解决以下问题:通过基于相似性指标的链路预测修复并增强网络的连接,将原本不明显或被破坏的网络社团结构变得清晰、稳定,利用集成聚类聚合多重社团划分,从而获得更准确的社团结构,从而帮助现有的社团检测算法提升检测精度,更好的应用于网络社团发现任务。
为了解决上述技术问题本发明提供如下的技术方案:
一种基于多相似度集成的网络社团检测对抗增强方法,包括如下步骤:
S1:加载网络
Figure BDA0002245335170000021
其中
Figure BDA0002245335170000022
表示网络中节点的集合,
Figure BDA00022453351700000217
表示网络中边的集合,
Figure BDA0002245335170000023
表示网络的真实社团划分;
S2:计算网络的节点相似性矩阵,根据节点相似性分数对边进行采样,采样得到的边用于网络的重连;
S3:对多个重连后的网络进行社团检测获取各自的社团划分结果;
S4:集成多个社团划分结果,构造新的社团结构,操作步骤如下:
4.1)构造共现网络:根据多个社团划分结果,构造共现矩阵
Figure BDA0002245335170000024
以共现矩阵作为邻接矩阵构造共现网络
Figure BDA0002245335170000025
4.2)最优阈值选择:遍历阈值
Figure BDA0002245335170000026
的定义域,使用聚类一致性分数评估不同阈值下对共现网络的剪枝结果,选择最优的剪枝结果对应的阈值作为最优阈值;
4.3)网络剪枝:根据最优阈值对共现网络进行剪枝操作,获取核心社团与孤立节点;
4.4)孤立节点分配:计算孤立节点与核心社团之间的平均相似度,将孤立节点分配到对应最大平均相似度的核心社团中,获得最终的社团结构
Figure BDA0002245335170000027
进一步,所述步骤2)中,使用8种相似性指标分别计算网络的8种相似性矩阵
Figure BDA0002245335170000028
8种相似性指标分别为Common neighbor、Jaccard、Salton、HPI、AA、RA、LP和RWR指标,在采样过程中,设定采样率βa控制采样的边数量为βam,采样方式为加权随机不放回采样,每条边被采样的概率与构成边的节点对的相似性分数成正比:
Figure BDA0002245335170000029
每一组采样得到的边用于网络重连,获取一系列重连网络
Figure BDA00022453351700000210
z为重连网络的个数。
所述步骤3)中,对每个重连网络进行社团检测,获取相应的社团划分
Figure BDA00022453351700000211
所述步骤4.1)中,共现矩阵表示为
Figure BDA00022453351700000212
元素aij表示节点i和j在z个社团划分结果中被聚类到同一个社团的次数。
所述步骤4.2)中,阈值
Figure BDA00022453351700000213
的定义域为
Figure BDA00022453351700000214
在每个可行的阈值下对网络进行剪枝,剪枝过程中,权重小于阈值
Figure BDA00022453351700000215
的边被删除,对一个大小为Mk的社团
Figure BDA00022453351700000216
使用簇一致性分数评估社团的稳定性:
Figure BDA0002245335170000031
对于共现网络
Figure BDA0002245335170000032
经过阈值
Figure BDA0002245335170000033
剪枝后获得的社团划分
Figure BDA0002245335170000034
使用聚类一致性分数评估其稳定性:
Figure BDA0002245335170000035
最优阈值的选择根据最大聚类一致性分数决定:
Figure BDA0002245335170000036
所述步骤4.3)中,利用最优阈值对共现网络进行剪枝操作,获取核心社团
Figure BDA0002245335170000037
与孤立节点集{vi|i=1,...,q}。
所述步骤4.4)中,为了得到最后的社团划分,需要将孤立节点分配到核心社团,首先计算孤立节点vi与每个核心社团之间的平均相似度,将孤立节点分配到对应最大平均相似度的核心社团中:
Figure BDA0002245335170000038
待所有孤立节点分配结束,获取新的社团结构
Figure BDA0002245335170000039
本发明的技术构思为:将网络社团检测对抗增强看作一个集成优化问题。通过基于相似性的链路预测,修复或增强网络社团结构,再借助集成聚类将多个检测结果聚合获得更准确的社团结构,提升社团检测算法在大规模、对抗性网络上的性能。
本发明的有益效果为:利用基于相似性的链路预测修复并增强网络结构;通过集成聚类聚合多个社团划分,可以提高网络社团结构的稳定性;社团检测算法在优化后的网络上能取得更好的社团检测效果。
附图说明
图1为本发明所提出的一种基于多相似度集成的网络社团检测对抗增强方法的流程图。
图2为本发明以NMI和ARI为评价指标时在两个原始网络和两个对应的对抗网络上的增强效果图。
具体实施方式
下面结合说明书附图对本发明的具体实施方式作进一步详细的描述。
参照图1和图2,一种基于多相似度集成的网络社团检测对抗增强方法,本实施例中使用了空手道数据集,选择的社团检测方法为Fast Greedy算法(参考文献[2]:ClausetA,Newman M E J,Moore C.Finding community structure in very large networks[J].Physical review E,2004,70(6):066111.即Clauset A,Newman M E J,Moore C,探索大网络的社团结构,Physical review E,2004,70(6):066111.)
本实施例中,一种基于多相似度集成的网络社团检测对抗增强方法,包括如下步骤:
S1:加载网络
Figure BDA0002245335170000041
其中
Figure BDA0002245335170000042
表示网络中节点的集合,
Figure BDA0002245335170000043
表示网络中边的集合,
Figure BDA0002245335170000044
表示网络的真实社团划分;
S2:计算网络的节点相似性矩阵,根据节点相似性分数对边进行采样,采样得到的边用于网络的重连;
S3:对多个重连后的网络进行社团检测获取各自的社团划分结果;
S4:集成多个社团划分结果,构造新的社团结构,操作步骤如下:
4.1)构造共现网络:根据多个社团划分结果,构造共现矩阵
Figure BDA0002245335170000045
以共现矩阵作为邻接矩阵构造共现网络
Figure BDA0002245335170000046
4.2)最优阈值选择:遍历阈值
Figure BDA0002245335170000047
的定义域,使用聚类一致性分数评估不同阈值下对共现网络的剪枝结果,选择最优的剪枝结果对应的阈值作为最优阈值;
4.3)网络剪枝:根据最优阈值对共现网络进行剪枝操作,获取核心社团与孤立节点;
4.4)孤立节点分配:计算孤立节点与核心社团之间的平均相似度,将孤立节点分配到对应最大平均相似度的核心社团中,获得最终的社团结构
Figure BDA0002245335170000048
进一步,所述步骤2)中,使用8种相似性指标分别计算网络的8种相似性矩阵
Figure BDA0002245335170000049
8种相似性指标分别为Common neighbor、Jaccard、Salton、HPI、AA、RA、LP和RWR指标,在采样过程中,设定采样率βa=1.5控制采样的边数量为117,采样方式为加权随机不放回采样,每条边被采样的概率与构成边的节点对的相似性分数成正比:
Figure BDA00022453351700000410
每个相似性指标采样10组边,每一组采样得到的边均用于网络重连,共获取80个重连网络
Figure BDA00022453351700000411
所述步骤3)中,对每个重连网络进行社团检测,获取相应的社团划分
Figure BDA00022453351700000412
所述步骤4.1)中,共现矩阵表示为
Figure BDA00022453351700000413
元素aij表示节点i和j在80个社团划分结果中被聚类到同一个社团的次数。
所述步骤4.2)中,阈值
Figure BDA0002245335170000051
的定义域为
Figure BDA0002245335170000052
在每个可行的阈值下对网络进行剪枝,剪枝过程中,权重小于阈值
Figure BDA0002245335170000053
的边被删除。对一个大小为Mk的社团
Figure BDA0002245335170000054
使用簇一致性分数评估社团的稳定性:
Figure BDA0002245335170000055
对于共现网络
Figure BDA0002245335170000056
经过阈值
Figure BDA0002245335170000057
剪枝后获得的社团划分
Figure BDA0002245335170000058
使用聚类一致性分数评估其稳定性:
Figure BDA0002245335170000059
最优阈值的选择根据最大聚类一致性分数决定:
Figure BDA00022453351700000510
所述步骤4.3)中,利用最优阈值
Figure BDA00022453351700000511
对共现网络进行剪枝操作,获取核心社团{{0,1,...,21},{8,9,...,33}}与孤立节点集
Figure BDA00022453351700000512
所述步骤4.4)中,为了得到最后的社团划分,需要将孤立节点分配到核心社团,首先计算孤立节点vi与每个核心社团之间的平均相似度,将孤立节点分配到对应最大平均相似度的核心社团中:
Figure BDA00022453351700000513
待所有孤立节点分配结束,获取新的社团结构
Figure BDA00022453351700000514
图2所示,针对两个数据集,以及对应的对抗网络进行基于相似性的社团检测对抗增强,采样率βa分别设置为1.5、2.7,得到新的社团结构
Figure BDA00022453351700000515
计算新社团结构
Figure BDA00022453351700000516
与真实社团结构
Figure BDA00022453351700000517
的标准化互信息NMI和调整兰德系数ARI两个评价指标。结果显示增强后的网络社团更接近真实社团分布,社团检测算法经过增强后有更好的性能。
其中,标准化互信息NMI用于衡量两个聚类结果的相似度,公式如下:
Figure BDA00022453351700000518
Figure BDA00022453351700000519
其中H(X)表示预测聚类结果的信息熵,H(X|Y)表示条件熵,即已知划分Y的情况下获取划分X所需的信息量。
本发明基于节点相似性,创新性的提出了针对网络社团检测任务的对抗增强方法。对发明而言仅仅是说明性的,而非限制性的。本专业技术人员理解,在发明权利要求所限定的精神和范围内可对其进行许多改变、修改,甚至等效,但都将落入本发明的保护范围内。

Claims (7)

1.一种基于多相似度集成的网络社团检测对抗增强方法,其特征在于,所述方法包括如下步骤:
S1:加载网络
Figure FDA0002245335160000011
其中
Figure FDA0002245335160000012
表示网络中节点的集合,ε={ei|i=1,...,m}表示网络中边的集合,
Figure FDA0002245335160000013
表示网络的真实社团划分;
S2:计算网络的节点相似性矩阵,根据节点相似性分数对边进行采样,采样得到的边用于网络的重连;
S3:对多个重连后的网络进行社团检测获取各自的社团划分结果;
S4:集成多个社团划分结果,构造新的社团结构,操作步骤如下:
4.1)构造共现网络:根据多个社团划分结果,构造共现矩阵
Figure FDA0002245335160000014
以共现矩阵作为邻接矩阵构造共现网络
Figure FDA0002245335160000015
4.2)最优阈值选择:遍历阈值
Figure FDA0002245335160000016
的定义域,使用聚类一致性分数评估不同阈值下对共现网络的剪枝结果,选择最优的剪枝结果对应的阈值作为最优阈值;
4.3)网络剪枝:根据最优阈值对共现网络进行剪枝操作,获取核心社团与孤立节点;
4.4)孤立节点分配:计算孤立节点与核心社团之间的平均相似度,将孤立节点分配到对应最大平均相似度的核心社团中,获得最终的社团结构
Figure FDA0002245335160000017
2.如权利要求1所述的一种基于多相似度集成的网络社团检测对抗增强方法,其特征在于,所述步骤2)中,使用8种相似性指标分别计算网络的8种相似性矩阵
Figure FDA0002245335160000018
8种相似性指标分别为Common neighbor、Jaccard、Salton、HPI、AA、RA、LP和RWR指标,在采样过程中,设定采样率βa控制采样的边数量为βam,采样方式为加权随机不放回采样,每条边被采样的概率与构成边的节点对的相似性分数成正比:
Figure FDA0002245335160000019
每一组采样得到的边用于网络重连,获取一系列重连网络
Figure FDA00022453351600000110
z为重连网络的个数。
3.如权利要求1或2所述的一种基于多相似度集成的网络社团检测对抗增强方法,其特征在于,所述步骤3)中,对每个重连网络进行社团检测,获取相应的社团划分
Figure FDA0002245335160000021
4.如权利要求1或2所述的一种基于多相似度集成的网络社团检测对抗增强方法,其特征在于,所述步骤4.1)中,共现矩阵表示为
Figure FDA0002245335160000022
元素aij表示节点i和j在z个社团划分结果中被聚类到同一个社团的次数。
5.如权利要求1或2所述的一种基于多相似度集成的网络社团检测对抗增强方法,其特征在于,所述步骤4.2)中,阈值
Figure FDA0002245335160000023
的定义域为
Figure FDA0002245335160000024
在每个可行的阈值下对网络进行剪枝,剪枝过程中,权重小于阈值
Figure FDA0002245335160000025
的边被删除,对一个大小为Mk的社团
Figure FDA0002245335160000026
使用簇一致性分数评估社团的稳定性:
Figure FDA0002245335160000027
对于共现网络
Figure FDA0002245335160000028
经过阈值
Figure FDA0002245335160000029
剪枝后获得的社团划分
Figure FDA00022453351600000210
使用聚类一致性分数评估其稳定性:
Figure FDA00022453351600000211
最优阈值的选择根据最大聚类一致性分数决定:
Figure FDA00022453351600000212
6.如权利要求3所述的一种基于多相似度集成的网络社团检测对抗增强方法,其特征在于,所述步骤4.3)中,利用最优阈值对共现网络进行剪枝操作,获取核心社团
Figure FDA00022453351600000213
与孤立节点集{vi|i=1,...,q}。
7.如权利要求4所述的一种基于多相似度集成的网络社团检测对抗增强方法,其特征在于,所述步骤4.4)中,为了得到最后的社团划分,需要将孤立节点分配到核心社团,首先计算孤立节点vi与每个核心社团之间的平均相似度,将孤立节点分配到对应最大平均相似度的核心社团中:
Figure FDA00022453351600000214
待所有孤立节点分配结束,获取新的社团结构
Figure FDA00022453351600000215
CN201911014746.7A 2019-10-24 2019-10-24 一种基于多相似度集成的网络社团检测对抗增强方法 Pending CN110941767A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201911014746.7A CN110941767A (zh) 2019-10-24 2019-10-24 一种基于多相似度集成的网络社团检测对抗增强方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201911014746.7A CN110941767A (zh) 2019-10-24 2019-10-24 一种基于多相似度集成的网络社团检测对抗增强方法

Publications (1)

Publication Number Publication Date
CN110941767A true CN110941767A (zh) 2020-03-31

Family

ID=69907214

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201911014746.7A Pending CN110941767A (zh) 2019-10-24 2019-10-24 一种基于多相似度集成的网络社团检测对抗增强方法

Country Status (1)

Country Link
CN (1) CN110941767A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113239198A (zh) * 2021-05-17 2021-08-10 中南大学 一种地铁客流预测方法、装置及计算机存储介质

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113239198A (zh) * 2021-05-17 2021-08-10 中南大学 一种地铁客流预测方法、装置及计算机存储介质
CN113239198B (zh) * 2021-05-17 2023-10-31 中南大学 一种地铁客流预测方法、装置及计算机存储介质

Similar Documents

Publication Publication Date Title
CN102737126A (zh) 云计算环境下的分类规则挖掘方法
CN110990718A (zh) 一种公司形象提升系统的社会网络模型构建模块
CN108039068B (zh) 一种基于航班延误传播的加权航空网络社团结构划分方法
CN112949748A (zh) 基于图神经网络的动态网络异常检测算法模型
CN110941767A (zh) 一种基于多相似度集成的网络社团检测对抗增强方法
CN112989526B (zh) 一种基于核极限学习机的航空网络关键节点识别方法
CN113516019A (zh) 高光谱图像解混方法、装置及电子设备
CN111178431B (zh) 一种基于神经网络与多维特征提取的网络节点角色识别方法
CN104778088A (zh) 一种基于减少进程间通信开销的并行i/o优化方法与系统
Fushimi et al. Estimating node connectedness in spatial network under stochastic link disconnection based on efficient sampling
CN114556364A (zh) 基于相似度运算符排序的神经架构搜索
CN109800231B (zh) 一种基于Flink的实时轨迹co-movement运动模式检测方法
CN109033746B (zh) 一种基于节点向量的蛋白质复合物识别方法
CN111711530A (zh) 基于社区拓扑结构信息的链接预测算法
CN113495981A (zh) 一种复杂网络脆弱性和弹性关系的分析方法
CN112966155A (zh) 基于路径相关性的链路预测方法
CN117875454B (zh) 一种基于多级智联的数据异构性联邦学习方法及存储介质
CN117369954B (zh) 一种面向大数据构建的风险处理框架的jvm优化方法和装置
Sun et al. Optimization study and application on the K value of K-means algorithm
CN116501924B (zh) 一种基于鲁棒增强损失函数的图链路预测方法
CN114676292B (zh) 一种超网络高影响力节点排序方法
CN115080921B (zh) 一种基于审计敏感的改进的Top-k Dominating方法
CN112948712B (zh) 一种可重叠的社群发现方法
CN113395172B (zh) 一种基于通信网的重要用户发现及行为预测方法
CN114691938B (zh) 一种基于超图的节点影响力最大化方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20200331