CN110941767A

CN110941767A - 一种基于多相似度集成的网络社团检测对抗增强方法

Info

Publication number: CN110941767A
Application number: CN201911014746.7A
Authority: CN
Inventors: 宣琦; 周嘉俊; 王金焕; 陈丽红; 俞山青
Original assignee: Zhejiang University of Technology ZJUT
Current assignee: Zhejiang University of Technology ZJUT
Priority date: 2019-10-24
Filing date: 2019-10-24
Publication date: 2020-03-31

Abstract

一种基于相似度的图网络社团检测对抗增强方法，包括以下步骤：S1：加载网络；S2:基于相似性进行网络重连；S3：社团检测获取社团划分；S4：集成多个社团划分结果，构造新的社团结构，具体操作步骤如下：4.1)构造共现网络；4.2)最优阈值选择；4.3)网络剪枝；4.4)孤立节点分配。本发明利用基于相似性的链路预测修复并增强网络结构，并通过集成聚类聚合多个社团划分，可以提高网络社团结构的稳定性，极大地提升了社团检测算法的性能。

Description

一种基于多相似度集成的网络社团检测对抗增强方法

技术领域

本发明涉及网络科学与数据挖掘领域，特别是涉及一种基于多相似度集成的网络社团检测对抗增强方法。

背景技术

网络中相似性较高的节点聚合成子图，称为社团，社团内部连接稠密，社团间连接稀疏。例如社交网络中，社团往往反映了具有相同关注话题的用户的集合；在科学家合作网络中，社团由具有相同研究领域的学者组成。网络的社团结构蕴含了网络重要的拓扑特征。大量研究表明，网络中社团层面的特征与全局特征存在较大的差异，忽略网络的社团结构会错过重要的网络特征。

大量的图聚类方法被提出用于网络的社区发现，以解决社会学、生物学、交通物流等学科领域的具体问题。传统的社团检测方法主要有谱聚类、模块度优化、派系过滤、层次聚类等，最新的方法聚焦于图嵌入、生成对抗网络等。然而，随着大数据时代的到来，网络数据规模不断增大，维度不断膨胀，同时网络数据的不断更新变化，都迫使着社团检测算法降低时间复杂度，提高计算速度。其次，对抗攻击(参考文献[1]:Zügner D,Akbarnejad A,Günnemann S.Adversarial attacks on neural networks for graph data[C]//Proceedings of the 24th ACM SIGKDD International Conference on KnowledgeDiscovery&Data Mining.ACM,2018:2847-2856.即Zügner D,Akbarnejad A,Günnemann S，针对图数据的神经网络对抗攻击，Proceedings of the 24th ACM SIGKDD InternationalConference on Knowledge Discovery&Data Mining.ACM,2018:2847-2856.)这一概念自提出以来，已经被广泛应用于计算机视觉、网络科学等领域。针对网络数据和算法模型的对抗攻击，严重影响了数据和算法的可靠性，使得网络数据挖掘分析出现偏差，其中也严重影响了社团检测算法的准确性。

综上，目前关于如何提升社团检测算法在大规模、对抗性数据上的检测效果的研究较为稀少。

发明内容

针对现有技术的这些难点，本发明提出网络社团检测对抗增强概念，本发明旨在结合链路预测和集成聚类解决以下问题：通过基于相似性指标的链路预测修复并增强网络的连接，将原本不明显或被破坏的网络社团结构变得清晰、稳定，利用集成聚类聚合多重社团划分，从而获得更准确的社团结构，从而帮助现有的社团检测算法提升检测精度，更好的应用于网络社团发现任务。

为了解决上述技术问题本发明提供如下的技术方案：

一种基于多相似度集成的网络社团检测对抗增强方法，包括如下步骤：

S1：加载网络

其中

表示网络中节点的集合,

表示网络中边的集合，

表示网络的真实社团划分；

S2：计算网络的节点相似性矩阵，根据节点相似性分数对边进行采样，采样得到的边用于网络的重连；

S3：对多个重连后的网络进行社团检测获取各自的社团划分结果；

S4：集成多个社团划分结果，构造新的社团结构，操作步骤如下：

4.1)构造共现网络：根据多个社团划分结果，构造共现矩阵

以共现矩阵作为邻接矩阵构造共现网络

4.2)最优阈值选择：遍历阈值

的定义域，使用聚类一致性分数评估不同阈值下对共现网络的剪枝结果，选择最优的剪枝结果对应的阈值作为最优阈值；

4.3)网络剪枝：根据最优阈值对共现网络进行剪枝操作，获取核心社团与孤立节点；

4.4)孤立节点分配：计算孤立节点与核心社团之间的平均相似度，将孤立节点分配到对应最大平均相似度的核心社团中，获得最终的社团结构

进一步，所述步骤2)中,使用8种相似性指标分别计算网络的8种相似性矩阵

8种相似性指标分别为Common neighbor、Jaccard、Salton、HPI、AA、RA、LP和RWR指标，在采样过程中，设定采样率β_a控制采样的边数量为β_am，采样方式为加权随机不放回采样，每条边被采样的概率与构成边的节点对的相似性分数成正比：

每一组采样得到的边用于网络重连，获取一系列重连网络

z为重连网络的个数。

所述步骤3)中，对每个重连网络进行社团检测，获取相应的社团划分

所述步骤4.1)中，共现矩阵表示为

元素a_ij表示节点i和j在z个社团划分结果中被聚类到同一个社团的次数。

所述步骤4.2)中，阈值

的定义域为

在每个可行的阈值下对网络进行剪枝，剪枝过程中，权重小于阈值

的边被删除，对一个大小为M_k的社团

使用簇一致性分数评估社团的稳定性：

对于共现网络

经过阈值

剪枝后获得的社团划分

使用聚类一致性分数评估其稳定性：

最优阈值的选择根据最大聚类一致性分数决定：

所述步骤4.3)中，利用最优阈值对共现网络进行剪枝操作，获取核心社团

与孤立节点集{v_i|i＝1,...,q}。

所述步骤4.4)中，为了得到最后的社团划分，需要将孤立节点分配到核心社团，首先计算孤立节点v_i与每个核心社团之间的平均相似度，将孤立节点分配到对应最大平均相似度的核心社团中：

待所有孤立节点分配结束，获取新的社团结构

本发明的技术构思为：将网络社团检测对抗增强看作一个集成优化问题。通过基于相似性的链路预测，修复或增强网络社团结构，再借助集成聚类将多个检测结果聚合获得更准确的社团结构，提升社团检测算法在大规模、对抗性网络上的性能。

本发明的有益效果为：利用基于相似性的链路预测修复并增强网络结构；通过集成聚类聚合多个社团划分，可以提高网络社团结构的稳定性；社团检测算法在优化后的网络上能取得更好的社团检测效果。

附图说明

图1为本发明所提出的一种基于多相似度集成的网络社团检测对抗增强方法的流程图。

图2为本发明以NMI和ARI为评价指标时在两个原始网络和两个对应的对抗网络上的增强效果图。

具体实施方式

下面结合说明书附图对本发明的具体实施方式作进一步详细的描述。

参照图1和图2，一种基于多相似度集成的网络社团检测对抗增强方法，本实施例中使用了空手道数据集，选择的社团检测方法为Fast Greedy算法(参考文献[2]:ClausetA,Newman M E J,Moore C.Finding community structure in very large networks[J].Physical review E,2004,70(6):066111.即Clauset A,Newman M E J,Moore C,探索大网络的社团结构,Physical review E,2004,70(6):066111.)

本实施例中，一种基于多相似度集成的网络社团检测对抗增强方法，包括如下步骤：

S1：加载网络

其中

表示网络中节点的集合,

表示网络中边的集合，

表示网络的真实社团划分；

4.1)构造共现网络：根据多个社团划分结果，构造共现矩阵

以共现矩阵作为邻接矩阵构造共现网络

4.2)最优阈值选择：遍历阈值

8种相似性指标分别为Common neighbor、Jaccard、Salton、HPI、AA、RA、LP和RWR指标，在采样过程中，设定采样率β_a＝1.5控制采样的边数量为117，采样方式为加权随机不放回采样，每条边被采样的概率与构成边的节点对的相似性分数成正比：

每个相似性指标采样10组边，每一组采样得到的边均用于网络重连，共获取80个重连网络

所述步骤4.1)中，共现矩阵表示为

元素a_ij表示节点i和j在80个社团划分结果中被聚类到同一个社团的次数。

所述步骤4.2)中，阈值

的定义域为

的边被删除。对一个大小为M_k的社团

使用簇一致性分数评估社团的稳定性：

对于共现网络

经过阈值

剪枝后获得的社团划分

使用聚类一致性分数评估其稳定性：

最优阈值的选择根据最大聚类一致性分数决定：

所述步骤4.3)中，利用最优阈值

对共现网络进行剪枝操作，获取核心社团{{0,1,...,21},{8,9,...,33}}与孤立节点集

待所有孤立节点分配结束，获取新的社团结构

图2所示，针对两个数据集，以及对应的对抗网络进行基于相似性的社团检测对抗增强，采样率β_a分别设置为1.5、2.7，得到新的社团结构

计算新社团结构

与真实社团结构

的标准化互信息NMI和调整兰德系数ARI两个评价指标。结果显示增强后的网络社团更接近真实社团分布，社团检测算法经过增强后有更好的性能。

其中，标准化互信息NMI用于衡量两个聚类结果的相似度，公式如下：

其中H(X)表示预测聚类结果的信息熵，H(X|Y)表示条件熵，即已知划分Y的情况下获取划分X所需的信息量。

本发明基于节点相似性，创新性的提出了针对网络社团检测任务的对抗增强方法。对发明而言仅仅是说明性的，而非限制性的。本专业技术人员理解，在发明权利要求所限定的精神和范围内可对其进行许多改变、修改，甚至等效，但都将落入本发明的保护范围内。