CN110941767A - 一种基于多相似度集成的网络社团检测对抗增强方法 - Google Patents
一种基于多相似度集成的网络社团检测对抗增强方法 Download PDFInfo
- Publication number
- CN110941767A CN110941767A CN201911014746.7A CN201911014746A CN110941767A CN 110941767 A CN110941767 A CN 110941767A CN 201911014746 A CN201911014746 A CN 201911014746A CN 110941767 A CN110941767 A CN 110941767A
- Authority
- CN
- China
- Prior art keywords
- community
- network
- similarity
- occurrence
- pruning
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000001514 detection method Methods 0.000 title claims abstract description 33
- 238000000034 method Methods 0.000 title claims abstract description 24
- 230000010354 integration Effects 0.000 title claims description 11
- 238000013138 pruning Methods 0.000 claims abstract description 24
- 238000005070 sampling Methods 0.000 claims description 15
- 239000011159 matrix material Substances 0.000 claims description 9
- 230000002708 enhancing effect Effects 0.000 claims description 5
- 238000010276 construction Methods 0.000 claims description 3
- 238000000638 solvent extraction Methods 0.000 claims description 3
- 238000005192 partition Methods 0.000 abstract description 4
- 230000004931 aggregating effect Effects 0.000 abstract description 2
- 230000003042 antagnostic effect Effects 0.000 description 3
- 230000000694 effects Effects 0.000 description 3
- 238000011160 research Methods 0.000 description 3
- 230000000007 visual effect Effects 0.000 description 3
- 238000007418 data mining Methods 0.000 description 2
- 238000005065 mining Methods 0.000 description 2
- 238000012552 review Methods 0.000 description 2
- 238000013528 artificial neural network Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 238000011156 evaluation Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/953—Querying, e.g. by the use of web search engines
- G06F16/9536—Search customisation based on social or collaborative filtering
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/906—Clustering; Classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q50/00—Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
- G06Q50/01—Social networking
Landscapes
- Engineering & Computer Science (AREA)
- Databases & Information Systems (AREA)
- Theoretical Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Physics & Mathematics (AREA)
- Business, Economics & Management (AREA)
- Data Mining & Analysis (AREA)
- General Engineering & Computer Science (AREA)
- Human Resources & Organizations (AREA)
- Health & Medical Sciences (AREA)
- Economics (AREA)
- General Health & Medical Sciences (AREA)
- Computing Systems (AREA)
- Marketing (AREA)
- Primary Health Care (AREA)
- Strategic Management (AREA)
- Tourism & Hospitality (AREA)
- General Business, Economics & Management (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
一种基于相似度的图网络社团检测对抗增强方法,包括以下步骤:S1:加载网络;S2:基于相似性进行网络重连;S3:社团检测获取社团划分;S4:集成多个社团划分结果,构造新的社团结构,具体操作步骤如下:4.1)构造共现网络;4.2)最优阈值选择;4.3)网络剪枝;4.4)孤立节点分配。本发明利用基于相似性的链路预测修复并增强网络结构,并通过集成聚类聚合多个社团划分,可以提高网络社团结构的稳定性,极大地提升了社团检测算法的性能。
Description
技术领域
本发明涉及网络科学与数据挖掘领域,特别是涉及一种基于多相似度集成的网络社团检测对抗增强方法。
背景技术
网络中相似性较高的节点聚合成子图,称为社团,社团内部连接稠密,社团间连接稀疏。例如社交网络中,社团往往反映了具有相同关注话题的用户的集合;在科学家合作网络中,社团由具有相同研究领域的学者组成。网络的社团结构蕴含了网络重要的拓扑特征。大量研究表明,网络中社团层面的特征与全局特征存在较大的差异,忽略网络的社团结构会错过重要的网络特征。
大量的图聚类方法被提出用于网络的社区发现,以解决社会学、生物学、交通物流等学科领域的具体问题。传统的社团检测方法主要有谱聚类、模块度优化、派系过滤、层次聚类等,最新的方法聚焦于图嵌入、生成对抗网络等。然而,随着大数据时代的到来,网络数据规模不断增大,维度不断膨胀,同时网络数据的不断更新变化,都迫使着社团检测算法降低时间复杂度,提高计算速度。其次,对抗攻击(参考文献[1]:Zügner D,Akbarnejad A,Günnemann S.Adversarial attacks on neural networks for graph data[C]//Proceedings of the 24th ACM SIGKDD International Conference on KnowledgeDiscovery&Data Mining.ACM,2018:2847-2856.即Zügner D,Akbarnejad A,Günnemann S,针对图数据的神经网络对抗攻击,Proceedings of the 24th ACM SIGKDD InternationalConference on Knowledge Discovery&Data Mining.ACM,2018:2847-2856.)这一概念自提出以来,已经被广泛应用于计算机视觉、网络科学等领域。针对网络数据和算法模型的对抗攻击,严重影响了数据和算法的可靠性,使得网络数据挖掘分析出现偏差,其中也严重影响了社团检测算法的准确性。
综上,目前关于如何提升社团检测算法在大规模、对抗性数据上的检测效果的研究较为稀少。
发明内容
针对现有技术的这些难点,本发明提出网络社团检测对抗增强概念,本发明旨在结合链路预测和集成聚类解决以下问题:通过基于相似性指标的链路预测修复并增强网络的连接,将原本不明显或被破坏的网络社团结构变得清晰、稳定,利用集成聚类聚合多重社团划分,从而获得更准确的社团结构,从而帮助现有的社团检测算法提升检测精度,更好的应用于网络社团发现任务。
为了解决上述技术问题本发明提供如下的技术方案:
一种基于多相似度集成的网络社团检测对抗增强方法,包括如下步骤:
S2:计算网络的节点相似性矩阵,根据节点相似性分数对边进行采样,采样得到的边用于网络的重连;
S3:对多个重连后的网络进行社团检测获取各自的社团划分结果;
S4:集成多个社团划分结果,构造新的社团结构,操作步骤如下:
4.3)网络剪枝:根据最优阈值对共现网络进行剪枝操作,获取核心社团与孤立节点;
进一步,所述步骤2)中,使用8种相似性指标分别计算网络的8种相似性矩阵8种相似性指标分别为Common neighbor、Jaccard、Salton、HPI、AA、RA、LP和RWR指标,在采样过程中,设定采样率βa控制采样的边数量为βam,采样方式为加权随机不放回采样,每条边被采样的概率与构成边的节点对的相似性分数成正比:
最优阈值的选择根据最大聚类一致性分数决定:
所述步骤4.4)中,为了得到最后的社团划分,需要将孤立节点分配到核心社团,首先计算孤立节点vi与每个核心社团之间的平均相似度,将孤立节点分配到对应最大平均相似度的核心社团中:
本发明的技术构思为:将网络社团检测对抗增强看作一个集成优化问题。通过基于相似性的链路预测,修复或增强网络社团结构,再借助集成聚类将多个检测结果聚合获得更准确的社团结构,提升社团检测算法在大规模、对抗性网络上的性能。
本发明的有益效果为:利用基于相似性的链路预测修复并增强网络结构;通过集成聚类聚合多个社团划分,可以提高网络社团结构的稳定性;社团检测算法在优化后的网络上能取得更好的社团检测效果。
附图说明
图1为本发明所提出的一种基于多相似度集成的网络社团检测对抗增强方法的流程图。
图2为本发明以NMI和ARI为评价指标时在两个原始网络和两个对应的对抗网络上的增强效果图。
具体实施方式
下面结合说明书附图对本发明的具体实施方式作进一步详细的描述。
参照图1和图2,一种基于多相似度集成的网络社团检测对抗增强方法,本实施例中使用了空手道数据集,选择的社团检测方法为Fast Greedy算法(参考文献[2]:ClausetA,Newman M E J,Moore C.Finding community structure in very large networks[J].Physical review E,2004,70(6):066111.即Clauset A,Newman M E J,Moore C,探索大网络的社团结构,Physical review E,2004,70(6):066111.)
本实施例中,一种基于多相似度集成的网络社团检测对抗增强方法,包括如下步骤:
S2:计算网络的节点相似性矩阵,根据节点相似性分数对边进行采样,采样得到的边用于网络的重连;
S3:对多个重连后的网络进行社团检测获取各自的社团划分结果;
S4:集成多个社团划分结果,构造新的社团结构,操作步骤如下:
4.3)网络剪枝:根据最优阈值对共现网络进行剪枝操作,获取核心社团与孤立节点;
进一步,所述步骤2)中,使用8种相似性指标分别计算网络的8种相似性矩阵8种相似性指标分别为Common neighbor、Jaccard、Salton、HPI、AA、RA、LP和RWR指标,在采样过程中,设定采样率βa=1.5控制采样的边数量为117,采样方式为加权随机不放回采样,每条边被采样的概率与构成边的节点对的相似性分数成正比:
最优阈值的选择根据最大聚类一致性分数决定:
所述步骤4.4)中,为了得到最后的社团划分,需要将孤立节点分配到核心社团,首先计算孤立节点vi与每个核心社团之间的平均相似度,将孤立节点分配到对应最大平均相似度的核心社团中:
图2所示,针对两个数据集,以及对应的对抗网络进行基于相似性的社团检测对抗增强,采样率βa分别设置为1.5、2.7,得到新的社团结构计算新社团结构与真实社团结构的标准化互信息NMI和调整兰德系数ARI两个评价指标。结果显示增强后的网络社团更接近真实社团分布,社团检测算法经过增强后有更好的性能。
其中,标准化互信息NMI用于衡量两个聚类结果的相似度,公式如下:
其中H(X)表示预测聚类结果的信息熵,H(X|Y)表示条件熵,即已知划分Y的情况下获取划分X所需的信息量。
本发明基于节点相似性,创新性的提出了针对网络社团检测任务的对抗增强方法。对发明而言仅仅是说明性的,而非限制性的。本专业技术人员理解,在发明权利要求所限定的精神和范围内可对其进行许多改变、修改,甚至等效,但都将落入本发明的保护范围内。
Claims (7)
1.一种基于多相似度集成的网络社团检测对抗增强方法,其特征在于,所述方法包括如下步骤:
S2:计算网络的节点相似性矩阵,根据节点相似性分数对边进行采样,采样得到的边用于网络的重连;
S3:对多个重连后的网络进行社团检测获取各自的社团划分结果;
S4:集成多个社团划分结果,构造新的社团结构,操作步骤如下:
4.3)网络剪枝:根据最优阈值对共现网络进行剪枝操作,获取核心社团与孤立节点;
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911014746.7A CN110941767A (zh) | 2019-10-24 | 2019-10-24 | 一种基于多相似度集成的网络社团检测对抗增强方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911014746.7A CN110941767A (zh) | 2019-10-24 | 2019-10-24 | 一种基于多相似度集成的网络社团检测对抗增强方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN110941767A true CN110941767A (zh) | 2020-03-31 |
Family
ID=69907214
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201911014746.7A Pending CN110941767A (zh) | 2019-10-24 | 2019-10-24 | 一种基于多相似度集成的网络社团检测对抗增强方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110941767A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113239198A (zh) * | 2021-05-17 | 2021-08-10 | 中南大学 | 一种地铁客流预测方法、装置及计算机存储介质 |
-
2019
- 2019-10-24 CN CN201911014746.7A patent/CN110941767A/zh active Pending
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113239198A (zh) * | 2021-05-17 | 2021-08-10 | 中南大学 | 一种地铁客流预测方法、装置及计算机存储介质 |
CN113239198B (zh) * | 2021-05-17 | 2023-10-31 | 中南大学 | 一种地铁客流预测方法、装置及计算机存储介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN102737126A (zh) | 云计算环境下的分类规则挖掘方法 | |
CN110990718A (zh) | 一种公司形象提升系统的社会网络模型构建模块 | |
CN108039068B (zh) | 一种基于航班延误传播的加权航空网络社团结构划分方法 | |
CN112949748A (zh) | 基于图神经网络的动态网络异常检测算法模型 | |
CN110941767A (zh) | 一种基于多相似度集成的网络社团检测对抗增强方法 | |
CN112989526B (zh) | 一种基于核极限学习机的航空网络关键节点识别方法 | |
CN113516019A (zh) | 高光谱图像解混方法、装置及电子设备 | |
CN111178431B (zh) | 一种基于神经网络与多维特征提取的网络节点角色识别方法 | |
CN104778088A (zh) | 一种基于减少进程间通信开销的并行i/o优化方法与系统 | |
Fushimi et al. | Estimating node connectedness in spatial network under stochastic link disconnection based on efficient sampling | |
CN114556364A (zh) | 基于相似度运算符排序的神经架构搜索 | |
CN109800231B (zh) | 一种基于Flink的实时轨迹co-movement运动模式检测方法 | |
CN109033746B (zh) | 一种基于节点向量的蛋白质复合物识别方法 | |
CN111711530A (zh) | 基于社区拓扑结构信息的链接预测算法 | |
CN113495981A (zh) | 一种复杂网络脆弱性和弹性关系的分析方法 | |
CN112966155A (zh) | 基于路径相关性的链路预测方法 | |
CN117875454B (zh) | 一种基于多级智联的数据异构性联邦学习方法及存储介质 | |
CN117369954B (zh) | 一种面向大数据构建的风险处理框架的jvm优化方法和装置 | |
Sun et al. | Optimization study and application on the K value of K-means algorithm | |
CN116501924B (zh) | 一种基于鲁棒增强损失函数的图链路预测方法 | |
CN114676292B (zh) | 一种超网络高影响力节点排序方法 | |
CN115080921B (zh) | 一种基于审计敏感的改进的Top-k Dominating方法 | |
CN112948712B (zh) | 一种可重叠的社群发现方法 | |
CN113395172B (zh) | 一种基于通信网的重要用户发现及行为预测方法 | |
CN114691938B (zh) | 一种基于超图的节点影响力最大化方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20200331 |