CN112149000A - 一种基于网络嵌入和节点相似性的在线社交网络用户社区发现方法 - Google Patents

一种基于网络嵌入和节点相似性的在线社交网络用户社区发现方法 Download PDF

Info

Publication number
CN112149000A
CN112149000A CN202010940206.8A CN202010940206A CN112149000A CN 112149000 A CN112149000 A CN 112149000A CN 202010940206 A CN202010940206 A CN 202010940206A CN 112149000 A CN112149000 A CN 112149000A
Authority
CN
China
Prior art keywords
node
nodes
social network
community
network
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202010940206.8A
Other languages
English (en)
Other versions
CN112149000B (zh
Inventor
杨旭华
曾祥宇
龙海霞
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Zhejiang University of Technology ZJUT
Original Assignee
Zhejiang University of Technology ZJUT
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Zhejiang University of Technology ZJUT filed Critical Zhejiang University of Technology ZJUT
Priority to CN202010940206.8A priority Critical patent/CN112149000B/zh
Publication of CN112149000A publication Critical patent/CN112149000A/zh
Application granted granted Critical
Publication of CN112149000B publication Critical patent/CN112149000B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • G06F16/9536Search customisation based on social or collaborative filtering
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/23Clustering techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q50/00Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
    • G06Q50/01Social networking

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • Databases & Information Systems (AREA)
  • General Physics & Mathematics (AREA)
  • Business, Economics & Management (AREA)
  • General Engineering & Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Economics (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Artificial Intelligence (AREA)
  • Computing Systems (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Evolutionary Computation (AREA)
  • General Health & Medical Sciences (AREA)
  • Human Resources & Organizations (AREA)
  • Marketing (AREA)
  • Primary Health Care (AREA)
  • Strategic Management (AREA)
  • Tourism & Hospitality (AREA)
  • General Business, Economics & Management (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

一种基于网络嵌入和节点相似性的在线社交网络用户社区发现方法,运用网络嵌入方法把高维社交网络转化为低维向量数据,计算用户节点之间的距离和每个节点的动态邻居引力和动态邻居引力中心性,进而确定各个初始小社区的中心节点然后将其余数据点归属到与其距离最近的初始中心节点所代表的小社区中,生成社交网络用户的初始小社区集合;计算所有节点之间的距离,得到每个节点的最相似节点,形成最相似节点对,然后跟据最相似性节点对合并初始小社区并得到二次社区;最后通过优化模块度的方法合并二次社区并找到最优的网络社区结构。本发明使用网路嵌入向量计算节点之间的距离,利用最相似节点对合并社区,速度快,精确度高。

Description

一种基于网络嵌入和节点相似性的在线社交网络用户社区发 现方法
技术领域
本发明涉及网络科学领域,特别是指一种基于网络嵌入和节点相似性的在线社交网络用户社区发现方法。
背景技术
随着互联网技术的蓬勃发展,推动着人们进入了信息化社会,人类跨入了网络新时代,对世界的认识也越来越深刻。如今,网络几乎覆盖了我们学习、工作、生活等各个方面。人们生活中的娱乐交友、物质消费、信息消费等方方面面都不断被网络化、智能化、终端化。生活中网络服务平台,诸如微博、淘宝、博客、豆瓣网、大众点评等,这些网络系统中的主体与主体间的联系均可以抽象为网络图,并对其进行分析研究。并且由于人际关系的存在,社交网络往往都具有明显的社区结构特征,具有社区内人们联系频繁,社区间联系较少等特点,社区发现作为社交网络分析的重点工作,能够发现社交网络中的社区,不仅帮助用户找到与自己兴趣相同或相仿的其他用户,还可以帮助推荐系统根据不同的用户社团进行推荐。
社区检测又被称为是社区发现,它是用来揭示网络聚集行为的一种技术,在生物网、互联网、交通网、金融网等各式各样的网络中都可以创造可观的价值。目前存在了多种社团发现算法,基于模块度划分的GN方法、图谱聚类方法和基于边聚类的方法、基于标签传播的方法等,但是这些方法存在划分的结果不太稳定,网络中节点间的连边信息常常会被忽略等问题。为了在社交网络中更准确的发现高质量的用户社团结构,本发明提出一种用网络嵌入方法把高维网络拓扑数据转化为低维的向量数据,同时保留网络节点的邻居拓扑信息,提出新引力模型和动态邻居引力并结合节点相似性方法来划分社区。
发明内容
为了克服现有社交网络用户社区划分方法精确度不高等问题,本发明提出一种准确性较高和时间复杂度较低的基于网络嵌入和节点相似性的无参数复杂网络社区划分方法。
本发明解决其技术问题所采用的技术方案是:
一种基于网络嵌入和节点相似性的无参数复杂网络社区划分方法,包括如下步骤:
步骤一:根据在线社交网络用户联系数据构建社交网络模型G(V,E),其中V表示节点,一个节点表示一个用户,网络的用户总数是N,E表示连边,如果两个用户是好友关系,则这两个用户对应的节点之间有连边,网络中与节点i直接相连的邻居节点的数量用ki表示;
步骤二:采用Node2Vec网络嵌入方法将具有N个节点的社交网络模型G转化为欧氏空间的N个m维向量表征的数据点,其中第i个数据点表示为
Figure BDA0002673375960000021
步骤三:在社交网络模型G中任取一个节点i,计算节点i的动态邻居引力
Figure BDA0002673375960000022
其中dij表示节点i与节点j之间的距离,用二者对应向量表征的数据点之间的欧氏距离表示,
Figure BDA0002673375960000023
为单位向量,遍历社交网络模型G,计算所有节点的动态邻居引力;
步骤四:计算社交网络模型G中任意节点i的动态邻居引力中心性
Figure BDA0002673375960000024
遍历社交网络模型G,计算所有节点的动态邻居引力中心性;
步骤五:在社交网络模型G中任取一个节点i,计算节点i和动态邻居引力中心性大于DNCi的所有节点之间的距离,其中的最短距离是节点i的最小距离,其中节点间的距离指的是节点对应数据点之间的欧氏距离;遍历社交网络模型G,计算所有节点的最小距离;
步骤六:选取DNC>0同时最小距离大于D的数据点添加到集合center中,其中D是所有具有连边的两个节点的距离d的平均值;
步骤七:把集合center中的每个数据点作为一个初始小社区的中心节点,将其余数据点归属到与其距离最近的中心节点所代表的小社区中,生成社交网络的初始小社区集合;
步骤八:在社交网络模型G中任取一个节点i,在节点i的邻居节点中找到距离d最近的节点,这个节点就是节点i的最相似节点,这两个节点就是最相似节点对;遍历社交网络模型G,找到所有节点的最相似节点和所有的最相似节点对;
步骤九:对任意最相似节点对,如果这两个节点处于不同的初始小社区,则合并这两个初始小社区;对所有的最相似节点对重复这个过程,直到所有的最相似节点对处于同一个社区,从而得到社交网络的二次社区结构;
步骤十:任意选取网络中有连边的两个社区合并,计算网络的模块度,如果模块度增加,则保留这次合并社区,反之则取消这次合并;重复这个过程,直到网络的模块度不再增加,获得网络的最终社区结构。
本发明的技术构思为:运用Node2Vec网络嵌入方法把高维网络拓扑数据转化为低维的向量数据,同时把网络拓扑结构引入聚类方法当中,降低了对聚类参数的依赖,提升了在线社交网络用户社区划分的准确度。
本发明的有益效果为:在运用Node2Vec网络嵌入方法把高维网络转化为低维向量数据的同时,把网络拓扑结构数据引入聚类方法,用聚类方法完成社交网络用户社区的发现任务,提高了社区划分的准确性。
附图说明
图1为是一个简单的社交网络示意图,图中的节点表示社交网络中的每个用户,1,2,3,…,12为相应的用户编号,如果两个用户是一对好友,则两个节点之间有一条连边。
具体实施方式
下面结合附图对本发明做进一步说明。
参照图1,一种基于网络嵌入和节点相似性的在线社交网络用户社区发现方法,包括如下步骤:
步骤一:根据在线社交网络用户联系数据构建社交网络模型G(V,E),其中V表示节点,即图1中的1,2,3,...,12,表示网络中的每个用户,网络的用户总数是N,E表示连边,如果两个用户是好友关系,则这两个用户对应的节点之间有连边,网络中与节点i直接相连的邻居节点的数量用ki表示;
步骤二:采用Node2Vec网络嵌入方法将具有N个节点的社交网络模型G转化为欧氏空间的N个m维向量表征的数据点,其中第i个数据点表示为
Figure BDA0002673375960000041
步骤三:在社交网络模型G中任取一个节点i,计算节点i的动态邻居引力
Figure BDA0002673375960000042
其中dij表示节点i与节点j之间的距离,用二者对应向量表征的数据点之间的欧氏距离表示,
Figure BDA0002673375960000043
为单位向量,遍历社交网络模型G,计算所有节点的动态邻居引力;
步骤四:计算社交网络模型G中任意节点i的动态邻居引力中心性
Figure BDA0002673375960000044
遍历社交网络模型G,计算所有节点的动态邻居引力中心性;
步骤五:在社交网络模型G中任取一个节点i,计算节点i和动态邻居引力中心性大于DNCi的所有节点之间的距离,其中的最短距离是节点i的最小距离,其中节点间的距离指的是节点对应数据点之间的欧氏距离;遍历社交网络模型G,计算所有节点的最小距离;
步骤六:选取DNC>0同时最小距离大于D的数据点添加到集合center中,其中D是所有具有连边的两个节点的距离d的平均值;
步骤七:把集合center中的每个数据点作为一个初始小社区的中心节点,将其余数据点归属到与其距离最近的中心节点所代表的小社区中,生成社交网络的初始小社区集合;
步骤八:在社交网络模型G中任取一个节点i,在节点i的邻居节点中找到距离d最近的节点,这个节点就是节点i的最相似节点,这两个节点就是最相似节点对;遍历社交网络模型G,找到所有节点的最相似节点和所有的最相似节点对;
步骤九:对任意最相似节点对,如果这两个节点处于不同的初始小社区,则合并这两个初始小社区;对所有的最相似节点对重复这个过程,直到所有的最相似节点对处于同一个社区,从而得到社交网络的二次社区结构;
步骤十:任意选取网络中有连边的两个社区合并,计算网络的模块度,如果模块度增加,则保留这次合并社区,反之则取消这次合并;重复这个过程,直到网络的模块度不再增加,获得网络的最终社区结构。
如上所述,本专利实施的具体实现步骤使本发明更加清晰。在本发明的精神和权利要求的保护范围内,对本发明作出的任何修改和改变,都落入本发明的保护范围。

Claims (1)

1.一种基于网络嵌入和节点相似性的在线社交网络用户社区发现方法,其特征在于:包括如下步骤:
步骤一:根据在线社交网络用户联系数据构建社交网络模型G(V,E),其中V表示节点,一个节点表示一个用户,网络的用户总数是N,E表示连边,如果两个用户是好友关系,则这两个用户对应的节点之间有连边,网络中与节点i直接相连的邻居节点的数量用ki表示;
步骤二:采用Node2Vec网络嵌入方法将具有N个节点的社交网络模型G转化为欧氏空间的N个m维向量表征的数据点,其中第i个数据点表示为
Figure FDA0002673375950000011
步骤三:在社交网络模型G中任取一个节点i,计算节点i的动态邻居引力
Figure FDA0002673375950000012
其中dij表示节点i与节点j之间的距离,用二者对应向量表征的数据点之间的欧氏距离表示,
Figure FDA0002673375950000013
为单位向量,遍历社交网络模型G,计算所有节点的动态邻居引力;
步骤四:计算社交网络模型G中任意节点i的动态邻居引力中心性
Figure FDA0002673375950000014
遍历社交网络模型G,计算所有节点的动态邻居引力中心性;
步骤五:在社交网络模型G中任取一个节点i,计算节点i和动态邻居引力中心性大于DNCi的所有节点之间的距离,其中的最短距离是节点i的最小距离,其中节点间的距离指的是节点对应数据点之间的欧氏距离;遍历社交网络模型G,计算所有节点的最小距离;
步骤六:选取DNC>0同时最小距离大于D的数据点添加到集合center中,其中D是所有具有连边的两个节点的距离d的平均值;
步骤七:把集合center中的每个数据点作为一个初始小社区的中心节点,将其余数据点归属到与其距离最近的中心节点所代表的小社区中,生成社交网络的初始小社区集合;
步骤八:在社交网络模型G中任取一个节点i,在节点i的邻居节点中找到距离d最近的节点,这个节点就是节点i的最相似节点,这两个节点就是最相似节点对;遍历社交网络模型G,找到所有节点的最相似节点和所有的最相似节点对;
步骤九:对任意最相似节点对,如果这两个节点处于不同的初始小社区,则合并这两个初始小社区;对所有的最相似节点对重复这个过程,直到所有的最相似节点对处于同一个社区,从而得到社交网络的二次社区结构;
步骤十:任意选取网络中有连边的两个社区合并,计算网络的模块度,如果模块度增加,则保留这次合并社区,反之则取消这次合并;重复这个过程,直到网络的模块度不再增加,获得网络的最终社区结构。
CN202010940206.8A 2020-09-09 2020-09-09 一种基于网络嵌入的在线社交网络用户社区发现方法 Active CN112149000B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010940206.8A CN112149000B (zh) 2020-09-09 2020-09-09 一种基于网络嵌入的在线社交网络用户社区发现方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010940206.8A CN112149000B (zh) 2020-09-09 2020-09-09 一种基于网络嵌入的在线社交网络用户社区发现方法

Publications (2)

Publication Number Publication Date
CN112149000A true CN112149000A (zh) 2020-12-29
CN112149000B CN112149000B (zh) 2021-12-17

Family

ID=73890077

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010940206.8A Active CN112149000B (zh) 2020-09-09 2020-09-09 一种基于网络嵌入的在线社交网络用户社区发现方法

Country Status (1)

Country Link
CN (1) CN112149000B (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112910680A (zh) * 2020-12-30 2021-06-04 重庆邮电大学 一种融合多粒度社区信息的网络嵌入方法
CN112929445A (zh) * 2021-02-20 2021-06-08 山东英信计算机技术有限公司 一种面向推荐系统的链路预测方法、系统及介质
CN117808616A (zh) * 2024-02-28 2024-04-02 中国传媒大学 一种基于图嵌入和节点亲密度的社区发现方法及系统

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20130073400A1 (en) * 2011-09-15 2013-03-21 Stephan HEATH Broad and alternative category clustering of the same, similar or different categories in social/geo/promo link promotional data sets for end user display of interactive ad links, promotions and sale of products, goods and services integrated with 3d spatial geomapping and social networking
US20170011091A1 (en) * 2015-07-06 2017-01-12 Xerox Corporation System and method for performing k-nearest neighbor search based on minimax distance measure and efficient outlier detection
CN106709800A (zh) * 2016-12-06 2017-05-24 中国银联股份有限公司 一种基于特征匹配网络的社团划分方法和装置
CN109063041A (zh) * 2018-07-17 2018-12-21 阿里巴巴集团控股有限公司 关系网络图嵌入的方法及装置
CN109615550A (zh) * 2018-11-26 2019-04-12 兰州大学 一种基于相似性的局部社团检测方法

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20130073400A1 (en) * 2011-09-15 2013-03-21 Stephan HEATH Broad and alternative category clustering of the same, similar or different categories in social/geo/promo link promotional data sets for end user display of interactive ad links, promotions and sale of products, goods and services integrated with 3d spatial geomapping and social networking
US20170011091A1 (en) * 2015-07-06 2017-01-12 Xerox Corporation System and method for performing k-nearest neighbor search based on minimax distance measure and efficient outlier detection
CN106709800A (zh) * 2016-12-06 2017-05-24 中国银联股份有限公司 一种基于特征匹配网络的社团划分方法和装置
CN109063041A (zh) * 2018-07-17 2018-12-21 阿里巴巴集团控股有限公司 关系网络图嵌入的方法及装置
CN109615550A (zh) * 2018-11-26 2019-04-12 兰州大学 一种基于相似性的局部社团检测方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
杨旭华等: "基于特征向量局部相似性的社区检测算法", 《计算机科学》 *

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112910680A (zh) * 2020-12-30 2021-06-04 重庆邮电大学 一种融合多粒度社区信息的网络嵌入方法
CN112929445A (zh) * 2021-02-20 2021-06-08 山东英信计算机技术有限公司 一种面向推荐系统的链路预测方法、系统及介质
CN112929445B (zh) * 2021-02-20 2022-06-07 山东英信计算机技术有限公司 一种面向推荐系统的链路预测方法、系统及介质
CN117808616A (zh) * 2024-02-28 2024-04-02 中国传媒大学 一种基于图嵌入和节点亲密度的社区发现方法及系统

Also Published As

Publication number Publication date
CN112149000B (zh) 2021-12-17

Similar Documents

Publication Publication Date Title
CN112149000B (zh) 一种基于网络嵌入的在线社交网络用户社区发现方法
CN107330798B (zh) 一种基于种子节点传播的社交网络间用户身份识别方法
CN109635989B (zh) 一种基于多源异构数据融合的社交网络链路预测方法
Yin et al. Overcoming data sparsity in group recommendation
Liang et al. Distributed state estimation for discrete-time sensor networks with randomly varying nonlinearities and missing measurements
CN111932386B (zh) 用户账号确定方法及装置、信息推送方法及装置、电子设备
CN112084373B (zh) 一种基于图嵌入的多源异构网络用户对齐方法
CN107566249B (zh) 一种训练用于预测社交网络用户转发消息的模型的方法
CN112269922B (zh) 一种基于网络表示学习的社区舆论关键人物发现方法
CN113011471A (zh) 一种社交群体的划分方法、划分系统及相关装置
CN116340646A (zh) 一种基于超图基序优化多元用户表示的推荐方法
CN114817663A (zh) 一种基于类别感知图神经网络的服务建模与推荐方法
CN114332984A (zh) 训练数据处理方法、装置和存储介质
CN107346333B (zh) 一种基于链路预测的在线社交网络好友推荐方法与系统
Zheng et al. Jora: Weakly supervised user identity linkage via jointly learning to represent and align
CN112084418B (zh) 一种基于邻居信息和属性网络表征学习的微博用户社团发现方法
CN117495511A (zh) 一种基于对比学习和社区感知的商品推荐系统及方法
CN112529010A (zh) 一种基于在线局部特征提取的点云识别方法
CN110569415B (zh) 一种基于网络表征学习和邻居合力的微博用户社区发现方法
CN115455302A (zh) 一种基于优化图注意网络的知识图谱推荐方法
Baggio The mechanism for spreading online reputation.
CN113886547A (zh) 基于人工智能的客户实时对话转接方法、装置和电子设备
CN103051476A (zh) 基于拓扑分析的网络社区发现方法
CN110610205A (zh) 社交网络中的社区识别方法
CN107231252B (zh) 一种基于贝叶斯估计和种子节点邻居集合的链路预测方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant