CN112084418B - 一种基于邻居信息和属性网络表征学习的微博用户社团发现方法 - Google Patents
一种基于邻居信息和属性网络表征学习的微博用户社团发现方法 Download PDFInfo
- Publication number
- CN112084418B CN112084418B CN202010742856.1A CN202010742856A CN112084418B CN 112084418 B CN112084418 B CN 112084418B CN 202010742856 A CN202010742856 A CN 202010742856A CN 112084418 B CN112084418 B CN 112084418B
- Authority
- CN
- China
- Prior art keywords
- user
- attribute
- microblog
- information
- matrix
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 12
- 238000012512 characterization method Methods 0.000 title claims abstract description 9
- 239000011159 matrix material Substances 0.000 claims abstract description 21
- 230000006870 function Effects 0.000 claims abstract description 11
- 238000003064 k means clustering Methods 0.000 claims abstract description 6
- 238000005259 measurement Methods 0.000 claims description 3
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000002347 injection Methods 0.000 description 1
- 239000007924 injection Substances 0.000 description 1
- 238000005065 mining Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/953—Querying, e.g. by the use of web search engines
- G06F16/9536—Search customisation based on social or collaborative filtering
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/23—Clustering techniques
- G06F18/232—Non-hierarchical techniques
- G06F18/2321—Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions
- G06F18/23213—Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions with fixed number of clusters, e.g. K-means clustering
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q50/00—Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
- G06Q50/01—Social networking
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- Databases & Information Systems (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Business, Economics & Management (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Health & Medical Sciences (AREA)
- Evolutionary Computation (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Bioinformatics & Computational Biology (AREA)
- Artificial Intelligence (AREA)
- Life Sciences & Earth Sciences (AREA)
- Computing Systems (AREA)
- Probability & Statistics with Applications (AREA)
- Evolutionary Biology (AREA)
- Economics (AREA)
- General Health & Medical Sciences (AREA)
- Human Resources & Organizations (AREA)
- Marketing (AREA)
- Primary Health Care (AREA)
- Strategic Management (AREA)
- Tourism & Hospitality (AREA)
- General Business, Economics & Management (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
一种基于邻居信息和属性网络表征学习的微博用户社团发现方法,利用现有的微博数据构建属性网络G=(V,E,F),根据用户关注信息的邻接矩阵A计算节点相似度SAij,根据用户属性信息矩阵F计算属性接近度矩阵SF,对网络拓扑和属性信息联合建模,采用分布式算法进行求解,最小化目标函数J,得到每个用户的嵌入向量H,对每个用户的嵌入向量H进行k‑means聚类,得到用户的类别标签,实现社团发现。本发明使用属性网络表征学习框架融合了微博用户的关注信息和属性信息,将高维用户信息转化为低维特征空间的向量,用k‑means聚类算法实现社团发现。降低了社团划分的复杂度,提高了社团发现的准确性,具有良好的性能。
Description
技术领域
本发明涉及网络科学领域,特别是指一种基于邻居信息和属性网络表征学习的微博用户社团发现方法。
背景技术
随着信息技术的极大发展,逐渐出现了以Facebook、微博为代表的大型属性网络,这些社交网络是在人们日常工作和娱乐生活中占重要一部分。而微博是在当今中国社交网络中具有极大的代表性,可以实时看到最新最热的新闻消息,也可以发布自己的动态或者及时看到明星的动态,深受广大年轻人的喜爱。微博中的用户社区是一种大型节点属性网络,社团内部的成员往往连接较紧密并且爱好相同或相似。
在节点属性网络中划分社团有很多的作用,微博平台可以利用不同社团内的用户的联系和爱好为用户定制个性化推荐,可以利用划分的社团判断机器人用户。同样的,平台可以依此精准投放广告,用户可以找到更多自己感兴趣的其他用户或者内容。
近年来已经提出一些属性网络社团发现方法,例如Block-LDA算法、Circles算法、CESNA算法等,这些社团发现的算法对网络拓扑的挖掘不够,而且准确率并不高,不能很好地将相似的用户划分到同一社团。
发明内容
为了克服目前在大型属性社交网络的社区发现方法存在的无法有效融合网络拓扑和属性信息、社团划分准确率不高等方面的缺陷,本发明提出了一种有效的基于邻居信息和属性网络表征学习的微博用户社区发现方法,首先将微博网络的拓扑信息和用户属性信息通过属性表征框架转化成特征空间的嵌入向量,该框架深入挖掘了用户的邻居信息并将拓扑结构和属性信息很好地融合在一起,然后使用k-means聚类划分社团,提高属性网络社团发现的准确率和效率。
本发明解决其技术问题所采用的技术方案是:
一种基于邻居信息和属性网络表征学习的微博用户社区发现方法,包括如下步骤:
步骤一:微博网络表示为一个属性网络G=(V,E,F),其中V={v1,v2,...,vn}为节点集合,每个节点表示一个用户,节点数即用户总数n=|V|,E为边集合,所有微博用户的连边关系构成一个邻接矩阵A,每个用户的属性F’={f1,f2,...,fm},微博用户属性数量m=|F’|,所有微博用户的属性表示为一个n行m列的属性信息矩阵F;
步骤二:根据微博用户的连边关系矩阵A,计算节点相似度SAij
其中,cij为用户i与用户j的共同邻居数,wij为邻接矩阵A中用户i与用户j相连的边权,即在用户i与用户j有关注的情况下,节点相似度SAij为两用户的共同邻居数比上节点总数,在两用户没有关注的情况下,SAij为0;
步骤三:对属性信息矩阵F,采用余弦相似度度量标准计算属性接近度矩阵SF;
步骤四:对网络拓扑和属性信息联合建模,设置嵌入向量H的维度d,采用分布式算法进行求解,最小化目标函数J,得到每个用户的嵌入向量H,
其中,等式右边第1项为属性信息的损失函数,等式右边第2项为网络拓扑损失函数,λ为一个标量,是拓扑信息与属性信息所占比例的权衡,当λ=0时,表示嵌入模型只考虑了属性信息,hi、hj分别代表用户i和用户j的向量表征;
步骤五:对每个用户的嵌入向量H进行k-means聚类,得到用户的类别标签,实现社团发现。
本发明的技术构思为:根据微博网络的网络拓扑信息和属性信息,分别计算节点相似度和属性接近度,将两者联合表征,利用分布式算法求解得到嵌入向量,然后通过k-means聚类得到社团划分,具有融合微博网络用户邻居信息和属性信息的优点,提高了社团发现的准确率和有效性。
本发明的有益效果为:利用属性网络表征学习,融合了网络拓扑结构信息和节点属性信息,提高了社团发现的正确率和有效性。
附图说明
图1为一个简单的微博网络示意图,图中的节点表示微博网络的用户,数字1,2,3,...,7为相应的用户编号,如果用户之间有相互的关注,则两节点之间有一条连边。
图2为本发明的流程图。
具体实施方式
下面结合附图对本发明做进一步说明。
参照图1~图2,一种基于邻居信息和属性网络表征学习微博用户社区发现方法,包括如下步骤:
步骤一:微博网络表示为一个属性网络G=(V,E,F),其中V={v1,v2,...,vn}为节点集合,每个节点表示一个用户,节点数即用户总数n=|V|,E为边集合,所有微博用户的连边关系构成一个邻接矩阵A,每个用户的属性F’={f1,f2,...,fm},微博用户属性数量m=|F’|,所有微博用户的属性表示为一个n行m列的属性信息矩阵F;
步骤二:根据微博用户的连边关系矩阵A,计算节点相似度SAij
其中,cij为用户i与用户j的共同邻居数,wij为邻接矩阵A中用户i与用户j相连的边权,即在用户i与用户j有关注的情况下,节点相似度SAij为两用户的共同邻居数比上节点总数,在两用户没有关注的情况下,SAij为0;
步骤三:对属性信息矩阵F,采用余弦相似度度量标准计算属性接近度矩阵SF;
步骤四:对网络拓扑和属性信息联合建模,设置嵌入向量H的维度d,采用分布式算法进行求解,最小化目标函数J,得到每个用户的嵌入向量H,
其中,等式右边第1项为属性信息的损失函数,等式右边第2项为网络拓扑损失函数,λ为一个标量,是拓扑信息与属性信息所占比例的权衡,当λ=0时,表示嵌入模型只考虑了属性信息,hi、hj分别代表用户i和用户j的向量表征;
步骤五:对每个用户的嵌入向量H进行k-means聚类,得到用户的类别标签,实现社团发现。
如上所述,本专利实施的具体实现步骤使本发明更加清晰。在本发明的精神和权利要求的保护范围内,对本发明作出的任何修改和改变,都落入本发明的保护范围。
Claims (1)
1.一种基于邻居信息和属性网络表征学习的微博用户社团发现方法,其特征在于:所述方法包括如下步骤:
步骤一:微博网络表示为一个属性网络G=(V,E,F),其中V={v1,v2,...,vn}为节点集合,每个节点表示一个用户,节点数即用户总数n=|V|,E为边集合,所有微博用户的连边关系构成一个邻接矩阵A,每个用户的属性F’={f1,f2,...,fm},微博用户属性数量m=|F’|,所有微博用户的属性表示为一个n行m列的属性信息矩阵F;
步骤二:根据微博用户的连边关系矩阵A,计算节点相似度SAij
其中,cij为用户i与用户j的共同邻居数,wij为邻接矩阵A中用户i与用户j相连的边权,即在用户i与用户j有关注的情况下,节点相似度SAij为两用户的共同邻居数比上节点总数,在两用户没有关注的情况下,SAij为0;
步骤三:对属性信息矩阵F,采用余弦相似度度量标准计算属性接近度矩阵SF;
步骤四:对网络拓扑和属性信息联合建模,设置嵌入向量H的维度d,采用分布式算法进行求解,最小化目标函数J,得到每个用户的嵌入向量H,
其中,等号右边第1项为属性信息的损失函数,等号右边第2项为网络拓扑损失函数,λ为一个标量,是拓扑信息与属性信息所占比例的权衡,当λ=0时,表示嵌入模型只考虑了属性信息,hi、hj分别代表用户i和用户j的向量表征;
步骤五:对每个用户的嵌入向量H进行k-means聚类,得到用户的类别标签,实现社团发现。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010742856.1A CN112084418B (zh) | 2020-07-29 | 2020-07-29 | 一种基于邻居信息和属性网络表征学习的微博用户社团发现方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010742856.1A CN112084418B (zh) | 2020-07-29 | 2020-07-29 | 一种基于邻居信息和属性网络表征学习的微博用户社团发现方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112084418A CN112084418A (zh) | 2020-12-15 |
CN112084418B true CN112084418B (zh) | 2023-07-28 |
Family
ID=73735234
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010742856.1A Active CN112084418B (zh) | 2020-07-29 | 2020-07-29 | 一种基于邻居信息和属性网络表征学习的微博用户社团发现方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112084418B (zh) |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113159976B (zh) * | 2021-05-13 | 2022-05-24 | 电子科技大学 | 一种微博网络重要用户的识别方法 |
CN113407784B (zh) * | 2021-05-28 | 2022-08-12 | 桂林电子科技大学 | 一种基于社交网络的社团划分方法、系统及存储介质 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105608624A (zh) * | 2015-12-29 | 2016-05-25 | 武汉理工大学 | 基于用户体验的微博大数据兴趣社区分析优化方法 |
CN108334580A (zh) * | 2018-01-25 | 2018-07-27 | 重庆邮电大学 | 一种结合链接和属性信息的社区发现方法 |
CN108920678A (zh) * | 2018-07-10 | 2018-11-30 | 福州大学 | 一种基于谱聚类与模糊集的重叠社区发现方法 |
CN110569415A (zh) * | 2019-08-28 | 2019-12-13 | 浙江工业大学 | 一种基于网络表征学习和邻居合力的微博用户社区发现方法 |
CN111026919A (zh) * | 2019-11-14 | 2020-04-17 | 西北师范大学 | 一种基于双视图的自适应两级加权目标社区发现及检测方法 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107153713B (zh) * | 2017-05-27 | 2018-02-23 | 合肥工业大学 | 社交网络中基于节点间相似性的重叠社区检测方法及系统 |
-
2020
- 2020-07-29 CN CN202010742856.1A patent/CN112084418B/zh active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105608624A (zh) * | 2015-12-29 | 2016-05-25 | 武汉理工大学 | 基于用户体验的微博大数据兴趣社区分析优化方法 |
CN108334580A (zh) * | 2018-01-25 | 2018-07-27 | 重庆邮电大学 | 一种结合链接和属性信息的社区发现方法 |
CN108920678A (zh) * | 2018-07-10 | 2018-11-30 | 福州大学 | 一种基于谱聚类与模糊集的重叠社区发现方法 |
CN110569415A (zh) * | 2019-08-28 | 2019-12-13 | 浙江工业大学 | 一种基于网络表征学习和邻居合力的微博用户社区发现方法 |
CN111026919A (zh) * | 2019-11-14 | 2020-04-17 | 西北师范大学 | 一种基于双视图的自适应两级加权目标社区发现及检测方法 |
Non-Patent Citations (12)
Title |
---|
Community Detection in Attributed Graphs: An Embedding Approach;Ye Li 等;AAAI Conference on Artificial Intelligence;338-345 * |
Community detection in complex networks using structural similarity;Fataneh Dabaghi Zarandi 等;Physica A: Statistical Mechanics and its Applications;882-891 * |
基于交互行为和连接分析的社交网络社团检测;李鹏;李英乐;王凯;何赞园;李星;常振超;;计算机科学(第07期);197-202 * |
基于局部扩张的社团发现算法研究;尹康;中国优秀硕士学位论文全文数据库 信息科技辑(第9期);I138-7 * |
基于局部社团和节点相关性的链路预测算法;杨旭华 等;计算机科学(第1期);155-160 * |
基于社会网络增量的动态社区组织探测;郭进时;汤红波;王晓雷;;电子与信息学报(第09期);2240-2245 * |
基于网络表示学习的科研合作推荐研究;余传明;林奥琛;钟韵辞;安璐;;情报学报(第05期);500-511 * |
基于迁移成分分析的多层社交网络链接分类;伍杰华;沈静;周蓓;;数据分析与知识发现(第09期);88-98 * |
复杂网络中的链接预测;刘维;陈崚;;信息与控制(第01期);65 * |
多关系网络社团发现算法;黄新宇 等;东北大学学报(自然科学版);1375-1379 * |
融合节点属性与结构信息的子空间异常社区检测方法;赵琪琪;马慧芳;刘海姣;贾俊杰;;计算机工程(第06期);94-101 * |
面向属性网络的可重叠多向谱社区检测算法;李青青;马慧芳;吴玉泽;刘海姣;;计算机工程与科学(第06期);984-992 * |
Also Published As
Publication number | Publication date |
---|---|
CN112084418A (zh) | 2020-12-15 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Wang et al. | Urban2vec: Incorporating street view imagery and pois for multi-modal urban neighborhood embedding | |
CN110795619B (zh) | 一种融合多目标的教育资源个性化推荐系统及方法 | |
CN111160954B (zh) | 基于图卷积网络模型的面向群组对象的推荐方法 | |
CN111159425A (zh) | 一种基于历史关系和双图卷积网络的时态知识图谱表示方法 | |
CN110677284B (zh) | 一种基于元路径的异构网络链路预测的方法 | |
CN112084418B (zh) | 一种基于邻居信息和属性网络表征学习的微博用户社团发现方法 | |
CN113065974B (zh) | 一种基于动态网络表示学习的链路预测方法 | |
CN107391542A (zh) | 一种基于文件知识图谱的开源软件社区专家推荐方法 | |
CN110889434A (zh) | 一种基于活动的社交网络活动特征提取方法 | |
CN113076422B (zh) | 一种基于联邦图神经网络的多语种社交事件检测方法 | |
CN112149000B (zh) | 一种基于网络嵌入的在线社交网络用户社区发现方法 | |
CN108734223A (zh) | 基于社区划分的社交网络好友推荐方法 | |
CN111242218B (zh) | 融合用户多属性信息的跨社交网络用户身份识别方法 | |
CN115408621B (zh) | 顾及辅助信息特征线性及非线性交互的兴趣点推荐方法 | |
Xin et al. | A location-context awareness mobile services collaborative recommendation algorithm based on user behavior prediction | |
CN109949174A (zh) | 一种异构社交网络用户实体锚链接识别方法 | |
CN115422441A (zh) | 一种基于社交时空信息与用户偏好的连续兴趣点推荐方法 | |
CN106649380A (zh) | 一种基于标签的热点推荐方法及系统 | |
CN110008411A (zh) | 一种基于用户签到稀疏矩阵的深度学习兴趣点推荐方法 | |
CN118071400A (zh) | 基于图计算技术在信息消费领域的应用方法及系统 | |
CN113887698A (zh) | 基于图神经网络的整体知识蒸馏方法和系统 | |
Xing et al. | Exploiting Two‐Level Information Entropy across Social Networks for User Identification | |
Jaffali et al. | Survey on social networks data analysis | |
CN115442240A (zh) | 一种社交网络公平结构挖掘方法 | |
CN114840777A (zh) | 多维度养老服务推荐方法、装置以及电子设备 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |