CN112084419B - 一种基于属性网络嵌入和无参聚类的哔哩哔哩用户社团发现方法 - Google Patents
一种基于属性网络嵌入和无参聚类的哔哩哔哩用户社团发现方法 Download PDFInfo
- Publication number
- CN112084419B CN112084419B CN202010743776.8A CN202010743776A CN112084419B CN 112084419 B CN112084419 B CN 112084419B CN 202010743776 A CN202010743776 A CN 202010743776A CN 112084419 B CN112084419 B CN 112084419B
- Authority
- CN
- China
- Prior art keywords
- community
- users
- attribute
- user
- calculating
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 18
- 235000021438 curry Nutrition 0.000 title description 7
- 239000013598 vector Substances 0.000 claims abstract description 14
- 239000011159 matrix material Substances 0.000 claims abstract description 8
- 238000012512 characterization method Methods 0.000 abstract description 3
- 238000003064 k means clustering Methods 0.000 abstract description 2
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 230000006870 function Effects 0.000 description 1
- 238000005065 mining Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 239000000843 powder Substances 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/953—Querying, e.g. by the use of web search engines
- G06F16/9536—Search customisation based on social or collaborative filtering
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/23—Clustering techniques
- G06F18/232—Non-hierarchical techniques
- G06F18/2321—Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions
- G06F18/23213—Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions with fixed number of clusters, e.g. K-means clustering
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q50/00—Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
- G06Q50/01—Social networking
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- Databases & Information Systems (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Business, Economics & Management (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Health & Medical Sciences (AREA)
- Evolutionary Computation (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Bioinformatics & Computational Biology (AREA)
- Artificial Intelligence (AREA)
- Life Sciences & Earth Sciences (AREA)
- Computing Systems (AREA)
- Probability & Statistics with Applications (AREA)
- Evolutionary Biology (AREA)
- Economics (AREA)
- General Health & Medical Sciences (AREA)
- Human Resources & Organizations (AREA)
- Marketing (AREA)
- Primary Health Care (AREA)
- Strategic Management (AREA)
- Tourism & Hospitality (AREA)
- General Business, Economics & Management (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
一种基于属性网络嵌入和无参聚类的哔哩哔哩用户社团发现方法,根据现有的哔哩哔哩用户数据构建属性网络G,将邻接矩阵和属性矩阵利用属性网络表征框架转化为嵌入向量H,对H运行k‑means算法,计算不同k值下、T次内最小的群内方差,计算I次内出现次数最多的最大和次大的曲率指标,得到对应的k值为ka、kb,分别运行IT次社团个数为ka和社团个数为kb的k‑means算法,并计算各自聚类结果最大的模块度Qa、Qb,取得Qa、Qb中较大值对应的k值作为社团划分的个数,最后利用k‑means聚类算法实现社团发现。本发明利用无参算法代替人工指定社团个数,降低了人为因素干扰,提高了社团发现的准确性和稳定性。
Description
技术领域
本发明涉及网络科学领域,特别是一种基于属性网络嵌入和无参聚类的哔哩哔哩用户社区发现方法。
背景技术
随着科技的快速发展,互联网极大地推动了社会各方面的发展,改变了人们生活的方方面面,以哔哩哔哩为代表的视频社交网络,成为人们日常生活娱乐休闲的重要部分。哔哩哔哩是一个深受年轻人群体喜爱的网站,兼具视频网站和社交网站两方面功能,用户可以在网站上发布、观看视频、并且对视频发布评论,同时可以关注自己喜爱的博主,可以对喜欢的视频进行点赞、投币、收藏。因此,吸引了一大批的年轻用户。哔哩哔哩上的用户社区是社交网络的一种非实体网络,在这个网络中,社团内部的成员往往会有相同或者类似的观看历史、关注。
社交网络中的网络社区具有很大的应用前景,用户可以根据自己所属社区找到有相似观看爱好的其他用户,也可以根据社区找到相似的博主,同时,哔哩哔哩网站还可以根据用户的爱好为其进行个性化推荐,甚至,可以根据划分的社团找到网站中存在的僵尸粉、机器人用户,从而进行清理,净化网络环境。由于社交网络规模较大且属性信息维度过高,传统的社团发现算法进行社团检测的难度较大,而且效率不高。
目前已经有许多社区发现算法应用于大型属性网络,如MVCC算法,SSE算法,NetFS算法等。然而这些方法对于大型的属性社区拓扑结构的信息挖掘不够深入且复杂度高,不能很好地将有同样爱好的用户划分到同一社团。
发明内容
为了克服现在大规模属性网络的社区发现方法存在的准确率不高和复杂度高等方面的缺陷,本发明提出了一种高效的基于属性网络表征学习和无参聚类的哔哩哔哩用户社团发现方法,先用属性网络表征学习框架计算每个用户的嵌入向量,然后用基于曲率和模块度的无参聚类算法确定社团划分的个数并实现社团发现,提高社团发现算法的准确率和效率。
本发明解决其技术问题所采用的技术方案是:
一种基于属性网络表征学习和无参聚类的哔哩哔哩用户社团发现方法,包括如下步骤:
步骤一:根据现有的哔哩哔哩数据,构建具有n个节点的用户网络模型G=(V,E,F),V表示节点,E表示连边,F表示属性,每个用户为一个节点,用户与用户之间若有关注,则有连边,n个节点的连边关系组成一个邻接矩阵A,每个用户的浏览历史为节点的属性,共选取m个属性,所有节点的属性表示为一个n行m列的属性信息矩阵F;
步骤二:采用属性网络表征学习方法将具有n个用户、m个属性的哔哩哔哩用户网络G转化为特征空间中n个d维嵌入向量H;
步骤三:对得到的n个嵌入向量H运行k-means算法,聚类数目k取1到kmax各T次,分别计算不同k值下、T次内的群内方差J(k),把最小的记为J(k)min;
J(k)min=argminJ(k)t,1≤t≤T
其中,Pj为社团j的节点集合,Xi为社团j内节点i的嵌入向量H,为社团j的各节点向量平均值,||x||2为求x的欧式距离的平方;
步骤四:计算曲率指标r(k);
步骤五:把最大的曲率指标r(k)对应的k记为k1,把次大的曲率指标r(k)对应的k(k≠k1)记为k2,,以上步骤循环I次,把出现次数最多的k1和k2分别记为ka、kb;
步骤六:分别运行社团个数为ka和社团个数为kb的k-means算法,并计算各自聚类结果的模块度Q1、Q2,模块度Q的公式为;
其中,c为社团序号,C为社团个数,lc是社团c的总边数,dc是社团c中所有用户的总度数,m为整个网络用户之间的总边数;
步骤七:对步骤六循环执行IT次,对Q1、Q2分别取最大值记为Qa、Qb,对比得到最终的社团划分个数K;
步骤八:运行社团个数为K的k-means算法,返回哔哩哔哩用户的社团划分结果。
本发明的技术构思为:利用属性网络表征学习框架计算得到每个用户的嵌入向量,通过基于曲率和模块度的无参的方法确定社团划分个数,最后用k-means聚类算法实现社团发现的任务,降低了人为干扰的影响,提高了社团发现的正确率。
本发明的有益效果为:利用属性网络表征框架降低了节点属性的维度,通过基于曲率和模块度的无参的方法,可以自动确定社团划分的个数,不用人工确定,一定程度上排除了人为干扰的因素,并且提高了社团发现的准确性和稳定性,具有良好的应用前景。
附图说明
图1为一个简单的哔哩哔哩用户网络示意图,图中的节点表示网站的网络的用户,数字1,2,3,...,10为相应的用户编号,如果用户之间有相互的关注,则两节点之间有一条连边。
图2为基于属性网络嵌入和无参聚类的哔哩哔哩用户社团发现方法的流程图。
具体实施方式
下面结合附图对本发明做进一步说明。
参照图1~图2,一种基于属性网络嵌入和无参聚类的哔哩哔哩用户社团发现方法,包括如下步骤:
步骤一:根据现有的哔哩哔哩数据,构建具有n个节点的用户网络模型G=(V,E,F),V表示节点,E表示连边,F表示属性,每个用户为一个节点,用户与用户之间若有关注,则有连边,n个节点的连边关系组成一个邻接矩阵A,每个用户的浏览历史为节点的属性,共选取m个属性,所有节点的属性表示为一个n行m列的属性信息矩阵F;
步骤二:采用属性网络表征学习方法将具有n个用户、m个属性的哔哩哔哩用户网络G转化为特征空间中n个d维嵌入向量H;
步骤三:对得到的n个嵌入向量H运行k-means算法,聚类数目k取1到kmax各T次,分别计算不同k值下、T次内的群内方差J(k),把最小的记为J(k)min;
J(k)min=argminJ(k)t,1≤t≤T
其中,Pj为社团j的节点集合,Xi为社团j内节点i的嵌入向量H,为社团j的各节点向量平均值,||x||2为求x的欧式距离的平方;
步骤四:计算曲率指标r(k);
步骤五:把最大的曲率指标r(k)对应的k记为k1,把次大的曲率指标r(k)对应的k(k≠k1)记为k2,,以上步骤循环I次,把出现次数最多的k1和k2分别记为ka、kb;
步骤六:分别运行社团个数为ka和社团个数为kb的k-means算法,并计算各自聚类结果的模块度Q1、Q2,模块度Q的公式为;
其中,c为社团序号,C为社团个数,lc是社团c的总边数,dc是社团c中所有用户的总度数,m为整个网络用户之间的总边数;
步骤七:对步骤六循环执行IT次,对Q1、Q2分别取最大值记为Qa、Qb,对比得到最终的社团划分个数K;
步骤八:运行社团个数为K的k-means算法,返回哔哩哔哩用户的社团划分结果。
如上所述,本专利实施的具体实现步骤使本发明更加清晰。在本发明的精神和权利要求的保护范围内,对本发明作出的任何修改和改变,都落入本发明的保护范围。
Claims (1)
1.一种基于属性网络嵌入和无参聚类的哔哩哔哩用户社区发现方法,其特征在于:所述方法包括如下步骤:
步骤一:根据现有的哔哩哔哩数据,构建具有n个节点的用户网络模型G=(V,E,F),V表示节点,E表示连边,F表示属性,每个用户为一个节点,用户与用户之间若有关注,则有连边,n个节点的连边关系组成一个邻接矩阵A,每个用户的浏览历史为节点的属性,共选取m个属性,所有节点的属性表示为一个n行m列的属性信息矩阵F;
步骤二:采用属性网络表征学习方法将具有n个用户、m个属性的哔哩哔哩用户网络G转化为特征空间中n个d维嵌入向量H;
步骤三:对得到的n个嵌入向量H运行k-means算法,聚类数目k取1到kmax各T次,分别计算不同k值下、T次内的群内方差J(k),把最小的记为J(k)min;
J(k)min=argminJ(k)t,1≤t≤T
其中,Pj为社团j的节点集合,Xi为社团j内节点i的嵌入向量H,为社团j的各节点向量平均值,||x||2为求x的欧式距离的平方;
步骤四:计算曲率指标r(k);
步骤五:把最大的曲率指标r(k)对应的k记为k1,把次大的曲率指标r(k)对应的k(k≠k1)记为k2,以上步骤循环I次,把出现次数最多的k1和k2分别记为ka、kb;
步骤六:分别运行社团个数为ka和社团个数为kb的k-means算法,并计算各自聚类结果的模块度Q1、Q2,模块度Q的公式为;
其中,c为社团序号,C为社团个数,lc是社团c的总边数,dc是社团c中所有用户的总度数,m为整个网络用户之间的总边数;
步骤七:对步骤六循环执行IT次,对Q1、Q2分别取最大值记为Qa、Qb,对比得到最终的社团划分个数K;
步骤八:运行社团个数为K的k-means算法,返回哔哩哔哩用户的社团划分结果。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010743776.8A CN112084419B (zh) | 2020-07-29 | 2020-07-29 | 一种基于属性网络嵌入和无参聚类的哔哩哔哩用户社团发现方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010743776.8A CN112084419B (zh) | 2020-07-29 | 2020-07-29 | 一种基于属性网络嵌入和无参聚类的哔哩哔哩用户社团发现方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112084419A CN112084419A (zh) | 2020-12-15 |
CN112084419B true CN112084419B (zh) | 2023-07-28 |
Family
ID=73734734
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010743776.8A Active CN112084419B (zh) | 2020-07-29 | 2020-07-29 | 一种基于属性网络嵌入和无参聚类的哔哩哔哩用户社团发现方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112084419B (zh) |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107369162A (zh) * | 2017-07-21 | 2017-11-21 | 华北电力大学(保定) | 一种绝缘子候选目标区域的生成方法及系统 |
CN108615229A (zh) * | 2018-03-09 | 2018-10-02 | 南京信息工程大学 | 基于曲率点聚类及决策树的碰撞检测优化方法 |
CN109241201A (zh) * | 2018-08-30 | 2019-01-18 | 浙江工业大学 | 一种基于曲率的拉普拉斯中心性峰值数据聚类方法 |
CN109492770A (zh) * | 2018-10-08 | 2019-03-19 | 浙江大学 | 一种基于个性化关系排序的属性网络嵌入方法 |
CN110347881A (zh) * | 2019-06-19 | 2019-10-18 | 西安交通大学 | 一种基于路径回溯图嵌入的群体发现方法 |
Family Cites Families (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US9836672B2 (en) * | 2014-03-14 | 2017-12-05 | Under Armour, Inc. | System and method for generating a map from activity data |
US20170352061A1 (en) * | 2016-06-03 | 2017-12-07 | University Of Maryland, College Park | Optimal social network ad allocation using hyperbolic embedding |
-
2020
- 2020-07-29 CN CN202010743776.8A patent/CN112084419B/zh active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107369162A (zh) * | 2017-07-21 | 2017-11-21 | 华北电力大学(保定) | 一种绝缘子候选目标区域的生成方法及系统 |
CN108615229A (zh) * | 2018-03-09 | 2018-10-02 | 南京信息工程大学 | 基于曲率点聚类及决策树的碰撞检测优化方法 |
CN109241201A (zh) * | 2018-08-30 | 2019-01-18 | 浙江工业大学 | 一种基于曲率的拉普拉斯中心性峰值数据聚类方法 |
CN109492770A (zh) * | 2018-10-08 | 2019-03-19 | 浙江大学 | 一种基于个性化关系排序的属性网络嵌入方法 |
CN110347881A (zh) * | 2019-06-19 | 2019-10-18 | 西安交通大学 | 一种基于路径回溯图嵌入的群体发现方法 |
Non-Patent Citations (6)
Title |
---|
Curvature-based method for determining the number of clusters;Yaqian Zhang 等;《Information Sciences》;414-428 * |
Vision-Based Fingertip Tracking Utilizing Curvature Points Clustering and Hash Model Representation;Guile Wu 等;《IEEE Transactions on Multimedia》;1730-1741 * |
基于局部线性嵌入的多流形学习故障诊断方法;王广斌 等;《湖南科技大学学报(自然科学版)》;34-39 * |
基于矩阵分解的属性网络嵌入和社区发现算法;徐新黎 等;《计算机科学》;204-211 * |
属性网络的半监督学习方法研究;王绍凯;《中国博士学位论文全文数据库信息科技辑》;I140-48 * |
无参数峰值聚类算法研究;金林波;《中国优秀硕士学位论文全文数据库信息科技辑》;I138-860 * |
Also Published As
Publication number | Publication date |
---|---|
CN112084419A (zh) | 2020-12-15 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Wang et al. | Exploring hierarchical structures for recommender systems | |
CN109241454B (zh) | 一种将社交网络和图像内容融合的兴趣点推荐方法 | |
Ma et al. | Large-scale graph visualization and analytics | |
CN109947987B (zh) | 一种交叉协同过滤推荐方法 | |
CN107391577B (zh) | 一种基于表示向量的作品标签推荐方法和系统 | |
CN109034953B (zh) | 一种电影推荐方法 | |
CN112464107B (zh) | 一种基于多标签传播的社交网络重叠社区发现方法及装置 | |
CN111985623A (zh) | 基于最大化互信息和图神经网络的属性图群组发现方法 | |
CN116340646A (zh) | 一种基于超图基序优化多元用户表示的推荐方法 | |
Chen et al. | A temporal recommendation mechanism based on signed network of user interest changes | |
CN116383519A (zh) | 基于双加权的自注意力的群组推荐方法 | |
CN115686868A (zh) | 一种基于联邦哈希学习的面向跨节点多模态检索方法 | |
Huang et al. | Social group modeling with probabilistic soft logic | |
CN113361928B (zh) | 一种基于异构图注意力网络的众包任务推荐方法 | |
WO2020147259A1 (zh) | 一种用户画像方法、装置、可读存储介质及终端设备 | |
CN103136309A (zh) | 通过基于核的学习对社交强度进行建模 | |
You | Spatiotemporal data-adaptive clustering algorithm: an intelligent computational technique for city big data | |
CN112084418B (zh) | 一种基于邻居信息和属性网络表征学习的微博用户社团发现方法 | |
Deng et al. | Leveraging Image Visual Features in Content‐Based Recommender System | |
CN109472712A (zh) | 一种基于结构特征强化的高效马尔可夫随机场社团发现方法 | |
CN112084419B (zh) | 一种基于属性网络嵌入和无参聚类的哔哩哔哩用户社团发现方法 | |
CN117078312A (zh) | 一种基于人工智能的广告投放管理方法及系统 | |
Han et al. | Movie recommendation algorithm based on knowledge graph | |
CN115828988A (zh) | 一种基于自监督的异构图表示学习方法 | |
CN107577681B (zh) | 一种基于社交媒体图片的地域分析、推荐方法及系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |