CN112084419A - 一种基于属性网络嵌入和无参聚类的哔哩哔哩用户社团发现方法 - Google Patents

一种基于属性网络嵌入和无参聚类的哔哩哔哩用户社团发现方法 Download PDF

Info

Publication number
CN112084419A
CN112084419A CN202010743776.8A CN202010743776A CN112084419A CN 112084419 A CN112084419 A CN 112084419A CN 202010743776 A CN202010743776 A CN 202010743776A CN 112084419 A CN112084419 A CN 112084419A
Authority
CN
China
Prior art keywords
community
users
nodes
user
calculating
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202010743776.8A
Other languages
English (en)
Other versions
CN112084419B (zh
Inventor
徐新黎
肖云月
邢少恒
杨旭华
龙海霞
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Zhejiang University of Technology ZJUT
Original Assignee
Zhejiang University of Technology ZJUT
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Zhejiang University of Technology ZJUT filed Critical Zhejiang University of Technology ZJUT
Priority to CN202010743776.8A priority Critical patent/CN112084419B/zh
Publication of CN112084419A publication Critical patent/CN112084419A/zh
Application granted granted Critical
Publication of CN112084419B publication Critical patent/CN112084419B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • G06F16/9536Search customisation based on social or collaborative filtering
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/23Clustering techniques
    • G06F18/232Non-hierarchical techniques
    • G06F18/2321Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions
    • G06F18/23213Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions with fixed number of clusters, e.g. K-means clustering
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q50/00Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
    • G06Q50/01Social networking
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • Databases & Information Systems (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Business, Economics & Management (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Health & Medical Sciences (AREA)
  • Evolutionary Computation (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Artificial Intelligence (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Computing Systems (AREA)
  • Probability & Statistics with Applications (AREA)
  • Evolutionary Biology (AREA)
  • Economics (AREA)
  • General Health & Medical Sciences (AREA)
  • Human Resources & Organizations (AREA)
  • Marketing (AREA)
  • Primary Health Care (AREA)
  • Strategic Management (AREA)
  • Tourism & Hospitality (AREA)
  • General Business, Economics & Management (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

一种基于属性网络嵌入和无参聚类的哔哩哔哩用户社团发现方法,根据现有的哔哩哔哩用户数据构建属性网络G,将邻接矩阵和属性矩阵利用属性网络表征框架转化为嵌入向量H,对H运行k‑means算法,计算不同k值下、T次内最小的群内方差,计算I次内出现次数最多的最大和次大的曲率指标,得到对应的k值为ka、kb,分别运行IT次社团个数为ka和社团个数为kb的k‑means算法,并计算各自聚类结果最大的模块度Qa、Qb,取得Qa、Qb中较大值对应的k值作为社团划分的个数,最后利用k‑means聚类算法实现社团发现。本发明利用无参算法代替人工指定社团个数,降低了人为因素干扰,提高了社团发现的准确性和稳定性。

Description

一种基于属性网络嵌入和无参聚类的哔哩哔哩用户社团发现 方法
技术领域
本发明涉及网络科学领域,特别是一种基于属性网络嵌入和无参聚类的哔哩哔哩用户社区发现方法。
背景技术
随着科技的快速发展,互联网极大地推动了社会各方面的发展,改变了人们生活的方方面面,以哔哩哔哩为代表的视频社交网络,成为人们日常生活娱乐休闲的重要部分。哔哩哔哩是一个深受年轻人群体喜爱的网站,兼具视频网站和社交网站两方面功能,用户可以在网站上发布、观看视频、并且对视频发布评论,同时可以关注自己喜爱的博主,可以对喜欢的视频进行点赞、投币、收藏。因此,吸引了一大批的年轻用户。哔哩哔哩上的用户社区是社交网络的一种非实体网络,在这个网络中,社团内部的成员往往会有相同或者类似的观看历史、关注。
社交网络中的网络社区具有很大的应用前景,用户可以根据自己所属社区找到有相似观看爱好的其他用户,也可以根据社区找到相似的博主,同时,哔哩哔哩网站还可以根据用户的爱好为其进行个性化推荐,甚至,可以根据划分的社团找到网站中存在的僵尸粉、机器人用户,从而进行清理,净化网络环境。由于社交网络规模较大且属性信息维度过高,传统的社团发现算法进行社团检测的难度较大,而且效率不高。
目前已经有许多社区发现算法应用于大型属性网络,如MVCC算法,SSE算法,NetFS算法等。然而这些方法对于大型的属性社区拓扑结构的信息挖掘不够深入且复杂度高,不能很好地将有同样爱好的用户划分到同一社团。
发明内容
为了克服现在大规模属性网络的社区发现方法存在的准确率不高和复杂度高等方面的缺陷,本发明提出了一种高效的基于属性网络表征学习和无参聚类的哔哩哔哩用户社团发现方法,先用属性网络表征学习框架计算每个用户的嵌入向量,然后用基于曲率和模块度的无参聚类算法确定社团划分的个数并实现社团发现,提高社团发现算法的准确率和效率。
本发明解决其技术问题所采用的技术方案是:
一种基于属性网络表征学习和无参聚类的哔哩哔哩用户社团发现方法,包括如下步骤:
步骤一:根据现有的哔哩哔哩数据,构建具有n个节点的用户网络模型G=(V,E,F),V表示节点,E表示连边,F表示属性,每个用户为一个节点,用户与用户之间若有关注,则有连边,n个节点的连边关系组成一个邻接矩阵A,每个用户的浏览历史为节点的属性,共选取m个属性,所有节点的属性表示为一个n行m列的属性信息矩阵F;
步骤二:采用属性网络表征学习方法将具有n个用户、m个属性的哔哩哔哩用户网络G转化为特征空间中n个d维嵌入向量H;
步骤三:对得到的n个嵌入向量H运行k-means算法,聚类数目k取1到kmax各T次,分别计算不同k值下、T次内的群内方差J(k),把最小的记为J(k)min
Figure BDA0002607639430000021
J(k)min=argminJ(k)t,1≤t≤T
其中,Pj为社团j的节点集合,Xi为社团j内节点i的嵌入向量H,
Figure BDA0002607639430000022
为社团j的各节点向量平均值,||x||2为求x的欧式距离的平方;
步骤四:计算曲率指标r(k);
Figure BDA0002607639430000023
步骤五:把最大的曲率指标r(k)对应的k记为k1,把次大的曲率指标r(k)对应的k(k≠k1)记为k2,,以上步骤循环I次,把出现次数最多的k1和k2分别记为ka、kb
步骤六:分别运行社团个数为ka和社团个数为kb的k-means算法,并计算各自聚类结果的模块度Q1、Q2,模块度Q的公式为;
Figure BDA0002607639430000024
其中,c为社团序号,C为社团个数,lc是社团c的总边数,dc是社团c中所有用户的总度数,m为整个网络用户之间的总边数;
步骤七:对步骤六循环执行IT次,对Q1、Q2分别取最大值记为Qa、Qb,对比得到最终的社团划分个数K;
Figure BDA0002607639430000025
步骤八:运行社团个数为K的k-means算法,返回哔哩哔哩用户的社团划分结果。
本发明的技术构思为:利用属性网络表征学习框架计算得到每个用户的嵌入向量,通过基于曲率和模块度的无参的方法确定社团划分个数,最后用k-means聚类算法实现社团发现的任务,降低了人为干扰的影响,提高了社团发现的正确率。
本发明的有益效果为:利用属性网络表征框架降低了节点属性的维度,通过基于曲率和模块度的无参的方法,可以自动确定社团划分的个数,不用人工确定,一定程度上排除了人为干扰的因素,并且提高了社团发现的准确性和稳定性,具有良好的应用前景。
附图说明
图1为一个简单的哔哩哔哩用户网络示意图,图中的节点表示网站的网络的用户,数字1,2,3,...,10为相应的用户编号,如果用户之间有相互的关注,则两节点之间有一条连边。
图2为基于属性网络嵌入和无参聚类的哔哩哔哩用户社团发现方法的流程图。
具体实施方式
下面结合附图对本发明做进一步说明。
参照图1~图2,一种基于属性网络嵌入和无参聚类的哔哩哔哩用户社团发现方法,包括如下步骤:
步骤一:根据现有的哔哩哔哩数据,构建具有n个节点的用户网络模型G=(V,E,F),V表示节点,E表示连边,F表示属性,每个用户为一个节点,用户与用户之间若有关注,则有连边,n个节点的连边关系组成一个邻接矩阵A,每个用户的浏览历史为节点的属性,共选取m个属性,所有节点的属性表示为一个n行m列的属性信息矩阵F;
步骤二:采用属性网络表征学习方法将具有n个用户、m个属性的哔哩哔哩用户网络G转化为特征空间中n个d维嵌入向量H;
步骤三:对得到的n个嵌入向量H运行k-means算法,聚类数目k取1到kmax各T次,分别计算不同k值下、T次内的群内方差J(k),把最小的记为J(k)min
Figure BDA0002607639430000041
J(k)min=argminJ(k)t,1≤t≤T
其中,Pj为社团j的节点集合,Xi为社团j内节点i的嵌入向量H,
Figure BDA0002607639430000042
为社团j的各节点向量平均值,||x||2为求x的欧式距离的平方;
步骤四:计算曲率指标r(k);
Figure BDA0002607639430000043
步骤五:把最大的曲率指标r(k)对应的k记为k1,把次大的曲率指标r(k)对应的k(k≠k1)记为k2,,以上步骤循环I次,把出现次数最多的k1和k2分别记为ka、kb
步骤六:分别运行社团个数为ka和社团个数为kb的k-means算法,并计算各自聚类结果的模块度Q1、Q2,模块度Q的公式为;
Figure BDA0002607639430000044
其中,c为社团序号,C为社团个数,lc是社团c的总边数,dc是社团c中所有用户的总度数,m为整个网络用户之间的总边数;
步骤七:对步骤六循环执行IT次,对Q1、Q2分别取最大值记为Qa、Qb,对比得到最终的社团划分个数K;
Figure BDA0002607639430000045
步骤八:运行社团个数为K的k-means算法,返回哔哩哔哩用户的社团划分结果。
如上所述,本专利实施的具体实现步骤使本发明更加清晰。在本发明的精神和权利要求的保护范围内,对本发明作出的任何修改和改变,都落入本发明的保护范围。

Claims (1)

1.一种基于属性网络嵌入和无参聚类的哔哩哔哩用户社区发现方法,其特征在于:所述方法包括如下步骤:
步骤一:根据现有的哔哩哔哩数据,构建具有n个节点的用户网络模型G=(V,E,F),V表示节点,E表示连边,F表示属性,每个用户为一个节点,用户与用户之间若有关注,则有连边,n个节点的连边关系组成一个邻接矩阵A,每个用户的浏览历史为节点的属性,共选取m个属性,所有节点的属性表示为一个n行m列的属性信息矩阵F;
步骤二:采用属性网络表征学习方法将具有n个用户、m个属性的哔哩哔哩用户网络G转化为特征空间中n个d维嵌入向量H;
步骤三:对得到的n个嵌入向量H运行k-means算法,聚类数目k取1到kmax各T次,分别计算不同k值下、T次内的群内方差J(k),把最小的记为J(k)min
Figure FDA0002607639420000011
J(k)min=argminJ(k)t,1≤t≤T
其中,Pj为社团j的节点集合,Xi为社团j内节点i的嵌入向量H,
Figure FDA0002607639420000015
为社团j的各节点向量平均值,||x||2为求x的欧式距离的平方;
步骤四:计算曲率指标r(k);
Figure FDA0002607639420000012
步骤五:把最大的曲率指标r(k)对应的k记为k1,把次大的曲率指标r(k)对应的k(k≠k1)记为k2,,以上步骤循环I次,把出现次数最多的k1和k2分别记为ka、kb
步骤六:分别运行社团个数为ka和社团个数为kb的k-means算法,并计算各自聚类结果的模块度Q1、Q2,模块度Q的公式为;
Figure FDA0002607639420000013
其中,c为社团序号,C为社团个数,lc是社团c的总边数,dc是社团c中所有用户的总度数,m为整个网络用户之间的总边数;
步骤七:对步骤六循环执行IT次,对Q1、Q2分别取最大值记为Qa、Qb,对比得到最终的社团划分个数K;
Figure FDA0002607639420000014
步骤八:运行社团个数为K的k-means算法,返回哔哩哔哩用户的社团划分结果。
CN202010743776.8A 2020-07-29 2020-07-29 一种基于属性网络嵌入和无参聚类的哔哩哔哩用户社团发现方法 Active CN112084419B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010743776.8A CN112084419B (zh) 2020-07-29 2020-07-29 一种基于属性网络嵌入和无参聚类的哔哩哔哩用户社团发现方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010743776.8A CN112084419B (zh) 2020-07-29 2020-07-29 一种基于属性网络嵌入和无参聚类的哔哩哔哩用户社团发现方法

Publications (2)

Publication Number Publication Date
CN112084419A true CN112084419A (zh) 2020-12-15
CN112084419B CN112084419B (zh) 2023-07-28

Family

ID=73734734

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010743776.8A Active CN112084419B (zh) 2020-07-29 2020-07-29 一种基于属性网络嵌入和无参聚类的哔哩哔哩用户社团发现方法

Country Status (1)

Country Link
CN (1) CN112084419B (zh)

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107369162A (zh) * 2017-07-21 2017-11-21 华北电力大学(保定) 一种绝缘子候选目标区域的生成方法及系统
US20170352061A1 (en) * 2016-06-03 2017-12-07 University Of Maryland, College Park Optimal social network ad allocation using hyperbolic embedding
US20180053073A1 (en) * 2014-03-14 2018-02-22 Under Armour, Inc. System and Method for Generating a Map From Activity Data
CN108615229A (zh) * 2018-03-09 2018-10-02 南京信息工程大学 基于曲率点聚类及决策树的碰撞检测优化方法
CN109241201A (zh) * 2018-08-30 2019-01-18 浙江工业大学 一种基于曲率的拉普拉斯中心性峰值数据聚类方法
CN109492770A (zh) * 2018-10-08 2019-03-19 浙江大学 一种基于个性化关系排序的属性网络嵌入方法
CN110347881A (zh) * 2019-06-19 2019-10-18 西安交通大学 一种基于路径回溯图嵌入的群体发现方法

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20180053073A1 (en) * 2014-03-14 2018-02-22 Under Armour, Inc. System and Method for Generating a Map From Activity Data
US20170352061A1 (en) * 2016-06-03 2017-12-07 University Of Maryland, College Park Optimal social network ad allocation using hyperbolic embedding
CN107369162A (zh) * 2017-07-21 2017-11-21 华北电力大学(保定) 一种绝缘子候选目标区域的生成方法及系统
CN108615229A (zh) * 2018-03-09 2018-10-02 南京信息工程大学 基于曲率点聚类及决策树的碰撞检测优化方法
CN109241201A (zh) * 2018-08-30 2019-01-18 浙江工业大学 一种基于曲率的拉普拉斯中心性峰值数据聚类方法
CN109492770A (zh) * 2018-10-08 2019-03-19 浙江大学 一种基于个性化关系排序的属性网络嵌入方法
CN110347881A (zh) * 2019-06-19 2019-10-18 西安交通大学 一种基于路径回溯图嵌入的群体发现方法

Non-Patent Citations (6)

* Cited by examiner, † Cited by third party
Title
GUILE WU 等: "Vision-Based Fingertip Tracking Utilizing Curvature Points Clustering and Hash Model Representation", 《IEEE TRANSACTIONS ON MULTIMEDIA》, pages 1730 - 1741 *
YAQIAN ZHANG 等: "Curvature-based method for determining the number of clusters", 《INFORMATION SCIENCES》, pages 414 - 428 *
徐新黎 等: "基于矩阵分解的属性网络嵌入和社区发现算法", 《计算机科学》, pages 204 - 211 *
王广斌 等: "基于局部线性嵌入的多流形学习故障诊断方法", 《湖南科技大学学报(自然科学版)》, pages 34 - 39 *
王绍凯: "属性网络的半监督学习方法研究", 《中国博士学位论文全文数据库信息科技辑》, pages 140 - 48 *
金林波: "无参数峰值聚类算法研究", 《中国优秀硕士学位论文全文数据库信息科技辑》, pages 138 - 860 *

Also Published As

Publication number Publication date
CN112084419B (zh) 2023-07-28

Similar Documents

Publication Publication Date Title
Yin et al. Social influence-based group representation learning for group recommendation
Wang et al. Exploring hierarchical structures for recommender systems
CN102880644B (zh) 社区发现方法
CN112232925A (zh) 一种融合知识图谱对商品进行个性化推荐的方法
CN107220365A (zh) 基于协同过滤与关联规则并行处理的精准推荐系统及方法
CN109947987B (zh) 一种交叉协同过滤推荐方法
CN109871504B (zh) 一种基于异构信息网络与深度学习的课程推荐系统
CN108052683B (zh) 一种基于余弦度量规则的知识图谱表示学习方法
CN116340646A (zh) 一种基于超图基序优化多元用户表示的推荐方法
Li et al. Content-based filtering recommendation algorithm using HMM
CN112149000B (zh) 一种基于网络嵌入的在线社交网络用户社区发现方法
CN112948625B (zh) 一种基于属性异质信息网络嵌入的电影推荐方法
CN112464107B (zh) 一种基于多标签传播的社交网络重叠社区发现方法及装置
CN109034953B (zh) 一种电影推荐方法
CN115270007B (zh) 一种基于混合图神经网络的poi推荐方法及系统
CN116383519A (zh) 基于双加权的自注意力的群组推荐方法
CN114817712A (zh) 一种基于多任务学习和知识图谱增强的项目推荐方法
CN113887698B (zh) 基于图神经网络的整体知识蒸馏方法和系统
CN111738514B (zh) 利用局部距离和节点秩优化函数的社交网络社区发现方法
CN109472712A (zh) 一种基于结构特征强化的高效马尔可夫随机场社团发现方法
CN112084418A (zh) 一种基于邻居信息和属性网络表征学习的微博用户社团发现方法
CN116932923A (zh) 一种结合行为特征与三角协作度量的项目推荐方法
CN112084419A (zh) 一种基于属性网络嵌入和无参聚类的哔哩哔哩用户社团发现方法
Carvalho et al. Generation of coalition structures to provide proper groups' formation in group recommender systems
CN116304372A (zh) 一种融合群组的协作知识图网络推荐方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant