CN111400652B - 一种非负矩阵社区发现方法及电影社区发现方法 - Google Patents

一种非负矩阵社区发现方法及电影社区发现方法 Download PDF

Info

Publication number
CN111400652B
CN111400652B CN202010134409.8A CN202010134409A CN111400652B CN 111400652 B CN111400652 B CN 111400652B CN 202010134409 A CN202010134409 A CN 202010134409A CN 111400652 B CN111400652 B CN 111400652B
Authority
CN
China
Prior art keywords
matrix
community
negative matrix
objective function
factorization
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202010134409.8A
Other languages
English (en)
Other versions
CN111400652A (zh
Inventor
徐慧
赵莹莹
曹金鑫
鞠小林
周成
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nantong University
Original Assignee
Nantong University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nantong University filed Critical Nantong University
Priority to CN202010134409.8A priority Critical patent/CN111400652B/zh
Publication of CN111400652A publication Critical patent/CN111400652A/zh
Application granted granted Critical
Publication of CN111400652B publication Critical patent/CN111400652B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F17/00Digital computing or data processing equipment or methods, specially adapted for specific functions
    • G06F17/10Complex mathematical operations
    • G06F17/16Matrix or vector computation, e.g. matrix-matrix or matrix-vector multiplication, matrix factorization
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q50/00Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
    • G06Q50/01Social networking

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Theoretical Computer Science (AREA)
  • Computing Systems (AREA)
  • Business, Economics & Management (AREA)
  • Data Mining & Analysis (AREA)
  • Pure & Applied Mathematics (AREA)
  • Mathematical Optimization (AREA)
  • Mathematical Analysis (AREA)
  • Computational Mathematics (AREA)
  • Human Resources & Organizations (AREA)
  • Economics (AREA)
  • Tourism & Hospitality (AREA)
  • Strategic Management (AREA)
  • Primary Health Care (AREA)
  • Marketing (AREA)
  • General Health & Medical Sciences (AREA)
  • General Business, Economics & Management (AREA)
  • Algebra (AREA)
  • Health & Medical Sciences (AREA)
  • Databases & Information Systems (AREA)
  • Software Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明提供了一种非负矩阵社区发现方法及电影社区发现方法,包括如下步骤S11数据收集与计算,形成相似度矩阵X和L;S12将X进行非负矩阵分解,X≈UV;S13构造含有L的目标函数O;以及S14基于目标函数,得到非负矩阵分解的迭代公式,进行迭代,完成社区划分。本发明的一种非负矩阵社区发现方法及电影社区发现方法,将双属性的非负矩阵分解应用于社区发现,提高了社区分解模块的精确性。

Description

一种非负矩阵社区发现方法及电影社区发现方法
技术领域
本发明涉及数据挖掘技术领域,具体涉及一种非负矩阵社区发现方法及电影社区发现方法。
背景技术
社交网络作为信息传递的主要载具,其涵盖的信息量对于当今社会具有重要的研究意义,从个体到群体,从小世界到大社会,现实生活中总存在隐含的联系将人们链接起来。很多实际网络中的节点具有聚集化特性——“社区结构”。网络中社区发现的研究已经取得很多研究成果,可以大体将社区发现方法分为图切割方法、目标函数优化方法、聚类方法和启发式方法等。社区发现常用于分析社会群体之间的结构特征。随着信息化技术的发展,信息系统中保存着大量用户的信息特征,用户与用户之间也存在着某种关联性。用户的特征具有多维度,且多关联性。社区发现能帮助人们更有效地了解网络的结构特征,从而提供更有效、更具个性化的服务。
非负矩阵分解(nonnegative matrix factorization,NMF)机器学习中的一种特征提取和降维的方法,近年来被用于社区发现。NMF是指将一个高维(m╳n)的非负矩阵X分解为两个低维的非负矩阵U(m╳k)和V(k╳n),使X≈UV。非负矩阵分解在提取高维数据中隐含模式和结构方面具有良好性能,对于非负矩阵分解的改进,多在分解方法上,如正交非负矩阵分解法、凸非负矩阵的对应分解方法、投影非负矩阵的对应分解方法。利用NFM的性能,基于NMF的社区发现,成为研究内容。例:基于邻接矩阵方法、基本物理过程方法、基于节点共有邻居方法、基于最短路径方法等。
发明内容
为了解决上述问题,本发明提供一种非负矩阵社区发现方法及电影社区发现方法,将双属性的非负矩阵分解应用于社区发现,提高了社区分解模块的精确性。
为了实现以上目的,本发明采取的一种技术方案是:
一种非负矩阵社区发现方法,包括如下步骤:S11数据收集与计算,形成相似度矩阵X和L;S12将X进行非负矩阵分解,X≈UV;S13构造含有L的目标函数O;以及S14基于目标函数,得到非负矩阵分解的迭代公式,进行迭代,完成社区划分。
进一步地,所述步骤S11用邻接表表示实体集及其第一组属性;用第一距离计算方法,计算基于这组属性的实体间的距离,形成相似度矩阵X;用所述实体集的第二组属性,用第二距离计算方法,形成相似度矩阵L。
进一步地,所述第一组属性与所述第二组属性有交集。
进一步地,所述第一距离计算方法与所述第二距离计算方法相同。
进一步地,所述步骤S13含有L的目标函数
O=||X-UVT||2+λTr(VTLV)
其中,U和V的矩阵大小分别为m╳k以及k╳n;λ是平滑度,λ值在(0,1]区间;Tr(VTLV)是矩阵的迹;k社区数,初值k<<min(m,n),在迭代过程中对没有意义的分量进行移除,对k进行不断的修正,最终由结果定。
进一步地,所述步骤S14非负矩阵分解的迭代公式
Figure BDA0002396825660000021
每迭代一次,计算目标函数O,当O不再变化时,迭代结束。
本发明还提供了一种非负矩阵电影社区发现方法,包括如下步骤:S21以用户观看电影的相似度矩阵,作为X;以用户观看电影类型的相似度矩阵,作为L;S22将X进行非负矩阵分解,X≈UV,得初始值:U、V;以及S23使用非负矩阵分解的迭代公式进行迭代;计算目标函数O,当O不再变化,迭代结束,社区划分结束。
进一步地,所述步骤S23非负矩阵分解的迭代公式为:
Figure BDA0002396825660000031
目标函数O为:
O=||X-UVT||2+λTr(VTLV)
其中,U和V的矩阵大小分别为m╳k以及k╳n;λ是平滑度,λ值在(0,1]区间;Tr(VTLV)是矩阵的迹;k社区数,初值k<<min(m,n),在迭代过程中对没有意义的分量进行移除,对k进行不断的修正,最终由结果定。
本发明的上述技术方案相比现有技术具有以下优点:
本发明的一种非负矩阵社区发现方法及电影社区发现方法,将双属性的非负矩阵分解应用于社区发现,提高了社区分解模块的精确性。
附图说明
下面结合附图,通过对本发明的具体实施方式详细描述,将使本发明的技术方案及其有益效果显而易见。
图1所示为本发明一实施例非负矩阵社区发现方法流程图;
图2所示为本发明一实施例非负矩阵社区发现算法的工具主界面图;
图3所示为本发明一实施例非负矩阵电影社区发现方法流程图;
图4所示为本发明一实施例非负矩阵电影社区发现结果示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
如图1~图2所示,本发明实施例公开了一种非负矩阵社区发现方法,包括如下步骤:S11数据收集与计算,形成相似度矩阵X和L。S12将X进行非负矩阵分解,X≈UV。S13构造含有L的目标函数O。以及S14基于目标函数,得到非负矩阵分解的迭代公式,进行迭代,完成社区划分。
所述步骤S11用邻接表表示实体集及其第一组属性;用第一距离计算方法,计算基于这组属性的实体间的距离,形成相似度矩阵X;用所述实体集的第二组属性,用第二距离计算方法,形成相似度矩阵L。所述第一组属性与所述第二组属性有交集。所述第一距离计算方法与所述第二距离计算方法相同。
所述步骤S13含有L的目标函数O,推导如下:
分解后,xj关于新基的低维表示为zj=[vj1;...;vjk]T,使用欧几里德距离
d(zj,zl)=||zj-zl||2
两个数据点的低二维表示相对于新基的“差异”R,为:
Figure BDA0002396825660000041
其中Tr()表示矩阵的迹,D是一个对角矩阵,其元素是X的列(或行,因为X是对称阵)和,L=D-X,为添加属性信息的矩阵,则目标矩阵O为:
O=||X-UVT||2+λTr(VTLV)
λ是平滑度,值在(0,1]区间。其中,U、V为X的非负矩阵分解,U和V的矩阵大小分别为m╳k以及k╳n;Tr()是矩阵的迹,即矩阵主对角元素线元素的和;k社区数,初值k<<min(m,n),在迭代过程中对没有意义的分量进行移除,对k进行不断的修正,最终由结果定。
所述步骤S14非负矩阵分解的迭代公式,推导如下:
目标函数O,可以重写为
O=Tr((X-UVT)(X-UVT)T)+λTr(VTLV)
=Tr(XXT)-2Tr(XVUT)+Tr(UVTVUT)+λTr(VTLV)
让ψik和φjk各自成为约束uik≥0vjk≥0的拉格朗日乘子,和ψ=[ψik],
Figure BDA0002396825660000051
则拉格朗日式子LS等于:
Figure BDA0002396825660000052
LS对U和V的偏导是:
Figure BDA0002396825660000053
Figure BDA0002396825660000054
利用KKT条件ψikuik=0,φjkvjk=0,得以下关于Uik和Vjk的方程:
-(XV)ikuik+(UVTV)ikuik=0,
-(XTU)jkvjk+(VUTU)jkvjk+λ(LV)jkvjk=0.
即得到更新规则如下:
Figure BDA0002396825660000061
每迭代一次,计算目标函数O,当O不再变化时,迭代结束。
如图3所示,本发明实施例还提供了一种非负矩阵电影社区发现方法,包括如下步骤:S21以用户观看电影的相似度矩阵,作为X;以用户观看电影类型的相似度矩阵,作为L。S22将X进行非负矩阵分解,X≈UV,得初始值:U、V。以及S23使用非负矩阵分解的迭代公式进行迭代;计算目标函数O,当O不再变化,迭代结束,社区划分结束。
所述步骤S23非负矩阵分解的迭代公式为:U
Figure BDA0002396825660000062
目标函数O为:
O=||X-UVT||2+λTr(VTLV)
其中,U、V为X的非负矩阵分解,U和V的矩阵大小分别为m╳k以及k╳n;λ是平滑度,λ值在(0,1]区间;Tr()是矩阵的迹,即矩阵主对角元素线元素的和;k社区数,初值k<<min(m,n),在迭代过程中对没有意义的分量进行移除,对k进行不断的修正,最终由结果定。
如图4所示,基于下表1.电影社区数据属性,使用所述电影社区发现方法,最终得到50个社区,相比于传统的NMF算法,社区分解模度(Q值)由0.343提高到了0.546,Q值更高,即得到相似的用户社区准确度更高。
表1
用户ID 电影ID 电影类型
610名用户 9743部电影 19种
以上所述仅为本发明的示例性实施例,并非因此限制本发明专利保护范围,凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换,或直接或间接运用在其他相关的技术领域,均同理包括在本发明的专利保护范围内。

Claims (5)

1.一种非负矩阵社区发现方法,其特征在于,包括如下步骤:
S11数据收集与计算,形成相似度矩阵X和L;
S12将X进行非负矩阵分解,X≈UV;
S13构造含有L的目标函数O;以及
S14基于目标函数,得到非负矩阵分解的迭代公式,进行迭代,完成社区划分;
所述步骤S13含有L的目标函数
O=||X-UVT||2+λTr(VTLV)
其中,U和V的矩阵大小分别为m╳k以及k╳n;λ是平滑度,λ值在(0,1]区间;Tr(VTLV)是矩阵的迹;k社区数,初值k<<min(m,n),在迭代过程中对没有意义的分量进行移除,对k进行不断的修正,最终由结果定;
所述步骤S14非负矩阵分解的迭代公式
Figure FDA0004200959120000011
每迭代一次,计算目标函数O,当O不再变化时,迭代结束。
2.根据权利要求1所述的非负矩阵社区发现方法,其特征在于,所述步骤S11用邻接表表示实体集及其第一组属性;用第一距离计算方法,计算基于这组属性的实体间的距离,形成相似度矩阵X;用所述实体集的第二组属性,用第二距离计算方法,形成相似度矩阵L。
3.根据权利要求2所述的非负矩阵社区发现方法,其特征在于,所述第一组属性与所述第二组属性有交集。
4.根据权利要求2所述的非负矩阵社区发现方法,其特征在于,所述第一距离计算方法与所述第二距离计算方法相同。
5.一种非负矩阵电影社区发现方法,其特征在于,包括如下步骤:
S21以用户观看电影的相似度矩阵,作为X;以用户观看电影类型的相似度矩阵,作为L;
S22将X进行非负矩阵分解,X≈UV,得初始值:U、V;以及
S23使用非负矩阵分解的迭代公式进行迭代;计算目标函数O,当O不再变化,迭代结束,社区划分结束;
所述步骤S23非负矩阵分解的迭代公式为:
Figure FDA0004200959120000021
目标函数O为:
O=||X-UVT||2+λTr(VTLV)
其中,U和V的矩阵大小分别为m╳k以及k╳n;λ是平滑度,λ值在(0,1]区间;Tr(VTLV)是矩阵的迹;k社区数,初值k<<min(m,n),在迭代过程中对没有意义的分量进行移除,对k进行不断的修正,最终由结果定。
CN202010134409.8A 2020-03-02 2020-03-02 一种非负矩阵社区发现方法及电影社区发现方法 Active CN111400652B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010134409.8A CN111400652B (zh) 2020-03-02 2020-03-02 一种非负矩阵社区发现方法及电影社区发现方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010134409.8A CN111400652B (zh) 2020-03-02 2020-03-02 一种非负矩阵社区发现方法及电影社区发现方法

Publications (2)

Publication Number Publication Date
CN111400652A CN111400652A (zh) 2020-07-10
CN111400652B true CN111400652B (zh) 2023-06-13

Family

ID=71436054

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010134409.8A Active CN111400652B (zh) 2020-03-02 2020-03-02 一种非负矩阵社区发现方法及电影社区发现方法

Country Status (1)

Country Link
CN (1) CN111400652B (zh)

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104318306B (zh) * 2014-10-10 2017-03-15 西安电子科技大学 基于非负矩阵分解和进化算法优化参数的自适应交叠社区检测方法

Also Published As

Publication number Publication date
CN111400652A (zh) 2020-07-10

Similar Documents

Publication Publication Date Title
CN109345348B (zh) 基于旅行社用户的多维信息画像的推荐方法
CN110929848B (zh) 基于多挑战感知学习模型的训练、跟踪方法
CN113807422B (zh) 融合多特征信息的加权图卷积神经网络评分预测模型
CN108399268B (zh) 一种基于博弈论的增量式异构图聚类方法
CN105205130A (zh) 一种提升推荐系统准确性的方法
US20230342606A1 (en) Training method and apparatus for graph neural network
CN111985623A (zh) 基于最大化互信息和图神经网络的属性图群组发现方法
CN112131403B (zh) 一种动态环境下的知识图谱表示学习方法
CN113887698B (zh) 基于图神经网络的整体知识蒸馏方法和系统
CN115293919A (zh) 面向社交网络分布外泛化的图神经网络预测方法及系统
CN111241326A (zh) 基于注意力金字塔图网络的图像视觉关系指代定位方法
US20230032521A1 (en) Social graph generation method using a degree distribution generation model
CN112561599A (zh) 一种融合域特征交互的基于注意力网络学习的点击率预测方法
CN111008338B (zh) 一种基于层次聚类的社交网络多尺度结构挖掘方法及介质
CN115983351A (zh) 一种基于对比学习的自监督图神经网络方法
CN111400652B (zh) 一种非负矩阵社区发现方法及电影社区发现方法
CN116992307A (zh) 基于图网络特征快速聚合的社交网络用户匹配方法及装置
CN116701781A (zh) 一种基于图卷积神经网络的物品同质图邻域聚合推荐算法
Wu et al. Learning over categorical data using counting features: with an application on click-through rate estimation
CN113723345B (zh) 基于风格转换和联合学习网络的域自适应行人再识别方法
Fu et al. Profile‐pseudo likelihood methods for community detection of multilayer stochastic block models
Yarramalle et al. Unsupervised image segmentation using finite doubly truncated Gaussian mixture model and hierarchical clustering
CN112364192A (zh) 一种基于集成学习的零样本哈希检索方法
Madeira et al. On Modal Clustering with Gaussian Sum-Product Networks
CN112084419B (zh) 一种基于属性网络嵌入和无参聚类的哔哩哔哩用户社团发现方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant