CN111400652B - 一种非负矩阵社区发现方法及电影社区发现方法 - Google Patents
一种非负矩阵社区发现方法及电影社区发现方法 Download PDFInfo
- Publication number
- CN111400652B CN111400652B CN202010134409.8A CN202010134409A CN111400652B CN 111400652 B CN111400652 B CN 111400652B CN 202010134409 A CN202010134409 A CN 202010134409A CN 111400652 B CN111400652 B CN 111400652B
- Authority
- CN
- China
- Prior art keywords
- matrix
- community
- negative matrix
- objective function
- factorization
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 239000011159 matrix material Substances 0.000 title claims abstract description 85
- 238000000034 method Methods 0.000 title claims abstract description 42
- 238000004364 calculation method Methods 0.000 claims abstract description 16
- 238000013480 data collection Methods 0.000 claims abstract description 4
- 238000012804 iterative process Methods 0.000 claims description 6
- 230000006870 function Effects 0.000 description 14
- 238000011160 research Methods 0.000 description 4
- 238000000354 decomposition reaction Methods 0.000 description 3
- 230000008901 benefit Effects 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 230000008569 process Effects 0.000 description 2
- 238000007418 data mining Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
- 230000009467 reduction Effects 0.000 description 1
- 238000012546 transfer Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F17/00—Digital computing or data processing equipment or methods, specially adapted for specific functions
- G06F17/10—Complex mathematical operations
- G06F17/16—Matrix or vector computation, e.g. matrix-matrix or matrix-vector multiplication, matrix factorization
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q50/00—Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
- G06Q50/01—Social networking
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Mathematical Physics (AREA)
- Theoretical Computer Science (AREA)
- Computing Systems (AREA)
- Business, Economics & Management (AREA)
- Data Mining & Analysis (AREA)
- Pure & Applied Mathematics (AREA)
- Mathematical Optimization (AREA)
- Mathematical Analysis (AREA)
- Computational Mathematics (AREA)
- Human Resources & Organizations (AREA)
- Economics (AREA)
- Tourism & Hospitality (AREA)
- Strategic Management (AREA)
- Primary Health Care (AREA)
- Marketing (AREA)
- General Health & Medical Sciences (AREA)
- General Business, Economics & Management (AREA)
- Algebra (AREA)
- Health & Medical Sciences (AREA)
- Databases & Information Systems (AREA)
- Software Systems (AREA)
- General Engineering & Computer Science (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本发明提供了一种非负矩阵社区发现方法及电影社区发现方法,包括如下步骤S11数据收集与计算,形成相似度矩阵X和L;S12将X进行非负矩阵分解,X≈UV;S13构造含有L的目标函数O;以及S14基于目标函数,得到非负矩阵分解的迭代公式,进行迭代,完成社区划分。本发明的一种非负矩阵社区发现方法及电影社区发现方法,将双属性的非负矩阵分解应用于社区发现,提高了社区分解模块的精确性。
Description
技术领域
本发明涉及数据挖掘技术领域,具体涉及一种非负矩阵社区发现方法及电影社区发现方法。
背景技术
社交网络作为信息传递的主要载具,其涵盖的信息量对于当今社会具有重要的研究意义,从个体到群体,从小世界到大社会,现实生活中总存在隐含的联系将人们链接起来。很多实际网络中的节点具有聚集化特性——“社区结构”。网络中社区发现的研究已经取得很多研究成果,可以大体将社区发现方法分为图切割方法、目标函数优化方法、聚类方法和启发式方法等。社区发现常用于分析社会群体之间的结构特征。随着信息化技术的发展,信息系统中保存着大量用户的信息特征,用户与用户之间也存在着某种关联性。用户的特征具有多维度,且多关联性。社区发现能帮助人们更有效地了解网络的结构特征,从而提供更有效、更具个性化的服务。
非负矩阵分解(nonnegative matrix factorization,NMF)机器学习中的一种特征提取和降维的方法,近年来被用于社区发现。NMF是指将一个高维(m╳n)的非负矩阵X分解为两个低维的非负矩阵U(m╳k)和V(k╳n),使X≈UV。非负矩阵分解在提取高维数据中隐含模式和结构方面具有良好性能,对于非负矩阵分解的改进,多在分解方法上,如正交非负矩阵分解法、凸非负矩阵的对应分解方法、投影非负矩阵的对应分解方法。利用NFM的性能,基于NMF的社区发现,成为研究内容。例:基于邻接矩阵方法、基本物理过程方法、基于节点共有邻居方法、基于最短路径方法等。
发明内容
为了解决上述问题,本发明提供一种非负矩阵社区发现方法及电影社区发现方法,将双属性的非负矩阵分解应用于社区发现,提高了社区分解模块的精确性。
为了实现以上目的,本发明采取的一种技术方案是:
一种非负矩阵社区发现方法,包括如下步骤:S11数据收集与计算,形成相似度矩阵X和L;S12将X进行非负矩阵分解,X≈UV;S13构造含有L的目标函数O;以及S14基于目标函数,得到非负矩阵分解的迭代公式,进行迭代,完成社区划分。
进一步地,所述步骤S11用邻接表表示实体集及其第一组属性;用第一距离计算方法,计算基于这组属性的实体间的距离,形成相似度矩阵X;用所述实体集的第二组属性,用第二距离计算方法,形成相似度矩阵L。
进一步地,所述第一组属性与所述第二组属性有交集。
进一步地,所述第一距离计算方法与所述第二距离计算方法相同。
进一步地,所述步骤S13含有L的目标函数
O=||X-UVT||2+λTr(VTLV)
其中,U和V的矩阵大小分别为m╳k以及k╳n;λ是平滑度,λ值在(0,1]区间;Tr(VTLV)是矩阵的迹;k社区数,初值k<<min(m,n),在迭代过程中对没有意义的分量进行移除,对k进行不断的修正,最终由结果定。
进一步地,所述步骤S14非负矩阵分解的迭代公式
每迭代一次,计算目标函数O,当O不再变化时,迭代结束。
本发明还提供了一种非负矩阵电影社区发现方法,包括如下步骤:S21以用户观看电影的相似度矩阵,作为X;以用户观看电影类型的相似度矩阵,作为L;S22将X进行非负矩阵分解,X≈UV,得初始值:U、V;以及S23使用非负矩阵分解的迭代公式进行迭代;计算目标函数O,当O不再变化,迭代结束,社区划分结束。
进一步地,所述步骤S23非负矩阵分解的迭代公式为:
目标函数O为:
O=||X-UVT||2+λTr(VTLV)
其中,U和V的矩阵大小分别为m╳k以及k╳n;λ是平滑度,λ值在(0,1]区间;Tr(VTLV)是矩阵的迹;k社区数,初值k<<min(m,n),在迭代过程中对没有意义的分量进行移除,对k进行不断的修正,最终由结果定。
本发明的上述技术方案相比现有技术具有以下优点:
本发明的一种非负矩阵社区发现方法及电影社区发现方法,将双属性的非负矩阵分解应用于社区发现,提高了社区分解模块的精确性。
附图说明
下面结合附图,通过对本发明的具体实施方式详细描述,将使本发明的技术方案及其有益效果显而易见。
图1所示为本发明一实施例非负矩阵社区发现方法流程图;
图2所示为本发明一实施例非负矩阵社区发现算法的工具主界面图;
图3所示为本发明一实施例非负矩阵电影社区发现方法流程图;
图4所示为本发明一实施例非负矩阵电影社区发现结果示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
如图1~图2所示,本发明实施例公开了一种非负矩阵社区发现方法,包括如下步骤:S11数据收集与计算,形成相似度矩阵X和L。S12将X进行非负矩阵分解,X≈UV。S13构造含有L的目标函数O。以及S14基于目标函数,得到非负矩阵分解的迭代公式,进行迭代,完成社区划分。
所述步骤S11用邻接表表示实体集及其第一组属性;用第一距离计算方法,计算基于这组属性的实体间的距离,形成相似度矩阵X;用所述实体集的第二组属性,用第二距离计算方法,形成相似度矩阵L。所述第一组属性与所述第二组属性有交集。所述第一距离计算方法与所述第二距离计算方法相同。
所述步骤S13含有L的目标函数O,推导如下:
分解后,xj关于新基的低维表示为zj=[vj1;...;vjk]T,使用欧几里德距离
d(zj,zl)=||zj-zl||2
两个数据点的低二维表示相对于新基的“差异”R,为:
其中Tr()表示矩阵的迹,D是一个对角矩阵,其元素是X的列(或行,因为X是对称阵)和,L=D-X,为添加属性信息的矩阵,则目标矩阵O为:
O=||X-UVT||2+λTr(VTLV)
λ是平滑度,值在(0,1]区间。其中,U、V为X的非负矩阵分解,U和V的矩阵大小分别为m╳k以及k╳n;Tr()是矩阵的迹,即矩阵主对角元素线元素的和;k社区数,初值k<<min(m,n),在迭代过程中对没有意义的分量进行移除,对k进行不断的修正,最终由结果定。
所述步骤S14非负矩阵分解的迭代公式,推导如下:
目标函数O,可以重写为
O=Tr((X-UVT)(X-UVT)T)+λTr(VTLV)
=Tr(XXT)-2Tr(XVUT)+Tr(UVTVUT)+λTr(VTLV)
LS对U和V的偏导是:
利用KKT条件ψikuik=0,φjkvjk=0,得以下关于Uik和Vjk的方程:
-(XV)ikuik+(UVTV)ikuik=0,
-(XTU)jkvjk+(VUTU)jkvjk+λ(LV)jkvjk=0.
即得到更新规则如下:
每迭代一次,计算目标函数O,当O不再变化时,迭代结束。
如图3所示,本发明实施例还提供了一种非负矩阵电影社区发现方法,包括如下步骤:S21以用户观看电影的相似度矩阵,作为X;以用户观看电影类型的相似度矩阵,作为L。S22将X进行非负矩阵分解,X≈UV,得初始值:U、V。以及S23使用非负矩阵分解的迭代公式进行迭代;计算目标函数O,当O不再变化,迭代结束,社区划分结束。
所述步骤S23非负矩阵分解的迭代公式为:U
目标函数O为:
O=||X-UVT||2+λTr(VTLV)
其中,U、V为X的非负矩阵分解,U和V的矩阵大小分别为m╳k以及k╳n;λ是平滑度,λ值在(0,1]区间;Tr()是矩阵的迹,即矩阵主对角元素线元素的和;k社区数,初值k<<min(m,n),在迭代过程中对没有意义的分量进行移除,对k进行不断的修正,最终由结果定。
如图4所示,基于下表1.电影社区数据属性,使用所述电影社区发现方法,最终得到50个社区,相比于传统的NMF算法,社区分解模度(Q值)由0.343提高到了0.546,Q值更高,即得到相似的用户社区准确度更高。
表1
用户ID | 电影ID | 电影类型 |
610名用户 | 9743部电影 | 19种 |
以上所述仅为本发明的示例性实施例,并非因此限制本发明专利保护范围,凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换,或直接或间接运用在其他相关的技术领域,均同理包括在本发明的专利保护范围内。
Claims (5)
1.一种非负矩阵社区发现方法,其特征在于,包括如下步骤:
S11数据收集与计算,形成相似度矩阵X和L;
S12将X进行非负矩阵分解,X≈UV;
S13构造含有L的目标函数O;以及
S14基于目标函数,得到非负矩阵分解的迭代公式,进行迭代,完成社区划分;
所述步骤S13含有L的目标函数
O=||X-UVT||2+λTr(VTLV)
其中,U和V的矩阵大小分别为m╳k以及k╳n;λ是平滑度,λ值在(0,1]区间;Tr(VTLV)是矩阵的迹;k社区数,初值k<<min(m,n),在迭代过程中对没有意义的分量进行移除,对k进行不断的修正,最终由结果定;
所述步骤S14非负矩阵分解的迭代公式
每迭代一次,计算目标函数O,当O不再变化时,迭代结束。
2.根据权利要求1所述的非负矩阵社区发现方法,其特征在于,所述步骤S11用邻接表表示实体集及其第一组属性;用第一距离计算方法,计算基于这组属性的实体间的距离,形成相似度矩阵X;用所述实体集的第二组属性,用第二距离计算方法,形成相似度矩阵L。
3.根据权利要求2所述的非负矩阵社区发现方法,其特征在于,所述第一组属性与所述第二组属性有交集。
4.根据权利要求2所述的非负矩阵社区发现方法,其特征在于,所述第一距离计算方法与所述第二距离计算方法相同。
5.一种非负矩阵电影社区发现方法,其特征在于,包括如下步骤:
S21以用户观看电影的相似度矩阵,作为X;以用户观看电影类型的相似度矩阵,作为L;
S22将X进行非负矩阵分解,X≈UV,得初始值:U、V;以及
S23使用非负矩阵分解的迭代公式进行迭代;计算目标函数O,当O不再变化,迭代结束,社区划分结束;
所述步骤S23非负矩阵分解的迭代公式为:
目标函数O为:
O=||X-UVT||2+λTr(VTLV)
其中,U和V的矩阵大小分别为m╳k以及k╳n;λ是平滑度,λ值在(0,1]区间;Tr(VTLV)是矩阵的迹;k社区数,初值k<<min(m,n),在迭代过程中对没有意义的分量进行移除,对k进行不断的修正,最终由结果定。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010134409.8A CN111400652B (zh) | 2020-03-02 | 2020-03-02 | 一种非负矩阵社区发现方法及电影社区发现方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010134409.8A CN111400652B (zh) | 2020-03-02 | 2020-03-02 | 一种非负矩阵社区发现方法及电影社区发现方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111400652A CN111400652A (zh) | 2020-07-10 |
CN111400652B true CN111400652B (zh) | 2023-06-13 |
Family
ID=71436054
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010134409.8A Active CN111400652B (zh) | 2020-03-02 | 2020-03-02 | 一种非负矩阵社区发现方法及电影社区发现方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111400652B (zh) |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104318306B (zh) * | 2014-10-10 | 2017-03-15 | 西安电子科技大学 | 基于非负矩阵分解和进化算法优化参数的自适应交叠社区检测方法 |
-
2020
- 2020-03-02 CN CN202010134409.8A patent/CN111400652B/zh active Active
Also Published As
Publication number | Publication date |
---|---|
CN111400652A (zh) | 2020-07-10 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109345348B (zh) | 基于旅行社用户的多维信息画像的推荐方法 | |
CN110929848B (zh) | 基于多挑战感知学习模型的训练、跟踪方法 | |
CN113807422B (zh) | 融合多特征信息的加权图卷积神经网络评分预测模型 | |
CN108399268B (zh) | 一种基于博弈论的增量式异构图聚类方法 | |
CN105205130A (zh) | 一种提升推荐系统准确性的方法 | |
US20230342606A1 (en) | Training method and apparatus for graph neural network | |
CN111985623A (zh) | 基于最大化互信息和图神经网络的属性图群组发现方法 | |
CN112131403B (zh) | 一种动态环境下的知识图谱表示学习方法 | |
CN113887698B (zh) | 基于图神经网络的整体知识蒸馏方法和系统 | |
CN115293919A (zh) | 面向社交网络分布外泛化的图神经网络预测方法及系统 | |
CN111241326A (zh) | 基于注意力金字塔图网络的图像视觉关系指代定位方法 | |
US20230032521A1 (en) | Social graph generation method using a degree distribution generation model | |
CN112561599A (zh) | 一种融合域特征交互的基于注意力网络学习的点击率预测方法 | |
CN111008338B (zh) | 一种基于层次聚类的社交网络多尺度结构挖掘方法及介质 | |
CN115983351A (zh) | 一种基于对比学习的自监督图神经网络方法 | |
CN111400652B (zh) | 一种非负矩阵社区发现方法及电影社区发现方法 | |
CN116992307A (zh) | 基于图网络特征快速聚合的社交网络用户匹配方法及装置 | |
CN116701781A (zh) | 一种基于图卷积神经网络的物品同质图邻域聚合推荐算法 | |
Wu et al. | Learning over categorical data using counting features: with an application on click-through rate estimation | |
CN113723345B (zh) | 基于风格转换和联合学习网络的域自适应行人再识别方法 | |
Fu et al. | Profile‐pseudo likelihood methods for community detection of multilayer stochastic block models | |
Yarramalle et al. | Unsupervised image segmentation using finite doubly truncated Gaussian mixture model and hierarchical clustering | |
CN112364192A (zh) | 一种基于集成学习的零样本哈希检索方法 | |
Madeira et al. | On Modal Clustering with Gaussian Sum-Product Networks | |
CN112084419B (zh) | 一种基于属性网络嵌入和无参聚类的哔哩哔哩用户社团发现方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |