CN112612967B - 基于链接聚类和约简的协同过滤推荐方法 - Google Patents
基于链接聚类和约简的协同过滤推荐方法 Download PDFInfo
- Publication number
- CN112612967B CN112612967B CN202010953795.3A CN202010953795A CN112612967B CN 112612967 B CN112612967 B CN 112612967B CN 202010953795 A CN202010953795 A CN 202010953795A CN 112612967 B CN112612967 B CN 112612967B
- Authority
- CN
- China
- Prior art keywords
- user
- links
- link
- users
- representing
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/953—Querying, e.g. by the use of web search engines
- G06F16/9536—Search customisation based on social or collaborative filtering
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/953—Querying, e.g. by the use of web search engines
- G06F16/9535—Search customisation based on user profiles and personalisation
Landscapes
- Engineering & Computer Science (AREA)
- Databases & Information Systems (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开了一种可同时提高推荐精确度和多样性的基于链接聚类和约简的协同过滤推荐方法,依次按照如下步骤进行:将用户‑物品评分矩阵映射为用户‑物品加权二分网络;对用户‑物品加权二分网络按照链接进行聚类;根据全局‑局部加权二分模块度指导聚类结果,得到最佳聚类值;根据链接约简算法删除每个聚类簇中的冗余链接;根据约简后的聚类簇中的评分信息选取目标用户的邻近用户;根据邻近用户的评分预测目标用户未评分物品,选取预测评分最高的N个物品作为推荐结果提供给目标用户。
Description
技术领域
本发明涉及推荐技术领域,尤其涉及一种可同时提高推荐精确度和多样性的基于链接聚类和约简的协同过滤推荐方法。
背景技术
推荐系统可以根据用户的个人需求而提供个性化的服务。用户协同过滤算法是推荐系统领域应用最广泛、最成功的推荐技术之一,具有计算简单、效率高等优点。但是,传统的用户协同过滤算法假设用户在过去有相似的爱好,那么用户在将来也可能有相似的爱好,故目标用户的邻近用户趋于拥有相同的爱好,所以通过这些邻近用户获得的预测评分高的物品往往集中于少量种类的热门物品,甚至仅仅是流行物品,即存在着推荐过拟合的问题。
发明内容
本发明为了解决现有技术所存在的上述技术问题,提出了一种可同时提高推荐精确度和多样性的基于链接聚类和约简的协同过滤推荐方法。
本发明的技术解决方案是:一种基于链接聚类和约简的协同过滤推荐方法,按照如下步骤进行:
步骤1.根据用户对物品的评分信息形成用户-物品加权二分网络 UIBN=G(U,I,L),所述U表示用户的集合,I表示物品的集合,L表示链接集合, lu,i∈L表示用户u和物品i之间的链接;
步骤2.对用户-物品加权二分网络按照链接进行聚类:
随机将用户-物品之间的链接聚为K类,使得并根据公式(1)、(2)、(3)进行迭代计算至收敛为止,得出每个链接、用户和物品属于第k个聚类簇的概率;
式(1)(2)(3)中,K表示聚类数目,Ck表示第k个聚类簇,P(Ck|lu,i)表示链接lu,i属于聚类簇Ck的概率,P(Ck|u)表示用户u属于聚类簇Ck的概率,P(Ck|i)表示物品i属于聚类簇Ck的概率;
步骤3.按照公式(4)计算全局-局部加权二分模块度Q并根据全局-局部加权二分模块度Q指导聚类结果,得到最佳聚类数目:
式(4)中,Q表示全局-局部加权二分模块度,M表示全部链接的数目,RT(u) 和CT(i)分别表示链接矩阵L中第u行和第i列中元素之和;
步骤4.根据链接约简算法删除每个聚类簇中的冗余链接:
在链接集合L中,如果两个用户与同一个物品之间存在链接,则把这两个链接看作等价链接;如果用户i的链接集合Li包含于另一个用户j的链接集合 Lj中,则用户i的链接集合Li将被看作冗余链接从链接集合L中移除,即链接集合L中只保留用户j的链接集合Lj;
步骤5.根据约简后的聚类簇中的评分信息选取目标用户的邻近用户:
利用皮尔森相似度量函数(5)计算目标用户au和候选邻近用户u∈Ur之间的相似度,
式(5)中,Iθu={i∈I|rθu,i≠*}表示目标用户au评价过的物品集合, Iu={i∈I|u,i≠*}表示用户u评价过的物品集合,表示目标用户的平均评分值;/>表示用户u的平均评分值;然后选择相似度最高的前K个候选邻近用户作为当前用户的邻近用户Nau(k);
步骤6.根据邻近用户的评分预测目标用户未评分物品,选取预测评分最高的N个物品推荐给目标用户:
利用调整加权和函数(6)对目标用户au未评分的物品集合进行预测评分,
式(6)中,Pau,i表示目标用户au对物品i的预测评分,Ui={u∈U|ru,i≠*}表示评价过物品i的用户集合;λ作为一个正则化因子:
选取预测评分最高的N个物品作为推荐结果提供给目标用户。
本发明首先将用户-物品评分信息转换为二分网络,把用户和物品的聚类转换为二分网络的链接聚类,并提出了新的全局-局部加权二分模块度指导二分网络中链接的聚类,有效地找出聚类的最佳数目,从而实现最佳的聚类效果;其次本发明明确定义了链接集合的冗余链接,并将冗余链接从链接集合中移除,可保证推荐精度,避免推荐过拟合的问题。
附图说明
图1为本发明实施例的流程示意图。
具体实施方式
本发明的基于链接聚类和约简的协同过滤推荐方法,按照如下步骤进行:
步骤1.根据用户对物品的评分信息形成用户-物品加权二分网络 UIBN=G(U,I,L),所述U表示用户的集合,I表示物品的集合,L表示链接集合, lu,i∈L表示用户u和物品i之间的链接;
具体可如表1所示:
用户对物品的评分信息形成用户-物品加权二分网络UIBN=G(U,I,L),其中用户集合U={用户1,用户2,用户3,…,用户11,目标用户},物品集合I= {物品1,物品2,物品3,物品4,物品5,物品6},评分的取值范围为[1,5],* 表示用户未对物品进行评分,评分信息组成用户和物品之间的链接集合L。
表1
步骤2.对用户-物品加权二分网络按照链接进行聚类:
随机将用户-物品之间的链接聚为K类,使得并根据公式(1)、(2)、(3)进行迭代计算至收敛为止,得出每个链接、用户和物品属于第k个聚类簇的概率;
式(1)(2)(3)中,K表示聚类数目,P(Ck|lu,i)表示链接lu,i属于聚类簇Ck的概率,P(Ck|u)表示用户u属于聚类簇Ck的概率,P(Ck|i)表示物品i属于聚类簇Ck的概率;
步骤3.按照公式(4)计算K个全局-局部加权二分模块度Q并根据全局-局部加权二分模块度Q指导聚类结果,得到最佳聚类数目:
式(4)中,Q表示全局-局部加权二分模块度,M表示全部链接的数目,RT(u) 和CT(i)分别表示链接矩阵L中第u行和第i列中元素之和,k=1,2,3……12;结果如表2所示。
表2
由表2数据可知,当K=4时,全局-局部加权二分模块度拥有最佳值,聚类效果最好。聚类结果如表3所示:
表3
C1 | 用户2,用户4 |
C2 | 用户1,用户3,用户7 |
C3 | 用户5,用户6,用户8 |
C4 | 目标用户,用户8,用户9,用户10,用户11 |
步骤4.根据链接约简算法删除每个聚类簇中的冗余链接:
如链接集合中存在的大量冗余链接将严重影响邻近用户的选取质量,故在链接集合L中,如果两个用户与同一个物品之间存在链接,则把这两个链接看作等价链接;例如用户1和物品1存在链接l1,1,用户2和物品1存在链接l2,1,则把l1,1看作等同于l2,1;如果用户i的链接集合Li包含于另一个用户j的链接集合Lj中,则用户i的链接集合Li将被看作冗余链接从链接集合L中移除,即链接集合L中只保留用户j的链接集合Lj;
具体则根据K=4将链接聚为4类,根据表3可知目标用户在一类的用户为{用户8,用户9,用户10,用户11},该聚类簇中每个用户的链接集合分别为:
L目标用户={l目标用户,1,l目标用户,3,l目标用户,5};
L8={l8,2,l8,3,l8,5};
L9={l9,2,l9,3,l9,4,l9,6};
L10={l10,1,l10,2,l10,3,l10,6};
L11={l11,1,l11,2,l11,3}。
根据每个用户的链接集合和链接约简算法可知,用户11的链接集合包含于用户10中,因此用户11的链接将被看作冗余链接而被删除;
步骤5.根据约简后的聚类簇中的评分信息选取目标用户的邻近用户:
利用皮尔森相似度量函数(5)计算目标用户au和候选邻近用户u∈Ur之间的相似度,
式(5)中,1θu={i∈I|rθu,i≠*}表示目标用户au评价过的物品集合, Iu={i∈I|ru,i≠*}表示用户u评价过的物品集合,表示目标用户的平均评分值;/>表示用户u的平均评分值;然后选择相似度最高的前K个候选邻近用户作为当前用户的邻近用户Nau(k);
具体计算目标用户和候选用户8、用户9、用户10之间的相似度,结果如下:sim(目标用户,用户8)=0.104;sim(目标用户,用户9)=0.235;sim(目标用户,用户10)=0.614,如果选取相似度最好的前2个用户作为目标用户的邻近用户,则用户9和用户10将被看作目标用户的邻近用户;
步骤6.根据邻近用户的评分预测目标用户未评分物品,选取预测评分最高的N个物品推荐给目标用户:
利用调整加权和函数(6)对目标用户au未评分的物品集合进行预测评分,
式(6)中,Pau,i表示目标用户au对物品i的预测评分,Ui={u∈U|ru,i≠*}表示评价过物品i的用户集合;λ作为一个正则化因子:
具体是利用调整加权和函数(6)对目标用户未评分的物品集合{物品2,物品 4,物品6}进行预测评分,得到
P目标用户,物品2=2.16
P目标用户,物品4=4.93
P目标用户,物品6=3.47
如果选取预测评分最高的一个物品作为推荐结果提供给目标用户,则将物品4将推荐给目标用户。
Claims (1)
1.一种基于链接聚类和约简的协同过滤推荐方法,其特征在于按照如下步
骤进行:
步骤1.根据用户对物品的评分信息形成用户-物品加权二分网络UIBN=G(U,I,L),所述U表示用户的集合,I表示物品的集合,L表示链接集合,l u,i ∈L表示用户u和物品i之间的链接;
步骤2.对用户-物品加权二分网络按照链接进行聚类:
随机将用户-物品之间的链接聚为K类,使得并根据公式(1)、(2)、(3)进行迭代计算至收敛为止,得出每个链接、用户和物品属于第k个聚类簇的概率;
(1)
(2)
(3)
式(1)(2)(3)中,K表示聚类数目,C k 表示第k个聚类簇,表示链接l u,i 属于聚类簇C k 的概率,/>表示用户u属于聚类簇C k 的概率,/>表示物品i属于聚类簇C k 的概率;
步骤3.按照公式(4)计算全局-局部加权二分模块度Q并根据全局-局部加权二分模块度Q指导聚类结果,得到最佳聚类数目:
(4)
式(4)中,Q表示全局-局部加权二分模块度,M表示全部链接的数目,和/>分别表示链接矩阵L中第u行和第i列中元素之和;
步骤4.根据链接约简算法删除每个聚类簇中的冗余链接:
在链接集合L中,如果两个用户与同一个物品之间存在链接,则把这两个链接看作等价链接;如果用户i的链接集合L i 包含于另一个用户j的链接集合L j 中,则用户i的链接集合L i 将被看作冗余链接从链接集合L中移除,即链接集合L中只保留用户j的链接集合L j ;
步骤5.根据约简后的聚类簇中的评分信息选取目标用户的邻近用户:
利用皮尔森相似度量函数(5)计算目标用户au和候选邻近用户u∈U r 之间的相似度,
(5)
式(5)中,表示目标用户au评价过的物品集合,/>表示用户u评价过的物品集合,/>表示目标用户的平均评分值;/>表示用户u的平均评分值;然后选择相似度最高的前K个候选邻近用户作为当前用户的邻近用户N au (k);
步骤6. 根据邻近用户的评分预测目标用户未评分物品,选取预测评分最高
的N个物品推荐给目标用户:
利用调整加权和函数(6)对目标用户au未评分的物品集合进行预测评分,
(6)
式(6)中,P au,i 表示目标用户au对物品i的预测评分,表示评价过物品i的用户集合;λ作为一个正则化因子:
(7);
选取预测评分最高的N个物品作为推荐结果提供给目标用户。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010953795.3A CN112612967B (zh) | 2020-09-11 | 2020-09-11 | 基于链接聚类和约简的协同过滤推荐方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010953795.3A CN112612967B (zh) | 2020-09-11 | 2020-09-11 | 基于链接聚类和约简的协同过滤推荐方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112612967A CN112612967A (zh) | 2021-04-06 |
CN112612967B true CN112612967B (zh) | 2023-07-18 |
Family
ID=75224285
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010953795.3A Active CN112612967B (zh) | 2020-09-11 | 2020-09-11 | 基于链接聚类和约简的协同过滤推荐方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112612967B (zh) |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104182518A (zh) * | 2014-08-25 | 2014-12-03 | 苏州大学 | 一种协同过滤推荐方法及装置 |
CN105740460A (zh) * | 2016-02-24 | 2016-07-06 | 中国科学技术信息研究所 | 网页搜集推荐方法和装置 |
CN107885778A (zh) * | 2017-10-12 | 2018-04-06 | 浙江工业大学 | 一种基于动态临近点谱聚类的个性化推荐方法 |
CN108549729A (zh) * | 2018-05-21 | 2018-09-18 | 辽宁师范大学 | 基于覆盖约简的个性化用户协同过滤推荐方法 |
CN109919723A (zh) * | 2019-03-01 | 2019-06-21 | 西安电子科技大学 | 一种基于用户和物品的个性化推荐方法 |
CN110956511A (zh) * | 2019-12-30 | 2020-04-03 | 深圳前海微众银行股份有限公司 | 商品推荐方法、装置、设备与计算机可读存储介质 |
Family Cites Families (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2018142095A (ja) * | 2017-02-27 | 2018-09-13 | 富士ゼロックス株式会社 | プログラム及び情報処理装置 |
US10706103B2 (en) * | 2018-01-30 | 2020-07-07 | Microsoft Technology Licensing, Llc | System and method for hierarchical distributed processing of large bipartite graphs |
-
2020
- 2020-09-11 CN CN202010953795.3A patent/CN112612967B/zh active Active
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104182518A (zh) * | 2014-08-25 | 2014-12-03 | 苏州大学 | 一种协同过滤推荐方法及装置 |
CN105740460A (zh) * | 2016-02-24 | 2016-07-06 | 中国科学技术信息研究所 | 网页搜集推荐方法和装置 |
CN107885778A (zh) * | 2017-10-12 | 2018-04-06 | 浙江工业大学 | 一种基于动态临近点谱聚类的个性化推荐方法 |
CN108549729A (zh) * | 2018-05-21 | 2018-09-18 | 辽宁师范大学 | 基于覆盖约简的个性化用户协同过滤推荐方法 |
CN109919723A (zh) * | 2019-03-01 | 2019-06-21 | 西安电子科技大学 | 一种基于用户和物品的个性化推荐方法 |
CN110956511A (zh) * | 2019-12-30 | 2020-04-03 | 深圳前海微众银行股份有限公司 | 商品推荐方法、装置、设备与计算机可读存储介质 |
Non-Patent Citations (3)
Title |
---|
Alleviating New User Cold-Start in User-Based Collaborative Filtering via Bipartite Network;Zhipeng Zhang,等;《IEEE Transactions on Computational Social Systems》;第第7卷卷(第第3期期);第672-685页 * |
二分网络推荐算法与协同过滤算法的关系研究;周波;《计算机科学》;第第46卷卷(第第S2期期);第163-166页 * |
基于覆盖约简的个性化协同过滤推荐方法;张志鹏,等;《模式识别与人工智能》;第第32卷卷(第第7期期);第607-614页 * |
Also Published As
Publication number | Publication date |
---|---|
CN112612967A (zh) | 2021-04-06 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108920720B (zh) | 基于深度哈希和gpu加速的大规模图像检索方法 | |
CN111709304B (zh) | 一种基于时空注意力增强特征融合网络的行为识别方法 | |
CN109902235B (zh) | 基于蝙蝠优化的用户偏好聚类协同过滤推荐算法 | |
CN113807422B (zh) | 融合多特征信息的加权图卷积神经网络评分预测模型 | |
CN111105160A (zh) | 一种基于倾向性异质装袋算法的钢材质量预测方法 | |
CN108280472A (zh) | 一种基于局部密度和聚类中心优化的密度峰聚类方法 | |
CN112381179B (zh) | 一种基于双层注意力机制的异质图分类方法 | |
CN101187986A (zh) | 基于有监督的近邻保持嵌入和支持向量机的人脸识别方法 | |
CN107085607A (zh) | 一种图像特征点匹配方法 | |
CN113222181B (zh) | 一种面向k-means聚类算法的联邦学习方法 | |
CN111523055A (zh) | 一种基于农产品特征属性评论倾向的协同推荐方法及系统 | |
CN109948534A (zh) | 采用快速密度峰值聚类进行人脸识别的方法 | |
CN113360730A (zh) | 一种基于过滤器和rf-rfe算法的特征选择方法 | |
CN112612948A (zh) | 一种基于深度强化学习的推荐系统构建方法 | |
CN116612307A (zh) | 一种基于迁移学习的茄科病害等级识别方法 | |
Dai | Imbalanced protein data classification using ensemble FTM-SVM | |
CN108681570B (zh) | 一种基于多目标进化算法的个性化网页推荐方法 | |
CN112612967B (zh) | 基于链接聚类和约简的协同过滤推荐方法 | |
CN111914930A (zh) | 一种基于自适应微簇融合的密度峰值聚类方法 | |
CN108549729B (zh) | 基于覆盖约简的个性化用户协同过滤推荐方法 | |
CN108520087B (zh) | 一种机械结构异类多目标性能的稳健性度量与均衡优化设计方法 | |
CN116051924A (zh) | 一种图像对抗样本的分治防御方法 | |
CN111402205B (zh) | 一种基于多层感知机的乳腺肿瘤数据清洗方法 | |
CN112464098B (zh) | 基于相似性成对排名的推荐系统物品预测方法 | |
CN109241448B (zh) | 一种针对科技情报的个性化推荐方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |