CN113468229B - 一种基于连续评分的推荐系统加权相似性度量方法 - Google Patents

一种基于连续评分的推荐系统加权相似性度量方法 Download PDF

Info

Publication number
CN113468229B
CN113468229B CN202110804730.7A CN202110804730A CN113468229B CN 113468229 B CN113468229 B CN 113468229B CN 202110804730 A CN202110804730 A CN 202110804730A CN 113468229 B CN113468229 B CN 113468229B
Authority
CN
China
Prior art keywords
user
similarity
matrix
importance
weight matrix
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202110804730.7A
Other languages
English (en)
Other versions
CN113468229A (zh
Inventor
董云泉
张壮壮
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nanjing University of Information Science and Technology
Original Assignee
Nanjing University of Information Science and Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nanjing University of Information Science and Technology filed Critical Nanjing University of Information Science and Technology
Priority to CN202110804730.7A priority Critical patent/CN113468229B/zh
Publication of CN113468229A publication Critical patent/CN113468229A/zh
Application granted granted Critical
Publication of CN113468229B publication Critical patent/CN113468229B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2457Query processing with adaptation to user needs
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明是一种基于连续评分的推荐系统加权相似性度量方法,通过获取物品对用户重要性程度和用户对物品喜爱程度,然后与评分加权获得用户相似度和物品相似度,具体步骤如下:步骤1,获取数据,形成对数据进行预处理,将其转换成M*N的矩阵R;步骤2,获取用于度量物品对用户的重要性的权重矩阵;步骤3,获取用于度量用户对物品的重要性权重矩阵;步骤4,将权重矩阵和权重矩阵通过相似度度量,获得用户和物品相似度。该方法根据用户对物品的喜爱程度不同和物品对用户的重要程度不同,区别对待用户和物品,将两种重要性权重应用于常见相似度度量上,以此获得更准确的相似度,从而提高推荐精度。

Description

一种基于连续评分的推荐系统加权相似性度量方法
技术领域
本发明涉及大数据和数据挖掘技术领域,具体的说是一种基于连续评分的推荐系统加权相似性度量方法。
背景技术
在基于邻域的协同过滤推荐方法中,用户(物品)之间相似性的度量是影响推荐性能的关键。在广泛使用的相似度量中,如余弦相似度,皮尔逊相关系数,欧氏距离倒数,Jaccard相似系数,用户和物品被平等对待。也就是说,每个相同评分的用户(物品)的使用和处理没有区别。然而,在日常生活中,我们经常观察到某个用户更喜欢某些物品,而有些用户对某项物品更加忠诚。
基于这种偏好,在实际评分数据中,评分经常是连续的,不同的分数本身就是一种权重,表示用户(物品)的偏好不同,然而用户许多评分往往是相同的,这使得推荐系统判断用户的兴趣爱好变得困难,在实际评分前加上一个权重系数,可将评分细化,可得到更准确的相似度。
发明内容
本发明要解决的技术问题是提供一种基于连续评分的推荐系统加权相似性度量方法,根据用户对物品的喜爱程度不同和物品对用户的重要程度不同,区别对待用户和物品,将两种重要性权重应用于常见相似度度量上,以此获得更准确的相似度,从而提高推荐精度。
为解决上述技术问题,本发明采用的技术方案为:
一种基于连续评分的推荐系统加权相似性度量方法,其特征在于:通过获取用户对物品喜爱程度和物品对用户重要性程度,然后加权获得用户相似度和物品相似度,具体步骤如下:
步骤1,获取数据,形成对数据进行预处理,将其转换成M×N的R矩阵;矩阵R中,第i行、第u列的元素riu表示用户u对物品i的评分;
步骤2,获取用于度量物品对用户的重要性的权重矩阵η;
步骤3,获取用于度量用户对物品的喜爱程度的权重矩阵ρ;
步骤4,将权重矩阵η和权重矩阵ρ分别与用户评分矩阵R加权,通过传统的相似度度量,分别获得用户加权相似度和物品加权相似度。
步骤1中首先获取不同用户对不同物品的评分数据,对原始数据进行预处理,原始数据预处理方式包括数据清洗,转化;具体为对数据中的异常值、缺失值进行删除或者填充,并将评分信息转化为用户对物品评分矩阵形式。
步骤2和步骤3中,权重矩阵η每列元素值为用户评分矩阵R对应位置除以该列和,权重矩阵ρ是每行元素为用户评分矩阵R对应位置除以该行和。
权重矩阵η用于度量不同物品对同一用户的重要性;权重越大表示物品对用户越重要,所有物品对同一用户的重要性权重之和为1。
M×N的权重矩阵η中ηi→u={η}iu,0≤ηi→u≤1且
Figure BDA0003165934970000021
由定义可知,ηi→u越大,物品i对用户u越重要;可得到
Figure BDA0003165934970000022
ηi→u表示物品i对用户u的重要程度,Iu表示用户u的评价物品集合。
权重矩阵ρ来度量不同用户对同一物品的喜爱程度,权重越大表示用户越喜爱物品,所有用户对同一物品的喜爱权重之和为1。
M×N的权重矩阵ρ中ρu→i={ρ}iu,0≤ρu→i≤1且
Figure BDA0003165934970000023
由定义可知,ρu→i越大,用户u对品i越喜欢;可得到
Figure BDA0003165934970000024
式中,ρu→i表示用户u对物品i的喜爱程度,Ui表示对物品i有过评价的用户集合。
步骤4中,相似度度量包括余弦相似度,皮尔逊相关系数,欧氏距离倒数,Jaccard相似系数。
该种基于连续评分的推荐系统加权相似性度量方法能够达到的有益效果为:连续评分下加权相似度度量方法考虑了用户对物品喜爱程度不同和物品对用户重要性程度不同,将其作用于常见相似度度量上,提高了相似度的准确性。该方法解决了不同的用户在原始数据生成阶段对物品评分标准不同导致的数据相关度低的问题,通过加权的方式统一评判标准,使得推荐系统判断用户的兴趣爱好更加精准。
附图说明
图1是本发明一种基于连续评分的推荐系统加权相似性度量方法的模型原理图。
图2是本发明一种基于连续评分的推荐系统加权相似性度量方法具体实施例中评分矩阵R示意图。
图3是本发明一种基于连续评分的推荐系统加权相似性度量方法具体实施例中物品对用户的重要性的权重矩阵η示意图。
图4是本发明一种基于连续评分的推荐系统加权相似性度量方法具体实施例中用户对物品的喜爱程度的权重矩阵ρ示意图。
具体实施方式
以下结合说明书附图和具体优选的实施例对本发明作进一步描述。
如图1所示,一种基于连续评分的推荐系统加权相似性度量方法,其特征在于:通过获取用户对物品喜爱程度和物品对用户重要性程度,然后加权获得用户相似度和物品相似度,具体步骤如下:
步骤1,获取数据,形成对数据进行预处理,将其转换成M×N的R矩阵;矩阵R中,第i行、第u列的元素riu表示用户u对物品i的评分;
步骤2,获取用于度量物品对用户的重要性的权重矩阵η;
步骤3,获取用于度量用户对物品的喜爱程度的权重矩阵ρ;
步骤4,将权重矩阵η和权重矩阵ρ分别与用户评分矩阵R加权,通过传统的相似度度量,分别获得用户加权相似度和物品加权相似度。
本实施例中,步骤1中首先获取不同用户对不同物品的评分数据,对原始数据进行预处理,原始数据预处理方式包括数据清洗,转化;具体为对数据中的异常值、缺失值进行删除或者填充,并将评分信息转化为用户对物品评分矩阵形式。
本实施例中,权重矩阵η用于度量不同物品对同一用户的重要性;权重越大表示物品对用户越重要,所有物品对同一用户的重要性权重之和为1。
进一步的,M×N的权重矩阵η中ηi→u={η}iu,0≤ηi→u≤1且
Figure BDA0003165934970000031
由定义可知,ηi→u越大,物品i对用户u越重要;可得到
Figure BDA0003165934970000032
ηi→u表示物品i对用户u的重要程度,Iu表示用户u的评价物品集合。
本实施例中,权重矩阵ρ来度量不同用户对同一物品的喜爱程度,权重越大表示用户越喜爱物品,所有用户对同一物品的喜爱权重之和为1。
进一步的,M×N的权重矩阵ρ中ρu→i={ρ}iu,0≤ρu→i≤1且
Figure BDA0003165934970000041
由定义可知,ρu→i越大,用户u对物品i越喜欢;可得到
Figure BDA0003165934970000042
式中,ρu→i表示用户u对物品i的重要程度,Ui表示对物品i有过评价的用户集合。
本实施例中,步骤4中,常用相似度度量包括余弦相似度,皮尔逊相关系数,欧氏距离倒数,Jaccard相似系数等。在计算用户相似度时,将权重矩阵η加权到用户评分矩阵R,计算物品相似度时,将权重矩阵ρ与评分矩阵R加权,以此获得更加细化准确的相似度。
以六个用户分别对六个物品的评价数据为例,对原始数据进行预处理,将对数据中的异常值删除,对缺失值填充为0,最后将评分信息转化为用户对物品评分矩阵形式,如图2所示。
分别对行和列归一化处理,即η矩阵每列元素值为用户评分矩阵R对应位置除以该列和,ρ矩阵是每行元素为用户评分矩阵R对应位置除以该行和,得到物品对用户重要程度矩阵η和用户对物品的重要程度矩阵ρ,如图3和图4所示。在图2、图3、图4中可以清晰的了解到,对于用户u4,只对物品i1感兴趣(评分为4),于是物品i1对用户u4的重要程度
Figure BDA0003165934970000044
为1。相似地,对于物品i4,只有用户u2对其感兴趣,则用户u2对物品的重要程度
Figure BDA0003165934970000045
为1。物品i对用户u的重要程度越高,对应位置的ηi→u取值越大,用户u对物品i的重要程度越高,对应位置的ρu→i取值越大。
最终,将权重矩阵η和权重矩阵ρ与评分矩阵R加权,使用常用的相似度度量方法,从而获得更加细化准确的用户相似度和物品相似度;
例如:通常余弦相似度可表示为两向量的夹角,以用户为例,用户u和v的余弦相似度可表示为
Figure BDA0003165934970000043
其中M表示物品数,riu表示用户u对物品i的评分,riv表示用户v对物品i的评分。
将物品对用户的重要性权重矩阵η与评分矩阵R加权,即权重系数ηi→u与评分riu加权,得到用户的加权余弦相似度:
Figure BDA0003165934970000051
以图2图3的评分矩阵R和权重矩阵η为例,用户u1和u2的余弦相似度
Figure BDA0003165934970000054
由公式(3)计算为0.8682,加权后的余弦相似度
Figure BDA0003165934970000055
由公式(4)计算为0.8718。权重系数ηi→u与评分riu加权,可实现对相似度计算的更加细粒度的处理。同理,对物品的加权余弦相似度也可通过类似方法处理。
对于欧氏距离倒数的相似度度量,以物品相似度为例,物品i和j的欧式距离倒数相似度可以表示为:
Figure BDA0003165934970000052
其中Ui表示对物品i评价过的用户集合,Uj表示对物品j评价过的用户集合,Ui∩Uj表示同时评价过物品i和物品j的用户集合。
将用户对物品的重要性权重矩阵ρ与评分矩阵R加权,即权重系数ρu→i与评分riu加权,得到物品i和j的加权的欧式距离倒数相似度:
Figure BDA0003165934970000053
以图2图3的评分矩阵R和权重矩阵ρ为例,物品i2和i3的欧式距离倒数相似度
Figure BDA0003165934970000056
由公式(5)计算为0.5,加权后的欧式距离倒数相似度
Figure BDA0003165934970000057
由公式(6)计算为0.6048。将权重系数ρu→i与评分riu加权,可实现对相似度计算的更加细粒度的处理。同理,对用户的加权欧式距离倒数相似度也可通过类似方法处理。
以上仅是本发明的优选实施方式,本发明的保护范围并不仅局限于上述实施例,凡属于本发明思路下的技术方案均属于本发明的保护范围。应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理前提下的若干改进和润饰,应视为本发明的保护范围。

Claims (3)

1.一种基于连续评分的推荐系统加权相似性度量方法,其特征在于:通过获取用户对物品喜爱程度和物品对用户重要性程度,然后加权获得用户相似度和物品相似度,具体步骤如下:
步骤1,获取数据,形成对数据进行预处理,将其转换成M×N的R矩阵;矩阵R中,第i行、第u列的元素riu表示用户u对物品i的评分;
步骤2,获取用于度量物品对用户的重要性的权重矩阵η;
步骤3,获取用于度量用户对物品的喜爱程度的权重矩阵ρ;
步骤4,将权重矩阵η和权重矩阵ρ分别与用户评分矩阵R加权,通过传统的相似度度量,分别获得用户加权相似度和物品加权相似度;
其中,步骤2和步骤3中,权重矩阵η每列元素值为用户评分矩阵R对应位置除以该列和,权重矩阵ρ是每行元素为用户评分矩阵R对应位置除以该行和;权重矩阵ρ来度量不同用户对同一物品的喜爱程度,权重越大表示用户越喜爱物品,所有用户对同一物品的喜爱权重之和为1;权重矩阵η用于度量不同物品对同一用户的重要性;权重越大表示物品对用户越重要,所有物品对同一用户的重要性权重之和为1;
M×N的权重矩阵η中ηi→u={η}iu,0≤ηi→u≤1且
Figure FDA0004135870520000011
由定义可知,ηi→u越大,物品i对用户u越重要;得到
Figure FDA0004135870520000012
式中,ηi→u表示物品i对用户u的重要程度,Iu表示用户u的评价物品集合;
M×N的权重矩阵ρ中ρu→i={ρ}iu,0≤ρu→i≤1且
Figure FDA0004135870520000013
由定义可知,ρu→i越大,用户u对物品i越喜欢;得到
Figure FDA0004135870520000014
式中,ρu→i表示用户u对物品i的喜爱程度,Ui表示对物品i有过评价的用户集合。
2.如权利要求1所述的一种基于连续评分的推荐系统加权相似性度量方法,其特征在于:步骤1中首先获取不同用户对不同物品的评分数据,对原始数据进行预处理,原始数据预处理方式包括数据清洗,转化;具体为对数据中的异常值、缺失值进行删除或者填充,并将评分信息转化为用户对物品评分矩阵形式。
3.如权利要求1所述的一种基于连续评分的推荐系统加权相似性度量方法,其特征在于:步骤4中,传统的相似度度量包括余弦相似度,皮尔逊相关系数,欧氏距离倒数,Jaccard相似系数相似性度量。
CN202110804730.7A 2021-07-16 2021-07-16 一种基于连续评分的推荐系统加权相似性度量方法 Active CN113468229B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110804730.7A CN113468229B (zh) 2021-07-16 2021-07-16 一种基于连续评分的推荐系统加权相似性度量方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110804730.7A CN113468229B (zh) 2021-07-16 2021-07-16 一种基于连续评分的推荐系统加权相似性度量方法

Publications (2)

Publication Number Publication Date
CN113468229A CN113468229A (zh) 2021-10-01
CN113468229B true CN113468229B (zh) 2023-04-25

Family

ID=77880631

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110804730.7A Active CN113468229B (zh) 2021-07-16 2021-07-16 一种基于连续评分的推荐系统加权相似性度量方法

Country Status (1)

Country Link
CN (1) CN113468229B (zh)

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103390032A (zh) * 2013-07-04 2013-11-13 上海交通大学 基于关系型协同话题回归的推荐系统及方法
CN105893609A (zh) * 2016-04-26 2016-08-24 南通大学 一种基于加权混合的移动app推荐方法
CN107329994A (zh) * 2017-06-08 2017-11-07 天津大学 一种基于用户特征的改进协同过滤推荐方法
CN110245299A (zh) * 2019-06-19 2019-09-17 中国人民解放军国防科技大学 一种基于动态交互注意力机制的序列推荐方法及其系统
CN111783963A (zh) * 2020-07-24 2020-10-16 中国人民解放军国防科技大学 一种基于星图神经网络的推荐方法

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10932003B2 (en) * 2015-01-27 2021-02-23 The Toronto-Dominion Bank Method and system for making recommendations from binary data using neighbor-score matrix and latent factors
US11551280B2 (en) * 2018-11-01 2023-01-10 Netflix, Inc. Method, manufacture, and system for recommending items to users

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103390032A (zh) * 2013-07-04 2013-11-13 上海交通大学 基于关系型协同话题回归的推荐系统及方法
CN105893609A (zh) * 2016-04-26 2016-08-24 南通大学 一种基于加权混合的移动app推荐方法
CN107329994A (zh) * 2017-06-08 2017-11-07 天津大学 一种基于用户特征的改进协同过滤推荐方法
CN110245299A (zh) * 2019-06-19 2019-09-17 中国人民解放军国防科技大学 一种基于动态交互注意力机制的序列推荐方法及其系统
CN111783963A (zh) * 2020-07-24 2020-10-16 中国人民解放军国防科技大学 一种基于星图神经网络的推荐方法

Non-Patent Citations (5)

* Cited by examiner, † Cited by third party
Title
Chen Hang 等.Improve tagging recommender system based on tags semantic similarity.《2011 IEEE 3rd International Conference on Communication Software and Networks》.2011,94-98. *
Haitao Wu 等.Collaborative filtering recommendation based on conditional probability and weight adjusting.《International Journal of Computational Science and Engineering》.2015,第10卷164-170. *
Zhuangzhuang Zhang 等.Weighted Similarity and Core-User-Core-Item Based Recommendations.《Entropy》.2022,第24卷(第6期),1-28. *
孔欣欣 等.基于标签权重评分的推荐模型及算法研究.《计算机学报》.2015,第40卷(第06期),1440-1452. *
赵伟明.基于用户行为分析和混合推荐策略的个性化推荐方法研究.《中国优秀硕士学位论文全文数据库 信息科技辑》.2015,(第03(2015)期),I138-2800. *

Also Published As

Publication number Publication date
CN113468229A (zh) 2021-10-01

Similar Documents

Publication Publication Date Title
US7818290B2 (en) System to associate a demographic to a user of an electronic system
US7437308B2 (en) Methods for estimating the seasonality of groups of similar items of commerce data sets based on historical sales date values and associated error information
CN108615177B (zh) 基于加权提取兴趣度的电子终端个性化推荐方法
CN103262118A (zh) 属性值估计装置、属性值估计方法、程序和记录介质
CN116541607B (zh) 基于商品检索数据分析的智能推荐方法
CN113065062A (zh) 一种基于用户阅读时间行为的新闻推荐方法及系统
CN111967717A (zh) 一种基于信息熵值的数据质量评价方法
CN115309998A (zh) 一种基于大数据的就业推荐方法及系统
CN108491719A (zh) 一种改进朴素贝叶斯算法的安卓恶意程序检测方法
CN111898637A (zh) 一种基于ReliefF-DDC特征选择算法
CN113468229B (zh) 一种基于连续评分的推荐系统加权相似性度量方法
CN117952726A (zh) 一种基于运营商数据分析的个性化权益包推荐系统
CN116842330B (zh) 一种可对比历史记录的保健信息处理方法及装置
CN111612531B (zh) 一种点击欺诈的检测方法及系统
CN106096029B (zh) 一种基于用户双向关系的推荐方法
CN116881799A (zh) 一种卷烟生产数据分类方法
CN116739654A (zh) 一种信息采集装置及系统
CN116383645A (zh) 一种基于异常检测的系统健康度智能监测评估方法
JP3956581B2 (ja) 事例の類似性に基づいた推論システム
CN110096708A (zh) 一种定标集确定方法及装置
CN108052652A (zh) 基于综合相关系数的犹豫模糊集关联方法
CN108335147B (zh) 一种基于用户行为的数据分析方法及系统
CN112381112A (zh) 基于用户数据的多模项集的用户身份识别方法及系统
CN111597934A (zh) 用于为统计应用处理训练数据的系统和方法
CN115905887B (zh) 基于数据处理的大数据智能决策系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant