CN113468229B

CN113468229B - 一种基于连续评分的推荐系统加权相似性度量方法

Info

Publication number: CN113468229B
Application number: CN202110804730.7A
Authority: CN
Inventors: 董云泉; 张壮壮
Original assignee: Nanjing University of Information Science and Technology
Current assignee: Nanjing University of Information Science and Technology
Priority date: 2021-07-16
Filing date: 2021-07-16
Publication date: 2023-04-25
Anticipated expiration: 2041-07-16
Also published as: CN113468229A

Abstract

本发明是一种基于连续评分的推荐系统加权相似性度量方法，通过获取物品对用户重要性程度和用户对物品喜爱程度，然后与评分加权获得用户相似度和物品相似度，具体步骤如下：步骤1，获取数据，形成对数据进行预处理，将其转换成M*N的矩阵R；步骤2，获取用于度量物品对用户的重要性的权重矩阵；步骤3，获取用于度量用户对物品的重要性权重矩阵；步骤4，将权重矩阵和权重矩阵通过相似度度量，获得用户和物品相似度。该方法根据用户对物品的喜爱程度不同和物品对用户的重要程度不同，区别对待用户和物品，将两种重要性权重应用于常见相似度度量上，以此获得更准确的相似度，从而提高推荐精度。

Description

一种基于连续评分的推荐系统加权相似性度量方法

技术领域

本发明涉及大数据和数据挖掘技术领域，具体的说是一种基于连续评分的推荐系统加权相似性度量方法。

背景技术

在基于邻域的协同过滤推荐方法中，用户(物品)之间相似性的度量是影响推荐性能的关键。在广泛使用的相似度量中，如余弦相似度，皮尔逊相关系数，欧氏距离倒数，Jaccard相似系数，用户和物品被平等对待。也就是说，每个相同评分的用户(物品)的使用和处理没有区别。然而，在日常生活中，我们经常观察到某个用户更喜欢某些物品，而有些用户对某项物品更加忠诚。

基于这种偏好，在实际评分数据中，评分经常是连续的，不同的分数本身就是一种权重，表示用户(物品)的偏好不同，然而用户许多评分往往是相同的，这使得推荐系统判断用户的兴趣爱好变得困难，在实际评分前加上一个权重系数，可将评分细化，可得到更准确的相似度。

发明内容

本发明要解决的技术问题是提供一种基于连续评分的推荐系统加权相似性度量方法，根据用户对物品的喜爱程度不同和物品对用户的重要程度不同，区别对待用户和物品，将两种重要性权重应用于常见相似度度量上，以此获得更准确的相似度，从而提高推荐精度。

为解决上述技术问题，本发明采用的技术方案为：

一种基于连续评分的推荐系统加权相似性度量方法，其特征在于：通过获取用户对物品喜爱程度和物品对用户重要性程度，然后加权获得用户相似度和物品相似度，具体步骤如下：

步骤1，获取数据，形成对数据进行预处理，将其转换成M×N的R矩阵；矩阵R中，第i行、第u列的元素r_iu表示用户u对物品i的评分；

步骤2，获取用于度量物品对用户的重要性的权重矩阵η；

步骤3，获取用于度量用户对物品的喜爱程度的权重矩阵ρ；

步骤4，将权重矩阵η和权重矩阵ρ分别与用户评分矩阵R加权，通过传统的相似度度量，分别获得用户加权相似度和物品加权相似度。

步骤1中首先获取不同用户对不同物品的评分数据，对原始数据进行预处理，原始数据预处理方式包括数据清洗，转化；具体为对数据中的异常值、缺失值进行删除或者填充，并将评分信息转化为用户对物品评分矩阵形式。

步骤2和步骤3中，权重矩阵η每列元素值为用户评分矩阵R对应位置除以该列和，权重矩阵ρ是每行元素为用户评分矩阵R对应位置除以该行和。

权重矩阵η用于度量不同物品对同一用户的重要性；权重越大表示物品对用户越重要，所有物品对同一用户的重要性权重之和为1。

M×N的权重矩阵η中η_i→u＝{η}_iu,0≤η_i→u≤1且

由定义可知，η_i→u越大，物品i对用户u越重要；可得到

η_i→u表示物品i对用户u的重要程度，I_u表示用户u的评价物品集合。

权重矩阵ρ来度量不同用户对同一物品的喜爱程度，权重越大表示用户越喜爱物品，所有用户对同一物品的喜爱权重之和为1。

M×N的权重矩阵ρ中ρ_u→i＝{ρ}_iu,0≤ρ_u→i≤1且

由定义可知，ρ_u→i越大，用户u对品i越喜欢；可得到

式中，ρ_u→i表示用户u对物品i的喜爱程度，U_i表示对物品i有过评价的用户集合。

步骤4中，相似度度量包括余弦相似度，皮尔逊相关系数，欧氏距离倒数，Jaccard相似系数。

该种基于连续评分的推荐系统加权相似性度量方法能够达到的有益效果为：连续评分下加权相似度度量方法考虑了用户对物品喜爱程度不同和物品对用户重要性程度不同，将其作用于常见相似度度量上，提高了相似度的准确性。该方法解决了不同的用户在原始数据生成阶段对物品评分标准不同导致的数据相关度低的问题，通过加权的方式统一评判标准，使得推荐系统判断用户的兴趣爱好更加精准。

附图说明

图1是本发明一种基于连续评分的推荐系统加权相似性度量方法的模型原理图。

图2是本发明一种基于连续评分的推荐系统加权相似性度量方法具体实施例中评分矩阵R示意图。

图3是本发明一种基于连续评分的推荐系统加权相似性度量方法具体实施例中物品对用户的重要性的权重矩阵η示意图。

图4是本发明一种基于连续评分的推荐系统加权相似性度量方法具体实施例中用户对物品的喜爱程度的权重矩阵ρ示意图。

具体实施方式

以下结合说明书附图和具体优选的实施例对本发明作进一步描述。

如图1所示，一种基于连续评分的推荐系统加权相似性度量方法，其特征在于：通过获取用户对物品喜爱程度和物品对用户重要性程度，然后加权获得用户相似度和物品相似度，具体步骤如下：

步骤2，获取用于度量物品对用户的重要性的权重矩阵η；

步骤3，获取用于度量用户对物品的喜爱程度的权重矩阵ρ；

本实施例中，步骤1中首先获取不同用户对不同物品的评分数据，对原始数据进行预处理，原始数据预处理方式包括数据清洗，转化；具体为对数据中的异常值、缺失值进行删除或者填充，并将评分信息转化为用户对物品评分矩阵形式。

本实施例中，权重矩阵η用于度量不同物品对同一用户的重要性；权重越大表示物品对用户越重要，所有物品对同一用户的重要性权重之和为1。

进一步的，M×N的权重矩阵η中η_i→u＝{η}_iu,0≤η_i→u≤1且

由定义可知，η_i→u越大，物品i对用户u越重要；可得到

本实施例中，权重矩阵ρ来度量不同用户对同一物品的喜爱程度，权重越大表示用户越喜爱物品，所有用户对同一物品的喜爱权重之和为1。

进一步的，M×N的权重矩阵ρ中ρ_u→i＝{ρ}_iu,0≤ρ_u→i≤1且

由定义可知，ρ_u→i越大，用户u对物品i越喜欢；可得到

式中，ρ_u→i表示用户u对物品i的重要程度，U_i表示对物品i有过评价的用户集合。

本实施例中，步骤4中，常用相似度度量包括余弦相似度，皮尔逊相关系数，欧氏距离倒数，Jaccard相似系数等。在计算用户相似度时，将权重矩阵η加权到用户评分矩阵R，计算物品相似度时，将权重矩阵ρ与评分矩阵R加权，以此获得更加细化准确的相似度。

以六个用户分别对六个物品的评价数据为例，对原始数据进行预处理，将对数据中的异常值删除，对缺失值填充为0，最后将评分信息转化为用户对物品评分矩阵形式，如图2所示。

分别对行和列归一化处理，即η矩阵每列元素值为用户评分矩阵R对应位置除以该列和，ρ矩阵是每行元素为用户评分矩阵R对应位置除以该行和，得到物品对用户重要程度矩阵η和用户对物品的重要程度矩阵ρ，如图3和图4所示。在图2、图3、图4中可以清晰的了解到，对于用户u₄，只对物品i₁感兴趣(评分为4)，于是物品i₁对用户u₄的重要程度

为1。相似地，对于物品i₄，只有用户u₂对其感兴趣，则用户u₂对物品的重要程度

为1。物品i对用户u的重要程度越高，对应位置的η_i→u取值越大，用户u对物品i的重要程度越高，对应位置的ρ_u→i取值越大。

最终，将权重矩阵η和权重矩阵ρ与评分矩阵R加权，使用常用的相似度度量方法，从而获得更加细化准确的用户相似度和物品相似度；

例如：通常余弦相似度可表示为两向量的夹角，以用户为例，用户u和v的余弦相似度可表示为

其中M表示物品数，r_iu表示用户u对物品i的评分，r_iv表示用户v对物品i的评分。

将物品对用户的重要性权重矩阵η与评分矩阵R加权，即权重系数η_i→u与评分r_iu加权，得到用户的加权余弦相似度：

以图2图3的评分矩阵R和权重矩阵η为例，用户u₁和u₂的余弦相似度

由公式(3)计算为0.8682，加权后的余弦相似度

由公式(4)计算为0.8718。权重系数η_i→u与评分r_iu加权，可实现对相似度计算的更加细粒度的处理。同理，对物品的加权余弦相似度也可通过类似方法处理。

对于欧氏距离倒数的相似度度量，以物品相似度为例，物品i和j的欧式距离倒数相似度可以表示为：

其中U_i表示对物品i评价过的用户集合，U_j表示对物品j评价过的用户集合，U_i∩U_j表示同时评价过物品i和物品j的用户集合。

将用户对物品的重要性权重矩阵ρ与评分矩阵R加权，即权重系数ρ_u→i与评分r_iu加权，得到物品i和j的加权的欧式距离倒数相似度：

以图2图3的评分矩阵R和权重矩阵ρ为例，物品i₂和i₃的欧式距离倒数相似度

由公式(5)计算为0.5，加权后的欧式距离倒数相似度

由公式(6)计算为0.6048。将权重系数ρ_u→i与评分r_iu加权，可实现对相似度计算的更加细粒度的处理。同理，对用户的加权欧式距离倒数相似度也可通过类似方法处理。

以上仅是本发明的优选实施方式，本发明的保护范围并不仅局限于上述实施例，凡属于本发明思路下的技术方案均属于本发明的保护范围。应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明原理前提下的若干改进和润饰，应视为本发明的保护范围。

Claims

1.一种基于连续评分的推荐系统加权相似性度量方法，其特征在于：通过获取用户对物品喜爱程度和物品对用户重要性程度，然后加权获得用户相似度和物品相似度，具体步骤如下：

步骤2，获取用于度量物品对用户的重要性的权重矩阵η；

步骤3，获取用于度量用户对物品的喜爱程度的权重矩阵ρ；

步骤4，将权重矩阵η和权重矩阵ρ分别与用户评分矩阵R加权，通过传统的相似度度量，分别获得用户加权相似度和物品加权相似度；

其中，步骤2和步骤3中，权重矩阵η每列元素值为用户评分矩阵R对应位置除以该列和，权重矩阵ρ是每行元素为用户评分矩阵R对应位置除以该行和；权重矩阵ρ来度量不同用户对同一物品的喜爱程度，权重越大表示用户越喜爱物品，所有用户对同一物品的喜爱权重之和为1；权重矩阵η用于度量不同物品对同一用户的重要性；权重越大表示物品对用户越重要，所有物品对同一用户的重要性权重之和为1；

M×N的权重矩阵η中η_i→u＝{η}_iu，0≤η_i→u≤1且

由定义可知，η_i→u越大，物品i对用户u越重要；得到

式中，η_i→u表示物品i对用户u的重要程度，I_u表示用户u的评价物品集合；

M×N的权重矩阵ρ中ρ_u→i＝{ρ}_iu，0≤ρ_u→i≤1且

由定义可知，ρ_u→i越大，用户u对物品i越喜欢；得到

2.如权利要求1所述的一种基于连续评分的推荐系统加权相似性度量方法，其特征在于：步骤1中首先获取不同用户对不同物品的评分数据，对原始数据进行预处理，原始数据预处理方式包括数据清洗，转化；具体为对数据中的异常值、缺失值进行删除或者填充，并将评分信息转化为用户对物品评分矩阵形式。

3.如权利要求1所述的一种基于连续评分的推荐系统加权相似性度量方法，其特征在于：步骤4中，传统的相似度度量包括余弦相似度，皮尔逊相关系数，欧氏距离倒数，Jaccard相似系数相似性度量。