CN106844433A

CN106844433A - 基于用户数量调整系数的推荐方法

Info

Publication number: CN106844433A
Application number: CN201611152463.5A
Authority: CN
Inventors: 尹云飞; 严宽; 曾亚飞
Original assignee: Chongqing University; Langchao Electronic Information Industry Co Ltd
Current assignee: Chongqing University; Inspur Electronic Information Industry Co Ltd
Priority date: 2016-11-30
Filing date: 2016-11-30
Publication date: 2017-06-13

Abstract

本发明公开了基于用户数量调整系数的推荐方法，属于智能推荐领域，来源于智能搜索系统的构建和使用实践。该方法对基于Item的推荐进行改进，通过对Item之间的相似度计算以及用户的喜好模型的建立，提出了一种用户数量自适应的推荐方法。它的特点是可以针对用户数量来动态调整Item之间的相似度。

Description

基于用户数量调整系数的推荐方法

技术领域

本发明属于智能推荐领域，来源于用户特性与行为分析的智能搜索系统的构建和使用实践。本发明既可以用于改进智能搜索引擎又可以用于商业产品和服务的促销分析。

背景技术

信息时代显著的特点是产生的数据规模不断上升，如何在这些海量数据中找出用户最感兴趣的信息并展示在用户面前成了当今比较热门的技术。在海量数据中，如果用户不能很确切的用关键字描述出自己的需求，则很难筛选和检索出自己真正感兴趣的信息。正是在这种需求背景下，智能推荐系统就应运而生了。智能推荐系统不仅仅能快速准确地找到用户需要的信息，而且还能找出信息与用户之间的某种潜在联系。

在智能推荐领域中，目前常用的推荐方法有三种：

(1)基于内容的推荐

基于内容的推荐主要是在信息过滤发展的基础上对文本进行自然语言处理，实现对文本的挖掘。它不需要根据用户的评价意见来实现推荐，一般是通过对文本分析找出内容的关键字并根据关键字计算出文章的相似度矩阵，只要知道用户喜欢什么就能很快地推荐出与用户相关的内容。

基于内容的推荐存在以下优点：它不需要得到用户的其他数据，比如评价信息、打分信息，就能对用户进行相关推荐；它可以推荐出那些没有被用户评价过的新项目；针对用户特征明显的用户能进行一个比较好的推荐。

(2)基于用户的推荐

基于用户的推荐采用最近邻技术，通过对用户历史的评价信息计算出用户与用户之间的相似程度，利用与目标用户相似程度最大的邻居用户对Item(指商品或服务，下同)的评价来得出目标用户对该Item的预测打分。它的基本思想就是找到与目标用户相似的用户，通过选出相似用户喜欢的Item推荐给目标用户，但由于用户信息往往是不断增长、数据量较大的，所以必须较为频繁地计算用户与用户的相似矩阵，这样的计算量是非常大的。

基于用户的推荐存在以下优点：它可以推荐出文本内容较为复杂、不容易做文本分析的Item；它可以更为精准的向用户推荐相关信息；它的处理方式较为简单，不需要做非常复杂的文本处理和分析。

(3)基于Item的推荐

基于Item的推荐是计算Item与Item之间的相似矩阵，选择相似的Item进行推荐。由于Item的增长速度远远不如用户的增长速度，Item之间相似矩阵的计算量也远远低于用户之间相似矩阵的计算量，所以Item之间的相似矩阵可以通过离线的方式进行计算以提供给线上服务接近实时的推荐。

基于Item的推荐存在以下优点：它可以通过用户对Item的评价信息计算出Item与Item之间的相似矩阵，可以有效的推荐出与用户潜在相关的Item；相似度的计算量大大减小。

通过对各种推荐方法的调研，发现当前大部分的推荐方法都有改进的空间，尤其是基于Item的推荐忽略了用户数量不断增长的事实造成了在实际应用中不理想的现象。我们发明一种基于用户数量调整系数的推荐方法，在实际推荐时，提高了推荐的准确度。

发明内容

本发明公开了一种基于用户数量调整系数的推荐方法。本发明对基于Item的推荐进行改进，通过对Item之间的相似度计算以及用户的喜好模型的建立，提出了一种用户数量自适应的推荐方法。它的特点是可以针对用户数量来动态调整Item之间的相似度计算。

下面具体设计这种基于用户数量调整系数的推荐方法：

(1)用户数量调整系数

针对用户u同时对m、n两个Item评过分的用户集合大小和总的用户集合大小是随机变换的，引进用户数量调整系数α：

其中u∈m，n表示同时对m、n两个Item评过分的用户集合；u∈m表示只对m这个Item评过分的用户集合；u∈n表示只对n这个Item评过分的用户集合。

(2)相似度的计算

对于相似度的计算，如果距离越小表明相似度越小，距离越大表明相似度越大。在基于Item的推荐方法中，我们通过计算Item与Item之间的向量距离来表明Item与Item的相似度。

(3)欧几里德距离(Educlidean Distance)

欧几里德距离也称为欧式距离，其计算公式如下：

当用欧几里德距离表示相似度时，其公式为：

(4)皮尔逊相关系数(Pearson Correlation Similarity)

皮尔森相关系数也称为皮尔逊积矩相关系数，它主要用于衡量两个变量间的线性相关度的强弱。它的取值在[-1，+1]之间，若取值大于0则表明两个变量是正相关的，即一个变量的值随着另一个变量的值的增大而增大；若取值小于0则表明两个变量是负相关的，即一个变量的值随着另一个变量的值的增大而减小。皮尔逊相关系数的计算公式如下：

其中，n表示了X、Y集合的大小；x_i表示数据集X中的第i个点；y_i表示数据集Y中的第i个点。

(5)Cosine相似度

Cosine相似度又称为余弦函数，它的计算公式如下：

其中，A和B表示两个向量。

一种基于用户数量调整系数的推荐方法包括如下步骤：

第一步：在用户评论数据中找到了用户进行评论过的Item以及还没有评论过的Item，前者主要用于对没有评论过的Item进行推荐训练，后者作为一个产生推荐的集合；

第二步：对数据进行清洗过滤、针对用户属性进行属性约减，使得后面的推荐计算更加高效、准确；

第三步：根据用户的评论数据，计算出关系矩阵，通过计算两个Item间的共同用户以及共同用户的评价的接近度，来实现关系数据的计算；

第四步：计算Item之间的相似度sim(m，n)，相似度的计算方式为：

其中u∈m，n表示同时对m、n两个Item评过分的用户集合；u∈m表示只对m这个Item评过分的用户集合；u∈n表示只对n这个Item评过分的用户集合；R_u，m表示用户u对m这个Item的评分；R_u，n表示用户u对n这个Item的评分；表示对n的平均得分，表示对m的平均得分；

第五步：计算用户数量调整系数α。

第六步：计算动态相似度α*sim(m，n)。

第七步：计算用户userId_i对itemId_i的预测评分，计算公式如下：

其中rate(u，m)表示用户u对m的预测评分；表示商品m的所有评分的平均评分；n∈N_u表示用户u评过分的商品中，与商品m相似度最高的前topN个Item的集合；sim(m，n)′表示商品m和商品n的动态相似度；R_u，n表示用户u对商品n的评分；

第八步：按照预测评分从大到小进行排序，选取前topN个作为推荐Item。

附图说明

以下参考附图是对本发明的结构和工作流程进行说明，其中：

图1是基于用户数量调整系数的推荐方法的流程图

具体实施方式

下面结合附图来对本发明所述的“基于用户数量调整系数的推荐方法”的实施方式作进一步的说明。

(1)读入训练数据到userData、itemData

训练数据包括userId、itemId和rate。每个用户对所有Item的评分情况保存在userCollect中，userData记录了所有用户对所有Item的评分情况；每个用户对所有Item评分的平均值保存在userCollectAvg中；每个Item被所有用户评分的情况保存在itemCollect中；itemData记录了每个Item被所有用户评分的情况；每个Item被所有用户评分的平均值保存在itemCollectAvg中。

(2)读入预测数据到predictData

预测数据包括userId，itemId，realRate，其中realRate用于与预测值做对比。

(3)设置系统参数

系统参数包括用户评价过的Item与目标Item相似度最高的前topN个，例如topN＝30；默认用户对item的评分default_m，例如default_m＝3；最终选出的最高预测得分的Item数目sug_num，例如sug_num＝5。

(4)预测用户对predictData中的每个itemId的评分

对于每一个predictData中每一个sug_num、itemId_i、realRate_i，

如果itemData中是否不包含itemId_i的评分，即没有用户对itemId_i评分且userData中不包含userId_i的评分，即userId_i没有对任何Item评分，那么此时的评分为default_m；

否则，若itemData中不包含对itemId_i的评分，即没有用户对itemId_i评分且userData中包含userId_i的评分，即userId_i对某些Item评分，但不包含对itemId_i的评分，那么此时的评分取userCollectAvg_i，即对itemId_i的预测的评分为userId_i做过所有评分的平均值；

否则，如果itemData中包含了对itemId_i的评分，即有用户对itemId_i评分且userId_i对itemId_i有评分，则此时的评分为该用户对该itemId_i的评分；

否则计算Item之间的相似度sim(m，n)，即：

其中u∈m，n表示同时对m、n两个Item评过分的用户集合；u∈m表示只对m这个Item评过分的用户集合；u∈n表示只对n这个Item评过分的用户集合；R_u，m表示用户u对m这个Item的评分；R_u，n表示用户u对n这个Item的评分；表示商品n的平均得分；表示商品m的平均得分

由于用户u同时对m、n两个Item评过分的用户集合大小和总的用户集合大小是随机变化的，通过用户系数调整因子α来反映这种变化：

计算新的相似度：

计算用户userId_i对itemId_i的预测评分，计算公式如下：

其中rate(u，m)表示用户u对m的预测评分；表示商品m的所有评分的平均评分；n∈N_u表示用户u评过分的商品中，与商品m相似度最高的前topN个Item的集合；sim(m，n)表示商品m和商品n的相似度；R_u，n表示用户u对商品n的评分；

(5)得到rate最高的前topN个Item，推荐给用户。

Claims

1.基于用户数量调整系数的推荐方法，改进了基于Item的推荐方法，增加了用户数量调整系数[1]，提出用户集合动态变化的相似度计算方法[2]。

2.根据权利要求1所述的基于用户数量调整系数的推荐方法，其特征在于：增加了用户数量调整系数[1]，用户调整系数α计算方法如下：

α = \frac{| u &Element; m, n |}{| u &Element; m \cup u &Element; n |}

其中，u∈m，n表示同时对m、n两个Item评过分的用户集合；u∈m表示只对m这个Item评过分的用户集合；u∈n表示只对n这个Item评过分的用户集合。

3.根据权利要求1所述的基于用户数量调整系数的推荐方法，其特征在于：用户集合动态变化的相似度计算方法[2]为：

s i m (m, n) = α \times \frac{\underset{u &Element; m, n}{Σ} (R_{u, m} - \overset{&OverBar;}{R_{m}}) (R_{u, n} - \overset{&OverBar;}{R_{n}})}{\sqrt{\underset{u &Element; m, n}{Σ} {(R_{u, m} - \overset{&OverBar;}{R_{m}})}^{2} \sqrt{\underset{u &Element; m, n}{Σ} {(R_{u, n} - \overset{&OverBar;}{R_{n}})}^{2}}}}

其中，α为用户调整系数；u∈m，n表示同时对m、n两个Item评过分的用户集合；u∈m表示只对m这个Item评过分的用户集合；u∈n表示只对n这个Item评过分的用户集合；R_u，m表示用户u对m这个Item的评分；R_u，n表示用户u对n这个Item的评分；表示n这个Item的平均得分；表示m这个Item的平均得分。