CN111046280A

CN111046280A - 一种应用fm的跨领域推荐方法

Info

Publication number: CN111046280A
Application number: CN201911214266.5A
Authority: CN
Inventors: 曲立平; 曹鹤
Original assignee: Harbin Engineering University
Current assignee: Harbin Engineering University
Priority date: 2019-12-02
Filing date: 2019-12-02
Publication date: 2020-04-21
Anticipated expiration: 2039-12-02
Also published as: CN111046280B

Abstract

本发明提供的是一种应用FM的跨领域推荐方法。输入用户‑项目‑评分数据，包括n个不同的领域的数据集；给定目标域中的特征向量；利用皮尔逊相关系数计算辅助域与目标域内用户的评分行为的相关度，作为目标域用户在辅助域内的协作信息；对目标域特征向量进行扩展；将目标域的特征向量转换为LibSVM这一FM模型要求的数据输入格式；通过Adagrad算法对FM模型进行学习。本发明与传统单一领域推荐算法相比，可以很好地解决数据稀疏的问题，同时在一定程度上可以缓解用户冷启动的问题；与传统FM模型相比，将FM应用到跨领域推荐中，首次考虑到了跨域推荐中领域之间的相关程度对于FM输入向量的影响，获得了较高的预测精度。

Description

一种应用FM的跨领域推荐方法

技术领域

本发明涉及的是一种个性化推荐方法，是一种跨领域推荐研究以及Factorization Machine(FM)模型的研究。

背景技术

在过去十几年间，电子商务、社交网络等应用飞速发展，数据量呈指数增长，我们迎来了真正意义上的大数据时代，但与此同时信息过载问题也更加突出。个性化推荐系统的诞生成为解决信息过载问题的有效方法之一。推荐是指通过分析和挖掘用户与项目之间的二元关系及相关属性，帮助用户从海量数据中发现其感兴趣的物品，从而生成个性化推荐列表。传统的推荐系统都是基于单一领域的，例如：Netflix推荐电影和电视节目，Last.fm推荐歌曲和音乐专辑。但是，随着数据量的迅速增加和数据领域的不断扩充，例如，像Amazon.com这样的大型电子商务网站需要经常存储来自多个域的用户反馈，新用户、新项目带来的冷启动问题和数据稀疏问题在单一领域推荐中逐渐凸显出来。跨域推荐的提出，旨在整合多个不同领域内的信息来弥补单一领域推荐的新用户或是新项目带来的冷启动问题以及数据过于稀疏的问题，从而得到相比于单一领域更精准的推荐效果。因此，跨域推荐的主要目的是通过利用来自辅助域的信息来提高目标域中的推荐准确率。

因子分解机(Factorization Machine，FM)由于能够有效地解决高维数据的特征组合和数据高度稀疏性问题，并且具有较高的预测准确度和线性的计算复杂度而在推荐系统和广告点击率预测方面得到了广泛的研究和应用。FM模型是一个将用户-项目数据分解为实值特征向量的通用模型，诸如传统推荐算法中最为常见的协同过滤算法中的矩阵分解模型等大都可以被建模为FM。Loni等首次将辅助域信息编码为实值特征向量，应用到FM模型中实现模型在跨域推荐中性能的提升。而后，又有研究将FM模型应用到耦合数据集上来实现跨域推荐，通过对模型的完善来更好地捕获耦合数据集之间的差异性，获得了较单一领域应用FM模型更好的推荐效果。

从推荐算法及FM模型的拓展研究工作可知，传统的单一领域推荐算法仍存在较大的限制，尤其是冷启动问题以及数据稀疏的问题。跨领域推荐的优势恰恰体现在能够解决单领域推荐中的冷启动问题，并缓解数据稀疏的问题。而FM模型虽然已经证明能够较好的解决数据稀疏问题，但将其应用于跨领域推荐中仍然存在一定的限制，如直接将辅助域的信息编码为实值特征向量，尽管可以实现通过辅助域的信息来对目标域进行补充的目标，但也同时导致特征向量十分庞大，并且扩充的辅助域信息的权重相同，没能体现出辅助域与目标域之间的相关程度。

发明内容

本发明的目的在于提供一种能够提升推荐准确率的应用FM的跨领域推荐方法。

本发明的目的是这样实现的：

步骤一：输入用户-项目-评分数据，包括n个不同的领域的数据集；

步骤二：给定目标域中的特征向量；

步骤三：利用皮尔逊相关系数计算辅助域与目标域内用户的评分行为的相关度，即领域相关度，作为目标域用户在辅助域内的协作信息；

步骤四：对目标域特征向量进行扩展；

步骤五：将目标域的特征向量转换为LibSVM这一FM模型要求的数据输入格式；

步骤六：通过Adagrad算法对FM模型进行学习。

本发明还可以包括：

1.步骤一中所述的评分数据是根据项目的不同对领域进行划分得到的跨领域用户评分数据。

2.步骤三中，相关度的计算公式为：

其中，x表示用户u在目标领域D₀中的评分向量，y表示用户u在辅助领域D_j中的评分向量，

表示用户在目标域内的平均评分，

表示用户在辅助领域内的平均评分，ρ(D₀,D_j)通过皮尔逊相关系数计算用户在目标域与辅助域内的相关系数。

3.步骤四中，所述的对目标域特征向量进行扩展是将领域相关度与用户在该辅助域内的平均评分的乘积作为目标域向量的拓展部分。

本发明针对现有技术的局限性，提出了一种应用FM的跨领域推荐方法。本发明首次对领域相关度进行定义，并将其结果与平均评分的乘积编码成实值特征向量，实现对FM模型的输入特征向量的扩展，从而实现推荐准确率的提升。

本发明与现有技术相比，具有如下优点和有益效果：

(1)本发明较好地利用了FM模型可以在线性时间内解决数据稀疏问题的优势，首次将用户在辅助域与目标域的评分的皮尔逊相关系数定义为领域相关度，并将其作为实值特征向量实现对FM输入特征向量的拓展。

(2)本发明通过跨领域相关度对目标域用户特征向量的扩展，使得FM模型只需关注目标域中的用户，这将大大降低计算成本。算法可以在一定程度上缓解用户冷启动问题。

(3)本发明可以在一定程度上缓解单一领域推荐中存在的新用户带来的冷启动问题。

附图说明

图1是本发明的领域概念划分示意图。

图2是本发明的应用FM的跨领域推荐方法的流程图。

具体实施方式

下面将结合附图，通过实施例对本发明的技术方案进行清楚、完整地描述，显然，所描述的实施例仅是本发明一部分实施例，而不是全部实施例。因此，以下对在附图中提供的本发明的实施例的详细描述并非旨在限制要求保护的本发明的范围，而是仅仅表示本发明的选定实施例。基于发明的实施例，本领域技术人员没有做出创造性劳动的前提下所获得的所有其他实施例，都属于本发明保护的范围。

附图1为本发明实施例提供的领域概念划分示意图，附图2为本发明实施例提供的一种应用FM的跨领域推荐方法的流程图。结合上述示意图和流程图，本实施例公开了一种应用FM的跨领域推荐方法具体如下：

(1)给出的用户-项目-评分数据集，包括n个不同的领域{D₀,D₁,...,D_n-1}。根据附图1可以知道，跨域推荐中研究者们根据推荐物品的属性、类型、项目以及系统四个角度来对领域进行区分。本说明中所给出的领域根据项目类型进行区分定义，即附图1中第三种领域划分规则，根据项目级别对领域进行划分。

(2)给定目标域中的特征向量，通过添加辅助域中的用户协作信息来扩展该向量。假设D₀是目标域，{D₁,...,D_n-1}是辅助域。预测任务即通过对训练集{(x₀,y₀),(x₁,y₁),...,(x_n-1,y_n-1)}进行学习，建立从输入空间x到输出空间y的映射f:x(u,i)→y。考虑到推荐任务中特征并不总是连续的，多数情况是类别值，所以将这些特征数字化将更适合模型训练。在本实施例中，选择通过独热编码方式对特征进行编码。对于目标域的用户u来说，特征向量通过独热编码后可以表示为：

其中非零元素对应于用户u和项目i。此特征向量也可以缩写为：

x(u,i)＝{(u,1),(i,1)} (2)

(3)计算两个用户或两个项目之间的相似度的方法是协作过滤算法的关键问题。通常有两种方法来计算相似性，分别是皮尔逊相似度(Pearson CorrelationCoefficient，PCC)和基于余弦的相似性(Cosine-based similarity，CS)。通过比较CS和PCC方法可以知道，CS对绝对值不敏感，而且没有办法衡量每个维度的差异。例如，数据中有两个域，分别是X和Y，用户u在两个域的评分分别是(1，2)和(4，5)。CS得到的结果为0.98，这意味着用户在两个域中的评分行为非常相似，但用户似乎并不喜欢X域中的商品；相反，从评分视图来看，用户非常喜欢Y域中的商品。因此，在本实施例中，使用PCC来对领域相关度进行计算：

将PCC应用于n个领域{D₀,D₁,...,D_n-1}中，我们采用ρ(u,D_j)表示辅助域D_j与目标域D₀的相关度，并将其定义为辅助域D_j与目标域D₀内评分向量的PCC的绝对值，计算如下：

ρ(u,D_j)＝|ρ_u(D₀,D_j)| (4)

(4)由于PCC的结果只能表示辅助域和目标域中相关程度，但是在二阶FM模型中，成对特征交互部分并不能反映两个不同域中用户评分之间的约束关系。因此，在本实施例中，使用领域相关度与用户评分的平均值相乘，得到的乘积作为目标向量的扩展向量，扩展向量表示如下：

s_j(u)＝{ρ(u,D_j)×mean(u,D_j)} (6)

其中mean(u,D_j)表示用户在领域j中的平均评分。

对原目标域特征向量进行扩展，得到最终FM模型的输入向量为：

(5)对于FM模型而言，其输入数据格式必须是libSVM，即：

y index_1:value_1index_2:value_2...index_n:value_n(8)

因此，通过libSVM格式转换，将已经拓展过的目标域特征向量进行数据格式转换为libSVM格式，以满足FM模型的输入要求。

(6)FM模型通过对每对特征之间的所有交互进行建模来估计目标。二阶FM模型可以表示为：

FM模型最初大多采用梯度随机算法(Stochastic Gradient Descent，SGD)。与SGD算法相比，AdaGrad算法可以自适应地调整学习速率，对不常用的参数执行较大的更新，并对常用的参数进行较小的更新。因此，AdaGrad算法通常用于优化稀疏数据的问题。在本实施例中利用AdaGrad方法学习模型来对FM进行学习。

Claims

1.一种应用FM的跨领域推荐方法，其特征是：

步骤二：给定目标域中的特征向量；

步骤四：对目标域特征向量进行扩展；

步骤六：通过Adagrad算法对FM模型进行学习。

2.根据权利要求1所述的应用FM的跨领域推荐方法，其特征是：步骤一中所述的评分数据是根据项目的不同对领域进行划分得到的跨领域用户评分数据。

3.根据权利要求1或2所述的应用FM的跨领域推荐方法，其特征是：步骤三中，相关度的计算公式为：

表示用户在目标域内的平均评分，

4.根据权利要求1或2所述的应用FM的跨领域推荐方法，其特征是：步骤四中，所述的对目标域特征向量进行扩展是将领域相关度与用户在该辅助域内的平均评分的乘积作为目标域向量的拓展部分。

5.根据权利要求3所述的应用FM的跨领域推荐方法，其特征是：步骤四中，所述的对目标域特征向量进行扩展是将领域相关度与用户在该辅助域内的平均评分的乘积作为目标域向量的拓展部分。