CN103559623A

CN103559623A - 一种基于联合非负矩阵分解的个性化产品推荐方法

Info

Publication number: CN103559623A
Application number: CN201310439089.7A
Authority: CN
Inventors: 王灿; 王哲; 李平; 卜佳俊; 陈纯; 何占盈
Original assignee: Zhejiang University ZJU
Current assignee: Zhejiang University ZJU
Priority date: 2013-09-24
Filing date: 2013-09-24
Publication date: 2014-02-05

Abstract

基于联合非负矩阵分解的个性化产品推荐方法，从互联网中抓取数据信息，包括用户对已购买产品的评分、用户之间的好友关系，用户对于已购买产品的文字评价；将数据信息转化成数据矩阵，每一个用户的数据信息是其中的一个行向量；利用联合非负矩阵分解的方法，将原始数据矩阵分解成多个低维空间下的数据矩阵；根据低维空间下的数据矩阵，估算每一个用户对于所有未购买产品的评分，按照评分高低进行产品推荐。本方法的优点在于综合考虑了社交网络中的用户结构关系和产品评价信息，解决了传统方法不能有效处理新用户的问题，对没有购买过任何产品的新用户进行有效的产品推荐。

Description

一种基于联合非负矩阵分解的个性化产品推荐方法

技术领域

本发明涉及非负矩阵分解，产品推荐等技术领域，特别是考虑到用户复杂的社交网络结构和联合非负矩阵分解的产品推荐工作。

背景技术

随着互联网的高速发展，越来越的实体商品开始转向网络销售。网络销售省去了实体销售的店面投资，降低了店面维护的人力成本，同时也更容易摆脱地域的限制，将产品销往全国各地，甚至其他国家。然而面对大批量的潜在用户，如何对特定人群进行合理的产品推荐则成为扩大产品收益的最有效途径之一。与此同时，除了产品的定向营销，推荐算法还被广泛的使用在其他应用场景之中，如音乐推荐、电影推荐、图书推荐，美食推荐等，虽然很多以推荐为核心竞争力的网站直接获益不多，但间接收益却十分可观。因此一种好的推荐算法，在产品推广和提高普通用户生活质量方面都起到了很重要的作用。

传统的产品推荐工作，主要采用协同过滤的推荐方法，一般基于两点假设：1）用户会喜欢与自己评分较高的产品相似的产品；2）对相同产品给出相近评价的用户，往往会喜欢对方评分较高的产品。然而，现有的协同过滤方法大多只考虑“用户对已购买产品的评分”这部分数据，而且对于那些购买产品很少的用户，推荐效果很差，尤其对于那些完全没有购买过产品的新用户，几乎不能给出任何有效的建议。

本发明提出了一种基于联合非负矩阵分解的方法，综合考虑了社交网络中的用户结构关系和产品评价信息，解决了传统方法不能有效处理新用户的问题，对没有购买过任何产品的新用户进行有效的产品推荐。

发明内容

为了进行网络上的产品营销和推广，方便大众的日程生活，同时提高普通用户的生活质量，本发明提出了一种基于联合非负矩阵分解的个性化产品推荐方法：

1、该方法包括以下步骤：

1）从互联网中抓取数据信息，包括用户对已购买产品的评分、用户之间的好友关系，用户对于已购买产品的文字评价；

2）将数据信息转化成数据矩阵，每一个用户的数据信息是其中的一个行向量；

3）利用联合非负矩阵分解的方法，将原始数据矩阵分解成多个低维空间下的数据矩阵；

4）根据低维空间下的数据矩阵，估算每一个用户对于所有未购买产品的评分，按照评分高低进行产品推荐。

进一步，步骤1）中所述的用户对已购买产品的评分、用户之间的好友关系，其特征在于：

用户对已购买产品的评分是一个非负实数，用户之间的好友关系可以是“微博”中的关注关系，也可以是其他社交网络中的好友关系、信任关系等。

进一步，步骤2）中所述的将数据信息转化成数据矩阵，每一个用户的数据信息是其中的一个行向量，其特征在于：

1）对于用户对已购买产品的评分数据，针对每一个用户，定义向量 j表示第j个用户，m为不同产品的总数，

（i≤m）取值为用户j对于产品i的评分，如果用户没有购买过产品i，则评分设置为0；

2）对于用户之间的好友关系，针对每一个用户，定义向量

Figure 2013104390897100002DEST_PATH_IMAGE002

j表示第j个用户，m为所有用户的总数，

（i≤m）取值0或1，如果第i个用户是第j个用户的好友，

取值为1，否则

取值为0；

3）对于用户对于已购买产品的文字评价，去掉所有停止词（a，the，or等使用频率很多但没有特定意义或明显区分价值的字或词，常为冠词、介词、副词或连词等)，将单词词干化，即去掉ed，ing等分词形式或ment等词缀，只保留词干形式，遍历所有用户的文字评价，统计所有出现过的不同的单词，针对每一个用户，定义向量

Figure 2013104390897100002DEST_PATH_IMAGE003

j表示第j个用户，m为所有评价中不同单词的个数，

（i≤m）表示第i个单词在向量v_j中的权重，用它的TF-IDF值表示，即

d_{i}^{j} = \frac{nu m_{j} (t)}{total (words)} \cdot \log (\frac{total (documents)}{documents (i)}),

其中num_j(i)为在用户j的所有评价中，第i个单词出现的个数，total（words）为用户 j的所有评价中包含的单词总数，total（documents）为所有用户的所有评价的总数，documents（i）为所有用户的所有评价中含有第i个单词的评价的数目；

4）针对每一种数据类型，将其对应的向量拼接成一个数据矩阵，定义数据类型i对应的数据矩阵为X⁽ⁱ⁾（i≤m，t为数据类型个数），X⁽ⁱ⁾的每一个行向量就是该数据类型下每一个用户j的表示向量

v_{j} = [d_{1}^{j}, d_{2}^{j}, \cdot \cdot \cdot, d_{m}^{j}] .

进一步，步骤3）中所述的利用联合非负矩阵分解的方法，将原始数据矩阵分解成多个低维空间下的数据矩阵，其特征在于：

假定我们有t个不同数据类型，用X⁽¹⁾，X⁽²⁾，……X^(t)表示，定义下述目标函数

\min Σ_{i = 1}^{t} λ_{i} {| | {(X^{(i)})}^{T} - U^{(i)} {(V^{(i)})}^{T} | |}_{F}^{2} + Σ_{i = 1}^{t} γ_{i} {| | V^{(i)} - V^{(*)} | |}_{F}^{2}

s.t.U⁽ⁱ⁾，V⁽ⁱ⁾，V^(*)≥0，λ_i≥0，γ_i≥0，i=1，...，t

X⁽ⁱ⁾为n*m⁽ⁱ⁾维矩阵（n为所有用户总数，m⁽ⁱ⁾与特定数据类型相关，不同数据类型维度取值不同），U⁽ⁱ⁾为m⁽ⁱ⁾*k维矩阵，V⁽ⁱ⁾为n*k维矩阵，其中k为原始矩阵分解后的低维空间的维度（根据实际情况人为设定），V^(*)是保持V⁽ⁱ⁾(i=1，...，t)一致的最优值，运算符号

Figure 2013104390897100002DEST_PATH_IMAGE007

是弗罗贝尼乌斯范数的平方，λ_i，γ_i是可调参数，求解上述公式得到最优解V^(*)，U⁽ⁱ⁾，V⁽ⁱ⁾，其中U⁽ⁱ⁾，V⁽ⁱ⁾为低维表示下的潜在的特征空间，V^(*)是保持V(i)(i=1，...，t)一致的最优值。

进一步，步骤4）中所述的根据低维空间下的数据矩阵，估算每一个用户对于所有未购买产品的评分，按照评分高低进行产品推荐，其特征在于：

1）定义与用户对已购买产品的评分数据类型V⁽ⁱ⁾对应的分解后的矩阵U⁽ⁱ⁾为U，定义新的用户对产品的评分矩阵

（

Figure 2013104390897100002DEST_PATH_IMAGE008

n为用户总数，m为产品总数），通过

Figure 2013104390897100002DEST_PATH_IMAGE009

计算求得，

表示用户i对产品j的评分；

2）针对每一个用户i，对于已经购买且有评分的产品j，将更新为原始评分矩阵中X_ij的值，此时矩阵则为所有用户对所有产品的评分矩阵。

3）根据用户对所有产品的评分矩阵

针对目标用户i，在其所有未购满的产品中，选取前N个评分最高的产品进行推荐。

附图说明

图1是本发明的方法流程图。

具体实施方式

参照附图，进一步说明本发明：

一种基于联合非负矩阵分解的产品推荐方法：

1、该方法包括以下步骤：

步骤1）中所述的用户对已购买产品的评分、用户之间的好友关系，其特征在于：

步骤2）中所述的将数据信息转化成数据矩阵，每一个用户的数据信息是其中的一个行向量，其特征在于：

1）对于用户对已购买产品的评分数据，针对每一个用户，定义向量

Figure 2013104390897100002DEST_PATH_IMAGE011

j表示第j个用户，m为不同产品的总数，

2）对于用户之间的好友关系，针对每一个用户，定义向量

Figure 2013104390897100002DEST_PATH_IMAGE012

j表示第j个用户，m为所有用户的总数，

（i≤m）取值0或1，如果第i个用户是第j个用户的好友，取值为1，否则

取值为0；

3）对于用户对于已购买产品的文字评价，去掉所有停止词（a，the，or等使用频率很多但没有特定意义或明显区分价值的字或词，常为冠词、介词、副词或连词等)，将单词词干化，即去掉ed，ing等分词形式或ment等词缀，只保留词干形式，遍历所有用户的文字评价，统计所有出现过的不同的单词，针对每一个用户，定义向量 j表示第j个用户，m为所有评价中不同单词的个数，

（i≤m）表示第i个单词在向量v_j中的权重，用它的TF-IDF 值表示，即

d_{i}^{j} = \frac{nu m_{j} (t)}{total (words)} \cdot \log (\frac{total (documents)}{documents (i)}),

其中num_j(i)为在用户j的所有评价中，第i个单词出现的个数，total（words）为用户j的所有评价中包含的单词总数，total（documents）为所有用户的所有评价的总数，documents（i）为所有用户的所有评价中含有第i个单词的评价的数目；

4）针对每一种数据类型，将其对应的向量拼接成一个数据矩阵，定义数据类型i对应的数据矩阵为X⁽ⁱ⁾（i≤t，t为数据类型个数），X⁽ⁱ⁾的每一个行向量就是该数据类型下每一个用户j的表示向量

v_{j} = [d_{1}^{j}, d_{2}^{j}, \cdot \cdot \cdot, d_{m}^{j}] .

步骤3）中所述的利用联合非负矩阵分解的方法，将原始数据矩阵分解成多个低维空间下的数据矩阵，其特征在于：

\min Σ_{i = 1}^{t} λ_{i} {| | {(X^{(i)})}^{T} - U^{(i)} {(V^{(i)})}^{T} | |}_{F}^{2} + Σ_{i = 1}^{t} γ_{i} {| | V^{(i)} - V^{(*)} | |}_{F}^{2}

s.t.U⁽ⁱ⁾，V⁽ⁱ⁾，V^(*)≥0，λ_i≥0，γ_i≥0，i=1，...，t

Figure 2013104390897100002DEST_PATH_IMAGE017

步骤4）中所述的根据低维空间下的数据矩阵，估算每一个用户对于所有未购买产品的评分，按照评分高低进行产品推荐，其特征在于：

1）定义与用户对已购买产品的评分数据类型X(ⁱ⁾对应的分解后的矩阵U⁽ⁱ⁾为U，定义新的用户对产品的评分矩阵

（

Figure 2013104390897100002DEST_PATH_IMAGE018

n为用户总数，m为产品总数），通过

计算求得，

表示用户i对产品j的评分；

2）针对每一个用户i，对于已经购买且有评分的产品j，将

更新为原始评分矩阵中X_ij的值，此时矩阵

则为所有用户对所有产品的评分矩阵。

3）根据用户对所有产品的评分矩阵针对目标用户i，在其所有未购满的产品中，选取前N个评分最高的产品进行推荐。

本说明书实施例所述的内容仅仅是对发明构思的实现形式的列举，本发明的保护范围不应当被视为仅限于实施例所陈述的具体形式，本发明的保护范围也及于本领域技术人员根据本发明构思所能够想到的等同技术手段。