CN106354783A

CN106354783A - 一种基于信任关系隐含相似度的社会化推荐方法

Info

Publication number: CN106354783A
Application number: CN201610708974.4A
Authority: CN
Inventors: 何发智; 潘腾; 潘一腾
Original assignee: Wuhan University WHU
Current assignee: Wuhan University WHU
Priority date: 2016-08-23
Filing date: 2016-08-23
Publication date: 2017-01-25

Abstract

本发明公开了一种基于信任关系隐含相似度的社会化推荐方法，首先，本发明通过概率矩阵分解的方法得到用户的信任和被信任向量，该向量隐含了用户之间的直接和间接关联，从而更充分的挖掘了稀疏的评分和信任数据中的信息。其次，本发明通过概率估计的方法得到用户的信任关系隐含相似度，从而提升了信任关系强度的估计精度。最后，本发明综合考虑了用户之间的评分相似度，进一步提升算法对于数据稀疏情况下的鲁棒性。

Description

一种基于信任关系隐含相似度的社会化推荐方法

技术领域

本发明属于数据挖掘和大数据领域，特别涉及一种基于信任关系隐含相似度的社会化推荐方法。

背景技术

在日常生活中，随着网络信息的不断发展，信息过载问题变得越来越严重。如何从海量的数据中获得有效的信息，对于普通用户来说是一个巨大的挑战。推荐算法是解决这一问题的重要手段之一，通过对用户的历史行为建模，主动向用户提供满足用户潜在偏好的产品。对于用户来说，推荐系统能够帮助他们在海量的信息中快速找到满意的信息；对于商家来说，推荐系统不仅能帮助决定向特定用户推销那些产品，同时能够通过更满意的服务增加用户的忠诚度。推荐系统广泛应用于大量的电子商务网站中，比如淘宝、京东、亚马逊等，已经成为网络应用的重要组成部分之一。

尽管近年来推荐算法在各种应用中都取得了巨大的成功，然而数据稀疏问题仍然是影响算法性能的重要瓶颈之一。推荐算法通常基于用户的历史数据对用户偏好进行建模，然后根据用户的偏好从海量的数据中找到合适的产品推荐给用户。而当这些数据并不足以反映用户或产品的属性时，推荐性能就会受到影响。具体来说，在一般情况下，大多数用户由于精力有限或个人隐私等原因，并不会对所有的产品进行评价，相反，只会选择少量的产品进行评分，从而所获得的评分矩阵只有少量是已知的，而其他大量的未知评分则是推荐算法的预测目标。此时，这少量的评分数据只能反映用户非常少的有用信息，而基于此所建立的模型也难以准确把握用户真正的喜好，进而导致推荐精度下降，这一问题被称为数据稀疏问题。

围绕着数据稀疏的问题，许多学者提出了有效的解决方法。其中，结合社交信息的推荐算法是解决数据稀疏问题的有效手段之一。一方面，在生活中，人们在做出决定之前通常会向他的好友咨询，并受到好友的影响；另一方面，人们总是倾向于与他爱好相似的人结为好友关系。因此，社交网络数据在一定程度上揭示了用户的偏好相似性，这对提高推荐算法的质量提供了新的机会。特别是在处理数据稀疏问题上，社会化推荐算法能显著提高稀疏用户的推荐性能，从而提升用户体验和忠诚度。近年来，社会化推荐算法吸引了越来越多研究人员的关注，成为推荐算法的热门研究领域之一。

考虑到用户对每个好友的信任强度并不相同，如何估计用户之间的信任度，成为影响社会化推荐算法进一步提高的重要问题之一。该相似度可以从评分或信任数据的角度进行度量，即基于具有相似的评分行为或信任关系的用户之间具有相似的兴趣偏好的假设，可以用评分或信任相似度量用户之间的信任度。然而，这些相似度的都是基于共同评分或好友集合进行计算，这对于用户间信任度的计算在评分或信任数据非常稀疏的时候，有效信息较少，采用直接计算的方法得到的信任度并不可靠。

发明内容

本发明针对上述问题，为了处理数据稀疏对于信任度估计的不利影响，提出一种新的信任值度量方法，并在此基础上提出一种新的社会化推荐方法。

本发明所采用的技术方案是：一种基于信任关系隐含相似度的社会化推荐方法，具体步骤为：

步骤1：利用概率矩阵分解的方法获得用户的信任者和被信任者向量，从而隐含用户间的直接和间接关联；

步骤2：基于以上用户的信任者和被信任者向量，计算用户间的信任关系隐含相似度。

步骤3：利用用户间的信任强度以及评分数据计算用户和产品的特征向量。并采用梯度下降的方法最小化代价函数，得到用户和产品的潜在特征向量。

步骤4：根据用户和产品的潜在特征向量预测用户对未评分向量的评分，并据此产生推荐结果。

本发明通过概率矩阵分解的方法得到用户的信任和被信任向量，该向量隐含了用户之间的直接和间接关联，从而更充分的挖掘了稀疏的评分和信任数据中的信息。其次，本发明通过概率估计的方法得到用户的信任关系隐含相似度，从而提升了信任关系强度的估计精度。最后，本发明综合考虑了用户之间的评分相似度，进一步提升算法对于数据稀疏情况下的鲁棒性。

附图说明

图1：本发明实施例的原理模型图。

具体实施方式

为了便于本领域普通技术人员理解和实施本发明，下面结合附图及实施例对本发明作进一步的详细描述，应当理解，此处所描述的实施示例仅用于说明和解释本发明，并不用于限定本发明。

请见图1，本发明提供的一种基于信任关系隐含相似度的社会化推荐方法，包括以下步骤：

1.利用概率矩阵分解的方法计算用户的信任和被信任向量：

a)令和分别表示用户u作为信任者和被信任者时的偏好向量，特征维度为K。采用均值为0，方差为0。1的高斯分布进行初始化。

b)建立社交关系的损失函数：

L (P, W, T) = \frac{1}{2} Σ_{i = 1}^{N} Σ_{j = 1}^{N} I_{u, i}^{R} {(T_{i, j} - g (P_{i}^{T} W_{j}))}^{2} + \frac{λ_{P}}{2} Σ_{i = 1}^{N} P_{i}^{T} P_{i} + \frac{λ_{W}}{2} Σ_{i = 1}^{N} W_{i}^{T} W_{i}

其中，N表示用户数量，P∈R^K×N和W∈R^K×N分别表示用户作为信任者和被信任者时的K维偏好矩阵；T∈R^N×N表示用户之间的信任关系矩阵，T_u,v表示用户u和用户v之间的社交关联，1表示存在关联，0表示不存在关联；N_u表示用户u的信任对象集合；是P_u的转置，是的转置；λ_P和λ_W分别表示抑制P和W过拟合的参数；

c)对于每对信任数据(u，v)，计算信任者和被信任者向量的梯度，并进行迭代更新：

P_{u}^{t + 1} = P_{u}^{t} - α \frac{\partial L}{\partial P_{u}^{t}}

W_{v}^{t + 1} = W_{v}^{t} - α \frac{\partial L}{\partial W_{v}^{t}}

其中，t表示当前迭代次数，α表示学习率；和分别表示第t次迭代后对应的P_u和W_v，和分别表示第t+1次迭代后对应的P_u和W_v；每次迭代中，将第t次的计算结果减去α乘以梯度，得到t+1次的计算结果；

d)计算损失函数，如果损失函数的值相比于上次结果变化大于阈值ε，则跳转到b)，否则跳转到e)：

e)退出循环，获得计算结果P和W。

2.利用P和W计算信任关系隐含相似度：

a)计算信任者隐含相似度：

S_{u, v}^{P} = P_{u}^{T} P_{v}

其中，表示用户u和v之间的信任者隐含相似度，P_u和P_v分别表示用户u和v作为信任者时的特征向量；

b)计算被信任者隐含相似度：

S_{u, v}^{W} = W_{u}^{T} W_{v}

其中，表示用户u和v之间的信任者隐含相似度，W_u和W_v分别表示用户u和v作为被信任者时的特征向量。

3.利用用户间的信任强度以及评分数据计算用户和产品的特征向量：

a)建立社会化推荐方法的损失函数，作为优化目标：

\begin{matrix} L (P, T, U, V) = \frac{1}{2} Σ_{u = 1}^{N} Σ_{i = 1}^{M} I_{u, i}^{R} {(R_{u, i} - g (U_{u}^{T} V_{i}))}^{2} \\ + \frac{λ_{U}}{2} Σ_{u = 1}^{N} U_{u}^{T} U_{u} + \frac{λ_{V}}{2} Σ_{u = 1}^{N} V_{i}^{T} V_{i} \\ + \frac{λ_{T}}{2} Σ_{u = 1}^{N} ({(U_{u} - \frac{Σ_{v &Element; N_{u}} S_{u, v} U_{v}}{Σ_{v &Element; N_{u}} S_{u, v}})}^{T} (U_{u} - \frac{Σ_{v &Element; N_{u}} S_{u, v} U_{v}}{Σ_{v &Element; N_{u}} S_{u, v}})) \\ + \frac{λ_{S}}{2} Σ_{u = 1}^{N} \underset{v &Element; N_{u}}{Σ} {(S_{u, v} - g (U_{u}^{T} U_{v} + S_{u, v}^{P} + S_{u, v}^{W}))}^{2} \end{matrix}

其中，N和M分别为用户和产品的数量，R和T分别表示用户的评分和社交数据，U∈R^K×N和V∈R^K×M则分别表示用户和项目的K维特征矩阵；指示用户u是否对项目i有评分，1表示有评分，0表示没有；N_u表示用户u的信任对象集合；R_u,i表示用户u对项目i的评分，S_u,v表示用户u对v的信任强度；U_u和分别表示用户u的潜在偏好向量及对应转置，V_i和分别表示项目v的潜在偏好向量及对应转置；λ_U、λ_V、λ_T和λ_S表示约束各项权重的参数。在本方法中，约束用户u对v的信任强度S_u,v近似等于评分相似度和信任关系隐含相似度之和，并采用g(x)＝1/(1+e^-x)将估计值映射到[0,1]范围内；

b)对于每对评分数据(u，i)，计算各向量的梯度，并进行迭代更新：

U_{u}^{t + 1} = U_{u}^{t} - α \frac{\partial L}{\partial U_{u}^{t}}

V_{i}^{t + 1} = V_{i}^{t} - α \frac{\partial L}{\partial V_{i}^{t}}

S_{u, v}^{t + 1} = S_{u, v}^{t} - α \frac{\partial L}{\partial S_{u, v}^{t}}

其中，t表示迭代次数，α表示学习率；每次迭代将t次的结果减去α乘梯度，从而得到新的参数值；

c)迭代次数不到100，则跳转到b)，否则跳转到d)。

d)退出循环，获得计算结果。

4.利用用户和产品的特征向量计算推荐结果：

a)对于每个用户u和待预测产品i，计算预测评分：

{\hat{R}}_{u, i} = U_{u} V_{i}

其中，表示用户u对项目i的预测评分。

b)根据预测评分，评估推荐效果。

M A E = \frac{1}{N} \underset{(i, j) &Element; I}{Σ} | {\hat{R}}_{i, j} - R_{i, j} |

R M S E = \sqrt{\frac{Σ_{(i, j) &Element; I} {({\hat{R}}_{i, j} - R_{i, j})}^{2}}{N}}

其中，MAE和RMSE分别表示平均绝对误差和均方根误差。N表示预测评分的数量，I表示所有测试数据。

请见表1，是本发明在Epinions和Ciao数据集上的推荐精度及与其他算法的对比；

表1本发明在Epinions和Ciao数据集上的推荐精度及与其他算法的对比

通过表1，可以看出：

(1)本文发明相比于其他社会化推荐算法，在MAE和RMSE上都有明显的提高；本发明利用了信任者和被信任者向量计算信任关系隐含相似度，对用户间信任强度进行修正，从而得到了更优的推荐质量；

(2)本发明在Epinions和Ciao数据集上都能有效提升推荐精度。可见，本发明对于独立收集的不同数据集，也能保持良好的性能，进而验证了文中算法提出的信任关系隐含相似度具有可靠的鲁棒性，并不对特定的数据集有明显的偏向性。

应当理解的是，本说明书未详细阐述的部分均属于现有技术。

应当理解的是，上述针对较佳实施例的描述较为详细，并不能因此而认为是对本发明专利保护范围的限制，本领域的普通技术人员在本发明的启示下，在不脱离本发明权利要求所保护的范围情况下，还可以做出替换或变形，均落入本发明的保护范围之内，本发明的请求保护范围应以所附权利要求为准。

Claims

1.一种基于信任关系隐含相似度的社会化推荐方法，其特征在于，包括以下步骤：

步骤1：计算用户的信任向量P和被信任向量W；

步骤2：利用信任向量P和被信任向量W计算信任关系隐含相似度；

步骤3：利用用户间的信任强度以及评分数据计算用户和产品的特征向量；

步骤4：利用用户和产品的特征向量计算推荐结果。

2.根据权利要求1所述的基于信任关系隐含相似度的社会化推荐方法，步骤1的具体实现包括以下子步骤：

步骤1.1：令和分别表示用户u作为信任者和被信任者时的偏好向量，特征维度为K；采用均值为0，方差为0.1的高斯分布进行初始化；

步骤1.2：建立社交关系损失函数：

L (P, W, T) = \frac{1}{2} Σ_{u = 1}^{N} \underset{v &Element; N_{u}}{Σ} {(T_{u, v} - g (P_{u}^{T} W_{v}))}^{2} + \frac{λ_{P}}{2} Σ_{u = 1}^{N} P_{u}^{T} P_{u} + \frac{λ_{W}}{2} Σ_{v = 1}^{N} W_{v}^{T} W_{v};

步骤1.3：循环迭代训练参数；

对于每对信任数据(u，v)，计算信任者和被信任者向量的梯度，并进行迭代更新：

P_{u}^{t + 1} = P_{u}^{t} - α \frac{\partial L}{\partial P_{u}^{t}}

W_{v}^{t + 1} = W_{v}^{t} - α \frac{\partial L}{\partial W_{v}^{t}}

步骤1.4：如果迭代次数t小于100，则跳转到步骤1.3，否则跳转到步骤1.5；

步骤1.5：将最后一次迭代的结果作为最终的P和W。

3.根据权利要求1所述的基于信任关系隐含相似度的社会化推荐方法，步骤2的具体实现包括以下子步骤：

步骤2.1：计算信任者隐含相似度：

S_{u, v}^{P} = P_{u}^{T} P_{v};

步骤2.2：计算被信任者隐含相似度：

S_{u, v}^{W} = W_{u}^{T} W_{v};

4.根据权利要求1所述的基于信任关系隐含相似度的社会化推荐方法，步骤3的具体实现包括以下子步骤：

步骤3.1：建立社会化推荐方法的损失函数，作为优化目标：

\begin{matrix} L (R, T, U, V) = \frac{1}{2} Σ_{u = 1}^{N} Σ_{i = 1}^{M} I_{u, i}^{R} {(R_{u, i} - U_{u}^{T} V_{i})}^{2} \\ + \frac{λ_{U}}{2} Σ_{u = 1}^{N} U_{u}^{T} U_{u} + \frac{λ_{V}}{2} Σ_{u = 1}^{N} V_{i}^{T} V_{i} \\ + \frac{λ_{T}}{2} Σ_{u = 1}^{N} ({(U_{u} - \frac{Σ_{v &Element; N_{u}} S_{u, v} U_{v}}{Σ_{v &Element; N_{u}} S_{u, v}})}^{T} (U_{u} - \frac{Σ_{v &Element; N_{u}} S_{u, v} U_{v}}{Σ_{v &Element; N_{u}} S_{u, v}})) \\ + \frac{λ_{S}}{2} Σ_{u = 1}^{N} \underset{v &Element; N_{u}}{Σ} {(S_{u, v} - g (U_{u}^{T} U_{v} + S_{u, v}^{P} + S_{u, v}^{W}))}^{2} \end{matrix};

其中，N和M分别为用户和产品的数量，R和T分别表示用户的评分和社交数据，U∈R^K×N和V∈R^K×M则分别表示用户和项目的K维特征矩阵；指示用户u是否对项目i有评分，1表示有评分，0表示没有；N_u表示用户u的信任对象集合；R_u,i表示用户u对项目i的评分，S_u,v表示用户u对v的信任强度；U_u和分别表示用户u的潜在偏好向量及对应转置，V_i和V_i ^T分别表示项目v的潜在偏好向量及对应转置；λ_U、λ_V、λ_T和λ_S表示约束各项权重的参数；

约束用户u对v的信任强度S_u,v近似等于评分相似度和信任关系隐含相似度之和，并采用g(x)＝1/(1+e^-x)将估计值映射到[0,1]范围内；

步骤3.2：迭代更新，训练参数；

对于每对评分数据(u，i)，计算各向量的梯度，并进行迭代更新：

U_{u}^{t + 1} = U_{u}^{t} - α \frac{\partial L}{\partial U_{u}^{t}}

V_{i}^{t + 1} = V_{i}^{t} - α \frac{\partial L}{\partial V_{i}^{t}}

S_{u, v}^{t + 1} = S_{u, v}^{t} - α \frac{\partial L}{\partial S_{u, v}^{t}}

步骤3.3：若迭代次数t不到100，则跳转到步骤3.2，否则跳转到步骤3.4；

步骤3.4：获得计算结果U、V和S。

5.根据权利要求1所述的基于信任关系隐含相似度的社会化推荐方法，其特征在于，步骤4的具体实现包括以下子步骤：

步骤4.1：对于每个用户u和待预测产品i，计算预测评分：

{\hat{R}}_{u, i} = U_{u} V_{i};

其中，表示用户u对项目i的预测评分；

步骤4.2：根据预测评分，评估推荐效果；

M A E = \frac{1}{N} \underset{(i, j) &Element; I}{Σ} | {\hat{R}}_{i, j} - R_{i, j} |

R M S E = \sqrt{\frac{Σ_{(i, j) &Element; I} {({\hat{R}}_{i, j} - R_{i, j})}^{2}}{N}}

其中，MAE和RMSE分别表示平均绝对误差和均方根误差；N表示预测评分的数量，I表示所有测试数据。