CN108717654B

CN108717654B - 一种基于聚类特征迁移的多电商交叉推荐方法

Info

Publication number: CN108717654B
Application number: CN201810470713.2A
Authority: CN
Inventors: 吴骏; 方贺贺; 张怡; 杜云涛; 王崇骏
Original assignee: Nanjing University
Current assignee: Nanjing University
Priority date: 2018-05-17
Filing date: 2018-05-17
Publication date: 2022-03-25
Anticipated expiration: 2038-05-17
Also published as: CN108717654A

Abstract

本发明公开了一种基于聚类特征迁移的多电商交叉推荐方法，包括如下步骤1)评分矩阵构造阶段：a采集各个电商数据；b数据清洗、去噪音；c构建评分矩阵；d结束；2)辅助域学习阶段：a获取评分矩阵；b提取用户/项目特征矩阵；c对用户/项目特征矩阵聚类；d计算平均评分；e构造聚类特征矩阵；f针对每个辅助电商，重复以上步骤至结束；3)目标域学习阶段：a获取目标电商评分矩阵；b迁移聚类特征，完成矩阵分解。c重构目标电商评分矩阵；d产生推荐列表；e结束。本发明利用迁移学习技术为电商推荐系统存在的数据稀疏性、冷启动和多样性与精确性两难困境问题提供了一种新的解决思路。

Description

一种基于聚类特征迁移的多电商交叉推荐方法

技术领域

本发明涉及一种多电商交叉推荐方法，该方法解决了电商推荐系统在数据极度稀疏和冷启动情况下推荐精度不高的问题。

背景技术

随着电子商务网站规模不断扩大，信息过载问题日趋严重，解决此问题的一个非常有潜力的方法便是个性化推荐系统。例如著名的电商平台Amazon，利用能反映用户购买兴趣的点击、浏览、收藏、加购物车等行为记录，给用户推荐可能感兴趣的其他产品。针对每个用户的偏好，进行“千人千面”的智能内容推荐，可以有效提升用户活跃度、停留时长、付费率、留存率等关键指标，为社会和企业创造巨大价值。但用户和商品数量的激增给传统的电商推荐系统带来了数据稀疏性、冷启动、多样性与精确性两难困境等诸多困扰。

目前，绝大多数电商推荐系统都是在单一领域进行。而互联网是一个开放的环境，几乎每个用户都不可能只在一个领域内产生数据，用户可以同时在淘宝、亚马逊、京东上进行购物，可以同时在网易云音乐、QQ音乐、酷狗音乐进行听歌。单一领域推荐无法有效共享互联网资源，导致信息相对闭塞，容易形成信息孤岛。

跨领域推荐旨在通过领域间的信息共享和互补，从包含丰富数据的其他领域中提取知识，为目标领域的推荐提供帮助，一方面可以缓解数据的稀疏性和冷启动问题，另一方面也可以兼顾多样性和精确性，现以成为推荐系统领域的研究热点。本发明从跨领域推荐技术考虑，提出将迁移学习应用到电商推荐中，为电商推荐系统存在的诸多问题提供了一种新的解决思路。

发明内容

发明目的：本发明所要解决的技术问题是，考虑到传统的电商推荐系统面临数据稀疏性、冷启动、多样性与精确性两难困境等诸多挑战，本发明引入迁移学习思想，提出了一种基于聚类特征迁移的多电商交叉推荐方法：首先从各个辅助电商提取用户/项目特征矩阵；然后通过对用户/项目进行聚类，求出各个用户聚簇对项目聚簇的平均评分组成聚类特征，作为领域知识传递到目标电商；最后将各个辅助电商的领域知识以加权的方式迁移至目标电商以帮助目标电商重构用户-项目评分矩阵，从而完成最终推荐。

技术方案：为实现上述目的，本发明采用的技术方案为：

一种基于聚类特征迁移的多电商交叉推荐方法，包括如下步骤：

1)评分矩阵构造阶段：

1)-a采集各个电商网站的用户历史行为数据；

1)-b对用户历史行为数据进行清洗、去噪音预处理操作；

步骤1)-b中数据进行清洗是去除重复数据和缺失数据，去噪音是删除用户行为记录极少的数据；

1)-c综合使用能反映用户购买兴趣的行为数据，分别构建每个电商网站的用户-项目评分矩阵；

其中步骤1)-c中所述的构造用户-项目评分矩阵是指将用户名和项目名替换为矩阵的行号和列号，并将行为数据转化为具体数值；行为数据是指反映用户购买兴趣的点击、浏览、收藏、购买的行为的数据；

1)-d结束；

2)辅助域学习阶段：

2)-a获取辅助电商

的用户-项目评分矩阵R_z，z∈{1,2,…,Z}；

2)-b实施ALS算法从用户-项目评分矩阵R_z中提取维度为D的用户特征矩阵M_z和项目特征矩阵N_z；

步骤2)-b中所述的ALS算法具体过程如下：

步骤2)-b-1)用(0,1)中的值随机初始化项目特征矩阵N_z；

步骤2)-b-2)固定项目特征矩阵N_z，按照如下公式逐个更新每个用户特征向量M_i.；

其中，N_ui表示第i个用户评分的项目的特征向量组成的矩阵，n_ui表示第i个用户评分数，I为D×D的单位矩阵，λ表示步长，T表示迭代次数，i表示矩阵M_z的行号，M_i.表示第i个用户的用户特征向量，即矩阵M_z的第i行；

步骤2)-b-3)，固定用户特征矩阵M_z，按照如下公式逐个更新每个项目特征向量N_j.；

其中，M_mj表示评分过第j个项目的用户的特征向量组成的矩阵，n_mj表示第j个项目的被评分数，I为D×D的单位矩阵，j表示矩阵N_z的行号，N_j.表示第j个项目的项目特征向量，即矩阵N_z的第j行；

步骤2)-b-4)，重复步骤步骤2)-b-2)和步骤2)-b-3)两个步骤T次直到结束；

2)-c实施K-means算法分别对用户特征矩阵M_z和项目特征矩阵N_z进行聚类，得到k_z个用户聚簇和l_z个项目聚簇；

步骤2)-c中所述的K-means聚类算法具体过程如下：

步骤2)-c-1)随机选择K个数据作为初始聚簇中心，其中K预先确定；

步骤2)-c-2)根据欧式距离公式把每行数据分配到离它最近的聚簇中，公式如下：

其中，dis(a,b)表示数据a和数据b的欧氏距离，X_a,d为数据a在第d个属性上的值，X_a,d为数据b在第d个属性上的值；

步骤2)-c-3)重新计算每个聚簇的聚簇中心值；

步骤2)-c-4)重复步骤2)-c-2)和步骤2)-c-3)T次直到结束；

2)-d计算每个用户聚簇对项目聚簇的平均评分p_kl；

步骤2)-d中所述的计算每个用户聚簇对项目聚簇的平均评分公式如下：

其中，p_kl表示第k个用户聚簇对第l个项目聚簇的平均评分，r_u,v代表用户u对项目v的评分，

代表聚簇

中用户个数，

代表聚簇

中项目个数。

2)-e构造辅助电商的聚类特征矩阵P_z，聚类特征矩阵P_z中的元素为p_kl；

2)-f针对每个辅助电商

z∈{1,2,…,Z}，重复以上步骤直到结束；

3)目标域学习阶段：

3)-a获取目标电商

的用户-项目评分矩阵R_T；

3)-b迁移聚类特征矩阵P_z，帮助用户-项目评分矩阵R_T完成矩阵分解，得到参数U_z、V_z和α_z；

步骤3)-b中所述的矩阵分解的具体过程如下：

3)-b-1)定义目标域矩阵分解的目标方程，公式如下：

其中，U_z、V_z和α_z为此目标方程所需求解的参数，U_z表示目标域用户所属的源域

中的哪一用户聚簇，V_z表示目标域项目所属的源域

中的哪一项目聚簇，α_z表示源域

迁移程度的参数，

k_z为辅助域

用户聚类个数，l_z为辅助域

项目聚类个数，W代表R_T的标记矩阵，矩阵1代表全“1”矩阵，符号°代表矩阵间对于元素相乘，U_z1＝1，V_z1＝1确保每个用户和项目仅属于一个聚类特征，即每一行仅有一个元素为1，其余为0；

3)-b-2)随机初始化V_z，保证每一行仅有一个元素为1，其余为0；

3)-b-3)令

3)-b-4)每个用户u_i可能属于的辅助域

用户聚类有k_z个，综合考虑Z个辅助域知识，则其组合情况则有k₁×k₂×…×k_z个，从中选择一种组合方式令下式最小，即通过检查所有辅助域中的用户聚类的不同组合，选择最能预测目标评分的组合来找到目标用户所属对应辅助域聚类[U_z]_i：

其中，

3)-b-5)令U_z的第i行第j_z列为1，其余为0；

3)-b-6)对于R_T每一行i重复3)-b-4)和3)-b-5)；

3)-b-7)每个项目v_i可能属于的辅助域

项目聚类有l_z个，综合考虑多个辅助域知识，则其组合情况则有l₁×l₂×…×l_z个，从中选择一种组合方式令下式最小，即通过检查所有辅助域中的项目聚类的不同组合，选择最能预测目标评分的组合来找到目标域项目所属对应辅助域聚类[V_z]_i：

3)-b-8)令V_z的第i行第j_z列为1，其余为0；

3)-b-9)对于R_T每一列i重复步骤3)-b-7)和3)-b-8)；

3)-b-10)更新向量

公式如下：

其中，

W为R_T的标记矩阵；

3)-b-11)重复步骤3)-b-4)到步骤3)-b-10)T次直到结束；

3)-c重构目标电商的用户-项目评分矩阵，得到重构矩阵

步骤3)-c中所述的重构目标电商用户项目-评分矩阵公式如下：

其中，W代表R_T的标记矩阵，1代表矩阵元素全为数值1的矩阵。

3)-d根据具体需求，确定要推荐的商品个数N，由重构矩阵

找到用户u_i评分最高的前N个商品进行推荐；

3)-e结束。

本发明相比现有技术，具有以下有益效果：

本发明的一种基于聚类特征迁移的多电商交叉推荐方法为传统的电商推荐系统存在的数据稀疏性、冷启动、多样性与精确性两难困境等诸多困扰提供了一种新的解决方法，该方法通过从稠密的辅助电商中提取聚类特征，并将其作为领域知识迁移至稀疏的目标域电商，同时假设各个辅助域与目标域之间存在不同的相关度，并根据此相关度决定每个域知识的迁移程度，一方面可以改善目标电商因稀疏性导致的矩阵分解不精确问题，另一方面可以降低不一致性信息带来的负迁移问题，从而提高目标电商的推荐性能。

附图说明

图1为一种基于聚类特征迁移的多电商交叉推荐方法的流程图。

图2为用户-项目评分矩阵转化图。

图3为采用ALS算法提取用户/项目特征矩阵的流程图；

图4为采用K-means算法获得用户/项目聚类的流程图。

图5为目标电商迁移辅助电商聚类特征以帮助其进行矩阵分解的流程图。

具体实施方式

下面结合附图和具体实施例，进一步阐明本发明，应理解这些实例仅用于说明本发明而不用于限制本发明的范围，在阅读了本发明之后，本领域技术人员对本发明的各种等价形式的修改均落于本申请所附权利要求所限定的范围。

如图1为本发明实施的一种基于聚类特征迁移的多电商交叉推荐方法的流程图。具体步骤描述如下：

步骤0为本发明的起始状态；

在评分矩阵构造阶段(步骤1-3)，步骤1是采集多个电商的用户历史行为数据；

步骤2是对用户历史行为数据去除重复数据和缺失数据并删除用户行为记录极少的数据；

步骤3，综合使用能反映用户购买兴趣的行为数据，将经步骤2预处理之后的行为数据构建每个电商网站的用户-项目评分矩阵；

在辅助域学习阶段(步骤4-8)，步骤4是分别获取每个辅助电商

的用户-项目评分矩阵R_z，z∈{1,2,…,Z}；

步骤5是在每个辅助领域分别实施ALS算法从R_z中提取维度为D的用户特征矩阵M_z和项目特征矩阵N_z；

步骤6是在每个辅助领域分别实施K-means算法分别对用户特征矩阵M_z和项目特征矩阵N_z进行聚类，得到k_z个用户聚簇和l_z个项目聚簇；

步骤7是在每个辅助领域分别计算每个用户聚簇对项目聚簇的平均评分p_ij，即将第i个用户聚簇内的每个用户对第j个项目聚簇内的项目的评分相加然后除以第i个用户聚簇的用户数和第j个项目聚簇的项目数乘积；

所述的计算每个用户聚簇对项目聚簇的平均评分公式如下：

代表聚簇

中用户个数，

代表聚簇

中项目个数。

步骤8是构造每个辅助电商的聚类特征矩阵P_z，其中矩阵元素为步骤7得到的平均评分p_kl；

在目标域学习阶段(步骤9-12)，步骤9是获取目标电商

的用户项目评分矩阵R_T；

步骤10是将多个聚类特征P_z迁移到目标域，并据此帮助目标电商完成矩阵分解，得到参数U_z、V_z和α_z；

步骤11是根据步骤9得到的参数U_z、V_z和α_z，重构目标领域矩阵，公式为

其中R_T为目标电商

的用户-项目评分矩阵，W为R_T的标记矩阵；

步骤12是根据具体需求，确定要推荐的商品个数N，由重构矩阵

找到用户u_i评分最高的前N个商品进行推荐；

步骤13是结束状态。

如图2为对图1中步骤3的详细描述，电商推荐领域中用户与商品之间存在多种交互行为，例如浏览、点击、加购物车、购买等。这些行为其实就是一个能很好表现用户喜好的隐式行为数据。需综合考虑这些数据，根据每个行为所传达出的用户对商品的偏爱程度将其转化为用户-项目评分矩阵。

如图3是对图1中步骤5的详细描述。

步骤14是起始状态；

步骤15是用(0,1)之间的数值随机初始化矩阵N_z；

步骤16是固定矩阵N_z，按照如下公式逐行更新矩阵M：

步骤17是固定矩阵M_z，按照如下公式逐行更新矩阵N：

步骤18是判断是否迭代了T次，如果否，转步骤15，如果是，转步骤18；

步骤19是结束状态。

如图4为步骤6中K-means算法的具体描述。

步骤20是起始状态；

步骤21是确定聚类个数K，当对第z个辅助域的用户特征矩阵进行聚类时，K为k_z，当对第z个辅助域的项目特征矩阵进行聚类时，K为l_z；

步骤22是随机选择K个数据作为初始聚类中心；

步骤23是根据欧式距离把每行数据点分配到离它最近的聚类中，公式如下：

其中X_a,d为数据a在第d个属性上的值，X_b,d为数据b在第d个属性上的值；

步骤24是根据分配到各个聚类中的数据点，重新计算每个聚类新的中心值；

步骤25是判断是否迭代了T次，如果否，转步骤22，如果是，转步骤25；

步骤26是结束状态。

如图5是对图1中步骤10的具体描述。

步骤27是起始状态；

步骤28是随机初始化Z个矩阵V_z，保证每行仅有一个元素为1，其余为0；

步骤29是令表征迁移程度的Z个参数

步骤30是求取用户u_i属于第z个辅助域的哪一用户聚类j_z，即通过检查所有源域中用户聚类的不同组合，共k₁×k₂×…×k_z种情况，选择最能预测目标评分的组合来找到目标用户所属对应辅助域聚类[U_z]_i，即选择一种组合方式

令下式取得最小值：

其中为R_T为目标电商的用户-项目评分矩阵，

步骤31是令U_z的第i行第j_z列为1，其余为0，针对目标域每个用户u_i重复执行步骤30和31；

步骤32是求取项目v_i属于第z个辅助域的哪一项目聚类j_z，即通过检查所有辅助域中项目聚类的不同组合，共l₁×l₂×…×l_z种情况，选择最能预测目标评分的组合来找到目标项目所属对应辅助域聚类[U_z]_i，即选择一种组合方式

令下式取得最小值：

步骤33是令V_z的第i行第j_z列为1，其余为0，针对目标域每个项目v_i重复执行步骤32和33；

步骤34是更新向量

公式如下：

其中

W为R_T的标记矩阵；

步骤35是判断是否迭代了T次，如果否，转步骤29，如果是，转步骤35；

步骤36是结束状态。

本发明采用迁移学习技术，即从多个辅助域提取聚类特征，作为知识以不同的权值迁移至目标域，来帮助目标电商重构用户-项目评分矩阵，从而完成最终推荐。采用迁移学习技术并引入表征迁移程度的参数以降低破坏性信息引起的负迁移问题，通过在真实的电商网站数据上进行实验，表明了该方法可以有效缓解传统电商推荐系统存在的数据稀疏性、冷启动和多样性与精确性两难问题，提高推荐性能。

综上所述，本发明的一种基于聚类特征迁移的多电商交叉推荐方法利用迁移学习技术为电商推荐系统存在的数据稀疏性、冷启动和多样性与精确性两难困境问题提供了一种新的解决思路。

以上所述仅是本发明的优选实施方式，应当指出：对于本技术领域的普通技术人员来说，在不脱离本发明原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也应视为本发明的保护范围。

Claims

1.一种基于聚类特征迁移的多电商交叉推荐方法，其特征在于，包括如下步骤：

步骤1，评分矩阵构造阶段：采集各个电商网站的用户历史行为数据并进行预处理，综合使用能反映用户购买兴趣的行为数据，分别构建每个电商网站的用户-项目评分矩阵；

用户-项目评分矩阵是指将用户名和项目名替换为矩阵的行号和列号，并将行为数据转化为具体数值；行为数据是指反映用户购买兴趣的点击、浏览、收藏、购买的行为的数据；

步骤2，辅助域学习阶段：获取辅助电商

的用户-项目评分矩阵R_z，z∈{1,2,…,Z}；实施ALS算法从用户-项目评分矩阵R_z中提取维度为D的用户特征矩阵M_z和项目特征矩阵N_z；实施K-means算法分别对用户特征矩阵M_z和项目特征矩阵N_z进行聚类，得到k_z个用户聚簇和l_z个项目聚簇；计算每个用户聚簇对项目聚簇的平均评分p_kl；构造辅助电商的聚类特征矩阵P_z，聚类特征矩阵P_z中的元素为p_kl；

计算每个用户聚簇对项目聚簇的平均评分公式如下：