CN108717654B - 一种基于聚类特征迁移的多电商交叉推荐方法 - Google Patents

一种基于聚类特征迁移的多电商交叉推荐方法 Download PDF

Info

Publication number
CN108717654B
CN108717654B CN201810470713.2A CN201810470713A CN108717654B CN 108717654 B CN108717654 B CN 108717654B CN 201810470713 A CN201810470713 A CN 201810470713A CN 108717654 B CN108717654 B CN 108717654B
Authority
CN
China
Prior art keywords
user
matrix
item
cluster
domain
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201810470713.2A
Other languages
English (en)
Other versions
CN108717654A (zh
Inventor
吴骏
方贺贺
张怡
杜云涛
王崇骏
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nanjing University
Original Assignee
Nanjing University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nanjing University filed Critical Nanjing University
Priority to CN201810470713.2A priority Critical patent/CN108717654B/zh
Publication of CN108717654A publication Critical patent/CN108717654A/zh
Application granted granted Critical
Publication of CN108717654B publication Critical patent/CN108717654B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q30/00Commerce
    • G06Q30/06Buying, selling or leasing transactions
    • G06Q30/0601Electronic shopping [e-shopping]
    • G06Q30/0631Item recommendations
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/23Clustering techniques
    • G06F18/232Non-hierarchical techniques
    • G06F18/2321Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions
    • G06F18/23213Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions with fixed number of clusters, e.g. K-means clustering
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q30/00Commerce
    • G06Q30/02Marketing; Price estimation or determination; Fundraising
    • G06Q30/0201Market modelling; Market analysis; Collecting market data
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q30/00Commerce
    • G06Q30/02Marketing; Price estimation or determination; Fundraising
    • G06Q30/0201Market modelling; Market analysis; Collecting market data
    • G06Q30/0202Market predictions or forecasting for commercial activities

Landscapes

  • Engineering & Computer Science (AREA)
  • Business, Economics & Management (AREA)
  • Finance (AREA)
  • Accounting & Taxation (AREA)
  • Strategic Management (AREA)
  • Development Economics (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Entrepreneurship & Innovation (AREA)
  • General Business, Economics & Management (AREA)
  • Marketing (AREA)
  • Economics (AREA)
  • Game Theory and Decision Science (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Artificial Intelligence (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Probability & Statistics with Applications (AREA)
  • Evolutionary Computation (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • General Engineering & Computer Science (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明公开了一种基于聚类特征迁移的多电商交叉推荐方法,包括如下步骤1)评分矩阵构造阶段:a采集各个电商数据;b数据清洗、去噪音;c构建评分矩阵;d结束;2)辅助域学习阶段:a获取评分矩阵;b提取用户/项目特征矩阵;c对用户/项目特征矩阵聚类;d计算平均评分;e构造聚类特征矩阵;f针对每个辅助电商,重复以上步骤至结束;3)目标域学习阶段:a获取目标电商评分矩阵;b迁移聚类特征,完成矩阵分解。c重构目标电商评分矩阵;d产生推荐列表;e结束。本发明利用迁移学习技术为电商推荐系统存在的数据稀疏性、冷启动和多样性与精确性两难困境问题提供了一种新的解决思路。

Description

一种基于聚类特征迁移的多电商交叉推荐方法
技术领域
本发明涉及一种多电商交叉推荐方法,该方法解决了电商推荐系统在数据极度稀疏和冷启动情况下推荐精度不高的问题。
背景技术
随着电子商务网站规模不断扩大,信息过载问题日趋严重,解决此问题的一个非常有潜力的方法便是个性化推荐系统。例如著名的电商平台Amazon,利用能反映用户购买兴趣的点击、浏览、收藏、加购物车等行为记录,给用户推荐可能感兴趣的其他产品。针对每个用户的偏好,进行“千人千面”的智能内容推荐,可以有效提升用户活跃度、停留时长、付费率、留存率等关键指标,为社会和企业创造巨大价值。但用户和商品数量的激增给传统的电商推荐系统带来了数据稀疏性、冷启动、多样性与精确性两难困境等诸多困扰。
目前,绝大多数电商推荐系统都是在单一领域进行。而互联网是一个开放的环境,几乎每个用户都不可能只在一个领域内产生数据,用户可以同时在淘宝、亚马逊、京东上进行购物,可以同时在网易云音乐、QQ音乐、酷狗音乐进行听歌。单一领域推荐无法有效共享互联网资源,导致信息相对闭塞,容易形成信息孤岛。
跨领域推荐旨在通过领域间的信息共享和互补,从包含丰富数据的其他领域中提取知识,为目标领域的推荐提供帮助,一方面可以缓解数据的稀疏性和冷启动问题,另一方面也可以兼顾多样性和精确性,现以成为推荐系统领域的研究热点。本发明从跨领域推荐技术考虑,提出将迁移学习应用到电商推荐中,为电商推荐系统存在的诸多问题提供了一种新的解决思路。
发明内容
发明目的:本发明所要解决的技术问题是,考虑到传统的电商推荐系统面临数据稀疏性、冷启动、多样性与精确性两难困境等诸多挑战,本发明引入迁移学习思想,提出了一种基于聚类特征迁移的多电商交叉推荐方法:首先从各个辅助电商提取用户/项目特征矩阵;然后通过对用户/项目进行聚类,求出各个用户聚簇对项目聚簇的平均评分组成聚类特征,作为领域知识传递到目标电商;最后将各个辅助电商的领域知识以加权的方式迁移至目标电商以帮助目标电商重构用户-项目评分矩阵,从而完成最终推荐。
技术方案:为实现上述目的,本发明采用的技术方案为:
一种基于聚类特征迁移的多电商交叉推荐方法,包括如下步骤:
1)评分矩阵构造阶段:
1)-a采集各个电商网站的用户历史行为数据;
1)-b对用户历史行为数据进行清洗、去噪音预处理操作;
步骤1)-b中数据进行清洗是去除重复数据和缺失数据,去噪音是删除用户行为记录极少的数据;
1)-c综合使用能反映用户购买兴趣的行为数据,分别构建每个电商网站的用户-项目评分矩阵;
其中步骤1)-c中所述的构造用户-项目评分矩阵是指将用户名和项目名替换为矩阵的行号和列号,并将行为数据转化为具体数值;行为数据是指反映用户购买兴趣的点击、浏览、收藏、购买的行为的数据;
1)-d结束;
2)辅助域学习阶段:
2)-a获取辅助电商
Figure BDA0001663188920000023
的用户-项目评分矩阵Rz,z∈{1,2,…,Z};
2)-b实施ALS算法从用户-项目评分矩阵Rz中提取维度为D的用户特征矩阵Mz和项目特征矩阵Nz
步骤2)-b中所述的ALS算法具体过程如下:
步骤2)-b-1)用(0,1)中的值随机初始化项目特征矩阵Nz
步骤2)-b-2)固定项目特征矩阵Nz,按照如下公式逐个更新每个用户特征向量Mi.
Figure BDA0001663188920000021
其中,Nui表示第i个用户评分的项目的特征向量组成的矩阵,nui表示第i个用户评分数,I为D×D的单位矩阵,λ表示步长,T表示迭代次数,i表示矩阵Mz的行号,Mi.表示第i个用户的用户特征向量,即矩阵Mz的第i行;
步骤2)-b-3),固定用户特征矩阵Mz,按照如下公式逐个更新每个项目特征向量Nj.
Figure BDA0001663188920000022
其中,Mmj表示评分过第j个项目的用户的特征向量组成的矩阵,nmj表示第j个项目的被评分数,I为D×D的单位矩阵,j表示矩阵Nz的行号,Nj.表示第j个项目的项目特征向量,即矩阵Nz的第j行;
步骤2)-b-4),重复步骤步骤2)-b-2)和步骤2)-b-3)两个步骤T次直到结束;
2)-c实施K-means算法分别对用户特征矩阵Mz和项目特征矩阵Nz进行聚类,得到kz个用户聚簇和lz个项目聚簇;
步骤2)-c中所述的K-means聚类算法具体过程如下:
步骤2)-c-1)随机选择K个数据作为初始聚簇中心,其中K预先确定;
步骤2)-c-2)根据欧式距离公式把每行数据分配到离它最近的聚簇中,公式如下:
Figure BDA0001663188920000031
其中,dis(a,b)表示数据a和数据b的欧氏距离,Xa,d为数据a在第d个属性上的值,Xa,d为数据b在第d个属性上的值;
步骤2)-c-3)重新计算每个聚簇的聚簇中心值;
步骤2)-c-4)重复步骤2)-c-2)和步骤2)-c-3)T次直到结束;
2)-d计算每个用户聚簇对项目聚簇的平均评分pkl
步骤2)-d中所述的计算每个用户聚簇对项目聚簇的平均评分公式如下:
Figure BDA0001663188920000032
其中,pkl表示第k个用户聚簇对第l个项目聚簇的平均评分,ru,v代表用户u对项目v的评分,
Figure BDA0001663188920000033
代表聚簇
Figure BDA0001663188920000034
中用户个数,
Figure BDA0001663188920000035
代表聚簇
Figure BDA0001663188920000036
中项目个数。
2)-e构造辅助电商的聚类特征矩阵Pz,聚类特征矩阵Pz中的元素为pkl
2)-f针对每个辅助电商
Figure BDA0001663188920000037
z∈{1,2,…,Z},重复以上步骤直到结束;
3)目标域学习阶段:
3)-a获取目标电商
Figure BDA0001663188920000038
的用户-项目评分矩阵RT
3)-b迁移聚类特征矩阵Pz,帮助用户-项目评分矩阵RT完成矩阵分解,得到参数Uz、Vz和αz
步骤3)-b中所述的矩阵分解的具体过程如下:
3)-b-1)定义目标域矩阵分解的目标方程,公式如下:
Figure BDA0001663188920000039
其中,Uz、Vz和αz为此目标方程所需求解的参数,Uz表示目标域用户所属的源域
Figure BDA00016631889200000312
中的哪一用户聚簇,Vz表示目标域项目所属的源域
Figure BDA00016631889200000310
中的哪一项目聚簇,αz表示源域
Figure BDA00016631889200000311
迁移程度的参数,
Figure BDA0001663188920000041
kz为辅助域
Figure BDA0001663188920000042
用户聚类个数,lz为辅助域
Figure BDA0001663188920000043
项目聚类个数,W代表RT的标记矩阵,矩阵1代表全“1”矩阵,符号°代表矩阵间对于元素相乘,Uz1=1,Vz1=1确保每个用户和项目仅属于一个聚类特征,即每一行仅有一个元素为1,其余为0;
3)-b-2)随机初始化Vz,保证每一行仅有一个元素为1,其余为0;
3)-b-3)令
Figure BDA0001663188920000044
3)-b-4)每个用户ui可能属于的辅助域
Figure BDA0001663188920000045
用户聚类有kz个,综合考虑Z个辅助域知识,则其组合情况则有k1×k2×…×kz个,从中选择一种组合方式令下式最小,即通过检查所有辅助域中的用户聚类的不同组合,选择最能预测目标评分的组合来找到目标用户所属对应辅助域聚类[Uz]i
Figure BDA0001663188920000046
其中,
Figure BDA0001663188920000047
3)-b-5)令Uz的第i行第jz列为1,其余为0;
3)-b-6)对于RT每一行i重复3)-b-4)和3)-b-5);
3)-b-7)每个项目vi可能属于的辅助域
Figure BDA0001663188920000048
项目聚类有lz个,综合考虑多个辅助域知识,则其组合情况则有l1×l2×…×lz个,从中选择一种组合方式令下式最小,即通过检查所有辅助域中的项目聚类的不同组合,选择最能预测目标评分的组合来找到目标域项目所属对应辅助域聚类[Vz]i
Figure BDA0001663188920000049
3)-b-8)令Vz的第i行第jz列为1,其余为0;
3)-b-9)对于RT每一列i重复步骤3)-b-7)和3)-b-8);
3)-b-10)更新向量
Figure BDA00016631889200000410
公式如下:
Figure BDA00016631889200000411
其中,
Figure BDA00016631889200000412
W为RT的标记矩阵;
3)-b-11)重复步骤3)-b-4)到步骤3)-b-10)T次直到结束;
3)-c重构目标电商的用户-项目评分矩阵,得到重构矩阵
Figure BDA0001663188920000051
步骤3)-c中所述的重构目标电商用户项目-评分矩阵公式如下:
Figure BDA0001663188920000052
其中,W代表RT的标记矩阵,1代表矩阵元素全为数值1的矩阵。
3)-d根据具体需求,确定要推荐的商品个数N,由重构矩阵
Figure BDA0001663188920000053
找到用户ui评分最高的前N个商品进行推荐;
3)-e结束。
本发明相比现有技术,具有以下有益效果:
本发明的一种基于聚类特征迁移的多电商交叉推荐方法为传统的电商推荐系统存在的数据稀疏性、冷启动、多样性与精确性两难困境等诸多困扰提供了一种新的解决方法,该方法通过从稠密的辅助电商中提取聚类特征,并将其作为领域知识迁移至稀疏的目标域电商,同时假设各个辅助域与目标域之间存在不同的相关度,并根据此相关度决定每个域知识的迁移程度,一方面可以改善目标电商因稀疏性导致的矩阵分解不精确问题,另一方面可以降低不一致性信息带来的负迁移问题,从而提高目标电商的推荐性能。
附图说明
图1为一种基于聚类特征迁移的多电商交叉推荐方法的流程图。
图2为用户-项目评分矩阵转化图。
图3为采用ALS算法提取用户/项目特征矩阵的流程图;
图4为采用K-means算法获得用户/项目聚类的流程图。
图5为目标电商迁移辅助电商聚类特征以帮助其进行矩阵分解的流程图。
具体实施方式
下面结合附图和具体实施例,进一步阐明本发明,应理解这些实例仅用于说明本发明而不用于限制本发明的范围,在阅读了本发明之后,本领域技术人员对本发明的各种等价形式的修改均落于本申请所附权利要求所限定的范围。
如图1为本发明实施的一种基于聚类特征迁移的多电商交叉推荐方法的流程图。具体步骤描述如下:
步骤0为本发明的起始状态;
在评分矩阵构造阶段(步骤1-3),步骤1是采集多个电商的用户历史行为数据;
步骤2是对用户历史行为数据去除重复数据和缺失数据并删除用户行为记录极少的数据;
步骤3,综合使用能反映用户购买兴趣的行为数据,将经步骤2预处理之后的行为数据构建每个电商网站的用户-项目评分矩阵;
在辅助域学习阶段(步骤4-8),步骤4是分别获取每个辅助电商
Figure BDA0001663188920000061
的用户-项目评分矩阵Rz,z∈{1,2,…,Z};
步骤5是在每个辅助领域分别实施ALS算法从Rz中提取维度为D的用户特征矩阵Mz和项目特征矩阵Nz
步骤6是在每个辅助领域分别实施K-means算法分别对用户特征矩阵Mz和项目特征矩阵Nz进行聚类,得到kz个用户聚簇和lz个项目聚簇;
步骤7是在每个辅助领域分别计算每个用户聚簇对项目聚簇的平均评分pij,即将第i个用户聚簇内的每个用户对第j个项目聚簇内的项目的评分相加然后除以第i个用户聚簇的用户数和第j个项目聚簇的项目数乘积;
所述的计算每个用户聚簇对项目聚簇的平均评分公式如下:
Figure BDA0001663188920000062
其中,pkl表示第k个用户聚簇对第l个项目聚簇的平均评分,ru,v代表用户u对项目v的评分,
Figure BDA0001663188920000063
代表聚簇
Figure BDA0001663188920000064
中用户个数,
Figure BDA0001663188920000065
代表聚簇
Figure BDA0001663188920000066
中项目个数。
步骤8是构造每个辅助电商的聚类特征矩阵Pz,其中矩阵元素为步骤7得到的平均评分pkl
在目标域学习阶段(步骤9-12),步骤9是获取目标电商
Figure BDA0001663188920000067
的用户项目评分矩阵RT
步骤10是将多个聚类特征Pz迁移到目标域,并据此帮助目标电商完成矩阵分解,得到参数Uz、Vz和αz
步骤11是根据步骤9得到的参数Uz、Vz和αz,重构目标领域矩阵,公式为
Figure BDA0001663188920000068
Figure BDA0001663188920000069
其中RT为目标电商
Figure BDA00016631889200000610
的用户-项目评分矩阵,W为RT的标记矩阵;
步骤12是根据具体需求,确定要推荐的商品个数N,由重构矩阵
Figure BDA00016631889200000611
找到用户ui评分最高的前N个商品进行推荐;
步骤13是结束状态。
如图2为对图1中步骤3的详细描述,电商推荐领域中用户与商品之间存在多种交互行为,例如浏览、点击、加购物车、购买等。这些行为其实就是一个能很好表现用户喜好的隐式行为数据。需综合考虑这些数据,根据每个行为所传达出的用户对商品的偏爱程度将其转化为用户-项目评分矩阵。
如图3是对图1中步骤5的详细描述。
步骤14是起始状态;
步骤15是用(0,1)之间的数值随机初始化矩阵Nz
步骤16是固定矩阵Nz,按照如下公式逐行更新矩阵M:
Figure BDA0001663188920000071
其中,Nui表示第i个用户评分的项目的特征向量组成的矩阵,nui表示第i个用户评分数,I为D×D的单位矩阵,λ表示步长,T表示迭代次数,i表示矩阵Mz的行号,Mi.表示第i个用户的用户特征向量,即矩阵Mz的第i行;
步骤17是固定矩阵Mz,按照如下公式逐行更新矩阵N:
Figure BDA0001663188920000072
其中,Mmj表示评分过第j个项目的用户的特征向量组成的矩阵,nmj表示第j个项目的被评分数,I为D×D的单位矩阵,j表示矩阵Nz的行号,Nj.表示第j个项目的项目特征向量,即矩阵Nz的第j行;
步骤18是判断是否迭代了T次,如果否,转步骤15,如果是,转步骤18;
步骤19是结束状态。
如图4为步骤6中K-means算法的具体描述。
步骤20是起始状态;
步骤21是确定聚类个数K,当对第z个辅助域的用户特征矩阵进行聚类时,K为kz,当对第z个辅助域的项目特征矩阵进行聚类时,K为lz
步骤22是随机选择K个数据作为初始聚类中心;
步骤23是根据欧式距离把每行数据点分配到离它最近的聚类中,公式如下:
Figure BDA0001663188920000073
其中Xa,d为数据a在第d个属性上的值,Xb,d为数据b在第d个属性上的值;
步骤24是根据分配到各个聚类中的数据点,重新计算每个聚类新的中心值;
步骤25是判断是否迭代了T次,如果否,转步骤22,如果是,转步骤25;
步骤26是结束状态。
如图5是对图1中步骤10的具体描述。
步骤27是起始状态;
步骤28是随机初始化Z个矩阵Vz,保证每行仅有一个元素为1,其余为0;
步骤29是令表征迁移程度的Z个参数
Figure BDA0001663188920000081
步骤30是求取用户ui属于第z个辅助域的哪一用户聚类jz,即通过检查所有源域中用户聚类的不同组合,共k1×k2×…×kz种情况,选择最能预测目标评分的组合来找到目标用户所属对应辅助域聚类[Uz]i,即选择一种组合方式
Figure BDA0001663188920000082
令下式取得最小值:
Figure BDA0001663188920000083
其中为RT为目标电商的用户-项目评分矩阵,
Figure BDA0001663188920000084
步骤31是令Uz的第i行第jz列为1,其余为0,针对目标域每个用户ui重复执行步骤30和31;
步骤32是求取项目vi属于第z个辅助域的哪一项目聚类jz,即通过检查所有辅助域中项目聚类的不同组合,共l1×l2×…×lz种情况,选择最能预测目标评分的组合来找到目标项目所属对应辅助域聚类[Uz]i,即选择一种组合方式
Figure BDA0001663188920000085
令下式取得最小值:
Figure BDA0001663188920000086
步骤33是令Vz的第i行第jz列为1,其余为0,针对目标域每个项目vi重复执行步骤32和33;
步骤34是更新向量
Figure BDA0001663188920000087
公式如下:
Figure BDA0001663188920000088
其中
Figure BDA0001663188920000089
W为RT的标记矩阵;
步骤35是判断是否迭代了T次,如果否,转步骤29,如果是,转步骤35;
步骤36是结束状态。
本发明采用迁移学习技术,即从多个辅助域提取聚类特征,作为知识以不同的权值迁移至目标域,来帮助目标电商重构用户-项目评分矩阵,从而完成最终推荐。采用迁移学习技术并引入表征迁移程度的参数以降低破坏性信息引起的负迁移问题,通过在真实的电商网站数据上进行实验,表明了该方法可以有效缓解传统电商推荐系统存在的数据稀疏性、冷启动和多样性与精确性两难问题,提高推荐性能。
综上所述,本发明的一种基于聚类特征迁移的多电商交叉推荐方法利用迁移学习技术为电商推荐系统存在的数据稀疏性、冷启动和多样性与精确性两难困境问题提供了一种新的解决思路。
以上所述仅是本发明的优选实施方式,应当指出:对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本发明的保护范围。

Claims (5)

1.一种基于聚类特征迁移的多电商交叉推荐方法,其特征在于,包括如下步骤:
步骤1,评分矩阵构造阶段:采集各个电商网站的用户历史行为数据并进行预处理,综合使用能反映用户购买兴趣的行为数据,分别构建每个电商网站的用户-项目评分矩阵;
用户-项目评分矩阵是指将用户名和项目名替换为矩阵的行号和列号,并将行为数据转化为具体数值;行为数据是指反映用户购买兴趣的点击、浏览、收藏、购买的行为的数据;
步骤2,辅助域学习阶段:获取辅助电商
Figure FDA00032417012900000115
的用户-项目评分矩阵Rz,z∈{1,2,…,Z};实施ALS算法从用户-项目评分矩阵Rz中提取维度为D的用户特征矩阵Mz和项目特征矩阵Nz;实施K-means算法分别对用户特征矩阵Mz和项目特征矩阵Nz进行聚类,得到kz个用户聚簇和lz个项目聚簇;计算每个用户聚簇对项目聚簇的平均评分pkl;构造辅助电商的聚类特征矩阵Pz,聚类特征矩阵Pz中的元素为pkl
计算每个用户聚簇对项目聚簇的平均评分公式如下:
Figure FDA0003241701290000011
其中,pkl表示第k个用户聚簇对第l个项目聚簇的平均评分,ru,v代表用户u对项目v的评分,
Figure FDA0003241701290000012
代表聚簇
Figure FDA0003241701290000013
中用户个数,
Figure FDA0003241701290000014
代表聚簇
Figure FDA0003241701290000015
中项目个数;
步骤3,目标域学习阶段:获取目标电商
Figure FDA00032417012900000116
的用户-项目评分矩阵RT;迁移聚类特征矩阵Pz,帮助用户-项目评分矩阵RT完成矩阵分解,得到参数Uz、Vz和αz;重构目标电商的用户-项目评分矩阵,得到重构矩阵
Figure FDA0003241701290000016
然后根据具体需求,确定要推荐的商品个数N,由重构矩阵
Figure FDA0003241701290000017
找到用户ui评分最高的前N个商品进行推荐;
矩阵分解的具体过程如下:
3)-b-1)定义目标域矩阵分解的目标方程,公式如下:
Figure FDA0003241701290000018
s.t.Uz1=1,Vz1=1
其中,Uz、Vz和αz为此目标方程所需求解的参数,Uz表示目标域用户所属源域
Figure FDA0003241701290000019
中的哪一用户聚簇,Vz表示目标域项目所属源域
Figure FDA00032417012900000110
中的哪一项目聚簇,αz表示源域
Figure FDA00032417012900000111
迁移程度的参数,
Figure FDA00032417012900000112
kz为辅助域
Figure FDA00032417012900000113
用户聚类个数,lz为辅助域
Figure FDA00032417012900000114
项目聚类个数,W代表RT的标记矩阵,矩阵1代表全“1”矩阵,符号°代表矩阵间对应元素相乘,Uz1=1,Vz1=1确保每个用户和项目仅属于一个聚类特征,即每一行仅有一个元素为1,其余为0;
3)-b-2)随机初始化Vz,保证每一行仅有一个元素为1,其余为0;
3)-b-3)令
Figure FDA0003241701290000021
3)-b-4)每个用户ui可能属于的辅助域
Figure FDA0003241701290000022
用户聚类有kz个,综合考虑Z个辅助域知识,则其组合情况则有k1×k2×…×kz个,从中选择一种组合方式令下式最小,即通过检查所有辅助域中的用户聚类的不同组合,选择最能预测目标评分的组合来找到目标用户所属对应辅助域聚类[Uz]i
Figure FDA0003241701290000023
其中,
Figure FDA0003241701290000024
3)-b-5)令Uz的第i行第jz列为1,其余为0;
3)-b-6)对于RT每一行i重复3)-b-4)和3)-b-5);
3)-b-7)每个项目vi可能属于的辅助域
Figure FDA0003241701290000025
项目聚类有lz个,综合考虑多个辅助域知识,则其组合情况则有l1×l2×…×lz个,从中选择一种组合方式令下式最小,即通过检查所有辅助域中的项目聚类的不同组合,选择最能预测目标评分的组合来找到目标域项目所属对应辅助域聚类[Vz]i
Figure FDA0003241701290000026
3)-b-8)令Vz的第i行第jz列为1,其余为0;
3)-b-9)对于RT每一列i重复步骤3)-b-7)和3)-b-8);
3)-b-10)更新向量
Figure FDA0003241701290000027
公式如下:
Figure FDA0003241701290000028
其中,
Figure FDA0003241701290000029
W为RT的标记矩阵;
3)-b-11)重复步骤3)-b-4)到步骤3)-b-10)T次直到结束;
其中所述重构目标电商用户项目-评分矩阵公式如下:
Figure FDA0003241701290000031
其中,W代表RT的标记矩阵,1代表矩阵元素全为数值1的矩阵。
2.根据权利要求1所述基于聚类特征迁移的多电商交叉推荐方法,其特征在于:步骤2中所述ALS算法具体过程如下:
步骤2)-b-1)用(0,1)中的值随机初始化项目特征矩阵Nz
步骤2)-b-2)固定项目特征矩阵Nz,按照如下公式逐个更新每个用户特征向量Mi.
Figure FDA0003241701290000032
其中,Nui表示第i个用户评分的项目的特征向量组成的矩阵,nui表示第i个用户评分数,I为D×D的单位矩阵,λ表示步长,T表示迭代次数,i表示矩阵Mz的行号,Mi.表示第i个用户的用户特征向量,即矩阵Mz的第i行;
步骤2)-b-3),固定用户特征矩阵Mz,按照如下公式逐个更新每个项目特征向量Nj.
Figure FDA0003241701290000033
其中,Mmj表示评分过第j个项目的用户的特征向量组成的矩阵,nmj表示第j个项目的被评分数,I为D×D的单位矩阵,j表示矩阵Nz的行号,Nj.表示第j个项目的项目特征向量,即矩阵Nz的第j行;
步骤2)-b-4),重复步骤2)-b-2)和步骤2)-b-3)两个步骤T次直到结束。
3.根据权利要求2所述基于聚类特征迁移的多电商交叉推荐方法,其特征在于:步骤2中所述K-means聚类算法具体过程如下:
步骤2)-c-1)随机选择K个数据作为初始聚簇中心,其中K预先确定;
步骤2)-c-2)根据欧式距离公式把每行数据分配到离它最近的聚簇中,公式如下:
Figure FDA0003241701290000034
其中,dis(a,b)表示数据a和数据b的欧氏距离,Xa,d为数据a在第d个属性上的值,Xb,d为数据b在第d个属性上的值;
步骤2)-c-3)重新计算每个聚簇的聚簇中心值;
步骤2)-c-4)重复步骤2)-c-2)和步骤2)-c-3)T次直到结束。
4.根据权利要求3所述基于聚类特征迁移的多电商交叉推荐方法,其特征在于:步骤3中矩阵分解的具体过程如下:
3)-b-1)定义目标域矩阵分解的目标方程,公式如下:
Figure FDA0003241701290000041
s.t.Uz1=1,Vz1=1
其中,Uz、Vz和αz为此目标方程所需求解的参数,Uz表示目标域用户所属源域
Figure FDA0003241701290000042
中的哪一用户聚簇,Vz表示目标域项目所属源域
Figure FDA0003241701290000043
中的哪一项目聚簇,αz表示源域
Figure FDA0003241701290000044
迁移程度的参数,
Figure FDA0003241701290000045
kz为辅助域
Figure FDA0003241701290000046
用户聚类个数,lz为辅助域
Figure FDA0003241701290000047
项目聚类个数,W代表RT的标记矩阵,矩阵1代表全“1”矩阵,符号°代表矩阵间对应元素相乘,Uz1=1,Vz1=1确保每个用户和项目仅属于一个聚类特征,即每一行仅有一个元素为1,其余为0;
3)-b-2)随机初始化Vz,保证每一行仅有一个元素为1,其余为0;
3)-b-3)令
Figure FDA0003241701290000048
3)-b-4)每个用户ui可能属于的辅助域
Figure FDA0003241701290000049
用户聚类有kz个,综合考虑Z个辅助域知识,则其组合情况则有k1×k2×…×kz个,从中选择一种组合方式令下式最小,即通过检查所有辅助域中的用户聚类的不同组合,选择最能预测目标评分的组合来找到目标用户所属对应辅助域聚类[Uz]i
Figure FDA00032417012900000410
其中,
Figure FDA00032417012900000411
3)-b-5)令Uz的第i行第jz列为1,其余为0;
3)-b-6)对于RT每一行i重复3)-b-4)和3)-b-5);
3)-b-7)每个项目vi可能属于的辅助域
Figure FDA00032417012900000412
项目聚类有lz个,综合考虑多个辅助域知识,则其组合情况则有l1×l2×…×lz个,从中选择一种组合方式令下式最小,即通过检查所有辅助域中的项目聚类的不同组合,选择最能预测目标评分的组合来找到目标域项目所属对应辅助域聚类[Vz]i
Figure FDA0003241701290000051
3)-b-8)令Vz的第i行第jz列为1,其余为0;
3)-b-9)对于RT每一列i重复步骤3)-b-7)和3)-b-8);
3)-b-10)更新向量
Figure FDA0003241701290000052
公式如下:
Figure FDA0003241701290000053
其中,
Figure FDA0003241701290000054
W为RT的标记矩阵;
3)-b-11)重复步骤3)-b-4)到步骤3)-b-10)T次直到结束。
5.根据权利要求4所述基于聚类特征迁移的多电商交叉推荐方法,其特征在于:所述步骤1中预处理操作数据清洗、去噪音处理,其中数据清洗是去除重复数据和缺失数据,去噪音是删除用户行为记录极少的数据。
CN201810470713.2A 2018-05-17 2018-05-17 一种基于聚类特征迁移的多电商交叉推荐方法 Active CN108717654B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810470713.2A CN108717654B (zh) 2018-05-17 2018-05-17 一种基于聚类特征迁移的多电商交叉推荐方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810470713.2A CN108717654B (zh) 2018-05-17 2018-05-17 一种基于聚类特征迁移的多电商交叉推荐方法

Publications (2)

Publication Number Publication Date
CN108717654A CN108717654A (zh) 2018-10-30
CN108717654B true CN108717654B (zh) 2022-03-25

Family

ID=63900134

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810470713.2A Active CN108717654B (zh) 2018-05-17 2018-05-17 一种基于聚类特征迁移的多电商交叉推荐方法

Country Status (1)

Country Link
CN (1) CN108717654B (zh)

Families Citing this family (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109711925A (zh) * 2018-11-23 2019-05-03 西安电子科技大学 具有多个辅助域的跨域推荐数据处理方法、跨域推荐系统
CN110070535A (zh) * 2019-04-23 2019-07-30 东北大学 一种基于实例迁移学习的视网膜血管图像分割方法
CN110516165B (zh) * 2019-08-28 2022-09-06 安徽农业大学 一种基于文本ugc的混合神经网络跨领域推荐方法
CN110955775A (zh) * 2019-11-11 2020-04-03 南通大学 一种基于隐式问询的绘本推荐方法
CN112364937B (zh) * 2020-11-30 2021-12-14 腾讯科技(深圳)有限公司 用户类别确定方法及装置、推荐内容确定方法、电子设备
CN112669083A (zh) * 2020-12-30 2021-04-16 杭州趣链科技有限公司 商品的推荐方法、装置和电子设备

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106339502A (zh) * 2016-09-18 2017-01-18 电子科技大学 一种基于用户行为数据分片聚类的建模推荐方法
CN106485537A (zh) * 2016-09-07 2017-03-08 北京邮电大学 一种基于潜层因子的跨领域商品推荐方法及装置
CN107273438A (zh) * 2017-05-24 2017-10-20 深圳大学 一种推荐方法、装置、设备及存储介质

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106485537A (zh) * 2016-09-07 2017-03-08 北京邮电大学 一种基于潜层因子的跨领域商品推荐方法及装置
CN106339502A (zh) * 2016-09-18 2017-01-18 电子科技大学 一种基于用户行为数据分片聚类的建模推荐方法
CN107273438A (zh) * 2017-05-24 2017-10-20 深圳大学 一种推荐方法、装置、设备及存储介质

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
基于知识迁移的跨领域推荐算法研究;李林峰;《CNKI优秀硕士学位论文全文数据库》;20180131;第1-65页 *

Also Published As

Publication number Publication date
CN108717654A (zh) 2018-10-30

Similar Documents

Publication Publication Date Title
CN108717654B (zh) 一种基于聚类特征迁移的多电商交叉推荐方法
Pan et al. Study on convolutional neural network and its application in data mining and sales forecasting for E-commerce
Zhu et al. Online purchase decisions for tourism e-commerce
Li et al. Exploiting explicit and implicit feedback for personalized ranking
Bauer et al. Recommender systems based on quantitative implicit customer feedback
Changchien et al. Mining association rules procedure to support on-line recommendation by customers and products fragmentation
CN109783738B (zh) 一种基于多相似度的双极限学习机混合协同过滤推荐方法
CN106447463A (zh) 一种基于马尔科夫决策过程模型的商品推荐方法
CN115082147A (zh) 一种基于超图神经网络的序列推荐方法及装置
Bae et al. Integration of heterogeneous models to predict consumer behavior
CN114065048B (zh) 基于多异构图图神经网络的物品推荐方法
CN113268656A (zh) 一种用户推荐方法、装置、电子设备及计算机存储介质
CN112579876A (zh) 基于用户兴趣的信息推送方法、装置、系统及存储介质
US9213767B2 (en) Method and system for characterizing web content
Tan et al. Recommendation based on users’ long-term and short-term interests with attention
CN114896517A (zh) 一种商品推荐方法、系统、设备及存储介质
Kao et al. Prediction of remaining time on site for e‐commerce users: A SOM and long short‐term memory study
CN113763095B (zh) 信息推荐方法、装置和模型训练方法、装置
Magron et al. Neural content-aware collaborative filtering for cold-start music recommendation
CN112232388B (zh) 基于elm-rfe的购物意图关键因素识别方法
Greenstein‐Messica et al. Personal‐discount sensitivity prediction for mobile coupon conversion optimization
CN116911949A (zh) 基于边界排名损失和邻域感知图神经网络的物品推荐方法
CN116071119B (zh) 一种基于多行为推荐模型的模型不可知反事实解释方法
Ifada et al. Do-rank: DCG optimization for learning-to-rank in tag-based item recommendation systems
CN113159891B (zh) 一种基于多种用户表示融合的商品推荐方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant