CN110197404B - 可降低流行度偏差的个性化长尾商品推荐方法和系统 - Google Patents
可降低流行度偏差的个性化长尾商品推荐方法和系统 Download PDFInfo
- Publication number
- CN110197404B CN110197404B CN201910505581.7A CN201910505581A CN110197404B CN 110197404 B CN110197404 B CN 110197404B CN 201910505581 A CN201910505581 A CN 201910505581A CN 110197404 B CN110197404 B CN 110197404B
- Authority
- CN
- China
- Prior art keywords
- commodity
- user
- iter
- social
- probability
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 69
- 238000012545 processing Methods 0.000 claims abstract description 8
- 239000011159 matrix material Substances 0.000 claims description 52
- 230000006399 behavior Effects 0.000 claims description 35
- 241000287196 Asthenes Species 0.000 claims 2
- 101100533306 Mus musculus Setx gene Proteins 0.000 claims 1
- 238000001914 filtration Methods 0.000 abstract description 14
- 230000008569 process Effects 0.000 description 6
- 230000009471 action Effects 0.000 description 3
- 238000004364 calculation method Methods 0.000 description 3
- 238000012360 testing method Methods 0.000 description 3
- 230000009286 beneficial effect Effects 0.000 description 2
- 238000011156 evaluation Methods 0.000 description 2
- 230000007547 defect Effects 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000002474 experimental method Methods 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 238000012549 training Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q30/00—Commerce
- G06Q30/02—Marketing; Price estimation or determination; Fundraising
- G06Q30/0241—Advertisements
- G06Q30/0251—Targeted advertisements
- G06Q30/0269—Targeted advertisements based on user profile or attribute
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q30/00—Commerce
- G06Q30/06—Buying, selling or leasing transactions
- G06Q30/0601—Electronic shopping [e-shopping]
- G06Q30/0631—Item recommendations
Landscapes
- Business, Economics & Management (AREA)
- Accounting & Taxation (AREA)
- Finance (AREA)
- Strategic Management (AREA)
- Engineering & Computer Science (AREA)
- Development Economics (AREA)
- General Physics & Mathematics (AREA)
- Economics (AREA)
- Marketing (AREA)
- Physics & Mathematics (AREA)
- General Business, Economics & Management (AREA)
- Theoretical Computer Science (AREA)
- Game Theory and Decision Science (AREA)
- Entrepreneurship & Innovation (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明提供可降低流行度偏差的个性化长尾商品推荐方法和系统,涉及计算机数据处理技术领域。本发明融合用户行为数据、交易商品的标签数据和社交好友数据,使用标签数据和社交好友数据弥补长尾商品中缺失的行为数据,降低传统协同过滤方法导致的流行度偏差问题,增加用户和长尾商品之间的联系,解决了现有商品推荐系统因数据稀疏导致的流行度偏差、长尾商品被推荐的次数过低的技术问题,增加了长尾商品被推荐的概率,提高了长尾商品被推荐的次数;同时利用排序方法确定商品推荐结果,排序方法对隐式反馈数据具有良好的适应性,能够有效提高个性化推荐的精度,从而为用户提供更好的个性化服务。
Description
技术领域
本发明涉及计算机数据处理技术领域,具体涉及一种可降低流行度偏差的个性化长尾商品推荐方法和系统。
背景技术
随着互联网的快速发展,人们可以在诸如Twitter、Facebook和淘宝这样的平台上建立社交关系、加入社区、分享转发或者评论。与此同时,用户生成内容的迅速增长加剧了“信息过载”,用户在海量数据中获取感兴趣的信息难且耗时。为了有效解决这种问题,各个平台运营商根据用户行为数据,建立推荐系统,为用户提供个性化的推荐。
目前主流的网络商品推荐系统主要采用两种方法:基于内容的推荐方法和协同过滤方法。基于内容的推荐,其基本思想是根据用户过去交易或收藏的产品,为用户推荐和他交易或收藏过的产品内容相似的产品。协同过滤方法又分为基于用户的协同过滤和基于商品的协同过滤。基于用户的协同过滤方法会分析用户兴趣,在用户群中找到指定用户的相似用户,综合这些相似用户对某一商品的交易情况,形成系统对该指定用户对此商品的喜好程度预测。而基于商品的协同过滤方法会分析商品的关联性,根据用户的交易历史,得到该用户所有交易过的商品与某一指定商品的关联程度,从而预测用户对该商品的喜好程度。
然而,由于大部分商品和用户的有效数据缺失,尤其长尾商品(长尾产品是指需求不旺或销量不佳的产品)的相关用户记录极为稀疏,在协同过滤的研究范式中基于近邻的推荐系统通常无法从近邻用户中得到长尾商品的相关记录,基于模型的推荐系统也主要从受欢迎的商品中了解用户的偏好,因为这些商品占了数据的大多数,导致最终推荐列表中流行商品占了绝大部分,推荐系统产生流行度偏差(流行度偏差是指推荐系统更倾向于推荐流行产品,长尾产品常常被排除在推荐列表之外,该问题容易产生于协同过滤推荐系统中),从而带来了长尾商品的被推荐次数过低的问题。
发明内容
(一)解决的技术问题
针对现有技术的不足,本发明提供了一种可降低流行度偏差的个性化长尾商品推荐方法和系统,解决了现有商品推荐系统中长尾商品被推荐的次数过低的技术问题。
(二)技术方案
为实现以上目的,本发明通过以下技术方案予以实现:
本发明提供一种可降低流行度偏差的个性化长尾商品推荐方法,所述方法由计算机执行,包括以下步骤:
S1、获取用户数据、用户行为数据、交易商品的标签数据和用户的社交好友数据,并形成历史数据;
S2、基于历史数据构建概率生成集合;
S3、基于概率生成集合获取用户—主题概率分布矩阵、主题—商品概率分布矩阵;
S4、基于用户一主题概率分布矩阵和主题-商品概率分布矩阵获取用户对商品的偏好权重;
S5、对偏好权重进行由高到低的排序,基于排序结果确定商品推荐结果。
优选的,所述用户行为数据包括:用户交易数据和隐形行为数据。
优选的,所述历史数据包括:
所述用户数据为用户集合U={1,...,u,...,|U|},其中,u表示任意用户,1≤u≤|U|;
所述用户交易数据为商品集合W={1,...,w,...,|W|},w表示任意商品,1≤w≤|W|;
所述交易商品的标签数据为商品标签集合L={1,...,l,...,|L|},l表示任意商品标签,1≤l≤|L|;
所述用户的社交好友数据为社交用户集合T={1,...,t,...,|T|},t表示任意用户的社交好友,1≤t≤|T|。
优选的,所述步骤S2具体包括:
S201、设置迭代总次数为itermax,当前迭代次数为iter;主题所对应的编号为k,k=0,1,...,K,主题分布的先验参数集合为α={α0,α1,...,αk,...,αK},αk表示主题编号k分布的先验参数,商品分布的先验参数集合为β={β1,...,βw,...,β|W|},βw表示任意商品w分布的先验参数,商品标签分布的先验参数集合为δ={δ1,...,δl,...,δ|L|},δl表示任意商品标签l分布的先验参数,社交用户的先验参数集合为τ={τ1,...,τt,...,τ|T|},τt表示任意社交用户t的先验参数;
S202、初始化iter=1,初始化αk、βw、δl、τt,将αk、βw、δl、τt的初始值均设置为0.01;
随机给商品标签集合L中的每个标签分配主题所对应的编号,其中,商品标签j在第iter次迭代中的主题编号记为1≤j≤|L|,则所有商品标签在第iter次迭代中的主题编号所构成的商品标签主题集合记为x(iter);
随机给社交用户集合T中的每个社交用户分配主题所对应的编号,其中,社交用户g在第iter次迭代中的主题编号记为1≤g≤|T|,则所有社交用户在第iter次迭代中的主题编号所构成的社交用户主题集合记为y(iter);
S203、排除当前商品i所分配的主题编号,根据其他所有商品所分配的主题编号所构成的商品主题集合商品集合W、商品标签集合L以及商品标签主题集合x(iter)、社交用户集合T以及社交用户主题集合y(iter),利用式(1)计算当前商品i分配给主题编号k的概率:
其中:
S204、排除当前商品标签j所分配的主题编号,根据其他所有商品标签所分配的主题编号所构成的商品标签主题集合商品标签集合L、商品集合W以及商品主题集合z(iter)、社交用户集合T以及社交用户主题集合y(iter),利用式(2)计算当前商品标签j分配给主题编号k的概率:
其中:
S205、排除当前社交用户g所分配的主题编号,根据其他社交用户所分配的主题编号所构成的社交用户主题集合社交用户集合T、商品集合W以及商品主题集合z(iter)、商品标签集合L以及商品标签主题集合x(iter),利用式(3)计算当前社交用户g分配给主题编号k的概率:
其中:
S212、令iter+1赋值给iter,更新iter的值,并判断iter>itermax是否成立,若不成立,则返回步骤S203,重复步骤S203到步骤S212;若成立,则执行步骤S3。
优选的,所述步骤S3包括:
基于式(7)计算用户u-主题编号k的概率分布矩阵Θu,k,基于式(8)计算主题编号k-商品w的概率分布矩阵Φk,w,从而得到用户一主题概率分布矩阵Θ、主题一商品概率分布矩阵Φ:
其中:
αk表示主题编号k分布的先验参数;
βw表示任意商品w分布的先验参数。
优选的,所述步骤S4具体包括:
基于式(9)计算用户u对商品w的偏好权重ru,w,从而得到用户u对所有商品的偏好权重:
优选的,所述步骤S5具体包括:
根据偏好权重由高到低的排序,取其中前N项生成用户u的商品推荐列表,进而推荐给用户u。
本发明还提供一种降低流行度偏差的个性化长尾商品推荐系统,所述系统包括计算机,所述计算机包括:
至少一个存储单元;
至少一个处理单元;
其中,所述至少一个存储单元中存储有至少一条指令,所述至少一条指令由所述至少一个处理单元加载并执行以实现以下步骤:
S1、获取用户数据、用户行为数据、交易商品的标签数据和用户的社交好友数据,并形成历史数据;
S2、基于历史数据构建概率生成集合;
S3、基于概率生成集合获取用户—主题概率分布矩阵、主题—商品概率分布矩阵;
S4、基于用户—主题概率分布矩阵和主题—商品概率分布矩阵获取用户对商品的偏好权重;
S5、对偏好权重进行由高到低的排序,基于排序结果确定商品推荐结果。
(三)有益效果
本发明提供了一种可降低流行度偏差的个性化长尾商品推荐方法和系统。与现有技术相比,具备以下有益效果:
本发明基于用户数据、用户行为数据、交易商品的标签数据和用户的社交好友数据构建概率生成集合;再基于概率生成集合获取用户—主题概率分布矩阵、主题—商品概率分布矩阵;然后基于用户—主题概率分布矩阵和主题—商品概率分布矩阵获取用户对商品的偏好权重;对偏好权重进行由高到低的排序,基于排序结果确定商品推荐结果。本发明融合用户行为数据、交易商品的标签数据和社交好友数据,使用标签数据和社交好友数据弥补长尾商品中缺失的行为数据,降低传统协同过滤方法导致的流行度偏差问题,增加用户和长尾商品之间的联系,解决了现有商品推荐系统因数据稀疏导致的流行度偏差、长尾商品被推荐的次数过低的技术问题,增加了长尾商品被推荐的概率,提高了长尾商品被推荐的次数;同时利用排序方法确定商品推荐结果,排序方法对隐式反馈数据具有良好的适应性,能够有效提高个性化推荐的精度,从而为用户提供更好的个性化服务。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例一种可降低流行度偏差的个性化长尾商品推荐方法的流程框图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本申请实施例通过提供一种可降低流行度偏差的个性化长尾商品推荐方法和系统,解决了现有商品推荐系统因数据稀疏导致的流行度偏差、长尾商品被推荐的次数过低的技术问题,实现提高了长尾商品被推荐的次数,为用户提供更好的个性化服务。
本申请实施例中的技术方案为解决上述技术问题,总体思路如下:
本发明实施例融合用户行为数据、交易商品的标签数据和社交好友数据,使用标签数据和社交好友数据弥补长尾商品中缺失的行为数据,降低传统协同过滤方法导致的流行度偏差问题,增加用户和长尾商品之间的联系,解决了现有商品推荐系统因数据稀疏导致的流行度偏差、长尾商品被推荐的次数过低的技术问题,增加了长尾商品被推荐的概率,提高了长尾商品被推荐的次数;同时利用排序方法确定确定商品推荐结果,排序方法对隐式反馈数据具有良好的适应性,能够有效提高个性化推荐的精度,从而为用户提供更好的个性化服务。
为了更好的理解上述技术方案,下面将结合说明书附图以及具体的实施方式对上述技术方案进行详细的说明。
本发明实施例提供了一种可降低流行度偏差的个性化长尾商品推荐方法,该方法由计算机执行,如图1所述,上述方法包括步骤S1~S5:
S1、获取用户数据、用户行为数据、交易商品的标签数据和用户的社交好友数据,并形成历史数据;
S2、基于历史数据构建概率生成集合;
S3、基于概率生成集合获取用户—主题概率分布矩阵、主题—商品概率分布矩阵;
S4、基于用户—主题概率分布矩阵和主题—商品概率分布矩阵获取用户对商品的偏好权重;
S5、对偏好权重进行由高到低的排序,基于排序结果确定商品推荐结果。
本发明实施例基于用户数据、用户行为数据、交易商品的标签数据和用户的社交好友数据构建概率生成集合;再基于概率生成集合获取用户—主题概率分布矩阵、主题—商品概率分布矩阵;然后基于用户—主题概率分布矩阵和主题—商品概率分布矩阵获取用户对商品的偏好权重;对偏好权重进行由高到低的排序,基于排序结果确定商品推荐结果。本发明实施例融合用户行为数据、交易商品的标签数据和社交好友数据,使用标签数据和社交好友数据弥补长尾商品中缺失的行为数据,降低传统协同过滤方法导致的流行度偏差问题,增加用户和长尾商品之间的联系,解决了现有商品推荐系统因数据稀疏导致的流行度偏差、长尾商品被推荐的次数过低的技术问题,增加了长尾商品被推荐的概率,提高了长尾商品被推荐的次数;同时利用排序方法确定商品推荐结果,排序方法对隐式反馈数据具有良好的适应性,能够有效提高个性化推荐的精度,从而为用户提供更好的个性化服务。
下面对各步骤进行详细描述:
在步骤S1中,获取用户数据、用户行为数据、交易商品的标签数据和用户的社交好友数据,并形成历史数据。
其中,用户行为数据包括:用户交易数据和隐形行为数据,隐形行为数据是指没有没有正负性之分的数据,比如用户的收听记录、点击行为、收藏行为、大部分社交好友在某一主题下等,可以通过隐形行为数据判断用户对某一商品是否感兴趣。通常隐性行为数据可以直接通过网站日志数据自动保存,容易获取。
具体的,本发明实施例基于计算机等互联网平台可获取以下历史数据:
用户数据的集合U={1,…,u,…,|U|},其中,u表示任意用户,1≤u≤|U|;
用户已交易商品的集合W={1,...,w,...,|W|},w表示任意商品,1≤w≤|W|;
交易商品的标签数据的集合L={1,...,l,...,|L|},l表示任意商品标签,1≤l≤|L|;
用户的社交好友数据的集合T={1,...,t,...,|T|},t表示任意用户的社交好友,1≤t≤|T|。
在步骤S2中,基于历史数据构建概率生成集合。具体包括步骤S201~S212。
S201、设置迭代总次数为itermax,默认为itermax=1000,也可以根据实际情况设置更合理的迭代次数,一般是根据模型的似然概率稳定后,迭代停止。当前迭代次数为iter;主题所对应的编号为k,k=0,1,...,K,主题分布的先验参数集合为α={α0,α1,...,αk,...,αK},αk表示主题编号k分布的先验参数,商品分布的先验参数集合为β={β1,...,βw,...,β|W|},βw表示任意商品w分布的先验参数,商品标签分布的先验参数集合为δ={δ1,...,δl,...,δ|L|},δl表示任意商品标签1分布的先验参数,社交用户的先验参数集合为τ={τ1,...,τt,...,τ|T|},τt表示任意社交用户t的先验参数;
S202、初始化iter=1,初始化αk、βw、δl、τt,将αk、βw、δl、τt的初始值均设置为0.01;
随机给商品标签集合L中的每个标签分配主题所对应的编号,其中,商品标签j在第iter次迭代中的主题编号记为1≤j≤|L|,则所有商品标签在第iter次迭代中的主题编号所构成的商品标签主题集合记为x(iter);
随机给社交用户集合T中的每个社交用户分配主题所对应的编号,其中,社交用户g在第iter次迭代中的主题编号记为1≤g≤|T|,则所有社交用户在第iter次迭代中的主题编号所构成的社交用户主题集合记为y(iter);
S203、排除当前商品i所分配的主题编号,根据其他所有商品所分配的主题编号所构成的商品主题集合商品集合W、商品标签集合L以及商品标签主题集合x(iter)、社交用户集合T以及社交用户主题集合y(iter),利用式(1)计算当前商品i分配给主题编号k的概率:
其中:
S204、排除当前商品标签j所分配的主题编号,根据其他所有商品标签所分配的主题编号所构成的商品标签主题集合商品标签集合L、商品集合W以及商品主题集合z(iter)、社交用户集合T以及社交用户主题集合y(iter),利用式(2)计算当前商品标签j分配给主题编号k的概率:
其中:
S205、排除当前社交用户g所分配的主题编号,根据其他社交用户所分配的主题编号所构成的社交用户主题集合社交用户集合T、商品集合W以及商品主题集合z(iter)、商品标签集合L以及商品标签主题集合x(iter),利用式(3)计算当前社交用户g分配给主题编号k的概率:
其中:
S212、令iter+1赋值给iter,并判断iter>itermax是否成立,若不成立,则返回步骤S203,重复步骤S203到步骤S212;若成立,则执行步骤S3;
在步骤S3中,基于概率生成集合获取用户-主题概率分布矩阵、主题-商品概率分布矩阵。
在本发明的具体实施过程中,利用式(7)计算用户u-主题编号k的概率分布矩阵Θu,k,利用式(8)计算主题编号k一商品w的概率分布矩阵Φk,w,从而得到用户-主题概率分布矩阵Θ、主题一商品概率分布矩阵Φ:
其中:
αk表示主题编号k分布的先验参数;
βw表示任意商品w分布的先验参数。
在步骤S4中,基于用户-主题概率分布矩阵和主题-商品概率分布矩阵获取用户对商品的偏好权重。
具体为,基于式(9)计算用户u对商品w的偏好权重ru,w,从而得到用户u对所有商品的偏好权重:
在步骤S5中,对偏好权重进行由高到低的排序,基于排序结果确定商品推荐结果。
在本发明实施例的具体实施过程中,根据偏好权重由高到低的排序,取其中前N项生成用户u的商品推荐列表,进而推荐给用户u。如,取前20项生成用户“李三”的商品推荐列表,进而推荐给用户“李三”。
为测试本发明实施例提出的降低流行度偏差的个性化长尾商品推荐方法的有效性,将本发明实施例提出的推荐方法和一些著名的推荐方法进行对比。具体过程如下:
一、准备标准数据集
使用在推荐领域应用广泛的数据集Last.fm数据集作为标准数据集验证本发明实施例提出的推荐方法的性能。Last.fm数据集的数据来自Last.fm网站,Last.fm是一个面向音乐爱好者的在线音乐网站,音乐爱好者可以在Last.fm平台上为喜爱的歌手和歌曲添加标签。过滤掉原始数据集中用户对歌手没有标注历史的数据后,产生了1892个用户,17632个艺术家,92834次收听记录,11946个标签信息和12717条用户间双向社交关系。为了检验本发明实施例的推荐方法的推荐性能,从每一个用户的行为数据中随机选取20%的数据作为测试集,剩余的数据作为训练集。
二、评价指标
适用于TOP-N推荐(表示选择推荐列表中的前N个进行推荐)的预测评估指标,准确率计算公式见(10),召回率计算公式见(11),其中R(u)为推荐系统给用户u推荐的商品列表,T(u)为用户u实际交易的商品列表。
三、在标准数据集上进行实验
为验证发明的有效性,将本发明实施例的推荐方法(将本发明实施例的推荐方法命名为JUST模型)和一些著名的推荐算法做对比,分别是随机推荐方法(Random)、最热推荐方法(Most Popular)、基于用户的最近邻(UserKNN)算法、LDA主题模型算法,以及JUST-1模型(JUST模型上少了社交好友的数据)和JUST-2模型(JUST模型上少了商品标签信息的数据)。在Last.fm数据集上用7种方法进行建模和推荐,并将推荐结果进行比较,对比结果如表1所示。与6种方法相比,本发明实施例的推荐方法在整体的召回率、准确率上都是最优的,虽然本发明实施例侧重于长尾商品的推荐性能提升,但是整体的推荐准确率并未下降,很直观的,因为长尾商品的推荐性能提升了,流行商品的推荐性能也并未下降,总体的推荐性能自然提升了。
表1
本发明实施例还提供一种降低流行度偏差的个性化长尾商品推荐系统,该系统包括计算机,所述计算机包括:
至少一个存储单元;
至少一个处理单元;
其中,所述至少一个存储单元中存储有至少一条指令,所述至少一条指令由所述至少一个处理单元加载并执行以实现以下步骤:
S1、获取用户数据、用户行为数据、交易商品的标签数据和用户的社交好友数据,并形成历史数据;
S2、基于历史数据构建概率生成集合;
S3、基于概率生成集合获取用户—主题概率分布矩阵、主题—商品概率分布矩阵;
S4、基于用户—主题概率分布矩阵和主题—商品概率分布矩阵获取用户对商品的偏好权重;
S5、对偏好权重进行由高到低的排序,基于排序结果确定商品推荐结果。
综上所述,与现有技术相比,具备以下有益效果:
1、本发明实施例基于用户数据、用户行为数据、交易商品的标签数据和用户的社交好友数据构建概率生成集合;再基于概率生成集合获取用户—主题概率分布矩阵、主题—商品概率分布矩阵;然后基于用户—主题概率分布矩阵和主题—商品概率分布矩阵获取用户对商品的偏好权重;对偏好权重进行由高到低的排序,基于排序结果确定商品推荐结果。本发明实施例融合用户行为数据、交易商品的标签数据和社交好友数据,使用标签数据和社交好友数据弥补长尾商品中缺失的行为数据,降低传统协同过滤方法导致的流行度偏差问题,增加用户和长尾商品之间的联系,解决了现有商品推荐系统因数据稀疏导致的流行度偏差、长尾商品被推荐的次数过低的技术问题,增加了长尾商品被推荐的概率,提高了长尾商品被推荐的次数;同时利用排序方法确定商品推荐结果,排序方法对隐式反馈数据具有良好的适应性,能够有效提高个性化推荐的精度,从而为用户提供更好的个性化服务。
2、本发明实施例使用吉布斯迭代公式降低了计算的空间复杂度,灵活地处理多维数据,将用户交易数据、交易商品的标签数据和社交好友数据集成在一起,能够从三方面的信息获取用户兴趣,能够有效提高个性化推荐的精度,从而为用户提供更好的个性化服务。
3、本发明实施例可用于服饰和图书等实体商品、音乐和视频等数字产品、旅游度假和理财保险等服务产品的个性化推荐系统,可以在电脑额手机的网页和APP等平台使用,应用范围广泛。
需要说明的是,通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现。基于这样的理解,上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在计算机可读存储介质中,如ROM/RAM、磁碟、光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。
在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。
Claims (5)
1.一种可降低流行度偏差的个性化长尾商品推荐方法,其特征在于,所述方法由计算机执行,包括以下步骤:
S1、获取用户数据、用户行为数据、交易商品的标签数据和用户的社交好友数据,并形成历史数据,使用标签数据和社交好友数据弥补长尾商品中缺失的行为数据;
S2、基于历史数据构建概率生成集合;
S3、基于概率生成集合获取用户—主题概率分布矩阵、主题—商品概率分布矩阵;
S4、基于用户—主题概率分布矩阵和主题—商品概率分布矩阵获取用户对商品的偏好权重;
S5、对偏好权重进行由高到低的排序,基于排序结果确定商品推荐结果;
其中,
所述用户行为数据包括:用户交易数据和隐形行为数据;
所述历史数据包括:
所述用户数据为用户集合U={1,…,u,…,|U|},其中,u表示任意用户,1≤u≤|U|;
所述用户交易数据为商品集合W={1,…,w,…,|W|},w表示任意商品,1≤w≤|W|;
所述交易商品的标签数据为商品标签集合L={1,…,l,…,|L|},l表示任意商品标签,1≤l≤|L|;
所述用户的社交好友数据为社交用户集合T={1,…,t,…,|T|},t表示任意用户的社交好友,1≤t≤|T|;
所述步骤S2具体包括:
S201、设置迭代总次数为itermax,当前迭代次数为iter;主题所对应的编号为k,k=0,1,…,K,主题分布的先验参数集合为α={α0,α1,…,αk,…,αK},αk表示主题编号k分布的先验参数,商品分布的先验参数集合为β={β1,…,βw,…,β|W|},βw表示任意商品w分布的先验参数,商品标签分布的先验参数集合为δ={δ1,…,δl,…,δ|L|},δl表示任意商品标签l分布的先验参数,社交用户的先验参数集合为τ={τ1,…,τt,…,τ|T|},τt表示任意社交用户t的先验参数;
S202、初始化iter=1,初始化αk、βw、δl、τt,将αk、βw、δl、τt的初始值均设置为0.01;
S203、排除当前商品i所分配的主题编号,根据其他所有商品所分配的主题编号所构成的商品主题集合商品集合W、商品标签集合L以及商品标签主题集合x(iter)、社交用户集合T以及社交用户主题集合y(iter),利用式(1)计算当前商品i分配给主题编号k的概率:
其中:
S204、排除当前商品标签j所分配的主题编号,根据其他所有商品标签所分配的主题编号所构成的商品标签主题集合商品标签集合L、商品集合W以及商品主题集合z(iter)、社交用户集合T以及社交用户主题集合y(iter),利用式(2)计算当前商品标签j分配给主题编号k的概率:
其中:
S205、排除当前社交用户g所分配的主题编号,根据其他社交用户所分配的主题编号所构成的社交用户主题集合社交用户集合T、商品集合W以及商品主题集合z(iter)、商品标签集合L以及商品标签主题集合x(iter),利用式(3)计算当前社交用户g分配给主题编号k的概率:
其中:
S212、令iter+1赋值给iter,更新iter的值,并判断iter>itermax是否成立,若不成立,则返回步骤S203,重复步骤S203到步骤S212;若成立,则执行步骤S3。
4.如权利要求3所述的降低流行度偏差的个性化长尾商品推荐方法,其特征在于,所述步骤S5具体包括:
根据偏好权重由高到低的排序,取其中前N项生成用户u的商品推荐列表,进而推荐给用户u。
5.一种降低流行度偏差的个性化长尾商品推荐系统,其特征在于,所述系统包括计算机,所述计算机包括:
至少一个存储单元;
至少一个处理单元;
其中,所述至少一个存储单元中存储有至少一条指令,所述至少一条指令由所述至少一个处理单元加载并执行以实现以下步骤:
S1、获取用户数据、用户行为数据、交易商品的标签数据和用户的社交好友数据,并形成历史数据,使用标签数据和社交好友数据弥补长尾商品中缺失的行为数据;
S2、基于历史数据构建概率生成集合;
S3、基于概率生成集合获取用户—主题概率分布矩阵、主题—商品概率分布矩阵;
S4、基于用户—主题概率分布矩阵和主题—商品概率分布矩阵获取用户对商品的偏好权重;
S5、对偏好权重进行由高到低的排序,基于排序结果确定商品推荐结果;
其中,
所述用户行为数据包括:用户交易数据和隐形行为数据;
所述历史数据包括:
所述用户数据为用户集合U={1,…,u,…,|U|},其中,u表示任意用户,1≤u≤|U|;
所述用户交易数据为商品集合W={1,…,w,…,|W|},w表示任意商品,1≤w≤|W|;
所述交易商品的标签数据为商品标签集合L={1,…,l,…,|L|},l表示任意商品标签,1≤l≤|L|;
所述用户的社交好友数据为社交用户集合T={1,…,t,…,|T|},t表示任意用户的社交好友,1≤t≤|T|;
所述步骤S2具体包括:
S201、设置迭代总次数为itermax,当前迭代次数为iter;主题所对应的编号为k,k=0,1,…,K,主题分布的先验参数集合为α={α0,α1,…,αk,…,αK},αk表示主题编号k分布的先验参数,商品分布的先验参数集合为β={β1,…,βw,…,β|W|},βw表示任意商品w分布的先验参数,商品标签分布的先验参数集合为δ={δ1,…,δl,…,δ|L|},δl表示任意商品标签l分布的先验参数,社交用户的先验参数集合为τ={τ1,…,τt,…,τ|T|},τt表示任意社交用户t的先验参数;
S202、初始化iter=1,初始化αk、βw、δl、τt,将αk、βw、δl、τt的初始值均设置为0.01;
S203、排除当前商品i所分配的主题编号,根据其他所有商品所分配的主题编号所构成的商品主题集合商品集合W、商品标签集合L以及商品标签主题集合x(iter)、社交用户集合T以及社交用户主题集合y(iter),利用式(1)计算当前商品i分配给主题编号k的概率:
其中:
S204、排除当前商品标签j所分配的主题编号,根据其他所有商品标签所分配的主题编号所构成的商品标签主题集合商品标签集合L、商品集合W以及商品主题集合z(iter)、社交用户集合T以及社交用户主题集合y(iter),利用式(2)计算当前商品标签j分配给主题编号k的概率:
其中:
S205、排除当前社交用户g所分配的主题编号,根据其他社交用户所分配的主题编号所构成的社交用户主题集合社交用户集合T、商品集合W以及商品主题集合z(iter)、商品标签集合L以及商品标签主题集合x(iter),利用式(3)计算当前社交用户g分配给主题编号k的概率:
其中:
S212、令iter+1赋值给iter,更新iter的值,并判断iter>itermax是否成立,若不成立,则返回步骤S203,重复步骤S203到步骤S212;若成立,则执行步骤S3。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910505581.7A CN110197404B (zh) | 2019-06-12 | 2019-06-12 | 可降低流行度偏差的个性化长尾商品推荐方法和系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910505581.7A CN110197404B (zh) | 2019-06-12 | 2019-06-12 | 可降低流行度偏差的个性化长尾商品推荐方法和系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN110197404A CN110197404A (zh) | 2019-09-03 |
CN110197404B true CN110197404B (zh) | 2022-04-01 |
Family
ID=67754472
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910505581.7A Active CN110197404B (zh) | 2019-06-12 | 2019-06-12 | 可降低流行度偏差的个性化长尾商品推荐方法和系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110197404B (zh) |
Families Citing this family (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110851737B (zh) * | 2019-11-13 | 2024-03-12 | 哈工大机器人湖州国际创新研究院 | 推荐方法、装置、电子设备及计算机存储介质 |
CN111652631B (zh) * | 2020-06-09 | 2023-06-06 | 创新奇智(成都)科技有限公司 | 商品召回方法、装置、电子设备及计算机可读存储介质 |
CN112330406B (zh) * | 2020-11-10 | 2024-05-24 | 深圳大学 | 一种长尾物品推荐方法、智能终端及存储介质 |
CN113158024B (zh) * | 2021-02-26 | 2022-07-15 | 中国科学技术大学 | 一种纠正推荐系统流行度偏差的因果推理方法 |
CN114861783B (zh) * | 2022-04-26 | 2023-05-12 | 北京三快在线科技有限公司 | 推荐模型训练方法、装置、电子设备及存储介质 |
CN117494045B (zh) * | 2023-11-06 | 2024-04-26 | 南京海汇装备科技有限公司 | 一种基于数据融合的数据集成智能管控系统及方法 |
Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103793537A (zh) * | 2014-03-04 | 2014-05-14 | 南京大学 | 一种基于多维时间序列分析的个性化音乐推荐系统及其实现方法 |
CN103886074A (zh) * | 2014-03-24 | 2014-06-25 | 江苏名通信息科技有限公司 | 基于社交媒体的商品推荐系统 |
CN103995839A (zh) * | 2014-04-30 | 2014-08-20 | 兴天通讯技术(天津)有限公司 | 基于协同过滤的商品推荐优化方法和系统 |
CN104572797A (zh) * | 2014-05-12 | 2015-04-29 | 深圳市智搜信息技术有限公司 | 基于主题模型的个性化服务推荐系统和方法 |
CN106156333A (zh) * | 2016-07-06 | 2016-11-23 | 合肥工业大学 | 一种融合社会化信息的改进单类协同过滤方法 |
CN107833117A (zh) * | 2017-12-13 | 2018-03-23 | 合肥工业大学 | 一种考虑标签信息的贝叶斯个性化排序推荐方法 |
CN107844585A (zh) * | 2017-11-16 | 2018-03-27 | 合肥工业大学 | 一种考虑重叠社区效应的推荐方法 |
CN109767300A (zh) * | 2019-01-14 | 2019-05-17 | 博拉网络股份有限公司 | 基于用户习惯的大数据画像及模型构建方法 |
-
2019
- 2019-06-12 CN CN201910505581.7A patent/CN110197404B/zh active Active
Patent Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103793537A (zh) * | 2014-03-04 | 2014-05-14 | 南京大学 | 一种基于多维时间序列分析的个性化音乐推荐系统及其实现方法 |
CN103886074A (zh) * | 2014-03-24 | 2014-06-25 | 江苏名通信息科技有限公司 | 基于社交媒体的商品推荐系统 |
CN103995839A (zh) * | 2014-04-30 | 2014-08-20 | 兴天通讯技术(天津)有限公司 | 基于协同过滤的商品推荐优化方法和系统 |
CN104572797A (zh) * | 2014-05-12 | 2015-04-29 | 深圳市智搜信息技术有限公司 | 基于主题模型的个性化服务推荐系统和方法 |
CN106156333A (zh) * | 2016-07-06 | 2016-11-23 | 合肥工业大学 | 一种融合社会化信息的改进单类协同过滤方法 |
CN107844585A (zh) * | 2017-11-16 | 2018-03-27 | 合肥工业大学 | 一种考虑重叠社区效应的推荐方法 |
CN107833117A (zh) * | 2017-12-13 | 2018-03-23 | 合肥工业大学 | 一种考虑标签信息的贝叶斯个性化排序推荐方法 |
CN109767300A (zh) * | 2019-01-14 | 2019-05-17 | 博拉网络股份有限公司 | 基于用户习惯的大数据画像及模型构建方法 |
Non-Patent Citations (3)
Title |
---|
A Social Recommendation Method Based on the Integration of Social Relationship and Product Popularity;Chin-Hui Lai;《nternational Journal of Human-Computer Studies》;20180411;全文 * |
Mining Product Relationships for Recommendation Based on Cloud Service Data;Jiang Yuan-chun;《International Conference on Business Process Management》;20181231;全文 * |
考虑用户特征的主题情感联合模型;许银洁;《计算机应用》;20180510;第38卷(第5期);全文 * |
Also Published As
Publication number | Publication date |
---|---|
CN110197404A (zh) | 2019-09-03 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110197404B (zh) | 可降低流行度偏差的个性化长尾商品推荐方法和系统 | |
US11875363B2 (en) | Method and system for generating recommendations | |
CN110321422B (zh) | 在线训练模型的方法、推送方法、装置以及设备 | |
CN110162693B (zh) | 一种信息推荐的方法以及服务器 | |
CN110717098B (zh) | 基于元路径的上下文感知用户建模方法、序列推荐方法 | |
CN105247507B (zh) | 用于确定品牌的影响力得分的方法、系统和存储介质 | |
WO2020048084A1 (zh) | 资源推荐方法、装置、计算机设备及计算机可读存储介质 | |
CN107833117B (zh) | 一种考虑标签信息的贝叶斯个性化排序推荐方法 | |
CN110909182B (zh) | 多媒体资源搜索方法、装置、计算机设备及存储介质 | |
CN110175895B (zh) | 一种物品推荐方法及装置 | |
CN110532479A (zh) | 一种信息推荐方法、装置及设备 | |
CN109684538A (zh) | 一种基于用户个人特征的推荐方法及推荐系统 | |
TW201501059A (zh) | 訊息推薦方法及裝置 | |
CN107943910B (zh) | 一种基于组合算法的个性化图书推荐方法 | |
CN109241451B (zh) | 一种内容组合推荐方法、装置及可读存储介质 | |
CN111429161B (zh) | 特征提取方法、特征提取装置、存储介质及电子设备 | |
CN106599047B (zh) | 一种信息的推送方法及装置 | |
CN106874503B (zh) | 获取推荐数据的方法和装置 | |
CN110083766B (zh) | 一种基于元路径引导嵌入的查询推荐方法及装置 | |
CN111339435A (zh) | 一种基于潜在因子的矩阵分解补全混合推荐方法 | |
CN113449200B (zh) | 物品推荐方法、装置及计算机存储介质 | |
Jalal | Big data and intelligent software systems | |
CN112288510A (zh) | 物品推荐方法、装置、设备及存储介质 | |
Gupta et al. | Scalable online product recommendation engine based on implicit feature extraction domain | |
CN114756758B (zh) | 一种混合推荐方法和系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |