CN112231583B - 基于动态兴趣组标识和生成对抗网络的电商推荐方法 - Google Patents
基于动态兴趣组标识和生成对抗网络的电商推荐方法 Download PDFInfo
- Publication number
- CN112231583B CN112231583B CN202011249665.8A CN202011249665A CN112231583B CN 112231583 B CN112231583 B CN 112231583B CN 202011249665 A CN202011249665 A CN 202011249665A CN 112231583 B CN112231583 B CN 112231583B
- Authority
- CN
- China
- Prior art keywords
- user
- interest
- scoring
- interest group
- tensor
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 43
- 238000004422 calculation algorithm Methods 0.000 claims description 45
- 239000011159 matrix material Substances 0.000 claims description 33
- 238000000354 decomposition reaction Methods 0.000 claims description 29
- 239000013598 vector Substances 0.000 claims description 25
- 238000009826 distribution Methods 0.000 claims description 16
- 239000013256 coordination polymer Substances 0.000 claims description 15
- 230000008569 process Effects 0.000 claims description 15
- 238000005457 optimization Methods 0.000 claims description 10
- 238000012549 training Methods 0.000 claims description 8
- 238000003064 k means clustering Methods 0.000 claims description 7
- 238000012545 processing Methods 0.000 claims description 7
- 238000004364 calculation method Methods 0.000 claims description 6
- 230000008859 change Effects 0.000 claims description 6
- 238000007476 Maximum Likelihood Methods 0.000 claims description 3
- 238000010276 construction Methods 0.000 claims description 3
- 238000007781 pre-processing Methods 0.000 claims description 3
- XHEFDIBZLJXQHF-UHFFFAOYSA-N fisetin Chemical compound C=1C(O)=CC=C(C(C=2O)=O)C=1OC=2C1=CC=C(O)C(O)=C1 XHEFDIBZLJXQHF-UHFFFAOYSA-N 0.000 claims description 2
- 238000007405 data analysis Methods 0.000 abstract description 3
- 230000006399 behavior Effects 0.000 description 23
- 230000006870 function Effects 0.000 description 8
- 238000001914 filtration Methods 0.000 description 6
- 230000003042 antagnostic effect Effects 0.000 description 5
- 238000004590 computer program Methods 0.000 description 3
- 238000011160 research Methods 0.000 description 3
- NAWXUBYGYWOOIX-SFHVURJKSA-N (2s)-2-[[4-[2-(2,4-diaminoquinazolin-6-yl)ethyl]benzoyl]amino]-4-methylidenepentanedioic acid Chemical compound C1=CC2=NC(N)=NC(N)=C2C=C1CCC1=CC=C(C(=O)N[C@@H](CC(=C)C(O)=O)C(O)=O)C=C1 NAWXUBYGYWOOIX-SFHVURJKSA-N 0.000 description 2
- 241001269238 Data Species 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 2
- 238000011161 development Methods 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 230000003993 interaction Effects 0.000 description 2
- 238000005070 sampling Methods 0.000 description 2
- 230000001932 seasonal effect Effects 0.000 description 2
- 238000003860 storage Methods 0.000 description 2
- 238000013459 approach Methods 0.000 description 1
- 238000004140 cleaning Methods 0.000 description 1
- 238000013136 deep learning model Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 230000004927 fusion Effects 0.000 description 1
- 230000002452 interceptive effect Effects 0.000 description 1
- 238000012804 iterative process Methods 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 238000005259 measurement Methods 0.000 description 1
- 239000000203 mixture Substances 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/953—Querying, e.g. by the use of web search engines
- G06F16/9535—Search customisation based on user profiles and personalisation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/23—Clustering techniques
- G06F18/232—Non-hierarchical techniques
- G06F18/2321—Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions
- G06F18/23213—Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions with fixed number of clusters, e.g. K-means clustering
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q30/00—Commerce
- G06Q30/06—Buying, selling or leasing transactions
- G06Q30/0601—Electronic shopping [e-shopping]
- G06Q30/0631—Item recommendations
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- General Physics & Mathematics (AREA)
- Business, Economics & Management (AREA)
- General Engineering & Computer Science (AREA)
- Databases & Information Systems (AREA)
- Finance (AREA)
- Accounting & Taxation (AREA)
- Artificial Intelligence (AREA)
- Life Sciences & Earth Sciences (AREA)
- Evolutionary Computation (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Health & Medical Sciences (AREA)
- Bioinformatics & Computational Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Development Economics (AREA)
- Economics (AREA)
- Marketing (AREA)
- Strategic Management (AREA)
- General Business, Economics & Management (AREA)
- Evolutionary Biology (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Probability & Statistics with Applications (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明涉及数据分析和推荐系统技术领域,具体涉及一种基于动态兴趣组标识和生成对抗网络的电商推荐方法,包括:输入用户行为数据的评分特征,使用训练好的评分预测模型进行预测,评分预测模型输出评分的预测值,根据评分的预测值生成推荐列表为用户推荐项目。本发明利用生成对抗网络补偿数据,对补偿后的数据标识兴趣组类别,解决了用户无兴趣偏好信息和兴趣泛化问题,对用户和商家都有重要的应用价值。
Description
技术领域
本发明涉及数据分析和推荐系统技术领域,具体涉及一种基于动态兴趣组标识和生成对抗网络的电商推荐方法。
背景技术
随着信息技术和互联网的发展,人们逐渐从信息匮乏的时代走入了信息过载(information overload)的时代。在这个时代,无论是信息消费者还是信息生产者都遇到了很大的挑战:作为信息消费者,如何从大量信息中找到自己感兴趣的信息是一件非常困难的事情;作为信息生产者,如何让自己生产的信息脱颖而出,受到广大用户的关注,也是一件非常困难的事情。推荐系统就是解决这一矛盾的重要工具。推荐系统的任务就是联系用户和信息,一方面帮助用户发现对自己有价值的信息,另一方面让信息能够展现在对它感兴趣的用户面前,从而实现信息消费者和信息生产者的双赢。推荐系统的核心思想是通过分析用户的历史行为、个人信息等对用户兴趣建模,从而主动给用户推荐满足其兴趣和需求的物品资源。推荐对物品消费者起着积极的作用,针对推荐系统的研究有助于用户发现对自己有价值的物品,尤其是个性化推荐领域,越来越广泛的受到研究者重视。
近年来,随着互联网的快速发展和普及,在线社交电商平台已经成为人们购物和出售物品的重要渠道,越来越多的人们选择在社交电商平台购买物品,享受着互联网给人们带来的便利。然而,由于社交电商平台项目越来越多,用户的可选择性也随之骤然增加,长尾项目随之出现。为了让用户从众多的项目中快速找到自己喜爱的项目,个性化推荐系统应运而生,个性化推荐系统由个性化推荐算法的支撑,主要通过实时分析用户的相关行为设计个性化的社交电商推荐算法实现不同用户的喜好推荐的目的。个性化推荐系统对于电子商务平台是不可或缺的重要部分。目前,推荐系统在电子商务(亚马逊、阿里巴巴、eBay、Netflix等)、社交网络(新浪微博、Facebook、Twitter、LinkedIn等)以及信息检索、个性化广告、基于位置的服务等领域取得了较大发展,个性化推荐系统在信息冗杂的互联网时代占据着重要地位。
目前主流的个性化推荐系统可以分为四类:基于内容的推荐、协同过滤推荐、基于知识的推荐和组合推荐。其中,协同过滤推荐算法是使用最广泛的一种。通常情况下,协同过滤推荐基于用户-项目二元关系构建评分矩阵,根据设定的度量标准找到目标的最近邻,进而分析用户间相似的偏好进行推荐。在此基础上,协同过滤算法不断演化,衍生出基于图的协同过滤、空值填补以及推荐结果融等改进方法。传统推荐系统中,大多基于协同过滤推荐算法。公开号为CN106649658A,专利名称为“针对用户角色无差异对待和数据稀疏的推荐系统及方法”公开了一种通过考虑用户角色泛化的特殊性,将动态用户角色标识引入到模型中,提出一种基于张量分解评分预测模型。论文Qian X,Feng H,Zhao G,etal.Personalized recommendation combining user interest and social circle[J].IEEE transactions on knowledge and data engineering,2013,26(7):1763-1777提出了将个人兴趣,人际利益相似度和人际影响力这三个社会因素融合为一个基于概率矩阵分解的统一个性化推荐模型。虽然众多学者对推荐预测模型进行了大量的研究,并取得了相当不错的成果,但仍存在一些挑战:
1.用户有效评分数据稀疏性。用户对项目的评分数据在众多的项目中仍是显得非常稀疏,这对预测推荐项目造成了很大的问题。
2.用户兴趣泛化性。虽然用户兴趣组有明确的标识,但是没有随着时间的推移动态更换兴趣组标识,使得评分预测无偏好关系,造成推荐结果不准确的问题。
3.特征空间的多维度复杂性。考虑到加入了用户兴趣组特征,如何转换数据维度和压缩数据面临着困难。
发明内容
为了解决上述问题,本发明提供一种基于动态兴趣组标识和生成对抗网络的电商推荐方法。
一种基于动态兴趣组标识和生成对抗网络的电商推荐方法,其特征在于,包括:输入用户行为数据的评分特征,使用训练好的评分预测模型进行预测,评分预测模型输出评分的预测值,根据评分的预测值生成推荐列表为用户推荐项目,其中评分预测模型先训练后使用,训练过程包括:
S1、获取原始数据,并对原始数据进行预处理;
S2、基于预处理后的数据提取用户属性,得到评分相关数据集;
S3、基于动态兴趣组标识和对抗生成网络建立并训练评分预测模型,得到训练好的评分预测模型,包括:
S31、基于评分相关数据集,采用生成对抗网络GAN算法补偿同态数据,使用生成对抗网络模型的优化函数进行优化,最终得到具有用户偏好信息的评分向量;
S32、采用动态兴趣组标识算法对用户偏好信息的评分向量进行处理,得到所有用户的兴趣组类别;引入时序特性,根据时间窗口动态标识兴趣组,生成用户动态兴趣组集合;
S33、利用CP张量分解算法建立并训练“用户-项目-兴趣组”张量分解的评分预测模型,得到训练好的评分预测模型。
进一步的,基于评分相关数据集,采用生成对抗网络GAN算法补偿同态数据,得到具有用户偏好信息的评分向量,包括:
S311、生成模型G将随机从评分相关数据集中采样数据z扩展样本,生成与采样数据z相似的同态数据,得到新的用户评分特征序列;
S312、采用判别模型D判别评分相关数据集和生成模型G生成的新的用户评分特征之间的真伪,得到具有用户偏好信息的评分向量。
进一步的,生成模型G的构建包括:评分相关数据集为data=[x1,x2,...,xn],评分相关数据集中的特征序列服从分布P(x,θ),计算评分相关数据集特征序列分布模型的最大似然,得到生成模型G,生成模型G的目标函数为:
其中,n表示评分相关数据集数量,θ为评分相关数据集中的特征序列服从分布的参数。
进一步的,判别模型的目标函数为:
其中,E表示期望,Pdatas和PG分别表示真实评分相关数据集与生成评分相关数据集的分布,D(x)表示判别模型。
进一步的,采用动态兴趣组标识算法对用户偏好信息的评分向量进行处理,得到所有用户的兴趣组类别,具体包括:
S3211、统计每个用户对项目的评分信息,得到用户兴趣多样性值,用户兴趣多样性值的计算表达式为:
其中,H(u)为用户兴趣多样性值,表示用户评分项目的多样性程度,n(type)表示用户评分项目的类别总数,pw表示用户u所评分的第w类项目在评分项目中所占的比例,Vu表示用户u评分项目集合,n(Vu)是用户u评分项目集合V的数量,n(Vu,type=w)是n(Vu)中项目类型为w的数量;
S3212、得出用户兴趣多样性值后,根据用户兴趣多样值为用户划分兴趣组:将兴趣多样性值相近的用户标识归为同一类兴趣组,用户兴趣多样性值作为用户兴趣组值;
S3213、使用简单的K-Means聚类算法计算用户所属兴趣组类别,使用兴趣组数量|Num|与用户兴趣多样性值H(u)重复迭代优化,直至每一类兴趣组中的质心点与兴趣多样性值之间的误差最小时停止计算,输出所有用户的兴趣组类别,表达式如下所示:
其中,表示兴趣组从1到n,Group(u)表示用户u的兴趣组类型,H(u)表示用户兴趣多样性值,|Num|表示兴趣组数量,并且|Num|值设置为可调的参数,n代表用户的数量;在约束条件中,CG表示质心点,且质心点共有|Num|个,G表示兴趣组集合,nj表示j类兴趣组中用户的数量,H(ujk)表示第j类兴趣组中的第k个点,Cj表示第j类兴趣组的质心点。
进一步的,引入时序特性,根据时间窗口动态标识兴趣组,生成用户动态兴趣组集合,具体包括以下步骤:
S3221、加入时序特性,引入评分时间窗Tj,构建每个用户的兴趣评分矩阵Ai;
其中,S1,S2,...,SM为项目资源,M表示项目资源的数量,T1,T2,...,Tj为时间窗,rmj为用户在第j个时间窗内对第m个项目的评分;
S3222、基于用户评分信息,结合每个用户的兴趣评分矩阵Ai,得到每个时间窗内的用户兴趣多样性值:
其中,表示兴趣组从1到n,其中n为用户数量,H(ui)表示用户ui的兴趣多样性值,n(type)表示用户评分项目的类别总数,pw表示用户u所评分的第w类项目在评分项目中所占的比例;Vi表示用户i的评分项目集合V,n(Vi)表示用户i评分项目集合V的数量,n(Vi,typei=w)表示n(Vi)中项目类型为w的数量;
S3223、根据每个时间窗内的用户兴趣多样性值,得到用户兴趣多样性矩阵B;
其中,U1,U2,...,Un表示用户,Hnj表示用户n在第j个时间窗内的兴趣多样性值;
使用K-Means聚类算法计算用户所属兴趣组类别,得到在不同时间窗下每个用户的兴趣组类别,即用户兴趣组矩阵C;
其中,Gnj表示用户n在第j个时间窗内的兴趣组类别;
S3224、根据用户兴趣组矩阵C计算用户动态兴趣组集合DGroupu,表达式如下:
DGroupu=∪C[u],C[u][j]≠φ
其中,C[u]表示用户兴趣组矩阵,C[u][j]表示用户兴趣组矩阵里面用户u在时间窗j下的兴趣组,φ表示空。
进一步的,利用CP张量分解算法建立并训练“用户-项目-兴趣组”张量分解的评分预测模型,具体包括:构建“用户-项目-兴趣组”的三阶评分行为张量模型X∈Ri×j×k,其中,维度i为张量1模式,表示评分的用户;维度j为张量2模式,表示被评分的项目;维度k为张量3模式,表示用户的兴趣组;当用户兴趣组随时间推移发生改变时,根据用户动态兴趣组集合DGroupu中的顺序依次获取用户的兴趣组,并将评分时间对应的评分数据填充在相应的兴趣组维度下,张量填充的元素值X如下式所示:
使用CP张量分解算法对张量模型分解计算,使原始张量与分解张量之间的误差范数尽可能的小,原始张量与分解张量之间的误差范数计算表达式如下:
运用CP张量分解算法将张量X∈Ri×j×k改写为向量和的形式:
其中,符号°表示向量的外积,ar∈Ri,br∈Rj,mr∈Rk,r=1,2,3...R,R是一个正整数,ar表示张量中用户维度,br表示项目维度,mr表示评分维度;
CP张量分解算法分解的向量和公式中的张量元素值表示为:
其中,air表示张量中用户维度所有用户,bjr表示项目维度所有项目,mkr表示评分维度所有评分,I表示张量中的用户维度数量,J表示张量中项目维度数量,K表示张量中的兴趣组维度的数量。
本发明的有益效果:本发明利用生成对抗网络补偿数据,对补偿后的数据标识兴趣组类别,解决了用户无兴趣偏好信息和兴趣泛化问题,对用户和商家都有重要的应用价值。对于用户,可帮助用户快速推荐当前时间节点喜欢的项目;对于商家,有助于掌握用户行为特性分布,分析潜在用户,因此获得良好的经济、社会效益。
附图说明
下面结合附图和具体实施方式对本发明做进一步详细的说明。
图1为本实施例的一种基于动态兴趣组标识和对抗生成网络的评分预测模型;
图2为本实施例的一种数据补偿GAN算法示例;
图3为本实施例的一种动态兴趣组标志流程示例。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本发明的主要思想包括:从用户的评分以及用户的兴趣组变化等行为数据出发,引入对抗生成网络模型对样本空间进行同态数据增强;进一步针对用户兴趣泛化问题,引入信息熵度量用户兴趣特征空间;同时,围绕用户兴趣漂移问题,使用时间窗标识方式进一步量化用户动态兴趣组;最后构建基于张量分解的评分预测模型,实现基于用户评分行为的个性化推荐算法。
S1、获取原始数据,并对原始数据进行预处理。
原始数据的获取方式可以是直接从现有的基于Web的研究型推荐系统下载公开数据源,或者是利用成熟的社交平台的公共API获取。
需要获取的原始数据是用户历史行为数据,包括评分信息和项目类别信息。其中,评分信息包括评分值、评分时间和项目;项目信息包括项目类别以及发生行为的用户信息。
通常获取的原始数据都是非结构化的,不能直接用于数据分析,因此需要对原始数据进行预处理:通过简单的数据清洗可以使大部分非结构化数据结构化,例如,删除重复数据、清理无效节点等。
S2、提取相关属性,得到评分相关数据集。
在社交电商网络中,用户对项目的购买行为受多方面因素影响,比如:用户的个人兴趣、项目的关联性以及季节性的相互影响等等。基于此,本发明从用户内部因素和外部因素出发,根据用户行为信息和历史行为信息两方面来提取相关属性,提取的相关属性主要是标签在内的用户信息、用户评分等用户的历史行为数据。为每个用户提取评分行为属性特征和项目属性特征,其中评分行为属性特征包括:用户、购买项目、评分值、评分时间;项目属性特征包括:提取项目类型和产生购买行为的用户。
最后通过项目关联性整合提取的信息,得到评分相关数据集(即训练数据)。
同时,对评分相关数据集时间分片:根据数据特点,对时间周期进行具体划分。
S3、基于动态兴趣组标识和对抗生成网络,建立评分预测模型,评分预测模型如图1所示。
评分预测模型的训练主要包括三个阶段:第一,利用生成对抗网络补偿同态数据,缓解评分数据稀疏问题。第二,利用动态兴趣组标识算法对用户进行兴趣组划分,将用户兴趣泛化和时间窗口结合起来,构建根据时间窗口动态标识兴趣组的方法。第三,利用张量分解建立“用户-项目-兴趣组”张量分解的评分预测模型。
S31、为了解决原始数据的稀疏性,基于评分相关数据集,采用生成对抗网络GAN算法补偿同态数据,得到具有用户偏好信息的评分向量。
生成对抗网络GAN是一种深度学习模型,模型通过框架中(至少)两个模块:生成模型(Generative Model)和判别模型(Discriminative Model)的互相博弈学习产生相当好的输出。生成模型是给定某种隐含信息,随机产生观测数据。判别模型需要输入变量,通过某种模型来预测。用户行为数据生成模型的目标尽量生成真实评分行为数据去欺骗判别模型D,判别模型D尽量把生成模型G生成的数据与采集到的真实数据区分开来,这样G和D构成了一个动态的“对抗过程”,然后不断优化,直到达到纳什均衡,在优化学习过程中生成模型和判别模型不断提高各自的生成能力与判别能力,使得模型能够生成与采集的评分样本同态同分布的数据,从而生成良好的用户行为样本数据以缓解实际有效评分数据的稀疏性。
生成对抗网络GAN算法输入:评分相关数据集。
生成对抗网络GAN算法输出:具有用户偏好信息的评分向量。
生成对抗网络GAN算法主要步骤包括:评分相关数据集可表示为data=[x1,x2,...,xn],若评分相关数据集中的特征序列服从分布P(x,θ),θ是这个分布的参数(如果评分相关数据集中的特征序列是高斯混合模型,那么θ就是每个高斯分布的方差和平均值)。生成模型G的建立方法可描述为求这个评分相关数据集特征序列分布模型的最大似然,生成模型G的目标函数为:
其中,n表示评分相关数据集数量,θ为评分相关数据集中的特征序列服从分布的参数
用户评分特征序列的生成判别迭代过程包括:设G(z)表示为评分信息样本生成模型,z表示对原始用户评分特征序列随机采样后的数据,模型G将随机从评分相关数据集中采样数据z用于扩展样本,生成与采样数据z相似的同态数据,得到新的用户评分特征序列数据。D是一个用户评分特征序列判别模型,用于判别真实评分向量数据(即步骤S2获得的评分相关数据集)和生成模型G生成的评分向量数据(即生成模型G生成的新的用户评分特征)的真伪。对任意的输入用户评分特征序列x,判别模型D(x)会输出一个0~1之间的实数,以此表示该组特征序列来自真实采集样本数据的概率,输出值越接近1,说明来自真实采集样本数据的概率越大。Pdatas和PG分别表示真实用户评分数据与生产用户评分数据的分布,则判别模型的目标函数为:
其中,E表示期望,Pdatas和PG分别表示真实评分相关数据集与生成评分相关数据集的分布,D(x)表示判别模型。
生成对抗网络模型的优化函数可以表示为:
生成对抗网络模型的整个优化过程可以表示为对D和G进行交互迭代,直到整个过程收敛,输出具有用户偏好信息的评分向量。简单表示为:datasG=GAN(datas),期望datasG无限接近于datas,其中,datasG表示数据经过GAN算法处理后的输出,datas表示输入生成对抗网络的数据,具体流程如图2所示。
S32、为了缓解用户兴趣泛化的问题,采用动态兴趣组标识算法对用户偏好信息的评分向量进行处理,得到所有用户的兴趣组类别;根据时间窗口动态标识兴趣组,生成用户动态兴趣组集合。
S321、采用动态兴趣组标识算法对用户偏好信息的评分向量进行处理,得到所有用户的兴趣组类别,如图3所示。
在当下的个性化推荐系统中,用户在平台上的信息越来越多,相应的应用于推荐计算的信息就增多,一定程度上丰富的用户信息更加便于给用户推荐项目,但过多的数据量也会产生一些噪声干扰。为了减少干扰数据的影响,利用信息熵理论度量用户的兴趣多样性,给每个用户标识兴趣组。统计每个用户对项目的评分信息,得到用户兴趣多样性值,计算用户兴趣多样性值的具体公式如下:
其中,H(u)为用户兴趣多样性值,表示用户评分项目的多样性程度,H(u)值越大,表示目标用户评分的项目类别越多样,进一步表明用户的兴趣越多样;n(type)表示用户评分项目的类别总数,pw表示用户u所评分的第w类项目在评分项目中所占的比例,pw通过如下公式计算:
其中,n(Vu)是用户u评分项目集合V的数量,n(Vu,type=w)是n(Vu)中项目类型为w的数量。
得出用户兴趣多样性值后,根据用户兴趣多样值为用户划分兴趣组:将兴趣多样性值相近的用户标识归为同一类兴趣组,用户兴趣多样性值作为用户兴趣组值。
进一步使用简单的K-Means聚类算法计算用户所属兴趣组类别:
其中,表示兴趣组从1到n,Group(u)表示用户u的兴趣组类型,H(u)表示用户u的兴趣多样性值,|Num|表示兴趣组数量,并且|Num|值设置为可调的参数,n代表用户的数量;在约束条件中,cR表示质心点,且质心点共有|Num|个,G表示兴趣组集合,nj表示j类兴趣组中用户的数量,H(ujk)表示第j类兴趣组中的第k个点,Cj表示第j类兴趣组的质心点。
在K-Means聚类时,为使聚类效果达到最佳,使用|Num|与H(u)值重复迭代优化,直至达到约束条件时停止计算。在约束条件中,计算每一类兴趣组中的质心点与同类兴趣组中兴趣多样性值之间的误差,使其尽可能逼近最小值。使用此方法,计算出所有用户的兴趣组类别。
S322、根据时间窗口动态标识兴趣组,包括以下过程:
S3221.在推荐算法中加入时序特性,引入评分时间窗Tj,构建每个用户的兴趣评分矩阵Ai;
S3222.基于用户评分信息,结合每个用户的兴趣评分矩阵Ai,可以得到每个时间窗内的用户兴趣多样性值:
其中,表示兴趣组从1到n,其中n为用户数量,pw表示用户所评分的第w类项目在评分项目中所占的比例,n(type)表示用户评分项目的类别总数,Vi表示用户i的评分项目集合,n(Vi)表示用户i评分项目集合V的数量,n(Vi,typei=w)表示n(Vi)中项目类型为w的数量。
S3223.根据每个时间窗内的用户兴趣多样性值,得到用户兴趣多样性矩阵B;使用K-Means聚类算法计算用户所属兴趣组类别,得到在不同时间窗下每个用户的兴趣组类别,即用户兴趣组矩阵C;
S3224.根据用户兴趣组矩阵C计算用户动态兴趣组集合DGroupu。
具体地,详细实施过程如下:
由于用户的兴趣泛化,用户兴趣组会随时间发生改变,因此本发明将用户兴趣泛化和时间窗口结合起来,在推荐算法中加入用户兴趣的时序特性,提出基于时间窗的标识方式,对用户实现动态兴趣组标识。
由评分时间窗Tj,可以构建如下用户兴趣评分矩阵Ai:
用户兴趣评分矩阵Ai中S1,S2,...,SM为项目资源,M表示项目资源的数量,T1,T2,...,Tj为时间窗,rmj为用户在第j个时间窗内对第m个项目的评分。
基于用户评分信息,结合每个用户的兴趣评分矩阵A,可以得到每个时间窗内用户的兴趣多样性值:
通过式(8)计算出每个时间窗内的用户兴趣多样性值,进一步得到用户兴趣多样性矩阵B:
矩阵(9)中U1,U2,...,Un表示用户,T1,T2,...,Tj同矩阵(7),Hnj是用户n在第j个时间窗内的兴趣多样性值。
使用矩阵B的计算结果,结合公式(6),计算出用户所属兴趣组类别:
利用公式(10),计算出在不同时间窗下每个用户的兴趣组类别,得到用户兴趣组矩阵C:
用户兴趣组矩阵C中U1,U2,...,Un代表用户,时间窗为T1,T2,...,Tj,Gnj表示用户n在第j个时间窗内的兴趣组类别。
结合用户兴趣组矩阵C,使用如下公式生成用户动态兴趣组集合DGroupu:
DGroupu=∪C[u],C[u][j]≠φ (12)
其中,C[u]表示用户兴趣组矩阵,C[u][j]表示用户兴趣组矩阵里面用户u在时间窗j下的兴趣组,φ表示空。
利用公式(10)生成的用户动态兴趣组集合,进一步对用户评分数据进行层次化处理。最后规划了用户在不同兴趣组下的评分数据。
S33、利用CP张量分解算法建立“用户-项目-兴趣组”张量分解的评分预测模型。评分预测模型表示用户最终是否会对推荐列表产生购买行为,评分预测模型主要受两方面的影响,分别为用户个人兴趣和季节性变化的互影响力。
S331:基于补偿后的用户评分相关数据集进行张量构建,用户对项目的评分行为是基于某一兴趣组下发生的,本发明使用“用户-项目-兴趣组”的三阶评分行为张量模型X∈Ri×j×k,其中,维度i为张量1模式,表示评分的用户;维度j为张量2模式,表示被评分的项目;维度k为张量3模式,表示用户的兴趣组。需要说明的是,用户兴趣组随时间推移发生改变时,根据用户动态兴趣组集合DGroupu中的顺序依次获取用户的兴趣组,并将评分时间对应的对应的评分数据填充在相应的兴趣组维度下,张量填充的元素值X如下式所示:
在进行张量填充时,根据用户动态兴趣组集合DGroupu中的顺序依次获取用户的兴趣组,如果评分时间不在兴趣组集合包含的时间内,该评分数据就不填充进张量模型。
针对评分行为张量,使用CP张量分解算法对张量模型分解计算,使原始张量与分解张量之间的误差范数尽可能的小,CP张量分解算法是一个经典的数值优化问题,表达式如下:
进一步,运用CP张量分解算法将张量X∈Ri×j×k改写为向量和的形式:
其中,符号°表示向量的外积,ar∈Ri,br∈Rj,mr∈Rk,r=1,2,3...R,R是一个正整数,ar表示张量中用户维度,br表示项目维度,mr表示评分维度。
CP张量分解算法分解的向量和公式中的张量元素值可以用下面的形式表述:
其中,air表示张量中用户维度所有用户,bjr表示项目维度所有项目,mkr表示评分维度所有评分,I表示张量中的用户维度数量,J表示张量中的项目维度数量,K表示张量中的兴趣组维度数量。
S332:缺失值填充
通常情况下,在用户评分数据集中,用户评分项目的数量在整个系统中非常稀少,因此评分系统中的缺失值很多。本发明中形式化描述为在X∈Ri×j×k中的非有效值,即为缺失值。评分系统中存在的非零值需满足X=Xm+Xθ,其中Xθ为非零值,Xm表示缺失值,同时还需要满足如下公式:
在本发明实施例中,对缺失值进行填充,首先初始填充的值为平均值,然后每次迭代过程使用前一次填充的缺失值,因此缺失值是不断优化的,最终可以得到一个合理的预测值。填充的缺失值作为每一位目标用户对项目的评分预测结果。
进一步基于评分的高低生成推荐列表recommend(Utarget)为用户推荐兴趣组和项目。
当介绍本申请的各种实施例时,冠词“一”、“一个”、“这个”和“所述”都意图表示有一个或多个元件。词语“包括”、“包含”和“具有”都是包括性的并意味着除了列出的元件之外,还可以有其它元件。
需要说明的是,本领域普通技术人员可以理解实现上述方法实施例中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的程序可存储于一计算机可读取存储介质中,该程序在执行时,可包括如上述各方法实施例的流程。其中,所述存储介质可为磁碟、光盘、只读存储记忆体(Read-0nly Memory,ROM)或随机存储记忆体(RandomAccess Memory,RAM)等。以上所述仅是本申请的具体实施方式,应当指出,对于本领域的普通技术人员而言,可以理解在不脱离本发明的原理和精神的情况下可以对这些实施例进行多种变化、修改、替换和变型,本发明的范围由所附权利要求及其等同物限定。
Claims (6)
1.一种基于动态兴趣组标识和生成对抗网络的电商推荐方法,其特征在于,包括:输入用户行为数据的评分特征,使用训练好的评分预测模型进行预测,评分预测模型输出评分的预测值,根据评分的预测值生成推荐列表为用户推荐项目,其中评分预测模型先训练后使用,训练过程包括:
S1、获取原始数据,并对原始数据进行预处理;
S2、基于预处理后的数据提取用户属性,得到评分相关数据集;
S3、基于动态兴趣组标识和对抗生成网络建立并训练评分预测模型,得到训练好的评分预测模型,包括:
S31、基于评分相关数据集,采用生成对抗网络GAN算法补偿同态数据,使用生成对抗网络模型的优化函数进行优化,最终得到具有用户偏好信息的评分向量;
S32、采用动态兴趣组标识算法对用户偏好信息的评分向量进行处理,得到所有用户的兴趣组类别;引入时序特性,根据时间窗口动态标识兴趣组,生成用户动态兴趣组集合:
S3211、统计每个用户对项目的评分信息,得到用户兴趣多样性值,用户兴趣多样性值的计算表达式为:
其中,H(u)为用户兴趣多样性值,表示用户评分项目的多样性程度,n(type)表示用户评分项目的类别总数,pw表示用户u所评分的第w类项目在评分项目中所占的比例,Vu表示用户u评分项目集合,n(Vu)是用户u评分项目集合V的数量,n(Vu,type=w)是n(Vu)中项目类型为w的数量;
S3212、得出用户兴趣多样性值后,根据用户兴趣多样值为用户划分兴趣组:将兴趣多样性值相近的用户标识归为同一类兴趣组,用户兴趣多样性值作为用户兴趣组值;
S3213、使用简单的K-Means聚类算法计算用户所属兴趣组类别,使用兴趣组数量|Num|与用户兴趣多样性值H(u)重复迭代优化,直至每一类兴趣组中的质心点与兴趣多样性值之间的误差最小时停止计算,输出所有用户的兴趣组类别,表达式如下所示:
其中,表示兴趣组从1到n,Group(u)表示用户u的兴趣组类型,H(u)表示用户兴趣多样性值,|Num|表示兴趣组数量,并且|Num|值设置为可调的参数,n代表用户的数量;在约束条件中,CG表示质心点,且质心点共有|Num|个,G表示兴趣组集合,nj表示j类兴趣组中用户的数量,H(ujk)表示第j类兴趣组中的第k个点,Cj表示第j类兴趣组的质心点;
S33、利用CP张量分解算法建立并训练“用户-项目-兴趣组”张量分解的评分预测模型,得到训练好的评分预测模型。
2.根据权利要求1所述的一种基于动态兴趣组标识和生成对抗网络的电商推荐方法,其特征在于,基于评分相关数据集,采用生成对抗网络GAN算法补偿同态数据,得到具有用户偏好信息的评分向量,包括:
S311、生成模型G将随机从评分相关数据集中采样数据z扩展样本,生成与采样数据z相似的同态数据,得到新的用户评分特征序列;
S312、采用判别模型D判别评分相关数据集和生成模型G生成的新的用户评分特征之间的真伪,得到具有用户偏好信息的评分向量。
5.根据权利要求1所述的一种基于动态兴趣组标识和生成对抗网络的电商推荐方法,其特征在于,引入时序特性,根据时间窗口动态标识兴趣组,生成用户动态兴趣组集合,具体包括以下步骤:
S3221、加入时序特性,引入评分时间窗Tj,构建每个用户的兴趣评分矩阵Ai;
其中,S1,S2,...,SM为项目资源,M表示项目资源的数量,T1,T2,...,Tj为时间窗,rmj为用户在第j个时间窗内对第m个项目的评分;
S3222、基于用户评分信息,结合每个用户的兴趣评分矩阵Ai,得到每个时间窗内的用户兴趣多样性值:
其中,表示兴趣组从1到n,其中n为用户数量,H(ui)表示用户ui的兴趣多样性值,n(type)表示用户评分项目的类别总数,pw表示用户u所评分的第w类项目在评分项目中所占的比例;Vi表示用户i的评分项目集合V,n(Vi)表示用户i评分项目集合V的数量,n(Vi,typei=w)表示n(Vi)中项目类型为w的数量;
S3223、根据每个时间窗内的用户兴趣多样性值,得到用户兴趣多样性矩阵B;
其中,U1,U2,...,Un表示用户,Hnj表示用户n在第j个时间窗内的兴趣多样性值;
使用K-Means聚类算法计算用户所属兴趣组类别,得到在不同时间窗下每个用户的兴趣组类别,即用户兴趣组矩阵C;
其中,Gnj表示用户n在第j个时间窗内的兴趣组类别;
S3224、根据用户兴趣组矩阵C计算用户动态兴趣组集合DGroupu,表达式如下:
DGroupu=∪C[u],C[u][j]≠φ
其中,C[u]表示用户兴趣组矩阵,C[u][j]表示用户兴趣组矩阵里面用户u在时间窗j下的兴趣组,φ表示空。
6.根据权利要求1所述的一种基于动态兴趣组标识和生成对抗网络的电商推荐方法,其特征在于,利用CP张量分解算法建立并训练“用户-项目-兴趣组”张量分解的评分预测模型,具体包括:构建“用户-项目-兴趣组”的三阶评分行为张量模型X∈Ri×j×k,其中,维度i为张量1模式,表示评分的用户;维度j为张量2模式,表示被评分的项目;维度k为张量3模式,表示用户的兴趣组;当用户兴趣组随时间推移发生改变时,根据用户动态兴趣组集合DGroupu中的顺序依次获取用户的兴趣组,并将评分时间对应的评分数据填充在相应的兴趣组维度下,张量填充的元素值X如下式所示:
使用CP张量分解算法对张量模型分解计算,使原始张量与分解张量之间的误差范数尽可能的小,原始张量与分解张量之间的误差范数计算表达式如下:
运用CP张量分解算法将张量X∈Ri×j×k改写为向量和的形式:
其中,符号°表示向量的外积,ar∈Ri,br∈Rj,mr∈Rk,r=1,2,3...R,R是一个正整数,ar表示张量中用户维度,br表示项目维度,mr表示评分维度;
CP张量分解算法分解的向量和公式中的张量元素值表示为:
其中,air表示张量中用户维度所有用户,bjr表示项目维度所有项目,mkr表示评分维度所有评分,I表示张量中的用户维度数量,J表示张量中项目维度数量,K表示张量中的兴趣组维度的数量;
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011249665.8A CN112231583B (zh) | 2020-11-11 | 2020-11-11 | 基于动态兴趣组标识和生成对抗网络的电商推荐方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011249665.8A CN112231583B (zh) | 2020-11-11 | 2020-11-11 | 基于动态兴趣组标识和生成对抗网络的电商推荐方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112231583A CN112231583A (zh) | 2021-01-15 |
CN112231583B true CN112231583B (zh) | 2022-06-28 |
Family
ID=74122974
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202011249665.8A Active CN112231583B (zh) | 2020-11-11 | 2020-11-11 | 基于动态兴趣组标识和生成对抗网络的电商推荐方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112231583B (zh) |
Families Citing this family (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112765468A (zh) * | 2021-01-23 | 2021-05-07 | 珠海金智维信息科技有限公司 | 一种个性化用户服务定制方法和装置 |
CN113268660B (zh) * | 2021-04-28 | 2023-04-07 | 重庆邮电大学 | 一种基于生成对抗网络的多样性推荐方法、装置及服务器 |
CN113298184B (zh) * | 2021-06-21 | 2022-09-02 | 哈尔滨工程大学 | 用于小样本图像识别的样本抽取、扩充方法及存储介质 |
CN113139133B (zh) * | 2021-06-21 | 2021-11-09 | 图灵人工智能研究院(南京)有限公司 | 基于生成对抗网络的云展会内容推荐方法、系统及设备 |
CN113506131B (zh) * | 2021-06-29 | 2023-07-25 | 安徽农业大学 | 一种基于生成式对抗网络的个性化推荐方法 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106649658A (zh) * | 2016-12-13 | 2017-05-10 | 重庆邮电大学 | 针对用户角色无差异对待和数据稀疏的推荐系统及方法 |
CN111506835A (zh) * | 2020-04-17 | 2020-08-07 | 北京理工大学 | 一种融合用户时间特征和个性特征的数据特征提取方法 |
AU2020101885A4 (en) * | 2020-08-19 | 2020-09-24 | Xinjiang University | A Novel Tensor Factorization Using Trust and Rating for Recommendation, system and method thereof |
CN111915400A (zh) * | 2020-07-30 | 2020-11-10 | 广州大学 | 一种基于深度学习的个性化服装推荐方法、装置 |
Family Cites Families (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2018222755A1 (en) * | 2017-05-30 | 2018-12-06 | Arterys Inc. | Automated lesion detection, segmentation, and longitudinal identification |
CN112888459B (zh) * | 2018-06-01 | 2023-05-23 | 格里尔公司 | 卷积神经网络系统及数据分类方法 |
US11593660B2 (en) * | 2018-09-18 | 2023-02-28 | Insilico Medicine Ip Limited | Subset conditioning using variational autoencoder with a learnable tensor train induced prior |
-
2020
- 2020-11-11 CN CN202011249665.8A patent/CN112231583B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106649658A (zh) * | 2016-12-13 | 2017-05-10 | 重庆邮电大学 | 针对用户角色无差异对待和数据稀疏的推荐系统及方法 |
CN111506835A (zh) * | 2020-04-17 | 2020-08-07 | 北京理工大学 | 一种融合用户时间特征和个性特征的数据特征提取方法 |
CN111915400A (zh) * | 2020-07-30 | 2020-11-10 | 广州大学 | 一种基于深度学习的个性化服装推荐方法、装置 |
AU2020101885A4 (en) * | 2020-08-19 | 2020-09-24 | Xinjiang University | A Novel Tensor Factorization Using Trust and Rating for Recommendation, system and method thereof |
Non-Patent Citations (6)
Title |
---|
Label-removed generative adversarial networks incorporating with K-Means;Wang C 等;《Neurocomputing》;20191007;126-136 * |
Recommendation Model Based on Dynamic Interest Group Identification and Data Compensation;X. Lu 等;《IEEE Transactions on Network and Service Management》;20210915;第19卷(第1期);89-99 * |
一种基于动态角色标识和张量分解的推荐模型;肖云鹏 等;《电子学报》;20180315;第46卷(第3期);569-574 * |
基于用户偏好挖掘生成对抗网络的推荐系统;李广丽 等;《计算机科学与探索》;20200531;803-814 * |
生成式对抗网络研究及其应用;李卓蓉;《中国优秀博硕士学位论文全文数据库(博士)信息科技辑》;20190715(第7期);I138-25 * |
面向序列数据的深度学习算法研究;孔德江;《中国优秀博硕士学位论文全文数据库(博士)信息科技辑》;20190815;I140-9 * |
Also Published As
Publication number | Publication date |
---|---|
CN112231583A (zh) | 2021-01-15 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN112231583B (zh) | 基于动态兴趣组标识和生成对抗网络的电商推荐方法 | |
CN112950324B (zh) | 一种知识图谱辅助的成对排序个性化电商推荐方法及系统 | |
CN115062237A (zh) | 基于图神经网络和知识图谱结合的文化资源推荐方法 | |
CN113239264A (zh) | 基于元路径网络表示学习的个性化推荐方法及系统 | |
CN111259238A (zh) | 一种基于矩阵分解的事后可解释性推荐方法及装置 | |
CN112085525A (zh) | 一种基于混合模型的用户网络购买行为预测研究方法 | |
CN111651678A (zh) | 一种基于知识图谱的个性化推荐方法 | |
Yu et al. | Productrec: Product bundle recommendation based on user's sequential patterns in social networking service environment | |
Kakad et al. | Ontology construction from cross domain customer reviews using expectation maximization and semantic similarity | |
Chen et al. | Poverty/investment slow distribution effect analysis based on Hopfield neural network | |
CN114840745A (zh) | 一种基于图表征学习和深度语义匹配模型的个性化推荐方法及系统 | |
CN118071400A (zh) | 基于图计算技术在信息消费领域的应用方法及系统 | |
Zhang et al. | Multi-view dynamic heterogeneous information network embedding | |
CN111198991A (zh) | 一种基于信任度和专家用户的协同过滤推荐方法 | |
CN114169975B (zh) | 基于随机游走异构注意力的购物网络商品推荐方法及系统 | |
CN114491055B (zh) | 基于知识图谱的推荐方法 | |
Lu et al. | Recommendation model based on dynamic interest group identification and data compensation | |
CN114676269A (zh) | 一种基于知识图谱嵌入的协同过滤推荐方法 | |
CN114528483A (zh) | 一种基于多目标优化的混合推荐系统及方法 | |
Singh et al. | Implementation of knowledge based collaborative filtering and machine learning for E-Commerce recommendation system | |
Agarwal et al. | Binarized spiking neural networks optimized with Nomadic People Optimization-based sentiment analysis for social product recommendation | |
Xin et al. | Improving latent factor model based collaborative filtering via integrated folksonomy factors | |
Yechuri et al. | Semantic Web Mining for Analyzing Retail Environment Using Word2Vec and CNN-FK. | |
Cao | A personalised recommendation algorithm for e-commerce network information based on two-dimensional correlation | |
Hu et al. | Product Recommendation Algorithm Combining Network Structure and Text Attributes |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |