CN113343077A - 一种融合用户兴趣时序波动的个性化推荐方法及系统 - Google Patents
一种融合用户兴趣时序波动的个性化推荐方法及系统 Download PDFInfo
- Publication number
- CN113343077A CN113343077A CN202110481624.XA CN202110481624A CN113343077A CN 113343077 A CN113343077 A CN 113343077A CN 202110481624 A CN202110481624 A CN 202110481624A CN 113343077 A CN113343077 A CN 113343077A
- Authority
- CN
- China
- Prior art keywords
- sequence
- time
- interest
- representing
- user
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 49
- 230000002452 interceptive effect Effects 0.000 claims abstract description 20
- 239000013598 vector Substances 0.000 claims description 51
- 239000002131 composite material Substances 0.000 claims description 47
- 238000011156 evaluation Methods 0.000 claims description 37
- 230000006870 function Effects 0.000 claims description 32
- 238000012549 training Methods 0.000 claims description 17
- 150000001875 compounds Chemical class 0.000 claims description 13
- 230000003993 interaction Effects 0.000 claims description 9
- 230000002123 temporal effect Effects 0.000 claims description 7
- 238000013528 artificial neural network Methods 0.000 claims description 6
- 238000009795 derivation Methods 0.000 claims description 6
- 230000006872 improvement Effects 0.000 claims description 4
- 238000007781 pre-processing Methods 0.000 claims description 4
- 108010063499 Sigma Factor Proteins 0.000 claims description 3
- 238000004364 calculation method Methods 0.000 claims description 3
- 239000000126 substance Substances 0.000 claims description 3
- 241000764238 Isis Species 0.000 claims description 2
- 230000008859 change Effects 0.000 abstract description 5
- 238000001914 filtration Methods 0.000 description 5
- 238000011160 research Methods 0.000 description 5
- 230000006399 behavior Effects 0.000 description 3
- 230000008569 process Effects 0.000 description 3
- 238000013480 data collection Methods 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 238000005065 mining Methods 0.000 description 2
- 238000004422 calculation algorithm Methods 0.000 description 1
- 238000007418 data mining Methods 0.000 description 1
- 238000000354 decomposition reaction Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 230000008451 emotion Effects 0.000 description 1
- 238000002474 experimental method Methods 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 230000004927 fusion Effects 0.000 description 1
- 238000011478 gradient descent method Methods 0.000 description 1
- 230000010365 information processing Effects 0.000 description 1
- 239000011159 matrix material Substances 0.000 description 1
- 238000002156 mixing Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
- 238000005192 partition Methods 0.000 description 1
- 238000012545 processing Methods 0.000 description 1
- 238000000638 solvent extraction Methods 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
- 238000012546 transfer Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/953—Querying, e.g. by the use of web search engines
- G06F16/9535—Search customisation based on user profiles and personalisation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/953—Querying, e.g. by the use of web search engines
- G06F16/9537—Spatial or temporal dependent retrieval, e.g. spatiotemporal queries
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/049—Temporal neural networks, e.g. delay elements, oscillating neurons or pulsed inputs
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
Abstract
一种融合用户兴趣时序波动的个性化推荐方法及系统,该方法包括采集用户与商品的交互数据,融合时序波动变化,对用户兴趣时序波动进行识别分类,得到小幅和大幅兴趣两种波动序列,分别使用小幅兴趣波动序列以及大幅兴趣波动序列有针对性地对用户不同时段的兴趣波动变化建模进行预测,并根据预测结果完成对用户的个性化推荐。本发明通过研究抽取不同幅度的用户兴趣波动特征,更好地挖掘和刻画用户兴趣波动变化,实现动态精准的个性化服务,很好地提高预测准确性和可解释性。
Description
技术领域
本发明属于多媒体信息处理领域,具体涉及一种融合用户兴趣时序波动的个性化推荐方法及系统。
背景技术
大数据环境下,云计算、数据挖掘技术日益兴起,以微博、微信为代表的新型程序应用逐渐主导现代社交网络平台。在线数据资源发生急剧膨胀,呈现出结构复杂化、形式多样化等特征。同时,随着用户与各类信息平台间的交互场景愈发常见和频繁,大量交互反馈的用户行为信息不断涌现出来,为采集多源的用户兴趣特征数据提供很大空间,如浏览记录、购买记录和操作信息等网络行为日志信息。通过利用属性特征、历史行为等信息不断挖掘用户真实兴趣偏好,可为用户匹配推荐符合用户需求的信息或服务。
目前,在推荐系统研究领域中,个性化推荐系统受到广泛关注。用户兴趣和偏好挖掘的核心是获取和维护与用户兴趣、需求和习惯相关知识的过程,也是开展个性化服务推荐的关键所在。以用户为中心,根据用户的个性化需求开展具有针对性和主动性的信息服务,是提高信息服务质量和信息资源利用效率的重要手段。按推荐方法的不同,可分为协同过滤推荐、基于内容推荐和混合推荐方法。协同过滤推荐常通过图结构和矩阵分解寻求相似用户,由于协同过滤方法仅考虑用户与系统的交互信息,能够适用于各种不同的应用领域;李媛媛与李旭晖在2020年发表于《情报学报》的《结合本体与社会化标签的用户动态兴趣建模研究》,以及张彬、徐建民与吴树芳在2020年发表于《情报科学》的《基于多源用户标签的跨域兴趣融合模型研究》中指出,因忽略项目内容、用户个人属性信息以及时间维度变化,协同过滤算法也经常受到项目冷启动、用户冷启动和数据稀疏等问题的困扰。毕强与刘健在2015年发表于《现代图书情报技术》的《数字文献资源内容服务推荐方法研究》中表示,基于内容推荐主要考虑项目和用户的内容属性,较为简单直接,能够相对有效地处理项目冷启动问题,但却受到过拟合问题影响,同时也无法较好地应对非文本项目特征抽取和推荐问题。以创建社会化标签这一个性化信息服务推荐研究方式为例,作为信息资源的轻量型载体,社会化标签表征了资源对象的内容、特征及其属性,也体现了标注用户的兴趣特征和对网络资源的情绪与态度。但不同数据域的标签质量、与目标域的领域相近程度存在着较大差异,标签集也无法有效地描述用户兴趣波动变化的时序特征。
因此,许多研究者已经认识到了用户兴趣特征的重要性,将用户对项目的偏好信息和用户个性化特征在不同的域间传递,不过还未完全将用户兴趣波动变化的时序特征完全纳入特征范畴。因用户兴趣的多样性、易变性与项目类型的多样性、关联性叠加,大多数方法只适用于静态兴趣的资源推荐,难以满足个性化信息服务的高效性、精准性的需求。本发明通过研究抽取不同幅度的用户兴趣波动特征,更好地挖掘和刻画用户兴趣波动变化,实现动态精准的个性化服务。
发明内容
为解决现有技术中存在的不足,本发明的目的在于,提供一种融合用户兴趣时序波动的个性化推荐的方法及系统。
本发明采用如下的技术方案:
一种融合用户兴趣时序波动的个性化推荐方法,包括以下内容
步骤1:采集用户对需进行个性化推荐的商品的交互信息,交互信息具体包括用户信息、商品名称、用户评分、商品类型与时间戳;
步骤2:对步骤1采集的数据即交互信息进行预处理,得到时间序列数据;
步骤3:将步骤2所得到的时间序列数据根据用户兴趣波动幅度分成小幅兴趣波动序列X以及大幅兴趣波动序列Y;如果所述时间序列数据属于小幅兴趣波动序列X进入步骤4,如果属于大幅兴趣波动序列Y则进入步骤5;
步骤4:使用步骤3所得的小幅兴趣波动序列X作为数据源,构建小幅兴趣神经网络框架进行预测后进入步骤6;
步骤5:使用步骤3所得的大幅兴趣波动序列Y作为数据源,构建大幅兴趣神经网络框架进行预测后进入步骤6;
步骤6:根据步骤4或步骤5的预测结果对商品进行推荐。
步骤2包括以下内容:
步骤201:将步骤1所采集的交互信息按照时间由远及近的顺序进行排列得到时序化数据集;
步骤202:将步骤201所得到的时序化数据集根据商品类型划分出复合类别;复合类别由多个初始类别元素组成,初始类别元素指对商品类型中子类型的定义;
步骤203:使用步骤202所得的复合类别构建基于类别的时间序列数据。
步骤202中,每种复合类别至少包含5个初始类别元素;对于不满足数量要求的复合类别,将其与另外复合类别合并,合并规则为优先将两者包含相同初始类别元素最多的复合类别合并;
复合类别由多个初始类别元素组成,初始类别元素指对商品类型中子类型的定义。
在步骤203中,将不同用户的N个复合类别中的数据划分成序列数据x1,x2…xN,其中xN表示复合类别的时序数据样本,继而把每个时序数据样本分为k个时间序列数据,分段后的时间序列数据为即为t时刻的样本时序向量;
k表示时间序列数据中样本点数量,N为用户复合类别的总数。
步骤3包括以下内容:
步骤301:设置兴趣波动序列阈值α;
步骤302:计算时间序列数据方差的总差和的绝对值S;
步骤303:根据步骤301中的兴趣波动序列阈值α以及步骤302计算得到的S对用户兴趣波动幅度进行分类,得到小幅兴趣波动序列X以及大幅兴趣波动序列Y:
兴趣波动序列阈值α的取值区间为(0.05,0.2]。
步骤4包括以下内容:
步骤401:构建以下目标训练预测函数:
步骤402:利用步骤401的目标训练预测函数计算最优用户特征系数,得到最优用户特征系数集合;
步骤403:利用步骤402所得到的最优用户特征系数集合,预测用户U对包含G初始类别元素的复合类别商品的评分。
步骤402包括以下内容:
其中,λ为正则化参数;k表示时间序列数据中样本点数量;n表示最优用户特征系数的特征数量;y(t)是X(t)中t时刻下的数值;w(t)表示t时刻的时间衰减因子,σe表示第e个正则项;
w(t)由时间权重因子δ表示,即:
w(t)~δk-t
其中,δk-t表示时间权重因子δ的k-t次方,δ是一组范围在[0,1]的常数。
步骤402.3:通过步骤402.2的求导得到以下梯度公式,对所有样本点每一次迭代沿梯度的反方向更新参数,直至收敛,训练特征系数使得误差和最小:
其中,γ为控制学习速率的学习因子,σi表示第i个求导后的正则系数;
步骤402.4:训练最优用户特征系数;选择每种类别下误差和小于阈值的h组用户特征系数进行训练,其中误差和的阈值取对应类型的所有误差总和均值,即:
其中,M表示每种类别下误差和小于阈值的h组用户特征系数集合,ng的含义是类别g的样本总数,Θh表示每种类别下误差和小于阈值的h组待定特征系数向量,Θgj表示类别g中第gj个待定特征系数向量,表示对于类别g中第gj个样本的预测值序列,表示对于第h个样本的预测值序列。
在步骤403中,根据用户U在o时刻评分,预测下次在o+1时刻的评分,则o+1时刻用户U对包含G初始类别元素的复合类别项目的评分预测为:
其中,Θ(t)表示符合条件的兴趣特征系数,表示满足M集合中第q组待定特征系数向量对应的o时刻的小幅兴趣波动序列,h表示每种类别下误差和小于阈值的用户特征系数集合数量,Θi表示第i个待定特征系数向量,nG表示包含G初始类别元素的复合类别总数量,表示包含G初始类别元素的复合类别中的小幅兴趣波动序列。
步骤5包括以下内容:
步骤501:构造聚类目标函数J(β,D,μ,d),迭代直至相邻两次迭代中目标函数J(β,D,μ,d)改进小于目标函数阈值,则进入步骤502;
步骤502:构造时序特征数据集;
其中,Tl表示时序特征数据集,zq表示大幅兴趣波动序列Y中第q个样本,βl,q表示样本q对聚类中心l的隶属度,q∈nn,l∈cc,取值方法与βkk,ii相同,βp,q表示样本q对聚类中心p的隶属度,p∈cc,取值方法与βkk,ii相同,δp表示大幅兴趣波动序列Y中第p个样本的时间权重因子;
步骤503:将评价标准按照用户评价的等级将步骤502构造的时序特征数据集Tl划为K个;
步骤504:将步骤503模糊划分后的K个序列用扎德记号表示,得到模糊集AK;
步骤505:对步骤504的模糊集AK去模糊化进行预测:
步骤501包括以下内容:
其中,βkk,ii为样本ii对评价标准kk的隶属度,此处的评价标准kk即为聚类中心kk,取值为(0,1),r为模糊系数,取值为[1,∞],cc为划分的评价标准数量,D2(Yii,μkk;wkk,ii)表示包含时间信息的序列向量zii到聚类中心μkk的距离,wkk,ii表示样本kk与样本ii之间距离权重,nn表示样本的数量,δii表示权重因子的ii次方;如图1所示,|dkkii-djjii|(dkkiii≠djjii)表示复合类别间的距离,dkkii表示聚类中心kk到样本ii间的距离,djjii表示聚类中心jj到样本ii间的距离。Yii表示大幅兴趣波动序列Y中的第ii个数值。
聚类目标函数约束如式:
步骤501.1:定义大幅兴趣波动序列Y中样本间距离djjii的计算方法:
其中,Yii表示大幅兴趣波动序列Y中第ii个样本时序向量,Yjj表示大幅兴趣波动序列Y中第jj个样本时序向量;
步骤501.2:定义包含时间信息的序列向量Yii到聚类中心μkk的加权距离D2(Yii,μkk;wkk,ii);
其中,μkk表示第kk个聚类中心,μ表示所有的聚类中心,Yii表示大幅兴趣波动序列Y中第ii个样本时序向量,p(Yii|μkk)为在知道聚类中心μkk的情况下存在Yii的概率,p(μkk,Yii)为μkk与Yii的联合分布概率;
步骤501.3:确定聚类中心μkk的迭代公式:
其中,δii表示时间权重因子的ii次方;
步骤501.4:确定隶属度βkk,ii的迭代公式:
其中,D2(Yii,μkk;wii,kk)表示包含时间信息的序列向量Yii到聚类中心μkk的加权距离,wii,ll表示样本ii与聚类中心ll之间距离权重,wii,kk表示样本ii与聚类中心kk之间距离权重,dllii表示聚类中心ll到样本ii之间的距离,D2(Yii,μll;wii,ll)表示包含时间信息的序列向量Yii到聚类中心μll的加权距离,;
在步骤503中,K为5,定义子区间u1=[0,1],u2=(1,2),u3=[2,3],u4=(3,4),u5=[4,5],所对应的模糊集评价标准为A1=“评价很差”,A2=“评价较差”,A3=“评价一般”,A4=“评价较高”,A5=“评价很高”。
在步骤504中,模糊集AK的表达方式为:
其中,βKK表示评价标准K对第K个聚类中心的隶属度。
在步骤6中,推荐商品为每个用户预测结果评分从高到低的前10%。
本发明还公开了一个根据权利要求1-13任意一项权利要求所述的融合用户兴趣时序波动的个性化推荐方法的推荐系统,包括用户商品交互数据采集模块、时序数据序列生成模块、时序数据序列判别模块、小幅兴趣波动序列预测模块、大幅兴趣波动序列预测模块以及商品推荐模块,其特征在于:
用户商品交互数据采集模块采集的交互信息具体包括用户信息、商品名称、用户评分、商品类型与时间戳,并将原始数据传给时序数据序列生成模块;
数据序列生成模块根据用户商品交互数据采集模块传送的数据按照时间由远及近的顺序进行排列得到时序化数据集,根据项目类别划分出复合类别后构建基于类别的时间序列数据,之后把时间序列数据传给时序数据序列判别模块;
时序数据序列判别模块兴趣波动序列阈值α并计算时间序列数据方差的总差和的绝对值S,将S小于α的时间序列归为小幅兴趣波动序列,大于α的时间序列归为大幅兴趣波动序列,并将小幅兴趣波动序列小幅兴趣波动序列预测模块,将大幅兴趣波动序列输入至大幅兴趣波动序列预测模块;
小幅兴趣波动序列预测模块与大幅兴趣波动序列预测模块分别根据其输入值进行预测,将预测结果输入至商品推荐模块;
商品推荐模块根据小幅兴趣波动序列预测模块或大幅兴趣波动序列预测模块的输入值进行商品推荐。
本发明的有益效果在于,与现有技术相比,本发明融合时序波动变化,对用户兴趣时序波动进行识别分类,得到小幅和大幅兴趣两种波动序列,通过混合方法的形式有针对性地对用户不同时段的兴趣波动变化建模,能够很好地提高预测准确性和可解释性。
附图说明
图1为本发明时序模糊聚类模型示意图;
图2为本发明的流程示意图。
具体实施方式
下面结合附图对本申请作进一步描述。以下实施例仅用于更加清楚地说明本发明的技术方案,而不能以此来限制本申请的保护范围。
一种融合用户兴趣时序波动的个性化推荐方法及系统,个性化推荐方法包括以下步骤:
步骤1:采集用户对需进行个性化推荐的商品的交互信息,交互信息具体包括用户信息、商品名称、用户评分、商品类型与时间戳。
在本实施例中,商品为电影,共采集了25000095条用户对电影的交互信息,用户信息包括用户ID;商品名称为电影名称;用户评分的范围为[0.5,5]分,并以0.5分的规模递增;商品类型为电影类型;时间戳为交互信息生成的时间。
本领域的技术人员需知道,此处的商品还包括餐厅、视频、音乐、服饰、电商以及其他可以被用户进行评价的项目。
步骤2:对步骤1采集的数据即交互信息进行预处理,得到时间序列数据;
对采集数据的预处理包括以下内容:
步骤201:将步骤1所采集的交互信息按照时间由远及近的顺序进行排列得到时序化数据集;
步骤202:将步骤201所得到的时序化数据集根据商品类型划分出复合类别;
复合类别由多个初始类别元素组成,初始类别元素指对商品类型中子类型的定义。如对于电影来说,“科幻和悬疑”可表示为一种复合类别,而“科幻”和“悬疑”分别是初始类别元素;对于餐厅来说,“中餐和米其林”可表示为一种复合类别,而“中餐”和“米其林”是两个初始类别元素。
在本实施例中,每种复合类别至少包含5个初始类别元素;对于不满足数量要求的复合类别,将其与另外复合类别合并,合并规则为:优先将两者包含相同初始类别元素最多的复合类别合并。依次反复,直到所有复合类别包含的集合中项目数量满足序列要求。划分复合类别的目的是将用户兴趣的焦点从繁复的类型中分离出来,通过找出此类兴趣波动规律,判断用户的未来期望趋势。比如评分、购买频次的波动,决定是否向用户推荐含有此复合类别的商品
步骤203:使用步骤202所得的复合类别构建基于类别的时间序列数据;
在步骤203中,将不同用户的N个复合类别中的数据划分成序列数据x1,x2…xN,其中xN表示复合类别的时序数据样本,继而把每个时序数据样本分为k个时间序列数据,分段后的时间序列数据为即表示t时刻的样本时序向量,k表示时间样本点数量。
N为用户复合类别的总数,即当用户A有a,b,c这三个复合类别,用户B有c,d,e这三个复合类别时,N为6。
步骤3:将步骤2所得到的时间序列数据根据用户兴趣波动幅度分成小幅兴趣波动序列X以及大幅兴趣波动序列Y;如果所述时间序列数据属于小幅兴趣波动序列X进入步骤4,如果属于大幅兴趣波动序列Y则进入步骤5。
步骤301:设置兴趣波动序列阈值α;
兴趣波动序列阈值α应根据实际预测过程中用户的波动情况进行选值。
α最初的取值为0.05,增值区间为0.05,上限为0.5,经过反复实验得到α的最优取值区间为(0.05,0.2],在本实施例中,最终选取α=0.1。
步骤302:计算时间序列数据方差的总差和的绝对值S;
步骤303:根据步骤301中的兴趣波动序列阈值α以及步骤302计算得到的S对用户兴趣波动幅度进行分类,得到小幅兴趣波动序列X以及大幅兴趣波动序列Y:
步骤4:使用步骤3所得的小幅兴趣波动序列X作为数据源,构建小幅兴趣神经网络预测框架进行预测后进入步骤6;
步骤401:构建以下目标训练预测函数:
步骤402:利用步骤401的目标训练预测函数计算最优用户特征系数,得到用户特征系数集合;
其中,λ为正则化参数;k表示时间序列数据中样本点数量;n表示最优用户特征系数的特征数量;y(t)是t时刻用户数据的真值序列,即X(t)中t时刻下的数值;w(t)表示t时刻的时间衰减因子,σe表示第e个正则项。
w(t)可进一步由时间权重因子表示,时间权重因子δ是一组范围在[0,1]的常数,w(t)根据权重因子δ的衰减速度衰减,即:
w(t)~δk-t
其中,δk-t表示时间权重因子δ的k-t次方;
步骤402.3:通过步骤402.2的求导得到以下梯度公式,对所有样本点每一次迭代沿梯度的反方向更新参数,直至收敛,训练特征系数使得误差和最小:
其中,γ为控制学习速率的学习因子,Θi表示第i个求导后的正则系数。
步骤402.4:训练最优用户特征系数。选择每种类别下误差和小于阈值的h组用户特征系数进行训练,其中误差和的阈值取对应类型的所有误差总和均值,即:
其中,M表示每种类别下误差和小于阈值的h组用户特征系数集合,ng的含义是类别g的样本总数,Θh表示每种类别下误差和小于阈值的h组待定特征系数向量,Θgj表示类别g中第gj个待定特征系数向量,表示对于类别g中第gj个样本的预测值序列,表示对于第h个样本的预测值序列。
步骤403:利用步骤402所得到的最优用户特征系数集合,预测用户U对包含G初始类别元素的复合类别商品的评分;
根据用户U在o时刻评分,预测下次在o+1时刻的评分,则o+1时刻用户U对包含G初始类别元素的复合类别项目的评分预测为:
其中,Θ(t)表示符合条件的兴趣特征系数,表示满足M集合中第q组待定特征系数向量对应的o时刻的小幅兴趣波动序列,h表示每种类别下误差和小于阈值的用户特征系数集合数量,Θi表示第i个待定特征系数向量,nG表示包含G初始类别元素的复合类别总数量,表示包含G初始类别元素的复合类别中的小幅兴趣波动序列。
步骤5:使用步骤3所得的大幅兴趣波动序列Y作为数据源,构建大幅兴趣神经网络预测框架进行预测后进入步骤6;
步骤501:构造聚类目标函数J(β,D,μ,d),迭代直至相邻两次迭代中目标函数J(β,D,μ,d)改进小于聚类目标函数阈值,则进入步骤502:
在本实施例中,聚类目标函数阈值为10-5,聚类目标函数为:
其中,βkk,ii为样本ii对评价标准kk的隶属度,此处的评价标准kk即为聚类中心kk,取值为(0,1),r为模糊系数,取值为[1,∞],cc为划分的评价标准数量,即聚类中心的数量,D2(Yii,μkk;wkk,ii)表示包含时间信息的序列向量zii到聚类中心μkk的距离,wkk,ii表示样本kk与样本ii之间距离权重,nn表示样本的数量,δii表示权重因子的ii次方;如图1所示,|dkkii-djjii|(dkkiii≠djjii)表示复合类别间的距离,dkkii表示聚类中心kk到样本ii间的距离,djjii表示聚类中心jj到样本ii间的距离。Yii表示大幅兴趣波动序列Y中的第ii个数值。
聚类目标函数约束如式:
步骤501.1:定义大幅兴趣波动序列Y中样本间距离djjii的计算方法:
其中,Yii表示大幅兴趣波动序列Y中第ii个样本时序向量,Yjj表示大幅兴趣波动序列Y中第jj个样本时序向量;
步骤501.2:定义包含时间信息的序列向量Yii到聚类中心μkk的加权距离D2(Yii,μkk;wkk,ii);
其中,μkk表示第kk个聚类中心,μ表示所有的聚类中心,Yii表示大幅兴趣波动序列Y中第ii个样本时序向量,p(Yii|μkk)为在知道聚类中心μkk的情况下存在Yii的概率,p(μkk,Yii)为μkk与Yii的联合分布概率。
步骤501.3:确定聚类中心μkk的迭代公式:
其中,δii表示时间权重因子的ii次方。
步骤501.4:确定隶属度βkk,ii的迭代公式:
其中,D2(Yii,μkk;wii,kk)表示包含时间信息的序列向量Yii到聚类中心μkk的加权距离,wii,ll表示样本ii与聚类中心ll之间距离权重,wii,kk表示表示样本ii与聚类中心kk之间距离权重,dllii表示聚类中心ll到样本ii之间的距离,D2(Yii,μll;wii,ll)表示包含时间信息的序列向量Yii到聚类中心μll的加权距离;
步骤502:构造时序特征数据集:
其中,Tl表示时序特征数据集,zq表示大幅兴趣波动序列Y中第q个样本,βl,q表示样本q对聚类中心l的隶属度,l∈nn,q∈cc,取值方法与βkk,ii相同,βp,q表示样本q对聚类中心p的隶属度,p∈nn,取值方法与βkk,ii相同,δp表示大幅兴趣波动序列Y中第p个样本的时间权重因子。
受到用户兴趣漂移的影响,聚类中心则会因时序变化形成分布趋势的转移。因此,本发明根据隶属度建立子集,加入时间衰减因子削弱早期数据的隶属程度。
步骤503:将评价标准按照用户评价的等级将步骤502构造的时序特征数据集Tl模糊划分为K个;
在本实施例中,K为5,划分的方法如表1所示,分别定义子区间u1=[0,1],u2=(1,2),u3=[2,3],u4=(3,4),u5=[4,5],所对应的模糊集评价标准为A1=“评价很差”,A2=“评价较差”,A3=“评价一般”,A4=“评价较高”,A5=“评价很高”。
表1为模糊时间序列的评价标准划分
步骤504:将步骤503模糊划分后的K个序列用扎德记号表示,得到模糊集AK:
其中,βK,K表示评价标准K对第K个聚类中心的隶属度。
步骤505:利用以下公式对步骤504的模糊集去模糊化进行预测:
步骤6:根据预测结果对用户进行个性化商品推荐;
推荐商品为每个用户预测结果评分从高到低的前10%。本领域的技术人员应知晓,此比例可以根据实际情况进行调整,前10%只是本实施例中的优选值。
本发明还公开了一种融合用户兴趣时序波动的个性化推荐系统,包括用户商品交互数据采集模块、时序数据序列生成模块、时序数据序列判别模块、小幅兴趣波动序列预测模块、大幅兴趣波动序列预测模块以及商品推荐模块;
用户商品交互数据采集模块采集的交互信息具体包括用户信息、商品名称、用户评分、商品类型与时间戳,并将原始数据传给时序数据序列生成模块;
数据序列生成模块根据用户商品交互数据采集模块传送的数据按照时间由远及近的顺序进行排列得到时序化数据集,根据项目类别划分出复合类别后构建基于类别的时间序列数据,之后把时间序列数据传给时序数据序列判别模块;
时序数据序列判别模块兴趣波动序列阈值α并计算时间序列数据方差的总差和的绝对值S,将S小于α的时间序列归为小幅兴趣波动序列,大于α的时间序列归为大幅兴趣波动序列,并将小幅兴趣波动序列小幅兴趣波动序列预测模块,将大幅兴趣波动序列输入至大幅兴趣波动序列预测模块;
小幅兴趣波动序列预测模块与大幅兴趣波动序列预测模块分别根据其输入值进行预测,将预测结果输入至商品推荐模块;
商品推荐模块根据小幅兴趣波动序列预测模块或大幅兴趣波动序列预测模块的输入值进行商品推荐。
本发明申请人结合说明书附图对本发明的实施示例做了详细的说明与描述,但是本领域技术人员应该理解,以上实施示例仅为本发明的优选实施方案,详尽的说明只是为了帮助读者更好地理解本发明精神,而并非对本发明保护范围的限制,相反,任何基于本发明的发明精神所作的任何改进或修饰都应当落在本发明的保护范围之内。
Claims (15)
1.一种融合用户兴趣时序波动的个性化推荐方法,其特征在于,所述个性化推荐方法包括以下步骤:
步骤1:采集用户对需进行个性化推荐的商品的交互信息,交互信息具体包括用户信息、商品名称、用户评分、商品类型与时间戳;
步骤2:对步骤1采集的数据即交互信息进行预处理,得到时间序列数据;
步骤3:将步骤2所得到的时间序列数据根据用户兴趣波动幅度分成小幅兴趣波动序列X以及大幅兴趣波动序列Y;如果所述时间序列数据属于小幅兴趣波动序列X进入步骤4,如果属于大幅兴趣波动序列Y则进入步骤5;
步骤4:使用步骤3所得的小幅兴趣波动序列X作为数据源,构建小幅兴趣神经网络框架进行预测后进入步骤6;
步骤5:使用步骤3所得的大幅兴趣波动序列Y作为数据源,构建大幅兴趣神经网络框架进行预测后进入步骤6;
步骤6:根据步骤4或步骤5的预测结果对商品进行推荐。
2.根据权利要求1所述的个性化推荐方法,其特征在于:
所述步骤2包括以下内容:
步骤201:将步骤1所采集的交互信息按照时间由远及近的顺序进行排列得到时序化数据集;
步骤202:将步骤201所得到的时序化数据集根据商品类型划分出复合类别;复合类别由多个初始类别元素组成,初始类别元素指对商品类型中子类型的定义;
步骤203:使用步骤202所得的复合类别构建基于类别的时间序列数据。
3.根据权利要求2所述的个性化推荐方法,其特征在于:
在所述步骤202中,每种复合类别至少包含5个初始类别元素;对于不满足数量要求的复合类别,将其与另外复合类别合并,合并规则为优先将两者包含相同初始类别元素最多的复合类别合并;
所述复合类别由多个初始类别元素组成,初始类别元素指对商品类型中子类型的定义。
6.根据权利要求5所述的个性化推荐方法,其特征在于:
所述兴趣波动序列阈值α的取值区间为(0.05,0.2]。
8.根据权利要求7所述的个性化推荐方法,其特征在于:
所述步骤402包括以下内容:
其中,λ为正则化参数;k表示时间序列数据中样本点数量;n表示最优用户特征系数的特征数量;y(t)是X(t)中t时刻下的数值;w(t)表示t时刻的时间衰减因子,σe表示第e个正则项;
w(t)由时间权重因子δ表示,即:
w(t)~δk-t
其中,δk-t表示时间权重因子δ的k-t次方,δ是一组范围在[0,1]的常数。
步骤402.3:通过步骤402.2的求导得到以下梯度公式,对所有样本点每一次迭代沿梯度的反方向更新参数,直至收敛,训练特征系数使得误差和最小:
其中,γ为控制学习速率的学习因子,σi表示第i个求导后的正则系数;
步骤402.4:训练最优用户特征系数;选择每种类别下误差和小于阈值的h 组用户特征系数进行训练,其中误差和的阈值取对应类型的所有误差总和均值,即:
10.根据权利要求9所述的个性化推荐方法,其特征在于:
所述步骤5包括以下内容:
步骤501:构造聚类目标函数J(β,D,μ,d),迭代直至相邻两次迭代中目标函数J(β,D,μ,d)改进小于目标函数阈值,则进入步骤502;
步骤502:构造时序特征数据集;
其中Tl表示时序特征数据集,zq表示大幅兴趣波动序列Y中第q个样本,βl,q表示样本q对聚类中心l的隶属度,q∈nn,l∈cc,取值方法与βkk,ii相同,βp,q表示样本q对聚类中心p的隶属度,p∈cc,取值方法与βkk,ii相同,δp表示大幅兴趣波动序列Y中第p个样本的时间权重因子;
步骤503:将评价标准按照用户评价的等级将步骤502构造的时序特征数据集Tl划为K个;
步骤504:将步骤503模糊划分后的K个序列用扎德记号表示,得到模糊集AK;
步骤505:对步骤504的模糊集AK去模糊化进行预测:
11.根据权利要求10所述的个性化推荐方法,其特征在于:
所述步骤501包括以下内容:
其中,βkk,ii为样本ii对评价标准kk的隶属度,此处的评价标准kk即为聚类中心kk,取值为(0,1),r为模糊系数,取值为[1,∞],cc为划分的评价标准数量,D2(Yii,μkk;wkk,ii)表示包含时间信息的序列向量zii到聚类中心μkk的距离,wkk,ii表示样本kk与样本ii之间距离权重,nn表示样本的数量,δii表示权重因子的ii次方;如图1所示,|dkkii-djjii|(dkkiii≠djjii)表示复合类别间的距离,dkkii表示聚类中心kk到样本ii间的距离,djjii表示聚类中心jj到样本ii间的距离。Yii表示大幅兴趣波动序列Y中的第ii个数值。
聚类目标函数约束如式:
步骤501.1:定义大幅兴趣波动序列Y中样本间距离djjii的计算方法:
其中,Yii表示大幅兴趣波动序列Y中第ii个样本时序向量,Yjj表示大幅兴趣波动序列Y中第jj个样本时序向量;
步骤501.2:定义包含时间信息的序列向量Yii到聚类中心μkk的加权距离D2(Yii,μkk;wkk,ii);
其中,μkk表示第kk个聚类中心,μ表示所有的聚类中心,Yii表示大幅兴趣波动序列Y中第ii个样本时序向量,p(Yii|μkk)为在知道聚类中心μkk的情况下存在Yii的概率,p(μkk,Yii)为μkk与Yii的联合分布概率;
步骤501.3:确定聚类中心μkk的迭代公式:
其中,δii表示时间权重因子的ii次方;
步骤501.4:确定隶属度βkk,ii的迭代公式:
其中,D2(Yii,μkk;wii,kk)表示包含时间信息的序列向量Yii到聚类中心μkk的加权距离,D2(Yii,μll;wii,ll)表示包含时间信息的序列向量Yii到聚类中心μll的加权距离,wii,ll表示样本ii与聚类中心ll之间距离权重,wii,kk表示样本ii与聚类中心kk之间距离权重,dllii表示聚类中心ll到样本ii之间的距离。
12.根据权利要求10或11所述的个性化推荐方法,其特征在于:
在所述步骤503中,K为5,定义子区间u1=[0,1],u2=(1,2),u3=[2,3],u4=(3,4),u5=[4,5],所对应的模糊集评价标准为A1=“评价很差”,A2=“评价较差”,A3=“评价一般”,A4=“评价较高”,A5=“评价很高”。
14.根据权利要求13所述的个性化推荐方法,其特征在于:
在所述步骤6中,推荐商品为每个用户预测结果评分从高到低的前10%。
15.根据权利要求1-14任意一项权利要求所述的融合用户兴趣时序波动的个性化推荐方法的推荐系统,包括用户商品交互数据采集模块、时序数据序列生成模块、时序数据序列判别模块、小幅兴趣波动序列预测模块、大幅兴趣波动序列预测模块以及商品推荐模块,其特征在于:
所述用户商品交互数据采集模块采集的交互信息具体包括用户信息、商品名称、用户评分、商品类型与时间戳,并将原始数据传给时序数据序列生成模块;
所述数据序列生成模块根据用户商品交互数据采集模块传送的数据按照时间由远及近的顺序进行排列得到时序化数据集,根据项目类别划分出复合类别后构建基于类别的时间序列数据,之后把时间序列数据传给时序数据序列判别模块;
所述时序数据序列判别模块兴趣波动序列阈值α并计算时间序列数据方差的总差和的绝对值S,将S小于α的时间序列归为小幅兴趣波动序列,大于α的时间序列归为大幅兴趣波动序列,并将小幅兴趣波动序列小幅兴趣波动序列预测模块,将大幅兴趣波动序列输入至大幅兴趣波动序列预测模块;
所述小幅兴趣波动序列预测模块与大幅兴趣波动序列预测模块分别根据其输入值进行预测,将预测结果输入至商品推荐模块;
所述商品推荐模块根据小幅兴趣波动序列预测模块或大幅兴趣波动序列预测模块的输入值进行商品推荐。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110481624.XA CN113343077A (zh) | 2021-04-30 | 2021-04-30 | 一种融合用户兴趣时序波动的个性化推荐方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110481624.XA CN113343077A (zh) | 2021-04-30 | 2021-04-30 | 一种融合用户兴趣时序波动的个性化推荐方法及系统 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN113343077A true CN113343077A (zh) | 2021-09-03 |
Family
ID=77469344
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110481624.XA Pending CN113343077A (zh) | 2021-04-30 | 2021-04-30 | 一种融合用户兴趣时序波动的个性化推荐方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113343077A (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113779101A (zh) * | 2021-11-10 | 2021-12-10 | 北京航空航天大学 | 一种基于深度神经网络的时序集合推荐系统和方法 |
CN117132356A (zh) * | 2023-08-29 | 2023-11-28 | 重庆大学 | 基于自适应用户兴趣变化周期的推荐方法、装置及系统 |
Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110348608A (zh) * | 2019-06-18 | 2019-10-18 | 西安交通大学 | 一种基于模糊聚类算法改进lstm的预测方法 |
-
2021
- 2021-04-30 CN CN202110481624.XA patent/CN113343077A/zh active Pending
Patent Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110348608A (zh) * | 2019-06-18 | 2019-10-18 | 西安交通大学 | 一种基于模糊聚类算法改进lstm的预测方法 |
Non-Patent Citations (1)
Title |
---|
丁浩: "基于用户兴趣时序波动预测分析的个性化推荐方法", 《中国优秀硕士学位论文全文数据库 信息科技辑》 * |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113779101A (zh) * | 2021-11-10 | 2021-12-10 | 北京航空航天大学 | 一种基于深度神经网络的时序集合推荐系统和方法 |
CN113779101B (zh) * | 2021-11-10 | 2022-03-18 | 北京航空航天大学 | 一种基于深度神经网络的时序集合推荐系统和方法 |
CN117132356A (zh) * | 2023-08-29 | 2023-11-28 | 重庆大学 | 基于自适应用户兴趣变化周期的推荐方法、装置及系统 |
CN117132356B (zh) * | 2023-08-29 | 2024-02-13 | 重庆大学 | 基于自适应用户兴趣变化周期的推荐方法、装置及系统 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110162706B (zh) | 一种基于交互数据聚类的个性化推荐方法及系统 | |
CN108648049B (zh) | 一种基于用户行为区别建模的序列推荐方法 | |
CN108629665B (zh) | 一种个性化商品推荐方法和系统 | |
CN105224699B (zh) | 一种新闻推荐方法及装置 | |
CN107220365B (zh) | 基于协同过滤与关联规则并行处理的精准推荐系统及方法 | |
Lai et al. | CPRS: A cloud-based program recommendation system for digital TV platforms | |
CN111291261A (zh) | 融合标签和注意力机制的跨领域推荐方法及其实现系统 | |
CN111523055B (zh) | 一种基于农产品特征属性评论倾向的协同推荐方法及系统 | |
CN110532429B (zh) | 一种基于聚类和关联规则的线上用户群体分类方法及装置 | |
CN113343077A (zh) | 一种融合用户兴趣时序波动的个性化推荐方法及系统 | |
Cong | Personalized recommendation of film and television culture based on an intelligent classification algorithm | |
Maneewongvatana et al. | A recommendation model for personalized book lists | |
CN112749330A (zh) | 信息推送方法、装置、计算机设备和存储介质 | |
CN115712780A (zh) | 一种基于云计算和大数据的信息推送方法及装置 | |
CN115329215A (zh) | 异构网络中基于自适应动态知识图谱的推荐方法及系统 | |
CN116823410B (zh) | 数据处理方法、对象处理方法、推荐方法及计算设备 | |
Hashemzadeh et al. | Using a data mining tool and fp-growth algorithm application for extraction of the rules in two different dataset | |
Chen et al. | A hybrid recommender system for Gaussian mixture model and enhanced social matrix factorization technology based on multiple interests | |
Chen et al. | Exploiting aesthetic features in visual contents for movie recommendation | |
Sehgal et al. | A new genre of recommender systems based on modern paradigms of data filtering | |
CN113076481B (zh) | 一种基于成熟度技术的文献推荐系统及方法 | |
CN114912031A (zh) | 基于聚类和协同过滤的混合推荐方法和系统 | |
CN110956528B (zh) | 一种电商平台的推荐方法及系统 | |
CN112258285A (zh) | 一种内容推荐方法及装置、设备、存储介质 | |
Lakshmi Chetana et al. | CF-AMVRGO: Collaborative Filtering based Adaptive Moment Variance Reduction Gradient Optimizer for Movie Recommendations |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20210903 |
|
RJ01 | Rejection of invention patent application after publication |