CN113343077A

CN113343077A - 一种融合用户兴趣时序波动的个性化推荐方法及系统

Info

Publication number: CN113343077A
Application number: CN202110481624.XA
Authority: CN
Inventors: 胡广伟; 丁浩
Original assignee: Nanjing University
Current assignee: Nanjing University
Priority date: 2021-04-30
Filing date: 2021-04-30
Publication date: 2021-09-03

Abstract

一种融合用户兴趣时序波动的个性化推荐方法及系统，该方法包括采集用户与商品的交互数据，融合时序波动变化，对用户兴趣时序波动进行识别分类，得到小幅和大幅兴趣两种波动序列，分别使用小幅兴趣波动序列以及大幅兴趣波动序列有针对性地对用户不同时段的兴趣波动变化建模进行预测，并根据预测结果完成对用户的个性化推荐。本发明通过研究抽取不同幅度的用户兴趣波动特征，更好地挖掘和刻画用户兴趣波动变化，实现动态精准的个性化服务，很好地提高预测准确性和可解释性。

Description

一种融合用户兴趣时序波动的个性化推荐方法及系统

技术领域

本发明属于多媒体信息处理领域，具体涉及一种融合用户兴趣时序波动的个性化推荐方法及系统。

背景技术

大数据环境下，云计算、数据挖掘技术日益兴起,以微博、微信为代表的新型程序应用逐渐主导现代社交网络平台。在线数据资源发生急剧膨胀，呈现出结构复杂化、形式多样化等特征。同时，随着用户与各类信息平台间的交互场景愈发常见和频繁，大量交互反馈的用户行为信息不断涌现出来，为采集多源的用户兴趣特征数据提供很大空间，如浏览记录、购买记录和操作信息等网络行为日志信息。通过利用属性特征、历史行为等信息不断挖掘用户真实兴趣偏好，可为用户匹配推荐符合用户需求的信息或服务。

目前，在推荐系统研究领域中，个性化推荐系统受到广泛关注。用户兴趣和偏好挖掘的核心是获取和维护与用户兴趣、需求和习惯相关知识的过程，也是开展个性化服务推荐的关键所在。以用户为中心，根据用户的个性化需求开展具有针对性和主动性的信息服务，是提高信息服务质量和信息资源利用效率的重要手段。按推荐方法的不同，可分为协同过滤推荐、基于内容推荐和混合推荐方法。协同过滤推荐常通过图结构和矩阵分解寻求相似用户，由于协同过滤方法仅考虑用户与系统的交互信息，能够适用于各种不同的应用领域；李媛媛与李旭晖在2020年发表于《情报学报》的《结合本体与社会化标签的用户动态兴趣建模研究》，以及张彬、徐建民与吴树芳在2020年发表于《情报科学》的《基于多源用户标签的跨域兴趣融合模型研究》中指出，因忽略项目内容、用户个人属性信息以及时间维度变化，协同过滤算法也经常受到项目冷启动、用户冷启动和数据稀疏等问题的困扰。毕强与刘健在2015年发表于《现代图书情报技术》的《数字文献资源内容服务推荐方法研究》中表示，基于内容推荐主要考虑项目和用户的内容属性，较为简单直接，能够相对有效地处理项目冷启动问题，但却受到过拟合问题影响，同时也无法较好地应对非文本项目特征抽取和推荐问题。以创建社会化标签这一个性化信息服务推荐研究方式为例，作为信息资源的轻量型载体，社会化标签表征了资源对象的内容、特征及其属性，也体现了标注用户的兴趣特征和对网络资源的情绪与态度。但不同数据域的标签质量、与目标域的领域相近程度存在着较大差异，标签集也无法有效地描述用户兴趣波动变化的时序特征。

因此，许多研究者已经认识到了用户兴趣特征的重要性，将用户对项目的偏好信息和用户个性化特征在不同的域间传递，不过还未完全将用户兴趣波动变化的时序特征完全纳入特征范畴。因用户兴趣的多样性、易变性与项目类型的多样性、关联性叠加，大多数方法只适用于静态兴趣的资源推荐，难以满足个性化信息服务的高效性、精准性的需求。本发明通过研究抽取不同幅度的用户兴趣波动特征，更好地挖掘和刻画用户兴趣波动变化，实现动态精准的个性化服务。

发明内容

为解决现有技术中存在的不足，本发明的目的在于，提供一种融合用户兴趣时序波动的个性化推荐的方法及系统。

本发明采用如下的技术方案：

一种融合用户兴趣时序波动的个性化推荐方法，包括以下内容

步骤1：采集用户对需进行个性化推荐的商品的交互信息，交互信息具体包括用户信息、商品名称、用户评分、商品类型与时间戳；

步骤2：对步骤1采集的数据即交互信息进行预处理，得到时间序列数据；

步骤3：将步骤2所得到的时间序列数据根据用户兴趣波动幅度分成小幅兴趣波动序列X以及大幅兴趣波动序列Y；如果所述时间序列数据属于小幅兴趣波动序列X进入步骤4，如果属于大幅兴趣波动序列Y则进入步骤5；

步骤4：使用步骤3所得的小幅兴趣波动序列X作为数据源，构建小幅兴趣神经网络框架进行预测后进入步骤6；

步骤5：使用步骤3所得的大幅兴趣波动序列Y作为数据源，构建大幅兴趣神经网络框架进行预测后进入步骤6；

步骤6：根据步骤4或步骤5的预测结果对商品进行推荐。

步骤2包括以下内容：

步骤201：将步骤1所采集的交互信息按照时间由远及近的顺序进行排列得到时序化数据集；

步骤202：将步骤201所得到的时序化数据集根据商品类型划分出复合类别；复合类别由多个初始类别元素组成，初始类别元素指对商品类型中子类型的定义；

步骤203：使用步骤202所得的复合类别构建基于类别的时间序列数据。

步骤202中，每种复合类别至少包含5个初始类别元素；对于不满足数量要求的复合类别，将其与另外复合类别合并，合并规则为优先将两者包含相同初始类别元素最多的复合类别合并；

复合类别由多个初始类别元素组成，初始类别元素指对商品类型中子类型的定义。

在步骤203中，将不同用户的N个复合类别中的数据划分成序列数据x₁,x₂…x_N，其中x_N表示复合类别的时序数据样本，继而把每个时序数据样本分为k个时间序列数据，分段后的时间序列数据为

即

为t时刻的样本时序向量；

k表示时间序列数据中样本点数量，N为用户复合类别的总数。

步骤3包括以下内容：

步骤301：设置兴趣波动序列阈值α；

步骤302：计算时间序列数据方差的总差和的绝对值S；

其中，N_t的含义为第t个时间片段内样本个数，N_t+1的含义为第t+1个时间片段内样本个数，

表示

中所有数据的平均值，

表示t时刻的样本时序向量，

表示

中所有数据的平均值，

为t+1时刻的样本时序向量；

步骤303：根据步骤301中的兴趣波动序列阈值α以及步骤302计算得到的S对用户兴趣波动幅度进行分类，得到小幅兴趣波动序列X以及大幅兴趣波动序列Y：

兴趣波动序列阈值α的取值区间为(0.05,0.2]。

步骤4包括以下内容：

步骤401：构建以下目标训练预测函数：

其中，Θ表示待定特征系数向量，取值范围为[Θ₀,Θ₁]，Θ₀为偏移量，Θ₁为变量系数，Θ₀和Θ₁为需要求取的未知量，X^(t)表示t时刻小幅兴趣波动序列，

表示预测值序列；

步骤402：利用步骤401的目标训练预测函数计算最优用户特征系数，得到最优用户特征系数集合；

步骤403：利用步骤402所得到的最优用户特征系数集合，预测用户U对包含G初始类别元素的复合类别商品的评分。

步骤402包括以下内容：

步骤402.1：基于步骤401得到的目标训练预测函数，按照下式构建目标函数

其中，λ为正则化参数；k表示时间序列数据中样本点数量；n表示最优用户特征系数的特征数量；y^(t)是X^(t)中t时刻下的数值；w^(t)表示t时刻的时间衰减因子，σ_e表示第e个正则项；

w^(t)由时间权重因子δ表示，即：

w^(t)～δ^k-t

其中，δ^k-t表示时间权重因子δ的k-t次方，δ是一组范围在[0,1]的常数。

步骤402.2：对目标函数公式

求导：

其中，

表示X^(t)对Θ的偏导，λ_Θ表示λ对Θ的偏导，Θ^T的含义是Θ的转置向量，

表示对待定特征系数向量Θ求导，σ_ll表示第ll个正则系数；

步骤402.3：通过步骤402.2的求导得到以下梯度公式，对所有样本点每一次迭代沿梯度的反方向更新参数，直至收敛，训练特征系数使得误差和最小：

其中，γ为控制学习速率的学习因子，σ_i表示第i个求导后的正则系数；

步骤402.4：训练最优用户特征系数；选择每种类别下误差和小于阈值的h组用户特征系数进行训练，其中误差和的阈值取对应类型的所有误差总和均值，即：

其中，M表示每种类别下误差和小于阈值的h组用户特征系数集合，n_g的含义是类别g的样本总数，Θ_h表示每种类别下误差和小于阈值的h组待定特征系数向量，Θ_gj表示类别g中第gj个待定特征系数向量，

表示对于类别g中第gj个样本的预测值序列，

表示对于第h个样本的预测值序列。

在步骤403中，根据用户U在o时刻评分，预测下次在o+1时刻的评分，则o+1时刻用户U对包含G初始类别元素的复合类别项目的评分预测为：

其中，Θ(t)表示符合条件的兴趣特征系数，

表示满足M集合中第q组待定特征系数向量对应的o时刻的小幅兴趣波动序列，h表示每种类别下误差和小于阈值的用户特征系数集合数量，Θ_i表示第i个待定特征系数向量，n_G表示包含G初始类别元素的复合类别总数量，

表示包含G初始类别元素的复合类别中的小幅兴趣波动序列。

步骤5包括以下内容：

步骤501：构造聚类目标函数J(β,D,μ,d)，迭代直至相邻两次迭代中目标函数J(β,D,μ,d)改进小于目标函数阈值，则进入步骤502；

步骤502：构造时序特征数据集；

其中，T_l表示时序特征数据集，z_q表示大幅兴趣波动序列Y中第q个样本，β_l,q表示样本q对聚类中心l的隶属度，q∈nn，l∈cc，取值方法与β_kk,ii相同，β_p,q表示样本q对聚类中心p的隶属度，p∈cc，取值方法与β_kk,ii相同，δ^p表示大幅兴趣波动序列Y中第p个样本的时间权重因子；

步骤503：将评价标准按照用户评价的等级将步骤502构造的时序特征数据集T_l划为K个；

步骤504：将步骤503模糊划分后的K个序列用扎德记号表示，得到模糊集A_K；

步骤505：对步骤504的模糊集A_K去模糊化进行预测：

其中，δ^(t)表示t时刻时序特征数据的时间权重，μ_t表示t时刻聚类中心，

表示t时刻时序特征数据在模糊集A_K中对应的隶属度。

步骤501包括以下内容：

其中，β_kk,ii为样本ii对评价标准kk的隶属度，此处的评价标准kk即为聚类中心kk，取值为(0,1)，r为模糊系数，取值为[1,∞],cc为划分的评价标准数量,D²(Y_ii,μ_kk；w_kk,ii)表示包含时间信息的序列向量z_ii到聚类中心μ_kk的距离，w_kk，ii表示样本kk与样本ii之间距离权重，nn表示样本的数量，δⁱⁱ表示权重因子的ii次方；如图1所示，|d_kkii-d_jjii|(d_kkiii≠d_jjii)表示复合类别间的距离，d_kkii表示聚类中心kk到样本ii间的距离，d_jjii表示聚类中心jj到样本ii间的距离。Y_ii表示大幅兴趣波动序列Y中的第ii个数值。

聚类目标函数约束如式：

步骤501.1：定义大幅兴趣波动序列Y中样本间距离d_jjii的计算方法：

其中，Y_ii表示大幅兴趣波动序列Y中第ii个样本时序向量，Y_jj表示大幅兴趣波动序列Y中第jj个样本时序向量；

步骤501.2：定义包含时间信息的序列向量Y_ii到聚类中心μ_kk的加权距离D²(Y_ii,μ_kk；w_kk,ii)；

其中，μ_kk表示第kk个聚类中心，μ表示所有的聚类中心，Y_ii表示大幅兴趣波动序列Y中第ii个样本时序向量，p(Y_ii|μ_kk)为在知道聚类中心μ_kk的情况下存在Y_ii的概率，p(μ_kk,Y_ii)为μ_kk与Y_ii的联合分布概率；

步骤501.3：确定聚类中心μ_kk的迭代公式：

其中，δⁱⁱ表示时间权重因子的ii次方；

步骤501.4：确定隶属度β_kk,ii的迭代公式：

其中，D²(Y_ii,μ_kk；w_ii,kk)表示包含时间信息的序列向量Y_ii到聚类中心μ_kk的加权距离,w_ii,ll表示样本ii与聚类中心ll之间距离权重，w_ii,kk表示样本ii与聚类中心kk之间距离权重,d_llii表示聚类中心ll到样本ii之间的距离，D²(Y_ii,μ_ll；w_ii,ll)表示包含时间信息的序列向量Y_ii到聚类中心μ_ll的加权距离,；

在步骤503中，K为5，定义子区间u₁＝[0,1]，u₂＝(1,2)，u₃＝[2,3]，u₄＝(3,4)，u₅＝[4,5]，所对应的模糊集评价标准为A₁＝“评价很差”，A₂＝“评价较差”，A₃＝“评价一般”，A₄＝“评价较高”，A₅＝“评价很高”。

在步骤504中，模糊集A_K的表达方式为：

其中，β_KK表示评价标准K对第K个聚类中心的隶属度。

在步骤6中，推荐商品为每个用户预测结果评分从高到低的前10％。

本发明还公开了一个根据权利要求1-13任意一项权利要求所述的融合用户兴趣时序波动的个性化推荐方法的推荐系统，包括用户商品交互数据采集模块、时序数据序列生成模块、时序数据序列判别模块、小幅兴趣波动序列预测模块、大幅兴趣波动序列预测模块以及商品推荐模块，其特征在于：

用户商品交互数据采集模块采集的交互信息具体包括用户信息、商品名称、用户评分、商品类型与时间戳，并将原始数据传给时序数据序列生成模块；

数据序列生成模块根据用户商品交互数据采集模块传送的数据按照时间由远及近的顺序进行排列得到时序化数据集，根据项目类别划分出复合类别后构建基于类别的时间序列数据，之后把时间序列数据传给时序数据序列判别模块；

时序数据序列判别模块兴趣波动序列阈值α并计算时间序列数据方差的总差和的绝对值S，将S小于α的时间序列归为小幅兴趣波动序列，大于α的时间序列归为大幅兴趣波动序列，并将小幅兴趣波动序列小幅兴趣波动序列预测模块，将大幅兴趣波动序列输入至大幅兴趣波动序列预测模块；

小幅兴趣波动序列预测模块与大幅兴趣波动序列预测模块分别根据其输入值进行预测，将预测结果输入至商品推荐模块；

商品推荐模块根据小幅兴趣波动序列预测模块或大幅兴趣波动序列预测模块的输入值进行商品推荐。

本发明的有益效果在于，与现有技术相比，本发明融合时序波动变化，对用户兴趣时序波动进行识别分类，得到小幅和大幅兴趣两种波动序列，通过混合方法的形式有针对性地对用户不同时段的兴趣波动变化建模，能够很好地提高预测准确性和可解释性。

附图说明

图1为本发明时序模糊聚类模型示意图；

图2为本发明的流程示意图。

具体实施方式

下面结合附图对本申请作进一步描述。以下实施例仅用于更加清楚地说明本发明的技术方案，而不能以此来限制本申请的保护范围。

一种融合用户兴趣时序波动的个性化推荐方法及系统，个性化推荐方法包括以下步骤：

步骤1：采集用户对需进行个性化推荐的商品的交互信息，交互信息具体包括用户信息、商品名称、用户评分、商品类型与时间戳。

在本实施例中，商品为电影，共采集了25000095条用户对电影的交互信息，用户信息包括用户ID；商品名称为电影名称；用户评分的范围为[0.5,5]分，并以0.5分的规模递增；商品类型为电影类型；时间戳为交互信息生成的时间。

本领域的技术人员需知道，此处的商品还包括餐厅、视频、音乐、服饰、电商以及其他可以被用户进行评价的项目。

对采集数据的预处理包括以下内容：

步骤202：将步骤201所得到的时序化数据集根据商品类型划分出复合类别；

复合类别由多个初始类别元素组成，初始类别元素指对商品类型中子类型的定义。如对于电影来说，“科幻和悬疑”可表示为一种复合类别，而“科幻”和“悬疑”分别是初始类别元素；对于餐厅来说，“中餐和米其林”可表示为一种复合类别，而“中餐”和“米其林”是两个初始类别元素。

在本实施例中，每种复合类别至少包含5个初始类别元素；对于不满足数量要求的复合类别，将其与另外复合类别合并，合并规则为：优先将两者包含相同初始类别元素最多的复合类别合并。依次反复，直到所有复合类别包含的集合中项目数量满足序列要求。划分复合类别的目的是将用户兴趣的焦点从繁复的类型中分离出来，通过找出此类兴趣波动规律，判断用户的未来期望趋势。比如评分、购买频次的波动，决定是否向用户推荐含有此复合类别的商品

步骤203：使用步骤202所得的复合类别构建基于类别的时间序列数据；

即

表示t时刻的样本时序向量，k表示时间样本点数量。

N为用户复合类别的总数，即当用户A有a，b，c这三个复合类别，用户B有c，d，e这三个复合类别时，N为6。

步骤3：将步骤2所得到的时间序列数据根据用户兴趣波动幅度分成小幅兴趣波动序列X以及大幅兴趣波动序列Y；如果所述时间序列数据属于小幅兴趣波动序列X进入步骤4，如果属于大幅兴趣波动序列Y则进入步骤5。

步骤301：设置兴趣波动序列阈值α；

兴趣波动序列阈值α应根据实际预测过程中用户的波动情况进行选值。

α最初的取值为0.05，增值区间为0.05，上限为0.5，经过反复实验得到α的最优取值区间为(0.05,0.2]，在本实施例中，最终选取α＝0.1。

步骤302：计算时间序列数据方差的总差和的绝对值S；

表示

中所有数据的平均值，

表示t时刻的样本时序向量，

表示

中所有数据的平均值，

为t+1时刻的样本时序向量。

步骤4：使用步骤3所得的小幅兴趣波动序列X作为数据源，构建小幅兴趣神经网络预测框架进行预测后进入步骤6；

步骤401：构建以下目标训练预测函数：

其中，Θ表示待定特征系数向量，取值范围为[Θ₀,Θ₁]，Θ₀为偏移量,Θ₁为变量系数，Θ₀和Θ₁为需要求取的未知量，X^(t)表示t时刻小幅兴趣波动序列，

表示预测值序列。

步骤402：利用步骤401的目标训练预测函数计算最优用户特征系数，得到用户特征系数集合；

步骤402.1：使用误差和构建目标函数，在此基础上加入时间衰减因子w^(t)，同时防止过拟合在目标函数中加入正则化项，正则化处理后的目标函数

其中，λ为正则化参数；k表示时间序列数据中样本点数量；n表示最优用户特征系数的特征数量；y^(t)是t时刻用户数据的真值序列，即X^(t)中t时刻下的数值；w^(t)表示t时刻的时间衰减因子，σ_e表示第e个正则项。

w^(t)可进一步由时间权重因子表示，时间权重因子δ是一组范围在[0,1]的常数，w^(t)根据权重因子δ的衰减速度衰减，即：

w^(t)～δ^k-t

其中，δ^k-t表示时间权重因子δ的k-t次方；

步骤402.2：因所求目标函数是加权误差和，为得到使误差最小的系数Θ，优化方法选择随机梯度下降法对目标函数进行优化。对目标函数公式

求导：

其中，

表示对待定特征系数向量Θ求导，σ_ll表示第ll个正则系数。

其中，γ为控制学习速率的学习因子，Θ_i表示第i个求导后的正则系数。

步骤402.4：训练最优用户特征系数。选择每种类别下误差和小于阈值的h组用户特征系数进行训练，其中误差和的阈值取对应类型的所有误差总和均值，即：

表示对于类别g中第gj个样本的预测值序列，

表示对于第h个样本的预测值序列。

步骤403：利用步骤402所得到的最优用户特征系数集合，预测用户U对包含G初始类别元素的复合类别商品的评分；

根据用户U在o时刻评分，预测下次在o+1时刻的评分，则o+1时刻用户U对包含G初始类别元素的复合类别项目的评分预测为：

其中，Θ(t)表示符合条件的兴趣特征系数，

表示包含G初始类别元素的复合类别中的小幅兴趣波动序列。

步骤5：使用步骤3所得的大幅兴趣波动序列Y作为数据源，构建大幅兴趣神经网络预测框架进行预测后进入步骤6；

步骤501：构造聚类目标函数J(β,D,μ,d)，迭代直至相邻两次迭代中目标函数J(β,D,μ,d)改进小于聚类目标函数阈值，则进入步骤502：

在本实施例中，聚类目标函数阈值为10^-5，聚类目标函数为：

其中，β_kk,ii为样本ii对评价标准kk的隶属度，此处的评价标准kk即为聚类中心kk，取值为(0,1)，r为模糊系数，取值为[1,∞],cc为划分的评价标准数量,即聚类中心的数量，D²(Y_ii,μ_kk；w_kk,ii)表示包含时间信息的序列向量z_ii到聚类中心μ_kk的距离，w_kk,ii表示样本kk与样本ii之间距离权重，nn表示样本的数量，δⁱⁱ表示权重因子的ii次方；如图1所示，|d_kkii-d_jjii|(d_kkiii≠d_jjii)表示复合类别间的距离，d_kkii表示聚类中心kk到样本ii间的距离，d_jjii表示聚类中心jj到样本ii间的距离。Y_ii表示大幅兴趣波动序列Y中的第ii个数值。

聚类目标函数约束如式：

表示对于所有kk，ii，

表示对于所有kk，

表示对于所有ii。

其中，μ_kk表示第kk个聚类中心，μ表示所有的聚类中心，Y_ii表示大幅兴趣波动序列Y中第ii个样本时序向量,p(Y_ii|μ_kk)为在知道聚类中心μ_kk的情况下存在Y_ii的概率，p(μ_kk,Y_ii)为μ_kk与Y_ii的联合分布概率。

步骤501.3：确定聚类中心μ_kk的迭代公式：

其中，δⁱⁱ表示时间权重因子的ii次方。

步骤501.4：确定隶属度β_kk,ii的迭代公式：

其中，D²(Y_ii,μ_kk；w_ii,kk)表示包含时间信息的序列向量Y_ii到聚类中心μ_kk的加权距离,w_ii,ll表示样本ii与聚类中心ll之间距离权重，w_ii,kk表示表示样本ii与聚类中心kk之间距离权重，d_llii表示聚类中心ll到样本ii之间的距离，D²(Y_ii,μ_ll；w_ii,ll)表示包含时间信息的序列向量Y_ii到聚类中心μ_ll的加权距离；

步骤502：构造时序特征数据集：

其中，T_l表示时序特征数据集，z_q表示大幅兴趣波动序列Y中第q个样本，β_l，q表示样本q对聚类中心l的隶属度，l∈nn，q∈cc，取值方法与β_kk，ii相同，β_p,q表示样本q对聚类中心p的隶属度，p∈nn，取值方法与β_kk,ii相同，δ^p表示大幅兴趣波动序列Y中第p个样本的时间权重因子。

受到用户兴趣漂移的影响，聚类中心则会因时序变化形成分布趋势的转移。因此，本发明根据隶属度建立子集，加入时间衰减因子削弱早期数据的隶属程度。

步骤503：将评价标准按照用户评价的等级将步骤502构造的时序特征数据集T_l模糊划分为K个；

在本实施例中，K为5，划分的方法如表1所示，分别定义子区间u₁＝[0,1]，u₂＝(1,2)，u₃＝[2,3]，u₄＝(3,4)，u₅＝[4,5]，所对应的模糊集评价标准为A₁＝“评价很差”，A₂＝“评价较差”，A₃＝“评价一般”，A₄＝“评价较高”，A₅＝“评价很高”。

表1为模糊时间序列的评价标准划分

步骤504：将步骤503模糊划分后的K个序列用扎德记号表示，得到模糊集A_K：

其中，β_K,K表示评价标准K对第K个聚类中心的隶属度。

步骤505：利用以下公式对步骤504的模糊集去模糊化进行预测：

其中，δ^(t)表示t时刻时序特征数据的时间权重因子，μ_t表示t时刻聚类中心，

表示t时刻时序特征数据在模糊集A_K中对应的隶属度。

步骤6：根据预测结果对用户进行个性化商品推荐；

推荐商品为每个用户预测结果评分从高到低的前10％。本领域的技术人员应知晓，此比例可以根据实际情况进行调整，前10％只是本实施例中的优选值。

本发明还公开了一种融合用户兴趣时序波动的个性化推荐系统，包括用户商品交互数据采集模块、时序数据序列生成模块、时序数据序列判别模块、小幅兴趣波动序列预测模块、大幅兴趣波动序列预测模块以及商品推荐模块；

本发明申请人结合说明书附图对本发明的实施示例做了详细的说明与描述，但是本领域技术人员应该理解，以上实施示例仅为本发明的优选实施方案，详尽的说明只是为了帮助读者更好地理解本发明精神，而并非对本发明保护范围的限制，相反，任何基于本发明的发明精神所作的任何改进或修饰都应当落在本发明的保护范围之内。

Claims

1.一种融合用户兴趣时序波动的个性化推荐方法，其特征在于，所述个性化推荐方法包括以下步骤：

步骤6：根据步骤4或步骤5的预测结果对商品进行推荐。

2.根据权利要求1所述的个性化推荐方法，其特征在于：

所述步骤2包括以下内容：

3.根据权利要求2所述的个性化推荐方法，其特征在于：

在所述步骤202中，每种复合类别至少包含5个初始类别元素；对于不满足数量要求的复合类别，将其与另外复合类别合并，合并规则为优先将两者包含相同初始类别元素最多的复合类别合并；

所述复合类别由多个初始类别元素组成，初始类别元素指对商品类型中子类型的定义。

4.根据权利要求3所述的个性化推荐方法，其特征在于：

在所述步骤203中，将不同用户的N个复合类别中的数据划分成序列数据x₁,x₂…x_N，其中x_N表示复合类别的时序数据样本，继而把每个时序数据样本分为k个时间序列数据，分段后的时间序列数据为

即

为t时刻的样本时序向量；

5.根据权利要求4所述的个性化推荐方法，其特征在于：

所述步骤3包括以下内容：

步骤301：设置兴趣波动序列阈值α；

步骤302：计算时间序列数据方差的总差和的绝对值S；

表示

中所有数据的平均值，

表示t时刻的样本时序向量，

表示

中所有数据的平均值，

为t+1时刻的样本时序向量；

6.根据权利要求5所述的个性化推荐方法，其特征在于：

所述兴趣波动序列阈值α的取值区间为(0.05,0.2]。

7.根据权利要求6所述的个性化推荐方法，其特征在于：

所述步骤4包括以下内容：

步骤401：构建以下目标训练预测函数：

表示预测值序列；

8.根据权利要求7所述的个性化推荐方法，其特征在于：

所述步骤402包括以下内容：

w^(t)由时间权重因子δ表示，即：

w^(t)～δ^k-t

步骤402.2：对目标函数公式

求导：

其中，

表示对待定特征系数向量Θ求导，σ_ll表示第ll个正则系数；

步骤402.4：训练最优用户特征系数；选择每种类别下误差和小于阈值的h 组用户特征系数进行训练，其中误差和的阈值取对应类型的所有误差总和均值，即：

表示对于类别g中第gj个样本的预测值序列，

表示对于第h个样本的预测值序列。

9.根据权利要求8所述的个性化推荐方法，其特征在于：

在所述步骤403中，根据用户U在o时刻评分，预测下次在o+1时刻的评分，则o+1时刻用户U对包含G初始类别元素的复合类别项目的评分预测为：

其中，Θ(t)表示符合条件的兴趣特征系数，

表示包含G初始类别元素的复合类别中的小幅兴趣波动序列。

10.根据权利要求9所述的个性化推荐方法，其特征在于：

所述步骤5包括以下内容：

步骤501：构造聚类目标函数J(β，D，μ，d)，迭代直至相邻两次迭代中目标函数J(β，D，μ，d)改进小于目标函数阈值，则进入步骤502；

步骤502：构造时序特征数据集；

其中T_l表示时序特征数据集，z_q表示大幅兴趣波动序列Y中第q个样本，β_l，q表示样本q对聚类中心l的隶属度，q∈nn，l∈cc，取值方法与β_kk，ii相同，β_p，q表示样本q对聚类中心p的隶属度，p∈cc，取值方法与β_kk，ii相同，δ^p表示大幅兴趣波动序列Y中第p个样本的时间权重因子；

步骤505：对步骤504的模糊集A_K去模糊化进行预测：

表示t时刻时序特征数据在模糊集A_K中对应的隶属度。

11.根据权利要求10所述的个性化推荐方法，其特征在于：

所述步骤501包括以下内容：

其中，β_kk，ii为样本ii对评价标准kk的隶属度，此处的评价标准kk即为聚类中心kk，取值为(0，1)，r为模糊系数，取值为[1，∞]，cc为划分的评价标准数量，D²(Y_ii，μ_kk；w_kk，ii)表示包含时间信息的序列向量z_ii到聚类中心μ_kk的距离，w_kk，ii表示样本kk与样本ii之间距离权重，nn表示样本的数量，δⁱⁱ表示权重因子的ii次方；如图1所示，|d_kkii-d_jjii|(d_kkiii≠d_jjii)表示复合类别间的距离，d_kkii表示聚类中心kk到样本ii间的距离，d_jjii表示聚类中心jj到样本ii间的距离。Y_ii表示大幅兴趣波动序列Y中的第ii个数值。

聚类目标函数约束如式：

步骤501.2：定义包含时间信息的序列向量Y_ii到聚类中心μ_kk的加权距离D²(Y_ii，μ_kk；w_kk，ii)；

其中，μ_kk表示第kk个聚类中心，μ表示所有的聚类中心，Y_ii表示大幅兴趣波动序列Y中第ii个样本时序向量，p(Y_ii|μ_kk)为在知道聚类中心μ_kk的情况下存在Y_ii的概率，p(μ_kk，Y_ii)为μ_kk与Y_ii的联合分布概率；

步骤501.3：确定聚类中心μ_kk的迭代公式：

其中，δⁱⁱ表示时间权重因子的ii次方；

步骤501.4：确定隶属度β_kk，ii的迭代公式：

其中，D²(Y_ii，μ_kk；w_ii，kk)表示包含时间信息的序列向量Y_ii到聚类中心μ_kk的加权距离，D²(Y_ii，μ_ll；w_ii，ll)表示包含时间信息的序列向量Y_ii到聚类中心μ_ll的加权距离，w_ii，ll表示样本ii与聚类中心ll之间距离权重，w_ii，kk表示样本ii与聚类中心kk之间距离权重，d_llii表示聚类中心ll到样本ii之间的距离。

12.根据权利要求10或11所述的个性化推荐方法，其特征在于：

在所述步骤503中，K为5，定义子区间u₁＝[0，1]，u₂＝(1，2)，u₃＝[2，3]，u₄＝(3，4)，u₅＝[4，5]，所对应的模糊集评价标准为A₁＝“评价很差”，A₂＝“评价较差”，A₃＝“评价一般”，A₄＝“评价较高”，A₅＝“评价很高”。

13.根据权利要求12所述的个性化推荐方法，其特征在于：

在所述步骤504中，模糊集A_K的表达方式为：

其中，β_KK表示评价标准K对第K个聚类中心的隶属度。

14.根据权利要求13所述的个性化推荐方法，其特征在于：

在所述步骤6中，推荐商品为每个用户预测结果评分从高到低的前10％。

15.根据权利要求1-14任意一项权利要求所述的融合用户兴趣时序波动的个性化推荐方法的推荐系统，包括用户商品交互数据采集模块、时序数据序列生成模块、时序数据序列判别模块、小幅兴趣波动序列预测模块、大幅兴趣波动序列预测模块以及商品推荐模块，其特征在于：

所述用户商品交互数据采集模块采集的交互信息具体包括用户信息、商品名称、用户评分、商品类型与时间戳，并将原始数据传给时序数据序列生成模块；

所述数据序列生成模块根据用户商品交互数据采集模块传送的数据按照时间由远及近的顺序进行排列得到时序化数据集，根据项目类别划分出复合类别后构建基于类别的时间序列数据，之后把时间序列数据传给时序数据序列判别模块；

所述时序数据序列判别模块兴趣波动序列阈值α并计算时间序列数据方差的总差和的绝对值S，将S小于α的时间序列归为小幅兴趣波动序列，大于α的时间序列归为大幅兴趣波动序列，并将小幅兴趣波动序列小幅兴趣波动序列预测模块，将大幅兴趣波动序列输入至大幅兴趣波动序列预测模块；

所述小幅兴趣波动序列预测模块与大幅兴趣波动序列预测模块分别根据其输入值进行预测，将预测结果输入至商品推荐模块；

所述商品推荐模块根据小幅兴趣波动序列预测模块或大幅兴趣波动序列预测模块的输入值进行商品推荐。