CN113468436A

CN113468436A - 基于用户评价的强化学习推荐方法、系统、终端及介质

Info

Publication number: CN113468436A
Application number: CN202110827188.7A
Authority: CN
Inventors: 江琼琴; 宋文广; 赵俊峰; 郭海敏; 赵辉; 喻高明; 杨显贵; 张磊; 李波
Original assignee: Yangtze University
Current assignee: Yangtze University
Priority date: 2021-07-21
Filing date: 2021-07-21
Publication date: 2021-10-01

Abstract

本发明公开了基于用户评价的强化学习推荐方法、系统、终端及介质，涉及互联网技术领域，其技术方案要点是：获取目标用户的用户评价向量、用户评分向量和权值向量；根据用户评价向量、用户评分向量和权值向量建立目标用户的状态值函数，并对状态值函数进行迭代优化后得到最优值函数；利用余弦相似度算法匹配得到与目标用户的状态函数值之间的余弦相似度大于相似度阈值的临近用户；选取临近用户中偏好值排序前列的至少一个物品推荐给目标用户。本发明通过在计算强化学习方法里的值函数中加入用户评价和用户评分两个因素，得到的值函数作为协同过滤中计算用户相似度，有效解决了协同过滤算法存在数据稀疏和冷启动等问题。

Description

基于用户评价的强化学习推荐方法、系统、终端及介质

技术领域

本发明涉及互联网技术领域，更具体地说，它涉及基于用户评价的强化学习推荐方法、系统、终端及介质。

背景技术

User-CF目前是推荐系统中发展较为成熟的方法之一，拥有良好的推荐效果。其核心在于通过利用分析当前用户的所有历史交互行为信息，用户的一些隐性特征和显示特征进行分析得到其偏好项目，再找到与其偏好相近的用户的意见来为当前用户推荐新项目，充分利用了用户的历史观看记录和用户本身的特征。

然而，基于用户的协同过滤也存在一定的缺点，具体如下：

(1)数据稀疏性。当原始数据具有稀疏性时，会导致基于用户的协同过滤算法在构建用户-物品矩阵时造成矩阵比较稀疏的难题。而当构建用户-物品的矩阵稀疏时，协同过滤会很难得到用户之间的存在的交集，无论是通过余弦相似度计算还是皮尔逊相似度计算都很难具有很好的效果，而在通过矩阵分解等方法来预测当前用户对该电影的评分也会因为没有有效数据很难有用较高的准确度。因此很难计算针对用户之间的偏好度，也就不能给当前用户推荐适合其偏好度的电影。尽管Wang、Zhou等利用挖掘出目标用户存在某些隐藏的用户个人统计信息，同时根据挖掘出的这些隐藏信息来填充矩阵空白值达到降低矩阵稀疏性的效果。邓爱林等根据挖掘物品间的相似度来填充用户-物品矩阵存在的空白用户评分值。看似采用以上方法将挖掘的信息来填入预测评分值从而使矩阵变得更加丰满，可通过这些方法挖掘出来的数据本质上来说不是用户真实的对于电影的评分，所以从最终的结果上来看会存在因预测评分误差较大进而影响推荐性能的问题。

(2)冷启动问题。当基于用户的协同过滤算法在最先开始启动的阶段，会存在用户的数据过少的原因，造成推荐系统在启动阶段就会造成推荐性能较低的境况。此时不管是对用户之间进行相似度计算还是对用户进行对应的建模都很难解决解决推荐性能差的问题。而为了解决冷启动的问题，会选择为那些具有数据稀疏性的用户首先推荐目前热门产品，然后通过一段时刻去收集用户的反馈，最后根据收集的这些反馈进行协同推荐。HyungJunAhn等提出通过挖掘用户之间拥有共同偏好的项目对其的评分、物品存在的影响度和流行程度等信息以此来分析对应用户之间的拥有的相似度。虽然通过这些方法能够解决针对稀疏的数据无法在推荐系统启动时推荐性能差的问题。但对于物品的影响力和流行度没有较为准确的标准对其进行衡量，所以这些方案还是没办法有效缓解在开始时存在对目标用户推荐时性能低的困境。

因此，如何研究设计一种能够克服上述缺陷的基于用户评价的强化学习推荐方法、系统、终端及介质是我们目前急需解决的问题。

发明内容

为解决现有技术中的不足，本发明的目的是提供基于用户评价的强化学习推荐方法、系统、终端及介质。

本发明的上述技术目的是通过以下技术方案得以实现的：

第一方面，提供了基于用户评价的强化学习推荐方法，包括以下步骤：

获取目标用户的用户评价向量、用户评分向量和权值向量；

根据用户评价向量、用户评分向量和权值向量建立目标用户的状态值函数，并对状态值函数进行迭代优化后得到最优值函数，以及根据最优值函数计算得到目标用户的状态函数值；

利用余弦相似度算法匹配得到与目标用户的状态函数值之间的余弦相似度大于相似度阈值的临近用户；

选取临近用户中偏好值排序前列的至少一个物品推荐给目标用户。

进一步的，所述用户评价向量和用户评分向量的获取过程具体为：

获取历史评价数据集，并提取历史评价数据集中的标签属性数据和评级属性数据；

提取标签属性数据中用户对物品的偏好程度以及符合用户偏好特征的标签特征作为用户评价向量，并以评级属性数据中的评分特征作为用户评分向量；

对所有的用户评价向量和用户评分向量进行属性取交集的方式进行处理，得到最终一一对应的用户评价向量和用户评分向量。

进一步的，所述权值向量为依据用户评价向量和用户评分向量构建的特征向量所对应的权值。

进一步的，所述状态值函数的建立过程具体为：

对用户评价向量和用户评分向量均以时间顺序的升序方式进行响应排序，得到响应序列；

响应序列中每一个时刻对应的值表征当前用户在该时刻对应的状态；

利用当前用户在相应时刻对物品的评分和评价来调整用户评分向量和用户评价向量的响应维度值，并通过计算得到在相应时刻该用户相应状态下的值函数。

进一步的，所述状态值函数迭代优化得到最优值函数的过程具体为：

利用梯度下降方法不断更新权值向量以使实际情况的值函数逼近理想状态的值函数；

利用更新后的权值向量和下一时刻当前用户对应的用户评分和用户评价近似代替下一个时间点当前用户的状态值函数；

通过不断的迭代以上步骤直至值函数收敛后得到当前用户的值函数，并跳到下一个用户再进行以上步骤直至得到最优值函数。

进一步的，所述最优值函数的计算公式具体为：

其中，

表示相应用户在t₁时刻的s状态下的状态函数值；

表示相应用户在t₁时刻时第i维所对应的权值向量；R_s(i)表示相应用户在s状态下第i维所对应的用户评分向量；

表示相应用户在s状态下第i维所对应的用户评价向量；e表示用户评分向量中评分特征在所有用户中的使用频率；n表示最优值函数的总维度。

进一步的，所述余弦相似度的计算公式具体为：

其中，sim_xy表示用户x与用户y之间的余弦相似度；v_xk表示用户x的状态值函数向量中第k维的状态函数值；v_yk表示用户y的状态值函数向量中第k维的值；n表示最优值函数的总维度。

第二方面，提供了基于用户评价的强化学习推荐系统，包括：

数据处理模块，用于获取目标用户的用户评价向量、用户评分向量和权值向量；

函数构建模块，用于根据用户评价向量、用户评分向量和权值向量建立目标用户的状态值函数，并对状态值函数进行迭代优化后得到最优值函数，以及根据最优值函数计算得到目标用户的状态函数值；

用户匹配模块，用于利用余弦相似度算法匹配得到与目标用户的状态函数值之间的余弦相似度大于相似度阈值的临近用户；

物品推荐模块，用于选取临近用户中偏好值排序前列的至少一个物品推荐给目标用户。

第三方面，提供了一种计算机终端，包含存储器、处理器及存储在存储器并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现如第一方面中任意一项所述的基于用户评价的强化学习推荐方法。

第四方面，提供了一种计算机可读介质，其上存储有计算机程序，所述计算机程序被处理器执行可实现如第一方面中任意一项所述的基于用户评价的强化学习推荐方法。

与现有技术相比，本发明具有以下有益效果：

1、本发明通过在计算强化学习方法里的值函数中加入用户评价和用户评分两个因素，得到的值函数作为协同过滤中计算用户相似度，有效解决了协同过滤算法存在数据稀疏和冷启动等问题；

2、本发明将强化学习推荐方法(RL-EB)和协同过滤推荐方法(FM-DQN)相结合，创造性设计了RL-EDQN混合推荐方法，通过实验对比得到的结果可以知道，该混合推荐方法能够保证推荐结果的准确率的同时，提高了推荐结果的多样性，最终能够充分挖掘出符合当前用户的个性化特征并为其推荐个性化的推荐结果。

附图说明

此处所说明的附图用来提供对本发明实施例的进一步理解，构成本申请的一部分，并不构成对本发明实施例的限定。在附图中：

图1是本发明实施例中的流程图；

图2是本发明实施例中的系统框图；

图3是本发明实施例中数据集A上不同α和γ对应推荐结果的RMSE对照图；

图4是本发明实施例中数据集B上不同α和γ对应推荐结果的RMSE对照图；

图5是本发明实施例中数据集A各算法准确率对比图；

图6是本发明实施例中数据集B各算法准确率对比图；

图7是本发明实施例中数据集A各算法准确率对比图；

图8是本发明实施例中数据集B各算法准确率对比图；

图9是本发明实施例中数据集A各算法准确率对比折线图；

图10是本发明实施例中数据集B各算法准确率对比折线图；

图11是本发明实施例中数据集A各算法整体多样性对比折线图；

图12是本发明实施例中数据集B各算法整体多样性对比折线图；

图13是本发明实施例中数据集A各算法覆盖率对比折线图；

图14是本发明实施例中数据集B各算法覆盖率对比折线图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚明白，下面结合实施例和附图，对本发明作进一步的详细说明，本发明的示意性实施方式及其说明仅用于解释本发明，并不作为对本发明的限定。

实施例1：基于用户评价的强化学习推荐方法，如图1所示，包括以下步骤：

S1：获取目标用户的用户评价向量、用户评分向量和权值向量；

S2：根据用户评价向量、用户评分向量和权值向量建立目标用户的状态值函数，并对状态值函数进行迭代优化后得到最优值函数，以及根据最优值函数计算得到目标用户的状态函数值；

S3：利用余弦相似度算法匹配得到与目标用户的状态函数值之间的余弦相似度大于相似度阈值的临近用户；

S4：选取临近用户中偏好值排序前列的至少一个物品推荐给目标用户。

在步骤S1中，用户评价向量和用户评分向量的获取过程具体为：

S101：获取历史评价数据集，并提取历史评价数据集中的标签属性数据和评级属性数据；

S102：提取标签属性数据中用户对物品的偏好程度以及符合用户偏好特征的标签特征作为用户评价向量，并以评级属性数据中的评分特征作为用户评分向量；

S103：对所有的用户评价向量和用户评分向量进行属性取交集的方式进行处理，得到最终一一对应的用户评价向量和用户评分向量。

以电影推荐为例，选取的MovieLens的数据集中没有所需要的用户评价属性，在数据集里面较为接近的属性为标签特征，因此选择MovieLens数据集中里面其中一个tags标签数据属性来代替，通过处理tags标签数据来得到所需要的用户评价特征。相比于用户评价特征，标签属性覆盖面更加广泛，其中包含像用来描述物品种类的特征、存在的某些特性、用户进行的评价等。针对用户评价而言，一般更加侧重于用户对于物品表示的一些偏好程度，因此从这个角度出发，想到通过从tags标签标签属性中的诸多信息中提取和用户对物品的偏好程度，同时还可以表现出较为符合用户偏好特征的类似的信息标签进行提取用来作为所需要的用户评价特征。如amusing、love、funning、great等。除了需要用到用户评价向量，还需要用到用户评分向量来计算用户的状态函数值。

此外，选取的数据集中，虽然有用户评分的这个属性，但是与所提取的用户评价不一一对应，因此需要将数据集中的用户评分属性和所提取到的用户评价属性进行一一对应，通过将两个属性取交集的方式进行处理，使得用户评价和用户评分一一对应，能在数据集中同时拥有了用户对电影的评分和用户对电影的评价。

需要说明的是，权值向量为依据用户评价向量和用户评分向量构建的特征向量所对应的权值。

在步骤S2中，状态值函数的建立过程具体为：

S201：对用户评价向量和用户评分向量均以时间顺序的升序方式进行响应排序，得到响应序列；

S202：响应序列中每一个时刻对应的值表征当前用户在该时刻对应的状态；

S203：利用当前用户在相应时刻对物品的评分和评价来调整用户评分向量和用户评价向量的响应维度值，并通过计算得到在相应时刻该用户相应状态下的值函数。

另外，由于是依照用户去进行分析，因此需要将数据集中的电影评分和电影评价等其他属性信息按照各个用户去进行对应的分类，因为利用强化学习来进行推荐，按照时间进行排序能更好的进行学习，因此在单个用户中的数据我们按照时间顺序的升序进行响应的排序，以此可以更加符合强化学习的机制。

在步骤S2中，状态值函数迭代优化得到最优值函数的过程具体为：

S204：利用梯度下降方法不断更新权值向量以使实际情况的值函数逼近理想状态的值函数；

S205：利用更新后的权值向量和下一时刻当前用户对应的用户评分和用户评价近似代替下一个时间点当前用户的状态值函数；

S206：通过不断的迭代以上步骤直至值函数收敛后得到当前用户的值函数，并跳到下一个用户再进行以上步骤直至得到最优值函数。

需要说明的是，迭代优化过程中需要对相关参数进行相关初始化赋值。状态值函数、用户评分向量、用户评价向量的初始值均选择初始化为零向量，而针对于权值向量各维度的初始值则通过分析设定为在各维度中对应的用户评价在用户内部个评价所占的权重。为了保证准确的同时增加推荐结果的多样性，强化学习里的参数折扣因子γ和学习率α设置为随机的一个数，然后每次迭代会不断更新，因为不涉及到强调多样性。

在步骤S2中，最优值函数的计算公式具体为：

其中，

表示相应用户在t₁时刻的s状态下的状态函数值；

在步骤S3中，余弦相似度的计算公式具体为：

实施例2：基于用户评价的强化学习推荐系统，如图2所示，包括数据处理模块、函数构建模块、用户匹配模块和物品推荐模块。

其中，数据处理模块，用于获取目标用户的用户评价向量、用户评分向量和权值向量。函数构建模块，用于根据用户评价向量、用户评分向量和权值向量建立目标用户的状态值函数，并对状态值函数进行迭代优化后得到最优值函数，以及根据最优值函数计算得到目标用户的状态函数值。用户匹配模块，用于利用余弦相似度算法匹配得到与目标用户的状态函数值之间的余弦相似度大于相似度阈值的临近用户。物品推荐模块，用于选取临近用户中偏好值排序前列的至少一个物品推荐给目标用户。

实施例3：实验验证

一、实验数据与预处理

将MovieLens数据集中的ratings属性数据和tags属性数据分别进行相对应的预处理后得到最终的数据集，其包含了用户id、电影id、用户评分(其中评分的等级打分机制为0-5分，每半分递增)、用户评价(通过从tags属性数据中按照规则进行对应的筛选获取到)用户提交评分、评价相对应的时间点等五个属性。而本次实验训练数据为从上述方法进行预处理后得到的数据集中通过随机的方法获取包含两个数据集，其特征如表1所示：

表1实验数据集

由表可知，数据集A和数据集B中的用户评价数的数量都相对多于用户评分数，出现这种情况是因为通常情况下用户只会给电影打一次评分，可对于电影给出的评论里有很大概率会涵盖不同的能够体现出用户偏好程度的词语，比如A用户对于其中的某一部电影给出的评价里面包含了4个可以代表该用户的偏好程度的词语，而我们通过tags字段信息进行提取时将4个词语全部给提取出来了，但是这4个词语都是形容同一部电影的，因此会出现上诉的情况。因此我们可以将这一次评价里面提取的词语作为该用户评价向量中的一维进行看待。

二、实验参数设置

强化学习里的参数折扣因子γ和学习率α，将在数据集A、B上分别进行基于用户评价的强化学习推荐方法实验来选择最佳的折扣因子和学习率的最佳组合。

仿真实验中，将使用均方根误差(RMSE)来衡量本发明提出的基于用户评价强化学习推荐方法对于目标用户的给出的预测评分，根据衡量之后的数据先确定选择最优的折扣因子γ和学习率α参数组合。通过选取的数据集A、B分别对该数据集进行基于用户评价强化学习的推荐算法实验，因为对于权值向量w的更新方式中我们需要知道下一时刻的状态值函数以及当前状态值函数，而当γ偏小的时候会直接造成下一时刻的状态值函数过小的情况，而此时的算法性能会受到影响，因此我们为了减少不必要的工作量，根据以往的经验将γ设定为从0.5到1.0按照0.1的间隔进行逐渐递增，而α的设定则从0.1到1.0按照0.1的间隔进行逐渐递增。通过对对应不同的α、γ参数进行基于用户评价的强化学习后给出的对推荐物品的预测评分，最后计算RMSE值能得到如下图3和图4所示。

从图3和图4可得知，相对于数据集A而言，当学习率α＝0.8，折扣因子γ＝0.8的时候本发明提出的强化学习方法达到最优效果；而对于数据集B来说，当学习率α＝0.7，γ＝0.7的时候，本章提出的强化学习方法达到最优效果。同时，对于数据集A而言，如果α相对较小时，会使对应权值的收敛速度变慢，从而导致用户的状态值函数再收敛的过程中该用户的迭代过程就已经运行完毕从而导致最终的该用户的状态值函数与理想情况的状态值函数出现较大的偏好影响算法性能。而对于数据集B来说，数据量相对较大，因此假如α过大，会使权值在快速收敛，但是没有达到局部最优。因此对于数据集较大时相对减小α，可以使权值拥有更好的收敛效果，同时提升算法的性能。

三、推荐算法及实验结果分析

在选取了最佳的学习率α和折扣因子γ的最佳组合后，对比研究本发明提出的基于用户评价的强化学习方法和FM-DQN推荐方法在推荐性能上的比较。通过分别在进行预处理后的A、B两个数据集中选取不同大小的数据量在这两个方法上对比实验，通过这种方法更好的体现出本发明提出的算法是否能有效的解决上一章算法出现的问题。实验结果如图5和图6所示。

由图5和图6可知，在N值小于30的时候，EB-RL的推荐方法推荐结果的准确率要明显高于基于强化学习的FM-DQN推荐算法，同时也高于其他另外两种推荐算法的准确率，EB-RL推荐算法通过将用户评价和评分因素加入到强化学习的值函数中，再将值函数作为用户的状态来进行计算不同用户之间的相似度的方法同基于用户的协同过滤中直接单纯计算用户之间的相似度的方法相比，从结果上看推荐结果的准确性更高，因此EB-RL的推荐算法能够更准确的的计算用户之间存在的相似度，从而更加准确的找到与当前用户相似度更加接近的临近用户，再根据临近用户里面选着评分较高的电影进行推荐。当N大于40的时候，EB-RL的推荐算法的准确率要略低于基于强化学习的FM-DQN推荐算法，FM-DQN运用到了FM因子分解机，通过交叉学习的方式可以更好的挖掘数据特征之间的相关性，使得推荐列表越长，通过不断学习可以更好的利用这些相关性，而EB-RL的推荐算法这是将用户的评分和评价这两个因素加入到了值函数中。

为验证本发明提出基于强化学习的FM-DQN和基于用户评价的强化学习混合的推荐方法的效果，将混合强化学习推荐算法(RL-EDQN)同User-CF推荐算法和CF-linUCB推荐算法在准确率和整体多样性上的比较。数据集还是采用预处理过后的数据集A、数据集B分别进行三个算法的对比实验。实验结果如图7和图8所示。

通过图7和图8可知，总体上，针对于不同大小的N值，RL-EDQN混合推荐算法的准确率都要高于对比算法的准确率，RL-EDQN混合推荐算法很好的解决了基于强化学习的FM-DQN推荐算法在推荐列表较短的时候，推荐准确率较短的问题。

为了更直观的观察到RL-EDQN混合推荐算法、User-CF推荐算法和CF-linUCB推荐算法在准确率上的差别，将个算法在数据集A、B上分别进行实验得到的哦结果绘制成折线图，具体如图9和图10所示。

通过图9和图10可以看出，RL-EDQN混合推荐算法不管是在数据量较小的数据集A还是数据量较大的数据集B上得准确率不管在推荐列表长度N为何值时，都要好于其他两种对比算法的准确率。

在推荐结果多样性上的RL-EDQN混合推荐算法、User-CF推荐算法和CF-linUCB推荐算法分别在数据集A、B上的表现如图11和图12所示。

从图11和图12可知，RL-EDQN混合推荐算法在N＝40的时候推荐结果的整体多样性高于对比算法，此时采用的是FM-DQN推荐算法，推荐结果具有较高的整体多样性，而在N＜40的时候，RL-EDQN混合推荐算法推荐结果整体多样性虽然没有同时高于对比的两种算法，但是高于其中User-CF推荐算法。

由图13和图14可知，整体上图中的三个推荐算法都呈下降趋势，但明显RL-EDQN混合推荐算法推荐结果的覆盖率整体下降效果更加平缓。

本领域内的技术人员应明白，本申请的实施例可提供为方法、系统、或计算机程序产品。因此，本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本申请是参照根据本申请实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

以上的具体实施方式，对本发明的目的、技术方案和有益效果进行了进一步详细说明，所应理解的是，以上仅为本发明的具体实施方式而已，并不用于限定本发明的保护范围，凡在本发明的精神和原则之内，所做的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.基于用户评价的强化学习推荐方法，其特征是，包括以下步骤：

获取目标用户的用户评价向量、用户评分向量和权值向量；

2.根据权利要求1所述的基于用户评价的强化学习推荐方法，其特征是，所述用户评价向量和用户评分向量的获取过程具体为：

3.根据权利要求1所述的基于用户评价的强化学习推荐方法，其特征是，所述权值向量为依据用户评价向量和用户评分向量构建的特征向量所对应的权值。

4.根据权利要求1所述的基于用户评价的强化学习推荐方法，其特征是，所述状态值函数的建立过程具体为：

5.根据权利要求1所述的基于用户评价的强化学习推荐方法，其特征是，所述状态值函数迭代优化得到最优值函数的过程具体为：

6.根据权利要求1-5任意一项所述的基于用户评价的强化学习推荐方法，其特征是，所述最优值函数的计算公式具体为：

其中，

表示相应用户在t₁时刻的s状态下的状态函数值；

7.根据权利要求1-5任意一项所述的基于用户评价的强化学习推荐方法，其特征是，所述余弦相似度的计算公式具体为：

8.基于用户评价的强化学习推荐系统，其特征是，包括：

9.一种计算机终端，包含存储器、处理器及存储在存储器并可在处理器上运行的计算机程序，其特征是，所述处理器执行所述程序时实现如权利要求1-7中任意一项所述的基于用户评价的强化学习推荐方法。

10.一种计算机可读介质，其上存储有计算机程序，其特征是，所述计算机程序被处理器执行可实现如权利要求1-7中任意一项所述的基于用户评价的强化学习推荐方法。