CN114510645A

CN114510645A - 一种基于提取有效多目标群组来解决长尾推荐问题的方法

Info

Publication number: CN114510645A
Application number: CN202210363831.XA
Authority: CN
Inventors: 金苍宏; 邵育华; 何琴芳; 缪锋; 王硕苹; 吴明晖
Original assignee: Hangzhou City University
Current assignee: Hangzhou City University
Priority date: 2022-04-08
Filing date: 2022-04-08
Publication date: 2022-05-17
Anticipated expiration: 2042-04-08
Also published as: CN114510645B

Abstract

本发明提供了一种基于提取有效多目标群组来解决长尾推荐问题的方法，S1：获取历史评分数据集：S2：基于修正的余弦距离与欧氏距离构建用户二维加权相似度：S3：基于多目标优化器的重新排序模型寻找最佳的相似用户群组进行推荐。本发明充分挖掘了用户偏好，不仅仅是关注整体推荐的准确率，还考虑了长尾项目的准确率和覆盖率。

Description

一种基于提取有效多目标群组来解决长尾推荐问题的方法

技术领域

本发明涉及推荐决策系统技术领域，可用于商品推荐、行为决策、风险预警等领域。具体涉及一种基于提取有效多目标群组来解决长尾推荐问题的方法。

背景技术

在商品推荐、决策支持、风险预警等领域，如果存在大量的候选项时，如何选择合适的行为是一个难点，需要使用推荐系统。大多数传统推荐算法往往追求较高的推荐准确率，这导致热门选项的推荐率甚至超过了其实际受欢迎程度，而非热门选项的资源利用率和销售潜力则被忽略，这就是典型的长尾问题。例如，长尾商品往往代表了一些用户的个性化需求，而对于推荐算法来说，是否能够帮助系统挖掘出长尾商品也成为衡量的标准之一。近年来，人们提出了许多方法来解决长尾问题，包括多目标优化、图模型、聚类以及引入神经网络框架的深度学习方法。与传统的过于注重推荐的准确性而忽略长尾推荐能力的协同过滤算法相比，近年来的一些方法对长尾覆盖率有所提高，但进一步提高仍有挑战。在多目标优化中，增加目标函数会导致迭代次数多，训练速度慢，且难以调整多个目标之间的关系。在与神经网络相结合的协同过滤模型中，调整模型结构不可避免地会导致复杂模型下样本训练的难度和时间复杂度增加。而且，这两种方法在面对小样本数据时都不可避免地会遇到难以训练的问题。

发明内容

针对现有技术中存在的不足，本发明的目的在于提供一种基于提取有效多目标群组来解决长尾推荐问题的方法。本发明在用户决策偏好基础上，不仅仅是关注整体推荐的准确率，还考虑了长尾项目的准确率和覆盖率。

为解决上述技术问题，本发明通过下述技术方案实现：

一种基于提取有效多目标群组来解决长尾推荐问题的方法，包括以下步骤：

S1：获取历史评分数据集，提取出其中的用户评分记录，计算项目出现在用户评分记录中的频率，构建用户-项目评分矩阵，统计每个项目的评分次数，将长尾项目定义为：项目的评分次数低于用户对项目评分次数平均值的项目；

S2：构建用户二维加权相似度，并在每个用户的相似用户列表中按照二维加权相似度进行降序排序；

S3：基于多目标优化器的重新排序模型寻找最佳的相似用户群组进行推荐：

根据二维加权相似度降序排序后选定k个相似用户添加到列表中，将用户群组列表作为初始种群对象；

提出并选择流行度函数和长尾关注度函数作为多目标优化问题的目标函数，得到多目标优化方程组，从而构建多目标优化模型；

对多目标优化模型进行运算，在运算达到指定的迭代次数后，得到一组最优的pareto解即最优相似用户群组，利用这组解为目标用户生成推荐列表进行推荐。

进一步的：根据步骤S1中用户-项目评分矩阵，通过修正过的余弦相似度公式，计算原始的用户相似度

；

针对用户评分记录，根据评分降序排序后划分出长尾项目集，在长尾项目集中根据项目评分次数降序排序后，按照替换比例将列表中评分较低的热门项目替换为排序后的长尾项目集中评分较好的用户感兴趣的项目，从而得到重新构建的用户-项目评分矩阵；

根据重新构建的用户-项目评分矩阵，利用修正过的余弦相似度公式，计算替换后的用户相似度

；

以

为

，

为

构造二维加权相似度，坐标中的单个点

代表为单独个体用户，而点

到原点

的距离被视为二维相似距离；

为二维相似距离分配夹角角度的权重

，对权重进行优化，根据优化后的权重，按照二维相似距离对用户进行排序；

所述修正过的余弦相似度公式为：

其中

为项目

的流行度，

和

分别表示两个用户，

，

分别表示用户

和用户

曾经有过正反馈的物品集合；

综合考虑推荐的有效性，所述替换比例优化公式为：

其中

是用户集合，

是用户

评分过的项目集，

是项目的长尾权重，

是项目

在项目集中出现的次数。

进一步的：通过余弦相似度计算替换前后的相似度

和

，并且以

为

，

为

构造二维加权相似度，利用欧几里得距离来计算构造得出的所述二维加权相似度，所述欧几里得距离为：

其中，坐标中的单个点

代表为一个个体用户，

到

的距离被视为二维相似距离。

进一步的：所述步骤S3中，为了找到最佳的相似用户群，在保证整体准确率的前提下提高长尾推荐的覆盖率和准确率，提出并选择流行度

函数和长尾关注度

函数作为多目标优化问题的目标函数；

所述流行度

函数为：

其中

是相似用户组推荐的项目集，

是项目

在数据集中被评分的数目，

表示

是热门商品或长尾商品时的权重；

所述长尾关注度

函数为：

其中

是相似用户组推荐的项目集，

是项目的权重函数，

是用户对项目的评分；

所述多目标优化方程组为：

其中，

表示其中一个目标函数以长尾关注度

函数的负值为优化方向，

表示另一个目标函数以流行度

函数的正值为优化方向，构建

和

的方程组，

表示多目标优化要能够让两个目标函数都达到最小值，即增加对长尾的关注，降低整体的流行度。

进一步的：所述步骤S3中，融入Non dominated sorting genetic algorithm -II算法进行运算，加入群组的概念，将种群对象初始化为N个不同的相似用户群组，每个种群都是个群组向量，将寻找最优相似用户群组转化为求解pareto最优解。

本发明的第二个目的在于，提供一种电子设备，包括：

一个或多个处理器；

存储装置，用于存储一个或多个程序，

当所述一个或多个程序被所述一个或多个处理器执行，使得所述一个或多个处理器实现如上述中任一所述的方法。

本发明的第三个目的在于，提供一种计算机可读介质，其上存储有计算机程序，该程序被处理器执行时实现如上述中任一所述的方法。

本发明与现有技术相比，具有以下优点及有益效果：

本发明通过构建二维加权相似度充分探索用户偏好以挖掘更多的可能感兴趣的长尾项目，并结合基于多目标优化器的重新排序模型寻找最佳的相似用户群组进行推荐，考虑了长尾项目的准确率和覆盖率，而不是仅仅关注整体推荐的准确率，本发明在预测精度和覆盖率指标上同其他方法相比效果提升明。

附图说明

图1是本发明基于提取有效的多目标群组来解决长尾推荐问题的推荐方法的推荐模型示意图；

图2是本发明与现有技术在不同

值下的评测指标

对比图；

图3是本发明与现有技术在不同

值下的评测指标

对比图。

具体实施方式

为了使本领域的技术人员更好地理解本发明的技术方案，下面结合具体实施例对本发明的优选实施方案进行描述，但是应当理解，附图仅用于示例性说明，不能理解为对本发明的限制；为了更好说明本实施例，附图某些部件会有省略、放大或缩小，并不代表实际产品的尺寸；对于本领域技术人员来说，附图中某些公知结构及其说明可能省略是可以理解的。附图中描述位置关系仅用于示例性说明，不能理解为对本发明的限制。

下面结合附图和实施例对本发明作进一步的说明，但并不作为对本发明限制的依据。

如图1至图3所示，一种基于提取有效多目标群组来解决长尾推荐问题的方法，包括如下步骤：

S1：获取历史评分数据集，提取出其中的用户评分记录，

在本发明中历史评分数据集可以采用公开的Movielens 1M数据集与Yahoo 数据集；

读取数据集，获取用户评分记录以及项目评分记录；

计算项目出现在用户评分记录中的频率，统计每个项目的评分次数，将长尾项目定义为: 项目的评分次数低于用户对项目评分次数平均值的项目；

根据步骤S1中用户-项目评分矩阵，通过修正过的余弦相似度公式，计算原始的用户相似度

；

设置替换比例旨在通过替换用户-项目列表中的热门项，使得产生一个新的用户-项目列表，根据两个列表进行推荐能够关注到更多的长尾项而不只会过多的关注热门项，但是比例的优化需要考虑到最终推荐的覆盖率和准确率，衡量推荐的新颖性，设置过高或过低的比例都会导致低效益的推荐；

；

给定用户

和

，

,

分别表示他们有正反馈的项目集。修正的余弦距离公式表示为：

其中

为项目

的流行度。当两个用户在长尾项目上具有相似的行为，可以认为两个用户的兴趣更加相似；

以

为

，

为

构造二维加权相似度，坐标中的单个点

代表为一个个体用户，

到

的距离被视为二维相似距离，二维相似距离使用欧几里得距离公式；

为二维相似距离分配了夹角角度的权重

，对权重进行优化（优化的过程为通过随机分配多组夹角权重进行综合性试验），根据优化后的权重，按照二维相似距离对用户进行排序；当权重越接近0时，二维加权相似度与原始的用户相似度

越相似，更容易推荐出热门项目从而忽视了长尾项目，反之当权重越接近90时，二维加权相似度与替换后的用户相似度

越相似，更容易推荐出长尾项目但降低了推荐的准确率；

提出相似用户群组的概念，即根据二维加权相似度降序排序后选定k个相似用户添加到列表中，将用户群组列表作为初始种群对象，对比单一的种群向量增加了多目标优化后求解的多样性；

为了找到最佳的相似用户群，在保证整体准确率的前提下提高长尾推荐的覆盖率和准确率，提出并选择流行度

函数和长尾关注度

函数作为多目标优化问题的目标函数，得到多目标优化方程组，从而构建多目标优化模型；

所述流行度

函数为：

其中

是相似用户组推荐的项目集，

是项目

在数据集中被评分的数目，

表示

是热门商品或长尾商品时的权重；

所述长尾关注度

函数为：

其中

是相似用户组推荐的项目集，

是项目的权重函数，

是用户对项目的评分；

所述多目标优化方程组为：

其中，

表示其中一个目标函数以长尾关注度

函数的负值为优化方向，

表示另一个目标函数以流行度

函数的正值为优化方向，构建

和

的方程组，

融入Non dominated sorting genetic algorithm -II算法（即一个快速和精英机制的多目标遗传算法），加入群组的概念，将种群对象初始化为N个不同的相似用户群，每个种群都是个群组向量；

将寻找最优相似用户群组转化为求解pareto 最优解，同时考虑了整体的准确率和覆盖率；

在数据带入算法进行优化计算之前，需要对数据表示进行归一化，即编码，个体的编码采用实数编码，例：一个相似群组实数编码为

，这更易于理解和进行种群迭代操作。最优相似用户组的解由列表向量表示；

计算目标函数值

和

；

非支配排序与拥挤距离计算，选择支配等级高且拥挤距离大的个体进入下一代；

选择算子使用基于拥挤度比较算子

的用户组选择策略。交叉算子采用均匀交叉对列表进行对称交叉，交叉概率为 0.5；变异算子采用单点变异算子，变异概率为0.1；

求解最优二维相似用户群的过程如下：

算法：求解最优二维相似用户群

输入：

，相似度矩阵、用户集、目标用户、种群规模、迭代次数、推荐列表长度、相似用户数。

输出：最优相似用户组

。

1. 从用户集中生成候选集 S。

2.从S生成N个相似用户组的初始个体，形成种群

，计算种群中个体的

和

的值。

3. 对

（第一代为

）进行快速非支配排序，通过拥挤比较算子

选择相同大小 N 的种群

。

4. 根据上述遗传算子对

进行交叉变异操作，得到后代种群

（初始代为

），大小也为 N。

5. 将

和

组合成

，大小为 2N ，对

进行快速非支配排序，得到层级

,

,

,.... 首先将

中的个体添加到下一个迭代种群

。如果

，继续将

中的个体添加到

直到

。

6. 根据前面介绍的拥挤距离算法计算

，删除拥挤度最大的个体，每次更新拥挤距离，直到

个体仍留在

中。

判断是否达到迭代次数，如果没有，返回3，否则终止迭代。

在运算达到指定的迭代次数后，得到一组最优的pareto解，即找到算法最相似的用户群，利用这组解为目标用户生成推荐列表进行推荐。

将上述步骤S1至S3所提出的模型(MDOS)及算法与其他各种方法NSGA-II-RS、CF(UserCF and ItemCF)和 LFM(MF)进行评估对比，验证长尾挖掘能力是否有所提升。即：将替换比例设置为0.8，选取1000个具有代表性因素的用户作为训练用户集，选取300个测试用户进行指标评价。在第一组实验中，通过控制相似用户组的数量来比较整体准确率和覆盖率。在另一组实验中，只测试了长尾项目，关注测试集上推荐的长尾项目的命中率。两组算法均通过调整不同N值，以探索不同N值对推荐效果的影响。当设置 LFM 模型的参数时，学习率和正则化参数均设置为0.05，负采样正负比设置为 30，隐式语义数为 50。由于 LFM的最优值需要多次迭代，将迭代次数设置为 150，其他迭代次数设置为 100。对于评估的指标主要有：

Precision（精度）：评估系统推荐的项目的整体准确性；

其中

是用户集，

是某一个用户，

是根据用户在训练集上的行为给用户推荐的推荐列表，

是用户在测试集上的行为列表；

Coverage（覆盖率）：评估系统推荐项目的整体覆盖率；

其中

是每个用户

的推荐列表中的项目数，

是数据集中的项目总数；

长尾精度（Ltp）：通过优化，提升了推荐的整体准确率和覆盖率，但这并不能绝对证明长尾项目被有效推荐，即使覆盖率的增加也可能仅仅意味着推荐项目的种类增加。因此，在精度的基础上，定义长尾精度(Ltp)来评估长尾推荐的准确性；

其中

是基于相似用户推荐的长尾商品集合，

是用户有评分记录的长尾商品集合；

Popularity（流行度）：除了长尾精度（Ltp），推荐列表的平均流行度也可用来比较长尾推荐能力。如果人气越低，推荐越多的长尾单品；

其中

是用户

的推荐列表，

是数据集中评分的项目

的数量。

将实验结果汇总，第一组实验结果如表1所示。算法的精度高于Movielens数据集上的其他算法，但略低于CF。这是因为CF更喜欢专注于提高精度，更偏向于同时对多个目标进行优化。它略低于Yahoo中的LFM，因为Yahoo的数据稀疏，特征不集中，在有限的迭代次数内没有达到最佳效果。当N的值增加到80时，甚至会出现由于项目样本少而导致全覆盖的问题。但是，Coverage在两个数据集上的表现都优于其他算法，并且随着N的增加，改善程度越大，这表明算法在挖掘长尾项目和提高多样性方面发挥了重要作用；

第二组实验结果如图2和图3所示，显然，N值的变化也会影响实验的性能。结合第一组实验中覆盖率随N值增加的规律，传统的CF和LFM没有表现出Ltp的效果（注：即使覆盖率增加，也只能证明推荐的物品更多，并不能体现推荐的长尾能力）。而且本发明算法在Ltp中优于传统方法，并且随着N值的增加，它优于NSGA-II-RS，并可以解决长尾问题。这说明随着覆盖率的增加，长尾的准确率也在提高，推荐长尾的能力也更强。比起流行度，MDOS的推荐平均流行度比其他算法要略低，这也说明本发明的算法(MDOS)在长尾推荐上发挥了一定作用。

表1 精度和覆盖率的实验结果

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到本发明的设施可借助软件加必需的通用硬件平台的方式来实现。本发明的实施例可以使用现有的处理器来实现，或者由被用于此目的或其他目的用于适当系统的专用处理器来实现，或者由硬接线系统来实现。本发明的实施例还包括非暂态计算机可读存储介质，其包括用于承载或具有存储在其上的机器可执行指令或数据结构的机器可读介质；这种机器可读介质可以是可由通用或专用计算机或具有处理器的其他机器访问的任何可用介质。举例来说，这种机器可读介质可以包括RAM、ROM、EPROM、EEPROM、CD-ROM或其他光盘存储器、磁盘存储器或其他磁存储设备，或任何其他可用于以机器可执行指令或数据结构的形式携带或存储所需的程序代码，并可被由通用或专用计算机或其它带有处理器的机器访问的介质。当信息通过网络或其他通信连接（硬接线、无线或硬接线或无线的组合）传输或提供给机器时，该连接也被视为机器可读介质。

依据本发明的描述及附图，本领域技术人员很容易制造或使用本发明的一种基于提取有效多目标群组来解决长尾推荐问题的方法，并且能够产生本发明所记载的积极效果。

以上所述，仅是本发明的较佳实施例，并非对本发明做任何形式上的限制，凡是依据本发明的技术实质对以上实施例所作的任何简单修改、等同变化，均落入本发明的保护范围之内。

Claims

1.一种基于提取有效多目标群组来解决长尾推荐问题的方法，其特征在于：包括以下步骤：

2.根据权利要求1所述的一种基于提取有效多目标群组来解决长尾推荐问题的方法，其特征在于：根据步骤S1中用户-项目评分矩阵，通过修正过的余弦相似度公式，计算原始的用户相似度

；

；

以

为

，

为

构造二维加权相似度，坐标中的单个点

代表为单独个体用户，而点

到原点

的距离被视为二维相似距离；

为二维相似距离分配夹角角度的权重

所述修正过的余弦相似度公式为：

其中

为项目

的流行度，

和

分别表示两个用户，

，

分别表示用户

和用户

曾经有过正反馈的物品集合；

综合考虑推荐的有效性，所述替换比例优化公式为：

其中

是用户集合，

是用户

评分过的项目集，

是项目的长尾权重，

是项目

在项目集中出现的次数。

3.根据权利要求2所述的一种基于提取有效多目标群组来解决长尾推荐问题的方法，其特征在于：通过余弦相似度计算替换前后的相似度

和

，并且以

为

，

为

其中，坐标中的单个点

代表为一个个体用户，

到

的距离被视为二维相似距离。

4.根据权利要求1所述的一种基于提取有效多目标群组来解决长尾推荐问题的方法，其特征在于：所述步骤S3中，以流行度

函数和长尾关注度

函数作为多目标优化问题的目标函数；

所述流行度

函数为：

其中

是相似用户组推荐的项目集，

是项目

在数据集中被评分的数目，

表示

是热门商品或长尾商品时的权重；

所述长尾关注度

函数为：

其中

是相似用户组推荐的项目集，

是项目的权重函数，

是用户对项目的评分；

所述多目标优化方程组为：

其中，

表示其中一个目标函数以长尾关注度

函数的负值为优化方向，

表示另一个目标函数以流行度

函数的正值为优化方向，构建

和

的方程组，

5.根据权利要求1所述的一种基于提取有效多目标群组来解决长尾推荐问题的方法，其特征在于：所述步骤S3中，融入Non dominated sorting genetic algorithm -II算法进行运算，加入群组的概念，将种群对象初始化为N个不同的相似用户群组，每个种群都是个群组向量，将寻找最优相似用户群组转化为求解pareto最优解。

6.一种电子设备，其特征在于：包括：

一个或多个处理器；

存储装置，用于存储一个或多个程序，

当所述一个或多个程序被所述一个或多个处理器执行，使得所述一个或多个处理器实现如权利要求1-5中任一所述的方法。

7.一种计算机可读介质，其上存储有计算机程序，其特征在于：该程序被处理器执行时实现如权利要求1-5中任一所述的方法。