CN113515704A

CN113515704A - 推荐效果评价方法、装置、系统及计算机程序产品

Info

Publication number: CN113515704A
Application number: CN202110834951.9A
Authority: CN
Inventors: 肖婷; 周英能
Original assignee: China Mobile Communications Group Co Ltd; China Mobile Hangzhou Information Technology Co Ltd
Current assignee: China Mobile Communications Group Co Ltd; China Mobile Hangzhou Information Technology Co Ltd
Priority date: 2021-07-22
Filing date: 2021-07-22
Publication date: 2021-10-19
Anticipated expiration: 2041-07-22
Also published as: CN113515704B

Abstract

本发明公开了一种推荐效果评价方法、装置、系统及计算机程序产品，该推荐效果评价方法包括：获取目标用户样本集，将目标用户样本集输入推荐系统，得到推荐结果集，再确定评价影响因素，根据评价影响因素、推荐结果集与目标用户样本集对推荐系统的推荐效果进行评价，得到推荐效果评价结果。本发明提出的推荐效果评价方法在对推荐系统的推荐效果进行评价时，结合了会对评价结果造成影响的评价影响因素，避免了这些因素对评价过程的造成错误影响，提高了对推荐系统的推荐效果进行评价的准确性。

Description

推荐效果评价方法、装置、系统及计算机程序产品

技术领域

本发明涉及计算机技术领域，尤其涉及一种推荐效果评价方法、装置、系统及计算机程序产品。

背景技术

目前，推荐系统效果评价方法的研究一直是推荐系统及其算法发展的一个重要方向，针对推荐系统中的各种问题和短板，如偏差、冷启动、鲁棒性等，评价算法也不断的演变发展；目前主要有MSE，MAE，precision@k，recall@k以及计算相对复杂点的MAP和NDCG等评价方法。

然而，现有的评价算法没有把用户和物品数据中很多影响效果评价的信息利用起来对推荐系统进行评价，把每个user和item与实际推荐效果的评价误差都看作等价的样例来设计，现实的推荐场景中却未必如此，这些影响因素会影响对推荐效果的评价，导致对推荐系统的推荐效果评价不够准确。

发明内容

本发明的主要目的在于提供一种推荐效果评价方法、装置、系统及计算机程序产品，旨在提高推荐效果评价的准确性。

为实现上述目的，本发明实施例提供一种推荐效果评价方法，所述推荐效果评价方法包括以下步骤：

获取目标用户样本集；

将所述目标用户样本集输入推荐系统，得到推荐结果集；

确定评价影响因素，根据所述评价影响因素、所述推荐结果集与所述目标用户样本集对所述推荐系统的推荐效果进行评价，得到推荐效果评价结果。

可选地，所述评价影响因素包括用户属性，所述确定评价影响因素，根据所述评价影响因素、所述推荐结果集与所述目标用户样本集对所述推荐系统的推荐效果进行评价，得到推荐效果评价结果的步骤包括：

确定所述用户属性，根据所述用户属性对所述目标用户样本集进行分组处理，得到对应的各目标用户样本组；

根据所述推荐结果集与所述各目标用户样本组确定所述各目标用户样本组的评价权重；

根据所述推荐结果集与所述目标用户样本集的真实标签确定每个目标用户样本的第一评价函数指标；

根据所述每个目标用户样本的第一评价函数指标与所述各目标用户样本组的评价权重对所述推荐系统的推荐效果进行评价，得到所述推荐效果评价结果。

可选地，所述评价影响因素包括物品属性，所述确定评价影响因素，根据所述评价影响因素、所述推荐结果集与所述目标用户样本集对所述推荐系统的推荐效果进行评价，得到推荐效果评价结果的步骤包括：

确定所述物品属性，以及所述目标用户样本集内每个目标用户样本对应的推荐结果中，与所述每个目标用户样本的真实标签不相同的未采用推荐；

根据所述物品属性确定所述每个目标用户样本对应的未采用推荐与所述每个目标用户样本的真实标签之间的相似度，将所述相似度作为所述未采用推荐的评价惩罚权重；

根据所述推荐结果集与所述目标用户样本集的真实标签与所述评价惩罚权重确定所述每个目标用户样本的第二评价函数指标；

根据所述每个目标用户样本的第二评价函数指标对所述推荐系统的推荐效果进行评价，得到所述推荐效果评价结果。

可选地，所述评价影响因素包括用户属性与物品属性，所述确定评价影响因素，根据所述评价影响因素、所述推荐结果集与所述目标用户样本集对所述推荐系统的推荐效果进行评价，得到推荐效果评价结果的步骤包括：

根据所述每个目标用户样本的第二评价函数指标与所述各目标用户样本组的评价权重对所述推荐系统的推荐效果进行评价，得到推荐效果评价结果。

可选地，所述根据所述物品属性确定所述每个目标用户样本对应的未采用推荐与所述每个目标用户样本的真实标签之间的相似度的步骤包括：

对所述每个目标用户样本的真实标签中，以及所述每个目标用户样本对应的未采用推荐中属于所述物品属性的信息进行编码处理，得到目标用户样本编码数据与未采用推荐编码数据；

利用预设相似度算法计算所述目标用户样本编码数据与所述未采用推荐编码数据之间的相似度，所述相似度为每个目标用户样本对应的未采用推荐与所述每个目标用户样本的真实标签之间的相似度。

可选地，所述将所述相似度作为所述未采用推荐的评价惩罚权重的步骤之前，还包括：

判断所述相似度是否小于第一预设阈值；

若是，则将所述相似度的值置为0；

若否，则将所述相似度的值置为第二预设阈值。

可选地，所述获取目标用户样本集的步骤包括：

获取初始用户样本集，根据所述评价影响因素对所述初始用户样本集进行数据清洗，得到所述目标用户样本集。

此外，本发明实施例还提出一种推荐效果评价装置，所述推荐效果评价装置包括：

数据获取模块，用于获取目标用户样本集；

推荐获取模块，用于将所述目标用户样本集输入推荐系统，得到推荐结果集；

效果评价模块，用于确定评价影响因素，根据所述评价影响因素、所述推荐结果集与所述目标用户样本集对所述推荐系统的推荐效果进行评价，得到推荐效果评价结果。

此外，本发明实施例还提出一种推荐效果评价系统，所述推荐效果评价系统包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序，所述计算机程序被所述处理器执行时实现如上所述的推荐效果评价方法。

此外，本发明实施例还提出一种计算机程序产品，所述计算机程序产品包括计算机程序，所述计算机程序被处理器执行时实现如上所述的推荐效果评价方法。

本发明实施例提出的推荐效果评价方法、装置、系统及计算机程序产品，通过获取目标用户样本集，将目标用户样本集输入推荐系统，得到推荐结果集，再确定评价影响因素，根据评价影响因素、推荐结果集与目标用户样本集对推荐系统的推荐效果进行评价，得到推荐效果评价结果。本发明提出的推荐效果评价方法在对推荐系统的推荐效果进行评价时，结合了会对评价结果造成影响的评价影响因素，避免了这些因素对评价过程的造成错误影响，提高了对推荐系统的推荐效果进行评价的准确性。

附图说明

图1为本发明推荐效果评价装置所属推荐效果评价系统的功能模块示意图；

图2为本发明推荐效果评价方法第一实施例的流程示意图；

图3为本发明推荐效果评价方法第二实施例的流程示意图；

图4为本发明推荐效果评价方法第三实施例的流程示意图；

图5为本发明推荐效果评价方法第四实施例的流程示意图；

图6为本发明推荐效果评价方法第五实施例的流程示意图；

图7为本发明推荐效果评价方法第六实施例的流程示意图；

图8为本发明推荐效果评价装置较佳实施例的功能模块示意图。

本发明目的的实现、功能特点及优点将结合实施例，参照附图做进一步说明。

具体实施方式

应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。

本发明实施例的主要解决方案是：获取目标用户样本集，将目标用户样本集输入推荐系统，得到推荐结果集，再确定评价影响因素，根据评价影响因素、推荐结果集与目标用户样本集对推荐系统的推荐效果进行评价，得到推荐效果评价结果。本发明提出的推荐效果评价方法在对推荐系统的推荐效果进行评价时，结合了会对评价结果造成影响的评价影响因素，避免了这些因素对评价过程的造成错误影响，提高了对推荐系统的推荐效果进行评价的准确性。

本发明实施例考虑到，现有的评价算法没有把用户和物品数据中很多影响效果评价的信息利用起来对推荐系统进行评价，把每个user和item与实际推荐效果的评价误差都看作等价的样例来设计，现实的推荐场景中却未必如此，这些影响因素会影响对推荐效果的评价，导致对推荐系统的推荐效果评价不够准确。

因此，本发明实施例提出解决方案，可以提高推荐效果评价的准确性。

具体地，参照图1，图1为本发明推荐效果评价装置所属推荐效果评价系统的功能模块示意图。该推荐效果评价装置可以为独立于推荐效果评价系统的、能够实现推荐效果评价的装置，其可以通过硬件或软件的形式承载于推荐效果评价系统上。该推荐效果评价系统可以为手机、平板电脑等智能移动终端，还可以为服务器等网络设备。

在本实施例中，该推荐效果评价装置所属推荐效果评价系统至少包括输出模块110、处理器120、存储器130以及通信模块140。

存储器130中存储有操作系统以及推荐效果评价程序；输出模块110可为显示屏、扬声器等。通信模块140可以包括WIFI模块、移动通信模块以及蓝牙模块等，通过通信模块140与外部设备或服务器进行通信。

其中，作为一种实施例方式，存储器130中的推荐效果评价程序被处理器执行时实现以下步骤：

获取目标用户样本集；

将所述目标用户样本集输入推荐系统，得到推荐结果集；

进一步地，存储器130中的推荐效果评价程序被处理器执行时还实现以下步骤：

判断所述相似度是否小于第一预设阈值；

若是，则将所述相似度的值置为0；

若否，则将所述相似度的值置为第二预设阈值。

本实施例通过上述方案，获取目标用户样本集，将目标用户样本集输入推荐系统，得到推荐结果集，再确定评价影响因素，根据评价影响因素、推荐结果集与目标用户样本集对推荐系统的推荐效果进行评价，得到推荐效果评价结果。本发明提出的推荐效果评价方法在对推荐系统的推荐效果进行评价时，结合了会对评价结果造成影响的评价影响因素，避免了这些因素对评价过程的造成错误影响，提高了对推荐系统的推荐效果进行评价的准确性。

基于上述推荐效果评价系统架构但不限于上述架构，提出本发明方法实施例。

参照图2，图2为本发明推荐效果评价方法第一实施例的流程示意图。

本发明实施例提供了推荐效果评价方法的实施例，需要说明的是，虽然在流程图中示出了逻辑顺序，但是在某些情况下，可以以不同于此处的顺序执行所示出或描述的步骤。

所述推荐效果评价方法包括：

步骤S10，获取目标用户样本集；

在本实施例中，获取目标用户样本集，目标用户样本集是经过数据清洗后的用户样本集，用户样本集中包含许多用户样本数据，用户样本数据中包括但不限于用户历史行为数据如用户历史item消费信息、用户历史item评分信息等数据、用户登陆网站的时间、地域、设备号或用户注册时所填写的个人信息等数据，用户样本数据用于推荐系统，以使推荐系统根据用户样本数据对user推荐item。

步骤S20，将所述目标用户样本集输入推荐系统，得到推荐结果集；

在本实施例中，将经过数据清洗后得到的目标用户样本集输入推荐系统，以使推荐系统输出推荐结果集，推荐结果集中包含对目标用户样本集中每个目标用户样本的推荐结果，即目标用户样本集中每个目标用户样本都有对应的推荐结果。其中，推荐系统可以是已经存在的推荐系统，即已经训练好的推荐模型，也可以是根据目标用户样本集中的目标用户样本数据训练得到的；还可以是获取其他训练数据训练得到的。推荐结果包括推荐物品和/或推荐评分。

进一步地，上述将所述目标用户样本集输入推荐系统，得到推荐结果集之前，还可以包括：

获取初始推荐模型以及推荐模型训练数据，根据所述推荐模型训练数据训练所述初始推荐模型，得到所述推荐系统。

在将目标用户样本集输入推荐系统之前，可以训练一个推荐模型作为推荐系统，再对该推荐系统进行推荐效果评价，以此确定训练推荐模型的效果。

首先，获取初始推荐模型与推荐模型训练数据，该推荐模型训练数据一般与目标用户样本集中的数据不同，利用推荐模型训练数据不断训练该初始推荐模型，不断更新初始推荐模型的模型参数，直到初始推荐模型收敛，得到推荐系统，再将目标用户样本集输入该推荐系统，得到推荐结果集。

除了利用推荐模型训练数据训练推荐系统外，也可以利用目标用户样本集中的目标用户样本数据训练该初始推荐模型，不断更新该初始推荐模型的模型参数，直到初始推荐模型收敛，得到推荐系统。

还可以采用联邦学习的方式，将本地的推荐模型的训练作为一个节点，首先获取初始推荐模型的初始模型参数，将初始模型参数发送给全局推荐模型，全局推荐模型用于聚合各个训练节点发送的模型参数，得到聚合模型参数，将聚合模型参数发送至初始推荐模型，利用本地训练数据对初始推荐模型进行训练，使初始推荐模型得到新的模型参数，每当初始推荐模型更新一次模型参数，就将模型参数发送至全局模型以得到新的聚合模型参数，再将聚合模型参数发送至初始推荐模型，训练初始推荐模型，反复训练初始推荐模型，直到初始推荐模型收敛，得到推荐系统。

通过将训练好的推荐模型作为推荐系统，再对推荐系统进行推荐效果评价，可以根据推荐效果评价调整训练推荐模型的过程，进而得到最优的推荐模型。

步骤S30，确定评价影响因素，根据所述评价影响因素、所述推荐结果集与所述目标用户样本集对所述推荐系统的推荐效果进行评价，得到推荐效果评价结果。

在本实施例中，先确定评价影响因素，评价影响因素包括user属性(即用户属性)和/或item属性(即物品属性)等，是在对推荐效果评价阶段中可能会对评价结果造成实际影响的因素。例如，用户属性包括年龄、性别、活跃度等；物品属性包括item的热度、item间的相似标签等。

从用户维度来说，例如有些用户比其他用户更活跃，他们评价的item比一般用户多很多；有些用户却几乎收集不到他们的有效反馈；还有些用户几乎对每个item都会打高分，有些则习惯对每个item打低分。

还有些推荐场景，可能用户的年龄、收入等属性对item的评分有非常大的偏好影响，但这些属性因为作为单一字段在模型的训练阶段并没有完全反应出真实的权重，即这些用户属性会影响对推荐系统后续的评价过程，所以可以根据这些影响属性，在评价阶段为推荐系统对每个用户的推荐效果评分赋予一定的权重。例如，若用户经常性打低分，在对推荐系统进行整体的效果评价时，可以为推荐系统对该用户的推荐效果评分赋予一个较低的权重，以避免该用户经常性打低分这一行为对推荐效果评价造成影响。

从物品维度来说，例如电影或音乐的推荐场景，可能某些导演或歌手的作品基本上大部分用户评价都是高分；有些电影几乎没有什么人用户评价；如果不考虑这些不对等因素，而直接来评价推荐效果的话可能就体现不出差异性，导致对推荐系统的评价结果存在一定误差。

在确定评价影响因素后，再根据评价影响因素、推荐结果集与目标用户样本集确定推荐系统对每一个目标用户样本的推荐效果评价结果，以及推荐系统对每一个目标用户样本的推荐效果的权重，最后根据每一个目标用户样本的推荐效果评价与该推荐效果评价的权重对推荐效果的推荐效果进行整体评价，得到推荐效果评价结果。其中，每一个目标用户样本的推荐效果评价的权重可能相同也可能不同。

最后输出该推荐系统的推荐效果评价结果。

本实施例通过上述方案，具体通过获取目标用户样本集，将目标用户样本集输入推荐系统，得到推荐结果集，再确定评价影响因素，根据评价影响因素、推荐结果集与目标用户样本集对推荐系统的推荐效果进行评价，得到推荐效果评价结果。本发明提出的推荐效果评价方法在对推荐系统的推荐效果进行评价时，结合了会对评价结果造成影响的评价影响因素，避免了这些因素对评价过程的造成错误影响，提高了对推荐系统的推荐效果进行评价的准确性。

参照图3，图3为本发明推荐效果评价方法第二实施例的流程示意图

进一步地，提出本发明推荐效果评价方法第二实施例，所述评价影响因素包括用户属性，在本实施例中，上述步骤S30可以包括：

步骤S3011，确定所述用户属性，根据所述用户属性对所述目标用户样本集进行分组处理，得到对应的各目标用户样本组；

在本实施例中，评价影响因素包括用户属性，确定影响推荐效果评价的用户属性，用户属性包括年龄、性别、活跃度等，再根据用户属性对目标用户样本集进行分组处理，得到对应的各目标用户样本组。通过计算各目标用户样本组对应的评价权重，从而得到目标用户样本集中每个目标用户样本的评价权重。

进一步地，上述确定所述用户属性，根据所述用户属性对所述目标用户样本集进行分组处理，得到对应的各目标用户样本组可以包括：

确定所述用户属性，对所述用户属性进行阈值分组处理，得到各用户属性组，根据所述各用户属性组对所述目标用户样本集进行分组处理，确定与所述各用户属性组对应的所述各目标用户样本组。

根据用户属性对目标用户样本集进行分组的方式可以是：

对用户属性进行阈值分组处理，得到预设数量的用户属性组，其中，可以根据不同的用户属性将用户属性分为不同数量的属性组。例如，若用户属性是年龄，则可以将年龄分为4个组，如年龄区间[10,18]属于C1，年龄区间(18,26]属于C2，年龄区间(26,40]属于C3，年龄区间(40,56]属于C4。在对用户属性进行阈值分组处理时，只需满足分组后，得到的不同用户属性组对应的目标用户样本不会发生重叠的条件即可。

根据各用户属性组对目标用户样本集进行分组处理，即确定每个用户属性组对应的目标用户样本组，如确定某个用户属性组对应的目标用户样本组时，在目标用户样本集中找出用户属性属于该用户属性组的全部目标用户样本，这些目标用户样本就构成了该用户属性组对应的目标用户样本组。

步骤S3012，根据所述推荐结果集与所述各目标用户样本组确定所述各目标用户样本组的评价权重；

根据推荐结果集与各目标用户样本组确定各目标用户样本组的评价权重，具体为，确定每个目标用户样本组对应的推荐结果，即每个目标用户样本组中的目标用户样本对应的推荐结果，根据每个目标用户样本组对应的推荐结果与推荐结果集确定每个目标用户样本组的评价权重f_Cn(u)，每个目标用户样本组的评价权重就是该目标用户样本组中每个目标用户样本的评价权重，所以可以得到每个目标用户样本的评价权重f(u)。

进一步地，上述根据所述推荐结果集与所述各目标用户样本组确定所述各目标用户样本组的评价权重可以包括：

确定所述推荐结果集中各推荐结果的均值，以及所述各目标用户样本组对应的推荐结果的均值；

将所述各目标用户样本组对应的推荐结果的均值，与所述推荐结果集中各推荐结果的均值之间的比值，作为所述各目标用户样本组的评价权重。

根据推荐结果集与各目标用户样本组确定各目标用户样本组的评价权重的方式可以是：

确定推荐结果集的均值即推荐结果集中各推荐结果的均值，推荐结果集的均值指推荐系统对目标用户样本集中用户样本推荐物品的评分或者消费计数的均值；再确定推荐系统对每个目标用户样本组中用户样本推荐物品的评分或者消费计数的均值，即个目标用户样本组对应的推荐结果的均值。

将每个目标用户样本组对应的推荐结果的均值，与推荐结果集的均值之间的比值，作为该目标用户样本组的评价权重。

以评分的推荐系统为例，分别计算出推荐系统对目标用户样本集中所有目标用户样本的推荐评分的均值v，以及对C1到Cn各组对应的目标用户样本组中目标用户样本的推荐评分的均值V₁到V_n，最终计算得到各目标用户样本组的评价权重f_Cn(u)：

其中，u表示目标用户样本集中每个目标用户样本的真实标签，也就是每个用户实际的消费列表或者评分，此时可以用来表示一个目标用户样本。每个目标用户样本组的评价权重就是该目标用户样本组中每个目标用户样本的评价权重，所以可以得到每个目标用户样本的评价权重f(u)。上述方法同样可以应用于其他推荐结果下，计算各目标用户样本组的权重f_Cn(u)。f(u)用于在对推荐系统的整体评价时，作为推荐系统对每个不同用户的推荐效果评价的权重，以根据用户属性来更准确的对推荐系统的推荐效果进行评价。

步骤S3013，根据所述推荐结果集与所述目标用户样本集的真实标签确定每个目标用户样本的第一评价函数指标；

步骤S3014，根据所述每个目标用户样本的第一评价函数指标与所述各目标用户样本组的评价权重对所述推荐系统的推荐效果进行评价，得到所述推荐效果评价结果。

根据推荐结果集与目标用户样本集确定每一个目标用户样本的第一评价函数指标metric。方式可以为，当确定某一个目标用户样本的第一评价函数指标metric时，确定推荐系统对该目标用户样本的推荐结果r_u，以及该目标用户样本的真实标签即该目标用户样本实际的消费列表或评分u，则可以根据r_u与u通过计算评价效果的metric公式得到该目标用户样本的第一评价函数指标metric：m₁(r_u,u)。该m(r_u,u)可以套用任意效果评价公式，例如MSE，precision@k，recall@k，NDCG等任意效果评价公式。

对P@K算法而言：

对于NDCG算法而言：

由于对大部分推荐评价算法来说，一个通用的用户平均metric表达式为：

其中，U表示目标用户样本集。此时引入每个目标用户样本的评价权重f(u)，则表达式变为：

其中，C＝∑_uf(u)。该m₁(r_u)就是对推荐系统进行评价得到的推荐效果评价结果。可以看出，当每个目标用户样本的评价权重f(u)都为1时，上述m(r_u)与m₁(r_u)相同，表示用户属性对评价结果不产生偏置。

得到推荐系统的推荐效果评价结果之后，输出该推荐效果评价结果。

本实施例通过在效果评价算法中引入会影响评价结果的用户属性，避免了用户属性对评价结果的错误影响，提高了对推荐系统的推荐效果进行评价的准确性。

参照图4，图4为本发明推荐效果评价方法第三实施例的流程示意图

进一步地，提出本发明推荐效果评价方法第三实施例，所述评价影响因素包括物品属性，上述步骤S30包括：

步骤S3021，确定所述物品属性，以及所述目标用户样本集内每个目标用户样本对应的推荐结果中，与所述每个目标用户样本的真实标签不相同的未采用推荐；

评价影响因素包括物品属性，在评价算法中引入一个sim(i,j)相似性度量函数来比较推荐结果清单与用户的groundtruth之间的相似程度系数来稀释对评价算法的惩罚，因为在目前的推荐系统中可以发现那些实际上在推荐结果里却没有被用户实际使用的item，其中有较大部分的item与用户的groundtruth的item相似度非常高，也就是说这些被效果评价算法视为负样本的item实际上并不是用户不喜欢的推荐结果，用户可能对这些推荐item实际上是有兴趣的，只是没有产生实际的消费行为，这在很多推荐场景中都是常见的现象。

所以，确定物品属性，以及推荐系统对每个用户样本的推荐结果中，与该用户样本的真实标签不相同的未采用推荐，即推荐结果中用户并未实际消费的物品item。

步骤S3022，根据所述物品属性确定所述每个目标用户样本对应的未采用推荐与所述每个目标用户样本的真实标签之间的相似度，将所述相似度作为所述未采用推荐的评价惩罚权重；

确定每个目标用户样本对应的未采用推荐中，以及每个目标用户样本的真实标签即用户实际消费的物品中，属于该物品属性的字段。计算每个未采用推荐中属于该物品属性的字段，与实际消费的物品中属于该物品属性的字段之间的相似度sim(i,j)。其中，i是推荐系统的推荐物品或评分，j是用户实际消费的物品或评分。该sim(i,j)即每个目标用户样本对应的未采用推荐与每个目标用户样本的真实标签之间的相似度，将该sim(i,j)作为未采用推荐的评价惩罚权重。

例如，在电影推荐的曾经，若物品属性为主演，则确定未采用推荐物品中属于主演的字段，以及用户实际消费的物品中属于主演的字段，确定字段之间的相似度，将该相似度作为未采用推荐的评价惩罚权重。

其中，对于推荐结果中与真实标签相同的物品，表示该物品是用户实际消费的物品，是评价算法中的正样本，不计算该物品与真实标签之间的相似度，该物品的评价权重为1。得到推荐结果中未采用推荐的评价惩罚权重之后，可以通过评价惩罚权重稀释评价算法对未采用推荐的惩罚，避免未采用推荐与实际采用推荐相似度较高时，直接判定未采用推荐是错误推荐，以此提高评价推荐系统对每个用户的推荐效果的准确性。

步骤S3023，根据所述推荐结果集与所述目标用户样本集的真实标签与所述评价惩罚权重确定所述每个目标用户样本的第二评价函数指标；

确定每个目标用户样本的第二评价函数指标时，先确定推荐系统对该目标用户样本的推荐结果，再根据该推荐结果、该目标用户样本的真实标签与评价惩罚权重计算该推荐结果计算单个推荐的第三评价函数指标：w(u,i,j)，最后根据第三评价函数指标确定该目标用户样本的第二评价函数指标metric：m₂(r_u,u)。m₂(r_u,u)用于计算推荐系统对所有用户的整体推荐效果。

进一步地，上述根据所述推荐结果集与所述目标用户样本集的真实标签与所述评价惩罚权重确定所述每个目标用户样本的第二评价函数指标可以包括：

根据所述推荐结果集与所述目标用户样本集的真实标签确定所述每个目标用户样本对应的推荐结果中每个推荐的第三评价函数指标；

根据所述第三评价函数指标与所述评价惩罚权重确定所述每个目标用户样本的第二评价函数指标。

根据推荐结果集、目标用户样本集的真实标签与评价惩罚权重确定每个目标用户样本的第二评价函数指标metric的方式可以是：

根据推荐结果集与目标用户样本集的真实标签确定每个目标用户样本对应的推荐结果中每个推荐的第三评价函数指标metric：w(u,i,j)。

其中，w(u,i,j)表示针对每个目标用户样本对应的推荐结果中每个推荐物品与实际消费物品的metric计算。

则每个目标用户样本的第二评价函数指标metric：m₂(r_u,u)可以表示为：

m₂(r_u,u)＝∑_i∈Iw(u,i,j)·sim(i,j)；

其中，I表示推荐系统对每个用户的推荐结果，推荐结果中包括一个或者多个推荐。

步骤S3024，根据所述每个目标用户样本的第二评价函数指标对所述推荐系统的推荐效果进行评价，得到所述推荐效果评价结果。

所以此时推荐效果评价结果为：

本实施例通过在效果评价算法中引入会影响评价结果的物品属性，避免了物品属性对评价结果的错误影响，提高了对推荐系统的推荐效果进行评价的准确性。

参照图5，图5为本发明推荐效果评价方法第四实施例的流程示意图。

进一步地，提出本发明推荐效果评价方法第四实施例，所述评价影响因素包括用户属性与物品属性，上述步骤S30包括：

步骤S3031，确定所述用户属性，根据所述用户属性对所述目标用户样本集进行分组处理，得到对应的各目标用户样本组；

在本实施例中，评价影响因素同时包括用户属性与物品属性。在推荐效果评价阶段引入用户属性和物品属性等可能会影响实际评分的因素，如年龄、性别、活跃度、item的热度、item间的相似标签等属性，来更真实准确的反应推荐系统的推荐效果，并将item的惊喜和新鲜程度也纳入评价范围，即：

m(r_u,u,f(u),f(i))；

其中m表示计算评价效果的metric公式，该公式可以套用MSE，P@k，NDCG等任意效果评价公式，r_u代表推荐的item列表或评分，u代表用户实际的消费列表或评分；f(u)与f(i)分别表示在评价指标中引入代表用户属性的feature以及引入物品属性的feature。

首先，根据用户属性确定每个目标用户样本的评价权重；其次，根据物品属性确定每个目标用户样本对应的未采用推荐的评价惩罚权重，根据未采用推荐物品的评价惩罚权重确定每个目标用户样本的第二评价函数指标metric，再根据每个目标用户样本的第二评价函数指标metric与每个目标用户样本的评价权重对推荐系统的推荐效果进行评价，得到推荐效果评价结果。

具体为，确定影响推荐效果评价的用户属性，用户属性包括年龄、性别、活跃度等，再根据用户属性对目标用户样本集进行分组处理，得到对应的各目标用户样本组。通过计算各目标用户样本组对应的评价权重，从而得到目标用户样本集中每个目标用户样本的评价权重。

步骤S3032，根据所述推荐结果集与所述各目标用户样本组确定所述各目标用户样本组的评价权重；

根据推荐结果集与各目标用户样本组确定各目标用户样本组的评价权重，具体为，确定每个目标用户样本组对应的推荐结果，即每个目标用户样本组中的目标用户样本对应的推荐结果，根据每个目标用户样本组对应的推荐结果与推荐结果集确定每个目标用户样本组的评价权重f_Cn(u)，每个目标用户样本组的评价权重就是该目标用户样本组中每个目标用户样本的评价权重，所以可以得到每个目标用户样本的评价权重f(u)。f(u)用于在对推荐系统的整体评价时，作为推荐系统对每个不同用户的推荐效果评价的权重，以根据用户属性来更准确的对推荐系统的推荐效果进行评价。

将所述各目标用户样本组对应的推荐结果的均值，与所述推荐结果集的均值之间的比值，作为所述各目标用户样本组的评价权重。

其中，u表示目标用户样本集中每个目标用户样本的真实标签，也就是每个用户实际的消费列表或者评分，此时可以用来表示一个目标用户样本。每个目标用户样本组的评价权重就是该目标用户样本组中每个目标用户样本的评价权重，所以可以得到每个目标用户样本的评价权重f(u)。

步骤S3033，确定所述物品属性，以及所述目标用户样本集内每个目标用户样本对应的推荐结果中，与所述每个目标用户样本的真实标签不相同的未采用推荐；

步骤S3034，根据所述物品属性确定所述每个目标用户样本对应的未采用推荐与所述每个目标用户样本的真实标签之间的相似度，将所述相似度作为所述未采用推荐的评价惩罚权重；

确定物品属性，以及推荐系统对每个用户样本的推荐结果中，与该用户样本的真实标签不相同的未采用推荐，即推荐结果中用户并未实际消费的物品item。

其中，对于推荐结果中与真实标签相同的物品，表示该物品是用户实际消费的物品，是评价算法中的正样本，不计算该物品与真实标签之间的相似度，该物品的评价权重为1。得到推荐结果中每个推荐的评价惩罚权重之后，可以通过评价惩罚权重稀释评价算法对未采用推荐的惩罚，避免未采用推荐与实际采用推荐相似度较高时，直接判定未采用推荐是错误推荐，以此提高评价推荐系统对每个用户的推荐效果的准确性。

步骤S3035，根据所述推荐结果集与所述目标用户样本集的真实标签与所述评价惩罚权重确定所述每个目标用户样本的第二评价函数指标；

确定每个目标用户样本的第二评价函数指标时，先确定推荐系统对该目标用户样本的推荐结果，再根据该推荐结果、该目标用户样本的真实标签与评价惩罚权重计算该推荐结果计算单个推荐的第三评价函数指标metric：w(u,i,j)，最后根据第三评价函数指标确定该目标用户样本的第二评价函数指标metric：m₂(r_u,u)。m₂(r_u,u)用于计算推荐系统对所有目标用户样本的整体推荐效果。

m₂(r_u,u)＝∑_i∈Iw(u,i,j)·sim(i,j)；

步骤S3036，根据所述每个目标用户样本的第二评价函数指标与所述各目标用户样本组的评价权重对所述推荐系统的推荐效果进行评价，得到推荐效果评价结果。

所以，当确定每个目标用户样本的评价权重f(u)，以及每个目标用户样本的第二评价函数指标metric：m₂(r_u,u)之后，通过一个通用的用户平均metric表达式：

则可以得到推荐系统的整体效果评价：

其中，C＝∑_uf(u)，u表示目标用户样本集中每个目标用户样本的真实标签，此时可以用来表示一个目标用户样本，i是推荐系统的推荐物品或评分，j是用户实际消费的物品或评分，I表示推荐系统对每个用户的推荐结果，推荐结果中包括一个或者多个推荐。m₃(r_u)即计算得到的推荐效果评价结果。

得到推荐系统的推荐效果评价结果后，输出该推荐效果评价结果。

由于m(r_u,u)可以套用任意效果评价公式，例如MSE，precision@k，recall@k，NDCG等任意效果评价公式，因此可以用来对比不同推荐算法的效果优劣；

也可以获取不同时间段内的多个用户样本集，将不同样本集的计算结果按时间维度绘制曲线，以观察用户对推荐满意程度随时间变化的趋势。

本实施例通过同时将用户属性与物品属性引入效果评价算法，可以同时对用户和物品的属性进行分析，从而确定推荐系统对单个用户的效果评价以及该效果评价的评价权重，进而再确定推荐系统的整体效果评价，更全面的反应了对推荐系统的评价效果，极大地提高了对推荐系统的推荐效果进行评价的准确性。

参照图6，图6为本发明推荐效果评价方法第五实施例的流程示意图。

进一步地，提出本发明推荐效果评价方法第五实施例，上述步骤S3022或S3034中，所述根据所述物品属性确定所述每个目标用户样本对应的未采用推荐与所述每个目标用户样本的真实标签之间的相似度的步骤包括：

步骤S3041，对所述每个目标用户样本的真实标签中，以及所述每个目标用户样本对应的未采用推荐中属于所述物品属性的信息进行编码处理，得到目标用户样本编码数据与未采用推荐编码数据；

步骤S3042，利用预设相似度算法计算所述目标用户样本编码数据与所述未采用推荐编码数据之间的相似度，所述相似度为每个目标用户样本对应的未采用推荐与所述每个目标用户样本的真实标签之间的相似度。

在本实施例中，根据物品属性确定每个目标用户样本对应的未采用推荐与每个目标用户样本的真实标签之间的相似度的方式可以是，确定真实标签即用户实际消费的物品或者评分中属于该物品属性的字段，以及用户对应的未采用推荐中属于该物品属性的字段，对这些字段进行编码处理，得到目标用户样本编码数据以及未采用推荐编码数据，再利用预设相似度算法计算目标用户样本编码数据与未采用推荐编码数据之间的相似度，该相似度就是每个目标用户样本对应的未采用推荐与每个目标用户样本的真实标签之间的相似度。

其中，采用的编码方式可以是one-hot编码，one-hot编码指独热编码，也是一位有效编码，其编码方式是使用N位状态寄存器来对N个状态进行编码，每个状态都有它独立的寄存器位，并且在任意时候，其中只有一位有效。

同时预设相似度算法可以是jaccard相似系数即杰卡德系数，jaccard相似系数用于比较有限样本集之间的相似性与差异性。Jaccard系数值越大，样本相似度越高。

所以sim(i,j)可以选择jaccard相似系数算法来计算，对引入的物品属性feature进行one-hot编码处理。其中，i是推荐系统的推荐物品或评分，j是用户实际消费的物品或评分。

具体为，确定真实标签即用户实际消费的物品或者评分中属于该物品属性的字段，以及用户对应的未采用推荐中属于该物品属性的字段，对这些字段进行one-hot编码处理，得到目标用户样本编码数据以及未采用推荐编码数据。将字段转化为编码数据可以更准确的计算，每个目标用户样本对应的未采用推荐与每个目标用户样本的真实标签之间的相似度。

利用jaccard相似系数计算目标用户样本编码数据与未采用推荐编码数据之间的相似度，该相似度就是每个目标用户样本对应的未采用推荐与该目标用户样本的真实标签之间的相似度，jaccard值越大说明相似度越高，jaccard值越小说明相似度越低。

例如，在电影推荐的场景，要引入影片类型和主演两个属性，则对用户实际消费的物品或者评分中属于影片类型与主演的字段，以及推荐系统对该用户的推荐结果内用户未实际采用的推荐中属于影片类型与主演的字段，对这些字段进行one-hot编码处理，随后利用jaccard相似度算法计算sim(i,j)。

需要说明的是，除了利用jaccard计算相似度以外，还可以通过其他相似度算法计算相似度，即在确定属于物品属性的字段之后，利用其他相似度算法如Consine相似度来计算每个目标用户样本对应的未采用推荐与该目标用户样本的真实标签之间的相似度。

本实施例通过利用对属于物品属性的字段进行编码处理，再利用预设相似度算法计算编码数据之间相似度，可以准确确定每个目标用户样本对应的未采用推荐与该目标用户样本的真实标签之间的相似度，进而可以准确确定未采用推荐的评价惩罚权重。

参照图7，图7为本发明推荐效果评价方法第六实施例的流程示意图。

进一步地，提出本发明推荐效果评价方法第六实施例，上述步骤S3022或S3034中，所述将所述相似度作为所述未采用推荐的评价惩罚权重的步骤之前，还包括：

步骤S3051，判断所述相似度是否小于第一预设阈值；

步骤S3052，若是，则将所述相似度的值置为0；

步骤S3053，若否，则将所述相似度的值置为第二预设阈值。

在本实施例中，在将未采用推荐与用户实际采用推荐之间的相似度sim(i,j)作为未采用推荐的评价惩罚权重之前，可以对相似度的值进行一定的处理，避免对评价算法的惩罚的稀释程度过高。

方式可以是，判断相似度是否小于第一预设阈值，若是，则将该相似度的值置0；若否，则将该相似度的值置为第二预设阈值。其中，第二预设阈值一般大于第一预设阈值；当相似度小于第一预设阈值时，也可以将相似度的值置为第三预设阈值，第三预设阈值一般小于第一预设阈值。

由于相似度是每个目标用户样本对应的未采用推荐与该目标用户样本的真实标签之间的相似度，所以初始计算出的相似度的值会小于1。

例如，若将第一预设阈值设为0.65，将第二预设阈值设为0.75，则可以得到以下公式:

将重新赋值的相似度作为未采用推荐的评价惩罚权重。

本实施例通过在将相似度作为未采用推荐的评价惩罚权重之前，对相似度的值进行一定的处理，以避免对评价算法的惩罚的稀释程度过高。

进一步地，提出本发明推荐效果评价方法第七实施例，上述步骤S10包括：

步骤S101，获取初始用户样本集，根据所述评价影响因素对所述初始用户样本集进行数据清洗，得到所述目标用户样本集。

在本实施例中，获取初始用户样本集，初始用户样本集指未经数据清洗的原始样本集，由于获取的初始用户样本集中有许多无效或者空字段的用户样本，所以需要对获取的初始用户样本集进行数据清洗，剔除初始用户样本集中的离群样本与无效样本，得到目标用户样本集。

数据清洗包括检测数据一致性，处理无效值和缺失值等，数据一致性检查可以根据用户样本数据的合理取值范围和相互关系，检查数据是否超出正常范围、逻辑上不合理或者检查出相互矛盾的数据，以剔除初始用户样本集中的离群用户样本。由于如数据录入误差等因素会导致数据中存在一些无效值与缺失值，所以可以利用某些值如数据的众值或者中位值代替无效值与缺失值，同时也可以直接删除存在无效值的用户样本，以剔除初始用户样本集中的无效用户样本和空字段用户样本。

可以根据评价影响因素对初始用户样本集进行数据清洗，此时在对初始用户样本集进行数据清洗前，先确定评价影响因素。

需要说明的是，由于评价影响因素包括用户属性和/或物品属性，所以，在根据评价影响因素对初始用户样本集进行数据清洗时，确定初始用户样本集的初始用户样本数据中属于用户属性和/或物品属性的字段，针对这些属性字段进标准化处理，去除属性字段不合理、无效、空字段、冲突的样本或者显著不同于其他样本的离群样本。

例如，若要引入用户的活跃程度作为评价影响因素，那么需要对这一属性使用标准差或最大最小阈值等方法对该属性的离群样本进行清洗，同时剔除无效和空字段的用户样本。

本实施例通过评价影响因素对初始用户样本集进行数据清洗，可以在将评价影响因素引入评价算法的过程中，提高用户样本的准确性，进而提高对推荐系统的推荐效果进行评价的准确性。

本发明还提供一种推荐效果评价装置。

参照图8，图8为本发明推荐效果评价装置第一实施例的功能模块示意图。所述推荐效果评价装置包括：

数据获取模块10，用于获取目标用户样本集；

推荐获取模块20，用于将所述目标用户样本集输入推荐系统，得到推荐结果集；

效果评价模块30，用于确定评价影响因素，根据所述评价影响因素、所述推荐结果集与所述目标用户样本集对所述推荐系统的推荐效果进行评价，得到推荐效果评价结果。

此外，本发明还提出一种计算机程序产品，包括推荐效果评价程序，所述推荐效果评价程序被处理器执行时实现如上所述的推荐效果评价方法的步骤。

本发明计算机程序产品具体实施方式与上述推荐效果评价方法各实施例基本相同，在此不再赘述。

需要说明的是，在本文中，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者系统不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者系统所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括该要素的过程、方法、物品或者系统中还存在另外的相同要素。

上述本发明实施例序号仅仅为了描述，不代表实施例的优劣。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件，但很多情况下前者是更佳的实施方式。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品存储在如上的一个存储介质(如ROM/RAM、磁碟、光盘)中，包括若干指令用以使得一台推荐效果评价系统(可以是手机，计算机，服务器，被控终端，或者网络设备等)执行本发明每个实施例的方法。

以上仅为本发明的优选实施例，并非因此限制本发明的专利范围，凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换，或直接或间接运用在其他相关的技术领域，均同理包括在本发明的专利保护范围内。

Claims

1.一种推荐效果评价方法，其特征在于，所述推荐效果评价方法包括以下步骤：

获取目标用户样本集；

将所述目标用户样本集输入推荐系统，得到推荐结果集；

2.如权利要求1所述的推荐效果评价方法，其特征在于，所述评价影响因素包括用户属性，所述确定评价影响因素，根据所述评价影响因素、所述推荐结果集与所述目标用户样本集对所述推荐系统的推荐效果进行评价，得到推荐效果评价结果的步骤包括：

3.如权利要求1所述的推荐效果评价方法，其特征在于，所述评价影响因素包括物品属性，所述确定评价影响因素，根据所述评价影响因素、所述推荐结果集与所述目标用户样本集对所述推荐系统的推荐效果进行评价，得到推荐效果评价结果的步骤包括：

4.如权利要求1所述的推荐效果评价方法，其特征在于，所述评价影响因素包括用户属性与物品属性，所述确定评价影响因素，根据所述评价影响因素、所述推荐结果集与所述目标用户样本集对所述推荐系统的推荐效果进行评价，得到推荐效果评价结果的步骤包括：

5.如权利要求3或4所述的推荐效果评价方法，其特征在于，所述根据所述物品属性确定所述每个目标用户样本对应的未采用推荐与所述每个目标用户样本的真实标签之间的相似度的步骤包括：

6.如权利要求3或4所述的推荐效果评价方法，其特征在于，所述将所述相似度作为所述未采用推荐的评价惩罚权重的步骤之前，还包括：

判断所述相似度是否小于第一预设阈值；

若是，则将所述相似度的值置为0；

若否，则将所述相似度的值置为第二预设阈值。

7.如权利要求1所述的推荐效果评价方法，其特征在于，所述获取目标用户样本集的步骤包括：

8.一种推荐效果评价装置，其特征在于，所述推荐效果评价装置包括：

数据获取模块，用于获取目标用户样本集；

9.一种推荐效果评价系统，其特征在于，所述推荐效果评价系统包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序，所述计算机程序被所述处理器执行时实现如权利要求1-7中任一项所述的推荐效果评价方法。

10.一种计算机程序产品，其特征在于，所述计算机程序产品包括推荐效果评价程序，所述推荐效果评价程序被处理器执行时实现如权利要求1-7中任一项所述的推荐效果评价方法的步骤。