CN107391692B

CN107391692B - 一种推荐效果的评估方法及装置

Info

Publication number: CN107391692B
Application number: CN201710615815.4A
Authority: CN
Inventors: 范欣; 李海青; 郑坚
Original assignee: Tencent Technology Beijing Co Ltd
Current assignee: Tencent Technology Beijing Co Ltd
Priority date: 2017-07-26
Filing date: 2017-07-26
Publication date: 2023-04-07
Anticipated expiration: 2037-07-26
Also published as: CN107391692A

Abstract

本申请公开了一种推荐效果的评估方法及装置。该方法包括：在基于一个推荐策略向多个用户推荐内容时，获取每个用户针对推荐内容产生的行为数据，行为数据包括待评估时间段内多个行为指标上的数值；针对每个行为指标，根据每个用户在该行为指标上的数值确定出该用户在待评估用户群中的排名；根据排名和每个行为指标的权重计算出待评估用户群中每个用户的第一健康度；及，根据第一健康度计算出与该推荐策略对应的推荐效果指数。本发明的这种方法及装置，能够提供单一的推荐效果指数用于评估不同的推荐策略，提高了服务器的资源利用率。

Description

一种推荐效果的评估方法及装置

技术领域

本发明涉及互联网技术领域，特别涉及一种推荐效果的评估方法及装置。

背景技术

在互联网应用中，推荐类应用可以向用户推荐各种类型的内容。例如，新闻类应用每天向用户推送娱乐、体育、财经等各个领域的新闻内容。

在评估推荐类应用的推荐效果时，通常基于多个长期指标，例如，一段时间内的用户留存率、日均/周均活跃用户量、平均刷新次数等。在评估不同的推荐策略时，需要综合考虑各个长期指标的表现。

但是，由于不同人在不同的场景下对某些指标的重要性有不同的认识，很难使用相同的指标直接进行横向对比。因此，无法针对推荐效果得出具有可比性、一致性的结论。此外，对于不同的算法策略，各个长期指标还可能存在互相矛盾的情况。因此，目前的评估算法很难对不同的推荐策略进行有效的对比和评价。

发明内容

有鉴于此，本发明实施例提供了一种推荐效果的评估方法及装置，能够提供单一的推荐效果指数用于评估不同的推荐策略，提高了服务器的资源利用率。

具体地，本发明实施例的技术方案是这样实现的：

本发明提供了一种推荐效果的评估方法，包括：在基于一个推荐策略向多个用户推荐内容时，获取每个用户针对所述推荐内容产生的行为数据，所述行为数据包括待评估时间段内多个行为指标上的数值；

针对每个行为指标，根据每个用户在该行为指标上的数值确定出该用户在待评估用户群中的排名；

根据所述排名和每个行为指标的权重计算出所述待评估用户群中每个用户的第一健康度；及，

根据所述第一健康度计算出与该推荐策略对应的推荐效果指数。

本发明还提供了一种推荐效果的评估装置，包括：

获取模块，用于在基于一个推荐策略向多个用户推荐内容时，获取每个用户针对所述推荐内容产生的行为数据，所述行为数据包括待评估时间段内多个行为指标上的数值；

排序模块，用于针对每个行为指标，根据所述获取模块得到的每个用户在该行为指标上的数值确定出该用户在待评估用户群中的排名；

第一计算模块，用于根据所述排序模块得到的排名和每个行为指标的权重计算出所述待评估用户群中每个用户的第一健康度；及，

第二计算模块，用于根据所述第一计算模块得到的第一健康度计算出与该推荐策略对应的推荐效果指数。

本发明还提供了一种计算机可读存储介质，其特征在于，存储有计算机可读指令，可以使至少一个处理器执行上述的方法。

由上述技术方案可见，本发明实施例提供的方法，综合各个行为指标下用户人群的健康度表现，计算出反映某个推荐策略的整体效果评估指标(即一个推荐效果指数)，从而能以一个单一的指标度量推荐系统的推荐效果，便于对不同的推荐策略实验进行横向可比，实现了对各类推荐产品进行有效评估的目的。

附图说明

图1为本发明一个实施例所涉及的实施环境示意图；

图2为本发明一个实施例中推荐效果的评估方法的流程示意图；

图3为本发明另一个实施例中推荐效果的评估方法的流程示意图；

图4a为本发明一个实施例中对新增用户群的得分进行分段量化的结果示意图；

图4b为本发明一个实施例中对存量用户群的得分进行分段量化的结果示意图；

图5为本发明又一个实施例中推荐效果的评估方法的流程示意图；

图6为本发明一个实施例中推荐效果的评估装置的结构示意图；

图7为本发明另一个实施例中推荐效果的评估装置的结构示意图；

图8为本发明又一个实施例中服务器的结构示意图。

具体实施方式

为使本发明的目的、技术方案及优点更加清楚明白，以下参照附图并举实施例，对本发明进一步详细说明。

图1为本发明一个实施例所涉及的实施环境示意图。参见图1，推荐效果的评估系统100包括：客户端110-1…客户端110-N和服务器120。其中，服务器120又包括用户数据库121、推荐效果评估子服务器122、离线算法迭代子服务器123和推荐引擎124。

在本发明的实施例中，服务器120中的推荐引擎124确定向用户推荐的内容，并发送给客户端110-1…110-N。在具体应用时，根据面向的用户为全体用户还是一部分用户群，推荐内容分别被称为全流量展现和小流量展现。在实际应用中，不同的小流量展现对应了不同的用户群(也称之为分桶)，因此，在小流量实验情况下推荐效果的对比评估更为频繁和常用。

客户端110-1…110-N向用户显示推荐引擎124所推荐的内容，并接收用户输入的操作，生成用户行为数据，并发送给服务器120。服务器120中的用户数据库121保存大量用户在一段时间内的各类行为数据。推荐效果评估子服务器122则调用用户数据库121中的行为数据，通过本发明实施例所示的方法计算出一个推荐效果指数，从而可以对一个或多个推荐策略的推荐效果进行评估和度量。

实际应用中，每个推荐策略对应一个小流量实验，可以根据算出的推荐效果指数在小流量实验之间进行横向对比，或者，将全流量的算法策略所产生的推荐效果指数作为效果对比时用到的基线，然后将每个小流量实验的结果和全流量的基线结果进行比较。

当小流量实验的结果差于全流量的基线结果时，离线算法迭代子服务器123将在离线状态对小流量实验所对应的推荐策略算法进行迭代和优化，例如，对排序、用户画像、内容理解等算法进行优化。然后，将优化后的算法传送给推荐引擎124进行更新，以便使用优化后的算法生成向用户推荐的内容。

图2为本发明一个实施例中推荐效果的评估方法的流程示意图。该方法包括以下步骤。

步骤201，在基于一个推荐策略向多个用户推荐内容时，获取每个用户针对推荐内容产生的行为数据。

在本发明实施例中，将行为数据具体化为各种行为指标。例如，用户通过腾讯新闻客户端浏览新闻内容，对于接收到的推荐内容，用户可以进行多种操作，将这些操作对应成行为指标，包括刷新页面、点击页面、阅读文章、观看视频、点击广告等等。并且考虑到评估的时效性，将行为发生的期限限定在预设的时间段内，即取待评估数据段的行为数据用于评估。待评估时间段的具体数值可预先设置，例如，设置为当前评估时刻之前的8周。即，行为数据包括待评估时间段内多个行为指标上的数值。

在本发明的实施例中，用户的行为指标包括但不限于用户留存、活跃时间、平均刷新次数、点击页面数量(或者页面浏览量)、看到的文章数量(即曝光量)、文章总阅读时长、视频总播放时长、平均点击通过率(CTR)等。行为指标的具体数值为待评估时间段内每个时间间隔内的数值。例如，在8周内的每天，每个行为指标都有相对应的数值。

这样，针对一个推荐策略获得的行为数据包括三个维度，即{用户、行为指标、待评估时间段}。例如，有M个用户、J个行为指标、T天，那么每个用户、每个行为指标、每天都有相应的数值。

在本发明实施例中，为了能够获得单一的推荐效果度量参数对不同的推荐策略进行横向对比，需要对这三维的数据进行逐步整合，从中提炼出一个综合指数出来。

步骤202，针对每个行为指标，根据每个用户在该行为指标上的数值确定出该用户在待评估用户群中的排名。

本步骤是通过排名的方式将每个用户在每个行为指标上的数值去绝对化。待评估用户群为评估推荐效果的目标用户。具体又分为如下两个步骤：

步骤2021，对于每个用户的每个行为指标，将待评估时间段内该用户在该行为指标上的多个数值进行合并，得到该用户针对该行为指标的得分。

这里是对待评估时间段这一时间维度上的数据进行整合。通过合并的方式，从三维数据降到两维，即针对每个用户的每个行为指标，得到一个得分。例如，对于第m个用户的第j个指标，将其在T天内每天的数值进行合并，从而得到一个得分S_j,m。

这里，待评估时间段包括多个时间间隔，在每个时间间隔内每个行为指标具备一个绝对值；那么对于每个用户的每个行为指标，将待评估时间段内该用户在该行为指标上的多个绝对值进行合并，得到上述得分。

步骤2022，针对每个行为指标，根据得分将待评估用户群中的用户进行降序排列，根据排列结果获得每个用户对应的排名。

这里是对待评估用户群中的多个用户进行排序，每个用户对应了一个排名，这样将得分的具体数值转换为排名的名次，从而实现了行为指标具体数值的去绝对化。例如，在第j个指标上，根据得分S_j,m对M个用户进行降序排列，获得每个得分所对应的排名，第m个用户对应的排名记为R_j,m。

需要指出的是，由于要对待评估用户群中的用户进行排序，对待评估用户群的选择也会影响最终推荐效果指数的大小。在本发明实施例中，针对每周活跃用户区分该用户是否为新增，将待评估用户群分为两种类型，一是新增用户群，即待评估用户群包括在待评估时间段内新增的多个用户；二是存量用户群，即待评估用户群包括在待评估时间段内原先已有的多个用户。

步骤203，根据排名和每个行为指标的权重计算出待评估用户群中每个用户的第一健康度。

本步骤中，通过加权处理对行为指标这个维度进行整合。这样，每个用户在各个行为指标上的排名被换算成该用户的第一健康度。

考虑到对于不同的推荐策略，待评估用户群中用户的个数可能会不同，因此需要对排名这一绝对名次进行去绝对化。在一实施例中，具体又分为如下两个步骤：

步骤2031，将排名进行百分制换算，得到百分制名次。

例如，按照下式计算得到第m个用户第j个行为指标的百分制名次为：

步骤2032，针对每个用户，使用各个行为指标的权重对百分制名次进行加权求和，得到第一健康度。

定义第m个用户、第j个指标的权重为δ_j,m，并且满足

那么，第m个用户的第一健康度定义为被归一化加权的百分制名次，计算如下：

这里，确定权重的方式，可以有多种。在一实施例中，可以根据在推荐效果评估上的重要性级别来预先设置。例如，认为用户留存和活跃天数的权重为0.3和0.3，刷新次数和曝光量权重为0.2和0.2等。在另一实施例中，也可以根据各个用户的各个行为指标的具体数值，计算出每个行为指标的权重。后者将在后续实施例中具体阐述。

步骤204，根据第一健康度计算出与该推荐策略对应的推荐效果指数。

本步骤是对用户这个维度进行整合，根据每个用户的第一健康度整合出单一的推荐效果指数。整合的具体计算方式可以有多种，例如，算术求和、算术平均等。

在本实施例中，通过获取每个用户针对推荐内容产生的行为数据，针对每个行为指标，根据每个用户在该行为指标上的数值确定出该用户在待评估用户群中的排名，根据排名和每个行为指标的权重计算出待评估用户群中每个用户的第一健康度，根据第一健康度计算出与该推荐策略对应的推荐效果指数，综合各个行为指标下用户人群的健康度表现，计算出反映某个推荐策略的整体效果评估指标(即一个推荐效果指数)，从而能以一个单一的指标度量推荐系统的推荐效果，便于对不同的推荐策略实验进行横向可比，实现了对各类推荐产品进行有效评估的目的。

图3为本发明另一个实施例中推荐效果的评估方法的流程示意图。该方法包括以下步骤。

步骤301，在基于一个推荐策略向多个用户推荐内容时，获取每个用户在待评估时间段内针对推荐内容产生的多个行为指标。

每个推荐策略所对应的用户数据包括每个用户、在每天内产生的多个行为指标上的具体数值。

步骤302，对于每个用户的每个行为指标，将待评估时间段内该用户在该行为指标上的多个绝对值进行合并，得到该用户针对该行为指标的得分。

参见上述步骤2021的描述。其中，待评估时间段内包括多个时间间隔，在每个时间间隔内每个行为指标具备一个绝对值。若待评估时间段包括N周，第m个用户的第j个行为指标在第n周、第i天的绝对值，记为p_i,n,j,m，其中，j＝1,…,J，J为行为指标的总数，m＝1,…,M，M为待评估用户群中用户的总数，n＝1,…,N。

在计算得分时，考虑到每天每个行为指标的数值各不相同，在时间维度上进行合并之前，先通过基准值的方式对绝对值进行相对化运算。具体步骤包括：

步骤3021，从多个时间间隔对应的多个绝对值中确定出一个基准值。

这里，基准值可以取整个待评估时间段中第一天所对应的绝对值，即p_1,1,j,m。

或者，为了简化计算，以每一周为单位进行统计。计算每周绝对值为：

此时，基准值可以计算为第一周内的绝对值之和，即：

步骤3022，根据该基准值将每个绝对值转换为第一相对值。

以公式(4)为例，根据每周绝对值和基准值计算第一相对值为：

γ_n,j,m＝V_1,j,m/V_n,j,m (5)

步骤3023，将多个第一相对值在待评估时间段内进行求和，得到得分。

此步骤的计算公式为：

其中，α为正整数。例如，α＝3。

在具体实现时，也可以通过基准值计算出用户周留存系数和指标周留存系数来得到上述得分。例如，定义第m个用户的第j个行为指标在第n周的用户周留存系数为

W_n,j,m＝(V_1,j,m/V_n,j,m)² (7)

定义第m个用户的第j个指标在第n周的指标周留存系数为

Z_n,j,m＝(V_1,j,m/V_n,j,m)×(W_n,j,m/W_1,j,m) (8)

那么，第m个用户在第j个指标上的得分计算为：

步骤303，针对每个行为指标，根据得分将待评估用户群中的用户进行降序排列，根据排列结果获得每个用户对应的排名。

此步骤参见上述步骤2022的描述，由得分S_j,m得到排名R_j,m。

步骤304，对于每个用户的每个行为指标，根据待评估时间段内该用户在该行为指标上的多个数值计算出权重。

本步骤的具体实现方式包括：

步骤3041，对于每个用户的每个行为指标，从待评估时间段内该用户在该行为指标上的多个绝对值中确定出一个基准值，根据该基准值将每个绝对值转换为第二相对值。

这里，按照上述公式(4)计算出基准值V_1,j,m，然后，根据每周绝对值V_n,j,m和该基准值计算第二相对值为：

μ_n,j,m＝1-V_n,j,m/V_1,j,m (10)

这里，第二相对值又称为留存难度系数。

步骤3042，将多个第二相对值在待评估时间段内进行平均并归一化，得到每个行为指标的权重。

本步骤的计算公式为：

其中，avg(·)表示进行平均；分母部分是对所有行为指标进行了归一化处理，即满足

步骤305，将排名进行百分制换算，得到百分制名次。

参见上述公式(1)所示的方法进行换算，由排名R_j,m得到百分制名次

步骤306，根据百分制名次和每个行为指标的权重计算出待评估用户群中每个用户的第一健康度。

参见上述公式(2)，由百分制名次

和权重δ_j,m得到第m个用户的第一健康度H_m，其中，H_m的取值范围在[-100，100]。

步骤307，根据第一健康度计算出与该推荐策略对应的推荐效果指数。

这里，针对一个推荐策略，由M个用户的第一健康度H_m得出唯一一个推荐效果指数β。在计算时，具体包括如下两种方式：

方式一，分段量化

具体为，根据第一健康度在预设的多个量化区间上将待评估用户群中的用户进行划分，根据划分的结果确定出每个量化区间上的第二健康度；将各个量化区间上的第二健康度进行合并得到推荐效果指数。

这里，量化指将大量的离散值近似为有限多个离散值的过程。考虑到H_m的取值范围，最大分+100分，最小分-100分，可以每5分划分出一个量化区间，这样最多有41个量化区间，每个量化区间对应了一部分用户。

表1为新增用户群的量化结果，得分有效的取值范围是[-10～100]。如表1所示，例如，在[95-100]这一量化区间内，总共有用户49304个，总得分为4839972.542，人均得分为98.17。图4a为本发明一个实施例中对新增用户群的得分进行分段量化的结果示意图。如图4a所示，给出人均得分相对于量化区间的点线图，可以看到，在[50-55)这一区间内用户数为零。

量化区间	用户数	总得分	人均得分
				A、[95-100]	49304	4839972.542	98.17
B、[90-95)	36007	3331727.71	92.53
				C、[85-90)	10800	935237.0331	86.60
D、[80-85)	2912	244459.4422	83.95
				E、[75-80)	21546	1670943.401	77.55
F、[70-75)	13297	944972.3435	71.07
				G、[65-70)	26612	1788044.821	67.19
H、[60-65)	3988	250771.0293	62.88
				I、[55-60)	8278	481501.5873	58.17
J、[50-55)	13074	669319.6184	0.00
				K、[45-50)	21240	1020973.72	48.07
L、[40-45)	10278	423054.1456	41.16
				M、[35-40)	22118	852389.1682	38.54
N、[30-35)	8939	284973.7066	31.88
				O、[25-30)	6148	169833.6237	27.62
P、[20-25)	32998	707905.7084	21.45
				Q、[15-20)	23259	433467.4063	18.64
R、[10-15)	2377	29789.85194	12.53
				S、[5-10)	25898	194822.7479	7.52
T、[0-5)	646	3075.531399	4.76
				V、[-5～0)	129203	-516935.7194	-4.00
W、[-10～-5)	2717175	-16550693.16	-6.09

表1新增用户群的量化结果

表2为存量用户群的量化结果，得分有效的取值范围是[-25～100]。如表2所示，例如，在[95-100]这一量化区间内，总共有用户74411个，总得分为7344729.516，人均得分为98.70。图4b为本发明一个实施例中对存量用户群的得分进行分段量化的结果示意图，给出了相应的点线图。从中可以看出，在各个量化区间上人均得分的增幅比较接近。

量化区间	用户数	总得分	人均得分
				A、[95-100]	74411	7344729.516	98.70
B、[90-95)	245	22059.61194	90.04
				C、[85-90)	239507	20747291.21	86.62
D、[80-85)	178157	14977266.37	84.07
				E、[75-80)	72335	5474774.765	75.69
F、[70-75)	417916	30272879.99	72.44
				G、[65-70)	78910	5413361.115	68.60
H、[60-65)	188247	11699899.95	62.15
				I、[55-60)	92788	5367577.3	57.85
J、[50-55)	200284	10388864.13	51.87
				K、[45-50)	234146	11368246.16	48.55
L、[40-45)	164454	6838648.35	41.58
				M、[35-40)	402362	15074539.6	37.47
N、[30-35)	143873	4737063.78	32.93
				O、[25-30)	393984	10850044.55	27.54
P、[20-25)	181087	4127739.684	22.79
				Q、[15-20)	301314	5090676.32	16.89
R、[10-15)	317971	4169088.993	13.11
				S、[5-10)	355657	2461853.09	6.92
T、[0-5)	760499	1825943.702	2.40
				V、[-5～0)	511745	-1197026.037	-2.34
W、[-10～-5)	1494993	-11922584.98	-7.98
				X、[-15～-10)	2688662	-33934461.58	-12.62
Y、[-20～-15)	4144948	-73738607.43	-17.79
				Z、[-25～-20)	28726987	-653635749.1	-22.75

表2存量用户群的量化结果

若总共有K个量化区间，量化区间的索引为k，k＝1,…K，人均得分为

那么根据量化的结果确定第二健康度QH_k的方法可以有多种。例如，QH_k可以等于该人均得分

或者也可以取值为所对应量化区间[min_k,max_k)内的任意数值，例如，QH_k取值为量化区间的最小值或者中值等。

根据所有量化区间上的第二健康度整合出推荐效果指数β的具体方式，包括多种。例如，对第二健康度进行求和

或者取平均

的方式进行合并。

以表2的数据为例，若采用

并且

算出推荐效果指数β＝37.39。

在另一实施例中，考虑到对于评估而言，各个量化区间的重要性不同，预先设置核心量化区间，将处于核心量化区间内的第一健康度进行合并，得到推荐效果指数。

例如，设置核心量化区间为[90-100]，对应表1所列出的数据，处于[90-100]范围内的第一健康度的平均值为95.35。这样，推荐效果指数与核心量化区间一一对应。

上述方式一是针对单个推荐策略，通过量化的方式对用户分段，简化计算，得到推荐效果指数。然后，根据该推荐效果指数可以比较不同的推荐策略，推荐效果指数的数值越大，表明推荐产品的推荐效果越好。

方式二，当有多个推荐策略时，在对比的过程中同时得到推荐效果指数

针对每个推荐策略，对待评估用户群中用户的第一健康度进行平均，得到第一平均值；将所有推荐策略的第一平均值进行平均，得到第二平均值；计算每个推荐策略的第一平均值相对于第二平均值的相对百分比，作为与该推荐策略对应的推荐效果指数。

具体计算时，第一平均值为人均得分

第二平均值为汇总的人均得分

相对百分比

这里，乘以-1是考虑到第二平均值为负数。相对百分比若为正值，则表明该推荐策略的效果比所有推荐策略的平均水平要高，反之即比平均水平要低。

表3为新增用户群的相对百分比结果，可以看出推荐策略标识为1004的相对百分比为-44.67，为所有推荐策略中的最低值，表明该推荐策略的推荐效果最差。推荐策略标识为1003的相对百分比为3.51，推荐策略标识为1006的相对百分比为3.58，推荐策略标识为2001的相对百分比为3.44，可见，这三个推荐策略的相对百分比比较高，并且数值接近，表明这三个的推荐效果都比较好。

表4为新增用户群的相对百分比结果，可以看出除了推荐策略标识为2600的相对百分比为负值外，其他的相对百分比都比较接近，没有明显的优劣之分。

推荐策略标识	用户数	总得分	人均得分	相对百分比
					1001	12514	-3037.21	-0.24	-0.82
1002	25266	196.20	0.01	1.06
					1003	12600	4219.59	0.33	3.51
1004	124	-755.14	-6.09	-44.67
					1005	12867	3291.07	0.26	2.92
1006	13008	4480.99	0.34	3.58
					2001	75795	24644.02	0.33	3.44
2002	76298	2067.54	0.03	1.20
					2003	76045	-14489.09	-0.19	-0.43
2600	856765	-150082.29	-0.18	-0.31
					2601	254930	-17484.12	-0.07	0.49
2602	204109	-20804.94	-0.10	0.24
					2603	203799	-55509.86	-0.27	-1.04
2604	76748	-15848.32	-0.21	-0.55
					2605	76929	-18150.68	-0.24	-0.77
2606	76594	-7955.60	-0.10	0.22
					2607	76016	-11456.92	-0.15	-0.13
2608	75969	-8514.08	-0.11	0.16
					2609	76376	-19227.84	-0.25	-0.89
汇总	2282752	-304416.69	-0.13	0.00

表3新增用户群的相对百分比结果

表4存量用户群的相对百分比结果

在上述实施例中，通过多个时间间隔内的基准值做对比计算出每个用户、每个行为指标的得分，通过排序计算排名、换算陈成百分制名次，进而对行为指标进行加权求和，得到第一健康度，最后针对所有的用户整合出单一的推荐效果指数，使得不同的推荐策略在多个小流量的实验中能够直观可比，更为准确、稳定地综合评估出不同推荐算法的效果，从而使得服务器能够根据评估的结果提高推荐效果不理想的推荐算法的迭代效率，这样，达到提升用户满意度的总体长期目标。

对于每个推荐策略，除了根据上述实施例的方法获得一个推荐效果指数，还可以对待评估用户群内的用户进行健康度分析。图5为本发明又一个实施例中推荐效果的评估方法的流程示意图。如图6所示，在图2的基础上，在步骤203之后进一步执行如下步骤：

步骤501，根据第一健康度对待评估用户群中的用户进行降序排列，根据排列结果确定出排名在前X％的部分用户。

其中，X为正整数；例如，X＝10。假设这部分用户包括M_x个用户。排名在前X％的部分用户被认为是相对健康的理想用户，可以针对每个行为指标，从这M_x个用户中抽取出识别健康用户和非健康用户的分界值。所谓健康用户是指对推荐内容接收度高的用户，而非健康用户是指对推荐内容接收度低的用户。分界值的选取将用来区分接收度的高与低。

步骤502，针对每个行为指标，统计得到待评估时间段内部分用户在该行为指标上数值的中值，作为分界值。

待评估时间段包括N周，在计算中值时，首先计算出每周内这部分用户在该行为指标上数值的中值，记为每周中值。具体为，在第n周内Mx个用户在第j个行为指标上数值的中值，计算为：

其中，percentile(·,0.5)表示取中值运算，即排序数据中50％所对应的数值。

然后对N周的每周中值进行平均，得到每个行为指标的分界值：

步骤503，根据分界值将待评估用户群的用户划分为健康用户和非健康用户。

具体为，若待评估时间段内一个用户在该行为指标上的平均数值高于分界值，则将该用户确定为健康用户；若待评估时间段内一个用户在该行为指标上的平均数值低于或者等于分界值，则将该用户确定为非健康用户。

本步骤是针对每个行为指标，进一步识别出哪些用户是健康的，哪些用户是非健康的。根据这些识别结果，推荐产品的开发人员可以进行数据分析和算法优化，特别是针对识别出的非健康用户，可以采取相应的运营手段进行保有，达到了整体优化推荐系统的目标。

图6为本发明一个实施例中推荐效果的评估装置的结构示意图。如图6所示，装置600包括：

获取模块610，用于在基于一个推荐策略向多个用户推荐内容时，获取每个用户针对推荐内容产生的行为数据，行为数据包括待评估时间段内多个行为指标上的数值；

排序模块620，用于针对每个行为指标，根据获取模块610得到的每个用户在该行为指标上的数值确定出该用户在待评估用户群中的排名；

第一计算模块630，用于根据排序模块620得到的排名和每个行为指标的权重计算出待评估用户群中每个用户的第一健康度；及，

第二计算模块640，用于根据第一计算模块630得到的第一健康度计算出与该推荐策略对应的推荐效果指数。

图7为本发明另一个实施例中推荐效果的评估装置的结构示意图。如图7所示，在图6所示的模块基础之上，在装置700中，待评估时间段包括多个时间间隔，在每个时间间隔内每个行为指标具备一个绝对值，排序模块620包括：

得分计算单元621，用于对于每个用户的每个行为指标，将待评估时间段内该用户在该行为指标上的多个绝对值进行合并，得到该用户针对该行为指标的得分；

排序单元622，用于针对每个行为指标，根据得分计算单元621得到的得分将待评估用户群中的用户进行降序排列，根据排列结果获得每个用户对应的排名。

在一实施例中，第一计算模块630包括：

换算单元631，用于将排名进行百分制换算，得到百分制名次；

加权计算单元632，用于针对每个用户，使用各个行为指标的权重对换算单元631得到的百分制名次进行加权求和，得到第一健康度。

在一实施例中，装置700进一步包括：

权重确定模块650，用于对于每个用户的每个行为指标，从获取模块610得到的待评估时间段内该用户在该行为指标上的多个绝对值中确定出一个基准值，根据该基准值将每个绝对值转换为第二相对值；将多个第二相对值在待评估时间段内进行平均并归一化，得到每个行为指标的权重。

在一实施例中，第二计算模块640用于，根据第一健康度在预设的多个量化区间上将待评估用户群中的用户进行划分，根据划分的结果确定出每个量化区间上的第二健康度；将各个量化区间上的第二健康度进行合并得到推荐效果指数。

当有多个推荐策略时，第二计算模块640用于，针对每个推荐策略，对待评估用户群中用户的第一健康度进行平均，得到第一平均值；将所有推荐策略的第一平均值进行平均，得到第二平均值；计算每个推荐策略的第一平均值相对于第二平均值的相对百分比，作为与该推荐策略对应的推荐效果指数。

在一实施例中，装置700进一步包括：

健康用户识别模块660，用于根据第一计算模块630得到的第一健康度对待评估用户群中的用户进行降序排列，根据排列结果确定出排名在前X％的部分用户，其中，X为正整数；针对每个行为指标，统计得到获取模块610得到的待评估时间段内部分用户在该行为指标上数值的中值，作为分界值；在待评估用户群内，若待评估时间段内一个用户在该行为指标上的平均数值高于分界值，则将该用户确定为健康用户；若待评估时间段内一个用户在该行为指标上的平均数值低于或者等于分界值，则将该用户确定为非健康用户。

图8为本发明又一个实施例中服务器800的结构示意图。如图8所示，服务器800包括：处理器810、存储器820、端口830以及总线840。处理器810和存储器820通过总线840互联。处理器810可通过端口830接收和发送数据。其中，

处理器810用于执行存储器820存储的机器可读指令模块。

存储器820存储有处理器810可执行的机器可读指令模块。处理器810可执行的指令模块包括：获取模块821、排序模块822、第一计算模块823和第二计算模块824。其中，

获取模块821被处理器810执行时可以为：在基于一个推荐策略向多个用户推荐内容时，获取每个用户针对推荐内容产生的行为数据，行为数据包括待评估时间段内多个行为指标上的数值；

排序模块822被处理器810执行时可以为：针对每个行为指标，根据获取模块821得到的每个用户在该行为指标上的数值确定出该用户在待评估用户群中的排名；

第一计算模块823被处理器810执行时可以为：根据排序模块822得到的排名和每个行为指标的权重计算出待评估用户群中每个用户的第一健康度

第二计算模块824被处理器810执行时可以为：根据第一计算模块823得到的第一健康度计算出与该推荐策略对应的推荐效果指数。

在一实施例中，处理器810可执行的指令模块进一步包括：权重确定模块825，被处理器810执行时可以为：对于每个用户的每个行为指标，从获取模块821得到的待评估时间段内该用户在该行为指标上的多个绝对值中确定出一个基准值，根据该基准值将每个绝对值转换为第二相对值；将多个第二相对值在待评估时间段内进行平均并归一化，得到每个行为指标的权重。

在一实施例中，处理器810可执行的指令模块进一步包括：健康用户识别模块826，被处理器810执行时可以为：根据第一计算模块823得到的第一健康度对待评估用户群中的用户进行降序排列，根据排列结果确定出排名在前X％的部分用户，其中，X为正整数；针对每个行为指标，统计得到获取模块821得到的待评估时间段内部分用户在该行为指标上数值的中值，作为分界值；在待评估用户群内，若待评估时间段内一个用户在该行为指标上的平均数值高于分界值，则将该用户确定为健康用户；若待评估时间段内一个用户在该行为指标上的平均数值低于或者等于分界值，则将该用户确定为非健康用户。

由此可以看出，当存储在存储器820中的指令模块被处理器810执行时，可实现前述各个实施例中获取模块、排序模块、第一计算模块、第二计算模块、权重确定模块和健康用户识别模块的各种功能。

上述装置实施例中，各个模块及单元实现自身功能的具体方法在方法实施例中均有描述，这里不再赘述。

另外，在本发明各个实施例中的各功能模块可以集成在一个处理单元中，也可以是各个模块单独物理存在，也可以两个或两个以上模块集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

另外，本发明的每一个实施例可以通过由数据处理设备如计算机执行的数据处理程序来实现。显然，数据处理程序构成了本发明。此外，通常存储在一个存储介质中的数据处理程序通过直接将程序读取出存储介质或者通过将程序安装或复制到数据处理设备的存储设备(如硬盘和或内存)中执行。因此，这样的存储介质也构成了本发明。存储介质可以使用任何类别的记录方式，例如纸张存储介质(如纸带等)、磁存储介质(如软盘、硬盘、闪存等)、光存储介质(如CD-ROM等)、磁光存储介质(如MO等)等。

因此，本发明还公开了一种存储介质，其中存储有数据处理程序，该数据处理程序用于执行本发明上述方法的任何一种实施例。

以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种推荐效果的评估方法，其特征在于，包括：

在基于一个推荐策略向多个用户推荐内容时，获取每个用户针对所述推荐内容产生的行为数据，所述行为数据包括待评估时间段内多个行为指标上的数值；

针对每个行为指标，根据每个用户在该行为指标上的数值，确定出该用户在待评估用户群中的排名；

将所述排名进行百分制换算，得到百分制名次；针对每个用户，使用各个行为指标的权重对所述百分制名次进行加权求和，得到该用户的第一健康度；及，

根据所述第一健康度，在预设的多个量化区间上，将所述待评估用户群中的用户进行划分，根据划分的结果确定出每个量化区间上的第二健康度，将各个量化区间上的所述第二健康度进行合并，得到与该推荐策略对应的推荐效果指数。

2.根据权利要求1所述的方法，其中，所述待评估时间段包括多个时间间隔，在每个时间间隔内每个行为指标具备一个绝对值；

所述针对每个行为指标，根据每个用户在该行为指标上的数值，确定出该用户在待评估用户群中的排名包括：

对于每个用户的每个行为指标，将所述待评估时间段内该用户在该行为指标上的多个绝对值进行合并，得到该用户针对该行为指标的得分；

针对每个行为指标，根据所述得分将所述待评估用户群中的用户进行降序排列，根据排列结果获得每个用户对应的排名。

3.根据权利要求2所述的方法，其中，所述将所述待评估时间段内该用户在该行为指标上的多个绝对值进行合并，得到该用户针对该行为指标的得分包括：

从多个时间间隔对应的多个绝对值中确定出一个基准值；

根据该基准值将每个绝对值转换为第一相对值；

将多个第一相对值在所述待评估时间段内进行求和，得到所述得分。

4.根据权利要求1所述的方法，进一步包括：

根据每个行为指标在推荐效果评估上的重要性级别，预先设置每个行为指标的权重。

5.根据权利要求1所述的方法，其中，所述待评估时间段包括多个时间间隔，在每个时间间隔内每个行为指标具备一个绝对值；

所述方法进一步包括：

对于每个用户的每个行为指标，从所述待评估时间段内该用户在该行为指标上的多个绝对值中确定出一个基准值，根据该基准值将每个绝对值转换为第二相对值；

将多个第二相对值在所述待评估时间段内进行平均并归一化，得到每个行为指标的所述权重。

6.根据权利要求1所述的方法，其中，所述待评估用户群包括在所述待评估时间段内新增的多个用户，或者，在所述待评估时间段内原先已有的多个用户。

7.根据权利要求1所述的方法，其中，每个量化区间对应一部分用户，所述根据划分的结果确定出每个量化区间上的第二健康度包括：

将该量化区间内所述第一健康度的总和除以对应的部分用户的用户数，得到所述第二健康度。

8.根据权利要求1所述的方法，其中，所述根据划分的结果确定出每个量化区间上的第二健康度包括：

将该量化区间内所述第一健康度的最小值或者中值，作为所述第二健康度。

9.根据权利要求1所述的方法，其中，所述将各个量化区间上的所述第二健康度进行合并包括：

通过对所述第二健康度进行求和或者取平均的方式，进行合并。

10.根据权利要求1至9中任一项所述的方法，进一步包括：

根据所述第一健康度对所述待评估用户群中的用户进行降序排列，根据排列结果确定出排名在前X％的部分用户，其中，X为正整数；

针对每个行为指标，

统计得到所述待评估时间段内所述部分用户在该行为指标上数值的中值，作为分界值；

在所述待评估用户群内，若所述待评估时间段内一个用户在该行为指标上的平均数值高于所述分界值，则将该用户确定为健康用户；若所述待评估时间段内一个用户在该行为指标上的平均数值低于或者等于所述分界值，则将该用户确定为非健康用户。

11.一种推荐效果的评估装置，其特征在于，包括：

第一计算模块，用于将所述排名进行百分制换算，得到百分制名次；针对每个用户，使用各个行为指标的权重对所述百分制名次进行加权求和，得到该用户的第一健康度；及，

第二计算模块，用于根据所述第一计算模块得到的第一健康度，在预设的多个量化区间上，将所述待评估用户群中的用户进行划分，根据划分的结果确定出每个量化区间上的第二健康度，将各个量化区间上的所述第二健康度进行合并，得到与该推荐策略对应的推荐效果指数。

12.根据权利要求11所述的装置，进一步包括：

权重确定模块，用于根据每个行为指标在推荐效果评估上的重要性级别，预先设置每个行为指标的权重。

13.根据权利要求11所述的装置，其中，每个量化区间对应一部分用户，所述第二计算模块用于，将该量化区间内所述第一健康度的总和除以对应的部分用户的用户数，得到所述第二健康度。

14.根据权利要求11所述的装置，其中，所述第二计算模块用于，将该量化区间内所述第一健康度的最小值或者中值，作为所述第二健康度。

15.一种计算机可读存储介质，其特征在于，存储有计算机可读指令，使至少一个处理器执行如权利要求1至10任一项所述的方法。

16.一种服务器，包括存储器和处理器，所述存储器中存储有计算机可读指令，所述计算机可读指令被所述处理器执行时，实现如权利要求1至10中任一项所述的方法。