CN106776873A

CN106776873A - 一种推荐结果生成方法以及装置

Info

Publication number: CN106776873A
Application number: CN201611072341.5A
Authority: CN
Inventors: 谭领城
Original assignee: Meizu Technology Co Ltd
Current assignee: Meizu Technology Co Ltd
Priority date: 2016-11-29
Filing date: 2016-11-29
Publication date: 2017-05-31

Abstract

本发明实施例公开了一种推荐结果生成方法以及装置，可以使推荐结果更加准确。本发明实施例方法包括：获取用户在至少2种应用平台上的行为记录；根据行为记录生成用户特征，获取目标应用平台的业务的属性特征；根据所述用户特征以及所述属性特征生成联合特征；根据所述联合特征生成样本集；根据所述样本集得到逻辑回归模型；根据所述逻辑回归模型计算待推荐业务的概率，所述待推荐业务为所述目标应用平台上的待推荐业务；根据所述待推荐业务的概率大小生成推荐结果。

Description

一种推荐结果生成方法以及装置

技术领域

本发明涉及计算机技术领域，尤其涉及一种推荐结果生成方法以及装置。

背景技术

随着互联网的飞速发展，互联网上的信息每年都在以几何级数增长。如何在这个海量信息库中精确获取所需信息已成为人们越来越关注的问题。个性化推荐系统就是在这个背景下应运而生，并且迅速发展起来。目前推荐系统推荐方法大都是基于设备上的应用所确定，如视频应用中，推荐系统会根据用户的观看记录，即会根据之前的观看记录来确定用户可能会喜欢看的视频，进而向客户推荐视频。但是当碰到用户冷启动的问题时，也即当用户在该视频应用上的行为数据很少或没有时，就很难找到符合用户“口味”的电影，或推荐结果不准确。

发明内容

本发明实施例提供了一种推荐结果生成方法以及装置，用于使得推荐结果更加准确。

有鉴于此，本发明实施例第一方面提出了一种推荐结果生成方法，该推荐结果生成方法主要包括以下流程：

获取用户在至少2种应用平台上的行为记录；

根据所述行为记录生成用户特征；

获取目标应用平台的目标业务的属性特征，所述目标业务为所述用户使用过的业务；

根据所述用户特征以及所述属性特征生成联合特征；

根据所述联合特征生成样本集；

根据所述样本集得到逻辑回归模型；

根据所述逻辑回归模型计算待推荐业务的概率，所述待推荐业务为所述目标应用平台上的待推荐业务；

根据所述待推荐业务的概率大小生成推荐结果。

在一些可能的实现中，所述获取用户在至少2种应用平台上的行为记录包括：

获取预置时段内所述用户在所述至少2种应用平台上的行为记录。

在一些可能的实现中，所述根据所述样本集得到逻辑回归模型，包括：

从所述样本集中按照预置比例抽取出正、负样本构成训练样本集；

对所述训练样本集进行训练得到所述逻辑回归模型。

在一些可能的实现中，所述对所述训练样本集进行训练得到所述逻辑回归模型，包括：

构造如下对数损失函数：

其中，x⁽ⁱ⁾为所述训练样本集中的第i个样本，所述m为训练样本数目，

根据梯度下降法计算出θ，令θ＝β，获得所述逻辑回归模型：

其中，β^Tx＝β₁·x₁+β₂·x₂+...+β_k·x_k，β＝(β₁，β₂...β_k)为所述逻辑回归模型参数，P'为所述待推荐业务的概率。

在一些可能的实现中，其特征在于，所述至少2种应用平台包含所述目标应用平台。

基于上述第一方面的方法，本发明实施例第二方面提供了一种推荐结果生成装置，该装置包括：

第一获取模块，用于获取用户在至少2种应用平台上的行为记录；

第一生成模块，用于根据所述第一获取模块获取的所述行为记录生成用户特征；

第二获取模块，用于获取目标应用平台的目标业务的属性特征，所述目标业务为所述用户使用过的业务；

第二生成模块，用于根据所述第一生成模块生成的所述用户特征以及所述第一生成模块生成的所述属性特征生成联合特征；

第三生成模块，用于根据所述第二生成模块生成的所述联合特征生成样本集；

获得模块，用于根据所述第三生成模块生成的所述样本集得到逻辑回归模型；

计算模块，用于根据所述获得模块获得的所述逻辑回归模型计算待推荐业务的概率，所述待推荐业务为所述目标应用平台上的待推荐业务；

第四生成模块，用于根据所述计算模块计算到的所述待推荐业务的概率大小生成推荐结果。

在一种可能的实现中，所述第一获取模块具体用于：

在一种可能的实现中，所述获得模块包括：

抽取单元，用于从所述样本集中按照预置比例抽取出正、负样本构成训练样本集；

训练单元，用于对所述训练样本集进行训练得到所述逻辑回归模型。

在一种可能的实现中，所述训练单元具体用于：

构造如下对数损失函数：

在一种可能的实现中，所述至少2种应用平台包含所述目标应用平台。

从以上技术方案可以看出，本发明实施例提供了一种推荐结果生成方法以及装置，通过获取用户在至少2种应用平台上的行为记录，根据行为记录生成用户特征，获取目标应用平台的业务的属性特征，根据用户特征以及属性特征生成联合特征，根据联合特征生成样本集，根据样本集得到逻辑回归模型，根据逻辑回归模型计算待推荐业务的概率，待推荐业务为目标应用平台上的业务；根据待推荐业务的概率大小生成推荐结果。即在本发明实施例中，在为用户推荐业务时，通过获取用户在多个应用平台上的行为记录，结合交叉用户在多个应用平台下的行为记录所对应的用户特征为用户推荐业务，而不是单靠用户在单个应用平台上的行为记录，提供更多应用平台上用户的行为记录，使得推荐结果更加准确。

附图说明

为了更清楚地说明本发明实施例技术方案，下面将对实施例和现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，还可以根据这些附图获得其它的附图。

图1为本发明实施例一种推荐结果生成方法一个实施例流程示意图；

图2为本发明实施例一种推荐结果生成装置一个实施例结构示意图；

图3为本发明实施例一种推荐结果生成装置一个实施例结构示意图。

具体实施方式

为了使本技术领域的人员更好地理解本发明方案，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分的实施例，而不是全部的实施例。本领域普通技术人员在基于本发明中的实施例的前提下所获得的所有其他实施例，都应当属于本发明保护的范围。

本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”、“第三”、“第四”等(如果存在)是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的实施例能够以除了在这里图示或描述的内容以外的顺序实施。此外，术语“包括”和以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

本发明实施例提供了一种推荐结果生成方法以及装置，通过结合用户在多个应用平台下的行为记为用户推荐业务，可以使得推荐结果更加准确。

本发明实施例提出的一种推荐结果生成方法以及装置适用于各种各样的推荐系统中，尤其适用于当前的电子商务平台上的推荐系统，例如一些购物网站、在线阅读网站、电影网站等需要向客户推荐业务的平台上，具体此处不做限定。

下面通过实施例对本发明实施例一种推荐结果生成方法进行详细的描述：

请参阅图1，图1为本发明实施例一种推荐结果生成方法一个实施例流程示意图，包括：

101、获取用户在至少2种应用平台上的行为记录。

以手机为例，一般用户会在手机上安装有各种各样的APP(应用程序)，例如视频APP、音乐APP、阅读APP等应用平台。在本发明实施例中，当用户当前使用某个应用平台时，某个应用平台上的推荐系统需要向用户推荐当前应用平台的业务时，例如当用户使用视频APP时，推荐系统需要向用户推荐视频时，推荐系统可以获取用户在至少2个应用平台上的行为记录。例如获取用户在视频APP的观看记录、音乐APP的听歌记录、阅读APP上的阅读记录等行为信息。

需要说明的是，在本发明的一些实施例中，优选获取用户在预置时段内在至少2种应用平台上的行为记录，例如在最近2个月，或3个月内，在至少2种应用平台上的行为记录，具体在那个时段此处不做限定。另外，在本发明的一些实施例中，在获取用户至少2种应用平台上的行为记录时，优选获取用户行为次数过多的记录，例如获取用户的听歌记录中，用户听过的次数排在靠前的听歌记录，比如听过的次数排在前15位的听歌记录。又例如，获取用户的视频观看记录中，观看次数排在靠前的观看记录，比如排在靠前15位的视频观看记录，具体此处不做限定。

需要说明的是，上述所列举的在这里只是举例说明，并不对本发明实施例构成限定。

102、根据所述行为记录生成用户特征。

当获取了用户在至少2个应用平台上的行为记录后，根据行为记录生成用户特征，该用户特征包含有用户在至少2个应用品台下的行为记录。

103、获取目标应用平台的目标业务的属性特征。

目标应用平台即是指当前用户使用的应用平台，目标应用平台的目标业务的属性特征即是指目标业务平台上用户使用过的业务的属性特征。以视频APP推荐视频为例，例如获取用户观看过的视频的名称，描述信息，其中描述信息是与该视频相关的描述信息，例如是指用户观看的视频涉及到哪个演员、导演等信息。需要说明的是，上述例子在这里只是举例说明，但并不对本发明实施例构成限定，具体此处不做限定。

这里需要说明的是，步骤103与步骤101、102之间并无执行先后时间顺序，具体此处不做限定。

104、根据所述用户特征以及所述属性特征生成联合特征。

当获取用户特征，以及在目标应用平台上目标业务的属性特征后，根据该用户特征以及属性特征生成联合特征，即联合特征中包含有用户特征以及属性特征。

105、根据所述联合特征生成样本集。

当获取了根据行为记录以及属性特征生成联合特征后，可以通过该联合特征生成样本集，即生成的样本集中包含有该联合特征。

106、根据所述样本集得到逻辑回归模型。

逻辑回归模型(英文全称：Logic Regression,缩写：LR)，简称为LR模型，为机器学习算法中的一种预测模型，当获得了样本集后，根据该样本集训练得到逻辑回归模型。

107、根据所述逻辑回归模型计算待推荐业务的概率，所述待推荐业务为所述目标应用平台上的业务。

当得到逻辑回归模型后，根据该逻辑回归模型计算目标应用平台上，待推荐业务的概率。

108、根据所述待推荐业务的概率大小生成推荐结果。

当通过逻辑回归模型计算出目标应用平台上待推荐业务的概率后，可以根据待推荐业务的概率大小生成推荐结果。例如，可以按照待推荐业务的概率从大到小生成推荐结果。最后展示给用户，以便用户可以按照推荐结果进行选择。

由此可见，在本发明实施例中，在为用户推荐业务时，通过获取用户在多个应用平台上的行为记录，结合交叉用户在多个应用平台下的行为记录为用户推荐业务，而不是单靠用户在单个应用平台上的行为记录，提供更多应用平台上用户的行为记录，使得推荐结果更加准确。

优选地，在本发明的一些实施例中，推荐系统获取的至少2个应用平台中包含该目标应用平台。可以理解，获取的至少2个应用平台中包含目标应用品台的行为记录，可以使得推荐系统结合目标应用品台上的行为记录，使可以使得最终目标应用平台推荐系统的推荐结果更加准确，以视频APP推荐视频为例，推荐系统获取的用户至少2个应用平台上的行为记录，其中包含用户在视频APP上的观看记录，可以为推荐系统提供更多有效的特征，使得最终目标应用平台推荐系统的推荐结果更加准确。

其中，在本发明的一些实施例中，所述根据所述样本集得到逻辑回归模型具体是指：

从所述样本集中按照预置比例抽取出正、负样本构成训练样本集，对所述训练样本集进行训练得到所述逻辑回归模型。需要说明的是，预置比例可以根据实际应用情况进行配置，例如从样本集中各取30％的正、负样本集作为训练集，或从样本集中取30％的正样本，40％的负样本作为训练样本集，具体此处不做限定。

其中，所述对所述训练样本集进行训练得到所述逻辑回归模型是指：

构造如下对数损失函数：

其中，x⁽ⁱ⁾为所述训练样本集中的第i个样本，所述m为训练样本数目，θ_i表示训练样本i特征所对应的权重，使用梯度下降法算出θ₁，θ₂...θ_n，即算出每个特征所对应的权重，令θ＝β，获得所述逻辑回归模型：

其中，β^Tx＝β₁·x₁+β₂·x₂+...+β_k·x_k，β＝(β₁，β₂...β_k)为所述逻辑回归模型参数，P'为所述待推荐业务的概率。这里需要说明的是，除了采用对数损失函数外，采用其他的损失函数，例如对数似然损失函数、平方损失函数等，具体此处不做限定。另外需要说明的是，在计算θ₁，θ₂...θ_n时，除了采用梯度下降法外，还可以采用其他计算方法，例如最小二乘法等，具体此处不做限定，只要能计算出θ₁，θ₂...θ_n即可。

为了便于理解，下面将以目标业务平台为视频APP平台的视频推荐为例，对本发明实施例一种推荐结果生成方法的过程做一个描述：

1、收集用户最近三个月在音乐APP上的听歌记录，视频APP上的播放记录，阅读APP上的阅读记录，在应用商店里安装的APP记录等，例如对于音乐APP，记录形式可以为{use_a，music_b，music_c}，代表用户user_a最近三个月听过歌曲music_b，music_c。对于视频APP，记录形式为{use_a，video_a，video_b}，代表用户use_a最近三个月观看过视频video_a，video_b。

2、为了让推荐系统推荐出相对优质的视频，我们对前面收集到的记录进行过滤，我们只取播放次数排在前几位，例如只取视频APP中用户播放次数排在前5位的视频，只取音乐APP中用户播放次数排在前5位的歌曲。

3、融合用户在各个应用平台上的记录生成用户特征。例如生成以下用户特征：{user_a，music_b，music_c，app_a，video_a}，代表user_a听过歌曲music_b以及music_c，安装过app_a，看过视频video_a。

4、抽取视频APP中，目标业务的本身属性特征，即抽取用户观看过的视频的属性特征，比如用户观看过的视频中，对应的名称、导演名、演员名、类别信息等信息，生成目标业务的属性特征，如：{video_a，director_a，actor_a，actor_b，catetory_a}，代表用户看过的视频video_a，中的导演director_a、演员actor_a、演员actor_b、视频video_a属于catetory_a类。

5、根据视频APP上用户的行为记录做如下矩阵式表1：

表1

	Video1	Video2	Video3	Video4	Video5
						User1	1	0	0	1	1
User2	0	0	1	1	0
						User3	1	0	1	0	0
User4	0	0	0	1	1

其中，上表分别表示4个用户在5个视频上的观看行为，1代表观看该视频，0则反之。例如，User1在Video1的行为为1，表示User1看过Video1。

6、接着根据前述步骤获得的属性特征以及用户特征，查找出上表中用户的用户特征以及视频的属性特征。

分别查找user1的用户特征和video2的属性特征。这里假设user_1的用户特征为：{user_1,acticle_a，video_a，music_b，music_c}，表示user_1阅读过acticle_a，看过视频video_a，听过music_b以及music_c；video_2的属性特征为：{video_2，actor_a，actor_b，catetory_a}，表示video_2中包含有演员actor_a、演员actor_b，以及该video2的类别信息属于catetory_a。

根据上述用户特征以及属性特征生成联合特征，比如生成如下所示联合特征：

{(user_a，video_x)，(user_a，actor_y)，(user_a，category_z)，(video_b，video_x)，(video_b，actor_y)，(video_b，category_z)，(article_c，video_x)，(article_c，actor_y)，(article_c，category_z)}。

为了便于理解，下面将从单个用户的角度进行描述，假设当前用户为user_1，则根据联合特征生成user_1的样本集，假设生成N个样本{(x⁽¹⁾，y⁽¹⁾)，(x⁽²⁾，y⁽²⁾)，(x⁽³⁾，y⁽³⁾)…(x^(N)，y^(N))}，其中y＝{0，1}，y＝1表示正样本，y＝0表示负样本，x为M维特征向量。x＝{x₁，x₂，x₃…x_M}，x中的特征由包含上述步骤生成的联合特征，M的具体值可以根据实际应用情况进行配置，即可以根据实际应用情况确定应用选取多少个特征组成x，具体此处不做限定。例如生成的样本的特征可以为：

{user_2，acticle_a，video_a，video_2，actor_a，actor_b，zone_a，catetory_a，(user_a,video_x)，(user_a，actor_y)，(user_a，category_z)，(video_b,video_x)，(video_b，actor_y)，(video_b，category_z)，(article_c，video_x)，)(article_c，actor_y)，(article_c，category_z)。

最后从生成的样本集中，即N个样本中按照预置比例抽取出正、负样本，例如从样本集中抽取30％的正、负样本各作为训练样本集。

7、使用前述步骤获得的训练样本集训练得到对应的逻辑回归模型：

构造如下对数损失函数：

其中，x⁽ⁱ⁾为所述训练样本集中的第i个样本，所述m为训练样本数目，θ_i表示训练样本i特征所对应的权重，使用梯度下降法算出θ₁，θ₂...θ_n，即算出每个特征所对应的权重，令θ＝β，得到对应的逻辑回归模型：

其中，β^Tx＝β₁·x₁+β₂·x₂+...+β_M·x_M，β₁，β₂...β_M为逻辑回归参数。

8、最后使用步骤7训练出的逻辑回归模型预测用户对他未观看过的视频预测他可能观看的概率，然后按照概率大小排序进行向用户user_1推荐视频。

上面对本发明实施例一种推荐结果生成方法进行了描述，基于该推荐结果生成方法，本发明实施例提出了一种推荐结果生成装置，下面对本发明实施例提出的推荐结果生成装置进行描述。

请参阅图2，图2为本发明实施例一种推荐结果生成装置一个实施例结构示意图，该推荐结果生成装置包括第一获取模块101、第一生成模块102、第二获取模块103、第二生成模块104、第三生成模块105、获得模块106、计算模块107以及第四生成模块108，下面对各个模块之间的功能进行描述：

第一获取模块101，用于获取用户在至少2种应用平台上的行为记录；

第一生成模块102，用于根据所述第一获取模块101获取的所述行为记录生成用户特征；

第二获取模块103，用于获取目标应用平台的目标业务的属性特征，所述目标业务为所述用户使用过的业务；

第二生成模块104，用于根据所述第一生成模块102获取的所述用户特征以及所述第一生成模块102生成的所述属性特征生成联合特征；

第三生成模块105，用于根据所述第二生成模块104生成的所述联合特征生成样本集；

获得模块106，用于根据所述第三生成模块105生成的所述样本集得到逻辑回归模型；

计算模块107，用于根据所述获得模块106获得的所述逻辑回归模型计算待推荐业务的概率，所述待推荐业务为所述目标应用平台上的待推荐业务；

第四生成模块108，用于根据所述计算模块107计算到的所述待推荐业务的概率大小生成推荐结果。

在一种可能的实现中，所述第一获取模块101具体用于：

结合图2，请参阅图3，在一种可能的实现中，所述获得模块106包括：

抽取单元1061，用于从所述样本集中按照预置比例抽取出正、负样本构成训练样本集；

训练单元1062，用于对所述抽取单元1061抽取的训练样本集进行训练得到所述逻辑回归模型。

在一种可能的实现中，所述训练单元1062具体用于：

构造如下对数损失函数：

所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述装置、模块和单元的具体工作过程以及更多的细节，可以参考前述方法实施例中的对应过程，在此不再赘述。

在本申请所提供的几个实施例中，应该理解到，所揭露的系统，装置和方法，可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如，所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或单元的间接耦合或通信连接，可以是电性，机械或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本发明各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(英文全称：Read-OnlyMemory，英文简称：ROM)、随机存取存储器(英文全称：Random Access Memory，英文简称：RAM)、磁碟或者光盘等各种可以存储程序代码的介质。

以上所述，以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims

1.一种推荐结果生成方法，其特征在于，包括：

获取用户在至少2种应用平台上的行为记录；

根据所述行为记录生成用户特征；

根据所述用户特征以及所述属性特征生成联合特征；

根据所述联合特征生成样本集；

根据所述样本集得到逻辑回归模型；

根据所述待推荐业务的概率大小生成推荐结果。

2.根据权利要求1所述的方法，其特征在于，所述获取用户在至少2种应用平台上的行为记录包括：

3.根据权利要求2所述的方法，其特征在于，所述根据所述样本集得到逻辑回归模型，包括：

对所述训练样本集进行训练得到所述逻辑回归模型。

4.根据权利要求3所述的方法，其特征在于，所述对所述训练样本集进行训练得到所述逻辑回归模型，包括：

构造如下对数损失函数：

J (θ) = - \frac{1}{m} [Σ_{i = 1}^{m} y^{(i)} \log h_{θ} (x^{(i)}) + (1 - y^{(i)}) l o g (1 - h_{θ} (x^{(i)}))];

p^{'} (x, β) = \frac{1}{1 + e^{- β^{T} x}};

5.根据权利要求1至4中任一项所述的方法，其特征在于，所述至少2种应用平台包含所述目标应用平台。

6.一种推荐结果生成装置，其特征在于，包括：

7.根据权利要求6所述的装置，其特征在于，所述第一获取模块具体用于：

8.根据权利要求7所述的装置，其特征在于，所述获得模块包括：

训练单元，用于对所述抽取单元抽取的所述训练样本集进行训练得到所述逻辑回归模型。

9.根据权利要求8所述的装置，其特征在于，所述训练单元具体用于：

构造如下对数损失函数：

J (θ) = - \frac{1}{m} [Σ_{i = 1}^{m} y^{(i)} \log h_{θ} (x^{(i)}) + (1 - y^{(i)}) l o g (1 - h_{θ} (x^{(i)}))];

p^{'} (x, β) = \frac{1}{1 + e^{- β^{T} x}};

10.根据权利要求6至9中任一项所述的装置，其特征在于，所述至少2种应用平台包含所述目标应用平台。