CN111813992A

CN111813992A - 一种影视推荐候选集的排序系统及方法

Info

Publication number: CN111813992A
Application number: CN202010675199.3A
Authority: CN
Inventors: 马荣深; 吴上波
Original assignee: Sichuan Changhong Electric Co Ltd
Current assignee: Sichuan Changhong Electric Co Ltd
Priority date: 2020-07-14
Filing date: 2020-07-14
Publication date: 2020-10-23

Abstract

本发明公开了一种影视推荐候选集的排序系统，包括数据获取模块，用于数据的获取；数据预处理模块，用于数据的预处理操作，包含但不限于对历史观看数据中的观影时长进行时间衰减；特征构建模块，用于构建特征，并生成训练集；编码模块，用于对训练集进行编码；训练模块，用于模型的训练，将训练集传入模型进行迭代训练，得到GBM模型；排序模块，用于对影视推荐候选集的影片进行预测排序。同时，还公开了一种影视推荐候选集的排序方法，将观影时长进行时间衰减，并通过迭代训练建立GBM模型对影视推荐候选集进行智能排序，有效地提高了影视推荐的精准度，保证了影视推荐候选集的排序系统及方法的可信度，以及用户的使用体验度。

Description

一种影视推荐候选集的排序系统及方法

技术领域

本发明涉及影视的个性化推荐技术领域，特别涉及一种影视推荐候选集的排序系统及方法。

背景技术

随着人工智能与大数据的迅猛发展，计算机能够从用户的操作记录中进行学习，从海量的影片中选出用户可能感兴趣的影片推荐给用户。然而，用户并不可能对这些影片都感兴趣，因此，需要对这些影片进行有效的排序，将用户可能进行操作的影片排在前面。因此如何正确地对选出的影片进行排序推荐是急需解决的问题。

目前的排序方法，通常直接采用推荐算法计算出的得分进行排序。例如，根据协同过滤算法计算出来的兴趣度对候选集进行排序，通过此方法进行排序的优点是逻辑简单，排序费时较少。但此方法并不能准确的将候选集中用户可能操作的影片排在前面。随着业务的多元化，用户特征愈加复杂，此方法对复杂的业务场景和用户特征的适应性较差，已不适应新的业务场景和愈加复杂的业务特征。因此，需要一种能够适应复杂特征的候选集排序方法来提升用户影片推荐的精确度。

发明内容

为解决现有技术中存在的问题，本发明的目的是提供一种影视推荐候选集的排序系统及方法，将时间衰减加入GBM模型中，对推荐候选集中的影片进行排序，将用户可能观看的影片排在前面，提高推荐内容的准确性。

为实现上述目的，本发明采用的技术方案是：

一种影视推荐候选集的排序系统，包括

数据获取模块，用于数据的获取；

数据预处理模块，用于数据的预处理操作，包含但不限于对历史观看数据中的观影时长进行时间衰减；

特征构建模块，用于构建特征，并生成训练集；

编码模块，用于对训练集进行编码；

训练模块，用于模型的训练，将训练集传入模型进行迭代训练，得到GBM模型；

排序模块，用于对候选集的影片进行预测排序。

一种影视推荐候选集的排序方法，包括以下步骤：

步骤一、获取数据，从数据库中获取用户信息、影视信息以及观影记录；

步骤二、数据预处理，并对观影记录的观影时长进行时间衰减，得到衰减后的观影时长；

步骤三、构建特征，得到训练集；

步骤四、对训练集进行编码；

步骤五：通过迭代训练建立GBM模型；

步骤六：通过GBM模型进行预测，利用预测结果对候选集中的影片进行排序。

进一步地，所述数据预处理包括将用户信息中包含缺失字段的信息进行删除；将影视信息中时长为0的影视统一修改为该字段正常数据的均值，将其他字段有丢失的信息进行删除；将观影记录中观影时间不合逻辑的观影记录进行删除。

进一步地，所述时间衰减公式为：N＝N₀e^-α(△T),其中N为衰减后的观影时长，N₀为衰减前的观影时长，e为常数，α为衰减系数，△T为当前时间与观影时间之间的差值。

进一步地，所述构建特征包括用户特征、影视特征和统计类特征。

进一步地，所述统计类特征包括用户每月观影数量、用户每月观影的平均进度、影视每月播放次数和影视每月播放的平均进度。

进一步地，所述对训练集进行编码为将类别特征从1开始进行编码，并将映射关系导出到数据库中进行存储，以便在下次编码时保证映射关系的唯一性。

进一步地，所述对训练集进行编码还包括构建一个观影时长/影片总长的字段，作为用户观看某部影片的进度。

本发明的有益效果是：

本发明通过将观影时长进行时间衰减，并通过迭代训练建立GBM模型对影视推荐候选集进行智能排序，耗时较少，有效地提高了影视推荐的精准度，保证了影视推荐候选集的排序系统及方法的可信度，以及用户的使用体验度。

附图说明

图1为本发明实施例的影视推荐候选集的排序系统示例图。

图2为本发明实施例的影视推荐候选集的排序方法流程图。

图3为本发明实施例的训练样本取样流程图。

具体实施方式

以下描述用于揭露本发明以使相关领域技术人员能够实现本发明。以下描述中的实施例只作为举例，相关领域技术人员可以想到其他显而易见的变型均属于本发明的保护范围。

在其中一个实施例中，如图1所示，本发明提供一种影视推荐候选集的排序系统，包括：

数据获取模块，用于获取影视推荐候选集中的数据。

数据预处理模块，用于数据的预处理操作，包含但不限于对历史观看数据中的观影时长进行衰减。

特征构建模块，用于构建特征，将特征附加到影视推荐候选集上，生成训练集。

编码模块，用于对训练集进行编码。

训练模块，用于模型的训练，将训练集传入模型进行迭代训练，得到GBM模型，通过GBM模型对用户的行为进行预测。

排序模块，用于对影视推荐候选集的影片进行预测排序。

在另一个实施例中，如图2所示，本发明还提供一种基于梯度提升与时间衰减的影视推荐候选集的排序方法，首先对过去一段时间内的用户观影数据进行训练集与特征的构建，并在观影时长中加入时间衰减，将得到的训练集进行迭代训练得到GBM模型(GradientBoosting Machine，梯度提升树算法)，使用该模型预测用户观看影视的概率，通过概率的大小对影视推荐候选集进行排序。将用户可能观看的影片排在前面，提高推荐排序的准确率。

一种影视推荐候选集的排序方法，具体包括以下步骤：

步骤一、获取数据，从影视推荐候选集中获取用户信息、影视信息以及观影记录；

从影视推荐候选集中获取用户近三个月的用户信息、影视信息和观影记录，所述用户信息包括用户ID、用户设备信息、用户VIP状态和用户所在地区等信息；所述影视信息包括影片ID、导演、演员、所属地区、上映日期、资源方、收费信息、时长、类型和评分等信息；所述观影记录包括用户ID、影片ID、观看时间和观影时长等信息。

步骤二、数据预处理，通过遍历方式，对获取的数据进行预处理，得到预处理后的数据；并对观影记录的观影时长进行时间衰减，得到衰减后的观影时长；

对用户信息、影视信息和观影记录进行预处理，所述预处理包括将用户信息中包含缺失字段的信息进行删除；将影视信息中时长为0的影视统一修改为该字段正常数据的均值，将其他字段有丢失的信息进行删除；将观影记录中观影时间不合逻辑的观影记录进行删除；并对观影记录的观影时长进行时间衰减，得到衰减后的观影时长。

所述时间衰减公式为：

其中N为衰减后的观影时长，N₀为衰减前的观影时长，单位为秒，e为常数，α为衰减系数(大于0)，△T为当前时间与观影时间之间的差值，单位为天数，将值带入公式1则可得到衰减过后的影视时长N。例如，当衰减前的观影时长N₀为5400秒，时间差值△T为90天，衰减系数α为0.0045时，带入式1中可得出衰减后的观影时长N为3600秒。

步骤三、构建特征，得到训练集；根据预处理后的用户信息、影视信息和观影记录生成特征，所述特征为在机器学习过程中所需要学习的维度，包括用户特征、影视特征、统计类特征和其他特征；

所述用户特征为根据用户信息直接得到的用户VIP、用户设备信息、用户所属省份等。

所述影视特征为根据影视信息得到影视ID、影视所属地区、影视类型、导演、演员、评分、收费信息、电影年龄等。

所述统计类特征包括用户每月观影数量、用户每月观影的平均进度、影视每月播放次数和影视每月播放的平均进度。通过对观影记录中的影视按ID进行分类，每类通过播放的月份进行分组，统计分组后每个组所包含的记录条数，得出该影视每个月播放的总数，再将这些组中的观影时长求平均值后再除以该部影视的时长，得到该影视每个月播放的平均进度。通过对观影记录中的用户按ID分类，再通过观看影视的月份进行分组，统计每个用户在某个月的观影总数，将每个组每条记录的观影进度进行求平均值，可以得到该用户在某个月的平均观影进度。

所述其他特征包括根据观影记录得到该用户最近观看的三部影视ID、以及根据观影时间可以得到具体观看时间等。

步骤四、对训练集进行编码，将除了电影年龄、评分、用户某个月观看次数与平均比例、影片上个月被观看次数与平均比例之外的类别特征进行编号。对类别特征从1开始进行编码，并将映射关系导出到影视推荐候选集中进行存储，以便在下次编码时能够保证映射关系的唯一性。如电影年龄、评分、用户每月观影数量、用户每月观影的平均进度、影视每月播放次数以及影视每月播放的平均进度等数字特征不进行编码。

另外，构建一个观影时长/影片总长的字段，作为用户观看某部影片的进度；当进度值≥0.5时，视为用户喜欢该影片，将其编码为1；相反的，当进度值＜0.5时，则视为不喜欢该影片，将其编码为0；并将编码后的字段作为训练集的标签。

步骤五：通过迭代训练建立GBM模型；

首先，设置模型的训练参数，主要参数为：'boosting_type':'gbdt'、'objective':'binary'、'max_depth':6、'min_data_in_leaf':500、'num_leaves':28、'bagging_freq':5'、'min_gain_to_split':0.1、learning_rate':0.01、'feature_fraction':0.9、'bagging_fraction':0.9；将编码后的数据传入模型中迭代训练建立GBM模型。

具体训练过程，如图3所示，将训练集中所有样本按影视ID进行分组，遍历每个分组判断当前组的记录是否有50条，以保证训练的合理性；若是，则随机抽取50条影视记录；若否，则获取当前组所有的影视记录，合并这些影视记录样本，进行迭代训练建立GBM模型。

步骤六：通过GBM模型对候选集中的影片进行预测，得到用户操作某个影片的概率，通过概率的大小对这些影片进行排序，得到最终的排序结果，利用预测结果对影片候选集的影片进行排序。

以上所述实施例仅表达了本发明的具体实施方式，其描述较为具体和详细，但并不能因此而理解为对本发明专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本发明构思的前提下，还可以做出若干变形和改进，这些都属于本发明的保护范围。

Claims

1.一种影视推荐候选集的排序系统，其特征在于，包括

数据获取模块，用于数据的获取；

特征构建模块，用于构建特征，并生成训练集；

编码模块，用于对训练集进行编码；

排序模块，用于对候选集中的影片进行预测排序。

2.一种影视推荐候选集的排序方法，其特征在于，包括以下步骤：

步骤三、构建特征，得到训练集；

步骤四、对训练集进行编码；

步骤五：通过迭代训练建立GBM模型；

3.根据权利要求2所述影视推荐候选集的排序方法，其特征在于，所述数据预处理包括将用户信息中包含缺失字段的信息进行删除；将影视信息中时长为0的影视统一修改为该字段正常数据的均值，将其他字段有丢失的信息进行删除；将观影记录中观影时间不合逻辑的观影记录进行删除。

4.根据权利要求2所述影视推荐候选集的排序方法，其特征在于，所述时间衰减公式为：

其中N为衰减后的观影时长，N₀为衰减前的观影时长，e为常数，α为衰减系数，△T为当前时间与观影时间之间的差值。

5.根据权利要求2所述影视推荐候选集的排序方法，其特征在于，所述构建特征包括用户特征、影视特征和统计类特征。

6.根据权利要求5所述影视推荐候选集的排序方法，其特征在于，所述统计类特征包括用户每月观影数量、用户每月观影的平均进度、影视每月播放次数和影视每月播放的平均进度。

7.根据权利要求2所述影视推荐候选集的排序方法，其特征在于，所述对训练集进行编码为将类别特征从1开始进行编码，并将映射关系导出到数据库中进行存储，以便在下次编码时保证映射关系的唯一性。

8.根据权利要求7所述影视推荐候选集的排序方法，其特征在于，所述对训练集进行编码还包括构建一个观影时长/影片总长的字段，作为用户观看某部影片的进度。