CN109982155B

CN109982155B - 一种播单推荐方法及系统

Info

Publication number: CN109982155B
Application number: CN201910227980.1A
Authority: CN
Inventors: 宁宇光; 王建兴
Original assignee: Beijing QIYI Century Science and Technology Co Ltd
Current assignee: Beijing QIYI Century Science and Technology Co Ltd
Priority date: 2019-03-25
Filing date: 2019-03-25
Publication date: 2021-10-12
Anticipated expiration: 2039-03-25
Also published as: CN109982155A

Abstract

本发明公开了一种播单推荐方法及系统，根据历史交互数据和内容属性信息对播单数据库进行筛选，得到用于推送的目标播单，相对于传统方案只适合推动因素较为单一的内容，本发明在确定目标播单时，同时结合了历史交互数据和内容属性信息两方面内容，因此使得推荐的目标播单更为准确，可以很好地匹配播单形式的推荐，从而提高了用户体验。

Description

一种播单推荐方法及系统

技术领域

本发明涉及视频技术领域，更具体的说，涉及一种播单推荐方法及系统。

背景技术

在内容推送类软件产品中，随着可推送内容数量不断丰富，用户对内容推荐引擎使用率的快速提升。当用户进行内容搜索时，内容推荐引擎可以为用户推荐包含多个符合搜索条件的播单。

播单作为一种封装有多项内容的合集形式，已经广泛应用于内容推送类软件产品中。由于播单中包含的特征数据更加多元化，现有的推荐技术通常只适合推送因素较为单一的内容，而无法很好地匹配播单形式的推荐，从而影响用户体验。

发明内容

有鉴于此，本发明公开一种播单推荐方法及系统，以实现在确定目标播单时，同时结合历史交互数据和内容属性信息两方面内容，使得推荐的目标播单更为准确，可以很好地匹配播单形式的推荐，从而提高用户体验。

一种播单推荐方法，包括：

根据历史交互数据和内容属性信息对播单数据库进行筛选得到目标播单；

推送所述目标播单。

可选的，所述根据历史交互数据和内容属性信息对播单数据库进行筛选得到目标播单，具体包括：

根据用户标签和用户标签置信度构建用户特征向量；

根据播单标签和播单标签置信度构建播单特征向量；

采用余弦公式计算所述用户特征向量和所述播单特征向量的相似度；

基于相似度数值和第一预设筛选规则选取所述目标播单。

获取预设时间段内的历史交互数据，构建历史交互数据向量；

基于所述播单中各个内容属性，构建播单向量；

基于所述历史交互数据向量和所述播单向量，计算有过历史交互数据的内容在每个播单中的占比；

选取占比大于或等于占比阈值的播单，得到所述目标播单。

根据历史交互数据和内容属性信息对播单数据库进行筛选得到播单候选集；

从预设数据库中，查找所述播单候选集中每个所述播单的特征数据，所述特征数据包括：用户ID、用户历史交互数据、播单ID、播单内容ID、标签置信度和播单标签出现次数；

将每个所述播单的特征数据作为点击率预估模型的输入，得到每个所述播单的点击率预估值，所述点击率预估模型为，以对播单的特征数据作为训练样本，以所述特征数据对应的点击率预估值作为样本标签进行训练得到；

基于第二预设筛选规则，从所述播单候选集中选取所述目标播单。

可选的，所述点击率预估模型的建立过程包括：

从样本数据集中选取热度用户样本和所述热度用户样本对应的目标值，非热度用户样本和所述非热度用户样本对应的目标值，构成模型训练集，其中，所述模型训练集中的所述热度用户样本和所述非热度用户样本数量相同，所述样本数据集包括：播单样本集和播单样本集中每个样本对应的目标值，所述目标值为播单的点击率；

将所述模型训练集中各个样本的离散特征用one-hot表示，得到目标模型训练集；

将所述目标模型训练集带入初始点击率预估模型，得到所述点击率预估模型的模型参数；

基于所述模型参数建立点击率预估模型。

一种播单推荐系统，包括：

筛选单元，用于根据历史交互数据和内容属性信息对播单数据库进行筛选得到目标播单；

推送单元，用于推送所述目标播单。

可选的，所述筛选单元具体包括：

第一构建子单元，用于根据用户标签和用户标签置信度构建用户特征向量；

第二构建子单元，用于根据播单标签和播单标签置信度构建播单特征向量；

第一计算子单元，用于采用余弦公式计算所述用户特征向量和所述播单特征向量的相似度；

第一筛选子单元，用于基于相似度数值和第一预设筛选规则选取所述目标播单。

可选的，所述筛选单元具体包括：

第三构建子单元，用于获取预设时间段内的历史交互数据，构建历史交互数据向量；

第四构建子单元，用于基于所述播单中各个内容属性，构建播单向量；

第二计算子单元，用于基于所述历史交互数据向量和所述播单向量，计算有过历史交互数据的内容在每个播单中的占比；

第一选取子单元，用于选取占比大于或等于占比阈值的播单，得到所述目标播单。

可选的，所述筛选单元具体包括：

第二筛选子单元，用于根据历史交互数据和内容属性信息对播单数据库进行筛选得到播单候选集；

查找子单元，用于从预设数据库中，查找所述播单候选集中每个所述播单的特征数据，所述特征数据包括：用户ID、用户历史交互数据、播单ID、播单内容ID、标签置信度和播单标签出现次数；

点击率预估值获取子单元，用于将每个所述播单的特征数据作为点击率预估模型的输入，得到每个所述播单的点击率预估值，所述点击率预估模型为，以对播单的特征数据作为训练样本，以所述特征数据对应的点击率预估值作为样本标签进行训练得到；

第二选取子单元，用于基于第二预设筛选规则，从所述播单候选集中选取所述目标播单。

可选的，所述筛选单元还包括：点击率预估模型建立子单元，所述点击率预估模型建立子单元用于：

基于所述模型参数建立点击率预估模型。

从上述的技术方案可知，本发明公开了一种播单推荐方法及系统，根据历史交互数据和内容属性信息对播单数据库进行筛选，得到用于推送的目标播单，相对于传统方案只适合推动因素较为单一的内容，本发明在确定目标播单时，同时结合了历史交互数据和内容属性信息两方面内容，因此使得推荐的目标播单更为准确，可以很好地匹配播单形式的推荐，从而提高了用户体验。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据公开的附图获得其他的附图。

图1为本发明实施例公开的一种播单推荐方法流程图；

图2为本发明实施例公开的一种根据历史交互数据和内容属性信息对播单数据库进行筛选得到目标播单的方法流程图；

图3为本发明实施例公开的另一种根据历史交互数据和内容属性信息对播单数据库进行筛选得到目标播单的方法流程图；

图4为本发明实施例公开的另一种根据历史交互数据和内容属性信息对播单数据库进行筛选得到目标播单的方法流程图；

图5为本发明实施例公开的一种基于样本数据建立点击率预估模型的方法流程图；

图6为本发明实施例公开的一种播单推荐系统的结构示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

参见图1，本发明一实施例公开的一种播单推荐方法流程图，该方法包括步骤：

步骤S101、根据历史交互数据和内容属性信息对播单数据库进行筛选得到目标播单；

其中，历史交互数据指的是用户在客户端中通过交互产生的历史数据。

内容属性信息指的是播单中封装的内容的属性信息，比如，目标播单为视频播单，则内容属性信息指的是视频属性信息，包括：视频ID，视频标签等等；目标播单为文本播单，则内容属性信息指的是文本属性信息，包括：文本ID、文本标签等等；目标播单为图形播单，则内容属性信息指的是图形属性信息，包括：图形ID、图形标签等等。

步骤S102、推送所述目标播单。

当从播单数据库中筛选出目标播单后，就可以将该目标播单推送给用户，以供用户从目标播单中选取所需内容。

综上可知，本发明公开的播单推荐方法，根据历史交互数据和内容属性信息对播单数据库进行筛选，得到用于推送的目标播单，相对于传统方案只适合推动因素较为单一的内容，本发明在确定目标播单时，同时结合了历史交互数据和内容属性信息两方面内容，因此使得推荐的目标播单更为准确，可以很好地匹配播单形式的推荐，从而提高了用户体验。

需要说明的是，根据历史交互数据和内容属性信息对播单数据库进行筛选得到目标播单的过程有多种实现方式。

因此，为进一步优化上述实施例，参见图2，本发明一实施例公开的一种根据历史交互数据和内容属性信息对播单数据库进行筛选得到目标播单的方法流程图，该方法包括步骤：

步骤S201、根据用户标签和用户标签置信度构建用户特征向量；

其中，用户标签是根据用户在客户端中通过交互产生的历史数据来进行评判，并从标签全集中将符合评判结果的标签赋予给用户而形成的一种专属于该用户的标签组合。

用户标签置信度表示：一个标签对于用户的表示程度，比如，用户喜欢浏览明星类内容，则此类标签对应的用户标签置信度会相应提高，例如：为0.56。若用户没有被赋予某一个标签，则对应的用户标签置信度为0。

需要说明的是，在实际应用中，可以根据历史交互数据，从标签全集中赋予用户新的标签，并对已经赋予的标签及其对应的用户标签置信度进行实时更新。

具体的，根据公式(1)构建用户特征向量，公式(1)如下：

user_i＝(tag₁:b₁，tag₂:b₂，…，tag_n:b_n) (1)；

式中，user_i表示第i个用户，tag₁～tag_n表示标签全集，tag₁表示标签1，tag₂表示标签2，tag_n表示标签n，b₁表示标签1对应的用户标签置信度，b₂表示标签2对应的用户标签置信度，b_n表示标签n对应的用户标签置信度，n表示标签全集的数量。

基于公式(1)可知，user_i的分量由标签和用户标签置信度组成。

步骤S202、根据播单标签和播单标签置信度构建播单特征向量；

其中，播单标签是后台管理人员预先根据播单中所包含的内容的属性信息，并从标签全集中将符合属性信息的标签赋予给播单而形成的一种专属于该播单的标签组合。通过统计学方式获取播单标签置信度。在实际应用中，可以根据播单内容的增减变化，实时更新播单标签和播单标签置信度。

具体的，根据公式(2)构建播单特征向量，公式(2)如下：

play_j＝(tag₁:a₁,tag₂:a₂,…,tag_n:a_n) (2)；

式中，play_j表示第j个播单，tag₁～tag_n表示标签全集，tag₁表示标签1，tag₂表示标签2，tag_n表示标签n，a₁表示标签1对应的播单标签置信度，a₂表示标签2对应的播单标签置信度，a_n表示标签n对应的播单标签置信度，a_i＝tag_i出现次数/播单中的内容数量，n表示标签全集的数量。

步骤S203、采用余弦公式计算所述用户特征向量和所述播单特征向量的相似度；

具体的，根据公式(3)计算所述用户特征向量和所述播单特征向量的相似度sim(user_i,play_j)，公式(3)如下：

式中，u(tag_i)表示用户user_i对标签tag_i的置信度，p(tag_i)表示播单play_j对标签tag_i的置信度，n表示标签全集的数量。

步骤S204、基于相似度数值和第一预设筛选规则选取所述目标播单。

其中，第一预设筛选规则可以为选取第一预设数量的相似度数值大的播单作为目标播单。

具体的，可以按照相似度值从大到小的顺序，对各个播单进行排序，然后选取第一预设数量的排名靠前的播单作为目标播单。

或者，选取相似度值大于预设数值的播单作为目标播单。

其中，目标播单中的每一个播单的相似度数值均大于任意一个未被选取的播单的相似度数值。

综上可知，本发明在根据历史交互数据和内容属性信息对播单数据库进行筛选得到目标播单时，根据用户标签和用户标签置信度构建用户特征向量，根据播单标签和播单标签置信度构建播单特征向量，并采用余弦公式计算用户特征向量和播单特征向量的相似度，并选取相似度高的播单作为目标播单。由于本发明在选取目标播单时，综合了用户标签、用户标签置信度以及播单标签置信度，因此使得推荐的目标播单更为准确，可以很好地匹配播单形式的推荐，从而提高了用户体验。

为进一步优化上述实施例，参见图3，本发明另一实施例公开的一种根据历史交互数据和内容属性信息对播单数据库进行筛选得到目标播单的方法流程图，该方法包括步骤：

步骤S301、获取预设时间段内的历史交互数据，构建历史交互数据向量；

具体的，根据公式(4)构建历史交互数据向量，公式(4)如下：

user_i＝(m_i1,m_i2,…,m_ik) (4)；

式中，user_i表示第i个用户，m_ik表示用户i看过的第k个内容；

步骤S302、基于所述播单中各个内容属性，构建播单向量；

其中，播单中的各个内容属性，比如视频、文本等。

具体的，根据公式(5)构建播单向量，公式(5)如下：

play_j＝(m₁,m₂,…,m_t) (5)；

式中，play_j表示第j个播单，m_jt表示播单j中第t个内容。

步骤S303、基于所述历史交互数据向量和所述播单向量，计算有过历史交互数据的内容在每个播单中的占比；

具体的，根据公式(6)计算有过历史交互数据的内容在每个播单中的占比，公式(6)如下：

式中，per_ij表示用户user_i有过历史交互数据的内容在播单play_j中的占比。

步骤S304、选取占比大于或等于占比阈值的播单，得到所述目标播单。

在实际应用中，占比阈值可以认为设定，或是将全量per_ij的平均值作为占比阈值。

综上可知，本发明在根据历史交互数据和内容属性信息对播单数据库进行筛选得到目标播单时，获取预设时间段内的历史交互数据，构建历史交互数据向量，基于所述播单中各个内容属性，构建播单向量，基于所述历史交互数据向量和所述播单向量，计算有过历史交互数据的内容在每个播单中的占比，并选取占比大于或等于占比阈值的播单，得到所述目标播单。由于本发明选取目标播单时，综合了利用交互数据以及播单中的各个内容属性，因此使得推荐的目标播单更为准确，可以很好地匹配播单形式的推荐，从而提高了用户体验。

为进一步优化上述实施例，参见图4，本发明另一实施例公开的一种根据历史交互数据和内容属性信息对播单数据库进行筛选得到目标播单的方法流程图，该方法包括步骤：

步骤S401、根据历史交互数据和内容属性信息对播单数据库进行筛选得到播单候选集；

步骤S402、从预设数据库中，查找所述播单候选集中每个所述播单的特征数据；

所述特征数据包括：离散特征和连续特征，离散特征和连续特征均分别由用户特征和播单特征组成。

离散特征中的用户特征包括：用户ID和用户历史交互数据，比如用户所观看的视频ID；离散特征中的播单特征包括：播单ID和播单内容ID。

连续特征中的用户特征包括：标签置信度，标签置信度表示对用户的表示程度，比如，用户的喜欢明星标签，用户的视频观看标签。连续特征中的播单特征包括：播单标签出现次数。

在预设数据库中存储有各个播单以及各个播单的特征数据，因此，通过将播单候选集中每个播单与预设数据库中的各个播单进行匹配，即可确定播单候选集中每个播单的特征数据。

步骤S403、将每个所述播单的特征数据作为点击率预估模型的输入，得到每个所述播单的点击率预估值；

其中，所述点击率预估模型为，以对播单的特征数据作为训练样本，以所述特征数据对应的点击率预估值作为样本标签进行训练得到。

具体的，点击率预估模型的建立过程如下：

(一)确定点击率预估模型的样本数据集；

需要说明的是，点击率(click-through rate，CTR)预估模型基于深度学习wide&deep类型，本申请选用deepFM模型进行点击率预估模型的确定。

首先，为deepFM模型构建特征数据，具体特征数据如表1所示，表1如下：

表1

从表1中可以看出，为deepFM模型构建的特征数据也即播单的特征数据。

其次，构建播单样本集，播单样本集中的每个样本包括表1中所示的内容，包括离散特征和连续特征，具体为：用户ID、用户历史交互数据、播单ID、播单内容ID、标签置信度和播单标签出现次数。需要说明的是，同一个用户ID可以对应多个不同的播单ID。

最后，确定播单样本集中每个样本对应的目标值，该目标值为：播单的点击率。

需要说明的是，没有播单的点击记录，则用户观看的视频在播单中的占比超过阈值，则假定播单被用户点击过。

(二)基于样本数据集建立点击率预估模型；

参见图5，本发明一实施例公开的一种基于样本数据建立点击率预估模型的方法流程图，该方法包括步骤：

步骤S501、从样本数据集中选取热度用户样本和所述热度用户样本对应的目标值，非热度用户样本和所述非热度用户样本对应的目标值，构成模型训练集，所述模型训练集中的所述热度用户样本和所述非热度用户样本数量相同；

其中，样本数据集包括：播单样本集和播单样本集中每个样本对应的目标值。

本实施例中所述的热度用户样本指的是：在预设时间段内，热度用户样本中的用户ID有历史交互数据，比如，用户ID在七天内有过视频观看行为。

非热度用户样本指的是：在预设时间段内，非热度用户样本中的用户ID没有历史交互数据，比如，用户ID在七天内没有过视频观看行为。

需要说明的是，从样本数据集中选取的热度用户样本和非热度用户样本为随机选取的。

步骤S502、将所述模型训练集中各个样本的离散特征用one-hot表示，得到目标模型训练集；

one-hot是一种有效编码，这种编码主要用于深度学习的特征处理阶段，用来构造特征向量以作为模型的输入。

步骤S503、将所述目标模型训练集带入初始点击率预估模型，得到所述点击率预估模型的模型参数；

步骤S504、基于所述模型参数建立点击率预估模型。

需要说明的是，为保证所建立的点击率预估模型的准确性，在建立点击率预估模型后，还可以采用模型测试集对点击率预估模型的性能进行评估，评估过程具体如下：

在从样本数据集中选取模型训练集时，还可以从样本数据集中选取模型测试集，该过程具体为：

从样本数据集中选取等数量的热度用户样本和非热度用户样本，以及热度用户样本对应的目标值和非热度用户样本对应的目标值。

用选取的70％热度用户样本及其对应的目标值，和选取的70％非热度用户样本及其对应的目标值，构成模型训练集。

用选取的剩余的30％热度用户样本及其对应的目标值，和选取的剩余的30％非热度用户样本及其对应的目标值，构成模型测试集。

将模型测试集中的每个播单样本输入至建立的点击率预估模型，得到对应的预估目标值；

通过将模型测试集中的每个播单样本的目标值和预估目标值进行比较，对点击率预估模型的准确性进行校验。

步骤S404、基于第二预设筛选规则，从所述播单候选集中选取所述目标播单。

其中，第二预设筛选规则可以为选取第二预设数量的点击率预估值大的播单作为目标播单。

在实际应用中，可以将播单候选集中的播单，按照点击率预估值由大到小的顺序进行排序，将排名靠前的，比如top50的播单选为目标播单。

或者，选取点击率预估值大于预设数值的播单作为目标播单。

综上可知，本发明根据历史交互数据和内容属性信息对播单数据库进行了初步筛选，得到播单候选集，然后将播单候选集中的每个播单的特征数据作为点击率预估模型的输入，得到每个播单的点击率预估值，选取满足第二预设筛选规则的播单作为目标播单。由于本发明在确定目标播单时，综合考虑了播单的用户特征和播单特征的多方面因素，用户特征包括：离散特征中的用户ID和用户历史交互数据，以及连续特征中的标签置信度；播单特征包括：离散特征中的播单ID和播单内容ID，以及连续特征中的播单标签出现次数，因此使得推荐的目标播单更为准确，可以很好地匹配播单形式的推荐，从而提高了用户体验。

与上述方法实施例相对应，本发明还公开了一种单播推荐系统。

参见图6，本发明一实施例公开的一种播单推荐系统的结构示意图，该系统包括：

筛选单元601，用于根据历史交互数据和内容属性信息对播单数据库进行筛选得到目标播单；

推送单元602，用于推送所述目标播单。

综上可知，本发明公开的播单推荐系统，根据历史交互数据和内容属性信息对播单数据库进行筛选，得到用于推送的目标播单，相对于传统方案只适合推动因素较为单一的内容，本发明在确定目标播单时，同时结合了历史交互数据和内容属性信息两方面内容，因此使得推荐的目标播单更为准确，可以很好地匹配播单形式的推荐，从而提高了用户体验。

因此，为进一步优化上述实施例，筛选单元601具体可以包括：第一构建子单元、第二构建子单元、第一计算子单元和第一筛选子单元。

其中：

用户标签置信度表示：一个标签对用户的表示程度，比如，用户喜欢浏览明星类内容，则此类标签对应的用户标签置信度会相应提高，例如：为0.56。若用户没有被赋予某一个标签，则对应的用户标签置信度为0。

或者，选取相似度值大于预设数值的播单作为目标播单。

其中，目标播单中的每个播单的相似度数值大于任意一个未被选取的播单的相似度数值。

为进一步优化上述实施例，筛选单元601具体还可以包括：第三构建子单元、第四构建子单元、第二计算子单元和第一选取子单元。

其中：

为进一步优化上述实施例，筛选单元601具体还可以包括：第二筛选子单元、查找子单元、点击率预估值获取子单元和第二选取子单元。

其中：

上述实施例中，筛选单元601还包括：点击率预估模型建立子单元，所述点击率预估模型建立子单元用于：

基于所述模型参数建立点击率预估模型。

需要特别说明的是，系统实施例中各组成部分的具体工作原理，请参见方法实施例对应部分，此处不再赘述。

最后，还需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

本说明书中各个实施例采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似部分互相参见即可。

对所公开的实施例的上述说明，使本领域专业技术人员能够实现或使用本发明。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的，本文中所定义的一般原理可以在不脱离本发明的精神或范围的情况下，在其它实施例中实现。因此，本发明将不会被限制于本文所示的这些实施例，而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

Claims

1.一种播单推荐方法，其特征在于，包括：

推送所述目标播单；

其中，所述根据历史交互数据和内容属性信息对播单数据库进行筛选得到目标播单具体包括：

从预设数据库中，查找所述播单候选集中每个所述播单的特征数据，所述特征数据包括：用户特征和播单特征；

2.根据权利要求1所述的播单推荐方法，其特征在于，所述用户特征包括：用户ID、用户历史交互数据和标签置信度，所述播单特征包括：播单ID、播单内容ID和播单标签出现次数。

3.根据权利要求2所述的播单推荐方法，其特征在于，所述点击率预估模型的建立过程包括：

基于所述模型参数建立点击率预估模型。

4.一种播单推荐系统，其特征在于，包括：

推送单元，用于推送所述目标播单；

其中，所述筛选单元具体包括：

查找子单元，用于从预设数据库中，查找所述播单候选集中每个所述播单的特征数据，所述特征数据包括：用户特征和播单特征；

5.根据权利要求4所述的播单推荐系统，其特征在于，所述用户特征包括：用户ID、用户历史交互数据和标签置信度，所述播单特征包括：播单ID、播单内容ID和播单标签出现次数。

6.根据权利要求5所述的播单推荐系统，其特征在于，所述筛选单元还包括：点击率预估模型建立子单元，所述点击率预估模型建立子单元用于：

基于所述模型参数建立点击率预估模型。