CN115687690A

CN115687690A - 一种视频推荐方法、装置、电子设备及存储介质

Info

Publication number: CN115687690A
Application number: CN202211228480.8A
Authority: CN
Inventors: 朱贤武; 江三锋
Original assignee: Beijing QIYI Century Science and Technology Co Ltd
Current assignee: Beijing QIYI Century Science and Technology Co Ltd
Priority date: 2022-10-09
Filing date: 2022-10-09
Publication date: 2023-02-03

Abstract

本发明实施例提供了一种视频推荐方法、装置、电子设备及存储介质，涉及网络数据处理技术领域，通过获取目标用户的属性特征、正向行为特征和负向行为特征；将目标用户的属性特征、正向行为特征和负向行为特征输入预先训练好的召回模型中的主网络；将目标用户的负向行为特征输入预先训练好的召回模型中的偏置网络；对得到的主网络对应的输出向量和得到的偏置网络对应的偏置向量进行融合，得到目标用户的兴趣表示向量；计算兴趣表示向量和多个待推荐视频的表示向量的相似度，并选取相似度最高的N个视频向目标用户进行推荐，以避免推荐目标用户不感兴趣的视频内容，提升视频推荐的精度。

Description

一种视频推荐方法、装置、电子设备及存储介质

技术领域

本发明涉及网络数据处理技术领域，特别是涉及一种视频推荐方法、装置、电子设备及存储介质。

背景技术

目前，随着互联网的快速发展，通过各种视频平台观看视频休闲放松，也成为了很多人的休闲方式。而很多视频平台为了提高用户体验，往往向用户推荐一些用户可能感兴趣的视频，不但可以方便用户进行观看，还可以提高用户的体验。

然而，当前的视频网站在向用户进行视频的推荐时，往往是根据用户的观看记录进行推荐，利用用户观看了某一类型的视频，则向用户推荐该类型的视频。然而，在用户的观看记录中往往会包括一些用户并不感兴趣的视频，从而导致在根据历史浏览记录进行推荐时，推荐精度低的问题。

发明内容

本发明实施例的目的在于提供一种视频推荐方法、装置、电子设备及存储介质，以避免推荐目标用户不感兴趣的视频内容，提升视频推荐的精度。具体技术方案如下：

根据本发明实施例的第一方面，提供一种视频推荐方法，所述方法包括：

获取目标用户的属性特征、正向行为特征和负向行为特征；

将所述目标用户的属性特征、正向行为特征和负向行为特征输入预先训练好的召回模型中的主网络，得到所述主网络对应的输出向量；将所述目标用户的负向行为特征输入预先训练好的召回模型中的偏置网络，得到所述偏置网络对应的偏置向量；

对所述主网络对应的输出向量和所述偏置网络对应的偏置向量进行融合，得到所述目标用户的兴趣表示向量；

计算所述兴趣表示向量和多个待推荐视频的表示向量的相似度，并选取相似度最高的N个视频向所述目标用户进行推荐。

可选的，所述正向行为特征包括多个正向视频的特征信息，所述正向视频是所述目标用户的观看时长大于第一预设时长的视频；所述负向行为特征包括多个负向视频的特征信息，所述负向视频是所述目标用户的观看时长小于第二预设时长的视频；

所述将所述目标用户的属性特征、正向行为特征和负向行为特征输入预先训练好的召回模型中的主网络，得到所述主网络对应的输出向量，包括：

将所述目标用户的属性特征、正向行为特征和负向行为特征输入预先训练好的召回模型中的主网络；

对所述属性特征、所述正向视频的特征信息和所述负向视频的特征信息进行向量化，得到属性特征向量、正向行为特征向量、负向行为特征向量；

根据所述属性特征向量和所述正向行为特征向量，预测所述正向行为特征对应的各正向视频的权重，并通过各正向视频的权重对各所述正向视频的表示向量进行加权融合，得到正向行为特征的向量表示；

根据所述属性特征向量和所述负向行为特征向量，预测所述负向行为特征对应的各负向视频的权重，并通过各负向视频的权重对各所述负向视频的表示向量进行加权融合，得到负向行为特征的向量表示；

对所述正向行为特征的向量表示和所述负向行为特征的向量表示进行融合，得到所述主网络对应的输出向量。

可选的，所述将所述目标用户的负向行为特征输入预先训练好的召回模型中的偏置网络，得到所述偏置网络对应的偏置向量，包括：

将所述目标用户的负向行为特征输入预先训练好的召回模型中的偏置网络；

通过所述偏置网络对所述负向行为特征进行向量化，得到负向行为特征向量；

对所述负向行为特征向量和所述主网络对应的输出向量进行拼接；

将拼接后的向量经过所述偏置网络的全连接层，输出得到所述偏置网络对应的偏置向量。

可选的，所述计算所述兴趣表示向量和多个待推荐视频的表示向量的相似度，并选取相似度最高的N个视频向所述目标用户进行推荐，包括：

计算所述兴趣表示向量和所述多个待推荐视频的表示向量的相似度；

按照计算得到的相似度从大到小的顺序对所述多个待推荐视频进行排序，得到排序后的视频序列；

选取所述视频序列中前N个视频向所述目标用户进行推荐。

根据本发明实施例的第二方面，提供一种召回模型训练方法，所述方法包括：

获取正样本视频和负样本视频，其中，所述正样本视频为多个目标用户的观看时长大于第一预设时长的视频，所述负样本视频为多个所述目标用户的观看时长小于第二预设时长的视频；

将所述正样本视频和负样本视频输入待训练召回模型，分别得到正样本视频表示向量和负样本视频表示向量；

获取并将所述目标用户的属性特征、正向行为特征和负向行为特征输入待训练召回模型，得到所述目标用户的预测兴趣表示向量；

计算所述预测兴趣表示向量与所述正样本视频表示向量之间的第一差值，和所述预测兴趣表示向量与所述负样本视频表示向量的第二差值；

根据所述第一差值和所述第二差值对所述待训练召回模型的参数进行调整，并返回所述将所述正样本视频和负样本视频输入待训练召回模型，分别得到正样本视频表示向量和负样本视频表示向量的步骤继续训练，直至满足预设要求得到训练好的召回模型。

根据本发明实施例的第三方面，提供一种视频推荐装置，所述装置包括：

特征获取模块，用于获取目标用户的属性特征、正向行为特征和负向行为特征；

网络输出模块，用于将所述目标用户的属性特征、正向行为特征和负向行为特征输入预先训练好的召回模型中的主网络，得到所述主网络对应的输出向量；将所述目标用户的负向行为特征输入预先训练好的召回模型中的偏置网络，得到所述偏置网络对应的偏置向量；

向量融合模块，用于对所述主网络对应的输出向量和所述偏置网络对应的偏置向量进行融合，得到所述目标用户的兴趣表示向量；

视频推荐模块，用于计算所述兴趣表示向量和多个待推荐视频的表示向量的相似度，并选取相似度最高的N个视频向所述目标用户进行推荐。

所述网络输出模块，包括：

特征输入子模块，用于将所述目标用户的属性特征、正向行为特征和负向行为特征输入预先训练好的召回模型中的主网络；

特征向量生成子模块，用于对所述属性特征、所述正向视频的特征信息和所述负向视频的特征信息进行向量化，得到属性特征向量、正向行为特征向量、负向行为特征向量；

正向行为特征的向量表示生成子模块，用于根据所述属性特征向量和所述正向行为特征向量，预测所述正向行为特征对应的各正向视频的权重，并通过各正向视频的权重对各所述正向视频的表示向量进行加权融合，得到正向行为特征的向量表示；

负向行为特征的向量表示生成子模块，用于根据所述属性特征向量和所述负向行为特征向量，预测所述负向行为特征对应的各负向视频的权重，并通过各负向视频的权重对各所述负向视频的表示向量进行加权融合，得到负向行为特征的向量表示；

主网络输出向量生成子模块，用于对所述正向行为特征的向量表示和所述负向行为特征的向量表示进行融合，得到所述主网络对应的输出向量。

可选的，所述网络输出模块，包括：

负向行为特征输入子模块，用于将所述目标用户的负向行为特征输入预先训练好的召回模型中的偏置网络；

负向行为特征向量化子模块，用于通过所述偏置网络对所述负向行为特征进行向量化，得到负向行为特征向量；

向量拼接子模块，用于对所述负向行为特征向量和所述主网络对应的输出向量进行拼接；

偏置向量生成子模块，用于将拼接后的向量经过所述偏置网络的全连接层，输出得到所述偏置网络对应的偏置向量。

可选的，所述视频推荐模块，包括：

相似度计算子模块，用于计算所述兴趣表示向量和所述多个待推荐视频的表示向量的相似度；

视频排序子模块，用于按照计算得到的相似度从大到小的顺序对所述多个待推荐视频进行排序，得到排序后的视频序列；

视频选取子模块，用于选取所述视频序列中前N个视频向所述目标用户进行推荐。

根据本发明实施例的第四方面，提供一种召回模型训练装置，所述装置包括：

样本视频获取模块，用于获取正样本视频和负样本视频，其中，所述正样本视频为多个目标用户的观看时长大于第一预设时长的视频，所述负样本视频为多个所述目标用户的观看时长小于第二预设时长的视频；

样本输入模块，用于将所述正样本视频和负样本视频输入待训练召回模型，分别得到正样本视频表示向量和负样本视频表示向量；

向量预测模块，用于获取并将所述目标用户的属性特征、正向行为特征和负向行为特征输入待训练召回模型，得到所述目标用户的预测兴趣表示向量；

差值计算模块，用于计算所述预测兴趣表示向量与所述正样本视频表示向量之间的第一差值，和所述预测兴趣表示向量与所述负样本视频表示向量的第二差值；

参数调整模块，用于根据所述第一差值和所述第二差值对所述待训练召回模型的参数进行调整，并返回所述将所述正样本视频和负样本视频输入待训练召回模型，分别得到正样本视频表示向量和负样本视频表示向量的步骤继续训练，直至满足预设要求得到训练好的召回模型。

根据本发明实施例的第五方面，提供一种电子设备，包括处理器、通信接口、存储器和通信总线，其中，处理器，通信接口，存储器通过通信总线完成相互间的通信；

存储器，用于存放计算机程序；

处理器，用于执行存储器上所存放的程序时，实现所述视频推荐方法任一所述的方法步骤。

根据本发明实施例的第六方面，提供一种电子设备，包括处理器、通信接口、存储器和通信总线，其中，处理器，通信接口，存储器通过通信总线完成相互间的通信；

存储器，用于存放计算机程序；

处理器，用于执行存储器上所存放的程序时，实现所述召回模型训练方法任一所述的方法步骤。

根据本发明实施例的第七方面，提供一种计算机可读存储介质，所述计算机可读存储介质内存储有计算机程序，所述计算机程序被处理器执行时实现所述视频推荐方法任一所述的方法步骤。

根据本发明实施例的第八方面，提供一种计算机可读存储介质，所述计算机可读存储介质内存储有计算机程序，所述计算机程序被处理器执行时实现所述召回模型训练方法任一所述的方法步骤。

本发明实施例有益效果：

本发明实施例提供的一种视频推荐方法、装置、电子设备及存储介质，通过获取目标用户的属性特征、正向行为特征和负向行为特征；将所述目标用户的属性特征、正向行为特征和负向行为特征输入预先训练好的召回模型中的主网络，得到所述主网络对应的输出向量；将所述目标用户的负向行为特征输入预先训练好的召回模型中的偏置网络，得到所述偏置网络对应的偏置向量；对所述主网络对应的输出向量和所述偏置网络对应的偏置向量进行融合，得到所述目标用户的兴趣表示向量；计算所述兴趣表示向量和多个待推荐视频的表示向量的相似度，并选取相似度最高的N个视频向所述目标用户进行推荐。由于目标用户的兴趣表示向量是根据正向行为特征和负向行为特征得到，所以通过目标用户的兴趣表示向量进行视频推荐时，不仅可以根据学习到的用户的正向行为特征向用户进行感兴趣的视频的推荐，而且可以根据学习到的负向行为特征避免推荐目标用户不感兴趣的视频内容，从而提升视频推荐的精度。

当然，实施本发明的任一产品或方法并不一定需要同时达到以上所述的所有优点。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，还可以根据这些附图获得其他的实施例。

图1是本发明实施例提供的视频推荐方法的第一种流程图；

图2是本发明实施例提供的视频推荐方法的第二种流程图；

图3是本发明实施例提供的视频推荐方法的第三种流程图；

图4是本发明实施例提供的召回模型训练方法的一种流程图；

图5是本发明实施例提供的召回模型生成兴趣表示向量的过程示意图；

图6是本发明实施例提供的视频平台的后台操作过程示意图；

图7是本发明实施例提供的视频推荐装置的结构示意图；

图8是本发明实施例提供的召回模型训练装置的结构示意图；

图9是本发明实施例提供的一种电子设备的结构示意图；

图10是本发明实施例提供的另一种电子设备的结构示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员基于本发明所获得的所有其他实施例，都属于本发明保护的范围。

本发明实施例提供的一种视频推荐方法，包括：获取目标用户的属性特征、正向行为特征和负向行为特征；将目标用户的属性特征、正向行为特征和负向行为特征输入预先训练好的召回模型中的主网络，得到主网络对应的输出向量；将目标用户的负向行为特征输入预先训练好的召回模型中的偏置网络，得到偏置网络对应的偏置向量；对主网络对应的输出向量和偏置网络对应的偏置向量进行融合，得到目标用户的兴趣表示向量；计算兴趣表示向量和多个待推荐视频的表示向量的相似度，并选取相似度最高的N个视频向目标用户进行推荐。由于目标用户的兴趣表示向量是根据正向行为特征和负向行为特征得到，所以通过目标用户的兴趣表示向量进行视频推荐时，不仅可以根据学习到的用户的正向行为特征向用户进行感兴趣的视频的推荐，而且可以根据学习到的负向行为特征避免推荐目标用户不感兴趣的视频内容，从而提升视频推荐的精度。

下面进行详细说明：

本发明实施例提供的视频推荐方法可以通过电子设备实现，例如，该电子设备可以为电脑、服务器等。

参见图1，上述视频推荐方法包括：

S110，获取目标用户的属性特征、正向行为特征和负向行为特征。

目标用户的属性特征可以包括：目标用户基本信息和偏好信息，基本信息可以包含目标用户的年龄、性别、职业、城市、常用的应用软件等，偏好信息可以包含目标用户的偏好的视频类型、偏好的视频标签信息等，一个例子中，用户喜欢观看热血类视频，则该用户的视频类型为热血类，另一个例子中，用户喜欢观看的视频标签为美食，则该用户偏好的视频标签信息为美食。

具体的，正向行为特征为正向观影行为对应的特征，具体的，可以是表示目标用户的喜好的行为特征，例如，表示目标用户长时间观看某一视频的行为，或对某一视频进行点赞的行为的特征。负向行为特征为负向观影行为对应的特征，具体的，可以是表示目标用户不喜欢的行为特征，例如，表示用户观看时长较短的行为的特征，或用户短时间观看某一视频并快速切换的行为的特征，或用户对某一视频打低分的行为的特征等。

S120，将目标用户的属性特征、正向行为特征和负向行为特征输入预先训练好的召回模型中的主网络，得到主网络对应的输出向量；将目标用户的负向行为特征输入预先训练好的召回模型中的偏置网络，得到偏置网络对应的偏置向量。

本发明实施例中，上述预先训练好的召回模型的结构可以分为主网络和偏置网络，其中，主网络可以是以长短兴趣网络为基础的网络，偏置网络可以是以全连接网络为基础的网络。并且，偏置网络可以通过一个全连接网络结构学习负向观影行为的偏置表示，具体的，偏置表示可以是用来表征负向观影行为的向量表示，在本发明实施例中偏置网络输出的偏置向量即为负向观影行为的偏置表示。本发明实施例中的预先训练好的召回模型的训练方法可以参照后续实施例，此处不再赘述。

S130，对主网络对应的输出向量和偏置网络对应的偏置向量进行融合，得到目标用户的兴趣表示向量。

上述对主网络对应的输出向量和偏置网络对应的偏置向量进行融合可以通过多种方法进行融合，一种可能的实施方式中，可以将主网络对应的输出向量与偏置网络对应的偏置向量通过做减法或者做加法的方式，将主网络对应的输出向量与偏置网络对应的偏置向量相减或相加进行融合，另一种可能的实施方式中，还可以将主网络对应的输出向量与偏置网络对应的偏置向量进行加权求和等方式进行融合，得到目标用户的兴趣表示向量。

S140，计算兴趣表示向量和多个待推荐视频的表示向量的相似度，并选取相似度最高的N个视频向目标用户进行推荐。

上述计算兴趣表示向量和多个待推荐视频的表示向量的相似度可以通过多种方法计算，例如，可以通过计算余弦相似度、曼哈顿相关系数、欧几里得距离等方法进行计算。一个例子中，可以通过计算兴趣表示向量和各待推荐视频的表示向量之间的夹角的余弦值，得到兴趣表示向量和各待推荐视频的表示向量的相似度，然后选取计算得到的各相似度中对应相似度的数值最大的N个视频向目标用户进行推荐。具体的，可以在计算得到兴趣表示向量和各待推荐视频的表示向量的相似度之后，对计算得到的相似度按照数据的大小进行排序，然后根据排序选取最靠前的N个相似度，从而在根据该N个相似度选取对应的视频向目标用户进行推荐。

一种可能的实施方式中，步骤S140计算兴趣表示向量和多个待推荐视频的表示向量的相似度，并选取相似度最高的N个视频向目标用户进行推荐，包括：计算兴趣表示向量和多个待推荐视频的表示向量的相似度；按照计算得到的相似度从大到小的顺序对多个待推荐视频进行排序，得到排序后的视频序列；选取视频序列中前N个视频向目标用户进行推荐。在实际使用过程中上述待推荐视频的数量根据实际需求设定，可以从视频数据库中随机选取多个视频作为待推荐视频，也可以从正向行为特征对应的正向视频中随机选取多个。从排序后的视频序列中选取前N个视频向目标用户进行推荐，为目标用户推荐相似度得分高的视频。推荐的视频数量根据需求设定。通过分别计算兴趣表示向量和多个待推荐视频的相似度，选取出相似度最高的N个视频，向目标用户进行推荐，精准推荐目标用户感兴趣的视频，达到千人千面的推荐效果。

本发明实施例提供的视频推荐方法，由于目标用户的兴趣表示向量是根据正向行为特征和负向行为特征得到，所以通过目标用户的兴趣表示向量进行视频推荐时，不仅可以根据学习到的用户的正向行为特征向用户进行感兴趣的视频的推荐，而且可以根据学习到的负向行为特征避免推荐目标用户不感兴趣的视频内容，从而提升视频推荐的精度。

在一种可能的实施方式中，上述正向行为特征还可以包括多个正向观影行为对应的多个正向视频的特征信息，正向视频可以是目标用户的观看时长大于第一预设时长的视频；上述负向行为特征还可以包括多个负向观影行为对应的多个负向视频的特征信息，负向视频可以是目标用户的观看时长小于第二预设时长的视频。一个例子中，正向视频为观看时长大于30s的视频，负向视频为观看时长小于5s的视频，具体的，在实际使用过程中，上述第一预设时长和第二预设时长可以根据实际需求设定。

上述视频的特征信息可以包括该视频的视频标识和该视频的视频属性，一个例子中，某一视频的视频标识可以为该视频的视频序列号，该视频的视频属性可以为该视频的类型、标签等，例如，某视频的视频标识为该视频的视频id(Identity document，身份标识号码)，视频的视频属性为生活类视频、有搞笑标签的视频等。

一种可能的实施方式中，参见图2，步骤S120中将目标用户的属性特征、正向行为特征和负向行为特征输入预先训练好的召回模型中的主网络，得到主网络对应的输出向量，可以包括：

S121，将目标用户的属性特征、正向行为特征和负向行为特征输入预先训练好的召回模型中的主网络；

S122，对属性特征、正向视频的特征信息和负向视频的特征信息进行向量化，得到属性特征向量、正向行为特征向量、负向行为特征向量；

S123，根据属性特征向量和正向行为特征向量，预测正向行为特征对应的各正向视频的权重，并通过各正向视频的权重对各正向视频的表示向量进行加权融合，得到正向行为特征的向量表示；

S124，根据属性特征向量和负向行为特征向量，预测负向行为特征对应的各负向视频的权重，并通过各负向视频的权重对各负向视频的表示向量进行加权融合，得到负向行为特征的向量表示；

S125，对正向行为特征的向量表示和负向行为特征的向量表示进行融合，得到主网络对应的输出向量。

本发明实施例中，正向行为特征可以包括长期正向行为特征和短期正向行为特征，具体的，长期正向行为特征为长期正向观影行为对应的特征，具体的，可以是表示在第一时间区间目标用户的喜好的行为特征，短期正向行为特征为短期正向观影行为对应的特征，具体的，可以是表示在第二时间区间目标用户的喜好的行为特征，并且，第一时间区间的长度大于第二时间区间，且第二时间区间内的时间相比第一时间区间内的时间可以更靠近当前时间。具体的，长期正向行为特征可以为在第一时间区间观看时长大于第一预设时长的观影行为，一个例子中，第一时间区间的长度为10天，可以统计距离当前时间前11天到前1天，观看时长大于30s的观影行为；短期正向行为特征可以为在第二时间区间观看时长大于第一预设时长的观影行为，一个例子中，第一时间区间的长度为12小时，可以统计12小时内，观看时长大于30s的观影行为。

具体的，上述长期正向行为特征还可以包括多个长期正向观影行为对应的多个长期正向视频的特征信息，上述短期正向行为特征还可以包括多个短期正向观影行为对应的多个短期正向视频的特征信息。

其中，将目标用户的属性特征、正向行为特征和负向行为特征输入预先训练好的召回模型中的主网络，可以将目标用户的属性特征、长期正向行为特征、短期正向行为特征和负向行为特征输入预先训练好的召回模型中的主网络。

其中，对属性特征、正向视频的特征信息和负向视频的特征信息进行向量化，可以对属性特征、长期正向视频的特征信息、短期正向视频的特征信息和负向视频的特征信息进行向量化，得到属性特征向量、长期正向行为特征向量、短期正向行为特征向量和负向行为特征向量。

根据属性特征向量和正向行为特征向量，预测正向行为特征对应的各正向视频的权重，并通过各正向视频的权重对各正向视频的表示向量进行加权融合，可以根据属性特征向量和长期正向行为特征向量，预测长期正向行为特征对应的各正向视频的权重，并通过各正向视频的权重对各正向视频的表示向量进行加权融合，得到长期正向行为特征的向量表示，然后根据属性特征向量和短期正向行为特征向量，预测短期正向行为特征对应的各正向视频的权重，并通过各正向视频的权重对各正向视频的表示向量进行加权融合，得到短期正向行为特征的向量表示。具体的，本发明实施例中，基于正向行为特征向量，根据属性特征向量表征的目标用户的偏好，预测正向行为特征对应的各正向视频的权重，具体可以通过将属性特征向量和正向行为特征向量进行拼接，得到拼接后的向量，将拼接后的向量经过主网络中的正向深度兴趣网络计算得到正向行为特征对应的各正向视频的权重，深度兴趣网路根据属性特征向量表征的目标用户的偏好与正向行为特征向量对应的各个正向视频的特征信息进行计算，得到正向行为特征对应的各正向视频的权重，然后通过各正向视频的权重对各正向视频的表示向量进行加权融合，得到正向行为特征的向量表示。一个例子中，某用户为女性，喜欢观看带有护肤标签的视频，喜欢观看悬疑类型的视频，该用户的属性特征中包含护肤的标签信息和悬疑类型的偏好信息，根据该用户的属性特征中的偏好信息，与该用户正向行为特征向量对应的各个正向视频的特征信息进行计算，具体的，根据该用户的属性特征中的偏好信息和正向视频的特征信息中各个视频标识对应的视频属性进行权重的计算，得到正向行为特征对应的各正向视频的权重。

基于负向行为特征向量，根据属性特征向量表征的目标用户的偏好，预测负向行为特征对应的各负向视频的权重，可以通过将属性特征向量和负向行为特征向量进行拼接，得到拼接后的向量，将拼接后的向量经过主网络中的负向深度兴趣网络计算得到负向行为特征对应的各负向视频的权重。深度兴趣网路根据属性特征向量表征的目标用户的偏好与负向行为特征向量对应的各个负向视频的特征信息进行计算，得到负向行为特征对应的各负向视频的权重，然后通过各负向视频的权重对各负向视频的表示向量进行加权融合，得到负向行为特征的向量表示。

对正向行为特征的向量表示和负向行为特征的向量表示进行融合，可以对长期正向行为特征的向量表示、短期正向行为特征的向量表示和负向行为特征的向量表示进行融合，得到主网络对应的输出向量。

本发明实施例中，主网络对应的输出向量是根据属性特征、正向行为特征和负向行为特征得到，具体的，是根据属性特征、长期正向行为特征、短期正向行为特征和负向行为特征计算得到，从而实现主网络对应的输出向量不仅学习了长期正向行为、短期正向行为，还学习了负向行为，更能体现用户的真实兴趣，为后续避免对用户推荐不感兴趣的视频提供了基础。

在一种可能的实施方式中，参见图3，步骤S120中，将目标用户的负向行为特征输入预先训练好的召回模型中的偏置网络，得到偏置网络对应的偏置向量，可以包括：

S126，将目标用户的负向行为特征输入预先训练好的召回模型中的偏置网络；

S127，通过偏置网络对负向行为特征进行向量化，得到负向行为特征向量；

S128，对负向行为特征向量和主网络对应的输出向量进行拼接；

S129，将拼接后的向量经过偏置网络的全连接层，输出得到偏置网络对应的偏置向量。

本发明实施例中，通过偏置网络对负向行为特征进行向量化，可以对负向行为特征通过向量进行表示，得到负向行为特征向量。例如，可以根据不同负向行为特征与预设数字的对应关系，匹配当前负向行为特征对应的数字，然后根据该数字生成向量，得到负向行为特征向量。

其中，对负向行为特征向量和主网络对应的输出向量进行拼接，可以为对负向行为特征向量和主网络对应的输出向量进行组合，将两个向量按照预设顺序组合为一个向量实现拼接。

本发明实施例中，偏置网络可以包括两层全连接层，将拼接后的向量经过偏置网络的全连接层，输出得到负向观影行为的偏置表示，即偏置网络对应的偏置向量。

本发明实施例中，利用偏置网络学习目标用户的负向观影行为的偏置表示，使得召回模型输出兴趣表示向量更能体现出目标用户的真实兴趣，从而避免向目标用户推荐不感兴趣的视频内容，提升视频推荐的精度。

本发明实施例还提供一种召回模型训练方法，参见图4，如图4所示，上述方法包括：

S410，获取正样本视频和负样本视频，其中，正样本视频为多个目标用户的观看时长大于第一预设时长的视频，负样本视频为多个目标用户的观看时长小于第二预设时长的视频；

S420，将正样本视频和负样本视频输入待训练召回模型，分别得到正样本视频表示向量和负样本视频表示向量；

S430，获取并将目标用户的属性特征、正向行为特征和负向行为特征输入待训练召回模型，得到目标用户的预测兴趣表示向量；

S440，计算预测兴趣表示向量与正样本视频表示向量之间的第一差值，和预测兴趣表示向量与负样本视频表示向量的第二差值；

S450，根据第一差值和第二差值对待训练召回模型的参数进行调整，并返回将正样本视频和负样本视频输入待训练召回模型，分别得到正样本视频表示向量和负样本视频表示向量的步骤继续训练，直至满足预设要求得到训练好的召回模型。

一种可能的实施方式中，获取正样本视频和负样本视频，还可以根据视频的观看时长或者视频观看时长的占比选取正样本视频和负样本视频。例如，选取多个观看时长大于第一预设时长的视频或者多个视频观看时长大于视频总时长的7/10的视频作为正样本视频，选取多个观看时长小于第二预设时长的视频或者多个视频观看时长小于视频总时长的1/10的视频作为负样本视频。一个例子中，获取负样本视频，包括：按照第一预设采样概率，从视频数据库中随机采样多个视频，作为第一负样本视频，按照第二预设采样概率，从负向观影行为对应的视频中随机采样多个视频，作为第二负样本视频；将第一负样本视频和第二负样本视频的总和，作为负样本视频。

在实际使用过程中，上述第一预设采样概率、第二预设采样概率可以根据需求进行设定，一个例子中，从视频数据库中随机采样多个视频的第一预设采样概率是0.99，从负向观影行为对应的视频中随机采样多个视频的第二预设采样概率是0.01，两个概率加起来等于1。

通过利用正样本视频和负样本视频对待训练召回模型进行训练，调整召回模型的参数，直到满足预设要求，完成训练，得到训练好的召回模型，该训练好的召回模型可以上述步骤S120中的预先训练好的召回模型。

本发明实施例中，利用多个正样本视频、多个负样本视频对模型进行训练，其中，负样本既包括从视频数据库中随机采样得到的视频，又包括从负向观影行为对应的视频中随机采样得到的视频，不但可以丰富样本视频，从而提升召回模型的准确度，还可以优化用户的兴趣表示，使得兴趣表示更加符合用户的真实兴趣。

下面以一个具体的实施例，对召回模型生成兴趣表示向量的过程进行说明，参见图5，如图5所示，召回模型包括主网络和偏置网络；

1、对于召回模型的主网络，在接收到目标用户的属性特征、长期正向行为特征、短期正向行为特征和负向行为特征后，负向行为特征通过DIN网络(Deep Interest Network，深度兴趣网络)，根据属性特征，计算负向行为特征对应的各负向视频的权重，并根据各负向视频的权重对各负向视频的表示向量进行加权融合，得到负向行为特征的向量表示；

2、短期正向行为特征通过DIN网络，根据属性特征，计算短期正向行为特征对应的各正向视频的权重，并根据各正向视频的权重对各正向视频的表示向量进行加权融合，得到短期正向行为特征的向量表示；

3、长期正向行为特征通过DIN网络，根据属性特征，计算长期正向行为特征对应的各正向视频的权重，并根据各正向视频的权重对各正向视频的表示向量进行加权融合，得到长期正向行为特征的向量表示，作为长期行为特征的向量；

4、将短期正向行为特征的向量表示与负向行为特征的向量表示做减法，得到短期行为特征的向量；

5、将长期行为特征的向量与短期行为特征的向量进行拼接，将拼接后的向量通过门控Softmax网络，基于属性特征，计算得到长期正向行为特征的向量对应的视频的权重和短期行为特征的向量对应的视频的权重；

6、将长期行为特征的向量与短期行为特征的向量通过MHA网络(multi-headattention，多头注意力机制)，进行预先融合，得到变换后的长期行为特征的向量与变换后的短期行为特征的向量；

7、根据长期正向行为特征的向量对应的视频的权重和短期行为特征的向量对应的视频的权重，对变换后的长期行为特征的向量对应的视频的表示向量与变换后的短期行为特征的向量对应的视频的表示向量进行加权融合，得到主网络对应的输出向量；

8、将主网络对应的输出向量与负向行为特征的向量表示进行拼接，将拼接后的向量经过偏置网络的全连接层，得到偏置网络对应的偏置向量；

9、将主网络对应的输出向量与偏置网络对应的偏置向量做减法，得到目标用户的兴趣表示向量。

下面以一个具体的实施例，对视频平台的后台操作过程进行说明，参见图6，过程如下：

1、用户通过客户端，发送视频推荐请求；

2、引擎服务接收到视频推荐请求，进行特征回放；

3、获取视频数据库中视频的视频特征，根据视频特征选取正负样本视频；查找特征库中该用户的视频推荐信息；

4、基于正负样本视频及该用户的视频推荐信息对召回模型进行训练，优化召回模型，得到优化后的召回模型。

上述特征库中存储该视频平台的所有用户的视频推荐信息。在实际部署服务时，召回服务获取优化后的召回模型，从引擎服务召回得到该用户的视频推荐信息，将该用户的视频推荐信息输入至优化后的召回模型，得到该用户的兴趣表示向量，计算兴趣表示向量与多个待推荐视频的表示向量的相似度，选取第一数量个相似度高的视频发送至排序服务，排序服务对第一数量个相似度高的视频进行排序，返回第二数量个视频作为推荐视频，发送给客户端为该用户进行推荐。一个例子中，基于召回服务取出相似度高的200个视频，给到排序服务，排序服务最终取相似度得分最高的10个视频作为推送视频。

基于与上述视频推荐方法相同的发明构思，本发明实施例还提供一种视频推荐装置，参见图7，上述装置包括：

特征获取模块71，用于获取目标用户的属性特征、正向行为特征和负向行为特征；

网络输出模块72，用于将目标用户的属性特征、正向行为特征和负向行为特征输入预先训练好的召回模型中的主网络，得到主网络对应的输出向量；将目标用户的负向行为特征输入预先训练好的召回模型中的偏置网络，得到偏置网络对应的偏置向量；

向量融合模块73，用于对主网络对应的输出向量和偏置网络对应的偏置向量进行融合，得到目标用户的兴趣表示向量；

视频推荐模块74，用于计算兴趣表示向量和多个待推荐视频的表示向量的相似度，并选取相似度最高的N个视频向目标用户进行推荐。

在一种可能的实施方式中，正向行为特征包括多个正向视频的特征信息，正向视频是目标用户的观看时长大于第一预设时长的视频；负向行为特征包括多个负向视频的特征信息，负向视频是目标用户的观看时长小于第二预设时长的视频；

网络输出模块，包括：

特征输入子模块，用于将目标用户的属性特征、正向行为特征和负向行为特征输入预先训练好的召回模型中的主网络；

特征向量生成子模块，用于对属性特征、正向视频的特征信息和负向视频的特征信息进行向量化，得到属性特征向量、正向行为特征向量、负向行为特征向量；

正向行为特征的向量表示生成子模块，用于根据属性特征向量和正向行为特征向量，预测正向行为特征对应的各正向视频的权重，并通过各正向视频的权重对各正向视频的表示向量进行加权融合，得到正向行为特征的向量表示；

负向行为特征的向量表示生成子模块，用于根据属性特征向量和负向行为特征向量，预测负向行为特征对应的各负向视频的权重，并通过各负向视频的权重对各负向视频的表示向量进行加权融合，得到负向行为特征的向量表示；

主网络输出向量生成子模块，用于对正向行为特征的向量表示和负向行为特征的向量表示进行融合，得到主网络对应的输出向量。

在一种可能的实施方式中，网络输出模块，包括：

负向行为特征输入子模块，用于将目标用户的负向行为特征输入预先训练好的召回模型中的偏置网络；

负向行为特征向量化子模块，用于通过偏置网络对负向行为特征进行向量化，得到负向行为特征向量；

向量拼接子模块，用于对负向行为特征向量和主网络对应的输出向量进行拼接；

偏置向量生成子模块，用于将拼接后的向量经过偏置网络的全连接层，输出得到偏置网络对应的偏置向量。

在一种可能的实施方式中，视频推荐模块，包括：

相似度计算子模块，用于计算兴趣表示向量和多个待推荐视频的表示向量的相似度；

视频排序子模块，用于按照计算得到的相似度从大到小的顺序对多个待推荐视频进行排序，得到排序后的视频序列；

视频选取子模块，用于选取视频序列中前N个视频向目标用户进行推荐。

基于与上述召回模型训练方法相同的发明构思，本发明实施例还提供一种召回模型训练装置，参见图8，上述装置包括：

样本视频获取模块81，用于获取正样本视频和负样本视频，其中，正样本视频为多个目标用户的观看时长大于第一预设时长的视频，负样本视频为多个目标用户的观看时长小于第二预设时长的视频；

样本输入模块82，用于将正样本视频和负样本视频输入待训练召回模型，分别得到正样本视频表示向量和负样本视频表示向量；

向量预测模块83，用于获取并将目标用户的属性特征、正向行为特征和负向行为特征输入待训练召回模型，得到目标用户的预测兴趣表示向量；

差值计算模块84，用于计算预测兴趣表示向量与正样本视频表示向量之间的第一差值，和预测兴趣表示向量与负样本视频表示向量的第二差值；

参数调整模块85，用于根据第一差值和第二差值对待训练召回模型的参数进行调整，并返回将正样本视频和负样本视频输入待训练召回模型，分别得到正样本视频表示向量和负样本视频表示向量的步骤继续训练，直至满足预设要求得到训练好的召回模型。

关于上述实施例中的装置，其中各个模块执行操作的具体方式已经在有关该方法的实施例中进行了详细描述，此处将不做详细阐述说明。

通过本发明实施例提供的视频推荐装置，由于目标用户的兴趣表示向量是根据正向行为特征和负向行为特征得到，所以通过目标用户的兴趣表示向量进行视频推荐时，不仅可以根据学习到的用户的正向行为特征向用户进行感兴趣的视频的推荐，而且可以根据学习到的负向行为特征避免推荐目标用户不感兴趣的视频内容，从而提升视频推荐的精度。

本发明实施例还提供了一种电子设备，如图9所示，可以包括：处理器91、通信接口92、存储器93和通信总线94，其中，处理器91，通信接口92，存储器93通过通信总线94完成相互间的通信；

存储器93，可以用于存放计算机程序；

处理器91，可以用于执行存储器93上所存放的程序，实现上述任一视频推荐方法。

本发明实施例还提供了另一种电子设备，如图10所示，可以包括：处理器101、通信接口102、存储器103和通信总线104，其中，处理器101，通信接口102，存储器103通过通信总线104完成相互间的通信；

存储器103，可以用于存放计算机程序；

处理器101，可以用于执行存储器103上所存放的程序，实现上述任一召回模型训练方法。

上述电子设备提到的通信总线可以是外设部件互连标准(Peripheral ComponentInterconnect，PCI)总线或扩展工业标准结构(Extended Industry StandardArchitecture，EISA)总线等。该通信总线可以分为地址总线、数据总线、控制总线等。为便于表示，图中仅用一条粗线表示，但并不表示仅有一根总线或一种类型的总线。

通信接口用于上述电子设备与其他设备之间的通信。

存储器可以包括随机存取存储器(Random Access Memory，RAM)，也可以包括非易失性存储器(Non-Volatile Memory，NVM)，例如至少一个磁盘存储器。可选的，存储器还可以是至少一个位于远离前述处理器的存储装置。

上述的处理器可以是通用处理器，包括中央处理器(Central Processing Unit，CPU)、网络处理器(Network Processor，NP)等；还可以是数字信号处理器(Digital SignalProcessor，DSP)、专用集成电路(Application Specific Integrated Circuit，ASIC)、现场可编程门阵列(Field-Programmable Gate Array，FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。

在本发明提供的又一实施例中，还提供了一种计算机可读存储介质，该计算机可读存储介质内存储有计算机程序，所述计算机程序被处理器执行时实现上述任一视频推荐方法的步骤。

在本发明提供的又一实施例中，还提供了一种计算机可读存储介质，该计算机可读存储介质内存储有计算机程序，所述计算机程序被处理器执行时实现上述任一召回模型训练方法的步骤。

在本发明提供的又一实施例中，还提供了一种包含指令的计算机程序产品，当其在计算机上运行时，使得计算机执行上述实施例中任一视频推荐方法。

在本发明提供的又一实施例中，还提供了一种包含指令的计算机程序产品，当其在计算机上运行时，使得计算机执行上述实施例中任一召回模型训练方法。

在上述实施例中，可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。当使用软件实现时，可以全部或部分地以计算机程序产品的形式实现。所述计算机程序产品包括一个或多个计算机指令。在计算机上加载和执行所述计算机程序指令时，全部或部分地产生按照本发明实施例所述的流程或功能。所述计算机可以是通用计算机、专用计算机、计算机网络、或者其他可编程装置。所述计算机指令可以存储在计算机可读存储介质中，或者从一个计算机可读存储介质向另一个计算机可读存储介质传输，例如，所述计算机指令可以从一个网站站点、计算机、服务器或数据中心通过有线(例如同轴电缆、光纤、数字目标用户线(DSL))或无线(例如红外、无线、微波等)方式向另一个网站站点、计算机、服务器或数据中心进行传输。所述计算机可读存储介质可以是计算机能够存取的任何可用介质或者是包含一个或多个可用介质集成的服务器、数据中心等数据存储设备。所述可用介质可以是磁性介质，(例如，软盘、硬盘、磁带)、光介质(例如，DVD)、或者半导体介质(例如固态硬盘Solid State Disk(SSD))等。

需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

本说明书中的各个实施例均采用相关的方式描述，各个实施例之间相同相似的部分互相参见即可，每个实施例重点说明的都是与其他实施例的不同之处。尤其，对于装置、电子设备、存储介质的实施例而言，由于其基本相似于方法实施例，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。

以上所述仅为本发明的较佳实施例，并非用于限定本发明的保护范围。凡在本发明的精神和原则之内所作的任何修改、等同替换、改进等，均包含在本发明的保护范围内。

Claims

1.一种视频推荐方法，其特征在于，所述方法包括：

获取目标用户的属性特征、正向行为特征和负向行为特征；

2.根据权利要求1所述的方法，其特征在于，所述正向行为特征包括多个正向视频的特征信息，所述正向视频是所述目标用户的观看时长大于第一预设时长的视频；所述负向行为特征包括多个负向视频的特征信息，所述负向视频是所述目标用户的观看时长小于第二预设时长的视频；

3.根据权利要求1所述的方法，其特征在于，所述将所述目标用户的负向行为特征输入预先训练好的召回模型中的偏置网络，得到所述偏置网络对应的偏置向量，包括：

4.根据权利要求1所述的方法，其特征在于，所述计算所述兴趣表示向量和多个待推荐视频的表示向量的相似度，并选取相似度最高的N个视频向所述目标用户进行推荐，包括：

选取所述视频序列中前N个视频向所述目标用户进行推荐。

5.一种召回模型训练方法，其特征在于，所述方法包括：

6.一种视频推荐装置，其特征在于，所述装置包括：

7.根据权利要求6所述的装置，其特征在于，所述网络输出模块，包括：

8.一种召回模型训练装置，其特征在于，所述装置包括：

9.一种电子设备，其特征在于，包括处理器、通信接口、存储器和通信总线，其中，处理器，通信接口，存储器通过通信总线完成相互间的通信；

存储器，用于存放计算机程序；

处理器，用于执行存储器上所存放的程序时，实现权利要求1-4或5任一所述的方法步骤。

10.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质内存储有计算机程序，所述计算机程序被处理器执行时实现权利要求1-4或5任一所述的方法步骤。