CN112989212B

CN112989212B - 媒体内容推荐方法、装置和设备及计算机存储介质

Info

Publication number: CN112989212B
Application number: CN202110546878.5A
Authority: CN
Inventors: 陈小帅
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2021-05-19
Filing date: 2021-05-19
Publication date: 2021-08-10
Anticipated expiration: 2041-05-19
Also published as: CN112989212A

Abstract

本申请公开了一种媒体内容推荐方法、装置和设备及计算机存储介质，涉及智能推荐技术领域，用于提升媒体内容推荐的准确性。该方法包括：基于第一视频对应于多个数据维度的视频数据，获得与第一视频的相似度大于设定相似度阈值的多个第二视频；确定多个第二视频各自关联的候选媒体内容；其中，每个候选媒体内容，为相应的第二视频在历史播放时推荐的媒体内容；基于获得的各个候选媒体内容各自对应的互动率，选取互动率满足设定条件的至少一个目标媒体内容；其中，每个互动率表征：基于一个候选媒体内容产生的交互次数与推荐次数之间的比值；从至少一个目标媒体内容中，确定在第一视频播放时的待推荐媒体内容。

Description

媒体内容推荐方法、装置和设备及计算机存储介质

技术领域

本申请涉及计算机技术领域，尤其涉及智能推荐技术领域，提供一种媒体内容推荐方法、装置和设备及计算机存储介质。

背景技术

视频广告是指在用户正在观看的视频下方展示相关的广告，一般而言，展示的广告与当前视频的相关度越高、与用户兴趣的相关度越高，越能吸引用户对广告的点击，广告转化率更高。

但是，目前视频广告的推荐一般是采用用户与广告之间的协同过滤方法，或者，采用当前视频与广告之间的协同过滤方法，但是这些视频广告推荐方法，都需要当前视频或者用户已有一定的曝光、播放以及广告推荐量，即需要有较丰富的数据基础后，广告推荐的准确度才能达到一定的要求，而当用户观看的视频为新上线的视频，或者用户为新注册的用户时，由于缺少一定的数据支撑，视频广告推荐准确度并不理想。

发明内容

本申请实施例提供一种媒体内容推荐方法、装置和设备及计算机存储介质，用于提升媒体内容推荐的准确性。

一方面，提供一种媒体内容推荐方法，所述方法包括：

基于第一视频对应于多个数据维度的视频数据，获得与所述第一视频的相似度大于设定相似度阈值的多个第二视频；其中，每个数据维度对应视频的一种数据形式；

确定所述多个第二视频各自关联的候选媒体内容；其中，每个候选媒体内容，为相应的第二视频在历史播放时推荐的媒体内容；

基于获得的各个候选媒体内容各自对应的互动率，选取互动率满足设定条件的至少一个目标媒体内容；其中，每个互动率表征：基于一个候选媒体内容产生的交互次数与推荐次数之间的比值；

从所述至少一个目标媒体内容中，确定在所述第一视频播放时的待推荐媒体内容。

一方面，提供一种媒体内容推荐装置，所述装置包括：

相似视频检索单元，用于基于第一视频对应于多个数据维度的视频数据，获得与所述第一视频的相似度大于设定相似度阈值的多个第二视频；其中，每个数据维度对应视频的一种数据形式；

媒体内容确定单元，用于确定所述多个第二视频各自关联的候选媒体内容；其中，每个候选媒体内容，为相应的第二视频在历史播放时推荐的媒体内容；

媒体内容选择单元，用于基于获得的各个候选媒体内容各自对应的互动率，选取互动率满足设定条件的至少一个目标媒体内容；其中，每个互动率表征：基于一个候选媒体内容产生的交互次数与推荐次数之间的比值；

推荐单元，用于从所述至少一个目标媒体内容中，确定在所述第一视频播放时的待推荐媒体内容。

可选的，所述媒体内容确定单元，具体用于：

针对所述多个第二视频，分别执行如下操作：

针对一个第二视频，确定所述一个第二视频播放时的多个历史推荐媒体内容；

分别获取所述多个历史推荐媒体内容各自对应于多个预设时间段的子互动率；

基于获得的多个子互动率，以及各个预设时间段各自对应的权重值，分别获得所述多个历史推荐媒体内容各自对应的综合互动率；

基于获得的各个综合互动率，选取出综合互动率大于设定互动率阈值的历史推荐媒体内容，所述选取的综合互动率大于设定互动率阈值的历史推荐媒体内容为所述一个第二视频对应的候选媒体内容。

可选的，所述媒体内容选择单元，具体用于：

针对所述多个第二视频，分别执行如下操作：针对一个第二视频，基于所述一个第二视频与所述第一视频的相似度，以及所述一个第二视频的各个候选媒体内容的综合互动率，分别获得所述各个候选媒体内容各自对应的加权互动率；

基于各个候选媒体内容的加权互动率，选取加权互动率大于设定互动率阈值的至少一个候选媒体内容，所述选取的加权互动率大于设定互动率阈值的至少一个候选媒体内容为所述目标媒体内容。

可选的，所述媒体内容选择单元，具体用于：

针对所述各个候选媒体内容中的重叠媒体内容，基于所述重叠媒体内容分别对应于各个第二视频的加权互动率，确定所述重叠媒体内容最终的加权互动率；其中，所述重叠媒体内容为不同第二视频对应的候选媒体内容中相同的媒体内容。

可选的，所述媒体内容选择单元，具体用于：

针对各个候选媒体内容，分别执行如下操作：

针对一个候选媒体内容，基于所述候选媒体内容对应于多个预设时间段的子互动率，以及所述一个候选媒体内容对应的相似度，获得所述候选媒体内容的多个加权子互动率；其中，所述一个候选媒体内容对应的相似度为所述一个候选媒体内容对应的第二视频，与所述第一视频之间的相似度；

基于获得的所述多个加权子互动率，获得所述一个候选媒体内容的加权互动率；

基于所述各个候选媒体内容的加权互动率，选取加权互动率大于设定互动率阈值的至少一个候选媒体内容，所述选取的加权互动率大于设定互动率阈值的至少一个候选媒体内容为所述目标媒体内容。

可选的，所述相似视频检索单元，具体用于：

采用已训练的多维度表示模型，基于所述第一视频对应于多个数据维度的视频数据，获得所述第一视频的视频表示向量；

基于所述第一视频的视频表示向量，与视频库中各个视频的视频表示向量之间的相似度，获得所述多个第二视频；

其中，所述多维度表示模型是基于各个维度的视频数据样本集合进行预训练，且基于多个视频组合样本进行再训练获得的，每一视频数据样本集合包括各个视频对应于同一数据维度的视频数据样本，每一视频组合样本包括已标注相似度的两个视频。

可选的，所述装置还包括模型训练单元，用于：

针对所述各个视频，分别执行如下操作：

针对一个视频，分别对各个数据维度的视频数据样本进行特征提取，获得多个基础表示向量，其中，每个基础表示向量对应一种数据维度；

对所述多个基础表示向量进行特征融合，获得所述一个视频的视频表示向量；

基于所述视频表示向量，确定所述一个视频的预测视频类型以及预测视频标签；

基于获得的预测视频类型以及预测视频标签，以及所述一个视频的标注视频类型和标注视频标签，确定所述一个视频的视频表示损失；

基于获得的各个视频的视频表示损失，对所述多维度表示模型进行参数调整。

可选的，所述模型训练单元，还用于：

针对所述各个视频组合样本，分别执行如下操作：

针对一个视频组合样本，基于所述一个视频组合样本包括的两个视频的视频数据，分别获得所述两个视频各自对应的视频表示向量；

对所述两个视频各自对应的视频表示向量进行特征融合，获得所述一个视频组合样本的融合表示向量；

基于所述融合表示向量，获得所述两个视频之间的预测相似度；

基于获得的各个视频组合样本各自对应的预测相似度以及标注相似度，获得所述多维度表示模型的相似度预测损失；

基于所述相似度预测损失，对所述多维度表示模型进行参数调整。

可选的，所述装置还包括样本获取单元，用于：

获取视频搜索日志，所述视频搜索日志包括多个搜索关键词以及所述多个搜索关键词各自对应的多个视频；

针对所述多个搜索关键词中各个搜索关键词，分别执行如下操作：

针对一个搜索关键词，按照互动率由大到小的顺序，对所述一个搜索关键词对应的多个视频进行排序；

从排序位于前N个的视频中选取两个视频，组成一个视频组合正样本；其中，N为正整数，且N不大于所述多个视频的数量的一半，视频组合正样本为包括的两个视频的相似度大于所述设定相似度阈值的视频组合样本；以及，

从排序后的所述多个视频中，选取间隔的视频数量大于设定数量阈值的两个视频，组成一个视频组合负样本；其中，视频组合负样本为包括的两个视频的相似度不大于所述设定相似度阈值的视频组合样本。

可选的，所述推荐单元，具体用于：

针对所述至少一个目标媒体内容，分别执行如下操作：

针对一个目标媒体内容，采用已训练的媒体内容表示模型获得所述一个目标媒体内容的媒体内容表示向量；

基于所述媒体内容表示向量，以及播放所述第一视频时使用的目标账户的账户表示向量，获得所述一个目标媒体内容与所述目标账户之间的匹配度；

采用已训练的媒体内容排序模型，基于所述一个目标媒体内容的互动率数据，获得所述目标媒体内容的预估互动率；

基于所述匹配度以及预估互动率，获得所述一个目标媒体内容的推荐度；

基于获得的各个目标媒体内容的推荐度，从所述至少一个目标媒体内容中确定出所述待推荐媒体内容。

一方面，提供一种计算机设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现上述任一种方法的步骤。

一方面，提供一种计算机存储介质，其上存储有计算机程序指令，该计算机程序指令被处理器执行时实现上述任一种方法的步骤。

一方面，提供一种计算机程序产品或计算机程序，该计算机程序产品或计算机程序包括计算机指令，该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令，处理器执行该计算机指令，使得该计算机设备执行上述任一种方法的步骤。

本申请实施例中，基于视频的多维度数据来衡量视频之间的相似度，从而获取与当前的第一视频更为相似的多个第二视频，并将为第二视频推荐过的媒体内容中，互动率满足要求的媒体内容作为第一视频的推荐候选，以从中选取最终在第一视频播放时的待推荐媒体内容，一方面，通过多维度视频数据进行视频之间的相似度衡量，能够更为准确的找到相似的视频，为后续准确推荐媒体内容提供基础，另一方面，基于相似视频的方法，不仅扩展了媒体内容推荐方式，并且在不依赖于视频的历史推荐数据的基础上，准确的进行媒体内容的推荐，提升对较新视频的媒体内容推荐效果。

附图说明

为了更清楚地说明本申请实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据提供的附图获得其他的附图。

图1为本申请实施例提供的一种应用场景示意图；

图2为本申请实施例提供的另一种应用场景示意图；

图3为本申请实施例提供的媒体内容推荐方法的流程示意图；

图4为本申请实施例提供的获得的第二视频关联的候选媒体内容的示意图；

图5为本申请实施例提供的目标多模态视频表示模型的分阶段训练示意图；

图6为本申请实施例提供的多维度表示模型的模型示意图；

图7为本申请实施例提供的多维度表示模型的预训练流程示意图；

图8为本申请实施例提供的再训练阶段的训练架构示意图；

图9为本申请实施例提供的再训练过程的流程示意图；

图10为本申请实施例提供的实际在线进行媒体内容推荐时的流程示意图；

图11为本申请实施例提供的媒体内容表现特征库的存储结构示意图；

图12为本申请实施例提供的媒体内容推荐装置的一种结构示意图；

图13为本申请实施例提供的计算机设备的一种结构示意图。

具体实施方式

为使本申请的目的、技术方案和优点更加清楚明白，下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。在不冲突的情况下，本申请中的实施例及实施例中的特征可以相互任意组合。并且，虽然在流程图中示出了逻辑顺序，但是在某些情况下，可以以不同于此处的顺序执行所示出或描述的步骤。

为便于理解本申请实施例提供的技术方案，这里先对本申请实施例使用的一些关键名词进行解释：

媒体内容：媒体内容是指通过多媒体技术传输的信息，在本申请实施例中，媒体内容是指在视频播放时在视频播放页面上展示的推荐内容，例如可以为视频广告，即在用户打开视频播放页面时，在视频播放页面上存在相应的广告展示区域，用于展示为该用户推荐的广告，这种类型的广告即为视频广告。

数据维度：一种数据维度为视频数据的一种数据形式，亦称为模态，一般而言，视频数据的数据形式包括有音频数据、视频数据（指视频图像）以及文本数据，那么每一种数据形式都可以称为视频的一种数据维度，即音频数据维度、视频数据维度以及文本数据维度。

关联：本申请实施例中，关联主要涉及视频和媒体内容的关联，每一个视频关联有多个媒体内容，多个媒体内容组成该视频的候选序列。当一个媒体内容在某个视频的播放页面被推荐过，则可以认为该媒体内容与该视频之间存在关联；或者，由于一个视频的历史推荐媒体内容数量众多，且并不是所有的媒体内容均有优质表现，因此可以对视频的历史推荐媒体内容进行一定的筛选，筛选之后的媒体内容作为视频关联的媒体内容，例如可以基于媒体内容的互动率进行排序，以选取互动率较高的媒体内容，与视频进行关联。

互动率：互动率为媒体内容的互动次数与推荐次数之间的比值，媒体内容的推荐次数为将该媒体内容推荐给用户的次数，以广告为例，推荐次数实质上即为该广告的曝光次数。互动次数是指用户与媒体内容进行互动的次数，例如当媒体内容为广告时，互动可以为用户点击广告，用户下载广告中的应用，用户购买广告中的商品，用户激活广告中的产品等。

多维度表示模型：是指针对视频的多维度表示模型，多模态表示模型是基于机器学习（Machine Learning，ML）的方法实现处理和理解视频的多维度数据信息的能力，例如视频、音频、语义（文本）之间的多维度学习，通过利用多数据维度之间的互补性，剔除维度之间的冗余性，从而学习到更好的特征表示。

本申请实施例涉及人工智能和机器学习（Machine Learning，ML）技术，主要基于人工智能中的机器学习而设计。

人工智能是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能，感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说，人工智能是计算机科学的一个综合技术，它企图了解智能的实质，并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法，使机器具有感知、推理与决策的功能。

人工智能技术是一门综合学科，涉及领域广泛，既有硬件层面的技术也有软件层面的技术。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。

计算机视觉技术（Computer Vision，CV）是一门研究如何使机器“看”的科学，更进一步的说，就是指用摄影机和电脑代替人眼对目标进行识别、跟踪和测量等机器视觉，并进一步做图形处理，使电脑处理成为更适合人眼观察或传送给仪器检测的图像，计算机视觉研究相关的理论和技术，试图建立能够从图像或者多维数据中获取信息的人工智能系统。计算机视觉技术通常包括图像处理、图像识别、图像语义理解、图像检索、OCR、视频处理、视频语义理解、视频内容/行为识别、三维物体重建、3D技术、虚拟现实、增强现实、同步定位与地图构建等技术，还包括常见的人脸识别、指纹识别等生物特征识别技术。

语音技术（Speech Technology）的关键技术有自动语音识别技术（ASR）和语音合成技术（TTS）以及声纹识别技术。让计算机能听、能看、能说、能感觉，是未来人机交互的发展方向，其中语音成为未来最被看好的人机交互方式之一。

自然语言处理（Nature Language processing，NLP）是计算机科学领域与人工智能领域中的一个重要方向。它研究能实现人与计算机之间用自然语言进行有效通信的各种理论和方法。自然语言处理是一门融语言学、计算机科学、数学于一体的科学。因此，这一领域的研究将涉及自然语言，即人们日常使用的语言，所以它与语言学的研究有着密切的联系。自然语言处理技术通常包括文本处理、语义理解、机器翻译、机器人问答、知识图谱等技术。

机器学习是一门多领域交叉学科，涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为，以获取新的知识或技能，重新组织已有的知识结构使之不断改善自身的性能。机器学习是人工智能的核心，是使计算机具有智能的根本途径，其应用遍及人工智能的各个领域。机器学习和深度学习通常包括人工神经网络、置信网络、强化学习、迁移学习、归纳学习、式教学习等技术。

机器学习是人工智能的核心，是使计算机具有智能的根本途径，其应用遍及人工智能的各个领域。机器学习和深度学习通常包括人工神经网络、置信网络、强化学习、迁移学习、归纳学习等技术。人工神经网络（Artificial Neural Network，ANN），从信息处理角度对人脑神经元网络进行抽象，建立某种简单模型，按不同的连接方式组成不同的网络。神经网络是一种运算模型，由大量的节点（或称神经元）之间相互联接构成，每个节点代表一种特定的输出函数，称为激励函数（activation function），每两个节点间的连接都代表一个对于通过该连接信号的加权值，称之为权重，这相当于人工神经网络的记忆，网络的输出则依网络的连接方式，权重值和激励函数的不同而不同，而网络自身通常都是对自然界某种算法或者函数的逼近，也可能是对一种逻辑策略的表达。

本申请实施例中涉及对视频进行特征表示，从而基于特征表示衡量视频之间的相似度，而在对视频进行特征表示时，采用基于深度学习的人工神经网络模型，即本申请实施例采用机器学习的方法获得针对视频的多维度表示模型，多模态表示模型基于机器学习实现处理和理解视频的多维度数据信息的能力，例如视频、音频以及文本之间的多维度学习，通过利用多数据维度之间的互补性，剔除维度之间的冗余性，从而学习到更好的特征表示。由于视频涉及到多维度数据，即视频、音频以及文本，因而在多维度表示模型的训练过程中，需要涉及机器学习技术中的计算机视觉技术、语音技术以及自然语言处理技术等技术。

具体而言，在本申请实施例中的视频特征表示可分为两部分，包括训练部分和应用部分。其中，训练部分就涉及到机器学习这一技术领域，在训练部分中，通过机器学习这一技术训练人工神经网络模型（即后续提及的多维度表示模型），使得基于本申请实施例中给出的各个视频的多维度数据训练人工神经网络模型，并通过优化算法不断调整模型参数，直至模型收敛；应用部分用于使用在训练部分训练得到的人工神经网络模型中编码部分来对视频进行特征表示，并基于获得的视频表示向量进行视频之间的相似度衡量等。另外，还需要说明的是，本申请实施例中人工神经网络模型可以是在线训练也可以是离线训练，在此不做具体限定。在本文中是以离线训练为例进行举例说明的。

下面对本申请实施例的设计思想进行简要介绍。

目前，各大网站都会在后台使用推荐系统，例如针对视频广告，推荐系统根据用户特点，计算出符合该用户的视频广告，然后把这些视频广告展现给用户，推荐给用户的视频广告越准确，用户点击从而产生广告转化行为的概率也就更高，这对于视频广告平台以及广告主而言无疑都是更为有利的，同时对于用户而言，也会由于准确推荐为其带来便利性。

在相关技术中，目前推荐系统所采用的用户与广告之间的协同过滤方法，或者视频与广告之间的协同过滤方法，对于新视频或者新用户而言，推荐准确度并不理想。而推荐准确度不足的原因在于上述两种方法都需要大量的数据基础作为支撑，而新视频或者新用户恰恰缺乏这些数据支撑，从而无法呈现出上述两种方法的优越性，因此，想到提升对于新视频或者新用户的推荐效果，那么需要寻求一种无须历史推荐数据作为支撑的推荐方法。

进一步的，又考虑到如视频广告之类的媒体内容，其是伴随视频一并呈现的，而用户所观看的视频类型一定程度上也能够反映用户自身的兴趣爱好，那么对于某个视频而言，可以寻求该视频的同类型视频，进而基于同类型视频的优质广告来向用户进行推荐，从而即使新用户或者新视频缺乏历史推荐数据支撑，也能够实现较好的推荐效果。

鉴于此，本申请实施例提供一种媒体内容推荐方法，在该方法中，基于视频的多维度数据来衡量视频之间的相似度，从而获取与当前的第一视频更为相似的多个第二视频，并将为第二视频推荐过的媒体内容中，互动率满足要求的媒体内容作为第一视频的推荐候选，以从中选取最终在第一视频播放时的待推荐媒体内容，一方面，通过多维度视频数据进行视频之间的相似度衡量，能够更为准确的找到相似视频，为后续准确推荐媒体内容提供基础，另一方面，基于相似视频的方法，不仅扩展了媒体内容推荐方式，并且在不依赖于视频的历史推荐数据的基础上，准确的进行媒体内容的推荐，提升对较新视频的媒体内容推荐效果。

此外，本申请实施例中，基于视频的多维度数据进行建模，从而获得能够全面反映视频内容的视频表示向量，以准确的对视频进行表示，进而后续基于该视频表示向量计算的视频之间的相似度更为准确，进一步提升媒体内容推荐的准确度。

在介绍完本申请实施例的设计思想之后，下面对本申请实施例的技术方案能够适用的应用场景做一些简单介绍，需要说明的是，以下介绍的应用场景仅用于说明本申请实施例而非限定。在具体实施过程中，可以根据实际需要灵活地应用本申请实施例提供的技术方案。

本申请实施例提供的方案可以适用于大多数媒体内容推荐场景中，尤其适用于视频广告推荐场景。如图1所示，为本申请实施例提供的一种应用场景图，在该场景中，可以包括终端设备101和服务器102。

终端设备101例如可以为手机、平板电脑（PAD）、个人计算机（Personal computer，PC）、智能电视、智能车载设备以及可穿戴设备等。终端设备101可以安装有可以进行视频播放的应用，例如浏览器或者视频客户端。本申请实施例涉及的应用可以是软件客户端，也可以是网页、小程序等客户端，若应用为网页、小程序等客户端时，后台服务器则是与软件或是网页、小程序等相对应的后台服务器，不限制客户端的具体类型。其中，用户可以通过在应用上登录自己的账户，进而进行视频播放，并且在视频播放的同时，则可以利用本申请实施例的方法确定向该用户推荐的媒体内容，以在视频播放界面一并显示该媒体内容。需要说明的是，即使用户未进行账户登录时，一般而言，客户端对应的服务器也会对该用户进行标识，例如可以通过该用户使用的终端进行标识，因而该标识也可以理解为用户的账户。

服务器102可以为终端设备101上安装的应用所对应的后台服务器，例如可以是独立的物理服务器，也可以是多个物理服务器构成的服务器集群或者分布式系统，还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、CDN、以及大数据和人工智能平台等基础云计算服务的云服务器，但并不局限于此。

服务器102可以包括一个或多个处理器1021、存储器1022以及与终端交互的I/O接口1023等。此外，服务器102还可以配置数据库1024，数据库1024可以用于存储各个历史推荐的媒体内容以及视频的多维度数据等。其中，服务器102的存储器1022中还可以存储本申请实施例提供的媒体内容推荐方法的程序指令，这些程序指令被处理器1021执行时能够用以实现本申请实施例提供的媒体内容推荐方法的步骤，以确定向用户推荐的媒体内容，进而将该媒体内容推送给目标账户，以在终端设备101中的视频播放界面展示该媒体内容。

终端设备101和服务器102之间可以通过一个或者多个网络103进行直接或间接的通信连接。该网络103可以是有线网络，也可以是无线网络，例如无线网络可以是移动蜂窝网络，或者可以是无线保真（Wireless-Fidelity，WIFI）网络，当然还可以是其他可能的网络，本申请实施例对此不做限制。

在一种具体的实施方式中，可采用如图2所示的应用场景示意图，本申请实施例提供的推荐方法可应用于诸如视频广告推荐等场景中。本文中主要是以视频广告推荐为例进行举例说明的。

图2的应用场景具体为视频广告推荐系统的架构示意图，在该视频广告推荐系统中主要包括终端设备101和服务器102，其中，服务器102可具体包括视频服务器102a和广告服务器102b，视频服务器102a提供视频相关的后台服务，广告服务器102b可提供视频广告相关的后台服务。

在具体实施时，用户可以在终端设备101上打开视频播放页面，以在视频客户端中打开页面为例，则视频客户端向服务器102发起页面请求，由于该页面请求中包含视频播放内容和伴随视频播放一并显示的视频广告，可交由各自提供服务的服务器负责处理，例如，视频播放相关内容交由视频服务器102a处理，而广告相关内容交由视频服务器102a进行处理，同时，对于视频服务器102a和广告服务器102b处理过程中相互交涉的部分也可以由这两个服务器协同进行处理。

具体的，在广告服务器102b确定需要推荐给用户的视频广告时，首先需要确认与当前播放的第一视频相似的多个第二视频，那么第二视频的确定过程则可以由视频服务器102a来处理，广告服务器102b基于视频服务器102a输出的第二视频，获取各个第二视频关联的优质视频广告，并从中选取召回的视频广告，以供下游的广告排序模型进行排序，以获得最终为用户推荐的视频广告。参见图2所示，在将最终确定的视频广告推送给用户之后，则可在视频播放页面上视频广告展示区域展示该视频广告。

在具体应用时，为了提升在线进行视频广告推荐的响应速度，可以预先离线进行相似视频的计算，即通过离线计算各个视频的相似视频，并进行离线存储，以及各个视频关联的候选广告序列也可以进行离线统计并进行存储，进而，进行在线推荐时就可以直接利用存储的相似视频关系（即每个视频与其相似视频之间的关系）以及候选广告序列，使得在线推荐响应速度更快。

在一种可能的应用场景中，本申请实施例中视频的多维度数据、相似视频关系以及模型参数等数据可以采用云存储技术进行存储。云存储（cloudstorage）是在云计算概念上延伸和发展出来的一个新的概念，分布式云存储系统是指通过集群应用、网格技术以及分布存储文件系统等功能，将网络中大量各种不同类型的存储设备（或称存储节点）通过应用软件或应用接口集合起来协同工作，共同对外提供数据存储和业务访问功能的一个存储系统。

在一种可能的应用场景中，为了便于降低通信时延，可以在各个地区部署服务器102，或为了负载均衡，可以由不同的服务器102分别去服务各个终端设备101对应的地区。多个服务器102通过区块链实现数据的共享，即相当于位于各个地区的多个服务器102组成一个基于区块链技术的数据共享系统。例如终端设备101位于地点a，与服务器102之间进行通信连接，终端设备101位于地点b，与其他服务器102之间通信连接。

对于数据共享系统中的每个服务器102，均具有与该服务器102对应的节点标识，数据共享系统中的每个服务器102均可以存储有数据共享系统中其他服务器102的节点标识，以便后续根据其他服务器102的节点标识，将生成的区块广播至数据共享系统中的其他服务器102。每个服务器102中可维护一个如下表所示的节点标识列表，将服务器102名称和节点标识对应存储至该节点标识列表中。其中，节点标识可为网络之间互联的协议（InternetProtocol，IP）地址以及其他任一种能够用于标识该节点的信息，表1中仅以IP地址为例进行说明。

表1

当然，本申请实施例提供的方法并不限用于图1或图2所示的应用场景中，还可以用于其他可能的应用场景，本申请实施例并不进行限制。对于图1或图2所示的应用场景的各个设备所能实现的功能将在后续的方法实施例中一并进行描述，在此先不过多赘述。

请参见图3，为本申请实施例提供的媒体内容推荐方法的流程示意图，该方法可以通过图1或图2中的服务器102或者终端设备101来执行，或者由服务器102和终端设备101共同执行，这里主要以服务器102来执行为例进行介绍，该方法的流程介绍如下。

步骤301：基于第一视频对应于多个数据维度的视频数据，获得与第一视频的相似度大于设定相似度阈值的多个第二视频。

其中，第一视频是指待为其进行媒体内容推荐的视频，例如对于图2所示的视频广告推荐场景，用户通过目标账户打开一个视频播放页面进行视频播放时，在该视频播放页面包含着视频广告展示区域，那么该视频播放时，则会触发获取相应的待推荐媒体内容，并在视频广告展示区域进行显示，那么该视频播放页面对应的视频则为第一视频。

为了确定第一视频播放时的待推荐媒体内容，需要从媒体内容库中进行媒体内容的召回，再从召回媒体内容中确定待推荐媒体内容，在本申请实施例中，提供一种新颖的召回方式，即基于相似视频的召回方式。

具体的，针对需要进行媒体内容推荐的第一视频，首先需要确定与该第一视频相似的多个第二视频，第一视频与每个第二视频之间的相似度大于设定相似度阈值。其中，设定相似度阈值可以基于经验值进行设定，也可以在实际确定过程中灵活变化，例如可以设定每次需要选取的第二视频的数量，如：10个，那么针对第一视频，将第一视频与视频库中每个视频进行相似度计算，进而按照相似度由大到小的排序，那么第11个视频与第一视频之间的相似度则为本次的设定相似度阈值，而大于该设定相似度阈值的前10个视频则为第一视频对应的第二视频。

本申请实施例中，在确定第一视频相似的第二视频时，基于第一视频的多个数据维度的视频数据，从视频库中检索获得与第一视频的相似的多个第二视频。

在一种可能的实施方式中，可以利用第一视频的多个数据维度的视频数据，分别与视频库中每个视频的多个数据维度的视频数据进行比较，从而分别确定第一视频与每个视频的相似度。以视频A与视频B进行比较获取相似度为例，可以将视频A与视频B的各个数据维度的视频数据分别进行比较，即将视频A中的文本与视频B的文本进行比较，得到文本相似度，将视频A中的图像与视频B的图像进行比较，得到视频相似度，以及将频A中的音频与视频B的音频进行比较，得到音频相似度，并汇总各个数据维度的相似度得到视频A与视频B之间的综合相似度。

在实际应用时，各个数据维度的视频数据的比较，可以采用统计的方式进行，例如针对文本，可以统计两个视频的文本中相同字符的数量所占比例，以衡量两个视频的文本相似度；或者，还可以对各个数据维度的视频数据进行向量化，进而计算两个视频分别对应的向量之间的相似度。

在另一种可能的实施方式中，可以基于各个视频对应于各个数据维度的视频数据，来获得各个视频的视频表示向量，进而基于视频表示向量衡量视频之间的相似度。

在具体实施时，各个视频的视频表示向量的获取可以是离线计算得到的，从而减少在线推荐时的响应时长。对于视频表示向量的获取过程将在后续具体进行介绍，因此在此先不进行赘述。

需要说明的是，本申请实施例的媒体内容推荐可以是在线实时进行的，也可以离线计算得到结果后进行存储，当在线进行推荐时直接拉取离线数据进行推荐。

步骤302：确定多个第二视频各自关联的候选媒体内容；其中，每个候选媒体内容，为在相应的第二视频在历史播放时推荐的媒体内容。

本申请实施例中，针对每个第二视频而言，第二视频在历史播放时也会为其推荐相应的媒体内容，因此这里关联的候选媒体内容则可以是指第二视频在历史播放时推荐的媒体内容。

而考虑到每个视频的播放次数可能比较庞大，因而关联的候选媒体内容的数量也可能较多，且并不是所有的媒体内容都能够产生较好的表现，因此，第二视频关联的候选媒体内容，可以是从第二视频播放时的历史推荐媒体内容中，通过一定的筛选规则进行筛选过的。例如针对视频广告而言，可以选取广告表现较好的优质广告，一般而言，广告表现的好坏可以通过广告的互动率来体现，广告的互动率越高，广告表现越好。

参见图4所示，为获得的第二视频关联的候选媒体内容的示意图，其中，第一视频存在k个满足相似度要求的第二视频，即图4所示的第二视频V1~Vk，每个第二视频关联了多个候选媒体内容，即图4所示的第二视频V1关联的候选媒体内容表示为媒体内容a11~a1m，第二视频V2关联的候选媒体内容表示为媒体内容a21~a2n，以此类推。

步骤303：基于获得的各个候选媒体内容各自对应的互动率，选取互动率满足设定条件的至少一个目标媒体内容。

其中，每个互动率表征基于一个候选媒体内容产生的交互次数与推荐次数之间的比值。具体而言，媒体内容在被推荐给用户之后，则该媒体内容的推荐次数相应增加，而用户在视频播放页面查看到推荐的媒体内容之后，可能会对该媒体内容进行操作，例如点击链接进入媒体内容的详情页面，并可在详情页面进行一定的操作，而这些操作都可以认为是用户对媒体内容的互动操作，相应的，该媒体内容的互动次数也会相应增加，互动率则是表征媒体内容的交互次数与推荐次数之间的比值，用于表征媒体内容推荐成功的概率。

在一种可能的实施方式中，在获得确定多个第二视频各自关联的多个候选媒体内容之后，则可以将所有第二视频关联的候选媒体内容，作为召回媒体内容。

在另一种可能的实施方式中，也可以按照各个候选媒体内容的互动率，从第二视频各自关联的多个候选媒体内容中，选取互动率满足设定条件的至少一个目标媒体内容，作为召回媒体内容。

其中，设定条件可以为互动率大于设定互动率阈值。

步骤304：从至少一个目标媒体内容中，确定在第一视频播放时的待推荐媒体内容。

本申请实施例中，通过上述的过程可以获得至少一个目标媒体内容，将这些目标媒体内容进行召回，并利用召回的目标媒体内容进行精排过程，以从中选取最终向目标账户推荐的媒体内容，也就是在第一视频播放时的待推荐媒体内容。

具体的，针对每个目标媒体内容，可以将目标媒体内容通过与目标账户计算兴趣匹配度，并将目标媒体内容的互动率作为特征输入，经过排序模型以及曝光过滤策略，将排序最优的媒体内容推荐给目标账户。

这里以一个目标媒体内容，即目标媒体内容A为例，对排序选择最优的媒体内容的过程进行介绍。

针对目标媒体内容A，可以从多方面衡量目标媒体内容A的推荐度。一方面，可以采用已训练的媒体内容表示模型，来获取目标媒体内容A的媒体内容表示向量，并可基于获得的媒体内容表示向量，以及播放第一视频时使用的目标账户的账户表示向量，获得目标媒体内容A与目标账户之间的匹配度。另一方面，可以采用已训练的媒体内容排序模型，基于目标媒体内容A的互动率数据，获得目标媒体内容的预估互动率。当然，除了这两方面之外，还可以基于其他角度对目标媒体内容A进行推荐度评价，进而，综合匹配度以及预估互动率等各方面的评价，获得目标媒体内容A的推荐度。

在获得至少一个目标媒体内容中每一个目标媒体内容的推荐度，则可以及根据推荐度的高低，从至少一个目标媒体内容中确定出推荐媒体内容，例如选取出推荐度大于设定推荐度阈值的目标媒体内容作为推荐媒体内容，或者，也可以按照推荐度由大到小的顺序，对至少一个目标媒体内容进行排序，从而选取推荐度排名靠前的一个或者多个目标媒体内容作为推荐媒体内容。

其中，媒体内容表示模型以及媒体内容排序模型均可以采用任何可能的神经网络模型，对此本申请实施例并不进行限制。

以视频广告推荐场景为例，基于相似视频选取出多个广告之后，可以针对每个广告，将该广告与当前播放第一视频的用户进行匹配，获得该广告与用户的匹配度，并可利用广告排序模型，根据该广告的互动率数据对各个广告进行排序，进而综合匹配和排序得到该广告的最终推荐度，将推荐度较高的一个或者多个广告推荐给用户，并在第一视频的播放页面上相应位置上进行展示。

其中，相应位置可以为播放页面上的任意位置，例如参见图2所示，可以在视频播放区域的下方显示推荐的广告，当然，也可以在视频播放区域的其他位置，例如视频播放区域的上方，或者，位于视频播放区域中等，本申请实施例对此不进行限制。

本申请实施例中，基于相似视频召回的方式可作为其中一种召回方式，并与其他召回方式协同选取最终为目标账户推荐的媒体内容。也就是说，通过上述基于相似视频召回的方式可获得至少一个目标媒体内容，通过其他召回方式也可以获得至少一个目标媒体内容，并从多种召回方式获得的所有目标媒体内容中，选取最终为目标账户推荐的媒体内容，其他召回方式例如基于用户与媒体内容协同过滤的方法，或者基于视频与媒体内容协同过滤的方法等。

在一种可能的实施方式中，可以采用已训练的多维度表示模型，基于各个视频对应于各个数据维度的视频数据，来分别获得各个视频的视频表示向量。其中，多维度表示模型通过至少两个训练阶段训练得到的，下面对多维度表示模型的训练过程进行具体的介绍。参见图5所示，为目标多模态视频表示模型的分阶段训练示意图，训练过程具体可包括2个阶段，即预训练阶段和再训练阶段。

S1：预训练阶段。

预训练阶段，主要通过对视频的多个数据维度进行多维度联合建模表示，充分表示视频内容，尽量避免通过某单一数据维度对视频内容捕获不全面的问题，提升后续计算进行视频之间的相似度的精确度。如图5所示，在预训练阶段，利用视频数据样本集合对初始模型进行训练。

参见图6所示，为本申请实施例提供的多维度表示模型的模型示意图。其中，多维度表示模型包括输入层、单维度编码层、特征融合层和预测层。

由于多维度表示模型在预训练过程中，每一次预训练过程都是类似的，因此这里以一次训练过程为例进行介绍，参见图7所示，为多维度表示模型的预训练流程示意图。

步骤701：获取多个数据维度的视频数据样本集合。

本申请实施例中，将视频输入多维度表示模型的输入层中，输入层对每个视频进行各数据维度的数据提取，得到各个数据维度的视频数据，每个数据维度的视频数据构成一个视频数据样本集合，每个视频数据样本集合包括各个视频对应于同一数据维度的视频数据样本。参见图6所示，具体可包括如下数据维度：

（1）图像数据维度

从每个视频中提取的图像数据可以构成一个图像数据样本，从而多个视频的图像数据样本可以构成图像数据样本集合。参见图6所示，图像数据可以包括视频的图像帧1~j，每个图像帧可以为视频的封面图像以及从视频中抽取的视频帧等。图像帧1~j可以为一个视频中的所有帧，也可以是从视频中抽取的部分帧。

（2）音频数据维度

从每个视频中提取的音频数据可以构成一个音频数据样本，从而多个视频的音频数据样本可以构成音频数据样本集合。参见图6所示，音频数据可以包括视频的音频帧1~i，图像帧1~ i可以为一个视频中的所有音频帧，也可以是从视频中抽取的部分音频帧。其中，音频数据可以为从视频中抽取的原始音频片段，也可以是经过一定音频处理得到的音频数据，例如可以为对抽取的原始音频片段进行音频信号处理（Signal Processing）得到的音频特征，例如将抽取的原始音频片段转化梅尔频普图（Mel-Frequency Spectrum，MFC）特征。

（3）文本数据维度

从每个视频中提取的文本数据可以构成一个文本数据样本，从而多个视频的文本数据样本可以构成文本数据样本集合。文本数据样本采自各个视频包括的各方面文本，可以包括采用文本提取方法对视频进行文本提取获得的视频内文本，例如采取OCR技术对视频图像进行文本提取获得的文本（如字幕），以及采用ASR技术对视频内的语音进行文本提取获得的文本（如对白），以及还可以包括视频的标题以及介绍文本。

本申请实施例中，输入层所执行的步骤，也就是从视频中提取多个数据维度的视频数据的过程可以是在训练之前准确好的，因此可直接将各个数据维度的视频数据样本集合输入至输入层进行训练。

本申请实施例中的多维度表示模型的训练过程采用基于有监督数据进行训练的方式，因此在训练之前，需要针对每个视频进行有监督标签的标注。具体的，这里针对视频的不同粒度的类型进行标注，即针对每个视频，标注了该视频的视频类型以及视频标签，其中视频类型为视频在较粗粒度上的分类，视频标签为视频在更细粒度的语义类型，也就是说，视频类型的粒度相较于视频标签而言是更粗的。

一种可能的实施方式中，视频类型可以是更倾向于视频结构框架定义的类型，从大体方向上对视频进行划分，例如视频类型可以为电视剧、电影或者音乐视频（musicvideo，MV）等，而视频标签可以是结合到视频实际内容定义的类型，例如视频标签为武侠、都市或者仙侠等。

当然，在实际应用时，视频类型以及视频标签的具体设置可基于实际需求进行，这里并不进行限制。

步骤702：针对每个视频，分别对各个数据维度的视频数据样本进行特征提取，获得多个基础表示向量，其中，每个基础表示向量对应一种数据维度。

本申请实施例中，获取各个视频对应于各个数据维度的数据样本之后，则针对每个视频，通过多维度表示模型的单维度编码层分别对各个数据维度的视频数据样本进行特征提取，获得每个视频的多个基础表示向量，如图6所示的文本侧基础表示向量、音频侧基础表示向量以及图像侧基础表示向量。

在具体实施时，通过对每个视频对应的文本数据样本进行特征提取，可以获得每个视频的文本侧基础表示向量。一般而言，任何能够进行文本编码的方法均可用于进行文本特征提取，例如可以采用albert、bert或者electra等方法进行文本特征提取，在此不逐一进行例举。

在具体实施时，通过对每个视频对应的音频数据样本进行特征提取，可以获得每个视频的音频侧基础表示向量。一般而言，任何能够进行音频编码的方法均可用于进行音频特征提取，例如可以采用VGGish NeXtVlad模型进行音频特征提取。

在具体实施时，通过对每个视频对应的图像数据样本进行特征提取，可以获得每个视频的图像侧基础表示向量。同样的，任何能够进行图像编码的方法均可用于图像特征提取，例如可以采用inception_resnet_v1、efficient NeXtVlad、inception、resnet或者inception V4等模型进行图像特征提取。

由于各个数据维度的数据信息均来自于同一视频，因此在一定程度上是存在一定的联系的，因此在获得各个数据维度对应的基础表示向量之后，可以基于多维度协同表示的方式，在各个数据维度的特征向量中融入其他数据维度的信息，使得最终获得的各个数据维度的基础表示向量之间满足一定的相关性约束。

步骤703：分别对每个视频对应的多个基础表示向量进行特征融合，获得每个视频的视频表示向量。

参见图6所示，针对每个视频而言，在获得该视频的多个基础表示向量之后，则可以利用多维度表示模型的特征融合层对该视频的多个基础表示向量进行特征融合，获得相应的视频表示向量。

具体的，特征融合是指将各个数据维度的基础表示向量所包含的信息进行整合，特征融合可以采用如下方式中的任一种方式进行。

一种可能的实施方式中，可采用向量拼接进行特征融合。例如，针对一个视频而言，可以将该视频的各个基础表示向量接续在前一基础表示向量之后，如将文本数据维度的基础表示向量拼接在图像数据维度的基础表示向量之后，并将音频数据维度的基础表示向量拼接在文本数据维度的基础表示向量之后。

一种可能的实施方式中，还可以采用特征池化（pooling）进行特征融合。池化处理具体可以采用最大池化（max-pooling）或者均值池化（mean-pooling）等池化处理方式来进行，本申请实施例对此并不进行限制。

一种可能的实施方式中，还可以采用全连接（fully connected layers，FC）处理方式进行特征融合，即对多个基础表示向量进行映射处理，获得相应视频的视频表示向量。

步骤704：基于每个视频的视频表示向量，分别确定每个视频的预测视频类型以及预测视频标签。

参见图6所示，针对每个视频而言，在获得该视频的视频表示向量之后，则可以利用多维度表示模型的预测层，基于该视频的视频表示向量进行预测，获得相应的预测视频类型以及预测视频标签。

其中，预测层可以采用任何可能的分类器来实现，例如可以采用FC或者softmax方法等实现。

步骤705：基于获得的每个视频的预测视频类型以及预测视频标签，以及每个视频的标注视频类型和标注视频标签，确定每个视频的视频表示损失。

由于针对每个视频进行了有监督标签标注，那么在获得每个视频的预测视频类型以及预测视频标签之后，则可以将预测获得的预测视频类型以及预测视频标签，与标注视频类型和标注视频标签进行比较，以获得每个视频的视频表示损失。

具体的，视频表示损失可以采用交叉熵损失函数（Cross-entropy lossfunction）进行计算，当然，也可以采用其他可能的损失函数，如0-1损失函数(zero-oneloss)等，本申请实施例对此不做限制。

步骤706：判断多维度表示模型是否达到收敛条件。

收敛条件可以包括如下条件的任一种：

（1）多维度表示模型的总损失不大于设定的损失阈值，其中，多维度表示模型的总损失为所有视频的视频表示损失之和。

（2）多维度表示模型的迭代次数大于设定次数阈值。

步骤707：若步骤706的结果为否，则基于获得的各个视频的视频表示损失，对多维度表示模型进行参数调整，并返回步骤701，继续下一轮训练流程。

步骤708：若步骤706的判断结果为是，则训练结束。

在多维度表示模型的训练结束之后，获得的预训练表示模型则可以具备输入一个视频的文本、音频以及图像数据，获得该视频的视频表示向量的能力。

S2：再训练阶段。

本申请实施例中，在再训练阶段，利用视频组合样本对S1获得的预训练表示模型继续进行调优训练，以提升多维度表示模型对视频相似计算的准确度。如图5所示，在再训练阶段，输入视频组合样本以及S1获得的预训练表示模型进行再训练之后，则可获得可用于实际视频相似度计算的多维度表示模型。

参见图8所示，为本申请实施例提供的再训练阶段的训练架构示意图。

由于在再训练过程中，每一次再训练过程都是类似的，因此这里以一次再训练过程为例进行介绍，参见图9所示，为再训练过程的流程示意图。

步骤901：获取多个视频组合样本。

本申请实施例中，每个视频组合样本包括已标注相似度的两个视频，例如一个视频组合样本包含两个相似视频，或者包含两个不相似视频。其中，相似视频为相似度大于设定相似度阈值的两个视频，不相似视频则为相似度小于设定相似度阈值的两个视频。

考虑到视频之间的相似度难以衡量，标注难度且工程量较大，本申请实施例提供了一种视频组合样本的获取方式。

由于视频搜索日志中包括多个搜索关键词以及多个搜索关键词各自对应的多个视频，而每个搜索关键词对应的多个视频中，互动率较高的视频应是与该搜索关键词匹配程度较高的，而与同一搜索关键词匹配程度越高，则两个视频的相似程度越高。因此，本申请实施例中采集视频组合样本时，获取视频搜索日志，并针对每个搜索关键词，将搜索该搜索关键词时响应给用户的各个视频，按照互动率由大到小的顺序进行排序。

具体的，从排序位于前N个的视频中选取两个视频，组成一个视频组合正样本，视频组合正样本为包括的两个视频的相似度大于设定相似度阈值的视频组合样本，也就是相似视频组合。其中，N为正整数，且N不大于多个视频的数量的一半，例如一个视频组合正样本由同一搜索关键词对应的互动率最高的两个视频组成。

具体的，从排序后的多个视频中，选取间隔的视频数量大于设定数量阈值的两个视频，组成一个视频组合负样本；其中，视频组合负样本为包括的两个视频的相似度不大于设定相似度阈值的视频组合样本，也就是不相似视频组合。例如，例如一个视频组合负样本由同一搜索关键词对应的视频中，互动率最高的与互动率最低的视频组成。

其中，互动率例如可以为视频的点击率，即一个视频通过某个搜索关键词进行搜索，并响应该搜索将视频返回给用户时，用户点击次数与返回次数之间的比值。

步骤902：基于每个视频组合样本包括的两个视频的视频数据，分别获得两个视频各自对应的视频表示向量。

每个视频组合样本包括两个视频，通过S1阶段获得的预训练表示模型，分别基于两个视频的多维度视频数据，获得这两个视频的视频表示向量。参见图8所示，每个视频组合样本包括视频1和视频2，将视频1和视频2的多维度视频数据输入多维度表示模型（即S1阶段获得的预训练表示模型），则可以分别获得视频1的视频表示向量1，以及视频2的视频表示向量2。其中，图8所示视频1和视频2分别对应的多维度表示模型共用模型参数。

步骤903：对每个视频组合样本包括的两个视频的视频表示向量进行特征融合，获得每个视频组合样本的融合表示向量。

参见图8所示，针对每个视频组合样本而言，获得其包括的两个视频的视频表示向量之后，则可以采用特征融合方式将两个视频的视频表示向量融合，获得相应的融合表示向量。

具体的，特征融合的过程可以采用与S1阶段类似的融合方式，因此融合过程参见S1阶段相应部分的描述，在此不再进行赘述。

步骤904：基于每个视频组合样本的融合表示向量，获得每个视频组合样本包括的两个视频的预测相似度。

相似度的预测过程可以采用任何可能的方法来实现，例如可以采用FC或者softmax方法等实现。

步骤905：基于获得的各个视频组合样本各自对应的预测相似度以及标注相似度，获得多维度表示模型的相似度预测损失。

具体的，相似度预测损失可以采用交叉熵损失函数进行计算，当然，也可以采用其他可能的损失函数，如0-1损失函数等，本申请实施例对此不做限制。

步骤906：判断多维度表示模型是否达到收敛条件。

步骤907：若步骤906的结果为否，则基于相似度预测损失，对多维度表示模型进行参数调整。

其中，参数调整的过程可以基于训练调优算法进行，例如采用随机梯度下降法（stochastic gradient descent，SGD）或者批量梯度下降算法（Batch Gradient Descent，BGD）等方法计算参数调整梯度，以基于梯度进行参数调整。

步骤908：若步骤906的结果为时，则训练结束。

在S2阶段训练结束之后，获得的多维度表示模型则可以应用于实际的视频相似度计算过程中。

参见图10所示，以实际在线进行媒体内容推荐为例的流程示意图。

S10：构建媒体内容表现特征库。

每个视频关联的候选媒体内容构成一个候选序列，每个视频的候选序列可以是预先统计的，在进行在线媒体内容推荐时，则可以直接调用候选序列数据，以减少在线推荐的响应时长。下面，对获取候选序列的过程进行介绍。

首先，针对每个媒体内容，持续统计媒体内容的互动率。其中，互动率可以包括对应与各个预设时间段的子互动率，每个预设时间段为距离当前时刻的时间长度不同的时间段。

例如，各个预设时间段可以划分为近期、中期和长期，相应的，各个预设时间段的子互动率分别为近期互动率、中期互动率和长期互动率。每个预设时间段的时间跨度可以根据需求进行设置，例如近期可以设置为距离当前时刻2天之内，中期可以设置为距离当前时刻7天之内，长期则可以设置为7天之前。

进而，针对每个媒体内容，基于获得的多个子互动率，以及各个预设时间段各自对应的权重值，分别获得每个媒体内容对应的综合互动率，综合互动率的计算可以表示如下：

综合互动率=x1*近期互动率+x2*中期互动率+x3*长期互动率

其中，x1、x2、x3分别为近期、中期和长期各自对应的权重值，且满足如下关系：

针对每个视频，采用上述方式统计在其播放时展示的多个媒体内容的近期互动率、中期互动率和长期互动率，并据此构建媒体内容表现特征库，媒体内容表现特征库可按照图11所示的方式进行存储。其中，每个视频关联着多个候选媒体内容，多个候选媒体内容构成该视频的候选序列，即图11所示的视频1关联有媒体内容1~媒体内容n，视频K关联有媒体内容1~媒体内容m，每个媒体内容按照（媒体内容、媒体内容表现）的方式进行存储，存储的媒体内容表现可以是上述的各个子互动率，也可以是综合互动率，也可以是两者均进行存储。

参见图11所示，在媒体内容表现特征库中，每个视频关联的候选序列可以基于媒体内容表现降序排序，当然，也可以按照其他方式进行排序。

本申请实施例中，为了提升后续广告效果，可以选择性的保留媒体内容表现高于阈值的媒体内容作为候选媒体内容，例如选取出综合互动率大于设定互动率阈值的多个候选媒体内容，构成候选序列。

S11：构建视频多维度相似检索库。

为了方便后期为用户当前播放的第一视频计算内容相似的多个第二视频，预先获取平台视频库中各个视频，通过上述训练得到的多维度表示模型获得相应的视频表示向量，并且部署向量检索工具（如：ElasticFaiss）实现近似近邻快速检索，以完成构建视频多维度相似检索库，提升为第一视频确定相似的第二视频的效率。

需要说明的是，S10和S11步骤不存在实质性的前后顺序关系，可同时进行，也可以前后依次进行，并且，S10和S11步骤可以是投入在线推荐使用之前的数据库准确工作，也可以是在进入在线推荐使用时的数据库更新过程。

S12：用户观看第一视频时，触发媒体内容推荐流程。

参见图10所示，当用户对第一视频进行播放操作时，则会跳转至第一视频的播放页面，同时，由于第一视频的播放页面需要显示推荐媒体内容，相应的就会触发媒体内容推荐流程。

S13：为第一视频生成视频表示向量。

参见图10所示，第一视频的视频表示向量生成可包括两种途径，当视频多维度相似检索库已存在第一视频的视频表示向量时，则可以从视频多维度相似检索库直接获取视频表示向量，当视频多维度相似检索库不存在第一视频的视频表示向量时，则可以利用上述训练得到的多维度表示模型，为第一视频生成视频表示向量，同时，生成的视频表示向量会更新存储到视频多维度相似检索库，后续再次需要使用视频表示向量时，即可省去模型在线生成的过程，可直接查询。

S14：从视频多维度相似检索库确定与第一视频相似的多个第二视频。

具体的，利用第一视频的视频表示向量，在视频多维度相似检索库进行相似向量检索，以获得与第一视频的视频表示向量的多个第二视频。此外，针对多个第二视频中媒体内容表现极差的第二视频，也可以予以筛除，从而最终输出的是与第一视频相似，且有较好媒体内容表现的视频。

S15：基于多个第二视频构建历史表现好的媒体内容候选。

针对每个第二视频，可从S10构建的媒体内容表现特征库中，获得相应的候选序列，进而可得到如图4所示的多个第二视频对应的候选序列。

当然，对于媒体内容表现特征库中不存在某个第二视频相关的候选序列时，则可以实时统计获得该第二视频的候选序列。具体而言，针对一个第二视频，确定该第二视频播放时的多个历史推荐媒体内容，并分别获取多个历史推荐媒体内容各自对应于多个预设时间段的子互动率，进而基于获得的多个子互动率，以及各个预设时间段各自对应的权重值，分别获得多个历史推荐媒体内容各自对应的综合互动率，以基于获得的各个综合互动率，选取出综合互动率大于设定互动率阈值的历史推荐媒体内容，作为该第二视频关联的候选媒体内容，这些候选媒体内容构成该第二视频的候选序列。

S16：进行媒体内容排序，选定最终推荐给用户的媒体内容。

本申请实施例中，获得各个第二视频关联的候选序列之后，从可以对多个候选序列进行融合。这里融合参考的主要因素是第二视频对应的相似度，以及每个候选媒体内容的具体表现。

作为一种可能的实施方式，针对基于各个第二视频获得的各个候选媒体内容，可以通过如下方式获得各个候选媒体的加权互动率。

具体的，针对每个第二视频，基于第二视频与第一视频的相似度，以及第二视频的各个候选媒体内容的综合互动率，分别获得各个候选媒体内容各自对应的加权互动率。

在实际应用时，可能存在重叠媒体内容的情况，重叠媒体内容是指不同第二视频对应的候选媒体内容中相同的媒体内容，例如媒体内容1即位于视频B的候选序列中，也位于视频C的候选序列中，那么媒体内容1则会存在两个加权互动率，对于这种情况，可以基于重叠媒体内容分别对应于各个第二视频的加权互动率，确定重叠媒体内容最终的加权互动率。

例如，可以从重叠媒体内容对应的加权互动率中择一作为其最终的加权互动率，例如选择多个加权互动率中的最大值作为最终的加权互动率。或者，可以将重叠媒体内容对应的各个加权互动率的均值作为最终的加权互动率。

作为另一种可能的实施方式，针对基于各个第二视频获得的各个候选媒体内容，还可以通过如下方式获得各个候选媒体的加权互动率。

针对每个候选媒体内容，基于该候选媒体内容的多个子互动率，以及该候选媒体内容对应的相似度，获得候选媒体内容的多个加权子互动率。其中，一个候选媒体内容对应的相似度为该候选媒体内容对应的第二视频，与上述第一视频之间的相似度。

示例性的，对于媒体内容1，其近期互动率可以通过如下方式进行计算：

媒体内容1的加权近期互动率 = max（相似度 * 媒体内容1的近期互动率）。

其中，max表示在媒体内容1为重叠媒体内容时，选取其多个加权近期互动率中的最大值。同样的，中期和长期互动率也可采用上述类似的方式进行计算。

进而，基于获得的对应各个预设时间段的多个加权子互动率，获得一个候选媒体内容的加权互动率。以视频广告为例，获得每个广告候选的加权近期点击率、加权中期点击率以及加权长期点击率后，则可知按照上述综合互动率的计算方式获得加权互动率。

进而，通过上述的方式则可以按照互动率的高低，将多个第二视频的候选序列，加权融合成为一个候选队列。

进而，基于各个候选媒体内容的加权互动率，选取加权互动率大于设定互动率阈值的至少一个候选媒体内容，构成第一视频的目标序列，并从目标序列中选取最终推荐给用户的媒体内容，并将该媒体内容推荐给用户，以在终端上的视频播放页面上进行显示，参见图10所示，在第一视频播放的同时，推荐的游戏广告也一并进行显示。

综上所述，本申请实施例提出的媒体内容推荐方法，通过对用户当前观看的视频，从图像、音频以及文本等多维度内容进行全面特征表示，充分理解视频内容，然后基于构建的视频表示向量检索相似且具备较好媒体内容表现的视频备选，将备选视频下具备较好用户行为表现的媒体内容作为当前视频的广告候选，进而经过广告候选与用户兴趣等排序，丰富视频广告召回方式，提升新用户或者新视频的媒体内容推荐效果。

请参见图12，基于同一发明构思，本申请实施例还提供了一种媒体内容推荐装置120，该装置包括：

相似视频检索单元1201，用于基于第一视频对应于多个数据维度的视频数据，获得与第一视频的相似度大于设定相似度阈值的多个第二视频；其中，每个数据维度对应视频的一种数据形式；

媒体内容确定单元1202，用于确定多个第二视频各自关联的候选媒体内容；其中，每个候选媒体内容，为相应的第二视频在历史播放时推荐的媒体内容；

媒体内容选择单元1203，用于基于获得的各个候选媒体内容各自对应的互动率，选取互动率满足设定条件的至少一个目标媒体内容；其中，每个互动率表征：基于一个候选媒体内容产生的交互次数与推荐次数之间的比值；

推荐单元1204，用于从至少一个目标媒体内容中，确定在第一视频播放时的待推荐媒体内容。

可选的，媒体内容确定单元1202，具体用于：

针对多个第二视频，分别执行如下操作：

针对一个第二视频，确定该第二视频播放时的多个历史推荐媒体内容；

分别获取多个历史推荐媒体内容各自对应于多个预设时间段的子互动率；

基于获得的多个子互动率，以及各个预设时间段各自对应的权重值，分别获得多个历史推荐媒体内容各自对应的综合互动率；

基于获得的各个综合互动率，选取出综合互动率大于设定互动率阈值的多个历史推荐媒体内容，选取的综合互动率大于设定互动率阈值的历史推荐媒体内容为该第二视频对应的候选媒体内容。

可选的，媒体内容选择单元1203，具体用于：

针对多个第二视频，分别执行如下操作：针对一个第二视频，基于一个第二视频与第一视频的相似度，以及一个第二视频的各个候选媒体内容的综合互动率，分别获得各个候选媒体内容各自对应的加权互动率；

基于各个候选媒体内容的加权互动率，选取加权互动率大于设定互动率阈值的至少一个候选媒体内容，选取的加权互动率大于设定互动率阈值的至少一个候选媒体内容即为目标媒体内容。

可选的，媒体内容选择单元1203，具体用于：

针对各个候选媒体内容中的重叠媒体内容，基于重叠媒体内容分别对应于各个第二视频的加权互动率，确定重叠媒体内容最终的加权互动率；其中，重叠媒体内容为不同第二视频对应的候选媒体内容中相同的媒体内容。

可选的，媒体内容选择单元1203，具体用于：

针对各个候选媒体内容，分别执行如下操作：

针对一个候选媒体内容，基于候选媒体内容对应于多个预设时间段的子互动率，以及一个候选媒体内容对应的相似度，获得候选媒体内容的多个加权子互动率；其中，一个候选媒体内容对应的相似度为一个候选媒体内容对应的第二视频，与第一视频之间的相似度；

基于获得的多个加权子互动率，获得一个候选媒体内容的加权互动率；

可选的，相似视频检索单元1201，具体用于：

采用已训练的多维度表示模型，基于第一视频对应于多个数据维度的视频数据，获得第一视频的视频表示向量；

基于第一视频的视频表示向量，与视频库中各个视频的视频表示向量之间的相似度，获得多个第二视频；

其中，多维度表示模型是基于各个维度的视频数据样本集合进行预训练，且基于多个视频组合样本进行再训练获得的，每一视频数据样本集合包括各个视频对应于同一数据维度的视频数据样本，每一视频组合样本包括已标注相似度的两个视频。

可选的，该装置还包括模型训练单元1205，用于：

针对各个视频，分别执行如下操作：

对多个基础表示向量进行特征融合，获得一个视频的视频表示向量；

基于视频表示向量，确定一个视频的预测视频类型以及预测视频标签；

基于获得的预测视频类型以及预测视频标签，以及一个视频的标注视频类型和标注视频标签，确定一个视频的视频表示损失；

基于获得的各个视频的视频表示损失，对多维度表示模型进行参数调整。

可选的，模型训练单元1205，还用于：

针对各个视频组合样本，分别执行如下操作：

针对一个视频组合样本，基于一个视频组合样本包括的两个视频的视频数据，分别获得两个视频各自对应的视频表示向量；

对两个视频各自对应的视频表示向量进行特征融合，获得一个视频组合样本的融合表示向量；

基于融合表示向量，获得两个视频之间的预测相似度；

基于获得的各个视频组合样本各自对应的预测相似度以及标注相似度，获得多维度表示模型的相似度预测损失；

基于相似度预测损失，对多维度表示模型进行参数调整。

可选的，该装置还包括样本获取单元1206，用于：

获取视频搜索日志，视频搜索日志包括多个搜索关键词以及多个搜索关键词各自对应的多个视频；

针对多个搜索关键词中各个搜索关键词，分别执行如下操作：

针对一个搜索关键词，按照互动率由大到小的顺序，对一个搜索关键词对应的多个视频进行排序；

从排序位于前N个的视频中选取两个视频，组成一个视频组合正样本；其中，N为正整数，且N不大于多个视频的数量的一半，视频组合正样本为包括的两个视频的相似度大于设定相似度阈值的视频组合样本；以及，

从排序后的多个视频中，选取间隔的视频数量大于设定数量阈值的两个视频，组成一个视频组合负样本；其中，视频组合负样本为包括的两个视频的相似度不大于设定相似度阈值的视频组合样本。

可选的，推荐单元1204，具体用于：

针对至少一个目标媒体内容，分别执行如下操作：

针对一个目标媒体内容，采用已训练的媒体内容表示模型获得该目标媒体内容的媒体内容表示向量；

基于媒体内容表示向量，以及播放第一视频时使用的目标账户的账户表示向量，获得该目标媒体内容与目标账户之间的匹配度；

采用已训练的媒体内容排序模型，基于该目标媒体内容的互动率数据，获得该目标媒体内容的预估互动率；

基于匹配度以及预估互动率，获得该目标媒体内容的推荐度；

基于获得的各个目标媒体内容的推荐度，从至少一个目标媒体内容中确定出待推荐媒体内容。

该装置可以用于执行图3~图11所示的实施例中所示的方法，因此，对于该装置的各功能模块所能够实现的功能等可参考图3~图11所示的实施例的描述，不多赘述。其中，模型训练单元1205和样本获取单元1206并不是必选的功能单元，因此在图12中以虚线进行示出。

请参见图13，基于同一技术构思，本申请实施例还提供了一种计算机设备130，可以包括存储器1301和处理器1302。其中，该计算机设备130例如可以为图1或者图2所示的服务器102或者终端设备101。

所述存储器1301，用于存储处理器1302执行的计算机程序。存储器1301可主要包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需的应用程序等；存储数据区可存储根据计算机设备的使用所创建的数据等。处理器1302，可以是一个中央处理单元（central processing unit， CPU），或者为数字处理单元等等。本申请实施例中不限定上述存储器1301和处理器1302之间的具体连接介质。本申请实施例在图13中以存储器1301和处理器1302之间通过总线1303连接，总线1303在图13中以粗线表示，其它部件之间的连接方式，仅是进行示意性说明，并不引以为限。所述总线1303可以分为地址总线、数据总线、控制总线等。为便于表示，图13中仅用一条粗线表示，但并不表示仅有一根总线或一种类型的总线。

存储器1301可以是易失性存储器（volatile memory），例如随机存取存储器（random-access memory，RAM）；存储器1301也可以是非易失性存储器（non-volatilememory），例如只读存储器，快闪存储器（flash memory），硬盘（hard disk drive，HDD）或固态硬盘（solid-state drive，SSD）、或者存储器1301是能够用于携带或存储具有指令或数据结构形式的期望的程序代码并能够由计算机存取的任何其他介质，但不限于此。存储器1301可以是上述存储器的组合。

处理器1302，用于调用所述存储器1301中存储的计算机程序时执行如图3~图11所示的实施例中设备所执行的方法。

在一些可能的实施方式中，本申请提供的方法的各个方面还可以实现为一种程序产品的形式，其包括程序代码，当所述程序产品在计算机设备上运行时，所述程序代码用于使所述计算机设备执行本说明书上述描述的根据本申请各种示例性实施方式的方法中的步骤，例如，所述计算机设备可以执行如图3~图11所示的实施例中设备所执行的方法。

所述程序产品可以采用一个或多个可读介质的任意组合。可读介质可以是可读信号介质或者可读存储介质。可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件，或者任意以上的组合。可读存储介质的更具体的例子（非穷举的列表）包括：具有一个或多个导线的电连接、便携式盘、硬盘、随机存取存储器（RAM）、只读存储器（ROM）、可擦式可编程只读存储器（EPROM或闪存）、光纤、便携式紧凑盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。

尽管已描述了本申请的优选实施例，但本领域内的技术人员一旦得知了基本创造性概念，则可对这些实施例做出另外的变更和修改。所以，所附权利要求意欲解释为包括优选实施例以及落入本申请范围的所有变更和修改。

显然，本领域的技术人员可以对本申请进行各种改动和变型而不脱离本申请的精神和范围。这样，倘若本申请的这些修改和变型属于本申请权利要求及其等同技术的范围之内，则本申请也意图包含这些改动和变型在内。

Claims

1.一种媒体内容推荐方法，其特征在于，所述方法包括：

针对所述至少一个目标媒体内容，分别执行如下操作：针对一个目标媒体内容，采用已训练的媒体内容表示模型获得所述一个目标媒体内容的媒体内容表示向量；基于所述媒体内容表示向量，以及播放所述第一视频时使用的目标账户的账户表示向量，获得所述一个目标媒体内容与所述目标账户之间的匹配度；采用已训练的媒体内容排序模型，基于所述一个目标媒体内容的互动率数据，获得所述一个目标媒体内容的预估互动率；基于所述匹配度以及预估互动率，获得所述一个目标媒体内容的推荐度；

基于获得的各个目标媒体内容的推荐度，从所述至少一个目标媒体内容中，确定在所述第一视频播放时的待推荐媒体内容。

2.如权利要求1所述的方法，其特征在于，确定所述多个第二视频各自对应的多个候选媒体内容，包括：

针对所述多个第二视频，分别执行如下操作：

基于获得的各个综合互动率，选取出综合互动率大于设定互动率阈值的历史推荐媒体内容，选取的综合互动率大于设定互动率阈值的历史推荐媒体内容为所述一个第二视频对应的候选媒体内容。

3.如权利要求2所述的方法，其特征在于，基于获得的各个候选媒体内容各自对应的互动率，选取互动率满足设定条件的至少一个目标媒体内容，包括：

基于各个候选媒体内容的加权互动率，选取加权互动率大于设定互动率阈值的至少一个候选媒体内容，选取的加权互动率大于设定互动率阈值的至少一个候选媒体内容为所述目标媒体内容。

4.如权利要求3所述的方法，其特征在于，在基于各个候选媒体内容的加权互动率，选取加权互动率大于设定互动率阈值的至少一个候选媒体内容之前，所述方法还包括：

5.如权利要求2所述的方法，其特征在于，基于获得的各个候选媒体内容各自对应的互动率，选取互动率满足设定条件的至少一个目标媒体内容，包括：

针对各个候选媒体内容，分别执行如下操作：

基于所述各个候选媒体内容的加权互动率，选取加权互动率大于设定互动率阈值的至少一个候选媒体内容，选取的加权互动率大于设定互动率阈值的至少一个候选媒体内容为所述目标媒体内容。

6.如权利要求1所述的方法，其特征在于，基于第一视频对应于多个数据维度的视频数据，获得与所述第一视频的相似度大于设定相似度阈值的多个第二视频，包括：

7.如权利要求6所述的方法，其特征在于，一次预训练包括如下操作：

针对所述各个视频，分别执行如下操作：

8.如权利要求6所述的方法，其特征在于，一次再训练包括如下操作：

针对所述各个视频组合样本，分别执行如下操作：

9.如权利要求6-8任一所述的方法，其特征在于，在基于多个视频组合样本进行再训练之前，所述方法还包括：

10.一种媒体内容推荐装置，其特征在于，所述装置包括：

推荐单元，用于针对所述至少一个目标媒体内容，分别执行如下操作：针对一个目标媒体内容，采用已训练的媒体内容表示模型获得所述一个目标媒体内容的媒体内容表示向量；基于所述媒体内容表示向量，以及播放所述第一视频时使用的目标账户的账户表示向量，获得所述一个目标媒体内容与所述目标账户之间的匹配度；采用已训练的媒体内容排序模型，基于所述一个目标媒体内容的互动率数据，获得所述一个目标媒体内容的预估互动率；基于所述匹配度以及预估互动率，获得所述一个目标媒体内容的推荐度；以及，基于获得的各个目标媒体内容的推荐度，从所述至少一个目标媒体内容中，确定在所述第一视频播放时的待推荐媒体内容。

11.一种计算机设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其特征在于，

所述处理器执行所述计算机程序时实现权利要求1至9任一项所述方法的步骤。

12.一种计算机存储介质，其上存储有计算机程序指令，其特征在于，

该计算机程序指令被处理器执行时实现权利要求1至9任一项所述方法的步骤。