CN111274440B

CN111274440B - 一种基于视觉和音频内容相关度挖掘的视频推荐方法

Info

Publication number: CN111274440B
Application number: CN202010060686.9A
Authority: CN
Inventors: 董建锋; 章磊敏; 叶金德; 陈书界; 王勋
Original assignee: Zhejiang Gongshang University
Current assignee: Zhejiang Gongshang University
Priority date: 2020-01-19
Filing date: 2020-01-19
Publication date: 2022-03-25
Anticipated expiration: 2040-01-19
Also published as: CN111274440A

Abstract

本发明公开了一种基于视觉和音频内容相关度挖掘的视频推荐方法，该方法通过分析视频的视觉和音频内容挖掘视频之间的相关度。考虑现有的视频特征表示不是专门针对推荐任务设定的，本发明提出级联多特征融合映射网络对现有视频特征进行映射，并通过负样本增强三元损失函数训练模型，最终得到更适合视频推荐任务的二级特征表示，从而更好的衡量视频之间的相关度。为了充分挖掘视频的内容特征，本发明还提出特征交叉门控融合模块有效地对视频视觉和音频特征进行融合，该模块通过类似注意力机制衡量不同特征之间的交互作用，通过权重来加强特征中的重要信息，剔除冗余信息。本发明方法可以有效地解决视频的冷启动问题，并能够有效提高视频推荐性能。

Description

一种基于视觉和音频内容相关度挖掘的视频推荐方法

技术领域

本发明属于视频推荐技术领域，特别涉及一种利用视频的视觉和音频内容计算视频间相关度以向用户进行推荐视频的方法。

背景技术

随着多媒体与信息技术的快速发展，视频已经逐渐成为人们分享日常生活、获取信息、和娱乐的重要媒介。以视频分享平台YouTube和快手为例，据统计，2018年YouTube平台上每分钟上传的视频总时长约为300小时；抖音平台每天产生的新视频数量就达到了1200万。面对海量的视频数据，用户如何快速从中获取其感兴趣的视频是一个巨大的挑战。视频推荐是缓解这一挑战的重要方法之一。

现有的视频推荐方法主要可以分成两大类，基于协同过滤的视频推荐和基于内容的视频推荐。基于协同过滤的视频推荐方法的主要思想是利用用户群的过去行为(视频评分，视频浏览记录等)预测目标用户可能感兴趣的视频。比如，基于用户行为寻找出与目标用户相似的群体，将这个群体感兴趣的视频推荐给目标用户。基于协同过滤的视频推荐的缺点之一是无法处理视频的冷启动问题。当一个新视频上传到系统时，该视频没有任何用户评价和浏览等信息，因此协同过滤推荐方法无法将该新视频推荐给用户。现有的视频分享平台每天都产生海量的视频，这使得视频的冷启动问题变得更为严重。而基于内容的视频推荐方法则建立在视频内容信息的基础上，它并不依赖于用户对于视频的评分、浏览等用户行为。现有基于内容的视频推荐方法主要利用视频的元数据(例如视频的题目，标签，类型等)找到与目标用户观看过的相似视频，并将其推荐给目标用户。例如，两部电影的类型相同，导演为同一个，主要演员也差不多，如果用户看过其中一部电影，也可将另一部电影推荐给用户。但是以这种元数据为驱动的基于内容的推荐也并不完善，因为视频的元数据并不总是可用，同时元数据的质量也不能保证。比如，在视频分享平台上很多视频是由用户上传的，可能不会有完整的元数据；另外，视频的标题也很容易更改，可能是为了吸引用户而与视频本身的内容并没有关系。这些都会影响基于内容的视频推荐方法的性能。

发明内容

针对现有技术的不足，本发明提出了一种基于视觉和音频内容相关度挖掘的视频推荐方法，该推荐方法通过分析视频的视觉和音频内容挖掘视频之间的相关度，并基于相关度为目标用户推荐其可能感兴趣的视频。为了充分挖掘视频的内容特征，本发明还提出特征交叉门控融合模块有效地对视频视觉和音频特征进行融合。此外，当视频被创建之后，视频的视觉和音频内容就可被使用，因此本发明提出的推荐方法可以有效地解决视频的冷启动问题。相比于视频的元数据，视频的视觉和音频内容一直可用也更加的可靠，因此能有效提高视频推荐的性能。

本发明的目的是通过以下技术方案实现的：一种基于视觉和音频内容相关度挖掘的视频推荐方法，该方法包括以下步骤：

(1)利用深度卷积神经网络(CNN)对视频的视觉信息和音频信息进行特征提取，分别得到它们的初始特征表示。

(2)对于步骤(1)中得到的初始特征，利用平均池化的方法获得视频级的视觉和音频特征。

(3)将步骤(2)中得到的视频级的视觉特征和音频特征输入到我们提出的级联多特征融合映射网络中，从而学习到更适合视频推荐任务的二级特征表示。

(4)利用我们提出的负样本增强三元损失函数(negative-enhanced tripletloss)来学习视频之间的相关度。

(5)在训练集上以端到端的方式训练模型。

(6)通过步骤(5)得到训练完成的模型后，我们根据新特征表示计算任何两个视频之间的相关度，并根据用户的视频浏览记录为其推荐视频。

进一步地，所述步骤(1)中分别提取视频和音频特征的方法包括如下步骤：

(1-1)视频可以看作由连续的帧级图像组成，因此我们从视频中采样帧级的视频图像，然后利用预训练的深度卷积神经网络对输入的视频帧进行视觉表观特征提取，获得视频的初始视觉特征。

(1-2)音频同样能够反映用户对视频的感兴趣程度，因此我们额外利用音频特征以实现更好的推荐效果。我们将视频划分为不重叠的视频片段，并获取每一个视频片段中的音频信息，再将其输入到预训练的音频神经网络，获得视频的初始音频特征。

进一步地，所述步骤(2)中使用平均池化处理步骤(1)中的初始特征，从而得到视频级的特征步骤如下：

(2-1)对于步骤(1-1)中得到的初始视觉特征，我们对其进行平均池化操作，得到视频级的视觉特征。该步骤可以降低特征的维度，提高计算效率。

(2-2)对于步骤(1-2)中得到的初始音频特征，与步骤(2-1)类似，我们同样地对其平均池化操作得到视频级的音频特征。

进一步地，所述步骤(3)中使用级联多特征融合映射网络的步骤如下：

(3-1)考虑到不同特征之间存在一定的信息冗余和互补性，我们提出特征交叉门控融合模块，该模块通过类似注意力机制的门控单元筛选掉一部分不重要的特征，而保留重要的特征。我们首先将步骤(2)中得到的视频级的音频和视觉特征输入到特征交叉门控融合模块进行特征融合得到第一级特征表示。

(3-2)将步骤(2)中得到的视频级的音频特征和视觉特征进行拼接，然后将其和步骤(3-1)中得到的一级特征表示一起再次输入到另一个特征交叉门控融合模块。该步骤将对特征进行进一步的提炼，从而得到视频的第二级特征表示。

进一步地，所述步骤(4)中的通过负样本增强三元损失函数学习视频之间的相关度的步骤如下：

(4-1)我们所提出的负样本增强三元损失函数是在三元排序损失(tripletranking loss)基础上进行的改进。由于三元排序损失仅关注样本之间的相对距离，而忽略样本之间的绝对距离(即相关视频对之间的接近程度和不相关视频之间的远离程度)，这会在一定程度上影响其训练良好模型的有效性。我们在其基础上加入了对负样本对的强制性约束，我们添加额外的约束来控制视频对之间的绝对距离来改善三元排序损失，从而学习到更能反应视频相关度的特征表示。

(4-2)不同特征表示空间下特征所表示的含义及侧重点可能有所不同，因此该负样本增强三元损失函数会同时对步骤(3-1)和步骤(3-2)中的两个特征表示空间进行约束，并且根据不同特征表示空间下所含有的信息的重要程度给予权重，最终对这两个特征表示空间下的损失加权求和来作为训练整个模型的最终损失。

进一步地，所述步骤(5)中的具体训练细节如下：

(5-1)构建用于训练的视频三元组数据：在训练集上，对于每一个三元组，我们选定一个视频为锚样本，如果有多人同时观看过某视频与锚样本视频，则将该视频视为正样本，同时随机地从不是正样本的其他视频中挑选一个视频作为负样本。

(5-2)采用基于adam的批量数据随机梯度下降(Stochastic Gradient Descent)优化算法训练模型，在所构建的训练集上最小化负样本增强三元损失函数。

考虑到如果候选视频与目标用户观看的某些视频相关，则该用户很有可能对候选视频感兴趣。因此，我们根据候选视频与用户浏览历史中的视频的相关度来决定是否把候选视频推荐给目标用户，相关度高的候选视频被推荐给用户，反之则不被推荐。所述步骤(6)为针对两种不同情景设计的视频相关度计算方式及视频推荐过程：

(6-1)在第一种场景，假设指定候选视频与其他候选视频的相关关系是未知的，因此我们只通过种子视频和指定候选视频内容来预测它们的相关度。其中，种子视频是指目标用户浏览过的某个视频，候选视频是所有可被推荐的视频。

(6-2)在第二种场景，假设指定候选视频与其他候选视频的相关关系是已知的。因此，除了视频的内容信息外，我们额外利用指定候选视频与其他候选视频的相关关系来更好的衡量视频之间的相关度。

(6-3)已知用户的浏览历史，我们根据不同场景选择步骤(6-1)或步骤(6-2)中的方法计算用户浏览历史中的每个视频和候选视频的相关度，并将所有相关度的均值作为用户对候选视频感兴趣程度。

(6-4)通过步骤(6-3)我们可以计算出用户对所有候选视频的感兴趣概率，然后将感兴趣概率最高的前K个视频推荐给目标用户。

本发明的有益效果是：本发明方法通过分析视频的视觉和音频内容挖掘视频之间的相关度，并针对不同的推荐场景设计了两种不同的相关度计算方法。考虑现有的视频特征表示不是专门针对推荐任务设定的，本发明提出级联多特征融合映射网络对现有视频特征进行映射，并通过负样本增强三元损失函数训练模型，最终得到更适合视频推荐任务的二级特征表示，从而更好的衡量视频的相关度。此外，为了充分挖掘视频的内容特征，本发明还提出特征交叉门控融合模块有效地对视频视觉和音频特征进行融合，该模块通过类似注意力机制衡量不同特征之间的交互作用，通过权重来加强特征中的重要信息，剔除冗余信息。由于当视频被创建之后，其视觉和音频内容通常可被使用，因此本发明方法可以有效的解决视频的冷启动问题。此外，相比于易被篡改的元数据，视频的视觉和音频内容一直可用也更加的可靠，因此本发明能有效提高视频推荐的性能。

附图说明

图1为整体模型框架图；

图2为特征交叉门控融合模块的框架图。

具体实施方式

为使本发明的上述目的、特征和优点能够更加明显易懂，下面结合附图对本发明的具体实施方式做详细的说明。

在下面的描述中阐述了很多具体细节以便于充分理解本发明，但是本发明还可以采用其他不同于在此描述的其它方式来实施，本领域技术人员可以在不违背本发明内涵的情况下做类似推广，因此本发明不受下面公开的具体实施例的限制。

本发明提出的一种基于视觉和音频内容相关度挖掘的视频推荐方法，该方法通过分析视频的视觉和音频内容挖掘视频之间的相关度，并根据用户的浏览记录为其推荐与其浏览过的视频相关度较高的视频。整个方法可以分为训练过程和测试过程。在训练过程中使用级联多特征融合映射网络将视频映射到两个统一的特征表示空间，使得相关度高(即两个视频被同一个用户观看)的视频在特征表示空间的距离小，反之则距离远。在测试时，根据视频在特征表示空间的距离来推测不同视频之间的相关度，然后根据用户的浏览历史，给目标用户推荐与浏览历史中的视频相关度较高的视频。本方法对视频本身的视觉和音频内容进行建模，当视频被创建之后，其视觉和音频内容就可被使用，因此不存在视频的冷启动问题；此外，相比于视频的元数据，视频的视觉和音频内容更加的可靠，因此能有效提高视频推荐的性能。本发明方法具体包括以下步骤：

(1)利用深度卷积神经网络分别提取视频帧的视觉特征和视频片段音频特征。

(1-1)抽取视频的视觉特征：给定的一个视频v，我们每隔0.5秒从视频中提取一个视频帧，共得到n个视频帧，然后使用训练好的卷积神经网络模型(在ImageNet数据集上训练好的ResNet152模型)提取视频每帧的深度视觉特征向量。这样，视频就由一系列视频帧级的视觉特征向量{v₁,v₂,...,v_n}来描述，其中v_t表示第t帧的视觉特征向量。

(1-2)除了视频的视觉特征外，音频同样能够反映用户对视频的感兴趣程度，因此我们额外利用音频特征以实现更好的推荐效果。对于视频的音频特征抽取，给定的一个视频v，我们将其分成不重叠的m个视频片段，然后我们根据梅尔频率倒谱系数(MFCC)从每个原始视频片段中提取初始音频特征，接着我们使用经过YouTube-8M预训练的VGG-inspired音频网络，从m个初始音频特征中提取其深度音频特征向量。同样地，视频音频就由一系列的音频特征向量{a₁,a₂,...,a_m}来描述，其中a_t表示第t个片段的音频特征向量。

(2)获取视频的全局视觉特征和音频特征，具体步骤如下：

(2-1)将视频帧级的原始视觉特征转换成视频级的视觉特征：对步骤(1)得到的视频帧级视觉特征用平均池化方法进行处理，也就是将每个特征向量求和然后取均值。具体地，我们使用

来表示平均池化后得到的视频v的视频级视觉特征，计算公式为：

(2-2)将多个片段组成的原始音频特征转换为视频级的音频特征。方法与步骤(2-1)相同，对每个特征向量求和然后取均值。具体地，

来表示平均池化后得到的视频v的音频特征，计算公式为：

(3)由于步骤(2)得到的视频的视觉特征和音频特征是专门针对视频分类任务设定的，直接用该特征计算视频之间的相关度用于视频推荐任务不是最佳的。因此，我们提出级联多特征融合映射网络(如图1所示)，将原始特征进行重新映射得到两个新的特征表示，使之更好的适用于视频推荐任务。

(3-1)考虑到不同特征之间存在一定的信息冗余和互补性，我们提出特征交叉门控融合模块，该模块将两种不同的特征作为输入，通过类似注意力机制的门控单元交叉地控制另一个特征，筛选掉一部分不重要的特征信息，而保留重要的特征信息。图2展示了特征交叉门控融合模块的框架图。假设输入的两种特征分别为x和y，我们先用特征y来控制x得到过滤后的特征x′。具体地，我们分别先对输入特征作一次线性变化，得到f₁(x)和h₁(y)；由于不同的特征具有不同的特性，我们不共享两个特征的变化参数，分别用不同的线性变化对输入的特征进行操作。其次，我们通过sigmoid非线性激活函数将特征h₁(y)输出大小映射到0到1之间，并将其与特征f₁(x)进行哈达曼积操作(特征向量中每个对应元素进行乘法)，得到过滤后的新特征x′。在这里，经过sigmoid非线性激活函数后的h₁(y)相当于一个门控向量，来控制f₁(x)特征，通过两个不同特征之间的交互引入不同特征维度之间的非线性作用，从而根据权重的大小调节特征维度的信息。x′的具体计算公式如下：

其中，W₁和W₂是线性变化的仿射矩阵参数，b₁和b₂是偏置项，σ表示sigmoid激活函数。同样地，我们互换两个特征的顺序，用特征x来控制y得到过滤后的特征y′，具体的计算公式为：

其中，W₃和W₄是线性变化的仿射矩阵参数，b₃和b₄是偏置项。之后，我们将经过门控单元过滤后的特征x′和y′进行拼接，并将其输入到一个新的线性层，最后得到融合的特征g(x,y)：

g(x,y)＝W₅([x′,y′])+b₅ (2-3)

其中，[,]代表特征拼接操作，W₅和b₅分别为线性层的仿射矩阵参数和偏置项。

我们利用前述方法的特征交叉门控融合模块对视频视觉特征

和音频特征

进行融合，得到

该特征为视频的第一级特征表示。为了便于后续的描述，我们将特征表示空间记为

(3-2)为了进一步挖掘融合后的特征与原始特征的关系，我们将融合后的特征与原始特征进行再一次的交互融合，得到视频的第二级特征表示。具体地，我们将步骤(2)中的视觉和音频全局特征

和

进行拼接，然后将拼接后的特征与步骤(3-1)中的输出

一起输入到第二个特征交叉门控特征融合模块。第二个交叉门控融合模块的结构与步骤(3-1)中的结构类似，但两者是独立的且不共享任何参数。因此，视频的第二级特征表示为：

同样地，为了便于后续的描述，我们将第二级特征表示所在的特征表示空间记为

(4)为了使得视频能在特征表示空间

和

更好地反应视频之间的相关关系，我们提出负样本增强三元损失函数来约束特征表示空间的学习。

(4-1)三元排序损失(triplet ranking loss)是空间距离学习中常用的损失函数。其包括锚(Anchor)样本、正(Positive)样本、负(Negative)样本，通过优化锚样本与正样本的距离小于锚样本与负样本的距离，实现在特征表示空间上相关视频之间的距离小于不相关视频之间的距离。我们可以发现，三元排序损失仅关注样本之间的相对距离，而忽略样本之间的绝对距离(即相关视频对之间的接近程度和不相关视频之间的远离程度)。这会在一定程度上影响其训练良好模型的有效性。因此，我们通过添加额外的约束来控制视频对之间的绝对距离来改善三元排序损失。我们在三元排序损失的基础上添加不相关样本对的约束。该约束旨在让不相关视频对在新的特征表示空间中远离，因此我们强制不相关视频对的相似性小于给定的常数。注意，视频的特征相似性越小表明其在特征表示空间的距离越远。下面的描述以在特征表示空间

为例，对于一个三元组(v,v⁺,v^-)，加入约束项的目标函数可以表示成：

其中，v,v⁺,v^-分别表示锚样本、正样本、负样本，m₁和m₂代表常数阈值，其取值与相似度的度量方式有关。对于余弦相似度，m₁的可选范围为0到2之间，我们设m₁为0.2，m₂的可选范围为-1到1之间，m₂通常取一个较小值，使得不相关视频对的相关度较小，本实施例中m₂取-0.5。在训练过程中，当不相关的视频在重新学习的特征表示空间中相似度大于m₂时，约束项将对模型进行惩罚，以调整特征表示空间以使该视频对远离。

代表视频v和v′在统一的特征表示空间

的余弦相似度，其计算公式为：

其中，·表示向量点积，||||表示向量的模。为了便于优化，我们可以将公式(4)的目标函数转化为最小化下面的损失函数：

其中，α代表常数权重，用于调节新增加约束项的重要程度，α通常取0.1到1。

(4-2)我们将负样本增强三元排序损失同时作用于级联多特征融合映射网络的第一层映射后的特征表示空间

和第二层映射后的特征表示空间

并最小化两个损失函数。整个模型的优化目标如下：

其中，θ表示模型中所有需要训练的参数，Γ＝{(v,v⁺,v^-)}是包含锚样本、正样本、负样本的三元组训练集，γ为常数权重，本实施例中取1。

进一步地，所述步骤(5)中在训练集上以端到端的方式训练模型的具体步骤如下：

(5-1)训练三元组数据集的构建。给定数量为z的训练视频{v_a,v_b...}，对于其中任一视频v_i，已知有c个视频{v_i1,v_i2...v_ic}与视频v_i是相关的。我们将v_i作为锚样本，{v_i1,v_i2...v_ic}中任取一个作为正样本，从整个数据集中除v_i及v_i1,v_i2...v_ic外随机任取一个视频作为不相关的负样本，从而组成一个三元组(v,v⁺,v^-)。如果已知一个视频有c个视频与其相关，我们可以得到c个不同的三元组。通过这种方法，我们最终得到用于训练的三元组集Γ＝{(v,v⁺,v^-)}。

(5-2)我们采用基于adam的批量数据随机梯度下降(Stochastic GradientDescent)优化算法训练模型，在所构建的训练集上最小化负样本增强三元损失函数。我们将批量数据(mini-batch)的大小设为32，初始学习率为0.001，最大训练周期设为50。在训练过程中，如果验证集上的性能在两个连续的训练周期后没有提升，则将学习率除以2；如果连续10个训练周期验证集上的性能都没有提升，则停止训练。

(6)考虑到如果候选视频与目标用户观看的某些视频相关，则该用户很有可能对候选视频感兴趣。因此，我根据候选视频与用户浏览历史中的视频的相关度来决定是否把候选视频推荐给目标用户，相关度高的候选视频被推荐给用户，反之则不被推荐。通过步骤(5)将模型训练完成后，我们可以根据视频的视觉和音频内容计算视频之间的相关度。根据推荐场景的不同，我们分别采用两种不同的策略来计算视频之间的相关度。

(6-1)在第一种场景，假设指定候选视频与其他候选视频的相关关系是未知的，因此我们只能通过种子视频和指定候选视频内容来预测它们的相关度。其中，种子视频是指目标用户浏览过的某个视频，候选视频是所有可被推荐的视频。给定一个种子视频v_s和指定候选视频v_c，它们的相关度r(v_s,v_c)是分别在学习到的两个特征表示空间

和特征表示空间

的相关度加权和，具体计算如下：

其中，β是0-1之间的参数，

代表种子视频v_s和候选视频v_c在特征表示空间

中的相关度，

则表示在特征表示空间

的相关度。

(6-2)在第二种场景，我们假设指定候选视频与其他候选视频的相关关系是已知的。即如果在候选视频中有一些视频同时被大量人群所观看，则我们可以认为这些视频之间是相关的，如果我们已知了这种相关关系，则我们可以在计算相关度时引入这种相关关系。考虑到如果指定候选视频的相关视频与种子视频相关，则指定候选视频也很可能与种子视频相关。因此我们将与指定候选视频最相关的q个视频与种子视频相关度也引入到候选视频和种子视频相关度的衡量中，计算公式如下：

其中，

表示与候选视频v_c相关的第i个视频。

(6-3)给定用户历史浏览过e个视频V_u＝{v_u1,v_u2...,v_ue}，计算用户对候选视频v_s感兴趣的概率。如果候选视频与用户浏览历史中的视频的整体相关度越高，则用户对候选视频v_s感兴趣的概率也越高，反之则概率越低。因此我们将用户浏览过的视频与候选视频v_s的平均相关度作为视频v_s被推荐的概率，具体计算公式如下：

根据指定候选视频与其他候选视频的相关关系的已知情况，R(v_s,v_ui)可选择公式(8)或者(9)。如果相关关系未知则选择公式(8)的计算结果，反之则选择公式(9)。

(6-4)根据公式(10)，给目标用户推荐若干其感兴趣概率最高的前K个视频。给定一组候选视频，用H表示，我们根据公式(10)按降序对候选视频进行排序。更正式地说，我们解决以下优化问题：

最终，我们将感兴趣概率最高的前K个视频推荐给目标用户。

以上所述仅是本发明的优选实施方式，虽然本发明已以较佳实施例披露如上，然而并非用以限定本发明。任何熟悉本领域的技术人员，在不脱离本发明技术方案范围情况下，都可利用上述揭示的方法和技术内容对本发明技术方案做出许多可能的变动和修饰，或修改为等同变化的等效实施例。因此，凡是未脱离本发明技术方案的内容，依据本发明的技术实质对以上实施例所做的任何的简单修改、等同变化及修饰，均仍属于本发明技术方案保护的范围内。

Claims

1.一种基于视觉和音频内容相关度挖掘的视频推荐方法，其特征在于，该方法包括以下步骤：

(1)利用深度卷积神经网络对视频的视觉信息和音频信息进行特征提取，分别得到它们的初始特征表示；

(2)对于步骤(1)中得到的初始特征，利用平均池化的方法获得视频级的视觉和音频特征；

(3)将步骤(2)中得到的视频级的视觉特征和音频特征输入到级联多特征融合映射网络中，从而学习到更适合视频推荐任务的二级特征表示；使用级联多特征融合映射网络的步骤如下：

(3-1)将步骤(2)中得到的视频级的音频和视觉特征输入到特征交叉门控融合模块进行特征融合得到视频的第一级特征表示；

(3-2)将步骤(2)中得到的视频级的音频特征和视觉特征进行拼接，然后将其和步骤(3-1)中得到的一级特征表示一起再次输入到另一个特征交叉门控融合模块进行特征融合得到视频的第二级特征表示；

(4)利用负样本增强三元损失函数来学习视频之间的相关度；

(5)在训练集上以端到端的方式训练模型；

(6)通过训练完成的模型，根据新特征表示计算任何两个视频之间的相关度，并根据用户的视频浏览记录为其推荐视频。

2.根据权利要求1所述的一种基于视觉和音频内容相关度挖掘的视频推荐方法，其特征在于，所述步骤(1)中提取视频和音频特征的方法包括如下步骤：

(1-1)从视频中采样帧级的视频图像，然后利用预训练的深度卷积神经网络对输入的视频帧进行视觉表观特征提取，获得视频的初始视觉特征；

(1-2)将视频划分为不重叠的视频片段，并获取每一个视频片段中的音频信息，再将其输入到预训练的音频神经网络，获得视频的初始音频特征。

3.根据权利要求1所述的一种基于视觉和音频内容相关度挖掘的视频推荐方法，其特征在于，所述步骤(3)中特征交叉门控融合模块将两种不同的特征作为输入，通过门控单元交叉地控制另一个特征；假设输入的两种特征分别为x和y，首先用特征y来控制x得到过滤后的特征x′，包括：分别先对输入特征作一次线性变化，得到f₁(x)和h₁(y)；不共享两个特征的变化参数，分别用不同的线性变化对输入的特征进行操作；通过sigmoid非线性激活函数将特征h₁(y)输出大小映射到0到1之间，并将其与特征f₁(x)进行哈达曼积操作，得到过滤后的新特征x′；然后用特征x来控制y得到过滤后的特征y′；之后，将经过门控单元过滤后的特征x′和y′进行拼接，并将其输入到一个新的线性层，最后得到融合的特征g(x,y)。

4.根据权利要求3所述的一种基于视觉和音频内容相关度挖掘的视频推荐方法，其特征在于，所述步骤(3-1)中，利用特征交叉门控融合模块对步骤(2)中的视频级的视觉特征

和音频特征

进行融合，得到

该特征为视频的第一级特征表示。

5.根据权利要求4所述的一种基于视觉和音频内容相关度挖掘的视频推荐方法，其特征在于，所述步骤(3-2)中，将步骤(2)中的视频级的视觉特征

和音频特征

进行拼接，然后将拼接后的特征与步骤(3-1)中的输出

一起输入到第二个特征交叉门控特征融合模块，得到

该特征为视频的第二级特征表示；两个交叉门控融合模块是独立的且不共享任何参数。

6.根据权利要求1所述的一种基于视觉和音频内容相关度挖掘的视频推荐方法，其特征在于，所述步骤(4)中的通过负样本增强三元损失函数学习视频之间的相关度的步骤如下：

(4-1)负样本增强三元损失函数在三元排序损失基础上加入了对负样本对的强制性约束，添加额外的约束来控制视频对之间的绝对距离来改善三元排序损失，从而学习到更能反应视频相关度的特征表示；

(4-2)负样本增强三元损失函数会同时对步骤(3-1)和步骤(3-2)中的两个特征表示空间进行约束，并且根据不同特征表示空间下所含有的信息的重要程度给予权重，最终对这两个特征表示空间下的损失加权求和来作为训练整个模型的最终损失。

7.根据权利要求6所述的一种基于视觉和音频内容相关度挖掘的视频推荐方法，其特征在于，将负样本增强三元排序损失同时作用于级联多特征融合映射网络的第一层映射后的特征表示空间

和第二层映射后的特征表示空间

并最小化两个损失函数，整个模型的优化目标如下：

其中，θ表示模型中所有需要训练的参数，Γ＝{(v,v⁺,v-)}是包含锚样本、正样本、负样本的三元组训练集，γ为常数权重，

m₁和m₂代表常数阈值，α代表常数权重，用于调节新增加约束项的重要程度。

8.根据权利要求1所述的一种基于视觉和音频内容相关度挖掘的视频推荐方法，其特征在于，所述步骤(5)中的具体训练细节如下：

(5-1)构建用于训练的视频三元组数据：在训练集上，对于每一个三元组，选定一个视频为锚样本，如果有多人同时观看过某视频与锚样本视频，则将该视频视为正样本，同时随机地从不是正样本的其他视频中挑选一个视频作为负样本；

(5-2)采用基于adam的批量数据随机梯度下降优化算法训练模型，在所构建的训练集上最小化负样本增强三元损失函数。

9.根据权利要求1所述的一种基于视觉和音频内容相关度挖掘的视频推荐方法，其特征在于，所述步骤(6)针对两种不同情景设计的视频相关度计算方式及视频推荐过程：

(6-1)在第一种场景，假设指定候选视频与其他候选视频的相关关系是未知的，因此只通过种子视频和指定候选视频内容来预测它们的相关度；

(6-2)在第二种场景，假设指定候选视频与其他候选视频的相关关系是已知的；因此除了视频的内容信息外，额外利用指定候选视频与其他候选视频的相关关系来更好的衡量视频之间的相关度；

(6-3)已知用户的浏览历史，根据不同场景选择步骤(6-1)或步骤(6-2)中的方法计算用户浏览历史中的每个视频和候选视频的相关度，并将所有相关度的均值作为用户对候选视频感兴趣程度；

(6-4)通过步骤(6-3)计算出用户对所有候选视频的感兴趣概率，然后将感兴趣概率最高的前K个视频推荐给目标用户。