CN116704414A

CN116704414A - 基于byol无监督深度对比学习的近重复视频清洗方法

Info

Publication number: CN116704414A
Application number: CN202310695698.2A
Authority: CN
Inventors: 叶鸥; 霍小泉; 樊璐; 赵青; 付燕; 于振华; 邓军
Original assignee: Xian University of Science and Technology
Current assignee: Xian University of Science and Technology
Priority date: 2023-06-13
Filing date: 2023-06-13
Publication date: 2023-09-05

Abstract

本发明公开了基于BYOL无监督深度对比学习的近重复视频清洗方法，包括步骤：一、将从视频集中任意抽取的两个视频作为上、下分支视频，利用C3D深度神经网络对两视频进行特征提取，以获得各自的特征向量；二、两特征向量经过投影变换和预测变换得到各自的高维视频特征向量；三、计算两个高维特征向量之间的对比损失，检测两视频是否互为近重复视频数据；四、计算两高维特征向量的平均向量，保留与平均向量最近的特征向量所属视频，删除另一视频，重复上述步骤，直至将所有近重复视频数据全部删除为止，改善视频数据集的数据质量。本发明创新性的实现了基于无监督对比学习的近重复视频清洗，能够在视频数据无标注的条件下，改善视频数据质量。

Description

基于BYOL无监督深度对比学习的近重复视频清洗方法

技术领域

本发明属于数据清洗技术领域，具体涉及一种基于深度对比学习BYOL模型的近重复视频清洗方法。

背景技术

信息技术的飞速发展和视频网站的广泛应用使得人们能方便快捷的访问视频资源，但与此同时也伴随着大量近似重复视频的产生。这种现象给视频版权保护、视频监控管理带来了巨大挑战，同时也增加了视频网站运营商的存储和处理成本。基于上述背景，近重复视频检测成为了一个研究热点。近重复视频检测的主要研究主题在特征的处理上，包括基于底层视觉特征的特征提取方法和基于高层语义特征的特征提取方法。

然而，现有的近重复视频检测方法只能有效检测和识别出视频数据集中存在的近重复视频，较难自动清洗和删除近重复视频这类脏数据。因此，通过现有的近重复视频检测方法较难改善视频数据集的整体数据质量。

目前已有研究学者提出了近重复视频清洗方法，其方法是先利用视频的特征进行分类，然后利用设计的聚类清洗算法在保留聚类中心的同时，删除近重复视频数据，以便实现近重复视频数据的自动清洗。然而，在视频数据的清洗过程中，需要利用大量的视频标签进行监督学习的模型优化。事实上，每天大量的自媒体和监控视频数据不断涌现，手工的数据标注成本较大，自动标注方式存在标注不准确的问题，而且随着视频数据规模的迅速增大，目前较难完全实现所有视频数据的标注。因此，基于目前监督学习的视频数据清洗方法在实际应用过程中具有一定的局限性。为解决该问题，本发明引入无监督的深度对比学习方式，通过构建一种端到端的近重复视频清洗方法，既能够有效缓解实际应用过程中因视频数据标注不足，造成现有基于监督学习的近重复视频数据清洗方法难以有效自动删除近重复视频数据的问题，也可以克服现有近重复视频数据清洗方法存在多阶段训练目标不一致的问题。

发明内容

本发明所要解决的技术难题在于针对上述现有技术中的不足，提供一种基于深度对比学习BYOL模型的近重复视频清洗方法，利用深度对比学习强大的视频表征能力，将相似视频靠近，不相似视频分离，自动删除大量的冗余视频，在数据集无标注的情况下，依然能使视频数据集有较好的数据质量，实现无监督条件下视频数据集中近重复视频的自动清洗，便于推广使用。

为解决上述问题，本发明采用的技术方案是：基于深度对比学习BYOL模型的近重复视频清洗方法，其特征在于，该方法包括以下步骤：

步骤一、将从视频集中任意抽取的两个视频作为本发明模型的上、下分支视频，利用C3D深度神经网络对两视频进行特征提取以获得各自的特征向量；

步骤二、将经过上分支的C3D深度神经网络中提取到的特征向量经过上分支的投影变换结构和预测变换结构获得上分支视频的高维特征向量；而经过下分支的C3D深度神经网络中提取到的特征向量经过下分支的投影变换结构获得下分支视频的高维特征向量；

投影变换结构由两层MLP(Multilayer Perceptron，多层感知机)组成，本发明每一层MLP由输出尺寸为4096的线性层、批量归一化、校正线性单元ReLU和输出尺寸为256的线性层组成；预测变换结构由上述一层MLP组成。其中，上、下分支的投影变换结构相同。不同之处在于训练时参数的更新方式不同，上分支通过全局的随机梯度下降的更新方式调整参数，下分支通过动量更新的方式来调整参数。

步骤三、计算上、下分支两个视频的高维特征向量之间的对比损失，检测两视频是否互为近重复视频数据；

步骤四、若互为近重复视频数据，计算两视频高维特征向量的平均向量，保留与平均向量最近的特征向量所属视频，而删除另一视频，否则暂且保留两视频。然后，从视频集中剩余视频数据中选取未经过对比学习的视频数据，重复上述步骤，直至将视频集中近重复视频数据全部自动删除为止。

上述的基于BYOL无监督深度对比学习的近重复视频清洗方法，其特征在于：步骤一的实现过程如下：

步骤101，首先从视频集S＝{v₁，...，v_n}中选取任意一视频v_i，该视频被作为第一轮要清洗的视频类别，从视频集的剩余视频数据中任意取另一个视频v_j作为要进行对比学习的另一视频，其中，i，j∈[1，n]且i≠j，n表示视频集中视频的数量；

步骤102，将视频v_i输入到一个上分支C3D深度神经网络模型构成的编码器f_θ(·)中，以提取视频v_i的时空特征特征向量x_i；

将视频v_j输入到一个下分支C3D深度神经网络模型构成的编码器f_ξ(·)中，以提取视频v_j的时空特征特征向量x_j；

其中，表示维度空间，f_θ(·)和f_ξ(·)的网络结构相同，区别在于f_θ(·)通过全局的随机梯度下降的更新方式调整参数，f_ξ(·)通过动量更新的方式来调整参数。

上述的基于深度对比学习BYOL模型的近重复视频清洗方法，其特征在于：步骤二的实现过程如下：

步骤201，视频v_i的时空特征特征向量x_i经过上分支的投影变换结构g_θ(·)，得到投影向量z_i；

视频v_j的时空特征特征向量x_j经过下分支的投影变换结构g_ξ(·)，得到投影向量z_j；

其中，上分支的投影变换结构g_θ(·)和下分支的投影变换结构g_ξ(·)均由两层MLP(Multilayer Perceptron，多层感知机)组成，本发明每一层MLP由输出尺寸为4096的线性层、批量归一化、校正线性单元ReLU和输出尺寸为256的线性层组成；g_θ(·)和g_ξ(·)的网络结构相同，区别在于g_θ(·)通过全局的随机梯度下降的更新方式调整参数，g_ξ(·)通过动量更新的方式来调整参数。

步骤202，投影向量z_i通过预测变换结构q_θ(·)，得到上分支的高维特征向量q_θ(z_i)，预测变换结构由上述一层MLP组成。

分别对q_θ(z_i)、z_j进行L2正则化，得到表示向量||q_θ(z_i)||₂、||z_j||₂。这一步骤的目的是取出这两个隐含变量的绝对大小，而保留其方向性，为后面要做的向量点积做铺垫，同时优化后面的损失函数，防止模型在训练集过于复杂的情况下出现过拟合的现象，用来提高模型的泛化能力。

上述的基于深度对比学习BYOL模型的近重复视频清洗方法，其特征在于：步骤三中，采用MSE对比损失函数计算上、下分支高维特征向量之间的对比损失L(b_i，v_j)，给定损失阈值γ，通过对比损失L(v_i，v_j)和损失阈值γ之间的差值，检测视频v_i和视频v_j是否互为近重复视频，为下一步的近重复视频清洗做准备。对比损失函数可以表示为：

上述的基于深度对比学习BYOL模型的近重复视频清洗方法，其特征在于：步骤四的实现过程如下：

步骤401，当L(v_i，v_j)≤γ时，视频v_i和视频v_j互为近重复视频，则进入步骤402实现近重复视频的清洗；

当L(v_i，v_j)＞γ时，视频v_i和视频v_j为非近重复视频，则进入步骤403暂且保留两个视频；

步骤402，计算上分支的高维特征表示向量v_i和下分支的高维特征表示向量v_j的平均向量，进而保留与平均向量最近的高维特征表示向量所对应的视频，删除与平均向量远的高维特征表示向量所对应的视频；

两者之间的平均向量值可以表示为：

计算平均向量z_avg与向量q_θ(z_i)、z_j各自的欧式距离d_avg，i、d_avg，j，以此确定需要自动清洗的视频数据。欧氏距离的计算及清洗结果可以表示为：

之后，继续将保留的视频高维特征表示向量与剩余视频的高维特征表示向量进行上述步骤的计算，直至自动清洗完成视频数据集中的所有近重复视频数据。

步骤403，视频v_i，v_j均被保留，然后再从除v_i，v_j之外的剩余视频数据中选择某一视频与v_i进行上述步骤一至步骤四。

本发明与现有技术相比具有以下优点：

1、本发明提出了一种端到端的近重复视频数据清洗框架，解决了非端到端视频清洗框架中的多模块训练且训练目标不一致问题，使得近重复视频数据清洗方法能够得到模型优化的最优解，并且具有较好的鲁棒性。

2、本发明引入了深度对比学习的方式，实现无监督的近重复视频数据清洗，缓解因视频数据标注不足，造成现有基于监督学习的近重复视频数据清洗方法难以有效自动删除近重复视频数据的问题。

3、目前，现有的深度对比学习模型对正负样本要求比较严格，即需要构造正负样本，本发明采用的BYOL模型是一种对比式自监督方法，无需构造负样本，减少视频数据标注的工作量和成本。

综上所述，本发明通过端到端的方式简化了视频清洗过程，可以获得全局最优解，避免多次模型训练产生的局部最优解问题。此外，针对目前大部分视频数据集缺乏标注的问题，通过引入深度对比学习的方式，能够在数据无标注的条件下，实现近重复视频数据的自动清洗，有效提高视频数据集整体的数据质量。

下面通过附图和实施例，对本发明的技术方案做进一步的详细描述。

附图说明

图1为本发明的流程原理灰度图。

图2为本发明的方法流程框图。

具体实施方式

如图1和图2所示，本发明的基于BYOL无监督深度对比学习的近重复视频清洗方法，包括以下步骤：

本实施例中，步骤一的实现过程如下：

步骤102，将视频v_i输入到一个C3D深度神经网络模型构成的编码器f_θ(·)中，以提取视频v_i的时空特征特征向量x_i；

将视频v_j输入到一个C3D深度神经网络模型构成的编码器f_ξ(·)中，以提取视频v_j的时空特征特征向量x_j；

其中，表示维度空间，f_θ(·)和f_ξ(·)的网络结构相同，区别在于f_θ(·)通过全局的随机梯度下降的更新方式调整参数，f_ξ(·)通过动量更新的方式来调整参数。动量更新机制能够有效防止极端样本对参数更新影响过大的问题，阻止模型坍塌。

需要说明的是，C3D深度神经网络非常适合于时空特征学习，与2D卷积网络相比，3D卷积将视频多帧进行融合，提取连续帧之间的运动信息，通过3D卷积和3D池化操作更好地建模时间信息。在C3D深度神经网络中，卷积和池化操作在时空上执行，而在2D卷积网络中，它们仅在空间上完成。同时C3D深度神经网络提取的特征封装了视频中与目标、场景、动作有关的信息，使得这些特征对不同的任务都有用，而不需要对每个任务都微调模型。

为了获取视频的时序特征，将视频v_i和视频v_j的视频片段分别输入到C3D深度神经网络中进行特征提取，假设视频片段的大小为c×l×h×w，其中h×w表示视频帧的大小，c表示每帧的通道数，l表示视频帧的数量，通常设置视频片段大小为3×16×112×112；3D卷积滤波器内核尺寸可以写为d×k×k，其中d为3D卷积内核的时间深度，k为3D卷积内核的空间大小；该输入通过数量为n、内核尺寸为3×3×3、步长为1×1×1的3D卷积滤波器，输出的特征图尺寸为n×l×h×w。

C3D深度神经网络共有8个卷积层5个最大池化层和2个全连接层，接着是softmax的输出层，所有的3D卷积核在空间和时间维度上的大小均为3×3×3，步长为1，使用相同的卷积层串联能在降低参数的同时增加卷积层的感受视野，8个卷积层的通道数分别为64、128、256、256、512、512、512。

为了避免由于过早地丢失时间信息而造成识别精度的下降，C3D网络的池化层除了池化层1的池化核大小为1×2×2以外，所有池化层的核大小都是2×2×2，全连接层具有4096个输出单元。最后一个softmax层用于分类任务，本实施例只需要提取特征不用分类，因此只保留最后两层全连接层。全连接层将上个图层中由池化操作所提取的各种局部特征，使用非线性函数Relu将其组合形成全局特征，C3D深度神经网络结构通过全连接层将视频特征表示为[1，4096]的时空特征向量。f_θ(·)和f_ξ(·)的网络结构相同，θ和ξ分别是f_θ(·)和f_ξ(·)的网络结构的权重参数。

本实施例中，步骤二的实现过程如下：

步骤201，视频v_i的时空特征特征向量x_i经过上分支的投影变换结构g_θ(·)得到投影向量z_i；

视频v_j的时空特征特征向量x_j经过下分支的投影变换结构g_ξ(·)得到投影向量z_j；

其中，上分支的投影变换结构g_θ(·)和下分支的投影变换结构g_ξ(·)均由两层MLP(Multilayer Perceptron，多层感知机)组成，本发明每一层MLP由输出尺寸为4096的线性层、批量归一化、校正线性单元ReLU和输出尺寸为256的线性层组成；

步骤202，投影向量z_i通过预测变换结构q_θ(·)得到上分支的高维特征向量q_θ(z_i)，预测变换结构由上述一层MLP组成。

并分别对q_θ(z_i)、z_j进行L2正则化得到表示向量||q_θ(z_i)||₂、||z_j||₂，这一步骤的目的是取出这两个隐含变量的绝对大小，而保留其方向性，为后面要做的向量点乘做铺垫，同时优化后面的损失函数，防止模型为了迎合训练集而过于复杂，造成过拟合的现象，用来提高模型的泛化能力。

需要说明的是，投影变换是将特征表示空间投影到度量空间，该度量空间能够有效地计算和最大化相似性表示，投影变换分为三种类型，即降维投影、聚合投影和量化投影。本实施例采用降维投影变换，目的是降低特征表示的维度，便于更高效的计算。

本实施例中，步骤三中，采用MSE对比损失函数计算上、下分支高维特征向量之间的对比损失L(v_i，v_j)，给定损失阈值γ，通过对比损失L(v_i，v_j)和损失阈值γ之间的差值，检测视频v_i和视频v_j是否互为近重复视频，为下一步的近重复视频清洗做准备。对比损失函数可以表示为：

需要说明的是，损失函数就相当于是2-2^cosα，因此可以用该损失函数来衡量两视频间的相似性。

本实施例中，步骤四的实现过程如下：

两者之间的平均向量值可以表示为：

以上所述，仅是本发明的较佳实施例，并非对本发明作任何限制，凡是根据本发明技术实质对以上实施例所作的任何简单修改、变更以及等效结构变化，均仍属于本发明技术方案的保护范围内。

Claims

1.基于BYOL无监督深度对比学习的近重复视频清洗方法，其特征在于，该方法包括以下步骤：

投影变换结构由两层MLP组成，本发明每一层MLP由输出尺寸为4096的线性层、批量归一化、校正线性单元ReLU和输出尺寸为256的线性层组成；预测变换结构由上述一层MLP组成；其中，上、下分支的投影变换结构相同，不同之处在于训练时参数的更新方式不同，上分支通过全局的随机梯度下降的更新方式调整参数，下分支通过动量更新的方式来调整参数，

步骤四、若互为近重复视频数据，计算两视频高维特征向量的平均向量，保留与平均向量最近的特征向量所属视频，而删除另一视频，否则暂且保留两视频；然后，从视频集中剩余视频数据中选取未经过对比学习的视频数据，重复上述步骤，直至将视频集中近重复视频数据全部自动删除为止。

2.按照权利要求1所述的基于BYOL无监督深度对比学习的近重复视频数据清洗方法，其特征在于：步骤一的实现过程如下：

其中，x_i、表示维度空间，f_θ(·)和f_ξ(·)的网络结构相同，区别在于f_θ(·)通过全局的随机梯度下降的更新方式调整参数，f_ξ(·)通过动量更新的方式来调整参数。

3.按照权利要求2所述的基于深度对比学习BYOL模型的近重复视频清洗方法，其特征在于：步骤二的实现过程如下：

其中，z_i、上分支的投影变换结构g_θ(·)和下分支的投影变换结构g_ξ(·)均由两层MLP组成，本发明每一层MLP由输出尺寸为4096的线性层、批量归一化、校正线性单元ReLU和输出尺寸为256的线性层组成；g_θ(·)和g_ξ(·)的网络结构相同，区别在于g_θ(·)通过全局的随机梯度下降的更新方式调整参数，g_ξ(·)通过动量更新的方式来调整参数；

步骤202，投影向量z_i通过预测变换结构q_θ(·)，得到上分支的高维特征向量q_θ(z_i)，预测变换结构由上述一层MLP组成；

分别对q_θ(z_i)、z_j进行L2正则化，得到表示向量||q_θ(z_i)||₂、||z_j||₂。

4.按照权利要求3所述的基于深度对比学习BYOL模型的近重复视频清洗方法，其特征在于：步骤三中，采用MSE对比损失函数计算上、下分支高维特征向量之间的对比损失L(v_i，v_j)，给定损失阈值γ，通过对比损失L(v_i，v_j)和损失阈值γ之间的差值，检测视频v_i和视频v_j是否互为近重复视频，为下一步的近重复视频清洗做准备，对比损失函数可以表示为：式中分子表示两个向量之间的点积运算。

5.按照权利要求4所述的基于深度对比学习BYOL模型的近重复视频清洗方法，其特征在于：步骤四的实现过程如下：

两者之间的平均向量值可以表示为：

计算平均向量z_avg与向量q_θ(z_i)、z_j各自的欧式距离d_avg，i、d_avg，j，以此确定需要自动清洗的视频数据，欧氏距离的计算及清洗结果可以表示为：

之后，继续将保留的视频高维特征表示向量与剩余视频的高维特征表示向量进行上述步骤的计算，直至自动清洗完成视频数据集中的所有近重复视频数据；