CN116682043B

CN116682043B - 基于SimCLR无监督深度对比学习异常视频清洗方法

Info

Publication number: CN116682043B
Application number: CN202310696092.0A
Authority: CN
Inventors: 叶鸥; 赵青; 杨宝; 霍小泉; 付燕; 于振华; 邓军
Original assignee: Xian University of Science and Technology
Current assignee: Xian University of Science and Technology
Priority date: 2023-06-13
Filing date: 2023-06-13
Publication date: 2024-01-26
Anticipated expiration: 2043-06-13
Also published as: CN116682043A

Abstract

本发明公开了一种基于SimCLR无监督深度对比学习异常视频清洗方法，包括步骤：一、从视频数据集任意选取一个视频作为正样本输入视频，其余视频作为负样本输入视频，分别输入到两个分支均由C3D深度神经网络模型构成的编码器中进行高层特征提取；二、通过投影变换网络降低特征向量的维度；三、计算两个特征向量的对比损失值；四、计算局部离群因子LOF；五、基于局部离群因子LOF进行异常视频的自动清洗。通过上述方法，创新性的实现在视频数据无标注条件下，有效自动删除异常的视频数据。

Description

基于SimCLR无监督深度对比学习异常视频清洗方法

技术领域

本发明属于数据清洗技术领域，具体涉及一种基于SimCLR无监督深度对比学习异常视频清洗方法。

背景技术

目前，随着网络上的视频数据规模不断增加，包含异常语义信息的视频数据大量涌现，这些异常视频既影响了人们查看正常的视频数据，也掩盖一些安全问题，例如监控视频的失真、跳帧等，这使得视频大数据的质量难以保证，可能会造成一些安全隐患。目前，已经产生了很多针对异常视频检测与清洗的研究及技术成果，但是现有研究普遍存在数据集不平衡的问题，正常视频的样本是很容易获得的，而异常视频发生概率较小，高质量数据样本的获取就非常困难。现有针对异常视频检测的理论方法可以划分如下两类：

(1)基于低层特征的异常视频检测方法，例如：利用结合光流特征和梯度直方图特征的视频异常行为检测及定位方法；

(2)基于深度特征的异常视频检测方法，例如：通过卷积神经网络，循环神经网络，两层3D卷积网络等神经网络模型获取特征向量，进而利用哈希等方法进行特征映射和检测。

然而，现有的异常视频检测方法只能有效检测和识别出视频数据集中的异常视频，较难自动清洗和删除异常视频这类脏数据，因此较难保证视频数据集的整体数据质量。

目前已有研究学者提出了异常视频清洗方法，其中基于非端到端视频检测框架中有着多模块训练且训练目标不一致问题，基于监督学习的异常视频检测方法因视频数据标注不足，难以有效自动删除近重复视频数据的问题。因此，为解决该问题，本发明引入无监督的深度对比学习方式，通过构建一种端到端的异常视频清洗方法，既能够有效缓解实际应用过程中因视频数据标注不足，造成现有基于监督学习的异常视频数据清洗方法难以有效自动删除异常视频数据的问题，也可以克服现有异常视频数据清洗方法存在多阶段训练目标不一致的问题。

发明内容

本发明所要解决的技术难题在于针对上述现有技术中的不足，提供一种基于SimCLR无监督深度对比学习异常视频清洗方法，通过基于无监督对比学习和端到端学习的异常视频清洗方法，能够在数据集无标注的情况下自动清洗视频数据中的异常视频，改善视频数据集的数据质量是本发明所要解决的问题，便于推广使用。

为解决上述技术问题，本发明采用的技术方案是：基于SimCLR无监督深度对比学习异常视频清洗方法，其特征在于，该方法包括以下步骤：

步骤一、从视频数据集中任意选取一个视频作为正样本输入视频，其余视频作为负样本输入视频，分别输入到两个分支C3D深度神经网络模型构成的编码器中进行特征提取；

步骤二、将正样本输入视频所属的一个由C3D深度神经网络模型构成的编码器中提取到的特征向量和负样本输入视频所属的另一个由C3D深度神经网络模型构成的编码器中提取到的特征向量，分别经过投影变换，得到降低维度的特征向量；

其中，投影变换网络结构由两层多层感知器MLP构成，每一层MLP由线性层、矫正线性单元和线性层组成；

步骤三、使用对比损失函数，计算两个特征向量的对比损失值；

步骤四、更换下一个正样本输入视频，重复上述步骤，将任一正样本输入视频与负样本视频的对比损失值记作数据点集，对于每个数据点，计算其局部离群因子LOF；

步骤五、统计局部离群因子LOF的值，绘制出散点图，设定阈值λ，根据散点图中实数值的分布情况检测异常点，并删除视频数据集中对应的异常视频，从而完成异常视频的数据清洗。

上述的基于SimCLR无监督深度对比学习异常视频清洗方法，其特征在于：步骤一的实现过程如下：

步骤101，从视频数据集V＝{v₁,...,v_N}中任意选取一个视频v_i作为正样本输入视频，其余视频作为负样本输入视频，其中，i∈[1,N]；

步骤102，将视频v_i的视频片段输入到上分支C3D深度神经网络模型构成的编码器f_θ(·)中以提取视频v_i的时空特征向量h_i；

将其余的任意一个视频v_k输入到下分支C3D深度神经网络模型构成的编码器f_ξ(·)中以提取其余视频的时空特征向量h_k，其中，k∈[1,N]且k≠i；

其中，h_i,h_k∈R^1024*1，R表示维度空间大小，f_θ(·)和f_ξ(·)为C3D网络结构映射函数。

上述的基于SimCLR无监督深度对比学习异常视频清洗方法，其特征在于：步骤二的实现过程如下：

视频v_i的时空特征向量h_i经过一个投影变换结构g_θ(·)得到降低维度的特征向量z_i；

其余视频v_k的时空特征向量h_k经过另一个投影变换结构g_ξ(·)得到降低维度的特征向量z_k；

其中，g_θ(·)和g_ξ(·)均由两层多层感知器MLP构成，每一层MLP由线性层(Dense)、矫正线性单元(ReLU)和线性层(Dense)组成，g_θ(·)和g_ξ(·)是共享参数的，更新方式采用同步更新。

上述的基于SimCLR无监督深度对比学习异常视频清洗方法，其特征在于：步骤三的实现过程如下：

利用SimCLR无监督深度对比学习模型的损失函数，计算对比损失其中，τ为可调节的超参数。

上述的基于SimCLR无监督深度对比学习异常视频清洗方法，其特征在于：步骤四的实现过程如下：

更换下一个正样本输入视频，重复上述步骤，将任一正样本输入视频与负样本视频的对比损失值记作数据点集L＝{x₁,x₂,...,x_N-1}，对于每个数据点x_q，计算其局部离群因子LOF，x_q∈L且q＝1,2,...,N-1；

设数据点x_q的第k邻域为N_k(x_q)，则数据点x_q的局部可达密度可以表示为：

其中，LRD(·)是局部可达密度函数，reach_-dist_k(x_q,x_j)表示x_j到x_q的第k可达距离，定义为：reach-dist_k(x_q,x_j)＝max{dist_k(x_q),dist_k(x_q,x_j)}；

数据点x_q到数据点x_j的第k可达距离，定义为点x_q的第k距离和点x_q到点x_j的距离中的较大者，dist_k(x_q,x_j)表示x_q到x_j的欧几里得距离，

对于每个数据点x_q，可以计算其局部离群因子LOF，即：数据点x_q的第k局部离群因子是将点x_q的N_k(x_q)邻域内所有点的平均局部可达密度与点x_q的局部可达密度进行比较，LOF值越大，说明越异常，反之越小，说明越正常。

上述的基于SimCLR无监督深度对比学习异常视频清洗方法，其特征在于：步骤五的实现过程如下：

步骤501，将所有的局部离群因子LOF值绘制成散点图：(LOF_q,q)，其中，q为数据点的索引；以原点为圆心，阈值λ为半径画圆；绘制出所有LOF值的分布情况；

步骤502，根据公式判断正样本输入视频是否是异常，当LOF值不大于阈值λ时，代表正样本输入视频更趋于正常特征，即判断为正常；否则，当LOF值大于阈值λ时，代表正样本输入视频更远离正常特征，即判断为异常；数据点x_q的LOF值大于阈值λ，则认为该点是异常数据点，令R＝{x_q|LOF_k(x_q)＞λ}为异常数据点集合；

步骤503，找出异常数据点R在数据集中对应的视频，并将其加入到集合Set1；其中，Set1是所有异常视频的集合，假设集合Set中存储了所有视频的视频，则异常视频清洗过程：Set_new＝Set-Set1；

其中Set-Set1为集合的差集运算，最终的集合Set_new即为清洗结束后保留的视频，至此完成异常视频数据的自动清洗。

本发明与现有技术相比具有以下优点：

1、本发明构建端到端的视频数据清洗框架，减少现有异常视频数据清洗模型的特征复用问题，步骤简单，避免人工标注训练数据，降低冗余特征的计算量，同时引入无监督对比学习的模式，解决标记异常视频训练数据无法获取或者数据不足的问题，快速获取异常视频数据，高效、自动的清洗异常视频，便于推广使用。

2、本发明利用深度对比学习的对称网络架构通过对比不同的视频实例，可以更好地解决视频数据集无标注条件下的异常视频数据清洗问题。

综上所述，本发明通过基于无监督对比学习和端到端学习的异常视频清洗方法，能够自动清洗视频数据中的异常视频，改善视频数据集的数据质量是本发明所要解决的问题，便于推广使用。

下面通过附图和实施例，对本发明的技术方案做进一步的详细描述。

附图说明

图1为本发明的流程原理灰度图。

图2为本发明的方法流程框图。

具体实施方式

如图1和图2所示，本发明的基于SimCLR无监督深度对比学习异常视频清洗方法，包括以下步骤：

步骤一、从视频数据集中任意取一个视频作为正样本输入视频，其余视频作为负样本输入视频，分别注入到两个C3D深度神经网络模型构成的编码器中进行特征提取；

步骤二、将正样本输入视频所属的C3D深度神经网络模型构成的编码器中提取到的特征向量和负样本输入视频所属的C3D深度神经网络模型构成的编码器中提取到的特征向量，分别经过投影变换，得到降低维度的特征向量；

其中，投影变换网络结构由两层多层感知器MLP构成，每一层MLP由线性层(Dense)、矫正线性单元(ReLU)和线性层(Dense)组成；

本实施例中，步骤一的实现过程如下：

步骤102，将视频v_i的视频片段输入到上分支由C3D深度神经网络模型构成的编码器f_θ(·)中以提取视频v_i的时空特征向量h_i；

将其余的任意一个视频v_k输入到下分支由C3D深度神经网络模型构成的编码器f_θ(·)中以提取其余视频v_k的时空特征向量h_k，其中，k∈[1,N]且k≠i；

其中，h_i，h_k∈R^1024*1，R表示维度空间大小，f_θ(·)和f_ξ(·)为C3D网络结构映射函数。

本实施例中，采用的C3D深度神经网络模型的网络结构包括8个卷积层、5个池化层、2个全连接层和一个softmax输出层。假设上述任意一个视频片段的大小为w×h×c×l,其中w×h表示视频帧的大小，c表示每帧的通道数l表示视频片段的帧数，我们将w和h设置为112，并且c＝3,此外，参数设置将卷积核大小设置为1×1×1，步长为3×3×3，为了保留视频早期的时空特征，我们设置pool层池化核大小1×2×2，步长为2×2×2，其余3D池化核尺寸和步长大小均为2×2×2，用于实现卷积操作和最大池化的过程。

在卷积操作中，C3D深度神经网络模型通过将3D卷积核与多个连续帧堆叠在一起形成的立方体进行卷积，因此当前卷积层得到的特征图可以与上层的多个连续帧相连接，从而捕获视频的时空特征。

本实施例中，步骤二的实现过程如下：

其中，g_θ(·)和g_ξ(·)均由两层多层感知器MLP构成，每一层MLP由线性层、矫正线性单元和线性层组成，g_θ(·)和g_ξ(·)是共享参数的，更新方式采用同步更新。

本实施例中，步骤三的实现过程如下：

本实施例中，步骤四的实现过程如下：

其中，LRD(·)是局部可达密度函数，reach_-dist_k(x_q,x_j)表示x_j到x_q的第k可达距离，定义为：reach_-dist_k(x_q,x_j)＝max{dist_k(x_q),dist_k(x_q,x_j)}；

本实施例中，步骤五的实现过程如下：

本发明使用散点图能够准确稳定地描绘出异常数据的离散分布情况，同时也利于异常数据的清洗，将所有的LOF值绘制成散点图，以原点为圆心，阈值λ为半径画圆绘制出散点图。通过散点图对计算的LOF值进行数据分析，如果某个数据点超出了圆形区域，则认为该样本对应的视频数据是异常值，应该找出异常点并删除在视频数据中对应的异常视频从而完成异常视频的清洗，即当LOF值大于阈值λ时，代表正样本输入视频更远离正常特征，即判断为异常，从而找到异常视频，完成异常视频的清洗。

以上所述，仅是本发明的较佳实施例，并非对本发明作任何限制，凡是根据本发明技术实质对以上实施例所作的任何简单修改、变更以及等效结构变化，均仍属于本发明技术方案的保护范围内。

Claims

1.基于SimCLR无监督深度对比学习异常视频清洗方法，其特征在于，该方法包括以下步骤：

步骤一、从视频数据集中任意选取一个视频作为正样本输入视频，其余视频作为负样本输入视频，分别输入到两个分支由C3D深度神经网络模型构成的编码器中进行高层特征提取；

步骤二、将正样本输入视频的特征向量和负样本输入视频的特征向量，分别经过两个分支的投影变换，以便降低特征向量的维度；

其中，两分支的投影变换网络结构均由两层多层感知器MLP构成，每一层MLP由线性层、矫正线性单元和线性层组成；

步骤五、统计局部离群因子LOF的值，绘制出散点图，设定阈值λ，根据散点图中实数值的分布情况检测异常点，并删除视频数据集中对应的异常视频，从而完成异常视频的数据清洗；

步骤一的实现过程如下：

步骤102，将视频v_i输入到上分支C3D深度神经网络模型构成的编码器f_θ(·)中以提取视频v_i的时空特征向量h_i；

将其余任意一个视频v_k输入到下分支C3D深度神经网络模型构成的编码器f_ξ(·)中以提取其余视频的时空特征向量h_k，其中，k∈[1,N]且k≠i；

其中，h_i，h_k∈R^1024*1，R表示维度空间大小；

步骤二的实现过程如下：

视频v_i的时空特征向量h_i注入到上分支投影变换结构g_θ(·)，得到特征向量z_i；

其余任意一个视频v_k的时空特征向量h_k注入到下分支投影变换结构g_ξ(·)，得到特征向量z_k；

其中，g_θ(·)和g_ξ(·)均由两层多层感知器MLP构成，每一层MLP由线性层、矫正线性单元和线性层组成，g_θ(·)和g_ξ(·)是共享参数的，更新方式采用同步更新；

步骤三的实现过程如下：

2.按照权利要求1所述的基于SimCLR无监督深度对比学习异常视频清洗方法，其特征在于：步骤四的实现过程如下：

设数据点x_q的第k邻域为N_k(x_q)，则数据点x_q的局部可达密度表示为：

3.按照权利要求2所述的基于SimCLR无监督深度对比学习异常视频清洗方法，其特征在于：步骤五的实现过程如下：