CN111506773B

CN111506773B - 一种基于无监督深度孪生网络的视频去重方法

Info

Publication number: CN111506773B
Application number: CN202010214485.XA
Authority: CN
Inventors: 韩振军; 张如飞; 王攀; 余学辉; 宫宇琦; 蒋楠; 韩许盟; 彭潇珂; 王岿然; 焦建彬; 叶齐祥; 万方
Original assignee: University of Chinese Academy of Sciences
Current assignee: University of Chinese Academy of Sciences
Priority date: 2020-03-24
Filing date: 2020-03-24
Publication date: 2021-03-30
Anticipated expiration: 2040-03-24
Also published as: CN111506773A

Abstract

本发明公开了一种基于无监督深度孪生网络的视频去重方法，其实现过程为：采用孪生卷积神经网络模型，通过图片的相似性学习图片的表示。孪生网络模型以一对内容相似的图片作为正样本，一对内容不同的图片作为负样本，并利用对照比损失约束，驱动模型学习对内容相似性具有判别力的特征。然后，利用训练学习的网络模型对视频图像帧进行特征描述，用于视频图像去重。采用启发式的Dijkstra相似度进行相似图片聚类并去除重复的视频图像帧，达到高速提取视频关键帧的目的。本方法基于无监督局部度量学习，不需要人工标注样本，具有一定实用性和扩展性，去重算法不依赖于聚类中心个数，只需处理关键视频图像帧，可以应用于复杂视频任务的预处理过程。

Description

一种基于无监督深度孪生网络的视频去重方法

技术领域

本发明涉及计算机视觉和图像处理领域，尤其涉及一种可用于智能化视频任务等领域的基于无监督深度孪生网络的视频去重方法。

背景技术

近年来，随着通信和多媒体技术、计算机网络、大容量存储以及数字化图像如扫描仪、数字相机、移动互联网等技术的迅速发展，视频技术应用遍布视频监控、新闻媒体、家庭生活和社交网络等各个方面。在如此广泛的应用背景下，视频数据呈现指数级别的增大，例如，数以万计的监控设备和社交用户无时无刻不在产生视频数据，形成了海量数据库。如何更好地利用视频数据并实现从视频中快速、方便地提取关键信息、去除信息的冗余、降低时间代价和计算成本成为广受关注的问题。

目前，针对视频任务一般仍采用传统计算机视觉的框架，将视频拆解成图像帧集合完成对应的任务，如识别、检测等。在面对海量视频数据时，需要耗费大量的时间和计算资源。如何利用各种技术手段，如计算机视觉、机器学习、深度学习等，有效地缓解计算的负载和快速提取视频关键信息用于后续视频任务成为本发明的关键出发点。由于视频数据在时间和空间上的连续性，图像内容上存在大量冗余，无需针对视频中每一帧进行同等的任务。视频去重即去除视频中内容相似的图像，抽取视频中的关键帧，应用于视频数据的预处理过程，利于减少后续视频任务的时间代价和计算负载。现有技术中针对视频去重，所涉及的计算机视觉包括特征表示和聚类算法两种技术。

(一)特征表示，其作为计算机视觉图像表示的重要环节，对图像任务的性能有着决定性作用。图像特征表示从最初的手工设计特征，如Sift、Surf、HOG等特征，到近年来基于学习的特征表示，如VGGNet、GoogleNet和ResNet等，从手工设计用于特定场景到大数据为驱动的特征学习，结构上网络越来越复杂，数据维数更高，表示上特征表达能力更强，包含更丰富的特征信息。虽然大数据为驱动预训练的网络特征在图像任务上取得优异的性能，但是随之带来的问题有：

(1)网络结构过深，计算复杂度过高，尤其是在处理视频类数据时需要耗费大量计算资源；

(2)采用分类数据集上训练的特征网络(VGGNet、GoogleNet和ResNet等)对学习过的类别目标有较强的表征能力，但是对于判断是否为相似图片这类任务，对于网络都没见过的两张不同图片往往导致判断失败。因此对于完成如判断相似性这类特定的任务，需要对原有特征网络进行微调学习。

(3)对特征网络的调整学习，主要基于监督学习，即通过标定数据学习获取适用于特定场景的模型。然而，训练数据的获取需要大量人力物力对数据进行标定，庞大的视频数据增长迅速，用于监督学习的训练数据的标定也会随之变得更加困难。

(二)聚类算法，即按照某个特定标准(如相似度准则)把一个数据集分割成不同的类或簇。在视频去重中，对图像完成特征表示后需要对视频进行聚类以去除相似度较高的图片。常见的聚类算法包括基于分层的聚类、基于划分的聚类、基于密度和网格的聚类等方法。其中基于划分的K-means聚类被广泛应用。在这种方法中，对于给定的聚类的簇数，算法先给出一个初始的分组方法，然后通过反复迭代改变分组，使得每一次改进之后的分组方案较前一次好，这里好的标准在于同一组中的点的距离尽量近，不同组中的点的距离尽量远。K-means聚类在大型数据集上简单高效、空间和时间复杂度低。其不足在于算法容易局部最优，并且需要预先设定聚类簇数。而对于去重任务，难以确定视频图像各相似图片的簇数，因此，只能通过控制相似度阈值来约束去重的力度。

发明内容

为了克服上述问题，本发明人进行了锐意研究，提出一种基于无监督深度孪生网络的视频去重方法。针对数据标定问题，本方法基于无监督学习，只需要无标定视频数据进行训练，可行性和实用性大大提高；特征网络采用结构轻巧的MobileNet作为基础特征表述网络，并且采用孪生网络结构，从图片的相似性学习特征表示，将其迁移调整学习至适合视频去重的任务上。利用学习的特征提取视频各帧特征，采用启发式Dijkstra相似度将相似的视频图像进行聚类，聚类算法无需知道聚类簇数，通过相似度阈值通知视频去重力度。聚类完成后，每个聚类中心随机取一张图片，输出最终视频去重的结果，从而完成本发明。

本发明提供了一种基于无监督深度孪生网络的视频去重方法，技术方案主要包括以下方面：

(1)一种基于无监督深度孪生网络的视频去重方法，所述方法包括以下步骤：

步骤1)，训练样本生成：获取视频数据，提取视频图像帧特征，计算特征之间的相似度，依据相似度确定正负样本；

步骤2)，特征学习：采用孪生卷积神经网络，从获取的训练样本中学习图片的相似性，得到训练后的孪生(Siamese)卷积神经网络；

步骤3)，视频图像去重：利用训练后的孪生卷积神经网络提取视频图像特征，采用最小路径算法进行相似特征聚类并去除重复的视频图像。

根据本发明提供的一种基于无监督深度孪生网络的视频去重方法，具有以下有益效果：

(1)本方法基于无监督学习，只需要相关场景中的无标定视频数据，通过MobileNet网络提取特征计算相似度，确定样本监督信息，生成训练样本集，可行性和实用性大大提高；

(2)针对训练样本生成过程中，负样本的样本空间过大、存在大量简单样本的问题，通过计算负样本对的近似度去除近似度较低的样本对，保留近似度较高的负样本对作为难负样本对，使得本方法具有进一步增强的实用性；

(3)本方法使用体量较小的MobileNet作为基础网络，并且采用对比损失函数作为特征网络约束特征生成，不加入其他假设，使得网络训练和测试阶段时间复杂性降低并且具有较好的特征生成能力；

(4)在针对实际视频图像去重的测试阶段，采用启发式的Dijkstra相似度进行视频帧中的相似图片聚类，聚类时间复杂度较大减小，达到快速去除相似图片的目的，进一步增强了本方法的实用性。

附图说明

图1示出本发明中视频图像去重方法的步骤模块图；

图2示出双输入孪生卷积神经网络示意图；

图3示出视频图像去重效果示意图；

图4示出调节不同相似度阈值θ时聚类效果示意图。

具体实施方式

下面通过附图对本发明进一步详细说明。通过这些说明，本发明的特点和优点将变得更为清楚明确。

如图1所示，基于要解决的技术问题，本发明提供了一种基于无监督度量学习的行人再识别方法，所述方法包括以下步骤：

本发明步骤1)中，训练样本生成：获取视频数据，采用在ImageNet上预训练的MobileNet网络提取视频图像帧特征，计算特征之间的相似度，依据相似度确定正负样本。

很明显，我们并未对原始视频数据进行任何标注，这种通过无监督(使用无标注的视频数据驱动学习特征网络，而不是通过人工标注的数据)的方式，进行训练样本选取用于后续双输入孪生卷积神经网络的学习，大大提高了实用性。

其中，所述MobileNet网络为一种轻量级的深层神经网络，其通过采用depth-wiseconvolution的卷积方式，能够在兼顾减少参数数量的同时，提升运算速度。

本发明中，选用MobileNet网络的原因在于，MobileNet是一种轻量级的深层神经网络，网络结构采用卷积核的巧妙分解，可以有效减少网络参数，模型基于深度可分解的卷积，其可以将标准卷积分解成一个深度卷积和一个点卷积(1×1卷积核)的组合。深度卷积将每个卷积核应用到每一个通道，而1×1卷积用来组合通道卷积的输出，这种分解可以有效减少计算量，降低模型大小。并且在ImageNet数据集上实验，将MobileNet和VGG与GoogleNet做了对比，在只有4.2M学习参数(VGG参数量138M，GoogleNet参数量6.8M)情况下，MobileNet分类准确率达到70.0％(VGG为71.5％，GoogleNet为69.8％)。表明在参数量大大减小的情况下，MobileNet依旧获取较好的性能，本发明采用MobileNet作为基础特征网络，并且更进一步将特征迁移学习至适合去重任务。

在此，采用在ImageNet数据集上训练学习后的MobileNet分类网络用于提取视频图像帧特征。

在一种优选的实施方式中，将所有视频图片帧调整为同一尺寸(如224*224像素)，便于后续步骤中特征提取。

在一种优选的实施方式中，步骤1)包括以下子步骤:

步骤1.1)，预生成正样本：将同一视频中间隔较短的一对图片作为一个正样本(孪生卷积神经网络输入为两张图片)，生成粗略的正样本数据集。

同一视频中的图像在时间和空间上连续平滑的性质，视频相邻帧或相近帧在内容和动作上有极大的相似性，以此基准作为正样本的预选条件，正样本匹合格率较高。

步骤1.2)，生成正样本数据集：由于在步骤1.1)中生成的粗略正样本数据集可能会存在较多噪声样本(相似度较低的样本)，为此，采用在ImageNet上预训练的MobileNet网络作为特征描述网络，对预生成的正样本数据集中每一对图片提取特征，并对提取的特征归一化，然后计算每个样本中两张图片的相似度，将相似度低于设定阈值的样本删除，生成最终的正样本数据集。

在一种优选的实施方式中，本发明人经过对大量图片的实验研究发现，用于确定两张图片为正样本的设定阈值介于0.94～0.98之间，能够获得相似度极高，且数量稳定的正样本。

样本对(x_ia,x_ib)的相似度计算为x_ia ^T·x_ib/(|x_ia||x_ia|)，如将相似度小于0.85、可能存在内容不一致的图片对剔除，防止噪声样本，每个正样本赋予标号1表示正样本。其中，x_ia为图像a通过MobileNet网络提取特征向量并归一化；x_ib为图像b通过MobileNet网络提取特征向量并归一化；|x_ia||x_ib|表示向量模相乘，T表示转置。

步骤1.3)，预生成负样本数据集：在选取视频数据时，视频来自不同的场景，以此保证抽取负样本时，来自不同视频的一对图片内容不同。

以步骤1.2)中生成的正样本数据集为基础，取正样本数据集中不同视频的一对图片为一个负样本，预生成一个粗略的负样本数据集。

步骤1.4)，生成负样本数据集：根据步骤1.3)可知，在正样本数量为N的情况下，负样本的数量达到O(N²)数量级。负样本数量巨大，正负样本比例严重失衡，直接参与训练会导致过拟合的情况。由于负样本中存在大量的简单负样本，需要对负样本进行难样本挖掘。

为此，采用MobileNet网络提取步骤1.3)负样本对的特征，选取具有相同某相同特征部分的所有负样本，计算样本中两张图片的相似度，将相似度降序排序，选用相似度高于设定阈值且低于正样本相似度阈值的图片；依次选取具有其他相同特征部分的所有负样本，重复该步骤操作，至生成样本数量与正样本数据集相当的负样本数据集。

在一种优选的实施方式中，本发明人经过对大量图片的实验研究发现，用于确定两张图片为负样本的设定阈值介于0.50～0.85之间，获得的负样本中两张图片具有一定程度的相似性(如都有两个人)，对负样本产生了约束，避免了大量简单负样本的问题。

以图片特征x_i为例，对所有出现x_i的负样本计算的特征相似度进行降序排序，保留相似度大于0.5、小于0.85，且样本数不大于5对的负样本对，去除相似度低的简单负样本对，每个负样本赋予标号0表示负样本，至此生成最终的负样本数据集。

本发明步骤2)中，特征学习：采用孪生卷积神经网络，如图2所示，从获取的训练样本中学习图片的相似性，得到训练后的孪生卷积神经网络。本发明中，采用MobileNet网络作为孪生卷积神经网络模型的基础网络，学习图片的相似性。

采用分类数据集ImageNet上训练的特征网络(VGGNet、GoogleNet和ResNet等)对学习过的类别目标有较强的表征能力，但是由于在ImageNet上训练的网络是针对分类任务，对于图片高层语义有一定的表征能力，网络对于判断是否为相似图片这类任务往往会失败。本发明选用MobileNet网络的原因在于，其网络结构更加轻便，在不损失性能的前提下，运算量较小。

在步骤1)中生成的训练样本{(I_ia,I_ib,y_i)|i＝1,2,...,P}，图像样本对I_ia,I_ib对应标号为y_i，当y_i＝1时为正样本对，y_i＝0为负样本对。在步骤2)中，图像对I_ia,I_ib提取特征被描述成特征向量x_ia,x_ib。基础的特征模型参数为W，采用双输入孪生网络结构，双输入基础结构共享权值W，通过最小化以下对比损失函数(contrastive loss)获得：

其中，P为总的训练样本数量，E_i＝1-x_ia ^T·x_ib/(|x_ia||x_ib|)量度样本对特征向量的距离，x_ia＝g_w(I_ia)为图像a通过特征网络提取特征向量并归一化，x_ib＝g_w(I_ib)为图像b通过特征网络提取特征向量并归一化，|x_ia||x_ib|表示向量模相乘，T表示转置，t为平衡参数。

所述平衡参数t是指：训练过程中平衡负样本的比例。上式(1)中，当y_i＝0时，计算负样本特征向量的距离E_i，小于t时，网络识别为简单负样本，不参与训练。

本发明步骤3)中，视频图像去重：采用启发式的Dijkstra相似度进行相似图片聚类并去除重复的视频图像。

本发明中采用启发式的Dijkstra算法，该启发式的Dijkstra算法相较于传统聚类算法，如k-means等可以大大减少穷搜节点带来的计算开销。具体地，步骤3)包括以下子步骤：步骤3.1)，对给定包涵N帧的视频，利用步骤2)中经过训练数据训练调整的MobileNet网络作为特征提取网络，进行待测视频中视频图像帧特征提取，并且将特征归一化为128维的特征向量，提取的特征集为{f_t|t＝1,2,...N}，N表示视频帧数；

步骤3.2)，采用启发式Dijkstra算法聚类相似图像，将每个视频图像帧作为一个节点，选择某一未聚类结点作为核节点，计算该结点与其他未聚类结点之间的相似度，将计算结果大于阈值的节点按照相似度进行降序排列，形成集合。

以查找与f_i相似的图像特征为例，S_i集合初始只包含节点i，U_i集合是包含除节点i和已经被聚类过的节点之外的节点；

计算U_i中所有节点特征与f_i的相似度，即计算f_i ^T·f_j，满足j∈U_i，将计算结果大于阈值θ的节点按照相似度进行降序排列至集合T_i。

在一种优选的实施方式中，该步骤中所述设定阈值介于0.90～0.99之间。

步骤3.3)，计算该集合中结点的特征与核节点特征的相似度，将相似度大于设定阈值的节点与核节点聚类，否则将其删除，重复步骤3.3)直至该集合中结点为空，即可得到与核节点相似的所有图像帧，实现一次聚类。

具体地，依次计算T_i中节点与S_i集合中特征的相似度，将相似度大于设定阈值θ的节点加入集合S_i，否则将其删除，重复步骤3.3)直至T_i为空，即可得到与第i帧相似的所有图像帧S_i；当相似度阈值高时，对聚类图片的内容相似度要求更高，去重力度较小，集合S_i中图片数量少；反之，当阈值减小时，去重力度更大，集合S_i中图片数量多。

在一种优选的实施方式中，该步骤中所述设定阈值介于0.94～0.98之间。本发明经过实践发现，在设定阈值介于0.94～0.98之间时，能够获得相似度较高的图片，且聚类集中图片数量不会过少造成去重力度过小，也不会由于去重力度过大而造成网络视频关键帧的丢失。

步骤3.4)，重复步骤3.2)至步骤3.3)直到遍历完所有图像节点，{S_j|j＝1,2,...,M}为M个图像聚类集，每一个S_i中的任意一个节点即为去重最终的结果。

实施例

实施例1

现有技术中无公开的公共测试数据集和具体评测指标，采用本发明技术方案在某交通枢纽获取的视频上测试去重效果，如图3为在街道行人视频上测试，聚类效果明显，同列图片如第一列图片为保留的关键帧，同行为重复帧。

图4所示为以某一帧为例，调节不同相似度阈值时的聚类效果，从实验结果看，当相似度阈值高时，对聚类图片的内容相似度要求更高，因此去重力度较小；反之，当阈值减小时，去重力度更大。

基于NVIDIA 1080ti，通过计算数据集中所有图片，获取执行时间，从而获得本发明基于无监督度量学习的行人再识别方法的FPS能够达到300fps以上。

以上结合了优选的实施方式对本发明进行了说明，不过这些实施方式仅是范例性的，仅起到说明性的作用。在此基础上，可以对本发明进行多种替换和改进，这些均落入本发明的保护范围内。

Claims

1.一种基于无监督深度孪生网络的视频去重方法，其特征在于，所述方法包括以下步骤：

步骤2)，特征学习：采用孪生卷积神经网络，从获取的训练样本中学习图片的相似性，得到训练后的孪生卷积神经网络；

步骤3)，视频图像去重：利用训练后的孪生卷积神经网络提取视频图像特征，采用最小路径算法进行相似特征聚类并去除重复的视频图像；

步骤1)包括以下子步骤：

步骤1.1)，预生成正样本数据集：将同一视频中间隔较短的一对图片作为一个正样本，其中，孪生卷积神经网络输入为两张图片，生成粗略的正样本数据集；

步骤1.2)，生成正样本数据集：采用在ImageNet上预训练的MobileNet网络作为特征描述网络，对预生成的正样本数据集中每一对图片提取特征，并对提取的特征归一化，计算每个样本中两张图片的相似度，将相似度低于设定阈值的样本删除，生成最终的正样本数据集；所述设定阈值介于0.94～0.98之间；

步骤1.3)，预生成负样本数据集：取正样本数据集中不同视频的一对图片为一个负样本，预生成一个粗略的负样本数据集；

步骤1.4)，生成负样本数据集：采用MobileNet网络提取步骤1.3)负样本对的特征，选取具有相同某相同特征部分的所有负样本，计算样本中两张图片的相似度，将相似度降序排序，选用相似度高于设定阈值且低于正样本相似度阈值的图片；依次选取具有其他相同特征部分的所有负样本，重复该步骤操作，至生成样本数量与正样本数据集相当的负样本数据集；所述设定阈值介于0.50～0.85之间；

步骤3)包括以下子步骤：

步骤3.1)，对给定的视频，利用步骤2)中经过训练数据训练调整的MobileNet网络作为特征提取网络，进行待测视频中视频图像帧特征提取；

步骤3.2)，采用启发式Dijkstra算法聚类相似图像，将每个视频图像帧作为一个节点，选择某一未聚类结点作为核节点，计算该结点与其他未聚类结点之间的相似度，将计算结果大于阈值的节点按照相似度进行降序排列，形成集合；所述阈值介于0.90～0.99之间；

步骤3.3)，依次计算该集合中结点的特征与核节点特征的相似度，将相似度大于设定阈值的节点与核节点聚类，否则将其删除，重复步骤3.3)直至该集合中结点为空，即可得到与核节点相似的所有图像帧，实现一次聚类；

步骤3.4)，重复步骤3.2)至步骤3.3)直到遍历完所有图像节点，每个聚类中心随机取一张图片，输出最终视频去重的结果，完成去重。

2.根据权利要求1所述的方法，其特征在于，步骤1)中，用于样本生成的视频图像帧不进行任何人工标注；

视频图片帧调整为同一尺寸后，用于特征提取。

3.根据权利要求1所述的方法，其特征在于，步骤1)中，采用在ImageNet上预训练的MobileNet网络提取视频图像帧特征。

4.根据权利要求1所述的方法，其特征在于，步骤2)中，采用MobileNet网络作为孪生卷积神经网络模型的基础网络，学习图片的相似性。

5.根据权利要求1所述的方法，其特征在于，步骤3)中，采用启发式的Dijkstra相似度进行相似图片聚类并去除重复的视频图像。