CN112381076A

CN112381076A - 一种视频显著性检测任务中图片预处理的方法

Info

Publication number: CN112381076A
Application number: CN202110059470.5A
Authority: CN
Inventors: 王杨; 吴尚睿; 庄月圆
Original assignee: Southwest Petroleum University
Current assignee: Southwest Petroleum University
Priority date: 2021-01-18
Filing date: 2021-01-18
Publication date: 2021-02-19
Anticipated expiration: 2041-01-18
Also published as: CN112381076B

Abstract

本发明涉及一种视频显著性检测任务中图片预处理的方法，更具体的说，涉及到判别视频任务所读取图片和任务的相关性，作为判别依据在视频帧输入深度学习模型之前进行筛选，属于计算机视觉领域。针对现有视频显著性识别技术中没有有效识别模型读取帧且无法适用于多场景视频的问题，本方法通过在图片读取中进行冗余图片检测、场景切换识别的方法，实现了模型自适应读取图片的功能，提高了模型准确率。将该方法进行封装，封装后的模块可以加入任意处理视频任务的深度学习模型中，提升模型应对各种视频场景的鲁棒性。并且待测图片集中在输入模型之前剔除与任务不相关的图片，使得深度学习模型更容易拟合。

Description

一种视频显著性检测任务中图片预处理的方法

技术领域

本发明涉及一种视频显著性检测任务中图片预处理的方法，属于计算机视觉领域。

背景技术

当人类看到丰富且变化的场景时，人类的视觉系统可以快速定位关键区域而模糊化其他部分，视频显著性检测的目标就是通过深度学习模型来模拟人眼这个特性。这种方法可以从大量的视频数据中定位关键区域或者是关键的帧，能够有效排除大量的冗余数据，加快深度学习算法的效率，所以该类型的方法被广泛应用于视频监控、视频提取、视频压缩、场景分割等计算机视觉任务中。

得益于人工智能技术的进步，特别是深度学习技术在近几年的大力发展，有很多的视频显著性检测算法被开发出来。在2017年以前主流的方法是基于长短期神经网络来聚合视频的时间信息，或是使用二维卷积神经网络提取图片空间的特征，在此基础上将特征传递给长短期神经网络来处理。在2018年之后表现最优良的模型是基于三维卷积神经网络端到端的处理方法，不同于之前的方法需要将视频空间和时间的信息分别处理，三维卷积核能同时利用时间和空间的特征，更好的结合视频的上下文信息开发出更精准的模型，本发明也是针对三维卷积的模型进行进一步优化。

目前，现有的视频显著性检测方法在每次读取数据时，只能从时序上取固定的帧数(如一次性读取连续的16帧或者32帧图片)，来生成一帧显著性检测结果。例如在TASED-Net模型中，生成当前帧的显著性检测结果需要读取当前帧之后的连续32帧图片。真实视频中，由于会存在大量高度相似的帧，特别是在移动缓慢的场景中，因此读取固定的输入帧时会存在大量的冗余信息，造成计算资源的浪费和降低模型准确度。更重要的是读取固定帧数只能处理单一的视频场景，当视频发生场景切换时，由于大量使用之前场景的图片从而导致新场景的显著性检测出现错误。深度学习模型视频的场景切换包含下列可能，后期视频剪辑，拍摄场景和光照条件。后期视频剪辑混合各种场景后会造成时序上实质信息的切割，后两种类型如拍摄时走过转角场景发生变化，进入隧道中光线明暗的变化，虽然视频信息是连续的，但实验结果表明，会对深度学习模型造成同视频剪辑类似的影响，进而降低模型的准确率甚至完全失效。

总体而言，目前的视频显著性检测方法都是基于深度学习模型的算法，且没有好的识别场景切换和检测冗余图片的策略。

发明内容

本发明要解决的技术问题是：针对现有视频显著性检测技术中没有有效识别模型读取帧且无法适用于多场景视频的问题。本方法通过在图片读取中进行场景切换识别、冗余图片检测的方法，实现了模型自适应读取图片的功能，提高了模型准确率。若将该方法进行封装，封装后的模块可以加入任意处理视频任务的深度学习模型中，使得该模型拥有冗余图片检测和场景切换识别的功能。

为了解决上述问题，该方法包括下列步骤：

1）获取图片候选集；

2）使用修改后Ghostnet神经网络获取图片候选集的视频特征矩阵；

3）根据视频特征矩阵，使用Pearson相关系数来得到相邻图片的线性相关性；

4）基于Pearson相关系数进行场景切换识别和冗余图片检测，生成新的图片候选集。

优选地，步骤2）模型的训练首先要基于ImageNet，使得模型可以进行1000种类的分类任务。然后去掉Ghostnet的分类模块，包含了平均池化层，1x1卷积核的卷积层和全连接层。每张图片通过修改后的模型会生成一个960×1的特征矩阵，将图片候选集的特征矩阵拼接起来生成视频特征矩阵。

优选地，步骤3）根据视频特征矩阵，使用Pearson相关系数来得到相邻图片的线性相关性，包括：通过Pearson相关系数的方法判定得到时序间帧的相关性，所述相关性的分类界限是Pearson相关系数在0~0.45为两帧无相关，0.45~0.75为两帧弱相关，0.75~0.98为两帧强相关，0.98~1为两帧高度相似。

优选地，步骤4）场景切换识别，生成新的图片候选集的详细步骤包括：

4.1）提取当前帧的序号，当前帧是需要生成显著性检测结果的帧，扩大图片搜索范围，生成图片候选集。图片候选集帧的数量和Pearson相关系数个数有对应关系，如当前图片候选集共有n帧，则对应的Pearson相关系数共有n-1个；

4.2）若Pearson相关系数集合中的值都大于阈值，说明无场景切换，图片候选集不变，搜索结束。若有值小于阈值，则该值所对应的下一帧图片发生场景切换，进入下一步；

4.3）判断场景切换发生在当前帧之前或是之后，如果发生在当前帧之后，执行步骤4.4）；否则，跳转执行步骤4.5）；

4.4）丢弃场景切换的帧和其之后的所有帧，从未发生场景切换的帧进行补帧，直到满足需要的固定帧数，生成新的图片候选集；

4.5）判定当前帧是否发生场景切换，如果当前帧是场景切换的帧，丢弃当前帧之前的所有帧；否则，丢弃场景切换的帧和其之前的所有帧，生成新的图片候选集；若不满足固定帧数，从未发生场景切换的帧中进行补帧，生成新的不包含场景切换的图片候选集；

4.6）根据4.5生成的图片候选集，当图片候选集对应的Pearson相关系数高于阈值时，说明存在冗余图片则删去对应的帧，生成新的图片候选集；

4.7）图片候选集根据同当前帧的距离远近重新排序；

4.8）依次对图片候选集中的帧进行判断，如果不满足下列公式，则丢弃该帧：

式中，

为该帧对应的Pearson相关系数，

为设定的初始值，

为该帧同当前帧的距离，

为设定的权重；

4.9）如果图片候选集中剩余的帧数不满足固定帧数，从不存在冗余图片的帧中进行补帧，生成新的不包含冗余图片的图片候选集。

与现有技术相比，本发明具有以下有益效果：（1）在不修改模型的情况下，提高深度学习模型的准确率；（2）提升用于视频任务的深度学习模型的鲁棒性，使模型适用于多种视频场景；（3）剔除与任务不相关的输入图片，使得深度学习模型更容易拟合；（4）方法易于使用和封装，适用于多种视频相关的深度学习任务。

附图说明

通过阅读参照以下附图所做的详细描述，本申请的其他特征、目的和优点将会变得更加明显：

图1是本方法技术路线图。

图2是生成Pearson相关系数示意图。

图3是场景切换识别示意图。

图4是冗余图片检测示意图。

图5是无场景切换的显著性检测图。

图6是有场景切换的显著性检测图。

具体实施方式

下面结合附图和实施例对本申请做进一步的详细说明。可以理解的是，此处所描述的具体实施仅仅用于解释相关方法，而非对该方法的使用进行限定。另外还需要说明的是，为了便于描述，附图中仅示出了与该方法相关的部分。下面将参考附图来详细说明本申请。

图1是方法的技术路线图，可以用于多种深度学习视频任务中，能在不改变模型参数的情况下提高模型的准确率和鲁棒性，包括以下步骤：

步骤S100，读取预选图片。

在本方法中，用于预处理的图片需要首先了解后续模型的固定帧数，在原本基础上扩大预处理图片的搜索范围。其中，模型的输入图片数是不一样的，常见的有16和32帧，需要先将搜索范围扩大，当发生场景切换或是存在冗余帧时会丢弃一部分帧，这时需要从扩大的范围里去查询进行补帧。

步骤S200，获取初始化Ghostnet神经网络，去掉Ghostnet分类层，将预选图片读入Ghostnet网络中生成图像特征，拼接后生成视频特征矩阵。

Ghost模块需要先使用常规卷积生成特征图，再通过线性运算生成多个幻影特征图，涉及到的公式有:

（1）

（2）

式（1）中，X为给定的输入数据

，c是输入通道数，h和w分别为输入图片的高和宽；*代表卷积运算；生成n的特征值运算中

，f是这一层的卷积核，b为偏差项；

是具有n个通道的该卷积层输出特征图；式（2）中，y _i ′是Y′中第i个原始特征图；Ф_i,j是第j个线性运算用于生成第j个幻影特征图y _ij。

Ghostnet的瓶颈结构，每个Ghost瓶颈结构由两个Ghost模块组成，组成方式有两种，第一种是在两个Ghost模块间使用批量归一化层（BN）和线性整流函数（ReLU）连接，使用shortcut形式连接。第二种Ghost模块减少了通道数，同shortcut路径匹配，在第二个Ghost模块之后不再使用线性整流函数。完整的Ghostnet由一系列的Ghostnet的瓶颈结构和分类模块组成，在Ghostnet组成中逐步扩大其通道数。

具体的，首先需要预训练Ghostnet神经网络。有多种实施预训练的途径，本申请使用imageNet数据库进行训练。当模型收敛之后，将模型分类模块删除，包含了Ghostnet尾部的平均池化层，1x1卷积核的卷积层和全连接层。依次将图片候选集中的帧读入网络中，每次会生成一个960*1的特征向量，将图片候选集所生成的特征向量拼接起来生成特征矩阵。

需要说明的是，并不是只能使用图1中Ghostnet神经网络，根据具体情况可以选用其他的神经网络结构，其核心是要使用神经网络得到高质量的特征矩阵。

参考图2，由Pearson相关系数得到图片候选集所生成的特征之间的线性相关性。设

和

分别为相邻候选图片生成的特征向量，则其Pearson相关系数ρ _x,y可以用公式表示如下：

式中，cov表示协方差，E表示数学期望，n表示取值的数量。进一步的，Pearson相关系数的取值范围在[-1,1]之间，越接近1或者-1相关度越强，越接近0相关度越弱，在本申请中Pearson相关系数小于0.45为两帧无相关，相对应的图片在视频中被认为是场景切换。

继续参考图3，其示出了如何判断图片候选集中是否存在场景切换的技术路线S400。该用于保留当前场景所有的帧和剔除另一场景包含的帧，包括以下步骤：

步骤S401，得到特征矩阵和对应的Pearson相关系数。

在本示例中，需要用来识别场景切换的数据包括由Ghostnet生成的特征矩阵和对应的Pearson相关系数。

步骤S402，依次对图片候选集进行确认，当Pearson相关系数小于阈值时丢弃对应区域的图片。

具体来说，需要依次检测图片候选集中是否有Pearson相关系数小于阈值的值，如果有说明该图集包含了场景切换，则进入后续步骤。如果发生场景切换，需要找到当前帧和发生场景切换的帧的时序关系，以丢弃不属于当前检测场景的帧。若发生场景切换的帧是当前帧或是在当前帧之前，则丢弃不是当前帧的发生场景切换的帧和当前帧之前的所有帧；若发生场景切换的帧是在当前帧之后，则丢弃发生场景切换的帧和当前帧之后的所有帧。

步骤S403，生成新的图片候选集。

当丢弃帧之后，原本的帧不足以满足固定帧数，需要从未发生场景切换的帧中选择进行补齐。

进一步参考图4，其示出了对冗余图片的检测的技术路线S500。

步骤S501，获取新的图片候选集和对应的Pearson相关系数。

在本示例中，需要用来识别冗余图片的数据包括由Ghostnet生成的特征矩阵和对应的Pearson相关系数。

步骤S502，依次对图片候选集进行确认，当Pearson相关系数大于阈值时丢弃对应的图片。

需要依次检测图片候选集中是否有Pearson相关系数大于设定阈值的值，如果有说明系数对应的两帧极其相似，丢弃其中一帧。

步骤S503，根据图片候选集对当前帧的远近，进行重新排序。从前往后进行判定，当其对应Pearson相关系数大于权重公式，丢弃对应的帧。

阈值的判定是依据图片候选集中每张图片的位置到当前帧的距离来判定的，其判断公式如下：

当公式成立，则保留该帧，反之，则丢弃。其中pccs _i为每帧对应的Pearson相关系数，S为设定的初始值，dis _i为每帧同当前帧的距离，weight为设定的权重，n为图片候选集中帧的总数。

步骤S504，判定剩余候选帧的数量，当总数小于模型需要的帧数时，补齐帧。

当丢弃帧之后，现有的帧数不足以满足固定帧数，需要从未发生场景切换的帧中选择进行补齐。进一步地，上述步骤完成后生成了全新的图片候选集，其只包含了同一场景的图片且除去了同一场景中的冗余的图片，完成了对视频显著性检测任务图片的预处理工作，供后续深度学习模型使用。

参考图5和图6，图5是无场景切换的显著性检测图，图6是有场景切换的显著性检测图，分别比较原始模型和加入我们的图片预处理方法后的模型对视频显著性检测任务结果的影响。进一步地，参考表1：

表1

表格中示出了显著性检测方法在多种测量矩阵下的结果。其中测量矩阵包括：（1）归一化扫描路径显著性（NSS），（2）线性相关性（cross-corrlation），（3）相似性（similarity），（4）Judd曲线下面积（AUC-Judd），和（5）随机AUC（AUC-shuffled）。归一化扫描路径显著性和线性相关性估计预测图片和真实值之间的线性关系，相似性用于计算两个直方图之间的相似性，Judd曲线下面积和随机AUC是常用的计算方法。每项指标得分越高，说明显著性检测算法越准确。

最后所应说明的是：以上描述仅为本申请的较佳实施方案以及对所运用技术原理的说明。本领域技术人员应当理解，本申请中所涉及的发明范围，并不限于技术特征的特定组合而成的技术方案，而不脱离本发明的精神和范围的任何修改或者局部替换，其均应涵盖在本发明的权利要求范围当中。

Claims

1.一种视频显著性检测任务中图片预处理的方法，其特征在于，该方法包括下列步骤：

1）获取图片候选集；

2.根据权利要求1所述的视频显著性检测任务中图片预处理的方法，其特征在于，步骤2）修改后的Ghostnet神经网络的训练首先要基于ImageNet，使得模型可以进行1000种类的分类任务，然后去掉Ghostnet的分类模块，包含了平均池化层，1x1卷积核的卷积层和全连接层，每张图片通过修改后的模型会生成一个960×1的特征矩阵，将图片候选集的特征矩阵拼接起来生成视频特征矩阵。

3.根据权利要求1所述的视频显著性检测任务中图片预处理的方法，其特征在于，步骤3）根据视频特征矩阵，使用Pearson相关系数来得到相邻图片的线性相关性，包括：通过Pearson相关系数的方法判定得到时序间帧的相关性，相关性的分类界限是Pearson相关系数在0~0.45为两帧无相关，0.45~0.75为两帧弱相关，0.75~0.98为两帧强相关，0.98~1为两帧高度相似。

4.根据权利要求1所述的视频显著性检测任务中图片预处理的方法，其特征在于，步骤4）基于Pearson相关系数进行场景切换识别和冗余图片检测，生成新的图片候选集的详细步骤包括：

4.1）提取当前帧的序号，当前帧是需要生成显著性检测结果的帧，扩大图片搜索范围，生成图片候选集；图片候选集帧的数量和Pearson相关系数个数有对应关系，如当前图片候选集共有n帧，则对应的Pearson相关系数共有n-1个；

4.2）若Pearson相关系数集合中的值都大于阈值，说明无场景切换，图片候选集不变，搜索结束；若有值小于阈值，则该值所对应的下一帧图片发生场景切换，进入下一步；

4.3）判断场景切换发生在当前帧之前或是之后，如果发生在当前帧之后，执行4.4）；否则，跳转执行4.5）；

4.7）图片候选集根据同当前帧的距离远近重新排序；

式中，

为该帧对应的Pearson相关系数，

为设定的初始值，

为该帧同当前帧的距离，

为设定的权重；