CN114782878B

CN114782878B - 一种视频显著性检测方法

Info

Publication number: CN114782878B
Application number: CN202210584580.8A
Authority: CN
Inventors: 杨威; 杨金锋; 景晓军; 袁航; 江巧捷; 曾晶
Original assignee: Guangdong Southern Planning & Designing Institute Of Telecom Consultation Co ltd
Current assignee: Guangdong Southern Planning & Designing Institute Of Telecom Consultation Co ltd
Priority date: 2022-05-26
Filing date: 2022-05-26
Publication date: 2024-04-30
Anticipated expiration: 2042-05-26
Also published as: CN114782878A

Abstract

本发明属于计算机视觉技术领域，公开了一种视频显著性检测方法，通过使用视线跟踪数据库，对其中的所有视频的深度、位分配和运动向量等特征从相应的VVC比特流中提取并进行计算。接着，为每个视频帧生成这些特征的地图。然后，将上述这些特征经过滤波器进行优化，并通过非线性二分类的方法训练数据。最后，通过显著性映射和处理，完成显著性检测，从而实现了快速准确地进行显著性检测，减小算法计算量，提高检测效率。

Description

一种视频显著性检测方法

技术领域

本发明属于计算机视觉技术领域，尤其涉及一种视频显著性检测方法。

背景技术

随着计算机视觉领域的飞速发展，显著性物体检测在近年来作为视觉感知的注意力模拟方向得到广泛关注。人眼视觉感知系统可以快速精准地定位到视觉场景中具有高区分度的、吸引人关注的物体或场景区域。这种高效的视觉注意力机制引发了计算机视觉领域对人眼视觉感知能力的模拟、研究与探索。人眼视觉注意力机制通过对视觉空间内的局部信息进行分析整合，建立对整个视觉场景的理解。

视频显著性检测是计算机视觉领域的一个热点研究方向，近年来引起了广泛的研究兴趣。这种日益流行的原因在于在各种视觉任务中有效地使用了这些模型，显著性检测作为一种有效的预处理技术已被广泛应用于检索、识别、分割、重定向、增强、行人检测、评价、压缩等众多计算机视觉任务。场景的显著性区域通常包含了人类感兴趣的重要目标或最能表达图像的内容，是能够在较短时间内吸引人的视觉注意力的区域，而显著性检测就是找出这些感兴趣目标或区域的过程。其目的在于通过联合空间和时间信息实现视频序列中与运动相关的显著性目标的连续提取。由于视频序列中目标运动模式多样、场景复杂以及存在相机运动等,使得视频显著性检测极具挑战性。基于底层线索的方法一直是视频显著性检测领域的主流方法，该类方法从底层线索出发，提取视频的运动特征，探索视频的视觉先验信息，挖掘视频的帧间关系，并结合视频的空时信息，建立显著性检测模型。该类方法不需要进行训练学习，操作简单方便，是一类基础的检测方法。但是，由于运动场景的更新、目标尺寸的变化以及拍摄视角的切换，使得该类方法的检测准确率远远没有达到理想的要求，有待进一步的提高和完善。此类方法可进一步划分为基于变换分析的方法、基于稀疏表示的方法、基于信息论的方法和基于视觉先验的方法。具体地，基于变换分析的方法一般通过数学变换提取视频序列的有用信息；基于稀疏表示的方法则以稀疏表示为基础，通过挖掘显著性区域的稀疏系数特性；基于信息论的方法通常利用自信息、信息熵、条件熵等概念研究信息量与显著性的关系；基于视觉先验的方法，受人类视觉感知系统启发,许多视觉先验信息被应用等。

此外，基于学习的检测方法也受到了研究学者的广泛关注。特别是随着深度学习技术的发展和成熟，已有多项工作利用深度学习实现了视频的显著性检测，大幅度地提高了算法的性能。有学者提出了通过有监督的学习来检测图像或连续图像中的显著性目标。近年来，深度学习技术蓬勃发展，已被广泛应用于许多方面。因此，也出现了基于深度学习的视频显著性检测算法。

发明内容

本发明实施例的目的在于提供一种视频显著性检测方法，能够准确完成视频显著性检测，提高检测效率。

本发明实施例是这样实现的：

一种视频显著性检测方法，包括以下步骤：

101、采用VVC编码器进行编码，通过使用视线跟踪数据库，对数据库的所有视频的深度、位分配和运动向量从相应的VVC比特流中提取并进行计算；其中，所述视线跟踪数据库包含不同分辨率的各类型视频；

102、在VTM4(VVC Test model 4)中，使用一种基于块的仿射运动补偿预测，具体的，一个块的仿射运动域由两个控制点(Control Point)组成的四参数模型或三个控制点(Control Point)组成的六参数模型运动矢量来表示；Merge mode with MVD又叫做UMVE，在选择运动矢量候选列表(MV Candidate)之后，UMVE会以此为起点做更精细的运动搜索，而在码流中只需要传送器对应的Index即可，然后，为每个视频帧生成这些特征的地图；

103、将上述这些特征以滤波器优化后，基于以上的特征，使用非线性二分类方法训练数据；通过显著性映射和处理，得到显著性图，完成显著性检测；具体的，非线性二分类方法为SVM支持向量机分类法，SVM支持向量机是将向量映射到一个更高维的空间里，在这个空间里建立有一个最大间隔超平面，在分开数据超平面的两边建有两个互相平行的超平面，分隔超平面使两个平行超平面的距离最大化，步骤如下：(1)导入数据；(2)数据归一化；(3)执行SVM寻找最优的超平面；(4)绘制分类超平面核支持向量；(5)利用多项式特征在高维空间中执行线性SVM；(6)选择核函数，执行非线性SVM；

其中，所述滤波器为二维高斯滤波器、中值滤波器或均值滤波器；

104、将序列最小优化算法(SMO)用于训练所述SVM支持向量机分类法，进行二次优化，其中，一次迭代只优化两个变量而固定剩余的变量；

105、通过非参数化的蒙特卡洛模拟方法来实现递推贝叶斯滤波，真实地模拟后续过程，在帧内预测中，每个CTU用来模拟空间显著性，在帧间预测中，每个编码块的分割深度用来模拟时间显著性。

本发明实施例通过使用视线跟踪数据库，对其中的所有视频的深度、位分配和运动向量等特征从相应的VVC比特流中提取并进行计算。接着，为每个视频帧生成这些特征的地图。然后，将上述这些特征经过滤波器进行优化，并通过非线性二分类的方法训练数据。最后，通过显著性映射和处理，完成显著性检测，从而实现了快速准确地进行显著性检测，减小算法计算量，提高检测效率。

附图说明

图1是本发明视频显著性检测方法的流程图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。

以下结合具体实施例对本发明的具体实现进行详细描述：

首先，进行本发明相关技术点内容的解释：

1、VVC编码

随着5G技术的发展与应用，高质量视频传输需求的更加迫切，而视频编码技术能将海量视频数据压缩形成视频码流，解决视频高效传输和存储问题。H.266/VVC(VersatileVideo Coding)作为新一代视频编码，能够在上一代视频编码基础上大幅度提升编码质量。帧间预测技术是视频编码框架中相当重要的环节，可大幅提升视频压缩率，剔除视频数据中的时间冗余。VVC是由MPEG和ITU共同开发的下一代标准化编解码器，质量目标是在维持相同画质不变的前提下比HEVC降低30％的比特率。VVC通过块划分将一帧图像划分成许多编码树单元(Coding Tree Unit，CTU)，一个CTU通过内嵌多类型树的四叉树结构(aquadtree with nested multi-type tree using binary and ternary splitssegmentation structure)被划分成许多编码单元(Coding Unit，CU)，单元(Unit)是指图像中某个区域，包含所有的色彩分量，而块(Block)则是指包含某个特定色彩分量(如亮度Luma分量)的图像区域。对于一个CU，包含亮度分量的CB(Coding Block)和两个色度分量的CB。除了HEVC中的DCT-II变换，VVC引进了两种新的变换方式DST-VII和DCT-VIII，帧内帧间编码块从这三种变换方式中进行选择。在VTM4(VVC测试模型4)中，使用了一种基于块的仿射运动补偿预测。一个块的仿射运动域由两个control point(四参数)或三个controlpoint(六参数)运动矢量表示。Merge mode with MVD(MMVD)又叫做UMVE，在选择MVCandidate之后，UMVE会以此为起点做更精细的运动搜索，而在码流中只需要传送器对应的Index即可。

2、去噪

高斯分布又称为正态分布，是一种广泛应用的概率分布，一维高斯分布比较常见。用分布曲线表达，即横轴表示可能的取值x，竖轴表示概率分布密度F(x)，那么不难理解这样一个曲线与x轴围成的图形面积为1。因其曲线呈钟形，因此人们又经常称之为钟形曲线。正态分布的期望值决定了曲线的位置，标准差决定了分布的幅度。标准差越大，则图形越宽，分布越分散，尖峰越小；标准差越小，则图形越窄，分布越集中，尖峰越大。期望值为0，标准差为1时称随机变量X服从标准正态分布。图像一般作为二维数据处理，相应的会用到二维高斯分布。二维高斯分布函数为X，Y两个方向的一维高斯函数的乘积，二维高斯函数具有旋转对称性。对于二维高斯滤波，一个重要参数就是标准差，标准差对于高斯分布的影响上面已经提到。对于某个像素点，将其带入G(x，y)可得到高斯分布对应的权值。不过这些权值的和不等于1(小于1)，一般会把它们再做归一化处理。基于文中提到的特征，可以使用二维高斯滤波器，也可以考虑使用其他的去噪算法。

3、训练和处理

a.特征二分类

常见的分类算法有贝叶斯分类，决策树分类，支持向量机分类，KNN，逻辑回归，还有神经网络。神经网络分类的准确度高，并行分布处理能力强，分布存储及学习能力强，对噪声神经有较强的鲁棒性和容错能力，能充分逼近复杂的非线性关系，具备联想记忆的功能。缺点是需要大量的参数，如网络拓扑结构、权值和阈值的初始值；不能观察之间的学习过程，输出结果难以解释，会影响到结果的可信度和可接受程度；学习时间过长,甚至可能达不到学习的目的。支持向量机(Support Vector Machine，SVM)是一种监督式学习的方法，可广泛地应用于统计分类以及回归分析。它是将向量映射到一个更高维的空间里，在这个空间里建立有一个最大间隔超平面。在分开数据的超平面的两边建有两个互相平行的超平面，分隔超平面使两个平行超平面的距离最大化。实验的一般步骤为：(1)导入数据；(2)数据归一化；(3)执行SVM寻找最优的超平面；(4)绘制分类超平面核支持向量；(5)利用多项式特征在高维空间中执行线性SVM；(6)选择合适的核函数，执行非线性SVM。使用核函数不但可以向高维空间进行映射，还可以解决非线性的分类。然而，SVM可能耗费较长的时间。大部分数据的自然表示形式是向量、矩阵或者更高维的数据,支持向量机可以较好地处理向量形式的数据。对于高维数据,传统的机器学习算法在将多维数据转化成向量形式时会损失大量的结构信息。因此，朴素支持张量机这一类分类器，将多维数据输入进行训练，进而通过SMO算法进行求解。

b.后续处理

由于视觉注意力可能落后于移动或新出现的物体，因此需要进行后续处理。粒子滤波(Particle Filtering)通过非参数化的蒙特卡洛(Monte Carlo)模拟方法来实现递推贝叶斯滤波，适用于任何能用状态空间模型描述的非线性系统，精度可以逼近最优估计。蒙特卡罗方法由于能够真实地模拟实际物理过程，故解决问题与实际非常符合，可以得到很圆满的结果。这也是以概率和统计理论方法为基础的一种计算方法，是使用随机数(或更常见的伪随机数)来解决很多计算问题的方法。将所求解的问题同一定的概率模型相联系，用电子计算机实现统计模拟或抽样，以获得问题的近似解。粒子滤波器具有简单、易于实现等特点，它为分析非线性动态系统提供了一种有效的解决方法，从而引起目标跟踪、信号处理以及自动控制等领域的广泛关注。卡尔曼滤波(Kalman Filtering)一种利用线性系统状态方程，通过系统输入输出观测数据，对系统状态进行最优估计的算法。由于观测数据中包括系统中的噪声和干扰的影响，所以最优估计也可看作是滤波过程。可以扩展到扩展卡尔曼滤波(Extend Kalman Filter,EKF)是考虑时间非线性的动态系统。

如图1所示，一种视频显著性检测方法，包括以下步骤：

本发明通过使用视线跟踪数据库，对其中的所有视频的深度、位分配和运动向量等特征从相应的VVC比特流中提取并进行计算。接着，为每个视频帧生成这些特征的地图。然后，将上述这些特征经过滤波器进行优化，并通过非线性二分类的方法训练数据。最后，通过显著性映射和处理，完成显著性检测。

首先，使用VVC编码器进行编码。VVC是由MPEG和ITU共同开发的下一代标准化编解码器，其质量目标是在维持相同画质不变的前提下，比HEVC降低30％的比特率，也是最新一代的视频编码标准。此前的视频编码HEVC标准，整体采用速度相当缓慢，但是高分辨率显示器和相关内容已经迅速增长。因此，使用VVC能够保留更多的有效信息。通过视线跟踪数据库，其中，包含不同分辨率的各类型视频，对于数据库的所有视频深度、位分配和运动向量从相应的VVC比特流中提取。接着，使用一种基于块的仿射运动补偿预测。具体地，一个块的仿射运动域由两个Control Point(四参数)或三个Control Point(六参数)运动矢量来表示。Merge mode with MVD(MMVD)又叫做UMVE，在选择MV Candidate之后，UMVE会以此为起点做更精细的运动搜索，而在码流中只需要传送器对应的Index即可。然后，为每个视频帧生成这些特征的地图。以滤波器优化后，基于以上的特征，使用二分类方法训练，通过显著性映射，得到显著性图。支持向量机是将向量映射到一个更高维的空间里，在这个空间里建立有一个最大间隔超平面。在分开数据超平面的两边建有两个互相平行的超平面，分隔超平面使两个平行超平面的距离最大化。实验步骤如下：(1)导入数据；(2)数据归一化；(3)执行SVM寻找最优的超平面；(4)绘制分类超平面核支持向量；(5)利用多项式特征在高维空间中执行线性SVM；(6)选择合适的核函数，执行非线性SVM。对于某个像素点，将其带入G(x，y)可得到高斯分布对应的权值。不过这些权值的和不等于1(小于1)，一般会把它们再做归一化处理。后续处理通过非参数化的蒙特卡洛模拟方法来实现递推贝叶斯滤波，适用于任何能用状态空间模型描述的非线性系统，精度可以逼近最优估计。由于视觉注意力可能落后于移动或新出现的物体，蒙特卡罗方法由于能够真实地模拟后续过程。在帧内预测中，每个CTU可以用来模拟空间显著性。在帧间预测中，每个编码块的分割深度可以用来模拟时间显著性。由于块的大小的不同，分裂深度自然是不同的。每个CU的分裂深度可以应用于视频显著性检测的基本VVC特征。视觉注意与每个CTU的比特分配高度相关，拥有更高信息量的CTU的比特比少量信息的CTU的比特更多。因此，从VVC比特流中提取每像素比特可以以进行显著性检测。而运动物体相对于静止的背景，更能吸引人的注意力，所以运动向量也可以作为显著性检测的特征之一。除此之外，还应该考虑到时间和空间差异，因为突然出现的物体或者反向运动的物体更容易引起注意。当然，可以考虑其他的特征选取。由于种种原因，图像中总是存在噪声，假如以灰度图的形式描述图像，噪声的灰度值与其邻域灰度值往往差别较大(不过边缘像素点也有这个特征)，这就为去噪提供一种简单的思路：既然噪声灰度值相对“突出”，就利用邻域的灰度信息做平衡。因此，常见的去噪算法包括中值滤波(取某像素邻域的中间值作为该像素的灰度值)，均值滤波(对应像素邻域的平均值)，还有高斯滤波。高斯滤波简单来说利用了高斯分布，直观上看邻域中距离像素点距离越近的点其加权权值越高，反之越低。所有特征都需要从比特流中提取，并且计算，而且所有特征对于显著性检测都有着不同的作用。因此，需要将所有特征通过算法结合起来。同时，视觉注意力可能落后于移动或新出现的物体，需要后续处理。

其次，针对SVM问题的缺点，即计算量太大，在小样本的情况下尚可以使用，但是数据量一旦变大就变得难以奏效。本发明提出将序列最小优化算法(SMO)用于训练SVM分类器，SMO算法是一种解决二次优化问题的算法，其经典的应用是解决SVM问题。SVM推导到最后，特别是使用了拉格朗日因子法求解之后便不难发现其最终等效为一个二次规划问题。二次规划问题有很多成熟的解法，在SMO算法出现之前这些解法就已经应用到了SVM问题的求解上。这样不但能够获取数据的大部分信息,还可以节省时间成本，减少计算量，又可以求得凸优化函数的全局最优解。但是，这些解法无论效果如何都有一个共同的缺点，即计算量太大，在小样本的情况下尚可使用，但当数据量一大就变得难以奏效。通过SMO(序列最小优化)算法解决二次优化问题的算法，其基本思路是一次迭代只优化两个变量而固定剩余的变量。直观地讲，就是将一个大的优化问题分解为若干个小的优化问题，而这些小的优化问题往往是易于求解的。然后，通过跟踪滤波器提高识别的准确率。无论是粒子滤波还是卡尔曼滤波，都是优化结果的滤波器，对系统进行预估和校正，还可以进行扩展。

本发明的实施例中，通过上述显著性检测方法进行检测，提高了检测的准确率，以及减小了运算量，提高了检测效率。

以上所述仅为本发明的较佳实施例而已，并不用于限制本发明，凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等，均应包含在本发明的保护范围之内。

Claims

1.一种视频显著性检测方法，其特征在于，包括以下步骤：

102、在VTM4 VVC Test model 4中，使用一种基于块的仿射运动补偿预测，具体的，一个块的仿射运动域由两个控制点Control Point组成的四参数模型或三个控制点ControlPoint组成的六参数模型运动矢量来表示；Merge mode with MVD又叫做UMVE，在选择运动矢量候选列表MV Candidate之后，UMVE会以此为起点做更精细的运动搜索，而在码流中只需要传送器对应的Index即可，然后，为每个视频帧生成这些特征的地图；

103、将上述这些特征以滤波器优化后，基于以上的特征，使用非线性二分类方法训练数据；通过显著性映射和处理，得到显著性图，完成显著性检测；具体的，非线性二分类方法为SVM支持向量机分类法，SVM支持向量机是将向量映射到一个更高维的空间里，在这个空间里建立有一个最大间隔超平面，在分开数据超平面的两边建有两个互相平行的超平面，分隔超平面使两个平行超平面的距离最大化，步骤如下：1导入数据；2数据归一化；3执行SVM寻找最优的超平面；4绘制分类超平面核支持向量；5利用多项式特征在高维空间中执行线性SVM；6选择核函数，执行非线性SVM；

104、将序列最小优化算法SMO用于训练所述SVM支持向量机分类法，进行二次优化，其中，一次迭代只优化两个变量而固定剩余的变量；