CN108134937B

CN108134937B - 一种基于hevc的压缩域显著性检测方法

Info

Publication number: CN108134937B
Application number: CN201711389311.1A
Authority: CN
Inventors: 周巍; 白瑞; 魏恒璐; 张冠文
Original assignee: Northwestern Polytechnical University
Current assignee: Northwestern Polytechnical University
Priority date: 2017-12-21
Filing date: 2017-12-21
Publication date: 2021-07-13
Anticipated expiration: 2037-12-21
Also published as: CN108134937A

Abstract

本发明提供了一种基于HEVC的压缩域显著性检测方法，涉及视频技术处理领域，通过提取色度、亮度和纹理静态特征图，建立滤除静态特征图背景的模型，计算最终静态显著性图和动态显著性图，得到最终的显著性图。本发明较其它显著性模型的精度有一定的提高，并且检测算法较为稳定，同时相应降低了算法的复杂度，应用高斯分布滤除静态特征图的背景，充分提取静态特征信息，使得计算精度提高；动态显著性图计算中包含了图像的运动特征、纹理特征和统计特性，使得算法的复杂度降低，因为压缩域的显著性反应的是重建视频的显著性，所以更有利于感知视频编码；采用自适应的融合算法，使得显著性值更加精确。

Description

一种基于HEVC的压缩域显著性检测方法

技术领域

本发明涉及视频技术处理领域，尤其是一种视频序列的显著性检测方法。

背景技术

感知视频编码是以人眼感知到的视频质量作为视频编码的标准，被认为是一种可以解决现有视频编码瓶颈的新型编码形式。可以将视觉显著性模型应用于感知视频编码。到目前为止，已经研究出许多显著性检测模型，模型分为自底向上和自顶向下两种机制。前者是指基于低级视觉特征和数据驱动的快速处理方式，后者是指基于任务驱动和意识支配的缓慢处理方式。

最初自底向上的显著性检测模型是受生物视觉的启发。研究发现，视网膜及初级视觉皮层存在一种工作机理：视觉神经元对视觉空间中一个很小的区域非常敏感，而对与该区域同心的更大区域的拮抗区产生的刺激响应较弱。这种检测机理较为适合检测中心与周边存在差异的位置，因而建立了基于中心和中周边差异的模型。Itti、Koch等人基于以上理论第一次建立显著性模型，该模型结合亮度、色度、方向等特征信息，采用高斯金字塔，通过中心与周边操作得到多尺度下的显著性图，最后进行融合并规范化得到最终的显著性图，但显著性检测结果精度不高。随后学者们对Itti的模型进行优化并将其应用到机器视觉任务中。Zhang等人提出了利用自然统计的显著性贝叶斯检测框架，简称为SUN，该算法基于自然图像统计的显著性度量，而非单个测试图像，为人类观察到的许多搜索不对称性提供了简单的解释，单个测试图像的统计信息导致与这些不对称性不一致的预测。Seo提出一种新颖将静态和动态显著性检测统一的框架，通过测量像素(或体素)与其周围环境的相似度，然后使用“自相似”度量来计算视觉显著性。后来学者开始从空间域、颜色域方面入手，Hou从频率角度提出一种新型的显著性检测算法，该算法从信息论出发，图像可以分为冗余部分和新颖部分，作者发现图像的平均谱都是平滑的曲线，那么单一图像对数谱中突出的部分就是显著性部分，通过振幅谱图突出部分相减得到特征谱，再通过傅里叶反变换得到显著图。虽然提出一种新的研究方向，但标注显著区域不明显，并且实验检测精度不高。

生物视觉的自顶向下的选择注意机制是认知心理学的一个尚未解决的问题，在机器视觉领域，自顶向下的视觉显著性检测模型同样是一个研究难点，现有模型一般思路是先对目标、任务相关的先验知识进行学习，然后再利用所学习的先验知识指导显著性检测，Xu等人建立人眼追踪的数据集，并且利用HEVC中特征分量CU划分深度、比特分配以及运动向量，分别求解空间时间等方面的特征信息，然后利用支持向量机非线性部分进行分类，最后利用训练的结果对每一个像素点进行分类，该算法计算较为复杂，耗时较长。多数自顶向下的显著性检测模型需要对庞大的图像数据库进行学习，计算量巨大，且因为驱动任务的不通用而不具有通用性。因此，当前研究多着眼于自底向上的方法。

发明内容

为了克服现有技术的不足，为应对高清视频的需求，由VCEG和MPEG组成的联合协作视频编码组JCT-VC(Joint Collaborative Team on Video Coding)制定了新一代高效视频编码标准HEVC(High Efficiency Video Coding)，为实现感知视频编码，本发明提出一种基于HEVC的压缩域显著性检测方法。

本发明的目的是提高显著性检测算法的精度，同时降低显著性算法计算的复杂度，并且建立符合最新视频编码标准的显著性模型。本发明可以应用于最新的视频编码标准HEVC显著性检测，并且为感知视频编码提供了一种更为方便简捷的显著性计算方式，同时为视频显著性检测提供了一种更为精确的检测方式。

本发明解决其技术问题所采用的技术方案包括以下步骤：

第一步：提取色度、亮度和纹理静态特征图

在HEVC视频编码中，编码端输入文件为YUV文件，该文件采用YCbCr颜色空间，即每个像素点包含Y、Cr和Cb三个颜色分量，本发明采用8×8窗口对原始图像中颜色分量进行下采样，对8×8窗口中像素点下采样后生成新像素点，新像素点的值是窗口内所有像素均值，亮度信息如下所示：

其中，L^k表示采样后亮度信息，k表示第k个8×8窗口，win(k)表示第k个8×8窗口的所有像素点的集合，Y_i表示窗口内i处未采样前亮度信息，i表示采块中的第i个像素点，下采样后的亮度信息组成亮度特征图L，色度信息包含Cb和Cr两种分量，如式(2)和式(3)所示，对两种色度信息进行采样：

其中Cr_i和Cb_i分别表示窗口内i处未采样前的两种色度信息，

和

分别表示色度信息Cb和Cr采样后的结果，k表示第k个8×8采样块，所有像素点的色度信息下采样后组成色度特征图C₁和C₂，纹理信息采用8×8窗口中离散余弦变换(Discrete Cosine Transform，DCT)后的部分交流分量(Alternate Current，AC)系数来表示，选取DCT系数块中左上角低频部分的5个AC系数表示，选取系数如式(4)所示：

其中

表示亮度信息Y的第k个窗口经过DCT变换后在(i,j)位置处的AC系数值，T^k表示第k个8×8窗口的纹理信息，T^k为多维向量，所有点的纹理信息组成纹理特征图T，图T为多维的特征图，通过公式(1)，(2)，(3)和(4)的计算，分别得到四幅静态特征图L、C₁、C₂和T；

第二步：建立滤除静态特征图背景的模型

本发明采用中心与周边差异的方式，将每一个像素点作为中心点与周边一个m×m窗内所有像素点求差值，使每一个像素点重建为一个m×m矩阵，对矩阵块中每一个点赋予权重，权重分配采用高斯分布，计算如式(5)所示：

其中以中心点为坐标原点(0,0)，(x,y)表示周边像素点的相对于中心点的位置，α_(x,y)为重建矩阵中(x,y)处的高斯权重，σ为常数，重建后矩阵如式(6)所示：

其中

表示静态特征图λ中坐标(i,j)处重建后大小为m×m的矩阵，同时λ∈{L,C1,C2,T}，p_(0,0)表示在特征图中将坐标点(i,j)作为中心坐标点(0，0)的像素值，p_{(-(m-1)/2,-(m-1)/2)}表示与坐标点(i,j)处的横纵坐标相距为(m-1)/2的坐标点处的像素点值，然后将重建矩阵中所有元素求和，得到该像素点最终的特征显著性值，如式(7)所示：

其中

表示静态特征图λ中(i,j)处的显著性值，同时λ∈{L,C1,C2,T}，sum是对矩阵

中所有元素进行求和的操作，其中，纹理特征图S1^T需要对向量进行求和操作，用向量的2范数表示纹理显著性值，每一幅静态特征图中所有像素点的显著性值组成一幅静态显著性图，L中所有点的显著性值组成一幅亮度显著性图S1^L,其它三种静态特征图C₁、C₂和T分别生成三幅静态显著性图

和S1^T，从而求得四幅静态显著性图；

第三步：计算最终静态显著性图

将四幅静态显著性图进行加权平均从而得到最终的静态显著性图，计算方法如式(8)所示：

其中S1^L表示亮度显著性图，S1^C1和S1^C2表示色度显著性图，S1^T表示纹理显著性图，SS表示最终静态显著性图；

第四步：计算动态显著性图

在视频编码中压缩域中提取的特征信息有编码单元(Coding Unit，CU)划分深度、比特分配以及表示像素块位移的运动向量，本发明采用CU划分深度和比特分配建立滤除背景的模型，通过公式(9)建立阈值：

其中Th表示新建的用于滤除背景的运动向量V的阈值，frame表示当前视频帧所有像素点的集合，n₁表示该视频帧像素点个数，d_ij表示像素点(i,j)处CU划分的深度值，CU划分的深度值在HEVC编码后的压缩域中提取得到，b_ij表示像素点(i,j)处的比特分配值，比特分配值在HEVC编码后的压缩域中提取得到，通过求平均值求出每一个像素点分配的比特，应用公式(9)的阈值Th建立用于滤除运动背景的图片pic，图pic中每一个像素点的计算公式如式(10)所示：

其中pic(i,j)表示图片pic中坐标(i,j)处的值，得到最终的动态显著性图SM，图SM中每一个像素点值计算公式如式(11)所示：

SM(i,j)＝N(pic(i,j)×V(i,j)) (11)

其中SM(i,j)表示图SM中坐标为(i,j)处的值，V(i,j)为像素点(i,j)处的运动向量，N为归一化操作，表示将图SM中所有像素点值除以图SM中像素点的最大值，得到最终动态显著性图SM；

第五步：计算最终的显著性图

采用基于竞争的融合算法，分别赋予动态和静态显著性图不同的权重，计算方式如式(12)所示：

S＝a1×SS+a2×SM+a3×SF (12)

SF＝SS×SM (13)

其中S为最终显著性图，SS、SM、SF分别表示最终的静态显著性图、最终动态显著性图以及最终的静态与动态显著性图的乘积，a1、a2、a3分别为各自权重，其中权重参数计算方式如式(14)和式(15)所示：

其中

表示显著性图k中坐标(i,j)处的显著性值，并且k∈(SS,SM)，v^k表示公式(14)中的变量v^SS和v^SM，n₂表示每一幅显著性图中所有像素点个数，

表示显著性图k的均值，将公式(14)和(15)代入公式(12)即可得到最终显著性图。

本发明的有益效果在于由于建立符合最新视频编码标准HEVC的显著性模型，较其它显著性模型的精度有一定的提高，并且检测算法较为稳定，同时相应降低了算法的复杂度，对颜色分量进行下采样，使得算法的计算复杂度下降；应用高斯分布滤除静态特征图的背景，可以充分提取静态特征信息，使得计算精度提高；动态显著性图计算中包含了图像的运动特征、纹理特征和统计特性，使得算法的复杂度降低，因为压缩域的显著性反应的是重建视频的显著性，所以更有利于感知视频编码；采用自适应的融合算法，使得显著性值更加精确。

附图说明

图1是本发明的工作程序流程图。

图2是本发明显著性检测的原图。

图3是本发明原图处理后的静态显著图。

图4是本发明原图处理后的动态显著图。

图5是本发明原图处理后的最终显著图。

具体实施方式

下面结合附图和实施例对本发明进一步说明。

在HEVC测试程序HM13.0中提取压缩特征信息，并进行显著性检测，随后与其它显著性检测算法进行对比。选取10组序列作为测试序列，其中包含4组CIF视频序列，另外包含尺寸为480P、720P和1080P共6组序列，视频内容包含运动、新闻、直播、娱乐等类型。选取每个YUV序列中的50帧进行编码，并计算显著性图。使用encoder_lowdelay_main.cfg配置文件，CTU的尺寸设置为64×64，最大CTU划分深度为3，可以为显著性检测提供所有可能的CTU划分结构。每一个图像组的尺寸是4，并且全部为B帧类型视频帧，其他的视频编码参数均设置为常规参数。同时对输入视频序列使用不同的量化参数，用于检测实验结果，量化参数分为4组，分别是22、27、32、37。为检测本发明较其它显著性模型精度有提高，采用KL散度和AUC值对实验结果进行评估，KL散度表示显著性图之间的差距，AUC值表示分类器检测显著性好坏。

下面结合图1对本发明做进一步说明，图2为本发明显著性检测的原图。

第一步：提取色度、亮度和纹理静态特征图

在HEVC视频编码中，编码端输入文件为YUV文件，该文件采用YCbCr颜色空间，即每个像素点包含Y、Cr和Cb三个颜色分量，为了降低算法的复杂度，同时也符合HEVC编码最小的编码单元尺寸为8×8，本发明中采用8×8窗口对原始图像中颜色分量进行下采样，对8×8窗口中像素点下采样后生成一新像素点，新像素点的值是窗口内所有像素均值，亮度信息如下所示：

其中Cr_i和Cb_i分别表示窗口内i处未采样前的两种色度信息，

和

分别表示色度信息Cb和Cr采样后的结果，k表示第k个8×8采样块，所有像素点的色度信息下采样后组成色度特征图C₁和C₂，纹理信息采用8×8窗口中离散余弦变换(Discrete CosineTransform，DCT)后的部分交流分量(Alternate Current，AC)系数来表示，由于人眼对低频信息较为敏感，选取DCT系数块中左上角低频部分的5个AC系数表示，选取系数如式(4)所示：

其中

表示亮度信息Y的第k个窗口经过DCT变换后在(i,j)位置处的AC系数值，T^k表示第k个8×8窗口的纹理信息，T^k为多维向量，所有点的纹理信息组成纹理特征图T，由于图T中每一个点对用值为向量，所以图T为多维的特征图，通过公式(1)，(2)，(3)和(4)的计算，分别得到四幅静态特征图L、C₁、C₂和T；

第二步：建立滤除静态特征图背景的模型

经第一步计算得到四幅静态特征图，需要将静态特征图中的背景部分滤除，建立滤除静态特征图背景的模型，本发明采用中心与周边差异的方式，将每一个像素点作为中心点与周边一个41×41窗内所有像素点求差值，使每一个像素点重建为一个41×41矩阵，对矩阵块中每一个点赋予权重，权重分配采用高斯分布，计算如式(5)所示：

其中以中心点为坐标原点(0,0)，(x,y)表示周边像素点的相对于中心点的位置，α_(x,y)为重建矩阵中(x,y)处的高斯权重，σ为常数，本发明取σ＝40，重建后矩阵如式(6)所示：

其中

表示静态特征图λ中坐标(i,j)处重建后大小为41×41的矩阵，同时λ∈{L,C1,C2,T}，p_(0,0)表示在特征图中将坐标点(i,j)作为中心坐标点(0，0)的像素值，p_{(-(m-1)/2,-(m-1)/2)}表示与坐标点(i,j)处的横纵坐标相距为(m-1)/2的坐标点处的像素点值，然后将重建矩阵中所有元素求和，得到该像素点最终的特征显著性值，如式(7)所示:

其中

中所有元素进行求和的操作，其中，纹理特征图S1^T需要对向量进行求和操作，用向量的2范数表示纹理显著性值，每一幅静态特征图中所有像素点的显著性值组成一幅静态显著性图，L中所有点的显著性值组成一幅亮度显著性图S1^L,其它三种静态特征图分别生成三幅静态显著性图

和S1^T，从而求得四幅静态显著性图；

第三步：计算最终静态显著性图

其中S1^L表示亮度显著性图，S1^C1和S1^C2表示色度显著性图，S1^T表示纹理显著性图，SS表示最终静态显著性图，如图3所示。

第四步：计算动态显著性图

由第三步求出静态显著性图，需要计算视频包含的动态信息，因此，需要计算动态显著性图，在视频编码中压缩域中提取的特征信息有编码单元(Coding Unit，CU)划分深度、比特分配以及表示像素块位移的运动向量，在视频中，运动主题受到人们的关注值较高，所以采用运动向量表示动态显著性图，但对于背景运动的视频，由于背景在运动，在编码压缩的过程中，背景部分会编码较大的运动向量，背景部分的显著性值相对会较大，从而使主题与背景划分不明显。所以，需要滤除运动背景的运动向量，本发明采用CU划分深度和比特分配建立滤除背景的模型，通过公式(9)建立阈值：

其中pic(i,j)表示图片pic中坐标(i,j)处的值，采用图片pic滤除该帧中背景运动向量，从而得到最终的动态显著性图SM，图SM中每一个像素点值计算公式如式(11)所示：

SM(i,j)＝N(pic(i,j)×V(i,j)) (11)

其中SM(i,j)表示图SM中坐标为(i,j)处的值，V(i,j)为像素点(i,j)处的运动向量，N为归一化操作，表示将图SM中所有像素点值除以图SM中像素点的最大值，得到最终动态显著性图SM，如图4所示。

第五步：计算最终的显著性图

由第一步到第三步求出最终的静态显著性图，第四步求出最终的动态显著性图，需要将静态显著性图和动态显著性图进行融合，从而得到最终的显著性图，本发明采用基于竞争的融合算法，整合动态和静态显著性图的优势，分别赋予不同的权重，计算方式如式(12)所示。

S＝a1×SS+a2×SM+a3×SF (12)

SF＝SS×SM (13)

其中S是最终显著性图，SS、SM、SF分别表示最终的静态显著性图、最终动态显著性图以及最终的静态与动态显著性图的乘积，a1、a2、a3分别为各自权重，其中权重参数计算方式如式(14)和式(15)所示：

其中

表示显著性图k的均值，将公式(14)和(15)代入公式(12)即可得到最终显著性图，如图5所示。

根据对显著性评估指标的描述，实验结果采用基本的显著性评估指标KL散度和AUC值对显著性模型精度进行评估。计算13组序列在不同显著性检测算法下的显著性图，并下载相应的人工标记的显著性图，计算所有显著性模型评估指标，进行对比。

表1显著性模型AUC值的对比

序列	SUN	Surprise	Seo	Hou	Itti	所提出算法
							HallMonitor_352x288	0.7071	0.7999	0.8393	0.7912	0.7839	0.8836
FOREMAN_352x288	0.5285	0.6905	0.5696	0.6543	0.5095	0.8832
							HARBOUR_352x288	0.5236	0.5773	0.4273	0.4832	0.4844	0.6953
MOBILE_352x288	0.3339	0.4088	0.4287	0.4382	0.5939	0.7937
							BQSquare_416x240	0.4693	0.5291	0.4935	0.5423	0.66	0.6535
BasketballPass_416x240	0.6452	0.7905	0.6748	0.7252	0.7169	0.7605
							BasketballDrill_832x480	0.5815	0.7025	0.6281	0.639	0.7141	0.7009
Johnny_1280x720	0.7532	0.8813	0.7915	0.8594	0.6115	0.9374
							FourPeople_1280x720	0.735	0.6758	0.7323	0.8095	0.6928	0.8556
SlideEditing_1280x720	0.5954	0.8559	0.6491	0.6956	0.6802	0.8506
							SlideShow_1280x720_20	0.788	0.7892	0.7296	0.7284	0.6332	0.8101
KristenAndSara_1280x720	0.8193	0.8163	0.837	0.8643	0.8359	0.9419
							Cactus_1920x1080	0.7158	0.7584	0.7256	0.7566	0.6414	0.7699
平均	0.6304	0.7135	0.6558	0.6919	0.6582	0.8104

表2显著性模型KL散度的对比

序列	SUN	Surprise	Seo	Hou	Itti	所提出算法
							HallMonitor_352x288	1.8691	1.6449	1.4449	1.7159	1.5896	1.4157
FOREMAN_352x288	2.3997	2.3633	3.3546	2.3962	2.5121	1.8365
							HARBOUR_352x288	1.6730	1.9442	3.0244	1.8395	1.9248	1.6013
MOBILE_352x288	2.2249	2.9598	4.2433	2.3537	1.7761	1.6590
							BQSquare_416x240	1.6783	2.1565	2.7102	1.4812	1.2892	1.2794
BasketballPass_416x240	1.5692	1.9868	3.2289	1.4113	1.5118	1.4022
							BasketballDrill_832x480	2.1652	2.1419	2.8392	2.0602	1.9995	1.9363
Johnny_1280x720	3.4402	3.0371	3.0761	3.0933	3.6574	2.8418
							FourPeople_1280x720	2.994	3.2652	2.8867	2.8302	3.1014	2.4501
SlideEditing_1280x720	3.3471	2.4108	3.5077	2.8534	2.9414	2.665
							SlideShow_1280x720_20	5.9667	3.8064	4.8856	2.6344	3.0069	2.2952
KristenAndSara_1280x720	3.0774	3.0991	2.7087	2.9077	3.0863	2.6845
							Cactus_1920x1080	3.2634	3.3286	3.102	3.1354	3.4071	3.1605
平均	2.7437	2.6265	3.1547	2.3624	2.4464	2.0944

如表1中AUC值平均值对比以及表2中KL散度平均值的对比，AUC值提升了0.10，KL散度下降了0.27，因此，本发明的显著性模型较其它显著性模型检测精度有一定提升。

Claims

1.一种基于HEVC的压缩域显著性检测方法，其特征在于包括下述步骤：

第一步：提取色度、亮度和纹理静态特征图

在HEVC视频编码中，编码端输入文件为YUV文件，该文件采用YCbCr颜色空间，即每个像素点包含Y、Cr和Cb三个颜色分量，采用8×8窗口对原始图像中颜色分量进行下采样，对8×8窗口中像素点下采样后生成新像素点，新像素点的值是窗口内所有像素均值，亮度信息如下所示：

其中Cr_i和Cb_i分别表示窗口内i处未采样前的两种色度信息，

和

分别表示色度信息Cb和Cr采样后的结果，k表示第k个8×8采样块，所有像素点的色度信息下采样后组成色度特征图C₁和C₂，纹理信息采用8×8窗口中离散余弦变换后的部分交流分量系数来表示，选取DCT系数块中左上角低频部分的5个AC系数表示，选取系数如式(4)所示：

其中AC^k _Y-ij表示亮度信息Y的第k个窗口经过DCT变换后在(i,j)位置处的AC系数值，T^k表示第k个8×8窗口的纹理信息，T^k为多维向量，所有点的纹理信息组成纹理特征图T，图T为多维的特征图，通过公式(1)，(2)，(3)和(4)的计算，分别得到四幅静态特征图L、C₁、C₂和T；

第二步：建立滤除静态特征图背景的模型

采用中心与周边差异的方式，将每一个像素点作为中心点与周边一个m×m窗内所有像素点求差值，使每一个像素点重建为一个m×m矩阵，对矩阵块中每一个点赋予权重，权重分配采用高斯分布，计算如式(5)所示：

其中

其中

中所有元素进行求和的操作，其中，纹理特征图的显著性值S1^T需要对向量进行求和操作，用向量的2范数表示纹理显著性值，每一幅静态特征图中所有像素点的显著性值组成一幅静态显著性图，L中所有点的显著性值组成一幅亮度显著性图S1^L,其它三种静态特征图C₁、C₂和T分别生成三幅静态显著性图

和S1^T，从而求得四幅静态显著性图；

第三步：计算最终静态显著性图

第四步：计算动态显著性图

在视频编码中压缩域中提取的特征信息有编码单元划分深度、比特分配以及表示像素块位移的运动向量，采用CU划分深度和比特分配建立滤除背景的模型，通过公式(9)建立阈值：

SM(i,j)＝N(pic(i,j)×V(i,j)) (11)

第五步：计算最终的显著性图

S＝a1×SS+a2×SM+a3×SF (12)

SF＝SS×SM (13)

其中