CN104219525B

CN104219525B - 基于显著性和最小可察觉失真的感知视频编码方法

Info

Publication number: CN104219525B
Application number: CN201410438723.XA
Authority: CN
Inventors: 王琳; 王辉淇; 于洋; 李敬娜
Original assignee: Beijing University of Posts and Telecommunications; Academy of Broadcasting Science of SAPPRFT
Current assignee: Beijing University of Posts and Telecommunications; Academy of Broadcasting Science of SAPPRFT
Priority date: 2014-09-01
Filing date: 2014-09-01
Publication date: 2017-07-18
Anticipated expiration: 2034-09-01
Also published as: CN104219525A

Abstract

本发明涉及一种基于显著性和最小可察觉失真的感知视频编码方法，属于视频编码领域。其技术特点是：分别计算待处理视频帧图像的显著值和最小可察觉失真值，根据视频帧图像的显著值调整最小可察觉失真值，得到显著性最小可察觉失真阈值；根据显著性最小可察觉失真阈值对视频编码过程中的残差进行滤波，得到基于显著性和最小可察觉失真的感知视频编码。本发明设计合理，其在HEVC的框架基础上，将人眼视觉两大感知模型——视觉注意力模型和视觉敏感模型相结合构成一种显著性和最小可察觉失真(Saliency–Just Noticeable Distortion，S‑JND)算法，能够进一步挖掘并去除视频数据中的视觉冗余，在不影响主观质量的情况下，有效减小了视频编码码率，提高了视频编码效率。

Description

基于显著性和最小可察觉失真的感知视频编码方法

技术领域

本发明属于视频编码技术领域，尤其是一种基于显著性和最小可察觉失真的感知视频编码方法。

背景技术

随着技术的进步和人们对视频质量要求的不断提高，高清/超高清视频编码技术作为未来家庭影院、数字广播电视、网络视频等业务的基础核心技术成为业界关注的焦点。当前，高清视频编码标准主要有H.264/AVC、MPEG-2、AVS等；对于超高清视频，业内相关机构正在进行关键技术研究与系统实验，其视频编码标准尚未统一。高清/超高清视频业务的发展对现有的图像和视频压缩技术提出了新的要求：视频编码的压缩效率需要进一步提高，图像和视频应更加注重主观质量。为此，国际标准化组织ISO/IEC(MPEG)和ITU-T启动了下一代数字视频压缩标准的规划，并且于2011年2月份完成第八次JCT-VC会议，下一代数字视频压缩标准目前命名为高效视频编码(High Efficiency Video Coding，HEVC)。目标是在H.264/AVC高档次的基础上，将压缩效率提高一倍以上。

视频编码的主要目的是在保证高质量视觉效果的前提下最大限度地降低码率，即实现压缩。传统的图像/视频编码技术主要针对空间域冗余、时间域冗余以及统计冗余进行压缩编码，这一类编码技术以增加编码端计算复杂度为代价来获取编码性能的提高，如H.264/AVC等，其性能提升速度已日趋缓慢。近年来，研究人员开始尝试将人体感知、图形学和视觉系统特性应用到视频编码框架。这里我们将利用人类视觉系统(Human VisualSystem，HVS)的视觉特征、非线性特性和心理效应来进行提高压缩效率的视频编码技术定义为感知视频编码(Perceptual Video Coding，PVC)。

如今我国的数字媒体产业迅猛发展，年均产值已超万亿元，这些事实无一不表明，音视频编解码标准的地位日趋重要。目前，针对下一代视频编码标准HEVC的研究工作正在如火如荼的进行着，国内外众多研究机构和专家学者对本领域进行了大量的研究和探讨。HEVC提案的征集，为感知视频编码技术的研究提供了一个良好的契机。作为一个新的多学科交叉的编码技术，PVC将有效地促进现有视频编码技术的进一步发展，具有极其重要的应用和理论研究意义。

目前，国际上的数字高清视频制式的主流是1080i/1080p，其分辨率为1920×1080，而未来超高清晰度电视(Super Hi-Vision)的图像分辨率则高达7680×4320。面对有限的传输带宽和存储容量，必须对海量的高清/超高清视频数据采用更为高效的压缩编码。最新的HEVC测试模型(HEVC Test Model，HM)采用了一系列的新技术来提高系统的整体压缩性能。由于采用了更加复杂的设计，HEVC的压缩比相对H.264/AVC提高了40％，编码时间为原来的0.9～2.4倍。如：在图像编码结构中引入了大尺寸块以及灵活的子块划分机制，支持更大尺寸、不对称的运动分割；采用了任意方向帧内预测算法(Arbitrary DirectionIntra，ADI)，引入了更多的预测模式和方向。帧间预测引入了运动矢量竞争机制，以提高帧间预测的精度；变换量化中加入了新的DST和旋转变换；熵编码则采用了自适应系数扫描技术，放弃了CAVLC，而只保留CABAC等。

通过对人眼视觉特性的生理学和心理学实验，研究人员发现人眼对事物的观察受到掩蔽效应的影响，包括：频带掩蔽效应、图像模式掩蔽效应、亮度掩蔽效应和时空掩蔽效应等。通过将这些视觉特性引入到视频编码，形成了基于视觉感知机理的视频编码，主要包括基于最小可察觉失真(Just Noticeable Distotion，JND)模型的视频编码、基于感兴趣区域的视频编码、基于中央凹的视频编码及基于主观评价准则的视频编码等。下面对现有的基于上述JND模型的视频编码以及基于感兴趣区域的视频编码分别进行说明：

(1)JND模型

JND模型通过一个阈值量化表现视觉感知冗余，低于这个阈值的改变，人眼无法察觉。该模型考虑了人类在感知图像信息过程中的多通道、非线性及多种视觉掩蔽特性，能够使最终获取的客观测量结果与主观评价结果具有高度的一致性。若能在图像编码过程中充分利用上述掩蔽效应，则可以在主观感觉图像失真相同的条件下允许更大的实际失真，从而根据Shannon率失真理论，采用更低的编码比特率同时图像的主观质量保持不变。

至今为止，提出的JND模型大概被分为两类：像素域的JND模型和基于变换域的JND模型。1995年，Chou等首次提出的空间JND模型，将灰度图像中对比掩蔽和亮度自适应掩蔽的影响纳入JND模型中，对这两类掩蔽效应采用“二选一”的方式，将计算得到的两种掩蔽效应中数值较大者作为最终的JND阈值。但简单取亮度自适应掩蔽和对比掩蔽二者最大值的方法并不科学。Chou扩展空间JND模型，加入时域掩藏效应，将时间域作为一个扩展因子，得到了一个适用于视频的JND模型。生理、心理学实验证明，视网膜上感光细胞的分布不均，在中央凹区域视锥细胞分布浓密，敏感性高，随着与中央区域的距离增大，感光细胞密度减小，相应的敏感性也就减小。所以基于这个事实，Chen提出了FJND(Foveated JND)模型，该模型首先设定多个注意点，然后计算出其Foveation信息，然后，将Foveation信息作为传统的JND模型的伸缩尺度，以提高JND模型的精度。

但是像素域方法没有结合描述人类视觉对每个频率段敏感度的对比灵敏度函数(Contrast Sensitivity Function，CSF)，不能充分把人眼的视觉特性加入到模型中。于是，Ahumada和Peterson最早尝试在变换域进行JND建模，他们研究了由DCT分解和图像亮度变化引起的空域掩蔽效应并进行了JND建模。JPEG图像编码标准中，DCTune算法成功地采用该模型对量化矩阵进行优化，明显提高了同码率下的图像质量。在视频编码中，由于大多数编码压缩方案都基于DCT变换，所以近年来DCT域的JND模型引起了很多研究者的兴趣。不过由于人类对视觉系统特性还没有完全认识清楚，现有的DCT域JND模型仍然不能和人眼特性完全吻合，精确度仍需要不断改进和提高。

(2)视觉显著性区域模型

视觉注意机制作为视觉系统的一项重要的心理调节机制，是人类从外界输入的大量信息中选择特定感兴趣区域的一个关键手段。由于可以在一定程度上实现有选择性地获取所关注目标的显著(Saliency)信息，从而大量降低信息处理量。其研究现状如下：

Itti和Koch等提出的算法被认为是目前最具代表的视觉注意计算模型。该算法将多种类型、多种尺度的视觉空间中通过“中心-周边”算子得到的显著性度量结果合成为一幅显著图(Saliency Map)，按照图中显著值由强到弱的顺序依次找到显著区域的位置，并结合一个固定尺寸，得到显著区域的范围。然而，现有的基于像素的视觉显著性区域检测算法通常都是一次计算一个像素的显著性，计算量大；有些算法还需要建立高维向量查找树来加速执行，这将使得算法的空间复杂度也相当高。因此很多视觉显著性区域检测算法仅仅只检测得到粗糙的视觉显著性结果。Hou等人和Guo等人的方法都是从分析图像频谱的角度计算图像中的显著性区域；Judd等人则是从机器学习的角度来获取图像中的显著性区域。

综上所述，现有的感知视频编码方法通常只是使用视觉敏感度模型和视觉显著性模型中的一种，不能同时发挥这两种模型的优点以达到更高的视频编码效率。

发明内容

本发明的目的在于克服现有技术的不足，提供一种设计合理且效率高的基于显著性和最小可察觉失真的感知视频编码方法。

本发明解决现有的技术问题是采取以下技术方案实现的：

一种基于显著性和最小可察觉失真的感知视频编码方法，包括以下步骤：

步骤1、分别利用显著性监测算法和最小可察觉失真方法计算待处理视频帧图像的显著值S(k,i,j)和最小可察觉失真值JND(k,i,j)，根据视频帧图像的显著值S(k,i,j)调整最小可察觉失真值JND(k,i,j)，得到显著性最小可察觉失真阈值S-JND(k,i,j)，其中k表示视频序列的第k帧图像，i和j分别表示像素的横纵坐标；

步骤2、根据显著性最小可察觉失真阈值S-JND(k,i,j)对视频编码过程中的残差进行滤波，得到基于显著性和最小可察觉失真的感知视频编码。

而且，所述步骤1的具体处理步骤为：

步骤1.1、将视频帧图像进行色彩空间转换，由YUV色彩空间转换为CIEL*a*b*色彩空间；

步骤1.2、对CIEL*a*b*色彩空间的帧图像进行显著性监测，获得每一像素的显著值S(k,i,j)；

步骤1.3、对CIEL*a*b*色彩空间的帧图像进行JND建模，获得每一像素的最小可察觉失真值JND(k,i,j)；

步骤1.4、根据帧图像的显著值S(k,i,j)调整最小可察觉失真值JND(k,i,j)，获得显著性最小可察觉失真阈值S-JND(k,i,j)。

而且，所述步骤1.2获得每一像素的显著值S(k,i,j)的方法为：

(1)按100％、80％、50％、30％比例分别缩放图像，形成四种尺度图像；

(2)将每一种尺度的图像分成7x7的块，块与块之间有50％的重叠；

(3)根据下式计算块与块之间的相异度d(p_i,p_j)：

式中，p_i和p_j分别表示以第i个像素和第j个像素为中心的块，d_color(p_i,p_j)表示CIEL*a*b*色彩空间下块p_i和p_j的欧氏距离，d_position(p_i,p_j)表示块p_i和p_j的位置欧氏距离，计算公式分别如下：

式中L_li、L_lj、a_li、a_lj、b_li、b_lj分别是第i个像素和第j个像素周围像素的CIEL*a*b*色彩空间的三个分量，l表示块中的像素编号，每个7x7的块中49个像素，编号从0～48，x和y分别表示像素i,j的横纵坐标；

(4)像素i的显著性定义为：

式中K＝64，r为缩放比例，取值为100％、80％、50％、30％。

而且，所述步骤1.3获得每一像素的最小可察觉失真值JND(k,i,j)的方法为：

(1)对变换色彩空间后的帧图像进行8x8的离散余弦变换；

(2)计算亮度分量的最小可察觉失真值JND_{L_S}(k,n,i,j)；

(3)计算颜色分量的最小可察觉失真值JND_{C_S}(k,n,i,j)；

(4)将获得的亮度最小可察觉失真JND_{L_S}(k,n,i,j)和颜色最小可察觉失真JND_{C_S}(k,n,i,j)进行离散余弦反变换，得到像素的最小可察觉失真JND(k,i,j)。

而且，所述步骤1.4显著性最小可察觉失真阈值S-JND(k,i,j)采用如下计算公式获得：

S-JND(k,i,j)＝JND(k,i,j)×F(k,i,j)

式中F(k,i,j)是显著值调整因子，通过下式计算获得：

F(k,i,j)＝τ-S(k,i,j)

式中τ＝1.5。

而且，所述步骤2根据显著性最小可察觉失真阈值S-JND(k,i,j)对视频编码过程中的残差进行滤波是采用如下公式计算公式获得：

式中R(i,j)、S-JND(i,j)分别表示像素(i,j)的原始编码残差、当前处理的DCT块的平均残差值、像素(i,j)的S-JND显著性最小可察觉失真阈值。

本发明的优点和积极效果是：

本发明设计合理，其在HEVC的框架基础上，将人眼视觉两大感知模型——视觉注意力模型和视觉敏感模型相结合构成一种显著性和最小可察觉失真(Saliency–JustNoticeable Distortion，S-JND)算法，能够进一步挖掘并去除视频数据中的视觉冗余，在不影响主观质量的情况下，有效减小了视频编码码率，提高了视频编码效率。

附图说明

图1是本发明的显著性最小可察觉失真阈值处理过程示意图；

图2是视频帧图像与显著性监测结果的对比图；

图3是DCT块分类结果示意图；

图4是将本发明嵌入到HEVC框架后的视频编码框架图；

图5a是本发明与原始HM14.0的率失真曲线对比图(Kimono序列)；

图5b是本发明与原始HM14.0的率失真曲线对比图(Cactus序列)；

图5c是本发明与原始HM14.0的率失真曲线对比图(Basketball Drive序列)；

图5d是本发明与原始HM14.0的率失真曲线对比图(BQTerrace序列)；

图5e是本发明与原始HM14.0的率失真曲线对比图(PartyScene序列)；

图5f是本发明与原始HM14.0的率失真曲线对比图(Basketball Drill序列)；

图6a是本发明与原始HM14.0的码率对比图(Kimono序列)；

图6b是本发明与原始HM14.0的码率对比图(Cactus序列)；

图6c是本发明与原始HM14.0的码率对比图(Basketball Drive序列)；

图6d是本发明与原始HM14.0的码率对比图(BQTerrace序列)；

图6e是本发明与原始HM14.0的码率对比图(PartyScene序列)；

图6f是本发明与原始HM14.0的码率对比图(Basketball Drill序列)。

具体实施方式

以下结合附图对本发明实施例做进一步详述。

步骤1、分别利用显著性监测算法和最小可察觉失真方法计算待处理视频帧图像的显著值S(k,i,j)和最小可察觉失真值JND(k,i,j)，根据视频帧图像的显著值S(k,i,j)调整最小可察觉失真值JND(k,i,j)，得到显著性最小可察觉失真阈值S-JND(k,i,j)，其中k表示视频序列的第k帧图像，i和j分别表示像素的横纵坐标。

如图1所示，本步骤具体包括：

步骤1.1、将视频帧图像进行色彩空间转换，由YUV色彩空间转换为CIEL*a*b*色彩空间。

步骤1.2、对CIEL*a*b*色彩空间的帧图像进行显著性监测，获得每一像素的显著值S(k,i,j)，其中k表示视频序列的第k帧图像，i和j分别表示像素的横纵坐标。

按比例缩放图像，形成四种尺度图像，缩放比例为：R＝{100％,80％,50％,30％}；将四种尺度的图像分成7x7的块，块与块之间有50％的重叠。根据下式计算块与块之间的相异度d(p_i,p_j)：

式中L_li、L_lj、a_li、a_lj、b_li、b_lj分别是第i个像素和第j个像素周围像素的CIEL*a*b*色彩空间的三个分量，l表示块中的像素编号，每个7x7的块中49个像素，编号从0～48，x和y分别表示像素i,j的横纵坐标。

像素i的显著性定义为

式中K＝64，r∈R。

图2给出了视频帧图像与显著性监测结果的对比图，左侧为视频原始图像，右侧为显著性监测结果。显著性监测结果为一幅灰度图像，灰度值越接近255，表明该像素显著性越高。

步骤1.3、对CIEL*a*b*色彩空间的帧图像进行JND建模，获得每一像素的最小可察觉失真值JND(k,i,j)，其中k表示视频序列的第k帧图像，i和j分别表示像素的横纵坐标。

针对亮度分量，最小可察觉失真JND包括基本阈值、亮度掩蔽效应、对比掩蔽效应三部分。

亮度分量基本最小可察觉失真阈值计算公式为：

式中N＝8，表示DCT块的维度，θ_x和θ_y分别表示水平和垂直视角，R_vd表示观看距离与图像高度之比，Pic_h表示图像的高度，s＝0.25表征空间总和效应因子，r设置为0.6，φ_i和φ_j分别为DCT归一化因子，表示对应DCT分量的方向角，参数a＝1.33，b＝0.11，c＝0.18；

亮度掩蔽效应的最小可察觉失真阈值计算公式为：

其中表示DCT块的平均亮度强度

将图像利用canny算子进行边缘检测，根据检测结果将图像DCT块分为三类：平坦块、边缘块和纹理块。划分公式如下式所示：

ρ_edge＝Σ_edge/N²

其中ρ_edge表示一个DCT块中边缘像素的强度，Σ_edge表示一个DCT块中边缘像素数目，参数α＝0.1、β＝0.25。如图3所示，为视频帧图像先经过Canny算子进行边缘检测，然后再分块后的结果。

根据块类型，定义权重因子如下：

根据权重因子，亮度分量对比掩蔽效应最小可察觉失真阈值计算公式为：

式中C(k,n,i,j)是第n个DCT块第(i,j)位置处的DCT系数，T_{L_Basic}(k,n,i,j)、F_lum(k,n)分别表示亮度分量基本阈值和亮度掩蔽效应阈值。

针对颜色分量，最小可察觉失真阈值包括颜色分量基本阈值及对比掩蔽效应这两部分。

颜色分量的基本最小可察觉失真阈值计算公式为：

T_{C_basic}(k,n,i,j)＝factor·[(1-α)exp(b·f^c)+α]

其中α＝1/256，对于a*分量，factor＝280，b＝31.9795，c＝2.06；对于b*分量，factor＝320，b＝-22.4413，c＝1.74。式中f表示空间频率。

颜色分量对比掩蔽效应最小可察觉失真阈值计算公式为：

其中参数ε＝0.36，C_C(k,n,i,j)表示第k帧第n个DCT块的系数。T_{C_basic}(k,n,i,j)为颜色分量的基本最小可察觉失真阈值。

步骤1.4、根据帧图像的显著值S(k,i,j)调整最小可察觉失真值JND(k,i,j)，获得显著性最小可察觉失真阈值S-JND(k,i,j)。以下为计算公式：

S-JND(k,i,j)＝JND(k,i,j)×F(k,i,j)

式中F(k,i,j)是显著值调整因子，可以通过下式计算获得：

F(k,i,j)＝τ-S(k,i,j)

式中τ＝1.5，经过大量实验发现当τ＝1.5时，能在编码比特率及编码质量方面取得一个较好的折中。

步骤2、根据显著性最小可察觉失真阈值S-JND(k,i,j)对视频编码过程中的残差进行滤波。

根据步骤1得到的显著性最小可察觉失真阈值S-JND(k,i,j)，可以依据下式对编码残差进行滤波：

式中，R(i,j)、S-JND(i,j)分别表示像素(i,j)的原始编码残差、当前处理的DCT块的平均残差值、像素(i,j)的S-JND显著性最小可察觉失真阈值。

如图4所示，将S-JND算法嵌入到HEVC框架后的视频编码框架图。在该视频编码框架图中T、Q分别表示离散余弦变换和量化，T^-1、Q^-1分别表示反离散余弦变换和反量化，ME、MC分别表示运动估计和运动补偿。

下面给出在高效视频编码(HEVC，High Efficiency Video Coding)中应用本发明提出的显著最小可察觉失真S-JND算法与现有的HM14.0(HEVC model)的仿真性能比较。其中，仿真环境为Visual Studio2010，仿真实验分别选用HEVC官方标准食品序列库中的Kimono序列、Cactus序列、Basketball Drive序列、BQTerrace序列、PartyScene序列和Basketball Drill序列，分别在All Intra(AI)编码条件下进行测试。主观质量我们采用DMOS(Difference mean opinion scores，平均意见得分差)来作为评价标准，这个值越小，表明经过压缩处理后还原出来的图像与原始图像越接近。

实验仿真结果见表1、图5和图6。从表1中可以看出将本S-JND算法应用于HEVC代码HM14.0中，在视频主观质量近似的情况下，该方法能够减少8.16％～28.97％的码率。图5为原始HM14.0与加入本算法的HM14.0率失真曲线对比图，从图5中可以看出，在相同的QP下，加入本算法的HM14.0具有更高的压缩效率。图6为原始HM14.0与加入本算法的HM14.0编码结果PSNR对比图，从图6可以看出，相同的码率下，加入本算法的HM14.0编码PSNR更低，这说明加入本算法后，能够去除了更多的视觉冗余。

表1本申请感知视频编码与HM14.0编码比特率及主观质量对比

需要强调的是，本发明所述的实施例是说明性的，而不是限定性的，因此本发明包括并不限于具体实施方式中所述的实施例，凡是由本领域技术人员根据本发明的技术方案得出的其他实施方式，同样属于本发明保护的范围。

Claims

1.一种基于显著性和最小可察觉失真的感知视频编码方法，其特征在于包括以下步骤：

步骤2、根据显著性最小可察觉失真阈值S-JND(k,i,j)对视频编码过程中的残差进行滤波，得到基于显著性和最小可察觉失真的感知视频编码；

所述步骤1的具体处理步骤为：

步骤1.1、将视频帧图像进行色彩空间转换，由YUV色彩空间转换为CIE L*a*b*色彩空间；

步骤1.2、对CIE L*a*b*色彩空间的帧图像进行显著性监测，按照如下方法获得每一像素的显著值S(k,i,j)：

(3)根据下式计算块与块之间的相异度d(p_i,p_j)：

式中，p_i和p_j分别表示以第i个像素和第j个像素为中心的块，d_color(p_i,p_j)表示CIE L*a*b*色彩空间下块p_i和p_j的欧氏距离，d_position(p_i,p_j)表示块p_i和p_j的位置欧氏距离，计算公式分别如下：

式中L_li、L_lj、a_li、a_lj、b_li、b_lj分别是第i个像素和第j个像素周围像素的CIE L*a*b*色彩空间的三个分量，l表示块中的像素编号，每个7x7的块中49个像素，编号从0～48，x和y分别表示像素i,j的横纵坐标；

(4)像素i的显著性定义为：

式中K＝64，r为缩放比例，取值为100％、80％、50％、30％；

步骤1.3、对CIE L*a*b*色彩空间的帧图像进行JND建模，获得每一像素的最小可察觉失真值JND(k,i,j)；

步骤1.4、根据帧图像的显著值S(k,i,j)调整最小可察觉失真值JND(k,i,j)，获得显著性最小可察觉失真阈值S-JND(k,i,j)；

所述步骤2根据显著性最小可察觉失真阈值S-JND(k,i,j)对视频编码过程中的残差进行滤波是采用如下计算公式获得：

2.根据权利要求1所述的基于显著性和最小可察觉失真的感知视频编码方法，其特征在于：所述步骤1.3获得每一像素的最小可察觉失真值JND(k,i,j)的方法为：

(1)对变换色彩空间后的帧图像进行8x8的离散余弦变换；

(2)计算亮度分量的最小可察觉失真值JND_{L_S}(k,n,i,j)；

(3)计算颜色分量的最小可察觉失真值JND_{C_S}(k,n,i,j)；

3.根据权利要求1所述的基于显著性和最小可察觉失真的感知视频编码方法，其特征在于：所述步骤1.4显著性最小可察觉失真阈值S-JND(k,i,j)采用如下计算公式获得：

S-JND(k,i,j)＝JND(k,i,j)×F(k,i,j)

式中F(k,i,j)是显著值调整因子，通过下式计算获得：

F(k,i,j)＝τ-S(k,i,j)

式中τ＝1.5。