CN110139112A

CN110139112A - 一种基于jnd模型的视频编码方法

Info

Publication number: CN110139112A
Application number: CN201910352686.3A
Authority: CN
Inventors: 易清明; 范文卉; 石敏
Original assignee: Jinan University
Current assignee: Jinan University; University of Jinan
Priority date: 2019-04-29
Filing date: 2019-04-29
Publication date: 2019-08-16
Anticipated expiration: 2039-04-29
Also published as: CN110139112B

Abstract

本发明属于视频编码技术领域，涉及一种基于JND模型的视频编码方法，包括：建立像素域JND模型；建立改进的DCT域JND模型，引入一个更符合人眼特性的时空域CSF函数；利用像素域JND模型对原始视频预处理，去除视频中的视觉冗余；使用改进的DCT域JND模型对变换不跳过模式进行处理，去除人眼无法感知的失真；对预测残差很小的变换跳过模式，则使用计算简单的亮度掩盖模型以降低计算复杂度。本发明采用像素域JND模型对视频进行预处理，能去除人眼视觉冗余，计算简单方便；采用改进的DCT域JND模型，使得处理结果更贴切人眼；针对不同模式使用不同的模型，能进一步去除视频编码过程中的感知冗余，大大提升视频编码效率。

Description

一种基于JND模型的视频编码方法

技术领域

本发明属于视频编码技术领域，涉及一种基于JND模型的视频编码方法。

背景技术

近年来，随着互联网技术和智能设备的飞速发展，多媒体视频与图像应用越来越广，影响改变着人类生活的方方面面。早期的计算机和通信系统主要集中在处理和传输文本或语音消息。然而，随着视频应用的普及，计算机处理能力有限的问题也浮现出来。由于视频信息量巨大，没有经过任何处理的视频无论在存储还是传输时应用价值都很低。例如，如果我们要通过网络实时传输帧率为25帧/秒及分辨率为720*576的标清彩色视频，则大约需要720*576*24*25＝248832000比特每秒的带宽。考虑到现实世界中有限的带宽，这是不可能的。因此，如何缩小视频数据量与有限带宽之间的差距，成为了一个重要而紧迫的问题。视频编码也就是视频压缩由此产生，其目标旨在尽最大可能去除视频数据中的冗余部分，以减少视频特征的数据量。但是，视频编码代表了信息的丢弃，视频编码算法就是在压缩效率和主观质量的中间寻找一个平衡点。

在视频压缩效率方面，主流压缩标准基本沿用20余年前便已经设定好的变换、预测混合编码框架，这一系列压缩标准充分利用了视频空间和时间的相关性，获得了非常好的效果。然而这一系列压缩标准并没有充分利用视频的主观视觉冗余，较难再进一步提升压缩效率，即在此方面还有较大的提升空间。基于人眼视觉系统(Human Visual System，HVS)的视频编码也就应运而生。人眼视觉系统是一个非线性系统，其对视频信息的关注通常具有某些特殊的非线性特性，如对某些失真敏感性下降，对某些视频区域并不关注，视觉信息处理的多通道及掩盖效应等。由于人眼潜在的生理和心理机制，HVS无法察觉所有的变化，这就导致了图像和视频中存在大量的视觉冗余。这些视觉冗余的去除在视频编码中存在很大的优势。首先，确保了只有重要的视觉信息被编码；其次，丢弃无法感知的信息，可以进一步降低码流。目前在视频编码方面，HVS存在相当大的发展空间，还有很多待发掘待解释的特性。HVS相关理论无论是在评价视频质量，还是在获取有关感知的视频信息反馈给编码器等应用方面都有非常广阔的前景。

人类作为视频的最终接受者，如果将感知冗余同编码框架相结合，能够进一步地提高视频的压缩比。为了移除视觉冗余，研究者进行了大量的工作，其中一种重要的模型就是恰可察觉失真模型(Just Noticeable Distortion，JND)。JND模型表现为人眼可感知到的最小视觉阈值，人眼无法察觉低于这个阈值的像素值。对于设备终端来说，编码和传输人眼无法感知的信息是一种浪费。在此基础上，利用人眼视觉特性对视频编码进行指导，可以在不影响主观视觉的前提下进一步提高视频的编码比特率，具有重要的理论意义以及实用价值。

发明内容

针对现有技术中的不足，本发明提供一种基于JND模型的视频编码方法。

本发明采用如下技术方案：

一种基于JND模型的视频编码方法，包括：

建立像素域JND模型，像素域JND模型使用非线性叠加模型，结合背景亮度自适应和纹理掩盖效应，得到像素域JND阈值；

利用像素域JND模型对原始视频进行预处理，去除视频已经存在的视觉冗余；

建立改进的DCT域JND模型，考虑人眼对阈值的影响，引入一个更符合人眼特性的时空域CSF函数，得到DCT域JND阈值；

基于改进的DCT域JND模型进行视频编码。

优选地，像素域JND模型采用非线性叠加模型，每个像素的空域JND模型作为非线性模型的一种近似，像素域JND阈值由式(1)表示：

JND_pixel(x,y)＝T^l(x,y)+T^t(x,y)-C^lt×min{T^l(x,y),T^t(x,y)} (1)

其中，T^l(x,y)表示背景亮度自适应阈值；T^t(x,y)表示纹理掩盖的基本阈值；C^lt代表了两种效应之间的重叠部分，用来调整两个因素的叠加因素，取C^lt＝0.3；

T^l(x,y)由式(2)表示：

其中，表示平均背景亮度值；B(i,j)是加权低通滤波器；

T^t(x,y)的计算方法如式(3)所示:

T^t(x,y)＝βG_θ(x,y)W_θ(x,y) (3)

其中，β为控制常数，取值为0.117；G_θ(x,y)代表梯度，表示为像素点(x,y)四个方向梯度的加权平均最大值。

优选地，采用式(4)对输入视频进行预处理：

其中，JND_pixel(x,y)表示为像素域JND阈值；表示每个像素块的平均值；I(x,y)是像素点(x,y)处的像素值。

进一步地，基于改进的DCT域JND模型进行视频编码包括：

在量化之前，利用帧内和/或帧间预测得到对应的残差系数值；

对于变换跳过模式，利用亮度自适应掩盖模型计算阈值，然后通过残差系数值和阈值的比较，去掉人眼不能感知的视觉冗余；

对于变换不跳过模式，利用改进的DCT域JND模型对残差系数值进行滤波。

进一步地，利用改进的DCT域JND模型对残差系数值进行滤波具体为：使用改进的DCT域JND模型对阈值进行计算，将计算的阈值与对应的残差系数值进行比较，对于不大于阈值的残差系数值，其被人眼认为是不可见的，无法对重建图像的质量做出贡献，直接置为零舍弃；对高于阈值的残差系数，即使去掉人眼无法感知的部分，也能保持编码图像的质量，减掉阈值去掉人眼无法感知的部分。

优选地，DCT域JND阈值为时空域基本失真阈值、亮度掩盖因子和对比度掩盖因子的乘积。

设t为视频序列中的帧索引，n为第t帧中的块索引，(i,j)为DCT系数索引，则相应的DCT域JND阈值可以表示为式(5)：

JND_DCT(n,i,j,t)＝T(n,i,j,t)×a_Lum(n,t)×a_Contra(n,i,j,t) (5)

其中，T(n,i,j,t)表示为时空域基本失真阈值，由CSF函数计算得到；a_Lum(n,t)表示为亮度掩盖因子；a_Contra(n,i,j,t)表示为对比度掩盖因子。

时空域基本失真阈值获取过程为：

CSF函数为式(6)：

G(n,i,j,t)＝c₀(k₁+k₂|log(ε·ν(n,t)/3)|³)·ν(n,t)·(2πρ_(i,j))²·

exp(-2πρ_(i,j)·c₁·(ε·ν(n,t)+2)/k₃) (6)

其中，ν(n,t)描述视网膜图像速度；常数k₁、k₂和k₃分别取其经验值6.1、7.3和23；ε为1.7，c₀和c₁分别控制CSF曲线的大小和带宽，c₀取值7.126，c₁取值0.565；ρ_(i,j)表示空间频率，其计算方式如式(7)：

其中，ω_x表示水平像素尺寸，ω_y则代表了垂直尺寸；它们与人眼观测距离l以及显示器的显示宽度Λ密切相关，其表示如式(8)：

时空域基本失真阈值可以表示为式(9)：

其中，L_max和L_min分别表示最大灰度值和最小灰度值对应的亮度值，M取256；参数r设置为0.6；φ_i和φ_j为DCT正则化因子，则：

其中，φ_u为φ_i或φ_j；

θ_(i,j)描述任意角度的影响：

其中，ρ_i,0、ρ_j,0、ρ_i,j为空间频率。

亮度掩盖因子为式(12)：

其中，表示平均亮度。

对比度掩盖因子获取过程为：

边缘像素强度ρ_edge被定义为式(13)：

ρ_edge＝∑edge/N² (13)

其中，∑edge表示为给定块中所有边缘像素值的总和，N代表像素值；式(14)为具体的块分类公式，其中，α和β分别取其经验值0.1和0.2：

每个分类块的权重因子由式(15)决定：

其中，(i,j)是DCT变换系数索引；

最终得出对比度掩盖因子为式(16)：

其中：C(n,i,j)表示原始的DCT变换系数。

本发明的原理是：为了去除视频中存在的视觉感知冗余以提高编码效率，将描述人眼视觉特性的JND模型整合进视频编码中，利用像素域JND模型对视频进行预处理，然后对变换跳过模式(TSM)，使用计算简单的亮度掩盖模型进行处理；对变换不跳过模式，则采用改进的变换(DCT)域JND模型进行处理。预处理和残差滤波两种方法的结合，使得人眼视觉冗余被尽可能地去除，提高压缩比。

本发明具有如下有益效果：

(1)采用像素域JND模型对视频进行预处理，能去除人眼视觉冗余，具有计算简单方便的特点。

(2)采用改进的DCT域JND模型，引入一个更符合人眼特性的CSF函数，使得处理结果更贴切人眼。

(3)在利用JND模型去除残差滤波的时候，针对不同模式使用不同的处理方法，能够进一步去除视频编码过程中存在的感知冗余，大大提升视频编码效率。

(4)从主观视觉感知的角度对视频编码进行分析和研究，具有一定的前瞻性和挑战性。

附图说明

图1为本发明一个实施例中基于JND模型的视频编码方法框架图；

图2为本发明一个实施例中基于JND模型的视频编码流程图。

具体实施方式

下面结合实施例及附图对本发明作进一步详细地描述，但本发明的实施方式并不限于此。

一种基于JND模型的视频编码方法是基于像素域和DCT域联合估计的感知视频编码方法，包括：

S1、建立像素域JND模型，像素域JND模型使用非线性叠加模型，结合背景亮度自适应和纹理掩盖效应，得到像素域JND阈值；

像素域JND模型采用非线性叠加模型(NAMM)，该模型有效地结合了背景亮度自适应和纹理掩盖效应，而且应用到彩色图像或视频中，属于较为成熟的JND模型。每个像素的空域JND模型可以作为非线性模型的一种近似，像素域JND阈值可由式(1)表示：

JND_pixel(x,y)＝T^l(x,y)+T^t(x,y)-C^lt×min{T^l(x,y),T^t(x,y)} (1)

其中，T^l(x,y)表示背景亮度自适应阈值；T^t(x,y)表示纹理掩盖的基本阈值；C^lt代表了两种效应之间的重叠部分，用来调整两个因素的叠加因素，取C^lt＝0.3。

T^l(x,y)可由式(2)表示：

其中，表示平均背景亮度值；B(i,j)是加权低通滤波器。

T^t(x,y)的计算方法如式(3)所示:

T^t(x,y)＝βG_θ(x,y)W_θ(x,y) (3)

S2、利用像素域JND模型对原始视频进行预处理，去除视频在处理之前就已经存在的视觉冗余；

使用像素域JND模型对图像进行预处理，能在像素范围内去除感知冗余而不会大幅度提高计算复杂度。对图像进行预处理的中心思想对图像平滑处理。采用式(4)对输入视频进行预处理，能有效去除人眼不可见的部分。

其中，JND_pixel(x,y)表示为像素域JND阈值；表示每个像素块的平均值。I(x,y)是像素点(x,y)处的像素值。采用均值进行处理，能够有效控制视觉失真。

S3、建立改进的变换(DCT)域JND模型，考虑人眼对阈值的影响，引入一个更符合人眼特性的时空域CSF函数，得到DCT域JND阈值。

DCT域JND阈值为时空域基本失真阈值、亮度掩盖因子和对比度掩盖因子的乘积。假设：t为视频序列中的帧索引，n为第t帧中的块索引，(i,j)为DCT系数索引，那么相应的DCT域JND阈值可以表示为式(5)：

JND_DCT(n,i,j,t)＝T(n,i,j,t)×a_Lum(n,t)×a_Contra(n,i,j,t) (5)

其中，T(n,i,j,t)表示为时空域基本失真阈值，由时空域对比度敏感函数(CSF)计算得到；a_Lum(n,t)表示为亮度掩盖因子；a_Contra(n,i,j,t)表示为对比度掩盖因子。

对应的CSF函数可写为式(6)：

G(n,i,j,t)＝c₀(k₁+k₂|log(ε·ν(n,t)/3)|³)·ν(n,t)·(2πρ_(i,j))²·

exp(-2πρ_(i,j)·c₁·(ε·ν(n,t)+2)/k₃) (6)

其中，ω_x表示水平像素尺寸，ω_y则代表了垂直尺寸。它们与人眼观测距离l以及显示器的显示宽度Λ密切相关，其表示如式(8)：

时空域基本失真阈值可以表示为式(9)：

其中，L_max和L_min分别表示最大灰度值和最小灰度值对应的亮度值，M一般取256；参数r设置为0.6；φ_i和φ_j为DCT正则化因子，则：

其中，φ_u为φ_i或φ_j。

θ_(i,j)描述任意角度的影响：

亮度掩盖因子为式(12)：

其中，表示平均亮度。

由于人眼对发生在平坦区域和边缘区域的失真更为敏感，因此需要对不同的区域赋予不同的权值。基于以上考虑，边缘像素强度ρ_edge被定义为式(13)：

ρ_edge＝∑edge/N² (13)

其中，∑edge表示为给定块中所有边缘像素值的总和，N代表像素值。式(14)给出了具体的块分类公式，其中，α和β分别取其经验值0.1和0.2：

每个分类块的权重因子由式(15)决定：

其中，(i,j)是DCT变换系数索引。

考虑到带间的掩盖效应，最终得出对比度掩盖因子为式(16)：

C(n,i,j)表示原始的DCT变换系数。

S4、基于改进的DCT域JND模型进行视频编码。

本实施例中，视频编码采用HEVC/H.265编码，在变换量化过程中使用改进的DCT域JND模型对视频进行残差系数滤波。考虑到H.265中变换跳过模式的引入，针对变换跳过和变换不跳过两种不同模式使用不同的处理方法：对变换不跳过模式使用改进的DCT域JND模型进行处理，去除人眼无法感知的失真；对变换跳过模式使用计算简单的背景亮度自适应掩盖模型处理，以降低计算复杂度。

如图1、图2所示，基于改进的DCT域JND模型进行视频编码流程包括：

S41、在量化之前，利用帧内和/或帧间预测得到对应的残差系数值。

S42、对于变换跳过模式，利用一个简单的背景亮度自适应掩盖模型计算阈值，然后通过残差系数值和阈值的比较，去掉人眼不能感知的视觉冗余。

S43、对于变换不跳过模式，利用改进的DCT域JND模型对残差系数值进行滤波。

具体为：利用改进的DCT域JND模型对残差系数值进行滤波具体为：使用改进的DCT域JND模型对阈值进行计算，将计算的阈值与对应的残差系数值进行比较，对于不大于阈值的残差系数值，其被人眼认为是不可见的，无法对重建图像的质量做出贡献，直接置为零舍弃；对高于阈值的残差系数，即使去掉人眼无法感知的部分，也能保持编码图像的质量，减掉阈值去掉人眼无法感知的部分。

由于在变换跳过模式中存在的大面积平坦区域，本发明仅仅考虑总体背景亮度对失真阈值的影响，对很小的残差系数不进行变换，直接对残差系数进行后续的处理。对于变换不跳过模式而言，本发明基于改进的DCT域JND模型进行处理。

大部分图像中包含了很多的平坦区域，相同像素的分散分布会使数据的处理变得相当复杂。改进的DCT域JND模型将CSF函数纳入进来，使得人眼对不同频率系数有着不同的敏感度。如果对变换系数使用DCT域JND模型分配不同的权值进行滤波，能在提高编码率的情况下，使得编码视觉效果更贴合人眼。

综上所述，本发明采用像素域JND模型对视频进行预处理，能去除人眼视觉冗余，计算简单方便；采用改进的DCT域JND模型，引入一个更符合人眼特性的CSF函数，使得处理结果更贴切人眼；利用JND模型去除残差滤波的时候，针对变换跳过模式和变换不跳过模式使用不同的处理方法，能够进一步去除视频编码过程中存在的感知冗余，大大提升视频编码效率。

上述实施例为本发明较佳的实施方式，但本发明的实施方式并不受上述实施例的限制，其他的任何未背离本发明的精神实质与原理下所作的改变、修饰、替代、组合、简化，均应为等效的置换方式，都包含在本发明的保护范围之内。

Claims

1.一种基于JND模型的视频编码方法，其特征在于，包括：

基于改进的DCT域JND模型进行视频编码。

2.根据权利要求1所述的视频编码方法，其特征在于，像素域JND模型采用非线性叠加模型，每个像素的空域JND模型作为非线性模型的一种近似，像素域JND阈值由式(1)表示：

JND_pixel(x,y)＝T^l(x,y)+T^t(x,y)-C^lt×min{T^l(x,y),T^t(x,y)} (1)

T^l(x,y)由式(2)表示：

其中，表示平均背景亮度值；B(i,j)是加权低通滤波器；

T^t(x,y)的计算方法如式(3)所示:

T^t(x,y)＝βG_θ(x,y)W_θ(x,y) (3)

3.根据权利要求2所述的视频编码方法，其特征在于，采用式(4)对输入视频进行预处理：

4.根据权利要求1所述的视频编码方法，其特征在于，基于改进的DCT域JND模型进行视频编码包括：

5.根据权利要求4所述的视频编码方法，其特征在于，利用改进的DCT域JND模型对残差系数值进行滤波具体为：使用改进的DCT域JND模型对阈值进行计算，将计算的阈值与对应的残差系数值进行比较，对于不大于阈值的残差系数值，其被人眼认为是不可见的，无法对重建图像的质量做出贡献，直接置为零舍弃；对高于阈值的残差系数，即使去掉人眼无法感知的部分，也能保持编码图像的质量，减掉阈值去掉人眼无法感知的部分。

6.根据权利要求5所述的视频编码方法，其特征在于，DCT域JND阈值为时空域基本失真阈值、亮度掩盖因子和对比度掩盖因子的乘积。

7.根据权利要求6所述的视频编码方法，其特征在于，设t为视频序列中的帧索引，n为第t帧中的块索引，(i,j)为DCT系数索引，则相应的DCT域JND阈值可以表示为式(5)：

JND_DCT(n,i,j,t)＝T(n,i,j,t)×a_Lum(n,t)×a_Contra(n,i,j,t) (5)

8.根据权利要求7所述的视频编码方法，其特征在于，时空域基本失真阈值获取过程为：

CSF函数为式(6)：

G(n,i,j,t)＝c₀(k₁+k₂|log(ε·ν(n,t)/3)|³)·ν(n,t)·(2πρ_(i,j))²·

exp(-2πρ_(i,j)·c₁·(ε·ν(n,t)+2)/k₃) (6)

时空域基本失真阈值可以表示为式(9)：

其中，φ_u为φ_i或φ_j；

θ_(i,j)描述任意角度的影响：

其中，ρ_i,0、ρ_j,0、ρ_i,j为空间频率。

9.根据权利要求8所述的视频编码方法，其特征在于，亮度掩盖因子为式(12)：

其中，表示平均亮度。

10.根据权利要求9所述的视频编码方法，其特征在于，对比度掩盖因子获取过程为：

边缘像素强度ρ_edge被定义为式(13)：

ρ_edge＝∑edge/N² (13)

每个分类块的权重因子由式(15)决定：

其中，(i,j)是DCT变换系数索引；

最终得出对比度掩盖因子为式(16)：

其中：C(n,i,j)表示原始的DCT变换系数。