CN101841723B

CN101841723B - 基于jnd和ar模型的感知视频压缩方法

Info

Publication number: CN101841723B
Application number: CN 201010182160
Authority: CN
Inventors: 邹采荣; 王翀; 赵力; 王开; 戴红霞; 包永强; 余华
Original assignee: Southeast University
Current assignee: Southeast University
Priority date: 2010-05-25
Filing date: 2010-05-25
Publication date: 2011-08-03
Anticipated expiration: 2030-05-25
Also published as: CN101841723A

Abstract

本发明公布了一种基于可观测的衰减(Just Noticeable Distortion，JND)和自回归(Auto-regressive，AR)模型的感知视频压缩方法，包括了纹理区域的分割算法和基于自回归模型的合成算法。我们首先用基于JND的分割算法将视频中的纹理区域分割出来，接着用自回归模型合成纹理区域。本发明提出了空时JND模型，准确有效地进行了纹理区域的分割。设计了AR模型，通过简单计算，在保证视频质量的同时，大大提高了实时性。开发了结合人眼视觉特性的视频压缩技术，进一步提高了视频的压缩效率，减少了比特率。

Description

基于JND和AR模型的感知视频压缩方法

技术领域

本发明涉及多媒体信号处理技术领域，尤其是在视频压缩编码开发的领域。

背景技术

在过去的几十年中，图像和视频压缩编码的技术得到了长足的发展。代表了当前技术水平的JPEG2000和MPEG-4 AVC/H.264都体现了它们在编码上的高效性。在已有文献中，也出现了基于H.264的立体视频编码压缩技术。这些技术都是通过去除时间空间上的冗余性来进行压缩编码。然而，一个通常的问题是大家都把目光聚集在那些静态的冗余信息上，完全忽视了感知上的冗余。换句话说，之前的压缩评判标准大多是率失真性能，虽然这样的性能被广泛采用，但它不能反映人类视觉特性。因此，我们要研究如何结合人类的视觉特性进一步提高压缩编码的效率。

在之前的文献中，有一些已经关注了人类的视觉系统(HVS，human visual system)，他们关注于基于感知标准的编码系统。在这些工作中，视频序列中的一些纹理区域，如花、草、水和沙滩等对HVS并不重要的，先被分割出来，然后用合成的方法重构。这些文献在进行图像分割时都只考虑了静态颜色或边缘信息的特点，忽略了HVS，对不同的纹理区域，鲁棒性和效果都不够好。

发明内容

本发明的目的是提出了一种基于JND和AR模型的感知视频压缩技术，包括了纹理区域的分割算法和基于自回归模型的合成算法。

本发明为实现上述目的，采用如下技术方案：

本发明基于JND和AR模型的感知视频压缩方法，其特征在于所述方法如下：

首先把输入序列分为纹理帧和非纹理帧，其中I帧和P帧为非纹理帧，用H.264方法编码，B帧为纹理帧；其次，在感知图像的分割过程中，应用JND来检测和分割纹理区域；将时域中的相邻帧的像素通过自回归纹理合成算法线性组合来合成每个像素。

优选地，所述的应用JND来检测和分割纹理区域的方法如下：

图像的纹理区域的分割采用的最小单位为宏块(MB)，每一个宏块(MB)的JND能量为：

{JND}_{MB} = \frac{1}{256} Σ_{i = 0}^{15} Σ_{j = 0}^{15} JND (i, j)

式(1)

其中，JND(i，j)表示像素(i，j)处的JND取值；

当宏块(MB)的JND能量大于阈值，那么就将它定义为纹理MB，否则定义为非纹理宏块(MB)。

优选地，所述阈值取所有宏块(MB)的JND能量的平均值：

{JND}_{threshold} = \frac{1}{total_MB} \underset{MB}{Σ} {JND}_{MB}

式(2)

total_MB表示宏块的总体数量。

优选地，所述的自回归纹理合成算法如下：

每一个纹理区域中的像素都是用跟它最接近的前后参考帧的线性组合来生成的，插值的公式如下：

式(3)

其中

式(4)

这里的mvx_f，mvy_f分别表示在平行和垂直方向上的前向运动矢量，mvx_b，mvy_b别表示在平行和垂直方向上的后向运动矢量，在前向和后向运动帧轨迹上相对应的重构像素，W_f(k，l)，W_b(u，v)表示分别指向前向和后向参考帧的AR参数，L是AR模型的窗口大小。

优选地，所述AR模型中的参数Wf(_k，l)和W_b(u，v)是通过计算纹理区域最小化的原始像素和合成像素的差平方来得到：

e = \underset{(m, n) &Element; texture region}{Σ} {(p_{t} (m, n) - {\tilde{p}}_{t} (m, n))}^{2}

式(5)

其中p_t(m，n)表示在(m，n)处的原始像素值。将式(3)带入(5)中，得到：

式(6)

根据最小二乘化原理，设置：

\{\begin{matrix} \frac{&PartialD; e}{{&PartialD; W}_{f} (k, l)} = 0 \\ \frac{&PartialD; e}{{&PartialD; W}_{b} (u, v)} = 0 \end{matrix}

式(7)

得到AR模型的参数W_f(k，l)和W_b(u，v)。

优选地，每一个纹理帧都有独立的AR参数，所述AR参数被写入比特流送到编码器中。

本发明的优点和效果在于：

1.提出了空时JND模型，准确有效地进行了纹理区域的分割。

2.设计了AR模型，通过简单计算，在保证视频质量的同时，大大提高了实时性。

3.开发了结合人眼视觉特性的视频压缩技术，进一步提高了视频的压缩效率，减少了比特率。

附图说明

图1是感知自回归纹理合成方法示意图流程图。

图2是G_k(k＝1，2，3，4)的确定。

图3是低通滤波器B。

图4使用空时JND模型(STJND)分割算法的各阶段结果。

图5是窗口大小为3的AR模型示意图。

图6序列Flowergarden的第19帧合成图像。

图7不同方法在序列Mobile上纹理区域比特率消耗的比较。

图8是不同方法在序列Coastguard上纹理区域比特率消耗的比较。

具体实施方式

下面结合附图对发明的技术方案进行详细说明：

对于信息量巨大的立体视频来说，去除其中的感知冗余对提高编码效率有着更加明显的效果。对HVS的研究开始于心理-生理学，后来广泛应用到与视觉相关的领域。在立体视频处理中，除了时间、空间上的冗余外，感知冗余的消除也是不可忽视的。本发明提出了一种基于JND和AR模型的感知视频压缩方法，包括了纹理区域的分割算法和基于自回归模型的合成算法。我们首先用基于JND的分割算法将视频中的纹理区域分割出来，接着自回归模型合成纹理区域，如图1所示。

本发明基于JND和AR模型的感知视频压缩方法如下：

我们首先把输入序列分为纹理帧和非纹理帧，其中I帧和P帧定义为非纹理帧，用传统的方法编码，B帧为纹理帧，使用本发明提出的分割和合成算法来处理。其次，在感知图像的分割过程中，只要应用JND来检测和分割纹理区域。有文献指出人眼不能感觉到任何低于JND阈值的变化。在文献中，图像域的JND框架和JND自适应的运动估计、残差处理是不一致的。图像域的JND框架同样也可以用来当成帧间预测的阈值，特别是在比特率和运动场景较少的应用中。本发明我们使用JND来引导纹理区的图像分割。接着，我们提出了AR纹理合成算法，用时域中的相邻帧的像素线性组合来合成每个像素。

在所述的基于改进BP算法的中间视合成技术中，所述的应用JND来检测和分割纹理区域内容如下：

在空间JND和时间JND模型的基础上，我们定义出空时JND模型(STJND)如下式

STJND(x，y，t)＝SJND(x，y)·TJND(x，y，t) 式(1)

其中，

SJND(x，y)＝max{f₁(bg(x，y)，mg(x，y))，f₂(bg(x，y))} 式(2)

其中，f₁(bg(x，y)，mg(x，y))和f₂(bg(x，y))分别用来估计空间遮蔽和亮度对比。f₁(bg(x，y)，mg(x，y))的定义如式(3)

f₁(bg(x，y)，mg(x，y))＝mg(x，y)×α(bg(x，y))+β(bg(x，y)) 式(3)

其中，mg(x，y)是计算像素(x，y)的四邻域像素亮度变化的加权均值所产生的亮度变化均值的最大值，其计算公式为

mg (x, y) = \max_{k = 1,2,3,4} {| {grad}_{k} (x, y) |}

式(4)

其中，grad_k(x，y)由公式(5)得出

{grad}_{k} (x, y) = \frac{1}{16} Σ_{i = 1}^{5} Σ_{j = 1}^{5} p (x - 3 + i, y - 3 + i) \times G_{k} (i, j)

式(5)

上式中G_k(i，j)的确定如图2所示。

公式(3)中的α(bg(x，y))和β(bg(x，y))取决于背景亮度、可视阈值和亮度差异之间的具体线性关系，表示为

\{\begin{matrix} α (bg (x, y)) = bg (x, y) \times 0.0001 + 0.115 \\ β (bg (x, y)) = μ - bg (x, y) \times 0.01 \end{matrix}

式(6)

其中μ是更高等级背景亮度的坡度，bg(x，y)是使用如图3所示低通滤波器B计算所得的平均背景亮度值。

bg (x, y) = \frac{1}{32} Σ_{i = 1}^{5} Σ_{j = 1}^{5} p (x - 3 + i, y - 3 + i) \times B (i, j)

式(7)

公式f₂(bg(x，y))计算了从亮度对比得出的可视阈值。

f_{2} (bg (x, y)) = \{\begin{matrix} T_{0} \times (1 - {(\frac{bg (x, y)}{127})}^{1 / 2}) + ϵ & bg (x, y) \leq 127 \\ γ \times (bg (x, y) - 127) & bg (x, y) > 127 \end{matrix}

式(8)

其中T₀表示当背景亮度等级为0时的可视阈值，ε表示可视阈值的最小值。公式(8)显示了可视阈值和低等级背景亮度呈平方根关系，而和高等级背景亮度呈线性关系。

时间JND模型可以表述为：

TJND (x, y, t) = \{\begin{matrix} \max (τ, \frac{H}{2} \exp (\frac{- 0.15}{2 π} (Δ (x, y, t) + 255)) + τ), & Δ (x, y, t) \leq 0 \\ \max (τ, \frac{L}{2} \exp (\frac{- 0.15}{2 π} (255 - Δ (x, y, t))) + τ), & Δ (x, y, t) > 0 \end{matrix}

式(9)

其中，H＝8和L＝3.2是模型参数。τ＝0.8。Δ(x，y，t)代表的是帧t和前一帧t-1之间的平均亮度差异。

Δ (x, y, t) = \frac{p (x, y, t) - p (x, y, t - 1) + bg (x, y, t) - bg (x, y, t - 1)}{2}

式(10)

空时JND模型研究了视觉敏感性跟亮度对比、空间掩蔽和时间掩蔽的关系。通过假设像素是在最好的视力条件下被感知的，STJND模型为图像的每一个像素提供了可视阈值。与其它的JND模型想比较，STJND完全考虑了亮度变化、纹理掩蔽和它们的重叠效应。

如果一个像素有相对较高的JND值，那么它对人眼的感知就越不重要。因此，可以将它分类为纹理区域的一个候选对象。本发明既是基于这样的思想来检测纹理区域。为了与现行的视频编码框架相匹配，纹理区域的分割采用的最小单位为宏块(MB)。每一个MB的JND能量定义为

{JND}_{MB} = \frac{1}{256} Σ_{i = 0}^{15} Σ_{j = 0}^{15} JND (i, j)

式(11)

其中，JND(i，j)表示像素(i，j)处的JND取值。

如果某个MB的JND能量大于阈值，那么就将它定义为纹理MB，否则定义为非纹理MB。阈值我们这里取所有MB的JND能量的平均值。

{JND}_{threshold} = \frac{1}{total_MB} \underset{MB}{Σ} {JND}_{MB}

式(12)

在所述的基于改进BP算法的中间视合成技术中，所述的自回归(Auto-regressive)纹理合成算法内容如下：

在我们提出的自回归(Auto-regressive，AR)纹理合成算法中，每一个纹理区域中的像素都是用跟它最接近的前后参考帧的线性组合来生成的。插值的公式如下：

式(13)

其中

式(14)

这里的mvx_f，mvy_f分别表示在平行和垂直方向上的前向运动矢量，mvx_b，mvy_b别表示在平行和垂直方向上的后向运动矢量。

在前向和后向运动帧轨迹上相对应的重构像素。W_f(k，l)，W_b(u，v)表示分别指向前向和后向参考帧的AR参数。L是AR模型的窗口大小。

AR模型中的参数W_f(k，l)和W_b(u，v)通过计算纹理区域最小化的原始像素和合成像素的差平方来得到。

e = \underset{(m, n) &Element; texture region}{Σ} {(p_{t} (m, n) - {\tilde{p}}_{t} (m, n))}^{2}

式(15)

其中p_t(m，n)表示在(m，n)处的原始像素值。将式(4)带入(6)中，得到：

式(16)

根据最小二乘化原理，我们可以推导出AR模型的参数，只要设置

\{\begin{matrix} \frac{&PartialD; e}{{&PartialD; W}_{f} (k, l)} = 0 \\ \frac{&PartialD; e}{{&PartialD; W}_{b} (u, v)} = 0 \end{matrix}

式(17)

本发明中，每一个纹理帧都有独立的AR参数，它们被写入比特流送到编码器中。

图4中，我们根据STJND模型做了一个实验。(a)是待分割的原始图像，(b)是使用STJND模型后的分割结果。从结果我们可以观察到，有很多孤立的MB被分割了出来。太多孤立的MB会造成后续计算量的大大增加，降低算法的性能。因此，有必要进行优化。为了减少孤立的MB，我们采用迭代的方法进行行扫描和列扫描。首先对纹理MB进行逐行扫描，然后逐列扫描。在行扫描的过程中去掉平行的孤立MB，保证在同一行中没有相关的纹理MB。在列扫描中同理去除垂直的孤立MB。经过多次迭代后直到检测的纹理区域中没有孤立的MB存在。相应的结果在图4(c)中显示，我们可以看到孤立的MB已经被去除了。更进一步的，我们只选择有最大连通区域的纹理块，其它块忽略不计，这样的最终结果在图4(d)中显示。

图5是窗口大小为3的AR模型示意图。这里的mvx_f，mvy_f分别表示在平行和垂直方向上的前向运动矢量，mvx_b，mvy_b别表示在平行和垂直方向上的后向运动矢量。

我们将本发明提出的分割和合成方法集成到现有的H.264/AVC参考软件JM10.1中。在实验中，序列的机构采用IBPBP…GOP结构，允许率失真优化。量化参量(QP)设置为30，32，34和36。为了验证算法的有效性，我们使用了三个30HZ的视频序列：Mobile，Coastguard和Flowergarden。这三个序列分别具有典型的刚性纹理、非刚性纹理和细节纹理的特点。

对于Mobile序列，比特率节省百分比在15.55％到19.86％之间；对于Coastguard序列，比特率节省百分比在17.58％到23.18％之间；对于Flowergarden序列，可以节省的比特率百分比超过了50％，这是因为差不多一半以上的区域都被分割成了纹理区域。

图6显示的是重构的Flowergarden的第19帧，(a)是使用本发明方法合成的结果，(b)是直接使用JM10.1的结果。(a)和(b)产生的比特数分别是37664 bits和18448bits。与原始图像相比，均值信噪比(PNSR)分别是36.76dB和31.35dB。然而我们很难从主观视觉上分辨出(a)和(b)有多大区别，这是因为人眼在两者的flower区域并不会特别关注。总之，图6中(a)，展示了更好的语义相似性而不仅仅是像素级的保真度，取得了令人满意的结果。

图7、8是使用本发明方法和直接使用JM 10.1在序列Mobile和Coastguard上纹理区域比特率消耗的比较。我们可以很容易的看出，本发明提出的方法在同样的感知质量时可以更有效地减少比特率。

Claims

1.一种基于JND和AR模型的感知视频压缩方法，其特征在于所述方法如下：

首先把输入序列分为纹理帧和非纹理帧，其中，帧内编码帧(I帧)和前向预测编码帧(P帧)为非纹理帧，用H.264方法编码，双向预测内插编码帧(B帧)为纹理帧；其次，在感知图像的分割过程中，应用JND来检测和分割纹理区域；将时域中的相邻帧的像素通过自回归纹理合成算法线性组合来合成每个像素；

所述的应用JND来检测和分割纹理区域的方法如下：

{JND}_{MB} = \frac{1}{256} Σ_{i = 0}^{15} Σ_{j = 0}^{15} JND (i, j)

式(1)

其中，JND(i，j)表示像素(i，j)处的JND取值；

当宏块(MB)的JND能量大于阈值，那么就将它定义为纹理MB，否则定义为非纹理宏块(MB)；

所述阈值取所有宏块(MB)的JND能量的平均值：

{JND}_{threshold} = \frac{1}{total_MB} \underset{MB}{Σ} {JND}_{MB}

式(2)

total_MB表示宏块的总体数量；

所述的自回归纹理合成算法如下：

式(3)

其中

式(4)

这里的mvx_f，mvy_f分别表示在平行和垂直方向上的前向运动矢量，mvx_b，mvy_b别表示在平行和垂直方向上的后向运动矢量，

在前向和后向运动帧轨迹上相对应的重构像素，W_f(k，l)，W_b(u，v)表示分别指向前向和后向参考帧的自回归AR参数，L是自回归AR模型的窗口大小；

所述自回归AR模型中的参数W_f(k，l)和W_b(u，v)是通过计算纹理区域最小化的原始像素和合成像素的差平方来得到：

e = \underset{(m, n) &Element; texture region}{Σ} {(p_{t} (m, n) - {\tilde{p}}_{t} (m, n))}^{2}

式(5)

其中p_t(m，n)表示在(m，n)处的原始像素值，texture region表示纹理区域，将式(3)带入(5)中，得到：

式(6)

根据最小二乘化原理，设置：

\{\begin{matrix} \frac{&PartialD; e}{{&PartialD; W}_{f} (k, l)} = 0 \\ \frac{&PartialD; e}{{&PartialD; W}_{b} (u, v)} = 0 \end{matrix}

式(7)

得到自回归AR模型的参数W_f(k，l)和W_b(u，v)；

每一个纹理帧都有独立的自回归AR参数，所述自回归AR参数被写入比特流送到编码器中。