CN101841723B - 基于jnd和ar模型的感知视频压缩方法 - Google Patents

基于jnd和ar模型的感知视频压缩方法 Download PDF

Info

Publication number
CN101841723B
CN101841723B CN 201010182160 CN201010182160A CN101841723B CN 101841723 B CN101841723 B CN 101841723B CN 201010182160 CN201010182160 CN 201010182160 CN 201010182160 A CN201010182160 A CN 201010182160A CN 101841723 B CN101841723 B CN 101841723B
Authority
CN
China
Prior art keywords
mrow
jnd
texture
msub
mfrac
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
CN 201010182160
Other languages
English (en)
Other versions
CN101841723A (zh
Inventor
邹采荣
王翀
赵力
王开
戴红霞
包永强
余华
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Southeast University
Original Assignee
Southeast University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Southeast University filed Critical Southeast University
Priority to CN 201010182160 priority Critical patent/CN101841723B/zh
Publication of CN101841723A publication Critical patent/CN101841723A/zh
Application granted granted Critical
Publication of CN101841723B publication Critical patent/CN101841723B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Compression Or Coding Systems Of Tv Signals (AREA)

Abstract

本发明公布了一种基于可观测的衰减(Just Noticeable Distortion,JND)和自回归(Auto-regressive,AR)模型的感知视频压缩方法,包括了纹理区域的分割算法和基于自回归模型的合成算法。我们首先用基于JND的分割算法将视频中的纹理区域分割出来,接着用自回归模型合成纹理区域。本发明提出了空时JND模型,准确有效地进行了纹理区域的分割。设计了AR模型,通过简单计算,在保证视频质量的同时,大大提高了实时性。开发了结合人眼视觉特性的视频压缩技术,进一步提高了视频的压缩效率,减少了比特率。

Description

基于JND和AR模型的感知视频压缩方法
技术领域
本发明涉及多媒体信号处理技术领域,尤其是在视频压缩编码开发的领域。
背景技术
在过去的几十年中,图像和视频压缩编码的技术得到了长足的发展。代表了当前技术水平的JPEG2000和MPEG-4 AVC/H.264都体现了它们在编码上的高效性。在已有文献中,也出现了基于H.264的立体视频编码压缩技术。这些技术都是通过去除时间空间上的冗余性来进行压缩编码。然而,一个通常的问题是大家都把目光聚集在那些静态的冗余信息上,完全忽视了感知上的冗余。换句话说,之前的压缩评判标准大多是率失真性能,虽然这样的性能被广泛采用,但它不能反映人类视觉特性。因此,我们要研究如何结合人类的视觉特性进一步提高压缩编码的效率。
在之前的文献中,有一些已经关注了人类的视觉系统(HVS,human visual system),他们关注于基于感知标准的编码系统。在这些工作中,视频序列中的一些纹理区域,如花、草、水和沙滩等对HVS并不重要的,先被分割出来,然后用合成的方法重构。这些文献在进行图像分割时都只考虑了静态颜色或边缘信息的特点,忽略了HVS,对不同的纹理区域,鲁棒性和效果都不够好。
发明内容
本发明的目的是提出了一种基于JND和AR模型的感知视频压缩技术,包括了纹理区域的分割算法和基于自回归模型的合成算法。
本发明为实现上述目的,采用如下技术方案:
本发明基于JND和AR模型的感知视频压缩方法,其特征在于所述方法如下:
首先把输入序列分为纹理帧和非纹理帧,其中I帧和P帧为非纹理帧,用H.264方法编码,B帧为纹理帧;其次,在感知图像的分割过程中,应用JND来检测和分割纹理区域;将时域中的相邻帧的像素通过自回归纹理合成算法线性组合来合成每个像素。
优选地,所述的应用JND来检测和分割纹理区域的方法如下:
图像的纹理区域的分割采用的最小单位为宏块(MB),每一个宏块(MB)的JND能量为:
JND MB = 1 256 Σ i = 0 15 Σ j = 0 15 JND ( i , j ) 式(1)
其中,JND(i,j)表示像素(i,j)处的JND取值;
当宏块(MB)的JND能量大于阈值,那么就将它定义为纹理MB,否则定义为非纹理宏块(MB)。
优选地,所述阈值取所有宏块(MB)的JND能量的平均值:
JND threshold = 1 total _ MB Σ MB JND MB 式(2)
total_MB表示宏块的总体数量。
优选地,所述的自回归纹理合成算法如下:
每一个纹理区域中的像素都是用跟它最接近的前后参考帧的线性组合来生成的,插值的公式如下:
Figure GSA00000129561200023
式(3)
其中
Figure GSA00000129561200024
式(4)
这里的mvxf,mvyf分别表示在平行和垂直方向上的前向运动矢量,mvxb,mvyb别表示在平行和垂直方向上的后向运动矢量,在前向和后向运动帧轨迹上相对应的重构像素,Wf(k,l),Wb(u,v)表示分别指向前向和后向参考帧的AR参数,L是AR模型的窗口大小。
优选地,所述AR模型中的参数Wf(k,l)和Wb(u,v)是通过计算纹理区域最小化的原始像素和合成像素的差平方来得到:
e = Σ ( m , n ) ∈ texture region ( p t ( m , n ) - p ~ t ( m , n ) ) 2 式(5)
其中pt(m,n)表示在(m,n)处的原始像素值。将式(3)带入(5)中,得到:
式(6)
Figure GSA00000129561200032
根据最小二乘化原理,设置:
∂ e ∂ W f ( k , l ) = 0 ∂ e ∂ W b ( u , v ) = 0 式(7)
得到AR模型的参数Wf(k,l)和Wb(u,v)。
优选地,每一个纹理帧都有独立的AR参数,所述AR参数被写入比特流送到编码器中。
本发明的优点和效果在于:
1.提出了空时JND模型,准确有效地进行了纹理区域的分割。
2.设计了AR模型,通过简单计算,在保证视频质量的同时,大大提高了实时性。
3.开发了结合人眼视觉特性的视频压缩技术,进一步提高了视频的压缩效率,减少了比特率。
附图说明
图1是感知自回归纹理合成方法示意图流程图。
图2是Gk(k=1,2,3,4)的确定。
图3是低通滤波器B。
图4使用空时JND模型(STJND)分割算法的各阶段结果。
图5是窗口大小为3的AR模型示意图。
图6序列Flowergarden的第19帧合成图像。
图7不同方法在序列Mobile上纹理区域比特率消耗的比较。
图8是不同方法在序列Coastguard上纹理区域比特率消耗的比较。
具体实施方式
下面结合附图对发明的技术方案进行详细说明:
对于信息量巨大的立体视频来说,去除其中的感知冗余对提高编码效率有着更加明显的效果。对HVS的研究开始于心理-生理学,后来广泛应用到与视觉相关的领域。在立体视频处理中,除了时间、空间上的冗余外,感知冗余的消除也是不可忽视的。本发明提出了一种基于JND和AR模型的感知视频压缩方法,包括了纹理区域的分割算法和基于自回归模型的合成算法。我们首先用基于JND的分割算法将视频中的纹理区域分割出来,接着自回归模型合成纹理区域,如图1所示。
本发明基于JND和AR模型的感知视频压缩方法如下:
我们首先把输入序列分为纹理帧和非纹理帧,其中I帧和P帧定义为非纹理帧,用传统的方法编码,B帧为纹理帧,使用本发明提出的分割和合成算法来处理。其次,在感知图像的分割过程中,只要应用JND来检测和分割纹理区域。有文献指出人眼不能感觉到任何低于JND阈值的变化。在文献中,图像域的JND框架和JND自适应的运动估计、残差处理是不一致的。图像域的JND框架同样也可以用来当成帧间预测的阈值,特别是在比特率和运动场景较少的应用中。本发明我们使用JND来引导纹理区的图像分割。接着,我们提出了AR纹理合成算法,用时域中的相邻帧的像素线性组合来合成每个像素。
在所述的基于改进BP算法的中间视合成技术中,所述的应用JND来检测和分割纹理区域内容如下:
在空间JND和时间JND模型的基础上,我们定义出空时JND模型(STJND)如下式
STJND(x,y,t)=SJND(x,y)·TJND(x,y,t)    式(1)
其中,
SJND(x,y)=max{f1(bg(x,y),mg(x,y)),f2(bg(x,y))}    式(2)
其中,f1(bg(x,y),mg(x,y))和f2(bg(x,y))分别用来估计空间遮蔽和亮度对比。f1(bg(x,y),mg(x,y))的定义如式(3)
f1(bg(x,y),mg(x,y))=mg(x,y)×α(bg(x,y))+β(bg(x,y))    式(3)
其中,mg(x,y)是计算像素(x,y)的四邻域像素亮度变化的加权均值所产生的亮度变化均值的最大值,其计算公式为
mg ( x , y ) = max k = 1,2,3,4 { | grad k ( x , y ) | } 式(4)
其中,gradk(x,y)由公式(5)得出
grad k ( x , y ) = 1 16 Σ i = 1 5 Σ j = 1 5 p ( x - 3 + i , y - 3 + i ) × G k ( i , j ) 式(5)
上式中Gk(i,j)的确定如图2所示。
公式(3)中的α(bg(x,y))和β(bg(x,y))取决于背景亮度、可视阈值和亮度差异之间的具体线性关系,表示为
α ( bg ( x , y ) ) = bg ( x , y ) × 0.0001 + 0.115 β ( bg ( x , y ) ) = μ - bg ( x , y ) × 0.01 式(6)
其中μ是更高等级背景亮度的坡度,bg(x,y)是使用如图3所示低通滤波器B计算所得的平均背景亮度值。
bg ( x , y ) = 1 32 Σ i = 1 5 Σ j = 1 5 p ( x - 3 + i , y - 3 + i ) × B ( i , j ) 式(7)
公式f2(bg(x,y))计算了从亮度对比得出的可视阈值。
f 2 ( bg ( x , y ) ) = T 0 × ( 1 - ( bg ( x , y ) 127 ) 1 / 2 ) + ϵ bg ( x , y ) ≤ 127 γ × ( bg ( x , y ) - 127 ) bg ( x , y ) > 127 式(8)
其中T0表示当背景亮度等级为0时的可视阈值,ε表示可视阈值的最小值。公式(8)显示了可视阈值和低等级背景亮度呈平方根关系,而和高等级背景亮度呈线性关系。
时间JND模型可以表述为:
TJND ( x , y , t ) = max ( τ , H 2 exp ( - 0.15 2 π ( Δ ( x , y , t ) + 255 ) ) + τ ) , Δ ( x , y , t ) ≤ 0 max ( τ , L 2 exp ( - 0.15 2 π ( 255 - Δ ( x , y , t ) ) ) + τ ) , Δ ( x , y , t ) > 0 式(9)
其中,H=8和L=3.2是模型参数。τ=0.8。Δ(x,y,t)代表的是帧t和前一帧t-1之间的平均亮度差异。
Δ ( x , y , t ) = p ( x , y , t ) - p ( x , y , t - 1 ) + bg ( x , y , t ) - bg ( x , y , t - 1 ) 2 式(10)
空时JND模型研究了视觉敏感性跟亮度对比、空间掩蔽和时间掩蔽的关系。通过假设像素是在最好的视力条件下被感知的,STJND模型为图像的每一个像素提供了可视阈值。与其它的JND模型想比较,STJND完全考虑了亮度变化、纹理掩蔽和它们的重叠效应。
如果一个像素有相对较高的JND值,那么它对人眼的感知就越不重要。因此,可以将它分类为纹理区域的一个候选对象。本发明既是基于这样的思想来检测纹理区域。为了与现行的视频编码框架相匹配,纹理区域的分割采用的最小单位为宏块(MB)。每一个MB的JND能量定义为
JND MB = 1 256 Σ i = 0 15 Σ j = 0 15 JND ( i , j ) 式(11)
其中,JND(i,j)表示像素(i,j)处的JND取值。
如果某个MB的JND能量大于阈值,那么就将它定义为纹理MB,否则定义为非纹理MB。阈值我们这里取所有MB的JND能量的平均值。
JND threshold = 1 total _ MB Σ MB JND MB 式(12)
在所述的基于改进BP算法的中间视合成技术中,所述的自回归(Auto-regressive)纹理合成算法内容如下:
在我们提出的自回归(Auto-regressive,AR)纹理合成算法中,每一个纹理区域中的像素都是用跟它最接近的前后参考帧的线性组合来生成的。插值的公式如下:
Figure GSA00000129561200063
式(13)
其中
Figure GSA00000129561200064
式(14)
这里的mvxf,mvyf分别表示在平行和垂直方向上的前向运动矢量,mvxb,mvyb别表示在平行和垂直方向上的后向运动矢量。
Figure GSA00000129561200065
在前向和后向运动帧轨迹上相对应的重构像素。Wf(k,l),Wb(u,v)表示分别指向前向和后向参考帧的AR参数。L是AR模型的窗口大小。
AR模型中的参数Wf(k,l)和Wb(u,v)通过计算纹理区域最小化的原始像素和合成像素的差平方来得到。
e = Σ ( m , n ) ∈ texture region ( p t ( m , n ) - p ~ t ( m , n ) ) 2 式(15)
其中pt(m,n)表示在(m,n)处的原始像素值。将式(4)带入(6)中,得到:
Figure GSA00000129561200067
式(16)
根据最小二乘化原理,我们可以推导出AR模型的参数,只要设置
∂ e ∂ W f ( k , l ) = 0 ∂ e ∂ W b ( u , v ) = 0 式(17)
本发明中,每一个纹理帧都有独立的AR参数,它们被写入比特流送到编码器中。
图4中,我们根据STJND模型做了一个实验。(a)是待分割的原始图像,(b)是使用STJND模型后的分割结果。从结果我们可以观察到,有很多孤立的MB被分割了出来。太多孤立的MB会造成后续计算量的大大增加,降低算法的性能。因此,有必要进行优化。为了减少孤立的MB,我们采用迭代的方法进行行扫描和列扫描。首先对纹理MB进行逐行扫描,然后逐列扫描。在行扫描的过程中去掉平行的孤立MB,保证在同一行中没有相关的纹理MB。在列扫描中同理去除垂直的孤立MB。经过多次迭代后直到检测的纹理区域中没有孤立的MB存在。相应的结果在图4(c)中显示,我们可以看到孤立的MB已经被去除了。更进一步的,我们只选择有最大连通区域的纹理块,其它块忽略不计,这样的最终结果在图4(d)中显示。
图5是窗口大小为3的AR模型示意图。这里的mvxf,mvyf分别表示在平行和垂直方向上的前向运动矢量,mvxb,mvyb别表示在平行和垂直方向上的后向运动矢量。
Figure GSA00000129561200072
在前向和后向运动帧轨迹上相对应的重构像素。Wf(k,l),Wb(u,v)表示分别指向前向和后向参考帧的AR参数。L是AR模型的窗口大小。
我们将本发明提出的分割和合成方法集成到现有的H.264/AVC参考软件JM10.1中。在实验中,序列的机构采用IBPBP…GOP结构,允许率失真优化。量化参量(QP)设置为30,32,34和36。为了验证算法的有效性,我们使用了三个30HZ的视频序列:Mobile,Coastguard和Flowergarden。这三个序列分别具有典型的刚性纹理、非刚性纹理和细节纹理的特点。
对于Mobile序列,比特率节省百分比在15.55%到19.86%之间;对于Coastguard序列,比特率节省百分比在17.58%到23.18%之间;对于Flowergarden序列,可以节省的比特率百分比超过了50%,这是因为差不多一半以上的区域都被分割成了纹理区域。
图6显示的是重构的Flowergarden的第19帧,(a)是使用本发明方法合成的结果,(b)是直接使用JM10.1的结果。(a)和(b)产生的比特数分别是37664 bits和18448bits。与原始图像相比,均值信噪比(PNSR)分别是36.76dB和31.35dB。然而我们很难从主观视觉上分辨出(a)和(b)有多大区别,这是因为人眼在两者的flower区域并不会特别关注。总之,图6中(a),展示了更好的语义相似性而不仅仅是像素级的保真度,取得了令人满意的结果。
图7、8是使用本发明方法和直接使用JM 10.1在序列Mobile和Coastguard上纹理区域比特率消耗的比较。我们可以很容易的看出,本发明提出的方法在同样的感知质量时可以更有效地减少比特率。

Claims (1)

1.一种基于JND和AR模型的感知视频压缩方法,其特征在于所述方法如下:
首先把输入序列分为纹理帧和非纹理帧,其中,帧内编码帧(I帧)和前向预测编码帧(P帧)为非纹理帧,用H.264方法编码,双向预测内插编码帧(B帧)为纹理帧;其次,在感知图像的分割过程中,应用JND来检测和分割纹理区域;将时域中的相邻帧的像素通过自回归纹理合成算法线性组合来合成每个像素;
所述的应用JND来检测和分割纹理区域的方法如下:
图像的纹理区域的分割采用的最小单位为宏块(MB),每一个宏块(MB)的JND能量为:
JND MB = 1 256 Σ i = 0 15 Σ j = 0 15 JND ( i , j ) 式(1)
其中,JND(i,j)表示像素(i,j)处的JND取值;
当宏块(MB)的JND能量大于阈值,那么就将它定义为纹理MB,否则定义为非纹理宏块(MB);
所述阈值取所有宏块(MB)的JND能量的平均值:
JND threshold = 1 total _ MB Σ MB JND MB 式(2)
total_MB表示宏块的总体数量;
所述的自回归纹理合成算法如下:
每一个纹理区域中的像素都是用跟它最接近的前后参考帧的线性组合来生成的,插值的公式如下:
Figure FSB00000516768400013
式(3)
其中
Figure FSB00000516768400014
式(4)
这里的mvxf,mvyf分别表示在平行和垂直方向上的前向运动矢量,mvxb,mvyb别表示在平行和垂直方向上的后向运动矢量,
Figure FSB00000516768400015
在前向和后向运动帧轨迹上相对应的重构像素,Wf(k,l),Wb(u,v)表示分别指向前向和后向参考帧的自回归AR参数,L是自回归AR模型的窗口大小;
所述自回归AR模型中的参数Wf(k,l)和Wb(u,v)是通过计算纹理区域最小化的原始像素和合成像素的差平方来得到:
e = Σ ( m , n ) ∈ texture region ( p t ( m , n ) - p ~ t ( m , n ) ) 2 式(5)
其中pt(m,n)表示在(m,n)处的原始像素值,texture region表示纹理区域,将式(3)带入(5)中,得到:
Figure FSB00000516768400022
式(6)
Figure FSB00000516768400023
根据最小二乘化原理,设置:
∂ e ∂ W f ( k , l ) = 0 ∂ e ∂ W b ( u , v ) = 0 式(7)
得到自回归AR模型的参数Wf(k,l)和Wb(u,v);
每一个纹理帧都有独立的自回归AR参数,所述自回归AR参数被写入比特流送到编码器中。
CN 201010182160 2010-05-25 2010-05-25 基于jnd和ar模型的感知视频压缩方法 Expired - Fee Related CN101841723B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN 201010182160 CN101841723B (zh) 2010-05-25 2010-05-25 基于jnd和ar模型的感知视频压缩方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN 201010182160 CN101841723B (zh) 2010-05-25 2010-05-25 基于jnd和ar模型的感知视频压缩方法

Publications (2)

Publication Number Publication Date
CN101841723A CN101841723A (zh) 2010-09-22
CN101841723B true CN101841723B (zh) 2011-08-03

Family

ID=42744789

Family Applications (1)

Application Number Title Priority Date Filing Date
CN 201010182160 Expired - Fee Related CN101841723B (zh) 2010-05-25 2010-05-25 基于jnd和ar模型的感知视频压缩方法

Country Status (1)

Country Link
CN (1) CN101841723B (zh)

Families Citing this family (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103024381B (zh) * 2012-12-10 2016-01-20 宁波大学 一种基于恰可察觉失真的宏块模式快速选择方法
CN103118255A (zh) * 2013-01-25 2013-05-22 深圳广晟信源技术有限公司 基于凹模型的自适应量化的方法及装置
CN103442231A (zh) * 2013-08-19 2013-12-11 中山大学深圳研究院 一种视频编码的方法
CN103533348B (zh) * 2013-09-26 2017-02-01 上海大学 基于视觉感知的多视点快速模式选择方法
CN105306954B (zh) * 2014-05-30 2018-05-22 西安电子科技大学 一种基于视差最小可察觉误差模型的感知立体视频编码
CN104992419A (zh) * 2015-07-08 2015-10-21 北京大学深圳研究生院 基于jnd因子的超像素高斯滤波预处理方法
CN108521572B (zh) * 2018-03-22 2021-07-16 四川大学 一种基于像素域jnd模型的残差滤波方法

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20100086063A1 (en) * 2008-10-02 2010-04-08 Apple Inc. Quality metrics for coded video using just noticeable difference models
CN101710995B (zh) * 2009-12-10 2011-02-16 武汉大学 基于视觉特性的视频编码系统

Also Published As

Publication number Publication date
CN101841723A (zh) 2010-09-22

Similar Documents

Publication Publication Date Title
CN101841723B (zh) 基于jnd和ar模型的感知视频压缩方法
CN101668205B (zh) 基于残差宏块自适应下采样立体视频压缩编码方法
KR101708265B1 (ko) 영상 부호화 및 복호화 장치 및 그 방법
CN102450009B (zh) 在视频应用中用于视频预处理的滤波器选择
TW411698B (en) Methods for encoding and decoding the image sequences
CN102158712B (zh) 一种基于视觉的多视点视频信号编码方法
US7936824B2 (en) Method for coding and decoding moving picture
CN106534862B (zh) 一种视频编码方法
CN104602028B (zh) 一种立体视频b帧整帧丢失错误隐藏方法
CN101710993A (zh) 基于块的自适应超分辨率视频处理方法及系统
CN1695381A (zh) 在数字视频信号的后处理中使用编码信息和局部空间特征的清晰度增强
JP2010500818A (ja) 漫画アニメーション圧縮のためのシステムおよび方法
US10827161B2 (en) Depth codec for 3D-video recording and streaming applications
JP2015523030A (ja) 3次元ビデオを表すビットストリームを符号化する装置
CN103501441A (zh) 一种基于人类视觉系统的多描述视频编码方法
CN101621683A (zh) 一种基于avs的快速立体视频编码方法
CN109327703A (zh) 一种基于不同采样块的深度图编解码方法
CN104992419A (zh) 基于jnd因子的超像素高斯滤波预处理方法
US20070274687A1 (en) Video Signal Encoder, A Video Signal Processor, A Video Signal Distribution System And Methods Of Operation Therefor
WO2007136930A2 (en) Video/image compression using model plus difference image
KR101220097B1 (ko) 분산비디오 코덱 장치 및 이를 이용한 전경 영역 분할 보조정보 생성 방법
CN103826135B (zh) 基于恰可识别视差错误估计的三维视频深度图编码方法
KR101076272B1 (ko) 분산 비디오 코딩을 위한 픽셀 도메인 기반의 관심영역 추출방법 및 컴퓨터 판독가능 매체
CN103702121B (zh) 一种感知视频编码方法
JP2015091126A (ja) 画像及びビデオの視知覚変換コーディング

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
C17 Cessation of patent right
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20110803

Termination date: 20140525