CN103327321A

CN103327321A - 一种快速自适应建立频域凹形恰可辨失真模型的方法

Info

Publication number: CN103327321A
Application number: CN2013101030599A
Authority: CN
Inventors: 王永芳; 商习武; 宋允东; 罗丽冬; 张兆杨
Original assignee: University of Shanghai for Science and Technology
Current assignee: University of Shanghai for Science and Technology
Priority date: 2013-03-28
Filing date: 2013-03-28
Publication date: 2013-09-25

Abstract

本发明涉及一种快速自适应建立频域凹形恰可辨失真模型的方法。本方法的操作步骤如下：(1)读取输入图像的亮度值大小，建立频域的恰可辨失真阈值模型；(2)快速定位出凹形点；(3)建立凹形恰可辨失真模型。本发明快速而准确的搜索出人眼的关注点，提出了基于频域凹形恰可辨失真模型。该模型可移植性强，适用于图像和视频编码器中，提高编码效率。

Description

一种快速自适应建立频域凹形恰可辨失真模型的方法

技术领域

本发明涉及视觉感知编码技术领域，特别是一种快速自适应建立频域凹形恰可辨失真模型的方法利用人眼视觉感知特性去除感知冗余信息，进一步提高多媒体的压缩率，便于网络通信。

背景技术

随着计算机网络技术的发展，人类进入了数字通信时代。人们使用声音、文本、图像和视频作为信息载体，图像和视频由于具有直观形象的特性，成为最重要的多媒体信息。然而，巨大的多媒体数据让当前的带宽捉襟见肘。为此，图像和视频工作者更新了一代又一代图像和视频编码标准，但都是去除客观冗余，没有考虑到人类视觉系统。考虑人眼视觉感知特性，去除人眼不能感知的视觉冗余，能够进一步提高图像和视频的编码效率。为此，在研究人眼的视觉特性的基础上，人们建立了恰可辨失真模型(Just Noticeable Distortion, JND)，为人们去除感知冗余提供了理论依据。

最早JND模型是建立在像素域，针对单幅图像分别包括亮度掩盖效应，纹理掩盖效应和凹形特性，在视频中还加入了时域掩盖效应。由于图像视频编码会在变换域进行，研究者又建立了频域JND模型，在包含像素域JND的各个子模型外，还建立了空间灵敏度函数的模型。

目前，研究人眼的凹形特性，建立凹形JND模型是研究的热点。人眼的凹形特性是指人在观看视频图像时，对关注的点比较敏感，而对于远离自己的关注点的地方敏感度逐渐降低。寻找人眼的关注点即凹形点，成为研究凹形JND模型的重点。最典型的找凹形点的方法是运用至底向上的模型寻找凹形点，但这种方法耗费时间长，不利于该模型的应用。为简化计算，默认凹形点为屏幕的中心点，这种方法虽然简化了计算，但找出的凹形点不准确。

相关文献证明：经过符号函数处理的图像的DCT变换，能够将图像信号的能量集中在前景区域。因此，可以利用这种方法生成图像的显著图，再在显著图上找出人眼的关注点。在频域中，可以方便的对图像的各种频率分量进行处理，建立频域凹形JND模型能够更好的去除感知冗余，达到提高编码效率的目的。

发明内容

本发明的目的是针对已有技术存在的缺陷，提供一种快速自适应建立频域凹形恰可辨失真模型的方法，该方法能快速准确的定位出人眼的感兴趣区域，建立凹形JND模型。方便图像及视频研究者用于图像和视频编码器中，提高编码效率。

为达到上述目的，本发明采用如下的技术方案：

一种快速自适应建立频域凹形恰可辨失真模型的方法，其特征在于操作步骤如下：

(1) 读取输入图像的亮度值大小，建立频域的恰可辨失真阈值模型；

(2) 快速定位出凹形点；

(3) 建立凹形恰可辨失真模型。

本发明与已有技术相比较，具有如下显而易见的突出实质性特点和显著技术进步：

1）、该凹形JND模型寻找凹形点所耗费的时间很短，平均耗费时间为0.08s，比传统的寻找凹形点方法提高16倍；

2）、该凹形JND模型能自适应的搜索出凹形点，符合人类视觉感知特性；

3）、该凹形JND模型能够方便的嵌入图像和视频编码器中。

附图说明

图1是本发明中的一种快速自适应建立频域凹形恰可辨失真模型的方法的原理框图。

图2是频域的恰可辨失真模型的框图。

图3是快速搜索出凹形点的框图。

图4是建立凹形恰可辨失真模型的框图。

图5a是图像ballroom的原始图像。

图5b是图像ballroom的本方法的显著性图像，垂直交点为凹形点。

图5c是图像ballroom的自底向上方法得到的显著性图像，垂直交点为凹形点。

图5d是图像ballroom默认凹形点为图像中心，垂直交点为凹形点。

图5e是图像ballroom随机加入大小为本方法凹形JND阈值的噪声图像。

图5f是图像ballroom随机加入大小为自底向上方法凹形JND阈值的噪声图像。

图5g是图像ballroom随机加入大小为凹形JND阈值的噪声图像，这种凹形JND模型中的凹形点默认为图像中心的。

图6a是图像breakdancers的原始图像。

图6b是图像breakdancers的本方法的显著性图像，垂直交点为凹形点。

图6c是图像breakdancers的自底向上方法得到的显著性图像，垂直交点为凹形点。

图6d是图像breakdancers默认凹形点为图像中心，垂直交点为凹形点。

图6e是图像breakdancers随机加入大小为本方法凹形JND阈值的噪声图像。

图6f是图像breakdancers随机加入大小为自底向上方法凹形JND阈值的噪声图像。

图6g是图像breakdancers随机加入大小为凹形JND阈值的噪声图像，这种凹形JND模型中的凹形点默认为图像中心的。

图7是三种寻找凹形点方法所耗费时间。

图8是原始图像中随机加入大小为三种凹形JND阈值的噪声图像。

具体实施方式

以下结合附图对本发明的优选实施例作进一步的详细说明：

实施例一：

参见图1，本实施例一种快速自适应建立频域凹形恰可辨失真模型的方法，包括以下步骤：

(1) 读取输入图像的亮度值大小，建立频域的恰可辨失真阈值模型，

(2) 快速定位出凹形点，

(3) 对输入图像加入噪声。

实施例二：本实施例与实施例一基本相同，特别之处如下：

上述步骤(1)中建立频域JND模型包括三个模型，参见图2：

（1-1）空间对比灵敏度函数模型。它是根据人眼的带通特性曲线，对于特定空间频率

其基本的JND阈值可表示为：

空间频率

Figure 2013101030599100002DEST_PATH_IMAGE003

的计算公式为：

其中，

和

表示DCT变换块的坐标位置，

为DCT变换块的维数，

和

表示水平和垂直的视角，一般认为水平视角等于垂直视角，其表达为：

由于人眼视觉敏感度具有方向性，对水平和垂直方向比较敏感，对其他方向的敏感度相对小些。由此加上方向的调制因子可得：

为DCT系数向量所代表的频率的角度，其中脚注

，

表示边变换块的横纵坐标系数，n脚注代表编码块序号，

为DCT系数归一化因子表达式为：

最后加上控制参数

形成最终的空间灵敏度函数的调制因子为：

为0.6，

为1.33，

为0.11，

为0.18。

（1-2）亮度掩盖效应模型。它是根据实验，人眼视觉感知敏感度在中间灰度值区域比在较黑和较亮的背景区域更加敏感，最后拟合出亮度掩盖效应曲线，其表达式为：

其中

是当前编码块的平均亮度值。

（1-3）纹理掩盖效应模型。它是根据图像纹理性的不同，可将图像分为三个区域：边界区，平滑区和纹理区。人眼依次对其敏感度降低。通常利用canny算子分出图像的各个区域。

利用canny算子求出的边缘像素密度如下：

其中，

是块的边缘像素总数，由Canny边缘检测器获得。

利用边缘像素密度

将图像块划分为平坦区，纹理区和边缘区，图像块分类的依据公式如下：

对于纹理区域，眼睛对低频部分失真不敏感，但高频部分适当进行保留。故得到对比掩盖的估计因子为：

其中（

）是DCT系数标号。

由于空间对比灵敏度函数效应和亮度效应的重叠效应，得到最终掩盖效应因子为：

其中，

表示输入视频序列的第帧，

为DCT系数，

为空间对比度灵敏度函数的阈值，

为亮度掩盖效应特性调制因子。

（1-4）三种因子的加权乘积即构成当前编码帧的恰可辨失真阈值，其表达式为：

其中，

为空间对比度灵敏度函数的阈值，

为亮度掩盖效应调制因子，为掩盖效应调制因子。

上述步骤(2)是快速定位出凹形点，参见图3，其具体步骤如下：

（2-1）提取图像的R，G，B三色分量：

其中

表示原始图像，

表示像素的横坐标和纵坐标。

（2-2）将R，G，B三色分量图像的宽度大小变换到64左右。

（2-3）对R，G，B三色分量图像进行DCT变换。

（2-4）进行符号函数运算。

（2-5）进行IDCT变换。

（2-6）对经过IDCT变换的三幅图像中的每个像素值进行平方。

（2-7）求出三幅图像的均值，得到一幅图像：

，

，

表示经过前面几个步骤处理后的

，

，

的图像。

（2-8）进行高斯滤波。

（2-9）将高斯滤波后的图像还原成原图像大小。

（2-10）找出图像中的最亮点作为凹形点，凹形点

表达式为：

表示还原成原图像大小的图像，

表示凹形点的位置。

上述步骤(3) 建立凹形恰可辨失真模型，参见图4，其具体步骤如下：

(3-1)凹形加权因子与图像上任意一点的离心有关，离心率越大，该点的凹形加权因子越大，凹形加权因子的公式如下：

其中，离心率

，

为人距离图像的距离，通常为图像高度的3~5倍，

为调节因子，实验中取1。

(3-2)建立凹形模型

，其表达式如下：

为前面求出的频域阈值，

为凹形加权因子。

下面进行仿真实验来评估本文所提出的一种快速自适应建立频域凹形恰可辨失真模型的方法。在配置为Intel Core i3， CPU 3.3GHz, 4GB RAM, Window 7的PC机上，通过随机加入噪声验证该模型的性能。选取640x480与1024x768大小的图像，将大小为凹形JND阈值的噪声随机加入到原始图片，其具体方法为：

其中

为图像的像素值，

取值为±1。为验证本方法的有效性，采用平均主观打分标准(MOS)。

图像ballroom的实验结果如图5a～5g,其大小为640x480。图5a是ballroom的原始图像。图5b是ballroom本方法生成的显著性图像，白色交叉点是找出的凹形点。图5c 是ballroom自底向上方法生成的显著性图像，白色交叉点是找出的凹形点。图5d白色交叉点标示出图像中心点默认为凹形点。图5e是ballroom随机加入大小为本方法凹形JND阈值的噪声图像，其PSNR是28.32db，平均主观得分MOS为4.75。图5f是ballroom随机加入大小为自底向上方法凹形JND阈值的噪声图像，其PSNR是28.16db，平均主观得分MOS为4.75，与本方法搜索出的凹形点一致。图5g是ballroom随机加入大小为凹形JND阈值的噪声图像，这种凹形JND模型的中心点默认为图像中心，其PSNR是28.35db，平均主观得分MOS为4.5，由于这幅图像的凹形点靠近图像的中心，故平均主观得分下降的不是很多。

图像breakdancers的实验结果如图6a～6g,其大小为1024x768。图6a是breakdancers的原始图像。图6b是breakdancers本方法生成的显著性图像，白色交叉点是找出的凹形点。图6c 是breakdancers自底向上方法生成的显著性图像，白色交叉点是找出的凹形点。图6d白色交叉点标示出图像中心点默认为凹形点。图6e是breakdancers随机加入大小为本方法凹形JND阈值的噪声图像，其PSNR是26.86db，平均主观得分MOS为4.75。图6f是breakdancers随机加入大小为自底向上方法凹形JND阈值的噪声图像，其PSNR是26.82db，平均主观得分MOS为4.75，可以看出与本方法搜索出的凹形点一致。图6g是breakdancers随机加入大小为凹形JND阈值的噪声图像，这种凹形JND模型的中心点默认为图像中心，其PSNR是27.17db，平均主观得分MOS为4.0，由于这幅图像的凹形点远离图像的中心，故平均主观得分下降的较多。

图7是三种寻找凹形点方法的时间代价结果，从表中的的平均结果中可以看出，本方法寻找凹形点的速度非常快，是自底向上方法搜索凹形点速度的16倍。由于默认中心法直接认为凹形点为图像的中心点，其搜索时间认为是零。

图8是三种凹形模型产生的噪声图像的性能分析结果。由图中可以看出，当搜索出的凹形点靠近中心点时，默认中心法产生的噪声图像主观质量与本方法差不多。若搜索出的凹形点远离中心点时，默认中心法产生的噪声图像主观质量就不理想。自底向上方法搜索的凹形点与本方法基本一致，但是其搜索时间太长，不利于嵌入现有的视频和图像编码器中。

结合以上各图表可以看出，本发明建立频域的凹形JND模型，能够快速而准确的寻找出凹形点，将本方法产生的JND阈值随机加减到图像中，主观质量基本不变。由此可以看出本发明提出的JND模型符合人眼的视觉特性，将其运用于图像和视频编码中，能够更好的提高编码效率。