CN103154970A

CN103154970A - 视觉优化量化

Info

Publication number: CN103154970A
Application number: CN2012800031418A
Authority: CN
Inventors: 刘炜; M·格哈拉维-艾尔克哈萨里; E·玛阿尼
Original assignee: Sony Corp
Current assignee: Sony Corp
Priority date: 2011-02-28
Filing date: 2012-01-19
Publication date: 2013-06-12
Also published as: US20120218440A1; US8442338B2; WO2012118569A1

Abstract

在本文描述了视觉优化量化。具体地讲，视觉优化量化用于任意的基于块的变换，诸如模式相关方向变换(MDDT)。压缩方法包括下面的处理：进行MDDT基函数的离散余弦变换，获得频率权重，并针对每个频率分量计算对比灵敏度函数。通过误差合并计算畸变的总体效应，并且量化矩阵与该总体效应成反比。

Description

视觉优化量化

技术领域

本发明涉及图像/视频处理的领域。更具体地讲，本发明涉及用于更好的视觉质量的视频编码中的优化量化。

背景技术

在数据压缩(尤其是数字图像的数字信息的压缩)的领域中已进行大量研究。数字图像包括迅速增长的由科学、商业、工业和政府存储并传送的数字信息的部分。数字图像传输在非常先进的电视系统(诸如，使用数字信息的高清晰度电视)中很重要。因为需要相对较大数量的数字比特来代表数字图像，所以在数字图像的创建、传输和重新创建所涉及的计算机通信网络的基础设施上施加了很大负担。由于这个原因，需要通过减少图像自身的冗余和不可见图像成分来把数字图像压缩为更少数量的比特。

在与数字图像压缩有关的许多当前和未来的国际标准中采用离散余弦变换，这些标准通常称为JPEG和MPEG，它们分别是联合图像专家组和运动图像专家组的首字母缩略词。在像素块经受离散余弦变换(DCT)之后，通过阈值化和量化操作对所获得的变换系数进行压缩。阈值化包括把其大小小于阈值的所有系数设置为等于零，而量化包括按照步长大小缩放系数并四舍五入到最近的整数。

通常，由量化矩阵中的条目确定每个DCT系数的量化。正是这个矩阵主要负责感知的图像质量和图像的传输的比特率。感知的图像质量很重要，因为人类视觉系统能够容忍图像的一定量的劣化而不会注意到可察觉的误差。因此，某些图像能够以低比特率被传输，而其它图像不能容忍任何劣化并且应该以更高的比特率被传输以便保持它们的信息内容。

发明内容

在本文描述了视觉优化量化。具体地讲，视觉优化量化用于任意的基于块的变换，诸如依赖于模式的方向变换(MDDT)。压缩方法包括下面的处理：进行MDDT基函数的离散余弦变换，获得频率权重，并针对每个频率分量计算对比灵敏度函数。通过误差合并计算畸变的总体效应，并且量化矩阵与该总体效应成反比。

在一个方面，一种执行优化量化的方法，所述优化量化被编程到装置的存储器中，该方法包括：进行任意块变换的基函数的离散余弦变换以确定频率分量的频率权重；针对每个频率分量计算各自的对比灵敏度函数；使用误差合并计算频率分量的畸变的总体效应；以及使用误差合并的总体效应产生量化矩阵。在一些实施例中，所述任意块变换是依赖于模式的方向变换。所述量化矩阵在图像的压缩期间被应用于图像。所述对比灵敏度函数包括一维对比灵敏度函数。所述对比灵敏度函数包括二维对比灵敏度函数。使用阈值计算对比灵敏度函数。从包括下面各项的组选择所述装置：个人计算机、膝上型计算机、计算机工作站、服务器、大型计算机、手持式计算机、个人数字助理、蜂窝/移动电话、智能家电、游戏控制台、数字照相机、数字摄录机、照相机电话、iPhone、

视频播放器、DVD记录器/播放器、蓝光

记录器/播放器、电视和家庭娱乐系统。

在另一方面，一种用于执行优化量化的系统，所述优化量化被编程到装置的存储器中，该系统包括：离散余弦变换模块，用于进行任意块变换的基函数的离散余弦变换以确定频率分量的频率权重；对比灵敏度函数模块，用于针对每个频率分量计算各自的对比灵敏度函数；误差合并模块，用于使用误差合并计算频率分量的畸变的总体效应；以及量化矩阵模块，用于使用误差合并的总体效应产生量化矩阵。在一些实施例中，所述任意块变换是依赖于模式的方向变换。所述量化矩阵在图像的压缩期间被应用于图像。所述对比灵敏度函数包括一维对比灵敏度函数。所述对比灵敏度函数包括二维对比灵敏度函数。使用阈值计算对比灵敏度函数。从包括下面各项的组选择所述装置：个人计算机、膝上型计算机、计算机工作站、服务器、大型计算机、手持式计算机、个人数字助理、蜂窝/移动电话、智能家电、游戏控制台、数字照相机、数字摄录机、照相机电话、iPhone、

视频播放器、DVD记录器/播放器、蓝光

记录器/播放器、电视和家庭娱乐系统。

在另一方面，一种照相机装置，包括：图像获取部件，用于获取图像；处理部件，用于通过下述步骤处理图像：进行任意块变换的基函数的离散余弦变换以确定频率分量的频率权重；针对每个频率分量计算各自的对比灵敏度函数；使用误差合并计算频率分量的畸变的总体效应；以及使用误差合并的总体效应产生量化矩阵；和存储器，用于存储经过处理的图像。在一些实施例中，所述任意块变换是依赖于模式的方向变换。所述量化矩阵在图像的压缩期间被应用于图像。所述对比灵敏度函数包括一维对比灵敏度函数。所述对比灵敏度函数包括二维对比灵敏度函数。使用阈值计算对比灵敏度函数。

在另一方面，一种编码器，包括：帧内编码模块，用于仅使用来自图像的信息对该图像编码；帧间编码模块，用于使用来自以前重建的图像的信息对图像编码；和在帧内编码或帧间编码中，如果采用的块变换不同于离散余弦变换，则应用视觉优化量化，包括用于下述步骤的量化部件：进行任意块变换的基函数的离散余弦变换以确定频率分量的频率权重；针对每个频率分量计算各自的对比灵敏度函数；使用误差合并计算频率分量的畸变的总体效应；以及使用误差合并的总体效应产生量化矩阵。在一些实施例中，所述任意块变换是依赖于模式的方向变换。所述量化矩阵在图像的压缩期间被应用于图像。所述对比灵敏度函数包括一维对比灵敏度函数。所述对比灵敏度函数包括二维对比灵敏度函数。使用阈值计算对比灵敏度函数。

附图说明

图1表示对数灵敏度与周期/度的曲线图。

图2表示根据一些实施例的视觉优化量化的方法的流程图。

图3表示根据一些实施例的构造为实现视觉优化量化的示例性计算装置的方框图。

图4表示根据一些实施例的视频编码层的方框图。

具体实施方式

对于下一代视频编码标准，除了DCT之外还使用其它变换。对于这些下一代视频编码标准，存在另外的信息，这些另外的信息使DCT变为不是最佳变换。例如，在高级视频编码(AVC)中，对于帧内编码，存在除了DCT系数之外定义的8个预测方向。利用这种方向信息，DCT变换不是用于预测残差的最好的变换。例如，一种更好的变换是依赖于模式的方向变换(MDDT)。对于每个方向，定义行变换和列变换。基于Karhunen Loeve变换(KLT)训练它们中的每一个。使用DCT实现的行变换和列变换也称为2D DCT。在MDDT中，基于不同的块大小和方向定义行变换和列变换。对于任意基函数/变换，能够确定视觉优化量化。

最小可觉差(Just Noticeable Difference,JND)

JND是在人眼可察觉到修改之前能够对图像或图像的一部分进行多少修改。基于JND确定量化矩阵。

JND模型包含下面的分量：亮度掩蔽、对比灵敏度函数(CSF)和误差合并。关于亮度掩蔽，如果图像较亮，则与较暗的图像相比在可察觉到修改之前该图像能够被更多地修改。因此，JND对于较亮图像而言较大并且对于较暗图像而言较小。

CSF是人眼对单一频率分量的灵敏度。常规DCT/DWT量化基于此。通常，与高频分量相比，人们对低频分量更敏感。因此，JND在高频分量较大并且在低频分量较小。

误差合并是在多个频带/分量中的畸变的联合效应。与CSF不同，误差合并考虑多个分量的组合而非单一分量。

CSF

示例性1D CSF是对数-抛物线函数：

logT＝1ogT_min-k(logf-logf₀)²,其中T是阈值，T_min、k和f₀是常数。根据给定频率，能够推导出该阈值。如果阈值T较大，则量化能够较粗糙。图1表示1D CSF的曲线图。

示例性2D CSF由它的角度调整：

{\log T}_{m, n} = \log \frac{T_{\min}}{r + (1 - r) \cos^{2} 2 θ} - k {({\log f}_{m, n} - {\log f}_{0})}^{2}

其中r是常数，0<r<1。θ是空间频率的角度。2D CSF类似于1DCSF，主要差别在于：T_min在2D CSF中由r和θ修改。

误差合并

对于任意块变换，一种基函数能够包括多个频率分量。量化把噪声引入到多个频率，并且在不同频带的畸变彼此相互作用。合并函数处理多个频率相互作用。合并函数被建模为：

p_{ij} = {(\underset{k}{Σ} {| d_{ijk} |}^{β})}^{1 / β}

如果已知被引入到单一频率的视觉畸变d_ijk，则使用合并函数能够计算总的畸变。为了计算畸变d_ij，ij是基函数的已知位置。另外，DCT被应用于基函数(诸如，MDDT基函数)，这得到a_ij。a_ij是DCT基函数对单一频率的贡献，它随后由视觉灵敏度阈值T_ij标准化。因此，是合理的d_ij。另外，量化与灵敏度成反比，因为图像越灵敏，允许的量化越小。

图2表示根据一些实施例的视觉优化量化的方法的示例性流程图。在步骤202中，进行任意块变换200的基函数(诸如，MDDT基函数)的DCT以确定频率权重204。然后，在步骤206中应用视觉加权。视觉加权包括针对每个频率分量计算各自的CSF函数。视觉加权还包括误差合并。然后，量化矩阵与总体效应成反比208。在一些实施例中，包括更少的步骤或另外的步骤。

图3表示根据一些实施例的构造为实现视觉优化量化的示例性计算装置300的方框图。计算装置300能够用于处理信息（诸如图像和视频）。例如，计算装置300能够使用视觉优化量化对视频编码。通常，适合实现计算装置300的硬件结构包括网络接口302、存储器304、处理器306、I/O装置308、总线310和存储装置312。处理器的选择并不重要，只要选择具有足够的速度的合适处理器即可。存储器304能够是本领域已知的任何常规计算机存储器。存储装置312能够包括硬盘驱动器、CDROM、CDRW、DVD、DVDRW、蓝光盘TM、闪存卡或任何其它存储装置。计算装置300能够包括一个或多个网络接口302。网络接口的例子包括连接到以太网或其它类型的LAN的网卡。一个或多个I/O装置308能够包括下面各种装置中的一种或多种：键盘、鼠标、监视器、显示器、打印机、调制解调器、触摸屏、按钮接口和其它装置。用于执行视觉优化量化的一个或多个视觉优化量化应用330可能被存储在存储装置312和存储器304中，并且像通常处理应用那样被处理。比图3中示出的部件多或少的部件能够被包括在计算装置300中。在一些实施例中，包括视觉优化量化硬件320。虽然图3中的计算装置300包括用于实现视觉优化量化的应用330和硬件320，但能够以硬件、固件、软件或它们的任何组合在计算装置上实现视觉优化量化。

在一些实施例中，视觉优化量化应用330包括几个应用和/或模块。在一些实施例中，视觉优化量化应用330包括诸如以下模块：DCT模块，用于进行任意块变换(诸如，依赖于模式的方向变换)的基函数的离散余弦变换以确定频率权重；CSF模块，用于针对每个频率分量计算各自的对比灵敏度函数；误差合并，用于使用误差合并计算畸变的总体效应；和量化矩阵，用于使用误差合并产生量化矩阵。在一些实施例中，能够包括更少的模块和/或子模块或者另外的模块和/或子模块。

合适的计算装置的例子包括：个人计算机、膝上型计算机、计算机工作站、服务器、大型计算机、手提式计算机、个人数字助理、蜂窝电话/移动电话、智能家电、游戏控制台、数字照相机、数字摄录机、照相机电话、

视频播放器、DVD记录器/播放器、蓝光记录器/播放器、电视、家庭娱乐系统或任何其它合适的计算装置。

图4表示宏块的视频编码层400的方框图。视频编码层400(例如，编码器)包括时间和空间预测以及变换编码的组合。输入视频402被接收并被分成多个块。序列的第一画面通常被仅使用自身所包含的信息进行“帧内”编码。然后使用在空间上相邻的以前编码的块的样本在帧内预测模块410中预测帧内帧中的块的每个部分。编码处理选择使用哪些相邻样本进行帧内预测以及如何使用它们。在本地解码器418以及在编码器400执行这项处理。对于序列的其余的画面，通常使用“帧间”编码。帧间编码从其它以前解码的画面实现运动补偿412。在运动估计模块414的用于帧间预测/运动估计的编码处理包括：选择运动数据，确定参考画面和应用于块的所有样本的空间位移。运动数据被作为边信息传输，该边信息由编码器400和本地解码器418使用。

原始块和预测块之差被称为预测的残差。对残差进行变换，并且在变换和缩放量化模块404对变换系数进行缩放和量化。如本文所述，实现视觉优化量化。使用整数变换对每个块进行变换，并且使用熵编码方法对变换系数进行量化和传输。熵编码器416针对除量化的变换系数之外的所有元素使用码字集合。对于量化的变换系数，使用上下文自适应可变长度编码(CAVLC)或上下文自适应二进制算术编码(CABAC)。实现解块滤波器408以控制滤波的强度从而降低图像的块效应。

编码器400还包含本地解码器418以产生用于下一个块的预测参考。量化的变换系数被以与编码器侧相同的方式进行逆缩放和逆变换406，这给出解码的预测残差。解码的预测残差被添加到预测，并且该组合被引导至解块滤波器408，解块滤波器408提供解码的视频作为输出。最终，熵编码器416产生原始输入视频402的压缩视频比特420。

为了使用视觉优化量化，诸如数字照相机或摄录机的装置被用于获取场景的图像或视频。视觉优化量化被自动执行。视觉优化量化还能够在获取图像之后被实现以执行获取后处理。

在操作中，视觉优化量化用于基于块的变换。压缩方法包括下面的处理：进行MDDT的离散余弦变换，获得频率权重，并针对每个频率分量计算对比灵敏度函数。通过误差合并计算畸变的总体效应，并且量化矩阵与该总体效应成反比。通过实现视觉优化量化，提高了压缩效率。

视觉优化量化的一些实施例

1.一种执行优化量化的方法，所述优化量化被编程到装置的存储器中，该方法包括：

a.进行任意块变换的基函数的离散余弦变换以确定频率分量的频率权重；

b.针对每个频率分量计算各自的对比灵敏度函数；

c.使用误差合并计算频率分量的畸变的总体效应；以及

d.使用误差合并的总体效应产生量化矩阵。

2.如第1项所述的方法，其中所述任意块变换是依赖于模式的方向变换。

3.如第1项所述的方法，其中所述量化矩阵在图像的压缩期间被应用于图像。

4.如第1项所述的方法，其中所述对比灵敏度函数包括一维对比灵敏度函数。

5.如第1项所述的方法，其中所述对比灵敏度函数包括二维对比灵敏度函数。

6.如第1项所述的方法，其中使用阈值计算对比灵敏度函数。

7.如第1项所述的方法，其中从包括下面各项的组选择所述装置：个人计算机、膝上型计算机、计算机工作站、服务器、大型计算机、手持式计算机、个人数字助理、蜂窝/移动电话、智能家电、游戏控制台、数字照相机、数字摄录机、照相机电话、iPhone、

视频播放器、DVD记录器/播放器、蓝光

记录器/播放器、电视和家庭娱乐系统。

8.一种用于执行优化量化的系统，所述优化量化被编程到装置的存储器中，该系统包括：

a.离散余弦变换模块，用于进行任意块变换的基函数的离散余弦变换以确定频率分量的频率权重；

b.对比灵敏度函数模块，用于针对每个频率分量计算各自的对比灵敏度函数；

c.误差合并模块，用于使用误差合并计算频率分量的畸变的总体效应；以及

d.量化矩阵模块，用于使用误差合并的总体效应产生量化矩阵。

9.如第8项所述的系统，其中所述任意块变换是依赖于模式的方向变换。

10.如第8项所述的系统，其中所述量化矩阵在图像的压缩期间被应用于图像。

11.如第8项所述的系统，其中所述对比灵敏度函数包括一维对比灵敏度函数。

12.如第8项所述的系统，其中所述对比灵敏度函数包括二维对比灵敏度函数。

13.如第8项所述的系统，其中使用阈值计算对比灵敏度函数。

14.如第8项所述的系统，其中从包括下面各项的组选择所述装置：个人计算机、膝上型计算机、计算机工作站、服务器、大型计算机、手持式计算机、个人数字助理、蜂窝/移动电话、智能家电、游戏控制台、数字照相机、数字摄录机、照相机电话、iPhone、

视频播放器、DVD记录器/播放器、蓝光

记录器/播放器、电视和家庭娱乐系统。

15.一种照相机装置，包括：

a.图像获取部件，用于获取图像；

b.处理部件，用于通过下述步骤处理图像：

i.进行任意块变换的基函数的离散余弦变换以确定频率分量的频率权重；

ii.针对每个频率分量计算各自的对比灵敏度函数；

iii.使用误差合并计算频率分量的畸变的总体效应；以及

iv.使用误差合并的总体效应产生量化矩阵；和

c.存储器，用于存储经过处理的图像。

16.如第15项所述的照相机装置，其中所述任意块变换是依赖于模式的方向变换。

17.如第15项所述的照相机装置，其中所述量化矩阵在图像的压缩期间被应用于图像。

18.如第15项所述的照相机装置，其中所述对比灵敏度函数包括一维对比灵敏度函数。

19.如第15项所述的照相机装置，其中所述对比灵敏度函数包括二维对比灵敏度函数。

20.如第15项所述的照相机装置，其中使用阈值计算对比灵敏度函数。

21.一种编码器，包括：

a.帧内编码模块，用于仅使用来自图像的信息对该图像编码；

b.帧间编码模块，用于使用来自以前重建的图像的信息对图像编码；和

c.在帧内编码或帧间编码中，如果采用的块变换不同于离散余弦变换，则应用视觉优化量化，包括用于下述步骤的量化部件：

ii.针对每个频率分量计算各自的对比灵敏度函数；

iii.使用误差合并计算频率分量的畸变的总体效应；以及

iv.使用误差合并的总体效应产生量化矩阵。

22.如第21项所述的编码器，其中所述任意块变换是依赖于模式的方向变换。

23.如第21项所述的编码器，其中所述量化矩阵在图像的压缩期间被应用于图像。

24.如第21项所述的编码器，其中所述对比灵敏度函数包括一维对比灵敏度函数。

25.如第21项所述的编码器，其中所述对比灵敏度函数包括二维对比灵敏度函数。

26.如第21项所述的编码器，其中使用阈值计算对比灵敏度函数。

根据包括细节的特定实施例描述了本发明以方便理解本发明的构造和操作的原理。在这里的这种对特定实施例及其细节的参照并非意图把所附权利要求的范围限制于此。对于本领域技术人员而言，很容易地将会清楚的是，在不脱离由权利要求定义的本发明的精神和范围的情况下，可在为了说明而选择的实施例中做出其它各种修改。

Claims

b.针对每个频率分量计算各自的对比灵敏度函数；

c.使用误差合并计算频率分量的畸变的总体效应；以及

d.使用误差合并的总体效应产生量化矩阵。

2.如权利要求1所述的方法，其中所述任意块变换是依赖于模式的方向变换。

3.如权利要求1所述的方法，其中所述量化矩阵在图像的压缩期间被应用于图像。

4.如权利要求1所述的方法，其中所述对比灵敏度函数包括一维对比灵敏度函数。

5.如权利要求1所述的方法，其中所述对比灵敏度函数包括二维对比灵敏度函数。

6.如权利要求1所述的方法，其中使用阈值计算对比灵敏度函数。

7.如权利要求1所述的方法，其中从包括下面各项的组选择所述装置：个人计算机、膝上型计算机、计算机工作站、服务器、大型计算机、手持式计算机、个人数字助理、蜂窝/移动电话、智能家电、游戏控制台、数字照相机、数字摄录机、照相机电话、iPhone、视频播放器、DVD记录器/播放器、蓝光

记录器/播放器、电视和家庭娱乐系统。

9.如权利要求8所述的系统，其中所述任意块变换是依赖于模式的方向变换。

10.如权利要求8所述的系统，其中所述量化矩阵在图像的压缩期间被应用于图像。

11.如权利要求8所述的系统，其中所述对比灵敏度函数包括一维对比灵敏度函数。

12.如权利要求8所述的系统，其中所述对比灵敏度函数包括二维对比灵敏度函数。

13.如权利要求8所述的系统，其中使用阈值计算对比灵敏度函数。

14.如权利要求8所述的系统，其中从包括下面各项的组选择所述装置：个人计算机、膝上型计算机、计算机工作站、服务器、大型计算机、手持式计算机、个人数字助理、蜂窝/移动电话、智能家电、游戏控制台、数字照相机、数字摄录机、照相机电话、iPhone、

视频播放器、DVD记录器/播放器、蓝光

记录器/播放器、电视和家庭娱乐系统。

15.一种照相机装置，包括：

a.图像获取部件，用于获取图像；

b.处理部件，用于通过下述步骤处理图像：

ii.针对每个频率分量计算各自的对比灵敏度函数；

iii.使用误差合并计算频率分量的畸变的总体效应；以及

iv.使用误差合并的总体效应产生量化矩阵；和

c.存储器，用于存储经过处理的图像。

16.如权利要求15所述的照相机装置，其中所述任意块变换是依赖于模式的方向变换。

17.如权利要求15所述的照相机装置，其中所述量化矩阵在图像的压缩期间被应用于图像。

18.如权利要求15所述的照相机装置，其中所述对比灵敏度函数包括一维对比灵敏度函数。

19.如权利要求15所述的照相机装置，其中所述对比灵敏度函数包括二维对比灵敏度函数。

20.如权利要求15所述的照相机装置，其中使用阈值计算对比灵敏度函数。

21.一种编码器，包括：

ii.针对每个频率分量计算各自的对比灵敏度函数；

iii.使用误差合并计算频率分量的畸变的总体效应；以及

iv.使用误差合并的总体效应产生量化矩阵。

22.如权利要求21所述的编码器，其中所述任意块变换是依赖于模式的方向变换。

23.如权利要求21所述的编码器，其中所述量化矩阵在图像的压缩期间被应用于图像。

24.如权利要求21所述的编码器，其中所述对比灵敏度函数包括一维对比灵敏度函数。

25.如权利要求21所述的编码器，其中所述对比灵敏度函数包括二维对比灵敏度函数。

26.如权利要求21所述的编码器，其中使用阈值计算对比灵敏度函数。