CN101507284B

CN101507284B - 用于对视频颜色增强数据进行编码的方法和设备，以及用于对视频颜色增强数据进行解码的方法和设备

Info

Publication number: CN101507284B
Application number: CN2006800553696A
Authority: CN
Inventors: 高永英; 武宇文; 陈颖
Original assignee: Thomson Licensing SAS
Current assignee: InterDigital VC Holdings Inc
Priority date: 2006-07-17
Filing date: 2006-07-17
Publication date: 2012-06-27
Anticipated expiration: 2026-07-17
Also published as: EP2041983B1; US20090285283A1; CN101507284A; WO2008019524A1; KR101196975B1; JP2009544198A; US8761249B2; KR20090052849A; EP2041983A4; DE602006019006D1; JP4991851B2; EP2041983A1

Abstract

越来越多地使用优于传统的8比特颜色深度的可见亮度和对比度的高精度重现，促进了被称作高比特深度的增强动态范围的发展。本发明提供了一种编码方法，用于对M比特RGB像素的第一低比特深度视频图像(IM_BL)和N比特RGB像素的第二高比特深度视频图像(IM_EL)进行编码，M＜N，其中，第一和第二视频图像具有相同的空间分辨率，所述编码方法包括：基于第一和第二视频图像的颜色直方图(Hist_BL，Hist_EL)产生第一转换函数(LUT_inter)；基于第一转换函数(LUT_inter)产生第二转换函数(LUT_final)；将第二转换函数(LUT_final)应用(TR)到第一视频图像，其中，产生变换的第一视频图像(IM_TR，BL)；对残差(IM_res)f进行计算并编码；对第一视频图像(IM_BL)进行编码；以及发送编码的第一视频图像(IM_BL)、第二转换函数(LUT_final)和编码的差值。

Description

用于对视频颜色增强数据进行编码的方法和设备,以及用于对视频颜色增强数据进行解码的方法和设备

技术领域

本发明涉及一种用于对视频颜色增强数据进行编码的方法和设备，本发明还涉及一种用于对视频颜色增强数据进行解码的方法和设备。

背景技术

近年来，优于传统的8比特颜色深度的可见亮度和对比度的高精度重现逐渐使用在诸如医学成像、高质量支持视频的计算机游戏和专业摄影室等许多领域以及家庭影院相关应用中。该处理促进了增强动态范围(为了便于与传统8比特颜色深度相比较，这里被称作高比特深度)的发展。与为捕获和显示设备产生极高像素分辨率的电子传感器、处理器和存储器件的发展对比，数字成像系统的颜色功能进展缓慢。自第一代数字化可视内容的出现起，8比特颜色深度成为捕获和显示设备的主要技术。

考虑到未来相当长时间内标准8比特和更高比特数字成像系统将同时存在于消费者市场的事实，颜色比特深度可扩展性是有益的。不同的颜色比特深度对于例如多媒体内容传送期间的终端显示设备尤为重要。

发明内容

本发明提供了一种用于实现视频颜色空间可扩展性的方法和设备。根据本发明的一个方面，提供了一种用于对颜色增强层进行编码的方法和设备，该方法和设备有差别地对该颜色增强层进行编码。本发明的另一方面是一种用于对视频信号进行解码来获得传统颜色比特深度图像或增强颜色比特深度图像的方法和设备。

原则上，本发明的编码方面包括以下步骤：产生转换函数，例如以适于建立输入颜色值到输出颜色值的映射的查找表(LUT)的形式，该输入颜色值和输出颜色值均包括2^M种不同颜色；向具有较低或传统颜色比特深度的第一视频图像应用转换函数；在转换后的视频图像和具有较高颜色比特深度(N比特，N＞M；但与第一视频图像的空间分辨率相同)的第二视频图像之间产生差值图像或残差；并且对残差进行编码。然后，将编码后的第一视频图像、转换函数的参数(例如，LUT本身)和编码后的残差发送到接收机。也可以对转换函数的参数进行编码。另外，也如此表示转换函数的参数。

第一和第二图像可以分别视作颜色基本层和颜色增强层。

特别地，可以通过将第一和第二视频图像的颜色直方图进行比较来获得转换函数，为此，将具有2^M个bin的第一图像的颜色直方图变换成具有2^N个bin(N＞M)的“平滑”颜色直方图，并且从平滑的直方图和定义了平滑的颜色直方图的值和颜色增强层直方图的值之间的变换的颜色增强层直方图来确定转换函数。针对红、绿和蓝基本显示颜色来分别进行所述过程。

根据本发明的解码方面，一种用于解码的方法包括：从比特流中提取第一和第二视频图像的视频数据，提取颜色增强控制数据，还对第一视频图像进行解码和重建，其中，获得具有各为M比特的颜色像素值的重建的第一视频图像，并且从颜色增强控制数据中重建实现转换函数的映射表。然后，将该映射表应用到重建的第一视频图像的每一个像素，产生的变换视频图像作为预测图像，随后利用解码的第二视频图像对该预测图像进行更新。解码的第二视频图像是残差图像，并且更新产生了具有各为N比特(N＞M)的像素的增强视频图像，并因此产生比重建的第一视频图像更高的颜色空间。

针对红、绿和蓝基本视频颜色分别执行上述步骤。因此，完整的视频信号可以包括：针对每一幅图像的编码的低颜色分辨率图像，以及针对这些颜色中每一项的残差图像和转换函数的参数，上述均用于产生更高颜色分辨率图像。有利地，基于原始视频图像的R-G-B值来执行产生转换函数和残差图像，因此产生转换函数和残差图像独立于进一步的视频编码。因此，然后可以使用任何传统编码对低颜色分辨率图像进行编码，例如根据MPEG或JVT标准(AVC、SVC等)。同样，在解码端，基于传统解码来执行颜色增强，因此独立于编码格式进行解码。

因此，具有比特深度显示功能的设备(例如，8比特显示器)仅需要对具有较低颜色比特深度的颜色基本层进行解码，而具有增强颜色比特深度显示功能的高级设备(例如，12比特显示器)还可以对颜色增强层和红、绿和蓝的变换表进行解码，并产生具有完全颜色空间应用的图像。

本发明涉及一种新型的视频可扩展性(即，颜色比特深度可扩展性)，并且提供了一种颜色比特深度预测解决方案，可以应用在颜色比特深度可缩放的编解码器的中间层预测以提高编码效率。使用转换函数来在产生残差图像之前产生预测图像的优点在于，由于预测图像更加匹配相应的颜色增强层图像，因此编码更加有效。例如，由颜色基本层中8比特值9A_hex描述的特定绿色值可以映射到颜色增强层中16种不同的12比特颜色值(从9A0_hex到9AF_hex)。尽管在一个图像中这16个值中的一个可以在颜色增强层中起主导作用，其可以是其他图像的其他值。因此，本发明实现了颜色增强层的优化编码。

在从属权利要求、以下说明书和附图中公开了本发明的有利实施例。

附图说明

参照附图对本发明的示例性实施例进行描述，附图中

图1是颜色比特深度可伸缩视频编码和解码的结构；

图2是编码处理的流程图；

图3是平滑直方图规范的流程图；

图4是直方图平滑的示例；

图5是解码处理的流程图；以及

图6是完整增强层解码器的概要。

具体实施方式

图1示出了颜色比特深度可伸缩视频编码和解码的总体结构。编码器ENC以M比特的传统颜色分辨率和N比特(N＞M)的增强颜色分辨率对每一幅视频图像接收两次。不同于产生两个独立分离的视频流，而是产生颜色基本层和颜色增强层，其中颜色增强层依赖于颜色基本层。如图1所示，在编码器和解码器中执行中间层预测，用于预测更高比特深度的颜色。

图1中的基本层编码器方框包含所有传统编码步骤，例如任意空间和/或时间冗余度缩减技术，例如产生分离的亮度和色度值、DCT变换等。在解码器端，基本层解码器执行相应的解码。“基本层”和“增强层”仅指颜色比特深度。有利地，任何视频编码和解码方法可以独立于本发明所实现的颜色增强处理而用于基本层。基本层解码器的输出适于传统显示设备，而增强层解码器的输出适于能够针对红、绿和蓝部分图像中的每一项显示2^N(N＞M)个不同的颜色值的高质量显示器。如果M例如为8，则N的示例为10、12或16比特，而原则上可以实现M和N(N＞M)的所有组合。诸如质量可扩展性、空间可扩展性和时域可扩展性、中间层预测等类似的其他类型的可扩展性显著影响编码效率。

本发明提出了一种基于平滑直方图规范的颜色比特深度预测的空间均匀方法。考虑描述相同场景的两幅图像。对于这两幅图像，相应的像素(这里“相应的像素”表示分别属于两幅图像但在图像坐标系统中具有相同坐标的两个像素)指出相同的场景位置。相应的像素之间的唯一不同是颜色比特深度。假设利用M比特长度的码字对一副图像的每一种颜色进行编码，而利用N比特长度的码字对其他图像进行编码，其中M＜N。遵照使预测N比特图像和原始N比特图像之间的差值最小化的准则，逆颜色映射的任务是从M比特图像中产生N比特图像的预测版本。可以通过例如被广泛接受并使用在视频压缩领域的PSNR的任意方法来测量预测的N比特图像和原始N比特图像之间的差值。另外，在这种情况下，最重要的方面是预测图像如何有效地用于随后的残差数据压缩，而不是预测图像看起来是什么样子的。

图2示出了本发明一个实施例的总体编码过程。使用实现映射函数的查找表LUT_final对基本层图像IM_BL进行变换TR。变换TR的结果是变换的基本层图像IM_TR，BL。查找表LUT_final从另一中间查找表LUT_inter产生，该中间查找表LUT_inter从基本层图像(优选地，重建的基本层图像)的颜色直方图、和增强层图像的颜色直方图产生。由于这些图像的不同颜色分辨率，这些图像的颜色直方图不仅具有不同数量的bin(一个bin用于每一个可能的颜色)，而且针对每一种基本层颜色、和序列的每一幅图像，分布在增强层图像的bin之间的值也可以不同。例如，如果基本层具有M比特并且增强层具有N比特，基本层直方图的每一个bin与增强层直方图的2^N-M个bin相对应，即每一个基本层像素值将按照惯例用来预测2^N-M个像素值中的一个。通过考虑两幅图像的颜色直方图可以优化这种预测。如下所述，中间查找表LUT_inter实现了描述增强层图像的颜色直方图Hist_EL和从基本层图像IM_BL产生的颜色直方图SmHist_BL之间的变换的直方图转换函数。

变换的基本层图像IM_TR，BL用于预测增强层图像IM_EL，计算差值或残差Δ，编码的IM_res并发送，所有这些处理分别用于R、G和B。

图3示出了提出的空间均匀逆颜色映射的细节。为了更好的理解，将基本层(M比特)图像命名为“输入图像”NI，而增强层(N比特)图像被重新命名为“期望图像”DI。一个基本思想是将直方图规范¹(¹R.C.Gonzalez and R.E.Woods，“Digital image processing”，2^ndedition，pp.94-102，Prentice Hall，2002)的算法应用到NI和DI。产生查找表来转换NI，从而使其具有如DI的直方图规定的特定直方图。

然而，当对颜色比特深度预测采用经典直方图规范时，存在两个主要缺陷。首先，由于直方图具有离散值，因此转换的NI不能具有与DI完全相同的直方图。相反，转换的NI的直方图近似于DI的直方图。其次，两个直方图的不同bin大小(由不同比特深度所引起)破坏了它们之间的匹配(bin大小表示每一个颜色分量的级的数目，例如，8比特图像的bin大小为256)。这是经考虑的颜色比特深度预测中的特定缺陷。例如，在NI是DI简单比特移位的情况下，通过直方图规范获得的转换NI的PSNR通常低于通过简单逆比特移位获得的转换NI的PSNR。

为了克服这些缺陷，提出在规范NI的直方图之前将其“平滑”。平滑的直方图SmHist_BL具有与DI的直方图Hist_EL相同的bin大小，DI的直方图Hist_EL充当直方图规范处理的期望直方图。将经典直方图规范算法应用到平滑直方图和期望直方图上。最后，执行被称作“概率映射”的后处理来获得LUT。图3示出了平滑的直方图规范的流程图。p_x(x_k)，k＝0，1，…，2^M-1表示NI的直方图Hist_BL，通过p_z(z_k)，k＝0，1，…2^N-1描述DI的直方图Hist_EL。

在图3中，对于低比特(M比特)图像NI，一个颜色通道的直方图是p_x＝(x)。通过使用方程(5)来平滑该直方图，并且产生具有与高比特(N比特)图像DI的直方图相同的bin大小的平滑直方图p_x′(x)。累加该值，从而产生s_k(对于图3的示例，k＝1，...，16)。可以将s_k表示为函数F(x_k′)。高比特(N比特)图像DI具有相同颜色通道的直方图P_z(z)，累积该直方图p_z(z)来产生v_k(k与如上所述的k相同)。可以将v_k表示为函数G(z_k)。然后，确定分布v_j，针对s_k的每一值(从高比特图像DI的v_k值)给出最佳匹配值v_l。该分布v_j建立从值s_k(因此x_k′)到值v_k的变换，并且是变换G的逆。

以下，对直方图平滑的处理进行描述。直方图平滑的目的是“拉伸(stretch)”输入直方图，从而使其具有与期望直方图相同的bin大小。这是直方图规范处理的必备条件。以下为图3中的表示，p_x(x_k)的值均匀分布到相应的范围[x_k′，x_k′+1，…x_k′+2^(N-M)-1]中，如方程(5)所示：

为了确保“均匀分布”，使用非归一化的直方图。图4中示出了平滑直方图的简单示例。图4a)示出了具有2比特的颜色比特深度的基本层输入图像的颜色直方图，即，特定颜色(例如，红色)的2²＝4个可能颜色值。直方图平滑处理将直方图“拉伸”到4比特颜色比特深度，即2⁴＝16个可能的颜色值。输入图像的单个bin中的值的数目是具有该特定颜色值的输入图像之内的像素数目，例如，与值0相对应的最左边的值40表示具有值为0的“红色”(在该直方图中指“红”色)的输入图像的40个像素。平滑处理将这些值分布到平滑直方图的2^N-M个相应的bin。在该示例中，根据2^N-M＝4，平滑直方图的前4个bin与原始直方图的第一个bin相对应。如图4b)所示，根据方程(5)，原始直方图的值40被平均地分布到平滑直方图的4个相应的bin。

平滑的思想在于，提高了输入直方图的连续性，从而直方图规范将更加有效。详细地，将图3中所示的方程(1)、(2)和(4)的可选描述成连续的灰度图像：

s = F (x) = {&Integral;}_{0}^{x} p_{x} (u) du - - - (1^{'})

v = G (z) = {&Integral;}_{0}^{z} p_{z} (w) dw - - - (2^{'})

y＝G^-1(s)＝G^-1[F(x)](4′)

在连续灰度级的情况下，可以将输入直方图规范为与期望的直方图完全相同。然而，如上所述，对于离散灰度级，仅可以实现近似期望的直方图。此外，由于灰度级的数目接近无穷，因此近似接近精确匹配。因此，理论上，平滑过程等同于在输入直方图的离散化期间增加采样率，平滑过程优于具有不同bin大小的两个直方图之间的直接直方图规范。

平滑直方图仅是该算法中的中间步骤。不存在与其相对应的图像。

以下对概率映射处理进行描述。一旦已经将经典直方图规范算法应用到平滑直方图p_x′(x)和期望直方图p_z(z)，就产生中间LUTy_k′＝LUT_inter(x_k′)。下个问题是从其相应范围x_k′，x_k′+1，…，x_k′+2^(N-M)-1]的多个映射值中选择唯一映射值x_k。示例地，提出了两种不同准则作为概率映射的准则，如等式(6)和(7)所示：

y_{k} = {\arg \max}_{y_{l}^{'}} {p_{z} (y_{l}^{'}), y_{l}^{'} = {LUT}_{inter} (x_{l}^{'}), x_{l}^{'} &Element; [x_{k}^{'}, x_{k}^{'} + 1, \cdot \cdot \cdot, x_{k}^{'} + 2^{(N - M)} - 1]} - - - (6)

其中，y_k是映射值x_k。产生最终LUTy_k＝LUT_final(x_k)来将原始直方图映射到期望直方图，其中，k＝0，1，…，2^M-1，y_k∈{z_l，l＝0，1，…，2^N-1}。

方程(6)表示，在与x_k相对应的2^N-M个值之间，选择在期望直方图P_z(y₁′)中具有最大值的一个值。

方程(7)表示，在与x_k相对应的2^N-M个值之间，使用小于或等于其平均值的最接近的整数作为最终的映射值。

由于LUT_inter将输入图像的平滑直方图映射到期望图像的直方图，因此LUT_inter是“一对一”映射。然而，如果考虑输入图像的直接直方图，可以看到每一个x_k与2^N-M个值相对应。“概率映射”的任务是仅从2^N-M个值中选择一个值作为最终映射值x_k。因此，LUT_final仍旧是“一对一”映射：将每一个值x_k映射到一个值y_k。LUT的映射是可逆的，这是因为期望图像的全部值(2^N)中仅2^M个值具有相应的x_k。

当将上述算法应用到输入图像和期望图像时，计算两幅图像的直方图。然后，平滑输入直方图，产生“平滑直方图”。在保留步骤(经典直方图规范和概率映射)完成之后，产生最终LUT来将输入直方图的级映射到期望直方图的级。然后，通过将LUT应用到输入图像的每一个像素来产生预测图像。

图6示出了具有针对R、G和B图像的分离分支的完整增强层编码器的概述。对基本层进行传统编码。

本发明可用于视频编码器和视频解码器，并且特别可用于对颜色基本层和具有最优效率的相同空间分辨率的颜色增强层进行编码/解码。

Claims

1.一种用于对第一视频图像(IM_BL)和第二视频图像(IM_EL)进行编码的方法，第一视频图像(IM_BL)包括各具有M比特的RGB像素值，第二视频图像(IM_EL)包括各具有N比特的RGB像素值，M＜N，其中，第一和第二视频图像的相应的像素之间的唯一不同是颜色比特深度，所述方法包括以下步骤：

-产生第一转换函数(LUT_inter)，所述第一转换函数(LUT_inter)具有2^N个可能的输入值并基于第一和第二视频图像的颜色直方图(Hist_BL，Hist_EL)；

-基于第一转换函数(LUT_inter)产生第二转换函数(LUT_final)，其中，第二转换函数具有2^M个可能的输入值并包括将其每一个输入值映射到第一转换函数的2^(N-M)个相应值之一的函数；

-将第二转换函数(LUT_final)应用(TR)到第一视频图像，其中，第二转换函数用于映射像素，并且产生变换的第一视频图像(IM_TR，BL)；

-计算变换的第一视频图像(IM_TR，BL)和第二视频图像(IM_EL)之间的差值(IM_res)；

-对差值(IM_res)进行编码；

-对第一视频图像(IM_BL)进行编码；以及

-发送编码的第一视频图像(IM_BL)、第二转换函数(LUT_final)和编码的差值(IM_res)；

其中，产生第一转换函数(LUT_inter)的步骤包括以下步骤：

-产生第一视频图像的第一颜色直方图(Hist_BL)，所述第一颜色直方图具有2^M个bin；

-产生第二视频图像的第二颜色直方图(Hist_EL)，所述第二颜色直方图具有2^N个bin；以及

-从第一颜色直方图(Hist_BL)产生(sm)具有2^N个bin的平滑颜色直方图(SmHist_BL)，其中，将第一直方图的每一个bin的值分布到2^N-M个bin中，并且第一转换函数(LUT_inter)定义了平滑颜色直方图(SmHist_BL)和第二颜色直方图(Hist_EL)之间的转换。

2.根据权利要求1的方法，其中，在应用(TR)第二转换函数的步骤中所述第一视频图像是重建的第一视频图像，以及/或者在产生第一转换函数(LUT_inter)的步骤中所述第一视频图像是重建的第一视频图像。

3.根据权利要求1或2的方法，其中，用于将第二转换函数(LUT_final)的每一个输入值映射到第一转换函数的2^(N-M)个相应值之一的函数是概率映射(pm)函数。

4.根据权利要求3的方法，其中，概率映射函数针对第二转换函数的2^M个值中的每一个从第一转换函数的2^N-M个相应值中选择一个值，所选值是第二直方图(Hist_EL)中的最大值。

5.根据权利要求3的方法，其中，概率映射函数针对第二转换函数的2^M个值中的每一个从第一转换函数的2^N-M个相应值中选择一个值，所选值是小于或等于所述2^N-M个相应值的平均值的最接近的整数。

6.一种对第一视频图像(IM_BL)和第二视频图像(IM_EL)进行编码的设备，第一视频图像(IM_BL)包括各具有M比特的RGB像素值，第二视频图像(IM_EL)包括各自具有N比特的RGB像素值，M＜N，其中，第一和第二视频图像的相应的像素之间的唯一不同是颜色比特深度，所述设备包括：

-用于产生第一转换函数(LUT_inter)的装置，所述第一转换函数(LUT_inter)具有2^N个可能的输入值并基于第一和第二视频图像的颜色直方图(Hist_BL，Hist_EL)；

-用于基于第一转换函数(LUT_inter)产生第二转换函数(LUT_final)的装置，其中，第二转换函数具有2^M个可能的输入值，并包括将其每一个输入值映射到第一转换函数的2^(N-M)个相应值之一的函数；

-用于将第二转换函数(LUT_final)应用(TR)到第一视频图像的装置，其中，第二转换函数用于映射像素，并且产生变换的第一视频图像(IM_TR，BL)；

-用于计算变换的第一视频图像(IM_TR，BL)和第二视频图像(IM_EL)之间的差值(IM_res)的装置；

-用于对差值(IM_res)进行编码的装置；

-用于对第一视频图像(IM_BL)进行编码的装置；以及

-用于发送编码的第一视频图像(IM_BL)、第二转换函数(LUT_final)和编码的差值(IM_res)的装置；

其中，用于产生第一转换函数(LUT_inter)的装置包括：

-用于产生第一视频图像的第一颜色直方图(Hist_BL)的装置，所述第一颜色直方图具有2^M个bin；

-用于产生第二视频图像的第二颜色直方图(Hist_EL)的装置，所述第二颜色直方图具有2^N个bin；以及

-用于从第一颜色直方图(Hist_BL)产生(sm)具有2^N个bin的平滑颜色直方图(SmHist_BL)的装置，其中，将第一直方图的每一个bin的值分布到2^N-M个bin中，并且第一转换函数(LUT_inter)定义了平滑颜色直方图(SmHist_BL)和第二颜色直方图(Hist_EL)之间的转换。