CN109068139A

CN109068139A - 用于环内转换的方法、装置和计算机可读存储介质

Info

Publication number: CN109068139A
Application number: CN201810948829.2A
Authority: CN
Inventors: 苏冠铭
Original assignee: Dolby Laboratories Licensing Corp
Current assignee: Dolby Laboratories Licensing Corp
Priority date: 2015-04-06
Filing date: 2016-03-30
Publication date: 2018-12-21
Anticipated expiration: 2036-03-30
Also published as: CN107439012B; CN107439012A; US10015491B2; WO2016164235A1; EP3281409B1; EP3281409A1; JP2018514145A; JP6383116B2; US20180124399A1; CN109068139B

Abstract

本公开内容涉及一种用于环内转换的方法、装置和计算机可读存储介质。使用高位深度缓存器来存储输入数据和先前解码的参考数据，前向环内再成形函数和后向环内再成形函数允许在低于输入位深度的目标位深度处执行视频编码和解码。还提出了用于对再成形函数进行聚类以减少数据开销的方法。

Description

用于环内转换的方法、装置和计算机可读存储介质

本申请为于2017年9月30日提交、申请号为201680020406.3、发明名称为“高动态范围视频编码中的在环且基于块的图像再成形”的中国专利申请的分案申请。所述母案申请的国际申请日为2016年3月30日，国际申请号为PCT/US2016/025082。

相关申请的交叉引用

本申请要求于2015年4月6日提交的美国临时专利申请第62/143,478号的优先权，其全部内容通过引用并入本文。

技术领域

本发明一般涉及图像。更具体地，本发明的实施方式涉及用于具有高动态范围的图像和视频序列的环内且基于块的图像再成形。

背景技术

如本文所使用的，术语“动态范围”(DR)可以涉及人类视觉系统(HVS)感知图像中例如从最黑暗的暗(黑色)到最明亮的亮(白色)的强度范围(例如，发光度、亮度)的能力。在这个意义上，DR涉及“参考场景”的强度。DR还可以涉及显示装置充分地或近似地渲染特定宽度的强度范围的能力。在这个意义上，DR涉及“参考显示”的强度。除非特定含义在本文的描述中的任何点处明确地被指定为具有特定意义，否则应当推断该术语可以在任何意义上例如可互换地使用。

如本文所使用的，术语“高动态范围(HDR)”涉及跨越人类视觉系统(HVS)的大约14至15个数量级的DR宽度。在实践中，人类可以同时感知强度范围中的广泛宽度的DR可能会相对于HDR有所截短。如本文所使用的，术语“增强动态范围(EDR)”或“视觉动态范围(VDR)”可以单独或可互换地涉及由包括眼睛运动的人类视觉系统(HVS)在场景或图像内可感知的DR，从而允许跨场景或图像的一些光适应变化。如本文所使用的，EDR可以涉及跨越5至6个数量级的DR。因此，尽管相对于真实的参考场景的HDR有所变窄，但是EDR仍然表现出宽的DR宽度，并且也可以被称为HDR。

在实践中，图像包括一个或更多个颜色分量(例如，亮度Y以及色度Cb和Cr)，其中，每个颜色分量由每像素n位的精度(例如，n＝8)表示。使用线性亮度编码，其中，n≤8的图像(例如，颜色24位JPEG图像)被认为是标准动态范围的图像，而n>8的图像可以被认为是增强动态范围的图像。还可以使用高精度(例如，16位)浮点格式(诸如由工业光魔(IndustrialLight and Magic)开发的OpenEXR文件格式)来存储和分发EDR和HDR图像。

用于给定显示器的参考电光传递函数(EOTF)表征输入视频信号的颜色值(例如，亮度)之间的关系，以输出由显示器产生的屏幕颜色值(例如，屏幕亮度)。例如，ITURec.ITU-R BT.1886，“Reference electro-optical transfer function for flat paneldisplays used in HDTV studio production”(03/2011)——其全部内容通过引用包括在本文中——基于阴极射线管(CRT)的测量的特性定义了平板显示器的参考EOTF。给定视频流，关于其EOTF的信息通常作为元数据嵌入在位流中。如本文所使用的，术语“元数据”涉及作为编码位流的一部分而被发送的任意辅助信息，并且辅助解码器渲染解码图像。这样的元数据可以包括但不限于如本文所描述的颜色空间或色域(gamut)信息、参考显示参数和辅助信号参数。

大多数消费者的桌面显示器目前支持200cd/m²或尼特至300cd/m²或尼特的亮度。大多数消费者的HDTV范围从300尼特至500尼特，其中，新型号达到1000尼特(cd/m²)。因此，这样的常规显示器代表相对于HDR或EDR较低的动态范围(LDR)，也称为标准动态范围(SDR)。随着HDR内容的可用性由于捕获设备(例如，相机)和HDR显示器(例如，来自杜比实验室的PRM-4200专业参考监视器)两者的进步而增加，HDR内容可以被颜色分级并显示在支持更高的动态范围(例如，从1,000尼特到5,000尼特或更大)的HDR显示器上。可以使用支持高亮度能力(例如，0尼特至10,000尼特)的替选EOTF来定义这样的显示器。这样的EOTF的示例在SMPTE ST 2084:2014“High Dynamic Range EOTF of Mastering ReferenceDisplays”——其全部内容通过引用并入本文——中定义。通常，不限于此，本公开内容的方法涉及高于SDR的任意动态范围。如本发明人在此所理解的，期望用于视频编码中的高动态范围图像的自适应环内再成形的改进技术。

本部分中描述的方法是可以追求的方法，但不一定是先前已经设想或追求的方法。因此，除非另有说明，否则不应假设本部分中描述的任何方法仅仅因为包含在本部分中而成为现有技术。类似地，除非另有说明，否则不应假设在基于本部分的任何现有技术中已经认识到针对一个或更多个方法确定的问题。

发明内容

本发明的一方面涉及一种用于通过编码器在帧内编码中进行环内再成形的方法，该方法包括：访问位于输入位深度的输入图像；将输入图像划分成编码区域；以及对于位于输入位深度的输入图像的编码区域：针对编码区域选择前向再成形函数和后向再成形函数，其中，前向再成形函数被配置成将位于输入位深度的图像数据转换到目标位深度，其中，后向再成形函数被配置成将位于目标位深度的图像数据转换到输入位深度，并且其中，目标位深度低于或等于输入位深度；访问位于输入位深度的参考数据，参考数据是来自先前编码区域的像素数据；将前向再成形函数施加于编码区域的像素数据和参考数据，以生成位于目标位深度的第二编码区域像素数据和第二参考数据；基于第二参考数据和第二编码区域像素数据执行帧内预测，以生成预测像素数据；基于预测像素数据生成残差像素数据；使用编码器对残差像素数据进行编码，以生成位于目标位深度的编码位流；基于对编码位流的环内解码，使用编码器生成重构残差像素数据；以及将后向再成形函数施加于重构残差像素数据，以生成位于输入位深度的未来参考数据，未来参考数据被存储在帧缓存器中，以在未来编码区域的编码中用作参考数据。

本发明的另一方面涉及一种用于通过解码器在帧内编码中进行环内再成形的方法，该方法包括：访问位于编码位深度的编码位流；访问数据，数据表征编码位流中的一个或更多个编码区域的前向再成形函数和/或后向再成形函数，其中，前向再成形函数被配置成将位于输出位深度的图像数据转换到编码位深度，其中，后向再成形函数被配置成将位于编码位深度的图像数据转换到输出位深度，并且其中，编码位深度低于或等于输出位深度；对于编码位流中的编码区域：为编码区域分配前向再成形函数和后向再成形函数；访问位于输出位深度的参考数据，其中，输出位深度大于或等于编码位深度，参考数据是来自先前解码区域的像素数据；将前向再成形函数施加于参考数据，以生成位于编码位深度的第二参考数据；基于编码位流数据和第二参考数据，使用解码器中的帧内预测针对编码区域生成位于编码位深度的解码像素数据；以及将后向再成形函数施加于解码像素数据，以生成位于输出位深度的未来参考数据和输出数据，未来参考数据被存储在帧缓存器中，以在未来编码区域的解码中用作参考数据。

本发明的另一方面涉及一种设备，其包括处理器并且被配置成执行上述方法中的任一种。

本发明的又一方面涉及一种非暂态计算机可读存储介质，其上存储有计算机程序，该计算机程序用于执行上述方法中的任一种。

附图说明

在附图的图中以示例的方式而非限制的方式示出了本发明的实施方式，并且在附图中，相似的附图标记表示相似的元件，并且在附图中：

图1A描绘了用于视频传送流水线的示例过程；

图1B描绘了用于使用环路外自适应量化或再成形以及去量化的数据压缩的示例过程；

图2A描绘了根据本发明的实施方式的视频编码器中的环内前向再成形的示例系统；

图2B描绘了根据本发明的实施方式的用于视频解码器中的环内后向再成形的示例系统；

图3A描绘了根据本发明的实施方式的用于视频编码器中的环内前向再成形的示例过程；

图3B描绘了根据本发明的实施方式的用于视频解码器中的环内后向再成形的示例过程；以及

图4描绘了被细分成编码区域的图像帧。

具体实施方式

本文描述了用于高动态范围(HDR)图像的压缩期间的环内自适应再成形的技术。在下面的描述中，出于说明的目的，阐述了许多具体细节，以便提供对本发明的透彻理解。然而，显见的是，可以在没有这些具体细节的情况下实践本发明。在其他情况下，不透彻详细描述公知的结构和装置，以避免不必要地阻碍、掩盖或模糊本发明。

概述

本文描述的示例实施方式涉及HDR图像的编码(例如，压缩和解压缩)期间的环内、基于块的再成形。在实施方式中，编码器访问位于输入位深度的HDR输入图像。对于输入图像的编码区域，编码器生成或选择前向再成形函数和后向再成形函数。编码器访问要编码的区域的位于输入位深度的参考像素数据，并且将前向再成形函数应用于参考像素数据和编码区域的像素数据，以生成位于目标位深度的第二参考数据和第二编码区域像素数据，其中，目标位深度等于或低于输入位深度。编码器基于第二参考数据和第二编码区域像素数据生成位于目标位深度的编码位流。编码器还基于编码位流的环内解码生成重构数据。然后，将后向再成形函数应用于重构数据，以生成位于输入位深度的未来参考数据。表征编码区域的前向和/或后向再成形函数的数据也可以作为编码位流的一部分被发送至解码器。

在另一实施方式中，解码器访问位于目标位深度的编码位流和表征编码位流中的每个编码区域的前向再成形函数和/或后向再成形函数的元数据。对于编码位流中的编码区域，解码器访问位于输出位深度参考数据，其中，输出位深度等于或大于目标位深度。基于输入的元数据向编码区域分配前向再成形函数和后向再成形函数。将前向再成形函数应用于参考数据，以生成位于目标位深度的第二参考数据。解码器基于编码位流数据和第二参考数据针对编码区域生成位于目标位深度的解码像素数据。将后向再成形函数应用于解码像素数据，以生成位于输出位深度的输出数据和未来参考数据。

在实施方式中，针对编码区域生成或选择前向再成形函数包括：将输入图像划分成编码区域；将编码区域聚类成G个组，其中，G小于图像中总编码区域的总数；针对G个组中的每一个生成前向再成形函数和后向再成形函数；以及根据选择准则针对编码区域选择前向再成形函数和后向再成形函数中的G个集合中的一个。

示例视频传送处理流水线

图1A描绘了显示从视频捕获到视频内容显示的各个阶段的常规视频传送流水线(100)的示例过程。使用图像生成块(105)捕获或生成视频帧(102)的序列。视频帧(102)可以被数字地捕获(例如通过数字摄像机)或由计算机生成(例如使用计算机动画)，以提供视频数据(107)。可替选地，视频帧(102)可以通过胶片摄像机在胶片上被捕获。胶片被转换为数字格式，以提供视频数据(107)。在制作阶段(110)中，编辑视频数据(107)以提供视频制作流(112)。

然后，制作流(112)的视频数据在用于后期制作编辑的块(115)处被提供给处理器。块(115)后期制作编辑可以包括调整或修改图像的特定区域中的颜色或亮度，以根据视频制作者的创意意图增强图像质量或实现图像的特定外观。这有时被称为“颜色调解(color timing)”或“颜色分级”。可以在块(115)处执行其他编辑(例如，场景选择和排序、图像裁剪、计算机生成的视觉特效的添加等)，以产生用于分发的制作的最终版本(117)。在后期制作编辑(115)期间，在参考显示器(125)上观看视频图像。

在后期制作(115)之后，最终制作(117)的视频数据可以传送至编码块(120)，用于向下游传送至解码和回放装置诸如电视机、机顶盒、电影院等。在一些实施方式中，编码块(120)可以包括音频和视频编码器，诸如由ATSC、DVB、DVD、蓝光和其他传送格式定义的那些编码器，以生成编码位流(122)。在接收器中，编码位流(122)由解码单元(130)解码，以生成表示信号(117)的相同或相近近似的解码信号(132)。接收器可以附接至目标显示器(140)，其可以具有与参考显示器(125)完全不同的特性。在这种情况下，显示管理块(135)可以用于通过生成显示映射信号(137)将解码信号(132)的动态范围映射到目标显示器(140)的特性。

信号再成形或量化

目前，用于视频传送的大多数数字接口诸如串行数字接口(SDI)被限制为每分量每像素12位。此外，大多数压缩标准诸如H.264(或AVC)和H.265(或HEVC)被限制为每分量每像素10位。因此，在现有基础设施和压缩标准下需要有效的编码和/或量化来支持动态范围从约0.001cd/m²(或尼特)至10,000cd/m²(或尼特)的HDR内容。

本文所用的术语“PQ”是指感知亮度幅度量化。人类视觉系统以非常非线性的方式响应于增加的光线水平。人类看到刺激的能力受该刺激的亮度、刺激的大小、构成刺激的空间频率和眼睛在正在观察刺激的特定时刻已经适应的亮度水平的影响。在实施方式中，感知量化器函数将线性输入灰度水平映射到更好地匹配人类视觉系统中的对比敏感度阈值的输出灰度水平。在SMPTE ST 2084:2014“High Dynamic Range EOTF of MasteringReference Displays”——其全部内容通过引用并入本文中——中描述了PQ映射函数(或EOTF)的示例，其中，给定固定的刺激大小，对于每个亮度水平(即刺激水平)，根据最敏感的适应水平和最敏感的空间频率(根据HVS模型)选择该亮度水平处的最小可见对比度步长。与传统的伽马曲线(其代表了物理阴极射线管(CRT)装置的响应曲线并且一致地可能与人类视觉系统响应的方式很粗略的类似)相比，PQ曲线使用相对简单的函数模型来模拟人类视觉系统的真实视觉响应。

例如，在SMPTE ST 2084下，以1cd/m²计，一个12位代码值与约0.0048cd/m²的相对变化对应；然而，以1,000cd/m²计，一个12位代码值与约2.24cd/m²的相对变化对应。需要该非线性量化以适应人类视觉系统(HVS)的非线性对比敏感度。

感知量化的EOTF的另一示例在2014年10月的ISO/IEC JTC1/SC29/WG11MPEG2014/M35065中J.Stessen等人的“Chromaticity based color signals for wide color gamutand high dynamic range”——其全部内容通过引用并入本文中——中被提出。

HVS的对比敏感度不仅取决于亮度，还取决于图像内容(最特别是噪声和纹理)的掩蔽特征以及HVS的适应状态。换言之，取决于图像的噪声水平或纹理特征，由于纹理和噪声掩蔽了量化伪像(artifact)，所以与由PQ或伽马量化器预测的量化步长相比，可以以更大的量化步长来量化图像内容。PQ量化描述了HVS可以做到的最佳状况，这发生在图像中没有噪声或掩蔽时。然而，对于许多图像(视频的帧)，存在明显的掩蔽。

除了噪声和纹理掩蔽之外，还可以考虑视觉行为的其他特征诸如光学耀斑和局部适应，以增加量化水平并且允许以每颜色分量10位或低于10位来表示HDR图像。如本文所使用的，术语“内容自适应PQ”或简称“自适应PQ”表示基于其内容自适应地调整图像的感知量化的方法。

图1B描绘了“环路外”自适应PQ或再成形的示例过程，如2015年3月2日提交的被称为“925申请”的美国临时专利申请序列第62/126,925号所描述的。给定输入帧(117)，前向再成形块(150)分析输入和编码约束，并且生成将输入帧(117)映射到重新量化的输出帧(152)的码字映射函数。例如，输入(117)可以根据某EOTF进行伽马编码或PQ编码。在一些实施方式中，关于再成形过程的信息可以使用元数据传送至下游装置(例如解码器)。在编码(120)和解码(130)之后，解码帧(132)可以由后向再成形函数(160)来处理，后向再成形函数将重新量化的帧(132)转换回到原始EOTF域(例如，gamma或PQ)，用于进一步的下游处理诸如前面讨论的显示管理过程(135)。在2015年3月20日提交的被称为“402申请”的美国临时申请序列第62/136,402号中描述了生成后向再成形函数的示例。

环内图像再成形

图2A描绘了根据本发明的实施方式的用于在视频编码器中进行环内再成形的示例系统(200A)。如图2A所示，在高位深度帧缓存器(205)中存储高动态范围图像(例如，视频帧)(202)(例如，以每颜色分量12位或16位捕获)的序列。视频编码器(例如，MPEG-2、MPEG-4、AVC、HEVC等编码器)包括生成帧内(intra)编码块或残差(217)的帧间(inter)/帧内预测(215)。预测处理(215)的输出(217)随后被转换成合适的变换域(例如，DCT)并且被量化(220)。最后，在量化(220)之后，熵编码器(225)使用无损编码技术(例如，霍夫曼编码、算术编码等)来生成压缩位流(227)。大多数基于标准的编码器(例如，AVC、HEVC等)包括环内解码过程，其中，在应用逆量化和逆变换处理(230)之后，生成输入位流(232)的近似，由于下游解码器将会看到它。由于设计高位深度编码器和解码器的高成本，市售的视频编码器可以将支持的位深度约束到大约8位至10位。为了使用低成本编码器对HDR输入进行更好的编码，前向再成形单元(210)可以将高位深度缓存器的输出(207)从原始输入位深度B_I(例如，12位或16位)转换为目标位深度B_T(例如，8位或10位)。在一些实施方式中，即使目标位深度与输入位深度相同，也可以有益于应用再成形并限制信号动态范围。例如，再成形可以提高整体压缩效率，或者再成形可以目标在于针对具有特定动态范围的显示器生成内容。与前向再成形或量化(210)相关的所有参数可以经由元数据(213)传送至下游解码器(例如，200B)，使得解码器可以生成与编码器中的后向再成形块(235)类似的后向再成形函数。

注意，环内再成形(210)与常规再成形(150)之间的主要区别在于，环内再成形在视频编码器(120)内部操作。预期由于更好地探索输入视频的局部特征，所以环内再成形将产生更好的性能。在HDR图像中，动态范围可以跨图像的各个区域变化。例如，在示例测试序列中，对于给定帧，在全局级别，全局最大亮度值与全局最小亮度值之间的差为46,365；然而，跨所有8×8的非交叠块，基于块的最大亮度值与最小亮度值之间的最大差为34,904，这允许基于每块的显著较低位深度要求。

由于可以更频繁地调整再成形参数，所以环内再成形可能需要更高的元数据开销以将适当的参数传递至解码器，以生成前向再成形函数和后向再成形函数。在本发明中，提出了新的映射方法，其减少了用于提高的编码效率和较高的图像质量的这种开销。

图2B描绘了用于在视频解码器中进行后向环内再成形的示例系统(200B)。假定输入的压缩位流(227)以目标位深度(BT)编码，解码器执行熵解码(250)、逆量化和变换(255)以及帧内/帧间预测(275)，以生成位于目标位深度B_T(例如，8位或10位)的解码信号(257)。该信号表示在应用前向再成形之后由编码器生成的信号(212)的近似。帧内/帧间预测(275)可能需要访问存储在高位深度(例如，BO)帧缓存器(265)中的先前解码的参考像素(267)。位于位深度BO的参考像素(267)使用前向再成形函数(270)被转换为位于目标位深度(BT)的参考数据(272)。常规解码器可以直接显示信号257；然而，高动态范围解码器可以应用后向再成形(260)，以生成近似原始HDR信号(202)的位于位深度BO的高动态范围信号(262、269)。在实施方式中，解码器中的后向再成形(260)匹配编码器中的后向再成形(235)。类似地，解码器中的前向再成形(270)匹配编码器中的前向再成形(210)。在其他实施方式中，解码器(200B)中的前向再成形函数和后向再成形函数可以是编码器(200A)中相应函数的相似近似。

如在编码器中，大多数视频解码处理在目标位深度(BT)中完成，并且需要在较高位深度中执行仅后向再成形函数和前向再成形函数。在以下部分中，将描述用于帧内或帧间预测的前向再成形技术和后向再成形技术。作为示例，讨论了简单、线性、再成形函数的具体细节；然而，对本领域普通技术人员应当显见的是，如何将所提出的技术应用于替选的非线性或自适应量化和再成形方案。

图3A描绘了根据实施方式的用于前向环内再成形的示例过程(300A)。在步骤(305)中，将输入的HDR图像(202)(例如，帧序列中的帧)存储在高位深度(B_I)存储器(例如，205)中。图像(202)被细分为编码区域(例如，宏块、编码树单元等)。然后，对于每个编码区域(207)，可以执行以下步骤：

·在步骤(310)中，前向再成形变换将要编码的图像区域(207)和任意相关参考数据(237)从输入位深度(B_I)转换为目标位深度(B_T)。与前向再成形变换相关的参数(213)可以用于生成后向再成形变换(335)。

·在步骤(315)中，使用视频编码器(例如MPEG-4、AVC、HEVC等)对步骤(310)的输出进行编码。例如，视频编码步骤可以包括帧内或帧间预测(315)、变换和量化(220)以及熵编码(225)。

·步骤(325)包括视频编码中的常规环内解码(例如，逆量化和逆变换)，以生成如将由相应的下游解码器(例如，200B)生成的重构信号(232)。在后向再成形步骤(335)之后，将重构数据(232)转换回到BI位深度并且存储在帧缓存器中，以在未来编码区域的编码中用作参考数据(237)。

·最后，在步骤(320)中，对视频编码器的输出(317)和前向再成形函数参数(213)进行复用，以创建编码位流。

可以对输入(202)的所有编码区域和输入信号的一个或更多个颜色分量(例如，亮度和色度)重复该过程。元数据(213)可以包括与仅前向再成形函数、仅后向再成形函数(其允许导出前向再成形函数和后向再成形函数两者)或者前向函数和后向函数两者相关的参数。

给定位于目标位深度B_T(例如，8位或10位)的编码位流(227)，图3B描绘了根据实施方式的示例解码过程(300B)。在步骤(330)中，解码器对输入的位流(227)进行解复用，以生成编码位流(252)和再成形相关的元数据(213)。再成形参数(213)用于构建与编码器(例如，200A或300A)使用的相应函数匹配的前向再成形函数(310)和后向再成形函数(335)。接下来，对于编码位流(252)中的每个编码区域，生成解码区域，如下：

·在步骤(350)中，根据位流中指定的编码参数对位于目标位深度B_T的编码区域进行解码。这样的解码可能需要应用如本领域已知的熵解码、逆变换和量化以及/或者帧内或帧间预测。为了适应在位深度B_T进行的基于帧内或帧间的解码，解码所需的所有参考数据(例如，来自先前解码的参考区域的像素数据)(其已经以B_O≥B_T位深度被存储)使用前向再成形步骤(310)被转换回到B_I位深度。

·在步骤(335)中，解码信号(257)使用后向再成形变换被转换回到具有位深度B_O的信号。然后，在步骤(340)中，高位深度信号(262)被存储在高位深度缓存器(例如265)中。

通常，B_O＝B_I，编码器中使用的原始HDR位深度；然而，在一些实施方式中，当B_O通常大于B_T时，B_O和B_T可以不同(例如，B_I≥B_O≥B_T)。

在下一部分中提供了用于帧内或帧间预测的另外的细节。

用于帧内预测的环内再成形

图4描绘了被细分成非交叠编码区域(例如，405、410、415)的图像帧(400)的示例。这样的区域可以与块、宏块、编码树块、片等对应。这样的区域在不失一般性的情况下可以都是相等(例如32x32)或不相等的。在帧内预测中，基于来自相同帧内先前编码的相邻区域的像素来预测帧中的当前区域或块的像素，而不参考其他帧的任意像素。在实施方式中，令L_(m,n)_,j表示位于第j帧内的第m列和第n行的(m,n)HDR区域，其中m＝0，n＝0位于左上角。具有位深度BI的这样的区域中的HDR像素被表示为v_(m,n),j(x,y)。令F_(m,n),j()表示该区域的前向再成形函数，并且令B_(m,n),j()表示对应的后向再成形函数。将位于目标位深度BT的再成形或量化的像素(212)表示为

s_(m,n),j(x,y)＝F_(m,n),j(v_(m,n)j(x,y))。 (1)

然后，来自后向再成形函数的重构像素(237)可以表示为

前向再成形函数F_(m,n),j()的构造需要考虑当前区域L_(m,n),j内所有像素的动态范围以及相邻区域中所有参考像素的动态范围。在实施方式中，根据帧中的当前块的位置存在五种不同的场景：

·无邻块可用。例如，当前块位于帧的左上角(例如，当前块是块(405))。

·单个左邻块可用(例如，当前块是块(410)或(415))，则像素可用。

·仅顶部和右上邻块可用(例如，当前块是块(420))，则和像素可用。

·仅左、左上、上和右上邻块可用(例如，当前块是块(425))，则像素和可用。

·仅左、左上和上邻块可用(例如，当前块是块(430))，则像素和可用。

令Θ_(m,n),j表示来自可用的重构相邻块的用作预测参考的像素集合。在实施方式中，第一步骤包括确定L_(m,n),j和Θ_(m,n),j两者中的像素的整个动态范围。令Ω_(m,n),j＝Θ_(m,n),j∪L_(m,n),j表示所有这些像素的并集。在实施方式中，令

表示Ω_(m,n),j中的最大像素值和最小像素值。令和表示位于目标位深度的对应的最小像素值和最大像素值。在一些实施方式中，对于整个帧或甚至整个场景或全部视频序列，这些值可以是恒定的。例如，在实施方式中，对于B_T＝8，并且对于B_T＝10，例如，它代表最大可能的合法值。作为示例，假设线性拉伸方法，前向再成形函数可以表示为：

如果解码器知道输入边界点和输出边界点(例如，和)，则它可以重构后向再成形函数；然而，这样的实现可能引入大量开销，从而降低总体编码效率。在实施方式中，可以通过使用将成形参数预定聚类成组来减少该开销。

考虑和值的K(例如，K＝1024、8096等)个间隔，诸如通过将它们舍入而定义的值，如下：

这些舍入值可以进一步被聚类成G个组，其中，每个组根据优化准则由表示值表示。例如，在实施方式中，可以使用K均值聚类算法来使遭受如下约束的聚类失真最小化：一个组中的的表示值应当是该组中的最大值，并且一个组中的的表示值应当是该组中的最小值。例如，如果Ψ_g,j表示组g中的L_(m,n),j块的集合，则表示值可以被计算为

组数G代表表示区域内的动态范围的精度与开销之间的权衡。表示值可以存储在通过组索引(例如，g)诸如g＝0,1,2,…,G-1访问的表中。这些表示值可以使用本领域已知的无损编码技术中的任何一个进一步编码。还要注意，因为对于每个帧，存在有限数目的G个聚类，所以这些可以在每个帧的开始处被预先计算，如稍后将更详细讨论的。类似的技术可以应用于其他再成形方案，诸如“925申请”中描述的那些再成形方案。

在编码器和解码器两者中需要后向再成形函数，并且基于前向再成形函数的参数生成后向再成形函数。例如，对于等式(4)的线性再成形函数，逆再成形函数可以计算为

在其他实施方式中，可以通过分段线性或非线性多项式近似后向再成形函数。这些多项式的系数可以作为元数据(213)从编码器传送至解码器。在基于聚类的前向再成形函数的情况下，对于感兴趣的每个时间间隔(例如，帧或场景)，对于编码器中的G个聚类中的每一个，可以针对后向再成形生成对应的查找表(LUT)，因此可以容易地识别正确的后向再成形函数。表1A提供了根据实施方式的环内、帧内预测所需的步骤的示例性总结。对应的解码步骤列于表1B中。

表1A：用于帧内预测中的环内再成形的编码过程

表1B：用于帧内预测中的环内再成形的解码过程

如前讨论的，为了减少在传输前向再成形相关的参数时的开销，可以约束前向再成形函数和后向再成形函数的最大可能集合(例如，到G)。表2A和表2B提供了根据实施方式的环内、帧内预测编码和解码所需步骤的示例总结。

表2A：用于在帧内预测中使用组ID进行环内再成形的编码过程

表2B：在帧内预测中使用组ID进行环内再成形的解码过程

用于帧内预测的环内再成形

如本文所使用的，术语“帧间编码”表示使用图片之外的编码元素(诸如样本值和运动矢量)对图片中的编码区域的编码。在帧间编码中，可以使用运动估计和运动补偿基于显示顺序中的先前帧和/或未来帧中的像素来对当前图片中的像素进行编码。令j+r为第j帧中的区域L_(m,n),j的参考帧，其中，r是正整数或负整数。并置块可以表示为L_(m,n),j+r。令表示与用来预测L_(m,n),j区域中的像素的运动矢量mv_{(m,n),(j,j+r)}相关联的像素集合。假设参考帧中的运动矢量搜索窗口，其大小为Wx×Wy(诸如64x64)。将该窗口中的像素集合表示为Γ_{(m,n),(j,j+r)}。如前所述，假设但不限于取决于参考块内像素的动态范围的前向再成形函数，最小像素值和最大像素值可以计算为：

在实施方式中，可以根据等式(4)和(7)生成前向再成形函数和后向再成形函数。在将当前块和参考块转换为再成形域之后，视频编码器可以生成将使用传统编码器的工具例如通过应用变换编码、量化和熵编码进行编码的残差。

如在帧内预测模式中，可以应用聚类技术来减少与用于前向再成形函数和后向再成形函数的参数相关的开销。表3A和表3B提供了根据实施方式的环内、帧间预测编码和解码所需的步骤的示例总结。

表3A：用于在帧间预测中使用组ID进行环内再成形的编码过程

表3B：用于在帧间预测中使用组ID进行环内再成形的解码过程

聚类再成形函数

如前提及的，通过限制再成形函数的数目(例如，到G总数)，可以减少向解码器传送与重构前向再成形函数和后向再成形函数有关的参数所需的开销。在本部分中呈现了这样的分组或聚类方案的示例。

首先考虑可以由感兴趣的编码区域内的最小像素值和最大像素值(例如，)完全确定的再成形函数。为了方便讨论，令

其中，c＝1,2,...,C表示到每个(m,n)区域的唯一索引。

在实施方式中，令

γ_c,j＝f(a_c,j,b_c,j)

表示a_c,j和b_c,j值的函数，诸如它们的差(例如，a_c,j-b_c,j)、它们的比率(例如a_c,j/b_c,j)、它们的对数比等。在一些实施方式中，还可以根据像素区域c的其他表示值(诸如区域中的像素的平均值、中值、方差、标准差或熵)来确定Y_c，j函数。

基于排序的聚类

在实施方式中，聚类基于：a)对α_c,j、β_c,j或γ_c,j进行排序，并且然后b)将所有排序的C个块分割成G个组(G<C)。例如，令Ψ_g,j表示组g，其中，g＝0,1,2,...,G-1，则每个组中的极端像素值可以确定每个组再成形函数的边界值。例如，在实施方式中，α_c,j值可以按升序排序。令{t₀，t₁，...，t_C-1}表示每个块的排序顺序。具有索引为{t₀，t₁，....t_(C/G)-1}的块的第一组Ψ_0,j具有与块t0的α_c,j值对应的最小值a⁽⁰⁾。具有索引为{t_(C/G)，t_(C/G)+1，....t_2(C/G)-1}的第二组Ψ_1，j具有与块t(C/G的α_c，j值对应的最低值α⁽¹⁾。具有块索引为{t_((G-l)C/G)，t_((G-l)C/G)+1，....t_(C-1)}的块的最后一组Ψ_G-1,j具有与块t((G-1)C/G)的α_c,j对应的最小值α^(G-1)。

在每个组中，我们可以找到最低的高位深度值，并且最低的高位深度值为

类似地，在其他实施方式中，可以通过首先对β_c,j和γ_c,j值进行排序并且然后创建适当的分组来构建Ψ_g,j组。

替选聚类方案

在另一实施方式中，每个帧从开始划分为G个非交叠区域。然后，基于G个区域中的每个区域的特征来设计每个组再成形函数。

在另一实施方式中，每个帧被分割成P个子区域，其中，P大于G。可以计算P个子区域中的每个子区域的α_c,j值、β_c,j值和/或γ_c,j值。如果两个这样的子区域具有类似(例如，在预定义阈值内)α_c,j、β_c,j或γ_c,j，则可以合并它们。子区域可以合并，直到只剩下G个子区域为止。

基于感知噪声的度量的前向再成形

在“925申请”中，根据人类视觉系统对噪声的灵敏度，使用内容自适应量化执行再成形。首先，对于每个像素，确定可接受的感知噪声的水平。然后，这些噪声水平被布置成M个仓(bin)，并且最后根据M个仓中的每个仓的特征确定每个像素的量化或再成形。令H_(m,n),j(x,y)表示与每个像素v_(m,n),j(x,y)相关联的噪声水平。然后，在每个编码区域L_(m,n),j中，令

b_(m,n),j(q)＝min{H_(m,n),j(x,y)|(x,y)∈L_(m,n),j} (10)

表示每个仓q中的最小可接受噪声水平。

给定G个编码区域，对于组g，令

b_g,j(q)＝min{b_(m,n),j(q)|L_(m,n),j∈Ψ_g,j} (11)

表示分配给该组的所有编码区域的最小可接受噪声水平。

给定所有仓的{b_g,j(q)}值，则可以构建如“952申请”中讨论的组Ψ_g,j的前向再成形函数和后向再成形函数。这些再成形函数中的每一个将与组ID g＝0,1,...,G-1相关联。可以使用与前面讨论的聚类技术类似的聚类技术(例如通过对b_(m,n),j(q)值进行排序或通过合并具有类似b_(m,n),j(q)值的子区域)来构建组。例如，在实施方式中，令但不限于

表示两个块之间的关于它们的相应噪声值的相似度的量度，并且令

表示块(m,n)与组g中的代表性块之间的关于它们的相应噪声值的相似度的量度。然后，表4以伪代码提供了用于确定G个组的示例过程。

表4：内容自适应再成形中的再成形函数的分组

示例计算机系统实现

本发明的实施方式可以用计算机系统实现，系统以电子电路系统和部件配置，集成电路(IC)装置诸如微控制器、现场可编程门阵列(FPGA)或另外的可配置或可编程逻辑装置(PLD)、离散时间或数字信号处理器(DSP)、专用IC(ASIC)以及/或者包括这样的系统、装置或部件中的一个或更多个的设备。计算机和/或IC可以实现、控制或执行与环内自适应再成形过程相关的指令，诸如本文所描述的那些。计算机和/或IC可以计算与本文所述的环内自适应再成形过程相关的各种参数或值中的任意一个。图像和视频实施方式可以以硬件、软件、固件及其各种组合来实现。

本发明的某些实施方案包括执行使处理器执行本发明的方法的软件指令的计算机处理器。例如，显示器、编码器、机顶盒、代码转换器等中的一个或更多个处理器可以通过执行可访问处理器的程序存储器中的软件指令来实现与如上所述的环内自适应再成形过程相关的方法。本发明也可以以程序产品的形式提供。程序产品可以包括携带包括指令的一组计算机可读信号的任意非暂态介质，所述指令当由数据处理器执行时，使数据处理器执行本发明的方法。根据本发明的程序产品可以采用各种各样的形式中的任意形式。程序产品可以例如包括物理介质，诸如包括软盘、硬盘驱动器的磁性数据存储介质、包括CDROM、DVD的光学数据存储介质、包括ROM、快闪RAM的电子数据存储介质等。程序产品上的计算机可读信号可以可选地被压缩或加密。

除非另有说明，否则上面提及部件(例如，软件模块、处理器、组件、装置、电路等)的地方对该部件的引用(包括对“装置”的引用)应被解释为：包括作为该部件的等同物的执行所描述的部件的功能的任意部件(例如，功能上相当的)，包括在结构上不等同于所公开结构的部件，其执行本发明的所示示例实施方式中的功能。

等同物、扩展、替选和其他

因此，描述了与有效的环内自适应再成形过程相关的示例实施方式。在前面的说明书中，已经参照许多具体细节描述了本发明的实施方式，其可以因实现方式而变化。因此，本发明及申请人对本发明的意图的唯一和排外的指示是以这些权利要求发出的具体形式(包括任意随后的更正)从本申请中发出的一组权利要求。对于这些权利要求书中包含的术语，在此明确阐述的任何定义将决定权利要求中使用的这样的术语的含义。因此，权利要求中没有明确叙述的限制、元素、特性、特征、优点或属性不应以任意方式限制该权利要求的范围。因此，本说明书和附图被认为是说明性而不是限制性意义的。

Claims

1.一种用于通过编码器在帧内编码中进行环内再成形的方法，所述方法包括：

访问位于输入位深度的输入图像；

将所述输入图像划分成编码区域；

对于位于所述输入位深度的输入图像的编码区域(207)：

针对所述编码区域选择前向再成形函数(310)和后向再成形函数(335)，其中，所述前向再成形函数(310)被配置成将位于所述输入位深度的图像数据转换到目标位深度，其中，所述后向再成形函数(335)被配置成将位于所述目标位深度的图像数据转换到所述输入位深度，并且其中，所述目标位深度低于或等于所述输入位深度；

访问位于所述输入位深度的参考数据(237)，所述参考数据(237)是来自先前编码区域(207)的像素数据；

将所述前向再成形函数(310)施加于所述编码区域的像素数据和所述参考数据，以生成位于所述目标位深度(212)的第二编码区域像素数据和第二参考数据；

基于所述第二编码区域像素数据和所述第二参考数据的像素数据执行帧内预测，以生成预测像素数据；

基于所述预测像素数据生成残差像素数据；

使用编码器对所述残差像素数据进行编码(315)，以生成位于所述目标位深度的编码位流(317)；

基于对所述编码位流的环内解码，使用所述编码器生成(325)重构残差像素数据；以及

将所述后向再成形函数(335)施加于所述重构残差像素数据，以生成位于所述输入位深度的未来参考数据(237)，所述未来参考数据(237)被存储在帧缓存器中，以在未来编码区域(207)的编码中用作参考数据(237)。

2.根据权利要求1所述的方法，还包括：对于位于所述输入位深度的输入图像的编码区域，将所述编码位流与元数据进行复用，所述元数据表征所述前向再成形函数和/或所述后向再成形函数。

3.根据权利要求1所述的方法，其中，使用编码器对所述残差像素数据进行编码以生成位于所述目标位深度的编码位流包括：

将编码变换施加于所述残差像素数据，以生成变换的残差数据；

将量化施加于所述变换的残差数据，以生成量化数据；以及

将熵编码施加于所述量化数据，以生成所述编码位流。

4.根据权利要求3所述的方法，其中，基于对所述编码位流的环内解码生成所述重构数据还包括：

将逆量化施加于所述量化数据，以生成逆量化数据；

将逆变换施加于所述逆量化数据，以生成估计的残差数据；以及

基于所述估计的残差数据生成所述重构残差像素数据。

5.一种用于通过解码器在帧内编码中进行环内再成形的方法，所述方法包括：

访问位于编码位深度的编码位流；

访问数据，所述数据表征所述编码位流中的一个或更多个编码区域的前向再成形函数(270)和/或后向再成形函数(260)，其中，所述前向再成形函数(270)被配置成将位于输出位深度的图像数据转换到所述编码位深度，其中，所述后向再成形函数(260)被配置成将位于所述编码位深度的图像数据转换到所述输出位深度，并且其中，所述编码位深度低于或等于所述输出位深度；

对于所述编码位流中的编码区域：

为所述编码区域分配前向再成形函数和后向再成形函数；

访问位于所述输出位深度的参考数据，其中，所述输出位深度大于或等于所述编码位深度，所述参考数据是来自先前解码区域的像素数据；

将所述前向再成形函数(310)施加于所述参考数据，以生成位于所述编码位深度的第二参考数据(272)；

基于所述编码位流数据和所述第二参考数据，使用解码器中的帧内预测针对所述编码区域生成位于所述编码位深度的解码像素数据(257)；以及

将所述后向再成形函数(335)施加于所述解码像素数据，以生成位于所述输出位深度的未来参考数据和输出数据(269)，所述未来参考数据被存储在帧缓存器中，以在未来编码区域的解码中用作参考数据。

6.根据权利要求5所述的方法，其中，使用帧内预测还包括：

将熵解码施加于所述编码位流数据，以生成熵解码数据；

将逆量化施加于所述熵解码数据，以生成逆量化数据；

将逆变换施加于所述逆量化数据，以生成逆变换数据；以及

组合所述逆变换数据和所述第二参考数据，以生成所述解码像素数据。

7.一种设备，其包括处理器并且被配置成执行权利要求1至6所述的方法中的任一种。

8.一种非暂态计算机可读存储介质，其上存储有计算机程序，所述计算机程序用于执行根据权利要求1至6中任一项所述的方法。