CN118140478A - 移动应用中hdr视频的张量积b样条预测 - Google Patents
移动应用中hdr视频的张量积b样条预测 Download PDFInfo
- Publication number
- CN118140478A CN118140478A CN202280069911.2A CN202280069911A CN118140478A CN 118140478 A CN118140478 A CN 118140478A CN 202280069911 A CN202280069911 A CN 202280069911A CN 118140478 A CN118140478 A CN 118140478A
- Authority
- CN
- China
- Prior art keywords
- tpb
- metadata
- dynamic range
- lut
- values
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 claims abstract description 91
- 230000006870 function Effects 0.000 claims description 89
- 238000013507 mapping Methods 0.000 claims description 48
- 238000003491 array Methods 0.000 claims description 28
- 238000003860 storage Methods 0.000 claims description 4
- 238000004364 calculation method Methods 0.000 claims description 3
- 230000000873 masking effect Effects 0.000 claims description 2
- 101100001674 Emericella variicolor andI gene Proteins 0.000 claims 1
- 238000007493 shaping process Methods 0.000 abstract description 18
- 230000011664 signaling Effects 0.000 abstract description 2
- 239000010410 layer Substances 0.000 description 34
- 238000007726 management method Methods 0.000 description 23
- 238000005192 partition Methods 0.000 description 10
- 239000002356 single layer Substances 0.000 description 7
- 241000023320 Luma <angiosperm> Species 0.000 description 6
- 238000013459 approach Methods 0.000 description 6
- OSWPMRLSEDHDFF-UHFFFAOYSA-N methyl salicylate Chemical compound COC(=O)C1=CC=CC=C1O OSWPMRLSEDHDFF-UHFFFAOYSA-N 0.000 description 6
- 230000006835 compression Effects 0.000 description 5
- 238000007906 compression Methods 0.000 description 5
- 230000014509 gene expression Effects 0.000 description 5
- 238000012545 processing Methods 0.000 description 5
- 238000005070 sampling Methods 0.000 description 5
- 230000003068 static effect Effects 0.000 description 5
- 230000006837 decompression Effects 0.000 description 4
- 238000003384 imaging method Methods 0.000 description 4
- 239000011159 matrix material Substances 0.000 description 4
- 230000003044 adaptive effect Effects 0.000 description 3
- 238000007796 conventional method Methods 0.000 description 3
- 238000013500 data storage Methods 0.000 description 3
- 238000009826 distribution Methods 0.000 description 3
- 238000013139 quantization Methods 0.000 description 3
- 239000013598 vector Substances 0.000 description 3
- 230000000007 visual effect Effects 0.000 description 3
- 238000004422 calculation algorithm Methods 0.000 description 2
- 238000010276 construction Methods 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 238000005457 optimization Methods 0.000 description 2
- 238000006467 substitution reaction Methods 0.000 description 2
- 238000009827 uniform distribution Methods 0.000 description 2
- 238000011144 upstream manufacturing Methods 0.000 description 2
- 241000282412 Homo Species 0.000 description 1
- 241001025261 Neoraja caerulea Species 0.000 description 1
- 238000007792 addition Methods 0.000 description 1
- 238000004458 analytical method Methods 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 239000002131 composite material Substances 0.000 description 1
- 238000012937 correction Methods 0.000 description 1
- 230000001419 dependent effect Effects 0.000 description 1
- 238000009795 derivation Methods 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 239000002355 dual-layer Substances 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 239000000203 mixture Substances 0.000 description 1
- 238000009877 rendering Methods 0.000 description 1
- 230000003252 repetitive effect Effects 0.000 description 1
- 239000000758 substrate Substances 0.000 description 1
- 230000000153 supplemental effect Effects 0.000 description 1
- 230000002123 temporal effect Effects 0.000 description 1
Landscapes
- Compression Or Coding Systems Of Tv Signals (AREA)
Abstract
已经证明张量积B样条(TPB)在用于表示用以将经整形的标准动态范围内容映射到高动态范围(HDR)内容的整形函数时可以提高视频质量;但是,TPB预测计算量大,可能不受传统设备支持。提出了用于TPB相关元数据的向后兼容信号传输的方法和系统以及快速TPB预测方法来克服这两个限制。通过使用临时二维数组,可以减少基于TPB的3D查找表的计算开销。对传统位深参数的最高有效位进行重新映射可以实现向后兼容。
Description
相关申请的交叉引用
本申请要求2021年9月9日提交的美国临时专利申请63/242,416、2021年10月13日提交的美国临时专利申请63/255,057、以及2021年10月13日提交的欧洲专利申请21202447.5的优先权,每个申请均通过引用整体并入本文。
技术领域
本发明大体上涉及图像。更具体地说,本发明的实施例涉及移动应用中的高动态范围(HDR)成像的图像预测。
背景技术
如本文所使用的,术语“动态范围(DR)”可以涉及人类视觉系统(HVS)感知图像中的强度(例如,光亮度、亮度)的范围(例如从最暗的黑(暗)到最亮的白(高亮))的能力。从这个意义上说,DR与“场景相关”强度有关。DR还可以涉及显示设备充分地或近似地呈现特定宽度的强度范围的能力。从这个意义上说,DR与“显示相关”强度有关。除非在本文的描述中的任何点处明确指定特定含义具有特定意义,否则应当推断该术语可以以任一含义使用,例如,可以互换。
如本文所使用的,术语“高动态范围(HDR)”涉及跨越人类视觉系统(HVS)的大约14至15个或更多数量级的DR阔度。实际上,相对于HDR,人类可以同时感知强度范围中的广泛阔度的DR可能会被稍微截短。
实际上,图像包括一个或多个颜色分量(例如,亮度Y以及色度Cb和Cr),其中每个颜色分量由每像素n位的精度表示(例如,n=8)。使用线性或伽马光亮度编码,其中n≤8的图像(例如,彩色24位JPEG图像)被视为标准动态范围的图像,而其中n>8的图像可被视为增强动态范围或高动态范围的图像。HDR图像还可以使用高精度(例如16位)浮点格式(例如工业光魔开发的OpenEXR文件格式)被存储和分发。
目前大多数消费类桌面显示器支持200至300cd/m2或尼特的光亮度。大多数消费级HDTV(高清电视)范围为300至500尼特,新款电视达到1000尼特(cd/m2)。因此,与HDR相比,这样的传统显示器代表了较低动态范围(LDR),也称为标准动态范围(SDR)。随着捕获设备(例如,相机)和HDR显示器(例如,杜比实验室的PRM-4200专业参考监视器)两者的进步,HDR内容的可用性不断提高,HDR内容可以被颜色分级并显示在支持更高动态范围(例如,从1,000尼特到5,000尼特或更高)的HDR显示器上。
如本文所用,术语“整形”或“重新映射”表示如下过程,其将数字图像从其原始位深和原始码字分布或表示(例如,伽马、PQ或HLG等)进行样本到样本或码字到码字映射到具有相同或不同位深和不同码字分布或表示的图像。整形可以提高固定比特率下的压缩率或图像质量。例如,但不作为限制,可以将前向整形应用于10位或12位PQ编码的HDR视频,以提高10位视频编码架构中的编码效率。在接收器中,在对所接收的信号(可能被整形或不被整形)进行解压缩之后,接收器可以应用逆(或后向)整形函数来将信号恢复到其原始码字分布和/或实现更高的动态范围。
在HDR编码中,图像预测(或整形)允许使用基线标准动态范围(SDR)图像和表示后向整形函数的预测系数集合来重构HDR图像。传统设备可能只是简单地解码SDR图像;然而,HDR显示器可以通过将后向整形函数应用于SDR图像来重构HDR图像。在视频编码中,这种图像预测可被用于提高编码效率,同时保持向后兼容性。
在移动设备上重构HDR视频增加了额外的挑战,因为大多数移动设备缺乏在支持HDR成像所期望的预期质量水平的同时加速计算密集型操作所需的特殊硬件。正如本发明人所意识到的,需要改进技术以实现移动应用中的高效图像预测。
在本节中描述的方法是可以采用的方法,但不一定是先前已经设想到或采用过的方法。因此,除非另有指示,否则不应该认为本节中描述的任何方法仅凭其纳入本节就可被视为现有技术。类似地,除非另有指示,否则关于一种或多种方法所认定的问题不应该基于本节而认为在任何现有技术中被认定。
附图说明
本发明的实施例在附图中以示例而非限制的方式示出,并且其中相同的附图标记指代相似的元件,并且其中:
图1A示出了使用图像预测的HDR数据的示例单层解码器;
图1B示出了使用图像预测的示例HDR编码器;
图2A和2B示出了根据本发明的实施例的快速张量积B样条(TPB)预测的示例过程流程;
图3A、3B和3C示出了根据本发明的实施例的快速TPB预测所需的示例临时存储阵列;
图4示出了根据本发明的实施例的支持传统预测和基于TPB的预测两者的元数据的向后兼容处理的示例;以及
图5示出了根据本发明的实施例的示例过程,该过程解析用于传递双层HDR位流中的位深信息的传统64位参数字段以提取用于TPB处理的新语法参数和位深信息两者。
具体实施方式
本文描述了用于移动应用中图像高效编解码的图像预测技术。在以下描述中,出于解释的目的,阐述了许多具体细节以便提供对本公开的透彻理解。然而,明显的是,可以在没有这些具体细节的情况下实践本公开。在其他情形中,为了避免不必要地遮蔽、模糊或混淆本公开,没有详尽地描述众所周知的结构和设备。
概述
本文描述的示例实施例涉及图像预测技术。在一个实施例中,在包括一个或多个处理器的装置中,处理器接收在输入动态范围(例如,SDR)中编码的输入图像、以及用于该输入图像的元数据,以生成映射函数,将输入图像从输入动态范围映射到输出动态范围(例如,HDR)中的输出图像。处理器解析第一元数据参数以识别第二元数据参数是否存在。如果存在第二元数据参数,则使用非后向预测器(例如,张量积B样条(TPB)预测器)生成映射函数,否则使用传统的、后向兼容的预测器生成映射函数并将映射函数应用于输入图像以生成输出图像。
在另一实施例中,为了使用张量积B样条(TPB)预测器生成映射函数,处理器:
访问输入图像的元数据内的TPB元数据,其中TPB元数据包括TPB相关的预测参数;并且
基于TPB元数据生成三维查找表(3D-LUT)以将来自输入动态范围的像素值的选定三元组映射到输出动态范围中的像素值的对应输出三元组,其中TPB元数据包括:
亮度通道和两个色度通道三个维度中的每一维度中的结点(knot point)数(T);
亮度通道和两个色度通道三个维度中的每一维度中的多项式阶次(l)值;
亮度通道和两个色度通道的预测系数;以及
用于确定亮度通道和两个色度通道的预测系数之间的相关性的亮度通道基础标志和两个色度通道基础标志,以及生成3D-LUT还包括:
如果所有基础标志都为0,则:生成九个临时数组,每个颜色通道三个临时数组;
否则,如果亮度通道基础标志为0并且两个色度通道基础标志之一为1,则:为亮度通道生成三个临时数组,为两个色度通道生成三个临时数组;
否则,如果亮度通道基础标志为0并且两个色度通道基础标志均为1,则:生成三个临时数组以用于所有颜色通道;并且对于每个颜色通道,基于用于该颜色通道的三个临时数组的乘积生成3D-LUT。
示例HDR编码系统
图1A示出了使用图像预测的示例单层解码器架构,其可以通过下游视频解码器中的一个或多个计算处理器来实现。图1B示出了示例HDR编码器架构,其也可以利用一个或多个上游视频编码器中的一个或多个计算处理器来实现。
在该框架下,给定参考HDR内容(120),对应的SDR内容(125)(即,表示与HDR内容相同的图像、但经过颜色分级并在标准动态范围表示的内容)由实现编码器侧编解码器架构的上游编码设备编码并且在编码视频信号(144)的单层中传输。下游解码设备在视频信号的单层中接收并解码SDR内容(144)。预测元数据(例如,前向或后向整形参数)(152)也被编码并在视频信号中与SDR内容一起传输,以便HDR显示设备可以基于SDR内容(144)和接收到的元数据(152)重构HDR内容。
在图1B中,在一个实施例中,给定输入HDR数据(120),可以通过色调映射、前向整形、手动(在颜色分级期间)或通过本领域中已知技术的组合,从HDR数据生成SDR数据(125)。在另一个实施例中,给定参考SDR数据(125),可以通过逆色调映射、后向整形、手动(在色彩分级期间)或者通过本领域中已知技术的组合,从SDR数据生成HDR数据(120)。压缩块140(例如,根据任何已知视频编码算法(如AVC、HEVC、AV1等)实现的编码器)在编码比特(bit/位)流的单层144中压缩/编码SDR图像(125)。
由单元150生成的元数据(152)可以被复用作为视频信号144的一部分,例如作为补充增强信息(SEI)消息传递或作为专有消息传递的一部分。因此,可以在编码器侧生成或预生成元数据(152),以利用编码器侧可用的强大计算资源和离线编码流程(包括但不限于内容自适应多遍、前瞻操作、逆亮度映射、逆色度映射、基于CDF的直方图近似和/或传递等)。
图1B的编码器架构可用于避免将输入HDR图像(120)直接编码为视频信号中的编码/压缩HDR图像;相反,视频信号中的元数据(152)可用于使下游解码设备能够将SDR图像(125)(其被编码在视频信号中)重构为与参考HDR图像(120)相同或紧密/最佳近似的重构HDR图像(167)。
在一些实施例中,如图1A所示,具有压缩的SDR图像的视频比特流(144)和具有编码器生成的预测参数的元数据(152)被接收作为编解码器框架的解码器侧的输入。解压缩块160将视频信号的单层(144)中的压缩视频数据解压缩/解码为解码SDR图像(162)。解压缩160通常对应于压缩140的逆。解码SDR图像(162)可能与SDR图像(125)相同,在压缩块(140)和解压缩块(160)中遭受到量化误差,其可能已针对SDR显示设备进行了优化。解码SDR图像(162)可在输出SDR视频信号中输出(例如,通过HDMI接口、通过视频链路等),以在SDR显示设备上呈现。
此外,预测块165(也可称为“合成器”)将来自输入比特流的元数据(152)应用于解压缩数据(162)以生成重构的HDR图像(167)。在一些实施例中,重构图像表示与参考HDR图像(120)相同或紧密/最佳近似的制作质量或接近制作质量的HDR图像。重构图像(167)可以在输出HDR视频信号输出(例如,通过HDMI接口、通过视频链路等),以在HDR显示设备上呈现。
在一些实施例中,可以对重构图像(167)执行特定于HDR显示设备的显示管理操作,作为在HDR显示设备上呈现经后向整形的图像(167)的HDR图像渲染操作的一部分。
尽管图1A和图1B描绘了单层HDR编码和解码系统的示例实施例,但是本文描述的方法和系统也适用于多层和可扩展系统,其中使用基本层和一个或多个增强层比特流传输HDR内容,并且在解码器中,来自增强层的信息被添加回基本层。
对于移动系统的HDR支持
由于移动设备(例如手机、平板电脑等)在计算能力、存储和电池寿命方面受到限制,在移动设备上播放HDR内容增加了额外的挑战。例如,与启用HDR的电视或机顶盒不同,大多数移动设备没有专用的硬件加速器来重构HDR内容。移动设备上的HDR播放主要依赖于通用处理器上运行的软件。然而,如果没有硬件支持,功耗和潜在的图像掉帧将成为播放和感知视觉质量的严重问题。为了减轻这些影响,不是在每一帧中调整SDR到HDR的映射,而是优先采用更“静态”(例如基于场景)的SDR到HDR映射,因为可以使用“静态”3D查找表(LUT)完成映射,以避免为每个视频帧重新计算映射LUT。然而,依赖于使用8段多项式的亮度预测和使用多颜色通道、多元回归(MMR)预测器(参考文献[2])的色度预测的现有传统方案(例如参考文献[1])无法提供令人满意的静态映射来覆盖宽色域(WCG),尤其是接近ITU-RRec.BT.2020。基于张量积B样条(TPB)的预测可以实现此WCG目标;但是,现有的用于HDR成像的传统元数据协议(例如,当前的杜比视界配置文件)可能无法支持TPB元数据。考虑到向后兼容性要求,示例实施例描述了一种移动优化配置文件,其中编码比特流包含使用单个基本层的两种不同预测方法:a)提出的新TPB预测方法,以及b)传统的基于合成器的方法。在提供所提出的配置文件的详细描述之前,下一部分将快速概述基于TPB的预测以及基于TPB的快速解码的新颖实施例。
张量积B-样条
张量积B样条(TPB)可用于在HDR合成器管道中执行预测。B样条或基样条是可以使用在结点(knot point)处具有连续性约束的多项式来近似给定一维曲线的函数。TPB将多个B样条函数相乘来估计更高维的曲线。在保持结点处平滑连通性的情况下预测复杂曲线的准确性使TPB成为用于高动态范围处理中前向整形和后向整形的有力工具(参考文献[3])。
如图1B所示,在编码期间,HDR像素在前向整形过程中被映射到基本层(BL)像素(125)。经过后续的压缩和解压缩后,这些基本层像素在后向整形过程中被映射回HDR像素。包含后向整形系数的元数据与被压缩的基本层一起传输,以有助于解码器侧的后向整形。虽然基于TPB的解码结果比现有技术更加优异,但计算复杂度也高得多。稍后,将描述快速TPB解码过程的实施例,与常规TPB解码相比,其速度提高了100倍。具体而言,将描述用于计算解码过程中使用的3D-LUT(三维查找表)条目的值的实施例。
全高清帧约包含200万像素,超高清帧约包含800万像素。对于时间敏感的应用来说,直接应用后向整形系数来预测每个像素并不是实用的解决方案。一种更快的方法是构建3D-LUT,其将经后向整形值存储在输入像素值范围中的采样位置处。然后使用插值技术来找到3D-LUT中不存在的像素的经反向整形值。例如,但不限于,这样的3D-LUT现在通常大小为17×17×17或33×33×33;但是,根据所期望的重构精度和/或可用的处理能力,也可以选择更小或更大的LUT。这相当于约5K或约36K个像素条目。3D-LUT通过将每帧的预测总数从2M或8M减少到5K或36K,显著降低了任何后向整形过程(基于TPB或基于MMR)的时间复杂度。所提出的方法通过考虑TPB函数的特性,进一步降低了构建基于TPB的3D-LUT的时间复杂度。实验结果表明,采用快速方法构建3D-LUT所需时间是采用传统方法构建3D-LUT所需时间的百分之一。
TPB基础知识
引自文献[4],函数f:[a,b]→R若满足下列条件,则被称为具有次数l>=0和节点a=k0<…<kT-1=b的多项式样条函数:
1.f(z)是(l-1)次连续可微的。l=1的特殊情况对应于f(z)是连续的(但不可微)。当l=0时,对f(z)没有平滑度要求。
2.f(z)是结点定义的区间[kt,kt+1)上的l次多项式。
B样条基函数由分段多项式构成,这些分段多项式在结点处平滑融合以实现所需的平滑度约束。B样条基函数由(l+1)个l次多项式片段组成,这些片段以(l-1)次连续可微的方式相接合。使用完整基础,函数f(z)可以通过D=T+l-1个基函数的线性组合来表示,其中T是结点的数量,即
应指出,B样条仅在基于l+2个结点的区间内为正。0阶的B样条函数被定义为:
高阶的B样条函数可被递归地定义为:
除了内部结点k0,k1,…,kT-1之外,还需要[a,b]外部的2l个外结点(作为外部结点)。例如,对于T=8个结点并使用二维阶B样条,将有D=9个基函数和9个系数{mt}来进行确定,这样就可以近似1D(一维)曲线。以下展示了用于亮度和色度后向映射的跨通道TPB系数估计过程。
TPB跨颜色通道预测器
假设一张图片中有P个像素。设三元组和分别为第j SDR(基本层)和HDR帧中第i像素的归一化(例如,在[0,1]中)Y、C0和C1值。以亮度通道的预测为例。对于单通道B样条预测器,将希望根据从预测通过一组选定的结点,构建所需的Dy=T+l-1个基函数使用系数的预测如下
张量积B样条(TPB)可以使用来自亮度和两个色度通道的信息来更好地预测亮度。每个维度中都需要三个独立的基函数。在这种情况下,沿Y、C0和C1维度具有以及基函数。将ty,tc0以及tc1指示为Y、C0和C1维度中的结点索引。给定三个维度中结点集合,可具有三个单独的基函数集:以及用于预测亮度通道的张量积B样条基函数可以通过将全部三个通道相乘来构建,如下所示。
跨通道预测可以被执行为:
可以将3D索引(即ty,tc0以及tc1)矢量化为1D索引(即t)以简化表达式。对于基函数,则:
令预测可以表达为:
利用一帧中的所有P像素,可以构建设计矩阵如下
预测系数可以表示为向量
预测可以表示为
其中,
的最优解可通过最小化最小方差准则来获得:
在上面的等式中,向量表示真实HDR亮度值。
类似地,可以为两个色度通道构建张量积B样条预测器。假设沿Y、C0和C1维度具有以及(其中c可以是c0或c1)基函数。给定三个维度中的结点集合,有三个单独的基函数集以及
用于色度通道的张量积基函数如下。
可以将3D索引(即ty,tc0以及tc1)矢量化为1D索引(即t)以简化该式。设
利用一帧中的所有P像素,可以构建矩阵形式:
预测系数可以表示为向量
预测可以表示为
的最优解可以通过最小方差最小化获得,即:
值得注意的是,如果所有三个通道具有相同的张量积基函数,则S矩阵将相同,即
在解码器侧,只需要计算没有必要对于每个通道将其计算三次。然后,每个通道的预测值将简单地是S矩阵与对应预测系数的乘积。
结点的位置可以是均匀分布的,也可以是非均匀分布的。均匀分布简化了解码过程并减少了要发送给解码器的元数据量。不需所有结点的位置,而仅需要结点的总数。假设节点均匀分布,在一个实施例中,TPB元数据包括:
TPB参数
·三个通道的三个维度中的每一维度中结点的数量T
·三个通道的三个维度中的每一维度中多项式阶次l
TPB系数
·用于亮度通道的系数
·用于色度C0通道的系数
·用于色度C1通道的系数
辅助数据
这些参数可能与张量积B样条表示不直接相关,但它们确实有助于基于TPB的预测。稍后将提供更详细的描述。
·零系数数组:φy,φc0,φc1;指示哪些TPB系数为零,以减少传输开销(允许每个系数使用单个比特,对比每个系数使用多个比特)
·基础标志(basis flag):以及
(如果则TPB参数和零系数数组与前一个通道中的相同)
(如果则TPB参数和零系数数组不同)
·系数数据类型
·限幅值存在标志:ψclip
(=1使用低/高输入限幅值)
(=0不使用低/高输入限幅值)
·低输入限幅值:
·高输入限幅值:
表1示出了元数据中存在的TPB参数的示例。
表1:TPB相关元数据中的TPB参数的示例
维度Y | 维度C0 | 维度C1 | |
通道Y | ly,y,Ty,y | ly,c0,Ty,c0 | ly,c1,Ty,c1 |
通道C0 | lc0,y,Tc0,y | lc0,c0,Tc0,c0 | lc0,c1,Tc0,c1 |
通道C1 | lc1,y,Tc1,y | lc1,c0,Tc1,c0 | lc1,c1,Tc1,c1 |
该元数据与压缩的基本层一起传输到解码器。TPB参数的其余部分(例如结点和结点距离h)都是从上述参数推导出来的。假设方程的结点均匀分布,为简单起见,可以删除符号的上标和下标。然后,对于T个结点,结点之间的距离h被计算如下:
结点{kt}可能形成1D数组,该数组可以从元数据中的TPB参数中得出,如下所示。
kt=-l×h+t×h
在上等式中,t∈[K(l-1),2×l+T-1]和K={1,1,2}。这些得出的TPB参数和元数据中的原始参数在解码过程中一起使用。
TPB解码过程
在一个实施例中,如前所述,值得构建3D-LUT来存储对于样本像素的从SDR(基本层)到HDR域的映射。
用表示将输入SDR像素映射到输出HDR像素的基于TPB的3D-LUT。这里i是3D-LUT中的像素索引,j是帧索引。设的大小由L0×L1×L2表示。在一个示例中,不作为限制,3D-LUT的大小可以是17×17×17或33×33×33,即L0=L1=L2=17,或者L0=L1=L2=33。
解析从复合比特流接收的元数据以获取TPB参数、系数和辅助数据。然后可以使用两种方法构建3D-LUT:
1.常规方法:对于每个3D-LUT索引,TPB参数生成基函数,TPB系数使用基函数计算输出像素值。
2.快速方法:将基函数的常用值存储在一个或多个二维数组中。这些数组随后与TPB系数一起用于计算输出像素值。
以下将介绍这两种方法。此后假设TPB结点是均匀分布的。TPB参数如下表所示,其中每个通道中的每个维度都有其对应的结点数组{kt}、结点距离h和TPB阶次l。
表2:基于TPB的预测中使用的不同通道和维度的TPB参数
用于基于TPB的3D-LUT构建的常规方法
当节点均匀分布时,包括外部节点,B样条基函数可以用截断多项式的线性组合来表示。l阶截断多项式定义为
下面,{kt}表示结点,h表示对于均匀分布的两个连续结点之间的距离。为了简单起见,在没有通道特定细节或维度特定细节的情况下定义了核心式子。在解释亮度或色度特定的TPB预测式时,将重新引入通道和维度特定的符号。
A.1阶
第t个B样条基函数的1阶可以表示为
仅在[kt-1kt+1]或2h间隔之间为正。超出此范围则为0。
B.2阶
第t个B样条基函数的2阶可以表示为
仅在[kt-1kt+2]或3h间隔之间为正。超出此范围则为0。
C.3阶
第t个B样条基函数的3阶可以表示为
仅在[kt-2kt+2]或4h间隔之间为正。超出此范围则为0。
具有截断多项式表达式避免了在解码器侧应用递归B样条基函数的需要。请注意,递归B样条表达式对于硬件实现并不友好。递归表达式需要更多的时间和内存空间来计算。截断多项式表达式可以节省计算量(通过牺牲灵活性来获得“非均匀”结点)。用于单通道Bt的整体均匀结点TPB基函数描述如下。
上述单通道基函数可以通过取三个维度中B样条函数的乘积而被扩展为跨通道TPB基函数以亮度通道预测为例。使用以及作为亮度通道预测器的Y、C0和Cl维度的结点,每两个连续结点之间的距离可以分别表示为hy,y,hy,c0以及hy ,c1。TPB在这三个维度上的阶次分别为ly,y,ly,c0以及ly,c1。然后,以下等式给出了用于亮度通道预测器的跨通道TPB基函数。
上面的第t个TPB基函数由第p个、第q个和第r个B样条函数相乘而成,在Y、C0和C1三个维度上各有该B样条函数中的一个。请注意,这三个输入中的每一个均使用从此处显示的元数据中接收的各自的低限幅值(即)以及高限幅值(即)进行限幅。
clip3(w,wmin,wmax)函数对w的值进行限幅以使其保持在[wmin,wmax]内。然后如果w<wmin,然后w=wmin。如果w>wmax,然后w=wmax。否则,w的值将不改变。给定被限幅的SDR像素使用亮度通道TPB系数来预测HDR值
将计算B样条函数值(例如对于给定和给定的结点的)表示为一个B样条运算。给定:
·结点数量Ty,y=Ty,c0=Ty,c1=9
·阶次ly,y=ly,c0=ly,c1=3
·然后
Dy=(Ty,y+ly,y-1)×(Ty,c0+ly,c0-1)×(Ty,c1+ly,c1-1)
=11×11×11
=1331
因此,需要1331次B样条运算来评估每个3D-LUT条目。
·如果使用常规方法计算TPB预测,则对于每个3D-LUT条目,都会重复Dy运算,这需要
总B样条运算=Dy×L0×L1×L2
=1331×33×33×33
=47,832,147
对于33×33×33LUT,总共需要大约4700万次B样条运算来预测所有亮度HDR值。
对于色度通道,将以及表示为对于色度c=c0,c1通道预测器的维度Y、C0和C1的结点。每两个连续节点之间的距离可以分别表示为hc,y,hc,c0以及hc,c1。TPB在这三个维度上的阶次分别是lc,y,lc,c0以及lc,c1。然后,以下等式给出了色度通道预测器的跨通道TPB基函数
然后可使用色度通道TPB系数来预测HDR值以及
与亮度通道预测器类似,如果设置与亮度通道预测器相同,则需要大约4700万次B样条运算来计算对于一个色度通道的33×33×33LUT中的所有HDR值。
在所有三个预测的HDR值被获得后,在限幅到有效信号范围后,它们被保存在3D-LUT中。对于中的每个条目,使用三个跨通道TPB预测器来预测对应的HDR像素
计算截断多项式、B样条函数、TPB基函数和TPB预测的整个过程会对3D-LUT中的每个条目重复进行。这使得该过程对于时间敏感的应用来说太慢;但是,许多计算会对3D-LUT的每个条目一再重复进行。可以通过将它们的值保存在数组中并重复使用这些存储的值(而不是每次都计算它们)来避免这些重复操作。正如下一节所述,这大大节省了计算时间。
基于TPB的3D-LUT快速构建方法
为了加快对于3D-LUT条目从基本层像素预测HDR像素的过程,在一个实施例中,更快的方法使用少量额外的内存来存储预测过程中经常使用的中间结果。不失一般性,作为示例,考虑亮度通道预测器。用于跨通道亮度预测器的TPB基函数由下式给出:
如果关注组成B样条函数:
1.第一维度
a.这里,p∈[0,Ty,y+ly,y-2],因为总共有Ty,y+ly,y-1个B样条函数。
b.对于所有这些B样条,TPB阶次ly,y以及hy,y都是相同的。
c.结点依赖于p。
d对于L0×L1×L2 3D-LUT 有L0个不同的可能值。
该函数有(Ty,y+ly,y-1)×L0种不同的可能结果,可以存储在2D(二维)数组Ay,y中。
2.第二维度
遵循与上述类似的推理:
a.该函数有(Ty,c0+ly,c0-1)×L1种不同的可能结果,可以存储在二维数组Ay,c0中。
3.第三维度
遵循与之前类似的推理:
a.该函数有(Ty,c1+ly,c1-1)×L2种不同的可能结果,可以存储在二维数组Ay,c1中。
应指出:函数以及是如式(12)所示的广义函数Bt(x,kt,h,l)的维度特定变型,其中,为简单起见,下标和上标均被删除。对于所考虑的第一、第二和第三维度中的每一维度,式(12)中的下标t分别被下标p、q或r取代。
现在,用于亮度预测的TPB基函数方程可被以数组的形式表示为:
可以使用亮度通道TPB系数来预测HDR值
即使需要Dy相加,它们也只能访问数组中预先计算的值。访问数组比计算对应的B样条函数要快得多。如果采用与之前相同的结点和阶次设置,即
·结点数量Ty,y=Ty,c0=Ty,c1=9
·阶次ly,y=ly,c0=ly,c1=3,
·然后
总B样条运算=(Ty,y+ly,y-1)×L0+(Ty,c0+ly,c0-1)×L1+(Ty,c1+ly,c1-1)×L2
=11×33+11×33+11×33
=1089
因此,仅需1089次B样条运算即可评估对于亮度通道的33×33×33 3D-LUT的所有条目。
如果使用快速方法计算TPB预测,则需要1089次B样条运算来计算3D-LUT中的所有亮度HDR值。相反,常规方法需要4700万次B样条运算来预测3DLUT中的所有HDR亮度值。
以下等式给出了用于色度通道预测器的跨通道TPB基函数
这里的B样条函数也可以用数组条目替换。因为它们与亮度通道预测器中的推导类似,所以这里跳过细节。
对于色度通道,B样条运算次数为1089,以通过上述设置预测33×33×33 3DLUT的所有HDR色度值。如果用于两个或更多个通道的元数据中的TPB参数相同,则可以进一步减少B样条运算的次数。为了接下来的讨论,设用于通道c=y,c0,c1的元数据中存在的TPB参数集合被表示为:
Γc={Tc,y,Tc,c0,Tc,c1,lc,y,lc,c0,lc,c1}。
结点数量T和阶数l是元数据中仅存在的TPB参数。应指出,TPB系数不包含在TPB参数的定义中。如果对两个通道的参数集合逐元素地比较,并且所有对应值都相等,则认为这两个通道的TPB参数相同。否则,两个通道的TPB参数是不同的。这导致了三种常见场景:
1.亮度和色度TPB参数不同
2.色度TPB参数相同,但亮度TPB参数不同
3.亮度和色度TPB参数相同
这些场景可以从元数据中的基础标志以及被识别。图2A示出了这三种场景的示例流程图。此后,不失一般性,假设这三种场景下所有三个通道的限幅值都不同。即:
场景1:亮度和色度TPB参数不同
这是默认的最坏场景,其中所有通道的TPB参数彼此不同。从数学上来说,它可以表示为Γy≠Γc0≠Γc1,或者更详细地表示为:
{Ty,y,Ty,c0,Ty,c1,ly,y,ly,c0,ly,c1}≠{Tc0,y,Tc0,c0,Tc0,c1,lc0,y,lc0,c0,lc0,c1},{Ty,y,Ty,c0,Ty,c1,ly,y,ly,c0,ly,c1}≠{Tc1,y,Tc1,c0,Tc1,c1,lc1,y,lc1,c0,lc1,c1},{Tc0,y,Tc0,c0,Tc0,c1,lc0 ,y,lc0,c0,lc0,c1}≠{Tc1,y,Tc1,c0,Tc1,c1,lc1,y,lc1,c0,lc1,c1}
这种场景也可以直接从元数据语法中推断出来,为简洁起见,当基础标志为时,也称为参考处理单元(RPU)语法。每个通道将有三个不同的2D数组来存储B样条函数。示出了此场景中的2D数组,图3A描绘了一个示例图。
表3:用于存储场景1的B样条函数的数组
维度Y | 维度C0 | 维度C1 | |
通道Y | Ay,y | Ay,c0 | Ay,c1 |
通道C0 | Ac0,y | Ac0,c0 | Ac0,c1 |
通道C1 | Ac1,y | Ac1,c0 | Ac1,c1 |
为了估计B样条运算的数量,假设Γy={9,9,9,3,3,3},Γc0={9,9,9,3,3,3}以及Γc1={9,9,9,3,3,3}。尽管这些示例值类似于所有通道具有相同TPB参数的情况,但使用这些值将有助于在场景之间进行公平的比较。对于每个通道进行1089次B样条运算。在此场景中,构建大小为33×33×33的完整3D-LUT所需的B样条运算的总数将为1089×3=3,267。
场景2:色度TPB参数相同,但亮度TPB参数不同
这种情况很常见,因为色度通道通常具有相同的TPB参数,而亮度通道具有不同的参数,即Γy≠Γc0=Γc1。相应的式子如下所示。
{Ty,y,Ty,c0,Ty,c1,ly,y,ly,c0,ly,c1}≠{Tc0,y,Tc0,c0,Tc0,c1,lc0,y,lc0,c0,lc0,c1},{Ty,y,Ty,c0,Ty,c1,ly,y,ly,c0,ly,c1}≠{Tc1,y,Tc1,c0,Tc1,c1,lc1,y,lc1,c0,lc1,c1},{Tc0,y,Tc0,c0,Tc0,c1,lc0 ,y,lc0,c0,lc0,c1}={Tc1,y,Tc1,c0,Tc1,c1,lc1,y,lc1,c0,lc1,c1}
第二种场景也可以通过RPU语法来指示,其中基础标志为人类对亮度变化比色度变化更敏感。因此,亮度由更复杂的TPB基函数预测,而色度通道则由更简单的函数预测。亮度通道有不同的二维数组,但色度通道可以共享相同二维数组集。示出了此场景中使用的二维数组,图3B描绘了示例图。
表4:用于存储用于场景2的B样条函数的数组
维度Y | 维度C0 | 维度C1 | |
通道Y | Ay,y | Ay,c0 | Ay,c1 |
通道C0/C1 | Ac,y | Ac,c0 | Ac,c1 |
当基础标志为仍然可以使用第二种场景;然而在实践中,这种情况相当罕见且不常见。为了估计B样条运算的数量,假设Γy={9,9,9,3,3,3},Γc0={9,9,9,3,3,3}以及Γc1={9,9,9,3,3,3}。对于每个通道进行1089次B样条运算。在此场景中,构建大小为33×33×33的完整3D-LUT所需的B样条运算的总数将为1089×2=2178。
场景3:亮度和色度TPB参数全部相同
在此场景中,三个通道的TPB参数集合都是相同的,即Γy=Γc0=Γc1,如这些式子所示。
{Ty,y,Ty,c0,Ty,c1,ly,y,ly,c0,ly,c1}={Tc0,y,Tc0,c0,Tc0,c1,lc0,y,lc0,c0,lc0,c1},{Ty,y,Ty,c0,Ty,c1,ly,y,ly,c0,ly,c1}={Tc1,y,Tc1,c0,Tc1,c1,lc1,y,lc1,c0,lc1,c1},{Tc0,y,Tc0,c0,Tc0,c1,lc0 ,y,lc0,c0,lc0,c1}={Tc1,y,Tc1,c0,Tc1,c1,lc1,y,lc1,c0,lc1,c1}
这减少了传输的元数据量,并且解码器侧的计算更快。当基础标志为时,也可以从RPU语法推断出第三种场景。所有三个通道共享相同二维数组集。示出了2D数组,且图3C提供示例说明。
表5:用于存储用于场景3的B样条函数的数组
维度Y | 维度C0 | 维度C1 | |
通道Y/C0/C1 | Ay | Ac0 | Ac1 |
为了估计B样条运算的数量,假设Γy={9,9,9,3,3,3},Γc0={9,9,9,3,3,3}以及Γc1={9,9,9,3,3,3}。对于每个通道进行1089次B样条运算。在此场景中,构建大小为33×33×33的完整3D-LUT所需的B样条运算的总数将为1089。
在所有上述场景中,采样位置可以沿Y、C0和C1轴均匀分布,也可以非均匀分布。类似地,沿Y、C0和C1轴的采样位置可以相同(例如,)或不同(例如,)。该算法仍将照常工作。因此,采样位置的变化不会影响上述三种场景的执行时间。
可能存在第四种场景,其中(i)TPB参数对于所有通道都相同,(ii)采样位置对于所有轴也相同以及(iii)低限幅值和高限幅值对于所有通道也相同。那么只需一个二维数组就足够了。但由于限幅值通常不同,这种情况非常少见。
图2B总结了针对前面描述的三种场景的处理流程。对于场景1,生成了九个临时数组(例如,见表3)。每个颜色成分使用这些表中的三个表的不同集合。对于场景2,生成了六个临时数组(例如,见表4)。亮度使用这些表中的三个表,而两个色度分量则使用另外三个表。对于场景3,生成三个临时数组(例如,见表5),并使用相同的表生成3D-LUT来预测所有颜色分量。给定这些临时表,解码器构建3D-LUT(见式(8)),其可用于SDR到HDR预测,如式(8)和(15)中所示。
向后兼容的移动配置文件
如前所述,虽然基于TPB的映射与传统预测(例如,用于亮度的分段线性预测或用于色度的MMR预测)相比提供了更好的视频质量,但HDR内容需要由传统设备(例如,市场上的HDR电视)和支持TPB相关元数据的新设备两者进行回放。
在一个实施例中,扩展映射索引与表示增强层流的位深的现有参数(例如,在传统蓝光HDR内容中使用的参数)相结合,用于指向TPB预测参数的使用。当比特流到达支持新RPU语法和TPB预测的新移动设备时,设备将使用TPB构建静态或动态3D-LUT来重构HDR。当比特流到达传统设备(例如杜比视界(Dolby Vision)电视)时,设备将使用(静态或动态)合成器来构建HDR图像。这样,流就可以向后兼容,但可以针对使用最新解码器的用户(例如移动用户)优化用户体验。图4描绘了这种向后兼容的示例过程。
如图4所示,在示例实施例中,针对传统设备和新的移动优化配置文件(MOP)的HDR内容的元数据包括两种语法结构内的元数据,这里这两种语法结构被表示为针对传统内容的RPU(类型2)和针对附加TPB相关内容的RPU(类型3)。传统设备(415)将忽略RPU(类型3)内容,并使用传统HDR解码(420)重构HDR内容。支持RPU(类型3)元数据的移动设备(405)将使用所有可用元数据生成基于TPB的3D-LUT,并执行基于TPB的解码(410),质量得到提高。
TPB元数据(RPU(类型3))语法示例
在一个实施例中,可以使用两个语法元素EL_bit_depth_minus8和ext_mapping_idc的组合来发信号指示TPB预测,示例描述如下:
EL_bit_depth_minus8用于导出增强层信号的位深,即EL_bit_depth,以及导出扩展基本层逆映射方法指示,即ext_mapping_idc。EL_bit_depth=(EL_bit_depth_minus8&0xFF)+8。ext_mapping_idc=(EL_bit_depth_minus8&0xFF00)>>8。((EL_bit_depth_minus8&0xFFFF0000)>>16)的值应等于零。EL_bit_depth_minus8的值应在0至4294967295范围内(含0和4294967295)。当rpu_type等于2且rpu_format&0x700不等于0时,EL_bit_depth_minus8不存在。
ext_mapping_idc的最低5比特是扩展基本层逆映射方法指示符,如表7中所定义的。ext_mapping_idc的其他比特被保留以备将来使用,例如用于识别新的预测器,超出文中描述的TPB预测器的功能。
应指出-如果ext_mapping_idc&0xlF等于1,则解码器应将BL信号按原样用于重构HDR信号。作为替代,如果解码器无法识别ext_mapping_idc字段,则应退回到使用如mapping_idc所示的基本层映射方法以重构HDR信号。
应指出-如果ext_mapping_idc&0xlF大于1且小于5或等于31,则解码器应退回到使用由mapping_idc指示的基本层映射方法来重构HDR信号。
应指出-如果ext_mapping_idc大于4且小于31,如果解码器支持ext_mapping_idc指示的当前TPB预测类型,则应使用TPB预测方法进行基本层逆映射。如果解码器不支持当前的TPB预测类型或者根本不识别ext_mapping_idc字段,则它应退回到使用由mapping_idc指示的基本层映射方法来重构HDR信号。
应指出-如果ext_mapping_idc等于5,则对于当前图片,应在rpu_type=2的RPU之后立即传输rpu_type=3的伴随RPU。如果解码器识别到rpu_type=3的RPU,RPU解析器应提取自定义的TPB预测系数并在TPB预测过程中使用它们。
表6:ext_mapping_idc的示例性语法
为了确保向后兼容性,移动优化的配置文件使用现有RPU语法中的EL_bit_depth_minus8字段将8比特的TPB ext_mapping_idc发送给解码器。在EL_bit_depth_minus8中,无符号的32比特字段将ext_mapping_idc和EL_bit_depth_minus8值封装在不同的比特位置,如表7所示。
表7 EL_bit_depth_minus8解析
31…24 | 23…16 | 15…8 | 7…0 |
保留 | 保留 | ext_mapping_idc | EL_bit_depth_minus8 |
因此,为了向后兼容,LSB 8比特携带EL_bit_depth_minus8值。传统设备会丢弃最高的24比特,仅解析较低的8比特来获取值。接下来的8比特(从15到8)包含可由支持最新RPU语法的设备解释的信息。ext_mapping_idc的语义如表6所示。
如果ext_mapping_idc大于4且小于32,则当解码器支持ext_mapping_idc所指示的当前TPB预测类型时,使用TPB预测方法进行基本层逆映射。如果解码器不支持当前的TPB预测类型或者根本无法识别ext_mapping_idc字段,则会退回到使用由mapping_idc语法变量指示的基本层映射方法来重构HDR信号。无需赘述,在一个实施例中,mapping_idc语法变量是一个16位字段,用于指定各种传统映射选项。
如果ext_mapping_idc等于5,那么对于当前图片,在rpu_type=2的RPU之后将立即传输rpu_type=3的伴随RPU结构。如果解码器识别到rpu_type=3的RPU元数据,则RPU解析器应提取自定义TPB预测系数,并在TPB预测过程中使用它们。图5总结了这个过程。
如图5所示,给定视频基本流(502),解码器将解析元数据(505、402)和基本层(BL)比特流(510)。查看元数据中的EL_bit_depth_minus8参数,传统设备将仅提取8个最低有效位来读取(如果有的话)增强层数据的位深。另一方面,较新的设备将读取至少16位,并可以提取(如果有的话)增强层数据的位深、以及与TPB预测相关的信息的新语法参数的值(例如,ext_mapping_idc)。
示例TPB有效载荷(RPU(类型3))语法和语义
“TPB跨颜色通道预测器”部分已经描述了关键RPU(类型3)元数据,其包括TPB参数、TPB系数和辅助数据。在一个实施例中,表8描述了RPU(类型3)有效载荷语法的示例。
表8:RPU(类型3)示例有效载荷语法
对于rpu_type等于3的RPU数据有效载荷的语义被定义如下。tpb_coef_data_type[y][x]指定用于纵坐标为y、横坐标为x的分区的非零TPB系数的长度。数据类型定义如下。
tpb_clipping_flag[y][x]等于1表示用于具有纵坐标y和横坐标x的分区的输入信号的限幅阈值的下限和上限存在。
tpb_clipping_low[y][x][cmp]指定用于具有纵坐标y和横坐标x的分区以及颜色分量cmp的输入信号的10位限幅阈值的下限。如果tpb_clipping_low[y][x][cmp]不存在,则应推断为0。
tpb_clipping_high[y][x][cmp]指定用于具有纵坐标y和横坐标x的分区以及颜色分量cmp的输入信号的10位限幅阈值的上限。如果tpb_clipping_high[y][x][cmp]不存在,则应推断为0x3 FF。
tpb_basis_flag[y][x][cmp]等于1表示用于具有纵坐标y和横坐标x的分区以及颜色分量cmp的基函数与用于具有纵坐标y和横坐标x的分区以及颜色分量(cmp-1)的基函数相同。如果tpb_basis_flag[y][x][cmp]不存在,则应推断为0。
tpb_num_knot_minus1[y][x][cmp][c]指定用于具有纵坐标y和横坐标x的分区的TPB结点数减1。若tpb_num_knot_minusl[y][x][cmp][c]不存在,则应将其推断为tpb_num_knot_minusl[y][x][cmp-1][c]的值。
tpb_order_minus1[y][x][cmp][c]指定用于具有纵坐标y和横坐标x的分区以及颜色分量cmp的、在通道c中的TPB预测阶次减1。若tpb_order_minusl[y][x][cmp][c]不存在,则应推断为tpb_order_minusl[y][x][cmp-1][c]的值。
tpb_zero_coef[y][x][cmp][i][j][k]等于1表示在通道0的第i结点、通道1的第j结点和通道2的第k结点处、用于具有纵坐标y和横坐标x的分区以及颜色分量cmp的系数为零。若tpb_zero_coef[y][x][cmp][i][j][k]不存在,则应将其推断为tpb_zero_coef[y][x][cmp-1][i][j][k]的值。
tpb_coef[y][x][cmp][i][j][k]指定在在通道0的第i结点、通道1的第j结点和通道2的第k结点处、用于具有纵坐标y和横坐标x的分区以及颜色分量cmp的系数为非零TPB系数。tpb_coef[y][x][cmp][i][j][k]语法元素的长度由tpb_coef_data_type[y][x]导出。如果tpb_coef[y][x][cmp][i][j][k]不存在,则应推断为0。
应指出:tpb_zero_coeff为指示对应TPB系数是否为零的指示符。已经观察到许多TPB系数的值为0。可以使用这个1位指示符来减少开销,而不是使用半浮点数将这些系数作为“0”进行信号传输。当然,仍然需要在元数据中包含非零TPB系数。
ext_mapping_preferred_LO_present_flag等于1表示HDR显示管理信号表示元数据的signal_eotf语法元素、signal_eotf_param0语法元素、signal_eotf_param1语法元素、signal_eotf_param2语法元素和signal_bit_depth语法元素的优选替代值存在于rpu_type=3的当前HDR RPU中。如果ext_mapping_preferred_L0_present_flag不存在,则其应推断为0。ext_signal_eotf指定了DM信号表示元数据的signal_eotf语法元素的优选替代值。ext_signal_eotf的语义与HDR显示管理元数据中指定的signal_eotf语法元素相同。当ext_signal_eotf不等于HDR显示管理元数据中指示的signal_eotf的值并且解码器支持ext_mapping_idc指示的扩展基本层逆映射方法时,解码器应忽略HDR显示管理元数据中指示的signal_eotf的值,而是使用由ext_signal_eotf指示的值。
ext_signal_eotf_param0指定了DM信号表示元数据的signal_eotf_param0语法元素的优选替代值。ext_signal_eotf_param0的语义与HDR显示管理元数据中指定的signal_eotf_param0语法元素的语义相同。当ext_signal_eotf_param0不等于HDR显示管理元数据中指示的signal_eotf_param0的值并且解码器支持ext_mapping_idc指示的扩展基本层逆映射方法时,解码器应当忽略HDR显示管理元数据中指示的signal_eotf_param0的值,而是使用ext_signal_eotf_param0指示的值。
ext_signal_eotf_param1指定了DM信号表示元数据的signal_eotf_param1语法元素的优选替代值。ext_signal_eotf_param1的语义与HDR显示管理元数据中指定的signal_eotf_param1语法元素的语义相同。当ext_signal_eotf_param1不等于HDR显示管理元数据中指定的signal_eotf_param1的值并且解码器支持ext_mapping_idc指示的扩展基本层逆映射方法,解码器应忽略HDR显示管理元数据中指示的signal_eotf_param1的值,而是使用ext_signal_eotf_param1指示的值。
ext_signal_eotf_param2指定了DM信号表示元数据的signal_eotf_param2语法元素的优选替代值。ext_signal_eotf_param2的语义与HDR显示管理元数据中指定的signal_eotf_param2语法元素的语义相同。当ext_signal_eotf_param2不等于HDR显示管理元数据中指示的signal_eotf_param2的值并且解码器支持ext_mapping_idc指示的扩展基本层逆映射方法时,解码器应忽略HDR显示管理元数据中指示的signal_eotf_param2的值,而是使用ext_signal_eotf_param2指示的值。
ext_signal_bit_depth指定DM信号表示元数据的signal_bit_depth语法元素的优选替代值。ext_signal_bit_depth的语义与HDR显示管理元数据中指定的signal_bit_depth语法元素的语义相同。当ext_signal_bit_depth不等于HDR显示管理元数据中指示的signal_bit_depth的值,并且解码器支持ext_mapping_idc指示的扩展基本层逆映射方法时,解码器应忽略HDR显示管理元数据中指示的signal_bit_depth的值,而是使用ext_signal_bit_depth指示的值。
ext_source_min_PQ指定了DM信号表示元数据的source_min_PQ语法元素的优选替代值。ext_source_min_PQ的语义与HDR显示管理元数据中指定的source_min_PQ语法元素的语义相同。当ext_source_min_PQ不等于HDR显示管理元数据中指示的source_min_PQ的值,并且解码器支持ext_mapping_idc指示的扩展基本层逆映射方法时,解码器应忽略HDR显示管理元数据中指示的source_min_PQ的值,而是使用ext_source_min_PQ指示的值。
ext_source_max_PQ指定了DM信号表示元数据的source_max_PQ语法元素的优选替代值。ext_source_max_PQ的语义与HDR显示管理元数据中指定的source_max_PQ语法元素的语义相同。当ext_source_max_PQ不等于HDR显示管理元数据中指示的source_max_PQ的值,且解码器支持ext_mapping_idc指示的扩展基本层逆映射方法时,解码器应忽略HDR显示管理元数据中指示的source_max_PQ的值,而是使用ext_source_max_PQ指示的值。
尽管示例实施例是针对移动应用提供的,但是本领域技术人员可以理解,所提出的方法和系统也适用于非移动设备,例如机顶盒、电视机、计算机、游戏机和其他用于播放视频内容的设备。
参考文献
这些参考文献中的每一个都通过引用而全文并入本文。
1.G-M.Su and H.Kadu,“Image prediction for HDR imaging in open-loopcodecs,”PCT Application Ser.No.PCT/US2021/038258,filed on June 21,2021.
2.G-M.Su et al.,“Multipe color channel multiple regressionpredictor,”U.S.Patent 8,811,490.
3.G-M Su et al.,“Tensor-product B-Spline predictor,”PCT ApplicationSer.No.PCT/US2020/053172,filed on Sep.29,2020,published as WO/2021/067204 onApril 8,2021.
4.L.Fahrmeir,T.Kneib,S.Lang,and B.Marx,“Regression;models,methods,andapplications,”pp.418,Springer,2013.
示例计算机系统实现
本发明的实施例可以利用计算机系统、以电子电路和部件来配置的系统、集成电路(IC)设备(如微控制器、现场可编程门阵列(FPGA)或另一个可配置或可编程逻辑器件(PLD)、离散时间或数字信号处理器(DSP)、专用IC(ASIC))和/或包括这样的系统、设备或部件中的一个或多个的装置来实施。计算机和/或IC可以执行、控制或实行与具有增强动态范围的图像的自适应感知量化相关的指令,如本文所述的那些指令。计算机和/或IC可以计算与如本文所描述的自适应感知量化过程相关的各种参数或值中的任何参数或值。图像和视频实施例可以以硬件、软件、固件及其各种组合来实施。
本公开的某些实施方式包括执行软件指令的计算机处理器,这些软件指令使处理器执行本公开的方法。例如,显示器、编码器、机顶盒、转码器等中的一个或多个处理器可以通过执行该处理器可访问的程序存储器中的软件指令来实施与如上所述的用于图像预测技术的方法。还可以以程序产品的形式提供本公开。程序产品可以包括承载一组计算机可读信号的任何非暂态且有形介质,该一组计算机可读信号包括指令,该指令当由数据处理器执行时使数据处理器执行本公开的方法。根据本公开的程序产品可以采用各种非暂态和有形形式中的任何一种。程序产品可以包括例如物理介质,如包括软盘、硬盘驱动器的磁性数据存储介质、包括CD ROM、DVD的光学数据存储介质、包括ROM、闪速RAM的电子数据存储介质等。程序产品上的计算机可读信号可以可选地被压缩或加密。
在上面提到部件(例如,软件模块、处理器、组件、设备、电路等)的情况下,除非另有指明,否则对该部件的引用(包括对“手段”的引用)都应该被解释为包括执行所描述部件的功能的任何部件为该部件的等同物(例如,功能上等同的),包括在结构上不等同于执行在本公开的所图示示例实施例中的功能的所公开结构的部件。
等效项、扩展项、替代项和杂项
因此描述了与图像预测技术相关的示例实施例。在前述说明书中,已经参考可以根据实施方式而变化的许多具体细节描述了本发明的实施例。因此,指明本发明以及申请人的发明意图的唯一且排他性指示是根据本申请以具体形式发布的权利要求组,其中,这样的权利要求发布包括任何后续校正。本文中针对这样的权利要求中包含的术语明确阐述的任何定义应该支配如在权利要求中使用的这样的术语的含义。因此,权利要求中未明确引用的限制、要素、性质、特征、优点或属性不应该以任何方式限制这样的权利要求的范围。因此,应当从说明性而非限制性意义上看待本说明书和附图。
从下面列举的示例实施例(EEE)可以理解本发明的各个方面:
EEE1.一种解码高动态范围视频数据的方法,所述方法包括:
接收在输入动态范围中编码的输入图像;
接收用于所述输入图像的元数据以生成映射函数,所述映射函数用于将所述输入图像从所述输入动态范围映射到输出动态范围中的输出图像;
解析第一元数据参数以识别是否存在第二元数据参数;
如果存在第二元数据参数,则使用张量积B样条(TPB)预测器生成映射函数;
否则,使用传统预测器生成映射函数;以及
将映射函数应用于所述输入图像以生成输出图像。
EEE2.EEE1的方法,其中输入动态范围包括标准动态范围,并且输出动态范围包括高动态范围。
EEE3.EEE 1或EEE 2的方法,其中第一元数据参数包括用于确定输入图像的增强层中的位深的参数。
EEE4.EEE 1-3中的任一项的方法,其中,识别是否存在第二元数据参数包括:
屏蔽第一元数据参数以读取两个单独的值,第一值基于第一元数据参数的位0-7,第二值基于第一元数据参数的位8-15;以及
基于第二值识别是否存在第二元数据参数。
EEE5.EEE 1-4中的任一项的方法,其中使用张量积B样条(TPB)预测器生成映射函数包括:
访问输入图像的元数据内的TPB元数据,其中TPB元数据定义TBP相关的预测参数;并且
基于TPB元数据生成三维查找表(3D-LUT),以将输入动态范围中的像素值的选定三元组映射到输出动态范围中的对应输出三元组。
EEE6.EEE 5的方法,其中,TPB元数据包括:
亮度通道和两个色度通道三个维度中的每一维度中的结点(knot point)数(T);
亮度通道和两个色度通道三个维度中的每一维度中的多项式阶次(l)值;
亮度通道和两个色度通道的预测系数;以及
用于确定亮度通道和两个色度通道的预测系数之间的相关性的亮度通道基础标志和两个色度通道基础标志。
EEE7.EEE 6的方法,其中生成3D-LUT还包括:
如果所有基础标志都为0,则:
生成九个临时数组,每个颜色通道三个临时数组;
否则,如果亮度通道基础标志为0并且两个色度通道基础标志之一为1,则:
为亮度通道生成三个临时数组,为两个色度通道生成三个临时数组;
否则,如果亮度通道基础标志为0并且两个色度通道基础标志均为1,则:
生成三个临时数组以用于所有颜色通道;并且
对于每个颜色通道,基于用于该颜色通道的三个临时数组的乘积生成3D-LUT。
EEE8.一种非暂时性计算机可读存储介质,其上存储有计算机可执行指令,用于利用一个或多个处理器执行根据EEE 1-7中任一项的方法。
EEE9.一种装置,包括处理器并且配置为执行EEE 1-7中任一项的方法。
Claims (18)
1.一种解码高动态范围图像和视频的方法,所述方法包括:
接收在输入动态范围中编码的输入图像;
接收用于所述输入图像的元数据以生成映射函数,所述映射函数用于将所述输入图像从所述输入动态范围映射到输出动态范围中的输出图像;
解析第一元数据参数以识别是否存在第二元数据参数;
如果存在第二元数据参数,则使用非向后兼容预测器生成映射函数;
否则,使用向后兼容预测器生成映射函数;以及
将映射函数应用于所述输入图像以生成输出图像,
其中,所述输入动态范围包括标准动态范围,而所述输出动态范围包括高动态范围。
2.根据权利要求1所述的方法,其中第一元数据参数包括用于确定输入图像的增强层中的位深信息的参数。
3.根据权利要求1或2所述的方法,其中识别是否存在第二元数据参数包括:
屏蔽第一元数据参数以读取两个单独的值,第一值基于第一元数据参数的位0-7,第二值基于第一元数据参数的位8-15;以及
基于第二值识别是否存在第二元数据参数。
4.根据权利要求1-3中任一项所述的方法,其中非向后兼容预测器包括张量积B样条(TPB)预测器。
5.根据权利要求4所述的方法,其中使用张量积B样条(TPB)预测器生成映射函数涉及构建基于TPB的三维查找表(3D-LUT),并且特别地,基于TPB的3D-LUT是通过考虑TPB函数的性质而构建的。
6.根据权利要求5所述的方法,其中输入图像的元数据内的TPB元数据包括TPB相关的预测参数和预测系数。
7.根据权利要求6所述的方法,其中构建3D-LUT涉及对于每个3D-LUT索引,通过使用预测参数生成相应的基函数,并基于所述基函数使用预测系数计算相应的输出像素值。
8.根据权利要求6所述的方法,其中构建3D-LUT涉及首先将基函数的常用值存储在一个或多个2D数组中,以用于稍后使用预测系数计算输出像素值。
9.根据权利要求4-8中任一项所述的方法,其中使用张量积B样条(TPB)预测器生成映射函数包括:
访问输入图像的元数据内的TPB元数据,其中TPB元数据包括TBP相关的预测参数;并且
基于TPB元数据生成三维查找表(3D-LUT),以将输入动态范围中的像素值的选定三元组映射到输出动态范围中的像素值的对应输出三元组。
10.根据权利要求9所述的方法,其中TPB元数据包括:
亮度通道和两个色度通道的三个维度中的每一维度中的结点数(T);
亮度通道和两个色度通道的三个维度中的每一维度中的多项式阶次(l)值;
亮度通道和两个色度通道的预测系数;以及
用于确定亮度通道和两个色度通道的预测系数之间的相关性的亮度通道基础标志和两个色度通道基础标志。
11.根据权利要求10所述的方法,其中生成3D-LUT还包括:
如果所有基础标志都为0,则:
生成九个临时数组,每个颜色通道三个临时数组;
否则,如果亮度通道基础标志为0并且两个色度通道基础标志之一为1,则:
为亮度通道生成三个临时数组,为两个色度通道生成三个临时数组;
否则,如果亮度通道基础标志为0并且两个色度通道基础标志均为1,则:
生成三个临时数组以用于所有颜色通道;并且
对于每个颜色通道,基于用于该颜色通道的三个临时数组的乘积生成3D-LUT。
12.根据权利要求11所述的方法,其中,
为亮度颜色通道生成三个临时数组包括计算数组以及
其中,对于L0×L1×L2 3D-LUT:
指示对于输入亮度像素值距离为hy,y的均匀分布的结点阶次ly,y、以及总共个节点的B样条函数的(Ty,y+ly,y-1)×L0个值;
指示对于输入C0色度像素值距离为hy,c0的均匀分布的结点阶次ly,c0、以及总共个节点的B样条函数的(Ty,c0+ly,c0-1)×L1个值;以及
指示对于输入C1色度像素值距离为hy,c1的均匀分布的结点阶次ly,c1、以及总共个节点的B样条函数的(Ty,c1+ly,c1-1)×L2个值。
13.根据权利要求12所述的方法,其中在3D-LUT中生成亮度输出值还包括计算
以及
将输出动态范围内的输出值预测为
其中,
Dy=(Ty,y+ly,y-1)×(Ty,c0+ly,c0-1)×(Ty,c1+ly,c1-1),以及为预测系数。
14.权利要求12的方法,其中对于形式为Bt(x,kt,h,l)的B样条函数计算输出点,其中x表示输入像素值,kt表示相距距离h的均匀分布结点,l表示其阶次,
其中对于被如下定义的第l阶截断多项式,
以及
15.根据权利要求14所述的方法,其中,Bt(x,kt,h,l)是针对在输入动态范围内均匀分布的Nx个值计算的。
16.根据权利要求14所述的方法,其中,Bt(x,kt,h,l)是针对输入动态范围内非均匀分布的Nx个值计算的。
17.一种非暂时性计算机可读存储介质,其上存储有计算机可执行指令,用于利用一个或多个处理器执行根据权利要求1-16中任一项所述的方法。
18.一种装置,包括处理器并且配置为执行根据权利要求1至16中任一项所述的方法。
Applications Claiming Priority (5)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US63/242,416 | 2021-09-09 | ||
US202163255057P | 2021-10-13 | 2021-10-13 | |
EP21202447.5 | 2021-10-13 | ||
US63/255,057 | 2021-10-13 | ||
PCT/US2022/042969 WO2023039112A1 (en) | 2021-09-09 | 2022-09-08 | Tensor-product b-spline prediction for hdr video in mobile applications |
Publications (1)
Publication Number | Publication Date |
---|---|
CN118140478A true CN118140478A (zh) | 2024-06-04 |
Family
ID=91232180
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202280069911.2A Pending CN118140478A (zh) | 2021-09-09 | 2022-09-08 | 移动应用中hdr视频的张量积b样条预测 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN118140478A (zh) |
-
2022
- 2022-09-08 CN CN202280069911.2A patent/CN118140478A/zh active Pending
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US9924171B2 (en) | Layer decomposition in hierarchical VDR coding | |
CN113228660B (zh) | 增强的标准动态范围视频(sdr+)中的基于机器学习的动态合成 | |
TWI769128B (zh) | 用於影像及視訊之電光及光電轉換的方法、系統及裝置 | |
JP6719391B2 (ja) | ビットストリーム内で、ldrピクチャのピクチャ/ビデオ・フォーマットと、このldrピクチャおよびイルミネーション・ピクチャから取得された復号済みのhdrピクチャのピクチャ/ビデオ・フォーマットとをシグナリングする方法および装置 | |
CN110754085B (zh) | 用于非4:4:4格式视频内容的颜色重映射 | |
CN113170205B (zh) | 整形函数生成方法及装置以及图像解码方法及装置 | |
CN114731426A (zh) | 张量乘积的b平滑曲线预测器 | |
JP2017017684A (ja) | 高ダイナミックレンジフレームおよびインポーズされる低ダイナミックレンジフレームの両方を符号化するための方法およびデバイス | |
JP2022515518A (ja) | イントラ予測のための成分間線形モデリングの方法および装置 | |
JP7560701B1 (ja) | モバイルアプリケーションにおけるhdrビデオについてのテンソル積bスプライン予測 | |
CN118140478A (zh) | 移动应用中hdr视频的张量积b样条预测 | |
US20230254494A1 (en) | Image prediction for hdr imaging in open-loop codecs | |
RU2794137C1 (ru) | Предсказатель b-сплайна тензорного произведения | |
CN116391356A (zh) | 用于具有编码效率约束的hdr视频的颜色变换 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |