CN118020090A - 用于hdr视频的多步骤显示映射和元数据重建 - Google Patents
用于hdr视频的多步骤显示映射和元数据重建 Download PDFInfo
- Publication number
- CN118020090A CN118020090A CN202280065481.7A CN202280065481A CN118020090A CN 118020090 A CN118020090 A CN 118020090A CN 202280065481 A CN202280065481 A CN 202280065481A CN 118020090 A CN118020090 A CN 118020090A
- Authority
- CN
- China
- Prior art keywords
- metadata
- base layer
- mapping
- display
- reconstructed
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000013507 mapping Methods 0.000 title claims abstract description 116
- 238000000034 method Methods 0.000 claims abstract description 53
- 230000008569 process Effects 0.000 abstract description 21
- 238000013138 pruning Methods 0.000 description 19
- 238000007726 management method Methods 0.000 description 14
- 230000006870 function Effects 0.000 description 10
- 238000004519 manufacturing process Methods 0.000 description 7
- 238000012545 processing Methods 0.000 description 6
- 230000005540 biological transmission Effects 0.000 description 5
- 230000000007 visual effect Effects 0.000 description 5
- 238000013459 approach Methods 0.000 description 4
- 238000006243 chemical reaction Methods 0.000 description 4
- 238000013500 data storage Methods 0.000 description 3
- 238000013213 extrapolation Methods 0.000 description 3
- 238000010606 normalization Methods 0.000 description 3
- 230000002123 temporal effect Effects 0.000 description 3
- 230000008901 benefit Effects 0.000 description 2
- 238000004364 calculation method Methods 0.000 description 2
- 238000013501 data transformation Methods 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 238000009877 rendering Methods 0.000 description 2
- 241000282412 Homo Species 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 239000003086 colorant Substances 0.000 description 1
- 230000000295 complement effect Effects 0.000 description 1
- 238000012937 correction Methods 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 230000004424 eye movement Effects 0.000 description 1
- 238000001914 filtration Methods 0.000 description 1
- 238000007667 floating Methods 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
- 238000005070 sampling Methods 0.000 description 1
- 238000007493 shaping process Methods 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
- 230000009466 transformation Effects 0.000 description 1
- 238000000844 transformation Methods 0.000 description 1
Landscapes
- Image Processing (AREA)
Abstract
描述了用于高动态范围(HDR)图像的多步骤显示映射和元数据重建的方法和系统。在编码器中,在给定第一动态范围内的具有输入HDR元数据的HDR输入图像的情况下,基于所述输入图像构建第二动态范围内的中间基本层图像。在解码器中,处理器使用基本层元数据、输入HDR元数据和目标显示器的动态范围特性生成重建后的元数据,所述重建后的元数据在与基本层图像结合使用时允许显示器映射过程将基本层图像映射到目标显示器,就像将HDR图像直接映射到目标显示器一样。
Description
相关申请的交叉引用
本申请要求于2021年9月28日提交的美国临时专利申请第63/249,183号、于2021年11月24日提交的欧洲专利申请第21210178.6号以及于2022年3月3日提交的美国临时专利申请第63/316,099号的优先权,这些专利申请中的每一个都通过援引以其全文并入本文。
技术领域
本发明总体上涉及图像。更具体地,本发明的实施例涉及高动态范围(HDR)图像的动态范围转换和显示映射。
背景技术
如本文所使用的,术语“动态范围(DR)”可以与人类视觉系统(HVS)感知图像中的强度(例如,光亮度(luminance)、亮度(luma))范围的能力有关,所述强度范围例如是从最暗的灰色(黑色)到最亮的白色(高光)。从这个意义上说,DR与“参考场景的(scene-referred)”强度有关。DR还可以涉及显示设备充分或近似渲染特定阔度(breadth)的强度范围的能力。从这个意义上说,DR与“参考显示的(display-referred)”强度有关。除非在本文的描述中的任何一点明确指定特定的意义具有特定的意思,否则应该推断为所述术语可以在任一意义上例如可互换地使用。
如本文所使用的,术语“高动态范围(HDR)”涉及跨越人类视觉系统(HVS)的大约14至15个数量级的DR阔度。实际上,相对于HDR,人类可以同时感知强度范围中的广泛阔度的DR可能会被稍微截短。如本文所使用的,术语“增强动态范围(EDR)或视觉动态范围(VDR)”可以单独地或可互换地与这种DR相关:所述DR可在场景或图像内由包括眼运动的人类视觉系统(HVS)感知,允许场景或图像上的一些光适应变化。
实际上,图像包括一个或多个颜色分量(例如,亮度Y以及色度Cb和Cr),其中,每个颜色分量由每像素n比特的精度表示(例如,n=8)。例如,使用伽马光亮度编解码,其中n≤8的图像(例如,彩色24比特JPEG图像)被视为标准动态范围的图像,而其中n≥10的图像可以被视为增强动态范围的图像。EDR和HDR图像也可以使用高精度(例如,16比特)浮点格式来存储和分发,诸如由工业光魔公司(Industrial Light and Magic)开发的OpenEXR文件格式。
如本文所使用的,术语“元数据”涉及作为编码比特流的一部分传输并且辅助解码器渲染经解码图像的任何辅助信息。这种元数据可以包括但不限于如本文描述的图像中的最小、平均和最大光亮度值、颜色空间或色域信息、参考显示器参数和辅助信号参数。
大多数消费类桌面显示器目前支持200到300cd/m2或尼特的光亮度。大多数消费类HDTV的范围为300到500尼特,其中,新型号达到1000尼特(cd/m2)。因此,这种传统显示器代表了相对于HDR或EDR的较低动态范围(LDR),也被称为标准动态范围(SDR)。随着HDR内容的可用性由于捕获设备(例如,相机)和HDR显示器(例如,杜比实验室的PRM-4200专业参考监视器)两者的发展而提高,HDR内容可以被颜色分级并被显示在支持更高动态范围(例如,从1,000尼特到5,000尼特或更高)的HDR显示器上。总体上,非限制性地,本公开的方法涉及高于SDR的任何动态范围。
如本文所使用的,术语“显示管理”是指在接收器上执行的用于为目标显示器渲染图片的过程。例如但不限于,这种过程可以包括色调映射、色域映射、颜色管理、帧速率转换等。
高动态范围(HDR)内容的创建和回放现在正变得普遍,因为HDR技术提供了比早期格式更逼真和栩栩如生的图像;然而,HDR回放可能会受到向后兼容性要求或计算能力局限性的约束。为了改进现有的显示方案,如在此由发明人所理解的,开发了用于图像和视频到HDR显示器上的显示管理的改进技术。
在本节中描述的方法是可以采用的方法,但不一定是先前已经设想到或采用过的方法。因此,除非另有指示,否则不应该认为本节中描述的任何方法仅凭其纳入本节就可被视为现有技术。类似地,除非另有指示,否则关于一种或多种方法所认定的问题不应该基于本节而认为在任何现有技术中被认定。
附图说明
在附图中以举例而非限制的方式来图示本发明的实施例,并且其中类似的附图标记指代类似的元素,并且在附图中:
图1描绘了视频传输流水线的示例过程;
图2A描绘了根据本发明的实施例的多级显示映射的示例过程;
图2B描绘了根据本发明的实施例的用于生成支持多级显示映射的比特流的示例过程;
图3A、图3B、图3C和图3D描绘了根据本发明的实施例的用于在多级显示映射中生成重建后的元数据的色调映射曲线的示例;
图4描绘了根据本发明的示例实施例的用于元数据重建的示例过程;以及
图5A和图5B描绘了根据实施例的没有“上映射”以及在使用“上映射”之后的色调映射的示例。
具体实施方式
本文描述了用于HDR图像和视频的多步骤动态范围转换和显示管理的方法。在以下说明中,出于说明的目的,阐述了许多具体细节以便提供对本发明的透彻理解。然而,明显的是,可以在没有这些具体细节的情况下实践本发明。在其他情形中,为了避免不必要地遮蔽、模糊或混淆本发明,没有详尽地描述众所周知的结构和设备。
概述
本文描述的示例实施例涉及用于图像到HDR显示器上的多步骤动态范围转换和显示管理的方法。在实施例中,处理器接收第一动态范围内的输入图像的输入元数据(204);
获取第二动态范围内的基本层图像(212),其中,所述基本层图像是基于所述输入图像生成的;
获取确定所述第二动态范围的基本层参数(208);
获取具有目标动态范围的目标显示器的显示参数(230);
基于所述输入元数据、所述基本层参数和所述显示参数生成重建后的元数据;
基于所述重建后的元数据和所述显示参数生成输出映射曲线,以将所述基本层图像映射到所述目标显示器;以及
使用所述输出映射曲线将所述基本层图像映射到所述目标动态范围内的所述目标显示器。
在第二实施例中,处理器接收第一动态范围内的输入图像(202);
获取所述输入图像的输入元数据(204);
获取确定第二动态范围的基本层参数(208);
基于所述输入图像、所述基本层参数和所述输入元数据生成(210)所述第二动态范围内的基本层图像;
获取具有目标动态范围的目标显示器的显示参数(240);
基于所述输入元数据、所述基本层参数和所述显示参数生成重建后的元数据;以及
生成包括所述基本层图像和所述重建后的元数据的输出比特流。
多步骤图像映射和显示管理
视频编解码流水线
图1描绘了传统视频传输流水线(100)的示例过程,所述传统视频传输流水线示出了从视频捕获到视频内容显示的各个阶段。使用图像生成块(105)来捕获或生成视频帧(102)序列。视频帧(102)可以被(例如,由数码相机)数字地捕获或者由计算机(例如,使用计算机动画)生成以提供视频数据(107)。可替代地,视频帧(102)可以由胶片相机捕获在胶片上。胶片被转换为数字格式以提供视频数据(107)。在制作阶段(110),对视频数据(107)进行编辑以提供视频制作流(112)。
制作流(112)的视频数据然后在块(115)处被提供给处理器以进行后期制作编辑。块(115)的后期制作编辑可以包括调节或修改图像的特定区中的颜色或明亮度,以根据视频创作者的创作意图来增强图像质量或实现图像的特定外观。这有时被称为“颜色调整(color timing)”或“颜色分级(color grading)”。可以在块(115)处执行其他编辑(例如,场景选择和排序、图像裁剪、添加计算机生成的视觉特效等)以产生用于发行的作品的最终版本(117)。在后期制作编辑(115)期间,在参考显示器(125)上观看视频图像。
在后期制作(115)之后,可以将最终作品(117)的视频数据传输到编码块(120),以便向下游传输到诸如电视机、机顶盒、电影院等解码和回放设备。在一些实施例中,编码块(120)可以包括诸如由ATSC、DVB、DVD、蓝光和其他传输格式定义的那些音频编码器和视频编码器,以生成编码比特流(122)。在接收器中,编码比特流(122)由解码单元(130)解码,以生成表示信号(117)的相同或接近近似版本的已解码信号(132)。接收器可以附接到目标显示器(140),所述目标显示器可以具有与参考显示器(125)完全不同的特性。在这种情况下,显示管理块(135)可以用于通过生成显示映射信号(137)来将已解码信号(132)的动态范围映射到目标显示器(140)的特性。非限制性地,参考文献[1]和[2]中描述了显示管理过程的示例。
单步骤和多步骤显示映射
在传统的显示映射(DM)中,映射算法应用类似sigmoid的函数(例如,参见参考文献[3]和[4])将输入动态范围映射到目标显示器的动态范围。这种映射函数可以被表示为分段线性或非线性多项式,其由使用输入源和目标显示器的特性生成的锚点、枢轴和其他多项式参数来表征。例如,在参考文献[3-4]中,映射函数使用基于输入图像和显示器的光亮度特性(例如,最小、中间(平均)和最大光亮度)的锚点。然而,其他映射函数可以使用不同的统计数据,诸如块级或整个图像的光亮度方差或光亮度标准差的值。对于SDR图像,所述过程还可以通过附加元数据来辅助,所述元数据或者作为传输视频的一部分来传输,或者由解码器或显示器来计算。例如,当内容提供方同时拥有源内容的SDR和HDR版本时,源可以使用这两个版本来生成元数据(诸如,前向或后向整形函数的分段线性近似),以辅助解码器将传入SDR图像转换成HDR图像。
在HDR数据传输的典型工作流中,如在Dolby中,显示映射(135)可以被视为在将图像显示在目标显示器(140)上之前在处理流水线的结束处执行的单步骤过程;然而,在某些情况下,在两个(或更多个)处理步骤中进行该映射可能是有必要的或以其他方式有益的。例如,杜比视界(或其他HDR格式)传输配置文件可以使用在1,000尼特下以HDR10编码的视频基本层,以支持不支持杜比视界但支持HDR10格式的电视机。
然后,典型的工作流过程可以包括以下步骤:
1)使用杜比视界或其他格式,将输入图像或视频从原始HDR主文件映射到“基本层”(例如,ITU-R Rec.2020下1000尼特)
2)计算静态或动态合成器元数据,所述合成器元数据将从映射后的基本层重建原始HDR主文件图像
3)对映射后的基本层进行编码并嵌入原始HDR元数据(例如,最小、中间和最大光亮度值),并将其与合成器元数据一起向下游传输到解码设备
4)在回放时,解码经编码的比特流,然后:a)将合成器元数据应用到基本层,以从基本层重建原始HDR图像,然后b)使用原始HDR元数据(与单步骤映射相同)将重建后的图像映射到目标显示器
该工作流的缺点是在回放时需要进行以下两个图像处理操作:a)合成(或预测)以重建HDR输入,以及b)显示映射,以将HDR输入映射到目标显示器。在一些设备中,可能期望通过绕过合成器来仅执行单个映射操作。这可以需要更少的功耗和/或可以简化实施方式和处理的复杂性。在示例实施例中,描述了替代性的多级工作流,所述多级工作流允许到基本层的第一映射,然后是通过绕过合成器直接从基本层到目标显示器的第二映射。该方法可以进一步扩展以包括映射到附加显示器或比特流的后续步骤。
图2A描绘了多级显示映射的示例过程。虚线和显示映射(DM)单元205指示传统的单级映射。在该示例中,非限制性地,需要将输入图像(202)及其元数据(204)以300尼特和P3色域映射到目标显示器(225)。将目标显示器(230)的特性(例如,最小和最大光亮度和色域)连同输入(202)及其元数据(例如,最小、中间、最大光亮度)(204)馈送到显示映射(DM)过程(205),从而将输入映射到目标显示器(225)的动态范围。
实线和阴影块指示多级映射。将输入图像(202)、输入元数据(204)和与基本层相关的参数(208)馈送到显示映射单元(210),以创建映射后的基本层(212)(例如,从输入动态范围到Rec.2020下的1,000尼特)。该步骤可以在编码器(未示出)中执行。在回放期间,新处理块,即,元数据重建单元(215)使用目标显示器参数(230)、基本层参数(208)和输入图像元数据(204)来调整输入图像元数据,以生成重建后的元数据(217),使得到目标显示器(225)的映射后的基本层(212)的后续映射(220)在视觉上将与单步骤映射(205)到同一显示器的结果相同。
针对包括基本层和原始HDR元数据的现有(传统)内容,在回放期间应用元数据重建块(215)。在一些情况下,基本层目标信息(208)可能不可用,并且可以基于其他信息(例如,在杜比视界中,使用配置文件信息(例如,配置文件8.4、8.1等))来推断。映射后的基本层(212)也有可能与原始HDR主文件(例如,202)相同,在这种情况下可以跳过元数据重建。
在一些实施例中,可以在编码器侧应用元数据重建(215)。例如,由于移动设备(例如,电话、平板计算机等)中的功率或计算资源有限,可能期望预先计算重建后的元数据,以节省解码器设备处的功率。该新元数据可以作为原始HDR元数据的补充被发送,在这种情况下,解码器可以简单地使用重建后的元数据并跳过重建块。可替代地,重建后的元数据可以替换原始HDR元数据的一部分。
图2B描绘了用于在编码器中重建元数据以准备适用于多步骤显示映射的比特流的示例过程。鉴于编码器不太可能知道目标显示器的特性,可以基于超过一种潜在显示器的特性来应用元数据重建,例如Rec.709(240-1)下的100尼特,P3(240-2)下的400尼特,P3(240-3)下的600尼特等。基本层(212)被构建为与之前一样,然而,现在元数据重建过程将考虑多个目标显示器,以便对各种各样的显示器进行准确匹配。最终输出(250)将结合基本层(212)、重建后的元数据(217)以及原始元数据(204)中不受元数据重建过程影响的部分。
元数据重建
在元数据重建期间,(输入动态范围内的输入图像的)原始输入元数据的一部分与关于基本层(其在中间动态范围内可用)和目标显示器(用于在目标动态范围内显示图像)的特性的信息相结合生成重建后的元数据以用于两级(或多级)显示映射。在示例实施例中,元数据重建分四个步骤进行。
步骤1:单步骤映射
如本文所使用的,术语“L1元数据”表示与输入帧或图像相关的最小、中间和最大光亮度值。L1元数据可以通过将RGB数据转换为亮度-色度格式(例如,YCbCr)并且然后计算Y平面中的最小值、中值(平均值)和最大值来计算,或者所述L1元数据可以直接在RGB空间中计算。例如,在实施例中,L1Min表示图像的PQ编码的min(RGB)值的最小值,同时考虑活动区域(例如,通过排除灰色或黑色条、视频黑边等)。min(RGB)表示像素的颜色分量值{R,G,B}的最小值。L1Mid和L1Max的值也可以以相同的方式计算,用average()和max()函数替换min()函数。例如,L1Mid表示图像的PQ编码max(RGB)值的平均值,并且L1Max表示图像的PQ编码max(RGB)值的最大值。在一些实施例中,L1元数据可以归一化为[0,1]。
考虑原始HDR元数据的L1Min、L1Mid和L1Max值以及目标显示器的被表示为Tmax和Tmin的最大(峰值)和最小(黑色)光亮度。然后,如参考文献[3-4]中所述,可以生成将输入图像的强度映射到目标显示器的动态范围的强度色调映射映射曲线。图3A中描绘了这种曲线(305)的示例。这可以被视为要通过使用重建后的元数据来匹配的理想的单级色调映射曲线。使用这一直接色调映射曲线,可以将L1Min、L1Mid和L1Max值映射到对应的TMin、TMid和TMax值。在图3A至图3D中,将所有输入值和输出值示出在使用SMPTE ST 2084的PQ域中。所有其他计算的元数据值(例如,BLMin、BLMid、BLMax、TMin、TMid、TMax和TMin'、TMid'、TMax')也位于PQ域中。
步骤2:映射到基本层
将原始HDR元数据的L1Min、L1Mid和L1Max值以及表示基本层流的黑电平(最小光亮度)和峰值光亮度的基本层参数(208)的Bmin和Bmax值视为输入。同样,可以得到第一强度映射曲线,以将输入数据映射到Bmin和Bmax范围值。图3B中描绘了这种曲线(310)的示例。使用该曲线,原始L1值可以映射到BLMin、BLMid和BLMax值,以用作重建后的L1元数据进行第三步骤。
步骤3:从基本层映射到目标
将步骤2中的BLMin、BLMid和BLMax作为更新后的L1元数据,并使用第二显示管理曲线将它们映射到目标显示器(例如,在Tmin和Tmax内)。使用第二曲线后,BLMin、BLMid和BLMax的对应映射值表示为TMin’、TMid’和TMax’。在图3C中,曲线(315)示出了该映射的示例。曲线(305)表示单级映射。目标是匹配两条曲线。
步骤4:匹配单步骤映射和多步骤映射
如本文所使用的,术语“修剪(trim)”表示由调色师执行用于改进色调映射操作的色调曲线调整。修剪通常应用于SDR范围(例如,100尼特最大光亮度,0.005尼特最小光亮度)。然后,仅根据最大光亮度将这些值线性插值到目标光亮度范围。这些值修改默认色调曲线并存在于每次修剪中。
关于修剪的信息可以是HDR元数据的一部分,并且可以用于调整在步骤1至步骤2中生成的色调映射曲线(参见参考文献[1-4]和下面的等式(4-8))。例如,在杜比视界中,修剪可以作为2级(L2)或8级(L8)元数据传递,所述元数据包括斜率、偏移和幂变量(统称为SOP参数),它们表示用于调整像素值的增益和伽玛值。例如,如果斜率、偏移和幂在[-0.5,0.5]内,则在给定增益和伽玛的情况下:
斜率=max(-0.5,min(0.5,增益*(1–提升)-1))
偏移=max(-0.5,min(0.5,增益*提升)) (1)
幂=max(-0.5,min(0.5,1/伽玛–1))
在实施例中,为了匹配两条映射曲线,可能还需要使用与修剪相关的重建后的元数据。生成斜率、偏移、幂和TMidContrast值,以将步骤3中的[TMin',TMid',TMax’]与步骤1中的[TMin,TMid,TMax]相匹配。这将用作重建后的元数据的新(重建后的)修剪元数据(例如,L8和/或L2)。
斜率、偏移和幂计算:
计算斜率、偏移、幂和TMidContrast的目的是将步骤2中的[TMin',TMid',TMax']与步骤1中的[TMin,TMid',TMax']相匹配。它们通过以下方程相互关联:
TMin=(斜率*TMin’+偏移)幂
TMid=(斜率*TMid’+偏移)幂 (2)
TMax=(斜率*TMax’+偏移)幂
这是具有三个未知数的三个方程的系统,可以按以下方式求解:
1.首先,使用泰勒级数展开近似求解幂。
delta=(TMid–TMid’)/(TMax’–TMin’)
A=TMax;B=TMid;C=TMin+1/4096
q=1+(B-(1-delta)*A-delta*C)/((1-delta)*A*log(A)+delta*C*log(abs(C)*sign(C))-B*log(B))
幂=1/q
2.使用幂值计算斜率和偏移,如下所示。
斜率=(TMax1/幂)–TMin1/幂)/(TMax’–TMin’)
偏移=(TMin1/幂)-(斜率*TMin’)
3.计算TMidContrast
TMid_delta=DirectMap(L1Mid+1/4096)
TMid’_delta=MultiStepMap(L1Mid+1/4096)
gammaTR=TMid_delta-TMid+(TMid’*斜率+偏移)幂
伽玛=((gammaTR1/幂)-偏移)/斜率
TMidContrast=(伽玛-TMid’_delta)*4096 (3)
其中,DirectMap()表示步骤1中的色调映射曲线,并且MultiStepMap()表示步骤3中生成的第二色调映射曲线。
考虑根据输入元数据以及Tmin和Tmax值生成的色调曲线y(x)(例如,参见参考文献[4]),然后TMidContrast更新在中心处的斜率(slopeMid)(例如,参见图3A中的(L1Mid,TMid)点(307))如下:
slopeMid=slopeMid+TMidContrast。 (4)
然后,可以如下应用斜率、偏移和幂:
y(x)=((斜率*y(x))+偏移)幂。 (5)
在一些实施例中,斜率、偏移和幂可以应用在归一化空间中。这样做的优点是减少应用幂项时发生限幅的可能性。在这种情况下,在应用斜率、偏移和幂之前,可以如下进行归一化:
y(x)=(y(x)-TminPQ)/(TmaxPQ-TminPQ)。 (6)
然后,在应用方程(5)中的斜率、偏移和幂项之后,可以如下进行反归一化:
y(x)=y(x)*(TmaxPQ-TminPQ)+TminPQ。 (7)
TmaxPQ和TminPQ表示与线性光亮度值Tmax和Tmin相对应的PQ编码光亮度值,已使用SMPTE ST 2084将所述线性光亮度值转换为PQ光亮度。在实施例中,TmaxPQ和TminPQ在[0,1]范围内,表达为[0,4095]/4095。在这种情况下,[TMin,TMid,TMax]和[TMin',TMid',TMax']的归一化将在计算斜率、偏移和幂的步骤1之前进行。然后,步骤3中的TMidContrast(参见方程(3))将按(TmaxPQ-TminPQ)缩放,如下所示
TMidContrast = (伽玛 - TMid’_delta) * (TmaxPQ-TminPQ)*4096。 (8)
作为示例,在图3D中,曲线315b描绘了在应用修剪参数斜率、偏移、幂和TMidContrast之后如何调整曲线315以使其匹配曲线305。
图4描绘了总结根据实施例的元数据重建过程(215)和先前描述的步骤的示例过程。如图4所描绘的,过程的输入为:输入元数据(204)、基本层特性(208)和目标显示特性(230)。
·步骤405使用输入元数据和目标显示特性(例如,Tmin、Tmax)生成直接或单步骤映射色调曲线(例如,305)。使用该直接映射曲线,将输入光亮度元数据(例如,L1Min、L1Mid和L1Max)转换为直接映射元数据(例如,TMin、TMid和TMax)。
·步骤410使用输入元数据和基本层特性(例如,Bmin和Bmax)生成第一中间映射曲线(例如,310)。使用该曲线,生成与输入元数据(例如,L1Min、L1Mid和L1Max)中的光亮度值相对应的第一组重建后的光亮度元数据(例如,BLMin、BLMid和BLMax)。
·步骤415生成第二映射曲线,其将具有BLMin、BLMid和BLMax值的输入映射到目标显示器(例如,使用Tmin和Tmax)。可以使用第二色调映射曲线(例如,315)来将步骤410中生成的第一组重建后的元数据值(例如,BLMin、BLMid和BLMax)映射到映射的重建后的元数据值(例如,TMin'、TMid'、和TMax')。
·步骤420生成一些附加的重建后的元数据(例如,SOP参数斜率、偏移和幂)以用于调整第二色调映射曲线。该步骤要求使用直接映射的元数据值(TMin、TMid和TMax)和对应映射的重建后的元数据值(TMin'、TMid'和TMax'),并求解具有斜率、偏移和幂三个未知数的至少三个方程的系统。
·步骤425使用SOP参数、直接映射曲线以及第二映射曲线来生成斜率调整参数(TMidContrast),以进一步调整第二映射曲线。
·输出重建后的元数据(212)包括:重建后的光亮度元数据(例如,BLMin、BLMid和BLMax)以及重建后的或新的修剪传递的元数据(例如,TMidContrast、斜率、幂和偏移)。这些重建后的元数据可以在解码器中用于调整第二映射曲线并生成输出映射曲线,以将基本层图像映射到目标显示器。
返回到图2A,显示映射过程220将进行以下各项:
a.生成色调映射曲线(y(x)),所述色调映射曲线将具有重建后的元数据值BLMin、BLMid和BLMax的基本层的强度映射到目标显示器(225)的Tmin和Tmax值
b.使用修剪传递的元数据(例如,TMidContrast、斜率、偏移和幂)更新该色调映射曲线,如前所述(例如,参见方程(4-8))。
在实施例中,可以通过使用与L1Min、L1Mid和L1Max不同的采样点来生成色调曲线。例如,由于仅对几个光亮度范围点进行采样,因此选择更靠近中心的曲线点可以改进整体曲线匹配。在另一实施例中,可以在优化期间考虑整个曲线而不是仅考虑三个点。另外,如果TMid与TMid'之间的差异非常小,则可以通过允许精度容差较小的解决方案来进行改进。例如,允许点之间存在较小的容差差异(例如,1/720)而不是准确求解它们,可以引起较小的修剪和总体上更好的曲线匹配。
如步骤1中提到的色调映射强度曲线是显示管理的色调曲线。建议该曲线尽可能接近将在基本层生成中和目标显示器上都使用的曲线。因此,曲线的版本或设计可以根据内容或回放设备的类型而不同。例如,根据参考文献[4]生成的曲线可能不受较旧的传统设备支持,所述设备仅识别根据参考文献[3]构建的曲线。由于并非所有回放设备都支持所有DM曲线,因此应基于特定回放设备的内容类型和特性来选择计算色调映射强度时使用的曲线。如果确切的回放设备是未知的(诸如当在编码中应用元数据重建时),则可以选择最接近的曲线,但所得的图像可能与等效的单步骤映射相距更远。
用于全局调光元数据的元数据调整
如本文所使用的,术语“L4元数据”或“级别4元数据”是指可以用于调整全局调光参数的信号元数据。在杜比视界处理的实施例中,非限制性地,L4元数据包括两个参数:FilteredFrameMean和FilteredFramePower,定义如下。
FilteredFrameMean(或简称,mean_max)被计算为帧最大光亮度值(例如,每帧的PQ编码最大RGB值)的临时滤波平均值输出。在实施例中,如果这样的信息可用,则在场景切换时重置该时间滤波。FilteredFramePower(或简称,std_max)被计算为帧最大光亮度值(例如,每帧的PQ编码最大RGB值)的临时滤波标准差输出。两个值都可以归一化为[0,1]。这些值表示图像序列的最大光亮度随时间的均值和标准差,并在显示时用于调整全局调光。为了改进显示输出,还期望确定L4元数据的映射重建。
在实施例中,std_max值的映射遵循的模型通过以下进行表征:
z=α+bx+cy+dxy, (9)
其中,a、b、c和d是常数,z表示映射后的std_max值,x表示原始std_max值,并且y=Smax/Dmax,其中,Smax表示源图像中的PQ编码RGB值的最大值(例如,如前所述的Smax=L1Max),并且Dmax表示显示图像中的PQ编码RGB值的最大值。在实施例中,如前所定义的,Dmax=Tmax(例如,目标显示器的最大光亮度),并且Smax也可以表示参考显示器的最大光亮度。
在实施例中,当Smax=Dmax(例如,y=1)时,标准差值应保持相同,因此z=x。通过将这些值代入方程(9),可以得到:d=1-b且a=-c,并且方程(9)可以重写为:
z(a+bx)(1-y)+xy。 (10)
在实施例中,方程(10)的参数a和b是通过将显示映射应用到从4,000尼特的最大光亮度下降到1,000、245和100尼特的260个图像所得到的。该映射提供了(Smax、Dmax和std_max的)780个数据点来拟合曲线,并产生如下输出模型参数:
a=-0.02且b=1.548。
使用小数点后一位数近似表示a和b,方程(10)可以重写为:
方程(11)表示如何映射L4元数据、特别是std_max值的简单关系。除了由方程(10)和(11)描述的映射之外,方程(11)的特性可以概括如下:
·L4元数据的重映射是线性比例的。例如,具有较高原始std_max值的图像将被重映射到具有较高重映射map_std_max值的图像。
·Smax/Dmax的比率确实会降低map_std_max值,但速度要慢得多。因此,具有较高原始std_max值的图像仍将被重映射到具有相对较高的重映射map_std_max值的图像。例如,当Smax/Dmax=1.6时,map_std_max=0.7std_max.。
·当Smax/Dmax=1时,不进行重映射。
当Tmax>Smax时,进行重映射
Smax表示参考显示器的最大光亮度。在步骤1中的直接映射期间,虽然允许Tmax>Smax的情况,即目标显示器可以具有比参考显示器更高的光亮度,但通常应用直接一对一映射,并且将没有元数据调整。在图5A中描绘了这种一对一的映射。在实施例中,可以采用特殊的“上映射”步骤,以通过允许图像数据一直映射达到Tmax值来增强所显示图像的外观。该上映射步骤也可以由传入修剪(L8)元数据来引导。
在一个实施例中,上映射作为先前讨论的步骤1的一部分进行。例如,考虑当Smax=2,000尼特且Tmax=9,000尼特的情况。考虑600尼特下的基本层(Bmax)。假设没有修剪来引导上映射,图5B描绘了示例上映射,其中,输入(X)PQ值[0.0151,0.3345,0.8274]被映射到输出(Y)PQ值[0.0151,0.3507,0.9889],其中,X=Y=1对应于10,000尼特。输入X=0.8274对应于Smax=2,000尼特,并将其映射到对应于9,000尼特的Y=0.9889。类似地,将X=Smid=0.3345映射到Tmid=0.3507,这表示原始Smid值大约增加5%,并且使用直接1对1映射来将X=0.0151映射到Y=0.0151。因此,当没有附加的元数据或引导信息时,当Tmax>Smax时,可以使用以下锚点来构建色调映射曲线:
·将Smin(源显示器的最小光亮度)映射到Tmin
·将Smid(源显示器的估计平均光亮度)映射到Tmid=Smid+c*Smid,其中,c的范围为[0,0.1]
·将Smax映射到Tmax
在另一实施例中,如果原始元数据包括为具有大于Smax值的最大光亮度的目标显示器指定的修剪(例如,L8元数据),则由那些修剪元数据来引导上映射。例如,考虑定义了Yref[i]修剪的Xref[i]光亮度点,例如:
Xref=[x1,x2],
Yref=[y1,y2]。
然后,假设线性插值或外插,Xin>x2的光亮度值的修剪将被外推为
Yout=y1*(1-alpha)+y2*alpha, (12)
其中,
alpha=(Xin-x1)/(x2-x1)。
例如,考虑针对3,000尼特的修剪目标具有以下L8修剪的传入视频源:
斜率=0.1,偏移=-0.07,幂=0.03。
在给定Smax=2,000尼特的情况下,可以线性外推上述修剪,以获得目标为9,000尼特的修剪。修剪的外推适用于L8的所有修剪。外推后的修剪可以用作步骤1中的直接映射步骤的一部分。例如,对于斜率修剪值:
Xref=[L2PQ(2,000),L2PQ(3,000)]=[0.8274,0.8715],
Yref=[0,0.1]。
对于Xin=L2PQ(9,000)=0.9889,根据方程(12)
alpha=3.66
Yout=Yref(2)*alpha=0.366,
其中,L2PQ(x)表示将线性光亮度x值映射到其对应的PQ值的函数。可以应用类似的步骤来计算偏移和幂的外推值,从而产生以下外推后的修剪:
ExtrapolatedSlope=0.366,
ExtrapolatedOffset=-0.2566,
ExtrapolatePower=0.1100。
参考文献
本文列出的参考文献中的每一篇都通过援引以其全文并入。
1.R.Atkins,美国专利9,961,237,“Display management for high dynamicrange video[用于高动态范围视频的显示管理]”,
2.R.Atkins等人于2020年4月16日提交的PCT申请PCT/US2020/028552,WIPO公开号WO/2020/219341,“Display management for high dynamic range images[用于高动态范围图像的显示管理]”,
3.A.Ballestad和A.Kostin,美国专利8,593,480,“Method and apparatus forimage data transformation[用于图像数据变换的方法和装置]”,
4.美国专利10,600,166,“Tone curve mapping for high dynamic rangeimages[用于高动态范围图像的色调曲线映射]”,J.A.Pytlarz和R.Atkins。
示例计算机系统实施方式
本发明的实施例可以利用计算机系统、以电子电路和部件来配置的系统、集成电路(IC)设备(如微控制器、现场可编程门阵列(FPGA)或另一个可配置或可编程逻辑器件(PLD)、离散时间或数字信号处理器(DSP)、专用IC(ASIC))和/或包括这种系统、设备或部件中的一个或多个的装置来实施。计算机和/或IC可以执行、控制或执行与图像变换相关的指令,诸如本文描述的那些指令。计算机和/或IC可以计算与本文描述的多步骤显示映射过程相关的多种参数或值中的任何一个。图像和视频实施例可以以硬件、软件、固件及其各种组合来实施。
本发明的某些实施方式包括执行软件指令的计算机处理器,所述软件指令使处理器执行本发明的方法。例如,显示器、编码器、机顶盒、转码器等中的一个或多个处理器可以通过运行可访问处理器的程序存储器中的软件指令来实施与上述的多步骤显示映射相关的方法。还可以以程序产品的形式提供本发明。程序产品可以包括携带一组计算机可读信号的任何有形和非暂态介质,该组计算机可读信号包括指令,所述指令当由数据处理器执行时使数据处理器执行本发明的方法。根据本发明的程序产品可以采用各种有形形式中的任何一种。程序产品可以包括例如物理介质,诸如包括软盘、硬盘驱动器的磁性数据存储介质、包括CD ROM、DVD的光学数据存储介质、包括ROM、闪速RAM的电子数据存储介质等。程序产品上的计算机可读信号可以可选地被压缩或加密。
在上面提到部件(例如,软件模块、处理器、组件、设备、电路等)的情况下,除非另有指明,否则对所述部件的引用(包括对“装置”的引用)都应该被解释为包括执行所描述部件的功能的任何部件为所述部件的等同物(例如,功能上等同的),包括在结构上不等同于执行在本发明的所图示示例实施例中的功能的所公开结构的部件。
等同物、扩展、替代方案和杂项
因此,描述了涉及多级显示映射的示例实施例。在前述说明中,已经参考许多具体细节描述了本发明的实施例,所述具体细节可能因实施方式而异。因此,指明本发明以及申请人的发明意图的唯一且排他性指示是根据本申请以具体形式发布的权利要求组,其中,这种权利要求发布包括任何后续校正。本文中针对这种权利要求中包含的术语明确阐述的任何定义应该支配如在权利要求中使用的这种术语的含义。因此,权利要求中未明确引用的限制、要素、性质、特征、优点或属性不应该以任何方式限制这种权利要求的范围。因此,应当从说明性而非限制性意义上看待本说明书和附图。
Claims (17)
1.一种用于多步骤显示映射的方法,所述方法包括:
获取第一动态范围内的输入图像的输入元数据(204);
获取第二动态范围内的基本层图像(212),其中,所述基本层图像是基于所述输入图像生成的;
获取确定所述第二动态范围的基本层参数(208);
获取具有目标动态范围的目标显示器的显示参数(230);
基于所述输入元数据、所述基本层参数和所述显示参数生成重建后的元数据;
基于所述重建后的元数据和所述显示参数生成输出映射曲线,以将所述基本层图像映射到所述目标显示器;以及
使用所述输出映射曲线将所述基本层图像映射到所述目标动态范围内的所述目标显示器。
2.一种用于多步骤显示映射的方法,所述方法包括:
获取第一动态范围内的输入图像(202);
获取所述输入图像的输入元数据(204);
获取确定第二动态范围的基本层参数(208);
基于所述输入图像、所述基本层参数和所述输入元数据生成(210)所述第二动态范围内的基本层图像;
获取具有目标动态范围的目标显示器的显示参数(240);
基于所述输入元数据、所述基本层参数和所述显示参数生成重建后的元数据;以及
生成包括所述基本层图像和所述重建后的元数据的输出比特流。
3.如权利要求1或权利要求2所述的方法,还包括:
在解码器中接收所述基本层图像和所述重建后的元数据;
基于所述重建后的元数据和所述显示参数生成输出映射曲线,以将所述基本层图像映射到所述目标显示器;以及
使用所述输出映射曲线将所述基本层图像映射到所述目标动态范围内的所述目标显示器。
4.如权利要求1至3中任一项所述的方法,其中,所述基本层图像的最大动态范围为1000尼特。
5.如权利要求1至4中任一项所述的方法,其中,所述显示参数包括所述目标显示器的最小(Tmin)和最大(Tmax)光亮度值。
6.如权利要求1至5中任一项所述的方法,其中,所述基本层参数包括所述基本层图像中的最小(Bmin)和最大(Bmax)光亮度值。
7.如权利要求1至6中任一项所述的方法,其中,所述重建后的元数据包括重建后的L1元数据,其中,所述重建后的L1元数据包括重建后的最小值(BLMin)、重建后的平均值(BLMid)和重建后的最大值(BLMax)。
8.如权利要求7所述的方法,其中,所述重建后的元数据还包括斜率、幂和偏移值。
9.如权利要求1至8中任一项所述的方法,其中,生成所述重建后的元数据包括:
基于所述输入元数据和所述显示参数生成(405)将所述输入图像映射到所述目标动态范围的直接映射曲线;
将所述直接映射曲线应用于所述输入元数据中的光亮度值以生成映射后的光亮度元数据;
基于所述输入元数据和所述基本层参数生成(410)将所述输入图像映射到所述基本层图像的第一映射曲线;
使用所述第一映射曲线将所述输入元数据中的所述光亮度值映射(415)到第一组重建后的元数据;
基于所述第一组重建后的元数据和所述显示参数生成(415)将所述基本层图像映射到所述目标动态范围的第二映射曲线;
使用所述第二映射曲线将所述第一组重建后的元数据映射到映射的重建后的元数据;以及
基于所述映射后的光亮度元数据和所述映射的重建后的元数据生成(420)包括斜率、幂和偏移值的第二组重建后的元数据,以调整所述第二映射曲线。
10.如权利要求9所述的方法,还包括基于所述直接映射曲线、所述第二映射曲线以及所述斜率、幂和偏移值生成(425)用于调整所述第二映射曲线的斜率调整值。
11.如权利要求9或权利要求10所述的方法,其中,所述斜率、幂和偏移值是通过求解包括以下的方程组生成的:
对于i=1,2,..N,TM(i)=(斜率*TM'(i)+偏移)幂,
其中,N≥3,TM(i)表示映射后的光亮度元数据,并且TM’(i)表示映射的重建后的元数据。
12.如权利要求11所述的方法,其中,所述TM(i)值包括与使用所述输入图像中的最小、平均和最大光亮度值的所述直接映射曲线的映射值相对应的最小(TMin)、平均(TMid)和最大(TMax)光亮度值。
13.如权利要求9所述的方法,其中,当Tmax大于Smax时,生成所述直接映射曲线,其中,Tmax表示所述目标显示器的最大光亮度值,并且Smax表示参考显示器的最大光亮度值,生成所述直接映射曲线包括:
如果所述输入元数据中没有修剪元数据:则
将参考显示器的最小光亮度Smin映射到所述目标显示器的最小光亮度Tmin;
将所述参考显示器的平均光亮度Smid映射到Tmid=Smid+c*Smid,其中,c在0与0.2之间,并且Tmid表示所述目标显示器的平均光亮度;以及
将Smax映射到Tmax;
否则:
在给定Xref[x1,x2]光亮度点和对应的修剪元数据Yref[y1,y2]值的情况下,通过计算以下来生成光亮度点Xin的外推后的修剪Yout值,其中,Xin大于x2,
Yout=y1*(1-alpha)+y2*alpha,
其中,
alpha=(Xin-x1)/(x2-x1)。
14.如权利要求1或权利要求2所述的方法,其中,所述输入元数据包括全局调光元数据,并且在给定输入全局调光元数据值x的情况下,生成重建后的调光元数据值z包括计算
z=(a+bx)(1-y)+xy,
其中,a和b是常数,并且y表示所述输入图像的最大光亮度与所述目标显示器的最大光亮度值的比率。
15.如权利要求14所述的方法,其中,
z=0.5x(3-y),
其中,对于包括所述输入图像的输入视频序列,x表示所述输入视频序列中的所述最大光亮度值的时变均值或标准差。
16.一种装置,包括处理器并且被配置成执行如权利要求1至15中所述的任一种方法。
17.一种非暂态计算机可读存储介质,具有存储于其上的计算机可执行指令,所述指令用于利用一个或多个处理器来执行根据权利要求1至15中任一项所述的方法。
Applications Claiming Priority (5)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US63/249,183 | 2021-09-28 | ||
EP21210178.6 | 2021-11-24 | ||
US202263316099P | 2022-03-03 | 2022-03-03 | |
US63/316,099 | 2022-03-03 | ||
PCT/US2022/077127 WO2023056267A1 (en) | 2021-09-28 | 2022-09-28 | Multi-step display mapping and metadata reconstruction for hdr video |
Publications (1)
Publication Number | Publication Date |
---|---|
CN118020090A true CN118020090A (zh) | 2024-05-10 |
Family
ID=90954269
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202280065481.7A Pending CN118020090A (zh) | 2021-09-28 | 2022-09-28 | 用于hdr视频的多步骤显示映射和元数据重建 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN118020090A (zh) |
-
2022
- 2022-09-28 CN CN202280065481.7A patent/CN118020090A/zh active Pending
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP6738972B2 (ja) | ハイダイナミックレンジ画像のためのトーン曲線マッピング | |
US20230345055A1 (en) | Signal reshaping for high dynamic range signals | |
CN107995497B (zh) | 高动态范围视频的屏幕自适应解码 | |
TWI671710B (zh) | 用於高動態範圍影像之色調曲線映射 | |
US9554020B2 (en) | Workflow for content creation and guided display management of EDR video | |
TWI765253B (zh) | 用於高動態範圍影像之顯示管理 | |
CN111095931B (zh) | 色调曲线优化方法以及相关联的视频编码器和视频解码器 | |
CN110192223B (zh) | 高动态范围图像的显示映射 | |
CN113170205A (zh) | 整形函数的插值 | |
JP6978634B1 (ja) | パワー制限ディスプレイにおけるハイダイナミックレンジ画像のディスプレイマッピング | |
CN118020090A (zh) | 用于hdr视频的多步骤显示映射和元数据重建 | |
KR20240089140A (ko) | Hdr 비디오를 위한 다단계 디스플레이 매핑 및 메타데이터 재구성 | |
WO2023056267A1 (en) | Multi-step display mapping and metadata reconstruction for hdr video | |
CN116391356A (zh) | 用于具有编码效率约束的hdr视频的颜色变换 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |