CN113228660B - 增强的标准动态范围视频(sdr+)中的基于机器学习的动态合成 - Google Patents

增强的标准动态范围视频(sdr+)中的基于机器学习的动态合成 Download PDF

Info

Publication number
CN113228660B
CN113228660B CN201980084720.1A CN201980084720A CN113228660B CN 113228660 B CN113228660 B CN 113228660B CN 201980084720 A CN201980084720 A CN 201980084720A CN 113228660 B CN113228660 B CN 113228660B
Authority
CN
China
Prior art keywords
image
sdr
training
hdr
backward
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201980084720.1A
Other languages
English (en)
Other versions
CN113228660A (zh
Inventor
H·卡杜
N·J·加德吉尔
苏冠铭
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Dolby Laboratories Licensing Corp
Original Assignee
Dolby Laboratories Licensing Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Dolby Laboratories Licensing Corp filed Critical Dolby Laboratories Licensing Corp
Publication of CN113228660A publication Critical patent/CN113228660A/zh
Application granted granted Critical
Publication of CN113228660B publication Critical patent/CN113228660B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T5/00Image enhancement or restoration
    • G06T5/90Dynamic range modification of images or parts thereof
    • G06T5/92Dynamic range modification of images or parts thereof based on global image properties
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/80Details of filtering operations specially adapted for video compression, e.g. for pixel interpolation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/90Determination of colour characteristics
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/102Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the element, parameter or selection affected or controlled by the adaptive coding
    • H04N19/132Sampling, masking or truncation of coding units, e.g. adaptive resampling, frame skipping, frame interpolation or high-frequency transform coefficient masking
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/134Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the element, parameter or criterion affecting or controlling the adaptive coding
    • H04N19/162User input
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/169Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding
    • H04N19/17Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding the unit being an image region, e.g. an object
    • H04N19/172Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding the unit being an image region, e.g. an object the region being a picture, frame or field
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/169Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding
    • H04N19/186Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding the unit being a colour or a chrominance component
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/189Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the adaptation method, adaptation tool or adaptation type used for the adaptive coding
    • H04N19/196Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the adaptation method, adaptation tool or adaptation type used for the adaptive coding being specially adapted for the computation of encoding parameters, e.g. by averaging previously computed encoding parameters
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/46Embedding additional information in the video signal during the compression process
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/90Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using coding techniques not provided for in groups H04N19/10-H04N19/85, e.g. fractals
    • H04N19/98Adaptive-dynamic-range coding [ADRC]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20081Training; Learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20172Image enhancement details
    • G06T2207/20208High dynamic range [HDR] image processing

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Software Systems (AREA)
  • Computing Systems (AREA)
  • Medical Informatics (AREA)
  • Evolutionary Computation (AREA)
  • General Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Mathematical Physics (AREA)
  • Artificial Intelligence (AREA)
  • Image Processing (AREA)
  • Image Analysis (AREA)

Abstract

接收包括训练SDR图像和对应的训练HDR图像的训练图像对。训练图像对中的每个训练图像对包括训练SDR图像和对应的训练HDR图像。训练图像对中的训练SDR图像和对应的训练HDR图像描绘相同的视觉内容但具有不同的光亮度动态范围。从训练图像对中的训练SDR图像中提取训练图像特征向量。训练图像特征向量用于训练后向整形元数据预测模型,该后向整形元数据预测模型用于预测用于将SDR图像后向整形为经映射HDR图像的后向整形映射的操作参数值。

Description

增强的标准动态范围视频(SDR+)中的基于机器学习的动态 合成
相关申请的交叉引用
本申请要求于2018年12月18日提交的美国专利申请号62/781,185以及于2018年12月18日提交的欧洲优先权申请号18213670.5的优先权权益,这两个申请通过引用以其全文并入本文。
背景技术
本发明总体上涉及图像。更具体地,本发明的实施例涉及标准动态范围(SDR)加增强的标准动态范围(SDR+)视频内容中的基于机器学习(ML)的动态合成。
如本文所使用的,术语“动态范围(DR)”可以涉及人类视觉系统(HVS)感知图像中的强度(例如光亮度、亮度)的范围(例如,从最暗的黑色(黑暗)到最亮的白色 (高光))的能力,。从这个意义上说,DR与“参考场景的(scene-referred)”强度有关。DR还可以涉及显示设备充分或近似渲染特定阔度(breadth)的强度范围的能力。从这个意义上说,DR与“参考显示的(display-referred)”强度有关。除非在本文的描述中的任何一点明确指定特定的意义具有特定的意思,否则应推断该术语可以在任一意义上使用,例如可互换地使用。
如本文所使用的,术语“高动态范围(HDR)”涉及跨越人类视觉系统(HVS)的大约14至15个或更多数量级的DR阔度。实际上,相对于HDR,人类可以同时感知强度范围中的广泛阔度的DR可能被稍微截短。如本文所使用的,术语“增强动态范围(EDR) 或视觉动态范围(VDR)”可以单独地或可互换地与这种DR相关:该DR可在场景或图像内由包括眼运动的人类视觉系统(HVS)感知,从而允许场景或图像上的一些光适性变化。如本文所使用的,EDR可以涉及跨越5到6个数量级的DR。因此,虽然相对于真实的参考场景的HDR可能稍微窄一些,但EDR仍然表示宽DR阔度并且也可以被称为HDR。
实际上,图像包括颜色空间的一个或多个颜色分量(例如,亮度Y以及色度Cb和Cr),其中每个颜色分量由每像素n位的精度表示(例如,n=8)。在使用非线性光亮度编码(例如,伽马编码)的情况下,其中n≤8的图像(例如,彩色24位JPEG图像) 被视为标准动态范围的图像,而其中n>8的图像可被视为增强动态范围的图像。
用于给定显示器的参考电光传递函数(EOTF)表征输入视频信号的颜色值(例如,光亮度)与由显示器产生的输出屏幕颜色值(例如,屏幕光亮度)之间的关系。例如, ITURec.ITU-R BT.1886年,“Reference electro-optical transfer function for flatpanel displays used in HDTV studio production(用于HDTV工作室制作中使用的平板显示器的参考电光传递函数)”(2011年3月)限定了用于平板显示器的参考EOTF,其内容通过引用以其全文并入本文。在给定了视频流的情况下,关于其EOTF的信息可以作为(图像)元数据嵌入比特流中。本文术语“元数据”涉及作为编码比特流的一部分传输并且辅助解码器渲染经解码的图像的任何辅助信息。这种元数据可以包括但不限于如本文所描述的颜色空间或色域信息、参考显示器参数和辅助信号参数。
如本文所使用的术语“PQ”是指感知光亮度幅度量化。人类视觉系统以极非线性方式响应于增加的光水平。人类看见刺激的能力受到以下因素的影响:刺激的光亮度、刺激的大小、构成刺激的空间频率以及在观看刺激的特定时刻眼睛已适应的光亮度水平。在一些实施例中,感知量化器函数将线性输入灰度级映射到更好地匹配人类视觉系统中的对比度敏感度阈值的输出灰度级。在SMPTE ST 2084:2014“High Dynamic Range EOTF ofMastering Reference Displays(母版制作参考显示器的高动态范围EOTF)”(下文称为“SMPTE”)中描述了示例PQ映射函数,其通过引用以其全文并入本文,其中,在给定固定刺激大小的情况下,对于每个光亮度水平(例如,刺激水平等),根据最敏感的适应水平和最敏感的空间频率(根据HVS模型)来选择该光亮度水平处的最小可见对比度步长。
支持200至1,000cd/m2或尼特的光亮度的显示器代表了与EDR(或HDR)相关的较低动态范围(LDR),也被称为标准动态范围(SDR)。EDR内容可以显示在支持较高动态范围(例如,从1,000尼特到5,000尼特或更高)的EDR显示器上。这种显示器可以使用支持高光亮度能力(例如,0到10,000或更高尼特)的替代EOTF来限定。SMPTE 中定义了这种EOTF的示例。如本发明人在此理解的,期望可以用于支持各种SDR和 HDR显示设备的显示能力的用于合成视频内容数据的改进技术。
在本节中描述的方法是可以追寻的方法,但不一定是之前已经设想到或追寻的方法。因此,除非另有指明,否则不应假定本节中所描述的方法中的任何方法仅因其包括在本节中就被称为现有技术。类似地,除非另有表示,否则关于一种或多种方法所认定的问题不应假定在本节的基础上而在任何现有技术中已被认定。
附图说明
在附图中以示例的方式而非限制性的方式图示了本发明的实施例,并且在附图中类似的附图标记指代类似的元素,并且在附图中:
图1描绘了视频输送流水线的示例过程;
图2A描绘了根据SDR亮度和色度码字对HDR亮度和色度码字的示例预测/估计;图2B描绘了用于训练高斯过程回归(GPR)模型的示例过程;图2C描绘了用于从GPR 模型生成后向查找表(BLUT)的示例过程;图2D描绘了用于训练聚类特定的多变量多元回归(MMR)矩阵的示例过程;图2E描绘了用于从MMR矩阵生成MMR系数的示例过程;图2F和图2G描绘了利用编码器进行的示例风格传递;图2H描绘了利用解码器进行的示例风格传递;
图3A描绘了后向整形曲线(或BLUT)的预测条目(或样本);图3B描绘了特征向量空间中的特征向量的示例聚类;图3C图示了示例聚类融合;图3D图示了示例组合亮度-色度1D直方图;
图4A和图4B图示了示例过程流程;以及
图5图示了示例硬件平台的简化框图,在该示例硬件平台上可以实施如本文所描述的计算机或计算设备。
具体实施方式
本文描述了增强的标准动态范围(也称为SDR加(SDR+))视频内容中的基于机器学习的动态合成。在以下描述中,出于解释的目的,阐述了许多具体细节以便提供对本发明的透彻理解。然而,将显而易见的是,可以在没有这些具体细节的情况下实践本发明。在其他情形中,为了避免不必要的遮蔽、模糊或混淆本发明,没有详尽地描述众所周知的结构和设备。
概述
本文描述的示例实施例涉及通过机器学习的图像元数据生成/优化。接收包括多个训练SDR图像和多个对应的训练HDR图像的多个训练图像对。多个训练图像对中的每个训练图像对包括多个训练SDR图像中的训练SDR图像和多个对应的训练HDR图像中的对应的训练HDR图像。每个这样的训练图像对中的训练SDR图像和对应的训练HDR图像描绘了相同的视觉内容,但具有不同的光亮度动态范围。从多个训练图像对中的多个训练SDR图像中提取多个训练图像特征向量。多个训练图像特征向量中的训练图像特征向量是从多个训练图像对中的相应训练图像对中的训练SDR图像中提取的。多个训练图像特征向量和利用多个对应的训练HDR图像得出的真实数据(ground truth)用于训练一个或多个后向整形元数据预测模型,该一个或多个后向整形元数据预测模型用于预测用于将SDR图像后向整形为经映射HDR图像的后向整形映射的操作参数值。
本文描述的示例实施例涉及通过机器学习的图像元数据生成/优化。从视频信号中解码SDR图像,该SDR图像将被后向整形为对应的经映射HDR图像。从视频信号中解码至少部分通过机器学习生成的动态合成器元数据,该动态合成器元数据用于得出图像特定的后向整形映射的一个或多个操作参数值。该图像特定的后向整形映射的一个或多个操作参数值用于将SDR图像后向整形为经映射HDR图像。使得利用显示设备渲染从经映射HDR图像得出的显示图像。
示例视频输送处理流水线
图1描绘了视频输送流水线(100)的示例过程,其示出了从视频捕获/生成到HDR或SDR显示的各个级。示例HDR显示器可以包括但不限于与电视、移动设备、家庭影院等结合操作的图像显示器。示例SDR显示器可以包括但不限于SDR电视、移动设备、家庭影院显示器、头戴式显示设备、可穿戴显示设备等。
使用图像生成块(105)来捕获或生成视频帧(102)。视频帧(102)可以(例如,由数码相机)数字地捕获或者由计算机(例如,使用计算机动画等)生成以提供视频数据(107)。附加地、可选地或可替代地,视频帧(102)可以由胶片相机捕获在胶片上。胶片被转换为数字格式以提供视频数据(107)。在一些实施例中,可以在将视频数据(107) 传递到视频输送流水线(100)中的下一个处理级/阶段之前(例如,在无人工输入的情况下自动地、手动地、在人工输入的情况下自动地)将其编辑或变换为图像序列。
视频数据(107)可以包括SDR内容(例如,SDR+内容等)以及图像元数据,视频输送流水线(100)中的下游的接收方设备可以使用该图像元数据以对SDR视频内容的经解码的版本执行图像处理操作。
示例SDR视频内容可以是但不一定仅限于SDR+视频内容、SDR图像、SDR电影发行、SDR+图像、SDR媒体节目等。
如本文所使用的,术语“SDR+”表示SDR图像数据和元数据的组合,当SDR图像数据和元数据组合在一起时允许生成对应的高动态范围(HDR)图像数据。SDR+图像元数据可以包括合成器数据以生成后向整形映射(例如,后向整形函数/曲线/多项式集、多变量多元回归(MMR)系数等),当将该后向整形映射应用于输入SDR图像时生成对应的HDR图像。SDR+图像允许与可以忽略SDR+图像元数据并仅显示SDR图像的传统 SDR显示器后向兼容。
与SDR视频内容一起传输到接收方设备的图像元数据可以包括在本文描述的技术下 (例如,自动地、实时地、离线处理地等)生成的ML合成器元数据。在一些实施例中,将视频数据(107)(例如,在SDR内容编辑或颜色分级等之后)提供给用于ML合成器元数据生成(115)的处理器。ML合成器元数据生成(115)可以在没有或很少人机交互的情况下自动生成ML合成器元数据。一个或多个接收方设备可以使用自动生成的ML 合成器元数据来执行后向整形操作,以便从视频数据(107)中的SDR图像生成对应的高动态范围(HDR)图像。
ML合成器元数据生成(115)可以用于提供一种或多种有价值的服务,以使视频内容可用于各种显示设备。由ML合成器元数据生成(115)提供的有价值的服务之一是:在SDR图像中描绘的视频内容的HDR图像不可用但描绘视频内容的SDR图像可用的操作场景中,如上所述的从SDR图像生成HDR图像。因此,在SDR图像可用的这些操作场景中,如本文所述的技术可以用于为HDR显示器生成或合成HDR视频内容。
由ML合成器元数据生成(115)提供的一种有价值的服务是生成针对HDR显示器(例如,完全地、部分地等)而优化的HDR视频内容,而不依赖于调色师的被称为“颜色调整”或“颜色分级”的手动操作中的一些或所有手动操作。
编码块(120)接收视频数据(107)、自动生成的ML合成器元数据(177)和其他图像元数据;并将视频数据(107)以及自动生成的ML合成器元数据(177)、其他图像元数据等一起编码为编码比特流(122)。示例编码比特流可以包括但不一定限于单层视频信号等。在一些实施例中,编码块(120)可以包括音频和视频编码器(诸如由ATSC、 DVB、DVD、Blu-Ray和其他输送格式定义的那些)以生成编码比特流(122)。
然后,将编码比特流(122)向下游输送到如解码和回放设备、媒体源设备、媒体流客户端设备、电视机(例如,智能电视等)、机顶盒、电影院等接收器。在下游设备中,由解码块(130)对编码比特流(122)进行解码以生成经解码的图像182,该经解码的图像可以与视频数据(107)中表示的图像(例如,SDR图像、HDR图像等)类似或相同,经受在由编码块(120)执行的压缩和由解码块(130)执行的解压缩中生成的量化误差的影响。
在非限制性示例中,以编码比特流(122)表示的视频信号可以是后向兼容的SDR视频信号(例如,SDR+视频信号等)。在此,“后向兼容视频信号”可以指携带针对 SDR显示器优化(例如,保留特定艺术意图等)的SDR图像的视频信号。
在一些实施例中,由编码块(120)输出的编码比特流(122)可以表示嵌入有图像元数据的输出SDR视频信号(例如,SDR+视频信号等),该图像元数据包括但不限于逆色调映射元数据、ML合成器元数据、自动生成的ML合成器元数据(177)、显示管理(DM)元数据等。自动生成的ML合成器元数据(177)指定了这样的后向整形映射:下游解码器可以使用该后向整形映射来对从编码比特流(122)解码的SDR图像(例如, SDR+图像等)执行后向整形,以便生成用于在HDR(例如,目标、参考等)显示器上渲染的后向整形图像。在一些实施例中,可以使用实施如自动生成的ML合成器元数据 (177)中指定的后向整形映射(或逆色调映射)的一个或多个SDR到HDR转换工具来从经解码的SDR图像生成后向整形图像。
如本文所使用的,后向整形是指将重新量化的图像转换回原始EOTF域(例如,伽玛、PQ、混合对数伽玛或HLG等)以进行进一步的下游处理(如显示管理)的图像处理操作。示例后向整形操作在2015年3月20日提交的美国临时专利申请序列号 62/136,402(还公布于2018年1月18日,作为美国专利申请公开序列号2018/0020224)、 2018年5月11日提交的美国临时专利申请序列号62/670,086中进行了描述,上述美国临时专利申请的全部内容如本文充分阐述的那样通过引用并入本文。
附加地、可选地或可替代地,下游解码器可以使用图像元数据中的DM元数据对后向整形图像执行显示管理操作,以生成为在HDR参考显示设备或其他显示设备(如非参考HDR显示设备等)上进行渲染而优化的显示图像(例如,HDR显示图像等)。
在接收器与支持标准动态范围或相对较窄的动态范围的SDR显示器140一起操作(或附接到该SDR显示器)的操作场景中,接收器可以直接或间接地在目标显示器(140) 上渲染经解码的SDR图像。
在接收器与支持高动态范围(例如,400尼特、1000尼特、4000尼特、10000尼特或更高等)的HDR显示器140-1一起操作(或附接到该HDR显示器)的操作场景中,接收器可以从编码比特流(122)(例如,其中的元数据容器)中提取合成器元数据,并使用合成器元数据来合成HDR图像(132),该HDR图像可以是通过基于合成器元数据对SDR图像进行后向整形而生成的后向整形图像。另外,接收器可以从编码比特流(122) 中提取DM元数据,并基于DM元数据对HDR图像(132)应用DM操作(135),以生成为在HDR(例如,非参考等)显示设备(140-1)上进行渲染而优化的显示图像(137),并在HDR显示设备(140-1)上渲染显示图像(137)。
通过机器学习的动态合成器元数据生成
单层逆显示管理(SLiDM)或SDR+可以用于增强SDR内容,以便在HDR显示设备上进行渲染。SDR图像的亮度和色度通道(或颜色分量)可以使用图像元数据单独地映射,以生成HDR图像的对应的亮度和色度通道。
本文描述的技术可以用于实施基于机器学习(ML)的估计SDR内容的动态合成器元数据的方法。与其他方法中使用的静态元数据相比,由这种基于ML的方法生成的动态合成器元数据改善了HDR视觉体验。动态合成器元数据(或基于ML的合成器元数据) 可以注入不同的用户自定义的(例如,最终用户可选择的等)风格,以基于个人用户的各自偏好修改HDR外观。附加地、可选地或可替代地,在本文所描述的技术下的元数据译码语法可以用于实现对(例如,SDR+、SLiDM等)视频信号的动态合成器元数据的压缩。
其他方法中的静态元数据指定用于将SDR亮度码字(例如,强度等)映射到HDR 码字(或强度)的固定曲线(例如,针对一些或所有SDR图像,而不管SDR图像中的实际像素值分布等)。由于对每个SDR图像(或帧)应用相同的固定曲线,因此在所得 HDR图像中不一定能令人满意地增强不同场景/图像中的明亮度水平。例如,在其他方法下,SDR图像中的一些明亮区域在通过利用固定曲线来映射SDR图像而生成的对应的 HDR图像中可能变得过于明亮。为了得到对SDR图像中表示的特定艺术意图或视觉质量的可靠再现,应基于SDR图像中表示的视觉内容来映射或增强(例如,从窄的SDR 光亮度范围到宽的HDR光亮度范围等)SDR图像中的图像部分的明亮度,这在使用固定(映射)曲线的其他方法下无法得到适当支持。
同样,在其他方法下,色度整形(例如,将SDR色度码字后向整形为HDR色度码字等)使用预先计算的一组MMR预测系数。基于MMR的预测器的示例在美国专利号 8,811,490中进行了描述,该美国专利通过引用以其整体并入。固定系数还倾向于忽略描绘不同视觉内容的不同视频序列的调色板中的细微差异,并因此导致所得HDR视频内容的不同部分丢失或无法再现如在用于生成HDR视频内容的SDR视频内容的对应部分中表示的独特视觉质量和/或不同的调色板标识。相反地,因为在其他方法下没有针对HDR 视频内容的不同部分操纵固定MMR系数的自由,所以通过相同MMR系数生成的HDR 视频内容的不同部分倾向于获得通用外观。
与此形成鲜明对比的是,在基于ML的预测或估计HDR亮度/色度码字的方法下,相关图像特征(例如,内容相关特征、像素值相关特征等)可以从SDR图像数据中提取,并用于训练、预测和/或估计用于从SDR图像数据构造或重构HDR图像数据的(动态的) 基于ML的合成器元数据。在一些操作场景中,这种构造或重构可以进一步受到指定用户对用户预期视觉风格/模式的选择的用户输入的影响。
在如本文所描述的技术下训练ML预测模型/算法/方法可以利用包括SDR和对应的(例如,用户期望的、手动颜色分级的等)HDR图像的对的训练数据集来完成。ML预测模型/算法/方法可以在训练阶段期间学习(例如,用户期望的等)SDR到HDR的映射。用于ML预测模型/算法/方法的机器学习的最佳操作参数可以持久地存储或存储在缓存/ 存储器中。
ML预测模型/算法/方法可以应用于测试SDR内容,以预测(动态的)基于ML的合成器元数据。可以将(动态的)基于ML的合成器元数据(而不是其他方法下的静态或固定元数据)输出或发送到视频解码器,以构造或重构对应的HDR内容并在重构的HDR 内容中实现期望的外观(例如,用户预期的外观、保留特定的艺术意图等)。
在如本文所描述的技术下,可以针对各种特定的用户偏好学习多种不同的ML预测模型/算法/方法。然后,在这些技术下,可以像在不同的ML预测模型/算法/方法之间切换一样容易地执行在多个不同的用户偏好的HDR外观之间的切换。作为结果,SDR内容可以后向整形为具有用户期望的HDR外观的HDR内容,而无需执行昂贵且复杂的手动颜色分级,从而提供一种为大量用户生成具有期望的HDR外观的HDR内容的具有成本效益且高效的方式。代替对从潜在的大量可用SDR内容生成的HDR图像进行手动颜色分级,个人用户可以提供SDR和对应的(例如,手动地等)颜色分级HDR图像的对的训练数据集。在如本文所描述的技术下的机器学习模型/算法/方法可以通过模仿如训练数据集所体现的用户偏好来自动将任何SDR内容变换为对应的HDR内容。
亮度和色度后向整形
通过说明而非限制的方式,可以在如图2A所示的过程流程中使用GPR模型和色度字典来执行根据SDR亮度和色度码字对HDR亮度和色度码字的预测/估计。
如本文所使用的,从SDR亮度码字重新生成(例如,预测、估计等)HDR亮度码字可以被称为亮度后向整形(操作)。可以使用如基于GPR模型生成的后向查找表(或后向LUT或BLUT)将SDR亮度码字(例如,强度、明亮度值等)映射到HDR亮度码字(例如,强度、明亮度值等),以执行亮度后向整形。附加地、可选地或可替代地,从SDR亮度和色度码字重新生成(例如,预测、估计等)HDR色度码字可以被称为色度后向整形(操作)。SDR亮度和色度码字可用于在色度字典中进行查找以预测或估计 HDR色度码字以执行色度后向整形。
GPR模型和色度字典可以在训练阶段利用如本文所描述的一个或多个训练数据集来训练。更具体地,在训练阶段,可以提取训练数据集中的SDR图像(例如202)的图像特征(例如,内容相关特征等)以形成特征向量204。图像特征或特征向量(204)连同训练数据集中的对应的HDR图像中的参考HDR亮度码字(或值)一起可以用于训练或优化GPR模型,以根据SDR亮度码字进行对HDR亮度码字(或值)的基于GPR模型的预测206。然后,经训练的GPR模型可以用于生成后向整形曲线,如后向查找表(或后向LUT)。在一些实施例中,后向整形曲线或后向LUT可以由8段多项式近似208近似。在很大的一组候选特征可用的操作场景中,可以执行特征修剪操作以将该很大的一组候选特征减少到如本文所描述的特征向量中包括的一组特征。示例特征修剪操作在 2018年9月19日提交的美国临时专利申请序列号62/733,217中进行了描述,该美国临时专利申请的整个内容如本文充分阐述的那样通过引用并入本文。
附加地、可选地或可替代地,在训练阶段,图像特征或特征向量(204)连同由训练数据集中的对应的HDR图像中的参考HDR亮度和色度码字(或值)表示的真实数据(或标签)一起可以用于训练或优化色度字典210(或MMR映射),以根据SDR亮度和色度码字进行对HDR色度码字(或值)的基于色度字典的预测。然后,经训练的色度字典 (210)可以用于生成MMR系数212(例如,在定义从SDR亮度和色度码字到HDR色度码字的映射的色度矩阵中等)以供下游接收方设备使用以将SDR亮度和色度码字映射到HDR色度码字中。
在一些非限制性实施方式示例中,表示针对亮度通道Y(或亮度颜色分量)的后向整形曲线的8段多项式近似(208)和表示针对色度通道Cb和Cr的后向整形映射的MMR 系数(212)可以由一个或多个视频编码器214编码在视频信号的一个或多个图像元数据容器中,而与视频信号中携带或编码的编码视频内容分开。8段多项式近似(208)和 MMR系数(212)可以作为一些或所有图像元数据连同一个或多个非训练SDR图像(例如,202,不在训练数据集中等)传输到一个或多个下游解码器。非训练SDR图像可以被编码在视频信号的基本层或编码比特流216中。
在HDR亮度重构(例如,根据SDR图像中的SDR亮度码字预测/估计HDR亮度码字等)期间,如由后向LUT(或近似后向LUT的多项式)表示的后向整形曲线可以用于接受SDR图像的(例如,每个等)像素位置处的SDR亮度码字(值)作为输入,并且生成(将要构造或重构的)经映射HDR图像的(例如,每个等)对应像素位置(例如,同一行/列等)处的对应的经映射HDR亮度码字(值)作为输出。针对经映射HDR图像的一些或所有像素位置的经映射HDR亮度码字(值)可以这种方式生成并被用于构建经映射HDR图像的亮度通道或亮度颜色分量(例如,在亮度和色度通道或颜色分量之间等),然后,经映射HDR图像可以用于得出用于在与本文所描述的下游解码器结合使用的图像显示器处进行渲染的HDR显示图像。
基于GPR的亮度预测
如图2B所示的基于GPR的过程(例如,流程图、方法等)可以用于基于输入SDR 内容(例如,单个SDR图像、一个或多个SDR图像、SDR图像组、包括一系列SDR图像的场景中的一些或所有场景等)预测或估计后向整形曲线上的Q个(例如,分散的、等距的、非等距的等)样本点——其中水平轴表示SDR码字空间,该SDR码字空间包括用于表示实际SDR图像中的SDR亮度码字或值的所有可用的SDR码字或值;并且竖直轴表示经映射HDR码字空间,该经映射HDR码字空间包括经映射HDR码字或值。然后可以内插和/或外推预测/估计的样本点,以构造整个后向整形曲线(或BLUT)。
如图2B所示的过程的第一步骤(222)是从训练数据集中的输入SDR图像226中提取(例如,相关的、选择的等)图像特征并使用该图像特征来(例如,可靠地、高置信度地、准确地等)预测或估计亮度后向整形曲线或后向LUT。
如图2B所示,训练数据集包括SDR图像(226)和对应的HDR图像228。SDR图像(226)中的每个SDR图像在HDR图像228中具有对应的HDR图像或与对应的HDR 图像形成对,从而在训练数据集中形成多个SDR-HDR图像对。训练数据集中的SDR-HDR (图像)对中的SDR图像和对应的HDR图像描绘了相同的图像特征,如视觉对象、人物/角色、视觉场景、视觉背景、移动对象(如汽车、飞机等),但具有不同的(光亮度) 动态范围、色域、色彩精度、鲜艳度等。
可以基于一个或多个图像特征选择因素或标准(例如特征向量计算的效率、预测准确度等)从各种图像特征中选择图像特征。
为了对大规模部署可行,计算复杂度和预测准确度应该在可接受的限制内(例如,基于用户输入确定、基于启发法确定、基于训练数据的实证研究确定等)。基于这些可接受的限制(或约束),一种、两种或更多种图像特征类型可以是合适的(例如,符合或满足可接受的限制或约束等)。
作为示例而非限制,所选择的图像特征可以是(例如,归一化的等)亮度-色度组合1D直方图中的直方图仓(bin)计数。亮度-色度组合1D直方图和其中的仓计数可以用于得出特征向量230,该特征向量进而可以用于训练GPR模型以产生相对高度可靠且准确的预测/估计结果。
将输入3通道(分别表示为y、c0和c1)SDR视频信号(例如,包括训练数据集中的SDR图像(226)等)中的亮度和色度码字放入到每个通道(或维度)中的M个仓中。第j个图像或帧处的归一化(例如,归一化到[0,1]的值范围)的第i个SDR像素值(或亮度和色度码字)可以映射到3D直方图中索引为(αjijiij)的立方体,其中索引αjijiij给出如下:
3D直方图中的每个3D立方体是表示与3D立方体的索引相对应的相应(量化后) 输入值的三元组。第j个图像或帧中的像素的总数(或计数)表示为P。可以使用如下表 1中所示的示例程序将(例如,在训练数据集等中的)所有F个帧中的像素值(或亮度和色度码字)收集到F个3D直方图中。
表1
在一些实施例中,可以使用如下表2中所示的示例程序获得最终的(对数)直方图。
表2
在一些实施例中,亮度通道(或维度)可以被分割为My个仓;3D直方图的两个色度通道(或维度)可以分别分割为Mc0个仓和Mc1个仓。第j个图像或帧处的归一化的第 i个SDR像素值(或亮度和色度码字)可以分别映射到亮度通道(或维度) 的索引为αji的My个仓,映射到C0色度通道(或维度)的索引为βji的Mc0个仓,以及映射到C1色度通道(或维度)直方图仓的索引为γij的Mc1个仓,其中索引αjijiij给出如下:
对于(例如,SDR图像(226)等中的)每个SDR图像或帧,通过对每个仓中的像素总数进行计数来构建三个单独的1D直方图(每个通道一个)。可以对(例如,训练数据集等中的)所有F个图像或帧重复进行生成三个单独的1D直方图的过程。
可以使用如下表3中所示的示例程序将三个亮度和色度通道的三个单独的1D直方图进行级联以形成如图3D所示的组合亮度-色度1D直方图(表示为)。
表3
可以使用如下表4中所示的示例程序对每个组合亮度-色度1D直方图进行归一化,以消除在训练或测试如本文所描述的ML模型(例如,GPR模型等)期间改变图像维度的影响。
表4
每个组合亮度-色度1D直方图可以表示特征向量(用于训练GPR模型或利用GPR 模型进行预测),其维度K给出如下:
K=My+Mc0+Mc1 (5)
如前所述,训练数据集包含(训练)SDR图像(226)和对应的(例如,用户期望的、手动颜色分级的等)HDR图像(228)的对。如图2B所示的过程的第二步骤(224)——其可以以关于所讨论的第一步骤(222)的任何执行顺序(如在第一步骤之前、之后或同时)执行——是例如使用如CDF匹配的方法为每对训练SDR图像及其对应的HDR图像构造后向LUT。示例CDF匹配操作在2017年9月11日提交的PCT申请号PCT/US 2017/50980、2016年10月5日提交的美国临时申请序列号62/404,307(还公布于2018 年4月5日,作为美国专利申请公开序列号2018/0098094)中进行了描述,上述申请的整个内容如本文充分阐述的那样通过引用并入本文。
如本文所描述的技术可以应用于各种位深度的SDR图像,如8位SDR图像(例如,BLUT中的256个索引等)、10位SDR图像(例如,BLUT中的1024个索引等)等。作为示例而非限制,对于训练数据集中的F个SDR-HDR图像对中的SDR-HDR图像对中的10位SDR图像(其中,F是大于一(1)的正整数),后向整形曲线可以表示为210=1024 个索引(例如,索引条目、索引数组元素等)的数组形式的后向LUT。可以在表示为ρ的 L个位置处对后向整形曲线进行采样,其中,L是大于一(1)的正整数。
在使用L个等距样本点对后向整形曲线进行采样的操作场景中,后向整形曲线的这些等距样本点的位置可以给出如下:
其中l∈[1,L] (6)其中,l表示对该L个等距样本点中的对应样本点的正整数索引。
后向整形曲线中的样本(或样本点)的这L个位置处的HDR值可以得出为BLUTjl),其中,BLUTj(·)表示代表训练数据集中的(在F个SDR-HDR对中的)第j个SDR-HDR 对的BLUT(或后向整形曲线)的1024元素数组。
后向整形曲线中的样本(或样本点)的这L个位置处的HDR值BLUTjl)中的每一个(例如,第l个HDR值等)构成或标记或指示对后向整形曲线的L个样本点中的相应样本点(例如,第l个样本232等)的真实预测(例如,用于预测/估计的参考值、用于预测/估计的真实数据等),该L个样本点用于训练GPR模型(例如,分别针对样本点的L个位置的L个GPR模型等)中的相应GPR模型(例如,第l个GPR模型234等)。
L(从训练数据集中的SDR-HDR图像对构造的每个后向整形曲线的采样点总数) 的示例值可以包括但不一定仅限于10、15、20、25等。
使用特征向量(230)和样本(232)训练GPR模型的结果(包括针对L个采样点位置确定的HDR值的真实预测(例如,用于预测或估计的参考值、用于预测或估计的真实数据等))可以存储在一个或多个(例如,二进制等)文件中、缓存在存储器中、保存在一个或多个数据库中等。
总之,在一些实施例中,对于训练数据集中的每个SDR-HDR对,可以从SDR-HDR 对中的SDR图像中提取特征向量(230);可以通过(例如,经由本文提到的CDF技术等)从SDR-HDR对构造的后向LUT得出后向整形曲线的L个样本。
将特征向量的长度(或维度)表示为K。将SDR图像的位深度表示为Bs。如下表 5中所示的示例程序可以用于构造特征向量(或特征矩阵)X和真实预测矩阵(其包括用于预测/估计要利用GPR预测/估计的经映射HDR值的观测结果或参考值)y。
表5
训练GPR模型
特征向量矩阵X以及真实预测矩阵y中的观测结果可以如下用于训练GPR模型或学习其操作参数。
可以训练总共L个不同的GPR模型来预测在样本点的L个位置处的经映射HDR值。GPR模型中的每个GPR模型估计后向整形曲线上的在这L个位置中的特定位置处的相应点。更具体地,可以训练这L个GPR模型中的第l个GPR模型来预测或估计表示后向整形曲线的后向LUT的第ρl个条目,其中,l∈[1,L]。后向整形曲线(或后向LUT)的预测条目(或样本)在图3A中被图示为圆点。
出于说明目的,考虑用于预测或估计后向整形曲线在第ρl个位置处的第l个值的第l 个GPR模型。将数据集中的总数F个训练向量中的第p个和第q个训练向量(其中, p,q∈[0,F-1])分别表示为xp和xq。将代表这两个向量之间的核化距离的核函数表示为rl(xp,xq)。将对应的权重表示为wl,q。然后,基于所有F个特征向量的从第l个GPR 模型进行的预测可以用公式表示如下:
训练阶段可以用于调整用于进行预测的核函数的操作参数和权重,从而使预测误差最小化,如下所示:
要在表达式(7)和(8)中使用的示例有理二次(RQ)核rl(xp,xq)可以采用以下形式:
在训练阶段期间,可以学习或优化以下操作参数:表达式(9)中的核的超参数θl={σl,f,αl,dl};{wl,q}:表达式(7)中第l个GPR模型的加权因子(F个加权因子对应于F个特征向量)。
在学习或优化操作参数后,然后可以应用或使用第l个GPR模型来预测从任何SDR图像中提取的任何(例如,未见过的、待预测的、待估计的、测试等)特征向量的对应值,如下所示:
可以应用或重复上述操作来训练L个GPR模型中的所有GPR模型,以学习或优化这些GPR模型中的相应操作参数,这些GPR模型中每个GPR模型具有其自己的一组核操作参数和权重(或权重因子)。
测试GPR模型
测试阶段可以用于从(测试)SDR图像构建(测试)特征向量(例如其特征类型与在训练特征向量时所使用的相同或完全相同),然后使用经训练的GPR模型构造后向整形曲线(或对应的后向LUT)中的样本。然后可以内插和/或外推这些样本,以生成整个后向整形曲线(或整个BLUT)。可以利用生成的BLUT来执行CDF匹配,以确保所得的BLUT平滑且单调非减。
如图2C所示,类似于图2B的第一步骤(222),可以从输入(测试)SDR图像236 中提取(测试)图像特征。举例来说,(测试)特征向量(表示为)238可以从SDR 图像(236)中提取并且被表示为组合亮度-色度1D直方图,其中直方图仓作为图像特征。在各种操作场景中,诸如(测试)特征向量/>(238)的特征向量可以从场景的部分或全部、图片组的部分或全部、图像或帧的时间序列的部分或全部等中的输入SDR图像中提取。可以对特征向量中的每一个进行归一化,使得特征向量中的所有元素加起来为一(1)。
(测试)特征向量(图2C的238)可以与经训练的第l个GPR模型(图2C的234) 一起用于预测或估计后向整形曲线上的第l个样本(图2C的240)或第l个经映射HDR 值,该后向整形曲线用于将(测试)SDR图像整形为经映射HDR图像。这可以重复用于预测或估计后向整形曲线上的所有L个位置的样本。
基于第l个GPR模型(234)对后向整形曲线上的第l个样本(240)(或第l个HDR 值)的预测给出如下:
类似地,可以使用对应的GPR模型来预测或估计后向LUT的其他值。因此,可以预测或估计后向整形曲线上的L个样本或点,如下所示:
定义或指定BLUT的数组的条目(例如,1024个条目)可以通过内插(图2C的242) 来填充。
在一些操作场景中,静态BLUT(用于映射SDR图像,而不管SDR图像中的实际像素值分布或实际视觉内容如何)和动态BLUT(例如,基于SDR图像的相应图像特征为每个SDR图像单独生成的动态BLUT等)可以合并。
例如,从GPR模型预测/估计的后向LUT的样本可能略高于经映射HDR图像的暗区域中的期望值。这可导致重构的HDR图像中黑色水平升高的问题或视觉伪影,尤其是在重构的HDR图像中存在的黑边(letterbox)区域和黑框周围。为了除去这个问题或视觉伪影,可以在暗区域中将静态后向LUT与从GPR模型预测/估计的动态BLUT合并。在一些实施例中,使用共同的索引位置从第一点(例如,最暗点等)开始将GPR模型的预测值替换为来自静态BLUT的值,如下所示:
BLUT(ρl)=static_BLUT(ρl),l∈[1,χ] (13)
其中,χ表示阈值索引值,低于该阈值索引值使用静态BLUT值,并且该阈值索引值可以设置为2、3等,在一些实施例中不超过static_BLUT(·)表示静态BLUT。
可以使用或应用线性内插(图2C的242)以通过填充BLUT(·)中的所有缺失值来构造整个BLUT。在给定BLUT在位置ρl(l∈[1 L])处的样本值的情况下,BLUT的第一个值和最后一个值可以填入如下:
BLUT中的剩余的缺失值可以使用线性内插(图2C的242)来内插。对于任何BLUT 索引(其中,/>是整数索引),可以首先确定与位于BLUT索引/>处的条目最近的点。假设位置/>位于l与l+1之间。则位于BLUT索引/>处的BLUT条目的值可以计算如下:
或者等效地,位于BLUT索引处的BLUT条目的值可以给出如下:
在线性内插之后,可以获得或生成整个BLUT中的所有索引条目。
可以在BLUT上强制执行单调非减条件(图2C的244)。可以至少在两个不同的时间强制执行该条件。在第一非限制性示例中,可以在线性内插之前强制执行单调非减条件。例如,如果根据第l个GPR模型对第l个经映射HDR值的预测/估计小于根据第(l- 1)个GPR模型对第(l-1)个经映射HDR值的预测或估计,则可以复制根据第(l-1)个 GPR模型对第(l-1)个经映射HDR值的预测或估计作为对第l个经映射HDR值的预测/ 估计,而不管根据第l个GPR模型预测/估计的是什么,如下表6中所示的示例程序所示。
表6
在第二非限制性示例中,可以在线性内插之前或在线性内插之后强制执行单调非减条件。BLUT和归一化的SDR直方图可以用于预测HDR直方图分布。从测试SDR图像获得的SDR直方图以及预测的HDR分布可以作为输入馈送给CDF匹配操作,以生成单调非减、平滑的后向整形曲线。在前面提到的PCT申请号PCT/US 2017/50980中描述了用于确保后向整形曲线是单调非减的示例CDF匹配。
可以使用上述方法中的一种或两种来强制执行单调非减条件的约束。除了提供单调性之外,CDF匹配可以用于产生有利于(例如,8段等)多项式近似的相对平滑的后向整形曲线。
在一些操作场景中,可以利用8段二阶多项式来近似(例如,最终的、预测的等) 后向LUT。然后可以将指定多项式的操作参数发送到一个或多个下游解码器,以用于重构经映射HDR图像中的HDR亮度码字并用于在图像显示器处渲染经映射HDR图像。
基于字典的色度预测
在一些操作场景中,亮度映射(或亮度后向整形)使用SDR视频内容的单个亮度通道(例如,“Y”等)来预测或估计经映射或重构的HDR视频内容的对应亮度通道,而色度映射(或色度后向整形)使用SDR视频内容的所有三个亮度和色度通道(例如,“Y”、“Cb”/“C0”和“Cr”/“C1”等)来预测或估计经映射或重构的HDR视频内容的色度通道。附加地、可选地或可替代地,色度映射可以作为使用预训练色度字典的色度预测过程来实现或执行。
如本文所描述的色度字典预测方法可以开始于从一个或多个训练数据集中的SDR图像中提取特征向量。出于类似的原因,这种方法可以利用如前所讨论的亮度-色度组合1D直方图特征来相对高效地起作用。此外,在色度映射中使用与在亮度映射中相同的(图像)特征使得能够以相对较高的计算效率共享或重用计算出的特征向量。
更具体地,如图2D所示,从训练数据集中的(训练)SDR图像226(其可以与图 2C的226相同)中的每个SDR图像中提取亮度-色度组合1D特征向量230(其可以与图 2C的230相同),该训练数据集还包括对应的(训练)HDR图像228(其可以与图2C 的228相同)。
可以将特征向量馈送到聚类算法/方法(例如,用于生成固定数量的(如64个)聚类;用于生成非固定的、自动确定的数量的聚类,从而最小化聚类内距离同时最大化聚类间距离等)以将相似的图像/帧分组在一起。聚类背后的动机是将具有类似图像特性或视觉特性的帧分组到同一个相对同质的聚类中。对于这种相对同质的聚类,相同的后向色度映射——或将进一步详细解释的由A和B矩阵有效捕获或表征的SDR到HDR色度映射——可以(例如,完全地、充分地、足够地等)一致地应用于聚类中的所有帧。因此,对于每个这样的聚类,只能计算单一的一组A和B矩阵。可以使用同一组A和B 矩阵来捕获用于属于该聚类的所有图像/帧的SDR到HDR色度映射的相同或类似的本质。
如图2D所示,(例如,所有等)特征向量(230)可以汇集在一起,然后被分组或分割为P个聚类,例如通过聚类算法/方法(包括但不限于k均值聚类算法246)自动地或以编程方式进行。
特征向量的聚类可以被视为表示具有类似亮度和色度像素值分布的图像/帧的对应聚类的集合。产生多个特征向量的聚类之中的特征向量的聚类的图像/帧被认为或视为属于同一图像/帧的聚类,该图像/帧的聚类可以经受相同或类似的SDR到HDR色度通道映射(色度后向映射)。
可以通过对属于特征向量的聚类(或图像/帧的对应聚类)的所有特征向量取算术平均值(例如,多维平均等)来评估该聚类的聚类质心。
用于对特征向量进行聚类并计算特征向量的聚类的相应质心的示例程序如下表7所示。
表7
图3B图示了特征向量空间中的特征向量的如通过应用自动k均值聚类算法/方法生成的示例聚类。特征向量由小圆圈表示并聚合到它们的特定聚类中。特征向量的聚类的相应聚类质心由大圆圈外接的十字表示。
对于特征向量的第c个聚类(或者对应于或产生特征向量的第c个聚类的图像/帧的第c个聚类),Ac和Bc矩阵——其是对应于或产生特征向量的第c个聚类的图像/帧的第 c个聚类的A和B矩阵——可以使用图像/帧的第c个聚类中的基于3DMT的MMR和 SDR-HDR图像对来计算。这些矩阵Ac、Bc和第c个聚类质心一起构成了第c个聚类的 (预训练的)色度字典的聚类特定的部分。
色度后向整形可以利用从一组(聚类特定的)A和B矩阵得出的MMR系数来在解码器侧执行,该组是在针对色度映射的训练阶段期间利用3维映射表(3DMT)为每个聚类单独计算或训练的。
令三元组和/>分别表示第j个SDR和HDR图像/帧中的第i个像素的归一化的Y、C0和C1值。SDR码字空间(或SDR域)的Y、C0和C1码字(或像素值)范围可以分别被分割为/>个仓。可以为第j个SDR图像/帧构造具有/>维度的3D表/>(图2D的248)。该3D表/>中的每个条目可以表示为初始化为零或[000]的3元素向量。在此初始化之后,可以遍历第j个SDR图像/ 帧中的每个像素以确定每个这样的像素所属的对应的仓(或仓关联性)/>
可以如下找到第j个SDR图像/帧中的每个像素的仓关联性t:
/>
该仓关联性t可以被应用于建立第j个SDR图像/帧中的SDR像素的仓关联性和第j个HDR图像/帧中的对应HDR像素的仓关联性两者。更具体地,就相同的像素位置而言,第j个HDR图像/帧中的HDR像素可以对应于第j个SDR图像/帧中的具有共同/共享的一组像素行索引和像素列索引等的SDR像素。第j个HDR图像/帧中的HDR像素被计入 HDR 3D表(图2D的250)的仓中的HDR像素计数,该HDR 3D表的仓具有与SDR 3D 表(图2D的248)的具有相同的仓关联性t(或如表达式(17)中所示的相同的仓索引) 的仓相同的仓关联性t(或如表达式(17)中所示的相同的仓索引)。
因此,累加第j个SDR图像/帧中的映射到第t个仓的所有SDR像素的Y、C0和C1值,这可以数学上表示如下:
对于第j个SDR帧中的像素
SDR 3D表(图2D的248)可以构造为针对第j个SDR图像/帧的3D直方图Πj(其表示直方图而不是乘法运算),其中,3D直方图Πj中的具有仓关联性t的每个仓用于存储第j个SDR图像/帧中的映射到第t个仓的SDR像素(如上述表达式(18)所示)的数量,如下所示:
对于第j个SDR图像/帧中的像素
其中,以上等式中的Ι(·)表示如果第i个像素属于具有仓关联性t的仓则生成1的恒等函数。
类似地,可以构造HDR域中的HDR 3D表(图2D的250),以聚合第j个HDR 图像/帧中的映射到第t个仓的所有HDR像素的Y、C0和C1值,如下所示:
对于第j个HDR图像/帧中的像素
对于每个聚类c,令Φc为聚类到聚类(c)的SDR和HDR图像/帧组。聚类特定的 SDR和HDR 3D表和/>(图2D的248和250)可以被构造为3D直方图Πc,其中,p代表属于该聚类(或p∈Φc)的图像/帧,如下所示:
可以通过除以跨聚类(c)中的所有图像具有相同仓关联性的仓中的像素总数来对3D 表和/>中的非零条目进行归一化或平均化。这使得/>中的3D向量的所有元素(每个元素对应于相应的通道或颜色分量)都在范围[0,1]内,这可以数学上表示如下:
然后,SDR和HDR 3D表(图2D的248和250)可以用于为该特定聚类(c)构建 Ac和Bc矩阵。
表示/>的第t个仓中的3D(归一化的或平均化的)SDR向量,其中可以对SDR三元组的所有元素进行归一化或平均化(例如,/>等)。令表示/>的第t个仓中的3D(归一化的或平均化的)HDR向量,对与计入到/>的第t个仓中的SDR像素相对应的对应的(归一化的或平均化的)HDR像素进行计数或存储。
为了从SDR亮度和色度码字预测HDR色度码字/值,可以首先构造向量如下:
C0和C1通道的对应MMR系数可以由以下向量(例如,向量转置,下面的上标“T”代表向量转置等)表示:
其中,R代表上述表达式(22)中的向量的维度。对于包括二阶MMR系数的向量,R=15。预测值和/>可以通过以下获得:
令Wc表示3D表/矩阵中的非零仓的总数。如表达式(22)中所示的预期HDR色度值的向量/>以及SDR值或项的合并矩阵Gc可以被构造或写成如下:/>
类似地,真实数据HDR值的(例如,目标、参考等)向量可以被构造或写成如下:
用于色度映射(或色度后向整形)的A和B矩阵或其中的MMR系数可以通过求解优化问题以最小化所有仓的总体近似误差来确定,如表8所示。
表8
优化问题可以利用线性最小二乘解来求解,如下所示:
在上面的表达式(27)中,令:
表达式(28)中的这些矩阵形成分别为每个聚类(c)计算的一组聚类特定的A和B矩阵。这组聚类特定的A和B矩阵与为聚类(c)计算的聚类质心一起形成色度字典的聚类特定部分,以用于对具有与聚类(c)的图像特性或特征向量相同或类似的图像特性或特征向量的图像执行色度映射。更明确地,色度字典包括或存储如下分量:对于特征向量的所有聚类(例如,总数C个聚类等)中的每个聚类的A、Bc0和Bc1,以及每个聚类的聚类质心Ψc(·)。
色度字典包括(例如,多组等)机器学习的聚类特定的A和B矩阵或其中的MMR 系数,并且相应的聚类质心可以持久地存储或存储在缓存/存储器中并用作色度预测操作的基础。附加地、可选地或可替代地,在多个训练数据集——该多个训练数据集中的每个训练数据集可以提供相应的用户期望风格或HDR外观——用于训练如本文所述的 GPR模型和色度字典的操作场景中,该多个训练数据集中的每一个可以被自动聚类成(例如,多个等)聚类并用于得出相应的色度字典,该色度字典包括(例如,多组等)机器学习的聚类特定的A和B矩阵或其中的MMR系数、以及相应的聚类质心,从而产生分别对应于该多个训练数据集(或由其训练)的多个色度字典。这些色度字典可以持久地存储或存储在缓存/存储器中,并用作色度预测操作的基础。
测试色度映射
可以在不依赖于访问对应的HDR图像的情况下执行色度字典方法的测试阶段。可以实施或执行测试阶段以计算测试SDR图像上的特征向量(例如,具有与在训练特征向量的过程中所使用的相同或完全相同的特征类型,等等),并将该特征向量与所有聚类的所有聚类质心进行比较,以找到最接近的聚类、或两个或更多个最接近的聚类。最接近的聚类或两个或更多个最接近的聚类的A和B矩阵可以用于计算(例如,在使用多于一个最接近的聚类的情况下进行组合等)或得出用于该测试SDR图像的MMR系数。用于测试SDR图像的所得出的MMR系数可以(例如,由解码器等)用于例如在解码器侧从测试SDR图像重构经映射HDR图像的色度通道中的HDR码字。
在一些操作场景中,使用单个最接近的聚类(例如,图2E的256等)来进行色度映射。可以相对安全地假设任何未见过的SDR图像/帧(它在特征空间中最接近该单个聚类)都可能表现出类似的后向色度映射属性。对应于未见过的SDR图像/帧的经映射HDR图像的HDR色度通道可以使用该聚类的一组A和B矩阵来相对可靠和准确地构造,例如,甚至无需访问对应的参考HDR图像/帧。
在一些其他操作场景中,代替找到最接近的聚类,可以找到多个最接近的μ个聚类(例如,图2E的256等),使得可以组合它们的A和B矩阵来评估或得出SDR图像(如上述测试SDR图像)的MMR系数。这种聚类融合(例如,图2E的258等)的策略可以更好地用于视频序列,因为可以更好地保持或保留相邻帧的颜色一致性。
如图2E所示,可以从输入(测试)SDR图像236(其可以与图2C的236相同)中提取(测试)图像特征。举例来说,(测试)特征向量(表示为)238(其可以与图2C 的238相同)可以从SDR图像(236)中提取并且被表示为组合亮度-色度1D直方图,其中直方图仓作为图像特征。
然后将(测试)特征向量(238)与特征向量的所有聚类的所有聚类质心254(如从图2D中所示的训练阶段得出)进行比较。聚类质心(254)可以首先从最接近的聚类质心开始排列,然后按照相对于(测试)特征向量/>(238)的相应接近度的顺序来排列。任何合适的距离度量(例如,欧式距离、L2距离等)可以用于计算聚类质心(254)相对于(测试)特征向量/>(238)的相应距离,只要该距离度量在训练阶段(用于聚类) 和测试阶段(用于标识最接近的一个或多个聚类)中一致地使用即可。我们在实验中使用欧式距离度量。给定(测试)特征向量/>(238)和表示为xc的聚类质心(254),具有(测试)特征向量/>(238)与聚类质心(254)之间的一个或多个最接近的距离的一个或多个聚类可以用公式表示如下:
在一些操作场景中,对于单个测试图像,单个(例如,最接近的等)聚类的A、Bc0和Bc1矩阵可以用于得出用于对测试图像执行色度后向整形的MMR系数。
在一些操作场景中,对于视频序列,单个聚类方法可能不太安全,因为视频序列中的相邻图像/帧可以映射到不同的聚类质心,并因此映射到不同的聚类,从而可能导致视频序列(如特定的视频场景)内的颜色波动。为了保持场景或视频序列内的颜色一致性,可以将来自多个前μ个(最接近的)聚类的多组聚类特定的A和B矩阵融合(例如,图 2E的258等)在一起以形成共同的一组A和B矩阵,该共同的一组A和B矩阵可以用于对视频序列的每个SDR图像/帧执行色度映射。
可以通过对前μ个聚类的多组聚类特定的A和B矩阵求平均以获得或生成统一的色度映射操作参数(例如,MMR系数等)来实施或执行所描述的聚类融合。在示例中,可以利用简单的求平均或加权平均来融合(例如,图2E的258等)或组合聚类特定的A 和B矩阵。
图3C图示了具有前两个聚类(μ=2)的示例聚类融合(例如,图2E的258等)。测试特征向量(实心圆)与前两个聚类的两个相应距离为d1和d2。将前两个聚类的两组聚类特定的矩阵分别表示为/>和/>将前两个聚类的聚类质心分别表示为x1和x2。在第一示例中,一组融合的A和B矩阵可以通过如下的简单的求平均得出:
在第二示例中,一组融合的A和B矩阵可以通过如下的加权平均得出:
其中/>以及/>
从上面的表达式(31)中可以看出,可以将加权平均中使用的权重选择为测试特征向量与聚类质心之间的距离的倒数。聚类的距离越短,指配给聚类的权重就越大。可以扩展加权策略以执行具有两个以上聚类(如μ=4、5等)的聚类融合。
用于对测试SDR图像进行色度映射的MMR系数可以得出如下:
uc0,opt=A-1Bc0
uc1,opt=A-1Bc1
(32)
色度预测(从SDR亮度和色度码字预测或估计HDR色度码字)可以利用离线训练的色度字典来确定或提取优化的色度后向映射操作参数。色度字典包含可以用于得出 MMR系数的聚类特定的(A,Bc0,Bc1)矩阵的列表,该MMR系数用于将SDR图像后向整形为对应的经映射HDR图像。多组聚类特定的聚类(A,Bc0,Bc1)矩阵的融合可以用于帮助保持跨(例如,顺序的、连续的等)图像/帧的视频序列中的相邻图像/帧的颜色一致性。
机器学习的亮度和色度映射的示例应用
亮度和色度后向整形映射(从SDR亮度和色度码字预测/估计HDR亮度和色度码字)可以用于开辟(或支持)操纵HDR外观和优化元数据的各种不同的可能性。
利用编码器进行风格传递
在一些操作场景中,如图2F所示,可以通过利用SDR图像编码的视频信号或编码比特流中携带的动态合成器元数据将不同的风格(例如,偏好带蓝色图像的风格、偏好带红色图像的风格、偏好强烈对比度的第一调色师的风格、偏好柔和图像的不同调色师的风格等)或不同的HDR外观从上游视频编码器传递到一个或多个下游视频解码器。
对于被编码在视频信号或编码比特流中的每个SDR图像282,从编码器传输到一个或多个解码器的动态合成器元数据的第一部分可以包括指定或定义通过将选定的GPR模型组应用于特征向量284而生成的亮度后向整形映射(例如,后向整形曲线、BLUT等) 的第一操作参数,该特征向量包括从SDR图像(282)提取的图像特征(例如,基于通道Y、Cb/C0和Cr/C1中的码字计算的图像特征等)。
用于SDR图像(282)的选定的GPR模型组可以从诸如206-1到206-N的不同的GPR 模型组中选择,其中,N是大于一(1)的正整数。不同的GPR模型组206-1到206-N 可以由一个或多个不同训练数据集中的不同的训练SDR-HDR图像对组来训练。例如,对于一组训练SDR图像,可以生成多组对应的训练HDR图像,其中,该多组对应的训练HDR图像中的每一组代表该多组对应的训练HDR图像中所表示的多个用户期望风格或HDR外观之中的不同的用户期望风格或HDR外观。如本文中所使用的,用户期望风格或HDR外观可以指如调色师、专业视频创作者、工作室等用户所偏好或意图的图像(例如,HDR图像等)风格。
在示例中,对应于选定的用户期望风格或HDR外观的选定的GPR模型组可以是从不同的GPR模型组206-1到206-N中选择(例如,基于用户偏好、系统配置信息等)的单个GPR模型组。
从编码器传输到一个或多个解码器的动态合成器元数据的第一部分、或者指定或定义用于SDR图像(282)的亮度后向整形映射的第一操作参数可以包括要由一个或多个解码器用来将SDR图像(282)中的SDR亮度码字后向整形为对应的经映射HDR图像中的经映射HDR亮度码字的BLUT或后向整形曲线的表示/规范。在一些实施例中,BLUT 或后向整形曲线可以被分割或划分为分别利用多个二阶多项式288近似的多个(例如,最大8个等)曲线段。对于视频信号或编码比特流中的一个或多个图像元数据容器(例如,与图像内容容器等分开)中的(每个)SDR图像/帧(282),指定或定义多个或一组二阶多项式(288)的多项式系数可以在动态合成器元数据的第一部分中从编码器发送到一个或多个下游解码器。
类似地,对于编码在视频信号或编码比特流中的每个SDR图像(282),从编码器传输到一个或多个解码器的动态合成器元数据的第二部分可以包括指定或定义通过将选定的色度字典(例如,包括多组A和B矩阵、这些矩阵中的MMR系数等)应用于特征向量(284)而生成的色度后向整形映射的第二操作参数(例如,MMR系数等)。
用于SDR图像(282)的选定的色度字典可以从诸如210-1到210-N的不同的色度字典中选择,其中N——其可以是或可以不是与用于上面讨论的GPR模型的整数相同的整数——是大于一(1)的正整数。不同的色度字典210-1到210-N可以由不同训练数据集中的不同的训练SDR-HDR图像对组来训练——该组可以是或可以不是与用于上面讨论的GPR模型的组相同的组。不同训练数据集中的这些不同的训练SDR-HDR图像对组可以具有不同的对应用户期望风格或HDR外观。
在示例中,选定的色度字典可以是从不同的色度字典210-1到210-N中选择(例如,基于用户偏好、系统配置信息等)的单个色度字典。
从编码器传输到一个或多个解码器的动态合成器元数据的第二部分、或者指定或定义用于SDR图像(282)的色度后向整形映射的第二操作参数可以包括要由一个或多个解码器用来将SDR图像(282)中的SDR亮度和色度码字映射到对应的经映射HDR图像中的经映射HDR色度码字的色度矩阵(例如、A和B矩阵)中的MMR系数290。对于视频信号或编码比特流中的一个或多个图像元数据容器(例如,与图像内容容器等分开)中的(每个)SDR图像/帧(282),MMR系数(290)可以在动态合成器元数据的第二部分中从编码器发送到一个或多个下游解码器。
支持风格传递的不同的SDR-HDR图像对组可以包括具有(或定制为)不同HDR外观或不同用户定义风格的(训练)HDR图像。例如,训练数据集中的第一训练数据集中的第一SDR-HDR图像对组可以对应于第一HDR外观或第一用户定义风格,而训练数据集中的第二训练数据集中的不同的第二SDR-HDR图像对组可以对应于不同的第二HDR 外观或不同的第二用户定义风格。
对于每个SDR图像(282),不同HDR外观或不同用户定义风格的不同亮度和色度后向整形映射可以由基于不同的GPR(亮度预测/估计)模型组(206-1到206-N)和/或通过不同的色度字典(210-1到210-N)生成的不同的BLUT和/或不同的MMR系数组来表示。不同的GPR模型组和/或不同的色度字典可以分别在(不同训练数据集中的)具有不同HDR外观或不同用户定义风格的不同的SDR-HDR图像对组上进行训练,并且然后单独(例如,基于距离测度等的选定的最接近的风格或外观)应用于任何(例如,测试、待预测、待后向整形等)SDR图像,如SDR图像(282)。
在训练数据集中的特定训练数据集中的一组(训练)HDR图像上学习的GPR模型和色度字典可以用于捕获体现在该组HDR图像的一个或多个特定风格或外观中的固有用户意图。这些GPR模型和色度字典进而可以用于将特定训练数据集中的该组(训练) HDR图像中的一个或多个风格或外观渗透到通过对其他(例如,迄今为止等)未见过的 SDR图像进行后向整形而生成的经映射HDR图像。
作为说明,用户可以自由(或被允许)将对应于(或描绘相同视觉对象、角色、场景、背景等)训练SDR图像的训练HDR图像操纵成用户期望或意图适应的一个或多个用户期望风格或者一个或多个HDR外观。训练SDR图像可以与具有一个或多个用户期望风格或者一个或多个HDR外观中的每一个用户期望风格或者HDR外观的训练HDR 图像配对以形成训练数据集,从而产生一个或多个不同的训练数据集。
随后,可以通过使用具有相应的用户定义风格或HDR外观的(一个或多个不同训练数据集中的)每个训练数据集中的训练SDR图像和训练HDR图像作为输入的机器学习来直接且自动地训练如本文所描述的一个或多个GPR模型组以及一个或多个色度字典。
然后,经训练的GPR模型和色度字典可以将所有用户期望风格或HDR外观中的特定支持的用户期望风格或HDR外观自动渗透或传播到通过对任何其他SDR图像进行后向整形而生成的任何其他经映射HDR图像,而无需用户对这些其他经映射HDR图像执行任何操纵或手动操作来使其他经映射HDR图像获取一个或多个训练数据集之一中的训练HDR图像中表示的特定支持的用户期望风格或HDR外观。结果,在如本文所描述的技术下,用于生成具有用户期望风格或HDR外观的经映射HDR图像的成本和努力可以显著降低到远低于在其他方法(例如,对于每个视频序列,将用户期望风格或HDR外观手动应用于合成的HDR图像)下的水平。
为了将风格从编码器侧传递到解码器侧,上游视频编码器可以在由一个或多个用户分别利用不同的训练数据集训练的各种色度字典(210-1到210-N)和GPR模型组(206-1到210-N)之间进行切换。选择特定的色度字典和特定的GPR模型组(如通过不同训练数据集中的特定训练数据集训练的)可以导致创建动态合成器元数据,以实现如特定训练数据集中的训练HDR图像中所表示的特定用户期望风格或HDR外观。
如本文所描述的动态合成器元数据可以在一个或多个图像元数据容器/构造体中被压缩/编码到视频信号中,该一个或多个图像元数据容器/构造体与用于承载媒体内容数据 (例如,视频帧、音频样本、变换系数等)的图像内容容器/构造体分开。
色度字典可以包括用于每个色度通道的多个A和B矩阵。如图2F所示,在一些实施例中,可以针对视频信号中的每个SDR图像/帧分别发送从色度字典中的一组或多组A 和B矩阵得出的(例如,22个等)MMR系数。然而,在视频序列很长的操作场景中,包括要传输到一个或多个下游解码器的色度字典的MMR系数的动态合成器元数据的数据量可能非常大。
在一些实施例中,不是针对每个SDR图像/帧单独发送MMR系数,而是可以在视频序列的开始发送特定(支持的)色度字典(例如,210-1到210-N中的一个,等等),针对该视频序列从色度字典中选择的特定色度字典可以用于后向整形目的。
如图2G所示,在编码器侧,对于视频序列中的每个SDR图像/帧(282),只有标识不同训练数据集中的(用于训练或得出选定的色度字典的)特定训练数据集中的(训练)SDR-HDR图像对的一个或多个选定的聚类(例如,基于从SDR图像/帧中提取的特征向量而选择的一个或多个最接近的聚类等)的一个或多个(例如,聚类等)索引号或值(或色度字典索引)与SDR图像/帧(282)一起被传输到一个或多个下游解码器。传输到一个或多个下游解码器的索引号或值可以由一个或多个下游解码器用于在特定色度字典中查找和检索对应于该一个或多个聚类的一组或多组选定的A和B矩阵。特定色度字典中检索到的A和B矩阵组可以用于得出或融合到可以在解码器侧从其得出用于色度后向整形的MMR系数的(例如,最接近的、组合的/融合的等)一组A和B矩阵中。因此,传输的动态合成器元数据的数据量可以大幅或显著减少——用于每个SDR图像/帧的 22个MMR系数相对于用于对每个色度通道的查找操作的一个或多个索引号/值。可以基于支持对特定色度字典中的聚类索引号/值进行编码的译码语法将这些号/值编码到视频信号中。
利用解码器进行风格传递
类似于利用编码器侧进行的风格传递,可以在解码器侧启用、实施或执行如本文所描述的一些或所有风格传递。
如图2H所示,可以由下游解码器直接或间接地从上游编码器接收利用一个或多个SDR视频序列编码的编码比特流和包括特定BLUT(利用从所有可用的GPR模型组中选择的特定的GPR模型组、以及从所有可用的色度字典(例如,210-1到210-N等)中选择的特定的色度字典构建)的图像元数据。可用的GPR模型组和可用的色度字典(210-1 到210-N)可以对应于一个或多个训练数据集中的一个或多个相应的(训练)SDR-HDR 图像对组,或者可以利用该一个或多个相应的(训练)SDR-HDR图像对组从机器学习得出。相应的SDR-HDR图像对组中的每个SDR-HDR图像对组可以包括从自动聚类算法/ 方法生成的图像聚类,并且对应于相应的用户期望风格或HDR外观。可以在包括SDR 图像(例如,282等)的视频序列的开始在图像元数据中发送选定的色度字典,经映射 HDR图像将从选定的色度字典获取选定的用户期望风格或HDR外观。特定BLUT可以与SDR图像(例如,针对一个SDR图像一个图像特定的BLUT等)一起在图像元数据中发送,经映射HDR图像将从该特定BLUT获取选定的用户期望风格或HDR外观。
在一些实施例中,图像元数据包括动态合成器元数据,该动态合成器元数据携带或包括一个或多个特定聚类索引(例如,一个或多个数字、一个或多个值、一个或多个整数等),该一个或多个特定聚类索引标识要被组合/融合成用于得出MMR系数的组合/ 融合的色度聚类的一个或多个特定色度聚类,该MMR系数然后可以用于对SDR图像 (282)执行色度后向整形。这种风格传递的过程类似于编码器侧的风格传递,具有以下开销:预先传输可用色度字典(210-1到210-N)中的选定色度字典,并将从特定色度字典中的选定的或组合/融合的A和B矩阵中的色度矩阵计算或得出MMR系数(例如,290 等)的任务委托给解码器,并且将得出的MMR系数(290)应用于(例如,由解码器、由编码器等)从SDR图像(282)中提取的特征向量(例如,284等)。因此,可以在解码器侧控制用户期望风格或HDR外观。
除了提供操纵HDR外观的自由度之外,与静态元数据方法相比,本文所描述的技术还改善了HDR体验。静态元数据可以使用固定的后向LUT和MMR系数,而不管各个 SDR图像的各个SDR特性如何,这可导致重构/经映射HDR图像中的高光/明亮区域的过度饱和、HDR色度的饱和度降低、暗区域中的明亮度升高等。
这些问题可以利用包括亮度和色度后向整形曲线/映射(如BLUT、多项式系数、色度字典、色度字典索引/数字/值、MMR系数、特征向量等)的图像元数据来减轻。这些技术通过训练HDR图像来自动学习/辨别SDR内容的固有特性以及(例如,工作室、用户、系统等的)期望风格或HDR外观。来自(例如,非训练的、未见过的、待预测的、待映射的等)SDR图像的特征向量可以自动与来自训练SDR图像的训练特征向量聚类或其聚类质心进行比较。基于这种比较,可以标识相对于SDR图像的最接近的一个或多个训练SDR图像的聚类。然后可以确定/得出后向整形映射,以使经映射HDR图像继承已经在特定训练数据集中看到的(例如,最接近的一个或多个聚类中的等)特性、风格和 HDR外观。
如本文所描述的技术可以用于实施用于将如动态合成器元数据的图像元数据编码到编码比特流中的图像元数据译码语法。
例如,译码语法可以被指定为将色度字典相关的数据(例如,色度聚类索引/数字/值、色度矩阵、MMR系数等)从上游视频编码器运送到下游视频解码器(以便编码器和解码器两者都可以正确解释图像元数据的编码值)。用于运送色度字典相关的数据的示例译码语法在下面的表9和表10中进行说明。
表9 (为视频序列传递的色度图像元数据)
表10 (为每个SDR图像/帧传递的色度图像元数据)
如表9所示的译码语法中的第一组译码语法元素可以用于支持传递图像元数据的每序列部分中的一些或全部,例如,在开始从视频编码器向下游视频解码器发送视频信号(或编码比特流)中的视频序列时。第一组译码语法元素可以包括但不一定限于以下中的一些或全部:“chroma_dict_num_clusters”,其指定(例如,所有、可用的等)色度字典的聚类总数,其中,这些聚类中的每一个具有相应的一组A和B MMR矩阵;“chroma_dict_num_cluster_fusion”,其指定要进行融合(例如,通过简单求平均、通过加权平均等)以生成针对给定(例如,每个等)SDR图像/帧的一组组合/融合的A 和B矩阵的聚类总数,;“mmr_order_minus1”,其指定用于推导用于色度后向整形的MMR系数总数的C0和C1色度通道的MMR阶数(例如,一阶为0,二阶为1等);“num_A_coeff”,其指定A矩阵的大小;“num_B_coeff”,其指定B矩阵的大小;“chroma_dict_mat_A_int”和/或“chroma_dict_mat_A”,其携带或指定特定聚类的 A矩阵的整数和/或非整数部分;“chroma_dict_mat_B_int”和/或“chroma_dict_mat_B”,其携带或指定特定聚类的B矩阵的整数和/或非整数部分;等等。
如表9所示的译码语法中的第二组译码语法元素可以用于支持传递图像元数据的每图像(每帧)部分中的一些或全部,例如当从视频编码器向下游视频解码器发送视频信号(或编码比特流)中的SDR图像时。第二组译码语法元素可以包括但不一定限于以下中的一些或全部:“chroma_dict_cluster_idx”,其指定每个SDR图像/帧的聚类索引;“chroma_dict_cluster_wf_int”和/或“chroma_dict_cluster_wf”,其携带或指定在聚类融合期间A和B矩阵的一个或多个加权因子的整数和/或小数部分,等等。
示例过程流程
图4A图示了根据本发明的实施例的示例过程流程。在一些实施例中,一个或多个计算设备或部件(例如,编码设备/模块、转码设备/模块、解码设备/模块、逆色调映射设备/模块、色调映射设备/模块、媒体设备/模块、预测模型和特征选择系统、反向映射生成和应用系统等)可以执行此过程流程。在框402中,图像元数据预测系统接收包括多个训练SDR图像和多个对应的训练HDR图像的多个训练图像对。多个训练图像对中的每个训练图像对包括多个训练SDR图像中的训练SDR图像和多个对应的训练HDR图像中的对应的训练HDR图像。每个这样的训练图像对中的训练SDR图像和对应的训练 HDR图像描绘相同的视觉内容,但具有不同的光亮度动态范围。
在框404中,图像元数据预测系统从多个训练图像对中的多个训练SDR图像中提取多个训练图像特征向量。多个训练图像特征向量中的训练图像特征向量是从多个训练图像对中的相应训练图像对中的训练SDR图像中提取的。
在框406中,图像元数据预测系统使用多个训练图像特征向量和利用多个对应的训练HDR图像得出的真实数据来训练一个或多个后向整形元数据预测模型,该后向整形元数据预测模型用于预测用于将SDR图像后向整形为经映射HDR图像的后向整形映射的操作参数值。
图像元数据预测系统进一步被配置为应用一个或多个后向整形元数据预测模型来生成一组操作参数值,该组操作参数值指定图像特定的亮度后向整形曲线,该亮度后向整形曲线用于将SDR图像的SDR亮度码字后向整形为经映射HDR图像的经映射HDR亮度码字。
在实施例中,图像元数据预测系统进一步被配置为执行:接收要后向整形为对应的经映射HDR图像的SDR图像;从SDR图像中提取图像特征向量;应用一个或多个后向整形元数据预测模型来生成指定图像特定的亮度后向整形曲线的一组操作参数值,该亮度后向整形曲线用于将SDR图像的SDR亮度码字后向整形为经映射HDR图像的经映射 HDR亮度码字。
在实施例中,一个或多个后向整形元数据预测模型包括GPR模型。
在实施例中,图像元数据预测系统进一步被配置为执行:接收要后向整形为对应的经映射HDR图像的SDR图像;从SDR图像中提取图像特征向量;应用GPR模型来生成指定图像特定的亮度后向整形曲线的一组操作参数值,该亮度后向整形曲线用于将 SDR图像的SDR亮度码字后向整形为经映射HDR图像的经映射HDR亮度码字。
从SDR图像中提取的图像特征向量可以可选地在生成指定图像特定的亮度后向整形曲线的一组操作参数值期间使用,图像特定性是从提取的图像特征向量中得出的。
在实施例中,一个或多个后向整形元数据预测模型包括一组多变量多元回归(MMR) 映射矩阵。
在实施例中,图像元数据预测系统进一步被配置为执行:接收要后向整形为对应的经映射HDR图像的SDR图像;从SDR图像中提取图像特征向量;应用MMR映射矩阵来生成指定图像特定的色度后向整形映射的一组MMR系数,该色度后向整形映射用于将SDR图像的SDR亮度和色度码字映射到经映射HDR图像的经映射HDR色度码字中。
在实施例中,图像特征向量由通过亮度直方图仓和色度直方图仓级联的1D亮度和色度组合直方图表示。
在实施例中,多个训练图像对被划分为与通过对多个训练图像特征向量进行自动聚类而生成的多个训练图像特征向量聚类相对应的多个训练图像对聚类;为多个训练图像特征向量聚类计算多个聚类质心;图像元数据预测系统进一步被配置为执行:接收要后向整形为对应的经映射HDR图像的SDR图像;从SDR图像中提取图像特征向量;定位与具有在图像特征空间中最接近该图像特征向量的一个或多个聚类质心的一个或多个训练图像特征向量聚类相对应的一个或多个训练图像对聚类;使用通过一个或多个训练图像对聚类训练的一组或多组后向整形元数据预测模型,来确定用于将SDR图像的SDR 亮度和色度码字映射到经映射HDR图像的经映射HDR亮度和色度码字中的一个或多个图像特定的后向整形映射。
在实施例中,多个训练图像对对应于多个训练数据集;多个训练数据集包括多组训练SDR图像和多组对应的训练HDR图像;其中,多个数据集中的每个训练数据集包括多组训练SDR图像中的一组训练SDR图像和多组训练HDR图像中的一组对应的训练 HDR图像;多组对应的训练HDR图像具有多个不同的HDR外观;多组对应的HDR图像中的每组对应的训练HDR图像具有多个不同的HDR外观中的相应HDR外观;图像元数据预测系统进一步被配置为执行:接收要后向整形为对应的经映射HDR图像的SDR 图像;从SDR图像中提取图像特征向量;使用通过多个训练数据集中的特定训练数据集训练的特定一组后向整形元数据预测模型,来确定用于将SDR图像的SDR亮度和色度码字映射到经映射HDR图像的经映射HDR亮度和色度码字中的图像特定的后向整形映射。
在实施例中,图像元数据预测系统进一步被配置为执行:将用于将SDR图像后向整形为经映射HDR图像的后向整形映射的操作参数值中的一个或多个与SDR图像一起编码到视频信号中,作为图像元数据;该视频信号使一个或多个接收方设备利用一个或多个显示设备来渲染从经映射HDR图像得出的显示图像。
在实施例中,基于支持对每图像动态合成器元数据的编码和解码的图像元数据译码语法,将后向整形映射的操作参数值中的一个或多个编码到视频信号中。
在实施例中,用于预测后向整形映射的操作参数值的一个或多个后向整形元数据预测模型包括用于从多个SDR亮度码字预测多个经映射HDR亮度码字的多个GPR模型;由多个GPR模型预测的多个经映射HDR亮度码字用于通过内插构造后向整形曲线;后向整形曲线由多个二阶多项式近似;指定多个二阶多项式的操作参数作为动态合成器元数据被提供给一个或多个接收方解码系统。
图4B图示了根据本发明的实施例的示例过程流程。在一些实施例中,一个或多个计算设备或部件(例如,编码设备/模块、转码设备/模块、解码设备/模块、逆色调映射设备/模块、色调映射设备/模块、媒体设备/模块、预测模型和特征选择系统、反向映射生成和应用系统等)可以执行此过程流程。在框452中,视频解码系统从视频信号中解码将被后向整形为对应的经映射高动态范围(HDR)图像的SDR图像。
在框454中,视频解码系统从视频信号中解码动态合成器元数据,该动态合成器元数据用于得出图像特定的后向整形映射的一个或多个操作参数值。
图像特定的后向整形映射的一个或多个操作参数值是由利用多个训练图像特征向量训练的一个或多个后向整形元数据预测模型预测的。该多个训练图像特征向量是从多个训练图像对中的多个训练SDR图像中提取的。多个训练图像对包括多个训练SDR图像和多个对应的训练HDR图像。多个训练图像对中的每个训练图像对包括多个训练SDR 图像中的训练SDR图像和多个对应的训练HDR图像中的对应的训练HDR图像。每个这样的训练图像对中的训练SDR图像和对应的训练HDR图像描绘相同的视觉内容,但具有不同的光亮度动态范围。
在框456中,视频解码系统使用图像特定的后向整形映射的一个或多个操作参数值来将SDR图像后向整形为经映射HDR图像。
在框458中,视频解码系统使得利用显示设备渲染从经映射HDR图像得出的显示图像。
在实施例中,图像特定的后向整形映射的一个或多个操作参数值包括多项式系数,该多项式系数指定近似后向查找表(BLUT)的一组2阶多项式。使用该组2阶多项式构造的BLUT用于将SDR图像的SDR亮度码字后向整形为经映射HDR图像的HDR亮度码字。
在实施例中,图像特定的后向整形映射的一个或多个操作参数值包括指定一个或多个MMR映射矩阵的MMR系数;MMR系数用于将SDR图像的SDR亮度和色度码字映射到经映射HDR图像的HDR色度码字中。
在实施例中,从视频信号中解码用于SDR图像的一个或多个聚类索引;该一个或多个聚类索引用于在一个或多个色度字典中标识特定色度字典中的适用于SDR图像的一个或多个聚类;从特定色度字典中的通过一个或多个聚类索引标识的一组或多组色度矩阵生成图像特定的多变量多元回归(MMR)系数;该图像特定的MMR系数用于将SDR 图像的SDR亮度和色度码字映射到经映射HDR图像的HDR色度码字。
在实施例中,一个或多个后向整形元数据预测模型包括GPR模型。
在实施例中,图像特定的后向整形映射的一个或多个操作参数值包括通过利用非图像特定的静态后向整形映射值内插图像特定的预测值而得出的至少一个值。换句话说,图像特定的后向整形映射的一个或多个操作参数值包括通过依赖于图像特定的预测值和非图像特定的静态后向整形映射值二者的函数得出的至少一个值。
在实施例中,SDR图像被表示在以下之一中:IPT PQ(ICtCp)颜色空间、YCbCr 颜色空间、RGB颜色空间、Rec.2020颜色空间、Rec.709颜色空间、EDR颜色空间、伽马/HLG/PQ颜色空间、SDR颜色空间,等等。
在实施例中,如显示设备、移动设备、机顶盒、多媒体设备等的计算设备被配置为执行前述方法中的任何方法。在实施例中,一种装置包括处理器,并且该装置被配置为执行前述方法中的任何方法。在实施例中,一种非暂态计算机可读存储介质存储有软件指令,该软件指令当由一个或多个处理器执行时使得执行前述方法中的任何方法。
在实施例中,一种计算设备包括一个或多个处理器以及一个或多个存储介质,该一个或多个存储介质存储指令集,该指令集当由该一个或多个处理器执行时使得执行前述方法中的任何方法。
注意,尽管本文讨论了单独的实施例,但是可以组合本文讨论的实施例和/或部分实施例的任何组合以形成进一步实施例。
示例计算机系统实施方式
本发明的实施例可以利用计算机系统、以电子电路和部件来配置的系统、集成电路 (IC)设备(诸如微控制器、现场可编程门阵列(FPGA)或另一个可配置或可编程逻辑设备(PLD)、离散时间或数字信号处理器(DSP)、专用IC(ASIC))和/或包括这样的系统、设备或部件中的一个或多个的装置来实施。计算机和/或IC可以执行、控制或实施与对具有增强动态范围的图像的自适应感知量化相关的指令,如本文所描述的那些。计算机和/或IC可以计算与本文所描述的自适应感知量化过程相关的各种参数或值中的任何参数或值。图像和视频实施例可以以硬件、软件、固件及其各种组合来实施。
本发明的某些实施方式包括执行软件指令的计算机处理器,该软件指令使处理器执行本发明的方法。例如,显示器、编码器、机顶盒、转码器等中的一个或多个处理器可以通过执行处理器可访问的程序存储器中的软件指令来实施与如上所描述的对HDR图像的自适应感知量化相关的方法。还可以以程序产品的形式提供本发明。程序产品可以包括携带一组计算机可读信号的任何非暂态介质,该组计算机可读信号包括指令,该指令当由数据处理器执行时使数据处理器执行本发明的方法。根据本发明的程序产品可以是各种形式中的任何形式。程序产品可以包括例如物理介质(例如,包括软盘、硬盘驱动器的磁性数据存储介质、包括CD ROM、DVD的光学数据存储介质、包括ROM、闪速存储器RAM的电子数据存储介质等)。程序产品上的计算机可读信号可以可选地被压缩或加密。
在上面提到部件(例如,软件模块、处理器、组件、设备、电路等)的情况下,除非另有指明,否则对该部件的引用(包括对“模块”的引用)都应被解释为包括执行所描述部件的功能(例如,功能上等同的)的任何部件作为该部件的等同物,包括在结构上不等同于执行在本发明的所示出的示例实施例中的功能的所公开结构的部件。
根据一个实施例,本文所描述的技术由一个或多个专用计算设备实施。专用计算设备可以是硬接线的,以执行该技术,或者可以包括被持久地编程以执行该技术的数字电子设备(例如,一个或多个专用集成电路(ASIC)或现场可编程门阵列(FPGA)),或者可以包括被编程为根据固件、存储器、其他存储设备或组合中的程序指令执行该技术的一个或多个通用硬件处理器。这种专用计算设备也可以将定制的硬接线逻辑、ASIC 或FPGA与定制编程组合来实现该技术。专用计算设备可以是台式计算机系统、便携式计算机系统、手持式设备、联网设备、或合并硬接线和/或程序逻辑以实施该技术的任何其他设备。
例如,图5是图示了可以在其上实施本发明的实施例的计算机系统500的框图。计算机系统500包括总线502或用于传送信息的其他通信机制、以及与总线502耦接以处理信息的硬件处理器504。硬件处理器504可以是例如通用微处理器。
计算机系统500还包括耦接到总线502的用于存储要由处理器504执行的信息和指令的主存储器506,如随机存取存储器(RAM)或其他动态存储设备。主存储器506还可以用于存储在执行要由处理器504执行的指令期间的临时变量或其他中间信息。这种指令在被存储于处理器504可访问的非暂态存储介质中时使得计算机系统500变成被定制用于执行指令中指定的操作的专用机器。
计算机系统500进一步包括只读存储器(ROM)508或耦接到总线502的用于存储针对处理器504的静态信息和指令的其他静态存储设备。提供存储设备510(如磁盘或光盘),并将其耦接到总线502以用于存储信息和指令。
计算机系统500可以经由总线502耦接到如液晶显示器的显示器512,以用于向计算机用户显示信息。包括字母数字键和其他键的输入设备514耦接到总线502,以用于将信息和命令选择传送到处理器504。另一种类型的用户输入设备是如鼠标、轨迹球或光标方向键的光标控件516,以用于将方向信息和命令选择传送到处理器504并用于控制显示器 512上的光标移动。典型地,此输入设备具有在两条轴线(第一轴线(例如,x轴)和第二轴线(例如,y轴))上的两个自由度,允许设备指定平面中的位置。
计算机系统500可以使用定制的硬接线逻辑、一个或多个ASIC或FPGA、固件和/ 或程序逻辑来实施本文所描述的技术,该固件和/或程序逻辑与计算机系统相结合使计算机系统500成为或编程为专用机器。根据一个实施例,响应于处理器504执行包含在主存储器506中的一个或多个指令的一个或多个序列,计算机系统500执行如本文所描述的技术。这种指令可以从另一个存储介质(如存储设备510)读取到主存储器506中。执行包含在主存储器506中的指令序列使处理器504执行本文所描述的过程步骤。在可替代的实施例中,可以使用硬接线电路来代替软件指令或者与软件指令组合使用。
如本文所使用的术语“存储介质”是指存储使机器以特定方式操作的数据和/或指令的任何非暂态介质。这种存储介质可以包括非易失性介质和/或易失性介质。非易失性介质包括例如光盘或磁盘,比如存储设备510。易失性介质包括动态存储器,比如主存储器506。常见形式的存储介质包括例如软盘、软磁盘、硬盘、固态驱动器、磁带或任何其他磁性数据存储介质、CD-ROM、任何其他光学数据存储介质、具有孔图案的任何物理介质、RAM、PROM和EPROM、闪速EPROM、NVRAM、任何其他存储器芯片或盒。
存储介质不同于传输介质但可以与传输介质结合使用。传输介质参与传递存储介质之间的信息。例如,传输介质包括同轴电缆、铜线和光纤,包括包含总线502的线。传输介质还可以采用声波或光波的形式,如在无线电波和红外数据通信期间生成的声波或光波。
各种形式的介质可以涉及将一个或多个指令的一个或多个序列载送到处理器504以供执行。例如,指令最初可以携带在远程计算机的磁盘或固态驱动器上。远程计算机可以将指令加载到其动态存储器中,并使用调制解调器通过电话线发送指令。计算机系统 500本地的调制解调器可以接收电话线上的数据并使用红外发射器将数据转换成红外信号。红外检测器可以接收红外信号中携带的数据,并且适当的电路可以将数据放在总线 502上。总线502将数据载送到主存储器506,处理器504从该主存储器取得并执行指令。主存储器506接收的指令可以可选地在由处理器504执行之前或之后存储在存储设备510 上。
计算机系统500还包括耦接到总线502的通信接口518。通信接口518提供耦接到网络链路520的双向数据通信,该网络链路连接到本地网络522。例如,通信接口518可以是综合业务数字网(ISDN)卡、电缆调制解调器、卫星调制解调器或用于提供到对应类型的电话线的数据通信连接的调制解调器。作为另一个示例,通信接口518可以是用于提供到兼容的LAN的数据通信连接的局域网(LAN)卡。还可以实施无线链路。在任何这种实施方式中,通信接口518发送和接收携带表示各种类型的信息的数字数据流的电信号、电磁信号或光信号。
网络链路520通常通过一个或多个网络提供到其他数据设备的数据通信。例如,网络链路520可以通过本地网络522提供到主计算机524或到由因特网服务提供商(ISP) 526操作的数据装备的连接。ISP 526进而通过现在通常被称为“因特网”528的全球分组数据通信网络来提供数据通信服务。本地网络522和因特网528两者使用携带数字数据流的电信号、电磁信号或光信号。通过各种网络的信号以及网络链路520上和通过通信接口518的信号(其将数字数据载送到计算机系统500并且从所述计算机系统载送数字数据)是传输介质的示例形式。
计算机系统500可以通过一个或多个网络、网络链路520和通信接口518发送消息和接收数据,包括程序代码。在因特网示例中,服务器530可以通过因特网528、ISP 526、本地网络522和通信接口518传输应用的请求代码。
所接收的代码可以在其被接收到时由处理器504执行,和/或存储在存储设备510、或其他非易失性存储器中以供稍后执行。
等同物、扩展、替代方案和杂项
在前述说明书中,已经参考可以根据实施方式而变化的许多具体细节描述了本发明的实施例。因此,指明本发明以及申请人的发明意图的唯一且排他性指示是根据本申请以具体形式发布的权利要求组,其中,这种权利要求发布包括任何后续修正。本文中针对这种权利要求中包含的术语明确阐述的任何定义应支配如在权利要求中使用的这种术语的含义。因此,权利要求中未明确记载的限制、要素、特性、特征、优点或属性不应以任何方式限制这种权利要求的范围。因此,应当从说明性而非限制性意义上看待说明书和附图。
枚举的示例性实施例
本发明可以以本文描述的形式中的任何形式实施,包括但不限于以下描述了本发明一些部分的结构、特征和功能的枚举的示例实施例(EEE)。
EEE1.一种方法,包括:
接收多个训练图像对,所述多个训练图像对包括多个训练标准动态范围(SDR) 图像和多个对应的训练高动态范围(HDR)图像,其中,所述多个训练图像对中的每个训练图像对包括所述多个训练SDR图像中的训练SDR图像和所述多个对应的训练HDR 图像中的对应的训练HDR图像,其中,每个这样的训练图像对中的训练SDR图像和对应的训练HDR图像描绘相同的视觉内容但具有不同的光亮度动态范围;
从所述多个训练图像对中的多个训练SDR图像中提取多个训练图像特征向量,其中,所述多个训练图像特征向量中的训练图像特征向量是从所述多个训练图像对中的相应训练图像对中的训练SDR图像中提取的;
使用所述多个训练图像特征向量和利用所述多个对应的训练HDR图像得出的真实数据来训练一个或多个后向整形元数据预测模型,所述一个或多个后向整形元数据预测模型用于预测用于将SDR图像后向整形为经映射HDR图像的后向整形映射的操作参数值。
EEE2.如EEE1所述的方法,其中,所述一个或多个后向整形元数据预测模型包括高斯过程回归(GPR)模型。
EEE3.如EEE2所述的方法,进一步包括:
接收SDR图像,所述SDR图像将被后向整形为对应的经映射HDR图像;
从SDR图像中提取图像特征向量;
应用GPR模型来生成一组操作参数值,所述一组操作参数值指定图像特定的亮度后向整形曲线,所述图像特定的亮度后向整形曲线用于将SDR图像的SDR亮度码字后向整形为经映射HDR图像的经映射HDR亮度码字。
EEE4.如EEE 1至3中任一项所述的方法,其中,所述一个或多个后向整形元数据预测模型包括一组多变量多元回归(MMR)映射矩阵。
EEE5.如EEE4所述的方法,进一步包括:
接收SDR图像,所述SDR图像将被后向整形为对应的经映射HDR图像;
从SDR图像中提取图像特征向量;
应用MMR映射矩阵来生成一组MMR系数,所述一组MMR系数指定图像特定的色度后向整形映射,所述图像特定的色度后向整形映射用于将SDR图像的SDR亮度和色度码字映射到经映射HDR图像的经映射HDR色度码字中。
EEE6.如EEE 1至5中任一项所述的方法,其中,所述图像特征向量由通过亮度直方图仓和色度直方图仓级联的1D亮度和色度组合直方图表示。
EEE7.如EEE 1至6中任一项所述的方法,其中,所述多个训练图像对被划分为与多个训练图像特征向量聚类相对应的多个训练图像对聚类,通过对所述多个训练图像特征向量进行自动聚类来生成所述多个训练图像特征向量聚类;其中,为所述多个训练图像特征向量聚类计算多个聚类质心;所述方法进一步包括:
接收SDR图像,所述SDR图像将被后向整形为对应的经映射HDR图像;
从所述SDR图像中提取图像特征向量;
定位与具有在图像特征空间中最接近所述图像特征向量的一个或多个聚类质心的一个或多个训练图像特征向量聚类相对应的一个或多个训练图像对聚类;
使用通过所述一个或多个训练图像对聚类训练的一组或多组后向整形元数据预测模型来确定用于将SDR图像的SDR亮度和色度码字映射到经映射HDR图像的经映射 HDR亮度和色度码字中的一个或多个图像特定的后向整形映射。
EEE8.如EEE 1至7中任一项所述的方法,其中,所述多个训练图像对对应于多个训练数据集;其中,所述多个训练数据集包括多组训练SDR图像和多组对应的训练 HDR图像;其中,所述多个数据集中的每个训练数据集包括所述多组训练SDR图像中的一组训练SDR图像和所述多组训练HDR图像中的一组对应的训练HDR图像;其中,所述多组对应的训练HDR图像具有多个不同的HDR外观;其中,所述多组对应的HDR 图像中的每组对应的训练HDR图像具有多个不同的HDR外观中的相应HDR外观;所述方法进一步包括:
接收SDR图像,所述SDR图像将被后向整形为对应的经映射HDR图像;
从SDR图像中提取图像特征向量;
使用通过所述多个训练数据集中的特定训练数据集训练的特定一组后向整形元数据预测模型来确定用于将SDR图像的SDR亮度和色度码字映射到经映射HDR图像的经映射HDR亮度和色度码字中的图像特定的后向整形映射。
EEE9.如EEE 1至8中任一项所述的方法,进一步包括:将用于将SDR图像后向整形为经映射HDR图像的后向整形映射的操作参数值中的一个或多个与所述SDR图像一起编码到视频信号中,作为图像元数据,其中,所述视频信号使一个或多个接收方设备利用一个或多个显示设备来渲染从所述经映射HDR图像得出的显示图像。
EEE10.如EEE 1至9中任一项所述的方法,其中,基于支持对每图像动态合成器元数据的编码和解码的图像元数据译码语法,将后向整形映射的操作参数值中的一个或多个编码到视频信号中。
EEE11.如EEE 1至10中任一项所述的方法,其中,用于预测后向整形映射的操作参数值的所述一个或多个后向整形元数据预测模型包括用于从多个SDR亮度码字预测多个经映射HDR亮度码字的多个高斯过程回归(GPR)模型,其中,由所述多个GPR模型预测的所述多个经映射HDR亮度码字用于通过内插构造后向整形曲线,其中,所述后向整形曲线由多个二阶多项式近似,并且其中,指定所述多个二阶多项式的操作参数作为动态合成器元数据被提供给一个或多个接收方解码系统。
EEE12.一种方法,包括:
从视频信号中解码标准动态范围(SDR)图像,所述SDR图像将被后向整形为对应的经映射高动态范围(HDR)图像;
从所述视频信号中解码动态合成器元数据,所述动态合成器元数据用于得出图像特定的后向整形映射的一个或多个操作参数值;
其中,图像特定的后向整形映射的所述一个或多个操作参数值是由利用多个训练图像特征向量训练的一个或多个后向整形元数据预测模型预测的;
其中,所述多个训练图像特征向量是从多个训练图像对中的多个训练SDR图像中提取的;
其中,所述多个训练图像对包括多个训练SDR图像和多个对应的训练HDR图像,其中,所述多个训练图像对中的每个训练图像对包括所述多个训练SDR图像中的训练SDR图像和所述多个对应的训练HDR图像中的对应的训练HDR图像,其中,每个这样的训练图像对中的训练SDR图像和对应的训练HDR图像描绘相同的视觉内容但具有不同的光亮度动态范围;
使用所述图像特定的后向整形映射的所述一个或多个操作参数值将所述SDR图像后向整形为所述经映射HDR图像;
使得利用显示设备渲染从所述经映射HDR图像得出的显示图像。
EEE13.如EEE12所述的方法,其中,所述图像特定的后向整形映射的所述一个或多个操作参数值包括多项式系数,所述多项式系数指定近似后向查找表(BLUT)的一组 2阶多项式;其中,使用所述一组2阶多项式构造的所述BLUT用于将所述SDR图像的 SDR亮度码字后向整形为所述经映射HDR图像的HDR亮度码字。
EEE14.如EEE12或EEE13所述的方法,其中,所述图像特定的后向整形映射的所述一个或多个操作参数值包括指定一个或多个多变量多元回归(MMR)映射矩阵的MMR 系数;其中,所述MMR系数用于将所述SDR图像的SDR亮度和色度码字映射到所述经映射HDR图像的HDR色度码字中。
EEE15.如EEE 12至14中任一项所述的方法,其中,从所述视频信号中解码用于所述SDR图像的一个或多个聚类索引;其中,所述一个或多个聚类索引用于在一个或多个色度字典中标识特定色度字典中的适用于所述SDR图像的一个或多个聚类;其中,从所述特定色度字典中的通过所述一个或多个聚类索引标识的一组或多组色度矩阵生成图像特定的多变量多元回归(MMR)系数;其中,所述图像的特定MMR系数用于将所述 SDR图像的SDR亮度和色度码字映射到所述经映射HDR图像的HDR色度码字。
EEE16.如EEE 12至15中任一项所述的方法,其中,所述一个或多个后向整形元数据预测模型包括高斯过程回归(GPR)模型。
EEE17.如EEE 12至16中任一项所述的方法,其中,图像特定的后向整形映射的所述一个或多个操作参数值包括通过利用非图像特定的静态后向整形映射值内插图像特定的预测值而得出的至少一个值。
EEE18.如EEE 12至17中任一项所述的方法,其中,所述SDR图像被表示在以下之一中:IPT PQ(ICtCp)颜色空间、YCbCr颜色空间、RGB颜色空间、Rec.2020颜色空间、Rec.709颜色空间、扩展动态范围(EDR)颜色空间、伽马/HLG/PQ颜色空间或标准动态范围(SDR)颜色空间。
EEE19.一种计算机系统,被配置为执行如EEE 1至18中所述的方法中的任一种方法。
EEE20.一种装置,包括处理器并且被配置为执行如EEE 1至18中所述的方法中的任一种方法。
EEE21.一种非暂态计算机可读存储介质,具有存储于其上的计算机可执行指令,所述计算机可执行指令用于根据如EEE 1至18中所述的方法中的任一种方法执行方法。

Claims (15)

1.一种用于对SDR亮度码字进行整形的方法,包括:
接收多个训练图像对,所述多个训练图像对包括多个训练标准动态范围SDR图像和多个对应的训练高动态范围HDR图像,其中,所述多个训练图像对中的每个训练图像对包括所述多个训练SDR图像中的训练SDR图像和所述多个对应的训练HDR图像中的对应的训练HDR图像,其中,每个这样的训练图像对中的所述训练SDR图像和所述对应的训练HDR图像描绘相同的视觉内容但具有不同的光亮度动态范围;
从所述多个训练图像对中的多个训练SDR图像中提取多个训练图像特征向量,其中,所述多个训练图像特征向量中的训练图像特征向量是从所述多个训练图像对中的相应训练图像对中的训练SDR图像中提取的;
使用所述多个训练图像特征向量和利用所述多个对应的训练HDR图像得出的真实数据来训练一个或多个后向整形元数据预测模型,所述一个或多个后向整形元数据预测模型用于预测用于将SDR图像后向整形为经映射HDR图像的后向整形映射的操作参数值;
接收将被后向整形为对应的经映射HDR图像的SDR图像;
从接收的SDR图像中提取图像特征向量;以及
应用所述一个或多个后向整形元数据预测模型来生成一组操作参数值,所述一组操作参数值指定图像特定的亮度后向整形曲线,所述图像特定的亮度后向整形曲线用于将所述接收的SDR图像的SDR亮度码字后向整形为所述经映射HDR图像的经映射HDR亮度码字。
2.如权利要求1所述的方法,其中,所述一个或多个后向整形元数据预测模型包括高斯过程回归GPR模型;所述方法进一步包括:
应用所述GPR模型来生成一组操作参数值,所述一组操作参数值指定图像特定的亮度后向整形曲线,所述图像特定的亮度后向整形曲线用于将所述SDR图像的SDR亮度码字后向整形为所述经映射HDR图像的经映射HDR亮度码字。
3.如权利要求1或权利要求2所述的方法,其中,所述一个或多个后向整形元数据预测模型包括一组多变量多元回归MMR映射矩阵。
4.如权利要求1或权利要求2所述的方法,其中,所述图像特征向量由通过亮度直方图仓和色度直方图仓级联的1D亮度和色度组合直方图表示。
5.如权利要求1或权利要求2所述的方法,其中,所述多个训练图像对被划分为多个训练图像对聚类,所述多个训练图像对聚类与通过对所述多个训练图像特征向量进行自动聚类而生成的多个训练图像特征向量聚类相对应;其中,为所述多个训练图像特征向量聚类计算多个聚类质心;所述方法进一步包括:
接收SDR图像,所述SDR图像将被后向整形为对应的经映射HDR图像;
从所述SDR图像中提取图像特征向量;
定位与具有在图像特征空间中最接近所述图像特征向量的一个或多个聚类质心的一个或多个训练图像特征向量聚类相对应的一个或多个训练图像对聚类;
使用通过所述一个或多个训练图像对聚类训练的一组或多组后向整形元数据预测模型来确定用于将所述SDR图像的SDR亮度和色度码字映射到所述经映射HDR图像的经映射HDR亮度和色度码字中的一个或多个图像特定的后向整形映射。
6.如权利要求1或权利要求2所述的方法,其中,所述多个训练图像对对应于多个训练数据集;其中,所述多个训练数据集包括多组训练SDR图像和多组对应的训练HDR图像;其中,所述多个数据集中的每个训练数据集包括所述多组训练SDR图像中的一组训练SDR图像和所述多组训练HDR图像中的一组对应的训练HDR图像;其中,所述多组对应的训练HDR图像具有多个不同的HDR外观;其中,所述多组对应的HDR图像中的每组对应的训练HDR图像具有多个不同的HDR外观中的相应HDR外观;所述方法进一步包括:
接收SDR图像,所述SDR图像将被后向整形为对应的经映射HDR图像;
从所述SDR图像中提取图像特征向量;
使用通过所述多个训练数据集中的特定训练数据集训练的特定一组后向整形元数据预测模型来确定用于将所述SDR图像的SDR亮度和色度码字映射到所述经映射HDR图像的经映射HDR亮度和色度码字中的图像特定的后向整形映射。
7.如权利要求1或权利要求2所述的方法,其中,基于支持对每图像动态合成器元数据的编码和解码的图像元数据译码语法,将后向整形映射的所述操作参数值中的一个或多个编码到视频信号中。
8.如权利要求1或权利要求2所述的方法,其中,用于预测后向整形映射的操作参数值的所述一个或多个后向整形元数据预测模型包括用于从多个SDR亮度码字预测多个经映射HDR亮度码字的多个高斯过程回归GPR模型,其中,由所述多个GPR模型预测的所述多个经映射HDR亮度码字用于通过内插构造后向整形曲线,其中,所述后向整形曲线由多个二阶多项式近似,并且其中,指定所述多个二阶多项式的操作参数作为动态合成器元数据被提供给一个或多个接收方解码系统。
9.根据权利要求1所述的方法,还包括:
从视频信号中解码标准动态范围SDR图像,所述SDR图像将被后向整形为对应的经映射高动态范围HDR图像;
从所述视频信号中解码动态合成器元数据,所述动态合成器元数据用于得出图像特定的后向整形映射的一个或多个操作参数值;
使用所述图像特定的后向整形映射的所述一个或多个操作参数值将所述SDR图像后向整形为所述经映射HDR图像;
使得利用显示设备渲染从所述经映射HDR图像得出的显示图像。
10.如权利要求9所述的方法,其中,所述图像特定的后向整形映射的所述一个或多个操作参数值包括多项式系数,所述多项式系数指定近似后向查找表BLUT的一组2阶多项式;其中,使用所述一组2阶多项式构造的所述BLUT用于将所述SDR图像的SDR亮度码字后向整形为所述经映射HDR图像的HDR亮度码字。
11.如权利要求9或权利要求10所述的方法,其中,所述图像特定的后向整形映射的所述一个或多个操作参数值包括指定一个或多个多变量多元回归MMR映射矩阵的MMR系数;其中,所述MMR系数用于将所述SDR图像的SDR亮度和色度码字映射到所述经映射HDR图像的HDR色度码字中。
12.如权利要求9或权利要求10所述的方法,其中,图像特定的后向整形映射的所述一个或多个操作参数值包括通过依赖于图像特定的预测值和非图像特定的静态后向整形映射值二者的函数得出的至少一个值。
13.一种计算机系统,所述计算机系统被配置为执行如权利要求1至12中任一项所述的方法。
14.一种用于对SDR亮度码字进行整形的装置,包括处理器并且被配置为执行如权利要求1至8中任一项所述的方法。
15.一种用于渲染图像的装置,包括处理器并且被配置为执行如权利要求9至12中任一项所述的方法。
CN201980084720.1A 2018-12-18 2019-12-16 增强的标准动态范围视频(sdr+)中的基于机器学习的动态合成 Active CN113228660B (zh)

Applications Claiming Priority (5)

Application Number Priority Date Filing Date Title
US201862781185P 2018-12-18 2018-12-18
EP18213670.5 2018-12-18
EP18213670 2018-12-18
US62/781,185 2018-12-18
PCT/US2019/066595 WO2020131731A1 (en) 2018-12-18 2019-12-16 Machine learning based dynamic composing in enhanced standard dynamic range video (sdr+)

Publications (2)

Publication Number Publication Date
CN113228660A CN113228660A (zh) 2021-08-06
CN113228660B true CN113228660B (zh) 2023-12-12

Family

ID=69173423

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201980084720.1A Active CN113228660B (zh) 2018-12-18 2019-12-16 增强的标准动态范围视频(sdr+)中的基于机器学习的动态合成

Country Status (5)

Country Link
US (1) US20220058783A1 (zh)
EP (1) EP3900341A1 (zh)
JP (1) JP7299982B2 (zh)
CN (1) CN113228660B (zh)
WO (1) WO2020131731A1 (zh)

Families Citing this family (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP3853810B1 (en) * 2018-09-19 2023-10-25 Dolby Laboratories Licensing Corporation Automatic display management metadata generation for gaming and/or sdr+ contents
EP3900328A4 (en) * 2018-12-20 2022-09-21 Warner Bros. Entertainment Inc. PROFILE-BASED CONTENT GENERATION WITH STANDARD DYNAMIC RANGE AND HIGH DYNAMIC RANGE
US20220301124A1 (en) * 2019-08-15 2022-09-22 Dolby Laboratories Licensing Corporation Efficient user-defined sdr-to-hdr conversion with model templates
TWI812874B (zh) 2019-10-01 2023-08-21 美商杜拜研究特許公司 張量乘積之b平滑曲線預測子
KR20220053102A (ko) * 2020-10-21 2022-04-29 삼성디스플레이 주식회사 하이 다이내믹 레인지 후-처리 장치, 및 이를 포함하는 표시 장치
US20240054622A1 (en) * 2021-04-27 2024-02-15 Boe Technology Group Co., Ltd. Image processing method and image processing apparatus
US11544826B2 (en) * 2021-04-30 2023-01-03 Realnetworks, Inc. Intelligent metadata service for video enhancement
US11756173B2 (en) * 2021-04-30 2023-09-12 Realnetworks Llc Real-time video enhancement and metadata sharing
WO2023009392A1 (en) * 2021-07-29 2023-02-02 Dolby Laboratories Licensing Corporation Neural networks for dynamic range conversion and display management of images
US20230186435A1 (en) * 2021-12-14 2023-06-15 Netflix, Inc. Techniques for component-based image preprocessing
CN114422718B (zh) * 2022-01-19 2022-12-13 北京百度网讯科技有限公司 一种视频转换方法、装置、电子设备及存储介质
CN117157665A (zh) * 2022-03-25 2023-12-01 京东方科技集团股份有限公司 视频处理方法及装置、电子设备、计算机可读存储介质

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103747189A (zh) * 2013-11-27 2014-04-23 杨新锋 一种数字图像处理方法
EP3306563A1 (en) * 2016-10-05 2018-04-11 Dolby Laboratories Licensing Corporation Inverse luma/chroma mappings with histogram transfer and approximation
CN108681991A (zh) * 2018-04-04 2018-10-19 上海交通大学 基于生成对抗网络的高动态范围反色调映射方法及系统

Family Cites Families (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP2591602A1 (en) * 2010-07-06 2013-05-15 Koninklijke Philips Electronics N.V. Generation of high dynamic range images from low dynamic range images
CN107105229B9 (zh) 2011-04-14 2020-03-31 杜比实验室特许公司 图像解码方法、视频解码器和非暂态计算机可读存储介质
EP2927865A1 (en) * 2014-04-01 2015-10-07 Thomson Licensing Method and apparatus for encoding and decoding HDR images
US10080026B2 (en) 2015-03-20 2018-09-18 Dolby Laboratories Licensing Corporation Signal reshaping approximation
US10264287B2 (en) * 2016-10-05 2019-04-16 Dolby Laboratories Licensing Corporation Inverse luma/chroma mappings with histogram transfer and approximation
CN107995497B (zh) * 2016-10-26 2021-05-28 杜比实验室特许公司 高动态范围视频的屏幕自适应解码
US10402952B2 (en) * 2017-06-02 2019-09-03 Apple Inc. Perceptual tone mapping of SDR images for an HDR display

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103747189A (zh) * 2013-11-27 2014-04-23 杨新锋 一种数字图像处理方法
EP3306563A1 (en) * 2016-10-05 2018-04-11 Dolby Laboratories Licensing Corporation Inverse luma/chroma mappings with histogram transfer and approximation
CN108681991A (zh) * 2018-04-04 2018-10-19 上海交通大学 基于生成对抗网络的高动态范围反色调映射方法及系统

Also Published As

Publication number Publication date
CN113228660A (zh) 2021-08-06
US20220058783A1 (en) 2022-02-24
WO2020131731A1 (en) 2020-06-25
JP7299982B2 (ja) 2023-06-28
JP2022511072A (ja) 2022-01-28
EP3900341A1 (en) 2021-10-27

Similar Documents

Publication Publication Date Title
CN113228660B (zh) 增强的标准动态范围视频(sdr+)中的基于机器学习的动态合成
US10659749B2 (en) Efficient histogram-based luma look matching
TWI729377B (zh) 用於將影像自第一動態範圍映射至第二動態範圍之方法
US10575028B2 (en) Coding of high dynamic range video using segment-based reshaping
CN112106357B (zh) 用于对图像数据进行编码和解码的方法及装置
CN105744277B (zh) 分层vdr编译码中的层分解
KR102380164B1 (ko) 게이밍 및/또는 sdr+ 콘텐츠에 대한 자동 디스플레이 관리 메타데이터 생성
EP3734588B1 (en) Color appearance preservation in video codecs
US10609424B2 (en) Single-layer progressive coding for supporting multi-capability HDR composition
WO2018231968A1 (en) Efficient end-to-end single layer inverse display management coding
CN110770787B (zh) 高效端到端单层逆向显示管理编码
TWI812874B (zh) 張量乘積之b平滑曲線預測子
CN114556940A (zh) 视频编解码器中的质量与计算复杂度之间的可调整的折衷
EP4014487A1 (en) Efficient user-defined sdr-to-hdr conversion with model templates
CN118140478A (zh) 移动应用中hdr视频的张量积b样条预测

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant