CN108885783B - 编码和解码可逆制作质量单层视频信号 - Google Patents

编码和解码可逆制作质量单层视频信号 Download PDF

Info

Publication number
CN108885783B
CN108885783B CN201780019214.5A CN201780019214A CN108885783B CN 108885783 B CN108885783 B CN 108885783B CN 201780019214 A CN201780019214 A CN 201780019214A CN 108885783 B CN108885783 B CN 108885783B
Authority
CN
China
Prior art keywords
chroma
shaping
image
images
codewords
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201780019214.5A
Other languages
English (en)
Other versions
CN108885783A (zh
Inventor
苏冠铭
J·S·米勒
W·J·胡萨克
李怡瑾
H·加杜
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Dolby Laboratories Licensing Corp
Original Assignee
Dolby Laboratories Licensing Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Dolby Laboratories Licensing Corp filed Critical Dolby Laboratories Licensing Corp
Publication of CN108885783A publication Critical patent/CN108885783A/zh
Application granted granted Critical
Publication of CN108885783B publication Critical patent/CN108885783B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/169Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding
    • H04N19/186Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding the unit being a colour or a chrominance component
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T5/00Image enhancement or restoration
    • G06T5/90Dynamic range modification of images or parts thereof
    • G06T5/94Dynamic range modification of images or parts thereof based on local image properties, e.g. for local contrast enhancement
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N1/00Scanning, transmission or reproduction of documents or the like, e.g. facsimile transmission; Details thereof
    • H04N1/46Colour picture communication systems
    • H04N1/56Processing of colour picture signals
    • H04N1/60Colour correction or control
    • H04N1/6058Reduction of colour to a range of reproducible colours, e.g. to ink- reproducible colour gamut
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/102Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the element, parameter or selection affected or controlled by the adaptive coding
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/102Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the element, parameter or selection affected or controlled by the adaptive coding
    • H04N19/117Filters, e.g. for pre-processing or post-processing
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/134Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the element, parameter or criterion affecting or controlling the adaptive coding
    • H04N19/154Measured or subjectively estimated visual quality after decoding, e.g. measurement of distortion
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/169Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding
    • H04N19/17Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding the unit being an image region, e.g. an object
    • H04N19/176Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding the unit being an image region, e.g. an object the region being a block, e.g. a macroblock
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/169Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding
    • H04N19/187Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding the unit being a scalable video layer
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/44Decoders specially adapted therefor, e.g. video decoders which are asymmetric with respect to the encoder
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/80Details of filtering operations specially adapted for video compression, e.g. for pixel interpolation
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N1/00Scanning, transmission or reproduction of documents or the like, e.g. facsimile transmission; Details thereof
    • H04N1/46Colour picture communication systems
    • H04N1/56Processing of colour picture signals
    • H04N1/60Colour correction or control
    • H04N1/6027Correction or control of colour gradation or colour contrast
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N1/00Scanning, transmission or reproduction of documents or the like, e.g. facsimile transmission; Details thereof
    • H04N1/46Colour picture communication systems
    • H04N1/64Systems for the transmission or the storage of the colour picture signal; Details therefor, e.g. coding or decoding means therefor
    • H04N1/648Transmitting or storing the primary (additive or subtractive) colour signals; Compression thereof
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/85Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using pre-processing or post-processing specially adapted for video compression
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N2201/00Indexing scheme relating to scanning, transmission or reproduction of documents or the like, and to details thereof
    • H04N2201/32Circuits or arrangements for control or supervision between transmitter and receiver or between image input and image output device, e.g. between a still-image camera and its memory or between a still-image camera and a printer device
    • H04N2201/3201Display, printing, storage or transmission of additional information, e.g. ID code, date and time or title
    • H04N2201/3225Display, printing, storage or transmission of additional information, e.g. ID code, date and time or title of data relating to an image, a page or a document
    • H04N2201/3256Display, printing, storage or transmission of additional information, e.g. ID code, date and time or title of data relating to an image, a page or a document colour related metadata, e.g. colour, ICC profiles

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Compression Or Coding Systems Of Tv Signals (AREA)
  • Image Processing (AREA)

Abstract

生成将高动态范围的输入图像映射到相对窄的动态范围的参考色调映射图像的色调映射函数。基于第一位深度和第二位深度,导出亮度前向整形函数,用于将所述输入图像的亮度码字前向整形为近似于所述参考色调映射图像的前向整形图像的前向整形亮度码字。导出色度前向整形映射以预测所述前向整形图像的色度码字。将待由接收方装置用于生成亮度后向整形函数和色度后向整形映射的后向整形元数据与所述前向整形图像一起发送到所述接收方装置。还提出了用于联合导出前向亮度和色度整形函数的技术。

Description

编码和解码可逆制作质量单层视频信号
相关申请的交叉引用
本申请要求于2016年3月23日提交的第62/312,450号美国专利申请和2016年11月29日提交的第62/427,532号美国专利申请的优先权,所述专利申请通过引用整体并入本文。
技术领域
本发明总体上涉及图像。更具体地,本发明的实施例涉及编码和解码可逆生产质量单层视频信号。
背景技术
如本文所使用的,术语“动态范围”(DR)可以与人类视觉系统(HVS)感知图像中的强度(例如,光亮度、亮度)范围(例如,从最暗的黑色(黑暗)到最亮的白色(高亮))的能力有关。在这个意义上,DR与“场景参考”强度有关。DR还可以与显示装置充分或近似地呈现特定宽度的强度范围的能力有关。在这个意义上,DR与“显示器参考”强度有关。除非在本文的描述中的任何点明确地规定特定意义具有特定含义,否则应推断所述术语可以在任何意义上(例如,可互换地)使用。
如本文所使用的,术语高动态范围(HDR)涉及跨越人类视觉系统(HVS)的大约14至15个或更多个数量级的DR宽度。在实践中,相对于HDR,人可以在其上同时感知强度范围的广泛宽度的DR可能在某种程度上被截断。如本文所使用的,术语增强动态范围(EDR)或视觉动态范围(VDR)可以单独地或可互换地涉及通过包括眼睛运动的人类视觉系统(HVS)在场景或图像内可感知的DR,从而允许整个场景或图像中的一些光适应变化。如本文所使用的,EDR可以涉及跨越5至6个数量级的DR。因此,虽然相对于真实场景参考HDR可能稍微窄一些,但是EDR仍然表示宽DR宽度并且也可以被称为HDR。
在实践中,图像包括一或多个颜色分量(例如,亮度Y和色度Cb和Cr),其中每个颜色分量由每像素n位的精度表示(例如,n=8)。通过使用线性亮度编码,n≤8的图像(例如,彩色24位JPEG图像)被认为是标准动态范围的图像,而n>8的图像可以被认为是增强动态范围的图像。EDR和HDR图像也可以使用高精度(例如,16位)浮点格式(例如由工业光魔公司(Industrial Light and Magic)开发的OpenEXR文件格式)存储和分发。
用于给定显示器的参考电光传递函数(EOTF)表征输入视频信号的颜色值(例如,亮度)与由显示器产生的输出屏幕颜色值(例如,屏幕亮度)之间的关系。例如,ITURec.ITU-R BT.1886《用于HDTV演播室制作的平板显示器的参考电光传输函数(Referenceelectro-optical transfer function for flat panel displays used in HDTV studioproduction)》(2011年3月)(其通过引用整体并入本文)基于阴极射线管(CRT)的测量特性定义了用于平板显示器的参考EOTF。给定视频流,关于其EOTF的信息通常作为元数据嵌入位流中。如本文所使用的,术语“元数据”涉及作为编码位流的一部分而发送并且帮助解码器呈现解码图像的任何辅助信息。这样的元数据可以包括但不限于颜色空间或色域信息、参考显示参数以及辅助信号参数,如本文所述的那些。
大多数消费者桌面显示器当前支持200至300cd/m2或尼特的亮度。大多数消费者HDTV的范围为300至500尼特,新型号达到1000尼特(cd/m2)。因此,这种显示器代表相对于HDR或EDR的较低动态范围(LDR),也称为标准动态范围(SDR)。随着HDR内容的可用性由于捕获设备(例如,相机)和HDR显示器(例如,来自杜比实验室(Dolby Laboratories)的PRM-4200专业参考监视器)的进步而增长,HDR内容可以被颜色分级并显示在支持更高动态范围(例如,1,000尼特至5,000尼特或更多)的HDR显示器上。可以使用支持高亮度能力(例如,0至10,000尼特)的替代EOTF来定义这样的显示器。在SMPTE ST 2084:2014《掌握参考显示器的高动态范围EOTF(High Dynamic Range EOTF of Mastering Reference Displays)》中定义了这种EOTF的示例,其通过引用整体并入本文。如本发明人所理解的,期望用于编码和解码可用于支持各种显示装置的可逆制作质量单层视频信号的改进技术。
本节中描述的方法是可以追求的方法,但不一定是先前已经构思或追求的方法。因此,除非另有说明,否则不应认为本节中描述的任何方法仅仅因为它们包含在本节中而有资格作为现有技术。类似地,除非另有说明,否则关于一或多种方法确定的问题不应认为在本节的基础上在任何现有技术中被认识到。
附图说明
本发明的实施例通过示例而非限制的方式在附图中示出,并且其中相同的附图标记指代类似的元件,并且其中:
图1A描绘了视频传送途径的示例过程;
图1B描绘了使用内容自适应量化或整形的视频数据压缩的示例过程;
图1C和图1D描绘了示例视频编码器和解码器;
图2描绘了用于生成亮度前向整形功能的示例过程;
图3示出了示例亮度前向整形功能;
图4A和图4B示出了示例过程流程;
图5示出了可以在其上实现如本文所述的计算机或计算装置的示例硬件平台的简化框图;
图6示出了根据本发明实施例的用于联合开发亮度和色度整形功能的示例过程;
图7示出了根据本发明实施例的用于生成精细亮度和色度整形映射的示例过程;以及
图8示出了根据本发明实施例的用于快速生成前向亮度整形映射的示例过程。
具体实施方式
本文描述了对可逆制作质量单层视频信号进行编码和解码。在以下描述中,出于解释的目的,阐述了许多具体细节以便提供对本发明的透彻理解。然而,明显的是,可以在没有这些具体细节的情况下实践本发明。在其他情况下,没有详尽描述公知的结构和装置,以避免不必要地遮挡、模糊或混淆本发明。
概述
本文描述的示例实施例涉及编码可逆制作质量单层视频信号。确定将一或多个高动态范围的输入图像映射到一或多个相对窄的动态范围的参考色调映射图像的色调映射函数。基于多个第一位深度和多个第二位深度,导出亮度前向整形函数,用于将一或多个输入图像的前向整形亮度码字转换为一或多个相对窄的动态范围的前向整形图像的前向整形亮度码字。导出色度前向整形映射以预测一或多个前向整形图像的色度码字。色度前向整形映射使用一或多个输入图像的色度码字和亮度码字作为输入,并使用一或多个参考色调映射图像的色度码字作为预测目标。一或多个前向整形图像近似于一或多个参考色调映射图像。更具体地,一或多个前向整形图像的前向整形亮度码字近似于一或多个参考色调映射图像的亮度码字;一或多个前向整形图像的前向整形色度码字近似于一或多个参考色调映射图像的色度码字。生成将由一或多个接收方装置使用以生成亮度后向整形函数和色度后向整形映射的后向整形元数据。具有后向整形元数据的一或多个前向整形图像被发送到一或多个接收方装置。
本文描述的示例实施例涉及解码可逆制作质量单层视频信号。基于利用一或多个相对窄的动态范围的前向整形图像接收的后向整形元数据来构造亮度后向整形函数和色度后向整形映射。亮度后向整形函数被应用于一或多个前向整形图像的前向整形亮度码字,以生成一或多个高动态范围的重建图像的后向整形亮度码字。应用色度后向整形映射以将一或多个前向整形图像的前向整形色度码字和前向整形亮度码字映射到一或多个重建图像的后向整形色度码字。一或多个重建图像近似于一或多个高动态范围的输入图像。更具体地,一或多个重建图像的后向整形亮度码字近似于一或多个输入图像的亮度码字;一或多个重建图像的后向整形色度码字近似于一或多个输入图像的色度码字。
在另一个实施例中,联合开发前向亮度和色度整形函数。在一种方法中,处理器接收第一动态范围(例如,EDR)中的第一输入图像和第二动态范围(例如,SDR)中的第二输入图像,其中第一图像和第二图像表示相同的场景,并且第一动态范围高于第二动态范围。处理器生成第一亮度整形函数,将第一图像的亮度像素映射到具有第二动态范围的第三图像的亮度像素,和第一色度整形函数,将第一图像的色度像素映射到具有第二动态范围的第三图像的色度像素,其中,生成第一亮度整形函数和第一色度整形函数是基于第一输入图像和第二输入图像的像素值进行的。接下来,处理器生成:第一精细亮度整形函数,将第一图像的亮度像素映射到具有第二动态范围的第四图像的亮度像素,其中,生成第一精细亮度整形函数是基于第一成本函数和第一图像、第二图像和第三图像的像素值进行的;第一精细色度整形函数,将第一图像的色度像素映射到第四图像的色度像素,其中,生成第一精细色度整形函数是基于第二图像成本函数和第一图像、第二图像和第三图像的像素值进行的。处理器生成与第一精细亮度整形函数和第一精细色度整形函数有关的元数据。它还基于第一精细亮度整形函数和第一精细色度整形函数生成第四图像。在实施例中,所述过程可以迭代直到全局成本函数满足收敛标准。
在另一实施例中,处理器应用快速方法来生成前向亮度整形函数。给定第一动态范围中的第一输入图像和第二动态范围中的第二输入图像,其中第一图像和第二图像表示相同的场景,并且第一动态范围高于第二动态范围,处理器将第一输入和第二输入中的亮度像素值的归一化范围划分为区间,并且对于所有区间,基于第一输入和第二输入的像素值产生2-D直方图。对于第一输入的亮度范围中的每个区间:它基于2-D直方图计算第二动态范围中的最小和最大亮度值;它计算最小和最大亮度值内的所有亮度值的成本,其中成本基于第一权重和第二权重;它确定了成本最低的最优亮度值;并且它基于最优亮度值产生从第一动态范围中的亮度值到第二动态范围中的亮度值的第一映射。处理器基于第一映射生成前向亮度整形函数。接下来,它基于前向亮度整形函数和第一输入图像在第二动态范围中生成第三图像。最后,处理器输出第三图像。
示例视频传送处理途径
图1A描绘了视频传送途径100的示例过程,其示出了从视频捕获到视频内容显示的各个阶段。使用图像生成块105捕获或生成视频帧102的序列。视频帧102可以被数字捕获(例如,通过数码相机)或由计算机(例如,使用计算机动画)生成以提供视频数据107。或者,可以通过胶片相机在胶片上捕获视频帧102。胶片被转换为数字格式以提供视频数据107。在制作阶段110,编辑视频数据107以提供视频制作流112。
然后将制作流112的视频数据提供给处理器以进行后期制作编辑115。后期制作编辑115可以包括调整或修改图像的特定区域中的颜色或亮度,以根据视频创建者的创作意图来增强图像质量或实现图像的特定外观。这有时被称为“颜色调整”或“颜色分级”。可以在后期制作编辑115中执行其他编辑(例如,场景选择和排序、图像裁剪、添加计算机生成的视觉特效等)以产生包括高动态范围的输入图像117的高动态范围版本和包括相对窄的动态范围(例如,SDR等)的参考色调映射图像117-1的相对窄的动态范围版本。参考色调映射图像可以是高动态范围的输入图像的不可逆色调映射版本。在后期制作编辑115期间,对高动态范围的输入图像执行后期制作编辑操作的调色师在支持高动态范围的第一参考显示器125上观看高动态范围的输入图像。在后期制作编辑115期间,对相对窄的动态范围的参考色调映射图像进行后期制作编辑操作的同一或不同的调色师在支持相对窄的动态范围的第二参考显示器125-1上观看相对窄的动态范围的参考色调映射图像。
在后期制作编辑115之后,将高动态范围的输入图像117和相对窄的动态范围的参考色调映射图像117-1传送到编码块120以生成包括在编码位流122中的前向整形的图像(例如,图1C的182)。编码位流122将被向下游传送到解码和重放装置(例如电视机、机顶盒、电影院等)。在一些实施例中,编码块120可以包括音频和视频编码器(诸如由ATSC、DVB、DVD、蓝光和其他传送格式定义的那些)以生成编码位流122。在一些实施例中,编码位流122利用前向整形高动态范围的输入图像117生成的前向整形图像(图1C的182)的压缩版本进行编码。在一些实施例中,通过近似参考色调映射图像117-1在编码块120中生成的编码位流122中编码的前向整形图像182保留了艺术意图,通过艺术意图在后期制作编辑115中生成参考色调映射图像。另外、可选地或替代地,编码位流122进一步利用图像元数据进行编码,所述图像元数据包括但不限于后向整形元数据,所述后向整形元数据可由下游解码器使用来对前向整形图像182执行后向整形,以便生成与高动态范围图像的输入图像117相同或近似的后向整形图像(例如,图1D的132)。参考色调映射图像可能是不可逆的,因为可能不通过反向映射参考色调映射图像来重建或预测高动态范围的输入图像。然而,前向整形图像182是可逆的,因为可以通过使用后向整形反向映射前向整形图像来重建或预测高动态范围的输入图像。
在接收器中,通过解码块130对编码位流122进行解码以生成解码图像,在一些实施例中,所述解码图像可以与相对窄的动态范围(例如,SDR等)的前向整形图像182相同。在一些实施例中,接收器可以附接到第一目标显示器140-1。在第一目标显示器140-1支持相对窄的动态范围的情况下,近似于用艺术内容编辑的参考色调映射图像的前向整形图像182可在第一目标显示器140-1上直接观看,所述第一目标显示器140-1可以具有与第二参考显示器125-1类似的特性。在一些实施例中,接收器可以附接到第二目标显示器140,所述第二目标显示器可以具有或可以不具有与第一参考显示器125完全不同的特性。在那种情况下,解码块130可以将前向整形图像182后向整形为后向整形图像(例如,图1D中的132),所述后向整形图像表示高动态范围的输入图像117的相同版本或相近版本。另外、可选地或替代地,显示器管理块135(其可以在接收器中、在目标显示器140中或在单独的装置中)通过生成适合于第二目标显示器140的特性的显示器映射信号137进一步将后向整形图像132调整为第二目标显示器140的特性。
信号量化
当前,用于视频传送的大多数数字接口(例如串行数字接口(SDI))被限制为每分量每像素12位。此外,大多数压缩标准(例如H.264(或AVC)和H.265(或HEVC))被限制为每分量每像素10位。因此,需要有效的编码和/或量化来支持现有基础设施和压缩标准内动态范围约0.001至10000cd/m2(或尼特)的HDR内容。
本文描述的技术可用于支持各种基于PQ的EOTF、基于非PQ的EOTF、色彩空间、动态范围等中的任何一种。本文使用的术语“PQ”指的是感知亮度幅度量化。人类视觉系统以非常非线性的方式来响应增加的光线水平。人类观察刺激的能力受刺激的亮度、刺激的大小、构成刺激的空间频率以及眼睛在观察刺激的特定时刻适应的亮度水平的影响。在优选实施例中,感知量化器函数将线性输入灰度级映射到更好地匹配人类视觉系统中的对比敏感度阈值的输出灰度级。在SMPTE ST 2084:2014中描述了PQ映射函数(或EOTF)的示例,其中给定固定的刺激大小,对于每个亮度级别(即,刺激级别),在所述亮度级别处的最小可见对比度步长根据最敏感的适应水平和最敏感的空间频率(根据HVS模型)来选择。与代表物理阴极射线管(CRT)装置的响应曲线并且恰好与人类视觉系统响应的方式具有高粗相似度的传统伽马曲线相比,PQ曲线使用相对简单的功能模型模仿人类视觉系统的真实视觉响应。
例如,在SMPTE ST 2084下,在1cd/m2下,一个12位代码值对应于大约0.0048cd/m2的相对变化;然而,在1000cd/m2下,一个12位代码值对应于大约2.24cd/m2的相对变化。需要这种非线性量化以适应人类视觉系统(HVS)的非线性对比敏感度。
感知量化的EOTF的另一示例在斯蒂森(J.Stessen)等人的ISO/IEC JTC1/SC29/WG11 MPEG2014/M35065(2014年10月)的《用于宽色域和高动态范围的基于色度的色彩信号(Chromaticity based color signals for wide color gamut and high dynamicrange)》)中给出,其通过引用整体并入本文。
HVS的对比敏感度不仅取决于亮度,还取决于图像内容的掩蔽特性(最特别地是噪声和纹理)以及HVS的适应状态。换句话说,取决于图像的噪声水平或纹理特性,可以用比PQ或伽马量化器预测的量化步长更大的量化步长来量化图像内容,因为纹理和噪声掩蔽量化伪像。PQ量化描述了HVS可以做的最好,其在图像中没有噪声或掩蔽时发生。然而,对于视频的许多图像(帧),存在显着的掩蔽。
除了噪声和纹理掩蔽之外,还可以考虑视觉行为的其他特性(例如光学耀斑和局部适应)以增加量化水平并允许以每个颜色分量10位或更低的值表示HDR图像。如本文所使用的,简称为“内容自适应PQ”或“自适应PQ”的术语表示基于其内容自适应地调整图像的感知量化的方法。
整形信号生成
给定一对对应的高动态范围和相对窄的动态范围图像,即,表示相同场景但处于不同动态范围水平的一对图像,可以使用多变量多元回归(MMR)预测器根据所述对中的一个图像来近似所述对中的另一图像,或者在图像中的一些或所有码字通道中将所述对中的一个图像整形为所述对中的另一图像。
在第8,811,490号美国专利《多色通道多元回归预测器(Multiple color channelmultiple regression predictor)》中描述了基于MMR的预测的一些示例,所述专利通过引用并入本文,如同在此完全阐述一样。
图1B描绘了使用自适应PQ和MMR整形来生成包括相对窄的动态范围(例如,Rec.709等)的(可观看的)整形图像的可观看的整形信号,并且基于其中的可观看的整形信号和后向整形元数据重建高动态范围(例如,Rec.2020、EDR、IPTPQ(ICtCp)等)的图像的示例过程。
如本文所使用的,从编码位流解码的可观看的整形图像是指近似于通过第一特定艺术意图生成的参考色调映射图像117-1的整形图像;第一特定艺术意图可以体现在后期制作编辑115中,其中,调色师编辑参考色调映射图像117-1,同时,调色师在支持相对窄的动态范围的第二参考显示器125-1上观看参考色调映射图像。
如本文所使用的,从可观看的重新成形的图像重建的后向整形图像(例如,图1D的132)和从编码的位流解码的后向整形元数据指的是近似于利用第二艺术意图生成的输入图像117的重建图像。第二特定艺术意图可以体现在后期制作编辑115中,其中调色师编辑输入图像117,同时,调色师在支持高动态范围的第一参考显示器125上观看输入图像117。
作为示例而非限制,在后期制作编辑115之后的输入图像117可以表示在EDR域(例如,145等)(诸如IPTPQ(ICtCp)域、Rec.2020色彩空间、混合对数伽马(HLG)域等)中。前向整形块150在后期制作编辑115之后分析与参考色调映射图像117-1相关的输入图像117。前向整形块150生成码字映射函数(或前向整形函数),其将输入图像117映射到整形域中152中相对窄的动态范围(例如,Rec.709、SDR、HLG等)的再量化图像(或图1C的前向整形图像182)。在一些实施例中,在整形域152中表示的前向整形图像182)以这样的方式从输入图像117前向整形,使得前向整形图像182在视觉上对于前向整形图像182和参考色调映射图像的观看者而言与参考色调映射图像117相对非常相似。
在一些实施例中,可以生成关于整形过程的信息(例如,后向整形元数据等),并且在编码块120中将其与编码位流122中的前向整形图像182传送到下游装置(诸如解码器)。解码块130将编码位流122解码成解码图像,所述解码图像是整形域152中的先前编码到编码块120中的编码位流122中的前向整形图像182。
在一些实施例中,前向整形图像182可以直接呈现在支持解码图像的相对窄的动态范围(其可以与整形域152中的前向整形图像182相同)的显示装置140-1上。
在一些实施例中,前向整形图像182可以由后向整形块160处理,后向整形块160将编码块120中编码的前向整形图像182转换为包括与EDR域145中的输入图像117相同或近似的重建图像132的重构版本。
在一些实施例中,重建图像132可以呈现在支持重建图像的高动态范围(其可以与EDR域145中的输入图像117的动态范围相同)的显示装置140-2上。
在一些实施例中,可以利用装置特定的显示管理操作(例如,由前面讨论的显示管理过程135执行等)来进一步处理重建图像132;可以在可以支持或不支持重建图像的相同动态范围的显示装置上呈现进一步处理的重建图像。在一些实施例中,后向整形块160可以与例如作为AVC或HEVC视频解码器中的反量化器的一部分的解码块130中的反量化器集成。
编码器侧架构
图1C示出了示例编码器侧编解码器架构180,其可以利用上游视频编码器中的一或多个计算处理器等来实现。
在后期制作编辑115之后的高动态范围的输入图像117可以包括,或可以进一步地以各种采样格式中的任一种转换为各种颜色空间中的任一种的中的码字。仅出于说明的目的,输入图像117以4:2:0采样格式表示在ICtCp颜色空间中的EDR域145中,并且包括亮度码字(在单个亮度通道中表示为“I”)和色度码字(在两个色度通道中表示为“P”和“T”)。应当注意,ICtCp仅表示可以表示输入图像117的输入格式/域的许多可能选择中的一个。输入格式/域的可能选择的示例可以包括但不一定仅限于以下任何一个:Rec.2020中的YCbCr-PQ、DCI P3或其他颜色格式/域。ICtCp颜色空间和混合对数伽马(HLG)信号参数描述在ITU-RRec.BT.2100-0(07/2016)《用于制作和国际程序交换的高动态范围电视的图像参数值(Image parameter values for high dynamic range television for use inproduction and international programme exchange)》中,其通过引用整体并入本文。
在后期制作编辑115之后相对窄的动态范围的参考色调映射图像117-1可以包括,或可以进一步地以各种采样格式中的任一种转换为各种颜色空间中的任一种的码字。仅出于说明的目的,参考色调映射图像117-1采用4:2:0采样格式表示在YCbCr颜色空间中的整形域152中(例如,Rec.709、P3、Rec.2020、基于伽马、基于HLG、基于PQ等),并且包括亮度码字(在单个亮度信道中表示为“Y”)和色度码字(在两个色度通道中表示为“Cb”和“Cr”)。应当注意,YCbCr仅表示可以表示参考色调映射图像117-1的格式/域的许多可能选择中的一个。格式/域的可能选择的示例可以包括但不一定仅限于以下任何一个:Rec.709、YCbCr伽马、Rec.709HLG、P3HLG或其他颜色格式/域。
在生成前向整形图像182时由前向整形块150执行的前向整形在以下事项中起着相对重要的作用:确保高动态范围(例如,EDR等)的输入图像有效地压缩成整形域152中相对窄的动态范围(例如,Rec.709、SDR等)的前向整形图像182,同时确保前向整形图像182是可以(例如,接近的)在相对窄的动态范围的显示装置上直接观看的制作质量。这样,在后期制作编辑115之后创建参考色调映射图像117-1中所体现的第一特定艺术意图在相对窄的动态范围的前向整形图像182中相对完整地保留。
同时,由前向整形块150执行的前向整形应所述是可逆的或可逆性的,从而允许前向整形图像182被后向整形(或被整形回)为高动态范围(例如,在EDR域中、在IPTPQ(ICtCp)中、在YCbCr-PQ域中等)的后向整形图像(例如,图1D的132)。后向整形图像132表示与EDR域145中的输入图像117相同或相对接近地近似的重建图像132。这样,在后期制作编辑115之后创建输入图像117中所体现的第二特定艺术意图也在高动态范围的重建图像132中相对完整地保留。
在一些实施例中,前向整形块150包括亮度前向整形块162,以将EDR域145中的输入图像117的亮度码字I前向整形为整形域152中前向整形图像182的近似于参考色调映射图像117-1的色调映射亮度码字的前向整形亮度码字(表示为“Yf”)。亮度前向整形块162可以被具体配置以避免带状伪像并提高压缩效率。
在一些实施例中,亮度前向整形块162用于整形亮度码字的方法可以利用单通道前向整形函数,所述单通道前向整形函数基于将基于CAQ(内容自适应感知量化)的码字分配算法与色调映射码字分配算法进行组合生成。
生成噪声掩模的一些示例描述在于2016年3月1日提交的扬·弗勒利希(JanFroehlich)等人的题为《用于高动态范围图像的内容自适应感知量化器(Content-adaptive perceptual quantizer for high dynamic range images)》的PCT申请PCT/US2016/020230和于2016年3月1日提交的G-M Su的题为《用于高动态范围图像的实时内容自适应感知量化器(Real-time content-adaptive perceptual quantizer for highdynamic range images)》的PCT申请PCT/US2016/020232中。上述专利申请通过引用并入本文,如同在此完全阐述一样。
由于用于编辑后期制作编辑115中的高动态范围的输入图像117的参考显示器(例如,125等)的颜色空间和/或色域通常不同于用于编辑后期制作编辑115中相对窄的动态范围的参考色调映射图像117-1的另一参考显示器(例如,125-1等)的颜色空间和/或色域,所以前向整形块150还需要解决色度整形问题。
在一些实施例中,前向整形块150包括色度前向整形块165以前向整形色度码字(P和T)。色度前向整形块165可以实现整形色度码字(P和T)的方法,所述方法不同于亮度前向整形块162用于整形亮度码字(I)的(单独的)单通道方法。
在一些实施例中,色度前向整形块165用来整形色度码字的方法可以基于支持多通道(或跨通道)整形的基于MMR的算法。色度前向整形块165接收输入图像117的色度码字(P和T)、参考色调映射图像117-1的色度码字(Cr和Cb)以及输入图像117的下采样的亮度码字作为输入。由色度前向整形块165接收的输入可以由色度前向整形块165映射到整形域152中的前向整形图像182的前向整形色度码字(表示为“Crf”和“Cbf”)。
在一些实施例中,前向整形块150被配置为生成(例如,单通道)亮度后向整形函数187-1,将进一步详细说明。
在一些实施例中,前向整形块150包括色度后向整形映射生成器170以使用输入图像117的色度码字(P和T)、前向整形图像182的前向整形色度码字(Crf和Cbf)以及通过对前向整形图像117的前向整形亮度码字(Yf)进行下采样而生成的下采样前向整形亮度码字作为输入,以生成色度后向整形映射187-2,将进一步详细说明。
可以包括定义/指定亮度后向整形函数187-1和色度后向整形映射187-2的操作参数作为要通过压缩器167与前向整形图像182一起被编码进编码位流122的图像元数据中的后向映射元数据。
解码器侧架构
图1D示出了示例解码器侧编解码器架构185,其可以利用下游视频解码器中的一或多个计算处理器等来实现。
编码位流122可以由解压缩器172解码成解码图像,所述解码图像可以与前向整形图像182相同,并且包括亮度前向整形码字(Yf)和色度前向整形码字(Crf和Cbf)。
在一些实施例中,可以在诸如支持相对窄的动态范围的第一目标显示器140-1的显示装置上直接呈现具有很小或没有变化的前向整形图像182。由于在后期制作编辑115之后生成前向整形图像182以相对接近地近似于参考色调映射图像117-1,所以预期前向整形图像182保留为体现在创建参考色调映射图像117-1中的特定艺术意图。
另外、可选地或替代地,从编码位流122解码的相对窄的动态范围的前向整形图像182可以进一步后向整形为高动态范围的后向整形图像132。例如,亮度后向整形块175可以被配置为将在编码位流122中随编码的前向整形图像携带的后向整形元数据中定义/指定的亮度后向整形函数187-1施加到亮度前向整形码字(Yf)作为输入,以生成后向整形图像132的亮度后向整形码字(Ib)作为输出。
此外,色度后向整形块190可以被配置为将在编码位流122中随编码的前向整形图像携带的后向整形元数据中定义/指定的色度后向整形映射187-2施加到色度前向整形码字(Crf和Cbf)和通过对亮度前向整形码字(Yf)进行下采样而生成的下采样亮度前向整形码字作为输入,以生成后向整形图像132的色度后向整形码字(Tb和Pb)作为输出。应当注意,IPTPQ(ICtCp)仅表示可以表示重建图像132的输出格式/域的许多可能选择中的一个。输出格式/域的可能选择的示例可以包括但不一定仅限于以下任何一个:Rec.2020中的YCbCr-PQ、DCI P3或其他颜色格式/域。还应注意,重建图像132可以进一步变换为可以与表示输入图像117的输入格式/域相同或不同的输出格式/域。
在一些实施例中,可以在诸如支持高动态范围的显示装置140-2的显示装置上直接呈现具有很小变化或没有变化的后向整形图像132。由于后向整形图像132在后期制作编辑115之后被生成为与输入图像117相同或相对接近地近似,因此期望后向整形图像132保留为在创建输入图像117时体现的具体艺术意图。
将自适应PQ与色调映射相结合
图2描绘了用于基于CAQ和色调映射码字分配来生成单通道亮度前向整形函数(例如,用于前向整形输入图像117的亮度码字)的示例过程。其中的一些或全部可以由前向整形块150执行。
可以基于CAQ确定第一码字分配。如图2中所示,给定输入图像(例如,输入视频帧)117的序列,块205用于生成噪声掩模图像,就像素在掩蔽量化噪声中的感知相关性而言,所述噪声掩模图像表征输入图像序列117中的一或多个输入图像中的每个像素。在步骤(210)中使用噪声掩模图像与一或多个输入图像的图像数据相结合来生成噪声掩模直方图。块215基于噪声掩模直方图估计在步骤(210)中生成的直方图的每个区间的第一位深度(或所需的最小位数)。
可以基于色调映射来确定第二码字分配。如图2中所示,给定参考色调映射图像(例如,色调映射视频帧)117-1的序列和输入图像117的序列,块225确定色调映射函数,所述函数(例如,大约)将输入图像117的序列中的一或多个输入图像转换/映射到参考色调映射图像117-1的序列中的一或多个对应的参考色调映射图像。块230基于色调映射函数计算噪声掩模直方图的每个区间的第二位深度。
第一位深度可以被认为是最小位深度,低于所述最小位深度可能发生带状伪像。块235将每个区间的第二位深度与第一位深度进行比较。
如果任何输入码字区间的第二位深度低于所述区间的第一位深度,则块240计算需要为所述区间分配的附加码字(或增量位深度)的量。块245从其他区间的第二位深度减少要分配给所述区间的相同量的附加码字(或增量位深度),其中每个第二位深度大于对应的第一位深度。可以通过如本文所述的技术来实现约束,以确保每个其他区间中的减小的第二位深度不小于所述其他区间的第一位深度。可以重复块235、240和245直到最大迭代次数。将每个其他区间的减小的位深度设置为下一个迭代循环的(新的)第二位深度。
在所有区间的位深度至少为第一位深度之后(或在达到最大迭代次数之后),块250使所有区间上的所有结果位深度平滑。基于平滑的位深度,块255构造亮度前向整形函数,例如以前向查找表(FLUT)的形式。可能需要平滑操作以确保对应于亮度前向整形函数(例如,其的逆等)的亮度后向整形函数可以通过诸如8片二阶多项式的一组多项式片段来近似。
然后,可以使用亮度前向整形函数来将一或多个输入图像的亮度码字前向整形为接近一或多个参考色调映射图像的一或多个对应的前向整形图像的前向整形亮度码字。
接下来将更详细地描述这些步骤中的每一个。
噪声掩模生成
自适应PQ的基本思想是在图像的有噪声或具有高纹理的区域中分配较少的位,而在图像的被感知为无噪声或更平滑区域中分配较多位。给定输入图像117,噪声掩模生成块205生成图像中的每个像素的掩蔽噪声的估计。在一些实施例中,可以使用基于伽马或PQ的量化器对输入图像117进行编码。在一些其他实施例中,输入图像117可以处于线性空间中。
设Ijp表示在输入图像117的序列中的第j个输入图像(或帧)中的量化(例如,亮度)下的颜色分量的第p个像素,归一化为[0 1)。设
Figure BDA00018079494200001312
Figure BDA00018079494200001313
表示此图像中的最小和最大像素值,或
Figure BDA00018079494200001314
Figure BDA00018079494200001315
在一些实施例中,第一低通滤波器应用于图像Ij。在实施例中,所述滤波器模仿人类视觉系统的特征。根据可用的计算能力,所述滤波器的范围可以从非常简单的滤波器(如箱式滤波器或高斯滤波器)到较复杂的滤波器组(如实现Cortex变换的滤波器组)。在实施例中,第一滤波器可以是具有支持范围rL和方差
Figure BDA0001807949420000131
的二维高斯滤波器
Figure BDA0001807949420000132
(例如,rL=9且
Figure BDA0001807949420000133
或rL=33且
Figure BDA0001807949420000134
)。然后,其输出(L)可以表示为
Figure BDA0001807949420000135
其中,符号
Figure BDA0001807949420000136
表示卷积。给定第一滤波器的输出,输入图像的高频分量可被提取为
Figure BDA0001807949420000137
然后可以通过第二低通滤波器再次对这些高频分量进行滤波,以产生噪声掩模(H)。这是为了解决HVS掩蔽的低相位精度(即,在掩蔽信号的过零点处仍然存在掩蔽)。在实施例中,第二LPF也可以是具有支持范围rH和方差
Figure BDA0001807949420000138
的高斯滤波器(例如,rH=9,
Figure BDA0001807949420000139
Figure BDA00018079494200001310
)。然后,噪声掩模(H)可以表示为
Figure BDA00018079494200001311
在实施例中,第一和第二低通滤波器的参数可以相同。在优选实施例中,第一和第二低通滤波器是可分离滤波器,以提高计算效率。在实施例中,可以使用可选步骤来识别在后续处理中可以忽略的Hjp像素,因为它们可以偏置自适应量化过程。例如,如果图像包括信箱帧(即,可以构图原始图像以使其符合特定帧大小或宽高比的黑色像素),则可以忽略与信箱像素相关的值。与图像边界或信箱边界相关的值也可以被忽略,因为低通滤波器的输出假定这些边界处的数据用常数值填充,这将产生较低的噪声值。令Ωj表示所有考虑下的有效像素的集合,那么最终输出噪声掩模322可表示为
Hj(i),i∈Ωj。 (5)
噪声掩模直方图生成
令BI表示输入图像117的位深度(例如,BI=16)并且令
Figure BDA0001807949420000141
然后,可以将动态范围0至K-1划分为具有相等像素间隔值W的M个区间,即W=K/M。在实施例中,对于第j个图像,噪声直方图bj(m)可以如下生成,其中m表示第m个直方图区间(m=0,1,2,...,M-1):
a)识别原始图像(Iji,i∈Ωj)中具有所述范围
Figure BDA0001807949420000142
内的像素值的所有像素。
b)在这些像素中,选择最小Hj(i),因为如前所述,掩蔽高程不是2D地图。
或者,给定
Figure BDA0001807949420000143
bj(m)=min{Hj(i)|i∈Ψj,m}。 (6)
请注意,有时某些区间可能是空的,因为区间的像素范围内可能没有任何图像像素。可以存储这些区间的索引,并且稍后将解决它们的状态。
可以在图像/帧级别或在场景级别调整自适应PQ值。如本文所使用的,视频序列的术语“场景”或“镜头”可以涉及共享相似颜色和动态范围特征的视频信号中的一系列连续图像(或帧)。由于在大多数视频压缩格式中视频预测的连续性质,可能优选的是仅在与视频编码器的典型边界匹配的边界处调整量化参数,例如场景改变或新的图片组(GOP)。因此,给定具有F图像的场景和基于图像的噪声掩蔽直方图bj(m),可以导出基于场景的噪声掩蔽直方图b(m)为
bm=min{bj(m)|j=0,1,...,F-1}。 (7)
在实施例中,假设噪声上限为1,可以为整个场景没有像素值的噪声区间分配最大可能的噪声级值1。在一些实施例中,也可以从相邻的区间内插缺失的区间。对于j=0,1,2,…,F–1,也可以将基于场景的最小和最大像素值生成为
vL=min{vLj},
vH=max{vHj}。 (8)
每个直方图-区间的位深度计算
给定噪声掩模直方图中每个区间的噪声水平bm,下一步将是确定需要为每个输入码字区间分配的位数。在实施例中,可以基于实验用户研究结果来确定这种映射。例如,在一个这样的研究中,用户被示出评估量化到不同位深度的测试图像,其中在量化之前将高斯噪声添加到图像。具有较高掩模噪声水平的图像区域可以在较小的位深度处实现完全的视觉透明度。或者,图像越平滑,精确且感知无损表示所需的位深度越大。
考虑一组数据对
Figure BDA0001807949420000151
i=1,2,3,…,N,其中对于第i个输入噪声水平
Figure BDA0001807949420000152
已经确定(例如,通过用户研究或其他技术)相应的最小位深度是
Figure BDA0001807949420000153
在实施例中,这些对可以表示为掩蔽噪声到位深度函数
Qm=fN(bm)。 (9)
例如,但不限于,使用简单的线性插值,对于
Figure BDA0001807949420000154
Figure BDA0001807949420000155
在实施例中,Qm=fN(bm)可以使用查找表来计算映射。在实施例中,基于直方图区间内所需码字的数量而不是直接使用位深度数据来执行码字映射220可能更方便。这将在下一节中讨论。
代码字映射生成
令BT表示重新量化信号152的目标位深度(例如,BT=每个颜色分量10位/像素),然后使用
Figure BDA0001807949420000156
码字映射输出。在实施例中,码字的范围被归一化为1,因此令
Figure BDA0001807949420000159
表示每个区间m的归一化码字的数量。例如,如果Qm=9,BI=16且BT=10,则Dm=2-17
di=Dm其中(m-1)W≤i<mW, (12)
表示每个输入
Figure BDA0001807949420000157
的归一化码字的数量,则di可以被认为是每个输入码字所需码字数量的基于CAQ的下界。所有输入码字的归一化码字的总数D由1或者下式限制
Figure BDA0001807949420000158
在一些实施例中,归一化码字的总数D不大于1。任何未使用的码字(当D小于1时)可用于生成前向整形曲线/函数(例如,单通道亮度前向整形函数等)中的额外码字分配,其将相对高动态范围的输入图像中的输入码字(例如,亮度码字等)整形为相对较窄的动态范围的对应前向整形图像的整形码字(例如,整形亮度码字等)。
目标色调映射功能
如本文所述的技术可用于支持创建参考色调映射图像117-1所使用的各种色调映射方法中的任何一种(例如,在调色师的控制下,在后期制作编辑115等中)。
在一些实施例中,可以在块225中确定或建立色调映射函数(表示为T(.)),以便(例如,近似地)表示从高动态范围的输入图像117中的一或多个输入图像映射到相对窄的动态范围的参考色调映射图像117-1中的一或多个参考色调映射图像。色调映射函数T(.)的输入值可以包括在高动态范围内的一或多个输入图像中的所有可能的输入码字(例如,亮度码字)上。色调映射函数T(.)的输出值可以与相对窄的动态范围映射(例如,SDR、Rec.709等)内的一或多个参考色调映射图像的色调映射码字相同或者可以基本上近似。在一些实施例中,输出值可以归一化为[0 1)。给定vL和vH(例如,如在表达式(8)中确定的),可以如下给出色调映射值中的极值:
cL=T(vL)
cH=T(vH) (14)
[vL,vH]内的输入码字被映射到[cL,cH]内的色调映射码字。因此,色调映射码字的(非标准化)范围可以表示为cH–cL+1。
给定目标信号(目标输出容器信号)的位深度为BT,可以如下给出色调映射码字的归一化范围:
Figure BDA0001807949420000161
这表示用于将一或多个输入图像前向整形成近似于一或多个参考色调映射图像的一或多个前向整形图像的码字预算。
每个区间的目标位深度
在一些实施例中,块230将每个输入码字(例如,第i个输入码字)的目标位深度(或所需位深度)(表示为ti)确定为差值,如下:
ti=T(i)-T(i-1) (16)
其中T(i)是通过色调映射函数T(.)从第i个输入码字区间映射的色调映射字,并且T(i-1)是通过色调映射函数T(.)从第i个输入码字区间旁边的相邻输入码字输入(例如,第(i-1)个输入码字区间)映射的相邻色调映射字。另外、可选地或替代地,在一些实施例中,T(i)是通过色调映射函数T(.)从第i个输入码字映射的色调映射字,并且T(i-1)是通过色调映射函数T(.)从第i个输入码字旁边的相邻输入码字(例如,第(i-1)个输入码字)映射的相邻色调映射字。
目标位深度的初始值t0可以设置为0。注意,所有目标位深度的总和等于T,如下:
Figure BDA0001807949420000171
选择每个区间的最大值
对于每个输入码字区间(例如,第i个输入码字),确定两个不同的位深度。第一位深度是来自噪声测量的di,如表达式(12)中所确定的。第二位深度是来自色调映射函数的ti,如在表达式(16)中确定的。可以在块235中构造两组位深度,这取决于两个位深度中的哪一个具有更大的值,如下:
Ω={i|ti>di}
Φ={i|ti≤di} (18)
对于每个输入码字i,块235确定色调映射位深度ti(或第二位深度)是否不大于位深度di(或第一位深度)。如果色调映射位深度ti不大于di(i∈Φ),则当第i个输入码字处或附近的亮度码字被映射到相对窄的动态范围内的色调映射码字或整形码字时,一或多个参考色调映射图像可能更易产生可观察到的条带伪像。
因此,为了防止可能的条带伪像,可以使用所述集合Φ中的输入码字的位深度di(为了确定亮度前向整形函数),如下:
Figure BDA0001807949420000172
计算额外分配的码字
与不在集合Φ中的其他输入码字区间相比,对集合Φ中的输入码字区间的位深度di的选择导致在相对窄的动态范围中对这些输入码字区间进行额外的码字分配。可以在块240中如下计算这种码字的额外分配:
Figure BDA0001807949420000173
扣除额外分配的码字
可以在块245中从属于所述集合Ω的输入码字区间的位深度中扣除在表达式(20)中确定的额外量的码字E。在一些实施例中,固定数量的码字或固定量的增量位深度,(例如E/|Ω|)从所述集合中的输入码字区间的每个位深度中等同地扣除,如下:
Figure BDA0001807949420000181
检查下限违规
对于表达式(21)中减去额外码字之后的集合Ω中的一些输入码字区间,
Figure BDA0001807949420000182
是有可能的。如果发生这种情况,则图2的处理流程返回到块235并重新计算集合Φ和Ω。可以迭代地执行块235至245,直到为高动态范围中的所有输入码字区间的所有位深度分配了不小于从噪声掩模直方图计算的位深度,或者可选地直到到达最大迭代次数。
平滑位深度
其余处理步骤可以直接在
Figure BDA0001807949420000183
数据上操作。在满足由从噪声掩模直方图计算的位深度(例如,集合Φ为空)表示的最小位深度下限之后,在基于CAQ的码字分配与基于色调映射的码字分配的组合的基础上确定的位深度
Figure BDA0001807949420000188
可以通过以下方式平滑:低通滤波器,例如2N+1抽头平均滤波器,以提高性能。
Figure BDA0001807949420000184
其中i<vL且i>vH
Figure BDA0001807949420000185
其中ak,k=-N,-N+1,…,N表示平滑滤波器的滤波器系数(例如
Figure BDA0001807949420000186
)。在实施例中,所述滤波器的长度足够大以至少跨越两个连续输入码字区间的大小。较大的滤波器将提供更好的平滑性,但需要更大的计算能力。
构建前向整形LUT
可以通过累积求基于平滑的位深度建立前向查找表(LUT)(表示为FLUT),其中相对窄的动态范围的色调映射值中的最小值cL作为偏移量
Figure BDA0001807949420000187
FLUT可用于将高动态范围的一或多个输入图像的亮度码字前向整形成相对窄的动态范围的一或多个前向整形图像。
图3描绘了示例亮度前向整形函数(例如,在三次迭代/轮次额外码字扣除/分配之后导出)。第一曲线302表示基于高动态范围的输入图像的噪声测量值计算的输入码字(或输入码字区间)上的多个第一位深度。第二曲线304表示基于色调映射函数计算的相同输入码字(或相同输入码字区间)上的多个第二位深度,所述色调映射函数近似于或表示输入图像到参考色调映射图像的映射。第三曲线306表示亮度前向整形函数,其可用于将输入图像前向整形为整形图像(例如,图1C的182),所述整形图像是近似于参考色调映射图像的可逆制作质量单层图像。如图所示,在4500和5600(预归一化值)之间的输入码字范围中,第一区间深度大于第二区间深度,这表示如果相对窄的动态范围的不充足码字被分配用于映射所述范围中的输入码字时,前向整形图像中可能出现带状伪像。由第三曲线306表示的亮度前向整形函数使用所述范围中的第一位深度来减少或防止带状伪像。可以通过减少其他范围中的额外码字分配来补偿所述范围中第二位深度相对第一位深度的升高,所述其他范围为例如在1300和4500(预归一化值)之间的输入码字范围,其中第一位深度小于第二位深度。在一些实施例中,可以在生成参考色调映射图像时执行剪切操作。例如,在参考色调映射图像中将输入图像中0和1300(预归一化值)之间的剪切范围308中的输入码字设置为零(或剪切为零)。在本文描述的技术下,亮度前向整形函数仍然表示剪切范围308中的输入码字,并且使用剪切范围308中的第一位深度以确保前向整形图像中没有或几乎没有剪切。结果是,部分地利用亮度前向整形函数生成的前向整形图像是可逆的,将图像数据保留在参考色调映射图像的剪切范围308中,因此可以用于后向整形操作以重建或恢复近似于高动态范围的输入图像的高动态范围的图像。
亮度后向整形函数
在一些实施例中,可以应用后向整形160以反转前向整形150的效果。在实施例中,可以如下构造用于逆量化的查找表形式的亮度后向整形函数:
a)对于量化域(sc)中的每个码字,识别FLUT(vi)=sc的所有输入码字(vi)。令所述组表示为ω(sc)={vi|FLUT(vi)=sc};然后
b)构造后向整形函数(BLUT(sc))作为ω(sc)的函数。
例如,在实施例中,但不限于,BLUT(sc)可以被构造为属于ω(sc)的所有码字的平均值,或者
如果|ω(sc)|>0,那么
Figure BDA0001807949420000191
其中|ω(sc)|表示集合ω(sc)中的元素数量。如果对于任何sc值|ω(sc)|=0,则在实施例中,可以从其相邻的非零值内插这些值。
在一些实施例中,在构造后向整形函数BLUT之后,可以使用诸如8片二阶多项式等的一组多项式片段来近似BLUT。在于2016年3月17日提交的“《信号整形逼近(Signalreshaping approximation)》”的PCT申请PCT/US2016/22772中描述了使用多项式段来近似整形函数的一些示例,其内容通过引用并入本文,如同在此完全阐述一样。
前向色度整形
如先前结合亮度前向整形所讨论的,参考色调映射图像117-1的亮度码字可以用作整形域152中的前向整形图像的亮度前向整形码字的目标参考来近似。同样地,参考色调映射图像117-1的色度码字可以用作整形域152中的前向整形图像的色度前向整形码字的目标参考来近似。
上游装置可以但不必限于仅基于MMR的前向整形预测模型,以使用EDR域145中的输入图像117所有通道(例如,I、P和T通道等)中的码字来预测参考色调映射图像中的色度码字(或色度通道中的码字)。
在一些实施例中,每个参考色调映射图像117-1和输入图像117中的每个通道(例如,I、P、T、Y、Cb和Cr通道等)中的码字被归一化到[0 1)的范围。
为了在基于MMR的前向整形预测模型下执行预测,上游装置可首先将输入图像117的亮度码字(或I通道中的码字)下采样为与输入图像117的色度码字(或P或T通道中的码字)相同的样本大小。例如,如果输入图像是4:2:0采样格式,则可以在视频图像/帧的每个空间维度中将亮度码字下采样一半。
如下所述,在EDR域145中的I/P/T通道中将输入图像117的(归一化的)码字(例如,被下采样的亮度码字、色度码字等)表示为:
Figure BDA0001807949420000201
如前面提到的美国专利No.8,811,490中所述,MMR多项式/矢量(表示为
Figure BDA0001807949420000202
)可以基于up如下构造。
如下表示Cb和Cr色度通道(例如,SDR通道等)中的参考色调映射图像117-1的色度代码字:
Figure BDA0001807949420000203
如上所述,这些色度码字可以在基于MMR的前向整形预测模型中用作从EDR域145中的I/P/T通道中的输入图像117的码字预测的目标参考。如下表示在基于MMR的前向整形预测模型中预测的预测色度值(在整形域152中):
Figure BDA0001807949420000211
基于MMR的前向整形预测模型下的目标是确定或驱动前向整形MMR矩阵(或函数)MF,使得预测的色度值
Figure BDA0001807949420000212
最接近通过最小化成本函数如色度码字sp所表示的目标参考。
在一些实施例中,对于在每个色度通道中具有P个色度像素值的图像/帧,输入图像和对应于输入图像的参考色调映射图像中的每一个中的所有P个像素值可以放在单个矩阵中,如下所示:
Figure BDA0001807949420000213
类似地,前向整形图像中近似于参考色调映射图像并且在基于MMR的前向整形预测模型下预测的所有P个像素值可以放置在单个矩阵中,如下:
Figure BDA0001807949420000214
然后,目标是找到前向整形MMR矩阵MF的最优值,使得
Figure BDA0001807949420000215
Figure BDA0001807949420000216
之间的以下差异最小化:
Figure BDA0001807949420000217
在一些实施例中,前向整形MMR矩阵MF的最优值可以通过最小二乘解得到,如下:
Figure BDA0001807949420000218
后向色度整形
为了在基于MMR的后向整形预测模型下导出用于色度通道的后向整形MMR矩阵(或函数),可以使用类似的方法,但具有不同的目标参考和不同的输入。
注意,输入图像117中的色度码字表示/构成解码器侧的高动态范围(例如,在EDR域等中)的色度信号。换句话说,在编码器侧通过用于亮度通道的亮度前向整形函数和用于色度通道的前向整形MMR矩阵获得的前向整形码字(在亮度和色度通道Y、Cb、Cr中)可以用作基于MMR的后向整形预测模型中的输入,而输入图像117的(原始)色度码字(在P和T通道中)可以用作目标参考。
为了在基于MMR的后向整形预测模型下执行预测,下游装置可以首先将前向整形图像的前向整形亮度码字(或Y通道中的码字)下采样为与前向整形图像的色度码字(或Cb或Cr通道中的码字)相同的样本大小。例如,如果前向整形图像是4:2:0采样格式,则可以在视频图像/帧的每个空间维度中将亮度码字下采样一半。
如下表示Y/Cb/Cr通道中的前向整形图像的(归一化的)码字(例如,下采样的亮度码字、色度码字等):
Figure BDA0001807949420000221
可以基于前面提到的美国专利8,811,490中描述的hp构造MMR多项式/矢量(表示为
Figure BDA0001807949420000222
)。基于MMR的后向整形预测模型的目标是在色度通道(P和T通道)中重建(或返回为至少近似地)输入图像117的(原始)色度码字。
如下表示P和T色度通道(例如,EDR通道等)中的输入图像117的色度码字:
Figure BDA0001807949420000223
如上所述,这些色度码字可以在基于MMR的后向整形预测模型中用作从整形域152中的Y/Cb/Cr通道中的前向整形图像的码字预测的目标参考。如下表示在基于MMR的后向整形预测模型中预测的预测色度值(在EDR域145中):
Figure BDA0001807949420000224
基于MMR的后向整形预测模型下的目标是确定或驱动后向整形MMR矩阵(表示为MB),使得预测的色度值
Figure BDA0001807949420000225
最接近通过最小化成本函数如色度码字vp所表示的目标参考。
在一些实施例中,对于在每个色度通道中具有P个色度像素值的图像/帧,前向整形图像和近似于相应输入图像的重建图像中的每一个中的所有P个像素值可以放在单个矩阵中,如下所示:
Figure BDA0001807949420000231
类似地,重建图像中近似于输入图像并且在基于MMR的后向整形预测模型下预测的所有P个像素值可以放置在单个矩阵中,如下:
Figure BDA0001807949420000232
然后,目标是找到后向整形MMR矩阵MB的最优值,使得
Figure BDA0001807949420000233
Figure BDA0001807949420000234
之间的以下差异最小化:
Figure BDA0001807949420000235
在一些实施例中,后向整形MMR矩阵MB的最优值可以通过最小二乘解得到,如下:
Figure BDA0001807949420000236
可控饱和度调整
由于基于MMR的前向整形预测模型用于生成/预测近似于参考色调映射图像(例如,117-1)的前向整形图像,因此预测的前向整形图像可能与参考色调映射图像不同。换句话说,在参考色调映射图像117-1和前向整形图像之间存在失真间隙。
在一些实施例中,为了增加前向整形图像中的饱和度,可以稍微调整参考色调映射图像,以便增加参考色调映射图像中的饱和度。可以在参考色调映射图像中的饱和度已经增加之后,执行基于MMR的前向整形预测模型下的优化/预测。结果是,前向整形图像也可以具有比其他更饱和的颜色。
为此,调色师可以使用缩放因子(wCb,wCr)来控制参考色调映射图像中的(例如,在后期制作编辑115等期间)的期望饱和度,如下:
Figure BDA0001807949420000241
对于在每个色度通道中具有P个色度像素值的图像/帧,参考色调映射图像中的所有P个像素值可以放置在单个矩阵中,如下:
Figure BDA0001807949420000242
前向整形MMR矩阵(或函数)MF的最优值可以通过最小二乘解得到,如下:
Figure BDA0001807949420000243
可以如下预测或生成预测的色度值:
Figure BDA0001807949420000244
其中
Figure BDA0001807949420000245
同样,对于后向整形,由下游装置解码的前向整形码字可以表示如下:
Figure BDA0001807949420000246
对于在每个色度通道中具有P个色度像素值的图像/帧,前向整形图像中的所有P个像素值可以放置在单个矩阵中,如下:
Figure BDA0001807949420000247
后向整形MMR矩阵(或函数)MB的最优值可以通过最小二乘解得到,如下:
Figure BDA0001807949420000251
与通过前向整形从其生成前向整形图像的输入图像相同或近似的重建图像中的后向整形色度码字可以如下预测或生成:
Figure BDA0001807949420000252
其中
Figure BDA0001807949420000253
可以仔细选择缩放因子(wCb,wCr)以确保预测的色度码字在诸如归一化范围[0 1)的约束范围内。
EDR保真度改进
如果重建图像相对于输入图像的保真度是重要的,则可以以这样的方式调整缩放因子(wCb,wCr),使得后向整形码字相对于(原始)输入图像117中的码字具有最小的失真/误差/间隙/成本。然而,这样做,可能意味着前向整形图像相对于参考色调映射图像117-1的保真度可能在某种程度上受到影响或牺牲。
在一些实施例中,除了调整缩放因子(wCb,wCr)以便控制颜色饱和度之外或代替调整缩放因子(wCb,wCr)以便控制颜色饱和度,可以调整缩放因子(wCb,wCr)以便控制重建图像相对于输入图像的保真度。
例如,优化问题可以公式化以使输入图像的色度码字
Figure BDA0001807949420000254
和与输入图像相同或近似的重建图像的后向整形色度码字
Figure BDA0001807949420000255
之间的失真最小化。另外、可选地或替代地,优化问题的解决方案可以经受在前向整形图像中可接受的饱和度范围。可以通过最小化失真来选择或生成解或后向整形MMR矩阵MB,如下所示:
Figure BDA0001807949420000256
其中{wmin,wmax}可用于定义前向整形图像(例如,SDR外观等)中的可接受饱和度范围,或前向整形图像中的最优饱和度范围。
虽然可以在{wmin,wmax}之间的范围内对所有连续值进行全搜索,但是在一些实施例中,为了使解决方案简单,可以对{wmin,wmax}之间的离散化值而不是范围内的所有连续值进行(例如,完全)搜索。
示例过程流程
图4A示出了根据本发明的实施例的示例过程流程。在一些实施例中,一或多个计算装置或组件(例如,编码装置/模块、代码转换装置/模块、解码装置/模块、色调映射装置/模块、图形混合装置、图像混合装置/模块、媒体装置/模块等)可以执行所述过程流程。在框402中,图像处理装置确定色调映射函数,其将高动态范围的一或多个输入图像映射到相对窄的动态范围的一或多个参考色调映射图像。
在框404中,图像处理装置基于多个第一位深度和多个第二位深度,导出亮度前向整形函数,所述亮度前向整形函数用于将一或多个输入图像的亮度码字前向整形为相对窄的动态范围的一或多个前向整形图像的前向整形亮度码字,一或多个前向整形图像近似于一或多个参考色调映射图像。
在框406中,图像处理装置导出用于预测一或多个前向整形图像的色度码字的色度前向整形映射,色度前向整形映射使用一或多个输入图像的色度码字和亮度码字作为输入,色度前向整形映射使用一或多个参考色调映射图像的色度码字作为预测目标。
在框408中,图像处理装置生成后向整形元数据,所述后向整形元数据将由一或多个接收方装置使用以生成亮度后向整形函数和色度后向整形映射。
在框410中,图像处理装置将具有后向整形元数据的一或多个前向整形图像发送到一或多个接收方装置。
在实施例中,在后期制作编辑中生成一或多个输入图像或一或多个参考色调映射图像中的一者或两者。
在实施例中,基于噪声水平在多个码字区间中确定多个第一位深度,所述噪声水平基于一或多个输入图像的亮度码字中在多个码字区间中确定;多个码字区间覆盖高动态范围。
在实施例中,基于色调映射函数在多个码字区间中确定多个第二位深度;多个码字区间覆盖高动态范围。
在实施例中,通过优化成本函数来导出色度前向整形映射,所述成本函数构造一或多个输入图像的色度码字和亮度码字作为输入并将一或多个参考色调映射图像的色度码字作为预测目标。
在实施例中,一或多个前向整形图像被编码在相对窄的动态范围的视频信号中;后向整形元数据作为与一或多个前向整形图像分开的元数据被携带在视频信号中。
在实施例中,视频信号排除一或多个输入图像或一或多个参考色调映射图像中的一者或两者。
在实施例中,图像处理装置还被配置为在将一或多个输入图像的亮度码字用作用于导出色度前向整形映射的输入的一部分之前,对一或多个输入图像的亮度码字进行下采样。
在实施例中,一或多个输入图像以与表示一或多个参考色调映射图像的颜色空间不同的颜色空间表示。
在实施例中,一或多个输入图像被格式化为与一或多个参考色调映射图像被格式化的采样格式不同的采样格式。
在实施例中,一或多个输入图像或一或多个参考色调映射图像中的至少一个以下列之一表示:IPT PQ(ICtCp)颜色空间、YCbCr颜色空间、RGB颜色空间、Rec.2020颜色空间、Rec.709颜色空间、扩展动态范围(EDR)颜色空间、PQ颜色空间、HLG颜色空间、伽马颜色空间、标准动态范围(SDR)颜色空间等。
在实施例中,一或多个前向整形图像在整形域中表示;整形域的位深度为8、9、10、11+位等之一。
在实施例中,一或多个输入图像在预整形域中表示;预整形域的位深度为12、13、14、15+位等之一。
在实施例中,基于多个第三位深度构造亮度前向整形函数;基于多个第一位深度和多个第二位深度导出多个第三位深度;多个第三位深度中的每一个对应于多个第一位深度中相应的第一位深度和多个第二位深度中相应的第二位深度;多个第三位深度中的每一个不小于多个第一位深度中相应的第一位深度,并且不大于多个第二位深度中相应的第二位深度。
在实施例中,基于一或多个输入图像的亮度码字和一或多个前向整形图像的亮度码字来构造亮度后向整形函数。
在实施例中,生成色度后向整形映射用于预测近似于一或多个输入图像的一或多个后向整形图像的色度码字,色度后向整形映射使用一或多个前向整形图像的色度码字和亮度码字作为输入,色度后向整形映射使用一或多个输入图像的色度代码字作为预测目标。
在实施例中,图像处理装置被配置为执行:将用于控制颜色饱和度的缩放因子应用于一或多个参考色调映射图像的色度码字;在已经应用缩放因子之后,至少部分地基于一或多个参考色调映射图像的色度码字生成色度前向整形函数;等。
在实施例中,图像处理装置被配置为执行:确定色度前向整形成本函数和色度后向整形成本函数,两者都取决于缩放因子,色度前向整形成本函数用于生成色度向前整形映射,色度向后整形成本函数用于生成色度向后整形映射;搜索缩放因子的优化值,所述优化值使得至少部分地基于色度后向整形映射而生成的一或多个重建图像和一或多个输入图像之间的失真最小化。
图4B示出了根据本发明的实施例的示例过程流程。在一些实施例中,一或多个计算装置或组件(例如,编码装置/模块、代码转换装置/模块、解码装置/模块、色调映射装置/模块、图形混合装置、图像混合装置/模块、媒体装置/模块等)可以执行所述过程流程。在框422中,图像处理装置基于利用相对窄的动态范围的一或多个前向整形图像接收的后向整形元数据构建亮度后向整形函数和色度后向整形映射。
在框424中,图像处理装置将亮度后向整形函数应用到一或多个前向整形图像的前向整形亮度码字,以生成近似于高动态范围的一或多个输入图像的高动态范围的一或多个重建图像的后向整形亮度码字。
在框426中,图像处理装置应用色度后向整形映射以将一或多个前向整形图像的前向整形色度码字和前向整形亮度码字映射到一或多个重建图像的后向整形色度码字。
在实施例中,从相对窄的动态范围的视频信号中解码一或多个前向整形图像;后向整形元数据作为与一或多个前向整形图像分开的元数据被携带在视频信号中。
在实施例中,视频信号排除与一或多个前向整形图像近似的一或多个输入图像或一或多个参考色调映射图像中的一者或两者。
在实施例中,图像处理装置还被配置为在将色度后向整形映射应用于一或多个前向整形图像的前向整形色度码字和前向整形亮度码字之前,对一或多个前向整形图像的前向整形亮度码字进行下采样。
在实施例中,一或多个重建图像在与表示一或多个前向整形图像的颜色空间不同的颜色空间中表示。
在实施例中,一或多个重建图像以与一或多个前向整形图像被格式化的采样格式不同的采样格式被格式化。
在实施例中,一或多个重建图像或一或多个前向整形图像中的至少一个在以下之一中表示:IPT-PQ(ICtCp)颜色空间、YCbCr颜色空间、RGB颜色空间、Rec.2020颜色空间、Rec.709颜色空间、扩展动态范围(EDR)颜色空间、伽玛/PQ/HLG颜色空间、标准动态范围(SDR)颜色空间等。
在实施例中,一或多个前向整形图像在整形域中表示;整形域的位深度为8、9、10、11+位等之一。
在实施例中,一或多个重建图像在预整形域中表示;预整形域的位深度为10、11、12、13、14、15+位等之一。
在实施例中,诸如显示装置、移动装置、机顶盒、多媒体装置等的计算装置被配置为执行任何前述方法。在实施例中,设备包括处理器,并且被配置为执行任何前述方法。在实施例中,非暂时性计算机可读存储介质存储软件指令,所述软件指令在由一或多个处理器执行时执行任何前述方法。
在实施例中,计算装置包括一或多个处理器和存储指令集的一或多个存储介质,所述指令集在由一或多个处理器执行时执行任何前述方法。
注意,尽管本文讨论了单独的实施例,但是可以组合本文讨论的实施例和/或部分实施例的任何组合以形成其他实施例。
联合亮度和色度整形
在前面描述的方法中,亮度和色度整形函数彼此独立地导出。在某些情况下,例如,当输入EDR信号117在BT.Rec.2020中编码且输入参考SDR117-1在Rec.709中时,解码器SDR信号(例如,140-1)可能呈现颜色伪像,例如降低的颜色饱和度。因此,在一些实施例中,通过考虑输入信号的亮度和色度特性来导出亮度和色度整形函数可能是有益的。由于这种联合优化技术中计算成本的增加,本文提出了各种最优和次优技术。首先描述针对整个场景的最优3D-LUT EDR到SDR映射。最优3D-LUT映射用作参考点。还收集整个场景的3D直方图以帮助理解像素分布并导出前向整形函数。将通过成本函数搜索每个亮度范围中的最优解决方案。也可以迭代地确定色度整形。此外,还提出了一种简化但非常快速的亮度整形解决方案。
最优3D-LUT
在实施例中,表示输入EDR信号的亮度和色度(例如,Y、Cb、Cr或I、Cp和Ct等)的每个颜色分量(表示为y、c0和c1)可以细分为M个区间(例如,M=256)。在一些实施例中,在不失一般性的情况下,可以将每个颜色分量归一化化为在[0,1)范围内。区间的数量取决于可用的计算资源(也就是说,可以使用更大的M来获得更好的准确性,但是计算成本更高)。为了简化表示,每个颜色分量被分成相同数量的区间;然而,其他实施例可以为每个颜色分量使用不同数量的区间。使用伪代码,根据SDR参考样本将EDR输入样本映射到SDR输出样本的最优3D-LUT可以构造如下:
//初始化
hv(by,bc0,bc1)=0 针对所有区间索引(by,bc0,bc1)
Figure BDA0001807949420000301
针对所有区间索引(by,bc0,bc1)
Figure BDA0001807949420000302
针对所有区间索引(by,bc0,bc1)
Figure BDA0001807949420000303
针对所有区间索引(by,bc0,bc1)
//扫描每个像素
针对每一帧j
针对EDR中的每一像素i
找到EDR值
Figure BDA0001807949420000304
和共同定位的SDR像素值
Figure BDA0001807949420000305
找到
Figure BDA0001807949420000306
的区间索引为
Figure BDA0001807949420000307
Figure BDA0001807949420000308
Figure BDA0001807949420000309
Figure BDA00018079494200003010
Figure BDA00018079494200003011
end
end
//为每个区间,找到最优3D-LUT
针对每一(by,bc0,bc1)
if(hv(by,bc0,bc1)>0)
Figure BDA00018079494200003012
else
需要从可用的相邻者内插
end
end
给定EDR像素值及其相关联的区间(例如(by,bc0,bc1)),等式(50b)表示三个3D-LUT,其可用于生成相应的整形SDR信号(sy(by,bc0,bc1)、sc0(by,bc0,bc1)、sc1(by,bc0,bc1))。等式(50a)中的值hv(by,bc0,bc1)表示输入数据的3D直方图。
对于每个亮度切片,即在区间m处的相同by的所有不同组合(bc0,bc1),可以将最小映射的SDR亮度值和最大映射的SDR亮度值确定为:
Figure BDA0001807949420000311
Figure BDA0001807949420000312
然后,在实施例中,可以经下式构建用于区间m处的最优1D-LUT
Figure BDA0001807949420000313
注意
Figure BDA0001807949420000314
联合整形算法概述
最终目标是生成:(a)1-D LUT,将亮度EDR值映射到映射亮度SDR值,和(b)用于色度的基于MMR的预测函数。亮度映射可以表示为
Figure BDA0001807949420000315
其中
Figure BDA0001807949420000316
表示第k次迭代之后的第j帧的映射的SDR亮度值,
Figure BDA0001807949420000317
表示输入的EDR亮度,并且
Figure BDA0001807949420000318
表示相应的映射函数。对于k=0,可以使用前面讨论的方法生成亮度和色度映射。对于k>0,可以根据一些优化标准来细化两个映射,例如,检查和优化参考SDR值117-1和整形值182之间的色差。如图6所示,在高水平,迭代的联合亮度色度整形算法可以表示如下:
步骤1(初始化)(步骤605和610):对于迭代k=0,给定EDR输入117和其对应的参考SDR输入117-1,可以生成整形SDR亮度
Figure BDA0001807949420000319
和整形SDR色度
Figure BDA00018079494200003110
Figure BDA00018079494200003111
二者彼此独立,如前所述。因此,步骤(605)可以生成
Figure BDA00018079494200003112
并且步骤(610)可以生成MMR集合
Figure BDA00018079494200003113
步骤2(亮度整形函数的细化)(步骤615):对于迭代k(k>0),可以基于色差细化亮度映射,并且基于来自迭代k-1(即
Figure BDA00018079494200003114
Figure BDA00018079494200003115
)的结果细化成本函数。注意,通过“开关”635,对于k=1,
Figure BDA00018079494200003116
Figure BDA00018079494200003117
从步骤(610)的输出读取值,并且对于k>1,从步骤(620)的输出读取它们。由于亮度映射是1D-LUT,因此基本上它是量化过程。例如,在实施例中,可以将输入EDR输入划分为M个区间。对于第m个区间(其中m=0,1,...,M-1),可以识别EDR图像中的所有像素
Figure BDA00018079494200003118
其具有范围为
Figure BDA00018079494200003119
的像素值。将第m个区间中的集合表示为
Figure BDA00018079494200003120
此区间中的所有像素将映射到单个SDR值
Figure BDA0001807949420000321
Figure BDA0001807949420000322
目标是在迭代k中找到最优
Figure BDA0001807949420000323
请注意,此优化问题可以划分为M个子问题,每个区间一个问题。对于第m个区间,优化问题可以表示为
Figure BDA0001807949420000324
其中f(k)(·)是成本函数,用于测量3D颜色空间中颜色的差异。因此,步骤(615)可以生成
Figure BDA0001807949420000325
步骤3(色度整形函数的细化)(步骤620):在细化亮度整形函数之后,可以返回以细化色度整形函数。由于色度使用MMR,这是不同于亮度中使用的1D-LUT的全局算子,因此优化问题不能分成几个子问题。在实施例中,使用测量参考SDR与第k次迭代时生成的SDR之间的差异的成本函数来确定基于MMR的解的加权因子。
令帧j的第i个像素表示为跟随矢量
Figure BDA0001807949420000326
在没有限制的情况下,给定二阶MMR模型,相应的MMR向量
Figure BDA0001807949420000327
基于uji可以表示为:
Figure BDA0001807949420000328
将可用SDR参考的两个色度通道表示为
Figure BDA0001807949420000329
Figure BDA00018079494200003210
表示整形SDR输出的色度分量。对于具有P色度像素的图片,令:
Figure BDA0001807949420000331
以及
Figure BDA0001807949420000332
然后,预测值是
Figure BDA0001807949420000333
其中
Figure BDA0001807949420000334
表示前向整形色度映射。对于基于帧的解,我们的目标是找到每个帧j的MMR系数,使得
Figure BDA0001807949420000335
Figure BDA0001807949420000336
之间的差值通过加权矩阵
Figure BDA0001807949420000337
加权最小化:
Figure BDA0001807949420000338
然后可以通过最小二乘解获得最优色度前向整形函数
Figure BDA00018079494200003316
Figure BDA0001807949420000339
加权矩阵
Figure BDA00018079494200003310
是具有尺寸P×P的对角矩阵,并且具有以下形式
Figure BDA00018079494200003311
加权因子是参考SDR与迭代k处产生的SDR亮度和迭代k-1处产生的色度之间的成本函数。
Figure BDA00018079494200003312
其中g(k)(·)是成本函数。注意,在迭代k=0时,
Figure BDA00018079494200003313
因此,步骤(620)可以生成MMR集合
Figure BDA00018079494200003314
步骤4(检查收敛)(步骤625):可以从步骤2(615)重复所述过程,直到存在收敛,即,计算出进一步的迭代似乎没有根据确定标准改善亮度和色度成本函数。在收敛时,所述过程终止并输出最终的亮度和色度整形函数(步骤630)。
步骤1至4可能是非常计算密集的。在本讨论的其余部分中,将描述替代的和更具成本效益的实施方式,使得编码器可以选择最优匹配可用计算资源的方法。
色度初始化
返回步骤1(610),如前所述,初始MMR系数(例如
Figure BDA00018079494200003315
)可以如下计算:
对于基于帧的解:
Figure BDA0001807949420000341
对于基于场景的解,场景中有F帧:
Figure BDA0001807949420000342
降低计算复杂度的第一步是将“基于像素的”计算替换为“基于体素的”计算。由于EDR输入范围被细分为M×M×M像素立方体,因此可以确定每个像素立方体(或体素)中的中心值。对于每个帧或每个场景的固定分区,每个立方体中的中心值是固定的。对于立方体(α,β,γ),中心值为
Figure BDA0001807949420000343
然后,从等式(54)和(55)
Figure BDA0001807949420000344
Figure BDA0001807949420000345
最后,给定
Figure BDA0001807949420000346
Figure BDA0001807949420000347
预测的色度由下式给出
Figure BDA0001807949420000348
细化亮度整形函数
返回步骤2(615),如前所述,参见等式(53),确定最优整形函数可以表示为试图生成亮度重映射的优化问题,使得参考SDR与整形SDR之间的色度差异根据一些色差测量而最小化。
令D(k),y(α,β,γ)表示像素立方体(或体素)(α,β,γ)的色差测量函数。所述函数也可表示为:
Figure BDA0001807949420000351
其中
Figure BDA0001807949420000352
是后面将详细讨论的另一个函数。
注意,立方体(α,β,γ)处存在hv(α,β,γ)像素。鉴于立方体(α,β,γ)处的失真可以表示为
f(k)(α,β,γ)=hv(α,β,γ)·D(k),y(α,β,γ), (64a)
选择
Figure BDA0001807949420000353
时第α个亮度切片的整体失真是
Figure BDA0001807949420000354
根据最早的讨论,
Figure BDA0001807949420000355
具有通过下式给出的下限和上限
Figure BDA0001807949420000356
因此,在体素水平,在第α个亮度切片中,通过下式给出最优解
Figure BDA0001807949420000357
来自等式(65)的
Figure BDA0001807949420000358
值的集合(对于0≤α≤M-1(例如,M=256)),现在可以用于导出基于像素的整形函数,或其对应的逆(或后向)整形函数(例如,使用等式(24))。这样的函数需要具有几个优选特性,例如:单调非递减,适用于所有可能的输入EDR值,并且平滑。接下来讨论这些问题和提出的解。
最优解
Figure BDA0001807949420000359
可以不是单调非递减函数,这是构造前向整形函数的要求。因此,需要调整最优解
Figure BDA00018079494200003510
以满足要求。在于2016年10月5日提交的美国临时专利申请序列第62/404,307号《具有直方图转移和近似的逆亮度/色度映射(Inverse luma/chromamappings with histogram transfer and approximation)》(其通过引用整体并入本文),B文(B.Wen)等人使用直方图和累积密度函数(CDF)信息来有效地生成单调非递减的整形函数。因此,这里也将采用类似的方法。
第一步是构建EDR和SDR直方图。对于EDR直方图,可以使用与用于导出最优3D-LUT的算法相同的算法(参见在等式(50a)中计算
Figure BDA0001807949420000361
的步骤)。然后,对于每个α切片。
Figure BDA0001807949420000362
可以通过从EDR到SDR找到映射的索引并且对区间计数求和来简单地构建SDR直方图。
Figure BDA0001807949420000363
具有
Figure BDA0001807949420000364
Figure BDA0001807949420000365
现在可以应用CDF匹配方法。
(1)分别根据EDR和SDR直方图建立
Figure BDA0001807949420000366
Figure BDA0001807949420000367
值,
Figure BDA0001807949420000368
(2)对于α的每个输入值,给定CDF值
Figure BDA0001807949420000369
找到
Figure BDA00018079494200003610
中的区间索引α',使得
Figure BDA00018079494200003611
如果α'没有精确值,则可以应用简单插值
Figure BDA00018079494200003612
(3)最后,将{α}映射到{α+}
此映射可确保单调非递减属性。将此新映射表示为
Figure BDA00018079494200003613
给定输入值α和相应的最优值
Figure BDA00018079494200003614
可以应用已知的插值技术来映射所有可能的输入像素值
Figure BDA00018079494200003615
从而导出前向整形
Figure BDA00018079494200003616
在实施例中,可以使用简单低通滤波器来平滑所述LUT的元素,诸如
Figure BDA0001807949420000371
其中W表示过滤窗口参数(例如,W=8)。
所述过程总结在图7的框615中,其描绘了根据实施例的用于生成细化亮度和色度整形函数的过程的示例。在开始705,给定输入EDR和参考SDR值,生成3D直方图(参见等式(50a))。在步骤(710)中,对于每个亮度切片α,给定成本函数(f(k)(.)),其可以考虑参考SDR117-1值和来自迭代(k-1)的整形SDR值之间的差异,计算总成本(参见等式(64b)。给定每个切片的总成本和整形亮度值的亮度范围,步骤(715)计算最优整形(参见等式(65))。在步骤(720)中,CDF映射步骤保证单调非递减整形函数。最后,在步骤(725)中,给定CDF映射步骤的输出,可以应用内插和滤波函数来生成平滑亮度整形功能,可将整个范围的输入EDR亮度值映射到整形SDR值。
如前所述,给定最终亮度前向整形函数,在实施例中,编码器可以导出逆或后向亮度整形函数(例如,使用等式(24)),然后生成适当的元数据,使得解码器可以重建它。例如,可以使用n片线性或2阶非线性表示(例如,n=8)来表示反向亮度整形函数。可以将这样的元数据作为编码的整形SDR图像的一部分传送到解码器。
细化色度整形函数
如前所述,在步骤3(620)中,可以调整色度整形以考虑等式(70)的更新的亮度整形。将非零像素计数立方体表示为
Figure BDA0001807949420000372
Figure BDA0001807949420000373
内部元素的数量表示为
Figure BDA0001807949420000374
Figure BDA0001807949420000375
表示将所有u(α,β,γ)值与非零像素计数(即hv(α,β,γ)>0)组合在一起的矩阵:
Figure BDA0001807949420000376
对于3阶MMR,尺寸为
Figure BDA0001807949420000377
对于2阶MMR,尺寸为
Figure BDA0001807949420000378
可以收集非零像素计数参考
Figure BDA0001807949420000379
Figure BDA00018079494200003710
立方体作为矩阵
Figure BDA00018079494200003711
因此,令
Figure BDA0001807949420000381
表示参考SDR数据的
Figure BDA0001807949420000382
矩阵。然后,可以基于最小化失真来完成色度整形映射的细化
Figure BDA0001807949420000383
注意,立方体(α,β,γ)处存在hv(α,β,γ)像素。在实施例中,立方体(α,β,γ)处的失真可以表示为
g(k)(α,β,γ)=hv(α,β,γ)·D(k),c(α,β,γ)。 (74)
加权矩阵W(k)是具有
Figure BDA0001807949420000384
维度的对角矩阵,并具有以下形式
Figure BDA0001807949420000385
我们可以将此问题表述为加权最小二乘问题:
Figure BDA0001807949420000386
可以通过下述最小二乘解得到最优色度前向整形函数MF,(k)
Figure BDA0001807949420000387
所述过程总结在图7的框620中。给定成本函数g(k)(α,β,γ)=hv(α,β,γ)·D(k),c(α,β,γ)和适当的输入,在步骤(730)中,构造加权矩阵W(k)(参见等式(75))。然后,通过求解加权最小二乘问题导出细化色度整形函数的参数(MF,(k))(参见等式(76))。
给定最终MF,(k)参数,编码器可以生成适当的元数据,使得解码器可以基于接收的SDR图像适当地重建输出EDR图像的色度。例如,编码器可以应用等式(32至38)来生成后向色度整形矩阵
Figure BDA0001807949420000388
其可以使用适当的元数据传送到解码器。
收敛考虑
根据等式(64b),可以测量总失真为
Figure BDA0001807949420000389
在实施例中,当总成本开始增加而不是减少时,即当ET(k)>ET(k-1)时,可以认为算法已经收敛。在另一实施例中,当成本降低时,可以认为算法已经收敛,但是成本改善低于某个阈值。例如,在实施例中,当满足以下条件
Figure BDA0001807949420000391
算法会收敛,其中thr表示考虑计算资源和期望目标质量的阈值(例如thr=50%)。
亮度整形函数的快速算法
在等式(63)中,失真度量
Figure BDA0001807949420000392
表示为亮度和色度值的函数。在实施例中,为了简化处理,可以仅基于亮度值来选择失真度量。这允许基于输入的色度像素值导出亮度整形;然而,可以独立地导出色度整形函数。
考虑失真函数
Figure BDA0001807949420000393
其中,逻辑表达式:(statement)?(A):(B)表示:if(statement=True),then doA,else do B,并且w+和w-是改善饱和度控制的权重因子(例如,w+=1且w-=4)。通常,
Figure BDA0001807949420000394
的高值产生更暗但也更饱和的图像。现在考虑2D直方图,其中x轴是EDR的区间索引,y轴是SDR的区间索引。设ω和ξ表示相应的区间索引,其中0≤ω<M,0≤ξ<M。使用伪代码,可以使用以下算法生成亮度整形映射:
表1:生成亮度整形函数的快速算法
Figure BDA0001807949420000395
Figure BDA0001807949420000401
所述组
Figure BDA0001807949420000402
值对应于基于单通道加权的最优解。
所述过程总结在图8中(800)。给定输入EDR和参考SDR值(117,117-1),在步骤(810)中,构建2D直方图(参见等式(t2))。然后,对于每个区间w,重复步骤(815)、(820)和(825)。在步骤815中,计算最小和最大参考SDR值(参见等式(43))。给定这些值和成本函数(参见等式(t1)),在步骤(820)中,识别具有最小总成本的区间x((参见等式(t4至t6))。给定最优区间x,然后在步骤(825)中,可以生成区间x中的EDR值的最优映射(参见等式(t7))。如前所述,在步骤(825)生成的值可能不是单调的非递减;因此,如前所述,可能需要应用前面讨论的CDF映射(720)和滤波和内插步骤(725)以生成最终的前向亮度整形函数。
总之,就复杂性而言,从最复杂的计算到最简单的,可以应用以下联合亮度色度整形方法:
·迭代(多次通过),亮度和色度整形函数的联合导出(步骤605、610、615、620、625和630)
·亮度和色度整形函数的一次通过联合导出(步骤605、610、615、620和630)
·亮度整形函数的一次通过细化,独立导出色度整形函数(步骤605、610、615和630)
·亮度整形函数的一次通过快速算法,独立导出色度整形函数(800、610和630)
成本函数考虑
对于步骤2(615),在实施例中
Figure BDA0001807949420000411
其中θ为但不限于2、4或8。
在更简单的实施方式中,可以仅考虑亮度值,如
Figure BDA0001807949420000412
如前所述(参见等式(80)),这可以进一步修改为包括权重。在更通用的版本中,加权失真函数可以表示为:
Figure BDA0001807949420000413
一些实施例还可以基于帧或场景的整体特性,在每帧或每场景的基础上改变失真函数。
对于步骤3(620),以下成本函数已经表现出良好的结果:
Figure BDA0001807949420000414
Figure BDA0001807949420000415
示例计算机系统实现
本发明的实施例可以用计算机系统、配置在电子电路和组件中的系统、诸如微控制器的集成电路(IC)装置、现场可编程门阵列(FPGA)或其他可配置或可编程逻辑装置(PLD)、离散时间或数字信号处理器(DSP)、专用IC(ASIC)和/或包括一个或多个这样的系统、装置或组件的设备来实现。计算机和/或IC可以进行、控制或执行与具有增强动态范围的图像的自适应感知量化相关的指令,例如本文所述的那些。计算机和/或IC可以计算与本文描述的自适应感知量化过程有关的各种参数或值中的任何一个。图像和视频实施例可以以硬件、软件、固件及其各种组合来实现。
本发明的某些实现包括执行软件指令的计算机处理器,所述软件指令使处理器执行本发明的方法。例如,显示器、编码器、机顶盒、代码转换器等中的一个或多个处理器可以通过执行处理器可访问的程序存储器中的软件指令来实现与如上所述的HDR图像的自适应感知量化相关的方法。还可以以程序产品的形式提供本发明。程序产品可以包括任何非暂时性介质,其携带一组计算机可读信号,所述信号包括当由数据处理器执行时使数据处理器执行本发明的方法的指令。根据本发明的程序产品可以是各种形式中的任何一种。程序产品可以包括例如物理介质,诸如包括软盘、硬盘驱动器的磁数据存储介质,包括CD ROM、DVD的光学数据存储介质,以及包括ROM、闪存RAM等的电子数据存储介质。程序产品上的计算机可读信号可以可选地被压缩或加密。
在上面提到组件(例如,软件模块、处理器、组件、装置、电路等)的情况下,除非另有说明,否则对所述组件的引用(包括对“装置(means)”的引用)应所述被解释为包括执行所述组件的功能的任何组件的组件等同物(例如,在功能上等同的),包括在结构上不等同于在本发明的所述示例实施例中执行功能的所公开结构的组件。
根据实施例,本文描述的技术由一个或多个专用计算装置实现。专用计算装置可以是硬连线的以执行这些技术,或者可以包括数字电子装置(诸如一或多个专用集成电路(ASIC)或现场可编程门阵列(FPGA),其被持久地编程以执行技术),或者可以包括一或多个通用硬件处理器(其被编程为根据固件、存储器、其他存储器或组合中的程序指令执行技术)。这种专用计算装置还可以将定制的硬连线逻辑、ASIC或FPGA与定制编程相结合以实现这些技术。专用计算装置可以是台式计算机系统、便携式计算机系统、手持装置、网络装置或包含硬连线和/或程序逻辑以实现这些技术的任何其他装置。
例如,图5是示出可以在其上实现本发明的实施例的计算机系统500的框图。计算机系统500包括总线502或用于传递信息的其他通信机制,以及与总线502连接以处理信息的硬件处理器504。硬件处理器504可以是例如通用微处理器。
计算机系统500还包括主存储器506,例如随机存取存储器(RAM)或其他动态存储装置,连接到总线502,用于存储将由处理器504执行的信息和指令。主存储器506也可以用于在执行待由处理器504执行的指令期间存储临时变量或其他中间信息。这些指令当存储在处理器504可访问的非暂时性存储介质中时,使计算机系统500成为定制来执行指令中指定的操作的专用机器。
计算机系统500还包括只读存储器(ROM)508或连接到总线502的其他静态存储装置,用于存储处理器504的静态信息和指令。存储装置510(例如磁盘或光盘)提供并连接到总线502,用于存储信息和指令。
计算机系统500可以经由总线502连接到显示器512(例如液晶显示器),用于向计算机用户显示信息。包括字母数字键和其他键的输入装置514连接到总线502,用于将信息和命令选择传送到处理器504。另一种类型的用户输入装置是光标控制器516,例如鼠标、轨迹球或光标方向键,以将方向信息和命令选择传送到处理器504并用于控制显示器512上的光标移动。所述输入装置通常在两个轴上具有两个自由度,第一轴(例如,x)和第二轴(例如,y),从而允许装置指定平面中的位置。
计算机系统500可以使用定制的硬连线逻辑、一或多个ASIC或FPGA、固件和/或程序逻辑来实现本文所描述的技术,所述固件和/或程序逻辑与计算机系统相结合使计算机系统500成为专用机器。根据一个实施例,响应于处理器504执行包含在主存储器506中的一或多个指令的一个或多个序列,计算机系统500执行本文描述的技术。这些指令可以从另一个存储介质(例如存储装置510)读入主存储器506中。包括在主存储器506中的指令序列的执行使得处理器504执行本文描述的处理步骤。在替代实施例中,可以使用硬连线电路代替软件指令或与软件指令组合。
本文使用的术语“存储介质”是指存储使机器以特定方式操作的数据和/或指令的任何非暂时性介质。这样的存储介质可以包括非易失性介质和/或易失性介质。非易失性介质包括例如光盘或磁盘,例如存储装置510。易失性介质包括动态存储器,例如主存储器506。常见形式的存储介质包括例如软盘、柔性盘、硬盘、固态驱动器、磁带或任何其他磁数据存储介质、CD-ROM、任何其他光学数据存储介质、任何具有孔图案的物理介质、RAM、PROM和EPROM、FLASH-EPROM、NVRAM、任何其他内存芯片或盒式磁带。
存储介质不同于传输介质,但可以与传输介质结合使用。传输介质参与在存储介质之间传输信息。例如,传输介质包括同轴电缆、铜线和光纤,包括包含总线502的导线。传输介质也可以采用声波或光波的形式,例如在无线电波和红外数据通信期间产生的声波或光波。
各种形式的介质可以涉及将一或多个指令的一或多个序列传送到处理器504以供执行。例如,指令最初可以承载在远程计算机的磁盘或固态驱动器上。远程计算机可以将指令加载到其动态存储器中,并使用调制解调器通过电话线发送指令。计算机系统500本地的调制解调器可以在电话线上接收数据并使用红外发射器将数据转换成红外信号。红外检测器可以接收红外信号中携带的数据,并且适当的电路可以将数据放置在总线502上。总线502将数据传送到主存储器506,处理器504从主存储器506检索并执行指令。主存储器506接收的指令在由处理器504执行之前或之后可以可选地存储在存储装置510上。
计算机系统500还包括连接到总线502的通信接口518。通信接口518提供连接到网络链路520的双向数据通信,所述网络链路520连接到本地网络522。例如,通信接口518可以是综合业务数字网(ISDN)卡、电缆调制解调器、卫星调制解调器或调制解调器,以提供与相应类型电话线的数据通信连接。作为另一示例,通信接口518可以是局域网(LAN)卡,以提供与兼容LAN的数据通信连接。还可以实现无线链路。在任何这样的实现中,通信接口518发送和接收携带表示各种类型信息的数字数据流的电信号、电磁信号或光信号。
网络链路520通常通过一或多个网络向其他数据装置提供数据通信。例如,网络链路520可以提供通过本地网络522到主计算机524或由因特网服务提供商(ISP)526操作的数据设备的连接。ISP 526又通过全球分组数据通信网络(现在通常称为“因特网”528)提供数据通信服务。本地网络522和因特网528都使用承载数字数据流的电信号、电磁信号或光信号。通过各种网络的信号和网络链路520上的信号以及通过通信接口518的信号(其将数字数据传送到计算机系统500和从计算机系统500传送数字数据)是传输介质的示例形式。
计算机系统500可以通过网络、网络链路520和通信接口518发送消息和接收包括程序代码的数据。在因特网示例中,服务器530可以通过以下方式发送用于应用程序的请求代码:因特网528、ISP 526、本地网络522和通信接口518。
所接收的代码可以在被接收时由处理器504执行,和/或存储在存储装置510或其他非易失性存储器中以供稍后执行。
等同、扩展、替代和杂项
在前面的说明书中,已经参考许多具体细节描述了本发明的实施例,这些细节可以根据实现方式而变化。因此,作为本发明的申请人意图的本发明的唯一且排他性指示是从本申请中以这种权利要求发布的具体形式(包括任何后续的校正)发布的权利要求组。对于这些权利要求中包含的术语,本文明确阐述的任何定义应当适用于权利要求中使用的这些术语的含义。因此,权利要求中未明确记载的限制、要素、特性、特征、优点或属性不应以任何方式限制这种权利要求的范围。因此,说明书和附图应被视为说明性的而非限制性的。

Claims (17)

1.一种解码方法,其包括:
确定将高动态范围的一或多个输入图像映射到相对窄的动态范围的一或多个参考色调映射图像的色调映射函数;
基于多个第一位深度和多个第二位深度,导出用于将所述一或多个输入图像的亮度码字前向整形为所述相对窄的动态范围的一或多个前向整形图像的前向整形亮度码字的亮度前向整形函数,所述一或多个前向整形图像近似于所述一或多个参考色调映射图像;
其中所述亮度前向整形函数不同于所述色调映射函数;
其中至少部分地基于从所述一或多个输入图像的亮度码字确定的噪声水平而生成所述多个第一位深度;
其中至少部分地基于所述色调映射函数而生成所述多个第二位深度;
导出用于预测所述一或多个前向整形图像的色度码字的色度前向整形映射,所述色度前向整形映射使用所述一或多个输入图像的色度码字和所述亮度码字作为输入,所述色度前向整形映射使用所述一或多个参考色调映射图像的所述色度码字作为预测目标;
生成后向整形元数据,所述后向整形元数据将由一或多个接收方装置使用以生成亮度后向整形函数和色度后向整形映射;
将所述一或多个前向整形图像及所述后向整形元数据发送到所述一或多个接收方装置。
2.根据权利要求1所述的方法,其中,基于所述噪声水平在多个码字区间中确定所述多个第一位深度,并且其中,所述多个码字区间覆盖所述高动态范围。
3.根据权利要求1所述的方法,其中,基于所述色调映射函数在多个码字区间中确定所述多个第二位深度,并且其中,所述多个码字区间覆盖所述高动态范围。
4.根据权利要求1所述的方法,其中,通过优化成本函数来导出所述色度前向整形映射,所述成本函数构造为以所述一或多个输入图像的所述色度码字和所述亮度码字作为所述输入且以所述一或多个参考色调映射图像的所述色度码字作为所述预测目标。
5.根据权利要求1所述的方法,其中,所述一或多个前向整形图像被编码在所述相对窄的动态范围的视频信号中,并且其中,所述后向整形元数据作为与所述一或多个前向整形图像分离的元数据被携带在所述视频信号中。
6.根据权利要求5所述的方法,其中,所述视频信号排除所述一或多个输入图像或所述一或多个参考色调映射图像中的一者或两者。
7.根据权利要求1所述的方法,其还包括:在将所述一或多个输入图像的所述亮度码字用作用于导出所述色度前向整形映射的所述输入的一部分之前,对所述一或多个输入图像的所述亮度码字进行下采样。
8.根据权利要求1所述的方法,其中,所述一或多个输入图像在与所述一或多个参考色调映射图像被表示的颜色空间不同的颜色空间中表示。
9.根据权利要求1所述的方法,其中,所述一或多个输入图像以与所述一或多个参考色调映射图像被格式化的采样格式不同的采样格式被格式化。
10.根据权利要求1所述的方法,其中,所述一或多个输入图像或所述一或多个参考色调映射图像中的至少一个在以下之一中表示:IPT PQ(ICtCp)颜色空间、YCbCr颜色空间、RGB颜色空间、Rec.2020颜色空间、Rec.709颜色空间、扩展动态范围EDR颜色空间、伽玛/HLG/PQ颜色空间,或标准动态范围SDR颜色空间。
11.根据权利要求1所述的方法,其中,基于多个第三位深度构造所述亮度前向整形函数;其中,基于所述多个第一位深度和所述多个第二位深度导出所述多个第三位深度;其中,所述多个第三位深度中的每一个第三位深度对应于所述多个第一位深度中相应的第一位深度和所述多个第二位深度中相应的第二位深度;并且其中,所述多个第三位深度中的每一个第三位深度不小于所述多个第一位深度中相应的第一位深度并且不大于所述多个第二位深度中相应的第二位深度。
12.根据权利要求1所述的方法,其中,生成所述色度后向整形映射,用于预测近似于所述一或多个输入图像的一或多个后向整形图像的色度码字,所述色度后向整形映射使用所述一或多个前向整形图像的所述色度码字和所述亮度码字作为输入,所述色度后向整形映射使用所述一或多个输入图像的所述色度码字作为预测目标。
13.根据权利要求1所述的方法,其还包括:
将用于控制颜色饱和度的缩放因子应用于所述一或多个参考色调映射图像的所述色度码字;
在已经应用所述缩放因子之后,至少部分地基于所述一或多个参考色调映射图像的所述色度码字生成色度前向整形函数。
14.根据权利要求1所述的方法,其还包括:
确定色度前向整形成本函数和色度后向整形成本函数,两者都取决于缩放因子,所述色度前向整形成本函数用于生成所述色度前向整形映射,所述色度后向整形成本函数用于生成所述色度后向整形映射;
搜索所述缩放因子的最优值,所述最优值使得至少部分地基于所述色度后向整形映射而生成的一或多个重建图像和所述一或多个输入图像之间的失真最小化。
15.一种计算机系统,其被配置为执行权利要求1至14中任一项所述的方法。
16.一种计算机设备,其包括处理器并且被配置为执行权利要求1至14中任一项所述的方法。
17.一种非暂时性计算机可读存储介质,其上存储有用于通过一或多个处理器执行根据权利要求1至14中任一项所述的方法的计算机可执行指令。
CN201780019214.5A 2016-03-23 2017-03-22 编码和解码可逆制作质量单层视频信号 Active CN108885783B (zh)

Applications Claiming Priority (5)

Application Number Priority Date Filing Date Title
US201662312450P 2016-03-23 2016-03-23
US62/312,450 2016-03-23
US201662427532P 2016-11-29 2016-11-29
US62/427,532 2016-11-29
PCT/US2017/023543 WO2017165494A2 (en) 2016-03-23 2017-03-22 Encoding and decoding reversible production-quality single-layer video signals

Publications (2)

Publication Number Publication Date
CN108885783A CN108885783A (zh) 2018-11-23
CN108885783B true CN108885783B (zh) 2022-02-15

Family

ID=58489085

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201780019214.5A Active CN108885783B (zh) 2016-03-23 2017-03-22 编码和解码可逆制作质量单层视频信号

Country Status (5)

Country Link
US (1) US10701375B2 (zh)
EP (1) EP3433833B1 (zh)
CN (1) CN108885783B (zh)
HK (1) HK1257716A1 (zh)
WO (1) WO2017165494A2 (zh)

Families Citing this family (38)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10595099B2 (en) * 2015-04-05 2020-03-17 Lg Electronics Inc. Method and device for transmitting and receiving broadcast signal for broadcast service on basis of XML subtitle
US10645403B2 (en) 2016-05-19 2020-05-05 Dolby Laboratories Licensing Corporation Chroma reshaping for high dynamic range images
GB201611253D0 (en) 2016-06-29 2016-08-10 Dolby Laboratories Licensing Corp Efficient Histogram-based luma look matching
JP6771656B2 (ja) 2016-08-30 2020-10-21 ドルビー ラボラトリーズ ライセンシング コーポレイション シングルレイヤー後方互換性コーデックのリアルタイム再構成
US10264287B2 (en) 2016-10-05 2019-04-16 Dolby Laboratories Licensing Corporation Inverse luma/chroma mappings with histogram transfer and approximation
CN107995497B (zh) 2016-10-26 2021-05-28 杜比实验室特许公司 高动态范围视频的屏幕自适应解码
CN110770787B (zh) 2017-06-16 2023-04-07 杜比实验室特许公司 高效端到端单层逆向显示管理编码
US10609372B2 (en) 2017-09-29 2020-03-31 Dolby Laboratories Licensing Corporation Up-conversion to content adaptive perceptual quantization video signals
JP6732716B2 (ja) * 2017-10-25 2020-07-29 株式会社ソニー・インタラクティブエンタテインメント 画像生成装置、画像生成システム、画像生成方法、およびプログラム
BR112020016821B1 (pt) * 2018-02-28 2022-08-09 Dolby Laboratories Licensing Corporation Método de geração de metadados de remodelagem de luma e croma com um sistema de processamento, meio legível por máquina e sistema de gerenciamento de exibição
US10609424B2 (en) 2018-03-09 2020-03-31 Dolby Laboratories Licensing Corporation Single-layer progressive coding for supporting multi-capability HDR composition
US11277627B2 (en) 2018-05-11 2022-03-15 Dolby Laboratories Licensing Corporation High-fidelity full reference and high-efficiency reduced reference encoding in end-to-end single-layer backward compatible encoding pipeline
US11361410B2 (en) 2018-09-24 2022-06-14 Dolby Laboratories Licensing Corporation Image denoising in SDR to HDR image conversion
US11277646B2 (en) 2018-10-03 2022-03-15 Dolby Laboratories Licensing Corporation Reducing banding artifacts in backward-compatible HDR imaging
JP7094451B2 (ja) * 2018-12-03 2022-07-01 ドルビー ラボラトリーズ ライセンシング コーポレイション 再構成関数の補間
KR20240005124A (ko) 2019-02-01 2024-01-11 베이징 바이트댄스 네트워크 테크놀로지 컴퍼니, 리미티드 파라미터 세트들을 사용한 인-루프 재성형 정보의 시그널링
CN113994668A (zh) 2019-02-01 2022-01-28 北京字节跳动网络技术有限公司 基于环路整形的滤波过程
KR102639936B1 (ko) * 2019-03-08 2024-02-22 베이징 바이트댄스 네트워크 테크놀로지 컴퍼니, 리미티드 비디오 처리에서 모델-기반 변형에 대한 제약들
CN117499644A (zh) 2019-03-14 2024-02-02 北京字节跳动网络技术有限公司 环路整形信息的信令和语法
KR20210139272A (ko) 2019-03-23 2021-11-22 베이징 바이트댄스 네트워크 테크놀로지 컴퍼니, 리미티드 적응적 루프 필터링 파라미터 세트들에 대한 제한들
CN117528068A (zh) 2019-04-18 2024-02-06 北京字节跳动网络技术有限公司 视频编解码中的跨分量模式中的选择性使用
JP7317991B2 (ja) * 2019-04-23 2023-07-31 北京字節跳動網絡技術有限公司 クロスコンポーネント依存性を低減するための方法
WO2020232069A1 (en) * 2019-05-15 2020-11-19 Northeastern University Video 2d multi-person pose estimation using multi-frame refinement and optimization
EP3973707A4 (en) 2019-06-22 2022-08-31 Beijing Bytedance Network Technology Co., Ltd. CHROMA REST SCALE SYNTAX ELEMENT
US11368693B2 (en) * 2019-07-01 2022-06-21 Sony Group Corporation Forward and inverse quantization for point cloud compression using look-up tables
JP7460748B2 (ja) 2019-07-07 2024-04-02 北京字節跳動網絡技術有限公司 クロマ残差スケーリングのシグナリング
US11818400B2 (en) * 2019-10-17 2023-11-14 Dolby Laboratories Licensing Corporation Adjustable trade-off between quality and computation complexity in video codecs
JP7391214B2 (ja) * 2019-11-27 2023-12-04 ドルビー ラボラトリーズ ライセンシング コーポレイション Hdr画像化におけるレート制御認識リシェーピング
US12003746B2 (en) * 2020-02-19 2024-06-04 Dolby Laboratories Licensing Corporation Joint forward and backward neural network optimization in image processing
CN115362675A (zh) * 2020-04-03 2022-11-18 杜比实验室特许公司 Hdr成像中的盲局部整形
WO2021216607A1 (en) 2020-04-21 2021-10-28 Dolby Laboratories Licensing Corporation Reshaping functions for hdr imaging with continuity and reversibility constraints
KR102551197B1 (ko) * 2020-04-22 2023-07-05 돌비 레버러토리즈 라이쎈싱 코오포레이션 단일-층 hdr 이미지 코덱에서 재성형 함수들의 반복적 최적화
JP7434664B2 (ja) 2020-08-06 2024-02-20 ドルビー ラボラトリーズ ライセンシング コーポレイション 擬似輪郭低減による適応ストリーミング
US20240171775A1 (en) 2021-05-21 2024-05-23 Dolby Laboratories Licensing Corporation Patch-based reshaping and metadata for volumetric video
WO2022256205A1 (en) * 2021-06-01 2022-12-08 Dolby Laboratories Licensing Corporation Rotation-enabled high dynamic range video encoding
EP4352964A1 (en) 2021-06-08 2024-04-17 Dolby Laboratories Licensing Corporation Chained reshaping function optimization
WO2023022956A1 (en) 2021-08-16 2023-02-23 Dolby Laboratories Licensing Corporation Applying minimum and average distance constraint in video streaming
WO2023215108A1 (en) 2022-05-05 2023-11-09 Dolby Laboratories Licensing Corporation Stereoscopic high dynamic range video

Family Cites Families (20)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8218625B2 (en) * 2004-04-23 2012-07-10 Dolby Laboratories Licensing Corporation Encoding, decoding and representing high dynamic range images
CN101371583B (zh) * 2006-01-23 2012-03-21 马普科技促进协会 编码/解码高动态范围图像的方法和设备
US8339475B2 (en) * 2008-12-19 2012-12-25 Qualcomm Incorporated High dynamic range image combining
CN101482690B (zh) * 2009-01-05 2010-11-10 清华大学 多投影仪组合显示的自适应模板大屏幕亮度校正方法
TWI479898B (zh) 2010-08-25 2015-04-01 Dolby Lab Licensing Corp 擴展影像動態範圍
CN102595127B (zh) * 2011-01-14 2015-11-25 索尼公司 用于hevc的帧内色度模式信令的码字空间缩减
US10080016B2 (en) * 2011-01-14 2018-09-18 Sony Corporation Codeword space reduction for intra chroma mode signaling for HEVC
WO2012142506A1 (en) * 2011-04-14 2012-10-18 Dolby Laboratories Licensing Corporation Image prediction based on primary color grading model
US8971408B2 (en) * 2011-04-14 2015-03-03 Dolby Laboratories Licensing Corporation Piecewise cross color channel predictor
CN107105229B9 (zh) * 2011-04-14 2020-03-31 杜比实验室特许公司 图像解码方法、视频解码器和非暂态计算机可读存储介质
CN103535038B (zh) 2011-05-16 2017-10-13 杜比实验室特许公司 用于分层vdr编码的有效架构
TWI575933B (zh) 2011-11-04 2017-03-21 杜比實驗室特許公司 階層式視覺動態範圍編碼中之層分解技術
BR112014008513B1 (pt) * 2012-08-08 2021-08-17 Dolby Laboratories Licensing Corporation Método para codificar uma imagem hdr, dispositivo de circuito integrado e meio de armazenamento legível por processador não transitório
US9628808B2 (en) 2013-03-26 2017-04-18 Dolby Laboratories Licensing Corporation Encoding perceptually-quantized video content in multi-layer VDR coding
WO2014204865A1 (en) 2013-06-17 2014-12-24 Dolby Laboratories Licensing Corporation Adaptive reshaping for layered coding of enhanced dynamic range signals
JP6302600B2 (ja) 2014-09-26 2018-03-28 ドルビー ラボラトリーズ ライセンシング コーポレイション 知覚的量子化されたビデオコンテンツの符号化および復号化
US10419762B2 (en) 2015-03-02 2019-09-17 Dolby Laboratories Licensing Corporation Content-adaptive perceptual quantizer for high dynamic range images
WO2016153896A1 (en) 2015-03-20 2016-09-29 Dolby Laboratories Licensing Corporation Signal reshaping approximation
US10701359B2 (en) 2015-06-30 2020-06-30 Dolby Laboratories Licensing Corporation Real-time content-adaptive perceptual quantizer for high dynamic range images
US10778978B2 (en) * 2017-08-21 2020-09-15 Qualcomm Incorporated System and method of cross-component dynamic range adjustment (CC-DRA) in video coding

Also Published As

Publication number Publication date
WO2017165494A3 (en) 2017-11-30
EP3433833B1 (en) 2021-07-07
CN108885783A (zh) 2018-11-23
HK1257716A1 (zh) 2019-10-25
WO2017165494A2 (en) 2017-09-28
US10701375B2 (en) 2020-06-30
US20190110054A1 (en) 2019-04-11
EP3433833A2 (en) 2019-01-30

Similar Documents

Publication Publication Date Title
CN108885783B (zh) 编码和解码可逆制作质量单层视频信号
CN109416832B (zh) 高效的基于直方图的亮度外观匹配
CN107995497B (zh) 高动态范围视频的屏幕自适应解码
US10419762B2 (en) Content-adaptive perceptual quantizer for high dynamic range images
CN107771392B (zh) 用于高动态范围图像的实时内容自适应感知量化器
US10311558B2 (en) Efficient image processing on content-adaptive PQ signal domain
WO2020061172A1 (en) Automatic display management metadata generation for gaming and/or sdr+ contents
JP2023544583A (ja) Sdrからhdrへのアップコンバートのための適応的ローカルリシェーピング
CN110770787B (zh) 高效端到端单层逆向显示管理编码
TWI812874B (zh) 張量乘積之b平滑曲線預測子
CN113170205A (zh) 整形函数的插值
JP7439251B2 (ja) ビデオコーデックにおける品質と計算の複雑さとの間の調整可能なトレードオフ
CN115152212A (zh) 图像处理中的联合前向和后向神经网络优化
US11895416B2 (en) Electro-optical transfer function conversion and signal legalization
CN114830640A (zh) 级联预测

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
REG Reference to a national code

Ref country code: HK

Ref legal event code: DE

Ref document number: 1257716

Country of ref document: HK

GR01 Patent grant
GR01 Patent grant