CN110178374B - 用于对高动态范围视频进行编码的基于段的整形 - Google Patents

用于对高动态范围视频进行编码的基于段的整形 Download PDF

Info

Publication number
CN110178374B
CN110178374B CN201880006533.7A CN201880006533A CN110178374B CN 110178374 B CN110178374 B CN 110178374B CN 201880006533 A CN201880006533 A CN 201880006533A CN 110178374 B CN110178374 B CN 110178374B
Authority
CN
China
Prior art keywords
frame
segment
frames
dynamic range
input video
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201880006533.7A
Other languages
English (en)
Other versions
CN110178374A (zh
Inventor
N·J·加德吉尔
李宜真
陈倩
苏冠铭
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Dolby Laboratories Licensing Corp
Original Assignee
Dolby Laboratories Licensing Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Dolby Laboratories Licensing Corp filed Critical Dolby Laboratories Licensing Corp
Priority claimed from PCT/US2018/013904 external-priority patent/WO2018136432A1/en
Publication of CN110178374A publication Critical patent/CN110178374A/zh
Application granted granted Critical
Publication of CN110178374B publication Critical patent/CN110178374B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/10Segmentation; Edge detection
    • G06T7/11Region-based segmentation
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/90Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using coding techniques not provided for in groups H04N19/10-H04N19/85, e.g. fractals
    • H04N19/98Adaptive-dynamic-range coding [ADRC]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T3/00Geometric image transformations in the plane of the image
    • G06T3/40Scaling of whole images or parts thereof, e.g. expanding or contracting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T5/00Image enhancement or restoration
    • G06T5/40Image enhancement or restoration using histogram techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T5/00Image enhancement or restoration
    • G06T5/50Image enhancement or restoration using two or more images, e.g. averaging or subtraction
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T5/00Image enhancement or restoration
    • G06T5/90Dynamic range modification of images or parts thereof
    • G06T5/92Dynamic range modification of images or parts thereof based on global image properties
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/10Segmentation; Edge detection
    • G06T7/136Segmentation; Edge detection involving thresholding
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/10Segmentation; Edge detection
    • G06T7/143Segmentation; Edge detection involving probabilistic approaches, e.g. Markov random field [MRF] modelling
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/10Segmentation; Edge detection
    • G06T7/174Segmentation; Edge detection involving the use of two or more images
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/50Depth or shape recovery
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T9/00Image coding
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/169Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding
    • H04N19/186Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding the unit being a colour or a chrominance component
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/30Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using hierarchical techniques, e.g. scalability
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/85Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using pre-processing or post-processing specially adapted for video compression
    • H04N19/87Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using pre-processing or post-processing specially adapted for video compression involving scene cut or scene change detection in combination with video compression

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Probability & Statistics with Applications (AREA)
  • Software Systems (AREA)
  • Compression Or Coding Systems Of Tv Signals (AREA)
  • Two-Way Televisions, Distribution Of Moving Picture Or The Like (AREA)

Abstract

在给定了标准动态范围(SDR)视频输入的情况下,描述了用于生成和压缩合成器元数据的技术,该合成器元数据描述逆向亮度和色度整形函数。在给定了SDR输入的情况下,所述合成器元数据允许解码器以高动态范围生成相应的输出。提出了三种技术:静态的基于序列的架构;使用集中式后处理方法的两级基于场景的分布式解决方案;以及使用重叠段的单级分布式解决方案。还描述了减少所传输的合成器元数据量的技术。

Description

用于对高动态范围视频进行编码的基于段的整形
相关申请的交叉引用
本申请要求均于2017年1月18日提交的美国临时专利申请62/447,517和欧洲专利申请17152004.2的优先权权益,并且每个专利申请通过引用并入。
技术领域
本发明总体上涉及图像。更具体地,本发明的实施例涉及使用基于段的整形对具有高动态范围的视频信号进行编码。
背景技术
如本文所使用的,术语“动态范围(DR)”可以涉及人类视觉系统(HVS)感知图像中的强度(例如光亮度(luminance)、亮度(luma))范围的能力,该强度范围例如是从最暗的灰色(黑色)到最亮的白色(高光)。从这个意义上说,DR与“参考场景的(scene-referred)”强度有关。DR还可以涉及显示设备充分或近似呈现特定阔度(breadth)的强度范围的能力。从这个意义上说,DR与“参考显示的(display-referred)”强度有关。除非在本文的描述中的任何一点明确指定特定的意义具有特定的意思,否则应该推断为所述术语可以在任一意义上例如可互换地使用。
如本文所使用的,术语“高动态范围(HDR)”涉及跨越人类视觉系统(HVS)的大约14至15个数量级的DR阔度。在实践中,相对于HDR,人类可以同时感知强度范围中广泛阔度的DR可能会被稍微截短。如本文所使用的,术语“增强动态范围(EDR)或视觉动态范围(VDR)”可以单个地或可互换地与这样的DR相关:所述DR可在场景或图像内由包括眼运动的人类视觉系统(HVS)感知,允许场景或图像上的一些光适性变化。如本文所使用的,EDR可以涉及跨越5到6个数量级的DR。因此,虽然相对于真实场景参考的HDR可能稍微窄一些,但EDR表示宽DR阔度并且还可以被称为HDR。
实际上,图像包括一个或多个颜色分量(例如,亮度Y以及色度Cb和Cr),其中每个颜色分量由每像素n位的精度表示(例如,n=8)。使用线性光亮度编码,其中n≤8的图像(例如,彩色24位JPEG图像)被视为标准动态范围的图像,而其中n>8的图像可被视为增强动态范围的图像。EDR和HDR图像也可以使用高精度(例如,16位)浮点格式来存储和分布,诸如由工业光魔公司(Industrial Light and Magic)开发的OpenEXR文件格式。
给定显示器的参考电光传递函数(EOTF)表征输入视频信号的颜色值(例如,光亮度)与由显示器产生的输出屏幕颜色值(例如,屏幕光亮度)之间的关系。例如,在参考文献[1]中,ITU Rec.BT,1886年,基于阴极射线管(CRT)的测量特性限定了平板显示器的参考EOTF。在给定了视频流的情况下,关于其EOTF的信息通常作为元数据嵌入比特流中。如本文所使用的,术语“元数据”涉及作为编码比特流的一部分传输并且辅助解码器呈现解码图像的任何辅助信息。这样的元数据可以包括但不限于如本文所描述的颜色空间或色域信息、参考显示器参数和辅助信号参数。
大多数消费类桌面显示器目前支持200到300cd/m2或尼特的光亮度。大多数消费类HDTV的范围从300到500尼特,其中新型号达到1000尼特(cd/m2)。因此这样的传统显示器代表了与HDR或EDR相关的较低动态范围(LDR),也被称为标准动态范围(SDR)。随着HDR内容的可用性由于捕获设备(例如,相机)和HDR显示器(例如,杜比实验室的PRM-4200专业参考监视器)二者的发展而增加,HDR内容可以被颜色分级并被显示在支持更高动态范围(例如,从1,000尼特到5,000尼特或更高)的HDR显示器上。这种显示器可以使用支持高光亮度能力(例如,0到10,000尼特)的替代EOTF来限定。在SMPTE ST 2084:2014(参考文献[2])中定义了这种EOTF的示例。总体上,非限制性地,本公开的方法涉及高于SDR的任何动态范围。
如本文所使用的,术语“整形(reshaping)”是指对HDR图像进行预处理操作(诸如,缩放、量化等),以将其从其原始位深映射到相同或较低位深的图像,从而允许使用现有编码标准和设备进行更加高效的编码。可以使用元数据将由编码器使用的“后向或逆向整形(Backward or Inverse reshaping)”参数作为编码比特流的一部分传送至接收器,使得兼容解码器可以应用“后向或逆向整形”操作来以其全动态范围重建原始信号。可以将整形应用于HDR信号的颜色分量中的任何一个或全部。在一些实施例中,为了在解码图像上保留原件的艺术意图,整形也可能受到要求的约束,例如,就颜色或“外观”的准确性而言,如在导演的监督下由着色师指定的那样。
现有整形技术通常是基于场景的。如本文所使用的,对于视频序列(帧/图像的序列),术语“场景(scene)”可以涉及共享相似光亮度、颜色和动态范围特性的视频序列中的一系列连续帧。基于场景的方法在访问整个场景的视频工作流流水线(workflowpipeline)中工作良好;然而,内容提供商使用基于云的多重处理并不罕见,其中,在将视频流划分成多个段之后,每个段由云中的单个计算节点独立地处理。如本文所使用的,术语“段(segment)”表示视频序列中的一系列连续帧。段可以是场景的一部分或其可以包括一个或多个场景。因此,场景的处理可以分跨多个处理器。为了改进现有编码方案,如在此由发明者理解的,开发了用于HDR视频的基于段的整形的改进技术。
在这一部分中描述的方法是可以追寻的方法,但不一定是之前已经设想到或追寻的方法。因此,除非另有指明,否则不应认为本节中所述的任何方法仅凭其纳入本节就可称为现有技术。类似地,除非另有指明,否则关于一种或多种方法所认定的问题不应基于本节而认为在任何现有技术中被认定。
附图说明
在附图中以举例而非限制的方式来展示本发明的实施例,并且其中相同的附图标记指代相似的元件,并且在附图中:
图1描绘了根据本发明的实施例的用于使用整形技术进行数据编码和解码的示例过程;
图2描绘了根据本发明的实施例的后向亮度整形函数的示例;
图3描绘了根据本发明的实施例的两级分布式整形过程的示例;
图4描绘了根据本发明的实施例的单级分布式整形过程的示例;
图5描绘了根据本发明的实施例的用于基于段的整形的扩展段结构的示例;
图6A描绘了根据本发明的实施例的用于确定合成器元数据簇的示例过程;并且
图6B描绘了根据图6A中描绘的过程的确定合成器元数据簇的示例。
具体实施方式
本文描述了用于高动态范围(HDR)图像的基于段的整形技术。在以下说明中,出于解释的目的,阐述了许多具体细节以便提供对本发明的透彻理解。然而,显而易见的是,可以在没有这些具体细节的情况下实施本发明。在其他情形中,没有详尽地描述众所周知的结构和设备,以便避免不必要的遮蔽、模糊或混淆本发明。
概述
本文描述的示例实施例涉及生成从编码器传输到解码器的合成器元数据,以用于基于所接收的SDR图像在解码器中构建HDR图像。在第一实施例中,处理器访问第一动态范围(例如,SDR)中的代表性输入视频剪辑的数据库,并且将代表性输入视频剪辑转换为高于第一动态范围的第二动态范围(例如,EDR或HDR)中的输出剪辑。处理器基于输入视频剪辑的帧来计算第一动态范围中的光亮度像素值的第一直方图,并且基于输出视频剪辑的帧来计算第二动态范围中的光亮度像素值的第二直方图。处理器基于第一直方图来计算第一动态范围中的亮度像素值的第一亮度累积分布函数(CDF),并且基于第二直方图来计算第二动态范围中的光亮度像素值的第二亮度CDF。处理器基于第一CDF和第二CDF来计算亮度映射,以用于将第一动态范围中的像素的光亮度值映射到第二动态范围中。基于从输入视频数据和输出视频数据收集的统计数据以及色度预测模型,处理器计算用于将第一动态范围中的像素值的色度值映射到第二动态范围中的色度值中的色度映射。然后,处理器基于亮度映射和色度映射为在第一动态范围中的要编码的所有帧生成静态合成器元数据。
在第二实施例中,处理器接收第一动态范围中的输入视频信号,并将其划分成多个段。将每个段分配给单独的节点处理器。节点处理器将在其段中的输入视频信号的每个帧转换成第二动态范围中的第二视频信号的相应帧,其中,第二动态范围高于第一动态范围。节点处理器基于在其段中的输入视频帧和第二视频帧生成统计数据。节点处理器采集在其段中的输入视频帧中的帧的场景剪切信息。在后处理器中,后处理器基于来自一个或多个段的场景剪切信息来识别场景边界。后处理器基于场景边界内的所有帧的所生成统计信息来生成更新的统计信息,并且a)基于更新的统计信息来确定用于将场景边界内的帧的光亮度值从第一动态范围映射到第二动态范围中的亮度映射,以及b)基于所述更新的统计信息来确定用于将场景边界内的帧的色度值从第一动态范围映射到第二动态范围中的色度映射。然后,后处理器基于亮度映射和色度映射为场景边界内的帧生成合成器元数据。
在第三实施例中,处理器接收第一动态范围中的输入视频信号并且将其划分成多个段,其中,每个段包括主帧(510)和次级(填充(padded))帧,其中,对于两个连续段,所述段之一的填充帧与另一段的主帧重叠。由节点处理器来处理每个段。节点处理器将在其段中的输入视频信号的每个主帧和填充帧转换成第二动态范围(417)中的第二视频信号的相应主帧和填充帧,其中,第二动态范围高于第一动态范围。节点处理器基于在其段中的输入视频帧和第二视频帧来收集统计数据(420),并且采集在其段中的输入视频帧的帧的场景剪切信息(425)。节点处理器生成了包括在其段中的主帧和在其段中的填充帧的第一部分的输入视频的第一子段,然后,对于输入视频的第一子段中的每个帧(430):a)节点处理器基于以第一子段的帧为中心且基于段中的场景剪切而调整的第一滑动窗口来计算经平滑化的统计数据的第一支持帧集(530);并且b)基于统计数据和第一支持帧集来确定用于将第一子段中的帧的光亮度值从第一动态范围映射到第二动态范围中的第一亮度映射。接下来,对于输入视频的段中的每一个主帧(435),节点处理器:a)基于以主帧为中心且基于段中的场景剪切而调整的第二滑动窗口来计算经平滑化的第一亮度映射的第二支持帧集(545);b)基于第一映射和第二支持帧集来确定用于将主帧的光亮度值从第一动态范围映射到第二动态范围中的第二亮度映射;并且c)基于统计数据和第二支持帧集来确定用于将主帧的色度值从第一动态范围映射到第二动态范围中的色度值中的色度映射。然后,节点处理器基于第二亮度映射和色度映射为段中的帧生成合成器元数据。
示例视频传输处理流水线
信号整形
目前,用于视频传输的大多数数字接口(诸如,串行数字接口(SDI))限于每部件每像素12位。此外,压缩标准(诸如H.264(或AVC)和H.265(或HEVC))的大多数实际实施方式限于每分量每像素10位。因此,在现有基础设施和压缩标准内,需要高效编码和/或量化来支持动态范围从大约0.001到10,000cd/m2(或尼特)的HDR内容。
图1描绘了根据本发明的实施例的用于使用亮度和色度整形进行数据编码(100-E)和解码(100-D)的示例过程(100)。在编码器(100-E)中,可以以高动态范围(EDR,102)格式和标准动态范围(SDR,104)格式两者获得视频序列。在实施例中,可以基于SDR序列使用逆映射过程(iDM)(140)来生成EDR序列(本文也称为iDM EDR)。在参考文献[4]和参考文献[5]中给出了这种映射过程的示例。可以根据某一EOTF(例如,伽马、ST 2084等)对输入(102)进行编码。
在给定了输入EDR和SDR信号的情况下,可以应用如在本文将描述的亮度整形(105-A)和色度整形(105-B)过程来生成后向或逆向整形函数(120)的参数(108),所述整形函数当应用于解码器中的SDR输入时将生成EDR输入(102)。
在整形(105)之后,将原始输入SDR视频信号(104)传递至编码块(110),以便向下游传输到诸如电视机、机顶盒、电影院等解码和回放设备。在一些实施例中,编码块(110)可以包括诸如由ATSC、DVB、DVD、蓝光和其他传输格式定义的那些音频编码器和视频编码器,以生成编码比特流(112)。将编码数据(112)和后向整形参数(108)复用到待存储或传输至解码设备的编码比特流中。
在接收器(100-D)中,编码数据(112)由解码单元(115)解码,以生成表示SDR信号(104)的相同或接近近似的解码信号(117)。
在后向兼容SDR解码器中,可以将解码信号(117)直接显示到SDR显示器(130)。在HDR解码器中,在解码(115)之后,解码信号(117)可以由使用所接收的后向整形参数(108)生成的后向或逆向整形函数(120)来处理。逆向整形将所接收的SDR信号转换成近似的(较高)动态范围信号(102),以在HDR显示器(125)上显示。逆向整形可以包括单独的逆向亮度整形(120-A)和色度整形(120-B)。取决于整形器(105)的变换,逆向整形(120)还可以包括附加(逆向)过程,诸如,逆色调映射、颜色变换等。在一些实施例中,可以将后向或逆向整形函数(120)与解码器(115)中的去量化器集成,例如作为AVC或HEVC视频解码器中的去量化器的一部分。在一些实施例中,可以使用元数据、SEI消息等将关于后向整形参数(108)的信息传送至下游设备(比如解码器)。亮度和色度整形以及合成器元数据
如本文所使用的,术语“合成器元数据(composer metadata)”(CM)表示从编码器(100-E)传送至解码器(100-D)以支持EDR数据(122)的重建(合成)的任何元数据。这种元数据包括在解码器中进行逆向或后向整形(120)所需的所有后向整形参数(108)。
令fL(I)表示正向亮度整形函数并且令表示正向亮度整形函数的逆,所述正向亮度整形函数的逆当应用于解码器SDR数据(117)的亮度分量时,生成估计EDR输出(122)的亮度分量(122_L)。在实施例中,/>函数可以作为分段函数进行传送。这种函数可以完全由以下各项表示:a)将SDR输入中的输入码字的范围划分成多个段的一组枢轴点(pivoting point);b)在每个段中的多项式的阶数;以及c)每个段中的多项式系数。
在实施例中,可以使用多变量多元回归(MMR)预测器来执行色度整形。这种MMR预测器的示例可以在美国专利8,811,490(参考文献[3])中找到。这种预测器由后向整形矩阵M来表征,所述后向整形矩阵当应用于解码SDR数据(117)时生成估计EDR输出的色度分量(122_C)。
因此,非限制性地,在实施例中,合成器元数据(108)可以包括的参数化表示和后向整形矩阵M。可以以不同的时间间隔水平来更新合成器元数据,诸如:每个序列一次、每个场景一次、每个帧一次、或者多簇帧或多组帧一次。为每个帧生成合成器元数据可以提高整体视频质量,但是需要编码器上更高的计算资源并且增加总比特率的开销。在本发明中,呈现了用于生成合成器元数据的三种不同技术,每一种技术处理不同的权衡。所述方法为:
·静态亮度和色度整形架构。这种方法适用于具有非常有限的计算资源并且对合成器元数据具有最小开销的环境。
·使用集中式后处理方法的两级分布式解决方案。这种方法为合成器元数据提供了较低开销并且最适用于具有非常强大后处理节点的基于并行计算的环境。
·使用重叠帧段的单级分布式解决方案。这个方法为合成器元数据提供了适度开销,所述开销可以使用新颖CM压缩技术来进一步降低。
接下来将更详细地讨论这些方法中的每一个。
静态整形架构
在静态合成方法的情况下,合成器元数据总是相同的(固定的)。在给定了代表性SDR参考剪辑的数据库的情况下,可以使用任何可用的逆映射技术(140)来生成相应的一组EDR图片。然后,基于这对SDR/EDR数据,可以生成一组固定的合成器元数据。
对于亮度整形,在实施例中,可以使用基于将SDR/EDR对的累积分布函数(CDF)进行匹配的方法(参考文献[6])来生成亮度整形函数。
和/>表示SDR数据中第j个帧处的第i个像素值的颜色分量,其中,y表示光亮度(例如,YCbCr中的Y)并且c0、c1表示色度(例如,YCbCr中的Cb和Cr)。令/>和/>表示逆DM(iDM)EDR数据中的第j个帧处的相应第i个像素值的颜色分量。将每个帧中的像素数量表示为P。令SDR信号中的位深表示为SDR_位深,并且令EDR信号中的位深表示为EDR_位深,然后分别通过NS=2SDR_位深和NV=2EDR_位深给出所有可能SDR和EDR值的数量。
如在参考文献[6]中描述的,基于CDF的亮度整形将SDR值映射到EDR值,使得其相应的累积密度函数相匹配。为了实现这一点,通常需要以下计算:
·可选地,为了减少计算负荷,将输入SDR码字划分成具有相等间隔wb(例如,对于16位输入数据,wb=65,536/M)的M个非重叠仓(例如,M=16、32或64),以覆盖整个归一化动态范围(例如,(0,1])。将SDR和EDR中的仓的数量分别表示为MS和MV,并且将相应间隔表示为wbS和wbV
·计算SDR和iDM EDR输入两者的光亮度值的直方图
·使用直方图来计算SDR和iDM EDR输入两者的归一化(例如,在[0,1]中)的CDF(例如,)
·应用CDF映射;对于每个SDR样本点,找出其CDF值并且然后识别其CDF覆盖SDRCDF值的EDR值。令这个映射表示为例如,对于k,使得/>
即,将仓中的所有SDR值(或值)b映射到EDR值
·在给定的一组值的情况下,可以对其值进行剪辑和平滑化,使得能够通过分段表示来更好地表示它们,从而生成最终映射Tb
附录A以伪代码提供了以上描述的步骤的示例实施方式。图2描绘了根据使用上文并且在附录A中描述的步骤的实施例的用于8位SDR输入值的示例SDR到EDR整形函数。
令SDR域中的像素表示为向量
在给定了MMR预测模型的情况下,可以基于sji中分量值的组合来构建相应的MMR多项式向量例如,在实施例中,使用具有叉积MMR表示的二阶,可以使用15个值将向量/>表达为
在方程(2)中,在一些实施例中,可以移除一些项以减少计算负荷。例如,可以在模型中仅使用色度分量之一,或者可以完全消除某些高阶交叉分量。非限制性地,还可以采用替代的线性或非线性预测器。
令iDM EDR信号的色度分量表示为
经由后向MMR将预测色度值表示为
在色度整形中,目标是生成MMR后向整形矩阵M,使得预测EDR值最接近vji。对于具有P个色度像素的图片,令:
和/>
令预测HDR值(122_C)表达为
然后,对于具有F个帧的整个数据库,希望得到矩阵M,以使相同场景内的总体失真最小化:
可以通过获得每个帧j的统计信息来获得方程(3)的解
并且然后,针对数据库中的所有帧来累加这些值,如下式中:
然后,可以经由下式获得静态色度后向整形参数
M=(A)-1(B)。 (6)
使用静态整形算法使得合成器元数据的开销非常小,因为相同的合成器元数据可以应用于整个视频序列。这种低开销可能以较低的整体质量为代价。例如,重建的EDR图像可能看起来比参考iDM EDR数据更明亮,并且在暗区域中可能丢失一些细节。颜色准确性也可能受到影响。
两级基于场景的分布式整形
图3描绘了用于使用两级分布式方法生成合成器元数据的示例过程。这种方法允许针对视频序列中的每个场景来创建新的合成器元数据,因此以合成器元数据的较高开销为代价而允许比静态整形方法更好的光亮度和颜色准确性。
在实施例中,可以在基于云的多处理计算系统上使用两级整形方法。在级1中,中心分派节点(305)可以向n个并行节点(310)分派SDR输入的固定数量的帧以供处理。这组帧可以是一个或多个场景的一部分。可选地,节点n中的一些帧可以与相邻节点中的帧重叠以改善场景剪切检测。
如在图3中描绘的,在给定了输入SDR数据(312)的段的情况下,每个节点(310-0,310-n-1)执行以下操作:a)用于生成相应的iDM EDR帧(317)的逆映射(140,315);b)如在静态整形方法中讨论的统计信息采集(319)(例如,生成光亮度直方图和基于色度的矩阵{Aj}、{Bj});c)如果场景剪切信息不可作为SDR视频元数据的一部分或者不可从中央分派处理器获得,则进行场景剪切检测(314)以判定每个帧是否与场景剪切相对应(例如,如果帧j开始新场景,则SCj=1)。场景剪切信息和帧统计信息将被发送至中央后处理节点(320)以进行进一步处理。
在第二级中,后处理节点(320)使用所接收的SCj信息来识别每个场景边界,并且对于每个场景,使用与之前描述的相同技术(例如,方程(1)至(6))但是通过仅考虑每个场景内生成的统计数据来生成用于亮度和色度后向整形函数的适当元数据。例如,在步骤(325)中场景(k)被确定为在帧fs与fe之间。然后,用于场景k的更新的SDR和EDR直方图可以被生成为:
并且可以如更早描述的在步骤(330)中生成用于第k个场景的亮度整形函数。类似地,更新的色度相关的矩阵可以被计算为
并且可以使用方程(6)生成最优整形矩阵Mk
与更新每帧上的CM数据相比,两级方法可以实现更好的整体图片质量和更小的合成器元数据开销;然而,并行处理仅限于采集统计信息,并且需要强大的后处理节点来生成基于场景的合成器元数据。接下来讨论更加计算高效的方法。
单级基于段的分布式整形
图4描绘了根据实施例的用于使用单级分布式方法生成合成器元数据的示例过程。这个架构以在每个节点处增加的处理为代价消除了对中央后处理器的需要,每个节点处的处理现在包括三个附加处理步骤:L2平滑化(430)、L1平滑化(435)和CM压缩(440)。在一些实施例中,CM压缩还可以由中央后处理节点(未示出)执行。接下来将更详细地描述这些步骤中的每一个步骤。
如在图3的过程中,在给定了FN总帧的序列的情况下,每个节点(或许除了对视频的最后一段进行处理的节点之外)(410)接收了定义具有固定间隔的视频的段的一组帧(Ft)。典型的段大小确定为长度范围在10秒到30秒之间。例如,在24fps下,段可以具有总共720个帧或图片。场景可以跨多个段并且一个段可以包括来自多个场景的帧。在许多应用中,一旦将编码工作分派给每个节点,强烈优选的是不在节点之间传递信息。
当场景被分割成多个段时,编码器经由局部优化单独地对每一个子场景进行编码。在这种情况下,将在这个场景中观察到图像特性中的不连续性(诸如,突然的光亮度变化或突然的颜色变化)。解决这个问题的一种方法是通过使用扩展或填充段,其中,填充段可以由多个计算机节点部分地处理。例如,如在图5中描绘的,在实施例中,在节点t中编码的固定段510由将由节点t-1编码的后视重叠子段502-b、504-b和506-b以及将在节点t+1中编码的前视重叠段502-a、504-a和506-a来填充。这种方法在边界处提供了更好的过渡。在优选实施例中,为了消除对节点间通信的任何需要,不存在重叠编码,即,节点t将仅压缩段Ft中的帧;然而,整形函数和合成器元数据是基于来自扩展或填充段的统计信息而生成的。
将视频序列中的帧的总数量表示为FN。将当前段t内的帧的数量表示为Ft。除了最后一段之外,假设但不限于,Ft对于所有其他段都是常数并且等于F。将全长视频内的段的数量表示为T,然后并且最后一段将具有FN-(T-1)F个帧。令j表示全视频序列级的帧索引。
将场景剪切重叠(SCO)的长度表示为(502-b或502-a)、将L1平滑化重叠的长度表示为/>(506-b或506-a)并且将L2平滑化重叠的长度表示为/>(504-b或504-a)。然后,每个段的整个前视重叠长度(例如,506-a+504-a+502-a)(除了最后一段之外)将为
其中,表达式A=语句?B:C表示如果语句为真,则A=B,否则A=C。类似地,每个段(除了第一段之外)的整个后视重叠长度将为
然后,节点t将接收总数等于下式的帧(412)
在每个节点中使用映射(415)将SDR帧中的每一个转换成EDR帧(417)。
一般而言,图5表征了以下段:
·由确定的主t段或L1段(510)
·由确定的扩展L1段或L2段(535)
·由确定的扩展L2段或L3段(525)
·由方程(11)定义的扩展主t段(540)
场景剪切检测
在每个节点内,在步骤(425)中,针对L3段中的帧范围内的每个帧j检测场景剪切,其中:
对于第j个帧,场景剪切决策是基于具有(例如,/>)个帧的以帧j为中心的滑动场景剪切检测窗口(520)。每个帧j的场景剪切滑动窗口(520)的范围为其中,
并且正在访问扩展主t段(540)的全范围中的所有帧。
将这个范围内的每个帧j的场景剪切决策表示为SCj,其中,例如,SCj=1表示在帧j处检测到新场景。作为示例,如在图5中描绘的,场景剪切检测算法在L3段(525)中检测到四个场景剪切(场景0、1、2和3)。
在实施例中,在步骤(420)中,在L3段的帧范围内还采集了诸如/> {Aj}、{Bj}等基于帧的统计信息。接下来的步骤是对这些统计信息进行平滑化以考虑任何场景剪切。
2级平滑化
在每个节点内,使用具有(例如,/>)个帧的以每个帧j为中心的滑动L2窗口(530)并且在L2段/>中的帧范围内来执行2级平滑化(430)(稍后进行定义),其中,
在实施例中,可以根据在扩展L2平滑化输入范围(525)内检测到的任何场景剪切来调整(界定)L2滑动窗口(530)。将帧j的最近左场景剪切表示为并且将帧j的最近右场景剪切表示为/>对于每个帧j,L2滑动窗口具有以下帧范围:
如表1中所示出的,在给定了L3范围中的每个帧的直方图的情况下,L2平滑化是指基于以帧j为中心的L2滑动窗口中所包括的所有帧来生成帧j的直方图和其他统计信息(参见方程(15))。例如,帧j的SDR直方图可以计算为:
1级平滑化
在每个节点内,可以使用L1滑动窗口(545)对L1范围(510)内的帧执行L1平滑化(435)(稍后进行定义),其中,
与L2滑动窗口一样,L1滑动窗口也根据其输入范围(535)内的任何场景剪切进行调整(界定)。将帧j的最近左场景剪切表示为并且将帧j的最近右场景剪切表示为对于每个帧j,L1滑动窗口通过下式界定
如表2和表3中所示出的,在给定了L2范围内的每个帧的所计算逆向亮度整形LUT或其他统计信息的情况下,L1平滑化是指基于以帧j为中心的L1滑动窗口中所包括的所有帧来生成帧j的新的统计数据(参见方程(17))。
亮度整形
使用L2级和L1级平滑化来执行亮度整形。
表1和表2中以伪代码更详细描述的步骤,包括:
a)计算L3段的每个帧中的统计信息(例如,等)
b)对所生成的经L2平滑化的统计数据应用L2平滑化以生成CDF
c)应用CDF匹配(之前讨论的)以生成逆向亮度整形LUT
d)应用L1平滑化(例如,求平均)以对计算的值进行平滑化,从而将最终/>确定为
其可以使用分段多项式来近似。
窗口化的L1和L2平滑化技术有助于补偿任何错误的场景剪切检测,并且稍后还有助于通过更好地检测相似元数据而减少(“压缩”)最终需要传输的合成器元数据的量。
表1:使用L2平滑化的亮度整形
表2:使用L1平滑化的亮度整形
在实施例中,仅使用L1平滑化来执行色度整形。表3中描绘了示例实施例。
表3:使用L1平滑化的色度整形
在一些实施例中,当段包括一个或多个完整场景(例如,图5中的场景1)时,可以通过使用在L3段(525)内生成的统计信息为整个场景生成合成器元数据来简化计算。在这种实施例中,可以仅对已知场景外部的帧(例如,在图5中,对场景0以及场景2和3内的帧)执行L1和L2平滑化。这种方法依赖于更准确的场景检测。除非将淡入淡出检测器添加在场景剪切检测器之上,否则淡入和淡出也可能影响这种方法。相反,滑动窗口方法在错误场景剪切检测中具有更好的弹性。
合成器元数据(CM)压缩
期望(尤其是在低比特率下)减少传输合成器元数据所需的开销。在实施例中,在CM压缩(440)期间,CM传输语法可以包括合成器元数据重复标志,即,use_prev_cm_flag,所述合成器元数据重复标志当被设置为1时向解码器指示其可以重用先前传输的一组元数据。例如,对于静态整形器架构,可以针对每个IDR(瞬时解码刷新)实例传输这样的重复标志。类似地,在两级分布式过程中,可以在每个IDR实例处和每个新场景的开始处传输重复标志。对于单级分布式架构,合成器元数据可能针对每个帧而改变,因此期望一种减少CM开销的机制。可以在每个计算节点内(例如,作为“CM压缩”块(440)的一部分)或者在中央后处理节点处执行这种CM减少。
在实施例中,即使可以为每个帧计算CM,也只有当它们的值之间存在显著差异时才传输新CM数据。作为示例,在给定了用于帧i和j的两个后向亮度整形函数的情况下,可以将它们的相似性计算为
可替代地,还可以考虑每个帧中的有效亮度范围(例如,和/>)并且仅在范围/>内计算相似性,如下式中
其中,δ(例如,δ=0)表示可以取决于可用带宽而根据需要调整的安全裕度。
在实施例中,考虑到具有F个帧的段,将每个段细分为子分区或簇(即,表示为Θα),其中,可以由代表性锚定帧(即,Rα)来表示每个子分区。然后,当传输合成器元数据时,将仅发送每个子分区的锚定帧的CM数据。
例如,在实施例中,在给定了段的情况下,可以将第一帧选择为其锚定帧。然后,对于每个后续帧,可以计算其与锚定帧的相似性。如果相似性小于阈值(即,Δ)(例如,Δ=1/210),则可以重用合成器元数据,否则生成具有新锚定帧的新簇。可以针对段中的所有帧或整个序列重复该过程。表4根据实施例以伪代码描述了这个过程的示例。
表4:CM簇的生成
以上单行程方法是一种贪心方法。其仅仅选择未通过相似性测试的第一帧作为新锚定。可以在单次扫描中很容易地完成所述处理;然而,可能会错过更迟的序列中更好的锚定帧。换言之,就CM数据而言,不需要将代表性(或锚定)帧作为簇中的第一帧。
在实施例中,如还在图6A中描绘的,可以使用更高效的双行程方法。在第一行程(610)中,生成二元图Bi,j,使得
然后,可以如下确定新簇和其锚定帧:
a)(步骤615):令k表示新簇α的开始帧
b)(步骤620):对于帧k之后的每个帧j,找出对于帧k的Bj,,k=1的一组后续帧并且对其进行计数;将计数表示为Cj
Πα={i|Bi,k=1,i≥k}。 (23)
c)(步骤630):找出相似帧的最长行程并且将所述相似帧包括在簇α内的帧集合Θα
Lα=max{Cj}, (24)
Θα={j|Bi,j==1,j≥k}。 (25)
d)将具有最长行程的帧确定为锚定帧
e)将起始帧移动到下一簇,并且从步骤a)开始重复,直到段(或视频序列)中的最后一帧
k=k+Lα
图6B描述了用于具有8个帧的段的此过程的示例。考虑到二元图Bi,j(605)。对于簇0(607-0),相似帧的最长行程为四,并且2号帧被认为是锚定帧。对于簇1(607-1),相似帧的最长行程为三,并且在这个簇内的1号帧(或段中的5号帧)被认为是这个簇的锚定帧。
表5以伪代码描述了以上描述的双行程过程的示例。
表5:用于确定合成器元数据簇的双行程方法
/>
以下每篇参考文献都通过引用以其全文并入本文。
参考文献
[1]ITU-R BT.1886年,“Reference electro-optical transfer function forflat panel displays used in HDTV studio production(HDTV工作室制作中使用的平板显示器的参考电光传递函数)”ITU,2011年3月.
[2]SMPTE ST 2084:2014“High Dynamic Range EOTF of Mastering ReferenceDisplays(主参考显示器的高动态范围EOTF)”SMPTE,2014.
[3]G-M.Su等人的美国专利8,811,490,“Multiple color channel multipleregression predictor(多颜色通道多元回归预测器)”2014.
[4]N.Xu等人的美国专利申请公开20160253792,“Guided Color Grading for anExtended Dynamic Range Image(用于扩展动态范围图像的引导颜色分级)”.
[5]N.Xu等人的美国专利申请公开20160358319,“Methods and System forInverse Tone Mapping(用于逆色调映射的方法和系统)”.
[6]H.Kadu等人于2016年9月9日提交的美国临时专利申请序列号62/385,307“Coding of High Dynamic Range Video Using Segment-Based Reshaping(使用基于段的整形对高动态范围视频进行编码)”.
附录A
静态亮度整形
将iDM EDR图像的第j帧内的最小亮度值和最大亮度值表示为和/>将第j个SDR帧内的最小亮度值和最大亮度值表示为/>和/>
A.采集统计信息
B.获得后向整形函数
/>
/>
/>
示例计算机系统实施方式
本发明的实施例可以利用计算机系统、以电子电路和部件配置的系统、集成电路(IC)设备(诸如微控制器、现场可编程门阵列(FPGA)、或其他可配置或可编程逻辑器件(PLD)、离散时间或数字信号处理器(DSP)、专用IC(ASIC))、和/或包括一个或多个这样的系统、设备或部件的装置来实施。计算机和/或IC可以执行、控制或实施与对具有增强动态范围的图像的基于段的亮度和色度整形有关的指令,诸如本文所描述的那些。计算机和/或IC可以计算与本文描述的整形过程相关的各种参数或值中的任何一个。图像和视频实施例可以在硬件、软件、固件及其各种组合中实施。
本发明的某些实施方式包括执行软件指令的计算机处理器,所述软件指令使处理器执行本发明的方法。例如,显示器、编码器、机顶盒、转码器等中的一个或多个处理器可以通过执行所述处理器可访问的程序存储器中的软件指令来实施与如上所述的对HDR图像的基于段的亮度和/或色度整形有关的方法。还可以以程序产品的形式提供本发明。程序产品可以包括携带一组计算机可读信号的任何非暂态介质,所述一组计算机可读信号包括指令,所述指令当由数据处理器执行时使数据处理器执行本发明的方法。根据本发明的程序产品可以采用各种形式中的任何一种。程序产品可以包括例如物理介质,诸如包括软盘、硬盘驱动器的磁性数据存储介质,包括CD ROM、DVD的光学数据存储介质,包括ROM、闪存RAM的电子数据存储介质等。程序产品上的计算机可读信号可以可选地被压缩或加密。
在上面提到部件(例如,软件模块、处理器、组件、设备、电路等)的情况下,除非另有说明,否则对此部件的引用(包括对“装置”的引用)都应被解释为包括该部件的等同物(执行所述部件的功能的任何部件(例如,功能上等同的),包括在结构上与所公开的结构不等同但是执行在所例示的本发明的示例实施例中的功能的部件)。
等效、扩展、替代和杂项
因此描述了与HDR图像的高效基于段的亮度和/或色度整形有关的示例实施例。在前述说明书中,已经参考许多具体细节描述了本发明的实施例,这些细节可以因实施方式不同而有所变化。因此,本发明是什么以及申请人意欲本发明是什么的唯一和排他的指示是从本申请中以这套权利要求发布的具体形式而发布的权利要求,包括任何后续修改。对于这些权利要求中包含的术语在本文明确阐述的任何定义将决定权利要求中使用的术语的含义。因此,权利要求中未明确记载的限制、要素、特性、特征、优点或属性不应以任何方式限制这样的权利要求的范围。因此,说明书和附图应被视为说明性的而不是限制性的。
可以从以下列举的示例性实施例(EEE)中理解本发明的各个方面:
EEE 1.一种用于利用处理器进行基于段的亮度和/或色度整形的方法,所述方法包括:
接收第一动态范围中的输入视频信号(104);
将所述输入视频信号划分成多个段,其中,每个段包括主帧(510)和填充帧,其中,对于两个连续段,所述段之一的填充帧与另一段的主帧重叠;
对于由节点处理器处理的段(412),
将所述段中的所述输入视频信号的主帧和填充帧中的每一个转换(415)成第二动态范围(417)中的第二视频信号的相应主帧和填充帧,其中,所述第二动态范围高于所述第一动态范围;
基于所述段中的所述输入视频帧和所述第二视频帧来收集统计数据(420);
采集用于所述段中的所述输入视频帧中的帧的场景剪切信息(425);
生成所述输入视频的第一子段,所述第一子段包括所述段中的所述主帧和所述段中的所述填充帧的第一部分;
对于所述输入视频的所述第一子段中的每个帧(430):
基于以所述第一子段的帧为中心且基于所述段中的场景剪切调整的第一滑动窗口来计算第一支持帧集(530);
基于所述统计数据和所述第一支持帧集,来确定用于将所述第一子段中的所述帧的光亮度值从所述第一动态范围映射到所述第二动态范围中的第一亮度映射;
对于所述输入视频的所述段中的每个主帧(435):
基于以所述主帧为中心且基于所述段中的场景剪切调整的第二滑动窗口来计算第二支持帧集(545);
基于所述第一映射和所述第二支持帧集来确定用于将所述主帧的光亮度值从所述第一动态范围映射到所述第二动态范围中的第二亮度映射;
基于所述统计数据和所述第二支持帧集来确定用于将所述主帧的色度值从所述第一动态范围映射至所述第二动态范围中的色度值的色度映射;以及
基于所述第二亮度映射和所述色度映射,为所述段中的所述帧生成合成器元数据。
EEE 2.如权利要求1所述的方法,其中,收集统计数据包括:
针对包括所述第一动态范围中的所述输入视频信号的帧、以及所述第二动态范围中的所述第二视频信号的所述帧的相应帧的图像对:
计算所述输入视频帧中的像素值的第一图像直方图;以及
计算所述第二视频帧中的像素值的第二图像直方图。
EEE 3.如EEE 2所述的方法,进一步包括:根据用于使用所述输入视频帧的像素值生成所述第二视频帧的预测像素值的预测模型来计算:
其中,j表示所述输入信号中的所述输入视频帧的索引,T表示矩阵转置,Vj包括所述第二视频帧的像素值,并且包括所述输入视频帧的值。
EEE 4.如EEE 3所述的方法,其中,所述预测模型表达为:
其中,表示所述第二视频帧的预测像素值,并且M表示表征所述预测模型的矩阵。
EEE 5.如EEE 3或4所述的方法,其中,对于所述段中的主帧,计算所述色度映射包括:
基于所述主帧的所述第二支持帧集中的所有帧的Aj和Bj值,计算所述段中的所述主帧的更新的Aj和Bj值;以及
基于所述更新的Aj和Bj值来确定所述色度映射。
EEE 6.如EEE 5所述的方法,其中,计算所述更新的Aj和Bj值以及所述色度映射进一步包括计算:
和Mj=(A)-1(B),
其中,A和B表示所述主帧的所述更新的Aj和Bj值,Mj表示所述色度映射的参数矩阵,并且表示所述段中所述主帧的第二支持帧集中的开始帧和结束帧。
EEE 7.如EEE 6所述的方法,其中,用于所述帧的所述色度映射的所述合成器元数据包括Mj矩阵的元素。
EEE 8.如EEE 2至7中任一项所述的方法,其中,对于所述第一子段中的帧,计算所述第一亮度映射包括:
基于所述第一子段中的所述帧的所述第一支持帧集中的所有帧的所述第一直方图,来计算所述帧的更新的第一直方图;
基于所述第一子段中的所述帧的所述第一支持帧集中的所有帧的所述第二直方图,来计算所述帧的更新的第二直方图;
基于所述更新的第一直方图来计算所述帧的第一累积分布函数(CDF);
基于所述更新的第二直方图来计算所述帧的第二累积分布函数;以及
基于所述第一累积分布函数和所述第二累积分布函数来计算所述第一亮度映射。
EEE 9.如EEE 8所述的方法,其中,对于所述段中的主帧,计算所述第二亮度映射包括:
通过对所述主帧的所述第二支持帧集中的所有帧的所述第一亮度映射进行求平均来计算所述主帧的所述第二亮度映射。
EEE 10.如EEE 9所述的方法,其中,基于所述第二亮度映射为所述帧生成合成器元数据包括:
将所述第二亮度映射表示为分段函数的参数化表示。
EEE 11.如EEE 1至10中任一项所述的方法,进一步包括通过应用合成器元数据压缩步骤来减少针对所述段传输的元数据的量,其中,所述合成器元数据压缩步骤包括:
将所述段的所述主帧划分成非重叠的帧簇;
确定每个簇内的锚定帧;以及
传输仅针对每个簇中的锚定帧的合成器元数据。
EEE 12.如EEE 11所述的方法,其中,将所述主帧划分成簇包括:
将所述段的第一主帧表示为第一簇的第一锚定帧;
针对所述段中的每个后续主帧,计算所述后续帧与所述第一锚定帧之间的相似性度量;
如果所述相似性度量低于阈值,则将所述后续帧分配给所述第一簇,否则生成新簇,其中,所述后续帧被表示为所述新簇的锚定帧。
EEE 13.如EEE 11或12所述的方法,其中,将所述主帧划分成簇包括:
生成所述段中的帧的二元图(Bi,j),其中,所述二元图中等于1的元素(i,j)表示所述段中的帧i与j之间的相似性度量低于阈值;
a)令k表示新簇α的开始帧;
b)对于帧k之后的每个帧j,找出对于帧k的Bj,,k=1的一组后续帧并且对所述一组后续帧进行计数;
c)基于步骤b),找出相似帧的最长行程并且将所述相似帧包括在所述簇α内的帧集合中;以及
d)将具有最长行程的帧表示为锚定帧。
EEE 14.一种利用一个或多个处理器来进行基于段的亮度和/或色度整形的方法,所述方法包括:
接收第一动态范围中的输入视频信号(104);
将所述输入视频信号划分成多个段(312);
对于由节点处理器处理的段(312),
将所述段中的所述输入视频信号的每个帧转换(315)成第二动态范围(317)中的第二视频信号的相应帧,其中,所述第二动态范围高于所述第一动态范围;
基于所述段中的所述输入视频帧和所述第二视频帧来生成统计数据(319);
采集用于所述段中的所述输入视频帧中的帧的场景剪切信息(314);以及在后处理器中:
基于来自一个或多个段的场景剪切信息来识别场景边界(325);
基于所述场景边界内的所有帧的所生成的统计信息来生成更新的统计信息;
基于所述更新的统计信息来确定用于将所述场景边界内的帧的光亮度值从所述第一动态范围映射到所述第二动态范围中的亮度映射(330);
基于所述更新的统计信息来确定用于将所述场景边界内的所述帧的色度值从所述第一动态范围映射到所述第二动态范围中的色度映射(330);以及
基于所述亮度映射和所述色度映射为所述场景边界内的所述帧生成合成器元数据。
EEE 15.如EEE 14所述的方法,其中,收集统计数据包括:
针对包括所述第一动态范围中的所述输入视频信号的帧以及所述第二动态范围中的所述第二视频信号的所述帧的相应帧的图像对:
计算所述输入视频帧中的像素值的第一图像直方图;以及
计算所述第二视频帧中像素值的第二图像直方图。
EEE 16.如EEE 15所述的方法,进一步包括:根据用于使用所述输入视频帧的像素值生成所述第二视频帧的预测像素值的预测模型来计算:
其中,j表示所述输入信号中的所述输入视频帧的索引,T表示矩阵转置,Vj包括所述第二视频帧的像素值,并且包括所述输入视频帧的值。
EEE 17.如EEE 16所述的方法,其中,所述预测模型表达为:
其中,表示所述第二视频帧的预测像素值,并且M表示表征所述预测模型的矩阵。
EEE 18.如EEE 16或17所述的方法,其中,对于所述场景边界内的帧,计算所述色度映射包括:
基于所述场景边界内的所有帧的Aj和Bj值,计算所述段中的所述主帧的更新的Aj和Bj值;以及
基于所述更新的Aj和Bj值来确定所述色度映射。
EEE 19.如EEE 15至18中任一项所述的方法,其中,对于所述场景边界内的帧,计算所述亮度映射包括:
基于所述场景边界内的所有帧的所述第一直方图来计算所述帧的更新的第一直方图;
基于所述场景边界内的所有帧的所述第二直方图来计算所述帧的更新的第二直方图;
基于所述更新的第一直方图来计算所述帧的第一累积分布函数(CDF);
基于所述更新的第二直方图来计算所述帧的第二累积分布函数;以及
基于所述第一累积分布函数和所述第二累积分布函数来计算所述亮度映射。
EEE 20.一种装置,包括处理器并且被配置为执行如EEE 1至19中所述的方法中的任一种方法。
EEE 21.一种非暂态计算机可读存储介质,具有存储于其上的计算机可执行指令,所述计算机可执行指令用于执行如EEE 1至19中任一项所述的方法。

Claims (14)

1.一种利用处理器进行基于段的亮度和/或色度整形的方法,所述方法包括:
接收第一动态范围中的输入视频信号(104);
将所述输入视频信号划分成多个段,其中,每个段包括具有固定长度的连续主帧(510)的序列、以及连续次级帧的一个或多个块,其中,对于两个连续段,所述段之一的次级帧与另一段的主帧重叠,其中,所述输入视频信号的每个段包括:除了第一段之外,形成两个后视重叠子段和后视场景剪切重叠子段的连续次级帧的前导后视块,接着是连续主帧(510)的序列,以及,除了最后一段之外,形成两个前视重叠子段和前视场景剪切重叠子段的连续次级帧的尾随前视块;
对于由节点处理器处理的段(412),
将所述段中的所述输入视频信号的主帧和次级帧中的每一个转换(415)成第二动态范围(417)中的第二视频信号的相应主帧和次级帧,其中,所述第二动态范围高于所述第一动态范围;
收集所述段中的所述输入视频信号的输入视频帧和第二视频帧的像素值的统计数据(420)包括:
计算所述段中的所述输入视频帧和所述第二视频帧的光亮度像素值的直方图;
采集所述段中的所述输入视频帧中的帧的场景剪切信息(425);
生成所述输入视频信号的连续帧的第一子段,所述第一子段包括所述段中的所述主帧和所述段中的所述次级帧的第一部分,其中,收集所述段中的所述输入视频帧和所述第二视频帧的像素值的统计数据(420)进一步包括:
计算所述第一子段中的所述输入视频帧的光亮度像素值的第一直方图;以及
计算相应第二视频帧的光亮度像素值的第二直方图;
对于所述输入视频的所述第一子段中的每个帧(430):
在第一滑动窗口上对所述输入视频帧和所述第二视频帧的所述像素值的所收集的统计数据进行平滑化,所述第一滑动窗口以所述第一子段的帧为中心并且根据所述段中的在所述输入视频信号的帧范围内检测到的任何场景剪切来界定,其中,所述第一滑动窗口具有的帧范围取决于平滑化重叠所述第一子段的帧的最近左场景剪切/>以及所述第一子段的帧的最近右场景剪切/>并且其中,平滑化包括基于所述第一直方图和所述第二直方图为所述第一子段中的帧生成经平滑化的第一直方图和经平滑化的第二直方图;
基于经平滑化的统计数据,确定用于将所述第一子段中的帧的光亮度值从所述第一动态范围映射到所述第二动态范围中的第一亮度映射,其中,对于所述第一子段中的帧,计算所述第一亮度映射包括:
基于经平滑化的第一直方图来计算所述帧的第一累积分布函数;基于经平滑化的第二直方图来计算所述帧的第二累积分布函数;以及
基于匹配所述第一累积分布函数和所述第二累积分布函数来计算所述第一亮度映射;
对于所述输入视频的所述段中的每个主帧(435):
在第二滑动窗口上对所述第一亮度映射进行平滑化,以确定用于将所述主帧的光亮度值从所述第一动态范围映射到所述第二动态范围中的第二亮度映射,所述第二滑动窗口以主帧为中心并且根据所述段中的在所述输入视频信号的帧范围内检测到的任何场景剪切来界定,其中,所述第二滑动窗口具有的帧范围取决于所述平滑化重叠所述主帧的最近左场景剪切/>以及所述主帧的最近右场景剪切/>
基于所述统计数据和多变量多元回归预测模型来确定用于将所述主帧的色度值从所述第一动态范围映射至所述第二动态范围中的色度值的色度映射,并且在所述第二滑动窗口上对所述色度映射进行平滑化;以及
基于所述第二亮度映射和所述色度映射,为所述段中的所述帧生成合成器元数据,其中,所述合成器元数据包括所述第二亮度映射的参数化表示和后向整形矩阵M。
2.如权利要求1所述的方法,其中,收集统计数据包括:
针对包括所述第一动态范围中的所述输入视频信号的帧以及所述第二动态范围中的所述第二视频信号的所述帧的相应帧的图像对:
计算所述输入视频帧中的像素值的第一图像直方图;以及
计算所述第二动态范围中的第二视频帧中的像素值的第二图像直方图。
3.如权利要求2所述的方法,进一步包括:根据用于使用所述输入视频帧的像素值生成所述第二视频帧的预测像素值的所述多变量多元回归预测模型来计算:
其中,j表示所述输入视频信号中的所述输入视频帧的索引,T表示矩阵转置,Aj和Bj表示基于色度的矩阵,Vj包括所述第二动态范围中的所述第二视频帧的色度值,并且包括所述输入视频帧的色度值。
4.如权利要求3所述的方法,其中,所述预测模型表达为:
其中,表示所述第二动态范围中的所述第二视频帧的预测色度值,并且M表示表征所述预测模型的后向整形矩阵。
5.如权利要求3或4所述的方法,其中,对于所述段中的主帧,对所述色度映射进行平滑化包括:
基于所述第二滑动窗口中的所有帧的Aj和Bj值,计算所述段中的所述主帧的更新的Aj和Bj值;以及
基于所述更新的Aj和Bj值来确定经平滑化的色度映射。
6.如权利要求5所述的方法,其中,计算所述更新的Aj和Bj值以及确定经平滑化的色度映射进一步包括计算:
和Mj=(A)-1(B),
其中,A和B表示所述主帧的更新的Aj和Bj值,Mj表示经平滑化的色度映射的参数矩阵,并且和/>表示所述第二滑动窗口的开始帧和结束帧。
7.如权利要求6所述的方法,其中,用于所述帧的所述色度映射的所述合成器元数据包括Mj矩阵的元素。
8.如权利要求1至4中任一项所述的方法,其中,
在所述第二滑动窗口上对所述第一亮度映射进行平滑化包括:在所述第二滑动窗口上对所述第一亮度映射进行求平均。
9.如权利要求1至4中任一项所述的方法,其中,基于所述第二亮度映射为所述帧生成合成器元数据包括:
将所述第二亮度映射表示为分段函数的参数化表示。
10.如权利要求1至4中任一项所述的方法,进一步包括:通过应用合成器元数据压缩步骤来减少针对所述段传输的元数据的量,其中,所述合成器元数据压缩步骤包括:
将所述段的主帧划分成非重叠的帧簇;
确定每个簇内的锚定帧;以及
传输仅针对每个簇中的锚定帧的合成器元数据。
11.如权利要求10所述的方法,其中,将所述主帧划分成簇包括:
将所述段的第一主帧表示为第一簇的第一锚定帧;
针对所述段中的每个后续帧,计算所述后续帧与所述第一锚定帧之间的相似性度量;
如果所述相似性度量低于阈值,则将所述后续帧分配给所述第一簇,否则生成新簇,其中,所述后续帧被表示为所述新簇的锚定帧。
12.如权利要求10所述的方法,其中,将所述主帧划分成簇包括:
生成所述段中的帧的二元图(Bi,j),其中,所述二元图中等于1的元素(i,j)表示所述段中的帧i与j之间的相似性度量低于阈值;
a)令k表示新簇α的开始帧;
b)对于帧k之后的每个帧j,找出对于帧k的Bj,k=1的一组后续帧并且对所述一组后续帧进行计数;
c)基于步骤b),找出相似帧的最长行程并且将所述相似帧包括在所述簇α内的帧集合中;以及
d)将具有最长行程的帧表示为锚定帧。
13.一种用于基于段的亮度和/或色度整形的装置,所述装置包括:
处理器;和
存储器,所述存储器包括指令,当所述指令由所述处理器执行时,使得所述处理器执行如权利要求1至12所述的方法中的任一种方法。
14.一种非暂态计算机可读存储介质,具有存储于其上的计算机可执行指令,所述计算机可执行指令用于执行根据权利要求1至12中任一项所述的方法。
CN201880006533.7A 2017-01-18 2018-01-16 用于对高动态范围视频进行编码的基于段的整形 Active CN110178374B (zh)

Applications Claiming Priority (5)

Application Number Priority Date Filing Date Title
US201762447517P 2017-01-18 2017-01-18
EP17152004 2017-01-18
EP17152004.2 2017-01-18
US62/447,517 2017-01-18
PCT/US2018/013904 WO2018136432A1 (en) 2017-01-18 2018-01-16 Segment-based reshaping for coding high dynamic range video

Publications (2)

Publication Number Publication Date
CN110178374A CN110178374A (zh) 2019-08-27
CN110178374B true CN110178374B (zh) 2023-10-10

Family

ID=61656336

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201880006533.7A Active CN110178374B (zh) 2017-01-18 2018-01-16 用于对高动态范围视频进行编码的基于段的整形

Country Status (4)

Country Link
US (1) US10902601B2 (zh)
EP (1) EP3571843A1 (zh)
JP (1) JP6684971B2 (zh)
CN (1) CN110178374B (zh)

Families Citing this family (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR102524671B1 (ko) * 2018-01-24 2023-04-24 삼성전자주식회사 전자 장치 및 그의 제어 방법
WO2019169174A1 (en) * 2018-02-28 2019-09-06 Dolby Laboratories Licensing Corporation Linear encoder for image/video processing
US11627278B2 (en) * 2019-04-05 2023-04-11 Project Giants, Llc High dynamic range video format detection
WO2020206357A1 (en) * 2019-04-05 2020-10-08 Project Giants, Llc Real-time video dynamic range analysis
US11146823B2 (en) * 2019-06-25 2021-10-12 Qualcomm Incorporated Signalling chroma quantization parameter (QP) mapping tables
WO2021076822A1 (en) * 2019-10-17 2021-04-22 Dolby Laboratories Licensing Corporation Adjustable trade-off between quality and computation complexity in video codecs
BR112022026963A2 (pt) 2020-07-01 2023-01-24 Dolby Laboratories Licensing Corp Distribuição de imagens de alta faixa dinâmica em um sistema de reprodução de capacidade mista
US11665340B2 (en) * 2021-03-22 2023-05-30 Meta Platforms, Inc. Systems and methods for histogram-based weighted prediction in video encoding
US11606605B1 (en) * 2021-09-30 2023-03-14 Samsung Electronics Co., Ltd. Standard dynamic range (SDR) / hybrid log-gamma (HLG) with high dynamic range (HDR) 10+
US11930189B2 (en) 2021-09-30 2024-03-12 Samsung Electronics Co., Ltd. Parallel metadata generation based on a window of overlapped frames

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102388611A (zh) * 2009-02-11 2012-03-21 汤姆森特许公司 使用色调映射和反色调映射的比特深度可分级视频编码和解码的方法和装置
CN104885457A (zh) * 2013-01-02 2015-09-02 杜比实验室特许公司 用于具有增强动态范围的超高清视频信号的向后兼容编码
WO2016040255A1 (en) * 2014-09-09 2016-03-17 Dolby Laboratories Licensing Corporation Self-adaptive prediction method for multi-layer codec

Family Cites Families (17)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CA2478671C (en) 2002-03-13 2011-09-13 Imax Corporation Systems and methods for digitally re-mastering or otherwise modifying motion pictures or other image sequences data
WO2004023787A2 (en) * 2002-09-06 2004-03-18 Rytec Corporation Signal intensity range transformation apparatus and method
SG118191A1 (en) * 2003-06-27 2006-01-27 St Microelectronics Asia Method and system for contrast enhancement of digital video
US8131108B2 (en) * 2005-04-22 2012-03-06 Broadcom Corporation Method and system for dynamic contrast stretch
US8154663B2 (en) * 2007-01-16 2012-04-10 Sigma Designs, Inc. System and method for adaptive contrast enhancement of video signals
US8165395B2 (en) * 2008-04-15 2012-04-24 Sony Corporation Automatic image color tone correction
CN107105229B9 (zh) 2011-04-14 2020-03-31 杜比实验室特许公司 图像解码方法、视频解码器和非暂态计算机可读存储介质
US8774553B1 (en) * 2011-05-09 2014-07-08 Exelis, Inc. Advanced adaptive contrast enhancement
US9219916B2 (en) * 2012-06-12 2015-12-22 Dolby Laboratories Licensing Corporation Joint base layer and enhancement layer quantizer adaptation in EDR video coding
CN105684412B (zh) 2013-10-22 2017-04-26 杜比实验室特许公司 用于扩展动态范围图像的引导颜色分级
CN105745914B (zh) 2013-11-22 2018-09-07 杜比实验室特许公司 用于逆色调映射的方法和系统
WO2015123067A1 (en) 2014-02-13 2015-08-20 Dolby International Ab Piecewise inter-layer prediction for signals with enhanced dynamic range
CN116320394A (zh) 2014-02-25 2023-06-23 苹果公司 用于视频编码和解码的自适应传递函数
GB201410635D0 (en) * 2014-06-13 2014-07-30 Univ Bangor Improvements in and relating to the display of images
WO2018049335A1 (en) 2016-09-09 2018-03-15 Dolby Laboratories Licensing Corporation Coding of high dynamic range video using segment-based reshaping
EP3509470A4 (en) 2016-09-11 2020-07-22 Perioendoscopy, LLC ENDOSCOPIC PERIODONTAL PROBE BOX ASSEMBLY
US10264287B2 (en) * 2016-10-05 2019-04-16 Dolby Laboratories Licensing Corporation Inverse luma/chroma mappings with histogram transfer and approximation

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102388611A (zh) * 2009-02-11 2012-03-21 汤姆森特许公司 使用色调映射和反色调映射的比特深度可分级视频编码和解码的方法和装置
CN104885457A (zh) * 2013-01-02 2015-09-02 杜比实验室特许公司 用于具有增强动态范围的超高清视频信号的向后兼容编码
WO2016040255A1 (en) * 2014-09-09 2016-03-17 Dolby Laboratories Licensing Corporation Self-adaptive prediction method for multi-layer codec

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
《Fast algorithms for histogram matching:Application to texture synthesis》;J.P. Rolland;《JOURNAL OF ELECTRONIC IMAGING》;20000229;第9卷;39-45 *
《Overlapping boundary based multimedia slice transcoding method transcoding method and its system for medical video and traffic video》;ZHU DINGJU;《Multimedia Tools and Applications》;20160112;第75卷;14233-14246 *

Also Published As

Publication number Publication date
US10902601B2 (en) 2021-01-26
EP3571843A1 (en) 2019-11-27
JP6684971B2 (ja) 2020-04-22
JP2020507958A (ja) 2020-03-12
CN110178374A (zh) 2019-08-27
US20190272643A1 (en) 2019-09-05

Similar Documents

Publication Publication Date Title
CN110178374B (zh) 用于对高动态范围视频进行编码的基于段的整形
US10575028B2 (en) Coding of high dynamic range video using segment-based reshaping
CN109416832B (zh) 高效的基于直方图的亮度外观匹配
US10015491B2 (en) In-loop block-based image reshaping in high dynamic range video coding
EP3433833B1 (en) Encoding and decoding reversible production-quality single-layer video signals
KR102230776B1 (ko) 이미지/비디오 처리를 위한 선형 인코더
CN112106357B (zh) 用于对图像数据进行编码和解码的方法及装置
US10419762B2 (en) Content-adaptive perceptual quantizer for high dynamic range images
CN109155853B (zh) 用于高动态范围图像的色度整形
WO2018231968A1 (en) Efficient end-to-end single layer inverse display management coding
WO2018049335A1 (en) Coding of high dynamic range video using segment-based reshaping
CN113170205A (zh) 整形函数的插值
US11288781B2 (en) Efficient end-to-end single layer inverse display management coding
WO2018136432A1 (en) Segment-based reshaping for coding high dynamic range video
US20230388555A1 (en) Trim-pass correction for cloud-based coding of hdr video
US20230343100A1 (en) Recursive segment to scene segmentation for cloud-based coding of hdr video
US11895416B2 (en) Electro-optical transfer function conversion and signal legalization

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant