CN107852502B - 用于增强视频信号的位深的方法、编码器、解码器和系统 - Google Patents

用于增强视频信号的位深的方法、编码器、解码器和系统 Download PDF

Info

Publication number
CN107852502B
CN107852502B CN201680043979.8A CN201680043979A CN107852502B CN 107852502 B CN107852502 B CN 107852502B CN 201680043979 A CN201680043979 A CN 201680043979A CN 107852502 B CN107852502 B CN 107852502B
Authority
CN
China
Prior art keywords
video signal
codeword
sdr video
sdr
layer
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201680043979.8A
Other languages
English (en)
Other versions
CN107852502A (zh
Inventor
苏冠铭
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Dolby Laboratories Licensing Corp
Original Assignee
Dolby Laboratories Licensing Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Dolby Laboratories Licensing Corp filed Critical Dolby Laboratories Licensing Corp
Publication of CN107852502A publication Critical patent/CN107852502A/zh
Application granted granted Critical
Publication of CN107852502B publication Critical patent/CN107852502B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/134Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the element, parameter or criterion affecting or controlling the adaptive coding
    • H04N19/157Assigned coding mode, i.e. the coding mode being predefined or preselected to be further used for selection of another element or parameter
    • H04N19/159Prediction type, e.g. intra-frame, inter-frame or bidirectional frame prediction
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/30Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using hierarchical techniques, e.g. scalability
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/102Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the element, parameter or selection affected or controlled by the adaptive coding
    • H04N19/103Selection of coding mode or of prediction mode
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/102Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the element, parameter or selection affected or controlled by the adaptive coding
    • H04N19/117Filters, e.g. for pre-processing or post-processing
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/169Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding
    • H04N19/17Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding the unit being an image region, e.g. an object
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/169Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding
    • H04N19/184Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding the unit being bits, e.g. of the compressed video stream

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Compression Or Coding Systems Of Tv Signals (AREA)

Abstract

公开了用于对标准动态范围视频进行编码以改进将标准动态范围视频转换成增强的动态范围视频之后的最终质量的新颖的方法和系统。可以使用放大某些码字范围的双层编解码器结构以将增强的信息发送到解码器以便实现增强的(更高位深的)图像信号。增强的标准动态范围信号然后可以被上转换成在对应于那某些码字范围的区域中没有条带状伪影的增强的动态范围视频。

Description

用于增强视频信号的位深的方法、编码器、解码器和系统
相关申请的交叉引用
本申请要求2015年6月28日提交的美国临时专利申请No.62/198,073的优先权,该专利申请特此通过其整体引用而被并入。
技术领域
本公开涉及对于将标准动态范围(SDR)视频上转换为增强动态范围(EDR)视频的改进。更特别地,它涉及用于SDR位深增强的方法和系统。
背景技术
由Dolby Laboratories,Inc.和其它公司正在开发的显示技术能够再现具有高动态范围(HDR)的图像。这样的显示可以再现比以大约三个数量级的动态范围(例如,标准动态范围-“SDR”)为特征的传统显示更忠实地表示真实世界场景的图像。
动态范围(DR)是图像中的强度(例如,亮度、luma)的范围,例如,从最黑暗的暗到最明亮的亮。如本文所使用的,术语‘动态范围’(DR)可以与人类心理视觉系统(HVS)感知图像中的强度(例如,亮度、luma)的范围(例如,从最黑暗的暗或最明亮的亮)的能力有关。在这个意义上,DR与‘场景参考(scene-referred)’强度有关。DR还可以与显示设备充分地或近似地呈现特定广度的强度范围的能力有关。在这个意义上,DR与‘显示参考(display-referenced)’强度有关。除非特定意义在本文的描述中的任何地方被明确指定具有特定重要性,否则应当推断该术语可以在任一意义上(例如,可互换地)使用。
如本文所使用的,术语高动态范围(HDR)与跨越人类视觉系统(HVS)的一些14-15个数量级的DR广度有关。例如,视觉基本上正常(例如,在统计、生物计量或眼科学意义中的一个或多个意义上)的适应良好的人类具有跨越大约15个数量级的强度范围。适应的人类可以感知如仅少数光子那么少的昏暗光源。然而,这些相同的人类可以感知沙漠、海或雪中的正午的太阳的近乎让人痛苦的耀眼强度(或者甚至瞥向太阳,不过是短暂地以防止伤害)。该跨度不过对于‘适应的’人类(例如,其HVS具有在其中进行重置和调整的时间段的那些人)是可用的。
相反,DR与HDR相比较可能有些截短,在DR上,人类可以同时感知强度范围中的广泛广度。如本文所使用的,术语‘增强动态范围’(EDR)、‘视觉动态范围’或‘可变动态范围’(VDR)可以单独地或可互换地与由HVS可同时感知的DR有关。如本文所使用的,EDR可以与跨越5-6个数量级的DR有关。在本申请中,VDR和EDR意图指示宽于SDR并且窄于或等于HDR的任何扩展的动态范围。
为了支持与现有的8位视频编解码器(诸如ISO/IEC MPEF-2和MPEG-4规范中描述的那些)以及新的HDR显示技术的后向兼容,可以使用多个层来将HDR视频数据从上游设备递送到下游设备。在一种方法中,从捕获的HDR版本产生8位基本层版本可以涉及将全局色调映射算子(TMO)应用于具有较高位深(例如,每一颜色分量12位或更多位)的HDR内容中的强度(例如,亮度、luma)相关的像素值。在另一种方法中,可以使用自适应线性或非线性量化器来创建8位基本层。给定BL流,解码器可以应用逆向TMO或基本层到EDR预测器来导出近似的EDR流。为了增强该近似的EDR流的质量,一个或多个增强层可以携载表示原始HDR内容与其EDR近似之间的差异的残差(residual),因为它将被解码器仅使用基本层来重新创建。
然而,即使考虑残差,所得到的EDR流也可能生成伪影,诸如条带或块,通常是在黑暗区域中和高光(highlight)中。
在本部分中描述的方法是可以追寻的方法,但不一定是以前已设想或追寻的方法。因此,除非另外指示,否则不应当仅仅由于在本部分中所描述的任一方法包括在本部分中就假定它们有资格作为现有技术。类似地,针对一种或多种方法识别出的问题不应当基于本部分就假定已在任何现有技术中被认识到,除非另外指示。
发明内容
逆向显示管理(iDM)模块可以将SDR图像转换为EDR图像,该EDR图像在HDR等级不可用时对于应用是方便的。iDM元数据可以在编码器侧与用于每个帧码字的元数据一起产生。逆向DM模块可以采用该iDM元数据来将SDR上转换为EDR。以前,由于iDM过程,经上转换的EDR图像在色调平滑的区域中(诸如在阴影或亮光中)将具有条带状伪影(bandingartifact)。为了生成更高质量的SDR到EDR转换,SDR需要在iDM过程之前被增强。可以使用双层编解码器结构以将增强的信息发送到解码器以便实现增强的(更高位深的)SDR,该增强的SDR在本文中被称为“SDR+”。
用于实现SDR+的实施例首先检测平滑区域(这些区域潜在地具有轮廓伪影(contouring artifact)),并且确定要被放大的码字范围。然后,系统可以产生裁剪(clip)所需的码字范围的预测映射,并且将差异编码在一个或多个增强层(EL)中,增强层(EL)中的每一个对于感兴趣区域(平滑区域)具有少得多的量化失真和更高的码字范围。每个EL包含与量化和压缩失真增加的SDR信号的量化差异。
条带状伪影区域通常发生在高光和/或黑暗区域中。这些条带状区域可以被裁剪为恒定表面,并且被编码为原始16位数据和恒定值之间的差。由于基本层(BL)中的被裁剪区域具有变窄的码字范围,所以小的差异(但是在更高位深中)将被利用增强层(EL)码字重新量化,从而导致较少的量化失真,因此较少的轮廓伪影。EL在那些区域中将如原始数据那样平滑,这应当更易于编码。这将被称为码字范围放大(CRA),因为它对将BL中的小码字范围放大到对应的EL中的整个全部范围进行处理。BL和组成的BL+EL这两者是利用CRA方法可视的SDR。
CRA方法可以对逆向DM应用显著地减小条带状伪影和块状伪影(blockyartifact)这两者。首先,检测平滑区域(潜在地具有轮廓伪影的区域)并且确定要被放大的码字范围。然后,产生裁剪所需的码字范围的预测映射,并且将差异编码在EL中,EL在感兴趣区域中具有高得多的动态范围。
CRA方法可以用于黑暗区域、明亮(高光)区域、或黑暗区域和明亮区域这两者。
附图说明
图1例示说明示例的现有技术的逆向DM工作流程。
图2例示说明用于CRA的示例逆向DM工作流程。
图3例示说明用于CRA的示例BL/EL/IPM创建。
图4例示说明下采样在图3的系统中的示例包括。
图5A-5D例示说明示例裁剪图。
图6例示说明示例逆向S曲线映射图。
图7A-7G例示说明示例低码字阈值CRA方法。
图8A-8G例示说明示例低和高码字阈值CRA方法。
图9例示说明用于CRA方法的示例硬件。
图10例示说明产生用于创建增强位深码字的掩模(mask)的示例方法。
图11例示说明根据实施例的创建增强层的示例预测过程。
图12例示说明用于CRA方法的示例编码器/解码器系统。
具体实施方式
逆向动态映射
图1示出了现有技术的逆向DM工作流程。给定8位SDR位输入流(101),逆向DM模块(110)使用元数据(102)来将输入的8位SDR上转换为8位EDR输出(103)。8位SDR到更高动态范围的逆向映射可能引起一些条带状伪影。这发生在两个邻近码字之间的码字差异超过EDR域后期逆向色调映射中的恰可察觉差(JND)(例如,50%JND)时。逆向DM不失一般性地是将SDR内容映射到EDR内容的过程,并且任何逆向映射或预测函数都可以用于执行逆向DM,而且用于逆向DM的元数据(iDM元数据)可以被利用以促进该过程。
图2示出了逆向DM工作流程的实施例,该逆向DM工作流程利用CRA来从基本层(BL)SDR流(220)和层间预测器元数据(IPM)(201)生成改进的EDR流(230),该基本层(BL)SDR流(220)具有伴随的EL流(210),这两者都被压缩,该层间预测器元数据(IPM)(201)包括从编码器传输到解码器以辅助解码过程的各种参数。IPM的示例可以包括预测多项式的系数和/或用于非线性去量化器中的适当的逆向量化的量化参数。该工作流程然后可以使用IPM(201)来使得非线性去量化器(NLdQ)模块(205)能够转换EL流(210)并且使得预测模块(215)能够转换SDR流,以使得组合的转换的SDR和EL生成用于逆向DM模块(235)的增强的SDR+流(225)。当与图1的现有技术的逆向DM工作流程相比较时,所得到的EDR流具有条带状伪影和块状伪影的降低的发生率。
码字范围放大
A.编码器
为了使逆向DM工作流程利用CRA,它需要基本层(BL)流(压缩的SDR)、伴随的EL流以及伴随的IMP。图3中示出了用于从源SDR生成这些的一个系统。
在该示例架构中,用于8位SDR到16位SDR的预测器(305)是线性预测器。残差(310)是原始16位SDR数据和解压缩的8位SDR数据之间的差。因此,如果BL通过8位SDR的无损压缩创建,则掩模前的残差将是最低有效(LSB)8位。
由于残差是LSB 8位,所以它包含对于现有技术的有损视频压缩来说通常被丢弃的大量高频信息。因此,为了对这种类型的残差进行编码,需要非常高的位速率来保留那些高频分量。给定输出流的有限的位预算,有利的是仅对具有附加残差的某些区域进行编码,忽略其它不太关键的区域。因此,可以在非线性量化(NLQ)(320)之前应用残差掩模(315)。在量化之后,可以在EL流被发送到逆向DM工作流程之前对EL流进行压缩(325)。
可选地,可以在压缩(325)之前对EL流进行下采样(410)以进一步降低位速率,例如如图4中所示那样。
B.预测
对于SDR(8位)中的被选择的窄范围,可以创建恒定的预测器系数。以这种方式,该窄范围内的所有码字都映射到恒定值。原始16位SDR数据和该恒定值之间的差可以被编码在EL中。通过这样做,被裁剪区域中的EL数据是原始高位深SDR图像(“自然图像”)减去恒值,所以它仍是平滑的并且易于编码。图5A-5D中示出了示例。图5A示出了高(Sh)码字值和低(Sl)码字值这两者处的裁剪,图5B示出了高(Sh)码字值处的裁剪,图5C示出了低(Sl)码字值处的裁剪,并且图5D示出了对于高(Sh)码字值和低(Sl)码字值这两者的裁剪的修改版本。
预测器可以在比Sh高的值处和/或比Sl小的值处对SDR进行裁剪。例如,将Sl设置为32并且将Sh设置为256将使BL中的具有不大于32的值的所有像素都被裁剪。原始值和裁剪的恒定值之间的差将被重新编码在具有256个码字的EL中。换句话说,具有8+位深并且在BL中使用5位进行量化的像素现在在EL中使用8位进行量化。因此,量化误差减小额外的3位。因此,轮廓伪影减小。
将16位SDR图像中的第i像素表示为vi,并且将8位SDR图像中的第i像素表示为si。在一个实施例中,vi和si这两者都被规范化为具有[0 1)之间的值。执行裁剪的预测器可以通过以下式子表达:
Figure GDA0002847599220000061
其中b=clip3(a,L,H)是将a的值约束在L和H的值之间的算子。例如,在C编程语言中,clip3()可以实现为:
b=(a<L)?L:((a>H)?H:a)
在另一个实施例中,可以使用分段多项式来实现clip3运算。
设枢轴点(pivot point)pv1=Sl和pv2=Sh。多项式的第一段{a0,0}是具有值Vl的恒值。多项式的第二段是1次多项式{a1,0,a1,1}={0,1}。多项式的第三段{a2,0}是具有值Vh的恒值。用于应用段值的示例程序在程序1中给出。
程序1
Figure GDA0002847599220000071
修改的预测
对于低裁剪和高裁剪一起的情况,对于一些情形可以使用专门的修改。当所需的放大范围在两侧都小时,编码的低裁剪区域可以被编码为残差中的负值,而高裁剪区域可以被编码为正值。然而,当所需的放大范围对于低裁剪和高裁剪这两者都大时,EL量化器对于减轻条带状伪影将变得粗略且不太有效。在这种情况下,预测器可以被修改使得低裁剪区域和高裁剪区域这两者都具有足够的码字。
图5D示出了预测器的示例修改。恒定值用于黑暗(小于Sl)区域和明亮(大于Sh)区域。将Smin和Smax表示为用于给定场景的8位SDR中的最小值和最大值。对于低裁剪区域,预测器可以被设置为:
Figure GDA0002847599220000072
通过这样做,残差将具有正值和负值这两者。对于高裁剪区域,预测器可以被设置为:
Figure GDA0002847599220000073
C.残差掩模
残差掩模可以被应用于残差上。其BL值在Sl和Sh内的那些像素将不被编码在EL中。仅具有低于Sl或高于Sh的BL值的像素被编码:
Figure GDA0002847599220000081
NLQ参数
可以如下选择NLQ参数。
帧f(具有p个像素)中的第i像素的残差可以被表示为rfi,帧f中的最大正残差值可以被表示为
Figure GDA0002847599220000082
并且帧f中的最小负残差值的绝对值可以被表示为
Figure GDA0002847599220000083
Figure GDA0002847599220000084
Figure GDA0002847599220000085
对于具有F个帧的场景,在所有F个帧中找到
Figure GDA0002847599220000086
的最大值,并且在所有F个帧中找到
Figure GDA0002847599220000087
的最大值。
Figure GDA0002847599220000088
Figure GDA0002847599220000089
对于8位EL编解码器,对于整个场景的NLQ设置可以被调整为:
Figure GDA00028475992200000810
Level=max{(2EL_bitdepth-1)-Offset,Offset}
XMAX=(1+△)max{X-,X+}
D.逆向S曲线色调映射(逆向DM)
用于前向色调映射的S曲线压缩高光和黑暗区域中的码字。关于用于显示管理的色调映射曲线的产生,示例算法在PCT专利公开WO 2012/125802、“Method and Apparatusfor Image Data Transformation”中描述,该PCT专利公开通过其整体引用而被并入本文。对于前向色调映射,曲线上的斜率在高光和黑暗区域中比中间色调区域中的斜率陡。图6示出了示例逆向S曲线,该逆向S曲线具有S曲线的相反特性,因为高光和黑暗区域中的斜率比中间色调区域中的斜率陡。因此,SDR域中的黑暗/高光区域中的小的码字差异将导致逆向S曲线映射之后EDR域中大的差异。逆向色调映射的示例可以在PCT专利公开WO 2015/077329中找到,该PCT专利公开通过引用而被并入本文。
CRA中的帧级枢轴点选择
在利用CRA的逆向DM方法中,16位SDR和8位SDR之间的条带残差减小。检测器和范围发现器被描述:
假定输入图像具有尺寸WxH。
步骤1:检测平滑区域
将输入图像分割成具有尺寸NxN的多个不重叠的小块。例如,(W/N)x(H/N)个块。然后,通过检查每个块中的平滑度测量来检测平滑区域。平滑度检测的一个示例是检查每个块中的最大值和最小值之间的差。
将帧j处的第i块表示为Bij,并且将该块内的第k像素表示为skij。对于该块的平滑度测量可以被定义为最大值减去最小值:
Figure GDA0002847599220000091
使用二值指示符hij来告诉块是否足够平滑,即,平滑度测量是否小于阈值Ts(示例值为4或5)。
Figure GDA0002847599220000092
对于每个图片,利用元素hij构造2D图像。将该二值图像表示为Hj
步骤2:连接平滑区域
从前一步骤检测到的平滑区域可能散布在各处。可以使用形态算子来将它们链接在一起。以下是包括erode和close函数的示例形态算子,但是任何孔封闭(hole-closing)算子可以被使用:
MorphMaskj=morphological_erode(morphological_close(Hj))
然后,将具有尺寸(W/N)x(H/N)的该二值掩模缩放回其原始尺寸(WxH)。将该重新缩放的掩模表示为Mj。该掩模内的元素被矢量化并且被表示为mkj,其中k在[0,1,2,...WxH-1]中。掩模像素mkj的值为0意味着它不被认为是在平滑区域内,而值为1意味着它是在平滑区域内部。
步骤3:平滑区域内部的非零8位SDR像素的直方图
对平滑区域内部的那些非零值8位SDR像素计算直方图。程序2中提供了示例程序。将直方图表示为gi[]。在具有该直方图之后,将小值条目清空。首先,获得非零条目的平均值。
Figure GDA0002847599220000101
如果gi[]小于
Figure GDA0002847599220000102
则将该条目重置为0。
Figure GDA0002847599220000103
Th的典型值为0.5。
可以执行另一轮中值滤波(5个抽头)以去除直方图中的噪声。
Figure GDA0002847599220000104
程序2
Figure GDA0002847599220000105
Figure GDA0002847599220000111
步骤4:产生直方图集群(cluster)
在直方图中可能存在若干个集群。考虑多个集群出现的示例。以EL中的有限码字大小为约束条件,来自直方图的、仅用于码字范围放大的某个范围可以被选择。最大的集群例如可以被选择作为用于CRA的集中区域。
可以通过检查两个邻近的经滤波的直方图的值
Figure GDA0002847599220000113
Figure GDA0002847599220000114
是否被切换(toggle)来收集集群。程序3中示出了示例程序。
程序3
Figure GDA0002847599220000112
Figure GDA0002847599220000121
步骤5:从最大集群选择枢轴点
如果从前一步骤没有集群产生,则不需要裁剪(因此,没有EL)。如果存在多个集群,则可以选择最大的集群。其它标准也可以用于选择集群。如果码字范围窄,则可以视为不需要地跳过裁剪。假定集群L是最大的集群。该集群的起始条目是cluster_start[L],并且结束条目是cluster_end[L]。程序4中提供了示例程序。
还获得整个图像中的最大(Smax)值和最小(Smin)值以及中间值。
Smed=(Smax+Smin)/2;
程序4
Figure GDA0002847599220000122
Tc可以被设置为例如4。
码字范围放大中的场景级枢轴点选择
在场景级,对于所有帧都保持相同的裁剪值以确保EL中的编码效率。可以使用多数表决法。
如果需要高裁剪,则选择Sh的最小值。
如果需要低裁剪,则选择Sl的最大值。
码字范围放大方法的总结
下面描述用于位深增强的示例过程:
1)找到帧级裁剪阈值和场景级裁剪阈值。
2)使用裁剪阈值来改变预测曲线。
3)输出层间预测器元数据(IPM)。
4)使用裁剪的预测来执行预测以得到预测的16位SDR:
Figure GDA0002847599220000131
5)获得原始16位SDR和预测的SDR之间的残差并且应用残差掩模:
Figure GDA0002847599220000132
6)对EL进行量化并且将EL压缩为EL流。
多层架构
当所需的码字范围大(比如说,超过128个码字)时,放大可能不足以克服条带状伪影,因为它只是通过EL中的8位量化器来对BL中的7位数据重新量化,这等同于9位数据精度。为了克服该问题,可以使用多EL架构。可选地,可以将多层EL布局在一个大的平面中并且可以仅用一个编解码器来对多层EL进行编码。
多层架构以以下方式工作:以低裁剪作为示例。预测具有相同的运算:
Figure GDA0002847599220000133
对于具有BL中的小于Sl的码字和原始高位深值的像素的差异被编码在所有的EL中。
Figure GDA0002847599220000141
该残差量可以被进一步低裁剪到多个BL中。对于2层EL,设置新的阈值Sl2,其中Sl2<Sl
在第一EL中,
ri (EL1)=((si≥Sl2)&&(si<Sl))?(vi-Sl):0
在第二EL中,
ri (EL2)=(si<Sl2)?(vi-Sl2):0
例如,如果Sl=128并且Sl2=64,则EL1将覆盖BL中码字范围为64~128(6位精度)的像素;并且EL2将覆盖BL中码字范围为0~63(6位精度)的像素。原始高位深数据和裁剪的预测值之间的差可以被编码为8位编解码器范围。可以利用来自原始高位深视频的新数据、使用EL中的8位精度来放大BL中的原始6位精度。因此,可以进一步减小条带状伪影。
高裁剪也可以以类似的方式进行。
多个EL可以在多个编码器中被编码,所以每层具有它自己的编解码器;或者,多个EL可以在一单个视频平面中被并排地布置并且使用一个编解码器、但利用多个时间维度来对它们进行编码。解码可以以类似的方式进行。
恒定值区域应当更易于编码,并且应当需要减少数量的位。大多数的位将被花费在被裁剪的区域上,这些被裁剪的区域是高位深(即,原始图像质量)。
任意区域(中间色调)中的码字范围放大
有时条带状区域出现在中间色调中。可以以与双端(dual-end)情况类似的方式放大该码字范围。
首先,将SDR范围划分成K个段,这些段是通过枢轴点pv0,pv1,pv2,…pvK划分的。那些枢轴点应当覆盖将被放大的感兴趣范围。例如,pvk和pvk+1分别是要被放大的第k段的最小SDR值和最大SDR值。
用于感兴趣的段的预测器可以被设置为恒值,例如:
Figure GDA0002847599220000151
否则(在感兴趣的段的外部),可以使用默认预测器:
Figure GDA0002847599220000152
可以将范围进一步划分成若干个小范围,所以每个范围可以被进一步放大。
示例1—低码字裁剪
图7A-7G示出了其中对低码字值进行裁剪的CRA的示例。
图7A示出了相对于像素位置的初始16位SDR值。
图7B示出了相对于像素位置的8位SDR值。经量化的8位SDR信号是从原始16位SDR产生的,并且该8位SDR将在BL编码器中被压缩。
图7C示出了相对于像素位置的预测的16位SDR值。预测模块可以是分段2次多项式。该预测模块可以裁剪低于和/或高于阈值(一个或多个)的信号。在这种情况下,它裁剪低于阈值的值,因此值在区域(例如,暗的阴影)内变得恒定。
图7D示出了相对于像素位置的残差掩模值。由于高于阈值的BL码字的增强将使位速率增大到超过所需要的,所以那些区域将利用该掩模(其中1指示编码将发生的地方,并且0指示编码将不发生的地方)而被从EL编码中排除。
图7E示出了相对于像素位置的经掩蔽的残差。在预测模块之后,获得原始16位SDR和预测的16位SDR值之间的残差。可以对其SDR值高于低阈值的像素部署残差掩模,因为该范围内的码字不需要多于8位。将该范围中的残差设置为0可以进一步减小位速率。
图7F示出了相对于像素位置的8位EL。NLQ模块可以将残差量化为最大可用位深。在这种情况下,它是8位。换句话说,对于那些被低裁剪的区域,使用8位量化器来进行更精细的量化。
图7G示出了相对于像素位置的最终的组成信号(预测的16位SDR+残差)。被低裁剪的区域中的更精细的量化可以达到较少的量化误差,由此减小该区域中的条带状伪影。
示例2—高和低码字裁剪
图8A-8G示出了其中同时对低码字值和高码字值进行裁剪的CRA的示例。
图8A示出了相对于像素位置的初始16位SDR值。
图8B示出了相对于像素位置的8位SDR值。经量化的8位SDR信号是从原始16位SDR产生的,并且该8位SDR将在BL编码器中被压缩。
图8C示出了相对于像素位置的预测的16位SDR值。预测模块可以是分段2次多项式。该预测模块可以裁剪低于和/或高于阈值(一个或多个)的信号。在这种情况下,它裁剪低于低阈值和高于高阈值的值,因此值在两个区域(一个黑暗,一个明亮)内变得恒定,其中一个恒定值用于黑暗区域,并且另一个恒定值用于明亮区域。
图8D示出了相对于像素位置的残差掩模值。由于低阈值和高阈值之间的BL码字的增强将使位速率增加到超过所需要的,所以那些区域将利用该掩模(其中1指示编码将发生的地方,并且0指示编码将不发生的地方)而被从EL编码中排除。
图8E示出了相对于像素位置的经掩蔽的残差。在预测模块之后,获得原始16位SDR和预测的16位SDR值之间的残差。可以对其SDR值在低阈值和高阈值之间的像素部署残差掩模,因为该范围内的码字不需要多于8位。将该范围中的残差设置为0可以进一步减小位速率。
图8F示出了相对于像素位置的8位EL。NLQ模块可以将残差量化为最大可用位深。在这种情况下,它是8位。换句话说,对于两个被裁剪的区域,使用8位量化器来进行更精细的量化。注意区域之间的明显不连续:如果使用有损压缩,则可能创建其它伪影。
图8G示出了相对于像素位置的最终的组成信号(预测的16位SDR+残差)。被低裁剪的区域和被高裁剪的区域中的更精细的量化可以达到较少的量化误差,由此减小那些区域中的条带状伪影。
硬件
图9是用于实现图1至8G、图10和图11的实施例的目标硬件(10)(例如,计算机系统)的示例性实施例。该目标硬件包括处理器(15)、存储器组(20)、本地接口总线(35)以及一个或多个输入/输出设备(40)。处理器可以执行与图1至图8G、图10和图11的实现相关的并且如由操作系统(25)基于存储在存储器(20)中的某个可执行程序(30)提供的一个或多个指令。这些指令经由本地接口(35)并且如由特定于本地接口和处理器(15)的某个数据接口协议规定的那样被携载到处理器(15)。应当注意,本地接口(35)是一般旨在在基于处理器的系统的多个元件之间提供地址、控制和/或数据连接的若干个元件(诸如控制器、缓冲器(高速缓存)、驱动器、中继器和接收器)的符号表示。在一些实施例中,处理器(15)可以配备某个本地存储器(高速缓存),其中它可以为某个增加的执行速度而存储要被执行的指令中的一些。处理器对指令的执行可能需要使用某个输入/输出设备(40),诸如从存储在硬盘上的文件输入数据、从键盘输入命令、从触摸屏输入数据和/或命令、将数据输出到显示器、或将数据输出到USB闪速驱动。在一些实施例中,操作系统(25)通过作为收集执行程序所需的各种数据和指令并且将这些提供给微处理器的中央元件来促进这些任务。在一些实施例中,操作系统可以不存在,并且所有的任务都在处理器(15)的直接控制之下,但是目标硬件设备(10)的基本架构将保持与图9中描绘的相同。在一些实施例中,可以以并行配置使用多个处理器以用于增加执行速度。在这样的情况下,可执行程序可以对并行执行进行专门定制。此外,在一些实施例中,处理器(15)可以执行图1至8G、图10和图11的实现的一部分,而某个其它部分可以使用放置在目标硬件(10)经由本地接口(35)可访问的输入/输出位置处的专用硬件/固件来实现。目标硬件(10)可以包括多个可执行程序(30),其中每一个可以独立地或彼此组合地运行。
示例过程
图10示出了创建掩模以用于增强(增大)较低动态范围(例如,SDR)输入视频信号的位深的过程的示例的流程图。在信号被输入(1010)之后,可以检测码字的平滑区域(1020)。这些平滑区域可以通过例如应用一个或多个形态算子来使孔被去除(1030)。然后,可以产生非零像素的直方图(1040),并且可以找到直方图内的集群(1050)。在这些集群之中,可以确定至少一个最大的集群(1060)。可替代地,可以根据除了大小之外的不同标准来选择来自集群的特定集群,并且可以选择多于一个的集群。从被选择的一个集群或多个集群,可以找到勾画像素的特定区域的枢轴点(1070)。这些枢轴点还可以用于控制预测过程(2010)。那些枢轴点还可以用于产生掩模(1080)以帮助产生残差(2020)并且隔离要被给予较高位深的区域以便减小最终图像中那些区域中的条带影响。
图11示出了描绘用于创建增强层的预测的示例过程的流程图。可以使用确定的枢轴点(2010)来修改预测曲线(1110)。可以使用该新曲线来产生被裁剪的预测的更高位深信号(1120)和产生层间预测元数据(1125)。然后可以从预测(1120)和掩模(2020)编码残差(1130)。该残差然后可以被量化(1140)、下采样(1150)和/或压缩(1160)。
图12示出了用于CRA方法的示例编码器/解码器系统。SDR输入(1205)被编码器(1210)编码。这可以例如是16位SDR,其中编码器(1210)从该16位SDR创建8位分辨率SDR。在另一个实施例中,可以在编码器外部产生8位SDR,并且输入(1205)实际上是两个输入,一个用于原始16位SDR,并且另一个用于导出的8位SDR。编码器(1210)可以使用CRA方法来创建增强层输出(1240)、基本层输出(1260)和层间预测元数据输出(1250)。这些输出(1240、1250、1260)可以被传输到解码器(1220)。解码器(1220)然后可以使用增强层数据(1240)、基本层数据(1260)和层间预测元数据(1250)来通过使用CRA方法增强SDR位深。逆向显示管理元数据(1255)可以被解码器(1220)使用以产生EDR输出(1295)。
总结
在本文档中,我们提出了码字范围放大方法来克服逆向DM应用中的低位深问题。码字范围放大选择感兴趣的码字范围,并且经由预测函数迫使它们为恒定值。然后,在EL中对原始高位深SDR和该恒定值之间的差进行编码,EL具有比其原始范围多的码字。因此,我们可以增强与位深相关的视频质量,诸如减轻条带状伪影。我们还提出了裁剪阈值选择算法,所以参数可以被自动地选择。我们已经在两个全长视频序列中测试了所提出的解决方案,并且观察到所提出的方法与仅8位视频相比显著地改进了质量。
已经描述了本公开的多个实施例。尽管如此,将理解的是,在不脱离本公开的精神和范围的情况下,可以进行各种修改。因此,其它实施例在以下权利要求的范围内。
以上阐述的示例是作为如何做出和使用本公开的实施例的完整公开和描述提供给本领域的普通技术人员的,而并非意图限制发明人(一个或多个)认作他们的公开的范围。
对于本领域技术人员明显的、用于实现本文所公开的方法和系统的上述模式的修改意图在以下权利要求的范围内。本说明书中提及的所有专利和公开指示本公开有关的领域中的技术人员的水平。本公开中引用的所有参考文献都通过引用而被并入,达到如同每个参考文献已经单独地通过其整体引用而被并入一样的相同程度。
要理解的是,本公开不限于当然可以变化的特定方法或系统。还要理解的是,本文所使用的术语仅仅是出于描述特定实施例的目的,而非意图是限制性的。如在本说明书和所附权利要求书中所使用的,单数形式“一个”和“该”包括复数指代物,除非内容清楚地另外规定。术语“多个”包括两个或更多个指代物,除非内容清楚地另外规定。除非另外定义,否则本文所使用的所有技术和科学术语都具有与本公开有关的领域的普通技术人员通常所理解的相同的含义。

Claims (21)

1.一种用于增强视频信号的位深的方法,所述方法包括:
接收第一标准动态范围SDR视频信号;
接收从所述第一SDR视频信号导出的第二SDR视频信号,所述第二SDR视频信号具有比所述第一SDR视频信号低的位深;
确定低码字阈值Sl和/或高码字阈值Sh,所述低码字阈值Sl和/或高码字阈值Sh界定所述第二SDR视频信号内的感兴趣区域的整个码字范围,其中,所述第二SDR视频信号内的感兴趣区域的整个码字范围是码字值在所述低码字阈值Sl以下的范围和/或码字值在所述高码字阈值Sh以上的范围;
从所述第二SDR视频信号产生预测的SDR视频信号,其中,产生预测的SDR视频信号包括基于所确定的低码字阈值Sl和/或所确定的高码字阈值Sh将所述第二SDR视频信号中的确定的码字范围内的所有码字设置为恒定码字值;
产生选择低于所述低码字阈值Sl和/或高于所述高码字阈值Sh的码字值的掩模;
将所述第一SDR视频信号和预测的SDR视频信号之间的、被用所产生的掩模掩蔽的残差编码到增强层中;
从所述第二SDR视频信号产生层间预测器元数据;和
从所述第二SDR视频信号产生基本层;以及
由此提供所述增强层、层间预测器元数据和基本层用于解码。
2.根据权利要求1所述的方法,进一步包括:
将所述增强层、层间预测器元数据和基本层传输到解码器;以及
在所述解码器处基于所述基本层、增强层和层间预测器元数据产生增强的SDR视频信号。
3.根据权利要求1或2所述的方法,其中,所述高码字阈值Sh界定感兴趣的明亮区域。
4.根据权利要求1或2所述的方法,其中,所述低码字阈值Sl界定感兴趣的黑暗区域。
5.根据权利要求1或2所述的方法,进一步包括:
检测码字的平滑区域;以及
连接码字的平滑区域。
6.根据权利要求5所述的方法,其中,所述连接平滑区域包括使用至少一个形态算子。
7.根据权利要求6所述的方法,进一步包括:
计算所述平滑区域中的非零像素的直方图;以及
收集所述直方图中的集群。
8.根据权利要求7所述的方法,进一步包括:
确定所述集群中的最大集群;并且
其中,确定所述低码字阈值Sl和/或高码字阈值Sh包括选择所述最大集群的枢轴点。
9.根据权利要求1所述的方法,其中,所述第二SDR视频信号是8位标准动态范围视频信号。
10.根据权利要求9所述的方法,其中,所述第一SDR视频信号包括16位标准动态范围视频信号。
11.根据权利要求1或2所述的方法,其中,产生增强的码字进一步包括所述增强层的非线性去量化和所述基本层的预测。
12.根据权利要求1或2所述的方法,进一步包括基于进一步确定的码字阈值将进一步选择的感兴趣区域和进一步的恒值之间的差编码到多个增强层中。
13.一种被配置为执行根据权利要求1所述的方法的编码器,所述编码器包括:
预测引擎,所述预测引擎被配置为创建层间预测器元数据和预测的SDR视频信号;
掩模模块,所述掩模模块被配置为创建掩模;
残差模块,所述残差模块提供所述第一SDR视频信号和预测的SDR视频信号之间的残差;
掩模应用模块,所述掩模应用模块被配置为将掩模应用于所述残差以创建经掩蔽的残差;以及
量化器,所述量化器采用所述经掩蔽的残差和层间预测器元数据来生成增强层。
14.根据权利要求13所述的编码器,进一步包括连接到基本层解压缩模块的基本层压缩模块,所述基本层压缩模块为所述编码器提供基本层输出,并且所述基本层解压缩模块为所述预测引擎和掩模模块提供输入。
15.根据权利要求13或14所述的编码器,其中,所述量化器是非线性量化器。
16.根据权利要求13或14所述的编码器,进一步包括从所述量化器的输出获取输入的增强层压缩模块。
17.根据权利要求16所述的编码器,进一步包括在所述量化器和增强层压缩模块之间的下采样模块。
18.一种解码器,包括:
由根据权利要求13所述的编码器产生的增强层输入、基本层输入和层间预测器元数据输入;
去量化器,所述去量化器连接到所述增强层输入和层间预测器元数据输入并且被配置为使用所述层间预测器元数据对所述增强层输入进行去量化;
预测引擎,所述预测引擎连接到所述基本层输入和层间预测器元数据输入并且被配置为使用所述层间预测器元数据将预测映射应用于所述基本层输入;以及
逆向显示管理模块,所述逆向显示管理模块被配置为通过增强的SDR视频信号的SDR到EDR转换来提供增强的动态范围EDR信号输出,所述增强的SDR视频信号从所述去量化器的输出和所述预测引擎的输出的组合获得。
19.根据权利要求18所述的解码器,其中,所述去量化器是非线性去量化器。
20.根据权利要求18或19所述的解码器,进一步包括连接到所述逆向显示管理模块的逆向显示管理元数据输入。
21.一种用于增强输入的SDR视频信号的位深的系统,所述系统包括:
根据权利要求13所述的编码器;以及
根据权利要求18所述的解码器。
CN201680043979.8A 2015-07-28 2016-07-26 用于增强视频信号的位深的方法、编码器、解码器和系统 Active CN107852502B (zh)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US201562198073P 2015-07-28 2015-07-28
US62/198,073 2015-07-28
PCT/US2016/044102 WO2017019704A2 (en) 2015-07-28 2016-07-26 Sdr bit depth enhancement via codeword range amplification in a codec with inverse display management

Publications (2)

Publication Number Publication Date
CN107852502A CN107852502A (zh) 2018-03-27
CN107852502B true CN107852502B (zh) 2021-07-20

Family

ID=56801773

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201680043979.8A Active CN107852502B (zh) 2015-07-28 2016-07-26 用于增强视频信号的位深的方法、编码器、解码器和系统

Country Status (4)

Country Link
US (1) US10834407B2 (zh)
EP (1) EP3329676B1 (zh)
CN (1) CN107852502B (zh)
WO (1) WO2017019704A2 (zh)

Family Cites Families (17)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP2051527A1 (en) 2007-10-15 2009-04-22 Thomson Licensing Enhancement layer residual prediction for bit depth scalability using hierarchical LUTs
WO2009051704A1 (en) 2007-10-16 2009-04-23 Thomson Licensing Methods and apparatus for artifact removal for bit depth scalability
CN101916440B (zh) 2010-08-09 2012-06-06 哈尔滨工程大学 基于数字图像形态学理论的高光谱异常检测方法
TWI538473B (zh) 2011-03-15 2016-06-11 杜比實驗室特許公司 影像資料轉換的方法與設備
US8873877B2 (en) * 2011-11-01 2014-10-28 Dolby Laboratories Licensing Corporation Adaptive false contouring prevention in layered coding of images with extended dynamic range
TWI575933B (zh) 2011-11-04 2017-03-21 杜比實驗室特許公司 階層式視覺動態範圍編碼中之層分解技術
US9219916B2 (en) * 2012-06-12 2015-12-22 Dolby Laboratories Licensing Corporation Joint base layer and enhancement layer quantizer adaptation in EDR video coding
UA111797C2 (uk) 2012-09-27 2016-06-10 Долбі Лабораторіс Лайсензін Корпорейшн Обробка міжрівневого еталонного зображення для масштабованості стандартів кодування
TWI521946B (zh) 2012-12-21 2016-02-11 杜比實驗室特許公司 在高位元深度視訊的可適性編碼中,高精度升取樣
EP2941872B1 (en) 2013-01-02 2018-09-26 Dolby Laboratories Licensing Corporation Backward-compatible coding for ultra high definition video signals with enhanced dynamic range
JP6205000B2 (ja) 2013-03-11 2017-09-27 ドルビー ラボラトリーズ ライセンシング コーポレイション 階層符号化を用いたマルチフォーマットハイダイナミックレンジビデオの配信
US9628808B2 (en) 2013-03-26 2017-04-18 Dolby Laboratories Licensing Corporation Encoding perceptually-quantized video content in multi-layer VDR coding
US9998735B2 (en) 2013-04-01 2018-06-12 Qualcomm Incorporated Inter-layer reference picture restriction for high level syntax-only scalable video coding
US9712834B2 (en) 2013-10-01 2017-07-18 Dolby Laboratories Licensing Corporation Hardware efficient sparse FIR filtering in video codec
KR20150043222A (ko) * 2013-10-12 2015-04-22 삼성전자주식회사 멀티 레이어 비디오 부호화 방법 및 그 장치, 멀티 레이어 비디오 복호화 방법 및 그 장치
WO2015077329A1 (en) 2013-11-22 2015-05-28 Dolby Laboratories Licensing Corporation Methods and systems for inverse tone mapping
US10244245B2 (en) * 2015-06-08 2019-03-26 Qualcomm Incorporated Content-adaptive application of fixed transfer function to high dynamic range (HDR) and/or wide color gamut (WCG) video data

Also Published As

Publication number Publication date
WO2017019704A3 (en) 2017-03-16
CN107852502A (zh) 2018-03-27
EP3329676B1 (en) 2020-07-29
WO2017019704A2 (en) 2017-02-02
EP3329676A2 (en) 2018-06-06
US10834407B2 (en) 2020-11-10
US20180376146A1 (en) 2018-12-27

Similar Documents

Publication Publication Date Title
US11375193B2 (en) System for coding high dynamic range and wide color gamut sequences
US9607364B2 (en) Methods and systems for inverse tone mapping
JP5638731B1 (ja) 拡張ダイナミックレンジをもつ画像の階層式符号化における適応的な偽輪郭生成防止
CN103493490B (zh) 非线性视觉动态范围残留量化器
CN107771392B (zh) 用于高动态范围图像的实时内容自适应感知量化器
JP2009533902A (ja) Dcシフトアーチファクトに対する量子化調整
CN112585969B (zh) 用于减少目标图像中的条带伪影的方法、装置及存储介质
CN112771567B (zh) Sdr到hdr图像转换中的图像去噪
US9767542B2 (en) Method and device for selecting an image dynamic range conversion operator
CN113016182B (zh) 减少后向兼容hdr成像中的条带伪影
JP2019530309A (ja) シングルレイヤー後方互換性コーデックのリアルタイム再構成
US20160127736A1 (en) Encoding and decoding methods for adapting the average luminance of high dynamic range pictures and corresponding encoder and decoder
KR101818900B1 (ko) 향상된 동적 범위를 갖는 신호들에 대한 계층간 예측
CN108353173B (zh) 用于高动态范围视频编码的分段线性层间预测器
CN107852502B (zh) 用于增强视频信号的位深的方法、编码器、解码器和系统
CN109314787B (zh) 用于高动态范围视频编码的增强层掩蔽
WO2016123001A1 (en) Predictive image encoding and decoding with pixel group based quantization
EP3308541A1 (en) System for coding high dynamic range and wide color gamut sequences

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant