CN109314787A - 用于高动态范围视频编码的增强层掩蔽 - Google Patents

用于高动态范围视频编码的增强层掩蔽 Download PDF

Info

Publication number
CN109314787A
CN109314787A CN201780031566.2A CN201780031566A CN109314787A CN 109314787 A CN109314787 A CN 109314787A CN 201780031566 A CN201780031566 A CN 201780031566A CN 109314787 A CN109314787 A CN 109314787A
Authority
CN
China
Prior art keywords
image
threshold value
value
layer
method described
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201780031566.2A
Other languages
English (en)
Other versions
CN109314787B (zh
Inventor
李政其
苏冠铭
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Dolby Laboratories Licensing Corp
Original Assignee
Dolby Laboratories Licensing Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Dolby Laboratories Licensing Corp filed Critical Dolby Laboratories Licensing Corp
Publication of CN109314787A publication Critical patent/CN109314787A/zh
Application granted granted Critical
Publication of CN109314787B publication Critical patent/CN109314787B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/30Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using hierarchical techniques, e.g. scalability
    • H04N19/33Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using hierarchical techniques, e.g. scalability in the spatial domain
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/102Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the element, parameter or selection affected or controlled by the adaptive coding
    • H04N19/103Selection of coding mode or of prediction mode
    • H04N19/105Selection of the reference unit for prediction within a chosen coding or prediction mode, e.g. adaptive choice of position and number of pixels used for prediction
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/102Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the element, parameter or selection affected or controlled by the adaptive coding
    • H04N19/124Quantisation
    • H04N19/126Details of normalisation or weighting functions, e.g. normalisation matrices or variable uniform quantisers
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/134Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the element, parameter or criterion affecting or controlling the adaptive coding
    • H04N19/146Data rate or code amount at the encoder output
    • H04N19/149Data rate or code amount at the encoder output by estimating the code amount by means of a model, e.g. mathematical model or statistical model
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/169Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding
    • H04N19/187Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding the unit being a scalable video layer
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/134Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the element, parameter or criterion affecting or controlling the adaptive coding
    • H04N19/154Measured or subjectively estimated visual quality after decoding, e.g. measurement of distortion

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Physics & Mathematics (AREA)
  • Algebra (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Analysis (AREA)
  • Mathematical Optimization (AREA)
  • Pure & Applied Mathematics (AREA)
  • Compression Or Coding Systems Of Tv Signals (AREA)

Abstract

呈现了一种改进双层系统中的对高动态范围(HDR)信号进行编码的效率的方法。设计分段线性、两段式层间预测器,在该预测器中,大于高亮阈值(Sh)的基本层码字全部被映射到常数值。给定增强层的目标位速率(其可以被表达为基本层的位速率的百分比(β)),通过基于输入HDR信号中的像素的像素复杂度测度和阈值值计算对于基本层和增强层的估计的位速率并且使优化准则最小化来导出最佳的高亮阈值。

Description

用于高动态范围视频编码的增强层掩蔽
相关申请的交叉引用
本申请要求2016年4月19日提交的美国临时专利申请No.62/324,438和2016年4月19日提交的英国专利申请1606808.2的优先权权益,这两篇申请都整个地通过引用并入本文。
技术领域
本发明大体上涉及图像。更具体地说,本发明的实施例涉及确定用于具有高动态范围的图像和视频序列的编码的增强层掩蔽阈值。
背景技术
如本文中所使用的,术语“动态范围”(DR)可以与人类视觉系统(HVS)感知图像中的强度(例如,明亮度(luminance)、亮度(luma))的范围(例如,从最黑暗的黑色(黑暗)到最明亮的白色(高亮))的能力有关。从这个意义上来讲,DR与“场景参考”强度有关。DR还可以与显示设备充分地或大致地渲染特定广度的强度范围的能力有关。从这个意义上来讲,DR与“显示器参考”强度有关。除非特定意义在本文中的描述中的任何点处被明确地指定为具有特定的重要性,否则应推断该术语可以以任何一种意义使用,例如,可互换地使用。
如本文中所使用的,术语高动态范围(HDR)与跨越人类视觉系统(HVS)的大约14-15个数量级的DR广度有关。在实践中,相对于HDR,DR可能有所截断,在DR上,人类可以同时感知到强度范围中的广泛广度。如本文中所使用的,术语增强动态范围(EDR)或视觉动态范围(VDR)可以单个地或可互换地与包括眼睛移动的人类视觉系统(HVS)在场景或图像内可感知的DR有关,允许整个场景或图像上的一些光适应改变。如本文中所使用的,EDR可以与跨越5至6个数量级的DR有关。因此虽然相对于真实的场景参考HDR来说有点窄,但是EDR却表示宽的DR广度,并且也可以被称为HDR。
在实践中,图像包括一个或多个颜色分量(例如,亮度Y以及色度Cb和Cr),其中,每个颜色分量用每像素n个位的精度(例如,n=8)来表示。使用线性明亮度编码,其中n≤8的图像(例如,彩色24位JPEG图像)被认为是标准动态范围的图像,而其中n>8的图像可以被认为是增强动态范围的图像。EDR和HDR图像也可以使用高精度(例如,16位)浮点格式(诸如Industrial Light and Magic开发的OpenEXR文件格式)存储和分发。
如本文中所使用的,术语“元数据”与作为编码的位流的一部分发送并且帮助解码器渲染解码的图像的任何辅助信息有关。这样的元数据可以包括,但不限于,颜色空间或色域信息、参考显示器参数和辅助信号参数,诸如本文中描述的那些。
大多数消费者台式显示器目前支持200至300cd/m2或尼特的明亮度。大部分消费者HDTV在300至500尼特的范围内,新型号达到1000尼特(cd/m2)。这样的常规的显示器因此代表低动态范围(LDR),相对于HDR或EDR,LDR也被称为标准动态范围(SDR)。随着HDR内容的可用性由于捕捉装置(例如,照相机)和HDR显示器(例如,来自于Dolby Laboratories的PRM-4200专业参考监视器)这二者的发展而增长,HDR内容可以被进行颜色分级,并且显示在支持较高动态范围(例如,从700尼特至5,000尼特或更高)的HDR显示器上。如发明人在这里意识到的,用于高动态范围图像的编码和递送的改进技术是期望的。
本节中描述的方法是可以实行的方法,但不一定是以前已经设想过的或实行过的方法。因此,除非另有指示,否则不应仅由于本节中描述的任何方法包括在本节中就假定该方法有资格作为现有技术。类似地,关于一种或多种方法认定的问题不应基于本节而被假定为已经在任何现有技术中被认识到过,除非另有指示。
附图说明
本发明的实施例在附图的各图中被以举例的方式、而非限制的方式示出,在附图中,相似的附图标记指代类似的元件,其中:
图1描绘根据本发明的实施例的用于HDR视频的编码和视频递送的示例处理;
图2A描绘根据现有技术的示例预测器;
图2B描绘根据本发明的实施例的示例预测器;以及
图3描绘根据本发明的实施例的用于确定用于HDR编码中的高亮掩蔽的阈值的示例处理。
具体实施方式
本文中描述高动态范围(HDR)图像的视频编码和递送。在以下描述中,为了说明的目的,对许多特定的细节进行了阐述以便提供本发明的透彻理解。然而,将清楚的是,可以在没有这些特定的细节的情况下实施本发明。在其他情况下,为了避免不必要地封闭、模糊或混淆本发明,不对众所周知的结构和设备进行详尽的描述。
概述
本文中描述的示例实施例涉及确定用于高动态范围图像的分层视频编码和递送的高亮掩蔽阈值的方法。在实施例中,在具有基本层编码器和增强层编码器的双层编码器中,在确定用于这两个层之间的层间预测器的预测函数的方法中,处理器访问第一位深的第一组图像。处理器计算对于第一组图像中的像素值的像素复杂度测度。它接收目标位速率比率(β),β指定编码器的增强层中的目标位速率与基本层中的目标位速率的比率。然后,对于两个或更多个候选高亮阈值值中的每个,处理器基于候选高亮阈值值和像素复杂度测度来计算估计的位速率比率,其中,估计的位速率比率包括针对候选高亮阈值值的、增强层中的估计的位速率与基本层中的估计的位速率的比率,其中,在层间预测器中,对于输入到预测器的大于候选高亮阈值值的所有输入值,对应的预测的输出值是常数值。处理器基于估计的位速率比率和目标位速率比率来计算失真测度,并且将两个或更多个候选高亮阈值值之中的使失真测度最小化的候选阈值值作为最佳的高亮阈值输出。
用于高动态范围(HDR)视频的视频递送
根据蓝光光盘协会编纂的最近的白皮书(其标题为“Audio Visual ApplicationFormat Specifications for BD-ROM Version 3.0”白皮书蓝光光盘只读格式(超HD蓝光),蓝光光盘协议,2015年7月,该白皮书整个地通过引用并入本文),所提出的超HD蓝光标准支持强制性的单层(10位,YCbCr 4:2:0)蓝光光盘电影(BDMV)EDR格式(也被称为HDR10格式)和可选的杜比视觉双层HDR格式。杜比视觉HDR流包括基本层(BL)BDMV EDR视频流和具有相关联的元数据的杜比视觉增强层(EL)视频流。一般的蓝光解码器将仅能够回放HDR10基本层;但是,启用杜比视觉的播放器将能够组合基本层和增强层以生成具有比默认的HDR10流的动态范围更好的动态范围的12位HDR视频输出。
杜比视觉流的特征在于以下几点:
·具有非恒定明亮度的BT.2020原色
·基于SMPTE ST 2084的EOTF(电光传递函数)
·12位的组合BL/EL位深
图1描绘了根据示例实施例的分层HDR编码器架构(100)。在实施例中,基本编码层和增强编码层中的所有视频编码可以在YCbCr4:2:0颜色空间中执行。HDR图像编码器(100)可以由一个或多个计算设备实现。
HDR图像编码器(100)被配置为接收高分辨率(例如,UHD)输入HDR图像(102)。如本文中所使用的,“输入HDR图像”是指可以用于导出输入图像的HDR版本的增强动态范围或高动态范围图像数据(例如,高端图像采集设备等捕捉的原始图像数据)。输入HDR图像(102)可以为支持高动态范围色域的任何颜色格式(例如,RGB、YCbCr、HLG、ICtCp等)。在实施例中,输入HDR图像为12位或更高的YCbCr图像,该图像可能最初在RGB空间中。如本文中所使用的,对于具有多个颜色分量(例如,RGB或YCbCr)的图像,术语n位图像(例如,12位或8位图像)表示其中其颜色分量的每个像素用n位像素表示的图像。例如,在8位RGB图像中,每个像素包括三个颜色分量,每个颜色分量(例如,R、G或B)用8位表示,每个颜色像素总共有24位。
每个像素可以可选地和/或可替代地包括对于颜色空间中的通道中的一个或多个的上采样的或下采样的像素值。应注意到,在一些实施例中,除了三个原色(诸如红色、绿色和蓝色)之外,不同的原色可以在如本文中描述的颜色空间中同时使用,例如,以支持宽色域;在这些实施例中,如本文中描述的图像数据包括这些不同的原色的附加像素值,并且可以通过如本文中描述的技术同时处理。
HDR或HDR10(115)转换器将高位深HDR输入(102)转换为较低深度的BL图像(117)(例如,10位图像)。通常,10位HDR层(117)如何从原始的HDR输入(102)生成超出了任何编码标准的范围。一些实施例可以使用动态范围转换技术,诸如2013年12月4日提交的PCT申请第PCT/US2013/073085中描述的那些,该申请也被作为WO 2014/107255公布,将被称为’085申请,该申请整个地通过引用并入本文。在一些实施例中,给定12位输入HDR(102),10位HDR10流(117)可以通过对两个最低有效位的简单截断而生成。
BL图像编码器(120)被配置为对BL图像(117)进行编码/格式化以生成编码的(或压缩的)BL图像(122)。BL编码器可以是已知的视频编码器中的任何一个,诸如ISO/IEC AVC(ITU H.264)或HEVC(H.265)标准指定的那些编码器或诸如Google的VP9等之类的其他编码器。
HDR图像编码器(100)中的BL解码器(130)将基本层图像容器中的图像数据解码为解码的基本层图像(135)。信号135表示如兼容的接收器将接收的解码的BL。解码的基本层图像(135)不同于BL图像(117),因为解码的基本层图像包括BL编码器(120)和BL解码器(130)执行的编码和解码操作中引入的编码改变、舍入误差和近似。
预测器(140)基于解码的BL流(135)来执行与预测HDR输入信号(102)相关的一个或多个操作。预测器(140)尝试执行HDR到HDR10转换器(115)执行的操作的逆操作。’085PCT申请中描述了这样的预测器的示例实施例。从HDR输入(102)减去预测器输出(143)以生成残差152。
在实施例中,预测器(140)可以是分段线性预测器。预测器(140)中的段的斜率(slope)用于根据按照本发明的方法设计的高亮阈值来掩蔽残差(152)。
在示例实施例中,HDR图像编码器(100)中的增强层量化器(NLQ)(160)被配置为使用通过一个或多个NLQ参数确定的NLQ函数将HDR残差值(152)从高位深数字表示(例如,12位)量化为较低的数据表示(例如,10位或8位)。NLQ函数可以是线性的、分段线性的或非线性的。’085PCT申请中描述了非线性NLQ设计的例子。本说明书中稍后还将呈现另一实施例。
增强层(EL)编码器(170)被配置为对增强层图像容器中的残差值进行编码以生成编码的EL流(172)。EL编码器(170)可以是已知的视频编码器中的任何一个,诸如ISL/IECAVC或HEVC标准指定的那些编码器或诸如Google的VP9等之类的其他编码器。EL编码器和BL编码器可以是不同的,或者它们可以是相同的。
预测器(140)和NLQ(160)中使用的参数集可以被作为补充增强信息(SEI)或视频位流(例如,增强层中的视频位流)中可以作为元数据(142)使用的其他类似的元数据载体的一部分发送到下游设备(例如,HDR解码器)。这样的元数据可以包括,但不限于,与以下有关的信息:颜色空间或色域信息、动态范围信息、音调映射信息、或其他预测器、向上扩展以及量化器算子,诸如本文中描述的那些。
在生成分层HDR流的所有部分之后,对编码的EL流(172)、编码的BL流(122)和相关的元数据(142)进行复用和包化(packetize)以使得它们可以被存储在存储介质中和/或被发送到解码器。
在双层系统(诸如图1中描绘的系统)中,增强层的主要功能是补偿基本层的缺失信息。即使当增强层正被采用时,生成基本层的位缩减与SMPTE 2084或色域编码的特性组合也可以导致编码伪像,诸如带状、块状或渗色。
如本文中使用的术语“PQ”是指感知量化。人类视觉系统以非常非线性的方式对增大的光级做出响应。人类看见刺激的能力受以下方面的影响:该刺激的明亮度、该刺激的大小、构成该刺激的空间频率(一个或多个)、以及眼睛在人正在看该刺激的特定时刻已经适应的明亮度级。在优选实施例中,感知量化器函数将线性输入灰度级映射到与人类视觉系统中的对比度灵敏度阈值较好地匹配的输出灰度级。SMPTE ST 2084规范中给出了PQ映射函数的例子,在SMPTE ST 2084规范中,给定固定的刺激大小,对于每一个明亮度级(即,刺激级),根据最灵敏的适应级和最灵敏的空间频率(根据HVS模型)来选择该明亮度级处的最小可见对比度步长。与表示物理阴极射线管(CRT)设备的响应曲线并且巧合地可以具有与人类视觉系统的响应方式非常粗略的相似性的常规色域曲线相比,如SMPTE ST 2084中描述的PQ曲线使用相对简单的函数模型来模拟人类视觉系统的真实视觉响应。
已经观察到,PQ编码在黑暗的区域中分配比高亮中更多的码字。结果,在编码期间,高亮中带状和块状伪像或渗色的出现增加。本发明的一个目标是提供减小这样的编码伪像的方法。
在本文中描述的方法中,通过使用被表示为码字范围放大(CRA)的方法来增强输出的视觉质量。简单地说,该方法如下操作。将基本层(BL)中的位深表示为b(例如,b=10),那么BL中的码字的总数为B=2b,并且每个未规范化的码字值在[0,B-1]之间。考虑基本层码字Sh<B-1以使得基本层中的大于Sh的所有码字用相同的值Vh预测。如果增强层仅用于大于Sh的所有基本层码字,则[Sh,B-1]中的所有码字的对应的残差(152)具有较多的“图像状(image-like)”表示,并且可以被较高效地编码,从而减小编码伪像。下一节中描述根据失真模型确定最佳的Sh阈值的方法。
所提出的方法与现有的支持解码期间的分段线性或非线性预测的杜比视觉解码器完全兼容。
码字范围放大
在典型的双层预测编解码器中,增强层被配置为直接对原始输入及其预测值之间的残差(152)进行编码。如早先所讨论的,在HDR编码系统(100)中,该残差表示具有非常难以压缩的高频噪声数据的统计特性的高动态输入(102)的最低有效位。在本发明中,掩蔽操作(145)限制将被增强层编码的数据的量。该掩蔽与非线性量化器(160)组合使得EL编码器(170)可以对更小范围的图像状输入数据使用更多的编码位,因此所需的增强层的位速率远小于传统的双层编码器。
设vi表示HDR输入(102)中的第i像素,该像素通常是至少12位,并且可以使用PQ或色域EOTF来编码。设si表示基本层(例如,HDR10(117))中的第i像素。在实施例中,没有限制,vi和si这二者可以被规范化以具有[0 1)之间的值。将基本层(BL)中的位深表示为b(例如,b=10),则BL中的码字的总数为B=2b,并且每个未规范化的码字值在[0,B-1]之间。
图2A描绘了根据现有技术的传统的分段预测函数(205)的例子。预测函数可以使用N个枢轴点p1,p2,…,pN被划分为线性段或非线性段。预测器的输出可以被约束在范围(Vl,Vh)内,该范围表示所考虑的帧或场景中的测得的最小像素值和最大像素值之间的范围。设计这样的预测器的方法的例子可以在以下申请中找到:G-M Su等人提交的PCT申请第PCT/US2015/014482号(作为WO 2015/123067公布),“Piecewise inter-layer predictorfor signals with enhanced dynamic range”;以及2015年11月2日提交的美国临时专利申请第62/249,779号,“Piecewise-linear inter-layer predictor for high-dynamicrange coding”,其也被作为2016年10月26日提交的PCT申请第PCT/US2016/058906号提交,其中每篇申请都整个地通过引用并入本文。
图2B描绘了根据实施例设计的预测函数(210)的例子。如图2B中所描绘的,预测器仅具有两个段,[0,Sh]的线性段和高于Sh的任何值的常数段。因此,对于大于Sh的输入码字,残差仅为输入HDR图像与常数的差。这样的残差具有比噪声性质更多的图像状性质,因此它更易于压缩。在掩蔽(145)之后,掩蔽的残差(152)可以被表示为:
设计挑战是识别最佳的阈值Sh
非线性量化
非线性量化器(NLQ)(160)的参数可以使用’085申请中的方法来选择。例如,将帧f中的最大正残差值表示为并且将帧f中的最小负残差值的绝对值表示为或者
其中,p表示帧f中的像素的数量。
对于具有F个帧的场景,可以找到所有的F个帧中的的最大值和所有的F个帧中的的最小值,例如,
给定增强层编码器的位深EL_bitdepth(例如,10位),对于整个场景的NLQ设置可以如下调整:
其中,Δ是很小的常数。
其中,T是相对小的数,在一些实施例中,T=0。
于是,给定输入残差r,在将r裁剪在范围(-XMAX,XMAX)内之后,(160)中的量化操作可以被表达为:
其中,Q(r)表示量化的输出,SL表示Q(r)在(T,XMAX)内的斜率,Offset值表示当残差r=0时的输出码字。
参数T、Offset、XMAX和SL(或Level)可以针对残差信号r的每个颜色分量单独定义,并且可以使用元数据被传送给接收器。在一些实施例中,NLQ量化参数中的一个或多个也可以针对整个帧、帧的一个或多个部分或子区域、或者针对一组帧(例如,场景)定义。
选择掩蔽阈值Sh
从图2B,较高的掩蔽阈值Sh允许在增强层中将被编码的输入码字的数量较少,从而使得量化更精细,但是它涵盖的高亮像素值的范围较小。较低的阈值值得到较粗略的量化,但是支持较宽的高亮范围。最佳的阈值(可以根据某个准则使总失真最小化的阈值)可以如下导出。
设b表示输入HDR流vi的位深。表示集合以表示具有像素值的像素索引。集合Φm中的元素的数量为hm。因此,所有的(规范化的){vi}像素的直方图可以被表示为具有2b个区间的{hi}。没有限制,帧中的像素复杂度或活度的一个测度是局部像素方差或标准差。例如,设ni为以像素i为中心的Wσ×Wσ块(例如,Wσ=8或16)。在实施例中,像素i的局部标准差σi可以如下计算:
然后,给定具有值m的所有像素值,它们的累积标准差可以如下计算:
类似地,区间m处的平均标准差由以下方程给出:
在实施例中,计算wm值的例子在下面用伪代码示出。
以上代码考虑到,最现代的图像和视频编解码器(诸如AVC和HEVC)是基于块的,并且通常图像块的标准差提供根据期望的目标位速率调整其量化的非常好的度量。本领域技术人员将意识到,基于输入码字的标准差的度量仅表示预测每个码字分派的位的一种方式,并且如本领域中已知的替代的像素复杂度方法可以被应用。
在大多数编码系统中,分派给基本层和增强层这两层的组合位速率是基于存储要求和/或流传输要求指定的。设RBL表示基本层的目标位速率,设β表示对于增强层所允许的BL位速率的百分比(例如,20%)。采用基于给定帧内的活度的函数的位速率控制,基本层的位速率可以被近似为:
其中,fBL(gm,RBL)表示基于BL编解码器的位深和目标位速率RBL的位分派函数。
给定阈值Sh,并且假定只有大于Sh的码字在增强层中被编码,增强层中的位速率分派可以使用以下方程来近似:
其中,fEL(gm,REL)表示基于EL编解码器的位深和目标位速率REL的位分派函数。在实施例中,可以假定fEL和fBL函数如以下方程中那样经由传递函数ft()互相关联。
fEL(·,·)=ft(fBL(·,·)) (12)
当两个层都使用相同的编解码器并且在相同位深(比如说,HEVC Main 10)处时,在实施例中,ft()函数可以被建模为如以下方程中的具有恒定斜率α(例如,α=0.8)的简单的线性函数:
ft(x)=α·x (13)
考虑最佳的阈值
表示近似的位速率的比率,该比率需要尽可能地接近目标β比率。给定方程(12)、方程(14)得到:
在两个编码器中的量化器经由线性函数关联的简化的情况下,从方程(13)、方程(15)得到:
于是,最佳的阈值可以如下按照使估计的和目标位比率β之间的差最小化的阈值来找到:
实验结果表明使用方程(17)计算的阈值非常接近通过测量编码的图像的峰值信噪比(PSNR)并且选择使PSNR最大化的阈值而计算的阈值。
从计算观点来讲,注意到给定wm值,(16)中的分母只需要计算一次。在计算分母之后,计算(17)仅涉及对从Sh 2b至B-1的码字计算缩放的wm值的运行(running)和。通常,将基于每个场景计算阈值;然而,可以对每帧计算阈值,或者也可以每个帧-区域计算阈值。就解码而言,预测函数(210)可以用用枢轴Sh分隔的两个线性函数来表示。第一个段是一次多项式y=ax+b,其中,a=1,b=0。第二个多项式是具有固定值的常数(例如,y=Sh)。在解码器中,给定解码的且反量化的基本层输入数据si,估计的HDR输出将由以下方程给出:
图3描绘了根据实施例的用于确定用于增强层的最佳的掩蔽阈值的示例处理。给定HDR输入102,在(315)中,计算像素复杂度测度(例如,标准差值的wm和)(以及可选地,hm直方图值)(例如,通过使用方程(6)-(8)和/或早先描述的基于块的算法)。然后,对于给定的阈值Sh,在(320)中,根据位速率分派模型来计算对应的值(例如,通过使用方程(15)或(16))。增强层和基本层中的位速率的目标比率,在335中,计算估计的失真值的值。对Sh的不同值重复步骤(320)至(335),直到找到最佳的阈值值(使最小化的阈值值)为止。
前面的讨论采用单个高亮阈值,所有的残差针对该阈值被编码在增强层中。所提出的方案可以容易地扩展到具有两个掩蔽阈值,如早先所讨论的,一个在高亮中(Sh),一个在黑色中(Sl),或者用黑色阈值(Sl)取代高亮阈值。例如,当使用两个阈值时,掩蔽的残差152将由以下方程给出:
当使用单个黑色阈值时,掩蔽的残差(152)将由以下方程给出:
当使用两个阈值时,在实施例中,可以使用方程(17)来采用单个阈值确定最佳的值,然后将范围划分为两个部分,以使得给定Sl或者在另一实施例中,方程(16)可以被改动为:
然后应用联合搜索技术来识别两个最佳的阈值。
当使用单个黑色阈值时,对于Sh=1,方程(21)得到:
并且方程(17)变为:
示例计算机系统实现
本发明的实施例可以用计算机系统、用电子电路和组件配置的系统、集成电路(IC)器件(诸如微控制器、现场可编程门阵列(FPGA)或另一可配置的或可编程的逻辑器件(PLD))、分立的时间或数字信号处理器(DSP)、专用IC(ASIC)、和/或包括这样的系统、器件或组件中的一个或多个的装置来实现。计算机和/或IC可以执行、控制或运行与HDR视频的视频编码和递送相关的指令,诸如本文中描述的那些。计算机和/或IC可以计算与本文中描述的HDR视频处理的视频编码和递送相关的各种参数或值中的任何一个。图像和视频实施例可以用硬件、软件、固件和它们的各种组合来实现。
本发明的某些实现包括执行使处理器执行本发明的方法的软件指令的计算机处理器。例如,显示器、编码器、机顶盒、代码转换器等中的一个或多个处理器可以通过执行处理器可访问的程序存储器中的软件指令来实现与如上所述的HDR视频的视频编码和递送相关的方法。本发明也可以以程序产品的形式提供。程序产品可以包括承载一组计算机可读信号的任何非暂时性介质,该组计算机可读信号包括当被数据处理器执行时使数据处理器执行本发明的方法的指令。根据本发明的程序产品可以为多种多样的形式中的任何一个。程序产品可以包括例如物理介质,诸如磁性数据存储介质(包括软盘、硬盘驱动器)、光学数据存储介质(包括CD ROM、DVD)、电子数据存储介质(包括ROM、闪速RAM等)。程序产品上的计算机可读信号可以可选地被压缩或被加密。
在组件(例如,软件模块、处理器、组装件、设备、电路等)在上面被引用的情况下,除非另有指示,否则对于该组件的引用(包括对于“部件”的引用)应被解释为包括作为该组件的等同物的、执行所描述的组件的功能的(例如,在功能上等同的)任何组件,包括在结构上不等同于所公开的执行本发明的示出的示例实施例中的功能的结构的组件。
等同、扩展、替代及其他
如此描述了与HDR视频的高效的视频编码和递送相关的示例实施例。在前面的说明书中,已经参照在不同实现之间可以有所变化的许多特定细节描述了本发明的实施例。因此,本发明是什么以及申请人意图什么是本发明的唯一的且排他的指示是本申请以特定形式发布的一组权利要求,这样的权利要求以特定形式发布,包括任何后续修正。本文中针对这样的权利要求中包含的术语明确阐述的任何定义应决定这样的术语在权利要求中使用的意义。因此,在权利要求中未明确记载的限制、元件、性质、特征、优点或属性不得以任何方式限制这样的权利要求的范围。说明书和附图因此要从说明性、而非限制性的意义上来看待。

Claims (15)

1.一种在包括基本层(BL)编码器和增强层(EL)编码器的双层编码器中设计用于对高动态范围图像进行编码的分段线性层间预测函数的方法,该方法包括:
用处理器接收第一位深的第一图像(102);
计算(315)对于第一图像中的像素值的像素复杂度测度;
接收目标位速率比率(β),目标位速率比率包括编码器的增强层中的目标位速率与基本层中的目标位速率的比率;
对于用于确定层间预测函数中的最佳的高亮阈值的两个或更多个候选高亮阈值值中的每个,其中,对于输入到预测函数的大于最佳的高亮阈值值的所有输入值,对应的预测的输出值是常数值:
基于候选高亮阈值值和像素复杂度测度来计算(320)估计的位速率比率,其中,估计的位速率比率包括针对候选高亮阈值值的、增强层中的估计的位速率和基本层中的估计的位速率的比率;
基于估计的位速率比率和目标位速率比率来计算失真测度(325);并且
将所述两个或更多个候选高亮阈值值之中的使失真测度最小化的候选高亮阈值值作为最佳的高亮阈值输出。
2.根据权利要求1所述的方法,其中,计算失真测度包括计算目标位速率比率和估计的位速率比率之间的差的绝对值。
3.根据权利要求1所述的方法,其中,计算对于第一图像中的像素值的像素复杂度测度包括计算第一图像中的像素值的累积标准差值。
4.根据权利要求1所述的方法,其中,计算估计的位速率比率包括计算:
其中,对于m=0至2b-1,wm表示具有值m的所有像素的像素复杂度测度,α是常数,Sh表示[0,1)中的候选高亮阈值值,b是基本层编码器中的位深。
5.根据权利要求1所述的方法,其中,在层间预测函数中,对于输入到预测函数的低于或等于最佳的高亮阈值的所有输入值,对应的预测的输出值与输入值相等。
6.根据权利要求1所述的方法,进一步包括:
用处理器接收第二位深的第二图像,其中,第二位深低于第一位深,其中,第一图像和第二图像表示同一个视觉场景;
使用基本层编码器来对第二图像进行编码以生成编码的BL位流;
对BL位流进行解码以生成解码的BL图像;并且
将层间预测函数应用于解码的BL图像以生成预测的第一图像。
7.根据权利要求6所述的方法,进一步包括:
基于预测的第一图像和第一图像来计算残差图像;
将掩蔽操作应用于残差图像以生成掩蔽的残差图像;并且
用EL编码器对掩蔽的残差图像进行编码以生成编码的EL位流,其中,掩蔽操作包括将残差图像中的低于最佳的高亮阈值的所有像素值设置为零。
8.根据权利要求7所述的方法,进一步包括:
将非线性量化器应用于掩蔽的残差图像以生成量化的残差图像,并且用EL编码器对量化的残差图像进行编码以生成编码的EL位流。
9.根据权利要求1所述的方法,其中,第一位深是12位或更高位。
10.根据权利要求1所述的方法,其中,第一图像是高动态范围图像。
11.根据权利要求4所述的方法,其中,基本层的位深(b)是10位,并且计算wm包括计算第一图像中的具有等于m的值的像素的累积标准差。
12.根据权利要求1所述的方法,其中,层间预测函数的输出常数值对应于最佳的高亮阈值。
13.根据权利要求1所述的方法,其中计算最佳的黑色阈值而不计算最佳的高亮阈值,其中,计算最佳的黑色阈值包括:
对于用于确定层间预测函数中的最佳的黑色阈值的两个或更多个候选黑色阈值值中的每个,其中,对于输入到预测函数的低于最佳的黑色阈值值的所有输入值,对应的预测的输出值是第二常数值:
基于候选黑色阈值值和像素复杂度测度来计算(320)估计的位速率比率;
基于估计的位速率比率和目标位速率比率来计算失真测度(325);并且
将所述两个或更多个候选黑色阈值值之中的使失真测度最小化的候选黑色阈值值作为最佳的黑色阈值输出。
14.一种包括处理器并且被配置为执行根据权利要求1-13中任何一项所述的方法的装置。
15.一种非暂时性计算机可读存储介质,该非暂时性计算机可读存储介质具有存储于其上的用于用一个或多个处理器执行根据权利要求1-13中任一项所述的方法的计算机可执行指令。
CN201780031566.2A 2016-04-19 2017-04-18 用于高动态范围视频编码的增强层掩蔽 Active CN109314787B (zh)

Applications Claiming Priority (5)

Application Number Priority Date Filing Date Title
US201662324438P 2016-04-19 2016-04-19
GB1606808.2 2016-04-19
GB201606808 2016-04-19
US62/324,438 2016-04-19
PCT/US2017/028211 WO2017184656A1 (en) 2016-04-19 2017-04-18 Enhancement layer masking for high-dynamic range video coding

Publications (2)

Publication Number Publication Date
CN109314787A true CN109314787A (zh) 2019-02-05
CN109314787B CN109314787B (zh) 2023-01-06

Family

ID=60116346

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201780031566.2A Active CN109314787B (zh) 2016-04-19 2017-04-18 用于高动态范围视频编码的增强层掩蔽

Country Status (3)

Country Link
EP (1) EP3446484B1 (zh)
CN (1) CN109314787B (zh)
WO (1) WO2017184656A1 (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113225553A (zh) * 2021-04-18 2021-08-06 南京理工大学 预测高动态视频双层向后兼容编码系统中最佳阈值点的方法

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111247800B (zh) * 2019-01-25 2022-07-19 深圳市大疆创新科技有限公司 确定图像信息量的方法与装置

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2012122421A1 (en) * 2011-03-10 2012-09-13 Dolby Laboratories Licensing Corporation Joint rate distortion optimization for bitdepth color format scalable video coding
EP2675162A2 (en) * 2012-06-12 2013-12-18 Dolby Laboratories Licensing Corporation Joint base layer and enhancement layer quantizer adaptation in enhanced dynamic range (EDR) video coding
CN104054338A (zh) * 2011-03-10 2014-09-17 杜比实验室特许公司 位深和颜色可伸缩视频编码
WO2016038811A1 (ja) * 2014-09-12 2016-03-17 パナソニック インテレクチュアル プロパティ コーポレーション オブ アメリカ 記録媒体、再生装置、および再生方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2012122421A1 (en) * 2011-03-10 2012-09-13 Dolby Laboratories Licensing Corporation Joint rate distortion optimization for bitdepth color format scalable video coding
CN104054338A (zh) * 2011-03-10 2014-09-17 杜比实验室特许公司 位深和颜色可伸缩视频编码
EP2675162A2 (en) * 2012-06-12 2013-12-18 Dolby Laboratories Licensing Corporation Joint base layer and enhancement layer quantizer adaptation in enhanced dynamic range (EDR) video coding
WO2016038811A1 (ja) * 2014-09-12 2016-03-17 パナソニック インテレクチュアル プロパティ コーポレーション オブ アメリカ 記録媒体、再生装置、および再生方法

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
HAECHUL CHOI等: "SVC Application in Advanced T-DMB", 《IEEE TRANSACTIONS ON BROADCASTING》 *
HONGFEI DU等: "Supporting Scalable Multimedia Streaming over Converged DVB-H and DTMB Networks", 《ICC 2008 WORKSHOP PROCEEDINGS》 *
SERGIO SANZ-RODRIGUEZ: "In-Layer Multibuffer Framework for Rate-Controlled Scalable Video Coding", 《IEEE TRANSACTIONS ON CIRCUITS AND SYSTEMS FOR VIDEO TECHNOLOGY》 *
史翠竹等: "精细可分级编码技术及其应用", 《通信技术》 *

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113225553A (zh) * 2021-04-18 2021-08-06 南京理工大学 预测高动态视频双层向后兼容编码系统中最佳阈值点的方法
CN113225553B (zh) * 2021-04-18 2022-09-06 南京理工大学 预测高动态视频双层向后兼容编码系统中最佳阈值点的方法

Also Published As

Publication number Publication date
CN109314787B (zh) 2023-01-06
WO2017184656A1 (en) 2017-10-26
EP3446484B1 (en) 2023-09-06
EP3446484A1 (en) 2019-02-27

Similar Documents

Publication Publication Date Title
JP6559829B2 (ja) 動画符号化における彩度量子化
US10575005B2 (en) Video coding and delivery with both spatial and dynamic range scalability
CN107439012B (zh) 用于环内转换的方法、装置和计算机可读存储介质
KR101939012B1 (ko) 하이 다이내믹 레인지 이미지들을 위한 콘텐츠 적응적 지각 양자화기
CN106488246B (zh) 用于增强动态范围信号的分层编码的自适应整形的方法
JP5638731B1 (ja) 拡張ダイナミックレンジをもつ画像の階層式符号化における適応的な偽輪郭生成防止
US8897581B2 (en) Guided post-prediction filtering in layered VDR coding
CN109792523B (zh) 单层后向兼容编解码器的实时整形
US10027963B2 (en) Pre-dithering in high dynamic range video coding
EP2591602A1 (en) Generation of high dynamic range images from low dynamic range images
CN107615761A (zh) 像素处理和编码
US10499084B2 (en) Piecewise-linear inter-layer predictor for high-dynamic range video coding
CN107409223B (zh) 视频编解码方法和视频编解码器
CN109314787A (zh) 用于高动态范围视频编码的增强层掩蔽
WO2016123001A1 (en) Predictive image encoding and decoding with pixel group based quantization
US10904534B2 (en) Enhancement layer masking for high-dynamic range video coding

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant