CN106688232A

CN106688232A - 基于模型的视频编码的感知优化

Info

Publication number: CN106688232A
Application number: CN201580049004.1A
Authority: CN
Inventors: N·李; S·朴; M·董; D·P·科克; J·李; C·威德
Original assignee: Euclid Discoveries LLC
Current assignee: Euclid Discoveries LLC
Priority date: 2014-09-11
Filing date: 2015-09-03
Publication date: 2017-05-17
Also published as: JP2017532858A; CA2960617A1; WO2016040116A1; EP3175618A1; JP6698077B2

Abstract

感知统计可以被用于计算指示视频帧的哪些区域对于人类视觉系统而言重要的重要度图。重要度图可以被应用于视频编码处理以增强编码比特流的质量。可以根据编码器的运动矢量来计算时间对比敏感度函数(TCSF)。运动矢量质量度量能够被用于构建真实运动矢量图(TMVM)，该TMVM能够被用于精细化TCSF。空间复杂度图(SCM)可以根据诸如块方差、块亮度、SSIM和边缘强度之类的度量而被计算，并且SCM能够与TCSF组合以获得统一重要度图。重要度图可以被用于通过修改用于选择最佳编码解决方案的准则或者通过修改要被编码的每个目标块的量化来改进编码。

Description

基于模型的视频编码的感知优化

相关申请

本申请要求于2015年5月7日提交的美国临时申请No.62/158,523和于2014年11月11日提交的美国临时申请62/078,181的优先权。本申请也是2014年11月4日提交的美国申请No.14/532,947的部分延续案(CIP)，美国申请No.14/532,947要求于2014年3月10日提交的美国临时申请No.61/950,784和于2014年9月11日提交的美国临时申请No.62/049,342的权益。以上引用的申请的全部教导通过引用并入本文

背景技术

视频压缩可以被认为是一个以在存储或传输时使用较少比特的形式来表示数字视频数据的处理。视频编码可以通过利用无论是空间、时间还是色彩空间的视频数据中的冗余来实现压缩。视频压缩处理通常将视频数据分割成诸如帧群组和像素群组之类的部分，以标识出视频内能够利用比原始视频数据所需比特更少的比特来表示的冗余区域。当利用数据中的这些冗余时，可以实现更大的压缩。编码器可以被用于将视频数据变换为编码格式，而解码器可以被用于将已编码的视频变换回与原始视频数据相当的形式。编码器/解码器的实现被称为编解码器。

标准编码器将给定视频帧划分为非重叠编码单元或宏块(macroblock)(连续像素的矩形区域)以用于编码。宏块(在本文中更通常地被称为“输入块”或“数据块”)通常以视频帧中从左到右和从上到下的遍历顺序被处理。当使用先前编码数据来预测和编码输入块时，可以实现压缩。使用在同一帧内的先前编码块的空间相邻样本来编码输入块的处理被称为帧内预测(intra-prediction)。帧内预测试图利用数据中的空间冗余。使用来自先前编码帧的类似区域(使用运动估计处理而被找到)对输入块的编码被称为帧间预测(inter-prediction)。帧间预测试图利用数据中的时间冗余。运动估计处理可以生成运动矢量，该运动矢量例如指定参考帧中的匹配区域相对于正在被编码的输入块的位置。大多数运动估计处理由以下两个主要步骤构成：初始运动估计，其提供针对给定输入块的运动矢量(和对应的时间预测)的第一粗略估计；以及精细运动估计，其在初始估计的邻域中执行局部搜索以确定针对该输入块的运动矢量(和对应预测)的更精确的估计。

编码器可以测量要被编码的数据与预测之间的差异，以生成残差。残差可以提供预测块和原始输入块之间的差异。预测、运动矢量(针对帧间预测)、残差和相关数据可以与诸如空间变换、量化器、熵编码器和环路滤波器之类的其它处理进行组合，以创建视频数据的有效编码。已经被量化和变换的残差可以被处理并且被添加回到预测、被组装成解码帧并且被存储在帧存储中。针对视频的这种编码技术的细节对于本领域技术人员而言是熟悉的。

MPEG-2(H.262)和H.264(MPEG-4第10部分，高级视频编码[AVC])(以下分别被称为MPEG-2和H.264)是用于在相对低的比特率下实现高质量视频表示的视频压缩的两个编解码器标准。用于MPEG-2和H.264的基本编码单元是16×16宏块。H.264是最近被广泛接受的视频压缩标准，并且在压缩视频数据时通常被认为是MPEG-2的两倍高效。

基本MPEG标准基于如何对帧中的输入块进行编码来定义三种类型的帧(或图片)。I帧(帧内编码图片)仅使用帧本身中存在的数据来编码，并且因此仅由帧内预测块构成。P帧(预测图片)使用来自先前解码的I帧或P帧(也被称为参考帧)的数据、经由前向预测而被编码。P帧可以包含帧内块或(前向)预测块。B帧(双向预测图片)使用来自先前帧和后续帧两者的数据、经由双向预测而被编码。B帧可以包含帧内、(前向)预测或双向预测块。

参考帧的特定集合被称为图片组(GOP)。GOP仅包含每个参考帧内的解码像素，并且不包括与输入块或帧本身如何被最初编码有关的信息(I帧、B帧或P帧)。诸如MPEG-2之类的较旧视频压缩标准使用一个参考帧(在过去)来预测P帧，并且使用两个参考帧(一个过去的，一个未来的帧)来预测B帧。相比之下，诸如H.264和HEVC(高效率视频编码)之类的较新压缩标准允许将多个参考帧用于P帧和B帧预测。尽管参考帧通常在时间上与当前帧相邻，但是这些标准也允许在时间上不相邻的参考帧。

传统的帧间预测以基于块的运动估计和补偿(block-based motion estimationand compensation，BBMEC)为基础。BBMEC处理搜索目标块(正被编码的当前输入块)和先前解码的参考帧内的相同大小的区域之间的最佳匹配。当找到这样的匹配时，编码器可以发送运动矢量，该运动矢量用作指向参考帧中最佳匹配的位置的指针。出于计算的原因，BBMEC搜索处理就所搜索的参考帧而言在时间上并且就所搜索的相邻区域而言在空间上均是有限的。这意味着不总能找到“最佳可能”匹配，特别是对于快速变化的数据。

BBMEC处理的最简单形式使用(0,0)运动矢量来初始化运动估计，这意味着目标块的初始估计是在参考帧中同一位置处的块。然后，通过在局部邻域中搜索与目标块最佳匹配(即，相对于目标块具有最低误差)的区域来执行精细运动估计。局部搜索可以通过局部邻域的详尽查询(这里被称为全块搜索)或通过诸如菱形搜索或六边形搜索之类的几种“快速搜索”方法中的任何一种来执行。

自从MPEG-2的较后版本以来，已经存在于标准编解码器中的BBMEC处理的改进是增强型预测区域搜索(enhanced predictive zonal search，EPZS)方法[Tourapis,A.,2002,“Enhanced predictive zonal search for single and multiple frame motionestimation,”Proc.SPIE 4671,Visual Communications and Image Processing,pp.1069-1078]。EPZS方法基于已经被编码的相邻块的运动矢量以及先前帧中同一位置处的块(和相邻块)的运动矢量来考虑用于目标块的初始估计的运动矢量候选集合。EPZS方法假设视频的运动矢量场具有一些空间和时间冗余，因此针对具有相邻块的运动矢量或来自已经编码的帧中的附近块的运动矢量的目标块来初始化运动估计是合乎逻辑的。一旦已经收集了初始估计集合，EPZS方法经由近似速率-失真分析来缩小该集合，之后执行精细运动估计。

对于任何给定的目标块，编码器可以生成用于从中进行选择的多个帧间预测。这些预测可以由多个预测处理(例如，BBMEC、EPZS或基于模型的方案)而得到。这些预测还可以基于目标块的子分区而不同，其中不同的运动矢量与目标块的不同子分区相关联，并且相应的运动矢量各自指向参考帧中的以子分区为大小的区域。预测还可以基于运动矢量指向的参考帧而不同；如上所述，最近的压缩标准允许使用多个参考帧。对给定目标块的最佳预测的选择通常通过速率失真优化来完成，其中最佳预测是使速率-失真度量D+λR最小化的预测，其中失真D测量目标块与预测之间的误差，而速率R量化编码该预测的成本(以比特为单位)，并且λ是标量加权因子。

历史上，还已经提出基于模型的压缩方案以避免BBMEC预测的限制。这些基于模型的压缩方案(其中最著名的可能是MPEG-4第2部分标准)依赖于对视频中的对象或特征(通常被定义为“感兴趣的组分”)的检测和追踪以及用于与视频帧的其余部分分离地对这些特征/对象进行编码的方法。特征/对象检测/追踪独立于标准运动估计处理中的空间搜索而发生，因此特征/对象追踪可以产生与通过标准运动估计可实现的不同的预测集合。

发明内容

然而，这种基于特征/基于对象的基于模型的压缩方案遭受与将视频帧分割成对象区域与非对象(或特征与非特征)区域相关联的挑战。首先，因为对象可以是任意大小，除了它们的纹理(颜色内容)之外，对它们的形状也需要被编码。第二，多个移动对象的追踪可能是困难的，并且不准确的追踪导致不正确的分割，通常导致差的压缩性能。第三个挑战在于，不是所有的视频内容都由对象或特征组成，因此当对象/特征不存在时，需要一个后备编码方案。

于2014年11月4日提交的共同未决的美国专利申请No.61/950,784(本文中的“'784申请”)提出了一种避免上述分段挑战的基于模型的压缩方案。'784申请的连续块追踪器(CBT)不检测对象和特征，消除了从非对象/非特征背景中分割对象和特征的需要。相反，CBT通过将帧到帧运动估计组合到连续追踪中，来追踪视频帧中的所有输入块(“宏块”)，就仿佛它们是感兴趣区域。在这样做时，CBT对在视频中运动进行建模，获得数据的更高级建模的益处以改善帧间预测、同时避免分割的挑战。

其他基于模型的压缩方案将人类视觉系统(human visual system，HVS)对视频数据中的内容的响应建模为指示视频帧的哪些部分对于人类感知而言最显著的重要度图(importance map)。重要度图对视频帧中的每个输入或数据块取值，并且对于任何给定块的重要度图值可以在整个视频中逐帧地改变。通常，重要度图被定义使得较高的值指示更重要的数据块。

一种类型的重要度图是时间对比敏感度函数(time contrast sensitivityfunction，TCSF)[de Lange,H.,1954,“Relationship between critical flickerfrequency and a set of low frequency characteristics of the eye,”J.Opt.Soc.Am.,44:380-389]，该TCSF测量HVS对时间周期性刺激的响应，并且揭示了数据中的某些时间特征对于人类观察者而言是显著的。这些时间特性与数据中的运动有关，并且TCSF预测数据中最显著的运动类型是既不与非常高的时间频率也不与非常低的时间频率相对应的“中等”运动。

重要的是，要注意TCSF需要对视频中移动内容的速度的准确测量，以生成准确的时间对比度值。这些速度可以通过计算光流(optical flow)而被逼近，该光流描述由于相机运动和/或对象运动而引起的视频内容的表观运动(apparent motion)。然而，大多数标准视频编码器采用运动估计处理，这些运动估计处理优化压缩效率而不会准确计算光流。

另一种类型的重要度图基于空间对比敏感度并且测量HVS对诸如亮度、边缘、空间频率和颜色之类的空间特性的响应。空间对比敏感度函数(spatial-contrastsensitivity function，SCSF)[参见例如Barten,P.,1999,Contrast Sensitivity of theHuman Eye and Its Effects on Image Quality,SPIE Press]也被简称为对比敏感度函数(contrast sensitivity function，CSF)，测量对HVS而言显著的空间对比度并且已经被成功地应用于JPEG 2000图像压缩标准，用以减少图像压缩人为噪音(artifact)。对象和特征通常还借助于空间对比度测量(例如，如空间频率梯度所指示的边缘的存在)而被检测。尽管已经在图像压缩的上下文中(例如，JPEG 2000编解码器)研究和利用空间对比敏感度，并且已经提出了基于对象和特征检测的许多视频压缩处理，但是在TCSF中被表示的时间对比敏感度先前尚未被应用于视频压缩。

一些公开的发明实施例将重要度图应用于视频压缩以增强视频编码的质量。在一个示例性实施例中，在标准视频编码处理流内，通过使用色彩空间域中的结构相似度(SSIM)逼近波长并且使用编码器的运动矢量逼近速度，来计算时间频率。然后，时间频率用作时间对比敏感度函数(TCSF)的输入，所述TCSF可以针对每个数据块而被计算，以生成指示视频帧的哪些区域对于人类观察者而言最显著的时间重要度图。

在另一示例实施例中，与由编码器生成的运动矢量的相对质量有关的信息可以在编码处理中的不同点处被计算，并且然后被用于生成真实运动矢量图，该真实运动矢量图针对每个目标块输出该目标块的运动矢量如何可靠。取0或1的值的真实运动矢量图然后可以被用作用于精细化TCSF的遮罩(mask)，使得TCSF不用于其运动矢量是不精确的目标块(即，真实运动矢量图为0)。

在另一实施例中，可以根据诸如块方差、块亮度和边缘检测之类的度量来计算空间复杂度图(SCM)，以确定给定目标块相对于它的邻居的空间对比度。在另一个实施例中，来自SCM的信息可以与TCSF组合以获得复合的统一重要度图。统一重要度图中的空间对比信息和时间对比信息的组合有效地平衡了人类视觉反应的两个方面。

在一个示例实施例中，统一重要度图(包括来自TCSF和SCM两者的信息)被用于对标准速率-失真度量D+λR的失真部分进行加权。这导致经修改的速率-失真优化，其被加权到适合每个目标块的相对感知重要度的解决方案，即，当重要度图更接近其最大值时的低失真解决方案或当重要度图更接近其最小值时的低速率解决方案。在替代实施例中，TCSF或SCM可以单独地被用于以上目的。

在另一示例实施例中，TCSF(具有真实运动矢量精细化)和SCM可以被用于修改编码器的块级量化。在重要度图取高值的目标块中，量化参数相对于帧量化参数被减小，导致那些块的较高质量。在重要度图取低值的目标块中，量化参数相对于帧量化参数被增加，导致那些块的较低质量。在替代实施例中，TCSF或SCM可以单独地被用于以上目的。

尽管可以针对组合了帧间预测并且生成运动矢量(由TCSF用于逼近视频中的内容的速度)的任何编码器而计算TCSF，但是在基于模型的视频压缩框架内将TCSF应用于视频压缩是最有效，这样的基于模型的视频压缩框架诸如提供了对哪些运动矢量是真实运动矢量的精确确定的'784申请中的连续块追踪器(CBT)。如上所述，大多数标准视频编码器计算优化压缩效率的运动矢量而不是计算反映真实运动的运动矢量。相比之下，CBT提供了适合于高压缩效率的运动矢量和使TCSF的有效性最大化的建模信息两者。

一些示例性发明实施例被构造以使得所得到的比特流符合任何视频压缩标准，包括但不限于MPEG-2、H.264和HEVC，这样的视频压缩标准采用基于块的运动估计，紧接着进行残差信号的变换、量化和熵编码。本发明还可以被应用于不是基于块的非标准视频编码器，只要编码器组合了帧间预测并且生成运动矢量即可。

一些示例实施例可以包括编码视频数据的方法和系统，以及用于实现该方法和系统的任何编解码器(编码器/解码器)。具有非重叠目标块的多个视频帧可以由编码器处理。多个视频帧可以由编码器使用重要度图来编码，使得重要度图修改量化以及在每个视频帧中要被编码的每个目标块的编码质量。

重要度图可以使用以下至少一项而被形成：时间信息或空间信息。如果使用时间信息和空间信息两者，则重要度图被认为是统一重要度图。重要度图可以被配置以使得它们指示/标识/表示多个视频帧中对于人类感知而言最显著的视频帧的部分。具体地，在重要度图取高值的块中，块量化参数(QP)相对于帧量化参数QP_frame被减小，导致那些块的较高质量；并且在重要度图取低值的目标块中，块量化参数相对于帧量化参数QP_frame被增加，导致那些块的较低质量。

空间信息可以由基于规则的空间复杂度图(SCM)提供，其中初始步骤确定帧中的哪些目标块具有比该帧中的平均块方差var_frame更高的方差。对于这样的块，可以基于块方差var_block比var_frame高多少来指派比帧量化参数QP_frame高的QP值，其中块QP指派QP_block在QP_frame与最大量化参数QP_max之间被线性地缩放。

时间信息可以优选地由时间对比敏感度函数(TCSF)和真实运动矢量图(TMVM)来提供，时间对比敏感度函数(TCSF)指示哪些目标块对于人类观察者而言在时间上最显著，真实运动矢量图(TMVM)指示哪些目标块对应于前景数据。应当注意，TCSF可以仅被认为对于被标识为前景数据的那些目标块有效。

高方差块可使其块QP指派QP_block进一步由TCSF和TMVM精细化，使得如果TMVM将目标块标识为前景数据并且TCSF针对该块具有小于0.5的对数对比敏感度值，则QP_block被提高2。

SCM可以包括亮度遮罩，其中非常亮(亮度高于170)或非常暗(亮度低于60)的目标块将它们的块量化参数QP_block调整回QP_max。SCM可以包括基于经编码的视频的质量水平对QP_max的动态确定，其中质量是使用内(I)帧中的目标块的平均结构相似度(SSIM)计算连同这样的帧的平均块方差var_frame来被测量；使得当所测量的质量低时，QP_max的值被降低到更接近QP_frame的值。

非常低方差的块可以被指派固定的低QP值QP_block以确保在那些区域中的高质量编码，使得块方差越低，QP_block的值越低(并且质量越高)。针对非常低方差的块的低QP值QP_block的指派可以首先针对I帧是固定的，然后针对P帧和B帧使用ipratio和pbratio参数来被确定。作为低方差但不符合非常低方差的块被检查，以确定对于那些块是否需要质量增强；其中块QP QP_block的初始估计通过对与当前块的左、左上，右和右上相邻的已编码块的QP值进行平均来被计算。当前块的SSIM的估计SSIM_est可以根据与当前块的左、左上，右和右上相邻的已编码块的SSIM值来被计算。如果SSIM_est低于0.9，则QP_block的值可以被降低2。

在一些实施例中，质量增强仅被应用于由TMVM标识为前景数据并且TCSF针对其而具有大于0.8的对数对比敏感度值的那些块。TMVM可以仅针对前景数据而被设置为1。

在一些实施例中，TCSF的时间频率通过以下来被计算：在目标块与该目标块的参考块之间的色彩空间域中使用SSIM来逼近波长通过使用运动矢量幅度和帧速率来逼近速度。

TCSF可以在多个帧上被计算，使得当前帧的TCSF是近期的帧上的TCSF图的加权平均，其中更近期的帧接收更高的加权。

前景数据可以通过计算给定目标块的编码器运动矢量与该块的全局运动矢量之间的差异而被标识，使得具有足够大差异的块被确定为前景数据。

针对被标识为前景数据的数据块，编码器运动矢量可以从全局运动矢量中被减去，以获得差分运动矢量，并且差分运动矢量的幅度被用于计算TCSF的时间频率。

基于计算机的方法、编解码器(编码器/解码器)以及用于处理视频数据的其它计算机系统和装置可以体现本发明的前述原理。

附图说明

根据对如附图所示的本发明的示例实施例的下文更具体的描述，前述内容将是清楚的，在这些附图中，贯穿不同视图中的相似附图标记指代相同部分。附图必然是按比例的，而是重点示出本发明的实施例。

图1是描绘了标准编码器配置的框图。

图2是描绘了在用于一般编码器的帧间预测中涉及的步骤的框图。

图3是描绘了在经由连续块追踪的初始运动估计中所涉及的步骤的框图。

图4是描绘了经由连续块追踪和增强型预测区域搜索的组合的统一运动估计的框图。

图5是描绘了Wooten等人[2010]的时间对比敏感度函数的近期测量的曲线图。

图6是描绘了根据本发明的实施例的在CIE 1976Lab色彩空间中的结构相似度(SSIM)的计算的框图。

图7是描绘了根据本发明的实施例的用于改进视频编码的感知质量的感知统计的一般应用的框图。

图8A是描绘了根据本发明的实施例的使用感知统计来经由连续块追踪而修改帧间预测以改进视频编码的感知质量的框图。

图8B是描绘了使用重要度图来进行编码以修改块量化的示例性处理的框图。

图9A是实施例其中被部署的计算机网络环境的示意图。

图9B是图9A的网络中的计算机节点的框图。

具体实施方式

本文引用的所有专利、公开的申请和参考文献的教导通过引用方式而整体并入本文。本发明的示例性实施例的描述如下。

本发明可以被应用于各种标准编码。在下文中，除非另有说明，术语“常规”和“标准”(有时与“压缩”、“编解码器”、“编码”或“编码器”一起使用)可以指代MPEG-2、MPEG-H.264或HEVC。在不失一般性的情况下，“输入块”被称为编码器的基本编码单元，并且有时还可以可互换地被称为“数据块”或“宏块”。正被编码的当前输入块被称为“目标块”。

经由连续块追踪的视频编码和帧间预测

编码处理可以将视频数据转换为经压缩的或经编码的格式。同样，解压缩或解码处理可将经压缩的视频转换回未压缩或原始格式。视频压缩和解压缩处理可以被实现为编码器/解码器对，通常被称为编解码器。

图1是基于标准变换的运动补偿编码器的框图。图1中的编码器可以被实现在软件或硬件环境中或前述的组合中。编码器可以包括组件的任何组合，包括但不限于馈送到帧间预测模块20的运动估计模块15、帧内预测模块30、变换和量化模块60、逆变换和量化模块70、环路内滤波器80、帧存储85和熵编码模块90。对于给定的输入视频块10(简称为“输入块”、或宏块或“数据块”)，预测模块(帧间预测和帧内预测两者)的目的是为输入块生成最佳预测信号40。从输入块10中减去预测信号40以创建预测残差50，该预测残差50会经历变换和量化60。然后，该残差的量化系数65被传递到熵编码模块90以用于编码到压缩比特流中。量化系数65还通过逆变换和量化模块70，并且所得到的信号(预测残差的近似)被加回到预测信号40，以创建针对输入块10的重建信号75。重建信号75可以通过诸如去块滤波器(deblocking filter)之类的环路内滤波器80，并且(可能被滤波的)重建信号变成协助对未来输入块的预测的帧存储85的一部分。图1所示的编码器的每个部件的功能是本领域普通技术人员公知的。

图2描绘了标准帧间预测(图1中的30)中的步骤，其中目标在于利用数据中的时间冗余、使用来自较早帧的先前解码的数据来对新数据进行编码。在帧间预测中，从被存储在图1的帧存储85中的先前解码的参考帧内的相同大小的区域，“预测”来自当前正被编码的帧(也称为目标帧)的输入块10。指示正被编码的帧中的输入块的位置与该输入块在参考帧中的匹配区域的位置之间的(x，y)位移的双分量矢量被称为运动矢量。运动估计的处理因此涉及确定将要被编码的输入块与该输入块在参考帧中的匹配区域最佳地链接的运动矢量。

大多数帧间预测处理以初始运动估计(图2中的110)开始，其生成针对给定输入块的“良好”运动矢量115的一个或多个粗略估计。这之后是可选的运动矢量候选过滤步骤120，其中可以使用近似速率-失真度量来将多个运动矢量候选减少为单个候选。在速率-失真分析中，将最佳运动矢量候选(预测)选择为使速率-失真度量D+λR最小化的一个候选，其中失真D测量输入块与该输入块的匹配区域之间的误差，而速率R量化用于对预测进行编码的成本(以比特为单位)，并且λ是标量加权因子。实际速率成本包含两个分量：纹理比特，对残差信号(输入块减去预测)的量化变换系数进行编码所需比特的数目；以及运动矢量比特，对运动矢量进行编码所需比特的数目。注意，相对于已编码的运动矢量，运动矢量通常被差分地编码。在编码器的早期阶段，纹理比特不可获得，因此速率-失真度量的速率部分由运动矢量比特逼近，而运动矢量比特进而取决于差分的运动矢量的幅度而被逼近为运动矢量惩罚因子。然后，在运动矢量候选滤波步骤120中，使用近似速率-失真度量来选择单个“最佳”初始运动矢量或较小的“最佳”初始运动矢量集合125。然后，初始运动矢量125利用精细运动估计130而被精细化，精细运动估计130在每个初始估计的邻域中执行局部搜索，以确定针对输入块的运动矢量(和对应的预测)的更精确的估计。局部搜索通常之后是子像素精细化，其中整数值运动矢量经由插值而被精细化为半像素或四分之一像素精度。精细运动估计块130产生经精细化的运动矢量集合135。

接下来，对于给定的精细运动矢量135，模式生成模块140基于编码器的可能的编码模式来生成候选预测集合145。这些模式根据编解码器而不同。不同的编码模式可以考虑(但不限于)交织与渐进(场与帧)运动估计、参考帧的引导(前向预测、后向预测、双向预测)、参考帧的索引(对于诸如允许多个参考帧的H.264和HEVC之类的编解码器)、帧间预测与帧内预测(当不存在良好的帧间预测时允许回复到帧内预测的某些场景)、不同的量化参数和输入块的各种子分区。预测候选的完整集合145经历“最终”速率-失真分析150以确定最佳单个候选。在“最终”速率-失真分析中，使用精确的速率失真度量D+λR，计算失真部分的预测误差D(通常被计算为平方误差之和[SSE])和速率部分的实际编码比特R(来自图1中的熵编90)。最终预测160(或图1中的40)是在所有候选中具有最低速率-失真得分D+λR的那一个，并且该最终预测连同其运动矢量和其它编码参数一起被传递到编码器的后续步骤。

图3描绘了初始运动估计如何可以在经由连续块追踪(CBT)的帧间预测期间被执行。当在目标帧和从其导出时间预测的参考帧之间存在大于一个帧的间隙时，CBT是有用的。对于MPEG-2，IBBPBBP的典型GOP结构(由帧内预测的I帧、双向预测的B帧和前向预测的P帧构成)允许距离当前帧多达三个帧的参考帧，因为B帧不能用作MPEG-2中的参考帧。在允许对要被编码的每个帧的多个参考帧的H.264和HEVC中，同一GOP结构允许参考帧位于距离当前帧六个或更多的帧处。对于较长的GOP结构(例如，每个P帧之间存在七个B帧)，参考帧可以位于距离目标帧更远的地方。当在当前帧和参考帧之间存在大于一个帧的间隙时，连续追踪使得编码器能够以标准时间预测方法不能够的方式捕获数据中的运动，允许CBT产生优良的时间预测。

CBT中的第一步是执行帧到帧追踪(图3中的210)。对于帧中的每个输入块10，在向帧缓冲器205中的前一帧的后向方向以及向帧缓冲器中的下一帧的前向方向两者上计算运动矢量。在一个实施例中，帧到帧追踪操作在来自原始源视频的帧上而不是在被重建的参考帧上。这是有利的，因为源视频帧未被量化和其他编码人为噪音(artifacts)所损坏，因此基于源视频帧的追踪更准确地表示视频中的真实运动场。帧到帧追踪可以使用传统的基于块的运动估计(BBME)或分层运动估计(HME)来被执行。

帧到帧追踪的结果是帧到帧运动矢量的集合215，该集合215针对帧中的每个输入块表征帧缓冲器205中的最近帧中的最佳匹配区域，并且针对帧缓冲器205中的最近帧的每个块表征当前帧中的最佳匹配区域。连续追踪220然后聚合可用的帧到帧追踪信息以跨每个输入块的多个参考帧创建连续的追踪。如何执行连续追踪的细节在'784申请中被找到，该申请全文通过引用方式并入本文。连续追踪220的输出是连续块追踪(CBT)运动矢量225，该CBT运动矢量225将正被编码的当前帧中的所有输入块追踪到它们在过去参考帧中的匹配区域。CBT运动矢量是CBT的初始运动矢量(图2中的125)，并且如上所述，它们可以利用精细运动估计(图2中的130)来被精细化。

图4描绘了根据本发明的实施例的CBT如何可以与EPZS方法组合以创建统一运动估计处理。在图4中，CBT通过以下来生成其运动矢量：用于初始运动估计110的帧到帧追踪210和连续追踪220，接下来是用于精细运动估计130的局部搜索和子像素精细化250。EPZS通过候选生成模块230紧接着通过候选过滤模块240来生成它的初始运动矢量，其中经由如上所述的近似速度-失真分析来执行过滤。这之后是经由局部搜索和子像素精细化260的精细运动估计130。所得到的CBT运动矢量255和EPZS运动矢量265两者均被前向传递到剩余的帧间预测步骤(图2中的模式生成140和最终速率-失真分析150)以确定整体“最佳”帧间预测。

在替换实施例中，图4中的CBT运动矢量候选255和EPZS运动矢量候选265可以由附加的候选来补充，这些候选包括(但不限于)随机运动矢量、(0,0)运动矢量和所谓的“中值预测子”(median predictor)。随机运动矢量可以被应用有精细运动估计130，以在该随机运动矢量局部邻域中找到最佳候选。(0,0)运动矢量是EPZS中的初始候选之一，但是并不总是在EPZS候选过滤(图4中的240)之后选择，并且即使在候选过滤之后被选择，精细运动估计130也可得到除(0,0)之外的运动矢量。显式地将(0,0)运动矢量(没有伴随的精细运动估计)包括作为用于最终速率-失真分析的候选确保了至少一个低幅度“低运动”候选被考虑。类似地，“中值预测子”也是EPZS中的初始候选之一，但是它也不总是在EPZS候选过滤(图4中的240)之后被选择。中值预测子被定义为在当前正被编码的数据块的左侧、上部和右上的数据块中先前被计算的运动矢量的中值。显式地将中值预测子(没有伴随的精细运动估计)包括作为最终速率-失真分析的候选对于编码视频帧的空间均匀(“平坦”)区域而言可能是特别有益的。在该替代实施例中，然后，五个或更多个运动矢量候选可以被前向传递到剩余的帧间预测步骤(图2中的模式生成140和最终速率-失真分析150)，这些运动矢量候选包括(但不限于)CBT-导出的运动矢量、EPZS导出的运动矢量、从随机运动矢量导出的运动矢量、(0,0)运动矢量和中值预测子。

用于视频编码的重要度图的计算

感知统计可以被用于计算重要度图，重要度图指示视频帧的哪些区域对于人类视觉系统(HVS)是重要的。

感知统计的一个示例是所谓的时间对比敏感度函数(TCSF)，其将人类视觉系统(HVS)对时间周期性刺激的响应进行建模。如以上背景技术部分所述，TCSF的概念自从1950年代(当时它作为“时间调制传递函数”而被引入)起一直存在，但是它尚未被应用于视频压缩。图5示出了TCSF的近期的测量[Wooten,B.et al.,2010,“A practical method ofmeasuring the temporal contrast sensitivity function,”Biomedical OpticalExpress,1(1):47-58]，显示了时间对比敏感度的对数随着频率的对数的变化。所测量的数据点(图5中的圆圈)用三阶多项式拟合(图5中的实线)，然后被用于以下的所有TCSF计算。TCSF预测人类视觉系统(HVS)的最高响应是针对中等频率的，而HVS响应对于低频率略微下降，并且HVS响应对于高频率迅速下降。

TCSF到视频压缩的应用需要一种计算时间频率的方法，该时间频率是TCSF的输入(图5中的水平轴)。下面描述根据本发明的实施例的一种计算频率的方式。频率f由f＝v/λ给出，其中v是速度，并且λ是波长。在一个实施例中，与任意数据块的内容相关联的速度v(以像素为单位)可以根据由编码器生成的运动矢量的幅度(例如，图2中的135、图3中的215或225、或者图4中的255或265)来计算为v＝|MV|*framerate/N，其中|MV|是与数据块相关联的运动矢量的幅度，framerate(帧速率)是已经生成视频的每秒的帧数，并且N是在运动矢量所指向的参考帧与当前帧之间的帧的数目。

对于波长λ的适当逼近可以从结构相似度(SSIM)的计算被导出[Wang,Z.et al.,2004,“Image quality assessment:From error visibility to structuralsimilarity,”IEEE Trans.on Image Processing,13(4):600-612]，SSIM在CIE 1976Lab色彩空间[www://en.wikipedia.org/wiki/Lab_color_space]中被计算。在Lab色彩空间中SSIM的计算在图6中被描述。SSIM在目标块300(要被编码的当前数据块)与其运动矢量指向的参考块310之间被计算。由编码器处理的视频数据通常在诸如YUV 420之类的标准空间中被表示，因此下一步骤是使用一般在文献中找到的任何方法来将目标块(320)和参考块(330)两者转换到CIE 1976Lab空间中。接下来，在Lab空间中目标块与参考块之间的误差ΔE(340)被计算为其中T下标表示“目标块”，并且R下标表示“参考块”。最后，误差ΔE与相同维度的零矩阵之间的SSIM 360被计算，以用作数据的色彩空间变化的测量。如最初定义，SSIM取-1和1之间的值，其中值1表示完全相似(无空间区别)。为了将SSIM转换为波长λ，可以使用空间相异性DSSIM＝(1-SSIM)/2，该空间相异性取0和1之间的值，其中0对应于小波长(最大空间相似度)，并且1对应于大波长(最小空间相似度)。为了将SSIM转换为像素的单位，可以将SSIM的值乘以针对其而被计算的块中的像素的数量。在一个实施例中，SSIM块大小为8×8，因此DSSIM值乘以64。因此，频率的最终计算由下式给出f＝|MV|*framerate/[N*64*(1-SSIM)/2。

一旦计算针对给定目标块的频率，可以根据图5中的曲线拟合(实线)来确定该块的TCSF值。TCSF取log 10标度中的0和1.08之间的值，或者绝对标度中的1和11.97之间的值。具有采用不同TCSF值的帧中的不同块，在帧中的所有块上的TCSF值的聚合集合形成重要度图，其中高的值指示从时间对比度视角上看在感知上重要的块，并且低的值指示感知上不重要的块。

在另一实施例中，可以针对每个数据块对来自近期的帧的TCSF值进行平均，以防止基于TCSF的重要度图在帧之间波动太大。例如，平均TCSF TCSF_avg的一个这样的计算可以是TCSF_avg＝0.7·TCSF_cur+0.3·TCSF_prev，其中TCSF_cur是来自当前帧的TCSF值，并且TCSF_prev是来自最近被编码的先前帧的TCSF值。当以这种方式被平均时，TCSF计算更加鲁棒。

在另一实施例中，可以在编码处理中的不同点处计算与由编码器生成的运动矢量的相对质量有关的信息，并且该信息然后被用于生成真实运动矢量图(TMVM)，该TMVM针对每个数据块输出其运动矢量如何可靠。然后，取0或1的值的真实运动矢量图能够被用作用于精细化TCSF的遮罩，使得TCSF不被用于其运动矢量不准确(即，其TMVM值为0)的数据块。

在一个实施例中，可以通过以下来确定运动矢量精确度：估计给定视频帧的全局运动模型；将运动模型应用于帧中的数据块中的每一个，以确定每个数据块的全局运动矢量；并且然后将全局运动矢量与该数据块的编码器的运动矢量进行比较。全局运动可以从来自帧的编码运动矢量的聚合集合中被估计，被拟合到六参数或八参数仿射运动模型。如果针对给定数据块的全局运动矢量和编码器运动矢量相同(或相似)，则认为编码器运动矢量是准确的(并且对于该数据块，TMVM＝1)。如果两个矢量不相同，则可以比较它们的预测误差(根据平方误差之和[SSE]或绝对差之和[SAD]来测量)。如果误差中的一个低而另一个高，则将误差低的运动矢量被用于编码并且被认为是精确的(TMVM＝1)。

在替代实施例中，针对给定数据块的全局运动矢量与编码器运动矢量之间的差异的幅度被用于标识数据块是前景数据，这意味着数据块中的内容正与帧中数据块中的其余内容(背景)不同地移动。在该实施例中，TMVM被设置为1，并且TCSF被仅应用于前景数据。在其他实施方案中，对于被标识为前景数据的数据块，从全局运动矢量中减去编码器运动矢量以获得差分运动矢量，并且差分运动矢量(不是编码器运动矢量)的幅度被用于计算TCSF的频率(见上面的表达式，用|DMV|替代|MV|，其中DMV＝差分运动矢量)。

在另一实施例中，运动矢量对称性可以被用于精细化TMVM。运动矢量对称性[Bartels,C.and de Haan,G.,2009,“Temporal symmetry constraints in blockmatching,”Proc.IEEE 13^th Int’l.Symposium on Consumer Electronics,pp.749-752]被定义为当运动估计的时间方向被切换时对等运动矢量对的相对相似度，其是所计算的运动矢量的质量的测量(对称性越高，运动矢量质量越好)。“对称误差矢量”被定义为通过前向方向运动估计所获得的运动矢量与通过后向方向运动估计所获得的运动矢量之间的差异。低的运动矢量对称性(大的对称性误差矢量)通常是复杂现象存在的指示，复杂现象诸如是遮挡(一个对象移动到另一个对象前面，因此覆盖或露出背景对象)、对象运动到视频帧上或离开视频帧、以及照明变化，所有这些均使得难以导出精确的运动矢量。

在一个实施例中，当对称性误差矢量在幅度上大于正被编码的数据块的范围的一半(例如，对于16×16宏块，在幅度上大于(8,8)矢量)时，表明了低的对称性。在另一个实施例中，当对称性误差矢量在幅度上大于基于在追踪处理期间导出的运动矢量统计的阈值时，表明了低的对称性，该阈值诸如是平均运动矢量幅度加上当前帧或某些最近帧的组合中运动矢量幅度的多个标准差。在一个实施例中，根据全局运动矢量与编码器运动矢量的比较，其运动矢量具有如上定义的低对称性的数据块被自动指派为TMVM值0，而其他数据块保留它们先前的TMVM值。

由于在计算运动矢量时熟知的孔径问题(参见http://en.wikipedia.org/wiki/ Motion_perception#The_aperture_problem)，平坦但具有高空间对比敏感度的块倾向于产生不可靠的运动矢量。例如，平坦块可以使用边缘检测处理(其中如果在数据块中没有检测到边缘，则表明是平坦块)或通过将数据块的方差与阈值进行比较(小于阈值的低方差将指示平块)来被检测到。在一个实施例中，块平坦度可以被用于修改如上计算的TMVM。例如，如果一个块被检测为平坦块，则该块可以被重新指派TMVM值0。

在一个实施例中，TMVM可以被用作用于精细化TCSF的遮罩，其取决于具有可靠的运动矢量。由于TMVM具有0或1的值，所以针对一个块的TMVM值与针对该块的TCSF值的逐块相乘具有遮罩TCSF的效果。对于TMVM值为0的块，TCSF被“关闭”，因为TCSF依赖于其计算的运动矢量是不可靠的。对于TMVM值为1的块，TCSF计算被认为是可靠的，并且以上述任何方式的置信度被使用。

在另一组实施例中，取代时间对比度图(如上所述的TCSF)或除了生成时间对比度图之外还生成空间对比度图。在本发明中，使用简单的度量来测量空间对比度，这里将其反义词称为“空间复杂度”。在一个实施例中，针对数据的亮度分量和色度分量两者测量的块方差被用于测量给定输入块的空间复杂度。如果输入块具有高方差，则认为其在空间上复杂并且对HVS而言较不显著，并且因此具有低空间对比度。

另一实施例中，针对数据的亮度分量测量的块亮度被用于精细化空间复杂度的方差测量。如果输入块具有低方差(低的空间复杂度，高的空间对比度)，但是非常亮或非常暗，则该块被自动地认为具有低的空间对比度，覆盖它先前被测量的高的空间对比度。这样的原因在于非常暗和非常亮的区域对于HVS而言是不显著的。用于将块分类为非常亮或非常暗的亮度阈值是应用特定的，但是对于8比特视频的典型值是：对于非常亮的是“高于170”，而对于非常暗是“低于60”。

可以针对视频帧的所有输入块计算由如上所述的由块亮度修改的块方差，以形成空间对比图(SCM)，空间对比图(SCM)在空间对比度方面指示对HVS而言具有高和低显著性的区域。

在一个实施例中，SCM可以与TCSF(由TMVM精细化)组合以形成统一重要度图。统一图可以例如通过针对块的SCM值与针对该块的TCSF值的逐块相乘来形成，其中SCM和TCSF两者均被适当地归一化。在另一个实施例中，SCM可以被用于代替TCSF。在另一个实施例中，SCM可以被用于精细化TCSF。例如，在高的复杂度的块中，SCM值可以覆盖该块的TCSF值，而在低的复杂度的块中，可以直接使用该块的TCSF值。

用于视频编码的重要度图的应用

如上所述的重要度图可以被应用于针对一般编码器(图2)或针对CBT编码器(图3)的视频编码处理，以增强的编码比特流的质量。

图7描绘了重要度图到视频编码的一般应用。输入视频帧5和帧存储85被用于生成感知统计390，然后感知统计390被应用以形成如上所述的重要度图400、TCSF(由TMVM精细化)和/或SCM。感知统计390可以包括(但不限于)运动矢量幅度、块方差、块亮度、边缘检测和全局运动模型参数。输入视频帧5和帧存储85通常也被输入到450中的对视频帧的编码，450包括通常的编码步骤(在图2中，运动估计15、帧间预测20、帧内预测30、变换和量化60以及熵编码90)。然而，在图7中，如下所述，编码450由重要度图400增强。

图8A描绘了使用CBT来将重要度图具体应用于增强型视频编码。图8A示出了经由来自CBT的帧到帧追踪210和连续追踪220步骤的初始运动估计(图2中的110)。然后利用本地搜索和子像素精细化(图4中的250)的相同精细运动估计步骤，将精细运动估计130应用于全局CBT运动矢量225。这再次紧接着是模式生成模块140，模式生成模块140基于编码器的可能的编码模式来生成候选预测集合145。如图4所示，EPZS和诸如(0,0)运动矢量和中值预测子的其它非基于模型的候选也可以作为统一运动估计架构的一部分而并行地生成(为了使图简化，这些其他候选未在图8A中示出)。回到图8A，预测候选145的完整集合(包括CBT候选的所有编码模式以及用于其它基于非基于模型的候选的可能的所有编码模式)再次经历“最终”速率-失真分析155，以确定最佳单个候选。在“最终”速率-失真分析中，使用精确的速率-失真度量D+λR，计算针对失真部分的预测误差D和针对速率部分的实际编码比特R(来自图1中的熵编码90)。最终预测160(或图1中的40)连同其运动矢量和其它编码参数一起被传递到编码器的后续步骤。

在图8A中，感知统计量390可以根据从帧到帧运动追踪210导出的运动矢量来计算，然后被应用以形成如上所述的重要度图400，然后将其输入到最终速率失真分析155中。再次，感知统计390可以包括(但不限于)运动矢量幅度、块方差、块亮度、边缘检测和全局运动模型参数。

在一个实施例中，重要度图被用于相应地修改速率-失真优化标准。在标准编码器(参见图2)中，给定输入块10的预测候选145的全集经历“最终”速率-失真分析150以确定最佳单个候选。在“最终”速率-失真分析中，使用精确的速率-失真度量D+λR，计算针对失真部分的预测误差D和针对速率部分的实际编码比特R(来自图1中的熵编码90)。具有用于速率-失真度量D+λR的最低得分的候选变成针对给定输入块10的最终预测160。在本发明的一个实施例中，对于图7或8的感知上优化的编码器，在400中计算重要度图IM，并且最终速率-失真分析155使用经修改的速率-失真度量D·IM+λR。在修改的速率-失真度量中，给定输入块的IM值乘以失真项，IM值越高，向低失真解决方案指派更高的重要度，因为高IM值指示对应的输入块在感知上是重要的。重要度图可以包括TCSF(可能由TMVM精细化)、SCM或两者的组合。

在上述的另一实施例中，速率失真度量中的失真D可以被计算为在YUV空间中计算的SSE(平方误差之和，计算失真的“标准”方法)和SSIM的加权和。可以自适应地计算加权γ，使得视频的前几个(或最近几个)帧上的平均SSIM值SSIM_avg等于视频的前几个(或最近几个)帧上的平均SSE值SSE_avg：γ·SSIM_avg＝SSE_avg。对于每个输入块，经修改的速率-失真度量将是(SSE+γ·SSIM)·IM+2λR，其中在λR项之前乘数2考虑了存在两个失真项的事实。将SSIM包括在失真测量中指示了在速率-失真优化中还考虑HVS感知，因为SSIM考虑了数据中的结构信息。

在另一组实施例中，除了修改速率-失真优化之外或代替修改速率失真优化，重要度图(例如，具有TMVM精细化的TCSF和SCM)可以被用于修改编码器的块量化。量化控制给定数据块被编码的相对质量；高度量化的数据导致较差质量的编码输出，而较少量化的数据导致较高质量的编码输出。量化量由量化参数QP控制。标准编码器将不同的QP值QP_frame指派给不同的帧类型，其中I帧用最小的QP(最高质量)进行编码，B帧用最高的QP(最低质量)进行编码，P帧用中间QP(中间质量)进行编码。

于是，上述技术表示通过使用重要度图来对具有非重叠目标块的多个视频帧进行编码以修改每个视频帧中的每个目标块的量化(并且因此影响编码质量)的方法。可以使用时间信息(具有TMVM精细化的TCSF)、空间信息或两者的组合来配置重要度图(即，统一重要度图)。因为重要度图指示每个视频帧的哪些部分对于人类感知而言最显著，所以重要度图值应如下修改每个目标块的QP：(i)对于重要度图取高值的块，块QP相对于QP_frame被减小，导致那些块的较高质量；(ii)对于重要度图取低值的块，块QP相对于帧量化参数QP_frame被增加，导致那些块的较低质量。

图8B示出了在编码期间使用重要度图400来修改量化的示例性处理。在400，可以使用从感知统计390导出的时间信息和/或空间信息来配置/创建重要度图。例如，时间信息可以由时间对比敏感度函数(TCSF)和真实运动矢量图(TMVM)提供，时间对比敏感度函数(TCSF)指示哪些目标块在时间上对人类观察者而言是最显著的，并且真实运动矢量图(TMVM)指示哪些目标块对应于前景数据，其中TCSF仅被认为对于被标识为前景数据的那些目标块有效。例如，空间信息可以由基于规则的空间复杂度图(SCM)提供。

然后，如上所述，使用重要度图400来修改编码450内的量化步骤430。在重要度图取高值的块中，块量化参数(QP)相对于帧量化参数QP_frame被减小，导致那些块的较高编码质量。在重要度图取低值的块中，块量化参数相对于帧量化参数QP_frame被增加，导致那些块的较低编码质量。通过使用来自重要度图的信息，可以以提高每个视频帧中要被编码的每个目标块的编码质量的方式来修改量化。

在一个实施例中，给定帧的TCSF图可以用于逐块地调整帧QP。计算块QP QP_block的一种方法是遵循[Li,Z.et al,2011,“Visual attention guided bit allocation invideo compression,J.of Image and Vision Computing,29(1):1-14]来将调整与帧中的完整TCSF图相关联。得到的等式由QP_block＝[TCSF_frame/(TCSF_block×M)]·QP_frame给出，其中TCSF_frame是帧中所有块的TCSF值之和，TCSF_block是给定块的TCSF值，QP_frame是帧QP，M是帧中的块数。在另一实施例中，可以缩放乘法因子[TCSF_frame/(TCSF_block×M)]以防止QP_block的最终值相对于QP_frame变得太高或太低。

在替代实施例中，可以不参考帧的完整TCSF图来完成经由TCSF图对QP的逐块调整。在该实施例中，QP_block的计算更简单：QP_block＝QP_frame/TCSF_block。在一个实施例中，QP_block的结果值被限幅，使得其不超过帧的预定最大或最小QP值：QP_min≤QP_block≤QP_max。

在另一实施例中，SCM的输出可以被用于使用基于规则的方法来逐块地修改量化参数。该实施例通过指派具有高方差和高QP值(低质量)的块开始，因为高度复杂区域对于HVS更不显著。具有低方差的块被指派低QP值(高质量)，因为较不复杂的区域对于HVS更显著。在一个实施例中，给定块的QP指派由帧的最大QP值QP_max和最小QP值QP_min限定，并且基于块方差相对于帧中其他块的方差来被线性地缩放。在替代实施例中，仅具有高于整个帧的平均方差的方差的那些块被指派帧QP QP_frame和QP_max之间的QP值，其中所述指派是线性缩放的，以使得QP_block＝[(var_block–var_frame)/var_block]*(QP_max–QP_frame)+QP_frame。在该替代实施例中，高方差块的QP指派可以由TCSF进一步精细化。例如，如果块被认为是TMVM中的前景数据，并且TCSF具有小于0.5的对数对比敏感度值(图5中的垂直轴)，意味着该块在时间上不重要，则QP_block被提高2。在替代实施例中，可以应用边缘检测处理，并且包含边缘的块可以将它们的QP调整为QP_min，根据空间复杂度重写先前指派的QP，因为边缘对于HVS是特别显著的。在另一实施例中，非常亮或非常暗的块同样可以通过根据方差和(如果适用)通过边缘检测来重写先前指派的QP以将它们的QP调整到QP_max，因为非常暗或非常亮的区域对HVS不是显著的。这个处理被称为亮度遮罩。

在上述的另一实施例中，可以基于已编码的视频的质量水平来动态地确定高方差块的QP_max的值。想法在于低质量编码不能承受高方差块中的任何质量下降，因此QP_max应该更接近QP_frame，而高质量编码可以承受高方差块的增加的QP_max以节省比特。可以通过计算具有在平均帧方差的5％内的方差的块的平均SSIM来更新在每个I(内，Intra)帧处的编码的质量，其中较高的SSIM值对应于较大的QP_max值。在替代实施例中，通过帧的平均方差来调整平均SSIM，使得质量指示符被计算为平均SSIM和平均帧方差的乘积。

在上述的另一实施例中，可以向非常低方差的块(对应于对HVS特别可见的平坦区域)指派固定的低QP值，以确保那些区域中的高质量编码。例如，对于I(内)帧，具有0和10之间的方差的块可以被指派QP＝28，具有10和30之间的方差的块可以被指派QP＝30，并且具有30和60之间的方差的块可以被指派QP＝32。然后可以使用ipratio和pbratio参数从以上QP中导出针对P帧和B帧中的块的QP指派。

在上述的另一实施例中，向低方差块(例如，具有在60和平均帧方差之间的方差的那些块)指派帧QP QP_frame，然后检查以确定是否需要进一步的质量增强。在一个实施例中，可以通过将来自正在被编码的当前(目标)块的重建像素和原始像素两者的空间复杂度和亮度与先前编码的周围块(例如，在左、左上、上、右上处可获得的块)的空间复杂度和亮度进行比较来检测块状人为噪音(blockiness artifact)。如果在目标块的重建像素的空间复杂度和亮度测量与相邻块的对应测量之间存在大的差异，但是在目标块的原始像素和相邻块的原始像素之间的空间复杂度和亮度不存在这种差异，则认为目标块是“块状的”。在这种情况下，块的QP值被减小(例如，被减小2)以提高块的编码质量。在另一实施例中，通过对先前编码的周围块(例如，在左、左上、右、右上处可获得的块)的SSIM和QP值进行平均来计算目标块的估计质量。平均QP值QP_avg是目标块的估计QP QP_block。如果平均SSIM值SSIM_est小于0.9，则QP_block＝QP_avg被降低2，从而提高其质量。在另一实施例中，如果目标块被TMVM标识为前景数据，则QP_block仅在TCSF具有大于0.8的对数对比敏感度值(图5中的垂直轴)时被降低2，这意味着该块是在时间上重要的。

上面概述的方法可以使用时间重要度图(具有或不具有TMVM精细化的TCSF)、空间重要度图(SCM)或两者。如果使用时间重要度图和空间重要度图两者，则结果被称为统一重要度图。

如上所述根据感知统计生成的重要度图可以被应用于使用运动补偿以产生运动矢量的任何视频压缩框架，使得速率-失真分析和量化两者均被增强以针对相同的编码尺寸产生视觉上更好的编码。使用用于视频压缩的重要度图不需要如上详述的连续块追踪器(CBT)的特定应用。然而，CBT提供了精确地确定哪些运动矢量是真实运动矢量的附加能力，因此重要度图在基于CBT的编码框架中更有效。其特定原因是CBT的帧到帧运动矢量(来自图8A中的帧到帧追踪210)是根据视频的原始帧而不是重建帧生成的。图2和图7中用于一般编码器的帧存储85包含从编码处理产生的重建帧，但图3、图4和图8A中的帧存储205包含原始视频帧。因此，CBT的帧到帧追踪(图3、4和8中的210)能够更好地追踪视频的真实运动，并且它的帧到帧运动矢量生成更准确的真实运动矢量图。相反，选择一般编码器的运动矢量以优化速率-失真(压缩)性能，并且可能不反映视频的真实运动。

还应当注意，重要度图一旦生成，也可以遵循上述技术而通过修改帧内预测模式之间的速率-失真优化或通过修改块级量化来被应用于帧内预测帧。然而，对于所有帧内编码器，TCSF的计算需要单独的编码模块(诸如图8A中的帧到帧追踪210)以生成视频帧中的每一个数据块的运动矢量。

数字处理环境

本发明的示例实现可以在软件、固件或硬件环境中实现。图9A示出了一个这样的环境。客户端计算机/设备950(例如，移动电话或计算设备)和云960(或服务器计算机或其集群)提供执行应用程序等的处理、存储、编码、解码和输入/输出设备。

客户端计算机/设备950还可以通过通信网络970链接到其他计算设备，包括其他客户端设备/处理950和服务器计算机960。通信网络970可以是远程接入网络、全球网络(例如，因特网)、全球计算机集合、局域或广域网以及当前使用相应协议(TCP/IP、蓝牙等)来彼此通信的网关的一部分。其他电子设备/计算机网络架构也是合适的。

本发明的实施例可以包括用于对视频或数据信号信息进行编码、追踪、建模、滤波、调谐、解码或显示的部件。图9B是在图9A的处理环境中的计算机/计算节点(例如，客户端处理器/设备/移动电话设备/平板计算机950或服务器计算机960)的内部结构的图，其可以用于促进对这样的视频或数据信号信息进行编码。每个计算机950、960包含系统总线979，其中总线是用于在计算机或处理系统的组件之间的数据传输的实际或虚拟硬件线路的集合。总线979本质上是连接计算机系统(例如，处理器、编码器芯片、解码器芯片、盘存储、存储器、输入/输出端口等)的不同元件的共用导管，其能够实现元件之间数据的传送。被附接到系统总线979的是用于将各种输入和输出设备(例如，键盘、鼠标、显示器、打印机、扬声器等)连接到计算机950、960的I/O设备接口982。网络接口986允许计算机连接到与网络(例如，在图9A的970处所示的网络)附接的各种其他设备。存储器990为用于实现本发明的软件实现(例如，编解码器：编码器/解码器)的计算机软件指令992和数据994提供易失性存储。

盘存储995为用于实现本发明的实施例的计算机软件指令998(等同于“OS程序”)和数据994提供非易失性存储：其还可以被用于以用于长期存储的压缩格式来存储视频。中央处理器单元984还附接到系统总线979，并提供计算机指令的执行。注意，在整个本文中，“计算机软件指令”和“OS程序”是等同的。

在一个实例中，编码器可以被配置有用于使用根据时间信息或空间信息形成的重要度图来对视频数据进行编码的计算机可读指令992。重要度图可以被配置为向编码器(或其元件)提供反馈环路以优化视频数据的编码/解码。

在一个实施例中，处理器例程992和数据994是具有编码器(一般标记为992)的计算机程序产品，其包括能够被存储在存储设备994上的计算机可读介质，存储设备994提供用于编码器的软件指令的至少一部分。

计算机程序产品992可以通过本领域中公知的任何适当的软件安装过程来安装。在另一实施例中，编码器软件指令的至少一部分也可以通过电缆、通信和/或无线连接来下载。在其他实施例中，编码器系统软件是在非瞬时性计算机可读介质上实现的计算机程序传播信号产品907(在图9A中)，该计算机程序传播信号产品907在被执行时可以被实现为传播介质上的传播信号(例如，无线电波、红外波、激光波、声波或在诸如因特网或其它网络的全球网络上传播的电波)。这样的载体介质或信号提供用于本发明例程/程序992的软件指令的至少一部分。

在替代实施例中，传播信号是在传播介质上承载的模拟载波或数字信号。例如，传播信号可以是在全球网络(例如，因特网)、电信网络或其他网络上传播的数字化信号。在一个实施例中，传播信号在一段时间内在传播介质上传输，诸如用于软件应用的指令在毫秒、秒、分钟或更长的时间段上通过网络在分组中发送。在另一个实施例中，计算机程序产品992的计算机可读介质是计算机系统950可以接收和读取的传播介质，该接收和读取诸如如上所述针对计算机程序传播信号产品，通过接收传播介质并且标识在传播介质中实现的传播信号。

尽管已经参照本发明的示例性实施例具体示出和描述了本发明，但是本领域技术人员将理解，在不脱离所附权利要求所涵盖的本发明的范围的情况下，可以进行形式上和细节上的各种改变。

Claims

1.一种编码具有非重叠目标块的多个视频帧的方法，所述方法包括：

使用重要性图来编码所述多个视频帧，使得所述重要性图修改量化，所述量化影响每个视频帧中要被编码的每个目标块的编码质量，所述重要性图通过以下而被形成：

使用时间信息和空间信息来配置所述重要性图；以及

计算地使能所述重要性图指示所述多个视频帧中的视频帧的哪些部分对于人类感知而言最显著，以使得：(i)在所述重要性图取高值的块中，块量化参数(QP)相对于帧量化参数QP_frame被减小，导致那些块的较高质量，以及(ii)在重要性图取低值的目标块中，所述块量化参数相对于所述帧量化参数QP_frame被增加，导致那些块的较低质量。

2.根据权利要求1所述的方法，其中所述空间信息由基于规则的空间复杂度图(SCM)提供，其中初始步骤确定所述帧中的哪些目标块具有比所述帧中的平均块方差var_frame更高的方差；并且

针对这样的块，基于块方差var_block比var_frame高多少来指派比所述帧量化参数QP_frame高的QP值，其中所述块QP指派QP_block在QP_frame与最大量化参数QP_max之间被线性地缩放。

3.根据权利要求1所述的方法，其中所述时间信息由以下提供：

时间对比敏感度函数(TCSF)，所述时间对比敏感度函数指示哪些目标块对于人类观察者而言在时间上最显著，并且

真实运动矢量图(TMVM)，所述真实运动矢量图指示哪些目标块对应于前景数据，

其中所述TCSF仅被认为对于被标识为前景数据的那些目标块有效。

4.根据权利要求2所述的方法，其中高方差块使其块QP指派QP_block进一步由所述TCSF和TMVM精细化，使得如果所述TMVM将目标块标识为前景数据并且所述TCSF对于该块具有小于0.5的对数对比敏感度值，则QP_block被提高2。

5.根据权利要求2所述的方法，其中所述SCM还包括亮度遮罩，其中非常亮(亮度高于170)或非常暗(亮度低于60)的目标块将它们的块量化参数QP_block调整回QP_max。

6.根据权利要求2所述的方法，其中所述SCM还包括基于经编码的所述视频的质量水平对QP_max的动态确定，

其中质量使用内(I)帧中的目标块的平均结构相似度(SSIM)计算连同这样的帧的所述平均块方差var_frame来被测量；

使得当所测量的质量低时，QP_max的值被降低到更接近QP_frame的值。

7.根据权利要求2所述的方法，其中非常低方差的块被指派固定的低QP值QP_block以确保在那些区域中的高质量编码，使得所述块方差越低，QP_block的值越低(并且所述质量越高)。

8.根据权利要求7所述的方法，其中针对非常低方差的块的低QP值QP_block的指派首先针对I帧是固定的，然后针对P帧和B帧使用ipratio和pbratio参数来被确定。

9.根据权利要求7所述的方法，其中作为低方差但不符合非常低方差的块被检查，以确定对于那些块是否需要质量增强；

使得块QP QP_block的初始估计通过对与所述当前块的左、左上、右和右上相邻的已编码块的所述QP值求平均来被计算；

所述当前块的SSIM的估计SSIM_est根据与所述当前块的左、左上、右和右上相邻的已编码块的所述SSIM值来被计算；

并且如果SSIM_est低于0.9，则QP_block的值被降低2。

10.根据权利要求9所述的方法，其中所述质量增强仅被应用于由所述TMVM标识为前景数据并且所述TCSF针对其而具有大于0.8的对数对比敏感度值的那些块。

11.根据权利要求3所述的方法，其中所述TCSF的所述时间频率通过以下来被计算：在所述目标块与所述目标块的参考块之间的色彩空间域中使用SSIM来逼近波长并且使用运动矢量幅度和所述帧速率来逼近速度。

12.根据权利要求3所述的方法，其中所述TCSF在多个帧上被计算，使得所述当前帧的所述TCSF是近期的帧上的TCSF图的加权平均，其中更近期的帧接收更高的加权。

13.根据权利要求3所述的方法，其中所述TMVM仅针对前景数据而被设置为1。

14.根据权利要求13所述的方法，其中前景数据通过计算给定目标块的编码器运动矢量与该块的全局运动矢量之间的差异而被标识，使得具有足够大差异的块被确定为前景数据。

15.根据权利要求14所述的方法，其中针对被标识为前景数据的数据块，所述编码器运动矢量从所述全局运动矢量中被减去，以获得差分运动矢量，并且所述差分运动矢量的幅度被用于计算所述TCSF的所述时间频率。

16.根据权利要求3所述的方法，其中所述TCSF根据来自编码器的运动矢量而被计算。

17.根据权利要求1所述的方法，其中如果所述重要性图被配置有所述时间信息和空间信息，则所述重要性图是统一重要性图。

18.一种编码视频数据的系统，所述系统包括：

编解码器，所述编解码器使用重要性图来编码具有非重叠目标块的多个视频帧；并且

所述重要性图被配置为修改量化，所述量化影响每个视频帧中要被编码的每个目标块的编码质量，所述重要性图通过以下而被形成：

使用时间信息和空间信息来配置所述重要性图，其中被配置有所述时间信息和空间信息的重要性图是统一重要性图；并且

计算地使能所述重要性图指示所述多个视频帧中的视频帧的对于人类感知而言最显著的部分，以使得：(i)在所述重要性图取高值的块中，块量化参数(QP)相对于帧量化参数QP_frame被减小，导致那些块的较高质量，以及(ii)在重要性图取低值的目标块中，所述块量化参数相对于所述帧量化参数QP_frame被增加，导致那些块的较低质量。

19.根据权利要求18所述的编码器，其中所述空间信息由基于规则的空间复杂度图(SCM)提供，其中初始步骤确定所述帧中的哪些目标块具有比所述帧中的平均块方差var_frame更高的方差；并且针对这样的块，基于块方差var_block比var_frame高多少来指派比所述帧量化参数QP_frame高的QP值，其中所述块QP指派QP_block在QP_frame与最大量化参数QP_max之间被线性地缩放。

20.根据权利要求18所述的编码器，其中所述时间信息由以下提供：

21.根据权利要求19所述的编码器，其中高方差块使其块QP指派QP_block进一步由所述TCSF和TMVM精细化，使得如果所述TMVM将目标块标识为前景数据并且所述TCSF对于该块具有小于0.5的对数比对敏感度值，则QP_block被提高2。

22.根据权利要求19所述的编码器，其中所述SCM还包括亮度遮罩，其中非常亮(亮度高于170)或非常暗(亮度低于60)的目标块将它们的块量化参数QP_block调整回QP_max。

23.根据权利要求19所述的编码器，其中所述SCM还包括基于所述编码视频的质量水平对QP_max的动态确定，

其中质量使用内(I)帧中的目标块的平均结构相似度(SSIM)计算连同这些帧的所述平均块方差var_frame来被测量；

24.根据权利要求19所述的编码器，其中向非常低方差的块指派固定的低QP值QP_block以确保在那些区域中的高质量编码，使得所述块方差越低，QP_block的值越低(并且所述质量越高)。

25.根据权利要求24所述的编码器，其中针对非常低方差的块的低QP值QP_block的指派首先对于I帧是固定的，然后针对P帧和B帧使用ipratio和pbratio参数来被确定。

26.根据权利要求19所述的系统，其中作为低方差但不符合非常低方差的块被检查，以确定对于那些块是否需要质量增强；

使得块QP QP_block的初始估计通过对所述当前块的左侧、左上侧、右侧和右上侧的相邻已编码块的所述QP值求平均来被计算；

所述当前块的SSIM的估计SSIM_est根据所述当前块的所述左侧、左上侧、右侧和右上侧的相邻已编码块的所述SSIM值来被计算；并且

如果SSIM_est低于0.9，则QP_block的值被降低2。

27.根据权利要求26所述的系统，其中所述质量增强仅被应用于由所述TMVM标识为前景数据并且所述TCSF针对其而具有大于0.8的对数对比敏感度值的那些块。

28.根据权利要求20所述的系统，其中所述TCSF的所述时间频率通过以下来被计算：使用所述目标块与所述目标块的参考块之间的色彩空间域中的SSIM来逼近波长，并且使用运动矢量幅度和所述帧速率来逼近速度。

29.根据权利要求20所述的系统，其中所述TCSF在多个帧上被计算，使得所述当前帧的所述TCSF是近期的帧上的TCSF图的加权平均，其中更近期的帧接收更高的权重。

30.根据权利要求20所述的系统，其中所述TMVM仅针对前景数据而被设置为1。

31.根据权利要求30所述的系统，其中前景数据通过计算给定目标块的编码器运动矢量与该块的全局运动矢量之间的差异而被标识，使得具有足够大差异的块被确定为前景数据。

32.根据权利要求20所述的系统，其中针对被标识为前景数据的数据块，从所述全局运动矢量中减去所述编码器运动矢量，以获得差分运动矢量，并且所述差分运动矢量的幅度被用于计算所述TCSF的所述时间频率。

33.根据权利要求20所述的系统，其中，所述TCSF根据来自编码器的运动矢量而被计算。

34.根据权利要求18所述的系统，其中如果所述重要性图被配置有所述时间信息和空间信息，则所述重要性图是统一重要性图。