CN105379269B

CN105379269B - 兴趣区域感知的视频编码

Info

Publication number: CN105379269B
Application number: CN201480039332.9A
Authority: CN
Inventors: P·卡尔松; M·赫门多夫; K·霍夫鲍尔; S·尼基弗罗夫; D·Y·赵
Original assignee: Microsoft Technology Licensing LLC
Current assignee: Microsoft Technology Licensing LLC
Priority date: 2013-07-10
Filing date: 2014-07-07
Publication date: 2018-11-06
Anticipated expiration: 2034-07-07
Also published as: EP3001885B1; CN109068137A; CN109068137B; CN105379269A; US20150016510A1; US20160044321A1; US9516325B2; WO2015006176A1; EP3001885A1; GB201312382D0; US9167255B2

Abstract

一种编码器，包括编码模块和适配模块。所述编码模块被配置为在至少一个兴趣区域中以及在所述兴趣区域外部对视频进行编码。所述编码包括量化，并且所述编码模块可操作地应用在所述兴趣区域内部的所述编码和在所述兴趣区域外部的所述编码之间的量化粒度中的差异。所述适配模块被配置为确定表示所述兴趣区域内部和所述兴趣区域外部的所述量化效益的差异的至少一个度量，并且取决于所述度量对所述量化粒度中的差异进行适配。

Description

兴趣区域感知的视频编码

背景技术

在现代通信系统中，视频信号可以通过诸如有线和/或无线网络(通常是诸如互联网的基于分组的网络)之类的介质从一个终端发送到另一个终端。通常，视频的帧在发送终端被编码器编码，以便于对其进行压缩以用于经由网络进行传送。对于给定帧的编码可以包括帧内编码，凭借帧内编码，相对于同一帧中的其他块来对块进行编码。在这样的情况下，目标块根据该块与相邻块之间的差(残差)而被编码。可替代地，对于一些帧的编码可以包括帧间编码，凭借帧间编码，目标帧中的块通常基于运动预测，相对于前序帧中的相对应的部分而被编码。在这种情况中，根据用于标识目标块与要从中预测出该块的相对应的部分之间的偏移量的运动向量，以及目标块与从中预测出该块的相对应的部分之间的差(残差)，来对目标块进行编码。接收机处的相对应的解码器基于适当的预测类型来对接收到的视频信号的帧进行解码，以便于将其解压以用于输出到屏幕。可以用来指代编码器和/或解码器的通用术语是编解码器。

在预测编码之前，每个块的样本通常被量化，以便于降低对块进行编码中产生的比特率。量化指的是对在相对大规模上表示的样本或来自相对大的集合的值之中的样本进行采样，并将其转换成在相对小的规模上表示的样本或来自相对小的集合之中的样本(其可以被称为量化等级)。例如，量化可以指的是将有效连续的变量(例如，连续变量的数字近似)转换为约束到实质上离散的等级的集合的变量的过程。量化的粒度指的是要表示的样本被约束为从其中选择的规模或集合中的可能被量化成的值之间的间隔的大小，即量化等级之间的步长的大小。这还可以被描述为量化的粗度或细度。取决于该粒度，量化将某种失真引入到视频图像的表示中，但是也降低了表示图像所需的比特数量。

一些视频编解码器(例如根据H.264标准设计的那些编解码器)允许量化粒度被设置为编码的参数(并且以与被编码的比特流一起传送的边信息的形式用信号发送到解码器)。还可能的是，定义视频帧的范围内的兴趣区域(ROI)，并且设置由固定的量化参数偏移所定义的该ROI内部和外部的量化参数中的差。编解码器的设计者能够潜在地使用该ROI来覆盖期望把更多的比特花费在更好地质量上的视频的任何区域。一种可能的使用是覆盖面部或面部特征。例如，通过这种方式，可以将更多的可用于通过网络来发送视频的潜在受限的可用带宽花费于提供在ROI中的质量，同时，需要花费相对少的比特来对背景和/或较低重要性的区域进行编码。

发明内容

发明人已经意识到，现有的方法不总是产生最期望的结果。例如，在视频通话中，视频图像通常由在大体上静止的背景下的说话的头部组成，因此，ROI可以被设置在头部、面部或诸如嘴、眼眉和眼睛等某些运动特征周围的图像区域中。在具有恒定背景的说话的头部的情况中，通过帧间编码进行的对背景的编码将实际上产生很少的比特甚至不产生比特，而与兴趣区域内部和外部的量化参数中的任何差异无关，这是因为帧之间的残差为零，与量化步长的大小无关。然而，如果ROI外部的量化过粗，则对背景的偶尔的帧内编码将是低质量的，并且此外，背景中的细小改变将随着时间引入增长的降级。因此，事实上，在一些情况中，在ROI和ROI外部之间应用特定量化偏移可能降级ROI外部的质量，而没有ROI中相对应的改善。类似的问题可能出现在视频通话或说话的头部以外的情况中。期望的是，提供ROI中的质量提升与ROI外部的质量降级之间的更均衡的折衷。

根据本公开的一个方面，提供了一种包括编码模块和适配模块的编码器。编码模块在至少一个兴趣区域中以及在该兴趣区域外部对视频进行编码。编码包括量化过程，并且编码模块能够应用在兴趣区域内部编码和在兴趣区域外部编码之间的量化粒度中的差异。适配模块确定表示兴趣区域内部和兴趣区域外部的量化效益的差异的至少一个度量，并且基于此，适配模块动态地对量化粒度中的差异进行适配。例如，度量可以包括由兴趣区域内部的编码产生的比特率相对于由外部的编码产生的比特率的指示。通过取决于被编码的数据来减轻量化的粗度中的差异，诸如面部的兴趣区域中的某种程度的较高质量仍然可以被允许，但是不总是如先前技术中的相同的极端程度。编码器由此能够提供改善视频帧的整体主观质量的更大的机会，其考虑了ROI内部和外部的潜在影响，并且不认为ROI应该在所有情况下被给予相同的优待处理是理所当然的。

提供这样的发明内容来以简化的形式引入一系列概念，这些概念在下文的具体实施方式中被进一步描述。该发明内容既不是想要标识所要求的主题的关键特征或必要特征，也不是想要用来限制所要求的主题的范围。所要求的主题也不限制于用于解决背景技术部分提到的缺陷中的任何或全部的实现方式。

附图说明

为了更好地理解所描述的实施例以及示出可以如何实施这些实施例，以示例的方式来参照附图，在附图中：

图1是视频流的示意表示，

图2是通信系统的示意框图，

图3是编码的视频流的示意表示，

图4是编码器的示意框图，

图5是解码器的示意框图，以及

图6是要被编码的视频图像中的兴趣区域的示意表示。

具体实施方式

在基本的编码器中，不利用任何ROI的知识对帧进行编码。在帧上均匀地考虑失真并且目标在于使帧中的整体失真最小化。另一方面，如果编码器知道特定区域(ROI)的主观重要性高，则其可以在那里花费更多的比特，以便于改善整体的主观质量。例如，如果场景包括正在说话的面部以及无关的背景，则以背景质量为代价来提升面部的质量可能是有利的-即使这可能降低帧的整体客观质量。

本公开解决如何在ROI和“非ROI”区域之间分配比特的问题。

现有方法是定义ROI和非ROI之间的固定的质量差异，例如，定义ROI 应该具有比非ROI高2dB的PSNR(峰值信噪比)。在H.264中，这可以通过在ROI中使用比非ROI中小的量化步长大小(产生ROI的增长的比特率) 来实现。量化步长的大小由量化参数(QP)设置：较大的QP值指的是较大的步长大小并因此是较粗的粒度和较低的客观质量，而较小的QP值指的是较小的步长大小并因此是较细的粒度和较高的客观质量。ROI与非ROI 之间的差异由固定的QP偏移来定义。

这种方法对于一定范围的视频工作得很好。然而，对于某些视频，其可能降级非ROI的质量，而没有ROI的相对应的改善。例如，考虑具有静态、无噪声背景的说话的头部类型的视频。非ROI视频编码器会已经将几乎所有的比特率花费在面部上，因为背景可以从前序帧中很好地预测。在比特率开销方面，背景质量几乎是无开销的，因为仅有第一个内编码的帧需要显著比特量。在这种情况下，在ROI和非ROI之间实施2dB的差别将会主要降级背景质量而没有面部的明显改善(来自初始帧内的低质量的背景将会继续停留，并且背景中的细小或者偶然的改变将会以低质量被反映)。将R个比特花费在面部时的面部质量的增益远小于将R个比特花费在背景时背景质量的增益。或者，换言之，与面部的率失真(R-D)函数相比，背景的R-D函数显著地更加陡峭。

相反地，其反面可以成立：如果背景是比面部高的熵(entropy)(即，具有较高的时间和/或空间复杂度)，则平均客观质量也将会受益于将更多的比特分配给面部。

下面公开了用于提供ROI中的质量改善与ROI外部(“非ROI”区域) 中的质量降级之间的更加平衡的折衷的ROI感知的编码器。

期望的是提供一种编码器，所述编码器的行为使得其将使受制于率约束的感知的帧失真度量最小化，其中，该失真度量考虑ROI和非ROI区域的相对重要性。这样的失真度量的近似可以是：

D_p＝D_ROI+w·D_non-ROI

其中，D_ROI是ROI中的失真，D_non-ROI是ROI外部的失真，而w是加权因子 (w<1)，这使得ROI外部的失真对帧失真的贡献较小。

然而，即使对客观的率失真函数进行估计也是复杂的-给定当前的编码状态，在率失真曲线上仅有单个的点是已知的。对主观曲线进行近似甚至更加复杂。

因此，为了限制复杂度并且保持鲁棒性，下文中公开的编码器基于对上文描述的理想行为进行近似的启发法(heuristic)。该启发法可以被如下实现：

(i)开始于将ROI与非ROI区域之间的量化参数偏移(QPoffset)设置成某个初始默认值或预先确定的值，例如，已经发现QPoffset＝-12对于大多数情况工作良好(其中，QP是根据H.264定义的)；

(ii)分别对ROI内部和外部的每像素比特数的两个移动平均值进行跟踪； (iii)如果ROI内部的每像素比特数大于ROI外部的每像素比特数的K倍，则增加QPoffset(其中，K>1)，以及如果ROI内部的每像素比特数小于外部的每像素比特数的K倍，则减小QPoffset，但是将QPoffset限制在一定范围，例如[-12,0]。

在实施例中，使用K＝4。可以使用针对QPoffset调节的各种平均窗口大小和机制来获得期望的行为，例如，阻止可能导致质量闪变的突然的 QPoffset改变。

静态背景和移动面部的情况是通过点(iii)来处理的：QPoffset将快速收敛到零，因此减轻上文讨论的问题，其中QP offset不适于所有情况，这是因为该QP offset可能使背景的质量降级而不提供在面部或其他这样的 ROI中超出此的益处。

现在，参考图1至图6来描述可以在其中实现这样的技术的视频编码系统的示例。

图1给出了输入视频信号的示意性图示，该输入视频信号从摄像机捕获并且被分为要由视频编码器编码的部分以便于生成编码的比特流。该信号包括在时间上被分为多个帧(F)的移动视频图像，每个帧表示在时间中不同的相应时刻(…t-1,t,t+1…)处的图像。在每个帧内，帧在空间上被分为多个部分，每个部分表示多个像素。所述部分可以例如被称为块。在某些方案中，帧可以被分为并且被细分为不同级别的部分或块。例如，每个帧可以被分成宏块(MB)并且每个宏块可以被分成块(b)，例如，每个块表示帧内的8×8像素的区域，并且每个宏块表示2×2个块(16×16像素) 的区域。在某些方案中，每个帧也可以被分成片(S)，每个片包括多个宏块。

如所捕获的输入信号中的块通常在空间域中被表示，其中，每个颜色空间通道被表示为块内的空间位置的函数。例如，在YUV颜色空间中，亮度(Y)和色度(U,V)通道中的每个可以被表示为笛卡尔坐标x和y的函数，Y(x,y)、U(x,y)以及V(x,y)；或者在RGB颜色空间中，红色(R)、绿色(G)和蓝色(B)通道中的每个可以被表示为笛卡尔坐标的函数R(x,y)、 G(x,y)、B(x,y)。在这样的表示中，每个块或部分由在不同空间坐标(例如，x和y坐标)处的像素值的集合来表示，这使得颜色空间中的每个通道根据在像素位置的离散集合中的每个处的该通道的相应量值来表示。

然而，在量化之前，作为编码过程的一部分，块可以被变换到变换域表示，该变换域表示通常是空间频率域表示(有时只称为频域)。在频域中，块中的每个颜色空间通道被表示为在两个维度的每个维度中的空间频率的函数(1/长度的维度)。例如，这可以分别通过水平和垂直方向上的波数k_x和k_y来指示，以使得通道在YUV空间中可以被表示为Y(k_x,k_y)、U(k_x,k_y) 和V(k_x,k_y)；或者在RGB空间中可以被表示为R(k_x,k_y)、G(k_x,k_y)和B(k_x,k_y)。因此，替代根据像素位置的离散集合中的每个处的量值来表示颜色空间通道，该变换根据与组成该块的空间频率分量的离散集合中的每个相关联的系数(即，与该块上的空间变化的不同频率相对应的空间频率项的离散集合中的每个的幅度)来表示每个颜色空间通道。这样的变换的可能选择包括傅里叶变换、离散余弦变换(DCT)、卡-洛(Karhunen-Loeve)变换(KLT)、或其他。

图2的框图给出了其中可以采用本公开的技术的通信系统的示例。该通信系统包括第一、发送终端12和第二、接收终端22。例如，每个终端 12、22可以包括移动电话或智能电话、平板、膝上型计算机、桌面型计算机、或诸如电视机、机顶盒、立体音响系统等的其他家用电器中的一个。第一和第二终端12、22每个可操作地耦合到通信网络32并且第一、发送终端12由此被布置为发送信号，所述信号将由第二、接收终端22接收。当然，发送终端12还可以能够接收来自接收终端22的信号并且反之亦然，但是出于讨论的目的，本文中从第一终端12的角度来描述发送，并且从第二终端22的角度来描述接收。通信网络32可以例如包括诸如广域互联网和/或局域网、和/或移动蜂窝网络之类的基于分组的网络。

第一终端12包括存储器14，例如，闪速存储器或其他电子存储器、磁存储设备、和/或光存储设备。第一终端12还包括具有一个或多个执行单元的处理器或CPU形式的处理装置16、具有至少一个发送机18的诸如有线或无线调制解调器的收发机、以及可以或可以不与终端12的其余部分容纳于相同的外壳内的视频摄像机15。存储器14、视频摄像机15以及发送机 18的每个可操作地耦合到处理装置16，并且发送机18经由有线或无线链路可操作地耦合到网络32。类似地，第二终端22包括诸如电子、磁、和/ 或光存储设备的存储器24；以及具有一个或多个执行单元的CPU形式的处理装置26。第二终端包括具有至少一个接收机28的诸如有线或无线调制解调器等的收发机、以及可以或可以不与终端22的其余部分容纳在同一外壳内的屏幕25。第二终端的存储器24、屏幕25和接收机28的每个可操作地耦合到相应的处理装置26，并且接收机28经由有线或无线链路可操作地耦合到网络32。

第一终端12上的存储器14至少存储被布置为在处理装置16上执行的视频编码器。当被执行时，编码器接收来自视频摄像机15的“原始”(未编码的)输入视频流，对该视频流进行编码以便于将其压缩成较低比特率的流，并且输出编码的视频流以用于经由发送机18和通信网络32发送到第二终端22的接收机28。第二终端22上的存储器24至少存储被布置为在其自身的处理装置26上执行的视频解码器。当被执行时，解码器接收来自接收机28的编码的视频流并且对其进行解码以用于输出到屏幕25。

图3给出了将要从运行在发送终端12上的编码器发送到运行在接收终端22上的解码器的编码的比特流33的示意性表示。比特流33包括针对每个帧的多个编码的样本34，包括任何运动向量。在一个应用中，比特流可以作为发送和接收终端12、22之间的诸如VoIP(互联网语音协议)通话(VoIP 通话也可以包括视频)之类的实况(实时)视频电话通话的一部分被发送。比特流33还可以包括相关联的边信息，将简要讨论边信息的示例使用。

图4是示出了例如可以在发送终端12上实现的编码器的框图。编码器包括主编码模块40，其包括：离散余弦变换(DCT)模块51、量化器53、逆变换模块61、逆量化器63、帧内预测模块41、帧间预测模块43、切换器47、以及减法级(subtraction stage)(-)49。编码器还包括耦合到编码模块40的适配模块50，以及耦合到适配模块50的比特率控制器69。这些模块或级中的每个可以被实现为存储在发送终端的存储器14上的代码的一部分并且被布置为用于在其处理装置16上执行，但是并不排除这些中的一些或全部完全地或部分地以专用硬件电路来实现的可能性。

减法级49被布置为接收包括多个帧(F)上的多个块(b)的输入视频信号的实例。输入视频流是从耦合到减法级49的输入的摄像机15接收的。帧内预测模块41或帧间预测模块43基于根据另一个、已经编码的块或其他这样的部分的预测来生成要被编码的当前(目标)块的预测版本。该预测版本被提供到减法级49的输入，其中，将其从输入信号(即，实际信号) 中减去，以产生表示块的预测版本与实际输入信号中相对应的块之间的差异的残差信号。

在帧内预测模式中，帧内预测模块41基于根据同一帧中的另一个、已经编码的块(通常是相邻的块)的预测来生成要被编码的当前(目标)块的预测版本。当执行帧内编码时，想法是仅编码和传送对帧内的图像数据的一部分与该相同帧内的另一部分如何不同的测量。该部分然后可以在解码器处被预测(给定用于开始的某些绝对数据)，并且因此仅需要发送预测和实际数据之间的差异而不是实际数据本身。差异信号通常在量值上较小，因此花费较少的比特来编码。

在帧间预测模式中，帧间预测模块43基于根据与当前块不同的帧中的另一个、已经编码的区域的预测来生成要被编码的当前(目标)块的预测版本，偏移了由帧间预测模块43所预测的运动向量(帧间预测还可以被称为运动预测)。在这种情况中，帧间预测模块43被切换器47切换到反馈路径，以代替帧内预测模块41，并且因此在一个帧的块与另一个帧的块之间建立了反馈环路，以便于相对于前序帧的那些块来对帧间进行编码。这通常比帧内编码花费甚至更少的用于编码的比特。

残差信号(包括从输入信号中减去预测之后的残差块)的样本通过变换(DCT)模块51(或其他适当的变换)从减法级49输出，在变换(DCT) 模块51中，样本的残差值被转换到频域中，然后到达量化器53，在量化器53中变换的值被转换成大体上离散的量化索引。由变换模块51和量化器 53生成的量化、变换后的残差的索引，以及在帧内预测模块41、帧间预测模块43中使用的预测的指示和由帧间预测模块43生成的任何运动向量都被输出以包括在编码的视频流33(参见图3中的样本34)中；通常经由诸如熵编码器(未示出)之类的进一步的、无损的编码级，在所述无损编码级中，可以使用本领域已知的无损编码技术对预测值和变换、量化后的索引进行进一步压缩。

量化、变换后的信号的实例还通过逆量化器63和逆变换模块61被反馈以生成(如将在解码器处看到的)该块的预测版本，以供所选择的帧内预测模块41或帧间预测模块43使用来预测要被编码的后续块，以相同的方式，基于先前编码的块的逆量化和逆变换版本来预测正在被编码的当前目标块。切换器47被布置为根据用于当前正在被编码的帧或块的编码的情况，将逆量化器63的输出传递到或者帧内预测模块41或者帧间预测模块 43的输入。

图5是示出了诸如可以在接收终端22上实现的解码器的框图。解码器包括逆量化器83、逆DCT模块81、切换器70、以及帧内预测模块 73 和帧间预测模块 71 。这些模块或级中的每个可以被实现为存储在接收终端的存储器 24上的代码的一部分并且被布置为用于在其处理装置26上执行，但是不排除这些模块中的一些或全部被完全地或部分地以专用硬件电路实现的可能性。

逆量化器83被布置为经由接收机28接收来自编码器的编码的信号33。逆量化器83将编码的信号中的量化索引转换成残差信号(包括残差块)的去量化样本，并且将该去量化样本传递到逆DCT模块81，在逆DCT模块 81中这些样本被从频域变换回到空间域。切换器70然后根据用于当前正在被编码的帧或块的预测模式的情况，将去量化的、空间域的残差样本传递到帧内预测模块73或帧间预测模块71，并且帧内预测模块73或帧间预测模块71分别使用帧内或帧间预测来对每个宏块中的块进行解码。使用哪个模式是使用在编码的比特流33中与编码的样本34一起接收到的预测和/或任何运动向量的指示来确定的。DCT模块51(或其他适当的变换)的输出是包括针对每个帧的多个变换后的块的变换后的残差信号。解码后的块被输出到接收终端22处的屏幕25。

在编码器侧，适配模块50被配置为确定正在被编码以用于传输的视频中的至少一个兴趣区域(ROI)。该ROI是视频图像的区域内(即，每个帧共有的帧区域内)的子区域(因此小于视频图像的区域)。其用于覆盖被认为具有比ROI外部的视频图像的帧区域的其余区域高的主观重要性的视频图像的区域。可以每帧更新ROI，或者ROI可以针对多个帧保持在帧区域内的相同位置。

例如，适配模块50可以被耦合以接收来自编码器输入的原始、未编码的视频并且可以被配置为通过应用面部识别算法(其示例本身在本领域中是已知的)来识别ROI。面部识别算法对要被编码的视频图像中的面部进行识别，并且基于此将包括面部或面部的至少一部分(例如，如嘴、眼睛和眉毛等面部特征)的图像区域识别为ROI。面部识别算法可以被专门配置为识别人脸，或者可以识别一个或多个其他生物的面部。在其他的实施例中，可以在人脸识别以外的其他基础上识别ROI。可替代的是，使用另一种类型的图像识别算法，例如运动识别算法，来将运动对象识别为兴趣区域。在另一个可替代方案中，适配模块50可以被配置为基于来自发送终端12的用户的或由接收终端22的用户反馈的输入来确定用户定义的ROI。在又一个可替代方案中，ROI可以由编解码器的设计者固定，例如，已经知道其想要用于视频通话，并且因此面部将倾向位于视频图像区域的中心或上中心。

在图6中示意性地示出了示例。其示出了(例如)通常将出现在视频通话中的“说话的头部”类型视频图像的一个帧。图6中的顶部图示示出了被分成块(b)的帧，包括背景块(b_b)。注意到，出于图示的目的，块的大小被放大(相对于通常的视频编解码器中的块，尽管一般而言，可以使用任何大小的块)。图6中的底部图示示出了仅具有已经被识别为形成兴趣区域的那些块(b_f)(面部或前景块)的同一个帧，例如，包括面部的至少一些的任何块，或者覆盖面部的主要特征的块的选集。在实施例中，适配模块50可以生成ROI图来指示(例如，通过块索引或坐标)组成兴趣区域的块b_f，和/或指示未被包括在兴趣区域中的那些块(b_b)。

适配模块50输出在边信息36中的ROI的指示，其被发送到位于接收终端22处的解码器，通常被嵌入在编码的比特流中(例如，在熵编码器级与编码的样本一起被编码)。再次参见图3。这提供了在接收终端22处的解码器可以用来确定相同的ROI的一种方式。在实施例中，这样的指示可以采取ROI图的形式，ROI图标识帧的哪些部分形成ROI，例如，哪些块(b_f) 或宏块。ROI图或其他指示可以被每帧发送或者每帧发送少于一次(这种情况下，其被认为表示针对多个帧的当前ROI直到发送下次更新发送为止)。

此外，适配模块50被配置为在ROI内部应用与外部的非ROI区域不同的量化粒度，例如，利用较细的量化来对前景块b_f进行编码而利用较粗的粒度来对背景块b_b进行编码。为此，其可以给量化器53(以及逆量化器 63)指定以供在ROI和非ROI区域中的一个中使用的绝对量化参数，和以供在ROI和非ROI区域中的另一个中使用的量化参数偏移，其中，该偏移指定相对于绝对指定的量化参数的差异。例如，使用H.264编解码器，可以通过表示非ROI区域中的量化步长大小的量化参数QP(因此较大的量化参数表示较粗的量化)以及指定要被应用在ROI内部的量化参数相对于应用在外部的QP的差量的参数QPoffset(因此，如果ROI被给定为较细的量化，则QPoffset为负)来指定量化。可替代方案将是针对ROI和非ROI中的每个指定绝对的量化参数。无论哪种方式，同样在边信息36中将所指定的信息用信号发送到解码器，解码器使用该信息在逆量化器83处应用相对应的逆量化。

适配模块50还被配置为基于比特率控制器69来调节量化。比特率控制器69是具有量化过程模型的独立模块，并且被配置为输出所需要的表示量化的基本量化参数(如果其在帧上是均匀的)以便于满足特定比特率约束。例如，比特率控制器69可以被连接以接收输入比特流中的输入帧并且基于模型对这些帧进行分析，以便于确定为满足比特率约束所需要的基本量化参数，或者可替代地，比特率控制器69可以被配置为基于过去的统计的模型来确定满足约束的基本量化参数。比特率约束自身可以基于用户设置来确定，或者可以基于编码比特流33在其上被发送的发送机18、通信网络32、接收机28上的可用带宽来自动地确定。对视频编码的比特率约束可以基于音频、视频和错误保护之间的总共选择的或可用的带宽的用户指定的分布或自动分布。比特率控制器的操作本身将是本领域技术人员熟知的。

适配模块50被布置为接收来自比特率控制器69的基本量化参数，并且对应用在ROI内部和外部的量化粒度进行调整(例如，调整背景QP和 QPoffset)，以使得组合的效果实现大体上相同的整体比特率，如同在整个帧上均匀地使用基本量化参数。

此外，根据本公开，适配模块50被配置为对应用在ROI和非ROI区域之间的量化粒度的差异进行适配。其可以通过对量化参数偏移进行适配来完成。例如，适配模块50可以被配置为指定针对非ROI区域的背景QP 和针对ROI的QPoffset，并且通过对QPoffset进行适配来对粒度中的差异进行适配。使粒度中的差异变化的可替代方式是指定针对ROI和非ROI区域二者的绝对QP并且对其中的一个或两个进行适配(除了同时调整相同的量以外)。

为执行这样的适配，适配模块50被配置为对至少一个度量进行估计，该度量指示ROI和非ROI区域之间的量化效益的差异。这可以通过估计在 ROI和非ROI区域二者中的度量并且对不同的值进行比较来完成。当前已经发现的工作良好的一种这样的度量是由ROI和非ROI区域中的编码产生的比特率的测量，即在给定一个或多个帧的相应的ROI或非ROI区域中产生的比特的数量(假定数量是对特定的一个或多个帧进行测量的，则测量比特的数量和测量比特率可以被认为是等价的)。基于当前帧的编码所评估的ROI和非ROI比特率然后可以被用于对下一个帧的量化粒度的差异进行适配。

在实施例中，适配模块50可以被配置为根据如以上讨论的步骤(i)到 (iii)来执行适配。即，在开始于QPoffset的某个初始值(例如，-12)之后，适配模块50测量通过使用粒度QP对非ROI区域进行编码所产生的比特的平均数量(每像素)，并且还测量通过使用粒度QP+QPoffset来对ROI 进行编码所产生的比特的平均数量(每像素)。适配模块50然后将这两个测量进行比较以确定ROI内部产生的比特率高于或低于相对于非ROI区域中产生的比特率所设置的某个目标，并且取决于结果来调整量化差异。针对ROI比特率的目标大于非ROI的比特率，并且在实施例中，该目标被定义为非ROI比特率的函数，例如，诸如乘以常数K的乘法运算之类的乘法函数。例如：

如果ROI比特率>K×非ROI比特率，则使QPoffset增加1；

否则如果ROI比特率<K×非ROI比特率，则使QPoffset减少1；

其中，QPoffset限制在预先确定的范围。

在实施例中，K＝4并且QPoffset被限制在范围-12到0。这种启发法可以以上述形式被明确地估计，或者，确定ROI比特率高于还是低于相对于非ROI比特率所设置的目标的等价方式是确定非ROI比特率低于还是高于相对应的相对于ROI比特率所设置的目标(例如，是否非ROI比特率<1/K ×ROI比特率)。

上述测试以规则的间隔重复，例如，每帧一次或每若干帧一次。适配模块50因此充当试图将ROI中的比特率保持在ROI外部的比特率的K倍的目标值周围的调节器。如果背景正在产生很少的比特，例如，当在典型的说话的头部的环境中时几乎为零，则(负的)QPoffset向上朝着零收敛，即，差异在量值上减小，这使得编码器朝着在ROI内部和外部使用相同的 QP的方向收敛。然而，如果在非ROI区域中产生了某个较大的比特数，则 QP的差异在量值上增大，以使得在ROI内部和外部建立粒度的差异(限制在一定水平)。

此外，如所提到的，用于非ROI区域的绝对QP数取决于由比特率控制器69给出的基本参数QP_rc。适配模块50试图针对帧达到相同的比特数，如同利用QP_rc均匀地量化帧一样。

因此，为了满足由比特率控制器69设置的约束，然后得到满足相对于非ROI区域的针对ROI的目标的适配后的QPoffset，适配模块50然后对背景QP进行适配以使得整体量化满足由比特率控制器69设置的比特率约束。例如，出于图示的原因，比特率控制器69将要达到的基本QP设置在值27。与此独立的，适配模块50确定QPoffset应该是某一个值，例如值-12。因此，为了达到由比特率控制器69指定的基本QP，适配模块50将背景(非ROI) QP设置为至少近似地达到相同比特率的值，如同以基本值QP_rc均匀地对帧进行量化一样。这种适配取决于ROI相对于非ROI的大小。例如，假设 QPoffset＝-12，则ROI内部的QP(QP_ROI)和ROI外部的QP(QP_non-ROI) 可以被分别表达为QP_ROI＝QP_rc–5和QP_non-ROI＝QP_rc+7。

一种近似的方式是使在ROI内部和外部应用的量化具有与帧上的基本QP相同的平均QP(通过区域加权)，或者与小数量的帧上的基本QP相同的平均QP。例如，如果ROI占用帧区域的一半的像素，而非ROI区域占用另一半，则如果通过区域均匀地加权，上述的QPoffset＝-12、QP_ROI＝QP_rc–5和QP_non-ROI＝QP_rc+7的示例将给出与QP_rc相等的平均值。平均值可以以不同方式被计算，例如，加权平均和/或几何平均。后者可以被一般化为在进行平均之前应用非线性函数，并且然后应用反函数。例如，几何平均可以被计算为exp(mean(log(QP_vector)))，其中，QP_vector是作为帧中的位置的函数的QP。例如，在H264中，可能的是针对每个宏块(16乘16像素) 设置QP。原则上，还将可能针对较小的块进行设置，例如，4x4、或8x8的典型的DCT式变换的典型块大小，或者甚至针对单独的像素进行设置。

事实上，在适配后，平均QP一般不精确地等于QP_rc(基本QP)。通常，降低QP时的率增长比增大QP时的率下降更大(即使在传统的R-D理论中也应该是这样的，因为QP是对数间隔的)。换言之，QP相对比率的曲线是上凹的递减曲线。因此，如果保持相同的平均QP，则率通常将是较高的。可以利用给出期望结果的经验设计的启发法公式来解释这一事实。在一个示例实现中，可以建立神经网络以在QP_vector与基本QP之间进行映射。为加速学习，QP_vector可以被简化为均值、标准差、三阶矩(third moment)。

应该意识到，仅以示例的方式描述了上文的实施例。

例如，一个或多个其他可替代的或另外的度量可以用于评估ROI内部相对ROI外部的量化的相对效益。可以用于测量编码效益的其他度量包括率失真度量、或平坦度的测量。此外，本公开的范围不限于上述的启发法，并且可以设置其他的函数以基于讨论的度量或多种度量来达到期望的平衡。

上文已经在具有一个ROI的方面进行了描述，但是在实施例中，在帧区域内可以有多个ROI，并且可以针对多个ROI来对一个或多个度量进行估计并且与非ROI区域进行比较。在实施例中，非ROI区域指的是没有被一个或多个ROI占用的帧区域的整个剩余区域，但其还可以指一个或多个 ROI外部的较小的区域。在实施例中，基于ROI内部的整个区域和/或基于整个非ROI区域对一个或多个度量进行估计，但在可替代的实施例中，可以仅基于ROI内的代表性的子区域和/或仅基于非ROI区域内的代表性的子区域来对一个或多个度量进行估计。

此外，尽管已经在块和宏块方面对上文进行了描述，但兴趣区域不必按照任何特定标准的块或宏块被映射或定义。在实施例中，ROI可以根据帧的任何一个或多个部分被定义，甚至向下至逐像素级，并且用于定义兴趣区域的部分不必与用于诸如预测的其他编码/解码操作的划分相同(尽管在实施例中，它们很可能是这样的)。

尽管已经关于H.264标准描述了上文，但是本公开的范围不限制于任何特定的编解码器或标准，并且一般地，本文所公开的技术可以在诸如H264 或H.265的现有标准的上下文中实现，或被实现为定制的编解码器。此外，本公开的范围不特别限制于视频样本的任何特定表示，不论以RGB、YUV 或其他形式。范围既不限于任何特定的量化，也不限于DCT变换。例如，可以使用诸如卡-洛(Karhunen-Loeve)变换(KLT)之类的可替代的变换，或可以不使用变换。此外，本公开不限于VoIP通信或任何特定类型网络上的通信，而是可以在能够传送数据的任何网络或介质中使用。

所描述的实施例不限于其中通过网络对编码的视频进行传送的应用。例如，在另一个应用中，接收还可以指接收来自存储设备的视频，所述存储设备例如是光盘、硬盘驱动器或其他磁存储设备、或“闪速”存储器棒或其它电子存储器。在这种情况中，可以通过将视频存储在发送设备的存储介质上、移除存储介质并且物理地对该存储介质进行运输以使其连接到其被取回的接收设备来对视频进行传送。可替代地，接收设备可以之前已经将视频本身存储在本地存储设备处。

此外，解码器不一定要在最终用户终端实现，也不一定要输出视频以用于在接收终端的即时消费。在可替代的实现中，接收终端可以是诸如运行解码器软件的服务器之类的中间终端，其用于输出解码或转码的形式的视频到另一个终端，或者存储解码后的视频以用于之后的消费。类似地，编码器不必在最终用户终端实现，也不必对源自发送终端的视频进行编码。在其他实施例中，发送终端可以例如是诸如运行编码器软件的服务器之类的中间终端，其用于接收来自另一个终端的未编码的或可替代地编码的形式的视频并且对该视频进行编码或转码以用于存储在服务器上或转发到接收终端。

一般地，本文所描述的功能中的任一个可以使用软件、固件、硬件(例如，固定的逻辑电路)、或使用这些实现方式的组合来实现。本文中使用的术语“模块”、“功能”、“部件”和“逻辑”一般表示软件、固件、硬件、或其组合。在软件实现的情况中，模块、功能、或逻辑表示当在处理器(例如，一个或多个CPU)上被执行时执行指定的任务的程序代码。程序代码可以存储在一个或多个计算机可读存储器设备中。下文所描述的技术特征是平台无关的，这意味着该技术可以在具有各种处理器的各种商用计算平台上实现。

例如，终端可以包括使得用户终端的硬件执行操作的实体(例如，软件)，例如，处理器功能块，等等。例如，终端可以包括可以被配置为保存指令的计算机可读介质，所述指令使得用户终端并且更具体地使得用户终端的操作系统和相关联的硬件来执行操作。因此，指令用于配置操作系统和相关联的硬件来执行操作并且以这种方式产生操作系统和相关联的硬件的变换以执行功能。指令可以由计算机可读介质通过各种不同的配置提供给终端。

一种这样的计算机可读介质的配置是信号承载介质，并且因此被配置为例如经由网络将指令(例如，作为载波)传送到计算设备。计算机可读介质还可以被配置为计算机可读存储介质，并且因此不是信号承载介质。计算机可读存储介质的示例包括随机存取存储器(RAM)、只读存储器 (ROM)、光盘、闪速存储器、硬盘存储器、以及可以使用磁、光、以及其他技术来存储指令和其他数据的其他存储器设备。

尽管已经以特定于结构特征和/或方法动作的语言描述了主题，但是应该理解的是，在所附的权利要求中定义的主题不必限制于上文描述的特定特征或动作。确切地说，上文描述的特定特征和动作是作为实现权利要求的示例形式来公开的。

Claims

1.一种编码器，包括：

编码模块，被配置为：

在至少一个兴趣区域中以及在所述兴趣区域外部对视频进行编码，所述编码包括量化；以及

应用在所述兴趣区域内部的所述编码和在所述兴趣区域外部的所述编码之间的量化粒度中的差异；以及

适配模块，被配置为：

确定表示所述兴趣区域内部和所述兴趣区域外部的量化效益的差异的至少一个度量，所述至少一个度量包括通过在所述兴趣区域内部进行编码所产生的比特率相对于通过在所述兴趣区域外部进行编码所产生的比特率的指示；以及

至少部分地基于所述指示来对所述量化粒度中的差异进行适配。

2.根据权利要求1所述的编码器，其中，对所述指示的确定包括确定在所述兴趣区域中所产生的所述比特率是否在大于在所述兴趣区域外部所产生的所述比特率的目标之上。

3.根据权利要求2所述的编码器，其中，所述适配模块被配置为：在检测到在所述兴趣区域中所产生的所述比特率在所述目标之上的条件下减小所述量化粒度中的差异，和/或在检测到在所述兴趣区域中所产生的所述比特率在所述目标之下的条件下增大所述量化粒度中的差异。

4.根据权利要求3所述的编码器，其中，所述适配模块被配置为在一系列离散时间处对阈值进行测试，并且每次在所述兴趣区域中所产生的所述比特率被检测为在所述目标之上时使得所述量化粒度中的差异减小预先确定的步长，和/或每次在所述兴趣区域中所产生的所述比特率被检测为在所述目标之下时使得所述量化粒度中的差异增大预先确定的步长。

5.根据权利要求2、3或4所述的编码器，其中，所述大于在所述兴趣区域外部所产生的所述比特率的目标是在所述兴趣区域外部的所产生所述比特率的函数。

6.根据权利要求5所述的编码器，其中，所述目标是在所述兴趣区域外部的所述比特率的K倍，其中，K是常数。

7.根据权利要求1所述的编码器，其中，所述适配模块被配置为将所述量化粒度中的差异限制到最大差异。

8.根据权利要求1所述的编码器，其中，所述适配模块被配置为：确定对通过在所述兴趣区域中进行编码所产生的所述比特率的测量，确定对通过在所述兴趣区域外部进行编码所产生的所述比特率的测量，以及通过对所述测量进行比较来确定所述指示。

9.一种包括代码的计算机程序产品，所述代码实施在计算机可读存储介质上并且被配置以使得当在处理装置上执行时执行以下操作：

在至少一个兴趣区域中以及在所述兴趣区域外部对视频进行编码，所述编码包括量化，并且编码模块能够操作为应用在所述兴趣区域内部的所述编码和在所述兴趣区域外部的所述编码之间的量化粒度中的差异；