CN105027160A

CN105027160A - 空间自适应视频编码

Info

Publication number: CN105027160A
Application number: CN201480006319.3A
Authority: CN
Inventors: D.赵; S.尼基富罗夫; K.霍夫鲍尔; M.亨门多夫; P.卡尔松
Original assignee: Microsoft Technology Licensing LLC
Current assignee: Microsoft Technology Licensing LLC
Priority date: 2013-01-28
Filing date: 2014-01-26
Publication date: 2015-11-04
Also published as: GB201301442D0; GB2511730A; WO2014117048A1; KR20150112011A; US20140211858A1; EP2936427A1

Abstract

视频信号包括要编码的源帧序列。预处理阶段确定对于多个源帧的感兴趣区域，并且空间适配多个源帧中的每一个源帧，以产生相应的扭曲的帧。在相应的扭曲的帧中，相比源帧中的情况，感兴趣区域包括更高空间比例的扭曲的帧。预处理阶段将扭曲的帧供应给编码器以编码到视频信号的编码版本中。

Description

空间自适应视频编码

背景技术

在现代通信系统中，视频信号可以通过诸如有线和/或无线网络（通常是诸如互联网之类的基于分组的网络）之类的介质从一个终端发送到另一个终端。例如，视频可以形成诸如VoIP呼叫（互联网协议电话）之类的实况视频呼叫的部分。

典型地，由编码器在发射终端处对视频的帧进行编码以便压缩它们以用于通过网络的传送。针对给定帧的编码可以包括帧内编码，其中各块相对于相同帧中的其他块进行编码。在该情形中，依据该块与相邻块之间的差（残差）对块进行编码。可替换地，针对一些帧的编码可以包括帧间编码，其中目标帧中的各块典型地基于运动预测相对于先前帧中的对应部分被编码。在该情形中，依据标识块与根据其而预测该块的对应部分之间的偏移量以及块与根据其而预测该块的对应部分之间的差（残差）的运动矢量对该块进行编码。接收器处的对应解码器基于适当类型的预测对所接收的视频信号的帧进行解码，以便解压缩它们以用于输出到屏幕。

尽管编码压缩了视频，但是其仍可能会在比特率方面招致不可忽略的成本，这取决于所编码的帧的大小。如果利用相对小数目的像素，即以低分辨率对帧进行编码，则一些细节可能丢失。在另一方面，如果利用相对大数目的像素，即以高分辨率对帧进行编码，则更多细节得以保留，但是以牺牲所编码的信号中的更高比特率为代价。如果信道条件将不支持该比特率，则这可能招致其他失真，例如由于分组丢失或延迟。

发明内容

帧可以包含具有对分辨率的不同敏感度的区域，例如前景中的面部特征以及较不重要的背景。如果以相对高的分辨率对帧进行编码，则前景中的细节可以得到保留，但是还将花费比特来对背景中不想要的细节进行编码。在另一方面，如果以相对低的分辨率对帧进行编码，则尽管将节省比特率，但是可能从前景丢失细节。

在下文中，在输入到编码器中之前，使帧在空间中扭曲，从而为感兴趣的区域给出相对于帧的其他区域而言的失真较大的大小。这样，当帧然后被编码时，相比于背景（或者更一般地，相对于一个或多个其他区域的、感兴趣的不管什么区域），可以将较大比例的“比特预算”花费在对前景中的细节进行编码。然后在解码器侧处应用逆扭曲操作以恢复具有用于观看的期望比例的原始帧的版本。

在本文公开内容的一方面中，可以提供一种用于对包括源帧序列的视频信号进行编码的装置或计算机程序。该装置包括编码器和预处理阶段。预处理阶段被配置成确定对于多个源帧的感兴趣区域，并且空间适配多个源帧中的每一个源帧，以产生相应的扭曲的帧（warped frame）。相比源帧中的情况，在相应的扭曲的帧中，感兴趣的区域包括更高空间比例的扭曲的帧。预处理阶段被布置成将扭曲的帧供应到编码器以便编码到视频信号的编码版本中。

在另一方面中，可以提供一种用于在对编码视频信号进行解码时使用的装置或计算机程序，其被配置有后处理阶段以逆转这样的空间适配。

提供该发明内容来以简化形式介绍以下具体实施方式中进一步描述的概念的选择。该发明内容不旨在标识所要求保护的主题的关键特征或必要特征，也不旨在用于限制所要求保护的主题的范围。同样，所要求保护的主题也不限于解决本文所指出的任何缺点的实现方式。

附图说明

图1是视频流的示意性表示，

图2是通信系统的示意性框图，

图3是编码视频流的示意性表示，

图4是编码器的示意性框图，

图5是解码器的示意性框图，以及

图6是空间扭曲算法的示意性图示。

具体实施方式

在低比特率下，可能有益的是减小视频分辨率以减小由编码所引入的失真。帧可以包含具有不同分辨率敏感度的对象，例如前景中的面部和较不重要的背景。当降低分辨率时，面部中的重要细节以及通信线索可能丢失。因此，可能有益的是，相比于背景而言，给予面部较高的分辨率。

一个选项可以是传送具有不同分辨率的两个分离的流。这在实现方式方面可能是复杂的，并且可能也不是非常高效。

根据本文公开内容的实施例，解决方案是在发送器侧处使视频帧“扭曲”，使得面部或其他感兴趣区域（ROI）伸展开，而背景被缩减。在实施例中，输出可以是适用于利用诸如H.264之类的现有编码器标准进行编码的矩形帧。扭曲的帧可以具有与源帧相同的总体分辨率，但是具有用于表示面部或其他ROI的较高比例。可替换地，整个帧可以按比例缩小，但是以应用于面部或ROI的较小缩放比例来按比例缩小。

在接收器侧处，应用逆扭曲运算以重构源视频。

由此可以实现的优点在于，利用较高分辨率对面部进行编码并且通信线索得以更好地保留。

图1给出视频信号的示意性图示，所述视频信号从相机捕获并且被分为准备由视频编码器编码以便生成编码比特流的部分。信号包括在时间上被分为多个帧（F）的移动视频图像，每一帧表示时间上的相应不同时刻（...t-1,t,t+1...）处的图像。在每一帧内，在空间上将帧分成多个部分，每一个部分表示多个像素。部分可以例如被称为块。在某些方案中，帧被分成并且细分成不同级别的部分或块。例如，每一帧可以被分成宏块（MB）并且每一个宏块可以被分成块（b），例如每一个块表示帧内的8x8像素的区域，并且每一个宏块表示2x2块（16x16像素）的区域。在某些方案中，每一帧还可以被分成片（S），每一片包括多个宏块。

视频信号中的块最初可以被表示在空间域中，其中每一个通道被表示为块内的空间位置的函数，例如亮度（Y）和色度（U,V）通道中的每一个是笛卡尔坐标x和y的函数：Y(x,y)、U(x,y)和V(x,y)。在该表示中，每一个块或部分由不同空间坐标（例如x和y坐标）处的像素值的集合表示，使得依据块内的特定位置处的特定值、块内的另一位置处的另一值等等来表示颜色空间的每一个通道。

然而，块可以被变换到变换域表示（典型地为空间频率域表示（有时候仅仅被称为频率域））中，作为编码过程的一部分。在频率域中，依据表示跨块的每一个颜色空间通道中的变化（例如跨块的亮度Y和两个色度U及V中的每一个中的变化）的频率分量系统来表示块。在数学上来说，在频率域中，每一个通道（亮度通道和两个色度通道等中的每一个）被表示为空间频率的函数，其在给定方向上具有l/长度的尺度。例如，这可以分别由水平和竖直方向上的波数k_x和k_y来代表，使得通道可以分别被表达为Y(k_x,k_y)、U(k_x,k_y)和V(k_x,k_y)。因此，块被变换为系数的集合，其可以被视为表示构成块的不同空间频率项的幅度。用于这样的变换的可能性包括离散余弦变换（DCT）、Karhunen-Loeve变换（KLT）或者其他变换。

其中可以采用各种实施例的示例通信系统在图2的框图中示意性地图示。通信系统包括第一发射终端12和第二接收终端22。例如，每一个终端12、22可以包括以下之一，即：移动电话或智能电话、平板电脑、膝上型计算机、台式计算机、或诸如电视机、机顶盒、立体音响系统等的其他家用器具。第一和第二终端12、22各自在操作上耦合到通信网络32，并且第一发射终端12由此被布置成发射将由第二接收终端22接收的信号。当然，发射终端12还可能能够从接收终端22接收信号并且反之亦然，但是出于讨论的目的，在本文中从第一终端12的视角来描述传送，并且从第二终端22的视角来描述接收。通信网络32可以包括例如基于分组的网络（诸如广域互联网和/或局域网）和/或移动蜂窝网络。

第一终端12包括计算机可读存储介质14，诸如闪速存储器或其他电子存储器、磁性存储设备和/或光学存储设备。第一终端12还包括以具有一个或多个执行单元处理器或CPU形式的处理装置16；收发器，诸如至少具有发射器18的有线或无线调制解调器；以及视频摄像机15，其可以或者可以不容纳在与终端12的其余部分相同的外壳中。存储介质14、视频摄像机15和发射器18各自在操作上耦合到处理装置16，并且发射器18经由有线或无线链路在操作上耦合到网络32。类似地，第二终端22包括计算机可读存储介质24，诸如电子、磁性和/或光学存储设备；以及以具有一个或多个执行单元的CPU形式的处理装置26。第二终端包括诸如至少具有接收器28的有线或无线调制解调器之类的收发器；以及屏幕25，其可以或可以不容纳在与终端22的其余部分相同的外壳中。第二终端的存储介质24、屏幕25和接收器28各自在操作上耦合到相应处理装置26，并且接收器28经由有线或无线链路在操作上耦合到网络32。

第一终端12上的存储装置14至少存储视频编码器，其被布置成在处理装置16上执行。当执行时，编码器从视频摄像机15接收未编码的视频流，对视频流进行编码以便将其压缩到较低比特率流中，并且输出编码视频流以用于经由发射器18和通信网络32而传送到第二终端22的接收器28。第二终端22上的存储装置24至少存储视频解码器，其被布置成在其自身的处理装置26上执行。当执行时，解码器从接收器28接收编码视频流，并且对其进行解码以用于输出到屏幕25。可以用于指代编码器和/或解码器的通用术语是编解码器。

图3给出将从运行于发射终端12上的编码器传送到运行于接收终端22上的解码器的编码比特流33的示意性表示。比特流33包括对于每一帧的多个编码样本34，其包括任何运动矢量。在一个应用中，比特流可以作为诸如发射和接收终端12、22之间的VoIP呼叫（VoIP呼叫还可以包括视频）之类的实况（实时）视频电话呼叫的一部分而被传送。

图4是示意性地图示了诸如可能在发射终端12上实现的编码器侧系统的高水平框图。系统包括编码器，其包括：离散余弦变换（DCT）模块51、量化器53、逆变换模块61、逆量化器63、帧内预测模块41、帧间预测模块43、切换装置47以及减法阶段（-）49。系统还包括耦合到编码器的输入的预处理阶段50。这些模块或阶段中的每一个可以被实现为代码部分，其存储在发射终端的存储介质14上并且被布置用于在其处理装置16上执行，但是不排除这些模块或阶段中的一些或全部整体地或部分地在专用硬件电路系统中实现的可能性。

减法阶段49被布置成接收包括多个帧（F）内的多个块（b）的输入视频信号实例。从经由预处理阶段50耦合到减法阶段49的输入的摄像机15接收输入视频流，所述预处理阶段耦合在在摄像机15与减法阶段49的输入之间。如将在下文更详细讨论的，输入到编码器的帧已经通过预处理阶段50扭曲，以在编码之前使得感兴趣区域（ROI）的大小相对于一个或多个其他区域而增大。然后，编码器（元件41、43、47、49、51、53、61、63）继续对扭曲的输入帧进行编码，就像它们是任何其他输入信号那样--编码器本身不需要具有对于扭曲的任何知识。

相应地，在扭曲之后，帧内或帧间预测基于从另一个已编码的块或其他这样的部分的预测而生成要编码的输入信号中的当前（目标）块的预测版本。预测版本被供应到减法阶段49的输入，其中将该预测版本从输入信号中减去以产生表示块的预测版本与输入信号中的对应块之间的差的残差信号。

在帧内预测模式中，帧内预测41模块基于从相同帧中的另一已编码的块的预测（典型地基于预定的相邻块）而生成要编码的当前（目标）块的预测版本。当执行帧内编码时，其思想在于仅编码和传送帧内的图像数据的一部分与该相同帧内的另一部分如何不同的度量。然后，该部分可以在解码器处被预测（给出一些绝对数据以开始），并且因此仅需要传送预测与实际数据之间的差而不是实际数据本身。差信号典型地在幅度方面更小，因此花费更少的比特进行编码。

在帧间预测模式中，帧间预测模块43基于被帧间预测模块43所预测的运动矢量偏移的、从与当前块不同的帧中的另一已编码的区域的预测，而生成要编码的当前（目标）块的预测版本（帧间预测还可以被称为运动预测）。在该情形中，帧间预测模块43由切换装置47切换到反馈路径中，代替帧内预测阶段41，并且所以，反馈回路因而被创建在一帧和另一帧的块之间，以便相对于先前帧的那些块对帧间进行编码。这典型地花费比帧内甚至更少的比特进行编码。

残差信号（包括从输入信号减去预测之后的残差块）的样本从减法阶段49输出通过在其中它们的残差值被转换到频域中的变换（DCT）模块51（或其他适当的变换），并且然后到达其中已变换的值被转换为离散量化索引的量化器53。通过变换和量化模块51、53所生成的已量化、已变换的残差索引34，以及在预测模块41、43中使用的预测的指示和由帧间预测模块43生成的任何运动矢量全部被输出以用于包括在编码视频流33中（参见图3中的元素34）；其典型地经由另外的无损编码阶段，诸如熵编码器（未示出），其中预测值和已变换、已量化的索引还可以使用本领域已知的无损编码技术来压缩。

已量化、已变换的信号实例还通过逆量化器63和逆变换模块61而馈送回来以生成块的预测版本（如将在解码器处所看到的），其用于由所选预测模块41或43在预测要编码的后续块时使用。类似地，基于先前编码块的逆量化且逆变换版本来预测所编码的当前目标块。切换装置47被布置成酌情将逆量化器63的输出传递到帧内预测模块41或帧间预测模块43的输入，以用于当前正编码的帧或块的编码。

图5是示意性地图示了诸如可能在接收终端22上实现的解码器侧系统的高水平框图。系统包括解码器，其包括逆量化阶段83、逆DCT变换阶段81、切换装置70和帧内预测阶段71和运动补偿阶段73。系统还包括耦合到解码器的输出的后处理阶段90。这些模块或阶段中的每一个可以实现为代码部分，其存储在接收终端的存储介质24上并且被布置用于在其处理装置26上执行，但是不排除这些中的一些或全部整体地或部分地在专用硬件电路系统中实现的可能性。

逆量化器81被布置成经由接收器28（以及经由诸如未示出的熵解码器之类的任何无损解码阶段）而从编码器接收编码信号33。逆量化器81将编码信号中的量化索引转换成残差信号（包括残差块）的去量化样本，并且将去量化样本传递到逆DCT模块81，其中它们从频域被变换回到空间域。切换装置70然后以适用于正在被解码的当前帧或块的预测模式而酌情将去量化的空间域残差样本传递到帧内或帧间预测模块71或73，其中帧内或帧间预测分别用于解码各块（酌情使用编码比特流33中所接收的预测的指示和/或任何运动矢量）。DCT模块51（或其他适当的变换）的输出是已变换的残差信号，其包括对于每一帧的多个已变换的块。已解码的块经由后处理阶段90输出到接收终端22处的屏幕25。

如所提及的，在编码器侧处，在输入到编码器之前，通过预处理阶段50使视频信号的帧扭曲。未扭曲的源帧是从摄像机15供应到预处理阶段50的那些源帧，但是要注意，这未必就排除如下情况，即：在摄像机的图像感测元件与通过预处理阶段50的扭曲之间的分辨率或初始量化方面已经存在某种初始（均匀）减小--如本文所使用的“源”未必限于绝对源。将了解到，现代摄像机可以典型地以比通过网络传送所需要（或实际合期望）的更高的分辨率和/或颜色深度捕获图像数据，并且因而图像数据的某种初始减小甚至可能已经在预处理阶段50或编码器之前应用，以产生用于供应到预处理阶段50的源帧。

图6给出了依照本文所公开的实施例的可以由预处理模块50执行的再定大小和扭曲操作的示例的示意性图示。

图6的上部示出了源帧，例如分辨率为640x480像素的源VGA（视频图形适配器）图像。图6的下部示出了该相同帧的再定大小版本，例如其分辨率为320x240像素（宽度的一半和高度的一半），其要被编码并且通过网络32传送到接收终端22。在实施例中，源和已再定大小的帧二者是相同比率的矩形，从而使已再定大小的帧适用于通过诸如H.264编码器之类的常规编码器传递。分辨率方面的减小降低了将帧编码在比特流33中所要求的比特数目，从而使其更适用于网络32的传送，尤其在欠佳的条件（例如，拥塞或高噪声或干扰）之下传送。

然而，从640x480向320x240的直接再定大小可能从诸如面部或面部区域之类的感兴趣区域移除重要细节。

因此替代地，预处理模块50可以被配置成执行“扭曲的再定大小”操作以保持在面部中的分辨率比帧的其余部分中的分辨率更好。在示例中，面部的分辨率完全保留（没有缩小），并且背景区域的分辨率被按比例缩小成适合已再定大小的帧中所剩余的像素限额（allowance）。

扭曲函数的一个示例将为：X'=BilinearResize(X)，其中X是源帧，X'是已缩放和扭曲的帧，并且BilinearResize表示双线性缩放函数（在两个尺度中的每一个上是线性的缩放），其被应用于感兴趣区域之外的其余区域，以适合按比例缩小的帧中所剩余的像素限额或“像素预算”情况（未被感兴趣区域占据的任何部分）。例如，双线性缩放可以是双线性内插。

例如，在图6中，感兴趣区域（ROI）被标识为在源帧中从帧的左侧的320个像素以及帧的顶部的240个像素开始的160x120像素矩形区域（分别在从左到右和从顶到底方向上连续160x120像素）。这在源帧中留下由分区A（320x120像素）、B（160x120）、C（160x120）、D（320x120）、E（160x120）、F（320x240）、G（160x240）和H（160x24）构成的其余区域。因而，背景总共获得水平方向上的320+160=480个像素以及竖直方向上的240+120=360个像素。

在所示示例中，在帧的已扭曲、已再定大小的版本中，感兴趣区域（ROI）根本没有按比例缩小。即，其在已再定大小的帧中保持160x120像素矩阵区域。这意味着背景区域的其余部分必须被“压扁”以容纳感兴趣区域，相比该感兴趣区域在源帧中的情况，该感兴趣区域现在需要更高比例的已再定大小的帧。在按比例缩小的帧中，对应于A、B、C、D、E、F、G和H的背景区域被标记为A'、B'、C'、D'、E'、F'、G'和H'以用于引用。

在图6中，这留下具有水平方向上的320-160=160个像素的背景，其为源帧中的情况的160/480=1/3。因而，每一个分区A'、C'、D'、E'、F'和G'在水平方向缩放到1/3。在竖直方向，留下具有240-120=120个像素的背景，其是之前情况的120/360=1/3。因而，每一个分区A'、B'、C'、F'、G'和H'在竖直方向上缩放到1/3。因而，背景区域的新的按比例缩小的像素尺度为：A'（107x40）、B'（160x40）、C'（53x40）、D'（107x120）、E'（53x120）、F'（107x80）、G'（160x80）和H'（80x53）。

相同逻辑可以应用于其他尺寸的感兴趣区域。在可替换实施例中，感兴趣区域也可以按比例缩小，但是按比例缩小的程度比背景更小（即没有像背景按比例缩小那么多）。考虑到按比例缩小的帧中感兴趣区域的大小而根据剩余的限额来对背景（外部的任何区域）进行缩放。在其他可替换实施例中，帧不需要整体按比例缩小，而是感兴趣区域可以按比例放大以便在牺牲被按比例缩小的其他背景区域的代价之下更好地利用现有分辨率。此外，尽管已经依据矩形感兴趣区域（正方形或长方形）描述了上文，但是在另外的实施例中，扭曲不限于任何特定形状的感兴趣区域或者线性缩放，并且可以应用其他扭曲算法。

要指出的是，上文可能会产生沿着边界的非连续性，例如A'和B'，这是因为A'和B'的水平分辨率不同。然而，效果可以视为比丢失感兴趣区域中的分辨率（或过多分辨率）更可容忍，以及比招致编码流33中的过高比特率更可容忍。

在编码器侧处通过任何适当的手段来确定感兴趣区域，例如通过应用于预处理模块50处的面部识别算法，或者通过用户选择，或者作为预定区域，诸如帧中心处的某一区域。过程可以在多个帧内重复。确定对于多个帧的感兴趣区域可以包括在每一帧中单独地标识相应的感兴趣区域，或者一次在一帧中标识感兴趣区域并且然后假定该感兴趣区域继续适用于一个或多个随后的帧。

在另外的实施例中，预处理模块50被配置成响应于网络32或其他传送介质上的条件而适配要编码的帧（作为对编码器的输入）的大小。例如，预处理模块50可以被配置成接收与经由发射终端12的收发器反馈回来（例如从接收终端反馈回来）的信道条件相关的一个或多个信息项。信息可以指示往返延迟、介质上的丢失率或错误率或者与一个或多个信道条件相关的任何其他信息。预处理模块50然后可以取决于这样的信息对帧大小进行适配。例如，如果信息指示信道条件比阈值更差，则其可以选择使用要编码的帧的按比例缩小版本，但是如果信道条件满足或超出阈值，那么预处理模块可以选择将源帧发送到编码器上而不进行缩放或扭曲。

在另外的实施例中，预处理模块50可以被配置成能够应用多于两种的不同帧大小，并且随着信道条件的严重性而使帧大小变化。可替换地，可以应用固定的缩放和扭曲，或者按比例缩小的帧大小可以是由用户选择的用户设定。

预处理模块50可以被配置成生成与已经应用的缩放和/或扭曲相关的指示53。例如，这可以指定扭曲映射（warping map），或者对于编码器和解码器侧二者已知的一个或多个预定扭曲过程的指示（例如被称为扭曲“代码本”）。可替换地或附加地，指示53可以包括标识感兴趣区域的信息。预处理模块50然后可以供应该指示53以作为元素包括在编码比特流33中，该编码比特流33被传送到接收终端22或者通过网络32或其他网络或介质单独地发送。接收终端22上的后处理模块90因而能够确定已经应用在发射终端12处的扭曲的逆运算以及任何缩放的逆运算。

可替换地，编码器侧处的预处理模块50和解码器侧处的后处理模块90二者可以被配置成使用单个固定的预定缩放和/或扭曲；或者相同缩放和/或扭曲可以由相应用户在发射和接收终端12、22处预选，例如已经事先同意使用什么方案。至于在解码器侧处标识感兴趣区域，后处理模块90可以从发送自后处理模块90的元素36确定该感兴趣区域，或者可以在解码器侧处单独地确定感兴趣区域，例如通过应用与解码器侧相同的面部识别算法，或者感兴趣区域已经由接收终端22的用户选择为相同的（已经与发射终端12的用户预先同意这一点），或者后处理模块90具有预定感兴趣区域的预定知识（诸如预处理模块50也被配置成使用的帧的中心处的某一区域）。

不管怎样，扭曲的帧（包括帧整体的任何缩放）通过发射终端12处的编码器传递，其中编码器（元件41-49和51-63）像对待任何其他帧那样对待它们。编码器本身可以是标准编码器，而不需要具有任何扭曲知识。同样地在接收终端处，解码器（元件70-83）对扭曲的帧进行解码，就像它们是任何其他帧那样，并且解码器本身可以是标准解码器而没有扭曲或如何对其进行逆转的任何知识。例如，编码器和解码器可以依照比如H.264或H.265之类的标准来实现。当仍包含扭曲的、已解码的帧被传递到后处理模块90时，在这里基于后处理模块对原始扭曲操作的先验或后验知识而对扭曲（以及帧整体的任何缩放）进行逆转。

将了解到，仅作为示例描述了上述实施例。

尽管已经依据块和宏块描述了上文，但是感兴趣区域不一定要依据任何特定标准的块或宏块来进行映射或限定。在实施例中，感兴趣区域可以依据帧的任何部分或多个部分来进行映射或限定，甚至低至像素级，并且用于限定感兴趣区域的部分不一定要与用于诸如预测之类的其他编码/解码操作的划分相同（尽管在实施例中它们可以很好地如此）。

另外，此处的教导的适用性不限于其中通过网络传送编码视频的应用。例如，在另一应用中，接收还可以是指从诸如光盘、硬盘驱动或其他磁性存储装置、或“闪速”存储器棒或其他电子存储器之类的存储设备接收视频。在该情形中，可以通过在发射设备处的存储介质上存储视频，移除该存储介质并且在物理上输运其以连接到其中对其进行检索的接收设备来传递视频。可替换地，接收设备可能之前已经将视频本身存储在本地存储装置处。

在实施例中，扭曲、缩放和/或ROI的指示不一定被嵌入在所传送的比特流中。在其他实施例中，其可以通过网络32或另一网络单独地发送。可替换地，如所讨论的，在另外的实施例中，该信息中的一些或全部可以在解码器侧处独立地确定，或者在编码器和解码器侧二者处预定。

本文所公开的技术可以实现为现有标准上的附件，诸如对H.264或H.265的附件；或者可以实现为编码器或解码器的固有部分，例如作为更新并入到诸如H.264或H.265之类的现有标准。另外，本公开内容的范围不具体地约束于视频样本的任何特定表示，不管是RGB、YUV方面还是以其他方式。范围也不限于任何特定量化，还不限于DCT变换。例如，可以使用可替换的变换，诸如Karhunen-Loeve变换（KLT），或者可以不使用变换。另外，本公开内容不限于VoIP通信或通过任何特定类型的网络的通信，而是可以使用在能够传达数字数据的任何网络中，或者在用于将编码数据存储在存储介质上的系统中。

一般地，本文所描述的任何功能可以使用软件、固件、硬件（例如固定逻辑电路系统）、或这些实现方式的组合来实现。如本文所使用的术语“模块”、“功能性”、“组件”和“逻辑”一般表示软件、固件、硬件或其组合。在软件实现方式的情形下，模块、功能性或逻辑表示程序代码，其在执行于处理器（例如一个或多个CPU）上时执行指定任务。程序代码可以存储在一个或多个计算机可读存储器设备中。下文所描述的技术特征是独立于平台的，这意味着技术可以在具有各种各样的处理器的各种各样的商用计算平台上实现。例如，用户终端还可以包括使用户终端的硬件执行操作的实体（例如软件），例如处理器功能块等。例如，用户终端可以包括计算机可读介质，其可以被配置成保存指令，该指令使用户终端并且更具体地使得用户终端的操作系统及相关联的硬件执行操作。因而，指令用于配置操作系统及相关联的硬件以执行操作，并且这样导致操作系统及相关联的硬件的变换以执行功能。指令可以由计算机可读介质通过各种各样的不同配置提供给用户终端。计算机可读介质的一个这样的配置是信号承载介质，并且因而被配置成诸如经由网络将指令（例如作为载波）传送至计算设备。计算机可读介质还可以配置为计算机可读存储介质并且因而不是信号承载介质。计算机可读存储介质的示例包括随机存取存储器（RAM）、只读存储器（ROM）、光盘、闪速存储器、硬盘存储器、以及可以使用磁性、光学和其他技术来存储指令和其他数据的其他存储器设备。

尽管已经以特定于结构特征和/或方法动作的语言描述了本主题，但是要理解的是，在随附权利要求中限定的主题未必限于上述的特定特征或动作。而是，上述的特定特征和动作是作为实现权利要求的示例形式而被公开的。

Claims

1.一种用于对包括源帧序列的视频信号进行编码的装置，所述装置包括：

编码器；以及

预处理阶段，其被配置成确定对于多个源帧的感兴趣区域，并且空间适配多个源帧中的每一个源帧，以产生相应的扭曲的帧，其中相比源帧中的情况，感兴趣区域包括更高空间比例的扭曲的帧；

其中预处理阶段被布置成将扭曲的帧供应至编码器，以编码到视频信号的编码版本中。

2.权利要求1的装置，其中所述扭曲的帧具有与源帧相同的分辨率。

3.权利要求1的装置，其中所述空间适配包括对所述多个源帧中的每一个源帧再定大小以及扭曲，相应的扭曲的帧中的每一帧具有比源帧更低的分辨率。

4.权利要求3的装置，其中具有以下中的一个：

感兴趣区域在扭曲的帧中保持与在源帧中相同的分辨率，而其余区域按比例缩小至较低的分辨率以适合扭曲的帧；或者

感兴趣区域在扭曲的帧中按比例缩小至比在源帧中更低的分辨率，而其余区域按比例缩小至甚至更低的分辨率以适合扭曲的帧。

5.任何前述权利要求的装置，其中所述感兴趣区域是矩形，源帧和扭曲的帧二者是矩形，并且源帧和扭曲的帧二者具有相同的宽高比。

6.任何前述权利要求的装置，包括被布置成通过介质将编码视频信号传送到接收终端的发射器，其中发射器还被布置成将关于空间适配的指示传送到接收终端以用于在接收终端处逆转所述空间适配时使用。

7.任何前述权利要求的装置，其中所述感兴趣区域包括面部的至少一部分，并且预处理阶段包括面部识别算法，其被配置成基于源帧中的一个或多个源帧来标识感兴趣区域。

8.任何前述权利要求的装置，其中编码器在其编码方面是空间均匀的，因为一旦输入到编码器，所述编码器就不对帧内的区域的相对空间比例进行适配。

9.一种用于对包括源帧序列的视频信号进行编码的计算机程序产品，所述计算机程序产品包括体现在计算机可读介质上的代码，并且所述代码被配置成在发射终端上执行时执行以下操作：

确定对于多个源帧的感兴趣区域，所述感兴趣区域包括发射终端的用户的面部的至少一部分；

应用预处理以空间适配多个源帧中的每一个源帧，以生成相应的扭曲的帧，其中相比源帧中的情况，感兴趣区域包括更高空间比例的扭曲的帧；

对扭曲的帧进行编码以产生视频信号的编码版本。

10.一种用于对权利要求9的编码视频信号进行解码的计算机程序产品，被配置成应用后处理以逆转所述空间适配。