CN105659590B

CN105659590B - 控制被编码的视频的分辨率

Info

Publication number: CN105659590B
Application number: CN201480058376.6A
Authority: CN
Inventors: P·卡尔松; M·赫门多夫; K·霍夫鲍尔; S·尼基弗罗夫; D·Y·赵
Original assignee: Microsoft Technology Licensing LLC
Current assignee: Microsoft Technology Licensing LLC
Priority date: 2013-10-22
Filing date: 2014-10-15
Publication date: 2019-07-26
Anticipated expiration: 2034-10-15
Also published as: EP3044956B1; US9307195B2; CN105659590A; EP3044956A1; GB201318658D0; US20150109406A1; WO2015061084A1

Abstract

一种用于参与视频通话的用户终端包括：编码器，其具有帧尺寸，该帧尺寸是编码器对视频中的帧进行编码的以像素为单位的尺寸；以及预处理级，其以该帧尺寸将帧的序列提供给编码器，每个帧包括至少用于表示相应时刻上的源视频图像的图像区域。预处理级被配置为，通过对源视频图像进行尺寸调整以产生尺寸小于编码器的帧尺寸的每个修改的帧的图像区域，并且与边缘区域组合以使得经修改的帧与编码器的帧尺寸相匹配，从而以经修改的形式将帧中的至少一些提供给编码器。编码器以帧尺寸对帧进行编码且将它们作为实况视频通话的一部分发送到接收终端。

Description

控制被编码的视频的分辨率

背景技术

在现代通信系统中，可以通过诸如有线和/或无线网络等的介质来进行视频通话，所述网络例如可以包括诸如因特网等的基于分组的网络。通话包括从一个用户终端发送到另一个用户终端的至少一个视频流，并且经常是两个方向中的视频流。两个终端通过网络或其它介质建立相互之间的通信信道，允许由发送侧的照相机捕获的视频数据的帧通过信道被发送到接收侧。视频的帧通常由发送终端上的编码器编码以便于压缩视频的帧，以用于通过信道来传输。在接收终端处的相对应的解码器对所接收的视频的帧进行解码以便于对视频的帧进行解压，以用于输出到屏幕。可以用于指代编码器和/或解码器的通用术语是编解码器。

编码常常包括采用帧内预测编码、帧间预测编码、或者更常见的两者的组合(例如，在帧间编码的帧的序列之间交错的偶然的帧内编码的“关键”帧)形式的预测编码。根据帧内编码，块相对于同一帧中的其它块被编码。在该情况下，目标块根据该块与同一帧中的另一块(例如相邻块)之间的差(残差)而被编码。残差小于绝对值并且因此要求更少的位来编码，并且，残差越小，在编码中产生的位越少。根据帧间编码，目标帧中的块通常基于运动预测，相对于前面帧中的相对应的部分而被编码。在该情况下，根据用于标识目标块与要从中预测出该块的相对应的部分之间的偏移量的运动向量、以及目标块与从中预测出该块的相对应的部分之间的差(残差)来对目标块进行编码。帧间编码通常产生甚至比帧内编码更小的残差，并且因此产生甚至更少的位。

视频通话本质上是“实况(live)”通信。也即，通话的输出视频流持续地在发送终端处被实时捕获，甚至在该同一流的其它先前编码的数据在接收终端被接收并且播放时(与整个视频文件一次性被编码且然后随后被发送相反)。本文所使用的“实况”或“实时”不一定限于零延迟。然而，用户确实期望视频至少像被捕获的事件实际上发生得那样快速地以及至少像视频被预期播放得那样快速地被编码、发送和解码(平均地)。

当考虑视频编码时，特别在实时应用中，一个问题是视频的分辨率。本文所使用的术语分辨率是指像素分辨率，即以两个维度上的像素数量表示的帧或图像的尺寸(与每单位面积上的像素的意义上的分辨率不同)。像素分辨率通常以多个像素宽和高的数量的方式来表达，即列和行的数量，例如1280x720(720p)或640x480(VGA)。较低分辨率的帧将被接收用户视为较差质量。另一方面，较高分辨率的帧在被编码的比特流中产生较高的比特率(并且因此更大的带宽)。较高分辨率的帧还招致更多的用来编码的处理资源(例如，更多的处理器周期和/或存储器资源)以及更多的用来解码的处理资源。这意味着，发送比发送终端、信道或接收终端所能够实时处理的更高的分辨率的帧易于导致诸如延时或分组丢失之类的其它问题。

帧被编码的分辨率是编码器的固有特性。为了适应诸如网络容量或用户终端的处理能力等的因素，常规的编解码器(例如基于H.264和HEVC标准的那些编解码器)允许编码器被设置为在多个不同的离散分辨率中的一个处操作，所述离散分辨率例如是1280x720(720p)或者640x480(VGA)。分辨率在比特流中作为边信息被发送到解码器，以使得帧能够被相应地解码。

发明内容

将期望的是提供允许将期望的分辨率应用于实况视频通话中的机制。例如，可能期望响应于在发送终端与接收终端之间经历的一个或多个变化的信道条件、和/或发送和/或接收终端的一个或多个处理资源的变化的可用性来动态地调整分辨率。然而，存在可能不期望在任何给定应用或环境中切换编码器的固有帧尺寸的各种原因。例如，这将要求在每次分辨率变化时对新的内帧(即，关键帧)进行编码和发送，这可能影响比特率和/或处理资源方面的效率。作为另一个示例，不是所有编码器都配备有切换帧尺寸的能力(例如，在专用硬件编码器的情况下)，并且不是所有解码器都被配置为识别可选择的帧尺寸。此外，突然在离散的帧尺寸(例如720p与VGA)之间做出大的跳跃可能对性能具有不可预期的影响，例如，取决于照相机和/或视频内容。为解决这些或其它问题中的任何一个，将期望的是提供不依赖于(或者不唯一地依赖于)在不同编码器帧尺寸之间进行切换的替代机制。

根据本文公开的一个方面，提供了用于参与视频通话的用户终端。该用户终端包括编码器，其具有帧尺寸，该帧尺寸是编码器对视频的帧进行编码的以像素为单位的尺寸。用户终端还包括预处理级，该预处理级以所述帧尺寸将帧的序列提供给编码器。每个帧包括至少用于表示在相应时刻的源视频图像的图像区域。此外，预处理级被配置为以经修改的形式将所述帧中的至少一些提供给编码器。为生成经修改的帧中的每个，预处理模块对源视频图像进行尺寸调整，以使得在相应的经修改的帧中的相对应的图像区域小于编码器的帧尺寸。为确保经修改的帧仍然与编码器的帧尺寸相匹配，预处理模块将该小于一般尺寸的图像区域与边缘区域组合。

例如，在实施例中，修改可以包括缩小源视频图像并添加边缘区域，和/或裁剪源视频图像并包括替代被裁剪的材料的边缘区域。

编码器以所述帧尺寸对包括经修改的帧在内的每个帧进行编码，并且将被编码的帧作为实况视频通话的一部分发送到接收终端。

在实施例中，发送用户终端还被配置为将关于所述尺寸调整的信息作为信号发送到接收终端，以用于放大经修改的帧的图像区域以便由接收终端显示。因此，根据本文公开的其他方面，提供了一种用户终端，其包括：解码器，所述解码器被配置为对帧中的每个进行解码；以及渲染器，所述渲染器被配置为以所述帧尺寸来对每个被解码的帧的图像区域进行渲染。渲染器包括尺寸调整级，该尺寸调整级接收关于由预处理级执行的尺寸调整的信息。基于该信息，渲染器能够将每个经修改的帧的图像区域放大到所述帧尺寸，丢弃边缘区域。

可替代地，如果发送终端不将关于尺寸调整的信息作为信号发送，或者渲染器是未被配备为识别这样的尺寸调整技术的传统版本，则渲染器可以简单地显示经修改的帧，而不将实际的图像区域调整回到帧尺寸。在该情况下，边缘被显示给接收用户，图像看起来较小，但是仍是可查看的。

根据上述技术，要被编码的实际的、当前视频内容的区域被缩小或裁剪到小于编码器帧尺寸，并且冗余边缘被添加或保留。这降低了编码器的给定的帧尺寸的“有效”分辨率。边缘区域被设计为至少与以帧的完全尺寸对同一图像进行编码相比，在编码中产生相对少的位。因此，边缘区域可以几乎不包含一个帧与另一个帧的差，和/或可以在给定帧内具有大体均匀的颜色和亮度。在实施例中，边缘可以是均匀的黑色(在大多数编解码器中由全零来表示)、或者另一种均匀颜色(仍不会产生边缘区域上的差或者具有相同边缘的相邻帧之间的差)。边缘区域可以大体上不包括任何有意义的或者可感知的图像。这样，如果接收侧的渲染器有可能将显示经修改的帧，而不将图像区域放大回去和丢弃边缘(例如，在传统的情况下)，则边缘仍将看起来相对不显眼。可替代地，边缘不一定是黑色的或均匀的。如果边缘将不在接收侧显示，则在边缘区域中包含花费最少位的无论何种数据可以是有益的。例如，在平移运动的情况下，其中，相同的运动向量被应用于整个帧，则将预测残差最小化将使得来自先前的帧的图像数据被置于“黑色边缘”中，而不是花费另外的比特以使其成为黑色。

无论哪种方式，编码器都不必需要“知道”经修改的帧是经过修改的或者对它们的处理与对未修改的帧有任何不同，他们将仅被正常编码，全部的修改已经在预处理级中执行。然而，由于边缘区域在编码中几乎不产生任何位，因此这意味着“有效”分辨率能够降低而不依赖于编码器帧尺寸。例如，有效分辨率(图像尺寸)可被调整，而编码器帧尺寸可以在多个帧上保持恒定。

提供本发明内容以便以简化的形式引入一系列概念，这些概念将在下文的具体实施方式中被进一步描述。本发明内容既不是要标识要求保护的主题的关键特征或必要特征，也不是要用于限定要求保护的主题的范围。要求保护的主题也不限于解决关于背景技术记载的的缺点中的任何或全部的实现方式。

附图说明

为了更好地理解所描述的实施例以及示出其如何被实施，以示例的方式参考附图，在附图中：

图1是包括源视频帧的序列的源视频图像的示意性表示；

图2是包括编码器和解码器侧元件的通信系统的示意性框图；

图3是可以通过诸如网络的通信介质发送的编码比特流的示意性表示；

图4是源帧和从该源帧产生的相对应的经修改的帧的示意性表示；

图5是源帧和从该源帧产生的相对应的经修改的帧的另一示意性表示；

图6是包括经修改的帧的被编码的帧的序列以及在解码侧被渲染的相对应的帧的序列的示意性表示。

具体实施方式

用于视频通话中的最佳像素分辨率一般取决于信道条件和可用的处理资源。例如，信道条件可以包括信道的比特率能力，其可能受发送终端的可用上行链路带宽、接收终端的可用下行链路带宽、和/或网络上的可用带宽(例如，由于网络拥塞而受限制)限制。处理资源的限制可以包括在发送终端以及事实上同样可能在接收终端处的调度的CPU周期的可用性和/或诸如寄存器或RAM之类的存储资源的可用性。这样的限制可能意味着，系统实际上不能支持发送终端与接收终端之间的较高分辨率的视频，至少在不经历视频中的诸如数据丢失或者可见急动或延时之类的问题的情况下不能。此外，处理能力和比特率能力二者可能动态地变化，因此要使用的最佳像素分辨率在通话中可能不是保持恒定的。

当前，客户端应用可以支持固定的离散分辨率的集合，例如1280x720(720p)和640x480(VGA)，并且可以被配置为根据比特率能力或CPU资源而在他们之间切换。然而，这些分辨率之间的差相当大，并且切换分辨率可能对系统具有不可预测的、可能显著的影响。例如，不同的照相机可能在720p处消耗不同量的CPU资源。可能发生的是，当发送应用在刚切换升高后，确定CPU不能处理较高的分辨率时，发送应用被迫从720p切换回降到VGA。考虑到支持不同硬件的大的范围，难以对硬件的所有组合将如何动作进行建模。相似的问题可能关于比特率出现。取决于内容，在720p进行编码同时保持可接受的质量可能不总是可能的。然而，这可能直到发送应用当在VGA编码时已经预测其可以切换并且已经做出切换之后，才变得明显。因此，发送应用可能在刚切换升高之后发现其自身不得不从720p直接切换回到VGA。

将期望的是提供允许更细粒度的分辨率变化(例如，以5％的步长来改变宽度和高度)或者不绑定于仅编码器的分辨率模式的预定的、离散的集合的机制。例如，这可以用于解决分辨率变化后CPU性能预测和质量预测的问题。通过进行不太急剧的分辨率变化，任何性能预测错误将具有小得多的影响。同样不太成问题的是，如果发送应用随后确定其做出错误决策则切换回来。

通过将照相机捕获分辨率固定在最大预期分辨率(例如，720p)以及然后通过缩减尺寸的方式来支持任何较低的分辨率，可以解决照相机重新初始化的问题。直接的方法则将是以连续的方式来改变编码器的分辨率，在比特流中用信号发送分辨率。然而，每当在变化的每个分级步阶处用信号发送新的分辨率时，诸如H.264和HEVC之类的当前标准将要求新的内帧(关键帧)，这导致低的编码效率。

通过将视频被编码和发送的分辨率保持恒定，并反而将黑色边缘添加到缩减尺寸后的图像，本文公开的实施例提供了可替代的方法。如果实际的图像区域的分辨率以小的步长变化，则时间预测增益一般将保持非常高。因此，该方法可以用于允许更平滑的分辨率变化，提供更加流畅的整体视频体验。可以避免在离散的编码器分辨率之间以大步长进行过多的分辨率来回切换，否则这种切换会导致闪烁以及比特率低效率；或者消除对避免该问题的复杂实现逻辑的需要。

此外，该方法可以按照诸如H.264和HEVC之类的现有标准来实现。该方法还可以与本身不支持可变分辨率的传统编码器和解码器兼容，或者与硬件编码器(只要能够对输入帧进行写访问即可)和解码器兼容。

现在将参照图1至图6来更详细地描述一些示例实施例。

图1示出了包括源帧的序列(....F_t-1,F_t,F_t+1,....)的源视频图像1，每个源帧表示在不同观察时刻(....t-1,t,t+1.....)处的源视频图像。

图2示出了包括编码器侧装置和解码器侧装置的通信系统。编码器侧装置包括视频照相机2；预处理级4，其具有耦合到照相机2的输出端的输入端；以及编码器6，其具有耦合到预处理级4的输出端的输入端。解码器侧装置包括解码器10；渲染器12，其具有耦合到解码器10的输出端的输入端；以及屏幕16，具有耦合到渲染器12的输出端的输入端。

编码器侧装置2、4、6在第一用户终端处实现，该第一用户终端例如是台式计算机或膝上型计算机、平板设备、智能电话、电视机或机顶盒。预处理级4和编码器6可以在软件中实现，所述软件存储在第一用户终端中的一个或多个存储介质上并且被布置为在第一用户终端中的包括一个或多个处理单元的处理器上执行。可替代地，不排除预处理级4和/或编码器6中的一些或全部可以在专用硬件电路、或诸如PGA或FPGA之类的可配置或可重新配置的电路中实现。照相机2可以在第一用户终端的内部或外部。在实施例中，标记为2的块还可以表示照相机2的某个驱动软件或者与照相机2相关联的其它软件，这些软件可以在第一终端或照相机2的存储设备中实现并且被布置为在第一终端或照相机2中的处理器上执行。

解码侧装置10、12、16可以在第二用户终端处实现，该第二用户终端同样可以例如是台式计算机或膝上型计算机、平板设备、智能电话、电视机或机顶盒。解码器10和渲染器12可以以软件形式实现，所述软件存储在第二终端中的一个或多个存储介质上并且被布置用于在第二终端中的包括一个或多个处理单元的处理器上执行。可替代地，同样不排除解码器10或渲染器12中的一些或全部可以在专用硬件电路、或诸如PGA或FPGA之类的可配置或可重新配置的电路中实现。屏幕16可以在第二用户终端的内部或外部。在实施例中，标记为16的块还可以表示屏幕16的某个驱动器软件或者与屏幕16相关联的其它软件，这些软件可以在第二终端或屏幕16的存储设备中实现并且被布置用于在第二终端或屏幕16的处理器上执行。

编码侧装置2、4、6被布置为进行编码并且将被编码的视频的比特流8发送到解码侧装置10、12、16，比特流8作为第一终端的用户与第二终端的用户之间的实况视频通话的一部分。当然，要允许双向视频通话，第二终端还可以包括其自有的编码侧装置的实例，以用于对通话的进一步的比特流进行编码并且发送到第一终端的解码侧装置的实例。然而，出于示例的原因，下面将根据从第一用户终端将视频比特流8发送到第二终端的视角来描述。应该认识到，这不排除另一方向上的相反的视频比特流，在实施例中，其也可以按照与本文公开的类似的方式来处理。

编码侧的照相机2被布置为从其周围环境捕获源视频图像1。一般地，在视频通话的情况下，源视频图像1包括第一用户终端的用户的图像，通常是他或她的面部或面部和上身(“讲话的头部”)。照相机2被配置为以特定源分辨率输出源视频1的每个帧F(F_t-1,F,F_t,F_t+1,等)。这是以水平维度和垂直维度上的像素数量表示的源帧的尺寸，例如，在720p格式情况下为1280x720。照相机2被布置为将源帧F的序列中的每个帧以源分辨率输出到预处理模块4。注意，术语“源”不一定暗示图像由照相机的图像捕获元件原始地捕获的分辨率。许多现代照相机被设计为以比大多数实际用途所要求的高得多的分辨率来捕获图像，并且在实施例中，照相机2所捕获的帧会经过初步量化来从图像捕获元件的固有分辨率降低到源分辨率。例如，与照相机2相关联的驱动软件或其它软件可以被初始化为以特定源分辨率来输出源帧。这可以被设置为所预期的可能期望用于通话的最大分辨率，例如，720p。

预处理模块4被布置为从照相机2接收源帧F中的每个并且根据本文公开的实施例来应用预处理操作。如稍后将参照图4到图6的示例更详细描述的，预处理操作包括至少两个步骤。第一个步骤是将在源帧F中接收的视频图像从源分辨率降低到期望的较低分辨率(如果源帧已经从图像捕获元件的原始分辨率向下量化，则这将是进一步的缩减尺寸)。例如，这可以包括缩小和/或裁剪源帧F。这产生了尺寸缩减的、较低分辨率的图像24，图像24比源视频帧F的尺寸小，并且也比由编码器6使用的帧尺寸小。例如，编码器6可以被配置为以与所生成的源帧的帧尺寸(例如，720p)相同的帧尺寸来进行编码，但是不一定是这样的情况。预处理级4被配置为随后将减小尺寸的、较低分辨率的图像24与边缘区域26组合以便于产生与编码器6具有相同的帧尺寸的经修改的帧F’。如稍后更详细论述的，边缘区域26被设计为使得当通过编码器6被编码时，其将产生相对少的位。例如，边缘可以是黑色边缘，或者可以由与先前编码的帧中的相对应区域相同的图像组成。

编码器6被布置为以编码器6的固有帧尺寸对经修改的帧F’中的每个进行编码。编码器6不需要配置有尺寸调整或边缘区域26的任何专门知识，并且不一定需要是任何专门类型的编码器。在实施例中，编码器6可以是标准的H.264或HEVC编码器，或者甚至可以是硬件编码器。编码器6以编码器帧尺寸对经修改的帧F’中的每个进行编码，就好像该经修改的帧F’是任何其它帧一样，并且处理该经修改的帧F’不会与其将处理包括刚好具有暗的或静态的边缘区域的捕获图像的帧有任何不同。因此，编码器6将使用其将针对具有这种特性的任何图像所自然选择的无论何种编码模式来对包括边缘区域26的经修改的帧进行编码。这可以包括选择帧内或帧间编码模式以使用帧内或帧间预测编码来对边缘区域26的一些或全部块进行编码。在诸如熵编码等的任何进一步编码级之后，编码器6输出经修改的帧F’的编码版本以作为被编码的比特流8的一部分被发送。

被编码的比特流8通过信道被发送到第二用户终端上的解码器10。例如，被编码的比特流可以通过经由诸如基于分组的网络之类的通信网络建立的信道而被发送，例如在VoIP通话的情况中的因特网。

图3示出了可以通过信道从编码器6发送到解码器10的被编码的视频比特流8。被编码的比特流8包括针对每个帧的被编码的样本20，该样本20包括帧内或帧间残差样本以及在帧间编码情况下的任何运动向量。这将包括针对图像区域24和边缘区域26二者的被编码的样本。在实施例中，编码器6的帧尺寸可以是编码器6的可设置参数，例如，这是由H.264和HEVC标准所允许的。在该情况下，编码器6的帧尺寸还可以在嵌入在被编码的比特流8中的边信息22中被用信号发送到解码器10。预处理模块4还输出被应用于生成被调整尺寸的图像部分24的缩减尺寸或尺寸调整的指示18，并且该指示被发送到解码侧的渲染器12。该尺寸调整信息18可以在嵌入在被编码的比特流8中的边信息22中用信号发送或者可替代地可以在更高层上用信号发送或者通过可替代的信道发送，例如，可以在进行视频通话的发送客户端应用的协议层上发送。注意，在实施例中，编码器6的帧尺寸在多个帧上保持恒定，而经修改的帧F’中的图像区域24的尺寸是被调整的。因此，编码器6的帧尺寸可以被考虑为系统的参数，而经修改的帧中的图像区域24的尺寸可以被考虑为变量。

解码侧的解码器10被布置为经由在网络或其它介质上建立的信道来接收被编码的比特流8，以及对经修改的帧F’中的每个的被编码的样本20进行解码。类似于编码器6，解码器10不必具有被应用于生成图像区域24的尺寸调整或者边缘区域26的任何专门知识，并且不一定需要是任何专门类型的解码器。在实施例中，解码器10可以是例如根据H.264或HEVC的标准解码器，或者甚至可以是硬件解码器。解码器10仅对经修改的帧F’进行解码，就好像它们是任何其它帧一样，例如，刚好具有暗的或静态边缘区域的任何帧。这将包括应用由编码器6应用于被编码的经修改的帧中的每个块的无论何种编码模式的逆过程，编码模式可以包括对图像区域24和边缘区域26中的块的帧内或帧间预测。解码器10以经修改的帧被编码器6编码的帧尺寸来对经修改的帧中的每个进行解码，例如，按照如边信息22中的解码器6的参数所指示的。

解码器10将经修改的帧F’的解码版本中的每个输出到渲染器12。渲染器12被布置为对被解码的帧中的每个进行渲染并且输出它们，以在屏幕16上播放。为此，根据本公开的实施例，渲染器12包括尺寸调整级14。尺寸调整级14被配置为从编码侧接收尺寸调整信息18，以及将缩减尺寸的图像24放大回到编码器6的帧尺寸，并且丢弃边缘区域26。尺寸调整级14因此生成用于输出到屏幕16的输出帧，该输出帧具有与从编码器6所期望的相同的帧尺寸。在实施例中，这还可以是与源帧F相同的尺寸。

注意，在实施例中，即使解码器侧未配备有尺寸调整级14，所接收的修改的帧F’仍能在解码侧使用。例如，如果边缘区域26被生成为黑色或其它的均匀边缘，则常规的解码器10和渲染器12将简单地解码和渲染包含缩小尺寸的图像区域24和边缘26的视频图像。这样的图像对接收用户仍然是有意义的，并且将仅以相对不显眼的边缘出现在屏幕上。在另外的示例中，即使要在解码侧应用放大，发送尺寸调整信息18也不是必要的。例如，在可替代实施例中，解码侧的用户可以手动对图像区域24进行放大，以排除边缘区域26的一些或全部。然而，一些实施例可以发送尺寸调整信息，因为在用户体验方面，手动缩放可能是不太期望的。

图4示出了可以由预处理级4应用的预处理操作的一个示例。对于从照相机2被提供到预处理级4的多个源帧F中的每一个，预处理级4将缩小源帧F的图像尺寸以产生小于编码器6的帧尺寸的相对应的图像区域24。然后，预处理级4将边缘区域26添加到缩减尺寸的图像区域24的周围，当由编码器6编码时，与对占据编码器6的全帧尺寸的源帧F的图像被编码的情况相比，将产生较少的比特。缩减尺寸的图像区域24和边缘区域26一起形成与相应的源帧F相对应的经修改的帧F’，该经修改的帧将从预处理级4输出到编码器6以被编码，并且然后在被编码的比特流8中发送。如果边缘区域26占用越少的位来编码，这意味着其将在被编码的比特流8中产生越低的比特率，并且在很多情况下在第一、发送用户终端处占用更少的处理资源来编码以及在第二、接收用户终端处占用更少的处理资源来解码。

为实现边缘区域26的这样的特性，有很多选择。本领域技术人员所熟悉的是，使用预测编码的编码器的效果在于，当在帧上(在帧内编码的情况下)存在更少的差别并且在帧间(在帧间编码的情况下)存在更少的差别时，帧中的数据区域产生更少的要编码的位。因此，在实施例中，可以生成边缘区域26以便于作为单一颜色的实心区域，即，在整个边缘区域上的所有颜色空间值(包括任何亮度信道)上是均匀的。例如，边缘区域26可以是实心黑色(在大部分颜色空间表示中，全为零)。可替代地，或者除此之外，在多个连续的帧上，边缘区域26可以在形状、尺寸和/或颜色空间值上保持恒定。例如，边缘区域26可以在多个连续的帧上保持为黑色。可以可替代地使用其他实心颜色，尽管在实施例中，可以使用黑色以使得如果解码器侧没有被配备为将图像区域24放大回去并且丢弃边缘26，而是相反地，以修改后的形式来显示经修改的帧F’，则从接收用户的视角，黑色边缘26仍将表现为在外观上相对不显眼。在又一个可替代方案中，在给定帧内，边缘不一定是黑色或均匀的。如果边缘26将不会在远端处被显示，则在实施例中，将花费最少的位的无论何种数据放入边缘区域中可能是有益的。例如，在针对整个帧来对同一运动向量进行编码的平移运动的情况中，预测将在“黑色边缘”的部分中产生来自先前的帧的图像数据-而不是耗费额外的位来使其成为黑色。

无论使用何种边缘区域26，在实施例中，预处理级4也被配置为输出对已经被应用于源帧F以产生调整尺寸的图像区域24的尺寸调整的指示18。在缩减尺寸的情况下，如图4所示，该指示18可以例如包括应用于图像的水平轴和垂直轴的百分比或分数缩放的指示，或者应用于图像的区域的总百分比或分数缩放的指示。指示18可以显式地以信号发送缩减尺寸的程度，或者可以指示同样被解码器侧所理解的一个或多个预先确定的尺寸缩减。指示18还可以指示缩小的区域24在经修改的帧F’中的位置，例如，按照像素坐标(或者可替代地，这可以在编码器侧和解码侧被预先确定，例如，假设区域24总是在帧的中心)。

对缩减尺寸的指示18从第一、发送用户终端被发送到第二、接收用户终端上的渲染器12的尺寸调整级14。如所提到的，这可以在被编码的比特流8中的边信息22中发送(例如，作为额外元素，与对编码器6的帧尺寸的指示一起被发送)，或者可替代地，可以经由在第一、发送用户终端上运行并且与第二、接收用户终端进行通话的视频通信客户端应用(例如，VoIP应用)的控制协议层等的另一层或信道被用信号发送。解码侧渲染器12上的尺寸调整级14被配置为在解码器10进行解码后使用该指示来将图像区域24放大回到编码器6的全帧尺寸，以使得边缘区域26不再占用由渲染器12输出到屏幕16的帧中的帧区域中的任何区域。

图5示出了可以由预处理级4应用的预处理操作的另一个示例。在该示例中，预处理级不一定将来自源帧F的图像缩小，而是裁剪源帧F以从帧的一个或多个边缘切掉背景区域。裁剪后的区域然后由边缘区域26替代，边缘区域26可以被赋予与上述讨论的那些性质相似的性质。在这样的实施例中，剩余的图像区域24可以被称为兴趣区域(ROI)。存在用于定义或确定兴趣区域24的多种可能性。在一个实施例中，兴趣区域24可以由应用于编码器侧终端的面部识别算法来自动确定以便于在源帧F中识别出发送用户的面部。预处理级4因此可以被配置为自动地裁剪源帧F以仅保留用户的面部区域周围的特定ROI 24。可替代地，ROI 24可以由发送侧的用户手动选择，或者由接收侧的用户手动选择并且作为请求被反馈给发送侧。在另一个可替代方案中，ROI 24可以是帧区域内的固定的、预定义区域。例如，在典型的“讲话的头部”视频通话的情况下，可以假设用户的面部通常出现在帧区域内的同一区域周围，并且其可以被预定义为ROI。

在实施例中，预处理级4输出对ROI的指示，该指示要发送到解码器侧渲染器12的尺寸调整级14以便由尺寸调整级14用于将图像区域24放大回到编码器6的全帧尺寸以用于输出到解码器侧的屏幕16。对ROI的该指示18可以包括对被裁剪的区域24的尺寸和/或位置的指示、或者对尺寸调整级14也被预先配置以识别的裁剪操作的预定集合中的一个的指示。此外，指示18可以在被编码的比特流8的边信息22中被发送或者经由可替代的信道或协议层来发送。可替代地，在预定义ROI的情况下，尺寸调整级14还可以被预先配置有该预定义ROI的知识，并且因此指示无需被用信号发送。

注意，对缩减尺寸(例如，如图4所示)和裁剪(例如，如图5所示)的选择可以单独地或者组合地使用。例如，在实施例中，预处理级4可以应用裁剪来排除源帧F的一些背景部分，并且然后进一步对源帧F的其余部分应用尺寸缩减以产生缩小尺寸的图像区域24，以便包含在经修改的帧F’中，以供编码器6进行编码。

上面提供了一种机制的示例，通过该机制，可以独立于编码器6的实际帧尺寸来控制要编码和发送的视频图像的有效分辨率。该机制本身可以具有各种有用的应用。例如，如果给定具有大于对当前设计所期望的固定帧尺寸的编码器6，则设计者可以在编码器的输入处设置预处理级4，以便于改变有效分辨率。此外，在实施例中，预处理级4可以被配置为响应于在编码器侧和解码器侧之间的信道上所经历的一个或多个条件和/或编码器侧或解码器侧用户终端的一个或多个处理资源来动态地调整有效分辨率。这可以用作调整编码器6的实际帧尺寸(如果编码器6允许)的可替代方案或者另外的方案。在任一个情况下，编码器6的帧尺寸能够在有效分辨率(即，缩小尺寸的图像区域24的尺寸)被调整时在多个连续帧上保持恒定。如果编码器6的帧尺寸也能够被调整，则这可用于实现分辨率的大的跳跃，同时对图像区域24的调整用于实现这些帧尺寸之间的更小的分级。

在图6中示出了示例。可能的情况是，编码器6具有固定的分辨率(帧尺寸)或者仅被配置具有可以以大的分辨率步长间隔开的离散分辨率的小的集合。即使编码器6能够被设置为使用任何任意的分辨率，也存在与此相关联的惩罚，例如每当分辨率被调整时不得不发送新的内帧(关键帧)，因此在被编码的比特流8中产生相对大量的位。因此，期望通过可替代的方式来调整分辨率，根据本文公开的实施例，这可以通过调整有效分辨率(缩小尺寸的图像区域24的尺寸)来实现。

预处理级4可以被配置为监视第一、发送用户终端上的编码器6与第二、接收用户终端上的解码器10之间的信道的一个或多个当前特性。所监视的特性可以包括以下的一个或多个：来自第一终端的上行链路带宽、在其上建立信道的网络或其他介质的带宽、第二终端的下行链路带宽、信道的总带宽、诸如分组丢失等的丢失率、错误率、延迟、抖动或可能影响被编码的比特流8的传输的任何其他特性。可替代地或者除此之外，预处理级4可以被配置为监视编码器6在其上运行的第一用户终端的一个或多个处理资源。这些特性可以包括以下的一个或多个：处理周期的可用性和/或一个或多个存储资源的可用性，所述存储资源例如是寄存器、高速缓存或RAM。可替代地或除此之外，预处理级4可以被配置为监视来自解码器10在其上运行的第二终端的一个或多个处理资源的解码器侧的反馈。再次，这些特性可包括以下的一个或多个：第二终端处的可用处理周期和/或一个或多个存储资源的可用性。在实施例中，预处理模块4还可以被配置为基于监视来预测任何这样的特性可能如何变化。

基于这些被监视的和/或预测的特性中的任何一个或多个，预处理级4被配置为动态地调整应用于源帧F的尺寸缩小，并且因此调整要由编码器6编码的经修改的帧F’中的作为结果的图像区域24的尺寸。因此，预处理级4能够独立于编码器6的帧尺寸来动态地调整所发送的视频的有效分辨率，而不需要调整编码器6的帧尺寸，至少在图像区域24被调整的持续期间内。动态地调整意味着响应于被监视的条件(无论是信道条件和/或处理资源)中的一个或多个中的正在发生的变化，在由编码器6正在进行的编码期间进行调整。例如，预处理级4被配置，以使得如果其检测到或者预测信道上的可用带宽的减少或者发送终端处的可用处理资源的减少，则其可以减小编码帧集合F’中的图像部分24的尺寸，以便于适应信道和/或终端的降低的能力。类似地，如果其检测到或者预测到一个或多个这样的特性中的增加，则其可以增大图像区域24的尺寸。

在实施例中，预处理级4还被配置为以相对细的分级步长平滑地调整图像区域24的尺寸。如果编码器6的帧尺寸也可以被调整，则应用于图像区域24的步长可以相对于编码器6在其间切换的帧尺寸中的步长而言较小。例如，编码器6可以被配置为在720p格式与VGA格式之间切换，而预处理级4提供这些格式的分辨率之间的分级步长。在实施例中，图像区域24的尺寸中的步长可以小于或等于由编码器6所使用的离散的帧尺寸的集合中的任何两个帧尺寸之间的差的宽度和高度的10％。例如，预处理级4可以按宽度和高度的5％的步长来调整图像区域24的尺寸。

图像区域24的尺寸中的每个步长可以在预处理级4执行相应的监视操作并且确定尺寸将要被调整之后被应用。预处理级4可以被配置为使得在监视操作之间存在一定的时间限制或延迟，并且因此在按步长来增大或减小图像区域24的尺寸的机会之间存在一定的时间限制或延迟(无论这是有意的或预先确定的延时或仅是由于发送用户终端的处理速度以及调度处理的其他操作而在监视操作之间自然逝去的时间)。在实施例中，预处理级4可以被配置为周期地执行关于增大还是减小图像区域24或者保持其不变的确定，每个周期将尺寸增大或减小不多于一个步长。预处理级4可以被配置为执行该确定并且对每预定数量的帧应用不多于一次的增大或减小，例如，每帧不多于一次。因此，由图像区域24提供的有效分辨率可以以相对细粒度的步长被相对平滑地调整。

在图6的示例中，预处理级4在多个连续帧上逐渐地减小图像区域24的尺寸，同时编码器6的帧尺寸保持恒定。例如，响应于确定信道带宽过低而不支持全尺寸图像，图像区域24的尺寸可以每帧被减小一个步长。在解码侧，在已经由尺寸调整级14放大回去之后，这些帧中的每个帧以由编码器6的帧尺寸定义的相同的像素分辨率来显示，尽管在已经被尺寸调整的那些帧中看起来更加粗糙。

注意，在其他时间，预处理级4不一定将任何尺寸调整应用于源帧F，以使得所编码的帧中的图像区域24占据编码器6的全帧尺寸并且没有边缘区域26。一般地，预处理级4可通过在不应用尺寸缩小并且图像区域24占据编码器的全帧尺寸的状态与缩小源帧尺寸以产生比编码器6的帧尺寸小的图像区域24与边缘区域26相组合的状态之间切换来操作，和/或预处理级4可以在小于编码器6的帧尺寸的图像区域24的多个不同尺寸之间调整。

在另外的实施例中，利用边缘区域26来嵌入要发送到第二、接收用户终端的其它非图像数据或至少“非渲染”数据。这样的数据不对图像进行编码，或者至少本身不表示要在解码侧被渲染的图像(但是可用于压缩未来的帧)。例如，这样的数据可以包括例如从第一、发送终端的加速度计获取的关于照相机2的运动的信息，并且该信息可以用于辅助解码器侧10的解码。作为另一个示例，与解码无关的其它数据可以嵌入在边缘区域26中，例如，要显示给接收终端的用户的基于文本的消息。

要嵌入任何这样的数据，可以将该数据包括在与边缘区域26的块相关联的边信息的任何未使用的字段中。可替代地或者除此之外，边缘区域26中的少量的像素值可用于表示这样的、其它非图像数据。例如，在黑色边缘的情况下(大多数颜色空间表示中全为零)，少量像素实际上可以在颜色空间信道中的一个或多个上的另外两个小值之间被调制。例如，亮度信道可以在零与一之间被调制，如果颜色空间信道可以取例如在零与255之间的值，则该小的调制将几乎不招致任何额外的位被编码并且将或多或少能被接收用户截获，即使边缘区域26被显示。因此，如果需要，边缘区域26能够保持大体上均匀和/或恒定。

将意识到，上述实施例仅通过示例的方式进行了描述。

一般地，本文所描述的任何功能可以使用软件、固件、硬件(例如，固定逻辑电路)或这些实现方式的组合来实现。本文所使用的术语“模块”、“功能”、“部件”和“逻辑”一般表示软件、固件、硬件或它们的组合。在软件实现的情况下，模块、功能、或逻辑表示当在处理器(例如，CPU或(多个)CPU)上执行时，执行指定任务的程序代码。程序代码可以存储在一个以上的计算机可读存储器设备中。本文描述的技术的特征是平台独立的，这意味着技术可以在具有各种处理器的各种商业计算平台上实现。

例如，终端可以包括使得用户终端的硬件(例如，处理器功能块)执行操作的实体(例如，软件)。例如，终端可以包括可以被配置为保存指令的计算机可读介质，所述指令使得用户终端，更特别地，使得用户终端的操作系统和相关联的硬件执行操作。因此，指令用于将操作系统和相关联的硬件配置为执行操作并且以这种方式产生操作系统和相关联的硬件变换以执行功能。指令可以由计算机可读介质通过各种不同的配置提供给终端。

计算机可读介质的一种这样的配置是信号承载介质，并且因此被配置为例如经由网络将指令(例如，作为载波)发送到计算设备。计算机可读介质还可以被配置为计算机可读存储介质并且因此不是信号承载介质。计算机可读存储介质的示例包括随机存取存储器(RAM)、只读存储器(ROM)、光盘、闪速存储器、硬盘存储器以及可以使用磁、光、和其它技术来存储指令和其它数据的其它存储器设备。

尽管已经以特定于结构特征和/或方法动作的语言描述了主题，但是应当理解的是，在所附的权利要求中定义的主题不必限于上述的具体特征或动作。事实上，上述的具体特征和动作被公开作为实现权利要求的示例形式。

Claims

1.一种用于参与视频通话的用户终端，包括：

编码器，其具有帧尺寸，所述帧尺寸是所述编码器对视频中的帧进行编码的以像素为单位的尺寸；以及

预处理级，其被配置为以所述帧尺寸将帧的序列提供给所述编码器，每个帧包括至少用于表示在相应时刻处的源视频图像的图像区域；

其中，所述预处理级被配置为：以经修改的形式将所述帧中的至少一些提供给所述编码器，这是通过对所述源视频图像进行尺寸调整以产生尺寸小于所述编码器的帧尺寸的每个经修改的帧的所述图像区域，并且与边缘区域相组合以使得所述经修改的帧与所述编码器的帧尺寸相匹配，所述尺寸调整包括裁剪所述源视频图像的一部分并且用所述边缘区域的一部分替换所述源视频图像的所裁剪的部分；以及

其中，所述编码器被布置为以所述帧尺寸对所述帧中的每个帧进行编码，并且将所编码的帧发送到接收终端作为实况视频通话的一部分。

2.根据权利要求1所述的用户终端，其中，所述预处理级被配置为取决于以下中的一个或多个来动态地调整所述图像区域的尺寸：影响所述发送的信道条件、所述用户终端的处理资源、所述接收终端的处理资源；以及，调整所述边缘区域以使得每个帧保持所述编码器的帧尺寸。

3.根据权利要求2所述的用户终端，其中，当所述图像区域的尺寸被调整的同时，所述编码器的帧尺寸在连续的多个所述帧上保持恒定。

4.根据权利要求3所述的用户终端，其中，所述编码器能够操作以在预先确定的帧尺寸的集合中的不同帧尺寸之间进行切换。

5.根据权利要求4所述的用户终端，其中，所述编码器被配置为取决于以下中的一个或多个来动态地调整在所述预先确定的帧尺寸中的不同帧尺寸之间的所述切换：影响所述发送的信道条件、所述用户终端的处理资源、所述接收终端的处理资源。

6.根据任一项前述权利要求所述的用户终端，其中，以下中的一个或多个：

除了嵌入非图像数据的任何调制以外，所述边缘区域在所述经修改的帧中的每个帧内具有均匀的颜色和亮度；

所述边缘区域是黑色的；

除了嵌入非图像数据的任何调制以外，所述边缘区域在多个所述经修改的帧上保持恒定；

所述边缘区域不包括超出所述视频图像的图像内容的图像内容；

对所述边缘区域的所述编码包括帧间预测编码或帧内预测编码。

7.根据权利要求1所述的用户终端，其被配置为将关于所述尺寸调整的信息用信号发送到所述接收终端，以用于放大所述经修改的帧的所述图像区域以供由所述接收终端显示。

8.一种视频电话系统，包括权利要求7所述的用户终端，以及所述接收终端，所述接收终端包括：

解码器，其被配置为对所述帧中的每个进行解码；以及

渲染器，其被配置为以所述帧尺寸来对每个所解码的帧中的所述图像区域进行渲染；

其中，所述渲染器包括尺寸调整级，其被配置为接收关于由所述预处理级执行的所述尺寸调整的信息，以及基于所述信息来将所述经修改的帧中的每个帧的所述图像区域放大到所述帧尺寸，丢弃所述边缘区域。

9.一种用于参与视频通话的用户终端，包括：

解码器，其被配置为从发送终端的编码器接收帧的序列并且对所述帧的序列进行解码，每个帧已经以所述编码器的帧尺寸而被编码，并且每个帧包括至少用于表示在相应时刻处的源视频图像的图像区域，其中，所述编码器的帧尺寸是以像素为单位的尺寸；以及

渲染器，其被配置为以所述帧尺寸来对每个所解码的帧的所述图像区域进行渲染；

其中，所述帧中的至少一些已经在由所述编码器进行的编码之前被修改，其中，所述图像区域已经从所述源视频图像被尺寸调整为小于所述帧尺寸的尺寸，并且与边缘区域组合以使得所述经修改的帧与所述帧尺寸相匹配，所述尺寸调整包括裁剪所述源视频图像的一部分并且用所述边缘区域的一部分替换所述源视频图像的所裁剪的部分；以及

其中，所述渲染器包括尺寸调整级，所述尺寸调整级被配置为接收关于所述尺寸调整的信息，并且基于所述信息来将所述经修改的帧中的每个帧的所述图像区域放大到所述帧尺寸，丢弃所述边缘区域。

10.一种用于参与视频通话的客户端应用，所述客户端应用包括在计算机可读介质上实现的代码，并且被配置为当在用户终端上执行时，执行以下操作：

以近端编码器的帧尺寸将出站的帧的序列提供给所述近端编码器，所述帧尺寸是所述近端编码器对视频的帧进行编码的以像素为单位的尺寸，并且每个出站的帧包括至少用于表示在相应时刻处的源视频图像的图像区域；以及

以经修改的形式将所述出站的帧中的至少一些提供给所述近端编码器，这是通过对所述源视频图像进行尺寸调整以产生尺寸小于所述近端编码器的帧尺寸的每个经修改的帧的所述图像区域，并且与边缘区域相组合以使得所述经修改的帧与所述近端编码器的帧尺寸相匹配，所述尺寸调整包括裁剪所述源视频图像的一部分并且用所述边缘区域的一部分替换所述源视频图像的所裁剪的部分；

其中，所述近端编码器将因此以所述帧尺寸对所述帧中的每个帧进行编码，以用于发送到接收终端。

11.一种用于参与视频通话的客户端应用，所述客户端应用包括在计算机可读介质上实现的代码，并且被配置为当在用户终端上执行时，执行以下操作：

接收从发送终端的远端编码器发送的入站的帧的序列并且由近端解码器进行解码，每个帧已经以所述远端编码器对帧进行编码的所述远端编码器的帧尺寸被编码，并且每个帧包括至少用于表示在相应时刻处的源视频图像的图像区域，其中，所述远端编码器的帧尺寸是以像素为单位的尺寸；

以所述远端编码器的帧尺寸来对每个所解码的帧的所述图像区域进行渲染；以及

接收关于在由所述远端编码器进行编码之前已经被应用到所述入站的帧中的至少一些、经修改的帧的所述图像区域的尺寸调整的信息，其中，所述图像区域已经从所述源视频图像被尺寸调整到小于所述远端编码器的帧尺寸的尺寸，并且与边缘区域组合，以使得所述经修改的帧与所述帧尺寸相匹配，所述尺寸调整包括裁剪所述源视频图像的一部分并且用所述边缘区域的一部分替换所述源视频图像的所裁剪的部分；

其中，所述渲染包括基于所述信息将所述入站的经修改的帧中的每个帧的所述图像区域放大到所述远端编码器的帧尺寸，丢弃所述边缘区域。