CN104396236A

CN104396236A - 使用深度信息协助基于运动补偿的视频编码

Info

Publication number: CN104396236A
Application number: CN201380016339.4A
Authority: CN
Inventors: 吴振宇; 虹·希瑟·郁
Original assignee: Huawei Technologies Co Ltd
Current assignee: Huawei Technologies Co Ltd
Priority date: 2012-04-19
Filing date: 2013-04-19
Publication date: 2015-03-04
Anticipated expiration: 2033-04-19
Also published as: US9584806B2; EP2826250A4; JP6198021B2; KR20140147123A; US20130279588A1; KR101629746B1; CN104396236B; EP2826250A1; JP2015518690A; WO2013155984A1

Abstract

一种装置，所述装置包括多个端口和耦合到所述端口的处理器，所述处理器用于从所述端口的任意端口接收多个视频帧，其中所述视频帧包括对象和背景，且所述视频帧包括所述对象和所述背景的多个像素；从所述端口的任意端口接收多个深度帧，其中所述深度帧包括所述对象和所述背景，且所述深度帧包括相对于背景深度的对象深度的指示；以及使用相对于所述背景深度的所述对象深度的所述指示对所述视频帧进行编码。

Description

使用深度信息协助基于运动补偿的视频编码

相关申请案的交叉参考

本发明要求2013年4月17日由Zhenyu Wu等人递交的发明名称为“使用深度信息协助基于运动补偿的视频编码(Using Depth Information to AssistMotion Compensation-Based Video Coding)”的第13/864672号美国非临时申请案的在先优先权，其要求2012年4月19日由Zhenyu Wu等人递交的发明名称为“用于基于运动补偿的视频编码的系统和方法(System and Method forMotion Compensation-Based Video Coding)”的第61/635690号美国临时申请案的在先优先权，这两个申请案都以引用的方式并入本文本中。

关于由联邦政府赞助的

研究或开发的声明

不适用。

参考缩微胶片附录

不适用。

技术领域

无

背景技术

通常，视频涉及相对较快地连续显示一系列静态图像或帧，从而使观看者感知画面中的运动。每个帧可以包含多个像素，每个像素可以表示帧中的单个参考点。即使在视频段较短的情况下也需要对大量数据进行描述，当数据在带宽容量受限的网络中传送时，可能会造成困难。因此，通过设备上的视频压缩硬件或软件将视频压缩，该设备为视频源。压缩可以是视频流在网络中传送之前的编码过程的一部分，这减少了传送视频所需的数据量。编码可指将源数据转换为符号的过程。随后，通过设备上的视频解压硬件或软件将视频解压作为解码过程的一部分，该设备为视频接收器。解码可指将符号转换回源数据的过程。改进的压缩和解压技术可提高压缩率，从而在不会大幅降低视频质量的情况下减少传送视频所需的数据量。此外，改进的压缩和解压技术可提高视频质量。

发明内容

在一项实施例中，本发明包括一种装置，所述装置包括多个端口和耦合到所述端口的处理器，所述处理器用于从所述端口的任意端口接收多个视频帧，其中所述视频帧包括对象和背景，且所述视频帧包括所述对象和所述背景的多个彩色像素；从所述端口的任意端口接收多个深度帧，其中所述深度帧包括所述对象和所述背景，且所述深度帧包括相对于背景深度的对象深度的指示；以及使用相对于所述背景深度的所述对象深度的所述指示对所述视频帧进行编码。

在另一项实施例中，本发明包括一种系统，所述系统包括摄像头，用于获取多个视频帧，其中所述视频帧包括对象和背景，且所述视频帧包括所述对象和所述背景的多个彩色像素；深度设备，用于获取多个深度帧，其中所述深度帧包括所述对象和所述背景，且所述深度帧包括相对于背景深度的对象深度的指示；以及耦合到所述摄像头和所述深度设备的编码器，其中所述编码器用于使用相对于所述背景深度的所述对象深度的指示对所述视频帧进行编码。

在又一项实施例中，本发明包括一种方法，所述方法包括从所述端口的任意端口接收多个视频帧，其中所述视频帧包括对象和背景，且所述视频帧包括所述对象和所述背景的多个彩色像素；从所述端口的任意端口接收多个深度帧，其中所述深度帧包括所述对象和所述背景，且所述深度帧包括相对于背景深度的对象深度的指示；以及使用相对于所述背景深度的所述对象深度的所述指示对所述视频帧进行编码。

结合附图和权利要求书，可从以下的详细描述中更清楚地理解这些和其它特征。

附图说明

为了更完整地理解本发明，现在参考以下结合附图和详细描述进行的简要描述，其中相同参考标号表示相同部分。

图1为根据本发明实施例的通信系统的示意图。

图2为深度帧的示例。

图3为根据本发明实施例的图示视频编码方法的流程图。

图4为根据本发明实施例的网络设备的示意图。

具体实施方式

最初应理解，尽管下文提供一个或多个实施例的说明性实施方案，但可使用任意数目的当前已知或现有的技术来实施所公开的系统和/或方法。本发明决不应限于下文所说明的所述说明性实施方案、图式和技术，包含本文所说明并描述的示范性设计和实施方案，而是可以在所附权利要求书的范围以及其均等物的完整范围内修改。

视频编码可包括运动估计。在视频编码中，运动估计可指用于确定使一个视频帧与另一个视频帧相关的运动矢量的特定过程。运动估计可采用块匹配算法。在此算法中，编码器可将一个视频帧划分为多个宏块，宏块又可细分为更小的子宏块。原始宏块和细分的子宏块还可称为编码块。编码器可识别第一视频帧中的第一宏块。接着，编码器可通过按顺序扫描第二视频帧中的每个宏块识别第二视频帧中的第二宏块，第二视频帧最接近第一视频帧中的第一宏块。如果第二宏块沿着二维网格相对第一宏块移动，那么编码器在对来自两个视频帧的数据进行编码之后，即全面描述第一宏块并仅从描述移动距离的运动矢量方面描述第二宏块。否则，编码器可全面描述第一宏块和第二宏块。与后一种场景相比，采用运动矢量的前一种场景减少了描述两个视频宏块及两个视频帧所需的数据量。编码器可重复该过程并确定有限数目的视频帧的运动估计信息直到，例如视频会议完成。

运动估计可以是用于视频编码的计算资源消耗的重要来源。在一些情况下，运动估计可占计算资源消耗的60％至70％。因此，一些现有解决方案试图通过使用快速运动估计和模式决策技术等改进算法来减少运动估计的计算资源消耗。在以上两个视频帧和两个宏块的示例中，编码器可使用预定义的搜索模式和提前终止标准来搜索第二宏块。在使用这些技术的过程中，编码器可跳过在不太可能与第一宏块匹配的第二视频帧中搜索候选宏块。继续使用上文的两个视频帧和两个宏块的示例，编码器可首先查找第一宏块的空间和/或时间近邻，或编码器可查找与第一宏块共置的不同空间分辨率的块。其它现有解决方案可能要求强大的硬件，例如更强大的图形处理器(GPU)、数字信号处理器(DSP)和现场可编程门阵列(FPGA)等。但是，从计算资源消耗的角度而言，此类系统和架构是不可取的。

本文中所公开的是用于改进的编码技术的系统和方法。所公开的技术可应用于视频会议、远程呈现、视频监控和涉及图像或视频的其它应用。利用这种技术，可通过基于像素的摄像头和深度设备捕捉视频。随后，编码器可使用像素数据和深度数据分割对象，跟踪视频帧中的这些对象，构建这些对象的运动模型以及基于这些运动模型推演出运动矢量。在此背景下，分割可指将帧划分为像素集。例如，帧中的单独对象可划分自帧的其它部分。通过采用该技术，编码器可至少部分地减少原本所需的运动估计量。运动估计的缩减可导致计算资源消耗缩减，从而需要不太复杂的硬件并降低了硬件成本和功率消耗。计算资源消耗缩减还减少所需数据量，从而提高视频容量和视频质量。此外，所公开的技术可直接提高压缩效率。最终，所公开的技术可直接改善视频质量。

至少在以下两种情况下使用所公开的技术会出现计算资源消耗缩减。第一种，对于建模的对象而言，编码器可绕过运动估计以支持所公开的技术。使用所公开的技术为建模的对象推演运动矢量需要的计算资源消耗可能比运动估计所需的更少。第二种，编码器可使用推演出的运动矢量而不是绕过对建模的对象的运动估计，确定比先前技术更好(例如，更优化)的运动预测器以开始对建模的对象内的宏块进行运动估计。在这种情况下，编码器可通过避免搜索不太可能匹配的宏块来减少计算资源消耗。

至少在以下两种情况下使用所公开的技术会出现压缩效率改进。第一种，如上所述，运动估计可包括编码器按顺序扫描视频帧中的每个宏块直到找到匹配宏块。当进行该操作时，编码器还不知道与匹配宏块相邻的未编码的宏块的运动矢量。该过程可得到对于匹配宏块而言更好(例如，更优化)的运动矢量，但当相邻宏块被放在一起考虑时该运动矢量对于匹配宏块而言次佳。利用所公开的技术，编码器可知道相邻宏块的运动矢量属于建模的对象。编码器可使用该信息推演更好(例如，更优化)的用于视频帧的未建模区域的运动矢量。第二种，如上文所述，编码器可使用推演出的运动矢量来确定更好(例如，更优化)的运动预测器。鉴于固定大小的运动搜索窗口，更好的运动预测器可产生比先前技术更好(例如，更优化)的运动估计运动矢量。

由于深度数据可更准确地反映对象的真实运动，因此所公开的技术可直接提高质量。出于该原因，与仅使用像素数据相比，所公开的技术可产生更少地花屏或失真。

图1为根据本发明的实施例的通信系统100的示意图。通信系统100可包括主设备110，主设备110通过网络150以通信方式耦合到多个辅设备160。主设备110可以是移动电话、平板电脑、台式电脑、笔记本电脑或其它设备。各个辅设备160同样可以是移动电话、平板电脑、台式电脑、笔记本电脑或其它设备。网络150可以是因特网、无线移动电话网络或其它网络。

主设备110可包括摄像头120、深度设备130和编码器140。摄像头120可以是适于捕捉图像或视频帧的任何摄像头。图像和视频帧为所属领域技术人员所熟知，每个图像或视频帧可包括多个红绿蓝(RGB)像素或其它合适的色彩空间。如图所示，深度设备130可以是所示主设备110的一部分。或者，深度设备130可以是主设备110的附属或可仅以通信方式耦合到主设备110。深度设备130可以是深度传感器、光场摄像头、测距摄像头、红外摄像头、紫外摄像头、雷达或声呐组件、互补型金属氧化物半导体(CMOS)视觉传感器、电荷耦合器(CCD)视觉传感器、视觉传感器的组合或其它适于捕捉深度帧的深度设备深度设备130可与摄像头120配合捕捉此类深度帧，因此深度设备130通常位于摄像头120附近(例如，六英尺以内)且具有与摄像头120类似的视角。换言之，如果摄像头120在特定时间捕捉到特定聚焦区域的视频帧，那么深度设备130可在同一时间捕捉到相同聚焦区域对应的深度帧。深度设备130可使用红外线或其它电磁波捕捉深度帧。深度帧可包括表示不同深度的多个不同强度值。例如，高或亮强度可表示与深度设备130相对接近的对象，而低或暗强度可表示距离深度设备130相对较远的对象。或者，深度帧可包括对从深度设备130到对象中一些或全部像素的距离的近似或绝对(数字)测量。在实施例中，深度帧可包括像素，这样深度帧的每个像素对应于位于对应视频帧的相同区域处的像素。

图2为深度帧200的示例。深度帧200包括深度帧200的前景中的人物210和深度帧200的背景中的沙发220。如图所示，人物210在深度帧200中相对较近，因此由亮强度或低密度阴影表示，而沙发220在深度帧200中相对较远，因此由暗强度或密度较高的阴影表示。沙发220后面的区域更远，因此由更暗的强度或密度更高的阴影表示。所属领域技术人员将理解通常如何呈现深度帧。

返回图1，编码器140可以是适于编码视频数据的任意编码器。编码器140可以是单独模块或较大计算进程的一部分。应了解，主设备110还可包括视频解码器(未示出)，或许还包括显示器(未示出)。

深度设备130可具有一些限制。首先，深度设备130和对象之间的距离差，最小可辨识的距离差和视角可能会降低性能。其次，仔细地协调摄像头120和深度设备130以正确地排列视频帧和深度帧是很重要的。如果没有仔细协调，那么可能无法完全理解所公开的技术。

主设备110可与至少一个辅设备160参与视频电话。主设备110和每个参与的辅设备160可发送和接收数据以参与视频电话。例如，主设备110可通过摄像头120和深度设备130捕捉数据、通过编码器140对数据进行编码、以及将编码后的数据发送到参与的辅设备160。同时，主设备110可从参与的辅设备160接收编码的数据并对接收到的数据进行解码。因此，辅设备160可包括与主设备110相同的部件。主设备110和每个辅设备160可通过硬件和软件的任意组合执行上述任务和下述任务。

图3为根据本发明实施例的图示视频编码方法300的流程图。方法300可在上述主设备110(例如编码器140)中实施。此外，方法300可包括通用步骤：图像提取365、对象分割370、运动计算375和视频编码380。

方法300可开始于步骤305，在步骤305，可从任意合适源(例如，摄像头120)接收视频帧。在步骤310，可从任意合适源(例如，深度设备130)接收深度帧。如上所述，视频帧和深度帧可同时对应相同的聚焦区域。在步骤315，可从视频帧中提取像素数据。像素数据可以是视频帧中用于形成各像素的红、绿、蓝值。在步骤320，可从深度帧中提取深度数据。深度数据可以是用于形成深度帧中各像素的强度值并且可指示深度设备130和对象之间的相对距离。

在步骤325，可以对对象进行分割。对象可以例如是视频帧和深度帧的背景中的沙发(如图2所示)。视频帧中的彩色图案可用于分割该对象。例如，如果沙发具有红白条纹，那么编码器140将通过从视频帧的其余部分区分和分割该组红白色彩来从视频帧的其余部分对沙发进行分割。然而，仅使用像素数据的对象分割相对较复杂并且容易出错。例如，如果视频帧的前景中的人物穿着具有红白条纹的T恤，那么编码器140可能错误地将人物的T恤和沙发分割为一个对象，因为两个对象共享相同的图案和色彩。使用深度数据的对象分割可确定深度帧中的深度图案。例如，沙发可以处于深度帧的背景中基本均匀的深度处，因此其像素将呈现基本类似的强度。由于沙发在背景中，因此沙发可呈现相对较暗的强度。相反，由于人物的T恤在前景中，因此人物的T恤可呈现相对较亮的强度。使用深度数据的对象分割与使用像素数据的对象分割高度相关，意味着两种对象分割方法可彼此互补并提供改进的对象分割。当在具有独特前景对象和独特背景对象的帧中分割对象时，这种改进尤为明显。例如，虽然仅使用像素数据的对象分割可将人物的T恤和沙发组合为一个分割的对象，但采取使用深度数据的对象分割可有助于区分人物的T恤和沙发。因此，与仅使用像素数据的对象分割相比，采取使用像素数据和深度数据的对象分割复杂度较低且可靠性提高。

在步骤330，方法300可确定分割的对象是否是刚性的。刚性的对象可指在视频帧中移动位置，但在对象自身的边界内不会有较大改变的对象。例如，如果摄像头120移动其聚焦区域，那么沙发可在视频帧中移动；但是，沙发自身的形状或色彩不会大幅度改变。相反，人脸的形状可在视频帧中改变。例如，人可张开嘴说话或眨眼。如果对象不是刚性的，那么过程可前进到步骤350。在步骤350，编码器可执行对象的运动估计并前进到步骤355。如果对象是刚性的，那么方法300可前进到步骤335。需要注意的是对象分割可包括分割较大物体的各部分，例如从人体其余部分分割出躯干。可以完成该操作，因为躯干可在视频帧中保持刚性，而脸部形状可在视频帧中改变。此外，可通过从辅对象区分出主对象的深度来分割主对象。可考虑辅对象位于背景中，因为它们在主对象后面。换言之，相对而言，可使用“前景”和“背景”。

在步骤335，可以识别和跟踪对象。换言之，编码器140可采用上述双对象分割方法和在有限数目的后续帧中识别第一帧中分割的对象。方法300随后可跟踪对象如何在帧中移动。

在步骤340，可对对象运动进行建模。编码器140可使用任意合适的全局运动模型(包括平移、几何、仿射和透视模型)对对象运动进行建模。对应具体到更为一般的运动，这些模型以低阶模型到高阶模型的顺序列出并在由Yeping Su等人在IEEE视频技术用电路与系统汇刊2005年2月，第2期，第15卷上发表的“来自粗采样的运动矢量场的全局运动估计及其应用(GlobalMotion Estimation from Coarsely Sampled Motion Vector Field and theApplications)”中描述。

在步骤345，方法300可使用上文描述的对象运动建模推演对象的各编码块的运动矢量。运动矢量可描述帧中的对象的各编码块的实际运动轨迹。此外，方法300可通过深度帧确定不在帧中移动的对象为静止的静态背景。

方法300随后可前进到步骤350或步骤355。如果前进到步骤350，方法300可如上所述使用推演出的运动矢量来确定更多最优化的运动预测器以在建模的对象内开始对编码块进行运动估计，接着前进到步骤355。否则，该过程可直接前进到步骤355。在步骤355，方法300可对描述视频帧的数据(包括推演出的运动矢量)进行编码。在步骤360，方法300可输出编码后的数据，例如，将编码后的视频数据发送到辅设备160。通过使用为刚性对象推演和编码运动矢量的上述方法300，编码器可使用基于运动补偿的视频编码。

本文所述的提高的压缩效率可取决于对象分割和跟踪的准确性。例如，对象相对独特且呈现简单运动的视频会议和视频监控等应用效率提高最明显。

图4为根据本发明的实施例的网络设备400的示意图。网络设备400可包括多个入端口410和/或接收器单元(Rx)420，用于接收数据；处理器或逻辑单元430，用于处理信号；多个出端口440和/或发射器单元(Tx)450，用于将数据发送到其它部件；以及存储器460。网络设备400可适于实施上述特性、方法和设备，并因此可能是图1所示和本发明所述的主设备110和/或辅设备160的一部分。例如，入端口410可以耦合到摄像头120和深度设备130，出端口440可耦合到网络150。此外，编码器140可在处理器430和/或存储器460中实施。因此，处理器430和/或存储器460可包括视频编码模块470，其可对应于方法300。视频编码模块470可包括图像提取子模块475(可包括用于实施图像提取365的指令)、对象分割子模块480(可包括用于实施对象分割370的指令)、运动计算子模块485(可包括用于实施运动计算375的指令)和视频编码子模块490(可包括用于实施视频编码380的指令)。

处理器430(可称为中央处理器(CPU))可与入端口410、接收器单元420、出端口440、发射器单元450和存储器460通信。处理器430可以实施为一个或多个CPU芯片、核(例如多核处理器)、现场可编程门阵列(FPGA)、专用集成电路(ASIC)和/或数字信号处理器(DSP)，并且/或者可以是一个或多个ASIC的一部分。

存储器460可由一个或多个磁盘、磁带驱动器或固态驱动器组成；可用于数据的非易失性存储和用作溢流数据存储设备；可用于当选择执行此类程序时存储程序；以及可用于存储程序执行期间读取的指令以及可能的数据。存储器460可为易失性或非易失性的且可为只读存储器(ROM)和/或随机存取存储器(RAM)。

本发明公开至少一项实施例，且所属领域的普通技术人员对所述实施例和/或所述实施例的特征作出的变化、组合和/或修改均在本发明公开的范围内。因组合、合并和/或省略所述实施例的特征而得到的替代性实施例也在本发明的范围内。在明确陈述数值范围或限制的情况下，应将此类表达范围或限制理解为包含属于明确陈述的范围或限制内的类似量值的迭代范围或限制(例如，从约为1到约为10包含2、3、4等；大于0.10包含0.11、0.12、0.13等)。例如，每当公开具有下限Rl和上限Ru的数值范围时，具体是公开落入所述范围内的任何数字。具体而言，特别公开所述范围内的以下数字：R＝Rl+k*(Ru–Rl)，其中k是从1％到100％以1％增量递增的变量，即，k是1％、2％、3％、4％、5％……50％、51％、52％……95％、96％、97％、98％、99％或100％。此外，还特此公开了，上文定义的两个R值所定义的任何数值范围。除非另有说明，否则术语“约”是指其后数字的±10％。相对于权利要求的某一要素，术语“可选地”的使用表示该要素可以是需要的，或者也可以是不需要的，二者均在所述权利要求的范围内。例如包括、包含和具有等较广义的术语，应被理解为用于支持较狭义的术语，例如“由……组成”、“基本上由……组成”、以及“大体上由……组成”等。因此，保护范围不受上文所述的限制，而是由所附权利要求书定义，所述范围包含所附权利要求书的标的物的所有等效物。每项和每条权利要求作为进一步公开的内容并入说明书中，且权利要求书是本发明的实施例。所述揭示内容中的参考的论述并不是承认其为现有技术，尤其是具有在本申请案的在先申请优先权日期之后的公开日期的任何参考。本发明中所引用的所有专利、专利申请案和公开案的揭示内容特此以引用的方式并入本文本中，其提供补充本发明的示例性、程序性或其他细节。

虽然本发明多个具体实施例，但应当理解，所公开的系统和方法也可通过其他多种具体形式体现，而不会脱离本发明的精神或范围。本发明的实例应被视为说明性而非限制性的，且本发明并不限于本文本所给出的细节。例如，各种元件或部件可以在另一系统中组合或合并，或者某些特征可以省略或不实施。

此外，在不脱离本发明的范围的情况下，各种实施例中描述和说明为离散或单独的技术、系统、子系统和方法可以与其他系统、模块、技术或方法进行组合或合并。展示或论述为彼此耦合或直接耦合或通信的其他项也可以采用电方式、机械方式或其他方式通过某一接口、设备或中间部件间接地耦合或通信。其它变更、替换、更替示例对本领域技术人员而言是显而易见的，均不脱离此处公开的精神和范围。

Claims

1.一种装置，其特征在于，包括：

多个端口；以及

耦合到所述端口的处理器，用于：

从所述端口的任意端口接收多个视频帧，其中所述视频帧包括对象和背景，且所述视频帧包括所述对象和所述背景的多个彩色像素；

从所述端口的任意端口接收多个深度帧，其中所述深度帧包括所述对象和所述背景，且所述深度帧包括相对于背景深度的对象深度的指示；以及

使用相对于所述背景深度的所述对象深度的指示对所述视频帧进行编码。

2.根据权利要求1所述的装置，其特征在于，编码所述视频帧包括：

从所述视频帧提取所述彩色像素；

从所述深度帧提取相对于背景深度的对象深度的所述指示；

使用相对于所述背景深度的所述对象深度的所述指示从所述背景分割出所述对象；

计算所述对象的运动；以及

对所述对象进行编码。

3.根据权利要求2所述的装置，其特征在于，计算所述对象的所述运动包括：

确定所述对象不是刚性的；以及

为所述对象执行运动估计。

4.根据权利要求2所述的装置，其特征在于，计算所述对象的所述运动包括：

确定所述对象是刚性的；以及

在所述帧上跟踪所述背景中的所述对象；

建模所述对象的所述运动；以及

推演所述对象的第一编码块的运动矢量。

5.根据权利要求4所述的装置，其特征在于，所述运动矢量用于描述所述第一编码块的运动，但运动估计用于描述所述视频帧的第二编码块的运动。

6.根据权利要求5所述的装置，其特征在于，所述建模基于平移、几何、仿射或透视模型。

7.根据权利要求1所述的装置，其特征在于，相对于所述背景深度的所述对象深度的所述指示由色彩强度的差异表示。

8.根据权利要求1所述的装置，其特征在于，相对于所述背景深度的所述对象深度的所述指示由所述对象和深度传感器的数值距离表示。

9.根据权利要求1所述的装置，其特征在于，所述视频帧用于视频会议、远程呈现或视频监控。

10.一种系统，其特征在于，包括：

摄像头，用于获取多个视频帧，其中所述视频帧包括对象和背景，且所述视频帧包括所述对象和所述背景的多个彩色像素；

深度设备，用于获取多个深度帧，其中所述深度帧包括所述对象和所述背景，且所述深度帧包括相对于背景深度的对象深度的指示；以及

耦合到所述摄像头和所述深度设备的编码器，所述编码器用于使用相对于所述背景深度的所述对象深度的所述指示对所述视频帧进行编码。

11.根据权利要求10所述的系统，其特征在于，所述编码器包括：

图像提取子模块，用于从所述视频帧中提取所述彩色像素和从所述深度帧中提取相对于背景深度的对象深度的所述指示；

对象分割子模块，用于使用相对于所述背景深度的所述对象深度的所述指示从所述背景分割出所述对象；

运动计算子模块，用于计算所述对象的运动；以及

视频编码子模块，用于编码所述对象。

12.根据权利要求11所述的系统，其特征在于，计算所述对象的所述运动包括：

确定所述对象是否刚性的；

当所述对象不是刚性时，为所述对象执行运动估计；

当所述对象为刚性时，在所述帧上跟踪所述背景中的所述对象；

当所述对象为刚性时，建模所述对象的所述运动；以及

当所述对象为刚性时，推演所述对象的编码块的运动矢量。

13.根据权利要求12所述的系统，其特征在于，所述深度设备为红外摄像头。

14.根据权利要求12所述的系统，其特征在于，所述深度设备为紫外摄像头。

15.根据权利要求12所述的系统，其特征在于，所述深度设备为雷达系统或声呐系统。

16.根据权利要求13所述的系统，其特征在于，所述深度设备为深度传感器、光场摄像头、测距摄像头、互补型金属氧化物半导体(CMOS)视觉传感器、电荷耦合器(CCD)视觉传感器或视觉传感器的组合。

17.一种方法，其特征在于，包括：

从所述端口的任意端口接收多个深度帧，其中所述深度帧包括所述对象和所述背景，且所述深度帧包括相对于背景深度的对象深度的指示；

以及

18.根据权利要求17所述的方法，其特征在于，编码所述视频帧包括：