CN103416055A

CN103416055A - 视频编码

Info

Publication number: CN103416055A
Application number: CN2011800685709A
Authority: CN
Inventors: 格雷格·米勒; 法曾·艾格达斯; 王雷; 黄健民
Original assignee: Pelco Inc
Current assignee: Pelco Inc
Priority date: 2010-12-30
Filing date: 2011-12-29
Publication date: 2013-11-27
Anticipated expiration: 2031-12-29
Also published as: EP2659674B1; CN103416055B; WO2012092459A2; AU2011352102A1; US20120169923A1; US9049447B2; AU2011352102B2; EP2659674A4; EP2659674A2; WO2012092459A3

Abstract

讨论了提供例如通过低带宽连接来编码和传输高清晰度视频的机制的技术。特别地，前景对象被识别为与从视频源（如摄像机）接收到的多个视频帧所表示的场景的背景不同。在识别前景对象时，区分语义上重要的运动和语义上不重要的运动（例如，重复运动与非重复运动）。以不同的更新速率或频率处理前景对象和背景。

Description

视频编码

背景

近年来，高清晰度（HD）视频技术的使用已经呈指数增长，并且扩展至许多不同的领域。例如，现在，许多电影、电视节目以及在线视频流通常都以高清晰度呈现。HD视频技术也越来越多地用于监测和无线通信领域中。例如，支持高清晰度的摄像机可以提供非常详细的视频流，并且实现远程站点如工业园区的有效监视。

用于监测和无线通信应用的HD视频使用显著量的带宽。然而，一些远程站点至多可以可靠地传送128Kbps的带宽。这样的带宽容量可能使传送高质量的视频流几乎不可能。

为了便于HD视频的使用，存在许多视频压缩方案（例如，MPEG-1/2、MPEG-4以及H.264）来减小原始高清晰度视频的大小。

简要概述

示例性传输系统包括处理器，该处理器被配置成接收多个帧；分析多个帧；识别与背景部分不同的前景对象部分；传输多个帧中的每一个帧的前景对象信息；以及选择性地传输少于所有所述多个帧的背景信息，其中，以周期性速率传输背景信息。

这种系统的某些实现可以包括一个或多个以下特征。前景对象部分包括语义上重要的运动对象。

一种通过计算机设备可以与之连接的网络传输视频的示例性方法包括：接收来自视频源的多个视频数据；分析多个视频数据；识别多个视频数据中的与背景部分不同的前景对象部分的存在；基于第一更新速率处理与至少一个所识别的前景对象部分相关联的数据；基于第二更新速率处理与背景部分相关联的数据；基于第一更新速率传输与至少一个所识别的前景对象部分相关联的数据；及基于第二更新速率传输与背景部分相关联的数据，其中，第一更新速率大于第二更新速率。

这种方法的某些实现可以包括一个或多个以下特征。识别前景对象部分包括基于高斯混合模型识别语义上重要的运动。如果视频数据部分包括语义上重要的运动，那么该部分被识别为前景对象部分。处理与至少一个前景对象部分相关联的数据包括确定所述至少一个前景对象部分是否是噪声。第一更新速率为每秒30帧。处理与至少一个前景对象部分相关联的数据包括：计算前景对象部分的残差对象图像；对残差对象图像进行编码，以产生编码的残差对象图像；对编码的残差对象图像进行解码，以产生解码的残差对象图像；以及基于解码的残差对象图像生成对象图像。残差对象图像基于参考背景图像或先前重构的帧。处理与背景部分相关联的数据包括：基于第一参考背景图像计算背景部分的残差背景图像；对残差背景图像进行编码，以产生编码的残差背景图像；对编码的残差背景图像进行解码，以产生解码的残差背景图像；基于解码的残差背景图像和第一参考背景图像生成第二参考背景图像。该方法还包括传输事件数据，其中，事件数据指示前景对象部分是否已经进入或离开由多个视频数据表示的场景。传输与背景部分相关联的数据包括：将背景部分的残差背景图像分成多个切片；以及每隔一段时间传输多个切片中的每个切片。传输与背景部分相关联的数据包括：在确定至少一个前景对象是静止的或者确定先前所识别的前景对象已经离开由多个视频数据表示的场景之后，传输残差背景区域图像和该区域图像的位置信息。

一种编码有一个或多个计算机可读的指令的示例性的非临时性计算机可读介质，当所述指令由处理器执行时，使处理器对来自多个图像的视频数据进行分析；识别视频数据中的与背景部分不同的前景对象部分的存在；以第一更新速率传输与至少一个所识别的前景对象部分相关联的不同图像的视频数据的第一部分；以及以第二更新速率传输与背景部分相关联的不同图像的视频数据的第二部分，其中，第一更新速率大于第二更新速率。

这种计算机可读介质的某些实现可以包括一个或多个以下特征。使处理器识别前景对象部分的存在的指令使处理器使用高斯模型识别语义上重要的运动。使处理器识别前景对象部分的存在的指令使处理器将语义上重要的运动的区域识别为前景对象部分。第一更新速率为每秒30帧。使处理器传输与至少一个所识别的前景对象部分相关联的数据部分的指令使处理器计算前景对象部分的残差对象图像；对残差对象图像进行编码，以产生编码的残差对象图像；对编码的残差对象图像进行解码，以产生解码的残差对象图像；基于解码的残差对象图像生成对象图像；以及传输编码的残差对象图像。根据参考背景图像或先前重构的帧来计算残差对象图像。使处理器传输与背景部分相关联的数据部分的指令使处理器基于第一参考背景图像计算背景部分的残差背景图像；对残差背景图像进行编码，以产生编码的残差背景图像；对编码的残差背景图像进行解码，以产生解码的残差背景图像；基于解码的残差背景图像和第一参考背景图像生成第二参考背景图像；以及传输编码的残差背景图像。使处理器传输编码的残差背景图像的指令使处理器将编码的残差背景图像分成多个切片；并且每隔一段时间传输多个切片中的每个切片。

一种编码有一个或多个计算机可读的指令的示例性的非临时性计算机可读介质，当所述指令由处理器执行时，使处理器确定多个接收到的数据中的每一个的数据类型，其中，以第一更新速率接收多个接收到的数据中与运动的前景对象数据类型相关联的数据，并且以第二更新速率接收多个接收到的数据中与背景数据类型相关联的数据，其中，第一更新速率大于第二更新速率；基于确定的数据类型来处理多个接收到的数据中的每一个；以及使用基于与第一时间相关联的第一视频帧的运动的前景对象数据和基于与第二时间相关联的第二视频帧的背景数据来生成至少一个视频帧，其中，第一时间晚于第二时间。

这种计算机可读介质的某些实现可以包括一个或多个以下特征。使处理器基于确定的数据类型来处理数据的指令使处理器对数据进行解码，以产生解码的对象图像；并将解码的对象图像存储在对象列表中。

本文描述的项目和/或技术可以提供一个或多个以下性能，以及其他没有提到的性能。在一些实现中，具有可接受的帧率的高清晰度视频可以被编码并分布在低带宽连接上。上述效果可以通过除了以上描述的方式来实现，并且所述的项目/技术可能未必产生所述的效果。

附图的简要说明

图1是包括发射机和接收机的高清晰度视频传输系统的简图。

图2是图1中所示的发射机的组件的方框图。

图3是图1中所示的接收机的组件的方框图。

图4是用于编码视频的过程的方框流程图。

图5是用于解码视频的过程的方框流程图。

图6是用于编码和传输背景图像的过程的方框流程图。

图7是用于编码和传输前景对象图像的过程的方框流程图。

图8是用于支持前景对象图像的编码和传输的过程的方框流程图。

图9是解码视频数据的过程的方框流程图。

在这些图中，具有相似的相关特性和/或特征的组件可以具有相同的参考标签。

详细说明

本文讨论了例如通过低带宽连接提供用于编码和传输高清晰度视频的机制的技术。特别地，前景对象被识别为与由多个视频帧表示的场景的背景不同。在识别前景对象时，区分语义上重要的和语义上不重要的运动（例如，非重复的运动与重复的运动）。例如，树叶的轻微和重复的摇曳运动可被确定为语义上不重要的并且属于场景的背景。以不同的更新速率或频率进行前景对象和背景的处理。例如，每秒可以对前景对象更新30或60次。与此相反，不太频繁地对背景进行更新，例如，每10分钟一次。在一些实现中，如果没有识别到前景对象，那么就不传输直播视频（例如，如果没有检测到运动，那么I帧就不被配置成重复发送）。

本文所描述的技术利用以下事实：在监测和无线通信领域中，以高帧率更新语义上重要的运动的视频是足够的。虽然针对娱乐应用对许多编码方案进行了优化，但是在监测应用中，视频的背景中的轻微和重复的变化，如旗子的飘动，通常是不重要的。通过省略背景中语义上不重要的运动的传输，以及通过降低背景更新的速率，便利了在低带宽连接上传输高清晰度视频。

本文所描述的技术可以用于通过各种通信系统传送高清晰度视频。例如，高清晰度视频可以通过各种有线和无线通信系统来进行传输，诸如基于以太网的、基于同轴电缆的、基于电力线的、基于Wi-Fi的（802.11系列标准）、码分多址（CDMA）、时分多址（TDMA）、频分多址（FDMA）、正交FDMA（OFDMA）、单载波FDMA（SC-FDMA）的系统等。

如本文所用，包括在权利要求中使用的，在冠有“至少一个”的项目列表中所使用的“或”表示分隔的列表，例如列表“A、B或C中的至少一个”是指A或B或C或AB或AC或BC或ABC（即，A和B和C）。无线通信网络并不使所有通信都通过无线传输，但被配置成使至少一些通信通过无线传输。

参考图1，示出了包括发射机和接收机的视频传输系统的简图。视频传输系统100包括发射机102、网络104和接收机106。发射机102优选地为用于编码和传输如高清晰度视频的设备。例如，发射机102可以是视频捕获设备（例如，包括摄像机的计算设备、智能摄像机、视频采集卡等），连接到一个或多个视频捕获设备（例如，外部摄像机）的计算设备（例如，台式计算机、膝上型计算机、平板设备、计算机服务器、视频代码转换器等）和/或视频编码设备、视频捕获设备的模块，计算设备的模块等等。例如，发射机102可以是嵌入摄像机中的模块或视频代码转换器的模块。如本文所用，视频包括全运动视频和每隔一段时间拍摄的静止照片。接收机106优选地为用于接收和解码如高清晰度视频的设备。例如，接收机106可以是台式计算机、膝上型计算机、平板设备、计算机服务器、移动设备、移动电话、监视系统等等。

网络104优选地为用于便利两个或多个设备之间的通信的任何合适的网络。例如，网络104可以是闭环通信系统、局域网（例如，企业内部网），广域网（例如，因特网）等等。发射机102被配置成通过网络104向接收机106传输编码的图像和其他数据。例如，发射机102可以为接收机106提供一系列编码的图像，所述一系列编码的图像可被解码成视频流（例如，高清晰度视频）以呈现给用户。为了支持图像的编码和解码，发射机102还可以向接收机106提供事件信息（例如，在视频流中已经出现新对象的指示等）。

参考图2，发射机102包括成像设备202、处理器204、存储器206、通信子系统208和输入/输出（I/O）子系统210。处理器204优选地为智能硬件设备，例如，诸如由公司、

ARM^TM制造的中央处理单元（CPU）、微控制器、专用集成电路（ASIC）、数字信号处理器（DSP）（例如，TexasInstrument的DaVinci^TM系列的DSP）等。存储器206包括物理和/或有形的存储介质。这种介质可以采取许多形式，包括但不限于非易失性介质和易失性介质。非易失性介质包括，例如光盘和/或磁盘，如只读存储器（ROM）。说明性地，非易失性介质可以是硬盘驱动器、闪存驱动器等等。易失性介质包括但不限于各种类型的随机存取存储器（RAM）。说明性地，易失性介质可以是动态随机存取存储器（DRAM）、静态随机存取存储器（SRAM）等等。存储器206存储包含指令的计算机可读的、计算机可执行的软件代码，所述指令被配置成当其被执行时，使处理器204执行本文所描述的各种功能。所述功能实现了视频传输系统。在一些实现中，存储器206可以存储对象图像和背景图像。例如，存储器206可以存储在从成像设备202接收到的多个帧中检测到的前景对象的图像。存储器206还可以存储对象列表，该对象列表包括标识符、对象图像、索引和/或对应于每个检测到的前景对象的其他属性。

成像设备202优选地为用于捕获原始视频数据的硬件和/或软件的任何合适的组合，例如，基于电荷耦合器件（CCD）、互补金属氧化物半导体（CMOS）图像传感器技术和/或热成像传感器等的设备。发射机102可以包括任意数量的成像设备（包括0个）。

发射机102可以附加地或可替换地接收来自直接连接到通信子系统208的一个或多个端口和/或I/O子系统210的一个或多个端口的外部的视频捕获设备和/或视频编码设备（例如，外部摄像机、生成编码的视频的计算设备等）的原始的或编码的视频数据。

通信子系统208优选地为用于与其他设备（例如，在图3中所示的接收机106、其他摄像机等）进行通信的硬件和/或软件的任何合适的组合。通信子系统208可以被配置成连接到例如闭环通信系统、局域网（例如，企业内部网）、广域网（例如，因特网）等。I/O子系统210优选地为用于管理与输入/输出设备的通信和/或其操作的硬件和/或软件的任何合适的组合。

由发射机102接收的视频数据可以被处理器204编码或压缩成数字格式。例如，发射机102可以根据一个或多个更新速率分析数据、识别数据中的前景对象部分和背景部分、编码并传输数据。经由网络104可以将编码的视频数据流式传送（stream）或传输到接收机106。

参考图3，接收机106包括显示器302、处理器304、存储器306、通信子系统308和I/O子系统310。处理器304优选地为智能硬件设备，例如，如由

公司、

ARM^TM制造的中央处理单元（CPU）、微控制器、专用集成电路（ASIC）、数字信号处理器（DSP）等。存储器306包括物理和/或有形的存储介质。这种介质可以采取许多形式，包括但不限于非易失性介质和易失性介质。非易失性介质包括，例如光盘和/或磁盘，如只读存储器（ROM）。说明性地，非易失性介质可以是硬盘驱动器、闪存驱动器等等。易失性介质包括但不限于各种类型的随机存取存储器（RAM）。说明性地，易失性介质可以是动态随机存取存储器（DRAM）、静态随机存取存储器（SRAM）等等。存储器306存储包含指令的计算机可读的、计算机可执行的软件代码，所述指令被配置成当其被执行时，使处理器304执行本文所描述的各种功能。所述功能实现了视频传输系统。在一些实现中，存储器306可以存储前景对象图像和背景图像。例如，存储器306可以存储前景对象的图像。存储器306还可以存储对象列表，该对象列表包括标识符、对象图像、索引和/或对应于每个检测到的前景对象的其他属性。

通信子系统308优选地为用于与其他设备（例如，在图3中所示的发射机）进行通信的硬件和/或软件的任何合适的组合。通信子系统308可以被配置成连接到例如闭环通信系统、局域网、广域网（例如，因特网）等。显示器302优选地为用于向用户显示图像的任何合适的设备，如阴极射线管（CRT）监视器、液晶显示（LCD）监视器、等离子监视器，投影仪等。I/O子系统310优选地为用于管理与输入/输出设备（如键盘、鼠标、触摸板、扫描仪、打印机、摄像机等）的通信和/或其操作的硬件和/或软件的任何合适的组合。

虽然本文所描述的各种配置针对高清晰度视频的传输，但应当认识到可以进行修改以覆盖其他环境。例如，可以进行修改以在低带宽连接上实现基于雷达、激光雷达和其他对象的检测监视。

参考图4，还参考图1和图2，用于编码视频的过程400包括示出的方框。然而，过程400仅是示例性的而非限制性的。例如可以通过添加、去除、重排和/或同时执行方框来改变过程400。例如，可以同时执行用于处理前景对象和背景的方框406和408。如所示出和所描述的过程400的其他变更仍然是可能的。

过程400可以在方框402处通过接收来自如成像设备的视频源的视频帧而开始。在方框404处，过程400应用高斯混合模型来排除静态背景图像和语义上不重要的运动的图像（例如，在风中飘动的旗子）。基于高斯模型的应用，可以在接收到的帧中识别出与帧的背景不同的前景对象（即，目标对象）。在方框406处，基于第一更新速率处理前景对象。例如，更新速率可以指定将在由接收机产生的视频流中以每秒30帧更新前景对象。作为结果，基于每秒30帧的速率生成和传输所识别的前景对象的编码的对象图像（即，编码的图像以使接收机可以接收所述图像并生成具有前景对象的视频流的方式产生并进行传输，所述前景对象以每秒30帧的速率进行更新）。也可以传输附加的信息。例如，可以在给定的帧中传输对象事件，如对象的出现、失去或运动。在方框408处，基于第二更新速率对识别作为背景的一部分的部分帧进行处理。例如，更新速率可以指定每15分钟对背景进行更新。作为结果，每15分钟产生并传输一次编码的背景图像。

参考图5，还参考图1和图3，用于解码视频的过程500包括示出的方框。然而，过程500仅是示例性的而非限制性的。例如可以通过添加、去除、重排和/或同时执行方框来改变过程500。

过程500可以在方框502处通过接收数据而开始。数据可以包括编码的图像和/或事件信息。在方框504处，过程500可以确定接收到的数据的数据类型。数据类型可以包括事件、背景、运动对象和静止对象等类型。在方框506处，基于所识别的对象类型处理接收到的数据。例如，如果数据是事件类型，那么可以从对象列表添加或去除对象，所述对象列表用于跟踪在视频流的帧内的对象。作为另一个实例，如果数据是背景类型，那么可以对数据进行解码并将其拼接（stitch）到前景对象，以便生成可以呈现给用户的视频帧。作为又一个实例，如果数据是对象类型，那么可以对数据进行解码，并与其他图像（例如，其他对象图像、背景图像等）进行拼接，以便生成可以呈现给用户的视频帧。

作为过程400和500的结果，可以通过接收机如计算机工作站向用户呈现包括多个视频帧的视频流。该视频流可以包括以第一速率进行更新的前景对象和以第二速率进行更新的背景。例如，持续20分钟的视频流可以包括编号从0到36000的帧。视频流中的运动的前景对象可以被配置成以每秒30帧的速率进行更新。同样地，由接收机生成的36000个帧中的每一个都包括更新的运动的前景对象。为了维持这样的更新速率，前景对象图像数据可由接收机以每秒30次的速率接收并处理。与此相反，在视频流中的背景可以被配置成每10分钟更新一次。因此，只有帧0、18000和36000包括对背景的更新。

可以通过查看图6-9中所示的更详细的过程得到进一步的理解。

背景编码和传输

参考图6，还参考图1和图2，用于传输背景的过程600包括所示的方框。然而，过程600仅是示例性的而非限制性的。例如可以通过添加、去除、重排和/或同时执行方框来改变过程600。例如，可以在方框616之前执行用于传输编码的图像的方框618。如所示出和所描述的过程600的其他变更仍然是可能的。

在方框602处，发射机102接收来自合适的视频源的视频帧（例如，原始视频数据、编码的视频数据）。例如，可以由成像设备202的图像传感器来捕获帧。作为另一个实例，可以通过I/O子系统210和/或通信子系统208（例如，通过子系统的以太网端口、USB端口或无线连接）来接收帧。可以以规则的间隔或以一定的帧率接收视频帧。例如，发射机可以以每秒30帧或60帧来接收帧。

在方框604处，发射机102的处理器204识别在接收到的帧中的前景对象。这样做，可以确定接收到的帧的背景部分。特别地，可以在处理器204中实现场景分析器算法。简而言之，分析器可以利用高斯混合模型来排除静态背景图像和语义上不重要的重复运动的图像（例如，在风中摇曳的树木）从而识别前景对象。高斯混合模型可以基于多条（例如，三条或更多）高斯曲线。高斯混合模型可以另外基于先前接收到的视频帧。例如，对在先前帧中发生的重复运动的帧部分（例如，像素）进行识别和检查，以确定在接收到的帧中是否存在该重复运动。尽管场景分析器被描述为利用高斯混合模型，但是可以使用在短时间内捕获稳定的像素的任何模型。

在判断框606处，处理器204执行是否应该将编码的背景图像传输到接收机106的确定。处理器204基于一组标准如预定义的更新速率作出这样的判断。说明性地，发射机102的操作者可以指定背景图像将在接收机106处每10分钟被更新一次。作为结果，处理器204每10分钟生成并发送一次编码的背景图像。处理器204可以另外地或可替换地被配置成自动地调整对背景图像进行编码和传输的速率。例如，处理器204可以被配置成基于网络104上的当前可用带宽自动地调整速率。

在判断框608处，处理器204确定当前的参考背景图像是否是可用的。例如，处理器204可以检查当前的参考背景图像是否存储在存储器206的缓冲器中。例如，当前的参考背景图像可以是先前接收到的帧的解码的背景图像。

如果处理器204确定参考背景图像是可用的，那么在方框610处，处理器204对接收到的帧的残差背景图像进行编码。具体而言，处理器204（例如，通过执行图像减法过程）确定接收到的帧的背景部分和当前的参考背景图像之间的差异。此后，处理器204使用合适的编码方案，如H.264帧内编码、JPEG（联合图像专家组）、JPEG2000等对背景部分的残差背景图像进行编码。因为残差背景图像通常包含低熵，所以可以高度压缩编码的残差背景图像。

在方框612处，处理器204解码在方框610处产生的编码的残差背景图像。此后，处理器204使用解码的残差背景图像和当前的参考背景图像生成新的参考背景图像。在生成新的参考背景之后，处理器204将图像存储在存储器206的缓冲器中。新的参考背景图像可用于随后接收到的帧的处理。通过以这种方式解码并产生新的参考背景图像，处理器204使其背景图像与在接收机106处生成的背景图像同步。更具体地说，编码和解码过程往往产生具有量化误差的图像，所述量化误差可能会导致原始图像和其解码的对应图像有所不同。为了避免这个问题并维持精确的解码，处理器204执行过程以获得与由接收机106所生成的图像相同的解码图像。

再次参考判断框608，如果处理器204确定当前的参考背景图像不可用，那么在方框614处，处理器204对接收到的帧的整个背景部分进行编码以产生编码的背景图像。处理器204可以使用常规的I帧压缩方法对背景部分进行编码。例如，可以使用H.264帧内编码、JPEG、JPEG2000等对背景部分进行编码。说明性地，可以将背景部分分成可独立地进行编码的8×8像素块。可以使用空间-频率变换如离散余弦变换（DCT）对每个块进行变换。然后，可以对变换的块进行量化，或以某种方式将其减小以降低数据量。

在方框616处，处理器204对先前在方框614处编码的背景图像进行解码。在对背景图像进行解码之后，处理器204将图像存储在存储器206的缓冲器中作为新的参考背景图像。正如所讨论的，通过以这种方式解码和生成新的参考背景图像，处理器204可以使其背景图像与接收机106生成的背景图像同步。这样做支持了视频流的精确解码。

在方框618处，处理器204基于指定的背景的更新速率（例如，5、10、15分钟）向接收机106传输编码的背景图像（例如，残差背景图像或整个的背景图像）。背景的更新速率可以比前景对象的更新速率慢。在一些实现中，可以以基于块或图像的方式更新背景图像。例如，可以将编码的残差背景图像分为几个部分或切片（slice）并将其进行传输。在不同的时间或通过不同的间隔时间向接收机106传输每个切片。例如，处理器204可以被配置成每隔10分钟为接收机106提供更新的背景图像。处理器204还可以被配置成将编码的背景图像分成5个背景切片。作为结果，处理器204在10分钟的跨度内每两分钟向接收机106传输一个背景切片。这样做，接收机106能够在指定的更新速率内获得更新的背景图像。在某些情况下，基于定义的优先规则和/或标准，处理器204可以延迟背景图像或切片的传输。例如，基于当前向接收机106传输的队列中的编码的前景对象的数量和/或带宽要求，处理器204可以延迟背景切片的传输。

处理器204通过通信子系统208传输编码的背景图像，该通信子系统208可以包括到接收机106的连接。例如，可以通过闭环通信系统将通信子系统208连接到接收机106。优选地通过合适的传输层协议如传输控制协议（TCP）或用户数据报协议（UDP）来便利编码的背景图像的传输。在一些实现中，处理器204利用接收机106检查背景图像的传输是否成功。

前景对象的编码和传输

参考图7，还参考图1和图2，用于编码和传输前景对象的过程700包括示出的方框。然而，过程700仅是示例性的而非限制性的。例如，可以通过添加、去除、重排和/或同时执行方框来改变过程700。方框702和704可以与图6中所示的方框602和604相同。

在方框702处，发射机102接收来自合适的设备的视频帧。例如，成像设备202的图像传感器可以为发射机102捕获图像数据。作为另一个实例，可以经由I/O子系统210和/或通信子系统208（例如，通过子系统的以太网端口、USB端口或无线连接）接收图像数据。可以以规则的间隔或以一定的帧率接收视频帧。例如，发射机可以以每秒30帧或60帧来接收帧。

在方框704处，发射机102的处理器204识别在接收到的视频帧中的前景对象。特别地，可以在处理器204中实现场景分析器算法。该分析器利用高斯混合模型来排除静态背景图像和语义上不重要的重复运动的图像（例如，在风中运动的树木）从而识别前景像素。高斯混合模型可以基于多条（例如，三条或更多）高斯曲线。高斯混合模型可以另外地基于先前接收到的视频帧。尽管场景分析器被描述为利用高斯混合模型，但是可以使用在短时间内捕获稳定的像素的任何模型。

处理器204使用连接的分量分析将任何所识别到的前景像素分组成斑点（blob）。分组的斑点代表在接收到的视频帧中检测到的前景对象。为了消除帧中的噪声，处理器204去除低于特定大小的阈值的斑点。

每个前景对象都是对在接收到的视频帧中的实际对象的估计。具体而言，对象可以是包括帧中的实际对象和实际背景部分的有界矩形或框。例如，接收到的帧可以包括飞行的鸟。鸟的对象表示可以是包括鸟和其周围的部分（例如天空部分）的有界的框。

在一些实现中，分析器计算所识别的前景对象的元数据。例如，该元数据包括图像平面中的对象的位置或坐标、对象的尺寸（例如，以像素为单位的宽度和高度）、对象的速度、对象的运动方向等。

在方框706处，处理器204跟踪任何所识别到的前景对象。特别地，处理器204通过向对象分配计算出的元数据来标记任何所识别到的前景对象。

基于所述标记，处理器204尝试使每个检测到的对象与在先前接收到的帧中所识别的对象进行映射。例如，处理器204可以比较位置、速度、运动方向、颜色、对象大小等来映射对象。说明性地，处理器204可以基于对象的上升轨迹估计：对象将是低于其在先前接收到的帧中的当前位置的估计的50个像素。基于该确定，处理器204检查在先前接收到的帧中，对象是否在估计的位置处被示出。

通过跟踪所识别的前景对象，处理器204还确定是否丢失了任何对象。更具体地，处理器204识别存在于先前接收到的帧中且不再存在于接收到的帧中的对象（例如，对象已经离开该帧的视场，运动到另一个对象的后面等）。处理器204可以以任何合适的方式识别丢失的对象。例如，处理器204可以维持包含存在于先前接收到的帧中的对象的信息的对象列表。如果在当前帧中没有发现列表中的对象，那么处理器204确定该对象已经丢失。作为另一个实例，处理器204可以比较先前的帧的前景对象和所接收到的帧的前景对象。基于该比较，处理器204识别在接收到的帧中丢失的任何对象。

在一些实现中，在跟踪所识别到的前景对象时，处理器204附加地过滤掉被认为是噪声的对象。更具体地，处理器204可以延迟对新检测到的前景对象的处理，直到处理器204在阈值数量的连续帧中检测到前景对象的存在。例如，处理器204可以被配置成延迟一个帧的周期。在操作过程中，新的前景对象可能出现在第1帧中。在第1帧中检测到前景对象之后，处理器204在处理对象之前等待并确定在第2帧中是否检测到相同的对象。以这种方式，可以对通常在一帧或两帧之后消失的噪声进行过滤。

在方框708处，处理器204处理所识别的和丢失的前景对象。例如，处理器204可以为被识别为不存在于接收到的帧内的每个对象生成丢失事件。作为另一个实例，处理器204可以确定特定的所识别到的对象是否是运动的、静止的、新的（即，未在先前帧中被识别到）等等。另外，处理器204可以计算、编码和解码所识别到的对象的对象图像。处理器204也可以基于运动信息确定所识别到的对象的更新速率。说明性地，如果所识别到的对象正在非常缓慢地运动，那么处理器204可以确定可以以较慢的速率更新对象的图像（例如，不需要频繁地传输对象的图像和/或不需要传输对象的当前图像）。此外，处理器204可以基于指定的更新速率将每个对象的数据传输至接收机106。处理器204也可以顺序或并行地处理所识别到的和丢失的前景对象。如图8中所示的过程800更详细地示出了对所识别到的前景对象和对丢失的前景对象的处理。

前景对象的处理

参考图8，还参考图1和图2，用于支持对象的编码和传输的过程800包括示出的方框。然而，过程800仅是示例性的而非限制性的。例如，可以通过添加、去除、重排和/或同时执行方框来改变过程800。例如，可以在方框820之前执行用于传输数据的方框822。如所示出和所描述的过程800的其他变更仍然是可能的。

在判断框802处，处理器204基于是否丢失对象的确定来启动处理。如果对象丢失，那么在方框804处，处理器204生成对象的丢失事件（例如，“对象_离开_场景”事件）。在一些实现中，相应地更新对应于丢失对象先前存在的位置的背景区域。区域性背景更新过程类似于图6中所示的背景的更新（通过对整个或残差背景图像进行编码），不同的是只对背景的区域进行编码。关于将要更新的背景区域的位置的信息与编码的背景一起传输。

如果对象没有丢失，在判断框806处，处理器204确定对象是固定或是静止的。处理器204通过使用对象的先前计算出的元数据（包括运动和位置信息）可以确定对象是否静止。例如，处理器可以使用位置信息将接收到的帧中的对象的坐标与先前接收到的帧中的对象的坐标进行比较。

在判断框808处，处理器204确定是否先前跟踪过前景对象。处理器204可以以任何合适的方式确定是否先前跟踪过对象。例如，处理器204可以维持包含存在于先前接收到的帧中的对象的信息的对象列表。为了确定是否先前跟踪过对象，处理器204检查该对象是否存在于列表中。作为另一个实例，处理器204通过将先前帧和当前帧进行比较可以确定是否先前跟踪过对象。特别地，处理器204检查该对象是否出现在这两个帧中。

在判断框808处，如果处理器204确定先前已跟踪过前景对象，那么处理器204在方框810处生成静止事件（例如，“对象_静止”事件）。因为对象当前是静止的，所以不需要立即传输对象的编码图像。相反，可以基于较慢的速率或与背景相同的速率传输静止的对象。用于传输的对静止的对象的处理可以以类似于方框816、818、820和/或822中所示的方式进行，不同的是编码和解码可以基于先前存储的图像（例如，对象的先前存储的图像、先前存储的帧）而不是参考背景图像。在一些实现中，先前存储的图像可以是先前重构或生成的图像。在一些实现中，静止的对象可以被合并到背景中或被认为是背景的一部分。当这种情况发生时，相应的背景区域被相应地更新。区域性背景更新过程类似于图6中所示出的背景的更新（通过对整个或残差背景图像进行编码），不同的是只对背景的区域进行编码。关于更新的背景区域的位置的信息与编码的背景一起传输。

再次参考方框806，如果处理器204确定前景对象不是静止的，那么在方框812处，处理器204确定是否先前跟踪过对象。如果在方框812处处理器确定先前未跟踪过对象，那么在方框814处，处理器204生成进入事件（例如，“对象_进入_场景”事件）。

在方框816处，处理器204基于当前的参考背景图像计算前景对象的残差对象图像。特别地，处理器204（例如，通过减法过程）确定表示前景对象的像素块和在参考背景图像中的相应的像素块之间的差异。在方框818处，处理器204对残差对象图像进行编码。处理器204可以使用任何合适的编码方案对残差对象进行编码。例如，处理器204可以使用JPEG、JPEG200或H.264帧内编码。

在可替换的实现中，处理器204可以基于先前重构的图像（例如，对象的先前重构的图像、先前重构的帧）计算残差对象图像。特别地，因为在接收到的帧和先前的帧中的对象的位置是已知的，所以处理器204可以估计对象运动的全局运动矢量。基于该全局运动估计，处理器204可以通过例如SAD或基于8×8图像块的相关性搜索来估计局部运动矢量。此后，可以利用MPEG-4的霍夫曼码对局部运动矢量进行编码。基于矢量估计，随后可以基于先前重构的图像生成残差对象图像。可以使用任何合适的编码方案如基于MPEG的编码和/或H.264帧间编码，对残差对象图像进行编码。通过使用对象的全局运动矢量，对象图像块的局部运动矢量可以小于没有全局运动估计的图像块。

在方框820处，处理器204对先前在方框818处编码的残差对象图像进行解码。此后，根据不同的编码模式可选地基于解码的残差对象图像和参考背景图像或先前帧，处理器204（例如，通过加法过程）生成重构的对象图像。在生成重构的对象图像之后，处理器204可以将对象图像存储在存储器206中（例如，存储在存储器206中的对象列表中）。通过解码并生成重构的对象图像，处理器204可以使对象图像与在接收机106处解码并由接收机106生成的对象图像同步。

在方框822处，处理器204基于指定的前景对象的更新速率（例如，每秒15、24、29、30或60帧）将数据传输至接收机106。传输的数据可以包括事件信息（例如，对象已经丢失，新的对象已进入帧等）和/或编码的图像数据。例如，可以以每秒30帧的速率向用户呈现视频流。作为结果，更新的前景对象图像以1/30秒的间隔被发送至接收机106。

在一些实现中，处理器204可以经由通信子系统208传输图像数据，该通信子系统208可以包括到接收机106的连接。例如，通信子系统208可以包括通过广域网（例如，因特网）到接收机106的连接。可以通过任何合适的传输层协议如TCP或UDP来便利编码的背景图像的传输。在一些实现中，处理器204利用接收机106检查对象图像的传输是否成功。

在一些实现中，处理器204可以基于运动和/或大小的阈值来传输对象的图像数据。例如，如果对象在帧之间已经运动了至少20个像素或者如果对象已经从50个像素大小变到100个像素大小，那么处理器204可以被配置成仅传输对象的编码的图像数据。处理器204可以基于当前带宽的可用性自动地修改运动/大小的阈值。

在某些实现中，处理器204可以将图像数据（例如，编码的对象图像、背景图像等）存储在传输缓冲器中。在带宽没有高到足以传输被标记要发送到接收机106的所有图像数据期间，缓冲器可用于暂时性地存储图像数据。例如，如果最近处理的帧包括大量的运动，那么处理器204可能不能向接收机106传输所有的图像数据。

在一些实现中，处理器204可以附加地设置编码的对象和背景图像的传输优先级。例如，运动对象的图像可以与高优先级相关联。静止对象和背景的图像可以与较低的优先级相关联。此后，处理器204可以基于定义的优先级传输图像（例如，高优先级数据在低优先级数据之前被发送）。在一些实现中，处理器204可以基于数据存在于传输缓冲器中的时间来提高图像的优先级。例如，如果图像已经在缓冲器中超过两分钟，那么处理器204就可以提高图像的优先级。

应当理解的是，可以同时或顺序地执行图6、7和8中所示的过程。

视频数据的解码

参考图9，还参考图1和图3，支持视频数据的解码的过程900包括示出的方框。然而，过程900仅是示例性的而非限制性的。例如，可以通过添加、去除、重排和/或同时执行方框来改变过程900。

在方框902处，接收机106接收来自发射机102的数据。所述数据可以包括事件信息（例如，进入事件、丢失事件等）、编码的残差对象图像、编码的残差背景图像、整个编码的背景图像等等。在判断框904处，接收机106的处理器304确定接收到的数据的数据类型（例如，事件、背景、运动对象、静止对象）。

如果在判断框904处，处理器304确定接收到的数据属于事件数据类型，那么处理器304在方框906处识别通过数据所指示的特定事件。例如，接收到的数据可以指示对象已经进入当前帧（例如，“对象_进入_场景”事件）。作为另一个实例，接收到的数据可以指示对象已经离开当前帧（例如，“对象_离开_场景”事件）。在方框908处，处理器304基于由接收到的数据所指示的事件，将对象添加到对象列表中或从对象列表中去除对象。例如，处理器304可能已经确定接收到的事件数据指示对象已经进入了当前帧。基于该确定，处理器304将对象添加到对象列表中。作为另一个实例，处理器304可能已经确定接收到的数据指示对象已经离开了场景。作为结果，处理器304将对象从对象列表中去除。

再次参考判断框904，如果处理器304确定从发射机102接收到的数据是背景类型（例如，编码的残差背景图像或整个编码的背景图像），那么在判断框910处，处理器304确定是否应该执行帧内编码。

如果处理器304确定要执行帧内编码（即，接收到的数据是整个编码的背景图像），那么在912处处理器304对背景图像进行解码，以产生解码的背景图像。此后，处理器304将解码的背景图像存储在存储器306的参考背景图像缓冲器中。这样做，解码的背景图像代替当前的参考背景图像，并且在后来的处理中被用作参考背景图像（例如，用于拼接图像以呈现给用户，用于解码随后接收到的数据等）。

如果处理器304确定不执行帧内编码（即，接收到的数据是残差背景图像），那么在914处，处理器304对残差背景图像进行解码，以产生解码的残差背景图像。此后，处理器304使用解码的残差背景图像和当前的参考背景图像生成新的参考背景图像。处理器304随后将新的参考背景图像存储在存储器306的参考背景图像缓冲器中。这样做，新的参考背景图像代替当前的参考背景图像，并在后来的处理中被用作参考背景图像。

再次参考判断框904，如果处理器304确定从发射机102接收到的数据是运动对象类型，那么在方框916处，处理器304对数据（为残差对象图像）进行解码，以产生解码的残差对象图像。在方框918处，根据不同的编码模式，可选地基于解码的残差对象图像和当前的参考背景图像或先前帧，处理器304（例如，通过加法过程）生成重构的对象图像。当生成对象图像时，重构的对象图像可以被存储在存储器306的缓冲器中。

再次参考判断框904，如果处理器304确定从发射机102接收到的数据是静止对象类型，那么在方框920处，处理器304对数据（可能为残差对象图像）进行解码，以产生解码的残差对象图像。在方框922处，基于解码的残差对象图像和先前重构的图像（例如，对象的先前重构的图像、先前重构的帧），处理器304（例如，通过加法过程）生成重构的对象图像。一种再现静止对象的可替代的方式是直接使用来自对象列表的相应的对象图像。在一些实现中，当生成对象图像时，重构的对象图像可以被存储在存储器306的缓冲器中。

在方框924处，处理器304将生成的对象图像存储在存储器306中的对象列表中或引用存储器306中存储的对象列表中的生成的对象图像。在方框926处，处理器304将对象列表中的任何对象拼接至当前的参考背景图像，以生成视频帧。此后，处理器304将视频帧提供给例如显示器302，以呈现给用户。在一些实现中，处理器304等待，直到在执行方框926之前处理了在一定的时间段接收到的所有数据。说明性地，在1/30秒的时间段，处理器304可能接收包括第一编码的对象图像和第二编码的对象图像的两条视频数据。在将图像拼接到参考背景图像（例如，该参考背景图像可能在五分钟之前就已被接收、解码和存储）并向用户呈现生成的视频帧之前，接收机106可处理每个图像（例如，解码等）。

关于说明书的考虑

可以根据具体的要求对所描述的配置进行实质性的改变。例如，也可以使用定制的硬件，和/或特定的元件可以用硬件、软件（包括诸如小应用程序的便携式软件等）或两者来实现。另外，可以采用与诸如网络输入/输出设备的其他计算设备的连接。

如本文所用的术语“机器可读的介质”和“计算机可读的介质”，是指参与提供使机器以特定的方式运行的数据的任何介质。物理和/或有形的计算机可读的介质的普通形式包括，例如软盘、柔性盘、硬盘、磁带或任何其他磁性介质、CD-ROM、任何其他光学介质、打孔卡片、纸带、任何其他具有孔状图案的物理介质、RAM、PROM、EPROM、FLASH-EPROM、任何其他存储器芯片或盒式磁带、以下描述的载波或计算机可以从其读取指令和/或编码的任何其他介质。各种形式的计算机可读的介质可参与传送一个或多个指令的一个或多个序列到处理器，如分别为发射机102和接收机106的处理器204和304，用于执行。仅仅通过举例的方式，指令可以最初承载在发射机102的磁盘和/或光盘上。发射机102可将指令加载到其动态存储器中，并通过传输介质将指令作为信号发送，以由接收机106接收和/或执行。根据本发明的各种配置，这些信号可能是电磁信号、声信号、光信号等形式，是可在其上对指令进行编码的载波的所有实例。

上面所讨论的方法、系统和设备都是实例。各种配置都可以酌情省略、替代或添加各种步骤或组件。例如，在可替代的配置中，可以以与所述次序不同的次序执行所述方法，且可以添加、省略或组合各步骤。另外，可以在各种其他配置中组合针对特定配置描述的特征。可以用类似的方式组合各配置的不同方面和元件。另外，技术在发展，因而许多元件只是实例，并且不限制本公开或权利要求的范围。

在说明书中给出了具体的细节以提供示例性配置（包括实现）的透彻理解。然而，可以在没有这些具体细节的情况下实践配置。例如，为了避免使配置模糊，公知的电路、过程、算法、结构和技术没有将不必要的细节示出。该说明书只提供示例性的配置，并且不限制权利要求的范围、适用性或配置。相反，配置的前述说明将为本领域的技术人员提供能够实现所描述的技术的说明。在不脱离本公开的精神或范围的情况下，可以对元件的功能和布置作出各种改变。

此外，前述说明详述了视频传输系统。然而，本文所描述的系统和方法可以适用于其他的传输系统。

另外，可以将配置描述成用流程图或方框图绘制的过程。虽然每个人都可以将操作描述为有序的过程，但是许多操作可以并行或同时执行。此外，操作的次序可以被重新排列。过程可以具有未包括在图中的额外步骤。此外，可以通过硬件、软件、固件、中间件、微代码、硬件描述语言或其任意组合来实现方法的实例。当用软件、固件、中间件或微代码实现时，执行必要任务的程序代码或代码段可以被存储在非临时性计算机可读的介质中，例如存储介质。处理器可以执行所描述的任务。

已经描述了几种示例性的配置，在不脱离本公开的精神的情况下，可以使用各种修改、可替代的构造和等同物。例如，上述元件可以是较大系统的组件，其中，其他规则可以优先于本发明的应用或修改本发明的应用。另外，在考虑以上元件之前、期间或之后，可以执行若干步骤。因此，上述描述并不限定权利要求书的范围。

Claims

1.一种包括处理器的传输系统，被配置成：

接收多个帧；

分析所述多个帧；

识别与背景部分不同的前景对象部分；

传输所述多个帧中的每一个的前景对象信息；以及

选择性地传输少于所有所述多个帧的背景信息，其中，所述背景信息被以周期性速率传输。

2.根据权利要求1所述的系统，其中，所述前景对象部分包括语义上重要的运动对象。

3.一种通过网络传输视频的方法，计算机设备能够与所述网络连接，所述方法包括：

接收来自视频源的多个视频数据；

分析所述多个视频数据；

识别所述多个视频数据中的与背景部分不同的前景对象部分的存在；

基于第一更新速率处理与至少一个所识别的前景对象部分相关联的数据；

基于第二更新速率处理与所述背景部分相关联的数据；

基于所述第一更新速率传输与至少一个所识别的前景对象部分相关联的数据；以及

基于所述第二更新速率传输与所述背景部分相关联的数据，其中，所述第一更新速率大于所述第二更新速率。

4.根据权利要求3所述的方法，其中，识别所述前景对象部分包括基于高斯混合模型识别语义上重要的运动。

5.根据权利要求4所述的方法，其中，如果视频数据部分包括语义上重要的运动，那么所述部分被识别为前景对象部分。

6.根据权利要求3所述的方法，其中，处理与所述至少一个前景对象部分相关联的数据包括确定所述至少一个前景对象部分是否是噪声。

7.根据权利要求3所述的方法，其中，所述第一更新速率为每秒30帧。

8.根据权利要求3所述的方法，其中，处理与所述至少一个前景对象部分相关联的数据包括：

计算所述前景对象部分的残差对象图像；

对所述残差对象图像进行编码，以产生编码的残差对象图像；

对所述编码的残差对象图像进行解码，以产生解码的残差对象图像；以及

基于所述解码的残差对象图像生成对象图像。

9.根据权利要求8所述的方法，其中，所述残差对象图像基于参考背景图像或先前重构的帧。

10.根据权利要求3所述的方法，其中，处理与所述背景部分相关联的数据包括：

基于第一参考背景图像计算背景部分的残差背景图像；

对所述残差背景图像进行编码，以产生编码的残差背景图像；

对所述编码的残差背景图像进行解码，以产生解码的残差背景图像；

基于所述解码的残差背景图像和所述第一参考背景图像生成第二参考背景图像。

11.根据权利要求3所述的方法，还包括传输事件数据，其中，所述事件数据指示前景对象部分是否已经进入或离开由所述多个视频数据所表示的场景。

12.根据权利要求3所述的方法，其中，传输与所述背景部分相关联的数据包括：

将背景部分的残差背景图像分成多个切片；以及

每隔一段时间传输所述多个切片中的每个切片。

13.根据权利要求3所述的方法，其中，传输与所述背景部分相关联的数据包括：在确定所述至少一个前景对象是静止的或者确定先前所识别的前景对象已经离开了由所述多个视频数据所表示的场景之后，传输残差背景区域图像和所述区域图像的位置信息。

14.一种编码有一个或多个计算机可读指令的非临时性计算机可读介质，当所述指令由处理器执行时，使所述处理器执行以下操作：

分析来自多个图像的视频数据；

识别所述视频数据中的与背景部分不同的前景对象部分的存在；

以第一更新速率传输与至少一个所识别的前景对象部分相关联的所述视频数据的、不同图像的第一部分；以及

以第二更新速率传输与所述背景部分相关联的所述视频数据的、不同图像的第二部分，其中，所述第一更新速率大于所述第二更新速率。

15.根据权利要求14所述的计算机可读介质，其中，使所述处理器识别前景对象部分的存在的指令使所述处理器使用高斯模型识别语义上重要的运动。

16.根据权利要求15所述的计算机可读介质，其中，使所述处理器识别前景对象部分的存在的指令使所述处理器将语义上重要的运动的区域识别为前景对象部分。

17.根据权利要求14所述的计算机可读介质，其中，所述第一更新速率为每秒30帧。

18.根据权利要求14所述的计算机可读介质，其中，使所述处理器传输与所述至少一个所识别的前景对象部分相关联的数据部分的指令使所述处理器执行以下操作：

计算所述前景对象部分的残差对象图像；

对所述编码的残差对象图像进行解码，以产生解码的残差对象图像；

基于所述解码的残差对象图像生成对象图像；以及

传输所述编码的残差对象图像。

19.根据权利要求18所述的计算机可读介质，所述残差对象图像是根据参考背景图像或先前重构的帧计算出来的。

20.根据权利要求14所述的计算机可读介质，其中，使所述处理器传输与所述背景部分相关联的数据部分的指令使所述处理器执行以下操作：

基于第一参考背景图像计算所述背景部分的残差背景图像；

基于所述解码的残差背景图像和所述第一参考背景图像生成第二参考背景图像；以及

传输所述编码的残差背景图像。

21.根据权利要求20所述的计算机可读介质，其中，使所述处理器传输所述编码的残差背景图像的指令使所述处理器执行以下操作：

将所述编码的残差背景图像分成多个切片；以及

每隔一段时间传输所述多个切片中的每个切片。

22.一种编码有一个或多个计算机可读的指令的非临时性计算机可读介质，当所述指令由处理器执行时，使所述处理器执行以下操作：

确定多个接收到的数据中的每一个的数据类型，其中，以第一更新速率接收所述多个接收到的数据中与运动的前景对象数据类型相关联的数据，并且以第二更新速率接收所述多个接收到的数据中与背景数据类型相关联的数据，其中，所述第一更新速率大于所述第二更新速率；

基于确定的数据类型来处理所述多个接收到的数据中的每一个；以及

使用基于与第一时间相关联的第一视频帧的运动的前景对象数据和基于与第二时间相关联的第二视频帧的背景数据来生成至少一个视频帧，其中，所述第一时间晚于所述第二时间。

23.根据权利要求22所述的计算机可读介质，其中，使所述处理器基于确定的数据类型处理数据的指令使所述处理器执行以下操作：

对所述数据进行解码，以产生解码的对象图像；以及

将所述解码的对象图像存储在对象列表中。