CN101427573A

CN101427573A - 用于可缩放视频编码比特流的稀疏化的系统和方法

Info

Publication number: CN101427573A
Application number: CN200780005798.7A
Authority: CN
Inventors: D·洪; T·维格安德; A·埃莱夫塞里埃兹; O·夏皮罗
Original assignee: Vidyo Inc
Current assignee: Vidyo Inc
Priority date: 2006-02-16
Filing date: 2007-02-16
Publication date: 2009-05-06
Anticipated expiration: 2027-02-16
Also published as: CN101427573B; CA2640246C; AU2007214423C1; EP2360843A3; WO2007095640A3; AU2007214423B2; WO2007095640A2; CA2640246A1; EP2360843A2; EP1989877A2; JP2009540625A; EP1989877A4; AU2007214423A1

Abstract

一种尤其提供极低的端对端延迟以及较高的可缩放性特征的视频会议系统。系统容纳不同接收机和网络以及诸如基于网际协议的那些网络的网络的尽力特性。系统依赖于可缩放视频编码以提供源视频信号在多个时间、质量和空间分辨率下的经编码的分辨率。这些分辨率由在每个最终用户编码器处创建的不同比特流分量来表示。称为SVC稀疏化的系统架构和过程允许将数据分成用于在其它画面中进行预测的数据和不用于在其它画面中进行预测的数据。可在视频会议端点或在MCU处执行的SVC稀疏化过程可选择性地移除或用更少的比特替换不用于在来自所传送的比特流的其它画面中进行预测的数据。

Description

用于可缩放视频编码比特流的稀疏化的系统和方法

相关申请的交叉引用

本申请要求2006年2月16日提交的美国临时专利申请S/N.60/774,094的权益。此外，本申请涉及国际专利申请No.PCT/US06/28365、PCT/US06/028366、PCT/US06/028367、PCT/US06/028368和PCT/US06/061815，以及美国临时专利申请No.60/786,997、60/827,469、60/778,760和60/787,031。所有前述优先权以及共同转让的相关申请由此通过引用全部结合于此。

发明领域

本发明涉及多媒体和电信技术。具体地，本发明涉及对电子通信网络上的用户端点之间的视频会议使用可缩放视频编码技术的系统和方法，该电子通信网络可提供不同水平的服务质量(QoS)，并且用户端点可使用不同能力的接入设备和通信信道连接到该电子网络。

发明背景

现代视频会议系统允许两个或多个远程参与方/端点彼此实时地传送视频和音频。当仅涉及两个远程参与方时，可使用两个端点之间的适当电子网络上的直接通信传输。当涉及多于两个的参与方/端点时，多点会议单元(MCU)或桥接器通常被用于连接到所有参与方/端点。MCU协调可例如以星形配置连接的多个参与方/端点之间的通信。MCU也可用于点对点通信以提供防火墙穿越、速率匹配和其它功能。

视频会议系统要求每个用户端点配备有可编码和解码视频和音频两者的一个设备或多个设备。编码器用于将本地音频和视频信息转换成适于传送给其他方的形式，而解码器用于解码和显示从其它视频会议参与方接收到的视频图像，或者回放从其它视频会议参与方接收到的音频。传统上，最终用户自身的图像也在他/她自己的屏幕上显示以提供反馈，以便确保例如个人在视频窗口中的适当定位。

当存在多于两个参与方(以及在仅具有两个参与方的某些情形中)，一个或多个MCU通常被用于协调各方之间的通信。MCU的主要任务是混合传入的音频信号，使得单个音频流被发送给所有参与方，并且将传入视频信号混合成单个视频信号以使得在此经混合的视频信号呈现的显示帧的相应部分中显示每个参与方。

视频会议系统可使用专门在给定空间分辨率和比特率下提供单个比特流的传统视频编解码器。例如，传统视频编解码器——其比特流和解码操作在ITU-T推荐H.261；ITU-T推荐H.262|ISO/IEC 13818-2(MPEG-2视频)Main Profile(主型)；ITU-T推荐H.263基线型；ISO/IEC 11172-2(MPEG-1视频)；ISO/IEC 14496-2简单型或改进简单型；ITU-T推荐H.264|ISO/IEC14496-10(MPEG4-AVC)基线型或主型或高级型中标准化——专门以给定空间分辨率和比特率提供单个比特流。在使用传统视频编解码器的系统中，如果与原始经编码的空间分辨率或比特率相比，经编码的视频信号(例如，在接收器端点处)需要较低空间分辨率或较低比特率，则全分辨率信号必须以合需的空间分辨率和比特率来接收、解码、潜在可能的下缩放、和重编码。解码、潜在可能的下采样、以及重编码的过程需要相当多的计算资源，并且通常对视频信号添加相当主观的畸变以及对视频传输添加延迟。

已明确针对异种环境开发的视频压缩技术是可缩放编码。在可缩放编解码器中，对给定源视频信号生成两个或多个比特流：基层和一个或多个增强层。基层在给定比特率、空间和时间分辨率下提供源信号的基本表示。在给定空间和时间分辨率下的视频质量与比特率成比例。增强层提供可用于增加视频质量、空间和/或时间分辨率的附加比特。

尽管可缩放编码已成为诸如ITU-T推荐H.262|ISO/IEC 13818-2(MPEG-2视频)SNR可缩放或空间可缩放或高级型等标准的一部分，但是其尚未投入市场。与可缩放编码相关联的增加的成本和复杂度、以及缺少适于视频的基于IP通信信道的普遍使用已成为对实际视频会议应用广泛采用基于可缩放编码技术的极大障碍。

现在，通过引用全部结合于此的共同转让的国际专利申请PCT/US06/028365公开了专用针对实际视频会议应用的可缩放视频编码技术。可缩放视频编码技术或编解码器实现视频会议系统的新颖架构，在通过引用全部结合于此的共同转让的国际专利申请PCT/US06/028366、PCT/US06/028367、PCT/US06/027368、PCT/US06/061815和PCT/US06/62569中进一步描述了该架构。

PCT/US06/028366和PCT/US06/62569中描述的可缩放视频编码服务器(SVCS)和合成可缩放视频编码服务器(CSVCS)MCU结构使得传入视频信号能够根据接收参与方的需求适应性地调整为所请求的视频分辨率的传出视频信号。与传统MCU相比，SVCS和CSVCS架构仅要求较少部分的计算资源，并且完全保持输入视频质量，但是仅在传输路径中添加较少部分的延迟。

目前，正对提供比先前标准化的可缩放视频编解码器更有效的折衷的ITU-T推荐H.264|ISO/IEC14496-10的扩展进行标准化。这种扩展称为SVC。

SVC比特流通常表示可各自被解码的多个时间、空间和SNR分辨率。多个分辨率由基层网络抽象层(NAL)单元和增强层NAL单元来表示。相同信号的多个分辨率呈现统计依存性并可用预测来高效地编码。针对宏块模式(在帧内的情形中为mb_type(宏块_类型)和预测模式)、运动信息(运动矢量、sub_mb_type(子_宏块_类型)和画面参考索引)、以及增强空间或SNR可缩放性的速率-失真性能的帧内内容和帧间编码残差来进行预测。以上所描述的每个要素的预测在增强层中通过标志来发信号通知，即，在解码当前层时仅需要发信号通知用于在较低层中预测的数据。

宏块模式预测是基于宏块来切换的，指示在传送新的宏块模式(如在H.264中)与使用参考中的宏块模式之间的选择。在SVC中，参考可来自相同层，但是也可以是较低层的宏块。

运动信息预测是基于宏块或8x8块在画面间运动矢量预测(如在H.264中)或来自参考的层间运动矢量预测(在SVC的情形中)之间切换。对于后一预测类型，来自基层或具有较高优先级的层的运动信息被重用(用于SNR可缩放性)或被缩放(用于空间可缩放性)作为预测器。除预测切换之外，可传送运动矢量改进。

基于宏块接通/切断的帧间编码残差预测重用(用于SNR可缩放性)或上采样(用于空间可缩放性)来自基层或具有较高优先级的层的帧间编码残差，以及作为SNR增强被添加到预测器的潜在的残差信号。

类似地，基于宏块接通/切断的帧内内容预测直接重用(用于SNR可缩放性)或上采样(用于空间可缩放性)来自其它画面的经帧间编码的信号作为来自基层或具有较高优先级的预测，以及作为SNR增强被添加到预测器的潜在的残差信号。

如本领域中已知的，SVC比特流可在多个时间、空间和SNR分辨率下被解码。在视频会议中，参与方仅对特定分辨率感兴趣。因此，解码此分辨率所需的数据必需存在于接收到的比特流中。在从传送参与方到接收参与方的路径中的任何点处——包括传送参与方的编码器且典型地在SVCS/CSVCS处——可丢弃所有其它数据。然而，当预计有数据传输差错时，包括用于帮助差错恢复和差错隐藏的附加数据(例如，基层信号的部分)可能是有益的。

对于比当前在接收机处的经解码的分辨率更高的分辨率，全部分组(NAL单元)可被丢弃(通常由SVCS/CSVCS)，以使得在传送或发送到接收机的比特流中仅剩下包含当前经解码的分辨率的分组。此外，当前分辨率的解码所不依赖的分组可被丢弃，即使在这些分组被指派给较低的分辨率时也是如此。对于以上两种情形，高层语法元素(来自NAL报头信息)可用于标识哪些分组可被丢弃。

现在考虑对视频信号使用SVC编码技术的视频系统的替换或改进架构。具体地，关注在处理SVC比特流时提供灵活性的架构。

发明概要

提供了在处理SVC比特流时提供灵活性的可缩放视频会议系统和方法(“SVC稀疏化”)。该系统架构实现视频会议应用的可缩放性支持(即，可解码的视频分辨率的数目)、差错弹性和编码效率的权衡。提供稀疏化单元(TU)或处理块来实现视频会议系统中的SVC稀疏化处理。

在基于SVC稀疏化的视频会议系统中，每个端点/参与方向网络MCU/SVCS/CSVCS传送可缩放比特流(基层加上一个或多个增强层，例如使用SVC编码)。传输是使用相应数目的物理或虚拟信道来执行的。

在基于SVC稀疏化的替换性视频会议系统中，不存在MCU/SVCS/CSVCS，并且第一视频会议系统中在MCU/SVCS/CSVCS处进行的操作是在传送视频编码器处进行的。该替换性视频会议系统可适用于视频会议或进行流送的多播环境，其中编码包括可缩放实时编码器或文件。

在基于SVC稀疏化的第一视频会议系统中，MCU/SVCS/CSVCS可根据基于特定参与方/端点位置的特性和/或设置的要求来选择或处理来自每个参与方/端点的可缩放比特流的部分。该选择可基于例如参与方的带宽和期望的视频分辨率。

MCU/SVCS/CSVCS将所选择的可缩放比特流部分聚集或合成为可由一个(或多个)解码器解码的一个(或多个)视频比特流。

在此方面，SVCS/CSVCS不需要或需要最少的信号处理；SVCS/CSVCS可简单地读取传入数据的分组报头，并选择性地将适当分组复用成输出比特流的接入单元并将其传送到参与方的每一个。

或者，MCU/SVCS/CSVCS可处理传入比特流的部分并在压缩域中更改分组的内容，并且选择性地将适当分组复用成输出比特流的接入单元并将其传送到参与方的每一个。

在SVC稀疏化架构中，仅在当前经解码的分辨率中用于预测的数据被传送到视频会议环境中的端点。相反，未在当前经解码的分辨率中用于预测的数据不被传送到端点，而是被丢弃。

为了方便起见，与在SVC稀疏化架构中选择性地丢弃和传送数据以及架构本身相关联的操作或处理在本文中都被称为SVC稀疏化。

SVC稀疏化以两种方式来进行：通过语法元素的替换(“替换稀疏化”)或移除它们(“移除稀疏化”)。

通过解析和重新编码受影响的NAL单元的比特流来进行SVC稀疏化处理。

SVC稀疏化可应用到可缩放视频编码中的所有切换预测器，诸如宏块模式、运动信息、层间编码残差和层内内容。

可在各个实施例中进行SVC稀疏化，从而权衡SVCS/CSVCS的计算能力以及编码器—SVCS/CSVCS之间的带宽。SVC稀疏化可或者在SVC编码器或者在MCU/SVCS/CSVCS处执行。

SVC稀疏化被视为编码效率与差错弹性/随机接入之间的权衡。一方面，SVC稀疏化消去进行解码不需要的信息，由此提高编码效率。另一方面，SVC稀疏化同时消去差错弹性/随机接入所必需的冗余。

考虑到其特性，在向接入单元选择性的应用SVC稀疏化时可平衡权衡。作为示例，对于其差错弹性或随机接入特性很重要的接入单元，可不使用SVC稀疏化。相反，对于其差错弹性或随机接入特性并非很重要的其它接入单元，可有益地使用SVC稀疏化。

根据本发明的的视频会议系统的一示例性实施例可包括：(1)提供区分型服务质量(QoS)的网络，例如，对要求总带宽的部分提供高可靠性信道；(2)在不同传输比特率级下在时间、质量或空间分辨率方面提供可缩放性的视频编码技术(诸如国际专利申请PCT/US06/028365中公开的技术)；(3)称为SVCS/CSVCS的新型MCU(诸如国际专利申请PCT/US06/028366和PCT/US06/62569中所公开的MCU)，它可以最小延迟和极低的处理成本执行其协调功能；以及(4)最终用户终端，它可以是专用硬件系统、数字信号处理器或能够运行视频解码器的多个实例和视频编码器的一个实例的通用PC。

此外，传统MCU以及SVCS和CSVCS(在国际专利申请PCT/US06/028366、PCT/US06/62569和PCT/US06/061815以及临时美国专利申请60/778,760和60/787,031中公开的)的功能可与本文所述的SVC稀疏化功能以各种组合整合在单个系统中。MCU、SVCS以及CSVCS和SVC稀疏化功能可物理地位于同一系统单元(例如，图6中的稀疏化单元600)上或分布于不同的系统单元上，以及不同的物理位置处。例如，视频会议系统可对视频会议会话的音频分量使用传统MCU，而用具有SVC稀疏化的SVCS/CSVCS来处理视频分量。在此系统中，最终用户终端需要单个音频解码器。

在此针对SVC稀疏化功能描述的附加处理可对SVCS/CSVCS的功能进行补充。SVCS/CSVCS的所有功能和优点得到保持，但是取代向每个端点发送全部SVC比特流，发送的各个流具有潜在由SVC稀疏化缩减的比特率。

附图说明

根据以下优选实施例的详细描述以及附图，本发明的其它特征、特性和各个优点将变得更显而易见，在附图中：

图1是示出根据本发明的原理的视频会议系统的示例性架构的框图；

图2是示出根据本发明的原理的最终用户终端的示例性架构的框图；

图3是示出根据本发明的原理的用于空间或SNR分层化的示例性分层画面编码结构的框图；

图4是示出根据本发明的原理的用于时间分层化的示例性线程化分层画面编码结构的框图；

图5是示出根据本发明的原理的用于基层和空间层的具有不同的预测路径的空间或SNR分层化的示例性线程化分层画面编码结构的框图；

图6是示出根据本发明的原理的单输入、单输出稀疏化单元(TU)的框图；

图7是示出根据本发明的原理的替换SVC稀疏化过程的框图；

图8是示出根据本发明的原理的移除SVC稀疏化过程的框图；

图9是示出根据本发明的原理的稀疏化SVCS(TSVCS)的架构的框图；

图10是示出根据本发明的原理的具有边界TU的视频会议系统的示例性架构的框图。

贯穿附图中相同附图标记用于指代所例示的实施例的类似特征、元件、组件或部分，除非另外声明。此外，在现在将参照附图详细描述本发明时，是结合示例性实施例来如此进行的。

发明详述

提供了基SVC编码的视频会议系统和方法。这些系统和方法(在此统称为“SVC稀疏化”)被设计成为视频会议应用在处理SVC比特流时提供灵活性。具体地，SVC稀疏化提供了用于响应于接收器/端点的需要或特性选择性地丢弃或不向接收器/端点传送SVC比特流部分的系统和处理功能。

图1示出根据本发明的具有SVC稀疏化功能的视频会议系统100的示例性实施例。系统100可包括多个最终用户终端110-140、网络150、和一个或多个MCU/SVCS/CSVCS160。网络实现最终用户与MCU/SVCS/CSVCS之间的通信。本文描述的SVC稀疏化功能可被置于MCU/SVCS/CSVCS160中或者一个或多个端点(例如，110-140)中。

在系统100中，最终用户终端(例如，终端110-140)具有多个用在视频会议中的若干组件。图2示出被设计成与基于单层编码的视频会议系统(例如，系统100)一起使用的最终用户终端140的架构。终端140包括人类接口输入/输出设备(例如，相机210A、麦克风210B、视频显示器250C、扬声器250D)，以及耦合至输入和输出信号复用器和分用器单元(例如，分组MUX220A和分组DMUX220B)的网络接口控制器卡(NIC)230。NIC230可以是标准硬件组件，诸如以太网LAN适配器或任何其它合适的网络接口设备。

相机210A和麦克风210B被设计成分别捕捉参与方的视频和音频信号以传输给其他会议参与方。相反，视频显示器250C和扬声器250D被设计成分别显示和回放从其他参与方接收到的视频和音频信号。视频显示器250C也被配置成任选地显示参与方/终端140自身的视频。相机210A和麦克风210B输出分别经由模数转换器210E和210F耦合到视频和音频编码器210G和210H。视频和音频编码器210G和210H被设计成压缩输入视频和音频数字信号以减小在电子通信网络上传输信号所需的带宽。输入视频信号可以是实况或预先录制和存储的视频信号。编码器210G压缩本地数字视频信号以使传输信号所需的带宽最小化。在优选实施例中，输出数据被打包在RTP分组中并通过基于IP的网络传送。

在系统100中，音频信号可使用本领域中已知的若干技术中的任一种(例如，ITU-T推荐G.711和ISO/IEC 11172-3(MPEG-1音频))来编码。在优选实施例中，可对音频采用G.711编码。音频编码器的输出被发送到复用器(MUX)220A以经由网络接口控制器(NIC)通过网络来传输。

分组MUX220A使用RTP协议执行传统复用，并且也可实现任何所需的QoS相关协议处理。终端的每个数据流在其自身的虚拟信道或IP技术中的端口号中传送。

本发明系统100的一个实施例针对MCU/SVCS/CSVCS的输入视频信号和/或输出视频信号使用遵循SVC的比特流。本发明的此实施例称为SVC实施例。然而，应当理解，本发明并不限于使用标准化SVC编解码器的系统，但是可应用于其它可缩放视频编解码器。

SVC比特通常表示各自可被解码的多个空间和SNR分辨率。多个分辨率可由基层NAL单元和增强层NAL单元表示。相同信号的多个分辨率显示出统计依存性并且可使用预测来高效地编码。预测是针对诸如宏块模式、运动信息、增强空间或SNR可缩放性的速率-失真性能的帧内内容和帧间编码残差等要素进行的。这些要素的每一个的预测在增强层中通过标志来发信号通知，即，在解码当前层时仅需要发信号通知用于在较低层中预测的数据。

取决于其(NAL单元)在解码过程中的角色，指派到给定分辨率的一组特定NAL单元以各种方式由SVC稀疏化来处置。考虑其中SVC比特流中存在K个分辨率且这些分辨率被编号为k＝0到K-1的示例。这K个分辨率可以是或者空间分辨率或者SNR分辨率或两者的混合。此外，假定具有较大k编号的分辨率通过SVC中的切换预测算法依赖于具有较小k编号的分辨率。当在0<X<K-1的分辨率X下进行解码时，指派给具有比X大的编号的分辨率的所有分组可被丢弃。指派给具有比X小的编号的分辨率的所有分组(在下文中称为“可稀疏化”或“T类型”NAL单元)可被更改并在字节大小方面通常通过SVC稀疏化被缩减。

再次注意：本发明并不限于具有示例性预测依存性结构的SVC比特流，并且也可应用于具有其它依存性结构(例如，具有分辨率X的NAL单元，其不依赖于具有较低分辨率Y的NAL单元，其中0<Y<X)的SVC比特流。

SVC稀疏化可由两个候选的过程——替换SVC稀疏化和移除SVC稀疏化——中的一个来进行。

替换SVC稀疏化涉及用比被替换比特更少的比特数目替换T类型NAL单元中既不直接也不间接用在分辨率X的NAL中的预测的那些比特。例如，潜在可能包含运动矢量和残差系数的经编码的宏块可被发信号通知跳过宏块的语法元素mb_skip_flag(宏块_跳过_标志)或mb_skip_run(宏块_跳过_运行)替换。此过程具有在应用SVC稀疏化之后T类型NAL单元遵循SVC的这个优点，以及一定比特率开销的缺点。

移除SVC稀疏化涉及移除T类型NAL单元中既非直接也非间接地用在分辨率X的NAL单元中的预测的那些比特。在此情形中，解析T类型NA单元中的宏块通过分辨率X的NAL单元中的数据来控制。此过程具有T类型NAL单元在SVC稀疏化之后不遵循SVC的缺点，但是具有与替换SVC稀疏化相比有经缩减的比特率开销的优点。另一潜在可能的优点是增强层数据必须在解码增强层所依赖的所有T类型NAL单元之前被解码。

SVC稀疏化通过解析和重编码分辨率为X的NAL单元中的T类型NAL单元的比特流来进行。当T类型NAL单元中的比特未被用于将直接或间接用来解码其它T类型NAL单元或分辨率X的NAL单元的预测器(predictor)解码时，这些比特可被替换或移除。在对T类型NAL单元进行稀疏化之后，用于表示分辨率X的总比特被缩减。

如果K个分辨率之间的依存性结构比图3中所示的更复杂，则可从T类型NAL单元的SVC稀疏化产生多个版本。参看图3，层L0的稀疏化的结果将根据目标分辨率是S0(空间增强层)还是Q0(质量增强层)的而不同。

SVC允许宏块模式预测、运动信息预测、帧间编码残差预测、帧内内容预测等。这些SVC预测方法的每一种都顺应SVC稀疏化。

SVC中的宏块模式预测是基于宏块在或者传送新的宏块模式信息(如在H.264)或者使用T类型NAL单元中的信息之间切换。在T类型NAL单元中的信息既非显示也非隐式地为解码分辨率X所需的情形中，可通过SVC稀疏化——例如通过语法元素mb_skip_flag或mb_skip_run——来用较少的比特替换该信息。这种替换也可导致T类型NAL单元中该宏块或毗邻宏块的其它语法元素的移除或更改。

在SVC中，运动信息预测是基于宏块或8x8块或其它块大小在画面间运动信息预测(例如，如在H.264中)或来自T类型NAL单元的运动信息预测之间切换。对于后者层间预测类型，来自其它T类型NAL单元的运动信息被重用或缩放作为预测器。除预测切换之外，可传送运动矢量改进。运动矢量改进由可被添加到运动矢量预测中从而导致可使用H.264语法准确地表示的运动矢量的、所传送的附加运动矢量构成。在T类型NAL单元运动信息未被用在分辨率X中的预测的情形中，它可用较少的比特来替换，例如，运动信息可通过SVC稀疏化更改成使得对于两个分量而言运动矢量差异等于0。

在SVC中，层间编码残差预测是基于宏块来接通/切断的。它重用(SNR可缩放性)或上采样(空间可缩放性)来自T类型NAL单元的帧间编码残差——可能跟随有被作为SNR增强添加到预测器的残差信号。如果在编码较高分辨率时块并非是从T类型NAL单元预测的，则在解码该较高分辨率时，它无需被传送。与残差相关联的比特随后可通过SVC稀疏化用较少的比特来替换，例如，通过置位语法元素coded_block_pattem(编码块模式)以使其指示相对应的块仅包含值等于0的系数。注意：在2006年的1月泰国曼谷的联合视频组的文献JVT-R050的M.Mathew、W.-J.Han和K.Lee的“Discardable bits and Multi-layer RD estimation for Single loop decoding(用于单环路解码的可丢弃比特和多层RD估计)”中已提出了类似于残差替换的方法。然而，本SVC稀疏化方法影响所有其它语法元素(包括宏块类型、运动矢量、帧内内容)而非仅仅残差，并且还增加了语法元素移除的可能性。

在SVC中，帧内内容预测是基于宏块接通/切断的，并且重用(SNR可缩放)或上采样(空间可缩放性)来自T类型NAL单元的帧内编码信号。其可能跟随有被作为SNR增强添加到预测器的残差信号。如果在编码较高分辨率时宏块并非是从T类型NAL单元预测的，则在解码该较高分辨率时，无需传送宏块。与内宏块相关联的比特随后可经由SVC稀疏化例如通过语法元素mb_skip_flag或mb_skip_run用较少的比特来替换。

SVC稀疏化操作(即，替换稀疏化和移除稀疏化处理)利用SVC语法的特定特征。在其最一般的形式中，稀疏化仅是应用于经压缩的数字视频信号上的压缩域操作。图6示出简单的具有一个输入和一个输出的处理块的“稀疏化单元(TU)”600。输入信号被假定为具有两个或多个层的SVC视频流，并且输出信号也为SVC流。注意：在某些情形中，如以下所解释的，包含在输出信号中的某些层不遵循SVC语法是可能的。此外，注意：TU600可具有一个以上输入和一个以上输出(未示出)。在此情形中，每个输出被连接到至多一个输入，并且以与如图6中所示的单输入单输出对的情形下相同方式的对特定输入-输出对执行SVC稀疏化操作。图7示出了替换稀疏化过程700中的示例性步骤702-726的流程图。参看图7(以及图8)中的文本图标，‘块’是与输入SVC流(图6)中的目标层宏块相对应的较低层块，‘CBP’指代指示哪个转换块包含非零系数的coded_block_pattern(经编码_块_型)，而‘NN’指代当前块右边或下方的邻元。对于每个目标层宏块(MB)，定位相对应的较低层块(块可能小于或等于MB的大小)。

对较低层块(‘当前块’)应用稀疏化过程700如下：

如果当前块是经帧内编码(702)且模式预测未被用在目标层中(704)，则应用如下：

如果解码毗邻块无需当前块(未被用于帧内预测)(706)或者从当前块预测的毗邻块都没有被用于预测目标层(708)，则应用如下：

将系数设为0并更改coded_block_pattern(CBP)(722)，并且按需重新编码毗邻块的系数(用于编码毗邻块的上下文可能因当前块的系数的清零而被改变)(724)。

如果包含当前块的MB未被用于预测目标层(714)，则跳过该MB(716)。非I和非SI切片中的跳过是通过用或者mb_skip_run语法元素(当使用CAVLC时)或者mb_skip_flag语法元素(当使用CABAC时)替换MB数据来发信号通知。毗邻块的运动信息也被检查且按需被更改，因为用于编码毗邻块的运动信息的预测运动信息会由于跳过而改变。

另外，如果当前块是经帧间编码(702)的，则应用如下：

如果模式预测未被使用(718)且运动预测未被使用(720)，则应用如下：

将运动信息设为0(722)，以及

按需更改毗邻块的运动信息(724)。

如果残数预测未被使用(726)，则应用如下

将系数设为0并更改CBP(710)，以及

按需重新编码毗邻块的系数(712)。

如果包含当前块的MB未被用于预测目标层(714)，则跳过MB(716)。

否则，不应用稀疏化。

类似地，图8示出移除稀疏化过程800的示例性步骤802-826的流程图。对于每个目标层MB，定位相对应的较低层块，并且应用稀疏化过程800如下：

如果当前块是经帧内编码(802)且模式预测未被用在目标层中(804)，则应用如下

如果解码毗邻块无需当前块(未被用于帧内预测)(806)或者如果从当前块预测的毗邻块都没有被用于预测目标层(808)，则应用如下：

删除系数并更改CBP(810)，以及

在假定当前块具有0系数的情况下重新编码毗邻块的系数(812)。

如果包含当前块的MB未被用于预测目标层(814)，则删除MB(816)。

这包括更改毗邻块的运动信息。

另外，如果当前块是经帧间编码(802)的，则应用如下：

如果模式预测未被使用(818)且运动预测未被使用(820)，则应用如下：

将运动信息设为0(822)，以及

按需更改毗邻块的运动信息(824)。

如果残数预测未被使用(826)，则应用如下：

删除系数并更改CBP(810)，以及

在假定当前块具有全为0的系数的情况下重新编码毗邻块的系数(812)。

否则，不应用稀疏化。

SVC稀疏化操作(例如，过程700或800)可或者通过SVCS/CSVCS(例如，在图1中的SVCS/CSVCS160处)本身或者通过编码器(例如，相关联的编码器(SVC编码器)或传送端点处的编码器)来执行。这种选择主要体现了SVCS/CSVCS计算功率与编码器和SVCS/CSVC之间的带宽的权衡。希望编码器自身处的计算功率要求最小。SVCS/CSVCS处执行的SVC稀疏化操作可在有辅助信息或没有辅助信息的情况下执行。

通过SVC编码器处的SVC稀疏化，NAL单元的两个(或多个)版本由SVC编码器产生并被发送到SVCS/CSVCS，后者又决定哪个NAL单元要转发给哪个解码器(在端点处)。这在编码器与SVCS/CSVCS之间产生了比特率开销。在此实施例中，处理块的TU600或者被整合到SVC编码器，或者可在传送端点处进行常规编码之后应用它。由SVC编码器创建的两种类型的NAL单元可以两种不同方式来编码。

首先，SVC编码器可行程两种不同类的T类型NAL单元。第一类是用于预测较高层的NAL单元(“预测参考切片”)，而另一类是可从预测参考切片预测的非预测参考切片。discardable_flag(可丢_弃标志)可用于提供对在切片上区分两种类型的高层语法支持以及用于确定预测依存性。这种划分成预测参考和非预测参考切片与急剧地降低压缩效率不同，因为如果预测参考切片可能已从基于包括在非预测参考切片中的信息的预测获益，则编码器已经作出了此编码选择，并且那些块将被归类为预测参考类块。然后，SVCS/CSVCS将按需分开这些流。

第二，SVC编码器可形成T类型NAL单元的不同NAL单元，以使其创建如上所述的预测参考切片以及除此之外的包含所有数据的切片。

当SVC稀疏化操作是在SVCS/CSVCS自身处且具有辅助信息，则SVC编码器产生常规NAL单元，并且还发送辅助信息以帮助SVCS/CSVCS进行SVC稀疏化。此类辅助信息可以是按宏块的比特映射，后者提供关于需要从T类型NAL单元进行稀疏化从而避免解析整个增强层的信息。

当SVC稀疏化操作是在SVCS/CSVCS自身处且没有辅助信息时，SVC编码器仅产生常规NAL单元。SVCS/CSVCS执行全部SVC稀疏化操作。图9示出了“稀疏化SVCS”(TSVCS)的示例性架构。TSVCS 900具有常规SVCS(例如，如在PCT/US06/28365中描述的)结构，该结构包括通过其接收和传送分组的网络接口(NIC)、从多个用户U1到Un接收分组的交换元件，并且在此特定示例中每个用户进行传送三个层(例如，U1L0、U1L1和U1L2)。常规SVCS基于用户偏好或系统状况简单地决定来自输入的哪些分组被传送到哪个输出，并由此到哪个用户。在TSVCS 900中，SVCS的输出还配备有稀疏化单元(例如，TU 600)，以使得TSVCS可在需要时向所输出的信号选择性地应用稀疏化。

注意：SVC编码器可被配置成预期可或者在编码器本身处或者在MCU/SVCS/CSVCS处应用SVC稀疏化过程，以及以有助于稀疏化的方式编码视频比特流(“稀疏化感知编码”)。具体地，层间预测可被组织以使得较低层数据的后继替换和移除被简化。作为稀疏化感知编码的极端示例，编码器可产生联播编码，其中不同分辨率下的两个比特流被完全独立地编码，以及其中移除稀疏化相当于基层比特流的完全消去。在此极端情形中，编码效率等于单层编码的效率。会遭遇这种极端情形的视频会议的示例是两个接收方/参与方驻留在理想(无损)网络上，以及其中每个参与方要求不同的空间分辨率。在此情形中，传送端点将联播两个比特流，并且MCU/SVCS/CSVCS将以二元方式把一个比特流路由到其预期接收端点，而把第二个比特流路由到其预期接收端点。然而，一般而言，这种理想的极端状况几乎不存在。基层与增强层之间的数据的划分在编码依存性和比特率方面受制于诸如网络比特率可用性和差错弹性等设计考虑。

在前述的SVC稀疏化操作中(参看图7和8)，由执行稀疏化的编码器或MCU/SVCS/CSVCS完整地传送目标层。然而，进一步允许更改目标层NAL单元也是可能的。例如，当在目标层MB上使用来自基层的运动矢量预测时，在不使用预测的情况下用结果运动矢量值重新编码目标层MB运动信息是可能的。这种特征可进一步有助于编码效率的提高，因为它允许来自基层的更多的MB数据被替换或移除。

当在接收器处期望单个分辨率且分组丢失率为零或很小并且当没有随机接入要求影响SVC编码时，SVC稀疏化是用于进一步最优化可缩放视频编码过程的编码效率的方法。然而，当系统中存在差错时，包括在较低层中的信息可用于视频差错隐藏。当不存在差错时，MCU/SVCS/CSVCS可应用SVC稀疏化来消去或丢弃解码器显示期望分辨率所不需要的任何信息。然而，当差错存在时，MCU/SVCS/CSVCS可被配置成选择完全或部分保留仅与较低层有关的信息。系统中存在的差错率越高，将保留越多的此类信息。这种配置允许组合SVC稀疏化和层间差错隐藏技术——例如在国际专利申请no.PCT/US06/061815和临时美国专利申请No.60/778,760和60/787,031——来维护帧速率。

SVC稀疏化也可部分地应用于视频会议系统中的差错弹性与随机接入的权衡或考虑中。图4和5示出其中被标示为L0、L1和L2的画面是线程化预测链的示例性分层时间预测结构。当这些画面之一在接收参与方的解码器处不可用于参考时，空间-时间差错传播发生，且在这种情况下，通常引入高度可见的主观性失真。标示为L2的画面未被用作帧内预测的参考画面。因此，标示为L2的画面(并且在某种程度上还有标示为L1的画面)对于提供随机接入(即，参与方进入会议或切换至不同分辨率)或差错弹性而言更加不重要。这是由于画面L2和L1的预测链在某一较短时间之后终止。SVC稀疏化可被选择性地应用于不同画面。在此示例中，它可被应用到较高的时间分辨率画面——即画面L2和L1——从而允许解码器维护可解码的低时间频率的较低分辨率图像(画面L0)。此外，部分SVC稀疏化方法在未应用到L0画面时也保持差错弹性方案的特征。

在差错弹性方案中，发送参与方(各自运行可缩放视频编码器)、MCU/SVCS/CSVCS和接收参与方(运行可缩放视频解码器)维护它们之间的双向控制信道。从发送参与方到MCU/SVCS/CSVCS以及从MCU/SVCS/CSVCS到接收参与方的控制信道被称为前向控制信道。从接收参与方到MCU/SVCS/CSVCS以及从MCU/SVCS/CSVCS到发送参与方的控制信道被称为反向控制信道。通常在实际通信之前，进行能力交换。这种能力交换包括在信道上向每个接收参与方信令通知差错弹性状况/要求的范围。在会话期间，接收参与方可通过反向控制信道更新差错状况/要求。执行SVC稀疏化的系统单元(例如，传送端点或MCU/SVCS/CSVCS)随后可根据经更新的差错弹性/要求来改编稀疏化过程。

注意：设计成SVC稀疏化过程块的TU 600可被有益地用在互联两个网络的边界设备中。在此情形中，出于将通过一个网络接收到的输入视频信号优化成最适宜用于输送其输出的其它网络的状况的目的，TU600操作成单输入单输出设备(即，没有MCU/SVCS/CSVCS功能)。这种边界TU的操作可通过使用反馈信道——接收端点通过该信道传送网络性能指示符——的使用来促进。图10示出了其中稀疏化处理块处于连接两个网络A和B的边界设备1010(“边界TU”)中的视频会议系统1000的示例。边界TU可以是配备有一个或多个TU的路由器或网桥。在视频会议系统中，最终用户140位于网络(B)中，而最终用户110-130位于网络A中。对于此具体示例，视频会议系统1000可使用SVCS来协调视频会议信号，但是此技术可应用于MCU/CSVCS设计以及点对点连接(即，没有服务器)。在操作中，边界TU可对网络A上自三个最终用户110-130中的一个或多个传送到最终用户140的数据和/或传送自最终用户140的数据应用稀疏化。

虽然已描述了被认为是本发明的优选实施例的那些，但是本领域技术人员应当认识到，可作出其它或进一步的改变和更改而不背离本发明的精神，并且其旨在要求落在本发明的真实范围内的所有这些改变和更改。

例如，在此已使用示例描述了SVC稀疏化，其中输入比特流通过编码器或稀疏化服务器(TS)响应于单个接收端点的单个目标分辨率要求来稀疏化。因此，如果对于不同接收端点有不同的目标分辨率要求，可对输入比特流重复(例如，顺序地)执行在此描述的单个目标分辨率稀疏化操作(即，移除或替换稀疏化)以分别产生对应于不同目标分辨率的不同输出比特流。然而，容易理解，用于产生不同输出比特流的稀疏化操作可被合并或级联以例如利用目标分辨率数据集合中的重叠或非正交性。这种级联操作可以是经济而有益的，例如，在级联布置中部署一个或多个TS时。考虑其中输入比特流具有三个空间层(S0、S1和S2)但是第一接收方仅要求分辨率S1而第二接收方要求分辨率S2的情形。级联布置可更有效地产生目标输出比特流，即，(经稀疏化的S0、S1)和(经稀疏化的S0、经稀疏化的S1、S2)。在级联的第一级处，可针对S1和S2目标稀疏化输入S0。在第二级处，针对S2稀疏化S1(或S1副本)。类似地，如果在编码器处执行稀疏化，则在此特定示例中，编码器可直接产生的S0的经稀疏化的版本，因为没有预期接收方要求在S0分辨率下解码。

应当理解，本发明的系统和方法可用任何硬件和软件的组合来实现。用于实现和操作前述系统和方法的软件(即，指令)可被设在计算机可读介质上，这些计算机可读介质可包括但不限于：固件、存储器、存储设备、微控制器、微处理器、集成电路、ASICS、可在线下载的媒体以及其它可用的介质。

Claims

1.一种数字视频信号处理系统，包括：

具有至少一个数字视频信号输入和至少一个数字视频信号输出的视频处理单元(“稀疏化单元”(TU))，其中所述输入和输出数字视频信号被以支持时间、空间和质量可缩放性的一个或多个的可缩放视频编码格式来编码，并且其中所述TU被配置成更改所述至少一个输入视频信号中与在预定分辨率下解码所述至少一个输出视频信号并非必需的信息的某些或全部相对应的一部分，以使得此信息在所述至少一个输出视频信号中被缩减或消去。

2.如权利要求1所述的系统，其特征在于，所述TU被配置成丢弃所述输入视频信号中对应于空间、SNR或时间分辨率比所述至少一个输出视频信号所预定的分辨率高的那些部分。

3.如权利要求1所述的系统，其特征在于，所述TU被配置保持所述输入视频信号中对应于所述至少一个输出视频信号所预定的分辨率的那些部分完整。

4.如权利要求1所述的系统，其特征在于，所述TU被配置更改所述输入视频信号中对应于所述至少一个输出视频信号所预定的分辨率的那些部分。

5.如权利要求1所述的系统，其特征在于，所述TU还被配置成更改所述输入视频信号的部分以使得在所预定的分辨率下解码所述输出视频信号并非必需的信息被在所述输出视频信号中需要更少比特的信息替换，并且其中具有所替换的信息的所述输出视频信号是顺应的视频比特流。

6.如权利要求5所述的系统，其特征在于，所述输入视频信号是根据H.264 SVC来编码的，并且包括目标层和所述目标层所依赖的至少一个较低层，并且其中所述TU针对所述输出信号替换所述输入视频信号中的所述较低层中的信息以使得：

对于未被用于预测所述目标层的宏块，通过用跳过运行和跳过标志指示符中之一替换其数据来发信号通知跳过所述宏块，

对于其中未使用模式预测的内块，如果所述块未被毗邻块用于帧内预测，或者所述毗邻块中没有一个被用于预测所述目标层，则其系数被设为零且所述宏块的经编码的块型被相应地更改，

对于其中没有模式预测或没有运动预测被使用的帧间块，运动信息被设为0，

对于其中未使用残差预测的帧间块，它们的系数被设为零且所述宏块的所述经编码的块型被相应地更改，以及

其中如果所述信息替换影响毗邻块的编码，则更改所述毗邻块的编码。

7.如权利要求1所述的系统，其特征在于，所述TU还被配置成更改所述输入视频信号的部分以使得在所述至少一个输出所预定的所述分辨率下解码所述视频信号并非必需的信息在所述输出视频信号中被移除。

8.如权利要求7所述的系统，其特征在于，所述输入视频信号是根据H.264 SVC来编码的，并且包括目标层和至少一个较低层，并且其中所述TU针对所述输出信号移除所述输入视频信号中的所述较低层中的信息以使得：

对于未被用于预测所述目标层的宏块，所述宏块被移除，

对于其中未使用模式预测的内块，如果所述块未被毗邻块用于帧内预测，或者所述毗邻块中没有一个被用于预测所述目标层，则其系数被推断为零以便进行其自身层内部的进一步预测，

对于其中没有模式预测或运动预测被使用的帧间块，运动信息被移除并且运动矢量差异被推断为0以便进行其自身层内部的进一步预测，

对于其中未使用残差预测的帧间块，与残差编码有关的所有语法元素被移除并且被推断为0以便进行其自身层内部的预测，以及

9.如权利要求1所述的系统，其特征在于，还包括：

会议网桥(“稀疏化服务器”(TS))，其具有各自通过至少一个通信信道链接到至少一个接收端点的至少一个输出和链接到至少一个传送端点的至少一个输入，

其中所述至少一个端点，它传送使用支持时间、空间或质量可缩放性中的一个或多个的可缩放视频编码格式编码的数字视频流，以及所述至少一个接收端点解码以可缩放视频编码格式编码的至少一个数字视频流，

其中所述TU与所述TS整合，以使得所述TU被应用于所述TS的所述至少一个输出中的至少一个。

10.如权利要求9所述的系统，其特征在于，所述至少一个接收端点的解码器被配置成通过在预定用于显示的目标层的解码过程中按需顺序地访问较低层数据来解码比所述目标层低的视频层。

11.如权利要求9所述的系统，其特征在于，所述TS还被配置成将其至少一个输出操作成如下之一：

使用级联的解码和编码的译码多点控制单元；

通过选择哪个输入作为输出来传送的切换多点控制单元；

使用选择性复用的可缩放视频通信服务器；或者

使用选择性复用和比特流级合成的合成可缩放视频通信服务器。

12.如权利要求9所述的系统，其特征在于，所述至少一个传送端点的编码器被配置成作出有助于由所述TU执行的所述信息移除或替换过程的编码模式决策，并且还被配置成在其编码决策中结合由所述可能的稀疏化过程产生的比特率并由此来确定由源编码以及包括差错和抖动的传输状况导致的失真与所述比特率之间的权衡。

13.如权利要求9所述的系统，其特征在于，所述TU以画面自适应为基础进行稀疏化。

14.如权利要求9所述的系统，其特征在于，所述至少一个传送端点的编码器被配置成将所传送的媒体编码成具有多个不同时间级的线程化编码结构中的帧，其中所述帧的子集(“R”)被特定选择为进行可靠输送并至少包括所述线程化编码结构中最低时间层的所述帧，以使得所述解码器可在分组丢失或差错之后基于可靠接收到的所述类型R的帧解码所接收到媒体的至少一部分并此后与所述编码器同步，并且其中所述TU仅向与非R帧相对应的信息选择性地应用稀疏化。

15.如权利要求9所述的系统，其特征在于，还包括：

所述通信网络上的至少一个反馈信道，用于从所述至少一个接收端点向所述TS传送信息，

其中所述至少一个接收端点通过所述至少一个反馈信道向所述TS传送网络状况指示符，并且其中所述TS根据所报告的网络状况改编所述信息更改过程。

16.如权利要求1所述的系统，其特征在于，还包括：

各自通过至少一个通信信道链接到至少一个接收端点和至少一个传送端点的会议网桥(“稀疏化服务器”(TS))，

其中所述至少一个端点传送使用支持时间、空间或质量可缩放性中的一个或多个的可缩放视频编码格式编码的数字视频，以及所述至少一个接收端点解码以可缩放视频编码格式编码的至少一个数字视频流，

其中所述TU与所述TS整合，并且其至少一个输入链接到所述至少一个传送端点，而其至少一个输出链接到至少一个接收端点，并且其中所述至少一个传送端点也传送使得所述TU能够执行所述输入信号的所述部分的所述更改而无需完全解析所述整个输入视频信号的附加数据。

17.如权利要求1所述的系统，其特征在于，还包括：

至少一个端点，它传送使用支持空间或质量可缩放性的可缩放视频编码格式编码的数字视频，

至少一个接收端点，它解码以可缩放视频编码格式编码的至少一个数字视频流，

输入视频通信网络，它链接所述TU的所述至少一个输入与所述至少一个传送端点，

输出视频通信网络，它将所述TU的所述至少一个输出链接到所述至少一个接收端点，

其中所述TU被用于根据所述输出视频通信网络的所述网络状况来最优化其输入视频信号的编码效率。

18.如权利要求17所述的系统，其特征在于，还包括：

所述输出视频通信网络上的一个或多个反馈信道，用于从所述至少一个接收端点向所述TU传送信息，

其中所述至少一个接收端点通过所述至少一个反馈信道向所述TU传送网络状况指示符，并且其中所述TU根据所报告的网络状况改编所述信息更改过程。

19.一种数字视频通信系统，包括：

至少一个端点，它传送使用支持时间、空间或质量可缩放性中的一个或多个的可缩放视频编码格式编码的数字视频，

各自通过至少一个通信信道链接到所述至少一个接收端点和所述至少一个传送端点的SVCS，

其中传送自所述至少一个传送端点的所述视频信号被划分成不同的数据集合，包括：

第一数据集合，它与预定由所述至少一个接收端点解码的所述目标层相对应，

第二数据集合，它与对应于较预定由所述至少一个接收端点解码的所述目标层低的时间、空间或质量分辨率的层相对应，

第三辅助数据集合，它与对应于时间、空间或质量分辨率比预定由所述至少一个接收端点解码的所述目标层低的层相对应，并且至少包含被预定进行解码的所述目标层用于预测的信息，以及

任选的第四数据集合，它与对应于较预定由所述至少一个接收端点解码的所述目标层高的时间、空间或质量分辨率的层相对应，

以使得所述SVCS可结合所述第一数据集合和任选的所述第四数据集合的数据向所述至少一个接收端点选择性地复用来自所述第二和第三数据集合的数据。

20.如权利要求19所述的系统，其特征在于，还包括：

所述通信网络上的一个或多个反馈信道，用于从所述至少一个接收端点和所述SVCS向所述至少一个传送端点传送信息，

其中所述至少一个接收端点和SVCS通过所述至少一个反馈信道向所述至少一个传送端点传送网络状况指示符，并且其中至少一个重传端点根据所报告的网络状况改编所述第三数据集合的构造。

21.如权利要求19所述的系统，其特征在于，传送自所述至少一个传送端点的所述视频信号的所述第三数据集合基于画面自适应来生成和传送。

22.如权利要求19所述的系统，其特征在于，所述至少一个传送端点的编码器被配置成将所传送的媒体编码成具有多个不同时间级的线程化编码结构中的帧，其中所述帧的子集(“R”)被特定选择为进行可靠输送并至少包括所述线程化编码结构中最低时间层的所述帧，以使得所述解码器可在分组丢失或差错之后基于可靠接收到的所述类型R的帧解码所接收到媒体的至少一部分并由此后所述编码器同步，并且其中传送自所述至少一个传送端点的所述视频信号的所述第三数据集合仅针对非R帧来生成和传送。

23.一种数字视频通信系统，包括：

第一数据集合，它与预定由所述至少一个接收端点解码的目标层相对应，

第二数据集合，它与对应于时间、空间或质量分辨率比预定由所述至少一个接收端点解码的所述目标层低的层相对应，并且包含被预定进行解码的所述目标层用于预测的信息，

第三数据集合，它与对应于时间、空间或质量分辨率比预定由所述至少一个接收端点解码的所述目标层低的层相对应，并且包含未被预定进行解码的所述目标层用于预测的信息，以及

24.如权利要求23所述的系统，其特征在于，还包括：

所述通信网络上的至少一个反馈信道，用于从所述至少一个接收端点和所述SVCS向所述至少一个传送端点传送信息，

其中所述至少一个接收端点和SVCS通过所述至少一个反馈信道向所述至少一个传送端点传送网络状况指示符，并且其中所述至少一个传送端点根据所报告的网络状况改编所述第三数据集合的构造。

25.如权利要求23所述的系统，其特征在于，所述将与对应于时间、空间或质量层分辨率比预定由所述至少一个接收端点解码的所述目标层低的层相对应的所述数据分成第二和第三数据集合是基于画面自适应来执行的。

26.如权利要求23所述的系统，其特征在于，所述至少一个传送端点的编码器被配置成将所传送的媒体编码成具有多个不同时间级的线程化编码结构中的帧，其中所述帧的子集(“R”)被特定选择为进行可靠输送并至少包括所述线程化编码结构中最低时间层的所述帧，以使得所述解码器可在分组丢失或差错之后基于可靠接收到的所述类型R的帧解码所接收到媒体的至少一部分并此后与所述编码器同步，并且所述将与对应于时间、空间或质量层分辨率比预定由所述至少一个接收端点解码的所述目标层低的层相对应的所述数据分成第二和第三数据集合是仅针对非R帧来执行的。

27.一种用于处理以支持空间和/或质量可缩放性的可缩放视频编码格式编码的数字视频信号的方法，所述方法包括：

使用具有至少一个数字视频信号输入和至少一个数字视频信号输出的视频处理单元(“稀疏化单元”(TU))，

在所述TU中，更改所述至少一个输入视频信号中与在预定分辨率下解码所述至少一个输出视频信号并非必需的信息的某些或全部相对应的一部分，以使得此信息在所述至少一个输出视频信号中被缩减或消去。

28.如权利要求27所述的方法，其特征在于，更改所述至少一个输入视频信号的一部分包括丢弃所述输入视频信号中对应于空间、SNR或时间分辨率比所述至少一个输出视频信号所预定的所述分辨率高的那些部分。

29.如权利要求27所述的方法，其特征在于，更改所述至少一个输入视频信号的一部分包括保持所述输入视频信号中对应于所述至少一个输出视频信号所预定的所述分辨率的那些部分完整。

30.如权利要求27所述的方法，其特征在于，更改所述至少一个输入视频信号的一部分包括更改所述输入视频信号中对应于所述至少一个输出视频信号所预期的所述分辨率的那些部分。

31.如权利要求27所述的方法，其特征在于，更改所述至少一个输入视频信号的一部分包括更改所述输入视频信号的部分以使得在所预定的分辨率下解码所述输出视频信号并非必需的信息被在所述输出视频信号中需要更少比特的信息替换，并且其中具有所替换的信息的所述输出视频信号是顺应的视频比特流。

32.如权利要求31所述的方法，其特征在于，所述输入视频信号是根据H.264SVC来编码的，并且包括目标层和所述目标层所依赖的至少一个较低层，并且其中更改所述至少一个输入视频信号的一部分包括针对所述输出信号替换所述输入视频信号的所述较低层中的信息以使得：

对于未被用于预测所述目标层的宏块，通过用跳过运行和跳过标志指示符中之一替换其数据来发信号通知为跳过所述宏块，

对于其中未使用残差预测的帧间块，它们的系数被设为零且所述宏块的所述经编码的块型被相应地更改，

以及其中如果所述信息替换影响毗邻块的编码，则更改所述毗邻块的编码。

33.如权利要求27所述的方法，其特征在于，更改所述至少一个输入视频信号的一部分包括更改所述输入视频信号的部分以使得在所述至少一个输出所预定的所述分辨率下解码所述视频信号并非必需的信息在所述输出视频信号中被移除。

34.如权利要求33所述的方法，其特征在于，所述输入视频信号是根据H.264SVC来编码的，并且包括目标层和至少一个较低层，并且其中更改所述至少一个输入视频信号的一部分包括针对所述输出信号移除所述输入视频信号的所述较低层中的信息以使得：

对于未被用于预测所述目标层的宏块，所述宏块被移除，

对于其中未使用残差预测的帧间块，与残差编码有关的所有语法元素被移除并且被推断为0以便进行其自身层内部的预测，

35.如权利要求27所述的方法，其特征在于，还包括：

使用具有各自通过至少一个通信信道链接到至少一个接收端点的至少一个输入和链接到至少一个传送端点的至少一个输出的会议网桥(“稀疏化服务器”(TS))，

其中所述至少一个端点传送使用支持时间、空间或质量可缩放性中的一个或多个的可缩放视频编码格式编码的数字视频流，以及所述至少一个接收端点解码以可缩放视频编码格式编码的至少一个数字视频流，

36.如权利要求35所述的方法，其特征在于，还包括使用所述至少一个接收端点的解码器来通过在预定用于显示的目标层的解码过程中按需顺序地访问较低层数据解码比所述目标层低的视频层。

37.如权利要求35所述的方法，其特征在于，还包括操作所述TS以使得其至少一个输出是以下之一：

使用级联的解码和编码来译码多点控制单元；

通过选择哪个输入作为输出来传送的切换多点控制单元；

使用选择性复用的可缩放视频通信服务器；或者

38.如权利要求35所述的方法，其特征在于，还包括使用所述至少一个传送端点的编码器来作出有助于由所述TU执行的所述信息移除或替换过程的编码模式决策，并且在其编码决策中结合由所述可能的稀疏化过程产生的所述比特率，由此可获得关于由源编码以及包括差错和抖动的传输状况导致的失真与所述比特率之间的权衡的确定。

39.如权利要求35所述的方法，其特征在于，还包括在所述TU中以画面自适应为基础进行稀疏化。

40.如权利要求35所述的方法，其特征在于，所述至少一个传送端点的编码器将所传送的媒体编码成具有多个不同时间级的线程化编码结构中的帧，其中所述帧的子集(“R”)被特定选择为进行可靠输送并至少包括所述线程化编码结构中最低时间层的所述帧，以使得解码器可在分组丢失或差错之后基于可靠接收到的所述类型R的帧解码所接收到媒体的至少一部分并此后与所述编码器同步，所述方法还包括：在所述TU中，仅向与非R帧相对应的信息选择性地应用稀疏化。

41.如权利要求35所述的方法，其特征在于，在所述通信网络上有用于从所述至少一个接收端点向所述TS传送信息的至少一个反馈信道，

其中所述至少一个接收端点通过所述至少一个反馈信道向所述TS传送网络状况指示符，所述方法还包括：在所述TS中根据所报告的网络状况改编所述信息更改过程。

42.如权利要求35所述的方法，其特征在于，还包括：

使用具有各自通过至少一个通信信道链接到至少一个接收端点的至少一个输出和链接到至少一个传送端点的至少一个输入的会议网桥(“稀疏化服务器”(TS))，

其中所述至少一个端点传送使用支持时间、空间或质量可缩放性中的一个或多个的可缩放视频编码格式编码的数字视频，以及至少一个接收端点解码以可缩放视频编码格式编码的至少一个数字视频流，并且其中所述TU与所述TS整合以使得所述TU被应用到所述TS的所述至少一个输出中的至少一个，

以及所述方法还包括：

从所述至少一个传送端点传送使得所述TU能够执行所述输入信号的所述部分的所述更改而无需完全解析所述整个输入视频信号的附加数据。

43.如权利要求35所述的方法，其特征在于，有：

所述方法还包括：

采用所述被用于根据所述输出视频通信网络的所述网络状况来最优化其输入视频信号的编码效率的TU。

44.如权利要求43所述的方法，其特征在于，所述输出视频通信网络上有用于从所述至少一个接收端点向所述TU传送信息的至少一个反馈信道，并且其中所述至少一个接收端点通过所述至少一个反馈信道向所述TU传送网络状况指示符，

所述方法还包括：

在所述TU处，根据所报告的网络状况改编所述信息更改过程。

45.一种用于系统中的数字视频通信的方法，所述系统包括：

所述方法包括：

将传送自所述至少一个传送端点的视频信号划分成不同的数据集合，包括：

第三辅助数据集合，它与对应于较预定由所述至少一个接收端点解码的所述目标层低的时间、空间或质量分辨率的层相对应，并且至少包含被预定进行解码的所述目标层用于预测的信息，以及

46.如权利要求45所述的方法，其特征在于，所述通信网络上有用于从所述至少一个接收端点和所述SVCS向所述至少一个传送端点传送信息的一个或多个反馈信道，并且其中所述至少一个接收端点和SVCS通过所述至少一个反馈信道向所述至少一个传送端点传送网络状况指示符，所述方法还包括：

至少一个传送端点，它根据所报告的网络状况改编所述第三数据集合的构造。

47.如权利要求45所述的方法，其特征在于，还包括：

至少一个传送端点，它基于画面自适应来生成并传送所述输出视频信号的所述第三数据集合。

48.如权利要求45所述的方法，其特征在于，所述至少一个传送端点的编码器将所传送的媒体编码成具有多个不同时间级的线程化编码结构中的帧，其中所述帧的子集(“R”)被特定选择为进行可靠输送并至少包括所述线程化编码结构中最低时间层的所述帧，以使得所述解码器可在分组丢失或差错之后基于可靠接收到的所述类型R的帧解码所接收到媒体的至少一部分并此后与所述编码器同步，并且其中传送自所述至少一个传送端点的所述视频信号的所述第三数据集合仅针对非R帧来生成和传送。

49.一种用于系统中的数字视频通信的方法，所述系统包括：

至少一个接收端点，它解码以可缩放视频编码格式编码的至少一个数字视频流，以及

所述方法包括：

划分传送自所述至少一个传送端点的视频信号是划分成不同的数据集合，包括：

第二数据集合，它与对应于较预定由所述至少一个接收端点解码的所述目标层低的时间、空间或质量分辨率的层相对应，并且包含被预定进行解码的所述目标层用于预测的信息，

第三数据集合，它与对应于较预定由所述至少一个接收端点解码的所述目标层低的时间、空间或质量分辨率的层相对应，并且包含未被预定进行解码的所述目标层用于预测的信息，以及

50.如权利要求49所述的方法，其特征在于，所述通信网络上有用于从所述至少一个接收端点和所述SVCS向所述至少一个传送端点传送信息的至少一个反馈信道，

其中所述至少一个接收端点和SVCS通过所述至少一个反馈信道向所述至少一个传送端点传送网络状况指示符，所述方法还包括：

在所述至少一个传送端点处，根据所报告的网络状况改编所述第三数据集合的构造。

51.如权利要求49所述的方法，其特征在于，还包括：

至少一个传送端点基于画面自适应来将与对应于时间、空间或质量层分辨率比预定由所述至少一个接收端点解码的所述目标层低的层相对应的所述数据分成第二和第三数据集合。

52.如权利要求49所述的方法，其特征在于，所述至少一个传送端点的编码器将所传送的媒体编码成具有多个不同时间级的线程化编码结构中的帧，其中所述帧的子集(“R”)被特定选择为进行可靠输送并至少包括所述线程化编码结构中最低时间层的所述帧，以使得解码器可在分组丢失或差错之后基于可靠接收到的所述类型R的帧解码所接收到媒体的至少一部分并此后与所述编码器同步，所述方法还包括：

至少一个传送端点仅针对非R分组来将与对应于时间、空间或质量层分辨率比预定由所述至少一个接收端点解码的所述目标层低的层相对应的所述数据分成第二和第三数据集合。

53.包括用于执行方法权利要求27-52的至少一项中所叙述的步骤的指令集的计算机可读介质。