CN101421936A

CN101421936A - 用于在可缩放视频通信中提供差错弹性、随机接入和率控制的系统和方法

Info

Publication number: CN101421936A
Application number: CNA2007800074889D
Authority: CN
Inventors: A·埃尔夫瑟里阿迪斯; D·洪; O·夏皮罗; T·维格安德
Original assignee: Vidyo Inc
Current assignee: Vidyo Inc
Priority date: 2006-03-03
Filing date: 2007-03-05
Publication date: 2009-04-29
Anticipated expiration: 2027-03-05
Also published as: CN101421936B; JP2009540629A; JP6309463B2; JP2015097416A; CA2644753A1; JP5753341B2

Abstract

提供了用于采用可缩放视频编码的视频通信系统中的差错弹性传输、率控制和随机接入的系统和方法。通过使用来自较低分辨率层的信息来隐藏或补偿较高分辨率层信息的丢失来实现差错弹性。此机制通过从所传送的信号中选择性地消去较高分辨率层的信息来进行率控制，在接收器处可使用来自较低分辨率层的信息来补偿这种消去。此外，还通过使用来自较低分辨率层的信息补偿在切换时间之前可能尚未接收到的较高分辨率空间层分组来实现随机接入或较低或较高分辨率之间的切换。

Description

用于在可缩放视频通信中提供差错弹性、随机接入和率控制的系统和方法

相关申请的交叉引用

本申请要求2006年3月3日提交的美国临时专利申请S/N.60/778,760、2006年3月29日提交的临时专利申请S/N.60/787,031、以及2006年10月23日提交的临时专利申请S/N.60/862,510的权益。此外，本申请要求相关国际专利申请No.PCT/US06/28365、PCT/US06/028366、PCT/US06/028367、PCT/US06/028368、PCT/US06/061815、PCT/US06/62569和PCT/US07/62357，以及美国临时专利申请No.60/884,148、60/786,997和60/829,609的权益。共同转让的所有前述优先权和相关申请通过引用全部结合于此。

发明领域

本发明涉及视频数据通信系统。本发明尤其涉及在使用可缩放视频编码技术的视频通信系统中同时提供差错弹性、随机接入和率控制能力。

发明背景

在诸如基于网际协议(IP)的那些网络的基于分组的网络上传输数字视频至少由于数据传输通常是以尽力为基础执行的这个事实而极具挑战性。在现代基于分组的通信系统中，差错通常将其自身表现为分组丢失而非比特差错。此外，分组丢失常常是中间路由器中的拥塞的结果，而非物理层差错的结果(对于无线和蜂窝网络是个例外)。当在视频信号的传输或接收中发生差错时，确保接收器可从差错快速恢复并返回传入视频信号的无差错显示是很重要的。然而，在典型数字视频通信系统中，接收器的稳健性因传入数据被严重压缩以节约带宽这个事实而降低。此外，用在通信系统中的视频压缩技术(例如，最新编解码器ITU-T H.264和H.263或者ISO MPEG-2和MPEG-4编解码器)可在连续视频分组或帧之间形成十分强的时间依存性。具体地，运动补偿预测(例如，涉及P帧或B帧的使用)编解码器的使用形成其中所显示的帧依赖于先前帧的帧依存性链。依存性链可一直扩展到视频序列的开头。作为依存链的结果，给定分组的丢失可影响接收器处多个连续分组的解码。由于给定分组的丢失而导致的差错传播仅在“内”(I)刷新点或者完全不使用任何时间预测的帧处终止。

数字视频通信系统中的差错弹性要求在传送信号中有至少某一级别的冗余度。然而，这种要求与力图消除或最小化所传送信号中的冗余度的视频压缩技术的目的相反。

在提供区分型服务的网络(例如，基于区分型服务IP的网络、租用线路上的专用网等)上，视频数据通信应用可利用网络特征来以无损或近似无损的方式向接收器递送视频信号数据的部分或全部。然而，在未提供区分型服务的任意尽力型网络(诸如因特网)中，数据通信应用必须依赖其自身的特征来实现差错弹性。在普通数据通信中有用的已知技术(例如，传输控制协议—TCP)不适于视频或音频通信，这对由人类接口需求所导致的较低的端对端延迟有额外的约束。例如，TCP技术可用于采用文件传输协议的数据输送中的差错弹性。TCP保持重发数据直至确认所有数据被接收，即使其包括若干秒的延迟。然而，TCP不适用于现场或交互式视频会议应用中的视频数据输送，因为无限制的端对端延迟对于参与者而言是无法接受的。

相关的问题是随机接入。假定接收器加入现行视频信号的传输。典型实例是在用户加入视频会话，或者用户调谐至广播时。此类用户将必须在传入比特流中找到他/她能够开始解码并与编码器同步的点。然而，提供这种随机接入点对压缩效率具有相当大的影响。注意：根据定义，随机接入点是从该点开始任何差错传播终止的差错弹性特征(即，其是差错恢复点)。因此，由特定编码方案提供的随机接入支持越好，该编码方案可提供越快速的差错恢复。反之可能并非总为真；其依赖于关于差错弹性技术已被设计成要解决的差错的持续时间和范围所作出的假设。对于差错弹性，某些状态信息可被假定为在接收器处发生差错时可用。

作为示例，在用于数字电视系统(数字电缆TV或卫星TV)的MPEG-2视频编解码器中，以周期间隔(通常为0.5秒)使用I画面来实现快速切换成流。然而，I画面显著大于其P或B对应物(通常大3到6倍)，并由此被避免使用，在低带宽和/或低延迟应用中尤其如此。

在诸如视频会议的交互式应用中，请求帧内更新的概念通常被用于差错弹性。在操作中，更新涉及从接收方对发送方的、关于使得解码器被同步的内画面传输的请求。此操作的带宽开销是显著的。另外，当分组差错发生时，也存在此开销。如果分组丢失是由拥塞导致的，则使用内画面只会恶化拥塞问题

另一种用于差错稳健性的传统技术——在过去(例如，在H.261标准中)用于减轻由IDCT实现中的失配而导致的漂移——是以帧内模式周期性地编码每个宏块。H.261标准要求每132次强制帧内编码传送一宏块。

随着强制要被编码为给定帧中帧内的宏块的百分比的增大，编码效率下降。相反，当此百分比较低时，从分组丢失恢复的时间增加。强制帧内编码过程要求额外的精力以避免运动相关漂移，该漂移由于必须避免某些运动矢量值——即使它们是最有效的——而进一步限制了编码器的性能。

除传统单层编解码器之外，分层或可缩放编码是多媒体数据编码中的公知技术。可缩放编码用于生成以带宽效率方式共同代表给定媒体的两个或多个“经缩放”比特流。可缩放性可以多个维度——即时间、空间和质量(也称为SNR“信噪比”可缩放性或保真度可缩放性)——来提供。例如，视频信号可以CIF或QCIF分辨率且每秒7.5、15和30帧(fps)的帧率下的不同层来可缩放地编码。取决于编解码器的结构，空间分辨率和帧率的任何组合可从编解码器比特流获得。与不同层相对应的比特可作为单独的比特流传送(即，每层一个流)或它们可在一个或多个比特流中被复用在一起。为了便于本文的描述，与给定层相对应的经编码比特可称为该层的比特流，即使各个层被复用且在单个比特流中传送。专门设计成提供可缩放特征的编解码器包括例如MPEG-2(也称为ITU-T H.262的ISO/IEC13818-2)和目前开发的SVC(称为ITU-T H.264Annex G或MPEG-4第10部分SVC)。在共同转让国际专利申请No.PCT/US06/028365——“SYSTEMAND METHOD FOR SCALABLE AND LOW-DELAYVIDEOCONFERENCING USING SCALABLE VIDEO CODING(用于使用可缩放视频编码的可缩放和低延迟视频会议的系统和方法)”——中描述了为视频通信专门设计的可缩放编码技术。注意，即使并非专门设计成可缩放的编解码器也可以在时间维度呈现可缩放性的特性。例如，考虑MPEG-2Main Profile(主型)编解码器——DVD和数字TV环境中使用的非可缩放编解码器。此外，假定以30fps操作的编解码器以及使用IBBPBBPBBPBBPBB(周期N＝15帧)的画面组(GOP)结构。通过连续消除B画面，接着消除P画面，得到总共三个时间分辨率——30fps(包括所有画面类型)、10fps(仅有I和P)以及2fps(仅有I)——是可能的。连续消除过程导致可解码的比特流，因为MPEG-2 Main Profile编解码器被设计成使得P画面的编码不依赖于B画面，并且类似的I画面的编码不依赖于其它P或B画面。在以下，具有时间可缩放特征的单层编解码器被认为是可缩放视频编码的特例，因此被包括在术语可缩放视频编码中，除非另外明确指明。

可缩放编解码器通常具有锥形比特流结构，其中组成比特流之一(称为“基层”)在恢复某种基本质量的原始媒体时是必需的。连同基层一起使用一个或多个剩余比特流(在下文中称为“增强层”)提升了所恢复媒体的质量。增强层中的数据丢失是容许的，但是基层中的数据丢失会导致所恢复媒体的显著失真或完全失败。

可缩放编解码器提出了类似于由单层编解码器针对差错弹性和随机接入所提出的那些挑战。然而，可缩放编解码器的编码结构具有单层视频编解码器中不存在的独特特性。此外，与单层编码不同，可缩放编码可能涉及从一个可缩放性层切换到另一个(例如，在CIF与QCIF分辨率之间来回切换)。对于可从编码器得到多个信号分辨率(空间/时间/质量)的可缩放编码结构中的随机接入而言，当在不同分辨率之间进行切换时，期望在极小的比特率开销下进行即时层切换。

与差错弹性和随机接入的那些问题相关的问题是率控制。由于预测、转换和熵编码技术的广泛应用，典型视频编码器的输出具有可变比特率。为了构建恒定比特率的流，缓冲器约束率控制通常被用在视频通信系统中。在此类系统中，假定编码器处的输出缓冲器在恒定速率(信道速率)下被排空；编码器监视缓冲器的占用并作出参数选择(例如，量化器步长大小)以避免缓冲器溢出或下溢。然而，这种率控制机制仅可在编码器处应用，因此进一步假定所期望的输出速率已知。在包括视频会议的某些视频通信应用中，在位于发送器与接收器之间的中间网关处(例如，在多点控制单元——MCU——处)作出此类率控制决定是合需的。可在网关使用比特流级操纵或译码，但是是以相当的处理和复杂度为代价的。因此，期望采用实现率控制而不要求中间网关处的任何附加处理的技术。

现在针对改进对视频通信系统中经编码比特流的差错弹性和随机接入能力以及率控制作出考虑。关注开发对端对端延迟和系统所用的带宽具有最小影响的差错弹性、率控制和随机接入技术。

发明概述

本发明提供了用于在使用可缩放视频编码的视频通信系统中提升差错弹性并提供随机接入和率控制能力的系统和方法。这些系统和方法还允许以良好的率-失真性能导出与编码分辨率不同的分辨率下的输出信号。

在一个示例性实施例中，本发明提供了一种通过使用来自较低分辨率空间层的信息来从高分辨率空间可缩放层的分组丢失中恢复的机制。此外，在另一示例性实施例中，本发明提供了一种在很少的延迟或没有延迟的情况下从低空间或SNR分辨率切换到高空间或SNR分辨率的机制。在又一实施例中，本发明提供了一种用于执行率控制的机制，其中在预期接收器处使用了使丢失分组对接收到信号的质量的影响最小化的适当差错恢复机制的情况下，编码器或中间网关(例如，MCU)从高分辨率空间层选择性地消去分组。在再一实施例中，编码器或中间网关以信息来选择性地替换高分辨率空间层的分组，该信息高效地指令编码器使用来自基层和增强层的过去帧的信息重构被替换的高分辨率数据的近似。在另一实施例中，本发明描述了一种用于在与编码分辨率不同的分辨率——尤其是用于空间可缩放编码的分辨率之间的中间分辨率——下导出输出视频信号的机制。这些实施例在或者独立或者组合下允许构建具有有效的率控制和分辨率柔性以及差错弹性和随机接入的视频通信系统。

本发明的系统和方法是基于结合可缩放编码技术的“差错隐藏”技术的。这些技术为称为可缩放视频编码器的视频编码器系列同时实现差错弹性和率控制。差错隐藏技术的率-失真性能使得其相当于或超出有效传输率下(总共传送的减丢失分组率)的率-失真性能。通过适当地选择画面编码结构和输送模式，这些技术允许在极小的比特率开销下接近即时的层切换。

此为，这些技术可用于在与编码分辨率不同的分辨率下导出接收到的信号的经解码版本。例如，这允许从在QCIF和CIF分辨率下经空间可缩放编码的信号创建出1/2 CIF(HCIF)信号。与典型可缩放编码相比，接收器可能或者必须使用QCIF信号并对它上采样(具有较差质量)或者使用CIF信号并对它下采样(具有较好质量但较高的比特率利用)。如果QCIF和CIF作为单层流联播，则也存在相同问题。

这些技术也提供了具有最少的经编码视频数据流处理的率控制而不会对画面质量产生不利影响。

附图简述

根据以下优选实施例的详细描述以及附图，本发明的其它特征、特性和各个优点将变得更显而易见，在附图中：

图1是示出根据本发明的原理的视频会议系统的整体架构的框图；

图2是示出根据本发明的原理的示例性最终用户终端的框图；

图3是示出根据本发明的原理的视频编码器的示例性架构(基层和时间增强层)的框图；

图4是示出根据本发明的原理的示例性画面编码结构的示图；

图5是示出根据本发明的原理的替换性画面编码结构的示例的示图；

图6是示出根据本发明的原理的用于空间增强层的视频编码器的示例性架构的框图；

图7是示出根据本发明的原理的当使用空间可缩放性时的示例性画面编码结构的示图；

图8是示出根据本发明的原理的具有增强层画面隐藏的示例性解码过程的示图；

图9是示出根据本发明的原理的隐藏过程在被应用于‘Foreman(领班)’序列时的示例性R-D曲线的示图；

图10是示出根据本发明的原理的当使用具有SR画面的空间可缩放性时的示例性画面编码结构的示图；

贯穿附图中相同附图标记和符号用于指代所例示的实施例的类似特征、元件、组件或部分，除非另外声明。此外，在现在将参照附图详细描述本发明时，是结合示例性实施例进行的。

发明的详细描述

提供了用于视频通信系统中的差错弹性传输、随机接入和率控制的系统和方法。这些系统和方法基于可用在视频通信系统中的可缩放视频编码的特征采用差错隐藏技术。

在优选实施例中，示例性视频通信系统可以是在基于分组的网络上操作的多点视频会议系统10。(参看例如图1)。多点视频会议系统可包括任选网桥120a和120b(例如，多点控制单元(MCU)或可缩放视频通信服务器(SVCS))以协调网络上的端点(例如，用户1-k和1-m)之间的可缩放多层或单层视频通信。对于结合或不结合任选网桥120a和120b使用的点对点连接而言，示例性视频通信系统的操作是相同的且是有益的。本发明中描述的技术可直接应用于其它视频通信应用，包括点对点流送、广播、多播等。

例如，在共同转让的国际专利申请No.PCT/US06/28365和No.PCT/US06/28366中提供了可缩放视频编码技术和基于可缩放视频编码的视频会议系统的详细描述。此外，在共同转让的国际专利申请No.PCT/US06/62569和PCT/US06/061815中提供了可缩放视频编码技术和基于可缩放视频编码的视频会议系统的描述。

图1示出了视频会议系统10的一般结构。视频会议系统10包括经由LAN(局域网)1和2链接在网络100上的多个最终用户终端(例如，用户1-k和用户1-m)和服务器120a和120b。服务器可以是传统MCU，或者可缩放视频编码服务器(SVCS)或合成可缩放视频编码服务器(CSVCS)。后者服务器具有与传统MCU相同的用途，但是具有显著减小的复杂度和改进的功能。(参看例如国际专利申请No.PCT/US06/28366和PCT/US06/62569)。在本文的描述中，术语“服务器”可用于统指SVCS或CSVCS中的任意一者。

图2示出被设计成与基于多层编码的视频会议系统(例如，系统100)一起使用的最终用户终端140的架构。终端140包括人类接口输入/输出设备(例如，相机210A、话筒210B、视频显示器250C、扬声器250D)，以及耦合至输入和输出信号复用器和分用器单元(例如，分组MUX 220A和分组DMUX220B)的一个或多个网络接口控制器卡(NIC)230。NIC 230可以是标准硬件组件，诸如以太网LAN适配器或任何其它合适的网络接口设备或者其组合。

相机210A和话筒210B被设计成分别捕捉参与者的视频和音频信号以传输给其他会议参与者。相反，视频显示器250C和扬声器250D被设计成分别显示和回放从其他参与者接收到的视频和音频信号。视频显示器250C也被配置成任选地显示参与者/终端140自身的视频。相机210A和话筒210B输出分别经由模数转换器210E和210F耦合到视频和音频编码器210G和210H。视频和音频编码器210G和210H被设计成压缩输入视频和音频数字信号以减小在电子通信网络上传输信号所需的带宽。输入视频信号可以是实况或预先录制和存储的视频信号。编码器压缩本地数字信号以使传输信号所需的带宽最小化。

在本发明的示例性实施例中，音频信号可用本领域中已知的任何合适的技术(例如，G.711、G.729、G.729EV、MPEG-1等)来编码。在本发明的优选实施例中，可缩放音频编解码器G.729EV被音频编码器210G用来编码音频信号。音频编码器210G的输出被发送到复用器MUX 220A以经由NIC 230通过网络100传输。

分组MUX 220A可使用RTP协议执行传统复用。分组MUX 220A也可执行可由网络100提供或由视频通信应用直接提供的任何相关服务质量(QoS)处理(参见例如国际专利No.PCT/US06/061815)。来自终端140的每个数据流在其自身的虚拟信道或IP技术中的“端口号”中传送。

视频编码器210G是具有与各个层(在此标示为“基”和“增强”)相对应的多个输出的可缩放视频编码器。注意：联播是可缩放编码的特例，其中没有发生层间预测。在以下，当使用术语可缩放编码时，它包括联播的情形。在下文中更详细地描述视频编码器的操作和多个输出的特性。

在H.264标准规范中，通过使用灵活宏块排序(FMO)方案将多个参与者的视图组合在单个经编码的画面中是可能的。在此方案中，每个参与者占用经编码图像的一部分——对应于其切片之一。在概念上，单个解码器可用于解码所有参与者的信号。然而，从实践角度看来，接收器/终端将必须解码若干个更小的独立编码的切片。因此，图2中所示具有解码器230A的终端140可用在H.264规范的应用中。注意：用于转发切片的服务器是CSVCS。

在终端140中，分用器DMUX 220B接收来自NIC 320的分组并将它们重定向到适当的解码器单元230A。

终端140中的服务器控制块协调服务器(SVCS/CSVCS)与最终用户终端之间的交互，如在国际专利申请No.PCT/US06/028366和PCT/US06/62569中所述的。在没有中间服务器的点对点通信系统中，不需要服务器控制块。类似地，在非会议应用、点对点会议应用中或当使用CSVCS时，在接收最终用户终端处仅需要单个解码器。对于涉及所存储的视频(例如，预先录制的广播、预先编码的材料)的应用中，传送最终用户终端可不涉及音频和视频编码块或它们之前的所有终端块(例如，相机、话筒等)的全部功能。具体地，仅需要提供如下所说明的、与视频分组的选择性传输有关的部分。

尽管措辞“终端”被用在此上下文中，但是终端的各个组件可以是彼此互联的独立设备，它们可以软件或硬件形式被整合到个人计算机中，或者它们可以是其组合。

图3示出了示例性基层视频编码器300。除用于运动估计(ME)、运动补偿(MC)和其它编码功能的、常规“经典”的各种视频编码过程块330之外，编码器300还包括帧缓冲器块310和编码器参考控制(ENC REF控制)块320。例如，可根据H.264/MPEG-4 AVC(ITU-T和ISO/IEC JTC1，“Advanced video coding for generic audiovisual services(用于一般视听服务的高级视频编码)”，ITU-T推荐H.264和ISO/IEC 14496-10(MPEG4-AVC))或SVC(2005年10月ITU T SG16/Q.6和ISO/IEC JTC 1/SC 29/WG 11的联合视频小组(JVT)的文献的JVT-Q202的J.Reichel、H.Schwarz和M.Wien的“Joint Scalable Video Model JSVM 4(联合可缩放视频模型JSVM4)”)来设计视频编码器300。应当理解，任何其它合适的编解码器或设计可用于视频编码器，包括例如在国际专利申请No.PCT/US06/28365和PCT/US06/62569中公开的设计。如果使用空间可缩放性，则在输入处任选地使用下采样器以降低输入分辨率(例如，从CIF到QCIF)。

ENC REF控制块300被用于创建“线程化”编码结构。(参见例如国际专利申请No.PCT/US06/28365)。基于标准块的经运动补偿的编解码器具有I、P和B画面的常规结构。例如，在诸如IBBPBBP的画面序列(按显示次序)中，‘P’帧是从序列中的前一P帧或I帧预测的，而B画面是使用前一以及后一P或I帧两者来预测的。尽管连续的I或P画面之间的B画面的数目如同I画面出现的率一样可变化，但是例如P画面不可能用作在时间上比最近的P画面早的另一P画面的参考。H.264编码标准有益地提供了这样一个例外：由编码器和解码器分别保持两个参考画面列表，以及提供来自这些列表内的画面的重排序和选择性使用的适当的信令信息。这个例外可应用到选择哪些画面用作参考以及哪些参考用于要被编码的特定画面。在图3中，帧缓冲器块310表示用于存储参考画面列表的存储器。ENC REF控制块320被设计成在编码器侧确定哪些参考画面要被用于当前画面。

在参照图4中所示的示例性分层画面编码“线程”或“预测链”结构400的进一步上下文中给出ENC REF控制块320的操作，其中字母‘L’指示任意可缩放层，其后的数字用于指示时间层(0对应于最低、或最粗糙)。箭头指示预测的方向、源和目标。L0仅是相距四个画面的一系列常规P画面。层L1具有相同的帧率，但是仅允许根据前一L0帧进行预测。层L2帧是根据最近的L0或L1帧预测的。L0提供完全时间分辨率的四分之一(1:4)，L1是L0帧率的两倍(1:2)，而L2是L0+L1帧率的两倍(1:1)。

取决于本发明的特定实现的要求，可类似地构造更多或更少的层以适应不同的比特率/可缩放性要求。图5中示出将一系列传统预测帧IPPP...转换成两个层的简单示例。

在本发明的实现中使用的编解码器300可被配置成生成一组单独的画面“线程”(例如，一组三个线程410-430)，以便实现多个级别的时间可缩放性分辨率(例如，L0-L2)和其它增强分辨率(例如，S0-S2)。线程或预测链被定义为使用或者来自相同线程的画面或者来自较低级线程的画面来进行运动补偿的画面序列。图4中的箭头指示三个线程410-430的预测的方向、源和目标。线程410-420具有公共的源L0，但是具有不同的目标和路径(例如，分别为目标L2、L2和L0)。线程的使用允许实现时间可缩放性，因为可消去任何数目的顶级线程而不影响其余线程的解码处理。

注意：在编码器300中，ENC REF控制块可仅使用P画面作为参考画面。使用具有前向和后向预测两者的B画面使编码延迟增加其捕捉和编码用于B画面的参考画面所花费的时间。在传统交互式通信中，使用具有来自将来画面的预测的B画面增加了编码延迟，因此被避免使用。然而，也可使用B画面以带来总压缩效率的增益。甚至在一组线程中使用单个B画面(例如，通过将L2编码为B画面)也可改进压缩效率。对于并非延迟敏感的应用，部分或全部画面(可能除L0画面之外)可以是具有双向预测的B画面。注意，特别是对于H.264标准，使用B画面而没有发生额外延迟是可能的，因为该标准允许使用两个运动矢量——这两个运动矢量皆使用了在显示次序上处于过去的参考画面。在此情形中，这种B画面可被使用而不增加编码延迟——与P画面相比。类似的，L0画面可以是形成传统画面组(GOP)的I画面。

现在重新参看图3，可扩充基层编码器300以创建空间和/或质量增强层，如例如在H.264 SVC标准草案和国际专利申请No.PCT/US06/28365中所述的。图6示出用于创建空间增强层的示例性编码器600的结构。编码器600的结构类似于基层编解码器300，并且具有使得基层信息可为编码器600所用的附加特征。此信息可包括运动矢量数据、宏块模式数据、经编码的预测差错数据或经重构的像素数据。编码器600可重用此信息中的部分或全部以针对增强层作出编码决定。出于这个目的，基层数据必须被缩放成增强层的目标分辨率(例如，如果基层为QCIF且增强层为CIF，则缩放2的倍数)。尽管空间可缩放性通常需要维护两个编码环路，但是通过将用于增强层编码的基层数据仅限于可从编码在当前画面的基层中的信息计算出的那些值来执行单环路解码是可能的(例如，在H.264 SVC草案标准中)。例如，如果基层宏块是帧间编码(inter-code)的，则增强层不能使用该宏块的经重构像素作为预测的基础。然而，它可使用其运动矢量和预测差错值，因为它们可通过只解码当前基层画面中包含的信息来获得。由于解码器的复杂度被显著降低，因此单环路解码是可取的。

线程化结构可以如同用于基层帧的方式用于增强层帧。图7示出了遵循图4中所示设计的增强层帧的示例性线程化结构700。在图7中，结构700中的增强层块由字母‘S’来指示。注意：用于增强层帧和基层的线程化结构可以是不同的，如在国际专利申请No.PCT/US06/28365中所说明的。

此外，可构造用于质量可缩放性的类似增强层编解码器，例如，如SVC草案标准和国际专利申请No.PCT/US06/28365中描述的。在此类用于质量可缩放性的编解码器中，与在较高分辨率版本的输入上构建增强层不同，通过在与输入相同的空间分辨率下编码残余预测差错来构建增强层。关于空间分辨率，在单或双环路编码配置中，基层的所有宏块数据可在用于质量可缩放性的增强层被重用。

出于简便起见，以下描述限于空间可缩放性，但是应当理解，所描述的技术也可应用于质量或保真度可缩放性。

注意：由于目前技术水平视频编解码器中因运动补偿预测而导致的固有时间依存性，给定画面上的任何分组丢失不仅影响该特定画面的质量，而且还或者直接或者间接地影响以给定画面作为参考的所有将来画面。这是因为解码器可构建用于将来预测的参考帧将与编码器处所用的参考帧不同。随后的差异或漂移会对经解码的视频信号的视觉质量造成极大的影响。然而，如在国际专利申请No.PCT/US06/28365和PCT/US06/061815中所述的，结构(图4)在存在传输差错的情况下在稳健性方面具有独特优势。

如图4中所示，线程结构400创建三个完备依存链。在L2画面发生的分组丢失将仅影响L2画面；L0和L1画面仍可被解码和显示。类似地，关于L1画面发生的分组丢失将仅影响L1和L2画面；L0画面仍可被解码和显示。

相同的线程差错包容属性可扩展到S分组。例如，使用结构700(图7)，在S2画面发生的丢失仅影响特定画面，而S1画面处的丢失还将影响随后的S2画面。在任一情形中，一旦将下一S0画面解码，漂移就将终止。

通过使用线程化结构，如果基层和某些增强层画面以其递送有保证的方式传送，则在分组丢失的情形中没有严重后果的情况下其余层可基于尽力来传送。所要求的有保证传输可使用区分型服务、FEC技术或本领域中已知的合适技术来执行。对于本文的描述，假定在提供这种区分型服务质量的两个实际或虚拟信道(例如，分别为高可靠性信道(HRC)和低可靠性信道(LRC))上进行有保证和尽力传输。(参看例如国际专利申请No.PCT/US06/028366和PCT/US06/061815)。

例如，考虑层L0-L2和S0在HRC上传送，而S1和S2在LRC上传送。尽管S1或S2分组的丢失可导致有限的漂移，但是仍期望能够尽可能多地隐藏信息丢失。隐藏丢失S1或S2画面可仅使用解码器可用的信息，即过去的S画面，以及当前画面的基层的经编码信息。

根据本发明的示例性隐藏技术使用丢失增强层帧的基层信息，并在增强层的解码环路中应用它。可被使用的基层信息包括运动矢量数据(针对目标层分辨率进行适当缩放)、经编码的预测差错差异(按需针对增强层分辨率进行上采样)、以及内数据(按需针对增强层分辨率进行上采样)。根据需要，根据先前画面的预测参考是从增强层分辨率画面而非相应的基层画面获得的。此数据允许解码器重建错失帧的十分接近的近似，由此最小化关于错失帧的实际和觉察出的失真。此外，现在解码任何依存帧是可能的，因为可获得错失帧的良好近似。

图8示出了隐藏解码过程800的示例性步骤810-840，并且使用具有分辨率QCIF和CIF以及两个预测线程的两层空间可缩放性经编码信号的示例。应当理解，过程800可应用于其它分辨率以及与所示的不同的线程数目。在示例中，假定在经编码数据到达步骤810，L0、S0和L1的经编码数据完整地到达接收终端，但是S1的经编码数据丢失。此外，假定在接收终端处，对应于时间t0的画面之前的画面的所有经编码数据也已被接收到。由此，解码器能够适当地解码时间t0处的QCIF和CIF画面。解码器还使用L0和L1中包含的信息以重构对应于时间t1的正确的经解码的L1画面。

图8示出了一具体示例，其中在基层解码步骤820通过使用具有运动矢量LMV1的运动补偿预测和将被添加到该运动补偿预测的残余LRES1来编码时间t1处L1画面的块LB1。LMV1和LRES1的数据被纳入到由接收终端接收的L1数据中。解码过程要求来自前一基层画面(例如，L0画面)的块LB0——在解码器处作为正常解码过程的结果可得。由于在此示例中假定S1数据丢失，因此解码器无法使用相应的信息来解码增强层画面。

隐藏解码过程800构造增强层块SB1的近似。在隐藏数据生成步骤830，过程800通过获得相应基层块LB1——在此示例中为LMV1和LRES1——的经编码数据来生成隐藏数据。然后，将运动矢量缩放至增强层的分辨率，以构造增强层运动矢量SMV1。对于所考虑的两层视频信号示例，SMV1等于LMV1的两倍，因为可缩放信号的分辨率的比是2。此外，根据公知的采样率转换过程的原理，隐藏解码过程800按照在每个维度上2倍来将基层残余信号上采样至增强层的分辨率，并且随后任选地使用滤波器LPF对结果进行低通滤波。隐藏数据生成步骤830进一步的结果是残余信号SRES1。下一步840(用于具有隐藏的增强层的解码过程)使用经构造的隐藏数据SMV1和SRES1来得到近似块SB1。注意：这种近似要求来自前一增强层画面的块SB0——假定在解码器处作为增强层的正常解码过程的结果可得。不同编码模式可以相同或类似方式操作。

本发明的隐藏技术的进一步示例性应用涉及高分辨率图像的示例。在高分辨率图像(例如，高于CIF)中，通常需要一个以上的MTU(最大传输单元)来传送增强层的帧。如果成功传输单个MTU大小的分组的可能性为p，成功传输由n个MTU构成的帧的可能性为pⁿ。按照惯例，为了显示这样的帧，必需成功递送所有n个分组。

在本发明隐藏技术的应用中，S层帧在编码器处被分成MTU大小的切片以进行传送。在解码器侧，接收自S画面的任何可用的切片被使用。使用隐藏方法(例如，过程800)对错失切片进行补偿，由此减少整体失真。

在实验室实验中，当与有效通信率(总率减丢失率)下的直接编码相比时，此隐藏技术提供类似或更好的性能。对于实验，假定层L0-L2在HRC上可靠传送，而层S1和S2在LRC上传送。按照Y-PSNR，实际质量损失是在每5％分组丢失0.2-0.3dB的范围内，明显胜于诸如帧复制或运动补偿帧复制的其它已知隐藏技术。(参看例如2005年7月S.Bandyopadhyay、Z.Wu、P.Pandit和J.Boyce在波兰波兹南的Doc.JVT-P072的“Frame LossError Concealment for H.264/AVC(用于H.264/AVC的帧丢失差错隐藏)”，他们报告了在具有IPP...PI结构以及1秒的I周期的单层AVC编码的估计中，甚至5％的丢失率的情况下若干dB的损失)。实验室实验结果证明对于在可缩放编解码器中提供差错弹性，该技术是有效的。

图9示出使用具有不同QP的标准“foreman”视频测试序列获得的率-失真曲线。对于每个QP，率-失真值是通过丢弃不同量的S1和S2帧，同时应用上述本发明的差错隐藏技术来获得的。如图9中所示，每个QP曲线最右边的点对应于没有丢失，并且之后(在从右到左的方向上)50％的S2被丢弃、100％的S2被丢弃、100％的S2和50％的S1被丢弃、以及100％的S1和S2被丢弃。重叠了通过连接不同QP的零丢失点获得的编解码器的R-D曲线。可从图9看到，特别是QP小于30的各条曲线接近R-D曲线，但是在在某些情形下较高。期望在进一步最优化所用基本编解码器的情况下将消除差异。

实验室实验结果表明Y-PSNR类似于相同编码器工作在有效传输率下的Y-PSNR。这意味着隐藏技术可有益地用于率控制目的。有效传输率被定义为传输率减丢失率，即，基于实际到达目的地的分组计算出的率。对于特定编码结构，与S1和S2相对应的比特率通常为总的30％，这意味着70％与100％之间的任何比特率可通过消去选定数目的S1和S2帧进行率控制来实现。70％与100％之间的比特率可通过选择在给定时间段内被丢弃的S2或S1和S2帧的数目来实现。

对于使用LR/SR画面的画面编码结构，甚至可获得更宽范围的率控制，例如在国际专利申请No.PCT/US06/061815中所描述的。使用此类画面结构，可能不在HRC中传送S0，而是仅在HRC包括较低时间分辨率的SR。这种特征实现较宽范围的率控制。

表I概括了典型视频序列(例如，空间可缩放性，QCIF-CIF分辨率，三层线程化，380Kbps)的不同帧类型的率百分比。

表I

帧类型	率(％)	累积率(％)
帧类型	率(％)	累积率(％)	L0	15	15
L1	7	22	L0	15	15
L1	7	22	L2	4	26
S0	46	72	L2	4	26
S0	46	72	S1	18	90
S2	10	100	S1	18	90

通过组合不同帧类型，隐藏技术实际上可实现任何期望率。例如，当包括L0-L2的全部和S0画面且10个S1画面中仅1个丢弃时，可总计实现近似72+1.8＝73.8％。诸如细粒度可缩放性(FGS)等本领域中已知的替换性技术力图实现类似的率灵活性，但是具有十分差的率-失真性能和相当大的计算开销。本发明的隐藏技术提供了与FGS相关联的率可缩放性，但是没有与这种技术相关联的编码效率代价。

从视频传输特意地消去S1和S2帧可或者在编码器处或者在可用的中间网关(例如，SVCS/CSVCS)处执行。

此外，应当理解，仅出于例示的目的，在此就两层结构中的S1帧的丢失描述了用于实现率控制的本发明的隐藏技术的应用。实际上，该技术并不限于特定线程结构，而也可应用于使用锥形时间结构(例如，包括两个以上的质量或空间级、不同时间结构等)的任何空间可缩放编解码器。

本发明的隐藏技术的进一步使用是在两个经编码的分辨率之间的分辨率下显示视频信号。例如，假定视频信号是使用空间可缩放编解码器在QCIF和CIF分辨率下编码的。如果用户希望以1 / 2 CIF分辨率(HCIF)显示输出，则传统解码器将遵照以下两种方法之一：1)解码QCIF信号并上采样至HCIF，或者2)解码CIF信号并下采样至HCIF。在第一情形中，HCIF画面质量将不会是良好的，因为所用比特率将会很低。在第二情形中，质量会非常好，但是所用的比特率也将几乎是第一方法中所需的两倍。本发明的差错隐藏技术克服了传统解码器的这些缺陷。

例如，通过应用本文所述的S1/S2差错隐藏技术，特意地丢弃所有S1和S2帧会实现显著的带宽缩减以及极小的质量下降。通过下采样结果经编码的CIF信号，获得HCIF信号的良好再现。注意：其中单独的单层流在QCIF和CIF分辨率下被传送的常规联播技术不允许在可用比特率下导出中间分辨率信号，除非帧率也被丢弃。本发明的隐藏技术采用空间可缩放编码来在可用比特率下导出中间分辨率信号。

实际上，用于导出中间分辨率的本发明的隐藏技术的应用要求对全分辨率的S0操作增强层解码环路。解码涉及生成经解码的预测差错以及应用全分辨率下的运动补偿两者。为了降低计算要求，可仅在全分辨率下生成经解码的预测差错，随后下采样至目标分辨率(例如，HCIF)。经缩减的分辨率信号随后可使用经适当缩放的运动矢量和残余信息来进行运动补偿。也可对保留以传输给接收机的‘S’层的任何部分使用这种技术。由于将在增强层解码环路中引入漂移，因此可能需要用于周期性消去漂移的机制。除诸如I帧的标准技术之外，可能采用对增强层宏块周期性使用空间可缩放性的INTRA_BL(内_BL)模式，其中仅来自基层的信息被用于预测。(参见例如PCT/US06/28365)。由于使用没有时间信息，因此该特定宏块的漂移被消去。如果使用SR画面，则也可通过解码全分辨率下的所有SR来消去漂移。由于SR画面离得很远，因此在计算复杂度上仍存在相当可观的增益。在某些情形中，用于导出中间分辨率信号的技术可通过以缩减的分辨率操作增强层解码器环路来更改。在CPU资源并非限制因素且要求或希望比SR分离更快的切换的情形中，相同的操作(即，在全分辨率下操作解码器环路)可按需应用于较高的时间级(例如，S0)。

本发明的隐藏技术的另一示例性应用是关于其中经由联播实现空间或质量级的视频会议系统。在此情形中，如上所述地使用基层信息来执行隐藏。增强层的漂移可通过以下任一个来消去：a)线程化；b)标准SVC时间可缩放性；c)周期性I帧；以及d)周期性内宏块。

采用联播提供空间可缩放性且仅针对特定目的地传送特定流的较高分辨率信息(例如，如果假定没有或几乎没有差错)的SVCS/CSVCS可用较低分辨率的帧来替代丢失的高分辨率的帧，从而预期解码器处的这种差错隐藏机制并依赖时间可缩放性来消去如上所述的漂移。应当理解，所描述的隐藏过程可容易地改编成创建对此类系统的有效率控制。

在负责丢弃较高分辨率的帧或检测其丢失的SVCS、CSVCS或编码器不能假定接收这些帧的解码器配备有本文所述的隐藏方法的情况中，此实体可通过以下方法之一来创建将实现类似功能的替换高分辨率帧：

a)对于空间可缩放性编码中的差错弹性，基于解析较低分辨率帧来创建合成帧，该系统帧将仅包括使用经上采样的基层信息而不使用任何附加残余或运动矢量改进的适当信令；

b)对于使用空间可缩放性的系统中的率控制，结合(a)中描述的方法外加保留包含来自原始高分辨率帧的重要信息的某些宏块(MB)；

c)对于使用联播进行空间可缩放性的差错弹性系统，创建将包括合成MB的替换高分辨率帧，该MB将包括经上采样的运动矢量和残余信息；

d)对于使用联播进行空间可缩放性的系统中的率控制，(c)中描述的方法外加保留包含来自原始高分辨率帧的重要信息的某些MB。

在以上的情形a)和b)中，仅使用基层画面的经上采样版本的信令可或者在带内通过经编码的视频流或者通过自编码器或SVCS/CSVCS发送到接收终端的带外信息来执行。对于带内信令的情形，在经编码的视频流中必须存在特定语法元素，以便于指令解码器仅对某部分或全部增强层MB使用基层信息。在基于SVC规范的JD7版本(参见通过引用全部结合于此的2006年7月T.Wiegand、G.Sullivan、J.Reichel、H.Schwarz、M.Wien等人在Klagenfurt(克拉根福)的联合视频小组的Doc.JVT-T201的“Joint Draft7，Rev.2：Scalable Video Coding(联合草案7，修订2：可缩放视频编码)”)并在美国临时专利申请S/N.60/862,510中描述的本发明的示例性编解码器中，可在切片报头中引入一组标志，以指示当宏块未被编码时将使用采用基层数据的特定预测模式。通过跳过所有增强层宏块，编码器或SVCS/CSVCS实际上将消去S1或S2帧，但是用仅包含指示默认预测模式以及跳过所有宏块这个事实所需的很少字节的极小的数据分组来替代它们。类似地，为了执行率控制，编码器或SVCS/SVCS可从增强层MB选择性地消去某些信息。例如，编码器或SVCS/SVCS可选择性地保持运动矢量改进，但是消去残余预测，或者保持残余预测，但是消去运动矢量改进。

继续参照SVC JD7规范，在MB层中有用于从基层——如果基层存在——预测信息的若干标志。它们是base_mode_flag(基_模式_标志)、motion_prediction_flag(运动_预测_标志)和residual_prediction_flag(残余_预测_标志)。类似地，在切片报头中已存在标志——adaptive_prediction_flag(自适应_预测_标志)，该标志用于指示MB层中存在base_mode_flag。为了触发隐藏操作，需要针对每个MB将base_mode_flag置位为1，这可通过使用已存在的adaptive_prediction_flag来进行。通过将切片报头标志adaptive_prediction_flag设置为0，并且虑及帧间MB中residue_prediction_flag的默认值为1，可指示跳过切片中的所有MB(使用mb_skip_run(宏块_跳过_运行)或mb_skip_flag(宏块_跳过_标志)信令)并且由此引导解码器本质地执行本文所公开的隐藏操作。

应当认识到，隐藏技术的潜在可能的缺陷在于，在没有S1和S2的情况下经编码的流的比特率可能变得不均匀或“突发”，因为S0帧通常非常大(例如，高达总带宽的45％)。为了减轻这种行为，在变形(下文中的“渐进隐藏”)中，可通过将S0分组划分成较小的分组和/或切片并在连续S0画面之间的时间间隔上散布其传输来传送这些S0分组。对于第一S2画面而言，整个S0画面将不可用，但是已被第一S2画面接收到的信息(即，S0以及整个L0和L2的部分)可用于隐藏用途。这样，解码器也可及时地恢复适当的参看帧以显示L1/S1画面，这将进一步有助于创建L1/S1画面以及第二L2/S2两者的经解码版本。否则，随着它们进一步远离L0画面，它们可由于运动而显示更多隐藏伪像。

用于减轻突发S0传输的影响的另一替换性解决方案是通过以增加的端对端延迟为代价进行附加缓冲来平滑掉可变比特率(VBR)通信量。注意：在多点会议应用中，在服务器处有固有统计多路复用。因此，源于服务器的通信量的VBR行为将自然被平滑掉。

国际专利申请No.PCT/US06/061815描述了差错弹性和随机接入的问题并提供了适用于不同应用环境的解决方案。

渐进隐藏技术提供了用于执行视频切换的进一步的解决方案。上述渐进隐藏技术也可用于视频切换。示例性切换应用是关于在QCIF和CIF分辨率下编码的具有三层线程结构的单环路空间可缩放信号——具有图7中所示的三层线程结构。如国际专利申请No.PCT/US06/061815所描述的，可通过确保一部分L0画面的可靠传输来实现提升的差错弹性。被可靠传送的L0画面被称为LR画面。相同的线程化结构模式可扩展到S画面，如图10中所示。S画面的时间预测路径与L画面的那些相同。出于示例的目的，图10示出了1/3的示例性SR周期(每3个S0画面中有一个是SR)。实际上，根据本发明的原理，可使用不同周期和不同线程模式。此外，可使用S和L画面中的不同路径，但是对于S画面而言编码效率降低。关于LR画面，SR画面被假定为被可靠传送。如国际专利申请No.PCT/US06/061815中所述地，这可使用诸如区分型服务编码(其中LR和SR是在HRC中)、FEC或ARQ等许多技术来实现。

在渐进隐藏技术的示例性切换应用、渐进隐藏技术中，接收QCIF信号的终端处的最终用户可能希望切换至CIF信号。为了能够开始解码增强层CIF信号，终端必需获得至少一个正确的CIF参考画面。国际专利申请No.PCT/US06/061815中所公开的技术涉及使用周期性内宏块，以使得在一时段内CIF画面的所有宏块将被帧内编码。缺点在于，如果使内宏块的百分比保持较低(以最小化对总带宽的影响)，则如此进行将占用大量时间。相反，渐进隐藏技术的切换应用利用SR画面的可靠传输以使得能够开始解码增强层CIF信号。

SR画面可被传送到接收器并被解码，即使其在QCIF级下工作也如此。由于它们是稀少的，因此它们对比特率的整体影响会是最小的。当用户切换到CIF分辨率时，解码器可利用最近的SR帧，并且就像中间S画面直至接收到的第一个S画面丢失那样继续进行。如果附加比特率是可用的，则发送器或服务器还可转发所有中间S0画面的高速缓存的版本以进一步帮助接收机尽可能地靠近CIF回放的起始帧构建参考画面。S1/S2隐藏技术的率-性能将确保对质量的影响被最小化。

在最终用户以例如HCIF的中间输出分辨率解码并期望切换至CIF时，还可有益地使用本发明的技术。可从L0-L2以及S0-S2画面的部分(例如，仅S0)外加对经丢弃的S帧的隐藏有效地导出HCIF信号。在此情形中，接收S0画面的至少一部分的解码器可在极小PSNR惩罚的情况下直接切换到CIF分辨率。此外，只要下一S0/SR画面到达，就可消去此惩罚。因此，在此情形中，实际上没有开销且可几乎即刻实现切换。

注意：尽管典型的空间编码结构采用1:4画面区比，某些用户更适合于1:2的分辨率变化。因此，实际上，例如在台式机通信应用中，HCIF到CIF的切换转移的可能性远大于QCIF到CIF切换转移。视频会议中的普遍情况在于，屏幕资源(screen real estate)被划分成由其他参与者的较小画面围绕活跃说话者的较大画面，并且其中活跃说话者的图像自动地占据较大图像。在使用本文所述的率控制方法创建较小图像的情形中，可频繁进行这种切换而没有任何开销。可在“活跃”布局中频繁进行参与者图像的切换而没有任何开销。对于适应偏好观看此类活跃布局的会议参与者以及偏好静态视图的其他会议参与者而言，这种特征是合需的。由于通过隐藏切换的方法不要求由编码器发送任何附加信息，因此一个接收器对布局的选择不会影响其他接收器接收到的带宽。

前述描述涉及对跨越由编码器直接提供的分辨率/比特率之间的范围的中间分辨率和比特率创建高效的再现。应当理解，诸如数据分割或重新量化等用于降低比特率(例如，通过引入漂移)的已知的其它方法可结合本文所述的本发明的方法来由SVCS/CSVCS使用以提供对比特流的更复杂的操纵。例如，假定在仅有QCIF和CIF可用时1/3CIF分辨率是合需，并且使用SR、S0-S2编码结构。消去S1和S2只会导致过高而无法有效用作1/3 CIF的比特率。此外，消去S0会导致过低和/或因运动相关伪像而在视觉上无法被接受的比特率。在此类情形中，使用如数据分割或重新量化的已知方法减少S0帧的比特量可有益地结合SR传输(或者以VBR模式或者使用渐进隐藏)以提供进一步最优化的结果。应当理解，这些方法可应用于S1和S2级来实现进一步微调的率控制。

尽管本文使用H.264SVC草案标准描述了优选实施例，但是对于本领域技术人员而言，这些技术可直接应用于允许多个空间/质量和时间级的任何编码结构是显而易见的。

应当理解，根据本发明，本文所描述的可缩放编解码器和隐藏技术可使用硬件和软件的任何合适组合来实现。用于实现和操作前述可缩放编解码器的软件(即，指令)可被设置在计算机可读介质上，这些计算机可读介质可包括但不限于：固件、存储器、存储设备、微控制器、微处理器、集成电路、ASICS、可在线下载的媒体以及其它可用介质。

Claims

1.一种数字视频解码系统，所述系统包括：

解码器，它能够将接收到的、以支持时间可缩放性以及空间和质量可缩放性的至少之一的可缩放视频编码格式编码的数字视频信号解码，

其中所述可缩放视频编码格式对于空间可缩放性包括基空间层和至少一个空间增强层，对于质量可缩放性包括基质量层和至少一个质量增强层，而对于时间可缩放性包括基时间层和至少一个时间增强层，其中所述基时间层和增强时间层通过所述空间或质量可缩放性层的至少之一的线程化画面预测结构来互连，

并且其中，对于解码比相应基层高的目标空间或质量层上的画面，所述解码器被配置成在所述目标层的经编码的信息的一部分丢失或不可用时使用来自比所述目标层低的层的经编码的信息。

2.如权利要求1所述的系统，其特征在于，所述数字视频解码系统被设置在接收端点中，所述系统还包括：

链接通信网络；

会议服务器，它通过所述通信网络上至少一个通信信道链接到所述接收端点和至少一个传送端点，以及

至少一个端点，它传送以所述可缩放视频编码格式编码的所述经编码的数字视频，

其中所述会议服务器被配置成在创建转发给所述接收端点的输出视频信号之前选择性地消去接收自传送端点的输入视频信号中对应于比所述基空间或质量层高的层的那些部分。

3.如权利要求2所述的系统，其特征在于，链接到所述接收端点和至少一个传送端点的所述会议服务器是以下之一：

使用级联解码和编码的译码多点控制单元；

通过选择哪个输入作为输出来传送的切换多点控制单元；

使用选择性多路复用的可缩放视频通信服务器；以及

使用选择性多路复用和比特流级合成的合成可缩放视频通信服务器。

4.如权利要求2所述的系统，其特征在于，所述至少一个传送端点的编码器被配置成将所传送的媒体编码成具有多个不同时间级的线程化编码结构的帧，其中所述帧的子集(“R”)被特别选择进行可靠输送并且至少包括所述线程化编码结构中最低时间层的帧，以使得所述解码器可在分组丢失或差错之后基于可靠接收到的类型R的帧将接收到的媒体的至少一部分解码，并此后与所述编码器同步，并且其中在创建转发给所述接收端点的所述输出视频信号之前，所述服务器仅选择性地消去接收自传送端点的所述输入视频中对应于比所述基空间或质量层高的层的非R帧中的那些部分。

5.如权利要求2所述的系统，其特征在于，所述会议服务器还被配置成控制被转发到所述至少一个接收端点的所述输出视频信号的传输率，以使得接收自传送端点的所述输入视频信号中对应于比所述基空间或质量层高的层的、被保留的那些部分不对所述输出比特率的平滑性产生不利影响。

6.如权利要求2所述的系统，其特征在于，由所述会议服务器进行的选择性消去是根据期望输出比特率要求来执行的。

7.如权利要求1所述的系统，其特征在于，所述数字视频解码系统被设置在接收端点中，所述系统还包括：

传送端点，它传送使用可缩放视频编码格式编码的数字视频；

通信网络，它链接所述传送端点与所述接收端点，

其中所述传送端点被配置成在创建传送给所述至少一个接收端点的所述输出视频信号之前选择性地不传送其输入视频信号中对应于比所述基空间或质量层高的层的那些部分以便实现期望的输出比特率。

8.如权利要求7所述的系统，其特征在于，所述传送端点的编码器被配置成将所传送的媒体编码成具有多个不同时间级的线程化编码结构中的帧，其中所述帧的子集(“R”)被特别选择进行可靠输送并至少包括所述线程化编码结构中最低时间层的帧，以使得所述解码器可在分组丢失或差错之后基于可靠接收到的所述类型R的帧将所接收到媒体的至少一部分解码并此后与所述编码器同步，并且其中所述编码器仅选择性地不向所述至少一个接收端点传送其输入视频信号中对应于比所述基空间或质量层高的层的非R帧中的那些部分。

9.如权利要求7所述的系统，其特征在于，所述传送端点还被配置成控制被转发到所述至少一个接收端点的所述输出视频信号的所述传输率，以使得其输入视频信号中对应于比所述基空间或质量层高的层的、被保留的那些部分不对所述输出比特率的平滑性产生不利影响。

10.如权利要求7所述的系统，其特征在于，所述传送端点的选择性传输的决策是根据期望输出比特率要求来执行的。

11.如权利要求1所述的系统，其特征在于，所述解码器被配置成在落在由所述经编码的视频信号提供的紧邻较低空间层与紧邻较高空间层之间的期望空间分辨率下显示经解码的输出画面。

12.如权利要求1所述的系统，其特征在于，所述解码器还被配置成通过将所述紧邻较高空间层的所有经编码的数据缩放至所述期望空间分辨率来在所述期望空间分辨率下操作所述紧邻较高空间层的解码环路，并且其中所述结果漂移通过使用以下至少之一来消去：

周期性内画面；

内基层模式的周期性使用；以及

所述紧邻较高空间层的至少最低时间层的全分辨率解码。

13.如权利要求1所述的系统，其特征在于，所述可缩放视频编码格式还被配置成具有以下至少之一：

周期性内画面，

周期性内宏块，以及

线程化画面预测，

以便在丢失或不可用的所述目标层的经编码信息对应于所述基时间层时避免漂移。

14.如权利要求1所述的系统，其特征在于，所述可缩放视频编码格式是基于诸如H.264、VC-1或AVS标准中的混合编码，其中当所述目标层的经编码的信息的部分或全部丢失或不可用时，来自较由所述解码器使用的所述目标层低的空间或质量层的所述经编码的信息包括以下至少之一：

运动矢量数据，针对所述目标层的分辨率被适当缩放；

经编码的预测差错差异，被上采样至所述目标层的分辨率；以及

内数据，被上采样至所述目标层的分辨率，

并且其中所述解码器还被配置成使用所述目标层的经解码画面作为所述解码过程中的参考以便构建所述经解码的输出画面，而非所述较低层的经解码参考画面。

15.如权利要求1所述的系统，其特征在于，所述解码器还被配置成针对较所述目标空间或质量层高的空间或质量层对至少所述基时间层操作至少一个解码环路，以使得当所述解码器切换目标层时其可立即在新的目标层分辨率下显示经解码的画面。

16.一种视频通信系统，包括：

通信网络，

会议服务器，它被设置在所述网络中并通过所述通信网络上的至少一个通信信道链接到至少一个接收端点和至少一个传送端点，

至少一个端点，它传送使用可缩放视频编码格式编码的数字视频，以及

至少一个接收端点，它能够将以支持时间可缩放性以及空间和质量可缩放性中的至少之一的可缩放视频编码格式编码的数字视频信号解码，

并且其中所述会议服务器被配置成在创建转发到所述至少一个接收端点的所述输出视频信号之前，选择性地消去或修改接收自传送端点的所述输入视频信号中对应于较所述基空间或质量层高的层的那些部分，以使得较低空间或质量层数据的使用被发信号通知或被显式编码在所述输出视频信号中以在较所述基空间或质量层高的分辨率下解码画面时使用。

17.如权利要求16所述的系统，其特征在于，其中可缩放视频编码格式是基于诸如H.264、VC-1或AVS标准中的混合编码的所述可缩放编码格式，并且其中被发信号通知来使用或在转发到所述至少一个接收端点的所述输出视频信号中显式编码的所述较低空间或质量层数据包括以下至少之一：

运动矢量数据，

经编码的预测差错差异，

内数据，以及

参考画面指示符，

其中当所述数据在传送到所述一个或多个接收端点的所述输出视频信号中被显式编码时，还被适当地缩放至所期望的目标分辨率。

18.如权利要求16所述的系统，其特征在于，所述服务器还被配置成创建转发到如以下之一的所述至少一个接收端点的所述输出视频信号：

使用级联的解码和编码来译码多点控制单元；

通过选择哪个输入作为输出来传送的切换多点控制单元；

使用选择性多路复用的可缩放视频通信服务器；以及

19.如权利要求16所述的系统，其特征在于，所述至少一个传送端点的编码器被配置成将所传送的媒体编码成具有多个不同时间级的线程化编码结构的帧，其中所述帧的子集(“R”)被特别选择进行可靠输送并且至少包括所述线程化编码结构中最低时间层的帧，以使得所述解码器可在分组丢失或差错之后基于可靠接收到的类型R的帧将接收到的媒体的至少一部分解码，并此后与所述编码器同步，并且其中在创建转发给所述至少一个接收端点的所述输出视频信号之前，所述服务器仅选择性地消去接收自传送端点的所述输入视频中对应于较所述基空间或质量层高的层的非R帧中的那些部分。

20.如权利要求16所述的系统，其特征在于，所述会议服务器还被配置成控制被转发到至少一个接收端点的所述输出视频信号的所述传输率，以使得接收自传送端点的所述输入视频信号中对应于较所述基空间或质量层高的层的、被保留的部分不对所述输出比特率的平滑性产生不利影响。

21.如权利要求16所述的系统，其特征在于，由所述会议服务器进行的选择性消去或修改是根据期望输出比特率要求来执行的。

22.如权利要求16所述的系统，其特征在于，所述至少一个接收端点被配置成在落在由所述接收到的经编码的视频信号提供的紧邻较低空间层与紧邻较高空间层之间的期望空间分辨率下显示所述经解码的输出画面。

23.如权利要求22所述的系统，其特征在于，所述至少一个接收端点还被配置成通过将所述紧邻较高空间层的所有经编码的数据缩放至所述期望空间分辨率来在所述期望空间分辨率下操作所述紧邻较高空间层的所述解码环路，并且其中所述结果漂移通过使用以下至少之一来消去：

周期性内画面，

内基层模式的周期性使用，

所述紧邻较高空间层的至少最低时间层的全分辨率解码。

24.如权利要求16所述的系统，其特征在于，所述可缩放视频编码格式还被配置成具有以下至少之一：

周期性内画面；

周期性内宏块；以及

线程化画面预测；

以便在被修改或消去的、较所述基空间或质量层高的经编码信息对应于所述基时间层时避免漂移。

25.如权利要求16所述的系统，其特征在于，所述接收端点还被配置成针对较所述目标空间或质量层高的空间或质量层对至少所述基时间层操作至少一个解码环路，以使得当所述至少一个接收端点切换目标层时其可立即在新的目标层分辨率下显示经解码的画面。

26.一种视频通信系统，包括：

通信网络，

一个端点，它传送使用可缩放视频编码格式编码的数字视频，以及

其中所述可缩放视频编码格式对于空间可缩放性包括基空间层和至少一个空间增强层，对于质量可缩放性包括基质量层和至少一个质量增强层，而对于时间可缩放性包括基时间层和至少一个时间增强层，其中所述基时间层和增强时间层通过所述空间或质量可缩放性层的至少之一的线程化画面预测结构来互连，以及

其中所述传送端点被配置成在创建转发到所述至少一个接收端点的所述输出视频信号之前，选择性地消去或修改其经编码的视频信号中对应于较所述基空间或质量层高的层的那些部分，以使得较低空间或质量层数据的使用被发信号通知或被显式编码在所述输出视频信号中以在较所述基空间或质量层高的分辨率下解码画面时使用。

27.如权利要求26所述的系统，其特征在于，所述可缩放视频编码格式是基于诸如H.264、VC-1或AVS标准中的混合编码，并且其中被发信号通知来使用或在转发到所述至少一个接收端点的所述输出视频信号中显式编码的所述较低空间或质量层数据包括以下至少之一：

运动矢量数据；

经编码的预测差错差异；

内数据；以及

参考画面指示符，

28.如权利要求26所述的系统，其特征在于，所述传送端点被配置成将所传送的媒体编码成具有多个不同时间级的线程化编码结构的帧，其中所述帧的子集(“R”)被特别选择进行可靠输送并且至少包括所述线程化编码结构中最低时间层的帧，以使得所述解码器可在分组丢失或差错之后基于可靠接收到的类型R的帧将接收到的媒体的至少一部分解码，并此后与所述编码器同步，并且其中在创建传送到所述至少一个接收端点的所述输出视频信号之前，所述传送端点仅选择性地消去接收自传送端点的所述输入视频中对应于较所述基空间或质量层高的层的非R帧中的那些部分。

29.如权利要求26所述的系统，其特征在于，所述传送端点还被配置成控制被传送到所述至少一个接收端点的所述输出视频信号的所述传输率，以使得其输入视频信号中对应于较所述基空间或质量层高的层的、被保留的那些部分不对所述输出比特率的平滑性产生不利影响。

30.如权利要求26所述的系统，其特征在于，由所述传送端点进行的选择性消去或修改是根据期望输出比特率要求来执行的。

31.如权利要求26所述的系统，其特征在于，所述至少一个接收端点被配置成在落在由所述接收到的经编码的视频信号提供的紧邻较低空间层与紧邻较高空间层之间的期望空间分辨率下显示所述经解码的输出画面。

32.如权利要求26所述的系统，其特征在于，所述至少一个接收端点还被配置成通过将所述紧邻较高空间层的所有经编码的数据缩放至所述期望空间分辨率来在所述期望空间分辨率下操作所述紧邻较高空间层的所述解码环路，并且其中所述结果漂移通过使用以下至少之一来消去：

周期性内画面，

内基层模式的周期性使用，

所述紧邻较高空间层的至少最低时间层的全分辨率解码。

33.如权利要求26所述的系统，其特征在于，所述可缩放视频编码格式还被配置成具有以下至少之一：

周期性内画面；

周期性内宏块；以及

线程化画面预测，

34.如权利要求26所述的系统，其特征在于，所述接收端点还被配置成针对较所述目标空间或质量层高的空间或质量层对至少所述基时间层操作至少一个解码环路，以使得当所述至少一个接收端点切换目标层时其可立即在新的目标层分辨率下显示经解码的画面。

35.一种用于解码数字视频的方法，所述数字视频信号是以支持时间可缩放性以及空间和质量可缩放性中的至少之一的可缩放视频编码格式编码的，

所述方法包括：

在解码器处接收所述数字视频信号；以及

对于解码较相应基层高的目标空间或质量层上的画面，当所述目标层的经编码的信息的部分丢失或不可用时，使用来自所述线程化预测结构中较所述目标层低的空间或质量层的经编码的信息。

36.如权利要求35所述的方法，其特征在于，所述解码器被设置在链接通信网络中的接收端点中，

其中会议服务器通过所述通信网络上的至少一个通信信道链接到所述接收端点和至少一个传送端点，以及

其中所述至少一个传送端点传送以所述可缩放视频编码格式编码的所述经编码的数字视频，

所述方法还包括在所述会议服务器处，在创建转发给所述接收端点的输出视频信号之前，选择性地消去接收自传送端点的输入视频信号中对应于较所述基空间或质量层高的层的那些部分。

37.如权利要求36所述的方法，其特征在于，链接到所述接收端点和至少一个传送端点的所述会议服务器是以下之一：

使用级联的解码和编码来译码多点控制单元；

通过选择哪个输入作为输出来传送的切换多点控制单元；

使用选择性多路复用的可缩放视频通信服务器；以及

38.如权利要求36所述的方法，其特征在于，还包括，在所述至少一个传送端点的编码器处，将所传送的媒体编码成具有多个不同时间级的线程化编码结构的帧，其中所述帧的子集(“R”)被特别选择进行可靠输送并且至少包括所述线程化编码结构中最低时间层的帧，以使得所述解码器可在分组丢失或差错之后基于可靠接收到的类型R的帧将接收到的媒体的至少一部分解码，并此后与所述编码器同步，并且其中在创建转发给所述接收端点的所述输出视频信号之前，所述服务器仅选择性地消去接收自传送端点的所述输入视频中对应于较所述基空间或质量层高的层的非R帧中的那些部分。

39.如权利要求36所述的方法，其特征在于，还包括，在所述会议服务器处，控制被转发到所述至少一个接收端点的所述输出视频信号的所述传输率，以使得接收自传送端点的所述输入视频信号中对应于较所述基空间或质量层高的层的、被保留的部分不对所述输出比特率的平滑性产生不利影响。

40.如权利要求36所述的方法，其特征在于，由所述会议服务器进行的选择性消去是根据期望输出比特率要求来执行的。

41.如权利要求35所述的方法，其特征在于，

传送端点传送使用可缩放视频编码格式编码的数字视频；

其中通信网络链接所述传送端点与所述接收端点，

所述方法还包括，在创建传送给所述至少一个接收端点的所述输出视频信号之前，在所述传送端点处选择性地不传送其输入视频信号中对应于较所述基空间或质量层高的层的那些部分以便实现期望的输出比特率。

42.如权利要求41所述的方法，其特征在于，还包括，在所述传送端点处，将所传送的媒体编码成具有多个不同时间级的线程化编码结构中的帧，其中所述帧的子集(“R”)被特别选择进行可靠输送并至少包括所述线程化编码结构中最低时间层的帧，以使得所述解码器可在分组丢失或差错之后基于可靠接收到的所述类型R的帧将所接收到媒体的至少一部分解码并此后与所述编码器同步，并且其中所述编码器仅选择性地不向所述至少一个接收端点传送其输入视频信号中对应于较所述基空间或质量层高的层的非R帧中的那些部分。

43.如权利要求41所述的方法，其特征在于，还包括，在所述传送端点处，控制被转发到所述至少一个接收端点的所述输出视频信号的所述传输率，以使得其输入视频信号中对应于较所述基空间或质量层高的层的、被保留的那些部分不对所述输出比特率的平滑性产生不利影响。

44.如权利要求41所述的方法，其特征在于，由所述传送端点进行的选择性传输的决策是根据期望输出比特率要求来执行的。

45.如权利要求35所述的方法，其特征在于，还包括，在所述解码器处，在落在由所述经编码的视频信号提供的紧邻较低空间层与紧邻较高空间层之间的期望空间分辨率下显示经解码的输出画面。

46.如权利要求35所述的方法，其特征在于，还包括，在所述解码器处，通过将所述紧邻较高层的所有经编码的数据缩放至所述期望空间分辨率来在所述期望空间分辨率下操作所述紧邻较高空间层的所述解码环路，并且其中所述结果漂移通过使用以下至少之一来消去：

周期性内画面；

内基层模式的周期性使用；以及

所述紧邻较高空间层的至少最低时间层的全分辨率解码。

47.如权利要求35所述的方法，其特征在于，所述可缩放视频编码格式还被配置成具有以下至少之一：

周期性内画面，

周期性内宏块，以及

线程化画面预测，

48.如权利要求35所述的方法，其特征在于，所述可缩放视频编码格式是基于诸如H.264、VC-1或AVS标准中的混合编码，其中当所述目标层的经编码的信息的部分或全部丢失或不可用时，来自较由所述解码器使用的所述目标层低的空间或质量层的所述经编码的信息包括以下至少之一：

运动矢量数据，针对所述目标层的分辨率被适当缩放；

内数据，被上采样至所述目标层的分辨率，

所述方法还包括，在所述解码器处，使用所述目标层的经解码画面作为所述解码过程中的参考以便构建所述经解码的输出画面，而非所述较低层的经解码参考画面。

49.如权利要求35所述的方法，其特征在于，还包括，在所述解码器处，针对较所述目标空间或质量层高的空间或质量层对至少所述基时间层操作至少一个解码环路，以使得当所述解码器切换目标层时其可立即在新的目标层分辨率下显示经解码的画面。

50.一种用于通信网络上的视频通信的方法，所述网络具有设置于其中且通过所述通信网络上的至少一个通信信道链接到至少一个接收端点和至少一个传送端点的会议服务器，所述至少一个端点传送使用可缩放视频编码格式编码的数字视频，并且所述至少一个接收端点能够将以支持时间可缩放性以及空间和质量可缩放性的至少之一的可缩放视频编码格式编码的数字视频信号解码，其中所述可缩放视频编码格式对于空间可缩放性包括基空间层和至少一个空间增强层，对于质量可缩放性包括基质量层和至少一个质量增强层，而对于时间可缩放性包括基时间层和至少一个时间增强层，其中所述基时间层和增强时间层通过所述空间或质量可缩放性层的至少之一的线程化画面预测结构来互连，

所述方法包括：

在创建转发到所述至少一个接收端点的所述输出视频信号之前，在所述会议服务器处，选择性地消去或修改接收自传送端点的所述输入视频信号中对应于较所述基空间或质量层高的层的那些部分，以使得较低空间或质量层数据的使用被发信号通知或被显式编码在所述输出视频信号中以在较所述基空间或质量层高的分辨率下解码画面时使用。

51.如权利要求50所述的方法，其特征在于，所述可缩放视频编码格式是基于诸如H.264、VC-1或AVS标准中的混合编码，并且其中被发信号通知来使用或在转发到所述至少一个接收端点的所述输出视频信号中显式编码的所述较低空间或质量层数据包括以下至少之一：

运动矢量数据，

经编码的预测差错差异，

内数据，以及

参考画面指示符，

52.如权利要求50所述的方法，其特征在于，所述服务器还被配置成创建转发到如以下之一的所述至少一个接收端点的所述输出视频信号：

使用级联的解码和编码来译码多点控制单元；

通过选择哪个输入作为输出来传送的切换多点控制单元；

使用选择性多路复用的可缩放视频通信服务器；以及

53.如权利要求50所述的方法，其特征在于，还包括，在所述至少一个传送端点的编码器处，将所传送的媒体编码成具有多个不同时间级的线程化编码结构的帧，其中所述帧的子集(“R”)被特别选择进行可靠输送并且至少包括所述线程化编码结构中最低时间层的帧，以使得所述解码器可在分组丢失或差错之后基于可靠接收到的类型R的帧将接收到的媒体的至少一部分解码，并此后与所述编码器同步，并且其中在创建转发给所述至少一个接收端点的所述输出视频信号之前，所述服务器仅选择性地消去或修改接收自传送端点的所述输入视频中对应于较所述基空间或质量层高的层的非R帧中的那些部分。

54.如权利要求50所述的方法，其特征在于，还包括，在所述会议服务器处，控制被转发到所述至少一个接收端点的所述输出视频信号的所述传输率，以使得接收自传送端点的所述输入视频信号中对应于较所述基空间或质量层高的层的、被保留的部分不对所述输出比特率的平滑性产生不利影响。

55.如权利要求50所述的方法，其特征在于，还包括，在所述会议服务器处根据期望输出比特率要求来执行所述选择性消去或修改。

56.如权利要求50所述的方法，其特征在于，还包括，在所述至少一个接收端点处，在落在由所接收到的经编码的视频信号提供的紧邻较低空间层与紧邻较高空间层之间的期望空间分辨率下显示所述经解码的输出画面。

57.如权利要求56所述的方法，其特征在于，还包括，在所述至少一个接收端点处，通过将所述紧邻较高空间层的所有经编码的数据缩放至所述期望空间分辨率来在所述期望空间分辨率下操作所述紧邻较高空间层的所述解码环路，并且其中所述结果漂移通过使用以下至少之一来消去：

周期性内画面，

内基层模式的周期性使用，

所述紧邻较高空间层的至少最低时间层的全分辨率解码。

58.如权利要求50所述的方法，其特征在于，所述可缩放视频编码格式还被配置成具有以下至少之一：

周期性内画面；

周期性内宏块；以及

线程化画面预测；

59.如权利要求50所述的方法，其特征在于，还包括，在所述至少一个接收端点处，针对较所述目标空间或质量层高的空间或质量层对至少所述基时间层操作至少一个解码环路，以使得当所述至少一个接收端点切换目标层时其可立即在新的目标层分辨率下显示经解码的画面。

60.一种视频通信方法，包括：

通信网络，

61.如权利要求60所述的方法，其特征在于，所述可缩放视频编码格式是基于诸如H.264、VC-1或AVS标准中的混合编码，并且其中被发信号通知来使用或在转发到所述至少一个接收端点的所述输出视频信号中显式编码的所述较低空间或质量层数据包括以下至少之一：

运动矢量数据；

经编码的预测差错差异；

内数据；以及

参考画面指示符，

62.如权利要求60所述的方法，其特征在于，还包括，在所述传送端点处，将所传送的媒体编码成具有多个不同时间级的线程化编码结构中的帧，其中所述帧的子集(“R”)被特别选择进行可靠输送并至少包括所述线程化编码结构中最低时间层的所述帧，以使得所述解码器可在分组丢失或差错之后基于可靠接收到的所述类型R的帧解码所接收到媒体的至少一部分并此后与所述编码器同步，并且其中在创建传送到所述至少一个接收端点的所述输出视频信号之前，所述传送端点仅选择性地消去或修改其输入视频信号中对应于较所述基空间或质量层高的层的非R帧中的那些部分。

63.如权利要求60所述的方法，其特征在于，还包括，在所述传送端点处，控制被传送到所述至少一个接收端点的所述输出视频信号的所述传输率，以使得其输入视频信号中对应于较所述基空间或质量层高的层的、被保留的那些部分不对所述输出比特率的平滑性产生不利影响。

64.如权利要求60所述的方法，其特征在于，还包括，在所述传送端点处根据期望输出比特率要求来执行所述选择性消去或修改。

65.如权利要求60所述的方法，其特征在于，还包括，在所述至少一个接收端点处，在落在由所接收到的经编码的视频信号提供的紧邻较低空间层与紧邻较高空间层之间的期望空间分辨率下显示所述经解码的输出画面。

66.如权利要求65所述的方法，其特征在于，还包括，在所述至少一个接收端点处，通过将所述紧邻较高空间层的所有经编码的数据缩放至所述期望空间分辨率来在所述期望空间分辨率下操作所述紧邻较高空间层的所述解码环路，并且其中所述结果漂移通过使用以下至少之一来消去：

周期性内画面，

内基层模式的周期性使用，

所述紧邻较高空间层的至少最低时间层的全分辨率解码。

67.如权利要求60所述的方法，其特征在于，所述可缩放视频编码格式还被配置成具有以下至少之一：

周期性内画面；

周期性内宏块；以及

线程化画面预测，

68.如权利要求60所述的方法，其特征在于，还包括，在所述接收端点处，针对较所述目标空间或质量层高的空间或质量层对至少所述基时间层操作至少一个解码环路，以使得当所述至少一个接收端点切换目标层时其可立即在新的目标层分辨率下显示经解码的画面。

69.包括用于执行方法权利要求35-68的至少一项中所述的步骤的指令集的计算机可读介质。