CN101341746B

CN101341746B - 用于使用可缩放视频编码和合成可缩放视频会议服务器进行视频会议的系统和方法

Info

Publication number: CN101341746B
Application number: CN200680048122.1A
Authority: CN
Inventors: A·埃尔法泽阿迪斯; O·莎彼洛; T·维格安德; J·查卡莱斯基
Original assignee: Vidyo Inc
Current assignee: Vidyo Inc
Priority date: 2005-12-22
Filing date: 2006-12-22
Publication date: 2011-11-30
Anticipated expiration: 2026-12-22
Also published as: JP4921488B2; AU2006330457A1; EP1985116A2; CN101341746A; AU2006330457B2; WO2007076486A3; CA2633366A1; CA2633366C; JP2009521880A; WO2007076486A2; EP1985116A4

Abstract

提供了用于视频会议的系统和方法。该系统使用可缩放视频编码技术和合成可缩放视频编码服务器(CSVCS)以将来自传送会议参与方的输入视频信号合成为一个转发给接收参与方的单个输出视频信号。服务器被配置成在不对信号进行解码、重新缩放和重编码的情况下合成输入视频信号画面。

Description

用于使用可缩放视频编码和合成可缩放视频会议服务器进行视频会议的系统和方法

相关申请的交叉引用

本申请要求2005年12月22日提交的美国临时专利申请S/N.60/753,343的优先权。此外，本申请涉及国际专利申请No.PCT/US06/28365、PCT/US06/028366、PCT/US06/028367、PCT/US06/027368和PCT/US06/061815以及美国临时专利申请No.60/778,760、60/787,031、60/774,094和60/827,469。所有前述优先权和相关申请通过全文引用而结合于此。

发明领域

本发明涉及多媒体技术和电信。具体地，本发明涉及用于个人对个人和多方会议应用的音频和视频数据的通信和分发。更具体地，本发明涉及个人对个人或多方会议应用的实现，其中某些参与方可能仅能够支持对与单个画面相对应的、使用可缩放视频编码技术编码的视频比特流的接收。本发明也针对在可提供不同水平的服务质量(QoS)的通信网络连接上，以及在其中最终用户可使用不同能力的设备和通信信道接入会议应用的环境中实现此类系统。

发明背景

视频会议系统允许两个或多个远程参与方/端点彼此使用音频和视频实时地传送视频和音频。当仅涉及两个远程参与方时，可使用两个端点之间的适当电子网络上的直接通信传输。当涉及多于两个的参与方/端点时，多点会议单元(MCU)或桥接器通常被用于连接到所有参与方/端点。MCU协调可例如以星形配置连接的多个参与方/端点之间的通信。注意：即使仅涉及两个参与方时，在两个参与方之间使用MCU仍是有益的。

对于视频会议，参与方/端点或终端配备有合适的编码和解码设备。在发送端点，编码器将本地音频和视频输出格式化成适于在电子网络上进行信号传输的经编码形式。相反，在接收端点处，解码器将接收到的具有经编码的音频和视频信息的信号处理成适于接收端点的音频回放或图像显示的经解码形式。

传统上，最终用户自身的图像也在他/她的屏幕上显示以提供反馈(以确保例如个人在视频窗口中的适当定位)。

在通过通信网络实现的实际的视频会议系统中，远程参与方之间的交互式视频会议的质量取决于端对端信号延迟。大于200ms的端对端延迟阻碍了会议参与方之间的逼真实况转播或自然交互。这种长时间的端对端延迟使得为了让正在传送中的来自其他参与方的视频和音频数据到达他们的端点，会议参与方不自然地抑制自己进行积极的参与或响应。

端对端信号延迟包括捕获延迟(例如，与用以填满A/D转换器的缓冲器的时间相对应的延迟)、编码延迟、发送延迟(例如，与向端点的网络接口控制器提交数据包所花的时间相对应的延迟)、以及传输延迟(与包在通信网络中从端点到端点传播的时间相对应的延迟)。另外，通过协调MCU的信号处理时间也构成给定系统中总的端对端延迟的一部分。

MCU的主要任务是混合传入的音频信号，使得单个音频流被发送给所有参与方，并且将由各个参与方/端点发送的视频帧或画面混合成包括每个参与方的画面的公共合成视频帧流。注意：术语帧和画面在本文中可交换使用，并且此外对于本领域技术人员而言，可结合作为单个场或作为组合帧的交织帧的编码(基于场或基于帧的画面编码)是显而易见的。部署在常规通信网络系统中的MCU仅为混合成分发给视频会议会话中的所有参与方的公共合成视频帧中的所有单个画面提供单一的公共分辨率(例如，CIF或QCIF分辨率)。因而，常规通信网络系统不易于提供参与方可籍此能以不同分辨率观看其他参与方的定制视频会议功能。这种定制功能可允许参与方例如以CIF分辨率观看另一特定参与方(例如，正在讲话的参与方)，而以QCIF分辨率观看静默参与方。网络中的MCU可被配置成通过将视频混合操作重复与视频会议中参与方的数目一样多的次数来提供该定制功能。然而，在这种配置中，MCU操作引入了相当大的端对端延迟。此外，MCU必需具有充分的数字信号处理能力来解码多个音频流、混合和重编码它们、以及还解码多个视频流、将它们合成为单个帧(按需使用适当的缩放)和再次将它们重编码成单个流。视频会议解决方案(诸如由加州(94588)普莱森顿的Willow路4750号的泊立康目(Polycom)公司和纽约州(10166)纽约的Park大道200号的坦得勃格(Tandberg)商业销售的系统)必须使用专用硬件组件来提供可接受的质量和性能水平。

传统视频编解码器——其比特流和解码操作在ITU-T推荐H.261；ITU-T推荐H.262|ISO/IEC 13818-2(MPEG-2视频)Main Profile(主型)；ITU-T推荐H.263基线型；ISO/IEC 11172-2(MPEG-1视频)；ISO/IEC 14496-2简单型或改进简单型；ITU-T推荐H.264|ISO/IEC 14496-10(MPEG4-AVC)基线型或主型或高级型中标准化——被规定成以给定空间分辨率和比特率提供单个比特流。因此，当与原始经编码的空间分辨率或比特率相比需要较低空间分辨率或较低比特率的经编码视频信号时，全分辨率信号必须以合需的空间分辨率和比特率来接收、解码、潜在可能的下缩放、和重编码。解码、潜在可能的下采样、以及重编码的过程需要相当多的计算资源，并且通常对视频信号添加相当主观的畸变以及对视频传输添加延迟。

此外，用于视频通信的标准视频编解码器基于“单层”编码技术，该技术固有地不能利用由现代通信网络提供的有区别的QoS能力。用于视频通信的单层编码技术的其它限制在于，即使应用中要求或期望较低的空间分辨率显示，全分辨率信号也必须在接收端点或MCU被接收并执行下缩放地解码。这浪费了带宽和计算资源。

与前述单层视频编解码器不同，在基于“多层”编码技术的“可缩放”视频编解码器中，对给定源视频信号生成两个或多个比特流：基层和一个或多个增强层。基层可以是源信号在最小质量水平下的基本表示。最小质量表示可以是在给定源视频信号的质量(即，信噪比(“SNR”))、空间或时间分辨率方面或这些方面的组合上进行减小。一个或多个增强层对应于用于增加基层的SNR的质量、空间或时间分辨率方面的信息。可缩放视频编解码器是在鉴于异种网络环境和/或异种接收机而开发的。

可缩放编码已成为诸如ITU-T推荐H.262|ISO/IEC 13818-2(MPEG-2视频)SNR可缩放或空间可缩放或高级型的标准的一部分。然而，这种“可缩放”视频编码器视频会议应用的实际使用已受到与可缩放编码相关联的增加的成本和复杂度、以及缺少适于视频的基于高带宽IP通信信道的普遍可用性的牵制。

通过引用结合于此的共同待批且共同转让的国际专利申请No.PCT/US06/02836描述了具体针对视频会议应用的实际可缩放视频编码技术。此外，通过引用结合于此的共同待批且共同转让的国际专利申请No.PCT/US06/02835描述了设计成利用和获益于用于视频会议应用的可缩放视频编码技术的特征的会议服务器架构。通过引用结合于此的共同待批且共同转让的国际专利申请No.PCT/US06/061815描述了用于在设计成利用和获益于用于视频会议应用的可缩放视频编码技术的特征的会议服务器架构中提供差错弹性、层交换和随机访问能力的技术。

目前，考虑提供比先前标准化的可缩放视频编解码器更有效的折衷的ITU-T推荐H.264|ISO/IEC14496-10标准的扩展(Annex G，可缩放视频编码——SVC)。视频编码研究和标准化中进一步的发展包括用于MCU中的差错弹性和视频混合的多个切片组的概念，即，用于将多个输入视频合成为一个输出视频。(参见S.Wenger和M.Horowitz的“Scattered Slices：ANew Error Resilience Tool for H.26L(分散切片：H.26L的新颖差错弹性手段)”，JVT-B027，ITU-T SG16/Q.6以及ISO/IEC JTC 1/SC 29/WG 11和ITU-T推荐H.264|ISO/IEC14496-10的联合视频小组(JVT)的文献)。当所有输入视频信号使用ITU-T推荐H.264|ISO/IEC 14496-10编码时，MCU中不需要解码和重编码，因为各个输入信号可被设置在MCU的输出画面中作为单个切片组。(参见M.M.Hannuksela和Y.K.Wang的“Coding ofParameter Sets(参数集的编码)”，JVT-C078，ITU-T SG16/Q.6和ISO/IECJTC 1/SC 29/WG 11的联合视频小组(JVT)的文献)。

现在对视频会议应用的会议服务器或MCU架构的改进作出考虑。具体地，尤其关注开发用于使用诸如多切片组的经编码的域合成技术将一个或多个输入信号连同可能的服务器生成数据合成为单个输出视频信号的服务器架构。合需的会议服务器架构将支持合需的视频会议特征，诸如连续出席、个人观看或布局、速率匹配、差错弹性和随机进入，并且将避免常规MCU的复杂度和延迟开销。

发明内容

提供了用于视频会议的系统和方法。每个视频会议参与方向会议桥接器MCU或服务器传送经编码的数据比特流。经编码的数据比特流可以是可从其导出多个质量的单层或可缩放视频编码(SVC)数据和/或可缩放音频编码(SAC)数据比特流。MCU或服务器(例如，在下文中为“合成可缩放视频编码服务器”(CSVCS))被配置成将来自传送会议参与方的输入视频信号组合成转发给接收参与方的单个合成输出视频信号。该CSVCS具体地被配置成在不用解码、重新缩放、以及重编码输入信号的情况下组合输出视频信号画面，由此引入很少或不引入端对端延迟。CSVCS的这种“零延迟”架构有益地使得它们能够用在级联配置中。CSVCS的合成输出比特流使得单个视频解码器可将其解码。

在视频会议应用中，每个参与方通过相应数目的物理或虚拟信道向CSVCS传送具有多个层(例如，使用SVC编码的基层以及一个或多个增强层)的可缩放数据比特流。某些参与方还可传送单层比特流。该CSVCS可根据基于具体接收参与方的属性和/或配置的需要来选择来自每个参与方的可缩放比特流的某些部分。这种选择可基于例如具体接收参与方的带宽和希望的视频分辨率。

CSVCS将所选的输入可缩放比特流部分组合成可由一个(或多个)解码器解码的一个(或多个)输出视频比特流。当SVC被用于输出视频比特流时，合成是通过将每个输入视频信号指派给输出视频信号的不同切片组的切片、连同可能生成使得输出流为有效SVC比特流的辅助层数据来完成的。CSVCS被配置成在不进行信号处理或进行最小的信号处理的情况下生成合成输出视频信号。CSVCS可例如被配置成读取传入数据的分组报头，以使得其可将适当的分组选择性地复用成输出比特流的接入单元以组合输出信号，并在随后向参与方的每一个传送经组合的输出信号连同任何所生成的层数据。

在视频会议情形中，输入视频信号内容在给定的时间瞬间可能是足以或不足以覆盖输出比特流的画面中的所有区域。这种不充分可能是例如由于输入视频信号的不同时间分辨率、输入视频信号的时间采样之间的漂移、以及输出视频信号的不完全填充而导致的。CSVCS可被配置成通过生成较高时间分辨率的输出视频信号来修补不充分的画面区域覆盖的问题以是端对端延迟最小化或使由迟到达的输入视频信号导致的其它问题最小化。例如，CSVCS可被配置成针对输出视频信号中不存在输入视频信号内容或该内容不可用的那些部分插入从可访问存储介质检索出的预编码切片。预编码切片可包括报头和可由CSVCS根据输出画面的具体布局计算出或预算出的经编码的切片数据。或者，CSVCS可通过插入指导接收端点简单地复制先前编码的画面来以较高的时间分辨率处理输入视频信号。应当注意，这种经编码的画面数据具有若干字节数量级的极小长度。

根据本发明的视频会议系统的一种示例性实施例，可包括在其上提供了不同服务质量(QoS)的通信网络连接(即，针对所需总带宽、视频编解码器、CSVCS和最终用户终端的某些部分提供高可靠性传输信道)。用于传送参与方的视频编解码器或者是单层视频或者是可缩放视频以使得其在不同的传输带宽水平下提供时间、质量或空间分辨率方面的可缩放性。用于接收参与方的至少一个的视频编解码器支持可缩放视频解码。由传送和接收参与方使用的最终用户终端可以是能够运行视频解码器的多个实例或视频编码器的至少一个实例的专用硬件系统或通用PC。示例性系统的实现可组合传统MCU的功能和/或其它会议服务器(诸如No.PCT/US06/28366中描述的SVCS)的功能与本文所述的CSVCS的功能。在这种组合系统中，MCU、SVCS和CSVCS功能可被选择性地单独或组合使用以服务视频会议会话中的不同部分或实体。

CSVCS的功能可与SVCS的功能互补。该CSVCS可被配置成具有SVCS的功能或优点的部分或全部。然而，CSVCS与SVCS的区别至少在于与像SVCS进行的那样向每个端点发送多个SVC流不同，CSVCS将各个流封装或组合在单个输出SVC流中，其中各个流被指派给不同的切片组。出于所有目的，CSVCS可在随后被考虑为SVCS，其中输出级还包括基于切片组指派的附加过程，以及可能确保输出比特流是顺应的所需的附加层数据的生成。应当注意，所有SVCS功能(例如，速率匹配、个性化布局、差错弹性、随机访问和层匹配、速率控制)可因此在CSVCS上得到支持，以及传送自CSVCS的分组数目将基本上等于从以相同会议设置的SVCS传送的数目。

附图简述

根据以下优选实施例及附图的详细描述，本发明的其它特征、特性以及各种优点将更加显而易见，在附图中：

图1是根据本发明的原理其中合成可缩放视频会议服务器(CSVCS)被配置成自端点传送器向客户端接收器递送可缩放视频和音频数据的视频会议系统的示意性示例；

图2示出了根据本发明的原理从输出视频画面到切片组的示例性划分的框图；

图3示出了根据本发明的原理从输入视频到输出视频画面中各个切片组的示例性指派的框图；

图4示出了根据本发明的原理时间层的示例性分层画面编码结构的框图；

图5示出了根据本发明的原理SNR或空间增强层的示例性分层画面编码结构的框图；以及

图6是根据本发明的原理示出的在对基和增强层具有不同预测路径的情况下的基、时间增强、和SNR或空间增强层的示例性分层画面编码结构的框图。

图7示出了根据本发明的原理基于切片组的合成过程中从输出视频画面到切片组的示例性划分的框图。

图8示出了根据本发明的原理用于在合成从组合了不同的空间可缩放比的CSVCS传送的输出视频信号时构造人造层(artificial layers)的示例性结构的框图。

具体实施方式

本发明提供了用于实现使用可缩放视频编码以及具有提供画面在经编码的域中的合成的服务器的视频会议系统的系统和方法。该系统和方法递送视频和音频数据，它们由传送视频会议参与方通过使用单层编码或可缩放编码技术来编码。可缩放视频编码技术将源数据编码成大量不同比特流(例如，基层和增强层比特流)，后者又以各种时间分辨率、质量分辨率(例如，在SNR方面)——并且在视频的情形中还有空间分辨率——提供对原始信号的表示。接收参与方能够解码比特流，该比特流是使用可缩放视频编码技术来编码，并且包括对于各个输入信号的多个切片组特征。

多个服务器可存在于传送参与方或端点与接收参与方或端点之间的通信路径中。在此情形中，至少路径中的最后服务器将使用可缩放视频编码技术实施将来自传送参与方的传入视频画面合成为单个合成输出画面，并将该合成输出画面传送到接收参与方。值得注意的是，服务器处或藉由其的合成过程无需解码或重编码接收自传送参与方的画面数据，但是可能需要生成附加层数据以确保输出比特流顺应可缩放视频解码器的需要。

为了引用以及帮助对本发明的理解，对于在此描述的本发明的实施例(在下文中称为“SVC实施例”)，假定基层比特流遵从如ITU-T中指定的ITU-T推荐H.264|ISO/IEC 14496-10(MPEG4-AVC)，以及ISO/IEC JTC 1，“用于一般视听服务的高级视频编码”，ITU-T推荐H.264和ISO/IEC14496-10(MPEG4-AVC)。此外，假定增强层比特流遵从ITU-T推荐H.264|ISO/IEC 14496-10(MPEG4-AVC)的可缩放扩展(Annex G可缩放视频编码，在下文中为“SVC”)。使用SVC编解码器会是有益的，例如，当请求输入视频信号在MCU的输出视频画面中呈现画面大小变化时。注意，H.264 AVC和SVC标准是不同的。SVC是将出现在H.264的2007版本中的H.264的单独Annex。对于本发明所描述的实施例，H.264 AVC用于可缩放编解码器基层，而H.264 SVC用于可缩放编解码器增强层。然而，为了便于描述，用于基层(H.264 AVC)和增强层(H.264 SVC)的可缩放视频编解码器在本文中可统称为“SVC”编解码器。还应当注意，尽管H.264AVC被认为是单层编解码器，但是其在时间维度上提供可缩放性。还应当理解，在本发明的所描述实施例中的H.264 AVC和H.264 SVC编解码器的使用仅是示例性的，并且根据本发明的原理，其它适用于合成画面的编解码器可取而代之来使用。

图1示出了可在电子或计算机网络环境中实现的、用于在多点和点对点会议应用中合成画面的示例性系统100。系统100使用一个或多个网络化服务器(例如，合成可缩放视频会议服务器(CSVCS：Compositing ScalableVideo Conferencing Server)110)来协调向会议参与方或客户端120、130和140的定制数据递送。例如，CSVCS 110可协调由端点140生成的发往其它会议参与方的视频流的传输。在系统100中，首先使用SVC技术将视频流150适当地编码或缩小成多个数据分量或层。多个数据层可具有不同的特性或特征(例如，空间分辨率、帧速率、画面质量、信噪比(SNR)等)。在考虑到例如变化的各个用户需求以及电子网络环境中的基础设施规范(例如，CPU能力、显示尺寸、用户偏好和比特率)的情况下，可适当地选择数据层的不同特性或特征。

CSVCS 110可具有类似于国际专利申请No.PCT/US06/028366中描述的可缩放视频会议服务器(SVCS)和可缩放音频会议服务器(SACS)的那些的可缩放视频信号处理特征。然而，具体而言，CSVCS 110还被配置成使用用多个切片组将多个输入视频信号合成为一个输出视频信号的H.264 AVC和H.264 SVC编解码器。

在系统100中，客户端120、130和140各自可使用适合交互式会议的终端。终端可包括人机接口输入/输出设备(例如，相机、麦克风、视频显示器和扬声器)以及其它信号处理组件，诸如编码器、解码器、复用器(MUX)和分用器(DEMUX)。

此外，如共同待批的国际专利申请No.PCT/US06/028366中所描述的，在示例性终端中，相机和麦克风被分别设计成捕捉参与方视频和音频信号，以传送给其他会议参与方。相反，视频显示器和扬声器被分别设计成显示和回放从其他参与方接收到的视频和音频信号。视频显示器也可被配置成任选地显示参与方/终端自身的视频。终端中的相机和麦克风可被耦合至模数转换器(AD/C)，后者又被耦合至其相应的编码器。编码器压缩本地数字信号以使信号传输所需的比特率最小化。编码器的输出数据可被“分组化(packetize)”成RTP分组(例如，通过分组MUX)以在基于IP的网络上传输。分组MUX可使用RTP协议执行传统的复用，以及还可实现任何所需的QoS相关协议处理。例如，如共同待批的国际专利申请No.PCT/US06/061815中所描述的，QoS支持可通过肯定和/或否定确认、连同对解码用于可靠递送的至少最低时间级(temporal level)的基层所必需的分组进行标记来提供。终端的每个数据流可在其自身的虚拟信道或IP术语中的端口号中传送。

在本发明的SVC实施例的实现中，系统100在通过对去往CSVCS的输入比特流使用AVC或SVC编解码器以及对来自CSVCS 110的输出视频比特流使用SVC合成输出画面时利用多个切片组的特性。然而，系统100中的音频信号可独立于输出视频的合成使用本领域中已知的任何合适的技术来编码，例如，在ITU-T推荐的G.711或ISO/IEC 11172-3(MPEG-1音频)中描述的技术。

图2示出了由CSVCS 110提供的示例性输出视频画面200，该画面是多个切片组(例如，切片组1、2、3、4)的合成。切片组之间的分隔或边界在图2中由虚线指示。切片组1、2、3、4可以是ITU-T推荐的H.264|ISO/IEC 14496-10中的语法结构。可在比特流中基于逐画面以ITU-T推荐的H.264|ISO/IEC 14496-10比特流的画面参数集(PPS)来指定对画面的特定切片组的分配。PPS可作为比特流的一部分在带内或带外输送。在带内输送PPS将需要将PPS复用到比特流的接入单元。相反，在带外输送PPS可能需要对PPS传输使用独立的传输信道，或者可在传输环境中在使用解码器之前将PPS实现于解码器中。使用最多达256个不同PPS是可能的。对画面必须使用哪个PPS的信令可通过编号引用在切片报头中指示。

图3示出了从输入视频信号或画面到由CSVCS 110生成的输出视频画面200(图2)的切片组的示例性指派。输入视频信号的指派可通过更改切片报头以及将其指派到输出视频的切片组来在压缩域中实现。例如，在图3中所示的指派中，输入视频信号0被指派到切片组0，输入视频信号1被指派到切片组1，输入视频信号2被指派到切片组2，而输入视频信号3和4被一同指派到切片组3。这种指派可通过将输入视频信号映射到输出画面中切片组的切片来执行。这种方式的映射可导致被指派和未被指派的部分两者以及区域310在一个特定切片组中(图3)。

根据ITU-T推荐的H.264|ISO/IEC 14496-10，整个经解码的画面(例如，输出视频画面200)必须由包含在比特流中的经编码的切片数据来描述。由于从输入视频信号到切片组的切片的指派可导致被指派和未被指派的区域，因此，CSVCS 110被配置成在合成画面时为未被指派的区域创建经编码的切片数据。

在本发明的SVC实施例的实现中，经编码的切片数据可包含跳跃宏块数据或及内部编码宏块数据。后一数据可能是创建输出画面的未经指派区域的内容所必需的。内部编码数据可具有任何合适的内容。该内容可例如描述可用较小比特率传送的诸如平面灰色或黑色纹理的画面信号。替换地或作为补充，内容可描述用户信息、图形注解、和诸如会议控制特征的MCU控制特征的添加。

在系统100中，会议控制特征可响应于客户端/参与方的简单发信号或请求(例如，客户端/参与方指点视频显示图像屏幕上的特定坐标或区域发信号)来激活。出于这个目的，CSVCS 110被配置成将信号转译成由视频显示图像屏幕上的特定坐标或区域表示的动作(例如，使用图像区绘制的并充当发起特定动作的按钮)。客户端发信号可例如使用HTTP技术来进行，其中CSVCS提供用于接收此类信号的HTTP接口，类似于web服务器。

此外，CSVCS 110可被配置成具有存储在可为其所访问的存储介质上的多个版本的经编码的切片数据比特，和/或根据其操作的会议上下文在运行中以最小复杂度生成此类经编码的切片数据比特。

系统200可被配置成有益地使视频会议应用中的端对端延迟性能参数最小化。例如，在系统100的操作中，去往CSVCS 110的输入视频信号可具有不同的时间分辨率或在画面的时间采样之间具有漂移。因此，形成输出视频信号的输入视频信号在CSVCS 110处的到达时间会变化。CSVCS110可被配置成通过由输入视频信号到达时间触发而生成输出画面来解决这种变化的到达时间。这可导致输出视频信号的更高的时间分辨率，并使端对端延迟以及由迟到达的输入视频信号导致的其它问题最小化。此外，CSVCS 110可被配置成对不存在内容的那些视频信号部分插入来自可访问存储介质的预编码切片。

在本发明的一个视频会议实现中，已跳过的画面(即，来自前一帧的所有画面内容的副本)或以低比特率编码的切片可用于表示未改变的输出画面内容。在此类视频会议实现中，接收视频会议参与方将能够通过使用ITU-T推荐的H.264|ISO/IEC 14496-10的ref_pic_list_reordering(参考_画面_列表_重排序)语法结构操作其终端解码器来访问正确的参考画面(即，最初由发送参与方的编码器期望的将被用作参考画面的画面)。此外，CSVCS 110可被适当地配置成更改参考画面列表重排序。类似的处置或过程可用于被采用的任何其它时间分层结构。

在本发明的另一个视频会议实现中，输入视频信号可按经增加的时间分辨率来编码。增加时间分辨率可通过传送先前编码的画面(即，已跳过的画面)的副本的附加画面来实现。与画面分辨率无关，已跳过的CIF画面的字节数目中，2-3个字节对应于画面/切片报头，且2-3个字节对应于宏块的跳跃信令。注意，此比特率是可忽略的。附加画面的编码表示可被存储在发送参与方可访问的存储介质中，或者在运行中以最小复杂度生成并被插入比特流中。在本发明的SVC实施例的实现中，这种每秒中传送的宏块的增加并不一定不利地影响接收端点的处理功能，因为特定的规定可被实现以有效地处理已跳过的切片。此外，H.264 MaxStaticMBPS(最大静态MBPS)处理速率参数(称为ITU-T推荐的H.241中的MaxStaticMBPS)可用于调节ITU-T推荐的H.264|ISO/IEC 14496-10级信令。给定输入视频信号的较高时间分辨率，CSVCS 110可在较高的时间分辨率下操作。CSVCS110还可被配置成根据给定的调度决定包括来自输入视频信号的到达画面以及使用作为已跳过的画面被插入以补偿到达抖动的非参考画面。这种补偿可通过用迟到达编码画面替换已跳过的画面来完成。在此类实现中，发送参与方可将能够通过使用ITU-T推荐的H.264|ISO/IEC 14496-10的ref_pic_list_reordering语法结构操作其编码器来利用正确的参考画面(即，最初期望的将由发送参与方的编码器使用的参考画面)。

在本发明的又一个多点视频会议实现中——其中各个参与方在系统100中请求不同的比特率以及不同的空间和时间分辨率，发送参与方可以多个时间分辨率产生视频信号。图4示出了具有多个时间分辨率画面L0、L1、L2的视频信号的示例性分层线程化时间预测结构400。注意，图4中标为L2的画面未被用作层间预测的参考画面。然而，标为L0和L1的画面形成预测链。当这些画面(L0，L1)之一在接收参与方的解码器处不可供用于参考时，空间-时间差错传播会引入主观视觉畸变。在本发明的SVC实施例中，作为输入信号发送给CSVCS 110的标为L2的画面可标记为“不用于参考”。当L2画面作为合成输出画面的分量由CSVCS发送时，如果合成画面的其它分量被标记为用于参考，则相同的L2画面必须被标记为“用于参考”。这与它们在国际专利申请No.PCT/US06/28365和PCT/US06/28366——其中L2无需标记为用于参考——中描述的基于SVCS的视频会议系统中的使用相反。L2画面的使用差异是由于ITU-T推荐的H.264|ISO/IEC 14496-10不允许画面为参考和非参考切片的合成而是仅为其中之一的合成而造成的。与ITU-T推荐的H.264|ISO/IEC 14496-10相一致，如果到CSVCS 110的多个输入视频信号同时即时地包含参考和非参考切片，则它们不能被混合成同一输出画面。因此，在系统100的操作中，为了将非参考L2画面混合到输出流，CSVCS 110将画面L2标记为参考画面并使用它。画面L2可被编码为需要与画面L0和L1相同的比特量的常规编码画面，并被插入到送往已请求特定(L2)分辨率的接收参与方的输出画面中。对于送往未请求标为L2的画面的另一个接收参与方的输出画面，CSVCS 110可被配置成用与已跳过的画面相对应的比特替换接收自相对应的输入视频信号的关于L2画面的比特。在前述多点视频会议环境中，发送参与方将能够通过使用ITU-T推荐的H.264|ISO/IEC 14496-10的ref_pic_list_reordering语法结构操作其编码器来对画面L0和L2使用正确的参考画面(即，最初期望的将被发送参与方的编码器用于参考的画面)。这个过程可进一步扩展到L1画面，并且可用于速率匹配和统计复用目的，类似于SVCS。

图5示出了示例性分层结构500，它适用于可在系统100的操作中使用的空间可缩放预测，或者SNR可缩放预测或者这些预测的混合。在结构500中，用于预测的基层被标为L0。两个增强层被标为S0和Q0。S0不依赖于Q0，反之亦然。然而，有在预测中依赖于S0或Q0的其它层。在本发明的SVC实施例的实现中，L0可以是QCIF画面，Q0可以是3/2 QCIF画面或CIF画面。在示例性多方视频会议环境中，仅一个接收参与方可请求3/2 QCIF画面而所有其他参与方可请求CIF或QCIF画面。在系统100操作的这种环境中，为了传输中整个系统的效率，发送参与方除生成QCIF和CIF画面之外还可生成3/2 QCIF画面。此外，对于这种环境，CSVCS 110可被适当地配置成以相对应的接收参与方的分辨率转发解码这些信号所需的比特。此外，对于改进的CSVCS 110操作，发送参与方可用可丢弃标志来标示比特流中未被指定或用于预测的那部分，这在例如国际专利申请No.PCT/US06/28365中描述。

图6示出了又一层画面编码结构600，它组合时间分层结构(图4)和空间可缩放分层结构(图5)。经组合的结构可用在系统100的操作中。在此情形中，系统10被配置成使会议实体(即，各个运行可缩放视频编码器的发送参与方、CSVCS 110和各个运行可缩放视频解码器的接收参与方)维护彼此之间的双向控制信道。从发送参与方到CSVCS 110以及从CSVCS110到接收参与方的控制信道在本文中可称为前向控制信道。相反，从接收参与方到CSVCS 110以及从CSVCS 110到发送参与方的控制信道在本文中可称为反向控制信道。在系统操作时，在会议实体之间实际通信之前，可在控制信道上进行能力交换。能力交换可包括由每个发送参与方支持的空间和时间视频分辨率范围的信令。发送者参与方能力的范围被传达给每个接收参与方，后者在随后可相应地选择或限制他或她对来自发送者的视频特征的请求。

通过反向控制信道，接收参与方可请求与当前发送给他的空间视频分辨率不同的空间视频分辨率。类似地，进入视频会议会话的接收参与方可请求特定空间视频分辨率下的视频。在本发明的SVC实施例的实现中，CSVCS 110被配置成通过更改发送给接收参与方的输出画面的切片组边界来响应接收参与方的请求。取决于由发送参与方的可缩放视频编码器所支持的空间分辨率，CSVCS 110可通过其反向控制信道通知可缩放视频编码器其是否需要支持或生成另一空间分辨率以满足接收参与方的请求。

注意：在此，国际专利申请No.PCT/US06/28366描述了设计成处理例如在国际专利申请No.PCT/US06/028365中描述的编码结构的可缩放视频会议服务器(SVCS)。前一申请中描述的SVCS具有针对基于其用于使用可缩放视频编码来操纵视频质量、分辨率和比特率的能力的多点会议设计的各个特征。所描述的SVCS假定会议参与方的端点将部署若干解码器以向最终用户提供多个参与方视图(“连续出席”)。然而，在某些会议情形中，在端点中仅运行单个解码器可能是有益或必需的。对于这种会议情形，所描述的SVCS可被进一步配置或更改成具有和应用本文所述的CSVCS的合成功能。在工作时，经更改的SVCS可在利用未经更改的SVCS的某些或所有功能之后利用CSVCS 110功能。

作为对CSVCS或经更改的SVCS的功能的理解的帮助，通过参照通过引用结合于此的相关国际专利申请No.PCT/US06/28365、PCT/US06/028366、PCT/US06/028367、PCT/US06/027368和PCT/US06/061815在此考虑如何可由CSVCS提供SVCS功能的示例是有益的。

首先，参照国际专利申请No.PCT/US06/028366，注意，在所引用的申请中描述的应用于SVCS操作的保护至少基层数据的相同原理可被直接应用于传送端点与CSVCS之间、CSVCS与接收端点之间、以及在级联的CSVCS之间的网络连接中的CSVCS操作。这种服务质量支持可通过使用与SVCS使用的诸如FEC、ARQ(肯定/否定确认)、主动式重传等那些相类似或相同的手段和技术的CSVCS来提供。如果人造层是由CSVCS创建的，则它们可以与常规层数据(即，从一个或多个传送端点接收到的经编码的画面数据)相同的方式通过较高或较低可靠性信道传送。以与SVCS的那些相类似的方式，CSVCS可通过从合成输出视频流选择性地消去增强层数据来响应于变化的网络状况(例如，拥塞)。由SVCS使用的统计复用技术也可由CSVCS来使用，使得可以仅接收自传送端点的分量画面的子集被允许显著超过其长期平均大小的方式来执行合成输出视频流中画面的时间对齐。CSVCS以与SVCS的音频能力相类似的方式使音频能力具有可缩放编码音频流的特征。对于音频，没有与视频中存在的对应于“空间复用”的切片组概念的等效方案。SVCS的音频特征的并行操作是对音频流的传统混合。然而，这种音频流混合可被认为是SVCS音频操作的附加输出级，使得例如与减小或消去音频剪辑效应相关的算法仍可由CSVC类似地来使用。最后，CSVCS也可以与SVCS相同的方式执行网络相关的功能，诸如网络地址转译、代理等。

注意：SVCS可与CSVCS一同部署在链接一个或多个传送端点与接收端点的级联布置中。如果接收端点需要合成输出画面，则将CSVCS放置作为级联布置中的最后服务器，并且将SVCS放置在级联布置中其它较高位置处是有益的。还注意：国际专利申请No.PCT/US06/028367中描述的通路(trunking)设计可以与SVCS级联布置相类似的方式应用于CSVCS/SVCS级联布置。

还有，在国际专利申请No.PCT/US06/027368中描述的用于SVCS系统的抖动技术可直接应用于CSVCS，其中根据本发明的原理，不被传送的任何增强层数据可用合适的人造层数据来替换。

作为理解CSVCS的或经更改的SVCS的功能的又一帮助，参照国际专利申请No.PCT/US06/061815在此考虑如何可由CSVCS提供SVCS功能的附加示例是有益的。

国际专利申请No.PCT/US06/061815在SVCS系统的上下文中描述的差错弹性、随机访问和层交换技术也可直接用在CSVCS系统中。注意：对于这些技术的应用，传送节点与CSVCS之间的连接可以与传送节点与SVCS之间的连接相同的方式来对待，因为SVCS与CSVCS之间的区别性不同点在于其输出视频信号格式化而非在于连接特性。对于CSVCS与接收端点之间的连接，通过将CSVCS上下文中的每个切片组数据考虑为等效于SVCS上下文中的传送参与方的画面数据，以及观测到：第一，在两种情形中，仅分组报头数据可能是不同的，并且第二，附加人造层数据可由CSVCS生成，可领会可在CSVCS的输出分组中应用相同的差错弹性和随机访问保护技术。例如，对画面数据作标记以在CSVCS环境中进行可靠传输可以与在SVCS环境中的相同的方式执行(例如，经由RTP报头扩展、经由RTCP反馈的RNACK等)。SVCS环境中R画面的概念转化为CSVCS环境中的R切片组的概念。R画面的高速缓冲、传送端点编码器处周期性内部宏块的使用、以及接收端点处的快进(fast-forward)解码也可在CSVCS环境的各个切片组的上下文内应用。在SVCS环境中有用的层交换技术也可以相同的方式使用。例如，基于服务器的内部帧用于差错恢复或者用于支持新的参与方的概念可应用于CSVCS环境中的切片组。类似于SVCS，CSVCS必须解码来自传送参与方的传入视频数据的部分，尤其基层的至少最低时间级，并且配备成如在内部重新编码经解码的画面数据。当多环路解码能力在接收端点可用时，则层交换如SVCS那样被显著简化，因为服务器无需提供内部数据。

最后，美国临时专利申请No.60/778,760和60/787,031中描述的速率控制技术、美国临时专利申请No.60/774,094中描述的流缩减(streamthinning)以及美国临时专利申请No.60/827,469中描述的多播SVCS技术也可直接应用于CSVCS。例如，临时专利申请No.60/787,031中描述的技术——藉此S2画面通过使用基层经编码的信息(模式、运动矢量等)经适当缩放后在解码器处被隐藏——可应用于CSVCS环境中的特定切片组内的数据。值得注意的是，相同的隐藏效果可通过在CSVCS替换S2画面，以及其在合成输出画面中的位置处插入指导解码器使用基层信息的经编码的数据来实现。这种方法的益处是接收端点无需任何特定支持，并且因此任何SVC顺应的解码器将正确地操作。

以上示例仅是示例性的而非旨在穷举或限制。应当理解，根据本发明的原理，在对合成输出视频信号生成过程进行适当处理的情况下，可在CSVCS中执行任何SVCS操作。

通过重新参看图1，还注意：在系统100和CSVCS 110的操作中，合成比特流中存在的与各个参与方相关联的各个比特流可从合成比特流中被容易地提取。CSVCS 110可被配置成从合成比特流中直接提取这些单独的比特流，并将它们重新插入不同的合成比特流。CSVCS 110的这种配置使得级联CSVCS 110能够根据参与方或下游服务器的偏好提供对构成流的完全重新复用。因此，此类具有重新复用能力的CSVCS 110可完全支持经扩展的视频会议系统的级联和分布式操作特征，这在例如国际专利申请No.PCT/US06/28366中有描述。

根据本发明，系统100可被进一步配置成向各个参与方和/或切片组输送信号源标识信息或其他有用信息(例如，目录信息、屏幕帮助(on screenhelp)等)以使得源标识或其他信息可被显示在参与方的显示屏上。系统100的这种配置将允许参与方标识合成画面中包含的流的源。这种标识信息可包括标识在与各个参与方的视频信号相对应的切片组旁边显示的文本串或预组成切片数据。例如，标识信息可包括用姓名(例如，“John Smith”)或用位置(例如，“Dallas，Room A”)标识参与方的文本串。在合成画面中，标识信息或其它被输送的信息可覆盖在每个参与方的各个像素上，或可在围绕被指派给各个参与方的图像区域的未被指派的图像区(例如，图3的未被指派的区域310)中显示。标识信息可或者在带外或者在带内作为私有数据传送。

在下文中，本发明的SVC实施例的描述涉及使用切片组的特定合成机制，以及在需要确保输出比特流顺应可缩放视频解码器时涉及附加层数据的生成。

为了将输入比特流指派给合成画面中的切片组，CSVCS使用描述合成画面中的切片组的布局的映射。具体而言，这种在此后标示为MapOfMbsToSliceGroups(宏块到切片组的映射)的映射提供了包括输出比特流的合成画面的宏块与标识输入比特流的切片组之间的关联。

参看图7，假定服务器处有分别在分辨率QCIF、CIF和CIF下的三个传入流，并且期望从这三个传入流中创建出画面大小4CIF的合成视频信号。图7中示出了可能的映射MapOfMbsToSliceGroups(映射700)。在映射700中，用0作索引的切片组705对应于QCIF流，而切片组1和2(分别为710和720)对应于CIF流。画面中未被指派的区域730也具有切片组索引(例如，在此情形中为3)。

注意：映射MapOfMbsToSliceGroups(例如，映射700)并非唯一，并且可有多种将不同切片组安排在合成画面中的方法。特定布局可通过由用户的特定请求而获得，以及由CSVCS或者任何其它合适的技术自动计算出。类似地，切片组的特定编号可使用任何合适的技术来获得，例如，在一种技术中通过对传入比特流进行索引，并在随后根据其索引以光栅扫描在合成画面中从最小到最大、从左到右、从上到下定位相对应的切片组。

可能需要向接收合成视频信号的参与方传送映射MapOfMbsToSliceGroups，以便能够适当地解码它。这种传输可通过经由如H.264的子款7.3.2.2和7.4.2.2中指定的切片组标识语法在合成信号的画面参数集中结合MapOfMbsToSliceGroups来实现。

具体地，MapOfMbsToSliceGroups可通过如下设置被结合到合成视频信号的画面参数集中：

其中对于图7的示例性指派，NumAssignedAreas为3，而NumMbs为4乘396(4乘CIF)或1583。注意：切片组映射类型2(矩形加背景的集合)也可用在这里来替代类型6(任意指派)。

为了实现来自输入比特流的切片组到输出比特流中相对应切片组的适当指派，给定如由SVC标准指定的切片报头语法，CSVCS必须创建附加映射。这种附加映射是各个流的宏块(MB)索引与合成信号的MB索引之间的对应映射。例如，流1(图7中的710)的宏块索引0对应于合成画面中的MB索引22。将这种两维映射标示为MapMbIndex，对于以上给出的示例，MapMbIndex[1][0]＝22。

用于将切片指派到切片组的过程如下：考虑来自流n(例如，在图7的示例中n＝0、1、2)的切片并执行以下步骤：

(a)解析切片报头的比特流以计算出该切片中第一MB(first_mb_in_slice)的索引。令此数值为k。

(b)使用MapMbIndex确定该MB在合成画面中的相对应索引/位置。即为MapMbIndex[n][k]。

(c)根据子款7.3.1/H.264从切片的NAL单元中消去emulation_prevention_three_byte语法元素。

(d)用数值MapMbIndex[n][k]交换/替换现有first_mb_in_slice语法元素。

(e)根据子款7.3.1/H.264再次将emulation_prevention_three_byte语法元素插入NAL单元。

对将包括在合成输出画面中的所有传入流的所有切片重复上述步骤(a)到(e)。

继续参看图7，对于合成画面中未被指派的区域730(即，未对其指派任何传入流)，CSVCS过程如下：

首先，或最初，对合成画面执行以下步骤：

(a)创建将在此区域中包含经压缩的MB的比特的切片。对于给定的有限画面大小集和CSVCS的配置选项，该切片可被预存储或以另外方式联机计算出。

(b)将切片类型(在切片报头中)设置成2(I切片)。

(c)此切片中第一MB的索引(设置在切片报头中)应当对应于合成画面中第一未被指派的MB的位置(在以上示例中为11)。

(d)用对于高效编码而言较佳地为所有相等值的像素值来填满未被指派的区域。该值较佳地为灰度值，即，对于在左上角MB中高效使用Intra_16x16_DC预测模式而言样本值应当等于128。

(e)将此处所有MB压缩为内部16x16，并且将相对应的MB报头中的mb_type参数设置成此模式。具体地，取决于宏块的具体位置，其模式(mb_type)应当选自：

(i)I_16x16_0_0_0(从其上侧的MB进行垂直预测)

(ii)I_16x16_1_0_0(从其左侧的MB进行水平预测)

(iii)I_16x16_2_0_0(在没有邻元可用时的DC预测)

并且在使用CAVLC时，偏向给予I_16x16_0_0_0或I_16x16_1_0_0mb_type值。当使用CABAC时，偏向给予I_16x16_2_0_0，并且对于切片中的所有宏块而言，此mb_type值相等，以使得CABAC可将其高效地编码。

继续参看图7，对于合成画面中未被指派的区域730的后续画面，执行以下步骤：

(b)将切片类型(在切片报头中)设置成0(P切片)。

(c)此切片中第一MB(first_mb_in_slice)的索引应当对应于合成画面中第一未被指派的MB的位置(在图7的示例中此为11)。

(d)通过设置mb_skip_run(对于CAVLC)或将mb_skip_flag设置成1(对于CABAC)来将所有宏块类型mb_type设置成P_Skip。

注意：在所有切片和切片组中，合成输出画面必须对NAL单元报头的temporal_id(时间_id)和dependency_id(依存性_id)参数具有相同的值。

temporal_id的指派通过以下来获得：

(a)如果输入比特流关于其时间结构在时间上同步，则对输出画面指派与指派给相对应输入画面相同值的temporal_id。这是较佳的操作模式。当输出视频到达时间层和差错弹性处理时，它被作为输入视频来操作。

(b)否则(输入比特流在时间上不同步)，对输出画面指派temporal_id必须被操作成允许用在各个输入比特流中的所有层间预测结构。通常(且实际上)，这导致将相同的层号(temporal_id＝0)指派给输出流的所有画面。

然而，CSVCS可跟踪各个输入比特流的时间依存结构。由于切片(以及，因此的切片组)在分开的分组中传送，因此涉及基于分组的重传、前向纠错、以及通常为SVCS设计的任何技术的差错弹性机制可应用于在CSVCS系统中的切片，并由此应用于切片组。

在CSVCS系统中，用于指派dependency_id的过程如下：

(a)如果输入比特流被同步以使得对于所有层处的所有输出画面而言，输入画面中存在相同值的dependency_id，则该值或经移位的dependency_id值被使用。

(b)否则(dependency_id不同)，输入比特流的dependency_id被调节成使得对于合成输出画面的每一层而言，它们跨切片组相同。这可能需要增加输入信号的某一部分的dependency_id值以及添加额外的基层。

这个过程可通过继续参照图7的示例来理解。在此示例中，两个CIF信号(切片组1710和2720)以及一个QCIF输入信号(切片组0705)被组成4CIF输出画面。假定CIF信号的每一个用空间可缩放性编码，并且具有QCIF分辨率的基层被提供给每个信号。输出画面的基层是包含(在此示例中)分别为两个CIF增强层输入信号(切片组1710和2720，dependency_id＝1)的两个QCIF基层(dependency_id＝0)的CIF画面。此外，假定QCIF输入信号(切片组0705)不具有基层。然后，其dependency_id值等于0，并且在相同层处此相同信号被用作合成输出画面内的两个CIF输入信号(切片组1710和2720)时必须被增至1。因此，必须由CSVCS为合成输出画面的基层创建例如附加QQCIF(四分之一QCIF)基层。在此生成层中包含的画面可以是完全空的，即，仅包含P_Skip宏块且不被用于层间预测。其被创建并添加到合成输出画面仅是为了使SVC顺应解码器能够适当地解码合成输出画面。

当使用空间可缩放性时，必须对与输入信号相对应的切片组使用相同比率的空间分辨率。取决于空间分辨率的比率，执行以下步骤：

(a)如果于输入信号中存在一个分辨率的比率(例如，输入A：QCIF、CIF、4CIF，而输入B：QQVGA、QVGA、VGA等，其中比率为2)，则空间分辨率之间的比率总是匹配。然后，这些分辨率可在合成输出画面的所有空间层被混合。

(b)否则(在输入信号中存在多于一个的空间分辨率的比率)，则中间层可被插入以确保空间分辨率的比率对于合成输出画面的所有层而言相同。

例如，假定空间比率1.5和2都存在于旨在要被合成的输入信号中。更准确地，参照图7，假定CIF切片组1 710输入信号具有2/3 CIF分辨率的基层，CIF切片组2 720具有QCIF基层，而QCIF切片组0具有QQCIF基层。CSVCS必须被配置成在3个空间层且相对应dependency_id值为0、1和2的情况下运行。对于这些要由CSVCS插入合成输出画面的输入信号，必须生成中间人造(‘虚拟(dummy)’)层。这在图8中示出，其中使用了与图7相同的合成画面布局，但是具有传入视频信号的分量的相对应层数据的低层画面也被示出。对于切片组2的CIF输入信号832，必须创建具有2/3 CIF分辨率的人造中间层822，而对于切片组0的QCIF输入信号830，必须创建具有分辨率2/3 QCIF的人造中间层820。最后，对于切片组1的CIF输入信号831，人造基层811必须被创建成具有QCIF分辨率。用于编码这些人造层的有效方法是使用P_Skip模式编码除了初始画面中可包含如先前所述的可被非常有效地表示的内部编码灰度值的宏块之外的所有宏块，而非将它们用于层间预测。

此外，本文进一步的描述涉及将接收自传送端点的传入画面同步到要传送给一个或多个接收端点的合成输出信号。

注意：由于作为合成输出画面的一部分的传入帧的至少之一很可能被用作其自身相应流的参考画面，因此CSVCS需要将每个传出合成画面标记为传出比特流中的参考画面。此外，由于来自一个或多个传送端点的传入画面数据在CSVCS处非同步到达，对于传入比特流和合成传出比特流中的相同画面而言，可能具有不同的帧号。这在于接收参与方处解码合成画面时可能导致差异，因为对相应切片组中先前画面的适当参考可能未被适当地建立。

因此，CSVCS需要解决两个问题。首先在不同传入流的帧在时间上非同步到达CSVCS时创建合成画面。第二，确保包括切片组的画面对预测维护适当的参考(相对于被发出的合成信号)。

画面的同步可通过以下两种技术中的一者来执行：

1.对于CSVCS处大于或等于具有最大采样频率的输入流的采样频率的给定采样频率，使用与画面到达时间相对应的窗口缓冲传入画面；以及

2.使用与CSVCS具有ΔT时间段的采样时间相对应的窗口缓冲传入画面，其中ΔT是合成信号的帧速率(FPS)的倒数。为了创建需要在每个时间采样处发出的新的合成画面，检查在最后W个时间单位内已到达CSVCS的新的内容。窗口宽度W可例如选为1/FPS。

以下算法示出了用于画面同步的示例性CSVCS操作：

其中语句：

对该组中的每个切片应用ref_pic_list_reordering()

为该流更新映射MapOrigInd和MapCompInd

涉及在合成输出画面中维护正确参考画面的问题，并在此进行描述。

只要新的内容到达服务器时，就用设置在切片报头中的ref_pic_list_reordering()语法以及映射MapOrigInd和MapCompInd来创建适当的参考画面列表。具体地，CSVCS需要保持对切片组(传入视频流)的原始参考画面索引如何被映射到传出合成画面索引的跟踪。具体地，只要流中新的切片数据到达CSVCS，服务器就将其原始索引放置在称为MapOrigIndex的映射的前端，以及将其合成画面的索引放置在称为MapCompIndex的映射的前端，同时将原始条目向右移一个位置。此外，如果这些映射的长度在某个时间超过特定长度时，则从此刻起只要新的条目被追加到顶端，服务器就将简单地丢弃这两个映射中的最后条目。因此，这些映射如有限容量堆栈那样操作。

CSVCS为传入流的每一个维护这样的一对映射。这些映射可在随后被表示成两维数组，其中映射中的第一索引指流索引(在图7的示例中n＝0、1或2)，而第二索引的大小在零与某个预定义数(MaxNumRefFrame)之间的范围内，该第二索引指定了希望为传入流保持对多少过去的帧的跟踪。

假定关于流n的新的画面切片数据到达并将其放置在合成画面中的适当切片组中。对于组中的每个切片，CSVCS对切片报头数据执行以下操作：

注意：本文描述的操作假定仅存在P个切片。类似过程应用在B个切片的情形中(设置切片报头中的ref_pic_list_reordering_flag_ll)，如同通过ref_pic_list_reordering()语法在切片报头中设置的那样。此外，注意：参考画面的索引存储是从最近到达服务器的那一个(index＝0)到在过去已到达的最远的那一个(index＝MaxNumRefFrame-1)。

一旦新的画面数据从传送参与方的视频流到达，则CSVCS需要在映射MapOrigInd和MapCompInd中注册其索引(如果其是参考画面)，使得画面可在随后的操作中使用。具体地，以下操作被执行。首先，CSVCS从流n的新的画面数据的任何切片报头提取原始帧号(“orig_frame_num”)。然后，MapOrigInd和MapCompInd按如下更新(堆栈插入)：

当接收自传送端点的传入视频信号的时间编码依存结构兼容时，即使在帧速率不同的情况下，CSVCS理想地对齐它们也是可能的。例如，假定使用国际专利申请PCT/US06/028365的线程化画面编码结构，以及来自两个传入参与方的画面——一个具有三个层L0、L1和L2且每秒总共30帧而第二个具有三个层L0、L1且每秒总共15帧——被组合。CSVCS可为第二参与方创建人造时间层L2’，并进行构造合成输出画面使得第一参与方的L0、L1和L2分别如第二参与方的L0、L1和L2’那样被组合在相同的输出画面中。这允许在合成输出视频画面内保留线程化模式。

CSVCS也可执行空间分辨率的切换、上采样、以及输入信号在合成输出视频信号中的移动。

增大(up sizing)(增加一层)是通过在所有层的I切片——即对相对应的切片组——内发送内部宏块来实现的。所有内部数据是需要的，因为deρendency_id的值需要如上所述地进行调节，并且在SVC顺应解码器中不允许跨不同dependency__id值的运动补偿。相对应的切片组随后覆盖合成输出画面更大的区域。合成输出画面中的其它切片组可能因此需要移动。内部数据可在CSVCS自身处计算出——在此情形中必须至少解码最低时间级的基层，或者可通过端点基于来自CSVCS的请求而产生。缩小是以与增大相同的方式来执行的。

接收自传送端点的特定视频信号的上采样可通过插入在CSVCS处生成的附加增强层来执行，其中所有宏块被编码以使得内容仅从较低层的宏块处复制。在参与方的视频信号中纳入附加层可能需要使用本文所述的技术重新组织合成输出画面的整个可缩放结构。

移动输入信号较佳地按宏块的倍数来进行。接收机可使用用户界面请求(例如，鼠标拖曳)来移动画面。CSVCS通过相应地调节运动矢量来解决移动(加上/减去16的整数倍的采样位置)。注意：运动矢量通常被差分编码，并且在此情形中，仅第一运动矢量的值最可能需要改变。

虽然已对被认为是本发明的优选实施例的那些进行了描述，但是本领域技术入人员可认识到，可对其作出其它和进一步变化和更改而不背离本发明的精神，并且旨在要求落在本发明的精神内的所有这些变化和更改的权利。

还应当理解，本发明的系统和方法可使用任何合适的硬件和软件组合来实现。用于实现和操作前述系统和方法的软件(即，指令)可提供于计算机可读介质上，可包括但不限于：固件、存储器、存储设备、微控制器、微处理器、集成电路、ASICS、可在线下载的介质以及其它可用介质。

Claims

1.一种用于通过通信网络在多个端点之间进行视频会议的多端点视频信号会议系统，所述系统包括：

合成可缩放视频编码服务器CSVCS，它通过至少一个通信信道分别链接到至少一个接收端点和至少一个传送端点，

至少一个传送端点，它使用或者单层编码格式或者可缩放视频编码格式来传送经编码的数字视频，以及

至少一个接收端点，它能够将以可缩放视频编码格式编码的至少一个数字视频流解码，

其中所述CSVCS被配置成将接收自传送端点的多个输入视频信号组合成单个合成编码数字视频输出信号，以及将所述单个合成编码数字视频输出信号转发到所述至少一个接收端点。

2.如权利要求1所述的会议系统，其特征在于，所述CSVCS被配置成将接收自传送端点的输入视频信号组合成单个合成视频输出信号，以及在不解码和/或重编码所述输入视频信号的情况下将所述单个合成视频输出信号转发到所述至少一个接收端点。

3.如权利要求1所述的系统，其特征在于，所述通信网络包括服务质量QoS支持，使得高可靠性和低可靠性传输信道可用于自传送端点向所述CSVCS以及自所述CSVCS向所述接收端点传输经可缩放编码的视频数据，以及其中基层的至少最低时间级通过所述传送端点与所述CSVCS之间或所述CSVCS与所述接收端点之间的传输信道可靠地传送。

4.如权利要求3所述的系统，其特征在于，QoS是经由肯定确认或否定确认或者两者来提供的。

5.如权利要求3所述的系统，其特征在于，QoS是经由前向纠错(FEC)技术来提供的。

6.如权利要求1所述的系统，其特征在于，所述CSVCS被配置成通过以下操作为所述接收端点中的至少一个接收端点组合输出画面：

将合成输出画面的区域中的一部分指派给预期要被纳入所述合成输出画面中的每个传送端点；

丢弃接收自所述传送端点的传入视频信号数据中与以下之一相对应的那些：分辨率比所述合成输出画面所预期的分辨率高；在所述合成输出画面所预期的所述分辨率下解码所不需要的数据；以及不被纳入所述合成输出画面的传送端点；

通过改变报头信息来更改所述传入编码视频信号的剩余数据使得它们形成所述合成输出视频信号的适当数据；

在需要时为所述传送端点视频信号中的至少一个生成人造层数据；以及

向所述一个或多个接收端点传送所述经更改的数据和任何所生成的低层数据，

使得在所述CSVCS处没有进行画面数据的解码或编码。

7.如权利要求6所述的系统，其特征在于，所述至少一个接收端点能够将以H.264 SVC可缩放视频编码格式编码的视频解码，并且其中：

将所述合成输出画面的区域中的多个部分指派给预期要被纳入所述合成输出画面中的传送端点是通过在所述合成输出信号中的画面参数集中定义切片组映射来执行的，并且每个传送端点对应于一个切片组，以及

所述将所述合成输出画面的区域中的多个部分指派给传送端点是通过向所述至少一个接收端点传送所述画面参数集来通信传达给所述至少一个接收端点的。

8.如权利要求7所述的系统，其特征在于，配置成在带内或带外向所述一个或多个接收端点输送所述画面参数集。

9.如权利要求7所述的系统，其特征在于，还被配置成使得所述合成输出画面被标记为：

用于参考——当从所述传送端点接收到的被纳入所述合成输出画面的输入画面中的至少一个被标记为用于参考时；以及

不用于参考——当从所述传送端点接收到的被纳入所述合成输出画面的所有输入画面被标记为不用于参考时，

其中如果所述合成输出画面被标记为用于参考，则在从所述传送端点顺序接收到的画面的切片被传输到所述至少一个接收端点之前将参考帧重排序命令插入到所述切片中，从而确保在所述一个或多个接收端点处参考画面缓冲器的适当操作。

10.如权利要求7所述的系统，其特征在于，SVC合成输出画面NAL单元的NAL扩展报头被设置成：

相同的dependency_id值被用于所述合成输出画面中与在所述合成输出画面中存在的最高可缩放编码层相对应的所述NAL单元，并且相同但后继较低的dependency_id值被用于后继较低层的NAL单元；以及

其中temporal_level被设置成：

当从所述至少一个传送端点到达的输入画面被合成使得时间级被同步时，则相同的temporal_level值被用于与所述最高可缩放编码层相对应的所述NAL单元，而后继较低的temporal_level值被用于后继较低层，以及

当从所述至少一个传送端点到达的输入画面未被合成使得所述时间级被同步时，则值0被用于所述合成输出画面的所有NAL单元。

11.如权利要求6所述的系统，其特征在于，由所述CSVCS将合成输出画面的区域中的特定部分指派给特定传送端点的视频信号是被预定义的。

12.如权利要求6所述的系统，其特征在于，所述将合成输出画面的区域中的特定部分指派给特定传送端点的视频信号是基于以下由所述CSVCS动态执行的：

来自所述接收端点的对特定空间分辨率的请求，或者

来自所述接收端点的对所述合成输出画面内的特定空间位置的请求，或者

其组合。

13.如权利要求6所述的系统，其特征在于，对特定传送端点的视频信号进行所述合成输出画面的区域中特定部分的所述CSVCS指派是由所述CSVCS在考虑所述至少一个接收端点的解码能力或分辨率偏好的情况下执行的。

14.如权利要求6所述的系统，其特征在于，所述CSVCS被配置成通过以下中的至少一个来响应于具有不同时间比率的输入视频信号或者在所述输入视频信号的到达时间内具有漂移的输入视频信号：

传送由传入画面触发的输出画面；

基于所述输入视频信号的最大帧速率传送输出画面；

基于预定义的时间调度传送输出画面，

以及其中所述CSVCS还被配置成当所述输入视频信号的新的画面未准时到达用于传输时通过以下来响应：

传送指导所述至少一个接收端点重复来自前一画面的数据的预编码切片数据；

在将所述输入视频信号的后一画面传输到所述至少一个接收端点之前将参考画面列表重排序命令插入所述后一画面的画面报头中，以确保为所述后一画面执行适当的参考画面选择。

15.如权利要求14所述的系统，其特征在于，所述CSVCS还被配置成在消去被丢弃画面数据将不对所述至少一个接收端点处的所述解码过程产生不利影响的情况下丢弃且不转发接收自传送端点的画面数据，以及传送接收自相同传送端点的稍后画面的画面数据取代所述被丢弃的画面数据，以使得所述传送端点的画面在要传送给所述至少一个接收端点的所述合成输出视频信号中与其它传送端点的画面同步。

16.如权利要求6所述的系统，其特征在于，所述CSVCS还被配置成将接收自所述至少一个传送端点的至少最低时间级的最低空间和质量分辨率的视频信号解码，以及其中所述CSVCS还被配置成针对所述传送端点的所述视频信号在目前接收端点的所述合成画面配置需要改变时受到影响而生成内部编码，并且将所述内部编码传送给所述接收端点以替代接收自所述传送端点的相对应的经编码的画面数据。

17.如权利要求1所述的系统，其特征在于，在级联布置中包括多个CSVCS，其中在所述级联布置中并非最后一个的至少一个CSVCS被配置成任选地：

在不进行处理的情况下，将从所述级联布置中较前的CSVCS处接收到的合成编码画面转发到其它CSVCS；或者

分解从所述级联布置中较前的CSVCS处接收到的所述合成编码画面，并且在将所述合成编码画面转发到其它CSVCS之前使用不同的布局重新组合所述合成编码画面。

18.如权利要求1所述的系统，其特征在于，在级联布置中包括至少一个SVCS和至少一个CSVCS，其中：

所述至少一个SVCS被配置成仅选择从所述传送端点或其它SVCS接收到的视频信号的一部分或全部数据，以及将所选择的数据转发到其它SVCS或CSVCS，以及

CSVCS是所述级联布置中最后的服务器，它创建用于传输到所述一个或多个接收端点的合成输出画面。

19.如权利要求1所述的系统，其特征在于，所述CSVCS被配置成为合成输出画面的区域中未被指派给任何传送端点的那些部分生成经编码的画面数据并传送所述经编码的画面数据。

20.如权利要求19所述的系统，其特征在于，为所述合成输出画面的区域中未被指派给任何传送端点的那些部分而被传送的经编码的画面数据是通过以下之一来生成的：将动态生成的新的内容编码；检索先前已被计算出并存储的经编码的数据；以及其组合。

21.如权利要求1所述的系统，其特征在于，还包括所述多个端点中的一个端点与所述CSVCS之间的反馈信道，其中所述CSVCS还被配置成通过所述反馈信道响应于经由内部内容通信传达的端点指令。

22.如权利要求1所述的系统，其特征在于，所用的所述可缩放视频编码技术的编码依存性是如此进行：未被其它层用作参考的增强层被标记为可丢弃。

23.如权利要求22所述的系统，其特征在于，所述CSVCS还被配置成任选地丢弃被标记为可丢弃的增强层。

24.如权利要求1所述的系统，其特征在于，还包括链接传送端点与所述CSVCS、以及所述CSVCS与接收端点的双向控制信道。

25.如权利要求24所述的系统，其特征在于，还被配置成经由通过所述CSVCS的所述双向控制信道提供所述传送与接收端点之间的能力交换，籍此所述传送端点指示其在空间、时间、质量分辨率和比特率方面的能力，而所述接收端点指示其支持这些能力中的哪些。

26.如权利要求25所述的系统，其特征在于，所述CSVCS被配置成从接收端点处接收对输出视频信号的合需的空间分辨率的请求。

27.如权利要求26所述的系统，其特征在于，所述CSVCS被配置成更改合成输出画面中的所述空间布局，以适应不同的空间分辨率请求。

28.如权利要求26所述的系统，其特征在于，所述CSVCS被配置成指导传送端点对其传送的视频信号增加或削减空间分辨率。

29.如权利要求1所述的系统，其特征在于，所述CSVCS被配置成在带内或带外比特流之一上纳入用于显示的源标识信息、用户信息、图形注解、或MCU控制特征。

30.如权利要求1所述的系统，其特征在于，所述CSVCS被配置成在以下中的一者上覆盖源标识信息、用户信息、图形注解、或MCU控制特征：(1)合成输出画面的区域中被指派给输出画面中的每个参与方的那些部分的像素，以及(2)所述合成输出画面的区域中未被指派给所述传送参与方的所述视频信号的任一个的那些部分的像素。

31.如权利要求1所述的会议系统，其特征在于，所述CSVCS被配置成通过选择性地复用接收自传送端点的所述视频信号层作为合成输出画面的分量、以及将所述分量连同在所述CSVCS处生成的确保在所链接的接收端点处接收到的所述合成输出信号是有效的经编码的视频比特流的任选附加数据转发到所链接的接收端点来向通过所述CSVCS链接的至少一个接收端点提供连续出席、个性化布局、速率匹配、差错定位、以及随机进入特征的至少一个。

32.如权利要求31的会议系统，其特征在于，所述CSVCS还被配置成通过以下的至少一项来响应于带宽状况：

统计地复用来自多个传送端点的视频信号；以及

使接收自传送端点的视频信号的所述合成和传输同步，以在所述合成输出视频信号中交错大于平均的视频画面。

33.如权利要求31的会议系统，其特征在于，所述CSVCS还被配置成：

通过用向所述至少一个接收端点指示从前一画面复制相对应的像素数据的经编码的数据以替换接收自所述至少一个传送端点的经编码的画面数据来更改所传送的合成输出信号的比特率，以及

传送所述替换的经编码的数据，

以使得所述输出比特率可与合需特性相匹配。

34.如权利要求1的会议系统，其特征在于，所述CSVCS还被配置成提供会议网络边界控制、媒体代理、防火墙和网址转译功能中的至少一者。

35.一种通过通信网络在多个端点之间进行视频会议的方法，所述方法包括：

使用通过至少一个通信信道分别连接到至少一个接收端点和至少一个传送端点的合成可缩放视频编码服务器CSVCS；

以或者单层编码格式或者可缩放视频编码格式传送来自至少一个传送端点的经编码的数字视频；以及

在所述CSVCS处，将接收自传送端点的多个输入视频信号组合成单个合成编码数字视频输出信号，以及将所述单个合成编码数字视频输出信号转发到能够将以可缩放视频编码格式编码的至少一个数字视频流解码的至少一个接收端点。

36.如权利要求35所述的方法，其特征在于，所述CSVCS被配置成将接收自传送端点的输入视频信号组合成单个合成视频输出信号，以及其中将所述单个合成视频输出信号转发到所述至少一个接收端点包括在不解码和/或重编码所述输入视频信号的情况下如此进行。

37.如权利要求35所述的方法，其特征在于，所述通信网络包括服务质量QoS支持，使得高可靠性和低可靠性传输信道可供用于自传送端点向所述CSVCS以及自所述CSVCS向所述接收端点传输经可缩放编码的视频数据，所述方法还包括通过所述传送端点与所述CSVCS之间或所述CSVCS与所述接收端点之间的传输信道可靠地传送基层的至少最低时间级。

38.如权利要求37所述的方法，其特征在于，还包括经由肯定确认或否定确认或者两者提供QoS。

39.如权利要求37所述的方法，其特征在于，还包括经由前向纠错(FEC)技术提供QoS。

40.如权利要求35所述的方法，其特征在于，在所述CSVCS处，将接收自传送端点的输入视频信号组合成单个合成编码数字视频输出信号包括：

将合成输出画面的区域中的特定部分指派给预期要被纳入所述合成输出画面中的每个特定传送端点；

使得在所述CSVCS处没有进行画面数据的解码或编码。

41.如权利要求40所述的方法，其特征在于，所述至少一个接收端点能够将以H.264 SVC可缩放视频编码格式编码的视频解码，并且其中：

将所述合成输出画面的区域中的一部分指派给预期要被纳入所述合成输出画面中的每个传送端点是通过在所述合成输出信号中的画面参数集中定义切片组映射来执行的，并且每个传送端点对应于一个切片组，以及

向所述至少一个接收端点传送所述画面参数集来通信传达所述将所述合成输出画面的区域中的特定部分指派给所述至少一个接收端点。

42.如权利要求41所述的方法，其特征在于，还包括在带内或带外向至少一个接收端点输送所述画面参数集。

43.如权利要求41所述的方法，其特征在于，还包括将所述合成输出画面标记为：

44.如权利要求41所述的方法，其特征在于，还包括将SVC合成输出画面NAL单元的NAL扩展报头设置成：

其中temporal_level将设置成：

当从所述至少一个传送端点到达的输入画面被组合成使得时间级被同步时，则相同的temporal_level值被用于与所述最高可缩放编码层相对应的所述NAL单元，而后继较低的temporal_level值被用于后继较低层，以及

当从所述至少一个传送端点到达的输入画面未被组合成使得所述时间级被同步时，则值0被用于所述合成输出画面的所有NAL单元。

45.如权利要求40所述的方法，其特征在于，由所述CSVCS将合成输出画面的区域中的特定部分指派给特定传送端点的视频信号是被预定义的。

46.如权利要求40所述的方法，其特征在于，所述将合成输出画面的区域中的特定部分指派给特定传送端点的视频信号是基于以下由所述CSVCS动态执行的：

来自所述接收端点的对特定空间分辨率的请求，或者

其组合。

47.如权利要求40所述的方法，其特征在于，还包括在所述将合成输出画面的区域中的特定部分指派给特定传送端点的视频信号时考虑所述至少一个接收端点的解码能力或分辨率偏好。

48.如权利要求40所述的方法，其特征在于，所述CSVCS被配置成响应于具有不同时间比率的输入视频信号或者在所述输入视频信号的到达时间内具有漂移的输入视频信号，所述方法还包括通过以下中的至少一个来响应：

传送由传入画面触发的输出画面；

基于所述输入视频信号的最大帧速率传送输出画面；

基于预定义的时间调度传送输出画面，

以及其中所述CSVCS还被配置成当所述输入视频信号的新的画面未准时到达用于传输时进行响应，所述方法还包括通过以下来响应：

49.如权利要求48所述的方法，其特征在于，还包括

在所述CSVCS处，如果缺少被丢弃画面数据将不对所述至少一个接收端点处的解码过程产生不利影响，则丢弃且不转发接收自传送端点的画面数据；以及

传送接收自相同传送端点的稍后画面的画面数据取代所述被丢弃的画面数据，以使得所述传送端点的画面在被传送给所述至少一个接收端点的所述合成输出视频信号中与其它传送端点的画面同步。

50.如权利要求40所述的方法，其特征在于，所述CSVCS还被配置成将接收自所述至少一个传送端点的至少最低时间级的最低空间和质量分辨率的视频信号解码，所述方法还包括：

在所述CSVCS处，针对所述传送端点的所述视频信号在目前接收端点的所述合成画面配置需要改变时受到影响而生成内部编码；以及

将所述内部编码传送给所述接收端点以替代接收自所述传送端点的相对应经编码的画面数据。

51.如权利要求35所述的方法，其特征在于，在所述通信网络在级联布置中包括多个CSVCS的情形中，还包括：

在所述级联布置中并非最后一个的至少一个CSVCS，任选地在不进行处理的情况下转发从所述级联布置中较前的CSVCS处接收到的合成编码画面；或者

52.如权利要求35所述的方法，其特征在于，在所述通信网络在级联布置中包括至少一个SVCS和至少一个CSVCS的情形中，还包括：

在所述至少一个SVCS处，仅选择从所述传送端点或其它SVCS接收到的视频信号的一部分或全部数据，以及将所选择的数据转发到其它SVCS或CSVCS；以及

在作为所述级联布置中最后的服务器的CSVCS处，创建用于传输到所述一个或多个接收端点的合成输出画面。

53.如权利要求35所述的方法，其特征在于，还包括在所述CSVCS处为合成输出画面的区域中未被指派给任何传送端点的那些部分生成经编码的画面数据并将其传送到所述一个或多个接收端点。

54.如权利要求35所述的方法，其特征在于，还包括在所述CSVCS处，通过以下之一为合成输出画面的区域中未被指派给任何传送端点的那些部分生成所传送的经编码的画面数据：将动态生成的新的内容编码；检索先前已被计算出并存储的经编码的数据；以及其组合。

55.如权利要求35所述的方法，其特征在于，在所述多个端点中的一个端点与所述CSVCS之间有反馈信道的情形中，还包括通过所述反馈信道响应于经由内部内容通信传达的端点指令。

56.如权利要求35所述的方法，其特征在于，在所用的所述可缩放视频编码技术的编码依存性是以某些增强层未被其它层用作参考的方式进行的情形中，还包括：将这些层标记为可丢弃。

57.如权利要求56所述的方法，其特征在于，还包括在所述CSVCS处任选地丢弃被标记为可丢弃的增强层。

58.如权利要求35所述的方法，其特征在于，提供链接传送端点与所述CSVCS、以及所述CSVCS与接收端点的双向控制信道。

59.如权利要求58所述的方法，其特征在于，还包括经由通过所述CSVCS的所述双向控制信道进行所述传送与接收端点之间的能力交换，籍此所述传送端点指示其在空间、时间、质量分辨率和比特率方面的能力，而所述接收端点指示其支持这些能力中的哪些。

60.如权利要求58所述的方法，其特征在于，还包括在所述CSVCS处从接收端点处接收对输出视频信号的合需空间分辨率的请求。

61.如权利要求60所述的方法，其特征在于，在所述CSVCS处，更改合成输出画面中的所述空间布局以适应不同的空间分辨率请求。

62.如权利要求60所述的方法，其特征在于，还包括从所述CSVCS指导传送端点对其传送的视频信号增加或削减空间分辨率。

63.如权利要求35所述的方法，其特征在于，还包括将源标识信息、用户信息、图形注解、或MCU控制特征纳入由所述CSVCS发送的带内和带外比特流中的一者之上。

64.如权利要求35所述的方法，其特征在于，在所述CSVCS处，在以下之一者上覆盖源标识信息、用户信息、图形注解、或MCU控制特征：(1)合成输出画面的区域中被指派给输出画面中的每个参与方的那些部分的像素，以及(2)所述合成输出画面的区域中未被指派给所述传送参与方的所述视频信号的任一个的那些部分的像素。

65.如权利要求35所述的方法，其特征在于，还包括使用所述CSVCS来通过选择性地复用接收自传送端点的所述视频信号层作为合成输出画面的分量、以及将所述分量连同在所述CSVCS处生成的确保在所链接的接收端点处接收到的所述合成输出信号是有效的经编码的视频比特流的任选附加数据转发到所链接的接收端点来向通过所述CSVCS链接的至少一个接收端点提供连续出席、个性化布局、速率匹配、差错定位、以及随机进入特征的至少一个。

66.如权利要求35所述的方法，其特征在于，还包括通过以下中的至少一项来使用所述CSVCS响应于带宽状况：

统计地复用来自多个传送端点的视频信号；以及

67.如权利要求35所述的方法，其特征在于，使用所述CSVCS响应于带宽状况，还包括：

通过用向所述至少一个接收端点指示从前一画面复制相对应的像素数据的经编码的数据替换接收自所述至少一个传送端点的经编码的画面数据来更改所传送的合成输出信号的比特率，以及

传送所述替换的经编码的数据，

以使得所述输出比特率可与合需特性相匹配。

68.如权利要求35所述的方法，其特征在于，还包括使用所述CSVCS来提供会议网络边界控制、媒体代理、防火墙和网址转译功能中的至少一个。