CN101507267A

CN101507267A - 用于使用可缩放视频编码进行可缩放和低延迟视频会议的系统和方法

Info

Publication number: CN101507267A
Application number: CNA2006800343630A
Authority: CN
Inventors: R·希万拉; A·埃尔法泽阿迪斯; D·洪; O·莎彼洛
Original assignee: Vidyo Inc
Current assignee: Vidyo Inc
Priority date: 2005-09-07
Filing date: 2006-07-20
Publication date: 2009-08-12
Anticipated expiration: 2026-07-20
Also published as: CN101502109B; CN101507267B; CA2779498C; CA2796882A1; CN101502109A; CA2779498A1

Abstract

提供了用在主宿于不同端点/接收器和网络环境上的视频会议系统和应用中的可缩放视频编解码器。可缩放视频编解码器以多个时间、质量和空间分辨率提供源视频信号的编码表示。

Description

用于使用可缩放视频编码进行可缩放和低延迟视频会议的系统和方法

相关申请的交叉引用

本申请要求2005年7月20日提交的美国临时专利申请S/N.60/701,108、2005年9月7日提交的美国临时专利申请S/N.60/714,741以及2005年10月4日提交的美国临时专利申请S/N.60/723,392的优先权。此外，本申请涉及共同提交的美国专利申请No.[SVCS系统]、[信息通路(trunk)]和[抖动(jitter)]。所有前述优先权和相关申请通过全文引用而结合于此。

发明领域

本发明涉及多媒体和电信技术。具体地，本发明涉及用于在具有各种接入装置或终端的用户端点之间以及在不均匀的网络链路上进行视频会议的系统和方法。

发明背景

视频会议系统允许两个或多个远程参与方/端点彼此使用音频和视频实时地传送视频和音频。当仅涉及两个远程参与方时，可使用两个端点之间的合适电子网络上的直接通信传输。当涉及多于两个的参与方/端点时，多点会议单元(MCU)或桥接器通常被用于连接到所有参与方/端点。MCU协调可例如以星形配置连接的多个参与方/端点之间的通信。

对于视频会议，参与方/端点或终端配备有合适的编码和解码设备。在发送端点，编码器将本地音频和视频输出格式化成适于在电子通信网落上进行信号传输的经编码形式。相反，在接收端点处，解码器将接收到的具有经编码的音频和视频信息的信号处理成适于音频回放或图像显示的经解码形式。

传统上，最终用户自身的图像也在他/她的屏幕上显示以提供反馈(以确保例如个人在视频窗口中的适当定位)。

在通过通信网络实现的实际的视频会议系统中，远程参与方之间的交互式视频会议的质量取决于端对端信号延迟。大于200ms的端对端延迟阻碍了会议参与方之间的逼真实况转播或自然交互。这种长时间的端对端延迟使得为了让正在传送中的来自其他参与方的视频和音频数据到达自己的端点，会议参与方不自然地抑制自己进行积极的参与或响应。

端对端延迟包括捕获延迟(例如，用以填满数/模转换器的缓冲器的时间)、编码延迟、发送延迟(用以向端点的网络接口控制器提交全包数据的时间)、以及传输延迟(包在通信网络中从端点到端点传播的时间)。另外，通过协调MCU的信号处理时间也构成给定系统中的端对端延迟的一部分。

MCU的主要任务是混合传入音频信号，使得单个音频流被发送给所有参与方，并且将由各个参与方/端点发送的视频帧或画面混合成包括每个参与方的画面的公共组合视频帧流。注意：术语帧和画面在本文中可交换使用，并且此外对于本领域技术人员而言，可结合作为单个场或作为组合帧的交织帧的编码(基于场或基于帧的画面编码)是显而易见的。部署在常规通信网络系统中的MCU仅为混合成分发给视频会议会话中的所有参与方的公共组合视频帧中的所有单个画面提供单一的公共分辨率(例如，CIF或QCIF分辨率)。因而，常规通信网络系统不易于提供参与方可籍此以不同分辨率观看其他参与方的定制视频会议功能。这种期望的功能允许参与方例如以CIF分辨率观看另一特定参与方(例如，正在讲话的参与方)，而以QCIF分辨率观看静默参与方。MCU可被配置成通过将视频混合操作重复与视频会议中参与方的数目一样多的次数来提供该期望的功能。然而，在这种配置中，MCU操作引入了相当地非期望的端对端延迟。此外，MCU必需具有充分的数字信号处理能力来解码多个音频流、混合和重编码它们、以及还解码多个视频流、将它们组合成单个帧(按需使用适当的缩放)和再次将它们重编码成单个流。视频会议解决方案(诸如由加州(94588)普莱森顿的Willow路4750号的泊立康目(Polycom)公司和纽约州(10166)纽约的Park大道200号的坦得勃格(Tandberg)商业销售的系统)必须使用专用硬件组件来提供可接受的质量和性能水平。

由视频会议解决方案提供的性能水平和质量也与在其上运行该解决方案的低层通信网络有很大关系。使用ITU H.261、H.263和H.264标准视频编解码器的视频会议解决方案需要具有较小或没有损失的稳健的通信信道来提供可接受的质量。所需的通信信道传输速率或比特速率可从64Kbps直至数Mbps。早期的视频会议解决方案使用专用ISDN线，而较新的系统使用高速因特网连接(例如，部分T1、T1、T3等)进行高速传输。此外，某些视频会议解决方案采用网际协议(“IP”)通信，但这些实现于专用网络环境中以确保带宽可用性。总之，常规视频会议解决方案导致与实现和维护质量传输所需的专用高速网络化基础设施相关联的相当高的成本。

实现和维护专用视频会议网络的成本通过近期采用高带宽公司的数据网络连接(例如100兆比特的以太网)的“桌面视频会议”系统来避免。在这些桌面视频会议解决方案中，配备有基于USB的数码相机和用于执行编码/解码和网络传输的适当的软件应用的常见个人计算机(PC)被用作参与方/端点终端。

多媒体和电信技术的最新进展涉及将视频和音频通信及会议的能力与诸如IP PBX、即时信息收发、web会议的网际协议(“IP”)通信系统进行集成。为了有效地将视频通信集成到这些系统中，这些系统通常必须支持点对点和多点通信。然而，IP通信系统中的可用网络带宽可能会较大地波动(例如，取决于一天的时间或整个网络负载)，使得这些系统对于视频通信所需的高带宽传输不可靠。此外，在IP通信系统上实现的视频会议解决方案必须适应于与因特网相关联的网络信道非均匀性和端点装置多样性。例如，参与方可使用各种各样的个人计算设备通过具有极不同带宽的IP信道(例如，DSL对以太网)来访问视频会议。

其上实现视频会议解决方案的通信网络可归类为两种基本通信信道架构。在一种基本架构中，通过两个端点之间的专用直接或交换连接(例如，ISDN连接、T1线等)来提供有保证的服务质量(QoS)的信道。相反，在第二基本架构中，通信信道不保证QoS，而是仅有“尽力型”包传送信道，诸如用在基于网际协议(IP)的网络中(例如，以太网LAN)的那些。

在IP网络上实现视频会议解决方案至少因低成本、较高的总带宽和访问因特网的普遍可用性而可能是合乎需要的。如前所述，IP网络通常基于尽力来操作，即，不保证包将到达它们的目的地，或不保证它们按其被发送的次序到达。然而，已发展了在假定的尽力型信道上提供各种水平的服务质量(QoS)的技术。这些技术可包括诸如用于按照分类指定和控制网络话务以使得特定类型的话务获得优先的Diffserv和RSVP的协议。这些协议可确保特定带宽和/或可用带宽部分的特定延迟。诸如前向纠错(FEC)和自动重复请求(ARQ)机制的技术也可用于改善丢失包传输的恢复机制以及减轻包丢失的影响。

在IP网络上实现视频会议解决方案需要考虑所用的视频编解码器。诸如指定用于视频会议的标准H.261、H.263编解码器以及指定用于视频CD和DVD的MPEG-1和MPEG-2Main Profile(主型)线编解码器的标准视频编解码器分别被设计成以固定比特率提供单个比特流(“单层”)。这些编解码器的某些可在不进行速率控制的情况下部署以提供可变比特率流(例如用在DVD中的MPEG-2)。然而，实际上，即使不进行速率控制，目标操作速率也依赖于特定基础设施来建立。这些视频编解码器设计是基于网络能够提供恒定比特率和发送者与接收者之间的信道几乎无差错这个假设的。专为个人对个人的通信应用设计的H系列标准编解码器提供了用以在存储信道差错的情况下增加鲁棒性的附加特征，但是仍然仅容许存在极少的包丢失(通常仅达2-3％)。

此外，标准视频编解码器基于“单层”编码技术，该技术固有地不能利用由现代通信网络提供的有区别的QoS能力。用于视频通信的单层编码技术的其它限制在于，即使应用中要求或期望较低的空间分辨率显示，全部分辨率信号也必须在接收端点或MCU被接收并并执行下缩放地解码。这浪费了带宽和计算资源。

与前述单层视频编解码器不同，在基于“多层”编码技术的“可缩放”视频编解码器中，对给定源视频信号生成两个或多个比特流：基层和一个或多个增强层。基层可以是源信号在最小质量水平下的表示。最小质量表示可以是在给定源视频信号的SNR(质量)、空间或时间分辨率方面或这些方面的组合上进行减小。一个或多个增强层对应于用于增加基层的SNR(质量)的质量、空间或时间分辨率方面的信息。可缩放视频编解码器是在已考虑到不同网络环境和/或不同接收者的基础上开发的。基层可使用可靠信道—即具有有保证服务质量(QoS)的信道—来发送。增强层可在减小或无QoS的情况下发送。结果是保证接收者接收到具有至少最小质量水平的信号(基层信号)。类似地，对于可能具有不同屏幕尺寸的不同接收者，小画面尺寸信号可被发送给例如便携式设备，而全尺寸画面可被发送给配备有大显示器的系统。

诸如MPEG-2的标准指定了用于执行可缩放编码的许多技术。然而，“可缩放”视频编码器的实际使用已受到增加的成本和与可缩放编码相关联的复杂度、以及缺少适于视频的高带宽IP通信信道的普遍可用性的牵制。

现在对开发用于视频会议和其它应用的改进的可缩放编解码器解决方案作出考虑。期望的可缩放编解码器解决方案将提供改进的带宽、时间分辨率、空间质量、空间分辨率和计算功率缩放性。尤其关注与通用视频会议应用的简化MCU相容的可缩放视频编解码器。期望的可缩放编解码器解决方案将实现零延迟MCU架构，该架构允许在没有端对端延迟或最小端对端延迟代价最小情况下电子网络中MCU的级联。

发明概要

本发明提供了用于点对点和多点会议应用的可缩放视频编码(SVC)系统和方法(统称为“解决方案”)。该SVC解决方案提供了源视频信号在多个时间、质量和空间分辨率下的经编码的“分层”表示。这些解决方案可通过由端点/终端编码器创建的不同的层/比特流分量来表示。

SVC解决方案被设计成适应端点/接收器设备和不同网络特性的多样性，这些特性包括例如诸如基于网际协议的那些网络的网络的尽力特征。所用视频编码技术的可缩放方面使得会议应用能够适应于不同网络条件，并且也适于不同的最终用户需求(例如，用户可选择以较高或较低空间分辨率观看另一用户)。

可缩放视频编解码器设计允许点对点和多点情形的差错弹性传输，以及允许会议桥接器提供连续出席、速率匹配、差错定位、随机进入和个人布局会议特征，而无需解码或重编码正传送的视频流且不存在流差错弹性的任何降低。

设计成与其它端点进行视频通信的端点终端包括可将视频信号编码成多层可缩放视频格式的一个或多个层进行传输的视频编码器/解码器。在视频流与视频会议中的参与方的数目一样多的情况中，视频编码器/解码器可相应地同时或顺序解码接收到的视频信号层。可在通用PC或其它网络接入设备中的硬件、软件或其组合中实现该终端。结合到该终端中的可缩放编解码器可基于与诸如H.264的工业标准编码方法相容或以其为基础的编码方法和技术。

在基于H.264的SVC解决方案中，可缩放视频编解码器创建了基于标准H.264AVC编码的基层。该可缩放视频编解码器还通过再次使用H.264AVC对原始信号与在前一层编码的具有适当偏移量的信号之间的差异进行连续编码来创建一系列SNR增强层。直接余弦变换(DCT)系数的DC值未被编码在增强层中，此外，常规去块滤波器未被使用。

在设计成使用SNR可缩放性作为实现空间缩放性的手段的SVC解决方案中，为基和增强层选择不同的量化参数(QP)。以较高QP编码的基层被任选地低通过滤并进行下采样以在接收端点/终端显示。

在另一SVC解决方案中，可缩放视频编解码器被设计成空间可缩放编码器，其中经重建的基层H.264低分辨率信号在编码器处被上采样并从原始信号中被提取出。差值在偏移一设定值之后被馈送到以高分辨率操作的标准编码器。在另一版本中，在基于标准的高分辨率解码器的运动估计过程中，经上采样的H.264低分辨率信号被用作附加的可能参考帧。

SVC解决方案可涉及调节或改变线程(threading)模式或空间可缩放性模式以动态地响应网络条件和参与方的显示偏好。

附图简述

根据以下优选实施例及附图的详细描述，本发明的其它特征、其特性以及各种优点将更加显而易见，在附图中：

图1A和1B是示出了根据本发明的原理的视频会议系统的示例性架构的示意图。

图2是示出了根据本发明的原理的示例性最终用户的终端的框图。

图3是示出了根据本发明的原理的基层和时间增强层(即，层0到2)的编码器的示例性架构的框图。

图4是示出了根据本发明的原理的基层、时间增强和SNR或空间增强层的示例性分层画面编码结构的框图。

图5是示出了根据本发明的原理的示例性SNR增强层编码器的结构的框图。

图6是示出了根据本发明的原理的示例性单环路SNR视频编码器的结构的框图。

图7是示出了根据本发明的原理的空间可缩放性视频编码器的基层的示例性结构的框图。

图8是示出了根据本发明的原理的空间可缩放性增强层视频编码器的示例性结构的框图。

图9是示出了根据本发明的原理的具有层间运动预测的空间可缩放性增强层视频编码器的示例性结构的框图。

图10和11是分别示出了根据本发明的原理的示例性基层和SNR增强层视频解码器的框图。

图12是示出了根据本发明的原理的示例性SNR增强层、单环路视频解码器的框图。

图13是示出了根据本发明的原理的示例性空间可缩放性增强层视频解码器的框图。

图14是示出了根据本发明的原理的具有层间运动预测的空间可缩放性增强层的视频解码器的示例性结构的框图。

图15和16是示出了根据本发明的原理的示例性替代方案的分层画面编码结构和线程化结构的框图。

图17是示出了根据本发明的原理的示例性可缩放视频编码服务器(SVCS)的框图。

图18是示出了根据本发明的原理的SVCS交换的操作的示意图。

图19和20是根据本发明的原理的示例性SVCS交换层和网络层配置矩阵的图示。

在所有附图中，除非另外指明，相同的附图标记和字符用于指示所示实施例的类似特征、要素、组件或部分。此外，现在将参照附图，同时结合示例性实施例对本发明进行描述。

本发明的详细描述

本发明提供了用于点对点和多点会议应用的视频数据信号的可缩放视频编码(SVC)的系统和方法。该SVC系统和技术(统称为“解决方案”)被设计成允许响应于不同用户参与方/端点、网络传输能力、环境或视频会议中的其它需求定制或自定义所传送的视频数据。本发明的SVC解决方案提供以多层格式压缩的视频数据，这些数据可使用常规零或低算法延迟交换机制来在会议参与方之间逐层交换。示例性零或低算法延迟交换机制—可缩放视频编码服务器(SVCS)在共同提交的美国专利申请No.__[SVCS]____中进行了描述。

图1A和1B示出了基于本发明的SVC解决方案的示例性视频会议系统100的布置。多点和点对点客户端会议应用的视频会议系统100可在不同的电子或计算机网络环境中实现。系统100使用一个或多个网络化服务器(例如，SVCS或MCU 110)来协调向会议参与方或客户端120、130和140的自定义数据传输。如共同待批的美国专利申请S/N____中所述的，MCU 110可协调由端点140生成的发往其它会议参与方的视频流150的传输。在系统100中，首先使用本发明的SVC技术将视频流适当地编码或下缩放成多个数据分量或层。这多个数据层可具有不同的特性或特征(例如，空间分辨率、帧速率、画面质量、信噪比质量(SNR)等)。在考虑到例如不同的各个用户需求以及电子网络环境中的基础设施规格(例如，CPU能力、显示尺寸、用户偏好和带宽)的情况下，可适当地选择数据层的不同特性或特征。MCU 110被适当地配置成从接收到的数据流(例如，SVC视频流150)中为会议中每个特定参与方/接收方选择适当的信息量，并被配置成仅将所选择或所请求的信息/层的量转发到相应的参与方/接收方120-130。MCU 110可被配置成响应于接收端点请求(例如，各个会议参与方所请求的画面质量)以及基于网络条件和策略的考虑作出合适的选择。

此自定义的数据选择和转发方案利用SVC视频流的内部结构，该结构允许将视频流明确地划分成具有不同分辨率、帧速率和/或带宽等的多个层。从所引用的专利申请___[SVCS]___复制的图1B示出了表示端点140对会议的媒体输入的SVC视频流150的示例性内部结构。SVC视频流150的示例性内部结构包括“基”层150b和一个或多个不同的“增强”层150a。

图2示出了设计成与基于SVCS的视频会议系统(例如，系统100)一起使用的示例性参与方/端点终端140。终端140包括个人接口输入/输出设备(例如，相机210A、麦克风210B、视频显示器250C、扬声器250D)，以及耦合到输入和输出信号复用器及解复用器单元(例如包MUX(复用器)220A和包DMUX(解复用器)220B)的网络接口控制器卡(NIC)230。NIC 230可以是标准硬件组件，诸如以太网LAN适配器或任何其它合适的网络接口设备。

相机210A和麦克风210B被设计成分别捕捉参与方的视频和音频信号以发送给其他会议参与方。相反，视频显示器250C和扬声器250D被设计成分别显示和回放从其他参与方接收到的视频和音频信号。视频显示器250C也被配置成任选地显示参与方/终端140自身的视频。相机210A和麦克风210B输出分别经由模数转换器210E和210F耦合到视频和音频编码器210G和210H。视频和音频编码器210G和210H被设计成压缩输入视频和音频数字信号以减小在电子通信网络上传输信号所需的带宽。输入视频信号可以是实况或预先录制或存储的视频信号。

视频编码器210G具有直接连接到包MUX 220A的多个输出。音频编码器210H输出也被直接连接到包MUX 220A。来自编码器210G和210H的经压缩和分层的视频和音频数字信号通过包MUX 220A复用以经由NIC 230在通信网络上传输。相反，经由NIC 230在通信网络上接收到的经压缩的视频和音频数字信号被转发到包MUX 220B以进行解复用并进一步在终端140进行处理以通过视频显示器250C和扬声器250D来播放和回放。

捕捉到的音频信号可通过音频编码器210H使用包括例如G.711和MPEG-1等公知技术的任何合适的编码技术来编码。在视频会议系统100和终端140的实现中，G.711编码对于音频编码是优选的。捕捉到的视频信号通过视频编码器210G使用本文所述的SVC技术以分层编码格式来编码。包MUX220A可被配置成使用例如RTP协议或其它合适的协议来复用输入的视频和音频信号。包MUX 220A也可被配置成实现任何所需的QoS相关协议的处理。

在系统100中，来自终端140的数据的每个流经由电子通信网络在其自己的虚拟信道(或IP术语中的端口号)中传输。在示例性网络配置中，QoS可通过针对特定虚拟信道的区分服务(DiffServ)或通过任何其它类似的QoS启用技术来提供。所需的QoS设置是在使用本文所述的系统之前执行的。Diffserv(或所用的类似的QoS启用技术)创建经由或在网络路由器(未示出)中实现的两种不同类别的信道。为了便于描述，在本文中，这两种不同类别的信道分别指“高可靠性”(HRC)和“低可靠性”(LRC)信道。在不存在用于建立HRC的显式方法或如果HRC自身并非足够可靠时，端点(或代表端点的MCU110)可(i)先发地在HRC上重复发送信息(重复发送的实际次数可取决于信道差错条件)，或(ii)基于接收端点或SVCS的请求高速缓冲和重发信息——例如即时地检测和报告传输中的信息丢失的情形。取决于可用信道类型和条件，建立HRC的这些方法可在被分别或以任何组合应用于客户端到MCU、MCU到客户端或MCU到MCU连接。

为了用在多参与方视频会议系统中，终端140配有一个或多个视频和音频解码器对(例如解码器230A和230B)，它们被设计成对从终端140可看到或听到的会议参与方接收到的信息进行解码。解码器对230A和230B可被设计成按参与方逐个地处理信号，或者连续处理许多参与方信号。包括在终端140中的视频和音频解码器对230A和230B的配置或组合可适当地选择成在考虑编码器的并行和/或顺序处理设计的情况下处理在终端140处接收到的所有参与方信号。此外，包DMUX 220B可被配置成经由NIC 230从会议参与方接收分包信号，并将该信号转发到适当的视频和音频解码器对230A和230B以进行并行和/或顺序处理。

此外，在终端140中，音频解码器230B输出被连接到音频混合器240和数模转换器(DA/C)250B，该转换器驱动扬声器250D回放接收到的音频信号。音频混合器240被设计成将各个音频信号组合成单个信号进行回放。类似地，视频解码器230A输出通过合成器260组合到帧缓冲器250A中。在监视器250C从帧缓冲器250A显示组合或合成的视频画面。

合成器260可被适当地设计成定位合成帧或所显示的画面中相应指定位置处的每个经解码的视频画面。例如，监视器250C显示可被划分成四个更小的区域。合成器260可从终端140中的每一个视频解码器230A处获得像素数据，并且将该像素数据置于适当的帧缓冲器250A位置(例如填充右下方的画面)。为了避免重复缓冲(例如，一次在解码器230B的输出以及一次在帧缓冲器250A)，合成器260可例如被配置成驱动解码器230B的输出像素的放置的地址生成器。用于最优化各个视频解码器230A输出在显示器210C上的放置的替代技术也可用来达到类似效果。

应当理解，图2中所示的各个终端140的组件可在彼此适当地接口的硬件和/软件组件的任何合适组合中实现。这些组件可以是独立单元或与个人计算机或具有网络接入能力的其它设备集成。

参照用在终端140中用于可缩放视频编码的视频编码器，图3-9分别示出了可用在终端140中的各个可缩放视频编码器或编解码器300-900。

图3示出了用于以分层编码格式(例如，SVC术语中的层L0、L1、和L2，其中L0是最低帧速率)压缩输入视频信号的示例性编码器架构300。编码器结构300表示基于例如标准H.264/MPEG-4 AVC设计或其它合适编解码器设计的运动补偿的、基于块的变换编解码器。除用于运动估计(ME)、运动补偿(MC)和其它编码功能的常规“教科书”的各种视频编码处理块330之外，编码器架构300包括帧缓冲器(FRAME BUFFERS)块310、编码参考(ENCREF)控制块320和去块过滤器块360。用在系统100/终端140中的运动补偿的基于块的编解码器可以是单层时间预测编解码器，它具有I、P和B画面的常规结构。画面序列(按显示次序)可例如是“IBBPBBP”。在画面序列中，‘P’画面是从前一P或I画面预测的，而B画面是使用前一及后一P或I画面两者预测的。尽管连续的I或P画面之间的B画面的数目与I画面出现的速率一样可改变，但是例如P画面不可用作预测在时间上早于最近一个的另一P画面的参考。标准H.264编码有益地提供了其中两个参考画面列表分别由编码器和解码器维护的例外。这种例外被本发明用来选择哪一画面被用作参考，以及哪些参考被用于要编码的特定画面。在图3中，帧缓冲器块310表示用于存储参考画面列表的存储器。编码参考控制块310被设计成确定哪个参考画面被用于编码器侧的当前画面。

编码参考控制块310的操作被进一步放在参照图4中所示的示例性分层画面编码“线程化”或“预测链”结构的上下文中。(图8-9示出了替代的线程化结构)。在本发明的实现中所用的编解码器300可被配置成生成单独画面“线程”的集合(例如，三个线程的集合410-430)以实现多个级别的时间可缩放性分辨率(例如，L0-L2)和其它增强分辨率(例如，S0-S2)。线程或预测链被定义为使用来自同一线程的画面或来自较低级别的线程的画面进行运动补偿的画面序列。图4中的箭头指示三个线程410-430的预测的方向、源、和目标。线程410-420具有公共源L0，但是不同的目标和路径(例如分别为目标L2、L2和L0)。使用线程允许实现时间可缩放性，因为可在不对剩余线程的解码过程产生影响的情况下消除任何数量的高级别的线程。

应当注意：在根据H.264的编码器300中，编码参考控制块可仅使用P画面作为参考画面。然而，也可以使用伴随总体压缩效率的B画面。甚至使用线程集合中的单个B画面(例如，通过将L2编码为B画面)也可改进压缩效率。在传统的交互式通信中，使用根据将来画面进行预测的B画面增加了编码延迟，因此避免对B画面的使用。然而，本发明允许将MCU设计成基本上为零处理延迟。(参见共同提交的美国专利申请No.SCVS)。使用这种MCU，使用B画面但仍以低于本领域传统系统的端对端延迟操作是可能的。

在操作中，编码器300输出L0仅是相隔四个画面的数个P画面的集合。输出L1具有与L0相同的帧速率，但是仅允许基于前一L0画面的预测。输出L2画面是根据最近的L0或L1画面预测的。输出L0提供了整个时间分辨率的四分之一(1:4)，L1是L0帧速率的两倍(1:2)，而L2是L0+L1帧速率的两倍(1:1)。较少数目(例如，少于3，L0-L2)或附加数目的层可通过编码器300来类似地构造以适于不同的带宽/可缩放需要或者本发明的实现的不同规格。

根据本发明，对于附加可缩放性，每个经压缩的时间视频层(例如L0-L1)可包括或与关于SNR质量可缩放性和/或空间可缩放性的一个或多个附加分量相关联。图4示出了一个附加的增强层(SNR或空间)。注意：此附加增强层将具有不同的分量(S0-S2)，每个对应于三个不同的时间层(L0-L2)。

图5和6分别示出了SNR可缩放编码器500和600。图7-9分别示出了空间缩放性编码器700-900。应当理解，SNR可缩放性编码器500和600以及空间可缩放性编码器700-900是基于并可使用与编码器300(图3)相同的处理块(例如块330、310和320)的。

应当认识到，对于SNR可缩放编解码器的基层，对基层编解码器的输入是全分辨率信号(图5-6)。相反，对于空间可缩放性编解码器的基层，对基层编解码器的输入是输入信号的下采样版本(图7-9)。同时注意：SNR/空间质量增强层S0-S2可根据即将到来的ITU-T H.264 Annex F标准或其它合适的技术来编码。

图5示出了类似于图3中所示基于H.264的分层编码器300的结构的示例性SNR增强编码器500的结构。然而，应当注意：对SNR增强层编码器500的输入是原始画面(图3中的INPUT(输入))与在编码器处再创建的经重建的编码画面(图3的REF(参考))之间的差值。

图5也示出了用于编码先前的层的编码差错的基于H.264的编码器500的使用。这种编码要求非负输入。为了确保这种情况，对编码器500的输入(INPUT-REF(输入—参考))偏移一正偏置(例如，OFFSET(偏移量)340)。在解码之后以及在向基层添加增强层之前移除该正偏置。通常被用在H.264编解码器实现中的去块过滤器(例如，图3的去块过滤器360)并未用在编码器500中。此外，为了改进本主题的编码效率，可任选地在编码器500中忽略或消除增强层中的DC直接余弦转换(DCT)系数。试验结果指示消除SNR增强层(S0-S2)中的DC值可由于已在基层执行的精细量化而不会对画面质量造成不利影响。这种设计的益处是完全相同的编码/解码硬件或软件可用于基层和SNR增强层。以类似方式—空间可缩放性(以任何比)可通过在计算残余之前对下采样图像应用H.264基层编码和上采样经重建的图像来引入。此外，H.264之外的标准可用于压缩这两种层。

在本发明的编解码器中，为了去耦合SNR和时间可缩放性，时间层内以及跨时间层的所有运动预测可仅使用基层流来执行。这种特征在图4中通过封闭箭头415指示基层块(L)中而不是L和S块的组合中的时间预测来示出。对于这种特征，所有层可在CIF分辨率下编码。然后，QCIF分辨率可通过解码具有特定时间分辨率的基层流、并使用适当的低通过滤按二的幂次(dyadic)因子(2)在每个空间维度中进行下采样来获得。这样，SNR可缩放性也可用于提供空间缩放性。应当理解，出于示例的目的，仅涉及CIF/QCIF分辨率。本发明的编解码器可支持其它分辨率(例如，VGA/QVGA)而无需在编解码器设计中进行任何变化。为了包括SNR可缩放性特征，该编解码器还可以与上述相同或类似的方式包括传统空间可缩放性特征。由MPEG-2或H.264附录F所提供的技术可用于包括传统空间可缩放性特征。

上述设计成去耦合SNR和时间可缩放性的编解码器的架构允许比为1∶4(仅L0)、1:2(L0和L1)或1:1(所有三个层)的帧速率。对于双倍帧速率(基为总的50％)，认为是100％比特率增加，而对于在其可缩放点增加S层(基为总的40％)认为是150％增加。在优选实现中，总的流可例如工作在500Kbps，并且基层工作在200Kbps。对于基层而言可认为每帧100/4＝50Kbps的速率负荷，而对于每一帧而言为(500-200)/4＝75。应当理解，前述目标比特率和层比特率仅是示例性的，且已指出仅出于示例本发明的特征的目的，并且本发明的编解码器可易于调节成其它目标比特率或层比特率比。

理论上，在总的流和基层分别工作在500Kbps和200Kbps时，可得到达1:10的可缩放性(总对比基)。表1示出了在SNR可缩放性被用于提供空间可缩放性时，可得到的不同可缩放性选项的示例。

表1

可缩放性选项

时间(fps)	QCIF^*(Kbps)仅L	CIF(Kbps)L到L+S
时间(fps)	QCIF^*(Kbps)仅L	CIF(Kbps)L到L+S	7.5(L0)	50	50-125
15(L0+L1)	100	100-250	7.5(L0)	50	50-125
15(L0+L1)	100	100-250	30(L0+L1+L2)	200	200-500

*尽管没有QCIF分量存在于比特流中，但是其可通过按因子2下缩放CIF图像来提供。在此示例中，QCIF的更低的分辨率假定地可允许从基CIF层执行这种操作，而不对质量产生显著影响。

图6示出了基于单编码环路方案的替代SNR可缩放编码器600。SNR可缩放编码器600的结构和操作是基于编码器300(图3)的单编码环路方案。另外，在编码器600中，通过Q0量化的DCT系数被逆量化并被从原始未量化系数中减去以获得DCT系数的残余量化误差(QDIFF 610)。残余量化误差信息(QDIFF 610)还使用更精细的量化器Q1(块620)来量化、熵编码(VLC/BAC)、并作为SNR增强层S输出。注意：在操作中存在单编码环路，即在该基层上操作的那一环路。

除SNR质量增强层之外或作为其替代，终端140/视频230编码器可被配置成提供空间可缩放增强层。对于编码空间可缩放性增强层，对编码器的输入是原始高分辨率画面与如在编码器处所创建的经上采样的重建的编码画面之间的差值。编码器对输入信号的下采样版本进行操作。图7示出了用于编码空间可缩放性的基层的编码器700。编码器700包括在低分辨率基层编码器720的输入处的下采样器710。对于CIF分辨率下的全分辨率输入信号，基层编码器720可能在QCIF、HCIF(半CIF)、或低于CIF的任何其它分辨率下进行适当的下采样操作。在示例性模式中，基层编码器720可在HCIF下操作。HCIF模式操作需要在每个维度按约√2的因子对CIF分辨率输入信号进行下采样，这将画面中像素的总数目减小约原始输入的一半。注意：在视频会议应用中，如果出于显示目的而期望QCIF分辨率，则经解码的基层将必须进一步从HCIF下采样至QCIF。

可认识到，最优化视频会议应用的可缩放视频编码过程的固有难题是有两个或多个分辨率的视频信号正在发送。改善一个分辨率的质量可导致另一个分辨率的质量的相应降级。这个难题对于空间可缩放编码以及其中编码分辨率和显示分辨率相同的现有技术的视频会议系统尤为严重。本发明将编码信号分辨率与预期的显示分辨率去耦合的技术在编解码器设计者的集成库中还提供了另一工具，以实现与分辨率的每一个相关联的质量与比特率之间的更好平衡。根据本发明，对特定编解码器选择编码分辨率可通过考虑该编解码器在不同的空间分辨率之间的率失真(R-D)性能、考虑可用总带宽、不同分辨率之间的期望带宽间隔、以及每个附加层应提供的期望质量差值差分来实现。

在这个方案下，信号可在CIF和三分之一CIF(1/3CIF)分辨率下编码。CIF和HCIF分辨率信号可从CIF编码信号获得以进行显示。此外，1/3CIF和QCIF分辨率信号可类似地从1/3CIF编码信号获得以进行显示。CIF和1/3CIF分辨率信号可直接从经解码的信号得到，而后者HCIF和QCIF分辨率信号可基于对经解码信号的适当下采样来获得。类似的方案可应用到其它目标分辨率的情形中(例如，可从其获得半VGA和四分之一VGA的VGA和三分之一VGA)。

根据本发明，将编码信号分辨率从预期显示分辨率去耦合的方案连同用于线程化视频信号层的方案(图4和图15、16)提供了用于获得具有不同比特率的目标空间分辨率的可能性。例如，在视频信号编码方案中，空间分辨率可用于以CIF和1/3CIF分辨率编码源信号。SNR和时间可缩放性可应用于如图4中所示的视频信号。此外，所用的SNR编码可以是单环路或双环路编码器(例如，图6的编码器600和图5的编码器500)，或者可通过数据划分(DP)来获得。无论何时只要数据丢失或被移除，双环路或DP编码方案将可能引入偏移。然而，使用分层结构将限制偏移误差的传播直至下一L0画面，只要丢失或被移除的数据属于L1、L2、S1或S2层。此外，考虑到在所显示的视频信号的空间分辨率降低时对差错的感知也降低这个事实，可通过从L1、L2、S1或S2层消除或移除数据、解码1/3CIF分辨率以及显示下采样在QCIF分辨率的信号来获得低带宽信号。因下采样的数据丢失可在相应的L1/S1和L2/S2画面中导致差错，并且还将差错传播到将来画面(直至下一L0画面)，但是显示分辨率减小的事实使得人类观察者较不易觉察到质量降级。类似的方案可应用到CIF信号，以在HCIF、3/3CIF或在任何其它期望分辨率显示。这些方案有益地允许使用质量可缩放性来实现各个分辨率和各个比特率的空间可缩放性。

图8示出了示例性空间可缩放增强层编码器800的结构，类似于编码器500该编码器800使用同一H.264编码器结构来编码先前层的编码差错，但包括针对参考(REF)信号的上采样块810。因为对这种编码器假定非负输入，所以输入值在编码之前被偏置(例如，通过偏移量340)。仍保持负数的值被修正为零。在解码之后并在将增强层添加到经上采样的基层之前移除该偏移量。

对于空间增强层编码，类似于SNR层编码(图6)，在DCT系数的量化器(Q)中使用频率加权可能是有益的。具体地，可对DC以及其周围的AC系数使用粗量化。例如，加倍DC系数的量化器步长大小是可能是非常有效的。

图9示出了另一空间可缩放编码器900的示例性结构。与在编码器800中不同，在编码器900中，经上采样的重建基层画面(REF)并不从输入扣除，而是在增强层编码器的运动估计和模式选择块330中用作附加的可能参考。编码器900可相应地被配置成从前一经编码的全分辨率画面(或对于B画面，为后一画面)、或从以较低的空间分辨率编码的同一画面的上采样版本来预测当前全分辨率画面(层间预测)。应当注意：尽管编码器800可在仅添加下采样器710、上采样器810和偏移340块的情况下使用基层和增强层的同一编解码器来实现，但是编码器900要求修改增强层编码器的运动估计(ME)块330^*。还注意：增强层900对常规像素域而非差分域进行操作。

还可通过使用诸如H.264编码器的标准单层编码器的B画面预测逻辑来组合来自前一高分辨率画面和经上采样的基层画面的预测。这可通过修改高分辨率信号的B画面预测参考来实现，使得第一画面为常规或标准的前一高分辨率画面，而第二画面为基层画面的上采样版本。编码器在随后就像第二画面为常规B画面一样地执行预测，由此使用编码器的所有高效运动矢量预测和编码模式(例如，空间和时间直接模式)。注意：在H.264中，“B”画面编码表示“双预测”而非“双向”，这意味着两个参考画面可以同是正被编码的画面之前或之后的画面，而在传统“双向”B画面编码(例如，MPEG-2)中，两个参考画面中的一个是已往画面而另一个为将来画面。此实施例允许在限于画面参考控制逻辑和上采样模块的最小变化的情况下使用标准编码器设计。

在本发明的实现中，SNR和空间可缩放编码模式可组合到一个编码器中。对于这种实现，视频线程结构(例如，图4中示为两个维度)可扩展到对应于附加第三可缩放性层(SNR或空间)的第三维度。其中SNR可缩放性被添加到空间可缩放编解码器的全分辨率信号上的实现在可用质量和比特率范围方面会是有吸引力的。

图10-14分别示出了基层解码器1000、SNR增强层解码器1100、单环路SNR增强层解码器1200、空间可缩放增强层解码器1300和具有层间运动预测的空间可缩放增强层解码器1400的示例性架构。这些解码器与编码器300、500、600、700、800和900互补。解码器1000、1100、1200、1300和1400可适当或按需地包括在终端140的解码器230A中。

终端140的可缩放视频编码/解码配置呈现了针对在系统100中的HRC和LRC上传输结果层的数个选项。例如，(L0和S0)层或(L0、S1和L1)层可在HRC上传输。基于考虑到网络条件、高和低可靠性信道的带宽，也可按需使用替代组合。例如，取决于网络条件，期望在帧内模式编码S0，而不在受保护的HRC上传输S0。在这种情况中，不涉及预测的帧内模式编码的频率可取决于网络条件或可响应于由接收端报告的丢失来确定。在此方式中，可刷新S0预测链(即，如果在S0层有差错，则消除任何偏移)。

图15和16示出了根据本发明的替代方案的线程化或预测链架构1500和1600，它们可用在视频通信或会议应用中。线程化结构或预测链1500和1600的实现不需要对参照图2-14所述的编解码器设计进行任何本质变化。

在架构1500中，层(S0、L0和L1)的示例性组合在高可靠信道170上传输。注意：如所示，L1是L0预测链430而非S1的预测链的部分。架构1600还示出了还可实现非2的幂次的帧速率分辨率的线程化配置的其它示例。

上述系统100和终端140编解码器设计是灵活的，并且可容易地扩展成结合替代的SVC方案。例如，S层的编码可根据即将到来的ITU-T H.264 SVC FGS规范来实现。在使用FGS时，S层编码由于所产生的比特流的嵌入属性而能够利用‘S’包的任何部分。可使用FGS分量的部分来为更高层创建参考画面。FGS分量信息在通信网络上的传输中的丢失可在解码器中引入偏移。然而，本发明中使用的线程化架构有益地最小化这种丢失的影响。差错传播可在不易为观看者所觉察的情况下限于较少数目的帧。要包括以用于参考画面创建的FGS的量可动态地变化。

H.264 SVC FGS规范的所提出的一特征是FGS层中的渗漏预测技术。参见2005年4月18-22日韩国ISO/IEC MPEG&ITU-T VCEG的联合视频小组(JVT)第15次会议的Y.Bao等人的_____。泄漏预测技术包括使用先前FGS增强层画面和当前基层画面的归一化加权平均。加权平均通过加权参数α来控制；如果α为1，则仅使用当前基层画面，而如果其为0，则仅使用先前FGS增强层画面。α为0的情况与对本发明的SNR增强层使用运动估计(图5的ME)330—在仅使用零运动矢量的限制情况中—相同。渗漏预测技术可结合本发明中所述的常规ME使用。此外，可周期性地将α值转换成0，以便中断FGS层中的预测环路并消除误差偏移。

图17示出了用在视频会议系统100(图1)中的示例性MCU/SVCS 110的开关结构。MCU/SVCS确定来自可能的源(例如，端点120-140)的每一个的哪个包被发送到哪个目的地以及在哪个信道上，并且相应地交换信号。在通过引用结合于此的共同提交的美国专利申请No.__[SVCS]__中描述了这种设计和交换功能的MCU/SVCS 110。出于简要的目的，仅在本文中描述MCU/SVCS110的开关结构和交换功能的有限细节。

图18示出了MCU/SVCS开关110的示例性实施例的操作。MCU/SVCS开关110在其存储器中维护两个数据结构—SVCS交换层配置矩阵110A和SVCS网络配置矩阵110，在图19和20中分别示出了它们的示例。SVCS交换层配置矩阵110A(图19)提供了关于如何针对每个层和每对源和目的端点120-140处理特定数据包的信息。例如，矩阵110A的0值元素指示包应当被发送；负矩阵元素指示整个包应当被发送；而正矩阵元素值指示仅指定百分比的包数据应当被发送。指定百分比的包数据的发送仅在FGS类技术被用于可缩放码信号时是适当的。

图18还示出了在MCU/SVCS 110中用于使用交换层配置矩阵110A的信息来指引数据包的算法1800。在步骤1802，MCU/SVCS 110可检查接收到的包报头(例如，假定使用H.264时的NAL报头)。在步骤1804，MCU/SVCS110估计源、目的地和层组合的相关矩阵110A元素的值以确立处理指令和接收到的包的指定目的地。在使用FGS编码的应用中，正矩阵元素值指示包的有效载荷必须减小其大小。相应地，在步骤1806，包的相关长度项被改变且没有数据被拷贝。在步骤1808，相关层或层的组合被交换到其指定的目的地。

参照图18和20，SVCS网络配置矩阵110B跟踪每个参与端点的端口号。MCU/SVCS 110可使用矩阵110B信息来发送和接收每个层的数据。

与传统MCU操作相比，基于处理矩阵110A和110B的MCU/SVCS 110的操作允许在零或最小内部算法延迟的情况下进行信号交换。传统MCU必须将传入视频合成为新的帧以发送到各个参与方。这种合成需要对传入流进行全解码并对输出流进行重编码。在这些MCU中的解码/重编码处理延迟是显著的，同时需要计算能力。通过使用可缩放比特流架构，以及在每个端点中断140接收器中提供解码器230A的多个实例，MCU/SVCS 110仅需要过滤传入的包以为每个接收方目的地选择适当的层。不需要或仅需要最小DSP处理的事实可有益地允许以极低成本实现MCU/SVCS 110，并且提供良好的可缩放性(就可同时主宿在给定设备上的会话数量而言)，以及具有可仅略大于直接端对端连接中的延迟的端对端延迟。

终端140和MCU/SVCS 110可使用不同的比特率和流组合部署在不同的网络环境中。表II示出了各种示例性网络环境中的可能的比特率和流组合。注意：基带宽/总带宽>＝50％是Diffserv分层有效性的极限，并且此外时间分辨率小于15fps是无益的。

表II

各种网络环境的比特流分量

	HRC	LRC	总的线速度	HRC对LRC带宽
	HRC	LRC	总的线速度	HRC对LRC带宽	客户端发送	L0+L1＝100	S0+S1+L2+S2＝150+100+150＝400	500	1:4
SVCS针对CIF接收者进行反射	相同	相同	500	1:4	客户端发送	L0+L1＝100	S0+S1+L2+S2＝150+100+150＝400	500	1:4
SVCS针对CIF接收者进行反射	相同	相同	500	1:4	低速客户端1的SVCS	L0+L1＝100	S0+1/2×(S1+S2)+L2＝150+100＝250	350	1:2.5
QCIF观看在30fps下的低速客户端2的SVCS	L0+L1＝100	L2＝100	200	1:1	低速客户端1的SVCS	L0+L1＝100	S0+1/2×(S1+S2)+L2＝150+100＝250	350	1:2.5
QCIF观看在30fps下的低速客户端2的SVCS	L0+L1＝100	L2＝100	200	1:1	CIF观看在15fps下的低速客户端3的SVCS	L0＝50	L0+S0+S1＝50+150	200	1:1
QCIF在15fps下的低速客户端4的SVCS	L0＝50	L1＝50	100	1:1	CIF观看在15fps下的低速客户端3的SVCS	L0＝50	L0+S0+S1＝50+150	200	1:1
QCIF在15fps下的低速客户端4的SVCS	L0＝50	L1＝50	100	1:1	CIF在7.5fps下的非常速	L0＝50	S0＝50	100	1:1

客户端的SVCS

本发明的终端140和类似配置允许部署在可提供不同的QoS保证的信道上的端对端和多点会议系统的上下文中采用可缩放编码技术。对在此所述的可缩放编解码器的选择、线程化模型的选择、哪些层在高可靠或低可靠信道上传输的选择、以及适当的比特率(或量化器步长大小)的选择是相关的设计参数，这些参数可随本发明的特定实现而改变。通常，这些设计选择可一次进行，并且在视频会议系统的部署期间或者至少在特定视频会议系统会话期间保持恒定。然而，应当理解，本发明的SVC配置提供了在单个视频会议会话中动态调节这些参数的灵活性。考虑到参与方/端点的需要(例如，其他参与方应当在哪种分辨率下接收哪些等)和网络条件(例如，丢失率、抖动、每个参与方的带宽可用性、高和低可靠信道之间的带宽分离等)，这些参数的动态调节是合乎需要的。在合适的动态调节方案下，各个参与方/端点能够交互地在不同线程化模式之间切换(例如，在图4、8和9中所示的线程化模式之间)、选择改变如何将层指派到高和低可靠性信道、选择去除一个或多个层、或改变各个层的比特率。类似地，MCU/SVCS 110可被配置成改变如何将层指派到链接各个参与方的高和低可靠性信道、去除一个或多个层、缩放FGS/SNR增强层或某些参与方。

在示例性场景中，视频会议可具有三个参与方A、B和C。参与方A和B可接入可保证200Kbps的连续速率的高速500Kbps信道。参与方C可接入可保证100Kbps的连续速率的高速200Kbps信道。参与方A使用具有以下各层的编码方案：基层(“基”)、提供在CIF分辨率下的7.5fps、15fps、30fps的视频的时间可缩放性层(“时间”)、以及允许在三个时间帧速率的任一个上增加空间分辨率的SNR增强层(“FPS”)。对于500Kbps的总带宽，基和时间分量各自需要100Kbps，而FGS需要300Kbps。参与方A可向MCU 110发送所有三个基、时间和FPS分量。类似地，参与方B可接收所有三个分量。然而，因为在此场景中，仅对参与方B保证200Kbps，所以FGS通过没有保证的300Kbps信道区段来传输。参与方C可仅接收基和时间分量，并且保证100Kbps的基分量。如果可用(有保证的或总的)带宽改变，则参与方A的编码器(例如终端140)可响应以动态地改变分量中任一个的目标比特率。例如，如果有保证的带宽大于200Kbps，则更多的比特被分配到基和时间分量。由于编码以实时进行(即，视频并非预编码)，所以可实时地响应以动态实现这些改变。

如果参与方B和C都通过例如100Kbps的有限容量的信道链接，则参与方A可选择仅发送基分量。类似地，如果参与方B和C选择仅在QCIF分辨率观看接收到的视频，则参与方A可通过不发送FGS分量作出响应，因为由FGS分量提供的附加质量增强由于将接收到的CIF视频下采样至QCIF分辨率而丢失。

注意：在某些环境中，可适当地发送单层视频流(基层或总的视频)以及完全避免使用可缩放性层。

在通过HRC和LRC发送可缩放视频层的时，只要LRC上的信息丢失，则仅HRC上发送的信息可用于视频重建和显示。实际上，所显示的视频画面的某些部分将包括通过解码基层和指定的增强层所产生的数据，但是其它部分将包括通过仅解码基层所产生的数据。如果与不同的基层和增强层组合相关联的质量水平显著不同，则包括或不包括丢失的LRC数据的所显示视频画面之间的质量差异可变得明显。在时间维度上该视觉效果可能被放大，其中从基层到‘基加上增强层’的所显示画面的反复变化可作为闪烁被觉察到。为了减轻这种影响，可能期望确保基层与‘基加上增强层’画面之间的质量差异(例如，在PSNR方面)保持较低，尤其在画面中视觉上闪烁更明显的静止部分。基层画面与‘基加上增强层’画面之间的质量差异可特意通过使用适当的速率控制(rate control)技术以增加基层自身的质量来保持在较低。一种这样的速率控制技术可用来以减低的QP值(即，更加精细的量化值)来编码L0画面的全部或一部分。例如，层L0画面可用按因子3降低的QP来编码。这种更精细的量化可增加基层的质量，由此减小由增强层信息丢失导致的任何闪烁影响或等价的空间伪块。较低的QP值也可每隔一个L0画面、或每四个L0画面地应用，从而在减轻闪烁和类似假象中获得类似效果。SNR和空间可缩放性的组合的具体使用(例如，使用HCIF编码来表示承载QCIF质量的基层)使得应用到基层的适当的速率控制能够使静止对象逼近HCIF分辨率，由此减少在增强层丢失时导致的闪烁伪块。

虽然已对被认为是本发明的优选实施例的那些进行了描述，但是本领域技术入人员可认识到，可对其作出其它和进一步变化和更改而不背离本发明的精神，并且旨在要求落在本发明的真实范围内的所有这些变化和更改。

还应当理解，根据本发明，这里所述的可缩放编解码器可使用任何合适的硬件和软件组合来实现。用于实现和操作前述可缩放编解码器的软件(即，指令)可提供于计算机可读介质上，包括但不限于：固件、存储器、存储设备、微控制器、微处理器、集成电路、ASICS、可在线下载的介质以及其它可用介质。

Claims

1.一种用于通过电子通信网络和一个或多个服务器在多个端点之间进行视频通信的系统，所述网络提供链接所述多个端点和服务器的不同质量服务和带宽信道，所述信道信道包括指定的高可靠性信道(HRC)和低可靠性信道(LRC)，所述系统包括：

布置在所述端点上的发送和接收终端，

其中至少一个发送终端被配置成以基层和增强层格式准备至少一个经可缩放编码的视频信号以发送到其它终端，以及在指定HRC上发送至少所述基层，以及

其中至少一个接收端点被配置成将在包括指定HRC的网络信道上接收到的所述经可缩放编码的视频信号层解码，并且通过组合所述经解码的视频信号层来重建供本地使用的视频，以及

其中所述服务器被配置成对由发送终端向接收终端发送的所述经可缩放编码的视频信号在通向所述后者终端的电子通信网络信道上的传输进行协调。

2.如权利要求1所述的系统，其特征在于，所述至少一个终端被配置成访问以下至少之一：用于编码和发送的实况视频信号；所存储的用于编码和发送的视频信号；所合成的用于编码和发送的视频信号以及预编码的用于发送的视频信号。

3.一种用于通过设置在电子通信网络中的一个或多个服务器与其它端点进行视频通信的端点终端，所述网络提供了链接多个端点的不同质量服务和带宽信道，所述信道包括指定的HRC，所述端点终端包括：

至少一个可缩放视频编码器，它被配置成以基层和增强层格式可缩放地编码至少一个视频信号；以及

包复用器，它被配置成将以所述基层和增强层格式编码的所述视频信号的层复用以在所述电子通信网络上发送，

其中所述端点终端被配置成从所述视频信号的所述基层和增强层指定至少所述基层以经由网络接口控制器在所述指定的HRC上发送。

4.如权利要求3所述的端点终端，其特征在于，还包括其输出被连接到所述包复用器的音频信号编码器。

5.如权利要求3所述的终端，其特征在于，所述可缩放视频编码器是运动补偿的、基于块的编解码器，所述编解码器包括：

帧存储器，其中一个或多个经解码的帧被存储以供将来参考；以及

参考控制器，配置成选择所述画面类型(I、P或B)以及所述帧存储器中将用作当前正被编码的画面的预测参考的画面，

其中所述编解码器还被配置使用作为实现时间可缩放性层的手段的线程来执行画面预测。

6.如权利要求5所述的终端，其特征在于，所述可缩放视频编码器被配置成创建所述基层的一个连续预测链路径。

7.如权利要求5所述的终端，其特征在于，所述线程是画面线程，包括：

基层线程，其进一步由相隔数个画面的画面构成且其中时间预测使用同一线程的一个或多个先前画面来执行；以及

时间增强层线程，其由剩余画面构成且其中从一个或多个在前基层画面和/或一个或多个在前时间增强层画面执行预测。

8.如权利要求5所述的终端，其特征在于，所述画面线程包括：

基层线程，进一步由相隔固定数目画面的画面构成且其中时间预测使用同一线程中紧邻之前的帧来执行；

第一时间增强层线程，由所述基层线程的帧之间的一半处的那些帧构成且其中从紧邻在前的基层画面或紧邻在前的第一时间增强层画面来执行预测；以及

第二时间增强层线程，由剩余画面构成且其中从紧邻在前的第二时间增强层画面、紧邻在前的第一时间增强层画面或紧邻在前的基层线程画面来执行预测。

9.如权利要求5所述的终端，其特征在于，所述可缩放视频编码器被配置成使用比用于其它时间层的量化更精细的量化来编码所述基时间层帧，由此比所述其它层更精确地来编码所述基层。

10.如权利要求5所述的终端，其特征在于，所述可缩放视频编码器被配置成创建在增强层结束的至少一个预测链。

11.如权利要求5所述的终端，其特征在于，所述时间预测编解码器还包括SNR质量可缩放性层编码器。

12.如权利要求11所述的终端，其特征在于，所述SNR质量可缩放性增强层编码器被配置成具有一输入，所述输入为通过从原始帧减去经解码的基层帧以及应用正偏移量而获得的基层残余编码误差，并且在随后以与所述基层编码器相同的方式编码差值。

13.如权利要求11所述的终端，其特征在于，所述SNR增强层编码器还被配置成使用与所述基层或较低增强层的预测路径不同的预测路径。

14.如权利要求12所述的终端，其特征在于，所述SNR增强层编码器还被配置成在预测SNR质量增强层的经解码的视频帧时丢弃直接余弦变换(DCT)系数的DC分量。

15.如权利要求12所述的终端，其特征在于，SNR增强层编码器还被配置成在编码SNR质量增强层的视频帧时，以比剩余DCT系数粗的水平量化所述DC和周围的AC DCT系数。

16.如权利要求11所述的终端，其特征在于，在所述接收端点处的所述SNR质量可缩放性层解码器被配置成通过在解码之后应用低通过滤和下采样来以期望的经降低的分辨率显示所述经解码的基层帧。

17.如权利要求11所述的终端，其特征在于，所述SNR质量可缩放性增强层编解码器包括带线程化的H.264 SVCS FGS编解码器。

18.如权利要求17所述的终端，其特征在于，所述空间可缩放性层编解码器包括被配置成在运动补偿预测中使用先前增强层画面和当前基层画面的加权平均的H.264 SVC FGS编解码器，其中所述加权动态改变以包括零值——所述预测链在此时终止并由此消除了偏移。

19.如权利要求11所述的终端，其特征在于，所述SNR质量可缩放性层编码器被配置成通过重新量化DCT系数在量化之前和之后的差值并对所述经重新量化的差值应用熵编码来编码所述差值。

20.如权利要求5所述的终端，其特征在于，所述时间预测编解码器还包括空间可缩放性层编码器，并且其被配置成对所述原始输入信号进行低通滤波和下采样，其中所述较低分辨率可与所预期的显示分辨率不同，并且使用其作为对所述基层编码器的输入。

21.如权利要求20所述的终端，其特征在于，所述空间可缩放性层编码器被配置成使得增强层的预测路径不同于所述基层或较低增强层的所述预测路径。

22.如权利要求20所述的终端，其特征在于，所述空间可缩放性层编码器被配置成：

将所述经解码的低分辨率信号上采样至所述原始输入信号分辨率；

从所述经上采样的解码低分辨率信号减去所述原始信号以获得差分信号；

对所述差分信号施加一偏移量；以及

解码所述偏移差分信号。

23.如权利要求22所述的终端，其特征在于，所述空间可缩放性层编码器被配置成使得所述DC及周围的DCT AT系数可比所述剩余DCT AC系数更粗地来量化。

24.如权利要求20所述的终端，其特征在于，所述空间可缩放性层编码器被配置成在预测高分辨率视频帧时使用双预测编码，并且其中所述第一参考画面是经解码的之前的全分辨率画面而所述第二参考画面是通过首先编码和解码所述经下采样的基层信号并随后将其上采样至所述原始分辨率而获得的。

25.如权利要求24所述的终端，其特征在于，所述空间可缩放性层编码器包括具有双预测编码的H.264 AVC编码器，其中所述经上采样的解码基层帧作为附加参考帧被插入并且其中运动矢量预测的时间和空间直接模式被用于增加压缩效率。

26.如权利要求5所述的终端，其特征在于，包括基层编码器，还包括SNR质量层编码器、空间可缩放性层编码器和时间增强层编码器中的至少一个。

27.一种用于通过设置在电子通信网络中的一个或多个服务器与其它端点进行视频通信的端点终端，所述网络提供链接所述多个端点的不同质量服务和带宽信道，所述信道包括指定的HRC，所述端点终端包括：

可缩放视频解码器或解码器，它们被配置成以基层和增强层格式可缩放地解码一个或多个视频信号；以及

包解复用器，它被配置成在经由网络接口控制器通过所述电子通信网络接收之后将以所述基层和增强层格式编码的所述视频信号的层解复用。

28.如权利要求27所述的终端，其特征在于，所述解码器包括SNR质量可缩放性解码器。

29.如权利要求28所述的终端，其特征在于，所述SNR质量可缩放性解码器被配置成通过在解码之后应用低通过滤和下采样来以期望的经减小的分辨率显示所述经解码的基层帧。

30.如权利要求28所述的终端，其特征在于，所述SNR质量可缩放性增强层解码器被配置成在减去正偏移量之后将由所述增强层数据所承载的经解码的残余误差添加到所述经解码的基层帧。

31.如权利要求27所述的终端，其特征在于，所述解码器还包括空间可缩放性解码器。

32.如权利要求31所述的终端，其特征在于，所述空间可缩放性层解码器被配置成：

将所述经解码的基分辨率信号上采样至所述增强层分辨率；

解码由所述增强层承载的所述偏移量差分信号；

从所述经解码的增强层信号中减去偏移量并将结果添加到所述经上采样的解码基分辨率信号。

33.如权利要求31所述的终端，其特征在于，所述空间可缩放性层解码器包括具有双预测编码支持的H.264 AVC解码器，其中所述经上采样的解码基层帧作为附加参考帧被插入。

34.如权利要求5所述的终端，其特征在于，所述可缩放视频编码器被配置成以可被同时发送的两种或多种空间和/或质量分辨率编码所述输入信号。

35.如权利要求3所述的终端，其特征在于，取决于网络条件或接收端点的偏好指示，所述可缩放编码结构可在任意可缩放性维度上动态变化。

36.一种用于通过电子通信网络和一个或多个服务器在多个端点之间进行通信的方法，所述网络提供链接所述多个端点的不同质量服务和带宽信道，所述信道包括指定的HRC，所述方法包括：

以基层和增强层格式可缩放地解码一个或多个视频信号；

对要在所述电子通信网络发送的所述视频信号的层进行复用，

发送所述视频信号的所述基层和增强层中的至少所述基层以在所述指定的HRC上传输。

37.如权利要求36所述的方法，其特征在于，所述对要在所述电子通信网络上发送的所述视频信号的层进行复用还包括对要在所述电子通信网络上发送的视频信号进行复用。

38.一种用于通过电子通信网络在多个端点之间传送以基和增强层格式来可缩放编码的经编码的视频信号画面的方法所述方法包括：

为当前正被编码的画面选择画面类型(I、P或S)，以及从存储在帧存储器中的所述经解码的画面中选择预测参考画面；以及

通过使用线程化执行画面预测来创建时间可缩放性层；

39.如权利要求38所述的方法，其特征在于，还包括创建所述基层的连续预测链路径。

40.如权利要求38所述的方法，其特征在于，所述画面线程包括基层线程，所述基层线程包括相隔数个画面的画面，并且所述方法还包括使用所述基层画面的在前帧的一个或多个来在每个基层画面中执行时间预测，

其中时间增强层线程包括剩余画面，并且所述方法还包括使用在前基层画面的一个或多个或者一个或多个在前时间增强层画面来在每个增强层画面中执行预测。

41.如权利要求38所述的方法，其特征在于，所述画面线程包括基层线程，所述基层线程包括为相隔数个画面的画面，并且所述方法还包括使用同一线程的紧邻之前的帧来执行时间预测，

其中第一时间增强层线程包括在所述基层线程的帧之间的一半处的那些帧，并且所述方法包括从所述紧邻在前的基层帧或紧邻在前的第一时间增强层线程画面来执行预测；以及

其中第二时间增强层线程包括剩余帧，并且所述方法还包括使用紧邻在前的第二时间增强层线程画面、所述紧邻在前的第一时间增强层线程画面或所述紧邻在前的基层线程画面中的帧来执行时间预测。

42.如权利要求38所述的方法，其特征在于，还包括使用比其它时间层所用的量化更精细的量化来编码所述基时间层帧，由此比所述其它层更精确地编码所述基层。

43.如权利要求38所述的方法，其特征在于，还包括创建在增强层处结束的至少一个预测链。

44.如权利要求38所述的方法，其特征在于，通过使用线程执行画面预测可缩放地编码时间可缩放性层还包括编码SNR质量可缩放性增强层。

45.如权利要求44所述的方法，其特征在于，编码SNR质量可缩放性增强层包括将正偏移量施加到通过从所述原始帧减去所述经解码的基层帧所获得的残余编码误差，并随后以与编码所述基层的相同方式编码该差值。

46.如权利要求44所述的方法，其特征在于，编码SNR质量可缩放性增强层包括使用与用于所述基层或较低增强层的预测路径不同的预测路径。

47.如权利要求45所述的方法，其特征在于，编码SNR质量可缩放性增强层包括在编码所述SNR质量可缩放性增强层的画面时丢弃离散余弦变换(DCT)系数的DC成分。

48.如权利要求45所述的方法，其特征在于，编码SNR质量可缩放性增强层包括在编码所述SNR质量可缩放性增强层的视频帧时将所述DC和周围的AC DCT系数以比剩余DCT系数粗的水平量化。

49.如权利要求44所述的方法，其特征在于，编码SNR质量可缩放性增强层还包括通过在解码之后应用低通过滤和下采样在所述接收端点以期望的经减小的分辨率来显示所述经解码的基层帧。

50.如权利要求44所述的方法，其特征在于，编码SNR质量可缩放性增强层还包括具有线程化的H.264 SVC FGS编解码器。

51.如权利要求50所述的方法，其特征在于，还包括使用被配置成在运动补偿预测中使用先前增强层画面和当前基层画面的加权平均的H.264 SVCFGS编解码器，其中所述加权动态改变以包括零值——所述预测链在此时终止并由此消除了偏移。

52.如权利要求44所述的方法，其特征在于，编码SNR质量可缩放性增强层包括通过重新量化DCT系数在量化之前和之后的差值并对所述经重新量化的差值应用熵编码来编码所述差值。

53.如权利要求38所述的方法，其特征在于，编码所述时间质量层还包括对所述原始输入信号应用低通过滤和下采样来编码空间可缩放性层，其中所述较低分辨率可与所预期的显示分辨率不同，并且以与所述基层相同的方式编码所述经下采样的信号。

54.如权利要求53所述的方法，其特征在于，编码空间可缩放性层包括对增强层使用与用于所述基层或较低增强层的预测路径不同的预测路径。

55.如权利要求53所述的方法，其特征在于，编码空间可缩放性层包括：

从所述经上采样的解码低分辨率信号中减去所述原始输入信号以获得差分信号；

对所述差分信号施加一偏移量；以及

编码所述偏移差分信号。

56.如权利要求55所述的方法，其特征在于，编码空间可缩放性层包括：

将所述DC和周围的DCT AC系数比剩余DCT AC系数粗地量化。

57.如权利要求53所述的方法，其特征在于，编码空间可缩放性层包括：

在预测高分辨率视频帧时使用双预测编码，并且其中所述第一参考画面是经解码的之前的全分辨率画面而所述第二参考画面是通过首先编码和解码所述经下采样的基层信号并随后将其上采样至所述原始分辨率而获得的。

58.如权利要求57所述的方法，其特征在于，编码空间可缩放性层包括：

包括使用具有双预测编码的H.264 AVC编码器，其中所述经上采样的解码基层帧作为附加参考帧被插入并且其中运动矢量预测的时间和空间直接模式被用于提高压缩效率。

59.如权利要求38所述的方法，其特征在于，包括使用基层编码器，还包括SNR质量层编码器、空间可缩放性层编码器和时间增强层编码器中的至少一个。

60.一种用于通过电子通信网络在多个端点以及一个或多个服务器之间传送以基和增强层格式来可缩放编码的经编码的视频信号画面的方法，所述方法包括使用：

61.如权利要求60所述的方法，其特征在于，所述解码器包括SNR质量可缩放性解码器。

62.如权利要求61所述的方法，其特征在于，还包括使用所述SNR质量可缩放性解码器通过在解码之后应用低通过滤和下采样来以期望的经减小的分辨率显示所述经解码的基层帧。

63.如权利要求61所述的方法，其特征在于，还包括使用所述SNR质量可缩放性解码器在减去正偏移量之后将由所述增强层数据所承载的经解码的残余误差添加到所述经解码的基层帧。

64.如权利要求60所述的方法，其特征在于，所述解码器还包括空间可缩放性解码器。

65.如权利要求64所述的方法，其特征在于，还包括使用所述空间可缩放性层解码器来：

将所述经解码的基分辨率信号上采样至所述增强层分辨率；

解码由所述增强层承载的所述偏移差分信号；

从所述经解码的增强层信号中减去偏移量并将结果添加到所述经上采样的解码基层分辨率信号。

66.如权利要求64所述的方法，其特征在于，所述空间可缩放性层解码器包括具有双预测编码支持的H.264 AVC解码器，所述方法还包括插入所述经上采样的解码基层帧作为附加参考帧。

67.如权利要求38所述的方法，其特征在于，所述可缩放地编码视频信号包括以可被同时发送的两种或多种空间和/或质量分辨率编码所述信号。

68.如权利要求38所述的方法，其特征在于，取决于网络条件或接收端点的偏好指示，所述可缩放编码结构可在任意可缩放性维度上动态变化。

69.一种用于通过电子通信网络和一个或多个服务器在多个端点之间进行视频通信的方法，所述网络提供链接所述多个端点和服务器的不同质量服务和带宽信道，所述信道包括指定的高可靠性信道(HRC)和低可靠性信道(LRC)，所述方法包括：

在所述端点上布置发送和接收终端，

将至少一个发送终端配置成以基层和增强层格式准备至少一个经可缩放编码的视频信号来发送到其它终端，以及在指定HRC上发送至少所述基层，以及

将至少一个接收终端配置成将在包括指定HRC的网络信道上接收到的所述经可缩放编码的视频信号层解码，并通过组合所述经解码的视频信号层来重建供本地使用的视频，以及

将所述服务器配置成对由所述发送终端向接收终端发送的所述经可缩放编码的视频信号在通向所述后者终端的电子通信网络信道上的传输进行协调。

70.如权利要求69所述的方法，其特征在于，配置至少一个发送包括将所述终端配置成访问以下至少之一：用于编码和发送的实况视频信号；所存储的用于编码和发送的视频信号；所合成的用于编码和发送的视频信号以及预编码的用于发送的视频信号。

71.包括用以执行权利要求36-70的至少一个中所述的步骤的指令集的计算机可读介质。