CN100559865C

CN100559865C - 用于产生连续呈现图像的装置和方法

Info

Publication number: CN100559865C
Application number: CNB2005800047469A
Authority: CN
Inventors: 汤姆·埃里克·利亚; 汤姆-伊瓦尔·约翰森
Original assignee: Tandberg Telecom AS
Current assignee: Cisco Systems International SARL
Priority date: 2004-02-13
Filing date: 2005-02-11
Publication date: 2009-11-11
Anticipated expiration: 2025-02-11
Also published as: NO20040661D0; US20050195275A1; EP1721462B1; WO2005079068A1; EP1721462A1; US7720157B2; NO320115B1; ES2345893T3; JP4582659B2; CN1918912A; JP2007522761A; ATE471631T1; DE602005021859D1

Abstract

本发明涉及在管理多场所视频会议的多点控制单元(MCU)内产生连续呈现(CP)图像。本发明使用ITUH.26^*标准的比特结构以缩短处理时间，并降低用于产生无自身视图的CP视图的MCU的要求。通过重新排列来自编码的CP图像的宏块，可以去除CP图像内的区域，从而使得向参与的场所发送无自身视图的CP图像。重新排列的步骤明显地降低了对MCU内编码器资源的要求。

Description

用于产生连续呈现图像的装置和方法

技术领域

本发明涉及视频会议，特别是涉及在多点控制单元(MCU)内产生连续呈现(Continuous Presence)图像。

背景技术

移动图像的实时传输在多种应用中使用，如视频会议、网络会议、电视广播以及视频电话。

但是，表示移动图像需要有大量的信息，因数字视频通常通过用8比特(1字节)来表示画面中的每个像素来描述。这种未压缩的视频数据导致很大的比特量，并且，由于受到带宽的限制，不能在传统的通信网络和传输线中实时传输。

因此，要实现实时的视频传输需要大比例的数据压缩。但是，数据压缩又会影响图像质量。因此，进行了大量的努力来开发压缩技术，从而允许在带宽有限的数据连接中进行高质量的视频实时传输。

在视频压缩系统中，主要的目标是用尽可能小的容量来表示视频信息。容量是用比特定义的，可以是恒定值，也可以是比特/时间单位。这两种情况下主要的目标都是降低比特的数量。

MPEG*和H.26*标准描述了最常用的视频编码方法。在传输之前，视频数据经历四个主要的处理，即预测、变换、量化以及熵编码。

预测处理显著降低了待传输的视频序列中每个画面所需的比特量。其利用了序列的一部分与该序列的其他部分的相似性。由于预测部分对编码器和解码器都是已知的，因此只传输差异值。这种差异通常只需要很小的容量来表示。该预测主要基于先前重新构造的图像中的图像内容，其中内容的位置由运动矢量定义。预测过程通常在方块尺寸(例如16x16像素)上进行。

视频会议系统还允许在多个会议场所即时交换音频、视频和数据信息。如大家知道的作为多点控制单元(MCU)的系统，其执行切换功能，使得多个场所在会议中互相通信。MCU从各场所接收会议信号的帧、处理接收的信号以及向合适的场所重发经处理的信号，由此将各场所连接在一起。会议信号包括音频、视频、数据以及控制信息。在切换的会议中，把来自其中一个会议场所的视频信号，通常是最大声说话者的视频信号，广播给每个参与者。在一个连续呈现的会议中，来自两个或多个场所的视频信号被立体混合以形成复合的视频信号，用来给会议参与者观看。连续呈现图像或复合图像是组合的图像，可以包括现场视频流、静止图像、菜单或来自会议中参与者的其他可视图像。

在典型的连续呈现会议中，视频显示被分割成具有多个区域(例如四个四分之一区域)的复合布局。在设置会议时，从连接至会议的各场所中选择场所，用于在所述各区域中显示。通常的复合布局包括四个、九个或十六个区域。布局选定之后，在整个会议期间固定不变。

一些会议装置提供不同的复合信号或视频混合，从而使每个场所可以观看不同的场所混合。另一种装置使用声音激活的四分之一区选择把场所与特定的四分之一区相关联。这种装置不仅能使会议参与者观看固定的视频混合场所，也可以观看根据声音活动选择的场所。但是，在区域或四分之一区的数量方面，布局对会议是固定的。

现在参照图1，图1是其类型为在美国专利No.5,600,646中公开的MCU 10的实施例的示意图，该专利申请的内容通过引用并入此处用于参考。MCU 10还包括美国专利No.6,404,745公开的H.323功能性，该专利的内容也通过引用并入此处用于参考。此外，在MCU内的视频处理已经得到增强，这将在本文中进一步说明。本文所描述的MCU 10的特征可以用Tandberg MCU来实施。

MCU 10包括至少一个网络接口单元(NIU)120、至少一个桥接处理单元(BPU)122、视频处理单元(VPU)124、数据处理单元(DPU)126以及主机处理单元(HPU)130。除主机工业标准结构(ISA)控制总线132之外，MCU 10还包括网络总线134、BPU总线136以及X总线138。网络总线134符合多厂商集成协议(MVIP)，而BPU总线136以及X总线派生于MVIP规范。HPU 130为MCU操作提供管理接口。前述MCU的每个组件在上述引用的美国专利No.5,600,646和No.6,404,745内有进一步的说明。

通过增加网关处理单元(GPU)128和修改的BPU，以下称为BPU-G122A，来提供H.323的功能性。GPU 128运行H.323协议，用于呼叫信令以及通过以太网或其他LAN接口140建立和控制至端点终端的音频、视频以及数据流。BPU-G122A是被编程的BPU 122，用来处理从GPU 128接收的音频、视频以及数据包。

现在在更高的级别来描述MCU操作，MCU操作最初用于电路交换会议，然后用于分组交换H.323会议。在电路交换会议中，通过网络接口142，使来自H.320电路交换端点终端的数字数据帧在网络总线134上对NIU 120可用。BPU 122处理来自网络总线134的数据帧，以产生在BPU总线136上对其他BPU 122可用的数据帧。BPU 122还从数据帧提取音频信息。

BPU122把压缩的视频信息和混合的编码音频信息组合成帧，这些帧置于网络总线134上用于向各个H.320终端传输。

当视听终端以不同的传输速度或使用不同的压缩算法运行或要混合成复合图像时，向VPU 124发送多个视频输入，该视频输入在VPU124被解压缩、混合，并重新压缩成单个视频流。然后通过BPU 122传回该单个视频流，BPU 122将视频流切换到合适的端点终端。

对于基于分组的H.323会议，GPU 128使音频、视频以及数据包在网络总线134上可用。通过DPU 126处理数据包。BPU-G122A处理来自网络总线134的音频和视频包，以产生音频和视频广播混合，该混合置于网络总线134上，用于通过GPU128向各个端点终端发送。此外，BPU-G122A处理音频和视频包，以产生数据帧，并使这些数据帧在BPU总线136对BPU 122可用。在此情况下，MCU 14起网关的作用，从而普通的BPU 122和BPU-G122A能够在H.320和H.323终端之间透明地交换音频和视频。

在描述了能够实现基本的会议桥接功能的MCU 10的各组件之后，现在参照图2的功能框图来描述由VPU 124提供的灵活性的高级说明。在MCU 10内，在同一会议中的直至五个视听终端的压缩视频信息通过BPU总线136被路由到特定的VPU 124。VPU 124包括五个视频压缩处理器(VCP0-VCP4)，每个视频压缩处理器具有视频解码器/编码器对102-i和106-i以及像素缩放块(pixel scaling block)104-i和108-i。

视频解码器/编码器对102-i和106-i被分配给与会议中特定场所相关联的压缩视频信息流。每一个视频解码器102-i使用与其相关联场所的编码算法相匹配的算法来解码该压缩的视频信息。包括在视频解码器102-i内作为其一部分的是确定可以作为传输协议一部分的帧、包以及校验和的处理。应注意由处理器编码的视频流能够分配给多个场所(例如，在会议中具有五个以上场所的连续呈现应用)。此外，解码器/编码器对102-i和106-i能够在会议中的场所之间进行切换。

如有必要，通过像素缩放块104-i放大或缩小解码的视频信息(例如像素)，使得与会议中其他将要编码缩放像素的场所的像素分辨率要求相匹配。例如，台式系统可以用256x240像素的分辨率编码，而H.320终端可以要求通用中间格式(CIF)图像的352x288像素的分辨率。其他通用格式包括Quarter通用中间格式(QCIF)(176x144像素)、4CIF(704x576)、SIF(352x240)、4SIF(704x480)、VGA(640x480)、SVGA(800x600)以及XGA(1024x768)。

VPU 124包括像素总线182和存储器123。美国专利No.5,600,646公开的系统使用时分复用总线。特别是，每个解码器102-j向像素总线182输出至存储器123的像素。每个编码器106-j可以在像素总线上从存储器123检索任何图像，用于重新编码和/或立体混合或复合。另一个像素缩放块108-j连接在像素总线182和编码器106-j之间，用于在需要时调整采样图像的像素分辨率。

现在参照图3和图4来描述连续呈现应用。为简单起见，所示的端点终端为H.320终端。在图3中，来自场所38的数据通过通信网络到达各个NIU 120。在该会议中，有五个场所38(A、B、C、D和E)被连在一起。场所A和B连接至特定的NIU 120，该NIU 120支持多编解码器连接(例如，T1接口)。其他的场所C、D和E连接至仅支持单个编解码器连接(例如，ISDN接口)的NIU 120。每个场所38将一个或多个八位字节的数字数据放到网络总线134上作为未同步的H.221成帧的数据。然后，BPU 122确定H.221成帧和八位字节的排列。该排列的数据对BPU总线136上的所有其他单元可用。BPU 122还从H.221帧提取音频信息，并将该音频解码成16比特的PCM数据。被解码的音频数据在BPU总线136上可用，用于与来自其他会议场所的音频数据混合。

VPU 124接收排列的H.221帧，由被称为视频压缩处理器(VCP)的编码器/解码器元件来处理。VPU 124具有五个VCP(图2)，在该示例中，这五个VCP被分别分配到场所A、B、C、D和E。图4说明了在被分配到场所E的VPU 124上的VCP的功能。从H.221帧提取压缩的视频信息(H.261)，并由VCP进行解码，作为图像X。通过缩放块，把解码器视频图像X置于像素总线182上。图4示出了像素总线182，带有来自各个场所A、B、C、D和E、相继从存储器123检索、并由其各自的RAM地址标识的解码的视频帧。分配到场所E的VCP从场所A、B、C和D接收解码的视频帧，然后，场所A、B、C和D拼接(立体混合)成单个的复合图像I。然后，拼接的图像I被编码成H.221帧内的H.261视频，并置于BPU总线136(图3)上，用于上述的BPU处理。

从上述说明可以看出，由于必须要混合原始的像素数据，然后将其编码形成混合的视图或连续呈现视图，因此代码转换(transcoding)要求相当多的处理资源。为了避免自身视图(self view)，即避免CP视图包含要对其发送到的各个参与者的图像，MCU必须针对CP视图内的每个图像包括至少一个编码器。为了允许CP 16，MCU必须包括至少16个编码器。

发明内容

本发明的目的是提供一种方法和装置，用于避免自身视图、降低所需要的编码器数量和缩短处理时间。

根据本发明的第一方面，提供一种依照视频编码标准根据包括定义的各宏块的顺序的多个编码的视频信号来创建编码的目标连续呈现(CP)图像的方法，所述宏块的每一个包括与各个端点视频图像相对应的、从参与多点视频会议的端点接收的编码的视频信号，该方法的特征在于包括下述步骤：解码所述编码的视频信号；产生端点视频图像；立体混合所述端点视频图像以产生多个CP图像，所述多个CP图像由分别与每个所述端点视频图像相关联的区域组成；把所述多个CP图像编码成多个编码的CP图像；按预定的方式或受控的方式重新排列多个编码的CP图像的宏块的顺序，由此创建所述编码的目标CP图像。

根据本发明的第二方面，提供一种在多点控制单元(MCU)中依照视频编码标准根据多个编码的视频输入信号来创建编码的目标CP图像的装置，每个编码的视频输入信号对应于各个端点视频图像，并从参与多点视频会议的端点接收，该装置的特征在于包括：解码器，用于解码每个所述编码的视频输入信号，产生端点视频图像；混合与缩放单元，用来立体混合所述端点视频图像以产生多个连续呈现图像，所述多个连续呈现图像由分别与每个所述端点视频图像相关联的区域组成；多个编码器，用来把所述多个CP图像编码成多个编码的CP图像；多个数据缓冲器，一个数据缓冲器用于一个所述编码器，按照与所述视频编码标准以及区域边界和宏块边界的合并相对应的宏块顺序，分别将编码的CP图像插入所述数据缓冲器；重打包器，用来按预定的方式或受控的方式重新排列多个编码的CP图像的宏块的顺序，由此来创建所述编码的目标CP图像。

附图说明

为了使本发明容易理解，下面的说明将参照附图，其中：

图1是MCU结构的框图；

图2是VPU实施例的示意框图；

图3是说明用于连续呈现会议的数据流的MCU结构的框图；

图4是说明在连续呈现会议中图像平铺的框图；

图5是在CIP图像中块组排列的框图；

图6说明了根据H.263的块组层；

图7说明了根据H.263的宏块层；

图8是说明在本发明一个实施例中使用的三个不同的连续呈现图像的框图；

图9是本发明一个实施例的示意框图；以及

图10是说明本发明所述的方法实施例的示意流程图。

具体实施方式

本发明使用ITUH.26*标准的比特结构来缩短处理时间并降低对用于产生无自身视图的CP视图的MCU的要求。为了理解所使用的比特结构特性，下面将描述根据H.263的图像块结构。

根据H.263，每个画面被划分成表示8x8像素的块。这些块被排列到宏块中，用于像素的亮度(lumiscence)部分的宏块表示16(8x8)个块，用于像素的色度(chromiscence)部分的宏块表示4(2x2)个块。块组(GOB)通常表示22个宏块，每个画面中GOB的数量如下：亚QCIF为6个；QCIF为9个；以及CIF、4CIF和16CIF为18个。通过垂直扫描GOB对GOB进行编号，编号从最上面的GOB开始(0号)，至最下面的GOB结束。图5给出了CIF图像格式的画面内GOB排列的示例。用于每个GOB的数据包括GOB头部，其后跟随用于宏块的数据。用于GOB的数据以递增的GOB编号按每个GOB发送。由块组起始码(GBSC)识别GOB的开始。图6示出了GOB层的结构。

用于每个宏块的数据包括宏块头部，其后跟随用于块的数据。图7示出了其结构。对这些图像的每个宏块，COD仅在非“INTRA”型的图像内出现。当比特被设置为信号“0”时，宏块被编码。如果设置为“1”，则不再为该宏块发送任何信息。在此情况下，解码器应将该宏块视为具有对整个块都等于零的运动矢量并且没有系数数据的INTRA宏块。

如果COD设置为“0”，宏块的数据部分包括宏块中各个块的信息，该信息由指示所包含像素在前一幅画面中相等位置的运动矢量来表示。

如图2所示，传统上，要避免CP图像内的自身视图，需要对用于每个参与者的特殊编码，这意味着对MCU内每个发出的数据流有一个编码器。本发明使用已经编码的视频数据的宏块结构，根据接收器，实现CP图像的合适混合。

在下面的本发明示例性实施例中，考虑具有五个端点场所的会议，获取CIP格式的视频图像并根据H.263标准编码该图像。在MCU中，与各个MCU输入相关联的解码器根据H.263对来自各个参与者的数据流进行解码。解码之后，来自各个参与者的原始像素数据在MCU内的内部总线上可用，准备用于混合和代码转换。

在有五个参与者的情况下，很显然要选择CP4格式的待发送回各场所的混合图像。可以根据美国专利申请No.10/601,095中描述的“最佳印象”原理由MCU选择混合格式，该专利申请通过引用并入此处用作参考。

根据本发明的该示范实施例，如图8所示，由各个编码器编码两个不同的CP4图像，即CP图像1和CP图像2。CP图像1包括从场所1、2、3和4接收的图像，而CP图像2包括从场所5接收的图像，该图像在一个四分之一区内而其余各四分之一区为空。当编码CP图像并将编码的数据排列在上述的块体系内时，四分之一区边界与GOB内的宏块边界重合。对于CP图像1，在第一个GOB内的最前11个宏块包括来自场所1的图像的数据，而在第一个GOB内的最后11个宏块包括来自场所2的图像的数据。

根据本发明，MCU根据接收器重新排列每个CP图像内的宏块。作为示例，在发送至场所4的CP图像中，在CP图像1的最后9个GOB的每个GOB内的最后11个宏块分别被CP图像2的最前9个GOB的每个GOB内的最前11个宏块替换。这使得在新解码的CP图像中，包括从场所5接收到的图像，而不是从场所4接收到的图像。该CP图像被发送回场所4，因此能在该场所避免自身视图。

分别执行与其他各场所相关联的其他四个CP图像的替换或重新排列。

图9说明了本发明所述的MCU内部结构的示例。本发明使用该结构来代替图2所示的现有技术中的VPU。为简单起见，用混合与缩放单元156来代替像素总线、存储器以及像素缩放单元。注意图9所示的第一数据总线176和第二数据总线177也可合并成一个公共的数据总线。也请注意实际的实施可能与此不同，而且图9仅示出了与本发明相关联的单元。

用独立的解码器151、152、153、154和155分别解码输入数据流171、172、173、174和175，一个解码器用于一个场所。根据使用的编码标准来进行编码，在本例中所使用的编码标准为H.263。解码的数据为PCM数据形式，并在第一数据总线176上可被混合与缩放单元(MSU)156访问。

MSU 156立体混合来自第一、第二、第三和第四场所的PCM数据171、172、173和174，创建第一CP图像。通过把来自第五场所的PCM数据175置于第一四分之一区内并使其他各个四分之一区为空或填充空数据来创建第二CP图像。然后，使这两个立体混合的图像的PCM数据在第二数据总线177上可被第一编码器157和第二编码器158访问。

编码器157和158从第二数据总线177获取由MSU 156产生的CP图像的PCM数据，并编码各个图像。编码过程的结果是多个宏块汇集到上述的GOB内。对于根据H.263的CIF格式的情况，GOB包含22个宏块，每个图像由18个GOB组成。在编码图像之后，GOB分别被连贯地插入相关联的缓冲器159和160。缓冲器159和160应足够大以至少容纳一个图像的GOB。缓冲器159和160的输出连接至第三数据总线178，该第三数据总线178也连接至重打包器(re-packer)161、162、163、164和165的输入。

但是，表示编码图像的比特数量当然不是恒定的，而是可以根据图像内容的变化以及从一个图像至另一个图像的运动有明显的不同。比特的数量还取决于图像是否是INTRA编码的或是INTER编码的，即依赖相同图像的根据相邻宏块预测或根据前面图像的预测。

当完全同步的图像的编码数据被插入各个缓冲器时，重打包器161、162、163、164和165准备重新排列宏块的顺序，以分别创建用于相关联输出181、182、183、184和185的CP图像。重打包器利用GOB和宏块头部来识别和隔离宏块。每个GOB的起始利用被称为GBSC(块组起始码)的唯一起始码来指示，后面跟随指示GOB号码的GN(组号)。在宏块的头部中，COD表示宏块是否为编码的。如果“COD”为“1”，则不再为该宏块显示任何信息，整个块的运动矢量等于零，并且没有系数数据。如果“COD”为“0”，则后面跟随着该宏块的另外数据。某些所述另外数据可以是可变长的，但不同的编码是以良好定义每个编码长度的这种方式定义的。

由于宏块是可识别的，并临时存储在缓冲器159和160内，因此重打包器161、162、163、164和165能够按任何顺序读取宏块，根据来自五个场所的图像创建CP4图像的任何变形。作为示例，考虑重打包器164为第四场所，即场所4输出184，创建CP图像。第一缓冲器159包含CP图像1的编码数据，而第二缓冲器160包含CP图像2的编码数据。重打包器164按照在第一缓冲器159内发生的相同顺序获取CP图像1的GOB 1-9，以创建新的CP图像。但是，当创建GOB 10时，重打包器164识别并提取第一缓冲器159内的GOB 10的最前11个宏块，其后跟着第二缓冲器160内的GOB1的最前11个宏块。而且，通过提取第一缓冲器159内的GOB 11的最前11个宏块，其后跟着第二缓冲器160内的GOB 2的最前11个宏块来创建GOB 11。以类似的方法创建7个剩余的GOB，最后完成的是GOB 18，其是通过提取第一缓冲器159内的GOB 18的最前11个宏块，其后跟着第二缓冲器160内的GOB 9的最前11个宏块来创建的。

重打包器181、182、182、184和185能够被预编程，从而可按不变的顺序或按可由控制单元(未示出)控制的宏块顺序从缓冲器159和160提取宏块，以使得重打包器创建各种CP图像。

图10是本发明所述的方法实施例的示意框图。

图10所示的方法步骤包括在根据视频编码标准依据多个包括定义的宏块顺序的编码视频信号来创建编码的目标连续呈现(CP)图像的方法中。每个宏块包括对应于各个端点视频图像的、从参与多点视频会议的端点接收的编码视频信号。

该方法从步骤202开始。

首先执行解码步骤204，其中视频信号被解码成相应的端点视频图像。

然后，在混合步骤206，端点视频图像被立体混合成多个CP图像，组成CP图像的区域分别与每个端点视频图像相关联。

然后，在编码步骤208，CP图像被分别编码成多个编码的CP图像。该步骤建立对应于视频编码标准和区域边界与宏块边界的合并的定义的宏块顺序。

在上述三个预备性步骤204、206和208之后，执行创建步骤210。在创建步骤210，通过按预定的或受控的方式重新排列宏块的顺序来创建编码的目标CP图像。

有益的是，创建步骤210包括用所述多个编码的CP图像的第二个内的n个连续的GOB中的m个宏块来替换所述多个编码的CP图像的第一个内的n个连续的表示区域高度的GOB中的最先m个表示区域宽度的宏块。

该方法在步骤212结束。

作为替换，参照图10所描述的三个预备性步骤，即解码步骤204、混合步骤206以及编码步骤210可以用单个的请求步骤(未说明)来代替。在该请求步骤中，请求各端点根据视频标准以及一定的分辨率、比特率和缩放来编码各个端点视频图像。

本发明所述的方法最基本的形式仅包括创建步骤210。

前面所述的实施例限于根据H.263标准创建CIF格式的CP4图像。但本领域的普通技术人员能够理解，本发明的基本原理也可应用于其他格式的其他CP图像。例如，当创建CP9图像时，也能够使用本发明。这样每个GOB内的图像边界(在CIF格式、H.263标准的情况下)在第7个和第14个宏块之后(也可以在第8个和第15个宏块之后或在第7个和第15个宏块之后)。

在任何情况下，应有一个重打包器(或至少一个重打包器过程)用于每个MCU输出。编码器的数量取决于CP图像内的区域数量和要填充到CP图像的区域的场所数量之间的关系。应有足够的编码器，为每个场所产生一个区域。在CP4和八个场所的情况下，两个编码器足够在总共八个四分之一区的每个四分之一区内为每个场所安置一个区域。但是，当场所的数量增加至9时，将需要额外增加一个编码器来创建第三个CP4图像，第9个区域位于该第三个CP4图像内。

在本发明更一般的实施例中，在MCU内不进行解码和缩放/混合，而是请求各端点根据一定的标准、分辨率、比特率以及缩放来发送编码的图像。然后，进入的数据流的宏块直接加载到缓冲器(优选地，一个缓冲器用于一个数据流)，重打包器根据预编程的或受控的步骤，重新排列这些宏块，从而创建要发送到各个会议场所的无自身视图的CP图像。作为示例，考虑有五个场所参与会议。则CP4视图要求在编码之前，由各端点将其各自的图像放在完整图像内的一个四分之一区内。在向各端点请求完成该动作的同时，还请求按相同的标准、分辨率、比特率以及缩放来编码信息。然后，当进入的数据流的宏块出现在前面所述的各个缓冲器内时，重打包器可以容易地重新排列这些宏块。

Claims

1.一种依照视频编码标准根据包括定义的各宏块的顺序的多个编码的视频信号来创建编码的目标连续呈现图像的方法，所述各宏块的每一个包括与各个端点视频图像相对应的、从参与多点视频会议的端点接收的编码的视频信号，该方法的特征在于包括下述步骤：

解码所述编码的视频信号，产生端点视频图像，

立体混合所述端点视频图像以产生多个连续呈现图像，所述多个连续呈现图像由分别与每个所述端点视频图像相关联的区域组成，

把所述多个连续呈现图像编码成多个编码的连续呈现图像，

按预定的方式或受控的方式重新排列所述多个编码的连续呈现图像的宏块的顺序，由此创建所述编码的目标连续呈现图像。

2.如权利要求1所述的方法，在所述的创建所述编码的目标连续呈现图像的步骤之前还包括下列附加步骤：

请求所述端点依照所述视频编码标准以及一定的分辨率、比特率和缩放来编码所述各个端点视频图像。

3.如权利要求1所述的方法，其中所述的把所述多个连续呈现图像编码成多个编码的连续呈现图像的步骤包括：

建立定义的宏块顺序，所述定义的宏块顺序与所述视频编码标准和区域边界与宏块边界的合并相对应。

4.如权利要求3所述的方法，其中所述多个编码的连续呈现图像的每一个和所述编码的目标连续呈现图像都是CIF格式并都具有18个块组GOB，每个所述块组GOB包括22个宏块，并且所述块组GOB按堆栈形式排列，从而使最前的9个GOB表示相应连续呈现图像的上部区域，最后的9个GOB表示相应连续呈现图像的下部区域。

5.如权利要求4所述的方法，其中所述创建所述编码的目标连续呈现图像的步骤包括：

利用所述多个编码的连续呈现图像的第二个编码的连续呈现图像的n个连续的GOB中每个GOB的m个宏块来分别替换所述多个编码的连续呈现图像的第一个编码的连续呈现图像的表示分别与每个端点视频图像相关联的区域中的第一区域的高度的n个连续的GOB中的每个GOB中的表示第一区域的宽度的m个宏块，其中m和n是整数。

6.如权利要求5所述的方法，其中m＝11，n＝9，以及所述第一区域表示连续呈现图像的一个四分之一区。

7.如权利要求5所述的方法，其中m＝7或m＝8，n＝6，以及所述第一区域表示连续呈现图像的1/8。

8.一种在多点控制单元MCU中依照视频编码标准根据多个编码的视频输入信号来创建编码的目标连续呈现图像的装置，每个编码的视频输入信号对应于各个端点视频图像，并从参与多点视频会议的端点接收，该装置的特征在于包括：

解码器，用于解码每个所述编码的视频输入信号，产生端点视频图像，

混合与缩放单元，用来立体混合所述端点视频图像以产生多个连续呈现图像，所述多个连续呈现图像由分别与每个所述端点视频图像相关联的区域组成，

多个编码器，用来把所述多个连续呈现图像编码成多个编码的连续呈现图像，

多个数据缓冲器，一个数据缓冲器用于一个所述编码器，按照与所述视频编码标准以及区域边界和宏块边界的合并相对应的宏块顺序，分别将编码的连续呈现图像插入所述数据缓冲器，

重打包器，用来按预定的方式或受控的方式重新排列所述多个编码的连续呈现图像的宏块的顺序，由此来创建所述编码的目标连续呈现图像。

9.如权利要求8所述的装置，其中所述多个编码的连续呈现图像的每一个和所述编码的目标连续呈现图像都是CIF格式并都具有18个块组GOB，每个块组GOB包括22个宏块，并且所述块组GOB按堆栈形式排列，从而使最前的9个GOB表示相应连续呈现图像的上部区域，最后的9个GOB表示相应连续呈现图像的下部区域。

10.如权利要求9所述的装置，其中还进一步配置所述重打包器用于利用所述多个编码的连续呈现图像的第二个编码的连续呈现图像的n个连续的GOB中每个GOB的m个宏块来分别替换所述多个编码的连续呈现图像的第一个编码的连续呈现图像内的表示分别与每个端点视频图像相关联的区域中的第一区域的高度的n个连续的GOB中每个GOB的表示第一区域的宽度的m个宏块。

11.如权利要求10所述的装置，其中m＝11，n＝9，以及所述第一区域表示连续呈现图像的一个四分之一区。

12.如权利要求10所述的装置，其中m＝7或m＝8，n＝6，以及所述第一区域表示连续呈现图像的1/8。