CN1771735A

CN1771735A - 编码用于网关的低成本多描述的视频流的方法

Info

Publication number: CN1771735A
Application number: CNA2003801063421A
Authority: CN
Inventors: M·范德沙尔; D·S·图拉加
Original assignee: Koninklijke Philips Electronics NV
Current assignee: Koninklijke Philips NV
Priority date: 2002-12-17
Filing date: 2003-12-11
Publication date: 2006-05-10
Also published as: AU2003286339A1; JP2006510307A; WO2004056121A1; EP1576826A1; KR20050084313A; US20060056510A1

Abstract

本发明利用B帧运动矢量(k(B))和P帧运动矢量(k(P))之间的数据关系，通过避免对于解压缩和再压缩多描述中的至少一个的需要，来简化在诸如网关的网络节点(28)处对多描述(22，24)的合并和分割。

Description

编码用于网关的低成本多描述的视频流的方法

技术领域

本发明涉及视频编码，尤其涉及一种用于分割和合并多描述视频流的改进系统。

背景技术

随着诸如互联网的数字网络的出现，需要具有在这种网络上实时提供多媒体通信的能力。但是，与模拟通信系统相比，这样的多媒体通信被数字网络所提供的有限带宽所限制。为了使多媒体通信与这种硬件环境相适应，人们已经做出了许多努力来开发使用预测编码视频流来改进有限带宽条件下的多媒体通信量的视频压缩技术。这些努力已经带来了几种国际标准的出现，诸如ISO的运动图像专家组(MPEG)所发布的MPEG-2和MPEG-4，以及ITU的视频编码专家组(VCEG)所发布的H.26L和H.263。这些标准使用运动补偿预测和转换编码，在真实的图像序列中使用时间和空间相关来实现一个高的压缩率。

近来已经应用了使用多描述编码(MDC)的分集技术来增加通信系统和存储设备的稳定性。被分集技术所改进的这种系统的例子包括分组网络，无论是使用多径，还是多普勒分集，还是经济磁盘冗余阵列(RAID)的系统。

如果在通信源处分集问题是已知的，则使用MDC的当前分集技术可以在系统中出色运行。在这种情况下使用MDC把将要传送的数据分割成分离的路径，每个路径被源独立编码。MDC的一种这样的格式基于在网关12分割一个视频流10(附图1)，例如，将奇数帧14分割成利用MPEG等独立编码的一个描述，将偶数帧16分割成也是利用MPEG等独立编码的另一个描述。然后传送这些流中的每一个并且在目的地合并。通过利用这种方法，能够理解，即使丢失了一个数据流，也能够实现该数据流，尽管是以一个降低的质量级别实现。

目前随着无线平台与高速数字连接之间传输信息方式的改变，在通信路径的中间点实现分集技术的需要按需增加。通过增加硬件路径的配置方式，需要对通信过程中大的多媒体数据进行更好的管理。通常，用于在多个低带宽基站之间建立高带宽信道的网关通过对所有数据转码应用了使用MDC的分集技术。但是，这种方式增加了网关的开销，并且可能导致传输时间的延长。这两种情况都是不期望发生的。因此，需要一种方式来提高传输中的分集技术的优势，同时使通信硬件中的开销最小。

发明内容

本发明利用B帧运动矢量和P帧运动矢量之间的数据关系，通过避免解压缩和再压缩至少一个多描述的需要，来简化网关的多描述的合并和分割。

本发明的一个方面包括一个数据流，其中连续帧的运动矢量与临近帧的运动矢量相对应。

在一个实施例中，数据流传输中的中间网关应用了使用运动矢量的相互关系来生成或者合并多描述的多描述的管理方法。

附图说明

本发明的其他目的和优点将在结合附图对前述内容的详细描述中变得清楚明了。

附图1是一种的已知的多描述技术的方框图；

附图2是一种通信路径的方框图；

附图3是预测视频流中的视频帧的方框图；

附图4是根据本发明的多描述技术的方框图；

附图5是根据本发明的另一种多描述技术的方框图；以及

附图6是一个无线网关的方框图。

具体实施方式

为了便于说明，参照附图，本发明涉及一种用于在预测分级编码方案的通信路径中实现多信道传输的系统。本发明结合通信系统(附图2)进行描述，该通信系统包括一个通信路径20，其中一个通信信道包括多传输路径22和24，多传输路径22和24在网关28，或者其他的用于管理网关合并的通信量的类似设备合并成一个单独的传输路径26。本领域的技术人员将知道该描述只是能够应用本发明的硬件环境的一个例子，本发明还可以在其他的硬件环境中实现。有利的是，本发明利用了一种允许一个多媒体数据流被分割成多个描述，而不需要流中的整个数据转码开销的设备。

本发明是基于以下的认识实现的：使用预测编码压缩的多媒体数据流可以被分割成用于多个传输路径的多个描述，而不需要为多个路径解压缩和再压缩数据。适于此目的的预测编码技术的类型包括MPEG标准的MPEG-1，MPEG-2和MPEG-4，以及ITU标准的H.261，H.262，H.263和H.26L。为了说明参照MPEG标准进行描述，一部电影或者视频数据流是由帧序列构成的，在依次显示时产生形象的直观显示。预测编码通过仅传输与每个连续帧的差有关的信息降低了要传输的数据量。在MPEG标准下，帧的预测编码是以包括“重建”一个视频帧的全部信息的I帧(内编码帧)为基础进行的。应该注意仅有I帧的编码视频不利用预测编码技术，这是因为该文件的每一帧都是独立的并且不需要其他帧的信息。预测编码通过把冗余从一帧移动到下一帧，换句话说，发送一组指令以从当前帧创建下一帧，而允许有更大的压缩系数。这样的帧被称为P帧(预测帧)。但是，使用I帧和P帧预测编码的缺点在于仅能够从先前的帧获得数据。运动对象可能显示出一个先前图像中未知的背景，而该背景在后面的图像中可能是可见的。B帧(双向帧)能够根据先前和/或以后的I帧或P帧产生。I帧以及直到下一个I帧之前的一系列连续的B帧和P帧被称为一个GOP(图像组)。用于广播的一个GOP的例子具有IBBPBBPBBPBB的结构，并且被称为一个IPBGOP。

通过两个或者多个路径发送多媒体数据的一个方法是使用多描述编码(MDC)。在使用多路径和多普勒分集以及经济磁盘冗余阵列(RAID)的无线系统的稳定通信上，以及在互联网上都已经表明MDC是一项有效的技术。目前，如果MPEG或者H.26L或者其他预测编码的视频数据流通过互联网传输，而后在网关处需要将其分割成两个多描述视频流，这样更利于下行链路(例如使用多路径的无线系统)的信道特性，同时又能保持与先前编码相同的格式，视频数据被完全解码和再编码。但是，本发明还包括一个允许网关轻松的将一个数据流分割成多个描述，而不增加整个转码的开销，同时仍允许更有弹性的传输的系统。下面将要描述，在时间和格式上的节省是通过以特定的格式编码运动矢量的层次来实现的。该特定的编码格式以已经发现B帧运动矢量与部分P帧运动矢量(MV)差别不大为根据。

通常，为B帧计算单独的MV。但是(附图3)B帧30的MV32的良好近似或预测可以根据下面的公式通过P帧34的MV36来计算，在附图2中表示为K_b(B)和K_f(B)：

{\hat{k}}_{b}^{(B)} = \frac{1}{M + 1} k^{(p)}; {d_{b}}^{(B)} = {k_{b}}^{(B)} - {\hat{k}}_{b}^{(B)}

{\hat{k}}_{f}^{(B)} = - (1 + \frac{1}{M + 1}) k^{(p)}; {d_{f}}^{(B)} = {k_{f}}^{(B)} - {\hat{k}}_{f}^{(B)}

其中M是两个连续的P帧之间的B帧的数目。这样，B帧的MV可以根据P帧的MV计算，反之亦然。运动矢量的该编码格式在目前的标准视频编码方案中不是优选的，但是它能够在每个标准中无更改的运行。但是，已经表明能够根据可获得的子采样轨迹预测更为精确的运动轨迹，即能够根据P帧的MV预测B帧的MV扫描。

实例：

1.将一个数据流分割成两个路径

参考附图4，视频数据通过一个数据信道，例如通过互联网，但并不局限于互联网，从服务器传送。作为一个单独的预测流40传送的视频数据在数据信道上遇到一个节点41，例如代理服务器或者网关。为了说明，节点，网关和代理服务器可以互换使用。在代理服务器处，数据流被分成两个分离的描述42和44。为了消除在代理服务器对数据流进行完全的再编码的复杂度，通过信道40传送的视频流使用一个IPBGOP结构编码，同时在无线链路上传送的两个描述42和44使用IPGOP结构。本领域的技术人员很清楚，由于这些限制，编码方案的性能被降低。但是无论怎样，以这种方式，一个MD42不再需要再编码，而对于其他的MD44，也不再需要在代理服务器的运动估计，由于用于MD的MV能够使用下一帧的和来确定P帧或I帧与B帧之间的MV。这样，在一个单独的信道40与两个描述42和44之间的转换能够通过仅对文本数据再编码来轻松实现。所有的没有MV的宏块能够作为内块编码。而且，如果代理服务器允许更为复杂的处理，可以进一步计算这些估计的精度“d”。例如，可以执行一种新的较低复杂度的运动估计，其使用一个以

为中心的小的搜索窗(例如8×8像素)来找到一个更为精确的运动矢量从而使新产生的P帧具有更低的剩余(例如最大绝对差)。MV和精度“d”的计算能够从以上描述的关系式中推导出来：

{\hat{k}}^{(p)} {k_{f}}^{(B)} - {k_{b}}^{(B)}; d^{(p)} = k^{(p)} - {\hat{k}}^{(p)}

假设在该例中在两个连续的P帧之间的原始的比特流中只有一个B帧。应注意这仅是一个例子，如果两个连续的P帧之间的B帧数目变化，能够导出类似的等式。在另一个例子中，可以在服务器上计算精度“d”并且通过互联网在一个分离的流中发送。

2.从两个路径中合并一个数据流

参考附图5，如果代理服务器50在互联网上使用两个MD51和52接收视频流，并且该数据进一步作为一个单独的流54无线传输，也可以进行相反的操作。B帧的MV最初可以估计为

和

因此初始状态下

然后，如果代理服务器允许更为复杂的处理，能够进一步计算这些估计的精度“d”。例如，一个新的较低复杂度的运动估计能够使用一个以和

为中心的小的搜索窗(例如8×8像素)来找到一个更为精确的运动矢量来实现，更为精确的运动矢量将导致新产生的B帧的更低的剩余(例如最大绝对差)。在这种情况下，仅有B帧的文本编码需要被再编码。MV和精度“d”的计算能够使用与上面给出的相同的关系式计算：

{\hat{k}}_{b}^{(B)} = \frac{1}{M + 1} k^{(p)}; {d_{b}}^{(B)} = {k_{b}}^{(B)} - {\hat{k}}_{b}^{(B)}

{\hat{k}}_{f}^{(B)} = - (1 - \frac{1}{m + 1}) k^{(p)}; {d_{f}}^{(B)} = {k_{f}}^{(B)} - {\hat{k}}_{f}^{(B)}

其中M是两个连续的可获得的P帧之间的新产生的B帧的数目。注意这仅是一个例子，如果两个连续的P帧之间产生不同数目的B帧，可以推导出类似的等式。在一个替代实施例中，在服务器上可以计算精度“d”，并且与第二MD一起通过互联网在分离的流中发送。

本领域的技术人员能够理解所建议的方法能够适用于使用诸如MPEG-1，2，4和H.263，H.26L的运动估计的预测编码方案。

本领域的技术人员能够进一步理解本方法的另一个优势在于能够更为轻松的实现误差恢复和消除。这是由于能够使用MV的冗余描述确定丢失的帧的MV。

最后，本领域的技术人员可以理解该方法能够用于“预测”分级编码方案的稳定的，多信道的传输，例如精细颗粒可分级(FGS)。该方法能够在不对MPEG-4标准做任何修改的情况下使用，并且易于采用。

在网关处理中的应用

参考附图6，本发明应用网关结构来妥善处理下行链路中的各种网络和设备的特性。网关可以安装在家庭当中，即一个住宅网关，可以安装在3G网络中，即一个基站，或者处理能够分布在多个网关/节点上。在这样的例子中，网关60将局域网(LAN)62连接到互联网64。如图6所示，可以启动网络服务器65或者类似设备与局部设备66-68连接。在LAN62是一个无线下行链路的情况下，设备可以包括，但不局限于，移动PC66，蜂窝电话67或者便携数据助理(PDA)68。在这种情况下，网络服务器65和下行链路设备66-68都不知道数据经过的通信路径。当视频流在设备之间传输时需要动态结构，例如移动PC可能需要多数据信道来增加到网关的带宽。或者网关和网络服务器之间的通信可以通过多数据信道进行。在每种情况下都能够理解，网关用于打破数据传输从而为下行链路节点或者上行链路节点服务。在实施例1和2中描述的本发明可以在这些情况中的每一种情况中实现从而不管所采用的数据信道数为多少都可以在上行链路和下行链路节点之间的网关提供一个无缝的转换。

目前，如果一个MPEG或者H.26L编码的或者任何其他预测编码的视频流通过互联网传输并且在网关处需要将其分割成更适于下行链路(例如使用多路径的无线系统)的信道特性同时保持与先前相同的编码格式的两个多描述视频流，视频数据被完全解码和再编码。

通过应用如上所述的本发明，在B帧的MV和P帧的MV之间建立起相互关系，目前的处理能够允许在网关轻松将MPEG或者H.26L编码数据或者其他任何预测编码视频流分割成两个保持与原来相同的编码格式的编码格式的多描述视频流，或者导致在不完全解码和再编码流的情况下，将两个多描述MPEG或者H.26L编码或者其它任何预测编码视频流合并成一个单独的保持与先前的编码格式相同的编码格式。能够理解利用建议的结构能够显著降低网关的计算复杂度。

尽管本发明是结合目前被认为是最实用和最佳的实施例描述的，但是，能够理解本发明并不局限于所公开的实施例，相反，本发明期望覆盖包含在本发明的精神范围内的各种变形和等价结构，这些变形和结构在追加的权利要求中描述，并且其范围应当与最宽泛的解释相一致从而包括所有的这些变形和等价结构。

Claims

1.一个用于传输根据至少一个描述传输生成的预测编码视频数据(40)的流的网络节点，包括：

到具有多个数据信道的网络的至少一个连接(22，24，26，62，64)；以及

用于选择性地改变组成所述预测编码视频数据的流的描述传输数目的带宽管理器(28，60)；

其中改变了描述传输数目之后的至少一个描述传输保持与改变描述传输数目之前的至少一个描述传输相同的预测编码。

2.如权利要求1所述的网络节点，具有至少两个与网络的连接(22，24，26，62，64)并且被配置成网关(28，60)。

3.如权利要求1所述的网络节点，其中：

当所述的预测编码视频数据(40)流作为一个单独的描述传输时，其包括编码的I帧，被运动矢量(k^B，k^P)相互连接的P帧和B帧，并且用于所述的B帧的运动矢量是根据相邻的P帧的运动矢量生成的；

所述的带宽管理器(28，60)被用于将B帧运动矢量(k^B)转换成P帧运动矢量(k^P)，或者从P帧运动矢量(k^P)转换成B帧运动矢量(k^B)；

其中在具有I帧，P帧和B帧的单独描述中的视频数据流(40)被转换成具有I帧和P帧的多描述(42，44)或者从具有I帧和P帧的多描述(42，44)转换成具有I帧，P帧和B帧的单独描述中的视频数据流(40)。

4.如权利要求3所述的网络节点，其中B帧运动矢量(k^B)是利用与P帧运动矢量(k^P)的相互关系生成的。

5.如权利要求4所述的网络节点，其中所述的B帧运动矢量(k^B)与相邻的P帧运动矢量(k^P)相关。

6.如权利要求1所述的网络节点，其中描述的数目增加，并且带宽管理器(18，60)包括用于生成至少一个附加描述的装置。

7.如权利要求1所述的网络节点，其中描述的数目减少，并且带宽管理器(28，60)包括用于合并至少两个所述描述的装置。

8.一种预测编码视频数据(40，54)的数据流，包括：

至少一个参考帧(I)；

至少一个第一预测帧(P)，该第一预测帧具有一个参考先前帧的运动矢量(k^P)；

至少一个第二预测帧(B)，该第二预测帧具有一个参考下一帧的运动矢量(k^B)；

所述的参考下一个帧的运动矢量(k^B)与所述的参考所述先前帧的运动矢量(k^P)之间具有比例关系。

9.如权利要求8所述的数据流，包括：

多个参考帧(I)；

多个第一预测帧(P)；

多个第二预测帧(B)；

在所述的流中组织和压缩所述帧从而生成一个视频序列(40，54)；

其中所述序列可以在传输过程中使用第一和第二帧运动矢量(k^P，k^B)之间的关系而被分割成至少两个序列(42，44；51，52)。

10.如权利要求8所述的数据流，其中所述的第二预测帧(B)包括一个参考先前帧的运动矢量(k^B)。

11.如权利要求10所述的数据流，其中在不解码所述预测编码视频数据的情况下，所述的第二预测帧运动矢量(k^B)被用于转换成第一预测帧运动矢量(k^P)。

12.如权利要求9所述的数据流，其中

所述的参考帧是I帧；

所述的第一预测帧是P帧；

所述的第二预测帧是B帧；

其中使用B帧和P帧运动矢量之间的关系可将所述的I帧、P帧和B帧的序列转换成至少两个I帧序列和P帧序列的序列和从至少两个I帧序列和P帧序列的序列转换成所述的I帧、P帧和B帧的序列。

13.如权利要求9所述的数据流，其中从第二帧运动矢量(k^B)转换的第一帧运动矢量(k^P)与参考所述的先前帧的所述运动矢量的1/(Q+1)相对应，与参考所述的下一帧的所述运动矢量的1-1/(Q+1)相对应，其中Q是出现在一对第一帧运动矢量之间的序列中的第二帧运动矢量的数目。

14.一种用于网关(41)的多描述转换的方法，包括步骤：

提供具有I帧，B帧和P帧的视频数据(40)的描述，其中所述的B帧运动矢量根据所述P帧生成；

向所述的网关(41)传送所述描述；

使用B帧和P帧之间的关系将所述描述分割成多描述(42，44)；以及

根据所述的描述，为至少一个多描述保持预测编码。

15.如权利要求14所述的方法，其中：

所述的分割步骤包括将所述描述的P帧组成第一描述，将所述描述的B帧组成第二描述，从而使P帧描述保持完整；

根据所述的关系为所述B帧生成P帧运动矢量。

16.如权利要求15所述的方法，包括在第二网关(50)将所述的第一和第二描述(51，52)合并回一个单独的描述(54)。

17.如权利要求16所述的方法，其中所述的分割和合并步骤独立于传输源。

18.如权利要求14所述的方法，其中所述的分割步骤使用的B帧运动矢量和P帧运动矢量之间的关系对应于B帧前向运动矢量与P帧运动矢量之间1-1/(M+1)的比例关系。

19.如权利要求14所述的方法，其中所述的分割步骤使用的B帧运动矢量和P帧运动矢量之间的关系对应于B帧前向运动矢量与P帧运动矢量之间1/(M+1)的比例关系。

20.如权利要求18所述的方法，其中所述的分割步骤使用的B帧运动矢量与P帧运动矢量之间的关系对应于B帧前向运动矢量与P帧运动矢量之间1/(M+1)的比例关系。