CN101841712A

CN101841712A - 面向全景视频编码的b帧扩展直接模式

Info

Publication number: CN101841712A
Application number: CN 201010158471
Authority: CN
Inventors: 覃团发; 郑嘉利
Original assignee: Guangxi University
Current assignee: Guangxi University
Priority date: 2010-04-28
Filing date: 2010-04-28
Publication date: 2010-09-22

Abstract

本发明公开了面向全景视频编码的B帧扩展直接模式。该模式包含三种扩展直接模式：(1)A模式，使用前向参考帧中对应块的后向运动矢量进行时域缩放得到当前块的前向和后向运动矢量；(2)B模式，使用后向参考帧中对应块的后向运动矢量的反向映射生成前向运动矢量，利用这一映射出来的前向运动矢量进行缩放，得到当前块的前向和后向运动矢量；(3)C模式，使用后向参考帧中对应块的前向运动矢量进行时域缩放得到当前块的前向和后向运动矢量。本发明的优点是：本发明有效弥补现有技术的不足，可减少预测残差，使得直接模式被选中的概率增大，从而大大节省编码运动矢量的比特数，使得全景视频序的编码性能得到提高。

Description

面向全景视频编码的B帧扩展直接模式

技术领域

本发明涉及一种图象视频编码压缩技术，具体地说是一种面向全景视频编码的B帧直接模式方法。

背景技术

全景视频是基于图像渲染的一种全方位视频，也称为沉浸式视频，目的是给用户提供虚拟现实体验，让用户可以观察到周围用照片图像拼接起来的场景。一幅全景图像是由一个六面或者八面的鱼眼摄像机绕着固定的轴做旋转或者缩放运动，对摄像机周围的场景同一时刻拍摄不同方位的照片，把这些照片用一些“缝合”技术无缝拼接，再根据柱面或者球面映射算法映射成柱面图或者球面图而成。因此，全景图像的分辨率一般来说比较高(因为是多幅常规图像拼接而成)，运动细节更丰富(因为拼接的多幅图像之间有很强的空域相关性，全景视频序列相邻帧之间有很强的时域相关性)。

为了提高全景视频的编码效率，目前全景视频所采用的编码方案是可分级B帧编码。分级B帧编码实际上是一个完全符合H.264/AVC标准的编码结构，只是在这个方法中使用了金字塔式的编码顺序。图1描述了一个总共有4级时域分解的分级B帧编码结构。在H.264/AVC标准中，B帧的概念得到加强。最大的特点是重建后的B帧可以作为其他图像的参考帧。B帧的这个特点大大增加编码的灵活性。H.264/AVC的这些技术特点使得分级B帧编码结构在H.264/AVC标准内不需要任何修改就可以实现。

直接模式是一种高效节省编码运动矢量比特数的双向预测方法。直接模式的主要思路是使用后向参考帧中相应位置上的块的前向运动矢量做时域上的缩放得到当前块的前向运动矢量和后向运动矢量，因此，只需要在解码端根据当前B帧和前后参考帧之间的时域间隔计算出当前块的前向和后向运动矢量即可，无需在码流中传送任何运动信息，大大节省了编码运动矢量的比特数。如图2所示，MV_c是后向参考帧里对应块的前向运动矢量，TR_b是当前块到前向参考帧的时域间隔，TR_d是前向参考帧和后向参考帧之间的时域间隔。当前块的前向运动矢量MV₀和后向运动矢量MV₁可以通过以下公式获得：

{MV}_{0} = \frac{{TR}_{b}}{{TR}_{d}} \times {MV}_{C}, - - - (1)

{MV}_{1} = \frac{{TR}_{b} - {TR}_{d}}{{TR}_{d}} \times {MV}_{C} - - - (2)

从上式可以看出，直接模式充分利用了视频序列相邻帧之间的时域相关性很强，物体运动的连贯性比较明显这个特点，巧妙的通过时域间隔缩放得到当前块的前向和后向运动矢量，不仅节省编码运动矢量的开销，而且大量实验证明，直接模式下，运动预测的精确性也非常接近传统的双向预测模式。

然而，由于在以往的标准(H.263和MPEG-2)里，只有I帧和P帧可以做为预测帧的参考帧，I帧使用的是与JPEG2000类似的帧内预测模式，不产生运动矢量；而P帧使用的是前向预测模式，只产生一个前向运动矢量。因此，在现有的B帧直接模式里，包括在最新标准H.264/AVC里，如果后向参考帧是P帧，则只能使用后向参考帧上对应块的前向运动矢量来做时域上的缩放来达到获取当前块前后向运动矢量的目的，在某些场景后向渐进的视频编码中会获得比较理想的编码效果，但在一些场景前向时域相关性比较强的视频编码里，如全景视频编码，则会因为缺失后向运动信息而导致直接模式不可用。再者，如果后向参考帧被编码为I帧，则当前需编码的块所使用的直接模式中的前后运动矢量都被置为零，显然，这也将大大降低直接模式的运动预测精确度。尤其在全景视频B帧编码里，直接模式中的前后运动矢量被置为零的概率更大。这是由于存在这么一种情况，全景视频编码采用的是可分级B帧编码框架。在可分级B帧编码框架中，后向参考帧有可能是B帧，如图1中的B₂帧以B₁帧为后向参考帧，如果B₂帧上对应块使用的是后向预测模式，只产生后向运动矢量，则当前块无法利用对应块有效的前向运动矢量来进行时域缩放。

针对传统的B帧直接模式所存在的问题以及全景视频编码框架的特点，我们有必要对传统的直接模式进行扩展，充分挖掘帧间的时域相关性，利用B帧作为参考帧时候的前后向运动矢量，精细当前块在直接模式下得到的运动矢量。

发明内容

本发明的目的是提供一种提升B帧直接模式预测结果精细度的面向全景视频编码的B帧直接模式。

本发明解决上述技术问题的技术方案是：

面向全景视频编码的B帧扩展直接模式，该模式包含A、B、C三种扩展直接模式：

1.A模式，是在编码块的后向参考帧上的对应块无前向运动矢量可利用的情况下，将向前搜索当前编码块的前向参考帧，如果前向参考帧也是B帧，且在前向参考帧上的对应块有后向运动矢量，则可利用这一后向运动矢量进行直接模式缩放得到当前块的前向和后向运动矢量。

2.B模式，是对A模式的扩展，在A模式下，如果前向参考帧里的对应块也没有后向运动矢量可利用，则向后搜索后向参考帧是否为B帧，如果是B帧，且帧内的对应块有后向运动矢量，则可利用这一后向运动矢量作反向映射，生成前向运动矢量，运用这一映射出来的前向运动矢量进行缩放，得到当前块的前向和后向运动矢量。

3.C模式，是当编码帧最邻近的前后向参考帧里的对应块都没有可利用来进行时域缩放的运动矢量，则向后搜索次后向参考帧中的对应块，如果次后向参考帧中的对应块有前向运动矢量，且这一前向运动矢量指向前向参考帧，则可以通过对这一前向运动矢量进行直接模式的时域缩放，得到当前块的前后向运动矢量。

本发明与现有技术比较的优点是：

目前全景视频编码采用的是可分级B帧编码框架，往往会因为缺失后向运动信息而导致B帧编码里的直接模式不可用。本发明通过利用当前帧的前后参考帧(B帧)里的对应块的后向运动矢量进行时域缩放来得到当前块的前向和后向运动矢量，有效弥补现有技术的不足，可减少预测残差，使得直接模式被选中的概率增大，从而大大节省编码运动矢量的比特数，使得全景视频序的编码性能得到提高。

附图说明

图1是图像组大小为8的分级B帧编码结构示意图。

图2是传统B帧直接模式示意图。

图3是本发明B帧扩展直接A模式示意图。

图4是本发明B帧扩展直接B模式示意图。

图5是本发明B帧扩展直接C模式示意图。

具体实施方式

下面结合具体实施方式对本发明作进一步描述：

针对传统的B帧直接模式所存在的问题以及全景视频编码框架的特点，我们有必要对传统的直接模式进行扩展，充分挖掘帧间的时域相关性，利用B帧做为参考帧时候的前后向运动矢量，精细当前块在直接模式下得到的运动矢量。本发明提出三种B帧扩展直接模式：

A模式：正如前面所提到的，考虑要编码块的后向参考帧上的对应块无前向运动矢量可利用的情况：(1)如果当前块在后向参考帧上的对应块采用的是帧内预测模式(intra)；(2)如果当前块的对应块所在的后向参考帧是B帧，且对应块采用单向运动预测模式，只有后向运动矢量。在这两种情况下，将向前搜索当前编码块的前向参考帧，如果前向参考帧也是B帧(如图1所示，在全景视频编码方式下，这种情况的概率是非常大的)，且在前向参考帧上的对应块有后向运动矢量，则可利用这一后向运动矢量进行直接模式缩放得到当前块的前向和后向运动矢量，如图3所示。当前块的前向运动矢量MV₀和后向运动矢量MV₁可通过以下公式得到：

{MV}_{0} = \frac{{TR}_{c} - {TR}_{d}}{{TR}_{d}} \times {MV}_{C} - - - (3)

{MV}_{1} = \frac{{TR}_{c}}{{TR}_{d}} \times {MV}_{C} - - - (4)

这里，MV_c是编码块在前向参考帧中的对应块(co-located block)的后向运动矢量，TR_d是前后向参考帧之间的时域距离，TR_c是当前帧和后向参考帧之间的时域距离。

这一算法思想由于充分考虑和利用了相邻B帧之间的时域相关性(即物体运动连续性)，特别是利用了B帧双向预测的特点，使得当前块在分级B帧结构下可利用到的进行直接模式缩放的运动矢量更有可能，从而使得当前块被选为直接模式编码的概率大大增加。

B模式：是对A模式的扩展。在A模式下，如果前向参考帧里的对应块也没有后向运动矢量可利用，则向后搜索后向参考帧是否为B帧，如果是B帧，且帧内的对应块有后向运动矢量(因为前向运动矢量在A模式里已经讨论过，是没有的)，则可利用这一后向运动矢量作反向映射，生成前向运动矢量，运用这一映射出来的前向运动矢量进行缩放，得到当前块的前向和后向运动矢量，如图4所示。对应块的映射前向运动矢量MV_C可通过以下公式得到：

{MV}_{C} = \frac{{TR}_{d}}{{TR}_{d}^{'}} \times {MV}_{C}^{'} - - - (5)

这里，TR_d是前后向参考帧的时域距离，TR_d′后向参考帧与次后向参考帧的时域距离。MV_C′是对应块的后向运动矢量。

得到了对应块的映射前向运动矢量以后，就可以按传统的直接模式那样参照公式1、公式2对对应块的前向运动矢量进行缩放，得到当前块的前向和后向运动矢量。同理，如果前向参考帧里的对应块只有前向运动矢量的时候，也可以运用这一算法映射出对应块的后向运动矢量，再利用这一后向运动矢量按照模式A里提出的方法进行时域缩放得到当前块的前向和后向运动矢量。

C模式：为了扩大搜索范围，找到更精确的运动匹配，H.264/AVC中引入了多参考帧的概念，就是一幅帧间预测模式的图像可以参考前向(P帧模式下)或者前后向(B帧模式下)若干个参考帧。在全景视频编码的分级B帧结构下，解码后的B帧会有选择的被存储在解码器的缓存中和解码后的I帧、P帧一起作为相邻B帧的参考帧，因此解码器的帧缓存区通常存储不止一帧的重构帧，从而无需对解码器进行任何修改就可以实现多参考帧。在C模式下，当编码帧最邻近的前后向参考帧里的对应块都没有可利用来进行时域缩放的运动矢量，也就是，前后向参考帧中的对应块都是帧内预测模式。则向后搜索次后向参考帧中的对应块，如果次后向参考帧中的对应块有前向运动矢量，且这一前向运动矢量指向前向参考帧，则可以通过对这一前向运动矢量进行直接模式的时域缩放，得到当前块的前后向运动矢量，如图5所示。当前块的前向运动矢量MV0和后向运动矢量MV₁可通过以下公式得到：

{MV}_{0} = \frac{{TR}_{b}}{{TR}_{d}^{'}} \times {MV}_{C} - - - (6)

{MV}_{1} = \frac{{TR}_{b} - {TR}_{d}}{{TR}_{d}^{'}} \times {MV}_{C} - - - (7)

这里，TR_b是当前帧与前向参考帧的时域距离；TR_d是前后向参考帧之间的时域距离；TR_d′是前向参考帧与次后向参考帧之间的时域距离；MV_C是次后向参考帧上的对应块指向前向参考帧的前向运动矢量。必须指出的是，这一方法，同样适用于对前向参考帧中的对应块指向次后向参考帧的后向运动矢量进行直接模式的时域缩放，只是前后向运动矢量所缩放的时域距离不同而已。

最后所应说明的是，以上实施例仅用以说明本发明的技术方案而非限制。尽管参照实施例对本发明进行了详细说明，本领域的普通技术人员应当理解，对本发明的技术方案进行修改或者等同替换，都不脱离本发明技术方案的精神和范围，其均应涵盖在本发明的权利要求内。

Claims

1.面向全景视频编码的B帧扩展直接模式，其特征在于，该模式包含A、B、C三种扩展直接模式：

1)A模式，是在编码块的后向参考帧上的对应块无前向运动矢量可利用的情况下，将向前搜索当前编码块的前向参考帧，如果前向参考帧也是B帧，且在前向参考帧上的对应块有后向运动矢量，则可利用这一后向运动矢量进行直接模式缩放得到当前块的前向和后向运动矢量；

2)B模式，是对A模式的扩展，在A模式下，如果前向参考帧里的对应块也没有后向运动矢量可利用，则向后搜索后向参考帧是否为B帧，如果是B帧，且帧内的对应块有后向运动矢量，则可利用这一后向运动矢量作反向映射，生成前向运动矢量，运用这一映射出来的前向运动矢量进行缩放，得到当前块的前向和后向运动矢量；

3)C模式，是当编码帧最邻近的前后向参考帧里的对应块都没有可利用来进行时域缩放的运动矢量，则向后搜索次后向参考帧中的对应块，如果次后向参考帧中的对应块有前向运动矢量，且这一前向运动矢量指向前向参考帧，则可以通过对这一前向运动矢量进行直接模式的时域缩放，得到当前块的前后向运动矢量。