CN104954785A

CN104954785A - 一种用于可伸缩视频编码的分层式模式决策方法

Info

Publication number: CN104954785A
Application number: CN201510333611.2A
Authority: CN
Inventors: 卢鑫; 胡悦; 金雪松; 肖楠; 郭俊汐
Original assignee: Harbin Institute of Technology
Current assignee: Harbin Institute of Technology
Priority date: 2015-06-16
Filing date: 2015-06-16
Publication date: 2015-09-30

Abstract

一种用于可伸缩视频编码的分层式模式决策方法，本发明涉及视频编码技术领域。本发明解决现有可伸缩视频编码的快速编码技术存在的缺少层间和空间编码模式的相关性模型、关键帧信息未得到合理利用等问题。本发明通过1定义基本层和增强层编码模式相关性；2计算基本层和增强层编码模式相关性数据；3定义当前宏块与其空间相邻宏块间编码模式相关性；4计算空间相邻宏块间编码模式相关性数据；5检查基本层相应宏块的编码模式；6检查空间相邻宏块的编码模式；7测量当前宏块的同质性；8测量当前宏块的运动剧烈程度；9确定运动向量搜索范围和候选模式，并根据各模式的率失真代价，选择最优编码模式；本发明应用于可伸缩视频编码的快速编码领域。

Description

一种用于可伸缩视频编码的分层式模式决策方法

技术领域

本发明涉及视频编码的快速模式决策方法，特别涉及一种用于可伸缩视频编码的分层式模式决策方法。

背景技术

基于H.264/AVC视频编码标准的可伸缩扩展(SVC)是由国际电联电信标准化部门(ITU-T)视频编码专家组(VCEG)和国际标准化组织(ISO)动态图像专家组(MPEG)组成的联合视频专家组(JVT)共同制定的国际可伸缩视频编码标准。为了实现对可伸缩性的支持，SVC标准采用了多层编码框架，继承了H.264/AVC标准中所有的先进编码技术并引入了层间编码技术和工具。SVC标准优异的编码性能是以极高的运算复杂度为代价的。这些复杂度极高的算法导致SVC视频编解码系统的运算效率大大降低，无法满足实时视频通信的需求，严重阻碍了新一代视频编码标准的推广与应用。现有快速可伸缩视频编码技术存在的主要问题有：

1、缺少编码层间相关性模型。SVC标准采用了基于层的编码框架和层间预测技术，新的编码技术和工具带来了新的编码特性。现有的基于SVC标准的快速模式决策算法没有分析和探讨基于层的编码框架和层间预测技术所引入的新的编码特性，没有建立基本层编码模式和增强层编码模式之间的相关性模型。因此，现有的算法无法充分利用基本层编码的先验知识以及层间的相关性降低增强层层间预测的复杂度。

2、缺少编码模式相关性模型。视频序列帧间具有很强的相关性，尤其在相对静止的区域，相邻帧之间的图像差别很小。除了图像内容存在很强的相关性，帧间预测模式之间也存在很强的相关性，可以通过帧间相邻单元的编码模式等信息预测待编码单元可能的编码模式。尽管有人提出了利用帧间编码模式的相关性来进行模式预判的算法，但目前这类算法中帧间编码模式间的相关性关系是利用经验建立的，缺乏理论支撑。

3、关键帧信息未得到合理利用。并非所有底层的上采样数据都适合层间预测，尤其对于包含缓慢运动和丰富空间细节视频序列。因此需要有效地度量视频序列的运动剧烈程度以及空间细节的多少。关键帧信息可以为此提供有价值的参考。但是，关键帧中提供的上下文信息在现有的算法中并没有得到充分利用。

4、快速SVC编码系统的性能较差。现有的基于SVC标准的快速模式决策算法未充分整合层间，空间，时间相关性信息。导致算法要么对编码效率的影响较大，要么对具有不同特征的视频序列不具有普适性。

发明内容

本发明的目的是为了解决现有快速可伸缩视频编码技术存在的缺少编码层间相关性模型、缺少编码模式相关性模型、关键帧信息未得到合理利用以及快速SVC编码系统的性能较差的问题，而提出的一种用于可伸缩视频编码的分层式模式决策方法。

上述的发明目的是通过以下技术方案实现的：

步骤一、定义基本层和增强层编码模式的相关性；即当基本层宏块的编码模式是MODE_SKIP时，增强层中，与基本层宏块对应位置处的宏块的编码模式也为MODE_SKIP的概率；

步骤二、对具有不同运动剧烈程度和图像细节的视频序列，利用JSVM9.18参考软件进行编码，并利用基本层和增强层编码模式的相关性，计算基本层和增强层的编码模式相关性数据；

步骤三、定义当前宏块与当前宏块的空间相邻宏块间的编码模式相关性，即当增强层中当前宏块的编码模式是MODE_SKIP时，增强层中当前宏块的左边相邻宏块和上方相邻宏块中的一个或两个宏块的编码模式也为MODE_SKIP的概率；

步骤四、对具有不同运动剧烈程度和图像细节的视频序列，利用JSVM9.18参考软件进行编码，并根据当前宏块与当前宏块的空间相邻宏块间的编码模式相关性的定义，计算当前宏块与当前宏块的空间相邻宏块间的编码模式相关性数据；

步骤五、检查增强层中当前宏块在基本层的相应宏块的编码模式是否为帧内编码；若增强层当前宏块在基本层相应宏块的编码模式为帧内编码，则增强层当前宏块通常包含复杂的运动或者细致的纹理信息，采用穷举式的模式选择算法，在增强层当前宏块中所有候选模式中选择Lagrangian率失真代价最小的，作为增强层当前宏块的最优编码模式；否则，进入步骤六进行处理；

步骤六、根据步骤二中得到的基本层和增强层的编码模式相关性数据和步骤四中得到的当前宏块与当前宏块的相邻宏块间的编码模式相关性数据，检查增强层中当前宏块在基本层相应宏块的编码模式以及当前宏块的空间相邻宏块的编码模式；如果增强层当前宏块的空间相邻宏块或基本层中的相应位置宏块中至少有一个宏块的编码模式为MODE_SKIP，则比较MODE_SKIP和MODE_16×16的Lagrangian率失真代价；如果MODE_SKIP的率失真代价比MODE_16×16的Lagrangian率失真代价小，那么将MODE_SKIP选作当前宏块的最优编码模式；否则，进入步骤七进行处理；其中，当前宏块的相邻宏块包括增强层中的当前宏块左边相邻宏块、当前宏块上方相邻宏块，以及当前宏块在基本层中的相应位置的宏块；

步骤七、根据AC系数的能量测量当前宏块内容的同质性；如果AC系数的能量小于等于阈值则宏块内容的同质性较高，则根据Lagrangian代价函数从宏块编码模式MODE_16×16、MODE_16×8和MODE_8×16中依据Lagrangian率失真代价选择最优编码模式，如果AC系数的能量大于阈值则宏块内容的同质性较低，进入步骤八进行处理；

步骤八、如果当前宏块在基本层中的相应宏块的MVD值能量大于阈值，则当前宏块内容运动剧烈，则进行步骤九；否则即MVD小于等于阈值则图像中运动剧烈程度小，进行步骤十；其中，MVD值为每个图像组的关键帧之间的运动向量差即实际运动向量与运动向量预测值间的差值MVD；

步骤九：保持当前宏块的默认搜索范围，从所有候选模式中，选择Lagrangian率失真代价最小的，作为当前宏块的最优编码模式，结束当前宏块的模式决策过程；其中，候选编码模式包括所有候选模式；

步骤十：将搜索范围减小为步骤九所述的搜索范围的一半，从候选编码模式MODE_8×8、MODE_8×4、MODE_4×8、MODE_4×4以及层间预测模式中选择Lagrangian率失真代价最小的，作为当前宏块的最优编码模式，结束当前编码宏块的模式决策过程；其中，层间预测模式包括层间纹理预测inter-layer texture prediction、层间运动预测inter-layermotion prediction和层间残差预测inter-layer residual prediction；即完成了一种用于可伸缩视频编码的分层式模式决策方法。

发明效果

本发明创造所提出的一种用于可伸缩视频编码的分层式模式决策方法正是针对以上问题提出的：通过对不同编码层中的编码单元的划分方式和预测方向，空间相邻编码块的编码方式进行相关性分析，利用离散余弦变换(DCT)系数与图像内容间的关系，以及关键帧提供的上下文信息，构建了一套充分利用层间、空间、时间相关性以及图像自身特征的快速SVC模式决策算法。该算法的提出可以有效解决SVC标准编码复杂度过高，远不能满足实时应用需求的问题，促进可伸缩视频编码标准的完善，推动其编码性能的进一步提升，尤其是可以突破其在实时性应用方面的障碍。因此，本发明对我国未来视频应用业务的发展将提供重要的理论与技术支撑。

为了验证本发明的有效性，我们将所提出的算法整合进了JVT提供的标准参考软件JSVM 9.18中。测试中使用了由JVT推荐的4个具有不同运动剧烈程度和图像细节的标准视频测试序列。为了保证实验数据的可靠性，测试中使用了24至40之间的多个量化参数(Quantization Parameter，QP)。分层式B结构的GOP尺寸设置为8。每个视频序列所处理的帧数均大于90。测试中，采用了一个基本层和一个增强层，基本层和增强层采用相同的QP值。

实验中，评价提出算法的有效性的指标包括：编码时间的减少量(Time Reduction，TR)和编码器的率失真性能(比特率bit-rate，峰值信噪比PSNR)。本发明所提出的算法与标准参考软件JSVM 9.18的对比结果如表3至表6所示。

表3和表4说明，对于运动比较剧烈的Bus序列和含有较丰富细节信息的Mobile序列，由于基本层中编码模式为MODE_SKIP的宏块所占比例小，因此编码时间的减少量少于其他视频序列。但是对于这样的视频序列，编码时间的减少量仍然大于62％。对于包含大量静态区域的Mother-daughter序列，平均编码时间的减少量可以达到80％以上。观察表3至表6可知，编码时间的减少随着QP值的增加而增加。对于运动平缓的视频序列，编码时间最多可以减少83％。提出的算法几乎不会造成编码器率失真性能的损失，即比特率的增加不大于1.5％，而峰值信噪比的降低不大于0.2％。

本发明为SVC标准提出了一种分层式的模式决策算法。该算法可以有效利用时间，空间，层间相关性，减少参加Lagrangian率失真代价函数计算的编码模式数量，从而减少编码时间。实验证明，提出的算法可以在不损失编码器编码效率的前提下，平均减少的编码时间可达83％。

附图说明

图1为具体实施方式一提出的当前宏块在相同编码层的空间相邻宏块的位置以及其在基本层的对应宏块的位置示意图；

图2为具体实施方式一提出的一种用于可伸缩视频编码的分层式模式决策方法的流程图。

具体实施方式

具体实施方式一：本实施方式的一种用于可伸缩视频编码的分层式模式决策方法，具体是按照以下步骤进行的：

步骤一、定义基本层和增强层编码模式的相关性；即当基本层宏块的编码模式是MODE_SKIP时，增强层中，与基本层宏块对应位置处的宏块的编码模式也为MODE_SKIP的概率；本发明中适用于增强层对于基本层的伸缩系数为2的情形，即增强层宏块的长度和宽度均为基本层宏块的2倍；其中，基本层宏块与其在增强层中对应宏块的位置关系如图1所示；

步骤二、对具有不同运动剧烈程度和图像细节的视频序列，利用JSVM9.18参考软件进行编码，并利用基本层和增强层编码模式的相关性，计算基本层和增强层的编码模式相关性数据如表1所示；

表1基本层和增强层的编码模式相关性(单位：％)

由表1得出如果宏块在基本层的编码模式是MODE_SKIP，那么在增强层中对应位置的宏块的编码模式非常有可能也是MODE_SKIP的结论；

步骤四、对具有不同运动剧烈程度和图像细节的视频序列，利用JSVM9.18参考软件进行编码，并根据当前宏块与当前宏块的空间相邻宏块间的编码模式相关性的定义，计算当前宏块与当前宏块的空间相邻宏块间的编码模式相关性数据如表2所示；

表2相邻宏块间的编码模式相关性(单位：％)

由表2得出如果增强层中的当前宏块在基本层中对应的宏块的编码模式是MODE_SKIP，或者空间相邻宏块的编码模式是MODE_SKIP，那么当前宏块的编码模式非常有可能也是MODE_SKIP的结论；

步骤五、本发明中提出的快速模式决策算法的框架如图2所示；基本层的模式决策过程采用穷举式的模式选择算法；对于增强层，提出的快速模式决策算法如下所述：检查增强层中当前宏块在基本层的相应宏块的编码模式是否为帧内编码；若增强层当前宏块在基本层相应宏块的编码模式为帧内编码，则增强层当前宏块通常包含复杂的运动或者细致的纹理信息，采用穷举式的模式选择算法，在增强层当前宏块中所有候选模式中选择Lagrangian率失真代价最小的作为增强层当前宏块的最优编码模式；否则，进入步骤六进行处理；

步骤六、根据步骤二中得到的基本层和增强层的编码模式相关性数据和步骤四中得到的当前宏块与当前宏块的相邻宏块间的编码模式相关性数据，检查增强层中当前宏块在基本层相应宏块的编码模式以及当前宏块的空间相邻宏块的编码模式；如果增强层当前宏块的空间相邻宏块或基本层中的相应位置宏块(如图1)中至少有一个宏块的编码模式为MODE_SKIP，则比较MODE_SKIP和MODE_16×16的Lagrangian率失真代价；如果MODE_SKIP的率失真代价比MODE_16×16的Lagrangian率失真代价小，那么将MODE_SKIP选作当前宏块的最优编码模式；否则(如果MODE_SKIP的率失真代价比MODE_16×16的Lagrangian率失真代价大)，进入步骤七进行处理；其中，当前宏块的相邻宏块包括增强层中的当前宏块左边相邻宏块、当前宏块上方相邻宏块，以及当前宏块在基本层中的相应位置的宏块；

步骤七、通过计算当前宏块的AC系数的能量，判断当前宏块中图像细节的丰富程度，即根据AC系数的能量测量当前宏块(当前宏块指的是图1中的当前宏块)内容的同质性；如果AC系数的能量小于等于阈值则宏块内容的同质性较高(图像细节少)，则根据Lagrangian代价函数从宏块编码模式MODE_16×16、MODE_16×8和MODE_8×16中依据Lagrangian率失真代价选择最优编码模式，如果AC系数的能量大于阈值则宏块内容的同质性较低(图像细节丰富)，进入步骤八进行处理；通常阈值取92735；

步骤八、根据当前宏块在基本层中的相应宏块的MVD值，测量当前宏块的运动剧烈程度，如果当前宏块(当前宏块指的是图1中的当前宏块)在基本层中的相应宏块的MVD值能量大于阈值，则当前宏块内容运动剧烈，则进行步骤九；否则即MVD小于等于阈值则图像中运动剧烈程度小(宏块运动平缓)，进行步骤十；其中，MVD(Motion VectorDifference，MVD)值为每个图像组(Group of Pictures，GOP)的关键帧之间的运动向量差即实际运动向量与运动向量预测值间的差值MVD；将MVD作为运动剧烈程度的度量；一般来说，运动平缓的视频序列具有较小的MVD值，反之亦反；通常门限值取1；MVD值很容易从已编码的数据中抽取出来，这也符合本发明降低SVC编码器的编码复杂度的目标；

步骤九：保持当前宏块(当前宏块指的是图1中的当前宏块)的默认搜索范围，将从所有候选模式中，选择Lagrangian率失真代价最小的，作为当前宏块的最优编码模式，结束当前宏块(当前宏块指的是图1中的当前宏块)的模式决策过程；其中，候选编码模式包括所有候选模式；

步骤十：将搜索范围减小为步骤九所述的搜索范围的一半，从候选编码模式MODE_8×8、MODE_8×4、MODE_4×8、MODE_4×4以及层间预测模式中选择Lagrangian率失真代价最小的，作为当前宏块(当前宏块指的是图1中的当前宏块)的最优编码模式；结束当前编码宏块的模式决策过程；其中，层间预测模式包括层间纹理预测inter-layertexture prediction、层间运动预测inter-layer motion prediction和层间残差预测inter-layerresidual prediction；即完成了一种用于可伸缩视频编码的分层式模式决策方法。

本实施方式效果：

本实施方式创造所提出的一种用于可伸缩视频编码的分层式模式决策方法正是针对以上问题提出的：通过对不同编码层中的编码单元的划分方式和预测方向，空间相邻编码块的编码方式进行相关性分析，利用离散余弦变换(DCT)系数与图像内容间的关系，以及关键帧提供的上下文信息，构建了一套充分利用层间、空间、时间相关性以及图像自身特征的快速SVC模式决策算法。该算法的提出可以有效解决SVC标准编码复杂度过高，远不能满足实时应用需求的问题，促进可伸缩视频编码标准的完善，推动其编码性能的进一步提升，尤其是可以突破其在实时性应用方面的障碍。因此，本实施方式对我国未来视频应用业务的发展将提供重要的理论与技术支撑。

为了验证本实施方式的有效性，我们将所提出的算法整合进了JVT提供的标准参考软件JSVM 9.18中。测试中使用了由JVT推荐的4个具有不同运动剧烈程度和图像细节的标准视频测试序列。为了保证实验数据的可靠性，测试中使用了24至40之间的多个量化参数(Quantization Parameter，QP)。分层式B结构的GOP尺寸设置为8。每个视频序列所处理的帧数均大于90。测试中，采用了一个基本层和一个增强层，基本层和增强层采用相同的QP值。

实验中，评价提出算法的有效性的指标包括：编码时间的减少量(Time Reduction，TR)和编码器的率失真性能(比特率bit-rate，峰值信噪比PSNR)。本实施方式所提出的算法与标准参考软件JSVM 9.18的对比结果如表3至表6所示。

本实施方式为SVC标准提出了一种分层式的模式决策算法。该算法可以有效利用时间，空间，层间相关性，减少参加Lagrangian率失真代价函数计算的编码模式数量，从而减少编码时间。实验证明，提出的算法可以在不损失编码器编码效率的前提下，平均减少的编码时间可达83％。创造所提出的一种用于可伸缩视频编码的分层式模式决策方法正是针对以上问题提出的：通过对不同编码层中的编码单元的划分方式和预测方向，空间相邻编码块的编码方式进行相关性分析，利用离散余弦变换(DCT)系数与图像内容间的关系，以及关键帧提供的上下文信息，构建了一套充分利用层间、空间、时间相关性以及图像自身特征的快速SVC编码算法。该算法的提出可以有效解决SVC标准编码复杂度过高，远不能满足实时应用需求的问题，促进可伸缩视频编码标准的完善，推动其编码性能的进一步提升，尤其是可以突破其在实时性应用方面的障碍。因此，本实施方式对我国未来视频应用业务的发展将提供重要的理论与技术支撑。

本实施方式为SVC标准提出了一种分层式的模式决策算法。该算法可以有效利用时间，空间，层间相关性，减少参加Lagrangian率失真代价函数计算的编码模式数量，从而减少编码时间。实验证明，提出的算法可以在不损失编码器编码效率的前提下，平均减少的编码时间可达83％。

具体实施方式二：本实施方式与具体实施方式一不同的是：步骤一中定义基本层和增强层编码模式的相关性Mode correlation的公式为：

其中，MB_{B&E_SKIP}是在基本层中的编码模式和在增强层中的编码模式上均为MODE_SKIP的宏块数量；MBB_SKIP是基本层中编码模式为MODE_SKIP的宏块数量。其它步骤及参数与具体实施方式一相同。

具体实施方式三：本实施方式与具体实施方式一或二不同的是：步骤三中定义当前宏块与当前宏块的空间相邻宏块间的编码模式相关性Mode correlation如式(2)：

其中，MB_{C&N_SKIP}为当前宏块和与当前宏块的空间相邻宏块的编码模式均为MODE_SKIP的宏块的数量；MB_{N_SKIP}是相邻宏块的编码模式为MODE_SKIP宏块的数量。其它步骤及参数与具体实施方式一或二相同。

具体实施方式四：本实施方式与具体实施方式一至三之一不同的是：步骤五中采用穷举式的模式选择算法在增强层当前宏块中所有候选模式中选择Lagrangian率失真代价最小的作为增强层当前宏块的编码模式具体过程为：

Lagrangian代价函数表示为：

J (ω_{k}, {\hat{ω}}_{k} | QP) = SAD (ω_{k}, {\hat{ω}}_{k} | DP) + λ_{MODE} (QP) \cdot R (ω_{k}, {\hat{ω}}_{k} | QP) - - - (3)

式中，

ω_k为第k个宏块；

为与ω_k对应的重建宏块；

R为产生的比特数；

SAD为失真度；

QP为量化参数；

J为率失真代价；

λ_MODE为Lagrangian乘子；

在候选编码模式中选择率失真代价J最小的编码模式作为最优编码模式。其它步骤及参数与具体实施方式一至三之一相同。

具体实施方式五：本实施方式与具体实施方式一至四之一不同的是：步骤五中选择所有候选编码模式包括八种帧间预测模式、两种帧内预测模式和层间预测模式，其中，两种帧内预测模式包括INTRA_16×16和INTRA_4×4；层间预测模式包括层间纹理预测inter-layer texture prediction、层间运动预测inter-layer motion prediction和层间残差预测inter-layer residual prediction；八种帧间预测模式包括MODE_SKIP、MODE_16×16、MODE_16×8、MODE_8×16、MODE_8×8、MODE_8×4、MODE_4×8和MODE_4×4。其它步骤及参数与具体实施方式一至四之一相同。

具体实施方式六：本实施方式与具体实施方式一至五之一不同的是：步骤七中根据AC系数的能量测量当前宏块(当前宏块指的是图1中的当前宏块)内容的同质性的具体过程为：

DCT系数与图像同质性，在图像的平滑区域，经DCT变换后，图像的能量通常都集中于图像的低频成分区域，而对于包含丰富细节的区域，图像的能量通常分布在频域的交流系数上，也即高频成分区域；根据AC系数的能量判断宏块中包含图像细节的丰富程度，将宏块作为图像同质性的粗略度量；

对于一个16×16大小的宏块，AC系数的能量E_AC由式(4)计算，

E_{AC} = Σ_{x = 0}^{15} Σ_{y = 0}^{15} {(c_{t} (x, y))}^{2} - \frac{1}{256} {(Σ_{x = 0}^{15} Σ_{y = 0}^{15} c_{t} (x, y))}^{2} - - - (4)

其中，E_AC为AC系数的能量，c_t(x,y)为视频图像中(x,y)处的像素灰度值；

这里需要一个合理的AC系数能量的阈值将宏块分类为细节丰富的宏块和细节较少的宏块；我们将经验值92735选作AC系数能量的阈值；当宏块的AC系数能量值大于92735时，认为宏块内具有大量复杂纹理，即：

homogeneity = \{\begin{matrix} low & of & E_{AC} > 92735 \\ high & otherwise \end{matrix} - - - (5) .

其它步骤及参数与具体实施方式一至五之一相同。

具体实施方式七：本实施方式与具体实施方式一至六之一不同的是：步骤八中MVD由式(6)定义：

|MVD|＝|MV_actual-MV_p| (6)

其中，MV_actual是实际运动向量值，MV_p是运动向量的预测值。其它步骤及参数与具体实施方式一至六之一相同。

采用以下实施例验证本发明的有益效果：

实施例一：

本实施例的一种用于可伸缩视频编码的分层式模式决策方法，具体是按照以下步骤进行的：

1.对基本层与增强层之间的编码模式相关性的探讨

本发明创造首先对编码层间编码模式的相关性进行了统计和深入分析。

在基于层的编码结构中，基本层首先被独立地编码，接着增强层再被编码。由于不同编码层所处理的视频序列来自于同一原始视频序列，只是各视频序列具有不同的分辨率，因此它们在视频内容上具有高度的相关性。具体地说，增强层编码单元的划分方式以及运动向量的大小与其对应的基本层编码数据是高度相关的。通过利用基本层中相应宏块的编码模式信息，可以将增强层模式决策的运算复杂度有效降低。

为了说明基本层和增强层编码模式的相关性，我们分析了当基本层宏块的编码模式是MODE_SKIP时，增强层中对应位置的宏块的编码模式也为MODE_SKIP的概率。式(1)定义了基本层和增强层编码模式的相关性。

其中，MB_{B&E_SKIP}是在基本层中的编码模式和在增强层中的编码模式上均为MODE_SKIP的宏块数量；MBB_SKIP是基本层中编码模式为MODE_SKIP的宏块数量。

我们对具有不同运动剧烈程度和图像细节的视频序列进行了测试，获得了基本层和增强层的编码模式相关性数据，如表1所示。

表1：基本层和增强层的编码模式相关性(单位：％)

从表1中可以得出以下结论，如果宏块在基本层的编码模式是MODE_SKIP，那么在增强层中对应位置的宏块的编码模式非常有可能也是MODE_SKIP。

2.对空间相邻宏块的编码模式相关性的探讨

对于大多数视频序列，编码模式为MODE_SKIP的宏块倾向于集中在一起出现。因此，如果当前宏块的编码模式是MODE_SKIP，那么与它空间相邻的宏块的编码模式非常有可能也是MODE_SKIP。这里相邻宏块指的是当前宏块上方相邻宏块和左边相邻的宏块，如图1所示。

为了说明空间相邻宏块间的编码模式相关性，我们分析了当当前宏块的编码模式是MODE_SKIP时，其相邻的一个或两个宏块的编码模式也为MODE_SKIP的概率。式(2)定义了当前宏块和其相邻宏块间的编码模式相关性。

其中，MB_{C&N_SKIP}为当前宏块和与当前宏块的空间相邻宏块的最优预测编码模式均为MODE_SKIP的宏块的数量；MB_{N_SKIP}是当前宏块的相邻宏块的编码模式为MODE_SKIP宏块的数量。相似地，我们对具有不同运动剧烈程度和图像细节的视频序列进行了测试，获得了如表2所示的相邻宏块间的模式相关性数据。

表2 相邻宏块间的编码模式相关性(单位：％)

通过以上的观察可以总结出如下结论：由于相邻宏块间编码模式的相关性，如果增强层中的当前编码宏块在基本层对应的宏块的编码模式是MODE_SKIP，或者空间相邻宏块的编码模式是MODE_SKIP，那么当前宏块的编码模式非常可能也是MODE_SKIP。

3.关键帧中的上下文信息

并非所有底层的上采样数据都适合层间预测，尤其对于包含缓慢运动和丰富空间细节视频序列。因此需要有效地度量视频序列的运动剧烈程度以及空间细节的多少。

每个图像组(Group of Pictures，GOP)的关键帧之间的运动向量差(Motion VectorDifference，MVD)可以作为运动剧烈程度的度量。MVD是实际运动向量与其预测值间的差值，由式(3)定义：

|MVD|＝|MV_actual-MV_p| (3)

其中，MV_actual是实际运动向量值，MV_p是运动向量的预测值。

一般来说，运动平缓的视频序列具有较小的MVD值，反之亦反。MVD值很容易从已编码的数据中抽取出来，这也符合本发明降低SVC编码器的编码复杂度的目标。

4.编码框架

本发明中提出的快速模式决策算法的框架如图2所示。基本层的模式决策过程采用穷举式的模式选择算法。对于增强层，提出的快速模式决策算法如下所述：

(1)检查增强层中当前宏块在基本层的相应宏块的编码模式是否为帧内编码；若增强层当前宏块在基本层相应宏块的编码模式为帧内编码，则增强层当前宏块通常包含复杂的运动或者细致的纹理信息，采用穷举式的模式选择算法，从所有候选模式中选择Lagrangian率失真代价最小的作为增强层当前宏块的最优编码模式；否则，进入步骤(2)进行处理；

(2)检查增强层中当前宏块在基本层相应宏块的编码模式以及当前宏块的空间相邻宏块的编码模式；如果增强层当前宏块的空间相邻宏块或基本层中的相应位置宏块中至少有一个宏块的编码模式为MODE_SKIP，则比较MODE-SKIP和MODE_16×16的Lagrangian率失真代价；如果MODE_SKIP的率失真代价比MODE_16×16的Lagrangian率失真代价小，那么将MODE_SKIP选作当前宏块的最优编码模式；否则，进入步骤(3)进行处理；其中，当前宏块的相邻宏块包括增强层中的当前宏块左边相邻宏块、当前宏块上方相邻宏块，以及当前宏块在基本层中的相应宏块；

(3)根据AC系数的能量测量当前宏块内容的同质性；如果AC系数的能量小于等于阈值则宏块内容的同质性较高，则从宏块编码模式MODE_16×16、MODE_16×8和MODE_8×16中依据Lagrangian率失真代价选择最优编码模式，如果AC系数的能量大于阈值则宏块内容的同质性较低，进入步骤(4)进行处理；

(4)如果当前宏块在基本层中的相应宏块的MVD值能量大于阈值，则当前宏块内容运动剧烈，则进行步骤(5)；否则即MVD小于等于阈值则图像中运动剧烈程度小，进行步骤(6)；其中，MVD值为每个图像组的关键帧之间的运动向量差即实际运动向量与运动向量预测值间的差值MVD；

(5)保持当前宏块的默认搜索范围，从所有候选模式中选择Lagrangian率失真代价最小的，作为当前宏块的最优编码模式，结束当前宏块的模式决策过程；其中，候选编码模式包括所有候选模式；

(6)将搜索范围减小为步骤(5)所述的搜索范围的一半，从候选编码模式MODE_8×8、MODE_8×4、MODE_4×8、MODE_4×4以及层间预测模式中选择Lagrangian率失真代价最小的，作为当前宏块的最优编码模式，结束当前编码宏块的模式决策过程；其中，层间预测模式包括层间纹理预测inter-layer texture prediction、层间运动预测inter-layer motion prediction和层间残差预测inter-layer residual prediction；即完成了一种用于可伸缩视频编码的分层式模式决策方法。

表3 Bus序列的测试结果

表4 Foreman序列的测试结果

表5 Mobile序列的测试结果

表6 Mother-daughter序列的测试结果

本发明还可有其它多种实施例，在不背离本发明精神及其实质的情况下，本领域技术人员当可根据本发明作出各种相应的改变和变形，但这些相应的改变和变形都应属于本发明所附的权利要求的保护范围。

Claims

1.一种用于可伸缩视频编码的分层式模式决策方法，其特征在于一种用于可伸缩视频编码的分层式模式决策方法具体是按照以下步骤进行的：

2.根据权利要求1所述一种用于可伸缩视频编码的分层式模式决策方法，其特征在于：步骤一中定义基本层和增强层编码模式的相关性Mode correlation的公式为：

其中，MB_{B&E_SKIP}是在基本层中的编码模式和在增强层中的编码模式均为MODE_SKIP的宏块数量；MB_{B_SKIP}是基本层中编码模式为MODE_SKIP的宏块数量。

3.根据权利要求1所述一种用于可伸缩视频编码的分层式模式决策方法，其特征在于：步骤三中定义当前宏块与当前宏块的空间相邻宏块间的编码模式相关性Mode correlation如式(2)：

其中，MB_{C&N_SKIP}为当前宏块与当前宏块的空间相邻宏块的编码模式均为MODE_SKIP的宏块的数量；MB_{N_SKIP}是相邻宏块的编码模式为MODE_SKIP宏块的数量。

4.根据权利要求1所述一种用于可伸缩视频编码的分层式模式决策方法，其特征在于：步骤五中采用穷举式的模式选择算法在增强层当前宏块中所有候选模式中选择Lagrangian率失真代价最小的作为增强层当前宏块的编码模式具体过程为：

Lagrangian代价函数表示为：

J (ω_{k}, {\hat{ω}}_{k} | QP) = SAD (ω_{k}, {\hat{ω}}_{k} | QP) + λ_{MODE} (QP) \cdot R (ω_{k}, {\hat{ω}}_{k} | QP) - - - (3)

式中，

ω_k为第k个宏块；

为与ω_k对应的重建宏块；

R为产生的比特数；

SAD为失真度；

QP为量化参数；

J为率失真代价；

λ_MODE为Lagrangian乘子；

在候选编码模式中选择率失真代价J最小的编码模式作为最优编码模式。

5.根据权利要求1所述一种用于可伸缩视频编码的分层式模式决策方法，其特征在于：步骤五中选择所有候选编码模式包括八种帧间预测模式、两种帧内预测模式和层间预测模式，其中，两种帧内预测模式包括INTRA_16×16和INTRA_4×4；层间预测模式包括层间纹理预测inter-layer texture prediction、层间运动预测inter-layer motion prediction和层间残差预测inter-layer residual prediction；八种帧间预测模式包括MODE_SKIP、MODE_16×16、MODE_16×8、MODE_8×16、MODE_8×8、MODE_8×4、MODE_4×8和MODE_4×4。

6.根据权利要求1所述一种用于可伸缩视频编码的分层式模式决策方法，其特征在于：步骤七中根据AC系数的能量测量当前宏块内容的同质性的具体过程为：

对于一个16×16大小的宏块，AC系数的能量E_AC由式(4)计算，

E_{AC} = Σ_{x = 0}^{15} Σ_{y = 0}^{15} {(c_{t} (x, y))}^{2} - \frac{1}{256} {(Σ_{x = 0}^{15} Σ_{y = 0}^{15} c_{t} (x, y))}^{2} - - - (4)

将经验值92735选作AC系数能量的阈值；当宏块的AC系数能量值大于92735时，认为宏块内具有大量复杂纹理，即：

homogeneity = \{\begin{matrix} low & if E_{AC} > 92735 \\ high & otherwise \end{matrix} - - - (5) .

7.根据权利要求1所述一种用于可伸缩视频编码的分层式模式决策方法，其特征在于：步骤八中MVD由式(6)定义：

|MVD|＝|MV_actual-MV_p| (6)

其中，MV_actual是实际运动向量值，MV_p是运动向量的预测值。