CN105635733A

CN105635733A - 一种基于运动信息的最优可伸缩多模式决策方法

Info

Publication number: CN105635733A
Application number: CN201511025814.1A
Authority: CN
Inventors: 张倚豪; 黄士超; 李璜; 朝红阳
Original assignee: Sun Yat Sen University; SYSU CMU Shunde International Joint Research Institute
Current assignee: Sun Yat Sen University; SYSU CMU Shunde International Joint Research Institute
Priority date: 2015-12-29
Filing date: 2015-12-29
Publication date: 2016-06-01

Abstract

本发明公开一种基于运动信息的最优可伸缩多模式决策方法，是一个最优可伸缩多模式决策方法，可自动调整以适应不同的可用计算资源并尽可能保持在该计算资源下理论最优的率失真性能。其基本原理是，在视频序列的帧间，存在大量的运动信息，而同一帧的不同编码单元的多模式决策收益往往有很大差异并与物体运动情况有高度相关性。利用这些信息，可以建立较准确的预测模型，并可以在当前帧开始编码前即获得其多模式收益分布情况，从而可根据收益大小从高到低地进行多模式决策，以自动适应动态可变的计算资源限制。

Description

一种基于运动信息的最优可伸缩多模式决策方法

技术领域

本发明涉及视频压缩领域，更具体地，涉及一种基于运动信息的最优可伸缩多模式决策方法。

背景技术

新一代的视频标准HEVC仍然采用了基于block的混合编码结构，并增加了更多新的编码技术作为可选项，与H.264相比，在保持相同视频质量的同时降低了50％的码率，但是也带来了更加高的计算复杂度。HEVC的编码过程实际上可以看作是对众多编码选项进行决策的过程。例如，在MD过程中，每一个CU都可以递归地分解成四个小CU，直到到达最大深度，同时每一个CU都会进行多达7种的PU尝试，以决定(decide)最佳的分解模式。MD决策所形成的类似四叉树的CU结构使得可能的模式数目从H.264的15种增加到了595种，而新的模式决策过程也使搜索的面积数比H.264增加了约3倍。因此，对MD的优化是一个很重要的研究课题。

发明内容

本发明为克服上述现有技术所述的至少一种缺陷(不足)，提供一种基于运动信息的最优可伸缩多模式决策方法，该方法可自动调整以适应不同的可用计算资源并尽可能保持在该计算资源下理论最优的率失真性能。

为解决上述技术问题，本发明的技术方案如下：

一种基于运动信息的最优可伸缩多模式决策方法，其步骤为：

(1)读取原始视频文件，开始编码；

(2)对于当前编码帧，判断该帧是否属于关键帧，是则利用关键帧的分解模式初始化下一帧的MCC表格，否则执行步骤(4)；

(3)对当前帧，根据MCC的大小进行排序；

(4)根据当前可用的计算资源，决定进行多模式决策的编码单元个数并标记编码单元；

(5)对于当前帧每一个编码单元，判断其有无标记，有则进行多模式决策，否则只进行相当于编码单元大小的运动估计并跳过细分编码单元的多模式决策过程；

(6)对每一个子块，判断其最终编码模式是否inter编码模式，是则跳过步骤(8)，否则执行步骤(7)；

(7)计算该子块的几何中心点，并根据其运动向量将其反向映射至下一帧的对应位置，作为其子块的运动目标位置，并累加运动冲突计数；

(8)判断当前编码单元全部是否执行完毕，是则进行步骤(9)，否则回到步骤(5)；

(9)当前帧编码结束，判断是否有下一帧；是则回到步骤(2)，否则所有帧编码完毕，算法结束，原始视频压缩完毕。

与现有技术相比，本发明技术方案的有益效果是：本发明将基于HEVC并针对多模式决策，提出一个在帧层面对各个编码单元(CU)进行计算资源最优分配的算法，实现帧层面多模式算法计算复杂度的最优可伸缩功能。

在帧层面实现计算资源的最优分配，就是根据最大编码单元(LCU)的MD收益越大则分配时间越多的原则建立收益-复杂度模型。然而，事实上进行某一项编码选项的收益必须在实际执行了该选项之后才能得到，所以这个收益-复杂度模型只是理论上的最优模型，无法在决策前得到，但是它可以作为衡量算法好坏的一个benchmark。要实现帧间最优伸缩性能，关键挑战在于如何进行多模式决策收益的快速预测，并且预测过程不能引入过于复杂的计算量。而视频内容的多样性和复杂性，使得建立预测模型更加困难。本发明将利用相邻域的运动信息和已有模式信息，进行快速收益预测，并据此给出最优可伸缩多模式决策算法。

从HEVC编码的实验结果观察到，物体运动剧烈的部分一般会有较高的MD收益，而利用多模式决策的结果信息，这些运动的物体在相邻帧的位置变化是有迹可循的，并且相邻帧的高收益区域也会随着这些运动信息而传递。

从这个观察出发，本发明提出了适应HEVC的递归化MD的最优可伸缩多模式决策算法，该方法利用相邻帧的运动信息，预估当前帧的各个LCU的大致收益分布并给出一个比较粗粒度的LCU排序，根据可用计算资源的多寡，可以决定进行多模式决策的LCU的个数，然后再根据需要应用更细粒度的基于预测JC-slope的排序算法；而对于进行多模式决策的LCU，则可以更进一步地预估每一个层次的CU的MD收益。然后，在这些收益排序的基础上，设计了一种根据当前可用计算资源自适应地调整复杂度并保持RD性能的控制策略。

其中，本发明的主要特点包括有两个方面：(1)提出了一个可预测各个LCU进行MD的收益的特征值。(2)基于此特征值，设计了一种与HEVC实际编码顺序兼容的复杂度控制策略。

附图说明

图1是MCC特征值计算示例图。

图2是最优多模式算法复杂度调整示例图。

具体实施方式

附图仅用于示例性说明，不能理解为对本专利的限制；

为了更好说明本实施例，附图某些部件会有省略、放大或缩小，并不代表实际产品的尺寸；

对于本领域技术人员来说，附图中某些公知结构及其说明可能省略是可以理解的。

下面结合附图和实施例对本发明的技术方案做进一步的说明。

实施例1

(一)总体功能架构

本方法主要包括两个部分：帧内运动复杂程度与MD收益分布预测模型，以及多模式决策算法复杂度自动调整策略。

帧内运动复杂程度与MD收益分布预测模型可以帮助编码器在当前帧开始编码前，准确预测各个编码单元的收益。复杂度调整模块则是基于帧内收益分布的预测，根据当前可用的计算资源，在多个分解深度层次进行对编码单元的资源分配，以获得在资源约束下的最优的编码性能。

(二)实施流程

步骤1、读取视频，开始编码。

步骤2、对每一帧图像，根据MCC表对全部编码单元分配可用计算资源，根据复杂度调整策略进行多模式决策。

步骤3、当前帧结束，利用当前帧的分解模式以及运动向量，进行下一帧的MCC表更新。

步骤4、重复步骤2直至视频压缩全部结束。

(三)详细结构设计

图1为MCC特征值计算示例图。图2最优多模式算法复杂度调整示例图。

1、运动碰撞计数

为了对帧内收益分布进行估计，本发明提出了一个基于帧间运动信息的特征值，基于该特征值设计了在当前帧编码前预测每个编码单元的多模式决策收益的算法。图1是一个简单的MCC表计算示例图。图1(a)是3个运动物体在N-2帧运动至N-1帧的位移情况，其对应的运动向量反向后以虚线标出，则认为其在当前帧第N帧将会运动到运动向量所指位置。根据N-1帧的所有运动编码单元的计数，即可获取如图1(b)的MCC表格。

2、最优多模式算法复杂度调整

此最优自动调整多模式算法分为MCC排序，标定编码单元，递归调整复杂度三个步骤。图2是其示例图。

(1)MCC排序

利用当前帧的MCC表格，利用快速排序算法对所有编码单元进行排序。每一个分解层次的编码单元都与其相同层次的单元进行排序，从而可得到各个分解层次的执行优先级。

标定编码单元将测试数据传入学习得到的人脸模型，计算模型的误差。如果误差较小，说明模型满足要求，将模型输出，停止程序。如果误差不满足要求，则进入连续不断学习调整过程，直到精度满足要求。

(2)标记编码单元

因为基于MCC的预测在某些时候存在精度不足的问题，如在MCC值比较接近的编码单元应如何选取其执行优先级，可以利用其它方法(如基于JC-slope估计的方法)予以改进。故对MCC进行模糊区间的标记：即MCC值处于阈值Th1与Th2之间时，则认为该编码单元处于模糊区间。图2中红色编码单元即为处于模糊区间的单元。

(3)递归调整复杂度

在每一个分解层次，编码器都可以根据当前可用的计算资源以及其对应层次的MCC分布，自动地选择进入下一个多模式分解层次的编码单元。图2所示的绿色编码单元即为可进入下一层次分解的编码单元，黑色的编码单元即为只能停留在当前层次的编码单元。处于模糊区间的编码单元则通过JC-slope预测与MCC值联合分析的方法进行细分并选取可执行下一层次多模式分解的编码单元。此过程递归执行直至达到最深分解深度。

利用压缩域内的运动物体相关信息建立多模式决策收益预测模型。对于帧间多模式的最优复杂度自动调整的难点在于其同一帧内的多模式收益的预测。由于视频内容难以预测、多种多样，准确的数学模型难以建立。而且由于视频编码有速度上的应用需求，对模型的时间复杂度也有要求。跟发明的核心点在于，能够在当前帧开始编码之前即以极低的开销预测当前帧的多模式收益分布，从而可基于该分布，进行自适应的多模式调整算法。

相同或相似的标号对应相同或相似的部件；

附图中描述位置关系的用于仅用于示例性说明，不能理解为对本专利的限制；

显然，本发明的上述实施例仅仅是为清楚地说明本发明所作的举例，而并非是对本发明的实施方式的限定。对于所属领域的普通技术人员来说，在上述说明的基础上还可以做出其它不同形式的变化或变动。这里无需也无法对所有的实施方式予以穷举。凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等，均应包含在本发明权利要求的保护范围之内。

Claims

1.一种基于运动信息的最优可伸缩多模式决策方法，其特征在于，具体为：

(1)读取原始视频文件，开始编码；

(3)对当前帧，根据MCC的大小进行排序；