CN107592538B

CN107592538B - 一种降低立体视频深度图编码复杂度的方法

Info

Publication number: CN107592538B
Application number: CN201710794281.6A
Authority: CN
Inventors: 喻莉; 黎天送; 王晟伟; 王鸿奎
Original assignee: Huazhong University of Science and Technology
Current assignee: Huazhong University of Science and Technology
Priority date: 2017-09-06
Filing date: 2017-09-06
Publication date: 2019-07-23
Anticipated expiration: 2037-09-06
Also published as: CN107592538A

Abstract

本发明公开了一种降低立体视频深度图编码复杂度的方法，主要用于降低3D‑HEVC中深度图像边缘的编码复杂度，包括：用K均值聚类将输入的深度图PU块像素分为两个差异明显的类别，生成K均值聚类模板；计算K均值聚类模板与在编码初始化时生成的楔形分割模板的相似匹配度，并记录最佳相似匹配度和它所对应的楔形分割模板的索引值；根据最佳相似匹配度确定寻找最佳楔形分割模板的搜索半径，计算搜索半径内所有楔形分割模板的率失真，找到率失真最小的最佳楔形分割模板。本发明摒弃了需要在编解码端提前储存楔形节点的搜索方式，节省了系统缓存，降低了DMM1模式的计算复杂度，能够在保证编码质量的同时平均节省7.1％的总编码时间。

Description

一种降低立体视频深度图编码复杂度的方法

技术领域

本发明属于基于3D-HEVC的视频编码技术领域，更具体地，涉及一种在3D-HEVC中深度视频编码技术中降低立体视频深度图编码复杂度的方法。

背景技术

近些年，继3D电影行业产生巨大成就后，3D立体视频已经受到学术界和工业界越来越多的关注，并得到大量的实践应用，例如，由HHI(Heinrich Hertz Institute)开发的现场视频会议，3D电影和微软的3D游戏(XBOX)等。原理上，3D场景感觉是通过同时给观众的左右眼呈现不同的视频而实现。3D视频编码拓展(JCT-3V)的the Joint CollaborativeTeam正在开发一种新的3D视频编码标准，被称为3D-HEVC。3D-HEVC中采用多视图加深度(multi-view video plus depth，MVD)这种3D视频格式，每一个视角对应一个深度信息。在深度信息的帮助下，来自于解码端有限的视图中任意数目的视图可以通过基于深度图像的绘制技术(the depth-image-based rendering，DIBR)来合成虚拟视角图像，虚拟视角图像将用于立体显示器上显示3D内容。对应于3D-HEVC的参考软件被称作3D-HTM(3D-HEVC TestModel)。

深度图像是一幅灰度图像，它描述的是摄像机和真实物体的距离。深度图像的特征与纹理图像有非常大的不同：首先，深度图像大部分是平滑区域，平滑区域被尖锐的边缘分割开。其次，尖锐边缘的失真在合成视图时引起边缘震荡效应。最后，深度图像是用于视图合成的，并不是被观众直接观看。和2D视频不同，深度图像需要保存尖锐边缘而不影响视觉质量，这对于3D-HEVC深度图像编码来说是一个关键性的任务。因此深度建模模型(DepthModelling Mode，DMM)被加入3D-HEVC标准中作为一个可选模式来编码深度图像。DMM能够非常灵活地去表现尖锐边缘，产生了准确的预测和有效地显示了边缘信息。在同等视图合成质量情况下，它能节约5％的传输比特率。

深度建模模型(Depth Modelling Mode，DMM)包括深度建模模式1(DepthModelling Mode1，DMM1)和深度建模模式4(Depth Modelling Mode4，DMM4)两种技术，主要是以分割形式的不同来区分它们。DMM1和DMM4将每一个预测单元(Prediction Unit，PU)分割为两个非矩形区，每个区域用一个常数CPV(constant pixel value)表示。如图1所示，DMM分割模式分为两类：DMM1是用直线分割的楔形分割法(Wedgelet partition)和DMM4是用任意形状分割的轮廓分割法(Contour partition)。

对于楔形分割，一个深度块的两个区域是通过一条直线分割的，分割的两个区域分别为P1和P2，分割线由起始位置S和终止位置E表示。从图1中可得，对于模拟信号(左图)，可以采用线性函数来表示分割线。而中间图则描述了离散信号的分割，该块是一个u_B×v_B大小的采样矩阵，起始点S和结束点E对应于采样矩阵的边界值，用于表示分割线的位置。对于编码过程中的楔形分割，分割模式将被存储下来，其存储的信息包括u_B×v_B大小的一个矩阵，矩阵中的每个元素是一个二进制信息，表示当前块的采样值属于P1还是P2。右图表示为分割好的预测块，其中白色部分表示P1区域，黑色部分表示P2区域。

不同于Wedgelet分割，Contour分割的基本原理是利用当前待编码深度单元对应的已编码纹理块的信息进行Contour分割的预测。选择纹理块的准则是其与当前待编码深度块在同一视点、同一时刻、同一位置处。如图2所示，Contour分割的具体过程为，将对应的已编码纹理块内的所有样点值相加取平均，将得到的均值T作为块分割的门限。依次遍历待编码深度块中的各个样点，根据遍历到的样点值与门限T的大小关系，选择将该样点分割到P1分区或者P2分区。

DMM模式被作为一个可选模式来编码深度图像。在编解码初始化时，依照PU的大小生成了所有的wedgelet分割模板和wedgelet节点存储在缓存中，其中，每一个wedgelet节点储存一个粗搜索wedgelet分割模板索引，和8个与粗搜索wedgelet分割模板相邻的分割模板的索引。DMM1模式的基本原理是在所有的wedgelet分割模式中找到最佳的wedgelet分割模板，这是个相当耗时的穷搜索过程。

如图3所示，DMM1模式需要经历两个阶段搜索找到最佳的分割模板，第一个是粗搜索阶段，DMM1模式依次遍历wedgelet节点列表中粗搜索wedgelet分割模板索引，每一个wedgelet分割模板索引对应一个wedgelet分割模板，找到率失真最小的wedgelet分割模板所对应的wedgelet节点。第二是精细化搜索阶段，依次遍历粗搜索阶段得到的最佳wedgelet节点所对应的8个用于精细化搜索的wedgelet分割模板，找到率失真最小的wedgelet分割模板。如表1所示，在粗搜索阶段，wedgelet分割模式列表的大小最大可达到368，这将大大增加深度图编码复杂度。尽管深度图像不是用来直接观看的，但是它对虚拟视角合成具有很大的影响。所以，有必要采用特殊的方法减少DMM1模式的复杂度。

表1

发明内容

针对现有技术的以上缺陷或改进需求，本发明提供了一种降低立体视频深度图编码复杂度的方法，由此解决目前的立体视频深度图编码过程中存在的计算复杂度较高的技术问题。

为实现上述目的，本发明提供了一种降低立体视频深度图编码复杂度的方法，包括：

(1)从输入的深度图像中读取出需要编码的预测单元PU；

(2)用K均值的方法将预测单元PU的像素聚为两类，生成K均值聚类模板；

(3)依次遍历wedgelet模板列表中的所有wedgelet模板，计算每一个wedgelet模板与K均值聚类模板的相似匹配度，记录最大相似匹配度和最大相似匹配度对应的wedgelet模板；

(4)根据得到的最大相似匹配度来确定寻找最佳wedgelet模板过程的搜索半径，计算搜索半径内所有wedgelet模板的率失真，找到率失真最小的wedgelet模板为最佳wedgelet模板；

(5)将包含最佳wedgelet模板信息的DMM1模式加入候选模式列表。

优选地，在步骤(2)中生成的K均值聚类模板上每一个位置的值是PU对应位置上像素的类标。

优选地，在步骤(3)中，相似匹配度的计算方式为：

相似匹配度MS＝S/Size×100％，其中，S表示K均值聚类模板与wedgelet分割模板在相同位置上相同像素的总数，Size表示预测单元PU块像素的大小。

优选地，步骤(4)具体包括：

(4.1)若最大相似匹配度MMS等于预设值，则将最大相似匹配度对应的wedgelet模板选为最佳wedgelet模板；

(4.2)若最大相似匹配度小于预设值，则根据最大相似匹配度MMS来确定搜索半径r；

(4.3)依次遍历wedgelet模板列表中的每一个wedgelet模板与K均值聚类模板的相似匹配度MS，计算出所有满足|MMS-MS|≤r的wedgelet模板的率失真，将率失真最小时对应的wedgelet模板作为最佳wedgelet模板。

优选地，搜索半径r的确定方式为：

总体而言，通过本发明所构思的以上技术方案与现有技术相比，能够取得下列有益效果：本发明通过改进DMM1模式搜索最佳wedgelet模板的方式，摒弃了需要在编解码端提前储存楔形节点的搜索方式，加快了DMM1模式搜索最佳wedgelet分割模板的速度，节省了系统缓存，降低了DMM1模式的计算复杂度，能够在保证编码质量的同时平均节省了7.1％的总编码时间。

附图说明

图1是3D-HEVC深度图中DMM模式的Wedgelet和Contour分割方式；

图2是DMM4模式的预测原理；

图3是DMM1搜索最佳wedgelet分割模板原理流程图；

图4是大小8×8的深度图PU块和它所对应的K均值聚类模板；

图5是本发明实施例公开的一种降低立体视频深度图编码复杂度的方法的流程示意图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。此外，下面所描述的本发明各个实施方式中所涉及到的技术特征只要彼此之间未构成冲突就可以相互组合。

本发明利用K均值将当前PU块像素分为两类，生成K均值聚类模板，然后利用生成的K均值聚类模板去匹配wedgelet模板列表中的模板，找到最佳的wedgelet分割模板，以完成具体编码深度图的尖锐边缘块的工作，有效地降低了深度图DMM1模式的计算复杂度。

本发明针对3D视频深度图的PU设计一种降低立体视频深度图编码复杂度的方法，在实际使用中，编码器将调用本发明中的方法来完成具体编码深度图的尖锐边缘块的工作。首先，根据编码器的配置文件读入视频序列，通过配置文件中的参数信息配置编码器，如图5所示是本发明实施例公开的一种降低立体视频深度图编码复杂度的方法流程示意图，在图5所示的方法中包括以下步骤：

(1)从输入的深度图像中读取出需要编码的预测单元PU；

其中，搜索半径可通过平衡编码质量和编码速度来设置。

(5)将包含最佳wedgelet模板信息的DMM1模式加入候选模式列表。

在一个可选的实施方式中，在步骤(2)中生成的K均值聚类模板上每一个位置的值是PU对应位置上像素的类标。如图4所示，左图是大小8×8的深度图PU块，右边是它所对应的K均值聚类模板。K均值最大迭代次数设置为3，聚类中心为2。

在一个可选的实施方式中，在步骤(3)中，匹配相似度的计算方式为：

相似匹配度MS＝S/Size×100％，其中，S表示K均值聚类模板与wedgelet分割模板在相同位置上相同像素的总数，Size表示当前PU块像素的大小。

在一个可选的实施方式中，步骤(4)具体包括：

在一个可选的实施方式中，搜索半径的确定方式为：

为了检验本发明所提出方法的性能，将本发明的方法与3D-HEVC中wedgelet分割模板搜索方法进行比较。实验平台为最新的HTM-16.2，测试序列如表2所示，每个序列共编码3个视点，包含1个独立视点(中间视点)和2个相关视点(左和右视点)。采用(25,34)，(30,39)，(35,42)和(40,45)4种量化参数(QP)组合，每个测试序列编码100帧。实验条件和实验参数均按照JVT-3V公布的通用测试条件进行，本实验采用全帧内编码模型配置。所有实验均在配置为Intel i5 6400@2.7GHz CPU，8GB RAM，Microsoft Windows 7 64位操作系统的PC上独立执行。

表2

表3为本发明方法与3D-HEVC中采用的方法的编码性能比较结果。从表中可以看出，本发明的方法与3D-HEVC中wedgelet分割模板搜索方法相比，本发明平均减少了0.03％的BD-Rate，稍微提升了一些编码质量，并且本发明平均节省了7.1％的总编码时间。

表3

本领域的技术人员容易理解，以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等，均应包含在本发明的保护范围之内。

Claims

1.一种降低立体视频深度图编码复杂度的方法，其特征在于，包括：

(1)从输入的深度图像中读取出需要编码的预测单元PU；

(5)将包含最佳wedgelet模板信息的DMM1模式加入候选模式。

2.根据权利要求1所述的方法，其特征在于，在步骤(2)中生成的K均值聚类模板上每一个位置的值是PU对应位置上像素的类标。

3.根据权利要求1或2所述的方法，其特征在于，在步骤(3)中，相似匹配度的计算方式为：

4.根据权利要求3所述的方法，其特征在于，步骤(4)具体包括：

5.根据权利要求4所述的方法，其特征在于，搜索半径r的确定方式为：