CN111669601A

CN111669601A - 一种3d视频智能多域联合预测编码方法及装置

Info

Publication number: CN111669601A
Application number: CN202010434088.3A
Authority: CN
Inventors: 雷建军; 石雅南; 侯春萍; 张宗千; 彭勃
Original assignee: Tianjin University
Current assignee: Tianjin University
Priority date: 2020-05-21
Filing date: 2020-05-21
Publication date: 2020-09-15
Anticipated expiration: 2040-05-21
Also published as: CN111669601B

Abstract

本发明公开了一种3D视频智能多域联合预测编码方法及装置，包括：1)获取多域参考信息：将当前编码块的左侧、上方以及左上方在步长范围内的重构像素区域作为空域参考信息；将相邻帧时域相关性的帧间预测块作为时域参考信息；将通过视点合成预测技术获得的视点合成预测块作为视点间参考信息；2)构建时空预测网络，以时空域参考信息为输入，获得时空域预测结果；3)根据时空域预测结果和视点合成预测块构建多域联合预测网络，获得最终的多域预测结果。装置包括：存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现所述的方法步骤。

Description

一种3D视频智能多域联合预测编码方法及装置

技术领域

本发明涉及3D视频编码领域，尤其涉及一种3D视频智能多域联合预测编码方法及装置。

背景技术

随着3D技术的发展，3D视频编码成为多媒体领域的一大研究热点。3D视频相比于2D视频，具有更多的数据量，给视频的存储和传输带来了巨大挑战。因此，如何实现高效的3D视频压缩编码具有重要的理论研究意义和实际应用价值。

HEVC(High Efficiency Video Coding，高效视频编码)作为新一代视频编码标准，有效提升了压缩效率。作为HEVC的3D扩展，3D-HEVC采用基于MVD(Multiview Videoplus Depth，多视点加深度)视频格式的编码架构，在HEVC已有技术基础上，新增了用于多视点视频和深度视频编码的技术。3D-HEVC编码标准在对3D视频序列进行压缩编码时，是基于块进行的。对于当前待编码块，帧内预测利用了视频序列的空间相关性，帧间预测利用了视频序列的时间相关性，视点间预测利用了视频序列的视点间相关性。如何融合利用视频序列的空域相关性、时域相关性、视点域相关性，对当前待编码块进行预测编码，成为提高预测准确度的关键。

近年来，随着人工智能的发展，尤其是深度学习技术在3D技术领域的发展，为视频压缩编码提供了新的思路。Huo针对平面彩色视频，利用当前编码块的空域相邻已编码像素信息，提出了一种基于CNN的运动补偿增强(CNNMCR)方法。Wang针对HEVC的帧间预测只利用视频的时域信息导致预测准确度受限的问题，提出了一种结合时空信息并利用神经网络得到更准确帧间预测的方法。受此启发，利用深度网络学习3D视频的多域相关性，更大程度去除冗余信息，从而实现3D视频的高效压缩编码，具有重要的研究意义和研究价值。

深度学习用于视频编码领域经证实已取得了一定的效果，然而这些算法限于平面视频领域，在3D视频编码方面，基于深度学习的方法还不是很多；特别是对于3D视频的时域、空域、视点域相关性，目前并未有方法将多域信息融合进行预测编码，3D视频的多域相关性没有得到充分利用。

发明内容

本发明提供了一种3D视频智能多域联合预测编码方法及装置，本发明综合分析挖掘3D视频的时域、空域和视点域相关性，提出用CNN融合多域参考信息，并提出一种分级多域预测机制来解决多域参考信息融合的问题；此外，在分级预测机制中，构建了一种有效的多域联合预测网络，且在网络中设计了一个多尺度编码单元用以提取特征，用CNN解决3D视频的多域联合预测问题，详见下文描述：

一种3D视频智能多域联合预测编码方法，所述方法包括以下步骤：

1)获取多域参考信息：

将当前编码块的左侧、上方以及左上方在步长范围内的重构像素区域作为空域参考信息；将相邻帧时域相关性的帧间预测块作为时域参考信息；将通过视点合成预测技术获得的视点合成预测块作为视点间参考信息；

2)构建时空预测网络，以时空域参考信息为输入，获得时空域预测结果；

3)根据时空域预测结果和视点合成预测块构建多域联合预测网络，获得最终的多域预测结果。

其中，所述以时空域参考信息为输入具体为：

从码流中提取当前编码块空域相邻已编码像素区域作为空域参考信息，将帧间预测块和空域相邻已编码像素区域拼接为一个完整的方形块，作为时空预测网络的输入。

进一步地，所述多域联合预测网络包括：多参考特征融合模块，多尺度编码模块和重建模块。

其中，所述多参考特征融合模块用于实现时空域预测块和视点合成预测块从图像空间的级联到特性空间的融合。

具体实现时，所述多尺度编码模块用于利用不同尺度的特征信息，提取有效特征，包括：多尺度编码单元，

所述多尺度编码单元由一个inception模块和一个通道注意力模块组成。

进一步地，所述inception模块用于提取具有多个卷积层数量的多个分支的多尺度特征；所述通道注意力模块用于学习由inception模块获得的特征图的通道权重。

其中，所述重建模块用于获得特征空间中的残差信号，将残差信号与多域基础预测块进行逐元素相加以获得最终的多域预测结果；

其中，所述多域基础预测块为：对视点合成预测块和时空预测块进行逐像素相加取平均。

进一步地，所述多域联合预测网络的数学模型为：

P_md＝f_md(P_ts,P_v|θ_md)+f_ave(P_ts,P_v)

其中，f_md()是一个非线性映射函数，f_ave()表示多域基础预测，θ_md表示网络参数，P_ts表示时空预测块，P_v表示视点合成预测块；

损失函数为：

其中，n为训练样本数量，T表示当前编码块原始像素值。

所述方法还包括，当标志位为1时，对编码块进行编码。

一种3D视频智能多域联合预测编码装置，所述装置包括：存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现上述所述的方法步骤。

本发明提供的技术方案的有益效果是：

1、本发明首次提出解决3D视频编码的多域联合预测问题，并提出了基于CNN的解决方案；

2、本发明提出了一种分级多域预测机制以解决多域参考信息融合难度大的问题，其中包括时空预测网络和多域联合预测网络；

3、本发明提出了一种有效的多域联合预测网络，并且在网络中专门设计了一个多尺度编码单元以有效地提取特征；

4、本发明与3D视频标准编码平台HTM16.2相比，可以实现码率节省，有效提高了编码效率。

附图说明

图1为一种3D视频智能多域联合预测编码方法的流程图；

图2为分级多域预测框架的示意图；

图3给出了本发明中空域参考信息表示的示意图；

图4给出了时空预测网络输入的示意图；

图5为一组可视化结果的示意图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚，下面对本发明实施方式作进一步地详细描述。

实施例1

本发明实施例提出了一种3D视频智能多域联合预测编码方法，参见图1，该方法通过构建合适的多域联合预测网络，以多域参考信息作为输入，输出得到当前编码块的多域预测结果，具体实现步骤如下：

一、获取多域参考信息

3D视频序列帧内，帧间，视点间具有丰富的多域相关性。对于当前编码块，与帧内相邻已编码像素区域具有空域相关性，与帧间已编码参考帧中的同位块具有时域相关性，与相邻视点已编码参考帧中的同位块具有视点域相关性。下面具体解释本发明中多域参考信息的表示以及如何获取。

由于编码顺序的设置，在对当前块进行编码时，当前块的左侧和上方的像素区域已经编码完成，因此采用一固定步长，将当前编码块的左侧、上方以及左上方在步长范围内的重构像素区域作为空域参考信息。本发明中采用的步长为8。同时，3D视频的时域参考信息主要反映在利用了相邻帧时域相关性的帧间预测块，而视点合成预测块作为视点间参考信息的来源。

值得注意的是，在获取空域参考信息时，由于当前块位于整帧图像的左侧以及上方边缘位置时，其左侧、上方以及左上方的重构像素是不存在的，所以对这些编码块不采用本发明提出的方法，仍沿用HTM编码平台中传统技术进行预测编码。

二、分级多域预测机制构建

基于3D视频内容丰富的多域相关性，本发明提出同时考虑多域相关性，综合利用3D视频内容的多域参考信息，获得一个更准确的预测结果。同时，考虑到视频编码标准的传统预测技术使用固定规则来获取当前编码块的预测，可能不适用于那些内容复杂多变的编码块，因此本发明提出采用深度学习技术，借助卷积神经网络强大的学习能力，融合多域参考信息。

考虑到直接构建和训练一个网络来融合多域参考信息比较困难，因此设计了一种分级多域预测机制。参见图2和图3，首先，构建时空预测网络，以时空域参考信息为输入，获得时空域预测结果(参见下述第三部分描述)；然后，根据获得的时空域预测结果和视点合成预测技术获得的视点合成预测块构建多域联合预测网络(参见下述第四部分描述)，获得最终的多域预测结果。

三、构建时空预测网络、获取时空域预测结果

首先，通过3D-HEVC中帧间预测技术获得帧间预测块；其次，从码流中提取当前编码块空域相邻已编码像素区域作为空域参考信息；然后，参见图4，将帧间预测块和空域相邻已编码像素区域拼接为一个完整的更大的方形块，作为时空预测网络的输入。

考虑到编码平台对计算复杂度的要求，搭建的卷积神经网络不能太深，这里借鉴在编码领域具有良好性能的VRCNN(Variable-filter-size Residue-learning CNN，可变滤波器大小的CNN)网络，将其作为时空预测网络。

其中，时空预测网络的数学模型为：

P_ts＝P_t+f_ts(P_t,R|θ_ts)

其中，P_ts表示时空域预测块，P_t表示编码平台得到的帧间预测块，R表示当前编码块的空域相邻重建像素区域，f_ts()是一个非线性映射函数，θ_ts代表网络的参数。

网络的损失函数为：

其中，T表示当前编码块原始像素值，n表示训练样本数量。

四、获取视点合成预测结果

借助编码标准中成熟的视点合成预测技术，从码流中提取当前编码块的视点合成预测块，作为多域联合预测网络的输入之一。

其中，上述合成预测结果的步骤为视频编码领域中的公知技术，本发明实施例对此不做赘述。

五、构建多域联合预测网络、获取多域预测结果

参见图2，在时空预测网络的基础上，基于得到的时空域预测块与视点合成预测块，构建多域联合预测网络，获得最终的多域预测块。考虑到视点合成预测块和时空预测块都是对当前编码块的预测，对于获得最终的多域预测结果均有重要作用，所以首先基于视点合成预测块和时空预测块得到一个多域基础预测块，然后，构建一个多域联合预测网络用于获得基于输入和原始信号之前的残差信号。

其中，本发明通过对视点合成预测块和时空预测块进行逐像素相加取平均操作得到多域基础预测块。

多域联合预测网络包括三个模块，分别为多参考特征融合模块，多尺度编码模块和重建模块。多参考特征融合模块目的是实现时空域预测块和视点合成预测块从图像空间的级联到特性空间的融合。多尺度编码模块是为了能够利用不同尺度的特征信息，从而更有针对性地提取有效特征，为此，在该模块专门设计了多尺度编码单元以充分提取特征。一个多尺度编码单元是由一个inception模块(inception网络是计算机视觉领域中的经典网络之一，该inception模块为本领域技术人员所公知)和一个通道注意力模块组成的。inception模块旨在提取具有多个卷积层数量的多个分支的多尺度特征，通道注意力模块是为了学习由inception模块获得的特征图的通道权重，使得特征提取更有针对性。重建模块是为了获得特征空间中的残差信号。最后将残差信号与多域基础预测块进行逐元素相加以获得最终的多域预测结果。网络的数学模型为：

P_md＝f_md(P_ts,P_v|θ_md)+f_ave(P_ts,P_v)

其中，f_md()是一个非线性映射函数，f_ave()表示多域基础预测，θ_md表示网络参数，P_ts表示时空预测块，P_v表示视点合成预测块。

损失函数为：

基于以上的损失函数，网络结构以及获得的数据，利用深度学习框架caffe进行网络模型的训练，并将训好的网络模型集成到编码标准平台中。

六、率失真代价比较、选择最优模式。

本发明提出的方法集成到编码标准平台中，对于每一个当前的预测单元(PU)，用一个标志位来标识当前PU是否选用本发明提出的方法。若该标志位为1，表示本发明提出的方法编码效率高于编码标准平台中的方法，直接用本发明提出的方法对编码块进行编码；若该标志位为0，表示本发明提出的方法编码效率低于编码标准平台中的方法，仍选用编码标准平台中的方法对编码块进行编码。在编码端，利用率失真代价将本发明所提出的方法和3D-HEVC现有技术进行比较，选择代价更小的预测模式。

实施例2

下面结合图1-图5对实施例1中的方案进行可行性验证，详见下文描述：

图1给出了本发明的技术流程图，主要包括获取多域参考信息，分级多域预测机制构建，构建时空预测网络、获取时空域预测结果，获取视点合成预测块，构建多域联合预测网络、获得多域预测结果和率失真代价比较、选择最优模式六个部分。

图2给出了本发明提出的分级预测框架，由图可知，该方法包含时空预测网络和多域联合预测网络，时空预测网络以时空域参考信息为输入，输出得到时空域预测块；时空域预测块和视点合成预测块一同输入到多域联合预测网络，输出得到多域预测结果。

图3给出了本发明中空域参考信息的表示，对于当前编码帧，当前编码块的左侧，上方，以及左上方的像素区域已经编码完成，并且这些区域的像素值和当前编码块的像素值具有空域相关性，所以空域参考信息可以从这些已编码区域的重建像素值中获取。本发明采用一固定步长对当前编码块向左，向上，以及向左上方得到一“折形”区域，该区域作为当前编码块的空域参考信息。

图4给出了时空预测网络的输入，由图可见，将当前编码块的帧间预测块和空域参考信息进行拼接，得到一个更大的矩形块，作为时空预测网络的输入。

图5给出了本发明提出算法的一组可视化结果，左边为标准编码平台得到的预测结果，右边为本发明提出算法的预测结果，可以看到本发明提出方法的预测结果相较于标准编码平台得到的预测结果，在物体的边缘区域有更小的块效应，且细节部分相对更清晰。此外，对预测结果的像素值和对应的真实信号像素值进行了量化计算，得到了PSNR结果，本发明提出方法的预测结果的PSNR值高于标准编码平台得到的预测结果的PSNR值。综上所述，本发明提出方法的预测结果的可视化质量优于标准编码平台的预测结果。

实施例3

一种3D视频智能多域联合预测编码装置，该装置包括：存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，处理器执行程序时实现实施例1中所述的方法步骤。

本发明实施例对各器件的型号除做特殊说明的以外，其他器件的型号不做限制，只要能完成上述功能的器件均可。

本领域技术人员可以理解附图只是一个优选实施例的示意图，上述本发明实施例序号仅仅为了描述，不代表实施例的优劣。

以上所述仅为本发明的较佳实施例，并不用以限制本发明，凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种3D视频智能多域联合预测编码方法，其特征在于，所述方法包括以下步骤：

1)获取多域参考信息：

2.根据权利要求1所述的一种3D视频智能多域联合预测编码方法，其特征在于，所述以时空域参考信息为输入具体为：

3.根据权利要求1所述的一种3D视频智能多域联合预测编码方法，其特征在于，所述多域联合预测网络包括：多参考特征融合模块，多尺度编码模块和重建模块。

4.根据权利要求3所述的一种3D视频智能多域联合预测编码方法，其特征在于，所述多参考特征融合模块用于实现时空域预测块和视点合成预测块从图像空间的级联到特性空间的融合。

5.根据权利要求3所述的一种3D视频智能多域联合预测编码方法，其特征在于，所述多尺度编码模块用于利用不同尺度的特征信息，提取有效特征，包括：多尺度编码单元，

6.根据权利要求5所述的一种3D视频智能多域联合预测编码方法，其特征在于，

所述inception模块用于提取具有多个卷积层数量的多个分支的多尺度特征；

所述通道注意力模块用于学习由inception模块获得的特征图的通道权重。

7.根据权利要求5所述的一种3D视频智能多域联合预测编码方法，其特征在于，

所述重建模块用于获得特征空间中的残差信号，将残差信号与多域基础预测块进行逐元素相加以获得最终的多域预测结果；

8.根据权利要求7所述的一种3D视频智能多域联合预测编码方法，其特征在于，所述多域联合预测网络的数学模型为：

P_md＝f_md(P_ts,P_v|θ_md)+f_ave(P_ts,P_v)

损失函数为：

其中，n为训练样本数量，T表示当前编码块原始像素值。

9.根据权利要求1-8中任一权利要求所述的一种3D视频智能多域联合预测编码方法，其特征在于，当标志位为1时，对编码块进行编码。

10.一种3D视频智能多域联合预测编码装置，所述装置包括：存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其特征在于，所述处理器执行所述程序时实现权利要求1所述的方法步骤。