CN113068031B

CN113068031B - 一种基于深度学习的环路滤波方法

Info

Publication number: CN113068031B
Application number: CN202110269502.4A
Authority: CN
Inventors: 常仁杰; 彭勃; 潘兆庆; 靳登朝; 雷建军
Original assignee: Tianjin University
Current assignee: Tianjin University
Priority date: 2021-03-12
Filing date: 2021-03-12
Publication date: 2021-12-07
Anticipated expiration: 2041-03-12
Also published as: CN113068031A

Abstract

本发明公开了一种基于深度学习的环路滤波方法，所述方法包括：构建智能环路滤波网络，所述网络的输入为一帧失真帧和一帧视点间参考帧，输出为一帧增强帧和一帧生成的划分图；通过一个非局部模块和一层反卷积层获得充分融合后的特征信息，并通过另一层普通卷积层和两个残差卷积块注意力模块单元对此融合特征进行处理，获得输入失真帧的精细化特征；通过设计一个划分损失函数，基于划分约束的重建模块更加关注编码帧的块边界，有效地消除压缩伪影。本发明面向多视点视频编码，利用深度学习的特征表达能力，通过充分学习视点间相关性和约束块划分区域，进而提高多视点视频编码的性能。

Description

一种基于深度学习的环路滤波方法

技术领域

本发明涉及深度学习、视频编码领域，尤其涉及一种基于深度学习的环路滤波方法。

背景技术

多视点视频是具有沉浸式交互功能的典型的3D视频表示形式，目前已被广泛应用于自由立体显示、6DoF系统等。然而，多个视点的引入增加了视频的数据量，给视频的存储和传输带来了巨大挑战。因此，视频编码联合工作组(JCT-VC)为多视点视频编码开发了3D-HEVC(3D高效视频编码)标准。3D-HEVC采用了基于块的混合编码框架，常出现块边界像素不连续以及丢失高频信息的情况，产生压缩伪影。为了解决伪影问题，3D-HEVC采用了环路滤波算法，包括去方块滤波和样点自适应补偿。然而，视频编码中产生的伪影是复杂的非线性问题，传统的环路滤波仍然难以有效地解决这一问题。

近年来，深度学习在图像和视频分析任务中展示出了强大的性能。同时，已有工作关注基于卷积神经网络的环路滤波方法。例如，Dai等人提出了一种可变滤波器大小的卷积神经网络算法，以替代HEVC(高效视频编码)中传统的环路滤波，从而减少压缩失真。Ding等人提出了一种压缩激励滤波的卷积神经网络算法，该算法作为一种可选的滤波器，通过捕获不同通道间的非线性相互作用，有效提升了视频编码性能。然而，现有工作集中于提升HEVC的环路滤波的性能，目前少有工作关注于面向多视点视频编码的深度环路滤波方法。

发明内容

本发明提供了一种基于深度学习的环路滤波方法，本发明面向多视点视频编码，利用深度学习的特征表达能力，通过充分学习视点间相关性和约束块划分区域，进而提高多视点视频编码的性能，详见下文描述：

一种基于深度学习的环路滤波方法，所述方法包括：

构建智能环路滤波网络，所述网络的输入为一帧失真帧和一帧视点间参考帧，输出为一帧增强帧和一帧生成的划分图；

通过一个非局部模块和一层反卷积层获得充分融合后的特征信息，并通过另一层普通卷积层和两个残差卷积块注意力模块单元对此融合特征进行处理，获得输入失真帧的精细化特征；

通过设计一个划分损失函数，基于划分约束的重建模块更加关注编码帧的块边界，有效地消除压缩伪影。

其中，所述融合后的特征信息的计算公式如下：

其中，Φ_m(·)表示非局部模块的卷积操作，DeConv(·)表示反卷积操作，F_C和F_R均表示空域特征表达。

进一步地，所述输入失真帧的精细化特征为：

其中，Φ_r(·)表示一层普通卷积层和两个Res+CBAM单元的卷积操作。

其中，所述生成的划分图是依据当前输入失真帧在编码过程中的块划分特性获得的。

进一步地，所述划分损失函数为：

此外，在网络训练中，整帧的质量也被增强的输出结果和对应的原始图像之间的均方误差来约束，计算公式为：

整体网络的损失函数公式为：

L＝L_rec+λ*L_partition

其中，λ表示整个损失函数之间的平衡参数，

表示生成的划分图，y_partition表示原始图像的划分图，

表示网络输出增强帧，y表示原始图像。

其中，所述方法还包括：引入帧级标志位和编码树单元级标志位。

进一步地，

所述帧级标志位设置为true，表示整个帧的所有CTU均由智能环路滤波方法处理，并且帧级标志位将被送入到比特流中；否则，

当帧级标志位设置为false时，每个CTU都会采用一个CTU级标志位进行率失真优化，以实现所提方法的局部应用。

本发明提供的技术方案的有益效果是：

1、本发明利用视点间学习和块划分约束，结合卷积神经网络模型强大的特征学习能力更有效地增强视频质量；

2、本发明提供了一种基于深度学习的环路滤波方法，与3D高效视频编码标准3D-HEVC相比，该方法能有效节省码率，提升编码性能。

附图说明

图1为一种基于深度学习的环路滤波方法的流程图；

图2为智能环路滤波网络的结构示意图；

图3为智能环路滤波网络的输入输出示意图；

图4为编码单元和变换单元的划分矩阵图；

图5为集成至编码平台的工作流程图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚，下面对本发明实施方式作进一步地详细描述。

本发明实施例提供了一种基于深度学习的环路滤波方法，参见图1，该方法包括以下步骤：

一、构建智能环路滤波网络输入输出

智能环路滤波网络的结构示意图参见图2。该网络的输入为一帧失真帧和一帧视点间参考帧，输出为一帧增强帧和一帧生成的划分图，参见图3。

具体来说，输入的失真帧是非基础视点编码帧，视点间参考帧是来自同一时刻上的基础视点已编码帧；而输出的增强帧是输入失真帧的增强结果，生成的划分图是输入失真帧所对应的增强的块划分区域。

例如：以视点1、2、3三个视点为例，多视点视频编码中，可选取中间视点2作为基础视点，并对其采用未修正的HEVC编码技术进行压缩，而对1和3两个非基础视点采用3D-HEVC编码技术进行压缩。

其中，生成的划分图是基于当前输入失真帧在编码过程中的块划分特性(本领域技术人员所公知)所获取的。

二、视点间特征融合模块设计

该模块的输入为一帧失真帧和一帧视点间参考帧，其中，失真帧来自于非基础视点，视点间参考帧来自于基础视点。通过探索视点间参考帧的辅助信息，失真帧的特征可以得到有效增强。

首先，通过空间特征提取器分别从网络的两流(即输入为一帧失真帧和一帧视点间参考帧)输入中提取对应的空域特征表达F_C和F_R，其中，空间特征提取器是一个13层的U-Net结构(本领域技术人员所公知，本发明实施例对此不做赘述)。

为了减少网络计算复杂度，基于所提取的空域特征表达F_C和F_R，两层公知的普通卷积层被分别应用以获得对应的下采样特征。然后，为了较好地捕获输入两帧之间的交互关系和像素相关性，一个非局部模块和一层普通的反卷积层被用于获得充分融合后的特征信息

计算公式如下：

其中，Φ_m(·)表示非局部模块的卷积操作，DeConv(·)表示反卷积操作。最后，

与所提取的原始局部特征F_C级联，并通过一层普通卷积层和两个Res+CBAM(残差卷积块注意力模块)单元进行融合，从而获得输入失真帧的精细化特征

计算公式定义如下：

三、基于划分约束的重建模块设计

考虑到视频编码中块划分的特性，通过设计一个划分损失函数，基于划分约束的重建模块更加关注编码帧的块边界，从而有效消除压缩伪影。

首先，利用CU(编码单元)和TU(变换单元)的划分情况来表示当前帧的块划分信息。然后，为了便于将块划分信息结合进网络模块中，编码单元划分矩阵图P_CU和变换单元划分矩阵图P_TU。

参见图4，被生成用于分别表示编码帧的CU划分信息和TU划分信息。其中，P_CU和P_TU均是由“0”和“1”组成的二维矩阵，“1”代表块边界像素所在的位置，“0”代表非块边界像素的位置。紧接着，P_CU和P_TU被用于生成表示块划分信息的掩膜m，生成公式如下：

m＝P_CU+P_TU

其中，m表示编码帧的整体划分信息。此外，帧的划分图也将由对应的图像和m相乘以获得。

基于视点间特征融合模块所增强的特征

通过使用一个Res+CBAM单元和一层卷积来学习增强的输出结果

与此同时，相同的结构也被用于生成对应的划分图

为了消除块效应，生成的划分图

和原始图像的划分图y_partition之间应保持这块边界上的像素一致性。其中，原始划分图y_partition是由原始图y和m相乘所生成的。因此，所设计的划分损失函数定义如下：

此外，在网络训练中，整帧的质量也被增强的输出结果

和对应的原始图像y之间的均方误差来约束，计算公式为：

本发明实施为了优化提出的智能环路滤波网络，结合对网络输出的增强结果和划分图的约束，最终所使用的整体网络的损失函数公式为：

L＝L_rec+λ*L_partition

其中，λ表示连个损失函数之间的平衡参数，并设置为0.02。

四、集成至编码平台

基于上述设计的模块训练智能环路滤波网络，并将训练好的网络模型整合到3D-HEVC的参考软件HTM16.2中，在该编码平台中的工作流程参见图3。在非基础视点帧经过去方块滤波和样点自适应补偿处理之后，所提出的面向多视点视频编码的智能环路滤波方法被应用去提高编码效率。为了尽可能实现多视点视频编码的最佳性能，引入了帧级标志位和CTU(编码树单元)级标志位。

具体而言，当在整帧上所提出的方法的性能优于传统滤波器的性能时，帧级标志位设置为true，以表示整个帧的所有CTU均由所提出的智能环路滤波方法处理，并且帧级标志位将被送入到比特流中。否则，当帧级标志位设置为false时，每个CTU都会采用一个CTU级标志位进行RDO(率失真优化)，以实现所提出方法的局部应用。同样，采用的帧级标志位和CTU级标志位也将编入到比特流中。

此外，为了满足不同码率的需求，分别训练了4个不同QP(量化参数)的模型。考虑到不同码率下的视频失真情况不同，高码率下的模型首先被训练，然后微调至低码率下形成对应的模型，从而更好地处理不同类型失真的视频。最终，相比于采用传统的环路滤波算法的3D-HEVC，本发明所设计的方案可实现4.47％的比特率节省。

本发明实施例对各器件的型号除做特殊说明的以外，其他器件的型号不做限制，只要能完成上述功能的器件均可。

本领域技术人员可以理解附图只是一个优选实施例的示意图，上述本发明实施例序号仅仅为了描述，不代表实施例的优劣。

以上所述仅为本发明的较佳实施例，并不用以限制本发明，凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。