CN113068031B - 一种基于深度学习的环路滤波方法 - Google Patents

一种基于深度学习的环路滤波方法 Download PDF

Info

Publication number
CN113068031B
CN113068031B CN202110269502.4A CN202110269502A CN113068031B CN 113068031 B CN113068031 B CN 113068031B CN 202110269502 A CN202110269502 A CN 202110269502A CN 113068031 B CN113068031 B CN 113068031B
Authority
CN
China
Prior art keywords
frame
division
input
network
partition
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202110269502.4A
Other languages
English (en)
Other versions
CN113068031A (zh
Inventor
常仁杰
彭勃
潘兆庆
靳登朝
雷建军
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tianjin University
Original Assignee
Tianjin University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tianjin University filed Critical Tianjin University
Priority to CN202110269502.4A priority Critical patent/CN113068031B/zh
Publication of CN113068031A publication Critical patent/CN113068031A/zh
Application granted granted Critical
Publication of CN113068031B publication Critical patent/CN113068031B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/102Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the element, parameter or selection affected or controlled by the adaptive coding
    • H04N19/117Filters, e.g. for pre-processing or post-processing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/42Methods or arrangements for coding, decoding, compressing or decompressing digital video signals characterised by implementation details or hardware specially adapted for video compression or decompression, e.g. dedicated software implementation

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Health & Medical Sciences (AREA)
  • Computing Systems (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Molecular Biology (AREA)
  • Artificial Intelligence (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Compression Or Coding Systems Of Tv Signals (AREA)

Abstract

本发明公开了一种基于深度学习的环路滤波方法,所述方法包括:构建智能环路滤波网络,所述网络的输入为一帧失真帧和一帧视点间参考帧,输出为一帧增强帧和一帧生成的划分图;通过一个非局部模块和一层反卷积层获得充分融合后的特征信息,并通过另一层普通卷积层和两个残差卷积块注意力模块单元对此融合特征进行处理,获得输入失真帧的精细化特征;通过设计一个划分损失函数,基于划分约束的重建模块更加关注编码帧的块边界,有效地消除压缩伪影。本发明面向多视点视频编码,利用深度学习的特征表达能力,通过充分学习视点间相关性和约束块划分区域,进而提高多视点视频编码的性能。

Description

一种基于深度学习的环路滤波方法
技术领域
本发明涉及深度学习、视频编码领域,尤其涉及一种基于深度学习的环路滤波方法。
背景技术
多视点视频是具有沉浸式交互功能的典型的3D视频表示形式,目前已被广泛应用于自由立体显示、6DoF系统等。然而,多个视点的引入增加了视频的数据量,给视频的存储和传输带来了巨大挑战。因此,视频编码联合工作组(JCT-VC)为多视点视频编码开发了3D-HEVC(3D高效视频编码)标准。3D-HEVC采用了基于块的混合编码框架,常出现块边界像素不连续以及丢失高频信息的情况,产生压缩伪影。为了解决伪影问题,3D-HEVC采用了环路滤波算法,包括去方块滤波和样点自适应补偿。然而,视频编码中产生的伪影是复杂的非线性问题,传统的环路滤波仍然难以有效地解决这一问题。
近年来,深度学习在图像和视频分析任务中展示出了强大的性能。同时,已有工作关注基于卷积神经网络的环路滤波方法。例如,Dai等人提出了一种可变滤波器大小的卷积神经网络算法,以替代HEVC(高效视频编码)中传统的环路滤波,从而减少压缩失真。Ding等人提出了一种压缩激励滤波的卷积神经网络算法,该算法作为一种可选的滤波器,通过捕获不同通道间的非线性相互作用,有效提升了视频编码性能。然而,现有工作集中于提升HEVC的环路滤波的性能,目前少有工作关注于面向多视点视频编码的深度环路滤波方法。
发明内容
本发明提供了一种基于深度学习的环路滤波方法,本发明面向多视点视频编码,利用深度学习的特征表达能力,通过充分学习视点间相关性和约束块划分区域,进而提高多视点视频编码的性能,详见下文描述:
一种基于深度学习的环路滤波方法,所述方法包括:
构建智能环路滤波网络,所述网络的输入为一帧失真帧和一帧视点间参考帧,输出为一帧增强帧和一帧生成的划分图;
通过一个非局部模块和一层反卷积层获得充分融合后的特征信息,并通过另一层普通卷积层和两个残差卷积块注意力模块单元对此融合特征进行处理,获得输入失真帧的精细化特征;
通过设计一个划分损失函数,基于划分约束的重建模块更加关注编码帧的块边界,有效地消除压缩伪影。
其中,所述融合后的特征信息的计算公式如下:
Figure BDA0002973660550000021
其中,Φm(·)表示非局部模块的卷积操作,DeConv(·)表示反卷积操作,FC和FR均表示空域特征表达。
进一步地,所述输入失真帧的精细化特征为:
Figure BDA0002973660550000022
其中,Φr(·)表示一层普通卷积层和两个Res+CBAM单元的卷积操作。
其中,所述生成的划分图是依据当前输入失真帧在编码过程中的块划分特性获得的。
进一步地,所述划分损失函数为:
Figure BDA0002973660550000023
此外,在网络训练中,整帧的质量也被增强的输出结果和对应的原始图像之间的均方误差来约束,计算公式为:
Figure BDA0002973660550000024
整体网络的损失函数公式为:
L=Lrec+λ*Lpartition
其中,λ表示整个损失函数之间的平衡参数,
Figure BDA0002973660550000025
表示生成的划分图,ypartition表示原始图像的划分图,
Figure BDA0002973660550000026
表示网络输出增强帧,y表示原始图像。
其中,所述方法还包括:引入帧级标志位和编码树单元级标志位。
进一步地,
所述帧级标志位设置为true,表示整个帧的所有CTU均由智能环路滤波方法处理,并且帧级标志位将被送入到比特流中;否则,
当帧级标志位设置为false时,每个CTU都会采用一个CTU级标志位进行率失真优化,以实现所提方法的局部应用。
本发明提供的技术方案的有益效果是:
1、本发明利用视点间学习和块划分约束,结合卷积神经网络模型强大的特征学习能力更有效地增强视频质量;
2、本发明提供了一种基于深度学习的环路滤波方法,与3D高效视频编码标准3D-HEVC相比,该方法能有效节省码率,提升编码性能。
附图说明
图1为一种基于深度学习的环路滤波方法的流程图;
图2为智能环路滤波网络的结构示意图;
图3为智能环路滤波网络的输入输出示意图;
图4为编码单元和变换单元的划分矩阵图;
图5为集成至编码平台的工作流程图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚,下面对本发明实施方式作进一步地详细描述。
本发明实施例提供了一种基于深度学习的环路滤波方法,参见图1,该方法包括以下步骤:
一、构建智能环路滤波网络输入输出
智能环路滤波网络的结构示意图参见图2。该网络的输入为一帧失真帧和一帧视点间参考帧,输出为一帧增强帧和一帧生成的划分图,参见图3。
具体来说,输入的失真帧是非基础视点编码帧,视点间参考帧是来自同一时刻上的基础视点已编码帧;而输出的增强帧是输入失真帧的增强结果,生成的划分图是输入失真帧所对应的增强的块划分区域。
例如:以视点1、2、3三个视点为例,多视点视频编码中,可选取中间视点2作为基础视点,并对其采用未修正的HEVC编码技术进行压缩,而对1和3两个非基础视点采用3D-HEVC编码技术进行压缩。
其中,生成的划分图是基于当前输入失真帧在编码过程中的块划分特性(本领域技术人员所公知)所获取的。
二、视点间特征融合模块设计
该模块的输入为一帧失真帧和一帧视点间参考帧,其中,失真帧来自于非基础视点,视点间参考帧来自于基础视点。通过探索视点间参考帧的辅助信息,失真帧的特征可以得到有效增强。
首先,通过空间特征提取器分别从网络的两流(即输入为一帧失真帧和一帧视点间参考帧)输入中提取对应的空域特征表达FC和FR,其中,空间特征提取器是一个13层的U-Net结构(本领域技术人员所公知,本发明实施例对此不做赘述)。
为了减少网络计算复杂度,基于所提取的空域特征表达FC和FR,两层公知的普通卷积层被分别应用以获得对应的下采样特征。然后,为了较好地捕获输入两帧之间的交互关系和像素相关性,一个非局部模块和一层普通的反卷积层被用于获得充分融合后的特征信息
Figure BDA0002973660550000041
计算公式如下:
Figure BDA0002973660550000042
其中,Φm(·)表示非局部模块的卷积操作,DeConv(·)表示反卷积操作。最后,
Figure BDA0002973660550000043
与所提取的原始局部特征FC级联,并通过一层普通卷积层和两个Res+CBAM(残差卷积块注意力模块)单元进行融合,从而获得输入失真帧的精细化特征
Figure BDA0002973660550000044
计算公式定义如下:
Figure BDA0002973660550000045
其中,Φr(·)表示一层普通卷积层和两个Res+CBAM单元的卷积操作。
三、基于划分约束的重建模块设计
考虑到视频编码中块划分的特性,通过设计一个划分损失函数,基于划分约束的重建模块更加关注编码帧的块边界,从而有效消除压缩伪影。
首先,利用CU(编码单元)和TU(变换单元)的划分情况来表示当前帧的块划分信息。然后,为了便于将块划分信息结合进网络模块中,编码单元划分矩阵图PCU和变换单元划分矩阵图PTU
参见图4,被生成用于分别表示编码帧的CU划分信息和TU划分信息。其中,PCU和PTU均是由“0”和“1”组成的二维矩阵,“1”代表块边界像素所在的位置,“0”代表非块边界像素的位置。紧接着,PCU和PTU被用于生成表示块划分信息的掩膜m,生成公式如下:
m=PCU+PTU
其中,m表示编码帧的整体划分信息。此外,帧的划分图也将由对应的图像和m相乘以获得。
基于视点间特征融合模块所增强的特征
Figure BDA0002973660550000051
通过使用一个Res+CBAM单元和一层卷积来学习增强的输出结果
Figure BDA0002973660550000052
与此同时,相同的结构也被用于生成对应的划分图
Figure BDA0002973660550000053
为了消除块效应,生成的划分图
Figure BDA0002973660550000054
和原始图像的划分图ypartition之间应保持这块边界上的像素一致性。其中,原始划分图ypartition是由原始图y和m相乘所生成的。因此,所设计的划分损失函数定义如下:
Figure BDA0002973660550000055
此外,在网络训练中,整帧的质量也被增强的输出结果
Figure BDA0002973660550000056
和对应的原始图像y之间的均方误差来约束,计算公式为:
Figure BDA0002973660550000057
本发明实施为了优化提出的智能环路滤波网络,结合对网络输出的增强结果和划分图的约束,最终所使用的整体网络的损失函数公式为:
L=Lrec+λ*Lpartition
其中,λ表示连个损失函数之间的平衡参数,并设置为0.02。
四、集成至编码平台
基于上述设计的模块训练智能环路滤波网络,并将训练好的网络模型整合到3D-HEVC的参考软件HTM16.2中,在该编码平台中的工作流程参见图3。在非基础视点帧经过去方块滤波和样点自适应补偿处理之后,所提出的面向多视点视频编码的智能环路滤波方法被应用去提高编码效率。为了尽可能实现多视点视频编码的最佳性能,引入了帧级标志位和CTU(编码树单元)级标志位。
具体而言,当在整帧上所提出的方法的性能优于传统滤波器的性能时,帧级标志位设置为true,以表示整个帧的所有CTU均由所提出的智能环路滤波方法处理,并且帧级标志位将被送入到比特流中。否则,当帧级标志位设置为false时,每个CTU都会采用一个CTU级标志位进行RDO(率失真优化),以实现所提出方法的局部应用。同样,采用的帧级标志位和CTU级标志位也将编入到比特流中。
此外,为了满足不同码率的需求,分别训练了4个不同QP(量化参数)的模型。考虑到不同码率下的视频失真情况不同,高码率下的模型首先被训练,然后微调至低码率下形成对应的模型,从而更好地处理不同类型失真的视频。最终,相比于采用传统的环路滤波算法的3D-HEVC,本发明所设计的方案可实现4.47%的比特率节省。
本发明实施例对各器件的型号除做特殊说明的以外,其他器件的型号不做限制,只要能完成上述功能的器件均可。
本领域技术人员可以理解附图只是一个优选实施例的示意图,上述本发明实施例序号仅仅为了描述,不代表实施例的优劣。
以上所述仅为本发明的较佳实施例,并不用以限制本发明,凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (6)

1.一种基于深度学习的环路滤波方法,其特征在于,所述方法包括:
构建智能环路滤波网络,所述网络的输入为一帧失真帧和一帧视点间参考帧,输出为一帧增强帧和一帧生成的划分图;
其中,输入的失真帧是非基础视点编码帧,视点间参考帧是来自同一时刻上的基础视点已编码帧;输出的增强帧是输入失真帧的增强结果,生成的划分图是输入失真帧所对应的增强的块划分区域;
通过一个非局部模块和一层反卷积层获得充分融合后的特征信息,并通过另一层普通卷积层和两个残差卷积块注意力模块单元对融合特征进行处理,获得输入失真帧的精细化特征;基于精细化特征通过使用一个Res+CBAM单元和一层卷积来学习输出的增强帧;
其中,所述融合后的特征信息的计算公式如下:
Figure FDA0003292984020000011
其中,Φm(·)表示非局部模块的卷积操作,DeConv(·)表示反卷积操作,FC和FR分别表示所提取的输入失真帧和视点间参考帧的空域特征表达;通过设计一个划分损失函数,基于划分约束的重建模块更加关注编码帧的块边界,有效地消除压缩伪影;
所述划分损失函数为:
Figure FDA0003292984020000012
其中,
Figure FDA0003292984020000013
表示生成的划分图,ypartition表示输入失真帧的划分图,在网络训练中,整帧的质量也被增强的输出结果和对应的输入失真帧之间的均方误差来约束,计算公式为:
Figure FDA0003292984020000014
其中,
Figure FDA0003292984020000015
表示网络输出增强帧,y表示输入失真帧。
2.根据权利要求1所述的一种基于深度学习的环路滤波方法,其特征在于,所述输入失真帧的精细化特征为:
Figure FDA0003292984020000016
其中,Φr(·)表示一层普通卷积层和两个Res+CBAM单元的卷积操作。
3.根据权利要求1所述的一种基于深度学习的环路滤波方法,其特征在于,所述生成的划分图是依据当前输入失真帧在编码过程中的块划分特性获得的。
4.根据权利要求1所述的一种基于深度学习的环路滤波方法,其特征在于,
整体网络的损失函数公式为:
L=Lrec+λ*Lpartition
其中,λ表示整个损失函数之间的平衡参数。
5.根据权利要求1所述的一种基于深度学习的环路滤波方法,其特征在于,所述方法还包括:引入帧级标志位和编码树单元级标志位。
6.根据权利要求5所述的一种基于深度学习的环路滤波方法,其特征在于,
所述帧级标志位设置为true,表示整个帧的所有CTU均由智能环路滤波方法处理,并且帧级标志位将被送入到比特流中;否则,
当帧级标志位设置为false时,每个CTU都会采用一个CTU级标志位进行率失真优化,以实现所提出方法的局部应用。
CN202110269502.4A 2021-03-12 2021-03-12 一种基于深度学习的环路滤波方法 Active CN113068031B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110269502.4A CN113068031B (zh) 2021-03-12 2021-03-12 一种基于深度学习的环路滤波方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110269502.4A CN113068031B (zh) 2021-03-12 2021-03-12 一种基于深度学习的环路滤波方法

Publications (2)

Publication Number Publication Date
CN113068031A CN113068031A (zh) 2021-07-02
CN113068031B true CN113068031B (zh) 2021-12-07

Family

ID=76560174

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110269502.4A Active CN113068031B (zh) 2021-03-12 2021-03-12 一种基于深度学习的环路滤波方法

Country Status (1)

Country Link
CN (1) CN113068031B (zh)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114501012B (zh) * 2021-12-31 2024-06-11 浙江大华技术股份有限公司 图像滤波、编解码方法以及相关设备
WO2024077740A1 (en) * 2022-10-13 2024-04-18 Guangdong Oppo Mobile Telecommunications Corp., Ltd. Convolutional neural network for in-loop filter of video encoder based on depth-wise separable convolution

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108134932A (zh) * 2018-01-11 2018-06-08 上海交通大学 基于卷积神经网络的视频编解码环路内滤波实现方法及系统
CN111194555A (zh) * 2017-08-28 2020-05-22 交互数字Vc控股公司 用模式感知深度学习进行滤波的方法和装置
CN112019854A (zh) * 2019-05-28 2020-12-01 北京大学 基于深度学习神经网络的环路滤波方法

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112218097A (zh) * 2019-07-12 2021-01-12 富士通株式会社 环路滤波装置和图像解码装置

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111194555A (zh) * 2017-08-28 2020-05-22 交互数字Vc控股公司 用模式感知深度学习进行滤波的方法和装置
CN108134932A (zh) * 2018-01-11 2018-06-08 上海交通大学 基于卷积神经网络的视频编解码环路内滤波实现方法及系统
CN112019854A (zh) * 2019-05-28 2020-12-01 北京大学 基于深度学习神经网络的环路滤波方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
Efficient In-Loop Filtering Based on Enhanced Deep Convolutional Neural Networks for HEVC;Zhaoqing Pan等;《IEEE TRANSACTIONS ON IMAGE PROCESSING》;20201231;第29卷;5352-5366 *

Also Published As

Publication number Publication date
CN113068031A (zh) 2021-07-02

Similar Documents

Publication Publication Date Title
CN112203093B (zh) 一种基于深度神经网络的信号处理方法
CN111028150B (zh) 一种快速时空残差注意力视频超分辨率重建方法
Pan et al. TSAN: Synthesized view quality enhancement via two-stream attention network for 3D-HEVC
CN113068031B (zh) 一种基于深度学习的环路滤波方法
CN109842799B (zh) 颜色分量的帧内预测方法、装置及计算机设备
CN108921910B (zh) 基于可伸缩卷积神经网络的jpeg编码压缩图像复原的方法
CN103765474B (zh) 深度编码
CN110351568A (zh) 一种基于深度卷积网络的视频环路滤波器
CN114079779B (zh) 图像处理方法、智能终端及存储介质
CN111464814B (zh) 一种基于视差引导融合的虚拟参考帧生成方法
CN114339262B (zh) 熵编/解码方法及装置
Perra et al. JPEG 2000 compression of unfocused light field images based on lenslet array slicing
Yuan et al. Coding distortion elimination of virtual view synthesis for 3D video system: Theoretical analyses and implementation
CN111819856A (zh) 用于视频编码的环路滤波装置及方法
CN115358929B (zh) 压缩图像超分方法、图像压缩方法及系统
CN114125446A (zh) 图像编码方法、解码方法和装置
CN112929629B (zh) 一种智能虚拟参考帧生成方法
CN116489333A (zh) 一种面向深度图编码单元划分的边缘分类模型构建方法
CN112001854A (zh) 一种编码图像的修复方法及相关系统和装置
Wenge et al. Asymmetric stereoscopic video encoding algorithm based on joint compensation prediction
CN116634287A (zh) 一种聚焦式全光图像压缩的方法
CN105141967A (zh) 基于恰可觉察失真模型的快速自适应环路滤波算法
CN112819707B (zh) 一种端到端抗块效应低照度图像增强方法
CN115131254A (zh) 一种基于双域学习的恒定码率压缩视频质量增强方法
Yang et al. Graph-convolution network for image compression

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant