CN111866521B - 一种视频图像压缩伪影去除方法 - Google Patents

一种视频图像压缩伪影去除方法 Download PDF

Info

Publication number
CN111866521B
CN111866521B CN202010657003.8A CN202010657003A CN111866521B CN 111866521 B CN111866521 B CN 111866521B CN 202010657003 A CN202010657003 A CN 202010657003A CN 111866521 B CN111866521 B CN 111866521B
Authority
CN
China
Prior art keywords
network
image
layer
convolution
conv
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202010657003.8A
Other languages
English (en)
Other versions
CN111866521A (zh
Inventor
陈卫刚
盛浩杰
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Zhejiang Gongshang University
Original Assignee
Zhejiang Gongshang University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Zhejiang Gongshang University filed Critical Zhejiang Gongshang University
Priority to CN202010657003.8A priority Critical patent/CN111866521B/zh
Publication of CN111866521A publication Critical patent/CN111866521A/zh
Application granted granted Critical
Publication of CN111866521B publication Critical patent/CN111866521B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/80Details of filtering operations specially adapted for video compression, e.g. for pixel interpolation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/50Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using predictive coding
    • H04N19/503Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using predictive coding involving temporal prediction
    • H04N19/51Motion estimation or motion compensation
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/50Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using predictive coding
    • H04N19/503Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using predictive coding involving temporal prediction
    • H04N19/51Motion estimation or motion compensation
    • H04N19/573Motion compensation with multiple frame prediction using two or more reference frames in a given prediction direction
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/50Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using predictive coding
    • H04N19/503Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using predictive coding involving temporal prediction
    • H04N19/51Motion estimation or motion compensation
    • H04N19/577Motion compensation with bidirectional frame interpolation, i.e. using B-pictures

Landscapes

  • Engineering & Computer Science (AREA)
  • Signal Processing (AREA)
  • Multimedia (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • General Health & Medical Sciences (AREA)
  • General Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Biomedical Technology (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Biophysics (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Artificial Intelligence (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Compression Or Coding Systems Of Tv Signals (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开了一种运动补偿和生成式对抗网络结合的视频图像压缩伪影去除方法,基于运动补偿,以与当前解码帧间隔最小的帧内编码帧为参考图像,采用图像块扫描的形式处理当前解码帧从而形成一幅运动补偿图像;以经预先训练的生成式对抗网络中的生成网络产生一幅预测图像,将当前解码帧图像、运动补偿图像和预测图像堆叠成一个三阶张量作为后续用于图像融合的深度卷积神经网络的输入,由深度卷积神经网络映射产生比当前解码图像具有更好视觉质量的输出图像,即去除压缩伪影后的图像。

Description

一种视频图像压缩伪影去除方法
技术领域
本发明涉及计算机视觉领域,尤其涉及一种运动补偿和生成式对抗网络结合的视频图像压缩伪影去除方法。
背景技术
有损图像或视频压缩中的量化运算是一个多对一的映射过程,在低码率编码时,解码端还原的图像与未经压缩的原始图像存在较大的差异。这种由于量化和反量化操作所引入的重建数据和原始数据之间的误差即为量化噪声,在解码图像或视频中将表现为块状、环状等伪影。
在解码端采用后处理算法抑制量化噪声、提升解码图像或视频的视觉质量,因其实施方便、成本低廉受到业界的广泛关注。随着深度学习在基于图像的超分辨率分析、去噪等各个领域取得极大的成功,启发了人们将其应用于图像压缩伪影去除。Jae Woong Soh等人在期刊IEEE Access发表的论文“Reduction of Video Compression Artifacts Basedon Deep Temporal Networks”提出了一种包含三个分支的时域网络,实验表明相比于通常的伪影抑制网络,该网络能获得0.23dB的PSNR增益;Zhenyu Guan等人在期刊IEEETransactions on Pattern Analysis and Machine Intelligence发表的论文“MFQE 2.0:A New Approach for Multi-frame Quality Enhancement on Compressed Video”提出利用相邻的质量较好的帧来辅助质量较差的帧提升视觉质量,并且提出了一种基于双向长短时记忆网络的无参考图像视觉质量评估方法。
本发明提供一种运动补偿和生成式对抗网络结合的视频图像压缩伪影去除方法,基于运动补偿,以与当前帧间隔最小的帧内编码帧为参考图像,采用块匹配运动估计算法形成一幅运动补偿图像;以经预先训练的生成式对抗网络中的生成网络产生一幅预测图像,将上述两幅预测图像和当前解码图像堆叠成一个张量作为后续用于图像融合的深度卷积神经网络的输入,由该网络映射产生比当前解码图像具有更好视觉质量的输出。
发明内容
本发明目的在于针对现有技术的不足,提出一种运动补偿和生成式对抗网络结合的视频图像压缩伪影去除方法。
本发明的目的是通过以下技术方案来实现的:一种运动补偿和生成式对抗网络结合的视频图像压缩伪影去除方法,包括如下步骤:
(1)设I为HEVC编码视频的当前解码帧,I(0)和I(1)分别为位于当前解码帧之前和之后的帧内编码帧,以间隔帧数为依据,在I(0)和I(1)两个帧内编码帧中选择离当前解码帧相对较近的作为参考帧,记作I(r),设B为I帧中一个大小为N×N的图像块,以差值绝对值之和SAD为目标函数,搜索具有最小目标函数值的匹配位置,记作(u0,v0),在I(r)图像中取左上角坐标为(m+u0,n+v0)、大小为N×N的图像块作为B在I(r)中的最佳匹配块B(r)
Figure GDA0003510010260000021
其中m和n分别为图像块的左上角点在图像中的水平和垂直坐标,(u,v)代表一个搜索位置,且-R≤u,v≤R,R代表预设的搜索范围;
(2)以图像块扫描的形式处理当前解码帧,将I帧中每一个N×N的块B在参考帧I(r)中的最佳匹配块B(r)拷贝到
Figure GDA0003510010260000022
中与B相同的位置,构建对应参考图像I(r)且大小等于当前解码帧的运动补偿图像
Figure GDA0003510010260000023
(3)将I输入到一个经预先训练的生成式对抗网络GAN,所述生成式对抗网络GAN包括一个生成网络G和一个判别网络D,由生成网络G输出对应I的预测图像
Figure GDA0003510010260000024
(4)I,
Figure GDA0003510010260000025
Figure GDA0003510010260000026
分别被当作一个二维矩阵,依次排列这些矩阵形成一个三阶张量输入到融合模块,经过融合模块的计算,输出对当前解码帧去除压缩伪影后的图像;所述融合模块为深度卷积神经网络,深度卷积神经网络的输入模块包含1个卷积层,该卷积层的卷积核大小与融合模块的深度卷积神经网络的输入相匹配;除了输入模块之外的其它部分,融合模块的深度卷积神经网络具有与步骤(3)所述的生成式对抗网络中的生成网络一致的结构。
进一步地,所述生成网络G的输入模块包括一个卷积层,待处理图像与该卷积层3×3×1大小的卷积核进行步长为1的卷积运算后,输出大小与输入图像相等的特征图z0
所述生成网络G的残差模块接在输入模块之后,由Nb个依次相连的残差块组成,其中Nb为一个预设的常数,除第一残差块之外的任意第k个残差块,1<k≤Nb,以第k-1个残差块的输出zk-1为输入,经过第k个残差块内的各个层次将zk-1映射为F(zk-1),最后以F(zk-1)+zk-1作为第k个残差块的输出;每个残差块包含两个卷积层和一个PReLU层,按数据前向传播时的流向,其顺序依次为卷积层Conv_01、PReLu层和卷积层Conv_02;Conv_01层具有两倍于Conv_02层的卷积核数目,Conv_01的卷积核数目为48,Conv_02的卷积核数目为24;Conv_01层的卷积核大小为3×3×C1,Conv_02层的卷积核大小为3×3×C2,其中C1的值等于Conv_02的卷积核数目,C2的值等于Conv_01的卷积核数目,Conv_01层和Conv_02层的卷积步长均为1;
所述生成网络G的重建模块包括三个卷积层,其中的卷积层Conv_B01以最后一个残差块的输出
Figure GDA0003510010260000031
为输入,另一个卷积层Conv_B02以输入模块的输出z0为输入,Conv_B01和Conv_B02层输出的两个特征图以每个位置对应元素相加的形式加以融合形成一个新的特征图,输入到卷积层Conv_B03,经卷积运算后输出预测图像
Figure GDA0003510010260000032
Conv_B01和Conv_B02层各包含16Cout个卷积核,其中Cout为输出图像的通道数;卷积层Conv_B01的卷积核大小为3×3×C3,卷积层Conv_B02的卷积核大小为3×3×C4,其中C3和C4分别为输入到对应卷积层的特征图的通道数目;卷积层Conv_B03包含Cout个大小为3×3×16Cout的卷积核;卷积层Conv_B01、Conv_B02、Conv_B03的卷积步长均为1;
所述判别网络D的输入层为一个包含32个3×3×1大小卷积核的卷积层,该卷积层之后依次连接了四个结构相同的层次,每个层次中依次为卷积层、批量正则化层和LeakyReLu层,从第一个层次到第四个层次中的卷积层分别包含32、64、128和256个大小为3×3×Cp的卷积核,第一个层次Cp=32,后续的各个层次,其Cp的值等于前一个层次的卷积核的数目,各个层次的卷积步长均为2;在上述四个层次之后,连接了两个全连接层和一个LeakyReLu层,按数据前向传播时的流向,依次为一个包含512个神经元的全连接层,LeakyReLu层和一个包含1个神经元的全连接层,最后由Sigmoid函数给出输入到判别网络的图像是否为未引入压缩伪影的图像的判断。
进一步地,步骤(3)中,所述生成式对抗网络GAN的各个层次的参数以学习的方式确定,包括:
步骤3A、准备用于训练的图像:设Y为未经压缩编码的视频中的一帧,I为HEVC压缩视频解码后与Y对应的帧,用于训练生成网络的样本形如(xi,yi),xi∈RH×W,yi∈RH×W分别为来自I和Y的图像块,且左上角点坐标相同,大小为H×W;用于训练判别网络的样本形如(xi,ci),xi∈RH×W来自未经压缩编码的图像Y或者生成网络生成的图像,若xi来自Y,则标签ci=1,否则ci=0;
步骤3B、预训练生成网络G:批量加载步骤3A所述用于训练生成网络的样本,对每一个样本(xi,yi)按下式计算损失函数:
Figure GDA0003510010260000033
其中Gθ(x)是输入xi经生成网络映射后的输出,θ代表生成网络的参数集合;以最小化所有样本的损失函数累加和为目标,以Adam优化算法更新生成网络各层的参数;
步骤3C、训练判别网络D:根据步骤3A,由来自未经压缩编码的图像形成标签ci=1的样本,由来自生成网络产生的图像形成标签ci=0的样本,批量加载训练样本(xi,ci),固定生成网络的参数,以最大化如下的函数为目标,更新判别网络各层的参数:
Figure GDA0003510010260000041
其中xi~pdata代表从符合未经压缩编码图像分布的样本空间中采样的样本,E(.)代表数学期望,z~pGen代表从符合生成网络的输入样本分布的样本空间中采样的样本;步骤3C重复执行4次;
步骤3D、训练生成网络:批量加载步骤3A所述用于训练生成网络的样本,固定判别网络的参数,以最小化如下的函数为目标,更新生成网络各层的参数:
Figure GDA0003510010260000042
步骤3E、判断是否达到预定的迭代次数或者生成式对抗网络达到收敛,若是则结束训练,否则返回步骤3C。
进一步地,步骤(4)中,所述作为融合模块的深度卷积神经网络的各个层次的参数以学习的方式确定,包括:
步骤4A、准备用于训练的图像:设Y为未经压缩编码的视频中的一帧,I为HEVC压缩视频解码后与Y对应的帧,根据步骤(1)和步骤(2)构建运动补偿图像
Figure GDA0003510010260000043
根据步骤(3)构建生成网络的预测图像
Figure GDA0003510010260000044
步骤4B、准备训练样本:设(x'i,y'i)为训练样本集的一个样本,若y'i∈RH×W为来自未压缩图像Y的图像块,且左上角点坐标为(m,n),大小为H×W,则x'i∈RH×W×3是一个由3个图像块组成的三阶张量,所述三个图像块分别来自于步骤4A中所述的HEVC压缩视频解码后与Y对应的帧I、运动补偿图像
Figure GDA0003510010260000045
和由生成网络生成的预测图像
Figure GDA0003510010260000046
每个图像块的大小均为H×W,左上角点位于各自对应图像的(m,n)位置;
步骤4C、训练:批量加载训练样本集中的样本,对每个训练样本(x'i,y'i)按下式计算损失函数:
Figure GDA0003510010260000047
其中
Figure GDA0003510010260000048
是输入xi'经所述作为融合模块的深度卷积神经网络映射后的输出;以最小化训练集中所有样本的损失函数累加和为目标,以Adam优化算法更新深度卷积神经网络各层的权值。
进一步地,深度卷积神经网络的输入模块的卷积层具有Ni个大小为3×3×3的卷积核,其中Ni为一个预设的常数,卷积步长为1。
进一步地,所述当前解码帧为前向预测编码帧或双向预测编码帧。
本发明的有益效果在于,以运动补偿和生成式对抗网络预测的图像,通常包含比当前解码帧更多的高频分量,能有效地解决量化过程引入的高频分量丢失问题,从而有利于后续的融合模块产生具有更好视觉质量的输出。
附图说明
图1本发明的运动补偿和生成式对抗网络结合的视频图像压缩伪影去除方法框架示意图。
具体实施方式
下面结合附图和具体实施例对本发明做进一步阐述,以便本领域技术人员更好地理解本发明的实质。
如图1所示,本发明提供的一种运动补偿和生成式对抗网络结合的视频图像压缩伪影去除方法,可运行于解码端处理亮度或色度分量。本发明实施例提供的方法以运动补偿为基础,即假设以视频摄像机采集的连续图像,某一帧中的任意一个小块,可在其相邻帧中找到相似的图像块;进一步地,压缩视频中的连续帧,其图像质量往往存在较大的的波动,对于质量较差的帧中的图像块,若以位于质量较好的相邻帧中的块为参考,则有利于提供恢复后的图像的质量。
本发明提供的一种运动补偿和生成式对抗网络结合的视频图像压缩伪影去除方法,包括如下步骤:
(1)设I为HEVC编码视频的当前解码帧,I(0)和I(1)分别为位于当前解码帧之前和之后的帧内编码帧,以间隔帧数为依据,在I(0)和I(1)两个帧内编码帧中选择离当前解码帧相对较近的作为参考帧,记作I(r),设B为I帧中一个大小为N×N的图像块,以差值绝对值之和SAD为目标函数,搜索具有最小目标函数值的匹配位置,记作(u0,v0),在I(r)图像中取左上角坐标为(m+u0,n+v0)、大小为N×N的图像块作为B在I(r)中的最佳匹配块B(r)
Figure GDA0003510010260000051
其中m和n分别为图像块的左上角点在图像中的水平和垂直坐标,(u,v)代表一个搜索位置,且-R≤u,v≤R,R代表预设的搜索范围;
(2)以图像块扫描的形式处理当前解码帧,将I帧中每一个N×N的块B在参考帧I(r)中的最佳匹配块B(r)拷贝到
Figure GDA0003510010260000052
中与B相同的位置,构建对应参考图像I(r)且大小等于当前解码帧的运动补偿图像
Figure GDA0003510010260000061
(3)将I输入到一个经预先训练的生成式对抗网络GAN,所述生成式对抗网络GAN包括一个生成网络G和一个判别网络D;
所述生成式对抗网络GAN的各个层次的参数以学习的方式确定,包括:
步骤3A、准备用于训练的图像:设Y为未经压缩编码的视频中的一帧,I为HEVC压缩视频解码后与Y对应的帧,用于训练生成网络的样本形如(xi,yi),xi∈RH×W,yi∈RH×W分别为来自I和Y的图像块,且左上角点坐标相同,大小为H×W;用于训练判别网络的样本形如(xi,ci),xi∈RH×W来自未经压缩编码的图像Y或者生成网络生成的图像,若xi来自Y,则标签ci=1,否则ci=0;
步骤3B、预训练生成网络G:批量加载步骤3A所述用于训练生成网络的样本,对每一个样本(xi,yi)按下式计算损失函数:
Figure GDA0003510010260000062
其中Gθ(x)是输入xi经生成网络映射后的输出,θ代表生成网络的参数集合;以最小化所有样本的损失函数累加和为目标,以Adam优化算法更新生成网络各层的参数;
步骤3C、训练判别网络D:根据步骤3A,由来自未经压缩编码的图像形成标签ci=1的样本,由来自生成网络产生的图像形成标签ci=0的样本,批量加载训练样本(xi,ci),固定生成网络的参数,以最大化如下的函数为目标,更新判别网络各层的参数:
Figure GDA0003510010260000063
其中xi~pdata代表从符合未经压缩编码图像分布的样本空间中采样的样本,E(.)代表数学期望,z~pGen代表从符合生成网络的输入样本分布的样本空间中采样的样本;步骤3C重复执行4次
步骤3D、训练生成网络:批量加载步骤3A所述用于训练生成网络的样本,固定判别网络的参数,以最小化如下的函数为目标,更新生成网络各层的参数:
Figure GDA0003510010260000064
步骤3E、判断是否达到预定的迭代次数或者生成式对抗网络达到收敛,若是则结束训练,否则返回步骤3C。
所述生成网络G的输入模块包括一个卷积层,待处理图像与该卷积层3×3×1大小的卷积核进行步长为1的卷积运算后,输出大小与输入图像相等的特征图z0
所述生成网络G的残差模块接在输入模块之后,由Nb个依次相连的残差块组成,其中Nb为一个预设的常数,除第一残差块之外的任意第k个残差块,1<k≤Nb,以第k-1个残差块的输出zk-1为输入,经过第k个残差块内的各个层次将zk-1映射为F(zk-1),最后以F(zk-1)+zk-1作为第k个残差块的输出;每个残差块包含两个卷积层和一个PReLU层,按数据前向传播时的流向,其顺序依次为卷积层Conv_01、PReLu层和卷积层Conv_02;Conv_01层具有两倍于Conv_02层的卷积核数目,Conv_01的卷积核数目为48,Conv_02的卷积核数目为24;Conv_01层的卷积核大小为3×3×C1,Conv_02层的卷积核大小为3×3×C2,其中C1的值等于Conv_02的卷积核数目,C2的值等于Conv_01的卷积核数目,Conv_01层和Conv_02层的卷积步长均为1;
所述生成网络G的重建模块包括三个卷积层,其中的卷积层Conv_B01以最后一个残差块的输出
Figure GDA0003510010260000071
为输入,另一个卷积层Conv_B02以输入模块的输出z0为输入,Conv_B01和Conv_B02层输出的两个特征图以每个位置对应元素相加的形式加以融合形成一个新的特征图,输入到卷积层Conv_B03,经卷积运算后输出预测图像
Figure GDA0003510010260000072
Conv_B01和Conv_B02层各包含16Cout个卷积核,其中Cout为输出图像的通道数;卷积层Conv_B01的卷积核大小为3×3×C3,卷积层Conv_B02的卷积核大小为3×3×C4,其中C3和C4分别为输入到对应卷积层的特征图的通道数目;卷积层Conv_B03包含Cout个大小为3×3×16Cout的卷积核;卷积层Conv_B01、Conv_B02、Conv_B03的卷积步长均为1;
所述判别网络D的输入层为一个包含32个3×3×1大小卷积核的卷积层,该卷积层之后依次连接了四个结构相同的层次,每个层次中依次为卷积层、批量正则化层和LeakyReLu层,从第一个层次到第四个层次中的卷积层分别包含32、64、128和256个大小为3×3×Cp的卷积核,第一个层次Cp=32,后续的各个层次,其Cp的值等于前一个层次的卷积核的数目,各个层次的卷积步长均为2;在上述四个层次之后,连接了两个全连接层和一个LeakyReLu层,按数据前向传播时的流向,依次为一个包含512个神经元的全连接层,LeakyReLu层和一个包含1个神经元的全连接层,最后由Sigmoid函数给出输入到判别网络的图像是否为未引入压缩伪影的图像的判断。
(4)I,
Figure GDA0003510010260000073
Figure GDA0003510010260000074
分别被当作一个二维矩阵,依次排列这些矩阵形成一个三阶张量输入到融合模块,经过融合模块的计算,输出对当前解码帧去除压缩伪影后的图像;所述融合模块为深度卷积神经网络,深度卷积神经网络的输入模块包含1个卷积层,该卷积层的卷积核大小与融合模块的深度卷积神经网络的输入相匹配,具有Ni个大小为3×3×3的卷积核,其中Ni为一个预设的常数,卷积步长为1;除了输入模块之外的其它部分,融合模块的深度卷积神经网络具有与步骤(3)所述的生成式对抗网络中的生成网络一致的结构。
所述作为融合模块的深度卷积神经网络的各个层次的参数以学习的方式确定,包括:
步骤4A、准备用于训练的图像:设Y为未经压缩编码的视频中的一帧,I为HEVC压缩视频解码后与Y对应的帧,I为前向预测编码帧或双向预测编码帧。根据步骤(1)和步骤(2)构建运动补偿图像
Figure GDA0003510010260000081
根据步骤(3)构建生成网络的预测图像
Figure GDA0003510010260000082
步骤4B、准备训练样本:设(x'i,y'i)为训练样本集的一个样本,若y'i∈RH×W为来自未压缩图像Y的图像块,且左上角点坐标为(m,n),大小为H×W,则x'i∈RH×W×3是一个由3个图像块组成的三阶张量,所述三个图像块分别来自于步骤4A中所述的HEVC压缩视频解码后与Y对应的帧I、运动补偿图像
Figure GDA0003510010260000083
和由生成式对抗网络生成的预测图像
Figure GDA0003510010260000084
每个图像块的大小均为H×W,左上角点位于各自对应图像的(m,n)位置;
步骤4C、训练:批量加载训练样本集中的样本,对每个训练样本(x'i,y'i)按下式计算损失函数:
Figure GDA0003510010260000085
其中
Figure GDA0003510010260000086
是输入xi'经所述作为融合模块的深度卷积神经网络映射后的输出;以最小化训练集中所有样本的损失函数累加和为目标,以Adam优化算法更新深度卷积神经网络各层的权值。
以本发明实施例提供的方法对不同QP值的HEVC编码视频进行压缩伪影去除处理,以未经压缩编码的视频图像为参考图像,计算压缩编码后的图像以及经去除压缩伪影操作后的图像与参考图像之间的峰值信噪比PSNR值和结构相似性SSIM值,以ΔPSNR和ΔSSIM的形式显示了经本发明提供的方法处理后的性能提升,结果如下表所示。
表1本发明实施例的实验结果
Figure GDA0003510010260000087
Figure GDA0003510010260000091
以上所述仅为本发明的较佳实施例,但本发明的保护范围并不局限于此,凡在本发明的精神和原则之内,所做的任何修改或替换等,都应涵盖在本发明的保护范围内。

Claims (6)

1.一种运动补偿和生成式对抗网络结合的视频图像压缩伪影去除方法,其特征在于,包括如下步骤:
(1)设I为HEVC编码视频的当前解码帧,I(0)和I(1)分别为位于当前解码帧之前和之后的帧内编码帧,以间隔帧数为依据,在I(0)和I(1)两个帧内编码帧中选择离当前解码帧相对较近的作为参考帧,记作I(r),设B为I帧中一个大小为N×N的图像块,以差值绝对值之和SAD为目标函数,搜索具有最小目标函数值的匹配位置,记作(u0,v0),在I(r)图像中取左上角坐标为(m+u0,n+v0)、大小为N×N的图像块作为B在I(r)中的最佳匹配块B(r)
Figure FDA0003510010250000011
其中m和n分别为图像块的左上角点在图像中的水平和垂直坐标,(u,v)代表一个搜索位置,且-R≤u,v≤R,R代表预设的搜索范围;
(2)以图像块扫描的形式处理当前解码帧,将I帧中每一个N×N的块B在参考帧I(r)中的最佳匹配块B(r)拷贝到
Figure FDA0003510010250000016
中与B相同的位置,构建对应参考图像I(r)且大小等于当前解码帧的运动补偿图像
Figure FDA0003510010250000012
(3)将I输入到一个经预先训练的生成式对抗网络GAN,所述生成式对抗网络GAN包括一个生成网络G和一个判别网络D,由生成网络G输出对应I的预测图像
Figure FDA0003510010250000013
(4)I,
Figure FDA0003510010250000014
Figure FDA0003510010250000015
分别被当作一个二维矩阵,依次排列这些矩阵形成一个三阶张量输入到融合模块,经过融合模块的计算,输出对当前解码帧去除压缩伪影后的图像;所述融合模块为深度卷积神经网络,深度卷积神经网络的输入模块包含1个卷积层,该卷积层的卷积核大小与融合模块的深度卷积神经网络的输入相匹配;除了输入模块之外的其它部分,融合模块的深度卷积神经网络具有与步骤(3)所述的生成式对抗网络中的生成网络一致的结构。
2.根据权利要求1所述的运动补偿和生成式对抗网络结合的视频图像压缩伪影去除方法,其特征在于:所述生成网络G的输入模块包括一个卷积层,待处理图像与该卷积层3×3×1大小的卷积核进行步长为1的卷积运算后,输出大小与输入图像相等的特征图z0
所述生成网络G的残差模块接在输入模块之后,由Nb个依次相连的残差块组成,其中Nb为一个预设的常数,除第一残差块之外的任意第k个残差块,1<k≤Nb,以第k-1个残差块的输出zk-1为输入,经过第k个残差块内的各个层次将zk-1映射为F(zk-1),最后以F(zk-1)+zk-1作为第k个残差块的输出;每个残差块包含两个卷积层和一个PReLU层,按数据前向传播时的流向,其顺序依次为卷积层Conv_01、PReLu层和卷积层Conv_02;Conv_01层具有两倍于Conv_02层的卷积核数目,Conv_01的卷积核数目为48,Conv_02的卷积核数目为24;Conv_01层的卷积核大小为3×3×C1,Conv_02层的卷积核大小为3×3×C2,其中C1的值等于Conv_02的卷积核数目,C2的值等于Conv_01的卷积核数目,Conv_01层和Conv_02层的卷积步长均为1;
所述生成网络G的重建模块包括三个卷积层,其中的卷积层Conv_B01以最后一个残差块的输出
Figure FDA0003510010250000021
为输入,另一个卷积层Conv_B02以输入模块的输出z0为输入,Conv_B01和Conv_B02层输出的两个特征图以每个位置对应元素相加的形式加以融合形成一个新的特征图,输入到卷积层Conv_B03,经卷积运算后输出预测图像
Figure FDA0003510010250000022
Conv_B01和Conv_B02层各包含16Cout个卷积核,其中Cout为输出图像的通道数;卷积层Conv_B01的卷积核大小为3×3×C3,卷积层Conv_B02的卷积核大小为3×3×C4,其中C3和C4分别为输入到对应卷积层的特征图的通道数目;卷积层Conv_B03包含Cout个大小为3×3×16Cout的卷积核;卷积层Conv_B01、Conv_B02、Conv_B03的卷积步长均为1;
所述判别网络D的输入层为一个包含32个3×3×1大小卷积核的卷积层,该卷积层之后依次连接了四个结构相同的层次,每个层次中依次为卷积层、批量正则化层和LeakyReLu层,从第一个层次到第四个层次中的卷积层分别包含32、64、128和256个大小为3×3×Cp的卷积核,第一个层次Cp=32,后续的各个层次,其Cp的值等于前一个层次的卷积核的数目,各个层次的卷积步长均为2;在上述四个层次之后,连接了两个全连接层和一个LeakyReLu层,按数据前向传播时的流向,依次为一个包含512个神经元的全连接层,LeakyReLu层和一个包含1个神经元的全连接层,最后由Sigmoid函数给出输入到判别网络的图像是否为未引入压缩伪影的图像的判断。
3.根据权利要求1所述的运动补偿和生成式对抗网络结合的视频图像压缩伪影去除方法,其特征在于,步骤(3)中,所述生成式对抗网络GAN的各个层次的参数以学习的方式确定,包括:
步骤3A、准备用于训练的图像:设Y为未经压缩编码的视频中的一帧,I为HEVC压缩视频解码后与Y对应的帧,用于训练生成网络的样本形如(xi,yi),xi∈RH×W,yi∈RH×W分别为来自I和Y的图像块,且左上角点坐标相同,大小为H×W;用于训练判别网络的样本形如(xi,ci),xi∈RH×W来自未经压缩编码的图像Y或者生成网络生成的图像,若xi来自Y,则标签ci=1,否则ci=0;
步骤3B、预训练生成网络G:批量加载步骤3A所述用于训练生成网络的样本,对每一个样本(xi,yi)按下式计算损失函数:
Figure FDA0003510010250000031
其中Gθ(x)是输入xi经生成网络映射后的输出,θ代表生成网络的参数集合;以最小化所有样本的损失函数累加和为目标,以Adam优化算法更新生成网络各层的参数;
步骤3C、训练判别网络D:根据步骤3A,由来自未经压缩编码的图像形成标签ci=1的样本,由来自生成网络产生的图像形成标签ci=0的样本,批量加载训练样本(xi,ci),固定生成网络的参数,以最大化如下的函数为目标,更新判别网络各层的参数:
Figure FDA0003510010250000032
其中xi~pdata代表从符合未经压缩编码图像分布的样本空间中采样的样本,E(.)代表数学期望,z~pGen代表从符合生成网络的输入样本分布的样本空间中采样的样本;步骤3C重复执行4次
步骤3D、训练生成网络:批量加载步骤3A所述用于训练生成网络的样本,固定判别网络的参数,以最小化如下的函数为目标,更新生成网络各层的参数:
Figure FDA0003510010250000033
步骤3E、判断是否达到预定的迭代次数或者生成式对抗网络达到收敛,若是则结束训练,否则返回步骤3C。
4.根据权利要求1所述的一种运动补偿和生成式对抗网络结合的视频图像压缩伪影去除方法,其特征在于,步骤(4)中,作为融合模块的深度卷积神经网络的各个层次的参数以学习的方式确定,包括:
步骤4A、准备用于训练的图像:设Y为未经压缩编码的视频中的一帧,I为HEVC压缩视频解码后与Y对应的帧,根据步骤(1)和步骤(2)构建运动补偿图像
Figure FDA0003510010250000034
根据步骤(3)构建生成网络的预测图像
Figure FDA0003510010250000035
步骤4B、准备训练样本:设(x'i,y'i)为训练样本集的一个样本,若y'i∈RH×W为来自未压缩图像Y的图像块,且左上角点坐标为(m,n),大小为H×W,则x'i∈RH×W×3是一个由3个图像块组成的三阶张量,x'i∈RH×W×3的三个图像块分别来自于步骤4A中所述的HEVC压缩视频解码后与Y对应的帧I、运动补偿图像
Figure FDA0003510010250000041
和由生成网络生成的预测图像
Figure FDA0003510010250000042
每个图像块的大小均为H×W,左上角点位于各自对应图像的(m,n)位置;
步骤4C、训练:批量加载训练样本集中的样本,对每个训练样本(x'i,y'i)按下式计算损失函数:
Figure FDA0003510010250000043
其中
Figure FDA0003510010250000044
是输入xi'经所述作为融合模块的深度卷积神经网络映射后的输出;以最小化训练集中所有样本的损失函数累加和为目标,以Adam优化算法更新深度卷积神经网络各层的权值。
5.根据权利要求1所述的运动补偿和生成式对抗网络结合的视频图像压缩伪影去除方法,其特征在于,深度卷积神经网络的输入模块的卷积层具有Ni个大小为3×3×3的卷积核,其中Ni为一个预设的常数,卷积步长为1。
6.根据权利要求1所述的运动补偿和生成式对抗网络结合的视频图像压缩伪影去除方法,其特征在于,所述当前解码帧为前向预测编码帧或双向预测编码帧。
CN202010657003.8A 2020-07-09 2020-07-09 一种视频图像压缩伪影去除方法 Active CN111866521B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010657003.8A CN111866521B (zh) 2020-07-09 2020-07-09 一种视频图像压缩伪影去除方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010657003.8A CN111866521B (zh) 2020-07-09 2020-07-09 一种视频图像压缩伪影去除方法

Publications (2)

Publication Number Publication Date
CN111866521A CN111866521A (zh) 2020-10-30
CN111866521B true CN111866521B (zh) 2022-04-01

Family

ID=73151974

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010657003.8A Active CN111866521B (zh) 2020-07-09 2020-07-09 一种视频图像压缩伪影去除方法

Country Status (1)

Country Link
CN (1) CN111866521B (zh)

Families Citing this family (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112333451A (zh) * 2020-11-03 2021-02-05 中山大学 一种基于生成对抗网络的帧内预测方法
CN112419175A (zh) * 2020-11-06 2021-02-26 深圳先进技术研究院 一种共享权重的双区域生成对抗网络及其图像生成方法
CN112419196B (zh) * 2020-11-26 2022-04-26 武汉大学 一种基于深度学习的无人机遥感影像阴影去除方法
WO2022131655A1 (ko) * 2020-12-18 2022-06-23 삼성전자 주식회사 영상 처리 장치 및 이에 의한 멀티 프레임의 처리 방법
CN115442613A (zh) * 2021-06-02 2022-12-06 四川大学 一种利用gan的基于帧间信息的噪声去除方法
CN113822801B (zh) * 2021-06-28 2023-08-18 浙江工商大学 基于多分支卷积神经网络的压缩视频超分辨率重建方法
CN114025146B (zh) * 2021-11-02 2023-11-17 浙江工商大学 基于场景流网络与时间熵模型的动态点云几何压缩方法
CN115567719A (zh) * 2022-08-23 2023-01-03 天津市国瑞数码安全系统股份有限公司 一种多层次卷积的视频压缩方法和系统
CN115604463A (zh) * 2022-09-07 2023-01-13 天津市国瑞数码安全系统股份有限公司(Cn) 一种自适应感知采样的视频压缩方法和系统
CN116721045B (zh) * 2023-08-09 2023-12-19 经智信息科技(山东)有限公司 一种多ct图像融合的方法及装置

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110351568A (zh) * 2019-06-13 2019-10-18 天津大学 一种基于深度卷积网络的视频环路滤波器

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2018051336A1 (en) * 2016-09-18 2018-03-22 Yeda Research And Development Co. Ltd. Systems and methods for generating 3d images based on fluorescent illumination
CN108765319B (zh) * 2018-05-09 2020-08-14 大连理工大学 一种基于生成对抗网络的图像去噪方法
CN110610467B (zh) * 2019-09-11 2022-04-15 杭州当虹科技股份有限公司 一种基于深度学习的多帧视频去压缩噪声方法
CN110930327B (zh) * 2019-11-18 2022-09-23 浙江工商大学 基于级联深度残差网络的视频去噪方法

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110351568A (zh) * 2019-06-13 2019-10-18 天津大学 一种基于深度卷积网络的视频环路滤波器

Also Published As

Publication number Publication date
CN111866521A (zh) 2020-10-30

Similar Documents

Publication Publication Date Title
CN111866521B (zh) 一种视频图像压缩伪影去除方法
Cui et al. Convolutional neural networks based intra prediction for HEVC
Jin et al. A flexible deep CNN framework for image restoration
US10462459B2 (en) Non-local adaptive loop filter
CN108495135B (zh) 一种屏幕内容视频编码的快速编码方法
CN108900848B (zh) 一种基于自适应可分离卷积的视频质量增强方法
KR20020077884A (ko) 블록 매칭 프로세스를 사용하는 비디오 코딩 방법
CN111541896B (zh) 一种基于vvc的帧内预测模式的优化方法及系统
Zhu et al. Deep learning-based chroma prediction for intra versatile video coding
Son et al. Enhanced standard compatible image compression framework based on auxiliary codec networks
JP2023509395A (ja) 時間変形可能畳み込みによるディープループフィルタ
CN113055674B (zh) 一种基于两阶段多帧协同的压缩视频质量增强方法
CN112601095B (zh) 一种视频亮度和色度分数插值模型的创建方法及系统
Jin et al. Post-processing for intra coding through perceptual adversarial learning and progressive refinement
CN103828366B (zh) 一种编码和解码方法、编码和解码设备
Yuan et al. Block-based learned image coding with convolutional autoencoder and intra-prediction aided entropy coding
CN115665413A (zh) 图像压缩最优量化参数的估计方法
Li et al. An efficient example-based approach for image super-resolution
Wang et al. Lie group transformation models for predictive video coding
CN113822801A (zh) 基于多分支卷积神经网络的压缩视频超分辨率重建方法
Man et al. Tree-Structured Data Clustering-Driven Neural Network for Intra Prediction in Video Coding
CN112991192A (zh) 图像处理方法、装置、设备及其系统
CN117459737B (zh) 一种图像预处理网络的训练方法和图像预处理方法
CN117676171B (zh) 用于编码单元的三叉树划分处理方法、设备及存储介质
Ulas et al. Flexible luma-chroma bit allocation in learned image compression for high-fidelity sharper images

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant