CN115511747A - 一种基于像素域和频域信息损失的视频去压缩伪影方法 - Google Patents

一种基于像素域和频域信息损失的视频去压缩伪影方法 Download PDF

Info

Publication number
CN115511747A
CN115511747A CN202211203733.6A CN202211203733A CN115511747A CN 115511747 A CN115511747 A CN 115511747A CN 202211203733 A CN202211203733 A CN 202211203733A CN 115511747 A CN115511747 A CN 115511747A
Authority
CN
China
Prior art keywords
video
quality
layer
loss
image
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Withdrawn
Application number
CN202211203733.6A
Other languages
English (en)
Inventor
颜成钢
陈兴颖
王鸿奎
高宇涵
孙垚棋
胡冀
朱尊杰
陈楚翘
殷海兵
张继勇
李宗鹏
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hangzhou Dianzi University
Original Assignee
Hangzhou Dianzi University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hangzhou Dianzi University filed Critical Hangzhou Dianzi University
Priority to CN202211203733.6A priority Critical patent/CN115511747A/zh
Publication of CN115511747A publication Critical patent/CN115511747A/zh
Withdrawn legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T5/00Image enhancement or restoration
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/80Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level
    • G06V10/806Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level of extracted features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/10Image acquisition modality
    • G06T2207/10016Video; Image sequence
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20081Training; Learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20084Artificial neural networks [ANN]

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Computing Systems (AREA)
  • Evolutionary Computation (AREA)
  • General Health & Medical Sciences (AREA)
  • Software Systems (AREA)
  • Databases & Information Systems (AREA)
  • Medical Informatics (AREA)
  • Multimedia (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Molecular Biology (AREA)
  • General Engineering & Computer Science (AREA)
  • Mathematical Physics (AREA)
  • Image Processing (AREA)

Abstract

本发明公开了一种基于像素域和频域信息损失的视频去压缩伪影方法。首先进行数据预处理,获取高质量及低质量的视频帧数据集,搭建视频增强网络模型;再训练低质量图像增强的网络模型;最后将低质量的视频帧输入模型得到高质量的视频帧。本发明通过在频域上进行计算梯度轮廓损失和像素域的密集残差连接配合,能使得低质量的视频帧输出菱角分明边缘清晰的视频帧。本发明方法同时在频域和像素域的联合操作大大提升了质量增强的效果。

Description

一种基于像素域和频域信息损失的视频去压缩伪影方法
技术领域
本发明适合于视频质量增强的领域。本发明涉及一种基于深度学习神经网络的视频质量压缩复原的方法。
背景技术
近年来,视频在互联网上的传播越来越频繁,视频会产生70%到80%的移动数据流量,其中高分辨率视频的比例在迅速增强,人们对高清视频的需求也越来越大。由于网络传输带宽的限制,视频必须经过压缩编码才能在互联网中传播。然而,在压缩编码中不可避免地会给视频带来率失真和伪影,这必然会带给视频观看者的主观感受。因此,为了能够在带宽有限的网络上有效地传输高质量视频,提高视频质量增强方法是十分必要的。再过去的几十年中,提出了需对传统的视频压缩标准,例如H.264,H.265等,但这些编码器是手工制作的,无法实现以端到端的方式进行优化。
最近在基于深度学习图像视频压缩方面的研究,显示了Deep Learning在提高失真性能的巨大潜力。例如,Lu等人提出光流进行运动补偿,并应用自动编码器来压缩光流和残差,郑等人提出了一种隐式双域卷积网络来减少JPEG图像压缩伪影。IDCN使用像素位置标记图和量化表作为输入,与DCT变换应用于DCT域的传统双域学习方法不同,DCT域损失直接由提取的特征估计,无需DCT变换。IDCN在提高JPEG压缩图像质量方面表现出色。肇等人提出用离散余弦变换域的损失来增强压缩视频质量。这对于本次发明有很多之得借鉴和学习的地方。
在视频质量增强上,常用的传统压缩方式有H.264和H.265,无法满足现阶段高质量视频还原的需求。而基于深度学习的方法通常学习非线性映射以直接从大量训练数据中回归无伪影的图像,从而高效获得结果。
发明内容
基于现存的问题,本次发明是将焦点频率损失补偿应用于视频质量增强,它允许模型通过降低容易合成的权重来自适应地关注难以合成的频率分量,使得在视频帧的频率损失上有很大的提升,从而提高帧间的质量,提高视频的质量。本发明的内容在于:提供一种基于像素域和频域信息损失的视频去压缩伪影方法,通过训练高质量的视频帧和压缩过视频帧,得到可增强视频帧质量的模型。
本发明采用的技术方案如下:
一种基于像素域和频域信息损失的视频去压缩伪影方法,步骤如下:
步骤一:数据预处理,获取高质量及低质量的视频帧数据集。
步骤二:搭建视频增强网络模型;
步骤三:使用步骤一生成的数据作为模型输入,训练低质量图像增强的网络模型;
步骤四:将低质量的视频帧输入模型得到高质量的视频帧。
进一步的,步骤一具体方法如下:
将高质量的YUV视频无损转换成MPKV文件,再对其裁帧,视频帧作为训练集的真实值(Ground Truth);使用HM16编码对YUV视频进行压缩生成已压缩视频,并无损转换成MPKV文件,再裁帧,作为训练集的模糊值。
进一步的,步骤二具体方法如下;
视频增强网络模型包括像素域增强分支。
所述的像素域增强分支由单卷积层,下采样层,密集残差层和上采样层组成。
所述的密集残差层采用16个密集残差块组成。密集残差块包括邻近连接和局部特征融合,通过邻近连接将每个密集残差块在通道维度串联起来;邻近连接指的是每个残差块中的密集层都和会接收上一层密集残差块的局部信息。局部特征融合由卷积核为1×1的卷积层实现,降低每次输出的通道数,有助于更多残差块的训练。
所述的下采样层采用二维的像素洗牌对图像进行四倍下采样。使用缩放倍数为2的像素洗牌将特征图的长和宽缩小为原来的0.5倍,通道数放大到四倍由64到256,最后生成特征图作为后续密集残差层的特征传递输入。
上采样层采用二维的像素洗牌对图像进行四倍上采样。使用缩放倍数为2的像素洗牌将特征图的长和宽放大为原来的两倍,通道数缩小四倍由256到64,最后经过一个3×3的卷积核将64通道的特征图转换成三通道图像作为视频图像增强网络的输出结果。
进一步的,步骤三具体方法如下;
训练网络采用Adam优化器,使用最小均方损失函数作为像素域的损失函数。频率域损失函数使用梯度轮廓损失函数,使用梯度轮廓损失函数使得梯度场生动地表现出视频的边缘特征和清楚的分界。
频域增强体现在计算输出结果的梯度轮廓损失上,模型的增强结果和训练集的真实值进行梯度轮廓损失函数计算,计算的损失值和像素域损失值共同反向传播到视频图像增强网络模型。
训练过程中,最小均方损失函数初始学习率设置为1E-4,权重为1和梯度轮廓损失初始学习率为计算值,权重设置为1。如果损失值在五个周期内没有波动,将最小均方损失函数学习率降为原来的0.5。在学习率低于1E-6时结束训练。
进一步的,步骤四具体方法如下;
输入低质量图像到增强网络中。首先图像经过卷积核大小为3×3的单卷积层处理,将三个通道数的图像变成64通道,紧接着进过下采样层缩小特征图的大小,再经过密集残差块,残差块进行特征提取和特征映射,逐层将特征传递下去,最后所有密集残差块的输出进行拼接整合,得到最终提取的特征图像。再经过上采样层的像素洗牌生成像素域的高质量图,最后作为视频帧增强的输出结果。
本发明有以下的有益效果:
1.本发明所述的一种基于频率损失的创新性视频质量方法,通过在频域上进行计算梯度轮廓损失和像素域的密集残差连接配合,能使得低质量的视频帧输出菱角分明边缘清晰的视频帧。
2.本发明所述的一种基于神经网络的视频质量增强,同时在频域和像素域的联合操作大大提升了质量增强的效果。
附图说明
图1是本发明实施的检测流程示意图;
图2是本发明实施的网络模型结构原理图;
图3是本发明实施的图像增强的低质量视频帧;
图4是本发明实施的图像增强方法输出高质量图。
具体实施方式
如上述的技术方案和附图说明,
基于焦点损失的视频质量增强,包括整理数据集、训练模型和调式参数以及测试结果。我们使用NTIRE2022提出的视频数据集(LDV2.0),该数据集相对于LDV1.0额外的添加了95个视频,其中包含从YouTube和主流流媒体平台收集的视频。数据集由335个训练视频,每秒随机传输帧数(fps)从24到60不等。基于以上固定设置,本发明采用,20个给定的验证视频和通用高效视频编码标准测试序列作为最终测试集。
一种基于像素域和频域信息损失的视频去压缩伪影方法,步骤如下:
步骤一,数据预处理,获取高质量和低质量的视频数据集,具体方法如下:
将高质量的YUV视频无损转换成MPKV文件,再对其裁帧,视频帧作为训练集的真实值(Ground Truth);使用HM16编码对YUV视频进行压缩生成已压缩视频,并无损转换成MPKV文件,再裁帧,作为训练集的模糊值。
步骤二,搭建视频增强网络模型;
视频增强网络模型包括像素域增强分支。
所述的像素域增强分支由单卷积层,下采样层,密集残差层和上采样层组成。
所述的密集残差层采用16个密集残差块组成。由于在残差和网络深度的增加,每个卷积层的特征会逐渐分级,因为有不同的感受野,逐渐分级的特征对图像重建提供了重要信息,残差块会充分利用所有层的信息和特征。密集残差块包括邻近连接和局部特征融合,通过邻近连接将每个密集残差块在通道维度串联起来;邻近连接指的是每个残差块中的密集层都和会接收上一层密集残差块的局部信息。局部特征融合由卷积核为1×1的卷积层实现,降低每次输出的通道数,有助于更多残差块的训练。
所述的下采样层采用二维的像素洗牌对图像进行四倍下采样。使用缩放倍数为2的像素洗牌(PixelUnShuffle)将特征图的长和宽缩小为原来的0.5倍,通道数放大到四倍由64到256,最后生成特征图作为后续密集残差层的特征传递输入。
上采样层采用二维的像素洗牌对图像进行四倍上采样。使用缩放倍数为2的像素洗牌(PixelShuffle)将特征图的长和宽放大为原来的两倍,通道数缩小四倍由256到64,最后经过一个3×3的卷积核将64通道的特征图转换成三通道图像作为视频图像增强网络的输出结果。
步骤三训练视频图像增强网络模型;
训练网络采用Adam优化器,使用最小均方损失函数作为像素域的损失函数,损失函数和常用的L1范式函数相比,我们使用均方损失函数来训练模型能更好的处理边缘和彰显出好的性能和细节的锐化。频率域损失函数使用梯度轮廓损失函数。使用梯度轮廓损失函数使得梯度场生动地表现出视频的边缘特征和清楚的分界。
频域增强体现在计算输出结果的梯度轮廓损失上,模型的增强结果和训练集的真实值进行梯度轮廓损失函数计算,计算的损失值和像素域损失值共同反向传播到网络模型。梯度轮廓是基于梯度分布先验实现的。所谓的先验,图像梯度是由梯度轮廓表示,梯度轮廓是垂直于图像结构的梯度幅度的一维轮廓,梯度轮廓损失计算将梯度轮廓曲线进行一定比例的压缩,将图像转化成边缘更锐化和更清晰的图像。梯度轮廓损失计算通常用于在图像和视频任务中。该算法具有两个优点:(1)梯度场生动地表现出视频的特征:人物和背景。(2)低质量图像具有较宽的梯度场曲线,而高质量图像则具有较窄的梯度场曲线。通过数学计算可以方便地生成梯度场曲线,确保了一个稳定闭环监督。
训练过程中,最小均方损失函数初始学习率设置为1E-4,权重为1和梯度轮廓损失初始学习率为计算值,权重设置为1,前期较高的学习率使得网络能快速收敛到一个损失区间,后期较低的学习率使得网络进行微调,让模型效果达到最优的效果。如果损失值在五个周期内没有波动,将最小均方损失函数学习率降为原来的0.5。在学习率低于1E-6时结束训练。
步骤四,将低质量的视频帧输入增强网络模型得到高质量视频图像;
输入低质量图像到增强网络中,流程如图1所示。首先图像经过卷积核大小为3×3的单卷积层处理,将三个通道数的图像变成64通道,紧接着进过下采样层缩小特征图的大小,再经过密集残差块,残差块进行特征提取和特征映射,逐层将特征传递下去,最后所有密集残差块的输出进行拼接整合,得到最终提取的特征图像。再经过上采样层的像素洗牌生成像素域的高质量图,最后作为视频帧增强的输出结果。

Claims (5)

1.一种基于像素域和频域信息损失的视频去压缩伪影方法,其特征在于,步骤如下:
步骤一:数据预处理,获取高质量及低质量的视频帧数据集;
步骤二:搭建视频增强网络模型;
步骤三:使用步骤一生成的数据作为模型输入,训练低质量图像增强的网络模型;
步骤四:将低质量的视频帧输入模型得到高质量的视频帧。
2.根据权利要求1所述的一种基于像素域和频域信息损失的视频去压缩伪影方法,其特征在于,步骤一具体方法如下:
将高质量的YUV视频无损转换成MPKV文件,再对其裁帧,视频帧作为训练集的真实值;使用HM16编码对YUV视频进行压缩生成已压缩视频,并无损转换成MPKV文件,再裁帧,作为训练集的模糊值。
3.根据权利要求2所述的一种基于像素域和频域信息损失的视频去压缩伪影方法,其特征在于,步骤二具体方法如下;
视频增强网络模型包括像素域增强分支;
所述的像素域增强分支由单卷积层,下采样层,密集残差层和上采样层组成;
所述的密集残差层采用16个密集残差块组成;密集残差块包括邻近连接和局部特征融合,通过邻近连接将每个密集残差块在通道维度串联起来;邻近连接指的是每个残差块中的密集层都和会接收上一层密集残差块的局部信息;局部特征融合由卷积核为1×1的卷积层实现,降低每次输出的通道数,有助于更多残差块的训练;
所述的下采样层采用二维的像素洗牌对图像进行四倍下采样;使用缩放倍数为2的像素洗牌将特征图的长和宽缩小为原来的0.5倍,通道数放大到四倍由64到256,最后生成特征图作为后续密集残差层的特征传递输入;
上采样层采用二维的像素洗牌对图像进行四倍上采样;使用缩放倍数为2的像素洗牌将特征图的长和宽放大为原来的两倍,通道数缩小四倍由256到64,最后经过一个3×3的卷积核将64通道的特征图转换成三通道图像作为视频图像增强网络的输出结果。
4.根据权利要求3所述的一种基于像素域和频域信息损失的视频去压缩伪影方法,其特征在于,步骤三具体方法如下;
训练网络采用Adam优化器,使用最小均方损失函数作为像素域的损失函数;频率域损失函数使用梯度轮廓损失函数,使用梯度轮廓损失函数使得梯度场生动地表现出视频的边缘特征和清楚的分界;
频域增强体现在计算输出结果的梯度轮廓损失上,模型的增强结果和训练集的真实值进行梯度轮廓损失函数计算,计算的损失值和像素域损失值共同反向传播到视频图像增强网络模型;
训练过程中,最小均方损失函数初始学习率设置为1E-4,权重为1和梯度轮廓损失初始学习率为计算值,权重设置为1;如果损失值在五个周期内没有波动,将最小均方损失函数学习率降为原来的0.5;在学习率低于1E-6时结束训练。
5.根据权利要求4所述的一种基于像素域和频域信息损失的视频去压缩伪影方法,其特征在于,步骤四具体方法如下;
输入低质量图像到增强网络中;首先图像经过卷积核大小为3×3的单卷积层处理,将三个通道数的图像变成64通道,紧接着进过下采样层缩小特征图的大小,再经过密集残差块,残差块进行特征提取和特征映射,逐层将特征传递下去,最后所有密集残差块的输出进行拼接整合,得到最终提取的特征图像;再经过上采样层的像素洗牌生成像素域的高质量图,最后作为视频帧增强的输出结果。
CN202211203733.6A 2022-09-29 2022-09-29 一种基于像素域和频域信息损失的视频去压缩伪影方法 Withdrawn CN115511747A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202211203733.6A CN115511747A (zh) 2022-09-29 2022-09-29 一种基于像素域和频域信息损失的视频去压缩伪影方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202211203733.6A CN115511747A (zh) 2022-09-29 2022-09-29 一种基于像素域和频域信息损失的视频去压缩伪影方法

Publications (1)

Publication Number Publication Date
CN115511747A true CN115511747A (zh) 2022-12-23

Family

ID=84508505

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202211203733.6A Withdrawn CN115511747A (zh) 2022-09-29 2022-09-29 一种基于像素域和频域信息损失的视频去压缩伪影方法

Country Status (1)

Country Link
CN (1) CN115511747A (zh)

Similar Documents

Publication Publication Date Title
CN107018422B (zh) 基于深度卷积神经网络的静止图像压缩方法
CN110751597B (zh) 基于编码损伤修复的视频超分辨方法
CN110087092B (zh) 基于图像重构卷积神经网络的低码率视频编解码方法
CN106709875B (zh) 一种基于联合深度网络的压缩低分辨率图像复原方法
CN103607591A (zh) 结合超分辨率重建的图像压缩方法
CN104199627B (zh) 基于多尺度在线字典学习的可分级视频编码系统
CN109903351B (zh) 基于卷积神经网络和传统编码相结合的图像压缩方法
CN112738533B (zh) 一种机巡图像分区域压缩方法
WO2023005699A1 (zh) 视频增强网络训练方法、视频增强方法及装置
CN109361919A (zh) 一种联合超分辨率和去压缩效应的图像编码性能提升方法
CN109922339A (zh) 结合多采样率下采样和超分辨率重建技术的图像编码框架
CN112509071B (zh) 一种亮度信息辅助的色度信息压缩重建方法
CN112218094A (zh) 一种基于dct系数预测的jpeg图像去压缩效应方法
Hu et al. An adaptive two-layer light field compression scheme using GNN-based reconstruction
CN111726638A (zh) 一种结合去压缩效应与超分辨率的hevc编码优化方法
CN104780383B (zh) 一种3d‑hevc多分辨率视频编码方法
CN110545426B (zh) 基于编码损伤修复cnn的空域可分级视频编码方法
CN115442613A (zh) 一种利用gan的基于帧间信息的噪声去除方法
US8031782B2 (en) Systems and methods for compression, transmission and decompression of video codecs
CN115131254A (zh) 一种基于双域学习的恒定码率压缩视频质量增强方法
CN115511747A (zh) 一种基于像素域和频域信息损失的视频去压缩伪影方法
CN115665413A (zh) 图像压缩最优量化参数的估计方法
CN106709873A (zh) 一种基于三次样条插值和迭代更新的超分辨率方法
CN108989812B (zh) 一种基于图像压缩的去块效应方法
CN109218738B (zh) 一种基于二阶梯度的图像去块效应滤波方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
WW01 Invention patent application withdrawn after publication
WW01 Invention patent application withdrawn after publication

Application publication date: 20221223