CN115511747A - 一种基于像素域和频域信息损失的视频去压缩伪影方法 - Google Patents
一种基于像素域和频域信息损失的视频去压缩伪影方法 Download PDFInfo
- Publication number
- CN115511747A CN115511747A CN202211203733.6A CN202211203733A CN115511747A CN 115511747 A CN115511747 A CN 115511747A CN 202211203733 A CN202211203733 A CN 202211203733A CN 115511747 A CN115511747 A CN 115511747A
- Authority
- CN
- China
- Prior art keywords
- video
- quality
- layer
- loss
- image
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Withdrawn
Links
- 238000000034 method Methods 0.000 title claims abstract description 34
- 230000006837 decompression Effects 0.000 title claims abstract description 10
- 238000012549 training Methods 0.000 claims abstract description 30
- 238000004364 calculation method Methods 0.000 claims abstract description 10
- 238000007781 pre-processing Methods 0.000 claims abstract description 4
- 230000006870 function Effects 0.000 claims description 25
- 208000037170 Delayed Emergence from Anesthesia Diseases 0.000 claims description 24
- 238000005070 sampling Methods 0.000 claims description 18
- 230000004927 fusion Effects 0.000 claims description 6
- 238000013507 mapping Methods 0.000 claims description 4
- ORILYTVJVMAKLC-UHFFFAOYSA-N Adamantane Natural products C1C(C2)CC3CC1CC2C3 ORILYTVJVMAKLC-UHFFFAOYSA-N 0.000 claims description 3
- 238000000605 extraction Methods 0.000 claims description 3
- 238000012545 processing Methods 0.000 claims description 3
- 238000012546 transfer Methods 0.000 claims description 3
- 230000000694 effects Effects 0.000 abstract description 4
- 235000009165 saligot Nutrition 0.000 abstract description 2
- 244000017160 saligot Species 0.000 abstract 1
- 230000006835 compression Effects 0.000 description 6
- 238000007906 compression Methods 0.000 description 6
- 238000013135 deep learning Methods 0.000 description 4
- 238000013528 artificial neural network Methods 0.000 description 2
- 230000005540 biological transmission Effects 0.000 description 2
- 230000010354 integration Effects 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 238000012360 testing method Methods 0.000 description 2
- 230000009466 transformation Effects 0.000 description 2
- 240000001085 Trapa natans Species 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000001514 detection method Methods 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 230000002708 enhancing effect Effects 0.000 description 1
- 238000013100 final test Methods 0.000 description 1
- 230000000644 propagated effect Effects 0.000 description 1
- 238000013139 quantization Methods 0.000 description 1
- 238000012795 verification Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T5/00—Image enhancement or restoration
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/084—Backpropagation, e.g. using gradient descent
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/80—Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level
- G06V10/806—Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level of extracted features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/10—Image acquisition modality
- G06T2207/10016—Video; Image sequence
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20081—Training; Learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20084—Artificial neural networks [ANN]
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Computing Systems (AREA)
- Evolutionary Computation (AREA)
- General Health & Medical Sciences (AREA)
- Software Systems (AREA)
- Databases & Information Systems (AREA)
- Medical Informatics (AREA)
- Multimedia (AREA)
- Life Sciences & Earth Sciences (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Molecular Biology (AREA)
- General Engineering & Computer Science (AREA)
- Mathematical Physics (AREA)
- Image Processing (AREA)
Abstract
本发明公开了一种基于像素域和频域信息损失的视频去压缩伪影方法。首先进行数据预处理,获取高质量及低质量的视频帧数据集,搭建视频增强网络模型;再训练低质量图像增强的网络模型;最后将低质量的视频帧输入模型得到高质量的视频帧。本发明通过在频域上进行计算梯度轮廓损失和像素域的密集残差连接配合,能使得低质量的视频帧输出菱角分明边缘清晰的视频帧。本发明方法同时在频域和像素域的联合操作大大提升了质量增强的效果。
Description
技术领域
本发明适合于视频质量增强的领域。本发明涉及一种基于深度学习神经网络的视频质量压缩复原的方法。
背景技术
近年来,视频在互联网上的传播越来越频繁,视频会产生70%到80%的移动数据流量,其中高分辨率视频的比例在迅速增强,人们对高清视频的需求也越来越大。由于网络传输带宽的限制,视频必须经过压缩编码才能在互联网中传播。然而,在压缩编码中不可避免地会给视频带来率失真和伪影,这必然会带给视频观看者的主观感受。因此,为了能够在带宽有限的网络上有效地传输高质量视频,提高视频质量增强方法是十分必要的。再过去的几十年中,提出了需对传统的视频压缩标准,例如H.264,H.265等,但这些编码器是手工制作的,无法实现以端到端的方式进行优化。
最近在基于深度学习图像视频压缩方面的研究,显示了Deep Learning在提高失真性能的巨大潜力。例如,Lu等人提出光流进行运动补偿,并应用自动编码器来压缩光流和残差,郑等人提出了一种隐式双域卷积网络来减少JPEG图像压缩伪影。IDCN使用像素位置标记图和量化表作为输入,与DCT变换应用于DCT域的传统双域学习方法不同,DCT域损失直接由提取的特征估计,无需DCT变换。IDCN在提高JPEG压缩图像质量方面表现出色。肇等人提出用离散余弦变换域的损失来增强压缩视频质量。这对于本次发明有很多之得借鉴和学习的地方。
在视频质量增强上,常用的传统压缩方式有H.264和H.265,无法满足现阶段高质量视频还原的需求。而基于深度学习的方法通常学习非线性映射以直接从大量训练数据中回归无伪影的图像,从而高效获得结果。
发明内容
基于现存的问题,本次发明是将焦点频率损失补偿应用于视频质量增强,它允许模型通过降低容易合成的权重来自适应地关注难以合成的频率分量,使得在视频帧的频率损失上有很大的提升,从而提高帧间的质量,提高视频的质量。本发明的内容在于:提供一种基于像素域和频域信息损失的视频去压缩伪影方法,通过训练高质量的视频帧和压缩过视频帧,得到可增强视频帧质量的模型。
本发明采用的技术方案如下:
一种基于像素域和频域信息损失的视频去压缩伪影方法,步骤如下:
步骤一:数据预处理,获取高质量及低质量的视频帧数据集。
步骤二:搭建视频增强网络模型;
步骤三:使用步骤一生成的数据作为模型输入,训练低质量图像增强的网络模型;
步骤四:将低质量的视频帧输入模型得到高质量的视频帧。
进一步的,步骤一具体方法如下:
将高质量的YUV视频无损转换成MPKV文件,再对其裁帧,视频帧作为训练集的真实值(Ground Truth);使用HM16编码对YUV视频进行压缩生成已压缩视频,并无损转换成MPKV文件,再裁帧,作为训练集的模糊值。
进一步的,步骤二具体方法如下;
视频增强网络模型包括像素域增强分支。
所述的像素域增强分支由单卷积层,下采样层,密集残差层和上采样层组成。
所述的密集残差层采用16个密集残差块组成。密集残差块包括邻近连接和局部特征融合,通过邻近连接将每个密集残差块在通道维度串联起来;邻近连接指的是每个残差块中的密集层都和会接收上一层密集残差块的局部信息。局部特征融合由卷积核为1×1的卷积层实现,降低每次输出的通道数,有助于更多残差块的训练。
所述的下采样层采用二维的像素洗牌对图像进行四倍下采样。使用缩放倍数为2的像素洗牌将特征图的长和宽缩小为原来的0.5倍,通道数放大到四倍由64到256,最后生成特征图作为后续密集残差层的特征传递输入。
上采样层采用二维的像素洗牌对图像进行四倍上采样。使用缩放倍数为2的像素洗牌将特征图的长和宽放大为原来的两倍,通道数缩小四倍由256到64,最后经过一个3×3的卷积核将64通道的特征图转换成三通道图像作为视频图像增强网络的输出结果。
进一步的,步骤三具体方法如下;
训练网络采用Adam优化器,使用最小均方损失函数作为像素域的损失函数。频率域损失函数使用梯度轮廓损失函数,使用梯度轮廓损失函数使得梯度场生动地表现出视频的边缘特征和清楚的分界。
频域增强体现在计算输出结果的梯度轮廓损失上,模型的增强结果和训练集的真实值进行梯度轮廓损失函数计算,计算的损失值和像素域损失值共同反向传播到视频图像增强网络模型。
训练过程中,最小均方损失函数初始学习率设置为1E-4,权重为1和梯度轮廓损失初始学习率为计算值,权重设置为1。如果损失值在五个周期内没有波动,将最小均方损失函数学习率降为原来的0.5。在学习率低于1E-6时结束训练。
进一步的,步骤四具体方法如下;
输入低质量图像到增强网络中。首先图像经过卷积核大小为3×3的单卷积层处理,将三个通道数的图像变成64通道,紧接着进过下采样层缩小特征图的大小,再经过密集残差块,残差块进行特征提取和特征映射,逐层将特征传递下去,最后所有密集残差块的输出进行拼接整合,得到最终提取的特征图像。再经过上采样层的像素洗牌生成像素域的高质量图,最后作为视频帧增强的输出结果。
本发明有以下的有益效果:
1.本发明所述的一种基于频率损失的创新性视频质量方法,通过在频域上进行计算梯度轮廓损失和像素域的密集残差连接配合,能使得低质量的视频帧输出菱角分明边缘清晰的视频帧。
2.本发明所述的一种基于神经网络的视频质量增强,同时在频域和像素域的联合操作大大提升了质量增强的效果。
附图说明
图1是本发明实施的检测流程示意图;
图2是本发明实施的网络模型结构原理图;
图3是本发明实施的图像增强的低质量视频帧;
图4是本发明实施的图像增强方法输出高质量图。
具体实施方式
如上述的技术方案和附图说明,
基于焦点损失的视频质量增强,包括整理数据集、训练模型和调式参数以及测试结果。我们使用NTIRE2022提出的视频数据集(LDV2.0),该数据集相对于LDV1.0额外的添加了95个视频,其中包含从YouTube和主流流媒体平台收集的视频。数据集由335个训练视频,每秒随机传输帧数(fps)从24到60不等。基于以上固定设置,本发明采用,20个给定的验证视频和通用高效视频编码标准测试序列作为最终测试集。
一种基于像素域和频域信息损失的视频去压缩伪影方法,步骤如下:
步骤一,数据预处理,获取高质量和低质量的视频数据集,具体方法如下:
将高质量的YUV视频无损转换成MPKV文件,再对其裁帧,视频帧作为训练集的真实值(Ground Truth);使用HM16编码对YUV视频进行压缩生成已压缩视频,并无损转换成MPKV文件,再裁帧,作为训练集的模糊值。
步骤二,搭建视频增强网络模型;
视频增强网络模型包括像素域增强分支。
所述的像素域增强分支由单卷积层,下采样层,密集残差层和上采样层组成。
所述的密集残差层采用16个密集残差块组成。由于在残差和网络深度的增加,每个卷积层的特征会逐渐分级,因为有不同的感受野,逐渐分级的特征对图像重建提供了重要信息,残差块会充分利用所有层的信息和特征。密集残差块包括邻近连接和局部特征融合,通过邻近连接将每个密集残差块在通道维度串联起来;邻近连接指的是每个残差块中的密集层都和会接收上一层密集残差块的局部信息。局部特征融合由卷积核为1×1的卷积层实现,降低每次输出的通道数,有助于更多残差块的训练。
所述的下采样层采用二维的像素洗牌对图像进行四倍下采样。使用缩放倍数为2的像素洗牌(PixelUnShuffle)将特征图的长和宽缩小为原来的0.5倍,通道数放大到四倍由64到256,最后生成特征图作为后续密集残差层的特征传递输入。
上采样层采用二维的像素洗牌对图像进行四倍上采样。使用缩放倍数为2的像素洗牌(PixelShuffle)将特征图的长和宽放大为原来的两倍,通道数缩小四倍由256到64,最后经过一个3×3的卷积核将64通道的特征图转换成三通道图像作为视频图像增强网络的输出结果。
步骤三训练视频图像增强网络模型;
训练网络采用Adam优化器,使用最小均方损失函数作为像素域的损失函数,损失函数和常用的L1范式函数相比,我们使用均方损失函数来训练模型能更好的处理边缘和彰显出好的性能和细节的锐化。频率域损失函数使用梯度轮廓损失函数。使用梯度轮廓损失函数使得梯度场生动地表现出视频的边缘特征和清楚的分界。
频域增强体现在计算输出结果的梯度轮廓损失上,模型的增强结果和训练集的真实值进行梯度轮廓损失函数计算,计算的损失值和像素域损失值共同反向传播到网络模型。梯度轮廓是基于梯度分布先验实现的。所谓的先验,图像梯度是由梯度轮廓表示,梯度轮廓是垂直于图像结构的梯度幅度的一维轮廓,梯度轮廓损失计算将梯度轮廓曲线进行一定比例的压缩,将图像转化成边缘更锐化和更清晰的图像。梯度轮廓损失计算通常用于在图像和视频任务中。该算法具有两个优点:(1)梯度场生动地表现出视频的特征:人物和背景。(2)低质量图像具有较宽的梯度场曲线,而高质量图像则具有较窄的梯度场曲线。通过数学计算可以方便地生成梯度场曲线,确保了一个稳定闭环监督。
训练过程中,最小均方损失函数初始学习率设置为1E-4,权重为1和梯度轮廓损失初始学习率为计算值,权重设置为1,前期较高的学习率使得网络能快速收敛到一个损失区间,后期较低的学习率使得网络进行微调,让模型效果达到最优的效果。如果损失值在五个周期内没有波动,将最小均方损失函数学习率降为原来的0.5。在学习率低于1E-6时结束训练。
步骤四,将低质量的视频帧输入增强网络模型得到高质量视频图像;
输入低质量图像到增强网络中,流程如图1所示。首先图像经过卷积核大小为3×3的单卷积层处理,将三个通道数的图像变成64通道,紧接着进过下采样层缩小特征图的大小,再经过密集残差块,残差块进行特征提取和特征映射,逐层将特征传递下去,最后所有密集残差块的输出进行拼接整合,得到最终提取的特征图像。再经过上采样层的像素洗牌生成像素域的高质量图,最后作为视频帧增强的输出结果。
Claims (5)
1.一种基于像素域和频域信息损失的视频去压缩伪影方法,其特征在于,步骤如下:
步骤一:数据预处理,获取高质量及低质量的视频帧数据集;
步骤二:搭建视频增强网络模型;
步骤三:使用步骤一生成的数据作为模型输入,训练低质量图像增强的网络模型;
步骤四:将低质量的视频帧输入模型得到高质量的视频帧。
2.根据权利要求1所述的一种基于像素域和频域信息损失的视频去压缩伪影方法,其特征在于,步骤一具体方法如下:
将高质量的YUV视频无损转换成MPKV文件,再对其裁帧,视频帧作为训练集的真实值;使用HM16编码对YUV视频进行压缩生成已压缩视频,并无损转换成MPKV文件,再裁帧,作为训练集的模糊值。
3.根据权利要求2所述的一种基于像素域和频域信息损失的视频去压缩伪影方法,其特征在于,步骤二具体方法如下;
视频增强网络模型包括像素域增强分支;
所述的像素域增强分支由单卷积层,下采样层,密集残差层和上采样层组成;
所述的密集残差层采用16个密集残差块组成;密集残差块包括邻近连接和局部特征融合,通过邻近连接将每个密集残差块在通道维度串联起来;邻近连接指的是每个残差块中的密集层都和会接收上一层密集残差块的局部信息;局部特征融合由卷积核为1×1的卷积层实现,降低每次输出的通道数,有助于更多残差块的训练;
所述的下采样层采用二维的像素洗牌对图像进行四倍下采样;使用缩放倍数为2的像素洗牌将特征图的长和宽缩小为原来的0.5倍,通道数放大到四倍由64到256,最后生成特征图作为后续密集残差层的特征传递输入;
上采样层采用二维的像素洗牌对图像进行四倍上采样;使用缩放倍数为2的像素洗牌将特征图的长和宽放大为原来的两倍,通道数缩小四倍由256到64,最后经过一个3×3的卷积核将64通道的特征图转换成三通道图像作为视频图像增强网络的输出结果。
4.根据权利要求3所述的一种基于像素域和频域信息损失的视频去压缩伪影方法,其特征在于,步骤三具体方法如下;
训练网络采用Adam优化器,使用最小均方损失函数作为像素域的损失函数;频率域损失函数使用梯度轮廓损失函数,使用梯度轮廓损失函数使得梯度场生动地表现出视频的边缘特征和清楚的分界;
频域增强体现在计算输出结果的梯度轮廓损失上,模型的增强结果和训练集的真实值进行梯度轮廓损失函数计算,计算的损失值和像素域损失值共同反向传播到视频图像增强网络模型;
训练过程中,最小均方损失函数初始学习率设置为1E-4,权重为1和梯度轮廓损失初始学习率为计算值,权重设置为1;如果损失值在五个周期内没有波动,将最小均方损失函数学习率降为原来的0.5;在学习率低于1E-6时结束训练。
5.根据权利要求4所述的一种基于像素域和频域信息损失的视频去压缩伪影方法,其特征在于,步骤四具体方法如下;
输入低质量图像到增强网络中;首先图像经过卷积核大小为3×3的单卷积层处理,将三个通道数的图像变成64通道,紧接着进过下采样层缩小特征图的大小,再经过密集残差块,残差块进行特征提取和特征映射,逐层将特征传递下去,最后所有密集残差块的输出进行拼接整合,得到最终提取的特征图像;再经过上采样层的像素洗牌生成像素域的高质量图,最后作为视频帧增强的输出结果。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211203733.6A CN115511747A (zh) | 2022-09-29 | 2022-09-29 | 一种基于像素域和频域信息损失的视频去压缩伪影方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211203733.6A CN115511747A (zh) | 2022-09-29 | 2022-09-29 | 一种基于像素域和频域信息损失的视频去压缩伪影方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN115511747A true CN115511747A (zh) | 2022-12-23 |
Family
ID=84508505
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202211203733.6A Withdrawn CN115511747A (zh) | 2022-09-29 | 2022-09-29 | 一种基于像素域和频域信息损失的视频去压缩伪影方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN115511747A (zh) |
-
2022
- 2022-09-29 CN CN202211203733.6A patent/CN115511747A/zh not_active Withdrawn
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN107018422B (zh) | 基于深度卷积神经网络的静止图像压缩方法 | |
CN110751597B (zh) | 基于编码损伤修复的视频超分辨方法 | |
CN110087092B (zh) | 基于图像重构卷积神经网络的低码率视频编解码方法 | |
CN106709875B (zh) | 一种基于联合深度网络的压缩低分辨率图像复原方法 | |
CN103607591A (zh) | 结合超分辨率重建的图像压缩方法 | |
CN104199627B (zh) | 基于多尺度在线字典学习的可分级视频编码系统 | |
CN109903351B (zh) | 基于卷积神经网络和传统编码相结合的图像压缩方法 | |
CN112738533B (zh) | 一种机巡图像分区域压缩方法 | |
WO2023005699A1 (zh) | 视频增强网络训练方法、视频增强方法及装置 | |
CN109361919A (zh) | 一种联合超分辨率和去压缩效应的图像编码性能提升方法 | |
CN109922339A (zh) | 结合多采样率下采样和超分辨率重建技术的图像编码框架 | |
CN112509071B (zh) | 一种亮度信息辅助的色度信息压缩重建方法 | |
CN112218094A (zh) | 一种基于dct系数预测的jpeg图像去压缩效应方法 | |
Hu et al. | An adaptive two-layer light field compression scheme using GNN-based reconstruction | |
CN111726638A (zh) | 一种结合去压缩效应与超分辨率的hevc编码优化方法 | |
CN104780383B (zh) | 一种3d‑hevc多分辨率视频编码方法 | |
CN110545426B (zh) | 基于编码损伤修复cnn的空域可分级视频编码方法 | |
CN115442613A (zh) | 一种利用gan的基于帧间信息的噪声去除方法 | |
US8031782B2 (en) | Systems and methods for compression, transmission and decompression of video codecs | |
CN115131254A (zh) | 一种基于双域学习的恒定码率压缩视频质量增强方法 | |
CN115511747A (zh) | 一种基于像素域和频域信息损失的视频去压缩伪影方法 | |
CN115665413A (zh) | 图像压缩最优量化参数的估计方法 | |
CN106709873A (zh) | 一种基于三次样条插值和迭代更新的超分辨率方法 | |
CN108989812B (zh) | 一种基于图像压缩的去块效应方法 | |
CN109218738B (zh) | 一种基于二阶梯度的图像去块效应滤波方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
WW01 | Invention patent application withdrawn after publication | ||
WW01 | Invention patent application withdrawn after publication |
Application publication date: 20221223 |