CN112291570B - 一种基于轻量级可形变卷积神经网络的实时视频增强方法 - Google Patents

一种基于轻量级可形变卷积神经网络的实时视频增强方法 Download PDF

Info

Publication number
CN112291570B
CN112291570B CN202011553656.8A CN202011553656A CN112291570B CN 112291570 B CN112291570 B CN 112291570B CN 202011553656 A CN202011553656 A CN 202011553656A CN 112291570 B CN112291570 B CN 112291570B
Authority
CN
China
Prior art keywords
video
convolution
deformable
network
pruning
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202011553656.8A
Other languages
English (en)
Other versions
CN112291570A (zh
Inventor
卓成
闫心刚
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Zhejiang University ZJU
Original Assignee
Zhejiang University ZJU
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Zhejiang University ZJU filed Critical Zhejiang University ZJU
Priority to CN202011553656.8A priority Critical patent/CN112291570B/zh
Publication of CN112291570A publication Critical patent/CN112291570A/zh
Application granted granted Critical
Publication of CN112291570B publication Critical patent/CN112291570B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/42Methods or arrangements for coding, decoding, compressing or decompressing digital video signals characterised by implementation details or hardware specially adapted for video compression or decompression, e.g. dedicated software implementation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/85Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using pre-processing or post-processing specially adapted for video compression
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N5/00Details of television systems
    • H04N5/14Picture signal circuitry for video frequency region
    • H04N5/21Circuitry for suppressing or minimising disturbance, e.g. moiré or halo

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Signal Processing (AREA)
  • Multimedia (AREA)
  • General Health & Medical Sciences (AREA)
  • Computing Systems (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Biomedical Technology (AREA)
  • Molecular Biology (AREA)
  • Biophysics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Artificial Intelligence (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Picture Signal Circuits (AREA)

Abstract

本发明公开了一种基于轻量级可形变卷积神经网络的实时视频增强方法,涉及如何基于可形变卷积操作构造神经网络以实现视频增强的效果,以及如何通过剪枝使视频增强网络轻量化以满足实时性要求。构造由可形变卷积计算部分以及图像质量增强部分构成的视频增强网络,网络将多帧连续图像作为输入,将中间帧的增强结果作为输出,同时利用可形变卷积操作综合时间维度和空间维度的特征信息,可达到良好的视频增强效果。而后,通过对于卷积层的权重进行剪枝,降低视频网络的参数量和计算量,满足视频增强任务的实时性要求。

Description

一种基于轻量级可形变卷积神经网络的实时视频增强方法
技术领域
本发明涉及图像及视频领域,具体涉及一种基于轻量级可形变卷积神经网络的视频增强方法。
背景技术
伴随着市场需求的变化,视频图像的高清化发展方向愈发明显,但是视频在传输中往往需要在发送端先编码以降低传输量,而在接收端后解码出视频,根据编码视频压缩程度不同,解码出的视频清晰度不同,对于较为模糊的视频,往往需要进行一定的增强。与此同时,伴随着数据量的增加和计算机算力的提高,深度神经网络在图像分类、目标检测等若干图像问题上表现出色,开始出现基于深度学习的视频增强算法研究。
非专利文献2(C.Dong, et.al,“Deep Convolution Networks for CompressionArtifacts Reduction.”Proc.ICCV, 2015)中最开始用深度卷积神经网络针对压缩图像的人工痕迹修复,取得了相对于传统图像处理算法更好的效果,但是其将单帧图像作为输入,存在没有充分利用视频时间维度信息的问题,同时其神经网络模型参数量大,计算复杂度高,难以满足实时性要求。
为了针对于视频增强任务,设计了一种基于轻量级可形变卷积神经网络的实时视频增强方法。
发明内容
本发明目的在于针对现有技术的不足,提出一种基于轻量级可形变卷积神经网络的实时视频增强方法,该方法利用视频时间维度和空间维度的信息,同时满足于实时性的要求,实现模糊视频的实时增强。
本发明的目的是通过以下技术方案来实现的:一种基于轻量级可形变卷积神经网络的实时视频增强方法,该方法包括以下步骤:
1)构建基于可形变卷积的视频增强网络;
1.1)视频增强网络包括两个部分:可形变卷积计算部分和图像质量增强部分;
可形变卷积计算部分由若干卷积层、若干激活层和若干可形变卷积层组成,图像质量增强部分由若干卷积层和若干激活层组成,可形变卷积计算部分的输出作为图像质量增强部分的输入;
1.2)视频增强网络的输入输出关系为:
对于待增强的模糊视频,按照时间先后顺序,从前往后逐帧增强视频图像;记待增 强的视频图像为目标帧,对时间为
Figure 100002_DEST_PATH_IMAGE001
的目标帧
Figure 100002_DEST_PATH_IMAGE002
进行增强处理时,分别取其相邻的前R帧
Figure 100002_DEST_PATH_IMAGE003
和后R帧
Figure 100002_DEST_PATH_IMAGE004
,与目标帧
Figure 100002_DEST_PATH_IMAGE005
连接起来,共2R+1帧图像作为视频增强 网络的输入;输入的每帧图像的高为H,宽为W;视频增强网络的输出为:时间为
Figure 100002_DEST_PATH_IMAGE006
的与目标 帧相对应的增强帧
Figure 100002_DEST_PATH_IMAGE007
2)视频增强网络的训练以及压缩;
从公开的数据集中选择未经过压缩的视频并做压缩处理得到压缩后的模糊视频,并将所有视频分为训练数据集和验证数据集,训练数据集以及验证数据集中每个模糊视频都会有其对应的清晰视频;
2.1)通过训练使得视频增强网络收敛,记录此时在验证数据集上的峰值信噪比 PSNR为
Figure 100002_DEST_PATH_IMAGE008
;设置目标剪枝率
Figure 100002_DEST_PATH_IMAGE009
,初始剪枝率
Figure 100002_DEST_PATH_IMAGE010
等于0,剪枝循环次数 为N;
2.2)剪枝操作的迭代过程具体为:
Figure 100002_DEST_PATH_IMAGE011
式中,
Figure 100002_DEST_PATH_IMAGE012
表示第h次迭代后的剪枝率;
根据迭代后的剪枝率对卷积层和可形变卷积层按照如下规则进行剪枝:
卷积层和可形变卷积层的输入通道数为
Figure 100002_DEST_PATH_IMAGE013
,卷积核的尺寸为K×K,输出通道为
Figure 100002_DEST_PATH_IMAGE014
,那么卷积核参数量为
Figure 100002_DEST_PATH_IMAGE015
;将卷积核参数用矩阵形式表示,记为
Figure 100002_DEST_PATH_IMAGE016
,矩阵 的行数为
Figure 629894DEST_PATH_IMAGE014
,列数为
Figure 100002_DEST_PATH_IMAGE017
,矩阵中第i行第j列的参数表示为
Figure 100002_DEST_PATH_IMAGE018
;对参数矩阵
Figure 281456DEST_PATH_IMAGE016
的 每行求取绝对值均值:
Figure 100002_DEST_PATH_IMAGE019
对于每行的绝对值均值按照从小到大的顺序进行排序;将排序后前
Figure 100002_DEST_PATH_IMAGE020
个绝对值均值所对应参数矩阵
Figure 857930DEST_PATH_IMAGE016
中的行移除,获得新的参数矩阵
Figure 100002_DEST_PATH_IMAGE021
, 其中
Figure 100002_DEST_PATH_IMAGE022
的取值在(0,1)之间;对新的参数矩阵
Figure 846615DEST_PATH_IMAGE021
每行进行归一化,得到归一化后的参数矩阵
Figure 100002_DEST_PATH_IMAGE023
;求取方矩阵
Figure 100002_DEST_PATH_IMAGE024
对矩阵
Figure 100002_DEST_PATH_IMAGE025
每行求取绝对值之和,然后将每行的绝对值之和按照从小到大的顺 序进行排序;将排序后的前
Figure 100002_DEST_PATH_IMAGE026
个值所对应到新的参数矩阵
Figure 723304DEST_PATH_IMAGE021
中的 行移除;获得剪枝后的参数矩阵
Figure 100002_DEST_PATH_IMAGE027
;对于卷积层参数而言,只保留剪枝后参数矩阵
Figure 14608DEST_PATH_IMAGE027
所对应的参数值;
2.3)重新训练剪枝后的网络,待网络收敛之后,记录此时在验证数据集上的峰值 信噪比PSNR为
Figure 100002_DEST_PATH_IMAGE028
;判断是否满足终止条件,终止条件有两个,第一个如下:
Figure 100002_DEST_PATH_IMAGE029
Figure 100002_DEST_PATH_IMAGE030
为精度下降的容忍度,取值为
Figure 100002_DEST_PATH_IMAGE031
第二个终止条件为:
Figure DEST_PATH_IMAGE032
满足两个终止条件中的任意一个,则终止剪枝过程,获得剪枝后的视频增强网络,否则,重复步骤2.2)和2.3);
3)将待增强的模糊视频输入到剪枝后的视频增强网络中,实现视频的实时增强。
进一步地,可形变卷积计算部分为通过可形变卷积对输入的(2R+1)帧图像进行可 形变卷积计算;首先由输入的2R+1帧视频图像经过卷积层和激活层获得可形变卷积计算所 需的偏移量;偏移量数目为
Figure 100002_DEST_PATH_IMAGE033
,其中H和W为输入图像的高和宽,K为卷 积核的大小;可形变卷积对于视频中每帧、每个位置的像素均有
Figure 100002_DEST_PATH_IMAGE034
的偏移量,可形变卷积的 计算公式如下:
Figure 100002_DEST_PATH_IMAGE035
其中
Figure 100002_DEST_PATH_IMAGE036
表示时间为t的卷积核参数,
Figure 100002_DEST_PATH_IMAGE037
表示当前运算的像素点位置,
Figure 100002_DEST_PATH_IMAGE038
表示卷积的 偏移量,
Figure 100002_DEST_PATH_IMAGE039
表示时空坐标为(t,p)的偏移量,
Figure 100002_DEST_PATH_IMAGE040
表示整体可形变卷积层的偏移 量,
Figure 100002_DEST_PATH_IMAGE041
表示时间为t时的可形变卷积计算部分的输入的视频帧;
Figure 100002_DEST_PATH_IMAGE042
为可形变卷积层输出 特征图像素点位置为
Figure 70857DEST_PATH_IMAGE037
的值。
进一步地,可形变卷积计算部分的卷积层、激活层和可形变卷积层的数量以及图像质量增强部分的卷积层和激活层数量根据视频增强的效果以及实时性的要求来确定。
进一步地,从公开数据集Xiph和VQEG中选择130个未经过压缩的视频,然后将选择的视频通过H.265/HEVC算法做压缩处理,得到压缩后的模糊视频,其中106个视频作为训练数据集,24个视频作为验证数据集。
进一步地,视频增强网络训练过程中的的损失函数为:
Figure 100002_DEST_PATH_IMAGE043
其中
Figure 100002_DEST_PATH_IMAGE044
为视频增强网络输出的时间为
Figure 738598DEST_PATH_IMAGE006
的目标帧所对应的增强帧,
Figure 100002_DEST_PATH_IMAGE045
为时间为
Figure 952DEST_PATH_IMAGE006
的目标帧所对应的清晰图像。
进一步地,剪枝并训练完成后的视频增强网络采用TensorRT部署在英伟达GPU设备上,运算精度类型采用半精度类型,输入待压缩的模糊视频,实现视频的实时增强。
本发明的有益效果是:本发明提供了一种基于轻量级可变形卷积网络的视频增强方法,用可变形卷积网络充分利用视频的时间维度和空间维度的信息,具有更高的效率和鲁棒性,同时利用对于卷积层权重进行分析来进行剪枝,使视频增强网络轻量化。利用可变形卷积网络得到的图像融合结果对压缩图像进行增强,不论从主观视觉上还是从客观评价指标上都比现有最先进技术获得了更高质量的图像,具有更高的准确度。除了视频图像增强领域,本发明提出的可变形卷积网络还可以应用到其他视频处理任务,包括超分辨率、重建等。
附图说明
图1是本发明的视频增强网络结构图;
图2是本发明的某模糊视频图像;
图3是本发明的图2模糊视频图像增强图。
具体实施方式
以下结合附图对本发明具体实施方式作进一步详细说明。
1)构建基于可形变卷积视频增强网络。
1.1)视频增强网络包括两个部分:可形变卷积计算部分、图像质量增强部分。
可形变卷积计算部分由卷积层、激活层、可形变卷积层组成。
可形变卷积计算部分为通过可形变卷积对输入的(2R+1)帧图像进行可形变卷积计算,本示例中R的取值为3。首先由输入的(2R+1=7)帧视频图像经过小型卷积神经网络获得可形变卷积计算所需的偏移量。
如图1可形变卷积计算部分对于小型卷积神经网络CNN_s的表示,CNN_s结构为:
①卷积核为3×3、步长为1、padding为1、输入通道数为7、输出通道数为16的卷积层+ReLU激活层;
②卷积核为3×3、步长为2、输入通道数为16、输出通道数为32的卷积层+ReLU激活层;
③卷积核为3×3、步长为2、输入通道数为32、输出通道数为64的卷积层+ReLU激活层;
④卷积核为3×3、步长为2、输入通道数为64、输出通道数为64的卷积层+ReLU激活层;
⑤最邻近插值上采样;
⑥卷积核为3×3、步长为1、padding为1、输入通道数为128、输出通道数为32的卷积层+ReLU激活层;
⑦最邻近插值上采样;
⑧卷积核为3×3、步长为1、padding为1、输入通道数为64、输出通道数为16的卷积层+ReLU激活层;
⑨最邻近插值上采样;
⑩卷积核为3×3、步长为1、padding为1、输入通道数为32、输出通道数为
Figure 100002_DEST_PATH_IMAGE046
的卷积层;
偏移量数目为
Figure DEST_PATH_IMAGE047
,H为输入图像的高,W为输入图像的宽,其中 K为卷积核的大小。本示例中,H=240,W=416,K=3。可形变卷积对于视频中每帧、每个位置的 像素均有
Figure DEST_PATH_IMAGE048
的偏移量,可形变卷积的计算公式如下:
Figure DEST_PATH_IMAGE049
其中
Figure 56633DEST_PATH_IMAGE036
表示时间为t的卷积核参数,
Figure 76542DEST_PATH_IMAGE037
表示当前运算的像素点位置,
Figure 16816DEST_PATH_IMAGE038
表示卷积的 偏移量,
Figure 805780DEST_PATH_IMAGE039
表示时空坐标为(t,p)的偏移量,
Figure DEST_PATH_IMAGE050
表示整体可形变卷积层的偏移 量,
Figure 829100DEST_PATH_IMAGE041
表示时间为t时的可形变卷积计算部分的输入的视频帧;
Figure DEST_PATH_IMAGE051
为可形变卷积层输出 特征图像素点位置为
Figure 273988DEST_PATH_IMAGE037
的值。可形变卷积输出的通道数目为48。
图像质量增强部分由卷积层、激活层组成,整体网络结构与UNet结构类似。
如图1图像质量增强部分所示,其结构为:
①卷积核为3×3、步长为1、padding为1、输入通道数为48、输出通道数为32的卷积层+ReLU激活层;
②卷积核为3×3、步长为2、输入通道数为32、输出通道数为64的卷积层+ReLU激活层;卷积核为3×3、步长为1、padding为1、输入通道数为64、输出通道数为64的卷积层+ReLU激活层;
③卷积核为3×3、步长为2、输入通道数为64、输出通道数为128的卷积层+ReLU激活层;卷积核为3×3、步长为1、padding为1、输入通道数为128、输出通道数为128的卷积层+ReLU激活层;
④卷积核为3×3、步长为2、输入通道数为128、输出通道数为256的卷积层+ReLU激活层;卷积核为3×3、步长为1、padding为1、输入通道数为256、输出通道数为128的卷积层+ReLU激活层;
⑤最邻近插值上采样;
⑥卷积核为3×3、步长为1、padding为1、输入通道数为256、输出通道数为64的卷积层+ReLU激活层;卷积核为3×3、步长为1、padding为1、输入通道数为64、输出通道数为64的卷积层+ReLU激活层;
⑦最邻近插值上采样;
⑧卷积核为3×3、步长为1、padding为1、输入通道数为128、输出通道数为32的卷积层+ReLU激活层;卷积核为3×3、步长为1、padding为1、输入通道数为32、输出通道数为32的卷积层+ReLU激活层;
⑨最邻近插值上采样;
1.2)视频增强网络的输入输出关系为:
对于待增强的模糊视频,按照时间先后顺序,从前往后逐帧增强视频图像。记要增 强的视频图像为目标帧,对时间为
Figure 814691DEST_PATH_IMAGE001
的目标帧
Figure 786058DEST_PATH_IMAGE002
进行增强处理时,分别取其相邻的前R帧
Figure 590066DEST_PATH_IMAGE003
和后R帧
Figure 584566DEST_PATH_IMAGE004
,与目标帧
Figure 663381DEST_PATH_IMAGE005
连接起来,共2R+1帧图像作为视频增强 网络的输入。输入的每帧图像的高为H,宽为W。此示例中R=3,H=240,W=416。视频增强网络的 输出为时间为
Figure 489254DEST_PATH_IMAGE006
的与目标帧相对应的增强帧
Figure 526481DEST_PATH_IMAGE007
2)视频增强网络的训练以及压缩。
从公开数据集Xiph和VQEG中选择130个未经过压缩的视频,然后将选择的视频通过H.265/HEVC算法做压缩处理,得到压缩后的模糊视频,其中106个视频作为训练数据集,24个视频作为验证数据集。训练数据集以及验证数据集中每个模糊视频都会有其对应的清晰视频。视频增强网络训练过程中的的损失函数为:
Figure DEST_PATH_IMAGE052
其中
Figure 945961DEST_PATH_IMAGE044
为视频增强网络输出的时间为
Figure 156362DEST_PATH_IMAGE006
的目标帧所对应的增强帧,
Figure DEST_PATH_IMAGE053
为时间为
Figure 977688DEST_PATH_IMAGE006
的目标帧所对应的清晰图像。
2.1)通过训练使得视频增强网络收敛,记录此时在验证数据集上的峰值信噪比 (PSNR)为
Figure 920236DEST_PATH_IMAGE008
=0.67。设置目标剪枝率
Figure DEST_PATH_IMAGE054
=0.45,初始剪枝率
Figure 954575DEST_PATH_IMAGE010
等于0, 剪枝循环次数为N=10。
2.2)剪枝操作的迭代过程具体为:
Figure 640772DEST_PATH_IMAGE011
式中,
Figure 316604DEST_PATH_IMAGE012
表示第h次迭代后的剪枝率。
根据迭代后的剪枝率对卷积层和可形变卷积层按照如下规则进行剪枝:
卷积层和可形变卷积层的输入通道数为
Figure 695632DEST_PATH_IMAGE013
,卷积核的尺寸为K×K,输出通道为
Figure 948759DEST_PATH_IMAGE014
,那么卷积核参数量为
Figure 173067DEST_PATH_IMAGE015
;将卷积核参数用矩阵形式表示,记为
Figure 500143DEST_PATH_IMAGE016
,矩阵 的行数为
Figure 987756DEST_PATH_IMAGE014
,列数为
Figure DEST_PATH_IMAGE055
,矩阵中第i行第j列的参数表示为
Figure 993758DEST_PATH_IMAGE018
;对参数矩阵
Figure 287337DEST_PATH_IMAGE016
的 每行求取绝对值均值:
Figure 672182DEST_PATH_IMAGE019
对于每行的绝对值均值按照从小到大的顺序进行排序。将排序后前
Figure 127434DEST_PATH_IMAGE020
个绝对值均值所对应参数矩阵
Figure 355153DEST_PATH_IMAGE016
中的行移除,获得新的参数矩阵
Figure 921263DEST_PATH_IMAGE021
, 其中
Figure 488511DEST_PATH_IMAGE022
的取值在(0,1)之间,本发明中
Figure 317927DEST_PATH_IMAGE056
。对新的参数矩阵
Figure 32942DEST_PATH_IMAGE021
每行进行归一化,得到归 一化后的参数矩阵
Figure 668322DEST_PATH_IMAGE023
;求取方矩阵
Figure DEST_PATH_IMAGE057
对矩阵
Figure 762180DEST_PATH_IMAGE025
每行求取绝对值之和,然后将每行的绝对值之和按照从小到大的顺 序进行排序;将排序后的前
Figure DEST_PATH_IMAGE058
个值所对应到新的参数矩阵
Figure 152710DEST_PATH_IMAGE021
中的 行移除;获得剪枝后的参数矩阵
Figure 27125DEST_PATH_IMAGE027
;对于卷积层参数而言,只保留剪枝后参数矩阵
Figure 59672DEST_PATH_IMAGE027
所对应的参数值。
2.3)重新训练剪枝后的网络,待网络收敛之后,记录此时在验证数据集上的峰值 信噪比(PSNR)为
Figure 335933DEST_PATH_IMAGE028
。判断是否满足终止条件,终止条件有两个,第一个如下:
Figure 507151DEST_PATH_IMAGE029
Figure 868862DEST_PATH_IMAGE030
为精度下降的容忍度,一般取
Figure 905433DEST_PATH_IMAGE031
第二个终止条件为:
Figure DEST_PATH_IMAGE059
满足两个终止条件中的任意一个,则终止剪枝过程,获得剪枝后的视频增强网络,否则,重复步骤2.2)和2.3)。
在本发明实施例中,迭代10次以后,满足第二个终止条件。
3)视频增强网络的部署。
剪枝并训练完成后的视频增强网络采用TensorRT部署在英伟达GPU设备上,运算精度类型采用半精度类型,输入待压缩的模糊视频,实现视频的实时增强,对于480P的视频,帧率能够达到20.1帧/秒。图2为待增强的模糊视频图像示例,图3为图2的模糊视频图像采用本发明方法后所对应的增强视频图像。
上述实施例用来解释说明本发明,而不是对本发明进行限制,在本发明的精神和权利要求的保护范围内,对本发明作出的任何修改和改变,都落入本发明的保护范围。

Claims (6)

1.一种基于轻量级可形变卷积神经网络的实时视频增强方法,其特征在于,该方法包括以下步骤:
1)构建基于可形变卷积的视频增强网络;
1.1)视频增强网络包括两个部分:可形变卷积计算部分和图像质量增强部分;
可形变卷积计算部分由若干卷积层、若干激活层和若干可形变卷积层组成,图像质量增强部分由若干卷积层和若干激活层组成,可形变卷积计算部分的输出作为图像质量增强部分的输入;
1.2)视频增强网络的输入输出关系为:
对于待增强的模糊视频,按照时间先后顺序,从前往后逐帧增强视频图像;记待增强的 视频图像为目标帧,对时间为
Figure DEST_PATH_IMAGE001
的目标帧
Figure DEST_PATH_IMAGE002
进行增强处理时,分别取其相邻的前R帧
Figure DEST_PATH_IMAGE003
和后R帧
Figure DEST_PATH_IMAGE004
,与目标帧
Figure DEST_PATH_IMAGE005
连接起来,共2R+1帧图像作为视频增强 网络的输入;视频增强网络的输出为:时间为
Figure DEST_PATH_IMAGE006
的与目标帧相对应的增强帧
Figure DEST_PATH_IMAGE007
2)视频增强网络的训练以及压缩;
从公开的数据集中选择未经过压缩的视频并做压缩处理得到压缩后的模糊视频,并将所有视频分为训练数据集和验证数据集,训练数据集以及验证数据集中每个模糊视频都会有其对应的清晰视频;
2.1)通过训练使得视频增强网络收敛,记录此时在验证数据集上的峰值信噪比PSNR为
Figure DEST_PATH_IMAGE008
;设置目标剪枝率
Figure DEST_PATH_IMAGE009
,初始剪枝率
Figure DEST_PATH_IMAGE010
等于0,剪枝循环次数为N;
2.2)剪枝操作的迭代过程具体为:
Figure DEST_PATH_IMAGE011
式中,
Figure DEST_PATH_IMAGE012
表示第h次迭代后的剪枝率;
根据迭代后的剪枝率对卷积层和可形变卷积层按照如下规则进行剪枝:
卷积层和可形变卷积层的输入通道数为
Figure DEST_PATH_IMAGE013
,卷积核的尺寸为K×K,输出通道为
Figure DEST_PATH_IMAGE014
,那 么卷积核参数为
Figure DEST_PATH_IMAGE015
;将卷积核参数用矩阵形式表示,记为
Figure DEST_PATH_IMAGE016
,矩阵的行数为
Figure 862194DEST_PATH_IMAGE014
,列数为
Figure DEST_PATH_IMAGE017
,矩阵中第i行第j列的参数表示为
Figure DEST_PATH_IMAGE018
;对参数矩阵
Figure 310493DEST_PATH_IMAGE016
的每行求取 绝对值均值:
Figure DEST_PATH_IMAGE019
对于每行的绝对值均值按照从小到大的顺序进行排序;将排序后的前
Figure DEST_PATH_IMAGE020
个绝对值均值所对应参数矩阵
Figure 260869DEST_PATH_IMAGE016
中的行移除,获得新的参数矩阵
Figure DEST_PATH_IMAGE021
, 其中
Figure DEST_PATH_IMAGE022
的取值在(0,1)之间;对新的参数矩阵
Figure 265866DEST_PATH_IMAGE021
每行进行归一化,得到归一化后的参数矩阵
Figure DEST_PATH_IMAGE023
;求取方阵
Figure DEST_PATH_IMAGE024
对矩阵
Figure DEST_PATH_IMAGE025
每行求取绝对值之和,然后将每行的绝对值之和按照从小到大的顺序进行 排序;将排序后的前
Figure DEST_PATH_IMAGE026
个值所对应的新的参数矩阵
Figure 284767DEST_PATH_IMAGE021
中的行移 除;获得剪枝后的参数矩阵
Figure DEST_PATH_IMAGE027
;对于卷积层参数而言,只保留剪枝后参数矩阵
Figure 435125DEST_PATH_IMAGE027
所对 应的参数值;
2.3)重新训练剪枝后的网络,待网络收敛之后,记录此时在验证数据集上的峰值信噪 比PSNR为
Figure DEST_PATH_IMAGE028
;判断是否满足终止条件,终止条件有两个,第一个如下:
Figure DEST_PATH_IMAGE029
Figure DEST_PATH_IMAGE030
为精度下降的容忍度,取值为
Figure DEST_PATH_IMAGE031
第二个终止条件为:
Figure DEST_PATH_IMAGE033
满足两个终止条件中的任意一个,则终止剪枝过程,获得剪枝后的视频增强网络,否则,重复步骤2.2)和2.3);
3)将待增强的模糊视频输入到剪枝后的视频增强网络中,实现视频的实时增强。
2.根据权利要求1所述的一种基于轻量级可形变卷积神经网络的实时视频增强方法, 其特征在于,可形变卷积计算部分为通过可形变卷积对输入的(2R+1)帧图像进行可形变卷 积计算;首先由输入的2R+1帧视频图像经过卷积层和激活层获得可形变卷积计算所需的偏 移量;偏移量数目为
Figure DEST_PATH_IMAGE034
,其中H和W为输入图像的高和宽,K为卷积核的 大小;可形变卷积对于视频中每帧、每个位置的像素均有
Figure DEST_PATH_IMAGE035
的偏移量,可形变卷积的计算公 式如下:
Figure DEST_PATH_IMAGE036
其中
Figure DEST_PATH_IMAGE037
表示时间为t的卷积核参数,
Figure DEST_PATH_IMAGE038
表示当前运算的像素点位置,
Figure DEST_PATH_IMAGE039
表示卷积的偏移 量,
Figure DEST_PATH_IMAGE040
表示时空坐标为(t,p)的偏移量,
Figure DEST_PATH_IMAGE041
表示整体可形变卷积层的偏移量,
Figure DEST_PATH_IMAGE042
表示时间为t时的可形变卷积计算部分的输入的视频帧;
Figure DEST_PATH_IMAGE043
为可形变卷积层输出特征 图像素点位置为
Figure 403956DEST_PATH_IMAGE038
的值。
3.根据权利要求1所述的一种基于轻量级可形变卷积神经网络的实时视频增强方法,其特征在于,可形变卷积计算部分的卷积层、激活层和可形变卷积层的数量以及图像质量增强部分的卷积层和激活层数量根据视频增强的效果以及实时性的要求来确定。
4.根据权利要求1所述的一种基于轻量级可形变卷积神经网络的实时视频增强方法,其特征在于,从公开数据集Xiph和VQEG中选择130个未经过压缩的视频,然后将选择的视频通过H.265/HEVC算法做压缩处理,得到压缩后的模糊视频,其中106个视频作为训练数据集,24个视频作为验证数据集。
5.根据权利要求1所述的一种基于轻量级可形变卷积神经网络的实时视频增强方法,其特征在于,视频增强网络训练过程中的损失函数为:
Figure DEST_PATH_IMAGE044
其中
Figure DEST_PATH_IMAGE045
为视频增强网络输出的时间为
Figure 773495DEST_PATH_IMAGE006
的目标帧所对应的增强帧,
Figure DEST_PATH_IMAGE046
为时间为
Figure 255423DEST_PATH_IMAGE006
的 目标帧所对应的清晰图像。
6.根据权利要求1所述的一种基于轻量级可形变卷积神经网络的实时视频增强方法,其特征在于,剪枝并训练完成后的视频增强网络采用TensorRT部署在英伟达GPU设备上,运算精度类型采用半精度类型,输入待压缩的模糊视频,实现视频的实时增强。
CN202011553656.8A 2020-12-24 2020-12-24 一种基于轻量级可形变卷积神经网络的实时视频增强方法 Active CN112291570B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011553656.8A CN112291570B (zh) 2020-12-24 2020-12-24 一种基于轻量级可形变卷积神经网络的实时视频增强方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011553656.8A CN112291570B (zh) 2020-12-24 2020-12-24 一种基于轻量级可形变卷积神经网络的实时视频增强方法

Publications (2)

Publication Number Publication Date
CN112291570A CN112291570A (zh) 2021-01-29
CN112291570B true CN112291570B (zh) 2021-03-26

Family

ID=74426332

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011553656.8A Active CN112291570B (zh) 2020-12-24 2020-12-24 一种基于轻量级可形变卷积神经网络的实时视频增强方法

Country Status (1)

Country Link
CN (1) CN112291570B (zh)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112906721B (zh) * 2021-05-07 2021-07-23 腾讯科技(深圳)有限公司 图像处理方法、装置、设备及计算机可读存储介质
CN113450280A (zh) * 2021-07-07 2021-09-28 电子科技大学 一种由粗到细地融合时空信息的压缩视频质量增强方法
CN114827616B (zh) * 2022-04-28 2023-03-10 电子科技大学 一种基于时空信息平衡的压缩视频质量增强方法
CN115103188B (zh) * 2022-08-24 2022-12-30 中南大学 Svc的错误隐藏方法、模型训练方法、系统及设备

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108235058A (zh) * 2018-01-12 2018-06-29 广州华多网络科技有限公司 视频质量处理方法、存储介质和终端

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CA2638465A1 (en) * 2007-08-01 2009-02-01 Jean-Yves Chouinard Learning filters for enhancing the quality of block coded still and video images

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108235058A (zh) * 2018-01-12 2018-06-29 广州华多网络科技有限公司 视频质量处理方法、存储介质和终端

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
《基于SSD的轻量级车辆检测网络》;乔延婷;《信号与信息处理》;20201130;全文 *
《基于深度残差网络的HEVC压缩视频增强》;何晓艺;《计算机科学》;20190331;全文 *
《时空域上下文学习的视频多帧质量增强方法》;佟骏超;《北京航空航天大学学报》;20191231;全文 *

Also Published As

Publication number Publication date
CN112291570A (zh) 2021-01-29

Similar Documents

Publication Publication Date Title
CN112291570B (zh) 一种基于轻量级可形变卷积神经网络的实时视频增强方法
Anwar et al. Densely residual laplacian super-resolution
Mao et al. Image restoration using convolutional auto-encoders with symmetric skip connections
CN108765296B (zh) 一种基于递归残差注意力网络的图像超分辨率重建方法
CN109903228B (zh) 一种基于卷积神经网络的图像超分辨率重建方法
CN111028150B (zh) 一种快速时空残差注意力视频超分辨率重建方法
Li et al. Learning a deep dual attention network for video super-resolution
CN108734661B (zh) 基于图像纹理信息构建损失函数的高分辨率图像预测方法
CN110120011A (zh) 一种基于卷积神经网络和混合分辨率的视频超分辨方法
CN110136062B (zh) 一种联合语义分割的超分辨率重建方法
CN108537754B (zh) 基于形变引导图的人脸图像复原系统
CN108900848B (zh) 一种基于自适应可分离卷积的视频质量增强方法
CN110751597B (zh) 基于编码损伤修复的视频超分辨方法
CN112070677B (zh) 基于时间切片的视频时空超分辨率增强方法
CN111681166A (zh) 一种堆叠注意力机制编解码单元的图像超分辨率重建方法
CN112004085A (zh) 一种场景语义分割结果指导下的视频编码方法
CN109949217B (zh) 基于残差学习和隐式运动补偿的视频超分辨率重建方法
CN110062232A (zh) 一种基于超分辨率的视频压缩方法及系统
CN111768354A (zh) 基于多尺度人脸部位特征字典的人脸图像复原系统
CN111667421A (zh) 一种图像去雾方法
CN112561799A (zh) 一种红外图像超分辨率重建方法
CN112598587A (zh) 一种联合人脸去口罩和超分辨率的图像处理系统和方法
CN115660955A (zh) 高效多注意力特征融合的超分辨率重建模型、方法、设备及存储介质
CN109819256B (zh) 基于特征感知的视频压缩感知方法
Zhang et al. Super resolution using segmentation-prior self-attention generative adversarial network

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant