CN111932480A - 去模糊视频恢复方法、装置、终端设备以及存储介质 - Google Patents

去模糊视频恢复方法、装置、终端设备以及存储介质 Download PDF

Info

Publication number
CN111932480A
CN111932480A CN202010866591.6A CN202010866591A CN111932480A CN 111932480 A CN111932480 A CN 111932480A CN 202010866591 A CN202010866591 A CN 202010866591A CN 111932480 A CN111932480 A CN 111932480A
Authority
CN
China
Prior art keywords
feature map
video
image frame
pyramid
fusion
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202010866591.6A
Other languages
English (en)
Inventor
程文龙
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Oppo Chongqing Intelligent Technology Co Ltd
Original Assignee
Oppo Chongqing Intelligent Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Oppo Chongqing Intelligent Technology Co Ltd filed Critical Oppo Chongqing Intelligent Technology Co Ltd
Priority to CN202010866591.6A priority Critical patent/CN111932480A/zh
Publication of CN111932480A publication Critical patent/CN111932480A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T5/00Image enhancement or restoration
    • G06T5/73Deblurring; Sharpening
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/22Matching criteria, e.g. proximity measures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/25Fusion techniques
    • G06F18/253Fusion techniques of extracted features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/10Image acquisition modality
    • G06T2207/10016Video; Image sequence
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20016Hierarchical, coarse-to-fine, multiscale or multiresolution image processing; Pyramid transform
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20084Artificial neural networks [ANN]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20212Image combination
    • G06T2207/20221Image fusion; Image merging

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • General Engineering & Computer Science (AREA)
  • Evolutionary Computation (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Computational Linguistics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Evolutionary Biology (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Multimedia (AREA)
  • Image Processing (AREA)

Abstract

本申请公开了一种去模糊视频恢复方法、装置、终端设备以及存储介质,其方法包括:获取去模糊任务视频的图像帧;对图像帧基于金字塔结构的多层卷积层进行特征提取,并对提取的特征进行融合,获得融合特征图;对融合特征图进行重建,得到视频恢复后的图像帧。本申请提升了视频恢复任务的精准度,提升了视频恢复效果,使拍摄的视频更加清晰真实。

Description

去模糊视频恢复方法、装置、终端设备以及存储介质
技术领域
本申请涉及视频处理技术领域,尤其涉及一种去模糊视频恢复方法、装置、终端设备以及存储介质。
背景技术
近年来,视频恢复方面(视频超分、视频去噪、视频去模糊等)受到了广泛关注。但是现有相关方案仅将视频恢复看做图像恢复的简单拓展,导致视频恢复效果不佳。
发明内容
本申请的主要目的在于提供一种去模糊视频恢复方法、装置、终端设备以及存储介质,旨在提升视频恢复任务的精准度,提升视频恢复效果。
为实现上述目的,本申请提供一种去模糊视频恢复方法,包括:
获取去模糊任务视频的图像帧;
对所述图像帧基于金字塔结构的多层卷积层进行特征提取,并对提取的特征进行融合,获得融合特征图;
对所述融合特征图进行重建,得到视频恢复后的图像帧。
本申请实施例还提出一种视频恢复装置,包括:
获取模块,用于获取去模糊任务视频的图像帧;
去模糊模块,用于对所述图像帧基于金字塔结构的多层卷积层进行特征提取,并对提取的特征进行融合,获得融合特征图;
重建模块,用于对所述融合特征图进行重建,得到视频恢复后的图像帧。
本申请实施例还提出一种终端设备,所述终端设备包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的视频恢复程序,所述视频恢复程序被所述处理器执行时实现如上所述的去模糊视频恢复方法的步骤。
本申请实施例还提出一种计算机可读存储介质,所述计算机可读存储介质上存储有视频恢复程序,所述视频恢复程序被处理器执行时实现如上所述的去模糊视频恢复方法的步骤。
本申请实施例提出的去模糊视频恢复方法、装置、终端设备以及存储介质,通过获取去模糊任务视频的图像帧;对所述图像帧基于金字塔结构的多层卷积层进行特征提取,并对提取的特征进行融合,获得融合特征图;对所述融合特征图进行重建,得到视频恢复后的图像帧。由此,通过金字塔结构的多层卷积层进行特征提取,并对提取的各层特征进行融合,提升了视频恢复任务的精准度,提升了视频恢复效果。
附图说明
图1为本申请去模糊视频恢复装置所属终端设备的功能模块示意图;
图2为本申请去模糊视频恢复方法一示例性实施例的流程示意图;
图3为本申请实施例中去模糊模块的原理示意图;
图4为本申请去模糊视频恢复方法另一示例性实施例的流程示意图;
图5为本申请实施例中金字塔级联可形变对齐模块的原理示意图;
图6为本申请去模糊视频恢复方法再一示例性实施例的流程示意图;
图7为本申请实施例中时域和空域注意力融合模块的原理示意图;
图8为本申请实施例实现去模糊视频恢复的系统架构示意图。
本申请目的的实现、功能特点及优点将结合实施例,参照附图做进一步说明。
具体实施方式
应当理解,此处所描述的具体实施例仅仅用以解释本申请,并不用于限定本申请。
本申请实施例的主要解决方案是:通过获取去模糊任务视频的图像帧;对所述图像帧基于金字塔结构的多层卷积层进行特征提取,并对提取的特征进行融合,获得融合特征图;对所述融合特征图进行重建,得到视频恢复后的图像帧。由此,通过金字塔结构的多层卷积层进行特征提取,并对提取的各层特征进行融合,提升了视频恢复任务的精准度,提升了视频恢复效果。进一步地,还可以采用金字塔级联可形变卷积进行图像对齐处理,以及对所述对齐处理后的特征图进行时域和空域注意力融合处理,从而可以更高效的实现对视频进行有效去模糊,提供了更好的视频拍摄、编辑功能,提高了视频处理性能,使拍摄的视频更加清晰真实。
本申请实施例涉及的技术术语:
卷积层(Conv):卷积神经网络中每层卷积层(Convolutional layer)由若干卷积单元组成,每个卷积单元的参数都是通过反向传播算法最佳化得到。卷积运算的目的是提取输入的不同特征,第一层卷积层可能只能提取一些低级的特征如边缘、线条和角等层级,更多层的网路能从低级特征中迭代提取更复杂的特征。
DConv:可形变卷积;
Concat:拼接;
Aligned:对齐;Aligned features:对齐后特征;
Embedding:嵌入;
Element-wise multiplication:逐元素相乘;
FusionConv:融合卷积层;
Upsampling:上采样;
Downsampling:下采样;
Sigmoid:逻辑激活函数。
本申请实施例考虑到,相关技术方案将视频恢复看作图像恢复的简单拓展,而视频帧间冗余信息没有得到充分利用,导致视频恢复效果不佳。
基于此,本申请实施例提出一种解决方案,可以将去模糊视频恢复任务分为特征提取、对齐、融合以及重建四部分,较好地利用了视频的帧间信息,更精确地对齐相邻帧和参考帧、高效地融合对齐后的特征,提升了去模糊视频恢复任务的精准度,提升视频恢复效果。
具体地,参照图1,图1为本申请去模糊视频恢复装置所属终端设备的功能模块示意图。该去模糊视频恢复装置可以为独立于终端设备的、能够进行数据处理的装置,其可以通过硬件或软件的形式承载于终端设备上。该终端设备可以为手机、平板电脑等具有数据处理功能的智能移动终端,还可以为具有数据处理功能的固定终端设备或服务器等。
在本实施例中,该去模糊视频恢复装置所属终端设备至少包括输出模块110、处理器120、存储器130以及通信模块140。
存储器130中存储有操作系统以及去模糊视频恢复程序,去模糊视频恢复装置可以将获取的去模糊任务视频的图像帧、通过多层卷积层对图像帧提取的特征、对提取的特征进行融合获得的融合特征图,以及去模糊视频恢复后的图像帧等信息存储于该存储器130中;输出模块110可为显示屏、扬声器等。通信模块140可以包括WIFI模块、移动通信模块以及蓝牙模块等,通过通信模块140与外部设备或服务器进行通信。
其中,存储器130中的去模糊视频恢复程序被处理器执行时实现以下步骤:
获取去模糊任务视频的图像帧;
对所述图像帧基于金字塔结构的多层卷积层进行特征提取,并对提取的特征进行融合,获得融合特征图;
对所述融合特征图进行重建,得到视频恢复后的图像帧。
进一步地,存储器130中的去模糊视频恢复程序被处理器执行时还实现以下步骤:
对所述融合特征图采用金字塔级联可形变卷积进行图像对齐,得到对齐处理后的特征图;
对所述对齐处理后的特征图进行重建,得到视频恢复后的图像帧。
进一步地,存储器130中的去模糊视频恢复程序被处理器执行时还实现以下步骤:
进一步地,存储器130中的去模糊视频恢复程序被处理器执行时还实现以下步骤:
将所述融合特征图输入金字塔结构的多层卷积层进行特征提取,得到特征提取后的多层卷积层特征图构成的金字塔式特征图;其中:定义t时刻的图像帧为参考帧,t+i时刻的图像帧为所述参考帧的相邻帧;
对于所述金字塔式特征图中每一卷积层的t+i时刻特征图,与t时刻参考帧的特征图进行拼接处理,并以当前层的拼接处理结果和下一层的拼接处理结果作为补偿,对t+i时刻特征图进行可形变卷积计算,得到t+i时刻特征图对应的新的特征图;
融合所述金字塔式特征图中每一卷积层输出的新的特征图,得到新的融合特征图;
将所述新的融合特征图与t时刻参考帧的特征图进行拼接处理,得到当前拼接处理结果;
以所述当前拼接处理结果作为补偿,对所述新的融合特征图进行可形变卷积计算,得到t+i时刻对齐后的特征图。
进一步地,存储器130中的去模糊视频恢复程序被处理器执行时还实现以下步骤:
对每一卷积层输出的新的特征图进行上采样;
融合所述金字塔式特征图中每一卷积层输出的上采样后的特征图,得到新的融合特征图。
进一步地,存储器130中的去模糊视频恢复程序被处理器执行时还实现以下步骤:
对所述对齐处理后的特征图进行时域和空域注意力融合处理,得到基于注意力机制的特征图;
对所述基于注意力机制的特征图进行重建,得到视频恢复后的图像帧。
进一步地,存储器130中的去模糊视频恢复程序被处理器执行时还实现以下步骤:
获取所述对齐处理后的特征图的时域注意力特征图;
将所述时域注意力特征图在空域上与对齐处理后的特征图进行相乘,得到相乘计算后的特征图;
对所述相乘计算后的特征图进行特征融合卷积操作,并通过金字塔结构特征提取,得到空域注意力特征图;
对所述空域注意力特征图进行上采样,得到基于注意力机制的特征图。
进一步地,存储器130中的去模糊视频恢复程序被处理器执行时还实现以下步骤:
计算所述对齐处理后的特征图与其相邻的参考帧的特征图之间的相似度,获得所述对齐处理后的特征图的时域注意力特征图。
进一步地,存储器130中的去模糊视频恢复程序被处理器执行时还实现以下步骤:
对所述融合特征图采用前后级联相同网络的形式进行重建,得到视频恢复后的图像帧。
对所述融合特征图进行重建,并进行上采样,得到视频恢复后的图像帧。
对所述图像帧经过下采样层进行低分辨率转换。
本实施例通过上述方案,具体通过获取去模糊任务视频的图像帧;对所述图像帧基于金字塔结构的多层卷积层进行特征提取,并对提取的特征进行融合,获得融合特征图;对所述融合特征图进行重建,得到视频恢复后的图像帧。由此,通过金字塔结构的多层卷积层进行特征提取,并对提取的各层特征进行融合,提升了视频恢复任务的精准度,提升了视频恢复效果。进一步地,还可以采用金字塔级联可形变卷积进行图像对齐处理,以及对所述对齐处理后的特征图进行时域和空域注意力融合处理,从而可以更高效的实现对视频进行有效的去模糊,为终端设备提供了更好的视频拍摄、编辑功能,提高了视频处理性能,使拍摄的视频更加清晰真实。
基于上述终端设备架构但不限于上述架构,提出本申请方法实施例。
参照图2,图2为本申请去模糊视频恢复方法一示例性实施例的流程示意图。所述去模糊视频恢复方法,包括:
步骤S101,获取去模糊任务视频的图像帧;
本实施例方法的执行主体可以是一种去模糊视频恢复装置,也可以是一种视频处理终端设备或服务器,本实施例以去模糊视频恢复装置进行举例,该去模糊视频恢复装置可以集成在具有视频拍摄功能的智能手机、平板电脑等终端设备上。
首先,获取拍摄的待处理的视频图像帧,该视频可以是用户实时拍摄得到,也可以是预先拍摄得到或从其他设备(比如网络服务器等)获取得到。
本实施例方案主要实现对拍摄的视频进行恢复,具体包括去模糊任务处理和重建,高效地融合视频图像特征,使得拍摄的视频更加清晰真实,从而提升终端设备视频拍摄、编辑功能。
其中,去模糊任务处理是指:视频图像帧先经过下采样层转换为较低的分辨率,之后会依次经过去模糊和重建并进行上采样,得到去模糊之后的图像。
在后续进一步的实施例中,视频图像帧先经过下采样层转换为较低的分辨率,之后会依次经过去模糊、金字塔级联可形变对齐和/或时域和空域的注意力机制融合和重建并进行上采样,最后得到去模糊之后的图像。
步骤S102,对所述图像帧基于金字塔结构的多层卷积层进行特征提取,并对提取的特征进行融合,获得融合特征图;
具体实现时,可以设置一去模糊模块,通过该去模糊模块对输入的图像帧进行特征提取、去模糊处理。
其中,如图3所示,该去模糊模块为一个金字塔结构,将待处理的去模糊任务视频图像帧输入该金字塔结构的去模糊模块,图像帧通过步长为2的卷积层之后,金字塔的每层会通过若干个残差块来对图像帧提取特征。金字塔结构是编码-解码网络的一个简洁版,而编码-解码网络对于图像增强任务(如去噪等)非常有效。因此,利用这样的金字塔结构对输入图像帧进行去模糊,是很合理的。去模糊模块是对每帧图像分别进行去模糊,该模块对不同的图像帧是共享参数的。
去模糊模块的金字塔结构包括金字塔式的多层卷积层,每层卷积层设有若干残差块,在去模糊处理时,将图像帧输入金字塔结构内的多层卷积层进行特征提取,金字塔的每层通过若干个残差块来对图像帧从不同维度提取特征,得到多维度特征,对每层卷积层输出的相应维度特征进行融合,获得融合特征图。其中,多维度特征包括:不同维度层级特征。
卷积层是卷积神经网络的核心组成部分,卷积神经网络包含了一个由卷积层和子采样层构成的特征抽取器。在卷积神经网络的不同卷积层能够输出图像中不同层面上的细节特征。多层卷积层提取并输出不同维度的层级特征。
假设有三层卷积层:第一层卷积层可以提取出低层次的特征,第二层卷积层可以提取出中层次的特征,第三层卷积层可以提取出高层次的特征。通过特征的不断提取和压缩,最终能得到比较可靠的高层次特征。
在一个卷积层中,通常包含若干个二维特征平面(featureMap),每个二维特征平面由一些矩形排列的神经元组成,同一特征平面的神经元共享权值,这里共享的权值就是卷积核。
卷积层由一系列可以通过学习获得的卷积核组成,不同的卷积核对应不同的目标特征。每一个卷积核都可以提取特定的特征,不同的卷积核提取不同的特征,举个例子,输入一张人脸的图像,使用某一卷积核提取到眼睛的特征,用另一个卷积核提取嘴巴的特征等等。也即是说,每一个卷积核可以提取特定的不同维度的特征。例如,给一张新的包含“X”的图像,卷积神经网络并不能准确地知道这些特征到底要匹配原图的哪些部分,所以会在原图中每一个可能的位置进行尝试,即使用卷积核在图像上进行滑动,每滑动一次就进行一次卷积操作,得到一个特征值。不同的卷积核提取不同的特征。
本实施例中,去模糊模块主要是通过金字塔结构对输入的视频图像帧进行特征提取,金字塔结构包括多层卷积层,每一层卷积层分别从不同维度对输入的视频图像帧进行特征提取,每一层输出不同维度特征,最后对所有卷积层输出的特征进行融合,得到融合特征图,融合的目的是为了还原出更好的图像特征,达到去模糊的效果。
步骤S103,对所述融合特征图进行重建,得到视频恢复后的图像帧。
作为一种实施方式,在重建时,可以对所述融合特征图采用前后级联相同网络的形式进行重建,得到视频恢复后的图像帧。
具体实现时,可以设置一重建模块,在重建模块中设置若干残差块,通过若干个残差块对融合后的特征图进一步进行重建。本实施例中,采用了前后级联相同网络的形式进行重建,可以极大提高视频帧图像的处理性能,作为一种具体实现方式,前后级联可以是前一级网络使用40个残差块,后一级网络使用20个残差块。
进一步地,在对图像帧基于金字塔结构的多层卷积层进行特征提取,并对提取的特征进行融合之前还可以包括:
对所述图像帧经过下采样层进行低分辨率转换。
对应地,在对所述融合特征图进行重建后,再进行上采样,得到视频恢复后的图像帧。
通过图像帧先经过下采样层转换为较低的分辨率,之后依次经过去模糊和重建并上采样,得到去模糊之后的图像,可以极大提升视频恢复效果,提升视频处理性能。
本实施例通过上述方案,具体通过获取去模糊任务视频的图像帧;对所述图像帧基于金字塔结构的多层卷积层进行特征提取,并对提取的特征进行融合,获得融合特征图;对所述融合特征图进行重建,得到视频恢复后的图像帧。由此,通过金字塔结构的多层卷积层进行特征提取,并对提取的各层特征进行融合,提升了视频恢复任务的精准度,提升了视频恢复效果,可以更高效的实现对视频进行有效的去模糊,为终端设备提供了更好的视频拍摄、编辑功能,提高了视频处理性能,使拍摄的视频更加清晰真实。
参照图4,图4为本申请去模糊视频恢复方法另一示例性实施例的流程示意图。在上述图2所示的实施例的基础上,本实施例中,在上述步骤S102,对所述图像帧基于金字塔结构的多层卷积层进行特征提取,并对提取的特征进行融合,获得融合特征图之后还包括:
步骤S1021,对所述融合特征图采用金字塔级联可形变卷积进行图像对齐,得到对齐处理后的特征图;
所述步骤S103,对所述融合特征图进行重建,得到视频恢复后的图像帧包括:
步骤S1031,对所述对齐处理后的特征图进行重建,得到视频恢复后的图像帧。
相比上述图2所示的实施例,本实施例还包括对图像帧的特征图进行金字塔级联可形变对齐处理的方案。
本实施例方案进一步在特征图上使用可形变卷积进行图像对齐,可以有效地避免传统对齐方法中需要显式或者隐式地估算图像光流的问题。光流计算除了计算量较大的缺点之外,还存在光流估计不足的情况,会严重影响视频恢复网络的性能。
在具体实现时,可以设置一金字塔级联可形变对齐模块,采用金字塔结构,基于可形变卷积在单一尺度特征图上的对齐方法,实现由粗到细的图像特征图级别的对齐。
具体地,如图5所示,金字塔级联可形变对齐模块可以包括多层卷积层(图5中示出了L1、L2、L3共三层,在实际应用中,可以根据实际情况设置更多层),
定义t时刻的图像帧为参考帧,t+i时刻的图像帧为所述参考帧的相邻帧。
各时刻的图像帧对应的特征图依次输入至金字塔级联可形变对齐模块,输入特征图在金字塔级联可形变对齐模块的多层卷积层进行特征提取,得到特征提取后的多层卷积层特征图构成的金字塔式特征图。
具体实现如下:将去模糊模块输出的融合特征图输入金字塔级联可形变对齐模块的多层卷积层进行特征提取,得到特征提取后的多层卷积层特征图构成的金字塔式特征图;
对于所述金字塔式特征图中每一卷积层的t+i时刻特征图,与t时刻参考帧的特征图进行拼接处理,并以当前层的拼接处理结果和下一层的拼接处理结果作为补偿,对t+i时刻特征图进行可形变卷积计算,得到t+i时刻特征图对应的新的特征图;
融合所述金字塔式特征图中每一卷积层输出的新的特征图,得到新的融合特征图;
将所述新的融合特征图与t时刻参考帧的特征图进行拼接处理,得到当前拼接处理结果;
以所述当前拼接处理结果作为补偿,对所述新的融合特征图进行可形变卷积计算,得到t+i时刻对齐后的特征图,即当前时刻对齐后的特征图。
进一步地,所述融合所述金字塔式特征图中每一卷积层输出的新的特征图,得到新的融合特征图的步骤之前还包括:
对每一卷积层输出的新的特征图进行上采样;
所述融合所述金字塔式特征图中每一卷积层输出的新的特征图,得到新的融合特征图的步骤包括:
融合所述金字塔式特征图中每一卷积层输出的上采样后的特征图,得到新的融合特征图。
更为具体地,如图5所示,输入特征图首先会经步长为2的卷积层得到L层(三层)的特征金字塔,对于参考帧t和任一相邻帧t+i,在金字塔的每一层都进行了相似的操作。两个特征图经过拼接后得到t+i时刻特征图可形变卷积的补偿(offset),t+i时刻的特征图输入至可形变卷积后,输出了t+i时刻的新特征图。此外,金字塔的下层的补偿会作为上层补偿卷积的输入,用于更精确地估计补偿。可形变卷积输出的特征图也会经过上采样后与上层对应的特征图进行融合,直至金字塔的第一层,可形变卷积输出与底层融合后的特征图,在与参考帧的特征图进行拼接后,作为新的可形变卷积的补偿的特征图,便可预测最终t+i时刻经过对齐后的特征图。
本实施例方案基于可形变卷积在单一尺度特征图上的对齐方法,提出了更为鲁棒的金字塔级联可形变对齐模块。金字塔级联可形变对齐模块采用金字塔结构,实现了由粗到细的图像特征图级别的对齐。而且本实施例方案利用了视频的帧间信息,更精确地对齐相邻帧和参考帧、高效地融合对齐后的特征,使拍摄的视频更加清晰真实。
本实施例通过上述方案,具体通过获取去模糊任务视频的图像帧;对所述图像帧基于金字塔结构的多层卷积层进行特征提取,并对提取的特征进行融合,获得融合特征图;对所述融合特征图采用金字塔级联可形变卷积进行图像对齐,得到对齐处理后的特征图;对所述对齐处理后的特征图进行重建,得到视频恢复后的图像帧。由此,通过金字塔结构的多层卷积层进行特征提取,并对提取的各层特征进行融合,提升了视频恢复任务的精准度,提升了视频恢复效果。进一步地,还可以采用金字塔级联可形变卷积进行图像对齐处理,从而可以更高效的实现对视频进行有效的去模糊,为终端设备提供了更好的视频拍摄、编辑功能,提高了视频处理性能,使拍摄的视频更加清晰真实。
相比现有技术,本申请实施例方案采用金字塔级联可形变对齐模块,在特征图上使用可形变卷积进行图像对齐,从而有效地避免了传统对齐方法中需要显式或者隐式地估算图像光流存在的计算量较大、光流估计不足、会严重影响视频恢复网络的性能等缺陷,本实施例基于可形变卷积在单一尺度特征图上的对齐方法,提出了更为鲁棒的金字塔级联可形变对齐模块。金字塔级联可形变对齐模块采用金字塔结构,实现了由粗到细的图像特征图级别的对齐,可以更高效的实现对视频进行有效的去模糊,极大的提升了视频恢复效果。
参照图6,图6为本申请去模糊视频恢复方法再一示例性实施例的流程示意图。在上述图4所示的实施例的基础上,本实施例中,在上述步骤S1021,对所述融合特征图采用金字塔级联可形变卷积进行图像对齐,得到对齐处理后的特征图之后还包括:
步骤S1022,对所述对齐处理后的特征图进行时域和空域注意力融合处理,得到基于注意力机制的特征图;
所述步骤S103,对所述融合特征图进行重建,得到视频恢复后的图像帧包括:
步骤S1032,对所述基于注意力机制的特征图进行重建,得到视频恢复后的图像帧。
相比上述图4所示的实施例,本实施例还包括对特征图进行时域和空域注意力融合处理的方案。
本实施例考虑到,在视频恢复任务中,由于手抖、运动模糊等原因,会导致不同的图像帧产生不同情况的模糊。因此,不同的相邻帧对于恢复参考帧的贡献也就是不同的,然而传统的方法通常认为它们有着同等的地位。本申请实施例通过引入注意力机制,在空域和时域两个维度给予不同的特征图不同的权重,从而可以很好的利用视频的帧间信息,更精确地实现图像帧去模糊处理,提升视频恢复任务的精准度,提升视频恢复效果。
具体实施时,可以设置一时域和空域注意力融合模块,如图7所示,通过时域和空域注意力融合模块对所述对齐处理后的特征图进行时域和空域注意力融合处理,得到基于注意力机制的特征图,具体处理过程如下:
首先,获取所述对齐处理后的特征图的时域注意力特征图,可以计算所述对齐处理后的特征图与其相邻的参考帧的特征图之间的相似度,获得所述对齐处理后的特征图的时域注意力特征图;
然后,将所述时域注意力特征图在空域上与对齐处理后的特征图进行相乘,得到相乘计算后的特征图;
然后,对所述相乘计算后的特征图进行特征融合卷积操作,并通过金字塔结构特征提取,得到空域注意力特征图;
最后,对所述空域注意力特征图进行上采样,得到基于注意力机制的特征图。
本申请实施例通过引入注意力机制,在空域和时域两个维度给予不同的特征图不同的权重。
更为具体地,参考图7所示,t、t-1、t+1分别对应t时刻及与t时刻相邻的两个时刻,对应的图像帧分别为参考帧及相邻帧。
首先,对于已有的特征图,参考帧和相邻帧会再次经过不同的卷积层(Conv)进一步提取特征(对于相邻帧共享参数),并以Embedding(嵌入)方式及逻辑激活函数(sigmoid)计算相邻帧和参考帧之间的相似度,将其定义为该时刻的时域注意力特征图。每个时刻的特征图与参考帧特征图都会进行这样的操作,因此每个时刻都会得到一个时域注意力特征图(Dot product)。
然后,在空域上,与对齐后的特征图进行相乘(Element-wise multiplication,逐元素相乘),就相当于调整了不同时刻特征图所占的比重。
之后,经过融合模块,对所有的特征图通过融合卷积层(FusionConv)进行特征融合操作。然后通过金字塔结构,在不同的尺度上获取空域注意力特征图,最后经过上采样(Upsampling)得到基于注意力机制的特征图。
本实施例实现视频恢复的系统架构可以参照图8所示,视频恢复系统包括:去模糊模块、金字塔级联可形变对齐模块、时域和空域注意力融合模块和重建模块,图像帧先经过下采样层转换为较低的分辨率,之后才会依次经过去模糊、金字塔级联可形变对齐、时域和空域的注意力机制融合和重建并上采样,得到去模糊之后的图像。
本实施例通过上述方案,具体通过获取去模糊任务视频的图像帧;对所述图像帧基于金字塔结构的多层卷积层进行特征提取,并对提取的特征进行融合,获得融合特征图;对所述融合特征图采用金字塔级联可形变卷积进行图像对齐,得到对齐处理后的特征图;对所述对齐处理后的特征图进行时域和空域注意力融合处理,得到基于注意力机制的特征图;对所述基于注意力机制的特征图进行重建,得到视频恢复后的图像帧。由此,通过金字塔结构的多层卷积层进行特征提取,并对提取的各层特征进行融合,提升了视频恢复任务的精准度,提升了视频恢复效果。进一步地,还可以采用金字塔级联可形变卷积进行图像对齐处理,以及对所述对齐处理后的特征图进行时域和空域注意力融合处理,从而可以更高效的实现对视频进行有效的去模糊,为终端设备提供了更好的视频拍摄、编辑功能,提高了视频处理性能,使拍摄的视频更加清晰真实。而且本实施例通过引入注意力机制,在空域和时域两个维度给予不同的特征图不同的权重,从而可以很好的利用视频的帧间信息,更精确地实现图像帧去模糊处理,提升视频恢复任务的精准度,提升视频恢复效果。
此外,本申请实施例还提出一种视频恢复装置,包括:
获取模块,用于获取去模糊任务视频的图像帧;
去模糊模块,用于对所述图像帧基于金字塔结构的多层卷积层进行特征提取,并对提取的特征进行融合,获得融合特征图;
重建模块,用于对所述融合特征图进行重建,得到视频恢复后的图像帧。
进一步地,所述视频恢复装置还包括:
金字塔级联可形变对齐模块,用于对所述融合特征图采用金字塔级联可形变卷积进行图像对齐,得到对齐处理后的特征图;
所述重建模块,还用于对所述对齐处理后的特征图进行重建,得到视频恢复后的图像帧。
进一步地,所述视频恢复装置还包括:
时域和空域注意力融合模块,用于对所述对齐处理后的特征图进行时域和空域注意力融合处理,得到基于注意力机制的特征图;
所述重建模块,还用于对所述基于注意力机制的特征图进行重建,得到视频恢复后的图像帧。
本实施例实现视频恢复的原理及实施过程,请参照上述各实施例,在此不再赘述。
此外,本申请实施例还提出一种终端设备,所述终端设备包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的视频恢复程序,所述视频恢复程序被所述处理器执行时实现如上述实施例所述的去模糊视频恢复方法的步骤。
由于本视频恢复程序被处理器执行时,采用了前述所有实施例的全部技术方案,因此至少具有前述所有实施例的全部技术方案所带来的所有有益效果,在此不再一一赘述。
此外,本申请实施例还提出一种计算机可读存储介质,所述计算机可读存储介质上存储有视频恢复程序,所述视频恢复程序被处理器执行时实现如上所述的去模糊视频恢复方法的步骤。
由于本视频恢复程序被处理器执行时,采用了前述所有实施例的全部技术方案,因此至少具有前述所有实施例的全部技术方案所带来的所有有益效果,在此不再一一赘述。
相比现有技术,本申请实施例提出的去模糊视频恢复方法、装置、终端设备以及存储介质,通过获取去模糊任务视频的图像帧;对所述图像帧基于金字塔结构的多层卷积层进行特征提取,并对提取的特征进行融合,获得融合特征图;对所述融合特征图进行重建,得到视频恢复后的图像帧。由此,通过金字塔结构的多层卷积层进行特征提取,并对提取的各层特征进行融合,提升了视频恢复任务的精准度,提升了视频恢复效果。进一步地,还可以采用金字塔级联可形变卷积进行图像对齐处理,以及对所述对齐处理后的特征图进行时域和空域注意力融合处理,从而可以更高效的实现对视频进行有效的去模糊,提供了更好的视频拍摄、编辑功能,提高了视频处理性能,使拍摄的视频更加清晰真实。
需要说明的是,在本文中,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者系统不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者系统所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括该要素的过程、方法、物品或者系统中还存在另外的相同要素。
上述本申请实施例序号仅仅为了描述,不代表实施例的优劣。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件,但很多情况下前者是更佳的实施方式。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在如上的一个存储介质(如ROM/RAM、磁碟、光盘)中,包括若干指令用以使得一台终端设备(可以是手机,计算机,服务器,被控终端,或者网络设备等)执行本申请每个实施例的方法。
以上仅为本申请的优选实施例,并非因此限制本申请的专利范围,凡是利用本申请说明书及附图内容所作的等效结构或等效流程变换,或直接或间接运用在其他相关的技术领域,均同理包括在本申请的专利保护范围内。

Claims (15)

1.一种去模糊视频恢复方法,其特征在于,包括:
获取去模糊任务视频的图像帧;
对所述图像帧基于金字塔结构的多层卷积层进行特征提取,并对提取的特征进行融合,获得融合特征图;
对所述融合特征图进行重建,得到视频恢复后的图像帧。
2.根据权利要求1所述的去模糊视频恢复方法,其特征在于,所述对所述图像帧基于金字塔结构的多层卷积层进行特征提取,并对提取的特征进行融合,获得融合特征图的步骤之后还包括:
对所述融合特征图采用金字塔级联可形变卷积进行图像对齐,得到对齐处理后的特征图;
所述对所述融合特征图进行重建,得到视频恢复后的图像帧的步骤包括:
对所述对齐处理后的特征图进行重建,得到视频恢复后的图像帧。
3.根据权利要求2所述的去模糊视频恢复方法,其特征在于,所述对所述融合特征图采用金字塔级联可形变卷积进行图像对齐,得到对齐处理后的特征图的步骤包括:
将所述融合特征图输入金字塔结构的多层卷积层进行特征提取,得到特征提取后的多层卷积层特征图构成的金字塔式特征图;其中:定义t时刻的图像帧为参考帧,t+i时刻的图像帧为所述参考帧的相邻帧;
对于所述金字塔式特征图中每一卷积层的t+i时刻特征图,与t时刻参考帧的特征图进行拼接处理,并以当前层的拼接处理结果和下一层的拼接处理结果作为补偿,对t+i时刻特征图进行可形变卷积计算,得到t+i时刻特征图对应的新的特征图;
融合所述金字塔式特征图中每一卷积层输出的新的特征图,得到新的融合特征图;
将所述新的融合特征图与t时刻参考帧的特征图进行拼接处理,得到当前拼接处理结果;
以所述当前拼接处理结果作为补偿,对所述新的融合特征图进行可形变卷积计算,得到t+i时刻对齐后的特征图。
4.根据权利要求3所述的去模糊视频恢复方法,其特征在于,所述融合所述金字塔式特征图中每一卷积层输出的新的特征图,得到新的融合特征图的步骤之前还包括:
对每一卷积层输出的新的特征图进行上采样;
所述融合所述金字塔式特征图中每一卷积层输出的新的特征图,得到新的融合特征图的步骤包括:
融合所述金字塔式特征图中每一卷积层输出的上采样后的特征图,得到新的融合特征图。
5.根据权利要求2所述的去模糊视频恢复方法,其特征在于,所述对所述融合特征图采用金字塔级联可形变卷积进行图像对齐,得到对齐处理后的特征图的步骤之后还包括:
对所述对齐处理后的特征图进行时域和空域注意力融合处理,得到基于注意力机制的特征图;
所述对所述融合特征图进行重建,得到视频恢复后的图像帧的步骤包括:
对所述基于注意力机制的特征图进行重建,得到视频恢复后的图像帧。
6.根据权利要求5所述的去模糊视频恢复方法,其特征在于,所述对所述对齐处理后的特征图进行时域和空域注意力融合处理,得到基于注意力机制的特征图的步骤包括:
获取所述对齐处理后的特征图的时域注意力特征图;
将所述时域注意力特征图在空域上与对齐处理后的特征图进行相乘,得到相乘计算后的特征图;
对所述相乘计算后的特征图进行特征融合卷积操作,并通过金字塔结构特征提取,得到空域注意力特征图;
对所述空域注意力特征图进行上采样,得到基于注意力机制的特征图。
7.根据权利要求6所述的去模糊视频恢复方法,其特征在于,所述获取所述对齐处理后的特征图的时域注意力特征图的步骤包括:
计算所述对齐处理后的特征图与其相邻的参考帧的特征图之间的相似度,获得所述对齐处理后的特征图的时域注意力特征图。
8.根据权利要求1所述的去模糊视频恢复方法,其特征在于,所述对所述融合特征图进行重建,得到视频恢复后的图像帧的步骤中包括:
对所述融合特征图采用前后级联相同网络的形式进行重建,得到视频恢复后的图像帧。
9.根据权利要求1所述的去模糊视频恢复方法,其特征在于,所述对所述融合特征图进行重建,得到视频恢复后的图像帧的步骤中包括:
对所述融合特征图进行重建,并进行上采样,得到视频恢复后的图像帧。
10.根据权利要求1所述的去模糊视频恢复方法,其特征在于,所述对所述图像帧基于金字塔结构的多层卷积层进行特征提取,并对提取的特征进行融合,获得融合特征图的步骤之前还包括:
对所述图像帧经过下采样层进行低分辨率转换。
11.一种去模糊视频恢复装置,其特征在于,包括:
获取模块,用于获取去模糊任务视频的图像帧;
去模糊模块,用于对所述图像帧基于金字塔结构的多层卷积层进行特征提取,并对提取的特征进行融合,获得融合特征图;
重建模块,用于对所述融合特征图进行重建,得到视频恢复后的图像帧。
12.根据权利要求11所述的去模糊视频恢复装置,其特征在于,所述视频恢复装置还包括:
金字塔级联可形变对齐模块,用于对所述融合特征图采用金字塔级联可形变卷积进行图像对齐,得到对齐处理后的特征图;
所述重建模块,还用于对所述对齐处理后的特征图进行重建,得到视频恢复后的图像帧。
13.根据权利要求12所述的去模糊视频恢复装置,其特征在于,所述视频恢复装置还包括:
时域和空域注意力融合模块,用于对所述对齐处理后的特征图进行时域和空域注意力融合处理,得到基于注意力机制的特征图;
所述重建模块,还用于对所述基于注意力机制的特征图进行重建,得到视频恢复后的图像帧。
14.一种终端设备,其特征在于,所述终端设备包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的视频恢复程序,所述视频恢复程序被所述处理器执行时实现如权利要求1-10中任一项所述的去模糊视频恢复方法的步骤。
15.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储有视频恢复程序,所述视频恢复程序被处理器执行时实现如权利要求1-10中任一项所述的去模糊视频恢复方法的步骤。
CN202010866591.6A 2020-08-25 2020-08-25 去模糊视频恢复方法、装置、终端设备以及存储介质 Pending CN111932480A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010866591.6A CN111932480A (zh) 2020-08-25 2020-08-25 去模糊视频恢复方法、装置、终端设备以及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010866591.6A CN111932480A (zh) 2020-08-25 2020-08-25 去模糊视频恢复方法、装置、终端设备以及存储介质

Publications (1)

Publication Number Publication Date
CN111932480A true CN111932480A (zh) 2020-11-13

Family

ID=73305219

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010866591.6A Pending CN111932480A (zh) 2020-08-25 2020-08-25 去模糊视频恢复方法、装置、终端设备以及存储介质

Country Status (1)

Country Link
CN (1) CN111932480A (zh)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113409209A (zh) * 2021-06-17 2021-09-17 Oppo广东移动通信有限公司 图像去模糊方法、装置、电子设备与存储介质
CN113781336A (zh) * 2021-08-31 2021-12-10 Oppo广东移动通信有限公司 图像处理的方法、装置、电子设备与存储介质
CN113822824A (zh) * 2021-11-22 2021-12-21 腾讯科技(深圳)有限公司 视频去模糊方法、装置、设备及存储介质
CN114005066A (zh) * 2021-11-04 2022-02-01 北京智慧眼信息技术有限公司 基于hdr的视频帧图像处理方法、装置、计算机设备及介质
US20220156891A1 (en) * 2020-11-16 2022-05-19 Zhixiang Chi Methods and systems for deblurring blurry images

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110070511A (zh) * 2019-04-30 2019-07-30 北京市商汤科技开发有限公司 图像处理方法和装置、电子设备及存储介质
US20190362199A1 (en) * 2018-05-25 2019-11-28 Adobe Inc. Joint blur map estimation and blur desirability classification from an image
CN110570356A (zh) * 2019-09-18 2019-12-13 北京市商汤科技开发有限公司 图像处理方法和装置、电子设备及存储介质

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20190362199A1 (en) * 2018-05-25 2019-11-28 Adobe Inc. Joint blur map estimation and blur desirability classification from an image
CN110070511A (zh) * 2019-04-30 2019-07-30 北京市商汤科技开发有限公司 图像处理方法和装置、电子设备及存储介质
CN110570356A (zh) * 2019-09-18 2019-12-13 北京市商汤科技开发有限公司 图像处理方法和装置、电子设备及存储介质

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
XINTAO WANG 等: "EDVR: Video Restoration with Enhanced Deformable Convolutional Networks", 《2019 IEEE/CVF CONFERENCE ON COMPUTER VISION AND PATTERN RECOGNITION WORKSHOPS》 *
陈聪颖: "基于视频超分辨率的研究与应用", 《中国优秀博硕士学位论文全文数据库(硕士)信息科技辑》 *

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20220156891A1 (en) * 2020-11-16 2022-05-19 Zhixiang Chi Methods and systems for deblurring blurry images
US11741579B2 (en) * 2020-11-16 2023-08-29 Huawei Technologies Co., Ltd. Methods and systems for deblurring blurry images
CN113409209A (zh) * 2021-06-17 2021-09-17 Oppo广东移动通信有限公司 图像去模糊方法、装置、电子设备与存储介质
CN113781336A (zh) * 2021-08-31 2021-12-10 Oppo广东移动通信有限公司 图像处理的方法、装置、电子设备与存储介质
CN113781336B (zh) * 2021-08-31 2024-02-02 Oppo广东移动通信有限公司 图像处理的方法、装置、电子设备与存储介质
CN114005066A (zh) * 2021-11-04 2022-02-01 北京智慧眼信息技术有限公司 基于hdr的视频帧图像处理方法、装置、计算机设备及介质
CN113822824A (zh) * 2021-11-22 2021-12-21 腾讯科技(深圳)有限公司 视频去模糊方法、装置、设备及存储介质

Similar Documents

Publication Publication Date Title
Lan et al. MADNet: a fast and lightweight network for single-image super resolution
CN111932480A (zh) 去模糊视频恢复方法、装置、终端设备以及存储介质
Shi et al. Real-time single image and video super-resolution using an efficient sub-pixel convolutional neural network
Li et al. Survey of single image super‐resolution reconstruction
Yu et al. A unified learning framework for single image super-resolution
Sun et al. Lightweight image super-resolution via weighted multi-scale residual network
Yang et al. Ensemble learning priors driven deep unfolding for scalable video snapshot compressive imaging
Singh et al. Survey on single image based super-resolution—implementation challenges and solutions
Fang et al. High-resolution optical flow and frame-recurrent network for video super-resolution and deblurring
US20230252605A1 (en) Method and system for a high-frequency attention network for efficient single image super-resolution
Liu et al. Multi-scale residual hierarchical dense networks for single image super-resolution
Wu et al. LiTMNet: A deep CNN for efficient HDR image reconstruction from a single LDR image
Deshpande et al. SURVEY OF SUPER RESOLUTION TECHNIQUES.
Hua et al. Dynamic scene deblurring with continuous cross-layer attention transmission
CN115082306A (zh) 一种基于蓝图可分离残差网络的图像超分辨率方法
Zhang et al. Light field super-resolution using complementary-view feature attention
Tang et al. Structure-embedded ghosting artifact suppression network for high dynamic range image reconstruction
Schirrmacher et al. Sr 2: Super-resolution with structure-aware reconstruction
Karimi et al. A survey on super-resolution methods for image reconstruction
Shedligeri et al. A unified framework for compressive video recovery from coded exposure techniques
CN116071279A (zh) 图像处理方法、装置、计算机设备和存储介质
CN113902647A (zh) 一种基于双闭环网络的图像去模糊方法
Haris et al. An efficient super resolution based on image dimensionality reduction using accumulative intensity gradient
Heinze et al. Joint multi-frame demosaicing and super-resolution with artificial neural networks
Wang et al. Joint blind image deblurring and super-resolution via double-branch projection feedback network

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20201113

RJ01 Rejection of invention patent application after publication