CN114463218B - 一种基于事件数据驱动的视频去模糊方法 - Google Patents
一种基于事件数据驱动的视频去模糊方法 Download PDFInfo
- Publication number
- CN114463218B CN114463218B CN202210124768.4A CN202210124768A CN114463218B CN 114463218 B CN114463218 B CN 114463218B CN 202210124768 A CN202210124768 A CN 202210124768A CN 114463218 B CN114463218 B CN 114463218B
- Authority
- CN
- China
- Prior art keywords
- image
- ith
- event
- convolution
- video
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 41
- 230000004927 fusion Effects 0.000 claims abstract description 27
- 238000012545 processing Methods 0.000 claims description 20
- 238000012549 training Methods 0.000 claims description 19
- 238000010586 diagram Methods 0.000 claims description 12
- 238000013528 artificial neural network Methods 0.000 claims description 10
- 230000006870 function Effects 0.000 claims description 9
- 238000013507 mapping Methods 0.000 claims description 7
- 238000010606 normalization Methods 0.000 claims description 6
- 238000005070 sampling Methods 0.000 claims description 6
- 238000005457 optimization Methods 0.000 claims description 4
- 230000011218 segmentation Effects 0.000 claims description 4
- 230000003044 adaptive effect Effects 0.000 claims description 3
- 238000001514 detection method Methods 0.000 claims description 3
- 230000003068 static effect Effects 0.000 claims description 3
- 230000000694 effects Effects 0.000 abstract description 6
- 238000013527 convolutional neural network Methods 0.000 description 4
- 238000002474 experimental method Methods 0.000 description 3
- 230000002123 temporal effect Effects 0.000 description 3
- 238000012360 testing method Methods 0.000 description 3
- 238000011161 development Methods 0.000 description 2
- 230000018109 developmental process Effects 0.000 description 2
- 238000011156 evaluation Methods 0.000 description 2
- 238000013459 approach Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 238000012733 comparative method Methods 0.000 description 1
- 125000004122 cyclic group Chemical group 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000002372 labelling Methods 0.000 description 1
- 230000007774 longterm Effects 0.000 description 1
- 239000011159 matrix material Substances 0.000 description 1
- 238000011084 recovery Methods 0.000 description 1
- 238000011160 research Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T5/00—Image enhancement or restoration
- G06T5/73—Deblurring; Sharpening
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/25—Fusion techniques
- G06F18/253—Fusion techniques of extracted features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/10—Image acquisition modality
- G06T2207/10016—Video; Image sequence
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20081—Training; Learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20084—Artificial neural networks [ANN]
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02T—CLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
- Y02T10/00—Road transport of goods or passengers
- Y02T10/10—Internal combustion engine [ICE] based vehicles
- Y02T10/40—Engine management systems
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- General Engineering & Computer Science (AREA)
- General Health & Medical Sciences (AREA)
- Software Systems (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Biophysics (AREA)
- Biomedical Technology (AREA)
- Mathematical Physics (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Biology (AREA)
- Image Analysis (AREA)
Abstract
本发明公开了一种基于事件数据驱动的视频去模糊方法,其步骤包括:1获取视频数据和对应的事件序列,并对事件序列进行分割;2构建编码网络对图像数据进行特征提取;3通过时间记忆模块计算相邻事件序列的关联性,提取时间特征;4通过空间融合模块将事件特征和图像特征进行空间尺度的融合;5构建解码网络生成去模糊之后的视频帧。本发明能够充分利用事件数据提供的时空先验信息,用于驱动视频去模糊,从而有效提升去模糊效果。
Description
技术领域
本发明涉及视频去模糊领域,具体说的是一种基于事件数据驱动的视频去模糊方法。
背景技术
视频作为计算机视觉通信中的一个重要数据源,由于物体的运动而不可避免地存在模糊,从而影响主观感受质量以及更深层次的应用。由于在模糊过程中运动信息的显著损失,从运动模糊图像中恢复清晰的视频序列并不可行。最近,一种称为事件摄影机的新传感器被推荐用于记录和捕捉微秒级的场景强度变化,对事件摄像机来说,快速运动可以作为高时间速率的事件被捕获,从而为探索视频去模糊的解决方案提供了新的机会。传统相机的拍摄过程需要一个曝光时间,这个帧率极大地限制了事件捕获的延迟,如果物体存在高速运动,就会产生模糊;并且过曝现象也很常见,在光线极差或者亮度极高时,相机获取的信息有限,丢失了应有的细节。
由于卷积神经网络(CNNs)的成功,基于事件驱动的去模糊技术已被广泛开发并取得了相对较好的性能。然而,这些方法仍有一些局限性。一方面,现有的视频去模糊网络直接利用事件作为额外先验,而不考虑不同事件之间的相关性。这些网络通过将强度变化压缩为一个时间步长来实现一个独立的特征映射,因此时间信息将丢失,并且无法充分利用事件的高时间分辨率。另一方面,大部分网络只是将模糊帧和事件的特征图连接起来作为卷积神经网络的输入,忽略了丰富的亮度变化信息以及事件和视频帧之间的空间一致性。此外,现有的视频去模糊网络通常基于视频中连续模糊帧的假设,并设计基于卷积神经网络和基于循环神经网络的架构,其中编码器-解码器体系结构是作为基本主干的最流行的选择。然而,一个常见的事实是,模糊并不是连续出现在视频中,即模糊中的某些帧视频非常清晰。这些锐利的帧实际上可以被用来帮助恢复模糊的帧,但在现有的视频去模糊方法中,它们被难以区分地处理,也会导致锐利的纹理丢失。事件驱动的恢复优化方法在很大程度上依赖于事件的使用,其中设计了各种架构。在这些方法中,用于利用事件的模块不容易与现有的图像和视频去模糊方法合作,从而限制了视频去模糊和事件驱动去模糊的原则框架的发展,这些问题限制了基于事件的视频去模糊原理研究的进一步发展。
发明内容
本发明为了克服现有方法的不足之处,提供一种基于事件数据驱动的视频去模糊方法,以期能在不同情景的视频去模糊任务中达到更好的去模糊性能,从而有效提升去模糊效果。
本发明为解决上述技术问题,采用如下技术方案:
本发明为一种基于事件数据驱动的视频去模糊方法的特点是按如下步骤进行:
步骤1获取训练视频数据和对应的事件序列,并对事件序列进行分割:
步骤1.1获取训练视频数据集:
获取真实的模糊视频图像集,记为X={x1,x2,…,xi,…,xN},其中,xi表示第i张模糊图像,i=1,2,…,N,N为模糊图像的帧数量;
获取真实的清晰视频图像集,记为Y={y1,y2,…,yi,…,yN},其中,yi表示第i张清晰图像,i=1,2,...,N,N为正常图像的总数;
令I={X,Y}表示训练图像数据集;
步骤1.2对事件序列进行分割:
获取真实的模糊图像集X的真实事件序列;
将真实的模糊视频图像集X输入事件仿真器中并生成合成的事件序列;
根据真实的模糊视频图像集X中所包含的帧数量N,将真实事件序列和合成的事件序列分别划分成相同数量N的分段序列,记为E={e1,...,ei,...,eN},ei表示第i张模糊图像xi所对应的真实和合成的事件序列,i=1,2,...,N,N为事件序列的总数;
步骤2构建视频去模糊神经网络,包括:编码网络、时间记忆模块、空间融合模块、解码网络;
步骤2.1、所述编码网络由M个残差模块和M个下采样层交替排列组成,其中,残差模块具有m个卷积层及其对应的跳线连接,卷积核大小为均为ks,步长均为s,各卷积层之间依次连接有LeakRelu层和批归一化层;
所述第i张模糊图像xi经过所述编码网络的处理后,生成M个不同尺度的图像特征其中,uim表示第i张模糊图像xi在第m个尺度的图像特征;
步骤2.2、所述时间记忆模块包括一个公用的卷积层、两个专用的卷积层、记忆单元;
第i-1个事件序列ei-1和第i+1个事件序列ei+1输入公用的卷积层中进行处理,得到两者的公共特征,再分别经过两个专用的卷积层的处理,相应得到第i-1个事件序列ei-1的键和值以及第i+1个事件序列ei+1的键和值;
所述记忆单元将第i-1个事件序列ei-1的键和值以及第i+1个事件序列ei+1的键和值进行拼接后,再分别输入两个卷积核为1×1的卷积层中,输出两个卷积结果后再通过乘积运算得到第i个事件序列ei与相邻事件序列ei-1和ei+1的关联特征图;最后将所述关联特征图与第i个事件序列ei相加后,得到第i个事件特征图Ci;
步骤2.3、所述空间融合模块包括M+1个下采样层、M个上采样层、一个卷积核为1×1的卷积层和融合单元;
所述M个不同尺度的图像特征输入所述空间融合模块中,并分别通过M个下采样层的处理,从而将M个不同尺度的图像特征调整为相同比例的图像特征,再经过一个卷积核为1×1的卷积层后获得第i个特征图Fi;
所述第i个事件特征图Ci通过第M+1个下采样层的处理后,得到下采样后的第i个事件特征图Ci′;
所述融合单元利用式(1)对所述下采样后的第i个事件特征图Ci′和第i个特征图Fi进行处理,从而得到第i个融合特征图Feati中第p个像素点的特征进而得到第i个融合特征图Feati:
式(1)中,p、q是位置索引,表示第i个事件特征图Ci′在p位置处的特征值,Fi q表示第i个特征图Fi在q位置处的特征值,S为特征图的像素点总数;g(·)表示卷积操作;f(·,·)表示乘积函数,并有:
式(2)中,θ(·)和均表示卷积操作;
所述第i个融合特征图Feati分别经过M个上采样层的处理后,获得M个不同尺度的映射特征其中,vim表示第i张模糊图像xi在第m个尺度的图像特征;
步骤2.4、所述解码网络由M个残差模块和M个上采样层交替排列组成,其中,残差模块具有m个卷积层及其对应的跳线连接,卷积核大小为均为ks,步长均为s,各卷积层之间依次连接有LeakRelu层和批归一化层;
所述M个不同尺度的映射特征经过所述解码网络的上采样层处理,获得M个尺度一致的特征图并进行拼接之后,再经过一个卷积操作,从而生成清晰图像/>
步骤3、利用式(3)构建反向传播的损失函数L:
式(3)中,K为生成清晰图像的像素点数,/>为第i个模糊图像经过神经网络生成的去模糊图像的第k个像素点,/>为清晰视频图像集中第i个图像切片对应的第k个像素点;
步骤4、基于真实的模糊图像集X及其分段序列E对视频去模糊神经网络进行训练,并计算损失函数L,同时使用自适应矩估计优化方法以学习率lrs来更新静态检测网络权值,当训练迭代次数达到设定的次数或损失误差达小于所设定的阈值时,训练停止,从而得到最优的去模糊模型;以所述最优的去模糊网络对模糊视频图像进行处理,并获得对应的清晰图像。
与现有技术相比,本发明的有益效果在于:
1、本发明利用事件数据驱动视频去模糊任务,在参数量少的情况下,能够实现很好的端到端的去模糊效果,并且相比现有的分割方法,减少了参数的数量,在不同数据集上具有更好的鲁棒性。实验结果表明,本发明提出的方法在GoPro数据集和HQF数据集上优于最先进的方法。
2、本发明通过注意力机制来感知相邻事件序列之间的时间关联性。为了利用事件提供的高时间分辨率信息,时间记忆模块用于计算不同事件的长期相关性,以恢复时间事件相关性,最终的去模糊网络基于这两个块构建,并以端到端的方式进行训练;查询与键之间的相似性被用来测量与当前事件的时间非局部对应关系,这将生成相应的值以感知时间变化;通过乘积运算获得T时刻事件和相邻事件序列的关联矩阵,并用于融合事件特征,通过这种方式记录不同事件之间的时间关系,更加充分地利用连续事件序列对图像去模糊的先验信息。
3、本发明使用非局部空间融合操作将图像特征和事件特征融合。借助事件数据提供的亮度先验信息,计算图像信息和事件信息的非局部特征,以确定每个帧和事件之间的空间一致性。通过对空间及通道全局关系的建模,深层次挖掘输入特征的全局信息,从而提升了图像的去模糊性能,增加了模型的可解释性。
附图说明
图1为发明方法流程图;
图2为本发明的基于事件数据驱动的视频去模糊方法结构图;
图3为本发明中时间记忆模块的结构图;
图4为本发明中空间融合模块的结构图。
具体实施方式
本实施例中,一种基于事件数据驱动的视频去模糊方法,具体流程参见图1,是综合考虑时间数据与视频序列的特征,并通过非局部的方式对两种数据进行融合,以达到去模糊效果,整个方法的算法结构图参见图2。具体的说,该方法是按照如下步骤进行:
步骤1获取训练视频数据和对应的事件序列,并对事件序列进行分割:
步骤1.1获取训练视频数据集:
获取真实的模糊视频图像集,记为X={x1,x2,...,xi,...,xN},其中,xi表示第i张模糊图像,i=1,2,...,N,N为模糊图像的帧数量;
获取真实的清晰视频图像集,记为Y={y1,y2,...,yi,...,yN},其中,yi表示第i张清晰图像,i=1,2,...,N,N为正常图像的总数;
令I={X,Y}表示训练图像数据集;
步骤1.2对事件序列进行分割:
获取真实的模糊图像集X的真实事件序列;
将真实的模糊视频图像集X输入事件仿真器中并生成合成的事件序列;
根据真实的模糊视频图像集X中所包含的帧数量N,将真实事件序列和合成的事件序列分别划分成相同数量N的分段序列,记为E={e1,...,ei,...,eN},ei表示第i张模糊图像xi所对应的真实和合成的事件序列,i=1,2,...,N,N为事件序列的总数;
本实施例中,采用GoPro数据集训练和评估模型,包括30个不同场景的视频序列,选取其中25个场景用于训练模型,其余的用于评估模型;
步骤2构建视频去模糊神经网络,包括:编码网络、时间记忆模块、空间融合模块、解码网络;
步骤2.1、编码网络由M个残差模块和M个下采样层交替排列组成,其中,残差模块具有m个卷积层及其对应的跳线连接,卷积核大小为均为d×d,步长均为s,各卷积层之间依次连接有LeakRelu层和批归一化层;
第i张模糊图像xi经过编码网络的处理后,生成M个不同尺度的图像特征其中,uim表示第i张模糊图像xi在第m个尺度的图像特征;
本实施例中,如图2所示,M取3,卷积核大小为3×3,步长为1,每层卷积核数分别为64、128、256;卷积层之间通过跳连结构实现不同层之间的空间信息共享,使得高层输出图像带有低级的细节特征,充分提取特征图的空间尺度特征,提升去模糊的质量;
步骤2.2、时间记忆模块包括一个公用的卷积层、两个专用的卷积层、记忆单元,所述时间记忆模块的具体结构如图3所示;
第i-1个事件序列ei-1(前邻近事件序列)和第i+1个事件序列ei+1(后邻近事件序列)输入公用的卷积层中进行处理,得到两者的公共特征,再分别经过两个专用的卷积层的处理,相应得到第i-1个事件序列ei-1的键和值以及第i+1个事件序列ei+1的键和值;
记忆单元将第i-1个事件序列ei-1的键和值以及第i+1个事件序列ei+1的键和值进行拼接后,再分别输入两个卷积核为1×1的卷积层中,输出两个卷积结果后再通过乘积运算得到第i个事件序列ei与相邻事件序列ei-1和ei+1的关联特征图;最后将关联特征图与第i个事件序列ei相加后,得到第i个事件特征图Ci;
步骤2.3、空间融合模块包括M+1个下采样层、M个上采样层、一个卷积核为1×1的卷积层和融合单元;本实施例中,M取3,并提供更多尺度的输入视角来感知输入图像的整体结构,所述空间融合模块的具体结构如图4所示;
M个不同尺度的图像特征输入空间融合模块中,并分别通过M个下采样层的处理,从而将M个不同尺度的图像特征调整为相同比例的图像特征,再经过一个卷积核为1×1的卷积层后获得第i个特征图Fi;
第i个事件特征图Ci通过第M+1个下采样层的处理后,得到下采样后的第i个事件特征图Ci′;
融合单元利用式(1)对下采样后的第i个事件特征图Ci′和第i个特征图Fi进行处理,得到第p个像素点的特征从而得到第i个融合特征图Feati:
式(1)中,p、q是位置索引,表示第i个事件特征图Ci′在p位置处的特征值,Fi q表示第i个特征图Fi在q位置处的特征值,其中S为特征图的像素点总数;g(·)表示卷积操作;f(·,·)表示乘积函数,并有:
式(2)中,θ(·)和均表示卷积操作;
第i个融合特征图Feati分别经过M个上采样层的处理后,获得M个不同尺度的映射特征其中,vim表示第i张模糊图像xi在第m个尺度的图像特征;
步骤2.4、解码网络由M个残差模块和M个上采样层交替排列组成,其中,残差模块具有m个卷积层及其对应的跳线连接,卷积核大小为均为d×d,步长均为s,各卷积层之间依次连接有LeakRelu层和批归一化层;本实施例中,M取3,卷积核大小为3×3,步长为1,每层卷积核数分别为256、128、64;
M个不同尺度的映射特征经过解码网络的处理后,每一个映射特征均会经过一个上采样层,获得M个尺度一致的特征图,拼接之后,再经过一个卷积操作获得生成的清晰图像/>
步骤3、利用式(3)构建反向传播的损失函数L,在二范数空间中最小化生成结果与真实
前景标注图像之间的损失,在低频信息段提高生成结果的质量:
式(3)中,K为图像的像素点数,为第i个模糊图像经过神经网络生成的去模糊图像的第k个像素点,/>为清晰视频图像集中第i个图像切片对应的第k个像素点;
步骤4、基于真实的模糊图像集X及其分段序列E对视频去模糊神经网络进行训练,并计算损失函数L,并使用自适应矩估计优化方法以学习率lrs来更新静态检测网络权值,本实例中学习率lrs取5e-5,当训练迭代次数达到设定的次数或损失误差达小于所设定的阈值时,训练停止,从而得到最优的去模糊模型;以最优的去模糊网络对模糊视频图像进行处理,并获得对应的清晰图像。
实施例
为了验证本发明方法中的有效性,本实施例中选用了常用的GoPro数据集和HQF数据集用于训练和测试。
该方法是基于GoPro数据集进行训练的,该数据集由合成事件、2103对模糊帧和清晰的真实背景帧组成。为了获得事件数据,使用V2E生成相应的事件序列,同时考虑到高斯分布N(0.18,0.03)中像素级的不同合同阈值。对于真实世界事件的评估,使用HQF数据集,包括真实世界捕获的真实事件数据,DAVIS240C是一种基于动态事件的视觉传感器,用于报告亮度变化。模糊帧是使用与GoPro数据集相同的策略生成的。在GoPro测试数据集上进行测试时,帧对的数量是1111。
本发明中采用结构相似度(PSNR)和峰值信噪比(SSIM)作为评价指标。
本实施例中选用五种方法和本发明方法进行效果对比,所选方法分别是LEDVI,eSL-Net,CSD,STFAN,RED-Net,STRA为发明方法。
根据实验结果可得出结果如表1和表2所示:
表1本发明方法与选用的五种对比方法在HQF数据集上进行去模糊的实验结果
LEDVI | eSL-Net | CSD | STFAN | RED-Net | STRA | |
PSNR | 22.22 | 25.42 | 24.71 | 24.17 | 25.72 | 27.54 |
SSIM | 0.687 | 0.754 | 0.724 | 0.711 | 0.763 | 0.834 |
表2本发明方法与选用的五种对比方法在GoPro数据集上进行去模糊的实验结果
LEDVI | eSL-Net | CSD | STFAN | RED-Net | STRA | |
PSNR | 22.86 | 22.59 | 27.54 | 28.07 | 28.98 | 29.73 |
SSIM | 0.733 | 0.750 | 0.834 | 0.836 | 0.849 | 0.927 |
实验结果显示在两种不同的数据集上,本发明方法与其它五种方法相比效果都要更好,从而证明了本发明提出方法的可行性。实验表明本发明提出方法能有效利用单帧图像的空间特性及帧之事件序列间的时间连续特性,完成模糊视频的去模糊任务。
Claims (1)
1.一种基于事件数据驱动的视频去模糊方法,其特征是按如下步骤进行:
步骤1获取训练视频数据和对应的事件序列,并对事件序列进行分割:
步骤1.1获取训练视频数据集:
获取真实的模糊视频图像集,记为X={x1,x2,...,xi,...,xN},其中,xi表示第i张模糊图像,i=1,2,...,N,N为模糊图像的帧数量;
获取真实的清晰视频图像集,记为Y={y1,y2,...,yi,...,yN},其中,yi表示第i张清晰图像,i=1,2,...,N,N为正常图像的总数;
令I={X,Y}表示训练图像数据集;
步骤1.2对事件序列进行分割:
获取真实的模糊图像集X的真实事件序列;
将真实的模糊视频图像集X输入事件仿真器中并生成合成的事件序列;
根据真实的模糊视频图像集X中所包含的帧数量N,将真实事件序列和合成的事件序列分别划分成相同数量N的分段序列,记为E={e1,...,ei,...,eN},ei表示第i张模糊图像xi所对应的真实和合成的事件序列,i=1,2,...,N,N为事件序列的总数;
步骤2构建视频去模糊神经网络,包括:编码网络、时间记忆模块、空间融合模块、解码网络;
步骤2.1、所述编码网络由M个残差模块和M个下采样层交替排列组成,其中,残差模块具有m个卷积层及其对应的跳线连接,卷积核大小为均为ks,步长均为s,各卷积层之间依次连接有LeakRelu层和批归一化层;
所述第i张模糊图像xi经过所述编码网络的处理后,生成M个不同尺度的图像特征其中,uim表示第i张模糊图像xi在第m个尺度的图像特征;
步骤2.2、所述时间记忆模块包括一个公用的卷积层、两个专用的卷积层、记忆单元;
第i-1个事件序列ei-1和第i+1个事件序列ei+1输入公用的卷积层中进行处理,得到两者的公共特征,再分别经过两个专用的卷积层的处理,相应得到第i-1个事件序列ei-1的键和值以及第i+1个事件序列ei+1的键和值;
所述记忆单元将第i-1个事件序列ei-1的键和值以及第i+1个事件序列ei+1的键和值进行拼接后,再分别输入两个卷积核为1×1的卷积层中,输出两个卷积结果后再通过乘积运算得到第i个事件序列ei与相邻事件序列ei-1和ei+1的关联特征图;最后将所述关联特征图与第i个事件序列ei相加后,得到第i个事件特征图Ci;
步骤2.3、所述空间融合模块包括M+1个下采样层、M个上采样层、一个卷积核为1×1的卷积层和融合单元;
所述M个不同尺度的图像特征输入所述空间融合模块中,并分别通过M个下采样层的处理,从而将M个不同尺度的图像特征调整为相同比例的图像特征,再经过一个卷积核为1×1的卷积层后获得第i个特征图Fi;
所述第i个事件特征图Ci通过第M+1个下采样层的处理后,得到下采样后的第i个事件特征图C′i;
所述融合单元利用式(1)对所述下采样后的第i个事件特征图C′i和第i个特征图Fi进行处理,从而得到第i个融合特征图Feati中第p个像素点的特征进而得到第i个融合特征图Feati:
式(1)中,p、q是位置索引,表示第i个事件特征图C′i在p位置处的特征值,Fi q表示第i个特征图Fi在q位置处的特征值,S为特征图的像素点总数;g(·)表示卷积操作;f(·,·)表示乘积函数,并有:
式(2)中,θ(·)和均表示卷积操作;
所述第i个融合特征图Feati分别经过M个上采样层的处理后,获得M个不同尺度的映射特征其中,vim表示第i张模糊图像xi在第m个尺度的图像特征;
步骤2.4、所述解码网络由M个残差模块和M个上采样层交替排列组成,其中,残差模块具有m个卷积层及其对应的跳线连接,卷积核大小为均为ks,步长均为s,各卷积层之间依次连接有LeakRelu层和批归一化层;
所述M个不同尺度的映射特征经过所述解码网络的上采样层处理,获得M个尺度一致的特征图并进行拼接之后,再经过一个卷积操作,从而生成清晰图像/>
步骤3、利用式(3)构建反向传播的损失函数L:
式(3)中,K为生成清晰图像的像素点数,/>为第i个模糊图像经过神经网络生成的去模糊图像的第k个像素点,/>为清晰视频图像集中第i个图像切片对应的第k个像素点;
步骤4、基于真实的模糊图像集X及其分段序列E对视频去模糊神经网络进行训练,并计算损失函数L,同时使用自适应矩估计优化方法以学习率lrs来更新静态检测网络权值,当训练迭代次数达到设定的次数或损失误差达小于所设定的阈值时,训练停止,从而得到最优的去模糊模型;以所述最优的去模糊模型对模糊视频图像进行处理,并获得对应的清晰图像。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210124768.4A CN114463218B (zh) | 2022-02-10 | 2022-02-10 | 一种基于事件数据驱动的视频去模糊方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210124768.4A CN114463218B (zh) | 2022-02-10 | 2022-02-10 | 一种基于事件数据驱动的视频去模糊方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN114463218A CN114463218A (zh) | 2022-05-10 |
CN114463218B true CN114463218B (zh) | 2023-10-24 |
Family
ID=81412588
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210124768.4A Active CN114463218B (zh) | 2022-02-10 | 2022-02-10 | 一种基于事件数据驱动的视频去模糊方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114463218B (zh) |
Families Citing this family (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115239581A (zh) * | 2022-06-30 | 2022-10-25 | 华为技术有限公司 | 一种图像处理方法及相关装置 |
CN116091337B (zh) * | 2022-11-29 | 2024-02-02 | 北京大学 | 一种基于事件信号神经编码方式的图像增强方法及装置 |
CN115862122A (zh) * | 2022-12-27 | 2023-03-28 | 北京衔微医疗科技有限公司 | 眼底图像获取方法、装置、计算机设备和可读存储介质 |
CN116456183B (zh) * | 2023-04-20 | 2023-09-26 | 北京大学 | 一种事件相机引导下的高动态范围视频生成方法及系统 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111539884A (zh) * | 2020-04-21 | 2020-08-14 | 温州大学 | 一种基于多注意力机制融合的神经网络视频去模糊方法 |
CN111612711A (zh) * | 2019-05-31 | 2020-09-01 | 北京理工大学 | 一种基于生成对抗网络改进的图片去模糊方法 |
CN112200752A (zh) * | 2020-10-28 | 2021-01-08 | 西华大学 | 一种基于er网络多帧图像去模糊系统及其方法 |
CN112686828A (zh) * | 2021-03-16 | 2021-04-20 | 腾讯科技(深圳)有限公司 | 视频去噪方法、装置、设备及存储介质 |
CN113422952A (zh) * | 2021-05-17 | 2021-09-21 | 杭州电子科技大学 | 基于时空传播层次编解码器的视频预测方法 |
-
2022
- 2022-02-10 CN CN202210124768.4A patent/CN114463218B/zh active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111612711A (zh) * | 2019-05-31 | 2020-09-01 | 北京理工大学 | 一种基于生成对抗网络改进的图片去模糊方法 |
CN111539884A (zh) * | 2020-04-21 | 2020-08-14 | 温州大学 | 一种基于多注意力机制融合的神经网络视频去模糊方法 |
CN112200752A (zh) * | 2020-10-28 | 2021-01-08 | 西华大学 | 一种基于er网络多帧图像去模糊系统及其方法 |
CN112686828A (zh) * | 2021-03-16 | 2021-04-20 | 腾讯科技(深圳)有限公司 | 视频去噪方法、装置、设备及存储介质 |
CN113422952A (zh) * | 2021-05-17 | 2021-09-21 | 杭州电子科技大学 | 基于时空传播层次编解码器的视频预测方法 |
Non-Patent Citations (3)
Title |
---|
《Infrared Thermal Imaging Super-Resolution via Multiscale Spatio-Temporal Feature Fusion Network》;Zhang WH et al;《IEEE》;全文 * |
《基于双分支融合的反馈迭代金字塔去模糊和超分辨率算法》;王峰等;《计算机应用研究》;全文 * |
《领域知识驱动的深度学习单幅图像去雨研究》;傅雪阳;《中国博士学位论文全文数据库 信息科技辑》;全文 * |
Also Published As
Publication number | Publication date |
---|---|
CN114463218A (zh) | 2022-05-10 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN114463218B (zh) | 一种基于事件数据驱动的视频去模糊方法 | |
CN109064507B (zh) | 一种用于视频预测的多运动流深度卷积网络模型方法 | |
CN108805015B (zh) | 加权卷积自编码长短期记忆网络人群异常检测方法 | |
CN111709895A (zh) | 基于注意力机制的图像盲去模糊方法及系统 | |
CN112149459B (zh) | 一种基于交叉注意力机制的视频显著性物体检测模型及系统 | |
CN110580472B (zh) | 一种基于全卷积网络和条件对抗网络的视频前景检测方法 | |
Hu et al. | Underwater image restoration based on convolutional neural network | |
CN111028177A (zh) | 一种基于边缘的深度学习图像去运动模糊方法 | |
CN113688723A (zh) | 一种基于改进YOLOv5的红外图像行人目标检测方法 | |
CN111861925A (zh) | 一种基于注意力机制与门控循环单元的图像去雨方法 | |
Zhang et al. | Single image dehazing via dual-path recurrent network | |
Wang et al. | Video deblurring via spatiotemporal pyramid network and adversarial gradient prior | |
CN111968123A (zh) | 一种半监督视频目标分割方法 | |
CN113255616B (zh) | 一种基于深度学习的视频行为识别方法 | |
CN114170286B (zh) | 一种基于无监督深度学习的单目深度估计方法 | |
Hu et al. | A multi-stage underwater image aesthetic enhancement algorithm based on a generative adversarial network | |
Qin et al. | Etdnet: An efficient transformer deraining model | |
CN111369548A (zh) | 一种基于生成对抗网络的无参考视频质量评价方法及装置 | |
CN109871790B (zh) | 一种基于混合神经网络模型的视频去色方法 | |
CN114612305B (zh) | 一种基于立体图建模的事件驱动视频超分辨率方法 | |
CN116433516A (zh) | 一种基于注意力机制的低照度图像去噪增强方法 | |
Cui et al. | Multi-stream attentive generative adversarial network for dynamic scene deblurring | |
CN114119428B (zh) | 一种图像去模糊方法和装置 | |
Yang et al. | Blind VQA on 360° video via progressively learning from pixels, frames, and video | |
CN116188555A (zh) | 一种基于深度网络与运动信息的单目室内深度估计算法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |