CN116596794A - 一种基于事件相机的联合去运动模糊和视频插帧方法 - Google Patents
一种基于事件相机的联合去运动模糊和视频插帧方法 Download PDFInfo
- Publication number
- CN116596794A CN116596794A CN202310607521.2A CN202310607521A CN116596794A CN 116596794 A CN116596794 A CN 116596794A CN 202310607521 A CN202310607521 A CN 202310607521A CN 116596794 A CN116596794 A CN 116596794A
- Authority
- CN
- China
- Prior art keywords
- event
- module
- frame
- exposure
- video frame
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 43
- 238000000605 extraction Methods 0.000 claims abstract description 19
- 238000012549 training Methods 0.000 claims abstract description 12
- 238000007781 pre-processing Methods 0.000 claims abstract description 4
- 230000006870 function Effects 0.000 claims description 46
- 230000004913 activation Effects 0.000 claims description 18
- 238000012545 processing Methods 0.000 claims description 15
- 230000008569 process Effects 0.000 claims description 14
- 230000002776 aggregation Effects 0.000 claims description 12
- 238000004220 aggregation Methods 0.000 claims description 12
- 125000003275 alpha amino acid group Chemical group 0.000 claims description 9
- 150000001875 compounds Chemical class 0.000 claims description 9
- 238000011084 recovery Methods 0.000 claims description 9
- NAWXUBYGYWOOIX-SFHVURJKSA-N (2s)-2-[[4-[2-(2,4-diaminoquinazolin-6-yl)ethyl]benzoyl]amino]-4-methylidenepentanedioic acid Chemical compound C1=CC2=NC(N)=NC(N)=C2C=C1CCC1=CC=C(C(=O)N[C@@H](CC(=C)C(O)=O)C(O)=O)C=C1 NAWXUBYGYWOOIX-SFHVURJKSA-N 0.000 claims description 6
- 238000004590 computer program Methods 0.000 claims description 5
- 238000010606 normalization Methods 0.000 claims description 4
- 238000006243 chemical reaction Methods 0.000 claims description 3
- 239000002131 composite material Substances 0.000 claims description 3
- 230000004927 fusion Effects 0.000 claims description 3
- 238000011478 gradient descent method Methods 0.000 claims description 3
- 239000000203 mixture Substances 0.000 claims description 3
- 238000006116 polymerization reaction Methods 0.000 claims description 3
- 238000011176 pooling Methods 0.000 claims description 3
- 101100127891 Caenorhabditis elegans let-4 gene Proteins 0.000 claims 1
- 238000003780 insertion Methods 0.000 abstract description 6
- 230000037431 insertion Effects 0.000 abstract description 6
- 230000000007 visual effect Effects 0.000 abstract description 3
- 238000013139 quantization Methods 0.000 abstract description 2
- 238000013135 deep learning Methods 0.000 abstract 1
- 238000012360 testing method Methods 0.000 description 4
- 238000012966 insertion method Methods 0.000 description 3
- 230000008901 benefit Effects 0.000 description 2
- 238000013527 convolutional neural network Methods 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 238000005457 optimization Methods 0.000 description 2
- 238000013528 artificial neural network Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000015556 catabolic process Effects 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 230000001186 cumulative effect Effects 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000006731 degradation reaction Methods 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000011156 evaluation Methods 0.000 description 1
- 238000013210 evaluation model Methods 0.000 description 1
- 238000002474 experimental method Methods 0.000 description 1
- 238000007429 general method Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T5/00—Image enhancement or restoration
- G06T5/73—Deblurring; Sharpening
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/0464—Convolutional networks [CNN, ConvNet]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/048—Activation functions
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/082—Learning methods modifying the architecture, e.g. adding, deleting or silencing nodes or connections
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/084—Backpropagation, e.g. using gradient descent
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T5/00—Image enhancement or restoration
- G06T5/10—Image enhancement or restoration using non-spatial domain filtering
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T5/00—Image enhancement or restoration
- G06T5/70—Denoising; Smoothing
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/80—Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/82—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/40—Scenes; Scene-specific elements in video content
- G06V20/46—Extracting features or characteristics from the video content, e.g. video fingerprints, representative shots or key frames
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/10—Image acquisition modality
- G06T2207/10016—Video; Image sequence
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20081—Training; Learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20084—Artificial neural networks [ANN]
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02T—CLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
- Y02T10/00—Road transport of goods or passengers
- Y02T10/10—Internal combustion engine [ICE] based vehicles
- Y02T10/40—Engine management systems
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Evolutionary Computation (AREA)
- Health & Medical Sciences (AREA)
- Software Systems (AREA)
- Artificial Intelligence (AREA)
- Computing Systems (AREA)
- General Health & Medical Sciences (AREA)
- Data Mining & Analysis (AREA)
- Computational Linguistics (AREA)
- Biophysics (AREA)
- Molecular Biology (AREA)
- Biomedical Technology (AREA)
- General Engineering & Computer Science (AREA)
- Mathematical Physics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Multimedia (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Databases & Information Systems (AREA)
- Medical Informatics (AREA)
- Image Analysis (AREA)
Abstract
本发明公开了一种基于事件相机的联合去运动模糊和视频插帧方法,包括:1、基于事件相机的低帧率模糊视频数据的采集和预处理,2、构建盲曝光限制下的联合去运动模糊和视频插帧网络,包括:特征提取模块、事件指导的曝光先验估计模块、时间‑曝光的联合控制模块以及清晰视频帧重建模块,3、采用分阶段的训练策略优化网络。本发明能利用事件相机去记录场景的运动,有效地克服曝光歧义性,获得精准的曝光估计,从而解决盲曝光限制,并且利用开发的深度学习算法有效融合视频帧数据和事件数据,从而能够有效的去除运动模糊以及实现视频插帧,达到最优的量化和视觉效果。
Description
技术领域
本发明属于计算机视觉领域,具体的说是一种基于事件相机的联合去运动模糊和视频插帧方法。
背景技术
最近这些年,计算机视觉研究人员在模糊视频插帧领域做了大量工作。模糊视频插帧算法的发展目前依然是初步阶段。其中,串联多任务的方案是最为简单的尝试。它通过将视频去运动模糊算法以及视频插帧算法这两种任务进行串联,从而达到同时去运动模糊以及提高帧率的目的。相比于这种串联多任务的方案,一体恢复方案是更加高效的选择,因为它不会引入串联多任务所带来的累计误差。虽然现有的模糊视频插帧方案取得了一定的效果,但是这些都基于一定的曝光假设,比方假设曝光时间是固定的,并且等于帧率的倒数。这种非盲曝光的假设是有违实际的视频拍摄情况的。在真实的拍摄场景中,复杂的运动以及光线条件常常会导致曝光时间是变化并且是未知的,这样的一种可变且未知的曝光也被称作盲曝光限制。盲曝光设定给现有的基于非盲曝光条件的模糊视频插帧算法带来了非常大的挑战,会带来严重的性能下降,甚至是引入额外的干扰噪声。
解决盲曝光限制下的模糊视频插帧问题的关键是能够获得准确的曝光估计。但是仅仅通过模糊视频很难得到准确的曝光时间估计,因为对于一个模糊视频来说,视频帧的模糊程度由两个因素来决定,第一是运动速度,第二是曝光时间。这便是曝光歧义性。也就是说在短曝光下高速运动产生的模糊很有可能和长曝光下慢运动产生的模糊一样。曝光歧义性的存在使得现有方法产生严重的视觉模糊以及细节丢失。
发明内容
本发明是为了解决上述现有技术存在的不足之处,提出一种基于事件相机的联合去运动模糊和视频插帧方法,以期有效地克服事件相机所记录场景运动的曝光歧义性,获得精准的曝光估计,以解决盲曝光限制,并通过融合视频帧数据和事件数据,有效的去除运动模糊并实现视频插帧,从而达到最优的量化和视觉效果。
本发明为达到上述发明目的,采用如下技术方案:
本发明一种基于事件相机的联合去运动模糊和视频插帧方法的特点在于,包括如下步骤:
步骤一、基于事件相机的低帧率模糊视频数据的采集和预处理:
利用事件相机拍摄动态场景后得到连续的清晰视频帧及其异步事件流信号,令其中一个清晰视频帧记为Igt,令清晰视频帧I对应的异步事件流信号记为其中,ek表示第k个事件,且ek=pkδ(t-tk,x-xk,y-yk),pk代表第k个事件ek的极性,pk∈{-1,1};tk代表第k个事件ek的发生时刻;xk和yk分别表示第k个事件ek发生的空间坐标;N表示事件的总数;(t,x,y)表示时空投影坐标;δ为示性函数;
将连续的清晰视频帧取均值后作为清晰视频帧Igt对应的帧模糊视频帧B;并利用拉普拉斯变换函数Laplace()将模糊视频帧B转换成模糊程度量BL;
步骤二、利用式(1)将异步事件流信号转换成事件帧V∈R2×H×W:
V=∑k=1δ(x-xk,y-yk,p-pk) (1)
式(1)中,H,W分别表示事件帧V的高和宽;
步骤三、构建盲曝光限制下的联合去运动模糊和视频插帧网络,包括:特征提取模块、事件指导的曝光先验估计模块、时间-曝光的联合控制模块以及清晰视频帧重建模块;
步骤3.1、所述特征提取模块利用一层卷积层分别对所述事件帧V和模糊视频帧B进行处理,相应得到事件特征和模糊视频帧特征/>
步骤3.2、所述事件指导的曝光先验估计模块对所述事件帧V进行处理,得到预测的曝光先验EP;
步骤3.3、所述时间-曝光的联合控制模块对曝光先验EP进行处理,得到联合控制特征Featcontrol;
步骤3.4、所述清晰视频帧重建模块对联合控制特征Featcontrol进行处理,得到初始清晰帧Iinit和最终清晰帧Ifinal;
步骤四、采用分阶段的训练策略优化网络:
步骤4.1、利用式(10)构建第一阶段的事件指导的曝光先验估计模块的损失函数
式(10)中,EPgt是真实的曝光先验;表示均方差损失函数;
步骤4.2、利用式(11)构建第二阶段的剩余模块的损失函数
式(11)中,表示网络损失函数,并有:
式(12)中,表示复合损失函数,并有:
式(13)中,表示拉普拉斯损失函数,/>表示汉明损失函数,并有:
式(14)和式(15)中,I表示Iinit或Ifinal,S表示层数,Ls()表示第s级的拉普拉斯金字塔,Dis()表示汉明距离,Cen()表示census变换;
步骤4.3、使用梯度下降法对于所述联合去运动模糊和视频插帧网络进行分阶段训练,在第一阶段利用式(10)优化事件指导的曝光先验估计模块,在二阶段利用式(11)优化剩余模块并微调网络参数,从而得到训练后的联合去运动模糊和视频插帧网络,用于实现对任一低帧率模糊视频帧的去模糊化和插帧处理。
本发明所述的基于事件相机的联合去运动模糊和视频插帧方法的特点也在于,所述事件指导的曝光先验估计模块包含两个结构相同但参数不共享的特征提取网络以及一个特征聚合网络Φaggre;
所述特征提取网络由一层卷积层与LeakyReLU激活函数构成;
所述特征聚合网络Φaggre由两层卷积层组成,第一层的卷积的激活函数是LeakyReLU,第二层卷积没有激活函数;
步骤3.2.1、所述事件帧V输入特征提取网络中进行处理,并输出事件特征Feate;
所述帧模糊视频帧B和模糊程度量BL在通道维度进行堆叠后输入特征提取网络中进行处理,并输出模糊视频特征Featbf;
步骤3.2.2、所述特征聚合网络Φaggre利用式(5)得到聚合特征Feataggre:
Feataggre=Φaggre([Feate×Sigmoid(GN(Feate)×GN(Featbf)),Featbf]) (5)
式(5)中,Sigmoid()表示sigmoid激活函数,GN()表示group norm归一化处理;
所述特征聚合网络Φaggre利用式(6)得到预测的曝光先验EP:
EP=AP(Feataggre) (6)
式(6)中,EP的取值范围为0到1,AP表示平均池化。
所述时间-曝光的联合控制模块包括n个级联的子模块,每个子模块由两个特征传递卷积层两个控制卷积层/>以及一个融合卷积层Φfuse组成;
其中,第i子模块利用式(7)得到第i个中间控制特征Feati,从而由第n个级联的子模块输出联合控制特征Featcontrol;
式(7)中,Feati-1表示第i-1个子模块输出的中间控制特征;当i=1时,令 i∈[1,N]。
所述清晰视频帧重建模块由初始清晰帧预测子模块和最终清晰帧恢复子模块Φdetail;
步骤3.4.1、所述初始清晰帧预测子模块由卷积模块、核预测模块KPN、连接模块和图像重建模块Φrecons构成;
所述卷积模块对联合控制特征Featcontrol进行卷积处理,得到卷积特征Feat′control;
所述核预测模块KPN利用式(9)得到初始卷积特征
式(9)中,Conv()表示卷积层与LeakyReLU激活函数的处理,*表示卷积;
所述连接模块利用式(10)得到初始清晰帧特征
所述图像重建模块Φrecons由一层卷积层,一层PixelShuffle层以及LeakyReLU激活函数组成,并对进行处理后,得到初始清晰帧Iinit;
步骤3.4.2、所述最终清晰帧恢复子模块Φdetail将Iinit与B拼接后,得到最终清晰帧Ifinal。
本发明一种电子设备,包括存储器以及处理器的特点在于,所述存储器用于存储支持处理器执行任一所述联合去运动模糊和视频插帧方法的程序,所述处理器被配置为用于执行所述存储器中存储的程序。
本发明一种计算机可读存储介质,计算机可读存储介质上存储有计算机程序的特点在于,所述计算机程序被处理器运行时执行任一所述联合去运动模糊和视频插帧方法的步骤。
与现有技术相比,本发明的有益效果在于:
1、本发明提出事件指导的曝光先验估计模块,是利用高时间分辨率的事件相机去得到运动先验,将异步事件流、模糊视频帧以及模糊程度量作为输入,使用卷积神经网络搭建模块主体,并且使用组归一化技术消除视频与事件流两种模态之间的偏差,从而获得了精准的曝光先验的估计。该模块充分利用事件相机高时间分辨率的优点,从而提供精细的运动捕捉能力,使得盲曝光问题变得可解,克服了现有去运动模糊和视频插帧技术受限于盲曝光的难点,从而带来了最优的去运动模糊和视频插帧效果。
2、本发明提出了时间-曝光的联合控制模块,该模块将插帧时间、曝光先验以及事件帧特征作为输入,使用卷积神经网络搭建模块主体。该模块将插帧时间和曝光先验作为两个控制因子,设计了双路控制路径来调控事件帧特征,从而使得两个控制因子能够高效协同配合,克服了单路径控制带来的数据偏差。此外该模块将整个控制过程展开,使用了迭代优化的策略递进式地控制事件帧特征,从而使得整个控制过程更加准确,易于神经网络优化。
附图说明
图1为本发明实施的基于事件相机的联合去运动模糊和视频插帧的网络结构图;
图2为本发明实施事件指导的曝光先验估计模块的流程图;
图3为本发明实施时间-曝光联合控制模块的流程图。
具体实施方式
本实施例中,一种基于事件相机的联合去运动模糊和视频插帧方法,首先通过事件指导的曝光估计模块得到曝光先验,从而充分利用事件相机的高时间分辨率的优点,将盲曝光问题转化为非盲曝光问题,消除了盲曝光问题带来的干扰。然后通过时间-曝光联合控制模块将时间和曝光两个因子注入到网络的处理过程中,同时引入双路迭代策略来实现稳定的控制,具体的流程参见图1。该方法按如下步骤进行:
步骤一、基于事件相机的低帧率模糊视频数据的采集和预处理:
利用事件相机拍摄动态场景后得到连续的清晰视频帧及其异步事件流信号,令其中一个清晰视频帧记为Igt,令清晰视频帧I对应的异步事件流信号记为其中,ek表示第k个事件,且ek=pkδ(t-tk,x-xk,y-yk),pk代表第k个事件ek的极性,pk∈{-1,1};tk代表第k个事件ek的发生时刻;xk和yk分别表示第k个事件ek发生的空间坐标;N表示事件的总数;(t,x,y)表示时空投影坐标;δ为示性函数;
将连续的清晰视频帧取均值后作为清晰视频帧Igt对应的帧模糊视频帧B;并利用拉普拉斯变换函数Laplace()将模糊视频帧B转换成模糊程度量BL;
本实例中,采用RealSharD-DAVIS数据集进行训练和评估模型,为了模拟盲曝光设定,记快门周期为T,记曝光模式为m-n,其中m表示曝光时间,n表示数据读出时间,且m+n=T。在模拟模糊视频的过程中,曝光时间内的清晰帧取平均后生成了模糊视频帧。在实验中,为了模拟不同的曝光情况,T被设定为16和12。当T=16时,曝光时间m设定为9到15。当T=12时,曝光时间m设定为7到11。
步骤二、利用式(1)将异步事件流信号转换成事件帧V∈R2×H×W:
V=∑k=1δ(x-xk,y-yk,p-pk) (1)
式(1)中,H,W分别表示事件帧V的高和宽;
步骤三、构建盲曝光限制下的联合去运动模糊和视频插帧网络,包括:特征提取模块、事件指导的曝光先验估计模块、时间-曝光的联合控制模块以及清晰视频帧重建模块;
步骤3.1、特征提取模块利用一层卷积层分别对事件帧V和模糊视频帧B进行处理,相应得到事件特征和模糊视频帧特征/>
步骤3.2、如图2所示,事件指导的曝光先验估计模块包含两个结构相同但参数不共享的特征提取网络以及一个特征聚合网络Φaggre;
特征提取网络由一层卷积层与LeakyReLU激活函数构成;
特征聚合网络Φaggre由两层卷积层组成,第一层的卷积的激活函数是LeakyReLU,第二层卷积没有激活函数;
步骤3.2.1、事件帧V输入特征提取网络和进行处理,并输出事件特征Feate;
帧模糊视频帧B和模糊程度量BL在通道维度进行堆叠后输入特征提取网络中进行处理,并输出模糊视频特征Featbf;
步骤3.2.2、特征聚合网络Φaggre利用式(5)得到聚合特征Feataggre:
Feataggre=Φaggre([Feate×Sigmoid(GN(Feate)×GN(Featbf)),Featbf]) (5)
式(5)中,Sigmoid()表示sigmoid激活函数,GN()表示group norm归一化处理;
特征聚合网络Φaggre利用式(6)得到预测的曝光先验EP:
EP=AP(Feataggre) (6)
式(6)中,EP的取值范围为0到1,AP表示平均池化;
步骤3.3、如图3所示,时间-曝光的联合控制模块包括n个级联的子模块,每个子模块由两个特征传递卷积层两个控制卷积层/>以及一个融合卷积层Φfuse组成;
其中,第i子模块利用式(7)得到第i个中间控制特征Feati,从而由第n个级联的子模块输出联合控制特征Featcontrol;
式(7)中,Feati-1表示第i-1个子模块输出的中间控制特征;当i=1时,令 i∈[1,N];
步骤3.4、清晰视频帧重建模块由初始清晰帧预测子模块和最终清晰帧恢复子模块Φdetail;
步骤3.4.1、初始清晰帧预测子模块由核预测模块KPN、卷积模块、连接模块和图像重建模块Φrecons构成;
卷积模块对联合控制特征Featcontrol进行卷积处理,得到卷积特征Feat′control;
核预测模块KPN利用式(9)得到初始卷积特征
式(9)中,Conv()表示卷积层与LeakyReLU激活函数的处理,*表示卷积;
本实施例中,核预测模块KPN所预测的卷积核的大小为5×5。
连接模块利用式(10)得到初始清晰帧特征
图像重建模块Φrecons由一层卷积层,一层PixelShuffle层以及LeakyReLU激活函数组成,并对进行处理后,得到初始清晰帧Iinit;
步骤3.4.2、最终清晰帧恢复子模块Φdetail将Iinit与B拼接后,得到最终清晰帧Ifinal;
步骤四、采用分阶段的训练策略优化网络:
步骤4.1、利用式(10)构建第一阶段的事件指导的曝光先验估计模块的损失函数
式(10)中,EPgt是真实的曝光先验;表示均方差损失函数;
步骤4.2、利用式(11)构建第二阶段的剩余模块的损失函数
式(11)中,表示网络损失函数,并有:
在本实施例中,在10K次迭代之前权重λ=1,μ=0.1,之后权重设为λ=0.1,μ=1。
式(12)中,表示复合损失函数,Igt表示真实清晰帧,并有:
式(13)中,表示拉普拉斯损失函数,/>表示汉明损失函数,并有:
式(14)和式(15)中,I表示Iinit或Ifinal,S表示层数,Ls()表示第s级的拉普拉斯金字塔,Dis()表示汉明距离,Cen()表示census变换;
在本实施例中,S设为5.
步骤4.3、采用分阶段的训练策略并使用梯度下降法对于联合去运动模糊和视频插帧网络进行训练,并计算损失函数:
第一阶段利用公式(10)优化事件指导的曝光先验估计模块;
第二阶段利用公式(11)优化剩余模块;
最后再利用公式(11)微调整个网络。
在本实施例中,第一阶段和第二阶段,采用学习率0.0001;最后微调阶段采用学习率0.00001。
本实施例中,一种电子设备,包括存储器以及处理器,该存储器用于存储支持处理器执行上述方法的程序,该处理器被配置为用于执行该存储器中存储的程序。
本实施例中,一种计算机可读存储介质,是在计算机可读存储介质上存储有计算机程序,该计算机程序被处理器运行时执行上述方法的步骤。
实验例:
为验证本发明方法的有效性,本实施例选用了常用的RealSharp-DAVIS数据集用于训练和测试。该方法基于RealSharp-DAVIS数据集进行训练。RealSharp-DAVIS数据集分为训练集和测试集。整个数据集共包含59个不同的场景,使用了DAVIS-color-346事件相机拍摄,分辨率为346×260。训练过程中曝光时间设定为9到15,快门周期为16,然后进行泛化测试,测试过程中曝光时间设定为7到11,快门周期为12。
本实例中,选用四种通用方法EVDI、LEDVDI、UTI、BIN作为比较,选用PSNR作为评价指标,如表1所示:
实验结果表明在基于事件相机的联合去运动模糊和视频插帧任务中,本发明方法优于先前的最佳恢复模型,从而验证了本发明方法能够有效解决盲曝光限制下的视频恢复任务。并且本发明方法能够在推理时间上明显优于其他方法,验证了本发明方法的高效性。
Claims (6)
1.一种基于事件相机的联合去运动模糊和视频插帧方法,其特征在于,包括如下步骤:
步骤一、基于事件相机的低帧率模糊视频数据的采集和预处理:
利用事件相机拍摄动态场景后得到连续的清晰视频帧及其异步事件流信号,令其中一个清晰视频帧记为Igt,令清晰视频帧I对应的异步事件流信号记为其中,ek表示第k个事件,且ek=pkδ(t-tk,x-xk,y-yk),pk代表第k个事件ek的极性,pk∈{-1,1};tk代表第k个事件ek的发生时刻;xk和yk分别表示第k个事件ek发生的空间坐标;N表示事件的总数;(t,x,y)表示时空投影坐标;δ为示性函数;
将连续的清晰视频帧取均值后作为清晰视频帧Igt对应的帧模糊视频帧B;并利用拉普拉斯变换函数Laplace()将模糊视频帧B转换成模糊程度量BL;
步骤二、利用式(1)将异步事件流信号转换成事件帧V∈R2×H×W:
V=∑k=1δ(x-xk,y-yk,p-pk) (1)
式(1)中,H,W分别表示事件帧V的高和宽;
步骤三、构建盲曝光限制下的联合去运动模糊和视频插帧网络,包括:特征提取模块、事件指导的曝光先验估计模块、时间-曝光的联合控制模块以及清晰视频帧重建模块;
步骤3.1、所述特征提取模块利用一层卷积层分别对所述事件帧V和模糊视频帧B进行处理,相应得到事件特征和模糊视频帧特征/>
步骤3.2、所述事件指导的曝光先验估计模块对所述事件帧V进行处理,得到预测的曝光先验EP;
步骤3.3、所述时间-曝光的联合控制模块对曝光先验EP进行处理,得到联合控制特征Featcontrol;
步骤3.4、所述清晰视频帧重建模块对联合控制特征Featcontrol进行处理,得到初始清晰帧Iinit和最终清晰帧Ifinal;
步骤四、采用分阶段的训练策略优化网络:
步骤4.1、利用式(10)构建第一阶段的事件指导的曝光先验估计模块的损失函数
式(10)中,EPgt是真实的曝光先验;表示均方差损失函数;
步骤4.2、利用式(11)构建第二阶段的剩余模块的损失函数
式(11)中,表示网络损失函数,并有:
式(12)中,表示复合损失函数,并有:
式(13)中,表示拉普拉斯损失函数,/>表示汉明损失函数,并有:
式(14)和式(15)中,I表示Iinit或Ifinal,S表示层数,Ls()表示第s级的拉普拉斯金字塔,Dis()表示汉明距离,Cen()表示census变换;
步骤4.3、使用梯度下降法对于所述联合去运动模糊和视频插帧网络进行分阶段训练,在第一阶段利用式(10)优化事件指导的曝光先验估计模块,在二阶段利用式(11)优化剩余模块并微调网络参数,从而得到训练后的联合去运动模糊和视频插帧网络,用于实现对任一低帧率模糊视频帧的去模糊化和插帧处理。
2.根据权利要求1所述的基于事件相机的联合去运动模糊和视频插帧方法,其特征在于,所述事件指导的曝光先验估计模块包含两个结构相同但参数不共享的特征提取网络 以及一个特征聚合网络Φaggre;
所述特征提取网络由一层卷积层与LeakyReLU激活函数构成;
所述特征聚合网络Φaggre由两层卷积层组成,第一层的卷积的激活函数是LeakyReLU,第二层卷积没有激活函数;
步骤3.2.1、所述事件帧V输入特征提取网络中进行处理,并输出事件特征Feate;
所述帧模糊视频帧B和模糊程度量BL在通道维度进行堆叠后输入特征提取网络中进行处理,并输出模糊视频特征Featbf;
步骤3.2.2、所述特征聚合网络Φaggre利用式(5)得到聚合特征Feataggre:
Feataggre=Φaggre([Feate×Siamoid(GN(Feate)×GN(Featbf)),Featbf]) (5)
式(5)中,Sigmoid()表示sigmoid激活函数,GN()表示groupnorm归一化处理;
所述特征聚合网络Φaggre利用式(6)得到预测的曝光先验EP:
EP=AP(Feataggre) (6)
式(6)中,EP的取值范围为0到1,AP表示平均池化。
3.根据权利要求2所述的基于事件相机的联合去运动模糊和视频插帧方法,其特征在于,所述时间-曝光的联合控制模块包括n个级联的子模块,每个子模块由两个特征传递卷积层两个控制卷积层/>以及一个融合卷积层Φfuse组成;
其中,第i子模块利用式(7)得到第i个中间控制特征Feati,从而由第n个级联的子模块输出联合控制特征Featcontrol;
式(7)中,Feati-1表示第i-1个子模块输出的中间控制特征;当i=1时,令
4.根据权利要求3所述的基于事件相机的联合去运动模糊和视频插帧方法,其特征在于,
所述清晰视频帧重建模块由初始清晰帧预测子模块和最终清晰帧恢复子模块Φdetail;
步骤3.4.1、所述初始清晰帧预测子模块由卷积模块、核预测模块KPN、连接模块和图像重建模块Φrecons构成;
所述卷积模块对联合控制特征Featcontrol进行卷积处理,得到卷积特征Feat'control;
所述核预测模块KPN利用式(9)得到初始卷积特征
式(9)中,Conv()表示卷积层与LeakyReLU激活函数的处理,*表示卷积;
所述连接模块利用式(10)得到初始清晰帧特征
所述图像重建模块Φrecons由一层卷积层,一层PixelShuffle层以及LeakyReLU激活函数组成,并对进行处理后,得到初始清晰帧Iinit;
步骤3.4.2、所述最终清晰帧恢复子模块Φdetail将Iinit与B拼接后,得到最终清晰帧Ifinal。
5.一种电子设备,包括存储器以及处理器,其特征在于,所述存储器用于存储支持处理器执行权利要求1-4中任一所述联合去运动模糊和视频插帧方法的程序,所述处理器被配置为用于执行所述存储器中存储的程序。
6.一种计算机可读存储介质,计算机可读存储介质上存储有计算机程序,其特征在于,所述计算机程序被处理器运行时执行权利要求1-4中任一所述联合去运动模糊和视频插帧方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310607521.2A CN116596794A (zh) | 2023-05-26 | 2023-05-26 | 一种基于事件相机的联合去运动模糊和视频插帧方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310607521.2A CN116596794A (zh) | 2023-05-26 | 2023-05-26 | 一种基于事件相机的联合去运动模糊和视频插帧方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN116596794A true CN116596794A (zh) | 2023-08-15 |
Family
ID=87604281
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310607521.2A Pending CN116596794A (zh) | 2023-05-26 | 2023-05-26 | 一种基于事件相机的联合去运动模糊和视频插帧方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116596794A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117726549A (zh) * | 2024-02-07 | 2024-03-19 | 中国科学院长春光学精密机械与物理研究所 | 基于事件引导的图像去模糊方法 |
-
2023
- 2023-05-26 CN CN202310607521.2A patent/CN116596794A/zh active Pending
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117726549A (zh) * | 2024-02-07 | 2024-03-19 | 中国科学院长春光学精密机械与物理研究所 | 基于事件引导的图像去模糊方法 |
CN117726549B (zh) * | 2024-02-07 | 2024-04-30 | 中国科学院长春光学精密机械与物理研究所 | 基于事件引导的图像去模糊方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
WO2021208122A1 (zh) | 基于深度学习的视频盲去噪方法及装置 | |
CN109360171B (zh) | 一种基于神经网络的视频图像实时去模糊方法 | |
CN108537746B (zh) | 一种基于深度卷积网络的模糊可变图像盲复原方法 | |
Su et al. | Deep video deblurring for hand-held cameras | |
CN112084868B (zh) | 一种基于注意力机制的遥感图像中目标计数方法 | |
Tran et al. | GAN-based noise model for denoising real images | |
CN109410130B (zh) | 图像处理方法和图像处理装置 | |
CN111462019A (zh) | 基于深度神经网络参数估计的图像去模糊方法及系统 | |
US20060228049A1 (en) | Method for capturing images comprising a measurement of local motions | |
CN107610069B (zh) | 基于共享k-svd字典的dvs可视化视频去噪方法 | |
CN112837245B (zh) | 一种基于多模态融合的动态场景去模糊方法 | |
CN112801900B (zh) | 一种基于双向循环卷积生成对抗网络的视频模糊去除方法 | |
CN112164011A (zh) | 基于自适应残差与递归交叉注意力的运动图像去模糊方法 | |
CN116596794A (zh) | 一种基于事件相机的联合去运动模糊和视频插帧方法 | |
CN111028166A (zh) | 一种基于迭代神经网络的视频去模糊方法 | |
CN103426190A (zh) | 图像重构的方法及系统 | |
Zhang et al. | Deep motion blur removal using noisy/blurry image pairs | |
CN107360377B (zh) | 一种车载视频稳像方法 | |
CN114419102B (zh) | 一种基于帧差时序运动信息的多目标跟踪检测方法 | |
Lamba et al. | Fast and efficient restoration of extremely dark light fields | |
CN113256565A (zh) | 运动模糊图像智能复原方法 | |
CN116523790A (zh) | 一种sar图像去噪优化方法、系统和存储介质 | |
CN113139990B (zh) | 一种基于内容感知的深度网格流鲁棒图像对齐方法 | |
CN116152128A (zh) | 基于注意力机制的高动态范围多曝光图像融合模型及方法 | |
CN115760590A (zh) | 一种视频稳像方法及系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |