CN115578295B - 一种视频去雨方法、系统、设备及存储介质 - Google Patents
一种视频去雨方法、系统、设备及存储介质 Download PDFInfo
- Publication number
- CN115578295B CN115578295B CN202211440629.9A CN202211440629A CN115578295B CN 115578295 B CN115578295 B CN 115578295B CN 202211440629 A CN202211440629 A CN 202211440629A CN 115578295 B CN115578295 B CN 115578295B
- Authority
- CN
- China
- Prior art keywords
- rain
- event
- data
- video data
- features
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 36
- 238000003860 storage Methods 0.000 title claims abstract description 11
- 238000013528 artificial neural network Methods 0.000 claims abstract description 48
- 238000012549 training Methods 0.000 claims description 47
- 238000012360 testing method Methods 0.000 claims description 24
- 230000006870 function Effects 0.000 claims description 17
- 230000004927 fusion Effects 0.000 claims description 13
- 238000012545 processing Methods 0.000 claims description 11
- 238000010586 diagram Methods 0.000 claims description 10
- 238000007781 pre-processing Methods 0.000 claims description 8
- 238000010276 construction Methods 0.000 claims description 7
- 238000013527 convolutional neural network Methods 0.000 claims description 5
- 239000000284 extract Substances 0.000 claims description 5
- 238000000605 extraction Methods 0.000 claims description 5
- 238000000926 separation method Methods 0.000 claims description 5
- 238000004590 computer program Methods 0.000 claims description 3
- 238000004088 simulation Methods 0.000 claims description 3
- 230000004913 activation Effects 0.000 claims description 2
- 238000009877 rendering Methods 0.000 claims description 2
- 238000005070 sampling Methods 0.000 claims 1
- 238000009826 distribution Methods 0.000 abstract description 7
- 230000007547 defect Effects 0.000 abstract description 3
- 230000000694 effects Effects 0.000 description 5
- 230000008569 process Effects 0.000 description 5
- 230000008859 change Effects 0.000 description 3
- 238000006243 chemical reaction Methods 0.000 description 3
- 230000001960 triggered effect Effects 0.000 description 3
- 238000012795 verification Methods 0.000 description 3
- 238000004422 calculation algorithm Methods 0.000 description 2
- 239000000463 material Substances 0.000 description 2
- 239000000203 mixture Substances 0.000 description 2
- 238000012544 monitoring process Methods 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 230000003068 static effect Effects 0.000 description 2
- 102100029469 WD repeat and HMG-box DNA-binding protein 1 Human genes 0.000 description 1
- 101710097421 WD repeat and HMG-box DNA-binding protein 1 Proteins 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- -1 carrier Substances 0.000 description 1
- 230000015556 catabolic process Effects 0.000 description 1
- 239000000306 component Substances 0.000 description 1
- 238000007796 conventional method Methods 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 238000006731 degradation reaction Methods 0.000 description 1
- 238000001514 detection method Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000009472 formulation Methods 0.000 description 1
- 238000009432 framing Methods 0.000 description 1
- 238000005286 illumination Methods 0.000 description 1
- 239000012535 impurity Substances 0.000 description 1
- 239000004615 ingredient Substances 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 238000003909 pattern recognition Methods 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 230000011218 segmentation Effects 0.000 description 1
- 238000012163 sequencing technique Methods 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T5/00—Image enhancement or restoration
- G06T5/77—Retouching; Inpainting; Scratch removal
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/084—Backpropagation, e.g. using gradient descent
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T5/00—Image enhancement or restoration
- G06T5/50—Image enhancement or restoration using two or more images, e.g. averaging or subtraction
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/774—Generating sets of training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/80—Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level
- G06V10/806—Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level of extracted features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/10—Image acquisition modality
- G06T2207/10016—Video; Image sequence
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20212—Image combination
- G06T2207/20224—Image subtraction
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02A—TECHNOLOGIES FOR ADAPTATION TO CLIMATE CHANGE
- Y02A90/00—Technologies having an indirect contribution to adaptation to climate change
- Y02A90/10—Information and communication technologies [ICT] supporting adaptation to climate change, e.g. for weather forecasting or climate simulation
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- General Health & Medical Sciences (AREA)
- Software Systems (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Computing Systems (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Computation (AREA)
- Health & Medical Sciences (AREA)
- Multimedia (AREA)
- Medical Informatics (AREA)
- Databases & Information Systems (AREA)
- Life Sciences & Earth Sciences (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Molecular Biology (AREA)
- General Engineering & Computer Science (AREA)
- Mathematical Physics (AREA)
- Image Analysis (AREA)
Abstract
本发明公开了一种视频去雨方法、系统、设备及存储介质,将事件相机引入到视频去雨任务中来,利用事件相机捕捉快速运动的雨线,有效地克服了传统RGB相机以固定帧率拍摄无法捕捉到雨线的运动这一缺点,利用神经网络有效融合视频帧数据和事件数据,从而能够显式建模出雨线的时空动态分布,最终从有雨视频中准确有效地分离出雨层和干净的背景层,本发明无论是在视觉效果还是量化指标上都要优于现有的方法。
Description
技术领域
本发明涉及计算机视觉技术领域,尤其涉及一种视频去雨方法、系统、设备及存储介质。
背景技术
户外作业经常会受到恶劣天气的影响,例如下雨。雨线的存在不仅会导致拍摄的视频在视觉上的质量下降,还会严重影响到一些需要干净的视频作为输入的计算机视觉任务的性能例如目标追踪,目标检测,视频分割,行人重识别等等,因此很有必要去探索一个有效的视频去雨方案,这在自动驾驶,户外监控等应用方面有很大的潜力。
近年来,计算机视觉研究人员在视频去雨领域做了大量工作。当前的视频去雨工作主要基于传统RGB相机,对于拍摄得到的有雨的视频,无论是在图像域还是在经过深度学习算法处理后得到的特征域中,干净背景与雨线都会有很大的重叠,这使得两者很难被区分,并且由于传统RGB相机是以恒定的帧率去拍摄图像,存在运动模糊和数据冗余等缺点,这使得很难去直接从有雨视频中获取雨线的运动,从而建模出雨线的动态时空分布,因此这些方案的去雨效果不能让人满意。
事件相机是一种受生物启发的新型传感器,不同于传统RGB相机以固定帧率获取数据的方式,它以异步的方式记录着像素亮度的变化。当某个像素所处位置的亮度值发生变化达到事件相机设定的一个阈值之后,事件相机就会记录下一个事件数据,每一个事件数据以(x,y,t,p)形式的数据被记录,其中前两项为发生事件的像素坐标,第三项表示事件发生的时间戳,第四项表示事件的极性,取值为1或-1(1或0),其中1表示该像素位置处的亮度升高,-1(0)表示该像素位置处的亮度降低。事件相机具有高时间分辨率(可达1us),高动态范围(可达140dB),低功耗等优点。因为事件相机的优越特性,它已经被广泛使用到计算机视觉任务中,包括视频去模糊,视频超分,目标追踪,视频插帧等等。
在视频去雨领域,有部分工作引入了双目RGB相机,研究者们观察到相同的雨线会在左右两个相机中产生不一样的效果,因此利用左右两个相机所拍摄的视频的空间对应关系来辨别雨线和背景,最终去除视频中的雨线,然而这很难应对大雨场景,同时双目匹配的误差也会影响去雨性能,并且该方法没有解决传统RGB相机以固定帧率拍摄,很难去捕捉到雨线的运动从而建模出雨线的时空动态分布这一问题。
发明内容
本发明的目的是提供一种视频去雨方法、系统、设备及存储介质,可以结合事件相机数据和传统RGB相机数据来去除有雨视频中的雨线,本发明的方法可以广泛用于自动驾驶和视频监控等领域,保证了需要干净视频(即无雨视频)作为输入的下游计算机视觉任务的表现。
本发明的目的是通过以下技术方案实现的:
一种视频去雨方法,包括:
根据无雨视频数据,制作包含若干配对的有雨视频数据和预处理的事件数据构成的训练集;其中,预处理的事件数据是指通过对事件数据进行预处理获得神经网络能够处理的数据;
构建用于视频去雨的神经网络,训练时的输入为所述训练集,所述神经网络对训练集的有雨视频数据与预处理的事件数据分别进行特征提取,获得图像域特征与事件域运动特征,使用事件域运动特征辅助图像域特征得到图像域运动特征,将事件域运动特征与图像域运动特征分别进行时间信息的融合,利用融合时间信息的图像域运动特征与事件域运动特征提取出雨层特征,再利用所述雨层特征重建雨层图像,在有雨视频数据中减去相应的重建雨层图像,获得去雨视频数据,结合所述去雨视频数据与所述无雨视频数据构建损失函数,并对所述神经网络进行训练;
测试时,将采集到的由配对的有雨视频数据和预处理的事件数据构成的真实测试数据集,输入至训练后的神经网络,获得去雨视频数据。
一种视频去雨系统,包括:
训练集构造单元:根据无雨视频数据,制作包含若干配对的有雨视频数据和预处理的事件数据构成的训练集;其中,预处理的事件数据是指通过对事件数据进行预处理获得的神经网络能够处理的数据;
网络构建与训练单元:构建用于视频去雨的神经网络,训练时的输入为所述训练集,所述神经网络对训练集的有雨视频数据与预处理的事件数据分别进行特征提取,获得图像域特征与事件域运动特征,使用事件域运动特征辅助图像域特征得到图像域运动特征,将事件域运动特征与图像域运动特征分别进行时间信息的融合,利用融合时间信息的图像域运动特征与事件域运动特征提取出雨层特征,再利用所述雨层特征重建雨层图像,在有雨视频数据中减去相应的重建雨层图像,获得去雨视频数据,结合所述去雨视频数据与所述无雨视频数据构建损失函数,并对所述神经网络进行训练;
测试单元:将采集到的由配对的有雨视频数据和预处理的事件数据构成的真实数据集,输入至训练后的神经网络,获得去雨视频数据。
一种处理设备,包括:一个或多个处理器;存储器,用于存储一个或多个程序;
其中,当所述一个或多个程序被所述一个或多个处理器执行时,使得所述一个或多个处理器实现前述的方法。
一种可读存储介质,存储有计算机程序,当计算机程序被处理器执行时实现前述的方法。由上述本发明提供的技术方案可以看出,将事件相机引入到视频去雨任务中来,利用事件相机捕捉快速运动的雨线,有效地克服了传统RGB相机以固定帧率拍摄无法捕捉到雨线的运动这一缺点,利用神经网络有效融合视频帧数据和事件数据,从而能够显式建模出雨线的时空动态分布,最终从有雨视频中准确有效地分离出雨层和干净的背景层,本发明无论是在视觉效果还是量化指标上都要优于现有的方法。
附图说明
为了更清楚地说明本发明实施例的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域的普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他附图。
图1为本发明实施例提供的一种视频去雨方法的流程图;
图2为本发明实施例提供的一种结合事件相机数据和RGB视频数据的视频去雨网络结构图;
图3a为本发明实施例提供的单个有雨视频图像示意图;
图3b为本发明实施例提供的与有雨视频图像时间对齐的事件数据示意图;
图3c为本发明实施例提供的训练后的神经网络输出的去雨视频图像示意图;
图4为本发明实施例提供的一种视频去雨系统的示意图;
图5为本发明实施例提供的一种处理设备的示意图。
具体实施方式
下面结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明的保护范围。
首先对本文中可能使用的术语进行如下说明:
术语“和/或”是表示两者任一或两者同时均可实现,例如,X和/或Y表示既包括“X”或“Y”的情况也包括“X和Y”的三种情况。
术语“包括”、“包含”、“含有”、“具有”或其它类似语义的描述,应被解释为非排它性的包括。例如:包括某技术特征要素(如原料、组分、成分、载体、剂型、材料、尺寸、零件、部件、机构、装置、步骤、工序、方法、反应条件、加工条件、参数、算法、信号、数据、产品或制品等),应被解释为不仅包括明确列出的某技术特征要素,还可以包括未明确列出的本领域公知的其它技术特征要素。
术语“由……组成”表示排除任何未明确列出的技术特征要素。若将该术语用于权利要求中,则该术语将使权利要求成为封闭式,使其不包含除明确列出的技术特征要素以外的技术特征要素,但与其相关的常规杂质除外。如果该术语只是出现在权利要求的某子句中,那么其仅限定在该子句中明确列出的要素,其他子句中所记载的要素并不被排除在整体权利要求之外。
下面对本发明所提供的一种视频去雨方案进行详细描述。本发明实施例中未作详细描述的内容属于本领域专业技术人员公知的现有技术。本发明实施例中未注明具体条件者,按照本领域常规条件或制造商建议的条件进行。本发明实施例中所用仪器未注明生产厂商者,均为可以通过市售购买获得的常规产品。
实施例一
雨线的运动会引起它所覆盖的背景像素位置处的亮度发生变化,事件相机可以很好地捕捉到这一变化,使用高时间分辨率的事件数据,可以有效地捕捉到雨线的运动,从而进一步精确地建模出雨线的动态时空分布,这一信息对分离有雨视频中的雨层和背景层至关重要,并且事件相机可以在多种有挑战的场景(例如暗环境,过曝场景)中正常工作,因此结合事件相机和传统RGB相机的视频去雨是一个极具前景的研究方向和产业化方向。基于此,本发明实施例提供一种结合事件相机和传统RGB相机的视频去雨方法,如图1所示,其主要包括:
步骤1、根据无雨视频数据,制作包含若干配对的有雨视频数据和预处理的事件数据构成的训练集。
本发明实施例中,首先制作出数据集,再划分为训练集与测试集(称为合成数据测试集),分别用于步骤2中的网络训练,以及后续步骤3中的网络测试。
考虑到事件数据为异步数据不能直接输入至神经网络,因此,需要对事件数据进行预处理获得神经网络能够处理的数据。
步骤2、网络构建与训练。
本发明实施例中,构建用于视频去雨的神经网络,训练时的输入为所述训练集,所述神经网络对训练集的有雨视频数据与预处理的事件数据分别进行特征提取,获得图像域特征与事件域运动特征,再使用事件域运动特征辅助图像域特征得到图像域运动特征,将两类运动特征分别进行时间维度上的信息融合,将融合了时间信息的图像域运动特征与事件域运动特征通过金字塔式运动分离模块和多模态信息融合模块来提取出雨层特征,再利用所述雨层特征重建雨层图像,在有雨视频数据中减去相应的重建雨层图像,获得去雨视频数据,结合所述去雨视频数据与所述无雨视频数据构建损失函数,并对所述神经网络进行训练。
步骤3、网络测试。
测试时,将采集到的由配对的有雨视频数据和预处理的事件数据构成的真实数据测试集,输入至训练后的神经网络,获得去雨视频数据,此外,还将前述步骤1制作的测试集输入至训练后的神经网络。对训练后的神经网络在真实数据测试集和合成数据测试集上的去雨效果进行验证,验证时的指标可根据需要进行设置,验证通过后进行部署。
如图1所示,展示了本发明上述视频去雨方法的主要流程。
为了更加清晰地展现出本发明所提供的技术方案及所产生的技术效果,下面以具体实施例对本发明实施例所提供的上述视频去雨方法进行详细描述。
一、制作数据集。
针对现实世界中无法同时采集到有雨视频和干净的背景视频的问题,本发明采用将传统RGB相机数据模拟为事件相机的数据的方式。具体的:将每一无雨视频数据通过渲染雨线,获得有雨视频数据,再将所述有雨视频数据输入至事件相机模拟器中进行数据模拟,获得事件数据,并进行预处理,得到配对的有雨视频数据和预处理的事件数据;综合多个配对的有雨视频数据和预处理的事件数据,构成数据集,从中划分一部分作为训练集,另一部分为测试集。
本发明实施例中,为了尽可能地模拟真实世界的雨线,设置雨参数包括大小、密度、速度和深度等等使其服从混合高斯分布,通过视频编辑软件在无雨视频数据中渲染出雨线。事件相机模拟器可以选择通用的事件相机模拟器ESIM,为了尽可能地模拟真实世界中地事件数据,可以设置事件相机模拟器的参数包括:正/负事件触发阈值,噪声分布使其满足混合高斯分布。
本发明实施例中,每一个事件数据以(x,y,t,p)形式的数据被记录,其中,(x,y)为发生事件的像素位置,t表示事件发生的时间戳,p表示事件的极性,取值为1或-1(1或0),1表示像素位置(x,y)处的亮度升高,-1(0)表示该像素位置(x,y)处的亮度降低。考虑到模拟得到的异步的事件数据不能直接输入到卷积神经网络,因此,需要对数据进行转换(预处理)。具体的:对于有雨视频数据中连续两帧,通过连续两帧对应的时间戳确定相应事件数据(即两帧的时间间隔中所触发的事件数据),再将相应事件数据的时间维度信息转换为二维点云形式的空间维度信息(即Z轴的信息),将二维点云中的每个二维点进行体素融合,形成三维的体素表达形式的数据即为预处理的事件数据。
本发明实施例中,将时间维度信息转换为点云形式的空间维度信息,也即将时间维度离散化为二维点云形式(包含若干个点),从而将时间维度看作二维图像的通道维度,所涉及的转换方式可参照常规技术,例如:可参照发表于CVPR(计算机视觉与模式识别会议)的2018文章《Unsupervised Event-based Learning of Optical Flow, Depth, andEgomotion》。
二、真实数据采集。
本发明实施例中,所述真实数据集包括:相机静止与相机运动两种情况下,在不同雨量场景中记录的配对的有雨视频数据和事件数据,并参照前文介绍的方式对所有事件数据进行预处理。
下面结合具体的设备介绍真实数据的采集方式:使用DAVIS346事件相机作为采集设备,能够同时采集图像信息(即视频帧,可以是RGB图,也可以是灰度图)和事件信息,在室外真实下雨场景中使用三脚架固定住相机,并将相机通过USB接口连接到电脑端,打开视频帧和事件同时拍摄模式,使用DV平台收集数据。在不同的时间,不同的光照的条件下,以及选用不同的相机参数(例如,曝光时间,帧率以及事件数据被触发的阈值等)记录数据从而保证采集到的数据的多样性,并且分别针对相机静止和相机运动这两种情况下分别记录不同雨量场景中的数据。所述的不同雨量场景包括:大雨、中雨与小雨三种雨量场景,在实际应用中可根据雨量大小和设置的阈值范围来区分大雨、中雨与小雨。以上采集方式所涉及的设备型号、采集方式,雨量场景数目及相关阈值范围可根据实际情况或者经验进行调整,本发明不做限定。
三、构建神经网络。
本发明实施例中,构建用于视频去雨的神经网络,主要包括:事件引导的运动信息提取及时间信息融合模块,金字塔式运动分离及多模态信息融合模块和图像重建模块,原理为:
事件引导的运动信息提取及时间信息融合模块,每次对连续三帧有雨视频图像,以及第一帧和第三帧对应的时间戳之间的经过预处理后的事件数据分别进行特征的提取,获得图像域特征和事件域运动特征,使用事件域运动特征辅助图像域特征得到图像域运动特征,具体的:将事件域运动特征通过由多个不同大小的卷积核组成的卷积神经网络去提取不同感受野的信息从而进一步优化事件域运动特征,再将优化后的特征通过一层sigmoid激活函数层得到数值被限制在(0,1)之间的运动特征注意力图,图像域特征经过和运动特征注意力图点乘运算得到图像域运动特征,再将图像域运动特征和事件域运动特征分别在时间维度上进行信息融合,获得融合了时间信息的图像域运动特征以及事件域运动特征。
上述处理过程中,使用的是一段时间内的事件数据,假设第一帧视频帧触发时间是0.0s,帧率是25fps,第二帧视频帧触发时间是0.04s,第三帧视频帧触发时间是0.08s,则使用0-0.08s内被触发的事件数据。
本发明实施例中,针对图像域和事件域的特征提取网络结构相似,均由一个卷积层和一个残差连接模块组成,有雨视频图像和预处理后的事件数据分别输入至对应的特征提取网络可以直接提取出相应的特征。图像域特征主要是图像中纹理信息的特征,其中包括静态背景的纹理信息特征和运动物体(雨线和背景运动)的纹理特征,图像域运动特征是指运动物体的纹理特征。由于事件相机的特性(它只会在有运动的像素处产生响应),因此,可以认为直接从预处理后的事件数据中提取到的特征是运动特征,事件域的运动特征主要是指运动物体边缘信息的特征,它能更准确地表示出运动信息。
金字塔式运动分离和多模态信息融合模块,对融合了时间信息的图像域运动特征和事件域运动特征分别采用编码网络(例如,标准UNet架构的Encoder网络)进行多尺度特征的提取,分别获得了多个(例如,三个)不同的空间尺度下的图像域运动特征和事件域运动特征;在每一个尺度下,使用由四个对称的通道注意力-空间注意力-空间注意力-通道注意力架构串联而成的运动分离模块,分离相应尺度下事件域运动特征,得到相应尺度下事件域运动特征中的雨线运动特征,并通过多模态信息融合模块将分离得到的雨线运动特征与相同尺度下的图像域运动特征在通道维度上拼接,再通过使用残差连接结构的卷积神经网络来有效融合这两种模态(即雨线运动特征与图像域运动特征两种模态)的信息,得到每一尺度下的雨层特征;所有空间尺度均经过上述方式处理完毕后,最终获得多个不同空间尺度下的雨层特征。
图像重建模块,对多个不同空间尺度下的雨层特征采用解码网络(例如,标准UNet架构的Decoder网络)分别进行上采样操作和图像重建,重建得到第二帧对应时刻的纹理细节信息由粗糙到精细的多个阶段的相同分辨率的雨层图像,此处一个阶段对应一个空间尺度,假设三个不同空间尺度,则此处得到三个阶段的相同分辨率的雨层图像,且随着阶段数值提升雨层图像纹理细节信息精细程度逐渐提升。将第二帧对应时刻的有雨帧视频图像分别减去重建的由粗糙到精细的多个阶段的雨层图像,得到第二帧对应时刻的由粗糙到精细的多个阶段的去雨视频帧,在训练过程中使用第二帧对应时刻的无雨视频帧对多张去雨视频帧(去雨视频图像)进行监督,在测试过程中选择最后一个阶段输出的去雨视频图像作为网络最终的输出,即去雨视频图像;综合所有去雨视频图像,按照时间顺序排序获得去雨视频数据(即干净视频)。
四、网络训练。
本发明实施例中,利用训练集对所述神经网络进行训练,训练过程主要是将损失函数最小化,所述损失函数主要是计算所述去雨视频数据(通过前述三中的方式得到)与所述无雨视频数据之间的结构相似度的负数。
五、网络测试。
网络测试时,将测试集与真实数据集分别输入至训练后的神经网络中,对去雨效果进行验证,测试通过后进行部署。测试时的流程与训练的流程相同,区别主要在于,选择最后一个阶段输出的去雨视频图像即可,并且无需计算损失函数也无需更新网络参数。
如图2所示,展示了结合事件相机数据和RGB视频数据的视频去雨网络结构图。如图3a~图3c所示,展示了相关图像的示例,图3a为拍摄的单个有雨视频图像,图3b为与有雨视频图像时间对齐的事件数据,图3c为训练后的神经网络输出的去雨视频图像。
本发明实施例中,神经网络的相关计算可通过pytorch(一种开源的机器学习库)实现;训练时,通过损失函数在神经网络中反向传播更新网络参数的具体流程可参照常规技术实现,本发明不做赘述;测试时选择的验证指标也可根据实际情况或者经验进行设置。
实施例二
本发明还提供一种视频去雨系统,其主要基于前述实施例提供的方法实现,如图4所示,该系统主要包括:
训练集构造单元:根据无雨视频数据,制作包含若干配对的有雨视频数据和预处理的事件数据构成的训练集;其中,预处理的事件数据是指通过对事件数据进行预处理获得的神经网络能够处理的数据;
网络构建与训练单元:构建用于视频去雨的神经网络,训练时的输入为所述训练集,所述神经网络对训练集的有雨视频数据与预处理的事件数据分别进行特征提取,获得图像域特征与事件域运动特征,使用事件域运动特征辅助图像域特征得到图像域运动特征,将事件域运动特征与图像域运动特征分别进行时间信息的融合,利用融合时间信息的图像域运动特征与事件域运动特征提取出雨层特征,再利用所述雨层特征重建雨层图像,在有雨视频数据中减去相应的重建雨层图像,获得去雨视频数据,结合所述去雨视频数据与所述无雨视频数据构建损失函数,并对所述神经网络进行训练;
测试单元:将采集到的由配对的有雨视频数据和预处理的事件数据构成的真实数据集,输入至训练后的神经网络,获得去雨视频数据。
上述系统所涉及的主要技术细节在之前的实施例一中已经做了详细的介绍,故不再赘述。
所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,仅以上述各功能模块的划分进行举例说明,实际应用中,可以根据需要而将上述功能分配由不同的功能模块完成,即将系统的内部结构划分成不同的功能模块,以完成以上描述的全部或者部分功能。
实施例三
本发明还提供一种处理设备,如图5所示,其主要包括:一个或多个处理器;存储器,用于存储一个或多个程序;其中,当所述一个或多个程序被所述一个或多个处理器执行时,使得所述一个或多个处理器实现前述实施例提供的方法。
进一步的,所述处理设备还包括至少一个输入设备与至少一个输出设备;在所述处理设备中,处理器、存储器、输入设备、输出设备之间通过总线连接。
本发明实施例中,所述存储器、输入设备与输出设备的具体类型不做限定;例如:
输入设备可以为触摸屏、图像采集设备、物理按键或者鼠标等;
输出设备可以为显示终端;
存储器可以为随机存取存储器(Random Access Memory,RAM),也可为非不稳定的存储器(non-volatile memory),例如磁盘存储器。
实施例四
本发明还提供一种可读存储介质,存储有计算机程序,当计算机程序被处理器执行时实现前述实施例提供的方法。
本发明实施例中可读存储介质作为计算机可读存储介质,可以设置于前述处理设备中,例如,作为处理设备中的存储器。此外,所述可读存储介质也可以是U盘、移动硬盘、只读存储器(Read-Only Memory,ROM)、磁碟或者光盘等各种可以存储程序代码的介质。
以上所述,仅为本发明较佳的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明披露的技术范围内,可轻易想到的变化或替换,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应该以权利要求书的保护范围为准。
Claims (8)
1.一种视频去雨方法,其特征在于,包括:
根据无雨视频数据,制作包含若干配对的有雨视频数据和预处理的事件数据构成的训练集;其中,预处理的事件数据是指通过对事件数据进行预处理获得神经网络能够处理的数据;
构建用于视频去雨的神经网络,训练时的输入为所述训练集,所述神经网络对训练集的有雨视频数据与预处理的事件数据分别进行特征提取,获得图像域特征与事件域运动特征,使用事件域运动特征辅助图像域特征得到图像域运动特征,将事件域运动特征与图像域运动特征分别进行时间信息的融合,利用融合时间信息的图像域运动特征与事件域运动特征提取出雨层特征,再利用所述雨层特征重建雨层图像,在有雨视频数据中减去相应的重建雨层图像,获得去雨视频数据,结合所述去雨视频数据与所述无雨视频数据构建损失函数,并对所述神经网络进行训练;
测试时,将采集到的由配对的有雨视频数据和预处理的事件数据构成的真实测试数据集,输入至训练后的神经网络,获得去雨视频数据;
其中,所述对训练集的有雨视频数据与预处理的事件数据分别进行特征的提取特征的提取,获得图像域特征与事件域运动特征,使用事件域运动特征辅助图像域特征得到图像域运动特征包括:每次对连续三帧有雨视频图像,以及第一帧和第三帧对应的时间戳之间的经过预处理后的事件数据分别进行特征的提取,获得图像域特征和事件域运动特征;将事件域运动特征通过卷积神经网络进行优化,再通过激活函数得到运动特征注意力图;将图像域特征与运动特征注意力图进行点乘运算得到图像域运动特征;
所述利用融合时间信息的图像域运动特征与事件域运动特征提取出雨层特征包括:对融合时间信息的图像域运动特征与事件域运动特征分别采用编码网络进行多尺度特征的提取,分别获得了多个不同的空间尺度下的图像域运动特征和事件域运动特征;在每一个尺度下,使用由四个对称的通道注意力、空间注意力、空间注意力与通道注意力架构串联而成的运动分离模块,分离相应尺度下事件域运动特征,得到相应尺度下事件域运动特征中的雨线运动特征,并与相同尺度下的图像域运动特征在通道维度上拼接,再通过使用残差连接结构的卷积神经网络进行融合,得到每一尺度下的雨层特征。
2.根据权利要求1所述的一种视频去雨方法,其特征在于,所述根据无雨视频数据,制作包含若干配对的有雨视频数据和预处理的事件数据构成的训练集包括:
将每一无雨视频数据通过渲染雨线,获得有雨视频数据,再将所述有雨视频数据输入至事件相机模拟器中进行数据模拟,获得事件数据,并进行预处理,得到配对的有雨视频数据和预处理的事件数据;
综合多个配对的有雨视频数据和预处理的事件数据,构成数据集,从中划分一部分作为训练集。
3.根据权利要求1或2所述的一种视频去雨方法,其特征在于,对事件数据进行预处理的方式包括:
对于有雨视频数据中连续两帧,通过连续两帧对应的时间戳确定相应事件数据,再将相应事件数据的时间维度信息转换为二维点云形式的空间维度信息,将二维点云中的每个二维点进行体素融合,形成三维的体素表达形式的数据即为预处理的事件数据。
4.根据权利要求1所述的一种视频去雨方法,其特征在于,所述利用所述雨层特征重建雨层图像,在有雨视频数据中减去相应的重建雨层图像,获得去雨视频数据包括:
对多个不同空间尺度下的雨层特征采用解码网络分别进行上采样操作和图像重建,重建得到第二帧对应时刻的多个阶段的相同分辨率的雨层图像,一个阶段对应一个空间尺度,且随着阶段数值提升雨层图像纹理信息的精细程度逐渐提升;
将第二帧对应时刻的有雨帧视频图像分别减去重建的多个阶段的雨层图像,得到第二帧对应时刻的多个阶段的去雨视频帧,也即去雨视频图像,综合所有去雨视频图像,构成去雨视频数据。
5.根据权利要求1所述的一种视频去雨方法,其特征在于,所述结合所述去雨视频数据与所述无雨视频数据构建损失函数,并对所述神经网络进行训练包括:
计算所述去雨视频数据与所述无雨视频数据之间的结构相似度的负数作为损失函数,通过训练所述神经网络使得损失函数最小化,完成神经网络的训练。
6.一种视频去雨系统,其特征在于,基于权利要求1~5任一项所述的方法实现,该系统包括:
训练集构造单元:根据无雨视频数据,制作包含若干配对的有雨视频数据和预处理的事件数据构成的训练集;其中,预处理的事件数据是指通过对事件数据进行预处理获得的神经网络能够处理的数据;
网络构建与训练单元:构建用于视频去雨的神经网络,训练时的输入为所述训练集,所述神经网络对训练集的有雨视频数据与预处理的事件数据分别进行特征提取,获得图像域特征与事件域运动特征,使用事件域运动特征辅助图像域特征得到图像域运动特征,将事件域运动特征与图像域运动特征分别进行时间信息的融合,利用融合时间信息的图像域运动特征与事件域运动特征提取出雨层特征,再利用所述雨层特征重建雨层图像,在有雨视频数据中减去相应的重建雨层图像,获得去雨视频数据,结合所述去雨视频数据与所述无雨视频数据构建损失函数,并对所述神经网络进行训练;
测试单元:将采集到的由配对的有雨视频数据和预处理的事件数据构成的真实数据集,输入至训练后的神经网络,获得去雨视频数据。
7.一种处理设备,其特征在于,包括:一个或多个处理器;存储器,用于存储一个或多个程序;
其中,当所述一个或多个程序被所述一个或多个处理器执行时,使得所述一个或多个处理器实现如权利要求1~5任一项所述的方法。
8.一种可读存储介质,存储有计算机程序,其特征在于,当计算机程序被处理器执行时实现如权利要求1~5任一项所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211440629.9A CN115578295B (zh) | 2022-11-17 | 2022-11-17 | 一种视频去雨方法、系统、设备及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211440629.9A CN115578295B (zh) | 2022-11-17 | 2022-11-17 | 一种视频去雨方法、系统、设备及存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN115578295A CN115578295A (zh) | 2023-01-06 |
CN115578295B true CN115578295B (zh) | 2023-04-07 |
Family
ID=84589691
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202211440629.9A Active CN115578295B (zh) | 2022-11-17 | 2022-11-17 | 一种视频去雨方法、系统、设备及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN115578295B (zh) |
Family Cites Families (13)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US9866816B2 (en) * | 2016-03-03 | 2018-01-09 | 4D Intellectual Properties, Llc | Methods and apparatus for an active pulsed 4D camera for image acquisition and analysis |
CN110557521B (zh) * | 2018-05-30 | 2020-12-04 | 北京大学 | 视频去雨的方法、装置、设备及计算机可读存储介质 |
CN109360155B (zh) * | 2018-08-17 | 2020-10-13 | 上海交通大学 | 基于多尺度特征融合的单帧图像去雨方法 |
US11288818B2 (en) * | 2019-02-19 | 2022-03-29 | The Trustees Of The University Of Pennsylvania | Methods, systems, and computer readable media for estimation of optical flow, depth, and egomotion using neural network trained using event-based learning |
US11455793B2 (en) * | 2020-03-25 | 2022-09-27 | Intel Corporation | Robust object detection and classification using static-based cameras and events-based cameras |
CN111462268B (zh) * | 2020-03-31 | 2022-11-11 | 北京市商汤科技开发有限公司 | 图像重建方法及装置、电子设备和存储介质 |
CN112800860B (zh) * | 2021-01-08 | 2023-10-17 | 中电海康集团有限公司 | 一种事件相机和视觉相机协同的高速抛撒物检测方法和系统 |
CN113810611B (zh) * | 2021-09-17 | 2022-06-07 | 北京航空航天大学 | 一种事件相机的数据模拟方法和装置 |
CN114332682B (zh) * | 2021-12-10 | 2024-06-04 | 青岛杰瑞工控技术有限公司 | 一种海上全景去雾目标识别方法 |
CN114463237B (zh) * | 2022-01-30 | 2024-04-19 | 武汉大学 | 基于全局运动补偿和帧间时域关联性的实时视频去雨方法 |
CN114881921A (zh) * | 2022-03-23 | 2022-08-09 | 清华大学 | 基于事件及视频融合的去遮挡成像方法及装置 |
CN114862732B (zh) * | 2022-04-21 | 2024-04-26 | 武汉大学 | 一种融合事件相机与传统光学相机的合成孔径成像方法 |
CN114863332A (zh) * | 2022-04-29 | 2022-08-05 | 华中科技大学 | 一种基于事件相机的雨滴检测方法 |
-
2022
- 2022-11-17 CN CN202211440629.9A patent/CN115578295B/zh active Active
Also Published As
Publication number | Publication date |
---|---|
CN115578295A (zh) | 2023-01-06 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108805015B (zh) | 加权卷积自编码长短期记忆网络人群异常检测方法 | |
Alonso et al. | EV-SegNet: Semantic segmentation for event-based cameras | |
CN110929593B (zh) | 一种基于细节辨别区别的实时显著性行人检测方法 | |
CN112686928B (zh) | 一种基于多源信息融合的运动目标视觉跟踪方法 | |
CN110889844B (zh) | 一种基于深度聚类分析的珊瑚分布及健康状况评估方法 | |
CN111915530A (zh) | 一种基于端到端的雾霾浓度自适应神经网络图像去雾方法 | |
CN103093198B (zh) | 一种人群密度监测方法及装置 | |
CN110717863B (zh) | 一种基于生成对抗网络的单图像去雪方法 | |
CN111539888B (zh) | 一种基于金字塔通道特征注意力的神经网络图像去雾方法 | |
CN104063871B (zh) | 可穿戴设备的图像序列场景分割方法 | |
Pathak et al. | An object detection approach for detecting damages in heritage sites using 3-D point clouds and 2-D visual data | |
CN114463218A (zh) | 一种基于事件数据驱动的视频去模糊方法 | |
CN112308087A (zh) | 基于动态视觉传感器的一体化成像识别系统和方法 | |
Zhao et al. | Image dehazing based on haze degree classification | |
CN109064444B (zh) | 基于显著性分析的轨道板病害检测方法 | |
Babu et al. | An efficient image dahazing using Googlenet based convolution neural networks | |
Shit et al. | An encoder‐decoder based CNN architecture using end to end dehaze and detection network for proper image visualization and detection | |
CN115578295B (zh) | 一种视频去雨方法、系统、设备及存储介质 | |
CN113034404A (zh) | 一种基于多尺度对抗学习的交通图像去模糊方法及装置 | |
CN113901944B (zh) | 一种基于改进的yolo算法的海洋生物目标检测方法 | |
CN115564031A (zh) | 一种用于玻璃缺陷检测的检测网络 | |
CN114862695A (zh) | 一种基于场景深度的单图像去雨雾方法、设备及存储介质 | |
Simoni et al. | Future urban scenes generation through vehicles synthesis | |
CN112883785A (zh) | 基于平行视觉理论的铁路运行环境安全图像检测系统 | |
Prabakaran et al. | Key frame extraction analysis based on optimized convolution neural network (ocnn) using intensity feature selection (ifs) |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |