CN110852961A - 一种基于卷积神经网络的实时视频去噪方法及系统 - Google Patents
一种基于卷积神经网络的实时视频去噪方法及系统 Download PDFInfo
- Publication number
- CN110852961A CN110852961A CN201911032235.8A CN201911032235A CN110852961A CN 110852961 A CN110852961 A CN 110852961A CN 201911032235 A CN201911032235 A CN 201911032235A CN 110852961 A CN110852961 A CN 110852961A
- Authority
- CN
- China
- Prior art keywords
- processed
- image frame
- denoising
- image
- frame
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000013527 convolutional neural network Methods 0.000 title claims abstract description 60
- 238000000034 method Methods 0.000 title claims abstract description 41
- 238000012545 processing Methods 0.000 claims abstract description 27
- 230000008569 process Effects 0.000 claims description 3
- 238000004364 calculation method Methods 0.000 abstract description 5
- 230000014759 maintenance of location Effects 0.000 abstract description 4
- 238000004422 calculation algorithm Methods 0.000 description 14
- 238000012549 training Methods 0.000 description 11
- 230000006870 function Effects 0.000 description 8
- 230000002123 temporal effect Effects 0.000 description 7
- 238000004590 computer program Methods 0.000 description 6
- 238000010586 diagram Methods 0.000 description 5
- 238000013528 artificial neural network Methods 0.000 description 4
- 230000004913 activation Effects 0.000 description 3
- 230000006835 compression Effects 0.000 description 3
- 238000007906 compression Methods 0.000 description 3
- 238000013135 deep learning Methods 0.000 description 3
- 230000000694 effects Effects 0.000 description 3
- 238000005516 engineering process Methods 0.000 description 3
- 230000003287 optical effect Effects 0.000 description 3
- 238000011176 pooling Methods 0.000 description 3
- 238000004321 preservation Methods 0.000 description 3
- 238000011084 recovery Methods 0.000 description 3
- ORILYTVJVMAKLC-UHFFFAOYSA-N Adamantane Natural products C1C(C2)CC3CC1CC2C3 ORILYTVJVMAKLC-UHFFFAOYSA-N 0.000 description 2
- 239000000654 additive Substances 0.000 description 2
- 230000000996 additive effect Effects 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 2
- 238000000605 extraction Methods 0.000 description 2
- 238000010606 normalization Methods 0.000 description 2
- 230000009467 reduction Effects 0.000 description 2
- 238000011160 research Methods 0.000 description 2
- 238000005070 sampling Methods 0.000 description 2
- 230000011218 segmentation Effects 0.000 description 2
- 239000007787 solid Substances 0.000 description 2
- 230000003595 spectral effect Effects 0.000 description 2
- 238000004458 analytical method Methods 0.000 description 1
- 238000013480 data collection Methods 0.000 description 1
- 238000013500 data storage Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 230000002950 deficient Effects 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 230000008034 disappearance Effects 0.000 description 1
- 239000000835 fiber Substances 0.000 description 1
- 238000001914 filtration Methods 0.000 description 1
- 238000003384 imaging method Methods 0.000 description 1
- 238000012886 linear function Methods 0.000 description 1
- 210000002569 neuron Anatomy 0.000 description 1
- 230000000306 recurrent effect Effects 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
- 239000000126 substance Substances 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 238000013519 translation Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T5/00—Image enhancement or restoration
- G06T5/70—Denoising; Smoothing
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/10—Image acquisition modality
- G06T2207/10016—Video; Image sequence
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20081—Training; Learning
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Molecular Biology (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Computation (AREA)
- General Health & Medical Sciences (AREA)
- Biomedical Technology (AREA)
- Computing Systems (AREA)
- General Engineering & Computer Science (AREA)
- Life Sciences & Earth Sciences (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Health & Medical Sciences (AREA)
- Picture Signal Circuits (AREA)
Abstract
本申请提供了一种基于卷积神经网络的实时视频去噪方法及系统,该方法中,先获取待处理视频流,对其中的任意一帧待处理图像帧,分别获取与其前、后连续的多帧图像帧,并组成待处理图像帧序列,再将待处理图像帧序列输入预设的卷积神经网络模型对待处理图像帧进行去噪处理,得到并输出待处理图像帧的去噪图像帧。基于本申请提供的基于卷积神经网络的实时视频去噪方法及系统,可解决由于运动估计而带来的计算消耗和时间消耗,提高视频去噪模型的运行时间和性能,同时还能提高对视频内容的细节保留。
Description
技术领域
本申请涉及视频处理技术领域,特别是涉及一种基于卷积神经网络的实时视频去噪方法及系统。
背景技术
视频去噪是一个视频处理技术领域的典型问题。随着摄影传感器的不断发展,一些低端影像设备或者困难的拍摄条件(低光照条件)使得去噪处理成为图像或视频处理过程中必不可少的一部分。图像去噪技术一直是计算机视觉领域的热门研究热点,基于深度学习技术的许多新图像去噪方法由于其出色的性能而备受关注,例如收缩场级联方法、基于CNN的端到端模型等,但对比于图像去噪来说,视频去噪的研究显得很少。在一般情况下,由于摄像机的高速捕获率,视频数据往往比单幅图像的噪声更大,视频去噪的目的是通过在时间域和空间域中的信息来有效地消除视频所有帧中的噪声。视频去噪与图像去噪的不同点还体现在两个地方,第一点是,视频包含的信息远多于静止图像,这有助于恢复过程;第二点是,视频恢复需要良好的时间一致性,这使得恢复过程要求更高,并且由于摄像机能产生高清或更大的视频,因此需要非常快速和高效的算法。
目前的视频去噪算法主要依靠两个因素来强制利用视频中的时间一致性,即搜索区域从空间邻域到体积邻域的扩展,以及联合运动估计的使用,但运动估计的利用会使得该算法消耗大量的运算时间,降低了算法的效率,且在视频去噪的细节保留方面也有所欠缺。因此,现亟需提供一种效率更高的视频去噪方法。
发明内容
本申请的目的在于克服上述问题或者至少部分地解决或缓减解决上述问题。
根据本申请的一个方面,提供了一种基于卷积神经网络的实时视频去噪方法,包括:
获取待处理视频流;
对于所述待处理视频流中的任意一帧待处理图像帧,基于所述待处理视频流分别获取与所述待处理图像前、后连续的多帧图像帧,并与所述待处理图像帧组成待处理图像帧序列;
将所述待处理图像帧序列输入预设的卷积神经网络模型,通过所述卷积神经网络模型基于所述待处理图像帧序列对所述待处理图像帧进行去噪处理,得到并输出所述待处理图像帧的去噪图像帧。
可选地,所述对于所述待处理视频流中的任意一帧待处理图像帧,基于所述待处理视频流分别获取与所述待处理图像前、后连续的多帧图像帧,并与所述待处理图像帧组成待处理图像帧序列,包括:
对于所述待处理视频流中的任意一帧待处理图像帧,基于所述待处理视频分别获取与所述待处理图像前、后连续的两帧图像帧;
将所述待处理图像前、后连续的两帧图像帧与所述待处理图像帧组合形成待处理图像帧序列;
其中,所述待处理图像帧序列包括五帧连续的图像帧,所述待处理图像帧为所述待处理图像帧序列的中间帧。
可选地,所述卷积神经网络模型包括级联的第一去噪架构和第二去噪架构;
通过所述卷积神经网络模型基于所述待处理图像帧序列对所述待处理图像帧进行去噪处理,得到并输出所述待处理图像帧的去噪图像帧,包括:
将所述待处理图像帧序列依序有重叠的组成三组连续的第一三元组数据,分别输入所述第一去噪架构进行第一去噪处理,得到三个输出数据;
将所述三个输出数据组合后作为第二三元组数据输入所述第二去噪架构进行第二去噪处理,得到并输出所述待处理图像帧的去噪图像帧。
可选地,所述将所述三个输出组合后作为第二三元组数据输入所述第二去噪架构进行第二去噪处理,得到并输出所述待处理图像帧的去噪图像帧,包括:
将所述三个输出按照相同的权重组合后作为第二三元组数据输入所述第二去噪架构进行第二去噪处理,得到并输出所述待处理图像帧的去噪图像帧。
可选地,所述第一去噪架构和第二去噪架构均包括U-Net模型;
所述U-Net模型由十六个卷积层组成;
所述U-Net模型的输入包括一个三元组数据和一个噪声图,上采样采用的是PixelShuffle层。
根据本申请的另一个方面,提供了一种基于卷积神经网络的实时视频去噪系统,包括:
视频流获取模块,其配置成获取待处理视频流;
图像帧序列组成模块,其配置成对于所述待处理视频流中的任意一帧待处理图像帧,在所述待处理视频流中分别获取与所述待处理图像前、后连续的多帧图像帧,并与所述待处理图像帧组成待处理图像帧序列;
图像去噪模块,其配置成将所述待处理图像帧序列输入预设的卷积神经网络模型,通过所述卷积神经网络模型基于所述待处理图像帧序列对所述待处理图像帧进行去噪处理,得到并输出所述待处理图像帧的去噪图像帧。
可选地,所述图像帧序列组成模块,其还配置成:
对于所述待处理视频流中的任意一帧待处理图像帧,基于所述待处理视频分别获取与所述待处理图像前、后连续的两帧图像帧;
将所述待处理图像前、后连续的两帧图像帧与所述待处理图像帧组合形成待处理图像帧序列;
其中,所述待处理图像帧序列包括五帧连续的图像帧,所述待处理图像帧为所述待处理图像帧序列的中间帧。
可选地,所述卷积神经网络模型包括级联的第一去噪架构和第二去噪架构;
所述图像去噪模块,其还配置成:
将所述待处理图像帧序列依序有重叠的组成三组连续的第一三元组数据,分别输入所述第一去噪架构进行第一去噪处理,得到三个输出数据;
将所述三个输出数据组合后作为第二三元组数据输入所述第二去噪架构进行第二去噪处理,得到并输出所述待处理图像帧的去噪图像帧。
可选地,所述图像去噪模块,其还配置成:
将所述三个输出按照相同的权重组合后作为第二三元组数据输入所述第二去噪架构进行第二去噪处理,得到并输出所述待处理图像帧的去噪图像帧。
可选地,所述第一去噪架构和第二去噪架构均包括U-Net模型;
所述U-Net模型由十六个卷积层组成;
所述U-Net模型的输入包括一个三元组数据和一个噪声图,上采样采用的是PixelShuffle层。
本申请提供了一种基于卷积神经网络的实时视频去噪方法及系统,在本申请提供的方法中,先获取待处理视频流,然后对其中的任意一帧待处理图像帧,分别获取与其前、后连续的多帧图像帧,并一起组成待处理图像帧序列,再将待处理图像帧序列输入预设的卷积神经网络模型对待处理图像帧进行去噪处理,得到并输出待处理图像帧的去噪图像帧。基于本申请提供的基于卷积神经网络的实时视频去噪方法及系统,可以解决由于运动估计而带来的计算消耗和时间消耗,提高视频去噪模型的运行时间和性能,同时还能提高对视频内容的细节保留。
根据下文结合附图对本申请的具体实施例的详细描述,本领域技术人员将会更加明了本申请的上述以及其他目的、优点和特征。
附图说明
后文将参照附图以示例性而非限制性的方式详细描述本申请的一些具体实施例。附图中相同的附图标记标示了相同或类似的部件或部分。本领域技术人员应该理解,这些附图未必是按比例绘制的。附图中:
图1是根据本申请实施例的基于卷积神经网络的实时去噪方法流程示意图;
图2是根据本申请实施例的U-Net模型整体架构示意图;
图3是根据本申请实施例的卷积神经网络工作流程示意图;
图4是根据本申请实施例的基于卷积神经网络的实时去噪系统结构示意图;
图5是根据本申请实施例的计算设备示意图;
图6是根据本社情实施例的计算机可读存储介质示意图。
具体实施方式
目前的视频去噪算法有很多基于补丁的,例如3D Wiener滤波方案、视频非本地贝叶斯模型等,但基于神经网络的方法变的更为常见,例如使用递归神经网络,将视频非本地网络与CNN网络结合的模型、DVDnet等。其中DVDnet主要依靠两个因素来强制利用视频中的时间一致性,即搜索区域从空间邻域到体积邻域的扩展,以及联合运动估计的使用,但运动估计的利用会使得该算法消耗大量的运算时间,降低了算法的效率,且在视频去噪的细节保留方面也有所欠缺。对于视频去噪来说,时间一致性和闪动效应是去噪质量的关键方面,为了实现这些,当对图像序列的给定帧进行去噪时,算法必须利用相邻帧中存在的时间信息,基于深度学习的大多数先前方法未能有效地使用该时间信息。
图1是根据本申请实施例的基于卷积神经网络的实时去噪方法流程示意图。参见图1所知,本申请实施例提供的基于卷积神经网络的实时去噪方法可以包括:
步骤S101:获取待处理视频流;
步骤S102:对于待处理视频流中的任意一帧待处理图像帧,基于待处理视频流分别获取与待处理图像前、后连续的多帧图像帧,并与待处理图像帧组成待处理图像帧序列;
步骤S103:将待处理图像帧序列输入预设的卷积神经网络模型,通过卷积神经网络模型基于待处理图像帧序列对待处理图像帧进行去噪处理,得到并输出待处理图像帧的去噪图像帧。
本申请提供了一种基于卷积神经网络的实时视频去噪方法,在本申请提供的方法中,先获取待处理视频流,然后对其中的任意一帧待处理图像帧,分别获取与其前、后连续的多帧图像帧,并一起组成待处理图像帧序列,再将待处理图像帧序列输入预设的卷积神经网络模型,从而对待处理图像帧进行去噪处理,得到并输出待处理图像帧的去噪图像帧。基于本申请提供的基于卷积神经网络的实时视频去噪方法及系统,对于视频流中的每一帧图像帧来讲,都可以获取与其连续的图像帧以组合构成待处理图像帧序列输入卷积神经网络进行分析处理,以获取其对应的去噪图像帧,进而解决由于运动估计而带来的计算消耗和时间消耗,提高视频去噪模型的运行时间和性能,同时还能提高对视频内容的细节保留。
卷积神经网络(Convolutional Neural Networks,CNN)是一类包含卷积计算且具有深度结构的前馈神经网络,是深度学习的代表算法之一。卷积神经网络具有表征学习能力,能够按其阶层结构对输入信息进行平移不变分类。本实施例通过采用卷积神经网络对视频流中的各图像帧进行去噪处理,可以提升对每一帧图像帧的处理效率,进而高效对视频流进行去噪处理。
一般来讲,在实时视频去噪方法中,参见步骤S101,获取的待处理视频流是含噪声的图像帧序列,主要针对序列中的含噪的图像帧进行去噪处理。
参见上述步骤S102,在获取到待处理视频流之后,对于其中的任意一帧图像帧均可作为待处理图像帧,处理顺序可基于视频流中各图像帧的先后顺序进行处理,其中,对于其中任意一帧待处理图像帧,可分别获取其前、后连续的多帧图像帧,组成待处理图像帧序列。
可选地,对于选定的待处理图像帧,基于待处理视频分别获取与待处理图像前、后连续的两帧图像帧,将待处理图像前、后连续的两帧图像帧与待处理图像帧组合形成待处理图像帧序列;其中,待处理图像帧序列包括五帧连续的图像帧,待处理图像帧为待处理图像帧序列的中间帧。
也就是说,在待处理视频流中,先确定要进行去噪处理的图像帧,然后在视频流中获取与这个图像帧连续的前面两帧图像帧和后面两帧图像帧,组合成连续的五帧图像帧,通过对这连续的五帧图像帧组成的图像帧序列进行处理,最终实现对选定图像帧的去噪处理,即图像帧序列中的中间帧的去噪处理。
接下来,执行步骤S103,将待处理图像帧序列输入预设的卷积神经网络模型,通过卷积神经网络模型基于待处理图像帧序列对待处理图像帧进行去噪处理,得到并输出待处理图像帧的去噪图像帧。
其中,卷积神经网络模型可预先构建并通过基于网络数据收集组成的预训练数据集经过预训练得到。本实施例中,对于卷积神经网络模型的训练数据集为DAVIS数据集,DAVIS集包含30个分辨率为854×480的序列,序列限制最多为85帧。本模型将时间一致性和运动估计全部考虑在内,但与DVDnet算法最大的不同是,采用隐性的运动估计以避免显式运动估计会带来的计算消耗和时间消耗。
预训练数据集中的训练数据主要由输入-输出对组成,可以将其定义为:
其中,是连续帧中的相同位置处获取的5个空间块的集合,并且Ij是无噪声的中间块(用于训练时的标签使用)。这些是通过添加σ∈[5,50]的AWGN函数来向无噪声帧中添加白噪声,并且相应的噪声图Mj在这种情况下建立为常量,其所有元素都等于σ。从训练数据集的随机采样序列中随机选取空间帧。在上述公式中,j标识图像帧在视频流中的序号,i代表第j个图像帧中的时间序号。t的意义与i相同,也是指时间序号。
AWGN,又称加性高斯白噪声(Additive White GaussianNoise),是最基本的噪声与干扰模型。它的幅度分布服从高斯分布,而功率谱密度是均匀分布的。如果噪声的功率谱密度在所有的频率上均为一常数,则称这样的噪声为白噪声。如果白噪声取值的概率分布服从高斯分布,则称这样的噪声为高斯白噪声。采用AWGN函数将白噪声添加到干净的样本中,是为了模拟含有噪声的样本,并以此来验证卷积神经网络模型的降噪效果。
可选地,本申请中实施例中的卷积神经网络模型可以包括级联的第一去噪架构和第二去噪架构。其中,第一去噪架构和第二去噪架构均包括U-Net模型。
U-Net模型是一种改进的FCN结构,因其结构经论文作者画出来形似字母U而得名,应用于医学图像的语义分割。它沿用了FCN进行图像语义分割的思想,即利用卷积层、池化层进行特征提取,再利用反卷积层还原图像尺寸。而且U-Net融合了编码-解码结构和跳跃网络的特点,在模型结构上更加优雅且巧妙。
U-Net模型是一个编码-解码的结构,压缩通道是一个编码器,用于逐层提取影像的特征,扩展通道是一个解码器,用于还原影像的位置信息,且U-Net模型的每一个隐藏层都有较多的特征维数,这有利于模型学习更加多样、全面的特征。
传统的U-Net模型由左半边的压缩通道(Contracting Path)和右半边扩展通道(Expansive Path)组成。压缩通道是典型的卷积神经网络结构,它重复采用2个卷积层和1个最大池化层的结构,每进行一次池化操作后特征图的维数就增加1倍。在扩展通道,先进行1次反卷积操作,使特征图的维数减半,然后拼接对应压缩通道裁剪得到的特征图,重新组成一个2倍大小的特征图,再采用2个卷积层进行特征提取,并重复这一结构。在最后的输出层,用2个卷积层将64维的特征图映射成2维的输出图。
本发明实施例中,应用于第一去噪结构和第二去噪结构的U-Net模型,由十六个卷积层组成;输入包括一个三元组数据和一个噪声图,上采样采用的是PixelShuffle层。其中,三元组,是指每组数中有三个元素,在本实施例中的三元组数据即包括连续有序的三帧图像帧。噪声图是指随机生成的噪声图,在需要的时候只需随机生成即可。
基于本发明实施例提供的卷积神经网络模型的第一去噪架构和第二去噪架构中的U-Net模型中具有以下特点:第一点,输入为三帧和一个噪声图;第二点,上采样采用的是PixelShuffle层;第三点,编码器的特征与解码器的特征的合并是通过逐像素加法操作而不是通道顺序连接来完成的,这导致内存需求减少。另外,第一去噪架构和第二去噪架构中的U-Net模型总共由十六个卷积层组成,其卷积层后的输出为做ReLU激活函数操作,并把ADAM算法用于最小化损失函数,其所有超参数都设置为其默认值。
如图2所示,本实施例提供的U-Net模型一共包含16层模块,其中模块X代表一个卷积层、一个批量标准化层和一个ReLU激活层的组合,模块Y代表一个卷积层、一个批量标准化层和一个ReLU激活层的组合,与模块X不同之处在于其模型训练的步长设置为2,模块Z代表一个卷积层。
其中,PixelShuffle(像素重组)的主要功能是将低分辨的特征图,通过卷积和多通道间的重组得到高分辨率的特征图。这一方法最初是为了解决图像超分辨率问题而提出的一种上采样方法,可以对缩小后的特征图进行有效的放大。
而ReLU激活函数是指使用一种叫修正线性单元(Rectified linearunit,ReLU)作为神经元的激活函数。对于线性函数而言,ReLU的表达能力更强,尤其体现在深度网络中;而对于非线性函数而言,ReLU由于非负区间的梯度为常数,因此不存在梯度消失问题(Vanishing Gradient Problem),使得模型的收敛速度维持在一个稳定状态。此外,通过利用ADAM算法,可基于训练数据迭代地更新神经网络权重,从而使得卷积神经网络模型中各去噪架构的对图像帧的去噪处理效率更高。
可选地,上述步骤S103基于卷积神经网络模型基于待处理图像帧序列进对待处理图像帧进行处理时,具体可以包括:
将待处理图像帧序列依序有重叠的组成三组连续的第一三元组数据,分别输入所述第一去噪架构进行第一去噪处理,得到三个输出数据;
将三个输出数据组合后作为第二三元组数据输入第二去噪架构进行第二去噪处理,得到并输出待处理图像帧的去噪图像帧。
其中,三个输出数据是按照相同的权重组合后作为第二三元组数据输入第二去噪架构进行第二去噪处理,得到并输出待处理图像帧的去噪图像帧。
本发明实施例采用连续的五帧图像帧对作为中间帧的待处理图像帧进行去噪处理,将连续的五帧图像帧分别组成三组连续的三元组数据,并且,在三元组数据再加上一个噪声图Mj输入到第一去噪架构中,这些块具有相同的权重,再将其三个输出作为一组三元组数据再次送入第二去噪架构中进行去噪处理。去噪架构由一个改进的U-Net模型组成,它以三帧为输入,第一个去噪步骤中的三个块共享相同的权重,这导致模型的存储器需求减少并且便于网络的训练,与其他去噪算法相反,除了图像序列和输入噪声估计之外,不会将其他参数作为输入。
总体来说,本发明实施例提供的卷积神经网络模型,采用连续帧的三元组数据输入到去噪块中,并且使用了PixelShuffle层执行升级到全分辨率,多尺度的去噪块、级联的两步去噪架构和端到端的训练不仅为该模型提供了隐式处理运动的能力,还有助于避免显示运动估计的计算消耗和时间消耗,并且本模型的去噪块实现了残差学习,这有助于进一步提高细节保留的质量,并且减少了模型的闪动效应。
举例来说,如图3所示,获取一待处理视频流之后,假定需对第t帧图像进行去噪处理,则处理过程可以如下:
1、在待处理视频流中获取位于第t帧图像前的第t-1帧、第t-2帧图像和位于第t帧图像后的第t+1帧、第t+2帧图像;
2、将第t-2帧、第t-1帧、第t帧、第t+1帧、第t+2帧这五帧图像组成一待处理图像帧序列;
3、第t-2帧、第t-1帧、第t帧组合成三元组帧块1,第t-1帧、第t帧、第t+1帧组合成三元组帧块2,第t帧、第t+1帧、第t+2帧组合成三元组帧块3;
4、将三元组帧块1、三元组帧块2、三元组帧块3分别和一个噪声图输入第一去噪架构进行第一去噪处理,分别得到去噪块1、去噪块2和去噪块3;
5、将去噪块1、去噪块2、去噪块3组成三元组帧块4,并将三元组帧块4输入至第二去噪架构进行第二去噪处理,得到去噪块4;
6、将去噪块4作为第t帧图像帧的去噪图像帧输出。
基于同一发明构思,如图4所示,本申请实施例还提供了一种基于卷积神经网络的实时视频去噪系统400可以包括:
视频流获取模块410,其配置成获取待处理视频流;
图像帧序列组成模块420,其配置成对于待处理视频流中的任意一帧待处理图像帧,在待处理视频流中分别获取与待处理图像前、后连续的多帧图像帧,并与待处理图像帧组成待处理图像帧序列;
图像去噪模块430,其配置成将待处理图像帧序列输入预设的卷积神经网络模型,通过卷积神经网络模型基于待处理图像帧序列对待处理图像帧进行去噪处理,得到并输出待处理图像帧的去噪图像帧。
其中,图像帧序列组成模块420,其还可以配置成:
对于待处理视频流中的任意一帧待处理图像帧,基于待处理视频分别获取与待处理图像前、后连续的两帧图像帧;
将待处理图像前、后连续的两帧图像帧与待处理图像帧组合形成待处理图像帧序列;
其中,待处理图像帧序列包括五帧连续的图像帧,待处理图像帧为待处理图像帧序列的中间帧。
卷积神经网络模型包括级联的第一去噪架构和第二去噪架构;
所述图像去噪模块430,其还可以配置成:
将待处理图像帧序列依序有重叠的组成三组连续的第一三元组,分别输入第一去噪架构进行第一去噪处理,得到三个输出数据;
将三个输出数据组合后作为第二三元组输入第二去噪架构进行第二去噪处理,得到并输出待处理图像帧的去噪图像帧。
本发明一可选实施例中,图像去噪模块430,其还配置成:
将三个输出按照相同的权重组合后作为第二三元组输入第二去噪架构进行第二去噪处理,得到并输出待处理图像帧的去噪图像帧。
其中,第一去噪架构和第二去噪架构均包括U-Net模型;
U-Net模型由十六个卷积层组成;U-Net模型的输入包括一个三元组和一个噪声图,上采样采用的是PixelShuffle层。
本申请实施例提供了一种基于卷积神经网络的实时视频去噪方法及系统,在本申请实施例提供的方法中,先获取待处理视频流,然后对其中的任意一帧待处理图像帧,分别获取与其前、后连续的多帧图像帧,并一起组成待处理图像帧序列,再将待处理图像帧序列输入预设的卷积神经网络模型对待处理图像帧进行去噪处理,得到并输出待处理图像帧的去噪图像帧。
基于本申请实施例提供的基于卷积神经网络的实时视频去噪方法及系统,对于视频流中的每一帧图像帧来讲,都可以获取与其连续的图像帧以组合构成待处理图像帧序列输入卷积神经网络进行分析处理,以获取其对应的去噪图像帧,进而解决由于运动估计而带来的计算消耗和时间消耗,提高视频去噪模型的运行时间和性能,同时还能提高对视频内容的细节保留。
根据下文结合附图对本申请的具体实施例的详细描述,本领域技术人员将会更加明了本申请的上述以及其他目的、优点和特征。
本申请实施例还提供了一种计算设备,参照图5,该计算设备包括存储器520、处理器510和存储在所述存储器520内并能由所述处理器510运行的计算机程序,该计算机程序存储于存储器520中的用于程序代码的空间530,该计算机程序在由处理器510执行时实现用于执行任一项根据本发明的方法步骤531。
本申请实施例还提供了一种计算机可读存储介质。参照图6,该计算机可读存储介质包括用于程序代码的存储单元,该存储单元设置有用于执行根据本发明的方法步骤的程序531′,该程序被处理器执行。
本申请实施例还提供了一种包含指令的计算机程序产品。当该计算机程序产品在计算机上运行时,使得计算机执行根据本发明的方法步骤。
在上述实施例中,可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。当使用软件实现时,可以全部或部分地以计算机程序产品的形式实现。所述计算机程序产品包括一个或多个计算机指令。在计算机加载和执行所述计算机程序指令时,全部或部分地产生按照本申请实施例所述的流程或功能。所述计算机可以是通用计算机、专用计算机、计算机网络、获取其他可编程装置。所述计算机指令可以存储在计算机可读存储介质中,或者从一个计算机可读存储介质向另一个计算机可读存储介质传输,例如,所述计算机指令可以从一个网站站点、计算机、服务器或数据中心通过有线(例如同轴电缆、光纤、数字用户线(DSL))或无线(例如红外、无线、微波等)方式向另一个网站站点、计算机、服务器或数据中心进行传输。所述计算机可读存储介质可以是计算机能够存取的任何可用介质或者是包含一个或多个可用介质集成的服务器、数据中心等数据存储设备。所述可用介质可以是磁性介质,(例如,软盘、硬盘、磁带)、光介质(例如,DVD)、或者半导体介质(例如固态硬盘Solid State Disk(SSD))等。
专业人员应该还可以进一步意识到,结合本文中所公开的实施例描述的各示例的单元及算法步骤,能够以电子硬件、计算机软件或者二者的结合来实现,为了清楚地说明硬件和软件的可互换性,在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本申请的范围。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分步骤是可以通过程序来指令处理器完成,所述的程序可以存储于计算机可读存储介质中,所述存储介质是非短暂性(英文:non-transitory)介质,例如随机存取存储器,只读存储器,快闪存储器,硬盘,固态硬盘,磁带(英文:magnetic tape),软盘(英文:floppy disk),光盘(英文:optical disc)及其任意组合。
以上所述,仅为本申请较佳的具体实施方式,但本申请的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本申请揭露的技术范围内,可轻易想到的变化或替换,都应涵盖在本申请的保护范围之内。因此,本申请的保护范围应该以权利要求的保护范围为准。
Claims (10)
1.一种基于卷积神经网络的实时视频去噪方法,包括:
获取待处理视频流;
对于所述待处理视频流中的任意一帧待处理图像帧,基于所述待处理视频流分别获取与所述待处理图像前、后连续的多帧图像帧,并与所述待处理图像帧组成待处理图像帧序列;
将所述待处理图像帧序列输入预设的卷积神经网络模型,通过所述卷积神经网络模型基于所述待处理图像帧序列对所述待处理图像帧进行去噪处理,得到并输出所述待处理图像帧的去噪图像帧。
2.根据权利要求1所述的方法,其特征在于,所述对于所述待处理视频流中的任意一帧待处理图像帧,基于所述待处理视频流分别获取与所述待处理图像前、后连续的多帧图像帧,并与所述待处理图像帧组成待处理图像帧序列,包括:
对于所述待处理视频流中的任意一帧待处理图像帧,基于所述待处理视频分别获取与所述待处理图像前、后连续的两帧图像帧;
将所述待处理图像前、后连续的两帧图像帧与所述待处理图像帧组合形成待处理图像帧序列;
其中,所述待处理图像帧序列包括五帧连续的图像帧,所述待处理图像帧为所述待处理图像帧序列的中间帧。
3.根据权利要求2所述的方法,其特征在于,所述卷积神经网络模型包括级联的第一去噪架构和第二去噪架构;
通过所述卷积神经网络模型基于所述待处理图像帧序列对所述待处理图像帧进行去噪处理,得到并输出所述待处理图像帧的去噪图像帧,包括:
将所述待处理图像帧序列依序有重叠的组成三组连续的第一三元组数据,分别输入所述第一去噪架构进行第一去噪处理,得到三个输出数据;
将所述三个输出数据组合后作为第二三元组数据输入所述第二去噪架构进行第二去噪处理,得到并输出所述待处理图像帧的去噪图像帧。
4.根据权利要求3所述的方法,其特征在于,所述将所述三个输出组合后作为第二三元组数据输入所述第二去噪架构进行第二去噪处理,得到并输出所述待处理图像帧的去噪图像帧,包括:
将所述三个输出按照相同的权重组合后作为第二三元组数据输入所述第二去噪架构进行第二去噪处理,得到并输出所述待处理图像帧的去噪图像帧。
5.根据权利要求3所述的方法,其特征在于,所述第一去噪架构和第二去噪架构均包括U-Net模型;
所述U-Net模型由十六个卷积层组成;
所述U-Net模型的输入包括一个三元组数据和一个噪声图,上采样采用的是PixelShuffle层。
6.一种基于卷积神经网络的实时视频去噪系统,包括:
视频流获取模块,其配置成获取待处理视频流;
图像帧序列组成模块,其配置成对于所述待处理视频流中的任意一帧待处理图像帧,在所述待处理视频流中分别获取与所述待处理图像前、后连续的多帧图像帧,并与所述待处理图像帧组成待处理图像帧序列;
图像去噪模块,其配置成将所述待处理图像帧序列输入预设的卷积神经网络模型,通过所述卷积神经网络模型基于所述待处理图像帧序列对所述待处理图像帧进行去噪处理,得到并输出所述待处理图像帧的去噪图像帧。
7.根据权利要求6所述的系统,其特征在于,所述图像帧序列组成模块,其还配置成:
对于所述待处理视频流中的任意一帧待处理图像帧,基于所述待处理视频分别获取与所述待处理图像前、后连续的两帧图像帧;
将所述待处理图像前、后连续的两帧图像帧与所述待处理图像帧组合形成待处理图像帧序列;
其中,所述待处理图像帧序列包括五帧连续的图像帧,所述待处理图像帧为所述待处理图像帧序列的中间帧。
8.根据权利要求7所述的系统,其特征在于,所述卷积神经网络模型包括级联的第一去噪架构和第二去噪架构;
所述图像去噪模块,其还配置成:
将所述待处理图像帧序列依序有重叠的组成三组连续的第一三元组数据,分别输入所述第一去噪架构进行第一去噪处理,得到三个输出数据;
将所述三个输出数据组合后作为第二三元组数据输入所述第二去噪架构进行第二去噪处理,得到并输出所述待处理图像帧的去噪图像帧。
9.根据权利要求8所述的系统,其特征在于,所述图像去噪模块,其还配置成:
将所述三个输出按照相同的权重组合后作为第二三元组数据输入所述第二去噪架构进行第二去噪处理,得到并输出所述待处理图像帧的去噪图像帧。
10.根据权利要求8所述的系统,其特征在于,所述第一去噪架构和第二去噪架构均包括U-Net模型;
所述U-Net模型由十六个卷积层组成;
所述U-Net模型的输入包括一个三元组数据和一个噪声图,上采样采用的是PixelShuffle层。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911032235.8A CN110852961A (zh) | 2019-10-28 | 2019-10-28 | 一种基于卷积神经网络的实时视频去噪方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911032235.8A CN110852961A (zh) | 2019-10-28 | 2019-10-28 | 一种基于卷积神经网络的实时视频去噪方法及系统 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN110852961A true CN110852961A (zh) | 2020-02-28 |
Family
ID=69598414
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201911032235.8A Pending CN110852961A (zh) | 2019-10-28 | 2019-10-28 | 一种基于卷积神经网络的实时视频去噪方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110852961A (zh) |
Cited By (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111539879A (zh) * | 2020-04-15 | 2020-08-14 | 清华大学深圳国际研究生院 | 基于深度学习的视频盲去噪方法及装置 |
CN111738952A (zh) * | 2020-06-22 | 2020-10-02 | 京东方科技集团股份有限公司 | 一种图像修复的方法、装置及电子设备 |
CN111986105A (zh) * | 2020-07-27 | 2020-11-24 | 成都考拉悠然科技有限公司 | 基于时域去噪掩码的视频时序一致性增强方法 |
CN112613516A (zh) * | 2020-12-11 | 2021-04-06 | 北京影谱科技股份有限公司 | 用于航拍视频数据的语义分割方法 |
CN112819705A (zh) * | 2021-01-13 | 2021-05-18 | 西安交通大学 | 一种基于网状结构与长距离相关性的真实图像去噪方法 |
CN112991235A (zh) * | 2021-05-18 | 2021-06-18 | 杭州雄迈集成电路技术股份有限公司 | 视频降噪方法与视频降噪终端 |
US11540798B2 (en) | 2019-08-30 | 2023-01-03 | The Research Foundation For The State University Of New York | Dilated convolutional neural network system and method for positron emission tomography (PET) image denoising |
CN115988995A (zh) * | 2021-06-18 | 2023-04-18 | 深透医疗公司 | 用于实时视频去噪的系统和方法 |
WO2024079532A1 (en) * | 2021-10-14 | 2024-04-18 | Spectrum Optix Inc. | Temporally consistent neural network processing system |
Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106408522A (zh) * | 2016-06-27 | 2017-02-15 | 深圳市未来媒体技术研究院 | 一种基于卷积对神经网络的图像去噪方法 |
-
2019
- 2019-10-28 CN CN201911032235.8A patent/CN110852961A/zh active Pending
Patent Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106408522A (zh) * | 2016-06-27 | 2017-02-15 | 深圳市未来媒体技术研究院 | 一种基于卷积对神经网络的图像去噪方法 |
Non-Patent Citations (1)
Title |
---|
MATIAS TASSANO等: ""FastDVDnet: Towards Real-Time Video Denoising Without Explicit Motion Estimation"", 《ARXIV》 * |
Cited By (17)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US11540798B2 (en) | 2019-08-30 | 2023-01-03 | The Research Foundation For The State University Of New York | Dilated convolutional neural network system and method for positron emission tomography (PET) image denoising |
CN111539879A (zh) * | 2020-04-15 | 2020-08-14 | 清华大学深圳国际研究生院 | 基于深度学习的视频盲去噪方法及装置 |
WO2021208122A1 (zh) * | 2020-04-15 | 2021-10-21 | 清华大学深圳国际研究生院 | 基于深度学习的视频盲去噪方法及装置 |
CN111539879B (zh) * | 2020-04-15 | 2023-04-14 | 清华大学深圳国际研究生院 | 基于深度学习的视频盲去噪方法及装置 |
CN111738952B (zh) * | 2020-06-22 | 2023-10-10 | 京东方科技集团股份有限公司 | 一种图像修复的方法、装置及电子设备 |
CN111738952A (zh) * | 2020-06-22 | 2020-10-02 | 京东方科技集团股份有限公司 | 一种图像修复的方法、装置及电子设备 |
WO2021258959A1 (zh) * | 2020-06-22 | 2021-12-30 | 京东方科技集团股份有限公司 | 图像修复的方法、装置及电子设备 |
CN111986105A (zh) * | 2020-07-27 | 2020-11-24 | 成都考拉悠然科技有限公司 | 基于时域去噪掩码的视频时序一致性增强方法 |
CN111986105B (zh) * | 2020-07-27 | 2024-03-26 | 成都考拉悠然科技有限公司 | 基于时域去噪掩码的视频时序一致性增强方法 |
CN112613516A (zh) * | 2020-12-11 | 2021-04-06 | 北京影谱科技股份有限公司 | 用于航拍视频数据的语义分割方法 |
CN112819705A (zh) * | 2021-01-13 | 2021-05-18 | 西安交通大学 | 一种基于网状结构与长距离相关性的真实图像去噪方法 |
CN112819705B (zh) * | 2021-01-13 | 2023-04-18 | 西安交通大学 | 一种基于网状结构与长距离相关性的真实图像去噪方法 |
CN112991235A (zh) * | 2021-05-18 | 2021-06-18 | 杭州雄迈集成电路技术股份有限公司 | 视频降噪方法与视频降噪终端 |
CN115988995A (zh) * | 2021-06-18 | 2023-04-18 | 深透医疗公司 | 用于实时视频去噪的系统和方法 |
US20230121890A1 (en) * | 2021-06-18 | 2023-04-20 | Subtle Medical, Inc. | Systems and methods for real-time video denoising |
US11769229B2 (en) * | 2021-06-18 | 2023-09-26 | Subtle Medical, Inc. | Systems and methods for real-time video denoising |
WO2024079532A1 (en) * | 2021-10-14 | 2024-04-18 | Spectrum Optix Inc. | Temporally consistent neural network processing system |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110852961A (zh) | 一种基于卷积神经网络的实时视频去噪方法及系统 | |
Zhang et al. | DCSR: Dilated convolutions for single image super-resolution | |
CN110189260B (zh) | 一种基于多尺度并行门控神经网络的图像降噪方法 | |
CN111079764B (zh) | 一种基于深度学习的低照度车牌图像识别方法及装置 | |
CN111488932B (zh) | 一种基于帧率感知的自监督视频时-空表征学习方法 | |
Yang et al. | Ensemble learning priors driven deep unfolding for scalable video snapshot compressive imaging | |
Peng et al. | LVE-S2D: Low-light video enhancement from static to dynamic | |
Cao et al. | New architecture of deep recursive convolution networks for super-resolution | |
CN110428382A (zh) | 一种用于移动终端的高效视频增强方法、装置和存储介质 | |
Conde et al. | Lens-to-lens bokeh effect transformation. NTIRE 2023 challenge report | |
Hua et al. | Dynamic scene deblurring with continuous cross-layer attention transmission | |
Xin et al. | Video face super-resolution with motion-adaptive feedback cell | |
CN114494050A (zh) | 一种基于事件相机的自监督视频去模糊和图像插帧方法 | |
Huang et al. | Image restoration from patch-based compressed sensing measurement | |
Zeng et al. | Real-time video super resolution network using recurrent multi-branch dilated convolutions | |
Shao et al. | A posterior mean approach for MRF-based spatially adaptive multi-frame image super-resolution | |
CN108460768B (zh) | 层次化时域切分的视频关注对象分割方法和装置 | |
US20230186608A1 (en) | Method, device, and computer program product for video processing | |
CN113542780B (zh) | 一种网络直播视频的压缩伪影去除方法及装置 | |
US20220319157A1 (en) | Temporal augmentation for training video reasoning system | |
Wan et al. | Progressive convolutional transformer for image restoration | |
CN113191947B (zh) | 一种图像超分辨率的方法及系统 | |
CN115205148A (zh) | 基于双路径残差网络的图像去模糊方法 | |
Jia et al. | Learning rich information for quad bayer remosaicing and denoising | |
Tian et al. | A modeling method for face image deblurring |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20200228 |
|
RJ01 | Rejection of invention patent application after publication |