CN112866591A - 基于掩码检测的多帧图像融合的视频图像去噪方法 - Google Patents
基于掩码检测的多帧图像融合的视频图像去噪方法 Download PDFInfo
- Publication number
- CN112866591A CN112866591A CN202110036699.7A CN202110036699A CN112866591A CN 112866591 A CN112866591 A CN 112866591A CN 202110036699 A CN202110036699 A CN 202110036699A CN 112866591 A CN112866591 A CN 112866591A
- Authority
- CN
- China
- Prior art keywords
- image
- video
- noise
- mask
- denoising
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 21
- 238000001514 detection method Methods 0.000 title claims abstract description 16
- 230000004927 fusion Effects 0.000 title claims abstract description 12
- 238000012549 training Methods 0.000 claims abstract description 28
- 230000015556 catabolic process Effects 0.000 claims abstract description 10
- 238000006731 degradation reaction Methods 0.000 claims abstract description 10
- 238000005520 cutting process Methods 0.000 claims abstract description 3
- 238000007781 pre-processing Methods 0.000 claims abstract description 3
- 230000006870 function Effects 0.000 claims description 12
- 238000012545 processing Methods 0.000 claims description 10
- 230000004913 activation Effects 0.000 claims description 6
- 230000003190 augmentative effect Effects 0.000 claims description 6
- 230000006835 compression Effects 0.000 claims description 6
- 238000007906 compression Methods 0.000 claims description 6
- 238000000605 extraction Methods 0.000 claims description 6
- 235000002566 Capsicum Nutrition 0.000 claims description 3
- 239000006002 Pepper Substances 0.000 claims description 3
- 235000016761 Piper aduncum Nutrition 0.000 claims description 3
- 235000017804 Piper guineense Nutrition 0.000 claims description 3
- 235000008184 Piper nigrum Nutrition 0.000 claims description 3
- 238000004364 calculation method Methods 0.000 claims description 3
- 150000003839 salts Chemical class 0.000 claims description 3
- 238000013135 deep learning Methods 0.000 claims description 2
- 230000000717 retained effect Effects 0.000 claims description 2
- 244000203593 Piper nigrum Species 0.000 claims 1
- 238000004422 calculation algorithm Methods 0.000 abstract description 5
- 238000010586 diagram Methods 0.000 description 12
- 238000004590 computer program Methods 0.000 description 7
- 230000008569 process Effects 0.000 description 5
- 230000000694 effects Effects 0.000 description 4
- 238000003860 storage Methods 0.000 description 3
- 241000722363 Piper Species 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000005457 optimization Methods 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 230000000593 degrading effect Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 238000012544 monitoring process Methods 0.000 description 1
- 238000010606 normalization Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000002265 prevention Effects 0.000 description 1
- 238000011160 research Methods 0.000 description 1
Images
Classifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N25/00—Circuitry of solid-state image sensors [SSIS]; Control thereof
- H04N25/60—Noise processing, e.g. detecting, correcting, reducing or removing noise
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N5/00—Details of television systems
- H04N5/76—Television signal recording
- H04N5/91—Television signal processing therefor
- H04N5/911—Television signal processing therefor for the suppression of noise
Landscapes
- Engineering & Computer Science (AREA)
- Multimedia (AREA)
- Signal Processing (AREA)
- Image Processing (AREA)
Abstract
本发明涉及一种基于掩码检测的多帧图像融合的视频图像去噪方法,包括以下步骤:步骤S1:采集彩色视频图像作为目标视频集,并进行退化处理,得到对应的退化视频集;步骤S2:对两个视频集进行抽取yuv视频帧,得到yuv视频帧图像,并预处理,得到高清图像数据集和退化图像数据集,作为训练数据集;步骤S3:将训练数据集裁剪为图像块;步骤S4:构建图像噪声掩码生成网络,并获取图像噪声的掩码;步骤S5:构建视频图像去噪网络,并基于高清图像、退化图像和图像噪声的掩码训练,得到去噪结果。本发明构建基于前后帧融合的图像去噪算法,并且构建了专门的图像防抖动模块,减少输出图像中存在的抖动。
Description
技术领域
本发明涉及图像去噪和图像修复领域,具体涉及一种基于掩码检测的多帧图像融合的视频图像去噪方法。
背景技术
当前随着科技的进步,在电影电视、视频监控、医学影像为代表的多媒体应用场景中,视频图像的应用越来越广泛。不过视频图像的获取过程中,从摄像头拍摄,ISO曝光,视频压缩,视频传输。每个过程都可能为视频图像引入噪声。其中,主要包含高斯噪声、ISO噪声、视频压缩噪声。怎么通过当前的算法,把视频图像中存在的噪声去除干净,同时保留原有的视频细节,成为当前视频图像研究的热点。
发明内容
有鉴于此,本发明的目的在于提供一种基于掩码检测的多帧图像融合的视频图像去噪方法,能够有效减少输出图像中存在的噪声。
为实现上述目的,本发明采用如下技术方案:
一种基于掩码检测的多帧图像融合的视频图像去噪方法,包括以下步骤:
步骤S1:采集彩色视频图像作为目标视频集,并进行退化处理,得到对应的退化视频集;
步骤S2:对两个视频集进行抽取yuv视频帧,得到yuv视频帧图像,并预处理,得到高清图像数据集和退化图像数据集,作为训练数据集;
步骤S3:将训练数据集裁剪为图像块;
步骤S4:构建图像噪声掩码生成网络,并获取图像噪声的掩码;
步骤S5:构建视频图像去噪网络,并基于高清图像、退化图像和图像噪声的掩码训练,得到去噪结果。
进一步的,所述步骤S1具体为:
步骤S11:采集彩色视频图像作为目标视频集;
步骤S12:进行退化处理,增加ISO噪声、椒盐噪声、压缩噪声得到对应的包含噪声的退化视频集。
进一步的,所述步骤S2具体为:
步骤S21:对两个视频集进行抽取yuv视频帧,得到yuv视频帧图像;
步骤S22:对得到的得到yuv视频帧图像进行随机旋转和翻转,得到增广帧数据,并以匹配数据对的方式进行存储,作为深度学习的训练数据集。
进一步的,所述图像噪声掩码生成网络基于U-net[3]的结构,核心网络中特征提取阶段由16个卷积模块组成,每个卷积模块包括一个卷积层,和一个ReLU激活函数,其中一个大卷积块的计算公式是:
Fn=R{Wn*Fn-1+Bn} (1)
其中R表示非线性激活函数Relu,Wn,Bn分别表示特征提取阶段中卷积层的权重和偏置,Fn-1表示上一次卷积输出的特征图,Fn表示当前卷积模块提取的特征;
经过16个卷积模块之后,噪声检测网络最终输出为一张视频噪声的掩码Nmask,宽高与输入视频相同,每个像素位于在(0,1)之间,反映噪声强度,值越大噪声强度越高。
进一步的,所述图像噪声掩码生成网络获取图像噪声的掩码Nnoise的网络loss为L1:
L1=λ1*||mean(Nmask)-θ||2+λ2*||Vg-Vn||2 (2)
其中,mean(Nnoise)为取掩码Nnoise的均值。
进一步的,所述视频图像去噪网络由4个去噪模块组成,每个去噪模块,采用3个视频帧作为输入,并经过16个卷积模块的运算处理;获得每个模块对应的去噪结果;并最终由前三个模块的输出结果,汇总到一个卷积模块,输出最后的去噪结果。
进一步的,所述视频图像去噪网络采用了同时能够保留原始图像信息和关注保留图像细节的loss,包括L1 loss、前后帧联合防抖Lpnloss与perceptualloss,具体如下:
其中,j表示网络的第j层,CjHjWj表示第j层特征图的大小;损失网络使用在ImageNet上训练好的网络,用φj表示网络第j层
最终的loss如下:
Ltotal=α*L1+β*Lpn+γ*Lfeature (6)
其中,α、β、γ为预设值。
本发明与现有技术相比具有以下有益效果:
本发明构建基于前后帧融合的图像去噪算法,并且构建了专门的图像防抖动模块,不仅去除了图像中存在的噪声,同时有效减少了输出图像中存在的抖动。
附图说明
图1是本发明一实施例中图像噪声掩码生成网络图;
图2是本发明一实施例中视频去噪网络图;
图3是本发明一实施例中视频去噪子网络模块图;
图4是本发明一实施例中视频去噪效果图。
具体实施方式
下面结合附图及实施例对本发明做进一步说明。
请参照图1,本发明提供一种基于掩码检测的多帧图像融合的视频图像去噪方法,包括以下步骤:
步骤S1:大量的彩色视频图像作为目标视频Vg,并且通过对它们进行退化,增加ISO噪声、椒盐噪声、压缩噪声得到对应的包含噪声的退化视频Vn;
步骤S2:对两个视频集进行抽取yuv视频帧,得到yuv视频帧图像,对这些帧进行随机旋转和翻转,得到大量的增广帧数据,以匹配数据对的方式进行存储,作为训练数据集;
步骤S3:对于输入的高清图像和退化图像,把它们裁剪为128x128的图像块。对于宽高大于128x128的图像输入,将它们随机裁剪到128x128,并执行m次。其中m为该图像面积除以128x128的向上取整结果。
步骤S4:构建图像噪声掩码生成网络,并获取图像噪声的掩码;
在本实施例中,基于U-net[3]的结构,通过构建一个如图1所示的网络结构,该网络不仅考虑了存在于图像中的局部噪声,同时也考虑了全局的图像噪声强度。在有限的计算资源和运算时间内,进行了良好的噪声和图像细节偏差的检测。
核心网络中特征提取阶段由16个卷积模块组成,每个卷积模块包括一个卷积层,和一个ReLU激活函数,其中一个大卷积块的计算公式是:
Fn=R{Wn*Fn-1+Bn} (1)
其中R表示非线性激活函数Relu,Wn,Bn分别表示特征提取阶段中卷积层的权重和偏置,Fn-1表示上一次卷积输出的特征图,Fn表示当前卷积模块提取的特征。经过16个卷积模块之后,噪声检测网络最终输出为一张视频噪声的掩码Nmask,宽高与输入视频相同,每个像素位于在(0,1)之间,反映噪声强度,值越大噪声强度越高。
训练过程关系下一阶段的效果,是获取更好效果的保障。其中获取图像噪声的掩码Nnoise的网络loss为L1。
L1=λ1*||mean(Nmask)-θ||2+λ2*||Vg-Vn||2 (2)
其中mean(Nnoise)为取掩码Nnoise的均值,由于图像的退化因子θ越接近于0,对应的原始视频帧位置压缩噪声越轻,掩码位置应该数值越小,优选的,在本实施例中直接采用视频质量参数QP值。其中θ是视频保存时QP值的归一化的参数。
步骤S5:构建视频图像去噪网络,并基于高清图像、退化图像和图像噪声的掩码训练,得到去噪结果。
在本实施例中,构建了如图2所示的去噪网络。核心网络由4个去噪模块组成,通过组合来自不同帧之间的输入,达到修复当前帧的目的。
其中视频去噪模块的定义如图3所示,每个去噪模块,采用3个视频帧作为输入,并经过16个卷积模块的运算处理。获得每个模块对应的去噪结果。并最终由前三个模块的输出结果,汇总到一个卷积模块,输出最后的去噪结果
将原始高清视频图像Vg,退化图像Vn与图像Nmask相结合训练本文的视频图像去噪网络。
在本实施例中,去噪算法,需要满足保留视频中合理信息与去除噪声的平衡。采用了同时能够保留原始图像信息和关注保留图像细节的loss。分别是L1 loss、前后帧联合防抖Lpn loss与perceptual loss(本文定义为Lfeature)。
L1 loss定义如下:
为了在训练中就预防抖动的发生,引入了前后帧的防止抖动loss初步预防视频抖动的产生,loss如下:
同时,使用基于perceptual loss损失函数作为图像细节优化的损失,损失函数为:
其中,j表示网络的第j层,CjHjWj表示第j层特征图的大小。损失网络使用在ImageNet上训练好的网络,用φj表示网络第j层。
最终的loss如下:
Ltotal=α*L1+β*Lpn+γ*Lfeature (6)
其中,α、β、γ分别取为0.7、0.29、0.01。
优选的,在本实施例中,网络模型训练采用两阶段训练策略:
将原始低清视频帧分别作为两个网络的输入,其中第一阶段将训练图像噪声掩码生成网络,当网络收敛时,固定住该网络的参数,开始第二阶段视频去噪网络的训练。每一阶段的训练过程被分为预设的多个子训练周期,采用步进增长策略依次进行子训练周期的训练;训练开始时将原始图像缩放成小图片并佐以大学习率开始训练,且每完成一个子训练周期后逐步增大彩色原始图像并逐步减小学习率;
当完成一个子训练周期后生成的彩色视频帧与其对应的原始彩色视频帧比较时没有获得预先设定的重建效果,则继续进行反向传播,利用梯度下降优化算法更新卷积权值参数和偏置参数再执行步骤3;当在完成一个子训练周期后生成的视频帧yuv值达到预期或完成所有预设的子训练周期的次数后,则获得最终结果。
本领域内的技术人员应明白,本申请的实施例可提供为方法、系统、或计算机程序产品。因此,本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本申请是参照根据本申请实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
以上所述,仅是本发明的较佳实施例而已,并非是对本发明作其它形式的限制,任何熟悉本专业的技术人员可能利用上述揭示的技术内容加以变更或改型为等同变化的等效实施例。但是凡是未脱离本发明技术方案内容,依据本发明的技术实质对以上实施例所作的任何简单修改、等同变化与改型,仍属于本发明技术方案的保护范围。
Claims (7)
1.一种基于掩码检测的多帧图像融合的视频图像去噪方法,其特征在于,包括以下步骤:
步骤S1:采集彩色视频图像作为目标视频集,并进行退化处理,得到对应的退化视频集;
步骤S2:对两个视频集进行抽取yuv视频帧,得到yuv视频帧图像,并预处理,得到高清图像数据集和退化图像数据集,作为训练数据集;
步骤S3:将训练数据集裁剪为图像块;
步骤S4:构建图像噪声掩码生成网络,并获取图像噪声的掩码;
步骤S5:构建视频图像去噪网络,并基于高清图像、退化图像和图像噪声的掩码训练,得到去噪结果。
2.根据权利要求1所述的基于掩码检测的多帧图像融合的视频图像去噪方法,其特征在于,所述步骤S1具体为:
步骤S11:采集彩色视频图像作为目标视频集;
步骤S12:进行退化处理,增加ISO噪声、椒盐噪声、压缩噪声得到对应的包含噪声的退化视频集。
3.根据权利要求1所述的基于掩码检测的多帧图像融合的视频图像去噪方法,其特征在于,所述步骤S2具体为:
步骤S21:对两个视频集进行抽取yuv视频帧,得到yuv视频帧图像;
步骤S22:对得到的得到yuv视频帧图像进行随机旋转和翻转,得到增广帧数据,并以匹配数据对的方式进行存储,作为深度学习的训练数据集。
4.根据权利要求1所述的基于掩码检测的多帧图像融合的视频图像去噪方法,其特征在于,所述图像噪声掩码生成网络基于U-net[3]的结构,核心网络中特征提取阶段由16个卷积模块组成,每个卷积模块包括一个卷积层,和一个ReLU激活函数,其中一个大卷积块的计算公式是:
Fn=R{Wn*Fn-1+Bn} (1)
其中R表示非线性激活函数Relu,Wn,Bn分别表示特征提取阶段中卷积层的权重和偏置,Fn-1表示上一次卷积输出的特征图,Fn表示当前卷积模块提取的特征;
经过16个卷积模块之后,噪声检测网络最终输出为一张视频噪声的掩码Nmask,宽高与输入视频相同,每个像素位于在(0,1)之间,反映噪声强度,值越大噪声强度越高。
5.根据权利要求4所述的基于掩码检测的多帧图像融合的视频图像去噪方法,其特征在于,所述图像噪声掩码生成网络获取图像噪声的掩码Nnoise的网络loss为L1:
L1=λ1*||mean(Nmask)-θ||2+λ2*||Vg-Vn||2 (2)
其中,mean(Nnoise)为取掩码Nnoise的均值。
6.根据权利要求1所述的基于掩码检测的多帧图像融合的视频图像去噪方法,其特征在于,所述视频图像去噪网络由4个去噪模块组成,每个去噪模块,采用3个视频帧作为输入,并经过16个卷积模块的运算处理;获得每个模块对应的去噪结果;并最终由前三个模块的输出结果,汇总到一个卷积模块,输出最后的去噪结果。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110036699.7A CN112866591A (zh) | 2021-01-12 | 2021-01-12 | 基于掩码检测的多帧图像融合的视频图像去噪方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110036699.7A CN112866591A (zh) | 2021-01-12 | 2021-01-12 | 基于掩码检测的多帧图像融合的视频图像去噪方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN112866591A true CN112866591A (zh) | 2021-05-28 |
Family
ID=76002861
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110036699.7A Pending CN112866591A (zh) | 2021-01-12 | 2021-01-12 | 基于掩码检测的多帧图像融合的视频图像去噪方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112866591A (zh) |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111145123A (zh) * | 2019-12-27 | 2020-05-12 | 福州大学 | 基于U-Net融合保留细节的图像去噪方法 |
CN111583152A (zh) * | 2020-05-11 | 2020-08-25 | 福建帝视信息科技有限公司 | 基于U-net结构的图像伪影检测与自动去除方法 |
US20200327334A1 (en) * | 2020-06-25 | 2020-10-15 | Intel Corporation | Video frame segmentation using reduced resolution neural network and masks from previous frames |
-
2021
- 2021-01-12 CN CN202110036699.7A patent/CN112866591A/zh active Pending
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111145123A (zh) * | 2019-12-27 | 2020-05-12 | 福州大学 | 基于U-Net融合保留细节的图像去噪方法 |
CN111583152A (zh) * | 2020-05-11 | 2020-08-25 | 福建帝视信息科技有限公司 | 基于U-net结构的图像伪影检测与自动去除方法 |
US20200327334A1 (en) * | 2020-06-25 | 2020-10-15 | Intel Corporation | Video frame segmentation using reduced resolution neural network and masks from previous frames |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Niu et al. | Hdr-gan: Hdr image reconstruction from multi-exposed ldr images with large motions | |
Goyal et al. | Fast and enhanced algorithm for exemplar based image inpainting | |
WO2021208122A1 (zh) | 基于深度学习的视频盲去噪方法及装置 | |
Zhang et al. | A deep encoder-decoder networks for joint deblurring and super-resolution | |
CN111028150B (zh) | 一种快速时空残差注意力视频超分辨率重建方法 | |
CN109064423B (zh) | 一种基于非对称循环生成对抗损失的智能修图方法 | |
CN105208376B (zh) | 一种数字降噪方法和装置 | |
CN112164011B (zh) | 基于自适应残差与递归交叉注意力的运动图像去模糊方法 | |
CN112801901A (zh) | 基于分块多尺度卷积神经网络的图像去模糊算法 | |
CN105765607A (zh) | 用于图像反卷积的多阶段方法 | |
Pan et al. | MIEGAN: Mobile image enhancement via a multi-module cascade neural network | |
Yin et al. | Deep prior guided network for high-quality image fusion | |
US20220207651A1 (en) | Method and apparatus for image processing | |
Zhang et al. | Deep motion blur removal using noisy/blurry image pairs | |
US11948278B2 (en) | Image quality improvement method and image processing apparatus using the same | |
US11783454B2 (en) | Saliency map generation method and image processing system using the same | |
CN113052764A (zh) | 一种基于残差连接的视频序列超分重建方法 | |
CN110378860B (zh) | 修复视频的方法、装置、计算机设备和存储介质 | |
CN117333398A (zh) | 一种基于自监督的多尺度图像去噪方法及装置 | |
CN113379861B (zh) | 基于色彩恢复块的彩色微光图像重建方法 | |
CN112866591A (zh) | 基于掩码检测的多帧图像融合的视频图像去噪方法 | |
Nazir et al. | 2HDED: Net for joint depth estimation and image deblurring from a single out-of-focus image | |
Zhu et al. | LLISP: Low-light image signal processing net via two-stage network | |
Terai et al. | Color image contrast enhancement by retinex model | |
US11645739B2 (en) | Image processing method and image processing system |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |