CN112866591A

CN112866591A - 基于掩码检测的多帧图像融合的视频图像去噪方法

Info

Publication number: CN112866591A
Application number: CN202110036699.7A
Authority: CN
Inventors: 谢军伟; 陈弘林; 李茹; 罗鸣; 童同; 高钦泉
Original assignee: Fujian Imperial Vision Information Technology Co ltd
Current assignee: Fujian Imperial Vision Information Technology Co ltd
Priority date: 2021-01-12
Filing date: 2021-01-12
Publication date: 2021-05-28

Abstract

本发明涉及一种基于掩码检测的多帧图像融合的视频图像去噪方法，包括以下步骤：步骤S1:采集彩色视频图像作为目标视频集，并进行退化处理，得到对应的退化视频集；步骤S2:对两个视频集进行抽取yuv视频帧，得到yuv视频帧图像，并预处理，得到高清图像数据集和退化图像数据集，作为训练数据集；步骤S3:将训练数据集裁剪为图像块；步骤S4:构建图像噪声掩码生成网络，并获取图像噪声的掩码；步骤S5:构建视频图像去噪网络，并基于高清图像、退化图像和图像噪声的掩码训练，得到去噪结果。本发明构建基于前后帧融合的图像去噪算法，并且构建了专门的图像防抖动模块，减少输出图像中存在的抖动。

Description

基于掩码检测的多帧图像融合的视频图像去噪方法

技术领域

本发明涉及图像去噪和图像修复领域，具体涉及一种基于掩码检测的多帧图像融合的视频图像去噪方法。

背景技术

当前随着科技的进步，在电影电视、视频监控、医学影像为代表的多媒体应用场景中，视频图像的应用越来越广泛。不过视频图像的获取过程中，从摄像头拍摄，ISO曝光，视频压缩，视频传输。每个过程都可能为视频图像引入噪声。其中，主要包含高斯噪声、ISO噪声、视频压缩噪声。怎么通过当前的算法，把视频图像中存在的噪声去除干净，同时保留原有的视频细节，成为当前视频图像研究的热点。

发明内容

有鉴于此，本发明的目的在于提供一种基于掩码检测的多帧图像融合的视频图像去噪方法，能够有效减少输出图像中存在的噪声。

为实现上述目的，本发明采用如下技术方案：

一种基于掩码检测的多帧图像融合的视频图像去噪方法，包括以下步骤：

步骤S1:采集彩色视频图像作为目标视频集，并进行退化处理，得到对应的退化视频集；

步骤S2:对两个视频集进行抽取yuv视频帧，得到yuv视频帧图像，并预处理，得到高清图像数据集和退化图像数据集，作为训练数据集；

步骤S3:将训练数据集裁剪为图像块；

步骤S4:构建图像噪声掩码生成网络，并获取图像噪声的掩码；

步骤S5:构建视频图像去噪网络，并基于高清图像、退化图像和图像噪声的掩码训练，得到去噪结果。

进一步的，所述步骤S1具体为：

步骤S11:采集彩色视频图像作为目标视频集；

步骤S12:进行退化处理，增加ISO噪声、椒盐噪声、压缩噪声得到对应的包含噪声的退化视频集。

进一步的，所述步骤S2具体为：

步骤S21:对两个视频集进行抽取yuv视频帧，得到yuv视频帧图像；

步骤S22:对得到的得到yuv视频帧图像进行随机旋转和翻转，得到增广帧数据，并以匹配数据对的方式进行存储，作为深度学习的训练数据集。

进一步的，所述图像噪声掩码生成网络基于U-net[3]的结构，核心网络中特征提取阶段由16个卷积模块组成，每个卷积模块包括一个卷积层，和一个ReLU激活函数，其中一个大卷积块的计算公式是：

F_n＝R{W_n*F_n-1+B_n} (1)

其中R表示非线性激活函数Relu，W_n，B_n分别表示特征提取阶段中卷积层的权重和偏置，F_n-1表示上一次卷积输出的特征图，F_n表示当前卷积模块提取的特征；

经过16个卷积模块之后，噪声检测网络最终输出为一张视频噪声的掩码N_mask，宽高与输入视频相同，每个像素位于在(0,1)之间，反映噪声强度，值越大噪声强度越高。

进一步的，所述图像噪声掩码生成网络获取图像噪声的掩码N_noise的网络loss为L₁：

L₁＝λ₁*||mean(N_mask)-θ||²+λ₂*||V_g-V_n||² (2)

其中，mean(N_noise)为取掩码N_noise的均值。

进一步的，所述视频图像去噪网络由4个去噪模块组成，每个去噪模块，采用3个视频帧作为输入，并经过16个卷积模块的运算处理；获得每个模块对应的去噪结果；并最终由前三个模块的输出结果，汇总到一个卷积模块，输出最后的去噪结果。

进一步的，所述视频图像去噪网络采用了同时能够保留原始图像信息和关注保留图像细节的loss，包括L₁ loss、前后帧联合防抖L_pnloss与perceptualloss，具体如下：

其中，j表示网络的第j层，C_jH_jW_j表示第j层特征图的大小；损失网络使用在ImageNet上训练好的网络，用φ_j表示网络第j层

最终的loss如下：

L_total＝α*L₁+β*L_pn+γ*L_feature (6)

其中，α、β、γ为预设值。

本发明与现有技术相比具有以下有益效果：

本发明构建基于前后帧融合的图像去噪算法，并且构建了专门的图像防抖动模块，不仅去除了图像中存在的噪声，同时有效减少了输出图像中存在的抖动。

附图说明

图1是本发明一实施例中图像噪声掩码生成网络图；

图2是本发明一实施例中视频去噪网络图；

图3是本发明一实施例中视频去噪子网络模块图；

图4是本发明一实施例中视频去噪效果图。

具体实施方式

下面结合附图及实施例对本发明做进一步说明。

请参照图1，本发明提供一种基于掩码检测的多帧图像融合的视频图像去噪方法，包括以下步骤：

步骤S1:大量的彩色视频图像作为目标视频V_g，并且通过对它们进行退化，增加ISO噪声、椒盐噪声、压缩噪声得到对应的包含噪声的退化视频V_n；

步骤S2:对两个视频集进行抽取yuv视频帧，得到yuv视频帧图像，对这些帧进行随机旋转和翻转，得到大量的增广帧数据，以匹配数据对的方式进行存储，作为训练数据集；

步骤S3:对于输入的高清图像和退化图像，把它们裁剪为128x128的图像块。对于宽高大于128x128的图像输入，将它们随机裁剪到128x128，并执行m次。其中m为该图像面积除以128x128的向上取整结果。

在本实施例中，基于U-net[3]的结构，通过构建一个如图1所示的网络结构，该网络不仅考虑了存在于图像中的局部噪声，同时也考虑了全局的图像噪声强度。在有限的计算资源和运算时间内，进行了良好的噪声和图像细节偏差的检测。

核心网络中特征提取阶段由16个卷积模块组成，每个卷积模块包括一个卷积层，和一个ReLU激活函数，其中一个大卷积块的计算公式是：

F_n＝R{W_n*F_n-1+B_n} (1)

其中R表示非线性激活函数Relu，W_n，B_n分别表示特征提取阶段中卷积层的权重和偏置，F_n-1表示上一次卷积输出的特征图，F_n表示当前卷积模块提取的特征。经过16个卷积模块之后，噪声检测网络最终输出为一张视频噪声的掩码N_mask，宽高与输入视频相同，每个像素位于在(0,1)之间，反映噪声强度，值越大噪声强度越高。

训练过程关系下一阶段的效果，是获取更好效果的保障。其中获取图像噪声的掩码N_noise的网络loss为L₁。

L₁＝λ₁*||mean(N_mask)-θ||²+λ₂*||V_g-V_n||² (2)

其中mean(N_noise)为取掩码N_noise的均值，由于图像的退化因子θ越接近于0，对应的原始视频帧位置压缩噪声越轻，掩码位置应该数值越小，优选的，在本实施例中直接采用视频质量参数QP值。其中θ是视频保存时QP值的归一化的参数。

在本实施例中，构建了如图2所示的去噪网络。核心网络由4个去噪模块组成，通过组合来自不同帧之间的输入，达到修复当前帧的目的。

其中视频去噪模块的定义如图3所示，每个去噪模块，采用3个视频帧作为输入，并经过16个卷积模块的运算处理。获得每个模块对应的去噪结果。并最终由前三个模块的输出结果，汇总到一个卷积模块，输出最后的去噪结果

将原始高清视频图像V_g，退化图像V_n与图像N_mask相结合训练本文的视频图像去噪网络。

在本实施例中，去噪算法，需要满足保留视频中合理信息与去除噪声的平衡。采用了同时能够保留原始图像信息和关注保留图像细节的loss。分别是L₁ loss、前后帧联合防抖L_pn loss与perceptual loss(本文定义为L_feature)。

L₁ loss定义如下：

为了在训练中就预防抖动的发生，引入了前后帧的防止抖动loss初步预防视频抖动的产生，loss如下：

同时，使用基于perceptual loss损失函数作为图像细节优化的损失，损失函数为：

其中，j表示网络的第j层，C_jH_jW_j表示第j层特征图的大小。损失网络使用在ImageNet上训练好的网络，用φ_j表示网络第j层。

最终的loss如下：

L_total＝α*L₁+β*L_pn+γ*L_feature (6)

其中，α、β、γ分别取为0.7、0.29、0.01。

优选的，在本实施例中，网络模型训练采用两阶段训练策略：

将原始低清视频帧分别作为两个网络的输入，其中第一阶段将训练图像噪声掩码生成网络，当网络收敛时，固定住该网络的参数，开始第二阶段视频去噪网络的训练。每一阶段的训练过程被分为预设的多个子训练周期，采用步进增长策略依次进行子训练周期的训练；训练开始时将原始图像缩放成小图片并佐以大学习率开始训练，且每完成一个子训练周期后逐步增大彩色原始图像并逐步减小学习率；

当完成一个子训练周期后生成的彩色视频帧与其对应的原始彩色视频帧比较时没有获得预先设定的重建效果，则继续进行反向传播，利用梯度下降优化算法更新卷积权值参数和偏置参数再执行步骤3；当在完成一个子训练周期后生成的视频帧yuv值达到预期或完成所有预设的子训练周期的次数后，则获得最终结果。

本领域内的技术人员应明白，本申请的实施例可提供为方法、系统、或计算机程序产品。因此，本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本申请是参照根据本申请实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

以上所述，仅是本发明的较佳实施例而已，并非是对本发明作其它形式的限制，任何熟悉本专业的技术人员可能利用上述揭示的技术内容加以变更或改型为等同变化的等效实施例。但是凡是未脱离本发明技术方案内容,依据本发明的技术实质对以上实施例所作的任何简单修改、等同变化与改型，仍属于本发明技术方案的保护范围。

Claims

1.一种基于掩码检测的多帧图像融合的视频图像去噪方法，其特征在于，包括以下步骤：

步骤S1：采集彩色视频图像作为目标视频集，并进行退化处理，得到对应的退化视频集；

步骤S2：对两个视频集进行抽取yuv视频帧，得到yuv视频帧图像，并预处理，得到高清图像数据集和退化图像数据集，作为训练数据集；

步骤S3：将训练数据集裁剪为图像块；

步骤S4：构建图像噪声掩码生成网络，并获取图像噪声的掩码；

步骤S5：构建视频图像去噪网络，并基于高清图像、退化图像和图像噪声的掩码训练，得到去噪结果。

2.根据权利要求1所述的基于掩码检测的多帧图像融合的视频图像去噪方法，其特征在于，所述步骤S1具体为：

步骤S11：采集彩色视频图像作为目标视频集；

步骤S12：进行退化处理，增加ISO噪声、椒盐噪声、压缩噪声得到对应的包含噪声的退化视频集。

3.根据权利要求1所述的基于掩码检测的多帧图像融合的视频图像去噪方法，其特征在于，所述步骤S2具体为：

步骤S21：对两个视频集进行抽取yuv视频帧，得到yuv视频帧图像；

步骤S22：对得到的得到yuv视频帧图像进行随机旋转和翻转，得到增广帧数据，并以匹配数据对的方式进行存储，作为深度学习的训练数据集。

4.根据权利要求1所述的基于掩码检测的多帧图像融合的视频图像去噪方法，其特征在于，所述图像噪声掩码生成网络基于U-net[3]的结构，核心网络中特征提取阶段由16个卷积模块组成，每个卷积模块包括一个卷积层，和一个ReLU激活函数，其中一个大卷积块的计算公式是：

F_n＝R{W_n*F_n-1+B_n} (1)

经过16个卷积模块之后，噪声检测网络最终输出为一张视频噪声的掩码N_mask，宽高与输入视频相同，每个像素位于在(0，1)之间，反映噪声强度，值越大噪声强度越高。

5.根据权利要求4所述的基于掩码检测的多帧图像融合的视频图像去噪方法，其特征在于，所述图像噪声掩码生成网络获取图像噪声的掩码N_noise的网络loss为L₁：

L₁＝λ₁*||mean(N_mask)-θ||²+λ₂*||V_g-V_n||² (2)

其中，mean(N_noise)为取掩码N_noise的均值。

6.根据权利要求1所述的基于掩码检测的多帧图像融合的视频图像去噪方法，其特征在于，所述视频图像去噪网络由4个去噪模块组成，每个去噪模块，采用3个视频帧作为输入，并经过16个卷积模块的运算处理；获得每个模块对应的去噪结果；并最终由前三个模块的输出结果，汇总到一个卷积模块，输出最后的去噪结果。

7.根据权利要求6所述的基于掩码检测的多帧图像融合的视频图像去噪方法，其特征在于，所述视频图像去噪网络采用了同时能够保留原始图像信息和关注保留图像细节的loss，包括L₁ loss、前后帧联合防抖L_pn loss与perceptual loss，具体如下：

最终的loss如下：

L_total＝α*L₁+β*L_pn+γ*L_feature (6)

其中，α、β、γ为预设值。