CN111127336B

CN111127336B - 一种基于自适应选择模块的图像信号处理方法

Info

Publication number: CN111127336B
Application number: CN201911129305.1A
Authority: CN
Inventors: 颜波; 王峻逸; 王沛晟; 李昂
Original assignee: Fudan University
Current assignee: Fudan University
Priority date: 2019-11-18
Filing date: 2019-11-18
Publication date: 2023-05-02
Anticipated expiration: 2039-11-18
Also published as: CN111127336A

Abstract

本发明属于数字图像处理技术领域，具体为一种基于自适应选择模块的图像信号处理方法。本发明方法包括：建立多任务RAW图像数据集；根据元数据对RAW图像预处理，包括：将单通道的RAW图像重排列为图像尺寸减半三RGBG四个通道，黑电平矫正和归一化；训练ISP深度神经网络；训练去噪声、去运动模糊处理模块，去除噪声、运动模糊；结合各处理模块训练注意力选择模块；ISP网络是端到端网络，测试时将预处理后的RAW图像载入，即可生成RGB图像。实验表明，本发明可以在单个深度神经网络中自适应地选择处理模块以应对包含不同类型失真的复杂情况，从而生成高质量的RGB图像。

Description

一种基于自适应选择模块的图像信号处理方法

技术领域

本发明属于数字图像处理技术领域，具体涉及一种图像信号处理方法。

背景技术

由相机传感器转化成数字信号存储，单通道、12或14位深的照片原始数据称为RAW图像。集成在硬件中的图像信号处理器(Image Signal Processor，简称ISP)通过一系列图像处理操作，将RAW图像转为我们最终看到的RGB图像。主要的图像处理操作有去马赛克(四通道、尺寸减半的RAW图像到三通道、原尺寸的输出)、白平衡(去除环境光影响恢复真实色彩)和色彩空间转换(相机RGB空间到sRGB空间)等。

近年来，随着深度学习的快速发展，尝试用深度神经网络取代硬件实现ISP的工作取得了一定进展：Chen等人提出了一个用于RAW图像暗光增强和去噪的网络SID^[2]，相比处理丢失大量信息并严重受到错误白平衡干扰的RGB图像，取得了更好的视觉效果；Schwartz等人提出了一个ISP网络DeepISP^[3]，采用双线性插值直接放大尺寸减半的RAW图像，之后分两路分别学习图像细节的恢复和全局变换方式的色彩校正。

现有方法均存在一定缺陷：SID仅使用一个简单的U-Net网络结构实现所有的ISP功能，视觉效果并不理想；DeepISP处理插值放大的RAW图像对显存需求过高，并且全局方式的色彩校正会产生伪影和错误色彩。另外，两者每次都使用同一相机型号拍摄的RAW图像数据集训练网络，忽略了不同相机RGB色彩空间之间的区别，泛化性能有限。

噪声和运动模糊通常在ISP将RAW图像转为RGB图像后进行处理，这会使两者的数学建模发生变化，增加处理难度。Brooks等人提出了一个算法^[4]来模拟逆向的ISP，将RGB图像转回RAW图像之后添加高斯噪声，使用这些合成数据训练的去噪网络取得了更好的效果。然而，算法模拟的逆向ISP难以还原真实的RAW图像，仍然不符合现实情况。

而去模糊任务目前通用的合成带模糊图像方式是对高速相机拍摄的数张清晰RGB图像取平均，如Zhang等人提出的网络DMPHN^[5]。事实上，景物的运动在被相机传感器捕捉到时会存储在原始数据中，经ISP处理后运动模糊的性质发生通道相关的改变，所以在RGB图像上简单取平均的合成方式也不符合现实情况。

发明内容

本发明的目的在于提供一种基于自适应选择模块的图像信号处理方法，以克服现有技术的不足。

本发明提供的基于自适应选择模块的图像信号处理方法，主要有以下几个贡献：一是通过深度神经网络，实现比传统算法更高效、视觉效果更好的RAW图像信号处理；二是在图像信号处理过程中完成去噪和去运动模糊任务，相比基于RGB图像的方法更符合现实情况；三是通过注意力选择模块，在单个深度神经网络中自适应地选择处理模块以应对包含不同类型失真的复杂情况。

本发明提供的基于自适应选择模块的图像信号处理方法，具体步骤如下。

(一)建立多任务RAW图像数据集

本发明在FiveK图像数据集的基础上建立了一个多任务RAW图像数据集，其中每张RAW图像对应一张人工处理得到的RGB图像作为参考图像，并在原始数据上添加噪声或运动模糊。

依据泊松-高斯噪声模型，本发明添加噪声的计算方式如下：

其中，I是输入RAW图像，I_noise是添加噪声后的RAW图像，σ_s是服从正态分布的信号相关高斯噪声的标准差，σ_c是服从正态分布的随机高斯噪声的标准差。本发明中，σ_s和σ_c取值均为0.02。因为直接添加在原始数据上，ISP处理后会自然形成通道相关且放大的噪声建模，更符合现实情况。

本发明添加运动模糊的计算方式如下：

其中，I_blur是添加运动模糊后的RAW图像，

是分通道卷积操作，K_blur是随机绘制运动轨迹归一化得到的kxk大小的运动模糊核。本发明中，k取值为32。因为添加在尺寸减半的原始数据上，ISP处理后会自然形成通道相关且放大的模糊建模，与现实的相机抖动更加接近。

(二)根据元数据对RAW图像预处理

从RAW元数据中读取相机滤色器的色彩排列方式和相机型号，找到对应的黑电平值。预处理过程包括：将单通道的RAW图像重排列为RGBG四个通道(图像尺寸减半)，黑电平矫正和归一化。

考虑滤色器采用Bayer阵列的相机，其色彩排列方式可能存在以下四种：RGBG、GRGB、BGRG和GBGR。本发明中通过删除第一行或第一列，确保所有输入RAW图像的色彩排列方式统一为RGBG，避免在通道重排列时发生错乱。

黑电平矫正和归一化的计算方式如下：

其中，I_norm是归一化到[0,1]的RAW图像，b是相机型号对应的黑电平值，m是RAW图像位深对应的像素最大值。

(三)训练ISP深度神经网络

将预处理后的四通道、尺寸减半的RAW图像载入ISP网络，通过深度神经网络生成三通道、原尺寸的RGB图像。本发明中，不考虑噪声和运动模糊的常规ISP网络由4个编码模块、4个译码模块和1个核预测上采样模块组成。编码模块利用一个步长为2的3x3卷积层从上一模块中提取特征，后接一个3x3卷积层作为常规处理模块。译码模块利用一个2x2反卷积层和特征图拼接从上一模块中还原低级特征，同样后接一个常规处理模块。较小尺度的编码模块和译码模块额外包含一个用来获得全局感受野的池化Non-Local模块。核预测上采样模块为每个像素预测一个单独的卷积核，生成三通道、原尺寸的输出图像。

本发明中，训练常规ISP网络使用的损失函数如下：

L＝L₁+0.5*L_ssim

其中，L₁是L1距离损失，L_ssim是基于评价指标MSSSIM的结构相似性损失，L是两者加权组成的完整的常规ISP网络损失函数。

本发明中，池化Non-Local模块中，工作的具体步骤如下：

1：输入通过一个1x1卷积层，输出张量的形状为N*C*H*W，调整为NHW*C；

2：输入通过第二个1x1卷积层，输出张量的形状为N*C*H*W；

3：和常规Non-Local模块不同，对步骤2输出分别采用一个自适应最大值池化和一个自适应均值池化并求和，目的为加快运算速度和减少显存占用。再通过一个1x1卷积层，输出张量的形状固定为N*C*16*16，调整为C*256N；

4：对步骤1和步骤3输出做矩阵相乘，输出张量的形状为NHW*256N；

5：对步骤4输出采用softmax操作，作为步骤6输出的空间注意力系数；

6：输入通过第三个1x1卷积层，输出张量的形状为N*C*H*W，和步骤3一样采用自适应池化和1x1卷积，输出张量的形状调整为256N*C；

7：对步骤5和步骤6输出做矩阵相乘，再通过一个1x1卷积层，输出张量的形状调整回N*C*H*W，与输入求和。这里相当于获得了全局的感受野。

本发明中，核预测上采样模块中，工作的具体步骤如下：

1：最后一个译码模块的输出通过一个3x3卷积层，输出张量的形状为N*36*H*W；

2：对步骤1输出采用PixelShuffle上采样，输出张量的形状为N*9*2H*2W；

3：对步骤2输出采用softmax操作，其9个通道即为预测的每个像素的卷积核；

4：最后一个译码模块的输出通过另一个1x1卷积层，输出张量的形状为N*3*H*W；

5：对步骤4输出采用最近邻上采样，输出张量的形状为N*3*2H*2W；

6：对步骤5输出采用3x3的unfold滑窗操作，输出张量的形状为N*3*9*2H*2W，其维度2的9个通道即为每个像素3x3邻域的像素值；

7：使用步骤3输出作为卷积核对步骤6输出卷积，输出张量的形状为N*3*2H*2W。

(四)训练去噪声模块、去运动模糊处理模块

噪声和运动模糊通常在ISP将RAW图像转为RGB图像后进行处理，这会使两者的数学建模复杂化，应尝试在图像信号处理过程中完成去噪和去模糊任务。无论是否存在失真，去马赛克、白平衡和色彩空间转换都是图像信号处理的必需功能，因此本发明中冻结上一步骤训练的常规ISP网络除处理模块和核预测上采样模块外所有参数(即对于不同任务，共享这部分参数)，将常规处理模块替换为去噪处理模块或去模糊处理模块进行训练。去噪处理模块和去模糊处理模块都是由两个3x3卷积层和一个PReLU激活函数组成的残差单元。由于运动模糊图像普遍存在非像素级对齐的问题，本发明中使用非对齐损失函数训练。

训练去噪处理模块使用的损失函数和常规ISP网络相同，而训练去模糊处理模块使用的非对齐损失函数，具体步骤如下：

1：将生成RGB图像I和参考图像GT分别载入训练好的VGG-16网络，提取两者在“conv1_2”层和“conv2_2”层的特征图，自适应池化到64x64大小；

2：步骤1输出张量的形状为N*C*64*64，调整为4096N*C，视作4096N个C维向量。定义提取自I的向量x和提取自GT的向量y的距离为两者的余弦距离加其坐标的L2距离：

3：对步骤2输出依次正则化、指数化和归一化，与L₁损失加权(目的为减少只使用VGG提取特征计算损失函数产生的伪纹理)组成完整的非对齐损失函数：

(五)结合各处理模块训练注意力选择模块

本发明中ISP网络共享部分参数，仅在针对不同任务训练的处理模块和核预测上采样模块有所区别。为实现在单个网络中自适应地选择处理模块以应对包含不同类型失真的复杂情况，每组处理模块后接一个注意力选择模块为三者输出计算通道注意力系数，其中对应通道的系数和为1。训练策略为先冻结其他参数，仅对注意力选择模块和核预测上采样模块进行训练，之后再用较小的学习率微调ISP网络的所有参数。

本发明中，训练注意力选择模块的具体步骤如下：

1：常规处理模块、去噪处理模块和去模糊处理模块的输出分别通过一个1x1卷积层并求和，输出张量的形状为N*C*H*W；

2：对步骤1输出采用一个全局均值池化，输出张量的形状为N*C*1*1；

3：步骤2输出通过两个1x1卷积层，输出张量的形状为N*3C*1*1；

4：对步骤3输出采用softmax操作，得到为三个模块预测的通道注意力系数；

5：使用步骤4输出的系数对三个模块的输出加权求和，输出张量的形状为N*C*H*W。

训练注意力选择模块和微调全部参数使用的损失函数和去模糊处理模块相同。本发明的ISP网络是一个端到端网络，测试时将预处理后的RAW图像载入，即可生成RGB图像。

本发明的有益效果在于：一是通过使用池化Non-Local模块和核预测上采样模块的深度神经网络，实现比传统算法更高效、视觉效果更好的RAW图像信号处理；二是在图像信号处理过程中使用相应的处理模块完成去噪和去运动模糊任务，相比基于RGB图像的方法更符合现实情况；三是通过注意力选择模块，在单个深度神经网络中自适应地选择处理模块以应对包含不同类型失真的复杂情况。实验结果表明，本发明可以生成高质量的RGB图像。

附图说明

图1为本发明的深度神经网络结构图。

图2为本发明的池化Non-Local模块结构图。

图3为本发明的注意力选择模块结构图。

图4为本发明处理常规RAW图像的效果图。

图5为本发明处理带噪声RAW图像的效果图。

图6为本发明处理带运动模糊RAW图像的效果图。

具体实施方式

对于一张可能包含噪声或运动模糊的RAW图像，需要生成RGB图像，可以采用图1所示的深度神经网络进行图像信号处理。

具体实施方法如下。

(1)建立多任务RAW图像数据集

本发明在FiveK数据集的基础上建立了一个多任务RAW图像数据集，其中每张RAW图像对应一张人工处理得到的RGB图像作为参考图像。在原始数据上分别添加噪声或运动模糊，相比在ISP处理后的RGB图像上添加，更符合现实情况。

(2)根据元数据对RAW图像预处理

从RAW元数据中读取相机传感器的色彩排列方式和相机型号，找到对应的黑电平值。预处理过程包括将单通道的RAW图像重排列为RGBG四个通道(图像尺寸减半)，黑电平矫正和归一化。

(3)训练ISP深度神经网络

将预处理后的四通道、尺寸减半的RAW图像载入ISP网络，通过深度神经网络生成三通道、原尺寸的RGB图像。本发明中，不考虑噪声和运动模糊的常规ISP网络由4个编码模块、4个译码模块和1个核预测上采样模块组成。编码模块利用一个步长为2的3x3卷积层从上一模块中提取特征，后接一个3x3卷积层作为常规处理模块。译码模块利用一个2x2反卷积层和特征图拼接从上一模块中还原低级特征，同样后接一个常规处理模块。较小尺度的编码模块和译码模块额外包含一个用来获得全局感受野的池化Non-Local模块。核预测上采样模块为每个像素预测一个单独的卷积核，生成三通道、原尺寸的最终输出图像。

(4)训练去噪声、去运动模糊处理模块

(5)结合各处理模块训练注意力选择模块

本发明中ISP网络共享部分参数，仅在针对不同任务训练的处理模块和核预测上采样模块有所区别。为实现在单个网络中自适应地选择处理模块以应对包含不同类型失真的复杂情况，每组处理模块后接一个注意力选择模块为三者的输出计算通道注意力系数，其中对应通道的系数和为1。训练策略为先冻结其他参数，仅对注意力选择模块和核预测上采样模块进行训练，之后再用较小的学习率微调ISP网络的所有参数。

本发明的ISP网络是一个端到端网络，测试时将预处理后的RAW图像载入，即可生成RGB图像。图4为本发明处理常规RAW图像和传统ISP算法DCRaw，以及现有深度学习方法SID^[2]和DeepISP^[3]的对比结果，其中深度学习方法均使用和本发明相同的训练数据集重新训练，保证了比较的公平性。图5为本发明处理带噪声RAW图像和现有方法的对比结果。图6为本发明处理带运动模糊RAW图像和现有方法的对比结果。可以看出，本发明无论是在常规、带噪声还是带运动模糊的RAW图像上，生成RGB图像的真实性和美观度都要优于DCRaw、SID^[2]和DeepISP^[3]。

参考文献

[1]V.Bychkovsky,S.Paris,E.Chan,and F.Durand,“Learningphotographicglobal tonal adjustment with a database of input/output imagepairs,”in IEEE Conference on Computer Vision and Pattern Recognition(CVPR),2011.

[2]C.Chen,Q.Chen,J.Xu and V.Koltun,“Learning to See in the Dark,”inIEEE Conference on Computer Vision and Pattern Recognition(CVPR),2018.

[3]E.Schwartz,R.Giryes and A.Bronstein,“DeepISP:Towards Learning anEnd-to-End Image Processing Pipeline”IEEE Transactions on Image Processing,2018.

[4]T.Brooks,B.Mildenhall,T.Xue,J.Chen,D.Sharlet,and J.Barron,“Unprocessing Images for Learned Raw Denoising”,in IEEE Conference onComputer Vision and Pattern Recognition(CVPR),2019.

[5]H.Zhang,Y.Dai,H.Li and P.Koniusz,“Deep Stacked Hierarchical Multi-patch Network for Image Deblurring”,in IEEE Conference on Computer Vision andPattern Recognition(CVPR),2019.。

Claims

1.一种基于自适应选择模块的图像信号处理方法，其特征在于，具体步骤如下：

(一)建立多任务RAW图像数据集

在用于图像增强任务的FiveK图像数据集基础上建立一个多任务RAW图像数据集，其中每张RAW图像对应一张人工处理得到的RGB图像作为参考图像；在原始数据上分别添加噪声或运动模糊；

(二)根据元数据对RAW图像预处理

从RAW元数据中读取相机传感器的色彩排列方式和相机型号，找到对应的黑电平值；预处理过程包括：将单通道的RAW图像重排列为图像尺寸减半三RGBG四个通道，黑电平矫正和归一化；

(三)训练ISP深度神经网络

将预处理后的四通道、尺寸减半的RAW图像载入ISP网络，通过深度神经网络生成三通道、原尺寸的RGB图像；其中，不考虑噪声和运动模糊的常规ISP网络由4个编码模块、4个译码模块和1个核预测上采样模块组成；编码模块利用一个步长为2的3x3卷积层从上一模块中提取特征，后接一个3x3卷积层作为常规处理模块；译码模块利用一个2x2反卷积层和特征图拼接从上一模块中还原低级特征，同样后接一个常规处理模块；较小尺度的编码模块和译码模块额外包含一个用来获得全局感受野的池化Non-Local模块；核预测上采样模块为每个像素预测一个单独的卷积核，生成三通道、原尺寸的输出图像；

(四)训练去噪声、去运动模糊处理模块

为了在图像信号处理过程中完成去噪和去模糊任务；冻结上一步骤训练的常规ISP网络除处理模块和核预测上采样模块外所有参数，将所述的常规处理模块替换为去噪处理模块或去模糊处理模块进行训练；去噪处理模块和去模糊处理模块都是由两个3x3卷积层和一个PReLU激活函数组成的残差单元；由于运动模糊图像普遍存在非像素级对齐的问题，训练中使用非对齐损失函数；

(五)结合各处理模块训练注意力选择模块

为实现在单个网络中自适应地选择处理模块以应对包含不同类型失真的复杂情况，每组处理模块后接一个注意力选择模块为三者输出计算通道注意力系数，其中对应通道的系数和为1；训练策略为先冻结其他参数，仅对注意力选择模块和核预测上采样模块进行训练，之后再用较小的学习率微调ISP网络的所有参数。

2.根据权利要求1所述的基于自适应选择模块的图像信号处理方法，其特征在于，步骤(一)中，所述在原始数据上添加噪声，依据泊松-高斯噪声模型，添加噪声的计算方式如下：

其中，I是输入RAW图像，I_noise是添加噪声后的RAW图像，σ_s是服从正态分布的信号相关高斯噪声的标准差，σ_c是服从正态分布的随机高斯噪声的标准差；

所述在原始数据上添加运动模糊，其计算方式如下：

其中，I_blur是添加运动模糊后的RAW图像，是分通道卷积操作，K_blur是随机绘制运动轨迹归一化得到的kxk大小的运动模糊核。

3.根据权利要求2所述的基于自适应选择模块的图像信号处理方法，其特征在于，步骤(二)中，所述将单通道的RAW图像重排列为图像尺寸减半三RGBG四个通道，是考虑滤色器采用Bayer阵列的相机，其色彩排列方式可能存在以下四种：RGBG、GRGB、BGRG和GBGR；故通过删除第一行或第一列，确保所有输入RAW图像的色彩排列方式统一为RGBG，避免在通道重排列时发生错乱；

所述黑电平矫正和归一化的计算方式如下：

4.根据权利要求3所述的基于自适应选择模块的图像信号处理方法，其特征在于，步骤(三)中，所述训练常规ISP网络使用的损失函数如下：

L＝L₁+0.5*L_ssim

其中，L₁是L1距离损失，L_ssim是基于评价指标MSSSIM的结构相似性损失，GT为参考图像，L是两者加权组成的完整的常规ISP网络损失函数。

5.根据权利要求4所述的基于自适应选择模块的图像信号处理方法，其特征在于，步骤(三)中，所述池化Non-Local模块中，工作的具体步骤如下：

(1)输入通过一个1x1卷积层，输出张量的形状为N*C*H*W，调整为NHW*C；

(2)输入通过第二个1x1卷积层，输出张量的形状为N*C*H*W；

(3)对步骤(2)输出分别采用一个自适应最大值池化和一个自适应均值池化并求和，以加快运算速度和减少显存占用；再通过一个1x1卷积层，输出张量的形状固定为N*C*16*16，调整为C*256N；

(4)对步骤(1)和步骤(3)输出做矩阵相乘，输出张量的形状为NHW*256N；

(5)对步骤(4)输出采用softmax操作，作为步骤(6)输出的空间注意力系数；

(6)输入通过第三个1x1卷积层，输出张量的形状为N*C*H*W，和步骤(3)一样采用自适应池化和1x1卷积，输出张量的形状调整为256N*C；

(7)对步骤(5)和步骤(6)输出做矩阵相乘，再通过一个1x1卷积层，输出张量的形状调整回N*C*H*W，与输入求和；这里相当于获得了全局的感受野。

6.根据权利要求5所述的基于自适应选择模块的图像信号处理方法，其特征在于，步骤(三)中，所述核预测上采样模块中，工作的具体步骤如下：

(1)最后一个译码模块的输出通过一个3x3卷积层，输出张量的形状为N*36*H*W；

(2)对步骤(1)输出采用PixelShuffle上采样，输出张量的形状为N*9*2H*2W；

(3)对步骤(2)输出采用softmax操作，其9个通道即为预测的每个像素的卷积核；

(4)最后一个译码模块的输出通过另一个1x1卷积层，输出张量的形状为N*3*H*W；

(5)对步骤(4)输出采用最近邻上采样，输出张量的形状为N*3*2H*2W；

(6)对步骤(5)输出采用3x3的unfold滑窗操作，输出张量的形状为N*3*9*2H*2W，其维度2的9个通道即为每个像素3x3邻域的像素值；

(7)使用步骤(3)输出作为卷积核对步骤(6)输出卷积，输出张量的形状为N*3*2H*2W。

7.根据权利要求6所述的基于自适应选择模块的图像信号处理方法，其特征在于，步骤(四)中，所述训练去模糊处理模块使用的非对齐损失函数，具体获取步骤如下：

(1)将生成RGB图像I和参考图像GT分别载入训练好的VGG-16网络，提取两者在“conv1_2”层和“conv2_2”层的特征图，自适应池化到64x64大小；

(2)步骤(1)输出张量的形状为N*C*64*64，调整为4096N*C，视作4096N个C维向量；定义提取自I的向量x和提取自GT的向量y的距离为两者的余弦距离加其坐标的L2距离：

(3)对步骤(2)输出依次正则化、指数化和归一化，与L₁损失加权，组成完整的非对齐损失函数：

L₁是L1距离损失。

8.根据权利要求1所述的基于自适应选择模块的图像信号处理方法，其特征在于，步骤(五)中，所述注意力选择模块的具体步骤如下：

(1)常规处理模块、去噪处理模块和去模糊处理模块的输出分别通过一个1x1卷积层并求和，输出张量的形状为N*C*H*W；

(2)对步骤(1)输出采用一个全局均值池化，输出张量的形状为N*C*1*1；

(3)步骤(2)输出通过两个1x1卷积层，输出张量的形状为N*3C*1*1；

(4)对步骤(3)输出采用softmax操作，得到为三个模块预测的通道注意力系数；

(5)使用步骤(4)输出的系数对三个模块的输出加权求和，输出张量的形状为N*C*H*W；

训练注意力选择模块和微调全部参数使用的损失函数和去模糊处理模块相同；

由于ISP网络是一个端到端网络，测试时将预处理后的RAW图像载入，即可生成RGB图像。