CN113099121B

CN113099121B - 一种基于弱监督学习的isp实现方法

Info

Publication number: CN113099121B
Application number: CN202110403165.3A
Authority: CN
Inventors: 周艳辉; 魏雅静; 葛晨阳
Original assignee: Xian Jiaotong University
Current assignee: Xian Jiaotong University
Priority date: 2021-04-15
Filing date: 2021-04-15
Publication date: 2022-05-06
Anticipated expiration: 2041-04-15
Also published as: CN113099121A

Abstract

一种基于弱监督深度学习的ISP实现方法，其包括如下步骤：S100：原始RAW图像采集及去马赛克处理，得到去马赛克后的图像；S200：将所述去马赛克处理后的图像进行亮度自适应调整，得到亮度调整后的图像；S300：网络模型的参数设定并初始化；S400：生成器G根据所述亮度调整后的图像生成预测高清RGB图像；S500：反向生成器F根据所述预测高清RGB图像生成预测输入图像，进而调整生成器G的参数；S600：将所述预测高清RGB图像和目标高清R6B图像同时输入判别器，利用判别器的反馈去调整生成器G的参数。

Description

一种基于弱监督学习的ISP实现方法

技术领域

本公开属于图像处理技术、计算机视觉技术领域，特别涉及一种基于弱监督深度学习的ISP实现方法。

背景技术

ISP(Image Signal Processing)即图像信号处理，特指对从CMOS传感器中输出的数字图像数据进行后期处理，经校正和增强，在色彩、亮度及清晰度等方面得到更加接近现实中人眼所看到的高清真实图像。传统拍摄设备中的ISP都是使用一种专用数字集成电路，且ISP作为拍摄设备的核心部分，承担着拍摄过程中的各种图像处理功能。因此ISP的质量在很大程度上决定了摄像机的成像质量。

自2010年以来，开始出现适用于移动拍摄设备的，可以重建高质量图像的强大ISP，因此，从那时起，以智能手机为代表的移动拍摄设备得到的照片分辨率和质量都在不断提高，且在手机中使用高分辨率的拍照系统也越来越受大众欢迎。随之出现的是应用于各行各业的高质量拍摄设备，包括视频监视器、无人车驾驶的视觉传感器，而这些拍摄设备获得更清晰、真实的图像都需要强大的ISP的支持。但由于设备的成本及空间限制，使用专用集成电路实现图像信号处理ISP的传统方法在像素大小和光学成像质量等方面都会受到硬件系统质量的限制。因此若能够基于深度神经网络实现ISP代替传统硬件方法，在镜头和传感器固定的情况下，就能够节省设备的空间和成本，而得到与原始相机质量相当甚至更高质量的图像，使用合适的深度神经网络模型可以代替任意一个复杂的完整ISP管道。

目前大多数基于深度学习实现ISP的方法都是基于强监督学习且使用单一的卷积神经网络(CNNs)。强监督学习需要逐像素对齐的图像对进行网络训练，而由于ISP的处理效果与图像传感器参数有很大关系，因此强监督学习方法对每一个拍摄设备都需要采集大量的对照数据集，耗时耗力，且生成图像质量受限于相机ISP处理之后的RGB图像质量。

发明内容

为了解决上述问题，本公开提供了一种基于弱监督深度学习的ISP实现方法，其包括如下步骤：

S100：原始RAW图像采集及去马赛克处理，得到去马赛克后的图像；

S200：将所述去马赛克处理后的图像进行亮度自适应调整，得到亮度调整后的图像；

S300：网络模型的参数设定并初始化；

S400：生成器G根据所述亮度调整后的图像生成预测高清RGB图像；

S500：反向生成器F根据所述预测高清RGB图像生成预测输入图像，进而调整生成器G的参数；

S600：将所述预测高清RGB图像和目标高清RGB图像同时输入判别器，利用判别器的反馈去调整生成器G的参数。

上述方案用深度学习的方法代替传统集成电路实现ISP的方法，节省了拍摄设备的空间和成本。相比于现有的使用单一卷积神经网络的强监督学习方法实现ISP，本方法基于生成对抗网络，使生成的RGB图像更加接近真实的高质量RGB图像。并采用弱监督学习的方法，大大降低了数据集采集的难度。在进行网络训练之前，对RAW图像进行去马赛克及亮度自适应调整来降低网络训练的难度，将需要映射的图像对之间的对应关系尽可能地简单化，从而使网络更加稳定。

相较于现有的ISP实现方法，本方案的有益效果如下：

目前大多数基于深度学习实现ISP的方法都是基于传统的单一卷积神经网络模型，且均基于强监督学习，即需要大量逐像素对齐的图像对，来进行网络训练，因此数据采集及后期对齐处理均需要耗费大量的精力和时间。且生成的RGB图像质量受限于设备本身的ISP。本方法使用弱监督学习方法进行网络训练可以大大降低数据采集的难度，对于特定的图像传感器，只需采集RAW数据即可，并以高质量的开源RGB图像集作为学习目标来训练网络模型。本方法选用生成对抗网络(GANs)模型来实现ISP，具体的，生成对抗网络包括生成器G和反向生成器F，两个判别器D_c和D_t。本方法利用一个反向生成网络将生成图像映射回输入图像空间，并不断缩小真实输入图像与预测输入图像之间的内容差来保证生成图像与输入图像的内容一致性。并使用两个判别器来学习目标图像集的色彩、亮度及纹理特性。因此若选择的目标图像集质量足够高，网络生成的RGB图像质量很有可能会超过设备本身拍摄得到的RGB高清图像。

附图说明

图1是本公开一个实施例中所提供的一种基于弱监督深度学习的ISP实现方法流程图；

图2是本公开一个实施例中所提供的一种基于弱监督深度学习的ISP实现方法预处理算法及网络结构图；

图3是本公开一个实施例中生成器G和反向生成器F的网络结构图；

图4是本公开一个实施例中判别器的网络结构图。

具体实施方式

在一个实施例中，如图1所示，本公开提供了一种基于弱监督深度学习的ISP实现方法，其包括如下步骤：

S300：网络模型的参数设定并初始化；

就该实施例而言，采用深度学习方法来代替传统集成电路方法实现ISP，节省拍摄设备的空间和成本，特别地针对ISP实现过程中需要匹配不同图像传感器的个性化特征，使用弱监督学习的方法来降低采集数据集的难度。本方法的模型训练只需要两个单独的能够代表各自域的数据集：一个原始RAW域图像集，一个高质量的RGB图像集，此RGB图像集可以是任意与原始RAW域不相关的图像集。为将RAW域图像更好地映射到RGB域，本方法采用GAN网络，损失函数结合了色彩、纹理及内容三个方面来模拟ISP在色彩、亮度及清晰度三个方面的校正和增强，使网络生成的图像最大限度地接近高质量的RGB图像。

整体方法可分为两个部分：1、对采集到的RAW图像集X进行预处理，得到网络的输入图像集Y。2、以Y和目标高清RGB图像集Z为网络的输入，训练网络模型。该方法中详细的预处理算法及网络框架结构如图2所示。

在另一个实施例中，步骤S100进一步包括：

S101：利用摄像头采集原始RAW图像；

S102：将单通道RAW图像利用双线性插值算法去马赛克，得到去马赛克后的RGB三通道图像。

就该实施例而言，RAW图像采集及去马赛克处理，利用仅安装有镜头和图像传感器的摄像头采集原始RAW图像x∈X。为使网络更易于训练，更快地收敛，即网络不必判断RAW图像的每个像素点属于哪个通道，首先将单通道RAW图像利用双线性插值算法去马赛克，得到去马赛克后的RGB三通道图像。

本方法选用双线性插值算法对RAW图像进行去马赛克。具体来说就是对RAW图像中每个像素点所缺失的其余两个通道的像素值利用其周围像素点在该通道的值取平均之后进行补全，得到三通道的RGB图像。使网络在训练的过程中无需判断通道之间的对应关系。

在另一个实施例中，步骤S200进一步包括：

将所得到的去马赛克后的RGB三通道图像转换到HSV空间进行亮度自适应调整，得到亮度调整后的图像。

就该实施例而言，亮度自适应调整，根据RAW域图像与ISP处理后的图像亮度差距过大(曝光失衡)，导致图像整体过亮或者过暗的现象的特点，将步骤S100得到的RGB图像转换到HSV空间进行亮度自适应调整，亮度调整后的图像记为y∈Y。

将RGB图像转换到HSV空间，根据图像的明度值的平均值及HSV空间的图像直方图判断图像亮度属于过暗、过亮或者适中，之后将过暗或者过亮的图像整体拉到一个合适的明度值区间，从而完成简单的自适应亮度调节。这两个图像预处理的步骤都是为了降低网络训练的难度，将需要映射的图像对之间的对应关系尽可能地简单化，从而使网络更加稳定。

在另一个实施例中，步骤S300进一步包括：

设定并初始化网络模型的各个参数，所述网络模型包括生成器G、反向生成器F、判别器Dc和判别器Dt。

就该实施例而言，设定并初始化网络模型(两个生成器和两个判别器)的各个参数，包括输入图像的尺寸大小设定为100*100，学习率设为0.0001，Batch_size设为50，参数共迭代15000次。

在另一个实施例中，步骤400进一步包括：

将亮度调整后的图像输入到生成器G，由生成器G映射得到预测高清RGB图像，其中，所述生成器G的主体结构采用3个密集连接的残差块来提取特征。

就该实施例而言，生成器G生成预测图像，将预处理后的图像y∈Y输入到生成器G，由生成器G映射得到生成的高清RGB图像

特别地，生成器的主体结构采用3个密集连接的残差块(简称残差块)来提取特征，每个残差块的输出都融合了上一个残差块的输出特征及当前残差块的每一个卷积层的输出特征，这些局部特征均通过一个1*1的卷积层来进行局部特征融合，一方面可以充分利用每一层特征图，另一方面又可以通过特征融合来减少每个残差块输出特征的数量，避免随着层数加深，网络变得难以训练。

在另一个实施例中，步骤500进一步包括：

S501：将所述生成器G生成的预测高清RGB图像作为反向生成器F的输入，由所述反向生成器F映射到输入图像空间得到预测输入图像；

S502：在输入图像空间将亮度调整后的图像和所述预测输入图像同时输入到VGG-19网络中，计算两幅图像在某一卷积层之后得到的特征图之间的欧氏距离来衡量这两幅图像之间的相似性；

S503：通过损失函数的设计，使生成器G的参数向着所述两幅图像之间欧氏距离减小的方向调整。

就该实施例而言，反向生成器F生成预测输入图像，将生成的高清RGB图像

作为反向生成器F的输入，由F映射到输入图像空间得到预测的输入图像

并在输入图像空间将y和

同时输入到VGG-19网络中，计算两幅图像在某一卷积层之后得到的特征图之间的欧氏距离来衡量预测的输入图像

在内容上与真实输入图像y之间的相似性。并通过损失函数的设计，使生成器G的参数向着y和

之间欧氏距离减小的方向调整。

生成器G从Y映射到

后，反向生成器F从Z映射回

如图2所示，其中Z为目标高清RGB图像集。通过将生成图像映射回输入图像空间计算其与真实输入图像的差距来保证内容一致性，且相比于逐像素比较，图像经过卷积网络之后的特征图差异更能代表图像内容之间的差异。因此，将y和

同时输入VGG-19网络得到某一卷积层之后的特征图来衡量生成图像与原始图像的内容一致性。即基于感知内容损失来衡量y和

之间的内容差异，具体定义为真实图像与预测输入图像的特征图之间的l₂范数即两个特征图之间的欧氏距离，内容损失函数如下式：

其中，ψ_j(y)表示图像y通过VGG-19网络的第j个卷积层之后得到的特征图，C_j、H_j、W_j分别是特征图的个数，高度和宽度；两个图像特征图之间l₂范数定义为他们之间空间距离的大小，进而可以衡量两个特征图之间的相似性。

在另一个实施例中，步骤S600进一步包括：

S601：对所述预测高清RGB图像以及真实的目标高清RGB图像执行以下两步操作：

第一、将两幅图像分别与一个特定的高斯核卷积进行模糊化处理，之后同时输入到判别器D_c中，进行映射之后从颜色、亮度的角度判断输入的图像是否为真实ISP处理后的高清RGB图像；

第二、将两幅图像分别转换至灰度空间后同时输入到判别器D_t中，从图像纹理的角度判断是否为真实ISP处理后的高清RGB图像；

S602：判别器D_c和判别器D_t会将需要调整的参数反馈给生成器G，使生成器G能够生成在色彩、亮度及纹理方面更加接近真实的目标高清RGB图像的预测图像。

就该实施例而言，利用判别器学习目标RGB图像特性，对步骤S400生成的预测高清RGB图像

以及真实的高清RGB图像z∈Z执行两步操作。从而，两个判别器会将生成RGB图像中需要调整的参数反馈给生成器G，使生成器G能够生成在色彩、亮度及纹理方面更加接近真实高清RGB图像的预测图像。

首先根据原始生成对抗网络的理论可知，生成网络的参数更新不直接来自于样本，而是在与判别器的博弈过程中，接收到来自判别器的反馈去调整生成器的参数。理想状态下，生成器最终将学习到真实样本的分布和特性。因此，利用生成对抗网络的这一特点，设计两个判别器分别学习目标高清RGB图像的色彩、亮度和纹理分布特性。D_c根据图像的色彩、亮度、对比度来区分生成图像

和目标图像z，而D_t根据图像纹理水平来区别

和z。因此，利用两个判别网络确保生成图像

在色彩和纹理两个方面与目标图像属于同一水平。

在另一个实施例中，所述生成器G和反向生成器F的网络结构包括：第一层卷积核大小为9*9；然后是3个密集连接残差块，其中每个残差块由三个卷积核大小为3*3卷积层组成，且每个卷积层之后都有BN层，每个残差块的输出，由一个1*1的卷积层对上一个残差块的输出及当前残差块的每一层输出进行局部特征融合之后得到；在残差块之后，使用三个卷积核大小为9*9的额外卷积层。

就该实施例而言，图3为生成器G和反向生成器F的网络结构图，本发明所使用的图像转换网络均是完全卷积的。生成器网络中的所有卷积层都有64个通道，且除最后一层使用Tanh函数之外，其他层都使用ReLU激活函数。

在另一个实施例中，所述判别器的网络结构包括：每个判别器由五个卷积层组成，每一层之后都有批归一化层并且都使用LeakyReLU激活函数；第一、第二和第五个卷积层步长分别为4、2和2；最后一层为包含1024个神经元的全连接层，使用sigmoid激活函数。

就该实施例而言，图4为判别器D_c和D_t的网络结构图，最后一层为包含1024个神经元的全连接层，使用sigmoid激活函数，并产生输入图像是真实高清RGB图像的概率。

为使预测高清RGB图像与目标高清RGB图像有相似的色彩、亮度分布特性，同时忽略图像等高频成分的差异，在输入判别器D_c之前，用高斯核与预测高清RGB图像

和Z进行卷积得到模糊后的两幅图像。高斯模糊核与图像的卷积操作如下式：

其中，z_b表示与高斯模糊核卷积之后的图像，z为待卷积的原图像，k，l分别代表图像的宽度和高度，

表示二维高斯模糊核，其中，A为幅值，μ_x，μ_y分别为水平核竖直方向上的均值，σ_x，σ_y分别为水平和竖直方向的方差，且σ取保证纹理和内容被忽略的最小值。

利用判别器D_c区分模糊后的生成图像和目标高清RGB图像，损失函数定义为原始GAN网络训练中使用的标准生成器损失：

其中，i表示每个batch中的第i个预测高清RGB图像，G(y)_b表示的是判别器接收的图像是预测高清RGB图像经过高斯模糊后的图像，最小化该式的目的在于使生成的图像在色彩方面尽可能接近于目标高清RGB图像。

图像纹理特征由对抗网络判别器D_t进行学习。首先将预测高清RGB图像

与目标高清RGB图像z转换至灰度空间，从而专注于纹理特征。训练判断输入的图像是预测高清RGB图像

还是真正的目标高清RGB图像。最小化如下式中的纹理损失可以促使生成器产生的图像在纹理特征方面与目标图像更接近：

其中G(y)_g表示的是判别器接受的图像是预测高清RGB图像的灰度图。

最终，将三个损失函数加权组合为一个总的损失函数，训练过程中采用Adam随机梯度下降修正算法，以0.0001的学习速率优化网络参数，得到优化后的网络模型。总损失函数如下式：

l＝w₁l_content+w₂l_color+w₃l_texture

其中，w₁，w₂，w₃分别表示内容、颜色、纹理损失的权重。

尽管以上结合附图对本发明的实施方案进行了描述，但本发明并不局限于上述的具体实施方案和应用领域，上述的具体实施方案仅仅是示意性的、指导性的，而不是限制性的。本领域的普通技术人员在本说明书的启示下和在不脱离本发明权利要求所保护的范围的情况下，还可以做出很多种的形式，这些均属于本发明保护之列。

Claims

1.一种基于弱监督深度学习的ISP实现方法，其包括如下步骤：

S300：网络模型的参数设定并初始化；

S600：将所述预测高清RGB图像和目标高清RGB图像同时输入判别器，利用判别器的反馈去调整生成器G的参数；

步骤S300进一步包括：

设定并初始化网络模型的各个参数，所述网络模型是包括生成器G、反向生成器F、判别器D_c和判别器D_t的对抗网络。

2.根据权利要求1所述的方法，步骤S100进一步包括：

S101：利用摄像头采集原始RAW图像；

3.根据权利要求1所述的方法，步骤S200进一步包括：

4.根据权利要求1所述的方法，步骤400进一步包括：

5.根据权利要求1所述的方法，步骤500进一步包括：

S502：将亮度调整后的图像和所述预测输入图像同时输入到VGG-19网络中，计算两幅图像在某一卷积层之后得到的特征图之间的欧氏距离来衡量这两幅图像之间的相似性；

6.根据权利要求1所述的方法，步骤S600进一步包括：

7.根据权利要求1所述的方法，所述生成器G和反向生成器F的网络结构包括：第一层卷积核大小为9*9；然后是3个密集连接残差块，其中每个残差块由三个卷积核大小为3*3卷积层组成，且每个卷积层之后都有BN层，每个残差块的输出，由一个1*1的卷积层对上一个残差块的输出及当前残差块的每一层输出进行局部特征融合之后得到；在残差块之后，使用两个额外的卷积层，卷积核大小分别为3*3和9*9。

8.根据权利要求1所述的方法，所述判别器的网络结构包括：每个判别器由五个卷积层组成，每一层之后都有批归一化层并且都使用LeakyReLU激活函数；第一、第二和第五个卷积层步长分别为4、2和2；最后一层为包含1024个神经元的全连接层，使用sigmoid激活函数。