CN117058062B

CN117058062B - 一种基于逐层训练金字塔型网络的图像质量改善方法

Info

Publication number: CN117058062B
Application number: CN202311318730.1A
Authority: CN
Inventors: 李茄桦; 熊宁; 刘新; 张蕗昕
Original assignee: Shenzhen Dowse Electronics Co ltd
Current assignee: Shenzhen Dowse Electronics Co ltd
Priority date: 2023-10-12
Filing date: 2023-10-12
Publication date: 2024-03-26
Anticipated expiration: 2043-10-12
Also published as: CN117058062A

Abstract

本发明公开了一种基于逐层训练金字塔型网络的图像质量改善方法，属于图像信号处理技术领域。该方法构建了一种三层结构的金字塔型网络以及对应的全参考损失函数，在对网络进行训练时，提出一种逐层次训练的方式确定各层结构的全参考损失函数中权重系数，使得训练完成后的网络可以同时对去噪、纹理增强以及高动态范围取得较好的效果；作为相机整体图像信号处理流程中的一个环节，输入输出皆为原始格式图像，其他环节如白平衡、色彩校正、去马赛克等，依然采用传统方法。相比传统图像信号处理中的去噪算法而言，本发明方法去噪效果好，动态范围高，能有效改善图像质量，并且适应性强，在低照度场景下的成像效果依然显著。

Description

一种基于逐层训练金字塔型网络的图像质量改善方法

技术领域

本发明涉及一种基于逐层训练金字塔型网络的图像质量改善方法，属于图像信号处理技术领域。

背景技术

图像处理器（Image Signal Processor，ISP）是一种内置于相机中用于对镜头和传感器获得的原始RAW格式的图像进行处理的器件，ISP需要对原始RAW格式的图像进行黑电平校正、白平衡、颜色插值、颜色校正、伽马曲线应用等处理步骤后输出RGB格式图像。后续基于不同的应用需求再对RGB格式的图像进行进一步的处理。

近年来，深度学习技术在数字图像处理领域已经表现出比传统方法更优越的性能，但是如上所述，目前采用深度学习方法对图像进行进一步处理时通常是对经过相机的图像信号处理后的RGB格式图像进行处理，而对该RGB格式图像进行再处理时，由于图像已经进行处理过，因此对于去噪、纹理增强、高动态范围等图像处理任务而言，对RGB格式图像进行处理会破坏图像本来的噪声分布，使得色彩出现一定的偏差，并且会明显导致局部细节的模糊化。

而且现有采用深度学习网络对图像进行处理时只能针对单一任务得到较好的效果，但很多应用场景下需要对去噪、纹理增强、高动态范围等任务同时取得较好的效果，而现有用于图像处理的深度学习网络无法达到该要求。

发明内容

为了同时对去噪、纹理增强、高动态范围等任务取得较好的效果，本发明提供了一种基于逐层训练金字塔型网络的图像质量改善方法，包括以下步骤：

步骤1，构建三层结构的金字塔型网络模型；

步骤2，采集预定条件下的原始格式图像和RGB格式图像制作数据集；

步骤3，构建全参考损失函数并利用步骤2制作的数据集对步骤1构建的三层结构的金字塔型网络模型进行逐层次训练，以确定各层对应的具体损失函数；

步骤4，采集待处理的原始格式图像，输入步骤3逐层次训练完成后的三层结构的金字塔型网络模型进行降噪和增强纹理细节处理，得到改善质量后的图像。

可选的，所述步骤1构建的三层结构的金字塔型网络模型由三种基本模块构成：基本卷积模块BC、通道注意力模块CA和基本模块BCCAM；其中，基本卷积模块BC由卷积层、Leaky ReLU激活函数、卷积层、实例归一化层、Leaky ReLU激活函数串联构成；通道注意力模块CA由全局平均池化层、全连接层、ReLU激活函数、全连接层、Sigmoid激活函数构成，特征图经过全局平均池化层、全连接层、ReLU激活函数、全连接层、Sigmoid激活函数后与最初的特征图按通道相乘；基本模块BCCAM由不同卷积核尺寸的基本卷积模块BC、通道拼接模块和通道注意力模块CA组成，不同卷积核尺寸的基本卷积模块BC分别对输入特征图进行处理，然后在通道维度上拼接起来，最后输入到通道注意力模块CA；

三层结构的金字塔型网络模型的第一、二、三层次中基本模块BCCAM的最大卷积核尺寸分别为9、7、5，三个层次的输出层都由最大卷积核尺寸为3的基本模块BCCAM、3×3卷积和Tanh激活函数组成。

可选的，所述步骤2包括：

步骤2.1，采用同一相机拍摄同一场景，第一次采用最佳拍摄设置参数，获得一张原始格式图像与一张RGB格式图像；第二次采用HDR模式，获得一张高动态范围的RGB格式图像；

步骤2.2若原始格式图像在曝光良好的条件下进行拍摄，则对其添加高斯噪声和泊松噪声，合成带噪声的原始格式图像；若原始格式图像在欠曝光与过曝光条件下进行拍摄，则无需进行添加噪声处理；

步骤2.3，对两张RGB格式图像进行SIFT关键点检测和RANSAC随机抽样一致算法进行配准，配准之后，逆转换为原始格式图像和原始格式图像/>，最后将/>、/>、随机裁剪成几张尺寸合适、相互配对的图像块。

可选的，所述步骤3中逐层次训练过程包括：

先训练第三个层次，固定第一、二层次，输入为原始格式图像，目标图像为最佳拍摄参数设置获得的原始格式图像/>；

联合训练第二、三层次，固定第一层次，第三层次只进行微调（设置较小的学习率），输入为原始格式图像，目标图像为最佳拍摄参数设置获得的原始格式图像/>；

联合训练三个层次，第二、三层次只进行微调，输入为原始格式图像，目标图像为在HDR模式下拍摄的原始格式图像/>。

可选的，所述步骤3中全参考损失函数为，其中、/>、/>分别表示均方误差损失、VGG感知损失、结构相似性损失，/>、/>、/>表示权重系数；

对于第三层次，，/>；

对于第二层次，，/>，/>；

对于第一层次，，/>，/>。

可选的，均方误差损失为：

其中表示金字塔型网络模型的输出图像/>在位置/>处的像素值，表示原始格式图像/>在位置/>处的像素值，N表示总的像素个数。

可选的，VGG感知损失为：

表示输出图像/>输入到公开的预训练VGG-16网络模型后在ReLU激活函数层的输出特征图中位置/>处的像素值，/>表示原始格式图像在输入到公开的预训练VGG-16网络模型后在ReLU激活函数层的输出特征图中位置/>处的像素值。

可选的，结构相似性损失为：

其中，和/>表示原始格式图像/>均值和输出图像/>均值，/>表示原始格式图像/>和输出图像/>之间的协方差，/>和/>表示原始格式图像/>和输出图像的方差，/>和/>是常数。

本申请还提供一种图像处理器，所述图像处理器采用上述方法对原始格式图像进行处理。

本申请还提供上述方法在图像处理、目标识别与跟踪中的应用。

本发明具有以下有益效果：

本发明方法构建了一种三层结构的金字塔型网络以及对应的全参考损失函数，在对网络进行训练时，提出一种逐层次训练的方式确定各层结构的全参考损失函数中权重系数，使得训练完成后的网络可以同时对去噪、纹理增强以及高动态范围取得较好的效果，且由于本申请特别的金字塔网络结构以及逐层训练的方式，使得本申请最终得到的网络模型仅需单张图片就能实现高动态范围的成像效果。本发明方法帧率高，满足一般相机图像信号处理的实时性要求，可以直接作为AI ISP中的去噪环节。

附图说明

为了更清楚地说明本发明实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本发明一个实施例中提供的金字塔型网络的简化结构示意图；

图2是本发明金字塔型网络的基本组成模块的结构示意图；

图3是本发明金字塔型网络的细化结构示意图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚，下面将结合附图对本发明实施方式作进一步地详细描述。

实施例一：

本实施例提供一种基于逐层训练金字塔型网络的图像质量改善方法，请参考图1，该方法包括：

步骤1，构建三层结构的金字塔型网络模型；

如图1所示，所构建的金字塔型网络模型为三层结构，大量采用的层内跳跃连接和跨层次跳跃连接确保了网络性能。

全参考损失函数为，其中/>、/>、/>分别表示均方误差损失、VGG感知损失、结构相似性损失，/>、/>、/>表示权重系数；

实施例二：

本实施例提供一种基于逐层训练金字塔型网络的图像质量改善方法，包括如下步骤：

步骤一：数据集的采集与制作。具体包括：

采集数据集的场景条件有三种：良好曝光、欠曝光与过曝光。

制作数据集的流程包括：使用同一相机拍摄同一场景，第一次采用最佳拍摄设置参数，获得一张原始格式图像与一张RGB格式图像；第二次采用HDR（High Dynamic RangeImage）模式，获得一张高动态范围的RGB格式图像。

将所获得的原始格式图像作为原始格式图像1；需要进行说明的是，若原始格式图像/>在曝光良好的条件下进行拍摄，则需对其添加强度较低的高斯噪声和泊松噪声，合成带噪声的原始格式图像，作为原始格式图像1。若原始格式图像在欠曝光与过曝光条件下进行拍摄，则无需进行添加噪声处理，直接作为原始格式图像1。

两张RGB格式需要经过SIFT关键点检测和RANSAC随机抽样一致算法进行配准，配准之后，通过Tim Brooks等人提出的Unprocess算法逆转换为原始格式图像和原始格式图像/>，分别作为原始格式图像2和原始格式图像3；最后将原始格式图像1、原始格式图像2和原始格式图像3随机裁剪成几张尺寸合适、相互配对的图像块。

本实施例中裁剪后的图像块分辨率为640×480左右。

步骤二：构建金字塔型网络模型。具体包括：

如图1所示，所构建的金字塔型网络模型为三层结构，大量采用的层内跳跃连接和跨层次跳跃连接确保了网络性能。如图 2所示，金字塔型网络主要由三种基本模块构成：基本卷积模块BC、通道注意力模块CA和基本模块BCCAM；其中，基本卷积模块BC由卷积层、Leaky ReLU激活函数、卷积层、实例归一化层、Leaky ReLU激活函数串联构成；在通道注意力模块CA中，特征图经过全局平均池化层、全连接层、ReLU激活函数、全连接层、Sigmoid激活函数后与最初的特征图按通道相乘；而金字塔型网络的基本模块BCCAM由不同卷积核尺寸的基本卷积模块BC分别对输入特征图进行处理，然后在通道维度上拼接起来，最后输入到通道注意力模块CA。

如图 3所示，金字塔型网络包含三个层次，第一、二、三层次中基本模块BCCAM的最大卷积核尺寸分别为9、7、5，三个层次的输出层都由最大卷积核尺寸为3的基本模块BCCAM、3×3卷积和Tanh激活函数组成。图3中的k-BCCAM表示基本模块的最大卷积核尺寸为k，例如，在7-BCCAM模块内部的三个分支中，3×3、5×5、7×7的基本卷积组合BC分别对同一特征图进行处理，其中最大卷积核尺寸为7。

金字塔型网络的处理流程包括以下步骤：一张尺寸为2N×2N×1的原始格式图像，重排列为N×N×4的图像，输入网络，在第一层次中，经过最大卷积核尺寸为3的基本模块BCCAM处理后，将得到的特征图经过最大池化层进行二倍下采样，进入第二层次，经过一系列基本模块BCCAM的处理后，在输出层之前将经过转置卷积层的特征图跳跃连接到第一层次中靠近输入端的部分和靠近输出端的部分，同理，第二、三层次之间也是通过相同的方式进行连接，具体如图 3所示。在推理阶段，第二、三层次的输出层将被舍弃，第一层次的输出即质量得到改善的N×N×4原始格式图像，重排列为2N×2N×1的原始格式图像，输入到后续的传统图像信号处理流程得到最终的RGB格式图像。在本发明的金字塔型网络中，大量采用的层内跳跃连接和跨层次跳跃连接确保了网络性能，提高了训练的收敛速度。

步骤三：构建全参考损失函数并进行逐层次训练。具体包括：

逐层次训练的具体做法是：先训练第三个层次，固定第一、二层次，输入为原始格式图像，目标图像为最佳拍摄参数设置获得的原始格式图像/>；联合训练第二、三层次，固定第一层次，第三层次只进行微调，输入为原始格式图像/>，目标图像为最佳拍摄参数设置获得的原始格式图像/>；联合训练三个层次，第二、三层次只进行微调，输入为原始格式图像/>，目标图像为在HDR模式下拍摄的原始格式图像/>。

三个层次的损失函数皆为，其中/>、/>、分别表示均方误差损失、VGG感知损失、结构相似性损失，/>、/>、/>表示权重系数。对于第三层次，/>，/>；对于第二层次，/>，/>，/>；对于第一层次，/>，/>，/>。

将金字塔型网络处理原始格式图像后的输出结果记为/>，即第一层次的输出结果。接下来以第一层次为例，详细介绍损失函数的公式与含义：，其中/>表示/>在位置/>处的像素值，N表示总的像素个数。/>，/>表示输出图像/>输入到公开的预训练VGG-16网络模型后在ReLU激活函数层的输出特征图中位置处的像素值，/>表示原始格式图像/>在输入到公开的预训练VGG-16网络模型后在ReLU激活函数层的输出特征图中位置/>处的像素值。，/>和/>表示原始格式图像/>均值和输出图像/>均值，/>表示原始格式图像和输出图像之间的协方差，/>和/>表示原始格式图像/>和输出图像/>的方差，/>和/>是常数，该损失函数表征输出图像/>与原始格式图像的结构相似性误差。

本实施例中，，/>。

综上所述，本实施例提供的一种基于逐层训练金字塔型网络的图像质量改善方法可以在确保实时性的前提下达到降噪、增强纹理细节的效果，并且仅需单张图像就能达到高动态范围的成像效果，本发明的金字塔型网络作为相机整体图像信号处理流程中的一个环节，输入输出皆为原始格式图像，其他环节如白平衡、色彩校正、去马赛克等，依然采用传统方法。

本申请对所述使用的金字塔网络进行逐层训练，不同的层次分辨率不同，不同分辨率的对图像细节的处理能力是不一样的，第三层次的处理粒度最粗，第一层次最细，且从第三层次到第一层次损失函数的复杂度也依次增大，从最粗的层次开始训练，然后较细的层次可以在粗层次的基础上进行训练，这样逐层次由粗到细可以使第一层次达到比仅仅用单层次训练更高的处理能力。

相比传统图像信号处理中的去噪算法而言，本发明方法去噪效果好，动态范围高，能有效改善图像质量，并且适应性强，在低照度场景下的成像效果依然显著，精妙的网络结构设计与逐层次训练的方式确保了金字塔型网络模型的表达能力和泛化能力，基于以上说明，本发明方法可以直接作为AI ISP中的去噪环节。

本发明实施例中的部分步骤，可以利用软件实现，相应的软件程序可以存储在可读取的存储介质中，如光盘或硬盘等。

以上所述仅为本发明的较佳实施例，并不用以限制本发明，凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种基于逐层训练金字塔型网络的图像质量改善方法，其特征在于，所述方法包括：

步骤1，构建三层结构的金字塔型网络模型；

步骤3，构建全参考损失函数，并利用步骤2制作的数据集对步骤1构建的三层结构的金字塔型网络模型进行逐层次训练，以确定各层对应的具体损失函数；

步骤4，采集待处理的原始格式图像，输入步骤3逐层次训练完成后的三层结构的金字塔型网络模型进行降噪和增强纹理细节处理，得到改善质量后的原始格式图像；

所述步骤1构建的三层结构的金字塔型网络模型由三种基本模块构成：基本卷积模块BC、通道注意力模块CA和基本模块BCCAM；其中，基本卷积模块BC由卷积层、Leaky ReLU激活函数、卷积层、实例归一化层、Leaky ReLU激活函数串联构成；通道注意力模块CA由全局平均池化层、全连接层、ReLU激活函数、全连接层、Sigmoid激活函数构成，特征图经过全局平均池化层、全连接层、ReLU激活函数、全连接层、Sigmoid激活函数后与最初的特征图按通道相乘；基本模块BCCAM由不同卷积核尺寸的基本卷积模块BC、通道拼接模块和通道注意力模块CA组成，不同卷积核尺寸的基本卷积模块BC分别对输入特征图进行处理，然后在通道维度上拼接起来，最后输入到通道注意力模块CA；

三层结构的金字塔型网络模型的第一、二、三层次中基本模块BCCAM的最大卷积核尺寸分别为9、7、5，三个层次的输出层都由最大卷积核尺寸为3的基本模块BCCAM、3×3卷积和Tanh激活函数组成；

所述步骤2包括：

步骤2.1，采用同一相机拍摄同一场景，第一次采用最佳拍摄设置参数，获得一张原始格式图像与一张相应的经过相机ISP处理后的RGB格式图像；第二次采用HDR模式，获得一张高动态范围的RGB格式图像；

步骤2.2，若原始格式图像在曝光良好的条件下进行拍摄，则对其添加高斯噪声和泊松噪声，合成带噪声的原始格式图像；若原始格式图像在欠曝光与过曝光条件下进行拍摄，则无需进行添加噪声处理；

步骤2.3，对两张RGB格式图像进行SIFT关键点检测和RANSAC随机抽样一致算法进行配准，配准之后，逆转换为原始格式图像和原始格式图像/>，所述原始格式图像/>为最佳拍摄参数设置获得的RGB格式图像经Unprocess算法逆转换后得到的原始格式图像；所述原始格式图像/>为在HDR模式下拍摄的RGB格式图像经Unprocess算法逆转换后得到的原始格式图像/>；最后将/>、/>、/>随机裁剪成相互配对的图像块；

所述步骤3中逐层次训练过程包括：

先训练第三个层次，固定第一、二层次，输入为原始格式图像，目标图像为所述原始格式图像/>；

联合训练第二、三层次，固定第一层次，第三层次进行微调，输入为原始格式图像，目标图像为所述原始格式图像/>；

联合训练三个层次，第二、三层次进行微调，输入为原始格式图像，目标图像为所述原始格式图像/>；

所述步骤3中全参考损失函数为，其中/>、/>、分别表示均方误差损失、VGG感知损失、结构相似性损失，/>、/>、/>表示权重系数；

对于第三层次，，/>；

对于第二层次，，/>，/>；

对于第一层次，，/>，/>。

2.根据权利要求1所述的方法，其特征在于，均方误差损失为：

，其中/>表示金字塔型网络模型的输出图像/>在位置/>处的像素值，/>表示原始格式图像/>在位置/>处的像素值，N表示总的像素个数。

3.根据权利要求2所述的方法，其特征在于，VGG感知损失为：

，/>表示输出图像/>输入到公开的预训练VGG-16网络模型后在ReLU激活函数层的输出特征图中位置/>处的像素值，/>表示原始格式图像/>在输入到公开的预训练VGG-16网络模型后在ReLU激活函数层的输出特征图中位置/>处的像素值。

4.根据权利要求3所述的方法，其特征在于，结构相似性损失为：

，其中，/>和/>表示原始格式图像/>均值和输出图像/>均值，/>表示原始格式图像/>和输出图像/>之间的协方差，/>和/>表示原始格式图像/>和输出图像/>的方差，/>和/>是常数。

5.一种图像处理器，其特征在于，所述图像处理器采用权利要求1-4任一所述的方法对原始格式图像进行处理。