CN117121047A

CN117121047A - 用于图像降噪的噪声重建

Info

Publication number: CN117121047A
Application number: CN202180096389.2A
Authority: CN
Inventors: 伊奥安尼斯·马拉斯; 菲利普斯·科基诺斯; 斯塔马提奥斯·莱夫基米提斯
Original assignee: Huawei Technologies Co Ltd
Current assignee: Huawei Technologies Co Ltd
Priority date: 2021-04-01
Filing date: 2021-04-01
Publication date: 2023-11-24
Also published as: EP4302258A1; WO2022207110A1; US20240020796A1

Abstract

本文描述了一种用于图像降噪的装置(901)，该装置包括处理器(904)，用于：接收(701)由图像传感器(902)捕获的输入图像；执行经过训练的人工智能模型，以：形成(702)输入图像中的噪声模式的估计；形成(703)捕获输入图像的图像传感器的至少一个噪声统计量的估计；以及根据至少一个噪声统计量的估计来细化(704)噪声模式的估计；以及通过从输入图像中减去噪声模式的细化估计来形成(705)输出图像。本文还公开了一种用于训练模型的方法(800)。考虑捕获输入图像的传感器的噪声统计量，可以使降噪图像的质量提高。

Description

用于图像降噪的噪声重建

发明领域

本发明涉及计算机视觉，尤其涉及使用深度神经网络，如卷积神经网络(convolutional neural network，CNN)进行图像分析。

背景技术

图像降噪旨在从底层干净图像的噪声观测中估计底层干净图像，是许多数字成像和计算机视觉系统中的重要一步。

图1(a)示出了噪声的存在如何影响图像质量。图1(b)示出了通过将图像降噪技术应用于噪声图像而提高图像质量(来自Kai Zhang、Wangmeng Zuo、Yunjin Chen、Deyu Meng和Lei Zhang于2017年发表在《IEEE图像处理汇刊》的《超越高斯去噪：深度CNN图像去噪的残差学习》(Beyond a Gaussian Denoiser：Residual Learning of Deep CNN for ImageDenoising，IEEE Transactions on Image Processing，2017))。

相机传感器在线性颜色空间中输出RAW数据，其中像素测量值与收集的光电子数量成正比。噪声的主要来源是散粒噪声和读取噪声，散粒噪声是一个方差等于信号电平的泊松过程，读取噪声是一个由各种传感器读出效应引起的近似高斯过程。这些效应通过信号相关的高斯分布进行了很好的建模：

其中x_p是像素p处真实强度y_p的噪声测量值。噪声参数σ_r和σ_s对于每个图像是固定的，但可以随着传感器增益(ISO)的变化而因图像而异。

然而，真实图像中的噪声来自各种来源(例如暗电流噪声和热噪声)，而且要复杂得多。虽然已较了解RAW传感器数据中的噪声，但在RGB域中，捕获和显示之间执行的后处理(如去马赛克、锐化、色调映射和压缩)使得噪声模型更加复杂，这使得图像降噪任务更具挑战。

例如，通过考虑相机内图像处理管道，信道无关噪声假设可能不成立。一般来说，真实的噪声模型和相机内图像处理管道是训练基于CNN的真实照片降噪方法的重要方面。

传统的单图像降噪算法通常使用数学工具和数学模型(包括偏微分方程、稀疏编码和低秩近似)对图像的特性和这些算法旨在去除的噪声进行分析建模。这些方法中的大多数依赖于非常有限的人类知识或先前关于图像的假设，这限制了这些方法恢复复杂图像结构的能力。相比之下，现代降噪方法通常使用神经网络来学习从噪声图像到无噪图像的映射。深度学习能够表现图像和噪声的复杂属性，但训练这些模型需要大型配对数据集。因此，大多数基于学习的降噪技术依赖于合成的训练数据。近期基准测试表明，在真实的噪声图像上评估时，一些深度学习模型的性能往往劣于传统的手工提取算法。

通过堆叠卷积、批归一化、ReLU层以及采用残差学习的思想，Kai Zhang、WangmengZuo、Yunjin Chen、Deyu Meng和Lei Zhang于2017年发表在《IEEE图像处理汇刊》的《超越高斯去噪：深度CNN图像去噪的残差学习》(Beyond a gaussian denoiser：Residuallearning of deep cnn for image denoising，IEEE Transactions on ImageProcessing，2017)中所述的DnCNN方法实现了比传统最先进的方法高得多的PSNR指数。为了追求高精度的降噪结果，已经提出了一些复杂的网络，例如Ying Tai、Jian Yang、Xiaoming Liu和Chunyan Xu于2017年在国际计算机视觉与模式识别会议中发表的《Memnet：一种用于图像恢复的持久性记忆网络》(Memnet：A persistent memory networkfor image restoration，CVPR，2017)。

生成对抗网络(generative adversarial network，GAN)降噪方法包括生成器模块和鉴别器模块，生成器和鉴别器模块通常通过交替梯度下降法优化。生成器从先验分布p_z中采样z，例如均匀分布，并尝试对目标分布p_d建模。鉴别器D的目的是区分从模型生成的样本和目标(地面真值)分布。

Mehdi Mirza和Simon Osindero于2014年发表在arXiv预印本arXiv:1411.1784中的《条件生成对抗网络》(Conditional generative adversarial nets，arXiv preprintarXiv：1411.1784，2014)中所述的条件GAN(Conditional GAN，cGAN)通过为生成器提供额外的标签来扩展公式。生成器G通常采取编码器-解码器网络的形式，其中编码器将标签投影到低维潜在子空间中，解码器执行相反的映射，即从低维子空间到高维子空间。如果s表示条件标签，y表示目标分布中的样本，则对抗损失表示为：

通过解决以下最小-最大问题：

其中，w_G，w_D分别表示生成器和鉴别器的参数。为了简化符号，下面的描述中省略了对参数和噪声z的依赖。

扩展条件GAN方法的一种方法是如G.Chrysos等人在2019年在国际表征学习大会上发表的《鲁棒条件生成对抗网络》(Robust Conditional Generative AdversarialNetworks，ICLR，2019)中所述的鲁棒条件GAN(Robust Conditional GAN，RoCGAN)。在RoCGAN中，GAN有生成器模块和鉴别器模块，生成器模块和鉴别器模块通常通过交替梯度下降方法进行优化。生成器从先验分布(例如均匀分布)中采样，并尝试对目标分布进行建模。鉴别器试图区分从模型生成的样本和目标(地面真值)分布。

在这种方法中，生成器通过无监督路径增强，以鼓励生成器的输出跨越目标流形(manifold)，即使在存在大量噪音的情况下。第一路径，称为reg路径，执行与cGAN中对应的类似的回归(降噪)。该路径接受来自源域(噪声图像)的样本，并将其映射到目标域(干净图像)。额外的AE路径在目标域中用作自动编码器。

在RoCGAN中，AE路径导致以下损失项：

其中f_d表示分歧度量(l₁损失)，上标“AE”为AE路径模块的缩写，“G”为reg路径模块的缩写，G^(AE)(y⁽ⁿ⁾)＝d^(AE)(e^(AE)(y⁽ⁿ⁾))是AE路径的输出。

这两个路径具有相同的编码器-解码器网络。通过共享解码器的权重，RoCGAN促进回归输出跨越目标流形，而不产生任意大的误差。跳过连接可以在RoCGAN中使用，使更深层能够捕获更抽象的表征，而无需记忆所有信息。较低级别的表征通过快捷方式直接传播到解码器。

尽管共享编码器的权重，RoCGAN迫使两条路径的潜在表征跨越相同的空间。为了进一步减小两个表征在潜在空间中的距离，使用潜在损失项此项最小化编码器输出之间的距离，即两个表征在空间上是接近的(在编码器跨越的子空间中)。

潜在损失项由以下公式给出：

特征匹配损失使网络能够更快地匹配数据和模型的分布。直觉是，为了将数据的高维分布与reg路径相匹配，它们在低维空间中的投影被鼓励相似。

特征匹配损失由以下公式给出：

其中，π()从鉴别器的倒数第二层提取特征。

跳过连接可以使更深层能够捕获更抽象的表征，而无需记忆所有信息。较低级别的表征通过快捷方式直接传播到解码器，这使得训练更长的路径变得更加困难，即不包括跳过连接的网络。通过最大化更长路径表征捕获的方差，隐式地解决了这一挑战。使用Deov损失项，Deov损失项惩罚(层的)表征中的相关性，从而隐式地鼓励表征捕获多样化和有用的信息。此损失可以应用于网络中的单层或多层，而对于j^th层，此损失定义为：

其中diag()计算矩阵的对角线元素，C^j是j^th层表征的协方差矩阵。当协方差矩阵是对角矩阵时，损失最小化，即最小化隐藏单元的协方差而不限制包括隐藏表征方差的对角线元素带来了成本。

通过定义G(s⁽ⁿ⁾)＝d^(G)(e^(G)(s⁽ⁿ⁾))为reg路径的输出，RoCGAN的最终损失函数将原始cGAN的损失项与AE路径的额外三个项结合在一起：

其中λ_c,λ_π，λ_ae，λ_l,和λ_d是平衡损失项的超参数。

该方法可用于图像降噪，但是为对象相关的图像降噪而设计的。

AE路径是一种无监督学习方法，其隐藏层包含输入数据的表征，用于压缩(和解压缩)数据，同时丢失尽可能少的信息。然而，即使存在跳过连接，AE路径也无法重建所有自然场景和模式。换句话说，使用一个自动编码器来定义可以从各种真实复杂对象/场景准确地重建图像模式的非线性流形是不现实的。因此，以前的方法，如RoCGAN，经常通过引入严重的模糊效果或不自然的图像模式/伪影来产生复杂的图像结构的幻觉。

这些方法的大量计算和内存占用也阻碍了它们在硬件受限设备上的应用，如智能手机或消费电子产品。此外，这些方法试图利用图像先验来更好地建模干净图像。考虑到所有自然图像模式的多样性，这是一个非常复杂的问题。

I.Marras等人在2020年欧洲计算机视觉会议中发表的《重构图像去噪的噪声方差流形》(Reconstructing the Noise Variance Manifold for Image Denoising，ECCV2020)中所述的方法使用跨越目标图像信号相关噪声流形的重建噪声执行图像降噪。基于具有两个路径模块和共享的解码器参数的编码器-解码器生成器使用对抗神经网络。第一路径基于残差学习作为生成器执行回归，而生成器通过第二路径增强，第二路径促进生成器从噪声输入中去除跨越目标图像信号相关噪声流形的残差噪声。生成器的示意图如图2所示。reg路径在201处示出，AE路径在202处示出。

随着智能手机年销量超过15亿部，现在智能手机拍摄的照片数量远远超过数码单反和傻瓜相机也就不足为奇了。虽然智能手机的流行使其成为一种方便的摄影设备，但由于其相机中的传感器和镜头较小，其图像通常会因较高的噪声水平而退化。这个问题亟需优化图像降噪，特别是在智能手机图像方面。

需要开发一种克服这些问题的图像降噪方法。

发明内容

根据第一方面，提供了一种用于图像降噪的装置，该装置包括处理器，用于：接收由图像传感器捕获的输入图像；执行经过训练的人工智能模型，以：形成输入图像中噪声模式的估计；形成捕获输入图像的图像传感器的至少一个噪声统计量的估计；以及根据至少一个噪声统计量的估计来细化噪声模式的估计；以及通过从输入图像中减去噪声模式的细化估计来形成输出图像。

考虑捕获输入图像的传感器的噪声统计量，可以使降噪图像的质量提高。

该模型可以用于通过在经过训练的噪声流形上的投影来细化噪声模式的估计。使用这种方法，有意义的图像结构可以通过降噪过程更好地保留，图像质量得到提高。

该模型可以用于将噪声模式估计和至少一个噪声统计量的估计投影到同一个经过训练的噪声流形上。这可以使噪声统计量，例如噪声标准差信息，能够用于校正模型最初估计的预测的噪声的统计量。

至少一个噪声统计量可以包括图像传感器的噪声方差。网络的噪声方差投影层可以显式地利用噪声标准差信息来校正生成器最初估计的预测的噪声的统计信息。

噪声模式的估计可以是空间自适应高斯分布。这可以实现方便地估计噪声估计。

该装置可用于接收捕获输入图像的图像传感器的具体图像传感器类型的指示，其中该装置用于提供该指示作为模型的输入。向噪声模型提供捕获图像的传感器的类型指示可以提高图像质量。

该装置可以包括具有捕获输入图像的图像传感器的成像设备。该装置可以用于使用成像设备生成输入图像，以及提供具体图像传感器类型的指示作为模型的输入。向噪声模型提供捕获图像的传感器的类型指示可以提高图像质量。

该模型可以用于根据图像传感器的噪声参数估计至少一个噪声统计量。噪声参数中的至少一个可以是可学习的。

经过训练的人工智能模型可以是神经网络。这可以是一种方便的实现方式。

神经网络可以包括具有第一路径和第二路径的编码器-解码器生成器架构。通过第二路径增强生成器可以有助于促进生成器从噪声输入中去除跨越目标图像信号相关噪声流形的残差噪声。

第一和第二路径的解码器的权重可以共享。通过共享解码器的权重，RoCGAN促进回归输出跨越目标流形，而不产生任意大的误差。

第一路径可以用于充当执行回归的生成器，并通过第二路径增强，第二路径促进生成器从输入图像中减去噪声模式的细化估计。

输入图像可以是RGB图像。输入图像可以是RAW图像。这可以使该装置能够用于诸如智能手机的设备中，以去除由此类设备的相机捕获的图像中的噪音。

根据第二方面，提供了一种用于图像降噪的方法，该方法包括：接收由图像传感器捕获的输入图像；执行经过训练的人工智能模型，以：形成输入图像中噪声模式的估计；形成捕获输入图像的图像传感器的至少一个噪声统计量的估计；以及根据至少一个噪声统计量的估计细化噪声模式的估计；以及通过从输入图像中减去噪声模式的细化估计来形成输出图像。

根据另一方面，提供了一种用于训练模型以对图像执行降噪的方法，该方法包括：接收多个输入图像，每个输入图像由图像传感器捕获；接收多个噪声签名；接收捕获多个输入图像的图像传感器的至少一个噪声统计量；对于多个输入图像中的每一个：

(i)选择多个噪声签名中的一个，并将该噪声签名应用于输入图像以形成噪声输入图像；

(ii)通过在噪声输入图像上实施模型的候选版本，形成输入图像中的第一噪声估计和捕获输入图像的图像传感器的至少一个噪声统计量的第一估计；

(iii)根据至少一个噪声统计量的第一估计，细化第一噪声估计；

(iv)通过从噪声输入图像中减去细化的第一噪声估计来形成相应输入图像的估计；

(v)通过在相应输入图像、选定的噪声签名和捕获相应输入图像的图像传感器的至少一个噪声统计量上实施模型的候选版本，形成第二估计和至少一个噪声统计量的第二噪声估计；

(vi)根据(a)相应输入图像和相应输入图像的估计之间的差异，(b)第二噪声估计和选定噪声签名之间的差异，和(c)至少一个噪声统计量的第二估计和捕获相应输入图像的图像传感器的至少一个噪声统计量之间的差异来调整模型的候选版本。

形成步骤(ii)可以在第一路径中执行。形成步骤(v)可以在第二路径中执行。通过第二路径增强图像处理器的生成器促进生成器从噪声输入中去除跨越目标图像信号相关噪声流形的残差噪声。

第一和第二路径中的每一个可以包括编码器-解码器网络。第一和第二路径的解码器的权重可以共享。通过共享解码器的权重，RoCGAN促进回归输出跨越目标流形，而不产生任意大的误差。

第一路径和第二路径可以分别基于全卷积网络。这可以是一种方便的实现方式。

第二路径可以实施无监督学习方法。无监督学习方法的隐藏层可以包含足够强大的输入数据的表征，用来压缩(和解压)数据，同时尽可能地减少信息损失。

第一路径可以包括一个或多个跳过连接。可以例如将编码器的中间层与解码器的相应中间层相连的跳过连接可以强制网络学习与预测的图像噪声和实际图像噪声相对应的特征之间的残差。这可以带来更快的收敛。

多个输入图像中的每一个可以是RAW图像或RGB图像。这可以使该方法能够用于诸如智能手机的设备中，以去除由此类设备的相机捕获的图像中的噪音。

该模型可以是卷积神经网络。这可以是一种方便的实现方式。

根据另一方面，提供了一种用于训练模型以对图像执行降噪的设备，该设备具有用于执行上述方法的步骤的处理器。

附图说明

现在结合附图通过示例的方式对本发明进行描述。在附图中：

图1(a)示出了一个噪声图像。

图1(b)示出了通过将已知图像降噪技术应用于图1(a)的噪声图像而提高图像质量。

图2示出了I.Marras等人于2020年欧洲计算机视觉会议上发表的《重构图像去噪的噪声方差流形》(Reconstructing the Noise Variance Manifold for ImageDenoising，ECCV 2020)中所述的方法中的生成器的示意图。

图3(a)示出了本文所述的方法中的生成器的示意性实现方式。为简单起见，省略了reg路径开头的ResNet-类型骨干网。

图3(b)示出了网络训练的示意图。

图4示意性地示出了网络的噪声方差投影层中的投影操作。

图5示意性地示出了骨干残差网络(residual network，ResNet)中使用的构建块(K.He，X.Zhang，S.Ren和J.Sun在2016年在国际计算机视觉与模式识别会议(IEEEConference on Computer Vision and Pattern Recognition，CVPR)论文集第770-778页发表的《图像识别的深度残差学习》(Deep residual learning for image recognition，IEEE Conference on Computer Vision and Pattern Recognition(CVPR)，pages 770-778，2016))。

图6示意性地示出了在本文所述的方法中使用的Unet架构的示例。

图7示出了图像降噪方法的示例的摘要。

图8示出了用于训练模型以对图像执行降噪的方法的示例的摘要。

图9示出了用于实现本文所述的装置和方法的相机的示例。

图10(a)-图10(d)示出了降噪结果和与最先进方法的比较。图10(a)示出了干净地面真值图像。图10(b)示出了噪声RGB输入图像。图10(c)示出了通过I.Marras等人在2020年欧洲计算机视觉会议上发表的《重构图像去噪的噪声方差流形》(Reconstructing theNoise Variance Manifold for Image Denoising，ECCV 2020)中所述的方法降噪的图片。图10(d)示出了使用本方法产生的降噪图像的示例。

具体实施方式

本发明实施例涉及一种基于显式理解和利用与图像传感器相关的噪声方差的结构的用于图像降噪的方法。在一种实现方式中，首先校正要从噪声输入图像中减去的预测的残差图像(预测的噪声)，以匹配特定图像传感器噪声特性的噪声统计量。因此，有意义的图像结构通过降噪过程更好地保留，图像质量得到提高。

目标是通过显式约束生成器从噪声输入图像中去除生成的噪声分布样本来执行图像降噪，其中重建的图像噪声和噪声方差跨越目标图像信号相关噪声方差流形。

在一个实施例中，噪声方差投影层显式地利用噪声标准差信息来校正生成器最初估计的预测的噪声的统计信息。

图3(a)示意性地示出了生成器的CNN设计的实施例。基于具有两个路径模块和共享的解码器参数的编码器-解码器生成器使用对抗神经网络。如图3(a)示意性所示，生成器通常采取编码器-解码器网络的形式，其中编码器将标签投影到低维潜在子空间中，解码器执行相反的映射，即从低维子空间到高维子空间。

生成器包括第一路径301(此处称为reg路径)和第二路径302(此处称为AE路径)。reg路径301和AE路径302都基于深度学习，并且可以例如应用CNN来处理输入图像。CNN学习过滤器的集合，这些过滤器通过卷积应用于图像。卷积设计为空间不变，这意味着卷积在应用于图像中的任何位置时都具有相同的效果。

第一路径301作为生成器，基于残差学习来执行回归。该路径(通过投影)迫使预测的残差图像的噪声统计量服从相机传感器噪声的统计量。

生成器通过第二路径302增强，第二路径302促进生成器从噪声输入中去除跨越目标图像信号相关噪声流形的残差噪声，同时噪声统计量接近跨越同一流形的每个相机传感器的估计噪声统计量。

换句话说，网络可以通过仅查看被迫与相机传感器的噪声统计量相匹配的预测的残差图像(预测的噪声)的结构来学习如何将不理想的图像转换为理想的图像，如图3(a)和3(b)所示。这样，图像降噪的任务就变得更容易了。此外，通过显式学习噪声源及其标准差的低维流形，不仅能够更好地从图像中去除噪声，而且在存在许多不同类型的噪声源的情况下，还能够将所有噪声源组合在同一管道中。

在训练期间，AE路径不仅学习如何重建图像噪声(残差图像)，还学习如何重建噪声标准差。

估计图像信号相关噪声及其标准差的流形，以约束生成器从噪声输入中去除这些生成的噪声分布样本，其中方差跨越目标图像信号相关噪声方差流形。因此，reg路径通过隐藏层中的操作隐式地去除潜在的干净图像，同时它显式地纠正估计的基于相机传感器的噪声统计。换句话说，AE路径的任务不是学习大量复杂图像模式的底层结构，而是了解图像结构如何受到结构化噪声的影响，以及如何为每个相机传感器定义噪声统计量。

在训练期间，如图3(b)所示，网络学习卷积滤波器，特别是滤波器权重。这是使用训练对完成的，每个训练对都包括一个噪声RGB输入和一个参考的干净RGB图像，该图像用作地面真值(ground truth，GT)。最初，卷积滤波器设置为随机值。如图3(b)所示，噪声输入图像优选地通过向干净输入图像添加噪声签名(可以从噪声模型生成)来形成。

如上所述，训练对包括图3(b)中304所示的参考的干净RGB输入图像y和305所示的噪声RGB输入图像s＝y+v，其中y用作地面真值(ground truth，GT)图像，v是真实(GT)残差图像，即图像的噪声签名306。如上所述，噪声签名v 306可以由噪声模型生成，并应用于相应的地面真值输入图像y 304，以给出噪声输入图像s 305。最初，卷积滤波器可以设置为随机值。输入噪声RGB输入图像s 305到网络中，网络回归降噪输出图像307。

在训练期间，AE路径302学习如何重建图像噪声309(残差图像)和噪声方差310。

第二路径302接收地面真值残差图像(噪声签名)v、306和地面真值残差噪声方差308，并输出重建的地面真值残差图像309和噪声方差310。

因此，网络接收由图像传感器捕获的多个训练输入图像304、多个噪声签名306和图像传感器的噪声统计量，图像传感器捕获多个输入图像，例如310。

对于每个训练图像，在图像上应用噪声签名以形成噪声输入图像305。在reg路径上，通过在噪声输入图像305上实施模型的候选版本，形成输入图像中的第一噪声估计和捕获输入图像的图像传感器的噪声统计量的第一估计。根据噪声统计量的第一估计，对第一噪声估计进行细化。然后，通过从噪声输入图像中减去细化第一噪声估计，来获得相应输入图像的估计。

在AE路径上，通过在相应输入图像、选定的噪声签名和捕获相应输入图像的图像传感器的至少一个噪声统计量上实施模型的候选版本，形成第二噪声估计309和噪声统计量310的第二估计。

模型的候选版本取决于相应输入图像304和相应输入图像307的估计之间的差异、第二噪声估计309和噪声签名306之间的差异以及捕获相应输入图像的图像传感器的噪声统计量310的第二估计和噪声统计308之间的差异。

例如，回归输出图像307和GT图像304之间的差异形成误差，然后该误差通过网络从输出通过梯度反向传播到输入。然后更新网络的权重以减少误差。

训练过程优选地使用大量图像集合迭代，直到网络权重收敛。

一旦网络经过训练，在推理期间，仅将reg路径301应用于噪声RGB输入图像，以产生其降噪版本。

如上所述，reg路径301将噪声RGB图像s作为输入，然后优选地由骨干ResNet模型处理，然后由Unet处理，如Ronneberger，Olaf等人在2015年在施普林格出版社《计算机科学讲义》国际医学图像计算和计算机辅助干预会议(Medical Image Computing andComputer-Assisted Intervention，MICCAI)论文集第9351卷第234-241页发表的《U-Net：生物医学图像分割的卷积网络》(U-Net：Convolutional Networks for Biomedical ImageSegmentation，Medical Image Computing and Computer-Assisted Intervention(MICCAI)，Springer，LNCS，Vol.9351：234-241，2015)中所述。输出是预测的残差图像(噪声)G(s)，然后从噪声输入图像中去除该图像，以获得降噪图像。

因此，第一路径预测的输入图像中的残差噪声，并从输入图像中减去根据噪声统计量进行细化的预测的残差噪声，以获得降噪图像。因此，第一路径301作为生成器，基于残差学习来执行回归。生成器通过第二路径302增强，第二路径302在训练期间促进生成器从噪声输入中去除跨越目标图像信号相关噪声流形的残差噪声。

因此，第一路径不是直接输出降噪图像，而是设计为预测地面真值残差图像，即噪声观测和干净(地面真值)图像之间的差异。

上述方法引入显式使用相机噪声统计量来过冲或欠冲预测的残差图像，以匹配这些统计量。为此，噪声标准差投影层303放置在生成器之后。噪声标准差投影层303的输入是预测的残差图像(预测的图像噪声)以及预测的噪声标准差。

第一路径不是直接输出降噪图像，而是设计为预测地面真值残差图像G(s)，即噪声观测s和干净(地面真值)图像y之间的差异。与RoCGAN相比，第一路径还预测图像标准差K(s)。G(s)和K(s)是投影层303的输入，投影层303(通过投影)迫使G(s)的噪声统计量服从相机传感器噪声的统计量。最终残差图像估计是投影层G'(s)的输出。然后，可以将其从噪声输入图像中去除。

在一种实现方式中，模型用于根据图像传感器的噪声参数估计噪声统计量。图4示出了噪声方差投影层303的投影操作。投影层中使用的阈值ε是参数化的，如图4所示。阈值ε是预测的基于像素的噪声标准差σ、图像像素数N_t和可学习参数α的函数。

在某些实现方式中，针对不同的相机传感器以及不同的图像ISO组值可以学习多个ε。reg路径通过隐藏层中的操作隐式估计潜在的干净图像。

无监督路径302在真实残差图像v＝s–y以及真实图像噪声标准差b的公共域中充当自动编码器。该路径的输入v与y和b级联，v⊙y⊙b。这样一来，AE路径302的任务不是了解图像结构如何受结构化噪声的存在影响，而是了解噪声统计量如何与实际噪声相关。通过共享解码器的权重，生成器采用残差学习策略，从噪声观测中去除跨越图像噪声和图像噪声标准差的共同流形的图像信息。

加噪是一个具有挑战的过程，它可以被reg路径中编码器的少数卷积层逆转，特别是在对象无关的场景中。为此，可以在reg路径之前使用骨干网来提取有助于稍后保留低图像频率和高图像频率的复杂特征表征。如上所述，骨干网可以是残差网络(residualnetwork，ResNet)，如K.He，X.Zhang，S.Ren和J.Sun在2016年在国际计算机视觉与模式识别会议(IEEE Conference on Computer Vision and Pattern Recognition，CVPR)论文集第770-778页发表的《图像识别的深度残差学习》(Deep residual learning for imagerecognition，IEEE Conference on Computer Vision and Pattern Recognition(CVPR)，pages 770–778，2016))，如图5所示。因此，reg路径的输入可以是从输入图像(例如，以张量的形式)提取的特征，而不是图像本身。

因此，reg路径优选地将RGB图像作为输入，RGB图像之后由骨干ResNet模型处理，然后由Unet模型处理。输出是预测的残差图像(噪声)，然后从噪声输入图像中去除预测的残差图像，以获得降噪图像。Unet使用具有两个横向Unet风格的跳过连接的编码器-解码器架构(更多详细信息显示在图6中，在下文描述)。这些跳过连接将编码器的中间层与解码器的相应中间层连接，强制网络学习与预测的图像噪声和实际图像噪声相对应的特征之间的残差。这对加快收敛速度有影响，正如经验检测到的那样AE路径将真实(地面真值)残差图像和真实(地面真值)噪声标准差作为输入，然后由类似于reg路径中Unet的Unet处理。输出是真实残差图像和真实噪声标准差的重建。

在该实现方式中，标识符与RoCGAN中的标识符保持相同。它接受预测的干净图像s–G'(s)以及y作为输入。

在该实现方式中，输入是RGB图像数据。网络也可以将RAW图像作为输入。

reg路径和AE路径都基于深度学习(例如，使用CNN)。这两种路径都应用卷积神经网络来处理RGB图像。CNN学习过滤器的集合，这些过滤器通过卷积应用于图像。卷积设计为空间不变，这意味着卷积在应用于图像中的任何位置时都具有相同的效果。

图6示出了可用于本文描述方法的Unet架构示例。Unet使用具有两个横向Unet风格跳过连接的编码器-解码器架构。网络的编码器部分通常在601处示出，解码器在602处示出，跳过连接在603处示出。这些跳过连接将编码器的中间层与解码器的相应中间层连接，强制网络学习与预测的图像噪声和实际图像噪声相对应的特征之间的残差。这对加快收敛速度有影响，正如经验检测到的那样AE路径将真实(地面真值)残差图像作为输入，然后由类似于reg路径中Unet的Unet处理。输出是真实残差图像的重建。

在本示例中，网络的编码器部分，通常在601处示出，处理具有六个连续层的噪声RGB输入。每个层对其输入应用一个带有3x3卷积滤波器的跨步卷积(连同ReLU激活函数和批量归一化)。跨步卷积将滤波器(即通道)的数量增加至2倍，同时它将空间图像分辨率降低至一半(即从H、W、C到H/2、W/2、C)。图像经过多尺度处理，网络适应不同频率内容。这产生捕获数据中固有特征并与RGB图像降噪任务相关的输出通道。

网络的解码器部分，通常在602处示出，用3x3卷积滤波器(连同ReLU激活函数和批量归一化)的转置卷积操作的五个连续层处理编码器的输出。转置卷积是一个上采样层，它在每个维度(宽度和高度)中将空间分辨率提高至原来的2倍，并将滤波器的数量减少至原来的一半。

图6中603处所示的跳过连接可以使更深层捕获更抽象的表征，而无需记忆所有信息。较低级别的表征通过快捷方式直接传播到解码器。在具有Unet风格跳过连接的层的情况下，这些解码器层中的每一个的输入是i)来自与相同空间分辨率相关的编码部分的高分辨率特征和ii)先前解码层的输出(即空间上采样特征)的级联。随后的卷积学习根据级联输入组装更精确的输出。其余每个解码器层的输入仅是前一个解码层的输出。

通过共享解码器的权重，生成器采用残差学习策略，从噪声观测中去除跨越图像噪声流形的图像信息。

在该实现方式中，reg路径和AE路径包括完全卷积网络。

图7总结了一种图像降噪方法700，该方法可以使用本文所述的网络和装置实现。在步骤701，该方法包括接收由图像传感器捕获的输入图像。该方法包括执行经过训练的人工智能模型以执行步骤702-704。在步骤702，该方法包括在输入图像中形成噪声模式的估计。在步骤703，该方法包括形成捕获输入图像的图像传感器的至少一个噪声统计量的估计。在步骤704，该方法包括根据至少一个噪声统计量的估计来细化噪声模式的估计。在步骤705，该方法包括通过从输入图像中减去噪声模式的细化估计来形成输出图像。

图8总结了训练模型以对图像执行降噪的方法800。在步骤801，该方法包括：接收多个输入图像，每个输入图像由图像传感器捕获；接收多个噪声签名；接收捕获多个输入图像的图像传感器的至少一个噪声统计量；并且对于多个输入图像中的每一个：

(ii)通过在噪声输入图像上实施模型的候选版本，形成输入图像中的第一噪声估计和捕获输入图像的图像传感器的至少一个噪声统计量的第一估计。

(iv)通过从噪声输入图像中减去细化第一噪声估计来形成相应输入图像的估计；

(vi)根据(a)相应输入图像和相应输入图像的估计之间的差异，(b)第二噪声估计和选定噪声签名之间的差异，和(c)至少一个噪声统计量的第二估计和捕获相应输入图像的图像传感器的至少一个噪声统计量之间的差异，调整模型的候选版本。

图9示出了包括可以实现上述方法的相机的架构的示例。相机901连接到通信网络。相机901包括图像传感器902。该相机还包括存储器903、处理器904和收发器905。该存储器以非瞬时形式存储可由处理器904运行的代码。在一些实现方式中，该代码可以包括如上所述的经过训练的人工智能模型。该模型可以包括可由处理器直接执行的代码和/或参数，例如神经网络加权，这些参数不是直接可执行的指令，但用于配置存储在存储器903中的其他可执行代码。收发器705可以能够通过有线和无线通信信道中的一个或两个发送和接收数据。例如，它可以支持以太网、IEEE 802.11B，和/或4G或5G等蜂窝协议。

这样的相机901通常包括一些板载处理能力。这可以由处理器904提供。处理器904也可用于设备的基本功能。

收发器905能够通过网络与其他实体910、911通信。这些实体可以物理上远离摄影机901。该网络可以是公共可访问的网络，如互联网。实体910、911可以基于云。实体910是计算实体。实体911是一个命令和控制实体。这些实体是逻辑实体。在实践中，它们可以分别由一个或多个物理设备(如服务器和数据存储器)提供，并且两个或多个实体的功能可以由单个物理设备提供。每个实现实体的物理设备包括处理器和存储器。这些设备还可以包括用于向相机901的收发器905发送数据和从相机901的收发器905接收数据的收发器。存储器以非瞬时的方式存储可由处理器执行的代码，从而以本文所述的方式实现相应的实体。

命令和控制实体911可以训练模型。这通常是一项计算密集型任务，即使所得到的模型可以被高效地描述，因此，在云中开发模型可能是高效的，可以预期在云中有大量的能量和计算资源可用。可以预见，这比在典型的相机上形成这样的模型更高效。

在一种实现方式中，一旦在云中开发出模型，命令和控制实体就可以自动形成相应的模型，并将其发送到相关的相机设备。在本示例中，由处理器904在相机901处执行降噪。

在另一种可能的实现方式中，图像可以由摄像头传感器902捕获，图像数据可以由收发器905发送到云进行处理。然后，所得到的降噪图像可以发送回相机901，如图9中的912处所示。

因此，该方法可以通过多种方式部署；例如部署在云中、在设备上或者在专用硬件中。如上所述，云设施可以执行训练，以开发新模型或改进现有模型。根据数据语料库附近的计算能力，训练可以在源数据附近进行，或者可以在云中进行，例如使用推理引擎。

相机901可以在输入图像上执行经过训练的模型，以在图像中形成噪声估计，并从输入图像中减去噪声估计，以形成降噪输出图像。相机可以执行包括以下步骤的方法：接收由图像传感器捕获的输入图像；执行经过训练的人工智能模型以：形成输入图像中的噪声模式的估计；形成捕获输入图像的图像传感器的至少一个噪声统计量的估计；以及根据所述至少一个噪声统计量的估计来细化噪声模式的估计；以及通过从所述输入图像中减去噪声模式的细化估计来形成输出图像。

本文所述的方法的实施例具有许多优点。

对于AE路径，基于相同的低维流形重建真实图像噪声和噪声标准差，可以更好地理解相机传感器噪声统计量。换句话说，可以通过仅查看预测的残差图像的结构来学习如何将不理想的图像转换为理想的图像，预测的残差图像被迫与相机传感器的噪声统计量匹配。该特性使该方法能够适应不同的相机传感器和不同的图像ISO值，并有助于降噪器在很大程度上避免图像过度平滑。

噪声方差投影层显式地赋予任何降噪器根据图像具有的ISO值和用于捕获该图像的相机传感器调整降噪水平的能力。

在多源图像噪声的情况下，可以使用多个AE路径。在这种情况下，每个路径负责去除来自具有特定噪声统计量的特定噪声源的噪声信息。

使用本文所述的方法，使现有的经过训练的模型适应新的相机传感器(域间切换)更简单。为此，必须重新训练AE路径，但只需要使用通过新传感器获得的少量配对训练样本对reg路径进行微调。

通过学习约束残差图像噪声方差，与RoCGAN或I.Marras等人于2020年欧洲计算机视觉会议上发表的《重构图像去噪的噪声方差流形》(Reconstructing the NoiseVariance Manifold for Image Denoising，ECCV 2020)所述的方法相比，降噪任务变得更加简单。

对于RoCGAN，没有显式的方法来确保生成器预测的噪声统计量与相机传感器的预期噪声统计量匹配。这样，网络就不能显式地理解，在ISO值较小的图像中，估计的噪声标准差应明显小于ISO值较高的图像中的估计的噪声标准差。因此，在许多情况下，降噪器会破坏图像高频细节，特别是对于低ISO图像。针对不同的ISO组具有不同的模型使得它不适合资源有限的电子设备(如智能手机)，因为这些设备的运行时性能很重要。

在RoCGAN中，AE路径是一种无监督的学习方法，其(隐藏)包含足够强大的输入数据的表征，用来压缩(和解压)数据，同时尽可能地减少信息损失。AE路径直接重建图像噪声，但不重建噪声统计量。换句话说，使用一个自动编码器来定义能够准确重建图像噪声的非线性流形，不能确保预测的噪声的噪声标准差是(接近)正确的噪声标准差。例如，在给定特定相机传感器的情况下，对于给定图像存在标准差的最大值。因此，很难确保RoCGAN的网络能够适应不同的相机传感器和不同的ISO值。因此，RoCGAN经常通过引入严重的模糊效果或奇怪的图像模式/伪影来产生复杂图像结构的幻觉。与使用RoCGAN和其他现有方法产生的降噪图像相比，使用本文所述的方法可以使图像质量提高。

申请人在此单独公开本文所述的每一个别特征及两个或两个以上此类特征的任意组合。以本领域技术人员的普通知识，能够根据本说明书将此类特征或组合作为整体实现，而不考虑此类特征或特征的组合是否能解决本文所公开的任何问题；且不对权利要求书的范围造成限制。申请人指出，本发明的方面可以包括任何这样的单独特征或特征的组合。鉴于上述描述，本领域技术人员将明显地了解，在本发明的范围内可以进行各种修改。

Claims

1.一种用于图像降噪的装置(901)，其特征在于，所述装置包括处理器(904)，用于：

接收(701)由图像传感器(902)捕获的输入图像；

执行经过训练的人工智能模型，以：

形成(702)所述输入图像中的噪声模式的估计；

形成(703)捕获所述输入图像的所述图像传感器的至少一个噪声统计量的估计；

根据所述至少一个噪声统计量的所述估计，细化(704)所述噪声模式的所述估计；通过从所述输入图像中减去所述噪声模式的所述细化估计来形成(705)输出图像。

2.根据权利要求1所述的装置(901)，其特征在于，所述模型用于：通过在经过训练的噪声流形上的投影来细化所述噪声模式的所述估计。

3.根据权利要求2所述的装置(901)，其特征在于，所述模型用于：将所述噪声模式的所述估计和所述至少一个噪声统计量的所述估计投影到同一个所述经过训练的噪声流形上。

4.根据前述权利要求中任一项所述的装置(901)，其特征在于，所述至少一个噪声统计量包括所述图像传感器的噪声方差。

5.根据前述权利要求中任一项所述的装置(901)，其特征在于，所述噪声模式的所述估计是空间自适应高斯分布。

6.根据前述权利要求中任一项所述的装置(901)，其特征在于，所述装置用于接收捕获所述输入图像的所述图像传感器的具体图像传感器类型的指示，其中所述装置用于提供所述指示作为所述模型的输入。

7.根据权利要求中任一项所述的装置(901)，其特征在于，所述装置包括具有捕获所述输入图像的所述图像传感器(902)的成像设备，并且所述装置用于：使用所述成像设备生成所述输入图像，以及提供所述具体图像传感器类型的指示作为模型的输入。

8.根据前述权利要求中任一项所述的装置(901)，其特征在于，所述模型用于根据所述图像传感器(902)的噪声参数估计所述至少一个噪声统计量。

9.根据权利要求8所述的装置(901)，其特征在于，所述噪声参数中的至少一个是可学习的。

10.根据前述权利要求中任一项所述的装置(901)，其特征在于，所述经过训练的人工智能模型是神经网络。

11.根据权利要求10所述的装置(901)，其特征在于，所述神经网络包括具有第一路径(301)和第二路径(302)的编码器-解码器生成器架构。

12.根据权利要求11所述的装置(901)，其特征在于，所述第一(301)和所述第二(302)路径的解码器的权重共享。

13.根据权利要求11或12所述的装置(901)，其特征在于，所述第一路径(301)用于充当执行回归的生成器，并通过所述第二路径(302)增强，所述第二路径(302)促进所述生成器从所述输入图像中减去所述噪声模式的所述细化估计。

14.根据前述权利要求中任一项所述的装置(901)，其特征在于，所述输入图像是RGB图像或RAW图像。

15.一种用于图像降噪的方法(700)，其特征在于，所述方法包括：

接收(701)由图像传感器捕获的输入图像；

执行经过训练的人工智能模型，以：

形成(702)所述输入图像中的噪声模式的估计；

16.一种用于训练模型以对图像执行降噪的方法(800)，其特征在于，所述方法包括：

接收(801)多个输入图像(304)，每个输入图像由图像传感器(902)捕获；

接收(802)多个噪声签名(306)；

接收(803)捕获所述多个输入图像的所述图像传感器的至少一个噪声统计量(308)；

对于所述多个输入图像中的每一个：

(i)选择(804)所述多个噪声签名(306)中的一个，并将所述噪声签名应用于所述输入图像(304)以形成噪声输入图像(305)；

(ii)通过在所述噪声输入图像上实施所述模型的候选版本，形成(805)所述输入图像中的第一噪声估计和捕获所述输入图像的所述图像传感器的至少一个噪声统计量的第一估计。

(iii)根据所述至少一个噪声统计量的所述第一估计，细化(806)所述第一噪声估计；

(iv)通过从所述噪声输入图像(305)中减去所述细化第一噪声估计来形成(807)相应输入图像(307)的估计；

(v)通过在所述相应输入图像、选定的噪声签名和捕获所述相应输入图像的所述图像传感器的所述至少一个噪声统计量上实施所述模型的所述候选版本，形成(808)第二噪声估计(309)和所述至少一个噪声统计量的第二估计(310)；

(vi)根据(a)所述相应输入图像(304)和所述相应输入图像(307)的所述估计之间的差异，(b)所述第二噪声估计(309)和所述选定的噪声签名(306)之间的差异，和(c)所述至少一个噪声统计量(310)的所述第二估计和捕获所述相应输入图像(304)的所述图像传感器的所述至少一个噪声统计量(306)之间的差异来调整(809)所述模型的所述候选版本。

17.根据权利要求16所述的方法，其特征在于，所述形成步骤(ii)在第一路径(301)中执行，所述形成步骤(v)在第二路径(302)中执行。

18.根据权利要求17所述的方法，其特征在于，所述第一(301)和所述第二(302)路径中的每一个包括编码器-解码器网络。

19.根据权利要求18所述的方法，其特征在于，所述第一(301)和所述第二(302)路径的解码器的权重共享。

20.根据权利要求17至19中任一项所述的方法，其特征在于，所述第一路径(301)和所述第二路径(302)分别基于全卷积网络。

21.根据权利要求17至20中任一项所述的方法，其特征在于，所述第二路径(302)实施无监督学习方法。

22.根据权利要求17至21中任一项所述的方法，其特征在于，所述第一路径(301)包括一个或多个跳过连接(603)。

23.根据权利要求16至22中任一项所述的方法，其特征在于，所述多个输入图像(304)中的每一个是RAW图像或RGB图像。

24.根据权利要求16至23中任一项所述的方法，其特征在于，所述模型是卷积神经网络。

25.一种用于训练模型以对图像执行降噪的设备(901)，其特征在于，所述设备具有用于执行权利要求16至24中任一项所述方法的步骤的处理器(904)。