CN114556897B

CN114556897B - 原始到rgb的图像转换

Info

Publication number: CN114556897B
Application number: CN201980101445.XA
Authority: CN
Inventors: 弗朗西斯卡·巴比洛尼; 伊奥安尼斯·马拉斯; 阿莱斯·莱昂纳迪斯; 格雷戈里·斯拉堡
Original assignee: Huawei Technologies Co Ltd
Current assignee: Huawei Technologies Co Ltd
Priority date: 2019-10-18
Filing date: 2019-10-18
Publication date: 2023-04-18
Anticipated expiration: 2039-10-18
Also published as: US11997246B2; EP4035346A1; US20220247889A1; WO2021073747A1; CN114556897A

Abstract

一种图像处理器，包括用于将原始图像转换为输出图像的多个处理模块，所述模块包括第一模块和第二模块，每个模块实现各自训练的人工智能模型，其中，所述第一模块用于实现从所述原始图像恢复亮度的图像转换操作，所述第二模块用于实现从所述原始图像恢复色度的图像转换操作。

Description

原始到RGB的图像转换

技术领域

本发明涉及数字摄影，尤其涉及将图像传感器采集的原始数据转换为高质量的RGB图像。

背景技术

将图像传感器采集的原始数据转换为高质量的RGB图像无疑进行了去噪、去马赛克、高动态范围压缩和着色。传统上，这些操作作为图像信号处理(image signalprocessing，简称ISP)流水线的一部分来执行。ISP流水线是有效的，且随着数字信号处理(以及最近的人工智能(artificial intelligence，简称AI))的进步而发生了很大程度的演进。但是，现代ISP流水线已经变得很复杂，依赖于很多处理阶段。流水线早期的任何错误都会影响后期的处理。

尤其是在暗光场景中，由于低信噪比(signal-to-noise ratio，简称SNR)，原始到RGB的转换挑战性很高。在这种设置下，噪声严重破坏了数据，渲染噪声去除、动态范围压缩和颜色估计是一个难题。

传统上，基于标准信号处理方法，ISP依赖于复杂的顺序步骤流水线。ISP流水线的要求如下：i)调整大量暴露的参数；和ii)利用噪声分布的详细的先验知识和假设以及摄像头传感器。当假设不成立时，摄像头传感器可能会崩溃。

最近，实现为单个原始到RGB的转换的基于卷积神经网络(convolutional neuralnetwork，简称CNN)的深度学习方法比执行多个处理阶段(例如，去马赛克、去噪和颜色增强)的传统ISP性能更好。使用单个CNN减轻了噪声放大和误差累加。这在照明极低(例如，1勒克斯光照)的场景中尤其如此，如Chen等人在《CVPR 2018会议录》的第3291至3300页中的《学习在黑暗中看世界》中描述的场景。尽管如此，传统的基于AI的ISP方法可以生成包含伪影、不忠实颜色和过光滑细节的图像，尤其是在低信噪比信号(例如在照明严重受限(例如，月光)或短曝光(理想情况下为视频速率)的情况下获取的信号)的情况下。

在图1(a)至图1(c)中可以看到示例，图1(a)至图1(c)示出了暗光成像中的原始到RGB的转换(于2018年来自Chen等人)。图1(a)示出了在暗光(约1勒克斯)下从摄像头捕获的典型的短曝光原始图像。由于短曝光和到达成像传感器的光量有限，图像变得黑暗。数据是在形成第二行示出的红色、绿色和蓝色像素的镶嵌的拜耳阵列上捕获的。在图1(b)中，使用传统ISP，可以通过应用去噪、去马赛克、亮度转换和颜色映射等多种操作将原始数据转换为传统图像。但是，仍有残留噪声，且颜色不准确。图1(c)示出了使用Chen等人的依赖于深度学习的方法获得的结果。该方法利用单个卷积神经网络将原始输入转换为RGB输出，实现了更好的降噪和颜色重建。图像比使用传统ISP时的更亮，颜色更生动。尽管有所改进，但图像颜色差，细节恢复难。

因此，传统的方法可能无法在暗光下生成高质量的RGB图像，基于AI的方案在噪声电平、细节质量和颜色估计等方面的性能有限。

需要开发一种改进的用于将原始图像转换为RGB图像的方法，以克服这些问题。

发明内容

根据一方面，提供了一种图像处理器，包括用于将原始图像转换为输出图像的多个处理模块，所述模块包括第一模块和第二模块，每个模块实现各自训练的人工智能模型，其中，所述第一模块用于实现从所述原始图像恢复亮度的图像转换操作，所述第二模块用于实现从所述原始图像恢复色度的图像转换操作。所述第一模块实现的图像转换操作可能无法从所述原始图像恢复色度。所述第二模块实现的图像转换操作可能无法从所述原始图像恢复亮度。

因此，图像处理器分别从原始图像恢复亮度和颜色，从而可提高图像质量。原始图像可以是暗光图像(即，在暗光条件(例如，约0.01至10勒克斯光照的量级)下捕获的图像)。尤其是在暗光或低SNR条件下，与传统的ISP和最先进的深度学习技术相比，图像处理器可以生成具有降噪效果更好、细节更详细、颜色更忠实的图像。

原始图像可以位于第一颜色空间，输出图像可以位于与第一颜色空间不同的第二颜色空间。通过颜色空间转换分别从原始图像恢复亮度和颜色可以提高图像质量。

原始图像可以位于RGB颜色空间，输出图像可以位于LAB颜色空间，从而使得与亮度和颜色相关的贡献更容易分离。

第一模块可以用于输出L通道中的图像数据，第二模块可以用于输出A和B通道中的图像数据。在LAB颜色空间中分别从原始图像恢复亮度和颜色可以提高图像质量。

所述图像处理器还可以用于将所述输出图像转换到RGB颜色空间。因此，一旦在不同的颜色空间中恢复出亮度和颜色，可以将所述图像转换到RGB颜色空间。

所述第一模块实现的图像转换操作可以根据从所述原始图像中提取的信息的空间相关性进行，和/或所述第二模块实现的图像转换操作可以根据从所述原始图像的特征中提取的信息的相关性进行。亮度模块可以根据空间自相似性度量进行其操作。颜色模块可以根据通道相似性度量执行其操作。通过自相似性可以提高图像质量。

各自的人工智能模型可以是各自的神经网络。这可能是一种方便的实施方式。

所述第二模块实现的图像转换操作可以根据实现第一模块实现的图像转换操作的神经网络的中间状态或最终状态进行。因此，亮度模块和颜色模块实现的操作可以进行链接，从而促进图像的亮度特征着色。

每个神经网络均可以包括自注意力机制，每个自注意力机制用于确定从所述原始图像中提取的信息的相关性，从而可以为原始图像确定空间和颜色自相似性度量。

所述第一模块可以用于确定从所述原始图像中提取的信息的空间相关性，所述第二模块实现的图像转换操作是根据所述空间相关性进行的。因此，所述图像处理器可以基于这两个任务对从图像亮度和颜色中提取的信息进行融合，以创建相互指导，从而产生图像的相干表示。

根据第二方面，提供了一种用于在包括多个模块的图像处理器中将原始图像转换为输出图像的方法。所述模块包括第一模块和第二模块，每个模块实现各自训练的人工智能模型，所述方法包括：在所述第一模块中实现从所述原始图像恢复亮度的图像转换操作；以及在所述第二模块中实现从所述原始图像恢复色度的图像转换操作。所述第一模块实现的图像转换操作可能无法从所述原始图像恢复色度。所述第二模块实现的图像转换操作可能无法从所述原始图像恢复亮度。

因此，所述方法分别从原始图像恢复亮度和颜色，从而可提高图像质量。尤其是在暗光或低SNR条件下，与传统方法相比，所述方法可以生成具有降噪效果更好、细节更详细、颜色更忠实的图像。

所述方法还可以包括：根据从所述原始图像中提取的信息的空间相关性进行在所述第一模块中实现的图像转换操作，和/或根据从所述原始图像的特征中提取的信息的相关性进行在所述第二模块中实现的图像转换操作。亮度模块可以根据空间自相似性度量进行其操作。颜色模块可以根据通道相似性度量执行其操作。通过自相似性可以提高图像质量。

所述方法还可以包括：根据实现在所述第一模块中实现的图像转换操作的神经网络的中间状态或最终状态进行在所述第二模块中实现的图像转换操作。因此，每个模块实现的操作可以进行链接，从而促进图像的亮度特征着色。

所述方法还可以包括：在所述第一模块中确定从所述原始图像中提取的信息的空间相关性，并根据所述空间相关性进行在所述第二模块中实现的图像转换操作。因此，所述方法可以基于这两个任务对从图像亮度和颜色中提取的信息进行融合，以创建相互指导，从而产生图像的相干表示。

附图说明

现将参考附图通过示例的方式对本发明进行描述。在附图中：

图1(a)至图1(c)示出了暗光成像中原始到RGB的转换的示例(来自Chen等人的《CVPR2018会议录》中第3291至3300页中的《学习在黑暗中看世界》)，其中，图1(a)示出了在暗光(约1勒克斯)下从摄像头捕获的典型的短曝光原始图像，数据是在形成第二行示出的红色、绿色和蓝色像素的镶嵌的拜耳阵列上捕获的，图1(b)示出了使用传统ISP的结果，图1(c)示出了使用Chen等人的依赖深度学习的方法的结果；

图2(a)示出了RGB颜色空间的表示；

图2(b)示出了两个原始RGB图像及其分量；

图3(a)示出了CIELAB颜色空间(也简称为“LAB”颜色空间)的表示，其中，该空间将颜色表示为以下三个值之和：一个亮度通道(L)和两个反色通道(A和B)；

图3(b)示出了图2(b)所示的相同样本图像的三个分量L、A、B；

图4(a)示出了传感器上的标准拜耳滤色阵列，其中，在每个像素处，获取蓝色、绿色或红色；

图4(b)示出了如何将镶嵌图像打包成代表R、G1、G2和B颜色的四个颜色通道，其中，在打包形式中，每个颜色通道的空间分辨率是原始镶嵌图像分辨率的一半；

图5示出了用于将原始图像转换为RGB图像的图像处理系统的高层结构的示例，其中，所提出的深度学习方法基于LAB颜色空间应用两个子网；

图6示出了图像处理器的优选实施例；

图7(a)示出了计算亮度模块中使用的空间自相似性的非局部块；

图7(b)示出了计算颜色模块中使用的通道自相似性的非局部块；

图8为用于从原始数据估计亮度(L通道)的亮度模块的示意图；

图9为用于从原始数据估计颜色(A和B通道)的颜色模块的示意图；

图10示出了一种用于精细化图像处理器中摄像头捕获的原始图像的方法；

图11示出了用于实现本文所述的图像处理器和方法以处理摄像头中的图像传感器拍摄的图像的摄像头的示例；

图12(a)和图12(b)示出了使用本文所述的方法获得的结果的示例，其中，图12(a)示出了原始输入，图12(b)示出了所生成的RGB输出；

图13(a)至图13(c)示出了使用本文所述的方法获得的结果的另一个示例，其中，图13(a)示出了用于与使用图13(b)中的Chen等人的方法和图13(c)中所述的方法的结果进行比较的地面真值长曝光图像。

具体实施方式

本发明涉及一种基于AI的ISP流水线，能够将原始图像传感器数据转换为高质量的RGB图像。

特别地，图像处理器包括亮度模块和颜色(或色度)模块，该亮度模块为用于恢复亮度(表示图像亮度、纹理和细节的灰度图像)的基于AI的ISP模块，该颜色(或色度)模块为用于恢复忠实图像颜色的基于AI的ISP模块。

图像处理器可以有利地利用颜色空间转换来分别从原始图像恢复亮度和颜色。此外，图像处理器可以将亮度和颜色模块进行链接，从而促进图像的亮度特征着色。

图2(a)示出了RGB颜色空间的表示。RGB颜色模型为加性颜色模型，其中，红、绿和蓝光以不同的量相加在一起，以生成广泛的颜色阵列。颜色表示为RGB三元组(r,g,b)，其中，每个分量可以从零变化到定义的最大值。如果所有分量均为零，则结果为黑色；如果所有分量均为最大值，则结果为最亮的可表示的白。图2(b)示出了两个原始RGB图像及其r、g、b分量。在RGB颜色空间中，与亮度和颜色相关的信息混合在一起，使得原始到RGB的转换更加复杂。

为了将原来的原始到RGB的问题解耦到其子分量中，所提出的ISP流水线的优选实施方式在不同的颜色空间中实施，其中，与亮度和颜色相关的贡献更容易分离。适合本申请的颜色空间为LAB颜色空间，尽管也可以使用其它合适的颜色空间。

图3(a)示出了CIELAB颜色空间(也简称为“LAB”颜色空间)的表示，其中，该空间将颜色表示为以下三个值之和：一个亮度通道(L)和两个反色通道(A和B)。L通道编码图像灰度亮度，A和B通道编码颜色。亮度通道表示从黑色(0)到白色(100)的亮度范围。A的范围为绿色(–)到红色(+)，B的范围为蓝色(–)到黄色(+)。与RGB颜色模型不同，LAB颜色模型旨在逼近人类视觉。在该模型中，一个人感知的颜色差异对应于CIELAB中的欧几里德距离。图3(b)示出了图2(b)中所示的相同样本图像的三个分量L、A、B。

本文所述的系统具有专用模块，用于从原始数据估计亮度(L通道)和颜色(A和B通道)。

在一个非限制性实施例中，作为图像处理器输入的原始数据为使用滤色阵列(color filter array，简称CFA)形成的图像，该滤色阵列，例如，使用如图4(a)所示的众所周知的拜耳阵列，在每个像素处捕获特定颜色的光。该阵列具有遍布图像的周期性2×2镶嵌。在每个像素处，获取红色40、绿色41或蓝色42。通常，捕获的原始数据的动态范围大，例如，可以代表每种红色、绿色或蓝色的1024个不同级别的10比特数据。以这种格式捕获的图像被称为镶嵌。

如下面将进行更详细描述的，在优选实施例中，图像处理器的两个模块使用卷积神经网络(convolutional neural network，简称CNN)来处理镶嵌图像。CNN获知通过卷积应用于图像的滤波器集合。卷积旨在具有空间不变性，也就是说，当应用到图像中的任何位置时，卷积具有相同的效果。然而，在镶嵌图像上应用卷积的潜在问题是，由于CFA，卷积不再具有空间不变性。例如，当滤波器以蓝色像素为中心时，它可能具有不同于以红色像素为中心时的效果。解决此问题的简单方法是将数据打包成类似颜色的通道，然后每个通道都可以在CNN中使用空间不变卷积进行处理。在图4(b)中，将镶嵌图像打包成四个颜色通道，分别表示R、G1、G2和B颜色43、44、45和46。在打包形式中，每个颜色通道的空间分辨率是原始镶嵌图像分辨率的一半。系统的两个网络都接收打包的RAW作为输入。

图5示出了用于将原始图像501转换为RGB图像502的图像处理系统500的高层结构的示例。流水线采用原始传感器输入501，该原始传感器输入501为在滤色阵列(拜耳阵列)上采样的高度×宽度×大小为H×W×1的一个通道的矩阵。对原始图像进行打包，如503所示。深度学习方法基于LAB颜色空间应用两个子网，如504和505所示。CNN子网504重建与图像灰度亮度相关的亮度(L)，表示包括高频细节的纹理、边缘和图像结构。本模块的输入为原始H×W×1数据，输出为H×W×1数据，提供亮度通道(L)，如506所示。CNN子网505估计与图像颜色相关的图像色度(AB)。本模块的输入为原始H×W×1数据，输出为两个色度通道(AB)对应的H×W×2数据，如507所示。

将两个子网的输出进行组合，以在大小为H×W×3的LAB颜色空间中生成三通道输出508，然后基于固定转换将其转换为RGB域，得到RGB图像502。

将两个模块执行的过程链接在一起，如在509处所示的虚线箭头所示。通过链接机制，如下文将进行更详细描述的，亮度信息用于生成更高质量的颜色输出。

因此，所提出的方法使用两个并行的链接模块(即两个单独的CNN)从相同的原始信号中提取不同的信息。CNN从原始输入数据中提取高维图像表示，其中，输入的每个区域被映射到点/位置，该点/位置由一定数量的滤波器激活或通道描述。

直观地，大多数图像呈现出自相似性，其中，图像的局部部分与图像的另一部分高度相似(或相关)。例如，砖墙的图像可能包含由于图像中的重复砖块导致的许多重复视觉图案。利用这种自相似性对于去噪和其它图像处理操作可能是重要的，因为视觉图案的每个实例可能具有不同的噪声模式但具有相似的底层结构。通过利用自相似性，即使在图像中距离较远，算法也可以较好地推断出图像的内容，尽管存在噪声。这一概念已经在包括BM3D，即Dabov和Kostadin等人在《IEEE图像处理交易》(16(8)：2007)中提出的《三维稀疏变换域协同滤波图像去噪》在内的许多图像处理方法中得以使用。

在统计学和相关领域中，自相关是输入的不同部分之间相似性的一个常见度量。更一般地，相似性函数是量化两个信号之间相似性的实值函数。虽然相似性度量不存在单一定义，但这些度量在某种意义上通常是距离度量的倒数：它们对于相似的信号采用较大的值，对于非常不相似的对象采取零值或负值。在计算机视觉中，可以使用自相似性度量来总结输入图像的不同部分之间的关系以及非相邻区域之间的模型依赖关系。相同的自相似性度量可以根据表示来描述不同的事物。

本系统的优选实施例在处理图像时使用基于深度学习的自相似性机制(self-similarity mechanism，简称SSM)的两个不同的互补版本，即空间和颜色自相似性。在Mitsuhara和Masahiro等人的《通过注意力图将人类知识嵌入深度神经网络》arXiv预印本arXiv：1905.03540(2019)和Johnson·J、Alahi·A和Fei-Fei·L(2016年10月)的欧洲计算机视觉会议《基于感知损失函数的实时风格转换和超分辨率重建》(第694至711页)中，可以看到空间和颜色自相似性的示例。

在亮度模块中，系统依赖于空间自相似性度量。该度量综合了不同图像补丁之间的空间交互，并使用输入信号的位置二阶统计量计算。因此，亮度模块实现的图像转换操作根据从原始图像中提取的信息的空间相关性进行。这样，通过图像中所有可能的位置对之间的相似性信息的表示丰富了亮度模块。这些关系被视为图像内容的突出且密集的表示。

颜色模块通过计算通道相似性度量来利用颜色分量之间的关系。该度量通过计算输入信号的二阶统计量来找到。由于该模块关注图像颜色估计，因此其输入通过表示所有可能的特征通道对之间的相似性来丰富。这些关系表示输入图像的“样式”(例如，图案和颜色方案)的全局描述，因为它们与任何特定图像位置无关，而描述不同CNN的滤波器激活之间的交互。例如，如果图像中包含映有天空晴朗的湖泊，那么与平滑区域和蓝色相关的滤波器将具有高激活值和高相关性。因此，由颜色模块实现的图像转换操作根据从原始图像的特征中提取的信息的相关性进行。

如图5中的箭头509所示，系统通过融合机制链接亮度和颜色估计子问题。在每个模块中，独立地从同一输入原始图像中提取关于图像亮度和颜色的信息。然后，本文描述的方法通过结合显式自注意力机制(例如，非局部块)来融合从图像亮度和颜色中提取的信息，基于这两个任务创建相互指导，从而产生图像的相干表示。

图6提供了利用空间和信道相关性的图像处理系统600的优选但非限制性的实施例的高层表示。

如602所示，对原始输入数据601进行打包，并进入亮度恢复603和颜色恢复604的阶段。亮度恢复603和颜色恢复604分支为卷积神经网络(convolutional neural network，简称CNN)，链接机制605通过自相似性来利用空间和信道维度之间的相关性或相似性。这样，图像的不同部分可以相互支持，从而在颜色恢复分支604中更准确地估计颜色信息。将两个CNN603和604链接在一起，使得结构恢复模块的瓶颈处的亮度特征转移到颜色恢复模块的瓶颈处，从而可以提高基于图像亮度内容的颜色估计。

将输出通道L(如606所示)以及A和B(如607所示)级联在一起，生成H，W，3矩阵608。可以应用固定转换609将LAB通道转换为RGB域，以得到最终图像610。每个CNN均包括自注意力机制，该自注意力机制确定从原始图像中提取的信息的相关性(亮度模块中的空间相关性和颜色模块中的通道相关性)。现在将描述一个使用非局部块(如Wang·X、Gishick·R、Gupta·A和He·K的《IEEE计算机视觉和模式识别会议录》(2018版，第7794至7803页)中《非局部神经网络》中所述)作为自注意力机制的优选实施例。

卷积运算为一次处理一个局部邻域的构建块。因此，仅当重复应用这些运算时，才能捕获长期的依赖关系。这有若干限制，例如计算效率低下且优化困难。如图7(a)和图7(b)所示，非局部块是一个自相似性模块，其通过关注嵌入空间中的所有其它元素并取其加权平均值来计算序列中元素的响应。该方法处理所有可能的对并计算它们各自的相似性分数，生成注意力图。与原始输入图像的表示相乘将该相似性信息集成在输出特征中。之后，通过残差连接将输出与原始输入特征相加，以增强图像表示。

图7(a)和图7(b)分别强调了亮度模块和颜色模块中网络使用的空间和通道非局部块之间的差异。亮度注意力图(如图7(a)中的701所示)计算空间位置(即位置×位置)之间的相似性，而颜色注意力图(如图7(b)中的702所示)关注所有可能的图像通道对之间的相似性。

亮度模块的CNN设计的优选实施例如图8所示。

该网络采用原始单通道输入801，然后对其进行打包，如802所示，并通过U-Net进行处理，如Ronneberger Olaf等人在Springer LNCS医学图像计算和计算机辅助干预(MICCAI)中的2015版第9351卷234至241页中的《U-Net：用于生物医学图像分割的卷积网络》所述。这是一种“完全卷积”网络，使用具有跳跃连接的编码器-解码器架构。网络的编码器和解码器部分通常分别如803和804所示。

编码器部分803以连续五层处理原始输入。每层针对其输入应用两组3×3卷积滤波器(结合ReLU激活函数)和一个“最大池化”操作。第一卷积将滤波器(即信道)的数量增加两倍。最大池化操作将空间图像分辨率降低两倍(即从H,W,C到H/2,W/2,C)。对图像进行多尺度处理，网络适应不同频率内容。这就生成了输出通道，这些输出通道捕获数据中固有的、与亮度估计任务相关的特征。

在网络的编码器803和解码器804部分之间，非局部块(如图8中的U-Net底部的箭头805所示)集成了关于位置(即空间)自相似性的信息。亮度模块中使用的非局部块805计算空间位置相关性。它以编码器特征(H/32,W/32,512)作为输入并生成具有相同维度的矩阵作为输出。

解码器部分804以连续四层的两组3×3卷积滤波器和转置卷积运算处理非局部块805的输出。转置卷积为上采样层，该上采样层在每个维度(宽度和高度)将空间分辨率增加两倍，并将滤波器的数量降低两倍。对每一层的输入是以下内容的级联：i)来自编码部分的与相同空间分辨率相关的高分辨率特征，以及ii)前一个解码层的输出(即空间上采样特征)。后续两个卷积基于级联输入学习组合更精确的输出。

训练期间，网络学习卷积滤波器。这可以通过训练对来完成，每个训练对包括输入原始图像和参考图像，该参考图像被用作地面真值(ground truth，简称GT)。卷积滤波器初始设置为随机值。将镶嵌图像输入网络，网络回归输出图像。回归的输出图像与GT图像之间的差异构成误差，该误差进而通过梯度经由网络从输出反向传播到输入。然后，更新网络的权重以减少误差。训练过程使用大量图像集合进行迭代，直到网络权重收敛。

一旦网络经过训练，它可以应用于原始输入数据以恢复其亮度通道，如806所示。

颜色模块的CNN设计的优选实施例如图9所示。与亮度模块类似，颜色模块采用具有下采样的五层编码器(通常如901所示)、非局部块902以及具有上采样的五层解码器(通常如903所示)的U-Net架构实现。

颜色模块中使用的非局部块902计算信道相关性。非局部块902以编码器特征(H/32,W/32,512)作为输入，并生成具有相同维度的矩阵作为输出。非局部块902的输出与亮度模块的非局部块805的输出(即来自结构恢复阶段的信息)级联，生成(H/32,W/32,1024)矩阵。因此，颜色模块实现的图像转换操作根据实现亮度模块实现的图像转换操作的神经网络的中间状态进行。后续两个卷积基于级联输入学习组合更精确的输出。

训练期间，颜色模块学习卷积滤波器中使用的权重，并通过反向传播进行上采样，如上所述。训练过程使用大量图像集合进行迭代，直到网络权重收敛。一旦网络经过训练，它可以应用于原始输入数据以生成A和B颜色通道，如905所示。

因此，在一种优选的实施方式中，将原始图像传感器数据转换为高质量的RGB图像的基于AI的ISP流水线为单个深度神经网络的形式，该单个深度神经网络包括在图像的不同方面运行的两个单独但链接的模块。

图10总结了本发明提供的一种用于转换图像处理器中摄像头捕获的原始图像的方法。如上所述，图像处理器包括第一模块和第二模块，每个模块实现各自训练的人工智能模型。该方法包括：在步骤1001中，在第一模块中实现从原始图像恢复亮度的图像转换操作。在步骤1002中，在第二模块中实现从原始图像中恢复色度的图像转换操作。

图11示出了用于实现图像处理器以处理摄像头1101中的图像传感器1102拍摄的图像的摄像头的示例。该摄像头1101通常包括一些板载处理能力。这可以由处理器1104提供。处理器1104也可以用于设备的基本功能。摄像头通常还包括存储器1103。

收发器1105能够通过网络与其它实体1110和1111进行通信。这些实体可以物理上远离摄像头1101。网络可以是公共可访问的网络，例如互联网。实体1110和1111可以基于云。在一个示例中，实体1110为计算实体，实体1111为命令和控制实体。这些实体是逻辑实体。实际上，它们中的每一个均可以由一个或多个物理设备(例如，服务器和数据存储器)提供，两个或两个以上实体的功能可以由单个物理设备提供。实现实体的每个物理设备包括处理器和存储器。设备还可以包括收发器，用于向摄像头1101的收发器1105发送数据和从摄像头1101的收发器1105接收数据。存储器以非瞬态方式存储代码，该代码由处理器执行，以通过本文所述的方式实现相应的实体。

命令和控制实体1111可以训练在系统的每个模块中使用的人工智能模型。这通常是一个计算密集型任务，即使可以有效地描述所得到的模型。因此，在云中执行算法的开发可能是有效的。其中，可以预期的是，很多能量和计算资源是可得到的。可以预见，这比在一般摄像头中形成这样的模型更有效。

在一种实施方式中，一旦在云中开发了深度学习算法，命令和控制实体可以自动形成相应的模型，并使其传输到相关的摄像头设备。在该示例中，系统由处理器1104在摄像头1101中实现。

在另一种可能的实施方式中，摄像头传感器1102可以捕获图像，图像数据可以由收发器1105发送到云以在系统中进行处理。然后，得到的目标图像可以发送回摄像头1101，如图11中的1112所示。

因此，该方法可以以多种方式部署，例如，在云中、设备上或专用硬件中。如上文所示，云设施可以进行训练以开发新算法或精细化现有算法。根据接近数据语料库的计算能力，训练可以，例如，通过推理引擎，在靠近源数据的地方进行，也可以在云中进行。系统也可以在摄像头、专用硬件或云中实现。

图12示出了使用本文所述的方法获得的结果的示例。图12(a)示出了原始输入，图12(b)示出了RGB输出。图13示出了使用不同方法获得的针对图12(a)的原始图像的区域的结果的比较。图13(a)示出了用于比较的地面真值长曝光图像。图13(b)示出了最先进的深度学习方法(Chen等人，2018年)。虽然图像具有良好的去噪效果，但与地面真值相比，图像的细节模糊且颜色不太忠实。图13(c)示出了使用所提出的方法获得的图像，其与基线相比，估计更清晰的边缘和更逼真的颜色。

因此，本文所述的方法可以提高图像质量。尤其是在暗光或低SNR条件下，与传统的ISP和最先进的深度学习技术相比，所提出的方法可以生成降噪效果更好、细节更详细、颜色更忠实的图像。

在另一种实施方式中，提供了一种用于将原始图像转换为输出图像的计算机代码。当程序代码由计算机执行时，使得计算机实现第一训练的人工智能模型，用于进行从原始图像恢复亮度的图像转换，以及第二训练的人工智能模型，用于执行从原始图像恢复色度的图像转换。上述方法的操作可以在程序代码中实现。

申请人在此独立地公开了本文所述的每个单独的特征以及两个或两个以上这样的特征的任何组合。只要这些特征或组合能够基于本说明书作为整体根据本领域技术人员的常识来执行，不管这些特征或特征的组合是否解决了本文公开的任何问题，不限于权利要求的范围。申请人指出本发明的各方面可以包括任何这样的单独的特征或特征组合。鉴于前面的描述，对于本领域技术人员显而易见的是，可以在本发明的范围内进行各种修改。

Claims

1.一种图像处理器，其特征在于，包括用于将原始图像转换为输出图像的多个处理模块，其中，所述模块包括第一模块和第二模块，每个模块实现各自训练的人工智能模型，所述各自训练的人工智能模型为各自的神经网络，其中：

所述第一模块用于实现从所述原始图像恢复亮度的图像转换操作；以及

所述第二模块用于实现从所述原始图像恢复色度的图像转换操作，所述第二模块实现的图像转换操作是根据实现所述第一模块实现的图像转换操作的神经网络的中间状态或最终状态进行的。

2.根据权利要求1所述的图像处理器，其特征在于，所述原始图像位于第一颜色空间，所述输出图像位于与所述第一颜色空间不同的第二颜色空间。

3.根据权利要求2所述的图像处理器，其特征在于，所述原始图像位于RGB颜色空间，所述输出图像位于LAB颜色空间。

4.根据权利要求3所述的图像处理器，其特征在于，所述第一模块用于输出L通道中的图像数据，所述第二模块用于输出A和B通道中的图像数据。

5.根据权利要求1-3任一权利要求所述的图像处理器，其特征在于，所述图像处理器还用于将所述输出图像转换到RGB颜色空间。

6.根据权利要求1至3任一权利要求所述的图像处理器，其特征在于，所述第一模块实现的图像转换操作是根据从所述原始图像中提取的信息的空间相关性进行的，和/或所述第二模块实现的图像转换操作是根据从所述原始图像的特征中提取的信息的相关性进行的。

7.根据权利要求1所述的图像处理器，其特征在于，每个神经网络均包括自注意力机制，

每个自注意力机制用于确定从所述原始图像中提取的信息的相关性。

8.根据权利要求1至3、7任一权利要求所述的图像处理器，其特征在于，所述第一模块用于确定从所述原始图像中提取的信息的空间相关性，所述第二模块实现的图像转换操作是根据所述空间相关性进行的。

9.一种用于在包括多个模块的图像处理器中将原始图像转换为输出图像的方法，其特征在于，所述模块包括第一模块和第二模块，每个模块实现各自训练的人工智能模型，所述各自训练的人工智能模型为各自的神经网络，所述方法包括：

在所述第一模块中实现从所述原始图像恢复亮度的图像转换操作；以及

在所述第二模块中根据在所述第一模块中实现的图像转换操作的神经网络的中间状态或最终状态实现从所述原始图像恢复色度的图像转换操作。

10.根据权利要求9所述的方法，其特征在于，所述原始图像位于第一颜色空间，所述输出图像位于与所述第一颜色空间不同的第二颜色空间。

11.根据权利要求9或10所述的方法，其特征在于，所述方法还包括：根据从所述原始图像中提取的信息的空间相关性进行在所述第一模块中实现的图像转换操作，和/或根据从所述原始图像的特征中提取的信息的相关性进行在所述第二模块中实现的图像转换操作。

12.根据权利要求9或10所述的方法，其特征在于，所述方法还包括：在所述第一模块中确定从所述原始图像中提取的信息的空间相关性，并根据所述空间相关性进行在所述第二模块中实现的图像转换操作。

13.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质中存储的计算机代码由计算机执行时，使得所述计算机实现：

第一训练的神经网络，用于进行从原始图像恢复亮度的图像转换；以及

第二训练的神经网络，用于根据在所述第一训练的神经网络的中间状态或最终状态进行从所述原始图像恢复色度的图像转换。