CN112529775A

CN112529775A - 一种图像处理的方法和装置

Info

Publication number: CN112529775A
Application number: CN201910882529.3A
Authority: CN
Inventors: 王银廷; 张熙; 李瑞华; 张丽萍; 黄一宁; 雷奕; 郑祖全; 张一帆; 李欣; 杨小伟
Original assignee: Huawei Technologies Co Ltd
Current assignee: Huawei Technologies Co Ltd
Priority date: 2019-09-18
Filing date: 2019-09-18
Publication date: 2021-03-19
Also published as: EP4024323A1; EP4024323A4; WO2021051996A1; US20220207680A1

Abstract

本申请实施例公开了人工智能领域中计算机视觉技术中的一种图像处理的方法、框架和装置，该方法包括：获取多帧RAW图像，对获取的多帧RAW图像进行图像对齐、通道拆分、像素重组等预处理之后，基于深度学习网络对图像进行细节恢复，并对深度学习网络输出的图像进行亮度增强和颜色增强，本申请实施例将细节恢复相关的多种处理均融合在同一个深度学习网络中，避免了多种处理串行进行时不同处理之间的相互影响，且有效融合了多帧图像的有效信息，有助于更好提升图像处理的效果。

Description

一种图像处理的方法和装置

技术领域

本申请涉及人工智能领域，尤其涉及计算机视觉技术中的一种图像处理的方法和装置。

背景技术

拍照已经成为各种移动终端如手机、平板电脑、智能眼镜、穿戴式设备等最常用的功能之一，而对图像细节的还原能力、图像清晰度等可以认为是衡量拍照质量最重要的评价标准。然而，现如今移动终端设备越加轻薄化，对移动终端体积的限制更加严格，导致移动终端相机的物理器件与单反相机存在一定的差距。因此，需要通过算法对图像进行处理，在保证移动终端轻薄特性的前提下，尽可能提升图像的细节和清晰度。

通常情况下，摄像头获取的图像为未经处理的RAW图像，从RAW图像转换到红绿蓝(Red Green Blue，RGB)等可以显示的彩色图像，需要经过一系列的图像处理操作。在传统图像信号处理(Image Signal Processing，ISP)模型中，多种图像处理操作按一定的顺序依次进行，然而，由于多种图像处理操作之间是相互影响因此，采用多模块串行操作会导致错误逐步累积，降低图像的质量。

发明内容

本申请实施例提供一种图像处理的方法和装置，用于减少多模块串行操作带来的错误累积，提升图像的质量。

本申请第一方面提供了一种图像处理的方法，该方法包括：获取多帧原始RAW图像；对该多帧RAW图像进行预处理，得到第一中间图像，该预处理包括：通道拆分和像素重排列，该第一中间图像包括属于多个通道的子图像，其中，每个通道的子图像只包含一种颜色分量；基于第一深度学习网络对该第一中间图像进行处理，得到第一目标图像，该第一深度学习网络的功能包括：去马赛克DM和降噪；对该第一目标图像进行亮度增强或颜色增强中的至少一项，得到第二目标图像。

去马赛克和降噪均为与细节恢复相关的运算，而先进行去马赛克处理会影响降噪效果，先降噪会影响去马赛克的效果，本申请实施例将去马赛克和降噪均通过同一个深度学习网络来实现，避免了多种处理串行进行时不同处理的相互影响带来的错误累积，提升了图像细节恢复的效果；进一步的，本申请实施例同时输入N帧RAW图像，融合了多帧图像的有效信息，有助于更好的恢复图像细节；另一方面，在将图像输入到深度学习网络进行细节恢复之前，先对N帧图像进行通道拆分和像素重排列等预处理，提升了深度学习网络的处理效果。

在一种可能的实施方式中，第一深度学习网络的功能还包括：超分辨率SR重建，该RAW图像具有第一分辨率，该第一目标图像具有第二分辨率，该第二分辨率大于该第一分辨率。

对于有超分辨率需求的场景，去马赛克、降噪和SR处理都是细节恢复很关键的处理，并且如果先进行DM、SR处理，会放大图像的噪声或破坏原始图像的噪声形态，影响降噪的效果；如果先降噪，降噪处理带来的细节损失将无法恢复，从而影响DM、SR等处理的效果。本申请实施例中，通过训练一个深度学习网络可以同时实现去马赛克、降噪和SR重建3种功能，且通过深度学习网络对图像进行与细节恢复相关的去马赛克、降噪和SR重建，不存在先后处理顺序，避免了由于多模块串行操作带来的不同处理间的相互影响，也避免了因此导致的错误积累。

在一种可能的实施方式中，该第一深度学习网络的功能还包括：坏点校正或相位点补偿中的至少一项。

坏点校正和相位点补偿也是与细节恢复相关的算法，本申请实施例通过同一个深度学习网络同时实现去马赛克、降噪、坏点校正和相位点补偿功能，避免了多种不同处理串行进行时不同处理的相互影响带来的错误累积，提升了图像细节恢复的效果。

在一种可能的实施方式中，该预处理还包括：坏点校正或相位点补偿中的至少一项。

由于相位点的位置基本固定，且坏点校正的算法比较成熟，因此坏点和相位点可以在产线进行标定，然后可以将坏点校正和相位点补偿放在预处理中实现，这样简化了深度学习网络的计算复杂度。

在一种可能的实施方式中，该第一深度学习网络的功能还包括：锐化。

本申请实施例通过同一个深度学习网络同时实现去马赛克、降噪、锐化、坏点校正和相位点补偿功能，避免了多种不同处理串行进行时不同处理的相互影响带来的错误累积，提升了图像细节恢复的效果。

在一种可能的实施方式中，该方法还包括：对该第二目标图像进行锐化，得到第三目标图像；将该第三目标图像发送到显示屏或者存储器。

由于亮度和颜色增强可能会影响图像边缘的锐度，锐化可以不融合在第一深度学习网络中，在亮度增强和颜色增强之后，再根据实际需求对图像进行锐化，这样可以提升图像处理的效果。

在一种可能的实施方式中，该RAW图像的格式包括：RGGB格式的Bayer图像、RYYB格式的图像以及XYZW格式的图像，其中，XYZW格式的图像表示包含四种颜色分量的图像，X、Y、Z、W各代表一种颜色分量。

在一种可能的实施方式中，RGGB格式的Bayer图像、RYYB格式的图像以及XYZW格式的图像采用Quad排列，该Quad排列的最小重复单元包括的像素个数包括：16，24或32。

在一种可能的实施方式中，该RAW图像为RYYB图像或包含4个不同颜色分量的图像，在该对该第一目标图像进行亮度增强和颜色增强，得到第二目标图像之前，该方法还包括：对该第一目标图像经过颜色转换，得到RGB彩色图像；该对该第一目标图像进行亮度增强和颜色增强，得到第二目标图像，具体包括：对该RGB彩色图像进行亮度增强或颜色增强中的至少一项，得到该第二目标图像。

示例性的，包含4个不同颜色分量的图像包括：RGBIR图像或RGBW图像。

在一种可能的实施方式中，该第一深度学习网络的功能还包括：图像对齐。

在训练深度学习网络时，构建的训练数据为多帧存在差异的不对齐的图像，这样训练出的深度学习网络具备图像对齐的能力，对应的，在将数据输入第一深度学习网络之前，可以不预先进行图像配准和运动补偿，而将不对齐的N帧RAW图像直接输入网络，由网络自行实现多帧数据的对齐和融合。

应当理解，图像配准和运动补偿都是为了实现图像对齐。

在一种可能的实施方式中，该预处理还包括：图像对齐。

在一种可能的实施方式中，该预处理具体包括：对该多帧RAW图像进行通道拆分和像素重排列，得到分属M个通道的多帧子图像，其中，每个通道中的子图像的帧数等于该多帧RAW图像的帧数；分别对齐每个通道中的多帧子图像。

在一种可能的实施方式中，该分别对齐每个通道中的多帧子图像，具体包括：对齐第一通道中的多帧子图像，该第一通道为该M个通道中的任一个通道；基于对齐该第一通道时所使用的对齐方式对齐其他通道。

本申请实施例中，先进行通道拆分和像素重排列，然后选择一个通道进行对齐，再然后基于相同的对齐方式对其他通道进行对齐，简化了对齐图像时所需要的计算量。

示例的，通道拆分获得的通道的个数与该RAW图像的格式有关，通道的个数等于RAW图像的最小重复单元包括的像素的个数。

在一种可能的实施方式中，该亮度增强或颜色增强包括如下至少一项：黑电平校正BLC、自动白平衡AWB、镜头阴影校正LSC、色调映射Tone Mapping、颜色校正ColorMapping、对比度增加或者伽马gamma校正。

在一种可能的实施方式中，该预处理具体包括：对该多帧RAW图像进行黑电平校正BLC、自动白平衡AWB或镜头阴影校正LSC中的至少一项处理，得到多帧第一预处理后的RAW图像；对该多帧第一预处理后的RAW图像进行通道拆分和像素重排列，得到分属于M个通道的多帧子图像，其中，每个通道中的子图像的帧数与该多帧RAW图像的帧数相等；对齐每个通道中的多帧子图像。

本申请实施例先对输入的N帧RAW图像进行BLC、AWB以及LSC中的一项或多项处理，然后再进行图像配准、拆分通道和像素重排等处理，提升了深度学习网络进行图像细节恢复的效果。

在一种可能的实施方式中，该第一中间图像包括的子图像所属的通道数等于该RAW图像的最小重复单元包含的像素个数。

在一种可能的实施方式中，当该RAW图像为最小重复单元包含4个像素的红绿绿蓝RGGB格式的图像、红黄黄蓝RYYB格式的图像或XYZW格式的图像时，该第一中间图像包括属于4个通道的子图像；当该RAW图像为最小重复单元包括16个像素的Quad排列的图像时，该第一中间图像包括属于16个通道的子图像。

在一种可能的实施方式中，该预处理还包括：估计图像的噪声强度区域分布图或锐化强度图的至少一项；该第一深度学习网络具体用于实现下述的至少一项：基于该噪声强度区域分布图控制该第一中间图像的不同区域的降噪程度；基于该锐度强化图控制该第一中间图像的不同区域的锐化强度。

本申请实施例可以根据每个区域的噪声特点有效控制每个区域的降噪强度，或者，自适应控制每个区域的锐化强度。

在一种可能的实施方式中，该第一深度学习网络包括：多个残差网络卷积模块、至少一个上采样卷积块以及第二特征融合卷积模块，该第二特征卷积模块的输出为该第一深度学习网络的输出，该第二特征融合卷积模块的特征通道数为3或4。

在一种可能的实施方式中，该上采样卷积块的个数与该RAW图像的格式、该RAW图像的尺寸和该第一目标图像的尺寸有关。

在一种可能的实施方式中，该第一深度学习网络还包括：特征提取卷积模块和第一特征融合模块，该多个残差网络卷积模块的输出为该第一特征融合模块的输入。

在一种可能的实施方式中，该第一深度学习网络的训练数据包括：多帧低质量输入图像和一帧高质量目标图像，该低质量输入图像基于该高质量目标图像模拟得到。

在一种可能的实施方式中，对该高质量目标图像至少进行马赛克和添加噪声处理，得到该低质量输入图像。

在一种可能的实施方式中，该方法应用于如下场景：暗光场景、变焦模式、高动态范围HDR场景和夜景模式。

在一种可能的实施方式中，当该方法应用于HDR场景时，该多帧RAW图像为多帧短曝光的RAW图像，该第一深度学习网络的训练数据包括多帧短曝光训练图像，该短曝光训练图像根据如下方法获得：对曝光合理的高质量图像进行反向Gamma校正，得到反向伽马校正图像；将该反向伽马校正图像的每个像素值均除以一个数字，得到该短曝光训练图像。

在一种可能的实施方式中，当该方法应用于暗光场景时，增加输入的该RAW图像的帧数；当该方法应用于变焦模式时，该第一深度学习网络中的上采样卷积块的个数与变焦倍数有关。

在一种可能的实施方式中，该第一深度学习网络为根据第一指示信息从深度学习网络资源池中选择的目标深度学习网络，该第一指示信息为用户在应用程序APP界面上选择的与应用场景相关的指示信息；或者，该第一指示信息为分析摄像头获取的预览图像的特性得到的与应用场景相关的指示信息；或者，该第一指示信息为输入该多帧RAW图像携带的倍率信息。

本申请第二方面提供了一种图像处理的方法，该方法包括：基于第一指示信息从深度学习网络资源池中选择目标深度学习网络，该深度学习网络资源池包括多种不同功能的深度学习网络；基于该目标深度学习网络对输入的数据进行处理，得到第一输出图像。

在一种可能的实施方式中，该第一指示信息为用户在应用程序APP界面上选择的与应用场景相关的指示信息；或者，该第一指示信息为分析摄像头获取的预览图像的特性得到的与应用场景相关的指示信息；或者，该第一指示信息为输入该多帧RAW图像携带的倍率信息。

在一种可能的实施方式中，该深度学习网络资源池中的深度学习网络均包括以下图像处理功能中的至少两种：去马赛克、降噪、超分辨率SR重建、坏点去除、相位点补偿和锐化。

在一种可能的实施方式中，该深度学习网络资源池中的深度学习网络适用的应用场景包括：不同倍率的变焦场景、HDR场景、暗光场景或夜景模式。

在一种可能的实施方式中，当该方法应用于HDR场景时，该多帧RAW图像为多帧短曝光的RAW图像，该目标深度学习网络的训练数据包括多帧短曝光训练图像，该短曝光训练图像根据如下方法获得：对曝光合理的高质量图像进行反向Gamma校正，得到反向伽马校正图像；将该反向伽马校正图像的每个像素值均除以一个数字，得到该短曝光训练图像。

在一种可能的实施方式中，当该方法应用于暗光场景时，增加输入的该RAW图像的帧数；当该方法应用于变焦模式时，该目标深度学习网络中的上采样卷积块的个数与变焦倍数有关。

本申请第三方面提供了一种图像处理的装置，该装置包括：预处理模块，用于对多帧RAW图像进行预处理，得到第一中间图像，该预处理包括：通道拆分和像素重排列，该第一中间图像包括属于多个通道的子图像，其中，每个通道的子图像只包含一种颜色分量；第一深度学习网络，用于对该第一中间图像进行处理，得到第一目标图像，该第一深度学习网络的功能包括：去马赛克DM和降噪；增强模块，用于对该第一目标图像进行亮度增强或颜色增强中的至少一项，得到第二目标图像。

在一种可能的实施方式中，该第一深度学习网络的功能还包括：超分辨率SR重建，该RAW图像具有第一分辨率，该第一目标图像具有第二分辨率，该第二分辨率大于该第一分辨率。

在一种可能的实施方式中，该第一深度学习网络的功能还包括：坏点校正或相位点补偿中的至少一项；或者，该预处理还包括：坏点校正或相位点补偿中的至少一项。

在一种可能的实施方式中，该装置还包括：锐化模块，用于对该第二目标图像进行锐化，得到第三目标图像；发送接口，用于将该第三目标图像发送到显示屏或者存储器。

在一种可能的实施方式中，该RAW图像为RYYB图像或包含4个不同颜色分量的图像，该装置还包括：颜色转换模块，用于对该第一目标图像经过颜色转换，得到RGB彩色图像；该增强模块，具体用于对该RGB彩色图像进行亮度增强或颜色增强中的至少一项，得到该第二目标图像。

在一种可能的实施方式中，该第一深度学习网络的功能还包括：图像对齐，或者，该预处理还包括：图像对齐。

在一种可能的实施方式中，该预处理还包括图像对齐，该预处理模块，具体用于：对该多帧RAW图像进行通道拆分和像素重排列，得到分属M个通道的多帧子图像，其中，每个通道中的子图像的帧数等于该多帧RAW图像的帧数；对齐第一通道中的多帧子图像，该第一通道为该M个通道中的任一个通道；基于对齐该第一通道时所使用的对齐方式对齐其他通道。

在一种可能的实施方式中，该增强模块具体用于实现如下至少一项：黑电平校正BLC、自动白平衡AWB、镜头阴影校正LSC、色调映射Tone Mapping、颜色校正Color Mapping、对比度增加或者伽马gamma校正。

在一种可能的实施方式中，该预处理模块，具体用于：对该多帧RAW图像进行黑电平校正BLC、自动白平衡AWB或镜头阴影校正LSC中的至少一项处理，得到多帧第一预处理后的RAW图像；对该多帧第一预处理后的RAW图像进行通道拆分和像素重排列，得到分属于M个通道的多帧子图像，其中，每个通道中的子图像的帧数与该多帧RAW图像的帧数相等；对齐每个通道中的多帧子图像。

在一种可能的实施方式中，当该RAW图像为最小重复单元包含4个像素的红绿绿蓝RGGB格式的图像、红黄黄蓝RYYB格式的图像或XYZW格式的图像时，该第一中间图像包括属于4个通道的子图像；当该RAW图像为最小重复单元包括16个像素的Quad排列的图像时，该第一中间图像包括属于16个通道的子图像；其中，XYZW图像表示包含四种颜色分量的图像，X、Y、Z、W各代表一种颜色分量。

在一种可能的实施方式中，该预处理模块还用于：估计图像的噪声强度区域分布图或锐化强度图的至少一项；该第一深度学习网络具体用于实现下述的至少一项：基于该噪声强度区域分布图控制该第一中间图像的不同区域的降噪程度；基于该锐度强化图控制该第一中间图像的不同区域的锐化强度。

在一种可能的实施方式中，当该装置应用于HDR场景时，该多帧RAW图像为多帧短曝光的RAW图像；当该装置应用于暗光场景时，增加输入的该RAW图像的帧数；当该装置应用于变焦模式时，该第一深度学习网络中的上采样卷积块的个数与变焦倍数有关。

在一种可能的实施方式中，该装置还包括深度学习网络资源池，该深度学习网络资源池中包括多种不同功能的深度学习网络。

本申请第四方面提供了一种深度学习网络训练的方法，其特征在于，该方法包括：获取训练数据，该训练数据包括多帧独立的低质量输入数据和一帧高质量目标数据，该低质量输入数据基于该高质量目标数据模拟得到；基于该训练数据对基础网络架构进行训练，得到具有目标功能的深度学习网络，该目标功能与该低质量输入数据和该高质量目标数据的差异有关。

在一种可能的实施方式中，获取训练数据包括：采用人工合成的方法获取该训练数据。

在一种可能的实施方式中，获取训练数据包括：通过网络下载开放数据集；从该开放数据集中选择高质量的图像作为高质量目标图像；或者，将利用高质量相机拍摄符合预设条件的高质量图像，该预设条件根据用户需求对应性设置；对该高质量图像进行反向Gamma校正，得到反向Gamma校正后的高质量图像；对该反向Gamma校正后的高质量图像进行下采样，得到高质量目标图像。

在一种可能的实施方式中，获取训练数据包括：对获取的高质量目标图像进行降质量操作，得到该低质量输入图像。

在一种可能的实施方式中，对获取的高质量目标图像进行降质量操作，包括：对该获取的高质量目标图像进行下采样、高斯模糊、添加噪声、马赛克处理加相位点或加坏点中的至少一项处理。

在一种可能的实施方式中，该降质量操作与该深度学习网络的目标功能有关。

在一种可能的实施方式中，当该深度学习网络的功能包括：去马赛克、降噪和SR重建功能时，获取训练数据包括：对获取的高质量目标图像进行下采样、添加噪声和马赛克处理，得到该低质量输入图像。

在一种可能的实施方式中，当该深度学习网络的功能包括：去马赛克、降噪、SR重建和锐化功能时，获取训练数据包括：对获取的高质量目标图像进行下采样、高斯模糊、添加噪声和马赛克处理，得到该低质量输入图像。

在一种可能的实施方式中，当该深度学习网络的功能包括：去马赛克、降噪、SR重建、锐化和坏点去除功能时，获取训练数据包括：对获取的高质量目标图像进行下采样、高斯模糊、添加噪声、马赛克处理和加坏点，得到该低质量输入图像。

在一种可能的实施方式中，多帧低质量输入图像是基于同一帧高质量目标图像分别进行降质量操作得到的，该多帧低质量输入图像是独立构建的。

在一种可能的实施方式中，该深度学习网络的损失函数包括L1Loss或L2Loss函数，或者，L1Loss与结构相似性(Structural similarity，SSIM)和对抗Loss相结合，或者，L2Loss与SSIM和对抗Loss相结合。

在一种可能的实施方式中，该深度学习网络的训练方法包括自适应矩阵估计(adaptive moment estimation，Adma)方法。

本申请第五方面提供了一种自适应选择深度学习网络的装置，该装置包括：接收接口、人工智能AI控制器和深度学习网络资源池，该深度学习网络资源池包括多种功能的深度学习网络；该接受接口，用于第一指示信息，该第一指示信息用于指示当前适用的应用场景；该人工智能控制器，用于基于第一指示信息从深度学习网络资源池中选择与第一指示信息对应的目标深度学习网络。

在一种可能的实施方式中，该装置还包括：处理器，用于基于目标深度学习网络对输入图像进行处理，得到第一输出图像。

本申请实施例提供的自适应选择深度学习网络的方法中，可以根据用户的需求或者输入数据的特性或者根据输入数据携带的参数从深度学习网络资源池中选择或使能最合适的深度学习网络，最大程度满足不同用户或不同场景的需求，并且可以做到在不同的场景下均可以提供最优的深度学习网络，提供最好的图像处理效果，优化用户体验，提升移动终端或图像处理器的图像处理性能，增强竞争力。

在一种可能的实施方式中，该接受接口还用于：接收输入图像或控制信号。

在一种可能的实施方式中，该深度学习网络资源池中的深度学习网络均包括以下图像处理功能中的至少两种：去马赛克、降噪、超分辨率SR重建、坏点去除、相位点补偿或锐化。

在一种可能的实施方式中，该深度学习网络资源池中的深度学习网络以软件代码或者软件模块实现，该深度学习网络资源池存储在存储器中。

在一种可能的实施方式中，AI控制器基于该第一指示信息从深度学习网络资源池中将该目标深度学习网络读出并加载到处理器中；该处理器运行该目标深度学习网络以实现该目标深度学习网络对应的功能。

在一种可能的实施方式中，该深度学习网络由人工智能AI引擎实现，该AI引擎为硬件模块或专用硬件电路。

在一种可能的实施方式中，该装置还包括：硬件计算资源，该硬件计算资源包括：加、减、乘、除、指数运算、对数运算或大小比较中的至少一项。

在一种可能的实施方式中，该硬件计算资源可以被多个深度学习网络复用。

在一种可能的实施方式中，该装置还包括预处理模块，用于对初始输入的RAW图像进行通道拆分和像素重排列，得到分属多个通道的子图像，每个通道的子图像只包含一种颜色分量。

在一种可能的实施方式中，该预处理模块还用于：分析摄像头获取的预览图像的特性，并将特性信号发送给AI控制器。

在一种可能的实施方式中，当该装置应用于HDR场景时，该接收接口用于：获取多帧短曝光的RAW图像，该目标深度学习网络的训练数据包括多帧短曝光训练图像，该短曝光训练图像根据如下方法获得：对曝光合理的高质量图像进行反向Gamma校正，得到反向伽马校正图像；将该反向伽马校正图像的每个像素值均除以一个数字，得到该短曝光训练图像。

在一种可能的实施方式中，当该装置应用于暗光场景时，增加输入的RAW图像的帧数；当该方法应用于变焦模式时，该目标深度学习网络中的上采样卷积块的个数与变焦倍数有关。

本申请第六方面提供了一种图像处理的装置，该装置包括：接收接口和处理器，该处理器上运行有第一深度学习网络，该第一深度学习网络的功能包括：去马赛克DM和降噪；该接收接口，用于接收摄像头获取的多帧RAW图像；该处理器，用于调用存储器中存储的软件代码，以执行如第一方面或者其中任一种可能的实施方式中的方法。

本申请第七方面提供了一种图像处理的装置，该装置包括：接收接口和处理器，该接收接口用于，获取第一指示信息；该处理器用于调用存储在存储器中的软件代码，以执行如第二方面或其中任一种可能的实施方式中的方法。

在一种可能的实施方式中，该装置还包括存储器，用于存储深度学习网络资源池。

本申请第八方面提供了一种一种图像处理的装置，该装置包括：接收接口和处理器，该接收接口用于获取训练数据，该训练数据包括多帧独立的低质量输入数据和一帧高质量目标数据，该低质量输入数据基于该高质量目标数据模拟得到；该处理器用于调用存储在存储器中的软件代码，以执行如第四方面或其中任一种可能的实施方式中的方法。

本申请第九方面提供了一种计算机可读存储介质，该方法包括：该计算机可读存储介质中存储有指令，当其在计算机或处理器上运行时，使得该计算机或处理器执行如上述第一方面或者其任一种可能的实施方式中的方法。

本申请第十方面提供了一种计算机可读存储介质，该计算机可读存储介质中存储有指令，当其在计算机或处理器上运行时，使得该计算机或处理器执行如上述第二方面或者其任一种可能的实施方式中的方法。

本申请第十一方面提供了一种计算机可读存储介质，该计算机可读存储介质中存储有指令，当其在计算机或处理器上运行时，使得该计算机或处理器执行如上述第四方面或者其任一种可能的实施方式中的方法。

本申请第十二方面提供了一种包含指令的计算机程序产品，当其在计算机或处理器上运行时，使得该计算机或处理器执行如上述第一方面或者其任一种可能的实施方式中的方法。

本申请第十三方面提供了一种包含指令的计算机程序产品，当其在计算机或处理器上运行时，使得该计算机或处理器执行如上述第二方面或者其任一种可能的实施方式中的方法。

本申请第十四方面提供了一种包含指令的计算机程序产品，当其在计算机或处理器上运行时，使得该计算机或处理器执行如上述第四方面或者其任一种可能的实施方式中的方法。

附图说明

图1为本申请实施例提供的一种示例性的终端的架构示意图；

图2为本申请实施例提供的一种示例性的图像处理装置的硬件架构图；

图3为本申请实施例提供的一种示例性图像处理的方法的流程示意图；

图4a为本申请实施例提供的一种示例性的RGGB格式的Bayer图像；

图4b为本申请实施例提供的一种示例性的RGBIR图像；

图5为本申请实施例提供的一种示例性的Quad排列的图像；

图6a为本申请实施例提供的一种示例性的对RGGB格式的Bayer图像进行通道拆分和像素重排列得到第一中间图像的示意图；

图6b为本申请实施例提供的一种示例性的对Quad排列的图像进行通道拆分和像素重排列得到第一中间图像的示意图；

图7为本申请实施例提供的一种示例性的图像处理的框架；

图8为本申请实施例提供的另一种示例性的图像处理的框架；

图9为本申请实施例提供的另一种示例性的图像处理的框架；

图10为本申请实施例提供的一种示例性的深度学习网络的结构示意图；

图11为本申请实施例提供的一种示例性的细节恢复网络的处理效果示意图；

图12为本申请实施例提供的一种示例性的特征提取卷积块的结构图；

图13为本申请实施例提供的一种示例性的残差网络卷积块的结构图；

图14a为本申请实施例提供的一种示例性的特征融合模块1的结构图；

图14b为本申请实施例提供的一种示例性的特征融合模块2的结构图；

图15为本申请实施例提供的一种示例性的上采样卷积块的结构图；

图16为本申请实施例提供的一种示例性的自适应选择深度学习网络的方法流程图；

图17为本申请实施例提供的一种示例性的自适应选择深度学习网络的装置。

具体实施方式

本申请的说明书实施例和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。此外，术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元。方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

应当理解，在本申请中，“至少一个(项)”是指一个或者多个，“多个”是指两个或两个以上。“和/或”，用于描述关联对象的关联关系，表示可以存在三种关系，例如，“A和/或B”可以表示：只存在A，只存在B以及同时存在A和B三种情况，其中A，B可以是单数或者复数。字符“/”一般表示前后关联对象是一种“或”的关系。“以下至少一项(个)”或其类似表达，是指这些项中的任意组合，包括单项(个)或复数项(个)的任意组合。例如，a，b或c中的至少一项(个)，可以表示：a，b，c，“a和b”，“a和c”，“b和c”，或“a和b和c”，其中a，b，c可以是单个，也可以是多个。

由于手机摄像头得到的图像是RAW图像，通常需要转换为RGB彩色图像才可以显示在显示设备上，应当理解，最终显示在显示设备上的图像格式也可以为其他图像格式，例如YUV彩色图像、YCbCr彩色图像或者灰度图像等，本申请实施例以最终显示在显示设备上的图像为RGB图像为例进行说明。将RAW图像转换为RGB图像需要经过细节恢复、颜色恢复和亮度恢复等一系列的图像处理操作。其中，与细节恢复相关的处理包括：去马赛克(Demosaicking，DM)、坏点校正、降噪、锐化以及超分辨率(super resolution，SR)重建等，应当理解，在用户有变焦的需求的时候才需要进行SR重建处理。然而，DM、坏点校正、SR重建等操作通常需要进行像素的填充或插值，锐化需要强化、突出图像的边缘和纹理，如果先进行DM、坏点校正、SR重建等处理，会放大图像的噪声或破坏原始图像的噪声形态，影响降噪的效果；如果先降噪，降噪处理带来的细节损失将无法恢复，从而影响DM、坏点校正、SR重建等处理的效果。因此，采用多模块串行操作会导致错误逐步积累。

基于此，本申请实施例提出一种基于深度学习的图像处理的框架、方法和装置，将多种与细节恢复相关的处理融合在一个深度学习网络中，通过一个深度学习网络可实现多种图像处理的功能，从而减少不同图像处理之间的相互影响，并减少错误的累积。示例性的，可以将去马赛克、降噪和超分辨率重建等处理融合在一个深度学习网络中，可选的，还可以将坏点校正、锐化等处理也融合在该深度学习网络中。本申请实施例提供的图像处理框架极大提升了图像的分辨率、清晰度和视觉效果，同时抑制了摩尔纹、光晕以及过冲等现象，适用于变焦、高动态范围(high dynamic range,HDR)和夜景模式等各种拍照场景。进一步的，本申请实施例将多帧连续图像同时作为输入，融合多帧图像的有效信息，更好的恢复图像细节。

本申请实施例提供的图像处理框架和图像处理方法适用于各种终端，对应的，本申请实施例提供的图像处理装置可以为多种形态的终端产品，如智能手机、平板电脑、智能眼镜、穿戴式设备、照相机和摄像机等，如图1所示，为本申请实施例提供的一种示例性的终端100的架构示意图。该终端100可以包括天线系统110、射频(Radio Frequency，RF)电路120、处理器130、存储器140、摄像头150、音频电路160、显示屏170、一个或多个传感器180和无线收发器190等。

天线系统110可以是一个或多个天线，还可以是由多个天线组成的天线阵列。射频电路120可以包括一个或多个模拟射频收发器，该射频电路120还可以包括一个或多个数字射频收发器，该RF电路120耦合到天线系统110。应当理解，本申请的各个实施例中，耦合是指通过特定方式的相互联系，包括直接相连或者通过其他设备间接相连，例如可以通过各类接口、传输线、总线等相连。该射频电路120可用于各类蜂窝无线通信。

处理器130可包括通信处理器，该通信处理器可用来控制RF电路120通过天线系统110实现信号的接收和发送，该信号可以是语音信号、媒体信号或控制信号。该处理器130可以包括各种通用处理设备，例如可以是通用中央处理器(Central Processing Unit，CPU)、片上系统(System on Chip，SOC)、集成在SOC上的处理器、单独的处理器芯片或控制器等；该处理器130还可以包括专用处理设备，例如专用集成电路(Application SpecificIntegrated Circuit，ASIC)、现场可编程门阵列(Field Programmable Gate Array，FPGA)或数字信号处理器(Digital Signal Processor，DSP)、专用的视频或图形处理器、图形处理单元(Graphics Processing Unit，GPU)以及神经网络处理单元(Neural-networkProcessing Unit，NPU)等。该处理器130可以是多个处理器构成的处理器组，多个处理器之间通过一个或多个总线彼此耦合。该处理器可以包括模拟-数字转换器(Analog-to-Digital Converter，ADC)、数字-模拟转换器(Digital-to-Analog Converter，DAC)以实现装置不同部件之间信号的连接。处理器130用于实现图像、音频和视频等媒体信号的处理。

存储器140耦合到处理器130，具体的，该存储器140可以通过一个或多个存储器控制器耦合到处理器130。存储器140可以用于存储计算机程序指令，包括计算机操作系统(Operation System，OS)和各种用户应用程序，存储器140还可以用于存储用户数据，例如日历信息、联系人信息、获取的图像信息、音频信息或其他媒体文件等。处理器130可以从存储器140读取计算机程序指令或用户数据，或者向存储器140存入计算机程序指令或用户数据，以实现相关的处理功能。该存储器140可以是非掉电易失性存储器，例如是EMMC(Embedded Multi Media Card，嵌入式多媒体卡)、UFS(Universal Flash Storage，通用闪存存储)或只读存储器(Read-Only Memory，ROM)，或者是可存储静态信息和指令的其他类型的静态存储设备，还可以是掉电易失性存储器(volatile memory)，例如随机存取存储器(Random Access Memory，RAM)或者可存储信息和指令的其他类型的动态存储设备，也可以是电可擦可编程只读存储器(Electrically Erasable Programmable Read-Only Memory，EEPROM)、只读光盘(Compact Disc Read-Only Memory，CD-ROM)或其他光盘存储、光碟存储(包括压缩光碟、激光碟、光碟、数字通用光碟、蓝光光碟等)、磁盘存储介质或者其他磁存储设备、或者能够用于携带或存储具有指令或数据结构形式的程序代码并能够由计算机存取的任何其他计算机可读存储介质，但不限于此。存储器140可以是独立存在，存储器140也可以和处理器130集成在一起。

摄像头150用于采集图像或视频，可以通过应用程序指令触发开启，实现拍照或者摄像功能，如拍摄获取任意场景的图片或视频。摄像头可以包括成像镜头，滤光片，图像传感器等部件。物体发出或反射的光线进入成像镜头，通过滤光片，最终汇聚在图像传感器上。成像镜头主要是用于对拍照视角中的所有物体(也可称为待拍摄场景、目标场景，也可以理解为用户期待拍摄的场景图像)发出或反射的光汇聚成像；滤光片主要是用于将光线中的多余光波(例如除可见光外的光波，如红外)滤去；图像传感器主要是用于对接收到的光信号进行光电转换，转换成电信号，并输入到处理器130进行后续处理。其中，摄像头可以位于终端设备的前面，也可以位于终端设备的背面，摄像头具体个数以及排布方式可以根据设计者或厂商策略的需求灵活确定，本申请不做限定。

音频电路160与处理器130耦合。该音频电路160可以包括麦克风161和扬声器162，麦克风161可以从外界接收声音输入，扬声器162可以实现音频数据的播放。应当理解，该终端100可以有一个或多个麦克风、一个或多个耳机，本申请实施例对麦克风和耳机的数量不做限定。

显示屏170，用于显示由用户输入的信息，提供给用户的信息的各种菜单，这些菜单与内部的具体模块或功能相关联，显示屏170还可以接受用户输入，例如接受使能或禁用等控制信息。具体的，显示屏170可以包括显示面板171和触控面板172。其中，显示面板171可以采用液晶显示器(Liquid Crystal Display，LCD)、有机发光二极管(Organic Light-Emitting Diode，OLED)、发光二级管(Light Emitting Diode，LED)显示设备或阴极射线管(Cathode Ray Tube，CRT)等来配置显示面板。触控面板172，也称为触摸屏、触敏屏等，可收集用户在其上或附近的接触或者非接触操作(比如用户使用手指、触笔等任何适合的物体或附件在触控面板172上或在触控面板172附近的操作，也可以包括体感操作；该操作包括单点控制操作、多点控制操作等操作类型。)，并根据预先设定的程式驱动相应的连接装置。可选的，触控面板172可包括触摸检测装置和触摸控制器两个部分。其中，触摸检测装置检测用户的触摸操作带来的信号，将信号传送给触摸控制器；触摸控制器从触摸检测装置上接收触摸信息，并将它转换成处理器130能够处理的信息，再送给处理器130，并能接收处理器130发来的命令并加以执行。进一步的，触控面板172可覆盖显示面板171，用户可以根据显示面板171显示的内容，该显示内容包括但不限于，软键盘、虚拟鼠标、虚拟按键、图标等，在显示面板171上覆盖的触控面板172上或者附近进行操作，触控面板172检测到在其上或附近的操作后，通过I/O子系统10传送给处理器130以确定用户输入，随后处理器130根据用户输入通过I/O子系统10在显示面板171上提供相应的视觉输出。虽然在图1中，触控面板172与显示面板171是作为两个独立的部件来实现终端100的输入和输入功能，但是在某些实施例中，可以将触控面板172与显示面板171集成而实现终端100的输入和输出功能。

传感器180可以包括图像传感器、运动传感器、接近度传感器、环境噪声传感器、声音传感器、加速度计、温度传感器、陀螺仪或者其他类型的传感器，以及它们的各种形式的组合。处理器130通过I/O子系统10中的传感器控制器12驱动传感器180接收音频信号、图像信号、运动信息等各种信息，传感器180将接收的信息传到处理器130中进行处理。

无线收发器190，该无线收发器190可以向其他设备提供无线连接能力，其他设备可以是无线耳麦、蓝牙耳机、无线鼠标、无线键盘等外围设备，也可以是无线网络，例如无线保真(Wireless Fidelity，WiFi)网络、无线个人局域网络(Wireless Personal AreaNetwork，WPAN)或者其他无线局域网络(Wireless Local Area Network，WLAN)等。无线收发器190可以是蓝牙兼容的收发器，用于将处理器130以无线方式耦合到蓝牙耳机、无线鼠标等外围设备，该无线收发器190也可以是WiFi兼容的收发器，用于将处理器130以无线方式耦合到无线网络或其他设备。

终端100还可以包括其他输入设备14,其耦合到处理器130以接收各种用户输入，例如接收输入的号码、姓名、地址以及媒体选择等，其他输入设备14可以包括键盘、物理按钮(按压按钮、摇臂按钮等)、拨号盘、滑动开关、操纵杆、点击滚轮、光鼠(光鼠是不显示可视输出的触摸敏感表面，或者是由触摸屏形成的触摸敏感表面的延伸)等。

终端100还可以包括上述的I/O子系统10，该I/O子系统10可以包括其他输入设备控制器11用于从其他输入设备14接收信号或者向其他输入设备190发送处理器130的控制或驱动信息，I/O子系统10还可以包括上述的传感器控制器12和显示器控制器13，分别用于实现传感器180和显示屏170与处理器130之间的数据和控制信息的交换。

终端100还可以包括电源101，以向终端100的包括110-190在内的其他部件供电，该电源可以是可充电的或不可充电的锂离子电池或镍氢电池。进一步的，当电源101是可充电的电池时，可以通过电源管理系统与处理器130耦合，从而通过电源管理系统实现管理充电、放电、以及功耗调整等功能。

应当理解，图1中的终端100仅仅是一种示例，对终端100的具体形态不构成限定，终端100还可以包括图1中未显示出来的现有的或者将来可能增加的其他组成部分。

在一种可选的方案中，RF电路120、处理器130和存储器140可以部分或全部集成在一个芯片上，也可以是三个彼此独立的芯片。RF电路120、处理器130和存储器140可以包括布置在印刷电路板(Printed Circuit Board，PCB)上的一个或多个集成电路。

如图2所示，为本申请实施例提供的一种示例性的图像处理装置的硬件架构图，该图像处理装置200例如可以为处理器芯片，示例性的，图2中所示的硬件架构图可以是图1中的处理器130的示例性架构图，本申请实施例提供的图像处理方法和图像处理框架可以应用在该处理器芯片上。

参考图2，该装置200包括：至少一个CPU，存储器、微控制器(MicrocontrollerUnit，MCU)、GPU、NPU、内存总线、接收接口和发送接口等。虽然图2中未示出，该装置200还可以包括应用处理器(Application Processor，AP)，解码器以及专用的视频或图像处理器。

装置200的上述各个部分通过连接器相耦合，示例性的，连接器包括各类接口、传输线或总线等，这些接口通常是电性通信接口，但是也可能是机械接口或其它形式的接口，本实施例对此不做限定。

可选的，CPU可以是一个单核(single-CPU)处理器或多核(multi-CPU)处理器；可选的，CPU可以是多个处理器构成的处理器组，多个处理器之间通过一个或多个总线彼此耦合。该接收接口可以为处理器芯片的数据输入的接口，在一种可选的情况下，该接收接口和发送接口可以是高清晰度多媒体接口(High Definition Multimedia Interface，HDMI)、V-By-One接口、嵌入式显示端口(Embedded Display Port，eDP)、移动产业处理器接口(Mobile Industry Processor Interface，MIPI)或Display Port(DP)等。该存储器可以参考前述对于存储器140部分的描述。

在一种可选的情况中，上述各部分集成在同一个芯片上；在另一种可选的情况中，CPU、GPU、解码器、接收接口以及发送接口集成在一个芯片上，该芯片内部的各部分通过总线访问外部的存储器。专用视频/图形处理器可以与CPU集成在同一个芯片上，也可以作为单独的处理器芯片存在，例如专用视频/图形处理器可以为专用ISP。在一种可选的情况中，NPU也可以作为独立的处理器芯片。该NPU用于实现各种神经网络或者深度学习的相关运算。可选的，本申请实施例提供的图像处理方法和图像处理框架可以由GPU或NPU实现，也可以由专门的图形处理器来实现。

在本申请实施例中涉及的芯片是以集成电路工艺制造在同一个半导体衬底上的系统，也叫半导体芯片，其可以是利用集成电路工艺制作在衬底(通常是例如硅一类的半导体材料)上形成的集成电路的集合，其外层通常被半导体封装材料封装。所述集成电路可以包括各类功能器件，每一类功能器件包括逻辑门电路、金属氧化物半导体(Metal-Oxide-Semiconductor，MOS)晶体管、双极晶体管或二极管等晶体管，也可包括电容、电阻或电感等其他部件。每个功能器件可以独立工作或者在必要的驱动软件的作用下工作，可以实现通信、运算、或存储等各类功能。

如图3所示，为本申请实施例提供的一种图像处理的方法的流程示意图。

该图像处理的方法包括：

301、获取N帧RAW图像；

RAW图像为通过摄像头获取的未经处理的原始图像，RAW图像每个像素只表征一种颜色的强度，示例性的，该摄像头可以为互补式金属氧化物半导体(Complementary Metal-Oxide Semiconductor，CMOS)传感器或感光耦合元件(Charge-Coupled Device,CCD)传感器，RAW图像的颜色格式是由放置在传感器前的彩色滤波器(color filter array，CFA)决定的，RAW图像可以为各种CFA格式下获取的图像，示例性、RAW图像可以为RGGB格式的贝叶尔Bayer图像，如图4a所示为RGGB格式的Bayer图像，图4a中每个格代表一个像素，R表示红色像素，G表示绿色像素，B表示蓝色像素，该Bayer图像的最小重复单元为一个2X2的阵列，该2X2的阵列单元内包含了R、G、G、B 4个像素。可选的，RAW图像还可以是红黄黄蓝(redyellow yellow blue，RYYB)格式的图像，或者XYZW格式的图像，其中，XYZW格式表示包含4种分量的图像格式，X、Y、Z、W各代表一种分量，例如红绿蓝红外(Red Green BlueInfrared，RGBIR)排列的Bayer图像，或者，例如红绿蓝白(Red Green Blue White，RGBW)排列的Bayer图像，如图4b所示为一种示例性的RGBIR图像。RAW图像还可以是如图5所示的Quad排列的图像。输入的RAW图像的长和宽分别为h和w，N为正整数，示例性的，N可以取4或者6等。可选的，该N帧图像为连续获取的N帧图像，连续获取该N帧图像之间的时间间隔可以相等也可以不相等，可选的，该N帧图像也可以不是连续的，例如可以是连续获取的多帧图像中的第1、3、5、7帧图像。

应当理解，如果图像处理的执行主体是如图2所示的处理器芯片时，可以是通过接收接口获取该RAW图像，该RAW图像为终端的摄像头拍摄得到的；如果图像处理的执行主体是如图1所示的终端时，可以是通过摄像头150获取该RAW图像。

302、对输入的N帧RAW图像进行预处理，得到第一中间图像。

示例性的，该预处理包括通道拆分和像素重排列，该第一中间图像包括属于多个通道的子图像，其中，每个子图像只包含一种颜色分量。RGGB格式如图6a所示，为对RGGB格式的Bayer图像进行通道拆分和像素重排列得到第一中间图像的示意图，RGGB格式的Bayer图像的最小重复单元中包括R、G、G、B四个像素，将RAW图中每个最小重复单元中的4个像素R、G、G、B拆分并各自重新排列得到四个不同的子图，一帧w*h的RAW图像被拆分成四帧

的子图，N帧w*h的RAW图像被拆分成4*N帧

的子图像。也即，当输入的RAW图像为N帧RGGB格式的Bayer图像时，第一中间图像包括分属于4个通道的4*N帧

的子图像，其中，每个通道包含N帧子图像，每帧子图像只包含一种颜色分量，具体的，该4*N帧子图像包括N帧属于第一通道的R子图像、N帧属于第二通道的G子图像、N帧属于第三通道的G子图像以及N帧属于第四通道的B子图像。应当理解，当输入的RAW图像为RYYB图像或者XYZW图像时，第一中间图像也包括分属于4个通道的子图像，如果输入的RAW图像的帧数为N，则第一中间图像包含的子图像的个数为4*N帧，每个通道包含的子图像的个数等于RAW图像的帧数等于N。如图6b所示，为对Quad排列的图像进行通道拆分和像素重排列得到第一中间图像的示意图，Quad排列的图像的最小重复单元包括R、G、G、B像素各4个共16个像素，对一帧w*h的Quad排列的图像进行通道拆分和像素重排列之后得到16帧

的子图像，其中，一帧子图像属于一个通道，N帧Quad排列的图像被拆分成16*N帧子图像。也即，当输入的RAW图像为N帧最小重复单元包括16个像素的Quad排列的图像时，第一中间图像包括分属于16个通道的16*N帧子图像，其中，每个通道包含N帧子图像，每帧子图像中只包含一种颜色分量。在一种可选的方案中，Quad排列的图像的最小重复单元中包括的R、G、G、B像素的个数也可以各为6个、8个或其他个数，对应的，第一中间图像包括分属于24个通道的子图像，或者分属于32个通道的子图像。应当理解，第一中间图像的通道数等于RAW图像的最小重复单元所包含的像素数。

示例性的，该预处理还可以包含图像配准和运动补偿。图像配准可以去除由于相机运动导致的多帧图像之间的变化，但是，如果拍摄的场景中存在运动的物体，在完成图像配准之后，多帧图像之间的背景区域是对齐的，但是该运动的物体却不是对齐的，需要对物体运动导致的不对齐进行补偿。示例性的，选取该N帧图像中的一帧图像作为参考帧，例如可以将第一帧图像作为参考帧，将其他帧图像均与参考帧进行图像配准，以实现多帧图像的对齐，在一种可选的情况中，如果N帧RAW图像之间存在运动区域，在进行图像配准之后，需要进一步根据参考帧对运动区域进行补偿，才能得到对齐的N帧图像。应当理解，图像配准和运动补偿共同用于实现多帧图像的对齐。应当理解，在某些情况中，难以真正实现多帧图像的完全对齐。

在一种可选的情况中，先对RAW图像进行通道拆分得到多个通道的子图像，先对齐其中一个通道，再基于相同的方式对齐其他通道。在另一种可选的情况中，也可以先进行图像配准和运动补偿实现多帧RAW图像的对齐之后，再对RAW图像进行通道拆分。

在一种可选的方案中，在训练深度学习网络时，构建的训练数据为多帧存在差异的不对齐的图像，这样训练出的深度学习网络具备将多帧不对齐的图像进行融合的能力，可选的，在将数据输入第一深度学习网络之前，可以不预先进行图像配准和运动补偿，而将拆分得到的多帧不对齐的子图像直接输入网络，由网络自行实现多帧数据的对齐和融合。

在一种可选的方案中，预处理可以包含估计图像各区域噪声的大小，并得到一幅噪声强度分布图，该噪声强度分布图可以反映不同区域的噪声强度分布，将该噪声强度分布图以及对齐和拆分的图像数据一起输入第一深度学习网络中，这样第一深度学习网络可以根据每个区域的噪声特点自适应控制每个区域的降噪强度。

在一种可选的方案中，在预处理时可以得到一幅锐化强度图，该锐化强度图包含对不同区域的锐化强度，将该锐化强度图以及对齐和拆分的图像数据一起输入第一深度学习网络中，这样第一深度学习网络可以自适应控制每个区域的锐化强度。

在一种可选的方案中，在预处理时可以同时得到一幅噪声分布图和一幅锐化强度图，并将噪声分布图、锐化强度图和待处理的图像数据一起输入第一深度学习网络。

303、基于第一深度学习网络对第一中间图像进行处理，得到第一目标图像。

该第一深度学习网络至少可以实现两种细节恢复相关的图像处理功能，该第一目标图像可以为细节丰富、噪声较小的RGB彩色图像。在一种可选的情况中，当输入的RAW图像为RYYB格式时，第一深度学习网络处理之后得到的第一目标图像是RYB三个通道的彩色图像，当输入的RAW图像为XYZW格式时，第一深度学习网络处理之后得到的第一目标图像是XYZW四个通道的彩色图像，这两种情况下，该图像处理的方法还包括：将第一目标图像经过颜色转换得到RGB彩色图像。

示例性的，第一深度学习网络可以包括去马赛克和降噪功能，也可以说输入的图像经过该深度学习网络处理之后，相当于同时实现了去马赛克处理和去噪处理。由于去马赛克和降噪是细节恢复很关键的处理，且无论先进行去马赛克处理，还是先进行降噪处理，都会影响图像细节的恢复效果，本申请实施例将去马赛克处理和降噪处理融合在同一个深度学习网络中实现，避免了两种操作串行处理导致的错误积累。对应的，第一深度学习网络输出的第一目标图像为经过去噪和去马赛克的RGB彩色图像。

在一种可选的情况中，第一深度学习网络可以包括去马赛克、降噪和SR重建功能，也可以说输入的图像经过该深度学习网络处理之后，相当于同时实现了去马赛克处理、去噪处理和SR重建处理。超分辨率是指通过低分辨率的图像得到高分辨率的图像，例如，可以基于一帧低分辨率图像得到一帧高分辨图像，或者，也可以基于多帧低分辨率图像得到一帧高分辨率图像，对于有超分辨率需求的场景，去马赛克、降噪和SR重建处理都是细节恢复很关键的处理，并且前面提到了，如果先进行DM、SR重建处理，会放大图像的噪声或破坏原始图像的噪声形态，影响降噪的效果；如果先降噪，降噪处理带来的细节损失将无法恢复，从而影响DM、SR重建等处理的效果。本申请实施例通过训练得到一个可以同时实现DM、SR重建和去噪的深度学习网络，由于多种功能是由同一个深度学习网络实现的，不存在先后处理顺序，避免了由于多模块串行操作带来的不同处理间的相互影响，也避免了因此导致的错误积累。对应的，第一深度学习网络输出的第一目标图像为经过去噪、去马赛克和SR重建处理的RGB彩色图像。经过SR重建之后的图像的分辨率高于SR重建之前的图像的分辨率。

示例性的，第一深度学习网络可以包括去马赛克、降噪、SR重建和坏点校正功能。应当理解，坏点可以是指图像中由于感光组件的缺陷而导致的无效或错误的像素点，或者是指图像中的瑕疵点，例如比周围亮很多的点、比周围暗很多的点、没有比周围特别亮或特别暗但是像素值不正确的点等。

示例性的，第一深度学习网络可以包括去马赛克、降噪、SR重建、坏点校正和锐化功能。

示例性的，第一深度学习网络可以包括去马赛克、降噪、SR重建、坏点校正、锐化和相位点补偿功能。应当理解，相位点为包含相位信息但是不包含有效像素信息的像素点，在显示时，需要根据相位点周围的像素点得到该相位点对应的像素值。

示例性的，第一深度学习网络可以包括去马赛克、降噪和坏点校正功能。

示例性的，第一深度学习网络可以包括去马赛克、降噪和锐化功能。

示例性的，第一深度学习网络可以包括去马赛克、降噪、坏点校正和锐化功能。

示例性的，第一深度学习网络可以包括去马赛克、降噪、坏点校正、锐化功能和相位点补偿功能。

在一种可选的方案中，由于相位点的位置基本固定，且坏点校正的算法比较成熟，因此坏点和相位点可以在产线进行标定，然后在预处理中根据产线标定的坏点位置和相位点的位置进行坏点校正和相位点补偿；然后将没有坏点和相位点的图像输入第一深度学习网络进行细节重建。在一种可选的方案中，坏点和相位点的位置检测以及坏点校正和相位点补偿都可以是在预处理中实现的。

在一种可选的情况中，第一深度学习网络运行在图2中的NPU或GPU中；可选的，深度学习网络也可以部分运行在NPU中，部分运行在GPU中；可选的，第一深度学习网络的运行可能也会涉及到CPU或MCU的控制作用。

304、对第一目标图像进行亮度增强或颜色增强中的至少一项，得到第二目标图像。

应当理解，在第一深度学习网络对输入的图像进行处理之后，还需要对至少对第一目标图像进行亮度增强或者颜色增强，或者对第一目标图像进行亮度增强和颜色增强，示例性的，亮度增强或颜色增强的处理包括以下至少一项：黑电平校正(Black LevelCorrection，BLC)、自动白平衡(Auto-White Balance，AWB)、镜头阴影校正(Lens ShadingCorrection，LSC)、色调映射(Tone Mapping)、颜色校正(Color Mapping)、对比度增加或者伽马gamma校正等。可选的，亮度增强和颜色增强可以采用串行模块实现，也可以采用一个神经网络来实现。

在一种可选的方案中，可以将BLC、AWB以及LSC中的一项或多项处理放在预处理中实现，示例性的，可以先对输入的N帧RAW图像进行BLC、AWB以及LSC中的一项或多项处理，然后再进行图像配准、拆分通道和像素重排等处理。在这种情况下，该预处理具体包括：对多帧RAW图像进行黑电平校正BLC、自动白平衡AWB或镜头阴影校正LSC中的至少一项处理，得到多帧第一预处理后的RAW图像；对该多帧第一预处理后的RAW图像进行通道拆分和像素重排列，得到分属于M个通道的多帧子图像，其中，每个通道中的子图像的帧数与多帧RAW图像的帧数相等；对齐每个通道中的多帧子图像。

在一种可选的方案中，由于亮度和颜色增强可能会影响图像边缘的锐度，锐化可以不融合在第一深度学习网络中，在亮度增强和颜色增强之后，再根据实际需求对图像进行锐化。

可选的，该图像处理的方法还包括：

305、将第二目标图像送给显示屏显示或者存储在存储单元中。

可选的，在将第二目标图像存储在存储单元之前，可以先进行编码或压缩处理。可选的，也可以将第二目标图像发送给其他设备。本申请实施例对得到的第二目标图像的去处不做限定。

本申请实施例将细节恢复相关的处理均融合在同一个深度学习网络中，避免了多种处理串行进行时不同处理之间的相互影响，并减少了不同处理的相互影响带来的错误累积，提升了图像的分辨率和清晰度。进一步的，本申请实施例同时输入N帧RAW图像，融合了多帧图像的有效信息，有助于更好的恢复图像细节；另一方面，由于多帧图像之间可能存在差异，在将图像输入到深度学习网络进行细节恢复之前，先对N帧图像进行通道拆分、像素重排列和对齐等预处理，提升了深度学习网络的处理效果。

如图7所示，为本申请实施例提供的一种图像处理的框架。如图7所示的图像处理的框架可以用于实现如图3所示的图像处理方法。

该图像处理的框架包括：预处理模块、细节恢复深度学习网络、亮度、颜色增强模块，可选的，该图像处理的框架还包括显示屏以及存储器。其中，预处理模块、细节恢复深度学习网络以及亮度、颜色增强模块由处理器实现，这些模块可以由处理器上的软件模块实现，或者由处理器上的专用硬件电路实现，或者由软件和硬件相结合的方式实现。示例性的，预处理模块、亮度和颜色增强模块由处理器中的GPU或ISP或CPU实现，深度学习网络由处理器中的NPU实现；可选的，深度学习网络也可以由GPU和NPU共同实现。在一种可能的方案中，预处理模块和深度学习网络由应用处理器(Application Processor，AP)实现，亮度和颜色增强模块由显示驱动集成器(Display Driving Integrated Circuit，DDIC)实现。DDIC用于驱动显示屏。应当理解，图7中所示的亮度、颜色增强模块还可以称为增强模块，该增强模块用于实现亮度增强或颜色增强中的至少一项。

该图像处理的框架的输入为N帧RAW图像，该N帧RAW图像可以是RGGB格式的Bayer图像，Quad排列的图像或者其他包含R、G、B三种颜色分量的CFA格式的RAW图像。

该预处理模块，用于对输入的N帧RAW图像进行预处理，得到第一中间图像。具体的，可以参考方法实施例关于302部分的描述，此处不再赘述。应当理解，如果输入为N帧RGGB格式的Bayer图像，预处理模块输出的第一中间图像为4N帧子图像，该4N帧图像属于4个通道，且每个通道的子图像只包含一种颜色分量。具体的，该4N帧子图像包括R、G、G、B分量的子图像各N帧，每个分量的子图像属于一个通道。如果输入为N帧Quad排列的图像，则预处理模块输出的第一中间图像为16N帧子图像，该16N帧子图像属于16个通道，且每个通道的子图像只包含一种颜色分量。具体的，由于Quad排列的图像，一个最小重复单元包含的R、G、G、B分量均为4个，对应的，该16N帧子图像包括R、G、G、B分量的子图像各4N帧，每个子分量的子图像属于一个通道。应当理解，预处理模块输出的第一中间图像的帧数与输入的RAW图像的最小重复单元包含的像素的个数有关。

该细节恢复深度学习网络为前述方法实施例中第一深度学习网络的一种示例性网络。细节恢复深度学习网络用于对预处理后的图像进行细节恢复。具体的，该细节恢复深度学习网络用于实现步骤303，具体请参考方法实施例关于303部分的描述，此处不再赘述。在一种可选的方案中，坏点校正和相位点补偿由预处理模块实现，去马赛克、降噪和SR重建由细节恢复深度学习网络实现；在一种可选的情况中，去马赛克、降噪、坏点校正、锐化功能和相位点补偿功能均由细节恢复深度学习网络实现。

亮度、颜色增强模块，用于细节恢复深度学习网络输出的图像进行亮度增强和颜色增强。应当理解，亮度增强和颜色增强可以是由同一个模块实现的，也可以是由不同的模块实现的，也即亮度增强模块和颜色增强模块可以是两个不同的模块。在一种可选的情况中，可以由多个模块实现亮度增强和颜色增强，例如亮度增强或颜色增强相关的每一项处理分别对应一个模块。

示例性的，亮度、颜色增强模块用于实现步骤304，具体请参考方法实施例关于304部分的描述，此处不再赘述。

图像处理框架处理完的图像可以送给显示屏显示或者存储在存储器中。

如图8所示，为本申请实施例提供的另一种示例性的图像处理的框架。图8所示的图像处理的框架也可以用于实现如图3所示的图像处理方法。该图像处理的框架包括：预处理模块、细节恢复深度学习网络、亮度、颜色增强模块以及锐化模块，可选的，该图像处理的框架还包括显示屏以及存储器。区别于图7所示的框架，图8中的框架，锐化模块在亮度、颜色增强模块的后面，这是由于由于亮度增强和颜色增强可能会影响图像边缘的锐度，因此，在亮度增强和颜色增强之后，再根据实际需求对图像进行锐化。其他部分可参考图7中所示的图像处理的框架。应当理解，图8中所示的亮度、颜色增强模块还可以称为增强模块，该增强模块用于实现亮度增强或颜色增强中的至少一项。

如图9所示，为本申请实施例提供的另一种示例性的图像处理的框架。图9所示的图像处理的框架也可以用于实现如图3所示的图像处理方法。该图像处理的框架包括：预处理模块、细节恢复深度学习网络、颜色转换模块以及亮度、颜色增强模块，可选的，该图像处理的框架还包括显示屏以及存储器。

该图像处理的框架的输入为N帧RAW图像，该N帧RAW图像可以是RYYB格式或XYZW格式，当输入的RAW图像为RYYB格式时，预处理模块输出的第一中间图像包括4N帧子图像，具体的，该4N帧子图像包括R、Y、Y、B分量的子图像各N帧，细节恢复深度学习网络处理之后得到的图像是RYB三个通道的彩色图像；当输入的RAW图像为XYZW格式时，预处理模块输出的第一中间图像包括4N帧子图像，具体的，该4N帧子图像包括X、Y、Z、W分量的子图像各N帧，细节恢复深度学习网络处理之后得到的图像是XYZW四个通道的彩色图像，因此，上述两种情况，细节恢复深度学习网络后面还有一个颜色转换模块，用于将RYB、XYZW彩色图像转换为RGB彩色图像。应当理解，当输入的RAW图像的格式使得细节恢复深度学习网络输出的图像不是RGB格式的彩色图像时，都需要在细节恢复深度学习网络后增加颜色转换模块，从而将＝其他非RGB格式的图像转换为RGB彩色图像。将图像转换为RGB彩色图像之后，再经过亮度、颜色增强模块的处理之后，送到显示屏显示或存储在存储器中。

在一种可选的方案中，可以在图9所示的图像处理框架的亮度、颜色增强模块之后加一个锐化模块。应当理解，图9中所示的亮度、颜色增强模块还可以称为增强模块，该增强模块用于实现亮度增强或颜色增强中的至少一项。

如图10所示，为本申请实施例提供的一种示例性的深度学习网络的结构示意图。应当理解，图10以为2倍变焦为例对深度学习网络的结构进行说明，还存在其他形式的网络结构，本申请实施例对网络结构的具体形态不做限定。应当理解，如果深度学习网络的输出图像的长和宽分别是输入图像的长和宽的两倍，则表示该深度学习网络的放大倍数为2倍，如果深度学习网络输出的图像的长和宽分别是输入图像的长和宽的四倍，则表示该深度学习网络的放大倍数为4倍。2倍变焦是指最终输出的图像的长和宽分别是原始输入的图像的长和宽的2倍，应当理解，原始输入的图像不同于深度学习网络的输入图像，通常来说，深度学习网络的输入图像是通过对原始输入的图像经过预处理得到的。如图11所示，为本申请实施例提供的一种示例性的细节恢复网络的处理效果示意图。该细节恢复网络为2倍变焦的深度学习网络，原始输入的图像的尺寸为4帧6*6的RAW图像，该原始输入的图像经过预处理之后得到细节恢复网络的输入图像，该细节恢复网络的输入图像是原始输入的RAW图像经过通道拆分和像素重排列得到的尺寸为3*3的R、G、G、B四个分量的子图像，其中，一帧6*6的RAW图像进行通道拆分和像素重排列之后得到4帧3*3的子图像，4帧6*6的RAW图像拆分后共得到16帧子图像(图中只示出了8帧)，经过细节恢复网络处理之后，输出的图像为12*12的RGB彩色图像。

参考图10所示，该深度学习网络包括：特征提取卷积模块、多个残差网络卷积模块、特征融合模块1、两个上采样卷积块以及特征融合卷积模块2。

如图12所示，为本申请实施例提供的一种示例性的特征提取卷积块的结构图。该特征提取卷积块包括第一卷积层Conv(k3n64s1)、第一激活函数层(PReLU)、第二卷积层Conv(k3n128s1)和第二激活函数层(PReLU)。其中，k表示卷积核的大小，n表示卷积后的特征图的通道个数，s表示卷积步长(stride)，应当理解，后续图13至图15所示的结构图中的k,n,s表示的物理意义相同。也即图12所示的第一卷积层的卷积核的大小为3，卷积后的特征图的通道个数为64，卷积步长为1，第二卷积层的卷积核的大小为3，卷积后的特征图的通道个数为128，卷积步长为1。应当理解，本申请实施例仅提供了特征提取卷积块的一种示例性结构，还可以由其他结构，例如卷积层和激活函数层的个数可以不为2个，卷积层中的k,n,s的数都是可选的。在一种可选的情况中，细节恢复网络可以不包含特征提取卷积模块，或者包含多个特征提取卷积模块。

如图13所示，为本申请实施例提供的一种示例性的残差网络卷积块的结构图。该残差网络卷积块包括第一卷积层Conv(k3n128s1)、激活函数层(PReLU)和第二卷积层Conv(k3n128s1)。应当理解，图10所示的细节恢复网络结构中，有多个残差网络卷积模块，也也可以说需要做多次残差网络卷积块，示例性的，残差网络卷积块的个数可以设置为6个。

如图14a和图14b所示，为本申请实施例提供的一种示例性的特征融合模块1和特征融合模块2的结构图。其中，特征融合模块1包括一个卷积层Conv(k3n128s1)，特征融合模块2包括一个卷积层Conv(k3n3s1)。也即，特征融合模块1的卷积层的卷积核大小为3，特征图的通道个数为128，卷积步长为1，特征融合模块2的卷积层的卷积核大小为3，特征图的通道个数为3，卷积步长为1。应当理解，由于特征融合模块2输出的图像数据为细节恢复网络的输出数据，当细节恢复网络的输出数据为RGB彩色数据时，特征融合模块2的特征通道数为3，特征融合模块2的k,s以及特征融合模块1的k,n,s的值都是可选择的。应当理解，细节恢复网络可以不包含特征融合模块1，或者可以包含多个特征融合模块1。在一种可选的情况中，当输入的RAW图像为XYZW格式的图像时，特征融合模块2的特征通道数为4，也即，深度学习网络输出的图像包含4个通道。

如图15所示，为本申请实施例提供的一种示例性的上采样卷积块的结构图。由于图10所示的深度学习网络为2倍变焦的深度学习网络，因此需要两个上采样卷积块，该上采样卷积块包括卷积层Conv(k3n256s1)，像素洗牌层PixelShuffler以及激活函数层(PReLU)，应当理解，图15中所示的PixelShufflerX2表示该像素洗牌层的为一个2倍上采样的像素洗牌层，可选的，放大倍数为4的上采样卷积块中包含一个4倍上采样的像素洗牌层，或者包含两个2倍上采样的像素洗牌层，。

应当理解，对应不同的RAW图像和输入图像、输出图像的尺寸，或者当变焦倍数不同时，深度学习网络的结构也需要相应调整，示例性的，上采样卷积块的个数会有所不同。将输入的RAW图像的长和宽分别记为h0和w0，通道拆分后的子图像的长和宽分别记为h1和w1，深度学习网络输出的彩色图像的长和宽分别记为h2和w2，则深度学习网络中所需的上采样卷积块的个数为log₂r，其中r＝h2/h1＝w2/w1。当输入的RAW图像为RGGB、RYYB或者XYZW时，h1/h0＝1/2,w1/w0＝1/2，当输入的RAW图像为Quad格式时，h1/h0＝1/4,w1/w0＝1/4，如果输入的是10M的RGGB图像，输出的是10M的RGB图像，即h0＝h2,w0＝w2,r＝h2/h1＝w2/w1＝h0/h1＝w0/w1＝2，因此上采样卷积块的个数为1；如果输入的是10M Quad图像，输出的是10M RGB图像，则r＝h2/h1＝w2/w1＝4h2/h0＝4w2/w0＝4，需要的上采样卷积块的个数为2；如果输入的是40M XYZW格式的图像，输出的是10M XYZW四通道彩色图像，则r＝h2/h1＝w2/w1＝2h2/h0＝2w2/w0＝1，这种情况下，不需要上采样卷积块。

为了实现网络训练，需要获取训练数据，例如可以通过搜集大量配对的低质量输入图像和高质量目标图像组成训练数据集，对网络进行训练，其中低质量图像为深度学习网络输入的图像，高质量目标图像为经过一个符合要求的深度学习网络处理之后的目标图像。示例性的，如果要训练出包含去马赛克、降噪和SR重建功能的深度学习网络，则构建的训练数据包括：多帧有噪声、带马赛克、低分辨率的RAW图像和一帧没有噪声、去除马赛克的、高分辨率的彩色图像。如果要训练出包含去马赛克、降噪、SR重建和坏点去除功能的深度学习网络，则构建的训练数据包括：多帧有噪声、带马赛克、低分辨率、有坏点的RAW图像和一帧没有噪声、去除马赛克的、高分辨率、没有坏点的彩色图像。如果要训练出包含去马赛克、降噪、SR重建和锐化功能的深度学习网络，则构建的训练数据包括：多帧有噪声、带马赛克、模糊的、低分辨率的RAW图像和一帧没有噪声、去除马赛克的、锐利的、高分辨率的彩色图像。如果要训练出包含去马赛克、降噪、SR重建、坏点去除和锐化功能的深度学习网络，则构建的训练数据包括：多帧有噪声、带马赛克、模糊、有坏点、低分辨率的RAW图像和一帧没有噪声、去除马赛克的、锐化的、没有坏点的、高分辨率的彩色图像。总之，构建的训练数据与深度学习网络的功能有关，此处不再一一列举。

然而，在现实拍摄的环境下。很难同时采集到严格对齐的低质量和高质量图像。因此，我们采用人工合成的方法获取训练数据。

本申请实施例提供两种获取高质量图像的示例性方案：第一，通过网络下载一定量的开放数据集，并从中选出质量非常好的图像；第二，利用高质量相机，严格控制光源条件，拍摄得到符合预设条件的高质量图像，该预设条件可以是根据具体需求对应性设置的，应当理解，照相机拍摄并输出的该高质量图像为经过处理后符合人眼特性的RGB彩色图像；进一步的，对得到的高质量图像进行反向Gamma校正，使得反向Gamma校正后的高质量图像的亮度范围更加接近照相机获取的RAW图的亮度范围，然后进行下采样得到训练数据中高质量的目标图像(RGB彩色图像)，下采样可以去除一些微小的瑕疵，进一步提升图像质量。应当理解，训练数据集中的高质量图像可以均为第一种方案获取的图像，或者均为第二种方案获取的图像，或者第一种方案获取的图像和第二种方案获取的图像符合一定的比例。

下面，本申请实施例提供一种获取低质量图像的示例性方案。

对上述获得的高质量图像进行一系列的降质量操作，得到低质量的输入图像。例如，要获取有噪声、带马赛克、模糊、有坏点、低分辨率的RAW图像时，对高质量图像进行如下操作：下采样，高斯模糊、添加噪声、马赛克处理、和加坏点、其中，如果深度学习网络为2倍变焦网络，则对高质量图像进行2倍下采样，高斯模糊的模糊强度可以随机选择。应当理解，对一帧高质量图像进行上述各操作，则可获取一帧低质量图像，如果要获取多帧低质量图像，则对一帧高质量图像多次进行上述各操作。经过上述构造训练数据的方式，输入的低质量图像与输出的高质量目标图像之间存在着噪声、坏点、马赛克、分辨率和清晰度(模糊)的差异，用这样的训练数据训练出的网络可以同时具有去马赛克、降噪、SR重建、坏点去除和锐化的功能。由于低质量输入图像是基于高质量图像模拟得到的，低质量输入图像和高质量目标图像之间是严格对齐的，进一步提升了训练网络的训练效果。

示例性的，如果要获取包含噪声、带马赛克、低分辨率的RAW图像时，对高质量图像进行如下操作：下采样，添加噪声和马赛克处理。本申请实施例根据需要获取的低质量图像对高质量图像进行对应的降质处理，此处不一一列举。

另外，由于构建多帧低质量输入图像时，多帧低质量输入图像是独立构建的，不同的低质量输入图像之间存在着噪声、坏点和局部清晰度的差异，因此训练出的网络具备多帧融合的能力。

本申请实施例先获取高质量图像，并通过对高质量图像进行降质处理模拟得到低质量图像，因此构建的训练数据中的低质量输入图像与高质量目标图像之间是严格对齐的；进一步的，基于该构建的训练数据对网络进行训练，得到的深度学习网络可以实现多种图像细节恢复相关的处理，并且由于输入的多帧低质量图像之间存在一定的噪声、坏点和局部清晰度的差异，训练得到的深度学习网络还具备多帧融合的能力。基于该深度学习网络对图像进行处理，可以同时实现图像细节恢复相关的功能，将输入的RAW图像转换成清晰度高、噪声较低、细节分明的高分辨率RGB彩色图像，另外，由于多种细节恢复相关的处理都是由深度学习网络实现的，而非采用串行的处理顺序，避免了多种处理之间的相互影响，并消除了将图像由低质量的RAW图像转换成高质量的RGB彩色图像的过程中积累的错误。还有一点，由于在训练深度学习网络时，输入的是多帧低质量的图像，输出的是一帧高质量的图像，训练得到的深度学习网络还具备多帧融合的能力，基于此，在进行图像处理时，输入多帧低质量的RAW图，深度学习网络可以将多帧图像的有效信息结合在一起，进一步提升经过深度学习网络处理后输出的图像的质量。

下面介绍一下深度学习网络的损失函数(loss function)，损失函数为用于衡量预测值和目标值的差异的重要方程。因为希望深度神经网络的输出尽可能的接近真正想要预测的值，所以可以通过比较当前网络的预测值和真正想要的目标值，再根据两者之间的差异情况来更新每一层神经网络的权重向量，比如，如果网络的预测值高了，就调整权重向量让它预测低一些，不断的调整，直到神经网络能够预测出真正想要的目标值。而如何比较预测值与目标值之间的差异是由损失函数或目标函数来定义的。损失函数的输出值(loss)越高表示差异越大，那么深度神经网络的训练就变成了尽可能缩小这个loss的过程。本申请实施例可以将网络的输出和目标图像之间的L1Loss或L2Loss作为损失函数，可选的，可以将L1Loss与结构相似性(Structural similarity，SSIM)和对抗Loss相结合作为损失函数，或者，也可以将L2Loss与SSIM和对抗Loss相结合作为损失函数。

关于深度学习网络的训练方法：本申请实施例可以采用自适应矩阵估计(adaptive moment estimation，Adma)方法优化网络参数，当损失下降到比较收敛的状态时，即可认为训练完成。

本申请实施例提供的图像处理的框架和图像处理的方法适用于多种应用场景或者适用于多种不同的拍照场景。下面介绍一下在不同应用场景下的应用：

暗光场景：该场景对降噪的效果要求较高，多帧融合技术很重要。因此，在暗光场景下，可以增加输入图像的帧数，例如，如果光线较亮的场景下输入4帧图像，则在暗光场景下可以输入6帧、8帧或者9帧图像。

变焦模式：对于不同变焦倍数，深度学习网络的结构也有区别。这里讲一下4倍变焦情况。区别于2倍变焦的网络结构，4倍变焦的深度学习网络中需要3个上采样卷积块。在生成训练数据时，将高质量的图像处理为低质量图像时，要进行4倍的下采样，应当理解，4倍的下采样表示下采样之后的图像的长和宽分别是原始图像的长和宽的四分之一，也即，下采样之后的图像的面积是原始图像的面积的十六分之一。

HDR场景：输入采用多帧短曝光的图像，尽量保证高亮区域不过曝，然后基于细节恢复网络恢复图像的细节，尤其是图像的暗部细节，进一步的，再利用亮度增强模块对细节恢复网络输出的图像进行亮度增强，从而恢复整幅图像的动态范围，从而实现HDR功能。HDR场景下，输入数据为多帧短曝光的RAW图像，例如可以为6帧或8帧。对应的，在训练HDR深度学习网络时，训练数据中需要增加一些短曝光的训练数据，本申请实施例提供一种获取短曝光训练数据的方法：

随机选择一些曝光合理的高质量图像，对这些高质量图像进行反向Gamma校正，得到反伽马校正图像，该反伽马校正图像的亮度范围符合摄像头获取的原始RAW图像的亮度范围；

将第一中间图像的每个像素值均除以一个数字，该数字表示将该曝光合理的图像的曝光降低的程度，例如，当每个像素值除以2，表示模拟得到的短曝光图像是原始曝光合理的图像的曝光时间的1/2，除以4表示曝光时间是1/4，以此类推。可选的，该数字的取值取决于实际抓取图像时可能选择的降曝光的比例，示例性的，该数值可以选择2、4、8、16等。

本申请实施例还提供一种自适应选择深度学习网络的方法，如图16所示，该方法包括：

1601、基于第一指示信息从深度学习网络资源池中选择该第一指示信息对应的目标深度学习网络，该深度学习网络资源池中包括多种不同功能的深度学习网络；

示例性的，多种不同功能的深度学习网络包括：多种不同变焦场景下的深度学习网络，HDR场景下的深度学习网络，暗光场景下的深度学习网络，夜景模式下的深度学习网络，具有去马赛克、降噪和SR重建功能的第一细节恢复网络，具有马赛克、降噪、SR重建和锐化功能的第二细节恢复网络，具有马赛克、降噪、SR重建和坏点校正功能的第三细节恢复网络等等。该多种不同功能的深度学习网络为提前训练得到的，固化或者存储在移动终端的存储器内或者移动终端的处理器的存储单元内。在一种可选的情况中，该深度学习网络也可以是实时训练并不断更新的。在一种可选的方案中，多种不同功能的深度学习网络以软件算法实现，并基于这些软件算法调用NPU或GPU中的硬件计算资源实现深度学习网络的处理功能，应当理解，硬件资源也可以为NPU或GPU之外的硬件资源。在一种可选的方案中，不同功能的深度学习网络分别固化在不同的人工智能AI引擎中，一种深度学习网络对应一个AI引擎，该AI引擎为硬件模块或专用的硬件电路，多个AI引擎可以共用计算资源池中的计算资源。

示例性的，该第一指示信息可以是用户基于自身需求或者基于当前的场景特点选择并发送的，例如用户通过触摸应用程序APP界面上的模式选择按钮选择适用或偏好的应用场景并所发送与该应用场景对应的第一指示信息，并将该第一指示信息发送给移动终端或处理器中的AI控制器，进一步的，AI控制器基于该第一指示信息选通或使能对应的AI引擎或对应的深度学习网络，或者AI控制器基于该第一指示信息读取对应的深度学习网络并载入处理器中。

在一种可选的情况中，该第一指示信息为分析当前摄像头获取的预览图像的特性得到的，预览图像的特性与当前应用场景相关，也可以说，不同应用场景下获取的预览图像的特性是有所区别的，通过分析预览图像的特性可以确定当前的应用场景，并得到用于指示当前应用场景的第一指示信息，AI控制器基于该第一指示信息从深度学习网络资源池中选择适用于当前应用场景的深度学习网络。例如，如果当前的预览图像的特性与暗光场景相匹配，则AI控制器选择暗光深度学习网络为目标深度学习网络，进一步的，控制摄像头拍摄多帧合理曝光的图像作为输入，应当理解，暗光场景需要考虑降噪的效果，需要适当增加输入的图像的帧数；如果当前的预览图像的特性与HDR场景相匹配，则AI控制器选择HDR深度学习网络为目标深度学习网络，进一步的，控制摄像头拍摄多帧短曝光的图像作为输入，可选的，也可以控制摄像头获取多帧曝光时间不同的图像作为输入，该多帧曝光时间不同的图像可以包括若干曝光时间较长的图像和若干曝光时间较短的图像。

在一种可选的情况中，该第一指示信息为输入数据携带的，示例性的，该第一指示信息为输入数据携带的变焦倍数，AI控制器在接收到输入数据携带的变焦倍数时，选通或使能变焦倍数对应的深度学习网络。

1602、基于目标深度学习网络对输入的图像数据进行处理，得到第一输出图像。

可选的，该第一输出图像可以为最终输出的目标高质量图像。

在一种可选的情况中，该方法还包括：

1603、对第一输出图像进行亮度增强和颜色增强，得到第二输出图像。

在一种可选的情况中，该方法还包括：

1604、对第二输出图像进行色域转换或者颜色格式转换，得到能够显示到显示屏上的目标输出图像。

在一种可选的情况中，在1601之前，该方法还包括：

获取N帧RAW图像；

对获取的N帧RAW图像进行预处理，得到输入深度学习网络的输入图像数据。

示例性的，该预处理包括图像配准、运动补偿、通道拆分和像素重排列等。

在一种可选的情况中，在1603之后，还可以对第二输出图像进行锐化。

本申请实施例还提供一种自适应选择深度学习网络的装置，如图17所示，该装置包括：接收接口、人工智能控制器和深度学习网络资源池，该深度学习网络资源池包括多种功能的深度学习网络。

该接收接口用于接收图像数据、指示信息或者各种控制信号，例如可以用于接收用户在移动终端的显示屏幕上的应用程序APP界面上选择的模式或场景指示信息，或者可以用于接收摄像头获取的图像数据等。

该人工智能AI控制器与深度学习网络资源池相耦合，人工智能控制器基于第一指示信息从深度学习网络资源池中选择与第一指示信息对应的目标深度学习网络。可选的，该第一指示信息可以是通过接收接口接收的来自用户的指示信息，也可以是装置对摄像头获取的预览图像进行特性分析得到的与场景相关的指示信息，或者可以是输入的图像数据本身携带的指示信息。示例性的，该人工智能控制器可以由专用的硬件电路实现，或者由通用处理器或CPU实现，也可以由运行在处理器上的软件模块实现。深度学习网络由AI引擎实现，该AI引擎为硬件模块或一种专用的硬件电路，或者该深度学习网络由软件代码或软件模块实现；当深度学习网络以软件代码或者软件模块实现时，深度学习网络资源池存储在存储器中。

可选的，该装置还包括：处理器，该处理器例如可以为GPU、NPU、ISP、通用的AP或者其他智能处理器，该处理器基于目标深度学习网络对输入图像进行处理，得到第一输出图像。当深度学习网络以软件代码或者软件模块实现时，深度学习网络运行在处理器上，示例性的，AI控制器从深度学习网络资源池中将目标深度学习网络读出来，加载到处理器中，然后由处理器运行该目标深度学习网络以实现该目标深度学习网络对应的功能。例如，可以将选择的目标深度学习网络加载到如图17所示的细节恢复网络中。

可选的，该装置还包括：硬件计算资源，该硬件计算资源包括：加、减、乘、除、指数运算、对数运算和大小比较等，该硬件计算资源可以被多个深度学习网络复用。具体的，处理器在运行目标深度学习网络时，基于目标深度学习网络的指示调用硬件计算资源中的计算资源对输入图像进行处理，从而实现目标深度学习网络对应的功能。

可选的，该装置还包括：预处理模块，该预处理模块用于在深度学习网络之前，对初始输入的RAW图像进行预处理，该预处理可以包括如302部分所说明的预处理。可选的，预处理模块还可以分析摄像头获取的预览图像的特性，并将特性信号发送给AI控制器，该AI控制器基于该特性信号从深度学习网络资源池中选择对应的深度学习网络。可选的，分析原始RAW图像的特性也可以是由专用的图像特性分析模块实现的或者由通用的处理器实现。

可选的，该装置还包括：颜色增强模块和亮度增强模块，颜色增强模块用于对深度学习网络输出的第一输出图像进行颜色增强，亮度增强模块用于对深度学习网络输出的第一输出图像进行亮度增强。应当理解，颜色增强和亮度增强也可以是由同一个模块实现的，并且，颜色增强和亮度增强可以由硬件模块实现，也可以由软件模块实现，或者由软件模块结合硬件模块实现。

可选的，该装置还包括：颜色格式转换模块，用于将图像转换为显示屏支持的图像格式或者用户指定的目标格式。

应当理解，预处理模块、颜色增强和亮度增强模块以及颜色格式转换模块均可以是由处理器实现的。

本申请实施例提供的自适应选择深度学习网络的装置包括一个深度学习网络资源池，可以根据用户选择的模式选择合适的深度学习网络，或者自适应分析输入图像的特性选择合适的深度学习网络，或者根据输入图像携带的特性参数选择合适的深度学习网络，在多种应用场景中均能基于最优深度学习网络对图像进行处理，在各种场景中均可以达到最佳的图像处理效果，提升用户体验，提升移动终端或图像处理器的图像处理性能，增强竞争力。

本申请实施例还提供了一种计算机可读存储介质，该计算机可读存储介质中存储有指令，当其在计算机或处理器上运行时，使得计算机或处理器执行上述任一个方法中的一个或多个步骤。上述信号处理装置的各组成模块如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在所述计算机可读取存储介质中。

基于这样的理解，本申请实施例还提供一种包含指令的计算机程序产品，当其在计算机或处理器上运行时，使得计算机或处理器执行本申请实施例提供的任一个方法。本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备或其中的处理器执行本申请各个实施例所述方法的全部或部分步骤。

以上所述实施例仅用以说明本申请的技术方案，而非对其限制；尽管参照前述实施例对本申请进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本申请各实施例技术方案的范围。例如，装置实施例中的一些具体操作可以参考之前的方法实施例。

Claims

1.一种图像处理的方法，其特征在于，所述方法包括：

获取多帧原始RAW图像；

对所述多帧RAW图像进行预处理，得到第一中间图像，所述预处理包括：通道拆分和像素重排列，所述第一中间图像包括属于多个通道的子图像，其中，每个通道的子图像只包含一种颜色分量；

基于第一深度学习网络对所述第一中间图像进行处理，得到第一目标图像，所述第一深度学习网络的功能包括：去马赛克DM和降噪；

对所述第一目标图像进行亮度增强或颜色增强中的至少一项，得到第二目标图像。

2.根据权利要求1所述的方法，其特征在于，所述第一深度学习网络的功能还包括：超分辨率SR重建，所述RAW图像具有第一分辨率，所述第一目标图像具有第二分辨率，所述第二分辨率大于所述第一分辨率。

3.根据权利要求1或2所述的方法，其特征在于，所述第一深度学习网络的功能还包括：坏点校正或相位点补偿中的至少一项。

4.根据权利要求1或2所述的方法，其特征在于，所述预处理还包括：坏点校正或相位点补偿中的至少一项。

5.根据权利要求1至4任一项所述的方法，其特征在于，所述第一深度学习网络的功能还包括：锐化。

6.根据权利要求1至4任一项所述的方法，其特征在于，所述方法还包括：

对所述第二目标图像进行锐化，得到第三目标图像；

将所述第三目标图像发送到显示屏或者存储器。

7.根据权利要求1至6任一项所述的方法，其特征在于，所述RAW图像为RYYB图像或包含4个不同颜色分量的图像，在所述对所述第一目标图像进行亮度增强和颜色增强，得到第二目标图像之前，所述方法还包括：

对所述第一目标图像经过颜色转换，得到RGB彩色图像；

所述对所述第一目标图像进行亮度增强和颜色增强，得到第二目标图像，具体包括：

对所述RGB彩色图像进行亮度增强或颜色增强中的至少一项，得到所述第二目标图像。

8.根据权利要求1至7任一项所述的方法，其特征在于，所述第一深度学习网络的功能还包括：图像对齐。

9.根据权利要求1至7任一项所述的方法，其特征在于，所述预处理还包括：图像对齐。

10.根据权利要求9所述的方法，其特征在于，所述预处理具体包括：

对所述多帧RAW图像进行通道拆分和像素重排列，得到分属M个通道的多帧子图像，其中，每个通道中的子图像的帧数等于所述多帧RAW图像的帧数；

分别对齐每个通道中的多帧子图像。

11.根据权利要求10所述的方法，其特征在于，所述分别对齐每个通道中的多帧子图像，具体包括：

对齐第一通道中的多帧子图像，所述第一通道为所述M个通道中的任一个通道；

基于对齐所述第一通道时所使用的对齐方式对齐其他通道。

12.根据权利要求1至11任一项所述的方法，其特征在于，所述亮度增强或颜色增强包括如下至少一项：黑电平校正BLC、自动白平衡AWB、镜头阴影校正LSC、色调映射ToneMapping、颜色校正Color Mapping、对比度增加或者伽马gamma校正。

13.根据权利要求1至7任一项所述的方法，其特征在于，所述预处理具体包括：

对所述多帧RAW图像进行黑电平校正BLC、自动白平衡AWB或镜头阴影校正LSC中的至少一项处理，得到多帧第一预处理后的RAW图像；

对所述多帧第一预处理后的RAW图像进行通道拆分和像素重排列，得到分属于M个通道的多帧子图像，其中，每个通道中的子图像的帧数与所述多帧RAW图像的帧数相等；

对齐每个通道中的多帧子图像。

14.根据权利要求1至13任一项所述的方法，其特征在于，所述第一中间图像包括的子图像所属的通道数等于所述RAW图像的最小重复单元包含的像素个数。

15.根据权利要求1至14任一项所述的方法，其特征在于，所述预处理还包括：估计图像的噪声强度区域分布图或锐化强度图的至少一项；

所述第一深度学习网络具体用于实现下述的至少一项：

基于所述噪声强度区域分布图控制所述第一中间图像的不同区域的降噪程度；

基于所述锐度强化图控制所述第一中间图像的不同区域的锐化强度。

16.根据权利要求1至15任一项所述的方法，其特征在于，所述第一深度学习网络包括：多个残差网络卷积模块、至少一个上采样卷积块以及第二特征融合卷积模块，所述第二特征卷积模块的输出为所述第一深度学习网络的输出，所述第二特征融合卷积模块的特征通道数为3或4。

17.根据权利要求16所述的方法，其特征在于，所述上采样卷积块的个数与所述RAW图像的格式、所述RAW图像的尺寸和所述第一目标图像的尺寸有关。

18.根据权利要求16或17所述的方法，其特征在于，所述第一深度学习网络还包括：特征提取卷积模块和第一特征融合模块，所述多个残差网络卷积模块的输出为所述第一特征融合模块的输入。

19.根据权利要求1至18任一项所述的方法，其特征在于，当所述方法应用于HDR场景时，所述多帧RAW图像为多帧短曝光的RAW图像，所述第一深度学习网络的训练数据包括多帧短曝光训练图像，所述短曝光训练图像根据如下方法获得：

对曝光合理的高质量图像进行反向Gamma校正，得到反向伽马校正图像；

将所述反向伽马校正图像的每个像素值均除以一个数字，得到所述短曝光训练图像。

20.根据权利要求1至18任一项所述的方法，其特征在于，当所述方法应用于暗光场景时，增加输入的所述RAW图像的帧数；

当所述方法应用于变焦模式时，所述第一深度学习网络中的上采样卷积块的个数与变焦倍数有关。

21.根据权利要求1至19任一项所述的方法，其特征在于，所述第一深度学习网络为根据第一指示信息从深度学习网络资源池中选择的目标深度学习网络，所述第一指示信息为用户在应用程序APP界面上选择的与应用场景相关的指示信息；或者，

所述第一指示信息为分析摄像头获取的预览图像的特性得到的与应用场景相关的指示信息；或者，

所述第一指示信息为输入所述多帧RAW图像携带的倍率信息。

22.一种图像处理的装置，其特征在于，所述装置包括：

预处理模块，用于对多帧RAW图像进行预处理，得到第一中间图像，所述预处理包括：通道拆分和像素重排列，所述第一中间图像包括属于多个通道的子图像，其中，每个通道的子图像只包含一种颜色分量；

第一深度学习网络，用于对所述第一中间图像进行处理，得到第一目标图像，所述第一深度学习网络的功能包括：去马赛克DM和降噪；

增强模块，用于对所述第一目标图像进行亮度增强或颜色增强中的至少一项，得到第二目标图像。

23.根据权利要求22所述的装置，其特征在于，所述第一深度学习网络的功能还包括：超分辨率SR重建，所述RAW图像具有第一分辨率，所述第一目标图像具有第二分辨率，所述第二分辨率大于所述第一分辨率。

24.根据权利要求22或23所述的装置，其特征在于，所述第一深度学习网络的功能还包括：坏点校正或相位点补偿中的至少一项；或者，所述预处理还包括：坏点校正或相位点补偿中的至少一项。

25.根据权利要求22至24任一项所述的装置，其特征在于，所述第一深度学习网络的功能还包括：锐化。

26.根据权利要求22至24任一项所述的装置，其特征在于，所述装置还包括：

锐化模块，用于对所述第二目标图像进行锐化，得到第三目标图像；

发送接口，用于将所述第三目标图像发送到显示屏或者存储器。

27.根据权利要求22至26任一项所述的装置，其特征在于，所述RAW图像为RYYB图像或包含4个不同颜色分量的图像，所述装置还包括：

颜色转换模块，用于对所述第一目标图像经过颜色转换，得到RGB彩色图像；

所述增强模块，具体用于对所述RGB彩色图像进行亮度增强或颜色增强中的至少一项，得到所述第二目标图像。

28.根据权利要求22至27任一项所述的装置，其特征在于，所述第一深度学习网络的功能还包括：图像对齐，或者，所述预处理还包括：图像对齐。

29.根据权利要求22至27任一项所述的装置，其特征在于，所述预处理还包括图像对齐，所述预处理模块，具体用于：

基于对齐所述第一通道时所使用的对齐方式对齐其他通道。

30.根据权利要求22至29任一项所述的装置，其特征在于，所述增强模块具体用于实现如下至少一项：

黑电平校正BLC、自动白平衡AWB、镜头阴影校正LSC、色调映射Tone Mapping、颜色校正Color Mapping、对比度增加或者伽马gamma校正。

31.根据权利要求22至27任一项所述的装置，其特征在于，所述预处理模块，具体用于：

对齐每个通道中的多帧子图像。

32.根据权利要求22至31任一项所述的装置，其特征在于，所述第一中间图像包括的子图像所属的通道数等于所述RAW图像的最小重复单元包含的像素个数。

33.根据权利要求22至32任一项所述的装置，其特征在于，所述预处理模块还用于：

估计图像的噪声强度区域分布图或锐化强度图的至少一项；

所述第一深度学习网络具体用于实现下述的至少一项：

34.根据权利要求22至33任一项所述的装置，其特征在于，所述第一深度学习网络包括：多个残差网络卷积模块、至少一个上采样卷积块以及第二特征融合卷积模块，所述第二特征卷积模块的输出为所述第一深度学习网络的输出，所述第二特征融合卷积模块的特征通道数为3或4。

35.根据权利要求22至34任一项所述的装置，其特征在于，当所述装置应用于HDR场景时，所述多帧RAW图像为多帧短曝光的RAW图像；当所述装置应用于暗光场景时，增加输入的所述RAW图像的帧数；当所述装置应用于变焦模式时，所述第一深度学习网络中的上采样卷积块的个数与变焦倍数有关。

36.根据权利要求22至35任一项所述的装置，其特征在于，所述第一深度学习网络为根据第一指示信息从深度学习网络资源池中选择的目标深度学习网络，所述第一指示信息为用户在应用程序APP界面上选择的与应用场景相关的指示信息；或者，

所述第一指示信息为输入所述多帧RAW图像携带的倍率信息。

37.一种图像处理的装置，其特征在于，所述装置包括：接收接口和处理器，所述处理器上运行有第一深度学习网络，所述第一深度学习网络的功能包括：去马赛克DM和降噪；

所述接收接口，用于接收摄像头获取的多帧RAW图像；

所述处理器，用于调用存储器中存储的软件代码，以执行如权利要求1至21任一项权利要求所述的方法。

38.一种计算机可读存储介质，所述计算机可读存储介质中存储有指令，当所述指令在计算机或处理器上运行时，使得所述计算机或处理器执行如权利要求1至21任一项所述的方法。

39.一种包含指令的计算机程序产品，当所述指令在计算机或处理器上运行时，使得所述计算机或处理器执行如权利要求1至21任一项所述的方法。