CN113273180A

CN113273180A - 图像处理装置和方法

Info

Publication number: CN113273180A
Application number: CN201980087138.0A
Authority: CN
Inventors: 尼科莱·德米特里耶维奇·叶戈罗夫; 伊蕾娜·亚历山德罗夫娜·阿尔希娜; 马拉特·拉维列维奇·吉尔穆蒂诺夫; 德米特里·瓦迪莫维奇·诺维科夫; 安东·伊戈列维奇·维泽洛夫; 基里尔·亚历山德罗维奇·马拉科夫
Original assignee: Huawei Technologies Co Ltd
Current assignee: Huawei Technologies Co Ltd
Priority date: 2019-02-27
Filing date: 2019-02-27
Publication date: 2021-08-17
Anticipated expiration: 2039-02-27
Also published as: CN113273180B; WO2020176007A1; EP3900327A1; WO2020176007A8; US20210390658A1

Abstract

本发明涉及一种图像处理装置(100)，该装置用于将场景的彩色滤镜马赛克(CFM)图像(002)处理为该场景的最终图像(004)。该图像处理装置(100)包括用于实现神经网络(103)的处理电路，其中，该神经网络(103)用于将CFM图像(002)处理为增强CFM图像(003)，其中，该处理电路还用于将增强CFM图像(003)转换为最终图像(004)。此外，本发明涉及对应的图像处理方法。

Description

图像处理装置和方法

技术领域

本发明涉及图像和视频处理。更具体地，本发明涉及实现用于图像增强的神经网络的图像处理装置和对应的图像处理方法。

背景技术

近年来，在移动电话中使用高分辨率的相机变得越来越普及。然而，由于空间限制，相机的硬件在像素大小和光学器件质量的方面都受到限制。此外，移动电话通常是手持的，因此对于长时间的曝光来说不够稳定。由于这些原因，这些设备中的成像硬件通常与图像信号处理(image signal processing，ISP)算法搭配，以弥补这些限制。

在移动电话和其他电子设备中使用的相机，通常被配置为使用具有彩色滤镜马赛克(color filter mosaic，CFM)的图像传感器来捕获场景的图像，从而得到CFM图像图像，彩色滤镜马赛克(CFM)也被称为彩色滤镜阵列(color filter array，CFA)。例如，可以使用以下彩色滤镜马赛克或彩色滤镜阵列其中之一：拜尔(Bayer)滤镜、红绿蓝翠绿(red greenblueemerald，RGBE)滤镜、青黄黄品红(cyan yellow yellow magenta，CYYM)滤镜、青黄绿品红(cyan yellow green magenta CYGM)滤镜、红绿蓝白(red green blue white RGBW)拜尔滤镜、或X-Trans滤镜。彩色滤镜马赛克或阵列是放置在图像传感器的像素传感器上的微小彩色滤镜的马赛克。对于每个像素，彩色滤镜马赛克或阵列允许测量特定波长区域内的光强度。例如，配备有拜尔滤镜的图像传感器在每个像素中测量红色(red，R)光、绿色(green，G)光、或蓝色(blue，B)光(即，颜色通道)。

CFM图像(即，由这种图像传感器产生的未加工图像)为图像的每个像素指示了强度等级。需要对CFM图像进行特定处理，以生成可以在显示屏(例如，移动电话的显示屏)上显示的RGB图像。将彩色滤镜马赛克图像(或CFM信号)转换为RGB图像(或信号)的数据处理过程可以包括或者可以被实现为图像信号处理(ISP)流水线。例如，ISP流水线可以包括以下处理步骤中的一个或多个：去噪、白平衡、去马赛克、色调映射、对比度增强、和/或锐化。经过ISP后获得的RGB数据可以被压缩，之后存储在相机上或发送到外部网络。

通常，场景的彩色滤镜马赛克图像(或信号)与该场景的RGB图像在统计和视觉质量上有很大不同。彩色滤镜马赛克图像(或信号)可能会遭受到伪像(artefacts)的影响，例如：由于传感器缺陷导致的脉冲状噪声(称为死像素(dead pixel))、由半导体特性引起的具有高振幅的噪声分量、与照明源相关的颜色、传感器特定颜色(这种颜色对人类来说可能看起来不自然)、以及低数据对比度(尤其是在暗区)。此外，由于使用了彩色滤镜马赛克，图像的每个点仅一种颜色己知，但是需要所有的三种基本颜色(RGB)值。这些问题可以通过ISP流水线的各种处理步骤解决。

将CFM图像(或信号)转化为RGB图像涉及几个任务。每个任务都会带来特定的挑战。例如，基于例如噪声模型抑制噪声可能引起图像中有价值的细节的丢失。颜色校正(也称为白平衡)是与感知相关的过程，需要与被捕获场景有关的语义知识，以提供高感知质量。应针对不同的图像区域适应性地进行对比度增强，在增强之后，应保留自然颜色，并且不应放大噪声。

此外，各种任务可能彼此竞争。例如，对比度增强过程可能会放大图像中的噪声。因此，所有的ISP过程都会受益于联合配置以及对过程间相关性的考虑。

已经建议使用监督学习方法，例如用于学习从拜尔图像形式的CFM图像到RGB图像的端到端转换的神经网络(例如，参见arXiv：1801.06724中Schwartz等人所著的“DeepISP：学习端到端的图像处理流水线(DeepISP:Learning End-to-End Image ProcessingPipeline)”)。在训练阶段，使用成对的信号/图像，每对信号/图像包括一场景的低质量拜耳图像和该场景的高质量RGB图像。可以使用ISP从高质量的拜耳图像生成高质量的RGB图像。因此，经训练的神经网络的性能将与训练阶段期间使用的ISP流水线的质量相关。由于在ISP流水线修改(特别是改进)的情况下可能需要昂贵的重新训练，因此这可能是不利的。

鉴于以上情况，存在对解决上述至少一些问题的改进的图像处理装置和方法的需要。

发明内容

本发明的目的是提供一种改进的图像处理装置和对应的图像处理方法。

通过独立权利要求的主题实现上述目的和其他目的。在从属权利要求、说明书、以及附图中，进一步的实施方式是显而易见的。

根据第一方面，本发明涉及一种图像处理装置，该装置用于将场景的原始彩色滤镜马赛克(CFM)图像处理为该场景的最终图像。该图像处理装置包括处理电路，该处理电路用于实现神经网络并使用神经网络将原始CFM图像处理为增强CFM图像。原始CFM图像和增强CFM图像对应于同一CFM——即原始CFM图像和增强CFM图像具有相同的像素阵列和关联于该像素阵列的相同的颜色通道模式。处理电路还用于将增强CFM图像转换(即，转化)为最终图像。

因此，提供了一种改进的图像处理装置。该图像处理装置可以在例如移动电话或平板电脑中实现。处理电路可以包括一个或多个处理器以及连接到该一个或多个处理器的非暂时性存储介质。非暂时性存储介质可以载有可执行的程序代码，当该程序代码由一个或多个处理器执行时，使装置执行本文所描述的操作或方法。

如本文所使用的，彩色滤镜马赛克(CFM)图像是由图像传感器生成的数字图像，该图像传感器包括像素化光电探测器以及放置在像素化光电探测器前方的CFM，像素化光电探测器的每个像素都有CFM的一个彩色滤镜元件放置在其前方。因此，CFM图像包括多个样本，每个样本映射到像素化光电探测器的一个像素，并且表示由该像素的彩色滤镜元件定义的颜色通道(例如，红色、绿色、或蓝色)中的光强度。可以在改变或不改变样本模式(即，样本的总数及其位置)以及颜色通道的情况下，进一步处理CFM图像。如果仅样本强度改变，而样本模式和颜色通道保持不变，则得到的经处理的图像仍可以称为CFM图像。

在第一方面的其他可能的实施方式中，CFM是以下其中之一：拜尔滤镜马赛克、RGBE滤镜马赛克、CYYM滤镜马赛克、CYGM滤镜马赛克、或X-Trans滤镜马赛克。最终图像可以是RGB图像。

在第一方面的其他可能的实施方式中，将增强CFM图像转换为最终图像包括去马赛克。

因此，根据实施方式，最终RGB图像的多个像素中的每个像素包括三个样本值，包括R色通道中的第一样本值、G色通道中的第二样本值、以及B色通道中的第三样本值。原始CFM图像包括f多个颜色通道，其中颜色通道的数量可以是但不限于以下值：1、2、3、或更多。神经网络在应用阶段用于将原始CFM图像处理为增强CFM图像，其中，增强CFM图像的多个像素中的每个像素包括来自与原始CFM图像相同的颜色通道的像素。处理电路还用于将增强CFM图像转化为最终RGB图像。本发明实施例可以使用拜尔滤镜马赛克有利地实现。

因此，本发明实施例在对增强CFM图像应用ISP以获得最终图像之前，提供了一种增强原始CFM图像质量的深度学习方法。在这一方法中，在训练阶段，神经网络不与任何ISP流水线的特定实施方式相关，因此，在ISP流水线修改的情况下不需要重新训练。此外，神经网络的所有可用资源被高效使用，以学习原始CFM图像的增强。最后，根据本发明实施例，神经网络是用于获得最终RGB图像的ISP阶段之前的预处理阶段，可以使用与ISP阶段相关的参数轻易地对输出质量进行微调。

在第一方面的其他可能的实施方式中，将原始CFM图像处理为增强CFM图像，和/或将增强CFM图像转换为最终图像(即，ISP阶段)包括以下一项或多项：去噪、白平衡、色调映射、对比度增强、以及锐化。

在第一方面的其他可能的实施方式中，图像处理装置还包括用于生成场景的原始CFM图像的图像捕获设备(例如，相机)。替代地或另外地，可以经由无线通信网络将原始CFM图像提供给图像处理设备。

根据第二方面，本发明涉及一种神经网络训练装置。该神经网络训练装置用于在训练阶段使用多个训练图像对训练神经网络，其中，每个训练图像对包括第一训练图像和第二训练图像，其中，第一训练图像和第二训练图像分别是训练场景的第一CFM图像和第二CFM图像。第二未加工图像应具有比第一未加工图像更好的图像质量。

可以理解，根据第二方面的神经网络训练装置可以实现为根据第一方面的图像处理装置的部件。替代地，神经网络训练装置可以实现为独立的设备。

在第二方面的其他可能的实施方式中，神经网络训练装置包括图像捕获设备，该图像捕获设备用于通过第一曝光生成第一训练图像，以及通过第二曝光生成第二训练图像，其中，第二曝光比第一曝光长。

在第二方面的其他可能的实施方式中，图像捕获设备包括第一光学元件(例如，第一透镜)和第二光学元件(例如，第二透镜)，其中，图像捕获设备用于使用第一光学元件但不使用第二光学元件生成第一训练图像，以及使用第二光学元件但不使用第一光学元件生成第二训练图像，从而相应场景的第二未加工图像具有比第一未加工图像更高的质量。

在第二方面的其他可能的实施方式中，神经网络训练装置用于从捕获的CFM图像中生成第一训练图像和第二训练图像，其中，生成第一训练图像包括对捕获的CFM图像应用图像退化操作，并且生成第二训练图像包括不对同一CFM图像应用图像退化操作。

在第二方面的其他可能的实施方式中，图像退化操作包括以下一项或多项：使捕获的CFM图像失真；添加噪声(例如，高斯加性噪声)；降低亮度；以及，降低对比度。

在第二方面的其他可能的实施方式中，神经网络包括多个滤镜权重，其中，神经网络训练装置用于在训练阶段通过使用反向传播算法和最小化损失函数，基于多个训练图像对，迭代调整多个滤镜权重，其中，对于每个训练图像对，损失函数取决于相应的增强CFM图像，该增强CFM图像是神经网络基于第一训练图像和相应的第二训练图像提供的。

在第二方面的其他可能的实施方式中，损失函数是L1损失函数、L2损失函数、SSIM损失函数、MS-SSIM损失函数、或以上函数的组合。

在第二方面的其他可能的实施方式中，神经网络是卷积神经网络(convolutionalneural network，CNN)。例如，CNN可以是DeepISP、U-Net、或SSDA卷积神经网络。

根据第三方面，本发明涉及一种对应的图像处理方法，该方法用于将场景的原始彩色滤镜马赛克(CFM)图像处理为该场景的最终图像。该方法包括以下步骤：使用神经网络将原始CFM图像处理为增强CFM图像；以及，将增强CFM图像转换为最终图像。

因此，提供了一种改进的图像处理方法。

根据本发明第三方面的图像处理方法可以由根据本发明第一方面的图像处理装置执行。根据本发明第三方面的图像处理方法的其他特征直接来自于根据本发明第一方面的图像处理装置的功能以及其上述和下述的不同实施方式。

根据第四方面，本发明涉及一种神经网络训练方法，该方法包括在训练阶段使用多个训练图像对训练神经网络的步骤，其中，每个训练图像对包括第一训练图像和第二训练图像，其中，第一训练图像和第二训练图像分别是训练场景的第一CFM图像和第二CFM图像。

根据本发明第四方面的神经网络训练方法可以由根据本发明第二方面的神经网络训练装置执行。根据本发明第四方面的神经网络训练方法的其他特征直接来自于根据本发明第二方面的神经网络训练装置的功能以及其上述和下述的不同实施方式。

根据第五方面，本发明涉及一种计算机程序产品，包括载有程序代码的非暂时性计算机可读存储介质，当程序代码由计算机或处理器执行时，使得计算机或处理器执行根据第三方面的方法或根据第四方面的方法。

在以下附图和说明书中，描述了一个或多个实施例的细节。根据说明书、附图、以及权利要求，其他特征、目的、以及优点将显而易见。

附图说明

在下文中，将参考附图更详细地描述本发明实施例，在附图中：

图1是示出根据本发明实施例的图像处理装置的示例的示意图；

图2是示出根据本发明实施例的神经网络训练装置的示例的示意图；

图3是示出根据本发明实施例的图像处理方法的示例的流程图；

图4是示出根据本发明实施例的神经网络训练方法的示例的流程图；以及

图5示出了根据实施例的基于拜尔滤镜马赛克的原始CFM图像、增强CFM图像、以及由图像处理装置处理和生成的最终RGB图像。

在下文中，相同的附图标记指代相同的或至少功能上等同的特征。

具体实施方式

以下描述中，参考附图，附图构成本公开的一部分并以图示的方式示出本发明实施例的具体方面或可以使用本发明实施例的具体方面。应理解，本发明实施例可以在其他方面中使用，并且可以包括未在附图中绘制出的结构变化或逻辑变化。因此，以下具体实施方式并不作为限制性的，本发明的范围由所附权利要求界定。

例如，应理解，结合所描述方法的公开内容对于用于执行该方法的对应设备或系统也同样适用，反之亦然。例如，如果描述的是一个或多个具体方法步骤，则对应的设备可以包括一个或多个单元(例如，功能单元)来执行所描述的一个或多个方法步骤(例如，一个单元执行一个或多个步骤，或多个单元分别执行多个步骤中的一个或多个)，即使未明确描述或在附图中示出这样的一个或多个单元。另一方面，例如，如果基于一个或多个单元(例如，功能单元)来描述具体装置，则对应的方法可以包括一个步骤来执行一个或多个单元的功能(例如，一个步骤执行一个或多个单元的功能，或多个步骤分别执行多个单元中一个或多个单元的功能)，即使未明确描述或在附图中示出这样的一个或多个步骤。此外，应理解，除非另有特别说明，否则本文描述的各种示例性实施例和/或方面的特征可彼此组合。

图1示出了根据本发明实施例的图像处理装置100。根据一实施例，图像处理装置100可以实现为移动电话100或其部件。尽管在下文中，图1中示出的图像处理装置100将在RGB颜色空间的语境中描述，但可以理解的是，也可以使用其他颜色空间来实现本发明实施例，例如，YUV颜色空间等。

如下面将更详细描述的，图像处理装置100用于将一场景的原始的彩色滤镜马赛克(CFM)图像002处理为该场景的视觉增强的最终RGB图像(或信号)004。在该示例中，CFM是拜尔滤镜马赛克，因此，下面也可以将该CFM图像002称为拜尔图像或拜尔信号002。视觉增强的最终RGB图像004的每个像素包括或关联于三个样本值，包括R色通道中的第一样本值、G色通道中的第二样本值、以及B色通道中的第三样本值。在原始拜尔图像002中，每个像素都关联于彩色滤镜马赛克(例如，拜尔滤镜马赛克)的多个颜色通道的其中之一。

可以理解，彩色滤镜马赛克(CFM)图像是由图像传感器生成的数字图像，图像传感器包括像素化光电探测器以及放置在该像素化光电探测器前方的CFM，像素化光电探测器的每个像素都有CFM的一个彩色滤镜元件放置在其前方。因此，CFM图像包括多个样本，每个样本映射到像素化光电探测器的一个像素，并且表示由该像素的彩色滤镜元件定义的颜色通道(例如，红色、绿色、或蓝色)中的光强度。可以在改变或不改变样本模式(即，样本的总数及其位置)以及颜色通道的情况下，进一步处理CFM图像。如果仅样本强度改变，而样本模式和颜色通道保持不变，则得到的经处理的图像仍可以称为CFM图像。

如图1所示，图像处理装置100包括用于提供(即，实现)卷积神经网络(convolutional neural network，CNN)103的处理电路。在应用阶段，CNN 103用于通过执行若干个卷积步骤将未加工的拜尔图像002处理为视觉增强的未加工的拜尔图像(在图1中称为增强的拜尔信号003)，其中，视觉增强的未加工的拜尔图像003的每个像素包括在与未加工的拜尔图像002的相应像素相同的颜色通道(即R、G、或B)中的单个样本值。换句话说，未加工的拜尔图像002和视觉增强的未加工的拜尔图像003具有相同的格式(即，数据结构)，但具有不同的质量。在这里和整个说明书中，拜尔滤镜或拜尔图像只是彩色滤镜马赛克或彩色滤镜马赛克图像的示例，而彩色滤镜马赛克不一定是拜尔滤镜马赛克。

此外，如图1所示，图像处理装置100可以包括ISP单元或ISP流水线104，用于将视觉增强的未加工的拜尔图像003转换(即，转化)为视觉增强的最终RGB图像004。如上所述，视觉增强的拜尔图像003和视觉增强的最终RGB图像004具有不同的格式，即，对于每个像素，视觉增强的拜尔图像003包括单个样本值(即，R、G、或B)，而视觉增强的最终RGB图像004包括三个单独的样本值(即，R、G、和B)。根据本发明实施例，单元105可以实现多个不同的ISP流水线或处理方案，该ISP流水线或处理方案用于将增强的拜尔图像003转换为RGB图像004，例如Hyun Sang Park在2015年7月20日由Springer Netherlands出版的《智能相机的理论与应用》一书中在“基线ISP流水线的架构分析”一章中所公开的ISP流水线，其全部内容通过引用结合于此。

根据本发明实施例，几乎所有用于图像去噪的神经网络架构都可以用于实现CNN103，其中，CNN 103的第一输入层和最后输出层具有(W，H，4)的格式，其中W和H代表每个拜尔图像的宽度和高度。根据本发明实施例，CNN 103可以是DeepISP(如Schwartz等人在“DeepISP：学习端到端的图像处理流水线(DeepISP:Learning End-to-End ImageProcessing Pipeline)”，arXiv：1801.06724中描述的)、U-Net(如Ronneberger等人在“U-Net：用于生物医学图像分割的卷积网络(U-Net:Convolutional Networks forBiomedical Image Segmentation)”，arXiv：1505.04597中描述的)、或SSDA卷积神经网络(如JunyuanXie等人在“利用深度神经网络进行图像降噪和修复(Image Denoising andInpainting with Deep Neural Networks)”，第25届神经信息处理系统国际会议，内华达州塔霍湖市，2012年12月3-6日，NIPS议程12，第1卷，第341-349页中描述的)，其全部内容通过引用结合于此。

如图1所示，图像处理装置100还可以包括图像捕获设备(特别是相机101)，该图像捕获设备可以包括一个或多个光学元件(特别是镜头101a和传感器101b)。该一个或多个光学元件101a用于将聚焦的光束101a(表示捕获到的场景)引导到传感器101b，而该传感器101b用于基于拜尔滤镜马赛克提供原始的CFM(例如，拜尔)图像002。例如，可以通过使用彩色滤镜阵列与传感器101b的组合实现拜尔滤镜马赛克。传感器101b的每个像素将提供仅与一种颜色分量有关的信息。尽管使用最广泛的彩色滤镜马赛克或阵列是拜尔滤镜马赛克(这是来自图像传感器的未加工信号通常被称为“拜尔信号”的原因)，但也可以使用其他彩色滤镜马赛克或阵列，例如，红绿蓝白(red green blue white，RGBW)滤镜马赛克、CYGM滤镜马赛克(在这种情况下，“C”代表“清楚”，即没有滤镜)、CYMM滤镜马赛克、RGBE滤镜马赛克等。可以理解，由传感器101b提供的信号(即，未加工的信号/图像)，通常与响应于入射光而产生的电流线性地成比例。通常，高位深可以用于每个样本的一个颜色通道。如上所述，图像处理装置100的ISP 105用于恢复缺失位置的颜色信息(所谓的去马赛克)，执行去噪、白平衡、伽马(gamma)校正、位深减少、颜色校正、和/或其他操作。可以理解，由ISP 105执行的这些操作中至少有一些不是无损的。因此，本发明的关键方面之一是在由ISP 105执行有损图像转换之前，使用神经网络103改进原始CFM(例如，拜耳)图像002的视觉质量。

此外，图像处理装置100可以包括用于最终RGB图像004的后处理的其他部件，即，编码器107和发射器109，编码器107用于将最终RGB图像004编码为比特流005，发射器109用于将经编码的比特流005作为网络信号(例如，无线信号006)发射到其他设备(例如，与通信网络连接的服务器)。

图2示出了根据一实施例的用于训练神经网络103的神经网络训练装置200。如下面将更详细描述的，神经网络训练装置200用于在训练阶段使用多个训练图像训练对CNN103，其中，每个训练图像对包括第一训练图像和第二训练图像，其中，第一训练图像和第二训练图像分别是训练场景的第一CFM图像和第二CFM图像。第二未加工图像应该具有比第一未加工图像更好的图像质量。

根据一实施例，神经网络训练装置200可以实现为与图1的图像处理装置100相同的电子设备的部件，或在与图1的图像处理装置100相同的电子设备上实现。替代地，神经网络训练装置200可以实现为独立的设备，该设备用于向图像处理装置100提供多个神经网络权重。

在一实施例中，CNN 103用于由神经网络训练装置200使用多对拜尔训练图像进行训练，其中，每对拜尔训练图像包括作为第一训练图像的训练场景的低质量原始拜尔图像，以及，作为第二训练图像的训练场景的增强的高质量拜尔图像。

根据一实施例，神经网络训练装置200可以用于从远程设备(例如，服务器)接收多对拜尔训练图像。如下面将更详细描述的，替代地或另外地，神经网络训练装置200可以用于自行生成该多对拜尔训练图像。

根据一实施例，原始拜尔图像由图像捕获设备(例如，图像处理装置100的图像捕获设备101或神经网络训练装置200的图像捕获设备)捕获，该原始拜尔图像取决于定义了曝光的曝光参数，其中，图像捕获设备用于，通过使用第一曝光捕获相应训练场景的第一低质量原始拜尔图像，以提供相应的一个训练图像对中的第一训练图像，以及，通过使用第二曝光参数捕获相应训练场景的第二高质量拜尔图像，以提供相应的这个训练图像对中的第二训练图像，其中，第一曝光参数定义的曝光短于第二曝光参数定义的曝光。

根据另一实施例，图像捕获设备(例如，图像捕获设备101)包括第一光学元件(例如，第一透镜101a)和第二光学元件(例如，第二透镜)，其中，图像捕获设备(例如，图像捕获设备101)用于使用第一光学元件101a或第二光学元件生成原始拜尔图像。在本实施例中，图像捕获设备(例如，图像捕获设备101)用于，通过使用第一光学元件101a但不使用第二光学元件捕获相应训练场景的第一低质量原始拜尔图像，以提供相应的一个训练图像对中的第一训练图像，以及，通过使用第二光学元件但不使用第一光学元件捕获相应训练场景的第二高质量拜尔图像，以提供相应的这个训练图像对中的第二训练图像，从而使相应场景的第二高质量拜尔图像具有高于第一低质量原始拜尔图像的质量。

根据另一实施例，神经网络训练装置200可以用于使用至少一种用于获得失真的原始拜尔图像的图像失真算法，以使捕获的原始拜尔图像的视觉质量退化。在本实施例中，神经网络训练装置200可以用于通过使由图像捕获设备(例如，图像捕获设备101)捕获的原始拜尔图像的视觉质量退化，以提供相应的一个训练图像对中的第一训练图像，并且将由图像捕获设备(例如，图像捕获设备101)捕获的原始拜尔图像提供为相应的这个训练图像对的第二训练图像。在一实施例中，神经网络训练装置200用于通过以下步骤执行图像退化操作：使捕获的原始拜尔图像失真；将噪声(特别是高斯(Gaussian)加性噪声)添加到捕获的原始拜尔图像；降低捕获的原始拜尔图像的亮度；和/或，降低捕获的原始拜尔图像的对比度。

根据另一实施例，可以通过在受控环境中使用正常照明(illumination)捕获高质量的增强的拜尔图像作为第二训练图像，并使用低照明(即，减少或关闭由照明源(例如，灯)提供的照明)捕获低质量的原始拜尔图像作为第一训练图像，以提供多个训练图像。

如图2所示，可以由多个滤镜权重定义CNN 103(即，CNN 103包括多个滤镜权重)，其中，在训练阶段，神经网络训练装置200用于通过使用反向传播算法以及(例如，使用图2中示出的损失函数优化器204)最小化损失函数，基于多个训练图像对迭代调整多个滤镜权重。根据一实施例，可以由[0；1]范围内的随机值对CNN 103的滤镜权重进行初始化。

对于每个训练图像对，损失函数取决于CNN 103基于第一训练图像001和相应的第二训练图像003提供的相应的视觉增强拜尔图像002。如图2所示，损失函数优化器204用于向CNN 103提供对于滤镜权重的更新004。根据本发明实施例，可以在损失函数优化器204中实现多个不同的损失函数以用于训练CNN 103，例如，L1损失函数、L2损失函数、SSIM损失函数、MS-SSIM损失函数、及其组合。更多关于可能的损失函数的细节，参见IEEE计算成像学报2017年3月第3卷第1期中Hang Zhao等人的“利用神经网络进行图像恢复的损失函数”，其全部内容通过引用合并于此。

图3是示出根据本发明实施例的图像处理方法300的示例的流程图。该方法300包括以下步骤：使用神经网络103将原始CFM(例如，拜尔)图像002处理301为视觉增强的CFM(例如，拜尔)003，其中，该视觉增强CFM图像003的每个像素包括与原始CFM图像002的相应像素相同的颜色通道中的单个样本值；以及，将视觉增强CFM图像003转换303为视觉增强的最终图像004。

图4是示出根据本发明实施例的神经网络训练方法400的示例的流程图。该方法400包括以下步骤：在训练阶段，使用多个训练图像对训练401神经网络103，其中，每个训练图像对包括第一训练图像和第二训练图像，其中，第一训练图像和第二训练图像分别是训练场景的第一CFM图像和第二CFM图像。

已经使用以下设置对本发明实施例的性能进行了测试。按照Ronneberger等人在“U-Net：用于生物医学图像分割的卷积网络”，arXiv：1505.04597中公开的实现了CNN和损失函数，其中，将CNN输出层的形状从(2*W,2*H,3)改成(W,H,4)，其中W代表原始拜耳图像的宽度，H代表原始拜耳图像的高度。使用的拜尔训练图像对的数据集也来自Ronneberger等人的“U-Net：用于生物医学图像分割的卷积网络”，arXiv：1505.04597，其中高质量的拜耳图像是在低光环境下使用自动曝光设置捕获的，低质量的拜耳图像是使用数次降低后的自动曝光值捕获的。如Rob Sumner在“在MATLAB中处理RAW图像”中公开的(网页链接：https://rcsumner.net/raw_guide/RAWguide.pdf)，使用传统的ISP流水线处理CNN103的输出。

图5示出了(a)原始拜耳图像的示例，(b)视觉增强的拜耳图像，以及(c)由基于以上的图像处理装置100和图像处理方法300提供的视觉增强的最终RGB图像。出于说明目的，视觉增强的最终RGB图像显示为灰度图像。可以理解，与输入的原始拜耳图像相比，CNN处理结果的噪声较小。另外，CNN 103的结果仍然是拜尔图像，看起来明显不同于使用经选择的ISP流水线获得的RGB图像，对于本例，ISP流水线包括以下ISP步骤：去噪、白平衡、去马赛克、对比度增强、以及锐化。

本领域技术人员将理解，各种附图(方法和装置)中的“框”(“单元”)表示或描述本发明实施例的功能(而不一定是硬件或软件中的单独“单元”)，因此等同地描述装置实施例以及方法实施例的功能或特征(单元＝步骤)。

在本申请提供的若干个实施例中，应当理解的是，所公开的系统、装置、以及方法可以通过其他方式实现。例如，描述的装置实施例仅仅是示例性的。例如，单元的划分仅仅是逻辑功能划分，且在实际实现时可以有其他划分方式。例如，多个单元或组件可以合并或集成在另一个系统中，或可以忽略或不执行一些特征。此外，所显示或讨论的相互耦合或直接耦合或通信连接可以使用一些接口来实现。装置或单元之间的间接耦合或通信连接可以通过电、机械、或其他形式来实现。

作为单独部件描述的单元可以在物理上分离，也可以不在物理上分离，显示为单元的部件可以是物理单元，也可以不是物理单元，可以位于一个位置，也可以分布在多个网络单元上。可以根据实际需要选择部分或全部的单元，以实现实施例的解决方案的目的。

此外，实施例中的功能单元可以集成在一个处理单元中，或每个单元可以在物理上单独存在，或两个或更多单元可以集成在一个单元中。

Claims

1.一种图像处理装置(100)，用于将场景的原始彩色滤镜马赛克(CFM)图像(002)处理为所述场景的最终图像(004)，其中，所述图像处理装置(100)包括处理电路，所述处理电路用于：

实现神经网络(103)，并使用所述神经网络(103)将所述原始CFM图像(002)处理为增强CFM图像(003)，所述原始CFM图像(002)和所述增强CFM图像(003)对应于同一CFM，以及

将所述增强CFM图像(003)转换为所述最终图像(004)。

2.根据权利要求1所述的图像处理装置(100)，其中，所述CFM是以下其中之一：拜耳滤镜马赛克、RGBE滤镜马赛克、CYYM滤镜马赛克、CYGM滤镜马赛克、或X-Trans滤镜马赛克。

3.根据权利要求2所述的图像处理装置(100)，其中，将所述增强CFM图像(003)转换为所述最终图像(004)包括去马赛克。

4.根据权利要求1至3中任一项所述的图像处理装置(100)，其中，将所述CFM图像(002)处理为所述增强CFM图像(003)和/或将所述增强CFM图像(003)转换为所述最终图像(004)包括以下一项或多项：去噪、白平衡、色调映射、对比度增强、以及锐化。

5.根据前述权利要求中任一项所述的图像处理装置(100)，其中，所述图像处理装置(100)还包括用于生成所述场景的所述原始CFM图像(002)的图像捕获设备(101)。

6.一种神经网络训练装置(200)，用于在训练阶段使用多个训练图像对训练神经网络(103)，其中，每个训练图像对包括第一训练图像和第二训练图像，其中，所述第一训练图像和所述第二训练图像分别是训练场景的第一CFM图像和第二CFM图像。

7.根据权利要求6所述的神经网络训练装置(200)，其中，所述神经网络训练装置(200)包括图像捕获设备(101)，所述图像捕获设备(101)用于通过第一曝光生成所述第一训练图像以及通过第二曝光生成所述第二训练图像，其中，所述第二曝光比所述第一曝光长。

8.根据权利要求6所述的神经网络训练装置(200)，其中，所述神经网络训练装置(200)包括图像捕获设备(101)，所述图像捕获设备(101)包括第一光学元件(101a)和第二光学元件，并且所述图像捕获设备(101)用于使用所述第一光学元件(101a)生成所述第一训练图像以及使用所述第二光学元件生成所述第二训练图像。

9.根据权利要求6所述的神经网络训练装置(200)，用于从捕获的CFM图像中生成所述第一训练图像和所述第二训练图像，其中，生成所述第一训练图像包括对捕获的所述CFM图像应用图像退化操作，并且生成所述第二训练图像包括不对同一所述CFM图像应用所述图像退化操作。

10.根据权利要求9所述的神经网络训练装置(200)，其中，所述图像退化操作包括以下一项或多项：

-使捕获的所述CFM图像失真；

-添加噪声；

-降低亮度；以及

-降低对比度。

11.根据权利要求6至10中任一项所述的神经网络训练装置(200)，其中，所述神经网络(103)包括多个滤镜权重，并且其中，所述神经网络训练装置(200)用于在训练阶段通过使用反向传播算法和最小化损失函数，基于所述多个训练图像对，迭代调整所述多个滤镜权重，其中，对于每个训练图像对，所述损失函数取决于由所述神经网络(103)基于所述第一训练图像和相应的第二训练图像提供的相应的所述增强CFM图像。

12.根据权利要求11所述的神经网络训练装置(200)，其中，所述损失函数是L1损失函数、L2损失函数、SSIM损失函数、MS-SSIM损失函数、或以上函数的组合。

13.一种图像处理方法(300)，用于将场景的原始彩色滤镜马赛克(CFM)图像(002)处理为所述场景的最终图像(004)，其中，所述方法(300)包括：

使用神经网络(103)将所述原始CFM图像(002)处理为增强CFM图像(003)；以及

将所述增强CFM图像(003)转换为所述最终图像(004)。

14.一种神经网络训练方法(400)，包括：在训练阶段使用多个训练图像对训练(401)神经网络(103)，其中，每个训练图像对包括第一训练图像和第二训练图像，其中，所述第一训练图像和第二训练图像分别是训练场景的第一CFM图像和第二CFM图像。

15.一种载有程序代码的非暂时性计算机可读存储介质，当所述程序代码由计算机或处理器执行时，使得计算机或处理器执行根据权利要求13所述的方法(300)或根据权利要求14所述的方法(400)。