CN113454680A - 图像处理器 - Google Patents

图像处理器 Download PDF

Info

Publication number
CN113454680A
CN113454680A CN201980092717.4A CN201980092717A CN113454680A CN 113454680 A CN113454680 A CN 113454680A CN 201980092717 A CN201980092717 A CN 201980092717A CN 113454680 A CN113454680 A CN 113454680A
Authority
CN
China
Prior art keywords
image
feature map
image processing
input
color
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201980092717.4A
Other languages
English (en)
Inventor
肖恩·莫兰
格雷戈里·斯拉堡
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Huawei Technologies Co Ltd
Original Assignee
Huawei Technologies Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Huawei Technologies Co Ltd filed Critical Huawei Technologies Co Ltd
Publication of CN113454680A publication Critical patent/CN113454680A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T5/00Image enhancement or restoration
    • G06T5/90Dynamic range modification of images or parts thereof
    • G06T5/92Dynamic range modification of images or parts thereof based on global image properties
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T1/00General purpose image data processing
    • G06T1/20Processor architectures; Processor configuration, e.g. pipelining
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T5/00Image enhancement or restoration
    • G06T5/10Image enhancement or restoration using non-spatial domain filtering
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T5/00Image enhancement or restoration
    • G06T5/20Image enhancement or restoration using local operators
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T5/00Image enhancement or restoration
    • G06T5/60Image enhancement or restoration using machine learning, e.g. neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T5/00Image enhancement or restoration
    • G06T5/70Denoising; Smoothing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20084Artificial neural networks [ANN]
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N1/00Scanning, transmission or reproduction of documents or the like, e.g. facsimile transmission; Details thereof
    • H04N1/46Colour picture communication systems
    • H04N1/56Processing of colour picture signals
    • H04N1/60Colour correction or control

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Software Systems (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Medical Informatics (AREA)
  • Artificial Intelligence (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Mathematical Physics (AREA)
  • Image Processing (AREA)
  • Image Analysis (AREA)

Abstract

一种图像处理模块,用于实现经过多部分训练的人工智能模型,其中,所述图像处理模块用于:接收输入图像;实现所述模型的第一部分,以确定所述图像在第一颜色空间中的第一变换;将所述第一变换应用于所述图像,以形成第一调整图像;实现所述模型的第二部分,以确定所述图像在第二颜色空间中的第二变换;将所述第二变换应用于所述第一调整图像,以形成第二调整图像;输出从所述第二调整图像导出的图像。

Description

图像处理器
技术领域
本发明涉及数字摄影中的图像形成,尤其涉及使用经过训练的人工智能模型来执行图像信号处理器(Image Signal Processor,ISP)管道的阶段。
背景技术
在数码摄影中,将原始摄像机传感器的数据转换为视觉上美观的高质量数字图像是由一系列基于图像信号处理技术的图像处理算法进行处理的,这些图像处理算法统称为图像信号处理器(Image Signal Processor,ISP)。
在现有技术中,ISP是使用信号处理方法实现的。现有的ISP由大量模块组成,例如20个,通常排列在顺序管道中,每个模块负责定义良好的图像处理操作,例如去噪、去马赛克和颜色校正。图1示出了ISP管道的示例。一个模块的输出沿着管道馈送到下一个模块。
通常,ISP有大量暴露参数,这些暴露参数需要对新传感器进行调整。因此,现有技术方法存在图像质量问题和调整ISP生成高质量结果的难题。
同时,由于管道中模块之间存在复杂的依赖关系,设计现有ISP管道通常非常困难。例如,对去噪模块的更改可能导致颜色校正模块生成不希望的伪影。
深度学习的进步为属于现有ISP的许多图像处理方法带来了新的最先进方法,如去马赛克和去噪。使用深度神经网络生成的结果比基于现有信号处理算法的结果在视觉上更美观。机器学习方法可以简化优化,而不那么依赖大型数据集。一些使用人工智能的ISP已经被提出。
如E.Schwartz、R.Gilyes、A.Bronstein于2018年在ArXiv发表的“DeepISP:学习端到端图像处理管道(DeepISP:Learning End-to-End Image Processing Pipeline)”中描述的DeepISP是一种单网络深度学习方法,它采用原始数据,并使用简单的双线性插值方法作为执行去噪和去马赛克的低层级网络的输入。然后,高层级网络学习动态范围校正和色调映射。这种方法用单个端到端可训练的深度神经网络取代了ISP管道。此模型需要一组图像,这些图像表示从传感器原始数据到输出数字图像的所需映射。已经证明DeepISP可以生成高质量的输出图像,根据人类视觉检查,这些图像被认为比基于硬件的ISP所生成的图像更美观。但是,在执行局部像素调整时,这种方法不能确保不同比例图像之间的一致性。此外,该方法不允许独立于其它属性调整图像的属性。
希望开发一种基于深度学习组件的改进ISP,从而在执行局部像素调整时确保不同比例图像之间的一致性,并允许独立调整全局图像属性,以提供高质量的图像。
发明内容
根据第一方面,提供了一种图像处理模块,用于实现经过多部分训练的人工智能模型,其中,所述图像处理模块用于:接收输入图像;实现所述模型的第一部分,以确定所述图像在第一颜色空间中的第一变换;将所述第一变换应用于所述图像,以形成第一调整图像;实现所述模型的第二部分,以确定所述图像在第二颜色空间中的第二变换;将所述第二变换应用于所述第一调整图像,以形成第二调整图像;输出从所述第二调整图像导出的图像。所述模块的操作可以通过独立调整图像在不同颜色空间中的属性的方式来提高图像质量。
所述模块还可以用于:接收所述第二调整图像;实现所述模型的第三部分,以确定所述图像在第三颜色空间中的第三变换;将所述第三变换应用于所述图像以形成第三调整图像;输出从所述第三调整图像导出的图像。所述第一、第二和第三颜色空间中的每个颜色空间可以是以下组中的颜色空间:RGB空间、HSV空间和Lab空间。所有三个空间(RGB、Lab和HSV)的调整都对于实现高图像质量特别有益。
所述第一变换、所述第二变换和/或所述第三变换中的至少一个变换是分段线性缩放曲线。与典型的基于深度学习的模型相比,曲线层提供了人类可解释的网络如何执行映射的见解,因为曲线可以很容易地被人类读取和理解。在其它实现方式中,一个或多个变换可以表示为曲面或方程的参数。
所述第一缩放曲线、所述第二缩放曲线和所述第三缩放曲线中的每个缩放曲线可以包括分别由所述模型的所述第一部分和所述第二部分确定的结点。增加结点会增大曲线的建模灵活性,有利于对输入和输出之间的复杂关系进行建模。
所述模块可以用于将相应变换应用于这些变换对应的图像,以便调整相应图像在相应颜色空间中的属性。这样有利于独立调整图像属性。
所述第一变换和所述第二变换可以将所述图像在所述相应颜色空间中的属性与表示为缩放曲线的缩放因子相关联。所述缩放曲线可以在颜色空间中应用于所述图像,以调整所述图像的属性。
所述图像的属性可以是颜色、亮度、饱和度或色调。这些属性的调整可以产生更美观的图像。
所述模块可以用于以所述图像的全局比例,调整所述相应图像的属性。
根据第二方面,提供了一种处理系统,包括上文所述的图像处理模块和用于实现人工智能模型的第二模块,其中,上文所述的图像处理模块用于接收由所述第二模块形成的组合特征图,并处理所述特征图作为输入图像,所述第二模块用于:接收原始图像的输入特征图,其中,所述输入特征图针对所述图像中的多个位置中的每个位置包括多个通道上的数据;以小于所述输入特征图全局比例的比例,从所述输入特征图中提取特征,形成中间层级特征图;以所述输入特征图的全局比例,从所述输入特征图中提取特征,形成全局特征图;将所述中间层级特征图和所述全局特征图与所述输入特征图组合,形成组合特征图。在执行局部像素调整时,这种方法可以有助于确保所述图像不同比例之间的一致性。
所述第二模块可以用于从所述输入特征图中提取特征,以使用相应的卷积神经网络形成所述中间层级特征图和所述全局特征图。在图像处理中使用深度神经网络比基于传统信号处理算法的结果更具视觉效果。机器学习方法可以简化优化,而不那么依赖大型数据集。
所述第二模块还可以用于使用最大池化以所述输入特征图的全局比例,从所述输入特征图中提取特征。所述第二模块还可以用于通过1×1卷积融合所述组合特征图。
所述系统可以用于对所述原始图像执行以下中的一个或多个:去马赛克、去噪、局部亮度校正、局部颜色校正、全局亮度校正或全局颜色校正。用直接从数据中学习映射并能够联合优化的单个神经网络取代基于管道的ISP方法,在单个神经网络架构中进行去马赛克、去噪和颜色校正,并允许捕获和利用这些操作之间的协同效果。
根据第三方面,提供了一种用于在图像处理器中变换由摄像机捕获的原始图像的方法。所述处理器用于实现多部分人工智能模型,所述方法包括:接收输入图像;实现所述模型的第一部分,以确定所述图像在第一颜色空间中的第一缩放曲线;将所述第一缩放曲线应用于所述图像,以形成第一调整图像;实现所述模型的第二部分,以确定所述图像在第二颜色空间中的第二缩放曲线;将所述第二缩放曲线应用于所述第一调整图像,以形成第二调整图像;输出从所述第二调整图像导出的图像。所述方法可以通过允许独立调整图像在不同颜色空间中的属性的方式来提高图像质量。
附图说明
现将结合附图通过示例的方式对本发明进行描述。在附图中:
图1示出了由使用信号处理方法实现的大量操作组成的传统ISP。
图2示出了一个基于神经网络的图像处理架构,该架构具有低层级和高层级块。
图3(a)示出了马赛克图像。在每个像素处,获取蓝色、绿色或红色。在图3(b)中,马赛克图像被打包到代表R、G1、G2和B颜色的四个颜色通道中。在打包形式中,每个颜色通道的空间分辨率是原始马赛克图像分辨率的一半。
图4示出了图2架构的低层级块的实现方式。
图5示出了图4的低层级块的多比例上下文特征融合跳过连接架构的示例。
图6示出了低层级块的操作方法的示例。
图7示出了图2架构的高层级块的实现方式。
图8示出了用于根据饱和度调整色调的分段线性缩放曲线的示例。
图9示出了用于调整亮度的分段线性缩放曲线的示例。
图10示出了用于在图像处理器中变换由摄像机捕获的原始图像的方法的示例,所述处理器用于实现多部分人工智能模型。
图11示出了使用本文所述方法获得的结果。图10(a)示出了图像输入。由于动态范围内容较大,图像以深色可视。图10(b)示出了输出图像。图像亮度得到了校正,颜色和曝光得到了很大的改善。
图12示出了用于实现本文所述方法的摄像机的示例。
具体实施方式
本发明涉及使用支持人工智能的ISP,从而使用深度学习来生成最佳图像质量。传统的ISP管道被单个端到端可训练神经网络所取代,该神经网络可以从原始数据中学习ISP映射,以根据包括输入原始数据和输出数字图像对的代表性训练数据集输出高质量图像。神经网络执行传统ISP图像处理的核心功能,即去噪、去马赛克和颜色校正。去噪可以减少图像中噪点的产生。去噪阶段可以限于对原始数据进行去噪,或者可选地作为对RGB数据进行的其它阶段。去马赛克对原始数据进行插值,生成彩色(RGB)图像。这些操作可以在网络中按不同的顺序执行。在训练阶段,这些操作由神经网络统一优化。
图2示出了神经网络架构的示例。在20处将原始马赛克图像输入到网络。原始传感器输入20是由红色、绿色和蓝色颜色值组成的嘈杂马赛克图案,每个像素位置具有一个值,与称为拜耳(Bayer)矩阵的特定模式一致。所述架构包括两个互连的神经网络块21、22。块21在本文中称为低层级网络块。低层级块21执行局部像素调整,即对图像中的局部亮度和颜色去马赛克、去噪和校正。块22在本文中称为高层级块。高层级块包括特征提取块23和参数预测块24。在图2的示例中,参数预测块包括一系列全局调整图像属性的神经曲线层25、26、27。高层级块可以调整图像亮度、颜色和饱和度(基于色调)。还可以通过根据饱和度调整的饱和度以及根据色调调整的色调等转换、伽马校正、对比度调整或曝光调整来增强图像块。曲线层是图像处理架构的一个完全可学习的组件,用户不必事先指定。因此,高层级(全局)图像处理块22使用神经曲线层调整图像范围的属性。神经网络的输出28是颜色校正后的RGB帧,其动态范围适合在标准设备(例如,每个颜色通道具有256个层级的设备)上显示。
图2的神经网络架构经过端到端训练。单个端到端可训练神经网络可以基于包括输入原始数据和输出数字图像对的代表性训练数据集学习从输入数据20到高质量图像输出28的ISP映射。图像对构成了网络的一个示例,说明如何转换输入原始数据以产生高质量的输出数字图像,该数字图像已准备好供终端用户使用。
下面将参考图3至图5更详细地描述低层级块31的操作。
低层级块的输入是来自摄像机传感器的原始马赛克图像(图2中的20)。图3(a)示出了马赛克图像的示例。在马赛克图像中,每个像素都有红色值30、绿色值31或蓝色值32。网络对此图像进行去马赛克。去马赛克的目标是产生RGB图像,其中每个像素都有红色值、绿色值和蓝色值。低层级块使用卷积神经网络(convolutional neural network,CNN)来处理原始马赛克图像。CNN学习一组滤波器,这些滤波器通过卷积应用于图像。卷积设计成空间不变,即卷积在应用于图像中的任何位置时都具有相同的效果。在马赛克图像上应用卷积存在一个问题:由于存在色彩滤波阵列(colour filter array,CFA),卷积不再是空间不变的。例如,当滤波器以蓝色像素为中心时,效果可能与以红色像素为中心时不同。这个问题可以通过将数据打包到类似颜色的通道中来解决,然后每个通道都可以使用空间不变的卷积在CNN中处理。在图3(b)中,马赛克图像被打包到分别表示R、G1、G2和B颜色的四个颜色通道33、34、35和36中。低层级块接收打包的颜色通道作为其输入。打包图像的分辨率是完整RGB图像的一半。
在一个优选实施例中,按照性能Unet模型的设计,该系统实现为编码器-解码器神经网络架构,如Olaf Ronneberger、Philipp Fischer、Thomas Brox于2015在MICCAI发表的“U-Net:生物医学图像分割的卷积网络(U-Net:Convolutional Networks for BiomedicalImage Segmentation)”所述。如图4所示,编码器-解码器架构包括左侧的收缩(下采样)路径和右侧的扩展(上采样)路径。下采样路径允许了解图像与什么相关,例如,田野上的狗,而上采样路径允许了解突显对象和细节的位置。
下采样路径增加了模型的感受野,允许在图像处理操作中考虑程度逐渐变大大的图像上下文。每个下采样操作在技术上都是由最大池化运算符实现的,由类型40的一类箭头显示,该运算符在每个局部邻域中获取一组特征值中的最大值。得到的下采样特征图之后是双卷积块,由41的一类箭头显示。如41a所示,双卷积块包括3×3卷积,然后是ReLU激活,以及另一个3×3卷积,然后是ReLU激活。这个双卷积块将特征图中的通道数量翻倍。下采样路径终止于“瓶颈层”42,即图4所示架构的最低层级。瓶颈层42可以看作是图像关于“什么”的蒸馏(distillation),即全局颜色分布、全局亮度分布和粗粒度图像结构等重要的图像属性。
然后,来自瓶颈层42的特征图具有最低的空间分辨率但具有最多的通道,在扩展路径中逐步进行上采样,如图4中的右侧所示。此上采样路径在每个维度中逐步将特征图的空间分辨率增加2倍,直到特征图与输入的打包图像具有相同的宽度和高度,所述输入的打包图像的高度和宽度是完整RGB图像高度和宽度的一半。
在一个非限制性实施例中,使用双线性插值执行上采样,由43的一类箭头显示,后面是1×1卷积层。由于高频图像细节将不可避免地在收缩路径中丢失,来自收缩路径的图像特征通过跳过连接44直接传递到扩展路径的对应部分。这些跳过连接确保高分辨率、高频图像细节可以在上采样路径中充分恢复。
为了进一步提高沿着跳过连接44传递的信息容量,在本发明的编码器-解码器架构中,沿着跳过连接传递的特征通过附加的全局和中间层级特征增强,这些特征能够增强全局、中间层级和局部图像属性在上采样路径中的保存。
编码器-解码器跳过连接中多个不同上下文图像特征的融合表示为“多比例上下文融合”跳过连接。图5中示出了跳过连接44的技术实现的示例。
具有高度H和宽度W的输入特征图50包括多个通道C中的数据,其中,特征图的区域对应于图像中的多个位置。沿着路径52和53,分别具有扩张率2和扩张率4的卷积层用于实现更大的感受野,并从输入特征图50中提取中间层级上下文特征图,以分别形成中间层级特征图55和56。中间层级特征图55、56与到块的输入张量50具有相同的空间分辨率。在路径51上,使用一系列步长为2的卷积层提取全局图像特征,然后进行ReLU激活,然后进行最大池化运算。然后,这些层之后是全局平均池和完全连接层。
全连接层输出固定维度的特征向量54,该特征向量54在输入的高度和宽度维度上复制。来自中间层级和全局特征提取网络的特征图54、55、56在57处级联到输入,并且该组合张量通过1×1卷积融合,在58处示出,以产生具有比输入张量50少得多的通道数量的张量59。
此融合操作以对原始到RGB对话任务有效的方式合并局部、中间层级和全局信息。来自多比例上下文融合跳过连接的输出特征图59在该特定层级与上采样路径的特征图级联。
如45所示,图4的低层级块的扩展路径的输出是一组特征图,其宽度和高度正好是完整RGB图像的一半。这些特征图被添加到输入的打包图像中,如46所示,该图像已通过长跳连接沿着通道维度复制四次。以这种方式,低层级块有效地学习要应用于打包的输入图像的残差调整,以产生打包的输出图像。该残差连接有助于更深层神经网络的梯度传播。如47的一类箭头所示,最终卷积应用于具有256个卷积滤波器的特征图,导致具有256个通道的输出特征图,如48所示。最后,在49处示出,重塑操作,也称为像素重组(shuffle),将形状(C×r^2,H,W)的张量中的元素重新排列为形状(C,H×r,W×r)的张量,其中,在这种情况下,r为2。低层级块的输出是形状为W×H×64的张量,其中64是特征图/通道的数量,此张量充当高层级块的输入。
为了缩短训练时间并减少网络参数的数量,每个跳过连接优选地共用相同的多比例上下文融合块参数。然而,不同的参数可以需要更多的训练时间和更大的神经网络。
图6示出了用于在图像处理器中变换由摄像机捕获到的原始图像的低层级块的操作方法的示例,所述处理器用于实现经过训练的人工智能模型。在步骤601中,所述方法包括接收原始图像的输入特征图,其中,所述输入特征图针对所述图像中的多个位置中的每个位置包括多个通道上的数据。然后,所述方法进行到步骤602,以小于所述输入特征图全局比例的比例,从所述输入特征图中提取特征,形成中间层级特征图。在步骤603中,以所述输入特征图的全局比例,从所述输入特征图中提取特征,形成全局特征图。在步骤604中,将所述中间层级特征图和所述全局特征图与所述输入特征图组合,形成组合特征图。
这种跳过连接的优点的一个例子是,关于全局图像颜色分布的信息通过这种跳过连接的变体更好地维护,允许准确再现图像颜色和亮度。本文描述的方法强制执行局部像素调整和中高层级图像属性(例如全局颜色分布)之间的一致性。这种强制减少了出现难看图像伪影的发生率。例如,在不考虑全局上下文的情况下操作低层级像素属性可能会导致模型可以做出空间上不一致的局部决策。例如,蓝天的情况下,天空的色调在局部像素邻域中突然变化。因此,低层级(局部)像素处理神经网络块21在学习局部图像变换(即,去马赛克、去噪、局部亮度和局部颜色调整)时使用多比例下文融合神经网络层,捕获低层级、中间层级和高层级图像属性之间的协同效果。已经证明这种架构对于产生高质量输出的图像转换任务是有效的。
此外,模型对高分辨率图像执行的下采样使低层级块能够在单个GPU上处理大的百万像素图像,而不会将图像分割成较小的碎片。将图像拆分为较小的碎片,并独立处理每个碎片,会给直接在全分辨率图像上应用卷积的现有模型带来挑战。这可能会产生难看的图像伪影,例如相邻碎片之间的颜色不一致。针对低层级块21设计的图4和图5的编码器-解码器避免了这个问题。
来自低层级块的输出图像是具有校正亮度、对比度、颜色和曝光的彩色RGB图像。
高层级块从低层级块接收丰富的特征集,表示为维度W×H×C的张量,其中W是输入图像宽度,H是输入图像高度,C是由低层级网络产生的通道/特征图的数量。此张量的前三个通道视为要全局调整的图像,其余通道是用于学习执行图像调整的变换的特征集。
高层级块神经网络架构的非限制性实施例如图7所示。在本示例中,首先,将维度H×W×64的输入特征图拆分为两个张量70和71。张量70表示维度H×W×3的待修正图像,张量71表示维度H×W×61的其余特征图。
为了独立调整图像属性(如色调、饱和度、颜色和亮度),在不同的标准图像处理颜色空间/域中学习变换。这些域是RGB、Lab和HSV。在图7的示例中,首先,高层级块学习三条分段线性缩放曲线以在Lab空间中调整亮度,然后在RGB空间中调整颜色,然后在HSV空间中根据色度调整最终饱和度。HSV、Lab和RGB颜色空间之间的转换是可导的,允许使用标准深度学习优化方法构建曲线。
如72所示,图像首先以可微的方式转换为Lab空间,允许端到端学习高层级块中的参数。Lab空间很有用,因为它将亮度(L通道)与颜色(a、b通道)分开。在此空间中操作像素允许在不影响颜色的情况下精确调整图像亮度。Lab图像与H×W×61特征级联,形成H×W×64张量,该张量被输入到特征提取块73中。Lab空间中的特征提取块73由一系列卷积层、ReLU和最大池化运算组成,然后是全局平均池化和全连接层。全连接层对L通道缩放曲线的参数进行回归,如74所示。缩放曲线74对L通道中的像素值进行缩放,形成调整后的图像。最后,使用可微的Lab到RGB转换,将Lab图像转换回RGB,如75所示。
接下来,来自上一步的H×W×3RGB图像与H×W×61特征图级联,并馈送到第二特征提取块76中。该块对RGB缩放曲线77的结点进行回归。该曲线77应用于RGB图像以调整图像中的颜色。
接下来,通过可微RGB到HSV转换,将上一步的H×W×3RGB图像转换到HSV(色调、饱和度、值)空间,如78所示。HSV空间分离图像的色调、饱和度和值(类似于亮度)属性,在允许独立控制色调、饱和度和值方面尤其强大。HSV图像与H×W×61特征图张量级联,并将其用作特征提取块79的输入,特征提取块79对饱和度缩放曲线80的已知点进行回归。该曲线80应用于HSV图像以调整基于色度的饱和度,并且HSV图像通过可微HSV到RGB转换被转换回RGB空间,如图81所示,并且图像在82输出。
在图7的示例中,由高层级块中的模型学习的变换是曲线层,每个曲线层包括由一组“结点”定义的分段线性缩放曲线,这些“结点”是针对曲线74、77、80输出的。结点是曲线的每个线性分段之间的连接点。在图7中,通过将W×H×C特征集分别通过特征提取块73、76和79传递到一组步长为2的3×3卷积层,每个层之后是最大池化、全局平均池化和全连接层。每个特征提取块73、76、79的全连接层的输出是曲线的结点。增加结点会增大曲线的建模灵活性,有利于对输入和输出之间的复杂关系进行建模。
因此,给定任何输入图像,模型学习构建该输入图像特有的分段线性缩放曲线,该曲线全局调整所需的图像属性,如色调、饱和度、亮度或颜色。每个图像属性学习一条曲线。在每个颜色空间中,学习到的分段线性缩放曲线以针对再现目标地面真值图像的颜色、亮度和饱和度而优化的方式,精确地缩放图像像素的幅度。
图8示出了用于调整图像色调的缩放曲线的示例。缩放曲线的线性分段85由结点连接,如86所示。高层级块的卷积层和全连接层预测缩放曲线的结点86。曲线通过使用公式缩放像素来调整图像:
Figure BDA0003222133500000071
其中,k0是起点,ki是深度网络预测的参数(结)(FC层的输出),clip(.)是将数据限制在一定范围内的函数,L是结点的数量,x是输入值(例如亮度、色调),S(x)是待应用的缩放因子。
在另一个示例中,高层级块可以学习具有调整图像全局亮度效果的缩放曲线。所述曲线如图9所示,具有线性分段91和结点92。曲线的x轴是亮度,y轴是应用于像素以调整亮度的比例因子。此曲线将低亮度像素提升50倍,而高亮度像素保持不变。调整在Lab空间中执行,仅调整L通道。
在又一个示例中,特征提取块可以学习不同类型的转换。例如,图像处理方法还可以通过预测曲面或通过预测参数公式的参数来调整全局图像属性。因此,网络学习到的变换的非限制性示例是缩放曲线,可以是分段线性曲线、曲面或方程的参数。例如,公式可用于调整对比度、白平衡或在图像的颜色空间中执行伽马校正。
实验表明,与简单地调整RGB空间中的颜色相比,在所有三个空间(RGB、Lab和HSV)中的调整对于实现高图像质量特别有益。但是,可以在任何颜色空间组合中执行调整。也可以重复应用各个颜色空间。例如,可以学习四个变换:一个在RGB空间中,一个在Lab空间中,两个在HSV空间中。用于调整不同属性的变换也可以通过不同的特征提取块在相同的颜色空间中学习和执行。在一个示例中,可以在HSV空间中针对基于色调的饱和度学习一条曲线,并且可以在HSV空间中针对基于饱和度的饱和度学习另一条曲线。图7的示例描述了三条缩放曲线的使用:在三个颜色空间中分别学习一条曲线。然而,也可以使用四条以上曲线,例如用于基于色调的色调映射,或基于饱和度的饱和度映射。
在其它实施例中,曲线的应用可以遵循与图7所示不同的顺序。例如,可以先调整亮度,然后调整颜色,然后调整饱和度。
在上述步骤中,特征提取块的卷积层可以共享参数,减小模型的参数数量,对于每个变换,也可以是独立的。这是一种多任务学习形式(称为硬参数共享)。
在所有情况下,全连接层对于每个变换都是独立的。如果变换是缩放曲线,则这些曲线负责对每条曲线的结点进行回归。与典型的基于深度学习的模型相比,曲线层提供了人类可解释的网络如何学习映射的见解,因为曲线可以很容易地被人类读取和理解。
图10概括了用于在图像处理器中变换由摄像机捕获到的原始图像的方法,所述处理器用于实现多部分人工智能模型。在步骤1001中,所述方法包括接收输入图像。在下一步骤1002中,所述方法包括:实现所述模型的第一部分,以确定所述图像在第一颜色空间中的第一变换。在步骤1003中,所述方法还包括:将所述第一变换应用于所述图像以形成第一调整图像。在步骤1004中,实现所述模型的第二部分,以确定所述图像在第二颜色空间中的第二变换。在步骤1005中,所述方法还包括:将第二变换应用于第一调整图像以形成第二调整图像。在步骤1006中,输出根据所述第二调整图像导出的图像。
如前面参考图2所述,低层级块和高层级块相互连接以形成完整的模型,从而有助于使用训练对数据集联合学习局部和全局图像操作。高层级块可以用于接收由低层级块形成的组合特征图,并将该特征图的一部分视为输入图像。
在训练期间,模型以端到端的方式联合学习卷积滤波器和低层级块和高层级块的全连接层。这是使用训练对完成的,每个训练对都由原始图像和相应的RGB图像组成。可以通过使用高摄像机以RAW和JPG格式捕获图像来生成训练对。最初,卷积滤波器设置为随机值。原始输入被输入到网络中,网络对输出图像进行回归。回归后输出图像和RGB图像之间的差异形成了一个误差,然后通过梯度通过网络从输出端反向传播到输入端。然后更新网络的权重以减小误差。训练过程使用大量图像集合迭代,直到网络权重误差减小。
网络经训练之后,就可以应用于原始图像,以生成具有正确亮度、对比度、颜色和曝光的8位动态范围图像。正确的亮度、对比度、颜色和曝光很重要,因为明亮区域不应过度曝光,黑暗区域不应曝光不足。图11(a)提供了输入原始图像的示例。由于动态范围内容较大,图像以深色可视。图11(b)示出了本文所述方法的输出。图像亮度得到了校正,颜色和曝光得到了很大的改善。因此,该系统用于实现基于深度学习的经过端到端训练的人工智能模型,将原始数据变换为高质量图像。
图12示出了用于使用本文描述的方法来处理由摄像机中的图像传感器拍摄的图像的摄像机示例。所述摄像机1通常包括一些机载处理能力。所述机载处理能力可以由处理器4提供。处理器4也可用于设备的基本功能。
收发器5能够通过网络与其它实体10、11通信。这些实体可以物理上远离摄像机1。该网络可以是公共可访问的网络,如互联网。实体10、11可以以云环境为基础。实体10是计算实体。实体11是命令和控制实体。这些实体是逻辑实体。在实践中,这些实体可以分别由一个或多个物理设备(如服务器和数据存储)提供,并且两个以上实体的功能可以由单个物理设备提供。实现一个实体的每个物理设备包括处理器和存储器。这些设备还可以包括收发器,用于在摄像机1的收发器5之间发送数据和接收数据。存储器以非瞬时方式存储代码,所述代码可由处理器执行,以使用本文中描述的方式实现相应实体。
命令和控制实体11可以训练ISP中使用的人工智能模型。这种训练通常是一项计算密集型任务,即使所得到的模型可以被高效描述,因此开发在云中待执行的算法可以是高效的,在云中可以预期有大量的能量和计算资源可用。可以预期的是,这比在典型的摄像机上形成这种模型更高效。
在一种实现方式中,一旦在云中开发了深度学习算法,命令和控制实体就可以自动形成对应的模型,并使该模型传输到相关的摄像机设备。在本示例中,ISP由处理器4在摄像机1处实现。
在另一种可能的实现方式中,图像可以由摄像机传感器2捕获到,图像数据可以由收发器5发送到云端进行处理。然后,可以将所得到的目标图像发送回摄像机1,如图12中的12所示。
因此,这些方法可以通过多种方式部署,例如在云端、在设备上,或者在专用硬件中部署。如上所述,云设施可以执行训练,以开发新的算法或修正现有算法。根据接近于数据语料库的计算能力,训练可以使用推理引擎等在源数据附近进行或在云端进行。这些方法也可以在摄像机处、在一个专用硬件中或在云端实现。
因此,传统的ISP管道被单个端到端可训练神经网络所取代,该神经网络可以从原始数据中学习ISP映射,以根据包括输入原始数据和输出数字图像对的代表性训练数据集输出高质量图像。单个神经网络直接从数据中学习映射,并能够在单个神经网络架构中联合优化去马赛克、去噪和颜色校正,并允许捕获和利用这些操作之间的协同效果。经过训练的深度神经网络接收原始传感器数据作为其输入,并将该数据映射到视觉上令人愉快的输出数字图像,供最终用户使用,在某些实现方式中已经证明可显著提高输出图像质量。
用深度神经网络取代传统的ISP管道,带来了以下进一步的技术优势。
与传统ISP的多个阶段(例如20个阶段)相比,本发明涉及一个处理阶段。
低层级块旨在更有效地捕获低层级、中间层级和全局图像统计信息,并确保在执行局部像素调整时,这些图像比例之间存在串扰,因此保持一致性。由于使用了下采样操作,也更适合在单个GPU上处理全百万像素图像,而无需将图像分解为更小的碎片(避免了基于碎片的推理)。
高层级块提出了一个神经曲线层,该层以人类可解释的方式全局调整关键图像属性,如饱和度、亮度和颜色。神经曲线层使用为每个单独图像学习的分段线性缩放曲线将输入像素值映射到输出像素值。人类可以目视检查特定图像的学习曲线,以精确了解网络是如何调整图像属性的。
使用分段线性曲线提供了额外的建模灵活性。深度ISP使用多项式曲面对RGB像素变换进行建模,与具有足够结点的分段线性曲线相比,多项式曲面不那么灵活。此外,与其他技术(例如曝光、HDRNet)相比,分段线性曲线不受限为单调的,并且能够对自然包裹值(例如,色调)的量进行建模。
该曲线还可以在三个不同的图像处理颜色空间(Lab、RGB、HSV)中学习,而不仅仅是一个,获得这些颜色空间在允许图像属性独立于其它属性调整方面(例如,在不影响颜色的情况下改变亮度)所提供的好处。
本发明还实现了对变化的更好处理。数码照片有很大的变化,例如,它们可以在室内/室外、白天/夜间、放大/缩小等不同条件下拍摄,照片中的内容可能会有很大的变化。传统算法很难在这些变化源之间保持一致的操作。然而,通过从大量的示例中学习,深度学习方法可以根据图像内容自适应地生成高质量的结果。
在大多数图像增强任务中,已经证明神经网络的深度学习优于传统方法。该模型能够比现有技术更好地处理复杂的图像变换。此外,要调整的参数有限,在某些情况下没有参数需要调整。深度学习模型有大量的参数,但是,这些参数在训练期间是自动学习的。传统ISP中的组件曝光必须手动或算法调整的参数。在ISP的早期阶段调整的参数会影响所有后期阶段,使传统ISP的调整成为一项复杂的工作。
在实现本发明所需的硬件方面也具有优点。传统的ISP是在专用的专用集成电路(application-specific integrated circuit,ASIC)上实现的。这些芯片的研发成本很高,需要设备中包含专用芯片。AISP可以在通用神经处理单元(neural processing unit,NPU)上实现,节省了研发定制ISP芯片以包括在设备中的费用和复杂性。
本文描述的方法通过为端到端ISP任务提供非常不同的神经网络体系结构来改进已知方法,在图像质量和计算存储器要求方面具有优势。
该方法适用于静态照片和视频。
申请人在此单独公开本文所述的每个单独的特征以及两个以上此类特征的任意组合。在这个意义上,鉴于本领域技术人员的常识,此类特征或组合能够根据本说明书作为整体实现,而不考虑此类特征或特征的组合是否能解决本文中公开的任何问题,且不对权利要求书的范围造成限制。本申请表明本发明的各方面可由任何这类单独特征或特征的组合构成。鉴于上文描述,可在本发明的范围内进行各种修改对本领域技术人员来说是显而易见的。

Claims (15)

1.一种图像处理模块,用于实现经过多部分训练的人工智能模型,其特征在于,所述图像处理模块用于:
接收输入图像;
实现所述模型的第一部分,以确定所述图像在第一颜色空间中的第一变换;
将所述第一变换应用于所述图像以形成第一调整图像;
实现所述模型的第二部分,以确定所述图像在第二颜色空间中的第二变换;
将所述第二变换应用于所述第一调整图像,以形成第二调整图像;
输出从所述第二调整图像导出的图像。
2.根据权利要求1所述的图像处理模块,其特征在于,所述模块还用于:
接收所述第二调整图像;
实现所述模型的第三部分,以确定所述图像在第三颜色空间中的第三变换;
将所述第三变换应用于所述图像,以形成第三调整图像;
输出从所述第三调整图像导出的图像。
3.根据权利要求2所述的图像处理模块,其特征在于,所述第一、第二和第三颜色空间中的每个颜色空间是以下组中的颜色空间:RGB空间、HSV空间和Lab空间。
4.根据上述权利要求中任一项所述的图像处理模块,其特征在于,所述第一变换和所述第二变换中的每个变换是分段线性缩放曲线。
5.根据权利要求4所述的图像处理模块,其特征在于,所述第一变换和所述第二变换中的每个变换包括分别由所述模型的所述第一部分和所述第二部分确定的结点。
6.根据上述权利要求中任一项所述的图像处理模块,其特征在于,所述模块用于将相应变换应用于这些变换对应的图像,以调整相应图像在相应颜色空间中的属性。
7.根据权利要求6所述的图像处理模块,其特征在于,所述第一变换和所述第二变换将所述图像在所述相应颜色空间中的属性与缩放因子相关联。
8.根据权利要求6或7所述的图像处理模块,其特征在于,所述图像的属性为颜色、亮度、饱和度或色调。
9.根据权利要求6至8中任一项所述的图像处理模块,其特征在于,所述模块用于以所述图像的全局比例,调整所述相应图像的属性。
10.一种图像处理系统,包括根据权利要求1至9中任一项所述的图像处理模块和用于实现人工智能模型的第二模块,其特征在于,根据权利要求1至9中任一项所述的图像处理模块用于接收由所述第二模块形成的组合特征图,并将所述特征图的一部分作为输入图像,所述第二模块用于:
接收原始图像的输入特征图,其中,所述输入特征图针对所述图像中的多个位置中的每个位置包括多个通道上的数据;
以小于所述输入特征图的全局比例的比例,从所述输入特征图中提取特征,形成中间层级特征图;
以所述输入特征图的全局比例,从所述输入特征图中提取特征,形成全局特征图;
将所述中间层级特征图和所述全局特征图与所述输入特征图组合,形成组合特征图。
11.根据权利要求10所述的图像处理系统,其特征在于,所述第二模块用于从所述输入特征图中提取特征,以使用相应的卷积神经网络形成所述中间层级特征图和所述全局特征图。
12.根据权利要求10或11所述的图像处理系统,其特征在于,所述第二模块还用于使用最大池化以所述输入特征图的全局比例,从所述输入特征图中提取特征。
13.根据权利要求10至12中任一项所述的图像处理系统,其特征在于,所述第二模块还用于通过1×1卷积融合所述组合特征图。
14.根据权利要求10至13中任一项所述的图像处理系统,其特征在于,所述系统用于对所述原始图像执行以下操作中的一个或多个:去马赛克、去噪、局部亮度校正、局部颜色校正、全局亮度校正或全局颜色校正。
15.一种用于在图像处理器中变换由摄像机捕获的原始图像的方法,所述处理器用于实现多部分人工智能模型,其特征在于,所述方法包括:
接收输入图像;
实现所述模型的第一部分,以确定所述图像在第一颜色空间中的第一缩放曲线;
将所述第一缩放曲线应用于所述图像,以形成第一调整图像;
实现所述模型的第二部分,以确定所述图像在第二颜色空间中的第二缩放曲线;
将所述第二缩放曲线应用于所述第一调整图像,以形成第二调整图像;
输出从所述第二调整图像导出的图像。
CN201980092717.4A 2019-03-21 2019-03-21 图像处理器 Pending CN113454680A (zh)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/EP2019/057137 WO2020187424A1 (en) 2019-03-21 2019-03-21 Image processor

Publications (1)

Publication Number Publication Date
CN113454680A true CN113454680A (zh) 2021-09-28

Family

ID=65895013

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201980092717.4A Pending CN113454680A (zh) 2019-03-21 2019-03-21 图像处理器

Country Status (4)

Country Link
US (1) US20220036523A1 (zh)
EP (1) EP3924933A1 (zh)
CN (1) CN113454680A (zh)
WO (1) WO2020187424A1 (zh)

Families Citing this family (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113811893A (zh) * 2019-05-23 2021-12-17 谷歌有限责任公司 用于引导架构演进的连接权重学习
EP3977396A4 (en) * 2019-05-31 2022-07-27 Guangdong Oppo Mobile Telecommunications Corp., Ltd. METHOD, SYSTEM AND COMPUTER READABLE MEDIA FOR IMPROVING THE COLOR QUALITY OF IMAGES
KR20210001324A (ko) * 2019-06-27 2021-01-06 삼성전자주식회사 인공 신경망 모델 및 이를 포함하는 전자 장치
US11900239B2 (en) * 2019-07-01 2024-02-13 Alibaba Group Holding Limited Systems and methods for accelerating sparse neural network execution
WO2021041772A1 (en) 2019-08-30 2021-03-04 The Research Foundation For The State University Of New York Dilated convolutional neural network system and method for positron emission tomography (pet) image denoising
GB2588431B (en) * 2019-10-23 2023-02-15 Advanced Risc Mach Ltd Image signal processing
US11893482B2 (en) * 2019-11-14 2024-02-06 Microsoft Technology Licensing, Llc Image restoration for through-display imaging
WO2021214712A1 (en) * 2020-04-24 2021-10-28 Spectrum Optix Inc. Neural network supported camera image or video processing pipelines
US11669943B2 (en) * 2020-10-16 2023-06-06 Microsoft Technology Licensing, Llc Dual-stage system for computational photography, and technique for training same
CN116420158A (zh) * 2020-10-27 2023-07-11 三星电子株式会社 用于生成其中被摄体已经被捕获的图像的设备和方法
CN112488962A (zh) * 2020-12-17 2021-03-12 成都极米科技股份有限公司 基于深度学习的画面色彩调节方法、装置、设备及介质

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
IL98622A (en) * 1991-06-25 1996-10-31 Scitex Corp Ltd Method and device for using neural networks in figure work
US5446543A (en) * 1992-07-24 1995-08-29 Kabushiki Kaisha Toshiba Method and apparatus for extracting a pattern of color from an object using a neural network
US7773127B2 (en) * 2006-10-13 2010-08-10 Apple Inc. System and method for RAW image processing
US9344690B2 (en) * 2014-01-24 2016-05-17 Microsoft Technology Licensing, Llc Image demosaicing

Also Published As

Publication number Publication date
WO2020187424A1 (en) 2020-09-24
EP3924933A1 (en) 2021-12-22
US20220036523A1 (en) 2022-02-03

Similar Documents

Publication Publication Date Title
CN113454680A (zh) 图像处理器
US11625815B2 (en) Image processor and method
He et al. Conditional sequential modulation for efficient global image retouching
CN107123089B (zh) 基于深度卷积网络的遥感图像超分辨重建方法及系统
CN111402146B (zh) 图像处理方法以及图像处理装置
CN111194458A (zh) 用于处理图像的图像信号处理器
US10579908B2 (en) Machine-learning based technique for fast image enhancement
RU2764395C1 (ru) Способ и устройство для совместного выполнения дебайеризации и устранения шумов изображения с помощью нейронной сети
Afifi et al. Cie xyz net: Unprocessing images for low-level computer vision tasks
US20200396397A1 (en) Multispectral Image Processing System and Method
Nam et al. Modelling the scene dependent imaging in cameras with a deep neural network
CN110428362A (zh) 图像hdr转换方法及装置、存储介质
KR102083721B1 (ko) 딥 러닝을 이용한 양안기반 초해상 이미징 방법 및 그 장치
CN115115516B (zh) 基于Raw域的真实世界视频超分辨率的构建方法
CN115082328A (zh) 用于图像校正的方法和设备
CN116681636A (zh) 基于卷积神经网络的轻量化红外与可见光图像融合方法
KR102092205B1 (ko) 초해상화, 역톤매핑 및 동시 초해상화-역톤매핑 처리된 다중 출력 이미지를 생성하는 이미지 처리 방법 및 장치
CN115004220A (zh) 用于原始低光图像增强的神经网络
CN111292251B (zh) 图像偏色校正方法、装置以及计算机存储介质
JP2021189527A (ja) 情報処理装置、情報処理方法及びプログラム
CN114556897B (zh) 原始到rgb的图像转换
WO2023110880A1 (en) Image processing methods and systems for low-light image enhancement using machine learning models
WO2022052820A1 (zh) 一种数据处理方法、系统及装置
CN115841523A (zh) 一种基于Raw域的双支路HDR视频重建算法
Tang et al. BMISP: Bidirectional mapping of image signal processing pipeline

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination