CN115699073A

CN115699073A - 神经网络支持的相机图像或视频处理流水线

Info

Publication number: CN115699073A
Application number: CN202180038197.6A
Authority: CN
Inventors: 凯文·戈登; 科林·达莫尔; 马丁·汉弗莱斯
Original assignee: Spectrum Optix Inc
Current assignee: Spectrum Optix Inc
Priority date: 2020-04-24
Filing date: 2021-04-22
Publication date: 2023-02-03
Also published as: EP4139880A1; KR20230007425A; EP4139880A4; US11889175B2; US20210337098A1; WO2021214712A1

Abstract

包括静物相机或视频相机的图像处理流水线包括第一神经网络，该第一神经网络被布置为处理和提供用于图像捕获设置、传感器处理、全局后处理、局部后处理和组合后处理中的至少一个的基于神经网络的结果。第二神经网络被布置为接收神经网络结果并进一步提供图像捕获设置、传感器处理、全局后处理、局部后处理和组合后处理中的至少一个，其中第一和第二神经网络中的至少一个在由静物相机或视频相机支持的本地处理器上生成数据。

Description

神经网络支持的相机图像或视频处理流水线

相关申请

本申请要求2020年4月24日提交的标题为“Neural Network Supported CameraImage Or Video Processing Pipelines”的序列号为63/015,235的美国临时申请的优先权利益，该美国临时申请的公开内容通过引用以其整体并入本文。

技术领域

本公开涉及用于使用多个神经网络来改进图像或视频处理流水线(pipeline)从而改善图像的系统。特别地，描述了在选择的图像处理步骤处使用局部神经网络图像处理的方法和系统。

背景

数码相机通常需要将由图像传感器接收的信号转换成可用图像的数字图像处理流水线。处理可以包括信号放大、对拜耳掩模或其他滤波器的校正、去马赛克、颜色空间转换以及黑白电平调整。更高级的处理步骤可以包括HDR填充、超分辨率、饱和度、鲜艳度(vibrancy)或其他颜色调整，以及着色(tint)或IR去除。使用各种专门的算法，可以在相机上进行校正，或可以稍后在RAW图像的后处理中进行校正。然而，这些算法中的许多是专有的，难以修改，或者需要大量熟练的用户工作来获得最佳结果。需要能够改进图像处理、减少用户工作并允许更新和改进的方法和系统。

附图简述

参考以下附图描述了本公开的非限制性的并且非穷举的实施例，其中，除非另有说明，否则在所有各个附图中相似的附图标记指代相似的部分。

图1A示出了神经网络支持的图像或视频处理流水线；

图1B示出了神经网络支持的图像或视频处理系统；

图1C是示出神经网络支持的软件系统的另一个实施例；

图1D-图1G示出了神经网络支持的图像处理的示例；

图2示出了具有控制子系统、成像子系统和显示子系统的系统；

图3示出了RGB图像的神经网络处理的一个示例；

图4示出了全卷积神经网络的实施例；以及

图5示出了神经网络训练过程的一个实施例。

详细描述

在以下的实施例中，描述了包括静物相机(still camera)或视频相机(videocamera)的图像处理流水线，该图像处理流水线包括第一神经网络，该第一神经网络被布置为处理并提供用于图像捕获设置、传感器处理、全局后处理、局部后处理和组合(portfolio)后处理中的至少一个的基于神经网络的结果。第二神经网络被布置为接收第一神经网络的结果并进一步提供图像捕获设置、传感器处理、全局后处理、局部后处理和组合后处理中的至少一个，其中第一神经网络和第二神经网络中的至少一个在由静物相机或视频相机支持的本地处理器上生成数据。在其他实施例中，描述了一种图像捕获设备，其包括用于控制图像捕获设备操作的处理器和由图像捕获设备支持的神经处理器。神经处理器可以连接到处理器以接收神经网络数据，其中神经处理器使用神经网络数据来提供从包括传感器处理、全局后处理和局部后处理的组中选择的至少两个单独的神经网络处理过程。

图1A示出了神经网络支持的图像或视频处理流水线系统和方法100A的一个实施例。该流水线100A可以在图像处理流水线中的多个点处使用神经网络。例如，在图像捕获之前发生的基于神经网络的图像预处理(步骤110A)可以包括使用神经网络来选择ISO、焦点、曝光、分辨率、图像捕获时刻(例如，当眼睛睁开时)或其他图像或视频设置中的一个或更多个。除了使用神经网络来简单地选择合理的图像或视频设置之外，这种模拟和原像(pre-image)捕获因子可以被自动调整或被调整以有利于会改进稍后的神经网络处理的效率的因子。例如，可以增加闪光或其他场景照明的强度、持续时间，或对闪光或其他场景照明进行重定向。可以从光路中移除滤光片，可以将光圈开得更大，或者可以降低快门速度。图像传感器的效率或放大率可以通过ISO选择来进行调整，所有这些都是为了(例如)改进神经网络颜色调整或HDR处理。

在图像捕获之后，基于神经网络的传感器处理(步骤112A)可以用于提供定制的去马赛克、色调映射(tone map)、去雾(dehazing)、像素故障补偿或除尘。其他基于神经网络的处理可以包括拜耳滤色器(Bayer color filter)阵列校正、色彩空间转换、黑白电平调整或其他传感器相关的处理。

基于神经网络的全局后处理(步骤114A)可以包括分辨率或颜色调整，以及焦点堆叠或HDR处理。其他全局后处理功能可以包括HDR填充、散景调整、超分辨率、鲜艳度、饱和度或颜色增强，以及着色或IR去除。

基于神经网络的局部后处理(步骤116A)可以包括红眼去除、瑕疵去除、黑眼圈(dark circle)去除、蓝天增强、绿叶增强或对图像的局部部分、区部(section)、对象或区域的其他处理。特定局部区域的识别可以涉及使用其他神经网络辅助功能(包括例如面部或眼睛检测器)。

基于神经网络的组合后处理(步骤118A)可以包括与识别、分类或发布相关的图像或视频处理步骤。例如，神经网络可以用于识别人，并提供该信息用于元数据标记。其他示例可以包括使用神经网络来分类为诸如宠物图片、风景或肖像的类别。

图1B示出了神经网络支持的图像或视频处理系统120B，其能够在包括具有处理器、神经处理器和存储器的模块132B中的至少一个或更多个的系统上实现。在一个实施例中，硬件级神经控制模块122B(包括设置和传感器)可以用于支持处理、存储器访问、数据传输和其他低级计算活动。系统级神经控制模块124B与硬件模块122B交互，并提供初步的或所需要的低级自动图片呈现工具(包括确定有用的或所需要的分辨率、照明或颜色调整)。可以使用系统级神经控制模块126B来处理图像或视频，该系统级神经控制模块126B可以包括用户偏好设置、历史用户设置或基于第三方信息或偏好的其他神经网络处理设置。系统级神经控制模块128B也可以包括第三方信息和偏好，以及包括用于确定是否需要本地的、远程的或分布式神经网络处理的设置。在一些实施例中，分布式神经控制模块130B可以用于协同数据交换(cooperative data exchange)。例如，随着社交网络社区改变所偏好的肖像图像的风格(例如，从硬聚焦风格到软聚焦)，肖像模式神经网络处理也可以被调整。可以使用网络潜在向量、提供的训练集或模式相关的设置建议来将该信息传输到各种公开的模块中的任何一个。

图1C是示出神经网络支持的软件和硬件系统120C的另一个实施例。如所示的，例如通过对外部照明系统的控制或在相机闪光灯系统上的控制，检测和潜在地改变关于环境的信息(包括光、场景和捕获介质)。包括光学和电子子系统的成像系统可以与神经处理系统和软件应用层交互。在一些实施例中，远程的、本地的或协同的神经处理系统可以用于提供与设置和神经网络处理条件相关的信息。

图1D示出了神经网络支持的图像处理140D的一个示例。神经网络可以用于在一个或更多个处理步骤中修改或控制图像捕获设置，这些处理步骤包括曝光设置确定142D、RGB或拜耳滤波器处理144D、颜色饱和度调整146D、红眼减少148D、或识别诸如所有者自拍的图片类别、或提供元数据标记和互联网介导的分发辅助(150D)。

图1E示出了神经网络支持的图像处理140E的另一个示例。神经网络可以用于在一个或更多个处理步骤中修改或控制图像捕获设置，这些处理步骤包括去噪142E、颜色饱和度调整144E、眩光去除146E、红眼减少148E和眼睛滤色器150E。

图1F示出了神经网络支持的图像处理140F的另一个示例。神经网络可以用于在一个或更多个处理步骤中修改或控制图像捕获设置，这些处理步骤包括多个图像的捕获142F、从多个图像中选择图像144F、高动态范围(HDR)处理146F、亮点去除148F以及自动分类和元数据标记150F。

图1G示出了神经网络支持的图像处理140G的另一个示例。神经网络可以用于在一个或更多个处理步骤中修改或控制图像捕获设置，这些处理步骤包括视频和音频设置选择142G、电子帧稳定144G、对象中心化(object centering)146G、运动补偿148G和视频压缩150G。

广泛的静物相机或视频相机可以从使用神经网络支持的图像或视频处理流水线系统和方法中受益。相机类型可以包括但不限于具有静物或视频能力的传统DSLR、智能手机、平板电脑相机或膝上型电脑相机、专用视频相机、网络摄像机(webcam)或安全相机。在一些实施例中，可以使用专用相机，例如红外相机、热成像仪、毫米波成像系统、x射线或其他放射成像仪。实施例还可以包括具有能够检测红外线、紫外线或其他波长以允许超光谱图像处理的传感器的相机。

相机可以是独立的、便携式的或固定的系统。通常，相机包括处理器、存储器、图像传感器、通信接口、相机光学和致动器系统以及存储器储存器(memory storage)。处理器控制相机的整体操作，例如操作相机光学和传感器系统以及可用的通信接口。相机光学和传感器系统控制相机的操作，例如针对在图像传感器处捕获的图像的曝光控制。相机光学和传感器系统可以包括固定的透镜系统或可调整的透镜系统(例如，变焦和自动聚焦能力)。相机可以支持存储器储存器系统，例如可移动存储卡、有线USB或无线数据传输系统。

在一些实施例中，神经网络处理可以在将图像数据传输到远程计算资源之后进行，远程计算资源包括专用神经网络处理系统、膝上型电脑、PC、服务器或云。在其他实施例中，可以使用优化的软件、神经处理芯片或专用FPGA系统在相机内进行神经网络处理。

在一些实施例中，神经网络处理的结果可以用作其他机器学习或神经网络系统(包括那些为对象识别、模式识别、面部识别、图像稳定、机器人或车辆里程计(odometry)和定位、或跟踪或瞄准应用而开发的机器学习或神经网络系统)的输入。有利地，这样的神经网络处理后的图像归一化可以例如减少计算机视觉算法在高噪声环境中的故障，使得这些算法能够在它们通常由于与噪声相关的特征置信度方面的降低将发生故障的环境中工作。典型地，这可以包括但不限于低光环境、多雾、多尘或朦胧环境、或受光闪烁或光闪耀影响的环境。实际上，通过神经网络处理去除了图像传感器噪声，使得稍后的学习算法具有降低的性能退化。

在某些实施例中，多个图像传感器可以结合所描述的神经网络处理来共同工作，以实现更宽的操作和检测包络，其中例如具有不同光敏度的传感器一起工作以提供高动态范围图像。在其他实施例中，具有单独的神经网络处理节点的一系列光学或算法成像系统可以耦合在一起。在另外的其他实施例中，神经网络系统的训练可以作为一个整体与成像系统解耦，作为与特定成像仪相关联的嵌入式部件进行操作。

图2总体上描述了对神经网络和图像处理算法的使用和训练的硬件支持。在一些实施例中，神经网络可以适用于一般的模拟和数字图像处理。提供了一种控制和储存模块202，该控制和储存模块202能够向成像系统204和显示系统206发送相应的控制信号。成像系统204可以将处理后的图像数据提供给控制和储存模块202，同时还从显示系统206接收剖析数据(profiling data)。以监督或半监督的方式训练神经网络需要高质量的训练数据。为了获得这样的数据，系统200提供自动成像系统剖析。控制和储存模块202包含要传输到显示系统206的校准数据和原始剖析数据。校准数据可以包含但不限于用于评估分辨率、焦点或动态范围的目标。原始剖析数据可以包含但不限于从高质量成像系统(参考系统)捕获的自然场景和人造场景，以及程序生成的场景(从数学上推导的)。

显示系统206的示例是高质量的电子显示器。该显示器可以使其亮度被调整，或者可以利用诸如中性密度滤光器的物理滤光元件来增强。可替代的显示系统可能包括高质量的参考印刷件(reference print)或滤光元件，或者要与前照式(front lit)光源或背照式(back lit)光源一起使用。在任何情况下，显示系统的目的是产生要传输到成像系统的各种图像或图像序列。

被剖析的成像系统集成到剖析系统中，使得它可以由控制和储存计算机以编程方式控制，并且可以对显示系统的输出成像。相机参数(例如光圈、曝光时间和模拟增益)是变化的，并且对单个显示的图像进行多次曝光。由此得到的曝光被传输到控制和储存计算机，并被保留用于训练目的。

整个系统被放置在受控的照明环境中，使得光子“噪声基底(noise floor)”在剖析期间是已知的。

整个系统被设置成使得限制分辨率的因子是成像系统。这是通过考虑参数的数学模型来实现的，这些参数包括但不限于：成像系统传感器像素间距、显示系统像素尺寸、成像系统焦距、成像系统工作f数、传感器像素数(水平和垂直)、显示系统像素数(垂直和水平)。实际上，可以对特定的传感器、传感器品牌或类型或传感器类别进行剖析，以产生针对单独的传感器或传感器模型精确定制的高质量的训练数据。

各种类型的神经网络可以与参照图1A-图1G和图2公开的系统一起使用，这些神经网络包括全卷积网络、递归网络(recurrent network)、生成对抗网络或深度卷积网络。卷积神经网络对于例如本文所述的图像处理应用特别有用。如参照图3所见，承担诸如参照图1A-图1G和图2所讨论的基于神经的传感器处理的卷积神经网络300可以接收单个曝光不足的RGB图像310作为输入。优选RAW格式，但是可以使用压缩的JPG图像，但质量会有所损失。可以利用传统的像素操作对图像进行预处理，或者可以优选地以最小的修改将图像馈送到经训练的卷积神经网络300中。处理可以通过一个或更多个卷积层312、池化(pooling)层314、全连接层316进行，并以改进后的图像的RGB输出318结束。在操作中，一个或更多个卷积层对RGB输入应用卷积操作，将结果传递给接下来的层。在卷积后，局部或全局的池化层可以将输出组合成下一层中的单个或少量节点。重复的卷积、或卷积/池化对是可能的。在基于神经的传感器处理完成后，RGB输出可以被传递到神经网络，用于利用附加的基于神经网络的修改进行全局后处理。

一个特别有用的神经网络实施例是全卷积神经网络。全卷积神经网络由卷积层组成，没有任何全连接层(通常会在网络末端发现全连接层)。有利地，全卷积神经网络是与图像大小无关的，其中任何大小的图像都可接受为用于训练或亮点图像修改的输入。参照图4示出了全卷积网络400的示例。可以在收缩路径上处理数据，该收缩路径包括两个3x3卷积(未填充卷积)的重复应用，每个卷积后跟线性修正单元(ReLU)和2x2最大池化操作(其步长为2，用于下采样)。在每个下采样步骤处，特征通道的数量被加倍。扩展路径中的每个步骤由特征图(feature map)的上采样组成，特征图的上采样后跟2x2卷积(上卷积)，该2x2卷积将特征通道的数量减半，提供与来自收缩路径的相应裁剪的特征图的级联，并包括两个3x3卷积，每个3x3卷积后跟ReLU。特征图裁剪补偿了每个卷积中边界像素的损失。在最后一层，使用1x1卷积将每个64分量特征向量映射到期望数量的类别。虽然所描述的网络具有二十三(23)个卷积层，但是在其他实施例中可以使用更多或更少的卷积层。训练可以包括使用随机梯度下降技术处理具有相应分割图的输入图像。

图5示出了神经网络训练系统500的一个实施例，该神经网络训练系统的参数可以被操纵，使得它们为一组输入产生期望的输出。操纵网络参数的一种这样的方式是通过“监督训练”。在监督训练中，操作者向网络提供源/目标对510和502，并且当该源/目标对与目标函数(objective function)结合时，操作者可以根据一些方案(例如反向传播)修改网络系统500中的一些或所有参数。

在图5的所描述的实施例中，准备来自各种源(例如剖析系统、数学模型和公开可用的数据集)的高质量训练数据(源510和目标502对)以输入到网络系统500。该方法包括数据封装504(来自目标502)和数据封装512(来自源510)。接下来的步骤包括lambda处理506(来自目标502和数据封装504)和lambda处理514(来自源510和数据封装512)。有利地，lambda处理允许通过将可用上下文转换成称为lambda的线性函数并将这些线性函数应用于每个输入，来捕获长程像素到像素交互lambda层。Lambda层可以对基于内容和位置的交互进行建模，使其能够应用于大型结构化输入(例如图像)。包括lambda处理的神经网络架构在ImageNet分类、COCO对象检测和实例分割方面可以显著优于其卷积神经网络处理，同时计算效率更高。

在一些实施例中，数据封装获取一个或多个训练数据样本，根据确定的方案对其进行归一化，并在张量中布置用于输入到网络的数据。训练数据样本可以包括序列或时间数据。

在一些实施例中，预处理lambda允许操作者在源输入数据或目标数据输入到神经网络或目标函数之前修改源输入数据或目标数据。这可以是增强数据，根据某种方案拒绝张量，向张量添加合成噪声，对数据执行扭曲和变形以用于对齐目的，或者从图像数据转换为数据标签。

被训练的网络516具有至少一个输入和输出，尽管在实践中发现，由于协同效应(synergetic effect)，多个输出(每个输出具有其自身的目标函数)可能是有用的。例如，通过其目标是对张量中的对象进行分类的“分类器头”输出可以提高性能。在一个实施例中，目标输出数据508、源输出数据518和目标函数520可以一起定义要最小化的网络损失，该损失的值可以通过附加的训练或数据集处理来改进。

如将理解的，本文描述的相机系统和方法可以在本地操作，或通过连接到有线或无线连接子系统来操作，用于与诸如服务器、台式电脑、膝上型电脑、平板电脑或智能手机的设备进行交互。数据和控制信号可以在各种外部数据源之间被接收、被生成或被传输，这些外部数据源包括无线网络、个人区域网络、蜂窝网络、互联网或云介导的数据源。此外，本地数据源(例如硬盘驱动器、固态驱动器、闪存或任何其他合适的存储器(包括动态存储器，例如SRAM或DRAM))可以允许用户指定的偏好或协议的本地数据储存。在一个特定实施例中，可以提供多个通信系统。例如，可以使用直接Wi-Fi连接(802.11b/g/n)以及单独的4G蜂窝连接。

到远程服务器的连接实施例还可以在云计算环境中实现。云计算可以被定义为用于实现对可配置计算资源(例如，网络、服务器、储存器，应用和服务)的共享池进行普遍、方便、按需的网络访问的模型，这些计算资源可以经由虚拟化被快速提供，并以最小的管理努力或服务提供商交互来释放，然后进行相应的扩展。云模型可以由各种特征(例如，按需自助服务、广泛的网络访问、资源池化、快速弹性、可度量的服务等等)、服务模型(例如，软件即服务(“SaaS”)、平台即服务(“PaaS”)、基础设施即服务(“IaaS”))和部署模型(例如，私有云、社区云、公共云、混合云等等)组成。

受益于前述描述和相关联的附图中呈现的教导的本领域技术人员将会想到本发明的许多修改和其他实施例。因此，应当理解，本发明不限于所公开的特定实施例，并且修改和其他实施例被认为被包括在所附权利要求的范围内。还应当理解，本发明的其他实施例可以在没有本文具体公开的元素/步骤的情况下实施。

Claims

1.一种包括静物相机或视频相机的图像处理流水线系统，包括：

第一神经网络，所述第一神经网络被布置为处理和提供用于图像捕获设置、传感器处理、全局后处理、局部后处理和组合后处理中的至少一个的基于神经网络的结果；以及

第二神经网络，所述第二神经网络被布置为接收所述第一神经网络的结果并进一步提供图像捕获设置、传感器处理、全局后处理、局部后处理和组合后处理中的至少一个，其中，所述第一神经网络和所述第二神经网络中的至少一个在由所述静物相机或所述视频相机支持的本地处理器上生成数据。

2.根据权利要求1所述的系统，其中，所述数据是静物图像。

3.根据权利要求1所述的系统，其中，所述数据是HDR图像。

4.根据权利要求1所述的系统，其中，所述数据是视频图像。

5.一种包括静物相机或视频相机的图像处理流水线系统，包括：

使用第一神经网络，所述第一神经网络被布置为处理和提供用于图像捕获设置、传感器处理、全局后处理、局部后处理和组合后处理中的至少一个的基于神经网络的结果；以及

将第二神经网络布置为接收所述第一神经网络的结果并进一步提供图像捕获设置、传感器处理、全局后处理、局部后处理和组合后处理中的至少一个，其中，所述第一神经网络和所述第二神经网络中的至少一个在由所述静物相机或视频相机支持的本地处理器上生成数据。

6.根据权利要求5所述的方法，其中，所述数据是静物图像。

7.根据权利要求5所述的方法，其中，所述数据是HDR图像。

8.根据权利要求5所述的方法，其中，所述数据是视频图像。

9.一种图像处理流水线方法，包括：

使用第一神经网络处理数据，以提供用于静物相机或视频相机的图像捕获设置，

使用第二神经网络，以对使用由所述第一神经网络提供的图像捕获设置捕获的图像提供传感器处理，

使用第三神经网络，以对由所述第二神经网络提供的传感器处理的图像提供传感器全局后处理，

使用第四神经网络，以对由所述第三神经网络提供的全局后处理的图像提供局部后处理；以及

使用第五神经网络，以对由所述第四神经网络提供的局部后处理的图像提供组合后处理。

10.根据权利要求9所述的方法，其中，所述数据是静物图像。

11.根据权利要求9所述的方法，其中，所述数据是HDR图像。

12.根据权利要求9所述的方法，其中，所述数据是视频图像。

13.一种图像捕获设备，包括：

至少一个处理器，所述至少一个处理器用于控制图像捕获设备操作；以及

至少一个神经处理器，所述至少一个神经处理器由所述图像捕获设备支持并连接到所述处理器以接收神经网络数据，其中所述神经处理器使用神经网络数据来提供至少两个单独的神经网络处理过程，所述至少两个单独的神经网络处理过程选自包括传感器处理、全局后处理和局部后处理的组。

14.根据权利要求13所述的图像捕获设备，其中，所述至少一个神经处理器支持第一神经网络和第二神经网络，所述第一神经网络被布置为处理和提供用于图像捕获设置、传感器处理、全局后处理、局部后处理和组合后处理中的至少一个的基于神经网络的结果；以及

所述第二神经网络被布置为接收所述第一神经网络的结果并进一步提供图像捕获设置、传感器处理、全局后处理、局部后处理和组合后处理中的至少一个，其中，所述第一神经网络和所述第二神经网络中的至少一个在由所述图像捕获设备支持的本地处理器上生成数据。

15.根据权利要求14所述的系统，其中，所述数据是静物图像。

16.根据权利要求14所述的系统，其中，所述数据是HDR图像。

17.根据权利要求14所述的系统，其中，所述数据是视频图像。