CN108780508A - 用于归一化图像的系统和方法 - Google Patents

用于归一化图像的系统和方法 Download PDF

Info

Publication number
CN108780508A
CN108780508A CN201780015949.0A CN201780015949A CN108780508A CN 108780508 A CN108780508 A CN 108780508A CN 201780015949 A CN201780015949 A CN 201780015949A CN 108780508 A CN108780508 A CN 108780508A
Authority
CN
China
Prior art keywords
window
image
cnn
normalized
electronic device
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201780015949.0A
Other languages
English (en)
Other versions
CN108780508B (zh
Inventor
M·拉德
M·奥贝维吉尔
V·勒珀蒂
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Qualcomm Inc
Original Assignee
Qualcomm Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Qualcomm Inc filed Critical Qualcomm Inc
Publication of CN108780508A publication Critical patent/CN108780508A/zh
Application granted granted Critical
Publication of CN108780508B publication Critical patent/CN108780508B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F17/00Digital computing or data processing equipment or methods, specially adapted for specific functions
    • G06F17/10Complex mathematical operations
    • G06F17/18Complex mathematical operations for evaluating statistical data, e.g. average values, frequency distributions, probability functions, regression analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T15/003D [Three Dimensional] image rendering
    • G06T15/50Lighting effects
    • G06T15/506Illumination models
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T3/00Geometric image transformations in the plane of the image
    • G06T3/40Scaling of whole images or parts thereof, e.g. expanding or contracting
    • G06T3/4046Scaling of whole images or parts thereof, e.g. expanding or contracting using neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T5/00Image enhancement or restoration
    • G06T5/20Image enhancement or restoration using local operators
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T5/00Image enhancement or restoration
    • G06T5/60Image enhancement or restoration using machine learning, e.g. neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T5/00Image enhancement or restoration
    • G06T5/90Dynamic range modification of images or parts thereof
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T5/00Image enhancement or restoration
    • G06T5/90Dynamic range modification of images or parts thereof
    • G06T5/94Dynamic range modification of images or parts thereof based on local image properties, e.g. for local contrast enhancement
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/44Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components
    • G06V10/443Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components by matching or filtering
    • G06V10/449Biologically inspired filters, e.g. difference of Gaussians [DoG] or Gabor filters
    • G06V10/451Biologically inspired filters, e.g. difference of Gaussians [DoG] or Gabor filters with interaction between the filter responses, e.g. cortical complex cells
    • G06V10/454Integrating the filters into a hierarchical structure, e.g. convolutional neural networks [CNN]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/60Extraction of image or video features relating to illumination properties, e.g. using a reflectance or lighting model
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N1/00Scanning, transmission or reproduction of documents or the like, e.g. facsimile transmission; Details thereof
    • H04N1/46Colour picture communication systems
    • H04N1/56Processing of colour picture signals
    • H04N1/60Colour correction or control
    • H04N1/6002Corrections within particular colour systems
    • H04N1/6005Corrections within particular colour systems with luminance or chrominance signals, e.g. LC1C2, HSL or YUV
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N1/00Scanning, transmission or reproduction of documents or the like, e.g. facsimile transmission; Details thereof
    • H04N1/46Colour picture communication systems
    • H04N1/56Processing of colour picture signals
    • H04N1/60Colour correction or control
    • H04N1/6002Corrections within particular colour systems
    • H04N1/6008Corrections within particular colour systems with primary colour signals, e.g. RGB or CMY(K)
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/10Image acquisition modality
    • G06T2207/10024Color image
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20021Dividing image into blocks, subimages or windows
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20081Training; Learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20084Artificial neural networks [ANN]

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Evolutionary Computation (AREA)
  • Multimedia (AREA)
  • Artificial Intelligence (AREA)
  • Software Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Mathematical Physics (AREA)
  • Biomedical Technology (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Databases & Information Systems (AREA)
  • Signal Processing (AREA)
  • Pure & Applied Mathematics (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Mathematical Optimization (AREA)
  • Mathematical Analysis (AREA)
  • Computational Mathematics (AREA)
  • Medical Informatics (AREA)
  • Biodiversity & Conservation Biology (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Operations Research (AREA)
  • Probability & Statistics with Applications (AREA)
  • Computer Graphics (AREA)
  • Algebra (AREA)
  • Image Analysis (AREA)

Abstract

描述了一种用于通过电子装置归一化图像的方法。所述方法包含获得包含目标对象的图像。所述方法还包含确定所述图像的窗口的集合。所述方法进一步包含对于所述图像的所述窗口的集合的每个窗口使用第一卷积神经网络CNN预测适应于所述窗口的照度归一化模型的参数,并且将所述照度归一化模型应用到所述窗口以产生归一化的窗口。

Description

用于归一化图像的系统和方法
相关申请
本申请涉及并且主张2016年3月11日递交的针对“用于检测目标对象的系统和方法(SYSTEMS AND METHODS FOR DETECTING A TARGET OBJECT.)”的第62/307,225号美国临时专利申请的优先权。
技术领域
本发明大体上涉及电子装置。更具体地说,本发明涉及用于归一化图像的系统和方法。
背景技术
一些电子装置(例如,摄像机、视频摄录像机、数码摄像机、蜂窝式电话、智能电话、计算机、电视、汽车、个人摄像机、动作摄像机、监控摄像机、安装式摄像机、连接式摄像机、机器人、无人机、智能应用程序、医疗保健设备、机顶盒等)俘获和/或利用图像。举例来说,智能电话可以俘获和/或处理静态图像和/或视频图像。处理图像可能需要相对大量的时间、处理、存储器和能量资源。所需要的资源根据处理的复杂度可能不同。
图像在它们的特性上可能大幅变化。举例来说,不同图像可能在照度中、在图像中所示的对象的数目和种类中、在图像中所示的纹理和结构中等大幅变化。由于图像特性中的多种多样,所以可能难以实现恒定的图像处理。如可从此论述中观察到,改进图像处理的系统和方法可能是有益的。
发明内容
描述了一种用于通过电子装置归一化图像的方法。所述方法包含获得包含目标对象的图像。所述方法还包含确定所述图像的窗口的集合。所述方法额外包含对于所述图像的所述窗口的集合的每个窗口使用第一卷积神经网络(CNN)预测适应于所述窗口的照度归一化模型的参数。所述方法进一步包含对于所述图像的所述窗口的集合的每个窗口将所述照度归一化模型应用到所述窗口以产生归一化的窗口。将所述照度归一化模型应用到窗口可包含对卷积滤波器与窗口进行卷积。
所述方法可包含对于所述图像的所述窗口的集合的每个窗口通过第二CNN分析所述归一化的窗口以用于对所述归一化的窗口进行评分。所述方法可包含检测具有最大分数的归一化的窗口中的目标对象。第一CNN和第二CNN可以是联合地训练的CNN。
第一CNN可以是归一化器CNN且第二CNN可以是检测器CNN。第一CNN可经训练以用于基于训练图像的集合预测照度归一化模型的参数。训练图像的集合的子集可包含训练目标对象。第二CNN可经训练以用于基于训练图像的集合和照度归一化模型检测训练目标对象。第一CNN和第二CNN可基于最小化联合损失函数训练。
预测参数可包含预测分别应用于高斯滤波器的集合的权重的集合以获得卷积滤波器。所述方法可包含可基于每个窗口的预测的参数确定预测的权重矩阵。所述方法还可包含基于预测的权重矩阵归一化图像以产生归一化的图像。
所述图像可以是彩色图像。所述方法可包含变换彩色图像以产生亮度通道和彩色通道。所述方法还可包含归一化亮度通道以产生归一化的亮度通道。所述方法可进一步包含变换归一化的亮度通道和彩色通道到原始彩色空间。
还描述了用于归一化图像的电子装置。所述电子装置包含处理器。所述处理器经配置以获得包含目标对象的图像。所述处理器还经配置以确定图像的窗口的集合。所述处理器进一步经配置以对于所述图像的窗口的集合的每个窗口使用第一卷积神经网络(CNN)预测适应于所述窗口的照度归一化模型的参数。所述处理器另外经配置以对于所述图像的窗口的集合的每个窗口将照度归一化模型应用到所述窗口以产生归一化的窗口。
还描述了用于归一化图像的设备。所述设备包含用于获得包含目标对象的图像的装置。所述设备还包含用于确定图像的窗口的集合的装置。所述设备进一步包含用于对于所述图像的窗口的集合的每个窗口使用第一卷积神经网络(CNN)预测适应于所述窗口的照度归一化模型的参数的装置。所述设备额外包含用于对于所述图像的窗口的集合的每个窗口将照度归一化模型应用到所述窗口以产生归一化的窗口的装置。
还描述了一种用于归一化图像的计算机程序产品。所述计算机程序产品包含具有指令的非暂时性计算机可读媒体。所述指令包含用于使得电子装置获得包含目标对象的图像的代码。所述指令还包含用于使得电子装置确定图像的窗口的集合的代码。所述指令进一步包含用于使得电子装置对于所述图像的窗口的集合的每个窗口使用第一卷积神经网络(CNN)预测适应于所述窗口的照度归一化模型的参数的代码。所述指令额外包含用于使得电子装置对于所述图像的窗口的集合的每个窗口将照度归一化模型应用到所述窗口以产生归一化的窗口的代码。
还描述了一种用于通过电子装置训练卷积神经网络(CNN)的方法。所述方法包含获得图像的集合。图像的集合的子集包含目标对象。所述方法还包含训练第一卷积神经网络(CNN)以用于基于图像的集合预测照度归一化模型的参数。所述方法进一步包含训练第二CNN以用于基于图像的集合和照度归一化模型检测目标对象。
第一CNN和第二CNN可以联合地训练。训练第一CNN和第二CNN可基于最小化联合损失函数。所述方法可包含基于照度归一化模型训练用于第二目标对象的第三CNN。
还描述了一种用于训练卷积神经网络(CNN)的电子装置。所述电子装置包含处理器。所述处理器经配置以获得图像的集合。图像的集合的子集包含目标对象。所述处理器还经配置以训练第一卷积神经网络(CNN)以用于基于图像的集合预测照度归一化模型的参数。所述处理器进一步经配置以训练第二CNN以用于基于图像的集合和照度归一化模型检测目标对象。
还描述了一种用于训练卷积神经网络(CNN)的设备。所述设备包含用于获得图像的集合的装置。图像的集合的子集包含目标对象。所述设备还包含用于训练第一卷积神经网络(CNN)以用于基于图像的集合预测照度归一化模型的参数的装置。所述设备进一步包含用于训练第二CNN以用于基于图像的集合和照度归一化模型检测目标对象的装置。
还描述了一种用于训练卷积神经网络(CNN)的计算机程序产品。所述计算机程序产品包含具有指令的非暂时性有形计算机可读媒体。所述指令包含用于使得电子装置获得图像的集合的代码。图像的集合的子集包含目标对象。所述指令还包含用于使得电子装置训练第一卷积神经网络(CNN)以用于基于图像的集合预测照度归一化模型的参数的代码。所述指令进一步包括用于使得电子装置训练第二CNN以用于基于图像的集合和照度归一化模型检测目标对象的代码。
附图说明
图1是说明可实施用于归一化图像的系统和方法的电子装置的一个实例的框图;
图2是说明用于归一化图像的方法的一个配置的流程图;
图3是说明归一化器卷积神经网络(CNN)和/或检测器CNN的实例的框图;
图4是说明用于检测对象的方法的一个配置的流程图;
图5是说明根据本文中所公开的系统和方法的一些配置的CNN训练的实例的框图;
图6是说明用于训练一或多个卷积神经网络的方法的一个配置的流程图;
图7是说明用于目标对象的若干对象检测技术的精确度和查全率的曲线图;
图8是说明用于另一目标对象的若干对象检测技术的精确度和查全率的曲线图;
图9是说明用于又一目标对象的若干对象检测技术的精确度和查全率的曲线图;
图10是说明用于目标对象的不同数目的训练图像的适应性局部对比度归一化(ALCN)的精确度和查全率的曲线图;
图11是说明用于另一目标对象的不同数目的训练图像的ALCN的精确度和查全率的曲线图;
图12是说明用于又一目标对象的不同数目的训练图像的ALCN的精确度和查全率的曲线图;
图13是说明用于目标对象的联合地训练的归一化器对预先训练的归一化器CNN的ALCN的精确度和查全率的曲线图;
图14是说明用于另一目标对象的联合地训练的归一化器对预先训练的归一化器CNN的ALCN的精确度和查全率的曲线图;
图15是说明用于又一目标对象的联合地训练的归一化器对预先训练的归一化器CNN的ALCN的精确度和查全率的曲线图;
图16是说明用于归一化整个图像的方法的实例的框图;
图17是说明用于归一化图像的方法的一个配置的流程图;
图18是说明用于归一化彩色图像的方法的一个配置的流程图;以及
图19说明可包含在经配置以实施本文中所公开的系统和方法的各种配置的电子装置内的特定组件。
具体实施方式
本文中所公开的系统和方法的一些配置可涉及图像的归一化照度(例如,对比度)。举例来说,本文中所公开的系统和方法的一些配置可提供使得对象检测对照度改变更加稳固而不需要大量的训练数据的适应性图像归一化方法(例如,适应性局部对比度归一化)。在一些配置中,本文中所公开的系统和方法可通过自动化视网膜归一化改进对象检测的稳固性。
可能产生的一个问题是给定对象的单个或极少训练图像,对象如何可以在具有不同照度条件的其它图像中被可靠地检测到?这是例如在机器人技术和扩增现实应用中重要的问题,其中照明可能无法控制。在不同照度下俘获许多训练图像可能变得过于繁琐或甚至不可能。所述问题的一些方法可能使用照度归一化。为了对光改变稳固,例如,预处理图像可用于归一化输入图像。然而,照度归一化的一些实例可利用用于在验证集合上手动固定的归一化的参数,其可限制对光改变的稳固性。更具体地说,这些实例中的一些可能放大图像噪声,并且具有无法在大范围的照度条件下工作的固定调谐参数。举例来说,在获得对象识别问题的最好架构的尝试中已经评估了不同架构。然而,这些架构使用用于局部对比度归一化(LCN)的一些固定参数。
本文中所公开的系统和方法的一个方面可包含使归一化参数适应于输入图像。这可以通过训练用于预测高斯差分方法的扩展的参数的卷积神经网络(CNN)实现。此外,此CNN(其可被称为“归一化器CNN”)可普遍地可适用。举例来说,归一化器CNN可能无需针对每个新目标对象重新训练。
对象检测和识别在最近几年已经改进,这尤其归功于卷积神经网络(CNN)的发展。到目前为止,当图像通常是合理的良好质量且大量训练数据是轻易地可供使用的时,努力已经主要集中在照片中对象类别识别上。在其它应用中,例如机器人技术和扩增现实,俘获条件被控制的少的多,并且在一些情况下产生大量训练数据可能是繁琐的或甚至不可能的。在这些条件中,可利用对比度归一化技术,例如,局部对比度归一化(LCN)、高斯差分(DoG),或直方图归一化。当处理大范围的照度改变时这些方法中的一些可能失效。
本文中所公开的系统和方法的一些配置可能涉及扩展高斯差分的适应性方法。举例来说,归一化卷积滤波器可应用到输入图像窗口(或图像补丁)以减少照度的影响。此滤波器可适应于图像本身,其可以是本文中所公开的系统和方法的唯一特征。可能难以预测一般线性滤波器的全部系数。高斯差分模型可能指示非常受限的模型。在一些配置中,归一化滤波器可以建模为具有各种标准偏差的若干2D高斯核函数的线性组合。此模型的参数可以是此线性组合的权重。将归一化滤波器建模为具有各种标准偏差的若干2D高斯核函数的组合(其中模型的参数是线性组合的权重)可以是本文中所公开的系统和方法的唯一特征。
在本文中所公开的系统和方法的一些配置中,用于预测来自输入图像的这些权重的归一化器CNN可与检测器CNN(例如,分类器CNN)联合地训练以用于对象检测。在一些方法中,训练可使用合成图像执行,所述合成图像是通过来自目标对象(或关注对象)的极小数目的真实图像的方法创建的。本文中所公开的系统和方法可胜过(在一些情况下通过大边界)用于照度归一化的其它方法。本文中所公开的系统和方法的一些配置可能不需要手动调谐。归一化器CNN可能经一般化以看不见对象并且可能预测合适的权重。举例来说,归一化器CNN可能预测高斯差分滤波器,而用于归一化滤波器的模型可允许更加一般的形式。相应地,归一化器CNN可能无需针对每个不同对象训练。
当照明减少时预测的滤波器的感受野的大小可增大,这符合外侧膝状体核(LGN)中和初级视觉皮层(V1层)中的细胞的行为。这些细胞还具有随着照度而变化的感受野以补偿低信噪比。相应地,归一化器CNN可学习和/或呈现紧密地类似就对比度归一化而言关于视觉皮层的行为已知的内容的行为。
可以考虑一般检测情境。给定灰度输入图像,分类器可以滑动窗口方式应用于输入图像以寻找含有关注对象的窗口(如果存在的话)。可能需要可靠的对象检测为对许多不同视觉损害(包含姿势和照度变化)恒定的或至少稳固的。如下描述了实现这一点的一些方法。
一种方法依赖于训练集。如果训练集呈现足够变化,那么可以希望的是分类方法将学习认出目标对象而不管损害。
另一方法依赖于对一些损害恒定的图像特征。处理照度改变的一种方法是使用图像统计归一化输入图像,例如,通过对比度归一化或直方图均衡化。然而,照度差异未必在图像上是均一的。举例来说,在图像的区上局部地应用这些方法中的一个可更好地处理局部的光改变。然而,它们也可在不充分地纹理化区上变得不稳定。本文中所公开的系统和方法可通过根据图像的局部外观有效地调节归一化的适应性方法克服此局限性。
在替代方案中,局部恒定特征可以用于对象检测。举例来说,在局部二进制模式中使用的哈尔小波和成对强度比较对于强度的单调改变可以是恒定的。基于图像梯度的特征对于添加到强度的常量可以是恒定的。实际上,通过在以它们的取向作为索引的二进制数上归一化梯度幅值,通常也可以使得它们对仿射改变恒定。SIFT描述符可通过迭代过程额外归一化,所述迭代过程可使得它们也对饱和度影响稳固。然而,可能难以出现对3D对象上的复杂照度改变恒定的特征,例如,光方向的改变、投射或自身阴影。实验结果可确认根据本文中所公开的系统和方法的适应性方法可胜过手工制作的局部恒定特征。
又一方法可对照度明确地建模,并且评估来自输入图像的内部图像。这可以摆脱照度并且分离场景的反射系数作为对照度的不变量。然而,获得来自一个输入图像的对于对象识别足够良好的内部图像可能仍然是困难的。
可识别特征可通过深度网络习得。举例来说,可习得卷积滤波器的集合。一些方法可仅依赖于将对变化稳固的训练集,而一些方法可指示局部对比度归一化可以是有益的。本文中所公开的系统和方法的一些配置可采用适应于输入图像的习得的归一化步骤。
如下描述了用于归一化的一些方法。一种方法是通过标准化进行归一化,其可以是对光改变稳固的。此方法可包含从用于每个像素强度的输入图像窗口I中减去像素强度的平均值I,并且用它们的标准偏差σI除以结果,如方程式(1)中所示。
此变换可使得所得图像窗口IGN对强度的仿射变换恒定(例如,如果将强度值夹持在一些间隔(通常是[0;255])内的饱和度影响被忽略)。
另一方法是高斯差分(DoG)。高斯差分可以是用于归一化的带通滤波器,如方程式(2)中所说明。
在方程式(2)中,Gσ是标准偏差σ、k1、k2、σ1的二维(2D)高斯滤波器(例如,高斯2D核函数),且σ2是高斯差分的参数,并且*是2D卷积算子。k1和k2是标量值。这也可以是视网膜的中心和偏离中心细胞的数学模型。在一些方法中,举例来说,可利用大小[6σ+1]的高斯滤波器。DoG方法可受到用于哺乳动物的在上和偏离接收器的数学模型启发。DoG可以是减去的LCN的一般化的形式。
另一方法是白化。白化可用于照度归一化。它涉及DoG,因为从自然图像补丁计算出的习得的白化滤波器可类似高斯差分。实际上,白化矩阵W可首先计算为图像补丁的协方差矩阵C的平方根的倒数。白化矩阵的列是相同补丁的全部转译版本,并且中间列可被用作白化卷积滤波器。
另一方法是局部对比度归一化(LCN)。当通过深度网络工作时,可使用LCN。LCN的一个变体是减去的LCN。减去的LCN与DoG有关,因为它从图像补丁中的每一值减去其相邻者的经高斯加权的平均值。举例来说,减去的LCN可包含在输入图像I上应用运算,如方程式(3)中所说明。
在方程式(3)中,GσSub是标准偏差σSub的高斯2D核函数,并且*是2维(2D)卷积。
另一变体是可除的LCN。可除的LCN使得图像对局部仿射改变恒定,方法是用它们的标准差除以ILCN-Sub的强度,如方程式(4)中所说明的局部计算的。
在方程式(4)中,(ILCN-Sub)2是由ILCN-Sub的平方强度所组成的图像,σDiv是控制用于强度的局部标准偏差的区的大小的参数,并且t是小值以避免奇异性。
直方图均衡化是另一方法。直方图均衡化旨在通过更好地分布输入图像的强度来增强图像对比度。首先,通过任何可能的经量化强度值λi建构图像强度的直方图p(λi)。随后,根据方程式(5),新强度被分配到具有强度λi的全部像素。
CLAHE(对比度有限适应性直方图均衡化)是另一方法。通过先前的直方图归一化方法,没有考虑像素的空间位置,并且噪声倾向于被放大。CLAHE尝试克服直方图均衡化的限制,方法是引入空间约束条件并且防止噪声放大。在CLAHE中,直方图均衡化是局部地执行的并且直方图是夹持的。举例来说,如果p(λi)高于阈值那么p(λi)可被设置为并且直方图可重新归一化。
内部图像是另一方法。输入图像I的内部图像可通过分开照明S与场景的反射系数R获得,使得实现方程式(6)。
I(i)=S(i)R(i) (6)
在方程式(6)中,I(i)指示I的第i个像素的值。方程式(6)是不适定的,但是可仍然通过添加各种约束条件求解。由于R应该不受照度影响,所以它可随后替代将对照度恒定的原始图像被用作输入。然而,稳固地评估R仍然是困难的。此外,在约束条件下对S和R进行优化是计算上昂贵的且对于实时应用是不切实际的。
一些归一化技术要么并不局部执行(例如,通过标准化归一化、直方图归一化等)要么可使用参数(例如,LCN,LRN等)的固定集合。一些技术可尝试归一化CNN神经元的输出(例如,不通过以CNN确定参数来归一化)。一些技术可平均具有不同参数的相同CNN。这些技术可不同于本文中所公开的系统和方法的一些配置。
本文中所公开的系统和方法(例如,适应性归一化方法)可胜过用于对象检测的前述技术。本文中所公开的系统和方法的一些益处可包含需要极少数量的学习数据和/或实时运行。本文中所公开的系统和方法的一些配置的一个优点在于对比度归一化适应于局部窗口。
本文中所公开的系统和方法的一些配置可涉及适应性局部对比度归一化(ALCN)。如上文所论述,上文所描述的方法的性能是仍然有限的。具体地说,对于LCN和DoG的参数不存在理想值。举例来说,一些值更好地工作用于暗图像,而其它的值可更好地工作用于较亮图像。
根据此观察,本文中所公开的系统和方法的一些配置可利用一种方法,其中归一化可通过取决于输入图像的卷积滤波器实现。此方法可被称为适应性局部对比度归一化(ALCN)。应注意涉及DoG和减去的LCN的一些方法可依赖于用于归一化的卷积滤波器。然而,此滤波器可以是不变的。相比之下,根据ALCN利用的卷积滤波器可以是适应性的。
本文中所公开的系统和方法的一些配置可提供扩展LCN的对比度归一化(CN)技术和/或可提供训练视网膜参数预测器(例如,归一化器CNN)连同检测器(例如,检测器CNN)以取决于窗口特征来归一化每个图像窗口(例如,补丁)。视网膜参数预测器可产生用于给定图像的视网膜参数以改进检测器的精确度。在运行时间,视网膜参数预测器(例如,归一化器CNN)可首先应用于输入图像,并且随后检测器(例如,预测的检测器)可应用于归一化的图像以便检测目标对象。
在本文中所公开的系统和方法的一些配置中,检测管线可包含两个卷积神经网络(CNN)。举例来说,第一CNN可被称为归一化器CNN。第二CNN可被称为检测器CNN。检测器CNN可在对象检测中利用。在一些配置中,归一化器CNN可与检测器CNN联合地训练。在本文中给出了关于归一化器CNN、检测器CNN和用于训练一或多个CNN的方法的额外细节。
如本文中所描述,可利用适应性局部对比度归一化(ALCN)以归一化输入图像。ALCN的一些配置可包含第一CNN(例如,归一化器CNN),其可以与第二CNN(例如,检测器CNN)联合地训练以取决于其特征归一化每个图像窗口以便改进检测器的精确度。在一些配置中,可实施一个或多个额外特征。举例来说,用于每个图像窗口的预测权重可在运行时间处共享以归一化输入图像。此方法可不受限于灰度图像,并且还可用于归一化彩色图像。举例来说,在国际照明委员会(CIE)彩色空间中彩色图像可通过归一化图像的亮度(L)并且添加原始彩色图像的ab通道来归一化。
现在参考图式描述各种配置,其中相同的参考标号可以指示功能上类似的元件。可以多种多样的不同配置来布置且设计如本文中在图式中所大体描述且说明的系统和方法。因此,以下对如图式中展现的若干配置的更详细描述并不意图限制如所主张的范围,而是仅表示系统和方法。
图1是说明可实施用于归一化图像的系统和方法的电子装置102的一个实例的框图。归一化图像可包含归一化图像的一或多个窗口和/或归一化整个图像。在一些配置中,电子装置102可另外或替代地经配置以检测图像中的目标对象和/或训练卷积神经网络(CNN)。电子装置102的实例包含摄像机、视频摄录影机、数码摄像机、蜂窝式手机、智能手机、计算机(例如,桌上型计算机、膝上型计算机、服务器等)、平板装置、媒体播放器、电视机、车辆、汽车、个人摄像机、可穿戴式摄像机、虚拟现实装置(例如,耳机)、扩增现实装置(例如,耳机)、混合现实装置(例如,耳机)、运动摄像机、监控摄像机、安装式摄像机、连接式摄像机、机器人、飞机、无人机、无人驾驶飞行器(UAV)、智能电器、医疗保健设备、游戏控制台、个人数字助理(PDA)、机顶盒、电器等。电子装置102可包含一或多个组件或元件。组件或元件中的一或多个可以在硬件(例如,电路)、硬件和固件的组合和/或硬件和软件的组合(例如,具有指令的处理器)中实施。
在一些配置中,电子装置102可执行结合图1-19中的一或多个描述的功能、过程、方法、步骤等中的一或多个。另外或替代地,电子装置102可包含结合图1-19中的一或多个描述的结构中的一或多个。
在一些配置中,电子装置102可包含处理器112、存储器122、显示器124、一或多个图像传感器104、一或多个光学系统106和/或一或多个通信接口108。处理器112可以耦合到存储器122、显示器124、图像传感器104、光学系统106和/或通信接口108(例如,与它们电子通信)。应注意结合图1所描述的电子装置102的元件中的一或多个(例如,图像传感器104、光学系统106、通信接口108、显示器124等)在一些配置中在电子装置102中可以是任选的和/或可能并不包含(例如,实施)。
处理器112可以是通用单芯片或多芯片微处理器(例如,高级RISC(精简指令集计算)机(ARM))、专用微处理器(例如,数字信号处理器(DSP))、微控制器、可编程门阵列等。处理器112可被称为中央处理单元(CPU)。虽然处理器112示出在电子装置102中,但是在替代配置中,可以使用处理器的组合(例如,图像信号处理器(ISP)和应用程序处理器,ARM和数字信号处理器(DSP)等)。处理器112可经配置以实施本文中所公开的方法中的一或多个。
处理器112可包含和/或实施图像获得器114、窗口确定器116、归一化器CNN 118、检测器CNN 120、CNN训练器128和/或归一化管理器130。应注意图像获得器114、窗口确定器116、归一化器CNN 118、检测器CNN 120、CNN训练器128和/或归一化管理器130中的一或多个在一些配置中可能并不实施和/或可以是任选的。举例来说,CNN训练器128在一些配置中可以实施或可以不实施。在一些配置中,CNN训练器128可以实施用于训练归一化器CNN 118和/或检测器CNN 120。在一些配置中此训练可脱机执行和/或不在运行时间期间执行。另外或替代地,在一些配置中电子装置102可能不训练归一化器CNN 118和/或检测器CNN 120,但是在一些配置中可接收预先训练的归一化器CNN 118和/或预先训练的检测器CNN 120(和/或可接收用于归一化器CNN 118和/或检测器CNN 120的预先训练的参数值)。
存储器122可以是能够存储电子信息的任何电子组件。举例来说,存储器122可以实施为随机存取存储器(RAM)(例如,动态随机存取存储器(DRAM))、只读存储器(ROM)、磁盘存储媒体、光学存储媒体、RAM中的快闪存储器装置、随处理器包含的机载存储器、可擦除可编程只读存储器(EPROM)、电可擦除可编程只读存储器(EEPROM)、寄存器等,包含其组合。
存储器122可存储指令和/或数据。处理器112可存取(例如,读取和/或写入)存储器122。指令可由处理器112执行以实施本文中所描述的方法中的一或多个。执行指令可涉及使用存储于存储器122中的数据。当处理器112执行指令时,可将指令的各部分加载到处理器112上,和/或可将各段数据加载到处理器112上。可以通过存储器122存储的指令和/或数据的实例可包含图像数据、图像获得器114指令、窗口确定器116指令、归一化器CNN 118指令、检测器CNN 120指令和/或CNN训练器128指令等。在一些配置中,存储器122可存储CNN参数(例如,来自归一化器CNN 118的权重、来自检测器CNN 120的分数等)。
通信接口108可使得电子装置102能够与一个或多个其它电子装置通信。举例来说,通信接口108可提供一或多个接口用于有线和/或无线通信。在一些配置中,通信接口108可耦合到一或多个天线110以用于发射和/或接收射频(RF)信号。另外或替代地,通信接口108可启用一或多个种类的有线(例如,通用串行总线(USB)、以太网、有线数据传输业务接口规范(DOCSIS)等)通信。
在一些配置中,可实施和/或利用多个通信接口108。举例来说,一个通信接口108可以是蜂窝式(例如,3G、长期演进(LTE)、CDMA等)通信接口108,另一通信接口108可以是以太网接口,另一通信接口108可以是通用串行总线(USB)接口,且又一通信接口108可以是无线局域网(WLAN)接口(例如,电气电子工程师学会(IEEE)802.11接口)。在一些配置中,通信接口108可发送信息(例如,图像信息、对象检测信息、归一化器CNN 118信息、检测器CNN120信息等)到另一装置(例如,车辆、智能手机、摄像机、显示器、远程服务器等)和/或从所述另一装置接收信息。
电子装置102(例如,图像获得器114)可获得一或多个图像(例如,数字图像、图像帧、帧、视频、俘获的图像、测试图像等)。举例来说,电子装置102可包含图像传感器104和光学系统106(例如,镜头),所述光学系统将位于光学系统106的视野内的场景和/或对象的图像聚集到图像传感器104上。在一些配置中光学系统106可以耦合到处理器112和/或由处理器112控制。摄像机(例如,可见光谱摄像机或其它)可包含至少一个图像传感器和至少一个光学系统。相应地,在一些实施方案中,电子装置102可以是一或多个摄像机和/或可包含一或多个摄像机。在一些配置中,图像传感器104可俘获一或多个图像(例如,图像帧、视频、静态图像、极速模式图像、俘获的图像、测试图像等)。
另外或替代地,电子装置102可从另一装置(例如,耦合到电子装置102的一或多个外部摄像机、网络服务器、交通摄像机、水下摄像机、车辆摄像机、网络摄像机等)请求和/或接收一或多个图像。在一些配置中,电子装置102可经由通信接口108请求和/或接收一或多个图像(例如,俘获的图像)举例来说,电子装置102可包含或可不包含摄像机(例如,图像传感器104和/或光学系统106)并且可从一或多个远程装置接收图像。图像(例如,图像帧)中的一或多个可包含一或多个场景和/或一或多个对象。对象中的一或多个可以是目标对象。
在一些配置中,电子装置102可包含图像数据缓冲器(未示出)。在一些配置中图像数据缓冲器可以包含在存储器122中。图像数据缓冲器可缓冲(例如,存储)来自图像传感器104和/或外部摄像机的图像数据。经缓冲的图像数据可被提供给处理器112。
显示器124可集成到电子装置102中和/或可耦合到电子装置102。显示器124的实例包含液晶显示器(LCD)屏幕、发光显示器(LED)屏幕、有机发光显示器(OLED)屏幕、等离子体屏幕、阴极射线管(CRT)屏幕等。在一些实施方案中,电子装置102可以是具有集成显示器的智能电话。在另一实例中,电子装置102可链接到一或多个远程显示器124和/或链接到包含一或多个显示器124的一或多个远程装置。
在一些配置中,电子装置102可包含摄像机软件应用程序。当摄像机应用程序正在运行时,图像传感器104可俘获位于光学系统106的视野内的对象的图像。由图像传感器104所俘获的图像可呈现在显示器124上。举例来说,一或多个图像可被发送到显示器124以供用户查看。在一些配置中,这些图像可从存储器122重放,所述存储器可包含较早俘获的场景的图像数据。通过电子装置102获得的一或多个图像可为一或多个视频帧和/或一或多个静态图像。在一些配置中,显示器124可呈现图像、归一化的图像和/或由处理器112(例如,来自检测器CNN 120)产生的对象检测。另外或替代地,显示器124可呈现自动聚焦图像、对应于一或多个目标对象(例如,检测到的对象、所关注的对象、所识别的对象等)的一或多个指示符和/或一或多个图像(例如,裁剪的对象、缩放的对象等)。举例来说,处理器112可基于检测到的目标对象执行自动缩放、自动聚焦、对象识别和/或其它图像处理。基于检测到的目标对象的图像处理的一或多个结果可呈现在显示器124上。
在一些配置中,电子装置102可在显示器124上呈现用户接口126。举例来说,用户接口126可使得用户能够与电子装置102交互。在一些配置中,用户接口126可使得用户能够与电子装置102交互。举例来说,用户接口126可接收触摸、鼠标单击、姿势和/或指示输入的一些其它指示。
电子装置102(例如,处理器112)可以任选地耦合到一或多种装置、是一或多种装置的一部分(例如,集成到其中)、包含和/或实施一或多种装置。举例来说,电子装置102可在装备有摄像机的车辆或无人机中实施。在另一实例中,电子装置102(例如,处理器112)可在运动摄像机中实施。在又一实例中,电子装置102可在扩增现实耳机中实施。
处理器112可包含和/或实施图像获得器114。一或多个图像(例如,图像帧、视频、急速连拍、俘获的图像、测试图像等)可被提供给图像获得器114。举例来说,图像获得器114可从一或多个图像传感器104获得图像帧。举例来说,图像获得器114可从一或多个图像传感器104和/或从一或多个外部摄像机接收图像数据。如上文所描述,图像(例如,俘获的图像)可从包含于电子装置102中的图像传感器104俘获或者可从一或多个远程摄像机俘获。
在一些配置中,图像获得器114可请求和/或接收一或多个图像(例如,图像帧等)。举例来说,图像获得器114可经由通信接口108从远程装置(例如,外部摄像机、远程服务器、远程电子装置等)请求和/或接收一或多个图像。
在一些配置中,图像获得器114可产生一或多个合成图像。举例来说,图像获得器114可获得分割的对象并且可产生具有不同背景和/或不同照度的一或多个合成图像。在一些方法中合成图像可用于训练。
在一些配置中,处理器112可包含和/或实施窗口确定器116。窗口确定器116可确定一或多个图像的一或多个窗口(例如,补丁、子集、部分等)。举例来说,处理器112可确定一或多个图像的子集(例如,像素子集)。在一些配置中,窗口中的一或多个可具有预先确定的大小(例如,呈二维形式的像素的数目)。窗口中的两个或大于两个可重叠和/或窗口中的两个或大于两个可相互排斥。窗口可针对一或多个图像确定。在一些配置中,处理器112窗口确定器116可利用滑动窗口方法以确定一或多个图像的一或多个窗。一或多个图像和/或一或多个图像的一或多个窗口可被提供给归一化器CNN 118、检测器CNN 120、CNN训练器128和/或归一化管理器130。
图像中的一或多个和/或窗口中的一或多个可通过电子装置102归一化。处理器112可包含和/或实施第一CNN。此第一CNN可被称为归一化器或归一化器CNN 118。归一化器CNN 118可归一化一或多个图像(例如,一或多个图像的一或多个窗口)。举例来说,归一化器CNN 118可调节图像(和/或图像的一或多个窗口)的照度、对比度和/或亮度。归一化器CNN 118(其可被称为归一化器)可预测适应于一或多个窗口的照度归一化模型的参数。举例来说,归一化器CNN 118可预测权重的集合。权重的集合可分别应用于高斯滤波器的集合以获得卷积滤波器。结合图3提供更多细节。
处理器112可将照度归一化模型应用于一或多个窗口以产生一或多个归一化的窗口。举例来说,将照度归一化模型应用于窗口可包含通过窗口的集合的每个窗口卷积所述卷积滤波器。结合图3提供更多细节。
归一化器CNN 118的一些配置可如下实施和/或利用。可利用归一化器CNN 118以预测归一化滤波器。归一化器CNN 118可将图像作为输入。在一些配置中,电子装置102的目标可以是确定图像是否含有目标对象。在一些实施方案中归一化器CNN 118可经训练以预测用于此滤波器的模型的参数(例如,替代于直接地预测滤波器的系数)。
所述模型可以是高斯差分的一般化,和/或可以是若干二维(2D)高斯滤波器的线性组合。高斯滤波器中的每一个可具有不同的固定标准偏差。归一化器CNN 118可经训练以根据方程式(7)预测此线性组合的权重。
在方程式(7)中,I是输入图像(例如,窗口),N是2D高斯滤波器的数目,是高斯滤波器,是固定标准偏差,并且fi(I)是通过归一化器CNN 118预测的第i个权重。IALCN可指示照度归一化的图像窗口,其中ALCN指示适应性局部对比度归一化。应注意输入图像窗口I可包含或可不包含目标对象(例如,关注对象)。在本文中所公开的系统和方法的一些配置中,方程式(2)可扩展以使用更多高斯2D核函数。此方法的一个益处在于可存在固定的高斯2D核函数,其中仅系数ki是针对每个窗口(例如,补丁)习得的。在一些配置中,不同归一化可应用于图像的两个或大于两个窗口。
在实验评估中,最初仅使用两个高斯滤波器以与DoG比较。观察到归一化器对输入图像的适应可以是用于其性能的重要因素。还以实验方式评估了具有标准偏差的10个不同的2D高斯滤波器图7-15说明了一些评估结果。
处理器112可以任选地包含和/或实施第二CNN(例如,检测器CNN 120)。在一些情况和/或配置中,例如,通过图像获得器114所获得的一或多个图像可包含用于对象检测的一或多个对象。在一些配置中处理器112可利用检测器CNN 120以检测一或多个对象。电子装置102(例如,处理器112、检测器CNN 120和/或另一元件)可检测图像中的一或多个对象的位置。举例来说,检测器CNN 120可指示可包含一或多个目标对象的图像的一或多个窗口。
在一些配置中,处理器112可(例如,对于窗口的集合中的每个窗口)通过第二CNN(例如,检测器CNN 120)分析一或多个归一化的窗口以用于对归一化的窗口进行评分。举例来说,包含目标对象的窗口可被评分为高于其它窗口。处理器112可检测具有最大分数的一个或多个归一化的窗口中的目标对象。举例来说,处理器112可标记包含目标对象的一或多个窗口。处理器112可指示检测到的对象。举例来说,处理器112可在显示器124上呈现与检测到的对象相关联的标记(例如,框、图标、文本等)。另外或替代地,处理器112可提供和/或发送图像中的检测到的对象的位置的指示符。
可能有益的是利用检测器CNN 120以检测一或多个对象。举例来说,检测器CNN120可被利用,这是因为深度架构可很好的执行用于对象检测。另外或替代地,利用检测器CNN120可启用归一化器CNN 118和检测器CNN 120的联合训练。与对象类别识别的一些其它方法相比,检测器CNN 120的一些配置可利用仅具有若干层的相对较小的网络。在一些配置中,仅具有若干层的相对较小的网络可很好地执行。检测器CNN 120可预测目标对象存在于基于归一化器CNN 118和归一化模型归一化的图像窗口中的似然度。在一些配置中,归一化器CNN 118和/或检测器CNN 120可以滑动窗口方式应用于图像的窗口中的一或多个(例如,全部)。
处理器112可包含和/或实施CNN训练器128。CNN训练器128可训练一或多个CNN(例如,归一化器CNN 118和/或检测器120)。举例来说,图像获得器114可获得图像的集合,其中图像的子集包含目标对象。图像的集合可被提供给CNN训练器128。
CNN训练器128可训练归一化器CNN 118以用于基于图像的集合预测照度归一化模型的参数。另外或替代地,CNN训练器128可训练检测器CNN 120以用于基于图像的集合和照度归一化模型检测目标对象。在一些配置中,归一化器CNN 118和检测器CNN 120可联合地训练。训练归一化器CNN 118和检测器CNN 120可基于最小化联合损失函数。在一些配置中,CNN训练器可基于照度归一化模型训练用于不同目标对象的另一检测器CNN 120。
在一些配置中联合训练可如下执行和/或利用。应注意训练(例如,联合训练)可通过电子装置102或通过另一装置执行。为了改进(例如,优化)归一化器CNN 118的参数,例如,归一化器CNN 118可与用于执行对象检测本身的CNN(例如,检测器CNN 120)联合地训练。这可以根据方程式(8)实现(例如,通过最小化损失函数)。
在方程式(8)中,Θ和Φ分别是检测器CNN(g)和归一化器CNN(f)的参数。在方程式(8)中,{(Ii,yi)}i是标注的训练图像窗口并且l(I,y)是损失函数。举例来说,负对数似然函数可用于损失函数。在一些配置中,此优化问题可通过软件库解决。举例来说,归一化器CNN118可使用训练图像与检测器CNN 120一起训练。相应地,归一化器CNN118可相对于每个给定的图像预测参数(例如,最好的视网膜参数),以便改进检测器CNN120的性能。在运行时间,归一化器CNN 118可首先在输入图像上运行,并且随后检测器CNN 120可提供归一化的输入图像。
在一些配置中,归一化器CNN 118可以能够一般化到不同目标对象。举例来说,归一化器CNN 118可在以下方法中一般化到其它对象。归一化器CNN 118可首先与检测器CNN120联合地训练以识别来自对象的集合中(例如,在数据集中)的一或多个对象。归一化器CNN 118参数可随后被冻结并且新检测器CNN 120可经训练以检测通过固定的归一化器CNN118预处理的图像中的新对象。此方法与联合训练相比可引起性能的极小损失和/或可引起节省训练时间,这是因为仅训练检测器CNN 120可比训练(例如,重新训练)归一化器CNN118和检测器CNN 120两者更快。
处理器112可以任选地包含和/或实施归一化管理器130。归一化管理器130可执行一或多个操作。在一些配置中,归一化管理器130可归一化一或多个整个图像。举例来说,归一化管理器130可共享用于每个窗口的预测的权重以归一化整个图像。另外或替代地,归一化管理器130可归一化一或多个彩色图像。归一化一或多个整个图像和/或一或多个彩色图像可启用一或多种类型的处理(例如,计算机视觉应用)。举例来说,电子装置102可基于归一化的图像执行对象追踪、图像修改(例如,对象移除、对象克隆等)、对象识别、对象检测、自动聚焦、自动缩放、自主驾驶、辅助驾驶、导航等。举例来说,电子装置102可基于一或多个归一化的图像和/或归一化的图像窗口检测图像中的对象,追踪一系列图像(例如,视频)中的对象、修改图像、识别图像中的一或多个对象、自动聚焦一或多个光学系统(例如,镜头)、在检测到的对象上自动放大、自主驾驶(例如,读取指示牌、检测行人、检测障碍物以进行回避、检测其它车辆、控制传动系统、控制制动系统、转向等)、辅助驾驶员(例如,应用紧急制动系统、执行紧急操作、警示驾驶员指示牌、警示驾驶员障碍物等)、执行导航(例如,为机器人或无人机规划路径、汇编对象、反汇编对象等)等。
归一化管理器130可与图像获得器114、窗口确定器116、归一化器CNN 118、检测器CNN 120和/或CNN训练器128中的一或多个(和/或一或多个对应的功能)结合操作。举例来说,归一化器CNN 118可与检测器CNN 120联合地训练以归一化灰度图像窗口。在一些配置中归一化管理器130可扩展灰度图像窗口归一化到彩色图像归一化。
举例来说,在不同光照条件下训练目标对象的图像可获得(例如,收集)在对象上居中的2D限界框。如上文所描述,所述图像可以是真实图像或合成图像。ALCN可以是高斯差分的一般化,其可以是若干2D高斯滤波器的线性组合,其中滤波器中的每一个可具有不同的固定标准偏差。归一化器CNN 118可经训练以预测此线性组合的权重。举例来说,如上文所描述可结合方程式(7)执行训练。
归一化器CNN 118和检测器CNN 120可使用训练图像联合地训练(例如,在一起训练)。相应地,归一化器CNN 118可相对于每个给定的图像窗口预测权重(例如,最佳权重)以改进检测器CNN 120的性能。在一些配置中,归一化器CNN 118和检测器CNN 120可训练一次(例如,用于第一对象)。随后,检测器CNN 120可重新训练(例如,用于第二对象),而归一化器CNN 118参数保持不变。相应地,检测器CNN 120的重新训练可以是“联合”训练,因为重新训练取决于归一化器CNN 118。应注意虽然此重新训练可以是“联合”训练,但是在一些情况下归一化器CNN 118可能并不重新训练。在一些方法中,归一化器CNN 118和检测器CNN 120两者可都针对一或多个训练进行训练(例如,其中归一化器CNN 118参数并不保持不变)。
归一化管理器130可归一化整个图像。举例来说,在运行时间,可利用图像窗口归一化以归一化整个图像。举例来说,归一化管理器130可基于预测出的权矩阵确定(例如,计算)整个归一化的图像。在一些方法中,这可通过如方程式(9)中所说明的扩展方程式(7)实现。
在方程式(9)中,Fk(I)是具有与用于第k个2D高斯滤波器的输入图像I(例如,整个图像)相同尺寸的预测的权矩阵并且ο是阿达马积。在一些配置中根据方程式(10)可以确定(例如,汇编、计算等)第k个2D高斯滤波器的权矩阵。
[Fk(I)]ij=fk(Iij) (10)
在方程式(10)中,[.]ij是矩阵的第i行和第j行的项,Iij是在图像I中居中在(i,j)处的图像窗口,并且fk(.)是通过归一化器CNN 118为给定图像窗口预测的第k个权重。
在一些配置中,归一化管理器130可变换(例如,线性地变换)强度值到一个范围(例如,范围(0,255),这是灰度图像的有效范围)。变换强度值到一个范围可使得归一化的图像用于一些计算机视觉应用。在一些配置中,变换强度值到一个范围可根据方程式(11)实现。
在方程式(11)中,返回最接近的整数值并且A和B分别是通过ALCN预测的最小和最大可能的强度值。这些值可通过使用ALCN归一化大数目(例如,非常大数目)的随机图像并且获得最小和最大强度值来实现。
在一些配置中,归一化管理器130可归一化彩色图像。举例来说,归一化管理器130可将输入彩色图像变换到彩色空间中。如上文所描述归一化管理器130可随后归一化图像的亮度。举例来说,归一化管理器130可归一化整个图像(例如,根据等式(9)-(10))。归一化管理器130还可变换(例如,线性地变换)强度值。这可以例如根据方程式(11)实现。
在一些配置中,归一化管理器130可如下归一化彩色图像。为了归一化彩色图像II,归一化管理器130可变换输入彩色图像以产生亮度(例如,在CIE Lab彩色空间中的亮度通道)。随后,如上文所描述归一化管理器130可归一化图像(I)的亮度。举例来说,如结合归一化整个图像(例如,等式(9)-(10))所描述归一化管理器130可变换亮度。归一化管理器130可变换(例如,线性地变换)归一化的图像到一个范围(例如,根据方程式(11))。归一化管理器130可在RGB空间中重新变换图像而不会改变彩色通道(例如,ab通道、IIab等)。重新变换图像可例如根据方程式(12)实现。
应注意本文中所描述的操作中的一或多个可执行用于一或多个图像。举例来说,处理器112可在多个图像上执行本文中所描述的操作中的一或多个。
应注意,电子装置102的元件或组件中的一或多个可组合和/或划分。举例来说,图像获得器114、窗口确定器116、归一化器CNN 118、检测器CNN 120、CNN训练器128和/或归一化管理器130可以组合。另外或替代地,图像获得器114、窗口确定器116、归一化器CNN 118、检测器CNN 120、CNN训练器128和/或归一化管理器130中的一或多个可以划分成执行其操作的一或多个子集的元件或组件。
图2是说明用于归一化图像的方法200的一个配置的流程图。方法200可通过电子装置(例如,结合图1描述的电子装置102)执行。
电子装置102可获得202包含目标对象的图像。这可如结合图1所描述般实现。举例来说,电子装置102可通过一或多个图像传感器104俘获一或多个图像和/或可从一或多个远程装置中接收一或多个图像。
电子装置102可确定204图像的窗口的集合。这可如结合图1所描述般实现。举例来说,电子装置102可利用滑动窗口方法来确定204窗口的集合。举例来说,每个窗口可以是图像的子集。窗口可以重叠或可以不重叠。窗口可具有均匀大小或不同大小。
电子装置102可(对于窗口的集合的每个窗口)使用第一CNN(例如,归一化器CNN)预测206适应于窗口的照度归一化模型的参数。这可如结合图1所描述般实现。应注意对于两个或大于两个窗口参数可以是不同的。在一些配置中,参数可以是滤波器(例如,高斯滤波器)的权重。
电子装置102可(对于窗口的集合的每个窗口)将照度归一化模型应用208到窗口以产生归一化的窗口。这可如结合图1所描述般实现。可以利用归一化的窗口中的一或多个。举例来说,一或多个归一化的窗口可呈现在显示器上。另外或替代地,一或多个归一化的窗口可被提供给计算机视觉应用(用于检测对象、自动聚焦、自动缩放、对象追踪、对象辨识、对象识别等)。
图3是说明归一化器卷积神经网络(CNN)318和/或检测器CNN 320的实例的框图。图3说明本文中所公开的系统和方法的一些配置的概述。具体地说,图3说明归一化器CNN318(例如,f)和检测器CNN 320(例如,g)的实例。归一化器CNN 318可以是结合图1所描述的归一化器CNN 118的一个实例。另外或替代地,检测器CNN 320可以是结合图1所描述的检测器CNN 120的一个实例。检测器CNN 320可以是任选的和/或可能无法在一些配置中实施。
在一些配置中结合图3所描述的结构中的一或多个可在结合图1所描述的电子装置102中实施。另外或替代地,在一些配置中结合图3所描述的功能和/或过程中的一或多个可通过结合图1所描述的电子装置102执行。图3中所说明的结构可用于CNN训练(例如,联合训练)和/或可在运行时间用于归一化一或多个图像和/或用于检测一或多个对象。
归一化器CNN 318可接收图像350(例如,图像窗口)。归一化器CNN 318可包含一或多个输出节点A-N 332a-n(例如,神经元)。可取决于图像350(例如,窗口)利用归一化器CNN318来预测(例如,ALCN的)权重A-N 334a-n。预测出的权重A-N 334n可以分别乘以338a-n与滤波器A-N 336a-n(例如,高斯滤波器)。所得乘积中的每一个可以求和340以形成卷积滤波器342。卷积滤波器342可与图像350(例如,图像窗口)卷积352以产生归一化的图像344(例如,归一化的窗口)。如图3中所说明,电子装置102可通过应用归一化器CNN 318、通过乘以338a-n预测的权重334a-n与滤波器336a-n、通过求和340加权的滤波器,和/或通过卷积352卷积滤波器342与图像350(例如,窗口)来归一化图像(例如,窗口)。可根据方程式(7)和/或方程式(8)执行这些操作中的一或多个。归一化器CNN 318可基于参数(例如,Φ)操作。
检测器CNN 320(例如,g)可接收归一化的图像344(例如,归一化的窗口)。检测器CNN 320可包含一或多个检测器输出节点346a-n(例如,神经元)。检测器CNN 320(例如,检测器输出节点A-N 346a-n)可产生相应的分数A-N 348a-n。分数A-N 348a-n中的一或多个可指示对象在图像(例如,窗口)中的似然度。举例来说,不同分数348可表示不同对象在图像(例如,窗口)中的似然度。在一些配置中,分数348可指示图像(例如,窗口)是背景(例如,不包含目标对象)的似然度。检测器CNN 320可基于参数操作(例如,Θ)。在一些配置中,归一化器CNN 318和检测器CNN 320可联合地训练(例如,参数Θ和Φ可联合地确定)。
图4是说明用于检测对象的方法400的一个配置的流程图。方法400可通过电子装置(例如,结合图1所描述的电子装置102)和/或通过结合图3所描述的组件中的一个或多个执行。
电子装置102可获得402包含目标对象的图像。这可如结合图1-2中的一或多个所描述般实现。举例来说,电子装置102可通过一或多个图像传感器104俘获一或多个图像和/或可从一或多个远程装置中接收一或多个图像。
电子装置102可确定404图像的窗口的集合。这可如结合图1-2中的一或多个所描述般实现。举例来说,电子装置102可利用滑动窗口方法来确定404窗口的集合。
电子装置102可使用第一CNN(例如,归一化器CNN)预测406适应于窗口的照度归一化模型的参数。这可如结合图1-3中的一或多个所描述般实现。举例来说,电子装置102可基于预先训练的参数(例如,Φ)预测406权重。
电子装置102可将照度归一化模型应用408到窗口以产生归一化的窗口。这可如结合图1-3中的一或多个所描述般实现。
电子装置102可通过第二CNN(例如,检测器CNN)分析410归一化的窗口以用于对归一化的窗口进行评分。这可如结合图1和3中的一或多个所描述般实现。举例来说,检测器CNN可接收归一化的窗口。检测器CNN可确定一或多个分数。举例来说,检测器CNN可基于训练过的参数(例如,Θ)产生一或多个分数。
电子装置102可确定412是否全部窗口已经完成。举例来说,电子装置102可确定是否(例如,图像的)窗口的集合的全部的窗口已经迭代通过(例如,是否步骤406、408和/或410已经针对全部的窗口的集合执行)。
如果已经完成并非全部窗口,那么电子装置102可前进414到下一个窗口。举例来说,电子装置102可执行步骤406、408和/或410用于窗口的集合中的下一个窗口。
如果全部窗口已经完成,那么电子装置102可在具有最大分数的归一化的窗口中检测416目标对象。这可如结合图1和3中的一或多个所描述般实现。举例来说,电子装置102(例如,处理器112、归一化管理器130等)可确定分数的集合中的最大分数。在一些配置中,具有最大分数的(例如,高于阈值)归一化的窗口可被检测为包含目标对象。
图5是说明根据本文中所公开的系统和方法的一些配置的CNN训练的实例的框图。具体地说,图5说明归一化器CNN 518(例如,f)、检测器CNN 520(例如,g)和CNN训练器528的实例。归一化器CNN 518可以是结合图1和3中的一或多个描述的归一化器CNN 118、318的一个实例。另外或替代地,检测器CNN 520可以是结合图1和3中的一或多个描述的检测器CNN120、320的一个实例。在一些配置中,训练可以根据方程式(8)实现。
在一些配置中结合图5所描述的结构中的一或多个可在结合图1所描述的电子装置102中实施。另外或替代地,在一些配置中结合图5所描述的功能和/或过程中的一或多个可通过结合图1所描述的电子装置102执行。图5中所说明的结构可用于CNN训练(例如,联合训练)。
在一些配置中训练图像管理器558可任选地实施和/或利用。举例来说,训练图像管理器558可以包含在处理器112中和/或通过处理器112实施。训练图像管理器558可获得和/或提供一或多个训练窗口562和/或一或多个对应的标注560。标注560可指示目标对象是否包含在对应的训练窗口562中。
在一些配置中,训练图像管理器558可接收目标对象图像554和/或一或多个底片样本图像556。目标对象图像554可包含目标对象。在一些方法中目标对象图像554可仅包含目标对象(例如,可以是仅目标对象的图像)。在一些方法中,目标对象图像554可包含不只目标对象。在一些方法中目标对象图像554可指示来自整个图像的目标对象的分割。底片样本图像556可以是并不包含目标对象的图像。
在一些配置中,训练图像管理器558可基于一或多个数据集获得和/或提供一或多个数据集和/或一或多个图像。举例来说,在剧烈的光条件和复杂的背景的存在下,可能不存在用于基准测试2D对象检测器的标准数据集。一些数据集具有在不同照度下俘获的例子,例如,NORB数据集、ALOI数据集或CMU Multi-PIE数据集。然而,它们可能不适用于一些场景。举例来说,NORB数据集具有仅6个不同光照方向,ALOI数据集的图像仅含有单个对象且在黑色背景上,并且CMU Multi-PIE数据集是研发用于面部识别的且图像总是在面部上居中。
数据集可被创建和/或用于在具有挑战性的光条件下(具有扰乱对象和杂乱的背景)的对象检测的基准测试。实例数据集可包含三个部分。每个部分可包含目标对象的参考图像和在不同照度下、在不同光照色彩下(具有各种背景和/或具有杂乱的对象)的测试图像。目标对象的一些实例可具有各种材料特性(例如,哑光和/或闪亮材料)和/或可具有复杂的三维(3D)形状(例如,塑料玩具、由天鹅绒制成的小木偶、金属钥匙等)。对于每个对象,举例来说,数据集可包含10灰度32×32真实训练图像和1200 1280×800灰度测试图像。大约25%的测试图像(例如,底片样本图像556)可能不包含目标对象。测试图像中的地面实况限界框(其中呈现了目标对象)可手动地和/或自动地标注。举例来说,训练图像管理器558可自动地标注经合成以包含目标对象的图像。对象可在平面表面上移动,以便限制透视外观改变并且聚焦于照度变化。所述对象可具有复杂的形状和不同的材料,并且可呈现复杂的照度变化。
在一些配置中,训练图像管理器558可产生(例如,合成)一或多个合成图像(例如,具有对应的标注560的训练窗口562)。举例来说,训练图像管理器558可获得(例如,请求和/或接收)目标对象图像554(例如,目标对象的Iref)。给定目标对象图像554,训练图像管理器558可产生合成图像以供用于训练。如上文所描述,目标对象可基于接收到的输入分割(例如,手动地,因此背景可以轻易地改变)或自动地。
在一些配置中,训练图像(例如,训练窗口)可根据公式Inew=clip(Iinterm+Uc)产生,其中Uc是由从-c和+c之间的均匀分布中采样的噪声制成的图像,并且clip(I)是夹持强度值到区间(例如,[0;255]区间)以模拟饱和效应的函数。Iinterm可以是根据方程式(13)可影响噪声c的数量的中间图像。
Iinterm=a(bg(scales(Iref))+b (13)
在方程式(13)中,a、b和s可以是分别从范围[1-A;1+A]、[-B;+B]和[1-S;1+S]中随机采样的值。bg(I)是通过随机背景代替I的背景的函数,其可以是均匀的或从来自数据集的图像中裁剪的。scales(I)是通过因数s放大或缩小I的函数,其可用于在(略微地)不同的比例下检测目标对象。可能有益的是使噪声的数量取决于图像的亮度。举例来说,由于摄像机增强功能,暗图像通常比亮图像更为嘈杂。在一些配置中,简单的试探法可因此用于改变噪声的数量。在一些方法中,其中是中间图像Iinterm的平均强度。在一些实例中,A=0.5、B=0.4、S=0.1且C=45。这些值可提供相当地良好的结果。来自各种数据集的图像可被用作底片样本图像556。
CNN训练器528可接收标注560并且归一化器CNN 518可接收对应的训练窗口562。CNN训练器528可提供归一化器CNN参数566(例如,Φ)到归一化器CNN 518并且可提供检测器CNN参数568(例如,Θ)到检测器CNN 520。归一化器CNN 518可取决于训练窗口562产生权重570。权重570可被提供给卷积滤波器确定器572。卷积滤波器确定器572可分别乘以权重570与滤波器(例如,高斯滤波器)。卷积滤波器确定器572可对所得乘积求和以形成卷积滤波器574。卷积滤波器574可被提供给卷积器576。
卷积器576可对卷积滤波器574与一或多个训练窗口562进行卷积以产生一或多个归一化的窗口578。归一化的窗口578可被提供给检测器CNN 520。
检测器CNN 520(例如,g)可接收归一化的窗口578。检测器CNN 520可基于检测器参数(例如,Θ)产生一或多个分数580。分数580可指示对象在归一化的窗口中的似然度和/或归一化的窗口578是背景(例如,不包含目标对象)的似然度。分数580可被提供给CNN训练器528。
CNN训练器528可包含损失函数564。CNN训练器528可基于标注560、分数580、归一化器CNN参数566和/或检测器CNN参数568评估损失函数。举例来说,CNN训练器528可确定最小化损失函数564的归一化器CNN参数566和/或检测器CNN参数568。损失函数564的一个实例是负对数似然函数。在一些配置中,CNN训练器528可根据方程式(8)执行训练(例如,联合CNN训练)。
本文中所公开的系统和方法的一些配置可根据以下实例操作。在一些实例中,相同架构可实施用于归一化器CNN 518和检测器CNN 520。举例来说,第一层可执行20个卷积,具有32×32个输入补丁上的5×5个滤波器,具有2×2最大池化,计算大小14×14的20个特征图。第二层可产生50个高层级特征,方法是在第一层的输出上执行5×5个卷积随后是2×2最大池化。第三层可以是1024个隐藏单元的完全连接层。检测器CNN520的最后一层可输出对应于目标对象或对应于背景的窗口(例如,补丁)的似然度,而归一化器CNN 518返回预测的权重。对于激活函数,可利用双曲正切函数。举例来说,对于一些问题与修正线性单元(ReLU)相比双曲正切函数可更好地执行。
用于归一化器CNN 518和检测器CNN 520的参数可通过最小化训练集上的负对数似然度函数进行优化。举例来说,在一些配置中在优化中可利用rmsprop算法和/或Dropout。在一些方法中,可利用128个训练样本的迷你批次。可产生具有相同数目的虚像和底片图像的500,000个合成图像。
在测试时间,可在从测试图像中提取的一些或全部窗口(例如,32×32个图像窗口)上执行检测。如果对于一个窗口所估计的似然度高于阈值,那么电子装置(例如,对象检测器)可确定此窗口含有对象。通过改变此阈值可获得精确度-查全率曲线。为了评估不同归一化技术对检测性能的影响,针对结合图7-9比较的全部归一化技术可采用相同检测器,重新训练检测器用于每一归一化技术。
图6是说明用于训练一或多个卷积神经网络(CNN)的方法600的一个配置的流程图。方法600可通过电子装置(例如,结合图1所描述的电子装置102)和/或结合图3和5中的一或多个所描述的组件中的一或多个执行。
电子装置102可获得602图像(例如,训练图像)的集合。图像的子集可包含目标对象。这可如结合图1所描述般实现。举例来说,电子装置102可通过一或多个图像传感器104俘获一或多个图像和/或可从一或多个远程装置中接收一或多个图像。另外或替代地,如结合图5所描述电子装置102产生(例如,合成)一或多个图像(例如,训练图像)。
电子装置102可训练604第一CNN(例如,归一化器CNN)以用于基于图像的集合预测照度归一化模型的参数。这可如结合图1、3和5中的一或多个所描述般实现。
电子装置102可训练606第二CNN(例如,检测器CNN)以用于基于图像的集合和照度归一化模型检测目标对象。这可如结合图1、3和5中的一或多个所描述般实现。在一些配置中应注意训练604第一CNN和训练606第二CNN可联合地执行。
图7是说明用于目标对象的若干对象检测技术的精确度和查全率的曲线图。为了评估,可利用帕斯卡标准以通过0.8的交并比(IoU)决定检测是否正确。图7-9说明了精确度-查全率(PR)曲线和曲线下面积(AUC)以比较不同技术的性能。在评估中图像窗口的大小被固定到32×32像素。应注意,可利用其它图像窗口大小。
举例来说,当分别改变在等式(2)、(3)和(4)中给定的参数时,DoG和LCN精确度-查全率曲线被比较用于DoG、减去的LCN和可除的LCN归一化方法。DoG倾向于比减去的LCN更好地执行,减去的LCN比可除的LCN更好地执行,很可能是因为可除的LCN在均匀区上可变得不稳定。应注意这些值的较小变化可对最终性能有较大影响,这意味着这些值应该实际上被谨慎地调谐。
DoG归一化的性能表现为对其参数非常敏感。因此,在与检测器CNN相同的时间四个DoG参数以实验方式联合地优化。这是根据方程式(14)实现的。
在方程式(14)中,Θ和Φ是检测器CNN(g(.))和DoG的参数,{(Ii,yi)}i是标注的训练图像窗口并且l(I,y)是负似然度损失函数。此方法可提供一些改进,并且可避免手动参数选择的繁重的任务。然而,所述性能被本文中所描述的适应性归一化方法胜过,其中滤波器是调节到每个测试图像的。
如上文所论述,利用用于不同图像的不同参数可改进性能。执行实验,其中通过简单地对平均强度取阈值,训练集被拆分成暗图像和亮图像。训练两个不同的CNN,一个用于每个子集,连同使用方程式(14)优化用于DoG的参数值。在实验中阈值被设置成80。
评估亮度与理想归一化CNN参数值之间的关系。与在亮图像上获得改进的性能的值相比在暗图像上获得改进的性能需要参数的较大的值。它示出了不同图像需要用于DoG的不同参数。更具体地说,在运行时间,对于每个可能的图像位置,如果在所述位置上居中的图像补丁是暗的或亮的,那么它被首先测试。可随后应用对应的CNN。所述实验指示的较大值在暗测试图像上更好地执行。这符合生物观察结果:当处理较暗图像时,使用较大感受野。具体地说,评估使用用于图像的集合的方程式(7)的模型的预测的滤波器。就对比度归一化而言在具有10个2D高斯滤波器的数据集上训练的归一化器CNN紧密地表现的像视觉皮层,因为它为暗图像预测较大核心,且为亮图像预测较小核心。
针对其它归一化技术比较本文中所公开的系统和方法的一些配置(例如,ALCN技术)。具体地说,图7-9针对不同对象比较不同对比度归一化技术。对于DoG、减去的LCN和可除的LCN,在训练检测器时获得最佳参数,类似于针对DoG所描述的过程。当从单个真实图像中训练时,本文中所公开的系统和方法在数据集的全部对象上始终胜过其它系统和方法。添加若再多一些真实图像到训练集进一步改进了性能。如可以在图7-9中观察到的,ALCN胜过其它技术。并且,其它技术在数据集的不同对象上具有非常不同的性能。这进一步说明了本文中所公开的系统和方法作为照度不变对象检测的一般解决方案的益处。
具体地说,图7说明了不同技术的PR曲线的曲线图。纵轴说明精确度782且横轴说明查全率784。PR曲线是针对ALCN 786、DoG 788、减去的LCN 790、可除的LCN 792、CLAHE794、直方图均衡化(HE)796、内部图像798以及通过标准化归一化(GN)701说明的。还说明了用于技术中的每一个的AUC值。如可以观察到的,ALCN胜过其它技术。
图8是说明用于另一目标对象的若干对象检测技术的精确度和查全率的曲线图。具体地说,图8说明了不同技术的PR曲线的曲线图。纵轴说明精确度882且横轴说明查全率884。PR曲线是针对ALCN 886、DoG 888、减去的LCN 890、可除的LCN 892、CLAHE 894、直方图均衡化(HE)896、内部图像898以及通过标准化归一化(GN)801说明的。还说明了用于技术中的每一个的AUC值。如可以观察到的,ALCN胜过其它技术。
图9是说明用于又一目标对象的若干对象检测技术的精确度和查全率的曲线图。具体地说,图9说明了不同技术的PR曲线的曲线图。纵轴说明精确度982且横轴说明查全率984。PR曲线是针对ALCN 986、DoG 988、CLAHE 994、直方图均衡化(HE)996、内部图像998以及通过标准化归一化(GN)901说明的。还说明了用于技术中的每一个的AUC值。如可以观察到的,ALCN胜过其它技术。
图10是说明用于目标对象的不同数目的训练图像(例如,样本)的ALCN的精确度和查全率的曲线图。具体地说,图10-12说明用于训练的不同数目的训练图像(例如,真实图像)的检测器性能。具体地说,图10-12说明用于训练的真实图像的数目的影响。如图10-12中所说明,当使用用于产生训练集的更多真实图像时检测精确度增大。合成图像是从这些真实图像中的每一个产生的以构建完整的训练集。对于此评估合成训练图像的总数目保持不变(然而训练图像的数目可在实际中不同)。
具体地说,图10说明了用于不同数目的训练图像(例如,样本)的PR曲线的曲线图。纵轴说明精确度1082且横轴说明查全率1084。PR曲线是针对1个样本1003、3个样本1005、5个样本1007和10个样本1009说明的。还说明了对应的AUC值。如可以观察到的,ALCN性能随着更多的样本改进。
使用仅1个图像实现其它技术的优胜。当使用更多真实图像时获得甚至更好的结果。可以观察到两个CNN的组合(例如,归一化CNN和检测器CNN)可通过由合成实例扩增的极少的真实实例训练。在一些配置中,当产生合成训练图像时可能不需要利用复杂照度影响。可仅利用拟仿射改变,以便使得归一化器CNN和检测器CNN的组合对如同阴影和高光的复杂的光改变稳固。
图11是说明用于另一目标对象的不同数目的训练图像(例如,样本)的ALCN的精确度和查全率的曲线图。具体地说,图11说明了用于不同数目的训练图像(例如,样本)的PR曲线的曲线图。纵轴说明精确度1182且横轴说明查全率1184。PR曲线是针对1个样本1103、3个样本1105、5个样本1107和10个样本1109说明的。还说明了对应的AUC值。如可以观察到的,ALCN性能随着更多的样本改进。
图12是说明用于又一目标对象的不同数目的训练图像(例如,样本)的ALCN的精确度和查全率的曲线图。具体地说,图12说明了用于不同数目的训练图像(例如,样本)的PR曲线的曲线图。纵轴说明精确度1282且横轴说明查全率1284。PR曲线是针对1个样本1203、3个样本1205、5个样本1207和10个样本1209说明的。还说明了对应的AUC值。如可以观察到的,ALCN性能随着更多的样本改进。
图13是说明用于目标对象的联合地训练的归一化器对预先训练的归一化器CNN的ALCN的精确度和查全率的曲线图。纵轴说明精确度1382且横轴说明查全率1384。PR曲线是针对联合地训练的归一化器CNN 1311和预先训练的归一化器CNN 1313说明的。还说明了对应的AUC值。如可以观察到的,预先训练的归一化器CNN可在几乎没有精确度的损失下利用。此方法可以避免重新训练归一化器CNN,这可以减少用于额外目标对象检测的训练时间和处理。
如本文中所描述,系统和方法的一些配置可具有一般化的益处。举例来说,归一化器CNN可很好的一般化(例如,不管目标对象如何可有效地使用)。对于评估,归一化器CNN在从数据集的10个对象中产生的合成图像上训练,并且在数据集的两个第一对象上测试,对于每个给定5个训练图像。更具体地说,数据集是由在15个不同照度下看到的10个对象制成的,其中9个图像在各种强度的均匀照度下俘获,且6个图像在不同程度的非均匀照度下。图13-15比较当归一化器CNN联合地训练时与当它在数据集上预先训练时的归一化器CNN。此实验说明归一化器CNN可从小数据集到看不见的对象很好地一般化。
图14是说明用于另一目标对象的联合地训练的归一化器对预先训练的归一化器CNN的ALCN的精确度和查全率的曲线图。纵轴说明精确度1482且横轴说明查全率1484。PR曲线是针对联合地训练的归一化器CNN 1411和预先训练的归一化器CNN 1413说明的。还说明了对应的AUC值。
图15是说明用于又一目标对象的联合地训练的归一化器对预先训练的归一化器CNN的ALCN的精确度和查全率的曲线图。纵轴说明精确度1582且横轴说明查全率1584。PR曲线是针对联合地训练的归一化器CNN 1511和预先训练的归一化器CNN 1513说明的。还说明了对应的AUC值。
应注意具有对象检测的ALCN还与其它对象检测技术进行比较。举例来说,本文中所公开的系统和方法(例如,深度学习解决方案)的一些配置与Viola-Jones检测器和可变形部件模型(DPM)进行比较,它们是用于对象检测的其它技术。对于Viola-Jones检测器,评估具有局部二进制模式和10级的OpenCV实施方案。通过用于Viola-Jones的0.126的AUC对用于使用单个训练图像的本文中所公开的系统和方法的0.787,测试数据集上的性能非常不佳。此外,对于Viola-Jones训练耗时一天半,而根据本文中所公开的系统和方法联合地训练归一化器CNN和检测器CNN仅耗时不到一小时。DPM的实施并不集中在问题上,可能是由于训练图像的外观中的较大变化。
本文中所公开的系统和方法的一些配置可应用于3D对象检测。举例来说,本文中所公开的系统和方法的一些配置可应用于视频中的3D对象检测。在一些配置中,3D对象检测可基于部分的检测执行。
在视频序列上ALCN与DoG进行比较。对于全部选定的部分ALCN表现的最佳。具体地说,所利用的测试视频显现具有挑战性的动态复杂背景和光改变。利用数据集并且本文中所描述的归一化器CNN被添加到用于检测部分的CNN。100,000个32×32的图像补丁是接近于每个部分的中心(框的角落)随机抽取为正的,具有相同数目的负补丁。对于框的四个角落,在这些训练图像上优化的DoG归一化是针对根据本文中所公开的系统和方法的一般化的归一化器CNN(其在此情况下在数据集上预先训练)评估的。结果说明预先训练的ALCN归一化器CNN明显地胜过DoG归一化,根据所述实验DoG归一化表现为执行为第二最佳技术。
本文中所公开的系统和方法可提供用于照度归一化的一或多个有力的方法。本文中所公开的系统和方法的一些配置模拟从哺乳动物视觉系统中已知的内容。另外或替代地,本文中所公开的系统和方法的一些配置可以是有益的,这是因为归一化器CNN可被添加到标准CNN以执行更稳固的对象检测。
图16是说明用于归一化整个图像的方法的实例的框图。具体地说,图16说明归一化器CNN 1618的实例(例如,f)。归一化器CNN 1618可以是结合图1所描述的归一化器CNN118的一个实例。
在一些配置中结合图16所描述的结构中的一或多个可在结合图1所描述的电子装置102中实施。另外或替代地,在一些配置中结合图16所描述的功能和/或过程中的一或多个可如结合图1-6中的一或多个所描述的执行。图16中所说明的结构可在运行时间用于归一化一或多个图像。归一化的图像可在一个或多个计算机视觉应用(例如,对象检测、对象追踪、自动聚焦等)中利用。
归一化器CNN 1618可接收图像1615(例如,整个图像)。归一化器CNN 1618可包含一或多个输出节点A-N 1632a-n(例如,神经元)。可取决于图像1615利用归一化器CNN 1618来预测(例如,ALCN的)权重矩阵A-N 1617a-n。举例来说,权重矩阵1617可从归一化器CNN1618预测的权重中确定(例如,所汇编的、计算的等)。阿达马积运算1619a-n可产生相应的权重矩阵1617a-n和输入图像1615(例如,整个图像)的阿达马积。阿达马积可分别与滤波器A-N 1623a-n(例如,高斯滤波器)卷积1621a-n以产生滤波的组分A-N 1625a-n(例如,)。滤波的组分A-N 1625a-n可被求和1627a-n以产生归一化的图像1629(例如,IALCN)。这些运算中的一或多个可根据等式(9)-(10)中的一或多个执行。
图17是说明用于归一化图像(例如,整个图像)的方法1700的一个配置的流程图。方法1700可通过电子装置(例如,结合图1描述的电子装置102)执行。
电子装置102可获得1702图像。这可如结合图1所描述般实现。举例来说,电子装置102可通过一或多个图像传感器104俘获一或多个图像和/或可从一或多个远程装置中接收一或多个图像。
电子装置102可确定1704图像的窗口的集合。这可如结合图1-4中的一或多个所描述般实现。举例来说,电子装置102可利用滑动窗口方法来确定1704窗口的集合。举例来说,每个窗口可以是图像的子集。窗口可以重叠或可以不重叠。窗口可具有均匀大小或不同大小。
电子装置102可(对于窗口的集合的每个窗口)使用第一CNN(例如,归一化器CNN)预测1706适应于窗口的照度归一化模型的参数。这可如结合图1-4中的一或多个所描述般实现。应注意对于两个或大于两个窗口参数可以是不同的。在一些配置中,参数可以是滤波器(例如,高斯滤波器)的权重。
电子装置102可基于每个窗口的预测的参数确定1708预测的权重矩阵。这可如结合图1和16中的一或多个所描述般实现。举例来说,电子装置102可汇编预测的权重矩阵与来自归一化器CNN的预测的权重。在一些配置中,这可以根据方程式(10)实现。在一些配置中,电子装置102可确定1708对应于每个滤波器(例如,高斯滤波器)的多个权重矩阵。
电子装置102可基于预测的权重矩阵(例如,预测的权重矩阵)归一化1710图像以产生归一化的图像。这可如结合图1和16中的一或多个所描述般实现。举例来说,电子装置102可确定一或多个权重矩阵和图像的一或多个阿达马积。阿达马积可与滤波器卷积和求和以产生归一化的图像。在一些配置中,这可以根据方程式(9)实现。
在一些配置中,电子装置102可以任选地变换1712归一化的图像(例如,强度值)到一个范围中。这可如结合图1所描述般实现。举例来说,电子装置102可变换1712到灰度图像的范围(例如,(0,255))。变换1712强度值到一个范围可使得归一化的图像用于一些计算机视觉应用。
归一化的(例如,归一化的和变换的图像)可呈现在显示器上。另外或替代地,一或多个归一化的图像可被提供给计算机视觉应用(用于检测对象、自动聚焦、自动缩放、对象追踪、对象辨识、对象识别等)。
图18是说明用于归一化彩色图像的方法1800的一个配置的流程图。方法1800可通过电子装置(例如,结合图1所描述的电子装置102)执行。
电子装置102可获得1802彩色图像。这可如结合图1所描述般实现。举例来说,电子装置102可通过一或多个图像传感器104俘获一或多个图像和/或可从一或多个远程装置中接收一或多个图像。
电子装置102可变换1804彩色图像以产生亮度通道(例如,L)和彩色通道(例如,IIab)。这可如结合图1所描述般实现。在一些配置中,彩色图像可变换1804到Lab彩色空间中。
电子装置102可归一化1806亮度通道以产生归一化的亮度通道。这可如结合图1-4和15-16中的一或多个所描述般实现。举例来说,电子装置102可归一化亮度通道为如结合图1-4和15-16中的一或多个所描述的整个图像。在一些配置中,这可如结合等式(9)-(11)中的一或多个所描述般实现。
电子装置102可变换1808归一化的亮度通道和彩色通道到原始彩色空间中。这可如结合图1所描述般实现。举例来说,电子装置102可变换(例如,重新变换)图像到RGB空间中而不改变彩色通道。在一些配置中,这可以根据方程式(12)实现。
归一化的(例如,归一化的和重新变换的彩色图像)可呈现在显示器上。另外或替代地,一或多个归一化的图像可被提供给计算机视觉应用(用于检测对象、自动聚焦、自动缩放、对象追踪、对象辨识、对象识别等)。
图19说明可包含在经配置以实施本文中所公开的系统和方法的各种配置的电子装置1902内的特定组件。电子装置1902可以是存取终端机、移动站、用户设备(UE)、智能电话、数码摄像机、视频摄像机、平板装置、膝上型计算机、桌上型计算机、服务器等。电子装置1902可以根据本文中所描述的电子装置102实施。电子装置1902包含处理器1951。处理器1951可为通用单芯片或多芯片微处理器(例如,ARM)、专用微处理器(例如,数字信号处理器(DSP))、微控制器、可编程门阵列等。处理器1951可被称为中央处理单元(CPU)。虽然在电子装置1902中仅示出了单个处理器1951,但是在替代配置中,可实施处理器的组合(例如,ARM和DSP)。
电子装置1902还包含存储器1931。存储器1931可以是能够存储电子信息的任何电子组件。存储器1931可体现为随机存取存储器(RAM)、只读存储器(ROM)、磁盘存储媒体、光学存储媒体、RAM中的快闪存储器装置、随处理器包含的机载存储器、EPROM存储器、EEPROM存储器、寄存器等,包含其组合。
数据1935a和指令1933a可存储于存储器1931中。指令1933a可由处理器1951执行以实施本文中所描述的方法200、400、600、1700、1800中的一或多个。执行指令1933a可涉及使用存储于存储器1931中的数据1935a。当处理器1951执行指令1933时,可将指令1933b的各部分加载到处理器1951上,和/或可将各段数据1935b加载到处理器1951上。
电子装置1902还可包含发射器1941和接收器1943,以允许将信号发射到电子装置1902和从电子装置1902接收信号。发射器1941和接收器1943可统称为收发器1945。一或多个天线1939a-b可电耦合到收发器1945。电子装置1902还可包含(未示出)多个发射器、多个接收器、多个收发器和/或额外天线。
电子装置1902可包含数字信号处理器(DSP)1947。电子装置1902还可包含通信接口1949。通信接口1949可允许和/或启用一或多个种类的输入和/或输出。举例来说,通信接口1949可包含用于将其它装置链接到电子装置1902的一或多个端口和/或通信装置。在一些配置中,通信接口1949可包含发射器1941、接收器1943,或这两者(例如,收发器1945)。另外或替代地,通信接口1949可包含一或多个其它接口(例如,触摸屏、小键盘、键盘、麦克风、摄像机等)。举例来说,通信接口1949可使得用户能够与电子装置1902交互。
电子装置1902的各种组件可通过一或多个总线耦合在一起,所述总线可包含电力总线、控制信号总线、状态信号总线、数据总线等。为清楚起见,各种总线在图19中说明为总线系统1937。
术语“确定”涵盖多种多样的动作,且因此“确定”可以包含计算、运算、处理、导出、调查、查找(例如,在表、数据库或另一数据结构中查找)、查实及类似者。并且,“确定”可包含接收(例如,接收信息)、存取(例如,存取存储器中的数据)及类似者。并且,“确定”可包含解析、选择、挑选、建立及类似者。
除非另外明确地指定,否则短语“基于”并不意味着“仅基于”。换句话说,短语“基于”描述“仅基于”和“至少基于”两者。
术语“处理器”应广义上解释为涵盖通用处理器、中央处理单元(CPU)、微处理器、数字信号处理器(DSP)、控制器、微控制器、状态机等。在一些情况下,“处理器”可以指专用集成电路(ASIC)、可编程逻辑装置(PLD)、现场可编程门阵列(FPGA)等。术语“处理器”可以指处理装置的组合,例如,DSP和微处理器的组合、多个微处理器、一或多个微处理器结合DSP芯,或任何其它此类配置。
术语“存储器”应当广义地解释为涵盖能够存储电子信息的任何电子组件。术语存储器可以指各种类型的处理器可读媒体,例如,随机存取存储器(RAM)、只读存储器(ROM)、非易失性随机存取存储器(NVRAM)、可编程只读存储器(PROM)、可擦除可编程只读存储器(EPROM)、电可擦除PROM(EEPROM)、快闪存储器、磁性或光学数据存储装置、寄存器等。如果处理器可从存储器读取信息和/或写入信息到存储器,那么存储器被称为与处理器电子通信。与处理器成一体的存储器与处理器电子通信。
术语“指令”和“代码”应被广义地解释为包含任何类型的计算机可读语句。举例来说,术语“指令”和“代码”可指代一或多个程序(program)、例程、子例程、函数、过程(procedure)等。“指令”和“代码”可以包括单个计算机可读语句或许多计算机可读语句。
本文中所描述的功能可在通过硬件执行的软件或固件中实施。所述功能可存储为计算机可读媒体上的一或多个指令。术语“计算机可读媒体”或“计算机程序产品”指代可由计算机或处理器存取的任何有形的存储媒体。借助于实例而非限制,计算机可读媒体可包括RAM、ROM、EEPROM、CD-ROM或其它光盘存储装置、磁盘存储装置或其它磁性存储装置,或可用于携带或存储呈指令或数据结构的形式的所要程序代码且可由计算机存取的任何其它媒体。如本文所使用的磁盘和光盘包含压缩光盘(CD)、激光光盘、光学光盘、数字多功能光盘(DVD)、软盘和光盘,其中磁盘通常是以磁性方式再现数据,而光盘是用激光以光学方式再现数据。应注意,计算机可读媒体可为有形且非暂时性的。术语“计算机程序产品”是指与可由计算装置或处理器执行、处理或计算的代码或指令(例如,“程序”)组合的计算装置或处理器。如本文中所使用,术语“代码”可指代可由计算装置或处理器执行的软件、指令、代码或数据。
还可经由传输媒体传输软件或指令。举例来说,如果使用同轴电缆、光纤电缆、双绞线、数字订户线(DSL)或无线技术(例如,红外线、无线电及微波)从网站、服务器或其它远程源传输软件,那么同轴电缆、光纤电缆、双绞线、DSL或无线技术(例如,红外线、无线电及微波)包含在传输媒体的定义中。
本文中所公开的方法包括用于实现所描述方法的一或多个步骤或动作。在不脱离权利要求书的范围的情况下,方法步骤和/或动作可以彼此互换。换句话说,除非正描述的方法的适当操作需要步骤或动作的特定次序,否则,在不脱离权利要求书的范围的情况下,可修改特定步骤和/或动作的次序和/或使用。
另外,应了解用于执行本文中描述的方法和技术的模块和/或其它适当装置可以下载和/或以其它方式通过装置获得。举例来说,装置可耦合到服务器以促进用于执行本文中所描述的方法的装置的传递。替代地,本文中所描述的各种方法可以通过存储装置(例如,随机存取存储器(RAM)、只读存储器(ROM)、例如压缩光盘(CD)或软盘等物理存储媒体等)提供,使得当耦合或提供存储装置到装置时装置可获得各种方法。
应理解,权利要求书不限于上文所说明的精确配置和组件。在不脱离权利要求书的范围的情况下,可对本文中所描述的系统、方法和设备的布置、操作和细节作出各种修改、改变和变化。

Claims (30)

1.一种用于通过电子装置归一化图像的方法,所述方法包括:
获得包括目标对象的图像;
确定所述图像的窗口的集合;
对于所述图像的所述窗口的集合的每个窗口:
使用第一卷积神经网络CNN预测适应于所述窗口的照度归一化模型的参数;以及
将所述照度归一化模型应用到所述窗口以产生归一化的窗口。
2.根据权利要求1所述的方法,其进一步包括:对于所述图像的所述窗口的集合的每个窗口,通过第二CNN分析所述归一化的窗口以用于对所述归一化的窗口进行评分。
3.根据权利要求2所述的方法,其中所述第一CNN和所述第二CNN是联合地训练的CNN。
4.根据权利要求2所述的方法,其进一步包括检测具有最大分数的归一化的窗口中的所述目标对象。
5.根据权利要求2所述的方法,其中所述第一CNN是归一化器CNN并且所述第二CNN是检测器CNN。
6.根据权利要求2所述的方法,其中所述第一CNN是训练用于基于训练图像的集合预测所述照度归一化模型的参数的,其中所述训练图像的集合的子集包括训练目标对象,并且其中所述第二CNN是训练用于基于所述训练图像的集合和所述照度归一化模型检测所述训练目标对象的。
7.根据权利要求2所述的方法,其中所述第一CNN和所述第二CNN是基于最小化联合损失函数训练的。
8.根据权利要求1所述的方法,其中预测所述参数包括预测分别应用于高斯滤波器的集合以获得卷积滤波器的权重的集合。
9.根据权利要求1所述的方法,其中将所述照度归一化模型应用到窗口包括对卷积滤波器与所述窗口进行卷积。
10.根据权利要求1所述的方法,其进一步包括:
基于用于每个窗口的所述预测的参数确定预测的权重矩阵;以及
基于所述预测的权重矩阵归一化所述图像以产生归一化的图像。
11.根据权利要求1所述的方法,其中所述图像是彩色图像,并且其中所述方法进一步包括:
变换所述彩色图像以产生亮度通道和彩色通道;
归一化所述亮度通道以产生归一化的亮度通道;以及
变换所述归一化的亮度通道和所述彩色通道到原始彩色空间。
12.一种用于归一化图像的电子装置,其包括:
处理器,其经配置以进行以下操作:
获得包括目标对象的图像;
确定所述图像的窗口的集合;
对于所述图像的所述窗口的集合的每个窗口:
使用第一卷积神经网络CNN预测适应于所述窗口的照度归一化模型的参数;以及
将所述照度归一化模型应用到所述窗口以产生归一化的窗口。
13.根据权利要求12所述的电子装置,其中所述处理器经配置以对于所述图像的所述窗口的集合的每个窗口通过第二CNN分析所述归一化的窗口以对所述归一化的窗口进行评分。
14.根据权利要求13所述的电子装置,其中所述第一CNN和所述第二CNN是联合地训练的CNN。
15.根据权利要求13所述的电子装置,其中所述处理器经配置以检测具有最大分数的归一化的窗口中的所述目标对象。
16.根据权利要求13所述的电子装置,其中所述第一CNN是归一化器CNN并且所述第二CNN是检测器CNN。
17.根据权利要求13所述的电子装置,其中所述第一CNN是训练用于基于训练图像的集合预测所述照度归一化模型的参数的,其中所述训练图像的集合的子集包括训练目标对象,并且其中所述第二CNN是训练用于基于所述训练图像的集合和所述照度归一化模型检测所述训练目标对象的。
18.根据权利要求13所述的电子装置,其中所述第一CNN和所述第二CNN是基于最小化联合损失函数训练的。
19.根据权利要求12所述的电子装置,其中所述处理器经配置以预测分别应用于高斯滤波器的集合以获得卷积滤波器的权重的集合。
20.根据权利要求12所述的电子装置,其中所述处理器经配置以对卷积滤波器与所述窗口进行卷积。
21.根据权利要求12所述的电子装置,其中所述处理器经配置以进行以下操作:
基于用于每个窗口的所述预测的参数确定预测的权重矩阵;以及
基于所述预测的权重矩阵归一化所述图像以产生归一化的图像。
22.根据权利要求12所述的电子装置,其中所述图像是彩色图像,并且其中所述处理器经配置以进行以下操作:
变换所述彩色图像以产生亮度通道和彩色通道;
归一化所述亮度通道以产生归一化的亮度通道;以及
变换所述归一化的亮度通道和所述彩色通道到原始彩色空间。
23.一种用于归一化图像的设备,其包括:
用于获得包括目标对象的图像的装置;
用于确定所述图像的窗口的集合的装置;
用于对于所述图像的所述窗口的集合的每个窗口使用第一卷积神经网络CNN预测适应于所述窗口的照度归一化模型的参数的装置;以及
用于对于所述图像的所述窗口的集合的每个窗口将所述照度归一化模型应用到所述窗口以产生归一化的窗口的装置。
24.根据权利要求23所述的设备,其进一步包括用于对于所述图像的所述窗口的集合的每个窗口通过第二CNN分析所述归一化的窗口以用于对所述归一化的窗口进行评分的装置。
25.根据权利要求24所述的设备,其中所述第一CNN和所述第二CNN是联合地训练的CNN。
26.根据权利要求23所述的设备,其中所述图像是彩色图像,并且其中所述设备进一步包括:
用于变换所述彩色图像以产生亮度通道和彩色通道的装置;
用于归一化所述亮度通道以产生归一化的亮度通道的装置;以及
用于变换所述归一化的亮度通道和所述色彩通道到原始彩色空间的装置。
27.一种用于归一化图像的计算机程序产品,其包括具有在其上的指令的非暂时性计算机可读媒体,所述指令包括:
用于使得电子装置获得包括目标对象的图像的代码;
用于使得所述电子装置确定所述图像的窗口的集合的代码;
用于使得所述电子装置对于所述图像的所述窗口的集合的每个窗口使用第一卷积神经网络CNN预测适应于所述窗口的照度归一化模型的参数的代码;以及
用于使得所述电子装置对于所述图像的所述窗口的集合的每个窗口将所述照度归一化模型应用到所述窗口以产生归一化的窗口的代码。
28.根据权利要求27所述的计算机程序产品,其中所述指令进一步包括用于使得所述电子装置对于所述图像的所述窗口的集合的每个窗口通过第二CNN分析所述归一化的窗口以用于对所述归一化的窗口进行评分的代码。
29.根据权利要求28所述的计算机程序产品,其中所述第一CNN和所述第二CNN是联合地训练的CNN。
30.根据权利要求27所述的计算机程序产品,其中所述图像是彩色图像,并且其中所述指令进一步包括:
用于使得所述电子装置变换所述彩色图像以产生亮度通道和彩色通道的代码;
用于使得所述电子装置归一化所述亮度通道以产生归一化的亮度通道的代码;以及
用于使得所述电子装置变换所述归一化的亮度通道和所述彩色通道到原始彩色空间的代码。
CN201780015949.0A 2016-03-11 2017-01-09 用于归一化图像的系统和方法 Active CN108780508B (zh)

Applications Claiming Priority (5)

Application Number Priority Date Filing Date Title
US201662307225P 2016-03-11 2016-03-11
US62/307,225 2016-03-11
US15/207,239 US10325351B2 (en) 2016-03-11 2016-07-11 Systems and methods for normalizing an image
US15/207,239 2016-07-11
PCT/US2017/012726 WO2017155602A1 (en) 2016-03-11 2017-01-09 Systems and methods for normalizing an image

Publications (2)

Publication Number Publication Date
CN108780508A true CN108780508A (zh) 2018-11-09
CN108780508B CN108780508B (zh) 2023-04-04

Family

ID=59786791

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201780015949.0A Active CN108780508B (zh) 2016-03-11 2017-01-09 用于归一化图像的系统和方法

Country Status (4)

Country Link
US (1) US10325351B2 (zh)
EP (1) EP3427186A1 (zh)
CN (1) CN108780508B (zh)
WO (1) WO2017155602A1 (zh)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109961102A (zh) * 2019-03-30 2019-07-02 北京市商汤科技开发有限公司 图像处理方法、装置、电子设备及存储介质
CN111444825A (zh) * 2020-03-25 2020-07-24 四川长虹电器股份有限公司 一种利用直方图判断图像场景的方法
WO2020155712A1 (zh) * 2019-01-29 2020-08-06 深圳市商汤科技有限公司 图像处理方法、装置、计算机设备和计算机存储介质
CN112417451A (zh) * 2020-11-20 2021-02-26 复旦大学 适配智能芯片分级架构的基于深度学习的恶意软件检测方法
CN113256553A (zh) * 2020-02-07 2021-08-13 通用电气精准医疗有限责任公司 用于使用深层神经网络一致地呈现医学图像的系统和方法

Families Citing this family (49)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP3076337B1 (en) * 2015-03-31 2020-01-08 ChannelSight Limited Method and system for product recognition
US9830526B1 (en) * 2016-05-26 2017-11-28 Adobe Systems Incorporated Generating image features based on robust feature-learning
US10402628B2 (en) 2016-10-10 2019-09-03 Gyrfalcon Technology Inc. Image classification systems based on CNN based IC and light-weight classifier
US10366328B2 (en) 2017-09-19 2019-07-30 Gyrfalcon Technology Inc. Approximating fully-connected layers with multiple arrays of 3x3 convolutional filter kernels in a CNN based integrated circuit
US10043095B2 (en) * 2016-10-10 2018-08-07 Gyrfalcon Technology, Inc. Data structure for CNN based digital integrated circuit for extracting features out of an input image
US10339445B2 (en) 2016-10-10 2019-07-02 Gyrfalcon Technology Inc. Implementation of ResNet in a CNN based digital integrated circuit
US10366302B2 (en) 2016-10-10 2019-07-30 Gyrfalcon Technology Inc. Hierarchical category classification scheme using multiple sets of fully-connected networks with a CNN based integrated circuit as feature extractor
US9940534B1 (en) * 2016-10-10 2018-04-10 Gyrfalcon Technology, Inc. Digital integrated circuit for extracting features out of an input image based on cellular neural networks
US10360470B2 (en) 2016-10-10 2019-07-23 Gyrfalcon Technology Inc. Implementation of MobileNet in a CNN based digital integrated circuit
US10318827B2 (en) * 2016-12-19 2019-06-11 Waymo Llc Object detection neural networks
CN107491771A (zh) * 2017-09-21 2017-12-19 百度在线网络技术(北京)有限公司 人脸检测方法和装置
CN107862377A (zh) * 2017-11-14 2018-03-30 华南理工大学 一种基于文本‑图像生成对抗网络模型的分组卷积方法
JP7004145B2 (ja) * 2017-11-15 2022-01-21 オムロン株式会社 欠陥検査装置、欠陥検査方法、及びそのプログラム
US10579908B2 (en) * 2017-12-15 2020-03-03 Google Llc Machine-learning based technique for fast image enhancement
DE102018201914A1 (de) * 2018-02-07 2019-08-08 Robert Bosch Gmbh Verfahren zum Anlernen eines Modells zur Personen-Wiedererkennung unter Verwendung von Bildern einer Kamera und Verfahren zum Erkennen von Personen aus einem angelernten Modell zur Personen-Wiedererkennung durch eine zweite Kamera eines Kameranetzwerkes
CN108510485B (zh) * 2018-03-27 2022-04-05 福州大学 一种基于卷积神经网络的无参照图像质量评估方法
CN108549862A (zh) * 2018-04-11 2018-09-18 北京航空航天大学 异常场景检测方法及装置
CN108648163A (zh) * 2018-05-17 2018-10-12 厦门美图之家科技有限公司 一种人脸图像的增强方法及计算设备
KR102562052B1 (ko) * 2018-05-29 2023-08-02 삼성전자주식회사 전자 장치 및 그 제어 방법
US10997947B2 (en) * 2018-05-29 2021-05-04 Samsung Electronics Co., Ltd. Electronic device and control method thereof
US10417342B1 (en) 2018-07-03 2019-09-17 Gyrfalcon Technology Inc. Deep learning device for local processing classical chinese poetry and verse
WO2020013075A1 (ja) * 2018-07-12 2020-01-16 ソニー株式会社 積和演算システム及び積和演算方法
US11820289B2 (en) * 2018-07-31 2023-11-21 Sony Semiconductor Solutions Corporation Solid-state imaging device and electronic device
WO2020027233A1 (ja) 2018-07-31 2020-02-06 ソニーセミコンダクタソリューションズ株式会社 撮像装置及び車両制御システム
US10311149B1 (en) 2018-08-08 2019-06-04 Gyrfalcon Technology Inc. Natural language translation device
WO2020068158A1 (en) * 2018-09-24 2020-04-02 Google Llc Photo relighting using deep neural networks and confidence learning
US10387772B1 (en) 2018-10-22 2019-08-20 Gyrfalcon Technology Inc. Ensemble learning based image classification systems
CA3117946A1 (en) * 2018-11-07 2020-05-14 Spectrum Optix Inc. Bright spot removal using a neural network
US11011257B2 (en) * 2018-11-21 2021-05-18 Enlitic, Inc. Multi-label heat map display system
CN109685772B (zh) * 2018-12-10 2022-06-14 福州大学 一种基于配准失真表示的无参照立体图像质量评估方法
CN109859212B (zh) * 2019-01-16 2020-12-04 中国计量大学 一种无人机航拍图像大豆作物行分割方法
WO2020149897A1 (en) 2019-01-17 2020-07-23 Visa International Service Association A deep learning model for learning program embeddings
CN109829501B (zh) * 2019-02-01 2021-02-19 北京市商汤科技开发有限公司 图像处理方法及装置、电子设备和存储介质
US10949649B2 (en) * 2019-02-22 2021-03-16 Image Metrics, Ltd. Real-time tracking of facial features in unconstrained video
US11216953B2 (en) 2019-03-26 2022-01-04 Samsung Electronics Co., Ltd. Apparatus and method for image region detection of object based on seed regions and region growing
KR102082970B1 (ko) 2019-04-29 2020-02-28 주식회사 루닛 기계학습을 위한 정규화 방법 및 그 장치
CN110334387B (zh) * 2019-05-09 2022-11-25 重庆大学 一种基于bp神经网络算法的室内光照预估方法
CN112183551A (zh) * 2019-07-02 2021-01-05 佳能株式会社 光照颜色预测方法、图像处理方法、装置及存储介质
CN110348632A (zh) * 2019-07-11 2019-10-18 广东电网有限责任公司 一种基于奇异谱分析和深度学习的风电功率预测方法
EP3806077A1 (en) * 2019-10-08 2021-04-14 Karlsruher Institut für Technologie Perceptually improved color display in image sequences on physical displays
US11983853B1 (en) 2019-10-31 2024-05-14 Meta Plattforms, Inc. Techniques for generating training data for machine learning enabled image enhancement
CN110955259B (zh) * 2019-11-28 2023-08-29 上海歌尔泰克机器人有限公司 无人机及其跟踪方法和计算机可读存储介质
CN110864692A (zh) * 2019-11-29 2020-03-06 北京龙田华远科技有限公司 掘进机的位姿确定方法
CN111064904A (zh) * 2019-12-26 2020-04-24 深圳深知未来智能有限公司 一种暗光图像增强方法
CN111199513B (zh) * 2019-12-30 2024-03-26 上海联影智能医疗科技有限公司 图像处理方法、计算机设备和存储介质
CN111626350B (zh) * 2020-05-25 2021-05-18 腾讯科技(深圳)有限公司 目标检测模型训练方法、目标检测方法及装置
US11423265B1 (en) 2020-06-30 2022-08-23 Amazon Technologies, Inc. Content moderation using object detection and image classification
CN112862073B (zh) * 2021-02-03 2022-11-18 北京大学 一种压缩数据分析方法、装置、存储介质及终端
US20230206613A1 (en) * 2021-12-23 2023-06-29 Qualcomm Incorporated Apparatus and methods for object detection using machine learning processes

Citations (22)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20060170980A1 (en) * 2005-02-03 2006-08-03 Chang Ti-Chiun System and method for efficient filter design through weighted difference of Gaussian filters
US20070297652A1 (en) * 2006-05-29 2007-12-27 Kabushiki Kaisha Toshiba Face recognition apparatus and face recognition method
US20090003726A1 (en) * 2007-06-27 2009-01-01 Sungkyunkwan University Foundation For Corporate Collaboration Illumination normalizing method and apparatus
US20090046947A1 (en) * 2007-08-15 2009-02-19 Seiko Epson Corporation Image processing apparatus and image processing method
CN101697232A (zh) * 2009-09-18 2010-04-21 浙江大学 面向近重复图像匹配的sift特征裁减方法
US20110170780A1 (en) * 2010-01-08 2011-07-14 Qualcomm Incorporated Scale space normalization technique for improved feature detection in uniform and non-uniform illumination changes
CN102332167A (zh) * 2011-10-09 2012-01-25 江苏大学 一种智能交通监控中车辆和行人的目标检测方法
US20120308124A1 (en) * 2011-06-02 2012-12-06 Kriegman-Belhumeur Vision Technologies, Llc Method and System For Localizing Parts of an Object in an Image For Computer Vision Applications
CN102867176A (zh) * 2012-09-11 2013-01-09 清华大学深圳研究生院 一种人脸图像归一化方法
US20130034263A1 (en) * 2011-08-04 2013-02-07 Yuanyuan Ding Adaptive Threshold for Object Detection
CN103106644A (zh) * 2013-02-02 2013-05-15 南京理工大学 克服彩色图像非均匀光照的自适应画质增强方法
CN103400351A (zh) * 2013-07-30 2013-11-20 武汉大学 基于kinect深度图的低光照图像增强方法及系统
CN103400114A (zh) * 2013-07-18 2013-11-20 上海交通大学 针对人脸识别的光照归一化处理系统
CN103679157A (zh) * 2013-12-31 2014-03-26 电子科技大学 一种基于视网膜模型的人脸图像光照处理方法
CN103870820A (zh) * 2014-04-04 2014-06-18 南京工程学院 极端光照人脸识别的光照归一化方法
CN103996178A (zh) * 2014-05-30 2014-08-20 天津大学 一种沙尘天气彩色图像增强方法
US20140376819A1 (en) * 2013-06-21 2014-12-25 Microsoft Corporation Image recognition by image search
CN104463806A (zh) * 2014-12-19 2015-03-25 南京理工大学 基于数据驱动技术的高度自适应图像对比度增强方法
CN104637064A (zh) * 2015-02-28 2015-05-20 中国科学院光电技术研究所 一种基于边缘强度权重的离焦模糊图像清晰度检测方法
CN104952044A (zh) * 2014-03-28 2015-09-30 上海联影医疗科技有限公司 一种乳腺x线图像的增强方法
CN105160667A (zh) * 2015-08-26 2015-12-16 西安交通大学 联合梯度和拉普拉斯-高斯信号的盲图像质量评价方法
CN105243139A (zh) * 2015-10-10 2016-01-13 天津大学 一种基于深度学习的三维模型检索方法及其检索装置

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP4764273B2 (ja) 2006-06-30 2011-08-31 キヤノン株式会社 画像処理装置、画像処理方法、プログラム、記憶媒体
US8463025B2 (en) 2011-04-26 2013-06-11 Nec Laboratories America, Inc. Distributed artificial intelligence services on a cell phone
US10769191B2 (en) 2013-12-20 2020-09-08 Google Llc Classifying data objects
US9536293B2 (en) 2014-07-30 2017-01-03 Adobe Systems Incorporated Image assessment using deep convolutional neural networks

Patent Citations (23)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20060170980A1 (en) * 2005-02-03 2006-08-03 Chang Ti-Chiun System and method for efficient filter design through weighted difference of Gaussian filters
US20070297652A1 (en) * 2006-05-29 2007-12-27 Kabushiki Kaisha Toshiba Face recognition apparatus and face recognition method
US20090003726A1 (en) * 2007-06-27 2009-01-01 Sungkyunkwan University Foundation For Corporate Collaboration Illumination normalizing method and apparatus
US20090046947A1 (en) * 2007-08-15 2009-02-19 Seiko Epson Corporation Image processing apparatus and image processing method
CN101697232A (zh) * 2009-09-18 2010-04-21 浙江大学 面向近重复图像匹配的sift特征裁减方法
US20110170780A1 (en) * 2010-01-08 2011-07-14 Qualcomm Incorporated Scale space normalization technique for improved feature detection in uniform and non-uniform illumination changes
CN102713938A (zh) * 2010-01-08 2012-10-03 高通股份有限公司 用于均匀和非均匀照明变化中的改善的特征检测的尺度空间正规化技术
US20120308124A1 (en) * 2011-06-02 2012-12-06 Kriegman-Belhumeur Vision Technologies, Llc Method and System For Localizing Parts of an Object in an Image For Computer Vision Applications
US20130034263A1 (en) * 2011-08-04 2013-02-07 Yuanyuan Ding Adaptive Threshold for Object Detection
CN102332167A (zh) * 2011-10-09 2012-01-25 江苏大学 一种智能交通监控中车辆和行人的目标检测方法
CN102867176A (zh) * 2012-09-11 2013-01-09 清华大学深圳研究生院 一种人脸图像归一化方法
CN103106644A (zh) * 2013-02-02 2013-05-15 南京理工大学 克服彩色图像非均匀光照的自适应画质增强方法
US20140376819A1 (en) * 2013-06-21 2014-12-25 Microsoft Corporation Image recognition by image search
CN103400114A (zh) * 2013-07-18 2013-11-20 上海交通大学 针对人脸识别的光照归一化处理系统
CN103400351A (zh) * 2013-07-30 2013-11-20 武汉大学 基于kinect深度图的低光照图像增强方法及系统
CN103679157A (zh) * 2013-12-31 2014-03-26 电子科技大学 一种基于视网膜模型的人脸图像光照处理方法
CN104952044A (zh) * 2014-03-28 2015-09-30 上海联影医疗科技有限公司 一种乳腺x线图像的增强方法
CN103870820A (zh) * 2014-04-04 2014-06-18 南京工程学院 极端光照人脸识别的光照归一化方法
CN103996178A (zh) * 2014-05-30 2014-08-20 天津大学 一种沙尘天气彩色图像增强方法
CN104463806A (zh) * 2014-12-19 2015-03-25 南京理工大学 基于数据驱动技术的高度自适应图像对比度增强方法
CN104637064A (zh) * 2015-02-28 2015-05-20 中国科学院光电技术研究所 一种基于边缘强度权重的离焦模糊图像清晰度检测方法
CN105160667A (zh) * 2015-08-26 2015-12-16 西安交通大学 联合梯度和拉普拉斯-高斯信号的盲图像质量评价方法
CN105243139A (zh) * 2015-10-10 2016-01-13 天津大学 一种基于深度学习的三维模型检索方法及其检索装置

Non-Patent Citations (13)

* Cited by examiner, † Cited by third party
Title
J. PILET 等: "Retexturing in the presence of complex illumination and occlusions", 《2007 6TH IEEE AND ACM INTERNATIONAL SYMPOSIUM ON MIXED AND AUGMENTED REALITY》 *
K. YADHUL 等: "Face detection and recognition with video database", 《2014 INTERNATIONAL CONFERENCE ON ELECTRONICS AND COMMUNICATION SYSTEMS (ICECS)》 *
R. S. VADDI 等: "Comparative analysis of contrast enhancement techniques between Histogram Equalization and CNN", 《2011 THIRD INTERNATIONAL CONFERENCE ON ADVANCED COMPUTING》 *
S. BIANCO 等: "Color constancy using CNNs", 《2015 IEEE CONFERENCE ON COMPUTER VISION AND PATTERN RECOGNITION WORKSHOPS (CVPRW)》 *
W.J.H. VELDKAMP 等: "Normalization of local contrast in mammograms", 《IEEE TRANSACTIONS ON MEDICAL IMAGING》 *
XIAOLONG WANG 等: "Deep Joint Task Learning for Generic Object Extraction", 《ARXIV》 *
YEOREUM CHOI 等: "Two-step Learning of Deep Convolutional Neural Network for Discriminative Face Recognition under Varying Illumination", 《ELECTRONIC IMAGING: IMAGING AND MULTIMEDIA ANALYTICS IN A WEB AND MOBILE WORLD》 *
余玛俐: "高灰度级图像的生成及多曝光融合技术研究", 《中国博士学位论文全文数据库 信息科技辑》 *
林斌: "典型地物红外波谱特性分析及红外图像预处理研究", 《中国优秀博硕士学位论文全文数据库(硕士)信息科技辑》 *
王小鹏等: "一种改进的Retinex彩色图像增强方法", 《兰州交通大学学报》 *
窦易文 等: "基于神经网络的低照度真彩色图像增强", 《计算机工程与设计》 *
谭海曙等: "基于神经网络的图像亮度和对比度自适应增强", 《光电子.激光》 *
路学安: "光照不均匀车牌图像直方图均衡化增强算法研究", 《中国优秀博硕士学位论文全文数据库(硕士)信息科技辑》 *

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2020155712A1 (zh) * 2019-01-29 2020-08-06 深圳市商汤科技有限公司 图像处理方法、装置、计算机设备和计算机存储介质
CN109961102A (zh) * 2019-03-30 2019-07-02 北京市商汤科技开发有限公司 图像处理方法、装置、电子设备及存储介质
WO2020199619A1 (zh) * 2019-03-30 2020-10-08 北京市商汤科技开发有限公司 图像处理方法、装置、电子设备及存储介质
KR20200143450A (ko) * 2019-03-30 2020-12-23 베이징 센스타임 테크놀로지 디벨롭먼트 컴퍼니 리미티드 화상 처리 방법, 장치, 전자 장치 및 저장 매체
KR102428054B1 (ko) * 2019-03-30 2022-08-01 베이징 센스타임 테크놀로지 디벨롭먼트 컴퍼니 리미티드 화상 처리 방법, 장치, 전자 장치 및 저장 매체
CN113256553A (zh) * 2020-02-07 2021-08-13 通用电气精准医疗有限责任公司 用于使用深层神经网络一致地呈现医学图像的系统和方法
CN111444825A (zh) * 2020-03-25 2020-07-24 四川长虹电器股份有限公司 一种利用直方图判断图像场景的方法
CN112417451A (zh) * 2020-11-20 2021-02-26 复旦大学 适配智能芯片分级架构的基于深度学习的恶意软件检测方法
CN112417451B (zh) * 2020-11-20 2022-04-12 复旦大学 适配智能芯片分级架构的基于深度学习的恶意软件检测方法

Also Published As

Publication number Publication date
US10325351B2 (en) 2019-06-18
CN108780508B (zh) 2023-04-04
WO2017155602A1 (en) 2017-09-14
US20170262962A1 (en) 2017-09-14
EP3427186A1 (en) 2019-01-16

Similar Documents

Publication Publication Date Title
CN108780508A (zh) 用于归一化图像的系统和方法
CN109584248B (zh) 基于特征融合和稠密连接网络的红外面目标实例分割方法
CN107330453B (zh) 基于分步识别和融合关键部位检测的色情图像识别方法
WO2021164234A1 (zh) 图像处理方法以及图像处理装置
CN111767882A (zh) 一种基于改进yolo模型的多模态行人检测方法
CN106897673B (zh) 一种基于retinex算法和卷积神经网络的行人再识别方法
CN109684922B (zh) 一种基于卷积神经网络的多模型对成品菜的识别方法
US10388009B2 (en) Machine-learning measurements of quantitative feature attributes
CN108052881A (zh) 一种实时检测施工现场图像中多类实体对象的方法及设备
CN109753878B (zh) 一种恶劣天气下的成像识别方法及系统
CN110059728B (zh) 基于注意力模型的rgb-d图像视觉显著性检测方法
CN111291809A (zh) 一种处理装置、方法及存储介质
US10803571B2 (en) Data-analysis pipeline with visual performance feedback
CN113191489B (zh) 二值神经网络模型的训练方法、图像处理方法和装置
CN110717953A (zh) 基于cnn-lstm组合模型的黑白图片的着色方法和系统
CN111340019A (zh) 基于Faster R-CNN的粮仓害虫检测方法
CN109919246A (zh) 基于自适应特征聚类和多重损失融合的行人重识别方法
CN111488766A (zh) 目标检测方法和装置
AU2017208235A1 (en) Relative position encoding based networks for action recognition
CN113743426A (zh) 一种训练方法、装置、设备以及计算机可读存储介质
CN113627504B (zh) 基于生成对抗网络的多模态多尺度特征融合目标检测方法
Sardeshmukh et al. Crop image classification using convolutional neural network
Sivaraman et al. Object recognition under lighting variations using pre-trained networks
CN110738194A (zh) 一种基于点云有序编码的三维物体识别方法
CN111046861B (zh) 识别红外影像的方法、构建识别模型的方法及应用

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant