CN110352429B - 用于对象的判别定位的机器视觉系统 - Google Patents

用于对象的判别定位的机器视觉系统 Download PDF

Info

Publication number
CN110352429B
CN110352429B CN201880015274.4A CN201880015274A CN110352429B CN 110352429 B CN110352429 B CN 110352429B CN 201880015274 A CN201880015274 A CN 201880015274A CN 110352429 B CN110352429 B CN 110352429B
Authority
CN
China
Prior art keywords
image
layer network
computer
layers
features
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201880015274.4A
Other languages
English (en)
Other versions
CN110352429A (zh
Inventor
S·科洛瑞
C·E·马丁
H·霍夫曼
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
HRL Laboratories LLC
Original Assignee
HRL Laboratories LLC
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by HRL Laboratories LLC filed Critical HRL Laboratories LLC
Publication of CN110352429A publication Critical patent/CN110352429A/zh
Application granted granted Critical
Publication of CN110352429B publication Critical patent/CN110352429B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • BPERFORMING OPERATIONS; TRANSPORTING
    • B25HAND TOOLS; PORTABLE POWER-DRIVEN TOOLS; MANIPULATORS
    • B25JMANIPULATORS; CHAMBERS PROVIDED WITH MANIPULATION DEVICES
    • B25J9/00Programme-controlled manipulators
    • B25J9/02Programme-controlled manipulators characterised by movement of the arms, e.g. cartesian coordinate type
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2413Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on distances to training or reference patterns
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N5/00Computing arrangements using knowledge-based models
    • G06N5/04Inference or reasoning models
    • G06N5/046Forward inferencing; Production systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/255Detecting or recognising potential candidate objects based on visual cues, e.g. shapes
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/44Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components
    • G06V10/443Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components by matching or filtering
    • G06V10/449Biologically inspired filters, e.g. difference of Gaussians [DoG] or Gabor filters
    • G06V10/451Biologically inspired filters, e.g. difference of Gaussians [DoG] or Gabor filters with interaction between the filter responses, e.g. cortical complex cells
    • G06V10/454Integrating the filters into a hierarchical structure, e.g. convolutional neural networks [CNN]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/764Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Evolutionary Computation (AREA)
  • General Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Data Mining & Analysis (AREA)
  • Computing Systems (AREA)
  • Software Systems (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Multimedia (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • General Engineering & Computer Science (AREA)
  • Molecular Biology (AREA)
  • Biomedical Technology (AREA)
  • Mathematical Physics (AREA)
  • Computational Linguistics (AREA)
  • Biophysics (AREA)
  • Medical Informatics (AREA)
  • Databases & Information Systems (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • Biodiversity & Conservation Biology (AREA)
  • Robotics (AREA)
  • Mechanical Engineering (AREA)
  • Image Analysis (AREA)
  • Manipulator (AREA)

Abstract

描述了一种用于对象的判别定位的系统。在操作期间,所述系统使一个或更多个处理器执行使用多层网络来识别图像中的对象的操作。从所述多层网络中的两层或更多层的激活来获得所述对象的特征。然后,将所述图像分类为包含一个或更多个对象类,并且对期望的对象类进行定位。然后,能够基于所述图像中的所述对象的定位来控制装置。例如,能够控制机械臂达到所述对象。

Description

用于对象的判别定位的机器视觉系统
相关申请的交叉引用
本申请要求2017年4月20日提交的美国临时申请No.62/487,824的权益并且作为其非临时专利申请,该美国临时申请的全部内容通过引用并入于此。
技术领域
本发明涉及对象识别系统,并且更具体地,涉及用于对对象进行判别定位(discriminant localization)的机器视觉系统。
背景技术
对象定位和检测是在视频影像内识别对象的处理。近来,许多应用(例如,军事等)要求机器视觉系统不仅要对来自相机输入图像的对象进行分类,而且要对所述对象进行定位。已经设计出多种技术来对这样的对象进行定位。例如,现有技术通过基于区域的卷积神经网络(R-CNN)来实现定位(参见所并入的参考文献的列表,参考文献No.2)及其更快变型(参见参考文献No.3)。简单地说,这些方法首先从输入相机图像中提取大量图像区域(即,图块)并对这些图块进行分类。这样的现有技术方法继而使用边框回归来最终定位对象。尽管R-CNN表现为最准确的,但由于它们需要1)大量区域分类以及2)边框回归,因此它们的计算成本仍然很高。
对象定位的经典方法通常利用滑动窗口检测器、早期的面部检测器(参见参考文献No.5)以及行人检测器(参见参考文献No.6)。最近并且如上所述,一些研究人员(参见参考文献No.2和No.3)提出了如下方法:首先计算大量潜在交叠图像区域(其中每个区域潜在地是对象候选),然后将这些区域分类到多个对象类别,最后使用区域回归算法来在图像中定位对象。
另选地,Zhou等人(参见参考文献No.4)使用全局平均池化来对卷积激活模式进行建模以识别所定位的对象。他们的方法提出了在对象的判别定位方面的新范例,因为该方法只需要一步解决方案,这在计算方面是高效的。然而,因为该方法只分析网络的最后一个卷积层,而最后一个卷积层不包含高分辨率的空间信息,所以他们的方法的定位分辨率很低。
因此,仍然需要一种用于实现对象的空间准确定位的在计算方面高效的方法。
发明内容
本公开提供了一种用于对对象进行判别定位的系统。在操作期间,所述系统使一个或更多个处理器执行使用多层网络来识别图像中的对象的操作。从所述多层网络中的两层或更多层的激活来获得所述对象的特征。然后,将所述图像分类为包含一个或更多个对象类,并且对期望的对象类进行定位。然后,可以基于所述对象在所述图像中的定位来控制装置。例如,可以控制机械臂达到(reach for)所述对象。
在另一方面,在所述图像中定位所述对象还包括生成热图(heatmap)的操作,所述热图指示所述对象的存在。
在另一方面,所述多层网络是卷积神经网络(CNN)。
在又一方面,所述对象是使用来自所述CNN的所有层的特征的总体平均池化来分类的。
另外,所述对象是基于来自所述CNN的上采样响应的线性组合来定位的。
最后,本发明还包括一种计算机程序产品和计算机实现方法。所述计算机程序产品包括在非暂时性计算机可读介质上存储的计算机可读指令,所述计算机可读指令可通过具有一个或更多个处理器的计算机执行,使得在执行所述指令时,所述一个或更多个处理器执行本文列出的操作。另选地,所述计算机实现方法包括使计算机执行这种指令并且执行所得操作的行为。
附图说明
本专利或申请文件包含至少一幅附图。
结合附图,本发明的目的、特征以及优点将从以下详细描述变得显而易见,其中:
图1是示出根据本发明的各个实施方式的系统的组件的框图;
图2是具体实施本发明的一个方面的计算机程序产品的示图;
图3是示出根据本发明的各个实施方式的处理流的流程图;
图4是示出本发明的测试结果与现有技术的测试结果的比较的示图;
图5是示出根据各个实施方式的装置的控制的框图;以及
图6是示出根据各个实施方式的训练处理流的流程图。
具体实施方式
本发明涉及对象识别系统,并且更具体地,涉及用于对对象进行判别定位的机器视觉系统。呈现以下描述以使本领域普通技术人员能够作出和使用本发明并将其结合到特定应用的背景中。多种修改以及不同应用场合中的多种用途对于本领域技术人员来说是显而易见的,并且这里限定的总体构思可以应用于广泛方面。因此,本发明不应限于所呈现的方面,而是涵盖与本文所公开的构思和新颖特征相一致的最广范围。
在下面的详细说明中,阐述了许多具体细节,以使得能够更加彻底地理解本发明。然而,本领域技术人员应当明白,本发明可以在不限于这些具体细节的情况下来实施。在其它情况下,公知结构和装置按框图形式示出而不被详细示出,以免模糊本发明。
读者应留意与本说明书同时提交的所有文件和文档,这些文件和文档与本说明书一起公开以供公众查阅,所有这些文件和文档的内容通过引用并入于此。本说明书(包括任何所附权利要求、摘要以及附图)中公开的所有特征可以由用于相同、等同或相似目的的替代特征来代替,除非另有明确说明。因此,除非另有明确说明,否则所公开的每个特征仅仅是典型系列的等同或相似特征的一个示例。
此外,权利要求中的未明确陈述用于执行指定功能的“装置”或用于执行特定功能的“步骤”的任何要素不被解释为在35 U.S.C.第112节第6款中指定的“装置”或“步骤”条款。具体地,在本文的权利要求中使用“…的步骤”或“…的动作”不旨在援引35 U.S.C.第112节第6款的规定。
在详细描述本发明之前,首先提供了引用参考文献的列表。接下来,提供了对本发明各个主要方面的说明。随后,向读者介绍本发明的一般理解。最后,提供本发明的各个实施方式的具体细节,以使得给出具体方面的理解。
(1)所并入的参考文献的列表
在本申请中引用以下参考文献。为了清楚和方便起见,这些参考文献在此被列为读者的中心资源。下列参考文献通过引用并入于此,就像在此完全陈述一样。这些参考文献通过参照如下对应文献参考号而在本申请中加以引用:
1.Simonyan,Karen,and Andrew Zisserman″Very deep convolutionalnetworks for large-scale image recognition.″arXiv preprint arXiv:1409.1556(2014).
2.Girshick,Ross,et al.″Region-based convolutional networks foraccurate object detection and segmentation.″IEEE transactions on patternanalysis and machine intelligence 38.1(2016):142-158.
3.Ren,Shaoqing,et al″Faster R-CNN:Towards real-time object detectionwith region proposal networks.″Advancesin nenral information processingsystems.2015.
4.Zhou,Bolei,et al.″Learning Deep Features for DiscriminativeLocalization.″In Proceedings of the IEEE Conference on Computer Vision andPattern Recognition,pp.819-826.2016.
5.Vaillant,Régis,Christophe Monrocq,and Yann Le Cun.″Originalapproach for the localization of objects in images.″IEE Proceedings-Vision,Image and Signal Processing 141.4(1994):245-250.
6.Dalal,Navneet,and Bill Triggs.″Histograms of oriented gradients forhuman detection.″In 2005IEEE Computer Society Conference on Computer Visionannd Pattern Recognition(CVPR′05),vol.1,pp.886-893.IEEE,2005.
(2)主要方面
本发明的各个实施方式包括三个“主要”方面。第一方面是用于对对象进行判别定位的系统。该系统通常采用计算机系统操作软件的形式或采用“硬编码”指令集的形式。该系统可以结合到提供不同功能的各种各样的装置中。第二主要方面是利用数据处理系统(计算机)运行的通常采用软件形式的方法。第三主要方面是计算机程序产品。所述计算机程序产品通常表示存储在诸如光学存储装置(例如,光盘(CD)或数字通用盘(DVD))或磁存储装置(诸如,软盘或磁带)的非暂时性计算机可读介质上的计算机可读指令。计算机可读介质的其它非限制性示例包括硬盘、只读存储器(ROM)以及闪存型存储器。这些方面将在下文进行更详细的说明。
图1提供了示出本发明的系统(即,计算机系统100)的示例的框图。计算机系统100被配置成执行与程序或算法相关联的计算、处理、操作和/或功能。在一个方面中,本文讨论的某些处理和步骤被实现为存在于计算机可读存储器单元内并由计算机系统100的一个或更多个处理器执行的一系列指令(例如,软件程序)。在执行时,这些指令使计算机系统100执行特定动作并呈现特定行为,诸如本文所描述的。
计算机系统100可以包括被配置成传送信息的地址/数据总线102。另外,一个或更多个数据处理单元(诸如处理器104(或多个处理器))与地址/数据总线102联接。处理器104被配置成处理信息和指令。在一个方面中,处理器104是微处理器。另选地,处理器104可以是不同类型的处理器,诸如并行处理器、专用集成电路(ASIC)、可编程逻辑阵列(PLA)、复杂可编程逻辑器件(CPLD)或现场可编程门阵列(FPGA)。
计算机系统100被配置成利用一个或更多个数据存储单元。计算机系统100可以包括与地址/数据总线102联接的易失性存储器单元106(例如,随机存取存储器(“RAM”)、静态RAM、动态RAM等),其中,易失性存储器单元106被配置成存储用于处理器104的信息和指令。计算机系统100还可以包括与地址/数据总线102联接的非易失性存储器单元108(例如,只读存储器(“ROM”)、可编程ROM(“PROM”)、可擦除可编程ROM(“EPROM”)、电可擦除可编程ROM(“EEPROM”)、闪存等),其中,非易失性存储器单元108被配置成存储用于处理器104的静态信息和指令。另选地,计算机系统100可以执行诸如在“云”计算中从在线数据存储单元取回的指令。在一个方面中,计算机系统100还可以包括与地址/数据总线102联接的一个或更多个接口(诸如接口110)。所述一个或更多个接口被配置成使得计算机系统100能够与其它电子装置和计算机系统对接。由所述一个或更多个接口实现的通信接口可以包括有线通信技术(例如,串行电缆、调制解调器、网络适配器等)和/或无线通信技术(例如,无线调制解调器、无线网络适配器等)。
在一个方面中,计算机系统100可以包括与地址/数据总线102联接的输入装置112,其中,输入装置112被配置成将信息和命令选择传送至处理器100。根据一个方面,输入装置112是可以包括字母数字键和/或功能键的字母数字输入装置(诸如键盘)。另选地,输入装置112可以是除字母数字输入装置之外的输入装置。在一个方面中,计算机系统100可以包括与地址/数据总线102联接的光标控制装置114,其中,光标控制装置114被配置成将用户输入信息和/或命令选择传送至处理器100。在一个方面中,光标控制装置114利用诸如鼠标、轨迹球、触控板、光学跟踪装置或触摸屏的装置来实现。尽管如此,但在一个方面中,诸如响应于使用与输入装置112相关联的特殊键和键序列命令,光标控制装置114通过来自输入装置112的输入被引导和/或激活。在另选方面中,光标控制装置114被配置成由语音命令来引导或指导。
在一个方面中,计算机系统100还可以包括与地址/数据总线102联接的一个或更多个可选计算机可用数据存储装置(诸如存储装置116)。存储装置116被配置成存储信息和/或计算机可执行指令。在一个方面中,存储装置116是诸如磁或光盘驱动器(例如,硬盘驱动器(“HDD”)、软盘、光盘只读存储器(“CD-ROM”)、数字通用盘(“DVD”))的存储装置。依据一个方面,显示装置118与地址/数据总线102联接,其中,显示装置118被配置成显示视频和/或图形。在一个方面中,显示装置118可以包括阴极射线管(“CRT”)、液晶显示器(“LCD”)、场发射显示器(“FED”)、等离子体显示器或适于显示视频和/或图形图像以及用户可识别的字母数字字符的任何其它显示装置。
本文所提出的计算机系统100是根据一个方面的示例计算环境。然而,计算机系统100的非限制性示例并不严格限于是计算机系统。例如,一个方面规定了计算机系统100表示可以根据本文所述各个方面使用的一种数据处理分析。此外,还可以实现其它计算系统。实际上,本技术的精神和范围不限于任何单个数据处理环境。因此,在一个方面中,使用通过计算机执行的计算机可执行指令(例如,程序模块)来控制或实现本技术的各个方面的一个或更多个操作。在一个实现中,这样的程序模块包括被配置成执行特定任务或实现特定抽象数据类型的例程、程序、对象、组件和/或数据结构。另外,一个方面规定了通过利用一个或更多个分布式计算环境来实现本技术的一个或更多个方面,诸如,在分布式计算环境中,由通过通信网络链接的远程处理装置执行任务,或者诸如,在分布式计算环境中,各种程序模块位于包括存储器-存储装置的本地和远程计算机存储介质中。
图2中示出了实施本发明的计算机程序产品(即,存储装置)的示图。计算机程序产品被描绘为软盘200或诸如CD或DVD的光盘202。然而,如先前提到的,计算机程序产品通常表示存储在任何兼容的非暂时性计算机可读介质上的计算机可读指令。如关于本发明所使用的术语“指令”通常指示要在计算机上执行的一组操作,并且可以表示整个程序的片段或者单个可分离的软件模块。“指令”的非限制性示例包括计算机程序代码(源或目标代码)和“硬编码”电子器件(即,编码到计算机芯片中的计算机操作)。“指令”被存储在任何非暂时性计算机可读介质上,诸如存储在计算机的存储器中或软盘、CD-ROM以及闪存驱动器上。在任一种情况下,这些指令被编码在非暂时性计算机可读介质上。
(3)介绍
本公开提供了一种能够对来自诸如相机图像的影像的对象进行判别并定位的机器视觉系统。对象的判别定位使得用户能够在给出相机输入数据的情况下理解复杂机器视觉系统的决定。该系统使用与从卷积神经网络的所有层的总体平均池化(GAP)(参见论述GAP的参考文献No.4)相结合的卷积神经网络(CNN)(诸如在参考文献No.1中描述的CNN)来对对象进行分类,并且更重要的是对对象进行定位。本文所描述的系统的一个重要方面是,该系统使操作员能够识别网络出错以及对相机图像中的对象进行错误分类的原因。此外,本公开的系统在计算方面是高效的并且能够一步实现定位,因此比现有技术快多个数量级。
能够对对象进行检测并定位的快速且可靠的机器视觉系统是许多应用的关键要求。例如,相机数据的处理在任何自主驾驶系统中都被认为是必不可少的。此外,可以在自主无人机或相机监视以及期望或需要进行对象定位的其它系统中实现这种机器视觉系统。下文提供进一步的细节。
(4)各个实施方式的具体细节
如图3中描绘的流程图所示,本公开的系统的一个关键方面是识别(经由特定类300的概率来检测)并定位(例如,经由定位热图302等)相机图像304或其它影像中的对象。例如,相机可以是电动的、光学的、红外(IR)的、短波IR的或类似的,以使输出是具有一个或更多个类似颜色通道的强度图像304。然后处理这些经一通道化或多通道化的强度图像304,以生成对象类的存在概率并在图像304中定位该对象类。
在操作期间,卷积神经网络(CNN)308对图像304执行特征提取,以生成一系列分层多分辨率神经响应。通过以下处理进一步并行分析所生成的CNN 308的神经响应:1)总体平均池化(GAP)306,其按空间坐标对神经响应求平均,并提供固定维度表示矢量;以及2)使用上采样算子314对神经响应进行上采样(即,对CNN 308中的最大池化算子进行计数),以匹配输入相机图像304的大小,从而获得具有与输入相机图像304相同大小的一系列神经响应。
图像304被分类以测试是否存在对象。组件306、组件308以及组件310对图像进行分类。来自CNN 308的所述层的响应的GAP特征表示306是线性对象分类器310的输入。线性对象分类器310的输出300是类成员在类中的概率。如果所述概率超过预定阈值(例如,大于70%的可能性),则将该对象设计为在特定类(例如,交通警察、汽车、狗等)中检测到的对象。另外,分类权重312是经学习的线性分类器310的参数。
分别地,组件314和组件316在图像304内定位对象类。对来自CNN 308的所述层的响应进行上采样,以创建上采样响应314的集合。将上采样响应314与分类权重312组合以生成上采样响应的线性组合316。通过关于分类权重312的加权平均(即,线性组合),将上采样响应314与分类权重312组合。上采样响应314的加权组合得到定位热图302。下面提供有关这些处理的进一步细节。具体地,下面提供对现有技术的描述,接着是根据本公开的用于判别定位的机器视觉系统的详细描述。
(4.1)经典CNN和现有技术
在经典或传统CNN中,使是CNN在深度d处的第i个卷积响应,并且使CNN具有深度D。丢弃CNN的全连接层,并且假设仅使用逻辑分类器,对象分类可以通过以下等式来完成:
其中,是类i的分类权重,m和n是卷积响应的空间索引,并且k是卷积核的索引。
Zhou等人(参见参考文献No.4)提出了将分类器的权重固定为仅是k的函数这种思想,从而将以上等式简化成:
这相当于在CNN的最后一层上具有总体平均池化层,并且将逻辑分类器应用于GAP特征。
然后,Zhou等人表明可以从这样的分类器提取如下对象定位热图ψ:
其中,h(.)是上采样函数,其反转了网络中的最大池化的效果。然而,限制是最后一层缺乏空间分辨率:卷积响应缺乏详细空间信息,因此重构的定位图是粗糙的。本公开的技术解决了该问题并提供了空间分辨定位。
(4.2)根据本公开的用于判别定位的机器视觉系统
根据本公开的用于判别定位的机器视觉系统通过利用来自CNN的所有层的GAP特征,扩展了Zhou等人提出的方法(参见参考文献No.4)。更精确地说,方法将分类器定义(并学习)为:
其中,md和nd是在层d的卷积响应的索引。应注意到,以上等式涉及贯穿d求和,因此该等式利用来自CNN的所有层的GAP特征。
按这种方式,根据以下等式生成定位热图302:
其中,hd(·)是将层d处的卷积响应上采样至原始输入图像大小所需的对应上采样函数。
(4.3)训练CNN
在各个实施方式中,期望训练CNN以进一步增强分类或定位。在训练期间并且如图6所示,系统的输入是输入相机图像600和对应地面实况标签602(例如,如由操作员提供的或预先指定的“交通警察”)。将CNN 308参数随机初始化并且将输入图像600前馈至CNN 308以获得分层神经响应。使用全局平均池化(GAP)来获得卷积层308的神经激活606的简洁表示。将GAP特征606馈送至随机初始化的线性分类器608。使用预测标签610和地面实况标签602来限定损失/目标函数612(等式如下)。经由反向传播614来最小化损失函数,并且使用最小工具(minimizer)的输出616经由标准梯度下降方案来更新网络和分类器权重。
在训练阶段,目标是学习卷积核以及分类参数。例如,将网络中的所有卷积核表示为θ,那么对于输入图像I,在所有层处的网络响应取决于这些卷积核。为简单起见,对于输入图像Ii和卷积核θ,将上式所示的GAP特征表示为Φk,d(Ii|θ)。使是图像Ii的对应标签矢量,其中,表示类c在图像中存在或不存在。然后,通过最小化以下目标函数来完成训练:
然后,使用任何合适的优化技术来优化该目标函数。作为非限制性示例,经由随机梯度下降(SGD)(参见针对SGD的讨论的参考文献No.1)来优化该目标函数。
(4.4)测试
对本公开的系统进行测试以证明该系统的有效性。图4示出了测试结果。在测试中,使用从上述优化处理获得的GAP特征和权重来计算热图。图4示出了使用本公开的系统获得的判别结果400和定位结果402以及使用Zhou等人提出的方法获得的对应结果400和406。所述结果是使用同一输入图像410获得的。可以看出,本方法针对分类后的类(例如,该示例中的交通警察)提供更好定位。
(4.5)装置的控制
如图5所示,处理器104可以被用于基于对对象进行判别(即,分类)和定位来控制装置500(例如,移动装置显示器、虚拟现实显示器、增强现实显示器、计算机监视器、电动机、机器、无人机、相机等)。对装置500的控制可以用于将对象的定位变换成表示对象的静态图像或视频。在其它实施方式中,可以控制装置500以使该装置基于判别和定位来移动或以其它方式发起物理动作。
在一些实施方式中,可以控制无人机或其它自主车辆移动至基于影像确定对象的定位的这种区域。在又一些其它实施方式中,可以控制相机朝着所述定位取向。换句话说,启用致动器或电动机,以使相机(或传感器)在对象所在的位置移动或变焦。在又一方面,如果系统正在寻找特定对象并且如果在判别处理之后对象未被确定为在相机的视场内,则可以使该相机旋转或转动以查看场景内的其它区域,直到检测到所找寻的对象为止。在又一些其它实施方式中,可以控制机械臂达到被定位的对象。例如,首先通过热图上的斑点检测,将对象在一个或更多个图像中的定位转换成图像坐标。然后,将一个或更多个图像中的图像坐标几何变换成所述对象在以机械为中心的坐标系中的x坐标、y坐标、z坐标。然后,例如,可以启用机械臂上的致动器和/或电动机以使该机械臂抓住或以其它方式接触被定位的对象。应当明白,尽管关于x坐标、y坐标以及z坐标对机械臂进行了描述,但本发明不旨在限于此并且可以利用任何装置(包括机械臂、车辆等)来实现,该装置可以基于被定位的对象的x坐标、y坐标以及z坐标进行移动或以其它方式执行操作(例如使载具(诸如,汽车、无人机等)操纵以避开所述对象或者向所述对象行驶等)。
最后,虽然已经根据多个实施方式对本发明进行了说明,但本领域普通技术人员应当容易地认识到,本发明可以在其它环境中具有其它应用。应注意,可以有许多实施方式和实现。此外,所附权利要求绝不旨在将本发明的范围限于上述具体实施方式。另外,“用于…的装置”的任何用语旨在引发要素和权利要求的装置加功能的解读,而未特别使用“用于…的装置”用语的任何要素不应被解读为装置加功能要素,即使权利要求以其它方式包括了“装置”一词。此外,虽然已经按特定顺序陈述了特定方法步骤,但这些方法步骤可以按任何期望的顺序进行,并且落入本发明的范围内。

Claims (15)

1.一种用于对象的判别定位的系统,所述系统包括:
一个或更多个处理器以及存储器,所述存储器是编码有可执行指令的非暂时性计算机可读介质,以使在执行所述可执行指令时,所述一个或更多个处理器执行以下操作:
使用多层网络来识别图像中的对象;
从所述多层网络中的所有层的激活来获得所述对象的特征;
使用来自所述多层网络的所有层的特征的总体平均池化GAP来将所述图像分类为包含一个或更多个对象类;以及
通过基于来自所述多层网络的所有层的GAP特征生成热图来在所述图像中定位所述对象类,其中,所述热图指示所述对象的存在。
2.根据权利要求1所述的系统,其中,所述一个或更多个处理器还执行基于所述对象在所述图像中的定位来对装置进行控制的操作。
3.根据权利要求2所述的系统,其中,对所述装置进行控制的操作还包括使机械臂达到所述对象。
4.根据权利要求1所述的系统,其中,所述多层网络是卷积神经网络CNN。
5.根据权利要求1所述的系统,其中,所述对象是基于来自所述多层网络的上采样响应的线性组合来定位的。
6.一种用于对象的判别定位的非暂时性计算机可读介质,所述非暂时性计算机可读介质编码有可执行指令,以使在通过一个或更多个处理器执行所述可执行指令时,所述一个或更多个处理器执行以下操作:
使用多层网络来识别图像中的对象;
从所述多层网络中的所有层的激活来获得所述对象的特征;
使用来自所述多层网络的所有层的特征的总体平均池化GAP来将所述图像分类为包含一个或更多个对象类;以及
通过基于来自所述多层网络的所有层的GAP特征生成热图来在所述图像中定位所述对象类,其中,所述热图指示所述对象的存在。
7.根据权利要求6所述的非暂时性计算机可读介质,其中,所述一个或更多个处理器还执行基于所述对象在所述图像中的定位来对装置进行控制的操作。
8.根据权利要求7所述的非暂时性计算机可读介质,其中,对所述装置进行控制的操作还包括使机械臂达到所述对象。
9.根据权利要求6所述的非暂时性计算机可读介质,其中,所述多层网络是卷积神经网络CNN。
10.根据权利要求6所述的非暂时性计算机可读介质,其中,所述对象是基于来自所述多层网络的上采样响应的线性组合来定位的。
11.一种用于对象的判别定位的计算机实现方法,所述计算机实现方法包括以下动作:
使一个或更多个处理器执行被编码在非暂时性计算机可读介质上的指令,以使在执行时,所述一个或更多个处理器执行以下操作:
使用多层网络来识别图像中的对象;
从所述多层网络中的所有层的激活来获得所述对象的特征;
使用来自所述多层网络的所有层的特征的总体平均池化GAP来将所述图像分类为包含一个或更多个对象类;以及
通过基于来自所述多层网络的所有层的GAP特征生成热图来在所述图像中定位所述对象类,其中,所述热图指示所述对象的存在。
12.根据权利要求11所述的计算机实现方法,其中,所述一个或更多个处理器还执行以下操作:基于所述对象在所述图像中的定位来对装置进行控制。
13.根据权利要求12所述的计算机实现方法,其中,对所述装置进行控制的操作还包括使机械臂达到所述对象。
14.根据权利要求11所述的计算机实现方法,其中,所述多层网络是卷积神经网络CNN。
15.根据权利要求11所述的计算机实现方法,其中,基于来自所述多层网络的上采样响应的线性组合来定位所述对象。
CN201880015274.4A 2017-04-20 2018-04-20 用于对象的判别定位的机器视觉系统 Active CN110352429B (zh)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US201762487824P 2017-04-20 2017-04-20
US62/487,824 2017-04-20
PCT/US2018/028621 WO2018195462A1 (en) 2017-04-20 2018-04-20 Machine-vision system for discriminant localization of objects

Publications (2)

Publication Number Publication Date
CN110352429A CN110352429A (zh) 2019-10-18
CN110352429B true CN110352429B (zh) 2023-05-16

Family

ID=63853992

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201880015274.4A Active CN110352429B (zh) 2017-04-20 2018-04-20 用于对象的判别定位的机器视觉系统

Country Status (4)

Country Link
US (1) US10691972B2 (zh)
EP (1) EP3612985A4 (zh)
CN (1) CN110352429B (zh)
WO (1) WO2018195462A1 (zh)

Families Citing this family (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11036970B2 (en) * 2018-04-25 2021-06-15 Shutterfly, Llc Hybrid deep learning method for gender classification
US10679041B2 (en) * 2018-04-25 2020-06-09 Shutterfly, Llc Hybrid deep learning method for recognizing facial expressions
US11308313B2 (en) 2018-04-25 2022-04-19 Shutterfly, Llc Hybrid deep learning method for recognizing facial expressions
US10817752B2 (en) * 2018-05-31 2020-10-27 Toyota Research Institute, Inc. Virtually boosted training
TWI709188B (zh) * 2018-09-27 2020-11-01 財團法人工業技術研究院 基於機率融合的分類器、分類方法及分類系統
JP7021160B2 (ja) * 2019-09-18 2022-02-16 株式会社東芝 ハンドリング装置、ハンドリング方法及びプログラム
WO2022261772A1 (en) * 2021-06-16 2022-12-22 3Rdi Laboratory Incorporated Deep-learning method for automated content creation in augmented and virtual reality

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2016168145A1 (en) * 2015-04-17 2016-10-20 Google Inc. Convolutional color correction
US9542626B2 (en) * 2013-09-06 2017-01-10 Toyota Jidosha Kabushiki Kaisha Augmenting layer-based object detection with deep convolutional neural networks

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20120061155A1 (en) * 2010-04-09 2012-03-15 Willow Garage, Inc. Humanoid robotics system and methods
EP3204888A4 (en) * 2014-10-09 2017-10-04 Microsoft Technology Licensing, LLC Spatial pyramid pooling networks for image processing
WO2016074247A1 (en) * 2014-11-15 2016-05-19 Beijing Kuangshi Technology Co., Ltd. Face detection using machine learning
US9767381B2 (en) 2015-09-22 2017-09-19 Xerox Corporation Similarity-based detection of prominent objects using deep CNN pooling layers as features

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9542626B2 (en) * 2013-09-06 2017-01-10 Toyota Jidosha Kabushiki Kaisha Augmenting layer-based object detection with deep convolutional neural networks
WO2016168145A1 (en) * 2015-04-17 2016-10-20 Google Inc. Convolutional color correction

Non-Patent Citations (5)

* Cited by examiner, † Cited by third party
Title
Learning Deep Features for Discriminative Localization;Bolei Zhou 等;《2016 IEEE CONFERENCE ON COMPUTER VISION AND PATTERN RECOGNITION (CVPR)》;20161212;第2921-2929页,尤其是第2921页右栏,第2922页右栏,第2923页左栏 *
Object Instance Segmentation and Fine-Grained Localization Using Hypercolumns;BHARATH HARIHARAN 等;《https://ieeexplore.ieee.org/abstract/document/7486965》;20160608;全文 *
On the Exploration of Convolutional Fusion Networks for Visual Recognition;YU LIU 等;《https://arxiv.org/pdf/1611.05503》;20161116;全文 *
Weakly Supervised Semantic Segmentation Using Superpixel Pooling Network;SUHA KWAK 等;《PROCEEDINGS OF THE THIRTY-FIRST AAAI CONFERENCE ON ARTIFICIAL INTELLIGENCE (AAAI-17)》;20170204;全文 *
深度卷积神经网络在计算机视觉中的应用研究综述;卢宏涛 等;《数据采集与处理》;20160131;第31卷(第01期);全文 *

Also Published As

Publication number Publication date
US20180307936A1 (en) 2018-10-25
EP3612985A4 (en) 2020-12-23
US10691972B2 (en) 2020-06-23
EP3612985A1 (en) 2020-02-26
WO2018195462A1 (en) 2018-10-25
CN110352429A (zh) 2019-10-18

Similar Documents

Publication Publication Date Title
CN110352429B (zh) 用于对象的判别定位的机器视觉系统
CN108604303B (zh) 用于场景分类的系统、方法和计算机可读介质
US11620527B2 (en) Domain adaption learning system
CN110313017B (zh) 基于对象组件来对输入数据进行分类的机器视觉方法
Sun et al. Recurrent-octomap: Learning state-based map refinement for long-term semantic mapping with 3-d-lidar data
US10909407B2 (en) Transfer learning of convolutional neural networks from visible color (RBG) to infrared (IR) domain
Lozano et al. An algorithm for the recognition of levels of congestion in road traffic problems
CN111052144A (zh) 借由联合稀疏表示的属性感知零样本机器视觉系统
Teichman et al. Learning to segment and track in RGBD
US10332265B1 (en) Robust recognition on degraded imagery by exploiting known image transformation under motion
US10607111B2 (en) Machine vision system for recognizing novel objects
Subash et al. Object detection using Ryze Tello drone with help of mask-RCNN
Khellal et al. Pedestrian classification and detection in far infrared images
Budak et al. Deep convolutional neural networks for airport detection in remote sensing images
Aly Partially occluded pedestrian classification using histogram of oriented gradients and local weighted linear kernel support vector machine
Nandhini et al. An extensive review on recent evolutions in object detection algorithms
Satti et al. Recognizing the Indian Cautionary Traffic Signs using GAN, Improved Mask R‐CNN, and Grab Cut
Priya et al. Vehicle Detection in Autonomous Vehicles Using Computer Vision Check for updates
Duan et al. Cascade feature selection and coarse-to-fine mechanism for nighttime multiclass vehicle detection
Mehtab Deep neural networks for road scene perception in autonomous vehicles using LiDARs and vision sensors
Sheikh et al. Object detection based on multi-modal adaptive fusion using YOLOv3
Lakshmi Priya et al. Vehicle Detection in Autonomous Vehicles Using Computer Vision
Apatean et al. Image Features Extraction, Selection and Fusion for Computer Vision
Sunanda et al. Improved Object Detection and Recognition for Aerial Surveillance: Vehicle Detection with Deep Mask R-CNN
WO2024002534A1 (en) Method and system of selecting one or more images for human labelling

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant