CN110313017B - 基于对象组件来对输入数据进行分类的机器视觉方法 - Google Patents
基于对象组件来对输入数据进行分类的机器视觉方法 Download PDFInfo
- Publication number
- CN110313017B CN110313017B CN201880013120.1A CN201880013120A CN110313017B CN 110313017 B CN110313017 B CN 110313017B CN 201880013120 A CN201880013120 A CN 201880013120A CN 110313017 B CN110313017 B CN 110313017B
- Authority
- CN
- China
- Prior art keywords
- cnn
- salient region
- intensity image
- processors
- computer
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/70—Labelling scene content, e.g. deriving syntactic or semantic representations
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/213—Feature extraction, e.g. by transforming the feature space; Summarisation; Mappings, e.g. subspace methods
- G06F18/2137—Feature extraction, e.g. by transforming the feature space; Summarisation; Mappings, e.g. subspace methods based on criteria of topology preservation, e.g. multidimensional scaling or self-organising maps
- G06F18/21375—Feature extraction, e.g. by transforming the feature space; Summarisation; Mappings, e.g. subspace methods based on criteria of topology preservation, e.g. multidimensional scaling or self-organising maps involving differential geometry, e.g. embedding of pattern manifold
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/23—Clustering techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
- G06F18/2413—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on distances to training or reference patterns
- G06F18/24133—Distances to prototypes
- G06F18/24143—Distances to neighbourhood prototypes, e.g. restricted Coulomb energy networks [RCEN]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
- G06F18/2415—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on parametric or probabilistic models, e.g. based on likelihood ratio or false acceptance rate versus a false rejection rate
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
- G06V10/44—Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components
- G06V10/443—Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components by matching or filtering
- G06V10/449—Biologically inspired filters, e.g. difference of Gaussians [DoG] or Gabor filters
- G06V10/451—Biologically inspired filters, e.g. difference of Gaussians [DoG] or Gabor filters with interaction between the filter responses, e.g. cortical complex cells
- G06V10/454—Integrating the filters into a hierarchical structure, e.g. convolutional neural networks [CNN]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/74—Image or video pattern matching; Proximity measures in feature spaces
- G06V10/75—Organisation of the matching processes, e.g. simultaneous or sequential comparisons of image or video features; Coarse-fine approaches, e.g. multi-scale approaches; using context analysis; Selection of dictionaries
- G06V10/758—Involving statistics of pixels or of feature values, e.g. histogram matching
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/82—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/10—Terrestrial scenes
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/50—Context or environment of the image
- G06V20/56—Context or environment of the image exterior to a vehicle by using sensors mounted on the vehicle
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/10—Character recognition
- G06V30/19—Recognition using electronic means
- G06V30/191—Design or setup of recognition systems or techniques; Extraction of features in feature space; Clustering techniques; Blind source separation
- G06V30/19173—Classification techniques
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Multimedia (AREA)
- Evolutionary Computation (AREA)
- Artificial Intelligence (AREA)
- Data Mining & Analysis (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Life Sciences & Earth Sciences (AREA)
- Bioinformatics & Computational Biology (AREA)
- Evolutionary Biology (AREA)
- Software Systems (AREA)
- General Engineering & Computer Science (AREA)
- Databases & Information Systems (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Computing Systems (AREA)
- Medical Informatics (AREA)
- Computational Linguistics (AREA)
- Biodiversity & Conservation Biology (AREA)
- Biomedical Technology (AREA)
- Molecular Biology (AREA)
- Probability & Statistics with Applications (AREA)
- Image Analysis (AREA)
Abstract
描述了一种用于对图像中的对象和场景进行分类的系统。所述系统基于卷积神经网络(CNN)的激活模式来识别图像的显著区域。通过在不同层处探测所述CNN的所述激活模式来生成所述显著区域的多尺度特征。使用无监督聚类技术,对所述多尺度特征进行聚类,以识别通过所述CNN捕获的关键属性。所述系统从所述关键属性的直方图映射到一组对象类别的概率上。使用所述概率,将所述图像中的对象或场景分类成属于对象类别,并且基于所述对象类别来控制车辆组件,以使所述车辆组件执行自动化动作。
Description
相关申请的交叉引用
这是2017年3月28日在美国提交的、题名为“Machine-Vision Method toClassify Input Data Based on Their Components”的美国临时申请No.62/478,033的非临时专利申请,该美国临时申请的全部内容通过引用并入于此。
技术领域
本发明涉及用于机器视觉对象分类的系统,更具体地,涉及并入有对象组件(component)以识别对象的、用于机器视觉对象分类的系统。
背景技术
机器视觉是指被用于为多种应用提供基于成像的自动检查和分析的技术和方法,包括但不限于自动检查、机器人引导以及自动分类。Zhou等人和Gonzalez-Garcia等人描述了这样的机器视觉方法,即,该机器视觉方法探测卷积神经网络(CNN)的各个单元,以获得每单元具有最高激活的区域(参见并入参考文献的列表,参考文献No.5和No.6)。这些方法的缺点包括:1)研究单个单元而不是单元组中的神经激活,2)要求人在循环反馈(例如,Amazon Mechanical Turk)中识别在最高得分区域之间存在的共同主题或概念,以及3)忽略整个网络上的神经激活模式以进行对象分类。
因此,仍然需要一种在整个网络上按单元组自动地对激活模式进行建模的系统。
发明内容
本发明涉及用于机器视觉对象分类的系统,更具体地,涉及并入有对象组件以识别对象的、用于机器视觉对象分类的系统。所述系统包括一个或更多个处理器以及编码有可执行指令的非暂时性计算机可读介质,使得当执行该可执行指令时,所述一个或更多个处理器执行多个操作。所述系统基于具有多个层的卷积神经网络(CNN)的激活模式来识别强度图像的显著区域。通过在不同层处探测所述CNN的所述激活模式,来针对所述显著区域生成多尺度特征。使用无监督聚类技术,对所述多尺度特征进行聚类,以识别通过所述CNN捕获的关键属性。然后,所述系统从所述关键属性的直方图映射到一组对象类别的概率上。使用所述概率将所述强度图像中的至少一个对象或场景分类成属于对象类别,并且基于所述对象类别来控制车辆组件,以使所述车辆组件执行自动化动作。
在另一方面,各个显著区域是从所述强度图像中提取的,并且各个显著区域是基于针对所述显著区域中的各个图像像素或者图像像素组的CNN激活来识别的。
在另一方面,为了生成所述多尺度特征,所述系统在所述CNN的各个层处执行总体平均池化(GAP)。
在另一方面,所述无监督聚类技术是无监督深度嵌入方法,并且其中,所述无监督深度嵌入方法的输出是嵌入映射,所述嵌入映射将所述多尺度特征嵌入到具有所述关键属性的子空间中。
在另一方面,使用所述嵌入映射来获得各个显著区域的聚类隶属度(membership)。使用所述聚类隶属度来生成所述关键属性的直方图,其中,所述关键属性的直方图对关键属性出现的归一化频度进行编码。
在另一方面,所述系统使用用于聚类的深度嵌入来计算所述强度图像的关键属性包(BoKA)特征。将所述BoKA特征与所述CNN的输出特征级联,获得级联的特征。使用所述级联的特征,对所述强度图像中的所述至少一个对象或场景进行分类。
最后,本发明还包括一种计算机程序产品和计算机实现方法。所述计算机程序产品包括存储在非暂时性计算机可读介质上的计算机可读指令,所述计算机可读指令能够通过具有一个或更多个处理器的计算机执行,以使在执行所述指令时,所述一个或更多个处理器执行本文列出的操作。另选地,所述计算机实现方法包括使计算机执行这种指令并且执行所得操作的行为。
附图说明
根据下面结合参照附图对本发明各个方面进行的详细说明,本发明的目的、特征以及优点将是显而易见的,其中:
图1是对根据本公开的一些实施方式的用于机器视觉对象分类的系统的部件进行描绘的框图;
图2是根据本公开的一些实施方式的计算机程序产品的例示图;
图3是根据本公开的一些实施方式的用于对输入数据进行分类的系统的处理流程的例示图;
图4是根据本公开的一些实施方式的从输入中提取显著图块(salient patch)的例示图;
图5是根据本公开的一些实施方式的从图像图块中提取的多尺度全局平均池化(GAP)特征的例示图;
图6A是根据本公开的一些实施方式的对网络认为显著的数据部分进行提取的例示图;
图6B是根据本公开的一些实施方式的使用无监督聚类技术来对通过网络捕获的关键属性进行识别的例示图;
图7A是根据本公开的一些实施方式的对给定输入图像的关键视觉属性包特征进行计算的例示图,该关键视觉属性包特征在分类器之前级联至CNN的输出;
图7B是根据本公开的一些实施方式的第一混淆矩阵的例示图;
图7C是根据本公开的一些实施方式的第二混淆矩阵的例示图;
图7D是根据本公开的一些实施方式的第三混淆矩阵的例示图;以及
图8是例示根据本公开的一些实施方式的使用对象类别来对装置进行控制的流程图。
具体实施方式
本发明涉及用于机器视觉分类的系统,更具体地,涉及并入有对象组件以识别对象的、用于机器视觉分类的系统。以下的说明旨在使本领域普通技术人员能够制造和使用本发明并将其导入到特定应用的背景中。对于本领域技术人员来说显然可以有各种改动以及不同应用场合中的多种用途,并且这里限定的总体构思可以应用于很宽的范围。因此,本发明不应限于所呈现的方面,而是涵盖与本文所公开的构思和新颖特征相一致的最广范围。
在下面的详细说明中,阐述了许多具体细节,以使得能够更加深刻地理解本发明。然而,本领域技术人员应当明白,本发明可以在不必受限于这些具体细节的情况下来实施。在其它情况下,公知结构和装置按框图形式而不是按细节示出,以免妨碍对本发明的理解。
也请读者留意与本说明书同时提交的所有文件和文档,这些文件和文档与本说明书一起公开,以供公众查阅,所有这些文件和文档的内容通过引用并入于此。本说明书(包括任何所附权利要求书、摘要以及附图)中公开的所有特征可以由用于相同、等同或相似目的的替代特征来代替,除非另有明确说明。因此,除非另有明确说明,否则所公开的各个特征仅仅是同类系列等同或相似特征中的一个示例。
此外,权利要求书中没有明确陈述用于执行指定功能的“装置”或用于执行特定功能的“步骤”的任何要素不被解释为在35U.S.C.第112节第6款中指定的“装置”或“步骤”条款。具体地,在本文的权利要求书中使用“…的步骤”或“…的动作”不旨在援引35U.S.C.第112节第6款的规定。
在详细说明本发明之前,首先提供了引用参考文献的列表。接下来,提供了对本发明各个主要方面的说明。最后,提供本发明各个实施方式的具体细节,以使得能够理解具体的方面。
(1)并入参考文献的列表
在本申请中引用且并入以下参考文献。为了清楚和方便起见,这些参考文献在此被列为读者的中心资源。下列参考文献通过引用并入于此,就像在此完全陈述一样。这些参考文献通过参照如下对应文献参考序号而在本申请中加以引用:
1.Sotiras,Aristeidis,Susan M.Resnick,and Christos Davatzikos."Findingimaging patterns of structural covariance via non-negative matrixfactorization."NeuroImage 108:1-16,2015。
2.Simonyan,Karen,and Andrew Zisserman."Very deep convolutionalnetworks for large-scale image recognition."arXiv preprint arXiv:1409.1556,2014。
3.Lindeberg,Tony.Scale-space theory in computervision.Vol.256.Springer Science&Business Media,2013。
4.Xie,Junyuan,Ross Girshick,and Ali Farhadi."UnsuperviseddDeepembedding for clustering analysis."arXiv preprint arXiv:1511.06335,2015。
5.Zhou,B.,Khosla,A.,Lapedriza,A.,Oliva,A.,&Torralba,A.“Objectdetectors emerge in deep scene CNNs.”arXiv preprint arXiv:1412.6856,2014。
6.Gonzalez-Garcia,A.,Modolo,D.,&Ferrari,V.“Do semantic parts emergein convolutional neural networks?”arXiv preprint arXiv:1607.03738,2016。
7.Kolouri,S.,Rohde,G.K.,&Hoffman,H.“Sliced wasserstein distance forlearning gaussian mixture models.”arXiv preprint arXiv:1711.05376,2017。
8.Kolouri,S.,Martin,C.E.,&Hoffmann,H.“Explaining Distributed NeuralActivations via Unsupervised Learning.”In Proceedings of the IEEE Conferenceon Computer Vision and Pattern Recognition Workshops(pp.20-28),2017。
(2)主要方面
本发明的各种实施方式包括三个“主要”方面。第一个方面是用于机器视觉对象分类的系统。该系统通常采用计算机系统操作软件的形式或采用“硬编码”指令集的形式。所述系统可以并入提供不同功能的各种各样的装置中。第二个主要方面是利用数据处理系统(计算机)进行操作的、通常采用软件形式的方法。第三个主要方面是计算机程序产品。所述计算机程序产品通常表示存储在诸如光学存储装置(例如,光盘(CD)或数字通用盘(DVD))或磁存储装置(例如,软盘或磁带)的非暂时性计算机可读介质上的计算机可读指令。计算机可读介质的其它非限制示例包括硬盘、只读存储器(ROM)以及闪存型存储器。这些方面将在下文进行更详细的说明。
图1提供了描绘本发明的系统(即,计算机系统100)的示例的框图。计算机系统100被配置成执行与程序或算法相关联的计算、处理、操作和/或功能。在一个方面中,本文讨论的某些处理和步骤被实现为存在于计算机可读存储器单元内并由计算机系统100的一个或更多个处理器执行的一系列指令(例如,软件程序)。在执行时,这些指令使计算机系统100执行特定动作并展现特定行为,诸如本文所描述的。
计算机系统100可以包括被配置成传送信息的地址/数据总线102。另外,一个或更多个数据处理单元(诸如处理器104(或多个处理器)与地址/数据总线102连接。处理器104被配置成处理信息和指令。在一个方面中,处理器104是微处理器。另选地,处理器104可以是不同类型的处理器,例如并行处理器、专用集成电路(ASIC)、可编程逻辑阵列(PLA)、复杂可编程逻辑器件(CPLD)或现场可编程门阵列(FPGA)。
计算机系统100被配置成利用一个或更多个数据存储单元。计算机系统100可以包括与地址/数据总线102连接的易失性存储器单元106(例如,随机存取存储器(“RAM”)、静态RAM、动态RAM等),其中,易失性存储器单元106被配置成存储用于处理器104的信息和指令。计算机系统100还可以包括与地址/数据总线102连接的非易失性存储器单元108(例如,只读存储器(“ROM”)、可编程ROM(“PROM”)、可擦除可编程ROM(“EPROM”)、电可擦除可编程ROM(“EEPROM”)、闪存等),其中,非易失性存储器单元108被配置成存储用于处理器104的静态信息和指令。另选地,计算机系统100可以执行从诸如“云”计算中的在线数据存储单元取得的指令。在一个方面中,计算机系统100还可以包括与地址/数据总线102联接的一个或更多个接口(诸如接口110)。所述一个或更多个接口被配置成使得计算机系统100能够与其它电子装置和计算机系统连接。由所述一个或更多个接口实现的通信接口可以包括有线通信技术(例如,串行电缆、调制解调器、网络适配器等)和/或无线通信技术(例如,无线调制解调器、无线网络适配器等)。
在一个方面中,计算机系统100可以包括与地址/数据总线102联接的输入装置112,其中,输入装置112被配置成将信息和命令选择传送至处理器100。根据一个方面,输入装置112是可以包括字母数字和/或功能键的字母数字输入装置(诸如键盘)。另选地,输入装置112可以是除字母数字输入装置之外的输入装置。在一个方面中,计算机系统100可以包括与地址/数据总线102联接的光标控制装置114,其中,光标控制装置114被配置成将用户输入信息和/或命令选择传送至处理器100。在一个方面中,光标控制装置114利用诸如鼠标、轨迹球、轨迹板、光学跟踪装置或触摸屏的装置来实现。尽管如此,但在一个方面中,例如响应于使用与输入装置112相关联的特殊键和键序列命令,光标控制装置114通过来自输入装置112的输入而被引导和/或激活。在另选方面中,光标控制装置114被配置成由语音命令来引导或指导。
在一个方面中,计算机系统100还可以包括与地址/数据总线102连接的一个或更多个可选的计算机可用数据存储装置(诸如存储装置116)。存储装置116被配置成存储信息和/或计算机可执行指令。在一个方面中,存储装置116是诸如磁或光盘驱动器(例如,硬盘驱动器(“HDD”)、软盘、光盘只读存储器(“CD-ROM”)、数字通用盘(“DVD”))的存储装置。依据一个方面,显示装置118与地址/数据总线102联接,其中,显示装置118被配置成显示视频和/或图形。在一个方面中,显示装置118可以包括阴极射线管(“CRT”)、液晶显示器(“LCD”)、场发射显示器(“FED”)、等离子体显示器或适于显示视频和/或图形图像以及用户可识别的字母数字字符的任何其它显示装置。
本文所提出的计算机系统100是根据一个方面的示例计算环境。然而,计算机系统100的非限制性示例并不严格限于是计算机系统。例如,一个方面规定了计算机系统100表示可以根据本文所述各个方面使用的一种数据处理分析。此外,还可以实现其它计算系统。实际上,本技术的精神和范围不限于任何单个数据处理环境。因此,在一个方面中,使用通过计算机执行的计算机可执行指令(例如,程序模块)来控制或实现本技术的各个方面的一个或更多个操作。在一个实现方式中,这样的程序模块包括被配置成执行特定任务或实现特定抽象数据类型的例程、程序、对象、部件和/或数据结构。另外,一个方面规定了通过利用一个或更多个分布式计算环境来实现本技术的一个或更多个方面,例如,在分布式计算环境中,由通过通信网络链接的远程处理装置执行任务,或者例如,在分布式计算环境中,各种程序模块位于包括存储器-存储装置的本地和远程计算机存储介质中。
图2中描绘了实施本发明的计算机程序产品(即,存储装置)的例示图。计算机程序产品被描绘为软盘200或诸如CD或DVD的光盘202。然而,如先前提到的,计算机程序产品通常表示存储在任何兼容的非暂时性计算机可读介质上的计算机可读指令。如关于本发明所使用的术语“指令”通常指示要在计算机上执行的一组操作,并且可以表示整个程序的片段或者单个可分离的软件模块。“指令”的非限制性示例包括计算机程序代码(源或目标代码)和“硬编码”电子器件(即,编码到计算机芯片中的计算机操作)。“指令”被存储在任何非暂时性计算机可读介质上,例如存储在计算机的存储器中或软盘、CD-ROM以及闪存驱动器上。无论在哪一种情况下,这些指令被编码在非暂时性计算机可读介质上。
(3)各个实施方式的具体细节
描述了一种通过以无监督的方式学习对象属性类(例如,汽车图像中的车轮或格栅)来改进深度学习网络的识别性能并将该信息与深度网络并行地用于对象检测的方法。本发明包括四阶段处理,这允许基于对象的组件对该对象进行可靠的检测。在第一阶段,利用自上而下的方法,基于深度卷积神经网络(CNN)的激活模式来精确定位(pinpoint)输入的显著属性。在第二阶段,自下而上的方法探测CNN并提取网络对单独的显著属性的分层响应。在第三阶段,将迭代的无监督学习方法应用于从所有显著属性中提取的特征,以识别通过网络学习到的核心属性。最后,在第四阶段,通过对核心属性的出现频度进行指示的特征来概括输入图像。
本文所描述的系统提供了一种并入有对象组件以识别/分类对象的机器视觉系统。具体地,所述系统使用经预先训练的CNN并学习以网络的分布式激活模式编码的视觉属性。现有技术方法通常利用具有CNN的各个单元的最高激活的对应图像区域来寻找对象组件。与此类方法相反,根据本公开的实施方式的系统对一组CNN单元而不是单个单元中的激活模式进行建模以寻找对象属性/部分。另外,本文所描述的发明将从关键/核心属性提取的信息与常规的深度CNN的信息相结合,并且与现有技术相比,所述系统提供了对象检测/分类性能技术的显著改进。
本发明的一个目的是识别相机图像中的对象或场景。相机可以是电动的、光学的、红外(IR)的、短波IR的或类似的,以使输出是具有一个或更多个类似颜色的通道的强度图像。然后处理这些一通道化或多通道化的强度图像,以生成针对给定的一组对象类别的概率。具有最高概率(其可以是该类别的特征/属性的最高出现次数)的类别可以识别在图像中存在的对象或场景。
用于计算这些概率的现有技术使用卷积神经网络(CNN)(参见参考文献No.2)。本发明通过使用无监督方案识别CNN的学习到的关键属性来改进CNN。通过以下方式来学习关键/核心属性:首先识别输入图像的被网络认为是显著的区域,然后分析这些显著区域中的网络激活模式。然后使用这些核心属性来提高类别概率的准确度,进而可以将该类别概率用于对输入图像进行分类和归类。图3示出了本文所描述的系统的处理流程。在下文中,对所述四个主要阶段进行描述。
(3.1)显著属性提取(要素300)
参照图3,根据本公开的实施方式的系统通过识别输入图像的显著区域开始。给定经预训练的CNN(要素302)和输入的相机图像(要素304),将弹性非负矩阵分解(NMF)(参见参考文献No.1)应用于CNN(要素302)的激活模式(即,最后一个卷积层),以获得并提取针对输入的相机数据(要素304)的主激活模式(要素306)。注意,由于在该阶段未使用CNN(要素302)的全连接层,因此输入图像(要素304)的大小可以变化。
更精确地说,使表示最后一个卷积层(例如,VGG19的'conv5_4'(参见参考文献No.2))的矢量化CNN响应(例如,要素501),其中,m是最后一层处的卷积核的数量(例如VGG19中的m=512),并且d是每卷积核的节点数并且根据输入图像的大小进行缩放。然后,将NMF表示为,
其中,||.||F是Frobenius范数,||.||1是逐要素L1范数,H∈Rd×r的列是非负分量,W∈Rr×m是非负系数矩阵,r是矩阵H的秩,该秩与所提取的分量的数量相对应,并且λ和γ是正则化参数。使用坐标下降求解器来寻找H和W。在提取非负分量(H的列)并且对各个分量进行上采样(即,将大小调整成原始图像大小以抵消池化层的影响)之后,图像(即,NMF分量400)由拉普拉斯高斯斑点检测器(参见参考文献No.3)处理,以提取被CNN(要素302)认为是显著的输入图像区域(显著图块308),并将该区域反馈至CNN(要素301)。
图4提供了显著属性提取(要素300)的示例,并且示出了针对输入图像(要素304)的NMF分量(要素400)和提取的显著图块308。如图所示,应用于CNN的神经激活模式的NMF导致在语义上有意义的对象属性。
(3.2)提取GAP特征(要素309和要素310)
如在图3中描绘的,在第二阶段,在不同的层处探测CNN 302的激活模式306,并且针对提取的图块(要素308)构建多尺度特征(图3,GAP特征309)。如图5所示,这是通过以下方式来完成的:正好在“最大池化”之前在网络的每一层处执行总体平均池化(GAP)(要素500、要素502、要素504、要素506以及要素508)连同归一化(要素510)并且级联(图3,要素322)输出。CNN特征(图3,要素320)在不同层处捕获各种卷积核(例如,64、128、256、512)的响应能量,并且提供CNN的简洁表示。需要归一化(要素510),以使得在不同层处的平均池化的比例是相同的(即,范围从0到1)。图5例示了使用VGG19(参见参考文献No.2得到VGG19的描述)从输入的图像图块提取(要素308)根据本公开的实施方式的多尺度GAP特征。
(3.3)显著属性的无监督聚类(要素312)
图6A和图6B描绘了无监督概念学习系统(参见参考文献No.7)的示意图。给定深度网络(例如,VGG19(参见参考文献No.2)),本文所描述的系统首先提取网络认为显著的数据部分,如图6A所示。具体地,经由CNN(例如,vgg19 600)从输入图像(要素304)提取激活响应(或激活模式306)。将NMF(要素602)应用于激活响应/模式(要素306),从而获得NMF分量400。然后,所述系统执行属性定位604(参见参考文献No.8得到属性定位的描述)并输出提取的图块(要素308)。
在第三阶段,有了来自数据集中的所有图像的显著图块及其对应的GAP+CNN特征(即,所有图块的GAP特征314以及CNN特征320)之后,利用无监督学习架构来识别通过网络识别的核心/关键属性(要素316)。在一个实施方式中并且如图6B所示,将无监督深度嵌入用于聚类(DEC)(参见参考文献No.4),以对显著的提取的图块(要素308)进行聚类(要素312)。DEC背后的构思是将数据变换成具有较丰富的数据表示的线性/非线性嵌入空间并将数据聚类在该空间中。然后,以迭代方式同时学习嵌入和聚类(要素312)。图6B例示了根据本文所描述的系统提取的样本关键属性(要素318)。
(3.4)关键属性包(要素318)
无监督深度嵌入方法(要素312和要素318)的结果是映射fα(该映射将输入的GAP+CNN特征(即,所有图块的GAP特征314以及CNN特征320)嵌入到判别子空间中),连同关键属性(要素316)μj(j=1,...,k)。对于给定的输入图像304,系统识别该图像的显著区域(要素308)、从M个被识别的显著区域vi(i=1,...,M(M可以针对不同的输入图像而改变))中提取GAP+CNN特征(要素314和要素320)、将所述特征经由fα映射至所述嵌入并获得它们的聚类隶属度(要素312)。使用所述聚类隶属度,本文所描述的系统生成图像中呈现的关键属性(要素316)的直方图,该直方图对关键属性出现的归一化频度进行编码。例如,汽车分类示例中的关键属性包(BoKA)特征(要素318)将对相应关键属性(例如车轮、门以及前灯)的存在或缺少进行编码。然后,如图7A所示,对于给定的输入图像(要素304),正好在Softmax分类器(要素700)之前,计算所述给定的输入图像的BoKA特征(要素318)并将该BoKA特征级联(要素322)至CNN的输出。按这种方式,在着重于关键的学习到的属性的情况下,使网络的提取的特征变得丰富。最后,重新训练CNN的Softmax层(要素700),以考虑(account for)BoKA特征(要素318)。如可以在图7A至图7D中看出的,测试输入图像(要素304)经历根据本公开的实施方式的系统,并且基于获得的级联特征来获得最终分类。在实验研究中,用BoKA特征(要素318)补充VGG19网络(要素312)导致减少平均为42.5%的分类错误。图7B、图7C以及图7D描绘了提供分类结果的可视化的混淆矩阵。
本文所描述的实施方式具有多种应用。例如,与现有技术相比,所述系统通过提供具有更高精度的面向属性的对象检测器,直接解决了对自主驾驶中的鲁棒且十分安全的对象检测器的需求。当前的对象检测器容易被噪声和遮挡所欺骗,并且由该对象检测器产生的假警报是不可解释的。根据本公开的实施方式的面向属性的系统使得能够通过考虑对象的核心属性来使系统减少这种假警报,从而显著改进了与对象检测相关联的技术。
图8是例示使用处理器800通过利用对象类别来控制装置802的流程图。可以经由处理器800和对象类别来控制的装置802的非限制性示例包括车辆或车辆组件,例如制动器、转向机构、悬架或安全装置(例如,安全气囊、安全带张紧器等)。此外,该车辆可以是无人驾驶飞行器(UAV)、自主驾驶地面车辆或者由驾驶员或远程操作员控制的人工操作车辆。例如,在为对象生成对象类别时,本文所描述的系统可以将对象类别与交通标志相关联,并使自主驾驶车辆根据该交通标志执行与驾驶参数一致的驾驶操作/操纵(例如转向或另一命令)。例如,如果该标志是停车标志,那么该系统可以使自主驾驶车辆应用功能响应(例如制动操作),以停下车辆。
其它恰当响应可以包括转向操作、用于加速或减速的油门操作或者用于保持不具有变化的航向和速度的决定中的一者或更多者。该响应可以适于避开碰撞、提高行进速度或提高效率。如本领域技术人员可以理解的,也可以控制其它装置类型。因此,在给定了特定的检测到的对象和实施有所述系统的环境的情况下,存在可以由自主驾驶车辆启动的多个自动化动作。
在特定的非限制性示例中,本文所描述的系统可以处理相机图像以向自主驾驶车辆(例如,汽车)发出指令。例如,如果在自主驾驶车辆附近的道路的一侧上检测到自行车骑行者,那么根据本公开的实施方式的系统发送指令以执行专门设计成避开自行车的控制回路。这种控制回路可以在现有技术中找到,例如在题名为“Unified motion planner forautonomous driving vehicle in avoiding the moving obstacle”的美国专利No.9,229,453中找到,如在此全面阐述的,该美国专利通过引用并入于此。
最后,虽然已经根据几个实施方式对本发明进行了说明,但本领域普通技术人员应当容易地认识到本发明可以在其它环境中具有其它应用。应注意,可以有许多实施方式和实现。此外,所附权利要求书绝不旨在将本发明的范围限制于上述具体实施方式。另外,任何“用于…的装置”的用语旨在引发要素和权利要求的装置加功能的解读,而任何未特别使用“用于…的装置”用语的要素不应被解读为装置加功能要素,即使权利要求以其它方式包括了“装置(means)”一词。此外,虽然已经按特定顺序陈述了特定的方法步骤,但这些方法步骤可以按任何期望的顺序进行,并且落入本发明的范围内。
Claims (12)
1.一种用于对强度图像数据进行分类以控制车辆组件的系统,所述系统包括:
一个或更多个处理器以及非暂时性计算机可读介质,在所述非暂时性计算机可读介质上编码有可执行指令,以使当执行所述可执行指令时,所述一个或更多个处理器执行以下操作:
基于具有多个层的卷积神经网络CNN的激活模式来识别强度图像的显著区域;
通过在不同层处探测所述CNN的所述激活模式来生成所述显著区域的多尺度特征;
使用无监督聚类技术,对所述多尺度特征进行聚类,以识别通过所述CNN捕获的关键属性;
从所述关键属性的直方图映射到一组对象类别的概率上;
使用所述概率将所述强度图像中的至少一个对象或场景分类成属于对象类别;以及
基于所述对象类别来控制所述车辆组件,以使所述车辆组件执行自动化动作,其中,所述无监督聚类技术是无监督深度嵌入方法,并且其中,所述无监督深度嵌入方法的输出是嵌入映射,所述嵌入映射将所述多尺度特征嵌入到具有所述关键属性的子空间中,
其中,所述一个或更多个处理器还执行以下操作:
使用所述嵌入映射来获得各个显著区域的聚类隶属度;并且
使用所述聚类隶属度来生成所述关键属性的直方图,其中,所述关键属性的直方图对关键属性出现的归一化频度进行编码。
2.根据权利要求1所述的系统,其中,各个显著区域是从所述强度图像中提取的,并且各个显著区域是基于针对所述显著区域中的各个图像像素或者图像像素组的CNN激活来识别的。
3.根据权利要求1所述的系统,其中,为了生成所述多尺度特征,所述一个或更多个处理器在所述CNN的各个层处执行总体平均池化GAP。
4.根据权利要求1所述的系统,其中,所述一个或更多个处理器还执行以下操作:
使用用于聚类的深度嵌入来计算所述强度图像的关键属性包BoKA特征;
将所述BoKA特征与所述CNN的输出特征级联,获得级联的特征;并且
使用所述级联的特征来对所述强度图像中的所述至少一个对象或场景进行分类。
5.一种用于对强度图像数据进行分类以控制车辆组件的计算机实现方法,所述计算机实现方法包括以下动作:
使一个或更多个处理器执行编码在非暂时性计算机可读介质上的指令,以使在执行所述指令时,所述一个或更多个处理器执行以下操作:
基于具有多个层的卷积神经网络CNN的激活模式来识别强度图像的显著区域;
通过在不同层处探测所述CNN的所述激活模式来生成所述显著区域的多尺度特征;
使用无监督聚类技术,对所述多尺度特征进行聚类,以识别通过所述CNN捕获的关键属性;
从所述关键属性的直方图映射到一组对象类别的概率上;
使用所述概率将所述强度图像中的至少一个对象或场景分类成属于对象类别;以及
基于所述对象类别来控制所述车辆组件,以使所述车辆组件执行自动化动作,
其中,所述无监督聚类技术是无监督深度嵌入方法,并且其中,所述无监督深度嵌入方法的输出是嵌入映射,所述嵌入映射将所述多尺度特征嵌入到具有所述关键属性的子空间中,
其中,所述一个或更多个处理器还执行以下操作:
使用所述嵌入映射来获得各个显著区域的聚类隶属度;并且
使用所述聚类隶属度来生成所述关键属性的直方图,其中,所述关键属性的直方图对关键属性出现的归一化频度进行编码。
6.根据权利要求5所述的计算机实现方法,其中,从所述强度图像中提取各个显著区域,并且基于针对所述显著区域中的各个图像像素或者图像像素组的CNN激活来识别各个显著区域。
7.根据权利要求5所述的计算机实现方法,其中,为了生成所述多尺度特征,所述一个或更多个处理器在所述CNN的各个层处执行总体平均池化GAP。
8.根据权利要求5所述的计算机实现方法,其中,所述一个或更多个处理器还执行以下操作:
使用用于聚类的深度嵌入来计算所述强度图像的关键属性包BoKA特征;
将所述BoKA特征与所述CNN的输出特征级联,获得级联的特征;并且
使用所述级联的特征来对所述强度图像中的所述至少一个对象或场景进行分类。
9.一种用于对强度图像数据进行分类以控制车辆组件的非暂时性计算机可读介质,所述非暂时性计算机可读介质包括计算机可读指令,所述计算机可读指令能够通过具有一个或更多个处理器的计算机执行,以使所述一个或更多个处理器执行以下操作:
基于具有多个层的卷积神经网络CNN的激活模式来识别强度图像的显著区域;
通过在不同层处探测所述CNN的所述激活模式来生成所述显著区域的多尺度特征;
使用无监督聚类技术,对所述多尺度特征进行聚类,以识别通过所述CNN捕获的关键属性;
从所述关键属性的直方图映射到一组对象类别的概率上;
使用所述概率将所述强度图像中的至少一个对象或场景分类成属于对象类别;以及
基于所述对象类别来控制所述车辆组件,以使所述车辆组件执行自动化动作,其中,所述无监督聚类技术是无监督深度嵌入方法,并且其中,所述无监督深度嵌入方法的输出是嵌入映射,所述嵌入映射将所述多尺度特征嵌入到具有所述关键属性的子空间中,
其中,所述非暂时性计算机可读介质还包括用于使所述一个或更多个处理器进一步执行以下操作的指令:
使用所述嵌入映射来获得各个显著区域的聚类隶属度;并且
使用所述聚类隶属度来生成所述关键属性的直方图,其中,所述关键属性的直方图对关键属性出现的归一化频度进行编码。
10.根据权利要求9所述的非暂时性计算机可读介质,其中,各个显著区域是从所述强度图像中提取的,并且各个显著区域是基于针对所述显著区域中的各个图像像素或者图像像素组的CNN激活来识别的。
11.根据权利要求9所述的非暂时性计算机可读介质,其中,为了生成所述多尺度特征,所述一个或更多个处理器在所述CNN的各个层处执行总体平均池化GAP。
12.根据权利要求9所述的非暂时性计算机可读介质,所述非暂时性计算机可读介质还包括用于使所述一个或更多个处理器进一步执行以下操作的指令:
使用用于聚类的深度嵌入来计算所述强度图像的关键属性包BoKA特征;
将所述BoKA特征与所述CNN的输出特征级联,获得级联的特征;并且
使用所述级联的特征来对所述强度图像中的所述至少一个对象或场景进行分类。
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US201762478033P | 2017-03-28 | 2017-03-28 | |
US62/478,033 | 2017-03-28 | ||
PCT/US2018/024411 WO2018183221A1 (en) | 2017-03-28 | 2018-03-26 | Machine-vision method to classify input data based on object components |
Publications (2)
Publication Number | Publication Date |
---|---|
CN110313017A CN110313017A (zh) | 2019-10-08 |
CN110313017B true CN110313017B (zh) | 2023-06-20 |
Family
ID=63669644
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201880013120.1A Active CN110313017B (zh) | 2017-03-28 | 2018-03-26 | 基于对象组件来对输入数据进行分类的机器视觉方法 |
Country Status (4)
Country | Link |
---|---|
US (1) | US11023789B2 (zh) |
EP (1) | EP3602489B1 (zh) |
CN (1) | CN110313017B (zh) |
WO (1) | WO2018183221A1 (zh) |
Families Citing this family (16)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US11037330B2 (en) | 2017-04-08 | 2021-06-15 | Intel Corporation | Low rank matrix compression |
US11317870B1 (en) | 2017-09-13 | 2022-05-03 | Hrl Laboratories, Llc | System and method for health assessment on smartphones |
US11194330B1 (en) | 2017-11-03 | 2021-12-07 | Hrl Laboratories, Llc | System and method for audio classification based on unsupervised attribute learning |
FR3084631B1 (fr) * | 2018-07-31 | 2021-01-08 | Valeo Schalter & Sensoren Gmbh | Assistance a la conduite pour le controle longitudinal et/ou lateral d'un vehicule automobile |
JP6601644B1 (ja) * | 2018-08-03 | 2019-11-06 | Linne株式会社 | 画像情報表示装置 |
US11954881B2 (en) * | 2018-08-28 | 2024-04-09 | Apple Inc. | Semi-supervised learning using clustering as an additional constraint |
US11562111B1 (en) * | 2018-11-01 | 2023-01-24 | Hrl Laboratories, Llc | Prediction system for simulating the effects of a real-world event |
CN109583942B (zh) * | 2018-11-07 | 2021-05-11 | 浙江工业大学 | 一种基于密集网络的多任务卷积神经网络顾客行为分析方法 |
US11055857B2 (en) | 2018-11-30 | 2021-07-06 | Baidu Usa Llc | Compressive environmental feature representation for vehicle behavior prediction |
US10909681B2 (en) | 2019-01-03 | 2021-02-02 | The Regents Of The University Of California | Automated selection of an optimal image from a series of images |
CN110287836B (zh) * | 2019-06-14 | 2021-10-15 | 北京迈格威科技有限公司 | 图像分类方法、装置、计算机设备和存储介质 |
WO2021011617A1 (en) * | 2019-07-15 | 2021-01-21 | Mobileye Vision Technologies Ltd. | Reducing stored parameters for a navigation system |
CN110675412B (zh) * | 2019-09-27 | 2023-08-01 | 腾讯科技(深圳)有限公司 | 图像分割方法、图像分割模型的训练方法、装置及设备 |
EP4062369A4 (en) * | 2019-11-20 | 2023-08-30 | Xailient | SYSTEMS AND METHODS FOR OBJECT DETECTION AND RECOGNITION |
WO2021203203A1 (en) * | 2020-04-10 | 2021-10-14 | Gao Xihe | Method and system for video encoding guided by hybrid visual attention analysis |
CN116595978B (zh) * | 2023-07-14 | 2023-11-14 | 腾讯科技(深圳)有限公司 | 对象类别识别方法、装置、存储介质及计算机设备 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US9129158B1 (en) * | 2012-03-05 | 2015-09-08 | Hrl Laboratories, Llc | Method and system for embedding visual intelligence |
CN106447658A (zh) * | 2016-09-26 | 2017-02-22 | 西北工业大学 | 基于全局和局部卷积网络的显著性目标检测方法 |
Family Cites Families (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US7724962B2 (en) * | 2006-07-07 | 2010-05-25 | Siemens Corporation | Context adaptive approach in vehicle detection under various visibility conditions |
US8797405B2 (en) * | 2009-08-31 | 2014-08-05 | Behavioral Recognition Systems, Inc. | Visualizing and updating classifications in a video surveillance system |
US8473144B1 (en) * | 2012-10-30 | 2013-06-25 | Google Inc. | Controlling vehicle lateral lane positioning |
US9229453B1 (en) | 2014-08-29 | 2016-01-05 | GM Global Technology Operations LLC | Unified motion planner for autonomous driving vehicle in avoiding the moving obstacle |
US10055850B2 (en) * | 2014-09-19 | 2018-08-21 | Brain Corporation | Salient features tracking apparatus and methods using visual initialization |
CN105426919B (zh) * | 2015-11-23 | 2017-11-14 | 河海大学 | 基于显著性指导非监督特征学习的图像分类方法 |
WO2017130285A1 (ja) * | 2016-01-26 | 2017-08-03 | 三菱電機株式会社 | 車両判定装置、車両判定方法及び車両判定プログラム |
US9830529B2 (en) * | 2016-04-26 | 2017-11-28 | Xerox Corporation | End-to-end saliency mapping via probability distribution prediction |
-
2018
- 2018-03-26 US US15/936,403 patent/US11023789B2/en active Active
- 2018-03-26 WO PCT/US2018/024411 patent/WO2018183221A1/en unknown
- 2018-03-26 EP EP18776168.9A patent/EP3602489B1/en active Active
- 2018-03-26 CN CN201880013120.1A patent/CN110313017B/zh active Active
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US9129158B1 (en) * | 2012-03-05 | 2015-09-08 | Hrl Laboratories, Llc | Method and system for embedding visual intelligence |
CN106447658A (zh) * | 2016-09-26 | 2017-02-22 | 西北工业大学 | 基于全局和局部卷积网络的显著性目标检测方法 |
Also Published As
Publication number | Publication date |
---|---|
US11023789B2 (en) | 2021-06-01 |
WO2018183221A1 (en) | 2018-10-04 |
US20180285699A1 (en) | 2018-10-04 |
CN110313017A (zh) | 2019-10-08 |
EP3602489B1 (en) | 2023-08-23 |
EP3602489A1 (en) | 2020-02-05 |
EP3602489A4 (en) | 2021-01-13 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110313017B (zh) | 基于对象组件来对输入数据进行分类的机器视觉方法 | |
US20220375222A1 (en) | System and method for the fusion of bottom-up whole-image features and top-down enttiy classification for accurate image/video scene classification | |
US20200012865A1 (en) | Adapting to appearance variations when tracking a target object in video sequence | |
US10755149B2 (en) | Zero shot machine vision system via joint sparse representations | |
CN109997152B (zh) | 利用多尺度流形对准的零样本学习 | |
CN110352429B (zh) | 用于对象的判别定位的机器视觉系统 | |
CN110383291B (zh) | 理解机器学习决策的系统、方法、计算机可读介质 | |
US10607111B2 (en) | Machine vision system for recognizing novel objects | |
US20200125982A1 (en) | System and method for unsupervised domain adaptation via sliced-wasserstein distance | |
WO2021118697A1 (en) | Process to learn new image classes without labels | |
CN117157678A (zh) | 用于基于图的全景分割的方法和系统 | |
CN110263877B (zh) | 场景文字检测方法 | |
US11194330B1 (en) | System and method for audio classification based on unsupervised attribute learning | |
US20230154157A1 (en) | Saliency-based input resampling for efficient object detection | |
Khellal et al. | Pedestrian classification and detection in far infrared images | |
Liang et al. | Car detection and classification using cascade model | |
Wang et al. | LiDAR–camera fusion for road detection using a recurrent conditional random field model | |
Nandhini et al. | An extensive review on recent evolutions in object detection algorithms | |
Xu et al. | An active region corrected method for weakly supervised aircraft detection in remote sensing images | |
Duan et al. | Cascade feature selection and coarse-to-fine mechanism for nighttime multiclass vehicle detection | |
US20220122594A1 (en) | Sub-spectral normalization for neural audio data processing | |
WO2024130688A1 (en) | Image set anomaly detection with transformer encoder | |
US11710344B2 (en) | Compact encoded heat maps for keypoint detection networks | |
Anitha | An Efficient Region Based Object Detection method using Deep learning Algorithm | |
Bousarhane et al. | New deep learning architecture for improving the accuracy and the inference time of traffic signs classification in intelligent vehicles |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |