CN109643390A

CN109643390A - 使用尖峰神经网络在数字图像和视频中进行对象检测的方法

Info

Publication number: CN109643390A
Application number: CN201780050666.XA
Authority: CN
Inventors: 曹永强; 姜勤; 陈洋; D·科斯拉
Original assignee: HRL Laboratories LLC
Current assignee: HRL Laboratories LLC
Priority date: 2016-09-19
Filing date: 2017-05-23
Publication date: 2019-04-16
Anticipated expiration: 2037-05-23
Also published as: WO2018052496A1; EP3516592A1; CN109643390B; EP3516592A4

Abstract

描述了一种使用尖峰神经网络在图像或视频中进行对象检测的系统。使用尖峰神经网络根据具有颜色分量的输入图像的强度生成强度显著性映射。另外，使用尖峰神经网络根据输入图像中的多种颜色生成颜色显著性映射。通过组合强度显著性映射和多个颜色显著性映射来生成对象检测模型。对象检测模型用于检测输入图像中的多个关注对象。

Description

使用尖峰神经网络在数字图像和视频中进行对象检测的方法

政府许可权利

本发明是在美国政府合同号HR0011-09-C-0001的政府支持下完成的。政府拥有本发明的某些权利。

发明的背景

(1)技术领域

本发明涉及对象检测系统，更具体地，涉及使用尖峰神经网络(spiking neuralnetwork)的对象检测系统。

(2)背景技术

移动对象检测模型或运动模型擅长检测固定摄像头拍摄的视频中的移动对象(即，背景不移动)。然而，运动模型不善于检测移动摄像头拍摄的视频中的静止对象或移动对象，这是因为背景也在移动。

另一方面，显著性模型可以检测到显著的对象，无论在固定和移动摄像头视频中的对象是否移动。然而，传统的显著性模型仍然可能错过非显著但感兴趣的对象。受早期初级(primate)视觉系统的启发，Itti等人在IEEE Trans.on Pattern Analysis andMachine Intelligence,20(11),1254-1259的“A model of saliency-based visualattention for rapid scene analysis”(以下称为Itti 1998)中和Vision Research,40,1489-1506的“A saliency-based search mechanism for overt and covert shifts ofvisual attention”(以下称为Itti 2000)中，提出了一种检测图像中的显著点的显著性模型，这两篇文献都通过引用结合在此，如同在此完全阐述一样。它们的显著性模型通过从多个通道(例如，图像强度和颜色)构建显著性映射(saliency map)来找到显著点。然而，像其他显著性模型一样，它可能错过较不显著但感兴趣的对象。

因此，存在对可以检测视频(包括移动摄像头视频)中的显著和较不显著的关注对象的对象检测方法的持续需求。

发明内容

本发明涉及一种对象检测系统，更具体地，涉及一种使用尖峰神经网络的对象检测系统。该系统包括一个或更多个处理器和具有指令的存储器，使得当执行指令时，一个或更多个处理器执行多个操作。该系统使用尖峰神经网络根据具有颜色分量的输入图像的强度生成强度显著性映射。使用尖峰神经网络根据输入图像中的每个颜色分量生成颜色显著性映射。通过组合强度显著性映射和至少一个颜色显著性映射来生成对象检测模型。对象检测模型用于检测输入图像中的多个关注对象。

在另一方面，根据输入图像的强度生成多个尖峰(spike)。将多个尖峰与高斯核(Gaussian kernel)卷积以生成多个高斯映射(Gaussian map)，每个高斯映射具有不同的比例。根据多个高斯映射生成一组特征映射。通过将一组特征映射相加生成一组最终特征映射，并且通过将一组最终特征映射相加来生成强度显著性映射。

在另一方面，针对输入图像中的每个颜色分量生成多个尖峰。对于每个颜色分量，将多个尖峰与高斯核卷积以生成多个高斯映射，每个高斯映射具有不同的比例。对于每个颜色分量，根据多个高斯映射生成一组特征映射。对于每个颜色分量，通过将一组特征映射相加生成一组最终特征映射，并且对于每个颜色分量，通过将一组最终特征映射相加来生成颜色显著性映射。

在另一方面，对来自每个强度显著性映射和颜色显著性映射的尖峰进行累积，并且将阈值应用于所累积的尖峰。获得最终显著性尖峰活动，并且根据最终显著性尖峰活动获得对象检测盒。

在另一方面，根据输入图像的总强度对颜色分量进行归一化。

在另一方面，归一化包括针对亮图像增加尖峰活动。

在另一方面，归一化包括针对暗图像减少尖峰活动。

在另一方面，在输入图像中检测显著的关注对象和较不显著的关注对象。

在另一方面，用低功率尖峰神经形态硬件实现对象检测模型。

在另一方面，本发明还包括一种用于使处理器执行本文描述的操作的方法。

最后，在又一方面，本发明还包括一种包含存储在非暂时性计算机可读介质上的计算机可读指令的计算机程序产品，该计算机可读指令可由具有处理器的计算机执行，用于使处理器执行本文所述的操作。

附图说明

本专利或专利申请公开的文件包含至少一幅彩色附图。具有彩色附图的本专利或专利申请公开的副本将在请求和支付必要费用后由主管局提供。

本发明的目的、特征和优点将通过以下结合参考以下附图对本发明的各个方面的详细描述而显而易见，附图中：

图1是描绘根据本公开的各种实施方式的使用尖峰神经网络的对象检测系统的组件的框图。

图2是根据本公开的各种实施方式的计算机程序产品的例示；

图3是根据本公开的各种实施方式的用于强度显著性映射的网络结构的例示；

图4是根据本公开的各种实施方式的使用蓝/黄对立颜色通道作为示例的用于颜色显著性映射的网络结构的例示；

图5是根据本公开的各种实施方式的用于检测各种尺寸和颜色的对象的多个通道的组合的例示；

图6A是根据本公开的各种实施方式的输入图像；

图6B是根据本公开的各种实施方式的检测图6A中的静止的人的小比例强度通道的例示；

图7A是根据本公开的各种实施方式的输入图像；

图7B是根据本公开的各种实施方式的检测图7A中的蓝色汽车的中等比例蓝色通道的例示；

图8A是根据本公开的各种实施方式的输入图像；

图8B是根据本公开的各种实施方式的检测图8A中的站在蓝色汽车后面的人和两个骑行者的小比例蓝色通道的例示；

图9A是根据本公开的各种实施方式的亮输入图像；

图9B是根据本公开的各种实施方式的针对图9A的未亮度归一化的中等比例蓝色通道结果的例示；

图9C是根据本公开的各种实施方式的暗输入图像；

图9D是根据本公开的各种实施方式的针对图9C的未亮度归一化的中等比例蓝色通道结果的例示；

图10A是根据本公开的各种实施方式的针对图9A的亮度归一化的中等比例蓝色通道结果的例示；

图10B是根据本公开的各种实施方式的针对图9C的亮度归一化的中等比例蓝色通道结果的例示；以及

图11是根据本公开的各种实施方式的具有通过组合小比例强度通道、小比例蓝色通道和中等比例蓝色通道的对象检测盒的图像结果。

具体实施方式

本发明涉及一种对象检测系统，更具体地，涉及一种使用尖峰神经网络的对象检测系统。呈现以下描述以使得本领域普通技术人员能够制造和使用本发明并将其结合到特定应用的背景中。对于本领域技术人员来说，各种修改以及在不同应用中的各种用途将是显而易见的，并且本文中定义的一般原理可以应用于广泛的方面。因此，本发明不旨在限于所呈现的方面，而是符合与本文公开的原理和新颖特征相一致的最宽范围。

在以下详细描述中，阐述了许多具体细节以便提供对本发明的更透彻的理解。然而，对于本领域技术人员来说显而易见的是，可以实践本发明而不必限于这些具体细节。在其他情况下，众所周知的结构和设备以框图形式而不是详细地示出，以避免使本发明晦涩难懂。

读者的注意力集中在与本说明书同时提交并且与本说明书一起对公众开放查阅的所有文件和文档中，所有这些文件和文档的内容通过引用结合在此。本说明书中公开的所有特征(包括任何随附的权利要求、摘要和附图)可以由用于相同、等同或类似目的替代特征替换，除非另有明确说明。因此，除非另有明确说明，否则所公开的每个特征仅是同属的一系列等效或类似特征的一个示例。

此外，没有明确说明用于执行指定功能的“装置”或用于执行特定功能的“步骤”的权利要求中任何元素不应被解释为35U.S.C.第112节第6段中规定的“装置”或“步骤”条款。特别地，在本文权利要求中使用“…的步骤”或“…的动作”并非旨在引用35U.S.C.第112节第6段的规定。

请注意，如果使用，标签左、右、前、后、上、下、正向、逆向、顺时针和逆时针仅用于方便的目的，并不旨在暗示任何特定的固定方向。相反，它们用于反映对象的各个部分之间的相对位置和/或方向。这样，当本发明改变时，上述标签可以改变它们的取向。

在详细描述本发明之前，首先提供了本发明的各种主要方面的描述。接着是提供本发明的概述的介绍。最后，提供了本发明的具体细节以给出对特定方面的理解。

(1)主要方面

本发明具有三个“主要”方面。第一个主要方面是使用尖峰神经网络的对象检测系统。该系统通常采用操作软件的计算机系统的形式或“硬编码”指令集的形式。该系统可以结合到提供不同功能的各种设备中。第二个主要方面是使用数据处理系统(计算机)操作的通常以软件形式的方法。第三个主要方面是计算机程序产品。该计算机程序产品通常代表存储在非暂时性计算机可读介质(例如，诸如压缩盘(CD)或数字通用盘(DVD)的光学存储设备、或者诸如软盘或磁带的磁存储设备)上的计算机可读指令。计算机可读介质的其他非限制性示例包括硬盘、只读存储器(ROM)和闪存型存储器。下面将更详细地描述这些方面。

图1中提供了描绘本发明的系统(即，计算机系统100)的示例的框图。计算机系统100被配置为执行与程序或算法相关联的计算、处理、操作和/或功能。在一个方面中，本文讨论的某些处理和步骤被实现为存在于计算机可读存储器单元内并由计算机系统100的一个或更多个处理器执行的一系列指令(例如，软件程序)。当执行时，这些指令使计算机系统100执行特定动作并展示特定行为，例如本文所述。

计算机系统100可以包括被配置为传送信息的地址/数据总线102。另外，一个或更多个数据处理单元，例如处理器104(或多个处理器)，与地址/数据总线102联接。处理器104被配置为处理信息和指令。在一个方面中，处理器104是微处理器。或者，处理器104可以是不同类型的处理器，例如并行处理器或现场可编程门阵列。

计算机系统100被配置为利用一个或更多个数据存储单元。计算机系统100可以包括与地址/数据总线102联接的易失性存储器单元106(例如，随机存取存储器(“RAM”)、静态RAM、动态RAM等)，其中易失性存储器单元106被配置为存储用于处理器104的信息和指令。计算机系统100还可以包括与地址/数据总线102联接的非易失性存储器单元108(例如，只读存储器(“ROM”)、可编程ROM(“PROM”)、可擦除可编程ROM(“EPROM”)、电可擦除可编程ROM(“EEPROM”)、闪存等)，其中非易失性存储器单元108被配置为存储用于处理器104的静态信息和指令。或者，计算机系统100可以执行从在线数据存储单元读取的指令，例如在“云”计算中。在一个方面中，计算机系统100还可以包括与地址/数据总线102联接的一个或更多个接口，例如接口110。该一个或更多个接口被配置为使计算机系统100能够与其他电子设备和计算机系统交互。由一个或更多个接口实现的通信接口可以包括有线(例如，串行电缆、调制解调器、网络适配器等)和/或无线(例如，无线调制解调器、无线网络适配器等)通信技术。

在一个方面中，计算机系统100可以包括与地址/数据总线102联接的输入设备112，其中输入设备112被配置为将信息和命令选择传送到处理器100。根据一个方面，输入设备112是字母数字输入设备，例如键盘，其可以包括字母数字和/或功能键。或者，输入设备112可以是除字母数字输入设备之外的输入设备。例如，输入设备112可以包括一个或更多个传感器，例如用于视频或静止图像的摄像头、麦克风或神经传感器。其他示例输入设备112可以包括加速计、GPS传感器或陀螺仪。

在一个方面中，计算机系统100可以包括与地址/数据总线102联接的光标控制设备114，其中光标控制设备114被配置为将用户输入信息和/或命令选择传送到处理器100。在一个方面中，使用诸如鼠标、跟踪球、跟踪板、光学跟踪设备或触摸屏之类的设备来实现光标控制设备114。尽管如此，在一个方面中，光标控制设备114经由来自输入设备112的输入被引导和/或激活，例如响应于使用与输入设备112相关联的特定键和键序列命令。在替代方面中，光标控制设备114被配置为由语音命令引导或操纵。

在一个方面中，计算机系统100还可以包括与地址/数据总线102联接的一个或更多个可选的计算机可用数据存储设备，例如存储设备116。存储设备116被配置为存储信息和/或计算机可执行指令。在一个方面中，存储设备116是诸如磁盘或光盘驱动器(例如，硬盘驱动器(“HDD”)、软盘、压缩盘只读存储器(“CD-ROM”)、数字通用盘(“DVD”))的存储设备。根据一个方面，显示设备118与地址/数据总线102联接，其中显示设备118被配置为显示视频和/或图形。在一个方面中，显示设备118可以包括阴极射线管(“CRT”)、液晶显示器(“LCD”)、场发射显示器(“FED”)、等离子显示器或适于显示视频和/或图形图像以及用户可识别的字母数字字符的任何其他显示设备。

本文呈现的计算机系统100是根据一个方面的示例计算环境。然而，计算机系统100的非限制性示例并不严格限于是计算机系统。例如，一个方面提供了计算机系统100代表可以根据本文描述的各个方面使用的一种类型的数据处理分析。此外，也可以实现其他计算系统。实际上，本技术的精神和范围不限于任何单个数据处理环境。因此，在一个方面中，使用由计算机执行的计算机可执行指令(例如程序模块)来控制或实现本技术的各个方面的一个或更多个操作。在一个实现方式中，这样的程序模块包括被配置为执行特定任务或实现特定抽象数据类型的例程、程序、对象、组件和/或数据结构。另外，一个方面提供了通过利用一个或更多个分布式计算环境来实现本技术的一个或更多个方面，例如，在该分布式计算环境中通过经通信网络链接的远程处理设备执行任务，或者例如，在该分布式计算环境中各种程序模块位于本地和远程计算机存储介质(包括存储器存储设备)中。

图2中描绘了体现本发明的计算机程序产品(即，存储设备)的例示性的图。计算机程序产品被描绘为软盘200或诸如CD或DVD的光盘202。然而，如前所述，计算机程序产品通常代表存储在任何兼容的非暂时性计算机可读介质上的计算机可读指令。关于本发明使用的术语“指令”通常表示要在计算机上执行的一组操作，并且可以代表整个程序或单独的、可分离的软件模块的片段。“指令”的非限制性示例包括计算机程序代码(源代码或目标代码)和“硬编码”电子器件(即，编码到计算机芯片中的计算机操作)。“指令”存储在任何非暂时性计算机可读介质上，例如存储在计算机的存储器中或软盘、CD-ROM和闪存上。在任一情况下，指令均在非暂时性计算机可读介质上编码。

(2)介绍

为了识别图像或视频中的对象，第一步是确定图像中找到对象的可能位置。对于固定摄像头视频中的移动对象，大多数运动模型可以进行合理作业。但是，运动模型不适用于静止对象。运动模型也不能轻易扩展到用于移动摄像头视频，因为在移动摄像头视频中包括背景在内的一切都在移动。定位图像中的对象的主流方法是基于利用受训分类器对关注对象进行穷举搜索。由于在穷举搜索中要评估的窗口总数很大，因此计算成本对于大多数应用来说是不切实际的。另一方面，当人观察场景时，注意力在定位对象中起关键作用。受初级早期视觉注意系统的启发，显著性模型(如Itti 1998和Itti 2000中所述)试图通过建立显著性映射来检测图像中的显著点(区域)。但是，当专注于检测显著对象时，显著性模型可能会错过非显著对象。根据本文描述的实施方式的系统检测固定摄像头视频中的静止对象或移动摄像头视频中的对象(例如，在诸如无人驾驶飞行器(UAV)的移动平台上)，即使当对象在其他模型中不显著时。

(3)发明的具体细节

描述了用于图像或视频中的对象检测的尖峰神经网络(SNN)模型。SNN实现方式直接映射到新兴的超低功率尖峰神经形态硬件应用，例如Cruz-Albrecht等人在IEEETransactions on Biomedical Circuits and Systems，6(3)，246-256,2012的"Energyefficient neuron,synapse and STDPintegrated circuits"以及Merolla等人在Science,Vol.345,Issue 6197,668-673,2014的"A million spiking-neuron integratedcircuit with a scalable communication network and interface"中描述的那些应用，这两篇文献都通过引用结合在此，如同在此完全阐述一样。另外，根据本公开的一些实施方式的系统可以检测固定摄像头视频中的静止对象或移动摄像头视频(例如，无人驾驶飞行器(UAV))中的对象，无论对象在典型条件下是否显著。此外，描述了一种根据整体图像亮度进行颜色通道归一化的方法。这使得根据本公开的实施方式的模型在各种照明条件下工作良好。

与现有运动模型相比，本文描述的系统可以检测固定摄像头视频中的静止对象或移动摄像头视频中的所有关注对象。与现有的显著性模型相比，它可以检测这些模型无法检测到的关注对象。与使用穷举搜索的传统对象检测方法相比，本发明提供了一种用于对象检测的非常有效的计算模型。

(3.1)尖峰神经元模型

根据本公开的一些实施方式的用于神经形态实现方式的尖峰神经元全部是漏电整合放电(leaky integrate-and-fire)型神经元，其膜电位(V)由下式定义：

V(t)＝L+V(t-1)+I(t)， (1)

如果V(t)≥θ，则尖峰结果V(t)＝0， (2)

如果V(t)＜0，则结果V(t)＝0。 (3)

这里，L是漏电参数，I(t)是所有输入的加权和。每当其膜电位V超过阈值θ时，神经元放电并且V被重置为零(等式(2))。膜电位V不允许低于其静止状态零(等式(3))。

(3.2)强度显著性

可以从多个通道(包括图像强度和颜色)确定对象显著性。图3例示了用于从图像强度构建显著性映射的神经形态实现方式的网络结构。虚线箭头线表示连接是可选的。首先，根据输入图像302的强度生成尖峰300。然后，作为输入映射的尖峰300与6个高斯核304进行卷积以生成6个比例的高斯映射(例如，比例1(元素306)、比例2(元素308)、比例4(元素310)、比例6(元素312))。用于比例i(i＝1...6)的高斯核304Wⁱ由下式定义：

其中

σ_i＝i*f， (5)

其中p，q＝-2σ_i，…，2σ_i，因此，核的大小为(4σ_i+1)×(4σ_i+1)。f是恒定的比例因子，其可以改变以适应各种大小的对象和图像分辨率。例如，可以选择f＝1用于检测小比例对象(例如，人)，f＝4用于中等比例对象(例如，汽车)。

现在，对第i个比例的高斯映射的输入I(t)之和(参见等式(1))可以定义为：

其中，A_p+m，q+n(t)是根据输入图像强度302生成的输入尖峰300。这些输入尖峰300如下生成：

在时刻t，像素(i，j)处的神经元产生尖峰，当且仅当

其中rand()是在(0，1)上具有均匀分布的随机数生成器，Q是用于缩放生成的尖峰的频率的常数，是像素(i，j)处的图像强度，其归一化到[0，1]。当输入图像是RGB彩色图像时，可以由下式定义

Q＝0.5用于实验研究。

注意，对于所有比例(元素306-312)，高斯映射的像素大小与输入图像(元素302)的像素大小相同。这与Itti等人(Itti 1998，Itti 2000)描述的模型不同，其中使用具有通过对输入图像进行二次采样而生成的不同尺寸的图像的高斯金字塔。

下一步是生成开启(ON)特征映射和关闭(OFF)特征映射，如图3所描绘。通过从小比例高斯映射中减去大比例高斯映射来生成开启特征映射314。相反，通过从大比例高斯映射中减去小比例高斯映射来生成关闭特征映射316。例如，使用小比例高斯映射c＝1，2和大比例高斯映射s＝c+{3，4}，在图3中生成四个开启特征映射314和四个关闭特征映射316。

然后，通过将开启特征映射314和关闭特征映射316相加来获得四个最终特征映射318。具有DoG(高斯差分)核320的反馈(或横向抑制)是可选的。为了检测最显著的对象，需要强横向抑制来抑制弱对象。然而，为了检测所有关注对象，无论它们有多么显著，都不建议使用强抑制。否则，可能抑制弱对象。关注对象通常不是背景对象。汽车和人通常是关注对象，而树木、草和道路则不是。一些关注对象(例如，小的人)在现有模型中被认为较不显著。在实验研究中，没有横向抑制实际上与弱横向抑制起到一样好的作用。然而，弱横向抑制有时可能有助于抑制噪声。最后，将全部四个最终特征映射318相加以获得最终强度显著性映射322。

(3.3)颜色显著性

图4例示了使用蓝/黄色通道作为示例的颜色显著性映射的网络结构。虚线箭头线表示连接是可选的。首先通过局部图像强度(I)对彩色输入图像400(rgb(红、绿、蓝))进行归一化，以如下从强度中解耦色调：

如果I＜10，则c＝0， (9)

如果I≥10，则c＝c/I， (10)

其中c是颜色红色、绿色或蓝色，I是由下式定义的图像强度：

I＝(r+.g+b)/3。 (11)

然后如下生成四个颜色分量R(红)、G(绿)、B(蓝)、Y(黄)：

该预处理步骤与Itti等人描述的模型中的相同。它有助于生成纯色分量(即，颜色分量生成402)。但是，它有一个缺点。它在暗图像中生成比在亮图像中更强的颜色信号。因此，在根据本公开的一些实施方式的模型中添加明度/亮度归一化404处理，这将在下面进一步详细描述。

其余处理类似于图3中所示的强度通道。分别根据蓝色输入406和黄色输入408生成尖峰414和416。然后，将尖峰414和416与6个高斯核304进行卷积，以生成针对每个颜色输入(即，蓝色输入406和黄色输入408)的6个比例的高斯映射418。然而，对于每个双对立颜色对(例如，蓝/黄)，存在两个颜色输入(蓝色输入406和黄色输入408)，而不是一个强度输入。结果，用于色差的每个特征映射(例如，元素410和412)具有四个输入。特征映射410和412用于生成反复的(recurrent)DoG核特征映射(例如，元素420和422)，将其相加以生成颜色显著性映射424。

图4仅示出了针对蓝/黄双对立颜色对的示例。类似地，可以计算针对黄/蓝、红/绿和绿/红双对立颜色对的显著性映射。注意，对于每个双对立颜色对中心/环绕(C/S)，S(环绕)颜色是可选的。根据实验研究，仅使用C(中心)颜色更好并且在某些情况下产生更少噪声的结果(如下面详细描述的)。

(3.4)通过全局亮度的颜色归一化

如上所述，生成颜色分量的预处理(元素402)在暗图像中产生比在亮图像中更强的颜色信号。这在最终颜色显著性映射424中针对暗图像提供了更强的尖峰活动。然而，当执行了适当的明度归一化404时，可以针对亮图像增加颜色通道尖峰活动，同时针对暗图像减少尖峰活动，使得处理对图像亮度是不变的。该处理是根据输入图像400的总强度来对颜色分量进行归一化。方法如下。设I为具有0到255的值的图像强度，归一化因子定义如下：

其中mean(I)是所有图像像素的平均强度，α取在1/2到1之间的值。在实验研究中，α＝2/3效果很好。然后，对于每个颜色分量C(R、G、B或Y)，将C重新定义为：

C＝N*C。 (17)

(3.5)组合多个通道以检测各种尺寸和颜色的对象

到目前为止，存在一个强度通道(或强度显著性映射322)和四个双对立颜色通道(即，颜色显著性映射424)。可以将来自所有这些通道的若干比例(以比例因子定义)的显著性映射相加在一起以生成最终对象检测盒500。图5描绘了如何针对视频输入将来自各个显著性映射的尖峰加在一起以检测各种尺寸和颜色的对象的示例。为了获得良好的最终显著性尖峰活动502，可能需要首先对多个连续帧中的尖峰进行累积(即，多个帧504、506和508中的尖峰累积)，然后在将多个通道和比例加在一起之前阈值化(threshold)510。可以从最终显著性尖峰活动502获得对象检测盒500。通过将最终显著性尖峰活动映射处理为灰度图像，可以使用将对象检测盒添加到显著性映射的典型方法。在下面描述的仿真中，首先对20个图像帧进行累积。然后，通过下式获得最终显著性尖峰活动：

S＝0.5*max(S_I-8，0)+S_C+max(S_CM-6，0)， (18)

其中S是最终显著性尖峰活动502，S_I是来自小比例强度通道512的累积尖峰504(或显著性映射)，S_C是来自小比例蓝色通道514的累积尖峰506，S_CM是来自中等比例蓝色通道516的累积尖峰508。等式(18)中的数字8和6是阈值510。等式(18)中针对每个通道的权重和阈值数字是通过对斯坦福视频的实验研究确定的非限制性示例。对于其他视频，它们可能不同。累积需要超过要考虑的阈值以便抑制噪声。低于阈值的一切均被视为噪声。

(3.6)实验研究

在25个斯坦福视频中测试了根据本公开的实施方式的模型(参见Itti，L.，(2013)“Neovision2annotated video datasets”，可在http：//ilab.usc.edu/neo2/dataset/获得，拍摄于2016年3月8日，用于测试本发明的斯坦福视频的描述)。表1示出了用于尖峰神经元的非限制性漏电和放电阈值参数的列表。

表1：尖峰神经元的漏电和放电阈值参数

图6A和图6B示出了输入图像(图6A)和来自小比例(等式5中的比例因子f＝1)强度显著性映射的结果(图6B)。强度显著性映射检测具有非常强的尖峰活动的静止的人(用红色圈出)。

图7A和图7B示出了输入图像(图7A)和来自中等比例(比例因子f＝4)蓝色显著性映射的结果(图7B)。它检测到蓝色汽车。注意，对于此处报告的所有蓝色通道结果，未使用可选的对立颜色(例如，黄色)。这样做在仿真中提供更清晰的结果。

图8A和图8B示出了输入图像(图8A)和来自小比例蓝色显著性映射的结果(图8B)。它检测到站在蓝色汽车后面的蓝色的人，以及道路上的两个骑行者。

图9A至图9D示出了来自针对亮图像和暗图像(分别为图9A和图9C)的中等比例蓝色显著性映射的结果(图9B和图9D)，没有进行亮度/明度归一化。如图9D所示，暗图像(图9C)的尖峰活动比亮图像(图9A)强得多。亮图像(图9A)的最大尖峰活动是16个尖峰，而暗图像(图9C)是45个。暗图像结果(图9D)也噪声更大。

图10A和图10B分别示出了图9A和图9C的亮度归一化之后的结果。对于两个输入图像，尖峰活动现在处于类似的水平。

图11示出了对象检测盒的结果，其组合了小比例强度通道、小比例蓝色通道和中等比例蓝色通道。这里示出的结果是针对斯坦福视频序列037中的图像帧38。检测到站在蓝色汽车后面的两个静止的人。它还检测到蓝色汽车和游泳池。尽管可以通过运动模型检测到道路上的四个行走者，但是特定强度和颜色通道组合(即，小比例强度通道、小比例蓝色通道和中等比例蓝色通道)可以检测到他们中的两个。将红色和黄色通道添加到组合，也可以检测到红色和黄色的行走者。

本文描述的发明应用于可以从对象检测和识别中受益的任何商业产品。微型无人驾驶飞行器(UAV)市场是可以从根据本公开的实施方式的系统中受益的商业市场的非限制性示例。与传统的CPU/GPU实现方式相比，UAV可以构建有对象检测和识别能力，以供具有较低的功率要求(来自电池)的监测，从而得到更轻和/或具有更长的续航时间的UAV。

此外，任何需要低功率视频处理的应用都可以从本发明中受益。例如，配备有基于尖峰的处理器的无人驾驶(self-driving)车辆(例如，汽车)可以使用本文描述的系统执行实时视频处理，用于在比当前已做到的更低的功率下进行实时对象检测和识别(例如，行人、汽车、街道标志)，从而使得更轻和更便宜的自动驾驶车辆成为可能。

最后，虽然已经按几个实施方式描述了本发明，但是本领域普通技术人员将容易认识到，本发明可以在其他环境中具有其他应用。应该注意，许多实施方式和实现方式都是可能的。此外，所附权利要求绝不旨在将本发明的范围限制于上述具体实施方式。此外，任何对“......的装置”的叙述都是旨在唤起对元素和权利要求的装置加功能的解读，而任何不特别使用“......的装置”的叙述的元素都不应被解读为装置加功能元素，即使权利要求包含“装置”一词。此外，虽然已经以特定顺序列举了特定方法步骤，但是方法步骤可以以任何期望的顺序发生并且落入本发明的范围内。

Claims

1.一种使用尖峰神经网络进行对象检测的系统，所述系统包括：

一个或更多个处理器以及编码有指令的非暂时性存储器，使得当执行所述指令时，所述一个或更多个处理器执行以下操作：

利用所述一个或更多个处理器，使用尖峰神经网络根据具有颜色分量的输入图像的强度生成强度显著性映射；

使用所述尖峰神经网络针对所述输入图像中的多个颜色分量生成颜色显著性映射；

通过组合所述强度显著性映射和至少一个所述颜色显著性映射来生成对象检测模型；以及

使用所述对象检测模型检测所述输入图像中的多个关注对象。

2.根据权利要求1所述的系统，其中，所述一个或更多个处理器还执行以下操作：

根据所述输入图像的强度生成多个尖峰；

用高斯核对所述多个尖峰进行卷积以生成多个高斯映射，每个高斯映射具有不同的比例；

根据所述多个高斯映射生成一组特征映射；

通过将所述一组特征映射相加来生成一组最终特征映射；以及

通过将所述一组最终特征映射相加来生成强度显著性映射。

3.根据权利要求2所述的系统，其中，所述一个或更多个处理器还执行以下操作：

针对所述输入图像中的每个颜色分量生成多个尖峰；

针对每个映射的颜色分量，用高斯核对所述多个尖峰进行卷积以生成多个高斯映射，每个高斯映射具有不同的比例；

针对每个映射的颜色分量，根据所述多个高斯映射生成一组特征映射；

针对每个映射的颜色分量，通过将所述一组特征映射相加生成一组最终特征映射；以及

针对每个映射的颜色分量，通过将所述一组最终特征映射相加来生成颜色显著性映射。

4.根据权利要求3所述的系统，其中，所述一个或更多个处理器还执行以下操作：

对来自每个强度显著性映射和颜色显著性映射的尖峰进行累积；

对所累积的尖峰应用阈值；

获得最终显著性尖峰活动；以及

根据所述最终显著性尖峰活动获得对象检测盒。

5.根据权利要求1所述的系统，其中，根据所述输入图像的总强度对所述颜色分量进行归一化。

6.根据权利要求5所述的系统，其中，归一化包括针对亮图像增加尖峰活动。

7.根据权利要求5所述的系统，其中，归一化包括针对暗图像减少尖峰活动。

8.根据权利要求1所述的系统，其中，在所述输入图像中检测显著的关注对象和较不显著的关注对象二者。

9.根据权利要求1所述的系统，其中，用低功率尖峰神经形态硬件实现所述对象检测模型。

10.一种使用尖峰神经网络进行对象检测的计算机实现的方法，所述方法包括以下步骤：

使一个或更多个处理器执行存储在非暂时性存储器上的指令，使得在执行时，所述一个或更多个处理器执行以下操作：

11.根据权利要求10所述的方法，其中，所述一个或更多个处理器还执行以下操作：

根据所述输入图像的强度生成多个尖峰；

根据所述多个高斯映射生成一组特征映射；

通过将所述一组最终特征映射相加来生成所述强度显著性映射。

12.根据权利要求11所述的方法，其中，所述一个或更多个处理器还执行以下操作：

针对所述输入图像中的每个颜色分量生成多个尖峰；

对于每个映射的颜色分量，用高斯核对所述多个尖峰进行卷积以生成多个高斯映射，每个高斯映射具有不同的比例；

对于每个映射的颜色分量，根据所述多个高斯映射生成一组特征映射；

对于每个映射的颜色分量，通过将所述一组特征映射相加生成一组最终特征映射；以及

对于每个映射的颜色分量，通过将所述一组最终特征映射相加来生成颜色显著性映射。

13.根据权利要求12所述的方法，其中，所述一个或更多个处理器还执行以下操作：

对所累积的尖峰应用阈值；

获得最终显著性尖峰活动；以及

根据所述最终显著性尖峰活动获得对象检测盒。

14.根据权利要求10所述的方法，其中，根据所述输入图像的总强度对所述颜色分量进行归一化。

15.根据权利要求14所述的方法，其中，归一化包括针对亮图像增加尖峰活动。

16.根据权利要求14所述的方法，其中，归一化包括针对暗图像减少尖峰活动。

17.根据权利要求10所述的方法，其中，在所述输入图像中检测显著的关注对象和较不显著的关注对象二者。

18.根据权利要求10所述的方法，其中，用低功率尖峰神经形态硬件实现所述对象检测模型。

19.一种使用尖峰神经网络进行对象检测的计算机程序产品，所述计算机程序产品包括：

存储在非暂时性计算机可读介质上的计算机可读指令，所述计算机可读指令能够由具有一个或更多个处理器的计算机执行，以使所述处理器执行以下操作：

20.根据权利要求19所述的计算机程序产品，所述计算机程序产品还包括用于使所述一个或更多个处理器执行以下操作的指令：

根据所述输入图像的强度生成多个尖峰；

根据所述多个高斯映射生成一组特征映射；

21.根据权利要求20所述的计算机程序产品，所述计算机程序产品还包括用于使所述一个或更多个处理器执行以下操作的指令：

针对所述输入图像中的每个颜色分量生成多个尖峰；

22.根据权利要求21所述的计算机程序产品，所述计算机程序产品还包括用于使所述一个或更多个处理器进一步执行以下操作的指令：

对所累积的尖峰应用阈值；

获得最终显著性尖峰活动；以及

根据所述最终显著性尖峰活动获得对象检测盒。

23.根据权利要求19所述的计算机程序产品，其中，根据所述输入图像的总强度对所述颜色分量进行归一化。

24.根据权利要求23所述的计算机程序产品，其中，归一化包括针对亮图像增加尖峰活动。

25.根据权利要求23所述的计算机程序产品，其中，归一化包括针对暗图像减少尖峰活动。

26.根据权利要求19所述的计算机程序产品，其中，在所述输入图像中检测显著的关注对象和较不显著的关注对象二者。

27.根据权利要求19所述的计算机程序产品，其中，用低功率尖峰神经形态硬件实现所述对象检测模型。