CN107251059A

CN107251059A - 用于深度学习的稀疏推理模块

Info

Publication number: CN107251059A
Application number: CN201680011079.5A
Authority: CN
Inventors: P·K·皮利; N·D·斯特普; N·斯里尼瓦萨
Original assignee: HRL Laboratories LLC
Current assignee: HRL Laboratories LLC
Priority date: 2015-03-24
Filing date: 2016-03-24
Publication date: 2017-10-13
Also published as: US20170316311A1; EP3274930A1; WO2016154440A1; EP3274930A4

Abstract

描述了一种能够并入到深度学习系统的稀疏推理模块。例如，所述深度学习系统包括多个分层特征信道层，每个特征信道层都具有一组过滤器。可以包括多个稀疏推理模块，使得每个特征信道层内都电子地驻留稀疏推理模块。每个稀疏推理模块都被配置成，接收数据并且针对多个图案模板匹配所述数据，以生成针对所述多个图案模板中的每个图案模板的匹配度值，其中所述匹配度值被稀疏化，使得仅超过预定阈值的那些匹配度值或固定数量的最高匹配度值被提供给所述多个分层特征信道中的后续特征信道，而其它失败的匹配度值被压制成零。

Description

用于深度学习的稀疏推理模块

政府权利

以美国政府合同编号UPSIDE下的政府支持来进行本发明。该政府在本发明中具有特定权利。

相关申请的交叉引用

本申请是2015年3月24日提交的美国临时申请No.62/137665的非临时专利申请，该美国临时申请的全部内容通过引用并入于此。

本申请也是2015年4月30日提交的美国临时申请No.62/155355的非临时专利申请，该美国临时申请的全部内容通过引用并入于此。

发明背景

(1)技术领域

本发明总体上涉及识别系统，并且更具体地说，涉及可以被用于多维信号处理流水线中的模块，以通过利用多个分层特征信道自适应地提取信息来识别信号类别。

(2)背景技术

深度学习是机器学习的一个分支，其尝试通过利用具有复杂结构的多个处理层来模型化数据中的高级抽象。深度学习可以实现用于信号识别。这种深度学习方法的示例包括：卷积网络(参见并入的参考文献列表，参考文献No.1)、HMAX模型(参见参考文献No.2)、以及分层的自动编码器(hierarchy of auto-encoder)。这些方法的关键缺点是，它们需要高数值精度来存储无数的权重并处理无数的单元活动。情况就是这样，因为在精度较低的情况下，增量和批量学习模式中的权重更新都不太可能被登记，与权重的量化级之间的间隔相比其相对较小。基本上，深度学习方法需要最小比特数，来调整权重并实现合理的识别性能。尽管如此，这种最小比特数甚至可能在流水线深度增加时并且随着输入尺寸增加而阻碍满足高能量和吞吐量挑战。因此，挑战是以低精度学习权重，同时单元活动以低精度表示和处理。

在多层处理架构中处理以很少比特来登记小权重更新的问题的一个众所周知的技术是概率舍入方法(probabilistic rounding method)(参见参考文献No.3)。在概率舍入方法中，每个权重变化(如通过任何监督或非监督方法计算的)首先被校正，并按照权重的量化级之间的间隔进行比例化，然后与0和1之间的均匀随机数进行比较。如果该随机数相对较小，则将该特定权重更新成沿初始权重变化方向的相邻量化级。尽管能够处理小权重更新，但根据数据集，这种方法甚至需要至少5-10比特，以允许“随着精度降低至6比特而性能逐渐劣化”。

因此，尽管有低精度权重和活动，仍持续需要实现针对多维信号处理流水线的高识别性能的系统。

发明内容

描述了一种用于深度学习的稀疏推理模块(sparse inference module)。在各个实施方式中，所述稀疏推理模块包括存储器和一个或更多个处理器。在所述存储器具有编码的可执行指令，使得在执行时，所述一个或更多个处理器执行多个操作，如接收数据并且针对多个图案模板匹配所述数据，以生成针对所述多个图案模板中的每个图案模板的匹配度值；稀疏化所述匹配度值，使得仅提供满足标准的那些匹配度值，以供进一步处理为稀疏特征矢量，而其它失败的匹配度值被压制成零；以及利用所述稀疏特征矢量自选参与高级分类的信道。

在另一方面，所述数据包括静止图像信息、视频信息、以及音频信息中的至少一种。

在又一方面，所述信道的自选有助于对静止图像信息、视频信息以及音频信息中的至少一种的分类。

另外，所述标准需要所述匹配度值高于阈值限度。

在另一方面，所述标准需要所述匹配度值处于固定量的最高匹配度值之内。

在另一方面，描述了一种利用稀疏学习模块的深度学习系统。在这点上，所述深度学习系统包括多个分层特征信道层，每个特征信道层都具有一组过滤器，该组过滤器过滤在所述特征信道中接收的数据；多个稀疏推理模块，其中，在每个特征信道层内都电子地驻留稀疏推理模块；并且其中，一个或更多个所述稀疏推理模块被配置成，接收数据并且针对多个图案模板匹配所述数据，以生成针对所述多个图案模板中的每个图案模板的匹配度值，并且稀疏化所述匹配度值，使得仅提供满足标准的那些匹配度值，以供进一步处理为稀疏特征矢量，而其它失败的匹配度值被压制成零，以及利用所述稀疏特征矢量自选参与高级分类的信道。

另外，所述深度学习系统是卷积神经网络(CNN)，并且所述多个分层特征信道层包括第一匹配层和第二匹配层。所述深度学习系统还包括：第一池化层(pooling layer)，该第一池化层电子地位于所述第一匹配层与所述第二匹配层之间；和第二池化层，该第二池化层位于所述第二匹配层的下游。

在另一方面，所述第一特征匹配层包括：一组过滤器、压缩非线性模块、以及稀疏推理模块。所述第二特征匹配层包括：一组过滤器、压缩非线性模块、以及稀疏推理模块。所述第一池化层包括池化模块和稀疏推理模块，并且所述第二池化层包括池化模块和稀疏推理模块。

在另一方面，所述稀疏学习模块还跨每个所述特征信道层中的空间位置而操作。

最后，本发明还包括一种计算机程序产品和计算机实现方法。所述计算机程序产品包括计算机可读指令，该计算机可读指令存储在非暂时性计算机可读介质上，其可通过具有一个或更多个处理器的计算机执行，使得在执行所述指令时，所述一个或更多个处理器执行本文列出的操作。另选的是，所述计算机实现方法包括使计算机执行这种指令并且执行所得操作的动作。

附图说明

本专利或申请文件包含按颜色实施的至少一个附图。具有彩图的本专利或专利申请公报的副本在请求并支付必需费用时由相应机构提供。

根据下面结合参照附图对本发明各个方面的详细描述，本发明的目的、特征以及优点将更清楚，其中：

图1是描绘根据本发明各个实施方式的系统的组件的框图；

图2是具体实施本发明的一方面的计算机程序产品的例示图；

图3是描绘操作中的稀疏推理模块的流程图；

图4是描绘稀疏推理模块内的稀疏化处理的例示图，据此，匹配度值的最大子集(top subset)可以免于被切割；

图5是描绘用于基于卷积神经网络(CNN)的识别系统的例示性流水线的、从图像芯片(IL)至类别层(CL)的框图的例示图；

图6是描绘将稀疏推理模块应用于常规CNN的每一层(如图5所描绘的)的例示图；

图7是描绘稀疏推理模块如何通过有规律的监督训练来自动向下选择所描绘的CNN的每个层中的有用特征信道数的例示图；以及

图8是描绘与稀疏推理模块组合的概率舍入的性能的图表。

具体实施方式

本发明总体上涉及识别系统，并且更具体地说，涉及可以用于多维信号处理流水线中的模块，以通过利用多个分层特征信道自适应地提取信息来识别信号类别。呈现以下描述以使本领域普通技术人员能够制造和使用本发明，并将其并入特定应用的背景中。各种修改例以及不同应用方面的多种用途对于本领域技术人员来说是显而易见的，并且本文定义的一般原理可以应用于广泛的方面。因此，本发明不旨在限于所呈现的方面，而是符合与本文所公开原理和新颖特征相一致的最广范围。

在下面的详细描述中，阐述了许多具体细节，以便提供对本发明的更详尽理解。然而，本领域技术人员应当明白，本发明可以在不必受限于这些具体细节的情况下来实践。在其它情况下，公知结构和装置按框图形式而不是按细节示出，以便避免模糊本发明。

将读者的注意引向与本说明书同时提交的所有文件和文档，并且这些文件和文档可以利本说明书开放以供公众查阅，所有这些文件和文档的内容通过引用并入于此。本说明书中公开的所有功能(包括任何所附权利要求、摘要以及绘图)可以用服务相同、等同或相似目的的另选特征来代替，除非另外加以明确规定。因此，除非另外加以明确规定。所公开的每个特征仅仅是通用系列的等同或相似特征中的一个例子。

而且，权利要求书中没有明确陈述“用于执行指定功能的装置”或“用于执行特定功能的步骤”的任何部件不被解释为如在35U.S.C.Section 112,Paragraph 6中指定的“装置”或“步骤”条款。特别地讲，在本文的权利要求书中使用“…的步骤”或“……的动作”不旨在援引35U.S.C.112,Paragraph 6的规定。

在详细描述本发明之前，首先提供了引用参考文献的列表。接下来，提供了对本发明各个主要方面的描述。随后，介绍向读者提供了对本发明的一般理解。最后，提供本发明各个实施方式的具体细节以取得对具体方面的理解。

(1)所引用的参考文献列表

贯穿本申请引用以下参考文献。为了清楚和方便起见，这些参考文献在此被列为读者的中心资源。下列参考文献通过引用并入于此，就像在此完全陈述的一样。这些参考文献通过参照如下对应文献参考号而在本申请中加以引用。

1.Pierre Sermanet、David Eigen、Xiang Zhang、Michael Mathieu、Rob Fergus以及Yann LeCun：OverFeat:Integrated Recognition,Localization and Detectionusing Convolutional Networks,International Conference on LearningRepresentations(ICLR2014),CBLS。

2.Serre、T.,Oliva、A.,&Poggio,T.(2007).A feedforward architectureaccounts for rapid categorization.Proceedings of the National Academy ofSciences,104(15),6424-6429。

3.Hoehfeld、M.,&Fahlman、S.E.(1992).Learning with Limited NumericalPrecision Using the Cascade-Correlation Learning Algorithm.IEEE Transactionson Neural Networks,3(4),602-611。

4.R.Kasturi、D.Goldgof、P.Soundararajan、V.Manohar、J.Garofolo、R.Bowers、M.Boonstra、V.Korzhova、以及J.Zhang,“Framework for Performance Evaluation ofFace,Text,and Vehicle Detection and Tracking in Video:Data,Metrics,andProtocol,”IEEE TPAMI,Vol.31,2009。

(2)主要方面

本发明的各个实施方式包括三个“主要”方面。首先是具有稀疏推理模块的系统，该稀疏推理模块可以用于多维信号处理流水线中，以通过利用多个分层特征信道自适应地提取信息来识别信号类别。该系统通常采用计算机系统操作软件的形式或采用“硬编码”指令集的形式。该系统可以并入提供不同功能的各种各样的装置中。第二个主要方面是通常采用软件的形式的一种方法，其利用数据处理系统(计算机)进行操作。第三个主要方面是计算机程序产品。该计算机程序产品通常表示存储在诸如光学存储装置(例如，光盘(CD)或数字万用盘(DVD))或诸如软盘或磁带这样的磁存储装置的非暂时性计算机可读介质上的计算机可读指令。计算机可读介质的其它非限制例包括：硬盘、只读存储器(ROM)、以及闪存型存储器。这些方面将在下面进行更详细描述。

图1中提供了描绘本发明的系统(即，计算机系统100)的示例的框图。计算机系统100被配置成执行与程序或算法相关联的计算、处理、操作和/或功能。在一个方面，本文讨论的某些处理和步骤被实现为驻留在计算机可读存储器单元内并由计算机系统100的一个或更多个处理器执行的一系列指令(例如，软件程序)。在执行时，该指令使计算机系统100执行特定动作并展现特定行为，如本文所描述的。

计算机系统100可以包括被配置成传送信息的地址/数据总线102。另外，一个或更多个数据处理单元(如处理器104(或多个处理器)与地址/数据总线102联接。处理器104被配置成处理信息和指令。在一方面，处理器104是微处理器。或者，处理器104可以是不同类型的处理器(如并行处理器)，或现场可编程门阵列。

计算机系统100被配置成利用一个或更多个数据存储单元。计算机系统100可以包括与地址/数据总线102联接的易失性存储器单元106(例如，随机存取存储器(“RAM”)、静态RAM、动态RAM等)，其中，易失性存储器单元106被配置成存储用于处理器104的信息和指令。计算机系统100还可以包括与地址/数据总线102联接的非易失性存储器单元108(例如，只读存储器(“ROM”)、可编程ROM(“PROM”)、可擦除可编程ROM(“EPROM”)、电可擦除可编程ROM(“EEPROM”)、闪速存储器等)，其中，非易失性存储器单元108被配置成存储用于处理器104的静态信息和指令。另选的是，计算机系统100可以执行从诸如“云”计算中的在线数据存储单元检索的指令。在一方面，计算机系统100还可以包括与地址/数据总线102联接的一个或更多个接口，如接口110。所述一个或更多个接口被配置成使得计算机系统100能够与其它电子装置和计算机系统连接。由所述一个或更多个接口实现的通信接口可以包括有线(例如，串行电缆、调制解调器、网络适配器等)和/或无线(例如，无线调制解调器、无线网络适配器等)通信技术。

在一个方面，计算机系统100可以包括与地址/数据总线102联接的输入装置112，其中，输入装置112被配置成将信息和命令选择传送至处理器100。根据一个方面，输入装置112是字母数字混编输入装置(如键盘)，其可以包括字母数字混编键和/或功能键。另选的是，输入装置112可以是除字母数字混编输入装置之外的其它输入装置，如传感器或用于捕获信号的其它装置，或者，在又一方面，输入装置112可以是识别系统流水线中的另一模块。在一方面，计算机系统100可以包括与地址/数据总线102联接的光标控制装置114，其中，光标控制装置114被配置成将用户输入信息和/或命令选择传送至处理器100。在一方面，光标控制装置114利用诸如鼠标器、轨迹球、轨迹板、光学跟踪装置或触摸屏这样的装置来实现。前述尽管如此，但在一方面，诸如响应于使用与输入装置112相关联的特殊键和键序列命令，光标控制装置114经由来自输入装置112的输入而被引导和/或激活。在另选方面，光标控制装置114被配置成通过话音命令指引或引导。

在一方面，计算机系统100还可以包括一个或更多个可选计算机可用数据存储装置，如与地址/数据总线102联接的存储装置116。存储装置116被配置成存储信息和/或计算机可执行指令。在一个方面，存储装置116是诸如磁或光盘驱动器(例如，硬盘驱动器(“HDD”)、软盘、光盘只读存储器(“CD-ROM”)、数字万用盘(“DVD”))的存储装置。依据一个方面，显示装置118与地址/数据总线102联接，其中，显示装置118被配置成显示视频和/或图形。在一方面，显示装置118可以包括：阴极射线管(“CRT”)、液晶显示器(“LCD”)、场发射显示器(“FED”)、等离子体显示器，或适于显示视频和/或图形图像以及用户可识别的字母数字混编字符的任何其它显示装置。

本文所呈现的计算机系统100是根据一方面的示例计算环境。然而，计算机系统100的非限制例并不严格受限于作为计算机系统。例如，一个方面提供了计算机系统100表示可以根据本文所述各个方面使用的一类数据处理分析。此外，还可以实现其它计算系统。实际上，本技术的精神和范围不限于任何单一数据处理环境。因此，在一方面，使用通过计算机执行的诸如程序模块之类的计算机可执行指令来控制或实现本技术的各个方面的一个或更多个操作。在一个实现中，这样的程序模块包括被设置成执行特定任务或实现特定抽象数据类型的例程、程序、对象、组件、和/或数据结构。另外，一方面提供了本技术的一个或更多个方面通过利用一个或更多个分布式计算环境来实现，如其中任务由通过通信网络链接的远程处理装置执行，或者如其中各种程序模块位于包括存储器-存储装置的本地和远程计算机存储介质中。

图2中描绘了具体实施本发明的计算机程序产品(即，存储装置)的例示图。该计算机程序产品被描绘为软盘200或诸如CD或DVD这样的光盘202。然而，如先前提到，该计算机程序产品通常表示存储在任何兼容的非暂时性计算机可读介质上的计算机可读指令。如关于本发明所使用的术语“指令”通常指示要在计算机上执行的一组操作，并且可以表示整个程序的片段或单个分离软件模块。“指令”的非限制性示例包括计算机程序代码(源或目标代码)和“硬编码”电子装置(即，编码到计算机芯片中的计算机操作)。该“指令”被存储在任何非暂时性计算机可读介质上，如存储在计算机的存储器中或软盘、CD-ROM以及闪存驱动器上。无论如何，这些指令被编码在非暂时性计算机可读介质上。

(3)介绍

本公开提供了一种独特的系统和方法，其使用稀疏推理模块来实现多维信号处理流水线的高识别性能，而不管有低精度权重和活动。该系统适用于对任意信号模式(例如，音频、图像、视频)操作的任何深度学习架构，以通过利用多个分层特征信道自适应地提取信息来识别它们的类别。该系统通过竞争性处理，在深度学习网络(例如，卷积神经网络、HMAX模型)中的特征匹配和池化层两者上操作，该竞争性处理利用k-WTA(获胜者取得全部)的原理，在处理层级中的每个层处生成针对各个输入数据子集的稀疏特征矢量。这个原理灵感来自于大脑中的局部回路，其中，被调谐以响应来自上游区域的传入信号中的不同模式的神经元利用中间神经元而彼此抑制，使得仅最大程度激活的那些免于该压制阈值。这种稀化处理也使得伴随精度降低的概率学习成为可能，从而使得模式识别适用于节能硬件实现。

该系统服务两个关键目标：(a)标识为了处理给定数据集以供模式识别是足够且必要的特征信道子集，和(b)确保针对其网络中的节点和节点活动本身之间的连接权重仅可以按低数值精度进行表示和处理的情况的最佳识别性能。这两个目标对于深入学习架构的实际实现起着至关重要的作用，这是本领域的现状，因为需要巨大处理和内存需求来实现非常深的处理层网络，其通常需要解决针对合理大小的输入流的复杂模式识别问题。例如，公知的OverFeat架构(参见参考文献No.1)使用11层(8个特征匹配，和3个MAX池化)，并且信道数在不同层从96至1024变动，以响应大小为231x 231的输入图像，在1000个对象类别中进行识别。数值精度越大导致尺寸、权重、范围以及功率要求越大，这些阻碍了在移动和飞行平台(如移动电话、自主导航机器人和无人机(UAV))上实际现实世界部署这些现状深度学习引擎。

该稀疏推理模块还可以有益于固定应用，如监控摄像机，因为其提出了构建超低功率和高吞吐量识别系统的一般方法。该系统还可以被用于许多汽车和航空航天应用，包括汽车、飞机以及UAV，其中，模式识别起着关键作用。例如，该系统可以被用于：(a)针对自动驾驶汽车标识道路上的固定和移动物体，和(b)识别来自飞机的大量实时数据的预测模式，用于维护或其他事项的智能调度。下面提供了该系统及其稀疏推理模块的具体细节。

(4)各个实施方式的具体细节

如上所述，本公开提供了一种系统和方法，其使用稀疏推理模块来实现多维信号处理流水线的高识别性能。该系统对包括多个特征信道的深度学习架构进行操作，以稀疏化层次结构中的每个层处的特征矢量(例如，匹配度值)。换句话说，该特征矢量在层次结构中的每个层处被“稀疏化”，这意味着仅满足一标准(“获胜者”)的那些值被允许作为稀疏特征矢量而继续进行，而其它失败的值被压制成零。作为一非限制例，该标准包括固定数量的值，如最大10％等，或者超出一值的那些(其可以自适应地确定)。

例如，并且如图3所示，诸如图像芯片301内的接收场300中的数据，与稀疏推理模块304中的多个模式模板302匹配，以确定特定模式模板302与接受场300中的数据之间的匹配度。所得到的匹配度值306被稀疏化308，使得仅满足一标准(例如，最大)的值(在该示例中，k＝2)的子集被传递到下一级。可以使用任何合适的技术来确定匹配度。作为一非限制例，可以利用卷积(或点积)来确定匹配度。另一个例子包括：如在3/10/2014提交的并且题名为“Method to perform convolutions between arbitrary vectors using weaklycoupled oscillator clusters,”的美国专利申请14/202200中描述的振荡器同步化和处理，其全部内容通过引用并入于此。

深度学习网络包括特征匹配和池化层的级联阶段，以生成高级多信道表述，其有助于简单线性可分离的分类成各种类别。每个特征匹配层中的单元推断不同学习模式(基于特征信道)与其局部化接收场内的上游层中的活动之间的匹配度。

稀疏推理模块的方法(其应当在训练和测试两者期间应用)在跨共享空间接收场的特征信道的各组单元中的每一组内，引入遍布该流水线的显式竞争。在具有相同空间接收场的每个这样的单元集内，该操作确保仅给定部分的具有最大活动的单元(如最大10％或任何其它预定量，或者具有超过一预定阈值的值的那些单元)能够将它们的信号传播至深度学习网络中的下一层。未选择单元的输出活动被压制至零。

图4提供了这种方法如何工作的另一例示图。当该方法跨空间和深度学习架构中的每一层应用时，创建稀疏分布表述(例如，特征信道)401，据此，匹配度值402的最大子集400可以免于被切割。对于视觉刺激，这符合以下前提：在每个空间位置，至多有可以毫不含糊地呈现的少数特征；即，每个位置处的各种特征检测器在它们之间竞争，使得跨越空间实现合适的刺激表述。

在深度学习网络中每层处的稀疏推理模块，在概率舍入以低数值精度应用于权重时是关键的，因为其将权重更新限制成仅输入和输出神经元具有“信号”活动的那些投影，其没有被压制成零。在没有稀疏化的情况下，由于在几乎所有投影中从一个量化级别跳到另一量化级别的“噪音”，因而权重不会朝着最小化最终分类层处的最小二乘方而稳定化。因此，该系统和方法不仅有用于降低任何深度学习流水线的能耗，而且对于任何学习来说，关键是，首先发生何时学习权重并且仅按低精度存储。

(4.1)具体示例实现

稀疏推理模块可以应用于例如卷积神经网络(CNN：convolution neuralnetwork)，以证明尽管贯穿流水线的权重的数值精度低(<6比特)，但识别能力未被削弱的益处。图5描绘了示例CNN，其包括大小为64×64像素(或任何其它合适大小)的输入层500(即，图像块(patch))，其在该示例中登记图像芯片的灰度级图像；每个皆具有20个特征信道的交替特征匹配层(502、504)和池化层(506、508)的两个级联级；以及6个类别单元的输出类别层510。在这个示例中，第一特征匹配层502包括二十个60×60像素图，第一池化层506包括二十个20×20像素图，第二特征匹配层504包括二十个16×16像素图，以及第二池化层508包括二十个6×6像素图。第二特征匹配层504中的每个图接收来自第一池化层506中的所有特征信道的输入。两个池化层506和508都通过计算20个图中的每个图中的3×3像素未交叠空间窗口的平均值，来对其输入匹配层(即，分别为502和504)进行子采样。匹配层502和504与池化层506和508之间的S形(sigmoidal)非线性有助于全局地抑制噪声并且还限制单元活动。

换句话说，CNN接收图像块作为输入层500。在第一特征匹配层502中，图像块与一组过滤器进行卷积，以生成对应的一组特征图。每个过滤器还具有相关联的偏置项，并且卷积输出通常穿过压缩非线性模块，如S形。“内核”是指卷积步骤中使用的过滤器。在这个示例中，5×5像素是第一特征匹配层502中的每个内核的大小(在该特定实现中)。所得到的卷积输出被提供给第一池化层506，其利用平均池化(即，输入中的像素块被平均化，以在输出中生成单个像素的池化模块)来下采样卷积输出。在这个示例中，3×3像素是用于平均化的邻域的大小(对于该特定实现来说，总共9个像素)。这发生于每个特定信道内。第一池化层506输出在第二特征匹配层504中被接收，其中，它们与在跨特征信道操作的一组过滤器进行卷积，以生成对应的一组较高级别的特征图。如在第一特征匹配层502中，每组过滤器还具有相关联的偏置项，并且卷积输出穿过压缩非线性模块，如S形。然后，第二池化层508执行与第一池化层506相同的操作；然而，该操作发生在每个特征信道内(与第二特征匹配层504不同)。类别层510将来自第二池化层508的池化分层输出映射至针对各个类别的神经元(例如，六个神经元)编码。换句话说，类别层510具有用于每个识别类别(例如，汽车、卡车、公共汽车等)的一个输出神经元。类别层(例如，分类器)510提供对该类别层中的输入的最终分类，其中最高活动被认为是输入图像的分类。

在这个示例中的CNN以错误反向传播来训练达一个历元(epoch)，其包括：从由针对Stanford Tower数据集的训练序列的、基于光谱突起的对象检测前端检测的盒子中随机采样的100000个示例。所提出的例子展示了跨所有序列的6个类别的基本评分(rate)(“汽车”、“卡车”、“公共汽车”、“人”、“骑车人”以及“背景”)：分别为11.15％、0.14％、0.44％、19.34％、8.93％以及60％。经训练的CNN针对10000个盒子的代表子集进行评估，其随机从通过针对Stanford Tower数据集测试序列的前端检测的那些随机采样，这粗略维持了正在考虑的类别的基本评分。为了评估，使用称作加权归一化多目标阈值化检测准确度(WNMOTDA：weighted normalized multiple object thresholded detection accuracy)的指标(参见参考文献No.4)。WNMOTDA得分定义如下：

1.首先跨所有图像芯片，针对5个对象类别(“汽车”、“卡车”、“公共汽车”、“人”、“骑车人”)中的每个计算归一化多对象阈值化检测准确度(NMOTDA)得分：

NMOTDA利用关联成本c_m和c_fa来惩罚未命中和虚假警报(每个都设置成值1)，其根据该类别的地面真实实例的数量进行归一化。NMOTDA得分范围从-∞到1。当系统不做任何事情时，它们为0；即，未命中给定类别的所有对象，并且没有虚假警报。对象错误分类被认为针对是地面真实类别的未命中，但不是系统输出类别的虚假警报。然而，被错误分类为5个对象类别之一的“背景”图像芯片被视为虚假警报。

2.然后利用它们在测试集中的归一化频率f_i(0与1之间)，根据跨5个对象类别的NMOTDA得分的加权平均来计算单个性能得分：

WNMOTDA＝∑f_i·NMOTDA_i

然后，利用4位的精度来量化特征匹配层502和504中的学习权重，并将其硬布线成称作“非稀疏Gold CNN”的CNN新版本中。

本发明通过将稀疏化处理或稀疏推理模块添加到上述每个层中，来改进典型的CNN或其他深度学习处理，使得每个层的输出是通过稀疏化处理的一组“活动”或数值，从而改进每层的结果输出。因此，在根据本发明的原理的各种实施方式中，上述每个层(参照图5)并入如图3描绘的稀疏推理模块304。这在图6中进一步阐明，其描绘了并入稀疏推理模块304的稀疏CNN流的高级示意图。因此，稀疏推理模块接着被应用于常规CNN(参见图6)，并且为每个层中的稀疏化提供与上述相同的训练，其中参数k＝10％。在这个步骤中，该权重仍作为常规CNN，以双倍精度来学习。虽然每层中的所有20个特征信道被采用于常规CNN，但在训练期间应用稀疏推理模块逐渐自选每一层中的、专门参与图像芯片高级分类的信道子集。

为了进一步理解，图6描绘了稀疏CNN流的高级示意图，示出了稀疏推理模块304如何并入各个层中以改进相关输出。在这种情况下，第一特征匹配层601包括过滤器组600和随后的压缩非线性模块602(如S形)。独特地，特征匹配层601还包括稀疏推理模块304。另外，第一池化层605包括池化模块604(其利用平均池化来对卷积输出下采样)和稀疏推理模块304。第二特征匹配层603接着包括一过滤器组600、随后的压缩非线性模块602，以及稀疏推理模块304。最后，第二池化层607包括池化模块604和稀疏推理模块304，并且输出提供给类别层612(例如，分类器)，其可以利用用于分类的地面真实(GT：ground truth)注释来指配标签610。如图6中清楚地描绘的，稀疏推理模块304可以被并入任何多维信号处理流水线，其针对任意信号模式(例如，音频、图像、视频)操作，以通过利用多个分层特征信道自适应地提取信息来识别它们的类别。

图7加亮显示稀疏推理模块的属性，其导致自选每层中的、专门参与图像芯片的高级分类信道子集。图7例示了针对第一匹配层601的该属性。一旦完成了历元训练，再次利用4位的精度来量化第一匹配层601和第二匹配层603中的权重，并将其硬布线成刚才称作“Gold CNN”的另一CNN新版本。针对“非稀疏Gold CNN”或者“Gold CNN”的训练包括：仅以非常低的双精度学习从最终池化层607至输出类别层612的投影的权重的学习。用于表示类别层612权重的比特数以一为步距从3至12改变，并且概率舍入接通或断开。贯穿这些新流水线中的单元活动以3比特来量化。

换句话说，图7描绘了第一特征匹配层601中的20个特征图700中的单元活动，其由利用20个不同过滤器卷积一图像而得出，其中每个像素被称为一单元。每个单元都是特征信道内的位置。通过利用特定特征内核/过滤器来卷积图像块701获取的单元活动导致对应的特征图。换句话说，如果在图像块702上操作有20个特征内核，则将获取20个功能图700，或20个特征信道中的活动图。色标尺704描绘单元活化(cell activation)。在各个实施方式中，单元活化是卷积、添加偏置项、应用非线性、以及跨给定层中的每个位置处的特征信道稀疏化的结果。单元活化继续成为后续层的输入。

应注意到，在该示例中，选择了20个特征信道。然而，所选信道的数量是基于希望特征数的任意选择。采用推理模块的另一个结果是自动修剪每个阶段的特征信道的数量，而不会影响整体分类性能。

图8示出了CNN的各个方面对于测试集的性能的影响。模拟结果清楚地表明，GoldCNN 800(其由本发明驱动，如包括稀疏推理模块)在具有概率舍入的非常低的数值精度(即，3或4比特)下，在WNMOTDA得分方面胜过常规CNN 802(即，没有稀疏推理模块)大约50％。

最后，虽然本发明已经根据几个实施方式进行了描述，但本领域普通技术人员应当容易地认识到本发明在其它环境中可以具有其它应用。应注意到，许多实施方式和实施都是可以的。而且，所附的权利要求书绝不是旨在将本发明的范围限制成上述具体实施方式。另外，“用于…的装置(means)”的任何陈述都旨在唤起对部件和权利要求的装置加功能的解读，而不具体使用陈述“用于…的装置(means)”的任何部件不是旨在被解读为装置加功能组件，即使权利要求以其它方式包括了单词“装置(means)”。而且，虽然已经按特定次序陈述了特定的方法步骤，但该方法步骤可以按任何希望次序发生并且落入本发明的范围内。

Claims

1.一种用于深度学习的稀疏推理模块，该稀疏推理模块包括：

存储器和一个或更多个处理器，在所述存储器上具有编码的可执行指令，使得在执行时，所述一个或更多个处理器执行以下操作：

接收数据，并且针对多个图案模板匹配所述数据，以生成针对所述多个图案模板中的每个图案模板的匹配度值；

稀疏化所述匹配度值，使得仅提供满足标准的那些匹配度值，以供进一步处理为稀疏特征矢量，而其它失败的匹配度值被压制成零；以及

利用所述稀疏特征矢量自选参与高级分类的信道。

2.根据权利要求1所述的用于深度学习的稀疏推理模块，其中，所述数据包括静止图像信息、视频信息、以及音频信息中的至少一种。

3.根据权利要求1所述的用于深度学习的稀疏推理模块，其中，所述信道的自选有助于对静止图像信息、视频信息、以及音频信息中的至少一种的分类。

4.根据权利要求1所述的用于深度学习的稀疏推理模块，其中，所述标准需要所述匹配度值高于阈值限度。

5.根据权利要求1所述的用于深度学习的稀疏推理模块，其中，所述标准需要所述匹配度值处于固定量的最高匹配度值之内。

6.一种计算机程序产品，该计算机程序产品针对用于深度学习的稀疏推理，该计算机程序产品包括：

非暂时性计算机可读介质，在该非暂时性计算机可读介质上具有编码的可执行指令，使得当通过一个或更多个处理器执行所述指令时，所述一个或更多个处理器执行以下操作：

利用所述稀疏特征矢量自选参与高级分类的信道。

7.根据权利要求6所述的计算机程序产品，其中，所述数据包括静止图像信息、视频信息、以及音频信息中的至少一种。

8.根据权利要求6所述的计算机程序产品，其中，所述信道的自选有助于对静止图像信息、视频信息、以及音频信息中的至少一种的分类。

9.根据权利要求6所述的计算机程序产品，其中，所述标准需要所述匹配度值高于阈值限度。

10.根据权利要求6所述的计算机程序产品，其中，所述标准需要所述匹配度值处于固定量的最高匹配度值之内。

11.一种针对用于深度学习的稀疏推理的方法，所述方法包括以下动作：

使一个或更多个处理器执行在非暂时性计算机可读介质上编码的指令，使得在执行时，所述一个或更多个处理器执行以下操作：

利用所述稀疏特征矢量自选参与高级分类的信道。

12.根据权利要求11所述的方法，其中，所述数据包括静止图像信息、视频信息、以及音频信息中的至少一种。

13.根据权利要求11所述的方法，其中，所述信道的自选有助于对静止图像信息、视频信息、以及音频信息中的至少一种的分类。

14.根据权利要求11所述的方法，其中，所述标准需要所述匹配度值高于阈值限度。

15.根据权利要求11所述的方法，其中，所述标准需要所述匹配度值处于固定量的最高匹配度值之内。

16.一种利用稀疏学习模块的深度学习系统，该深度学习系统包括：

多个分层特征信道层，每个特征信道层都具有一组过滤器，该组过滤器过滤在所述特征信道中接收的数据；

多个稀疏推理模块，其中，在每个特征信道层内都电子地驻留稀疏推理模块；并且

其中，一个或更多个所述稀疏推理模块被配置成，接收数据并且针对多个图案模板匹配所述数据，以生成针对所述多个图案模板中的每个图案模板的匹配度值，以及

稀疏化所述匹配度值，使得仅提供满足标准的那些匹配度值，以供进一步处理为稀疏特征矢量，而其它失败的匹配度值被压制成零，以及

利用所述稀疏特征矢量自选参与高级分类的信道。

17.根据权利要求16所述的深度学习系统，其中，所述深度学习系统是卷积神经网络CNN，并且所述多个分层特征信道层包括第一匹配层和第二匹配层，并且还包括：

第一池化层，该第一池化层电子地位于所述第一匹配层与所述第二匹配层之间；以及

第二池化层，该第二池化层位于所述第二匹配层的下游。

18.根据权利要求17所述的深度学习系统，其中，所述第一特征匹配层包括：一组过滤器、压缩非线性模块、以及稀疏推理模块。

19.根据权利要求17所述的深度学习系统，其中，所述第二特征匹配层包括：一组过滤器、压缩非线性模块、以及稀疏推理模块。

20.根据权利要求17所述的稀疏推理系统，其中，所述第一池化层包括池化模块和稀疏推理模块。

21.根据权利要求17所述的深度学习系统，其中，所述第二池化层包括池化模块和稀疏推理模块。

22.根据权利要求16所述的深度学习系统，其中，所述稀疏学习模块还跨每个所述特征信道层中的空间位置而操作。