CN108292369A

CN108292369A - 使用深度学习属性来进行视觉识别

Info

Publication number: CN108292369A
Application number: CN201580084496.8A
Authority: CN
Inventors: J·李; J·罗; Y·陈
Original assignee: Intel Corp
Current assignee: Intel Corp
Priority date: 2015-12-10
Filing date: 2015-12-10
Publication date: 2018-07-17
Also published as: DE112015007176T5; US20180018535A1; US9971953B2; WO2017096570A1

Abstract

描述了一种用于使用深度学习属性来执行视觉识别的处理设备以及用于执行该处理设备的方法。在一个实施例中，处理设备包括：接口，该接口用于接收输入图像；以及识别单元，该识别单元耦合至接口并且能操作用于对输入图像执行视觉对象识别，该识别单元具有：提取器，该提取器用于从输入图像提取区域建议；卷积神经网络(CNN)，该卷积神经网络(CNN)用于为每个所提取区域建议计算特征，该CNN能操作用于创建柔性最大层输出；交叉区域池化单元，该交叉区域池化单元能操作用于对柔性最大层输出执行池化以创建输入图像的一组属性；以及图像分类器，该图像分类器能操作用于基于输入图像的属性执行图像分类。

Description

使用深度学习属性来进行视觉识别

技术领域

本发明的实施例涉及视觉识别；更具体地，本发明的实施例涉及使用区域建议和来自卷积神经网络(CNN)模型的柔性最大层的输出来执行视觉识别。

发明背景

自2012年Krizhevsky等人就ImageNet大规模视觉识别挑战(ILSVRC)开展工作以来，已进行对卷积神经网络(CNN)的附加研究。例如，研究已考察将像ImageNet这样的大规模数据集上的预训练CNN模型转移至具有有限新训练数据的其他视觉识别任务。研究看起来集中于将预训练CNN模型的中间层激活作为丰富特征表示来应用于各种应用，诸如对象检测、对象识别、图像检索等。为了实现先进和稳健的性能，人们根据他们自己的任务微调预训练CNN模型或进行外延数据增强以获得稳健分类器。与使用标准特征表示(诸如词袋(bag of words)、稀疏编码等)的常规方法相比，这些开发的技术已经显示出有希望的结果。然而，来自中间层的神经码具有较少的语义意义，这可能导致众所周知的语义鸿沟。另外，当对中间层神经码采用金字塔或网格扩展时，这些方法可能会遇到维度问题的祸害。

附图说明

从以下给出的详细描述并从本发明的各实施例的附图，可更全面地理解本发明，然而它们不应该被理解为将本发明限于具体的实施例，而是仅用于解释和理解。

图1例示出分类的传统现成CNN方法。

图2是分类过程的一个实施例的流程图。

图3示出深度属性框架的一个实施例。

图4是用于对输入图像执行视觉对象识别的过程的一个实施例的流程图。

图5是处理设备的一个实施例的框图。

图6例示出系统的一个实施例。

具体实施方式

在接下来的描述中，陈述许多细节以提供对本发明的更为透彻的解释。然而，对本领域技术人员将显而易见的是，在没有这些特定细节的情况下也可实施本发明。为了避免使本发明变得模糊，在其他实例中，以框图形式，而不是详细地示出公知的结构和设备。

本发明的实施例通过将语义输出与区域建议整合以实现紧凑但有效的视觉表示来执行视觉识别。在一个实施例中，语义输出包括来自预训练CNN模型的柔性最大层的输出。在一个实施例中，视觉表示包括“深度属性”(DA)数据。因此，本文所描述的技术将区域建议与训练CNN模型的柔性最大层输出组合为用于视觉识别任务的特征。

图1例示出分类的传统现成CNN方法。参看图1，输入图像101被输入至CNN 102。作为响应，CNN 102产生中间层输出。线性分类器103接收CNN中间层输出并使用它来执行分类。

图2是分类过程的一个实施例的流程图。参看图2，输入图像201经历区域提取202以生成输入图像201的多个区域。这些区域在本文中被称为区域建议。在一个实施例中，提取区域建议通过使用本领域众所周知的选择性搜索来完成。欲了解更多信息，请参阅J.Uijlings等人的“用于对象识别的选择性搜索(Selective Search for ObjectRecognition)”，IJCV，2013。在一个实施例中，提取区域建议通过使用本领域众所周知的边缘盒(edge-box)来完成。欲了解更多信息，请参阅C.Zitnick和P.Dollar的“边缘盒：从边缘定位对象建议(Edge boxes:Locating Object Proposals From Edges)”，ECCV，2014。

区域中的每一个被馈送至预训练CNN模型203以执行特征提取。作为响应，CNN模型203生成柔性最大层输出。区域中的每一个的柔性最大层输出指示区域特征。在一个实施例中，CNN模型203计算每个区域对多个预定义类别(例如，1000个类别)的响应以生成相似性分数。因此，为每个区域产生具有针对预定义类别中的每一个的相似性分数的输出。在一个实施例中，柔性最大层输出包括经计算的神经码，该经计算的神经码是对用于训练CNN的类别的概率响应(例如，来自ImageNet的高级语义)。

接下来，将池化204应用于来自CNN模型203的柔性最大层输出以产生输入图像201的表示。在一个实施例中，池化204包括交叉建议最大池化(cross-proposal max-pooling)，该交叉建议最大池化被应用于区域性神经码以获得图像的整体表示。更具体地，池化204通过跨所有区域对每个属性取最大分数以创建一组数据来聚集所有属性的相似性分数，这一组数据包含跨整个输入图像(或其经历图像分类的部分)针对属性中的每一个的高分数。在一个实施例中，这表示深度属性数据。注意，交叉建议最大池化将抑制大部分噪声区域，同时保持大部分有意义区域。交叉池化操作的结果被馈送至分类器205。

分类器205对池化204的结果执行分类操作。在一个实施例中，分类器205包括执行图像分类的线性分类器。在一个实施例中，分类器205对照对象类别(例如，人、马等)的阈值比较每个属性的分数，并且如果分数高于对象类别的阈值，则分类器205确定输入图像具有该类对象。在一个实施例中，分类器205将图像分类的结果作为元数据追加或添加至输入图像201。例如，如果分类器205确定图像具有人和马，则信息被添加至图像的元数据以指示此确定。注意，信息可被添加至被用于传输图像的分组(例如，分组头部、分组字段等)。

图3例示出与图2相关联的深度属性框架的一个实施例。参考图3，在一个实施例中，分类器是线性SVM分类器y＝wx，其中x是输入特征向量，w是针对特定类别c所学习的SVM系数或权重，并且wx是w与x之间的点积，其中w和x具有相同维度。wx的点积产生分数y。图3的最后一列示出在20个类别上的分数。如果分数大于零，则意味着对应的类别在图像上出现或被激活。

所公开的过程在用于对象识别的PASCAL VOC 2007和2012基准上进行评估，该基准包含20个类别的图像，这些类别包括动物、手工对象和自然对象。这些对象处于不同位置和尺度并具有杂乱背景。此外，一个图像中通常存在多个对象，这使得问题变得困难。即使使用边界框对对象进行注释，本文所公开的对象识别过程的一个实施例也不将此信息用于我们的实验中。

下表1列出了与一些现有技术方法相比的在PASCAL VOC 2007和2012两者上的结果，连同它们的CNN设置。如所示，本文所公开的技术相当简单，不具有微调和数据增强。所公开的方法以显着的余量(margin)(90.3％)胜过目前现有技术方法甚深(very-deep)(89.3％)，而无需使用如本领域中众所周知的甚深实验中的复杂多尺度、多系列(multi-crop)数据增强和融合策略。欲了解甚深实验的更多信息，请参阅Simonyan等人的“用于大规模图像识别的甚深卷积网络(Very Deep Convolutional Networks for Large-ScaleImage Recognition)”，ICLR 2015。

表1：PASCAL VOC 2007和2012上的比较结果，以及详细的CNN设置

本技术通过使用牛津花卉数据集在细粒花卉识别任务上进一步被评估，该牛津花卉数据集包含102个花卉类别，每个类别包含40至258幅图像。花卉以不同的尺度、姿势和照明条件呈现。评估遵循此基准的标准协议，并在下表2中的牛津102花卉数据集上报告平均准确度。其示出所建议的方法以大约4％的大余量胜过现有方法。

表2：针对花卉识别的102个类别上的比较结果

在一个实施例中，分类过程包括多尺度扩展(MSDA)和上下文区域细化扩展(CRP-DA)。在MSDA中，交叉区域池化是根据区域尺寸与图像尺寸的比例，在不同的尺度区间上进行的。例如，在一个实施例中，如果两个尺度区间是[0,1/2)、(1/2,1)，则当区域尺寸在图像尺寸的1/2内时，池化在第一尺度区间上执行，而当区域尺寸大于1/2时，池化在第二尺度区间上单独执行。在一个实施例中，尺度中的每一个的特征被串接至长特征向量以训练SVM分类器。

注意，对于特定类别分类器，仅少数区域是上下文区域。例如，对于汽车分类器，汽车区域和轮区域是上下文区域，而具有像马之类的动物的区域是背景杂乱。在一个实施例中，本文中被称为上下文区域细化的策略被用于选择类别特定上下文区域。

在此情形中，首先使用全局池化属性来构建分类器。然后使用此分类器对每个区域进行分类，以查看区域对于分类器是正相关还是负相关。基于结果，仅保留那些正相关区域，并且对这些区域再次进行池化以训练新的精细分类器。在一个实施例中，此过程被运行数次迭代。

注意，本文所描述的技术可被用于构建消费者应用，诸如例如移动设备上的图像搜索/产品搜索。这对砖块对消费者(B2C：bricks-to-consumer)购物提供商非常有用。

图4是用于对输入图像执行视觉对象识别的过程的一个实施例的流程图。该过程由处理逻辑执行，该处理逻辑可包括硬件(电路、专用逻辑等)、软件(诸如，运行在通用计算机系统或专用机器上)、固件、或这三者的组合。

参看图4，过程通过接收输入图像而开始(处理框401)。响应于输入图像，处理逻辑从输入图像提取区域建议(处理框402)。即，处理逻辑将输入图像划分成多个区域。在一个实施例中，从输入图像提取区域建议包括使用具有分段的选择性搜索来生成可能的对象位置。在另一实施例中，从输入图像提取区域建议包括基于边缘定位对象。

对于区域中的每一个，处理逻辑使用预训练卷积神经网络(CNN)为每个所提取的区域建议计算特征以创建柔性最大层输出(处理框403)。在一个实施例中，柔性最大层输出包括区域神经码。

处理逻辑对CNN的柔性最大层的输出执行池化以创建输入图像的一组属性(处理框404)。在一个实施例中，对CNN的柔性最大层的输出执行池化包括对来自CNN的柔性最大层的输出的区域神经码执行交叉区域最大池化。在一个实施例中，执行交叉区域最大池化是根据区域尺寸在不同的尺度区间上进行的。

在创建该组属性后，处理逻辑通过将分类器应用于输入图像的属性来执行图像分类(处理框405)。在一个实施例中，处理逻辑通过将分类器应用于输入图像的属性来执行图像分类包括基于属性与分类器系数的比较来生成针对多个类别中的每一个的分数。

在一个实施例中，处理逻辑使用被确定为具有来自分类器的正响应的区域来任选地训练用于图像分类的分类器(处理框406)。即，在一个实施例中，处理逻辑使用分类器对每个区域进行分类以确定是否每个区域具有来自分类器的正响应。在一个实施例中，通过使用从交叉区域池化获得的属性来构建分类器。

图5是执行以上所描述的操作的处理设备的一个实施例的框图。在一个实施例中，处理设备包括处理器、片上系统(SoC)、控制器等。

参看图5，处理设备500包括接口501和识别单元502，该接口501用于接收输入图像，该识别单元502耦合至接口501，用于对输入图像执行视觉对象识别。

在一个实施例中，识别单元502包括区域提取器510，该区域提取器510用于从输入图像提取区域建议。在一个实施例中，区域提取器510通过使用具有分段的选择性搜索生成可能的对象位置来从输入图像提取区域建议。在另一实施例中，区域提取器510通过基于边缘定位对象来从输入图像提取区域建议。

在一个实施例中，识别单元502包括卷积神经网络(CNN)511，该卷积神经网络(CNN)511具有相关联处理逻辑，该相关联处理逻辑用于为每个所提取的区域建议计算特征并创建柔性最大层输出。在一个实施例中，其中柔性最大层输出包括区域神经码。

在一个实施例中，识别单元502包括交叉区域池化单元512，该交叉区域池化单元512执行对柔性最大层输出的池化以创建输入图像的一组属性。在一个实施例中，交叉区域池化单元通过对来自CNN的柔性最大层的输出的区域神经码执行交叉区域最大池化来执行对CNN的柔性最大层的输出的池化。在一个实施例中，交叉区域池化单元根据区域尺寸在不同的尺度区间上执行交叉区域最大池化。

在一个实施例中，识别单元502包括图像分类器513，该图像分类器513基于由交叉区域池化单元512创建的输入图像的属性来执行图像分类。在一个实施例中，图像分类器513对每个图像进行分类以确定区域是否具有来自图像分类器的正响应。在一个实施例中，图像分类器通过基于属性与分类器系数的比较为多个类别中的每一个生成分数来执行图像分类。

在一个实施例中，通过使用从交叉区域池化单元获得的属性来构建图像分类器512。在一个实施例中，基于确定每个区域是否具有来自图像分类器的正响应的结果来训练图像分类器。

在一个实施例中，识别单元502包括硬件(电路、专用逻辑等)、软件(诸如运行在通用计算机系统或专用机器上)、固件、或这三者的组合。

图6是可包含以上所描述技术(诸如图2A、2B或4的图像分类流程)的系统级框图600的一个实施例。例如，上文所描述的系统可被并入系统600中的处理器的处理器核中。

参照图6，系统600包括但不限于：台式计算机、膝上型计算机、上网本、平板、笔记本计算机、个人数字助理(PDA)、服务器、工作站、蜂窝电话、移动计算设备、智能电话、因特网家电或任何其他类型的计算设备。在另一实施例中，系统600实现本文中公开的方法并可以是片上系统(SOC)式系统。

在一个实施例中，处理器610具有一个或多个处理器核612至612N，其中612N表示处理器610内的第N个处理器核，其中N是正整数。在一个实施例中，系统600包括多个处理器，这多个处理器包括处理器610和605，其中处理器605具有与处理器610的逻辑类似或相同的逻辑。在一个实施例中，系统600包括多个处理器，这多个处理器包括处理器610和605，使得处理器605具有完全独立于处理器610的逻辑的逻辑。在此类实施例中，多封装系统600是异构多封装系统，因为处理器605和610具有不同的逻辑单元。在一个实施例中，处理核612包括但不限于：用于取得指令的预取逻辑、用于解码指令的解码逻辑、用于执行指令的执行逻辑，以及类似逻辑。在一个实施例中，处理器610具有用于高速缓存系统600的指令和/或数据的高速缓存存储器616。在本发明的另一实施例中，高速缓存存储器616包括一级、二级和三级高速缓存存储器、或者处理器610内的任何其他配置的高速缓存存储器。

在一个实施例中，处理器610包括存储器控制中枢(MCH)614，其可以操作以执行使得处理器610能够访问包括易失性存储器632和/或非易失性存储器634的存储器630并与之进行通信。在一个实施例中，存储器控制中枢(MCH)614位于处理器610外，作为独立集成电路。

在一个实施例中，处理器610可操作以与存储器630和芯片组620通信。在此类实施例中，SSD 680在SSD 680被上电时执行计算机可执行指令。

在一个实施例中，处理器610还耦合至无线天线678以与配置成传送和/或接收无线信号的任何设备通信。在一个实施例中，无线天线接口678根据IEEE 802.11标准及其相关系列、家庭插座AV(HomePlug AV：HPAV)、超宽带(UWB)、蓝牙、WiMax或任何形式的无线通信协议来操作，但不限于此。

在一个实施例中，易失性存储器632包括但不限于：同步动态随机访问存储器(SDRAM)、动态随机存取存储器(DRAM)、RAMBUS动态随机存取存储器(RDRAM)、和/或任何其他类型的随机存取存储器设备。非易失性存储器634包括但不限于：闪存(例如，NAND，NOR)、相变存储器(PCM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、或任何其他类型的非易失性存储器设备。

存储器630存储将由处理器610执行的信息和指令。在一个实施例中，芯片组620经由点对点(PtP或P-P)接口617和622与处理器610连接。在一个实施例中，芯片组620使得处理器610能够连接至系统600中的其他模块。在一个实施例中，接口617和622根据诸如Intel快通互连(QPI)或类似协议的PtP通信协议进行操作。

在一个实施例中，芯片组620可操作以与处理器610、605、显示设备640、以及其他设备672、676、674、660、662、664、666、677等通信。在一个实施例中，芯片组620还耦合到无线天线678以与配置成传送和/或接收无线信号的任何设备通信。

在一个实施例中，芯片组620经由接口626连接至显示设备640。在一个实施例中，显示设备640包括但不限于：液晶显示器(LCD)、等离子显示器、阴极射线管(CRT)显示器、或任何其他形式的视觉显示设备。另外，芯片组620连接至一条或多条总线650和655，这些总线互联各个模块674、660、662、664和666。在一个实施例中，如果总线速度或通信协议中存在失配，则总线650和655可经由总线桥672互联在一起。在一个实施例中，芯片组620经由接口624与非易失性存储器660、大容量存储设备(一个或多个)662、键盘/鼠标664以及网络接口666耦合，与智能电视676、消费者电子产品677等耦合，但不限于此。

在一个实施例中，大容量存储设备662包括但不限于固态驱动器、硬盘驱动器、通用串行闪存驱动器、或任何其他形式的计算机数据存储介质。在一个实施例中，网络接口666是通过使用任何类型的公知网络接口标准来实现的，这些标准包括但不限于：以太网接口、通用串行总线(USB)接口、外围组件互连(PCI)快速接口、无线接口和/或任何其他合适类型的接口。

虽然图6中所示的模块被描绘为系统600内的不同块，但是这些块中的一些块所执行的功能可被集成在单个半导体电路内，或者可使用两个或更多个不同的集成电路来实现。

在第一示例实施例中，处理设备包括：接口，该接口用于接收输入图像；以及识别单元，该识别单元耦合至接口并且能操作用于对输入图像执行视觉对象识别，该识别单元具有：提取器，该提取器用于从输入图像提取区域建议；卷积神经网络(CNN)，该卷积神经网络(CNN)用于为每个所提取区域建议计算特征，CNN能操作用于创建柔性最大层输出；交叉区域池化单元，该交叉区域池化单元能操作用于对柔性最大层输出执行池化以创建输入图像的一组属性；以及图像分类器，该图像分类器能操作用于基于输入图像的属性执行图像分类。

在另一示例实施例中，第一示例实施例的主题可任选地包括，柔性最大层输出包括区域神经码。

在另一示例实施例中，第一示例实施例的主题可任选地包括，交叉区域池化单元通过对来自CNN的柔性最大层的输出的区域神经码执行交叉区域最大池化来对CNN的柔性最大层的输出执行池化。在另一示例实施例中，此示例实施例的主题可任选地包括，交叉区域池化单元根据区域尺寸在不同的尺度区间上执行交叉区域最大池化。

在另一示例实施例中，第一示例实施例的主题可任选地包括，区域提取器通过使用具有分段的选择性搜索生成可能的对象位置或者通过基于边缘定位对象来从输入图像提取区域建议。

在另一示例实施例中，第一示例实施例的主题可任选地包括，图像分类器能操作用于对每个区域进行分类以确定每个区域是否具有来自图像分类器的正响应。

在另一示例实施例中，第一示例实施例的主题可任选地包括，图像分类器是通过使用从交叉区域池化单元获得的属性来构建的。在另一示例实施例中，此示例实施例的主题可任选地包括，图像分类器是基于确定每个区域是否具有来自图像分类器的正响应的结果来训练的。

在另一示例实施例中，第一示例实施例的主题可任选地包括，图像分类器能操作用于通过基于属性与分类器系数的比较生成针对多个类别中的每一个类别的分数来执行图像分类。

在第二示例实施例中，一种用于对输入图像执行视觉对象识别的方法包括：从输入图像提取区域建议；使用预训练卷积神经网络(CNN)为每个所提取区域建议计算特征以创建柔性最大层输出；对CNN的柔性最大层的输出执行池化以创建输入图像的一组属性；以及通过将分类器应用于输入图像的属性来执行图像分类。

在另一示例实施例中，第二示例实施例的主题可任选地包括，柔性最大层输出包括区域神经码。

在另一示例实施例中，第二示例实施例的主题可任选地包括，对CNN的柔性最大层的输出执行池化包括对来自CNN的柔性最大层的输出的区域神经码执行交叉区域最大池化。在另一示例实施例中，此示例实施例的主题可任选地包括，执行交叉区域最大池化是根据区域尺寸在不同的尺度区间上进行的。

在另一示例实施例中，第二示例实施例的主题可任选地包括，从输入图像提取区域建议包括使用具有分段的选择性搜索生成可能的对象位置或者通过基于边缘来定位对象。

在另一示例实施例中，第二示例实施例的主题可任选地包括，使用分类器对每个区域进行分类以确定每个区域是否具有来自分类器的正响应。在另一示例实施例中，此示例实施例的主题可任选地包括，分类器是通过使用从交叉区域池化获得的属性来构建的。在另一示例实施例中，此示例实施例的主题可任选地包括，使用被确定成具有来自分类器的正响应的区域来训练用于图像分类的分类器

在另一示例实施例中，第二示例实施例的主题可任选地包括，通过将分类器应用于输入图像的属性来执行图像分类包括基于属性与分类器系数的比较来生成针对多个类别中的每一个的分数。

在第三示例实施例中，一种具有存储指令一个或多个非瞬态计算机可读介质的制品，指令在被系统执行时，使系统用于执行包括以下各项的方法：从输入图像提取区域建议；使用预训练卷积神经网络(CNN)为每个所提取区域建议计算特征以创建柔性最大层输出；对CNN的柔性最大层的输出执行池化以创建输入图像的一组属性；以及通过将分类器应用于输入图像的属性来执行图像分类。

在另一示例实施例中，第三示例实施例的主题可任选地包括，柔性最大层输出包括区域神经码。

在另一示例实施例中，第三示例实施例的主题可任选地包括，对CNN的柔性最大层的输出执行池化包括对来自CNN的柔性最大层的输出的区域神经码执行交叉区域最大池化。

以上详细描述中的一些部分是按照算法和对计算机存储器内的数据位的操作的符号表示而给出的。这些算法描述和表示是数据处理领域内技术人员使用以便最有效地将他们的工作本质传达给其他本领域技术人员的手段。算法在此或一般是指导致所期望结果的自洽的步骤序列。这些步骤需要对物理量进行物理操控。通常但非必须，这些量采用能被存储、传输、组合、比较、以及以其他方式操控的电信号或磁信号的形式。主要出于常见用途的考虑，将这些信号称为位、值、要素、符号、字符、项、数字等被证明是方便的。

然而，应当记住，所有这些和类似的术语将与适当的物理量关联，并且仅仅是应用于这些量的方便的标记。除非具体说明否则，如从以下讨论所显而易见的，应意识到，贯穿说明书使用诸如“处理”、“计算”、“推算”、“确定”、“显示”等术语的讨论指的是计算机系统或类似的电子计算设备的动作和进程，它们将计算机系统寄存器和存储器内表示为物理(例如，电子)量的数据处理和/或变换成计算机系统存储器、寄存器或其他这种信息存储、传输或显示设备内类似地表示为物理量的其他数据。

本发明还涉及用于执行本文中的操作的装置。这些装置可专门构造来用于所需目的，或其可包括通用计算机，该通用计算机由存储在该计算机内的计算机程序有选择地激活或重新配置。这种计算机程序可以存储在计算机可读存储介质中，诸如但不限于，包括软盘、光盘、CD-ROM和磁光盘之类的任何类型的盘，只读存储器(ROM)，随机存取存储器(RAM)，EPROM，EEPROM，磁卡或光学卡，或者适于存储电子指令的任何类型的介质，每种介质耦合到计算机系统总线。

本文呈现的算法及显示并非固有地与任何特定计算机或其他装置相关。可以将各种通用系统与根据本文教导的程序一起使用，或可以证明构造更专门的装置来实现所要求的方法步骤是方便的。各种这些系统的所需结构将从本申请中的描述中呈现。另外，不参考任何特定编程语言来描述本发明。将会领会可将多种编程语言用于实现如本文所述的本发明的教导。

机器可读介质包括用于存储或传输机器(例如，计算机)可读形式的信息的任何机制。例如，机器可读介质包括只读存储器(“ROM”)、随机存取存储器(“RAM”)、磁盘存储介质、光存储介质、闪存设备等。

尽管本发明的很多改变和修改在本领域的普通技术人员阅读上述描述之后无疑将变得显而易见，但应该理解作为说明示出和描述的任何具体实施例决非旨在是限制性的。因此，对各实施例的细节的引述不打算限制权利要求的范围，该权利要求本身仅列举认为是对本发明至为重要的那些特征。

Claims

1.一种处理设备，所述处理设备包括：

接口，所述接口用于接收输入图像；以及

识别单元，所述识别单元耦合至所述接口并且能操作用于对所述输入图像执行视觉对象识别，所述识别单元具有：

提取器，所述提取器用于从所述输入图像提取区域建议；

卷积神经网络(CNN)，所述卷积神经网络(CNN)用于为每个所提取区域建议计算特征，所述CNN能操作用于创建柔性最大层输出；

交叉区域池化单元，所述交叉区域池化单元能操作用于对所述柔性最大层输出执行池化以创建所述输入图像的一组属性；以及

图像分类器，所述图像分类器能操作用于基于所述输入图像的属性执行图像分类。

2.如权利要求1所述的处理设备，其特征在于，所述柔性最大层输出包括区域神经码。

3.如权利要求1所述的处理设备，其特征在于，所述交叉区域池化单元通过对来自所述CNN的柔性最大层的输出的区域神经码执行交叉区域最大池化来对所述CNN的所述柔性最大层的所述输出执行池化。

4.如权利要求3所述的处理设备，其特征在于，所述交叉区域池化单元根据区域尺寸在不同的尺度区间上执行交叉区域最大池化。

5.如权利要求1所述的处理设备，其特征在于，所述区域提取器通过使用具有分段的选择性搜索生成可能的对象位置或者通过基于边缘定位对象来从所述输入图像提取区域建议。

6.如权利要求1所述的处理设备，其特征在于，所述图像分类器能操作用于对每个区域进行分类以确定所述每个区域是否具有来自图像分类器的正响应。

7.如权利要求6所述的处理设备，其特征在于，所述图像分类器是通过使用从所述交叉区域池化单元获得的属性来构建的。

8.如权利要求6所述的处理设备，其特征在于，所述图像分类器是基于确定每个区域是否具有来自所述图像分类器的所述正响应的结果来训练的。

9.如权利要求1所述的处理设备，其特征在于，所述图像分类器能操作用于通过基于所述属性与分类器系数的比较生成针对多个类别中的每一个类别的分数来执行图像分类。

10.一种用于对输入图像执行视觉对象识别的方法，所述方法包括：

从所述输入图像提取区域建议；

使用预训练卷积神经网络(CNN)为每个所提取区域建议计算特征以创建柔性最大层输出；

对所述CNN的柔性最大层的输出执行池化以创建所述输入图像的一组属性；以及

通过将分类器应用于所述输入图像的属性来执行图像分类。

11.如权利要求10所述的方法，其特征在于，所述柔性最大层输出包括区域神经码。

12.如权利要求10所述的方法，其特征在于，对所述CNN的所述柔性最大层的所述输出执行池化包括对来自所述CNN的所述柔性最大层的所述输出的区域神经码执行交叉区域最大池化。

13.如权利要求12所述的方法，其特征在于，执行交叉区域最大池化是根据区域尺寸在不同的尺度区间上进行的。

14.如权利要求10所述的方法，其特征在于，从所述输入图像提取区域建议包括使用具有分段的选择性搜索生成可能的对象位置或者通过基于边缘来定位对象。

15.如权利要求10所述的方法，其特征在于，进一步包括使用分类器对每个区域进行分类以确定所述每个区域是否具有来自所述分类器的正响应。

16.如权利要求15所述的方法，其特征在于，所述分类器是通过使用从交叉区域池化获得的属性来构建的。

17.如权利要求10所述的方法，其特征在于，通过将分类器应用于所述输入图像的所述属性来执行图像分类包括基于所述属性与分类器系数的比较来生成针对多个类别中的每一个类别的分数。

18.一种具有存储指令的一个或多个非瞬态计算机可读介质的制品，所述指令在被系统执行时，使所述系统执行包括以下各项的方法：

从所述输入图像提取区域建议；

通过将分类器应用于所述输入图像的所述属性来执行图像分类。

19.如权利要求18所述的制品，其特征在于，所述柔性最大层输出包括区域神经码。

20.如权利要求18所述的制品，其特征在于，对所述CNN的所述柔性最大层的所述输出执行池化包括对来自所述CNN的所述柔性最大层的所述输出的区域神经码执行交叉区域最大池化。