CN108475339B

CN108475339B - 用于对图像中的对象分类的方法和系统

Info

Publication number: CN108475339B
Application number: CN201580085497.4A
Authority: CN
Inventors: 王晓刚; 曾星宇; 欧阳万里
Original assignee: Beijing Sensetime Technology Development Co Ltd
Current assignee: Beijing Sensetime Technology Development Co Ltd
Priority date: 2015-11-13
Filing date: 2015-11-13
Publication date: 2022-08-02
Anticipated expiration: 2035-11-13
Also published as: CN108475339A; WO2017079972A1

Abstract

公开了一种用于对图像中的对象分类的方法，包括：获得每个所述图像的至少一个候选限界框，其中每个候选限界框含有待分类的一个对象；从每个所述候选限界框提取外观特征；基于所提取的外观特征计算每个候选框的n‑分类得分；以及将每个候选限界框中的对象分类为n个类别中的一个类别，其中n是大于1的整数。

Description

用于对图像中的对象分类的方法和系统

技术领域

本公开涉及一种用于对图像中的对象分类的方法和系统。

背景技术

对象检测的目标是在数字图像和视频中检测特定类别的对象实例。对象检测系统的性能很大程度上取决于图像表示(representation)，图像表示的质量可受例如视点、照明、位姿和遮挡的许多种类的变化影响。由于这类不可控制的因素的存在，设计充分可辨别以表示大量对象类别的稳健图像表示很重要。

大量工作一直专注于设计手工(hand-drafted)特征。通常，基于手工特征的对象检测涉及：对多级大小(multiple scales)的图像上的关键位置(landmarks)提取多个特征，然后将提取的多个特征连结为高维度特征向量。

已应用深度卷积神经网络(CNN)直接从原始像素学习特征。对于对象检测任务，现有的深度CNN学习方法通过使用没有真值(ground truth)限界框的图像预训练CNN，随后使用具有限界框真值的另一图像集合微调该深度神经网络。通常，用于微调的图像集合与用于预训练的图像集合相比具有较少的语义类别数目。此外，用于微调的图像集合中的语义类别数目等于待检测的实际类别数目。

发明内容

下面将简要概述本公开的内容，以提供对本公开的一些方面的基本理解。此概述并非本公开内容的详尽综述。这些概述内容既不是用来指出本公开的重要或关键要素，也并不是用来界定本公开的具体实施方式的任何范围，或权利要求书的任何范围。其唯一目的是以简化形式呈现本公开的一些概念，作为后文详细描述的序言。

在一方面中公开了一种对图像中的对象分类的方法，包括：获得图像中的每个图像的至少一个候选限界框，其中每个候选限界框含有待分类的一个对象；从每个候选限界框提取外观特征；基于所提取的外观特征计算每个候选框的n-分类得分；以及将每个候选限界框中的对象分类为n个类别中的一个类别，其中n是大于1的整数。

在本申请的另一方面中公开了一种用于对图像中的对象分类的系统，包括：用于获得图像中的每个图像的至少一个候选限界框的装置，其中每个候选限界框含有待分类的一个对象；用于从每个候选限界框提取外观特征的装置；用于基于所提取的外观特征计算每个候选框的n-分类得分的装置；以及用于将每个候选限界框中的对象分类为n个类别中的一个类别的装置，其中n是大于1的整数。

在本申请的另一方面中还公开了一种用于对图像中的对象分类的系统，包括：存储器，其存储可执行组件；以及处理器，其执行可执行组件以执行系统的操作，所述操作包括：获得图像中的每个图像的至少一个候选限界框，其中每个候选限界框含有待分类的一个对象；从每个候选限界框提取外观特征；基于所提取的外观特征计算每个候选框的n-分类得分；以及将每个候选限界框中的对象分类为n个类别中的一个分类，其中n是大于1的整数。

在本申请的一个实施例中，通过使用特征学习CNN从每个候选限界框提取外观特征。可通过以下步骤训练CNN：训练具有第一数目的节点的第一输出层和具有第一数目的整数倍(例如4倍)的节点的第二输出层的第二CNN；用经过训练的第二CNN的神经参数初始化第三CNN；用微调图像集合训练第三CNN；为经过训练的第三CNN添加第二数目的输出层，其中第二数目的输出层中的每个输出层用于n-类别分类；用第三CNN的神经参数初始化第四CNN；用具有n个节点的新输出层替换第四CNN的输出层；以及用微调图像集合微调第四CNN以获得特征学习CNN。

例如，可通过以下操作训练第二CNN：用经过预训练图像集合预训练过的第一CNN的神经参数初始化第二CNN；用两个新层替换第二CNN的输出层；以及用微调图像集合训练第二CNN。

在本申请的一个实施例中，每个预训练图像可具有至少一个真值限界框，且每个微调训练图像可具有至少一个真值限界框和至少一个候选限界框。

在本申请的一个实施例中，可通过根据每个候选限界框和对应真值框在每个微调训练图像中的相对位置和大小关系对微调训练图像聚类来确定第一数目。

在本申请的一个实施例中，可通过根据真值框在每个微调训练图像中的相对位置和大小关系对微调训练图像集合聚类来确定第二数目。

附图说明

在下文中将参考附图描述本申请的示例性的非限制性实施方式。附图是示意性的且通常未按确切的比例绘制。在不同的附图中使用相同的附图标号来表示相同或相似的元件。

图1示出了根据本申请的实施方式的、用于对图像中的对象分类的方法。

图2是示出用于训练特征学习CNN的方法的流程图。

图3示出了根据本申请的示例性的CNN。

图4和5示出的示例性图像呈现了在仅提供候选窗内的图像区的情况下难以分辨对象类别或真值限界框在何处。

图6示出了所获得的窗-对象关系聚类的示范性图像。

图7示出了根据本申请的实施方式的、用于对图像中的对象分类的系统。

具体实施方式

下面将详细参考本发明的一些具体实施方式，这些实施方式包含发明人预期用于实行本发明的最佳模式。在附图中示出的是这些具体实施方式的示例。尽管结合这些具体的实施方式描述了本发明，但本领域技术人员应该理解这些描述并不是用来将本发明限制为所描述的实施方式。相反，其用意是希望涵盖如所附权利要求书限定的本发明的精神和范围内的替代方案、修改和等同方案。在以下描述中，为了完整理解本申请阐述了众多具体的细节，但是在实践中本申请可不具有这些特定细节中的一些细节或全部细节。在其它情况下，对公知的过程操作没有进行详细的描述以免不必要地混淆本申请。

本文中所使用的术语仅出于描述具体实施方式的目的，而不是用来限制本发明。在本文中所使用时，除非上下文另外清楚地表示，否则单数形式“一”和“所述”还可包含复数形式。还应该进一步理解，当在本说明书中使用术语“包括(comprise)”和/或“包括(comprising)”时，该术语用于说明存在所陈述的特征、整体、步骤、操作、元件和/或组件，但并不排除一个或多个其它特征、整体、步骤、操作、元件、组件和/或其组合的存在或添加。

图1示出了根据本申请实施方式的、用于对图像中的对象分类的方法1000。

如图所示，在步骤S101获得每个图像的至少一个候选限界框，其中每个候选限界框含有待分类的一个对象。在步骤S102从每个候选限界框提取一个或多个外观特征(appearance features)。在步骤S103，基于所提取的外观特征计算每个候选框的n-分类得分。在步骤S104，将每个候选限界框中的对象分类成n个类别中的一个类别，其中n是大于1的整数。

在步骤S102中提取的外观特征被用来例如通过C二进制-类别支持向量机(SVM)检测器对每个候选窗进行分类，其中每个检测器预测一个语义对象类别的一个候选限界框的一个值。每个SVM检测器的得分测量含有特定对象类别的候选窗的置信度。可利用下文将详细描述的特征学习CNN执行特征提取步骤S102。

特征学习CNN

图2是示出用于训练特征学习CNN的方法2000的流程图。

如图2所示，在步骤S201，用预训练图像集合预训练第一CNN。在步骤S202，用经过预训练的第一CNN的神经参数初始化第二CNN。在步骤S203，用两个新层替换第二CNN的输出层，其中新输出层中的一个新输出层具有c个节点，且其它输出层具有4c个节点。在步骤S204，用微调图像集合训练第二CNN。

在本申请的一个实施方式中，每个预训练图像具有至少一个真值限界框，且每个微调训练图像具有至少一个真值限界框和至少一个候选限界框。在本申请的上下文中，举例来说，如果候选限界框处于人的左/右侧，那么候选限界框可含有人的左/右半部。作为其它实例，候选限界框可含有人的上半身或腿部或全身。与真值限界框相比，候选限界框可具有包含较多背景区的较大尺度，或具有仅包含对象的部分的较小尺度。候选限界框与对象的真值限界框之间的关系(其在本申请中称为候选-真值关系)提供了丰富信息。候选-真值关系可利用候选限界框和真值限界框的位置和大小获得。

第二CNN的两个新输出层由c-类别分类和4c回归组成。c-类别分类的标记(label)是每个框提议(box proposal)的聚类索引(cluster index)。4c回归的标记是每个聚类的l_loc。通过根据每个候选限界框和对应真值框在每个微调训练图像中的相对位置和大小关系对微调训练图像聚类来确定c的值。

举例来说，计算候选限界框与其真值限界框之间的重叠。将具有大于0.5的重叠的那些样本指派正标记，其它被指派负标记。用于训练网络的损失函数使用所指派的标记来计算每个样本的损失，且反向传播处理的目标是使所有样本的损失函数最小化。

相对位置和大小被公式化为

l_loc＝[(x_s-x_g)/W_s,(y_s-y_g)/H_s,log(W_s/W_g),log(H_s/H_g)] 式(1)

其中，(x_s,y_s)表示候选限界框的中心坐标；(W_s,H_s)表示框提议的宽度和高度；(x_g,y_g)表示真值限界框的中心坐标；以及(W_g,H_g)表示真值限界框的宽度和高度。

在步骤S205，用经过训练的第二CNN的神经参数初始化第三CNN。在步骤S206，用微调图像集合训练第三CNN。在步骤S207，为经过训练的第三CNN添加k个输出层，其中第二数目的输出层中的每个输出层用于n-类别分类。

在步骤S208，用经过预训练的第三CNN的神经参数初始化第四CNN。在步骤S209，用具有n个节点的新输出层替换第四CNN的输出层。在步骤S210，用微调图像集合微调第四CNN以获得特征学习CNN。

在本申请的一个实施方式中，通过根据真值框在每个微调训练图像中的相对位置和大小关系对微调训练图像集合聚类来确定k的值，其可被公式化为：

l_loc’＝[(x_g1-x_g2)/W_g1,(y_g1-y_g2)/H_g1,log(W_g1/W_g2),log(H_g1/H_g2)] 式(2)

其中，(x_g1,y_g1)表示第一真值框的中心坐标；(W_g1,H_g1)表示第一真值框的宽度和高度；(x_g2,y_g2)表示第二真值框的中心坐标；以及(W_g2,H_g2)表示第二真值框的宽度和高度。

图3示出了根据本申请示例性的CNN。如图所示，CNN结构由数据层、多个池化层、卷积层和全连接层组成。

数据层接收图像

和其标记

其中x_i,j是第i输入图像区的d-维度特征向量的第j位值，y_i,j是第i输入图像区的n维度标签向量的第j位值。

卷积层从数据层接收输出且执行卷积、填补(padding)、取样和非线性变换运算。

全连接层获得卷积层的输出且对其执行内积运算，其旨在将输入投影到最终预测。此预测可以是每个类别的概率，且也可以是相对位置。

可利用用于训练神经网络的任何已知技术对上述经过训练的CNN进行反向传播处理。训练过程可尝试使损失函数最小化，且可划分成许多更新步骤，其中该算法相对于所有神经网络参数(包括卷积滤波器、变形层权重、全连接权重和偏差)计算梯度。可通过一个预确定的学习速率与对应梯度相乘来执行参数的更新。

在本申请的一个实施方式中，用于提取外观特征的候选窗处理如下。

首先，对于大小为(W,H)且中心为(x,y)的候选窗b_s＝(x,y,W,H)，裁剪大小为(λW,λH)，λ∈Λ且中心为(x,y)的图像I(λ,b_s)。经过裁剪的图像和候选窗具有相同中心位置(x,y)。λ是情境区(contextual region)的尺度。尺度集Λ的选择将稍后详细论述。

第二，经过裁剪的图像旋转r∈R度以获得I(r,λ,b_s)，例如R的值可为R＝{0°,45°,90°}。

第三，具有不同大小和旋转的、经过裁剪的图像I(r,λ,b_s)被变形为相同大小，且被视为特征学习CNN的输入以提取其特征，即f_r,λ＝f(r,λ,I(r,λ,b_s))，其中f(r,λ,*)表示用于从I(r,λ,b_s)提取特征的CNN，f_r,λ表示针对旋转r和尺度λ提取的特征的向量。在本申请的一个实施方式中，对于候选窗b_s，存在六个经过裁剪的图像I(r,λ,b_s)，其中(r,λ)为(0°,0.8)、(0,1.2)、(45°,1.2)、(90°,1.2)、(0°,1.8)和(0°,2.7)。应该理解，本申请的方法不限于网络结构。

最后，所提取的特征接着被连结为F＝concat_(r,λ){f_r,λ}，其中concat_(r,λ)是用于将特征连结为向量的运算。

当候选限界框的位置和大小不同于真值限界框的位置和大小时，候选限界框仅具有对象的部分视觉内容。有限的视图导致CNN难以算出对象类别之间的视觉差。例如，如果仅可查看屏幕，那么难以分辨其为ipod还是显示器，但如果提供整个对象和其情境区(如图4所示)，那么变得容易得多。另一问题是，频繁发生遮挡。因此，对象类别的真值限界框可含有不同数量的对象部分和因此不同限界框大小。在无大于真值的区作为输入的情况下，网络难以确定限界框大小。如图5所示，与腿部被遮挡的人相比，站立的未被遮挡的人的真值框应覆盖人身体的更多部分。当从候选限界框裁剪的图像仅覆盖此人的上半身时，难以预测人的腿部是否被遮挡。如果被遮挡，那么CNN应输出较小框，否则输出较大框。CNN可在输入中含有比真值大的区域时处理该难点。

为解决以上问题，多个尺度的情境区用作CNN的输入。在本申请的一个实施方式中，用于裁剪图像的4个尺度0.8、1.2、1.8、2.7(在对数尺度中为线性的)被使用，并且1.2被设置为默认值。当窗与对象之间的重叠大于0.5时，具有尺度2.7的、经过裁剪的图像已被证明足够覆盖大多数真值区。即使候选限界框与真值限界框之间的重叠为0.37，具有尺度2.7的经过裁剪的图像也能够覆盖超过50％的真值区。1.8是通过对数尺度中1.2与2.7之间的线性内插而获得。0.8被挑选是因为一些候选限界框可能大于真值限界框，如图6中的第一图像所示。具有较小尺度的经过裁剪的图像可帮助这些窗适配对象的实际尺度。

在如上文所公开的用于对图像中的对象分类的方法用软件实施的情况下，用于对图像中的对象分类的系统7000可包括通用计算机、计算机簇、主流计算机、专用于提供线上内容的计算装置，或包括以集中或分布方式操作的计算机群组的计算机网络。如图7所示，系统7000可包括一个或多个处理器(处理器702、704、706等等)、存储器712、存储装置716、通信接口714和总线以促进系统7000的各个组件之间的信息交换。处理器702-706可包括中央处理单元(“CPU”)、图形处理单元(“GPU”)或其它合适的信息处理装置。取决于所使用的硬件的类型，处理器702-706可包括一个或多个印刷电路板和/或一个或多个微处理器芯片。处理器702-706可执行计算机程序指令的序列以执行各种方法或运行实施用于对图像中的对象分类的功能的模块。

存储器712可包括随机存取存储器(“RAM”)和只读存储器(“ROM”)以及其它存储器。计算机程序指令可从存储器712存储、存取和读取以供由处理器702-706中的一个或多个处理器执行。例如，存储器712可存储一个或多个软件应用程序。此外，存储器712可存储整个软件应用程序或仅存储软件应用程序的一部分，所述软件应用程序可由处理器702-706中的一个或多个处理器执行以实行上文所公开的用于对图像中的对象分类的功能。应注意，尽管存储器712在图7中被示出为单独的一个模块，但存储器712可包括安装在中央计算装置上或不同计算装置上的多个物理装置。

根据本申请一个实施方式的、用于对图像中的对象分类的方法包括：获得每个图像的至少一个候选限界框，其中每个候选限界框含有待分类的一个对象；从每个候选限界框提取外观特征；基于所提取的外观特征计算每个候选限界框的n-分类得分；以及将每个候选限界框中的对象分类为n个类别中的一个类别，其中n是大于1的整数。

在本申请的一个实施方式中，利用通过以下步骤训练获得的特征学习CNN来提取外观特征：训练具有第一数目的节点的第一输出层和具有第一数目的整数倍的节点的第二输出层的第二CNN；用经过训练的第二CNN的神经参数初始化第三CNN；用微调图像集合训练第三CNN；为经过训练的第三CNN添加第二数目的输出层，其中第二数目的输出层中的每个输出层用于n-类别分类；用第三CNN的神经参数初始化第四CNN；用具有n个节点的新输出层替换所述第四CNN的输出层；以及用微调图像集合微调所述第四CNN以获得所述特征学习CNN。

在本申请的一个实施方式中，通过以下操作训练第二CNN：用经过预训练图像集合预训练过的第一CNN的神经参数初始化第二CNN；用两个新的神经层替换第二CNN的输出层；以及用微调图像集合训练第二CNN。

在本申请的一个实施方式中，每个预训练图像具有至少一个真值限界框，且每个微调训练图像具有至少一个真值限界框和至少一个候选限界框。

在本申请的一个实施方式中，通过根据每个候选限界框和其对应真值框在每个微调训练图像中的相对位置和大小关系对微调训练图像聚类来确定第一数目。

在本申请的一个实施方式中，通过根据标注框在每个微调训练图像中的相对位置和大小关系对微调训练图像集合聚类来确定第二数目。

在本申请的一个实施方式中，该对象分类方法进一步包括：基于在每个微调训练图像中所述真值限界框与所述对应候选限界框之间的重叠计算损失函数；以及反向传播通过第一CNN、第二CNN和第三CNN中的至少一个直到所述损失函数最小化，从而确定出第一CNN、第二CNN和第三CNN的神经参数。

在本申请的一个实施方式中，在提取外观特征之前，用于对图像中的对象分类的方法进一步包括：裁剪每个候选限界框；以及旋转经过裁剪的候选限界框。

在本申请的一个实施方式中，在提取外观特征之前，用于对图像中的对象分类的方法进一步包括：提取特征之前，按照因子缩放每个候选限界框。

根据本申请一个实施方式的、用于对图像中的对象分类的系统包括：用于获得每个图像的至少一个候选限界框的装置，其中每个候选限界框含有待分类的一个对象；用于从每个候选限界框提取外观特征的装置；用于基于所提取的外观特征计算每个候选框的n-分类得分的装置；以及用于将每个候选限界框中的对象分类为n个类别中的一个类别的装置，其中n是大于1的整数。

用于提取的装置包括通过以下步骤训练的特征学习CNN：训练具有第一数目的节点的第一输出层和具有所述第一数目的4倍的节点的第二输出层的第二CNN；用经过训练的第二CNN的神经参数初始化第三CNN；用微调图像集合训练第三CNN；为经过训练的第三CNN添加第二数目的输出层，其中第二数目的输出层中的每个输出层用于n-类别分类；用第三CNN的神经参数初始化第四CNN；用具有n个节点的新输出层替换第四CNN的输出层；以及用微调图像集合微调第四CNN以获得特征学习CNN。

在本申请的一个实施方式中，通过以下操作训练第二CNN：用经过预训练图像集合预训练过的第一CNN的神经参数初始化第二CNN；用两个新层替换第二CNN的输出层；以及用微调图像集合训练第二CNN。

在本申请的一个实施方式中，通过根据每个候选限界框和其对应真值框在微调训练图像中的相对位置和大小关系对微调训练图像聚类来确定所述第一数目。

在本申请的一个实施方式中，通过根据真值框在每个微调训练图像中的相对位置和大小关系对微调训练图像集合聚类来确定第二数目。

在本申请的一个实施方式中，该对象分类系统进一步包括：用于基于在每个微调训练图像中真值限界框与对应候选限界框之间的重叠计算损失函数的装置；以及用于反向传播通过第一CNN、第二CNN和第三CNN中的至少一个直到损失函数最小化，从而确定出第一CNN、第二CNN和第三CNN的神经参数的装置。

在本申请的一个实施方式中，该对象分类系统进一步包括：用于在提取外观特征之前裁剪每个所述候选限界框的装置；以及用于旋转经过裁剪的候选限界框的装置。

该对象分类系统进一步包括：用于在提取特征之前，按照因子缩放每个所述候选限界框的装置。

根据本申请的又一实施方式的、用于对图像中的对象分类的系统包括：存储器，其存储可执行组件；以及处理器，其执行所述可执行组件以进行以下操作：获得所述图像中的每个图像的至少一个候选限界框，其中每个候选限界框含有待分类的一个对象；从每个候选限界框提取外观特征；基于所提取的外观特征计算每个候选框的n-分类得分；以及将每个候选限界框中的对象分类为n个类别中的一个类别，其中n是大于1的整数。

在本申请的一个实施方式中，利用特征学习CNN执行提取外观特征，其中，该特征学习CNN通过以下步骤进行训练：训练具有第一数目的节点的第一输出层和具有所述第一数目的4倍的节点的第二输出层的第二CNN；用经过训练的第二CNN的神经参数初始化第三CNN；用微调图像集合训练第三CNN；为经过训练的第三CNN添加第二数目的输出层，其中第二数目的输出层中的每个输出层用于n-类别分类；用第三CNN的神经参数初始化第四CNN；用具有n个节点的新输出层替换第四CNN的输出层；以及用微调图像集合微调第四CNN以获得特征学习CNN。

虽然已经描述了本申请的优选示例，但是本领域技术人员可在知晓基本发明概念后对这些示例作出变化或修改。所附权利要求书可被理解为包括落在本申请范围内的优选示例及其所有变化或修改。

显然，本领域技术人员可在不背离本申请精神和范围的情况下对本申请作出变化或修改。因而，如果这些变化或修改属于权利要求书和等同技术的范围，那么其也落在本申请的范围内。

Claims

1.一种用于对图像中的对象分类的方法，包括：

获得每个所述图像的至少一个候选限界框，其中每个候选限界框含有待分类的一个对象；

通过特征学习CNN从每个所述候选限界框提取外观特征；

基于所提取的外观特征计算每个候选限界框的n-分类得分；以及

将每个候选限界框中的对象分类为n个类别中的一个类别，其中n是大于1的整数，

其中，训练所述特征学习CNN包括：

用微调图像集合训练具有第一数目的节点的第一输出层和具有所述第一数目的整数倍的节点的第二输出层的第二CNN，

用经过训练的第二CNN的神经参数初始化第三CNN；

用所述微调图像集合训练所述第三CNN；

为经过训练的第三CNN添加第二数目的输出层，其中所述第二数目的输出层中的每个输出层用于n-类别分类；用所述第三CNN的神经参数初始化第四CNN ；

用具有n个节点的新输出层替换所述第四CNN的输出层；以及

用所述微调图像集合微调所述第四CNN以获得所述特征学习CNN，

其中，所述微调图像集合中的每个微调训练图像具有至少一个真值限界框和至少一个候选限界框，以及

其中，通过根据每个所述微调训练图像的每个候选限界框和其对应真值限界框在每个所述微调训练图像中的相对位置和大小关系对所述微调训练图像聚类来确定所述第一数目。

2.根据权利要求1所述的方法，其中，通过以下操作训练所述第二CNN：

用经过预训练图像集合预训练过的第一CNN的神经参数初始化所述第二CNN；

用两个新的神经层替换所述第二CNN的输出层；以及

用所述微调图像集合训练所述第二CNN。

3.根据权利要求2所述的方法，其中，所述预训练图像集合中的每个预训练图像具有至少一个真值限界框。

4.根据权利要求1所述的方法，其中，通过根据所述微调训练图像的所述真值限界框在每个所述微调训练图像中的相对位置和大小关系对所述微调训练图像集合聚类来确定所述第二数目。

5.根据权利要求2所述的方法，进一步包括：

基于在每个所述微调训练图像中所述真值限界框与所述对应候选限界框之间的重叠计算损失函数；以及

反向传播通过所述第一CNN、所述第二CNN和所述第三CNN中的至少一个直到所述损失函数最小化，从而确定出所述第一CNN、所述第二CNN和所述第三CNN的神经参数。

6.根据权利要求1所述的方法，其中，在所述提取之前所述方法进一步包括：

裁剪每个所述候选限界框；以及

旋转经过裁剪的所述候选限界框。

7.根据权利要求1所述的方法，其中，在所述提取之前所述方法进一步包括：

提取特征之前，按照因子缩放每个所述候选限界框。

8.一种用于对图像中的对象分类的系统，包括：

用于获得每个所述图像的至少一个候选限界框的装置，其中每个候选限界框含有待分类的一个对象；

用于通过特征学习CNN从每个所述候选限界框提取外观特征的装置；

用于基于所提取的外观特征计算每个候选框的n-分类得分的装置；以及

用于将每个候选限界框中的对象分类为n个类别中的一个类别的装置，其中n是大于1的整数，

其中，训练所述特征学习CNN包括：

用经过训练的第二CNN的神经参数初始化第三CNN；

用所述微调图像集合训练所述第三CNN；

为经过训练的第三CNN添加第二数目的输出层，其中所述第二数目的输出层中的每个输出层用于n-类别分类用所述第三CNN的神经参数初始化第四CNN；

用具有n个节点的新输出层替换所述第四CNN的输出层；以及

9.根据权利要求8所述的系统，其中，通过以下操作训练所述第二CNN：

用两个新层替换所述第二CNN的输出层；以及

用所述微调图像集合训练所述第二CNN。

10.根据权利要求9所述的系统，其中，所述预训练图像集合中的每个预训练图像具有至少一个真值限界框。

11.根据权利要求8所述的系统，其中，通过根据所述微调训练图像的所述真值限界框在每个所述微调训练图像中的相对位置和大小关系对所述微调训练图像集合聚类来确定所述第二数目。

12.根据权利要求9所述的系统，进一步包括：

用于基于在每个所述微调训练图像中所述真值限界框与所述对应候选限界框之间的重叠计算损失函数的装置；以及

用于反向传播通过所述第一CNN、所述第二CNN和所述第三CNN中的至少一个直到所述损失函数最小化，从而确定出所述第一CNN、所述第二CNN和所述第三CNN的神经参数的装置。

13.根据权利要求8所述的系统，进一步包括：

用于在所述提取之前裁剪每个所述候选限界框的装置；以及

用于旋转经过裁剪的候选限界框的装置。

14.根据权利要求8所述的系统，进一步包括：

用于在所提取特征之前，按照因子缩放每个所述候选限界框的装置。

15.一种用于对图像中的对象分类的系统，包括：

存储器，其存储可执行组件；以及

处理器，其执行所述可执行组件以进行以下操作：

获得所述图像中的每个图像的至少一个候选限界框，其中每个候选限界框含有待分类的一个对象；

通过特征学习CNN从每个所述候选限界框提取外观特征；

基于所提取的外观特征计算每个候选框的n-分类得分；以及

其中，训练所述特征学习CNN包括：

用经过训练的第二CNN的神经参数初始化第三CNN；

用所述微调图像集合训练所述第三CNN；

为经过训练的第三CNN添加第二数目的输出层，其中所述第二数目的输出层中的每个输出层用于n-类别分类；

用所述第三CNN的神经参数初始化第四CNN；

用具有n个节点的新输出层替换所述第四CNN的输出层；以及

16.根据权利要求15所述的系统，其中，通过以下操作训练所述第二CNN：

用两个新层替换所述第二CNN的输出层；以及

用所述微调图像集合训练所述第二CNN。