CN106688011A

CN106688011A - 用于多类别物体检测的方法和系统

Info

Publication number: CN106688011A
Application number: CN201480081846.0A
Authority: CN
Inventors: 汤晓鸥; 欧阳万里; 曾星宇; 邱石; 吕健勤; 王晓刚
Original assignee: Beijing Sensetime Technology Development Co Ltd
Current assignee: Beijing Sensetime Technology Development Co Ltd
Priority date: 2014-09-10
Filing date: 2014-09-10
Publication date: 2017-05-17
Anticipated expiration: 2034-09-10
Also published as: CN106688011B; WO2016037300A1

Abstract

公开一种用于训练多类别物体检测的神经网络的装置。该装置可包括特征学习单元和子框检测器单元。根据本申请的一个实施例，特征学习单元被配置成：基于第一训练图像集的训练图像来确定第一神经网络，其中每个图像中有多个边界框，边界框的内部具有物体，并且所确定的第一神经网络给出输入图像的上下文信息；以及基于第一训练图像集中的图像的边界框来确定第二神经网络，随后基于第二训练集中的图像的边界框来进一步微调第二神经网络。子框检测器单元被配置成基于第二神经网络来确定用于边界框的子框检测器得分，子框检测器的每个预测得分用于一个边界框的一个语义物体类别的一个值。

Description

用于多类别物体检测的方法和系统

技术领域

本申请涉及多类别物体检测的方法和系统，其目标是自动检测视频的数字图像中的不同类别的物体的实例。

背景技术

物体检测的目标是检测数字图像和视频中的某一类别的物体的实例。物体检测系统的性能很大程度上取决于图像表示，图像表示的质量可受到多种变化的影响，诸如，视角、照明、姿势和遮挡。归因于此类不可控制的因素，设计足够有辨别力以表示大量物体类别的稳健图像表示是很有意义的。

已经付出大量的努力致力于设计用于表示图像的手工制作的特征，诸如，Gabor、SIFT和HOG。通常，基于物体检测的手工制作的特征涉及使用多重尺度在图像的关键点上提取多个特征，并且将它们连接成高维特征向量。

深度卷积神经网络(CNN)已经应用于直接从原始像素中习得特征。至于物体检测任务，现有的深度CNN学习方法通过使用不具有基本真实边界框的图像来预先训练CNN，随后使用具有基本真实边界框的另一图像集来微调深度神经网络。通常，与用于预先训练的图像集相比，用于微调的图像集具有较少量的语义类别数量。此外，用于微调的图像集中的语义类别的数量等于我们想要检测的实际类别的数量。

发明内容

一方面，公开用于训练多类别物体检测的神经网络的装置。该装置可包括特征学习单元和子框检测器单元。根据本申请的一个实施例，特征学习单元被配置成：基于第一训练图像集的训练图像来确定第一神经网络，其中训练图像中的每个具有多个边界框，边界框的内部具有物体；以及基于第一训练图像集的训练图像的边界框来确定第二神经网络，随后基于第二训练集的训练图像的边界框来进一步微调第二神经网络。子框检测器单元被配置成基于第二神经网络来确定用于第一和第二图像集的边界框的二类分类器检测器(classifier detector)，所确定的二类分类器检测器的每个得分预测边界框中的一个边界框内部的一个语义物体类别。

另一方面，公开用于多类别物体检测的装置，该装置包括：特征学习模块，其被配置成确定用于输入的图像的每个候选边界框的多个分类特征；子框检测器模块，其被配置成利用预先训练的检测神经网络基于由特征学习模块确定的分类特征来计算用于每个候选框的多个检测类别得分；以及上下文信息模块，其被配置成连接所计算的分类类别得分，并且确定候选边界框的最终得分，最终得分表示输入的图像的边界框中的一个边界框内部的一个语义物体类别。

又一方面，公开用于多类别物体检测的系统，该系统包括训练装置，该训练装置被配置成从多个预定训练图像集中确定分类神经网络和检测神经网络。该系统还包括预测装置，该预测装置包括：特征学习模块，其被配置成基于检测神经网络来确定用于输入图像的每个候选边界框的多个特征，其中检测神经网络将候选边界框作为输入并且操作以输出用于候选边界框的检测特征；子框检测器模块，其被配置成利用分类神经网络基于检测特征来计算用于每个候选边界框的多个分类类别得分；以及上下文信息模块，其被配置成连接所计算的分类类别得分，并且基于检测神经网络来确定候选边界框的最终得分，最终得分表示该框内部的语义物体类别。

又一方面，公开用于训练多类别物体检测的神经网络的方法，该方法包括：

基于第一训练图像集的训练图像来确定第一神经网络，其中图像中的每个具有多个边界框，边界框的内部具有物体，并且所确定的第一神经网络输出用于输入图像的上下文信息；

基于第一训练图像集中的图像的边界框来确定第二神经网络；

基于第二训练图像集中的图像的边界框来微调第二神经网络；以及

基于第二神经网络来确定用于边界框的子框检测器得分，子框检测器的每个预测用于一个边界框的一个语义物体类别的一个值。

基于第一训练图像集的多个边界框来确定第一神经网络；

基于第二训练图像集中的图像的边界框来确定第二神经网络，所确定的第一神经网络输出用于输入图像的上下文信息；以及

基于第二神经网络来确定用于边界框的子框检测器得分，子框检测器得分中的每个预测用于一个语义物体类别的边界框中的一个边界框的一个值。

此外，本申请还提出用于多类别物体检测的方法，该方法包括：

从多个预定训练图像集中确定分类神经网络、检测神经网络、多个子框检测器和多个上下文信息检测器；

基于检测神经网络来确定用于输入图像的每个候选边界框的多个特征，其中检测神经网络将候选边界框作为输入并且从检测神经网络的最后隐藏层计算特征值；

基于分类神经网络来计算用于每个候选框的多个分类类别得分；

连接所计算的分类类别得分，以便基于检测神经网络通过所确定的子框检测器来确定候选边界框的最终得分。

附图说明

下文参考附图描述本发明的示例性非限制实施例。附图是说明性的，并且一般不按确切比例。不同图上的相同或类似元件引用相同的参考编号。

图1是示出根据本申请的一个实施例的用于多类别物体检测的示例性系统的示意图。

图2是示出根据本申请的一个实施例的训练装置的示例性框图的示意图。

图3示出根据本申请的一个实施例的用于选择性搜索单元的操作的流程图。

图4示出根据本申请的一个实施例的用于特征学习单元的操作的流程图。

图5示出根据本申请的一个实施例的特征学习单元训练神经网络的流程图。

图6示出根据本申请的一个实施例的子图像分块。

图7示出根据本申请的一个实施例的用于子框检测器单元的操作的流程图。

图8示出根据本申请的另一实施例的用于子框检测器单元的操作的流程图。

图9示出根据本申请的另一实施例的用于上下文信息单元的操作的流程图。

图10是示出根据本申请的一个实施例的神经网络结构的示例性配置的示意图。

图11是示出根据本申请的一个实施例的网络的变形层的示例性配置的示意图。

图12是示出根据本申请的一个实施例的用于预测装置的示例性框图的示意图。

图13是示出根据本申请的一个实施例的如何输出预测的边界框和用于预测的边界框的对应得分的过程的流程图。

图14示出根据本申请的其他实施例的用于模型平均单元的操作的流程图。

具体实施方式

现在将详细参考示例性实施例，这些实施例的示例将在附图中说明。在适当的时候，附图中相同的参考编号始终指代相同或相似部分。

图1是示出根据本申请的一个实施例的用于多类别物体检测的示例性系统100的示意图。如图1所示，用于多类别物体检测的系统100可包括训练装置10和预测装置20。

训练装置10被配置成获取含有图像集的预定训练集的集合，图像中的每个用边界框(x，y，w，h)进行标识，其中(x，y)＝边界框的左上方坐标，h＝边界框的高度，以及w＝边界框的宽度。在本申请的一个实施例中，每个框含有目标语义物体。训练装置10随后从获取的训练集中确定分类神经网络、检测神经网络、多个(n个)子框检测器和多个(n个)上下文信息检测器。一旦训练装置10已经完成训练过程，预测装置20便可使用网络、子框检测器和上下文检测器来检测图像中的语义类别。预测装置20将图像作为输入，并且输出边界框坐标(x，y，w，h)，其中每个框含有目标语义物体。

图2是示出根据本申请的一个实施例的训练装置10的示例性框图的示意图。如图所示，训练装置10可包括选择性搜索单元101、区域拒绝单元102、特征学习单元103、子框检测器单元104和上下文信息单元105，这将在下文详细论述。

选择性搜索单元101

选择性搜索单元101被配置成获取视频的至少一个数字图像，随后提出内部可具有用于每个获取图像的物体的候选边界框的过完备(over-complete)集，随后输出多个正和负候选边界框(x，y，w，h)。图3示出根据本申请的一个实施例的用于选择性搜索单元101的操作的流程图。在步骤s301中，选择性搜索单元101操作以将获取的图像中的每个调整尺寸到固定宽度，例如，500个像素。在步骤s302中，选择性搜索单元101在图像中的每个上执行超像素分割，以获取每个图像的边界框位置的集合，例如，数据驱动的、类别独立的高质量边界框位置的小集合。在步骤s303中，选择性搜索单元101将候选边界框(即，获取的边界框)与手动标记的边界框进行比较，以确定候选边界框与手动标记的边界框之间的重叠是否大于预定阈值(依据重叠面积比)，例如，0.5。如果是的话，则边界框在步骤S304中将被视作正样本，而重叠小于0.5的那些边界框在步骤s305中将被视作负样本。

区域拒绝单元102

区域拒绝单元102被配置成根据得分来丢弃大部分的候选边界框，以使下面的过程更快。这个单元102只应用在微调集上。换言之，区域绝缘单元102接收视频的至少一个图像，并且获取正和负候选边界框(x，y，w，h)，而且基于接收的图像来确定将过滤所获取的正和负候选边界框中的哪些框。

在本申请的一个实施例中，区域绝缘单元102操作以获取每个正和负候选边界框的物体检测得分。区域绝缘单元102可将任何现有物体检测器应用在输入图像上，以获取每个正和负候选边界框(x，y，w，h)的物体检测得分。将用于第i个候选边界框的n个类别的检测得分表示为s_i。如果满足下列拒绝条件，则拒绝第i个候选边界框：

||s_i||_∞<γ 公式1)

其中||s_i||_∞＝max_j{s_i，j}，

i是样本索引，

j是类别索引，以及

γ是预定阈值。

特征学习单元103

特征学习单元103用来训练其最后隐藏层值将被视作特征的神经网络。在本申请的一个实施例中，特征学习单元103接收预先训练集、微调集和过滤后的边界框作为输入，随后基于输入来确定微调后神经网络，其中从微调后神经网络的最后隐藏层中输出的值将被视作特征。预先训练集可由图像和对应的基本真实边界框(x，y，w，h)组成。预先训练集包括m个物体类别。微调集可由图像和对应的基本真实边界框(x，y，w，h)组成。微调集包括n个物体类别。

图4示出根据本申请的一个实施例的用于特征学习单元103的操作的流程图。在步骤s401中，单元103操作以使用具有如由选择性搜索单元101确定的正和负边界框的预先训练集中的图像来预先训练第一神经网络。具体地，特征学习单元103可整合反向传播算法，以训练神经网络。图5示出用于特征学习单元103训练神经网络的流程图。如图所示，在步骤s4011中，特征学习单元103创建神经网络，随后将所创建的网络随机初始化。之后将论述所创建的网络的配置。

随后在步骤4012中，特征学习单元103计算预先训练集中的输入图像的预定义损失函数，候选正和负图像区域对应于正和负边界框。损失函数可被描述为Loss＝f(x,y,θ)，其中x是边界框，y是它的标签，θ代表所有参数，包括所创建的网络中的卷积滤波器、变形层权值、全连接权值和偏差。如果x是正候选边界框，那么它的y应为非零值。如果一个基本真实框与x具有最大重叠值，那么y应为该基本真实框所属的类别的值。用于神经网络的整个训练过程在尝试将整个训练图像的损失最小化。

在步骤S4013中，特征学习单元103相对于所有参数来计算梯度，也就是，随后在步骤s4014中，可将更新过程描述为其中lr是一个加前缀的学习率。在步骤s4015中，特征学习单元103将检查是否满足停止标准，例如，验证集的损失值有没有在增加。如果没有，那么特征学习单元103返回到步骤s4012，以运行步骤s4012到S4015，直到满足停止标准为止。

返回到图4，一旦创建并且预先训练了第一神经网络，便将在步骤S402中创建与预先训练的神经网络具有相同结构的第二神经网络。在步骤s403中，通过使用预先训练的神经网络的参数将第二神经网络初始化。在步骤s404中，特征学习单元103操作以用具有n节点的新输出层来代替m节点的第二神经网络的输出层。在步骤s405中，特征学习单元103操作以使用预先训练集中的图像的边界框来微调第二神经网络，随后使用微调集中的图像的边界框来进一步微调第二神经网络。

或者，在步骤s4012到s4015中，可通过使用预先训练集的边界框来训练/调整第一神经网络，随后在步骤s405中，特征学习单元103操作以使用微调集中的图像的边界框来微调第二神经网络。

应了解，预先训练步骤(步骤s401)使用预先训练集中的全部图像来训练第一神经网络，而微调步骤(步骤s405)使用预先训练集中的图像区域(含有物体的边界框)，并且随后进一步使用微调集来训练第二神经网络。如上文参考步骤s404论述，针对第二网络，特征学习单元103操作以用具有n节点的新输出层来代替m节点的第二神经网络的输出层，因此，预先训练步骤(步骤s401)与微调步骤(步骤s405)之间的差异在于第一网络的最后一层具有m个节点，而第二层的最后一层具有n个节点。

现有技术通常使用预先训练集中的全部图像来训练第一神经网络，并且使用微调集中的图像区域(含有物体的边界框)来训练第二神经网络。与前一训练方案相比，如本申请在上文提出的过程使用预先训练集中的图像区域(含有物体的边界框)，以提高特征学习单元的特征学习性能。

子框检测器单元104

子框检测器单元104接收至少一个图像和候选边界框(即，从单元102中输出的框)，随后利用由单元103训练的微调后网络来输出多个(n个)支持向量机(SVM)检测器，其中每个预测用于一个语义物体类别的一个候选边界框的一个值，使得将针对预测单元(之后将论述)获取多个(n个)支持向量机(SVM)检测器，以预测n个物体类别的检测得分。在本文中，SVM仅作为示例论述，并且本申请的实施例中可使用任何其他二类分类器。

针对每个候选边界框B，子框检测器单元10使用从特征学习单元103中获取的微调后神经网络来计算特征向量F_B，以描述每个候选边界框的内容，并且进一步将它分成多个子图像分块。图6示出4个子图像分块作为示例。应了解，在本申请的实施例中，可以分开不同数量的子图像分块。

图7示出根据本申请的一个实施例的用于子框检测器单元104的操作的流程图(在最大平均SVM之后)。在步骤s701中，子框检测器单元10将接收的边界框分成多个(例如，4个)子图像分块w。在步骤s702中，针对每个子图像分块w，子框检测器单元104使用下列等式计算它与所有物体边界框B的重叠率：

O_w，B＝S_w∩B/(S_w+S_B-S_w∩B)，公式2)

其中S_w、S_B以及S_w∩B分别是子图像分块w的尺寸、物体边界框B的尺寸以及子图像分块w与物体边界框B的交叉区域的尺寸。

在步骤s703中，针对每个子图像分块w，将具有最高重叠率的物体边界框选作它的对应框，即，将物体边界框的特征向量分配到子图像分块w，以描述它的内容。

在步骤s704中，针对具有子图像分开的每个物体边界框提议B，将多个子图像分块的特征向量的逐元素平均值和所述多个子图像分块的特征向量的最大值计算为：

在步骤s705中，将物体边界框B的特征向量F_B与和连接，以创建更长的特征向量以便描述边界框B内的图像内容。在本申请的一个实施例中，将从特征学习单元103中获取的微调后神经网络用来从确切的子图像分块区域中提取特征。特征向量的逐元素平均值和最大值用来描述图像内容。

在步骤s706中，将连接的特征向量和物体边界框B的基本真实标签用来训练二类分类器(例如，如上文论述的SVM)检测器，以输出该框可能所属的每个可能物体类别的似然得分。

图8示出根据本申请的另一实施例的用于子框检测器单元104的操作的流程图(在多特征SVM之后)。在步骤s801中，子框检测器单元10将接收的边界框分成多个(例如，4个)子图像分块w。在步骤s802中，针对每个物体边界框B，将它的特征向量F_B和来自子图像分块的特征向量用来训练单独的支持向量机。例如，在有4个子图像分块的情况下，将来自4个子图像分块的4个特征向量用来训练5个单独的支持向量机。

在步骤s803中，给定新的物体边界框B及其由从特征学习单元103获取的微调后网络提取的特征向量，应用对应的支持向量机来计算每个物体类别的似然得分。

在步骤s804中，针对每个子图像分块w，子框检测器单元104首先使用下列等式计算它与所有提出的物体边界框B的重叠率：

O_w,B＝S_w∩B/(S_w+S_B-S_w∩B), 公式5)

在步骤s805中，只将与子图像分块w的重叠率大于预定阈值(例如，0.5)的物体边界框B选作w的候选对应边界框。

使用w的对应训练后支持向量机来测试它的所有候选对应边界框。针对每个候选边界框，在步骤s805中，训练后的支持向量机生成每个可能物体类别的得分。将所有候选窗口中的每个物体类别的最高得分选作w的类别似然得分。

在步骤s806中，将物体边界框及其(例如，4个)子图像分块与物体类别似然得分的多个(例如，5个)集合相关联，得分集合独立地进行标准化并且合计起来以输出集合物体类别似然。

上下文信息单元105

上下文信息单元105被配置成利用上下文信息，以提高检测性能。上下文信息单元105接收至少一个图像，并且接收来自单元102的候选边界框。单元105还获取来自子框检测器单元104的子框检测器的得分和来自特征学习单元103的上下文信息，即，从第一网络输出的分类得分。随后，单元105利用预先训练的网络和微调后网络来训练用于候选边界框的每个检测类别一个二类分类器(例如，SVM)，以输出二类分类器的n个类别，以便预测每个候选边界框的n维向量。

图9示出根据本申请的另一实施例的用于上下文信息单元105的操作的流程图。

在步骤s901中，上下文信息单元105利用预先训练的网络来输出用于全部的所接收的图像的分类得分(上下文信息)其中L_c是分类类别的数量。s_c(i)是第i个分类类别的概率，即，预定训练集中的m个类别的第i个分类类别。

在步骤s902中，上下文信息单元105操作以将分类得分s_c和由子框检测器单元104针对这个图像中的每个边界框获取的检测得分s_d连接(concatenate)。在针对所有图像及其边界框计算得分s_c和s_d之后，针对n个检测类别中的每个通过上下文建模来训练一个新的分类器对所有二类分类器(SVM)。为了训练第j个二类分类器，可从s_d(j)和稀疏特征向量与权值η中得出特征向量x_B，即，依据下列规则：

为了避免过度拟合训练数据，在步骤s903中，将特征向量的一些不相干维度设置为零。随后在步骤s904中，上下文信息单元105操作以训练用于每个检测类别的二类分类器。令Ω_j选择分类任务中的最相关类别，以用于检测任务中的第j个类别。如果i∈Ω_j，则否则随后，在步骤s905中，最终得分将作为二类分类器的得分输出。

模型平均单元

在上文中，已经论述了用于多类别物体检测系统100的布置中的一个(系统的一个模型)。应理解，通过改变特征学习单元、子框检测器单元和上下文信息单元的设置，可存在若干模型。例如，可通过不同的层来改变由特征学习单元创建的网络的配置。由于这些模型共享相同的选择性搜索单元，因此，候选框对所有模型而言是相同的。针对每个候选框，不同模型可输出用于不同类别的不同得分。

在本申请的一个实施例中，预测装置10还可包括模型平均单元(未示出)。模型平均单元被配置成利用若干模型的优点并且使性能更好。由于需要检测多个类别的实例，因此，不同的训练设置可导致不同的性能。例如，一个模型设置在一些类别中可更好，而另一模型可在其他类别上更好。这个模型平均单元用来选择用于每个类别的不同模型。

模型平均单元尝试找出用于每个类别的组合列表，并且将这个列表中的模型的得分平均为每个候选框的最终得分。图14示出根据本申请的其他实施例的用于模型平均单元的操作的流程图。在步骤s1401中，在步骤s1401中，针对一个类别创建一个空的列表。通过改变特征学习单元、子框检测器单元和上下文信息单元的设置，可获取多个模式。那些模型共享相同的选择性搜索单元。

在步骤s1402中，针对每个类别，这个单元开始选择最佳模型作为开始点，并且尝试找到一个更多的模型(s1403)，以便通过将这两个模型(最佳模型和所述一个更多模型)的得分平均，这个类别的性能将更好，随后在步骤s1408中，将这个模型添加到列表。重复步骤s1402到s1407，直到没有更多的模型可以添加或者如果添加一个更多模型，则性能将更坏。针对所有类别重复上述过程。这个模型平均单元将输出用于每个类别的一个模型列表。

神经网络

下文将论述由特征学习单元103创建和训练的神经网络。

神经网络结构由若干种层组成。图10是示出根据本申请的一个实施例的神经网络结构的示例性配置的示意图。图11是示出根据本申请的一个实施例的网络的变形层的示例性配置的示意图。

数据层

这层接收图像及其标签其中x_ij是第i个输入图像区域的d维特征向量的第j位值，y_ij是第i个输入图像区域的n维标签向量的第j位值。

卷积层

卷积层接收来自数据层的输出并且执行卷积、填补(padding)、取样和非线性变换操作。

变形层(Deformation layer)

由于物体具有不同尺寸和很多语义部分，因此，将具有不同尺寸的滤波器添加到卷积层中。具有一个尺寸的一个滤波器将产生一个得分图，该得分图描述对应部分信息。变形层被设计成学习不同物体部分的变型约束。针对具有尺寸V*H的卷积层C的给定通道，变形层采用来自该卷积层C的具有尺寸(2R+1)*(2R+1)的小块并且将它二次取样到具有尺寸的B，以产生来自该块的单个输出，如下：

其中(x，y)是(2R+1)*(2R+1)块的中心，

i和j的范围都是从-R到R，

k_h、k_v是二次取样步骤，

c_n和是将要学习的变形参数。

变形层将P个部分检测图作为输入，并且输出P个部分得分。此外，变形层可同时捕获多个模式。卷积层和变形层的输出可被视作鉴别性特征。

全连接层

全连接层将鉴别性特征作为输入，并且操作特征与权值之间的内部乘积。随后，将在该乘积上操作一个非线性变换。

预测装置20

下文将详细论述预测装置20。针对测试图像中的每个，预测装置20输出预测的边界框(x，y，w，h)和用于测试图像的n个物体类别的对应得分。图12是示出根据本申请的一个实施例的用于预测装置20的示例性框图的示意图。如图12所示，预测装置20包括选择性搜索模块201、区域拒绝模块202、特征学习模块203、子框检测器模块204、上下文信息模块205。图13示出用于展示单元201到206如何协作以输出预测的边界框(x，y，w，h)和用于预测的边界框的对应得分的过程的流程图。

在步骤S1301中，选择性搜索模块201接收至少一个测试图像，随后提取测试图像中的一些候选边界框。接收的图像包括(n个)物体类别(n个语义类别)的多个实例。

在步骤S1302中，区域拒绝模块202根据公式1的规则从大量的候选边界框中选择一些框。一旦候选框被拒绝，这个框将被丢弃。只有通过区域拒绝单元的边界框将传递到下一单元，如参考训练装置论述。在步骤S1303中，特征学习模块203通过使用从训练装置获取的微调后网络来计算用于每个候选框的分类特征。此处，微调后网络将与边界框对应的图像区域作为输入，并且从微调后网络的最后隐藏层计算分类特征。

在步骤s1304中，子框检测器模块204接收来自模块203的计算的分类特征，随后使用从训练装置10获取的子框检测器(二类分类器检测器)来计算用于每个候选框的n个类别得分s_d。此处，子框检测器计算多个子图像区域(例如，4个子图像区域)的分类特征，并且使用在训练装置10中获取的微调后网络来得到用于每个子图像区域的分类特征。随后，子框检测器模块204使用在训练装置10中训练的子框检测器(二类分类器检测器)来计算分类得分s_d。如所论述，从第二网络(检测网络或微调后网络)的最后隐藏层输出的特征将被视作分类特征，随后输入到子框检测器模块204中，以学习二类分类器检测器(例如，SVM检测器)，以便输出检测得分＝w*x+b，其中x表示从模块203接收的用于边界框的特征，而w和b是将由模块204学习/确定的参数。

如果训练装置10中的子框检测器单元遵循最大平均SVM方案，那么子框检测器(SVM)检测器将找到与每个子图像区域具有最大重叠值的一个边界框、使用微调后网络来计算该边界框的特征，并且使用这个特征来表示该子图像区域。一旦所有的四个子图像区域都得它们的对应表示特征，将从这四个子图像区域代表特征中提取逐元素最大值和逐元素平均值。连接的特征向量乘以在训练装置中获取的二类分类器(SVM)权值将产生得分sd。

一旦子框检测器单元204使用在训练装置10中获取的检测网络(即，第二网络)来计算分类得分s_d，那么上下文信息模块205将前一步骤中的s_d与此步骤中计算的s_d连接，并且在步骤s1305中，最终将连接向量与从训练装置10中获取的二类分类器(SVM)的权值相乘。乘积就是由选择性搜索模块201提出的候选边界框的最终得分。应理解，通过改变特征学习单元和子框检测器单元的设置，可存在若干模型。由于这些模型共享相同的选择性搜索单元，因此，候选框对所有模型而言是相同的。针对每个候选框，不同模型将输出用于不同类别的不同得分。在本申请的一个实施例中，预测装置10还可包括模型平均单元(未示出)。针对每个类别，通过将由这个模型平均单元为每个候选框选择的多个模型的最终得分平均来获取最终得分，这与参考训练装置10论述的相同。

将了解，本文中省略了有关模块201到205的更详细描述，因为它们以与上文论述的训练装置10的单元101到105相同的方式起作用。

在上文中，已经在使用具有特定电路的某一硬件或者硬件和软件的组合来实施系统100的情况下论述了该系统。应了解，系统10和100也可使用软件来实施。此外，本发明的实施例可适于计算机程序产品，所述计算机程序产品体现在含有计算机程序代码的一个或多个计算机可读存储介质上(包括但不限于，磁盘存储器、CD-ROM、光学存储器等)。

在用软件实施系统100的情况下，这些系统100可在下列中运行：通用计算机、计算机集群、主流计算机、专用于提供在线内容的计算装置，或者计算机网络，所述计算机网络包括一组以集中或分布方式操作的计算机。

尽管已描述了本发明的优选示例，但在了解本发明基本概念后，本领域的技术人员可对这些示例进行变化或更改。所附权利要求书意图包括落入本发明的范围内的优选示例和所有变化或更改。

显然，在不脱离本发明的精神和范围的情况下，本领域的技术人员可对本发明进行变化或更改。因此，如果这些变化或更改属于权利要求书和等效技术的范围，那么它们也可落入本发明的范围内。

Claims

1.一种用于训练多类别物体检测的神经网络的装置，其包括：

特征学习单元(103)，其被配置成：

基于第一训练图像集的训练图像来确定第一神经网络，其中每个图像中具有多个边界框，所述边界框的内部具有物体；和

基于所述第一训练图像集的所述训练图像的边界框来确定第二神经网络，随后基于第二训练图像集的训练图像的边界框来进一步微调所述第二神经网络；以及

子框检测器单元(104)，其被配置成基于所述第二神经网络来确定用于所述第一图像集和所述第二图像集的所述边界框的二类分类器检测器，所述确定的二类分类器检测器的每个得分预测所述边界框中的一个边界框内部的一个语义物体类别。

2.一种用于训练多类别物体检测的神经网络的装置，其包括：

特征学习单元(103)，其被配置成基于第一训练图像集的多个边界框来确定第一神经网络，随后基于第二训练图像集的所述图像的边界框来确定第二神经网络；以及

子框检测器单元(104)，其被配置成基于所述确定的第二神经网络来确定用于所述边界框的二类分类器检测器，所述确定的二类分类器检测器的每个得分预测所述边界框中的一个边界框内部的一个语义物体类别。

3.根据权利要求1或2所述的装置，其中所述确定的第一神经网络操作以给出输入到所述第一神经网络的图像的上下文信息，

所述装置还包括：

上下文信息单元(105)，其被配置成从所述子框检测器单元(104)获取所述二类分类器检测器的所述每个得分和从所述特征学习单元(103)获取所述上下文信息，从而训练用于每个检测类别的二类分类检测器，以预测每个所述边界框。

4.根据权利要求3所述的装置，还包括：

选择性搜索单元(101)，其被配置成获取至少一个输入的图像，随后确定用于每个获取的图像的、在其内部具有物体的边界框。

5.根据权利要求3所述的装置，还包括：

区域拒绝单元(102)，其被配置成基于预定阈值从确定的边界框中过滤掉多个边界框。

6.根据权利要求1或2所述的装置，其中所述特征学习单元(103)使用所述第一训练图像集的训练图像通过反向传播算法来确定所述第一神经网络。

7.根据权利要求1或2所述的装置，其中所述特征学习单元(103)通过反向传播算法来确定所述第二神经网络。

8.一种用于多类别物体检测的装置，包括：

特征学习模块(203)，其被配置成确定用于输入的图像的每个候选边界框的多个分类特征；

子框检测器模块(204)，其被配置成利用预先训练的检测神经网络、基于由所述特征学习模块(203)确定的所述分类特征来计算用于每个候选框的多个检测类别得分；以及

上下文信息模块，其被配置成连接所计算出的分类类别得分，并且确定所述候选边界框的最终得分，所述最终得分表示所述输入的图像的边界框中的一个边界框的内部的一个语义物体类别。

9.一种用于多类别物体检测的系统，其包括：

训练装置(10)，其被配置成从多个预定训练图像集中确定分类神经网络和检测神经网络；

预测装置(20)，其包括：

特征学习模块(203)，其被配置成基于所述检测神经网络来确定用于输入的图像的每个候选边界框的多个特征，其中所述检测神经网络将所述候选边界框作为输入并且操作以输出用于所述候选边界框的检测特征；

子框检测器模块(204)，其被配置成利用所述分类神经网络、基于所述检测特征来计算用于每个候选边界框的多个分类类别得分；以及

上下文信息模块(205)，其被配置成连接所计算出的分类类别得分，并且基于所述检测神经网络来确定所述候选边界框的最终得分，所述最终得分表示所述框内部的语义物体类别。

10.根据权利要求9所述的系统，其中所述训练装置(10)还包括：

特征学习单元(103)，其被配置成：

基于所述第一训练图像集的训练图像来确定所述分类神经网络，其中所述图像中的每个具有多个边界框，所述边界框的内部具有物体，并且所述确定的分类神经网络输出用于输入到所述分类神经网络的图像的上下文信息；和

基于所述第一训练图像集中的图像的边界框来确定所述检测神经网络，随后基于第二训练图像集中的所述图像的边界框来进一步微调所述检测神经网络；以及

子框检测器单元(104)，其被配置成基于所述检测神经网络来确定用于所述边界框的二类分类器检测器，所述确定的二类分类器检测器的每个得分预测所述边界框中的一个边界框内部的一个语义物体类别。

11.根据权利要求9所述的系统，其中所述训练装置(10)还包括：

特征学习单元(103)，其被配置成基于第一训练图像集的多个边界框来确定所述分类神经网络，随后基于第二训练图像集的所述图像的边界框来确定所述检测神经网络；以及

子框检测器单元(104)，其被配置成基于所述检测神经网络来确定用于所述边界框的二类分类器检测器，所述确定的二类分类器检测器的每个得分预测所述边界框中的一个边界框的一个语义物体类别。

12.根据权利要求11或12所述的系统，其中所述确定的分类神经网络能够输出用于输入到所述分类神经网络的图像的上下文信息，并且所述系统还包括：

上下文信息单元(105)，其被配置成从所述子框检测器单元(104)获取所述二类分类器检测器的得分和从特征学习单元(103)获取所述上下文信息，从而训练用于所述边界框的每个检测类别的二类分类器检测器，以预测每个边界框。

13.根据权利要求12所述的系统，还包括：

选择性搜索单元(101)，其被配置成获取至少一个输入的图像，随后确定用于每个获取的图像的、内部具有物体的边界框。

14.根据权利要求13所述的系统，还包括：

区域拒绝单元(102)，其被配置成基于预定阈值从确定的框中过滤掉多个边界框。

15.根据权利要求11或12所述的系统，其中所述特征学习单元(103)使用所述第一训练图像集的所述图像通过反向传播算法来确定所述分类神经网络。

16.根据权利要求11或12所述的系统，其中所述特征学习单元(103)通过反向传播算法来确定所述检测神经网络。

17.根据权利要求11或12所述的系统，其中所述子框检测器单元(104)被配置成基于最大平均SVM来确定所述二类分类器检测器的得分。

18.根据权利要求11或12所述的系统，其中所述二类分类器检测器单元(104)被配置成基于多特征SVM来确定所述二类分类器检测器的得分。

19.一种用于训练多类别物体检测的神经网络的方法，其包括：

基于第一训练图像集的训练图像来确定第一神经网络，其中所述图像中的每个具有多个边界框，所述边界框的内部具有物体；

基于所述第一训练图像集的所述图像的边界框来确定第二神经网络；

基于第二训练图像集的所述图像的边界框来微调所述第二神经网络；以及

基于所述第二神经网络来确定用于所述边界框的二类分类器检测器，所述二类分类器检测器的得分中的每个预测所述边界框中的一个边界框内部的一个语义物体类别。

20.一种用于训练多类别物体检测的神经网络的方法，包括：

基于第一训练图像集的多个边界框来确定第一神经网络；

基于第二训练图像集的图像的边界框来确定第二神经网络；以及

基于所述第二神经网络来确定用于所述边界框的二类分类器检测器，所述确定的二类分类器检测器的每个得分预测所述边界框中的一个边界框的一个语义物体类别。

21.根据权利要求19或20所述的方法，其中所述确定的第一神经网络给出输入图像的上下文信息，

所述方法还包括：

基于所述二类分类器检测器的所述得分和所述上下文信息来训练用于所述边界框的每个检测类别的所述二类分类器检测器，以预测每个边界框。

22.根据权利要求21所述的方法，其还包括：

获取至少一个输入的图像；以及

确定用于每个获取的图像的、内部具有物体的边界框。

23.根据权利要求21所述的方法，其还包括：

基于预定阈值从确定的框中过滤掉多个边界框。

24.根据权利要求19或20所述的方法，其中通过使用所述第一图像训练集的所述图像并通过反向传播算法来确定所述第一神经网络。

25.根据权利要求19或20所述的装置，其中通过反向传播算法来确定所述第二神经网络。

26.一种用于多类别物体检测的方法，包括：

确定用于输入的图像的每个候选边界框的多个分类特征；

基于确定的所述分类特征来计算用于每个候选框的多个分类类别得分；

将所述计算的分类类别得分连接起来，以及

通过预先训练的二类分类器检测器从连接的类别得分中确定用于所述候选边界框的最终得分，其中所述最终得分用来预测所述边界框中的一个边界框内部的一个语义物体类别。

27.一种用于多类别物体检测的方法，其包括：

1)从多个预定训练图像集中确定分类神经网络、检测神经网络、多个二类分类器检测器；

2)基于所述检测神经网络来确定用于输入的图像的每个候选边界框的多个特征，其中所述检测神经网络将所述候选边界框作为输入并且操作以计算用于输入的框的分类特征；

3)通过使用所述分类神经网络，基于所述计算的特征来计算用于每个候选框的多个分类类别得分；以及

4)将所述计算的分类类别得分连接起来，从而基于所述检测神经网络、通过所述确定的二类分类器检测器来确定用于所述候选边界框的最终得分，以预测所述边界框中的一个边界框内部的一个语义物体类别。

28.根据权利要求27所述的方法，其中步骤1)还包括：

基于第一训练图像集的训练图像来确定所述分类神经网络，其中所述图像中的每个具有多个边界框，所述边界框的内部具有物体；以及

基于所述第一训练图像集的所述图像的边界框来确定所述检测神经网络，随后基于第二训练图像集的所述图像的边界框来进一步微调所述检测神经网络；以及

基于所述检测神经网络来确定用于所述边界框的所述二类分类器检测器，所述二类分类器检测器的每个得分预测所述边界框中的一个边界框的一个语义物体类别。

29.根据权利要求27所述的方法，其中所述步骤1)还包括：

基于第一训练图像集的多个边界框来确定所述分类神经网络；

基于第二训练图像集的所述图像的边界框来确定所述检测神经网络；以及

基于所述检测神经网络来确定用于所述边界框的二类分类器检测器，所述二类分类器检测器的每个得分预测所述边界框中的一个边界框内部的一个语义物体类别。

30.根据权利要求28或29所述的方法，其中所述确定的分类神经网络给出输入到所述分类神经网络的图像的上下文信息，

所述方法还包括：

基于所述二类分类器检测器得分和所述上下文信息来训练用于所述边界框的每个检测类别的所述二类分类器检测器，以预测每个边界框。

31.根据权利要求30所述的方法，其还包括：

获取至少一个输入的图像，以及

确定用于每个获取的图像的、内部具有物体的边界框。

32.根据权利要求31所述的方法，其还包括：

基于预定阈值从确定的框中过滤掉多个边界框。

33.根据权利要求28或29所述的方法，其中通过使用所述第一图像训练集的所述图像，通过反向传播算法来确定所述分类神经网络。

34.根据权利要求28或29所述的方法，其中通过反向传播算法来确定所述检测神经网络。

35.根据权利要求28或29所述的方法，其中基于最大平均SVM来确定所述二类分类器检测器的得分。

36.根据权利要求28或29所述的方法，其中基于多特征SVM来确定所述二类分类器检测器的得分。