CN108496185A

CN108496185A - 用于对象检测的系统和方法

Info

Publication number: CN108496185A
Application number: CN201680079308.7A
Authority: CN
Inventors: 王晓刚; 欧阳万里
Original assignee: Beijing Sensetime Technology Development Co Ltd
Current assignee: Beijing Sensetime Technology Development Co Ltd
Priority date: 2016-01-18
Filing date: 2016-01-18
Publication date: 2018-09-04
Anticipated expiration: 2036-01-18
Also published as: WO2017124221A1; CN108496185B

Abstract

公开了一种用于对象检测的方法，包括：将待检测的对象类别分组成构成阶层式树状结构的多个对象集群；获得图像和用于所获得的图像的至少一个边界框；从所述阶层式树状结构的根集群到叶集群，通过针对所述阶层式树状结构的每个所述集群分别训练的CNN来评估每个边界框中的对象，以确定所述对象的最深叶集群；以及将所确定的最深叶集群处的对象类别标签输出为所述对象的预测对象类别标签。在本公开内还公开了一种用于对象检测的系统。

Description

用于对象检测的系统和方法

技术领域

本公开涉及用于对象检测的方法和系统。

背景技术

微调是指从在另一相关任务上预先训练的参数初始化用于目标任务的模型参数的方法。已发现从在大型图像网络(ImageNet)数据集上预先训练的深度模型的微调对于许多视觉任务(例如，跟踪、分段、对象检测、动作识别和事件检测)取得了目前先进水平的性能。

当微调用于对象检测的深度模型时，对多个对象类别的检测由多项任务构成。对每个类别的检测是一项任务。在应用阶段，不同对象类别的检测评分是独立的。且对结果的评估也独立于这些对象类别。现有的深度学习方法一并考虑所有类别/任务并学习单个特征表示。但是，此共享的表示对于所有对象类别并非是最好的。如果学习到的表示能够聚焦于具体类别，例如哺乳动物，那么学习到的表示在描述这些具体类别时将表现得更好。

深度学习在许多工作中应用于类属对象检测。现有工作主要聚焦于开发新的深度模型和更好的对象检测流程。这些工作针对所有对象类别使用一个特征表示。当使用手工制作的特征时，针对所有对象类别使用相同的特征提取机制。但是，该相同的特征提取机制对于每个对象类别并非不最适合的，这自然会降低针对一些对象类别的准确性。

发明内容

下文呈现对本公开的简化概述以便提供对本公开的一些方面的基本理解。此发明内容部分并非本公开的详尽综述。其既不旨在指出本公开的重要要素或关键要素，也不旨在划定本公开的具体实施例的任何范围，或权利要求书的任何范围。其唯一目的是以简化形式呈现本公开的一些构思来作为稍后呈现的更详细描述的序言。

在一方面中，公开了一种用于对象检测的方法，包括：将待检测的对象的对象类别分组成构成阶层式树状结构的多个对象集群；获得图像和用于所获得的图像的至少一个边界框；从所述阶层式树状结构的根集群到叶集群，通过针对所述阶层式树状结构的每个集群分别训练的CNN来评估每个边界框中的对象，以确定所述对象的最深叶集群；以及将所确定的最深叶集群处的对象类别标签输出为所述对象的预测对象类别标签。

在本申请的一个实施例中，将待检测的对象的对象类别分组成构成阶层式树状结构的多个对象集群包括：从训练集获得包含待检测的对象的训练图像和用于所述训练图像的至少一个边界框；通过经训练的CNN，提取每个边界框中的对象的特征；以及根据所提取的特征之间的相似性，将每个边界框中的对象的对象类别分配到构成所述阶层式树状结构的所述对象集群中。

在本申请的一个实施例中，将每个边界框中的对象的对象类别分配到构成所述阶层式树状结构的所述对象集群中是基于视觉相似性进行的。

在本申请的一个实施例中，从所述阶层式树状结构的根集群到叶集群，通过针对所述阶层式树状结构的每个集群分别训练的CNN来评估每个边界框中的对象，以确定所述对象的最深叶集群包括：通过针对父集群训练的CNN从所获得的图像提取特征；根据所提取的特征计算对象针对所述父集群的每个子集群的分类评分；将所述对象接收到具有大于阈值的分类评分的子集群中，且子集群在下一评估中用作父集群，其中，不针对除了所述子集群以外的其它集群进行评估；重复执行提取、计算和接收的步骤，直到对象集群定位于最后层级中或不存在大于所述阈值的分类评分为止。

在本申请的一个实施例中，所述用于对象检测的方法还包括：训练分别用于每个对象集群的CNN，所述训练包括：对分别用于每个对象集群的CNN以其父集群的CNN进行初始化；通过提取、计算、接收的步骤评估每个边界框中的对象，直到对象集群定位于最后层级中或不存在大于所述阈值的分类评分为止，以确定该对象的最深叶集群；将所确定的最深叶集群处的对象类别标签输出为该对象的预测对象类别标签；基于预测对象类别标签与训练图像中的对象的真实对象类别标签之间的差异对每个集群的CNN进行微调；以及重复初始化、评估、输出和微调的步骤直到所述预测对象类别标签的准确性收敛为止。

在本申请的一个实施例中，通过针对父集群训练的CNN从所获得的图像提取特征包括：通过所述边界框裁剪所获得的图像；使所裁剪的图像弯曲成经训练的CNN需要的预定大小；以及通过经训练的CNN从弯曲的图像提取特征。

在本申请的一个实施例中，分类评分表示对象属于一个集群中的对象类别的可能性。

在本申请的一个实施例中，将所确定的最深叶集群处的对象类别标签输出为所述对象的预测对象类别标签包括：确定所确定的叶集群是所述阶层式树状结构的端集群；以及将所述叶集群处的对象类别标签输出为所述对象的预测对象类别标签。

在一方面中，公开了一种用于对象检测的系统，包括：分组单元，所述分组单元用于将待检测的对象的对象类别分组成构成阶层式树状结构的多个对象集群；以及预测单元，所述预测单元用于：获得图像和所获得的图像的至少一个边界框；从所述阶层式树状结构的根集群到叶集群，通过针对所述阶层式树状结构的每个集群分别训练的CNN来评估每个边界框中的对象，以确定所述对象的最深叶集群；以及将所确定的最深叶集群处的对象类别标签输出为所述对象的预测对象类别标签。

在一方面中，公开了一种用于对象检测的系统，包括：存储器，所述存储器存储可执行组件；以及处理器，所述处理器电联接到所述存储器以执行所述可执行组件以用于：将待检测的对象的对象类别分组成构成阶层式树状结构的多个对象集群；获得图像和用于所获得的图像的至少一个边界框；从所述阶层式树状结构的根集群到叶集群，通过针对所述阶层式树状结构的每个集群分别训练的CNN来评估每个边界框中的对象，以确定所述对象的最深叶集群；以及将所确定最深叶集群处的对象类别标签输出为所述对象的预测对象类别标签。

附图说明

在下文参考附图描述本发明的示范性非限制性实施例。附图是说明性的且通常未按确切比例绘制。不同附图上的相同或类似元件用相同的附图标签表示。

图1示出了根据本申请的一些实施例的对象检测的实例；

图2示出了根据本申请的一些实施例的用于对象检测的系统的整体流程；

图3示出了根据本申请的一些实施例的用于分组单元的步骤；

图4示出了根据本申请的一些实施例的阶层式树状结构的实例；

图5示出了根据本申请的一些实施例的用于预测单元的步骤；

图6是示出根据本申请的一些实施例的预测单元的关键步骤的算法；以及

图7示出了根据本申请的一些实施例的用于训练单元的步骤。

具体实施方式

现将详细参考本发明的一些具体实施例，这些实施例包括发明人预期的用于实施本发明的最佳模式。在附图中示出了这些具体实施例的实例。虽然结合这些具体实施例描述本发明，但应理解，这不旨在将本发明限于所描述实施例。相反，旨在涵盖可包含在如所附权利要求书限定的本发明的精神和范围内的替代、修改和等效物。在以下描述中，陈述了众多具体细节以便提供对本发明的透彻理解。本发明可在没有这些特定细节中的一些或全部的情况下实践。在其它情况下，并未详细描述众所周知的过程操作以避免不必要地使本发明含糊不清。

本文中所使用的术语仅用于描述具体实施例的目的，并且不旨在限制本发明。如本文所使用，除非上下文另外明确指示，否则单数形式“一(a、an)”以及“所述(the)”旨在还包含复数形式。还应理解，当用于本说明书中时，术语“包括(comprises)”和/或“包括(comprising)”指示所陈述的特征、整体、步骤、操作、元件和/或组件的存在，但不排除一个或多个其它特征、整体、步骤、操作、元件、组件和/或其组合的存在或添加。

本公开涉及对象检测，对象检测的目的是在给定图像上检测某些类别的对象，例如图1中的人、狗和椅子。

图2示出了根据一些实施例的用于对象检测的系统的整体流程。用于对象检测的系统包括分组单元201、预测单元(202和204)以及训练单元203。分组单元用于将待检测的对象类别分组成多个对象集群，该多个对象集群构成阶层式树状结构；预测单元用于预测包含在给定图像中的对象；以及训练单元用于在将预测单元应用于实际应用之前训练预测单元。

在分组单元201中，待检测的对象类别根据这些对象的对应特征被分组成多个对象集群，该多个对象集群构成阶层式树状结构。然后，训练单元203通过使用来自预定训练集的图像和来自分组单元201的集群标签训练预测单元202，并输出经训练的预测单元204，其中，预测单元204具有分别用于阶层式树状结构中每个集群的卷积神经网络(convolutional neural network，CNN)。最后，经训练的预测单元204用于实际应用，在应用期间，给定图像被馈送到经训练的预测单元204中，预测单元204提取图像中的对象的特征并通过其CNN预测这些对象的对象类别。以上单元将在下文中通过参考附图来详细描述。

图3示出了根据一些公开的实施例的用于分组单元的步骤。

在一些实施例中，将来自训练集的图像和至少一个边界框输入分组单元201，其中，所述图像包含属于待检测的对象类别的对象。在分组单元201中，将图像中的对象分组成构成阶层式树状结构的多个对象集群，然后输出集群标签。如图3中所示，在步骤S301处，通过边界框裁剪输入图像，并使输入图像弯曲成卷积神经网络需要的预定大小；在步骤S302处，在给定由边界框裁剪的输入图像的情况下，通过预先训练的卷积神经网络提取特征；以及在步骤S303处，将包含在给定图像中的对象分配到多个对象集群中。

分配方法可以是任何适当的方法。视觉相似性将用作实例以进行说明。类别a与b之间的视觉相似性表示如下：

其中h_a,i是用于类别a的第i训练样本的最后一个GoogleNet隐蔽层，h_b,j用于类别b的第j训练样本。<h_a,i,h_b,j>指示h_a,i与h_b,j之间的内积。举例来说，利用所定义的两个类别之间的相似性，将对象类别分组成构成阶层式树状结构的多个对象集群，例如，如图4中所示。在层级l处，以S_l,jl表示第j_l集群，对于当前实施例，l＝1、…、L，L＝4，j_l＝{1,…,J_l}、J₁＝1、J₂＝4、J₃＝7；J₄＝18。在一些实施例中，可存在例如200个对象类别，以S_1,1＝{1,…,200}起始。作为实例，在层级1处，每组可平均存在200个对象类别，在层级2处每组50个类别，在层级3处每组29个类别，且在层级4处每组11个类别。在图4中，S_1,1＝S_2,1∪S_2,2∪S_2,3∪S_2,4且S_2,1＝S_3,1∪S_3,2。。在阶层聚类结果中，定义父集群par(l,j_l)和集群(l,j_l)的子集ch(l,j_l)，使得S_l,jl＝∪_{(l+1,∈ch(l,)}S_l+1,j′且举例来说，如图4中所示，S_1,1的子集群是S_2,1、S_2,2、S_2,3和S_2,4，且S_1,1是S_2,1、S_2,2、S_2,3和S_2,4的父集群。

在一些实施例中，将图像、边界框和对象集合S_l,jl输入到预测单元202或204中。训练阶段与应用阶段处的预测单元仅仅在样本方面不同。在训练阶段，从训练数据获得样本；在应用阶段，从测试数据获得样本。从预测单元输出预测的对象类别标签。

图5示出了根据一些实施例的用于预测单元的步骤。在步骤S501处，通过边界框裁剪输入图像，并使输入图像弯曲成预测单元中使用的CNN需要的预定大小；在步骤S502处，从根集群到叶集群评估每个边界框中的对象；且在步骤S503处，确定所裁剪图像中的对象的类别标签。

具体地说，在评估期间，通过每个集群的经训练的CNN在每个集群处提取所裁剪图像的特征，然后可通过使用所提取的特征来计算每个集群的分类评分。一个集群中的对象类别的分类评分可表示对象属于此集群的可能性。详细评估过程示于图6中示出的算法1中。在集群(l,j_l)处，评估集群S_l,jl中的类别的检测评分(即，分类评分)(算法1中的行6)。这些检测评分用于决定是否需要评估子集群ch(l,j_l)(算法1中的行8)。对于子集群(l+1,j’)∈ch(l,j_l)，如果S_l+1,j’中的类别当中的最大检测评分小于阈值T_l，那么此样本不被视为类别集群S_l+1中的正样本，并接着不评估集群(l+1,j’)和其子集群。

举例来说，首先，针对类别为鸟的给定样本，在节点(1，1)处获得200个类别的检测评分这些200个类别的评分用于将此样本接收为动物S_2,1并拒绝将此样本作为球S_2,2、仪器S_2,3或家具S_2,4。然后，动物的评分用于将鸟的样本接收为脊椎动物并拒绝将该鸟的样本作为无脊椎动物。因此，每个节点聚焦于拒绝将样本归入不属于的对象类别的集群。最后，仅未被拒绝的集群具有用于其类别的SVM评分(算法1中的行13)。

最后，确定对象的最深叶集群的集群标签。如果所确定集群是阶层式树状结构的端集群，例如，如图4中所示的S_4,1、S_4,2、S_4,3和S_4,4，那么将输出类别标签，例如奶牛、鸟、鱼或蚂蚁。如果所确定集群不是阶层式树状结构的端集群，例如S_3,1，即S_4,1、S_4,2、S_4,3和S_4,4的分类评分全部小于阈值，那么将对象视为背景，且将不输出其类别标签。

分别用于每个集群的CNN可在应用之前由训练单元训练。图7示出了根据一些实施例的用于训练单元的步骤。在训练期间，在步骤S701处，从训练集获得用于训练的图像和训练图像中的对象的真实对象类别标签。在步骤S702处，对预测单元的CNN以其父集群的CNN进行初始化，即，针对集群(l,j_l)，将其父集群模型M_l-1,par(jl)的模型用作初始点来对用于集群S_l,jl的CNN模型M_l,jl进行微调，举例来说，如图4中所示，M_2,1以M₁初始化。在步骤S703处，裁剪并通过预测单元预测训练图像，在此步骤处，输出预测的类别标签。在步骤S704处，比较预测的类别标签与真实类别标签，并计算它们之间的差异。在步骤S705处，确定预测的类别标签是否收敛于真实标签。如果预测的类别标签收敛于真实标签，那么输出经训练的预测单元；如果未收敛，那么对CNN的参数进行微调，并重复步骤S701到S704。在一些实施例中，确定预测的类别标签是否收敛于真实标签可替换为确定是否可进一步提高预测的类别标签的准确性。

根据预测单元的过程，在训练期间，对于一个集群，具有不属于此集群的对象的一些经裁剪的图像在该集群的父集群处被拒绝，因此，对于每个集群，仅有对象类别的子集用于微调CNN。以此方式，CNN可聚焦于学习对象类别的此子集的表示。此外，在训练CNN时，用于父集群的CNN被用作其子集群的CNN的初始点，这使得父集群的知识被转移到子集群。基于以上内容，在训练阶段，对分别用于每个集群的CNN的训练聚焦于无法在其父集群处很好处理的困难样本。以此方式，对象检测将更快且更准确。

如本领域技术人员应该理解的那样，本申请可实施为系统、方法或计算机程序产品。因此，本申请可采取完全为硬件的实施方式和方面，而在本文中硬件通常被称为“单元”、“电路”、“模块”或“系统”。在实施时，许多发明功能和许多发明原理能够通过例如数字信号处理器的集成电路(IC)及其软件或者专用IC来得到最好地支持。可以预期的是，本领域普通技术人员根据本文公开的概念和原理的教导能够通过最少的实验容易地生成IC，而不必考虑例如由时间、当前技术和经济考量等驱使的可能的繁重工作量和许多其它设计选项。因此，为了减少并最小化对本申请原理和概念进行混淆的任何风险，对此类软件和IC(如果存在的话)的进一步论述将被限制为对于在优选实施方式中使用的原理和概念而言必要的部分。另外，本发明可采取完全为软件的实施方式(包含固件、驻存软件、微码等)或可采取组合了软件的实施方式。例如，本发明的系统可包括存储可执行组件的存储器以及处理器，所述处理器电联接到存储器以执行可执行组件来执行系统的、如参考图1到图7所论述的操作。另外，本发明可采用计算机程序产品的形式，该计算机程序产品可实施为任意有形的、在其中具有计算机可用程序代码的介质的形式。

虽然已经描述了本申请的优选示例，但是本领域技术人员可在知晓基本发明概念后对这些示例作出变化或修改。所附权利要求书可被理解为包括落在本申请范围内的优选示例及其所有变化或修改。

显然，本领域技术人员可在不背离本申请精神和范围的情况下对本申请作出变化或修改。因而，如果这些变化或修改属于权利要求书和等同技术的范围，那么其也落在本申请的范围内。

Claims

1.一种用于对象检测的方法，包括：

将待检测的对象的对象类别分组成构成阶层式树状结构的多个对象集群；

获得图像和用于所获得的图像的至少一个边界框；

从所述阶层式树状结构的根集群到叶集群，通过针对所述阶层式树状结构的每个所述对象集群分别训练的CNN来评估每个边界框中的对象，以确定所述对象的最深叶集群；以及

将所确定的最深叶集群处的对象类别标签输出为所述对象的预测对象类别标签。

2.根据权利要求1所述的方法，其中，将待检测的对象的对象类别分组成构成阶层式树状结构的多个对象集群包括：

从训练集获得包含待检测的对象的训练图像和用于所述训练图像的至少一个边界框；

通过经训练的CNN，提取每个所述边界框中的对象的特征；以及

根据所提取的特征之间的相似性，将每个所述边界框中的对象的对象类别分配到构成所述阶层式树状结构的所述对象集群中。

3.根据权利要求2所述的方法，其中，将每个所述边界框中的对象的对象类别分配到构成所述阶层式树状结构的所述对象集群中是基于视觉相似性进行的。

4.根据权利要求1所述的方法，其中，从所述阶层式树状结构的根集群到叶集群，通过针对所述阶层式树状结构的每个所述对象集群分别训练的CNN来评估每个边界框中的对象，以确定所述对象的最深叶集群包括：

通过针对父集群训练的CNN从所获得的图像提取特征；

根据所提取的特征计算所述对象针对所述父集群的每个子集群的分类评分；

将所述对象接收到具有大于阈值的分类评分的子集群中，且所述子集群在下一评估中用作父集群，其中，不针对除了所述子集群以外的其它集群进行评估；

重复执行所述提取、所述计算和所述接收的步骤，直到所述对象集群定位于最后层级中或不存在大于所述阈值的分类评分为止。

5.根据权利要求4所述的方法，其中，所述方法还包括：

训练分别用于每个所述对象集群的CNN，所述训练包括：

对分别用于每个所述对象集群的CNN以其父集群的CNN进行初始化；

通过所述提取、所述计算、所述接收的步骤评估每个边界框中的对象，直到所述对象集群定位于最后层级中或不存在大于所述阈值的分类评分为止，以确定该对象的最深叶集群；

将所确定的最深叶集群处的对象类别标签输出为该对象的预测对象类别标签；

基于所述预测对象类别标签与训练图像中的该对象的真实对象类别标签之间的差异对用于每个集群的CNN进行微调；以及

重复所述初始化、所述评估、所述输出和所述微调的步骤直到所述预测对象类别标签的准确性收敛为止。

6.根据权利要求5所述的方法，其中，通过针对父集群训练的CNN从所获得的图像提取特征包括：

通过所述边界框裁剪所获得的图像；

使所裁剪的图像弯曲成经训练的CNN所需的预定大小；以及

通过经训练的CNN从弯曲的图像提取特征。

7.根据权利要求4所述的方法，其中，所述分类评分表示所述对象属于一个集群中的对象类别的可能性。

8.根据权利要求1所述的方法，其中，将所确定的最深叶集群处的对象类别标签输出为所述对象的预测对象类别标签包括：

确定所确定的叶集群是所述阶层式树状结构的端集群；以及

将所述叶集群处的对象类别标签输出为所述对象的预测对象类别标签。

9.一种用于对象检测的系统，包括：

分组单元，所述分组单元用于将待检测的对象的对象类别分组成构成阶层式树状结构的多个对象集群；以及

预测单元，所述预测单元用于：

获得图像和所获得的图像的至少一个边界框；

10.根据权利要求9所述的系统，其中，所述分组单元还用于：

11.根据权利要求10所述的系统，其中，将每个所述边界框中的对象的对象类别分配到构成所述阶层式树状结构的所述对象集群中是基于视觉相似性进行的。

12.根据权利要求9所述的系统，其中，所述预测单元用于：

通过针对父集群训练的CNN从所获得的图像提取特征；

将所述对象接收到具有大于阈值的分类评分的子集群中，且子集群在下一评估中用作父集群，其中，不针对除了所述子集群以外的其它集群进行评估；

13.根据权利要求12所述的系统，还包括：

训练单元，所述训练单元用于通过执行以下操作来训练分别用于每个所述对象集群的CNN：

14.根据权利要求13所述的系统，其中，所述预测单元用于通过执行以下操作来从所获得的图像提取特征：

通过所述边界框裁剪所获得的图像；

使所裁剪的图像弯曲成经训练的CNN所需的预定大小；以及

通过经训练的CNN从弯曲的图像提取特征。

15.根据权利要求12所述的系统，其中所述分类评分表示所述对象属于一个集群中的对象类别的可能性。

16.根据权利要求9所述的系统，其中，将所确定的最深叶集群处的对象类别标签输出为所述对象的预测对象类别标签包括：

确定所确定的叶集群是所述阶层式树状结构的端集群；以及

17.一种用于对象检测的系统，包括：

存储器，所述存储器存储可执行组件；以及

处理器，所述处理器电联接到所述存储器以执行所述可执行组件以用于：

获得图像和用于所获得的图像的至少一个边界框；

将所述最深叶集群处的对象类别标签输出为所述对象的预测对象类别标签。

18.根据权利要求17所述的系统，其中，将待检测的对象的对象类别分组成构成阶层式树状结构的多个对象集群包括：

19.根据权利要求18所述的系统，其中，将每个所述边界框中的对象的对象类别分配到构成所述阶层式树状结构的所述对象集群中是基于视觉相似性进行的。

20.根据权利要求17所述的系统，其中，从所述阶层式树状结构的根集群到叶集群，通过针对所述阶层式树状结构的每个所述对象集群分别训练的CNN来评估每个边界框中的对象，以确定所述对象的最深叶集群包括：

通过针对父集群训练的CNN从所获得的图像提取特征；

21.根据权利要求20所述的系统，其中，所述可执行组件还包括：

训练分别用于每个所述对象集群的CNN，所述训练包括：

22.根据权利要求21所述的系统，其中，通过针对父集群训练的CNN从所获得的图像提取特征包括：

通过所述边界框裁剪所获得的图像；

使所裁剪的图像弯曲成经训练的CNN所需的预定大小；以及

通过经训练的CNN从弯曲的图像提取特征。

23.根据权利要求21所述的系统，其中，所述分类评分表示所述对象属于一个集群中的一个对象类别中的可能性。

24.根据权利要求17所述的系统，其中，将所确定的最深叶集群处的对象类别标签输出为所述对象的预测对象类别标签包括：

确定所确定的叶集群是所述阶层式树状结构的端集群；以及

将所述叶集群处的对象类别标签输出为所述对象的所述预测对象类别标签。