CN110532838A

CN110532838A - 对象检测装置和方法及存储介质

Info

Publication number: CN110532838A
Application number: CN201810516451.9A
Authority: CN
Inventors: 黄耀海; 张言; 李岩; 张志远
Original assignee: Canon Inc
Current assignee: Canon Inc
Priority date: 2018-05-25
Filing date: 2018-05-25
Publication date: 2019-12-03
Also published as: JP2019204505A; JP6823686B2

Abstract

本发明公开了一种对象检测装置和方法及存储介质。所述对象检测装置包括：从图像中提取特征的单元；基于提取的特征确定所述图像中各特征点间的空间关系的单元；基于确定的空间关系检测所述图像中的对象的区域的单元，其中所述对象为所述图像中的相关联的对象。根据本发明，可使得能更好地检测出相关联的对象。

Description

对象检测装置和方法及存储介质

技术领域

本发明涉及图像处理，尤其涉及例如对象检测处理。

背景技术

在监控系统中，人物通常是主要的监控对象。由于在日常生活中，人们通常会穿戴/拿握/使用其它物体(例如，眼镜、包、行李箱、轮椅等)，因此这些物体通常会被辅助地用于人物的监控。其中，这些物体例如可被称为相关人物的附属物。在监控处理中，人物识别处理通常是主要的处理操作，且人物及相关物体在视频/图像中的位置等信息通常是人物识别处理中需要用到的最基本的信息，因此能否高召回率地从视频/图像中检测出人物及相关物体将直接影响人物识别处理的精度。其中，人物识别处理例如有人物属性识别、人物匹配(例如，验证目标人物的身份)、人物图像搜索、人物行为/动作的识别或分析(例如，识别目标人物是否有拿其它的物体、分析目标人物与其它物体之间的动作)等。

为了能高召回率地从视频/图像中检测出人物及相关物体，非专利文献“FeaturePyramid Networks for Object Detection”(Tsung-Yi Lin,Piotr Dollár,RossGirshick,Kaiming He,Bharath Hariharan,Serge Belongie,CVPR 2017)中公开了一种示例性的对象检测技术。其主要是：首先，利用神经网络从输入图像中提取不同层级的特征，例如对于小尺度的对象提取低层级的特征、对于中间尺度的对象提取中间层级的特征、对于大尺度的对象提取高层级的特征；然后，从每一层级的特征中，利用与其对应的预生成的候选区域生成网络来检测出对象的候选区域的有关信息(例如，候选区域的位置、候选区域的分值、候选区域的特征)。

在对象检测技术(例如，上述的示例性技术)中，通常只会将候选区域的分值不小于一预定义阈值的候选区域作为最终的输出或者仅将分值排在前N个的候选区域作为最终的输出。换句话说，最终输出的候选区域将被视为是可从图像中检测到的对象(例如，人物、物体)的区域。然而，对于图像中被其它对象遮挡的对象或受光照亮度影响的对象来说，例如被相关人物遮挡的行李箱、被坐在其上的人物遮挡的轮椅、放在地上的受阴影影响的包等，由于无法从图像中完整地提取到针对这些对象的特征，因此即使利用上述的示例性技术可以从图像中检测到这些对象的候选区域，也会使得这些对象的候选区域的分值较低，从而使得这些对象的候选区域的分值小于预定义阈值或使得这些对象的候选区域的分值无法排到前N个的位置。这将导致该类对象的候选区域不会被最终的输出，从而导致无法从图像中检测到该类对象，最终影响对象的召回率。

发明内容

鉴于上面的背景技术中的记载，本发明旨在解决上述问题中的至少一点。

根据本发明的一个方面，提供一种对象检测装置，所述对象检测装置包括：提取单元，从图像中提取特征；确定单元，基于提取的特征确定所述图像中各特征点间的空间关系；及检测单元，基于确定的空间关系检测所述图像中的对象的区域，其中所述对象为所述图像中的相关联的对象。

根据本发明的另一个方面，提供一种对象检测方法，所述对象检测方法包括：提取步骤，从图像中提取特征；确定步骤，基于提取的特征确定所述图像中各特征点间的空间关系；及检测步骤，基于确定的空间关系检测所述图像中的对象的区域，其中所述对象为所述图像中的相关联的对象。

根据本发明的再一个方面，提供一种对象检测装置，所述对象检测装置包括：特征提取单元，从视频中的当前视频帧中提取特征；候选区域检测单元，基于所述提取的特征从所述当前视频帧中检测对象的候选区域；空间关系确定单元，基于所述当前视频帧的先前视频帧的检测结果，确定所述候选区域间的空间关系；及顺序确定单元，基于所述候选区域的空间关系确定所述候选区域的顺序，并将确定顺序后的候选区域作为对象的区域；其中，所述当前视频帧的先前视频帧的检测结果通过利用如上所述的对象检测装置而获得。

根据本发明的又一方面，提供一种存储指令的存储介质，该指令在由处理器执行时能使得执行如上所述的对象检测方法。

本发明中，在检测对象的区域时利用到了图像中各特征点间的空间关系，从而这些空间关系将对对象的区域的检测起到约束的作用，从而使得能更好地检测出相关联的对象。由于在监控过程中，通常相关联的对象将更有助于人物的监控，因此，根据本发明，不仅可以改善对象检测的召回率，而且可以改善对人物的监控的效果。

通过以下参考附图对典型实施例的说明，本发明的其它特征和优点将变得明显。

附图说明

并入说明书中并构成说明书的一部分的附图例示本发明的实施例，并且与实施例的描述一起用于解释本发明的原理。

图1是示意性地示出可实现根据本发明实施例的技术的硬件构造的框图。

图2是例示根据本发明的第一实施例的对象检测装置的构造的框图。

图3示意性地示出如图2中所示的检测单元230的构造的框图。

图4示意性地示出根据本发明的第一实施例的对象检测的流程图。

图5示意性示出图4所示的流程图中用到的预生成模型的示意性结构。

图6示意性地示出根据本发明的第一实施例的如图4中所示的检测步骤S430的流程图。

图7示意性地示出根据本发明的第一实施例的如图6中所示的顺序确定步骤S432的流程图。

图8是例示根据本发明的第二实施例的对象检测装置的构造的框图。

图9示意性地示出一种用于生成可用于本发明的模型的生成方法的流程图。

具体实施方式

下面将参照附图详细地描述本发明的示例性实施例。应注意，下面的描述实质上仅为说明性和示例性的，并且决不意图限制本发明及其应用或用途。除非另有具体说明，否则实施例中阐述的组件和步骤的相对布置、数值表达式和数值并不限制本发明的范围。另外，本领域技术人员已知的技术、方法和设备可能不会被详细地讨论，但在适当的情形中其应当是本说明书的一部分。

请注意，相似的附图标记和字母指代附图中相似的项目，因此，一旦一个项目在一个附图中被定义，则不必在下面的附图中对其进行讨论。

发明人发现，在对象检测的实际场景中，通常存在着一些相互间具有特定关系(尤其是空间关系)的对象，这些对象通常可被称为相关联的对象。并且，一方面，相关联的对象间将更容易出现相互影响(例如，相互遮挡)的情况。另一方面，在监控处理中，相关联的对象将更有助于人物的监控。从而，发明人发现，在对象检测过程中，如果能利用相关联的对象间所具有的这种特定关系(尤其是空间关系)来约束对象的区域的检测，则即使在某些相关联的对象例如被遮挡的情况下，也能准确地检测出这些相关联的对象的区域，从而可以改善对象检测的召回率，进而可以改善对人物的监控的效果。在本发明中，人物(例如，目标人物)与其穿戴/拿握/使用的物体可被视为相关联的对象，例如，女人与其拉着的行李箱、男人与其坐着的轮椅等。相邻的人物(例如，目标人物与其相邻的其他人物)可被视为相关联的对象，例如，女人与其抱着的孩子、前后位置行走且部分重叠的两个人等。相邻的物体(例如，目标物体与其相邻的其它物体)也可被视为相关联的对象，例如，行李箱与放在其上的包、人的阴影与被其部分或全部地覆盖的包等。然而，显然不必局限于此。

在本发明中，相关联的对象间所具有的空间关系表示相关联的对象间的空间约束。对于相关联的两个对象而言，它们之间的空间约束(也即，它们所对应的区域之间的空间约束)至少包括如下几种约束中的至少一种：

-这两个对象间的相对位置关系(例如，方向关系、距离关系等)。例如，对于放在桌子上的计算机而言，计算机与桌子间的方向关系为“在桌子上面”。例如，对于在草地上的人/动物而言，人/动物与草地间的方向关系为“在草地上”。例如，对于牵着小孩的手带领着他行走的女人而言，女人与小孩间的距离关系为“邻近、紧靠”。然而，显然不必局限于此。

-这两个对象间的拓扑关系(例如，交叠关系、包含关系、邻接关系等)。例如，对于坐在轮椅上的男人而言，男人与轮椅间的拓扑关系为“交叠关系”。对于抱着孩子的女人而言，女人与孩子间的拓扑关系为“包含关系”。对于撑着遮阳伞的女人而言，女人与遮阳伞间的拓扑关系为“邻接关系”。然而，显然不必局限于此。

-这两个对象间的相对形状关系。例如，对于坐在轮椅上的男人而言，男人与轮椅间的空间约束也可以是“相对形状关系”。然而，显然不必局限于此。

鉴于上述发现提出本发明，下面将参照附图详细描述本发明。

(硬件构造)

首先将参照图1描述可实现下文中描述的技术的硬件构造。

硬件构造100例如包括中央处理单元(CPU)110、随机存取存储器(RAM)120、只读存储器(ROM)130、硬盘140、输入设备150、输出设备160、网络接口170和系统总线180。进一步地，硬件结构100可通过诸如相机、摄像机、个人数字助理(PDA)、智能电话、平板电脑、笔记本电脑、台式电脑或其他合适的电子设备来实现。

在一种实现方式中，根据本发明的对象检测处理由硬件或固件构造并且用作硬件构造100的模块或组件。例如，将在下文参照图2详细描述的对象检测装置200和将在下文参照图8详细描述的对象检测装置800用作硬件构造100的模块或组件。在另一种实现方式中，根据本发明的对象检测处理由存储在ROM 130或硬盘140中且由CPU 110执行的软件构造。例如，将在下文参照图4详细描述的过程400和将在下文图9详细描述的过程900用作存储在ROM 130或硬盘140中的程序。

CPU 110是任意合适的可编程控制设备(诸如，处理器)，并且可通过执行存储在ROM 130或硬盘140(诸如，存储器)中的各种应用程序来执行下文中要描述的各种功能。RAM120用于临时存储从ROM 130或硬盘140加载的程序或数据，并且也被用作CPU 110在其中执行各种过程(诸如，实施将在下文参照图3至图7和图9详细描述的技术)以及其他可用功能的空间。硬盘140存储诸如操作系统(OS)、各种应用、控制程序、视频、图像、预先生成的模型、预先定义的数据(例如，阈值(THs))等多种信息。

在一种实现方式中，输入设备150用于允许用户与硬件构造100交互。在一个实例中，用户可通过输入设备150输入图像/视频/数据。在另一实例中，用户可通过输入设备150触发本发明的对应处理。此外，输入设备150可采用多种形式，诸如按钮、键盘或触摸屏。在另一种实现方式中，输入设备150用于接收从诸如数码相机、摄像机和/或网络摄像机等专门电子设备输出的图像/视频。

在一种实现方式中，输出设备160用于向用户显示检测结果(诸如，检测出的对象的区域的位置、分值、特征)。而且，输出设备160可采用诸如阴极射线管(CRT)或液晶显示器等各种形式。在另一种实现方式中，输出设备160用于向诸如人物识别处理(例如，人物属性识别、人物匹配、人物图像搜索、人物行为/动作的识别或分析等)的后续处理输出检测结果。

网络接口170提供用于将硬件构造100连接到网络的接口。例如，硬件构造100可经由网络接口170与经由网络连接的其他电子设备进行数据通信。可选地，可以为硬件构造100提供无线接口以进行无线数据通信。系统总线180可以提供用于在CPU 110、RAM 120、ROM 130、硬盘140、输入设备150、输出设备160和网络接口170等之间相互传输数据的数据传输路径。虽然被称为总线，但是系统总线180并不限于任何特定的数据传输技术。

上述硬件构造100仅仅是说明性的，并且决不意图限制本发明、其应用或用途。而且，为了简明起见，图1中只示出一个硬件构造。但是，根据需要也可以使用多个硬件构造。

(对象检测)

接下来将参照图2至图8描述根据本发明的对象检测。

图2是例示根据本发明的第一实施例的对象检测装置200的构造的框图。其中，图2中所示的一些或全部模块可由专用硬件实现。如图2中所示，对象检测装置200包括提取单元210、确定单元220和检测单元230。

首先，图1中所示的输入设备150接收从专门电子设备(例如，摄像机等)输出或由用户输入的图像。接着，输入设备150经由系统总线180将所接收的图像传输到对象检测装置200。

然后，如图2中所示，提取单元210从所接收的图像中提取特征。其中，提取单元210可利用已有的特征提取算法来从图像中提取特征，例如，局部二值模式(LBP)算法、Gabor算法、尺度不变特征变换(SIFT)算法或神经网络(NN)算法等。其中，所提取的特征例如可以是图像中的梯度特征、边缘特征、表观特征或语义特征等。

确定单元220基于提取的特征确定图像中各特征点间的空间关系，其中所述特征点即是所提取的特征上的点。其中，对于任意两个特征点间的空间关系，根据这两个特征点属于同一区域还是属于不同区域，特征点间的空间关系可分为“同一区域内的空间关系(也即，类内空间关系)”和“不同区域间的空间关系(也即，类间空间关系)”。此外，确定的特征点间的空间关系还对应地具有空间关系值。其中，对于任意两个特征点间的空间关系，其对应的空间关系值表示这两个特征点属于该空间关系的概率。

在一种实现方式中，确定单元220可根据预定义规则来基于提取的特征确定特征点间的空间关系。其中，预定义规则可存储在相应的存储设备中，例如，存储在图2中所示的存储设备240中。其中，存储设备240可以是图1中所示的ROM 130或硬盘140，也可以是经由网络(未示出)与对象检测装置200连接的服务器或外部存储设备。从而，在该实现方式中，确定单元220将先从存储设备240中获取预定义规则，之后再执行相应的空间关系的确定操作。

在另一种实现方式中，为了能够方便地在各种场景中确定所述空间关系，可以根据在其中标注有空间关系的训练样本来预先训练/生成好可用于确定特征点间的空间关系的模型(也即，预生成模型)，并将其存储在相应的存储设备(例如，存储设备240)中。其中，在下文中，将参照图9详细地描述生成该预生成模型的方法。从而，在该实现方式中，一方面，确定单元220从存储设备240中获取预生成模型。另一方面，确定单元220利用该预生成模型来基于提取的特征确定特征点间的空间关系。

进一步地，为了提高对象检测的处理速度，在参照图9生成上述预生成模型时，该预生成模型除了可以包括用于确定空间关系的部分，还可包括用于提取特征的部分。从而，作为一种替换，提取单元210也可利用该预生成模型来从图像中提取特征。在该种情况下，一方面，提取单元210从存储设备240中获取预生成模型，另一方面，提取单元210利用该预生成模型从图像中提取特征。此外，在这种情况下，确定单元220直接利用提取单元210从存储单元240中获取的预生成模型便可，而无需专门从存储单元240中获取相应的预生成模型。

返回图2，在确定好各特征点间的空间关系后，检测单元230基于确定的空间关系检测图像中的对象的区域，其中所述对象优选地为图像中的相关联的对象，其中所检测出的对象的区域例如包括区域的位置、区域的分值、区域所涵盖的特征。其中，一个区域的分值表示该区域属于某一类别的对象的概率，一个区域所涵盖的特征为提取单元210所提取的特征中属于该区域内的特征。

在一种实现方式中，检测单元230可直接利用确定的空间关系从图像中检测出对象的区域。具体为：首先，检测单元230基于确定的空间关系对各特征点进行聚类，其中，每一个聚类结果可视为一个区域，显然，每一个聚类结果中的特征点间的空间关系属于上述的“类内空间关系”；然后，检测单元230基于属于不同聚类结果间的特征点间的空间关系(也即，上述的“类间空间关系”)来确定相应的区域以作为最终检测出的对象的区域，例如可将相互间的距离小于一预定义阈值(例如，TH1)的聚类结果视为最终检测出的对象的区域，例如可将有相互重叠的聚类结果视为最终检测出的对象的区域等。

在另一种实现方式中，为了能够优先地输出更加关联的对象的区域以及为了使得检测出的对象的区域的位置能更加地精确，检测单元230可包括如

图3中所示的候选区域检测单元231和顺序确定单元232。

如图3中所示，候选区域检测单元231基于提取单元210所提取的特征从图像中检测对象的候选区域。其中，候选区域检测单元231可利用已有的区域检测算法来从图像中检测候选区域，例如，选择性搜索(selective search)算法、EdgeBoxes算法或对象性(Objectness)算法等。进一步地，如上所述，上述预生成模型可包括用于提取特征的部分和用于确定空间关系的部分，为了进一步地提高对象检测的处理速度，在参照图9生成该预生成模型时，该预生成模型还可包括用于检测对象的候选区域的部分。从而，作为一种替换，候选区域检测单元231可利用该预生成模型来基于提取的特征从图像中检测出对象的候选区域。在该种情况下，候选区域检测单元231可利用提取单元210从存储设备240中获取的预生成模型从图像中检测对象的候选区域。其中，所检测出的对象的候选区域例如也包括候选区域的位置、候选区域的分值、候选区域所涵盖的特征。其中，一个候选区域的分值表示该候选区域属于某一类别的对象的概率。例如，候选区域的分值可通过对候选区域进行分类得到。

然后，如图3中所示，在从图像中检测出候选区域后，顺序确定单元232基于确定单元220确定的空间关系确定检测出的候选区域的顺序，并将确定顺序后的候选区域作为检测出的对象的区域。

此外，上述预生成模型除了可包括用于检测对象的候选区域的部分，在参照图9生成该预生成模型时，该预生成模型还可包括直接用于检测对象的区域的部分。因此，在再一种实现中，检测单元230可直接利用该预生成模型来基于确定的空间关系检测图像中的对象的区域。在该种情况下，检测单元230可利用提取单元210从存储设备240中获取的预生成模型从图像中检测对象的区域。

返回图2，在从图像中检测出对象的区域后，检测单元230可将检测出的对象的区域的分值不小于一预定义阈值的区域作为最终的检测结果或者将排在前N个的区域作为最终的检测结果，并经由图1中所示的系统总线180将最终的检测结果传输至输出设备160，用于向用户显示最终检测到的对象的区域(例如，区域的位置、分值、特征)，或用于向诸如人物识别处理(例如，人物属性识别、人物匹配、人物图像搜索、人物行为/动作的识别或分析等)的后续处理输出检测到的对象的区域。

图4中所示的流程图400是图2中所示的对象检测装置200的对应过程。在下文中，将以提取单元210、确定单元220和检测单元230均利用预生成模型来执行相应的操作为例进行说明。其中，该过程中用到的预生成模型的示意性结构例如如图5中所示。然而，显然不必局限于此。

如图4中所示，在提取步骤S410中，提取单元210从存储设备240中获取预生成模型并利用获取得到的预生成模型(尤其是，其中用于提取特征的部分)从所接收的图像中提取特征。

在确定步骤S420中，确定单元220利用获取得到的预生成模型(尤其是，其中用于确定空间关系的部分)来基于提取的特征确定特征点间的空间关系。

在检测步骤S430中，检测单元230利用获取得到的预生成模型从图像中检测对象的区域，其中所述对象优选地为图像中的相关联的对象。如上所述，为了能够优先地输出更加关联的对象的区域以及为了使得检测出的对象的区域的位置能更加地精确，在一种实现方式中，检测单元230参照图6来检测图像中的对象的区域。

如图6中所示，在候选区域检测步骤S431中，候选区域检测单元231利用获取得到的预生成模型(尤其是，其中用于检测候选区域的部分)、基于提取单元210所提取的特征从图像中检测对象的候选区域。在顺序确定步骤S432中，顺序确定单元232基于确定单元220确定的空间关系确定检测出的候选区域的顺序，并将确定顺序后的候选区域作为最终检测出的对象的区域。在一种实现方式中，顺序确定单元232参照图7来确定候选区域的顺序。

如图7中所示，在步骤S4321中，顺序确定单元232确定候选区域检测单元231检测出的候选区域间的空间关系。具体地，对于任意两个候选区域，顺序确定单元232基于这两个候选区域中所包含的特征点的相互间的空间关系来确定这两个候选区域间的空间关系。其中，只要这两个候选区域中有相互的两个特征点存在一定的空间关系，便可认为这两个候选区域存在一定的空间关系。

在一种实现中，对于任意两个候选区域，顺序确定单元232可将这两个候选区域间的任意两个特征点间的空间关系确定为这两个候选区域间的空间关系。优选地，例如可将处于这两个候选区域的中心点位置处的两个特征点间的空间关系确定为这两个候选区域间的空间关系，其中，这两个特征点间的空间关系的空间关系值便可视为这两个候选区域间的空间关系的空间关系值。例如可将具有最大的空间关系值的两个特征点间的空间关系确定为这两个候选区域间的空间关系，其中，该最大的空间关系值便可视为这两个候选区域间的空间关系的空间关系值。

在另一种实现中，对于任意两个候选区域，顺序确定单元232可利用这两个候选区域间所具有的特征点间的所有空间关系来确定这两个候选区域间的空间关系。优选地，例如，一方面，可通过对特征点间的空间关系进行投票，并将投票数最多的一种空间关系确定为这两个候选区域间的空间关系；另一方面，可对属于该投票数最多的空间关系的所有空间关系值进行求平均、求加权和或取最大值，并将所得到的值作为这两个候选区域间的空间关系的空间关系值。

返回图7，在步骤S4322中，顺序确定单元232基于确定的候选区域间的空间关系的空间关系值来更新候选区域的分值。在一种实现中，顺序确定单元232可通过矩阵间的数学运算来更新候选区域的分值。具体地，例如，可将确定的候选区域间的空间关系的空间关系值所构成的矩阵与候选区域的分值所构成的矩阵进行数学运算(例如，矩阵相乘)，并将数学运算后得到的结果作为候选区域的更新后的分值。在另一种实现中，在待检测的目标对象(例如，目标人物)明确的情况下，顺序确定单元232可仅更新与该目标对象相关联的对象(例如，目标人物的附属物)的候选区域的分值。具体地，例如，首先，从与该目标对象存在空间关系的关联对象中确定具有最大空间关系值的一个关联对象；然后，将该最大空间关系值叠加到该确定的关联对象的候选区域的分值上以更新该候选区域的分值。

此外，为了缩小候选区域间的空间关系的确定范围以提高处理速度，在图7中所示的步骤S4321之前(也即，在确定候选区域间的空间关系之前)还可包括步骤S4320。如图7中所示，在步骤S4320中，顺序确定单元232获取相应的辅助信息，其中该辅助信息例如是关于特定检测任务的信息、是关于特定检测场景的信息等。

对于特定检测任务而言，通常待检测的目标对象(例如，目标人物)是明确的，也就是说，目标对象的位置信息和类别信息通常都是被给定的。并且，通常期望优先检测出的对象是与目标对象相关联的其它对象(例如，目标人物周围的附属物)。

从而，对于特定检测任务而言，顺序确定单元232获得的辅助信息例如是至少一个目标对象的位置信息和类别信息。进而，一方面，由于目标对象的类别信息已知，则顺序确定单元232可明确地确定目标对象与其它对象之间的可能存在的空间关系的类型。例如，在目标对象为目标人物的情况下，则其与其它对象之间的空间关系只能是“人物与人物之间的空间关系”和“人物与物体之间的空间关系”，而不可能是“物体与物体之间的空间关系”。另一方面，由于目标对象的位置信息已知，则顺序确定单元232可大致地限定仅需要确定哪些候选区域间的空间关系，而无需确定所有候选区域间的空间关系。从而，在顺序确定单元232在步骤S4321中确定候选区域间的空间关系时，可以仅确定特定候选区域间的特定空间关系，从而可以提高处理速度。

进一步地，对于特定检测任务而言，在目标对象是目标人物的情况下，顺序确定单元232还可进一步获得的辅助信息例如是至少一个目标对象(也即，目标人物)的关节点信息。其中，目标人物的关节点信息可由人工标注得到或者可通过利用关节点检测方法得到。进而，顺序确定单元232可通过对目标人物的关节点进行分类或识别来得到目标人物与与其相关联的人物/物体之间的空间关系所对应的动作。例如，如果目标人物拉着一个行李箱，则该目标人物与行李箱之间的空间关系所对应的动作为“拉”。从而，在顺序确定单元232在步骤S4321中确定候选区域间的空间关系时，不仅仅确定特定候选区域间的特定空间关系，而且仅确定特定动作对应的空间关系，从而可以进一步地提高处理速度。

对于特定检测场景而言，通常场景与处于其中的对象(例如，人物、动物等)之间存在着特定的空间关系。例如，在草地/草原中，飞行的动物(例如，鸟等)通常是在空中飞行而不可能在地上行走，人物或行走的动物(例如，羊等)通常是在地上行走而不可能在空中飞行。从而，对于特定检测场景而言，顺序确定单元232获得的辅助信息例如是场景信息(也即，输入图像的背景信息)。进而，顺序确定单元232可根据场景信息明确地确定某些特定对象与该场景间的特定空间关系。从而，在顺序确定单元232在步骤S4321中确定候选区域间的空间关系时，可以仅确定该特定的空间关系而无需确定所有的空间关系，从而可以提高处理速度。

返回图4，在从图像中检测出对象的区域后，检测单元230可将检测出的对象的区域的分值不小于一预定义阈值的区域作为最终的检测结果或者将分值排在前N个的区域作为最终的检测结果，并经由图1中所示的系统总线180将最终的检测结果传输至输出设备160，用于向用户显示最终检测到的对象的区域(例如，区域的位置、分值、特征)，或用于向诸如人物识别处理(例如，人物属性识别、人物匹配、人物图像搜索、人物行为/动作的识别或分析等)的后续处理输出检测到的对象的区域。例如，对于人物行为/动作的识别或分析而言，如图2中所示的对象检测装置200所检测到的对象的区域优选地为目标人物与其穿戴/拿握/使用的附属物的区域或目标人物与其相邻的其他人物的区域，从而可直接通过区域间的空间关系来识别或分析目标人物与其附属物或相邻人物之间的行为/动作。例如，对于目标人物与其相邻的其他人物而言，如果区域间的空间关系为“包含关系”，则可推断目标人物的动作例如为“抱着”；例如，对于目标人物与其附属物而言，如果区域间的空间关系为“邻接关系”，则可推断目标人物的动作例如为“拿握”。例如，对于一段视频内的人物图像搜索而言，通常目标人物与其附属物之间的空间关系不会变化太大，从而可以仅判断该段视频中具有检测出的区域间的空间关系的目标人物是否相似；例如，仅判断该段视频中拉着行李箱的目标人物是否相似。

根据本发明的第一实施例，由于在检测对象的区域时利用到了图像中各特征点间的空间关系，从而这些空间关系将对对象的区域的检测起到约束的作用，从而使得能更好地检测出相关联的对象。由于在监控过程中，通常相关联的对象将更有助于人物的监控，因此，根据本发明，不仅可以改善对象检测的召回率，而且可以改善对人物的监控的效果。

在本发明的第一实施例中，对象的检测操作是在单张图像中进行的。由于在一较短的连续时间段内，对象与对象之间的空间关系通常不会发生太大的变化，因此本发明也可用于在一段视频中进行对象检测。图8是例示根据本发明的第二实施例的对象检测装置800的构造的框图。其中，图8中所示的一些或全部模块可由专用硬件实现。如图8中所示，对象检测装置800包括特征提取单元810、候选区域检测单元820、空间关系确定单元830和顺序确定单元840。

首先，图1中所示的输入设备150接收从专门电子设备(例如，摄像机等)输出或由用户输入的一段视频。接着，输入设备150经由系统总线180将所接收的视频传输到对象检测装置800。

然后，如图8中所示，特征提取单元810从所接收的视频中的当前视频帧中提取特征。由于特征提取单元810的操作与图2中所示的提取单元210的操作相同，因此这里将不再重复描述。

候选区域检测单元820基于特征提取单元810所提取的特征从当前视频帧中检测对象的候选区域。由于候选区域检测单元820的操作与图3中所示的候选区域检测单元231的操作相同，因此这里将不再重复描述。

空间关系确定单元830基于当前视频帧的先前视频帧的检测结果，确定候选区域检测单元820所检测出的候选区域间的空间关系。其中，所述当前视频帧的先前视频帧的每一视频帧的检测结果可根据本发明的第一实施例而获得。在一种实现中，例如，可将从先前视频帧中的任意一视频帧中检测到的对象的区域之间的空间关系作为当前视频帧中各候选区域间的空间关系。在另一种实现中，例如，可将从先前视频帧中的N个视频帧中检测到的对象的区域之间的空间关系的综合结果(例如，通过进行加权或求平均等数学运算)作为当前视频帧中各候选区域间的空间关系。

顺序确定单元840基于空间关系确定单元830所确定的候选区域间的空间关系确定候选区域检测单元820所检测出的候选区域的顺序，并将确定顺序后的候选区域作为对象的区域。

在从当前视频帧中检测出对象的区域后，顺序确定单元840可将检测出的对象的区域的分值不小于一预定义阈值的区域作为最终的检测结果或者将分值排在前N个的区域作为最终的检测结果，并经由图1中所示的系统总线180将最终的检测结果传输至输出设备160，用于向用户显示当前视频帧的最终检测到的对象的区域(例如，区域的位置、分值、特征)，或用于向诸如人物识别处理(例如，人物属性识别、人物匹配、人物图像搜索、人物行为/动作的识别或分析等)的后续处理输出检测到的对象的区域。

作为本发明的第二实施例的一个应用，图8中所示的对象检测装置800可用于视频中的人物跟踪。具体地，对于视频中的当前视频帧，在用通用的人物跟踪装置可以顺利地跟踪到当前视频帧中的人物的情况下，则直接用通用的人物跟踪装置来对当前视频帧中的人物进行检测；在用通用的人物跟踪装置无法顺利地跟踪到当前视频帧中的人物的情况下，则可用图8中所示的对象检测装置800来对当前视频帧中的人物进行检测。从而，实现对整个视频中人物的跟踪。

(模型生成)

如本发明的第一实施例所述，可以根据在其中标注有空间关系的训练样本来预先训练/生成好可用于本发明的模型(也即，预生成模型)。其中，如上所述，为了提高本发明的处理速度，例如如图5所示，用于本发明的预生成模型例如可包括用于提取特征的部分、用于确定空间关系的部分和用于检测区域/候选区域的部分。在本发明中，可利用深度学习方法(例如，神经网络方法)、基于在其中标注有空间关系的训练样本来生成该预生成模型。其中，用于本发明的预生成模型中的每一部分可由多层网络构成，例如，用于提取特征的部分可由N层网络构成，用于确定空间关系的部分可由M层网络构成，用于检测区域/候选区域的部分可由T层网络构成，其中N、M、T为自然数且它们所代表的数值可相同或不同。

在一种实现方式中，为了减少生成预生成模型所需花费的时间，将通过反向传递方式来同时更新模型中用于提取特征的部分、用于确定空间关系的部分和用于检测区域/候选区域的部分。图9示意性地示出一种用于生成可用于本发明的模型的生成方法的流程图900。在图9所示的流程图900中将以利用神经网络方法来生产可用于本发明的模型为例进行说明，然而，显然不必局限于此。其中，参照图9的生成方法也可以通过图1所示的硬件结构100来执行。

如图9中所示，首先，如图1中所示的CPU 110通过输入设备150获取被预先设置好的初始神经网络和多张训练样本。其中，各训练样本中标记有空间关系、区域位置和对象类别。其中，在训练样本中标记的空间关系，例如可以是“有无空间关系”、“属于哪种类别的空间关系”等。

然后，在步骤S910中，一方面，CPU 110将训练样本经由用于提取特征的部分的当前神经网络(例如，初始神经网络)和用于确定空间关系的部分的当前神经网络(例如，初始神经网络)以获得训练样本中所具有的空间关系。另一方面，CPU 110确定所获得的空间关系与样本空间关系之间的损失(例如，第一损失，Loss1)。其中，样本空间关系可根据训练样本中所标记的空间关系获得。其中，第一损失Loss1表示利用当前神经网络获得的预测空间关系的空间关系值与样本空间关系的空间关系值(也即，真实空间关系值)之间的误差，其中该误差例如可通过距离来衡量。例如，第一损失Loss1可通过下述公式(1)来获得：

其中，j表示训练样本中的对象可能所属的空间关系类别数，C表示最大的空间关系类别数，y_j表示对象在空间关系类别j上的真实空间关系值；p_j表示对象在空间关系类别j上的预测空间关系值。

在步骤S920中，一方面，CPU 110将训练样本经由整个的当前神经网络(例如，初始神经网络)以获得对象的区域位置/候选区域位置和对象的对象类别。也就是说，CPU 110将训练样本经由用于提取特征的部分的当前神经网络、用于确定空间关系的部分的当前神经网络和用于检测对象的区域/候选区域的部分得当前神经网络以获得对象的区域/候选区域位置和对象的对象类别。另一方面，对于所获得的对象的区域/候选区域位置，CPU 110确定所获得的对象的区域/候选区域位置与样本区域位置之间的损失(例如，第二损失，Loss2)。其中，样本区域位置可根据训练样本中所标记的区域位置获得。其中，第二损失Loss2表示利用当前神经网络获得的预测区域/候选区域位置与样本区域位置(也即，真实区域位置)之间的误差，其中该误差例如可通过距离来衡量。例如，第二损失Loss2可通过下述公式(2)和公式(3)来获得：

其中，Smooth_L1(x)表示对象的区域/候选区域位置和真实区域位置的差异，x表示对象的区域/候选区域位置的左上角横坐标，y表示对象的区域/候选区域位置的左上角纵坐标，w表示对象的区域/候选区域的宽，h表示对象的区域/候选区域的高，表示对象类别为n的对象的区域/候选区域位置，v_i表示对象类别为n的对象的真实区域位置。

对于所获得的对象的对象类别，CPU 110确定所获得的对象的对象类别与样本对象类别之间的损失(例如，第三损失，Loss3)。其中，样本对象类别可根据训练样本中所标记的对象类别获得。其中，第三损失Loss3表示利用当前神经网络获得的预测对象类别与样本对象类别(也即，真实对象类别)之间的误差，其中该误差例如可通过距离来衡量。例如，第三损失Loss3可通过下述公式(4)来获得：

其中，m表示训练样本中的对象可能所属的对象类别数，M表示最大的对象类别数，该对象类别表示训练样本中的对象所属的对象类别；y_m表示对象在对象类别m上的真实对象类别；p_m表示对象在对象类别m上的预测对象类别。

返回图9，在步骤S930中，CPU 110将基于确定得到的所有损失(也即，第一损失Loss1、第二损失Loss2和第三损失Loss3)判断整个的当前神经网络是否满足预定条件。例如，将这三个损失的和或加权和与一阈值(例如，TH2)进行比较，在这三个损失的和/加权和小于或等于TH2的情况下，整个的当前神经网络将被判断为满足预定条件而被作为最终的神经网络(也即，作为预生成模型)输出，其中该最终的神经网络例如被输出到图2中所示的存储设备240中以用于如图2至图8中所述的对象检测。在这三个损失的和/加权和大于TH2的情况下，整个的当前神经网络将被判断为还不满足预定条件，则生成过程将进入步骤S940。

在步骤S940中，CPU 110基于第一损失Loss1更新用于确定空间关系的部分的当前神经网络中各层的参数，其中此处各层的参数例如是该当前神经网络中各卷积层中的权重值。在一种实例中，例如利用随机梯度下降方法基于第一损失Loss1来更新各层的参数。

在步骤S950中，CPU 110基于第二损失Loss2和第三损失Loss3更新用于检测对象的区域/候选区域的部分的当前神经网络中各层的参数，其中此处各层的参数例如也是该当前神经网络中各卷积层中的权重值。在一种实例中，例如也是利用随机梯度下降方法基于第二损失Loss2和第三损失Loss3来更新各层的参数。

在步骤S960中，CPU 110基于第一损失Loss1、第二损失Loss2和第三损失Loss3更新用于提取特征的部分的当前神经网络中各层的参数，其中此处各层的参数例如也是该当前神经网络中各卷积层中的权重值。在一种实例中，例如也是利用随机梯度下降方法基于第一损失Loss1、第二损失Loss2和第三损失Loss3来更新各层的参数。之后，生成过程重新进入步骤S910。

在图9中所示的流程900中，是以第一损失Loss1、第二损失Loss2和第三损失Loss3这三个损失的和/加权和是否满足预定条件来作为停止更新当前神经网络的条件的。然而，显然不必局限于此。作为一种替换，例如可以省略步骤S930，而是在对当前神经网络的更新次数达到一个预定的次数后便停止相应的更新操作。

上述的所有单元都是用于实现本公开中所述处理的示例性和/或优选模块。这些单元可以是硬件单元(诸如，现场可编程门阵列(FPGA)、数字信号处理器、专用集成电路等)和/或软件模块(诸如，计算机可读程序)。上面没有详尽地描述用于实现各步骤的单元。然而，当存在执行特定过程的步骤的情况下，可以存在用于实现该同一过程的对应功能模块或单元(通过硬件和/或软件实现)。通过描述的步骤和对应于这些步骤的单元的所有组合的技术方案包括在本申请的公开内容中，只要它们所构成的技术方案是完整的、适用的即可。

可以以多种方式来实施本发明的方法和装置。例如，可以通过软件、硬件、固件或其任何组合来实施本发明的方法和装置。除非另有具体说明，否则本方法的步骤的上述顺序仅旨在是说明性的，并且本发明的方法的步骤不局限于上述具体描述的顺序。此外，在一些实施例中，本发明还可以被实施为在记录介质中记录的程序，其包括用于实现根据本发明的方法的机器可读指令。因此，本发明也覆盖存储用于实现根据本发明的方法的程序的记录介质。

虽然已经通过示例详细地展示了本发明的一些具体实施例，但是本领域的技术人员应该理解，上述示例仅旨在是说明性的，并不限制本发明的范围。本领域的技术人员应该理解，上述实施例可以在不脱离本发明的范围和精神的情况下被修改。本发明的范围由所附权利要求约束。

Claims

1.一种对象检测装置，所述对象检测装置包括：

提取单元，从图像中提取特征；

确定单元，基于提取的特征确定所述图像中各特征点间的空间关系；及

检测单元，基于确定的空间关系检测所述图像中的对象的区域，其中所述对象为所述图像中的相关联的对象。

2.根据权利要求1所述的对象检测装置，其中，所述确定单元利用预生成模型，基于所述提取的特征确定特征点间的空间关系及其空间关系值。

3.根据权利要求1所述的对象检测装置，其中，所述检测单元包括：

候选区域检测单元，基于所述提取的特征从所述图像中检测对象的候选区域；

顺序确定单元，基于所述确定的空间关系确定所述候选区域的顺序，并将确定顺序后的候选区域作为对象的区域。

4.根据权利要求3所述的对象检测装置，其中，所述确定单元利用预生成模型，基于所述提取的特征确定特征点间的空间关系及其空间关系值。

5.根据权利要求4所述的对象检测装置，其中，所述顺序确定单元基于候选区域间的空间关系的空间关系值来更新候选区域的分值。

6.根据权利要求5所述的对象检测装置，其中，对于所述候选区域中的任意两个，这两个候选区域间的空间关系基于这两个候选区域中所包含的特征点的相互间的空间关系而确定。

7.根据权利要求6所述的对象检测装置，其中，对于所述候选区域中的任意两个，这两个候选区域间的空间关系进一步基于如下信息中的至少一种而确定：

这两个候选区域中的至少一个目标对象的位置信息和类别信息；

这两个候选区域中的至少一个目标对象的关节点信息；

所述图像的背景信息。

8.根据权利要求5所述的对象检测装置，其中，两个候选区域间的空间关系表示两个候选区域间的空间约束；

其中，所述空间约束至少包括如下关系中的至少一种：两个候选区域间的相对位置关系，两个候选区域间的拓扑关系，两个候选区域间的相对形状关系。

9.根据权利要求2或4所述的对象检测装置，

其中，所述提取单元利用所述预生成模型从所述图像中提取特征；

其中，所述检测单元利用所述预生成模型从所述图像中检测对象的区域。

10.根据权利要求9所述的对象检测装置，其中，利用深度学习方法，基于在其中标注有空间关系的训练样本来生成所述预生成模型。

11.根据权利要求10所述的对象检测装置，其中，所述预生成模型至少具有如下三部分：用于提取特征的部分、用于确定空间关系的部分和用于检测对象的区域的部分；

其中，在生成所述预生成模型的过程中，通过反向传递方式来同时更新用于提取特征的当前部分、用于确定空间关系的当前部分和用于检测对象的区域的当前部分。

12.一种对象检测方法，所述对象检测方法包括：

提取步骤，从图像中提取特征；

确定步骤，基于提取的特征确定所述图像中各特征点间的空间关系；及

检测步骤，基于确定的空间关系检测所述图像中的对象的区域，其中所述对象为所述图像中的相关联的对象。

13.根据权利要求12所述的对象检测方法，其中，在所述确定步骤中，利用预生成模型，基于所述提取的特征确定特征点间的空间关系及其空间关系值。

14.根据权利要求12所述的对象检测方法，其中，所述检测步骤包括：

候选区域检测步骤，基于所述提取的特征从所述图像中检测对象的候选区域；

顺序确定步骤，基于所述确定的空间关系确定所述候选区域的顺序，并将确定顺序后的候选区域作为对象的区域。

15.根据权利要求14所述的对象检测方法，其中，在所述确定步骤中，利用预生成模型，基于所述提取的特征确定特征点间的空间关系及其空间关系值。

16.根据权利要求15所述的对象检测方法，其中，在所述顺序确定步骤中，基于候选区域间的空间关系的空间关系值来更新候选区域的分值。

17.根据权利要求16所述的对象检测方法，其中，对于所述候选区域中的任意两个，这两个候选区域间的空间关系基于这两个候选区域中所包含的特征点的相互间的空间关系而确定。

18.根据权利要求16所述的对象检测方法，其中，两个候选区域间的空间关系表示两个候选区域间的空间约束；

19.根据权利要求13或15所述的对象检测方法，

其中，在所述提取步骤中，利用所述预生成模型从所述图像中提取特征；

其中，在所述检测步骤中，利用所述预生成模型从所述图像中检测对象的区域。

20.一种对象检测装置，所述对象检测装置包括：

特征提取单元，从视频中的当前视频帧中提取特征；

候选区域检测单元，基于所述提取的特征从所述当前视频帧中检测对象的候选区域；

空间关系确定单元，基于所述当前视频帧的先前视频帧的检测结果，确定所述候选区域间的空间关系；及

顺序确定单元，基于所述候选区域间的空间关系确定所述候选区域的顺序，并将确定顺序后的候选区域作为对象的区域；

其中，所述当前视频帧的先前视频帧的检测结果通过利用根据权利要求1至权利要求11中的任一项所述的对象检测装置而获得。

21.一种存储指令的存储介质，该指令在由处理器执行时能使得执行根据权利要求12-19中任一项所述的对象检测方法。