CN108875537A

CN108875537A - 对象检测方法、装置和系统及存储介质

Info

Publication number: CN108875537A
Application number: CN201810166037.XA
Authority: CN
Inventors: 周舒畅; 杨弋; 孙培钦
Original assignee: Beijing Megvii Technology Co Ltd
Current assignee: Beijing Megvii Technology Co Ltd
Priority date: 2018-02-28
Filing date: 2018-02-28
Publication date: 2018-11-23
Anticipated expiration: 2038-02-28
Also published as: US20190266747A1; US10885660B2; CN108875537B

Abstract

本发明实施例提供一种对象检测方法、装置和系统以及存储介质。对象检测方法包括：获取待处理图像；以及将待处理图像输入神经网络，以获得神经网络输出的特征图，其中，特征图包括位置通道和属性通道，位置通道包括与待处理图像中的至少一个预测对象的至少一个候选位置分别对应的至少一组候选位置信息，属性通道包括与至少一个候选位置分别对应的至少一组候选属性信息。根据本发明实施例的对象检测方法和装置，通过共享特征图的方式同时获得对象的位置信息和属性信息，使计算量大大减小。这种方式可以有效节约计算资源和存储资源，便于实现轻量型的终端布署方案。此外，这种方式可以提高神经网络对每个图像的处理速度，能够实现对图像的实时处理。

Description

对象检测方法、装置和系统及存储介质

技术领域

本发明涉及图像识别领域，更具体地涉及一种对象检测方法、装置和系统以及存储介质。

背景技术

目前，在某些应用场景下，可能需要检测目标对象的属性信息。例如，在人脸识别领域，有时需要检测人脸所属人员的年龄等属性信息。在现有的属性检测方法中，首先从图像中检测目标对象所在的位置，随后才基于目标对象所在的位置从图像中提取目标对象的属性信息。现有的属性检测方法需要消耗较多的计算资源，为在嵌入式终端上布署提出了挑战。此外，现有的属性检测方法使得图像的整个处理流程时间较长，不够实时。

发明内容

考虑到上述问题而提出了本发明。本发明提供了一种对象检测方法、装置和系统以及存储介质。

根据本发明一方面，提供了一种对象检测方法。对象检测方法包括：获取待处理图像；以及将待处理图像输入神经网络，以获得神经网络输出的特征图，其中，特征图包括位置通道和属性通道，位置通道包括与待处理图像中的至少一个预测对象的至少一个候选位置分别对应的至少一组候选位置信息，属性通道包括与至少一个候选位置分别对应的至少一组候选属性信息。

示例性地，至少一组候选位置信息一一对应地是至少一个候选位置向量，至少一组候选属性信息一一对应地是至少一个候选属性向量。

示例性地，方法还包括：对至少一个候选属性向量中属于同一预测对象的所有候选属性向量进行聚合，以获得属于至少一个预测对象中的每个预测对象的聚合属性向量。

示例性地，对至少一个属性位置向量中属于同一预测对象的所有候选属性向量进行聚合，以获得属于至少一个预测对象中的每个预测对象的聚合属性向量包括以下项之一：对属于至少一个预测对象中的任一预测对象的所有候选属性向量求平均值，以获得属于该预测对象的聚合属性向量；从属于至少一个预测对象中的任一预测对象的所有候选属性向量中选取模最大的候选属性向量作为属于该预测对象的聚合属性向量。

示例性地，方法还包括：输出至少一个预测对象中的每个预测对象的聚合属性向量。

示例性地，至少一个候选位置一一对应地是至少一个候选边界框，方法还包括：对属于至少一个预测对象中的同一预测对象的所有候选边界框进行过滤，以获得属于至少一个预测对象中的每个预测对象的经过滤边界框。

示例性地，对属于至少一个预测对象中的同一预测对象的所有候选边界框进行过滤，以获得属于至少一个预测对象中的每个预测对象的经过滤边界框包括：对至少一个候选边界框进行非极大值抑制，以确定至少一个候选边界框中属于同一预测对象的候选边界框，并获得属于至少一个预测对象中的每个预测对象的经过滤边界框。

示例性地，对至少一个属性位置向量中属于同一预测对象的所有候选属性向量进行聚合，以获得属于至少一个预测对象中的每个预测对象的聚合属性向量包括：对于属于至少一个预测对象中的任一预测对象的每个候选属性向量，计算该候选属性向量所对应的候选边界框与该预测对象的经过滤边界框之间的距离并根据距离计算该候选属性向量的权重；基于计算的权重对属于至少一个预测对象中的任一预测对象的所有候选属性向量进行加权平均，以获得属于该预测对象的聚合属性向量。

根据本发明另一方面，提供了一种对象检测装置，包括：获取模块，用于获取待处理图像；以及输入模块，用于将待处理图像输入神经网络，以获得神经网络输出的特征图，其中，特征图包括位置通道和属性通道，位置通道包括与待处理图像中的至少一个预测对象的至少一个候选位置分别对应的至少一组候选位置信息，属性通道包括与至少一个候选位置分别对应的至少一组候选属性信息。

根据本发明另一方面，提供了一种对象检测系统，包括处理器和存储器，其中，所述存储器中存储有计算机程序指令，所述计算机程序指令被所述处理器运行时用于执行上述对象检测方法。

根据本发明另一方面，提供了一种存储介质，在所述存储介质上存储了程序指令，所述程序指令在运行时用于执行上述对象检测方法。

根据本发明实施例的对象检测方法、装置和系统以及存储介质，通过共享特征图的方式同时获得对象的位置信息和属性信息，使计算量大大减小。这种方式可以有效节约计算资源和存储资源，便于实现轻量型的终端布署方案。此外，这种方式可以提高神经网络对每个图像的处理速度，能够实现对图像的实时处理。尤其是将该对象检测方法应用于视频流的处理时，该方法能够很好地应对视频流的实时处理要求。

附图说明

通过结合附图对本发明实施例进行更详细的描述，本发明的上述以及其它目的、特征和优势将变得更加明显。附图用来提供对本发明实施例的进一步理解，并且构成说明书的一部分，与本发明实施例一起用于解释本发明，并不构成对本发明的限制。在附图中，相同的参考标号通常代表相同部件或步骤。

图1示出用于实现根据本发明实施例的对象检测方法和装置的示例电子设备的示意性框图；

图2示出根据本发明一个实施例的对象检测方法的示意性流程图；

图3示出根据本发明一个实施例的对象检测流程的示意图；

图4示出根据本发明一个实施例的对象检测装置的示意性框图；以及

图5示出根据本发明一个实施例的对象检测系统的示意性框图。

具体实施方式

为了使得本发明的目的、技术方案和优点更为明显，下面将参照附图详细描述根据本发明的示例实施例。显然，所描述的实施例仅仅是本发明的一部分实施例，而不是本发明的全部实施例，应理解，本发明不受这里描述的示例实施例的限制。基于本发明中描述的本发明实施例，本领域技术人员在没有付出创造性劳动的情况下所得到的所有其它实施例都应落入本发明的保护范围之内。

在现有的属性检测方法中，将对象的位置检测和属性检测分为两步操作。这种方法需要消耗较多的计算资源，为在嵌入式终端上布署提出了挑战，同时使得图像的整个处理流程时间较长，不够实时。为了解决上述问题，本发明实施例提供了一种对象检测方法、装置和系统以及存储介质。根据本发明实施例，将位置检测和属性检测融合在一起，通过神经网络一步到位地实现位置和属性的同时检测。本发明实施例提供的对象检测方法所需计算量少，便于实现轻量型的终端部署方案，同时可以更高效地对图像进行处理。根据本发明实施例的对象检测方法和装置可以应用于任何需要对对象属性进行识别的领域，例如人脸识别、文字识别、行人检测、车辆检测等等。

首先，参照图1来描述用于实现根据本发明实施例的对象检测方法和装置的示例电子设备100。

如图1所示，电子设备100包括一个或多个处理器102、一个或多个存储装置104。可选地，电子设备100还可以包括输入装置106、输出装置108、以及图像采集装置110，这些组件通过总线系统112和/或其它形式的连接机构(未示出)互连。应当注意，图1所示的电子设备100的组件和结构只是示例性的，而非限制性的，根据需要，所述电子设备也可以具有其他组件和结构。

所述处理器102可以采用数字信号处理(DSP)、现场可编程门阵列(FPGA)、可编程逻辑阵列(PLA)、微处理器中的至少一种硬件形式来实现，所述处理器102可以是中央处理单元(CPU)、图像处理器(GPU)、专用的集成电路(ASIC)或者具有数据处理能力和/或指令执行能力的其它形式的处理单元中的一种或几种的组合，并且可以控制所述电子设备100中的其它组件以执行期望的功能。

所述存储装置104可以包括一个或多个计算机程序产品，所述计算机程序产品可以包括各种形式的计算机可读存储介质，例如易失性存储器和/或非易失性存储器。所述易失性存储器例如可以包括随机存取存储器(RAM)和/或高速缓冲存储器(cache)等。所述非易失性存储器例如可以包括只读存储器(ROM)、硬盘、闪存等。在所述计算机可读存储介质上可以存储一个或多个计算机程序指令，处理器102可以运行所述程序指令，以实现下文所述的本发明实施例中(由处理器实现)的客户端功能以及/或者其它期望的功能。在所述计算机可读存储介质中还可以存储各种应用程序和各种数据，例如所述应用程序使用和/或产生的各种数据等。

所述输入装置106可以是用户用来输入指令的装置，并且可以包括键盘、鼠标、麦克风和触摸屏等中的一个或多个。

所述输出装置108可以向外部(例如用户)输出各种信息(例如图像和/或声音)，并且可以包括显示器、扬声器等中的一个或多个。可选地，所述输入装置106和所述输出装置108可以集成在一起，采用同一交互装置(例如触摸屏)实现。

所述图像采集装置110可以采集待处理图像(可以是静态图像或视频帧)，并且将所采集的图像存储在所述存储装置104中以供其它组件使用。图像采集装置110可以是单独的相机或移动终端中的摄像头。应当理解，图像采集装置110仅是示例，电子设备100可以不包括图像采集装置110。在这种情况下，可以利用其他具有图像采集能力的器件采集待处理图像，并将采集的图像发送给电子设备100。

示例性地，用于实现根据本发明实施例的对象检测方法和装置的示例电子设备可以在诸如个人计算机或远程服务器等的设备上实现。

下面，将参考图2描述根据本发明实施例的对象检测方法。图2示出根据本发明一个实施例的对象检测方法200的示意性流程图。如图2所示，对象检测方法200包括以下步骤S210和S220。

在步骤S210，获取待处理图像。

待处理图像可以是任何需要对对象进行识别的图像。本文所述的对象可以是任何物体，包括但不限于：文字、特定图案、人或人体的一部分(诸如人脸)、动物、车辆、建筑物等。

待处理图像可以是静态图像，也可以是视频中的视频帧。待处理图像可以是图像采集装置采集到的原始图像，也可以是对原始图像进行预处理(诸如数字化、归一化、平滑等)之后获得的图像。

在步骤S220，将待处理图像输入神经网络，以获得神经网络输出的特征图，其中，特征图包括位置通道和属性通道，位置通道包括与待处理图像中的至少一个预测对象的至少一个候选位置分别对应的至少一组候选位置信息，属性通道包括与至少一个候选位置分别对应的至少一组候选属性信息。

示例性地，可以将待处理图像提取为张量的形式，获得图像张量，该图像张量可以代表待处理图像。将待处理图像输入神经网络，可以是将上述图像张量输入神经网络。

神经网络可以是任何合适的网络，例如卷积神经网络。待处理图像输入神经网络之后，神经网络可以输出若干特征图(feature map)。神经网络可以包括任意数目的卷积层、池化层、全连接层、softmax层等网络层。神经网络所包括的卷积层的数目、池化层的数目、全连接层的数目、卷积层和池化层的连接顺序、每个卷积层的卷积核的长和宽、每个池化层的步长等网络参数均可以调整。

根据本发明实施例，在神经网络中，可以将输出特征图的通道数增多，使得在输出位置信息的基础上，增加与属性信息相关的通道。具体地，通过对神经网络的网络结构的设计，可以将属性提取的工作结合到神经网络当中，使得该神经网络在输出边界框(boundingbox，可简称为bbox)信息的同时，还可以输出每个bbox中的预测对象的属性信息。

示例性地，采用神经网络进行图像处理时，可以同时向神经网络输入多个待处理图像，以加快图像的处理速度。在这种情况下，神经网络输出的特征图可以采用四维张量表示，分别为长、宽、通道数和图像数(patch)。图像数这一维度的元素数目与输入神经网络的待处理图像的数目一致，图像数维度中的元素与输入神经网络的待处理图像一一对应。如果不考虑图像数维度，对于每个待处理图像来说，其所对应的特征图可以是三维张量。下面以待处理图像的数目是一个为例来描述本发明。示例性地，将待处理图像输入神经网络之后，神经网络输出的特征图可以用三维张量表示，该三维张量分为长、宽和通道数三个维度，例如分别用m、k和n表示。在n个通道中，有n₁个通道是位置通道，有n₂个通道是属性通道。也就是说，神经网络输出的特征图可以表示为大小为m×k×n的三维张量。例如，假设神经网络输出的特征图是大小为16×16×10的三维张量，并且假设每个候选位置用一个候选边界框表示，每个候选边界框的候选位置信息可以为候选边界框的位置坐标。例如，候选边界框可以为矩形框，候选边界框的位置坐标可以为候选边界框的四个坐标数值，例如，该候选边界框的左上角横坐标x、左上角纵坐标y、边界框的宽度w、边界框的高度h。这样，在特征图的10个通道中，前4个通道可以是位置通道，每个位置通道对应一种坐标数值，后面的6个通道可以是属性通道，每个属性通道对应一种属性。例如，假设对象为人脸，第1个属性通道(即10个通道中的第5个通道)上的每个元素可以用于表示在对应的候选位置上的预测人脸所属人员的年龄。应理解，候选边界框还可以为其他形状，例如正方形、圆形等，相应地候选边界框的位置坐标还可以采用其他表示方式，本发明实施例对此不作限定。

继续沿用上述示例，假设神经网络输出的特征图是16×16×10的三维张量，则可以理解为预测获得16×16个候选位置，每个候选位置对应着1×10维的向量，例如每个候选位置对应着4个维度的候选位置信息以及6个维度的候选属性信息。

预测对象是指神经网络预测出的对象，该预测对象可以用候选位置(例如上述候选边界框)指示。特征图所指示的每个候选位置代表在该位置处具有一个预测对象，不同候选位置可能具有相同的预测对象。例如，针对人脸A可能预测获得20个候选边界框，这些候选边界框的位置可能较为接近，通过一些后续算法(例如下文将描述的非极大值抑制)可以过滤多余的候选边界框，针对单个人脸获得一个大小和位置较为合适的边界框(可以是候选边界框聚合成的聚合边界框)。应理解，由于预测对象是神经网络预测出的对象，因此其与实际对象不一定一致，例如原本没有人脸的地方可能预测出人脸。另外，至少一个预测对象中的每个预测对象与至少一个候选位置中的一个或多个候选位置相对应，不同预测对象所对应的候选位置的数目可以相同或不同。因此，至少一个预测对象的数目与至少一个候选位置的数目可能相等，也可能不等。

本文所述的属性信息可以包括与对象的一种或多种对象属性一一对应的属性信息。例如，在对象为人脸的情况下，对象属性可以包括人脸所属人员的年龄、人脸所属人员的性别、人脸大小、人脸角度、人脸的模糊程度、人脸是否被遮挡等等。又例如，在对象为车辆的情况下，对象属性可以包括车牌号、车辆颜色、车辆型号等等。

根据本发明实施例的对象检测方法，将现有方法中需要两个步骤完成的工作整合到一个步骤当中，通过共享特征图的方式同时获得对象的位置信息和属性信息，使计算量大大减小。这种方式可以有效节约计算资源和存储资源，便于实现轻量型的终端布署方案。此外，这种方式可以提高神经网络对每个图像的处理速度，能够实现对图像的实时处理。尤其是将该对象检测方法应用于视频流的处理时，该方法能够很好地应对视频流的实时处理要求。

示例性地，根据本发明实施例的对象检测方法可以在具有存储器和处理器的设备、装置或者系统中实现。

根据本发明实施例的对象检测方法可以部署在图像采集端处，例如，在安防应用领域，可以部署在门禁系统的图像采集端；在金融应用领域，可以部署在个人终端处，诸如智能电话、平板电脑、个人计算机等。

替代地，根据本发明实施例的对象检测方法还可以分布地部署在服务器端(或云端)和个人终端处。例如，可以在客户端获取待处理图像，客户端将获取的待处理图像传送给服务器端(或云端)，由服务器端(或云端)进行对象检测。

根据本发明实施例，至少一组候选位置信息一一对应地是至少一个候选位置向量，至少一组候选属性信息一一对应地是至少一个候选属性向量。

上文已经描述了特征图的通道维度上的位置信息和属性信息，参考上文描述，可以理解候选位置向量和候选属性向量的表示形式，此处不再赘述。

根据本发明实施例，对象检测方法200还可以包括：对至少一个候选属性向量中属于同一预测对象的所有候选属性向量进行聚合，以获得属于至少一个预测对象中的每个预测对象的聚合属性向量。

由于对于同一个预测对象来说，可能预测出多个预测位置，相应地将获得多个候选属性向量。因此，可以将属于同一预测对象的多个候选属性向量聚合在一起，获得一个聚合属性向量用来表示预测对象的属性。在现有的属性检测方法中，仅从包含对象的图像块中提取一次属性信息。与现有的属性检测方法相比，本实施例提供的方法综合多个候选属性向量的信息，因此属性检测的准确率更高。

根据本发明实施例，对至少一个属性位置向量中属于同一预测对象的所有候选属性向量进行聚合，以获得属于至少一个预测对象中的每个预测对象的聚合属性向量包括以下项之一：对属于至少一个预测对象中的任一预测对象的所有候选属性向量求平均值，以获得属于该预测对象的聚合属性向量；从属于至少一个预测对象中的任一预测对象的所有候选属性向量中选取模最大的候选属性向量作为属于该预测对象的聚合属性向量。

对候选属性向量进行聚合的方式可以是任意的。在一个示例中，对于任一预测对象，可以对属于该预测对象的所有候选属性向量中的、任一属性所对应的元素求平均值，获得的平均值作为属于该预测对象的聚合属性向量中的该属性所对应的元素。例如，假设属于某一预测对象X的候选属性向量共有两个，分别用a₁和a₂表示，并假设神经网络输出的每个候选属性向量为1×6维向量，包含6个元素，分别对应6个属性。则可以计算a₁的第1个元素和a₂的第1个元素的平均值，将计算获得的平均值作为预测对象X的聚合属性向量的第1个元素。聚合属性向量的其余元素的计算方式与第1个元素类似，不再赘述。

在另一个示例中，对于任一预测对象，可以从属于该预测对象的所有候选属性向量中选取模最大的候选属性向量作为属于该目标对象的聚合属性向量。本领域技术人员可以理解向量的模的计算方式，本文不对此进行赘述。

在又一个示例中，对于任一预测对象，可以对属于该预测对象的所有候选属性向量进行加权平均，将加权平均获得的向量作为属于该预测对象的聚合属性向量。加权平均时，每个候选属性向量的权重可以是该属性向量所对应的候选边界框与预测对象的中心边界框之间的距离。中心边界框的确定方式将在下文描述。

示例性地，对象检测方法200还可以包括：根据至少一个候选位置分别对应的至少一组候选位置信息确定至少一个候选位置中属于同一预测对象的候选位置。例如，可以计算任意两个候选边界框之间的重合度，基于重合度判断两个候选边界框是否属于同一预测对象。由于候选边界框与候选位置向量和候选属性向量均是一一对应的，确定哪些候选边界框属于同一预测对象之后，也就可以确定哪些候选位置向量属于同一预测对象，以及哪些候选属性向量属于同一预测对象。

根据本发明实施例，对象检测方法200还可以包括：输出至少一个预测对象中的每个预测对象的聚合属性向量。

在一个示例中，可以通过显示器等输出装置将每个预测对象的聚合属性向量输出，用于供用户查看。应理解，在输出聚合属性向量时，可以将其转换为文本、图像、语音等形式输出。在另一个示例中，可以通过有线或无线等方式将每个预测对象的聚合属性信息输出至远程服务器等外部设备。

根据本发明实施例，至少一个候选位置一一对应地是至少一个候选边界框，对象检测方法200还可以包括：对属于至少一个预测对象中的同一预测对象的所有候选边界框进行过滤，以获得属于至少一个预测对象中的每个预测对象的经过滤边界框。

如上文所述，针对同一预测对象可能预测出多个候选边界框，因此可以过滤多余的候选边界框，针对单个预测对象获得一个大小和位置较为合适的边界框。这可以通过对属于同一预测对象的所有候选边界框进行过滤来实现。

根据本发明实施例，对属于至少一个预测对象中的同一预测对象的所有候选边界框进行过滤，以获得属于至少一个预测对象中的每个预测对象的经过滤边界框可以包括：对至少一个候选边界框进行非极大值抑制，以确定至少一个候选边界框中属于同一预测对象的候选边界框，并获得属于该预测对象的经过滤对象框。

下面描述非极大值抑制(NMS)方法的实施方式。首先，可选地，可以根据得分对至少一个候选边界框进行初步筛选。得分是指候选边界框中包含实际对象的概率。神经网络在输出候选边界框的位置信息时，还可以输出该候选边界框的得分，该得分可以占据特征图上的一个通道。也就是说，除位置通道和属性通道以外，神经网络输出的特征图还可以包括得分通道，得分通道包括与至少一个候选位置分别对应的至少一组得分信息。每组得分信息可以为一个得分数据，用于表示对应的候选位置包含实际对象的概率，即对应的预测对象为实际对象的概率。

示例性地，根据得分对至少一个候选边界框进行初步筛选可以包括：将至少一个候选边界框中得分小于预设的得分阈值的候选边界框过滤掉，保留剩余的候选边界框。例如，可以将得分小于0.3的候选边界框过滤掉。过滤方式可以是将候选边界框的得分直接置为0，即将候选边界框包含实际对象的概率置为0，方便后续将该候选边界框丢弃。

随后，可以按照得分对至少一个候选边界框进行排序。在不对至少一个候选边界框进行初步筛选的情况下，可以按照各候选边界框的原始得分对至少一个候选边界框进行排序。在对至少一个候选边界框进行初步筛选的情况下，得分小于得分阈值的候选边界框的得分均被置为0，则这些候选边界框将被排在最后(假设得分按从高到低的顺序排列)。得分被置为0的候选边界框可以参与后续的重合度计算等步骤，只是最终会被丢弃。示例性地，在对至少一个候选边界框进行初步筛选的情况下，可以不再考虑得分被置为0的候选边界框，仅对经初步筛选的候选边界框进行排序。也就是说，得分被置为0的候选边界框可以不再参与后续的重合度计算等步骤，在排序之前即被丢弃。

按照得分对候选边界框进行排序之后，选出得分最高的候选边界框。随后，逐一计算每个剩余的候选边界框与得分最高的候选边界框之间的重合度。示例性地，两个候选边界框之间的重合度可以用该两个候选边界框之间的交并比(IoU)表示。本领域技术人员可以理解边界框的IoU的计算方式，本文不对此进行赘述。重合度大于预设阈值的两个候选边界框可以确定为属于同一预测对象，反之，重合度小于或等于预设阈值的两个候选边界框可以确定为不属于同一预测对象。因此，通过计算重合度，可以确定哪些候选边界框属于同一预测对象。

如果任一剩余的候选边界框与得分最高的候选边界框之间的重合度大于预设阈值，则将该剩余的候选边界框丢弃。随后，可以从与得分最高的候选边界框不属于同一预测对象的候选边界框中继续选出一个得分最高的，并重复上述过程。例如，假设至少一个候选边界框的数目为十个，经初步筛选后剩下B1、B2、B3、B4、B5、B6这六个边界框，其中得分最高的是候选边界框B3，并且候选边界框B2和B5与B3之间的IoU均大于预设阈值，则可以标记候选边界框B3为保留的第一个边界框，并丢弃候选边界框B2和B5。丢弃候选边界框B2和B5的方式可以是将候选边界框B2和B5的得分置为0。随后，从剩下的候选边界框B1、B4、B6中，选择得分最大的候选边界框B6，然后分别计算候选边界框B1、B4与B6之间的IoU。假设候选边界框B4与B6之间的IoU大于预设阈值，则可以丢弃候选边界框B4，并标记B6为保留的第二个边界框。上述过程可以一直重复，直到找到所有被保留的边界框。在上述示例中，最终可以保留B3、B6和B1这三个候选边界框。

通过以上操作，针对每个预测对象可以获得一个最终的边界框，即经过滤边界框。

根据本发明实施例，对至少一个属性位置向量中属于同一预测对象的所有候选属性向量进行聚合，以获得属于至少一个预测对象中的每个预测对象的聚合属性向量可以包括：对于属于至少一个预测对象中的任一预测对象的每个候选属性向量，计算该候选属性向量所对应的候选边界框与该预测对象的经过滤边界框之间的距离并根据距离计算作为该候选属性向量的权重；基于计算的权重对属于至少一个预测对象中的任一预测对象的所有候选属性向量进行加权平均，以获得属于该预测对象的聚合属性向量。

如上文所述，对于任一预测对象，可以对属于该预测对象的所有候选属性向量进行加权平均，将加权平均获得的向量作为属于该预测对象的聚合属性向量。

例如，假设针对预测对象Y预测出10个候选边界框，相应地得到10个候选位置向量和10个候选属性向量。可以对这10个候选边界框进行过滤，获得经过滤边界框。可以将该经过滤边界框作为预测对象Y的中心边界框。任一候选边界框与中心边界框之间的距离可以根据该候选边界框所对应的候选位置信息和中心边界框所对应的候选位置信息计算。示例性地，任一候选边界框与中心边界框之间的距离可以用该候选边界框的某特定位置与中心边界框的对应位置之间的距离表示。例如，任一候选边界框与中心边界框之间的距离可以用该候选边界框的中心点与中心边界框的中心点之间的距离表示。又例如，任一候选边界框与中心边界框之间的距离可以用该候选边界框的左上角的顶点与中心边界框的左上角的顶点之间的距离表示。

可以分别计算10个候选边界框与中心边界框的距离，并且可以根据每个候选边界框与中心边界框之间的距离计算每个候选边界框所对应的候选属性向量的权重。示例性地，任一候选边界框所对应的候选属性向量的权重可以与该候选边界框与中心边界框之间的距离成反比。例如，假设在上述10个候选边界框中，经过NMS之后最终剩余的边界框(即经过滤边界框和中心边界框)为候选边界框B2。在计算权重时，候选边界框B2与中心边界框之间的距离为0，B2所对应的候选属性向量的权重可以设为1。其余9个候选边界框所对应的候选属性向量的权重均设定得小于1，且与中心边界框之间的距离越大，权重越小。

最后，对这10个候选边界框所对应的10个候选属性向量进行加权平均，获得的平均值作为预测对象Y的聚合属性向量。

图3示出根据本发明一个实施例的对象检测流程的示意图。下面以视频流的处理为例进行说明。

首先，如图3所示，视频流的每帧图像经过预处理之后送入神经网络。随后，神经网络处理该帧图像，在输出bbox信息的基础上，还输出若干通道的属性信息。随后，将神经网络输出的属性信息送入聚合模块，聚合模块主要实现聚合算法(例如对属于同一预测对象的多个候选属性向量求平均)，并将聚合后的聚合属性信息输出，例如输出至外部服务器。

可选地，对象检测方法200还可以包括神经网络的训练步骤。示例性地，对象检测方法200还可以包括：获取样本图像和对应的标注数据，标注数据可以包括样本图像中的样本对象的样本位置信息以及与样本图像中的样本对象的至少一个对象属性一一对应的样本属性信息；利用样本图像和标注数据对神经网络进行训练。例如，可以将样本图像输入神经网络，以获得神经网络输出的、样本对象的训练位置信息以及与样本对象的至少一个个对象属性一一对应的训练属性信息；以及根据样本位置信息和样本属性信息以及训练位置信息和训练属性信息，以及预先构建的神经网络的损失函数，对神经网络进行训练。

样本图像可以是任何位置信息和属性信息已知的图像。样本图像的数目可以根据需要任意设定。本领域技术人员可以理解，样本位置信息是训练位置信息的目标值，样本属性信息是训练属性信息的目标值，损失函数可以用于衡量样本位置信息与训练位置信息之间以及样本属性信息与训练属性信息之间的不一致程度。可以通过优化神经网络的参数来最小化损失函数直至其收敛，最终可以获得训练好的神经网络。随后，可以将训练好的神经网络应用于实际的对象检测场景中。

根据本发明另一方面，提供一种对象检测装置。图4示出了根据本发明一个实施例的对象检测装置400的示意性框图。

如图4所示，根据本发明实施例的对象检测装置400包括获取模块410和输入模块420。所述各个模块可分别执行上文中结合图2-3描述的对象检测方法的各个步骤/功能。以下仅对该对象检测装置400的各部件的主要功能进行描述，而省略以上已经描述过的细节内容。

获取模块410用于获取待处理图像。获取模块410可以由图1所示的电子设备中的处理器102运行存储装置104中存储的程序指令来实现。

输入模块420用于将所述待处理图像输入神经网络，以获得所述神经网络输出的特征图，其中，所述特征图包括位置通道和属性通道，所述位置通道包括与所述待处理图像中的至少一个预测对象的至少一个候选位置分别对应的至少一组候选位置信息，所述属性通道包括与所述至少一个候选位置分别对应的至少一组候选属性信息。输入模块420可以由图1所示的电子设备中的处理器102运行存储装置104中存储的程序指令来实现。

示例性地，对象检测装置400还包括：属性聚合模块(未示出)，用于对至少一个候选属性向量中属于同一预测对象的所有候选属性向量进行聚合，以获得属于至少一个预测对象中的每个预测对象的聚合属性向量。

示例性地，属性聚合模块包括以下项之一：平均子模块，用于对属于至少一个预测对象中的任一预测对象的所有候选属性向量求平均值，以获得属于该预测对象的聚合属性向量；选取子模块，用于从属于至少一个预测对象中的任一预测对象的所有候选属性向量中选取模最大的候选属性向量作为属于该预测对象的聚合属性向量。

示例性地，对象检测装置400还包括：输出模块(未示出)，用于输出至少一个预测对象中的每个预测对象的聚合属性向量。

示例性地，至少一个候选位置一一对应地是至少一个候选边界框，对象检测装置400还包括：边界框过滤模块(未示出)，用于对属于至少一个预测对象中的同一预测对象的所有候选边界框进行过滤，以获得属于至少一个预测对象中的每个预测对象的经过滤边界框。

示例性地，边界框过滤模块包括：抑制子模块，用于对至少一个候选边界框进行非极大值抑制，以确定至少一个候选边界框中属于同一预测对象的候选边界框，并获得属于至少一个预测对象中的每个预测对象的经过滤边界框。

示例性地，属性聚合模块包括：权重计算子模块，用于对于属于至少一个预测对象中的任一预测对象的每个候选属性向量，计算该候选属性向量所对应的候选边界框与该预测对象的经过滤边界框之间的距离并根据距离计算该候选属性向量的权重；加权平均子模块，用于基于计算的权重对属于至少一个预测对象中的任一预测对象的所有候选属性向量进行加权平均，以获得属于该预测对象的聚合属性向量。

本领域普通技术人员可以意识到，结合本文中所公开的实施例描述的各示例的单元及算法步骤，能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本发明的范围。

图5示出了根据本发明一个实施例的对象检测系统500的示意性框图。对象检测系统500包括图像采集装置510、存储装置520、以及处理器530。

所述图像采集装置510用于采集待处理图像。图像采集装置510是可选的，对象检测系统500可以不包括图像采集装置510。在这种情况下，可以利用其他图像采集装置采集待处理图像，并将采集的图像发送给对象检测系统500。

所述存储装置520存储用于实现根据本发明实施例的对象检测方法中的相应步骤的计算机程序指令。

所述处理器530用于运行所述存储装置520中存储的计算机程序指令，以执行根据本发明实施例的对象检测方法的相应步骤。

在一个实施例中，所述计算机程序指令被所述处理器530运行时用于执行以下步骤：获取待处理图像；以及将待处理图像输入神经网络，以获得神经网络输出的特征图，其中，特征图包括位置通道和属性通道，位置通道包括与待处理图像中的至少一个预测对象的至少一个候选位置分别对应的至少一组候选位置信息，属性通道包括与至少一个候选位置分别对应的至少一组候选属性信息。

示例性地，所述计算机程序指令被所述处理器530运行时还用于执行以下步骤：对至少一个候选属性向量中属于同一预测对象的所有候选属性向量进行聚合，以获得属于至少一个预测对象中的每个预测对象的聚合属性向量。

示例性地，所述计算机程序指令被所述处理器530运行时所用于执行的对至少一个属性位置向量中属于同一预测对象的所有候选属性向量进行聚合，以获得属于至少一个预测对象中的每个预测对象的聚合属性向量的步骤包括以下项之一：对属于至少一个预测对象中的任一预测对象的所有候选属性向量求平均值，以获得属于该预测对象的聚合属性向量；从属于至少一个预测对象中的任一预测对象的所有候选属性向量中选取模最大的候选属性向量作为属于该预测对象的聚合属性向量。

示例性地，所述计算机程序指令被所述处理器530运行时还用于执行以下步骤：输出至少一个预测对象中的每个预测对象的聚合属性向量。

示例性地，至少一个候选位置一一对应地是至少一个候选边界框，所述计算机程序指令被所述处理器530运行时还用于执行以下步骤：对属于至少一个预测对象中的同一预测对象的所有候选边界框进行过滤，以获得属于至少一个预测对象中的每个预测对象的经过滤边界框。

示例性地，所述计算机程序指令被所述处理器530运行时所用于执行的对属于至少一个预测对象中的同一预测对象的所有候选边界框进行过滤，以获得属于至少一个预测对象中的每个预测对象的经过滤边界框的步骤包括：对至少一个候选边界框进行非极大值抑制，以确定至少一个候选边界框中属于同一预测对象的候选边界框，并获得属于至少一个预测对象中的每个预测对象的经过滤边界框。

示例性地，所述计算机程序指令被所述处理器530运行时所用于执行的对至少一个属性位置向量中属于同一预测对象的所有候选属性向量进行聚合，以获得属于至少一个预测对象中的每个预测对象的聚合属性向量的步骤包括：对于属于至少一个预测对象中的任一预测对象的每个候选属性向量，计算该候选属性向量所对应的候选边界框与该预测对象的经过滤边界框之间的距离并根据距离计算该候选属性向量的权重；基于计算的权重对属于至少一个预测对象中的任一预测对象的所有候选属性向量进行加权平均，以获得属于该预测对象的聚合属性向量。

此外，根据本发明实施例，还提供了一种存储介质，在所述存储介质上存储了程序指令，在所述程序指令被计算机或处理器运行时用于执行本发明实施例的对象检测方法的相应步骤，并且用于实现根据本发明实施例的对象检测装置中的相应模块。所述存储介质例如可以包括智能电话的存储卡、平板电脑的存储部件、个人计算机的硬盘、只读存储器(ROM)、可擦除可编程只读存储器(EPROM)、便携式紧致盘只读存储器(CD-ROM)、USB存储器、或者上述存储介质的任意组合。

在一个实施例中，所述程序指令在被计算机或处理器运行时可以使得计算机或处理器实现根据本发明实施例的对象检测装置的各个功能模块，并和/或者可以执行根据本发明实施例的对象检测方法。

在一个实施例中，所述程序指令在运行时用于执行以下步骤：获取待处理图像；以及将待处理图像输入神经网络，以获得神经网络输出的特征图，其中，特征图包括位置通道和属性通道，位置通道包括与待处理图像中的至少一个预测对象的至少一个候选位置分别对应的至少一组候选位置信息，属性通道包括与至少一个候选位置分别对应的至少一组候选属性信息。

示例性地，所述程序指令在运行时还用于执行以下步骤：对至少一个候选属性向量中属于同一预测对象的所有候选属性向量进行聚合，以获得属于至少一个预测对象中的每个预测对象的聚合属性向量。

示例性地，所述程序指令在运行时所用于执行的对至少一个属性位置向量中属于同一预测对象的所有候选属性向量进行聚合，以获得属于至少一个预测对象中的每个预测对象的聚合属性向量的步骤包括以下项之一：对属于至少一个预测对象中的任一预测对象的所有候选属性向量求平均值，以获得属于该预测对象的聚合属性向量；从属于至少一个预测对象中的任一预测对象的所有候选属性向量中选取模最大的候选属性向量作为属于该预测对象的聚合属性向量。

示例性地，所述程序指令在运行时还用于执行以下步骤：输出至少一个预测对象中的每个预测对象的聚合属性向量。

示例性地，至少一个候选位置一一对应地是至少一个候选边界框，所述程序指令在运行时还用于执行以下步骤：对属于至少一个预测对象中的同一预测对象的所有候选边界框进行过滤，以获得属于至少一个预测对象中的每个预测对象的经过滤边界框。

示例性地，所述程序指令在运行时所用于执行的对属于至少一个预测对象中的同一预测对象的所有候选边界框进行过滤，以获得属于至少一个预测对象中的每个预测对象的经过滤边界框的步骤包括：对至少一个候选边界框进行非极大值抑制，以确定至少一个候选边界框中属于同一预测对象的候选边界框，并获得属于至少一个预测对象中的每个预测对象的经过滤边界框。

示例性地，所述程序指令在运行时所用于执行的对至少一个属性位置向量中属于同一预测对象的所有候选属性向量进行聚合，以获得属于至少一个预测对象中的每个预测对象的聚合属性向量的步骤包括：对于属于至少一个预测对象中的任一预测对象的每个候选属性向量，计算该候选属性向量所对应的候选边界框与该预测对象的经过滤边界框之间的距离并根据距离计算该候选属性向量的权重；基于计算的权重对属于至少一个预测对象中的任一预测对象的所有候选属性向量进行加权平均，以获得属于该预测对象的聚合属性向量。

根据本发明实施例的对象检测系统中的各模块可以通过根据本发明实施例的实施对象检测的电子设备的处理器运行在存储器中存储的计算机程序指令来实现，或者可以在根据本发明实施例的计算机程序产品的计算机可读存储介质中存储的计算机指令被计算机运行时实现。

尽管这里已经参考附图描述了示例实施例，应理解上述示例实施例仅仅是示例性的，并且不意图将本发明的范围限制于此。本领域普通技术人员可以在其中进行各种改变和修改，而不偏离本发明的范围和精神。所有这些改变和修改意在被包括在所附权利要求所要求的本发明的范围之内。

在本申请所提供的几个实施例中，应该理解到，所揭露的设备和方法，可以通过其它的方式实现。例如，以上所描述的设备实施例仅仅是示意性的，例如，所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个设备，或一些特征可以忽略，或不执行。

在此处所提供的说明书中，说明了大量具体细节。然而，能够理解，本发明的实施例可以在没有这些具体细节的情况下实践。在一些实例中，并未详细示出公知的方法、结构和技术，以便不模糊对本说明书的理解。

类似地，应当理解，为了精简本发明并帮助理解各个发明方面中的一个或多个，在对本发明的示例性实施例的描述中，本发明的各个特征有时被一起分组到单个实施例、图、或者对其的描述中。然而，并不应将该本发明的方法解释成反映如下意图：即所要求保护的本发明要求比在每个权利要求中所明确记载的特征更多的特征。更确切地说，如相应的权利要求书所反映的那样，其发明点在于可以用少于某个公开的单个实施例的所有特征的特征来解决相应的技术问题。因此，遵循具体实施方式的权利要求书由此明确地并入该具体实施方式，其中每个权利要求本身都作为本发明的单独实施例。

本领域的技术人员可以理解，除了特征之间相互排斥之外，可以采用任何组合对本说明书(包括伴随的权利要求、摘要和附图)中公开的所有特征以及如此公开的任何方法或者设备的所有过程或单元进行组合。除非另外明确陈述，本说明书(包括伴随的权利要求、摘要和附图)中公开的每个特征可以由提供相同、等同或相似目的的替代特征来代替。

此外，本领域的技术人员能够理解，尽管在此所述的一些实施例包括其它实施例中所包括的某些特征而不是其它特征，但是不同实施例的特征的组合意味着处于本发明的范围之内并且形成不同的实施例。例如，在权利要求书中，所要求保护的实施例的任意之一都可以以任意的组合方式来使用。

本发明的各个部件实施例可以以硬件实现，或者以在一个或者多个处理器上运行的软件模块实现，或者以它们的组合实现。本领域的技术人员应当理解，可以在实践中使用微处理器或者数字信号处理器(DSP)来实现根据本发明实施例的对象检测装置中的一些模块的一些或者全部功能。本发明还可以实现为用于执行这里所描述的方法的一部分或者全部的装置程序(例如，计算机程序和计算机程序产品)。这样的实现本发明的程序可以存储在计算机可读介质上，或者可以具有一个或者多个信号的形式。这样的信号可以从因特网网站上下载得到，或者在载体信号上提供，或者以任何其他形式提供。

应该注意的是上述实施例对本发明进行说明而不是对本发明进行限制，并且本领域技术人员在不脱离所附权利要求的范围的情况下可设计出替换实施例。在权利要求中，不应将位于括号之间的任何参考符号构造成对权利要求的限制。单词“包含”不排除存在未列在权利要求中的元件或步骤。位于元件之前的单词“一”或“一个”不排除存在多个这样的元件。本发明可以借助于包括有若干不同元件的硬件以及借助于适当编程的计算机来实现。在列举了若干装置的单元权利要求中，这些装置中的若干个可以是通过同一个硬件项来具体体现。单词第一、第二、以及第三等的使用不表示任何顺序。可将这些单词解释为名称。

以上所述，仅为本发明的具体实施方式或对具体实施方式的说明，本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到变化或替换，都应涵盖在本发明的保护范围之内。本发明的保护范围应以权利要求的保护范围为准。

Claims

1.一种对象检测方法，包括：

获取待处理图像；以及

将所述待处理图像输入神经网络，以获得所述神经网络输出的特征图，其中，所述特征图包括位置通道和属性通道，所述位置通道包括与所述待处理图像中的至少一个预测对象的至少一个候选位置分别对应的至少一组候选位置信息，所述属性通道包括与所述至少一个候选位置分别对应的至少一组候选属性信息。

2.如权利要求1所述的方法，其中，所述至少一组候选位置信息一一对应地是至少一个候选位置向量，所述至少一组候选属性信息一一对应地是至少一个候选属性向量。

3.如权利要求2所述的方法，其中，所述方法还包括：

对所述至少一个候选属性向量中属于同一预测对象的所有候选属性向量进行聚合，以获得属于所述至少一个预测对象中的每个预测对象的聚合属性向量。

4.如权利要求3所述的方法，其中，所述对所述至少一个属性位置向量中属于同一预测对象的所有候选属性向量进行聚合，以获得属于所述至少一个预测对象中的每个预测对象的聚合属性向量包括以下项之一：

对属于所述至少一个预测对象中的任一预测对象的所有候选属性向量求平均值，以获得属于该预测对象的聚合属性向量；

从属于所述至少一个预测对象中的任一预测对象的所有候选属性向量中选取模最大的候选属性向量作为属于该预测对象的聚合属性向量。

5.如权利要求3所述的方法，其中，所述方法还包括：

输出所述至少一个预测对象中的每个预测对象的聚合属性向量。

6.如权利要求1至5任一项所述的方法，其中，所述至少一个候选位置一一对应地是至少一个候选边界框，

所述方法还包括：

对属于所述至少一个预测对象中的同一预测对象的所有候选边界框进行过滤，以获得属于所述至少一个预测对象中的每个预测对象的经过滤边界框。

7.如权利要求6所述的方法，其中，所述对属于所述至少一个预测对象中的同一预测对象的所有候选边界框进行过滤，以获得属于所述至少一个预测对象中的每个预测对象的经过滤边界框包括：

对所述至少一个候选边界框进行非极大值抑制，以确定所述至少一个候选边界框中属于同一预测对象的候选边界框，并获得属于所述至少一个预测对象中的每个预测对象的经过滤边界框。

8.如引用权利要求3的权利要求6所述的方法，其中，所述对所述至少一个属性位置向量中属于同一预测对象的所有候选属性向量进行聚合，以获得属于所述至少一个预测对象中的每个预测对象的聚合属性向量包括：

对于属于所述至少一个预测对象中的任一预测对象的每个候选属性向量，计算该候选属性向量所对应的候选边界框与该预测对象的经过滤边界框之间的距离并根据所述距离计算该候选属性向量的权重；

基于计算的权重对属于所述至少一个预测对象中的任一预测对象的所有候选属性向量进行加权平均，以获得属于该预测对象的聚合属性向量。

9.一种对象检测装置，包括：

获取模块，用于获取待处理图像；以及

输入模块，用于将所述待处理图像输入神经网络，以获得所述神经网络输出的特征图，其中，所述特征图包括位置通道和属性通道，所述位置通道包括与所述待处理图像中的至少一个预测对象的至少一个候选位置分别对应的至少一组候选位置信息，所述属性通道包括与所述至少一个候选位置分别对应的至少一组候选属性信息。

10.一种对象检测系统，包括处理器和存储器，其中，所述存储器中存储有计算机程序指令，所述计算机程序指令被所述处理器运行时用于执行如权利要求1至8任一项所述的对象检测方法。

11.一种存储介质，在所述存储介质上存储了程序指令，所述程序指令在运行时用于执行如权利要求1至8任一项所述的对象检测方法。