CN113544701A

CN113544701A - 关联对象的检测方法及装置

Info

Publication number: CN113544701A
Application number: CN202180001429.0A
Authority: CN
Inventors: 张学森; 王柏润; 刘春亚; 陈景焕
Original assignee: Sensetime International Pte Ltd
Current assignee: Sensetime International Pte Ltd
Priority date: 2020-12-29
Filing date: 2021-04-28
Publication date: 2021-10-22
Anticipated expiration: 2041-04-28
Also published as: CN113544701B; AU2021203870A1; JP2023512359A; US20220207261A1; KR20220098310A; KR102580281B1

Abstract

本公开提供了一种关联对象的检测方法及装置。检测方法包括：由待检测图像中检测得到至少一个匹配对象组，每个所述匹配对象组包括至少两个目标对象；获取各个所述匹配对象组中的每个所述目标对象的视觉信息，和每个所述匹配对象组中所述至少两个目标对象的空间信息；根据每个所述匹配对象组中所述至少两个目标对象的所述视觉信息和所述空间信息，确定各所述匹配对象组中所述至少两个目标对象是否关联。本公开检测方法提高关联对象的检测精度。

Description

关联对象的检测方法及装置

相关申请的交叉引用

本公开要求于2020年12月29日提交的、申请号为10202013169Q、发明名称为“关联对象的检测方法及装置”的新加坡专利申请的优先权，该新加坡专利申请公开的全部内容以引用的方式并入本文中。

技术领域

本公开涉及计算机视觉技术领域，具体涉及一种关联对象的检测方法及装置。

背景技术

目标检测是智能视频分析中的重要一环，例如对视频帧或场景图像中的人体、人脸等进行检测。相关技术中，可以使用Faster RCNN(Region-CNN，区域卷积神经网络)等目标检测器获取视频帧或者场景图像中的目标检测框，进而实现目标检测。

但是，在密集场景中，可能出现不同目标之间相互遮挡的情况。以人员相对密集的场景为例，不同人员之间可能会出现肢体部位的遮挡，这种情况下，目标检测器难以满足高精度场景的检测要求。

发明内容

本公开实施方式提供了一种关联对象的检测方法及装置、电子设备、存储介质。

第一方面，本公开实施方式提供了一种关联对象的检测方法，包括：由待检测图像中检测得到至少一个匹配对象组，每个所述匹配对象组包括至少两个目标对象；获取各个所述匹配对象组中的每个所述目标对象的视觉信息，和每个所述匹配对象组中所述至少两个目标对象的空间信息；根据每个所述匹配对象组中所述至少两个目标对象的所述视觉信息和所述空间信息，确定各所述匹配对象组中所述至少两个目标对象是否关联。

在一些实施方式中，由待检测图像中检测得到至少一个匹配对象组，包括：由所述待检测图像中检测得到各个所述目标对象以及各个所述目标对象的对象类别；针对每一所述对象类别，将所述对象类别中的每个目标对象分别与其他所述对象类别中的各所述目标对象组合，得到所述至少一个匹配对象组。

在一些实施方式中，获取各个所述匹配对象组中的每个所述目标对象的视觉信息，包括：对所述匹配对象组中的每个目标对象进行视觉特征提取，得到所述目标对象的视觉信息。

在一些实施方式中，获取每个所述匹配对象组中所述至少两个目标对象的空间信息，包括：由所述待检测图像中检测得到各个所述目标对象的检测框；对于每个所述匹配对象组，根据所述匹配对象组中的所述至少两个目标对象的所述检测框的位置信息，生成所述匹配对象组中所述至少两个目标对象的所述空间信息。

在一些实施方式中，对于每个所述匹配对象组，根据所述匹配对象组中的所述至少两个目标对象的所述检测框的位置信息，生成所述匹配对象组中所述至少两个目标对象的所述空间信息，包括：生成所述匹配对象组的辅助边界框，所述辅助边界框覆盖所述匹配对象组中的各目标对象的检测框；根据所述辅助边界框和各目标对象的检测框，分别确定所述匹配对象组中的各个目标对象的位置特征信息；对同一匹配对象组中的各目标对象的所述位置特征信息进行融合，得到所述匹配对象组中所述至少两个目标对象的所述空间信息。

在一些实施方式中，所述辅助边界框为覆盖所述匹配对象组中各目标对象的边界框中面积最小的边界框。

在一些实施方式中，根据每个所述匹配对象组中所述至少两个目标对象的所述视觉信息和所述空间信息，确定各所述匹配对象组中所述至少两个目标对象是否关联，包括：对每个匹配对象组中所述至少两个目标对象的所述视觉信息和所述空间信息进行融合处理，得到各个匹配对象组的融合特征；对各个匹配对象组的融合特征进行关联性分类处理，确定所述匹配对象组中所述至少两个目标对象是否关联。

在一些实施方式中，对各个匹配对象组的融合特征进行关联性分类处理，确定所述匹配对象组中所述至少两个目标对象是否关联，包括：对各个匹配对象组的融合特征进行关联性分类处理，得到各个所述匹配对象组中所述至少两个目标对象之间的关联度分值；对于同一目标对象所属的多个匹配对象组，确定所述关联度分值最高的匹配对象组作为目标匹配对象组；确定所述目标匹配对象组中的所述至少两个目标对象为关联目标对象。

在一些实施方式中，在所述目标对象为人体部位的情况下，所述确定各所述匹配对象组中所述至少两个目标对象是否关联，包括：确定同一个匹配对象组中的各个人体部位是否属于同一人体。

在一些实施方式中，所述的方法，还包括：获取样本图像集；所述样本图像集包括至少一个样本图像，每个所述样本图像包括至少一个样本匹配对象组和所述样本匹配对象组对应的标签信息，每个所述样本匹配对象组包括至少两个样本目标对象，所述标签信息表示所述样本匹配对象组中的各样本目标对象的关联结果；通过待训练的关联检测网络对所述样本图像进行处理，由所述样本图像中检测得到所述样本匹配对象组；通过待训练的对象检测网络对所述样本图像进行处理，得到各所述样本匹配对象组中的每个所述样本目标对象的视觉信息；通过待训练的所述关联检测网络对所述样本图像进行处理，得到每个所述样本匹配对象组中所述至少两个样本目标对象的空间信息；通过待训练的所述关联检测网络根据每个所述样本匹配对象组中所述至少两个样本目标对象的所述视觉信息和所述空间信息，得到各所述样本匹配对象组的关联性检测结果；确定各个所述样本匹配对象组的所述关联性检测结果与对应的标签信息之间的误差，并根据所述误差调整所述关联检测网络和所述对象检测网络中至少之一的网络参数，直至所述误差收敛。

第二方面，本公开实施方式提供了一种关联对象的检测装置，包括：检测模块，用于由待检测图像中检测得到至少一个匹配对象组，每个所述匹配对象组包括至少两个目标对象；获取模块，用于获取各个所述匹配对象组中的每个所述目标对象的视觉信息，和每个所述匹配对象组中所述至少两个目标对象的空间信息；确定模块，用于根据每个所述匹配对象组中所述至少两个目标对象的所述视觉信息和所述空间信息，确定各所述匹配对象组中所述至少两个目标对象是否关联。

在一些实施方式中，所述检测模块包括：检测子模块，用于由所述待检测图像中检测得到各个所述目标对象以及各个所述目标对象的对象类别；组合子模块，用于针对每一所述对象类别，将所述对象类别中的每个目标对象分别与其他所述对象类别中的各所述目标对象组合，得到所述至少一个匹配对象组。

在一些实施方式中，所述获取模块进一步用于：对所述匹配对象组中的每个目标对象进行视觉特征提取，得到所述目标对象的视觉信息。

在一些实施方式中，所述获取模块进一步用于：由所述待检测图像中检测得到各个所述目标对象的检测框；对于每个所述匹配对象组，根据所述匹配对象组中的所述至少两个目标对象的所述检测框的位置信息，生成所述匹配对象组中所述至少两个目标对象的所述空间信息。

在一些实施方式中，所述获取模块进一步用于：生成所述匹配对象组的辅助边界框，所述辅助边界框覆盖所述匹配对象组中的各目标对象的检测框；根据所述辅助边界框和各目标对象的检测框，分别确定所述匹配对象组中的各个目标对象的位置特征信息；对同一匹配对象组中的各目标对象的所述位置特征信息进行融合，得到所述匹配对象组中所述至少两个目标对象的所述空间信息。

在一些实施方式中，所述确定模块包括：融合子模块，用于对每个匹配对象组中所述至少两个目标对象的所述视觉信息和所述空间信息进行融合处理，得到各个匹配对象组的融合特征；确定子模块，用于对各个匹配对象组的融合特征进行关联性分类处理，确定所述匹配对象组中所述至少两个目标对象是否关联。

在一些实施方式中，所述确定子模块进一步用于：对各个匹配对象组的融合特征进行关联性分类处理，得到各个所述匹配对象组中所述至少两个目标对象之间的关联度分值；对于同一目标对象所属的多个匹配对象组，确定所述关联度分值最高的匹配对象组作为目标匹配对象组；确定所述目标匹配对象组中的所述至少两个目标对象为关联目标对象。

在一些实施方式中，在所述目标对象为人体部位的情况下，所述确定模块进一步用于：确定同一个所述匹配对象组中的各个人体部位是否属于同一人体。

第三方面，本公开实施方式提供了一种电子设备，包括：处理器；和存储器，与所述处理器可通信连接，其存储有能够被所述处理器读取的计算机指令，所述计算机指令被所述处理器读取时，使所述处理器执行根据第一方面中任一实施方式所述的方法。

第四方面，本公开实施方式提供了一种存储介质，存储有计算机可读指令，所述计算机可读指令用于使计算机执行根据第一方面中任一实施方式所述的方法。

第五方面，本公开实施方式提供了一种计算机程序，包括计算机可读代码，其中，所述计算机可读代码在电子设备中运行时使所述电子设备中的处理器执行根据第一方面中任一实施方式所述的方法。

本公开实施方式的关联对象的检测方法，包括由待检测图像中检测得到至少一个匹配对象组，每个匹配对象组包括至少两个目标对象，获取各匹配对象组的每个目标对象的视觉信息，以及每个匹配对象组中所述至少两个目标对象的空间信息，从而根据视觉信息和空间信息确定各匹配对象组中的各目标对象之间是否为关联目标对象。通过同一匹配对象组中的目标对象之间的关联特征辅助目标检测，可以提高复杂场景下的目标检测精度，例如通过人脸与人体的关联检测实现多人场景下的人体检测，提高检测准确性。并且，在关联检测中，通过结合目标对象的视觉信息和空间信息，提高目标对象的关联检测精度，例如在人脸人体关联检测中，不仅采用人脸和人体的视觉特征信息，同时还进一步考虑人脸与人体的空间位置特征信息，利用空间位置特征辅助人脸人体的关联，提高人脸与人体的关联准确性，进而提高目标检测的精度。

附图说明

为了更清楚地说明本公开具体实施方式中的技术方案，下面将对具体实施方式描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图是本公开的一些实施方式，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是根据本公开一些实施方式中的关联对象的检测方法的流程图。

图2是根据本公开一些实施方式中的检测匹配对象组的方法的流程图。

图3是根据本公开一些实施方式中视觉信息提取方法的流程图。

图4是根据本公开一些实施方式中的检测网络的结构示意图。

图5是根据本公开一些实施方式中的关联对象的检测方法的原理示意图。

图6是根据本公开一些实施方式中的关联检测网络的示意图。

图7是根据本公开一些实施方式中确定匹配对象组中的目标对象是否关联的方法的流程图。

图8是根据本公开一些实施方式中关联对象的检测结果的可视化输出的示意图。

图9是根据本公开一些实施方式中用于检测关联对象的神经网络的训练流程的示意图。

图10是根据本公开一些实施方式中的关联对象的检测装置的结构框图。

图11是根据本公开一些实施方式中的关联对象的检测装置中的检测模块的结构框图。

图12是根据本公开一些实施方式中的关联对象的检测装置中的确定模块的结构框图。

图13是适于用来实现本公开的关联对象的检测方法的计算机系统的结构图。

具体实施方式

下面将结合附图对本公开的技术方案进行清楚、完整地描述，显然，所描述的实施方式是本公开一部分实施方式，而不是全部的实施方式。基于本公开中的实施方式，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施方式，都属于本公开保护的范围。此外，下面所描述的本公开不同实施方式中所涉及的技术特征只要彼此之间未构成冲突就可以相互结合。

关联对象检测对于智能视频分析具有重要的研究意义。以人体检测为例，在人员较多的复杂场景下，人员之间会出现互相遮挡，如果采用针对单一人体的检测方法，其误检率较高，难以满足要求。关联对象检测则可利用“人脸—人体关联”来确定匹配对象组，通过确定同一匹配对象组中包括的人脸和人体是否属于同一人员，实现目标对象(即，人脸和人体)的检测，其可以提高复杂场景下的目标检测精度。

目标对象检测可采用Faster RCNN(Region-CNN，区域卷积神经网络)等目标检测器获取视频帧或者场景图像中的人脸和人体检测框，进而根据人脸和人体的视觉特征训练分类器，使用分类器得到预测的关联结果。类似的方法中关联检测精度较为受限，对于例如多人游戏场景等高精度的检测场景来说，不仅场景中人员往往会存在部分遮挡，还需要确定用户人脸、人体、人手甚至游戏道具是否关联，从而知道是哪个用户做出的相关动作，一旦关联失败甚至会造成重大损失。因此，相关技术中的关联检测精度难以满足高精度场景的使用需求。

本公开实施方式提供了一种关联对象的检测方法和装置、电子设备及存储介质，从而提高关联对象的检测精度。

第一方面，本公开实施方式提供了一种关联对象的检测方法。本公开实施方式的检测方法的执行主体可以是终端设备、服务器、或者其他处理设备，例如终端设备可以为用户设备、移动设备、用户终端、蜂窝电话、车载设备、个人数字助理、手持设备、计算设备、穿戴设备等。在一些实施方式中，该检测方法也可以通过处理器调用存储器中存储的计算机可读指令的方式来实现，本公开对此不作限制。

图1中示出了根据本公开一些实施方式的关联对象的检测方法，下面结合图1对本公开方法进行说明。

如图1所示，在一些实施方式中，本公开的关联对象的检测方法包括：

S110、由待检测图像中检测得到至少一个匹配对象组，每个匹配对象组包括至少两个目标对象。

具体来说，待检测图像可以是一个自然场景图像，并且期望由该图像中检测出预设的关联目标对象。可以理解，本公开所述的“关联目标对象”是指，在我们关心的场景下，具有关联性的两个或更多个目标对象。例如，以人体检测中的人脸人体关联为例，待检测图像中包括多个人脸和多个人体，属于同一人员的“人脸”和“人体”即可称为关联目标对象。又例如，在多人骑马娱乐的场景下，待检测图像中包括多个人体和多个马匹，具有乘骑关系的“人体”和“马匹”即可称为关联目标对象。本领域技术人员对此可以理解，本公开不再赘述。

待检测图像可以通过例如摄像头等图像采集设备采集得到，具体来说，其可以是图像采集设备拍摄的单帧图像，也可以包括图像采集设备拍摄的视频流中的帧图像，本公开对此不作限制。

在本公开实施方式中，可由待检测图像中检测得到至少一个匹配对象组，每个匹配对象组包括至少两个目标对象。所述匹配对象组是指需要确认是否关联的至少两个目标对象组成的集合。

如图2所示，在一些实施方式中，由待检测图像中检测得到至少一个匹配对象组，可包括：

S111、由待检测图像中检测得到各个目标对象以及各个目标对象的对象类别；

S112、针对每一所述对象类别，将所述对象类别中的每个目标对象分别与其他对象类别中的各目标对象组合，得到至少一个匹配对象组。

在一个示例中，以“人脸—人体”关联检测为例，由待检测图像中检测得到多个目标对象以及每个目标对象的对象类别，对象类别也即“人脸类别”和“人体类别”，“人脸类别”的目标对象包括m个人脸，“人体类别”的目标对象包括n个人体。对于m个人脸中的每一个人脸，分别与n个人体两两组合，共得到m*n个人脸人体对。其中，“人脸”和“人体”即为检测得到的目标对象，人脸和人体两两组合后得到的m*n个“人脸人体对”即为所述匹配对象组，其中，m和n为正整数。

在另一个示例中，在多人游戏场景中，每个人员还会配备关联物体，例如骑马娱乐场景中的马匹、桌面游戏场景中的游戏道具等，本公开方法同样可适用于“人体—物体”关联检测。以骑马娱乐场景为例，由待检测图像中检测得到多个目标对象以及每个目标对象的对象类别，对象类别也即“人体类别”和“物体类别”，“人体类别”的目标对象包括p个人体，“物体类别”的目标对象包括q个马匹。对于p个人体中的每一个人体，分别与q个马匹两两组合，共得到p*q个人体物体对，其中，“人体”和“物体”即为检测得到的所述目标对象，人体和马匹两两组合后得到的p*q个“人体物体对”即为所述匹配对象组，其中，p和q为正整数。

在又一个示例中，以“人手—人脸—人体”三者关联检测为例。由待检测图像中检测得到多个目标对象以及每个目标对象的对象类别，对象类别也即“人手类别”、“人脸类别”以及“人体类别”，其中每个对象类别均包括至少一个属于该类别的目标对象。每个对象类别中的每个目标对象分别与另外两个对象类别中的目标对象三者组合，也即以1个人手、1个人脸和1个人体三者组合得到的多个“人手人脸人体组”即为所述匹配对象组。举例来说，人手类别的目标对象包括k个人手，人脸类别的目标对象包括m个人脸，人体类别的目标对象包括n个人体。对于k个人手中的每一个人手，分别与m个人脸和n个人体三者组合，共得到k*m*n个人手人脸人体组，其中，k、m和n为正整数。

通过上述示例可以理解，本公开实施方式中，既无需限制匹配对象组中目标对象的数量，也无需限制目标对象的类别。匹配对象组中可以包括至少两个目标对象，例如2个、3个、4个或更多，目标对象可以是人体或各个人体部位，也可以是与人体关联的物体、还可以是场景中与人体无关的实体，本公开对此不作限制。

在一个示例中，通过关联检测网络对待检测图像进行处理，由待检测图像中得到至少一个匹配对象组。下文中进行详细说明，在此暂且不表。

S120、获取各个匹配对象组中的每个目标对象的视觉信息，和每个匹配对象组中至少两个目标对象的空间信息。

具体来说，视觉信息是指图像中各个目标对象在视觉上的特征信息，其一般是根据图像的像素值得到的图像特征。例如通过对待检测图像进行视觉特征提取，得到图像中的人脸、人手、人体或物体的图像特征信息。而空间信息可以包括匹配对象组中的目标对象在空间位置上的特征信息和/或匹配对象组中的目标对象的姿态信息。或者空间信息可以包括匹配对象组中的各目标对象之间的空间位置关系信息或相对姿态信息，例如图像中人脸与人体、人脸与人手、人体与物体等的空间相对位置特征信息和/或相对朝向信息等。

在一个示例中，可以对待检测图像中各目标对象所在区域进行视觉特征提取，例如提取特征点，将特征点的像素值转换为目标对象的视觉特征。可以根据各目标对象的边界在图像中的位置生成目标对象的位置特征信息，根据目标对象的标准姿态模型分析各目标对象的姿态，以获得目标对象的姿态信息，从而得到目标对象的空间信息。可选地，还可以对匹配对象组中的各目标对象之间的相对位置和/或相对姿态进行分析，由此得到的空间信息还可以包含每个目标对象与其他目标对象之间的相对位置信息和/或相对姿态信息。

在一个示例中，在对待检测图像处理过程中，可通过对象检测网络首先对待检测图像进行视觉特征提取得到特征图，进而根据特征图提取得到各个目标对象的视觉信息。

在一个示例中，在对待检测图像处理过程中，可通过关联检测网络对待检测图像进行处理，得到每个匹配对象组中至少两个目标对象的空间信息。

上述示例中的网络结构及实现原理在下文进行详细说明，在此暂不详述。

S130、根据每个匹配对象组中至少两个目标对象的视觉信息和空间信息，确定各匹配对象组中至少两个目标对象是否关联。

对于某一个匹配对象组，例如人脸人体匹配对象组，旨在确定该匹配对象组中的人体和人脸是否存在关联，也即人体和人脸是否属于同一个人。在得到匹配对象组中至少两个目标对象的视觉信息以及空间信息之后，结合视觉信息和空间信息确定该匹配对象组中的至少两个目标对象是否关联。

值得说明的是，本公开方法的至少一个发明构思在于：在视觉信息的基础上结合匹配对象组中目标对象的空间信息，来确定目标对象的关联性。以人脸人体关联检测为例，人脸在人体中的位置分布往往是一定的，因此在考虑人体人脸的视觉信息的基础上，结合人脸和人体的空间位置信息来辅助关联，从而应对多人复杂场景下的遮挡问题时，具有更好的鲁棒性，提高人体和人脸的关联精度。

另外可以理解，基于上述发明构思，本公开方法中的关联目标对象指在空间位置上具有可关联性的对象，从而可以从待检测图像中提取得到高可靠性的空间信息，至于匹配对象组中目标对象的数量和类别则无需限制，其可以是人体部位，也可以是动物、道具等其他任何在空间位置上具有可关联性的对象，本公开对此不再赘述。

在一个示例中，可通过关联检测网络(例如，图4中的“Pair Head”)对每一个匹配对象组中的至少两个目标对象的视觉信息和空间信息进行融合处理，基于融合特征做关联性分类处理，从而确定某个匹配对象组中的至少两个目标对象是否关联。下文进行详细描述，在此不做展开。

通过上述可知，本公开的关联对象的检测方法，通过同一匹配对象组中的目标对象之间的关联特征辅助目标检测，提高复杂场景下的目标检测精度，例如通过人脸与人体的关联检测实现多人场景下的人体检测，提高检测准确性。并且在关联检测中，通过结合目标对象的视觉信息和空间信息，提高目标对象的关联检测精度，例如在人脸人体关联检测中，不仅采用人脸和人体的视觉特征信息，同时还进一步考虑人脸与人体的空间位置特征信息，利用空间位置特征辅助人脸人体的关联，提高人脸与人体的关联准确性，进而提高目标检测的精度。

在一些实施方式中，可以对匹配对象组中每个目标对象进行视觉特征提取，得到目标对象的视觉信息。

具体来说，图3示出了对目标对象进行视觉信息提取的过程，图4中示出了本公开方法的检测网络的架构，下面结合图3和图4对本公开方法作进一步说明。

如图3所示，在一些实施方式中，上述关联对象的检测方法包括：

S310、对待检测图像进行视觉特征提取，得到待检测图像的特征图。

具体来说，如图4所示，本公开的检测网络包括对象检测网络100和关联检测网络200，对象检测网络100可以是经过训练的神经网络，用于对待检测图像上的目标对象进行视觉特征提取，得到目标对象的视觉信息。

在本实施方式中，对象检测网络100可包括主干网络(backbone)和FPN(FeaturePyramid Networks，特征金字塔网络)，待检测图像依次经过主干网络和FPN的处理，得到待检测图像的特征图(feature)。

在一个示例中，主干网络可以使用例如VGGNet、ResNet等。FPN可以在主干网络得到的特征图基础上将其转换为多层的金字塔结构的特征图。主干网络backbone为图像特征提取部分，FPN用于特征增强处理，可以对backbone提取到的浅层特征进行增强。可以理解，上述网络仅作为一种示例，并不限制本公开方案，例如，在其他实施方式中，主干网络可以采用其他任何形式的特征提取网络；又例如，在其他实施方式中，也可以不使用图4中的FPN，而是将主干网络提取的特征图直接作为待检测图像的特征图(feature)；等，本公开对此不作限制。

S320、基于特征图，检测得到各个目标对象的检测框。

S330、根据检测框，提取得到各个匹配对象组中的每个目标对象的视觉信息。

具体来说，继续参照图4，对象检测网络100还包括RPN(Region ProposalNetwork，区域生成网络)。在得到待检测图像的特征图之后，RPN可以基于FPN输出的特征图(feature)预测得到各个目标对象的检测框(anchor)以及目标对象的对象类别。例如对于人脸和人体的关联检测，RPN网络根据特征图计算得到待检测图像上人体和人脸的检测框，以及该检测框区域的目标对象所属的“人脸”或“人体”类别。

在本实施方式中，对象检测网络100还包括RCNN(Region Convolutional NeuralNetworks，区域卷积神经网络)，RCNN基于特征图计算得到对于每个目标对象检测框的边界框(bbox，bounding box)偏移量，根据bbox偏移量对目标对象的检测框进行边界回归处理，从而得到更加精确的目标对象的检测框。

在得到各个目标对象的检测框之后，基于特征图和各个检测框提取得到每个目标对象的视觉特征信息。例如可以根据特征图，针对各个检测框分别进行进一步的特征提取，得到各个检测框的特征信息，作为对应的目标对象的视觉特征信息。或者，将特征图和各个检测框输入至视觉特征提取网络，得到各个检测框的视觉特征信息，即获得各目标对象的视觉特征。

在一个示例中，以人脸人体关联检测为例，输入的待检测图像如图5所示。RPN和RCNN网络根据待检测图像的特征图，得到待检测图像上每个人脸和每个人体的检测框，检测框可以为矩形。

参照图5所示，待检测图像中共包括3个人体和3个人脸，在RPN和RCNN处理后得到3个人脸检测框201、202、203和3个人体检测框211、212、213，根据各个人体和人脸检测框提取得到各个人体和人脸的视觉信息。

关联检测网络(例如，图4中的“Pair Head”)200也可以是经过训练的神经网络，其基于得到的目标对象的检测框以及对象类别，对不同类别的目标对象进行组合，得到各个匹配对象组。例如在人脸人体的关联检测场景中，基于得到的人脸人体的检测框以及对象类别，对各个人脸和人体进行随机组合，得到各个人脸人体匹配对象组。以图5为例，3个人脸检测框201、202、203和3个人体检测框211、212、213分别两两组合，共得到9个人脸人体匹配对象组。接下来需要确定每个人脸人体匹配对象组的位置特征。

对于每个匹配对象组，首先根据匹配对象组中的各个目标对象的检测框构建辅助边界框。以图5中人脸检测框201和人体检测框212组成的匹配对象组为例，首先根据这两个检测框，确定一个能够同时包含这两个检测框且面积最小的union框(并集框)作为辅助边界框，也即图5中虚线示出的辅助边界框231。

这里值得说明的是，辅助边界框的目的是为了后续计算匹配对象组内各目标对象的空间信息，本实施方式中可以选择覆盖匹配对象组中的各目标对象的检测框的辅助边界框，使得后续获得的各目标对象的空间信息融合了其所属匹配对象组中的其他目标对象的空间信息，由此可以基于实际关联的目标对象间潜在的空间位置关系进行关联对象检测，从而使得信息更加紧凑，减少其他位置的干扰信息，降低计算量。进一步地，还可以在覆盖匹配对象组中的各目标对象的检测框的辅助边界框中选择面积最小的作为辅助边界框。在其他实施方式中，只要保证辅助边界框231中至少覆盖匹配对象组中的目标对象即可，本领域技术人员对此应当理解。

在得到辅助边界框之后，根据目标对象的检测框和辅助边界框生成目标对象的位置特征信息。在图5中，根据人脸检测框201和辅助边界框231生成人脸掩模信息，人脸掩模信息即表示匹配对象组中人脸检测框201相对于辅助边界框231的空间位置特征信息。同样，根据人体检测框212和辅助边界框231生成人体掩模信息，人体掩模信息即表示匹配对象组中人体检测框212相对于辅助边界框231的空间位置特征信息。

在一个示例中，在计算人脸和人体的位置特征信息时，可设置位于人脸检测框201和人体检测框212的像素值为1，设置位于辅助边界框231的初始像素值为0，从而通过检测像素值即可得到人脸和人体相对于辅助边界框的位置特征信息。

在得到目标对象的位置特征信息之后，对匹配对象组中的至少两个目标对象的位置特征信息进行拼接或通过其他方式进行融合，即可得到匹配对象组中目标对象的空间信息。

上述对人脸检测框201中的人脸和人体检测框212中的人体组成的匹配对象组进行了说明，其他匹配对象组计算位置特征与之相同，依次执行上述过程即可得到各个匹配对象组的位置特征，本公开对此不作赘述。

以人脸对象和人体对象组成的匹配对象组为例，在得到视觉信息和空间信息之后，关联检测网络(例如，图4中的“Pair Head”)根据该匹配对象组的视觉信息和空间信息确定目标对象是否关联。

关联检测网络(Pair Head)的网络结构如图6所示。人脸检测框201和人体检测框212的视觉信息经过感兴趣区域池化层(Region of interest pooling，Roi pooling)处理分别得到人脸视觉特征131和人体视觉特征132，根据空间信息特征转化得到空间特征133。本实施方式中，人脸视觉特征131由尺寸为64*7*7的特征图表示，人体视觉特征132同样由尺寸为64*7*7的特征图表示，空间特征133由尺寸为2*7*7的特征图表示。

将人脸视觉特征131、人体视觉特征132以及空间特征133进行融合，得到该匹配对象组的融合特征，对各个匹配对象组的融合特征进行关联性分类处理，即可确定匹配对象组中目标对象之间是否关联。

在一些实施方式中，如图7所示，确定匹配对象组中目标对象是否关联，可包括：

S710、对各个匹配对象组的融合特征进行关联性分类处理，得到各个匹配对象组中至少两个目标对象之间的关联度分值。

S720、对于同一目标对象所属的多个匹配对象组，确定关联度分值最高的匹配对象组作为目标匹配对象组。

S730、确定目标匹配对象组中至少两个目标对象为关联目标对象。

具体来说，仍以图4至6所示的网络结构为例进行说明。在得到各个匹配对象组的融合特征之后，将融合特征经过全连接层(Fully Connected Layer，FCL)140，全连接层140对融合特征进行关联性分类处理，可得到每个匹配对象组中的目标对象之间的关联度分值。

例如图5所示，在经过全连接层140分类处理后，共得到9个匹配对象组的预测分值。对于某一个人脸或人体来说，其分属于3个匹配对象组，例如对于人脸201，其分别与人体211、212、213组成3个匹配对象组，在这三个匹配对象组中，选择关联度分值最高的匹配对象组作为目标匹配对象组。例如在本示例中，人脸201与人体211组成的匹配对象组的关联度分值最高，则将该匹配对象组作为目标匹配对象组，将人脸201与人体211确定为关联目标对象，也即人脸201与人体211属于同一人员。

另外，在一些实施方式中，考虑到模型的可视化输出，在确定关联目标对象之后，可在图像中将关联目标对象进行可视化输出。

在一个示例中，图像可视化的输出可以如图8所示。在图8示例中，以多人桌面游戏场景为例，关联对象的检测包括“人脸—人体—人手”三者的关联检测，通过上述实施方式得到多个“人脸人体人手”的目标匹配对象组，本领域技术人员参照前述即可，本公开对此不再赘述。

在得到目标匹配对象组之后，可将目标匹配对象组包括的人脸、人体以及人手检测框在图像中显示。例如图8中包括3个人脸检测框201、202、203，3个人体检测框211、212、213，5个人手检测框221、222、223、224、225。在一个示例中，可分别将不同类别的检测框利用不同颜色示出，由于图8为灰度图，不能明显显示色彩，但是本领域技术人员对此能够理解，本公开不作赘述。

对于同一个目标匹配对象组中的关联目标对象，可利用连接线将关联目标对象进行连接显示。例如在图8示例中，将同一目标匹配对象组中，人手检测框的中心点和人脸检测框的中心点，均与人体检测框的中心点利用虚线连接，从而可明确指示图像中关联的目标对象，具有直观的可视化结果。

在一些实施方式中，匹配对象组的视觉信息和空间信息在进行特征融合之前，还可以分别经过一层全连接层进行降维处理，将特征映射为固定长度的特征之后进行融合，本公开对此不再赘述。

在一些实施方式中，本公开方法还包括对图4所示神经网络的训练过程，训练过程如图9所示，下面结合图4和图9对神经网络的训练过程进行说明。

S910、获取样本图像集。

S920、通过待训练的关联检测网络对样本图像集中的样本图像进行处理，由样本图像中检测得到至少一个样本匹配对象组。

S930、通过待训练的对象检测网络对样本图像进行处理，得到各样本匹配对象组的每个样本目标对象的视觉信息；通过待训练的关联检测网络对样本图像进行处理，得到每个样本匹配对象组中至少两个样本目标对象的空间信息。

S940、通过待训练的关联检测网络根据每个样本匹配对象组中至少两个样本目标对象的视觉信息和空间信息，得到各样本匹配对象组的关联性检测结果。

S950、确定各个样本匹配对象组的关联性检测结果与标签信息之间的误差，并根据误差调整关联检测网络和对象检测网络中至少之一的网络参数，直至误差收敛。

具体来说，样本图像集中包括至少一个样本图像，每个样本图像中包括至少一个可检测的样本匹配对象组，例如至少一个“人脸人体对”、“人脸人手对”、“人体物体对”、“人手人脸人体组”等，每个样本匹配对象组中包括至少两个样本目标对象，且样本目标对象对应至少两个对象类别，样本目标对象即人脸、人手、人体、肢体或物体等，对应的对象类别即人脸类别、人手类别、物体类别等。同时，样本图像还包括每个样本匹配对象组的标签信息，标签信息也即样本匹配对象组的真值，其表示该样本匹配对象组中的各个样本目标对象的实际关联性，也即样本匹配对象组中的样本目标对象是否为实际关联的目标对象，标签信息可通过人工标注或神经网络标注等方式得到。

将样本图像集输入图4所示网络中，依次经过待训练的对象检测网络100和关联检测网络200，最终输出每个样本匹配对象组的关联性检测结果的输出值。对象检测网络和关联检测网络的处理过程参见前述即可，在此不做赘述。

在得到每个样本匹配对象组的关联性检测结果的输出值之后，即可确定输出值与标签信息之间的误差，根据误差反向传播来调整网络参数，直到误差收敛，即可完成对象检测网络和关联检测网络的训练。

参照上述示例对本公开方法进行了详细说明，本领域技术人员可以理解，本公开关联对象的检测方法并不局限于上述示例场景，还可适用于其他任何适于在空间位置上具有关联性的目标对象关联检测，本公开对此不作赘述。

通过上述可知，本公开的关联对象的检测方法，通过同一匹配对象组中的目标对象之间的关联特征辅助目标检测，提高复杂场景下的目标检测精度，例如通过人脸与人体的关联检测实现多人场景下的人体检测，提高检测准确性。并且，在关联检测中，通过结合目标对象的视觉信息和空间信息，提高目标对象的关联检测精度，例如在人脸人体关联检测中，不仅采用人脸和人体的视觉特征信息，同时还进一步考虑人脸与人体的空间位置特征信息，利用空间位置特征辅助人脸人体的关联，提高人脸与人体的关联准确性，进而提高目标检测的精度。

第二方面，本公开实施方式提供了一种关联对象的检测装置。图10中示出了根据本公开一些实施方式的关联对象的检测装置。

如图10所示，在一些实施方式中，本公开的检测装置包括：

检测模块410，用于由待检测图像中检测得到至少一个匹配对象组，每个匹配对象组包括至少两个目标对象；

获取模块420，用于获取各个匹配对象组中的每个目标对象的视觉信息，和每个匹配对象组中至少两个目标对象的空间信息；

确定模块430，用于根据每个匹配对象组中至少两个目标对象的视觉信息和空间信息，确定各匹配对象组中至少两个目标对象是否关联。

如图11所示，在一些实施方式中，检测模块410可包括：

检测子模块411，用于由待检测图像中检测得到各个目标对象以及各个目标对象的对象类别；

组合子模块412，用于针对每一对象类别，将所述对象类别中的每个目标对象分别与其他对象类别中的各目标对象组合，得到至少一个匹配对象组。

在一些实施方式中，获取模块420进一步用于：

对匹配对象组中的每个目标对象进行视觉特征提取，得到目标对象的视觉信息。

在一些实施方式中，获取模块420进一步用于：

由待检测图像中检测得到各个目标对象的检测框；

对于每个匹配对象组，根据匹配对象组中的至少两个目标对象的检测框的位置信息，生成匹配对象组中至少两个目标对象的空间信息。

在一些实施方式中，获取模块420进一步用于：

生成匹配对象组的辅助边界框，辅助边界框覆盖匹配对象组中的各目标对象的检测框；

根据辅助边界框和各目标对象的检测框，分别确定匹配对象组中的各个目标对象的位置特征信息；

对同一匹配对象组中的各目标对象的位置特征信息进行融合，得到匹配对象组中至少两个目标对象的空间信息。

在一些实施方式中，辅助边界框为覆盖匹配对象组中各目标对象的边界框中面积最小的边界框。

如图12所示，在一些实施方式中，确定模块430可包括：

融合子模块431，用于对每个匹配对象组中至少两个目标对象的视觉信息和空间信息进行融合处理，得到各个匹配对象组的融合特征；

确定子模块432，用于对各个匹配对象组的融合特征进行关联性分类处理，确定匹配对象组中至少两个目标对象是否关联。

在一些实施方式中，确定子模块432具体用于：

对各个匹配对象组的融合特征进行关联性分类处理，得到各个匹配对象组中至少两个目标对象之间的关联度分值；

对于同一目标对象所属的多个匹配对象组，确定关联度分值最高的匹配对象组作为目标匹配对象组；

确定目标匹配对象组中的至少两个目标对象为关联目标对象。

在一些实施方式中，在目标对象为人体部位的情况下，确定模块430具体用于：

确定同一个匹配对象组中的各个人体部位是否属于同一人体。

通过上述可知，本公开的关联对象的检测装置，通过同一匹配对象组中的目标对象之间的关联特征辅助目标检测，提高复杂场景下的目标检测精度，例如通过人脸与人体的关联检测实现多人场景下的人体检测，提高检测准确性。并且在关联检测中，通过结合目标对象的视觉信息和空间信息，提高目标对象的关联检测精度，例如在人脸人体关联检测中，不仅采用人脸和人体的视觉特征信息，同时还进一步考虑人脸与人体的空间位置特征信息，利用空间位置特征辅助人脸人体的关联，提高人脸与人体的关联准确性，进而提高目标检测的精度。

第三方面，本公开实施方式提供了一种电子设备，包括：

处理器；和

存储器，与处理器可通信连接，其存储有能够被处理器读取的计算机指令，计算机指令被处理器读取时，使处理器执行根据第一方面任一实施方式中的方法。

第四方面，本公开实施方式提供了一种存储介质，存储有计算机可读指令，计算机可读指令用于使计算机执行根据第一方面任一实施方式中的方法。

具体而言，图13示出了适于用来实现本公开方法的计算机系统600的结构示意图，通过图13所示系统，可实现上述处理器及存储介质相应功能。

如图13所示，计算机系统600包括处理器(CPU)601，其可以根据存储在只读存储器(ROM)602中的程序或者从存储部分608加载到随机访问存储器(RAM)603中的程序而执行各种适当的动作和处理。在RAM 603中，还存储有系统600操作所需的各种程序和数据。CPU601、ROM 602以及RAM 603通过总线604彼此相连。输入/输出(I/O)接口605也连接至总线604。

以下部件连接至I/O接口605：包括键盘、鼠标等的输入部分606；包括诸如阴极射线管(CRT)、液晶显示器(LCD)等以及扬声器等的输出部分607；包括硬盘等的存储部分608；以及包括诸如LAN卡、调制解调器等的网络接口卡的通信部分609。通信部分609经由诸如因特网的网络执行通信处理。驱动器610也根据需要连接至I/O接口605。可拆卸介质611，诸如磁盘、光盘、磁光盘、半导体存储器等等，根据需要安装在驱动器610上，以便于从其上读出的计算机程序根据需要被安装入存储部分608。

特别地，根据本公开的实施方式，上文方法可以被实现为计算机软件程序。例如，本公开的实施方式包括一种计算机程序产品，其包括有形地包含在机器可读介质上的计算机程序，计算机程序包含用于执行上述方法的程序代码。在这样的实施方式中，该计算机程序可以通过通信部分609从网络上被下载和安装，和/或从可拆卸介质611被安装。

附图中的流程图和框图，图示了按照本公开各种实施方式的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上，流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分，模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意，在有些作为替换的实现中，方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如，两个接连地表示的方框实际上可以基本并行地执行，它们有时也可以按相反的顺序执行，这依所涉及的功能而定。也要注意的是，框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合，可以用执行规定的功能或操作的专用的基于硬件的系统来实现，或者可以用专用硬件与计算机指令的组合来实现。

显然，上述实施方式仅仅是为清楚地说明所作的举例，而并非对实施方式的限定。对于所属领域的普通技术人员来说，在上述说明的基础上还可以做出其它不同形式的变化或变动。这里无需也无法对所有的实施方式予以穷举。而由此所引伸出的显而易见的变化或变动仍处于本公开的保护范围之中。

Claims

1.一种关联对象的检测方法，包括：

由待检测图像中检测得到至少一个匹配对象组，每个所述匹配对象组包括至少两个目标对象；

获取各个所述匹配对象组中的每个所述目标对象的视觉信息，和每个所述匹配对象组中所述至少两个目标对象的空间信息；

根据每个所述匹配对象组中所述至少两个目标对象的所述视觉信息和所述空间信息，确定各所述匹配对象组中所述至少两个目标对象是否关联。

2.根据权利要求1所述的方法，其中，由待检测图像中检测得到至少一个匹配对象组，包括：

由所述待检测图像中检测得到各个所述目标对象以及各个所述目标对象的对象类别；

针对每一所述对象类别，将所述对象类别中的每个目标对象分别与其他所述对象类别中的各所述目标对象组合，得到所述至少一个匹配对象组。

3.根据权利要求1所述的方法，其中，获取各个所述匹配对象组中的每个所述目标对象的视觉信息，包括：

对所述匹配对象组中的每个目标对象进行视觉特征提取，得到所述目标对象的视觉信息。

4.根据权利要求1所述的方法，其中，获取每个所述匹配对象组中所述至少两个目标对象的空间信息，包括：

由所述待检测图像中检测得到各个所述目标对象的检测框；

对于每个所述匹配对象组，根据所述匹配对象组中的所述至少两个目标对象的所述检测框的位置信息，生成所述匹配对象组中所述至少两个目标对象的所述空间信息。

5.根据权利要求4所述的方法，其中，对于每个所述匹配对象组，根据所述匹配对象组中的所述至少两个目标对象的所述检测框的位置信息，生成所述匹配对象组中所述至少两个目标对象的所述空间信息，包括：

生成所述匹配对象组的辅助边界框，所述辅助边界框覆盖所述匹配对象组中的各目标对象的检测框；

根据所述辅助边界框和各目标对象的检测框，分别确定所述匹配对象组中的各个目标对象的位置特征信息；

对同一匹配对象组中的各目标对象的所述位置特征信息进行融合，得到所述匹配对象组中所述至少两个目标对象的所述空间信息。

6.根据权利要求5所述的方法，其中，

所述辅助边界框为覆盖所述匹配对象组中各目标对象的边界框中面积最小的边界框。

7.根据权利要求1至6任一项所述的方法，其中，根据每个所述匹配对象组中所述至少两个目标对象的所述视觉信息和所述空间信息，确定各所述匹配对象组中所述至少两个目标对象是否关联，包括：

对每个匹配对象组中所述至少两个目标对象的所述视觉信息和所述空间信息进行融合处理，得到各个匹配对象组的融合特征；

对各个匹配对象组的融合特征进行关联性分类处理，确定所述匹配对象组中所述至少两个目标对象是否关联。

8.根据权利要求7所述的方法，其中，对各个匹配对象组的融合特征进行关联性分类处理，确定所述匹配对象组中所述至少两个目标对象是否关联，包括：

对各个匹配对象组的融合特征进行关联性分类处理，得到各个所述匹配对象组中所述至少两个目标对象之间的关联度分值；

对于同一目标对象所属的多个匹配对象组，确定所述关联度分值最高的匹配对象组作为目标匹配对象组；

确定所述目标匹配对象组中的所述至少两个目标对象为关联目标对象。

9.根据权利要求1所述的方法，其中，在所述目标对象为人体部位的情况下，所述确定各所述匹配对象组中所述至少两个目标对象是否关联，包括：

确定同一个所述匹配对象组中的各个人体部位是否属于同一人体。

10.根据权利要求1所述的方法，还包括：

获取样本图像集；所述样本图像集包括至少一个样本图像，每个所述样本图像包括至少一个样本匹配对象组和所述样本匹配对象组对应的标签信息，每个所述样本匹配对象组包括至少两个样本目标对象，所述标签信息表示所述样本匹配对象组中的各样本目标对象的关联结果；

通过待训练的关联检测网络对所述样本图像进行处理，由所述样本图像中检测得到所述样本匹配对象组；

通过待训练的对象检测网络对所述样本图像进行处理，得到各所述样本匹配对象组中的每个所述样本目标对象的视觉信息；通过待训练的所述关联检测网络对所述样本图像进行处理，得到每个所述样本匹配对象组中所述至少两个样本目标对象的空间信息；

通过待训练的所述关联检测网络根据每个所述样本匹配对象组中所述至少两个样本目标对象的所述视觉信息和所述空间信息，得到各所述样本匹配对象组的关联性检测结果；

确定各个所述样本匹配对象组的所述关联性检测结果与对应的标签信息之间的误差，并根据所述误差调整所述关联检测网络和所述对象检测网络中至少之一的网络参数，直至所述误差收敛。

11.一种关联对象的检测装置，包括：

检测模块，用于由待检测图像中检测得到至少一个匹配对象组，每个所述匹配对象组包括至少两个目标对象；

获取模块，用于获取各个所述匹配对象组中的每个所述目标对象的视觉信息，和每个所述匹配对象组中所述至少两个目标对象的空间信息；

确定模块，用于根据每个所述匹配对象组中所述至少两个目标对象的所述视觉信息和所述空间信息，确定各所述匹配对象组中所述至少两个目标对象是否关联。

12.根据权利要求11所述的装置，其中，所述检测模块包括：

检测子模块，用于由所述待检测图像中检测得到各个所述目标对象以及各个所述目标对象的对象类别；

组合子模块，用于针对每一所述对象类别，将所述对象类别中的每个目标对象分别与其他所述对象类别中的各所述目标对象组合，得到所述至少一个匹配对象组。

13.根据权利要求11所述的装置，其中，所述获取模块进一步用于：

14.根据权利要求11所述的装置，其中，所述获取模块进一步用于：

由所述待检测图像中检测得到各个所述目标对象的检测框；

15.根据权利要求14所述的装置，其中，所述获取模块进一步用于：

16.根据权利要求11至15任一项所述的装置，其中，所述确定模块包括：

融合子模块，用于对每个匹配对象组中所述至少两个目标对象的所述视觉信息和所述空间信息进行融合处理，得到各个匹配对象组的融合特征；

确定子模块，用于对各个匹配对象组的融合特征进行关联性分类处理，确定所述匹配对象组中所述至少两个目标对象是否关联。

17.根据权利要求16所述的装置，其中，所述确定子模块进一步用于：

18.一种电子设备，包括：

处理器；和

存储器，与所述处理器可通信连接，其存储有能够被所述处理器读取的计算机指令，所述计算机指令被所述处理器读取时，使所述处理器执行根据权利要求1至10任一项所述的方法。

19.一种存储介质，存储有计算机可读指令，所述计算机可读指令用于使计算机执行根据权利要求1至10任一项所述的方法。

20.一种计算机程序，包括计算机可读代码，其中，所述计算机可读代码在电子设备中运行时使所述电子设备中的处理器实现权利要求1至10任一所述的方法。