CN113196292A

CN113196292A - 对象检测方法和装置及电子设备

Info

Publication number: CN113196292A
Application number: CN202180001428.6A
Authority: CN
Inventors: 张学森; 刘春亚; 王柏润; 陈景焕
Original assignee: Sensetime International Pte Ltd
Current assignee: Sensetime International Pte Ltd
Priority date: 2020-12-29
Filing date: 2021-04-27
Publication date: 2021-07-30
Also published as: PH12021551364A1; KR20220098309A; US20220207259A1; JP2023511238A; AU2021203818A1

Abstract

本公开实施例提供一种对象检测方法和装置及电子设备，其中方法包括：检测待处理图像中的人脸对象和人体对象；确定检测出的所述人脸对象和所述人体对象之间的匹配关系；响应于基于所述匹配关系确定所述人体对象与所述人脸对象相匹配，则确定所述人体对象为检测到的目标对象。本公开实施例提高了人体对象的检测精度。

Description

对象检测方法和装置及电子设备

相关申请的交叉引用

本公开要求于2020年12月29日提交的、申请号为10202013165P、发明名称为“对象检测方法和装置及电子设备”的新加坡专利申请的优先权，该新加坡专利申请公开的全部内容以引用的方式并入本文中。

技术领域

本公开涉及机器学习技术领域，具体涉及一种对象检测方法和装置及电子设备。

背景技术

目标检测是智能视频分析中的重要一环，例如，可以将视频帧或者场景图像中的人体、动物等作为检测目标。相关技术中，可以使用Faster RCNN(Region ConvolutionalNeural Network，区域卷积神经网络)等目标检测器获取视频帧或者场景图像中的目标检测框。

但是，在密集场景中，可能出现不同目标之间相互遮挡的情况。以人员相对密集的场景为例，不同人员之间可能会出现胳膊、手部、腿部等人体部位的遮挡，这种情况下，使用常规的检测器就可能引起人体的误检问题，比如，本来场景图像中只有两个人，却检测到了三个人体框，通常将这种情况称为虚检。目标检测的不准确，将可能导致依据检测目标的后续处理的错误。

发明内容

有鉴于此，本公开至少提供一种对象检测方法和装置及电子设备，以提高密集场景下的目标检测的精度。

第一方面，提供一种对象检测方法，所述方法包括：检测待处理图像中的人脸对象和人体对象；确定检测出的所述人脸对象和所述人体对象之间的匹配关系；响应于基于所述匹配关系确定所述人体对象与所述人脸对象相匹配，则确定所述人体对象为检测到的目标对象。

在一些实施例中，所述检测待处理图像中的人脸对象和人体对象，包括：对所述待处理图像进行对象检测，得到所述待处理图像中的人脸对象的检测框和人体对象的检测框。

在一些实施例中，所述方法还包括：响应于基于所述匹配关系确定所述待处理图像中不存在与所述人体对象相匹配的人脸对象，则去除所述人体对象的检测框。

在一些实施例中，所述方法还包括：响应于基于所述匹配关系确定所述待处理图像中不存在与所述人体对象相匹配的人脸对象，并且所述人体对象位于所述待处理图像的预设边缘区域，将所述人体对象确定为检测到的目标对象。

在一些实施例中，所述确定检测出的所述人脸对象和所述人体对象之间的匹配关系，包括：根据所述人脸对象和所述人体对象的检测结果，确定所述人脸对象和所述人体对象的位置信息和/或视觉信息；根据所述位置信息和/或所述视觉信息确定所述人脸对象和所述人体对象之间的匹配关系。

在一些实施例中，所述位置信息包括检测框的位置信息；所述根据所述位置信息和/或所述视觉信息确定所述人脸对象和所述人体对象之间的匹配关系，包括：针对每一个所述人脸对象，根据所述检测框的位置信息，确定与所述人脸对象的检测框之间满足预设的位置交叠关系的人体对象的检测框为目标检测框；将所述目标检测框中的人体对象确定为与所述人脸对象匹配的人体对象。

在一些实施例中，所述确定检测出的所述人脸对象和所述人体对象之间的匹配关系，包括：响应于检测出的人脸对象未被检测出的人体对象和其他人脸对象遮挡，确定检测出的所述人脸对象和所述人体对象之间的匹配关系。

在一些实施例中，检测出的所述人脸对象包括至少一个人脸对象，检测出的所述人体对象包括至少一个人体对象；所述确定检测出的所述人脸对象和所述人体对象之间的匹配关系，包括：将检测出的每个人脸对象分别与检测出的每个人体对象进行组合，得到至少一个人脸人体组合，针对每一个组合确定所述匹配关系。

在一些实施例中，所述检测待处理图像中的人脸对象和人体对象，包括：采用对象检测网络对所述待处理图像进行对象检测，得到所述待处理图像中的人脸对象的检测框和人体对象的检测框；所述确定检测出的所述人脸对象和所述人体对象之间的匹配关系，包括：采用匹配检测网络确定检测出的所述人脸对象和所述人体对象之间的匹配关系；其中，所述对象检测网络和所述匹配检测网络按照如下方式训练得到：通过待训练的所述对象检测网络，检测样本图像中的至少一个人脸框和至少一个人体框；通过待训练的所述匹配检测网络，获取检测出的人脸框与人体框两两之间的匹配关系的预测值；基于所述匹配关系的预测值和标签值之间的差异，调整所述对象检测网络和匹配检测网络中至少之一的网络参数。

第二方面，提供一种对象检测装置，所述装置包括：检测处理模块，用于检测待处理图像中的人脸对象和人体对象；匹配处理模块，用于确定检测出的所述人脸对象和所述人体对象之间的匹配关系；目标对象确定模块，用于响应于基于所述匹配关系确定所述人体对象与所述人脸对象相匹配，则确定所述人体对象为检测到的目标对象。

在一些实施例中，所述检测处理模块，进一步用于：对所述待处理图像进行对象检测，得到所述待处理图像中的人脸对象的检测框和人体对象的检测框。

在一些实施例中，所述目标对象确定模块，还用于响应于基于所述匹配关系确定所述待处理图像中不存在与所述人体对象相匹配的人脸对象，则去除所述人体对象的检测框。

在一些实施例中，所述目标对象确定模块，还用于响应于基于所述匹配关系确定所述待处理图像中不存在与所述人体对象相匹配的人脸对象，并且所述人体对象位于所述待处理图像的预设边缘区域，将所述人体对象确定为检测到的目标对象。

在一些实施例中，所述匹配处理模块，进一步用于：根据所述人脸对象和所述人体对象的检测结果，确定所述人脸对象和所述人体对象的位置信息和/或视觉信息；根据所述位置信息和/或所述视觉信息确定所述人脸对象和所述人体对象之间的匹配关系。

在一些实施例中，所述位置信息包括检测框的位置信息；所述匹配处理模块，进一步用于：针对每一个所述人脸对象，根据检测框的位置信息，确定与所述人脸对象的检测框之间满足预设的位置交叠关系的人体对象的检测框为目标检测框；将所述目标检测框中的人体对象确定为与所述人脸对象匹配的人体对象。

在一些实施例中，所述匹配处理模块，进一步用于：响应于检测出的人脸对象未被检测出的人体对象和其他人脸对象遮挡，确定检测出的所述人脸对象和所述人体对象之间的匹配关系。

在一些实施例中，检测出的所述人脸对象包括至少一个人脸对象，检测出的所述人体对象包括至少一个人体对象；所述匹配处理模块，进一步用于：将检测出的每个人脸对象分别与检测出的每个人体对象进行组合，得到至少一个人脸人体组合，针对每一个组合确定所述匹配关系。

在一些实施例中，所述检测处理模块，进一步用于：采用对象检测网络对所述待处理图像进行对象检测，得到所述待处理图像中的人脸对象的检测框和人体对象的检测框；所述匹配处理模块，进一步用于：采用匹配检测网络确定检测出的所述人脸对象和所述人体对象之间的匹配关系；所述装置还包括：网络训练模块，用于：通过待训练的所述对象检测网络，检测样本图像中的至少一个人脸框和至少一个人体框；通过待训练的所述匹配检测网络，获取检测出的人脸框与人体框两两之间的匹配关系的预测值；基于所述匹配关系的预测值和标签值之间的差异，调整所述对象检测网络和匹配检测网络中至少之一的网络参数。

第三方面，提供一种电子设备，所述电子设备包括存储器、处理器，所述存储器用于存储可在处理器上运行的计算机指令，所述处理器用于在执行所述计算机指令时实现本公开任一实施例的方法。

第四方面，提供一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时使所述处理器实现本公开任一实施例的方法。

第五方面，提供一种计算机程序，包括计算机可读代码，其中，所述计算机可读代码在电子设备中运行时使所述电子设备中的处理器实现本公开任一实施例的方法。

本公开实施例提供的对象检测方法和装置及电子设备，通过利用人体对象和人脸对象之间的匹配关系的检测，来辅助进行人体对象的检测，将存在与之匹配的人脸对象的人体对象作为检测得到的目标对象。一方面，由于人脸对象的检测精度较高，因此通过该人脸对象来辅助人体对象的检测，也能够提高人体对象的检测精度；另一方面，该人脸对象是属于人体对象的，所以人脸对象的检测能够起到辅助定位人体对象的作用。该方案能够减少虚检或误检情况的发生，提高了人体对象的检测精度。

附图说明

为了更清楚地说明本公开一个或多个实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本公开一个或多个实施例中记载的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1示出了本公开至少一个实施例提供的一种对象检测方法的流程图；

图2示出了本公开至少一个实施例提供的一种人体对象和人脸对象的检测框的示意图；

图3示出了本公开至少一个实施例提供的一种对象检测方法中使用的网络架构的示意图；

图4示出了本公开至少一个实施例提供的一种对象检测装置的结构示意图；

图5示出了本公开至少一个实施例提供的一种对象检测装置的结构示意图。

具体实施方式

为了使本领域技术人员更好地理解本公开一个或多个实施例中的技术方案，下面将结合本公开一个或多个实施例中的附图，对本公开一个或多个实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本公开一部分实施例，而不是全部的实施例。基于本公开一个或多个实施例，本领域普通技术人员在没有作出创造性劳动的前提下所获得的所有其他实施例，都应当属于本公开保护的范围。

在密集场景中检测目标时，有时会出现虚检。例如，在人员相对密集的游戏场所中，很多人都聚集在该场所中进行游戏，在对该游戏场所采集的图像中也可能出现人员之间遮挡的情况，诸如腿部遮挡、胳膊遮挡等，这种人体之间遮挡的存在将可能导致虚检的发生。为了提高密集场景中目标检测的准确性，本公开实施例提供了一种对象检测方法，该方法可以应用于检测人员密集的场景中的各个人体作为检测的目标对象。

图1示出了本公开至少一个实施例提供的一种对象检测方法的流程图。如图1所示，该方法可以包括如下处理：

在步骤100中，检测待处理图像中的人脸对象和人体对象。

所述的待处理图像可以是一个密集场景图像，并且期望由该图像中检测出预定的目标对象。示例性的，该待处理图像可以是一个多人游戏场景的图像，检测的目的是要检测出该待处理图像中的人数，那么图像中的每个人都可以称为一个待检测的目标对象。

本步骤中，可以检测该待处理图像中包括的各个人脸对象和人体对象。在一个例子中，在检测待处理图像中的人脸对象和人体对象时，可以是对该待处理图像进行对象检测，得到图像中的人脸对象的检测框和人体对象的检测框。例如，可以对待处理图像进行特征提取，得到图像特征，再基于该图像特征进行对象检测，得到所述的人脸对象的检测框和人体对象的检测框。

图2中示意性地示出了已经检测得到的多个检测框。如图2所示，检测框21中包括一个人体对象，检测框22中包括另一个人体对象。检测框23中包括一个人脸对象，检测框24中包括另一个人脸对象。

在步骤102中，确定检测出的所述人脸对象和所述人体对象之间的匹配关系。

本步骤中，检测出的所述人脸对象可包括至少一个人脸对象，检测出的所述人体对象可包括至少一个人体对象。可以基于步骤100中检测得到的各个检测框，将检测出的每个人脸对象分别与检测出的每个人体对象进行组合，得到至少一个人脸人体组合，针对每一个组合确定所述匹配关系。例如，在图2的示例中，可以检测检测框21与检测框23两者的匹配关系，也可以检测上述的检测框22与检测框24之间的匹配关系，还可以检测检测框21与检测框24两者的匹配关系，以及检测框22与检测框23两者的匹配关系。

所述的匹配关系表征人脸对象与人体对象是否匹配。比如，属于同一人的人脸对象和人体对象可以确定为是匹配的。示例性的，检测框21中包括的人体对象与检测框23中包括的人脸对象属于图像中的同一人，这两者是相匹配的；反之，检测框21中包括的人体对象与检测框24中包括的人脸对象不属于同一人，则两者是不匹配的。

实际实施中，可以通过多种方式检测上述的匹配关系，在一个示例性的实施方式中，可以根据人脸对象和人体对象的检测结果，确定人脸对象和所述人体对象的位置信息和/或视觉信息；并根据该位置信息和/或视觉信息确定人脸对象和所述人体对象之间的匹配关系。

其中，所述的位置信息可以表示人脸对象和人体对象在图像中的空间位置，或者人脸对象和人体对象之间的空间分布关系。视觉信息表示图像中各个对象在视觉上的特征信息，其一般是图像特征，例如通过对图像进行视觉特征提取，得到的图像中的人脸对象、人体对象的图像特征。

在一个例子中，可以针对每一个所述人脸对象，根据检测到的人体对象和人脸对象的检测框的位置信息，确定与人脸对象的检测框之间满足预设的位置交叠关系的人体对象的检测框为目标检测框，将目标检测框中的人体对象确定为与人脸对象匹配的人体对象。示例性的，可以预设位置交叠关系如下：人脸对象的检测框与人体对象的检测框之间存在交叠，并且交叠面积占人脸对象的检测框面积的比例达到90％以上。在步骤100中检测到的各个人脸对象的检测框与各个人体对象的检测框分别两两组合，并检测成对的两个检测框是否满足上述的预设交叠关系，如果这两个检测框满足上述的预设交叠关系，则确定这两个检测框中包括的人脸对象与人体对象是匹配的。

在另一个例子中，还可以依据人脸对象和人体对象的视觉信息来确定两者的匹配关系。例如，可以根据检测到的人脸对象和人体对象，获取这些对象的图像特征即视觉信息，综合两者的视觉信息来确定人脸对象和人体对象是否是匹配的。示例性的，可以训练神经网络来依据所述的视觉信息进行匹配关系的检测，并利用训练完成的所述神经网络根据输入的两者的视觉信息得到人脸对象和人体对象是否匹配的结论。

在又一个例子中，还可以结合人脸对象和人体对象的位置信息和视觉信息来检测人脸对象与人体对象之间的匹配关系。示例性的，可以既依据人脸对象和人体对象两者的视觉信息，也结合两者的位置信息，来确定人脸对象和人体对象之间是否匹配。例如可以结合人脸对象与人体对象之间在空间上的分布关系与二者的视觉信息，或者结合人脸对象和人体对象检测框之间的位置交叠关系与二者的视觉信息，使用经过训练的神经网络，综合确定人脸对象和人体对象之间是否匹配。该经过训练的神经网络可以包括视觉信息匹配分支和位置信息匹配分支，通过视觉信息匹配分支对人脸对象和人体对象的视觉信息进行匹配，通过位置信息匹配分支对人脸对象与人体对象的位置信息进行匹配，综合两个分支的匹配结果得到人脸对象和人体对象是否匹配的结论；或者，该经过训练的神经网络可以采用“端到端”的模式，对人脸对象的视觉信息和位置信息、人体对象的视觉信息和位置信息进行处理，得到人脸对象和人体对象的匹配关系。

在步骤104中，响应于基于所述匹配关系确定所述人体对象与所述人脸对象相匹配，则确定所述人体对象为检测到的目标对象。

本步骤中，是在步骤102中检测匹配关系的基础上，如果对于一个人体对象来说，图像中存在与之匹配的人脸对象，则可以将该人体对象确定为检测到的目标对象。否则，如果对于一个人体对象来说，图像中不存在与之匹配的人脸对象，则可以确定该人体对象不作为最终检测得到的目标对象。

此外，在检测人脸对象和人体对象之间的匹配关系的基础上，如果基于检测出的匹配关系，确定某个人体对象不存在与之匹配的人脸对象，则可以去除该人体对象的检测框。例如，假设在图像中检测到了一个人体对象的检测框，该检测框位于图像的预设边缘区域，所述的预设边缘区域可以是预先定义的距离图像边缘一定范围内的区域，并且图像中不存在与该检测框中的人体对象相匹配的人脸对象，则该检测框中的人体对象不作为检测到的目标对象。可选的，可以去除这个位于图像的预设边缘区域的检测框。

在其他的例子中，如果是由于人体对象的检测框在图像的边缘而导致该人体对象没有匹配的人脸对象，也可以将检测框中的人体对象确定为目标对象。比如，在基于匹配关系的检测确定检测框中的人体对象不存在与之匹配的人脸对象的情况下，还可以判断该检测框是否处于图像的预设边缘区域，当确定该检测框还位于所述预设边缘区域时，尽管图像中不存在与该人体对象匹配的人脸对象，也可以将该人体对象确定为检测到的目标对象。实际实施中，是否将这种情况下的人体对象作为最终检测到的目标对象，可以根据实际业务需求灵活确定。比如，在统计人数的场景中，可以将这种情况下的人体对象作为最终检测到的目标对象进行保留。

此外，在检测上述的匹配关系之前，还可以检测人脸对象是否被其他的人脸对象或者任何人体对象遮挡。在人脸对象未被其他的人脸对象和任何人体对象遮挡的情况下，执行确定该人脸对象与检测出的人体对象之间的匹配关系的操作。否则，如果检测出的某一人脸对象被其他人脸对象遮挡，或者检测出的该人脸对象被图像中的任一人体对象遮挡，则可以从检测结果中删除该人脸对象。例如，在多人桌面游戏的场景中，由于通常参与游戏的人数较多，可能出现不同人之间相互遮挡的情况，包括肢体的遮挡或者甚至人脸的部分遮挡，那么这种情况下，如果人脸被其他人的肢体或人脸遮挡，则可能会导致人脸对象的检测精度下降，进而依据该人脸对象辅助人体对象检测时人体对象的检测精度也会受到影响；而如上所述的，在确定人脸对象未被其他人体或人脸遮挡的情况下，人脸对象本身的检测具有较高的精度，再使用该人脸对象辅助人体对象的检测，也就能够辅助提高人体对象的检测精度。

进一步地，如果检测到某个人脸对象的检测框与人体对象的检测框之间满足预设的位置交叠关系，并且该人脸对象未被其他的人脸对象和人体对象遮挡，则可以确定该人脸对象和人体对象相匹配。例如，请参见图2的示意，检测框21中的人体对象与检测框23中的人脸对象满足预设的位置交叠关系，且检测框23中的人脸对象未被其他的人脸对象和人体对象遮挡，则确定上述两个检测框中的人体对象和人脸对象之间是匹配的，且该检测框21中的人体对象是检测到的目标对象。

本公开实施例的对象检测方法，通过利用人体对象和人脸对象之间的匹配关系的检测，来辅助进行人体对象的检测，将存在与之匹配的人脸对象的人体对象作为检测得到的目标对象。一方面，由于人脸对象的检测精度较高，因此通过该人脸对象来辅助人体对象的检测，也能够提高人体对象的检测精度；另一方面，该人脸对象是属于人体对象的，所以人脸对象的检测能够起到辅助定位人体对象的作用。该方案能够减少虚检或误检情况的发生，提高了目标对象的检测精度。

此外，在人员密集的场景中，多个人体之间存在交叉或遮挡，传统的人体检测方法中可能出现将不同人的相互交叉的肢体检测为人体对象的情况，本实施例的对象检测方法通过对检测出的人体对象进行人脸对象匹配，能够有效滤除此类误检的人体对象，提供更准确的人体对象检测结果。

图3示出了本公开至少一个实施例提供的一种对象检测方法中使用的网络架构的示意图。如图3所示，该用于做目标检测的网络中可以包括特征提取网络31、对象检测网络32和匹配检测网络33。

特征提取网络31用于对待处理图像(图3中的输入图像)进行特征提取，得到图像特征图。在一个示例中，该特征提取网络31可以包括骨干网(backbone)和FPN(FeaturePyramid Networks，特征金字塔网络)。待处理图像依次经过骨干网和FPN的处理后，就可以提取得到特征图。

例如，骨干网可以使用VGGNet、ResNet等，FPN可以在骨干网得到的特征图基础上将其转换为多层的金字塔结构的特征图。上述的骨干网即目标检测网络的图像特征提取部分backbone，FPN即相当于目标检测网络的neck部分，做特征增强处理，可以对backbone提取到的浅层特征进行增强。

对象检测网络32用于根据所述图像特征图进行对象检测，检测获取所述待处理图像中的至少一个人脸框和至少一个人体框，所述的人脸框即包含人脸对象的检测框，所述的人体框即包含人体对象的检测框。

如图3所示，该对象检测网络32可以包括RPN(Region Proposal Network，区域生成网络)和RCNN(区域卷积神经网络)，其中，RPN可以基于FPN输出的图像特征图预测得到各个对象的锚框(anchor)，RCNN可以基于锚框以及FPN输出的图像特征图预测得到多个边界框(bbox)，该边界框包括人体对象或者人脸对象。如上所述的，包括人体对象的bbox即人体框，包含人脸对象的bbox即人脸框。

匹配检测网络33用于基于RCNN输出的边界框中的人体对象、人脸对象以及图像特征图，检测人脸对象和人体对象之间的匹配关系。

上述的对象检测网络32和匹配检测网络33相当于对象检测任务中的检测器，用于输出检测结果，本公开实施例中的检测结果包括了人体对象、人脸对象、以及匹配对。所述的匹配对即相匹配的一对人体对象和人脸对象。

需要说明的是，上述的特征提取网络31、对象检测网络32和匹配检测网络33，本公开实施例不限制其网络结构，图3所示的结构只是一种示例。例如，也可以不使用图3中的FPN，而是将backbone提取的特征图直接通过RPN/RCNN等进行对象位置的预测。再例如，图3示例的是一种采用两阶段(two stage)进行目标检测的网络框架，其通过使用特征提取网络和对象检测网络执行对象检测，实际实施中也可以采用一阶段(one stage)目标检测网络，即，无需设置独立的特征提取网络，可以使用一阶段目标检测网络作为本实施例中的对象检测网络，实现特征提取和对象检测。当采用一阶段目标检测网络时，在预测得到人体对象和人脸对象后，可以再基于该人体对象和人脸对象预测其中的匹配对。

对于图3所示的网络结构，可以先训练该网络，再利用训练好的网络去检测待处理图像中的目标对象。如下将描述该网络的训练以及应用过程。

可以利用样本图像进行网络训练。例如，可以获取样本图像集，将该样本图像集中的每一个样本图像输入图3所示的特征提取网络31，得到提取的图像特征图。而后通过对象检测网络32根据所述图像特征图，检测获取所述样本图像中的至少一个人脸框和至少一个人体框。再通过匹配检测网络33获取检测出的人脸框和人体框之间的两两匹配关系，比如将任一人脸框与任一人体框组合以形成人脸人体组合，检测该组合中的人脸对象和人体对象是否是匹配的，匹配关系的检测结果可以称为匹配关系的预测值，匹配关系的真值可以称为匹配关系的标签值。最后根据匹配关系的标签值和所述预测值之间的差异，调整所述特征提取网络、对象检测网络和匹配检测网络中至少之一的网络参数。直至达到预定的网络训练结束条件时，结束网络训练，得到训练好的该图3所示的用于目标检测的网络结构。

在网络训练完成之后，例如，要检测某个待处理图像中包括几个人体，其中，该待处理图像中的各个不同人之间存在遮挡，此时，可以将该待处理图像按照图3所示的网络架构进行处理。先通过训练好的特征提取网络31提取得到图像特征图，再通过训练好的对象检测网络32获取图像中的人脸框、人体框，并通过训练好的匹配检测网络33检测到相匹配的人脸对象和人体对象，即获取到匹配对。然后，可以去除掉没有成功匹配人脸对象的人体对象，不将该人体对象作为检测到的目标对象。如果人体对象没有相匹配的人脸对象，则可以认为该人体对象属于人体误检。这样，通过利用较高精度的人脸对象的检测结果对人体对象的检测结果进行过滤，可以提升人体对象检测精度，尤其应用在多人场景中人体对象之间遮挡情况下时能够减少误检。

本公开实施例的对象检测方法，通过利用更高精度的人脸对象的检测，以及人脸对象与人体对象之间的关联关系，来辅助进行人体对象的检测，使得人体对象的检测精度得到了提升，解决了由于对象之间遮挡引起的误检问题。

在一些实施例中，可以保存待处理图像中的目标对象的检测结果，例如在一局多人游戏中，将该检测结果保存在该局多人游戏的缓存中，以根据缓存的信息对游戏状态、人员变化情况等进行分析。或者，可以对待处理图像中的目标对象的检测结果进行可视化的展示，例如在待处理的图像中绘制并显示检测到的目标对象的检测框。

为了实现本公开任一实施例的对象检测方法，图4示出了本公开至少一个实施例提供的一种对象检测装置的结构示意图。如图4所示，该装置可以包括：检测处理模块41、匹配处理模块42和目标对象确定模块43。

检测处理模块41，用于检测待处理图像中的人脸对象和人体对象。

匹配处理模块42，用于确定检测出的所述人脸对象和所述人体对象之间的匹配关系。

目标对象确定模块43，用于响应于基于所述匹配关系确定所述人体对象与所述人脸对象相匹配，则确定所述人体对象为检测到的目标对象。

在一个例子中，检测处理模块41，进一步用于：对所述待处理图像进行对象检测，得到所述待处理图像中的人脸对象的检测框和人体对象的检测框。

在一个例子中，目标对象确定模块43，还用于响应于基于所述匹配关系确定所述待处理图像中不存在与所述人体对象相匹配的人脸对象，则去除所述人体对象的检测框。

在一个例子中，目标对象确定模块43，还用于响应于基于所述匹配关系确定所述待处理图像中不存在与所述人体对象相匹配的人脸对象，并且所述人体对象位于所述待处理图像的预设边缘区域，将所述人体对象确定为检测到的目标对象。

在一个例子中，匹配处理模块42，进一步用于：根据所述人脸对象和所述人体对象的检测结果，确定所述人脸对象和所述人体对象的位置信息和/或视觉信息；根据所述位置信息和/或视觉信息确定所述人脸对象和所述人体对象之间的匹配关系。

在一个例子中，所述位置信息包括检测框的位置信息，匹配处理模块42，进一步用于：针对每一个所述人脸对象，根据检测框的位置信息，确定与所述人脸对象的检测框之间满足预设的位置交叠关系的人体对象的检测框为目标检测框，将目标检测框中的人体对象确定为与所述人脸对象匹配的人体对象。

在一个例子中，匹配处理模块42，进一步用于：响应于检测出的人脸对象未被检测出的人体对象和其他人脸对象遮挡，确定检测出的所述人脸对象和所述人体对象之间的匹配关系。

在一个例子中，检测出的所述人脸对象可包括至少一个人脸对象，检测出的所述人体对象可包括至少一个人体对象；匹配处理模块42，进一步用于：将检测出的每个人脸对象分别与检测出的每个人体对象进行组合，得到至少一个人脸人体组合，针对每一个组合确定所述匹配关系。

在一个例子中，如图5所示，该装置还可以包括网络训练模块44。

检测处理模块41，进一步用于：采用对象检测网络对所述待处理图像进行对象检测，得到所述待处理图像中的人脸对象的检测框和人体对象的检测框。

匹配处理模块42，进一步用于：采用匹配检测网络确定检测出的所述人脸对象和所述人体对象之间的匹配关系。

网络训练模块44，用于：通过待训练的所述对象检测网络，检测样本图像中的至少一个人脸框和至少一个人体框；通过待训练的所述匹配检测网络，获取检测出的人脸框与人体框两两之间的匹配关系的预测值；基于所述匹配关系的预测值和标签值之间的差异，调整所述对象检测网络和匹配检测网络中至少之一的网络参数。

本公开实施例的对象检测装置，通过利用人体对象和人脸对象之间的匹配关系的检测，来辅助进行人体对象的检测，将存在与之匹配的人脸对象的人体对象作为检测得到的目标对象，使得人体对象的检测精度较高。

本公开还提供了一种电子设备，所述电子设备包括存储器、处理器，所述存储器用于存储可在处理器上运行的计算机指令，所述处理器用于在执行所述计算机指令时实现本公开任一实施例的方法。

本公开还提供了一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时使所述处理器实现本公开任一实施例所述的方法。

本公开还提供了一种计算机程序，包括计算机可读代码，其中，所述计算机可读代码在电子设备中运行时使所述电子设备中的处理器实现本公开任一实施例所述的方法。

本领域技术人员应明白，本公开一个或多个实施例可提供为方法、系统或计算机程序产品。因此，本公开一个或多个实施例可采用完全硬件实施例、完全软件实施例或结合软件和硬件方面的实施例的形式。而且，本公开一个或多个实施例可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本文中所述的“和/或”表示至少具有两者中的其中一个，例如，“A和/或B”包括三种方案：A、B、以及“A和B”。

本公开中的各个实施例均采用递进的方式描述，各个实施例之间相同或相似的部分互相参见即可，每个实施例重点说明的都是与其他实施例的不同之处。尤其，对于数据处理设备实施例而言，由于其基本相似于方法实施例，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。

上述对本公开特定实施例进行了描述。其它实施例在所附权利要求书的范围内。在一些情况下，在权利要求书中记载的行为或步骤可以按照不同于实施例中的顺序来执行并且仍然可以实现期望的结果。另外，在附图中描绘的过程不一定要求示出的特定顺序或者连续顺序才能实现期望的结果。在某些实施方式中，多任务处理和并行处理也是可以的或者可能是有利的。

本公开中描述的主题及功能操作的实施例可以在以下中实现：数字电子电路、有形体现的计算机软件或固件、包括本公开中公开的结构及其结构性等同物的计算机硬件、或者它们中的一个或多个的组合。本公开中描述的主题的实施例可以实现为一个或多个计算机程序，即编码在有形非暂时性程序载体上以被数据处理装置执行或控制数据处理装置的操作的计算机程序指令中的一个或多个模块。可替代地或附加地，程序指令可以被编码在人工生成的传播信号上，例如机器生成的电、光或电磁信号，该信号被生成以将信息编码并传输到合适的接收机装置以由数据处理装置执行。计算机存储介质可以是机器可读存储设备、机器可读存储基板、随机或串行存取存储器设备、或它们中的一个或多个的组合。

本公开中描述的处理及逻辑流程可以由执行一个或多个计算机程序的一个或多个可编程计算机执行，以通过根据输入数据进行操作并生成输出来执行相应的功能。所述处理及逻辑流程还可以由专用逻辑电路—例如FPGA(现场可编程门阵列)或ASIC(专用集成电路)来执行，并且装置也可以实现为专用逻辑电路。

适合用于执行计算机程序的计算机包括，例如通用和/或专用微处理器，或任何其他类型的中央处理单元。通常，中央处理单元将从只读存储器和/或随机存取存储器接收指令和数据。计算机的基本组件包括用于实施或执行指令的中央处理单元以及用于存储指令和数据的一个或多个存储器设备。通常，计算机还将包括用于存储数据的一个或多个大容量存储设备，例如磁盘、磁光盘或光盘等，或者计算机将可操作地与此大容量存储设备耦接以从其接收数据或向其传送数据，抑或两种情况兼而有之。然而，计算机不是必须具有这样的设备。此外，计算机可以嵌入在另一设备中，例如移动电话、个人数字助理(PDA)、移动音频或视频播放器、游戏操纵台、全球定位系统(GPS)接收机、或例如通用串行总线(USB)、闪存驱动器的便携式存储设备，仅举几例。

适合于存储计算机程序指令和数据的计算机可读介质包括所有形式的非易失性存储器、媒介和存储器设备，例如包括半导体存储器设备(例如EPROM、EEPROM和闪存设备)、磁盘(例如内部硬盘或可移动盘)、磁光盘以及CD ROM和DVD-ROM盘。处理器和存储器可由专用逻辑电路补充或并入专用逻辑电路中。

虽然本公开包含许多具体实施细节，但是这些不应被解释为限制任何公开的范围或所要求保护的范围，而是主要用于描述特定公开的具体实施例的特征。本公开内在多个实施例中描述的某些特征也可以在单个实施例中被组合实施。另一方面，在单个实施例中描述的各种特征也可以在多个实施例中分开实施或以任何合适的子组合来实施。此外，虽然特征可以如上所述在某些组合中起作用并且甚至最初如此要求保护，但是来自所要求保护的组合中的一个或多个特征在一些情况下可以从该组合中去除，并且所要求保护的组合可以指向子组合或子组合的变型。

类似地，虽然在附图中以特定顺序描绘了操作，但是这不应被理解为要求这些操作以所示的特定顺序执行或顺次执行、或者要求所有例示的操作被执行，以实现期望的结果。在某些情况下，多任务和并行处理可能是有利的。此外，上述实施例中的各种系统模块和组件的分离不应被理解为在所有实施例中均需要这样的分离，并且应当理解，所描述的程序组件和系统通常可以一起集成在单个软件产品中，或者封装成多个软件产品。

以上所述仅为本公开一个或多个实施例的一些实施例而已，并不用以限制本公开一个或多个实施例，凡在本公开一个或多个实施例的精神和原则之内，所做的任何修改、等同替换、改进等，均应包含在本公开一个或多个实施例保护的范围之内。

Claims

1.一种对象检测方法，包括：

检测待处理图像中的人脸对象和人体对象；

确定检测出的所述人脸对象和所述人体对象之间的匹配关系；

响应于基于所述匹配关系确定所述人体对象与所述人脸对象相匹配，则确定所述人体对象为检测到的目标对象。

2.根据权利要求1所述的方法，其中，所述检测待处理图像中的人脸对象和人体对象，包括：

对所述待处理图像进行对象检测，得到所述待处理图像中的人脸对象的检测框和人体对象的检测框。

3.根据权利要求2所述的方法，所述方法还包括：响应于基于所述匹配关系确定所述待处理图像中不存在与所述人体对象相匹配的人脸对象，则去除所述人体对象的检测框。

4.根据权利要求1所述的方法，所述方法还包括：响应于基于所述匹配关系确定所述待处理图像中不存在与所述人体对象相匹配的人脸对象，并且所述人体对象位于所述待处理图像的预设边缘区域，将所述人体对象确定为检测到的目标对象。

5.根据权利要求1所述的方法，其中，所述确定检测出的所述人脸对象和所述人体对象之间的匹配关系，包括：

根据所述人脸对象和所述人体对象的检测结果，确定所述人脸对象和所述人体对象的位置信息和/或视觉信息；

根据所述位置信息和/或所述视觉信息确定所述人脸对象和所述人体对象之间的匹配关系。

6.根据权利要求5所述的方法，其中，所述位置信息包括检测框的位置信息；

所述根据所述位置信息和/或所述视觉信息确定所述人脸对象和所述人体对象之间的匹配关系，包括：

针对每一个所述人脸对象，

根据所述检测框的位置信息，确定与所述人脸对象的检测框之间满足预设的位置交叠关系的人体对象的检测框为目标检测框；

将所述目标检测框中的人体对象确定为与所述人脸对象匹配的人体对象。

7.根据权利要求1所述的方法，其中，所述确定检测出的所述人脸对象和所述人体对象之间的匹配关系，包括：

响应于检测出的人脸对象未被检测出的人体对象和其他人脸对象遮挡，确定检测出的所述人脸对象和所述人体对象之间的匹配关系。

8.根据权利要求1所述的方法，其中，检测出的所述人脸对象包括至少一个人脸对象，检测出的所述人体对象包括至少一个人体对象；

所述确定检测出的所述人脸对象和所述人体对象之间的匹配关系，包括：

将检测出的每个人脸对象分别与检测出的每个人体对象进行组合，得到至少一个人脸人体组合，针对每一个组合确定所述匹配关系。

9.根据权利要求1～8任一所述的方法，其中，所述检测待处理图像中的人脸对象和人体对象，包括：

采用对象检测网络对所述待处理图像进行对象检测，得到所述待处理图像中的人脸对象的检测框和人体对象的检测框；

采用匹配检测网络确定检测出的所述人脸对象和所述人体对象之间的匹配关系；

其中，所述对象检测网络和所述匹配检测网络按照如下方式训练得到：

通过待训练的所述对象检测网络，检测样本图像中的至少一个人脸框和至少一个人体框；

通过待训练的所述匹配检测网络，获取检测出的人脸框与人体框两两之间的匹配关系的预测值；

基于所述匹配关系的预测值和标签值之间的差异，调整所述对象检测网络和匹配检测网络中至少之一的网络参数。

10.一种对象检测装置，所述装置包括：

检测处理模块，用于检测待处理图像中的人脸对象和人体对象；

匹配处理模块，用于确定检测出的所述人脸对象和所述人体对象之间的匹配关系；

目标对象确定模块，用于响应于基于所述匹配关系确定所述人体对象与所述人脸对象相匹配，则确定所述人体对象为检测到的目标对象。

11.根据权利要求10所述的装置，其中，

所述检测处理模块，进一步用于：对所述待处理图像进行对象检测，得到所述待处理图像中的人脸对象的检测框和人体对象的检测框。

12.根据权利要求11所述的装置，其中，

所述目标对象确定模块，还用于响应于基于所述匹配关系确定所述待处理图像中不存在与所述人体对象相匹配的人脸对象，则去除所述人体对象的检测框。

13.根据权利要求10所述的装置，其中，

所述目标对象确定模块，还用于响应于基于所述匹配关系确定所述待处理图像中不存在与所述人体对象相匹配的人脸对象，并且所述人体对象位于所述待处理图像的预设边缘区域，将所述人体对象确定为检测到的目标对象。

14.根据权利要求10所述的装置，其中，

所述匹配处理模块，进一步用于：根据所述人脸对象和所述人体对象的检测结果，确定所述人脸对象和所述人体对象的位置信息和/或视觉信息；根据所述位置信息和/或所述视觉信息确定所述人脸对象和所述人体对象之间的匹配关系。

15.根据权利要求14所述的装置，其中，所述位置信息包括检测框的位置信息；

所述匹配处理模块，进一步用于：

针对每一个所述人脸对象，

根据检测框的位置信息，确定与所述人脸对象的检测框之间满足预设的位置交叠关系的人体对象的检测框为目标检测框；

16.根据权利要求10所述的装置，其中，

所述匹配处理模块，进一步用于：响应于检测出的人脸对象未被检测出的人体对象和其他人脸对象遮挡，确定检测出的所述人脸对象和所述人体对象之间的匹配关系；和/或

在检测出的所述人脸对象包括至少一个人脸对象，检测出的所述人体对象包括至少一个人体对象的情况下，所述匹配处理模块，进一步用于：将检测出的每个人脸对象分别与检测出的每个人体对象进行组合，得到至少一个人脸人体组合，针对每一个组合确定所述匹配关系。

17.根据权利要求10～16任一所述的装置，其中，

所述检测处理模块，进一步用于：采用对象检测网络对所述待处理图像进行对象检测，得到所述待处理图像中的人脸对象的检测框和人体对象的检测框；

所述匹配处理模块，进一步用于：采用匹配检测网络确定检测出的所述人脸对象和所述人体对象之间的匹配关系；

所述装置还包括：网络训练模块，用于：通过待训练的所述对象检测网络，检测样本图像中的至少一个人脸框和至少一个人体框；通过待训练的所述匹配检测网络，获取检测出的人脸框与人体框两两之间的匹配关系的预测值；基于所述匹配关系的预测值和标签值之间的差异，调整所述对象检测网络和匹配检测网络中至少之一的网络参数。

18.一种电子设备，所述电子设备包括存储器、处理器，所述存储器用于存储可在处理器上运行的计算机指令，所述处理器用于在执行所述计算机指令时实现权利要求1至9任一所述的方法。

19.一种计算机可读存储介质，其上存储有计算机程序，其中，所述计算机程序被处理器执行时使所述处理器实现权利要求1至9任一所述的方法。

20.一种计算机程序，包括计算机可读代码，其中，所述计算机可读代码在电子设备中运行时使所述电子设备中的处理器实现权利要求1至9任一所述的方法。