CN111126379A

CN111126379A - 一种目标检测方法与装置

Info

Publication number: CN111126379A
Application number: CN201911157879.XA
Authority: CN
Inventors: 李峰; 程晓娟; 刘红丽
Original assignee: Suzhou Inspur Intelligent Technology Co Ltd
Current assignee: Suzhou Inspur Intelligent Technology Co Ltd
Priority date: 2019-11-22
Filing date: 2019-11-22
Publication date: 2020-05-08
Anticipated expiration: 2039-11-22
Also published as: CN111126379B; WO2021098261A1; US20230045519A1

Abstract

本发明公开了一种目标检测方法与装置，包括：获取输入图像并送入候选区域生成网络，以生成多个感兴趣区域；将多个感兴趣区域格式化后送入目标关键点网络，以生成热力图；使用输入图像的全局特征图元积热力图，以生成局部深度特征图；融合全局特征图和局部深度特征图并使用检测器从中检测目标。本发明能够适用于不同尺度的目标检测，提升目标检测技术在复杂场景下对被遮挡目标的检测精度和鲁棒性，同时通过充分利用目标局部关键点信息解决了遮挡情况下的目标定位。

Description

一种目标检测方法与装置

技术领域

本发明涉及计算机识别领域，更具体地，特别是指一种目标检测方法与装置。

背景技术

目标检测技术是指通过图像处理及模式识别等算法从给定的图像数据中检测出目标，给予目标坐标位置和置信度。目标检测是计算机视觉中一个重要的研究热点，是行为分析，姿态估计，目标属性分析，智能监控，自动驾驶等实际应用中的核心技术之一。同时也具有许多实际应用，例如自动驾驶、智能监控和机器人等。因此目标检测技术具有极高的科研价值和商业价值，近年来，它在计算机视觉领域引起了极大的关注。

对于给定图像，为了得到图片中所有目标的位置，检测器需要使用基于手工特征的方法或基于深度特征学习的方法来提取特征。基于手工特征的方法主要考虑了目标的先验信息，对输入图像进行一系列简单的变化，得到目标特征。如采用方向梯度直方图算法挖掘目标的外形信息和运动信息，或者对图像进行不同的变化，并利用积分通道将其融合，从而形成丰富的特征集。可形变部件模型的检测算法针对人体部件建立一定形式的空间约束，根据模型与部件模型的共同作用检测人体目标。虽然上述传统检测方法在简单场景中能够达到应用水平，但是在复杂的自然场景下，基于手工特征的目标检测方法的鲁棒性低。

相比之下，深度特征学习的方法能够通过大量的数据自主学习出具有高鲁棒性的特征，从而显著性的提升检测精准度。现有技术使用预选框生成网络生成预选框，并采用感兴趣区域池化法统一不同大小的感兴趣区域的特征维度，并通过一系列的全链接层提取深度特征，然后用其训练级联森林，从而提高了检测器对小尺度目标的检测性能。现有技术还使用不同感受野的卷积层生成不同尺度的预选框，感受野小的卷积层用于小尺度预选框的生成而感受野大的卷积层用于大尺度预选框的生成，然后对所有预选框微调和再分类得到最后检测结果。现有技术还将人体部件之间的空间关联信息引入到深度部件检测器中，从而提升了遮挡情况下的行人检测性能。大多数最先进的目标检测方法在理想的情况下，即目标没有被遮挡或被轻微遮挡的情况下，具有较好的检测性能。然而当目标被严重遮挡时，这些方法会受到严重影响。例如在行人检测中，由于大多数身体部位是不可见的，因此检测器很容易被遮挡物误导，从而无法有效的识别行人。由于目标在现实世界的应用中可能被不同的物体遮挡，因此处理遮挡问题对于鲁棒的目标检测至关重要。

针对现有技术中单一尺度的检测器难以应对不同尺度的目标、在自然场景下其他物体可能对目标造成不同程度的遮挡、大部分监控场景里的小目标特征不明显且分辨率低等问题，目前尚无有效的解决方案。

发明内容

有鉴于此，本发明实施例的目的在于提出一种目标检测方法与装置，能够适用于不同尺度的目标检测，提升目标检测技术在复杂场景下对被遮挡目标的检测精度和鲁棒性，同时通过充分利用目标局部关键点信息解决了遮挡情况下的目标定位。

基于上述目的，本发明实施例的第一方面提供了一种目标检测方法，包括执行以下步骤：

获取输入图像并送入候选区域生成网络，以生成多个感兴趣区域；

将多个感兴趣区域格式化后送入目标关键点网络，以生成热力图；

使用输入图像的全局特征图元积热力图，以生成局部深度特征图；

融合全局特征图和局部深度特征图并使用检测器从中检测目标。

在一些实施方式中，将多个感兴趣区域格式化后送入目标关键点网络，以生成热力图包括：

将多个感兴趣区域从输入图像中提取并调整为具有相同大小；

在目标关键点网络中池化多个感兴趣区域并采样；

针对多个采样使用局部特征抽取算法获取特征信息，生成多个目标关键点解析图；

将多个目标关键点解析图格式化以生成热力图。

在一些实施方式中，使用输入图像的全局特征图元积热力图，以生成局部深度特征图包括：

对热力图执行关键点深度特征变换，以从热力图中提取适于执行元积的关键点深度特征；

使用全局特征图的全局检测特征元积关键点深度特征，获得局部关键点深度特征；

根据局部关键点深度特征还原出局部深度特征图。

在一些实施方式中，检测器包括移除了全连接层和分类层、并且设置了额外的新卷积层的深度卷积神经网络。

在一些实施方式中，新卷积层包括具有高分辨率和小感受野以检测小目标的第一新卷积层和具有低分辨率和大感受野以检测大目标的第二新卷积层。

本发明实施例的第二方面提供了一种目标检测装置，包括：

处理器；和

存储器，存储有处理器可运行的程序代码，程序代码在被运行时执行以下步骤：

获取输入图像并送入候选区域生成网络，以生成多个感兴趣区域；将多个感兴趣区域格式化后送入目标关键点网络，以生成热力图；使用输入图像的全局特征图元积热力图，以生成局部深度特征图；融合全局特征图和局部深度特征图并使用检测器从中检测目标。

在目标关键点网络中池化多个感兴趣区域并采样；

将多个目标关键点解析图格式化以生成热力图。

根据局部关键点深度特征还原出局部深度特征图。

本发明具有以下有益技术效果：本发明实施例提供的目标检测方法与装置，通过获取输入图像并送入候选区域生成网络，以生成多个感兴趣区域；将多个感兴趣区域格式化后送入目标关键点网络，以生成热力图；使用输入图像的全局特征图元积热力图，以生成局部深度特征图；融合全局特征图和局部深度特征图并使用检测器从中检测目标的技术方案，能够适用于不同尺度的目标检测，提升目标检测技术在复杂场景下对被遮挡目标的检测精度和鲁棒性，同时通过充分利用目标局部关键点信息解决了遮挡情况下的目标定位。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明提供的目标检测方法的流程示意图；

图2为本发明提供的目标检测方法的整体架构示意图；

图3为本发明提供的目标检测方法的目标关键点网络具体架构图；

图4为本发明提供的目标检测方法的检测器具体架构图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚明白，以下结合具体实施例，并参照附图，对本发明实施例进一步详细说明。

需要说明的是，本发明实施例中所有使用“第一”和“第二”的表述均是为了区分两个相同名称非相同的实体或者非相同的参量，可见“第一”“第二”仅为了表述的方便，不应理解为对本发明实施例的限定，后续实施例对此不再一一说明。

基于上述目的，本发明实施例的第一个方面，提出了一种能够适用于不同尺度的目标检测方法的一个实施例。图1示出的是本发明提供的目标检测方法的流程示意图。

所述目标检测方法，如图1所示，包括执行以下步骤：

步骤S101：获取输入图像并送入候选区域生成网络，以生成多个感兴趣区域；

步骤S103：将多个感兴趣区域格式化后送入目标关键点网络，以生成热力图；

步骤S105：使用输入图像的全局特征图元积热力图，以生成局部深度特征图；

步骤S107：融合全局特征图和局部深度特征图并使用检测器从中检测目标。

本发明公开了基于目标局部关键特征融合的方法，以提升现有目标检测技术在复杂场景下对被遮挡目标的检测精度和鲁棒性。本发明提出结合拥有不同感受野的特征层，从而获得更多局部信息和背景信息，使得检测器对不同尺度的目标检测更加鲁棒，同时通过充分利用目标关键点信息解决在遮挡情况下对目标的定位。所述目标检测方案包含用于提取目标整体特征的候选区域生成网络、用于抽取局部特征的目标关键点检测网络、用于融合两种尺度特征的特征融合。

本发明提出使用候选区域生成网络生成感兴趣区域，然后使用遮挡感知深度网络对其进行分类(目标/背景)。为了有效识别被遮挡的目标，本发明提出随机生成遮挡样本并提供遮挡物的具体位置，使得遮挡感知深度网络能够有效的区分目标和遮挡物。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，可以通过计算机程序来指令相关硬件来完成，所述的程序可存储于一计算机可读取存储介质中，该程序在执行时，可包括如上述各方法的实施例的流程。其中，所述的存储介质可为磁碟、光盘、只读存储记忆体(ROM)或随机存储记忆体(RAM)等。所述计算机程序的实施例，可以达到与之对应的前述任意方法实施例相同或者相类似的效果。

在目标关键点网络中池化多个感兴趣区域并采样；

将多个目标关键点解析图格式化以生成热力图。

根据局部关键点深度特征还原出局部深度特征图。

根据本发明实施例公开的方法还可以被实现为由CPU执行的计算机程序，该计算机程序可以存储在计算机可读存储介质中。在该计算机程序被CPU执行时，执行本发明实施例公开的方法中限定的上述功能。上述方法步骤以及系统单元也可以利用控制器以及用于存储使得控制器实现上述步骤或单元功能的计算机程序的计算机可读存储介质实现。

下面根据如图2所示的具体实施例来进一步阐述本发明的具体实施方式。参考图2，本发明实施例的流程如下：

1)将输入图像送到候选区域生成网络中。

2)候选区域生成网络生成一系列感兴趣区域，其中包括目标和背景。

3)将感兴趣区域从原始图像裁剪下来调整至相同大小图片，并将候选区域送入目标关键点网络生成热力图。

4)将目标关键点热力图和高分辨率的特征图进行元积，从而显著化目标各部位的特征。这可以解决在遮挡情况下对目标的定位。

5)检测特征通过合并相邻且拥有不同感受野大小的特征图，从而获得目标更丰富的局部和背景信息，进一步加强检测器对不同尺度目标的鲁棒性。

行人检测器主要架构是基于深度卷积神经网络。我们将适用于分类的深度卷积神经网络VGG16进行调整使其能够用于检测任务。具体地，我们去除了所有全连接层以及分类层，并在卷积神经网络后面增加了一系列的卷积层。这些新卷积层拥有更广阔的感受野，从而能更有效的检测大尺度行人。VGG16神经网络是由一系列的卷积层和池化层组成，使得其特征层的感受野随着网络深度逐渐变大而分辨率逐渐下降。本发明使用不同感受野与分辨率的特征层去检测不同尺度的行人，其中，高分辨率且感受野小的浅层特征图用于检测小目标，而低分辨率但感受野大的深层特征图用于检测大目标。区别于传统深度卷积网络，对于人体关键点解析，我们采用hourglass架构生成头部，左右臂肘，左右膝盖等关键点热度图。

本发明所涉及的目标关键点检测网络旨在显著化目标局部特，实现对被遮挡的目标检测的鲁棒性。考虑到目标检测实时性的需求，本发明去除了预选框生成网络，并在检测层的每一个位置手工设定不同大小的预设框B，通过检测器检测到的这些预设框进行微调和分类即可得到最终的检测结果，这样可以有效提升检测效率。而我们的关键点网络就是建立在预设框基础之上，对检测器检测到的这些预设框一方面送入检测网络作为目标整体特征F_g，一方面送入关键点网络H生成关键点的热度图M。

M＝H(B)

关键点网络H在经过一系列的池化下采样后，卷积层被上采样回原图大小。在上采样过程中采用局部特征抽取算法挖掘多层次的特征信息来得到目标关键点解析图。为了得到关键点深度特征并协助检测网络，我们将目标解析图下采样至检测特征大小，并使其通道数和检测特征一样，如图3所示。

本发明对所得到的整体及局部关键特征进行融合。由于一系列的池化和压缩检测层的特征容易丢失关于小目标的信息或将其他物体误判为小尺度的目标或被遮挡的目标的局部，从而导致漏检和误检。为了增强检测层特征对于小目标和局部部位的鲁棒性，我们利用局部关键点特征辅助目标整体特征的检测层特征来表达被检目标信息：

F_l＝D_k(M)⊙F_g

F＝concat(F_l，F_g)

其中F_l为局部关键点深度特征，D_k(M)中的M是行人部位解析图，D_k是关键点深度特征变换操作，其采样s倍以及通道数为c以满足元积的操作，F_g是全局目标检测层的特征，⊙为元积操作。通过将检测特征点乘关键点深度特征，以过滤掉大部分背景，显著化了人体部位的区域。通过局部融合关键点特征与行人整体特征有效提高检测特征的表达能力。

从上述实施例可以看出，本发明实施例提供的目标检测方法，通过获取输入图像送入候选区域生成网络，生成多个感兴趣区域；将多个感兴趣区域格式化后送入目标关键点网络，生成热力图；使用输入图像的全局特征图元积热力图，生成局部深度特征图；融合全局特征图和局部深度特征图以使用检测器检测目标的技术方案，能够适用于不同尺度的目标检测，提升目标检测技术在复杂场景下对被遮挡目标的检测精度和鲁棒性，同时通过充分利用目标局部关键点信息解决了遮挡情况下的目标定位。

需要特别指出的是，上述目标检测方法的各个实施例中的各个步骤均可以相互交叉、替换、增加、删减，因此，这些合理的排列组合变换之于目标检测方法也应当属于本发明的保护范围，并且不应将本发明的保护范围局限在所述实施例之上。

基于上述目的，本发明实施例的第二个方面，提出了一种能够提高系统安全性的针对来自远程桌面登录的暴力破解的防护装置的一个实施例。

目标检测装置包括：

处理器；和

在目标关键点网络中池化多个感兴趣区域并采样；

将多个目标关键点解析图格式化以生成热力图。

根据局部关键点深度特征还原出局部深度特征图。

从上述实施例可以看出，本发明实施例提供的目标检测装置，通过获取输入图像并送入候选区域生成网络，以生成多个感兴趣区域；将多个感兴趣区域格式化后送入目标关键点网络，以生成热力图；使用输入图像的全局特征图元积热力图，以生成局部深度特征图；融合全局特征图和局部深度特征图并使用检测器从中检测目标的技术方案，能够适用于不同尺度的目标检测，提升目标检测技术在复杂场景下对被遮挡目标的检测精度和鲁棒性，同时通过充分利用目标局部关键点信息解决了遮挡情况下的目标定位。

需要特别指出的是，上述目标检测装置的实施例采用了所述目标检测方法的实施例来具体说明各模块的工作过程，本领域技术人员能够很容易想到，将这些模块应用到所述目标检测方法的其他实施例中。当然，由于所述目标检测方法实施例中的各个步骤均可以相互交叉、替换、增加、删减，因此，这些合理的排列组合变换之于所述目标检测装置也应当属于本发明的保护范围，并且不应将本发明的保护范围局限在所述实施例之上。

以上是本发明公开的示例性实施例，但是应当注意，在不背离权利要求限定的本发明实施例公开的范围的前提下，可以进行多种改变和修改。根据这里描述的公开实施例的方法权利要求的功能、步骤和/或动作不需以任何特定顺序执行。此外，尽管本发明实施例公开的元素可以以个体形式描述或要求，但除非明确限制为单数，也可以理解为多个。

应当理解的是，在本文中使用的，除非上下文清楚地支持例外情况，单数形式“一个”旨在也包括复数形式。还应当理解的是，在本文中使用的“和/或”是指包括一个或者一个以上相关联地列出的项目的任意和所有可能组合。上述本发明实施例公开实施例序号仅仅为了描述，不代表实施例的优劣。

本领域普通技术人员可以理解实现上述实施例的全部或部分步骤可以通过硬件来完成，也可以通过程序来指令相关的硬件完成，所述的程序可以存储于一种计算机可读存储介质中，上述提到的存储介质可以是只读存储器，磁盘或光盘等。

所属领域的普通技术人员应当理解：以上任何实施例的讨论仅为示例性的，并非旨在暗示本发明实施例公开的范围(包括权利要求)被限于这些例子；在本发明实施例的思路下，以上实施例或者不同实施例中的技术特征之间也可以进行组合，并存在如上所述的本发明实施例的不同方面的许多其它变化，为了简明它们没有在细节中提供。因此，凡在本发明实施例的精神和原则之内，所做的任何省略、修改、等同替换、改进等，均应包含在本发明实施例的保护范围之内。

Claims

1.一种目标检测方法，其特征在于，包括执行以下步骤：

将所述多个感兴趣区域格式化后送入目标关键点网络，以生成热力图；

使用所述输入图像的全局特征图元积所述热力图，以生成局部深度特征图；

融合所述全局特征图和所述局部深度特征图并使用检测器从中检测目标。

2.根据权利要求1所述的方法，其特征在于，将所述多个感兴趣区域格式化后送入所述目标关键点网络，以生成所述热力图包括：

将所述多个感兴趣区域从所述输入图像中提取并调整为具有相同大小；

在所述目标关键点网络中池化所述多个感兴趣区域并采样；

针对多个所述采样使用局部特征抽取算法获取特征信息，生成多个目标关键点解析图；

将多个所述目标关键点解析图格式化以生成热力图。

3.根据权利要求1所述的方法，其特征在于，使用所述输入图像的所述全局特征图元积所述热力图，以生成所述局部深度特征图包括：

对所述热力图执行关键点深度特征变换，以从所述热力图中提取适于执行元积的关键点深度特征；

使用所述全局特征图的全局检测特征元积所述关键点深度特征，获得局部关键点深度特征；

根据所述局部关键点深度特征还原出所述局部深度特征图。

4.根据权利要求1所述的方法，其特征在于，所述检测器包括移除了全连接层和分类层、并且设置了额外的新卷积层的深度卷积神经网络。

5.根据权利要求4所述的方法，其特征在于，所述新卷积层包括具有高分辨率和小感受野以检测小目标的第一新卷积层和具有低分辨率和大感受野以检测大目标的第二新卷积层。

6.一种目标检测装置，其特征在于，包括：

处理器；和

存储器，存储有处理器可运行的程序代码，所述程序代码在被运行时执行以下步骤：

7.根据权利要求6所述的装置，其特征在于，将所述多个感兴趣区域格式化后送入所述目标关键点网络，以生成所述热力图包括：

在所述目标关键点网络中池化所述多个感兴趣区域并采样；

将多个所述目标关键点解析图格式化以生成热力图。

8.根据权利要求6所述的装置，其特征在于，使用所述输入图像的所述全局特征图元积所述热力图，以生成所述局部深度特征图包括：

根据所述局部关键点深度特征还原出所述局部深度特征图。

9.根据权利要求6所述的装置，其特征在于，所述检测器包括移除了全连接层和分类层、并且设置了额外的新卷积层的深度卷积神经网络。

10.根据权利要求9所述的装置，其特征在于，所述新卷积层包括具有高分辨率和小感受野以检测小目标的第一新卷积层和具有低分辨率和大感受野以检测大目标的第二新卷积层。