CN110084146B

CN110084146B - 基于遮挡感知自监督学习的行人检测方法及装置

Info

Publication number: CN110084146B
Application number: CN201910277903.7A
Authority: CN
Inventors: 鲁继文; 周杰; 林纯泽; 段岳圻
Original assignee: Tsinghua University
Current assignee: Tsinghua University
Priority date: 2019-04-08
Filing date: 2019-04-08
Publication date: 2021-06-04
Anticipated expiration: 2039-04-08
Also published as: CN110084146A

Abstract

本发明公开了一种基于遮挡感知自监督学习的行人检测方法及装置，其中，方法包括：将输入图像送到候选区域生成网络中以生成包括行人区域和背景区域的多个感兴趣区域；对多个感兴趣区域进行预处理，以得到多张感兴趣图片，并根据多张感兴趣图片随机生成遮挡物以得到遮挡样本图片和遮挡图；将多张感兴趣图片和遮挡样本图片输入至遮挡感知深度网络，并通过遮挡图监督训练网络，以得到遮挡感知深度网络的置信度；根据多个感兴趣区域和候选区域生成网络的置信度及遮挡感知深度网络的置信度得到行人检测结果。该方法随机生成遮挡样本并提供遮挡物的具体位置，使得遮挡感知深度网络能够有效的区分人体和遮挡物，具备更鲁棒的识别能力。

Description

基于遮挡感知自监督学习的行人检测方法及装置

技术领域

本发明涉及计算机图像处理中的行人检测技术领域，特别涉及一种基于遮挡感知自监督学习的行人检测方法及装置。

背景技术

行人检测是视觉分析中最重要的任务之一，具有许多实际应用，例如自动驾驶、智能监控和机器人。因此行人检测技术具有极高的科研价值和商业价值，近年来，它在计算机视觉领域引起了极大的关注。尽管有大量的学者从事行人检测算法的研究，行人检测任务依然具有很大的挑战性。大多数最先进的行人检测方法在合理的情况下，即行人没有被遮挡或被轻微遮挡的情况下，具有较好的检测性能。然而，当行人被严重遮挡时，这些方法会受到严重影响。由于大多数身体部位是不可见的，因此行人检测器很容易被遮挡物误导，从而无法有效的识别行人。由于行人在现实世界的应用中可能被不同的物体遮挡，因此处理遮挡问题对于鲁棒的行人检测至关重要。

现有技术提出了一些方法来减轻遮挡的干扰，例如学习身体部位检测器以局部地识别特定的身体部位，然后通过考虑多个部位的置信度来做出最终检测的决定。现有大多数方法主要使用RPN(Region Proposal Network，候选区域生成网络)提取一系列可能存在行人的区域，并在这些区域使用身体部位检测器寻找人体的部位(头部、胸部、手、腿、脚等等)。如果存在行人的身体部位，则表明区域确实存在目标，并将此区域的置信度提高作为检测结果。

然而，这些方法的主要缺点是非常依赖于拥有细粒度标注的数据集(例如可见身体部位注释)来学习每个身体部位的检测器，收集这些精准标注的数据集需要非常昂贵且耗时的人工，从而使得这些方法无法在大多数仅具有整个身体位置标注的现有行人数据集上进行训练。

发明内容

本发明旨在至少在一定程度上解决相关技术中的技术问题之一。

为此，本发明的一个目的在于提出一种基于遮挡感知自监督学习的行人检测方法，该方法可以有效提高行人检测的精度和鲁棒性，简单易实现。

本发明的另一个目的在于提出一种基于遮挡感知自监督学习的行人检测装置。

为达到上述目的，本发明一方面实施例提出了一种基于遮挡感知自监督学习的行人检测方法，包括以下步骤：将输入图像送到候选区域生成网络中以生成多个感兴趣区域，其中，所述多个感兴趣区域包括行人区域和背景区域；对所述多个感兴趣区域进行预处理，以得到多张感兴趣图片，并根据所述多张感兴趣图片随机生成遮挡物以得到遮挡样本图片和遮挡图；将所述多张感兴趣图片和遮挡样本图片输入至遮挡感知深度网络，并通过所述遮挡图监督训练网络，以得到所述遮挡感知深度网络的置信度；根据所述多个感兴趣区域和所述候选区域生成网络的置信度及所述遮挡感知深度网络的置信度得到行人检测结果。

本发明实施例的基于遮挡感知自监督学习的行人检测方法，将需要检测的图片输入到候选区域生成网络中得到一系列可能有行人的候选区域，并在训练遮挡感知深度神经网络的过程中，在这些候选区域图片生成随机遮挡物以及标有遮挡物位置的遮挡图，从而使用遮挡图作为免费额外的监督信号训练遮挡感知深度神经网络，使其能够区分人体特征和遮挡物，具备更鲁棒的识别能力，进而有效提高行人检测的精度和鲁棒性，简单易实现。

另外，根据本发明上述实施例的基于遮挡感知自监督学习的行人检测方法还可以具有以下附加的技术特征：

进一步地，在本发明的一个实施例中，所述将输入图像送到候选区域生成网络中以生成多个感兴趣区域，进一步包括：通过候选区域生成网络检测出所述多个感兴趣区域中的所述行人区域，以获得所述候选区域生成网络的置信度。

进一步地，在本发明的一个实施例中，所述对所述多个感兴趣区域进行预处理，以得到多张感兴趣图片，进一步包括：将所述多个感兴趣区域从所述输入图像中裁剪下来并调整至相同大小图片，以得到多张感兴趣图片。

进一步地，在本发明的一个实施例中，还包括：使用第一目标函数训练所述候选区域生成网络，其中，所述第一目标函数为：

L_RPN＝L_conf+λ_lL_loc+λ_sL_seg

其中：

x_ij＝{1,0}判断第i个检测框与第j个行人标注框是否有交集，N为检测框的数目，{x,y,w,h}代表检测框的中心坐标、宽度和高度，d为检测结果，g是标注信息，

N_s为行人分割图中的像素个数，y_i为真实像素标签，l_s为行人或背景类别，I{.}为指示函数。

进一步地，在本发明的一个实施例中，还包括：使用第二目标函数训练所述遮挡感知深度神经网络，其中，所述第二目标函数为：

其中，

为softmaxloss评估真实类别和模型估计的类别，

其中，H和W分别是遮挡图的高和宽，

和

分别是模型估计的遮挡图中第k和j像素的预测的类别以及真实遮挡图中第k和j像素的真实类别，l_o为交叉熵函数。

为达到上述目的，本发明另一方面实施例提出了一种基于遮挡感知自监督学习的行人检测装置，包括：生成模块，用于将输入图像送到候选区域生成网络中以生成多个感兴趣区域，其中，所述多个感兴趣区域包括行人区域和背景区域；预处理模块，用于对所述多个感兴趣区域进行预处理，以得到多张感兴趣图片，并根据所述多张感兴趣图片随机生成遮挡物以得到遮挡样本图片和遮挡图；置信度获取模块，用于将所述多张感兴趣图片和遮挡样本图片输入至遮挡感知深度网络，并通过所述遮挡图监督训练网络，以得到所述遮挡感知深度网络的置信度；结果模块，用于根据所述多个感兴趣区域和所述候选区域生成网络的置信度及所述遮挡感知深度网络的置信度得到行人检测结果。

本发明实施例的基于遮挡感知自监督学习的行人检测装置，将需要检测的图片输入到候选区域生成网络中得到一系列可能有行人的候选区域，并在训练遮挡感知深度神经网络的过程中，在这些候选区域图片生成随机遮挡物以及标有遮挡物位置的遮挡图，从而使用遮挡图作为免费额外的监督信号训练遮挡感知深度神经网络，使其能够区分人体特征和遮挡物，具备更鲁棒的识别能力，进而有效提高行人检测的精度和鲁棒性，简单易实现。

另外，根据本发明上述实施例的基于遮挡感知自监督学习的行人检测装置还可以具有以下附加的技术特征：

进一步地，在本发明的一个实施例中，所述生成模块进一步用于通过候选区域生成网络检测出所述多个感兴趣区域中的所述行人区域，以获得所述候选区域生成网络的置信度。

进一步地，在本发明的一个实施例中，所述预处理模块进一步用于将所述多个感兴趣区域从所述输入图像中裁剪下来并调整至相同大小图片，以得到多张感兴趣图片。

进一步地，在本发明的一个实施例中，还包括：第一训练模块，用于使用第一目标函数训练所述候选区域生成网络，其中，所述第一目标函数为：

L_RPN＝L_conf+λ_lL_loc+λ_sL_seg

其中：

进一步地，在本发明的一个实施例中，还包括：第二训练模块，用于使用第二目标函数训练所述遮挡感知深度神经网络，其中，所述第二目标函数为：

其中，

为softmaxloss评估真实类别和模型估计的类别，

其中，H和W分别是遮挡图的高和宽，

和

本发明附加的方面和优点将在下面的描述中部分给出，部分将从下面的描述中变得明显，或通过本发明的实践了解到。

附图说明

本发明上述的和/或附加的方面和优点从下面结合附图对实施例的描述中将变得明显和容易理解，其中：

图1为根据本发明一个实施例的基于遮挡感知自监督学习的行人检测方法的流程图；

图2为根据本发明一个具体实施例的基于遮挡感知自监督学习的行人检测方法的流程图；

图3为根据本发明一个实施例的现有方法和本发明实施例的方法在遮挡情况下的对比示意图；

图4为根据本发明一个实施例的生成的遮挡样本和遮挡图样例示意图；

图5为根据本发明一个实施例的现实世界中遮挡情况估计的遮挡图；

图6为根据本发明一个实施例的基于遮挡感知自监督学习的行人检测装置的结构示意图。

具体实施方式

下面详细描述本发明的实施例，所述实施例的示例在附图中示出，其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的，旨在用于解释本发明，而不能理解为对本发明的限制。

下面参照附图描述根据本发明实施例提出的基于遮挡感知自监督学习的行人检测方法及装置，首先将参照附图描述根据本发明实施例提出的基于遮挡感知自监督学习的行人检测方法。

图1是本发明一个实施例的基于遮挡感知自监督学习的行人检测方法的流程图。

如图1所示，该基于遮挡感知自监督学习的行人检测方法包括以下步骤：

在步骤S101中，将输入图像送到候选区域生成网络中以生成多个感兴趣区域，其中，多个感兴趣区域包括行人区域和背景区域。

可以理解的是，如图2所示，本发明实施例提出使用候选区域生成网络生成感兴趣区域，然后使用遮挡感知深度网络对其进行分类(行人/背景)。

具体地，首先，将输入图像送到候选区域生成网络中；然后，候选区域生成网络生成一系列感兴趣区域，其中包括行人和背景。。

进一步地，在本发明的一个实施例中，将输入图像送到候选区域生成网络中以生成多个感兴趣区域，进一步包括：过候选区域生成网络检测出多个感兴趣区域中的行人区域，以获得候选区域生成网络的置信度。

具体而言，本发明实施例的行人检测器主要由两个深度卷积神经网络组成。其中候选区域生成网络是第一个深度卷积神经网络，其任务是将图片中可能出现行人的区域检测出来并给予置信度。在行人检测任务中，由于只需分类行人和背景，候选区域生成网络可直接视为行人检测器。但是，候选区域生成网络容易被遮挡物所误导，造成严重的误解或漏检。

本发明实施例将适用于分类的深度卷积神经网络VGG-16进行调整使其能够用于感兴趣区域生成任务。

具体地，去除了所有全连接层以及分类层，并在卷积神经网络后面增加了两个卷积层，用于检测框坐标的回归和分类，以及一个行人分割模块。行人分割模块将输入图片在图片空间上将像素分成两类：行人和背景。行人分割模块可以有效的帮助候选区域生成网络将注意集中在行人身上，避免深度神经网络被复杂的背景误导而检测出大量的背景和丢失目标区域。附图2左半部分显示了候选区域生成网络，其中，可以看到将图像输入到候选区域生成网络中，然后得到一系列的感兴趣区域，其中包括行人和背景。最有可能出现行人的感兴趣区域将被送入到遮挡感知深度网络进行再次分类，从而获得更精确的置信度。

其中，在本发明的一个实施例中，使用第一目标函数训练候选区域生成网络：

L_RPN＝L_conf+λ_lL_loc+λ_sL_seg

其中：

x_ij＝{1,0}判断第i个检测框与第j个行人标注框是否有交集，N为检测框的数目，{x,y,w,h}代表检测框的中心坐标，宽度和高度，d为检测结果，g是标注信息，

N_s为行人分割图中的像素个数，y_i为真实像素标签，l_s为行人/背景类别。I{.}为指示函数。实验表明λ_l＝3与λ_m＝1情况下，能够取得较好的训练结果。

在步骤S102中，对多个感兴趣区域进行预处理，以得到多张感兴趣图片，并根据多张感兴趣图片随机生成遮挡物以得到遮挡样本图片和遮挡图。

可以理解的是，为了有效识别被遮挡的目标，本发明实施例提出随机生成遮挡样本并提供遮挡物的具体位置，从而可以使得遮挡感知深度网络能够有效的区分人体和遮挡物。

需要说明的是，由于无遮挡数据远多于被遮挡的行人数据，通过随机生成遮挡物的方法产生一系列被遮挡的行人，从而减轻数据量不平衡的问题。

其中，在本发明的一个实施例中，对多个感兴趣区域进行预处理，以得到多张感兴趣图片，进一步包括：将多个感兴趣区域从输入图像中裁剪下来并调整至相同大小图片，以得到多张感兴趣图片。

可以理解的是，如图2所示，将感兴趣区域从原始图像裁剪下来并调整至相同大小图片。进一步地，以百分之50的概率在这些感兴趣区域图片上随机生成遮挡物，从而获得遮挡样本图片和遮挡图。

在步骤S103中，将多张感兴趣图片和遮挡样本图片输入至遮挡感知深度网络，并通过遮挡图监督训练网络，以得到遮挡感知深度网络的置信度。

可以理解的是，如图2所示，本发明实施例将感兴趣区域图片和遮挡样本图片输入到遮挡感知深度网络，并使用遮挡图监督训练网络，使其能够理解遮挡物并有效的区分各种遮挡情况下的行人和背景。

也就是说，本发明实施例可以利用遮挡感知自监督学习的技术提升行人检测器在遮挡情况下的精准度。具体地，生成具有遮挡物位置信息的遮挡图作为监督信息训练深度卷积神经网络，使其具备在遮挡情况下能够有效的区分人体特征和遮挡物，从而达到拟人的分辨能力和识别能力。

具体而言，由于人类在识别一个被遮挡的目标时，首先会下意识地区分开遮挡和目标，然后进行目标识别，因此，本发明实施例为实现拟人类的识别感知，提出遮挡感知自监督学习的方法训练遮挡感知深度网络。具体地，本发明实施例的方法希望深度神经网络在识别目标的同时能够有效的区分行人身体部分和遮挡物，从而达到在遮挡情况下拟人类的感知能力。

由于现有深度神经网络的训练严重依赖于大数据，且收集遮挡数据并进行标注需要大量的工作量和资源，因此，本发明实施例提出使用遮挡感知自监督学习的方法避免遮挡数据的收集和标注。

如图3所示，附图3显示了现有技术在遮挡情况下的方法以及本发明的方法。在候选区域生成网络给定的行人或背景图片上以百分之五十的概率随机生成遮挡物，从而获得遮挡数据以及遮挡图。新生成的遮挡数据将被用于训练数据而遮挡图则用于监督信号训练遮挡感知深度神经网络。

如图4所示，附图4显示了一系列的图例，其中可以看到原始行人图片，生成的遮挡图片以及遮挡图。生成的遮挡图可视为免费的监督信号用于训练深度神经网络使其拥有遮挡感知能力。附图5显示遮挡感知深度神经网络在面对现实世界中遮挡情况的理解能力，从图中可以看到，遮挡感知深度神经网络能够有效的判断出行人身体部分并将其和背景/遮挡物区分开来。此遮挡感知能力能够帮助神经网络在识别的过程中更加关注目标行人的特征，避免被遮挡物或复杂背景的特征误导。

遮挡感知深度神经网络的结构由VGG-16网络组成。本发明实施例在VGG-16的网络结构中加入遮挡图生成模块，使得深度神经网络能够更有效的理解遮挡情况并区分目标特征和遮挡物/背景特征。遮挡图生成模块建立在conv5_3卷积层上，由一个卷积层和Sigmoid层组成，其输出是输入图片的十六分之一大小的遮挡图。遮挡图在图片空间上将像素分为人体部分和遮挡物部分，从而表现区分人体部分的能力。

由于遮挡图生成模块的底层特征与分类模块共享，此模块能够有效的提供遮挡位置信息给分类模块，从而提升遮挡情况下的分类精确度。另一方面，分类模块建立在conv5_3卷积层，由2个全连接层和Softmax层组成，其输出是一个二维的向量，分别表示行人和背景的置信度。

其中，在本发明的一个实施例中，使用第二目标函数训练遮挡感知深度神经网络：

其中，

为softmaxloss评估真实类别和模型估计的类别，

H和W分别是遮挡图的高和宽，

和

分别是模型估计的遮挡图中第k和j像素的预测的类别以及真实遮挡图中第k和j像素的真实类别。l_o为交叉熵函数。实验表明λ_c＝1与λ_o＝1情况下，能够取得较好的训练结果。

在步骤S104中，根据多个感兴趣区域和候选区域生成网络的置信度及遮挡感知深度网络的置信度得到行人检测结果。

可以理解的是，本发明实施例可以结合候选区域生成网络获得的行人坐标以及置信度和遮挡感知深度网络的置信度得到最终的行人检测结果。

需要说明的是，本发明实施例提供一种新的方法去提升行人检测在严重遮挡的情况下的性能，从而不再简单地使用现有数据或收集新标注，而是以自监督学习的方式利用无遮挡的行人来生成新的遮挡数据。在避免使用大量人力去标注行人和遮挡数据，通过生成遮挡物的方法提供遮挡样例和用于训练深度神经网络的监督信号，使得行人检测器能够有效的区分人体和遮挡物。

综上，本发明实施例主要目的是提升现有行人检测技术在复杂场景下被其他物体遮挡的行人检测的精度和鲁棒性。本发明实施例通过引入遮挡感知自监督学习的方法使得检测器能够有效区分行人身体部分和遮挡物。该方法的优点是不需要大量细粒度标注的数据用于监督训练深度卷积神经网络，而是利用现有公开行人检测数据集，通过自监督学习的方法训练对遮挡鲁棒的模型。

根据本发明实施例提出的基于遮挡感知自监督学习的行人检测方法，将需要检测的图片输入到候选区域生成网络中得到一系列可能有行人的候选区域，并在训练遮挡感知深度神经网络的过程中，在这些候选区域图片生成随机遮挡物以及标有遮挡物位置的遮挡图，从而使用遮挡图作为免费额外的监督信号训练遮挡感知深度神经网络，使其能够区分人体特征和遮挡物，具备更鲁棒的识别能力，进而有效提高行人检测的精度和鲁棒性，简单易实现。

其次参照附图描述根据本发明实施例提出的基于遮挡感知自监督学习的行人检测装置。

图6是本发明一个实施例的基于遮挡感知自监督学习的行人检测装置的结构示意图。

如图6所示，该基于遮挡感知自监督学习的行人检测装置100包括：生成模块110、预处理模块120、置信度获取模块130和结果模块140。

其中，生成模块110用于将输入图像送到候选区域生成网络中以生成多个感兴趣区域，其中，多个感兴趣区域包括行人区域和背景区域。预处理模块120用于对多个感兴趣区域进行预处理，以得到多张感兴趣图片，并根据多张感兴趣图片随机生成遮挡物以得到遮挡样本图片和遮挡图。置信度获取模块130用于将多张感兴趣图片和遮挡样本图片输入至遮挡感知深度网络，并通过遮挡图监督训练网络，以得到遮挡感知深度网络的置信度。结果模块140用于根据多个感兴趣区域和候选区域生成网络的置信度及遮挡感知深度网络的置信度得到行人检测结果。本发明实施例的装置100可以在这些候选区域图片生成随机遮挡物以及标有遮挡物位置的遮挡图，以训练遮挡感知深度神经网络，使其能够区分人体特征和遮挡物，具备更鲁棒的识别能力，进而有效提高行人检测的精度和鲁棒性，简单易实现。

进一步地，在本发明的一个实施例中，生成模块110进一步用于通过候选区域生成网络检测出多个感兴趣区域中的行人区域，以获得候选区域生成网络的置信度。

进一步地，在本发明的一个实施例中，预处理模块120进一步用于将多个感兴趣区域从输入图像中裁剪下来并调整至相同大小图片，以得到多张感兴趣图片。

进一步地，在本发明的一个实施例中，本发明实施例的装置100还包括：第一训练模块。

其中，第一训练模块用于使用第一目标函数训练候选区域生成网络，其中，第一目标函数为：

L_RPN＝L_conf+λ_lL_loc+λ_sL_seg

其中：

N_s为行人分割图中的像素个数，y_i为真实像素标签，l_s为行人或背景类别，I{·}为指示函数。

进一步地，在本发明的一个实施例中，本发明实施例的装置100还包括：第二训练模块。

其中，第二训练模块用于使用第二目标函数训练遮挡感知深度神经网络，其中，第二目标函数为：

其中，

为softmaxloss评估真实类别和模型估计的类别，

其中，H和W分别是遮挡图的高和宽，

和

需要说明的是，前述对基于遮挡感知自监督学习的行人检测方法实施例的解释说明也适用于该实施例的基于遮挡感知自监督学习的行人检测装置，此处不再赘述。

根据本发明实施例提出的基于遮挡感知自监督学习的行人检测装置，将需要检测的图片输入到候选区域生成网络中得到一系列可能有行人的候选区域，并在训练遮挡感知深度神经网络的过程中，在这些候选区域图片生成随机遮挡物以及标有遮挡物位置的遮挡图，从而使用遮挡图作为免费额外的监督信号训练遮挡感知深度神经网络，使其能够区分人体特征和遮挡物，具备更鲁棒的识别能力，进而有效提高行人检测的精度和鲁棒性，简单易实现。

此外，术语“第一”、“第二”仅用于描述目的，而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此，限定有“第一”、“第二”的特征可以明示或者隐含地包括至少一个该特征。在本发明的描述中，“多个”的含义是至少两个，例如两个，三个等，除非另有明确具体的限定。

在本发明中，除非另有明确的规定和限定，第一特征在第二特征“上”或“下”可以是第一和第二特征直接接触，或第一和第二特征通过中间媒介间接接触。而且，第一特征在第二特征“之上”、“上方”和“上面”可是第一特征在第二特征正上方或斜上方，或仅仅表示第一特征水平高度高于第二特征。第一特征在第二特征“之下”、“下方”和“下面”可以是第一特征在第二特征正下方或斜下方，或仅仅表示第一特征水平高度小于第二特征。

在本说明书的描述中，参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中，对上述术语的示意性表述不必须针对的是相同的实施例或示例。而且，描述的具体特征、结构、材料或者特点可以在任一个或多个实施例或示例中以合适的方式结合。此外，在不相互矛盾的情况下，本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。

尽管上面已经示出和描述了本发明的实施例，可以理解的是，上述实施例是示例性的，不能理解为对本发明的限制，本领域的普通技术人员在本发明的范围内可以对上述实施例进行变化、修改、替换和变型。