CN109657545B

CN109657545B - 一种基于多任务学习的行人检测方法

Info

Publication number: CN109657545B
Application number: CN201811335508.1A
Authority: CN
Inventors: 雷建军; 陈越; 侯春萍; 彭勃; 郭亭佚; 牛力杰
Original assignee: Tianjin University
Current assignee: Tianjin University
Priority date: 2018-11-10
Filing date: 2018-11-10
Publication date: 2022-12-20
Anticipated expiration: 2038-11-10
Also published as: CN109657545A

Abstract

本发明公开了一种基于多任务学习的卷积神经网络行人检测方法，包括：将行人位置所在的区域划分为m*n个子区域，按照预设规则将子区域进行组合，获取多个组合区域，将每个组合区域定义为行人可见模式；基于高速区域卷积网络的第一阶段网络结构，采用同一个特征提取网络提供输入图像的深度特征，并联多个检测网络，每一个检测网络对应一种行人可见模式的检测任务；统计行人检测场景视频中各种行人可见模式出现的比例、与每一个任务的损失函数加权平均，得到总的损失函数；选取前五种行人可见模式生成训练样本，分别训练对应的区域推荐子网络，进而实现对行人的检测。本发明采用多任务学习的方式，在不增加实际使用时深度网络复杂度的情况下，提高深度网络对遮挡行人的检测能力。

Description

一种基于多任务学习的行人检测方法

技术领域

本发明涉及图像处理、计算机视觉技术领域，尤其涉及一种基于多任务学习的卷积神经网络行人检测方法。

背景技术

随着近些年辅助驾驶、无人驾驶等技术兴起，行人检测成为一大研究热点。行人检测的目的是在给出的图像或视频中标出行人个体的位置。由于视频可以划分为多帧的图像，目前业界的研究重点放在图像的行人检测。图像检测技术有数十年的发展，其整体框架主要包括为：待检测区域选择、特征提取、特征分类三个部分。

在深度学习兴起之前，具有代表性的行人检测方法包括：完全通道特征方法(Integrate Channel Features，ICF)和可变部件模型方法(Deformable Parts Model，DPM)。ICF使用多通道特征和分类器进行行人识别。由于ICF方法以整个个体作为分类目标，尽管在遮挡较弱的情况下行人检测效果优异，但是随着遮挡程度的上升，检测效果下降明显。DPM方法采用多部件辅助的联合检测方式，在HOG(方向梯度直方图)特征金字塔上进行行人检测，巧妙地解决了多尺度问题，并且能够在一定程度上降低遮挡对检测效果的影响。随着深度学习理论研究的不断深入，深度特征被用到检测任务中，使得检测结果的准确度得到了巨大的提升。

采用深度学习的物体检测方法中影响最为深远的是区域卷积神经网络(Regionswith Convolutional Neural Network，RCNN)方法及其后续发展的快速区域卷积神经网络(Fast-RCNN)方法和高速区域卷积神经网络(Faster-RCNN)方法。该类方法采用两阶段的检测框架，首先采用区域推荐方法产生推荐区域，然后使用分类器对推荐区域进行分类以实现检测。然而，由于个体遮挡和多尺度问题，该系列方法在行人检测中效果还有待提高。

Tian等人提出了Deep-part(深度部件)模型，其在ICF框架下采用深度特征训练多种遮挡情况的行人检测器，在正常场景和拥挤场景下均取得了较好的检测效果。但是，多检测器的结构较为复杂，方法无法端到端的实现并且耗费的计算资源较大。

发明内容

本发明提供了一种基于多任务学习的卷积神经网络行人检测方法，本发明针对现有检测方法检测遮挡行人能力不足的问题，采用多任务学习的方式，在不增加实际使用时深度网络复杂度的情况下，提高深度网络对遮挡行人的检测能力，详见下文描述：

一种基于多任务学习的卷积神经网络行人检测方法，所述方法包括以下步骤：

将行人位置所在的区域划分为m*n个子区域，按照预设规则将子区域进行组合，获取多个组合区域，将每个组合区域定义为行人可见模式；

基于高速区域卷积网络的第一阶段网络结构，采用同一个特征提取网络提供输入图像的深度特征，并联多个检测网络，每一个检测网络对应一种行人可见模式的检测任务；

统计行人检测场景视频中各种行人可见模式出现的比例、与每一个任务的损失函数加权平均，得到总的损失函数；选取前五种行人可见模式生成训练样本，分别训练对应的区域推荐子网络，进而实现对行人的检测。

进一步地，所述预设规则为：

每个子区域仅能与相邻的子区域进行组合，组合后的区域为矩形。

其中，所述总的损失函数为：

其中，N为所有的统计到的可见模式，p_i为第i种行人可见模式出现的比例，

为该可见模式检测任务在训练时得到的损失。

具体实现时，所述前五种行人可见模式具体为：全身、1/2上半身、5/6上身、4/6上身和1/3上身。

其中，所述高速区域卷积网络的第一阶段网络结构具体为：

前一部分是基于VGG-16的特征提取网络，对应特征提取网络；

后一部分为一个包含一个3*3的卷积层和两个1*1的卷积层组成的区域推荐子网络，对应检测网络。

本发明提供的技术方案的有益效果是：

1、本发明能够有效改善一般神经网络行人检测方法对遮挡样本检测效果不佳的情况，有效提高方法检测遮挡行人的能力，提升方法的检测准确度；

2、由于多任务学习只在检测模型的训练阶段进行，该方法并不会增加方法实际使用时的计算资源开销。

附图说明

图1为一种基于多任务学习的卷积神经网络行人检测方法的流程图；

图2为几种行人可见模式示意图；

图3为Faster-RCNN第一阶段网络结构示意图；

图4训练样本生成示意图；

图5为本发明检测准确度提升效果的量化柱状图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚，下面对本发明实施方式作进一步地详细描述。

多任务学习是机器学习中的一种模型训练方式，被广泛用于多任务模型训练和迁移学习任务中。基于深度神经网络的多任务学习指的是在同一个主干神经网络的基础上，通过不同的分支网络，实现不同的任务，构建多任务模型。例如：Mask-RCNN(掩膜区域卷积神经网络)物体检测分割方法就是一个标准的多任务模型，同时实现了物体的检测和分割两个相关联的任务。多任务模型在训练时采用多个损失函数同时对网络进行优化，不会增加主干网络的复杂度。在实际检测时，可以针对需求的任务删除其余任务的网络分支结构，实现整个网络的精简。多任务学习能够有效不同任务之间的相关性，使不同任务之间相互促进，提高整体效果。

实施例1

一种基于多任务学习的卷积神经网络行人检测方法，参见图1，该方法包括以下步骤：

101：将行人位置所在的区域划分为m*n个子区域，按照预设规则将子区域进行组合，获取多个组合区域，将每个组合区域定义为行人可见模式；

其中，预设规则为：每个子区域仅能与相邻的子区域进行组合，组合后的区域为矩形。

102：基于高速区域卷积网络的第一阶段网络结构，采用同一个特征提取网络提供输入图像的深度特征，并联多个检测网络，每一个检测网络对应一种行人可见模式的检测任务；

其中，高速区域卷积网络的第一阶段网络结构具体为：

前一部分是基于VGG-16的特征提取网络，对应特征提取网络；

103：统计行人检测场景视频中各种行人可见模式出现的比例、与每一个任务的损失函数加权平均，得到总的损失函数；选取前五种行人可见模式生成训练样本，分别训练对应的区域推荐子网络，进而实现对行人的检测。

进一步地，前五种行人可见模式具体为：全身、1/2上半身、5/6上身、4/6上身和1/3上身。

综上所述，本发明实施例针对现有检测方法检测遮挡行人能力不足的问题，采用多任务学习的方式，在不增加实际使用时深度网络复杂度的情况下，提高深度网络对遮挡行人的检测能力。

实施例2

下面结合具体的计算公式、实例对实施例1中的方案进行进一步地介绍，本发明实施例在现有的深度检测方法的基础上进行优化，具体实现步骤分为四个阶段：

一、行人可见模式构建

对于一张图片给出的行人位置标注s，它的区域为(x,y,h,w)，其中，x,y为区域的左上角坐标，h,w为区域的高度和宽度。首先将该区域划分为m*n个子区域。参见图2，将这些子区域进行组合，要求只能和相邻的子区域组合，并且组合后的区域必须为矩形。这样根据不同的组合方式，可以得到多个组合区域。每一个确定的组合区域就是一种固定的行人可见模式，编号为i∈N，N是行人可见模式的总数。

例如：将该区域划分为6*3个子区域，根据不同的组合方式，可以得到108种符合要求的组合区域。

二、多任务检测网络设计

针对不同的神经网络检测方法，多任务网络的具体实现方法存在差异。将神经网络检测方法的网络结构分为特征提取网络(F)和检测网络(D)两部分。其中，用于优化网络的损失函数包含在D中，设为L^D。该损失函数用于预测目标区域位置和给出该区域包含目标的置信度，由多个子损失函数加权组成。

本发明实施例主要修改Faster-RCNN(高速区域卷积网络)第一阶段的网络结构，参见图3，该部分网络结构可以分为两部分，前一部分是基于VGG-16的特征提取网络，对应F；后一部分为一个包含一个3*3的卷积层和两个1*1的卷积层组成的区域推荐子网络(为本领域技术人员所公知的技术术语，本发明实施例对此不做赘述)，对应D。

为了同时实现多种可见模式的检测任务，在Faster-RCNN第一阶段网络的基础上对D进行扩增。使用同一个F提供输入图像的深度特征，但是并联多个D，每一个D对应一种具体的可见模式检测任务。在训练时使用该模式的训练样本对其进行优化。

三、多任务检测模型训练

多任务学习需要对每一个特定的任务提供特定的训练样本。在本方案中，每一个任务对应一种特定的行人可见模式。对该行人可见模式的检测网络的训练需要准备对应的训练样本。训练样本的准备方式为：将训练数据集中所有原始的行人位置标注按照该行人可见模式区域进行裁剪，获得新的标注作为正样本；随机截取不包含行人位置的图像区域按照相同的方式生成对应的负样本。其中训练数据集由事先采集并人工标注得到的包含行人样本的图片和完整的行人目标位置标记组成。

然后使用该新的标注按照和Faster-RCNN相同的方式生成锚点(具体生成锚点的过程为本领域技术人员所公知，本发明实施例对此不做赘述)。参见图4，对于每一个锚点所表示的区域，当其和裁剪后的目标区域重合度大于50％时，被标记为正样本，重合度小于10％时被标记为负样本。对于每一种行人可见模式，使用相同的方式生成训练样本。在一次训练迭代中，保证每一个行人可见模式检测网络对应的训练样本均由相同的一组原始区域裁剪产生。

在本发明实施例中，使用的行人可见模式数量较多，训练时采用统计的方法对每一个任务分配权重，具体操作为：实拍一段行人检测场景视频，统计其中行人各种可见模式出现的比例，设每一种行人可见模式出现的比例为p_i∈P，P为所有行人可见模式概率的集合，最后总的损失函数由如下公式得到：

为该可见模式检测任务在训练时得到的损失。

在多任务学习模型训练中，使用每种行人可见模式实际出现比例、加权该行人可见模式对应的任务损失L^D进行整体模型的优化。一般道路场景的统计情况表明，少数几种行人可见模式占据了绝大多数的出现比例，对应的大部分行人可见模式出现比例很低，对模型训练的贡献不大，因此在实际训练过程中将这些任务删除。

具体而言，将这些行人可见模式按统计结果排序，出现比例最高的前五种模式为：全身，1/2上半身，5/6上身，4/6上身和1/3上身，这些行人可见模式的出现比例和约为91％。考虑到其他行人可见模式出现比例较低，将其对应的网络结构删除。之后使用剩下的前五种行人可见模式生成的训练样本，分别训练其对应的区域推荐子网络。

本发明实施例使用VGG-16作为特征提取网络，在训练过程中Batch_size(批尺寸)设为1，每一个区域推荐子网络的锚点长宽比固定为该行人可见模式的长宽比，锚点的尺度区间从20像素至输入图片的高度等间隔的取九个值，学习率设为0.001，迭代次数为80000次，在第40000次和60000次分别将学习率调低为之前的10％。

四、检测网络结构设置

在实际检测时，对于一种特定模式行人的检测，不需要多任务模型中其他任务的检测结果。因此，将对应其他任务的检测网络结构从整体模型中删除，只保留所需检测任务对应的检测网络部分，相当于还原为原始的Faster-RCNN检测网络，将多任务重新简化为了单一任务，从而在很大程度上减少实际使用时网络的运算负担。

在本发明实施例中，设定完整目标的检测为最终的检测任务，删去多任务模型中除该任务以外的其他区域推荐头部，得到最终的检测网络。

综上所述，本发明实施例能够有效改善一般神经网络行人检测方法对遮挡样本检测效果不佳的情况，有效提高方法检测遮挡行人的能力，提升方法的检测准确度。

实施例3

下面结合图5对本发明实施例1和2中的方案进行可行性验证，详见下文描述：

首先构建一套行人可见模式规则，然后依据行人可见模式的数量设计包含相同任务数的多任务检测网络。在此基础上，按照不同的行人可见模式生成对应的训练数据，并用生成的训练数据训练对应任务的检测网络。

最后，按照目标检测任务设置最终网络结构，保留于其相对应的任务的检测网络，删去其他任务的检测网络。

图5是本方法(Multi-task)相比于原始的Faster-RCNN在Cityperson检测数据集下评价的结果，评价指标为mAP、AP50和AP75，该值越大说明检测效果越好，证明了本方法的可行性。

本领域技术人员可以理解附图只是一个优选实施例的示意图，上述本发明实施例序号仅仅为了描述，不代表实施例的优劣。

以上所述仅为本发明的较佳实施例，并不用以限制本发明，凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种基于多任务学习的卷积神经网络行人检测方法，其特征在于，所述方法包括以下步骤：

统计行人检测场景视频中各种行人可见模式出现的比例、与每一个任务的损失函数加权平均，得到总的损失函数；选取前五种行人可见模式生成训练样本，将训练数据集中所有原始的行人位置标注按照该行人可见模式区域进行裁剪，获得新的标注作为正样本；随机截取不包含行人位置的图像区域按照相同的方式生成对应的负样本，分别训练对应的区域推荐子网络，进而实现对行人的检测；

其中，所述预设规则为：

每个子区域仅能与相邻的子区域进行组合，组合后的区域为矩形；

所述总的损失函数为：

为该可见模式检测任务在训练时得到的损失；在Faster-RCNN第一阶段网络的基础上对检测网络D进行扩增，使用同一个特征提取网络F提供输入图像的深度特征，但并联多个检测网络D，每一个检测网络D对应一具体的可见模式检测任务，在训练时使用该模式的训练样本对其进行优化；其中，Faster-RCNN为高速区域卷积网络；

所述前五种行人可见模式具体为：全身、1/2上半身、5/6上身、4/6上身和1/3上身；

所述高速区域卷积网络的第一阶段网络结构具体为：

前一部分是基于VGG-16的特征提取网络，对应特征提取网络；