CN111008562A

CN111008562A - 一种特征图深度融合的人车目标检测方法

Info

Publication number: CN111008562A
Application number: CN201911055857.2A
Authority: CN
Inventors: 魏运; 高国飞; 陈明钿; 郑宣传
Original assignee: Beijing Urban Construction Design and Development Group Co Ltd
Current assignee: Beijing Urban Construction Design and Development Group Co Ltd
Priority date: 2019-10-31
Filing date: 2019-10-31
Publication date: 2020-04-14
Anticipated expiration: 2039-10-31
Also published as: CN111008562B

Abstract

一种针对行人与车辆的特征图深度融合的人车目标检测方法，实现对行人与车辆目标的实时检测。现有的目标检测方法，在受到背景、天气等因素的影响下，检测的效果表现不好，特征难以被充分提取，使得漏检和误检较为严重。针对以上问题,本发明提出了能够针对真实道路场景和地铁行人进行人车目标检测,且准确率和速度较以往检测方法有所提升的高效检测网络DF‑Net。本发明首先利用行人与车辆数据库设计并训练深度学习网络，基础网络由不同尺寸的卷积层和最大池化层组成，在这个基础上对特征金字塔顶层的特征图进行上采样并与底层特征图进行通道合并，将深层和浅层的信息深度融合，提高特征图信息的有效利用进而提高模型检测的准确率。

Description

一种特征图深度融合的人车目标检测方法

技术领域：

本发明属于计算机视觉、目标检测领域，更具体地，针对行人与车辆的特征图深度融合的高效目标检测方法。

技术背景：

随着科技的不断进步，计算机计算能力地增强，越来越多的基于深度学习的目标检测方法被应用到行人和车辆检测中。在已公开的方法中不乏检测精度非常高的网络结构，但他们普遍的问题就是检测耗时严重，甚至不能做到实时检测。本发明革新了传统方法检测速度慢且准确度不高的现状，是对检测手段的智能化升级，也是智慧城市的重要体现所在。

国内外很多大学和科研机构也均对行人和车辆检测进行过研究，并取得了一定的研究成果。目前针对行人和车辆的目标检测方法主要有两种，一种是基于计算机视觉的处理方法，另一种是基于激光雷达的算法。相对雷达设备来说，基于计算机视觉的处理方法具有成本低、易实现且适用范围广的优点，因此，基于计算机视觉的处理方法得到了更普遍的应用。传统基于机器视觉的目标检测算法主要是通过人为构建目标特征(如HOG、SIFT、Haar等)，并构造相应的分类器(如SVM、DPM、Adaboost等)，通过滑窗法来预测具有较高得分的边界框，典型代表包括HOG+SVM组合的方法及DPM算法。现在已经有许多深度学习算法被应用于行人检测，如Faster R-CNN、SSD、Yolo系列等，采用特征自动提取的方式，在特定场景下取得了较好的检测效果。但现有深度学习算法对行人特征的表征仍然十分有限，在密集行人场景中，行人因遮挡而导致局部信息不完整，特征难以被充分提取，使得漏检和误检较为严重。

由于视频图像包含的信息比较丰富，可以全面获取人流量和车流量的数量和稠密程度、人车分布位置、人车流向、人车所处的区域环境等重要的信息，使得基于视频图像分析的方法成为国内外研究的热点。并且，随着越来越多监控摄像头尤其是高清监控摄像头的普及，基于视频图像分析的人车目标检测方法将会得到更加广泛的应用和推广。在一些实际应用中，尤其是环境复杂或高密度人车流量情况下，往往检测精度不是很高。而基于激光扫描的方法抗干扰能力较强且检测精度较高，但激光扫描检测手段仅仅能实现断面行人的检测，不适应开放空间的区域检测，无法实现对客流状态及分布信息的获取，且设备价格较高，应用场景收到较大的限制，不便于普遍推广。

综上，为了进一步提高人车检测的精度，就需要对局部信息缺失的人车进行更充分的特征提取、对局部人车与全局场景信息更加合理的利用以及研究新的更具鲁棒性的特征表征方式。

发明内容：

现有的目标检测方法，在受到背景、天气等因素的影响下，检测的效果表现不好，特征难以被充分提取，使得漏检和误检较为严重。

针对以上问题,本发明提出了能够针对真实道路场景和地铁行人等进行人车目标检测方法,且准确率和速度较以往检测方法有所提升的高效检测网络DF-Net。

本发明首先利用行人与车辆数据库设计并训练深度学习网络。基础网络由不同尺寸的卷积层和最大池化层组成，在这个基础上对特征金字塔顶层的特征图进行上采样并与底层特征图进行通道合并，将深层和浅层的信息深度融合，提高特征图信息的有效利用进而提高模型检测的准确率。具体来说：

一种特征图深度融合的高效人车目标检测方法，本方法的检测网络DF-Net由分类网络和检测回归网络组成。本方法的步骤包括：

1)采集行人和车辆的图像；

2)步骤1)的图像输入到训练好的分类网络中来获取特征金字塔；

3)特征金字塔进入检测回归网络后，提取特征金字塔顶端的特征图，并对这一尺度的特征图进行上采样，对其尺度进行转换后，与上一尺度的特征图的最后一层合并，构成新的特征图；

4)通过两个卷积层进行特征提取，最后生成作为预测层的特征图，然后继续进行上采样，构建用于生成预测结果的特征图；

5)在步骤4)得到的特征图上生成预选结果，并计算每个包围框的置信度。每个包围框的置信度包括：框中是否含有目标、预测框和目标真值之间的IOU比值；

(对交并比IOU中的各个参数进行说明)

其中，P(object)为网络预测的预选框的所属类别的最大概率，IOU为网络预测的预选框(predicted)和原标记框(ground_truth)的重叠率。

置信度用于最后的结果评价指标，预测结果通过平移和上下移动确定出最后的预测结果，通过非极大值抑制筛选出预测框；检测结果以矩形目标检测框表示，包括检测框在图像中的位置和大小；

所述步骤2)中，经步骤1)增强处理后的图像进入分类网络；经过多层卷积，提取图像特征信息，生成不同尺度的特征图，形成特征金字塔；

分类网络的设计方法为：

2.1)分类网络由卷积层和池化层组成，多个不同尺度的卷积层通过多个NIN的结构连接提取特征；来自步骤1)的图像进入改进的分类网络，并通过最大池化进行特征压缩增大感受野，生成不同尺度的特征图，构成特征金字塔；

所述NIN结构是在每个传统卷积层后面接了两个1×1的卷积层，进行跨通道信息整合；

2.2)调整输入图像的尺寸，保证最终得到的特征图尺寸为13*13；顶层特征图只有一个中心位置；

2.3)输入图像通过多个3*3结合1*1的卷积结构形成新的特征图；其中，多个3*3的卷积层级联；

2.4)新的特征图经过最大池化层，以此保留主要的特征同时降低了特征维度和计算量，压缩数据和参数的数量；

2.5)分类网络结构是由13个卷积层和5个最大池化层组成；通过池化层，使得特征图压缩成了13*13，降低特征维度；

所述步骤3)中，检测回归网络的设计方法为：

3.1)所述由根据行人和车辆的待检测目标的尺寸特性，设计检测回归网络，根据检测目标尺寸的分布特点，选取三种不同尺寸的特征图，包含但不限于13*13，26*26，52*52；

对特征金字塔顶层的特征图进行上采样并与底层特征图进行通道合并，将深层和浅层的信息深度融合，作为验证，预测结果；

3.2)用上采样进行调整特征图的尺寸，使得待融合的两层特征图尺寸一致；

3.3)新的特征图再通过两个卷积层进行特征提取，最后生成作为预测层的特征图；

3.4)将靠前生成的特征图上进行变形统一尺寸后与深层的特征图进行合并，统一通道数后再和前面生成的该尺寸特征图进行多步卷积，将信息深度融合并提取。

所述步骤1)中，进行行人和车辆数据采集，采用旋转、翻转及随机裁剪等数据增广的方法扩大样本，每三十到六十帧截取一张图像。

所述步骤2.1)中，不同尺度的特征图的生成方法为，图像进入分类网络，每经过一层卷积或池化操作会得到新的尺度的特征图。

所述步骤4)的三个预测层的特征图的尺寸分别为13*13,26*26和52*52，分别用来预测小、中、大三个尺寸的目标。

经对比试验，本方法的效果明显优于同类方法。

附图说明：

图1是本发明的人车目标检测方法流程图；

图2是分类网络结构图；

图3是检测回归网络结构图；

图4是预测结构图；

图5是场景一的车辆交通检测图；

图6是场景二的车辆交通检测图；

图7是场景三的车辆交通检测图；

图8是场景四的行人检测图；

图9是场景五的行人检测图；

图5～9中，左图为YOLOv2检测效果图，右图为本例DF-Net检测效果图。其中，图5～7三幅图的左图中，未标识“vehcil”的框体为漏检目标。

具体实施方式：

下面结合附图和具体实施方式对本发明进行详细说明。

图1描述了本发明的人车目标检测方法流程：首先，输入一幅图片，将其输入到训练好的分类网络(如图2)中来获取特征金字塔。特征金字塔进入检测回归网络(如图3)后，提取顶端的特征图(13*13)对这一尺度的特征图进行上采样，使其尺度转换为26*26，并与上一尺度的特征图的最后一层合并，构成新的特征图。再通过两个卷积层进行特征提取，最后生成作为预测层的特征图，然后继续进行上采样，构建尺度为52*52的用于生成预测结果的特征图。在特征图上生成预选结果并计算每个包围框的置信度用于最后的结果评价指标，预测结果通过平移和上下移动确定出最后的预测结果，通过非极大值抑制筛选出预测框。(检测结果以矩形目标检测框表示，包括其在图像中的位置和大小)。

本方法的具体步骤包括：

1)进行行人和车辆数据采集，采用旋转、翻转及随机裁剪等数据增广的方法扩大样本，每三十到六十帧截取一张图像。

2)经步骤1)增强处理后的图像进入分类网络，经过多层卷积，提取图像特征信息，生成不同尺度的特征图，形成特征金字塔进入检测回归网络。

3)为了提取图像中浅层的特征图的信息，在检测回归部分添加了上采样的结构并对两个从不同层获得的特征图进行特征融合，得到新的特征图。获得浅层的特征图对目标的定位信息。

4)按照步骤3)搭建起检测回归网络，为了优化检测回归网络，为了保证检测目标中出现的各种尺度的目标都能被准确预测，设置了三个预测层，分别是尺寸为13*13,26*26和52*52(不限于这三个尺寸)的特征图。

5)对网络进行训练，根据训练好的网络最终输出的检测结果，继续对目标检测结果进行判断。生成预选预测结果并计算每个包围框的置信度。

所述步骤2)中，设计分类网络：

2.1)本发明的检测网络DF-Net分类网络由卷积层和池化层组成，多个不同尺度的卷积层通过多个NIN的结构(NIN结构：在每个传统卷积层后面接了两个1×1的卷积层，进行跨通道信息整合,在不增加计算量的情况下加深网络)连接提取特征，增强处理后的图像进入改进的分类网络，并通过最大池化进行特征压缩增大感受野，生成不同尺度的特征图，构成特征金字塔。(不同尺度的特征图的生成方法为，图像进入分类网络，每经过一层卷积或池化操作会得到新的尺度的特征图)。

2.2)调整输入图片的尺寸，本文以416*416为例，保证最终得到的特征图尺寸为13*13，顶层特征图只有一个中心位置，提高预测物体边界框的准确度同时方便后面的计算。

2.3)输入图片通过多个3*3结合1*1的卷积结构形成新的特征图，其中多个3*3的卷积层级联，保证和大尺寸卷积核有一样的感受野但同时有更少的参数并且能够增强模型的非线性表达能力。

2.4)特征图经过最大池化层，以此保留主要的特征同时降维(减少参数)和计算量，压缩数据和参数的数量，防止过拟合，提高模型泛化能力和最明显的特征。

2.5)整个网络结构是由33个卷积层和5个最大池化层组成。卷积层后加一个池化层，可以忽略目标的倾斜、旋转之类的相对位置的变化。以此提高精度，同时降低了特征图的维度同时改善结果，不易出现过拟合。通过池化层，使得原本416*416的特征图压缩成了13*13，降低了特征维度。

所述步骤3)中，设计检测回归网络

3.1)本发明的检测网络DF-Net它的分类网络由根据行人和车辆的待检测目标的尺寸特性，设计检测回归网络，根据检测目标尺寸的分布特点，选取三种不同尺寸的特征图，包含但不限于13*13，26*26，52*52。根据步骤2.1)对特征金字塔顶层的特征图进行上采样并与底层特征图进行通道合并，将深层和浅层的信息深度融合，作为验证，预测结果。

3.2)选用上采样进行调整特征图的尺寸，使得待融合的两层特征图尺寸一致。比起反卷积和反池化，上采样具有计算参数少，保留更多的有效信息等优点，为了保证网络的简洁和实时性，故选择上采样作为最终的改变尺度的方式。

3.3)新的特征图再通过两个卷积层进行特征提取，最后生成作为预测层的特征图。位于网络深层的特征图具有更丰富的语义信息，因此选取同尺度最高层的特征图作为融合的特征图。

3.4)将靠前生成的特征图上进行变形统一尺寸后与深层的特征图进行合并，统一通道数后和前面生成的该尺寸特征图进行多步卷积，将信息深度融合并提取。更好地利用不同尺度的特征图上包含的目标的相关信息，提高模型检测的准确率。

3.5)深层特征图具有丰富的语义信息，但是浅层特征图对分类和目标的定位具有非常重要的作用，因此进行不同层之间的特征融合，以此保证信息的最大化利用。

3.6)NIN的网络结构能够减少参数量，从而减轻过拟合求和平均综合了整个特征图的所有信息。每一层卷积之后加一个激活函数，比原结构多了一层激活函数，增加了结构的非线性表达能力。

所述步骤4)中，根据行人或车辆场景中，存在大量小目标，优化检测回归网络。

本发明的DF-Net可以实现针对行人和车辆的高效实时检测，由于目标本身存在尺寸的差异如卡车和家用轿车，或者由于距离镜头的远近导致图像中出现的行人或车辆目标尺寸差异较大，因此选取三个尺度融合的特征图分别进行独立检测。可以适应多种场景，在目标尺度较小以及有遮挡情况的情况下，对目标的定位和分类也有的表现。综合以上算法，通过对多个场景进行测试，不难发现DF-Net可以充分利用特征图中的语义信息，可以适应多种场景，如：地铁行人、道路交通等。在目标尺度较小以及有遮挡情况的情况下，对目标的定位和分类也有的表现。

所述步骤5)中，在特征图上生成预选结果并计算每个包围框的置信度用于最后的结果评价指标，预测结果通过平移和上下移动确定出最后的预测结果，通过非极大值抑制筛选出预测框。

采用本方法的实验，按照以下步骤实施：

(1)构建专属于行人和车辆的数据集

数据集包括三个部分：行人和车辆交通场景图、标签文件以及用于训练和测试的图片的索引。为了保证训练出的模型能够适应各种分辨率的图像，所以在训练时采取多尺度训练的方式，分批次送入网络训练，并采用旋转、翻转及随机裁剪等数据增广的方法扩大样本。此外为保证数据的多样性，此次实验选取了多个场景、多个角度的道路交通视频资料作为训练素材，每四十帧截取一张图像。构建专属于行人和车辆的数据图像训练数据包括四个场景，每个场景选取1500张共6000张图像，其中5000张作为训练样本，1000张作为测试样本。

(2)定义网络结构

本发明的DF-Net中，保留分类网络中多个NIN的部分，通过多个3*3结合1*1的卷积结构，其中多个3*3的卷积层比一个大尺寸的特征图有更少的参数并且能够增强模型的非线性表达能力，同时选择最大池化来增大感受野，从另一层面减少的参数量。在检测回归网络部分添加上采样的结构并对两个从不同层获得的特征图进行特征融合，得到新的特征图，再通过多个NIN的结构统一通道数减少计算量，最后生成作为预测层的特征图。此外，为保证行人和车辆在道路交通中出现的各种尺度的目标都能被准确预测，设置了三个预测层，分别是尺寸为13*13,26*26和52*52的特征图，分别用来预测小中大三个尺寸的目标；

(3)对于输入的数据，图像进入网络后会进行颜色抖动(包括调整图像亮度等方法)、尺度变换、水平或垂直翻转等操作进行数据增强；最后将处理后的数据送入网络训练；

(4)开始训练模型，具体步骤为：

①训练图像进入网络后，通过卷积等操作后得到几个不同尺度的特征图，进行尺度变换、水平或垂直翻转等操作进行数据增强；然后通过改变输入图像的尺寸来调整精度和速度，本文分别对图像尺寸缩小到256*256,352*352和416*416的模型进行了测试。

图像进入分类网络，通过第一个卷积层得到第一个特征图；卷积核大小为3*3，生成尺度为416*416的特征图，然后通过步长为2的池化层将特征图缩小为208*208，之后类似的生成52*52,26*26,13*13的特征图用于最后的预测。通过对深层特征图进行上采样和浅层同尺度的特征图进行深度融合，获取目标的轮廓和位置信息。选取13*13,26*26和52*52同尺度最高层的特征图作为融合的特征图，将融合后的三个尺度的特征图进行独立检测，以满足不同尺度目标的准确定位和分类。之后的步骤类似，经过每一层后所得到的特征图。

②在特征图上生成预选预测结果并计算每个包围框的置信度，预测结果通过平移和上下移动确定出最后的预测结果，通过非极大值抑制筛选出预测框。

③计算每个模型在同样的数据集下的平均准确率及检测速度，然后进行对比，测试对比结果如表1。

本实验的操作环境：硬件配置为Intel E5-2603 v4处理器，NVIDIA Titan XP显卡，软件环境为Centos系统。

表1模型平均准确率AP—时间

方法	AP值	检测时间
			Yolov2	77.27％	11.037ms(91fps)
Yolov3	90.57％	23.849ms(42fps)
			DF-Net	90.57％	12.822ms(78fps)

。

由图5～9的比较看，本方法的检测结果的准确性明显高于Yolov2方法。

Claims

1.一种特征图深度融合的人车目标检测方法，其特征是步骤包括：

1)采集行人和车辆的图像；

5)在步骤4)得到的特征图上生成预选结果，并计算每个包围框的置信度；

分类网络的设计方法为：

所述步骤3)中，检测回归网络的设计方法为：

2.根据权利要求1所述的人车目标检测方法，其特征是所述步骤1)中，进行行人和车辆数据采集，采用旋转、翻转及随机裁剪等数据增广的方法扩大样本，每三十到六十帧截取一张图像。

3.根据权利要求1所述的人车目标检测方法，其特征是所述步骤2.1)中，不同尺度的特征图的生成方法为，图像进入分类网络，每经过一层卷积或池化操作会得到新的尺度的特征图。

4.根据权利要求1所述的人车目标检测方法，其特征是所述步骤4)的三个预测层的特征图的尺寸分别为13*13,26*26和52*52，分别用来预测小、中、大三个尺寸的目标。