CN110059554A

CN110059554A - 一种基于交通场景的多支路目标检测方法

Info

Publication number: CN110059554A
Application number: CN201910187966.3A
Authority: CN
Inventors: 丰江帆; 王凡杰; 冯思琴
Original assignee: Chongqing University of Post and Telecommunications
Current assignee: Chongqing University of Post and Telecommunications
Priority date: 2019-03-13
Filing date: 2019-03-13
Publication date: 2019-07-26
Anticipated expiration: 2039-03-13
Also published as: CN110059554B

Abstract

本发明请求保护一种基于交通场景的多支路目标检测方法，包括步骤：S1获取交通路口拍摄的高清照片构建相关数据集，对交通场景图像进行分类和标注，生成相应的类别标签，并划分训练集和测试集；S2搭建基于深度学习的具有32层的网络模型，采用k‑means聚类算法获取9个锚框先验，将这9个锚框平均分配到三个检测分支中，该网络将检测任务转化为回归任务，在一个网络上同时完成目标的分类与边界框的回归，即将目标检测算法的候选框生成、特征提取、分类及位置精修这4个步骤统一到一个深度网络框架之内，采用反向传播和随机梯度下降方法对网络模型进行端到端训练，通过迭代训练使损失函数降到一个小的范围然后停止训练。

Description

一种基于交通场景的多支路目标检测方法

技术领域

本发明属于深度学习、图像处理、模式识别等领域，尤其是涉及一种基于深度学习的采用多个分支来对交通场景中不同尺度大小的目标进行检测的目标检测方法。

背景技术

从交通场景中自动地检测交通场景中的各种目标(例如车辆和行人)是许多智能交通系统的首要处理步骤。对主要道路进行合理的交通管理和控制可以减少诸如交通事故、道路拥堵等问题的发生。

在过去的十年中，许多学者与研究人员在这一领域做出了相当大的努力，并提出了一些具有挑战性的基准数据集，如KITTI和LSVH等，用于评价和比较各种检测算法的性能。由于卷积神经网络提取的特征比传统人工特征的泛化性能好，因此基于CNN的目标检测方法在车辆检测、行人检测以及各种其他物体的检测任务方面取得了惊人的成功。由于基于滑动窗口的对象检测算法的效率低、计算成本巨大，对象检测的两种其他方法，即基于候选区域的目标检测算法和基于回归的目标检测算法受到了广泛的关注。前者首先使用诸如选择性搜索(selective search)和edge boxes这样的区域生成算法来生成候选区域(即region proposal)，然后通过卷积神经网络对其进行处理。这些方法具有较高的精度，但是不能满足实时性的要求。其中的代表性算法包括RCNN、Fast RCNN、Faster RCNN、Mask RCNN等，它们是典型的two-stage方法(首先使用区域生成方法生成候选区域，然后对候选区域进行分类和回归)。另一种是基于回归方法的目标检测算法，这一方法将目标检测问题转化为回归问题，直接预测出对象的位置和分类。这些方法是典型的one-stage方法，它们的检测速度较快，但是精度一般低于two-stage方法。代表性算法有YOLO、SSD、YOLOv2、YOLOv3等。尽管CNN的性能强大，但是当将CNN应用于交通场景的目标检测时，面临的难题之一是传统的基于CNN的方法对尺度敏感，CNN的全连接层需要固定尺寸的输入，而传统的ROIPooling层采用简单复制候选区域的某些部分以填充额外的空间来获得指定大小的特征映射的方案会破坏小目标的原始结构。在网络训练过程中，填充复制值不仅会导致前向传播过程中的特征表示不准确，而且在反向传播过程中会积累误差。不准确的表示和积累的误差会误导了网络训练并防止网络正确地检测出小尺度的对象。此外，当特征映射达到某一深度时，小尺度的目标可能已经丢失了它的信息，这无疑使得这些方法更难以准确地检测出小目标。针对以上这些问题，本文提出了一个针对交通场景的具有32层的卷积神经网络来对大、中、小各种不同尺度的物体进行检测，具有较高的精度和检测速度，能基本满足工业上的实时性需要。

发明内容

本发明旨在解决以上现有技术的问题。提出了一种具有检测准确度高与速度快的优点的基于交通场景的多支路目标检测方法，该网络具有三个检测分支，分别采用16×16,32×32和64×64的特征图来优化对于大、中、小型目标的检测，其准确度高，召回率高，并且具有实时检测的优点。

本发明的技术方案如下：

一种基于交通场景的多支路目标检测方法，其包括以下步骤：

S1、获取交通路口拍摄的高清照片构建相关数据集，对交通场景图像进行分类和标注，生成相应的类别标签，并划分训练集和测试集，用于后续的网络训练及测试；

S2、搭建基于深度学习的具有32层的网络模型，其中17个卷积层用于提取特征，6个最大池化层用于简化特征图，2个上采样层用于获取高维特征图，4个连接层用于获取指定层的特征图或者将不同层的特征图进行拼接，此外还有3个Yolo层作为三个检测分支。采用k-means聚类算法获取9个锚框先验，将这9个锚框平均分配到三个检测分支中，即一个分支为每一个可能的目标预测3个边界框，每个边界框除了要预测4个坐标和1个置信度之外，还需要预测7个类别分。作为一个基于回归方法的网络，该网络将检测任务转化为回归任务，在一个网络上同时完成目标的分类与边界框的回归，即将目标检测算法的候选框生成、特征提取、分类及位置精修这4个步骤统一到一个深度网络框架之内，利用NVIDIA GTX1060GPU进行并行运算。在该网络中使用Leaky Relu函数作为激活函数，采用反向传播和随机梯度下降方法对网络模型进行端到端训练，通过迭代训练使损失函数降到一个小的范围然后停止训练；

S3、利用步骤S1中划分好的测试集对步骤S2中训练好的网络模型进行测试，并根据测试结果对网络参数进一步进行调整。

进一步的，所述S2目标的边界框回归过程通过以下公式计算，

首先通过t_x＝G_x-C_x，t_y＝G_y-C_y，t_w＝log(G_w/P_w)，t_h＝log(G_h/P_h)这四个公式计算网络的预测值t_x、t_y、t_w、t_h，其中(t_x,t_y)是真实框的中心到负责对目标进行预测的单元格左上角的偏移量，(t_w,t_h)是边界框大小的缩放比例，根据此缩放比例将边界框缩放到与真实框相似的大小。如果负责预测的单元格与图像左上角的偏移为(C_x,C_y)，且锚框先验的长宽分别为P_w、P_h，则待预测的边界框的坐标可以通过以下公式进行计算：b_x＝σ(t_x)+C_x，b_y＝σ(t_y)+C_y，这四个公式计算出预测框的坐标，其中b_x，b_y，b_w，b_h分别为预测框的中心坐标及其长和宽。在上述公式中，G_x、G_y、G_w、G_h分别代表真实框的中心坐标及其长和宽，P_w、P_h分别代表锚框的宽和高。经过以上计算，我们即获得了边界框的预测坐标输出。公式中的σ(·)为logistic函数，它的使用是为了将t_x和t_y的值压缩到[0,1]区间，此操作能确保待预测的目标的中心落在此单元格内，防止偏差过大。

进一步的，所述步骤S2的置信度通过以下公式计算，

confidence＝Pr(Object)*IOU(truth|pred)，

然后将置信度分别乘以7个类别分即得到了该边界框基于某一具体类别的置信度分，其计算公式如下，

式中，Pr(Object)表示预测框中有无目标的置信度，IOU(truth|pred)表示预测框与真实框的重叠率，Pr(Class_i|Object)表示在有目标的条件下含有目标i的概率，Pr(Class_i)表示预测框中含有目标i的概率。综上所述，confidence值包含了预测框中含有目标的置信度(含有目标则为1，否则为0)以及这个边界框预测的有多准两重信息；confidence score代表了预测的边界框中包含某一特定类别的概率。

进一步的，所述步骤S2网络训练的损失函数通过以下公式计算，

式中，c_i表示真实的类别，表示预测的类别，(x_i,y_i,w_i,h_i)表示真实框的中心坐标及其长宽，表示预测框的中心坐标及其长宽。S表示将原图划分为S×S的网格，在此网络中分别为16,32和64；B表示每个单元格需要预测B个边界框，此处为3；λ_noobj，λ_obj，λ_class，λ_coord，表示相应的权重参数，其中λ_noobj、λ_obj分别表示不含目标及含有目标的边界框的预测所占的权重，λ_class表示含有目标的边界框的各个类别的置信度预测权重，λ_coord为坐标预测权重，和分别表示第i个网格中的第j个单元格是否负责目标的预测。

本发明的优点及有益效果如下：

本发明提出了一种具有32层的基于交通场景的多分支目标检测网络。该网络包括以下创新点：

1、现有的基于CNN的算法普遍存在小目标难以检测的问题，因为当特征图达到一定深度时，小目标可能失去其响应信息，而交通图像和视频中包含的目标(如汽车、公共汽车和行人)的尺度变化很大，因此本文提出了一个32层的多支路目标检测网络，其中三个检测分支分别使用16×16、32×32和64×64的特征图来优化对于大、中、小型目标的检测，具有准确度高，召回率高的特点。

2、本网络为一个32层的轻量级网络，其参数量较少，运行效率高，能满足工业应用的实时检测需求。

附图说明

图1是本发明提供优选实施例所构建网络的整体结构图；

图2为本发明所构建网络的具体参数；

图3为网络训练过程图；

图4为区域平均IOU随训练次数的变化图；

图5为损失函数曲线随训练次数的变化图；

图6为部分实验结果图示例。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、详细地描述。所描述的实施例仅仅是本发明的一部分实施例。

本发明解决上述技术问题的技术方案是：

本发明的网络结构如附图1所示，附图2给出了该网络各层的具体参数。

具体步骤：

步骤S1：获取交通路口拍摄的高清照片构建相关数据集，对交通场景图像进行分类和标注，生成相应的类别标签，并划分训练集和测试集，用于后续的网络训练及测试；

步骤S2：边界框回归过程通过以下公式计算：

首先通过

t_x＝G_x-C_x， (1)

t_y＝G_y-C_y， (2)

t_w＝log(G_w/P_w)， (3)

t_h＝log(G_h/P_h)， (4)

这四个公式计算网络的预测值t_x，t_y，t_w，t_h，其中(t_x,t_y)是真实框的中心到负责对目标进行预测的单元格左上角的偏移量，(t_w,t_h)是边界框大小的缩放比例，根据此缩放比例将边界框缩放到与真实框相似的大小。如果负责预测的单元格与图像左上角的偏移为(C_x,C_y)，且锚框先验的长宽分别为P_w、P_h，则待预测的边界框的坐标可以通过以下公式进行计算：

b_x＝σ(t_x)+C_x， (5)

b_y＝σ(t_y)+C_y， (6)

这四个公式计算出预测框的坐标，其中b_x，b_y，b_w，b_h分别为预测框的中心坐标及其长和宽。在上述公式中，G_x、G_y、G_w、G_h分别代表真实框的中心坐标及其长和宽，P_w、P_h分别代表锚框的宽和高。经过以上计算，我们即获得了边界框的预测坐标输出。公式中的σ(·)为logistic函数，它的使用是为了将t_x和t_y的值压缩到[0,1]区间，此操作能确保待预测的目标的中心落在此单元格内，防止偏差过大。

置信度通过以下公式计算，

confidence＝Pr(Object)*IOU(truth|pred)， (9)

网络训练时的损失函数通过以下公式计算，

式中，c_i表示真实的类别，表示预测的类别，(x_i,y_i,w_i,h_i)表示真实框的中心坐标及其长宽，表示预测框的中心坐标及其长宽。S表示将原图划分为S×S的网格，在此网络中分别为16,32和64；B表示每个单元格需要预测B个边界框，此处为3；λ_noobj，λ_obj，λ_class，λ_coord，表示相应的权重参数，其中λ_noobj、λ_obj分别表示不含目标及含有目标的边界框的预测所占的权重，λ_class表示含有目标的边界框的各个类别的置信度预测权重，λ_coord为坐标预测权重，和分别表示第i个网格中的第j个单元格是否负责目标的预测。网络训练的流程图如附图3所示。附图4和附图5分别为区域平均IOU随训练次数的变化图以及损失函数曲线随训练次数的变化图。

步骤S3：利用步骤S1中划分好的测试集对步骤S2中训练好的网络模型进行测试，并根据测试结果对网络参数进一步进行调整。

为了评估本算法的性能，本发明采用从交通路口拍摄的高清照片构建相关数据集，并且根据实际的识别需要，选择了准确率、召回率和重叠率这几个评价指标来对模型性能进行定性定量评价：

其中TP表示预测为正，实际为正；FP表示预测为正，实际为负；FN表示预测为负，实际为正。准确率表示所有预测为正的样本中实际为正的样本所占的比例；召回率即为查全率，表示检测出的样本与实际存在的所有样本数的比率；重叠率则为检测框与真实框相交的面积与相并的面积的比率，衡量的是检测框的准确度有多高。部分实验结果图如附图6所示。

以上这些实施例应理解为仅用于说明本发明而不用于限制本发明的保护范围。在阅读了本发明的记载的内容之后，技术人员可以对本发明作各种改动或修改，这些等效变化和修饰同样落入本发明权利要求所限定的范围。

Claims

1.一种基于交通场景的多支路目标检测方法，其特征在于，包括以下步骤：

S2、搭建基于深度学习的具有32层的网络模型，其中17个卷积层用于提取特征，6个最大池化层用于简化特征图，2个上采样层用于获取高维特征图，4个连接层用于获取指定层的特征图或者将不同层的特征图进行拼接，此外还有3个Yolo层作为三个检测分支，采用k-means聚类算法获取9个锚框先验，将这9个锚框平均分配到三个检测分支中，即一个分支为每一个可能的目标预测3个边界框，每个边界框除了要预测4个坐标和1个置信度之外，还需要预测7个类别分，作为一个基于回归方法的网络，该网络将检测任务转化为回归任务，在一个网络上同时完成目标的分类与边界框的回归，即将目标检测算法的候选框生成、特征提取、分类及位置精修这4个步骤统一到一个深度网络框架之内，利用NVIDIA GTX 1060GPU进行并行运算。在该网络中使用Leaky Relu函数作为激活函数，采用反向传播和随机梯度下降方法对网络模型进行端到端训练，通过迭代训练使损失函数降到一个小的范围然后停止训练；

2.根据权利要求1所述的一种基于交通场景的多支路目标检测方法，其特征在于，所述步骤S2目标的边界框回归过程通过以下公式计算：

首先通过t_x＝G_x-C_x，t_y＝G_y-C_y，t_w＝log(G_w/P_w)，t_h＝log(G_h/P_h)这四个公式计算网络的预测值t_x、t_y、t_w、t_h，其中(t_x,t_y)是真实框的中心到负责对目标进行预测的单元格左上角的偏移量，(t_w,t_h)是边界框大小的缩放比例，根据此缩放比例将边界框缩放到与真实框相似的大小，如果负责预测的单元格与图像左上角的偏移为(C_x,C_y)，且锚框先验的长宽分别为P_w、P_h，则待预测的边界框的坐标可以通过以下公式进行计算：b_x＝σ(t_x)+C_x，b_y＝σ(t_y)+C_y，这四个公式计算出预测框的坐标，其中b_x，b_y，b_w，b_h分别为预测框的中心坐标及其长和宽，在上述公式中，G_x、G_y、G_w、G_h分别代表真实框的中心坐标及其长和宽，P_w、P_h分别代表锚框的宽和高，经过以上计算，我们即获得了边界框的预测坐标输出，公式中的σ(·)为logistic函数，它的使用是为了将t_x和t_y的值压缩到[0,1]区间，此操作能确保待预测的目标的中心落在此单元格内，防止偏差过大。

3.根据权利要求2所述的一种基于交通场景的多支路目标检测方法，其特征在于，所述步骤S2的置信度通过以下公式计算，

confidence＝Pr(Object)*IOU(truth|pred)，

4.根据权利要求1所述的一种基于交通场景的多支路目标检测方法，其特征在于，所述步骤S2网络训练的损失函数通过以下公式计算，

5.根据权利要求1所述的一种基于交通场景的多支路目标检测方法，其特征在于，所述步骤S2的32层网络的具体网络层如下，

该网络由32层组成，包括17个用于特征提取的卷积层、6个用于简化特征图的最大池化层、2个获取高维特征图的上采样层(将一个层上采样2×然后将其连接到其他层)和3个Yolo层用于接收输出特征图并作为网络中的三个检测分支。此外，还有4个连接层用于获取某一特定层的特征图或者将不同层的特征图进行融合。我们在每个卷积层后加入了批量归一化层(Batch normalization)，对数据输出进行归一化，大大提高了训练速度，避免了梯度消失的发生。在该网络中，我们使用Leaky Relu函数作为激活函数。