CN111414861A

CN111414861A - 基于深度学习实现行人及非机动车辆检测处理的方法

Info

Publication number: CN111414861A
Application number: CN202010201390.4A
Authority: CN
Inventors: 李鹏坤; 逯利军; 钱培专; 王文川; 吕金涛; 彭浩
Original assignee: Beijing Certusnet Information Technology Co ltd; Guangdong Certusnet Information Technology Co ltd; Shanghai Certusnet Inc; CERTUSNET CORP
Current assignee: Beijing Certusnet Information Technology Co ltd; Guangdong Certusnet Information Technology Co ltd; Shanghai Certusnet Inc; CERTUSNET CORP
Priority date: 2020-03-20
Filing date: 2020-03-20
Publication date: 2020-07-14

Abstract

本发明涉及一种基于深度学习实现行人及非机动车辆检测处理的方法，包括进行数据集标注，收集监控采集的图片，对图片中的行人和非机动车辆进行人工标注，得到带有目标类别和目标位置框坐标的图片标签；进行模型训练，通过FPN网络结构的模型对多尺度特征图进行检测，将预处理之后的图片和标签放入网络进行训练，得到最终的深度学习模型；将待检测图片放入深度学习模型，对行人和非机动车辆进行目标检测，得到待检测图片的识别结果。采用了本发明的基于深度学习实现行人及非机动车辆检测处理的方法，基于先进的机器视觉技术，不仅能节省人力成本，在保证精度的情况下运行速度快，能保障告警的及时性，能严格杜绝安全隐患。

Description

基于深度学习实现行人及非机动车辆检测处理的方法

技术领域

本发明涉及机器视觉领域，尤其涉及深度学习领域，具体是指一种基于深度学习实现行人及非机动车辆检测处理的方法。

背景技术

小区视频监控主要用于对重要区域或远程地点的监视和控制。视频监控系统将监控点实时采集的视频流实时地传输给监控中心，便于监控中心进行远程监控，对异常事件(如人员跌倒，不明人员逗留，非机动车辆违规占道等)及时指挥处置。监控中心需要投入人力成本，而且监控人员长期盯住屏幕观看会产生视觉疲劳，在时效上也存在一定的安全隐患。

利用深度学习进行目标检测是近几年计算机视觉领域比较热门的方向。由于视频中的目标具有不同姿态且经常出现遮挡、其运动具有不规则性，同时考虑到监控视频的景深、分辨率、天气、光照等条件和场景的多样性，目标检测这一基本任务仍然是非常具有挑战性的课题，存在很大的提升潜力和空间。

发明内容

本发明的目的是克服了上述现有技术的缺点，提供了一种满足精度高、安全性好、适用范围较为广泛的基于深度学习实现行人及非机动车辆检测处理的方法。

为了实现上述目的，本发明的基于深度学习实现行人及非机动车辆检测处理的方法如下：

该基于深度学习实现行人及非机动车辆检测处理的方法，其主要特点是，所述的方法包括以下步骤：

(1)进行数据集标注，收集监控采集的图片，对图片中的行人和非机动车辆进行人工标注，得到带有目标类别和目标位置框坐标的图片标签；

(2)进行模型训练，通过FPN网络结构(Feature Pyramid Networks，即特征金字塔网络)的模型对多尺度特征图进行检测，将预处理之后的图片和标签放入网络进行训练，得到最终的深度学习模型；

(3)将待检测图片放入深度学习模型，对行人和非机动车辆进行目标检测，得到待检测图片的识别结果。

较佳地，所述的步骤(2)具体包括以下步骤：

(2.1)对多尺度特征图通过卷积进行检测；

(2.2)对每个单元设置尺度或者长宽比不同的先验框，输出每个先验框对应边界框的各类别的置信度或评分，以及边界框的位置预测值；

(2.3)通过损失函数调整模型；

(2.4)通过数据扩增提升模型性能。

较佳地，所述的步骤(2.2)中置信度最高的类别为边界框所属的类别。

较佳地，所述的步骤(2.2)中的位置预测值为边界框相对于先验框的转换值。

较佳地，所述的步骤(2)中的多尺度特征图包含较大的特征图和较小的特征图，所述的较大的特征图放置于较小的特征图前。

较佳地，所述的步骤(2.3)中的损失函数为位置误差与置信度误差的加权和。

较佳地，所述的步骤(2.3)中的损失函数具体为：

根据以下公式计算损失函数：

其中，L_conf为置信度误差，L_loc为位置误差，N为先验框的正样本数量，c为类别置信度预测值，l为先验框对应边界框的位置预测值，g是误差量化的位置参数，

为一个指示参数。

较佳地，所述的步骤(2.4)中的数据扩增操作包括水平翻转、随机裁剪加颜色扭曲和随机采集块域。

较佳地，所述的步骤(2)中的FPN网络结构包括自底向上的过程和自顶向下和侧向连接的融合过程。

采用了本发明的基于深度学习实现行人及非机动车辆检测处理的方法，基于先进的机器视觉技术，不仅能节省人力成本，而且让原来的视频监控系统对异常事件(如人员跌倒，不明人员逗留，非机动车辆违规占道等)具有智能识别功能，从而将值班人员从长期紧盯屏幕的紧张状态中解脱出来，该方法在保证精度的情况下运行速度快，能保障告警的及时性，能严格杜绝安全隐患。本发明提供的行人及非机动车辆检测方法能应用于小区监控等场合。

附图说明

图1为本发明的基于深度学习实现行人及非机动车辆检测处理的方法的训练及识别流程图。

图2为本发明的基于深度学习实现行人及非机动车辆检测处理的方法的FPN网络结构示意图图。

图3为本发明的基于深度学习实现行人及非机动车辆检测处理的方法的FPN网络结构实施细节图。

具体实施方式

为了能够更清楚地描述本发明的技术内容，下面结合具体实施例来进行进一步的描述。

本发明的该基于深度学习实现行人及非机动车辆检测处理的方法，其中包括以下步骤：

(2)进行模型训练，通过FPN网络结构的模型对多尺度特征图进行检测，将预处理之后的图片和标签放入网络进行训练，得到最终的深度学习模型；

(2.1)对多尺度特征图通过卷积进行检测；

(2.3)通过损失函数调整模型；

(2.4)通过数据扩增提升模型性能；

作为本发明的优选实施方式，所述的步骤(2.2)中置信度最高的类别为边界框所属的类别。

作为本发明的优选实施方式，所述的步骤(2.2)中的位置预测值为边界框相对于先验框的转换值。

作为本发明的优选实施方式，所述的步骤(2)中的多尺度特征图包含较大的特征图和较小的特征图，所述的较大的特征图放置于较小的特征图前。

作为本发明的优选实施方式，所述的步骤(2.3)中的损失函数为位置误差与置信度误差的加权和。

作为本发明的优选实施方式，所述的步骤(2.3)中的损失函数具体为：

根据以下公式计算损失函数：

为一个指示参数。

作为本发明的优选实施方式，所述的步骤(2.4)中的数据扩增操作包括水平翻转、随机裁剪加颜色扭曲和随机采集块域。

作为本发明的优选实施方式，所述的步骤(2)中的FPN网络结构包括自底向上的过程和自顶向下和侧向连接的融合过程。

本发明的具体实施方式中，一种基于深度学习的行人和非机动车辆检测方法，所述方法包括以下步骤：

步骤1，数据集标注。收集小区视频监控下的若干张图片，对图片中的行人和非机动车辆(自行车、电动车)进行人工标注，得到带有目标类别和目标位置框坐标的图片标签。

步骤2，模型训练。模型backbone采用基于resnet的FPN网络结构，采用多尺度特征图用于检测，检测的损失函数为MultiBox Loss，将预处理之后的图片和标签送入网络进行训练，得到最终的深度学习模型。

步骤3，目标识别。将待检测图片送入步骤2训练好的模型，对行人和非机动车辆进行目标检测，最终的到待检测图片的识别结果，具体流程如图一所示。

进一步，所述步骤2中，FPN的目标是利用卷积网络本身带有的层次性语义特征，来构建特征金字塔。FPN包含两个部分：第一部分是自底向上的过程，第二部分是自顶向下和侧向连接的融合过程。

采用多尺度特征图

所谓多尺度特征图，CNN网络一般前面的特征图比较大，后面会逐渐采用stride＝2的卷积或者pool来降低特征图大小，一个比较大的特征图和一个比较小的特征图，它们都用来做检测。这样做的好处是比较大的特征图来用来检测相对较小的目标，而小的特征图负责检测大目标。

采用卷积进行检测

直接采用卷积对不同的特征图来进行提取检测结果。对于形状为m×n×p的特征图，只需要采用3×3×p这样比较小的卷积核得到检测值。

设置先验框

每个单元设置尺度或者长宽比不同的先验框，预测的边界框(bounding boxes)是以这些先验框为基准的，在一定程度上减少训练难度。一般情况下，每个单元会设置多个先验框，其尺度和长宽比存在差异。

损失函数

损失函数定义为位置误差(locatization loss，loc)与置信度误差(confidenceloss,conf)的加权和：

其中N是先验框的正样本数量。这里

为一个指示参数，当

时表示第i个先验框与第j个ground truth匹配，并且ground truth的类别为p。c为类别置信度预测值。l为先验框的所对应边界框的位置预测值，而g是ground truth的位置参数。

数据扩增

采用数据扩增(Data Augmentation)可以提升模型的性能，主要采用的技术有水平翻转(horizontal flip)，随机裁剪加颜色扭曲(random crop&color distortion)，随机采集块域(Randomly sample a patch)(获取小目标训练样本)。

如图1至图3，本发明的具体实施例中包括以下步骤：

步骤1，数据集标注。收集小区视频监控下的若干张图片，对图片中的行人和非机动车辆(自行车、电动车)进行人工标注，得到带有目标类别和目标位置框坐标的图片标签，标注格式为(x1,y1,x2,y2,class)。

步骤3，目标识别。将待检测图片送入步骤2训练好的模型，对行人和非机动车辆进行目标检测，最终的到待检测图片的识别结果。

模型训练和目标识别的流程如图1所示。

进一步，所述步骤2中，FPN的目标是利用卷积网络本身带有的层次性语义特征，来构建特征金字塔。FPN包含两个部分：第一部分是自底向上的过程，第二部分是自顶向下和侧向连接的融合过程，如图2所示。FPN的网络结构如下：

(1)自底向上的过程：自底向上的过程和普通的CNN没有区别。现代的CNN网络一般都是按照特征图大小划分为不同的stage，每个stage之间特征图的尺度比例相差为2。在FPN中，每个stage对应了一个特征金字塔的级别(level)，并且每个stage的最后一层特征被选为对应FPN中相应级别的特征。具体的，选取conv3、conv4、conv5、conv6、conv7、conv8、conv9层的特征作为FPN的特征，记为{C2、C3、C4、C5、C6、C7、C8、C9}。这几个特征层相对于原图的步长分别为8、16、32、64、128、256、512。

(2)自顶向下过程以及侧向连接：自顶向下的过程通过上采样(up-sampling)的方式将顶层的小特征图放大到上一个stage的特征图一样的大小。这样的好处是既利用了顶层较强的语义特征(利于分类)，又利用了底层的高分辨率信息(利于定位)。上采样的方法可以用最近邻差值实现。侧向连接将上一层经过上采样后和当前层分辨率一致的特征，通过相加的方法进行融合。(这里为了修正通道数量，将当前层先经过1x1卷积操作)。具体的，C5层先经过1x1卷积，得到M5特征。M5通过上采样，再加上C4经过1x1卷积后的特征，得到M4。这个过程再做一次，得到M3。

采用多尺度特征图

采用卷积进行检测

设置先验框

对于每个单元的每个先验框，其都输出一套独立的检测值，对应一个边界框，主要分为两个部分。第一部分是各个类别的置信度或者评分，其中背景也当做了一个特殊的类别，如果检测目标共有c个类别，SSD其实需要预测c+1个置信度值。在预测过程中，置信度最高的那个类别就是边界框所属的类别，特别地，当第一个置信度值最高时，表示边界框中并不包含目标。第二部分就是边界框的location，包含4个值(cx，cy，w，h)，分别表示边界框的中心坐标以及宽高。但是真实预测值其实只是边界框相对于先验框的转换值。先验框位置用d＝(d^cx，d^cy，d^w，d^h)表示，其对应边界框用b＝(b^cx，b^cy，b^w，b^h)表示，那么边界框的预测值L其实是b相对于d的转换值：

l^cx＝(b^cx-d^cx)/d^w，l^cy＝(b^cy-d^cy)/d^h

l^w＝log(b^w/d^w)，l^h＝log(b^h/d^h)

习惯上，我们称上面这个过程为边界框的编码(encode)，预测时需要反向这个过程，即进行解码(decode)，从预测值d中得到边界框的真实位置b：

b^cx＝d^wl^cx+d^cx，b^cy＝d^hl^cy+d^cy

b^w＝d^wexp(l^w)，b^h＝d^hexp(l^h)

具体的，如图3所示，共提取P3～P9一共7个特征图，每个特征图的像素点上共有9个先验框

损失函数

损失函数定义为位置误差(locatization loss，loc)与置信度误差(confidenceloss，conf)的加权和：

其中N是先验框的正样本数量。这里

为一个指示参数，当

时表示第i个先验框与第j个ground truth(误差量化)匹配，并且ground truth的类别为p。c为类别置信度预测值。l为先验框的所对应边界框的位置预测值，而g是ground truth的位置参数。对于位置误差，其采用Smooth L1 loss，定义如下：

对于置信度误差，其采用softmax loss：

权重系数α设置为1。

数据扩增

采用数据扩增(DataAugmentation)可以提升模型的性能，主要采用的技术有水平翻转(horizontal flip)，随机裁剪加颜色扭曲(random crop&color distortion)，随机采集块域(Randomly sample a patch)(获取小目标训练样本)。

在此说明书中，本发明已参照其特定的实施例作了描述。但是，很显然仍可以作出各种修改和变换而不背离本发明的精神和范围。因此，说明书和附图应被认为是说明性的而非限制性的。