CN108537117B

CN108537117B - 一种基于深度学习的乘客检测方法和系统

Info

Publication number: CN108537117B
Application number: CN201810182583.2A
Authority: CN
Inventors: 吴艳霞; 曾相未; 徐宇凡
Original assignee: Harbin Cellpies Technology Co ltd
Current assignee: Harbin Cellpies Technology Co ltd
Priority date: 2018-03-06
Filing date: 2018-03-06
Publication date: 2022-03-11
Anticipated expiration: 2038-03-06
Also published as: CN108537117A

Abstract

本发明涉及车载目标检测领域，特别涉及一种基于深度学习的乘客检测方法和系统。方法包括以下步骤：采用YOLO方法训练用于识别乘客的身型矩形框的YOLO神经网络；获取目标视频信息；采用步骤S1训练完成的YOLO神经网络对所述目标视频信息进行识别，并根据识别结果判断所述目标视频信息中是否包含目标乘客。本发明提出了一种基于深度学习的乘客检测方法和系统，采用YOLO方法训练卷积神经网络，基于YOLO预测流程简单、速度快以及检测率高的特定，本发明在复杂的环境下，比如光照发生变化以及存在振动等人流密集的环境下，既具有较高的Precision/Recall，同时也具有较高的检测速度。

Description

一种基于深度学习的乘客检测方法和系统

技术领域

本发明涉及车载目标检测领域，特别涉及一种基于深度学习的乘客检测方法和系统。

背景技术

目前，国内外的公交乘客客流统计方法主要分为两类，一类是基于非图像的客流统计方法，回顾公交车客流统计系统的发展历史，曾经有过压力踏板、红外线检测、IC卡等方案来检测公交乘客流量，但在工程应用上存在众多问题。就压力踏板方案而言，其根据压敏电阻来间接推测乘客的踩踏次数和重量等数据从而推测人数，由于公交车人流巨大且存在着人们的体重差异，不同的步伐和踩踏轻重等问题，导致漏检和误检等结果，检测精度不高。红外线计数采用的是光学原理，当乘客通过检测区时光线被遮挡，通过光敏电阻间接进行计数。但是在多数乘客同时上车的时候容易造成漏检等问题。IC卡方案，无法囊括投币乘客的统计数据，此方案无法真实的反应客流量，检测精度同样不高。

另一类是基于图像的客流统计方法，该方法利用模拟人类的视觉系统来提高客流统计的精度，基于图像的客流统计方法分为检测、跟踪、计数三个步骤。检测是跟踪和计数的前提，只有基于精确的检测结果，才有可能获得良好的跟踪效果和精确的计数。目前的各种目标检测技术都存在一些问题，比如传统目标检测方法检测速度快但是Precision/Recall低，而基于深度学习的目标检测方法one-stage（基于回归）和two-stage（基于区域推荐）具有较高的Precision/Recall，但是运算速度慢，无法达到实时目标检测的效果。具体来说，国内外车载领域采用的是两类目标检测方法，一类是基于单目摄像头的目标检测方法，另一类是基于双目标摄像头的目标检测方法。基于单目摄像头的目标检测方法采用的是基于图像的传统目标检测方法，该方法通过提取图像的特征（HOG、（SVM）支持向量机）进行目标检测，但是受公交车上环境复杂如光照变化的影响，检测准确度较低；双目摄像头虽然可以基于深度信息规避光照等复杂环境因素的影响，但是其造价成本比单目摄像头造价成本高。

发明内容

本发明提供了一种基于深度学习的乘客检测方法和系统，解决了现有技术精度不高且检测模型难以具有实时性的问题。

本发明解决上述技术问题的技术方案如下：一种基于深度学习的乘客检测方法，包括以下步骤：

步骤S1，采用YOLO方法训练用于识别乘客的身型矩形框的YOLO神经网络；

步骤S2，获取目标视频信息；

步骤S3，采用步骤S1训练完成的YOLO神经网络对所述目标视频信息进行识别，并根据识别结果判断所述目标视频信息中是否包含目标乘客。

本发明的有益效果是：本发明提出了一种基于深度学习的乘客检测方法，该方法采用YOLO方法训练卷积神经网络，基于YOLO预测流程简单、速度快以及检测率高的特定，本发明在复杂的环境下，比如光照发生变化以及存在振动等人流密集的环境下，既具有较高的Precision/Recall，同时也具有较高的检测速度。

在上述技术方案的基础上，本发明还可以做如下改进。

进一步，所述步骤S1具体包括以下步骤：

S101，获取乘客视频样本数据集，并对所述乘客视频样本数据集中每个样本数据进行预处理和数据标注，形成训练样本；

S102，建立预训练模型，所述预训练模型包括特征网络提取层、平均池化层和柔性最大层，采用DW分组卷积方法和预设数据集对所述预训练模型进行训练，以优化所述预训练模型各层的参数；所述特征网络提取层包括至少一个第一卷积层、至少一个分组卷积层和至少一个最大池化层；

S103，采用步骤S102训练完成的所述特征网络提取层构建YOLO神经网络，所述YOLO神经网络还包括路由层和区域回归层，采用所述训练样本对YOLO神经网络进行训练以优化所述路由层和所述区域回归层的参数。

进一步，步骤S102中预训练模型包括15层的卷积神经网络，15层依次是输入层、第一卷积层、第一池化层、第一分组卷积层、第二池化层、第二分组卷积层、第三池化层、第三分组卷积层、第四池化层、第四分组卷积层、第五池化层、第五分组卷积层、第二卷积层、平均池化层和柔性最大层。

进一步，所述步骤S1还包括步骤S104，具体为：采用mAp方法检验所述YOLO神经网络的检测精度。

进一步，所述步骤S101具体为：

获取乘客视频样本数据集；

对乘客视频样本数据集中每个样本数据进行放缩去噪；

对放缩去噪后的乘客视频样本数据集进行自动扩充；

在乘客视频样本数据集的样本数据中选取代表身体特征的矩形框进行数据标注，形成训练样本。

进一步，所述乘客视频样本数据集包括白天、黑夜以及预设天气状态分别对应的样本数据，且所述矩形框为从肩膀到头顶的矩形框。

为了解决本发明的技术问题，还提供了一种基于深度学习的乘客检测模型，包括训练模块、采集模块和检测模块，

所述训练模块用于采用YOLO方法训练用于识别乘客的身型矩形框的YOLO神经网络；

所述采集模块用于获取目标视频信息；

所述检测模块用于采用训练完成的YOLO神经网络对所述目标视频信息进行识别，并根据识别结果判断所述目标视频信息中是否包含目标乘客。

进一步，所述训练模块具体包括：

样本处理单元，用于获取乘客视频样本数据集，并对所述乘客视频样本数据集中每个样本数据进行预处理和数据标注，形成训练样本；

第一训练单元，用于建立预训练模型，所述预训练模型包括特征网络提取层、平均池化层和柔性最大层，采用DW分组卷积方法和预设数据集对所述预训练模型进行训练，以优化所述预训练模型各层的参数；所述特征网络提取层包括至少一个第一卷积层、至少一个分组卷积层和至少一个最大池化层；

第二训练单元，用于采用训练完成的所述特征网络提取层构建YOLO神经网络，所述YOLO神经网络还包括路由层和区域回归层，采用所述训练样本对YOLO神经网络进行训练以优化所述路由层和所述区域回归层的参数。

进一步，所述训练模块还包括检验单元，所述检验单元用于采用mAp方法检验所述YOLO神经网络的检测精度。

进一步，所述预训练模型包括15层的卷积神经网络，15层依次是输入层、第一卷积层、第一池化层、第一分组卷积层、第二池化层、第二分组卷积层、第三池化层、第三分组卷积层、第四池化层、第四分组卷积层、第五池化层、第五分组卷积层、第二卷积层、平均池化层和柔性最大层。

进一步，所述样本处理单元具体包括：

获取单元，用于获取乘客视频样本数据集；

预处理单元，用于对乘客视频样本数据集中每个样本数据进行放缩去噪；

扩充单元，用于对放缩去噪后的乘客视频样本数据集进行自动扩充；

标注单元，用于在乘客视频样本数据集的样本数据中选取代表身体特征的矩形框进行数据标注，形成训练样本；

所述乘客视频样本数据集包括白天、黑夜以及预设天气状态分别对应的样本数据，且所述矩形框为从肩膀到头顶的矩形框。

本发明附加的方面的优点将在下面的描述中部分给出，部分将从下面的描述中变得明显，或通过本发明实践了解到。

附图说明

图1为本发明实施例1提供的一种基于深度学习的乘客检测方法的流程示意图；

图2为本发明预训练模型的top-5 accuracy性能结果图；

图3为本发明预训练模型的结构示意图；

图4为本发明YOLO神经网络的结构示意图；

图5为本发明实施例2提供的一种基于深度学习的乘客检测系统的结构示意图。

具体实施方式

以下结合附图对本发明的原理和特征进行描述，所举实例只用于解释本发明，并非用于限定本发明的范围。

卷积神经网络（Convolutional Neural Network,CNN）是近年来发展起来的高效识别方法，尤其是在图像识别和模式分类领域引起了广泛重视。对卷积神经网络模型进行训练包括以下步骤：

1、采用卷积层对输入图片进行卷积处理。所述卷积层包括卷积核，通过选定的卷积核对图片进行处理首先是基于局部感知野的原理。一般认为人对外界的认知是从局部到全局的，而图像的空间联系也是局部的像素联系较为紧密，而距离较远的像素相关性则较弱。因而，每个神经元其实没有必要对全局图像进行感知，只需要对局部进行感知，然后在更高层将局部的信息综合起来就得到了全局的信息。其次，可以认为图像的各个部分的统计特征是相同的，这也意味着在这一部分学习的特征也能用在另一部分上，所以对于这个图像上的所有位置，我们都能使用同样的学习特征，就可以选用同样的卷积核进行处理，得到特征图像。

2、对卷积后的数据进行池化处理。池化的作用是通过降采样的方式进一步降低冗余度。这是利用静态图片的空间相关性，可以认为经过卷积得到的特征图表述了图像的某种特征，邻近各点之间具有较强的相关性，可以利用降采样降低冗余。

3、经过若干次卷积和池化后得到最终的特征图。通常卷积和池化的操作会进行若干次，之后得到最终的特征图。

4、在特征图和输出之间建立全连接；

5、建立全连接之后可以通过损失函数计算模型输出和实际输出的差，通过反向运算修正各层参数，从而使损失函数值最小，完成训练过程。将训练完成的卷积神经网络模型对输入图像进行运算，即可得到输入图像的类别或者位置数据。位置数据通常采用（x，y，w，h）表示，x，y为坐标值，w为宽度，h为高度，上述位置数据在输入图像上的显示结果即是一个框住输入图像中目标检测物体的矩形框。

而YOLO方法，即You Only Look Once方法是一种在CNN基础上发展起来的新的目标检测方法，它将目标区域预测和目标类别预测整合于单个神经网络模型中，实现在准确率较高的情况下快速目标检测与识别。具体的，YOLO方法将目标检测的流程统一为单个神经网络，该神经网络采用整个图像信息来预测目标的bounding boxes的同时识别目标的类别，实现端到端实时目标检测任务。

具体到本发明中，可以采用训练好的YOLO神经网络图像对各种车辆比如公交车、火车上的乘客图像进行检测，框出图像中的所有乘客，继而判断所有乘客中是否包括目标乘客，实现对目标乘客的查询、追踪等等。

图1为本发明实施例1提供的一种基于深度学习的乘客检测方法的流程示意图，如图1所示，包括以下步骤：

步骤S2，获取目标视频信息；

本实施例提出了一种基于深度学习的乘客检测方法，该方法采用YOLO方法训练卷积神经网络，基于YOLO预测流程简单、速度快以及检测率高的特定，本发明在复杂的环境下，比如光照发生变化以及存在振动等人流密集的环境下，可以对目标视频信息进行识别，从而获取目标视频信息中每个乘客对应的身型标签信息框，从而方便判断该目标视频信息中是否包括目标乘客，既具有较高的Precision/Recall，同时也具有较高的检测速度。

以下通过具体实施例对本发明进行描述。首先本发明需要获取训练样本，并利用训练样本训练YOLO神经网络。具体的，获取训练样本包括以下步骤：

获取乘客视频样本数据集；

采用opencv方法对乘客视频样本数据集中每个样本数据进行放缩去噪；

对放缩去噪后的乘客视频样本数据集进行自动扩充；

在乘客视频样本数据集的样本数据中选取代表身体特征的矩形框进行数据标注，形成训练样本。具体实施例中，所述乘客视频样本数据集包括白天、黑夜以及多种预设天气状态，比如晴天、阴天，雨雪天等天气状态分别对应的样本数据，从而实现了样本数据的全面性和多样化，可以应对不同的目标视频信息，提高了检测精度；而通过扩充训练样本，可以防止图像样本过少导致的过拟合问题。同时，代表身体特征的矩形框可以是包括人物整个身体的矩形框，或者是包括部分身体的矩形框，比如包括从肩膀到头顶的矩形框，在实际应用中可以根据需要进行选择。

然后采用上述训练样本训练神经网络模型。在本发明的一种具体实施方式中，首先建立预训练模型，预训练模型包括特征提取网络层、第二卷积层、平均池化层和柔性最大层。预训练模型的特征提取网络层详细设计依次为：输入层、第一卷积层、第一池化层、第一分组卷积层、第二池化层、第二分组卷积层、第三池化层、第三分组卷积层、第四池化层、第四分组卷积层、第五池化层、第五分组卷积层，如图3所示，Conv表示卷积层，Max Pool表示最大池化层，Avg Pool表示平均池化层，Softmax表示柔性最大层。本实施例采用dw分组卷积方式，每个分组卷积层包含了两层的卷积运算，具体为特征提取及特征融合，将其作为了一层分组卷积处理，因此每个分组卷积层均包括一个对应的Conv dw层和一个Conv层。

具体的，该特征提取网络层的第一层为input（输入层），输入层的大小为320x320x3，输入的图像为公交乘客图像。

该特征提取网络层的第二层为第一卷积层，卷积核的size（大小）为3x3，channels（通道数）为16，stride（步长）设置为2x2，利用BN规范化，激活函数采用leaky函数，pad（边缘补齐）设置为1，使用该卷积核做卷积运算，使得输入层接受的320x320x3的公交乘客图像变为320x320x16，作为第三层输入。本实施例中卷积核为16filters，目的是降低输入特征的规模，提高运算的速度。卷积运算公式为：（height+2×pad-ksize）/stride+1，其中height为当前层输入的高度，pad为边缘补齐，ksize为卷积核的边长，stride为卷积核移动的步长。经过卷积运算，输出大小仍为320x320，但是特征数由原来输入的3通道变为了16通道。

第三层为第一池化层，第一池化层的设置方法采用最大池化法。最大池化运算法则为：最大池化函数给出相邻矩形区域内的最大值，本实施例中步长为2、大小为2x2的池化层使得输出的特征图大小为160x160，通道数16。具体的，对单位池化区域的像素点取最大点作为第一池化层的输出，该输出为16个160x160大小的特征图像，作为第四层的输入。

第四层为第一分组卷积层，分组卷积采用的是DW卷积，卷积核的size分别为3x3和1x1，channels分别为16和32，通过特征提取和特征融合的方式输出的特征图为160x160x32作为第五层的输入。

第五层为第二池化层，第二池化层的设置方法采用最大池化法。具体的，可以将池化层的核size设置为2x2，stride为2x2，输出为80x80x32大小的特征图像，作为第六层的输入。

第六层为第二分组卷积层，卷积核的size分别为3x3和1x1，channels分别为32和64，pad设置为0，通过特征提取和特征融合的方式输出的特征图为78x78x64作为第七层的输入。

第七层为第三池化层，第三池化层的设置方法采用最大池化法。具体的，可以将池化层的核size设置为3x3，stride为3x3，输出为26x26x64大小的特征图像，作为第八层的输入。

第八层为第三分组卷积层，卷积核的size分别为3x3和1x1，channels分别为64和128，通过特征提取和特征融合的方式输出的特征图为26x26x128作为第九层的输入。

第九层为第四池化层，第四池化层的设置方法采用最大池化法。具体的，可以将池化层的核size设置为2x2，stride为2x2，输出为13x13x128大小的特征图像，作为第十层的输入。

第十层为第四分组卷积层，卷积核的size分别为3x3和1x1，channels分别为128和256，通过特征提取和特征融合的方式输出的特征图为13x13x256作为第十一层的输入。

第十一层为第五池化层，第五池化层的设置方法采用最大池化法。具体的，可以将池化层的核size设置为2x2，stride为2x2，输出为6x6x256大小的特征图像，作为第十二层的输入。

第十二层为第五分组卷积层，卷积核的size分别为3x3和1x1，channels分别为256和512，通过特征提取和特征融合的方式输出的特征图为6x6x512作为第十三层的输入。

上述实施例中采用运用分组卷积的方法，优选的采用DW分组卷积的方法从而提高了卷积运算速度。Depth Wise convolution分开处理channels和图像的region，对每一个channels进行各自的卷积操作，有多少个channels就有多少个filters，得到新的channelfeature maps之后，再对新的channel feature maps进行标准的1×1跨通道卷积操作。DW卷积是最极致的分组卷积优化，即有多少个channels就分为多少组。列举本发明第二层的卷积层操作，如果采用直接卷积，计算如下：运算112x112×8x3x3x32,其中112x112为输入特征图大小，8为channel，3x3为卷积核大小，32为卷积核个数；如果采用DW分组卷积，计算如下：112x112x（8x3x3+8x32），因此采用DW分组卷积的运算量是直接卷积的七分之一。

具体实施例中，上述预训练模型的网络初始配置为：batch=64（一批次图片数量），subdivision=1（图片分支数），height、width=320（网络高度与宽度），channels=3（输入通道数），momentum=0.9（梯度下降动量），decay=0.0005（权值衰减），learning_rate=0.01（学习率），policy=poly（策略），power=4（指数），max_batches=120000（最大批次）。

第十三层为第二卷积层，卷积核大小为1x1，channels为1000，输出的特征图为7x7x1000大小的特征图像，作为第十四层的输入。

第十四层采用平均池化层代替全链接层，平均池化的运算法则为：平均池化函数给出相邻矩形区域内的平均值，具体的，可以将池化层的核设为6x6，对单位池化区域的像素点取平均值作为平均池化层的输出。输出特征图为1x1x1000大小的特征图像，作为第十五层的输入。

而第十五层为柔性最大层，柔性最大化的运算法则如下：exp（当前输出大小-所有输出中的最大值），然后求和取比例。柔性似然函数的运用是使得在其中一个数值变化的情况下，整体的比例变化不大。具体的，柔性最大层对输入进行数据转换得到最后结果。上述实施例中，可以利用ILSVRC2012数据集（国际公认分类数据集），并基于darknet神经网络框架，训练所述预训练模型。然后选取top-5 Accuracy作为验证结果，具体为将一幅图输入网络中，选取在1000个分类概率数值的数值最高的前5个概率值对应的分类标签对比原输入图片的分类标签，如果是则为1，反之为0，从而将top-5 Accuracy作为模型性能标准。

本实施例中top-5 Accuracy为0.74，可以将最后一层的最大池化层，即第五层maxpooling的stride从2调整到1，改变网络初始配置max_batches，使得输出由原来的6x6变为13x13，再训练50000轮，使得第十二层的输入由6x6x512变成13x13x512，得到应用于预训练模型的权重文件，此时top-5 Accuracy为0.64，如图2所示，因为是在应用过分组卷积优化之后的数值，所以精度降低了很多。

然后采用上述预训练模型中的特征提取网络层构建YOLO神经网络， YOLO的核心算法如下：输入一幅图像，首先将图像划分成KxK的网格，比如本实施例中分为7*7个网格，每个网格预测两个bounding box（每个box包含5个预测量，分别是候选框的中心点横纵坐标、长宽以及confidence（置信度），同时每个box还包括20种目标类别，从而得到目标类别概率和目标框位置。本实施例中总共输出7×7×（2*5+20）=1470个tensor。根据上一步可以预测出7 * 7 * 2 = 98个目标窗口，然后根据阈值去除可能性比较低的目标窗口，再由NMS（非极大值抑制）去除冗余窗口，即可获取目标类别出现概率最高的目标框，并输出其具体坐标。

具体实施例中，所述YOLO神经网络还包括路由层和区域回归层，如图4所示，先提取前十一层的权重文件，然后对YOLO神经网络进行网络初始配置为batch=128，subdivision=8，width、height=224、channels=3，momentum=0.9，decay=0.0005，angle=0（图片旋转角度），saturation=1.5，exposure=1.5，hue=.1，learning_rate=0.001，max_batches=120000，policy=steps，steps=-1,100,80000,100000，scales=.1,10,.1,.1。通过路由层将特征提取前后的13x13x512大小的特征图进行合并，输出图像大小为13x13x1024。而区域回归层为一个卷积层及其区域层。卷积层的通道数为30(30个类别），size为1*1，stride为1，区域层的阈值设为0.6。最后利用标注好的训练样本，基于darknet神经网络框架的YOLO检测方法，训练YOLO神经网络，并计算mAP（平均精度，Recall x precision）值。本实施例中训练出的YOLO神经网络的mAP值为0.63。

图5为本发明实施例2提供的一种基于深度学习的乘客检测系统的结构示意图，如图5所示，包括训练模块、采集模块和检测模块，

所述采集模块用于获取目标视频信息；

优选实施例中，所述训练模块具体包括：

第二训练单元，用于采用训练完成的所述特征网络提取层构建YOLO神经网络，所述YOLO神经网络还包括路由层和区域回归层，采用所述训练样本对YOLO神经网络进行训练以优化所述路由层和所述区域回归层的参数。优选实施例中，所述样本处理单元具体包括：

获取单元，用于获取乘客视频样本数据集；

标注单元，用于在乘客视频样本数据集的样本数据中选取代表身体特征的矩形框进行数据标注，形成训练样本；所述乘客视频样本数据集中包括白天、黑夜以及多种预设天气分别对应的样本数据，且所述矩形框为从肩膀到头顶的矩形框。

另一优选实施例中，所述训练模块还包括检验单元，所述检验单元用于采用mAp方法检验所述YOLO神经网络的检测精度。

具体的，所述预训练模型包括15层的卷积神经网络，15层依次是输入层、第一卷积层、第一池化层、第一分组卷积层、第二池化层、第二分组卷积层、第三池化层、第三分组卷积层、第四池化层、第四分组卷积层、第五池化层、第五分组卷积层、第二卷积层、平均池化层和柔性最大层。

读者应理解，在本说明书的描述中，参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中，对上述术语的示意性表述不必针对的是相同的实施例或示例。而且，描述的具体特征、结构、材料或者特点可以在任一个或多个实施例或示例中以合适的方式结合。此外，在不相互矛盾的情况下，本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。

所属领域的技术人员可以清楚地了解到，为了描述的方便和简洁，上述描述的装置和单元的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

在本申请所提供的几个实施例中，应该理解到，所揭露的装置和方法，可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如，单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。

作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本发明实施例方案的目的。

另外，在本发明各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以是两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分，或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备（可以是个人计算机，服务器，或者网络设备等）执行本发明各个实施例方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器（ROM，Read-Only Memory）、随机存取存储器（RAM，Random Access Memory）、磁碟或者光盘等各种可以存储程序代码的介质。

以上，仅为本发明的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到各种等效的修改或替换，这些修改或替换都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应以权利要求的保护范围为准。

以上所述仅为本发明的较佳实施例，并不用以限制本发明，凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种基于深度学习的乘客检测方法，其特征在于，包括以下步骤：

步骤S2，获取光照发生变化以及存在振动的人流密集环境下的目标视频信息；

步骤S3，采用步骤S1训练完成的YOLO神经网络对所述目标视频信息进行识别，获取目标视频信息中每个乘客对应的身型标签信息框，并根据识别结果判断所述目标视频信息中是否包含目标乘客；

所述步骤S1具体包括以下步骤：

S101，获取乘客视频样本数据集，对乘客视频样本数据集中每个样本数据进行放缩去噪，并对放缩去噪后的乘客视频样本数据集进行自动扩充后选取代表身体特征的矩形框进行数据标注，形成训练样本；所述乘客视频样本数据集包括白天、黑夜以及预设天气状态分别对应的样本数据，且所述矩形框为从肩膀到头顶的矩形框；

S102，建立预训练模型，所述预训练模型包括特征网络提取层、平均池化层和柔性最大层，采用DW分组卷积方法和预设数据集对所述预训练模型进行训练，以优化所述预训练模型各层的参数；所述特征网络提取层包括至少一个第一卷积层、至少一个分组卷积层和至少一个最大池化层；所述DW分组卷积方法分开处理通道和图像的区域，对每一个通道进行各自的卷积操作，每个通道对应一个滤波器，得到新的特征图之后，再对新的特征图进行标准的1×1跨通道卷积操作；

2.根据权利要求1所述的基于深度学习的乘客检测方法，其特征在于，步骤S102中预训练模型包括15层的卷积神经网络，15层依次是输入层、第一卷积层、第一池化层、第一分组卷积层、第二池化层、第二分组卷积层、第三池化层、第三分组卷积层、第四池化层、第四分组卷积层、第五池化层、第五分组卷积层、第二卷积层、平均池化层和柔性最大层。

3.根据权利要求2所述的基于深度学习的乘客检测方法，其特征在于，所述步骤S1还包括步骤S104，具体为：采用mAp方法检验所述YOLO神经网络的检测精度。

4.一种基于深度学习的乘客检测系统，其特征在于，包括训练模块、采集模块和检测模块，

所述采集模块用于获取光照发生变化以及存在振动的人流密集环境下的目标视频信息；

所述检测模块用于采用训练完成的YOLO神经网络对所述目标视频信息进行识别，获取目标视频信息中每个乘客对应的身型标签信息框，并根据识别结果判断所述目标视频信息中是否包含目标乘客；

所述训练模块具体包括：

样本处理单元，用于获取乘客视频样本数据集，对乘客视频样本数据集中每个样本数据进行放缩去噪，并对放缩去噪后的乘客视频样本数据集进行自动扩充后选取代表身体特征的矩形框进行数据标注，形成训练样本；所述乘客视频样本数据集包括白天、黑夜以及预设天气状态分别对应的样本数据，且所述矩形框为从肩膀到头顶的矩形框；

第一训练单元，用于建立预训练模型，所述预训练模型包括特征网络提取层、平均池化层和柔性最大层，采用DW分组卷积方法和预设数据集对所述预训练模型进行训练，分开处理通道和图像的区域，对每一个通道进行各自的卷积操作，每个通道对应一个滤波器，得到新的特征图之后，再对新的特征图进行标准的1×1跨通道卷积操作，以优化所述预训练模型各层的参数；所述特征网络提取层包括至少一个第一卷积层、至少一个分组卷积层和至少一个最大池化层；

5.根据权利要求4所述的基于深度学习的乘客检测系统，其特征在于，所述预训练模型包括15层的卷积神经网络，15层依次是输入层、第一卷积层、第一池化层、第一分组卷积层、第二池化层、第二分组卷积层、第三池化层、第三分组卷积层、第四池化层、第四分组卷积层、第五池化层、第五分组卷积层、第二卷积层、平均池化层和柔性最大层。