CN112633210A

CN112633210A - 基于目标检测的轨道交通客流密度估计系统及其方法

Info

Publication number: CN112633210A
Application number: CN202011601306.4A
Authority: CN
Inventors: 潘尚考; 刘光杰; 刘伟伟; 赵华伟; 陆赛杰
Original assignee: Nanjing University of Science and Technology
Current assignee: Nanjing University of Science and Technology
Priority date: 2020-12-14
Filing date: 2020-12-29
Publication date: 2021-04-09
Anticipated expiration: 2040-12-29
Also published as: CN112633210B

Abstract

本发明公开了一种基于目标检测的轨道交通客流密度估计系统及其方法，基于Atlas200开发板实现，获取视频数据进行硬件解码，获取YUV格式的图片，并对图片进行预处理，包括尺寸调整、格式转换；加载训练好的人群计数模型，对预处理完成的图片完成推理过程，得到图片的特征向量；对模型推理输出的特征向量进行处理，得到图片中行人的数量，再将数量与额定容量相比较，得到当前密度值；基于视频采集模块采集的数据，使用MindStudio工具对模型进行测试，测得其在测试集上的精度，若相比GPU平台存在精度下降，且结果不及预期，则重新进行模型的训练与部署，否则利用该模型估计实际轨道交通客流密度。本发明能够真实反映当前地铁站内客流情况，相比于现有技术更加可靠。

Description

基于目标检测的轨道交通客流密度估计系统及其方法

技术领域

本发明涉及深度学习、目标检测、人群计数技术，具体涉及一种基于目标检测的轨道交通客流密度估计系统及其方法。

背景技术

城市化的进展使得轨道交通系统的负担越来越大，在地铁站内时常出现人潮拥挤的情况，因此需要地铁工作人员使用人力来维护秩序。但人力的局限性在于不能快速精确判断当前拥挤情况，往往反应会比较慢，造成乘客的体验变差。随着智慧车站的概念被提出，很多智能技术被带入车站，例如人脸识别等技术。于是可利用AI技术来代替人力判断当前的客流情况，即使用人群计数算法来得到客流量。通过得到监控摄像头的视频流数据，使用人群计数算法测出监控区域的行人数量，与额定容纳人数比较以得出当前区域的客流密度。

通常地铁站内摄像头不具有人群计数的功能，客流的估计仅通过AFC(自动售检票系统)得到进站出站人数；或根据地铁工作人员的经验，例如在科技园区附近地铁站，在下午五点半至六点半必然出现大客流。本发明直接采集监控图片得到客流情况，相比AFC系统更真实反映地铁站内滞留人数，相比人力经验判断更加高效准确。

发明内容

本发明的目的在于提供一种基于目标检测的轨道交通客流密度估计系统及其方法。

实现本发明目的的技术解决方案为：一种基于目标检测的轨道交通客流密度估计系统，基于Atlas200开发板实现，具体包括：

视频采集模块，用于获取视频数据，一是通过树莓派摄像头采集视频流；二是通过网络摄像头采集视频流；

视频编解码与图像预处理模块，用于对采集的视频进行硬件解码，获取YUV格式的图片，并对图片进行预处理，包括尺寸调整、格式转换；

模型训练与部署模块，用于加载训练好的人群计数模型，对预处理完成的图片完成推理过程，得到图片的特征向量，所述人群计数模型的训练在GPU平台进行，利用开发板提供的MindStudio工具，将训练好的模型转换为开发板支持的离线模型；

后处理模块，用于对模型推理输出的特征向量进行处理，得到图片中行人的数量，再将数量与额定容量相比较，得到当前密度值；

测试模块，用于基于视频采集模块采集的数据，使用MindStudio工具对模型进行测试，测得其在测试集上的精度，若相比GPU平台存在精度下降，且结果不及预期，则利用模型训练与部署模块重新进行模型的训练与部署，否则利用该模型估计实际轨道交通客流密度。

进一步的，在视频采集模块中，树莓派摄像头直接与开发板相连，且利用开发板操作系统提供的Media媒体库，对视频进行采集；网络摄像头利用交换机和开发板相连，通过以太网接口获取摄像头的rtsp视频流。

进一步的，在视频编解码与图像预处理模块中，综合了开发板操作系统提供的DVPP(数字视觉预处理)接口，作为调用底层硬件解码的接口，对采集的视频调用硬件进行解码，得到YUV格式的图片，并对图片进行格式转换、尺寸调整操作，以满足算法对图片的格式、分辨率需求。

进一步的，在模型训练与部署模块中，利用MindStudio工具集成的ATC工具将GPU平台的人群计数模型转为开发板支持的离线模型。

进一步的，在后处理模块中，输入的特征向量是模型提取图片的特征，含有可能为行人的坐标信息，在后处理模块中，进一步处理得到行人的数量。

进一步的，在测试模块中，精度测试中下降5％以内，为可接受的预期。

一种基于目标检测的轨道交通客流密度估计方法，基于所述系统估计轨道交通客流密度，包括的步骤如下：

步骤1：视频流输入与处理：利用树莓派摄像头采集视频流，或通过以太网接口获取网络摄像头的rtsp视频流；视频流经过芯片的硬解码SDK对视频流进行快速解码，获取YUV格式的图片，经过尺寸调整、标准化操作，以达到算法模型的输入要求；

步骤2：模型的训练与部署：加载训练好的人群计数模型，对预处理完成的图片完成推理过程，得到图片的特征向量，所述人群计数模型的训练在GPU平台进行，利用开发板提供的MindStudio工具，将训练好的模型转换为开发板支持的离线模型；

步骤3，后处理：对图片的特征向量做NMS(非极大值抑制)操作，到图片中人群数量，将预测的人群与额定容量相比较，得到当前估计密度；

步骤4：精度测试：基于视频采集模块采集的数据，使用MindStudio工具对模型进行测试，测得其在测试集上的精度，若相比GPU平台存在精度下降，且结果不及预期，则利用模型训练与部署模块重新进行模型的训练与部署，否则利用该模型估计实际轨道交通客流密度。

进一步的，所述人群计数模型的训练框架为caffe，算法首先在coco数据集上迭代至收敛，再使用地铁摄像头采集的数据集进行调优，使得算法适合在地铁场景下的人群计数。

一种计算机设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现所述的方法，进行基于目标检测的轨道交通客流密度估计。

一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现所述的方法，进行基于目标检测的轨道交通客流密度估计。

一个智能客流密度估计系统，基于对传统摄像头的改造，在端侧部署人群计数算法，对摄像头采集到的视频数据进行解码、推理，经过后处理得到行人的数量并经过网络总线上传至控制台，控制台经过处理得到指定区域的客流密度情况，并反馈给地铁站管理人员。且多个摄像头之间的协同合作也可提供整个地铁站时空上的客流变化。

本发明相比于现有技术，其显著优点在于：1)真实反映了当前地铁站内客流情况，相比于现有技术更加可靠；2)为满足神经网络算力的需求，采用Atlas200开发板，其低功耗AI加速模块具有体积小、功耗低、工作温度范围广的特点，适合端侧场景；支持16通道高清视频处理，支持H.264、H.265高清视频通道编解码；支持的AI算力分别为8TOPS、16TOPS、22TOPS的INT8算力，可对大部分算法模型进行加速，实时处理30FPS的1080P高清视频流。

附图说明

图1是本发明系统的结构示意图。

图2是本发明的算法网络结构图。

图3是本发明方法的流程图。

具体实施方式

为了使本申请的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本申请进行进一步详细说明。应当理解，此处描述的具体实施例仅仅用以解释本申请，并不用于限定本申请。

本发明基于目标检测的轨道交通客流密度估计系统，对传统摄像头的改造，基于Atlas200开发板实现，在端侧部署人群计数算法，对摄像头采集到的视频数据进行解码、推理，经过后处理得到行人的数量并经过网络总线上传至控制台，控制台经过处理得到指定区域的客流密度情况，并反馈给地铁站管理人员，且多个摄像头之间的协同合作也可提供整个地铁站时空上的客流变化。包括：

视频采集模块，该模块提供两种方式获取视频数据，一是通过连接在开发板的树莓派摄像头；二是通过以太网获取网络摄像机的rtsp视频流。

视频编解码与图像预处理模块，该模块对采集的视频进行硬件解码，获取YUV格式的图片，图片经过一些预处理工作，包括尺寸调整、格式转换，使得图片满足算法模型的输入要求。

模型训练与部署模块，该模块负责加载训练好的人群计数模型，对预处理完成的图片完成推理过程，得到图片的特征向量。其中，模型的训练在GPU平台进行，并使用开发板提供的MindStudio工具将训练好的模型转换为模型支持的离线模型。

后处理模块，该模块对模型推理输出的特征向量进行处理，得到图片中行人的数量。再将数量与额定容量相比较，得到当前密度值，提示与工作人员。

测试模块，基于视频采集模块采集的数据，使用MindStudio工具对模型进行测试，可测得其在测试集上的精度，若相比GPU平台存在精度下降，且结果不及预期，则利用模型训练与部署模块重新进行模型的训练与部署，否则可允许该模型估计实际轨道交通客流密度。

上述系统中，在视频采集模块中，树莓派摄像头直接与开发板相连，利用开发板操作系统提供的Media媒体库，可对视频进行采集；网络摄像头利用交换机和开发板相连，通过以太网接口即可获取摄像头的rtsp视频流。

在视频编解码与图像预处理模块中，综合了开发板操作系统提供的DVPP(数字视觉预处理)接口，作为调用底层硬件解码的接口，可对采集的视频调用硬件进行解码，得到YUV格式的图片。此时，图片还需进行格式转换、尺寸调整操作，以满足算法对图片的格式、分辨率需求。

在模型训练与部署模块中，利用MindStudio工具集成的ATC工具，可将GPU平台的模型转为开发板支持的离线模型。

在后处理模块中，模型输出的特征向量是模型提取图片的特征，含有可能为行人的坐标信息，在后处理模块中要进一步处理得到行人的数量。

在测试模块中，开发板上精度测试中下降5％为可接受的预期。

采用上述系统，基于目标检测的轨道交通客流密度估计方法，包括的步骤如下:

步骤1：视频流输入与处理：系统采集树莓派摄像头的视频流，或通过以太网接口获取网络摄像头的rtsp视频流，视频流经过芯片操作系统提供的硬解码SDK进行快速解码，获取YUV格式的图片，图片经过尺寸调整、标准化操作，满足算法模型的输入要求。

步骤2：模型的训练与部署：具体是设计一个基于目标检测的人群计数算法，算法模型的设计与训练均在GPU平台进行，使用的训练框架为caffe。算法首先在coco数据集上迭代至收敛，再使用地铁摄像头采集的数据集进行调优，使得算法适合在地铁场景下的人群计数。模型部署首先需要将模型转换为开发板支持的离线模型格式，这一步可在MindStudio工具上进行，转换好的模型可供芯片加载调用，对采集的视频图片进行推理，得到图片中的人群数量。

步骤3：后处理：模型推理出的是图片的特征向量，在后处理阶段对该特征向量做NMS(非极大值抑制)操作可得到图片中人群数量。最后将预测的人群与额定容量相比较，得到当前估计密度，并返回给控制台。

步骤4：精度测试：GPU平台与开发板平台架构的差别与计算精度的差别带来一定的精度差别，因此需要添加精度测试的步骤，若精度测试不及预期，转至步骤2重新训练。

上述方法中，步骤1中，若使用树莓派摄像头接口，视频采集模块的Media API可获取摄像头的视频流数据；若使用网络摄像头，则可直接从rtsp资源地址中获取视频流数据。通常开发初期使用树莓派摄像头做方案验证，后期用网络摄像头进行实地测试。视频流的处理则使用视频编解码与图像预处理模块的DVPP硬解码接口，该接口可对视频数据进行解码、对图片数据做尺寸调整、格式转换操作。

步骤2中，首先设计该方法中使用的人群计数算法，算法需要适合地铁场景，兼顾精度与效率。再使用模型训练与部署模块的ATC工具，将GPU平台模型转换为开发板处理器支持的离线模型，在转换过程中设置输入的标准化参数。

步骤3中，模型输出的特征向量经过简单的处理可得到当前区域人数，需要与额定容量相比较可得到密度值，以反应当前的客流密度与拥挤情况。

步骤4中，Atlas200开发板的昇腾AI处理器最高可提供22TOPS(INT8)的计算能力，而GPU平台的模型计算精度通常是Float32，因此会带来精度上的差别，需要实地测试精度下降是否在可接受的范围，使其不影响实际业务

Atlas200开发板集成了昇腾310AI处理器，支持视频图片编解码与神经网络加速计算，开发板体积小、功耗低，且拥有强大算力，适合很多端侧AI场景，本发明的应用场景是地铁站台场景，根据华为公司提供的MindStudio开发工具，可快速地进行算法开发与功能迭代。本发明专用于地铁场景下的人群计数，是一套完整的硬件软件解决方案，为地铁站内管理人员提供精确的客流信息，便于在拥挤情况出现之后及时处理。

实施例

为了验证本发明方案的有效性，进行如下实验。

本实施例以轨道交通场景下行人图片数据训练人群计数算法，当算法训练达到最优时将其转化为Atlas200开发板支持的离线模型。通过对传统摄像头的智能改造，将算法部署到与摄像头连接的Atlas200开发板上。整个系统的输入是前端的网络摄像头采集的视频流，Atlas200开发板提供整个系统的视频编解码能力与AI算力，输出通过网络总线同视频流传输至地铁控制台。作为一个完整的硬件软件系统可获得当前监控区域内的乘客数量，以实时提醒地铁管理人员，且地铁站内各摄像头的协同合作也可呈现整个地铁站的客流时空变化。

步骤一：装配智能摄像头，如图1所示，智能摄像头由网络摄像头、交换机、Atlas200开发板三部分组成，摄像头、开发板分别与交换机相连，通过交换机进行局域网通信。其中网络摄像头可采集视频，Atlas200开发板提供视频流解码和AI计算能力。

步骤二：人群计数算法设计与训练，如图2所示，本发明设计算法采用mobilenet-yolov3网络，算法基于目标检测网络，设计过程遵循目标检测算法设计流程，即分别设计网络的backbone、neck与head部分，backbone部分用于提取浅层特征，neck部分进行特征融合，而head部分检测得到目标。具体设计为：

a、backbone设计

模型backbone部分提取浅层特征，包含13个卷积层，且采用可分离卷积以降低模型的参数量，降低了运算成本。对于维度为5×5×3的输入张量，分辨率为5×5，3通道，经过一个3×3卷积核的卷积层，输出通道为3，则该卷积层中的参数量为3×3×3×3；若经过3×3卷积核的可分离卷积层，由于一个卷积核仅与一个通道进行运算，参数量下降为3×3×3。通过引入可分离卷积，提高了算法的效率。

b、neck设计

模型的neck部分加入spp(spatial pyramidpooling)模块，spp模块将以核大小为k×k(k＝1,5,9,13)的最大池化输出拼接在一起，可增加主干网络特征的感受野，对backbone提取的浅层特征是一种很好的特征融合手段。

c、head设计

在检测头部分，Yolo-v3或者Yolo-v4为使网络可检测到小目标，采用多尺度特征图输出，包含32倍下采样、16倍下采样、8倍下采样，形成三路检测头，对于图片中目标的尺度差异较大的情况具有鲁棒性。而对于地铁场景内通常人体尺度变化不大，因此目标检测网络可以仅采用一个检测头，例如采用32倍下采样的特征图输出，这种设计也提高了算法的效率。

d、损失函数设计

算法的损失函数方面加入CIOU loss,其中CIOU loss源于DIOU loss，DIOU loss在IOU loss基础上添加一个惩罚项，即同时考虑重叠区域与中心点距离，该惩罚项用于优化bounding box之间中心点距离。而CIOU loss中再增加涉及boundingbox长宽比的惩罚项，如式(1)：

其中b,b^gt分别是预测框和实际框的中心点坐标，ρ代表欧式距离，c为包含两个预测框的最小矩形的对角线距离，α是可调节参数，v项调节长宽比，v表达式见式(2)。

式(2)中

分别为实际框和预测框的长宽比，因此损失函数可被定义为(3)：

IOU为预测框与实际框的交并比，其中α定义为：

e、训练细节

训练时先在coco数据集上训练至收敛，随后使用在地铁站采集的数据进行调优。

步骤三：模型转换与部署，MindStudio工具集成的ATC工具可将GPU平台训练完成的模型，转为开发板支持的离线模型。

步骤四：模型精度测试。精度测试分为两部分，一是在GPU平台测试模型的精度与速率，二是对开发板上INT8计算精度的离线模型进行精度测试。测试数据集均采用地铁实际场景数据集，若精度下降严重，需要采取新的训练策略，例如增加数据集或者更改模型的网络结构。

步骤五：计算人群密度与拥挤警报，从摄像头传到控制台的客流数据，需要与特定区域可容纳的额定人数相比较，以反映当前的拥挤程度，可以百分比形式呈现，当过于拥挤时可发出警报。

以上实施例的各技术特征可以进行任意的组合，为使描述简洁，未对上述实施例中的各个技术特征所有可能的组合都进行描述，然而，只要这些技术特征的组合不存在矛盾，都应当认为是本说明书记载的范围。

以上所述实施例仅表达了本申请的几种实施方式，其描述较为具体和详细，但并不能因此而理解为对发明专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本申请构思的前提下，还可以做出若干变形和改进，这些都属于本申请的保护范围。因此，本申请专利的保护范围应以所附权利要求为准。

Claims

1.基于目标检测的轨道交通客流密度估计系统，其特征在于，基于Atlas200开发板实现，具体包括：

2.根据权利要求1所述的基于目标检测的轨道交通客流密度估计系统，其特征在于，在视频采集模块中，树莓派摄像头直接与开发板相连，且利用开发板操作系统提供的Media媒体库，对视频进行采集；网络摄像头利用交换机和开发板相连，通过以太网接口获取摄像头的rtsp视频流。

3.根据权利要求1所述的基于目标检测的轨道交通客流密度估计系统，其特征在于，在视频编解码与图像预处理模块中，综合了开发板操作系统提供的DVPP(数字视觉预处理)接口，作为调用底层硬件解码的接口，对采集的视频调用硬件进行解码，得到YUV格式的图片，并对图片进行格式转换、尺寸调整操作，以满足算法对图片的格式、分辨率需求。

4.根据权利要求1所述的基于目标检测的轨道交通客流密度估计系统，其特征在于，在模型训练与部署模块中，利用MindStudio工具集成的ATC工具将GPU平台的人群计数模型转为开发板支持的离线模型。

5.根据权利要求1所述的基于目标检测的轨道交通客流密度估计系统，其特征在于，在后处理模块中，输入的特征向量是模型提取图片的特征，含有可能为行人的坐标信息，在后处理模块中，进一步处理得到行人的数量。

6.根据权利要求1所述的基于目标检测的轨道交通客流密度估计系统，其特征在于，在测试模块中，精度测试中下降5％以内，为可接受的预期。

7.基于目标检测的轨道交通客流密度估计方法，其特征在于，基于权利要求1-6任一项所述系统估计轨道交通客流密度，包括的步骤如下：

8.根据权利要求7所述的基于目标检测的轨道交通客流密度估计方法，其特征在于，所述人群计数模型的训练框架为caffe，算法首先在coco数据集上迭代至收敛，再使用地铁摄像头采集的数据集进行调优，使得算法适合在地铁场景下的人群计数。

9.一种计算机设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现权利要求7-8任一项所述的方法，进行基于目标检测的轨道交通客流密度估计。

10.一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现权利要求7-8任一项所述的方法，进行基于目标检测的轨道交通客流密度估计。