CN111444772A

CN111444772A - 基于nvidia tx2的行人检测方法

Info

Publication number: CN111444772A
Application number: CN202010129183.2A
Authority: CN
Inventors: 杨嘉琛; 武建鹏
Original assignee: Tianjin University
Current assignee: Tianjin University
Priority date: 2020-02-28
Filing date: 2020-02-28
Publication date: 2020-07-24

Abstract

本发明涉及一种基于NVIDIA TX2的行人检测方法，包括下列步骤：行人数据集的建立；选取YOLOv3‑Tiny网络，进行如下调整：增大网络预设的缩放分辨率，以便于检测小目标；将网络设计为仅使用特定宽高比的anchor，以使得网络更加适应行人的检测；引入MobileNetv2，对于YOLOv3‑Tiny网络中的卷积层在执行卷积操作时，将通道和空间区域分开考虑，将卷积层进行拆分；利用BN层的缩放因子，来衡量通道的重要性，实现通道裁剪，模型减小；将通道裁剪后的模型移植到开发板，并对行人检测过程进行内存优化，采用统一内存寻址方案，使得在CPU填充数据之后，GPU能够直接访问。

Description

基于NVIDIA TX2的行人检测方法

技术领域

本发明属于图像处理领域，涉及行人检测方法。

背景技术

目标检测作为计算机视觉领域的一项重要任务，在日常生活的诸多领域发挥着重要的作用。近年来，全球范围内都掀起了深度学习研究的浪潮，尤其是在计算机视觉领域，目标检测也不例外，以深度学习为核心理论的方法占据主导地位，这推动了目标检测方向的发展。与此同时，随着物联网、互联网技术的飞速发展以及ARM芯片性能的日益提升，嵌入式技术也取得了重大突破，在许多领域有着广泛的应用。与大型服务器相比，嵌入式平台具有许多优点，如灵活、便携、性价比高、软件的专业性较强等，因此将基于深度学习的目标检测算法应用于嵌入式平台，有着较好的发展与应用前景。如自动驾驶汽车在行驶过程中对车辆周围复杂行驶环境的感知(如对机动车与行人的识别)、卫星拍摄的影像中对于道路状况的检测等。

目前基于深度学习的行人检测算法对于小目标的检测精度不够高，且由于网络结构复杂，难以满足嵌入式系统的实时性要求，因此本发明基于先进的网络建立快速、高精度的小目标检测机制，并通过自行制作的符合实际条件的大规模行人数据集进行训练实现行人检测。由于基于深度学习的行人检测算法参数量庞大，而嵌入式平台的GPU计算能力较低，因此无法直接将模型移植到开发板，需要经过通道裁剪来减少计算量，提高算法的运行速度。本发明基于NVIDIAJetsonTX2嵌入式开发平台，针对其特性进行数据预处理和程序优化分析，将训练得到的模型进行通道裁剪之后，移植至嵌入式开发板中，最终实现基于TX2的行人检测方法，其在智能搜救等方面具有广阔的应用前景。

发明内容

本发明的目的是提供一种基于嵌入式平台的检测精度高、实时性强的行人检测方法，技术方案如下：

一种基于NVIDIATX2的行人检测方法，包括下列步骤：

第一步：行人数据集的建立。

第二步：选取YOLOv3-Tiny网络，进行如下调整：增大网络预设的缩放分辨率，以便于检测小目标；将网络设计为仅使用特定宽高比的anchor，以使得网络更加适应行人的检测。

第三步：引入MobileNetv2，对于YOLOv3-Tiny网络中的卷积层在执行卷积操作时，将通道和空间区域分开考虑，将卷积层进行拆分。

第四步：利用BN层的缩放因子η，来衡量通道的重要性，通过在训练过程中对缩放因子η添加L1范数的约束，使缩放因子η尽可能趋近于0；设置通道裁剪比例，将BN层的缩放因子η按照数值从小到大排序，在所有η中选取较小数值，将其对应的通道删除，以此实现通道裁剪，模型的体积从而减小。

第五步：将通道裁剪后的模型移植到NVIDIA TX2开发板，并对行人检测过程进行内存优化，采用统一内存寻址方案，使得在CPU填充数据之后，GPU能够直接访问。

本发明运用深度学习方法实现行人检测，通过构建包含不同比例目标(即行人)的数据集提高模型的泛化性，调整网络提高检测精度，并利用通道裁剪的方法，减小模型体积，使行人检测算法能适应于嵌入式平台，并根据嵌入式平台的优势对算法的检测流程进行优化，可保证实时性。

附图说明

图1本发明的基本流程图

图2 YOLOv3-Tiny的网络结构

图3 MobileNetv2示意图

图4内存优化前后执行流程对比图

具体实施方式

本发明基于先进目标检测网络建立快速、高精度的小目标(行人)检测机制，并通过自行制作的符合实际条件的大规模样本库进行神经网络训练。然后面向TX2嵌入式开发平台，针对其特性进行数据预处理和程序优化分析，将训练得到的模型进行通道裁剪之后移植至嵌入式开发板中，最终实现基于TX2的行人检测方法。具体实施方式如下：

第一步：行人数据集的建立。目前使用较多的行人检测数据集中，图片分辨率一般较小，大多低于40万像素，而其中人体所占像素数大多超过3500，不满足小目标样本的需求。因此，为充分学习小目标特征，要求采集比例覆盖0.01％-0.1％的小目标样本，并着重采集比例为0.01％-0.05％的极小目标样本。然后使用LabelImg进行图像标注，需标出图像中目标(即行人)所在的位置，并标明所属类别为行人，最后对标注的信息进行纠错，查看是否有漏标、错标的情况。

第二步：：本发明选取的网络为YOLOv3-Tiny，进行如下调整：增大网络预设的缩放分辨率至1024*768(原始网络的输入为416*416，若行人目标较小，则检测精度较低)，有助于检测小目标；将网络设计为仅使用特定宽高比的anchor，比例包括1:2、1:4，使网络更加适应行人的检测。

第三步：：在网络中引入MobileNetv2。通常网络中一个3*3的卷积层在执行卷积操作时，对应图像区域中的所有通道均被同时考虑，而MobileNetv2的思想就是将通道和空间区域分开考虑，即将3*3的卷积层进行拆分。设3*3的卷积层输入为input，首先对input执行1*1的逐点卷积，将输入的通道数扩大6倍；然后执行3*3的深度卷积，由于1*1的逐点卷积完成之后通道数已经扩大，而深度卷积不改变通道数，因此深度卷积可在一个高维的空间中提取特征；再执行1*1的逐点卷积，可将通道数降低，最后将第二次1*1的逐点卷积的输出与input进行残差连接。

第四步：在服务器中对加入MobileNetv2后的网络进行训练，得到的模型体积较大，无法直接应用于GPU性能较弱的NVIDIA TX2开发板，需要对模型进行通道裁剪，减小模型的体积。本发明利用网络中BN层的缩放因子η，来衡量通道的重要性，BN层可表示为：

其中f_input和f_output分别代表BN层的输入和输出，μ和σ²代表一个mini-batch的均值和方差，χ代表BN的偏移量。

通过在训练过程中的损失函数中，对缩放因子η添加L1范数的约束，训练过程的总体损失函数可表示为：

其中第一项代表行人检测的损失函数，x代表输入，W代表权重矩阵，f代表运算，y代表ground truth；第二项引入了BN层的缩放因子η，λ为权衡两项的参数，s采用L1范数。通过训练，使缩放因子η尽可能趋近于0。然后设置通道裁剪比例为80％，将BN层的缩放因子η按照数值从小到大排序，在所有η中选取数值较小的80％，将其对应的通道删除，以此实现通道裁剪，模型的体积从而减小。

第五步：将通道裁剪后的模型移植到NVIDIA TX2开发板，并根据开发板的硬件优势对行人检测过程进行内存优化。通常行人检测过程的源代码是基于独立架构编写的，开始时需要将数据先从CPU拷贝到GPU，再进行运算；而NVIDIATX2开发板属于集成架构，其CPU与GPU可共享物理内存，CPU与GPU之间的数据传输就显得不必要。因此本发明在优化时引入CUDA中的统一内存寻址方案，不使用cudaMalloc函数分配全局内存，取而代之的是使用cudaMallocManaged分配托管内存，CPU填充数据之后，GPU可直接访问，那么就省去了行人检测过程中的数据传输，这样就可以缩短行人检测所需要的时间。

Claims

1.一种基于NVIDIATX2的行人检测方法，包括下列步骤：

第一步：行人数据集的建立；

第二步：选取YOLOv3-Tiny网络，进行如下调整：增大网络预设的缩放分辨率，以便于检测小目标；将网络设计为仅使用特定宽高比的anchor，以使得网络更加适应行人的检测；

第三步：引入MobileNetv2，对于YOLOv3-Tiny网络中的卷积层在执行卷积操作时，将通道和空间区域分开考虑，将卷积层进行拆分；

第四步：利用BN层的缩放因子η，来衡量通道的重要性，通过在训练过程中对缩放因子η添加L1范数的约束，使缩放因子η尽可能趋近于0；设置通道裁剪比例，将BN层的缩放因子η按照数值从小到大排序，在所有η中选取较小数值，将其对应的通道删除，以此实现通道裁剪，模型的体积从而减小；