CN111582091B

CN111582091B - 基于多分支卷积神经网络的行人识别方法

Info

Publication number: CN111582091B
Application number: CN202010345173.2A
Authority: CN
Inventors: 杨晨; 张靖宇; 陈琦; 范世全; 耿莉
Original assignee: Xian Jiaotong University
Current assignee: Xian Jiaotong University
Priority date: 2020-04-27
Filing date: 2020-04-27
Publication date: 2023-05-02
Anticipated expiration: 2040-04-27
Also published as: CN111582091A

Abstract

本发明公开了一种基于多分支卷积神经网络的行人识别方法，包括步骤：1)初始化多分支卷积神经网络；2)边训练边筛选卷积核，作为构建块添加到各分支，构成精度和运算量可分离的多分支卷积神经网络；3)设置时间监测点和精度预估值，验证精度，如果低于精度预估值，则返回步骤2)，如果和预估值相差5％以内则停止，相差大于5％则集训训练；4)继续训练，筛选多分支卷积神经网络的全连接层的超参数；5)最后设计生成的模型，存储到移动摄像头的硬件处理架构中，离线推理其拍摄到的视频或者图像中是否有人出现。本发明为行人识别设计多分支的卷积神经网络架构，加宽网络宽度，改进模型推理识别行人的整体网络性能。

Description

基于多分支卷积神经网络的行人识别方法

技术领域

本发明属于深度学习研究领域，具体涉及一种基于多分支卷积神经网络的行人识别方法。

背景技术

研究利用卷积神经网络模型实现行人识别。卷积神经网络在目标识别、目标检测、实例分割、场景理解等领域都具有重要价值。当卷积神经网络从AlexNet发展到VGG-16，再到ResNet时，ImageNet、VOC等任务的改进非常明显。当下物联网发展迅速，硬件性能显著提升，越来越多硬件处理架构FPGA、ASIC、DRAM等的完善，使得移动设备可直接在终端存储数据并且推理识别行人。然而，软件算法层面，卷积神经网络深度加深，宽度加宽，算法也越来越复杂，这不仅使得训练更具挑战性，至少在使用一阶优化算法和随机初始化的层堆栈时是如此，模型的计算量、参数量也变得越来越庞大，在这些终端设备实施时，片上缓存和访存功耗也会随之增加，如表4、图3和图4所示，硬件处理架构的访存和计算操作比随着时间的发展越来越大。克服这些困难的愿望推动了研究者针对卷积神经网络的“优化技术”和“网络架构”探索。

在卷积神经网络相关的“优化技术”方面，许多工作已经取得了改进，例如，为了防止梯度消失，ReLU激活函数已经广泛地取代了sigmoid和tanh。在“网络架构”探索方面值得注意的思想可以追溯到skip-connection，这是神经网络中非平凡路由的最早示例。其次，灵活运用“分支”决策网络，也是非平凡路由的一个重要思维，“分支”结构可解决多任务、多尺度，也能在同一较复杂场景下，根据尺度、密度不同，分离同一任务的不同类目表，选取不同精度、算力的CNN做一个相对完整的(亦针对不同资源的)全局理解，分支网络还意味着加宽卷积神经网络的宽度。Mask R-CNN，扩展自Faster R-CNN，添加分支路由预测目标mask，与原分支并行，原分支预测bounding box的识别，它的运行速度为5fps，训练较为简单，并且易于推广到其他任务，例如在相同的框架中估计人体姿势；还有MB-FCN，它只需一次训练通过主干网就可以处理所有尺度范围的人脸，主要利用不同层卷积特征映射的特定skip-connection来表示特定尺度的feature maps，每层引申出一个分支，融合浅细粒度和深强粗粒度的特征，卓越改进性能，对于大小为640×480的图像，在GPU上可以15FPS的速率检测，即使针对小脸目标也可以检测。

发明内容

本发明的目的为行人识别提供一种基于多分支卷积神经网络的行人识别方法。

本发明采用如下技术方案来实现的：

基于多分支卷积神经网络的行人识别方法，包括以下步骤：

1)初始化多分支卷积神经网络；

2)边训练边筛选卷积核，作为构建块添加到各分支，构成精度和运算量可分离的多分支卷积神经网络；

3)设置时间监测点和精度预估值，验证精度，如果低于精度预估值，则返回步骤2)，如果和预估值相差5％以内则停止，相差大于5％则集训训练；

4)继续训练，筛选多分支卷积神经网络的全连接层的超参数；

5)最后设计生成的模型，存储到移动摄像头的硬件处理架构中，离线推理其拍摄到的视频或者图像中是否有人出现。

本发明进一步的改进在于，还包括以下步骤：

6)将精度和计算量可分离的多分支卷积神经网络单独作为一个整体构建块可嵌入目标检测网络中，应用于车辆检测。

本发明进一步的改进在于，步骤1)的具体实现方法如下：

101)INRIA数据集为常用的行人识别数据集，该数据集包含两类格式的数据，正类别图片为分辨率为128×64×1的室外直立行人，负类别图片为分辨率为128×64×1的室外无直立行人的风景，由于数据集中负类别的图片较少，整体数据集较小，本发明对此做了扩充，经由本文扩充之后的“INRIA扩展数据集”，包含训练集4339张图片，正类别样本2219张，负类别样本2120张；测试集400张图片，正类别样本200张，负类别样本200张；

102)行人识别数据集INRIA，首先直接初始化一个多分支卷积神经网络，这个架构不包含任何卷积层、池化层等单元。

本发明进一步的改进在于，步骤2)的具体实现方法如下：

201)在初始化多分支卷积神经网络上，一边训练，一边从常用的卷积核1*1、3*3、5*5和7*7中，逐一筛选卷积核，作为构建单元，添加到分支架构；

202)由于行人识别为2分类任务，故构建单元添加方式为：第1分支添加1层构建单元，第2分支添加2层构建单元，第3分支添加3层构建单元。

本发明进一步的改进在于，步骤3)的具体实现方法如下：

逐一筛选到卷积核，进行训练之后，预先根据经验设立时间监测点和预估精度，每当训练到时间监测点，则暂停观察验证精度，如果达到预估精度，则停止训练；如果精度过低，则重复先前步骤。

本发明进一步的改进在于，步骤4)的具体实现方法如下：

训练达到预估精度，则筛选多分支卷积神经网络的全连接层；全连接层的参数，从常用参数64，128，256，512，1024、4096中逐一筛选，筛选出的参数按照梯度整理，加到每个分支，第1分支64，第2分支128，第3分支256。

本发明进一步的改进在于，步骤5)的具体实现方法如下：

筛选得到的多分支卷积神经网络，作为一个整体，或者取单个分支、两两分支组合作为单独的基准模型使用；即将模型拆分开来，同时应用于多种不同的移动终端设备；然后，根据存储的模型直接离线推理移动摄像头拍摄到的视频或者图像中是否有人。

本发明至少具有如下有益的技术效果：

主要特点：

1、为行人识别设计多分支的卷积神经网络架构，加宽网络宽度，改进模型推理识别行人的整体网络性能。

2、多分支卷积神经网络架构可将分支拆分开来，单分支、两两分支组合或者整体结构都可作为基准元素，生成7种不同的精度、计算量分离的卷积神经网络。应用于移动终端设备时，可以实现一次训练得到7种不同运算量的卷积神经网络模型，同时满足多种不同性能的硬件平台。

主要优点：

1、加宽卷积神经网络的宽度，即设计多分支的卷积神经网络，不仅加快了网络的训练收敛速度，还提升了模型推理识别行人的性能。

2、基于多分支卷积神经网络架构，每个分支可单独使用，从而达到一次训练，生成7种精度、计算量不同的卷积神经网络。应用于移动终端设备时，可以实现一次训练得到7种不同运算量的卷积神经网络模型，同时满足多种不同性能的硬件平台。

附图说明

图1为本发明扩充的INRIA扩展数据集；

图2为INRIA数据集上多分支卷积神经网络结果分析图；

图3为CNN硬件处理器访存和计算操作空间图；

图4为访存/ALU占比图；

图5为基于多分支的卷积神经网络结构图；

图6为基于多分支的卷积神经网络设计方法的示例；

图7为嵌入精度、运算量可分离构建块的嵌入式分支网络用于车辆检测EBSN(Embedded Branch Structure Network)；

图8为车辆检测的实验结果。

具体实施方式

以下结合附图和实施例对本发明做出进一步的说明。

本发明提供的基于多分支卷积神经网络的行人识别方法。具体的设计步骤如下：

如图1所示，INRIA扩展数据集可用于行人识别，它的正类别样本是包含各种姿势和场景下的人图片，而负类别样本则是各种室内环境下的无人的图片，如家、银行、楼梯和书店等，所有训练集合测试集都被整理成分辨率为120×120×3大小，格式为JPG的图片。针对行人识别的INRIA扩展数据集，初始化多分支卷积神经网络架构，此处选用如图5所示的三分支，其实这种技术很容易扩展到二分支或多分支决策网络中。图5中，Input Layer为输入图像像素值，卷积核大小5*5。

设置每个分支的卷积层层数。第一分支1层，第二分支2层，第三分支3层。

开始训练多分支网络。预先根据经验设立一个预估的时间点和精度。训练到预估时间点暂停，观察总体网络的精度，如果精度尚能达到预估精度，则继续训练，如果精度过低，则在每个分支上重复上述步骤，继续筛选卷积核，继续以梯度形式整理成层加到每一个分支。

训练完成后，多分支卷积神经网络结构可以作为具体任务的推理网络，多分支卷积神经网络的每一个分支，或者每两个分支、每三个分支组合……都可以作为基准网络，这样，就可以生成7种不同精度、计算量分离的行人识别的推理模型。

多分支卷积神经网络设计也可以作为一个整体，嵌入到车辆检测网络尾部，改进车辆检测的网络性能。

多分支卷积神经网络的全连接层，可根据不同任务以各自分支贯通。全连接层的参数，从常用参数64，128，256，512，1024等中筛选，筛选出的参数也需按照梯度加到每个分支，如64到第一分支，128到第二分支，256到第三分支。

综上，本发明从加宽卷积神经网络的宽度入手，设计多分支卷积神经网络，不仅加快了网络的训练收敛速度，还提升了模型推理识别行人的性能。此外，每个分支单独使用，组合使用，可达到一次训练，生成7种精度、计算量不同的卷积神经网络模型。应用于移动终端设备时，可以实现一次训练得到7种不同运算量的卷积神经网络模型，同时满足多种不同性能的硬件平台。

本发明与现有方法的性能对比如下：

卷积神经网络性能对比，一般以精度，参数量，计算复杂度等指标为基准。

在相同数据集，学习率，训练批次大小的基准下，对比LeNet-5与基于多分支卷积神经网络的设计方法设计的卷积神经网络。表1给出了多分支卷积神经网络在行人识别的INRIA扩展数据集上的测试结果，按照图3原始的卷积神经网络，即：第1层卷积层5*5*8，第2层卷积层7*7*8，后跟1层池化层2*2，第3层卷积9*9*3，后跟1层池化层2*2，训练200次，测试精度能达到93％，加宽网络宽度，加两个分支，测试精度到94.7％，然而训练这个网络迭代次数仅需要60。

表3为INRIA数据集上的测试结果，采用本发明提出的基于多分支结构的卷积神经网络的设计方法，设计的多分支卷积神经网络，拆分分支，以每1个、2个、3个分支组合可生成7种不同精度、计算量和参数量组合的卷积神经网络模型，由表2可以直观地看出。

表1：INRIA扩展数据集上加宽宽度设计多分支卷积神经网络的实验结果

表2：INRIA扩展数据集上设计的多分支卷积神经网络

将精度、运算量可分离的多分支卷积神经网络看作一个整体，也可以嵌入车辆检测网络尾部改进车辆检测网络的整体性能。如图7所示，将第一分支的2层3*3的卷积层，第二分支的4层3*的卷积层，第三分支的8层3*3的卷积层，嵌入yolov3尾部最终设计的结构为EBSN(Embedded Branch Structure Network)，检测车辆的效果如图8所示。实验结果如表3所示，本发明的EBSN网络结构的MAP相比于Faster-RCNN和YOLOv2分别提高了1％和7％，而运算量分别减少了12.6％和27％。

表3：多分支卷积神经网络结构嵌入目标检测网络的实验结果

表4：卷积神经网络计算量、访存量、计算密度统计

CNN	计算量/FLOPS	访存量/byte	计算密度/FLOPS/byte
				VGG16	31.0G	675M	45.9
InceptionV2	4.07G	100M	40.7
				ResNet18	3.63G	72.5M	50.1
ResNet50	7.72G	211M	36.6
				ResNet152	22.6G	472M	47.9

本发明提出基于多分支卷积神经网络的行人识别方法，加宽了网络的宽度，改进了整体的网络性能，同时，将多分支卷积神经网络的单个分支或者两两分支组合作为基准元素，可生成精度、计算量分离的卷积神经网络，在硬件实施时，一次训练可满足多个不同性能的平台。在相同数据集，学习率，训练批次大小的基准下，对比LeNet-5与多分支卷积神经网络的设计，对比结果见表1，表2。表1给出了多分支卷积神经网络在INRIA行人识别数据集(加上样本，适当添加了部分正样本)上的测试结果，按照图6原始的卷积神经网络，即：第1层卷积层5*5*8，第2层卷积层7*7*8，后跟1层池化层2*2，第3层卷积9*9*3，后跟1层池化层2*2，训练200次，测试精度能达到93％，加宽网络宽度，加两个分支，第1个分支有2层卷积5*5*3，每层卷积后分别跟2层池化层2*2，第2个分支有1层卷积5*5*3，后跟1层池化层2*2，整体网络的测试精度能到94.7％，然而训练这个网络迭代次数仅需要60。

Claims

1.基于多分支卷积神经网络的行人识别方法，其特征在于，包括以下步骤：

1)初始化多分支卷积神经网络；

2)边训练边筛选卷积核，作为构建块添加到各分支，构成精度和运算量可分离的多分支卷积神经网络；具体实现方法如下：

202)由于行人识别为2分类任务，故构建单元添加方式为：第1分支添加1层构建单元，第2分支添加2层构建单元，第3分支添加3层构建单元；

2.根据权利要求1所述的基于多分支卷积神经网络的行人识别方法，其特征在于，还包括以下步骤：

3.根据权利要求1或2所述的基于多分支卷积神经网络的行人识别方法，其特征在于，步骤1)的具体实现方法如下：

101)INRIA数据集为常用的行人识别数据集，该数据集包含两类格式的数据，正类别图片为分辨率为128×64×1的室外直立行人，负类别图片为分辨率为128×64×1的室外无直立行人的风景，由于数据集中负类别的图片较少，整体数据集较小，对此做了扩充，经由本文扩充之后的“INRIA扩展数据集”，包含训练集4339张图片，正类别样本2219张，负类别样本2120张；测试集400张图片，正类别样本200张，负类别样本200张；

4.根据权利要求3所述的基于多分支卷积神经网络的行人识别方法，其特征在于，步骤3)的具体实现方法如下：

5.根据权利要求4所述的基于多分支卷积神经网络的行人识别方法，其特征在于，步骤4)的具体实现方法如下：

6.根据权利要求5所述的基于多分支卷积神经网络的行人识别方法，其特征在于，步骤5)的具体实现方法如下：