CN112686225A

CN112686225A - Yolo神经网络的训练方法、行人检测方法和相关设备

Info

Publication number: CN112686225A
Application number: CN202110271649.7A
Authority: CN
Inventors: 张东洋; 闫潇宁; 陈晓艳
Original assignee: Shenzhen Anruan Huishi Technology Co ltd; Shenzhen Anruan Technology Co Ltd
Current assignee: Shenzhen Anruan Huishi Technology Co ltd; Shenzhen Anruan Technology Co Ltd
Priority date: 2021-03-12
Filing date: 2021-03-12
Publication date: 2021-04-20

Abstract

本申请属于人工智能领域，涉及一种YOLO神经网络的训练方法、行人检测方法和相关设备，所述方法包括：构建YOLO神经网络，使用深可分离卷积代替原YOLO神经网络中的普通卷积，并修改整个YOLO神经网络的损失函数，得到改进型YOLO神经网络；通过随机图像生成制作行人数据集；使用所述行人数据集训练所述改进型YOLO神经网络，得到预训练好的改进型YOLO神经网络模型。上述基于YOLO模型的改进结构和训练方法使得模型的参数量大大减少，压缩率模型大小，使得检测效率得到提高，且可以方便地部署到算力较低的移动设备上，实现行人的实时检测。

Description

YOLO神经网络的训练方法、行人检测方法和相关设备

技术领域

本申请涉及人工智能技术领域，尤其涉及一种YOLO神经网络的训练方法、行人检测方法和相关设备。

背景技术

近年来，深度学习技术被广泛运用在各大领域，特别是计算机视觉，被用来实现脸部识别、目标检测、图像分割等。其中，目标检测是计算机视觉领域中备受关注的一个方向。

目前，对目标检测的研究主要分为两类，一类是传统方式的目标检测，另一类是基于深度学习的目标检测。随着技术的发展，基于深度学习的目标检测算法受到了越来越多的关注，特别是用于行人目标检测，但目前算法的发展更多的关注检测精度方面的提升，模型层数发展的越来越多，检测能力越来越强，所带来的就是模型大小迅速增大，检测效率不可避免的降低。虽然引入GAP、BN等结构用以提升检测速度，但仍然很难在较低算力的设备，如移动设备上实现实时检测。

因此，如何在保证行人目标检测精度的情况下尽可能提升检测效率，实现在算力相对较低的智能摄像头或是手持摄像机等移动设备上的实时行人检测，是一大值得改进的方向。

发明内容

本申请实施例的目的在于提出一种YOLO神经网络的训练方法、行人检测方法和相关设备，通过减少YOLO神经网络模型的参数压缩模型的大小，以使在算力较低的设备上保证行人检测精度不下降的同时提升行人检测的效率。

为了解决上述技术问题，本申请实施例提供一种YOLO神经网络的训练方法，包括下述步骤：

构建原YOLO神经网络，所述原YOLO神经网络包括输入层、特征提取层和检测结果输出层，使用深可分离卷积代替所述原YOLO神经网络中的普通卷积，并修改整个所述原YOLO神经网络的损失函数，使用倒置残差网络改进所述原YOLO神经网络的特征提取层，得到改进型YOLO神经网络；

通过随机图像生成制作行人数据集；

使用所述行人数据集训练所述改进型YOLO神经网络，得到预训练好的改进型YOLO神经网络模型。

进一步的，所述深可分离卷积内置于所述倒置残差网络中。

进一步的，所述倒置残差网络还包括线性瓶颈结构。

进一步的，所述修改整个所述原YOLO神经网络的损失函数包括添加焦点损失并使用二值交叉熵重新计算整个所述原YOLO神经网络模型在训练过程中的损失。

进一步的，所述行人数据集经过图像预处理，包括修改尺寸和数据增强。

进一步的，所述原YOLO神经网络的检测结果输出层包括至少3个预测边界框。

为了解决上述技术问题，本申请实施例还提供一种行人检测方法，包括：

获取待进行行人检测的图像数据；

将所述图像数据输入到所述的训练好的改进型YOLO神经网络模型进行行人检测，并输出检测结果。

为了解决上述技术问题，本申请实施例还提供一种YOLO神经网络的训练装置，采用了如下所述的技术方案：

YOLO神经网络的训练装置，包括：

构建模块，用于构建原YOLO神经网络，所述原YOLO神经网络包括输入层、特征提取层和检测结果输出层，使用深可分离卷积代替原YOLO神经网络中的普通卷积，并修改整个原YOLO神经网络的损失函数，使用倒置残差网络改进所述原YOLO神经网络的特征提取层，得到改进型YOLO神经网络；

制作模块，用于通过随机图像生成制作行人数据集；

训练模块，用于使用所述行人数据集训练所述改进型YOLO神经网络，得到预训练好的改进型YOLO神经网络模型。

为了解决上述技术问题，本申请实施例还提供一种计算机设备，采用了如下所述的技术方案：

所述计算机设备，包括存储器和处理器，所述存储器中存储有计算机程序，所述处理器执行所述计算机程序时实现所述的YOLO神经网络的训练方法或所述行人检测方法的步骤。

为了解决上述技术问题，本申请实施例还提供一种计算机可读存储介质，采用了如下所述的技术方案：

所述计算机可读存储介质上存储有计算机程序，所述计算机程序被处理器执行时实现所述的YOLO神经网络的训练方法或所述行人检测方法的步骤。

在本实施例中，构建原YOLO神经网络，所述原YOLO神经网络包括输入层、特征提取层和检测结果输出层，使用深可分离卷积代替原YOLO神经网络中的普通卷积，并修改整个原YOLO神经网络的损失函数，使用倒置残差网络改进所述原YOLO神经网络的特征提取层，得到改进型YOLO神经网络；通过随机图像生成制作行人数据集；使用所述行人数据集训练所述改进型YOLO神经网络，得到预训练好的改进型YOLO神经网络模型。上述基于YOLO模型的改进结构先将输入的低维特征图扩增到高维，然后用上述深可分离卷积的方式做卷积运算，然后再使用一个线性的卷积将其映射到低维空间中，使得模型的参数量大大减少，压缩了模型的大小，使得模型可以方便地部署到算力较低的移动设备上，并在精度不下降的情况下检测效率得到提高，实现行人的实时检测。

附图说明

为了更清楚地说明本申请中的方案，下面将对本申请实施例描述中所需要使用的附图作一个简单介绍，显而易见地，下面描述中的附图是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1 根据本申请的YOLO神经网络的训练方法的一个实施例的流程图；

图2是根据本申请的YOLO神经网络的训练装置的一个实施例的结构示意图；

图3是根据本申请的计算机设备的一个实施例的结构示意图。

具体实施方式

除非另有定义，本文所使用的所有的技术和科学术语与属于本申请的技术领域的技术人员通常理解的含义相同；本文中在申请的说明书中所使用的术语只是为了描述具体的实施例的目的，不是旨在于限制本申请；本申请的说明书和权利要求书及上述附图说明中的术语“包括”和“具有”以及它们的任何变形，意图在于覆盖不排他的包含。本申请的说明书和权利要求书或上述附图中的术语“第一”、“第二”等是用于区别不同对象，而不是用于描述特定顺序。

在本文中提及“实施例”意味着，结合实施例描述的特定特征、结构或特性可以包含在本申请的至少一个实施例中。在说明书中的各个位置出现该短语并不一定均是指相同的实施例，也不是与其它实施例互斥的独立的或备选的实施例。本领域技术人员显式地和隐式地理解的是，本文所描述的实施例可以与其它实施例相结合。

为了使本技术领域的人员更好地理解本申请方案，下面将结合附图，对本申请实施例中的技术方案进行清楚、完整地描述。

首先介绍下相关背景知识。目前，基于深度学习的目标检测算法大致分为两种思路，一种是两阶段（two stage）的方法，也就是把整个分为两部分，生成候选框和识别框内物体，即对象识别和定位两部分；另一类是一阶段（one stage）的方法，把对象识别和定位合在一起，直接给出检测结果。

两阶段目标检测算法主要是R-CNN系列。一阶段目标检测算法主要是 YOLO(Youonly look once)、SSD(Single ShotMultiBox Detector)系列。相对于 R-CNN 系列，一阶段目标检测算法是一种新的目标检测算法，其直接将目标的定位和识别作为一个整体，利用目标分割边界框和类别概率直接进行回归，达到了实时检测的效果。

但是，以上算法基本都需要大型服务器强大的算力来保障检测效率，同时模型大小都过百MB，不适用于部署至算力小、内存小的智能摄像头之上。因此，本发明的目的在于基于对YOLO神经网络的改进，开发一款轻量、高效的行人目标检测模型并部署至移动设备之上，可以极大方便移动检测设备的使用，减轻服务器以及网络带宽的压力，更方便工程项目的部署。

YOLO神经网络结构比较简单，就是单纯的普通卷积、池化最后加了两层全连接。最大的差异是最后输出层用线性函数做激活函数，因为需要预测边界框（bounding box）的位置（数值型），而不仅仅是对象的概率。YOLO网络结构由24个普通卷积层与2个全连接层构成，网络入口为448x448(v2为416x416)，图片进入网络先经过改变图片大小（resize），网络的输出结果为一个张量，维度为：

其中，S为划分网格数，B为每个网格负责的边界框个数，C为类别个数。每个小格会对应B个边界框，边界框的宽高范围为全图，表示以该小格为中心寻找物体的边界框位置。每个边界框对应一个分值，代表该处是否有物体及定位准确度：

，每个小格会对应C个概率值，找出最大概率对应的类别P(Class|object)，并认为小格中包含该物体或者该物体的一部分。

参考图1，图1示出了根据本申请的YOLO神经网络的训练方法的一个实施例的流程图。所述的YOLO神经网络的训练方法，包括以下步骤：

步骤101，构建原YOLO神经网络，使用深可分离卷积代替原YOLO神经网络中的普通卷积，并修改整个原YOLO神经网络的损失函数，得到改进型YOLO神经网络；

步骤102，通过随机图像生成制作行人数据集；

步骤103，使用所述行人数据集训练所述改进型YOLO神经网络，得到预训练好的改进型YOLO神经网络模型。

在本实施例中，上述构建的原YOLO神经网络包括输入层、特征提取层和检测结果输出层。

其中，输入层输入图像默认尺寸为416 * 416，320 * 320或608 * 608尺寸的输入图像也是可行的，输入图像大小只要是32的整数倍即可，因为YOLO神经网络模型包含5个下采样操作，每个采样步幅为2，因此网络的最大步幅为2^5；输入层还将图像划分为S * S网格，例如7 * 7网格，对象的中心点落在哪个网格单元中，由哪个网格单元负责检测对象。

本实施例对原YOLO神经网络的改进还包括：使用倒置残差网络改进原YOLO神经网络的特征提取层，且使用深可分离卷积代替原YOLO神经网络中的普通卷积，所述深可分离卷积内置于所述倒置残差网络中，所述倒置残差网络还包括线性瓶颈结构。

其中，深可分离卷积包括逐通道卷积（Depthwise Convolution）和逐点卷积（Pointwise Convolution）两个部分。逐通道卷积的一个卷积核负责一个通道，一个通道只被一个卷积核卷积，例如一张416×416像素、三通道彩色输入图片（shape为416×416×3），逐通道卷积首先经过第一次卷积运算，完全是在二维平面内进行，卷积核的数量与上一层的通道数相同（通道和卷积核一一对应），即有3个卷积核，所以一个三通道的图像经过运算后生成了3个特征图谱（Feature map）。但是这种运算对输入层的每个通道独立进行卷积运算，没有有效的利用不同通道在相同空间位置上的特征信息（feature）。因此需要逐点卷积来将这些特征图谱进行组合生成新的特征图谱。

逐点卷积的运算与常规卷积运算非常相似，它的卷积核的尺寸为1×1×M，M为上一层的通道数。所以这里的卷积运算会将上一步逐通道卷积输出的特征图谱在深度方向上进行加权组合，生成新的特征图谱，有几个卷积核就有几个输出特征图谱。

对于一张416×416像素、三通道（形状（shape）为416×416×3），经过3×3普通卷积核的卷积层，假设输出通道数为4，即最终也输出4个特征图谱，则卷积核形状为3×3×3×4，此普通卷积层的参数数量为：N_std=4×3×3×3=108，而深可分离卷积的参数数量为：上述逐点卷积的参数数量（N_depthwise =3×3×3=27）、和上述逐点卷积的参数数量（N_pointwise=1×1×3×4 =12）相加，共39个，相同的输入，同样是得到4张特征图谱，深可分离卷积的参数个数是普通卷积的约1/3，卷积计算的计算量大大减少，使得模型大小降低了约8倍，检测速度提升了3-4倍，从而可以部署到算力较低的移动设备（如智能摄像头）上进行实时的行人检测。

进一步的，本发明实施例的倒置残差网络先用1x1卷积将输入的特征图谱维度变大，然后用3x3 的逐通道卷积方式做卷积运算，最后使用1x1的卷积运算将其维度缩小，即使用一个线性瓶颈结构（一个线性1x1的卷积）将其映射到低维空间中，并在1x1卷积运算后，不使用ReLU激活函数，而是使用线性激活函数，以保留更多特征信息，在提高特征提取能力的同时保证模型的表达能力，使模型的检测精度不至下降。

由此可知，本发明实施例提供的上述基于YOLO模型的结构改进和训练先将输入的低维特征图扩增到高维，然后用上述深可分离卷积的方式做卷积运算，然后再使用一个线性的卷积将其映射到低维空间中，使得模型的参数量大大减少，压缩了模型的大小，使得模型可以方便地部署到算力较低的移动设备上，并在精度不下降的情况下检测效率得到提高，实现行人的实时检测。

进一步的，上述构建的原YOLO神经网络的检测结果输出层输出的是一个 7*7*30的张量（tensor），其中包括至少3个预测边界框（bounding box）。输入图像被划分为 7*7的网格（grid），输出张量中的 7*7 就对应着输入图像的 7*7 网格，也可以把 7*7*30 的输出张量看作49个30维的向量，也就是输入图像中的每个网格对应输出一个30维的向量。具体的，一个30维的向量包括如下信息：

C个对象分类的概率：其中，C可以是10也可是20等，在本实施例中取15，代表C=15 种不同的对象（人、鸟、猫、汽车、椅子等），如果一个网格存在一个对象（Object），那么它是

的概率可以记为

。

至少3个边界框的位置：每个边界框需要4个数值来表示其位置 (tx,ty,tw,th)，即(边界框的中心点的x坐标，y坐标，宽度，高度)，3个边界框共需要12个数值来表示其位置。其中坐标的tx、ty用对应网格的补偿（offset）归一化到0-1之间，tw、th用图像的宽（width）和高（height）归一化到0-1之间。

至少3个边界框的置信度：边界框的置信度=该边界框内存在对象的概率 *该边界框与该对象实际边界框的IOU，公式:

其中，

是边界框内存在对象的概率，区别于

。Pr (Object)并不管是哪个对象，它体现的是有或没有对象的概率。

是预测边界框的边界框与对象真实边界框的边界框的IOU（两个边界框的交并比）。

总的来说，30维向量=15个对象的概率+3个边界框* 4个坐标 + 3个边界框的置信度。即每个网格预测15类条件概率，最后通过非极大值抑制（NMS）算法选择边界框以获得最终结果，即从3个边界框中选出位置最接近实际位置的那个边界框，多个预测边界框可以提高对象位置预测的准确率。

进一步的，上述改进的YOLO神经网络模型经过预先训练，包括通过随机图像生成制作行人数据集，对数据进行预处理等，如修改图像尺寸和随机裁剪、随机平移变换之类的数据增强手段等；其中随机图像生成可以使用GAN网络（生成对抗式神经网络）来随机生成训练数据。

上述修改整个YOLO神经网络的损失函数包括添加焦点损失：

其中，m表示边界框是否为反例，“0”表示反例，“1”表示正例。

然后使用二值交叉熵重新计算整个YOLO神经网络模型在训练过程中的损失，然后使用上述随机生成的图像数据在上述修改的损失函数下进行反向传播训练，得到优化的模型参数即得到训练好的改进型YOLO神经网络模型。

进一步的，然后将参数化的所述的训练好的改进型YOLO神经网络模型进行格式转换以适合部署的移动设备（如摄像头）的运行环境，通过摄像头获取待进行行人检测的图像数据，并将所述图像数据输入到所述的训练好的改进型YOLO神经网络模型进行实时的行人检测并输出检测结果，包括有没有行人和行人所在的位置。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，该计算机程序可存储于一计算机可读取存储介质中，该程序在执行时，可包括如上述各方法的实施例的流程。其中，前述的存储介质可为磁碟、光盘、只读存储记忆体（Read-Only Memory，ROM）等非易失性存储介质，或随机存储记忆体（Random Access Memory，RAM）等。

应该理解的是，虽然附图的流程图中的各个步骤按照箭头的指示依次显示，但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明，这些步骤的执行并没有严格的顺序限制，其可以以其他的顺序执行。而且，附图的流程图中的至少一部分步骤可以包括多个子步骤或者多个阶段，这些子步骤或者阶段并不必然是在同一时刻执行完成，而是可以在不同的时刻执行，其执行顺序也不必然是依次进行，而是可以与其他步骤或者其他步骤的子步骤或者阶段的至少一部分轮流或者交替地执行。

进一步参考图2，作为对上述图1所示YOLO神经网络的训练方法的实现，本申请提供了一种YOLO神经网络的训练装置的一个实施例，该装置实施例与图1所示的方法实施例相对应，该装置具体可以应用于各种电子设备中。

如图2所示，本实施例所述的YOLO神经网络的训练装置200包括：

构建模块201，用于构建原YOLO神经网络，使用深可分离卷积代替原YOLO神经网络中的普通卷积，并修改整个原YOLO神经网络的损失函数，得到改进型YOLO神经网络；

制作模块202，用于通过随机图像生成制作行人数据集；

训练模块203，用于使用所述行人数据集训练所述改进型YOLO神经网络，得到预训练好的改进型YOLO神经网络模型。

本申请实施例提供的YOLO神经网络的训练装置能够实现图1的方法实施例中的各个实施方式，以及相应有益效果，为避免重复，这里不再赘述。

为解决上述技术问题，本申请实施例还提供计算机设备。具体请参阅图3，图3为本实施例计算机设备基本结构框图。

所述计算机设备3包括通过系统总线相互通信连接存储器31、处理器32、网络接口33。需要指出的是，图中仅示出了具有组件31-33的计算机设备3，但是应理解的是，并不要求实施所有示出的组件，可以替代的实施更多或者更少的组件。其中，本技术领域技术人员可以理解，这里的计算机设备是一种能够按照事先设定或存储的指令，自动进行数值计算和/或信息处理的设备，其硬件包括但不限于微处理器、专用集成电路(ApplicationSpecific Integrated Circuit，ASIC)、可编程门阵列(Field－Programmable GateArray，FPGA)、数字处理器 (Digital Signal Processor，DSP)、嵌入式设备等。

所述计算机设备可以是桌上型计算机、笔记本、掌上电脑及云端服务器等计算设备。所述计算机设备可以与用户通过键盘、鼠标、遥控器、触摸板或声控设备等方式进行人机交互。

所述存储器31至少包括一种类型的可读存储介质，所述可读存储介质包括闪存、硬盘、多媒体卡、卡型存储器（例如，SD或DX存储器等）、随机访问存储器（RAM）、静态随机访问存储器（SRAM）、只读存储器（ROM）、电可擦除可编程只读存储器（EEPROM）、可编程只读存储器（PROM）、磁性存储器、磁盘、光盘等。在一些实施例中，所述存储器31可以是所述计算机设备3的内部存储单元，例如该计算机设备3的硬盘或内存。在另一些实施例中，所述存储器31也可以是所述计算机设备3的外部存储设备，例如该计算机设备3上配备的插接式硬盘，智能存储卡（Smart Media Card, SMC），安全数字（Secure Digital, SD）卡，闪存卡（FlashCard）等。当然，所述存储器31还可以既包括所述计算机设备3的内部存储单元也包括其外部存储设备。本实施例中，所述存储器31通常用于存储安装于所述计算机设备3的操作系统和各类应用软件，例如YOLO神经网络的训练方法的程序代码等。此外，所述存储器31还可以用于暂时地存储已经输出或者将要输出的各类数据。

所述处理器32在一些实施例中可以是中央处理器（Central Processing Unit，CPU）、控制器、微控制器、微处理器、或其他数据处理芯片。该处理器32通常用于控制所述计算机设备3的总体操作。本实施例中，所述处理器32用于运行所述存储器31中存储的程序代码或者处理数据，例如运行所述YOLO神经网络的训练方法的程序代码。

所述网络接口33可包括无线网络接口或有线网络接口，该网络接口33通常用于在所述计算机设备3与其他电子设备之间建立通信连接。

本申请还提供了另一种实施方式，即提供一种计算机可读存储介质，所述计算机可读存储介质存储有YOLO神经网络的训练程序，所述YOLO神经网络的训练程序可被至少一个处理器执行，以使所述至少一个处理器执行如上述的YOLO神经网络的训练方法的步骤。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件，但很多情况下前者是更佳的实施方式。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质（如ROM/RAM、磁碟、光盘）中，包括若干指令用以使得一台终端设备（可以是手机，计算机，服务器，空调器，或者网络设备等）执行本申请各个实施例所述的方法。

显然，以上所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例，附图中给出了本申请的较佳实施例，但并不限制本申请的专利范围。本申请可以以许多不同的形式来实现，相反地，提供这些实施例的目的是使对本申请的公开内容的理解更加透彻全面。尽管参照前述实施例对本申请进行了详细的说明，对于本领域的技术人员来而言，其依然可以对前述各具体实施方式所记载的技术方案进行修改，或者对其中部分技术特征进行等效替换。凡是利用本申请说明书及附图内容所做的等效结构，直接或间接运用在其他相关的技术领域，均同理在本申请专利保护范围之内。

Claims

1.一种YOLO神经网络的训练方法，其特征在于，包括：

通过随机图像生成制作行人数据集；

使用所述行人数据集训练所述改进型YOLO神经网络，得到训练好的改进型YOLO神经网络模型。

2.如权利要求1所述的YOLO神经网络的训练方法，其特征在于，所述深可分离卷积内置于所述倒置残差网络中。

3.如权利要求2所述的YOLO神经网络的训练方法，其特征在于，所述倒置残差网络还包括线性瓶颈结构。

4.如权利要求3所述的YOLO神经网络的训练方法，其特征在于，所述修改整个所述原YOLO神经网络的损失函数包括添加焦点损失并使用二值交叉熵重新计算整个所述原YOLO神经网络模型在训练过程中的损失。

5.如权利要求1所述的YOLO神经网络的训练方法，其特征在于，所述行人数据集经过图像预处理，所述图像预处理包括修改尺寸和数据增强。

6.如权利要求1所述的YOLO神经网络的训练方法，其特征在于，所述原YOLO神经网络的检测结果输出层包括至少3个预测边界框。

7.一种行人检测方法，其特征在于，包括：

获取待进行行人检测的图像数据；

将所述图像数据输入到如权利要求1至6任一项所述的训练好的改进型YOLO神经网络模型进行行人检测，并输出检测结果。

8.一种YOLO神经网络的训练装置，其特征在于，所述装置包括：

制作模块，用于通过随机图像生成制作行人数据集；

9.一种计算机设备，其特征在于，包括存储器和处理器，所述存储器中存储有计算机程序，所述处理器执行所述计算机程序时实现如权利要求1至6中任一项所述的YOLO神经网络的训练方法或如权利要求7所述的行人检测方法的步骤。

10.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质上存储有计算机程序，所述计算机程序被处理器执行时实现如权利要求1至6中任一项所述的YOLO神经网络的训练方法或如权利要求7所述的行人检测方法的步骤。