CN112784694A

CN112784694A - 一种基于evp_yolo的室内物品检测方法

Info

Publication number: CN112784694A
Application number: CN202011632422.2A
Authority: CN
Inventors: 沈雷; 王方杰; 李东辉
Original assignee: Hangzhou Dianzi University
Current assignee: Hangzhou Dianzi University
Priority date: 2020-12-31
Filing date: 2020-12-31
Publication date: 2021-05-11

Abstract

本发明公开了一种基于EVP_YOLO的室内物品检测方法。本发明包括以下步骤：S1、构建EVP_YOLO的主体网络，主体网络拥有五个特征层和一个池化层，每个特征层都采用回流残差结构；S2、对完成卷积的结果标准化处理后送入激活函数中；S3、对激活函数输出值进行标签平滑处理：S4、训练网络模型；S5、对训练好的网络模型输入测试数据，进行自动目标检测。本发明以神经网络为基础搭建出层数更多结构更加完善的目标识别算法EVP_YOLO。经测试证明此模型对室内的小件物品识别度明显增高，检测结果的准确率也较为理想。

Description

一种基于EVP_YOLO的室内物品检测方法

技术领域

本发明属于计算机视觉领域，具体涉及一种基于EVP_YOLO的深度学习模型在室内物体检测场景的具体应用。

背景技术

随着社会的发展人们的安全意识也在不断的提高，视频监控在百姓家中的普及率也迅速增加。视频数据爆发式增加，如何将相对有效的信息从中提取出来成为了一个亟待解决的问题。要想充分发挥视频监控的作用，室内目标自动检测系统就显得尤为重要。

当前基于深度学习的目标检测算法可以大致分为两类，一类是将目标检测分为两步(two stage)进行的算法(R-CNN，Fast R-CNN, Faster R-CNN，SPP-net)，此类算法依赖区域特征提取，需要先使用启发式方法(selective search)或者CNN网络(RPN)在候选框中提取目的信息，然后再对目的信息进行分类和回归处理。另一种则是一步 (one stage)进行的，如YOLO、SSD等，此类模型不依赖于区域特征提取，仅使用一个框架网络直接预测不同目标的类别与位置。两类模型各有好坏，第一类准确度高一些，但是速度较慢；第二类速度快，但是准确性要低一些，随着硬件设施的不断进步以及算法的逐渐优化此类算法开始占据主流。在保持高检测速率的前提下提高模型目标检测的精度一直是人们研究的主要方向。

发明内容

本发明的目的是对于现有的室内物品检测算法检测不准确的问题，提供一种基于EVP_YOLO的室内物品检测方法。

本发明所采用的技术方案包括以下步骤：

S1、构建EVP_YOLO的主体网络，主体网络拥有五个特征层和一个池化层，每个特征层都采用回流残差结构。前两个特征层为公共特征层，后三个特征层位于主干网络的不同位置，后三个特征层经过多次卷积所提取的特征数据被分为两部分，一部分用于该特征层的结果预测，另一部分采用回流结构，进行卷积后再重新输入到前一个特征层。池化层负责将卷积后的数据进行池化处理，池化处理后的数据也分为两部分，一部分用于直接输出，另一部分同样采用回流结构，回传至前一个特征层用以增加边界框视野，从而分离出更加显著的上下文特征。数据进行再次回流后边界框的感受视野将会增加。其整体架构的优越性使得整体很容易被优化，并且能够通过增加相当的深度来提高预测的准确率。不同的残差块之间使用了阶跃式连接，也较大程度地缓解了在深度神经网络中增加深度带来的梯度消失问题。并且其每一个卷积部分都使用了特有的正则化卷积结构(Darknet Conv2D)，每一次卷积的时都会进行正则化处理。

S2、对完成卷积的结果标准化(Batch Normaliz ation)处理后送入激活函数(Mish)之中。普通的激活函数(LeakyReLu)是给所有负值赋予一个非零斜率，而Mish函数则更加的平滑，具有更好的泛化能力，并且Mish函数并不是一个单调函数此性质对于整体数据中的小的负值更加友好，从而使网络中的梯度流也更加的稳定。以数学的方式表示为：

式中，Mish(*)为激活函数，x为输入数据，该数据是完成卷积后标准化数据。

S3、对激活函数输出值进行标签平滑处理：

标签平滑处理时，每一个边界框都使用多标签分类器来预测所包含物体的可能类别，本发明物体类别分类器采用softmax。在进行类别预测时EVP_YOLO使用交叉熵来作为系统的损失值。在进行交叉熵优化的时候EVP_YOLO会尽量使结果接近标签值0和标签值1以减少损失值，但这样做又会很大概率的造成结果过拟合。室内物品大多数体积较小且相似度较高，在进行目标检测时很容易出现过拟合的情况。一旦出现过拟合情况检测算法的准确度会严重下降。针对这一问题对EVP_YOLO标签值做了适当的调整，使两端的极值往中间靠拢以增加系统的泛化能力。标签平滑公式如下：

q(k|x)＝(1-ε)δ_k,y+εu(k) (3

式中，q为预测x所处类别的概率，ε是概率函数u(k)的随机变量，而u(k)则是模型中所定义的类别函数，表示x是否处于此类别，δ_k,y为一个冲击函数只有0和1两种取值。此时模型的损失函数共分为四个部分：分别对预测的中心坐标做损失，对预测边界框的宽高做损失，对预测的类别做损失和对预测的置信度做损失。损失(Loss)函数如下所示：

式中，第一项为预测物体中心坐标损失，S²代表所划分的网格单元个数，B表示网格单元所预测的边界框个数，

代表预测的x坐标，

代表预测的y坐标，

代表真实的x坐标，

代表真实的y坐标。第二项为对预测边界框的宽高做损失，

为预测的宽，

为预测的高，

为实际的宽，

为实际的高，通过预测边界框宽度和高度的平方根来代替直接预测宽度和高度，从而取得更好的效果，这部分主要优化置信度和w，h的回归值。第三项和第四项对预测的置信度进行损失计算,

则表示如果在i，j处的网格单元有目标，其值为1，否则为0，

则表示在i，j处的网格单元没有目标，其值为1，否则为0。λ_noobj用于增强边框坐标损失，减少用于不包含目标物体边界框置信度损失的权重参数。

为预测置信度，

为实际置信度，

主要用于优化置信度，同时缩减了检测的目标量级。最后一项对预测的类别做损失，

为平滑处理后预测的所属类别概率，

为平滑处理后真实所属类别概率，值得注意的是当单元格内没有目标时是不会对分类误差做出惩罚的，这部分主要优化置信度损失和类别损失。

S4、模型训练。

S5、输入测试数据，进行自动目标检测。

本发明有益效果如下：

本发明以神经网络为基础搭建出层数更多结构更加完善的目标识别算法EVP_YOLO。经测试证明此模型对室内的小件物品识别度明显增高，检测结果的准确率也较为理想。

附图说明

图1为基于EVP_YOLO的室内物品检测方法的网络模型；

图2为本发明所提基于EVP_YOLO的室内物品检测方法与基于 YOLOv3的室内物品检测算法的检测时间比较；

图3为本发明所提基于EVP_YOLO的室内物品检测方法与基于 YOLOv3的室内物品检测算法的检测准确率比较。

具体实施例

下面结合附图对本发明的具体实施例作进一步的说明。

本实施例的基于EVP_YOLO的室内物品检测方法，包括以下步骤：，包括以下步骤：

S1、拥有五个特征提取层与一个池化层。每个特征提取层均采用回流残差结构。前两个特征层为公共特征层，后三个特征层位于主干网络的不同位置，分别位于中间层，中下层，底层。后三个特征层的 shape分别为(52,52,256)、(26,26,512)、(13,13,1024)，处理完后一部分用于输出该特征层对应的预测结果，一部分用于进行反卷积后与其它特征层进行结合。输出层的shape分别为(13,13,75)， (26,26,75)，(52,52,75)。五个特征层经过多次卷积所提取的特征数据会被分为两部分，一部分用于该特征层的结果预测，另一部分采用回流结构，进行卷积后再重新输入到其他特征层；

S2、最后一层为回流池化层。回流池化层负责将卷积后的数据进行池化处理，采用多个池化核进行处理，池化层针对不同的目标框架会分别进行(3×3)，(5×5)，(9×9)的池化运算，并且将池化处理后的数据也分为两部分，一部分用于直接输出，另一部分采用回流结构，将数据回传至其他特征层；

S3、不同的残差块之间使用了阶跃式连接，并且其每一个卷积部分都使用了特有的正则化卷积结构，每一次卷积的时都会进行正则化处理；

S4、激活函数采用Mish，其数学公式如式(1)、式(2)所示；

S5、损失函数采用交叉熵函数，为避免过拟合，EVP_YOLO标签值做了适当的调整，使两端的极值往中间靠拢以增加系统的泛化能力。标签平滑公式如式(3)所示；

S6、模型训练；

S7、输入测试数据，进行自动目标检测。

为了对本发明室内物品检测算法的有效性进行验证，分别对 EVP_YOLO和YOLOv3选取相同训练集进行训练，使用voc2007进行训练，共选取了12068张图片进行训练，包括了椅子、餐桌、盆栽、桌子等常见的室内用品，之后选取相同测试集分别对训练完毕的模型进行测试。图2、图3为EVP_YOLO和YOLOv3在voc2007数据集上检测结果的对比结果，可以发现，整体来看，EVP_YOLO检测速度明显高于YOLOv3检测速度，且EVP_YOLO检测准确率较高。

图1展示了基于EVP_YOLO的室内物品检测算法的网络结构。网络的输入为规格224*224的图像。图中分为七个普通卷积层、五个残差块以及一个池化层。普通卷积层包含一个32×3×3、步长为1的卷积层以及六个64×3×3、步长为2的卷积层。每个残差块中，32×3×3、步长为1的卷积层以及64×3×3、步长为2的卷积层以残差结构连接。对于后三个残差块，存在回流的结构，一部分数据输出，另一部分数据进行回流。对于不同规格，分别使用3×3、5×5、9× 9的池化核进行过处理。对数据进行输出和回流，以增大边界框的感受视野。

图2展示了本发明所提算法的时间检测性能，可以看出，本发明所提基于EVP_YOLO的室内物品检测算法较经典的基于YOLOv3的室内物品检测算法在检测相同物品时，有着更好的时间性能。

图3展示了本发明所提算法的检测准确率，可以看出，本发明所提基于EVP_YOLO的室内物品检测算法较经典的基于YOLOv3的室内物品检测算法在检测相同物品时，有着更好的准确性，平均提升4.84％。

上面结合附图对本发明的实施例作了详细说明，但是本发明并不限于上述实施例，在本领域普通技术人员所具备的知识范围内，还可以在不脱离本发明宗旨的前提下作出得各种变化，也应视为本发明的保护范围。

Claims

1.一种基于EVP_YOLO的室内物品检测方法，其特征在于包括以下步骤：

S1、构建EVP_YOLO的主体网络，主体网络拥有五个特征层和一个池化层，每个特征层都采用回流残差结构；

S2、对完成卷积的结果标准化处理后送入激活函数中；

S3、对激活函数输出值进行标签平滑处理：

S4、训练网络模型；

S5、对训练好的网络模型输入测试数据，进行自动目标检测。

2.根据权利要求1所述的一种基于EVP_YOLO的室内物品检测方法，其特征在于步骤1所述的主体网络，具体结构如下：

前两个特征层为公共特征层，后三个特征层位于主干网络的不同位置，后三个特征层经过多次卷积所提取的特征数据被分为两部分，一部分用于该特征层的结果预测，另一部分采用回流结构，进行卷积后再重新输入到前一个特征层；池化层负责将卷积后的数据进行池化处理，池化处理后的数据也分为两部分，一部分用于直接输出，另一部分同样采用回流结构，回传至前一个特征层用以增加边界框视野，从而分离出更加显著的上下文特征；并且每次卷积都使用了特有的正则化卷积结构，每一次卷积的时都会进行正则化处理。

3.根据权利要求2所述的一种基于EVP_YOLO的室内物品检测方法，其特征在于步骤2具体实现如下：

Mish函数则更加的平滑，具有更好的泛化能力，并且Mish函数并不是一个单调函数此性质对于整体数据中的小的负值更加友好，从而使网络模型中的梯度流也更加的稳定，数学的方式表示为：

4.根据权利要求3所述的一种基于EVP_YOLO的室内物品检测方法，其特征在于步骤3具体实现如下：

标签平滑处理时，每一个边界框都使用多标签分类器来预测所包含物体的可能类别，采用softmax分类器对物体类别进行分类；在进行类别预测时EVP_YOLO使用交叉熵来作为系统的损失值；在进行交叉熵优化的时候EVP_YOLO会尽量使结果接近标签值0和标签值1以减少损失值，但这样做又会很大概率的造成结果过拟合；针对过拟合问题对EVP_YOLO标签值做调整，使两端的极值往中间靠拢以增加系统的泛化能力，标签平滑公式如下：

q(k|x)＝(1-ε)δ_k,y+εu(k) (3

式中，q为预测x所处类别的概率，ε是概率函数u(k)的随机变量)，而u(k)则是模型中所定义的类别函数，表示x是否处于此类别，δ_k,y为一个冲击函数只有0和1两种取值；此时模型的损失函数共分为四个部分：分别对预测的中心坐标做损失，对预测边界框的宽高做损失，对预测的类别做损失和对预测的置信度做损失；损失(Loss)函数如下所示：