CN112784694A - 一种基于evp_yolo的室内物品检测方法 - Google Patents

一种基于evp_yolo的室内物品检测方法 Download PDF

Info

Publication number
CN112784694A
CN112784694A CN202011632422.2A CN202011632422A CN112784694A CN 112784694 A CN112784694 A CN 112784694A CN 202011632422 A CN202011632422 A CN 202011632422A CN 112784694 A CN112784694 A CN 112784694A
Authority
CN
China
Prior art keywords
yolo
evp
loss
predicted
function
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202011632422.2A
Other languages
English (en)
Inventor
沈雷
王方杰
李东辉
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hangzhou Dianzi University
Original Assignee
Hangzhou Dianzi University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hangzhou Dianzi University filed Critical Hangzhou Dianzi University
Priority to CN202011632422.2A priority Critical patent/CN112784694A/zh
Publication of CN112784694A publication Critical patent/CN112784694A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/35Categorising the entire scene, e.g. birthday party or wedding scene
    • G06V20/36Indoor scenes
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • General Engineering & Computer Science (AREA)
  • Computing Systems (AREA)
  • Software Systems (AREA)
  • Molecular Biology (AREA)
  • Computational Linguistics (AREA)
  • Biophysics (AREA)
  • Biomedical Technology (AREA)
  • Mathematical Physics (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Multimedia (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开了一种基于EVP_YOLO的室内物品检测方法。本发明包括以下步骤:S1、构建EVP_YOLO的主体网络,主体网络拥有五个特征层和一个池化层,每个特征层都采用回流残差结构;S2、对完成卷积的结果标准化处理后送入激活函数中;S3、对激活函数输出值进行标签平滑处理:S4、训练网络模型;S5、对训练好的网络模型输入测试数据,进行自动目标检测。本发明以神经网络为基础搭建出层数更多结构更加完善的目标识别算法EVP_YOLO。经测试证明此模型对室内的小件物品识别度明显增高,检测结果的准确率也较为理想。

Description

一种基于EVP_YOLO的室内物品检测方法
技术领域
本发明属于计算机视觉领域,具体涉及一种基于EVP_YOLO的深度学习模型在室内物体检测场景的具体应用。
背景技术
随着社会的发展人们的安全意识也在不断的提高,视频监控在百姓家中的普及率也迅速增加。视频数据爆发式增加,如何将相对有效的信息从中提取出来成为了一个亟待解决的问题。要想充分发挥视频监控的作用,室内目标自动检测系统就显得尤为重要。
当前基于深度学习的目标检测算法可以大致分为两类,一类是将目标检测分为两步(two stage)进行的算法(R-CNN,Fast R-CNN, Faster R-CNN,SPP-net),此类算法依赖区域特征提取,需要先使用启发式方法(selective search)或者CNN网络(RPN)在候选框中提取目的信息,然后再对目的信息进行分类和回归处理。另一种则是一步 (one stage)进行的,如YOLO、SSD等,此类模型不依赖于区域特征提取,仅使用一个框架网络直接预测不同目标的类别与位置。两类模型各有好坏,第一类准确度高一些,但是速度较慢;第二类速度快,但是准确性要低一些,随着硬件设施的不断进步以及算法的逐渐优化此类算法开始占据主流。在保持高检测速率的前提下提高模型目标检测的精度一直是人们研究的主要方向。
发明内容
本发明的目的是对于现有的室内物品检测算法检测不准确的问题,提供一种基于EVP_YOLO的室内物品检测方法。
本发明所采用的技术方案包括以下步骤:
S1、构建EVP_YOLO的主体网络,主体网络拥有五个特征层和一个池化层,每个特征层都采用回流残差结构。前两个特征层为公共特征层,后三个特征层位于主干网络的不同位置,后三个特征层经过多次卷积所提取的特征数据被分为两部分,一部分用于该特征层的结果预测,另一部分采用回流结构,进行卷积后再重新输入到前一个特征层。池化层负责将卷积后的数据进行池化处理,池化处理后的数据也分为两部分,一部分用于直接输出,另一部分同样采用回流结构,回传至前一个特征层用以增加边界框视野,从而分离出更加显著的上下文特征。数据进行再次回流后边界框的感受视野将会增加。其整体架构的优越性使得整体很容易被优化,并且能够通过增加相当的深度来提高预测的准确率。不同的残差块之间使用了阶跃式连接,也较大程度地缓解了在深度神经网络中增加深度带来的梯度消失问题。并且其每一个卷积部分都使用了特有的正则化卷积结构(Darknet Conv2D),每一次卷积的时都会进行正则化处理。
S2、对完成卷积的结果标准化(Batch Normaliz ation)处理后送入激活函数(Mish)之中。普通的激活函数(LeakyReLu)是给所有负值赋予一个非零斜率,而Mish函数则更加的平滑,具有更好的泛化能力,并且Mish函数并不是一个单调函数此性质对于整体数据中的小的负值更加友好,从而使网络中的梯度流也更加的稳定。以数学的方式表示为:
Figure RE-GDA0002992672460000021
Figure RE-GDA0002992672460000022
式中,Mish(*)为激活函数,x为输入数据,该数据是完成卷积后标准化数据。
S3、对激活函数输出值进行标签平滑处理:
标签平滑处理时,每一个边界框都使用多标签分类器来预测所包含物体的可能类别,本发明物体类别分类器采用softmax。在进行类别预测时EVP_YOLO使用交叉熵来作为系统的损失值。在进行交叉熵优化的时候EVP_YOLO会尽量使结果接近标签值0和标签值1以减少损失值,但这样做又会很大概率的造成结果过拟合。室内物品大多数体积较小且相似度较高,在进行目标检测时很容易出现过拟合的情况。一旦出现过拟合情况检测算法的准确度会严重下降。针对这一问题对EVP_YOLO标签值做了适当的调整,使两端的极值往中间靠拢以增加系统的泛化能力。标签平滑公式如下:
q(k|x)=(1-ε)δk,y+εu(k) (3
式中,q为预测x所处类别的概率,ε是概率函数u(k)的随机变量,而u(k)则是模型中所定义的类别函数,表示x是否处于此类别,δk,y为一个冲击函数只有0和1两种取值。此时模型的损失函数共分为四个部分:分别对预测的中心坐标做损失,对预测边界框的宽高做损失,对预测的类别做损失和对预测的置信度做损失。损失(Loss)函数如下所示:
Figure RE-GDA0002992672460000031
式中,第一项为预测物体中心坐标损失,S2代表所划分的网格单元个数,B表示网格单元所预测的边界框个数,
Figure RE-GDA0002992672460000032
代表预测的x坐标,
Figure RE-GDA0002992672460000033
代表预测的y坐标,
Figure RE-GDA0002992672460000034
代表真实的x坐标,
Figure RE-GDA0002992672460000035
代表真实的y坐标。第二项为对预测边界框的宽高做损失,
Figure RE-GDA0002992672460000036
为预测的宽,
Figure RE-GDA0002992672460000037
为预测的高,
Figure RE-GDA0002992672460000038
为实际的宽,
Figure RE-GDA0002992672460000039
为实际的高,通过预测边界框宽度和高度的平方根来代替直接预测宽度和高度,从而取得更好的效果,这部分主要优化置信度和w,h的回归值。第三项和第四项对预测的置信度进行损失计算,
Figure RE-GDA00029926724600000310
则表示如果在i,j处的网格单元有目标,其值为1,否则为0,
Figure RE-GDA00029926724600000311
则表示在i,j处的网格单元没有目标,其值为1,否则为0。λnoobj用于增强边框坐标损失,减少用于不包含目标物体边界框置信度损失的权重参数。
Figure RE-GDA00029926724600000312
为预测置信度,
Figure RE-GDA00029926724600000313
为实际置信度,
Figure RE-GDA00029926724600000314
主要用于优化置信度,同时缩减了检测的目标量级。最后一项对预测的类别做损失,
Figure RE-GDA0002992672460000041
为平滑处理后预测的所属类别概率,
Figure RE-GDA0002992672460000042
为平滑处理后真实所属类别概率,值得注意的是当单元格内没有目标时是不会对分类误差做出惩罚的,这部分主要优化置信度损失和类别损失。
S4、模型训练。
S5、输入测试数据,进行自动目标检测。
本发明有益效果如下:
本发明以神经网络为基础搭建出层数更多结构更加完善的目标识别算法EVP_YOLO。经测试证明此模型对室内的小件物品识别度明显增高,检测结果的准确率也较为理想。
附图说明
图1为基于EVP_YOLO的室内物品检测方法的网络模型;
图2为本发明所提基于EVP_YOLO的室内物品检测方法与基于 YOLOv3的室内物品检测算法的检测时间比较;
图3为本发明所提基于EVP_YOLO的室内物品检测方法与基于 YOLOv3的室内物品检测算法的检测准确率比较。
具体实施例
下面结合附图对本发明的具体实施例作进一步的说明。
本实施例的基于EVP_YOLO的室内物品检测方法,包括以下步骤:,包括以下步骤:
S1、拥有五个特征提取层与一个池化层。每个特征提取层均采用回流残差结构。前两个特征层为公共特征层,后三个特征层位于主干网络的不同位置,分别位于中间层,中下层,底层。后三个特征层的 shape分别为(52,52,256)、(26,26,512)、(13,13,1024),处理完后一部分用于输出该特征层对应的预测结果,一部分用于进行反卷积后与其它特征层进行结合。输出层的shape分别为(13,13,75), (26,26,75),(52,52,75)。五个特征层经过多次卷积所提取的特征数据会被分为两部分,一部分用于该特征层的结果预测,另一部分采用回流结构,进行卷积后再重新输入到其他特征层;
S2、最后一层为回流池化层。回流池化层负责将卷积后的数据进行池化处理,采用多个池化核进行处理,池化层针对不同的目标框架会分别进行(3×3),(5×5),(9×9)的池化运算,并且将池化处理后的数据也分为两部分,一部分用于直接输出,另一部分采用回流结构,将数据回传至其他特征层;
S3、不同的残差块之间使用了阶跃式连接,并且其每一个卷积部分都使用了特有的正则化卷积结构,每一次卷积的时都会进行正则化处理;
S4、激活函数采用Mish,其数学公式如式(1)、式(2)所示;
S5、损失函数采用交叉熵函数,为避免过拟合,EVP_YOLO标签值做了适当的调整,使两端的极值往中间靠拢以增加系统的泛化能力。标签平滑公式如式(3)所示;
S6、模型训练;
S7、输入测试数据,进行自动目标检测。
为了对本发明室内物品检测算法的有效性进行验证,分别对 EVP_YOLO和YOLOv3选取相同训练集进行训练,使用voc2007进行训练,共选取了12068张图片进行训练,包括了椅子、餐桌、盆栽、桌子等常见的室内用品,之后选取相同测试集分别对训练完毕的模型进行测试。图2、图3为EVP_YOLO和YOLOv3在voc2007数据集上检测结果的对比结果,可以发现,整体来看,EVP_YOLO检测速度明显高于YOLOv3检测速度,且EVP_YOLO检测准确率较高。
图1展示了基于EVP_YOLO的室内物品检测算法的网络结构。网络的输入为规格224*224的图像。图中分为七个普通卷积层、五个残差块以及一个池化层。普通卷积层包含一个32×3×3、步长为1的卷积层以及六个64×3×3、步长为2的卷积层。每个残差块中,32×3×3、步长为1的卷积层以及64×3×3、步长为2的卷积层以残差结构连接。对于后三个残差块,存在回流的结构,一部分数据输出,另一部分数据进行回流。对于不同规格,分别使用3×3、5×5、9× 9的池化核进行过处理。对数据进行输出和回流,以增大边界框的感受视野。
图2展示了本发明所提算法的时间检测性能,可以看出,本发明所提基于EVP_YOLO的室内物品检测算法较经典的基于YOLOv3的室内物品检测算法在检测相同物品时,有着更好的时间性能。
图3展示了本发明所提算法的检测准确率,可以看出,本发明所提基于EVP_YOLO的室内物品检测算法较经典的基于YOLOv3的室内物品检测算法在检测相同物品时,有着更好的准确性,平均提升4.84%。
上面结合附图对本发明的实施例作了详细说明,但是本发明并不限于上述实施例,在本领域普通技术人员所具备的知识范围内,还可以在不脱离本发明宗旨的前提下作出得各种变化,也应视为本发明的保护范围。

Claims (4)

1.一种基于EVP_YOLO的室内物品检测方法,其特征在于包括以下步骤:
S1、构建EVP_YOLO的主体网络,主体网络拥有五个特征层和一个池化层,每个特征层都采用回流残差结构;
S2、对完成卷积的结果标准化处理后送入激活函数中;
S3、对激活函数输出值进行标签平滑处理:
S4、训练网络模型;
S5、对训练好的网络模型输入测试数据,进行自动目标检测。
2.根据权利要求1所述的一种基于EVP_YOLO的室内物品检测方法,其特征在于步骤1所述的主体网络,具体结构如下:
前两个特征层为公共特征层,后三个特征层位于主干网络的不同位置,后三个特征层经过多次卷积所提取的特征数据被分为两部分,一部分用于该特征层的结果预测,另一部分采用回流结构,进行卷积后再重新输入到前一个特征层;池化层负责将卷积后的数据进行池化处理,池化处理后的数据也分为两部分,一部分用于直接输出,另一部分同样采用回流结构,回传至前一个特征层用以增加边界框视野,从而分离出更加显著的上下文特征;并且每次卷积都使用了特有的正则化卷积结构,每一次卷积的时都会进行正则化处理。
3.根据权利要求2所述的一种基于EVP_YOLO的室内物品检测方法,其特征在于步骤2具体实现如下:
Mish函数则更加的平滑,具有更好的泛化能力,并且Mish函数并不是一个单调函数此性质对于整体数据中的小的负值更加友好,从而使网络模型中的梯度流也更加的稳定,数学的方式表示为:
Figure FDA0002880366710000011
Figure FDA0002880366710000012
式中,Mish(*)为激活函数,x为输入数据,该数据是完成卷积后标准化数据。
4.根据权利要求3所述的一种基于EVP_YOLO的室内物品检测方法,其特征在于步骤3具体实现如下:
标签平滑处理时,每一个边界框都使用多标签分类器来预测所包含物体的可能类别,采用softmax分类器对物体类别进行分类;在进行类别预测时EVP_YOLO使用交叉熵来作为系统的损失值;在进行交叉熵优化的时候EVP_YOLO会尽量使结果接近标签值0和标签值1以减少损失值,但这样做又会很大概率的造成结果过拟合;针对过拟合问题对EVP_YOLO标签值做调整,使两端的极值往中间靠拢以增加系统的泛化能力,标签平滑公式如下:
q(k|x)=(1-ε)δk,y+εu(k) (3
式中,q为预测x所处类别的概率,ε是概率函数u(k)的随机变量),而u(k)则是模型中所定义的类别函数,表示x是否处于此类别,δk,y为一个冲击函数只有0和1两种取值;此时模型的损失函数共分为四个部分:分别对预测的中心坐标做损失,对预测边界框的宽高做损失,对预测的类别做损失和对预测的置信度做损失;损失(Loss)函数如下所示:
Figure FDA0002880366710000021
式中,第一项为预测物体中心坐标损失,S2代表所划分的网格单元个数,B表示网格单元所预测的边界框个数,
Figure FDA0002880366710000022
代表预测的x坐标,
Figure FDA0002880366710000023
代表预测的y坐标,
Figure FDA0002880366710000024
代表真实的x坐标,
Figure FDA0002880366710000025
代表真实的y坐标;第二项为对预测边界框的宽高做损失,
Figure FDA0002880366710000026
为预测的宽,
Figure FDA0002880366710000027
为预测的高,
Figure FDA0002880366710000028
为实际的宽,
Figure FDA0002880366710000029
为实际的高,通过预测边界框宽度和高度的平方根来代替直接预测宽度和高度,从而取得更好的效果,这部分主要优化置信度和w,h的回归值;第三项和第四项对预测的置信度进行损失计算,
Figure FDA0002880366710000031
则表示如果在i,j处的网格单元有目标,其值为1,否则为0,
Figure FDA0002880366710000032
则表示在i,j处的网格单元没有目标,其值为1,否则为0;λnoobj用于增强边框坐标损失,减少用于不包含目标物体边界框置信度损失的权重参数;
Figure FDA0002880366710000033
为预测置信度,
Figure FDA0002880366710000034
为实际置信度,
Figure FDA0002880366710000035
主要用于优化置信度,同时缩减了检测的目标量级;最后一项对预测的类别做损失,
Figure FDA0002880366710000036
为平滑处理后预测的所属类别概率,
Figure FDA0002880366710000037
为平滑处理后真实所属类别概率,值得注意的是当单元格内没有目标时是不会对分类误差做出惩罚的,这部分主要优化置信度损失和类别损失。
CN202011632422.2A 2020-12-31 2020-12-31 一种基于evp_yolo的室内物品检测方法 Pending CN112784694A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011632422.2A CN112784694A (zh) 2020-12-31 2020-12-31 一种基于evp_yolo的室内物品检测方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011632422.2A CN112784694A (zh) 2020-12-31 2020-12-31 一种基于evp_yolo的室内物品检测方法

Publications (1)

Publication Number Publication Date
CN112784694A true CN112784694A (zh) 2021-05-11

Family

ID=75754806

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011632422.2A Pending CN112784694A (zh) 2020-12-31 2020-12-31 一种基于evp_yolo的室内物品检测方法

Country Status (1)

Country Link
CN (1) CN112784694A (zh)

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110472467A (zh) * 2019-04-08 2019-11-19 江西理工大学 基于YOLO v3的针对交通枢纽关键物体的检测方法
CN111310861A (zh) * 2020-03-27 2020-06-19 西安电子科技大学 一种基于深度神经网络的车牌识别和定位方法
WO2020164282A1 (zh) * 2019-02-14 2020-08-20 平安科技(深圳)有限公司 基于yolo的图像目标识别方法、装置、电子设备和存储介质
CN111612002A (zh) * 2020-06-04 2020-09-01 广州市锲致智能技术有限公司 一种基于神经网络的多目标物体运动追踪方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2020164282A1 (zh) * 2019-02-14 2020-08-20 平安科技(深圳)有限公司 基于yolo的图像目标识别方法、装置、电子设备和存储介质
CN110472467A (zh) * 2019-04-08 2019-11-19 江西理工大学 基于YOLO v3的针对交通枢纽关键物体的检测方法
CN111310861A (zh) * 2020-03-27 2020-06-19 西安电子科技大学 一种基于深度神经网络的车牌识别和定位方法
CN111612002A (zh) * 2020-06-04 2020-09-01 广州市锲致智能技术有限公司 一种基于神经网络的多目标物体运动追踪方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
CHRISTIAN等: ""Rethinking the Inception Architecture for Computer Vision"", 《ARXIV》, 11 December 2015 (2015-12-11), pages 1 - 10 *
智能算法: ""一种目标检测算法YOLOv4详解"", pages 1 - 15, Retrieved from the Internet <URL:《https://cloud.tencent.com/developer/article/1748630》> *

Similar Documents

Publication Publication Date Title
CN112101430B (zh) 用于图像目标检测处理的锚框生成方法及轻量级目标检测方法
CN111814704B (zh) 基于级联注意力与点监督机制的全卷积考场目标检测方法
CN105303195B (zh) 一种词袋图像分类方法
WO2017113232A1 (zh) 一种基于深度学习的产品分类方法及装置
CN111489358A (zh) 一种基于深度学习的三维点云语义分割方法
CN114841257B (zh) 一种基于自监督对比约束下的小样本目标检测方法
CN115661943B (zh) 一种基于轻量级姿态评估网络的跌倒检测方法
CN109508675B (zh) 一种针对复杂场景的行人检测方法
CN110991311A (zh) 一种基于密集连接深度网络的目标检测方法
CN107392919B (zh) 基于自适应遗传算法的灰度阈值获取方法、图像分割方法
Wang et al. Fruit classification model based on improved Darknet53 convolutional neural network
CN110008853B (zh) 行人检测网络及模型训练方法、检测方法、介质、设备
CN109063719A (zh) 一种联合结构相似性和类信息的图像分类方法
CN113032613B (zh) 一种基于交互注意力卷积神经网络的三维模型检索方法
CN110751027B (zh) 一种基于深度多示例学习的行人重识别方法
CN110111365B (zh) 基于深度学习的训练方法和装置以及目标跟踪方法和装置
WO2024032010A1 (zh) 一种基于迁移学习策略的少样本目标实时检测方法
CN114841244A (zh) 一种基于鲁棒采样和混合注意力金字塔的目标检测方法
CN111984817A (zh) 一种基于自注意力机制加权的细粒度图像检索方法
CN110751195A (zh) 一种基于改进YOLOv3的细粒度图像分类方法
CN112149665A (zh) 一种基于深度学习的高性能多尺度目标检测方法
CN115393631A (zh) 基于贝叶斯层图卷积神经网络的高光谱图像分类方法
CN112215268A (zh) 一种灾害天气卫星云图分类方法和装置
CN106339665A (zh) 一种人脸的快速检测方法
CN114882423A (zh) 一种基于改进Yolov5m模型和DeepSort的货车入库货物识别方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination