CN111914937B - 一种轻量化改进目标检测方法及检测系统 - Google Patents
一种轻量化改进目标检测方法及检测系统 Download PDFInfo
- Publication number
- CN111914937B CN111914937B CN202010779560.7A CN202010779560A CN111914937B CN 111914937 B CN111914937 B CN 111914937B CN 202010779560 A CN202010779560 A CN 202010779560A CN 111914937 B CN111914937 B CN 111914937B
- Authority
- CN
- China
- Prior art keywords
- model
- fssd
- module
- improved
- detection
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000001514 detection method Methods 0.000 title claims abstract description 210
- 230000002457 bidirectional effect Effects 0.000 claims abstract description 36
- 230000004927 fusion Effects 0.000 claims abstract description 33
- 238000004422 calculation algorithm Methods 0.000 claims description 95
- 238000000034 method Methods 0.000 claims description 46
- 238000012545 processing Methods 0.000 claims description 24
- 230000008569 process Effects 0.000 claims description 10
- 238000007500 overflow downdraw method Methods 0.000 claims description 5
- 238000012986 modification Methods 0.000 claims description 4
- 230000004048 modification Effects 0.000 claims description 4
- 238000010191 image analysis Methods 0.000 claims description 3
- 238000004590 computer program Methods 0.000 claims description 2
- 230000006872 improvement Effects 0.000 abstract description 37
- 230000008901 benefit Effects 0.000 abstract description 19
- 238000004458 analytical method Methods 0.000 abstract description 9
- 230000007547 defect Effects 0.000 abstract description 7
- 238000013527 convolutional neural network Methods 0.000 description 37
- 238000010586 diagram Methods 0.000 description 16
- 238000011160 research Methods 0.000 description 15
- 238000004364 calculation method Methods 0.000 description 13
- 238000013461 design Methods 0.000 description 12
- 238000011161 development Methods 0.000 description 11
- 230000018109 developmental process Effects 0.000 description 11
- 238000002474 experimental method Methods 0.000 description 11
- 238000000605 extraction Methods 0.000 description 11
- 238000003860 storage Methods 0.000 description 11
- 238000013135 deep learning Methods 0.000 description 10
- 238000012360 testing method Methods 0.000 description 10
- 238000012549 training Methods 0.000 description 10
- 230000000694 effects Effects 0.000 description 8
- 230000000007 visual effect Effects 0.000 description 8
- 238000005516 engineering process Methods 0.000 description 7
- 238000011156 evaluation Methods 0.000 description 6
- 238000005457 optimization Methods 0.000 description 4
- 230000011218 segmentation Effects 0.000 description 4
- 230000006870 function Effects 0.000 description 3
- 238000012544 monitoring process Methods 0.000 description 3
- 238000011897 real-time detection Methods 0.000 description 3
- 238000010845 search algorithm Methods 0.000 description 3
- 241000282326 Felis catus Species 0.000 description 2
- 230000004913 activation Effects 0.000 description 2
- 230000002776 aggregation Effects 0.000 description 2
- 238000004220 aggregation Methods 0.000 description 2
- 238000003491 array Methods 0.000 description 2
- 238000013528 artificial neural network Methods 0.000 description 2
- 230000005540 biological transmission Effects 0.000 description 2
- 238000004891 communication Methods 0.000 description 2
- 238000013401 experimental design Methods 0.000 description 2
- 230000002349 favourable effect Effects 0.000 description 2
- 230000004807 localization Effects 0.000 description 2
- 230000007246 mechanism Effects 0.000 description 2
- 210000002569 neuron Anatomy 0.000 description 2
- 238000003909 pattern recognition Methods 0.000 description 2
- 238000012706 support-vector machine Methods 0.000 description 2
- 238000012795 verification Methods 0.000 description 2
- 241000282412 Homo Species 0.000 description 1
- 241001494479 Pecora Species 0.000 description 1
- 230000009471 action Effects 0.000 description 1
- 238000013473 artificial intelligence Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000001680 brushing effect Effects 0.000 description 1
- 210000003710 cerebral cortex Anatomy 0.000 description 1
- 238000012512 characterization method Methods 0.000 description 1
- 230000002860 competitive effect Effects 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 238000000354 decomposition reaction Methods 0.000 description 1
- 238000013136 deep learning model Methods 0.000 description 1
- 230000001419 dependent effect Effects 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 230000002452 interceptive effect Effects 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 238000003032 molecular docking Methods 0.000 description 1
- 230000006855 networking Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000008092 positive effect Effects 0.000 description 1
- 238000013139 quantization Methods 0.000 description 1
- 238000005096 rolling process Methods 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
- 238000013179 statistical model Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
- G06F18/2411—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on the proximity to a decision surface, e.g. support vector machines
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/25—Fusion techniques
- G06F18/253—Fusion techniques of extracted features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V2201/00—Indexing scheme relating to image or video recognition or understanding
- G06V2201/07—Target detection
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Evolutionary Computation (AREA)
- Bioinformatics & Computational Biology (AREA)
- Computational Linguistics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Health & Medical Sciences (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Evolutionary Biology (AREA)
- General Health & Medical Sciences (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Image Analysis (AREA)
Abstract
本发明属于计算机技术领域,公开了一种轻量化改进目标检测方法及检测系统,利用用改进后的ShuffleNet v2模型替换FSSD中原有的骨干网络;引入加权双向特征金字塔结构替换FSSD中原有的三层特征融合的结构,通过对多层特征进行自顶向下和自底向上的特征融合,使得融合后的特征包含更多的语义信息,进行目标的检测。本发明提出的模型在准确率上相较于基础模型有所提升,而在检测速度上有所下降,在模型的权重大小上也有着一定的增加。通过上述的分析和实验数据的表现可以看出准确率上的提升与本发明提出的改进相符合,同时本发明改进所带来的在检测速度和模型权重大小上的不足也在可预见的范围内。
Description
技术领域
本发明属于计算机技术领域,尤其涉及一种轻量化改进目标检测方法及检测系统。
背景技术
目前,计算机视觉是一个经典的研究领域,致力于利用计算机来完成人类的视觉方面的任务。其中目标检测是该领域中的一项基本的研究方向,该方向主要解决的问题是通过设计相应的算法,让计算机能够针对图片中感兴趣的物体进行定位和识别。随着图像采集设备的发展和设备的计算能力的提升,目标检测的应用和研究所针对的图像的样式更加多样化,图像的分辨率更加大,图像中的场景更加复杂,最重要的是图像的数据量相较于从前更加庞大。作为数据科学中的一员,目标检测需要足够多的数据针对设计好的模型进行训练,大量的图像数据为目标检测提供了相对充足的原始数据,但是原始数据缺乏标注,导致大量数据无法转化为训练数据供模型进行学习
2005年,针对目标检测的竞赛Pascal开始出现,起初评委会仅提供了4个类别的图像,到了2006年增加到了10个类别,次年开始类别增加到了20个;图片数据的数据量也随着时间的推移在增加,到了2012年训练用的图片达到了11530张并且还延伸出了人体轮廓布局的任务和实例分割的任务。2009年,ImageNet的问世为计算机数据提供了大量的含有标注的图像数据,促进了计算机视觉中多数领域的研究的进展。同时,ImageNet大规模视觉识别挑战赛(ILSVRC),给各种识别算法提供了竞技的平台和直观的评价指标,这点帮助了研究人员对于自己的方法的性能进行评测,为后续方法的改进和优化提供了指导意义,也促进了学术上的交流。在竞赛的早期,目标检测算法的设计与识别算法的设计类似,都是基于手工提取的图像的特征对图片进行识别和定位,例如Viola-Jones,HOG和DPM。直到2013年AlexNet模型的出现,该模型以其压倒性的优势证明了深度卷积神经网络在计算机视觉的研究上的潜力,奠定了计算机视觉和深度神经网络的结合的基础,也为后来的研究指出了发展的方向,自此目标检测算法从原先基于手工提取图像特征进行检测的方法转变成了基于深度卷积神经网路提取特征进行检测的方法,研究的中心则是围绕着深度卷积神经网路的设计和优化。
2014年前后,基于深度学习的目标检测算法产生了两个分支,一个是以Grishick提出的将区域提议和卷积神经网络结合的方法为基础进行优化和改进的二阶段目标检测方法;另一个是从OverFeat模型直接利用深度卷积神经网络得到的特征进行回归来预测目标的位置和类别的方法得到启发,产生了以YOLO和SSD为基础继续发展的单阶段目标检测方法。这两个分支共同发展且相互借鉴,使得目标检测算法整体在准确率和检测速度相较于以前的模型有了质的飞越。每年CVPR,ECCV,ICCV三大会议上都会有关于目标检测的新论文发表,针对算法的准确率、检测速度和模型的参数量进行优化。
随着基于深度学习的目标检测算法的发展,如今许多常见的应用的落地都与目标检测算法研究相关,例如:火车站的刷脸进站服务,视频监控的行人检测与识别,码头的无人驾驶汽车等等。这些应用的共同之处是:1、这些应用集合了多种基于深度学习的模型,每个模型负责其最擅长的方面,模型之间协同合作,最后的结果基于多模型联合的计算结果;2、目标检测算法是这些应用中的底层算法之一,负责应用的关键部分。眼下,5G技术的落地和发展,物联网技术将进入大众生活中,对于这之中产生的大量的图像数据的处理和分析,将是目标检测算法面临的新的挑战和发展机遇。
随着移动互联网技术的迅猛发展,移动智能设备逐渐流行起来,移动终端所产生的信息量随之爆炸性增长,其中就包括图像和视频数据。针对如此海量且结构复杂的数据进行处理,以往的方法是将数据上传到服务器,由服务器进行统一处理,处理完成后将结果分发给上传的用户。但是,这一方法一方面需要设备全程联网且对网络传输环境有一定的要求;另一方面在面对例如无人驾驶车辆的控制、无人机控制等需要智能终端实时反馈处理结果的情况时,网络传输的延时和服务器任务的等待延时都使得该方法无法满足这些任务对模型运算速度的需求。除此之外,移动智能设备多为嵌入式设备,这类设备在存储空间和计算能力上相对于带有GPU的服务器而言十分有限,这就意味着模型权重大小和计算的复杂度受到了限制。
在此情况下,针对基于深度学习的目标检测模型的改进主要有两种方法:针对现有的检测模型进行模型量化以达到加速和减少冗余的目的;针对具体场景设计轻量化的模型。轻量化模型的设计有:MobileNet,ShuffleNet等。由此可见,深度学习模型的设计和应用都需要结合具体的场景和需求进行调整,模型的准确率、速度和权重的大小三者无法都达到极致,而只能在满足需求的时候,达到三者的平衡。
为解决以上问题,现有技术采取利用轻量化模型改进网络模型的方法来达成模型三大要素的平衡。具体针对FSSD模型的轻量化改进进行研究。针对FSSD模型的轻量化现有的方法是利用MobileNet代替FSSD模型中的VGG-16网络作为模型的骨干网络,该方法在模型的速度和模型权重的大小上取得了一定的优势,但是模型的检测准确率相对降低。
目标检测作为计算机视觉的一项基础研究,在深度学习兴起之前,主要的思路是将手工提取的特征结合机器学习的算法来实现对图像中的目标进行识别和定位。其中比较著名的方法有:Viola-Jones检测算法,HOG检测算法和基于可变部件的检测模型。Viola-Jones检测算法的理论基础是滑动窗口算法,算法中引入了Haar-like特征和adaboost模型来进行人脸的定位和识别,同时作者提出了Haar-like特征的快速计算方法,使得Viola-Jones模型实现了实时人脸检测的要求。HOG检测算法中,作者引入了一种方向梯度直方图的特征来实现行人检测,同时算法的检测部分参照了传统图像算法中的多尺度图像金字塔与滑动窗口相结合的方向来定位和识别行人。基于可变部件的检测模型(Deformable Partbased Model,DPM)则是对HOG特征进行了改进,利用改进后的HOG特征结合SVM分类器和滑动窗口的方法对目标进行识别和定位,同时该模型中引入了多组件策略和图结构的部件策略来解决目标的多视角问题和目标的形变问题。这些算法在当时的情况下取得了优秀的效果,而且这些算法所需要的计算量相对较少,模型的参数量较少,可以在边缘设备上使用。
但是这些算法也存在如下缺点:需要手工提取图片特征,对操作特征提取的人有着一定的专业知识要求,不方便使用;这些算法的泛用性由于特征提取的方法而受到了限制;这些算法的性能距离实际应用还存在差距。
深度学习这一概念最早是Hinton等人于2006年在期刊《Science》上发表的文章中提出的,文中提到的深度学习是通过构建人工神经元来模拟人的大脑皮层神经元的机制,以此来获得更加抽象而富有语义信息的特征,用于目标识别。卷积神经网络的雏形,来自于YanLeCun于1998年发表的文章,而卷积的操作和相关的结构最早则是在1980年的一篇关于猫的视觉系统的论文中提出的,这两篇文章为卷积神经网络的发展奠定了基础。2012年的AlexNet则是将卷积神经网络与深度学习相结合的集大成之作,该模型不仅向世人展示了深度学习在视觉领域优秀的性能,也带动了后来的大批计算机视觉的研究与深度卷积神经网络相结合,目标检测则是其中具有代表性的一个领域。
2013年至2014年发表的两篇文章OverFeat和R-CNN是基于深度卷积神经网络的目标检测算法的奠基之作,这两个模型的提出证明了深度卷积神经网络在目标检测领域的可行性和发展潜力。之后,针对目标检测任务的研究产生了两个分支,一个分支以准确率为主,探索模型在检测的精度上的极限并寻求突破;一个分支则是在确保准确率满足实际需求的情况下,对模型的检测速度进行探索并尝试获得提升,以此来满足实时检测的需求。在这两个理念的主导下,诞生了一批优秀的目标检测算法,他们分别是:以Faster RCNN为首的两阶段目标检测模型,这类模型的特点是模型中包含一个产生目标候选区域的网络模型,模型在检测任务中具有较高的准确率;以SSD[12]、YOLO[11]为首的单阶段目标检测模型,这类模型的算法思想是直接根据深度卷积神经网络提取的特征来分别计算目标的位置与类别,这种简洁的模型设计思想使得单阶段目标检测模型在速度上取得了很大的优势,在一定的条件下可以满足实时检测的需求。沿着这两个分支,基于深度卷积神经网络的目标检测模型近年来发展出了许多优质的模型,两阶段的有:Mask-RCNN’,IoU-Net,Libra-RCNN等,单阶段的有:RFBNet,CornetNet,CenterNet等。
至今,目标检测依旧是CVPR,ECCV和ICCV上投稿的热门领域。
现有技术中,基于深度学习的目标检测算法
自AlexNet在图像识别竞赛中以压倒性优势获得冠军后,基于图像识别的深度卷积神经网络的研究层出不穷,模型的性能也随着不断地探索而提升。许多计算机视觉的研究开始尝试将用于图像识别的网络结构向本领域进行迁移,通常是将图像识别中的优秀的网络模型的作为本领域的骨干网络用来获取图像中的语义信息。后来,随着本领域模型的不断改进和优化,各领域自身逐渐形成了一套独有的模型结构。目标检测领域在基于深度卷积神经网络的模型方面产生了两个分支,一个是以Faster RCNN为基础的两阶段目标检测网络(two-stage),这类网网络模型中包含一个计算候选区域的步骤;另一个是以YOLO,SSD为基础的单阶段目标检测网络(one-stage),这类网络通常直接利用网络产生的特征来进行分类和定位,不需要引入网络以外的模型或算法。接下来将系统介绍一下两阶段和单阶段中经典的算法。
二阶段模型
R-CNN(区域卷积神经网络Girshick,Ross B.,Jeff Donahue,Trevor Darrelland Jitendra Malik.“Rich Feature Hierarchies for Accurate Object Detectionand Semantic Segmentation.”2014IEEE Conference on Computer Vision and PatternRecognition(2013):580-587)是Ross Girshick等人于2014年提出的目标检测模型。该模型由三个主要部分组成:候选区域选取部分,图像特征提取部分,目标识别和定位部分。
网络的模型中的三个主要部分针对的是目标检测问题中三个不同的点。目标检测任务从定义上看就是针对一个输入图像对其中存在的感兴趣的目标都进行定位和识别,首要的任务就需要确定图像中哪些区域包含感兴趣的物体,哪些区域包含的仅仅是背景。模型中候选区域选取的部分针对的就是这个问题,在R-CNN中该部分利用的是选择搜索算法(selective search),通过选择搜索算法的计算,在图像上产生2000个候选区域框来尽量覆盖图像上感兴趣的目标。针对选取出来的候选区域,要对区域中的目标进行识别,这就需要相应的特征作为计算的依据。因此图像特征提取部分会针对选取出的区域进行特征提取,在R-CNN中该部分采用的是AlexNet[8]的网路模型来进行特征提取的计算。最后,根据提取出来的特征,识别区域中目标的类别。在R-CNN中对于候选区域中的目标进行识别所采用的是支持向量机分类器。R-CNN模型在Pascal VOC 2007的数据集上mAP达到了58.5%,超过了当时绝大多数传统的目标检测算法[9]。同时为以后基于深度卷积网络的目标检测模型的构建提供了方向。
R-CNN模型奠定了深度卷积网络应用于目标检测任务的基础,但还是仍然存在一定的不足。其一,R-CNN的模型并不是一体的,其中包含卷积神经网络和支持向量机,针对这两个模型需要进行多阶段训练,过程较为繁琐和耗时;其二,R-CNN对提取出候选区域会进行反复的特征提取,这导致检测速度变慢。之后,随着Faster-RCNN模型的提出,二阶段模型逐渐趋向成熟。
Faster RCNN最大的改进是在Fast RCNN的基础上将网络模型设计成了端到端的结构,从现在的视角来看,Fast RCNN已近很接近现在常用的端到端的卷积神经网络模型的结构了,但是由于Fast RCNN中生成候选区域的方法使用的是选择搜索算法,无法与网络结构一同训练。因此Faster RCNN[16]提出了区域候选网络(Region Proposal Network,以下简称RPN),通过这个网络模型来生成候选区域。RPN的使用使得原本与网络结构分离开的候选区域生成方法和网络结构合为一体,同时在RPN中设计了锚(Anchor)这个机制,实现了端到端的训练和测试,进一步提升了模型的训练和测试的速度。Faster RCNN实现了在VOC2007数据集上的mAP达到了78.8%;实现了每秒检测17张图片的速度,图片大小为640×480。
单阶段模型
2013年由Yan LeCun团队提出的OverFeat[10]可以看作是单阶段网络的思想起源。OverFeat网络的特点是使用一个单一的网络来实现图像分类,定位,检测三个任务。OverFeat模型的几个特点,其一,OverFeat模型通过来自同一个网络的特征实现了图像的分类、定位和检测三个任务,并且在三个任务上都取得了很优秀的结果,证明了卷积神经网络特征共享的特点;其二,OverFeat模型通过卷积和偏移的方法来高效地实现一个多尺度的滑动窗口的特征提取方法;其三,OverFeat模型中利用深度学习的方法,让网络模型学习预测物体的边界框的定位方式。论文中[10]提到OverFeat模型有两个版本,一个是速度快的版本,一个是预测精准的版本。两个版本的网络结构如表1和表2所示。
表1 OverFeat快速版结构表
表2 OverFeat精准版结构表
2015年,由Joseph和Girshick等人提出了YOLO(Redmon,Joseph,Santosh KumarDivvala,Ross B.Girshick and Ali Farhadi.“You Only Look Once:Unified,Real-TimeObject Detection.”2016IEEE Conference on Computer Vision and PatternRecognition(CVPR)(2015):779-788.)网络模型,该网络模型属于第一个典型的单阶段网络,网络结构为一个单一的卷积网络,定位和分类的分支共享同一个网络模型提取到的特征图。
YOLO模型的核心优势在于其检测速度快,通常版本的YOLO检测速度可以达到每秒45张图片,急速版本的YOLO甚至可以达到每秒155张图,可见YOLO的设计初衷是为了满足实时检测的需求。YOLO模型虽然在速度上与当时最好的模型相比具有很大的优势,但是在准确率上相对弱势。
在2015年,由刘伟等人提出的SSD模型也是单阶段目标检测中的一个经典模型。SSD模型在性能上不仅做到了高准确率,在VOC2007数据集上mAP达到了72%,速度上也做到了实时,每秒检测58张图片。
SSD模型的创新点体现在:网络结构设计上参考了OverFeat和YOLO,删去了候选区域生成的模型,直接采用卷积神经网络提取的特征来进行预测,以此加快网络的检测速度;网络设计上引入了多尺度特征图检测的方式,从网络层中提取不同大小的特征图,在各个特征图上分别都进行预测;引入了类似锚(Anchor)的预设置框,将网络对物体位置预测转换成网络预测真实物体与预设置框之间的偏差值。
轻量化网络
随着基于深度卷积神经网络的计算机视觉研究的迅猛发展,带动了许多现实中的计算机视觉场景的应用落地,例如:人脸识别、身份证文字识别等等。互联网技术的发展,移动设备逐渐代替个人电脑,成为了人们日常生活的重要设备。在这样的环境下,人工智能的应用和服务开始转向移动端。受限于移动端的存储空间和计算能力,针对移动端的轻量化深度卷积神经网络诞生了。
Mobilenet
MobileNet(移动网络)是Google公司于2017年提出的轻量化网络结构,目的是针对移动设备和嵌入式设备,充分利用有限的计算资源和存储资源实现模型最优的性能来满足各种视觉应用的需求。表3为MobileNet的网络结构表。
表3 MobileNet网络结构表
MobileNet的核心在于使用了深度可分离卷积(Depthwise separable Convolution)。深度可分离卷积的核心则是对标准卷积操作的分解,得到了深度卷积操作(DepthwiseConvolution)和逐点卷积操作(Pointwise Convolution)。通过这个方法,减少了卷积操作的计算消耗和参数量,从而对减少了网络整体所需的计算消耗和参数量,让深度卷积神经网络能够适应有限的计算资源和存储资。
MobileNet v2在MobileNet的基础上,对深度可分离卷积模块进行了一定的改进,提出了线性瓶颈的反向残差模块,使得MobileNet v2相较于MobileNet在准确率和效率上都有所提升。MobileNet v2的网络结构如表4所示。
表4 MobileNet V2网络模型结构表
改进的点在于:1、将深度可分离卷积模块输出部分的ReLU6激活函数替换成线性的激活函数,减少ReLU针对低维度张量计算所导致的信息丢失。
2、在深度可分离卷积模块之前加入一个1×1的逐点卷积操作来提升输入张量的通道数,即对输入的张量进行维度升高;3、利用跳跃连接,将模块的输入传到模块的输出部分与模块的输出进行结合(针对步长为2的模块不需要这一步)。
Shufflenet
ShuffleNet(Zhang X,Zhou X,Lin M,et al.ShuffleNet:An ExtremelyEfficient Convolutional Neural Network for Mobile Devices[J].2017)是由旷世提出的高效计算的轻量化网络模型,主要应用于计算能力有限的移动设备上。表5为ShuffleNet网络结构的表格。
表5 ShuffleNet网络结构表
ShuffleNet的网络结构中有两个核心的创新之处,其一是逐点分组卷积,另一个是通道随机洗牌。分组卷积的操作主要是将特征图沿着通道维度进行等分分组,每一组的特征图由相应的卷积核进行特征提取的计算,这样可以实现多个卷积的并行计算,提升卷积计算的效率。通道随机洗牌的操作主要是将各个分组计算得到的特征图进行随机的混合,再分配到下一个分组卷积的网络层中。在ShuffleNet的网络结构中,分组卷积和通道随机洗牌这两个操作被结合在一起成为了构成ShuffleNet的基本网络模块。
ShuffleNet v2是2018年提出的,该模型是在ShuffleNet的基础上进行改进的,同时论文中系统提出了针对高效卷积神经网络结构设计的指导方向:第一:卷积层的输入和输出的特征图的通道数对存储获取消耗(Memory Access Cost,简称:MAC)存在影响,只有当卷积层的输入和输出的特征图通道数相同时存储获取消耗最小,此时模型的运行速度很快;第二,卷积层的分组操作对存储获取消耗有着较大的影响,过多的分组操作会增大存储获取消耗,使得模型运行速度变慢,因此要对分组操作进行控制;第三,模型结构中的分支数量对模型的运行速度有影响,模型中分支数量越少,模型速度越快;第四,网络中逐个元素的运算对模型的速度有影响,而且逐个元素的计算操作会造成很大的时间消耗,因此要尽可能地减少逐个元素的运算操作。根据提出的四点要求,在ShuffleNet的基础上改进产生了ShuffleNet v2,其中的改进主要是针对Shuffleblock进行的。ShuffleNet v2的block结构,ShuffleNet v2模型结构如表6。
表6 ShuffleNet v2网络结构表
特征金字塔
特征金字塔结构是针对检测不同大小目标的识别系统中的一个基础部件,该方法在当下的基于深度卷积神经网络所构建的识别系统中得到了普遍的使用,以应对图像中多尺度目标的检测与识别。特征金字塔结构最早在文献中被提出并且提出了配套的特征金字塔网络进行实验,来验证模型的性能。特征金字塔结构主要是一个自顶向下的特征融合模型,该模型与深度卷积神经网络进行结合,产生用于检测和识别多尺度目标的特征。通过将富含高级语义信息的深层特征与包含丰富细节信息的浅层特征进行融合,特征金字塔结构使得模型针对小目标的定位和识别上取得了很大的提升。
在文献(Liu S,Qi L,Qin H,et al.Path Aggregation Network for InstanceSegmentation[J].2018)征金字塔结构提出了改进方案。该方案将特征金字塔结构提取得到的层级特征,通过一个自底向上的聚合路径将浅层特征与深层特征进行聚合,对层级特征中的来自浅层特征的定位信息进行强化,提升模型的定位准确性。
通过上述分析,现有技术存在的问题及缺陷为:
(1)现有目标检测算法在应用时常常要求服务器实时处理海量的数据,使得过于依赖网络带宽。
基于此缺点,很多要求实时反馈结果的目标检测应用如无人驾驶等技术很难实现。
(2)目标检测应用的的移动智能设备多为嵌入式设备,这类设备在存储空间和计算能力上相对于带有GPU的服务器而言十分有限,这就意味着目标检测模型权重大小和计算的复杂度受到了限制。这就使得无人驾驶技术以及实时要求应用的行人身形监测等很难实现实时对接反馈。
(3)在此前改进目标检测算法模型时,模型的准确率、速度和权重的大小三者无法都达到的合理的平衡。也就无法达到最优解,使得各种需要达成实时交互的技术很难满足发明者的需要。
(4)现有技术中,利用MobileNet(移动网络)代替FSSD模型中的VGG-16网络作为模型的骨干网络,该方法在模型的速度和模型权重的大小上取得了一定的优势,但是模型的检测准确率相对降低。
解决以上问题及缺陷的难度为:
(1)上述问题在实际研究中大多数通过改进增大网络规模来解决问题,但会存在参数量过大,占用大量存储空间的不足等问题。这就反而与此类技术的核心目标实时交互反馈相矛盾。
(2)但与此同时,通过不占用储存空间的方式解决问题,就又会被迫减少算法部分的网络占比,使得准确率下降,这就使得我们必须通过新的手段解决问题。
解决以上问题及缺陷的意义为:
可以使得目标监测技术在不占用巨量空间的情况下达到目标要求,可以使得其在自动驾驶、行人重识别、人脸识别等领域得到了普遍的应用。
本发明针对轻量化后的模型的准确率的提升提出了改进措施,利用改进后的ShuffleNet v2替换现有的MobileNet(移动网络)。同时,对比FSSD模型的特征融合结构进行改进,引入加权双向特征金字塔结构进一步提升模型的检测准确率。
最终可总结为本发明针对FSSD-MobileNet模型的骨干网络和特征融合结构进行改进,提出了一种提升模型检测准确率的基于FSSD模型的轻量化检测算法。
发明内容
针对现有技术存在的问题,本发明提供了一种轻量化改进目标检测方法及检测系统。
本发明是这样实现的,一种轻量化改进目标检测方法,包括:
利用用改进后的ShuffleNet v2模型替换FSSD中原有的骨干网络;
引入加权双向特征金字塔结构替换FSSD中原有的三层特征融合的结构,通过对多层特征进行自顶向下和自底向上的特征融合,使得融合后的特征包含更多的语义信息,进行目标的检测。
进一步,利用用改进后的ShuffleNet v2模型替换FSSD中原有的骨干网络的方法包括:
利用MobileNet替换FSSD中的骨干网络VGG-16,同时利用深度可分离卷积改进FSSD模型中产生用于检测的特征图的网络层。
改进FSSD模型中产生用于检测的特征图的网络层的方法包括:将ShuffleBlock的分配用原先的[4,8,4]改成[2,4,8,2],同时将输出的通道数由原先的[176,352,704]改成[128,256,512,1024]。
对多层特征进行自顶向下和自底向上的特征融合方法包括:
双向特征金字塔结构的输入来自于骨干网络中stage2,stage3和last conv的输出特征,通过一个类似自底向上的结构扩展成6层输入特征图;而输入特征图在双向特征金字塔结构中分别经历了自顶向下和自底向上两组处理,自顶向下的处理按照公式1进行;
自底向上的处理按照公式(2)进行;
经过双向特征金字塔结构处理后,6个输入特征经过充分的融合;而输出的6层特征将用于模型最后的多尺度检测;在双向特征金字塔的处理过程中,浅层额用于定位细节信息和深层的用于定位的语义信息充分融合。
进一步,所述轻量化改进目标检测方法进一步包括:
1)摄像模块进行图像捕捉,并传输给算法模块;
2)算法模块利用改进后的网络算法进行目标检测,得出具体结果后传输到后端中的显示模块获取信息;
所述改进后的网络算法包括:利用用改进后的ShuffleNet v2模型替换FSSD中原有的骨干网络;
引入加权双向特征金字塔结构替换FSSD中原有的三层特征融合的结构,通过对多层特征进行自顶向下和自底向上的特征融合,使得融合后的特征包含更多的语义信息;
3)从现实模块中获取信息后,根据对结果的满意程度选择是否从输入模块输入调整运行参数与模式的指令;如果选择输入的话则会由输入模块将调整的信息传输给前端中的运行参数模块;
4)运行参数模块接收到指令后,会发出命令给算法模块令算法模块进行调整;算法模块随后按照指令进行更改后继续完成检测任务。
本发明的另一目的在于提供一种轻量化改进目标检测系统,所述轻量化改进目标检测系统包括:
前端,包括摄像模块,算法模块、运行参数模块、负责捕捉图像并完成目标检测的摄像头;用于完成捕捉图像与目标检测;
后端,包括显示模块与输入模块,用于人工获取信息与调整系统的后台。
进一步,所述摄像模块用于摄像头对图像的拍摄录入,负责捕捉所需要的特征目标,并传输至识别目标的算法模块;
算法模块,内嵌有利用FSSD模型为基础的轻量化的改进模型,以及内嵌有利用改进后的ShuffleNet与双向特征金字塔改进后的FSSD模型目标检测算法;从摄像模块传输来的图像分析得出检测结果,并传输到后端的显示模块;还用于接受从运行参数模块传输过来的参数与指令调整;
运行参数模块,负责存储维护整个前端的参数信息与指令信息;从后端接受调整参数和模式的指令,并传输调整命令给算法模块;
所述显示模块负责显示从前端传输过来的目标检测结果;
所述输入模块供人工输入调整运行参数与模式的指令,并且传输到前端中的运行参数模块。
本发明的另一目的在于提供一种运行所述轻量化改进目标检测方法的摄像头、监控仪、摄像机。
本发明的另一目的在于提供一种搭载所述摄像头、监控仪、摄像机的人脸识别终端或用于图像检测的无人驾驶汽车检测终端。
本发明的另一目的在于提供一种计算机设备,所述计算机设备包括存储器和处理器,所述存储器存储有计算机程序,所述计算机程序被所述处理器执行时,使得所述处理器执行如下步骤:
利用用改进后的ShuffleNet v2模型替换FSSD中原有的骨干网络;
引入加权双向特征金字塔结构替换FSSD中原有的三层特征融合的结构,通过对多层特征进行自顶向下和自底向上的特征融合,使得融合后的特征包含更多的语义信息,进行目标的检测。
结合上述的所有技术方案,本发明所具备的优点及积极效果为:
本发明利用Shuffle net代替mobile net改进FSSD模型的尝试;利用改进后的网络算法进行目标检测的尝试;改进后算法在目标检测领域的优秀表现;本发明提出一种包含核心算法的实际目标检测系统。通过上述创新,带来的效果如下:
(1)轻量化后模型算法使得目标检测不再过度依赖于网络带宽。
(2)轻量化后的模型算法可以完美的适用于自动驾驶等需要实时反馈的技术领域。
(3)由于目标检测应用的的移动智能设备硬件的限制,轻量化后的多尺度目标算法可以不再因为硬件设备使得检测结果不够理想。
(4)使用Shufflenetnet代替原方法的mobilenet使得模型算法在速度和模型权重的大小上取得了一定的优势的同时在在准确率方面得到了同样的提升。
(5)所提出的目标检测系统设计使得本发明可以摆脱理论束缚,将目标检测算法广泛应用于各种类型的情况与检测环境。
对比的技术效果或者实验效果包括:
本发明提出的模型在准确率上相较于基础模型有所提升,而在检测速度上有所下降,在模型的权重大小上也有着一定的增加。通过上述的分析和实验数据的表现可以看出准确率上的提升与本发明提出的改进相符合,同时本发明改进所带来的在检测速度和模型权重大小上的不足也在可预见的范围内,因此本发明提出的模型基本符合预期。
附图说明
为了更清楚地说明本申请实施例的技术方案,下面将对本申请实施例中所需要使用的附图做简单的介绍,显而易见地,下面所描述的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下还可以根据这些附图获得其他的附图。
图1是本发明实施例提供的以FSSD模型为基础的轻量化的改进模型整体结构图。
图2是本发明实施例提供的SSD模型结构示意图。
图3是本发明实施例提供的FSSD模型结构图。
图4是本发明实施例提供的FSSD-MobileNet模型结构图。
图5是本发明实施例提供的ShuffleBlock结构原理示意图。
图6是本发明实施例提供的基于双向特征金字塔结构的改进特征融合方法流程图。
图7是本发明实施例提供的检测结果展示图。
图8是本发明实施例提供的轻量化改进目标检测系统示意图。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
针对现有技术存在的问题,本发明提供了一种轻量化改进目标检测方法及检测系统,下面结合附图对本发明作详细的描述。
本发明提出一种轻量化改进目标检测方法,包括:
利用用改进后的ShuffleNet v2模型替换FSSD中原有的骨干网络;
引入加权双向特征金字塔结构替换FSSD中原有的三层特征融合的结构,通过对多层特征进行自顶向下和自底向上的特征融合,使得融合后的特征包含更多的语义信息,进行目标的检测。
下面结合具体实施例对本发明作进一步描述。
1、算法思想
SSD模型是单阶段目标检测算法中的经典模型之一。该模型的优势在于平衡了检测速度和检测的准确率,在当时检测算法中做到了速度仅次于YOLO的同时,准确率接近Faster RCNN。在后来,许多模型都以SSD结构为基础,针对特定的场景或者模型中的关键结构进行改进,形成了SSD系列模型。FSSD模型则是以SSD模型为基础,针对SSD模型中原有的特征融合结构进行改进,将原有的6层特征融合结构改为了3层,实现了模型在准确率和检测速度上的提升。后来,针对FSSD模型进行轻量化改进的尝试,其中相对成功的是利用MobileNet替换FSSD模型中的骨干网络vgg-16。经过轻量化改进以后,FSSD模型在检测速度和模型权重大小上得到了优化,但是在检测准确率上有所下降。因此,本发明针对轻量化后的FSSD模型的检测准确率进行提升。
1、1模型整体结构
本发明提出了一个以FSSD模型为基础的轻量化的改进模型,该模型利用改进后的ShuffleNet替换了FSSD模型中的骨干网络,并且该模型利用双向特征金字塔对FSSD模型中的特征融合部分进行改进。这一系列的改进方法旨在提升轻量化FSSD模型的检测准确率。本发明提出的模型整体结构如图1所示。
1.2基于FSSD的轻量化模型
FSSD模型是单阶段检测模型SSD系列模型之一。SSD系列模型指的是一系列以文献(Liu W,Anguelov D,Erhan D,et al.SSD:Single Shot MultiBox Detector[J].2015)提出的SSD模型为基础,经过改进和优化得到的基于深度卷积神经网网络的目标检测模型。FSSD模型在原版SSD模型的基础上,提出了一个特征融合结构,提升了模型的检测准确率。在SSD模型中参与检测的特征图分别来自vgg-16网络中的Conv4_3,FC7,Conv6_2,Conv7_2,Conv8_2和Conv9_2卷积层,SSD模型对这些来自不同卷积层的特征图分别进行预测,来自不同层的特征之间相互独立,没有交流;在FSSD模型中则是将vgg-16网络中Conv4_3,FC7,Conv7_2卷积层输出的特征图缩放成统一的大小,接着将三个特征图沿着通道维度进行拼接并进行批标准化处理,然后将经过批标准化处理的特征分别通过6个卷积层产生与SSD模型中大小和通道数相同的新特征图,最后对新特征图按照SSD模型中的方法进行预测。图2和图3分别是SSD和FSSD模型示意图。
针对FSSD模型的轻量化的改进,则主要是利用MobileNet替换FSSD中的骨干网络VGG-16,同时利用深度可分离卷积来改进FSSD模型中产生用于检测的特征图的网络层。改进后得到的模型称为FSSD-MobileNet,模型结构如图4所示。
本发明提出的模型在轻量化方式上参考了FSSD-MobileNet模型,利用改进后的ShuffleNet对FSSD模型中的VGG-16网络进行了替换。原版ShuffleNet模型(简称:ShuffleNetv2-1.5)出自文献(Ma N,Zhang X,Zheng H T,et al.ShuffleNet V2:Practical Guidelines for Efficient CNN Architecture Design[J].2018),模型结构如表6所示。改进后的ShuffleNet(简称:ShuffleNetv2-1.5C)结构如表7所示。
表6 ShuffleNetv2-1.5结构表
表7改进的ShuffleNet结构表
其中ShuffleBlock的结构如图5所示。
其中的DWConv表示的是深度可分离卷积操作,Channel Split表示的是将输入特征图以通道维度进行分解,得到两个大小相同但通道数不同的新特征图。其中经过1×1卷积操作的特征图会经过BatchNorm和ReLU的处理,而经过3×3深度可分离卷积操作的特征图仅经过BatchNorm处理。
对比表6和表7可知,本发明提出的改进的ShuffleNet模型是以ShuffleNetv2-1.5为基础,针对网络结构进行调整和改进。其中主要的改进点是将ShuffleBlock的分配用原先的[4,8,4]改成了[2,4,8,2],同时将输出的通道数由原先的[176,352,704]改成了[128,256,512,1024]。这些改动的主要原因一来是为了充分适应FSSD模型中特征融合结构;二来通过改变通道数使得模型骨干网络整体保证每次图像缩小一倍时,通道数增加一倍,有助于提升模型的特征提取能力
1.3双向特征金字塔改进特征融合
针对FSSD的轻量化改进中,为了提升轻量化后模型的检测准确率,除了对模型的骨干网络进行了改进,同时针对模型的特征融合操作也进行了改进。本发明提出的模型通过引入双向特征金字塔结构来改进FSSD模型中的特征融合操作。
文献(Tan M,Pang R,Le Q V.EfficientDet:Scalable and Efficient ObjectDetection[J].2019)中首次提出了双向特征金字塔结构,该结构的主要构成是自顶向下和自底向上两个不同方向的特征金字塔结构。通过将来自深层的富含语义的特征与来自浅层的包含细节信息的特征进行充分融合,最后产生多级分层特征图。这一结构刚好满足FSSD模型的特征融合和多尺度特征检测的需求。本发明中提出的基于双向金字塔结构的改进特征融合方法示意图如图6所示。
由图6可知,双向特征金字塔结构的输入来自于骨干网络中stage2,stage3和lastconv的输出特征,通过一个类似自底向上的结构扩展成了6层输入特征图。而输入特征图在双向特征金字塔结构中分别经历了自顶向下和自底向上两组处理,其中自顶向下的处理按照公式1进行。
自底向上的处理按照公式2进行。
经过了双向特征金字塔结构处理之后,6个输入特征经过了充分的融合。而输出的6层特征将用于模型最后的多尺度检测。在双向特征金字塔的处理过程中,浅层的有助于定位的细节信息和深层的有助于定位的语义信息充分融合,理论上有助于模型检测准确率的提升。
2下面结合实验设计与评估对本发明作进一步描述。
针对本发明提出的模型的效果,本发明在目标检测的数据集上与同类型的模型,即采用了轻量型骨干网络的FSSD模型进行训练和测试获得实验结果,并对实验的结果进行比对和分析。
针对本发明提出的模型的可行性和模型的效果,本发明选取了两个目标检测数据集,在这两个数据集是进行对比实验,参与对比实验的模型还有:利用MobileNet v1替换了FSSD中骨干网络vgg-16得到的模型(以下简FSSD-MobileNet),利用ShuffleNet v2系列的1.5倍类型的网络替换了FSSD中骨干网络vgg-16得到的模型(以下简称FSSD-ShuffleNetv2-1.5),利用改进后的ShuffleNet v2系列的1.5倍类型的网络替换了FSSD中骨干网络vgg-16得到的模型(以下简称FSSD-ShuffleNetv2-1.5C)。
2.1实验数据集
本发明使用的数据集主要是是PASCAL VOC 2007+2012,其中PASCAL VOC 2007+2012数据集来源于PASCAL VOC挑战赛。PASCAL全称为模式分析、统计模型和计算学习(Pattern Analysis Statistical Modelling and Computational Learning),VOC全称为可视化对象类(Visual Object Classes)。PASCAL VOC挑战赛是一项针对计算机视觉任务的算法竞赛,参赛的选手根据主办方提供的训练数据对模型进行训练,然后将训练好的模型提交给线上评测网站进行评估。该竞赛包含有目标分类,目标检测吗,目标分割,人体轮廓和动作分类这几个分支竞赛任务。该竞赛从2005年开始举办,一直延续到2012年,其中最有影响力的因素是竞赛中提供的标注好的数据集,这点对于广大研究人员是十分重要的。在目标检测领域中,PASCAL VOC数据集与微软的COCO数据集都是目标检测领域中的标准数据集,不仅可以用来验证模型的性能,也是对模型可行性的验证。
本发明采用的是PASCAL VOC竞赛中2007年和2012年的训练数据和验证数据来训练模型,针对模型性能的验证选择的是PASCAL VOC竞赛中2007年的测试数据集。之所以将两组数据集进行合并,主要原因是:这两个数据集中目标的类别是一致的;合并后的数据集中所包含的图片的数量比两者之一都要大,有助于验证模型的性能;PASCAL VOC 2012数据集对应的测试集没有公开,因此需要利用PASCAL VOC 2007中的测试集来进行模型的测试。PASCAL VOC 2007和2012数据集中图片所包含的目标的类别数量一致,均为20个类;类别的标签也是一致的,分别是:person、bird、cat、cow、dog、horse、sheep、aeroplane、bicycle、boat、bus、car、motobike、train、bottle、chair、dining table、potted plant、sofa、tv/monitor。训练集中来自PASCAL VOC 2007数据集中的图片有5011张,来自PASCAL VOC 2012数据集中的图片有11540张。测试集图片均来自PASCAL VOC 2007,共4952张图片。
表8 PASCAL VOC 2007和2012数据集结构表
2.2评价指标
针对轻量型目标检测模型的性能的评价主要是:模型针对检测任务的准确率,平均均值准确率(mean Average Precision,简称mAP);模型运行的速度,每秒帧数(FramePer Second,简称FPS);模型权重文件的大小。
2.3实验结果与分析
本发明采用了PASCAL VOC 2007+2012数据集进行对比实验,重点在于考察本发明提出的模型与参与实验的其他模型在检测的准确率方面的提升。除此之外,针对本发明提出的模型在检测速度与模型权重文件大小两个方面与参与实验的其他模型进行横向对比,以此来考察本发明提出的模型的实用性和泛用性。这些实验均在相同的硬件和相关软件条件下进行的,配置情况如表9所示。
表9实验环境配置表
PASCAL VOC 2007+2012数据集在目标检测研究领域中经常用于检验新提出的模型的可行性,同时也会用来对比新提出的模型与同类型的模型的优势与不足。本发明这里采用了该数据集,对本发明提出的模型进行了可行性的验证,同时在该数据集上对本发明提出的模型与FSSD-MobileNet、FSSD-ShuffleNetv2-1.5、FSSD-ShuffleNetv2-1.5C进行横向对比。实验设计方面,本发明采取相同的训练策略让四个模型在统一的训练数据上进行训练直到模型收敛,然后利用收敛后的模型权重在相同的测试数据上进行模型性能的测试,最后汇总实验结果。表10,11和12是模型在PASCAL VOC 2007+2012数据集上的实验结果。
表10 PASCAL VOC 2007+2012数据集上目标检测的检测速度
表11 PASCAL VOC 2007+2012数据集上训练得到的模型的权重文件大小
表12 PASCAL VOC 2007+2012数据集上目标检测的准确率
以上数据来自四个模型在PASCAL VOC 2007+2012数据集上实验得到的,上述三个表格分别从模型的准确率、模型的检测速度和模型权重大小三个指标上表现了模型的性能。通过对比模型的准确率,可以看出本发明提出的模型在四个模型中准确率最高,可以看出本发明提出的模型在检测的准确率上有着一定的优势。对比FSSD-MobileNet和FSSD-ShuffleNetv2-1.5的准确率可以看出,FSSD-MobileNet在准确率上有着一定的优势,同时也从侧面表现出了MobileNet作为骨干网络相比于ShuffleNetv2-1.5在准确率上有着一定的优势。对比FSSD-ShuffleNetv2-1.5,FSSD-ShuffleNetv2-1.5C和本发明提出的模型可见,改进后的骨干网络ShuffleNetv2-1.5C使得模型的检测准确率相较于FSSD-ShuffleNetv2-1.5提升了32%,相较于FSSD-MobileNet模型检测准确率提升了1.53%,这是因为通过改进骨干网络中卷积层的通道数,以此提升网络的特征提取能力;之后本发明提出的模型在FSSD-ShuffleNetv2-1.5C模型的基础上引入了加权双向特征金字塔(BiFPN)结构对特征融合部分进行改进,使得模型的准确率在原有基础上再次提升了1.44%,在FSSD-MobileNet模型的基础上准确率提升了2.97%,这是由于双向金字塔结构(BiFPN)的引入提升了模型特征融合的能力,对模型的定位和识别能力有所提升。由此可见本发明中针对ShuffleNetv2-1.5的改进和引入的双向金子塔结构,对于模型的准确率的提升有着一定的帮助。
对比完检测的准确率后,进一步对比模型的检测速度和模型权重大小,可见在检测速度和模型权重的大小方面,FSSD-MobileNet具有一定的优势能够做到检测速度在对比模型中最快,模型权重大小在对比模型中最小。对比FSSD-MobileNet与FSSD-ShuffleNetv2-1.5在检测速度与权重大小方面可以发现,两者在速度上差距为每秒31张图片,两者在权重大小上的差距为1.8兆字节,这说明在检测速度方面FSSD-MobileNet比FSSD-ShuffleNetv2-1.5更具有优势,而在模型权重大小上FSSD-ShuffleNetv2-1.5相比于FSSD-MobileNet相对领先。这也从侧面揭示出了作为骨干网络MobileNet在提升模型速度上有着一定的优势,而在减少模型权重大小方面以ShuffleNetv2作为骨干网络具有一定的优势。接着,针对四个模型中除了FSSD-MobileNet模型剩下三个模型在检测速度和模型权重大小方面进行对比可以发现,通过修改ShuffleNetv2-1.5中相应Shuffleblock的个数和Shuffleblock中的卷积层的通道数所得到的FSSD-ShuffleNetv2-1.5C在检测速度上与FSSD-ShuffleNetv2-1.5很接近,在模型权重大小上,FSSD-ShuffleNetv2-1.5C比FSSD-ShuffleNetv2-1.5大6.9兆字节,造成模型大小差异的原因主要是修改之后的骨干网络ShuffleNetv2-1.5C相较于骨干网络ShuffleNetv2-1.5网络整体的通道数量增加了许多,由原先的[24,176,352,704],变为了[32,128,256,512,1024],因此相应的卷积层参数随之增加了,也就使得模型的权重大小增加了许多;本发明提出的模型则是在FSSD-ShuffleNetv2-1.5C的基础上引入了双向金字塔结构来进行特征融合操作,对比实验结果可以看到这一改进使得模型在检测速度上从每秒51张图片下降到了每秒31张图片,模型权重大小从36兆字节扩大到了50.8兆字节,造成这些变化的原因主要在于双向金字塔结构(BiFPN)本身是一个拥有20层卷积操作的特征金字塔结构,引入该结构则必然会增加模型的参数量和计算量,从而使得模型的权重大小增大并且增加的计算量也会使得模型的检测速度下降。
综合以上的分析可以发现本发明提出的模型在准确率上相较于基础模型有所提升,而在检测速度上有所下降,在模型的权重大小上也有着一定的增加。通过上述的分析和实验数据的表现可以看出准确率上的提升与本发明提出的改进相符合,同时本发明改进所带来的在检测速度和模型权重大小上的不足也在可预见的范围内,因此本发明提出的模型基本符合预期。
图7(a)-图(h)展示的是本发明提出的算法在实验数据集上的检测效果示意图。
3下面结合目标检测系统对本发明作进一步描述。
本发明在实验部分使用PASCAL VOC 2007+2012数据集与比对算法进行了实验,证明了经过本发明所提出的轻量化处理后,算法的性能上有着明显的提高。
在证明了算法的有效性后,本发明提出一种基于本算法的目标检测系统,使得本算法可以快速有效便捷的广泛适用于现实生活中的目标检测应用。其具体结构如图8所示。
由于目标检测算法大多数都应用于摄像头,监控仪,摄像机等摄影仪器,本发明将整体检测系统分为前端与后端两大部分。
前端包括是摄像模块,算法模块与运行参数模块,是指负责捕捉图像并完成目标检测的摄像头等硬件部分。主要任务是完成捕捉图像与目标检测的具体是实施。
在前端中包含摄像模块,算法模块以及运行参数模块。
其中摄像模块主要是指摄像头等拍摄设备对图像的拍摄录入功能,本模块负责捕捉本发明所需要的特征目标,并将其传输至识别目标的算法模块。
算法模块则包含本发明本专利中的核心算法,利用FSSD模型为基础的轻量化的改进模型,该利用改进后的ShuffleNet与双向特征金字塔改进后的FSSD模型目标检测算法。本模块会从摄像模块传输来的图像分析得出检测结果,并传输到后端的显示模块。本模块还会接受从运行参数模块传输过来的参数与指令调整。
运行参数模块主要负责存储维护整个前端的参数信息与指令信息。本模块会从后端接受调整参数和模式的指令,并传输调整命令给算法模块。
后端则是指供人工获取信息与调整系统的后台。主要包含显示模块与输入模块。
显示模块主要负责显示从前端传输过来的目标检测结果。
输入模块主要供人工输入调整运行参数与模式的指令,并且会传输到前端中的运行参数模块发挥作用。
具体系统运行的概念流程如下:
1)摄像模块进行图像捕捉,并传输给算法模块。
2)算法模块利用核心算法进行目标检测,得出具体结果后传输到后端中的显示模块供工作人员获取信息。
3)工作人员从现实模块中获取信息后,根据对结果的满意程度选择是否从输入模块输入调整运行参数与模式的指令;如果选择输入的话则会由输入模块将调整的信息传输给前端中的运行参数模块。
4)运行参数模块接收到指令后,会发出命令给算法模块令算法模块进行调整。算法模块随后按照指令进行更改后继续完成检测任务。
本发明以FSSD模型为基础,针对模型的结构进行轻量化和改进。针对FSSD模型的轻量化的操作已经存在,主要是利用MobileNet替换FSSD中的骨干网络并利用深度可分离卷积对模型中其他合适的卷积层进行替换,以此来加快模型检测速度和减少模型的权重大小。受此启发,本发明利用轻量化网络中经典的模型之一ShuffleNet v2系列的模型为基础,使用改进后的ShuffleNet v2模型替换FSSD中原有的骨干网络,以此提升模型的检测准确率。之后为了进一步对模型的检测准确率进行提升,本发明引入了加权双向特征金字塔结构来替换FSSD中原有的三层特征融合的结构,通过对多层特征进行自顶向下和自底向上两次的特征融合,使得融合后的特征包含更多的语义信息,从而提升检测准确率。通过在PASCAL VOC 2007+2012数据集上进行实验表明,本发明提出的模型相比于利用MobileNet改进的FSSD模型在准确率上有所提升。并且在最后提出了包含给改动后的核心算法的检测系统,使得检测系统可以广泛普遍的应用于实际中各种情况与环境分目标目标检测任务。
应当注意,本发明的实施方式可以通过硬件、软件或者软件和硬件的结合来实现。硬件部分可以利用专用逻辑来实现;软件部分可以存储在存储器中,由适当的指令执行系统,例如微处理器或者专用设计硬件来执行。本领域的普通技术人员可以理解上述的设备和方法可以使用计算机可执行指令和/或包含在处理器控制代码中来实现,例如在诸如磁盘、CD或DVD-ROM的载体介质、诸如只读存储器(固件)的可编程的存储器或者诸如光学或电子信号载体的数据载体上提供了这样的代码。本发明的设备及其模块可以由诸如超大规模集成电路或门阵列、诸如逻辑芯片、晶体管等的半导体、或者诸如现场可编程门阵列、可编程逻辑设备等的可编程硬件设备的硬件电路实现,也可以用由各种类型的处理器执行的软件实现,也可以由上述硬件电路和软件的结合例如固件来实现。
以上所述,仅为本发明的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,都应涵盖在本发明的保护范围之内。
Claims (7)
1.一种轻量化改进目标检测方法,其特征在于,所述轻量化改进目标检测方法包括:
利用用改进后的ShuffleNet v2模型替换FSSD中原有的骨干网络;
引入加权双向特征金字塔结构替换FSSD中原有的三层特征融合的结构,通过对多层特征进行自顶向下和自底向上的特征融合,使得融合后的特征包含更多的语义信息,进行目标的检测;
改进FSSD模型中产生用于检测的特征图的网络层的方法包括:将ShuffleBlock的分配用原先的[4,8,4]改成[2,4,8,2],同时将输出的通道数由原先的[176,352,704]改成[128,256,512,1024];
对多层特征进行自顶向下和自底向上的特征融合方法包括:
双向特征金字塔结构的输入来自于骨干网络中stage2,stage3和last conv的输出特征,通过一个类似自底向上的结构扩展成6层输入特征图;而输入特征图在双向特征金字塔结构中分别经历了自顶向下和自底向上两组处理,自顶向下的处理按照公式(1)进行;
自底向上的处理按照公式(2)进行;
经过双向特征金字塔结构处理后,6个输入特征经过充分的融合;而输出的6层特征将用于模型最后的多尺度检测;在双向特征金字塔的处理过程中,浅层额用于定位细节信息和深层的用于定位的语义信息充分融合。
2.如权利要求1所述的轻量化改进目标检测方法,其特征在于,利用用改进后的ShuffleNet v2模型替换FSSD中原有的骨干网络的方法包括:
利用ShuffleNet v2模型替换FSSD中的骨干网络VGG-16,同时利用深度可分离卷积改进FSSD模型中产生用于检测的特征图的网络层。
3.如权利要求1所述的轻量化改进目标检测方法,其特征在于,所述轻量化改进目标检测方法进一步包括:
1)摄像模块进行图像捕捉,并传输给算法模块;
2)算法模块利用改进后的网络算法进行目标检测,得出具体结果后传输到后端中的显示模块获取信息;
所述改进后的网络算法包括:利用用改进后的ShuffleNet v2模型替换FSSD中原有的骨干网络;
引入加权双向特征金字塔结构替换FSSD中原有的三层特征融合的结构,通过对多层特征进行自顶向下和自底向上的特征融合,使得融合后的特征包含更多的语义信息;
3)从现实模块中获取信息后,根据对结果的满意程度选择是否从输入模块输入调整运行参数与模式的指令;如果选择输入的话则会由输入模块将调整的信息传输给前端中的运行参数模块;
4)运行参数模块接收到指令后,会发出命令给算法模块令算法模块进行调整;算法模块随后按照指令进行更改后继续完成检测任务。
4.一种应用如权利要求1-3任意一项所述轻量化改进目标检测方法的轻量化改进目标检测系统,其特征在于,所述轻量化改进目标检测系统包括:
前端,包括摄像模块,算法模块、运行参数模块、负责捕捉图像并完成目标检测的摄像头;用于完成捕捉图像与目标检测;
后端,包括显示模块与输入模块,用于人工获取信息与调整系统的后台;
所述摄像模块用于摄像头对图像的拍摄录入,负责捕捉所需要的特征目标,并传输至识别目标的算法模块;
算法模块,内嵌有利用FSSD模型为基础的轻量化的改进模型,以及内嵌有利用改进后的ShuffleNet与双向特征金字塔改进后的FSSD模型目标检测算法;从摄像模块传输来的图像分析得出检测结果,并传输到后端的显示模块;还用于接受从运行参数模块传输过来的参数与指令调整;
运行参数模块,负责存储维护整个前端的参数信息与指令信息;从后端接受调整参数和模式的指令,并传输调整命令给算法模块;
所述显示模块负责显示从前端传输过来的目标检测结果;
所述输入模块供人工输入调整运行参数与模式的指令,并且传输到前端中的运行参数模块。
5.一种运行权利要求1~3任意一项所述轻量化改进目标检测方法的摄像头、监控仪、摄像机。
6.一种搭载权利要求5所述摄像头、监控仪、摄像机的人脸识别终端或用于图像检测的无人驾驶汽车检测终端。
7.一种计算机设备,其特征在于,所述计算机设备包括存储器和处理器,所述存储器存储有计算机程序,所述计算机程序被所述处理器执行时,使得所述处理器执行如下步骤:
利用用改进后的ShuffleNet v2模型替换FSSD中原有的骨干网络;
引入加权双向特征金字塔结构替换FSSD中原有的三层特征融合的结构,通过对多层特征进行自顶向下和自底向上的特征融合,使得融合后的特征包含更多的语义信息,进行目标的检测;
改进FSSD模型中产生用于检测的特征图的网络层的方法包括:将ShuffleBlock的分配用原先的[4,8,4]改成[2,4,8,2],同时将输出的通道数由原先的[176,352,704]改成[128,256,512,1024];
对多层特征进行自顶向下和自底向上的特征融合方法包括:
双向特征金字塔结构的输入来自于骨干网络中stage2,stage3和last conv的输出特征,通过一个类似自底向上的结构扩展成6层输入特征图;而输入特征图在双向特征金字塔结构中分别经历了自顶向下和自底向上两组处理,自顶向下的处理按照公式(1)进行;
自底向上的处理按照公式(2)进行;
经过双向特征金字塔结构处理后,6个输入特征经过充分的融合;而输出的6层特征将用于模型最后的多尺度检测;在双向特征金字塔的处理过程中,浅层额用于定位细节信息和深层的用于定位的语义信息充分融合。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010779560.7A CN111914937B (zh) | 2020-08-05 | 2020-08-05 | 一种轻量化改进目标检测方法及检测系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010779560.7A CN111914937B (zh) | 2020-08-05 | 2020-08-05 | 一种轻量化改进目标检测方法及检测系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111914937A CN111914937A (zh) | 2020-11-10 |
CN111914937B true CN111914937B (zh) | 2024-05-10 |
Family
ID=73288297
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010779560.7A Active CN111914937B (zh) | 2020-08-05 | 2020-08-05 | 一种轻量化改进目标检测方法及检测系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111914937B (zh) |
Families Citing this family (18)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112446308B (zh) * | 2020-11-16 | 2024-09-13 | 北京科技大学 | 基于语义增强的多尺度特征金字塔融合的行人检测方法 |
CN112633061B (zh) * | 2020-11-18 | 2023-03-24 | 淮阴工学院 | 一种轻量级的fire-det火焰检测方法及系统 |
CN112434713A (zh) * | 2020-12-02 | 2021-03-02 | 携程计算机技术(上海)有限公司 | 图像特征提取方法、装置、电子设备、存储介质 |
CN112598759B (zh) * | 2020-12-15 | 2022-09-13 | 太原科技大学 | 抑制低剂量ct图像中伪影噪声的多尺度特征生成对抗网络 |
CN112733630A (zh) * | 2020-12-28 | 2021-04-30 | 深圳市捷顺科技实业股份有限公司 | 一种通道闸检测方法、装置、设备及存储介质 |
CN112580748B (zh) * | 2020-12-30 | 2022-10-14 | 电子科技大学 | 一种对染色图像的分类细胞计数的方法 |
CN112699953B (zh) * | 2021-01-07 | 2024-03-19 | 北京大学 | 基于多信息路径聚合的特征金字塔神经网络架构搜索方法 |
CN112950584B (zh) * | 2021-03-01 | 2022-07-29 | 哈尔滨工程大学 | 一种基于深度学习的涂层表面缺陷识别方法 |
CN113033371B (zh) * | 2021-03-19 | 2024-09-27 | 浙江工业大学 | 基于csp模型的多级特征融合行人检测方法 |
CN113012228B (zh) * | 2021-03-23 | 2023-06-20 | 华南理工大学 | 一种工件定位系统及基于深度学习的工件定位方法 |
CN113011442A (zh) * | 2021-03-26 | 2021-06-22 | 山东大学 | 一种基于双向自适应特征金字塔的目标检测方法及系统 |
CN113065555A (zh) * | 2021-04-12 | 2021-07-02 | 中国科学院光电技术研究所 | 一种基于瑞芯微平台的轻量化改进目标检测方法和装置 |
CN113674222A (zh) * | 2021-07-29 | 2021-11-19 | 宁波大学 | 基于改进fssd的汽车差速器壳体表面缺陷的快速检测方法 |
CN113658235B (zh) * | 2021-08-06 | 2022-08-09 | 北京理工大学 | 基于vgg网络与高斯差分网络的光学遥感影像精确配准方法 |
CN114049305B (zh) * | 2021-10-15 | 2024-07-16 | 三峡大学 | 基于改进ALI和Faster-RCNN的配电线路销钉缺陷检测方法 |
CN113936263A (zh) * | 2021-12-16 | 2022-01-14 | 江西财经大学 | 一种道路场景的轻量级小目标检测方法及装置、服务器 |
CN114332443B (zh) * | 2022-03-16 | 2022-06-24 | 北京智芯微电子科技有限公司 | 非侵入负荷识别装置、方法、存储介质及电子设备 |
CN114462555B (zh) * | 2022-04-13 | 2022-08-16 | 国网江西省电力有限公司电力科学研究院 | 基于树莓派的多尺度特征融合配电网设备识别方法 |
Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108288075A (zh) * | 2018-02-02 | 2018-07-17 | 沈阳工业大学 | 一种改进ssd的轻量化小目标检测方法 |
CN109815799A (zh) * | 2018-12-18 | 2019-05-28 | 南京理工大学 | 一种基于ssd的快速航拍车辆检测算法 |
CN109840504A (zh) * | 2019-02-01 | 2019-06-04 | 腾讯科技(深圳)有限公司 | 物品取放行为识别方法、装置、存储介质及设备 |
WO2019149071A1 (zh) * | 2018-01-30 | 2019-08-08 | 华为技术有限公司 | 目标检测的方法、装置及系统 |
CN110555931A (zh) * | 2019-08-31 | 2019-12-10 | 华南理工大学 | 一种基于深度学习识别的人脸检测与门禁系统装置 |
CN110751185A (zh) * | 2019-09-26 | 2020-02-04 | 高新兴科技集团股份有限公司 | 目标检测模型的训练方法和装置 |
CN110853295A (zh) * | 2019-11-12 | 2020-02-28 | 江西赣鄱云新型智慧城市技术研究有限公司 | 一种高空抛物预警方法和装置 |
CN111222528A (zh) * | 2019-05-20 | 2020-06-02 | 天津科技大学 | 一种带有区域放大操作的改进ssd目标检测算法 |
WO2020133636A1 (zh) * | 2018-12-27 | 2020-07-02 | 武汉唐济科技有限公司 | 前列腺手术中外包膜智能检测和预警方法及系统 |
-
2020
- 2020-08-05 CN CN202010779560.7A patent/CN111914937B/zh active Active
Patent Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2019149071A1 (zh) * | 2018-01-30 | 2019-08-08 | 华为技术有限公司 | 目标检测的方法、装置及系统 |
CN108288075A (zh) * | 2018-02-02 | 2018-07-17 | 沈阳工业大学 | 一种改进ssd的轻量化小目标检测方法 |
CN109815799A (zh) * | 2018-12-18 | 2019-05-28 | 南京理工大学 | 一种基于ssd的快速航拍车辆检测算法 |
WO2020133636A1 (zh) * | 2018-12-27 | 2020-07-02 | 武汉唐济科技有限公司 | 前列腺手术中外包膜智能检测和预警方法及系统 |
CN109840504A (zh) * | 2019-02-01 | 2019-06-04 | 腾讯科技(深圳)有限公司 | 物品取放行为识别方法、装置、存储介质及设备 |
CN111222528A (zh) * | 2019-05-20 | 2020-06-02 | 天津科技大学 | 一种带有区域放大操作的改进ssd目标检测算法 |
CN110555931A (zh) * | 2019-08-31 | 2019-12-10 | 华南理工大学 | 一种基于深度学习识别的人脸检测与门禁系统装置 |
CN110751185A (zh) * | 2019-09-26 | 2020-02-04 | 高新兴科技集团股份有限公司 | 目标检测模型的训练方法和装置 |
CN110853295A (zh) * | 2019-11-12 | 2020-02-28 | 江西赣鄱云新型智慧城市技术研究有限公司 | 一种高空抛物预警方法和装置 |
Non-Patent Citations (1)
Title |
---|
基于改进SSD的轻量化小目标检测算法;吴天舒;张志佳;刘云鹏;裴文慧;陈红叶;;红外与激光工程(第07期);全文 * |
Also Published As
Publication number | Publication date |
---|---|
CN111914937A (zh) | 2020-11-10 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111914937B (zh) | 一种轻量化改进目标检测方法及检测系统 | |
Chen et al. | Less is more: Picking informative frames for video captioning | |
Lu et al. | Rating image aesthetics using deep learning | |
CN108846446B (zh) | 基于多路径密集特征融合全卷积网络的目标检测方法 | |
Wang et al. | Actions~ transformations | |
Tran et al. | Two-stream flow-guided convolutional attention networks for action recognition | |
Xu et al. | Dense dilated network for few shot action recognition | |
Yao et al. | Learning multi-temporal-scale deep information for action recognition | |
Khan et al. | Learning deep C3D features for soccer video event detection | |
Jiang et al. | An efficient attention module for 3d convolutional neural networks in action recognition | |
CN113221770A (zh) | 基于多特征混合学习的跨域行人重识别方法及系统 | |
Liu et al. | Object detection based on Yolov4-Tiny and Improved Bidirectional feature pyramid network | |
Park et al. | Binary dense sift flow based two stream CNN for human action recognition | |
Peng et al. | Motion boundary emphasised optical flow method for human action recognition | |
Wang et al. | MGR 3 Net: Multigranularity Region Relation Representation Network for Facial Expression Recognition in Affective Robots | |
Li et al. | Improved edge lightweight YOLOv4 and its application in on-site power system work | |
Mi et al. | Dual-branch network with a subtle motion detector for microaction recognition in videos | |
Yu et al. | Gender classification of full body images based on the convolutional neural network | |
Wang et al. | Human action recognition based on deep network and feature fusion | |
CN112215252B (zh) | 一种基于在线难易样本挖掘的弱监督目标检测方法 | |
Chou et al. | Multi-task cascaded and densely connected convolutional networks applied to human face detection and facial expression recognition system | |
Sambolek et al. | Detection of toy soldiers taken from a bird’s perspective using convolutional neural networks | |
Benhamida et al. | Theater Aid System for the Visually Impaired Through Transfer Learning of Spatio-Temporal Graph Convolution Networks | |
Zhao et al. | DenseTracker: A multi-task dense network for visual tracking | |
Yin et al. | A survey of video-based human action recognition in team sports |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |