CN114220032A - 一种基于通道裁剪的无人机视频小目标检测方法 - Google Patents

一种基于通道裁剪的无人机视频小目标检测方法 Download PDF

Info

Publication number
CN114220032A
CN114220032A CN202111567636.0A CN202111567636A CN114220032A CN 114220032 A CN114220032 A CN 114220032A CN 202111567636 A CN202111567636 A CN 202111567636A CN 114220032 A CN114220032 A CN 114220032A
Authority
CN
China
Prior art keywords
model
layer
detection
scaling factor
channel
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202111567636.0A
Other languages
English (en)
Inventor
贾海涛
邹新雷
周焕来
王云
乔磊崖
陈璐
孙靖哲
王俊
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Yituo Communications Group Co ltd
Original Assignee
Yituo Communications Group Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Yituo Communications Group Co ltd filed Critical Yituo Communications Group Co ltd
Priority to CN202111567636.0A priority Critical patent/CN114220032A/zh
Publication of CN114220032A publication Critical patent/CN114220032A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/047Probabilistic or stochastic networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/082Learning methods modifying the architecture, e.g. adding, deleting or silencing nodes or connections

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Evolutionary Computation (AREA)
  • Molecular Biology (AREA)
  • Artificial Intelligence (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Probability & Statistics with Applications (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开了一种基于通道裁剪的无人机视频小目标检测方法。该发明在小目标检测方向上具有一定的通用性,该专利以千米无人机高空检测为说明案例。市区以及郊区中存在大量的小目标。针对小目标问题,在通常目标检测方法中为了减小模型内存占用、节省计算资源,根据目标尺寸特点,对YOLOv4原模型的预测层进行了改进,将三尺度检测模型改进为双尺度检测模型;对双尺度检测模型进行正常训练,然后将其BN层的缩放因子进行稀疏训练,最后通过裁剪一定比例的通道数以再次减小模型内存占用提升检测速度。基于通道裁剪的无人机视频小目标检测方法模型能够快速精准的检测远距离小目标,且对于小目标缺陷和极端长宽比缺陷也能够取得较好的效果。

Description

一种基于通道裁剪的无人机视频小目标检测方法
技术领域
本发明涉及深度学习中的目标检测领域,针对小目标检测尤其是高空无人机视频的检测技术。
背景技术
目标检测已经在车辆检测、人脸检测、自动驾驶、安全系统等领域广泛应用并发挥着重要的作用。
相比于传统检测方法,基于深度学习的检测模型具有检测精度高、速度快等优点。基于深度学习的检测模型有one-stage和two-stage两种:one-stag检测模型主要有YOLO、SSD、SDDS等模型,其核心是基于回归的思想,不需要使用区域候选网络,可以直接经主干网络预测出军事目标类别、位置;以two-stage检测模型为代表的有R-CNN、SPP-Net、Fast R-CNN、Faster R-CNN、Mask R-CNN等模型,其基本思想是通过卷积神经网络对图像进行特征提取,然后经过区域候选网络生成候选框,再经过“抠图”和进一步的特征表示,最后就可以通过分类和回归得到军事目标的类别和位置。two-stage系列因其繁琐的检测过程导致检测速度远不能满足实时性的要求。
近年来,目标检测在战场感知中的地位愈加突出。基于无人机平台的目标检测具有视野大、监测范围广等优点,但由于载重、能耗等方面的限制,无人机平台能够搭载的存储和算力是有限的。因此,一般检测模型在无人机上直接部署时会面临模型占用内存大、实时性差的问题。因此,在保证检测精度的前提下有效解决上述问题,能够有效提升无人机侦察的检测速度,有助于战场指挥员或机载系统及时全面分析战场形势,做出更合理的决策。
YOLO作为one-stage检测模型中的经典模型,较好地兼顾了检测精度和速度,因此应用较为广泛。本专利以YOLOv4检测模型作为主模型,在保证检测精度的情况下,首先,将三尺度检测模型改进为双尺度时序+非时序检测模型。其次,对双尺度检测模型进行了通道裁剪。本发明就是着力于目标小在视频时序目标检测中造成的难题。本发明在小目标检测领域有一定的通用性,并针对无人机视频中存在的目标模糊做了特殊改进。
实验表明,两种改进方法均达到了小目标检测领域减小模型内存占用,提升检测速度以及精度的目的。
发明内容
为了克服上述现有技术的不足,本发明提出了一种基于通道裁剪的无人机视频小目标检测方法。该技术引用了深度学习中的通用目标检测框架YOLOv4,并由于内存、算力有限而导致检测模型部署困难、检测精度降低的问题对YOLOv4进行了进一步的改进。
本发明所采用的技术方案是:
步骤1:YOLOv4模型结构改进针对目标尺寸特点,对原模型的检测层进行了改进,保留了负责从52×52和26×26特征图中检测中小目标的YOLOHead1和YOLOHead2模块。移除了负责检测大目标的YOLOHead3模块和其相关的采样卷积过程,但保留了与之对应的13×13特征图;
步骤2:步骤1中模型中小尺度YOLOHead1对应的初始候选框大小为[12,16,19,36,40,28],中尺度YOLOHead2对应的初始候选框大小为[36,75,76,55,72,146];
步骤3:进行模型通道裁剪首先需要对BN层进行稀疏化训练,本方法通过在初始损失函数中引入L1正则化来对BN层的缩放因子γ进行稀疏化训练,每个特征通道对应一个缩放因子γ;
步骤4:该步骤在YOLOv4模型中,通过卷积层和激活函数中间的BN层对每一个输入的mini-batch进行归一化,使网络收敛更快,获得更好的训练效果。YOLOv4模型中BN层的输入和输出之间关系为:
Figure BDA0003420336790000021
式中:m为每次输入的mini-batch;γ为BN层的缩放因子;β为BN层的偏置项;μ为BN层的均值参数;σ为BN层的方差参数;ε项可避免分母为0。
步骤5:该步骤是该专利的核心内容,在步骤4中对BN层进行稀疏化训练的基础上,对已经稀疏化的缩放因子进行排序,根据剪枝率求得缩放因子的阈值。当缩放因子大于或等于该阈值时,该缩放因子对应的特征通道将被保留。当缩放因子小于该阈值时,该缩放因子对应的特征通道将会被剪掉然后将网络输出的提议框映射成原图大小,框选出原图区域,输入至softmax分类和回归层,得出最后结果。
与现有技术相比,本发明的有益效果是:
(1)在无人机视频小目标检测上,能够达到更高的识别精度;
(2)对于极端模糊目标情况下,更够更好的进行筛选和检测。
附图说明
图1为:几种典型无人机视频小目标示意图。
图2为:几种极端模糊小目标示意图。
图3为:改进后的YOLOv4模型结构。
图4为:通道裁剪流程。
图5为:模型通道裁剪流程。
图6为:原始YOLOv4检测模型。
图7为:损失函数变化曲线。
图8为:训练之前每层YOLOv4的权重分布。
图9为:α=0.0001堆叠每层YOLOv4的权重分布。
图10为:α=0.001堆叠每层YOLOv4的权重分布。
图11为:YOLOv4裁剪后模型的评估结果。
图12为:tiny-YOLOv4和pruned-YOLOv4对比。
具体实施方式
下面结合附图对本发明进一步说明。
首先,YOLOv4模型结构改进如图3所示。YOLOv4模型输入图像大小为416×416,52×52、26×26以及13×13特征图中一个像素点分别对应输入图像8个、16个以及32个像素点,当输入图像被下采样至13×13时,图像中小于32×32像素的目标均会被压缩至不到一个像素点,这样目标特征信息丢失较为严重,因此在13×13特征图上检测32×32像素以下的目标意义不大。
本测试使用的数据集,目标长宽都分布在0~38像素,属于中小目标,因此负责从13×13特征图中检测的YOLOHead3模块对于中小目标的检测意义不大,反而会使得模型参数冗余,导致模型内存占用过大,消耗计算资源,影响检测速度。
相比在3个尺度上预测输出的原模型,本方法改进后的模型仅需要在2个尺度上进行检测,减少了模型参数,节省了计算资源,模型检测速度更快。
权重裁剪的核心思想是使权重稀疏化,该方法需要多次迭代,并且裁剪一次就需要对模型修复一次,耗时耗力。神经元裁剪是将模型中输出为零的神经元进行删除,该方法虽然操作比较简单,但是裁剪出来的模型性能较差。卷积核裁剪是对卷积核中的参数进行处理,从而降低运算消耗,但目前该方法的相关技术还不够成熟,对于模型速度提升很有限。
通道裁剪流程如图4所示,是将卷积层中不重要的通道全部删除。该方法裁剪力度大,效果明显,同时带来的精度损失也大,但是通过微调可以将裁剪后的模型恢复到很好的精度,并且该方法不需要门的软硬件支持。通道裁剪方法适用于含有批归一化层即BN(batch normalization)层的模型,如YOLO模型。对于没有批归一化层的模型该方法并不适用,如R-CNN模型。
通常情况下,剪裁后的模型其检测精度会有不同程度的下降。裁剪的通道数越多,参数越少,检测精度下降的就越明显。为了恢复一定的检测精度,需要用数据集将裁剪后的模型重新训练,在这个过程中,裁剪模型中的参数会根据训练样本数据进行调整,以恢复至较高的检测精度。
具体方法
(1)针对目标尺寸特点,对原模型的检测层进行了改进,改进后的模型结构如图3所示,保留了负责从52×52和26×26特征图中检测中小目标的YOLOHead1和YOLOHead2模块。移除了负责检测大目标的YOLOHead3模块和其相关的采样卷积过程,但保留了与之对应的13×13特征图,该特征图属于深层特征图,里面包含较强的定位特征,52×52、26×26的浅层特征图里面包含较强的语义信息,通过上采样,将13×13特征图中的强定位信息传递到浅中层特征层中进行特征融合,以加强对中小目标的定位精度;
(2)进行模型通道裁剪首先需要对BN层进行稀疏化训练,本方法通过在初始损失函数中引入L1正则化来对BN层的缩放因子γ进行稀疏化训练,每个特征通道对应一个缩放因子γ,引入L1正则化的损失函数为:
Figure BDA0003420336790000051
(3)如图5所示,对已经稀疏化的缩放因子进行排序,根据剪枝率求得缩放因子的阈值。当缩放因子大于或等于该阈值时,该缩放因子对应的特征通道将被保留。当缩放因子小于该阈值时,该缩放因子对应的特征通道将会被剪掉。
这样改进的好处有两个方面,一方面,模型充分利用了富含细节信息的低层特征进行小目标检测,另一方面,多个尺度的特征图提取出的不同特征使用同样的分类和bounding box回归网络,相当于广义上的多任务联合,可以有效避免数据量较小时产生的过拟合。这样的改进方式可以用于绝大多数特征网络,本方法选取ResNet50作为提取特征的主干网络,在ResNet50网络中,对Stage2,Stage3,Stage4,Stage5,Stage6产生的特征图进行检测。其中底层生成的特征图用于检测小目标,中层生成的特征图用于检测中等目标,高层生成的特征图用于检测大面积目标。
最后,接下来将在YOLOv4模型中实现整个模型裁剪过程,及最后的小目标增强方法。使用YOLOv4作为基线模型。在裁剪YOLOv4之前,需要进行稀疏的训练。在训练之前,堆叠每层YOLOv4的权重分布,共层有159层,如图8所示。
随着层数的增加,大多数BN权重从2.0变为1.0左右。稀疏程度取决于比例因子和历元数。在稀疏训练期间,计算YOLOv4的所有BN层中权重绝对值的直方图,并将它们堆叠在一个图中以观察趋势。如图9所示,采用较弱的比例因子α=0.0001来稀疏权重。BN权重接近零的通道不重要。越不重要的渠道,可以裁剪的渠道就越多。从图9可以看出,权重并没有明显趋于0。如图10所示,黑框中的权重优先于绿框中的其他权重。绿框的重量被认为是更重要的重量,这可以帮助提高微调的准确性。具有较大比例因子(即α=0.01)的稀疏训练会使BN权重衰减过大,以至于裁剪的模型将具有更高的训练难度,然后因拟合不足而失败,因此,在实验中,使用惩罚等级α=0.001训练的YOLOv4模型执行通道和层裁剪。
根据以下指标评估所有裁剪的模型:(1)mAP;(2)模型体积,即重量文件的大小;(3)每秒使用GPU的帧(FPS),在本方法中是Tesla P100。其中,FPS是检测速度的指标。
设置裁剪的通道比率时,还应该设置保留的通道比率,以避免裁剪层中所有通道的可能性。在图11中比较了所有裁剪模型的检测性能。可以看到,通道裁剪会导致模式量迅速减少,尤其是当裁剪通道比为0.5时,裁剪模型的体积范围为245.8MB至90.8MB。
此外,可以将裁剪的图层和裁剪的通道组合在一起,以获得更简单有效的模型。裁剪模式的裁剪通道比为0.8,裁剪层为8,其AP为90.5,体积为15.1MB。它的FPS提高了60%,而其mAP的性能可与YOLOv4媲美。将此模型用作裁剪后的YOLOv4。
为了进一步证明裁剪后的模型的有效性,进行了另一个比较实验。tiny-YOLOv4是YOLOv4的过度简化的版本。微小的YOLOv4只有27层,容量为23.1MB。将Tiny-YOLOv4和裁剪后的YOLOv4模型进行了比较,如图12所示。Tiny-YOLOv4在精度和F1得分方面略有优势,但是,在mAP中,pruned-YOLOv4模型比Tiny-YOLOv4具有强大的优势。由于层数较少,微小的YOLOv4在FPS上的表现要好,但是69的FPS在的任务中并不可怕,因此,可以得出结论,在精度损失很小的情况下,裁剪模型可以有效地提高检测速度。
以上所述,仅为本发明的具体实施方式,本说明中所公开的任一特征,除非特别叙述,均可被其他等效或者具有类似目的的替代特征加以替换;所公开的所有特征、或所有方法或过程中的步骤,除了互相排斥的特征或/和步骤外,均可以任何方式组合。

Claims (4)

1.一种基于通道裁剪的无人机视频小目标检测方法,其特征在于,包括以下步骤:
步骤1:YOLOv4模型结构改进针对目标尺寸特点,对原模型的检测层进行了改进,保留了负责从52×52和26×26特征图中检测中小目标的YOLOHead1和YOLOHead2模块。移除了负责检测大目标的YOLOHead3模块和其相关的采样卷积过程,但保留了与之对应的13×13特征图;
步骤2:步骤1中模型中小尺度YOLOHead1对应的初始候选框大小为[12,16,19,36,40,28],中尺度YOLOHead2对应的初始候选框大小为[36,75,76,55,72,146];
步骤3:进行模型通道裁剪首先需要对BN层进行稀疏化训练,本方法通过在初始损失函数中引入L1正则化来对BN层的缩放因子γ进行稀疏化训练,每个特征通道对应一个缩放因子γ;
步骤4:该步骤在YOLOv4模型中,通过卷积层和激活函数中间的BN层对每一个输入的mini-batch进行归一化,使网络收敛更快,获得更好的训练效果。YOLOv4模型中BN层的输入和输出之间关系为:
Figure FDA0003420336780000011
式中:m为每次输入的mini-batch;γ为BN层的缩放因子;β为BN层的偏置项;μ为BN层的均值参数;σ为BN层的方差参数;ε项可避免分母为0。
步骤5:该步骤是该专利的核心内容,在步骤4中对BN层进行稀疏化训练的基础上,对已经稀疏化的缩放因子进行排序,根据剪枝率求得缩放因子的阈值。当缩放因子大于或等于该阈值时,该缩放因子对应的特征通道将被保留。当缩放因子小于该阈值时,该缩放因子对应的特征通道将会被剪掉然后将网络输出的提议框映射成原图大小,框选出原图区域,输入至softmax分类和回归层,得出最后结果。
2.如权利要求1所述方法,其特征在于,步骤1中移除了负责检测大目标的YOLOHead3模块。
3.如权利要求1所述方法,其特征在于,步骤3中的稀疏化训练方法。
4.如权利要求1所述方法,其特征在于,步骤5中的模型通道裁剪方法,对初始聚类中心的选取更加智能化,通常情况下,剪裁后的模型其检测精度会有不同程度的下降。裁剪的通道数越多,参数越少,检测精度下降的就越明显。为了恢复一定的检测精度将裁剪后的模型重新训练。
CN202111567636.0A 2021-12-21 2021-12-21 一种基于通道裁剪的无人机视频小目标检测方法 Pending CN114220032A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111567636.0A CN114220032A (zh) 2021-12-21 2021-12-21 一种基于通道裁剪的无人机视频小目标检测方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111567636.0A CN114220032A (zh) 2021-12-21 2021-12-21 一种基于通道裁剪的无人机视频小目标检测方法

Publications (1)

Publication Number Publication Date
CN114220032A true CN114220032A (zh) 2022-03-22

Family

ID=80704619

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111567636.0A Pending CN114220032A (zh) 2021-12-21 2021-12-21 一种基于通道裁剪的无人机视频小目标检测方法

Country Status (1)

Country Link
CN (1) CN114220032A (zh)

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2021030629A1 (en) * 2019-08-14 2021-02-18 Genentech, Inc. Three dimensional object segmentation of medical images localized with object detection
CN112580512A (zh) * 2020-12-21 2021-03-30 南京邮电大学 一种基于通道裁剪的轻量级无人机目标检测方法
CN112668663A (zh) * 2021-01-05 2021-04-16 南京航空航天大学 一种基于YOLOv4的航拍小汽车检测方法
WO2021129570A1 (zh) * 2019-12-25 2021-07-01 神思电子技术股份有限公司 一种基于网络激活与稀疏化的网络裁剪优化方法
CN113065558A (zh) * 2021-04-21 2021-07-02 浙江工业大学 一种结合注意力机制的轻量级小目标检测方法
CN113128676A (zh) * 2019-12-30 2021-07-16 广州慧睿思通科技股份有限公司 基于目标检测模型的剪枝方法、装置和存储介质
CN113128355A (zh) * 2021-03-29 2021-07-16 南京航空航天大学 一种基于通道剪枝的无人机图像实时目标检测方法

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2021030629A1 (en) * 2019-08-14 2021-02-18 Genentech, Inc. Three dimensional object segmentation of medical images localized with object detection
WO2021129570A1 (zh) * 2019-12-25 2021-07-01 神思电子技术股份有限公司 一种基于网络激活与稀疏化的网络裁剪优化方法
CN113128676A (zh) * 2019-12-30 2021-07-16 广州慧睿思通科技股份有限公司 基于目标检测模型的剪枝方法、装置和存储介质
CN112580512A (zh) * 2020-12-21 2021-03-30 南京邮电大学 一种基于通道裁剪的轻量级无人机目标检测方法
CN112668663A (zh) * 2021-01-05 2021-04-16 南京航空航天大学 一种基于YOLOv4的航拍小汽车检测方法
CN113128355A (zh) * 2021-03-29 2021-07-16 南京航空航天大学 一种基于通道剪枝的无人机图像实时目标检测方法
CN113065558A (zh) * 2021-04-21 2021-07-02 浙江工业大学 一种结合注意力机制的轻量级小目标检测方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
毛雪宇;彭艳兵;: "基于通道裁剪的YOLOv3模型", 电子设计工程, no. 16, 18 August 2020 (2020-08-18), pages 143 - 147 *
白士磊;殷柯欣;朱建启;: "轻量级YOLOv3的交通标志检测算法", 计算机与现代化, no. 09, 15 September 2020 (2020-09-15), pages 44 - 46 *

Similar Documents

Publication Publication Date Title
CN107145889B (zh) 基于具有RoI池化的双CNN网络的目标识别方法
CN114022432B (zh) 基于改进的yolov5的绝缘子缺陷检测方法
CN110909667B (zh) 面向多角度sar目标识别网络的轻量化设计方法
CN111460968B (zh) 基于视频的无人机识别与跟踪方法及装置
CN113420651B (zh) 深度卷积神经网络的轻量化方法、系统及目标检测方法
CN108288270B (zh) 一种基于通道修剪与全卷积深度学习的目标检测方法
CN108229550B (zh) 一种基于多粒度级联森林网络的云图分类方法
CN110991311A (zh) 一种基于密集连接深度网络的目标检测方法
CN111523579B (zh) 一种基于改进深度学习的车型识别方法及系统
CN110276247A (zh) 一种基于YOLOv3-Tiny的行车检测方法
WO2021185121A1 (zh) 模型生成方法、目标检测方法、装置、设备及存储介质
CN113283473B (zh) 一种基于cnn特征映射剪枝的快速水下目标识别方法
CN110568445A (zh) 一种轻量化卷积神经网络的激光雷达与视觉融合感知方法
CN112487938A (zh) 一种利用深度学习算法实现垃圾分类的方法
CN111192240B (zh) 一种基于随机接入记忆的遥感图像目标检测方法
CN112597919A (zh) 基于YOLOv3剪枝网络和嵌入式开发板的实时药盒检测方法
CN115452376A (zh) 基于改进轻量级深度卷积神经网络的轴承故障诊断方法
Cai et al. Cloud classification of satellite image based on convolutional neural networks
CN117744745B (zh) 一种基于YOLOv5网络模型的图像优化方法及优化系统
CN114972753A (zh) 基于上下文信息聚合和辅助学习的轻量级语义分割方法及系统
CN114463732A (zh) 一种基于知识蒸馏的场景文本检测方法及装置
CN117593623A (zh) 基于改进YOLOv8n模型的轻量化车辆检测方法
CN112132207A (zh) 基于多分支特征映射目标检测神经网络构建方法
CN113139615A (zh) 一种基于嵌入式设备的无人驾驶环境目标检测方法
CN114220032A (zh) 一种基于通道裁剪的无人机视频小目标检测方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination