CN113902971A - 基于多尺度融合轻量化深度学习卷积网络的目标检测方法 - Google Patents
基于多尺度融合轻量化深度学习卷积网络的目标检测方法 Download PDFInfo
- Publication number
- CN113902971A CN113902971A CN202111068517.0A CN202111068517A CN113902971A CN 113902971 A CN113902971 A CN 113902971A CN 202111068517 A CN202111068517 A CN 202111068517A CN 113902971 A CN113902971 A CN 113902971A
- Authority
- CN
- China
- Prior art keywords
- scale
- network
- target
- module
- features
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Health & Medical Sciences (AREA)
- Software Systems (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Biophysics (AREA)
- Biomedical Technology (AREA)
- Mathematical Physics (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Biology (AREA)
- Image Analysis (AREA)
Abstract
本发明公开了基于多尺度融合轻量化深度学习卷积网络的目标检测方法,设计骨干网络由两个模块组成:主干特征提取模块和多尺度融合定位特征模块;主干特征提取模块遵循了DenseNet网络沿通道维度串联的结构特点,使得每一层与它的所有后续层直接连接,特征可重复利用,不需要学习冗余的特征,从而降低参数量,保持网络精简高效;并且在其基础上增加了双路卷积通道方式,从而得到不同尺度的感受野;多尺度特征模块沿用了SSD多尺度锚点框检测机制,并在其基础上加入3‑way残差模块,把多尺度特征进行融合,增强特征的表达能力,从而检测多尺度飞机目标。
Description
技术领域
本发明属于机器学习及深度学习的技术领域,具体涉及一种基于多尺度融合的轻量化深度学习卷积网络的目标检测方法。
背景技术
通常,深度神经网络的参数数目可以达到千万甚至亿级,随着网络的深度和广度的增加,网络模型存在着大量的冗余参数,这是导致深度学习模型计算量大、内存消耗严重的主要原因。实际上,在网络传播过程中,只需要保留重要程度较高的神经元或者以更为优化和简单的方式组织表示神经元就可以提供足够的特征信息给神经网络的输出层进行结果预测。针对这个现象,很多关于模型压缩和模型运算加速的方法被提出,总结为,深度神经网络模型加速和优化的策略研究主要可以归结为三个层面:精简权重的表示方式、减少网络连接和神经元冗余、网络结构的优化。
(1)精简网络权重的表示
常用的神经网络模型参数的表示形式都是浮点型(单精度)数或者双精度数,即一个参数需要占用4个字节(32位)或者8个字节(64位)。为了降低深层神经网络模型的存储空间和内存消耗从而达到压缩和加速深度模型的目的,很多相关研究学者企图通过利用更少的比特位来近似表示深度神经网络模型的实数权重值。
(2)降低网络权重的冗余
深度神经网络模型在参数学习的过程中其实大部分的参数对输入对象的特征抽取影响微乎其微或者用少量的神经元即可以达到分类器对特征抽取的要求。因此,对深度神经网络模型网络层与层之间连接和神经元冗余问题的相关研究进展也是降低深度神经网络模型对内存大小和计算量需求的另一个切入点。
(3)优化网络结构
不同的神经网络结构对模型性能的影响非常显著,更好的网络结构可以减少每一层的神经元和权重的数量,从而可以在保证不会出现梯度消失等问题的同时设计更深层的神经网络模型。此外,更优化的网络结构还可以让网络更加容易训练,减少网络模型的运算量和学习参数,达到加速神经网络训练和推断过程的目的。
不难发现,深度神经网络模型如果具有更小和更少的神经元往往意味着更低的计算量需求。因此探索更合适的神经网络结构也可以显著地加速网络的训练和推断过程。以2014年ImageNet竞赛为例子,获得优胜的VGG模型和GoogLeNet模型在图片分类任务中取得了相近的成绩,但是GoogLeNet不仅运行速度明显快于VGG,而且模型参数的数量也远远小于VGG。出现这种情况的主要原因是GoogLeNet使用了更多的小尺寸卷积核和池化操作,即在两种网络的神经元个数相同的情况下,GoogLeNet的权重矩阵和卷积操作的计算量也明显小于VGG。在过去几年中,不少相关研究提出新的神经网络结构单元,企图通过利用更小或者更简单的神经单元构造网络,以此来减少训练参数的数量。2015年,Srivastava等人受到长短期记忆循环网络结构的启发,设计出了公路神经网络。相比在此之前提出的教师网络,具有更深网络结构的公路网络不仅克服梯度消失的问题,而且它仅仅用了1.25M的参数就在CIFAR-10和CIFAR-100数据集上取得了更好的表现。同年,Kaiming He等人设计了一种新的结构单元来构建深层神经网络,称为残差块。他们提出的ResNets网络最终获得了2015年ImageNet比赛的优胜。与公路网络相比,ResNets网络仅仅使用1/3的学习参数就获得了更好的性能表现。
发明内容
有鉴于此,本发明提供了一种基于多尺度融合的轻量化深度学习卷积网络的目标检测方法,能够减少传统深度学习模型对资源受限嵌入式平台带来巨大的计算压力。
实现本发明的技术方案如下:
一种基于多尺度融合的轻量化深度学习卷积网络的目标检测方法,包括以下步骤:
步骤一、获取卫星宽幅图像数据,对图像数据中的飞机目标进行标注,对标注后的数据进行拆分形成训练集、测试集和验证集;
步骤二、构建由Stem模块、双路卷积密集连接(Two-way Dense)模块和传输层(Transition Layer)构成的骨干网络;
步骤三、为了检测尺度差异大的飞机目标,构建多种尺度的卷积层来用于分类和检测;
步骤四、基于飞机目标的任意方向性,构建两个网络分支提取不同特征进行分类和回归;
步骤五、在回归的网络分支加入ARF(主动旋转滤波器)和ORN(旋转方向网络);
步骤六、基于步骤五的网络提取旋转不变特征,构建特征映射关系,对飞机目标类别进行置信度确定及四个边界框的确定;
步骤七、基于步骤六得到的不同尺度特征下的目标的四个边界框,进行非极大值抑制操作,最后得到最终的检测结果,从而完成轻量化网络的设计;利用步骤一获得的训练集、测试集和验证集对所述轻量化网络进行训练;
步骤八、利用训练好的轻量化网络对卫星宽幅图像数据中的飞机目标进行检测。
进一步地,所述卫星宽幅数据为8米民用分辨率。
进一步地,步骤三中,采用采用4种尺度特征图做检测。
进一步地,步骤三中,采用了残差模块和反卷积模块构成了多尺度特征融合模块(3-way残差模块),并且将其嵌入到每种尺度特征下。
进一步地,步骤四中,回归分支通过主动旋转卷积滤波器来提取旋转敏感特征,分类分支通过汇集旋转敏感特征来提取旋转不变性特征。
有益效果:
1.本发明基于多层次循环剪枝和递进式定点化的网络优化技术:为减少传统深度学习模型对资源受限嵌入式平台带来巨大的计算压力,针对星上在轨平台具有低功耗、存储少、重量轻的特点,通过多层次等比例循环迭代剪枝和递进式定点量化操作实现对网络的运算量和参数量的优化。
2.本发明基于旋转敏感回归检测器的设计提高网络检测性能:设计两个网络分支提取不同特征进行分类和回归。具体而言,回归分支通过主动旋转卷积滤波器来提取旋转敏感特征,而分类分支通过汇集旋转敏感特征来提取旋转不变性特征,降低了目标本身的条状、旋转、聚集的特性以及飞机目标尺寸小的特点导致传统目标检测算法存在高漏检、高虚警和难以精准定位的问题,实现对多尺度、多方向飞机目标得高效检测。
附图说明
图1为本发明方法流程图。
图2为stem模块示意图。
图3为Two-way Dense模块示意图。
图4为3-way残差模块示意图。
图5为旋转敏感回归模块(RSR)。
图6为机场场景飞机的检测结果;(a)(b)(c)(d)为同一机场不同视角下的成像检测效果。
具体实施方式
下面结合附图并举实施例,对本发明进行详细描述。
参照图1的流程图,以光学机场飞机检测为例,进行实验,具体实施步骤如下:
S1:基于谷歌卫星数据的宽幅数据,8米民用分辨率。
S2:轻量化特征提取主干网络
项目的骨干网络由三部分构成:Stem模块、双路卷积密集连接(Two-way Dense)模块和传输层(Transition Layer),其网络结构参数列表如表1所示。下面我们将分别来介绍:
表1主干网络结构参数列表
Stem模块:受多尺度卷积的Inceptionv4结构启发,我们在Two-way Dense模块前,设计了一种精简有效的Stem模块,其示意图如图2所示。Stem模块借鉴了Inception多尺度的思想,其结构中包含了3*3卷积和最大池化,增加了网络对不同尺度的适应性,并且增加1*1的卷积操作用于降低通道维数的同时也提高了网络表达能力。因此,与传统在初始层的基础上逐层增加网络层数方法相比,Stem模块在不增加计算复杂度的前提下,能够有效提高特征表达能力。
Two-way Dense模块:借鉴Inceptionv3网络多通道卷积结构和空间非对称卷积的思想设计两层密集连接层,来获得多尺度的感受野。一路卷积通道使用了小尺度3*3卷积核来提取尺寸小的飞机目标特征,其中为了降低3*3卷积的计算复杂度,我们将3*3卷积分成非对称卷积核:1*3和3*1卷积;另一路卷积通道使用了两层堆积式的3*3卷积核来学习尺度大的飞机视觉模板,其中最后的3*3卷积也采用了非对称卷积核方式。Two-way Dense模块的示意图如图3所示。
Transition模块:Transition模块的主要作用是保证特征图下采样的同时,并使用1*1卷积操作降低Two-way Dense模块传递的特征通道数。在本发明的网络设计中,Transition模块包含批量BN层和1*1卷积层,接着是2*2平均池化层。
S3:多尺度特征融合的检测模块
为了检测尺度差异大的飞机目标,本发明继承SSD目标检测的多尺度特征检测结构,在轻量化特征提取主干网络之后构建多种尺度的卷积层来用于分类和检测。在这里,为了减少计算量,本发明采用4种尺度特征图(32*32,16*16,8*8,4*4)做检测。考虑到SSD目标检测方法虽然能够检测到多尺度目标,但是具有高分辨率的浅层特征不具有充分的特征表达能力且每种尺度特征图的检测互相独立,导致对尺度小的目标往往检测效果不佳。
针对上述问题,我们采用了残差模块和反卷积模块构成了多尺度特征融合模块(3-way残差模块),并且将其嵌入到检测模块的每种尺度特征下,该模块的示意图如图4所示。3-way残差模块分为branch1,branch2和branch3三条支路,其中branch1采用1*1卷积核作为残差模块的快捷连接,该结构能够缓解梯度消失问题,保持从预测损失函数传来的梯度能够直接进入主干网络中;为了增强浅层特征的表达能力,本发明使用了3*3卷积核作为残差模块branch2支路。Baranch2支路具有较高的感受野,能够提取小目标的周围环境信息,提升小目标的检测性能;Branch3支路里面包含3*3卷积和反卷积,其作用将浅层特征与之接近的高层特征进行融合,增强高空间分辨率浅层特征的表达能力,使得目标与背景易于区分。
S4:旋转敏感回归检测器
光学遥感图像中的飞机目标具有任意方向,需要根据定向边界框进行检测。通常情况下,一个多方向的目标检测器涉及两个关键任务:1)目标存在检测,这是无视目标方向的分类问题;2)面向边界框的回归,它关注目标的方向。以前的深度学习目标检测方法依赖于这两个任务的共享功能,由于两个任务不兼容导致性能下降。为了解决该问题,本项目对分类和定位两种不同任务,设计两个网络分支提取不同特征进行分类和回归。具体而言,回归分支通过主动旋转卷积滤波器来提取旋转敏感特征,而分类分支通过汇集旋转敏感特征来提取旋转不变性特征。旋转敏感回归检测器结构图如图5所示。
旋转敏感回归(RRD)是一种端到端的可训练全卷积神经网络,其体系结构受SSD的启发。其架构使用本项目设计的轻量化网络作为其骨干网络,以与SSD相同的方式添加额外的层。采用四层骨干网进行密集预测。
密集的预测与SSD相似。对于每个默认框,RRD都会对其标签(文本或非文本)进行分类并对相对偏移进行回归。之后,RRD将偏移量应用于被分类为默认框的偏移量,产生多个四边形,每个都有一个分数。四边形由非最大抑制滤波,输出最终检测结果。我们的方法的关键新颖之处在于密集预测部分,其中RRD分别提取具有不同特征的两类特征映射用于分类和回归。分类特征图对文本方向不敏感,而回归特征图很敏感。如前所述,这些特征很好地说明了这两项任务的性质。
S5:旋转敏感回归
飞机目标坐标对方向很敏感,因此,在旋转敏感特征上执行坐标偏移的回归。面向响应卷积通过主动旋转其卷积滤波器来编码旋转信息,从而产生用于回归的旋转敏感特征。与标准CNN功能不同,RRD使用主动旋转滤波器(ARF)提取旋转敏感特征。ARF通过规范滤波器及其旋转的克隆来卷积特征映射。将ARF的标准滤波器表示为F0∈Rk×k×N,其中k是内核大小,N是旋转数。ARF通过将N-1旋转到不同角度分别使N-1标准滤波器的克隆变为Fj,j=1:N。Mi(j)和Mo(j)分别表示第j个方向的输入特征映射和输出特征映射。ARF通过计算来卷积特征映射:
Fj(n)表示Fj的第n个方向通道。卷积后,它产生N个通道的响应图,每个通道对应与规范滤波器或其旋转克隆的响应。ARF产生额外的渠道,以结合更丰富的旋转信息。在ARF的帮助下,旋转方向网络(ORN)生成带有方向通道的特征图,捕获旋转敏感特征并提高其旋转样本的通用性,这是以前从未见过的。此外,由于N之间的参数是共享的,因此学习ARF需要的训练范例少得多。
S6:旋转不变分类
与回归相比,飞机存在的分类应该是旋转不变的,即任意方向的目标区域应该被分类为正面。因此,应该为该任务提取旋转不变特征映射。ORN通过汇集所有N个响应地图的响应来实现旋转不变性。旋转敏感特征图沿其深度轴汇集。假定是N个定向通道的旋转敏感输入特征映射,旋转不变特征映射是的元素最大值,其方向索引可以按如下方式计算:
由于池操作是无序的并适用于所有N个响应地图,因此得到的特征地图对于对象旋转是局部不变的。因此,我们使用这个特征映射进行分类。此外,起始块的设置与回归分支相同。
S7:默认框和预测
默认框是具有不同尺寸和宽高比的水平矩形。B0=(x0,y0,w0,h0)表示一个水平的默认框,也可以用其四个顶点Q0=(v1 0,v2 0,v3 0,v4 0),来表示,其中回归分支预测从水平预设框到四边形(真实目标位置)的偏移量。四边形可以表示为Q=(v1,v2,v3,v4),其中vi=(xi,yi),i∈{1,2,3,4},代表四边形的四个顶点。对于每个默认框,预测层输出默认框Q0和边界框Q之间的分类分数和偏移量(Δx1,Δy1,Δx2,Δy2,Δx3,Δy3,Δx4,Δy4,c)。最终的输出四边形可以由下式计算得出:
式中,w0和h0分别表示默认框的宽度和高度。当所有预测框被表示之后,需要进行基于四边形的非极大值抑制操作,最后得到真正的检测结果。
S8:基于设计的轻量化网络对机场飞机目标进行检测试验,实验结果如图6所示,由图(a)(b)(c)(d)四个图像的检测结果可以看出轻量化后的网络通过多尺度信息利用和旋转敏感回归检测器的优化设计不仅没有降低网络对小目标的检测率,反而提高网络检测性能,更好的实现对弱小目标在有限算力要求下的性能保证。
综上所述,以上仅为本发明的较佳实施例而已,并非用于限定本发明的保护范围。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
Claims (5)
1.一种基于多尺度融合的轻量化深度学习卷积网络的目标检测方法,其特征在于,包括以下步骤:
步骤一、获取卫星宽幅图像数据,对图像数据中的飞机目标进行标注,对标注后的数据进行拆分形成训练集、测试集和验证集;
步骤二、构建由Stem模块、双路卷积密集连接模块和传输层构成的骨干网络;
步骤三、为了检测尺度差异大的飞机目标,构建多种尺度的卷积层来用于分类和检测;
步骤四、基于飞机目标的任意方向性,构建两个网络分支提取不同特征进行分类和回归;
步骤五、在回归的网络分支加入ARF和ORN;
步骤六、基于步骤五的网络提取旋转不变特征,构建特征映射关系,对飞机目标类别进行置信度确定及四个边界框的确定;
步骤七、基于步骤六得到的不同尺度特征下的目标的四个边界框,进行非极大值抑制操作,最后得到最终的检测结果,从而完成轻量化网络的设计;利用步骤一获得的训练集、测试集和验证集对所述轻量化网络进行训练;
步骤八、利用训练好的轻量化网络对卫星宽幅图像数据中的飞机目标进行检测。
2.如权利要求1所述的一种基于多尺度融合的轻量化深度学习卷积网络的目标检测方法,其特征在于,所述卫星宽幅数据为8米民用分辨率。
3.如权利要求1所述的一种基于多尺度融合的轻量化深度学习卷积网络的目标检测方法,其特征在于,步骤三中,采用采用4种尺度特征图做检测。
4.如权利要求3所述的一种基于多尺度融合的轻量化深度学习卷积网络的目标检测方法,其特征在于,步骤三中,采用了残差模块和反卷积模块构成了多尺度特征融合模块,并且将其嵌入到每种尺度特征下。
5.如权利要求1所述的一种基于多尺度融合的轻量化深度学习卷积网络的目标检测方法,其特征在于,步骤四中,回归分支通过主动旋转卷积滤波器来提取旋转敏感特征,分类分支通过汇集旋转敏感特征来提取旋转不变性特征。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111068517.0A CN113902971A (zh) | 2021-09-13 | 2021-09-13 | 基于多尺度融合轻量化深度学习卷积网络的目标检测方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111068517.0A CN113902971A (zh) | 2021-09-13 | 2021-09-13 | 基于多尺度融合轻量化深度学习卷积网络的目标检测方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN113902971A true CN113902971A (zh) | 2022-01-07 |
Family
ID=79027972
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202111068517.0A Pending CN113902971A (zh) | 2021-09-13 | 2021-09-13 | 基于多尺度融合轻量化深度学习卷积网络的目标检测方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113902971A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116168295A (zh) * | 2023-02-24 | 2023-05-26 | 中国地质大学(武汉) | 一种岩性遥感智能解译模型建立方法及解译方法 |
-
2021
- 2021-09-13 CN CN202111068517.0A patent/CN113902971A/zh active Pending
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116168295A (zh) * | 2023-02-24 | 2023-05-26 | 中国地质大学(武汉) | 一种岩性遥感智能解译模型建立方法及解译方法 |
CN116168295B (zh) * | 2023-02-24 | 2023-12-05 | 中国地质大学(武汉) | 一种岩性遥感智能解译模型建立方法及解译方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110276316B (zh) | 一种基于深度学习的人体关键点检测方法 | |
WO2021022521A1 (zh) | 数据处理的方法、训练神经网络模型的方法及设备 | |
Xu et al. | High-resolution remote sensing image change detection combined with pixel-level and object-level | |
US20220222918A1 (en) | Image retrieval method and apparatus, storage medium, and device | |
CN111753677B (zh) | 基于特征金字塔结构的多角度遥感船舶图像目标检测方法 | |
CN113420607A (zh) | 无人机多尺度目标检测识别方法 | |
Zhang et al. | Multi-scale cropping mechanism for remote sensing image captioning | |
CN113160062B (zh) | 一种红外图像目标检测方法、装置、设备及存储介质 | |
Zang et al. | Traffic lane detection using fully convolutional neural network | |
Lin et al. | Building damage assessment from post-hurricane imageries using unsupervised domain adaptation with enhanced feature discrimination | |
Zheng et al. | A review of remote sensing image object detection algorithms based on deep learning | |
CN115861619A (zh) | 一种递归残差双注意力核点卷积网络的机载LiDAR城市点云语义分割方法与系统 | |
CN114764856A (zh) | 图像语义分割方法和图像语义分割装置 | |
CN113298817A (zh) | 一种准确率高的遥感图像语义分割方法 | |
Liu et al. | CAFFNet: channel attention and feature fusion network for multi-target traffic sign detection | |
CN115223017A (zh) | 一种基于深度可分离卷积的多尺度特征融合桥梁检测方法 | |
CN114998688A (zh) | 一种基于YOLOv4改进算法的大视场目标检测方法 | |
Li et al. | Real-time tracking algorithm for aerial vehicles using improved convolutional neural network and transfer learning | |
CN104463962A (zh) | 基于gps信息视频的三维场景重建方法 | |
CN113902971A (zh) | 基于多尺度融合轻量化深度学习卷积网络的目标检测方法 | |
Ning et al. | Point-voxel and bird-eye-view representation aggregation network for single stage 3D object detection | |
Wang | Remote sensing image semantic segmentation algorithm based on improved ENet network | |
Ouyang et al. | Aerial target detection based on the improved YOLOv3 algorithm | |
CN116740516A (zh) | 基于多尺度融合特征提取的目标检测方法及系统 | |
Zhang et al. | Research on camouflaged human target detection based on deep learning |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |