CN113627240B - 一种基于改进ssd学习模型的无人机树木种类识别方法 - Google Patents
一种基于改进ssd学习模型的无人机树木种类识别方法 Download PDFInfo
- Publication number
- CN113627240B CN113627240B CN202110726043.8A CN202110726043A CN113627240B CN 113627240 B CN113627240 B CN 113627240B CN 202110726043 A CN202110726043 A CN 202110726043A CN 113627240 B CN113627240 B CN 113627240B
- Authority
- CN
- China
- Prior art keywords
- feature
- layer
- follows
- loss function
- learning model
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 66
- 230000006870 function Effects 0.000 claims abstract description 75
- 230000004927 fusion Effects 0.000 claims abstract description 44
- 238000012549 training Methods 0.000 claims abstract description 17
- 238000013527 convolutional neural network Methods 0.000 claims abstract description 13
- 238000001514 detection method Methods 0.000 claims abstract description 11
- 238000001914 filtration Methods 0.000 claims abstract description 10
- 230000008569 process Effects 0.000 claims description 30
- 238000010586 diagram Methods 0.000 claims description 23
- 230000003044 adaptive effect Effects 0.000 claims description 14
- 230000007246 mechanism Effects 0.000 claims description 10
- 238000011176 pooling Methods 0.000 claims description 10
- 230000004913 activation Effects 0.000 claims description 9
- 230000000694 effects Effects 0.000 claims description 6
- 238000003064 k means clustering Methods 0.000 claims description 6
- 238000005070 sampling Methods 0.000 claims description 5
- 230000001502 supplementing effect Effects 0.000 claims description 5
- 230000002708 enhancing effect Effects 0.000 claims description 4
- 238000012935 Averaging Methods 0.000 claims description 3
- 238000011478 gradient descent method Methods 0.000 claims description 3
- 238000012545 processing Methods 0.000 claims description 3
- 238000006467 substitution reaction Methods 0.000 claims description 3
- 230000004931 aggregating effect Effects 0.000 claims description 2
- 239000010410 layer Substances 0.000 description 95
- 238000013135 deep learning Methods 0.000 description 8
- 238000004364 calculation method Methods 0.000 description 6
- 238000000605 extraction Methods 0.000 description 4
- 230000002776 aggregation Effects 0.000 description 2
- 238000004220 aggregation Methods 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 2
- 230000008901 benefit Effects 0.000 description 2
- 238000013461 design Methods 0.000 description 2
- 238000010606 normalization Methods 0.000 description 2
- 201000004569 Blindness Diseases 0.000 description 1
- OKTJSMMVPCPJKN-UHFFFAOYSA-N Carbon Chemical compound [C] OKTJSMMVPCPJKN-UHFFFAOYSA-N 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 238000013473 artificial intelligence Methods 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 229910052799 carbon Inorganic materials 0.000 description 1
- 238000007796 conventional method Methods 0.000 description 1
- 230000001419 dependent effect Effects 0.000 description 1
- 239000011229 interlayer Substances 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 238000012544 monitoring process Methods 0.000 description 1
- 238000007430 reference method Methods 0.000 description 1
- 238000000926 separation method Methods 0.000 description 1
- 238000013519 translation Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/23—Clustering techniques
- G06F18/232—Non-hierarchical techniques
- G06F18/2321—Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions
- G06F18/23213—Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions with fixed number of clusters, e.g. K-means clustering
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
- G06F18/2415—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on parametric or probabilistic models, e.g. based on likelihood ratio or false acceptance rate versus a false rejection rate
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/25—Fusion techniques
- G06F18/253—Fusion techniques of extracted features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/084—Backpropagation, e.g. using gradient descent
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02T—CLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
- Y02T10/00—Road transport of goods or passengers
- Y02T10/10—Internal combustion engine [ICE] based vehicles
- Y02T10/40—Engine management systems
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- Evolutionary Computation (AREA)
- Artificial Intelligence (AREA)
- General Engineering & Computer Science (AREA)
- Life Sciences & Earth Sciences (AREA)
- General Physics & Mathematics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Bioinformatics & Computational Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Evolutionary Biology (AREA)
- Computing Systems (AREA)
- Molecular Biology (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- General Health & Medical Sciences (AREA)
- Probability & Statistics with Applications (AREA)
- Computational Linguistics (AREA)
- Biophysics (AREA)
- Biomedical Technology (AREA)
- Health & Medical Sciences (AREA)
- Image Analysis (AREA)
Abstract
本发明公开了一种基于改进SSD学习模型的无人机树木种类识别方法。首先,采用K‑means++方法进行聚类,分别得到默认候选框的尺度和宽高比信息,为下一步卷积神经网络模型提供参数;其次,构建卷积神经网络模型,改进基准SSD学习模型,增添能针对不同种类的图片噪声自适应产生不同滤波器的滤波层,在模型最后添加一个全局特征融合网络,改进基准SSD学习模型损失函数,并用预先获取的图片对模型进行训练;最后,基于改进SSD学习模型对树木种类进行检测。本发明通过在树木数据集上进行训练提取泛化的不同种类的树木所具有的特征表示,突出特征之间的可区分度,提高针对小目标的检测以及抗图片噪声能力,提高树木种类识别准确度。
Description
技术领域
本发明属于人工智能目标识别领域,涉及无人机航拍场景下对树木种类判定,具体涉及一种基于改进SSD学习模型的无人机树木种类识别方法。
背景技术
树种分类在智慧园林领域有着重要价值,在树木资源管理和监测和碳储存估算等方面发挥重要作用。无人机遥感属于低空遥感技术,与各种高分辨率卫星相比,无人机在获取影像过程中受大气因素的干扰较小,在小区域遥感应用方面有着良好的前景。利用无人机获取超高空间分辨率的影像为提取树种空间信息提供了新的手段,而准确快速提取树种分类信息的技术则是无人机影像在智慧园林领域发挥作用的关键。
现有的用于提高无人机影像树种分类精度的方法多是通过传统机器学习及添加手工特征变量的方式,不同的特征变量会导致获得的分类效果不同,手工添加特征变量往往依靠经验,具有一定的盲目性。深度学习是人工智能的重要进展之一,颠覆了传统算法的设计思路,能够自动从数据中学习特征,避免了传统算法中人工设计、提取特征的复杂性和局限性,在没有人为干预的情况下,具有极大的特征学习潜力。在遥感领域中,深度学习,特别是卷积神经网络(CNN),已经被广泛应用于遥感图像的分类、提取、识别和检索,全面超越了传统方法。
目前用于树种分类的深度学习算法有两种,分别为one-stage方法和two-stage方法。one-stage方法,比如yolo和SSD。主要思路是均匀的在图片的不同位置上密集抽样,抽样时可以采用不同的比例和长宽比,然后用CNN提取特征后直接分类与回归,整个过程只需要一步,所以优点是速度快。但是均匀的密集采样的缺点是训练困难,主要是因为正样本与负样本(背景)及其不均衡,导致模型准确度较低。two-stage方法,比如R-CNN系算法。主要思路是先通过启发式方法或者CNN网络产生一系列稀疏的候选框,然后对这些候选框进行分类和回归,优点是准确度高。
发明内容
发明目的:针对以上问题,本发明提出一种基于改进SSD学习模型的深度学习的树木种类识别方法,针对无人机航拍场景下的小块树木场景,通过在树木数据集上进行训练提取泛化的不同种类的树木所具有的特征表示,突出特征之间的可区分度,使树木种类识别准确度显著提高。
技术方案:为实现本发明的目的,本发明所采用的技术方案是:一种基于改进SSD学习模型的无人机树木种类识别方法,包括以下步骤:
(1)获取无人机拍摄的树木数据集,构建聚类样本即默认候选框尺度样本集、默认候选框宽高比样本集,使用K-means++方法进行聚类,分别得到默认候选框的尺度和宽高比信息,用于代替基准SSD学习模型中生成的默认候选框;
(2)构建卷积神经网络,即改进基准SSD学习模型,针对虚焦、过曝和混叠效应三种图片噪声,自适应产生滤波层,模型最后添加一个全局特征融合网络;改进的基准SSD学习模型包括卷积层、滤波层、激活函数层、池化层、BN层、融合层、Softmax层和全局特征融合网络;
(3)改进网络的Softmax损失函数,针对基准SSD学习模型所使用的Softmax损失函数,引入中心损失函数进行修正;
(4)使用改进后的SSD学习模型在树木数据集上进行训练提取不同种类的树木所具有的特征表示,使用训练好的模型识别树木种类。
进一步的,在步骤(1)中,使用K-means++方法聚类生成默认候选框的过程如下:
首先确定聚类样本,其中默认候选框尺度样本集为s={s1,…,sk,…,st},共t个样本,即无人机拍摄的树木数据集中所标注的t个树木目标尺度,为样本集中第k个样本,wk、hk分别为无人机拍摄的树木数据集中所标注的第k个树木目标边界框的宽高信息,wo、ho则分别为原始图像的宽高信息;
默认候选框宽高比样本集r={r1,…,rk,…,rt},共t个样本,即数据集中标注的t个树木目标的宽高比例信息,其中rk=wkhk/woho;
其次,运用K-means++聚类算法对默认候选框尺度和宽高比两个样本集进行聚类,包括初始化K个聚类中心以及进行标准K-means聚类迭代两个步骤,在两个步骤中所采用距离公式均为:
式中μsj和μrj分别是针对尺度样本集s和宽高比样本集r聚类过程中的第j个聚类中心;
最后运行基准K-means聚类算法,默认候选框尺度聚类K值设为6,对应改进SSD学习模型中6个用于检测回归的特征图;宽高比聚类设为6,与基准SSD学习模型相同,6个用于分类回归的特征图层依据其尺寸选择相应默认候选框尺度,每个尺度对应聚类得到的6个宽高比,用于取代原始SSD学习模型中的默认候选框。
进一步的,在步骤(2)中,自适应产生滤波层过程如下:
F为输入特征图的通道,共c个通道,将输入的特征图依次分为g个连续通道组,记通道组为Fg,每个通道组的特征共享相同的滤波器参数,每个通道特征学习到的滤波器为其维度为h×w×1,h代表滤波器高度,w代表滤波器宽度,1代表滤波器的通道数,最后组合成一个h×w×g的滤波层,为每个学习到的滤波层添加一个通过模型学习得到的自适应权重系数λn,n代表第n种滤波层,n∈[1,3];
在融合前,引入Softmax层对三个滤波层的权重参数λn进行处理得到λ'n,公式如下:
训练过程中,λ'反向传播更新流程为,求出损失函数关于滤波层中每个位置的参数Wi,j,l的导数,对求导结果求和再求平均,采用梯度下降法进行更新,公式如下:
其中,k代表更新进行到的次数,α代表学习率,L代表损失函数;
融合时,采用对应元素相加的方法,使3个滤波层融合成针对三种噪声的自适应滤波层W’g,融合公式如下:
然后对第l组中通道特征图F,利用对应的第l组滤波器进行滤波操作,公式如下:
F’i,j,l=W’i,j,l*Fi,j,l
其中,F’i,j,l为与输入特征图F在(i,j)位置处的输出特征。
进一步的,在步骤(2)中,全局特征融合网络如下:
全局特征融合网络由三部分组成,包括一条自上而下的特征补充增强路径、一条自下而上的不同维度特征生成路径、引入注意力机制的特征融合模块;
在自上而下的特征补充增强路径中,将经过Conv4_3、Conv7、Conv8_2、Conv9_2、Conv10_2、Conv11_2层输出的结果,记作Ci,i∈[1,6],共6个特征图进行融合,在特征图进入融合前,都预先使用1×1的卷积核,进行通道调整,卷积核个数与上一层特征图通道数一致,公式如下:
其中,C'代表经过1×1的卷积核进行通道调整后的特征图,i代表第i层,h代表特征图的高度,w代表特征图的宽度,c代表特征图的通道数,·代表卷积操作,Kernel代表卷积核;
调整后的特征图进行2倍最邻近插值上采样,得到Ui,i∈[1,6],然后与下一层特征图进行元素式操作;元素式操作采用方法为对应元素的积,公式如下:
其中,P代表元素式操作融合结果,i代表第i层,代表对应元素相乘操作;
在自下而上的不同维度特征生成路径中,对{P1,P2,P3}三层进行操作,从P1到P3,空间尺寸采用下采样,生成与{P1,P2,P3}相对应的特征图{N1,N2,N3},从Ni到Ni+1的过程为:Ni通过与一个大小为3×3、步长为2的卷积核做卷积减小尺寸,产生与Pi+1尺寸相同的特征图,之后Pi+1与下采样的特征图采用对应元素积的方式进行元素式操作,元素式操作后的特征图经过另外一个大小为3×3、步长为1的卷积核产生Ni+1,上述操作公式如下:
其中,代表大小为3×3、步长为1的卷积核,代表大小为3×3、步长为2的卷积核,代表对应元素相乘操作,最终产生的{N1,N2,N3}与{P1,P2,P3}每一层相互对应,空间尺寸和通道尺寸相同;
在特征图引入注意力机制的特征融合模块前,将不同层级的特征图{N1,N2,N3}通过线性插值或者最大池化重构成N2的尺寸大小,得到{M1,M2,M3},然后取均值得到平衡语义特征Mb,在第i层分辨率特征记作Mi,Mb公式如下:
其中,I代表特征图总层数;
将平衡语义特征Mb∈RH×W×C输入SE注意力模块,进入通道注意力分支进行运算,产生相应的注意力图,在通道注意力分支中,通过全局池化操作聚合特征图的空间信息Mavg∈R1×1×C,通过一个1×1×(C/r)全连接层和一个Relu激活函数,其中r由经验值设定,再通过一个1×1×C全连接层和一个Sigmoid激活函数,产生通道注意力图Mc∈R1×1×C,上述过程公式如下:
Mc=σ(FC2(γ(FC1(Mavg))))
其中σ代表Sigmoid函数,γ代表Relu函数,FC代表全连接层;
将得到的Mc作用于SE注意力模块的输入特征图Mb,得到经过注意力机制增强特征表示A,公式如下:
将SE注意力模块的输出A使用相同但相反的过程,重构到与各层级对应相同的尺寸,得到{A1,A2,A3},与输入{P1,P2,P3}进行加和操作,得到{G1,G2,G3},公式如下:
Gi=Ai+Pi,i∈(1,2,3)
用{G1,G2,G3}替代原模型中的{P1,P2,P3},最终{G1,G2,G3,P4,P5,P6}进入检测层。
进一步的,在步骤(3)中,Softmax损失函数改进如下:
改进Softmax损失函数,针对基准SSD学习模型所使用的Softmax损失函数,引入中心损失函数进行修正,中心损失函数Lc定义如下:
其中yi表示第i个样本的类别,Cyi表示第yi种类别样本的特征中心点,xi表示在全连接层以前提取到的特征,m表示mini-batch的大小,即更新一次训练参数时所要求训练的图片数量的大小;
损失函数改进如下,在基准SSD学习模型的损失函数的基础上,结合中心损失函数,引入参数η、用于调节基准SSD损失函数和中心损失函数的比例,如下,
其中,Lconf(x,c)为置信损失函数,Lloc(x,l,g)为位置损失函数,α为加权系数,用来衡量位置损失在总损失中占的比例,参数η、表示基准SSD损失函数L(x,c,l,g)和中心损失函数的比例权重,N为默认框的正样本数量,x表示提取到的特征,c为类别置信度预测值,l为默认框所对应边界框的偏移位置预测值,g为真值标签的位置参数。
有益效果:与现有技术相比,本发明的技术方案具有以下有益的技术效果:
1、与传统的目标识别算法相比,基于改进SSD学习模型的深度学习的树木种类识别算法通过在在树木数据集上进行训练提取泛化的不同种类的树木所具有的特征表示,突出特征之间的可区分度,提高针对小目标的检测以及抗图片噪声能力,使树木种类识别准确度显著提高。
2、基于改进SSD学习模型的深度学习的树木种类识别算法通过增加自适应滤波层,减少了虚焦、过曝、混叠效应对航拍图像小目标检测的影响;增加全局特征融合网络,增加了对小目标检测的准确度;改进损失函数,减少了同种类别提取到的特征间距过大导致分类不理想的的问题。
3、与以往的深度学习目标识别算法相比,基于改进SSD学习模型的深度学习的树木种类识别算法对不同大小的卷积层提取到的特征进行综合的计算量较小,能够直接预测目标分类类别和边界框坐标值,满足了无人机拍摄树木场景对于实时性的要求。
附图说明
图1为改进SSD学习模型中自适应滤波层原理图;
图2为改进SSD学习模型中全局特征融合网络结构图;
图3为SE注意力模块结构图;
图4为本发明改进SSD学习模型结构图。
具体实施方式
下面结合附图和实施例对本发明的技术方案作进一步的说明。
本发明所述的一种基于改进SSD学习模型的无人机树木种类识别方法,包括以下步骤:
(1)获取无人机拍摄的树木数据集,构建聚类样本即默认候选框尺度样本集、默认候选框宽高比样本集,使用K-means++方法进行聚类,分别得到默认候选框的尺度和宽高比信息,用于代替基准SSD学习模型中生成的默认候选框(改进默认候选框的生成)。
首先确定聚类样本,其中默认候选框尺度样本集为s={s1,…,sk,…,st},共t个样本,即无人机拍摄的树木数据集中所标注的t个树木目标尺度,为样本集中第k个样本,wk、hk分别为无人机拍摄的树木数据集中所标注的第k个树木目标边界框的宽高信息,wo、ho则分别为原始图像的宽高信息;
默认候选框宽高比样本集r={r1,…,rk,…,rt},与尺度样本集相似,共t个样本,即数据集中标注的t个树木目标的宽高比例信息,其中rk=wkhk/woho;
其次,运用K-means++聚类算法对默认候选框尺度和宽高比两个样本集进行聚类,包括初始化K个聚类中心以及进行标准K-means聚类迭代两个步骤,在两个步骤中所采用距离公式均为:
式中μsj和μrj分别是针对尺度样本集s和宽高比样本集r聚类过程中的第j个聚类中心;K-means++聚类算法摒弃随机选择K个初始聚类中心的方式,而是先随机获取一个样本集中的数据作为第一个聚类中心,然后通过距离公式运算得出计算每个样本到最近聚类中心的距离,由此,每一个样本都有一个长度,长度越大的样本,被选为下一个聚类中心的概率越高;然后不断重复至得到K个初始聚类中心;
最后运行基准K-means聚类算法,如下:
依次比较每一个对象到每一个聚类中心的距离,将对象分配到距离最近的聚类中心的类簇中,得到k个类簇{S1,S2,S3,…,Sk};
K-means算法用中心定义了类簇的原型,类簇中心就是类簇内所有对象在各个维度的均值,其计算公式如下:
式中,Cl表示第l个聚类中心,|Sl|表示第l个类簇中对象的个数,Xi表示第l个类簇中第i个对象;
该方法选择的初始聚类中心较基准方法更加准确;默认候选框尺度聚类K值设为6,对应改进SSD学习模型中6个用于检测回归的特征图;宽高比聚类设为6,与基准SSD学习模型相同,6个用于分类回归的特征图层依据其尺寸选择相应默认候选框尺度,每个尺度对应聚类得到的6个宽高比,用于取代原始SSD学习模型中的默认候选框。
(2)构建卷积神经网络,即改进基准SSD学习模型,针对虚焦、过曝和混叠效应三种图片噪声,自适应产生滤波层,减小三类噪声给小目标特征提取带来的影响;增加一个全局特征融合网络,以增强对小目标的检测准确度;改进的SSD学习模型包括卷积层、滤波层、激活函数层、池化层、BN层、融合层、Softmax层和全局特征融合网络。
无人机拍摄图像过程中,受摄像头、环境等因素的影响,会导致航拍图像产生混叠现象、虚焦、过曝等现象,影响树木种类的识别,故在卷积神经网络中增加针对不同噪声的自适应滤波层。针对混叠现象、虚焦、过曝3种噪声,学习产生3种自适应滤波器,然后将3种滤波器融合,生成最终的自适应滤波层。由于特征图的不同通道包含如边缘、颜色变化等不同频率的特征,故采用的自适应滤波层所使用的滤波器不仅针对特征的空间位置分布层面学习到对应的滤波器参数,同时考虑到在特征图的不同通道上学习不同的滤波器参数。
滤波层训练过程和预测过程如图1所示,自适应产生滤波层过程如下:
F为输入特征图的通道,共c个通道,考虑到为每个通道的特征预测不同的滤波器计算代价过大,便将输入的特征图依次分为g个连续通道组,记通道组为Fg,每个通道组的特征共享相同的滤波器参数;
输入特征图经过一个卷积操作后跟随一个批量标准化(batch-normalization,BN)层,BN层通过对输入数据归一化并固定数据分布,使其均值为0,方差为1,满足正态分布,防止协方差偏移,对数据做归一化操作的计算公式如下:
其中,x=(x(1)...x(d))表示维度为d的向量x,E(x)表示输入数据的期望,Var[x]表示数据的方差;在方法中引入两个可学习参数γ(k)和β(k)进行平移和缩放;
BN操作要对每一批输入数据进行归一化,具体操作如下:
计算输入数据均值:
式中,xi为第i个输入的数据,m为输入数据的总个数;
计算输入数据的方差:
式中,xi为第i个输入的数据,m为输入数据的总个数,μB为输入数据均值;
进行归一化:
式中,xi为第i个输入的数据,μB为输入数据均值,为输入数据的方差,ε为一极小值,防止分母为0;
得到输出值:
式中,γ和β为两个可学习参数,为归一化后的第i个输入的数据;
并引入Softmax层以保证每个学习到的滤波层参数均为正数、和为1,以保证其为低通滤波器;
其中,V为输入的数组,Vi为数组中的第i个元素;
每个通道特征学习到的滤波器为其维度为h×w×1,h代表滤波器高度,w代表滤波器宽度,1代表滤波器的通道数,最后组合成一个h×w×g的滤波层;
同时为每个学习到的滤波层添加一个通过模型学习得到的自适应权重系数λn,n代表第n种滤波层,n∈[1,3];
在融合前,引入Softmax层对三个滤波层的权重参数λn进行处理得到λ'n,以保证每个学习到的λ'n为正数,公式如下:
训练过程中,λ'反向传播更新流程为,求出损失函数关于滤波层中每个位置的参数Wi,j,l的导数,对求导结果求和再求平均,采用梯度下降法进行更新,公式如下:
其中,k代表更新进行到的次数,α代表学习率,L代表损失函数;
融合时,采用对应元素相加的方法,使3个滤波层融合成针对三种噪声的自适应滤波层W’g,融合公式如下:
然后对第l组中通道特征图F,利用对应的第l组滤波器进行滤波操作,公式如下:
F’i,j,l=W’i,j,l*Fi,j,l
其中,F’i,j,l为与输入特征图F在(i,j)位置处的输出特征。
在基准SSD学习模型中,特征提取骨干VGG-16网络中的Conv4_3层后的特征图用于预测小尺度目标,因此在该层前的前三次最大池化层前,即在Conv1_2、Conv2_2、Conv3_3层后,引入滤波层,滤波层输入的特征图通道数设定滤波器核尺寸为3×3,特征图通道组数为4、6、8。
卷积网络中随着卷积层的深度增加,得到的特征图的感受野更大,因此会丢失掉更多的小尺度目标的细节信息,导致对小尺度目标检测的不准确,故在原始SSD学习模型后,增加一个全局特征融合网络,全局特征融合网络如图2所示;
全局特征融合网络由三部分组成,包括一条自上而下的特征补充增强路径、一条自下而上的不同维度特征生成路径、引入注意力机制的特征融合模块;
在自上而下的特征补充增强路径中,全局特征融合网络将低分辨率、高语义信息的高层特征和高分辨率、低语义信息的低层特征进行自上而下的连接,使得所有尺度下的特征都有丰富的语义信息,将特征图,即经过Conv4_3、Conv7、Conv8_2、Conv9_2、Conv10_2、Conv11_2层输出的结果,记作Ci,i∈[1,6],共6个特征图进行融合;
特征融合计算时,需要特征图的分辨率和通道数严格相同,所以在特征图进入融合前,都预先使用1×1的卷积核,进行通道调整,卷积核个数与上一层特征图通道数一致,公式如下:
其中,C'代表经过1×1的卷积核进行通道调整后的特征图,i代表第i层,h代表特征图的高度,w代表特征图的宽度,c代表特征图的通道数,·代表卷积操作,Kernel代表卷积核;
调整后的特征图进行2倍最邻近插值上采样,得到Ui,i∈[1,6],然后与下一层特征图进行元素式操作;元素式操作采用方法为对应元素的积,求积的一个优点是它可以用来抑制或突出某个区域内的特性,这可能进一步有利于小目标检测,公式如下:
其中,P代表元素式操作融合结果,i代表第i层,代表对应元素相乘操作;
在自下而上的不同维度特征生成路径中,为了增强低层细节信息到高层的传递,将自上而下的特征补充增强路径提取出的低层的细节信息传递到高层的语义特征图,因为在SSD学习模型中,前三层提取出更多关于小目标的信息,故选择对{P1,P2,P3}三层进行操作,从P1到P3,空间尺寸采用下采样,生成与{P1,P2,P3}相对应的特征图{N1,N2,N3},从Ni到Ni+1的过程为:Ni通过与一个大小为3×3、步长为2的卷积核做卷积减小尺寸,产生与Pi+1尺寸相同的特征图,之后Pi+1与下采样的特征图采用对应元素积的方式进行元素式操作,元素式操作后的特征图经过另外一个大小为3×3、步长为1的卷积核产生Ni+1,上述操作公式如下:
其中,代表大小为3×3、步长为1的卷积核,代表大小为3×3、步长为2的卷积核,代表对应元素相乘操作;最终产生的{N1,N2,N3}与{P1,P2,P3}每一层相互对应,空间尺寸和通道尺寸相同;
在特征图引入注意力机制的特征融合模块前,将不同层级的特征图{N1,N2,N3}通过线性插值或者最大池化重构成N2的尺寸大小,得到{M1,M2,M3},然后取均值得到平衡语义特征Mb,在第i层分辨率特征记作Mi,Mb公式如下:
其中,I代表特征图总层数;
为减少平衡语义特征的信息冗余,进一步增强特征表达,采用SE注意力模块利用注意力机制对融合特征图的有效特征进行了加强,SE注意力模块如图3所示;
将融合得到的平衡语义特征Mb∈RH×W×C输入SE注意力模块,进入通道注意力分支进行运算,产生相应的注意力图;在通道注意力分支中,通过全局池化操作聚合特征图的空间信息Mavg∈R1×1×C,通过一个1×1×(C/r)全连接层和一个Relu激活函数,其中r由经验值设定,再通过一个1×1×C全连接层和一个Sigmoid激活函数,产生通道注意力图Mc∈R1 ×1×C,上述过程公式如下:
Mc=σ(FC2(γ(FC1(Mavg))))
其中σ代表Sigmoid函数,γ代表Relu函数,FC代表全连接层;
在上述操作之后,将得到的Mc作用于SE注意力模块的输入特征图Mb,得到经过注意力机制增强特征表示A,公式如下:
为了将平衡后语义特征信息反馈到每一个层级,将SE注意力模块的输出A使用相同但相反的过程,重构到与各层级对应相同的尺寸,得到{A1,A2,A3},与输入{P1,P2,P3}进行加和操作,得到{G1,G2,G3},公式如下:
Gi=Ai+Pi,i∈(1,2,3)
{G1,G2,G3}与{P1,P2,P3}相比,平衡了各层级间的差异性,增强了各层的原始特征,用{G1,G2,G3}替代原模型中的{P1,P2,P3},最终{G1,G2,G3,P4,P5,P6}进入检测层。
最终搭建的针对无人机拍摄的树木种类检测的模型结构如图4所示。
(3)改进网络的Softmax损失函数,针对基准SSD学习模型所使用的Softmax损失函数,引入中心损失函数进行修正;具体为:
卷积神经网络的最后一层通常为损失层,损失层的作用就是将目标任务转化为损失函数的形式,损失层将卷积神经网络的预测结果和当前目标的真实值作为输入,通过比较预测值与真实值之间的误差来计算损失,得到网络的损失函数,之后在反向传播过程中,使用随机梯度下降算法来更新每一层的参数,在经过前向传播来计算损失,直到找到合适的权重来最小化损失函数值,使得整个网络模型收敛;
目标检测算法的训练过程中,会计算目标的分类损失和回归损失,当前,分类任务常使用的损失函数为Softmax损失函数;
基准SSD学习模型所使用的Softmax损失函数没有要求同种类别提取到的特征聚合,只包括不同类别提取到的特征进行分离,包括类别置信度和位置损失两部分;
其中N为默认框的正样本数量,α为加权系数,c为类别置信度预测值,l为默认框所对应边界框的偏移位置预测值,g为真值标签的位置参数,包括航拍树木目标中心位置与宽高信息的偏移量,位置损失为:
其中,SL1为Smooth L1损失用于计算预测边界框偏移与真值标签偏移之差,为第i个默认候选框与第j个类别为的真值标签相匹配,此时取值为1,未匹配则为负样本取值为0;
类别置信度损失中包含正样本以及部分负样本的对数损失,类别置信度损失为:
Center Loss中心损失函数针对Softmax损失函数所表现出的问题,即同种类别提取到的特征间距过大,对每一个类别都维护一个类特征的中心点,如果在特征层中,该样本提取到的特征距离该类别特征中心的距离太远,就要获得惩罚;类特征中心点在网络中自行随机生成,在每一个batch迭代过程中更新中心点,即对类特征的中心点进行随机初始化,其中batch是每更新一次训练参数时的样本大小;随后每一个batch迭代过程中计算当前提取到的特征与类特征中心点的距离的平方和;
中心损失函数Lc定义如下:
其中yi表示第i个样本的类别,Cyi表示第yi种类别样本的特征中心点,xi表示在全连接层以前提取到的特征,m表示mini-batch的大小,即更新一次训练参数时所要求训练的图片数量的大小;通过使用最小化中心损失计算,同一类别的样本特征会向所属类别的特征中心点聚集,从而促使整体分类过程中的同种类别的特征差异减小;
损失函数改进如下,在基准SSD学习模型的损失函数的基础上,结合中心损失函数,引入参数η、用于调节基准SSD损失函数和中心损失函数的比例,如下,
其中,Lconf(x,c)为置信损失函数,Lloc(x,l,g)为位置损失函数,α为加权系数,用来衡量位置损失在总损失中占的比例,参数η、表示基准SSD损失函数L(x,c,l,g)和中心损失函数的比例权重,N为默认框的正样本数量,x表示提取到的特征,c为类别置信度预测值,l为默认框所对应边界框的偏移位置预测值,g为真值标签的位置参数。
(4)使用改进后的SSD学习模型在树木数据集上进行训练提取不同种类的树木所具有的特征表示,使用训练好的模型识别树木种类。
Claims (2)
1.一种基于改进SSD学习模型的无人机树木种类识别方法,其特征在于:所述方法包括以下步骤:
(1)获取无人机拍摄的树木数据集,构建聚类样本即默认候选框尺度样本集、默认候选框宽高比样本集,使用K-means++方法进行聚类,分别得到默认候选框的尺度和宽高比信息,用于代替基准SSD学习模型中生成的默认候选框;
(2)构建卷积神经网络,即改进基准SSD学习模型,针对虚焦、过曝和混叠效应三种图片噪声,自适应产生滤波层,模型最后添加一个全局特征融合网络;改进的基准SSD学习模型包括卷积层、滤波层、激活函数层、池化层、BN层、融合层、Softmax层和全局特征融合网络;
自适应产生滤波层过程如下:
F为输入特征图的通道,共c个通道,将输入的特征图依次分为g个连续通道组,记通道组为Fg,每个通道组的特征共享相同的滤波器参数,每个通道特征学习到的滤波器为Wg n,其维度为h×w×1,h代表滤波器高度,w代表滤波器宽度,1代表滤波器的通道数,最后组合成一个h×w×g的滤波层,为每个学习到的滤波层添加一个通过模型学习得到的自适应权重系数λn,n代表第n种滤波层,n∈[1,3];
在融合前,引入Softmax层对三个滤波层的权重参数λn进行处理得到λ'n,公式如下:
训练过程中,λ'反向传播更新流程为,求出损失函数关于滤波层中每个位置的参数Wi,j,l的导数,对求导结果求和再求平均,采用梯度下降法进行更新,公式如下:
其中,k代表更新进行到的次数,α代表学习率,L代表损失函数;
融合时,采用对应元素相加的方法,使3个滤波层融合成针对三种噪声的自适应滤波层Wg',融合公式如下:
然后对第l组中通道特征图F,利用对应的第l组滤波器进行滤波操作,公式如下:
F′i,j,l=W′i,j,l*Fi,j,l
其中,F′i,j,l为与输入特征图F在(i,j)位置处的输出特征;
全局特征融合网络如下:
全局特征融合网络由三部分组成,包括一条自上而下的特征补充增强路径、一条自下而上的不同维度特征生成路径、引入注意力机制的特征融合模块;
在自上而下的特征补充增强路径中,将经过Conv4_3、Conv7、Conv8_2、Conv9_2、Conv10_2、Conv11_2层输出的结果,记作Ci,i∈[1,6],共6个特征图进行融合,在特征图进入融合前,都预先使用1×1的卷积核,进行通道调整,卷积核个数与上一层特征图通道数一致,公式如下:
其中,C'代表经过1×1的卷积核进行通道调整后的特征图,i代表第i层,h代表特征图的高度,w代表特征图的宽度,c代表特征图的通道数,·代表卷积操作,Kernel代表卷积核;
调整后的特征图进行2倍最邻近插值上采样,得到Ui,i∈[1,6],然后与下一层特征图进行元素式操作;元素式操作采用方法为对应元素的积,公式如下:
其中,P代表元素式操作融合结果,i代表第i层,代表对应元素相乘操作;
在自下而上的不同维度特征生成路径中,对{P1,P2,P3}三层进行操作,从P1到P3,空间尺寸采用下采样,生成与{P1,P2,P3}相对应的特征图{N1,N2,N3},从Ni到Ni+1的过程为:Ni通过与一个大小为3×3、步长为2的卷积核做卷积减小尺寸,产生与Pi+1尺寸相同的特征图,之后Pi+1与下采样的特征图采用对应元素积的方式进行元素式操作,元素式操作后的特征图经过另外一个大小为3×3、步长为1的卷积核产生Ni+1,上述操作公式如下:
其中,代表大小为3×3、步长为1的卷积核,代表大小为3×3、步长为2的卷积核,代表对应元素相乘操作,最终产生的{N1,N2,N3}与{P1,P2,P3}每一层相互对应,空间尺寸和通道尺寸相同;
在特征图引入注意力机制的特征融合模块前,将不同层级的特征图{N1,N2,N3}通过线性插值或者最大池化重构成N2的尺寸大小,得到{M1,M2,M3},然后取均值得到平衡语义特征Mb,在第i层分辨率特征记作Mi,Mb公式如下:
其中,I代表特征图总层数;
将平衡语义特征Mb∈RH×W×C输入SE注意力模块,进入通道注意力分支进行运算,产生相应的注意力图,在通道注意力分支中,通过全局池化操作聚合特征图的空间信息Mavg∈R1 ×1×C,通过一个1×1×(C/r)全连接层和一个Relu激活函数,其中r由经验值设定,再通过一个1×1×C全连接层和一个Sigmoid激活函数,产生通道注意力图Mc∈R1×1×C,上述过程公式如下:
Mc=σ(FC2(γ(FC1(Mavg))))
其中σ代表Sigmoid函数,γ代表Relu函数,FC代表全连接层;
将得到的Mc作用于SE注意力模块的输入特征图Mb,得到经过注意力机制增强特征表示A,公式如下:
将SE注意力模块的输出A使用相同但相反的过程,重构到与各层级对应相同的尺寸,得到{A1,A2,A3},与输入{P1,P2,P3}进行加和操作,得到{G1,G2,G3},公式如下:
Gi=Ai+Pi,i∈(1,2,3)
用{G1,G2,G3}替代原模型中的{P1,P2,P3},最终{G1,G2,G3,P4,P5,P6}进入检测层;
(3)改进网络的Softmax损失函数,针对基准SSD学习模型所使用的Softmax损失函数,引入中心损失函数进行修正;
中心损失函数Lc定义如下:
其中yi表示第i个样本的类别,Cyi表示第yi种类别样本的特征中心点,xi表示在全连接层以前提取到的特征,m表示mini-batch的大小,即更新一次训练参数时所要求训练的图片数量的大小;
损失函数改进如下,在基准SSD学习模型的损失函数的基础上,结合中心损失函数,引入参数η、用于调节基准SSD损失函数和中心损失函数的比例,如下,
其中,Lconf(x,c)为置信损失函数,Lloc(x,l,g)为位置损失函数,α为加权系数,用来衡量位置损失在总损失中占的比例,参数η、表示基准SSD损失函数L(x,c,l,g)和中心损失函数的比例权重,N为默认框的正样本数量,x表示提取到的特征,c为类别置信度预测值,l为默认框所对应边界框的偏移位置预测值,g为真值标签的位置参数;
(4)使用改进后的SSD学习模型在树木数据集上进行训练提取不同种类的树木所具有的特征表示,使用训练好的模型识别树木种类。
2.根据权利要求1所述的识别方法,其特征在于:在步骤(1)中,使用K-means++方法聚类生成默认候选框的过程如下:
首先确定聚类样本,其中默认候选框尺度样本集为s={s1,…,sk,…,st},共t个样本,即无人机拍摄的树木数据集中所标注的t个树木目标尺度,为样本集中第k个样本,wk、hk分别为无人机拍摄的树木数据集中所标注的第k个树木目标边界框的宽高信息,wo、ho则分别为原始图像的宽高信息;
默认候选框宽高比样本集r={r1,…,rk,…,rt},共t个样本,即数据集中标注的t个树木目标的宽高比例信息,其中rk=wkhk/woho;
其次,运用K-means++聚类算法对默认候选框尺度和宽高比两个样本集进行聚类,包括初始化K个聚类中心以及进行标准K-means聚类迭代两个步骤,在两个步骤中所采用距离公式均为:
式中μsj和μrj分别是针对尺度样本集s和宽高比样本集r聚类过程中的第j个聚类中心;
最后运行基准K-means聚类算法,默认候选框尺度聚类K值设为6,对应改进SSD学习模型中6个用于检测回归的特征图;宽高比聚类设为6,与基准SSD学习模型相同,6个用于分类回归的特征图层依据其尺寸选择相应默认候选框尺度,每个尺度对应聚类得到的6个宽高比,用于取代原始SSD学习模型中的默认候选框。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110726043.8A CN113627240B (zh) | 2021-06-29 | 2021-06-29 | 一种基于改进ssd学习模型的无人机树木种类识别方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110726043.8A CN113627240B (zh) | 2021-06-29 | 2021-06-29 | 一种基于改进ssd学习模型的无人机树木种类识别方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113627240A CN113627240A (zh) | 2021-11-09 |
CN113627240B true CN113627240B (zh) | 2023-07-25 |
Family
ID=78378513
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110726043.8A Active CN113627240B (zh) | 2021-06-29 | 2021-06-29 | 一种基于改进ssd学习模型的无人机树木种类识别方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113627240B (zh) |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114663769B (zh) * | 2022-04-07 | 2023-04-18 | 杭州电子科技大学 | 一种基于YOLO v5的水果识别方法 |
CN117871792B (zh) * | 2024-03-13 | 2024-05-14 | 河北省建筑科学研究院有限公司 | 用于对园区绿植碳汇的动态监测方法及系统 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109685831A (zh) * | 2018-12-20 | 2019-04-26 | 山东大学 | 基于残差分层注意力和相关性滤波器的目标跟踪方法及系统 |
CN109858547A (zh) * | 2019-01-29 | 2019-06-07 | 东南大学 | 一种基于bssd的目标检测方法与装置 |
CN110598767A (zh) * | 2019-08-29 | 2019-12-20 | 河南省收费还贷高速公路管理有限公司航空港分公司 | 一种基于ssd卷积神经网络的地下排水管道缺陷识别方法 |
WO2020140371A1 (zh) * | 2019-01-04 | 2020-07-09 | 平安科技(深圳)有限公司 | 基于深度学习的识别车辆损伤的方法和相关装置 |
CN111666836A (zh) * | 2020-05-22 | 2020-09-15 | 北京工业大学 | M-f-y型轻量化卷积神经网络的高分辨率遥感影像目标检测方法 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US11055574B2 (en) * | 2018-11-20 | 2021-07-06 | Xidian University | Feature fusion and dense connection-based method for infrared plane object detection |
-
2021
- 2021-06-29 CN CN202110726043.8A patent/CN113627240B/zh active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109685831A (zh) * | 2018-12-20 | 2019-04-26 | 山东大学 | 基于残差分层注意力和相关性滤波器的目标跟踪方法及系统 |
WO2020140371A1 (zh) * | 2019-01-04 | 2020-07-09 | 平安科技(深圳)有限公司 | 基于深度学习的识别车辆损伤的方法和相关装置 |
CN109858547A (zh) * | 2019-01-29 | 2019-06-07 | 东南大学 | 一种基于bssd的目标检测方法与装置 |
CN110598767A (zh) * | 2019-08-29 | 2019-12-20 | 河南省收费还贷高速公路管理有限公司航空港分公司 | 一种基于ssd卷积神经网络的地下排水管道缺陷识别方法 |
CN111666836A (zh) * | 2020-05-22 | 2020-09-15 | 北京工业大学 | M-f-y型轻量化卷积神经网络的高分辨率遥感影像目标检测方法 |
Non-Patent Citations (1)
Title |
---|
基于双注意力机制的遥感图像目标检测;周幸;陈立福;;计算机与现代化(第08期);全文 * |
Also Published As
Publication number | Publication date |
---|---|
CN113627240A (zh) | 2021-11-09 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110135267B (zh) | 一种大场景sar图像细微目标检测方法 | |
CN113378632B (zh) | 一种基于伪标签优化的无监督域适应行人重识别方法 | |
US20230252761A1 (en) | Method for classifying hyperspectral images on basis of adaptive multi-scale feature extraction model | |
WO2021227366A1 (zh) | 一种多个小目标的自动准确检测方法 | |
WO2022121289A1 (en) | Methods and systems for mining minority-class data samples for training neural network | |
CN111583263B (zh) | 一种基于联合动态图卷积的点云分割方法 | |
CN108648191B (zh) | 基于贝叶斯宽度残差神经网络的害虫图像识别方法 | |
CN111783782B (zh) | 融合改进UNet和SegNet的遥感图像语义分割方法 | |
CN110309856A (zh) | 图像分类方法、神经网络的训练方法及装置 | |
CN111291809B (zh) | 一种处理装置、方法及存储介质 | |
CN105825502B (zh) | 一种基于显著性指导的词典学习的弱监督图像解析方法 | |
CN107169117B (zh) | 一种基于自动编码器和dtw的手绘图人体运动检索方法 | |
CN110728694B (zh) | 一种基于持续学习的长时视觉目标跟踪方法 | |
CN113627240B (zh) | 一种基于改进ssd学习模型的无人机树木种类识别方法 | |
CN112950780B (zh) | 一种基于遥感影像的网络地图智能生成方法及系统 | |
CN111984817B (zh) | 一种基于自注意力机制加权的细粒度图像检索方法 | |
CN109710804B (zh) | 一种教学视频图像知识点降维分析方法 | |
CN112862792A (zh) | 一种用于小样本图像数据集的小麦白粉病孢子分割方法 | |
CN113420794B (zh) | 一种基于深度学习的二值化Faster R-CNN柑橘病虫害识别方法 | |
CN110853070A (zh) | 基于显著性与Grabcut的水下海参图像分割方法 | |
CN113870157A (zh) | 一种基于CycleGAN的SAR图像合成方法 | |
CN115393719A (zh) | 结合空谱域自适应与集成学习的高光谱图像分类方法 | |
CN112085765A (zh) | 结合粒子滤波及度量学习的视频目标跟踪方法 | |
CN115761240B (zh) | 一种混沌反向传播图神经网络的图像语义分割方法及装置 | |
CN115393631A (zh) | 基于贝叶斯层图卷积神经网络的高光谱图像分类方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |