CN117423020A - 一种检测无人机小目标的动态特征和上下文增强方法 - Google Patents
一种检测无人机小目标的动态特征和上下文增强方法 Download PDFInfo
- Publication number
- CN117423020A CN117423020A CN202311743263.7A CN202311743263A CN117423020A CN 117423020 A CN117423020 A CN 117423020A CN 202311743263 A CN202311743263 A CN 202311743263A CN 117423020 A CN117423020 A CN 117423020A
- Authority
- CN
- China
- Prior art keywords
- features
- data set
- convolution
- representing
- model
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 45
- 238000004364 calculation method Methods 0.000 claims abstract description 50
- 238000012549 training Methods 0.000 claims abstract description 50
- 238000001514 detection method Methods 0.000 claims abstract description 25
- 238000012360 testing method Methods 0.000 claims abstract description 22
- 238000012545 processing Methods 0.000 claims abstract description 16
- 238000012795 verification Methods 0.000 claims abstract description 13
- 238000007781 pre-processing Methods 0.000 claims abstract description 6
- 238000011176 pooling Methods 0.000 claims description 24
- 230000006870 function Effects 0.000 claims description 21
- 238000010606 normalization Methods 0.000 claims description 14
- 230000004913 activation Effects 0.000 claims description 12
- 241000953555 Theama Species 0.000 claims description 9
- 239000013598 vector Substances 0.000 claims description 8
- 230000000694 effects Effects 0.000 claims description 7
- 238000013507 mapping Methods 0.000 claims description 7
- 230000003044 adaptive effect Effects 0.000 claims description 6
- 230000001186 cumulative effect Effects 0.000 claims description 6
- 238000009826 distribution Methods 0.000 claims description 6
- 238000000605 extraction Methods 0.000 claims description 6
- 238000005457 optimization Methods 0.000 claims description 6
- 238000012216 screening Methods 0.000 claims description 6
- 230000000875 corresponding effect Effects 0.000 claims description 3
- 238000005315 distribution function Methods 0.000 claims description 3
- 230000008014 freezing Effects 0.000 claims description 3
- 238000007710 freezing Methods 0.000 claims description 3
- 238000009499 grossing Methods 0.000 claims description 3
- 230000003993 interaction Effects 0.000 claims description 3
- 230000002596 correlated effect Effects 0.000 claims description 2
- 230000002708 enhancing effect Effects 0.000 claims description 2
- 238000010200 validation analysis Methods 0.000 claims description 2
- 238000012544 monitoring process Methods 0.000 abstract description 2
- 238000010586 diagram Methods 0.000 description 6
- 238000013135 deep learning Methods 0.000 description 4
- 241000238631 Hexapoda Species 0.000 description 1
- 241000607479 Yersinia pestis Species 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 201000010099 disease Diseases 0.000 description 1
- 208000037265 diseases, disorders, signs and symptoms Diseases 0.000 description 1
- 238000005192 partition Methods 0.000 description 1
- 238000011160 research Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/10—Terrestrial scenes
- G06V20/17—Terrestrial scenes taken from planes or by drones
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/0464—Convolutional networks [CNN, ConvNet]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/084—Backpropagation, e.g. using gradient descent
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/774—Generating sets of training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/82—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V2201/00—Indexing scheme relating to image or video recognition or understanding
- G06V2201/07—Target detection
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02T—CLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
- Y02T10/00—Road transport of goods or passengers
- Y02T10/10—Internal combustion engine [ICE] based vehicles
- Y02T10/40—Engine management systems
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Evolutionary Computation (AREA)
- General Health & Medical Sciences (AREA)
- Software Systems (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Multimedia (AREA)
- Computing Systems (AREA)
- Biophysics (AREA)
- Medical Informatics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Life Sciences & Earth Sciences (AREA)
- Biomedical Technology (AREA)
- Databases & Information Systems (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Molecular Biology (AREA)
- General Engineering & Computer Science (AREA)
- Mathematical Physics (AREA)
- Remote Sensing (AREA)
- Image Analysis (AREA)
Abstract
本发明公开一种检测无人机小目标的动态特征和上下文增强方法,属于无人机数据图像处理技术领域。具体包括:S1对智能无人机拍摄的图像进行预处理;S2对处理后的图像数据进行训练数据集、验证数据集和测试数据集的划分;S3基于无人机采集的数据集构建一种动态特征和上下文增强的小目标检测模型;S4使用S2中的训练数据集和验证数据集对S3搭建的检测模型进行训练、验证和优化,并将得到的最优模型权重进行保存;S5将S2中的测试数据集输入S3中构建的模型,通过加载S4中的最优模型权重,以检测无人机拍摄的小目标。相比现有技术,本发明模型有更少的参数量和计算量,能搭载到无人机设备中进行实时监测,成本降低。
Description
技术领域
本发明属于无人机数据图像处理和深度学习小目标检测技术领域,具体涉及一种检测无人机小目标的动态特征和上下文增强方法。
背景技术
智能无人机实时高空拍摄地面作业、农作物病虫害、森林火灾等方面的图像,是保证人们生命财产安全的基础和重要支撑。分辨率的清晰程度是保证检测精度的重要指标。高分辨率图像可以帮助无人机设备和研究人员更好的检测目标。高端的无人机设备可以拍摄出高分辨率的图像,保证目标的清晰度,提供更精确的检测精度。但是,高端的无人机受到成本的限制,因此通过研究算法来提高检测精度是一种更有效的方法。
随着深度学习的不断发展,基于深度学习的小目标检测方法逐渐崭露头角。这种方法就是通过模型训练大量的图像数据,训练好的模型去测试,以获得小目标的检测结果。这是一种有效的检测方法,但是无人机拍摄的图像存在物体尺寸较小、背景信息复杂和物体模糊等问题会影响模型的检测效果,此外,由于拍摄的图像太大,里面的物体太小,导致特征之间的相关性差。因此,需要一种更适合无人机拍摄图像的深度学习小目标检测方法。
发明内容
本发明针对现有技术中存在的问题,本发明提供一种检测无人机小目标的动态特征和上下文增强方法。
为实现上述技术目的,本发明所采用的技术方案为:
一种检测无人机小目标的动态特征和上下文增强方法,包括以下步骤:
S1:对无人机拍摄的图像进行预处理;
S2:将步骤S1中的处理后的图像数据划分为训练数据集、验证数据集和测试数据集;
S3:基于无人机采集的数据集构建一种动态特征和上下文增强的小目标检测模型;
S4:使用步骤S2中的训练数据集和验证数据集对步骤S3搭建的检测模型进行训练、验证和优化,并将得到的最优模型权重进行保存;
S5:将步骤S2中的测试数据集输入S3中构建的模型,通过加载S4中的最优模型权重,以检测无人机拍摄的小目标。
进一步的,步骤S1,对无人机拍摄的图像进行预处理,包括以下步骤:
S11:对无人机从不同高度和不同城市拍摄的图像数据进行筛选,将没有标签和拍摄重影的图像筛除,保留有标签和没有重影的图像数据;
S12:对步骤S11中有标签和没有重影的图像数据重新调整分辨率,保持所有图像分辨率一致。
进一步的,步骤S2,将步骤S1中的处理后的图像数据划分为训练数据集、验证数据集和测试数据集,包括以下步骤:
S21:对步骤S12相同分辨率的图像数据的所有图片名字进行重命名;
S22:根据S21中重命名的图像将所对应的标签进行重命名,使得标签与图像一一对应;
S23:对S22重命名后的图像和标签分别建立图像和标签文件夹,并将图像和标签分别放入这两个文件夹;
S24,将所有步骤S23的图像样本按照3:2:1的比例划分为训练数据集、验证数据集和测试数据集。
进一步的,基于无人机采集的数据集构建一种动态特征和上下文增强的小目标检测模型,包括以下步骤:
S31:训练数据集被重新分配尺寸,并被输入主干网中,通过5个普通卷积块和4个残差卷积块进行特征提取,其中第2个残差卷积块输出浅层特征,第3个残差卷积块输出中间层特征,第4个残差卷积块输出深层特征;
S32:将提取到的浅层特征、中间层特征和深层特征分别送入自适应多维注意力(Adaptive Multi-dimensional Attention,AMA)模块中进一步选择关键特征信息;其中自适应多维注意力单元的结构为:对提取的特征划分为水平特征.和垂直特征/>,利用自适应最大池化(AdaptiveMaxpool2d,AM)进行下采样处理,对处理后的特征按通道维度进行拼接,并继续划分为水平特征/>和垂直特征/>,目的是为了细化特征,水平特征/>和垂直特征/>的公式表示为:/>,其中/>表示按照通道维度将特征进行拼接,/>表示划分,接着,通过3×3卷积和1×1卷积分别对水平特征/>和垂直特征/>处理得到特征/>和/>,对特征/>和/>继续使用/>得到特征/>和特征/>,将特征/>和特征/>依次送入组卷积、激活函数和组卷积中,通过更新参数/>来选择重要的特征信息/>,重要特征信息/>的计算公式为:,其中,/>表示激活函数,参数/>,且/>,/>,/>,/>和/>表示权重,/>代表将通道数分成/>组,以减少参数数量,/>表示通道数,/>表示宽度,/>表示高度,/>表示集合,将/>、和/>逐元素相乘,得到最后的输出特征/>,输出特征的计算公式为:,其中/>表示逐元素相乘。/>表示通过AMA模块选择的重要输出特征;
S33,将AMA模块应用到浅层、中间层和深层特征提取位置,并通过区域特征处理模块(Regional feature processing,RFP)捕捉更多小目标的详细信息;浅层可以提供更多小目标的定位信息,中间层可以提供部分位置信息和语义信息,而深层提供更多的抽象信息;模块RFP的具体结构为:浅层和中间层被AMA选择的重要特征还存在粗糙的特征信息,因此,将所有样本的特征信息进行层归一化,利用3×3卷积实现跨通道的交互,然后使用正则化方法处理特征并与/>按通道拼接,得到特征/>,对特征/>进行层归一化处理,并利用1×1标准卷积进行特征的平滑并与/>按通道拼接得到特征/>,对特征/>使用层归一化、3×3卷积和激活函数将特征映射到复杂的空间,以提高模型的性能,特征/>和特征/>的计算公式为:
,
,其中/>表示来自浅层的AMA选择的/>个粗糙样本,/>表示中间层的AMA选择的/>个粗糙样本,/>表示按通道拼接,/>表示3×3标准卷积,表示1×1卷积,/>表示层归一化方法,/>表示正则化方法,/>是输入部分的恒等映射,/>表示所有输入样本的特征都被层归一化,/>和/>分别代表均值和标准差,/>是一个接近于零的常数,因为所选特征/>是连续的随机变量,所以为了控制特征的计算,选择了累积分布函数,计算公式为:/>,其中/>是卷积得到的特征,/>表示/>的高斯正态分布的累积分布,/>为平均值。/>是标准差,/>是圆的周长,/>是指数函数,然后,通过1×1卷积有选择地提取特征,此时,噪声被去除,最后,使用正则化方法进一步细化特征并与特征/>按通道拼接得到输出特征/>,特征处理的过程表示为:/>,;
为样本/>和/>的光滑特征,/>为带噪声的输入特征,/>表示RFP模块选择的最终结果,/>是1×1卷积,/>是正则化方法,/>是按通道拼接;
S34,深层特征被输入到多维池化Transformer(Multi-dimensional pooltransformer,MPT)模块,该模块包括AMA模块、组串联池化模块(Grouped tandem pooling,GTP)和组自注意力(Grouped self-attention,GSA)模块,具体来说:深度网络捕获的全局信息被AMA选择以后,被送入GTP以扩大感受野,并减少模型的参数数量,被GTP处理后的特征被送入GSA中,以提高相似特征之间的相关性,最后,将相关性高的特征输出到预测模块;GTP结构单元为:输入特征经过两个路径分支,其中一个路径单独使用一个1×1组卷积,另一个路径,使用连续的1×1组卷积和3×3组卷积,再使用1×1组卷积后,通过连续的三个最大池化层,其中池化核大小都是5,三个池化层输出的特征与最大池前的1×1组卷积输出特征进行通道拼接,以得到输出特征,再利用一个1×1和3×3组卷积处理,并与另一条路径的输出特征按照通道拼接,拼接后的特征被1×1组卷积处理后,与AMA选择的特征和RFP输出的特征按通道拼接以得到最终输出特征,GTP中感受野和参数数量的计算公式为:
,
,其中/>是当前层的感受野,/>是前两层的感受野,/>表示层数,/>是卷积核的大小,表示前两层步长,/>表示上一层步长,/>和/>分别表示卷积核大小为1和3,/>是输入特征映射的个数,/>是输出特征映射的个数,/>为隐藏层中特征映射的个数,/>是分组的个数,/>为GTP模块参数的数量;GSA结构单元为:GTP输出的特征被送入GSA中,通过4个组自注意力里面的16个头对信息进行处理,最后通过全连接激活函数层得到输出特征,并连续递归3次得到最终的输出特征。组自注意力中对查询向量/>、键向量/>和值向量的计算公式为:/>,,其中/>是组自注意力,/>是组自注意力中头的个数,/>为Concat,目的是根据通道维度拼接信息,/>为比例因子,用于调整该值,和/>是可学习权值,/>是转置向量,/>是向量集合,/>均表示参数值,/>是归一化方法,由两个RFP模块和一个MPT模块处理后的特征被送入预测模块进行模型的回归和预测。
进一步的,步骤S4,使用步骤S2中的训练数据集和验证数据集对步骤S3搭建的检测模型进行训练、验证和优化,并保存最优权重,具体方法为:
S41:对训练集输入到模型中进行训练,设置各项训练的参数,其中初始学习率设置为0.01,总的训练轮数为300轮,每20轮保存一次权重,结束训练时保留最优权重;
S42:构建模型反向传播的损失函数,通过交并比(Intersection over Union,IoU)计算候选框和真实框的面积重合比例,计算公式为:/>,其中/>表示面积;接着,通过定位损失/>计算预测框和真实框之间的误差,类别损失和置信度损失采用相同的二元交叉熵损失(Binary Cross Entropy Loss,BCELoss),分别记为/>和/>,定位损失/>的计算公式为:/>,/>,,其中,/>是预测框,/>是真实框,/>表示计算两个中心点间的欧式距离,/>表示能够同时包含预测框和真实框的最小闭包区域的对角线距离,/>表示平衡参数,衡量长宽比是否一致,/>是宽度,/>是高度;类别损失函数/>和置信度损失函数/>的计算公式为:
,
,
其中是类别的数量,/>表示样本/>的概率值,/>是样本/>的期望,/>表示样本/>的概率值,/>是样本/>的期望;最终的总体损失函数计算公式为:
,其中/>表示总体损失的计算结果;
S43:通过验证数据集验证模型的性能,在模型预测部分需要计算平均精度(meanAverage Precision,mAP)来体现模型性能的好坏,的数值越高(最大值为1),模型的检测效果越好,/>的计算公式为:/>的计算公式为:/>,/>,,/>,其中,/>是查准率,表示预测框中有多少真正包含了目标,/>是召回率,表示真正的目标中有多少被预测框包含,/>表示预测框里有目标,/>表示预测框里没有目标,/>表示有目标的位置没有预测框,/>表示/>和/>与轴和/>轴围成的面积,即/>,/>表示预测的类别数量;将/>结果最高的权重进行保存;
S44:训练过程中,为了保证模型参数的优化更新,利用SGD(Stochastic GradientDescent)优化器进行优化,以解决局部最优点问题,引入了随机性,即将每个数据样本输入网络计算梯度后就进行一次更新,其计算公式为:,其中,/>是模型的参数,/>表示样本/>输入模型后对参数进行更新,/>表示批次大小,/>是学习率,循环更新到训练次数结束,输出模型的最优权重;
S45:按照步骤S43继续计算的数值,直到完成所有训练次数为止。
进一步的,步骤S5,将步骤S2中的测试数据集输入S3中构建的模型,通过加载S4中的最优模型权重,以检测无人机拍摄的小目标,具体方法为:
S51:将步骤S2的测试数据集输入到步骤S3构建的模型中,设置置信度为0.6;
S52:将步骤S4中保存的最优权重加载到步骤S3构建的模型中,冻结主干网部分,测试输出结果。
有益效果:
本发明提供一种检测无人机小目标的动态特征和上下文增强方法,能够通过无人机拍摄的高分辨率图像来提升检测模糊和背景信息复杂的小物体的效果。相比于流行的小目标检测模型,本发明提出的模型有更少的参数量和计算量,能搭载到无人机设备中进行实时监测,大大降低了成本。
附图说明
图1为本发明提供的一种检测无人机小目标的动态特征和上下文增强方法的整体流程示意图;
图2为本发明设计的检测无人机小目标的动态特征和上下文增强模型的示意图;
图3为图2中主干网的结构示意图;
图4为图2中自适应多维注意力模块的结构示意图;
图5为图2中组串联池化模块的结构示意图;
图6为所提出方法的检测白天图像的效果;
图7为所提出方法的检测夜晚图像的效果;
图8为本发明中模型训练的流程图。
具体实施方式
下面结合具体实施例对本发明的技术方案做进一步说明,但不限于此。
实施例1
一种检测无人机小目标的动态特征和上下文增强方法,整体流程图如图1所示,包括以下步骤:
步骤S1,对无人机拍摄的图像进行预处理;
S11,对智能无人机从不同高度和不同城市拍摄的图像数据进行筛选,将没有标签和拍摄重影的图像筛除,保留有标签和没有重影的图像数据;
S12,对步骤S11中有标签和没有重影的图像数据重新调整分辨率1024×1024,保持所有图像分辨率一致。
步骤S2,将步骤S1中的处理后的图像数据划分为训练数据集、验证数据集和测试数据集;
S21,对步骤S12相同分辨率的图像数据的所有图片名字进行重命名;
S22,根据S21中重命名的图像将所对应的标签进行重命名,使得标签与图像一一对应;
S23,对S22重命名后的图像和标签分别建立图像和标签文件夹,并将图像和标签分别放入这两个文件夹;
S24,将步骤S23的图像样本包括10个类别,分别是行人、人、汽车、面包车、公共汽车、卡车、摩托车、自行车、遮阳篷三轮车和三轮车,图像被划分为6471张训练数据集、548张验证数据集和3190张测试数据集。
步骤S3,基于无人机采集的数据集构建一种动态特征和上下文增强的小目标检测模型,模型整体结构图如附图2所示;
S31,训练数据集被输入主干网中,通过5个普通卷积块和4个残差卷积块进行特征提取,其中第2个残差卷积块输出浅层特征,第3个残差卷积块输出中间层特征,第4个残差卷积块输出深层特征,主干网整体结构如附图3所示;
S32,将提取到的浅层特征、中间层特征和深层特征分别送入自适应多维注意力(Adaptive Multi-dimensional Attention,AMA)模块中进一步选择关键特征信息。AMA的结构如附图4所示,提取的特征被划分为水平特征和垂直特征/>,利用自适应最大池化(AdaptiveMaxpool2d,AM)进行下采样处理,对处理后的特征按通道维度进行拼接,并继续划分为水平特征Fh1和垂直特征Fv1,目的是为了细化特征。水平特征Fh1和垂直特征Fv1的公式表示为:/>,其中/>表示按照通道维度将特征进行拼接。/>表示划分。接着,通过3×3卷积和1×1卷积分别对水平特征/>和垂直特征/>处理得到特征/>和/>。对特征/>和/>继续使用/>得到特征/>和特征/>。将特征和特征/>依次送入组卷积、激活函数和组卷积中,通过更新参数/>来选择重要的特征信息/>。重要特征信息/>的计算公式为:/>,其中,/>表示激活函数。参数/>,且/>,/>,。/>和/>表示权重。/>代表将通道数分成/>组,以减少参数数量。/>表示通道数。/>表示宽度。/>表示高度。/>表示集合。将/>、/>和/>逐元素相乘,得到最后的输出特征/>。输出特征的计算公式为:/>,其中/>表示逐元素相乘。表示通过AMA模块选择的重要输出特征;
S33,将AMA模块应用到浅层、中间层和深层特征提取位置,并通过区域特征处理模块(Regional feature processing,RFP)捕捉更多小目标的详细信息。浅层可以提供更多小目标的定位信息,中间层可以提供部分位置信息和语义信息,而深层提供更多的抽象信息。RFP模块如附图2所示,被AMA选择的重要特征还存在粗糙的特征信息,因此,将所有样本的特征信息进行层归一化,利用3×3卷积实现跨通道的交互,然后使用正则化方法处理特征并与/>按通道拼接,得到特征/>,对特征/>进行层归一化处理,并利用1×1标准卷积进行特征的平滑并与/>按通道拼接得到特征/>,对特征/>使用层归一化、3×3卷积和激活函数将特征映射到复杂的空间,特征/>和特征/>的计算公式为:
,
,其中/>表示来自浅层的AMA选择的/>个粗糙样本,/>表示中间层的AMA选择的/>个粗糙样本,/>表示按通道拼接,/>表示3×3标准卷积,表示1×1卷积,/>表示层归一化方法,/>表示正则化方法,/>是输入部分的恒等映射,/>表示所有输入样本的特征都被层归一化,/>和/>分别代表均值和标准差,/>是一个接近于零的常数。所选特征/>是连续的随机变量,通过累积分布函数控制特征的计算,其公式为:
,其中/>是卷积得到的特征。表示/>的高斯正态分布的累积分布。/>为平均值。/>是标准差。/>是圆的周长。/>是指数函数。然后,通过1×1卷积有选择地提取特征。此时,噪声被去除。最后,使用正则化方法进一步细化特征并与特征/>按通道拼接得到输出特征/>。特征处理的过程表示为:/>,/>;
为样本/>和/>的光滑特征,/>为带噪声的输入特征,/>表示RFP模块选择的最终结果,/>是1×1卷积,/>是正则化方法,/>是按通道拼接;
S34,深层特征被输入到多维池化Transformer(Multi-dimensional pooltransformer,MPT)模块,MPT如附图2所示,该模块包括AMA模块、组串联池化模块(Groupedtandem pooling,GTP)和组自注意力(Grouped self-attention,GSA)模块。具体来说:深度网络捕获的全局信息被AMA选择以后,被送入GTP以扩大感受野,并减少模型的参数数量。被GTP处理后的特征被送入GSA中,以提高相似特征之间的相关性,最后,将相关性高的特征输出到预测模块。
GTP模块如附图5所示,输入特征经过两个路径分支,其中一个路径单独使用一个1×1组卷积,另一个路径,使用连续的1×1组卷积和3×3组卷积,再使用1×1组卷积后,通过连续的三个最大池化层,其中池化核大小都是5,三个池化层输出的特征与最大池前的1×1组卷积输出特征进行通道拼接,以得到输出特征,再利用一个1×1和3×3组卷积处理,并与另一条路径的输出特征按照通道拼接,拼接后的特征被1×1组卷积处理后,与AMA选择的特征和RFP输出的特征按通道拼接以得到最终输出特征。GTP中感受野和参数数量的计算公式为:,,其中是当前层的感受野。/>是前两层的感受野。/>表示层数。/>是卷积核的大小。/>表示前两层步长。/>表示上一层步长。/>和/>分别表示卷积核大小为1和3。/>是输入特征映射的个数。/>是输出特征映射的个数。/>为隐藏层中特征映射的个数。/>是分组的个数。/>为GTP模块参数的数量。
GSA结构单元为:GTP输出的特征被送入GSA中,通过4个组自注意力里面的16个头对信息进行处理,最后通过全连接层和激活函数得到输出特征。组自注意力中对查询向量、键向量/>和值向量/>的计算公式为:
,/>,其中/>是组自注意力。/>是组自注意力中头的个数。/>为Concat,目的是根据通道维度拼接信息。/>为比例因子,用于调整该值。/>和/>是可学习权值。/>是转置向量。/>是向量集合。/>均表示参数值。/>是归一化方法,由两个RFP模块和一个MPT模块处理后的特征被送入预测模块进行模型的回归和预测。
步骤S4,使用步骤S2中的训练数据集和验证数据集对步骤S3搭建的检测模型进行训练、验证和优化,并将得到的最优模型权重进行保存,整个训练过程如附图8所示;
S41,训练集输入到模型中进行训练,设置各项训练的参数,其中初始学习率设置为0.01,总的训练轮数为300轮,每20轮保存一次权重,结束训练时保留最优权重;
S42,构建模型反向传播的损失函数,通过交并比(Intersection over Union,IoU)计算候选框和真实框的面积重合比例。计算公式为:
,
其中表示面积。接着,通过定位损失/>计算预测框和真实框之间的误差,类别损失和置信度损失采用相同的二元交叉熵损失(Binary Cross Entropy Loss,BCELoss),分别记为/>和/>。定位损失/>的计算公式为:
,/>,/>,其中,/>是预测框,/>是真实框,/>表示计算两个中心点间的欧式距离,/>表示能够同时包含预测框和真实框的最小闭包区域的对角线距离,/>表示平衡参数,/>衡量长宽比是否一致。/>是宽度。/>是高度。
类别损失函数和置信度损失函数/>的计算公式为:
,,其中/>是类别的数量,/>表示样本/>的概率值,/>是样本/>的期望,/>表示样本/>的概率值,/>是样本/>的期望。最终的总体损失函数计算公式为:/>其中/>表示总体损失的计算结果;
S43,通过验证数据集验证模型的性能,在模型预测部分需要计算平均精度(meanAverage Precision,mAP)来体现模型性能的好坏,的数值越高(最大值为1),模型的检测效果越好。/>的计算公式为:/>,/>,/>,,其中,/>是查准率,表示预测框中有多少真正包含了目标,/>是召回率,表示真正的目标中有多少被预测框包含,/>表示预测框里有目标,/>表示预测框里没有目标,/>表示有目标的位置没有预测框,/>表示/>和/>与/>轴和/>轴围成的面积,即/>,/>表示预测的类别数量。将/>结果最高的权重进行保存;
S44,训练过程中,为了保证模型参数的优化更新,利用SGD(Stochastic GradientDescent)优化器进行优化,以解决局部最优点问题,引入了随机性,即将每个数据样本输入网络计算梯度后就进行一次更新,其计算公式为:
,其中,/>模型的参数,表示样本/>输入模型后对参数进行更新,/>表示批次大小,/>是学习率。循环更新到训练次数结束,输出模型的最优权重;
S45,按照步骤S43继续计算的数值,直到完成所有训练次数为止。
步骤S5,将步骤S2中的测试数据集输入S3中构建的模型,通过加载S4中的最优模型权重,以检测无人机拍摄的小目标。
S51,将步骤S2的测试数据集输入到步骤S3构建的模型中,设置置信度为0.6;
S52,将步骤S4中保存的最优权重加载到步骤S3构建的模型中,冻结主干网部分,测试输出结果。
需要说明的是,上述实施例仅仅是实现本发明的优选方式的部分实施例,而非全部实施例。显然,基于本发明的上述实施例,本领域普通技术人员在没有做出创造性劳动的前提下所获得的其他所有实施例,都应当属于本发明保护的范围。
Claims (6)
1.一种检测无人机小目标的动态特征和上下文增强方法,其特征在于,包括以下步骤:
S1:对无人机拍摄的图像进行预处理;
S2:将步骤S1中的处理后的图像数据划分为训练数据集、验证数据集和测试数据集;
S3:基于无人机采集的数据集构建一种动态特征和上下文增强的小目标检测模型;
S4:使用步骤S2中的训练数据集和验证数据集对步骤S3搭建的检测模型进行训练、验证和优化,并将得到的最优模型权重进行保存;
S5:将步骤S2中的测试数据集输入S3中构建的模型,通过加载S4中的最优模型权重,以检测无人机拍摄的小目标。
2.根据权利要求1所述检测无人机小目标的动态特征和上下文增强方法,其特征在于,步骤S1,对无人机拍摄的图像进行预处理,包括以下步骤:
S11:对无人机从不同高度和不同城市拍摄的图像数据进行筛选,将没有标签和拍摄重影的图像筛除,保留有标签和没有重影的图像数据;
S12:对步骤S11中有标签和没有重影的图像数据重新调整分辨率,保持所有图像分辨率一致。
3.根据权利要求1所述检测无人机小目标的动态特征和上下文增强方法,其特征在于,步骤S2,将步骤S1中的处理后的图像数据划分为训练数据集、验证数据集和测试数据集,包括以下步骤:
S21:对步骤S12相同分辨率的图像数据的所有图片名字进行重命名;
S22:根据S21中重命名的图像将所对应的标签进行重命名,使得标签与图像一一对应;
S23:对S22重命名后的图像和标签分别建立图像和标签文件夹,并将图像和标签分别放入这两个文件夹;
S24,将所有步骤S23的图像样本按照3:2:1的比例划分为训练数据集、验证数据集和测试数据集。
4.根据权利要求1所述检测无人机小目标的动态特征和上下文增强方法,其特征在于,步骤S3,基于无人机采集的数据集构建一种动态特征和上下文增强的小目标检测模型,包括以下步骤:
S31:训练数据集被重新分配尺寸,并被输入主干网中,通过5个普通卷积块和4个残差卷积块进行特征提取,其中第2个残差卷积块输出浅层特征,第3个残差卷积块输出中间层特征,第4个残差卷积块输出深层特征;
S32:将提取到的浅层特征、中间层特征和深层特征分别送入自适应多维注意力AMA模块中进一步选择关键特征信息;其中自适应多维注意力的结构为:对提取的特征划分为水平特征和垂直特征/>,利用自适应最大池化/>进行下采样处理,对处理后的特征按通道维度进行拼接,并继续划分为水平特征/>和垂直特征/>,水平特征/>和垂直特征的公式表示为:/>,其中/>表示按照通道维度将特征进行拼接,/>表示划分,接着,通过3×3卷积和1×1卷积分别对水平特征/>和垂直特征处理得到特征/>和/>,对特征/>和/>继续使用/>得到特征/>和特征/>,将特征/>和特征/>依次送入组卷积、激活函数和组卷积中,通过更新参数/>来选择重要的特征信息/>,重要特征信息/>的计算公式为:/>,其中,/>表示激活函数,参数/>,且/>,/>,,/>和/>表示权重,/>代表将通道数分成/>组,以减少参数数量,/>表示通道数,/>表示宽度,/>表示高度,/>表示集合,将/>、/>和/>逐元素相乘,得到最后的输出特征/>,输出特征的计算公式为:/>,其中/>表示逐元素相乘,表示通过AMA模块选择的重要输出特征;
S33,将AMA模块应用到浅层、中间层和深层特征提取位置,并通过区域特征处理模块RFP捕捉更多小目标的详细信息;模块RFP的具体结构为:浅层和中间层被AMA选择的重要特征还存在粗糙的特征信息,因此,将所有样本的特征信息进行层归一化,利用3×3卷积实现跨通道的交互,然后使用正则化方法处理特征并与/>按通道拼接,得到特征/>,对特征/>进行层归一化处理,并利用1×1标准卷积进行特征的平滑并与/>按通道拼接得到特征/>,对特征/>使用层归一化、3×3卷积和激活函数将特征映射到复杂的空间,以提高模型的性能,特征/>和特征/>的计算公式为:,
,其中/>表示来自浅层的AMA选择的/>个粗糙样本,/>表示中间层的AMA选择的/>个粗糙样本,/>表示按通道拼接,/>表示3×3标准卷积,/>表示1×1卷积,/>表示层归一化方法,/>表示正则化方法,/>是输入部分的恒等映射,表示所有输入样本的特征都被层归一化,/>和/>分别代表均值和标准差,/>是一个接近于零的常数,因为所选特征/>是连续的随机变量,所以为了控制特征的计算,选择了累积分布函数,计算公式为:/>,其中/>是卷积得到的特征,/>表示/>的高斯正态分布的累积分布,/>为平均值,/>是标准差,/>是圆的周长,/>是指数函数,然后,通过1×1卷积有选择地提取特征,此时,噪声被去除,最后,使用正则化方法进一步细化特征并与特征/>按通道拼接得到输出特征/>,特征处理的过程表示为:/>,;
为样本/>和/>的光滑特征,/>为带噪声的输入特征,/>表示RFP模块选择的最终结果,/>是1×1卷积,/>是正则化方法,/>是按通道拼接;
S34,深层特征被输入到多维池化TransformerMPT模块,该模块包括AMA模块、组串联池化模块GTP和组自注意力GSA模块,具体来说:深度网络捕获的全局信息被AMA选择以后,被送入GTP以扩大感受野,并减少模型的参数数量,被GTP处理后的特征被送入GSA中,以提高相似特征之间的相关性,最后,将相关性高的特征输出到预测模块;GTP结构单元为:输入特征经过两个路径分支,其中一个路径单独使用一个1×1组卷积,另一个路径,使用连续的1×1组卷积和3×3组卷积,再使用1×1组卷积后,通过连续的三个最大池化层,其中池化核大小都是5,三个池化层输出的特征与最大池前的1×1组卷积输出特征进行通道拼接,以得到输出特征,再利用一个1×1和3×3组卷积处理,并与另一条路径的输出特征按照通道拼接,拼接后的特征被1×1组卷积处理后,与AMA选择的特征和RFP输出的特征按通道拼接以得到最终输出特征,GTP中感受野和参数数量的计算公式为:
,
,其中是当前层的感受野,/>是前两层的感受野,/>表示层数,/>是卷积核的大小,/>表示前两层步长,/>表示上一层步长,/>和/>分别表示卷积核大小为1和3,/>是输入特征映射的个数,/>是输出特征映射的个数,/>为隐藏层中特征映射的个数,/>是分组的个数,/>为GTP模块参数的数量;GSA结构单元为:GTP输出的特征被送入GSA中,通过4个组自注意力中的16个头对信息进行处理,最后通过全连接激活函数层得到输出特征,并连续递归3次得到最终的输出特征;组自注意力由中对查询向量/>、键向量/>和值向量/>的计算公式为:/>,/>,其中/>是组自注意力,/>是组自注意力中头的个数,/>为Concat,目的是根据通道维度拼接信息,/>为比例因子,用于调整该值,/>和/>是可学习权值,/>是转置向量,/>是向量集合,/>均表示参数值,/>是归一化方法,由两个RFP模块和一个MPT模块处理后的特征被送入预测模块进行模型的回归和预测。
5.根据权利要求1所述检测无人机小目标的动态特征和上下文增强方法,其特征在于,步骤S4,使用步骤S2中的训练数据集和验证数据集对步骤S3搭建的检测模型进行训练、验证和优化,并保存最优权重,具体方法为:
S41:对训练集输入到模型中进行训练,设置各项训练的参数,其中初始学习率设置为0.01,总的训练轮数为300轮,每20轮保存一次权重,结束训练时保留最优权重;
S42:构建模型反向传播的损失函数,通过交并比IoU计算候选框和真实框的面积重合比例,计算公式为:/>,其中/>表示面积;接着,通过定位损失/>计算预测框和真实框之间的误差,类别损失和置信度损失采用相同的二元交叉熵损失BCELoss,分别记为/>和/>,定位损失/>的计算公式为:/>,,/>,其中,/>是预测框,/>是真实框,/>表示计算两个中心点间的欧式距离,/>表示能够同时包含预测框和真实框的最小闭包区域的对角线距离,/>表示平衡参数,/>衡量长宽比是否一致,/>是宽度,/>是高度;类别损失函数/>和置信度损失函数/>的计算公式为:
,
,
其中是类别的数量,/>表示样本/>的概率值,/>是样本/>的期望,/>表示样本/>的概率值,/>是样本/>的期望;最终的总体损失函数计算公式为:
,其中/>表示总体损失的计算结果;
S43:通过验证数据集验证模型的性能,在模型预测部分需要计算平均精度来体现模型性能的好坏,/>的数值越高,模型的检测效果越好,/>的计算公式为:/>的计算公式为:/>,/>,/>,/>,其中,/>是查准率,表示预测框中有多少真正包含了目标,/>是召回率,表示真正的目标中有多少被预测框包含,/>表示预测框里有目标,/>表示预测框里没有目标,/>表示有目标的位置没有预测框,/>表示/>和/>与/>轴和/>轴围成的面积,即/>,/>表示预测的类别数量;将/>结果最高的权重进行保存;
S44:训练过程中,为了保证模型参数的优化更新,利用SGD优化器进行优化,以解决局部最优点问题,引入了随机性,即将每个数据样本输入网络计算梯度后就进行一次更新,其计算公式为:,其中,/>是模型的参数,表示样本/>和样本/>输入模型后在/>的范围内对参数进行更新,/>表示样本的个数,/>表示批次大小,/>是学习率,循环更新到训练次数结束,输出模型的最优权重;
S45:按照步骤S43继续计算的数值,直到完成所有训练次数为止。
6.根据权利要求1所述检测无人机小目标的动态特征和上下文增强方法,其特征在于,步骤S5,将步骤S2中的测试数据集输入S3中构建的模型,通过加载S4中的最优模型权重,以检测无人机拍摄的小目标,具体方法为:
S51:将步骤S2的测试数据集输入到步骤S3构建的模型中,设置置信度为0.6;
S52:将步骤S4中保存的最优权重加载到步骤S3构建的模型中,冻结主干网部分,测试输出结果。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311743263.7A CN117423020B (zh) | 2023-12-19 | 2023-12-19 | 一种检测无人机小目标的动态特征和上下文增强方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311743263.7A CN117423020B (zh) | 2023-12-19 | 2023-12-19 | 一种检测无人机小目标的动态特征和上下文增强方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN117423020A true CN117423020A (zh) | 2024-01-19 |
CN117423020B CN117423020B (zh) | 2024-02-27 |
Family
ID=89528803
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202311743263.7A Active CN117423020B (zh) | 2023-12-19 | 2023-12-19 | 一种检测无人机小目标的动态特征和上下文增强方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN117423020B (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117974960A (zh) * | 2024-03-28 | 2024-05-03 | 临沂大学 | 一种双光融合动态超分辨率分层感知方法 |
Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114298220A (zh) * | 2021-12-28 | 2022-04-08 | 浙江大学 | 基于上下文注意力动态特征提取器的故障分类方法 |
CN114494284A (zh) * | 2021-12-29 | 2022-05-13 | 电子科技大学 | 一种基于显式监督区域关系的场景解析模型及方法 |
JP2022113117A (ja) * | 2021-01-22 | 2022-08-03 | 富士通株式会社 | ドメイン適応のためのニューラルネットワーク及びその訓練方法 |
CN115631335A (zh) * | 2022-10-14 | 2023-01-20 | 珠海格力电器股份有限公司 | 一种基于自注意力机制与空洞卷积池化的语义分割方法、存储介质和视觉装置 |
CN116052026A (zh) * | 2023-03-28 | 2023-05-02 | 石家庄铁道大学 | 一种无人机航拍图像目标检测方法、系统及存储介质 |
CN116229461A (zh) * | 2023-01-31 | 2023-06-06 | 西南大学 | 一种基于多尺度细化的室内场景图像实时语义分割方法 |
CN116597223A (zh) * | 2023-05-26 | 2023-08-15 | 西安理工大学 | 基于多维注意力的窄带喉镜图像分类方法 |
WO2023185243A1 (zh) * | 2022-03-29 | 2023-10-05 | 河南工业大学 | 基于注意力调制上下文空间信息的表情识别方法 |
CN117115690A (zh) * | 2023-08-31 | 2023-11-24 | 中科领航智能科技(苏州)有限公司 | 一种基于深度学习和浅层特征增强的无人机交通目标检测方法及系统 |
-
2023
- 2023-12-19 CN CN202311743263.7A patent/CN117423020B/zh active Active
Patent Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2022113117A (ja) * | 2021-01-22 | 2022-08-03 | 富士通株式会社 | ドメイン適応のためのニューラルネットワーク及びその訓練方法 |
CN114298220A (zh) * | 2021-12-28 | 2022-04-08 | 浙江大学 | 基于上下文注意力动态特征提取器的故障分类方法 |
CN114494284A (zh) * | 2021-12-29 | 2022-05-13 | 电子科技大学 | 一种基于显式监督区域关系的场景解析模型及方法 |
WO2023185243A1 (zh) * | 2022-03-29 | 2023-10-05 | 河南工业大学 | 基于注意力调制上下文空间信息的表情识别方法 |
CN115631335A (zh) * | 2022-10-14 | 2023-01-20 | 珠海格力电器股份有限公司 | 一种基于自注意力机制与空洞卷积池化的语义分割方法、存储介质和视觉装置 |
CN116229461A (zh) * | 2023-01-31 | 2023-06-06 | 西南大学 | 一种基于多尺度细化的室内场景图像实时语义分割方法 |
CN116052026A (zh) * | 2023-03-28 | 2023-05-02 | 石家庄铁道大学 | 一种无人机航拍图像目标检测方法、系统及存储介质 |
CN116597223A (zh) * | 2023-05-26 | 2023-08-15 | 西安理工大学 | 基于多维注意力的窄带喉镜图像分类方法 |
CN117115690A (zh) * | 2023-08-31 | 2023-11-24 | 中科领航智能科技(苏州)有限公司 | 一种基于深度学习和浅层特征增强的无人机交通目标检测方法及系统 |
Non-Patent Citations (2)
Title |
---|
BO FANG, DONG ZHU, YAYUN CHENG, FEI HU: "Hidden object detection based on probabilistic fuzzy fusion and fisher vectors in passive millimeter-wave images", 《2023 IEEE INTERNATIONAL GEOSCIENCE AND REMOTE SENSING SYMPOSIUM》, 20 October 2023 (2023-10-20), pages 6462 - 6465 * |
张书瑜: "基于深度学习和多尺度多特征融合的高分辨率遥感地表覆盖分类研究", 《中国博士学位论文全文数据 库 工程科技Ⅱ辑》, vol. 2021, no. 01, 15 January 2021 (2021-01-15), pages 028 - 31 * |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117974960A (zh) * | 2024-03-28 | 2024-05-03 | 临沂大学 | 一种双光融合动态超分辨率分层感知方法 |
CN117974960B (zh) * | 2024-03-28 | 2024-06-18 | 临沂大学 | 一种双光融合动态超分辨率分层感知方法 |
Also Published As
Publication number | Publication date |
---|---|
CN117423020B (zh) | 2024-02-27 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN117423020B (zh) | 一种检测无人机小目标的动态特征和上下文增强方法 | |
CN112766087A (zh) | 一种基于知识蒸馏的光学遥感图像舰船检测方法 | |
CN111582225B (zh) | 一种遥感图像场景分类方法及装置 | |
CN111310862A (zh) | 复杂环境下基于图像增强的深度神经网络车牌定位方法 | |
CN111126258A (zh) | 图像识别方法及相关装置 | |
CN113160062B (zh) | 一种红外图像目标检测方法、装置、设备及存储介质 | |
CN111460968A (zh) | 基于视频的无人机识别与跟踪方法及装置 | |
CN112329721B (zh) | 一种模型轻量化设计的遥感小目标检测方法 | |
CN106372666A (zh) | 一种目标识别方法及装置 | |
CN117409190B (zh) | 一种实时红外图像目标检测方法、装置、设备及存储介质 | |
CN117557922B (zh) | 改进YOLOv8的无人机航拍目标检测方法 | |
CN114842208A (zh) | 一种基于深度学习的电网危害鸟种目标检测方法 | |
CN110334645A (zh) | 一种基于深度学习的月球撞击坑识别方法 | |
CN112084895B (zh) | 一种基于深度学习的行人重识别方法 | |
CN115359366A (zh) | 基于参数优化的遥感图像目标检测方法 | |
CN112508924A (zh) | 一种小目标检测识别方法、装置、系统和存储介质 | |
CN110659601A (zh) | 基于中心点的深度全卷积网络遥感图像密集车辆检测方法 | |
CN116524189A (zh) | 一种基于编解码索引化边缘表征的高分辨率遥感图像语义分割方法 | |
CN115546187A (zh) | 基于YOLO v5的农业病虫害检测方法及装置 | |
CN115878832A (zh) | 基于精细对齐判别哈希的海洋遥感图像音频检索方法 | |
CN117351448B (zh) | 一种基于YOLOv8改进的偏振图像道路目标检测方法 | |
CN115760990B (zh) | 一种菠萝花蕊的识别定位方法、电子设备及存储介质 | |
CN116363469A (zh) | 一种少样本红外目标检测方法、装置和系统 | |
CN116363610A (zh) | 一种基于改进YOLOv5的航拍车辆旋转目标检测方法 | |
CN116363532A (zh) | 基于注意力机制和重参数化的无人机图像交通目标检测方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |