CN117974960A - 一种双光融合动态超分辨率分层感知方法 - Google Patents

一种双光融合动态超分辨率分层感知方法 Download PDF

Info

Publication number
CN117974960A
CN117974960A CN202410361308.2A CN202410361308A CN117974960A CN 117974960 A CN117974960 A CN 117974960A CN 202410361308 A CN202410361308 A CN 202410361308A CN 117974960 A CN117974960 A CN 117974960A
Authority
CN
China
Prior art keywords
representing
convolution
model
features
resolution
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202410361308.2A
Other languages
English (en)
Other versions
CN117974960B (zh
Inventor
张敬林
王兴华
刘卫林
王伦乾
夏博
丁昊
王星
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Linyi University
Original Assignee
Linyi University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Linyi University filed Critical Linyi University
Priority to CN202410361308.2A priority Critical patent/CN117974960B/zh
Publication of CN117974960A publication Critical patent/CN117974960A/zh
Application granted granted Critical
Publication of CN117974960B publication Critical patent/CN117974960B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/0464Convolutional networks [CNN, ConvNet]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/44Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components
    • G06V10/443Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components by matching or filtering
    • G06V10/449Biologically inspired filters, e.g. difference of Gaussians [DoG] or Gabor filters
    • G06V10/451Biologically inspired filters, e.g. difference of Gaussians [DoG] or Gabor filters with interaction between the filter responses, e.g. cortical complex cells
    • G06V10/454Integrating the filters into a hierarchical structure, e.g. convolutional neural networks [CNN]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/774Generating sets of training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/776Validation; Performance evaluation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/10Terrestrial scenes

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Evolutionary Computation (AREA)
  • Health & Medical Sciences (AREA)
  • Multimedia (AREA)
  • Artificial Intelligence (AREA)
  • General Health & Medical Sciences (AREA)
  • Computing Systems (AREA)
  • Software Systems (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Molecular Biology (AREA)
  • Biomedical Technology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Databases & Information Systems (AREA)
  • Medical Informatics (AREA)
  • Computational Linguistics (AREA)
  • General Engineering & Computer Science (AREA)
  • Biophysics (AREA)
  • Mathematical Physics (AREA)
  • Data Mining & Analysis (AREA)
  • Biodiversity & Conservation Biology (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开一种双光融合动态超分辨率分层感知方法,属于多模态遥感图像处理技术领域。具体包括:S1对可见光和红外多模态遥感图像进行预处理;S2对处理后的多模态图像数据进行训练数据集和验证数据集的划分;S3基于多模态遥感数据集构建一种双光融合动态超分辨率分层感知目标的检测模型;S4使用S2中的训练数据集对S3搭建的检测模型进行训练和优化,并将得到的最优模型权重进行保存;S5将S2中的验证数据集输入S3中构建的模型,通过加载S4中的最优模型权重,以检测多模态遥感图像的目标。相比现有技术,本发明模型有更少的参数数量和计算量并拥有较高的检测精度,能以低成本搭载到终端设备中对遥感图像进行实时监测。

Description

一种双光融合动态超分辨率分层感知方法
技术领域
本发明属于多模态遥感图像处理技术领域,具体涉及一种双光融合动态超分辨率分层感知方法。
背景技术
遥感图像的检测为防火防灾、军事和航空航天等行业提供了有效的帮助,是保证人们生命财产安全的基础和重要支撑。高分辨率的遥感图像是保证检测精度的重要指标。不同模态的高分辨率图像可以研究人员设计模型来更好的检测目标。但是检测高分辨的遥感图像会极大的消耗计算资源,因此通过研究有效的多模态融合算法是提高检测精度更有效的方法。
随着遥感技术的不断发展,图像的可用性也越来越高,一个区域位置的遥感图像存在多种模式,基于深度学习的多模态融合检测方法逐渐脱颖而出。这种方法就是通过有效融合不同模态的图像数据,以弥补信息不足的问题,主要是通过训练大量的图像数据,将训练好的模型去检测图像,以获得目标的检测结果。例如中国专利申请CN202311368193.1,其公开了一种多模态遥感图像目标检测的特征压缩融合方法及装置。这是一种有效的检测方法,但是可见光和红外图像的融合低效、物体像素占比极小和物体分布不均匀且角度任意变化等问题会影响模型的检测效果,此外,由于遥感图像尺寸太大,严重影响了模型的训练速度。因此,需要一种更适合多模态遥感图像的深度学习目标检测方法。
发明内容
本发明针对现有技术中存在的问题,本发明提供一种双光融合动态超分辨率分层感知方法。
为实现上述技术目的,本发明所采用的技术方案为:
一种双光融合动态超分辨率分层感知方法,包括以下步骤:
S1:对遥感图像的可见光和红外图像进行预处理;
S2:将步骤S1中的处理后的图像数据划分为训练数据集和验证数据集;
S3:基于遥感多模态数据集构建一种双光融合动态超分辨率分层感知目标的检测模型;
S4:使用步骤S2中的训练数据集对步骤S3搭建的检测模型进行训练和优化,并将得到的最优模型权重进行保存;
S5:将步骤S2中的验证数据集输入S3中构建的模型,通过加载S4中的最优模型权重,以检测遥感图像的目标。
进一步的,步骤S1,对遥感图像的可见光和红外图像进行预处理,包括以下步骤:
S11:对可见光和红外图像的数据进行筛选,将没有标签的图像和标签重复的图像筛除,保留有标签和没有重复标签的图像数据;
S12:对步骤S11中有标签和没有重复标签的图像数据重新调整输入图像的分辨率大小,保持所有图像分辨率一致。
进一步的,步骤S2,将步骤S1中的处理后的图像数据划分为训练数据集和验证数据集,包括以下步骤:
S21:对步骤S12相同分辨率的可见光和红外图像数据的所有图片名字进行修改;
S22:根据S21中修改的图像将所对应的标签也进行修改名称,将可见光图像和红外图像名称与标签名称保持一致;
S23:对S22修改后的图像和标签分别建立图像和标签文件夹,并将可见光和红外图像放入图像文件夹,仅将可见光的标签放入标签文件夹;
S24:将所有步骤S23的图像样本按照8:2的比例划分为训练数据集和验证数据集。
进一步的,基于遥感多模态数据集构建一种双光融合动态超分辨率分层感知目标的检测模型,包括以下步骤:
S31:训练的可见光和红外图像被重新分配尺寸,并分别被输入跨模态融合模块中,其中,可见光图像和红外图像分别被1×1卷积进行特征提取,提取的特征分别乘以高的0.5倍,并通过哈达玛乘积进行计算,再分别通过3×3卷积进行特征提取,提取到的特征被通道拼接为特征的公式为:/>,其中/>表示卷积核为1的卷积,/>表示卷积核为3的卷积,/>是哈达玛乘积,/>和/>分别表示可见光和红外数据,/>是特征的高度,/>是按照通道拼接,/>被自适应平均池化处理,接着经过1×1卷积和激活函数处理,将处理后的特征与特征/>按通道维度拼接得到跨模态融合模块的最终特征/>公式为:/>,其中是底为2的指数函数,/>表示输入尺寸大小是宽度为/>和高度为/>的特征/>,/>表示步长,/>表示填充值,/>是卷积核大小,/>是权重系数,/>是偏置值,/>是缩放因子;
S32:将跨模态融合模块的输出特征输入到5个普通卷积块和4个残差卷积块中进行特征提取的操作,将第3个残差卷积块提取的特征送入到空洞感知模块,对目标特征进行有效感知;其中空洞感知模块的结构为:对提取的特征分两条路径处理,第一条路径经过1×1组卷积后被3×3空洞卷积处理,接着被激活函数进行线性映射,提高表征能力,接着通过三个连续采样率为3的3×3空洞卷积对特征的不同尺度进行感知,将三个3×3空洞卷积处理后的特征分别按通道拼接,拼接后的特征被3×3空洞卷积处理,经过激活函数进行非线性映射得到特征;第二条路径经过1×1组卷积处理,将处理后的特征与/>按通道拼接得到空洞感知模块的输出特征/>,空洞感知模块的流程表示为:,其中,/>表示采样率大小,/>表示输入的样本向量,/>表示分组数为/>的标准卷积,/>表示卷积核为3的空洞卷积,/>是第个向量的权重系数,/>是第/>个向量的偏置值,/>是激活函数,/>表示空洞卷积的数量,/>表示样本的总量;
S33:将空洞感知模块的输出特征和第4个残差卷积块的特征都输入到滑动注意力解码器中对输入的高质量特征进行有效融合以建立稀疏目标局部与全局的依赖关系,进一步更好地区分背景与目标;滑动注意力解码器的具体结构为:将输入特征划分成三条路径进行处理,第一条路径用于生成向量/>,第二条路径被1×1卷积处理,并通过滑动窗口选取局部特征查询向量/>,第三条路径被3×3卷积进行特征提取,通过批归一化和激活函数进行初步处理,接着再继续用3×3卷积和批归一化进行处理,通过滑动窗口选取局部特征,并与第三条路径的输入特征通过残差连接进行逐元素加和得到特征查询向量/>,将乘以参数/>与/>乘以参数/>进行逐元素加和得到查询向量/>和转置向量/>,将向量、/>和第一条路径的向量/>进行逐元素相乘来计算注意力分数以得到特征向量/>,将向量/>与向量/>重新设置尺寸大小并按通道拼接并利用1×1卷积处理得到键向量/>,将向量/>与特征向量/>逐元素相乘以计算注意力分数;特征向量/>和转置向量/>的计算公式为:/>,其中,/>和/>分别表示第二条路径和第三条路径的输入,/>和/>表示控制变量的参数,/>表示重新调整尺寸大小,/>表示卷积操作,/>是批归一化操作,/>是激活函数,/>是向量/>的转置,/>表示滑动窗口的大小为宽度/>和高度,/>表示矩阵的各个元素值。此外,滑动注意力解码器的注意力计算公式表示为:/>,/>,其中,/>,/>和/>是可学习权重,目的是为了学习特征之间的依赖关系,/>表示某一层的特征向量,/>表示注意力的头数,/>是比例因子,目的是调整数值大小,/>是一个注意力头的计算分数,/>是参数矩阵,/>表示/>和注意力头的注意力分数,/>表示按通道维度拼接,/>表示将计算结果转换成权重概率;通过设置多个注意力头将特征映射到多组/>,/>和/>中,使用相同的计算过程来得到最终的注意力分数,最后利用1×1卷积处理,并将处理后的特征与特征向量/>按通道拼接得到最后的输出特征/>表示为:/>,其中,表示第三个分支在逐元素加和后的输出值,/>是1×1卷积,/>表示逐元素加和;
S34:将第四个普通卷积块的输出与滑动注意力解码器的输出输入到超分辨率模块中,以增强特征的质量,超分辨率模块的结构为:输入特征先被1×1卷积进行通道压缩,再分两个分支分别被3×3卷积和采样率为3和采样率为2得到亚像素卷积进行上采样操作,然后上采样后的特征被批归一化处理,经过激活函数映射到复杂的空间,以增强模型的表征能力;超分辨率模块对特征的增强过程为:,其中,/>表示采样率为2的亚像素卷积,/>表示采样率为3的亚像素卷积,/>表示第四个普通卷积块的输出特征,/>表示滑动注意力解码器的输出特征,/>表示卷积核为1的标准卷积,/>表示卷积核为3的标准卷积,/>表示批归一化操作,/>表示激活函数,/>表示超分辨率模块的输出特征;
S35:将超分辨率模块的输出特征视为浅层特征,与滑动注意力解码器的输出特征/>按通道拼接得到中间层特征,将中间层特征与空洞感知模块的输出特征/>按通道拼接得到深层特征,浅层特征、中间层特征和深层特征分别被两个普通卷积块分别处理,并按通道拼接得到最后的三个输出。
进一步的,步骤S4,使用步骤S2中的训练数据集对步骤S3搭建的多模态检测模型进行训练和优化,并保存最优权重,具体方法为:
S41:将多模态训练集输入到模型中进行模型的训练,进一步设置模型的相关超参数,其中动量值为0.935,学习率为0.001,总的训练轮数为500轮,每20轮保存一次权重,结束训练时保留最优权重;
S42:构建检测模型反向传播的损失函数,通过计算损失函数来不断优化模型的性能,模型的整体损失函数由旋转检测损失函数/>和超分辨率融合损失函数/>表示为:/>,其中/>和/>表示平衡系数;接着,通过分类损失函数/>、回归损失/>和旋转角度损失函数/>构成旋转损失函数/>表示为:,其中/>、/>和/>表示损失函数在不同层的权重值,/>表示检测头部分的输出层数,/>、/>和/>分别表示调节边界框的坐标、维度和角度的权重值,/>表示每个类别的权重系数,/>是标签,/>是标签的掩码矩阵,是预测值,/>是真实值,/>是样本/>预测为正样本的概率,/>表示二进制交叉熵损失函数,/>是预测旋转角度,/>是实际的旋转角度,超分辨率损失函数/>表示为:,其中,/>表示图像对的数量,/>表示真实值,/>表示预测值;
S43:通过验证多模态数据集测试模型的性能,在模型预测部分需要计算平均精度(mean Average Precision,)指标/>来体现模型性能的好坏,一般来说,/>的数值越高,表示模型的性能越好,/>的计算公式为:/>,其中,,精确率/>,召回率,/>是正确检测的正样本数,/>是未能被检测出来的正样本数,/>是错误检测的正样本数,/>是预测的类别数量;将计算的/>结果的最高权重文件进行保存;
S44:多模态数据训练过程中,利用SGD(Stochastic Gradient Descent)优化器优化模型以保证模型参数的优化更新,目的是解决局部最优点问题,即将每个数据样本输入网络计算梯度后就进行一次更新,其计算公式为:,其中,/>是模型的参数,/>表示样本/>和样本/>输入模型后在的范围内对参数进行更新,/>表示样本的个数,/>表示批次大小,/>是学习率,循环更新到训练次数结束,输出模型的最优权重;
S45:按照步骤S43继续计算的数值,直到完成所有的500个训练轮数为止。
进一步的,步骤S5,将步骤S2中的测试数据集输入S3中构建的模型,通过加载S4中的最优模型权重,以检测无人机拍摄的小目标,具体方法为:
S51:将步骤S2的测试数据集输入到步骤S3构建的模型中,设置置信度为0.6;
S52:将步骤S4中保存的最优权重加载到步骤S3构建的模型中,冻结主干网部分,测试输出结果。
有益效果:
本发明提供一种双光融合动态超分辨率分层感知方法,能够通过可见光和红外的高分辨率遥感图像来提升检测角度任意和背景信息复杂的物体的效果。相比于流行的目标检测模型,本发明提出的模型有更少的参数数数量和计算量,能以低成本搭载到移动设备中进行实时监测。
附图说明
图1为本发明提供的一种双光融合动态超分辨率分层感知方法的整体流程示意图;
图2为本发明设计的双光融合动态超分辨率分层感知目标的检测模型的示意图;
图3为图2中普通卷积块的结构示意图;
图4为图2中残差卷积块的结构示意图;
图5为图2中跨模态融合模块的结构示意图;
图6为图2中空洞感知模块的结构示意图;
图7为图2中滑动注意力解码器的结构示意图;
图8为图2中超分辨率模块的结构示意图;
图9为本发明所提出方法的检测可见光图像的效果;
图10为本发明所提出方法的检测红外图像的效果;
图11为本发明中模型训练的流程图。
具体实施方式
下面结合具体实施例对本发明的技术方案做进一步说明,但不限于此。
实施例1
一种双光融合动态超分辨率分层感知方法,整体流程图如图1所示,包括以下步骤:
步骤S1,对遥感图像的可见光和红外图像进行预处理;
S11,对可见光和红外多模态图像的数据进行筛选,将没有标签的图像和标签重复的图像筛除,保留有标签和没有重复标签的图像数据;
S12,对步骤S11中有标签和没有重复标签的图像数据重新调整输入图像的分辨率大小为832×832,保持所有图像分辨率一致。
步骤S2,将步骤S1中的处理后的图像数据划分为训练数据集和验证数据集;
S21,对步骤S12相同分辨率的可见光和红外图像数据的所有图片名字进行修改;
S22,根据S21中修改的图像将所对应的标签也进行修改名称,将可见光图像和红外图像名称与标签名称保持一致;
S23,对S22修改后的图像和标签分别建立图像和标签文件夹,并将可见光和红外图像放入图像文件夹,仅将可见光的标签放入标签文件夹;
S24,将所有步骤S23的图像样本包括5个类别,分别是汽车、货车、卡车、面包车和公交车,图像被划分为14000张训练数据集和3500张验证数据集。
步骤S3,基于遥感多模态数据集构建一种双光融合动态超分辨率分层感知目标的检测模型,模型整体结构图如附图2所示;
S31,训练的可见光和红外图像被重新分配尺寸,并分别被输入跨模态融合模块中,跨模态融合模块如附图5所示,可见光图像和红外图像分别被1×1卷积进行特征提取,提取的特征分别乘以高的0.5倍,并通过哈达玛乘积进行计算,再分别通过3×3卷积进行特征提取,提取到的特征被通道拼接为特征的公式为:,其中/>表示卷积核为1的卷积,/>表示卷积核为3的卷积,/>是哈达玛乘积,/>和/>分别表示可见光和红外数据,/>是特征的高度,/>是按照通道拼接,/>被自适应平均池化处理,接着经过1×1卷积和激活函数处理,将处理后的特征与特征/>按通道维度拼接得到跨模态融合模块的最终特征/>公式为:/>,其中/>是底为2的指数函数,/>表示输入尺寸大小是宽度为/>和高度为/>的特征/>,/>表示步长,/>表示填充值,/>是卷积核大小,/>是权重系数,/>是偏置值,/>是缩放因子;
S32,将跨模态融合模块的输出特征输入到5个普通卷积块和4个残差卷积块中进行特征提取的操作,将第3个残差卷积块提取的特征送入到空洞感知模块,空洞感知模块如附图6所示,对目标特征进行有效感知;其中空洞感知模块的结构为:对提取的特征分两条路径处理,第一条路径经过1×1组卷积后被3×3空洞卷积处理,接着被激活函数进行线性映射,提高表征能力,接着通过三个连续采样率为3的3×3空洞卷积对特征的不同尺度进行感知,将三个3×3空洞卷积处理后的特征分别按通道拼接,拼接后的特征被3×3空洞卷积处理,经过激活函数进行非线性映射得到特征;第二条路径经过1×1组卷积处理,将处理后的特征与/>按通道拼接得到空洞感知模块的输出特征/>,空洞感知模块的流程表示为:/>,其中,/>表示采样率大小,表示输入的样本向量,/>表示分组数为/>的标准卷积,/>表示卷积核为3的空洞卷积,是第/>个向量的权重系数,/>是第/>个向量的偏置值,/>是激活函数,/>表示空洞卷积的数量,/>表示样本的总量;
S33,将空洞感知模块的输出特征和第4个残差卷积块的特征都输入到滑动注意力解码器中对输入的高质量特征进行有效融合以建立稀疏目标局部与全局的依赖关系,滑动注意力解码器如附图7所示,进一步更好地区分背景与目标;滑动注意力解码器的具体结构为:将输入特征划分成三条路径进行处理,第一条路径用于生成向量/>,第二条路径被1×1卷积处理,并通过滑动窗口选取局部特征查询向量/>,第三条路径被3×3卷积进行特征提取,通过批归一化和激活函数进行初步处理,接着再继续用3×3卷积和批归一化进行处理,通过滑动窗口选取局部特征,并与第三条路径的输入特征通过残差连接进行逐元素加和得到特征查询向量/>,将/>乘以参数/>与/>乘以参数/>进行逐元素加和得到查询向量/>和转置向量/>,将向量/>、/>和第一条路径的向量/>进行逐元素相乘来计算注意力分数以得到特征向量/>,将向量/>与向量/>重新设置尺寸大小并按通道拼接并利用1×1卷积处理得到键向量/>,将向量/>与特征向量/>逐元素相乘以计算注意力分数。特征向量/>和转置向量/>的计算公式为:,其中,/>和/>分别表示第二条路径和第三条路径的输入,/>和/>表示控制变量的参数,/>表示重新调整尺寸大小,/>表示卷积操作,/>是批归一化操作,/>是激活函数,/>是向量/>的转置,/>表示滑动窗口的大小为宽度/>和高度,/>表示矩阵的各个元素值。此外,滑动注意力解码器的注意力计算公式表示为:/>,/>,其中,/>,/>和/>是可学习权重,目的是为了学习特征之间的依赖关系,/>表示某一层的特征向量,/>表示注意力的头数,/>是比例因子,目的是调整数值大小,/>是一个注意力头的计算分数,/>是参数矩阵,/>表示/>和注意力头的注意力分数,/>表示按通道维度拼接,/>表示将计算结果转换成权重概率。通过设置多个注意力头将特征映射到多组/>,/>和/>中,使用相同的计算过程来得到最终的注意力分数,最后利用1×1卷积处理,并将处理后的特征与特征向量/>按通道拼接得到最后的输出特征/>表示为:/>,其中,表示第三个分支在逐元素加和后的输出值,/>是1×1卷积,/>表示逐元素加和;
S34,将第四个普通卷积块的输出与滑动注意力解码器的输出输入到超分辨率模块中,超分辨率模块如附图8所示,以增强特征的质量,超分辨率模块的结构为:输入特征先被1×1卷积进行通道压缩,再分两个分支分别被3×3卷积和采样率为3和采样率为2得到亚像素卷积进行上采样操作,然后上采样后的特征被批归一化处理,经过激活函数映射到复杂的空间,以增强模型的表征能力;超分辨率模块对特征的增强过程为:,其中,/>表示采样率为2的亚像素卷积,/>表示采样率为3的亚像素卷积,/>表示第四个普通卷积块的输出特征,/>表示滑动注意力解码器的输出特征,/>表示卷积核为1的标准卷积,/>表示卷积核为3的标准卷积,/>表示批归一化操作,/>表示激活函数,/>表示超分辨率模块的输出特征;
S35,将超分辨率模块的输出特征视为浅层特征,与滑动注意力解码器的输出特征/>按通道拼接得到中间层特征,将中间层特征与空洞感知模块的输出特征/>按通道拼接得到深层特征,浅层特征、中间层特征和深层特征分别被两个普通卷积块分别处理,并按通道拼接得到最后的三个输出。
步骤S4,使用步骤S2中的训练数据集对步骤S3搭建的多模态检测模型进行训练和优化,并保存最优权重,整个训练过程如附图11所示;
S41,将多模态训练集输入到模型中进行模型的训练,进一步设置模型的相关超参数,其中动量值为0.935,学习率为0.001,总的训练轮数为500轮,每20轮保存一次权重,结束训练时保留最优权重;
S42,构建检测模型反向传播的损失函数,通过计算损失函数来不断优化模型的性能,模型的整体损失函数由旋转检测损失函数/>和超分辨率融合损失函数/>表示为:/>,其中/>和/>表示平衡系数;接着,通过分类损失函数/>、回归损失/>和旋转角度损失函数/>构成旋转损失函数/>表示为:
其中、/>和/>表示损失函数在不同层的权重值,/>表示检测头部分的输出层数,/>、/>和/>分别表示调节边界框的坐标、维度和角度的权重值,/>表示每个类别的权重系数,/>是标签,/>是标签的掩码矩阵,/>是预测值,/>是真实值,/>是样本/>预测为正样本的概率,/>表示二进制交叉熵损失函数(Binary Cross Entropy Loss,BCELoss),/>是预测旋转角度,/>是实际的旋转角度,超分辨率损失函数/>表示为:/>,其中,/>表示图像对的数量,/>表示真实值,/>表示预测值;
S43,通过验证多模态数据集测试模型的性能,在模型预测部分需要计算平均精度指标(mean Average Precision,/>)来体现模型性能的好坏,一般来说,/>的数值越高,表示模型的性能越好,/>的计算公式为:/>,其中,,精确率/>,召回率,/>是正确检测的正样本数,/>是未能被检测出来的正样本数,/>是错误检测的正样本数,/>是预测的类别数量;将计算的/>结果的最高权重文件进行保存;
S44,多模态数据训练过程中,利用SGD(Stochastic Gradient Descent)优化器优化模型以保证模型参数的优化更新,目的是解决局部最优点问题,即将每个数据样本输入网络计算梯度后就进行一次更新,其计算公式为:,其中,/>是模型的参数,/>表示样本/>和样本/>输入模型后在的范围内对参数进行更新,/>表示样本的个数,/>表示批次大小,/>是学习率,循环更新到训练次数结束,输出模型的最优权重;
S45,按照步骤S43继续计算的数值,直到完成所有的500个训练轮数为止。
步骤S5,将步骤S2中的测试数据集输入S3中构建的模型,通过加载S4中的最优模型权重,以实现多模态遥感图像的检测。
S51,将步骤S2的多模态验证数据集输入到步骤S3构建的模型中,设置交并比阈值0.01,置信度为0.5;
S52,将步骤S4中保存的最优权重加载到步骤S3构建的模型中,冻结特征提取部分,测试输出结果。
需要说明的是,上述实施例仅仅是实现本发明的优选方式的部分实施例,而非全部实施例。显然,基于本发明的上述实施例,本领域普通技术人员在没有做出创造性劳动的前提下所获得的其他所有实施例,都应当属于本发明保护的范围。
需要说明的是,上述实施例仅仅是实现本发明的优选方式的部分实施例,而非全部实施例。显然,基于本发明的上述实施例,本领域普通技术人员在没有做出创造性劳动的前提下所获得的其他所有实施例,都应当属于本发明保护的范围。

Claims (6)

1.一种双光融合动态超分辨率分层感知方法,其特征在于,包括以下步骤:
S1:对遥感图像的可见光和红外图像进行预处理;
S2:将步骤S1中的处理后的图像数据划分为训练数据集和验证数据集;
S3:基于遥感多模态数据集构建一种双光融合动态超分辨率分层感知目标的检测模型;
S4:使用步骤S2中的训练数据集对步骤S3搭建的检测模型进行训练和优化,并将得到的最优模型权重进行保存;
S5:将步骤S2中的验证数据集输入S3中构建的模型,通过加载S4中的最优模型权重,以检测遥感图像的目标。
2.根据权利要求1所述双光融合动态超分辨率分层感知方法,其特征在于,步骤S1包括以下步骤:
S11:对可见光和红外图像的数据进行筛选,将没有标签的图像和标签重复的图像筛除,保留有标签和没有重复标签的图像数据;
S12:对步骤S11中有标签和没有重复标签的图像数据重新调整输入图像的分辨率大小,保持所有图像分辨率一致。
3.根据权利要求1所述双光融合动态超分辨率分层感知方法,其特征在于,步骤S2包括以下步骤:
S21:对步骤S12相同分辨率的可见光和红外图像数据的所有图片名字进行修改;
S22:根据S21中修改的图像将所对应的标签也进行修改名称,将可见光图像和红外图像名称与标签名称保持一致;
S23:对S22修改后的图像和标签分别建立图像和标签文件夹,并将可见光和红外图像放入图像文件夹,仅将可见光的标签放入标签文件夹;
S24:将所有步骤S23的图像样本按照8:2的比例划分为训练数据集和验证数据集。
4.根据权利要求1所述双光融合动态超分辨率分层感知方法,其特征在于,步骤S3包括以下步骤:
S31:训练的可见光和红外图像被重新分配尺寸,并分别被输入跨模态融合模块中,其中,可见光图像和红外图像分别被1×1卷积进行特征提取,提取的特征分别乘以高的0.5倍,并通过哈达玛乘积进行计算,再分别通过3×3卷积进行特征提取,提取到的特征被通道拼接为特征的公式为:/>,其中/>表示卷积核为1的卷积,/>表示卷积核为3的卷积,/>是哈达玛乘积,/>和/>分别表示可见光和红外数据,/>是特征的高度,/>是按照通道拼接,/>被自适应平均池化处理,接着经过1×1卷积和激活函数处理,将处理后的特征与特征/>按通道维度拼接得到跨模态融合模块的最终特征/>公式为:/>,其中是底为2的指数函数,/>表示输入尺寸大小是宽度为/>和高度为/>的特征/>,/>表示步长,/>表示填充值,/>是卷积核大小,/>是权重系数,/>是偏置值,/>是缩放因子;
S32:将跨模态融合模块的输出特征输入到5个普通卷积块和4个残差卷积块中进行特征提取的操作,将第3个残差卷积块提取的特征送入到空洞感知模块,对目标特征进行有效感知;其中空洞感知模块的结构为:对提取的特征分两条路径处理,第一条路径经过1×1组卷积后被3×3空洞卷积处理,接着被激活函数进行线性映射,提高表征能力,接着通过三个连续采样率为3的3×3空洞卷积对特征的不同尺度进行感知,将三个3×3空洞卷积处理后的特征分别按通道拼接,拼接后的特征被3×3空洞卷积处理,经过激活函数进行非线性映射得到特征;第二条路径经过1×1组卷积处理,将处理后的特征与/>按通道拼接得到空洞感知模块的输出特征/>,空洞感知模块的流程表示为:,其中,/>表示采样率大小,/>表示输入的样本向量,/>表示分组数为/>的标准卷积,/>表示卷积核为3的空洞卷积,/>是第个向量的权重系数,/>是第/>个向量的偏置值,/>是激活函数,/>表示空洞卷积的数量,/>表示样本的总量;
S33:将空洞感知模块的输出特征和第4个残差卷积块的特征都输入到滑动注意力解码器中;滑动注意力解码器的具体结构为:将输入特征划分成三条路径进行处理,第一条路径用于生成向量/>,第二条路径被1×1卷积处理,并通过滑动窗口选取局部特征查询向量/>,第三条路径被3×3卷积进行特征提取,通过批归一化和激活函数进行初步处理,接着再继续用3×3卷积和批归一化进行处理,通过滑动窗口选取局部特征,并与第三条路径的输入特征通过残差连接进行逐元素加和得到特征查询向量/>,将/>乘以参数/>与/>乘以参数/>进行逐元素加和得到查询向量/>和转置向量/>,将向量/>、/>和第一条路径的向量/>进行逐元素相乘来计算注意力分数以得到特征向量/>,将向量/>与向量/>重新设置尺寸大小并按通道拼接并利用1×1卷积处理得到键向量/>,将向量/>与特征向量/>逐元素相乘以计算注意力分数;特征向量/>和转置向量/>的计算公式为:,其中,/>和/>分别表示第二条路径和第三条路径的输入,/>和/>表示控制变量的参数,/>表示重新调整尺寸大小,/>表示卷积操作,/>是批归一化操作,/>是激活函数,/>是向量/>的转置,/>表示滑动窗口的大小为宽度/>和高度,/>表示矩阵的各个元素值;此外,滑动注意力解码器的注意力计算公式表示为:/>,/>,其中,/>,/>和/>是可学习权重,/>表示某一层的特征向量,/>表示注意力的头数,/>是比例因子,/>是一个注意力头的计算分数,/>是参数矩阵,/>表示/>和注意力头的注意力分数,/>表示按通道维度拼接,表示将计算结果转换成权重概率;通过设置多个注意力头将特征映射到多组/>和/>中,使用相同的计算过程来得到最终的注意力分数,最后利用1×1卷积处理,并将处理后的特征与特征向量/>按通道拼接得到最后的输出特征/>表示为:,其中,/>表示第三个分支在逐元素加和后的输出值,是1×1卷积,/>表示逐元素加和;
S34:将第四个普通卷积块的输出与滑动注意力解码器的输出输入到超分辨率模块中,超分辨率模块的结构为:输入特征先被1×1卷积进行通道压缩,再分两个分支分别被3×3卷积和采样率为3和采样率为2得到亚像素卷积进行上采样操作,然后上采样后的特征被批归一化处理,经过激活函数映射到复杂的空间,以增强模型的表征能力;超分辨率模块对特征的增强过程为:,其中,/>表示采样率为2的亚像素卷积,/>表示采样率为3的亚像素卷积,/>表示第四个普通卷积块的输出特征,/>表示滑动注意力解码器的输出特征,/>表示卷积核为1的标准卷积,/>表示卷积核为3的标准卷积,/>表示批归一化操作,/>表示激活函数,/>表示超分辨率模块的输出特征;
S35:将超分辨率模块的输出特征视为浅层特征,与滑动注意力解码器的输出特征按通道拼接得到中间层特征,将中间层特征与空洞感知模块的输出特征/>按通道拼接得到深层特征,浅层特征、中间层特征和深层特征分别被两个普通卷积块分别处理,并按通道拼接得到最后的三个输出。
5.根据权利要求1所述双光融合动态超分辨率分层感知方法,其特征在于,步骤S4具体方法为:
S41:将多模态训练集输入到模型中进行模型的训练,进一步设置模型的相关超参数,其中动量值为0.935,学习率为0.001,总的训练轮数为500轮,每20轮保存一次权重,结束训练时保留最优权重;
S42:构建检测模型反向传播的损失函数,通过计算损失函数来不断优化模型的性能,模型的整体损失函数由旋转检测损失函数/>和超分辨率融合损失函数/>表示为:/>,其中/>和/>表示平衡系数;接着,通过分类损失函数/>、回归损失/>和旋转角度损失函数/>构成旋转损失函数/>表示为:,其中/>、/>和/>表示损失函数在不同层的权重值,/>表示检测头部分的输出层数,/>、/>和/>分别表示调节边界框的坐标、维度和角度的权重值,/>表示每个类别的权重系数,/>是标签,/>是标签的掩码矩阵,是预测值,/>是真实值,/>是样本/>预测为正样本的概率,/>表示二进制交叉熵损失函数,/>是预测旋转角度,/>是实际的旋转角度,超分辨率损失函数/>表示为:,其中,/>表示图像对的数量,/>表示真实值,/>表示预测值;
S43:通过验证多模态数据集测试模型的性能,在模型预测部分需要计算平均精度指标来体现模型性能的好坏,/>的数值越高,表示模型的性能越好,/>的计算公式为: /> ,其中,/> ,精确率,召回率/>,/>是正确检测的正样本数,/>是未能被检测出来的正样本数,/>是错误检测的正样本数,/>是预测的类别数量;将计算的结果的最高权重文件进行保存;
S44:多模态数据训练过程中,利用SGD优化器优化模型以保证模型参数的优化更新,即将每个数据样本输入网络计算梯度后就进行一次更新,其计算公式为:,其中,/>是模型的参数,表示样本/>和样本/>输入模型后在/>的范围内对参数进行更新,/>表示样本的个数,/>表示批次大小,/>是学习率,循环更新到训练次数结束,输出模型的最优权重;
S45:按照步骤S43继续计算的数值,直到完成所有的500个训练轮数为止。
6.根据权利要求1所述双光融合动态超分辨率分层感知方法,其特征在于,步骤S5具体方法为:
S51:将步骤S2的多模态验证数据集输入到步骤S3构建的模型中,设置交并比阈值0.01,置信度为0.5;
S52:将步骤S4中保存的最优权重加载到步骤S3构建的模型中,冻结特征提取部分,测试输出结果。
CN202410361308.2A 2024-03-28 2024-03-28 一种双光融合动态超分辨率分层感知方法 Active CN117974960B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202410361308.2A CN117974960B (zh) 2024-03-28 2024-03-28 一种双光融合动态超分辨率分层感知方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202410361308.2A CN117974960B (zh) 2024-03-28 2024-03-28 一种双光融合动态超分辨率分层感知方法

Publications (2)

Publication Number Publication Date
CN117974960A true CN117974960A (zh) 2024-05-03
CN117974960B CN117974960B (zh) 2024-06-18

Family

ID=90859785

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202410361308.2A Active CN117974960B (zh) 2024-03-28 2024-03-28 一种双光融合动态超分辨率分层感知方法

Country Status (1)

Country Link
CN (1) CN117974960B (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN118172636A (zh) * 2024-05-15 2024-06-11 乐麦信息技术(杭州)有限公司 批量自适应调节图像文字及非图像样式的方法及系统

Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113160234A (zh) * 2021-05-14 2021-07-23 太原理工大学 基于超分辨率和域自适应的无监督遥感图像语义分割方法
CN113567984A (zh) * 2021-07-30 2021-10-29 长沙理工大学 一种sar图像中人造小目标的检测方法及系统
CN115564996A (zh) * 2022-09-29 2023-01-03 安徽大学 一种基于注意力联合网络的高光谱遥感图像分类方法
WO2023098289A1 (zh) * 2021-12-01 2023-06-08 浙江大学 一种基于对抗学习的无标签胰腺影像自动分割系统
CN116343159A (zh) * 2023-05-24 2023-06-27 之江实验室 一种非结构化场景可通行区域检测方法、装置及存储介质
CN116958782A (zh) * 2023-07-05 2023-10-27 中国电子科技集团公司第十五研究所 一种红外与可见光特征融合的弱小目标检测方法及装置
CN117274760A (zh) * 2023-10-24 2023-12-22 南京信息工程大学 一种基于多尺度混合变换器的红外与可见光图像融合方法
CN117333442A (zh) * 2023-09-27 2024-01-02 广东省人民医院 基于倍率对齐Transformer的病理图像快速分析方法及装置
CN117409190A (zh) * 2023-12-12 2024-01-16 长春理工大学 一种实时红外图像目标检测方法、装置、设备及存储介质
CN117423020A (zh) * 2023-12-19 2024-01-19 临沂大学 一种检测无人机小目标的动态特征和上下文增强方法

Patent Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113160234A (zh) * 2021-05-14 2021-07-23 太原理工大学 基于超分辨率和域自适应的无监督遥感图像语义分割方法
CN113567984A (zh) * 2021-07-30 2021-10-29 长沙理工大学 一种sar图像中人造小目标的检测方法及系统
WO2023098289A1 (zh) * 2021-12-01 2023-06-08 浙江大学 一种基于对抗学习的无标签胰腺影像自动分割系统
CN115564996A (zh) * 2022-09-29 2023-01-03 安徽大学 一种基于注意力联合网络的高光谱遥感图像分类方法
CN116343159A (zh) * 2023-05-24 2023-06-27 之江实验室 一种非结构化场景可通行区域检测方法、装置及存储介质
CN116958782A (zh) * 2023-07-05 2023-10-27 中国电子科技集团公司第十五研究所 一种红外与可见光特征融合的弱小目标检测方法及装置
CN117333442A (zh) * 2023-09-27 2024-01-02 广东省人民医院 基于倍率对齐Transformer的病理图像快速分析方法及装置
CN117274760A (zh) * 2023-10-24 2023-12-22 南京信息工程大学 一种基于多尺度混合变换器的红外与可见光图像融合方法
CN117409190A (zh) * 2023-12-12 2024-01-16 长春理工大学 一种实时红外图像目标检测方法、装置、设备及存储介质
CN117423020A (zh) * 2023-12-19 2024-01-19 临沂大学 一种检测无人机小目标的动态特征和上下文增强方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
SHUYAO SHANG ET AL.: "ResDiff: Combining CNN and Diffusion Model for Image Super-Resolution", 《ARXIV》, 2 February 2024 (2024-02-02) *
WEI TANG ET AL.: "DATFuse: Infrared and Visible Image Fusion via Dual Attention Transformer", 《IEEE TRANSACTIONS ON CIRCUITS AND SYSTEMS FOR VIDEO TECHNOLOGY》, 31 July 2023 (2023-07-31) *

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN118172636A (zh) * 2024-05-15 2024-06-11 乐麦信息技术(杭州)有限公司 批量自适应调节图像文字及非图像样式的方法及系统

Also Published As

Publication number Publication date
CN117974960B (zh) 2024-06-18

Similar Documents

Publication Publication Date Title
CN117974960B (zh) 一种双光融合动态超分辨率分层感知方法
CN110533631A (zh) 基于金字塔池化孪生网络的sar图像变化检测方法
CN112434586B (zh) 一种基于域自适应学习的多复杂场景目标检测方法
CN114332578A (zh) 图像异常检测模型训练方法、图像异常检测方法和装置
CN113989100B (zh) 一种基于样式生成对抗网络的红外纹理样本扩充方法
CN114445292A (zh) 一种多阶段渐进式水下图像增强方法
CN115331172A (zh) 一种基于监控视频的车间危险行为识别报警方法及系统
CN113971764B (zh) 一种基于改进YOLOv3的遥感图像小目标检测方法
CN114187261B (zh) 一种基于多维注意力机制的无参考立体图像质量评价方法
CN117557775B (zh) 基于红外和可见光融合的变电站电力设备检测方法及系统
CN115393690A (zh) 一种轻量化神经网络的空对地观测多目标识别方法
CN118096922A (zh) 一种基于风格迁移和遥感影像生成地图的方法
CN116363610A (zh) 一种基于改进YOLOv5的航拍车辆旋转目标检测方法
CN113628111B (zh) 基于梯度信息约束的高光谱图像超分辨方法
CN117011219A (zh) 物品质量检测方法、装置、设备、存储介质和程序产品
CN115496788A (zh) 一种使用空域传播后处理模块的深度补全方法
CN114429524A (zh) 单目视觉下的三维目标检测模型的构建方法及检测方法
CN112801362B (zh) 一种基于人工神经网络与lstm网络的学业预警方法
CN114972812B (zh) 一种基于结构相似度的非局部注意力学习方法
CN118470333B (zh) 一种基于遥感图像的地理环境语义分割方法及系统
CN110097541B (zh) 一种无参考的图像去雨质量评价系统
CN116777812A (zh) 一种面向真实场景图像的无参考质量评价方法
CN117576508A (zh) 图像检测模型训练方法、图像检测方法和装置
CN116958468A (zh) 基于SCycleGAN的高山积雪环境模拟方法及系统
CN117456377A (zh) 一种基于尺度信息增强的遥感图像少样本目标检测方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant