CN117935087A - 一种无人机载雷达图像目标识别方法与系统 - Google Patents
一种无人机载雷达图像目标识别方法与系统 Download PDFInfo
- Publication number
- CN117935087A CN117935087A CN202410061672.7A CN202410061672A CN117935087A CN 117935087 A CN117935087 A CN 117935087A CN 202410061672 A CN202410061672 A CN 202410061672A CN 117935087 A CN117935087 A CN 117935087A
- Authority
- CN
- China
- Prior art keywords
- attention
- module
- channel
- radar image
- image
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 69
- 238000012545 processing Methods 0.000 claims abstract description 30
- 230000007246 mechanism Effects 0.000 claims abstract description 21
- 238000004364 calculation method Methods 0.000 claims description 81
- 230000006870 function Effects 0.000 claims description 55
- 239000011159 matrix material Substances 0.000 claims description 33
- 230000008569 process Effects 0.000 claims description 31
- 238000012549 training Methods 0.000 claims description 27
- 238000005457 optimization Methods 0.000 claims description 21
- 230000004927 fusion Effects 0.000 claims description 18
- 230000009467 reduction Effects 0.000 claims description 16
- 238000004590 computer program Methods 0.000 claims description 11
- 230000004913 activation Effects 0.000 claims description 8
- 230000002708 enhancing effect Effects 0.000 claims description 7
- 238000010606 normalization Methods 0.000 claims description 7
- 238000011176 pooling Methods 0.000 claims description 7
- 230000000694 effects Effects 0.000 abstract description 9
- 238000001514 detection method Methods 0.000 abstract description 8
- 230000001788 irregular Effects 0.000 abstract description 5
- 238000004891 communication Methods 0.000 description 5
- 238000010586 diagram Methods 0.000 description 5
- 238000013527 convolutional neural network Methods 0.000 description 4
- 230000008859 change Effects 0.000 description 3
- 238000005516 engineering process Methods 0.000 description 3
- 238000000605 extraction Methods 0.000 description 3
- 238000005286 illumination Methods 0.000 description 3
- 238000002474 experimental method Methods 0.000 description 2
- 238000005070 sampling Methods 0.000 description 2
- 238000012360 testing method Methods 0.000 description 2
- HPTJABJPZMULFH-UHFFFAOYSA-N 12-[(Cyclohexylcarbamoyl)amino]dodecanoic acid Chemical compound OC(=O)CCCCCCCCCCCNC(=O)NC1CCCCC1 HPTJABJPZMULFH-UHFFFAOYSA-N 0.000 description 1
- 238000012935 Averaging Methods 0.000 description 1
- 230000002159 abnormal effect Effects 0.000 description 1
- 238000013528 artificial neural network Methods 0.000 description 1
- 230000002238 attenuated effect Effects 0.000 description 1
- 230000000052 comparative effect Effects 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 230000007613 environmental effect Effects 0.000 description 1
- 238000003384 imaging method Methods 0.000 description 1
- 230000010354 integration Effects 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000007781 pre-processing Methods 0.000 description 1
- 230000011218 segmentation Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/10—Terrestrial scenes
- G06V20/17—Terrestrial scenes taken from planes or by drones
-
- G—PHYSICS
- G01—MEASURING; TESTING
- G01S—RADIO DIRECTION-FINDING; RADIO NAVIGATION; DETERMINING DISTANCE OR VELOCITY BY USE OF RADIO WAVES; LOCATING OR PRESENCE-DETECTING BY USE OF THE REFLECTION OR RERADIATION OF RADIO WAVES; ANALOGOUS ARRANGEMENTS USING OTHER WAVES
- G01S13/00—Systems using the reflection or reradiation of radio waves, e.g. radar systems; Analogous systems using reflection or reradiation of waves whose nature or wavelength is irrelevant or unspecified
- G01S13/88—Radar or analogous systems specially adapted for specific applications
- G01S13/89—Radar or analogous systems specially adapted for specific applications for mapping or imaging
-
- G—PHYSICS
- G01—MEASURING; TESTING
- G01S—RADIO DIRECTION-FINDING; RADIO NAVIGATION; DETERMINING DISTANCE OR VELOCITY BY USE OF RADIO WAVES; LOCATING OR PRESENCE-DETECTING BY USE OF THE REFLECTION OR RERADIATION OF RADIO WAVES; ANALOGOUS ARRANGEMENTS USING OTHER WAVES
- G01S7/00—Details of systems according to groups G01S13/00, G01S15/00, G01S17/00
- G01S7/02—Details of systems according to groups G01S13/00, G01S15/00, G01S17/00 of systems according to group G01S13/00
-
- G—PHYSICS
- G01—MEASURING; TESTING
- G01S—RADIO DIRECTION-FINDING; RADIO NAVIGATION; DETERMINING DISTANCE OR VELOCITY BY USE OF RADIO WAVES; LOCATING OR PRESENCE-DETECTING BY USE OF THE REFLECTION OR RERADIATION OF RADIO WAVES; ANALOGOUS ARRANGEMENTS USING OTHER WAVES
- G01S7/00—Details of systems according to groups G01S13/00, G01S15/00, G01S17/00
- G01S7/02—Details of systems according to groups G01S13/00, G01S15/00, G01S17/00 of systems according to group G01S13/00
- G01S7/021—Auxiliary means for detecting or identifying radar signals or the like, e.g. radar jamming signals
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
- G06N3/0455—Auto-encoder networks; Encoder-decoder networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/0464—Convolutional networks [CNN, ConvNet]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
- G06V10/44—Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components
- G06V10/443—Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components by matching or filtering
- G06V10/449—Biologically inspired filters, e.g. difference of Gaussians [DoG] or Gabor filters
- G06V10/451—Biologically inspired filters, e.g. difference of Gaussians [DoG] or Gabor filters with interaction between the filter responses, e.g. cortical complex cells
- G06V10/454—Integrating the filters into a hierarchical structure, e.g. convolutional neural networks [CNN]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/764—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/80—Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level
- G06V10/806—Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level of extracted features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/82—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V2201/00—Indexing scheme relating to image or video recognition or understanding
- G06V2201/07—Target detection
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Remote Sensing (AREA)
- Evolutionary Computation (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Radar, Positioning & Navigation (AREA)
- Artificial Intelligence (AREA)
- Multimedia (AREA)
- Software Systems (AREA)
- Computing Systems (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Computer Networks & Wireless Communication (AREA)
- Biomedical Technology (AREA)
- Medical Informatics (AREA)
- Molecular Biology (AREA)
- Life Sciences & Earth Sciences (AREA)
- Databases & Information Systems (AREA)
- Biophysics (AREA)
- Mathematical Physics (AREA)
- General Engineering & Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Computational Linguistics (AREA)
- Electromagnetism (AREA)
- Biodiversity & Conservation Biology (AREA)
- Image Analysis (AREA)
Abstract
本发明提出一种无人机载雷达图像目标识别方法与系统,属于雷达探测与信号处理技术领域。本发明利用通道‑空间注意力机制以及Vision Transformer进行无人机载雷达图像的目标识别。使用Vision Transformer作为主干网络。加入通道‑空间注意力模块来提高模型对于全局特征的注意力。同时,改进损失函数被用来进一步优化模型的分类能力。本发明提高了识别准确率,在无人机载雷达图像目标检测任务上效果显著,尤其适用于不规则目标以及小目标类别。
Description
技术领域
本发明属于雷达探测与信号处理技术领域,尤其涉及一种无人机载雷达图像目标识别方法与系统。
背景技术
无人机载视觉雷达对目标准确标识别,关系到航空领域的安全。无人机载视觉雷达的目标识别多是高空作业,识别的目标图像信息易受到飞机倾斜角度、高空外部噪声干扰、机身异常抖动、被测物体的抖动和采样速度过低等因素的干扰,使得识别目标区域模糊,可识别特征发生严重衰减。传统机载视觉雷达的目标识别方法中,在运动状态下对高空目标的图像衰减特征分割一直很困难,分割过程会出现过分割和欠分割的问题,导致目标识别结果不理想。现有技术获取雷达图像中对地目标的运行速度,通过雷达视场距离的标定成像几何原理,将地面目标三维场景投射到二维象平面中,并采用数据链驱动无缝集成模式来运算识别地面目标的实际数量,获取准确的塔机目标识别检测结果。
然而,随着基于卷积神经网络模型的输入图像分辨率、网络宽度、网络深度等的优化,自然场景下的图像目标检测网络模型取得的效果稳步提升,仍然需要面对类内多样性、类间相似性和效率等问题。不同于自然场景图像,无人机载雷达图像更容易受到光照、环境、季节、天气等背景因素的干扰,同时,无人机载雷达图像图像往往来源于空中视角,导致图像中的目标尺寸变化巨大、长宽比变化极端、方向变化大、分布密集、噪声较大等问题,给在复杂背景下检测小型和不规则物体带来了额外的挑战。
发明内容
本发明的目的是提供一种无人机载雷达图像目标识别方案;其能够较大程度的提高了雷达图像的识别准确率,在无人机载雷达图像目标检测任务上效果显著,尤其适用于不规则目标以及小目标类别。
本发明第一方面提出一种无人机载雷达图像目标识别方法。所述方法包括:
步骤S1、获取无人机载雷达图像,将所述无人机载雷达图像依次送入基于VisionTransformer网络的第一计算模块和第二计算模块,以获取所述无人机载雷达图像的局部特征图;
步骤S2、利用通道-空间注意力模块对所述局部特征图中表征所述无人机载雷达图像的全局信息的特征进行增强,得到所述无人机载雷达图像的经全局增强的局部特征图;
步骤S3、将所述经全局增强的局部特征图依次送入基于Vision Transformer网络的第三计算模块和第四计算模块,以获取所述无人机载雷达图像的融合特征图
步骤S4、利用优化损失函数对所述融合特征图进行降噪处理,对经降噪处理的融合特征图进行识别,以确定所述无人机载雷达图像中包含的目标。
根据本发明第一方面的方法,基于所述Vision Transformer网络的所述第一计算模块、所述第二计算模块、所述第三计算模块和所述第四计算模块的计算过程如下:
将输入图像X划分为M个不重叠且具有相同宽度的区域块,Xi=[X1,X2,…,XM]∈R(s×M)×C,其中,Xi表示第i个区域块,R表示实数域,s表示区域块宽度,s×M表示每个区域块包含的令牌数,C表示通道数;
对M个区域块进行展平操作,得到M个向量图片,将M个向量图片的向量数据对应的各个图像块按顺序拼接成完整矩阵;
将所述完整矩阵与第1个向量图片作为第一输入,将所述完整矩阵与第2个向量图片作为第二输入,依此类推,将所述完整矩阵与第M个向量图片作为第M输入,上述M个输入依次被输入至基于所述Vision Transformer网络的计算模块;
所述Vision Transformer网络的计算模块的多头注意力机制包含K个注意力头,第k个注意力头的查询、键和值的维度均为dk,第k个注意力头的输出headk为:
其中,表示第k个注意力头针对第i个区域块Xi的计算输出,Attention()表示注意力函数,/>以及/>分别表示第k个注意力头的查询、键以及值;
将所述VisionTransformer网络的计算模块的K个注意力头的计算结果进行整合,得到所述VisionTransformer网络的计算模块的自注意力机制的输出结果ViT-Attention(X):
ViT-Attention(X)=Concat(head1,head2,...,headK)Wo
其中,Concat()表示级联函数,Wo∈RC×C表示投影矩阵;
则所述VisionTransformer网络的计算模块的多层感知器输出的特征图表示为:
其中,为中间量,LN()表示归一化,MLP()表示多层感知器,Xl表示多层感知器第l层的输出特征,Xl-1表示多层感知器第l-1层的输出特征。
根据本发明第一方面的方法,所述通道-空间注意力模块包括通道注意力模块和空间注意力模块;其中:
所述通道-空间注意力模块的输入F为所述第二计算模块输出的所述局部特征图F2,F=F2∈RH′×W′×C′,H′、W′、C′分别表示所述局部特征图的高、宽、通道数;
所述通道注意力模块对输入F进行处理后得到通道注意力特征MC(F)∈RC′,表示为:
MC(F)=FC(FC(GAP(F))
其中,GAP()表示全局平均池化层,FC()则表示全连接层;
所述空间注意力模块对输入F进行处理后得到空间注意力特征MS(F)∈RH′×W′,表示为:
MS(F)=Conv1×1(Conv3×3(Conv3×3(Conv1×1(F))))
其中,Conv()表示卷积层操作,1×1和3×3分别表示卷积核大小为1和3;
融合所述通道注意力特征和所述空间注意力特征,以进一步得到所述通道-空间注意力模块输出的输出特征图Ffinal:
Fall=GELU(MC(F)+MS(F)))
Ffinal=F+F-Fall
其中,GELU表示激活函数,Fall表示融合所述通道注意力特征和所述空间注意力特征后得到的特征。
根据本发明第一方面的方法,所述优化损失函数的预优化过程包括:
根据方程y=n(σ,δ)×x对预优化阶段的训练图像进行加噪,y表示噪声图像,x表示未加噪的训练图像,n(σ,δ)表示方差为δ、均值为σ的噪声;
所述噪声图像图像经过所述Vision Transformer网络的计算模块后得到Rim,Rim=ViT[y],同时Rim作为残差图像,Rim=y-n(σ,δ);利用均方误差MSE来执行优化训练,其损失函数的表达式为:
其中,Loss()表示损失函数,w和b分别表示优化过程中的权重和偏置。
本发明第二方面提出一种无人机载雷达图像目标识别系统。所述系统包括处理单元,所述处理单元被配置为执行以下步骤:
第一处理单元,被配置为:获取无人机载雷达图像,将所述无人机载雷达图像依次送入基于Vision Transformer网络的第一计算模块和第二计算模块,以获取所述无人机载雷达图像的局部特征图;
第二处理单元,被配置为:利用通道-空间注意力模块对所述局部特征图中表征所述无人机载雷达图像的全局信息的特征进行增强,得到所述无人机载雷达图像的经全局增强的局部特征图;
第三处理单元,被配置为:将所述经全局增强的局部特征图依次送入基于VisionTransformer网络的第三计算模块和第四计算模块,以获取所述无人机载雷达图像的融合特征图
第四处理单元,被配置为:利用优化损失函数对所述融合特征图进行降噪处理,对经降噪处理的融合特征图进行识别,以确定所述无人机载雷达图像中包含的目标。
根据本发明第二方面的系统,基于所述Vision Transformer网络的所述第一计算模块、所述第二计算模块、所述第三计算模块和所述第四计算模块的计算过程如下:
将输入图像X划分为M个不重叠且具有相同宽度的区域块,Xi=[X1,X2,…,XM]∈R(s×M)×C,其中,Xi表示第i个区域块,R表示实数域,s表示区域块宽度,s×M表示每个区域块包含的令牌数,C表示通道数;
对M个区域块进行展平操作,得到M个向量图片,将M个向量图片的向量数据对应的各个图像块按顺序拼接成完整矩阵;
将所述完整矩阵与第1个向量图片作为第一输入,将所述完整矩阵与第2个向量图片作为第二输入,依此类推,将所述完整矩阵与第M个向量图片作为第M输入,上述M个输入依次被输入至基于所述Vision Transformer网络的计算模块;
所述Vision Transformer网络的计算模块的多头注意力机制包含K个注意力头,第k个注意力头的查询、键和值的维度均为dk,第k个注意力头的输出headk为:
其中,表示第k个注意力头针对第i个区域块Xi的计算输出,Attention()表示注意力函数,/>以及/>分别表示第k个注意力头的查询、键以及值;
将所述Vision Transformer网络的计算模块的K个注意力头的计算结果进行整合,得到所述Vision Transformer网络的计算模块的自注意力机制的输出结果ViT-Attention(X):
ViT-Attention(X)=Concat(head1,head2,...,headK)Wo
其中,Concat()表示级联函数,Wo∈RC×C表示投影矩阵;
则所述Vision Transformer网络的计算模块的多层感知器输出的特征图表示为:
其中,为中间量,LN()表示归一化,MLP()表示多层感知器,Xl表示多层感知器第l层的输出特征,Xl-1表示多层感知器第l-1层的输出特征。
根据本发明第二方面的系统,所述通道-空间注意力模块包括通道注意力模块和空间注意力模块;其中:
所述通道-空间注意力模块的输入F为所述第二计算模块输出的所述局部特征图F2,F=F2∈RH′×W′×C′,H′、W′、C′分别表示所述局部特征图的高、宽、通道数;
所述通道注意力模块对输入F进行处理后得到通道注意力特征MC(F)∈RC′,表示为:
MC(F)=FC(FC(GAP(F))
其中,GAP()表示全局平均池化层,FC()则表示全连接层;
所述空间注意力模块对输入F进行处理后得到空间注意力特征MS(F)∈RH′×W′,表示为:
MS(F)=Conv1×1(Conv3×3(Conv3×3(Conv1×1(F))))
其中,Conv()表示卷积层操作,1×1和3×3分别表示卷积核大小为1和3;
融合所述通道注意力特征和所述空间注意力特征,以进一步得到所述通道-空间注意力模块输出的输出特征图Ffinal:
Fall=GELU(MC(F)+MS(F)))
Ffinal=F+F-Fall
其中,GELU表示激活函数,Fall表示融合所述通道注意力特征和所述空间注意力特征后得到的特征。
根据本发明第二方面的系统,所述优化损失函数的预优化过程包括:
根据方程y=n(σ,δ)×x对预优化阶段的训练图像进行加噪,y表示噪声图像,x表示未加噪的训练图像,n(σ,δ)表示方差为δ、均值为σ的噪声;
所述噪声图像图像经过所述Vision Transformer网络的计算模块后得到Rim,Rim=ViT[y],同时Rim作为残差图像,Rim=y-n(σ,δ);利用均方误差MSE来执行优化训练,其损失函数的表达式为:
其中,Loss()表示损失函数,w和b分别表示优化过程中的权重和偏置。
本发明第三方面公开了一种电子设备。电子设备包括存储器和处理器,存储器存储有计算机程序,处理器执行计算机程序时,实现本公开一种无人机载雷达图像目标识别方法中的步骤。
本发明第四方面公开了一种计算机可读存储介质。计算机可读存储介质上存储有计算机程序,计算机程序被处理器执行时,实现本公开一种无人机载雷达图像目标识别方法中的步骤。
综上,本发明的技术方案主要利用通道-空间注意力机制以及VisionTransformer进行无人机载雷达图像的目标识别。使用Vision Transformer作为主干网络。加入通道-空间注意力模块来提高模型对于全局特征的注意力。同时,改进损失函数被用来进一步优化模型的分类能力。本发明主要以识别精度、参数存储空间和模型的深度为标准;与现有其他方法相比,本发明较大程度的提高了识别准确率,在无人机载雷达图像目标检测任务上效果显著,尤其适用于不规则目标以及小目标类别。
附图说明
为了更清楚地说明本发明具体实施方式或现有技术中的技术方案下面将对具体实施方式或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施方式,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为根据本发明实施例的一种无人机载雷达图像目标识别方法的流程图。
图2为根据本发明实施例的一种无人机载雷达图像目标识别系统的构成图。
图3为根据本发明实施例的通道-空间注意力模块的原理图。
图4为本发明实施例与现有技术的识别训练损失对比图。
图5为根据本发明实施例的一种电子设备的结构图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例只是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
针对不同光照、强度等过于复杂环境的干扰下,无人机载雷达图像的目标识别性能的问题,本发明基于注意力及Vision Transformer的模型(Attention-Transformer)来解决复杂环境下的干扰。其中,Vision Transformer被用作主干网络,同时提出通道-空间注意力模块和改进优化的损失函数,如图1所示。输入是无人机载雷达图像,经过VisionTransformer的特征图被输入至通道-空间注意力模块,并把得到的特征图再次输入VisionTransformer。最终,获得预测张量(图像向量),同时使用优化后的损失函数的分类器得到表达式分类。以解决无人机载雷达图像目标识别技术在实际应用中出现的性能问题。
如图2所示,首先将无人机载雷达图像作为输入放入模型中,接着增加四个VisionTransformer块,主要用于增强捕获原始图像中局部信息的能力。在第二块到第三块之间增加通道-空间注意力块,目的是将全局整体信息引入并与局部信息进行融合,提高目标识别性能。最后为了削弱噪声等无效信息的干扰,优化损失函数达到降低噪声对目标识别性能的影响,并得到提取后的识别结果。
本发明第一方面提出一种无人机载雷达图像目标识别方法。所述方法包括:
步骤S1、获取无人机载雷达图像,将所述无人机载雷达图像依次送入基于VisionTransformer网络的第一计算模块和第二计算模块,以获取所述无人机载雷达图像的局部特征图;
步骤S2、利用通道-空间注意力模块对所述局部特征图中表征所述无人机载雷达图像的全局信息的特征进行增强,得到所述无人机载雷达图像的经全局增强的局部特征图;
步骤S3、将所述经全局增强的局部特征图依次送入基于Vision Transformer网络的第三计算模块和第四计算模块,以获取所述无人机载雷达图像的融合特征图
步骤S4、利用优化损失函数对所述融合特征图进行降噪处理,对经降噪处理的融合特征图进行识别,以确定所述无人机载雷达图像中包含的目标。
本发明的技术方案的输入主要为无人机载雷达图像,输出为特定目标区域的自动识别提取。下面将首先介绍Vision Transformer,然后给出所提出的通道-空间注意力模块和优化后的损失函数的具体细节。
根据本发明第一方面的方法,基于所述Vision Transformer网络的所述第一计算模块、所述第二计算模块、所述第三计算模块和所述第四计算模块的计算过程如下:
将输入图像X划分为M个不重叠且具有相同宽度的区域块,Xi=[X1,X2,…,XM]∈R(s×M)×C,其中,Xi表示第i个区域块,R表示实数域,s表示区域块宽度,s×M表示每个区域块包含的令牌数,C表示通道数;
对M个区域块进行展平操作,得到M个向量图片,将M个向量图片的向量数据对应的各个图像块按顺序拼接成完整矩阵;
将所述完整矩阵与第1个向量图片作为第一输入,将所述完整矩阵与第2个向量图片作为第二输入,依此类推,将所述完整矩阵与第M个向量图片作为第M输入,上述M个输入依次被输入至基于所述Vision Transformer网络的计算模块;
所述Vision Transformer网络的计算模块的多头注意力机制包含K个注意力头,第k个注意力头的查询、键和值的维度均为dk,第k个注意力头的输出headk为:
其中,表示第k个注意力头针对第i个区域块Xi的计算输出,Attention()表示注意力函数,/>以及/>分别表示第k个注意力头的查询、键以及值;
将所述Vision Transformer网络的计算模块的K个注意力头的计算结果进行整合,得到所述Vision Transformer网络的计算模块的自注意力机制的输出结果ViT-Attention(X):
ViT-Attention(X)=Concat(head1,head2,...,headK)Wo
其中,Concat()表示级联函数,Wo∈RC×C表示投影矩阵;
则所述Vision Transformer网络的计算模块的多层感知器输出的特征图表示为:
其中,为中间量,LN()表示归一化,MLP()表示多层感知器,Xl表示多层感知器第l层的输出特征,Xl-1表示多层感知器第l-1层的输出特征。
在一些实施例中,Vision Transformer。本专利将Vision Transformer作为无人机载雷达图像目标识别任务的主干网络,此网络具有自注意力机制。对于任意目标来说,先将输入X划分为不重叠的且具有相同宽度的s区域块,即Xi=[X1,X2,…,XM]∈R(s×W)×C,其中每个包含s×W个令牌。这里,s是区域的宽度,可以用来平衡模型的学习能力和计算复杂度。接着将这些区域看成一个个块的序列,再把这个序列中的每个区域进行展平操作,可将其转化成为向量图片。经过以上所有操作,一张输入图片就成为了一个大矩阵,这个矩阵与一个向量图片一起被输入至模型的编码端中,来处理图像区域序列,最终由模型输出做图像识别。这里,Transformer模型中的多头注意力机制中第k个注意力头的queries、keys和values的维度都是dk,那么该注意力输出结果headk可以进行如下定义:
其中,以及/>分别表示第k个注意力头的queries、keys和values。最终得到ViT-Attention(X)自注意力机制的结果如下。
ViT-Attention(X)=Concat(head1,head2,...,headK)Wo
其中,Wo∈RC×C是常用的投影矩阵,它将自注意力结果投射到目标输出维度(默认设置为C)。由此,可以得出主干网络中的Vision Transformer的计算方法为:
其中,LN表示层的归一化,MLP表示多层感知器,表示自注意力Attention的输出特征,Xl表示多层感知器的输出特征。
根据本发明第一方面的方法,所述通道-空间注意力模块包括通道注意力模块和空间注意力模块;其中:
所述通道-空间注意力模块的输入F为所述第二计算模块输出的所述局部特征图F2,F=F2∈RH′×W′×C′,H′、W′、C′分别表示所述局部特征图的高、宽、通道数;
所述通道注意力模块对输入F进行处理后得到通道注意力特征MC(F)∈RC′,表示为:
MC(F)=FC(FC(GAP(F))
其中,GAP()表示全局平均池化层,FC()则表示全连接层;
所述空间注意力模块对输入F进行处理后得到空间注意力特征MS(F)∈RH′×W′,表示为:
MS(F)=Conv1×1(Conv3×3(Conv3×3(Conv1×1(F))))
其中,Conv()表示卷积层操作,1×1和3×3分别表示卷积核大小为1和3;
融合所述通道注意力特征和所述空间注意力特征,以进一步得到所述通道-空间注意力模块输出的输出特征图Ffinal:
Fall=GELU(MC(F)+MS(F)))
Ffinal=F+F-Fall
其中,GELU表示激活函数,Fall表示融合所述通道注意力特征和所述空间注意力特征后得到的特征。
在一些实施例中,通道-空间注意力模块如图3所示,虽然使用VisionTransformer主干网络可以有效提取无人机载雷达图像中的局部区域信息,但其中的自注意力机制往往倾向于将输入结果的特征图分为步长较小的区域块来进行处理,这将导致模型缺乏对于全局特征信息的学习能力。为了增强模型对于全局信息的注意力是处理复杂环境下目标识别性能的关键解决方案。因此,这里引入了通道-空间注意力模块。以达到增强模型提取关键全局特征信息的目的。
为了实现有效的注意力,本文引入通道-空间注意力模块,该模块同时考虑通道和空间两个维度,并依次计算输入的注意力特征图。最终得到与原始特征图加权得到结果。整体结构在图1中展示,具体细节如图2所示。具体来说,将Vision Transformer块2之后得到的特征图作为输入,即F=F2∈RH′×W′×C′。随后特征图将分别进入两个分离的路径,即通道注意力模块和空间注意力模块。用MC(F)∈RC′和MS(F)∈RH′×W′分别表示这两个模块的通道注意力特征和空间注意力特征,则MC(F)可以计算并表示如下:
MC(F)=FC(FC(GAP(F))
其中,GAP表示全局平均池化层,用来聚合每个通道的特征并得到通道向量,该向量对每个通道中的全局信息进行编码。FC则表示全连接层。而对于空间注意力分支的特征图MS(F)来说,可以通过卷积来进行特征提取,其计算过程并表示如下:
MS(F)=Conv1×1(Conv3×3(Conv3×3(Conv1×1(F))))
其中,Conv表示卷积层操作,1×1和3×3分别表示卷积核大小为1和3。随后,需要将两个分支注意力结合为全局注意力特征图Fall。把两个注意力MC(F)和MS(F)逐元素相加,经过GELU函数激活,可以通过如下计算得到:
Fall=GELU(MC(F)+MS(F)))
Ffinal=F+F-Fall
其中,GELU表示GELU激活函数。最终,将全局注意力特征图Fall与原输入特征逐元素相乘后,再与原输入相加,最终得到输出特征图Ffinal,…表示对应元素相乘。
根据本发明第一方面的方法,所述优化损失函数的预优化过程包括:
根据方程y=n(σ,δ)×x对预优化阶段的训练图像进行加噪,y表示噪声图像,x表示未加噪的训练图像,n(σ,δ)表示方差为δ、均值为σ的噪声;
所述噪声图像图像经过所述Vision Transformer网络的计算模块后得到Rim,Rim=ViT[y],同时Rim作为残差图像,Rim=y-n(σ,δ);利用均方误差MSE来执行优化训练,其损失函数的表达式为:
其中,Loss()表示损失函数,w和b分别表示优化过程中的权重和偏置。
在一些实施例中,由于无人机载雷达图像的特殊性,其噪声图像大多属于乘性噪声,因此对所提模型训练的数据集需要进行加噪预处理。
本专利根据方程y=n(σ,δ)×x对图像进行加噪,其中y表示输入噪声图像,x表示未加噪的图像,n(σ,δ)表示方差为δ、均值为σ的噪声。输入噪声图像经过前面设计好的ViT模型后,得到输出残差图像为Rim,表达为ViT[y]=Rim=y-n(σ,δ)。随后,使用给定的均方误差(MSE)来训练去噪网络,其损失函数的表达式为:
其中w和b是模型中学习到的权重和偏置。
本发明与现有技术的识别训练损失对比图如图4所示。
本发明第二方面提出一种无人机载雷达图像目标识别系统。所述系统包括处理单元,所述处理单元被配置为执行以下步骤:
第一处理单元,被配置为:获取无人机载雷达图像,将所述无人机载雷达图像依次送入基于Vision Transformer网络的第一计算模块和第二计算模块,以获取所述无人机载雷达图像的局部特征图;
第二处理单元,被配置为:利用通道-空间注意力模块对所述局部特征图中表征所述无人机载雷达图像的全局信息的特征进行增强,得到所述无人机载雷达图像的经全局增强的局部特征图;
第三处理单元,被配置为:将所述经全局增强的局部特征图依次送入基于VisionTransformer网络的第三计算模块和第四计算模块,以获取所述无人机载雷达图像的融合特征图
第四处理单元,被配置为:利用优化损失函数对所述融合特征图进行降噪处理,对经降噪处理的融合特征图进行识别,以确定所述无人机载雷达图像中包含的目标。
根据本发明第二方面的系统,基于所述Vision Transformer网络的所述第一计算模块、所述第二计算模块、所述第三计算模块和所述第四计算模块的计算过程如下:
将输入图像X划分为M个不重叠且具有相同宽度的区域块,Xi=[X1,X2,…,XM]∈R(s×M)×C,其中,Xi表示第i个区域块,R表示实数域,s表示区域块宽度,s×M表示每个区域块包含的令牌数,C表示通道数;
对M个区域块进行展平操作,得到M个向量图片,将M个向量图片的向量数据对应的各个图像块按顺序拼接成完整矩阵;
将所述完整矩阵与第1个向量图片作为第一输入,将所述完整矩阵与第2个向量图片作为第二输入,依此类推,将所述完整矩阵与第M个向量图片作为第M输入,上述M个输入依次被输入至基于所述Vision Transformer网络的计算模块;
所述Vision Transformer网络的计算模块的多头注意力机制包含K个注意力头,第k个注意力头的查询、键和值的维度均为dk,第k个注意力头的输出headk为:
其中,表示第k个注意力头针对第i个区域块Xi的计算输出,Attention()表示注意力函数,/>以及/>分别表示第k个注意力头的查询、键以及值;
将所述Vision Transformer网络的计算模块的K个注意力头的计算结果进行整合,得到所述Vision Transformer网络的计算模块的自注意力机制的输出结果ViT-Attention(X):
ViT-Attention(X)=Concat(head1,head2,...,headK)Wo
其中,Concat()表示级联函数,Wo∈RC×C表示投影矩阵;
则所述Vision Transformer网络的计算模块的多层感知器输出的特征图表示为:
其中,为中间量,LN()表示归一化,MLP()表示多层感知器,Xl表示多层感知器第l层的输出特征,Xl-1表示多层感知器第l-1层的输出特征。
根据本发明第二方面的系统,所述通道-空间注意力模块包括通道注意力模块和空间注意力模块;其中:
所述通道-空间注意力模块的输入F为所述第二计算模块输出的所述局部特征图F2,F=F2∈RH′×W′×C′,H′、W′、C′分别表示所述局部特征图的高、宽、通道数;
所述通道注意力模块对输入F进行处理后得到通道注意力特征MC(F)∈RC′,表示为:
MC(F)=FC(FC(GAP(F))
其中,GAP()表示全局平均池化层,FC()则表示全连接层;
所述空间注意力模块对输入F进行处理后得到空间注意力特征MS(F)∈RH′×W′,表示为:
MS(F)=Conv1×1(Conv3×3(Conv3×3(Conv1×1(F))))
其中,Conv()表示卷积层操作,1×1和3×3分别表示卷积核大小为1和3;
融合所述通道注意力特征和所述空间注意力特征,以进一步得到所述通道-空间注意力模块输出的输出特征图Ffinal:
Fall=GELU(MC(F)+MS(F)))
Ffinal=F+F-Fall
其中,GELU表示激活函数,Fall表示融合所述通道注意力特征和所述空间注意力特征后得到的特征。
根据本发明第二方面的系统,所述优化损失函数的预优化过程包括:
根据方程y=n(σ,δ)×x对预优化阶段的训练图像进行加噪,y表示噪声图像,x表示未加噪的训练图像,n(σ,δ)表示方差为δ、均值为σ的噪声;
所述噪声图像图像经过所述Vision Transformer网络的计算模块后得到Rim,Rim=ViT[y],同时Rim作为残差图像,Rim=y-n(σ,δ);利用均方误差MSE来执行优化训练,其损失函数的表达式为:
其中,Loss()表示损失函数,w和b分别表示优化过程中的权重和偏置。
具体示例
环境配置基于Tensorflow框架建立,以Windows10操作系统为平台基础。深度学习框架使用开发的Pytorch,版本为1.11.0。对比实验的软、硬件训练环境配置如表1所示。
表1环境配置
项目名称 | 版本 |
CPU | Intel(R)Core(TM)i7-1065G7CPU@1.30GHz1.50GHz |
GPU | Intel(R)Iris(R)PlusGraphics |
CUDA | 11.6 |
Python | 3.9.12 |
Pytorch | 1.11.0 |
模型训练过程中其超参数设置如下:初始学习速率为1e-4,如果不小于1e-8,每10个epoch将减少0.5倍。力矩动量和梯度下降分别设置为0.9和0.1。训练批大小为32,训练期数为100。当训练结束后,将网络参数应用于测试数据集。所有的实验都是在上述表1描述环境配置的设备上进行的。
数据集主要来源于无人机载雷达实地采集的数据,筛选出隧道衬砌厚度不足、空洞和不密实的图片,格式为PNG图像,最终得到训练集3589张,640×480像素。其中70%用于训练,30%用于测试。
接着将所提基于改进Vision Transformer模型在无人机载雷达数据集上与近五年内最先进方法进行比较,这些方法主要分为基于CNN的模型和基于Transformer的模型两类。基于CNN的模型主要有如下方法:PG-CNN(patch-gated convolutional neuralnetwork)主要划分为不同的注意力块,并使用patch-gate单元来预测每个patch的概率。SCN(self-cure network)通过计算图像的注意力权重对其进行排名,分数低于阈值的图像标签被替换为由模型计算得来的新标签。PyConv-Attention Net将图像按照区域采样裁剪成多张子图像,并输入到金字塔卷积神经网络进行多尺度特征提取,再将提取到的特征图输入到全局注意力模块同时分配权重。基于Transformer的模型在之前均有提到,如CVT和MViT。下面表2展示了各个模型在无人机载雷达图像数据集上的识别效果,并证明了所提方法的有效性。
表2各个模型在无人机载雷达图像数据集上的识别效果
可见,本发明基于改进的Vision Transformer的无人机载雷达图像目标识别方法与系统主要针对复杂环境存在对图像处理性能抵的问题。其次,主要设计了包括引入Vision Transformer模型、通道-空间注意力模块、以及改进的损失函数模块来提高目标识别性能效果,以解决复杂环境中目标域中识别率低和不准确等问题。
本系统主要技术致力于解决减少计算量和复杂环境下的无人机载雷达目标识别之间的两难问题,基于Vision Transformer和注意力机制,本文提出了改进的VisionTransformer网络。具体来说,通过Vision Transformer主干网络可以使模型拥有较好的局部注意力,同时提出的通道-空间注意力模块使模型拥有较好的全局注意力,接着采用优化降噪损失函数来进一步增强优化模型的识别能力。
本发明第三方面公开了一种电子设备。电子设备包括存储器和处理器,存储器存储有计算机程序,处理器执行计算机程序时,实现本公开一种无人机载雷达图像目标识别方法中的步骤。
图5为根据本发明实施例的一种电子设备的结构图,如图5所示,电子设备包括通过系统总线连接的处理器、存储器、通信接口、显示屏和输入装置。其中,该电子设备的处理器用于提供计算和控制能力。该电子设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统和计算机程序。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该电子设备的通信接口用于与外部的终端进行有线或无线方式的通信,无线方式可通过WIFI、运营商网络、近场通信(NFC)或其他技术实现。该电子设备的显示屏可以是液晶显示屏或者电子墨水显示屏,该电子设备的输入装置可以是显示屏上覆盖的触摸层,也可以是电子设备外壳上设置的按键、轨迹球或触控板,还可以是外接的键盘、触控板或鼠标等。
本领域技术人员可以理解,图5中示出的结构,仅仅是与本公开的技术方案相关的部分的结构图,并不构成对本申请方案所应用于其上的电子设备的限定,具体的电子设备可以包括比图中所示更多或更少的部件,或者组合某些部件,或者具有不同的部件布置。
本发明第四方面公开了一种计算机可读存储介质。计算机可读存储介质上存储有计算机程序,计算机程序被处理器执行时,实现本公开一种无人机载雷达图像目标识别方法中的步骤。
综上,本发明的技术方案主要利用通道-空间注意力机制以及VisionTransformer进行无人机载雷达图像的目标识别。使用Vision Transformer作为主干网络。加入通道-空间注意力模块来提高模型对于全局特征的注意力。同时,改进损失函数被用来进一步优化模型的分类能力。本发明主要以识别精度、参数存储空间和模型的深度为标准;与现有其他方法相比,本发明较大程度的提高了识别准确率,在无人机载雷达图像目标检测任务上效果显著,尤其适用于不规则目标以及小目标类别。
本发明的技术方案:(1)使用Vision Transformer作为主干网络来解决无人机载雷达图像目标识别任务中的环境复杂问题;(2)提出通道-空间注意力模块,引导模型更加关注全局特征信息,通道-空间注意力模块使用包含通道和空间的注意力机制模块,能够更好地提取全局特征信息;(3)同时增加改进后的降噪损失函数来进一步优化目标识别效果,通过使用改进后的降噪损失函数可以降低来自光照等自然因素噪声的影响,这样的结构被证明是有效的。
请注意,以上实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。以上实施例仅表达了本申请的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对发明专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本申请构思的前提下,还可以做出若干变形和改进,这些都属于本申请的保护范围。因此,本申请专利的保护范围应以所附权利要求为准。
Claims (10)
1.一种无人机载雷达图像目标识别方法,其特征在于,所述方法包括:
步骤S1、获取无人机载雷达图像,将所述无人机载雷达图像依次送入基于VisionTransformer网络的第一计算模块和第二计算模块,以获取所述无人机载雷达图像的局部特征图;
步骤S2、利用通道-空间注意力模块对所述局部特征图中表征所述无人机载雷达图像的全局信息的特征进行增强,得到所述无人机载雷达图像的经全局增强的局部特征图;
步骤S3、将所述经全局增强的局部特征图依次送入基于Vision Transformer网络的第三计算模块和第四计算模块,以获取所述无人机载雷达图像的融合特征图;
步骤S4、利用优化损失函数对所述融合特征图进行降噪处理,对经降噪处理的融合特征图进行识别,以确定所述无人机载雷达图像中包含的目标。
2.根据权利要求1所述的一种无人机载雷达图像目标识别方法,其特征在于,基于所述Vision Transformer网络的所述第一计算模块、所述第二计算模块、所述第三计算模块和所述第四计算模块的计算过程如下:
将输入图像X划分为M个不重叠且具有相同宽度的区域块,Xi=[X1,X2,…,XM]∈R(s×M)×C,其中,Xi表示第i个区域块,R表示实数域,s表示区域块宽度,s×M表示每个区域块包含的令牌数,C表示通道数;
对M个区域块进行展平操作,得到M个向量图片,将M个向量图片的向量数据对应的各个图像块按顺序拼接成完整矩阵;
将所述完整矩阵与第1个向量图片作为第一输入,将所述完整矩阵与第2个向量图片作为第二输入,依此类推,将所述完整矩阵与第M个向量图片作为第M输入,上述M个输入依次被输入至基于所述Vision Transformer网络的计算模块;
所述Vision Transformer网络的计算模块的多头注意力机制包含K个注意力头,第k个注意力头的查询、键和值的维度均为dk,第k个注意力头的输出headk为:
其中,表示第k个注意力头针对第i个区域块Xi的计算输出,Attention()表示注意力函数,/>以及/>分别表示第k个注意力头的查询、键以及值;
将所述Vision Transformer网络的计算模块的K个注意力头的计算结果进行整合,得到所述Vision Transformer网络的计算模块的自注意力机制的输出结果ViT-Attention(X):
ViT-Attention(X)=Concat(head1,head2,...,headK)Wo
其中,Concat()表示级联函数,表示投影矩阵;
则所述Vision Transformer网络的计算模块的多层感知器输出的特征图表示为:
其中,为中间量,LN()表示归一化,MLP()表示多层感知器,Xl表示多层感知器第l层的输出特征,Xl-1表示多层感知器第l-1层的输出特征。
3.根据权利要求2所述的一种无人机载雷达图像目标识别方法,其特征在于,所述通道-空间注意力模块包括通道注意力模块和空间注意力模块;其中:
所述通道-空间注意力模块的输入F为所述第二计算模块输出的所述局部特征图F2,F=F2∈RH′×W′×C′,H′、W′、C′分别表示所述局部特征图的高、宽、通道数;
所述通道注意力模块对输入F进行处理后得到通道注意力特征MC(F)∈RC′,表示为:
MC(F)=FC(FC(GAP(F)))
其中,GAP()表示全局平均池化层,FC()则表示全连接层;
所述空间注意力模块对输入F进行处理后得到空间注意力特征MS(F)∈RH′×W′,表示为:
MS(F)=Conv1×1(Conv3×3(Conv3×3(Conv1×1(F))))
其中,Conv()表示卷积层操作,1×1和3×3分别表示卷积核大小为1和3;
融合所述通道注意力特征和所述空间注意力特征,以进一步得到所述通道-空间注意力模块输出的输出特征图Ffinal:
Fall=GELU(MC(F)+MS(F))
其中,GELU表示激活函数,Fall表示融合所述通道注意力特征和所述空间注意力特征后得到的特征。
4.根据权利要求3所述的一种无人机载雷达图像目标识别方法,其特征在于,所述优化损失函数的预优化过程包括:
根据方程y=n(σ,δ)×x对预优化阶段的训练图像进行加噪,y表示噪声图像,x表示未加噪的训练图像,n(σ,δ)表示方差为δ、均值为σ的噪声;
所述噪声图像图像经过所述Vision Transformer网络的计算模块后得到Rim,Rim=ViT[y],同时Rim作为残差图像,Rim=y-n(σ,δ);利用均方误差MSE来执行优化训练,其损失函数的表达式为:
其中,Loss()表示损失函数,w和b分别表示优化过程中的权重和偏置。
5.一种无人机载雷达图像目标识别系统,其特征在于,所述系统包括:
第一处理单元,被配置为:获取无人机载雷达图像,将所述无人机载雷达图像依次送入基于Vision Transformer网络的第一计算模块和第二计算模块,以获取所述无人机载雷达图像的局部特征图;
第二处理单元,被配置为:利用通道-空间注意力模块对所述局部特征图中表征所述无人机载雷达图像的全局信息的特征进行增强,得到所述无人机载雷达图像的经全局增强的局部特征图;
第三处理单元,被配置为:将所述经全局增强的局部特征图依次送入基于VisionTransformer网络的第三计算模块和第四计算模块,以获取所述无人机载雷达图像的融合特征图
第四处理单元,被配置为:利用优化损失函数对所述融合特征图进行降噪处理,对经降噪处理的融合特征图进行识别,以确定所述无人机载雷达图像中包含的目标。
6.根据权利要求5所述的一种无人机载雷达图像目标识别系统,其特征在于,基于所述Vision Transformer网络的所述第一计算模块、所述第二计算模块、所述第三计算模块和所述第四计算模块的计算过程如下:
将输入图像X划分为M个不重叠且具有相同宽度的区域块,Xi=[X1,X2,…,XM]∈R(s×M)×C,其中,Xi表示第i个区域块,R表示实数域,s表示区域块宽度,s×M表示每个区域块包含的令牌数,C表示通道数;
对M个区域块进行展平操作,得到M个向量图片,将M个向量图片的向量数据对应的各个图像块按顺序拼接成完整矩阵;
将所述完整矩阵与第1个向量图片作为第一输入,将所述完整矩阵与第2个向量图片作为第二输入,依此类推,将所述完整矩阵与第M个向量图片作为第M输入,上述M个输入依次被输入至基于所述Vision Transformer网络的计算模块;
所述Vision Transformer网络的计算模块的多头注意力机制包含K个注意力头,第k个注意力头的查询、键和值的维度均为dk,第k个注意力头的输出headk为:
其中,表示第k个注意力头针对第i个区域块Xi的计算输出,Attention()表示注意力函数,/>以及/>分别表示第k个注意力头的查询、键以及值;
将所述Vision Transformer网络的计算模块的K个注意力头的计算结果进行整合,得到所述Vision Transformer网络的计算模块的自注意力机制的输出结果ViT-Attention(X):
ViT-Attention(X)=Concat(head1,head2,...,headK)Wo
其中,Concat()表示级联函数,表示投影矩阵;
则所述Vision Transformer网络的计算模块的多层感知器输出的特征图表示为:
其中,为中间量,LN()表示归一化,MLP()表示多层感知器,Xl表示多层感知器第l层的输出特征,Xl-1表示多层感知器第l-1层的输出特征。
7.根据权利要求6所述的一种无人机载雷达图像目标识别系统,其特征在于,所述通道-空间注意力模块包括通道注意力模块和空间注意力模块;其中:
所述通道-空间注意力模块的输入F为所述第二计算模块输出的所述局部特征图F2,F=F2∈RH′×W′×C′,H′、W′、C′分别表示所述局部特征图的高、宽、通道数;
所述通道注意力模块对输入F进行处理后得到通道注意力特征MC(F)∈RC′,表示为:
MC(F)=FC(FC(GAP(F))
其中,GAP()表示全局平均池化层,FC()则表示全连接层;
所述空间注意力模块对输入F进行处理后得到空间注意力特征MS(F)∈RH′×W′,表示为:
MS(F)=Conv1×1(Conv3×3(Conv3×3(Conv1×1(F))))
其中,Conv()表示卷积层操作,1×1和3×3分别表示卷积核大小为1和3;
融合所述通道注意力特征和所述空间注意力特征,以进一步得到所述通道-空间注意力模块输出的输出特征图Ffinal:
Fall=GELU(MC(F)+MS(F)))
其中,GELU表示激活函数,Fall表示融合所述通道注意力特征和所述空间注意力特征后得到的特征。
8.根据权利要求7所述的一种无人机载雷达图像目标识别系统,其特征在于,所述优化损失函数的预优化过程包括:
根据方程y=n(σ,δ)×x对预优化阶段的训练图像进行加噪,y表示噪声图像,x表示未加噪的训练图像,n(σ,δ)表示方差为δ、均值为σ的噪声;
所述噪声图像图像经过所述Vision Transformer网络的计算模块后得到Rim,Rim=ViT[y],同时Rim作为残差图像,Rim=y-n(σ,δ);利用均方误差MSE来执行优化训练,其损失函数的表达式为:
其中,Loss()表示损失函数,w和b分别表示优化过程中的权重和偏置。
9.一种电子设备,其特征在于,所述电子设备包括存储器和处理器,所述存储器存储有计算机程序,所述处理器执行所述计算机程序时,实现权利要求1-4任一项所述的一种无人机载雷达图像目标识别方法中的步骤。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时,实现权利要求1-4任一项所述的一种无人机载雷达图像目标识别方法中的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202410061672.7A CN117935087A (zh) | 2024-01-16 | 2024-01-16 | 一种无人机载雷达图像目标识别方法与系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202410061672.7A CN117935087A (zh) | 2024-01-16 | 2024-01-16 | 一种无人机载雷达图像目标识别方法与系统 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN117935087A true CN117935087A (zh) | 2024-04-26 |
Family
ID=90753167
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202410061672.7A Pending CN117935087A (zh) | 2024-01-16 | 2024-01-16 | 一种无人机载雷达图像目标识别方法与系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN117935087A (zh) |
-
2024
- 2024-01-16 CN CN202410061672.7A patent/CN117935087A/zh active Pending
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN112446270B (zh) | 行人再识别网络的训练方法、行人再识别方法和装置 | |
CN111738124B (zh) | 基于Gabor变换和注意力的遥感图像云检测方法 | |
CN116469020A (zh) | 一种基于多尺度和高斯Wasserstein距离的无人机图像目标检测方法 | |
CN112489089B (zh) | 一种微型固定翼无人机机载地面运动目标识别与跟踪方法 | |
US20240161304A1 (en) | Systems and methods for processing images | |
CN116206221B (zh) | 一种水体耀斑检测方法和系统 | |
CN118314353B (zh) | 一种基于双分支多尺度特征融合的遥感图像分割方法 | |
CN115131503A (zh) | 一种虹膜三维识别的健康监测方法及其系统 | |
CN117079095A (zh) | 基于深度学习的高空抛物检测方法、系统、介质和设备 | |
CN116796248A (zh) | 森林康养环境评估系统及其方法 | |
Huang et al. | EST-YOLOv5s: SAR image aircraft target detection model based on improved YOLOv5s | |
Zhang et al. | A Spectrum-Aware Transformer Network for Change Detection in Hyperspectral Imagery | |
CN112613354A (zh) | 一种基于稀疏降噪自编码器的异质遥感图像变化检测方法 | |
Yang | RETRACTED ARTICLE: UAV landmark detection on fast region-based CNN | |
CN117935087A (zh) | 一种无人机载雷达图像目标识别方法与系统 | |
Liu et al. | Target detection of hyperspectral image based on faster R-CNN with data set adjustment and parameter turning | |
Gao et al. | Method of quality assessment based on convolution feature similarity for laser disturbing image | |
Zhang et al. | Research on real-time detection algorithm for pedestrian and vehicle in foggy weather based on lightweight XM-YOLOViT | |
Ying et al. | GPK-YOLOv5s: Content-Aware Reassembly of Features and Self Attention for High Altitude Parabolic Detection and Tracking | |
Hu et al. | Aircraft Targets Detection in Remote Sensing Images with Feature Optimization | |
CN118196700B (zh) | 一种室内烟雾遮挡下的疏散人员识别方法及装置 | |
CN117523428B (zh) | 基于飞行器平台的地面目标检测方法和装置 | |
CN117456389B (zh) | 一种基于YOLOv5s的改进型无人机航拍图像密集和小目标识别方法、系统、设备及介质 | |
Zhu et al. | An object detection method based on YOLOv3 on infrared images | |
CN118411634A (zh) | 基于改进YOLOv7的无人机遥感小目标检测方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |