CN114694024A - 基于多层特征自注意力变换网络的无人机对地目标跟踪方法 - Google Patents
基于多层特征自注意力变换网络的无人机对地目标跟踪方法 Download PDFInfo
- Publication number
- CN114694024A CN114694024A CN202210275988.7A CN202210275988A CN114694024A CN 114694024 A CN114694024 A CN 114694024A CN 202210275988 A CN202210275988 A CN 202210275988A CN 114694024 A CN114694024 A CN 114694024A
- Authority
- CN
- China
- Prior art keywords
- characteristic
- module
- branch
- head attention
- attention module
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/25—Fusion techniques
- G06F18/253—Fusion techniques of extracted features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Health & Medical Sciences (AREA)
- Software Systems (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Biophysics (AREA)
- Biomedical Technology (AREA)
- Mathematical Physics (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Biology (AREA)
- Image Analysis (AREA)
Abstract
本发明涉及计算机视觉技术领域,具体公开了一种基于多层特征自注意力变换网络的无人机对地目标跟踪方法。该方法将Alexnet网络与自注意力变换网络相融合,其具体步骤如下:首先采用Alexnet网络提取模板图像和搜索图像的第三、四、五层特征,获得图像的高分辨率特征图和低分辨率特征图,然后输入到自注意力变换网络,实现多层特征图的自注意力变换,聚合来自不同层级的目标特征,加大层级之间特征的依赖关系,适应无人机平台跟踪复杂场景目标的能力;最后对得到的模板分支和搜索分支的目标特征图进行相关卷积操作获得目标的相似性得分图,对目标对象进行分类和回归,确定无人机跟踪目标的最优位置。本发明实现了无人机平台对地面目标的准确跟踪。
Description
技术领域
本发明涉及计算机视觉技术领域,尤其涉及一种基于多层特征自注意力变换网络的无人机对地目标跟踪方法。
背景技术
无人机对地目标跟踪属于计算机视觉领域一项重要的研究课题。近年来,随着无人机产业的飞速发展,无人机在城市安全防控、水利勘测、林业调查、林业病虫害监测、公路养护巡检等领域得到了广泛的应用。
在无人机的众多应用任务中,无人机对地目标跟踪技术具有重要的研究意义,成为无人机领域的研究热点。无人机对地目标跟踪是利用计算机视觉方法对航拍视频中的地面目标进行跟踪,获取其运动轨迹信息(如位置、速度、加速度等),为后续高层次的智能化分析与处理任务提供基础。
目前,无人机对地目标跟踪技术一般分为相关滤波法和孪生网络法。
采用手动特征的相关滤波法虽然跟踪速度较快,但是跟踪精度不高;基于深度特征的相关滤波法虽然提升了跟踪准确度,但是在无人机平台上计算资源,跟踪速度只有10帧/秒左右,难以满足无人机任务实时性需求。
孪生网络法即SiamFC跟踪方法,两分支采用相同的孪生网络,提取模板和搜索图像特征,运用相关卷积计算响应图,即搜索区域与模板相似性图,确定目标位置,相比传统相关滤波法,在保证跟踪速度的同时,提升了跟踪准确度。后续的SiamRPN、SiamRPN++、SiamFC++以及Siamban等孪生网络法,采用深层神经网络模型提取图像特征,在跟踪速度不降低的同时进一步提升了跟踪效果。
虽然孪生网络法在部分视频上的跟踪效果较好,但是由于该类方法仅仅使用网络模型提取目标特征,没有对特征进行进一步处理,当无人机获取的地面目标遇到诸如严重遮挡、较大形变或目标消失等技术问题时,传统的孪生网络方法跟踪效果降低明显,因而难以满足实际应用场景的鲁棒性需求。
发明内容
本发明的目的在于提出一种基于多层特征自注意力变换网络的无人机对地目标跟踪方法,以实现无人机平台对地面目标的准确跟踪。
本发明为了实现上述目的,采用如下技术方案:
基于多层特征自注意力变换网络的无人机对地目标跟踪方法,包括:
步骤1.搭建包含自注意力变换网络的孪生神经网络;
步骤2.分别提取模板图像的第三层特征Z3、第四层特征Z4、第五层特征Z5以及搜索图像的第三层特征X3、第四层特征X4、第五层特征X5;
步骤3.对步骤2提取的各层特征进行包括卷积、引入位置编码以及维度变化在内的预处理,得到模板分支预处理特征以及搜索分支预处理特征;
将模板分支预处理特征输入到模板分支自注意力变换网络;
将搜索分支预处理特征输入到搜索分支自注意力变换网络;
步骤4.基于步骤3得到的模板分支以及搜索分支预处理特征,利用自注意力变换网络,分别将模板分支和搜索分支不同层的特征进行融合;
特征融合后,得到模板分支目标特征图以及搜索分支目标特征图;
步骤5.将步骤4得到的模板分支目标特征图以及搜索分支目标特征图进行卷积运算,通过卷积运算得到响应图;
步骤6.将响应图进行分类、回归操作,确定无人机跟踪目标的最优位置。
本发明具有如下优点:
如上所述,本发明提出了一种基于多层特征自注意力变换网络的无人机对地目标跟踪方法,该方法将Alexnet网络与自注意力变换网络相融合,通过自注意力变换网络,分别将模板分支和搜索分支不同层的特征进行融合,聚集浅层高分辨率特征和深层语义特征,同时增加全局上下文和层次特征之间的相互依赖,输出模板分支和搜索分支更加鲁棒的目标特征图,能够较好的处理不同尺寸不同分辨率的目标;此外,本发明采用融合全局和多层次信息模板目标特征和搜索目标特征,采用相关卷积计算响应图,并使用无锚点的分类和回归模块确定目标位置和尺寸,在真实无人机对地目标多个场景视频下,取得了较好的跟踪效果。本发明方法尤其适用于无人机平台的移动目标跟踪,具有计算复杂度低、跟踪速度快,能够很好的应用于移动端设备等优点。
附图说明
图1为本发明实施例中基于多层特征自注意力变换网络的无人机对地目标跟踪方法的流程框图;
图2为本发明实施例中自注意力变换网络的结构示意图。
具体实施方式
下面结合附图以及具体实施方式对本发明作进一步详细说明:
如图1和图2所示,本实施例中基于多层特征自注意力变换网络的无人机对地目标跟踪方法,包括如下步骤:
步骤1.搭建融合Alexnet和自注意力变换网络的孪生神经网络。
步骤2.通过无人机上的摄像头,获取待跟踪目标视频。
取跟踪目标视频的第一帧,手动选取跟踪目标框,提取目标框的两倍大小图像,作为整个方法的模板图像,并在跟踪过程中保持不变;当后续第k帧到来时,将以前一帧中跟踪结果为中心,提取目标框4倍大小图像作为搜索图像。
其中,模板图像大小为127×127×3,输入搜索图像大小为287×287×3。
使用Alexnet网络分别提取模板图像的第三层特征Z3∈R110×384×10×10、第四层特征Z4∈R110×384×8×8以及第五层特征Z5∈R110×256×6×6。
使用Alexnet网络分别提取搜索图像第三层特征X3∈R110×384×30×30、第四层特征X4∈R110×384×28×28以及第五层特征X5∈R110×256×26×26。
步骤3.对步骤2提取的各层特征进行包括卷积、引入位置编码以及维度变化在内的预处理,得到模板分支预处理特征以及搜索分支预处理特征。
该步骤3具体为:
步骤3.1.对两个分支的第三层特征Z3和X3分别经过3×3卷积核,步长为2,填充为0的卷积操作,输出通道降为192,同时进行batchnorm2d归一化和relu 激活处理,得到输出后的特征Z’3∈R110×192×10×10和X’3∈R110×192×30×30。
其中,Z’3为第三层模板分支特征,X’3为第三层搜索分支特征。
步骤3.2.对两个分支的第四层特征Z4和X4分别经过3×3卷积核,步长为2,填充为1的卷积操作,输出通道降为192,同时进行batchnorm2d归一化和relu 激活处理,得到输出后的特征Z’4∈R110×192×10×10和X’4∈R110×192×30×30。
其中,Z’4为第四层模板分支特征,X’4为第四层搜索分支特征。
步骤3.3.对两个分支的第五层特征Z5和X5分别经过3×3卷积核,步长为2,填充为2的卷积操作,输出通道降为192,同时进行batchnorm2d归一化和relu 激活处理,得到输出后的特征Z’5∈R110×192×10×10和X’5∈R110×192×30×30。
其中,Z’5为第五层模板分支特征,X’5为第五层搜索分支特征。
步骤3.4.第三层模板分支特征Z’3、第四层模板分支特征Z’4分别引入位置编码PZ,得到特征(Z’3+PZ)∈R110×192×10×10和(Z’4+PZ)∈R110×192×10×10。
对特征(Z’3+PZ)∈R110×192×10×10的维度进行变换,得到特征(Z’3+PZ)∈R100×110×192。
对特征(Z’4+PZ)∈R110×192×10×10的维度进行变换,得到特征(Z’4+PZ)∈R100×110×192。
步骤3.5.第三层搜索分支特征X’3、第四层搜索分支特征X’4分别引入位置编码PX,得到特征(X’3+PX)∈R110×192×30×30和(X’4+PX)∈R110×192×30×30。
对特征(X’3+PX)∈R110×192×30×30的维度进行变换,得到特征(X’3+PX)∈R900×110×192。
对特征(X’4+PX)∈R110×192×30×30的维度进行变换,得到特征(X’4+PX)∈R900×110×192。
步骤3.6.对特征Z’5∈R110×192×10×10的维度进行变换,得到Z’5∈R100×110×192,对特征X’5∈R110×192×10×10的维度进行变换,得到X’5∈R100×110×192。
步骤3.7.将模板分支预处理特征(Z’3+PZ)∈R100×110×192,(Z’4+PZ)∈R100×110×192,Z’5∈R100×110×192输入到模板分支自注意力变换网络,进行不同层的特征融合。
同理,将搜索分支预处理特征(X’3+PX)∈R900×110×192,(X’4+PX)∈R900×110×192, Z’5∈R100×110×192输入到搜索分支自注意力变换网络,进行不同层的特征融合。
步骤4.基于步骤3得到的模板分支以及搜索分支预处理特征,利用自注意力变换网络,分别将模板分支和搜索分支不同层的特征进行融合,得到模板分支目标特征图以及搜索分支目标特征图。
模型训练时,所有训练样本训练70次,每批样本的大小为220。
如图2所示,自注意力变换网络包括编码模块以及解码模块。
其中,编码模块包括一个多头注意力模块和一个前馈神经网络,解码模块包括两个多头注意力模块和一个前馈神经网络。
每个多头注意力模块均由多个单头注意力模块拼接组成。
定义编码模块中多头注意力模块为第一多头注意力模块。
定义编码模块中前馈神经网络为第一前馈神经网络。
定义解码模块中两个多头注意力模块分别为第二、第三多头注意力模块。
定义解码模块中前馈神经网络为第二前馈神经网络。
第一多头注意力模块与第一前馈神经网络为串联;第二多头注意力模块与第三多头注意力模块为级联连接,并与第二前馈神经网络串联。
单头注意力模块的计算公式为:
其中,Softmax表示激活函数,上标T表示转置矩阵,d表示尺度因子;
多头注意力模块由多个单头注意力模块拼接组成,计算公示为:
MA(Q,K,V)=Concat(a1,···,aN)Wc,ai=A(QWi 1,KWi 2,VWi 3) (2)
其中,Concat表示拼接操作,1≤i≤N,N表示单头注意力模块的个数;
Wc表示变换矩阵;
Wi 1表示用于第i个单头注意力网络中Q的变换矩阵;
Wi 2表示用于第i个单头注意力网络中K的变换矩阵;
Wi 3表示用于第i个单头注意力网络中V的变换矩阵。
步骤4.1.模板分支编码模块以及解码模块的处理过程如下:
步骤4.1.1.将特征Z’3+PZ与Z’4+PZ相加得到特征Z’3+PZ+Z’4+PZ。
步骤4.1.2.将Z’3+PZ+Z’4+PZ作为第一多头注意力模块的Q值和K值,将 Z’3+PZ作为第一多头注意力模块的V值,分别输入到第一多头注意力模块。
步骤4.1.3.将第一多头注意力模块的V值与第一多头注意力模块的输出相加、归一化后,得到的第一中间特征输入到第一前馈神经网络。
步骤4.1.4.第一前馈神经网络的输出与经过步骤4.1.3得到的第一中间特征相加、归一化后,得到模板分支编码模块的输出。
将该值作为模板分支解码模块中第三多头注意力模块的V值和K值。
步骤4.1.5.第二多头注意力模块的输入Q、K、V值均为Z’5∈R100×110×192。
步骤4.1.6.接着将第二多头注意力模块的Q值与第二多头注意力模块的输出相加、归一化,得到的特征作为第三多头注意力模块的Q值。
将第三多头注意力模块的Q、K、V值分别输入到第三多头注意力模块。
步骤4.1.7.将第三多头注意力模块的Q值与第三多头注意力模块的输出相加、归一化,得到的第二中间特征输入到第二前馈神经网络。
步骤4.1.8.将第二前馈神经网络的输出与经过步骤4.1.7得到的第二中间特征相加、归一化,得到模板分支解码模块的输出。
该模板分支解码模块的输出即模板分支最终输出特征,得到目标特征图Z。
步骤4.2.搜索分支编码模块以及解码模块的处理过程如下:
步骤4.2.1.将特征X’3+PX与X’4+PX相加得到特征X’3+PX+X’4+PX。
步骤4.2.2.将X’3+PX+X’4+PX作为第一多头注意力模块的Q值和K值,将 X’3+PX作为第一多头注意力模块的V值,输入到第一多头注意力模块。
步骤4.2.3.将第一多头注意力模块的V值与第一多头注意力模块的输出相加、归一化后,得到的第三中间特征输入到第一前馈神经网络。
步骤4.2.4.第一前馈神经网络的输出与经过步骤4.2.3得到的第三中间特征相加、归一化后,得到搜索分支编码模块的输出。
将该值作为模板分支解码模块中第三多头注意力模块的V值和K值。
步骤4.2.5.第二多头注意力模块的输入Q、K、V值均为X’5∈R100×110×192。
步骤4.2.6.将第二多头注意力模块的Q值与第二多头注意力模块的输出相加、归一化,得到的特征作为第三多头注意力模块的Q值。
将第三多头注意力模块的Q、K、V值分别输入到第三多头注意力模块。
步骤4.2.7.将第三多头注意力模块的Q值与第三多头注意力模块的输出相加、归一化后,得到的第四中间特征输入到第二前馈神经网络。
步骤4.2.8.将第二前馈神经网络的输出与经过步骤4.2.7得到的第四中间特征相加、归一化后,得到搜索分支解码模块的输出。
该搜索分支解码模块的输出即搜索分支最终输出特征,得到目标特征图X。
本实施例上述步骤4利用自注意力变换网络,分别将模板分支和搜索分支不同层的特征进行融合,聚集了浅层高分辨率特征和深层语义特征,从而得到了更加鲁棒的模板分支目标特征图Z以及搜索分支目标特征图X。
步骤5.将步骤4得到的模板分支目标特征图以及搜索分支目标特征图进行卷积运算,通过卷积运算得到响应图R,响应图R=X*Z。
步骤6.将响应图进行分类、回归操作,确定无人机跟踪目标的最优位置。
在分类、回归模块中,分类分支包含两个,一个是交叉熵损失函数Lcls1,一个是二值交叉熵损失函数Lcls2,回归分支采用交并比损失函数Lloc。
整体损失函数为:
Loverall=λ1Lcls1+λ2Lcls2+λ3Lloc (3)
由上述步骤得知,本发明首先采用Alexnet网络提取模板图像和搜索图像的第三、四、五层特征,获得图像的高分辨率特征图和低分辨率特征图,然后输入到自注意力变换网络,实现多层特征图的自注意力变换,聚合来自不同层级的目标特征,加大层级之间特征的依赖关系,适应无人机平台跟踪复杂场景目标的能力;最后对两个分支的目标特征图进行相关卷积操作获得目标的相似性得分图,对目标对象进行分类和回归,进而实现对跟踪目标的准确定位。
当然,以上说明仅仅为本发明的较佳实施例,本发明并不限于列举上述实施例,应当说明的是,任何熟悉本领域的技术人员在本说明书的教导下,所做出的所有等同替代、明显变形形式,均落在本说明书的实质范围之内,理应受到本发明的保护。
Claims (8)
1.基于多层特征自注意力变换网络的无人机对地目标跟踪方法,其特征在于,所述无人机对地目标跟踪包括如下步骤:
步骤1.搭建包含自注意力变换网络的孪生神经网络;
步骤2.分别提取模板图像的第三层特征Z3、第四层特征Z4、第五层特征Z5以及搜索图像的第三层特征X3、第四层特征X4、第五层特征X5;
步骤3.对步骤2提取的各层特征进行包括卷积、引入位置编码以及维度变化在内的预处理,得到模板分支预处理特征以及搜索分支预处理特征;
将模板分支预处理特征输入到模板分支自注意力变换网络;
将搜索分支预处理特征输入到搜索分支自注意力变换网络;
步骤4.基于步骤3得到的模板分支以及搜索分支预处理特征,利用自注意力变换网络,分别将模板分支和搜索分支不同层的特征进行融合;
特征融合后,分别得到模板分支目标特征图以及搜索分支目标特征图;
步骤5.将步骤4得到的模板分支目标特征图以及搜索分支目标特征图进行卷积运算,通过卷积运算得到响应图;
步骤6.将响应图进行分类、回归操作,确定无人机跟踪目标的最优位置。
2.根据权利要求1所述的无人机对地目标跟踪方法,其特征在于,
所述步骤2中,使用Alexnet网络提取模板图像以及搜索图像的各层特征。
3.根据权利要求1所述的无人机对地目标跟踪方法,其特征在于,
所述步骤2中,通过无人机上的摄像头,获取待跟踪目标视频;
取跟踪目标视频的第一帧,手动选取跟踪目标框,提取目标框的两倍大小图像,作为整个方法的模板图像,并在跟踪过程中保持不变;当后续第k帧到来时,将以前一帧中跟踪结果为中心,提取目标框4倍大小图像作为搜索图像。
4.根据权利要求1所述的无人机对地目标跟踪方法,其特征在于,
所述步骤3具体为:
步骤3.1.对第三层特征Z3和X3经过3×3卷积核,步长为2,填充为0的卷积操作,输出通道降为192,同时进行归一化和激活处理,得到特征Z’3和X'3;
其中,Z’3为第三层模板分支特征,X'3为第三层搜索分支特征;
步骤3.2.对第四层特征Z4和X4经过3×3卷积核,步长为2,填充为1的卷积操作,输出通道降为192,同时进行归一化和激活处理,得到特征Z’4和X′4;
其中,Z’4为第四层模板分支特征,X'4为第四层搜索分支特征;
步骤3.3.对第五层特征Z5和X5经过3×3卷积核,步长为2,填充为2的卷积操作,输出通道降为192,同时进行归一化和激活处理,得到特征Z’5和X'5;
其中,Z’5为第五层模板分支特征,X'′为第五层搜索分支特征;
步骤3.4.第三层模板分支特征Z’3、第四层模板分支特征Z’4分别引入位置编码PZ,同时进行维度变换,得到特征Z’3+PZ、Z’4+PZ;
步骤3.5.第三层搜索分支特征X’3、第四层搜索分支特征X’4分别引入位置编码PX,同时进行维度变换,得到特征X’3+PX、X’4+PX;
步骤3.6.将特征Z’5和X′5进行维度变换处理;
步骤3.7.将经过维度变换后的特征Z’3+PZ、Z’4+PZ、Z’5,作为模板分支预处理特征输入到模板分支自注意力变换网络,进行不同层的特征融合;
将经过维度变换后的特征X’3+PX、X’4+PX、X′5,作为搜索分支预处理特征输入到搜索分支自注意力变换网络,进行不同层的特征融合。
5.根据权利要求4所述的无人机对地目标跟踪方法,其特征在于,
所述自注意力变换网络包括编码模块以及解码模块;
其中,编码模块包括一个多头注意力模块和一个前馈神经网络,解码模块包括两个多头注意力模块和一个前馈神经网络;
每个所述多头注意力模块均由多个单头注意力模块拼接组成;
定义编码模块中多头注意力模块为第一多头注意力模块;
定义编码模块中前馈神经网络为第一前馈神经网络;
定义解码模块中两个多头注意力模块分别为第二、第三多头注意力模块;
定义解码模块中前馈神经网络为第二前馈神经网络;
第一多头注意力模块与第一前馈神经网络为串联;第二多头注意力模块与第三多头注意力模块为级联连接,并与第二前馈神经网络串联。
6.根据权利要求5所述的无人机对地目标跟踪方法,其特征在于,
所述步骤4具体为:
步骤4.1.模板分支编码模块以及解码模块的处理过程如下:
步骤4.1.1.将特征Z’3+PZ与Z’4+PZ相加得到特征Z’3+PZ+Z’4+PZ;
步骤4.1.2.将Z’3+PZ+Z’4+PZ作为第一多头注意力模块的Q值和K值,将Z’3+PZ作为第一多头注意力模块的V值,分别输入到第一多头注意力模块;
步骤4.1.3.将第一多头注意力模块的V值与第一多头注意力模块的输出相加、归一化后,得到的第一中间特征输入到第一前馈神经网络;
步骤4.1.4.将第一前馈神经网络的输出与经过步骤4.1.3得到的第一中间特征相加、归一化后,得到模板分支编码模块的输出;
将该值作为模板分支解码模块中第三多头注意力模块的V值和K值;
步骤4.1.5.第二多头注意力模块的输入Q、K、V值均为特征Z’5;
步骤4.1.6.接着将第二多头注意力模块的Q值与第二多头注意力模块的输出相加、归一化,得到的特征作为第三多头注意力模块的Q值;
将第三多头注意力模块的Q、K、V值分别输入到第三多头注意力模块;
步骤4.1.7.将第三多头注意力模块的Q值与第三多头注意力模块的输出相加、归一化,得到的第二中间特征输入到第二前馈神经网络;
步骤4.1.8.将第二前馈神经网络的输出与经过步骤4.1.7得到的第二中间特征相加、归一化后,得到模板分支解码模块的输出;
该模板分支解码模块的输出即模板分支最终输出特征,得到目标特征图Z;
步骤4.2.搜索分支编码模块以及解码模块的处理过程如下:
步骤4.2.1.将特征X’3+PX与X’4+PX相加得到特征X’3+PX+X’4+PX;
步骤4.2.2.将X’3+PX+X’4+PX作为第一多头注意力模块的Q值和K值,将X’3+PX作为第一多头注意力模块的V值,输入到第一多头注意力模块;
步骤4.2.3.将第一多头注意力模块的V值与第一多头注意力模块的输出相加、归一化后,得到的第三中间特征输入到第一前馈神经网络;
步骤4.2.4.将第一前馈神经网络的输出,与经过步骤4.2.3得到的第三中间特征相加、归一化后,得到搜索分支编码模块的输出;
将该值作为搜索分支解码模块中第三多头注意力模块的V值和K值;
步骤4.2.5.第二多头注意力模块的输入Q、K、V值均为X’5;
步骤4.2.6.将第二多头注意力模块的Q值与第二多头注意力模块的输出相加、归一化,得到的特征作为第三多头注意力模块的Q值;
将第三多头注意力模块的Q、K、V值分别输入到第三多头注意力模块;
步骤4.2.7.将第三多头注意力模块的Q值与第三多头注意力模块的输出相加、归一化后,得到的第四中间特征输入到第二前馈神经网络;
步骤4.2.8.第二前馈神经网络的输出与经过步骤4.2.7得到的第四中间特征相加、归一化后,得到搜索分支解码模块的输出;
该搜索分支解码模块的输出即搜索分支最终输出特征,得到目标特征图X。
8.根据权利要求1所述的无人机对地目标跟踪方法,其特征在于,
所述步骤6中,在分类、回归模块中,分类分支包含两个,一个是交叉熵损失函数,一个是二值交叉熵损失函数,回归分支采用交并比损失函数。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210275988.7A CN114694024A (zh) | 2022-03-21 | 2022-03-21 | 基于多层特征自注意力变换网络的无人机对地目标跟踪方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210275988.7A CN114694024A (zh) | 2022-03-21 | 2022-03-21 | 基于多层特征自注意力变换网络的无人机对地目标跟踪方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN114694024A true CN114694024A (zh) | 2022-07-01 |
Family
ID=82138783
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210275988.7A Pending CN114694024A (zh) | 2022-03-21 | 2022-03-21 | 基于多层特征自注意力变换网络的无人机对地目标跟踪方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114694024A (zh) |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115239765A (zh) * | 2022-08-02 | 2022-10-25 | 合肥工业大学 | 基于多尺度可形变注意力的红外图像目标跟踪系统及方法 |
CN115272419A (zh) * | 2022-09-27 | 2022-11-01 | 南昌工程学院 | 基于混合卷积与自注意力的聚合网络目标跟踪方法与系统 |
CN116189021A (zh) * | 2023-02-27 | 2023-05-30 | 中国人民解放军国防科技大学 | 多分支互交叉注意力增强的无人机多光谱目标检测方法 |
CN118210321A (zh) * | 2024-05-21 | 2024-06-18 | 鹰驾科技(深圳)有限公司 | 一种基于360环视摄像头的无人机行人跟踪系统 |
-
2022
- 2022-03-21 CN CN202210275988.7A patent/CN114694024A/zh active Pending
Cited By (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115239765A (zh) * | 2022-08-02 | 2022-10-25 | 合肥工业大学 | 基于多尺度可形变注意力的红外图像目标跟踪系统及方法 |
CN115239765B (zh) * | 2022-08-02 | 2024-03-29 | 合肥工业大学 | 基于多尺度可形变注意力的红外图像目标跟踪系统及方法 |
CN115272419A (zh) * | 2022-09-27 | 2022-11-01 | 南昌工程学院 | 基于混合卷积与自注意力的聚合网络目标跟踪方法与系统 |
CN115272419B (zh) * | 2022-09-27 | 2022-12-09 | 南昌工程学院 | 基于混合卷积与自注意力的聚合网络目标跟踪方法与系统 |
CN116189021A (zh) * | 2023-02-27 | 2023-05-30 | 中国人民解放军国防科技大学 | 多分支互交叉注意力增强的无人机多光谱目标检测方法 |
CN116189021B (zh) * | 2023-02-27 | 2024-04-09 | 中国人民解放军国防科技大学 | 多分支互交叉注意力增强的无人机多光谱目标检测方法 |
CN118210321A (zh) * | 2024-05-21 | 2024-06-18 | 鹰驾科技(深圳)有限公司 | 一种基于360环视摄像头的无人机行人跟踪系统 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN114694024A (zh) | 基于多层特征自注意力变换网络的无人机对地目标跟踪方法 | |
WO2024021394A1 (zh) | 全局特征与阶梯型局部特征融合的行人重识别方法及装置 | |
WO2023030182A1 (zh) | 图像生成方法及装置 | |
CN113177518A (zh) | 一种利用弱监督区域推荐的车辆重识别方法 | |
CN114022793A (zh) | 一种基于孪生网络的光学遥感图像变化检测方法 | |
CN113033454B (zh) | 一种城市视频摄像中建筑物变化的检测方法 | |
CN115861619A (zh) | 一种递归残差双注意力核点卷积网络的机载LiDAR城市点云语义分割方法与系统 | |
CN113034506A (zh) | 遥感图像语义分割方法、装置、计算机设备和存储介质 | |
CN111476133A (zh) | 面向无人驾驶的前背景编解码器网络目标提取方法 | |
CN116596966A (zh) | 一种基于注意力和特征融合的分割与跟踪方法 | |
Luo et al. | Dense-tnt: Efficient vehicle type classification neural network using satellite imagery | |
CN114463340B (zh) | 一种边缘信息引导的敏捷型遥感图像语义分割方法 | |
CN114550023A (zh) | 一种交通目标静态信息提取装置 | |
Zhang et al. | Full-scale Feature Aggregation and Grouping Feature Reconstruction Based UAV Image Target Detection | |
Jing et al. | SmokePose: End-to-End Smoke Keypoint Detection | |
CN116994164A (zh) | 一种多模态航拍图像融合与目标检测联合学习方法 | |
CN116934820A (zh) | 基于交叉注意力的多尺寸窗口Transformer网络布匹图像配准方法及系统 | |
CN115171029B (zh) | 基于无人驾驶的城市场景下的实例分割方法及系统 | |
CN116089646A (zh) | 一种基于显著性捕获机制的无人机图像哈希检索方法 | |
CN115619822A (zh) | 一种基于对象级变换神经网络的跟踪方法 | |
Song et al. | Pixel-wise annotated and high-quality synthesized image datasets for semi-supervised truck segmentation with limited raw images | |
CN114494703A (zh) | 一种智能车间场景目标轻量级语义分割方法 | |
Zhan et al. | Multi-Task Visual Perception for Object Detection and Semantic Segmentation in Intelligent Driving | |
CN114821224A (zh) | 铁路图像风格转换数据扩增方法及系统 | |
CN114241288A (zh) | 一种选择性边缘信息引导的遥感目标显著性检测方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |