CN114694024A

CN114694024A - 基于多层特征自注意力变换网络的无人机对地目标跟踪方法

Info

Publication number: CN114694024A
Application number: CN202210275988.7A
Authority: CN
Inventors: 王海军; 张圣燕; 马文来; 郝伟; 袁伟
Original assignee: Binzhou University
Current assignee: Binzhou University
Priority date: 2022-03-21
Filing date: 2022-03-21
Publication date: 2022-07-01

Abstract

本发明涉及计算机视觉技术领域，具体公开了一种基于多层特征自注意力变换网络的无人机对地目标跟踪方法。该方法将Alexnet网络与自注意力变换网络相融合，其具体步骤如下：首先采用Alexnet网络提取模板图像和搜索图像的第三、四、五层特征，获得图像的高分辨率特征图和低分辨率特征图，然后输入到自注意力变换网络，实现多层特征图的自注意力变换，聚合来自不同层级的目标特征，加大层级之间特征的依赖关系，适应无人机平台跟踪复杂场景目标的能力；最后对得到的模板分支和搜索分支的目标特征图进行相关卷积操作获得目标的相似性得分图，对目标对象进行分类和回归，确定无人机跟踪目标的最优位置。本发明实现了无人机平台对地面目标的准确跟踪。

Description

基于多层特征自注意力变换网络的无人机对地目标跟踪方法

技术领域

本发明涉及计算机视觉技术领域，尤其涉及一种基于多层特征自注意力变换网络的无人机对地目标跟踪方法。

背景技术

无人机对地目标跟踪属于计算机视觉领域一项重要的研究课题。近年来，随着无人机产业的飞速发展，无人机在城市安全防控、水利勘测、林业调查、林业病虫害监测、公路养护巡检等领域得到了广泛的应用。

在无人机的众多应用任务中，无人机对地目标跟踪技术具有重要的研究意义，成为无人机领域的研究热点。无人机对地目标跟踪是利用计算机视觉方法对航拍视频中的地面目标进行跟踪，获取其运动轨迹信息(如位置、速度、加速度等)，为后续高层次的智能化分析与处理任务提供基础。

目前，无人机对地目标跟踪技术一般分为相关滤波法和孪生网络法。

采用手动特征的相关滤波法虽然跟踪速度较快，但是跟踪精度不高；基于深度特征的相关滤波法虽然提升了跟踪准确度，但是在无人机平台上计算资源，跟踪速度只有10帧/秒左右，难以满足无人机任务实时性需求。

孪生网络法即SiamFC跟踪方法，两分支采用相同的孪生网络，提取模板和搜索图像特征，运用相关卷积计算响应图，即搜索区域与模板相似性图，确定目标位置，相比传统相关滤波法，在保证跟踪速度的同时，提升了跟踪准确度。后续的SiamRPN、SiamRPN++、SiamFC++以及Siamban等孪生网络法，采用深层神经网络模型提取图像特征，在跟踪速度不降低的同时进一步提升了跟踪效果。

虽然孪生网络法在部分视频上的跟踪效果较好，但是由于该类方法仅仅使用网络模型提取目标特征，没有对特征进行进一步处理，当无人机获取的地面目标遇到诸如严重遮挡、较大形变或目标消失等技术问题时，传统的孪生网络方法跟踪效果降低明显，因而难以满足实际应用场景的鲁棒性需求。

发明内容

本发明的目的在于提出一种基于多层特征自注意力变换网络的无人机对地目标跟踪方法，以实现无人机平台对地面目标的准确跟踪。

本发明为了实现上述目的，采用如下技术方案：

基于多层特征自注意力变换网络的无人机对地目标跟踪方法，包括：

步骤1.搭建包含自注意力变换网络的孪生神经网络；

步骤2.分别提取模板图像的第三层特征Z₃、第四层特征Z₄、第五层特征Z₅以及搜索图像的第三层特征X₃、第四层特征X₄、第五层特征X₅；

步骤3.对步骤2提取的各层特征进行包括卷积、引入位置编码以及维度变化在内的预处理，得到模板分支预处理特征以及搜索分支预处理特征；

将模板分支预处理特征输入到模板分支自注意力变换网络；

将搜索分支预处理特征输入到搜索分支自注意力变换网络；

步骤4.基于步骤3得到的模板分支以及搜索分支预处理特征，利用自注意力变换网络，分别将模板分支和搜索分支不同层的特征进行融合；

特征融合后，得到模板分支目标特征图以及搜索分支目标特征图；

步骤5.将步骤4得到的模板分支目标特征图以及搜索分支目标特征图进行卷积运算，通过卷积运算得到响应图；

步骤6.将响应图进行分类、回归操作，确定无人机跟踪目标的最优位置。

本发明具有如下优点：

如上所述，本发明提出了一种基于多层特征自注意力变换网络的无人机对地目标跟踪方法，该方法将Alexnet网络与自注意力变换网络相融合，通过自注意力变换网络，分别将模板分支和搜索分支不同层的特征进行融合，聚集浅层高分辨率特征和深层语义特征，同时增加全局上下文和层次特征之间的相互依赖，输出模板分支和搜索分支更加鲁棒的目标特征图，能够较好的处理不同尺寸不同分辨率的目标；此外，本发明采用融合全局和多层次信息模板目标特征和搜索目标特征，采用相关卷积计算响应图，并使用无锚点的分类和回归模块确定目标位置和尺寸，在真实无人机对地目标多个场景视频下，取得了较好的跟踪效果。本发明方法尤其适用于无人机平台的移动目标跟踪，具有计算复杂度低、跟踪速度快，能够很好的应用于移动端设备等优点。

附图说明

图1为本发明实施例中基于多层特征自注意力变换网络的无人机对地目标跟踪方法的流程框图；

图2为本发明实施例中自注意力变换网络的结构示意图。

具体实施方式

下面结合附图以及具体实施方式对本发明作进一步详细说明：

如图1和图2所示，本实施例中基于多层特征自注意力变换网络的无人机对地目标跟踪方法，包括如下步骤：

步骤1.搭建融合Alexnet和自注意力变换网络的孪生神经网络。

步骤2.通过无人机上的摄像头，获取待跟踪目标视频。

取跟踪目标视频的第一帧，手动选取跟踪目标框，提取目标框的两倍大小图像，作为整个方法的模板图像，并在跟踪过程中保持不变；当后续第k帧到来时，将以前一帧中跟踪结果为中心，提取目标框4倍大小图像作为搜索图像。

其中，模板图像大小为127×127×3，输入搜索图像大小为287×287×3。

使用Alexnet网络分别提取模板图像的第三层特征Z₃∈R^{110×384×10×10}、第四层特征Z₄∈R^{110×384×8×8}以及第五层特征Z₅∈R^{110×256×6×6}。

使用Alexnet网络分别提取搜索图像第三层特征X₃∈R^{110×384×30×30}、第四层特征X₄∈R^{110×384×28×28}以及第五层特征X₅∈R^{110×256×26×26}。

步骤3.对步骤2提取的各层特征进行包括卷积、引入位置编码以及维度变化在内的预处理，得到模板分支预处理特征以及搜索分支预处理特征。

该步骤3具体为：

步骤3.1.对两个分支的第三层特征Z₃和X₃分别经过3×3卷积核，步长为2，填充为0的卷积操作，输出通道降为192，同时进行batchnorm2d归一化和relu 激活处理，得到输出后的特征Z’₃∈R^{110×192×10×10}和X’₃∈R^{110×192×30×30}。

其中，Z’₃为第三层模板分支特征，X’₃为第三层搜索分支特征。

步骤3.2.对两个分支的第四层特征Z₄和X₄分别经过3×3卷积核，步长为2，填充为1的卷积操作，输出通道降为192，同时进行batchnorm2d归一化和relu 激活处理，得到输出后的特征Z’₄∈R^{110×192×10×10}和X’₄∈R^{110×192×30×30}。

其中，Z’₄为第四层模板分支特征，X’₄为第四层搜索分支特征。

步骤3.3.对两个分支的第五层特征Z₅和X₅分别经过3×3卷积核，步长为2，填充为2的卷积操作，输出通道降为192，同时进行batchnorm2d归一化和relu 激活处理，得到输出后的特征Z’₅∈R^{110×192×10×10}和X’₅∈R^{110×192×30×30}。

其中，Z’₅为第五层模板分支特征，X’₅为第五层搜索分支特征。

步骤3.4.第三层模板分支特征Z’₃、第四层模板分支特征Z’₄分别引入位置编码P_Z，得到特征(Z’₃+P_Z)∈R^{110×192×10×10}和(Z’₄+P_Z)∈R^{110×192×10×10}。

对特征(Z’₃+P_Z)∈R^{110×192×10×10}的维度进行变换，得到特征(Z’₃+P_Z)∈R^{100×110×192}。

对特征(Z’₄+P_Z)∈R^{110×192×10×10}的维度进行变换，得到特征(Z’₄+P_Z)∈R^{100×110×192}。

步骤3.5.第三层搜索分支特征X’₃、第四层搜索分支特征X’₄分别引入位置编码P_X，得到特征(X’₃+P_X)∈R^{110×192×30×30}和(X’₄+P_X)∈R^{110×192×30×30}。

对特征(X’₃+P_X)∈R^{110×192×30×30}的维度进行变换，得到特征(X’₃+P_X)∈R^{900×110×192}。

对特征(X’₄+P_X)∈R^{110×192×30×30}的维度进行变换，得到特征(X’₄+P_X)∈R^{900×110×192}。

步骤3.6.对特征Z’₅∈R^{110×192×10×10}的维度进行变换，得到Z’₅∈R^{100×110×192}，对特征X’₅∈R^{110×192×10×10}的维度进行变换，得到X’₅∈R^{100×110×192}。

步骤3.7.将模板分支预处理特征(Z’₃+P_Z)∈R^{100×110×192},(Z’₄+P_Z)∈R^{100×110×192}，Z’₅∈R^{100×110×192}输入到模板分支自注意力变换网络，进行不同层的特征融合。

同理，将搜索分支预处理特征(X’₃+P_X)∈R^{900×110×192},(X’₄+P_X)∈R^{900×110×192}， Z’₅∈R^{100×110×192}输入到搜索分支自注意力变换网络，进行不同层的特征融合。

步骤4.基于步骤3得到的模板分支以及搜索分支预处理特征，利用自注意力变换网络，分别将模板分支和搜索分支不同层的特征进行融合，得到模板分支目标特征图以及搜索分支目标特征图。

模型训练时，所有训练样本训练70次，每批样本的大小为220。

如图2所示，自注意力变换网络包括编码模块以及解码模块。

其中，编码模块包括一个多头注意力模块和一个前馈神经网络，解码模块包括两个多头注意力模块和一个前馈神经网络。

每个多头注意力模块均由多个单头注意力模块拼接组成。

定义编码模块中多头注意力模块为第一多头注意力模块。

定义编码模块中前馈神经网络为第一前馈神经网络。

定义解码模块中两个多头注意力模块分别为第二、第三多头注意力模块。

定义解码模块中前馈神经网络为第二前馈神经网络。

第一多头注意力模块与第一前馈神经网络为串联；第二多头注意力模块与第三多头注意力模块为级联连接，并与第二前馈神经网络串联。

单头注意力模块的计算公式为：

其中，Softmax表示激活函数，上标T表示转置矩阵，d表示尺度因子；

多头注意力模块由多个单头注意力模块拼接组成，计算公示为：

MA(Q,K,V)＝Concat(a₁,···,a_N)W_c，a_i＝A(QW_i ¹,KW_i ²,VW_i ³) (2)

其中，Concat表示拼接操作，1≤i≤N，N表示单头注意力模块的个数；

W_c表示变换矩阵；

W_i ¹表示用于第i个单头注意力网络中Q的变换矩阵；

W_i ²表示用于第i个单头注意力网络中K的变换矩阵；

W_i ³表示用于第i个单头注意力网络中V的变换矩阵。

步骤4.1.模板分支编码模块以及解码模块的处理过程如下：

步骤4.1.1.将特征Z’₃+P_Z与Z’₄+P_Z相加得到特征Z’₃+P_Z+Z’₄+P_Z。

步骤4.1.2.将Z’₃+P_Z+Z’₄+P_Z作为第一多头注意力模块的Q值和K值，将 Z’₃+P_Z作为第一多头注意力模块的V值，分别输入到第一多头注意力模块。

步骤4.1.3.将第一多头注意力模块的V值与第一多头注意力模块的输出相加、归一化后，得到的第一中间特征输入到第一前馈神经网络。

步骤4.1.4.第一前馈神经网络的输出与经过步骤4.1.3得到的第一中间特征相加、归一化后，得到模板分支编码模块的输出。

将该值作为模板分支解码模块中第三多头注意力模块的V值和K值。

步骤4.1.5.第二多头注意力模块的输入Q、K、V值均为Z’₅∈R^{100×110×192}。

步骤4.1.6.接着将第二多头注意力模块的Q值与第二多头注意力模块的输出相加、归一化，得到的特征作为第三多头注意力模块的Q值。

将第三多头注意力模块的Q、K、V值分别输入到第三多头注意力模块。

步骤4.1.7.将第三多头注意力模块的Q值与第三多头注意力模块的输出相加、归一化，得到的第二中间特征输入到第二前馈神经网络。

步骤4.1.8.将第二前馈神经网络的输出与经过步骤4.1.7得到的第二中间特征相加、归一化，得到模板分支解码模块的输出。

该模板分支解码模块的输出即模板分支最终输出特征，得到目标特征图Z。

步骤4.2.搜索分支编码模块以及解码模块的处理过程如下：

步骤4.2.1.将特征X’₃+P_X与X’₄+P_X相加得到特征X’₃+P_X+X’₄+P_X。

步骤4.2.2.将X’₃+P_X+X’₄+P_X作为第一多头注意力模块的Q值和K值，将 X’₃+P_X作为第一多头注意力模块的V值，输入到第一多头注意力模块。

步骤4.2.3.将第一多头注意力模块的V值与第一多头注意力模块的输出相加、归一化后，得到的第三中间特征输入到第一前馈神经网络。

步骤4.2.4.第一前馈神经网络的输出与经过步骤4.2.3得到的第三中间特征相加、归一化后，得到搜索分支编码模块的输出。

步骤4.2.5.第二多头注意力模块的输入Q、K、V值均为X’₅∈R^{100×110×192}。

步骤4.2.6.将第二多头注意力模块的Q值与第二多头注意力模块的输出相加、归一化，得到的特征作为第三多头注意力模块的Q值。

步骤4.2.7.将第三多头注意力模块的Q值与第三多头注意力模块的输出相加、归一化后，得到的第四中间特征输入到第二前馈神经网络。

步骤4.2.8.将第二前馈神经网络的输出与经过步骤4.2.7得到的第四中间特征相加、归一化后，得到搜索分支解码模块的输出。

该搜索分支解码模块的输出即搜索分支最终输出特征，得到目标特征图X。

本实施例上述步骤4利用自注意力变换网络，分别将模板分支和搜索分支不同层的特征进行融合，聚集了浅层高分辨率特征和深层语义特征，从而得到了更加鲁棒的模板分支目标特征图Z以及搜索分支目标特征图X。

步骤5.将步骤4得到的模板分支目标特征图以及搜索分支目标特征图进行卷积运算，通过卷积运算得到响应图R，响应图R＝X*Z。

在分类、回归模块中，分类分支包含两个，一个是交叉熵损失函数L_cls1，一个是二值交叉熵损失函数L_cls2，回归分支采用交并比损失函数L_loc。

整体损失函数为：

L_overall＝λ₁L_cls1+λ₂L_cls2+λ₃L_loc (3)

由上述步骤得知，本发明首先采用Alexnet网络提取模板图像和搜索图像的第三、四、五层特征，获得图像的高分辨率特征图和低分辨率特征图，然后输入到自注意力变换网络，实现多层特征图的自注意力变换，聚合来自不同层级的目标特征，加大层级之间特征的依赖关系，适应无人机平台跟踪复杂场景目标的能力；最后对两个分支的目标特征图进行相关卷积操作获得目标的相似性得分图，对目标对象进行分类和回归，进而实现对跟踪目标的准确定位。

当然，以上说明仅仅为本发明的较佳实施例，本发明并不限于列举上述实施例，应当说明的是，任何熟悉本领域的技术人员在本说明书的教导下，所做出的所有等同替代、明显变形形式，均落在本说明书的实质范围之内，理应受到本发明的保护。

Claims

1.基于多层特征自注意力变换网络的无人机对地目标跟踪方法，其特征在于，所述无人机对地目标跟踪包括如下步骤：

步骤1.搭建包含自注意力变换网络的孪生神经网络；

将模板分支预处理特征输入到模板分支自注意力变换网络；

将搜索分支预处理特征输入到搜索分支自注意力变换网络；

特征融合后，分别得到模板分支目标特征图以及搜索分支目标特征图；

2.根据权利要求1所述的无人机对地目标跟踪方法，其特征在于，

所述步骤2中，使用Alexnet网络提取模板图像以及搜索图像的各层特征。

3.根据权利要求1所述的无人机对地目标跟踪方法，其特征在于，

所述步骤2中，通过无人机上的摄像头，获取待跟踪目标视频；

4.根据权利要求1所述的无人机对地目标跟踪方法，其特征在于，

所述步骤3具体为：

步骤3.1.对第三层特征Z₃和X₃经过3×3卷积核，步长为2，填充为0的卷积操作，输出通道降为192，同时进行归一化和激活处理，得到特征Z’₃和X'₃；

其中，Z’₃为第三层模板分支特征，X'₃为第三层搜索分支特征；

步骤3.2.对第四层特征Z₄和X₄经过3×3卷积核，步长为2，填充为1的卷积操作，输出通道降为192，同时进行归一化和激活处理，得到特征Z’₄和X′₄；

其中，Z’₄为第四层模板分支特征，X'₄为第四层搜索分支特征；

步骤3.3.对第五层特征Z₅和X₅经过3×3卷积核，步长为2，填充为2的卷积操作，输出通道降为192，同时进行归一化和激活处理，得到特征Z’₅和X'₅；

其中，Z’₅为第五层模板分支特征，X'_′为第五层搜索分支特征；

步骤3.4.第三层模板分支特征Z’₃、第四层模板分支特征Z’₄分别引入位置编码P_Z，同时进行维度变换，得到特征Z’₃+P_Z、Z’₄+P_Z；

步骤3.5.第三层搜索分支特征X’₃、第四层搜索分支特征X’₄分别引入位置编码P_X，同时进行维度变换，得到特征X’₃+P_X、X’₄+P_X；

步骤3.6.将特征Z’₅和X′₅进行维度变换处理；

步骤3.7.将经过维度变换后的特征Z’₃+P_Z、Z’₄+P_Z、Z’₅，作为模板分支预处理特征输入到模板分支自注意力变换网络，进行不同层的特征融合；

将经过维度变换后的特征X’₃+P_X、X’₄+P_X、X′₅，作为搜索分支预处理特征输入到搜索分支自注意力变换网络，进行不同层的特征融合。

5.根据权利要求4所述的无人机对地目标跟踪方法，其特征在于，

所述自注意力变换网络包括编码模块以及解码模块；

其中，编码模块包括一个多头注意力模块和一个前馈神经网络，解码模块包括两个多头注意力模块和一个前馈神经网络；

每个所述多头注意力模块均由多个单头注意力模块拼接组成；

定义编码模块中多头注意力模块为第一多头注意力模块；

定义编码模块中前馈神经网络为第一前馈神经网络；

定义解码模块中两个多头注意力模块分别为第二、第三多头注意力模块；

定义解码模块中前馈神经网络为第二前馈神经网络；

6.根据权利要求5所述的无人机对地目标跟踪方法，其特征在于，

所述步骤4具体为：

步骤4.1.模板分支编码模块以及解码模块的处理过程如下：

步骤4.1.1.将特征Z’₃+P_Z与Z’₄+P_Z相加得到特征Z’₃+P_Z+Z’₄+P_Z；

步骤4.1.2.将Z’₃+P_Z+Z’₄+P_Z作为第一多头注意力模块的Q值和K值，将Z’₃+P_Z作为第一多头注意力模块的V值，分别输入到第一多头注意力模块；

步骤4.1.3.将第一多头注意力模块的V值与第一多头注意力模块的输出相加、归一化后，得到的第一中间特征输入到第一前馈神经网络；

步骤4.1.4.将第一前馈神经网络的输出与经过步骤4.1.3得到的第一中间特征相加、归一化后，得到模板分支编码模块的输出；

将该值作为模板分支解码模块中第三多头注意力模块的V值和K值；

步骤4.1.5.第二多头注意力模块的输入Q、K、V值均为特征Z’₅；

步骤4.1.6.接着将第二多头注意力模块的Q值与第二多头注意力模块的输出相加、归一化，得到的特征作为第三多头注意力模块的Q值；

将第三多头注意力模块的Q、K、V值分别输入到第三多头注意力模块；

步骤4.1.7.将第三多头注意力模块的Q值与第三多头注意力模块的输出相加、归一化，得到的第二中间特征输入到第二前馈神经网络；

步骤4.1.8.将第二前馈神经网络的输出与经过步骤4.1.7得到的第二中间特征相加、归一化后，得到模板分支解码模块的输出；

该模板分支解码模块的输出即模板分支最终输出特征，得到目标特征图Z；

步骤4.2.搜索分支编码模块以及解码模块的处理过程如下：

步骤4.2.1.将特征X’₃+P_X与X’₄+P_X相加得到特征X’₃+P_X+X’₄+P_X；

步骤4.2.2.将X’₃+P_X+X’₄+P_X作为第一多头注意力模块的Q值和K值，将X’₃+P_X作为第一多头注意力模块的V值，输入到第一多头注意力模块；

步骤4.2.3.将第一多头注意力模块的V值与第一多头注意力模块的输出相加、归一化后，得到的第三中间特征输入到第一前馈神经网络；

步骤4.2.4.将第一前馈神经网络的输出，与经过步骤4.2.3得到的第三中间特征相加、归一化后，得到搜索分支编码模块的输出；

将该值作为搜索分支解码模块中第三多头注意力模块的V值和K值；

步骤4.2.5.第二多头注意力模块的输入Q、K、V值均为X’₅；

步骤4.2.6.将第二多头注意力模块的Q值与第二多头注意力模块的输出相加、归一化，得到的特征作为第三多头注意力模块的Q值；

步骤4.2.7.将第三多头注意力模块的Q值与第三多头注意力模块的输出相加、归一化后，得到的第四中间特征输入到第二前馈神经网络；

步骤4.2.8.第二前馈神经网络的输出与经过步骤4.2.7得到的第四中间特征相加、归一化后，得到搜索分支解码模块的输出；

7.根据权利要求5所述的无人机对地目标跟踪方法，其特征在于，