CN111460999A

CN111460999A - 一种基于fpga的低空航拍影像目标跟踪的方法

Info

Publication number: CN111460999A
Application number: CN202010245717.8A
Authority: CN
Inventors: 李嘉锋; 杨立恒; 卓力; 张菁; 贾童谣; 郜征
Original assignee: Langzhao Technology Beijing Co ltd
Current assignee: Langzhao Technology Beijing Co ltd; Beijing University of Technology
Priority date: 2020-03-31
Filing date: 2020-03-31
Publication date: 2020-07-28

Abstract

一种基于FPGA的低空航拍影像目标跟踪的方法属于数字图像处理领域，将深度学习应用于嵌入式平台中，设计了用于目标跟踪的Siamese卷积神经网络架构，针对FPGA的资源限制问题对其加速优化，并将其作为TLD(Tracking Learning Detecting)跟踪框架的跟踪器一同进行模块化封装；搭建图像采集、数据处理和存储、目标跟踪模块以及控制调度的硬件系统，保证了跟踪的稳定运行；同时，本发明提供人机交互界面，操作简易；通过该方法进行控制，解决了无人机等飞行器跟踪依赖地面控制，通信容易受到干扰的问题，能够保证准确实时在线跟踪。

Description

一种基于FPGA的低空航拍影像目标跟踪的方法

技术领域

本发明属于数字图像处理领域，特别涉及一种基于FPGA的低空航拍影像目标跟踪的方法。

背景技术

随着低成本、无人机等低空航拍平台的日益普及，利用低空航拍影像进行目标跟踪在无人机系统中的相关应用中占有重要地位。通过无人机的光学传感器采集视频序列，在给定初始帧的跟踪框的情况下，利用高性能的图像处理平台结合计算机视觉算法预测出后续帧中目标的位置，可以为后续的智能如人机应用(诸如户外救援、交通疏导、军事侦察等任务)提供数据支持。近年来，随着计算机视觉和人工智能技术不断成熟，如何将目标跟踪技术应用到智能无人机上成为了研究热点，通过高效的视频图像处理算法与深度神经网络实现目标跟踪，对基于智能无人机的灾后搜救、航空测绘、公共安全维护等应用的发展具有重要的意义。

虽然利用无人机进行目标跟踪能够适应各种危险复杂环境，但无人机平台具有运动速度快、环境复杂、航拍影像中的目标尺度变化大等问题，也加大了目标跟踪的难度，对跟踪的实时性也提出了更高的要求。在过去的几十年中，一些具有代表性的目标跟踪研究成果已经成功应用于无人机平台，如粒子滤波、Cam-Shift、多尺度KCF等，这些方法都是基于传统方法进行目标特征提取，对特征提取模型要求较高，然而在面对目标尺寸小、图像不稳定、目标遮挡等问题时，会出现鲁棒性差、精度下降的状况。

随着人工智能技术的不断发展，大量基于深度学习的目标跟踪算法也在近几年涌现，如ECO、SiamFC、SiamMask等算法在目标跟踪精度和泛化性上取得了重大的突破，展现出传统算法所不具备的优异的性能，然而这些方法需要借助带有高性能的图像处理器的计算机(如GPU服务器)进行实现，这类计算机体积大、功耗高，无法搭载到低空航拍影像平台上，因此低功耗的嵌入式系统就成了目标跟踪系统中机载计算平台的理想选择，并且无人机的工作场景与航电系统对机载系统在功耗、算法选择、多芯片交互设计和高速PCB设计等诸多方面均提出了较高的要求。

对FPGA+ARM、FPGA+DSP、GPU+CPU和专用AI芯片几种常用架构在各方面的性能进行了对比分析，如附图1所示。1)功耗：基于功耗角度分析，专用AI芯片具有最低功耗，GPU+CPU架构的Jetson系列芯片是三者中最高功耗的嵌入式平台，但拥有着最高的吞吐量，而FPGA+ARM架构的ZYNQ拥有最高的能效比(吞吐量/S/W)，但受到RAM带宽限制，也有着相对较低的吞吐量。2)工作场景：工作场景主要从平台温度和外界环境干扰角度考虑，同为工业级情况下，ZYNQ系列芯片工作温度为-40℃～+100℃，剩下三者工作温度为-40℃～+85℃，因此ZYNQ在极限温度下具有更强的可靠性。此外，像DSP+FPGA这类通过外部信号总线形式进行数据交互容易受到外界环境的干扰，如电源噪声和环境噪声等，使得整个系统可靠性受到影响。3)算法适配性：在FPGA+ARM、GPU+ARM、FPGA+DSP和专用AI芯片四种嵌入式平台中，专用AI芯片更适合深度学习算法，但支持的网络架构在平台设计时就已经固定了，通用性较差。FPGA+DSP开发板多用于数字信号处理方面的算法，具有较强的实时性，其拥有大量的DSP资源，可以进行大规模的傅里叶运算和乘加运算，同时DSP还拥有德州仪器提供丰富的性能极高的算法库。Jetson作为NVIDIA提出的移动嵌入式系统中GPU加速并行处理的AI计算平台，无论是在AI算法上还是在传统算法上都具有较强的通用性。而由Xilinx提出的ZYNQ系列，官方为其开发了大量软件，使其能够利用ARM实现控制和调度结构复杂的部分，利用FPGA实现并行处理卷积池化等计算重复性较高的操作，但其带宽决定其更适合小型深度学习网络和传统算法4)航电系统：无人机的航电系统由飞控电脑、感应器、酬载、无线通讯、空电电池组成，目前无人机的航电系统常用的空电电池最大为8000mAh*11.1V＝88.8Wh，其中大部分电量用于维持航电系统的正常运行，因此对嵌入式平台的功耗要求较高。5)多芯片交互设计和高速PCB(Printed Circuit Board)设计：FPGA+DSP架构的嵌入式开发板多数采用SRIO(Serial Rapid I/O)进行数据交互，ZYNQ采用高速片内总线(AXI4)进行数据交互，Jetson采用PCIE(Peripheral Component Interconnect Express)进行信息交互，其中前者开发难度较大，后两者开发难度更小，此外在高速PCB设计上，三者大致相同，都留有SRIO、hyperlink接口同外界进行高速数据传输。因此，选用灵活度高、低功耗、开发难度适中、多芯片交互容易和扩展性强的FPGA+ARM架构作为本专利的开发平台。

发明内容

本发明的目的在于克服现有技术的不足，将深度学习应用于嵌入式平台中，提出一个基于FPGA的低空航拍影像目标跟踪方法，设计了用于目标跟踪的Siamese卷积神经网络架构，针对FPGA的资源限制问题对其加速优化，并将其作为TLD(Tracking LearningDetecting)跟踪框架的跟踪器一同进行模块化封装；搭建图像采集、数据处理和存储、目标跟踪模块以及控制调度的硬件系统，保证了跟踪的稳定运行；同时，本发明提供人机交互界面，操作简易；通过该方法进行控制，解决了无人机等飞行器跟踪依赖地面控制，通信容易受到干扰的问题，能够保证准确实时在线跟踪。

本发明采用了如下的技术方案及实现步骤：

基于FPGA的低空航拍影像目标跟踪的方法

(1)低空航拍影像目标跟踪方法设计，本方法主要通过基于深度跟踪算法提供在线跟踪结果，利用TLD跟踪框架的检测器和学习器应对长时跟踪的丢失目标找回问题；针对低空航拍影像目标跟踪，设计了目标跟踪方法的硬件系统，包括摄像头、数据存储与处理、目标跟踪功能和控制调度功能模块化几个主要的模块，具体实现如下：

摄像头和显示器通过HDMI数据线与FPGA相连，HDMI输入输出端与数据存储与处理模块通过AXI4总线进行通讯，利用网线与FPGA的以太网接口连接传入初始目标跟踪框；ARM对跟踪算法进行控制调度，通过AXI4总线将控制信号下发到各个模块。

根据要求(1)中所述基于低空航拍影像的目标跟踪方法，针对摄像头获取的图像进行处理，根据提供的首帧目标框实现后续的目标跟踪。其特征在于，包括以下步骤：

(1)搭建基于Siamese卷积神经网络的目标跟踪深度网络架构：

网络架构包括SiamFC网络、倒残差(Inverted Residuals)模块和特征融合模块，由于采用孪生网络，因此两条分支共享网络参数。

在本专利中，卷积核的尺寸通过W×H描述，W，H分别表示卷积核的宽度与高度；图像的尺寸通过C×W×H描述，C，W，H分别表示图像的通道数，宽度与高度。

Siamese卷积神经网络采用AlexNet作为主干网络，并加入倒残差模块和特征融合模块。倒残差模块由一个1*1卷积核进行通道扩充，再用一个深度卷积核和1*1卷积核输出特征构成，将网络后四个卷积核用倒残差模块进行替换，起到降低计算量和加深网络作用，最终网络结构包括34个卷积层和4个池化层。在特征融合模块中，孪生网络的第7，10，15层分别上采样到相同尺寸，再经过1*1卷积核扩充到相同通道数，最后通过逐通道元素相加(Element-wise Add)进行特征融合，得到两个特征融合层，特征融合能够提升低层特征在跟踪算法中起到的作用，加强特征表征能力，提升目标跟踪结果准确性。

在特征提取过程中，以图像对的方式输入到网络中，每个图像对由第一帧的模板图像和搜索域图像构成，分别输入到对应的特征提取网络分支当中。模板分支输入图像大小为3×127×127，在第一个卷积层中，经过96个步长为2的11×11大小的卷积核，再经过BN层和RELU6激活层，得到大小为96×59×59的特征图；在第二个卷积层中，经过96个步长为2的3×3大小的卷积核做最大池化(MaxPooling)，再经过BN层和RELU6激活层，得到大小为96×29×29的特征图；在第三个卷积层中，经过288个步长为1的1×1大小的卷积核，再经过BN层和RELU6激活层，得到大小为288×29×29的特征图；在第四个卷积层中，经过288个步长为1的5×5大小的卷积核做深度卷积，再经过BN层和RELU6激活层，得到大小为288×25×25的特征图；在第五个卷积层中，经过256个步长为1的1×1大小的卷积核，再经过BN层，得到大小为256×25×25的特征图；在第六个卷积层中，经过256个步长为2的3×3大小的卷积核做maxpooling，再经过BN层和RELU6激活层，得到大小为256×12×12的特征图；在第七个卷积层中，经过768个步长为1的1×1大小的卷积核，再经过BN层和RELU6激活层，得到大小为768×12×12的特征图；在第八个卷积层中，经过768个步长为1的3×3大小的卷积核做深度卷积，再经过BN层和RELU6激活层，得到大小为768×10×10的特征图；在第九个卷积层中，经过192个步长为1的1×1大小的卷积核，再经过BN层，得到大小为192×25×25的特征图；在第十个卷积层中，经过576个步长为1的1×1大小的卷积核，再经过BN层和RELU6激活层，得到大小为576×10×10的特征图；在第十一个卷积层中，经过576个步长为1的3×3大小的卷积核做深度卷积，再经过BN层和RELU6激活层，得到大小为576×8×8的特征图；在第十二个卷积层中，经过192个步长为1的1×1大小的卷积核，再经过BN层，得到大小为192×8×8的特征图；在第十三个卷积层中，经过576个步长为1的1×1大小的卷积核，再经过BN层和RELU6激活层，得到大小为576×8×8的特征图；在第十四个卷积层中，经过576个步长为1的3×3大小的卷积核做深度卷积，再经过BN层和RELU6激活层，得到大小为576×6×6的特征图；在第十五个卷积层中，经过128个步长为1的1×1大小的卷积核，再经过BN层，得到大小为128×6×6的特征图；由于本网络架构为孪生网络，因此搜索分支与模板分支共享相同的网络结构和网络参数，在此不再赘述，搜索分支输入图像大小为3×255×255，经过与模板分支相同的网络结构和网络参数，最终得到128×22×22的特征图。

在网络的特征融合模块，通过两个网络分支提取特征，进行特征融合获得两个特征融合层。特征提取的第七个卷积层的特征图，经过1×1大小的卷积核，得到128个通道的特征图一；特征提取的第十个卷积层的特征图，经过1×1大小的卷积核，得到128个通道的特征图，再双线性插值上采样到特征图一的尺寸，得到特征图二；特征提取的第十五个卷积层的特征图，经过双线性插值上采样到特征图一的尺寸，得到特征图三；特征图一、二、三通过逐通道元素相加，得到最终的融合特征层，模板分支融合特征层尺寸为128×12×12，搜索分支融合特征层尺寸为128×28×28。

最终将模板分支融合特征层看作尺寸为128×12×12的卷积核，步长为1，对搜索分支融合特征层做深度可分离卷积得到最终尺寸为1×17×17特征图，再对特征图进行双线性插值上采样得到1×255×255，得到跟踪目标位置和置信度。

在训练过程中，采用GOT10K数据集和YouTube-BB数据集作为训练集，先对数据集进行裁剪，以目标为中心每个样本的大小裁剪为127×127的模板图像和256×256的搜索图像作为网络的输入，训练特征提取网络和分类网络均采用随机梯度下降法(SGD)，权重衰减设置为0.0005，用高斯分布初始化参数，训练50个epoch，每个epoch有50,0000个样本对，批量大小为8，学习率从10^-2衰减到10^-8。

(2)针对跟踪算法的深度网络加速优化：

卷积操作带来了大量的乘加运算和浮点运算，同时训练好的深度网络模型为32位浮点型，FPGA资源固定，因此针对嵌入式平台计算能力，对训练好的深度网络模型进行加速优化，包括剪枝和量化两个步骤。

①剪枝

本专利采用稀疏度阈值剪枝作为剪枝策略，对模型的每层卷积核的权重按绝对值大小进行排序，对小于阈值的权值设为0，阈值计算公式如下：

t∈{t₀，t₀+Δ_t，…，t₀+nΔ_t}

其中S_t为当前稀疏度阈值，S_i＝0为初始稀疏度，S_f＝0.5为目标稀疏度，Δ_t＝100为剪枝频率，t₀＝0为剪枝开始时刻，n＝100为剪枝次数。因此每100步网络训练进行一次剪枝，总共剪枝100次。

此外，记录网络未剪枝时在VOT2018数据集上的EAO结果，在每进行一次剪枝后测试VOT2018数据集的EAO结果，当EAO值相对初始结果下降超过0.05则停止剪枝，否则继续剪枝训练直到完成100次剪枝达到0.5的目标稀疏度。

②量化

量化可以减少运算量，增加资源复用率。对经过上述剪枝后得到的32bit浮点型网络模型进行8bit定点化，然后再进行网络训练，在前向传播时使用8bit的权重和激活函数，在反向梯度传播时使用浮点数进行梯度计算。

(3)基于低空航拍影像跟踪方法的在线跟踪框架：

结合TLD跟踪框架，将加速优化好的网络模型作为跟踪框架的跟踪器，利用TLD检测器和学习模块完成丢失目标找回以实现长时在线跟踪。

TLD检测器用于丢失目标找回，由方差分类器，集合分类器以及最近邻分类器三个级联分类器构成。首先通过方差分类器计算搜索域中像素灰度值的方差，筛除小于目标区域方差50％的图像块。然后将通过的图像块输入到集合分类器中，集合分类器有10个基本分类器，每个分类器具有13个像素比较对，因此输入的图像块的像素比较对两两比较后会产生10个13位二进制编码，对10个二进制编码对应后验概率求平均值与阈值比较，筛选出正样本。最后将剩下的图像块输入到最近邻分类器中，进行相似性度量筛选出最终的正样本作为检测结果。学习模块通过跟踪器的结果对检测器进行评估，并根据评估结果产生训练样本对检测器的目标模型进行更新。

在跟踪前，首先根据初始跟踪框信息设定尺寸和步长对整幅图像进行扫描得到大量图像块，根据重叠率标定正负样本，并对正样本通过小范围尺度变换、偏移、旋转等操作，生成200个经过仿射变换的正样本，并利用这些正负样本来训练集合分类器、最近邻分类器。在跟踪过程中，利用目标跟踪深度网络模型计算出运动目标位置和置信度，利用检测器计算出检测结果。

当跟踪器的置信度大于等于0.4或跟踪器与检测器的IOU(Intersection overUnion)大于等于0.3，判定为跟踪成功，输出跟踪结果。当跟踪器与检测器的IOU小于0.3，则根据当前帧跟踪框和检测结果对正负样本集进行更新，并对检测器进行更新。

当跟踪器的置信度小于0.4且跟踪器与检测器的跟踪框IOU小于0.3，判定跟踪失败，用检测器重新初始化目标位置和尺度，输出检测结果。并根据当前帧错误跟踪框和检测结果对正负样本集进行更新，并对检测器进行更新。

本发明的特点：

首先，本发明利用ZYNQ系列FPGA平台实现低空航拍影像目标跟踪，解决当前低空航拍影像实现目标跟踪存在的依赖地面控制、通信容易受干扰和传输距离时难以实现实时性的问题。其次，本发明采用深度学习的目标跟踪算法，并针对嵌入式平台的计算能力，进行了网络加速优化，相比于当前基于传统算法在嵌入式平台上进行目标跟踪的方法，具有更强的鲁棒性，符合实际应用中的跟踪需求。

表1网络结构及参数

(A)

(B)

附图说明：

图1几种嵌入式平台对比分析结果

图2基于FPGA的低空航拍影像目标跟踪方法的整体流程

图3基于嵌入式平台的目标跟踪方法整体结构

图4在线跟踪算法结构

图5 SiamFC网络

图6面向航拍影像跟踪方法的深度网络架构

图7倒残差模块

图8 TLD检测器

图9剪枝

具体实施方式：

以下结合说明书附图，对本发明的实施实例加以详细说明：

一种基于FPGA的低空航拍影像目标跟踪的方法，整体流程如附图2所示，主要包括搭建基于Siamese卷积神经网络的目标跟踪深度网络架构、针对跟踪算法的深度网络加速优化、基于低空航拍影像跟踪方法的在线跟踪框架。基于Siamese卷积神经网络的目标跟踪深度网络架构如附图6图7所示，针对跟踪算法的深度网络加速优化如附图9所示。基于本专利的方法，首先，完成基于低空航拍影像目标跟踪的深度网络架构的搭建，包括AlexNet主干网络、倒残差模块和特征融合模块；然后通过剪枝、量化等方法对目标跟踪算法的网络模型进行适合于硬件的改进；最后，将加速优化好的网络模型作为TLD跟踪框架的跟踪器，结合TLD跟踪框架的检测器和学习模块丢失目标找回功能，实现长时在线跟踪。

本发明采用如下的技术方案及实现步骤：

(1)低空航拍影像目标跟踪方法设计，本方法主要通过基于Siamese卷积神经网络的目标跟踪框架提供在线跟踪结果设计了目标跟踪方法的硬件系统，如图3给出了跟踪方法的结构图，包括摄像头、数据存储与处理、目标跟踪功能和控制调度功能模块化等几个主要的功能模块。

(2)在低空航拍影像目标跟踪方法设计中，设计了低空航拍影像跟踪方法的在线跟踪框架嵌入到硬件系统中，在线提供跟踪结果，图4中给出了在线跟踪框架，简单介绍了跟踪框架的工作流程。

本发明采用了如下的技术方案及实现步骤：

(1)搭建基于Siamese卷积神经网络的目标跟踪深度网络架构，具体步骤如下：

如附图6所示，网络架构包括SiamFC网络、倒残差模块和特征融合模块三部分，由于采用孪生网络，因此两条分支共享网络参数。

SiamFC网络：附图5中所示为其网络结构图，主干分支为AlexNet网络，两个分支共享相同的网络参数，为保证平移不变性，不采取任何padding操作，其参数如表1(A)，分别包括5层卷积层和2层池化层，其中池化层用步长为2的3×3卷积核来实现池化操作。首先以第一帧目标为中心进行扩充，扩充成127×127的模板图像和256×256的搜索图像，然后将两个图像分别送入对应分支，最后通过模板分支(上)产生的6×6×128特征图充当卷积核对搜索分支(下)产生的22×22×128特征图进行卷积，将得到的特征图上采样到原搜索图像大小，得到最终的目标跟踪坐标和对应位置的置信值。

倒残差模块：附图7所示为其网络结构图，其将一个W×H的卷积用t(t＝3)个1×1卷积(左)、1个W×H的深度卷积(中)和1个1×1卷积(右)代替，中、右两部分统称为深度可分离卷积，通过这样的结构设计加深了网络层数，提高了模型的非线性变化，增强了模型的泛化能力，同时减少计算量。

特征融合模块：如附图6所示，将倒残差模块(IR)对SiamFC网络的4个卷积核进行替换，分别取两个网络分支的第7，10，15层上采样到相同尺寸，模板分支为12×12，搜索分支为28×28，再经过1×1卷积核扩充到相同的128通道，最后通过逐通道元素相加进行特征融合，得到两个尺寸分别为128×12×12和128×28×28的特征融合层。这样的多特征融合模块能够提升低层特征在跟踪算法中起到的作用，利用卷积神经网络强大的学习能力学习不同特征之间的关联关系。

因此最终深度网络结构如附图6所示，其参数如表1(B)所示，在特征提取过程中，以图像对的方式输入到网络中，每个图像对由第一帧的模板图像和搜索域图像构成，分别输入到对应的特征提取网络分支当中。模板分支输入图像大小为3×127×127，在第一个卷积层中，经过96个步长为2的11×11大小的卷积核，再经过BN层和RELU6激活层，得到大小为96×59×59的特征图；在第二个卷积层中，经过96个步长为2的3×3大小的卷积核做最大池化(MaxPooling)，再经过BN层和RELU6激活层，得到大小为96×29×29的特征图；在第三个卷积层中，经过288个步长为1的1×1大小的卷积核，再经过BN层和RELU6激活层，得到大小为288×29×29的特征图；在第四个卷积层中，经过288个步长为1的5×5大小的卷积核做深度卷积，再经过BN层和RELU6激活层，得到大小为288×25×25的特征图；在第五个卷积层中，经过256个步长为1的1×1大小的卷积核，再经过BN层，得到大小为256×25×25的特征图；在第六个卷积层中，经过256个步长为2的3×3大小的卷积核做maxpooling，再经过BN层和RELU6激活层，得到大小为256×12×12的特征图；在第七个卷积层中，经过768个步长为1的1×1大小的卷积核，再经过BN层和RELU6激活层，得到大小为768×12×12的特征图；在第八个卷积层中，经过768个步长为1的3×3大小的卷积核做深度卷积，再经过BN层和RELU6激活层，得到大小为768×10×10的特征图；在第九个卷积层中，经过192个步长为1的1×1大小的卷积核，再经过BN层，得到大小为192×25×25的特征图；在第十个卷积层中，经过576个步长为1的1×1大小的卷积核，再经过BN层和RELU6激活层，得到大小为576×10×10的特征图；在第十一个卷积层中，经过576个步长为1的3×3大小的卷积核做深度卷积，再经过BN层和RELU6激活层，得到大小为576×8×8的特征图；在第十二个卷积层中，经过192个步长为1的1×1大小的卷积核，再经过BN层，得到大小为192×8×8的特征图；在第十三个卷积层中，经过576个步长为1的1×1大小的卷积核，再经过BN层和RELU6激活层，得到大小为576×8×8的特征图；在第十四个卷积层中，经过576个步长为1的3×3大小的卷积核做深度卷积，再经过BN层和RELU6激活层，得到大小为576×6×6的特征图；在第十五个卷积层中，经过128个步长为1的1×1大小的卷积核，再经过BN层，得到大小为128×6×6的特征图；由于本网络架构为孪生网络，因此搜索分支与模板分支共享相同的网络结构和网络参数，在此不再赘述，搜索分支输入图像大小为3×255×255，经过与模板分支相同的网络结构和网络参数，最终得到128×22×22的特征图。

在网络的特征融合模块，通过两个网络分支提取特征，进行特征融合获得两个特征融合层。特征提取的第七个卷积层的768×12×12和768×28×28的特征图，经过1×1大小的卷积核，得到尺寸为128×12×12和128×28×28的特征图一；特征提取的第十个卷积层的576×10×10和576×26×26的特征图，经过1×1大小的卷积核，得到128个通道的特征图，再双线性插值上采样到特征图一的尺寸，得到特征图二；特征提取的第十五个卷积层的128×6×6和128×22×22的特征图，经过双线性插值上采样到特征图一的尺寸，得到特征图三；特征图一、二、三通过逐通道元素相加，得到最终的融合特征层，模板分支融合特征层尺寸为128×12×12，搜索分支融合特征层尺寸为128×28×28。

最终将模板分支融合特征层看作尺寸为128×12×12的卷积核，步长为1，对搜索分支融合特征层做深度可分离卷积得到最终尺寸为1×17×17的特征图，再对特征图进行双线性插值上采样得到尺寸为1×255×255的特征图，得到跟踪目标位置和置信度。

在训练过程中，采用GOT10K数据集和YouTube-BB数据集作为训练集，先对数据集进行裁剪，以目标为中心每个样本的大小裁剪为127×127的模板图像和256×256的搜索图像作为网络的输入，训练特征提取网络和分类网络均采用随机梯度下降法(SGD)，权重衰减设置为0.0005，用高斯分布初始化参数，训练50个epoch，每个epoch有50,0000个样本对，批量大小为8，学习率从10^-2衰减到10^-ε。所采用的损失函数公式如下：

其中v为网络输出的单个响应值，y为实际值，D为最终产生的特征图，u为特征图中的点。

(2)针对跟踪算法的深度网络加速优化，具体步骤如下：

深度网络计算带来了大量的乘加运算和浮点运算，同时训练好的深度网络模型为32位浮点型，FPGA资源固定，因此针对嵌入式平台计算能力，对训练好的深度网络模型进行加速优化，包括剪枝和量化两个步骤。

①剪枝

t∈{t₀，t₀+Δ_t，…，t₀+nΔ_t}

在剪枝前，记录网络模型在VOT2018数据集上的EAO结果，在每进行一次剪枝后测试VOT2018数据集的EAO结果，当EAO值相对初始结果下降超过0.05则停止剪枝，否则继续剪枝训练直到完成100次剪枝达到0.5的目标稀疏度。

②量化

量化是对经过上述剪枝后得到的32bit浮点型网络模型进行8bit定点化，原32bit浮点型取值范围为-3.4×10^38～+3.4×10^38，8bit定点化后取值范围为-128～+127，因此量化可以看作为一个映射的过程，映射公式如下：

x_fp32＝scale×x_int (4)

|max|为32bit权重最大值，x_int为量化后的8bit定点值。

然后再进行网络训练，在前向传播时使用8bit的权重和激活函数，在反向梯度传播时使用浮点数进行梯度计算。通过此操作可以减少运算量，增加资源复用率，提高计算效率。

(3)基于低空航拍影像跟踪方法的在线跟踪框架：

本发明采用TLD跟踪框架作为主体框架，TLD框架作为一种有效的跟踪框架，在工业界已经获得了广泛的应用，具有较好的普适性，主要包括检测器、跟踪器和学习模块。本发明直接采用其检测器和学习模块的结构和阈值，利用检测器和学习模块完成丢失目标找回以实现长时在线跟踪，并将加速优化好的网络模型作为跟踪框架的跟踪器，其在线跟踪流程如图2所示。

TLD检测器由方差分类器，集合分类器以及最近邻分类器三个级联分类器构成，附图8为其基本结构，其中集合分类器和最近邻分类器通过每帧跟踪结果产生的正负样本进行更新。

首先通过方差分类器计算搜索域中像素灰度值的方差，筛除小于目标区域方差50％的图像块，其计算公式如下：

D(p)＝E(p²)-E²(p) (5)

其中，p为图像块所在位置，E为期望。

然后将通过的图像块输入到集合分类器中，集合分类器有10个基本分类器，每个分类器具有13个像素比较对，因此输入的图像块的像素比较对两两比较后会产生10个13位二进制编码，对10个二进制编码对应后验概率求平均值与阈值(初始值为0.6)比较，筛选出正样本。后验概率公式如下：

#P和#N代表训练和更新过程中二进制编码对应的正负样本数量。在集合分类器更新时，选取负样本集中最大的后验概率平均值作为新阈值。

最后将剩下的图像块输入到最近邻分类器中，进行相似性度量筛选出最终的正样本作为检测结果，其公式为：

S^r(p,M)>θ_NN (7)

其中M为样本集，p为新样本，S^r为新样本相对相似度，θ_NN为阈值，初始值为0.65。在最近邻分类器更新时，选取负样本集中最大的相对相似度作为新阈值。

在跟踪前，TLD学习模块首先根据初始跟踪框通过21种尺度的扫描窗口对当前帧进行扫描得到大量图像块，扫描窗口尺度的缩放比例为1.2，尺度变换为0.16151～6.19174，水平步长系数是初始目标边界框宽度的10％，垂直步长系数是初始目标边界框高度的10％，最小的边界框的大小是20像素。对生成的样本根据重叠率标定重叠率最小的10个为正样本，其余为负样本，对每个正样本随机进行20次±1％范围的尺度变换和偏移，±10％范围的旋转操作，产生200个仿射变换的正样本来平衡正负样本，将这些正负样本构成正负样本集M来训练集合分类器和最近邻分类器，并通过训练过程中被判断为负样本的正样本和被判断为正样本的负样本更新样本集。

在跟踪过程中，通过上一帧的跟踪框位置，利用深度网络模型计算出当前帧运动目标的位置和置信度，利用学习模块产生大量图像块，检测器通过这些图像块计算出检测结果。

当跟踪器的置信度大于等于0.4或跟踪器与检测器的IOU大于等于0.3，判定为跟踪成功，输出跟踪结果。同时，由于跟踪器采用深度模型，具有更高的可靠性，因此，当跟踪成功且跟踪器与检测器的IOU小于0.3时，则根据当前帧跟踪框和检测结果对正负样本集进行更新，并对检测器进行更新。

当跟踪器的置信度小于0.4且跟踪器与检测器的跟踪框IOU小于0.3，则说明目标跟丢，判定跟踪失败，用检测器重新初始化目标位置和尺度，输出检测结果。并根据当前帧错误跟踪框和检测结果对正负样本集进行更新，并对检测器进行更新。

Claims

1.一种基于FPGA的低空航拍影像目标跟踪的方法，其特征在于：

摄像头和显示器通过HDMI数据线与FPGA相连，HDMI输入输出端与数据存储与处理模块通过AXI4总线进行通讯，利用网线与FPGA的以太网接口连接传入初始目标跟踪框；ARM对跟踪算法进行控制调度，通过AXI4总线将控制信号下发到各个模块；

针对摄像头获取的图像进行处理，根据提供的首帧目标框实现后续的目标跟踪；包括以下步骤：

(1)搭建基于Siamese卷积神经网络的目标跟踪深度网络架构：

网络架构包括SiamFC网络、倒残差模块和特征融合模块，由于采用孪生网络，因此两条分支共享网络参数；

卷积核的尺寸通过W×H描述，W，H分别表示卷积核的宽度与高度；图像的尺寸通过C×W×H描述，C，W，H分别表示图像的通道数，宽度与高度；

Siamese卷积神经网络采用AlexNet作为主干网络，并加入倒残差模块和特征融合模块；倒残差模块由一个1*1卷积核进行通道扩充，再用一个深度卷积核和1*1卷积核输出特征构成，将网络后四个卷积核用倒残差模块进行替换，起到降低计算量和加深网络作用，最终网络结构包括34个卷积层和4个池化层；在特征融合模块中，孪生网络的第7，10，15层分别上采样到相同尺寸，再经过1*1卷积核扩充到相同通道数，最后通过逐通道元素相加进行特征融合，得到两个特征融合层；

在特征提取过程中，以图像对的方式输入到网络中，每个图像对由第一帧的模板图像和搜索域图像构成，分别输入到对应的特征提取网络分支当中；模板分支输入图像大小为3×127×127，在第一个卷积层中，经过96个步长为2的11×11大小的卷积核，再经过BN层和RELU6激活层，得到大小为96×59×59的特征图；在第二个卷积层中，经过96个步长为2的3×3大小的卷积核做最大池化(MaxPooling)，再经过BN层和RELU6激活层，得到大小为96×29×29的特征图；在第三个卷积层中，经过288个步长为1的1×1大小的卷积核，再经过BN层和RELU6激活层，得到大小为288×29×29的特征图；在第四个卷积层中，经过288个步长为1的5×5大小的卷积核做深度卷积，再经过BN层和RELU6激活层，得到大小为288×25×25的特征图；在第五个卷积层中，经过256个步长为1的1×1大小的卷积核，再经过BN层，得到大小为256×25×25的特征图；在第六个卷积层中，经过256个步长为2的3×3大小的卷积核做maxpooling，再经过BN层和RELU6激活层，得到大小为256×12×12的特征图；在第七个卷积层中，经过768个步长为1的1×1大小的卷积核，再经过BN层和RELU6激活层，得到大小为768×12×12的特征图；在第八个卷积层中，经过768个步长为1的3×3大小的卷积核做深度卷积，再经过BN层和RELU6激活层，得到大小为768×10×10的特征图；在第九个卷积层中，经过192个步长为1的1×1大小的卷积核，再经过BN层，得到大小为192×25×25的特征图；在第十个卷积层中，经过576个步长为1的1×1大小的卷积核，再经过BN层和RELU6激活层，得到大小为576×10×10的特征图；在第十一个卷积层中，经过576个步长为1的3×3大小的卷积核做深度卷积，再经过BN层和RELU6激活层，得到大小为576×8×8的特征图；在第十二个卷积层中，经过192个步长为1的1×1大小的卷积核，再经过BN层，得到大小为192×8×8的特征图；在第十三个卷积层中，经过576个步长为1的1×1大小的卷积核，再经过BN层和RELU6激活层，得到大小为576×8×8的特征图；在第十四个卷积层中，经过576个步长为1的3×3大小的卷积核做深度卷积，再经过BN层和RELU6激活层，得到大小为576×6×6的特征图；在第十五个卷积层中，经过128个步长为1的1×1大小的卷积核，再经过BN层，得到大小为128×6×6的特征图；由于本网络架构为孪生网络，因此搜索分支与模板分支共享相同的网络结构和网络参数，搜索分支输入图像大小为3×255×255，经过与模板分支相同的网络结构和网络参数，最终得到128×22×22的特征图；

在网络的特征融合模块，通过两个网络分支提取特征，进行特征融合获得两个特征融合层；特征提取的第七个卷积层的特征图，经过1×1大小的卷积核，得到128个通道的特征图一；特征提取的第十个卷积层的特征图，经过1×1大小的卷积核，得到128个通道的特征图，再双线性插值上采样到特征图一的尺寸，得到特征图二；特征提取的第十五个卷积层的特征图，经过双线性插值上采样到特征图一的尺寸，得到特征图三；特征图一、二、三通过逐通道元素相加，得到最终的融合特征层，模板分支融合特征层尺寸为128×12×12，搜索分支融合特征层尺寸为128×28×28；

最终将模板分支融合特征层看作尺寸为128×12×12的卷积核，步长为1，对搜索分支融合特征层做深度可分离卷积得到最终尺寸为1×17×17特征图，再对特征图进行双线性插值上采样得到1×255×255，得到跟踪目标位置和置信度；

在训练过程中，先对数据集进行裁剪，每个样本的大小裁剪为127×127的模板图像和256×256的搜索图像作为网络的输入，训练特征提取网络和分类网络均采用随机梯度下降法，权重衰减设置为0.0005，用高斯分布初始化参数，训练50个epoch，每个epoch有50,0000个样本对，批量大小为8，学习率从10^-2衰减到10^-8；

(2)针对跟踪算法的深度网络加速优化：

对训练好的深度网络模型进行加速优化，包括剪枝和量化两个步骤；

①剪枝

采用稀疏度阈值剪枝作为剪枝策略，对模型的每层卷积核的权重按绝对值大小进行排序，对小于阈值的权值设为0，阈值计算公式如下：

t∈{t₀，t₀+Δ_t，…，t₀+nΔ_t}

其中S_t为当前稀疏度阈值，S_i＝0为初始稀疏度，S_f＝0.5为目标稀疏度，Δ_t＝100为剪枝频率，t₀＝0为剪枝开始时刻，n＝100为剪枝次数；因此每100步网络训练进行一次剪枝，总共剪枝100次；

此外，记录网络未剪枝时在VOT2018数据集上的EAO结果，在每进行一次剪枝后测试VOT2018数据集的EAO结果，当EAO值相对初始结果下降超过0.05则停止剪枝，否则继续剪枝训练直到完成100次剪枝达到0.5的目标稀疏度；

②量化

对经过上述剪枝后得到的32bit浮点型网络模型进行8bit定点化，然后再进行网络训练，在前向传播时使用8bit的权重和激活函数，在反向梯度传播时使用浮点数进行梯度计算；

(3)基于低空航拍影像跟踪方法的在线跟踪框架：

结合TLD跟踪框架，将加速优化好的网络模型作为跟踪框架的跟踪器，利用TLD检测器和学习模块完成丢失目标找回以实现长时在线跟踪；

TLD检测器用于丢失目标找回，由方差分类器，集合分类器以及最近邻分类器三个级联分类器构成；首先通过方差分类器计算搜索域中像素灰度值的方差，筛除小于目标区域方差50％的图像块；然后将通过的图像块输入到集合分类器中，集合分类器有10个基本分类器，每个分类器具有13个像素比较对，因此输入的图像块的像素比较对两两比较后会产生10个13位二进制编码，对10个二进制编码对应后验概率求平均值与初始阈值0.6进行比较，筛选出正样本；最后将剩下的图像块输入到最近邻分类器中，进行相似性度量筛选出最终的正样本作为检测结果，相似度初始阈值为0.65；学习模块通过跟踪器的结果对检测器进行评估，并根据评估结果产生训练样本对检测器的目标模型进行更新，更新策略为在集合分类器和最近邻分类器更新时，选取负样本集中最大的后验概率平均值和相对相似度分别作为新阈值；

在跟踪前，利用学习模块产生正负样本来训练集合分类器、最近邻分类器；在跟踪过程中，利用目标跟踪深度网络模型计算出运动目标位置和置信度，利用检测器计算出检测结果；

当跟踪器的置信度大于等于0.4或跟踪器与检测器的IOU(Intersection over Union)大于等于0.3，判定为跟踪成功，输出跟踪结果；当跟踪器与检测器的IOU小于0.3，则根据当前帧跟踪框和检测结果对正负样本集进行更新，并对检测器进行更新；

当跟踪器的置信度小于0.4且跟踪器与检测器的跟踪框IOU小于0.3，判定跟踪失败，用检测器重新初始化目标位置和尺度，输出检测结果；并根据当前帧错误跟踪框和检测结果对正负样本集进行更新，并对检测器进行更新。