CN111899278B

CN111899278B - 基于移动端的无人机图像快速目标跟踪方法

Info

Publication number: CN111899278B
Application number: CN202010575725.9A
Authority: CN
Inventors: 王玉峰; 刘西洋; 王蒙; 丁文锐
Original assignee: Beihang University
Current assignee: Beihang University
Priority date: 2020-06-22
Filing date: 2020-06-22
Publication date: 2022-09-02
Anticipated expiration: 2040-06-22
Also published as: CN111899278A

Abstract

本发明公开了一种基于移动端的无人机图像快速目标跟踪方法，属于图像处理技术领域。具体指首先，将视频框架V4L2嵌入无人机移动端上，采用非阻塞多线程并行执行实时跟踪和读取摄像头拍摄的图像数据；然后，采取GrabCut目标前景分割算法自动提取初始帧图像中目标边框并采样，分别提取方向梯度直方图的HOG特征和颜色直方图的CN特征，输入到相关滤波器中进行训练；针对下一帧图像提取HOG特征和CN特征，输入到训练好的相关滤波器中，通过多尺度特征和多线程并行计算得到最大响应区域并更新为模板图像，返回重新训练相关滤波器，最后在当前图像中标记跟踪结果实时显示。本发明保证算法的准确性和鲁棒性，能取得良好的精度与速度。

Description

基于移动端的无人机图像快速目标跟踪方法

技术领域

本发明属于图像处理技术领域，具体指一种基于移动端的无人机图像快速目标跟踪方法。

背景技术

随着国内航空、电子及信息产业的不断进步，无人机相关技术飞速发展，促进了图像处理技术在无人机图像上的广泛应用。

视觉目标跟踪技术是图像处理、计算机视觉领域的重要分支，也是国内外的主要研究热点。目标跟踪通过在连续的视频图像序列中估计跟踪目标的位置、形状或所占区域，确定目标的运动速度、方向及轨迹等运动信息，实现对运动目标行为的分析和理解，以便完成更高级的任务。

结合无人机平台的特点，基于无人机图像的目标跟踪算法在智能安防、智慧交通和军事侦察等众多民用和军事领域具有巨大的应用前景。而这些应用的需求，也在不断推进视觉目标跟踪技术的发展与进步。

目标跟踪算法目前主要分为相关滤波和深度学习两大技术路线，深度学习方法通过卷积神经网络提取图像的深度特征，通过特征匹配和边框回归的方式实现目标的定位和跟踪。深度学习方法具有较高的跟踪精度，但由于卷积神经网络推断需要大量计算，所以深度学习的跟踪方法大多速度较低，这对于无GPU或GPU计算资源少的移动端平台往往很难落地部署。相关滤波最早应用于信号处理，用来描述两个信号之间的相关性或相似性。相关滤波在目标跟踪中，一般在当前帧采样并训练回归器，并在下一帧寻找目标位置，即寻找滤波器响应图像的最大值位置。

在现阶段，相关滤波算法凭借良好的精度与速度综合性能得到广泛应用，也发展出一系列基于相关滤波改进的目标跟踪方法，从特征、核、尺度、分块、样本标签、边界效应及结合其它算法等方面进行改进，使算法精度得到大幅度提升。因此，基于相关滤波框架的目标跟踪算法在实际工程中得到广泛应用。

无人机移动端的边缘计算平台，由于体积和功耗等条件的限制，其计算能力也远远低于服务器平台的能力，所以常用的目标跟踪方法在移动端平台往往难以达到实时的效果。由于处理速度的降低会造成目标跟踪算法在处理两帧的时间间隔增大，帧间的时序信息减少，导致跟踪准确性和鲁棒性大大降低。

针对无人机移动端平台算力小的特点，设计一种适用于移动端的快速目标跟踪方法，在提升跟踪算法速度的同时保证跟踪精度，这对无人机图像目标跟踪技术在移动端的算法落地和工程应用具有重要的研究意义。

发明内容

针对上述问题，本发明基于移动端嵌入式平台，为了实现对无人机图像中的目标进行快速跟踪，提出了一种基于移动端的无人机图像快速目标跟踪方法。

具体步骤如下：

步骤一、将视频框架V4L2嵌入无人机移动端上，采用非阻塞多线程并行执行实时跟踪和读取摄像头拍摄的图像数据。

非阻塞多线程的架构具体为：

主线程循环执行读取摄像头图像，显示跟踪结果和图像；

子线程循环执行目标跟踪算法，包括：从主线程获取当前帧图像和上一帧目标坐标，在当前帧进行目标位置的预测，并将预测结果输出给主线程，以及更新相关滤波器。

在主线程和子线程进行数据交换之前进行数据线程上锁，结束之后进行数据线程解锁。

步骤二、采取基于GrabCut目标前景分割算法自动提取初始帧图像中目标边框，得到目标在初始帧图像中的位置坐标。

基于Grabcut的初始帧目标边框提取方法过程如下：

步骤201、以鼠标点击点为中心，生成一个矩形，保证矩形外的区域是背景区域，矩形内的前景区域包含完整目标区域。

步骤202、使用高斯混合模型(GMM)对前景和背景进行建模，并将未定义的像素标记为可能的前景或者背景。

步骤203、通过高斯混合模型创建新的像素分布图，图像中的每一个像素点通过无向边与周围像素相连接，而每条边都有一个属于前景或者背景的概率。

步骤204、在节点完成连接后，若节点之间的边属于不同终端，则切断他们之间的边，通过对逐像素遍历，得到图像的分割结果图。

节点可能与背景连接，或与前景连接；

边属于不同终端是指：一个节点属于前景，另一个节点属于背景；

步骤205、重复执行步骤202，对图像的分割结果进行多次高斯混合模型迭代，得到更精确的分割结果图。

步骤206、对最终的分割结果图，计算目标的外接矩形框，并映射到原图像中，最终得到目标在初始帧的位置坐标信息。

步骤三、在目标的边框区域内采样，并采用方向梯度直方图和颜色直方图分别提取纹理特征HOG特征和颜色特征CN特征。

步骤四、利用当前帧图像提取的HOG特征或CN特征，输入到相关滤波器中训练相关滤波器；

本发明采用岭回归法训练相关滤波器，其公式定义为：

其中,(x_i,y_i)为训练样本的列向量，线性回归函数为f(x_i)＝w^Tx_i，w为模型权重，λ为正则化项，用来防止过拟合。

步骤五、采集下一帧图像并提取HOG特征和CN特征，输入到训练好的相关滤波器中，通过多尺度特征和多线程并行计算得到最大响应区域。

最大响应域是指下一帧图像中目标的中心位置；

在计算最大响应区域的过程中，使用已经训练好的相关滤波器f(x_i)＝w^Tx_i对下一帧图像进行滤波计算，分别采用0.8、1.0、1.2倍的回归边框来进行三个尺度的预测，同时选用POSIX多线程库的方式进行并行计算加速，输出相应分布图，最后选取三个尺度中最大的响应点设为下一帧图像中目标的中心位置，作为最终的跟踪结果。

步骤六、将当前目标的最大响应区域更新为模板图像，返回步骤四重新训练相关滤波器，用于下一帧跟踪。

更新过程如下：

步骤601、保持当前目标的最大响应区域不变，将目标框的宽和高同时扩大相同倍数。

步骤602、计算扩大后的目标框与模板图像尺寸的比例scale_z：

w为扩大后目标框的宽，h为扩大后目标框的高，template为模版图像尺寸。

步骤603、将比例scale_z同时应用于宽和高，获取图像提取区域大小：

步骤604、结合提取的下一帧图像的HOG特征，重新计算图像提取区域大小：

cellsize为HOG特征中每个单元格的尺寸；

步骤605、利用线性插值法将重新计算的图像提取区域采样为原图大小，并作为特征区域重新训练相关滤波器。

步骤七、在当前图像中标记跟踪结果，并通过输出实时显示。

跟踪器给出当前帧的跟踪结果，即目标在原图中的坐标信息输出到可视化模块实时显示结果。

本发明的优点在于：

(1)一种基于移动端的无人机图像快速目标跟踪方法，采用基于HOG和CN等多种特征和相关滤波的目标跟踪框架，对多尺度特征进行并行计算优化，保证算法的准确性和鲁棒性。在移动端等计算资源较少的平台上，仍能取得良好的精度与速度。

(2)一种基于移动端的无人机图像快速目标跟踪方法，基于GrabCut进行初始帧的目标边框提取，只需初始帧点击所选目标即可提取出前景目标边框，在人机交互信息少的情况下准确获取目标边框坐标信息。

(3)一种基于移动端的无人机图像快速目标跟踪方法，采用非阻塞多线程和数据互锁的架构，对图像读取、处理、显示与目标跟踪算法更新两部分进行并行处理，在移动端平台实现图像显示、实时跟踪的效果。

附图说明

图1是本发明基于移动端的无人机图像快速目标跟踪方法原理框图；

图2是本发明基于移动端的无人机图像快速目标跟踪方法流程图；

图3是本发明非阻塞并行线程架构和数据交换示意图；

图4是本发明基于GrabCut的目标前景算法结果图；

图5是本发明方向梯度直方图HOG特征提取流程图；

图6是本发明基于相关滤波的目标跟踪算法示意图；

图7是本发明部分测试视频序列的跟踪结果示意图。

图8是本发明移动端跟踪器运行各部分耗时及FPS的输出结果。

具体实施方式

下面结合附图，对本发明的具体实施方法作进一步的详细说明。

本发明一种基于移动端的无人机图像快速目标跟踪方法，基于移动端嵌入式平台，实现对无人机图像中的目标进行快速跟踪的功能。针对无人机机载计算平台受体积和功耗等条件限制、计算能力弱的特点，采用基于相关滤波的目标跟踪框架，设计一种适用于移动端的多尺度特征并行计算的目标跟踪方法，应对无人机图像中目标尺度缩放的问题，在移动端嵌入式平台提升目标跟踪算法速度的同时，保证目标跟踪的准确性和鲁棒性。

移动端快速目标跟踪框架，如图1所示，包括初始帧目标提取、视频数据流和跟踪器三部分。初始帧目标提取主要采用基于GrabCut的目标前景分割算法，进行初始帧目标位置的提取；视频数据流采用V4L2协议进行摄像头数据读取，并采用线程锁进行数据交换；跟踪器采用基于相关滤波器的目标跟踪方法，将提取的图像HOG等特征输入到基于上一帧图像训练的相关滤波器中，计算相关滤波的最大相应点，并采用多分辨率回归目标的边框，输出当前跟踪的结果，最后进行可视化显示。

非阻塞并行线程架构和数据交换过程，如图2所示，具体步骤如下：

V4L2是专门为Linux设备设计的一套视频框架，其主体框架在Linux内核，是整个Linux系统上面的视频源捕获驱动框架，其广泛应用在嵌入式设备以及移动端、个人电脑设备上。本发明采用V4L2协议通过摄像头读取视频流数据，保证视频流获取的最小时延。

同时，本发明采用非阻塞多线程的架构并行执行摄像头图像读取和实时跟踪。如图3所示，主线程为摄像头图像读取，及跟踪结果和图像的显示，主线程循环执行；

子线程为目标跟踪算法的循环执行，其中包括从主线程获取当前帧图像和上一帧图像中的目标坐标，在已知上一帧目标位置的情况下，对当前帧中目标的位置进行预测，并将预测的目标位置输出给主线程；以及更新相关滤波器和模型。

在主线程和子线程进行数据交换过程中，为防止数据被修改，需要在交换之前进行数据线程上锁，结束之后进行数据线程解锁。

初始帧图像中的目标可以由多种方式获得，如采用目标检测的目标框结果，或采用鼠标点击选中的目标框结果。本发明中采用基于GrabCut的目标前景分割算法进行目标边框的提取，通过交换窗口鼠标选中目标的大致中心点，以快捷的交互方式给定先验信息，通过前景分割算法获得目标轮廓，并作为初始帧的目标位置输入到跟踪器中。

本发明采用自动而非手动的方式来进行初始目标框提取，只需要进行点击操作即可自动提取而非对目标进行画框，减少使用中的交互信息步骤。

基于Grabcut的初始帧目标边框提取方法过程如下：

节点可能与背景连接，或与前景连接；

最终，基于Grabcut的目标前景分割算法结果如图4所示，每列图像分别表示原图、二值分割图、对比分割图和初始帧框图。初始帧框图为目标前景分割算法的最终输出，用于目标跟踪算法的第一帧跟踪初始化框。

HOG特征全称为方向梯度直方图，是一种在计算机视觉和图像处理中用来进行物体检测的特征描述子。它通过计算和统计图像局部区域的梯度方向直方图来构成特征，首先将图像分成小的连通区域，记为细胞单元，然后采集细胞单元中各像素点的梯度或边缘的方向直方图，最后把这些直方图组合起来构成特征描述器。

与其他的特征描述方法相比，HOG特征对图像几何形变和光学形变都能保持很好的不变性；其次，在粗的空域抽样、精细的方向抽样以及较强的局部光学归一化等条件下，只要目标的基本特征不发生剧烈变化，HOG特征可以有很高的容错性，对微小的形态变换可以忽略并不受其影响，保证特征提取的准确性。方向梯度直方图HOG特征提取流程，如图5所示。

HOG特征需要计算每个像素点的梯度和方向；在图像中，每个像素点的梯度定义为：

G_x(x,y)＝H(x+1,y)-H(x-1,y)

G_y(x,y)＝H(x,y+1)-H(x,y-1)

其中，H(x,y)表示为图像中点(x,y)处的像素值，G_x(x,y)、G_y(x,y)分别表示像素点(x,y)处的水平方向、垂直方向的梯度值，故像素点(x,y)处的梯度幅值和方向梯度分别为：

首先，将包括目标的当前帧图像分为若干个单元格，称为“cell”，假设每个cell包含n*n个像素点，用m个方向直方图来描述像素点的梯度信息，即将cell的梯度方向从360度划分为m个方向块。对cell中每个像素用梯度方向在直方图中进行加权投影，映射到固定的角度范围，即得到这个cell的梯度方向直方图。

由于局部光照的变化以及前景-背景对比度的变化，使得梯度强度的变化范围非常大。因此需要对梯度强度做归一化，归一化能够进一步地对光照、阴影和边缘进行压缩。

归一化的方法是：把各个相邻的细胞单元组合成大的、空间上连通的块。这样，一个块内所有cell的梯度幅值G(x,y)和方向梯度α(x,y)串联起来即为该块的HOG特征。这些块之间是互有重叠的，这就意味着每一个单元格的特征会以不同的结果多次出现在最后的特征向量中，将归一化之后的块描述符(向量)就称之为HOG描述符。

块有两个主要的几何形状：矩形块(R-HOG)和环形块(C-HOG)。R-HOG区间大体上是一些方形的格子，它可以有三个参数来表征：每个区间中细胞单元的数目、每个细胞单元中像素点的数目和每个细胞的直方图通道数目。本实施例中采用的块形状为矩形块。

CN特征全称为颜色直方图，是指不同色彩在包含目标的边框区域内中所占的比例；也是一种在计算机视觉和图像处理中常用的特征描述子。它对运动目标表面的颜色分布进行统计，可以不受目标形状和姿态等变化的影响。所以用颜色直方图作为目标的特征提取，依据颜色分布进行匹配，具有了稳定性好，计算量小，计算简单等特点，适用于移动端的快速计算，是比较理想的目标颜色特性。为了减少光照变化对目标特征提取带来的影响，一般将RGB转为HSV色系后再进行特征提取。

将HSV三个分量按照对颜色变化的敏感程度不同，分别进行量化。假设量化后，三个分量的取值范围为{0,1,...,L_H-1}，{0,1,...,L_S-1},{0,1,...,L_V-1}，按照[H,S,V]的形式转化为矢量，其范围为：

{0,1,...,L_H-1,...,L_H+L_S-1,...,L_H+L_S+L_V-1}

设颜色i的像素点个数为m_i，图像像素点的总数为：

CN特征是指从颜色直方图中提取目标的特征，则某个颜色分量i出现的概率P_i，定义：

本发明采用岭回归法训练相关滤波器，其公式定义为：

其中,(x_i,y_i)为训练样本的样本和标签，且均为列向量，线性回归函数为f(x_i)＝w^Tx_i，w为模型权重，λ为正则化项，用来防止过拟合。

对模型权重w求导，可得：

w＝(X^TX+λI)^-1X^Ty

由于在傅里叶频域有X^H＝(X^*)^T，故模型简化为：

w＝(X^TX+λI)^-1X^Hy

其中，X＝[x₁,x₂,...,x_n]为n个训练样本x_i组成的矩阵，I为单位矩阵，y为训练样本对应的标签。理想回归期望即标签假设是高斯型，如果离上一帧跟踪结果越近，那么它是这一帧的跟踪结果的概率也就越大。

通常情况下，回归器f不是特征向量x的线性表示，无法直接求解，但通过引入核函数，可以将非线性问题通过特征的非线性映射，在映射后的特征空间满足线性关系。对于核空间的岭回归，其表示为任何带有L2正则化的线性模型，其最优的w都可以表示为训练样本x_i的线性组合，即

α_i表示训练样本x_i线性组合的系数；

则线性回归函数可以表示为：

如果原特征向量x无法线性回归到样本标签，则可以找到一个非线性映射函数φ(x)，使得映射后的样本在新空间可以线性回归拟合，即x→φ(x),z→φ(z)。则有：

导入到损失函数

转为矩阵形式：

求导可解：

α＝(φ(X)φ(X)^T+λI)^-1y＝(K+λI)^-1y

其中，K＝φ(X)φ(X)^T为训练样本的核相关矩阵，k(i,j)＝φ(x_i)^Tφ(x_j)为核函数。

通过核函数映射，可以解决回归的非线性问题，但时间复杂度仍然很高，无法达到实时快速目标跟踪的效果。但可以通过优化回归参数α的求解过程，实现计算复杂度的降低，从而实现跟踪速度的提升。

利用循环矩阵卷积性质

其中，k为循环矩阵K的第一行，即循环矩阵的生成向量。

至此，已经完成了利用循环样本近似滑动扫描窗进行样本采集，以及利用核空间的岭回归算法求解相关滤波器的建模过程。

最大响应域是指下一帧图像中目标的中心位置；

在跟踪过程中，使用已经训练好的相关滤波器f(x_i)＝w^Tx_i对下一帧图像进行滤波计算，输出相应分布图，将其中最大响应位置作为下一帧图像中目标的中心位置。

在计算最大响应点的过程中，分别采用上一帧跟踪结果框的0.8、1.0、1.2倍的回归边框来进行三个尺度的预测，由于三个尺度的计算过程没有相互影响关系，所以采用Linux系统中的POSIX多线程库的方式进行并行计算加速。最后选取三个尺度中最大的响应点作为最终的跟踪结果。

在POSIX多线程库中，通过调用pthread_create接口来创建三个并行线程，在每个线程中实现对单个尺度的计算过程，三个线程并行执行。在等待三个线程均结束计算后，调用pthread_exit接口退出多线程，并继续进行后续计算过程。采用多线程方式进行多尺度计算过程，可以在不降低跟踪算法准确率的基础上，将计算速度提升2倍以上，实现嵌入式平台上的快速目标跟踪算法应用。

模板图像是在线学习的，即在每帧预测的结果基础上进行更新，其具体获取过程如下：

步骤602、设定模板图像尺寸为96，计算扩大后的目标框与模板图像尺寸的比例scale_z：

由于提取的HOG特征会以cell单元的形式提取，且需要将频域直流分量移动到图像中心，因此需保证图像大小为cell大小的偶数倍，另外，在HOG特征计算的过程中是忽略边界cell的，所以还要再加上两倍的cell大小，即：

cellsize为HOG特征中每个单元格的尺寸；

由于roi'_w,h区域可能会超出图像边界，超出边界的部分填充为原图像边界的像素。最后利用线性插值的方式将roi'_w,h区域采样为原图大小。在更新目标区域后，将跟踪结果即目标在原图中的坐标信息输出到可视化模块，并以当前更新后的目标区域作为特征区域，重新训练相关滤波器，训练过程同步骤四所示。

步骤四、五和六为基于相关铝箔目标跟踪算法的完整计算过程，其框图如图6所示。首先通过滑动窗口进行循环采样并提取HOG特征和CN特征，并构造正负样本训练相关滤波器，对下一帧图像进行滤波计算和最大响应点预测，三个尺度层次上进行最大响应点的计算，从而得到当前帧的跟踪结果。在下一时刻重复执行，从而完成整个跟踪过程，

跟踪器给出当前帧的跟踪结果，以及视频数据流给出当前帧图像数据，即可输出到后续处理模块，或通过可视化实时显示结果。

本发明所用为瑞芯微RK3399嵌入式开发系统，也可部署到其他嵌入式平台。选取部分图像序列的跟踪结果如图7所示。移动端跟踪器运行各部分耗时及FPS的输出结果如图8所示，从图8中可以看到，在嵌入式平台上，整个系统以每帧30FPS以上的帧率运行。

Claims

1.一种基于移动端的无人机图像快速目标跟踪方法，其特征在于，具体步骤如下：

步骤一、将视频框架V4L2嵌入无人机移动端上，采用非阻塞多线程并行执行实时跟踪和读取摄像头拍摄的图像数据；

非阻塞多线程的架构具体为：

主线程循环执行读取摄像头图像，显示跟踪结果和图像；

子线程循环执行目标跟踪算法，包括：从主线程获取当前帧图像和上一帧目标坐标，在当前帧进行目标位置的预测，并将预测结果输出给主线程，以及更新相关滤波器；

在主线程和子线程进行数据交换之前进行数据线程上锁，结束之后进行数据线程解锁；

步骤二、采取基于GrabCut目标前景分割算法自动提取初始帧图像中目标边框，得到目标在初始帧图像中的位置坐标；

步骤三、在目标的边框区域内采样，并采用方向梯度直方图和颜色直方图分别提取纹理特征HOG特征和颜色特征CN特征；

步骤五、采集下一帧图像并提取HOG特征和CN特征，输入到训练好的相关滤波器中，通过多尺度特征和多线程并行计算得到最大响应区域；

最大响应域是指下一帧图像中目标的中心位置；

步骤六、将当前目标的最大响应区域更新为模板图像，返回步骤四重新训练相关滤波器，用于下一帧跟踪；

更新过程如下：

步骤601、保持当前目标的最大响应区域不变，将目标框的宽和高同时扩大相同倍数；

步骤602、计算扩大后的目标框与模板图像尺寸的比例scale_z：

w为扩大后目标框的宽，h为扩大后目标框的高，template为模版图像尺寸；

cellsize为HOG特征中每个单元格的尺寸；

步骤605、利用线性插值法将重新计算的图像提取区域采样为原图大小，并作为特征区域重新训练相关滤波器；

步骤七、在当前图像中标记跟踪结果，并通过输出实时显示；

2.如权利要求1所述的一种基于移动端的无人机图像快速目标跟踪方法，其特征在于，所述的步骤二中初始帧图像中目标边框的提取过程如下：

步骤201、以鼠标点击点为中心，生成一个矩形，保证矩形外的区域是背景区域，矩形内的前景区域包含完整目标区域；

步骤202、使用高斯混合模型(GMM)对前景和背景进行建模，并将未定义的像素标记为可能的前景或者背景；

步骤203、通过高斯混合模型创建新的像素分布图，图像中的每一个像素点通过无向边与周围像素相连接，而每条边都有一个属于前景或者背景的概率；

步骤204、在节点完成连接后，若节点之间的边属于不同终端，则切断他们之间的边，通过对逐像素遍历，得到图像的分割结果图；

节点可能与背景连接，或与前景连接；

步骤205、重复执行步骤202，对图像的分割结果进行多次高斯混合模型迭代，得到更精确的分割结果图；

3.如权利要求1所述的一种基于移动端的无人机图像快速目标跟踪方法，其特征在于，所述的步骤五中计算最大响应区域的过程中，使用已经训练好的相关滤波器f(x_i)＝w^Tx_i对下一帧图像进行滤波计算，w为滤波器模型的权重，x_i为训练样本；

分别采用0.8、1.0、1.2倍的回归边框来进行三个尺度的预测，同时选用POSIX多线程库的方式进行并行计算加速，输出相应分布图，最后选取三个尺度中最大的响应点设为下一帧图像中目标的中心位置，作为最终的跟踪结果。