CN111932583A

CN111932583A - 一种基于复杂背景下的时空信息一体化智能跟踪方法

Info

Publication number: CN111932583A
Application number: CN202010505626.3A
Authority: CN
Inventors: 李�权; 孙景峰; 宁瑞芳; 陈永辉
Original assignee: Xian Lingkong Electronic Technology Co Ltd
Current assignee: Xian Lingkong Electronic Technology Co Ltd
Priority date: 2020-06-05
Filing date: 2020-06-05
Publication date: 2020-11-13

Abstract

本发明公开了一种基于复杂背景下的时空信息一体化智能跟踪方法，具体包括如下步骤：步骤1，训练检测跟踪网络，获得检测模型和跟踪模型；步骤2，获取当前帧图像，利用检测模型对当前帧图像进行目标检测；步骤3，将步骤2检测到的所有目标进行数据关联，确认目标；步骤4，将数据关联后的目标信息输入跟踪模块；步骤5，跟踪模块通过LSTM模型中的记忆学习将目标回归到准确的位置；步骤6，根据跟踪结果输出当前帧图像中目标的运动信息。本发明解决了现有跟踪方法在目标丢失后难以重新捕跟踪的问题。

Description

一种基于复杂背景下的时空信息一体化智能跟踪方法

技术领域

本发明属于信息监控安防技术领域，涉及一种基于复杂背景下的时空信息一体化智能跟踪方法。

背景技术

视觉跟踪，是指利用计算机视觉和图像处理算法对视频图像序列中的运动目标进行检测、提取、识别和跟踪的过程。在跟踪过程中可获得目标的运动参数和运动轨迹，进行进一步处理与分析，从而达到对运动目标进行行为理解的目的。运动目标检测和跟踪是目标探测、图像识别、光电制导等领域的关键技术，如何自动、准确且快速地从复杂背景中检测识别到运动目标并进行稳定跟踪，在军事和民用领域都具有十分重要的地位和广阔的应用前景。但在复杂背景下，由于环境复杂、光照变化、尺度变化、物体遮挡、目标形变等因素，使得长时稳定跟踪运动目标变得异常困难。

为了解决由上述因素引起的跟踪失败问题，传统跟踪方法以目标外观为特征，采用生成或判别模型将前景与背景分离。生成类方法，是在当前帧对目标区域建模，下一帧寻找与模型最相似的区域就是预测位置，比较著名的有卡尔曼滤波，粒子滤波，模板匹配等。判别类方法，也称为“基于检测的跟踪”，主要是“图像特征”+“机器学习”。具体是在当前帧以目标区域为正样本，背景区域为负样本，利用机器学习训练分类器，下一帧用训练好的分类器找最优区域，比较著名的有KCF、staple等。生成式跟踪方法对图像信息表示更丰富，在复杂环境下会得到更加精确的结果，但该方法忽略了背景信息，当背景中存在与目标相似的图像时会发生跟踪漂移，易受背景干扰；判别式跟踪方法同时利用目标和背景信息，引入机器学习中丰富的学习算法对模型进行在线更新，可以较好地处理现实应用中的光照变化、外观变形、局部遮挡等问题，但该方法高度依赖训练样本，样本的选取会很大程度地影响跟踪性能。所以，此类方法多依赖于人工制作的特征，不含盖目标语义信息，导致算法的鲁棒性和实用性有限。另外，最近提出的基于递归神经网络(RNN)进行目标跟踪的方法，只是集中于利用传统的RNN作用于人工合成的序列数据，虽然能在空间上可以看到不同区域，但是依赖于在局部区域附加的二进制分类，不能解决现实世界的跟踪问题。而基于深度卷积神经网络的目标跟踪和图像识别方法中，由于其能够自主学习目标的深层次、多样化特征，使得算法的鲁棒性和识别力得到显著提升，但因为主要集中于提高深层特征相对于手工创建特征的性能和鲁棒性，没有考虑目标在时空上的联系，仍然存在目标丢失后难以重新捕获跟踪的问题。因此，提出一种在检测跟踪上，综合利用时空信息进行一体化跟踪的智能化方法。

发明内容

本发明的目的是提供一种基于复杂背景下的时空信息一体化智能跟踪方法，解决了现有跟踪方法在目标丢失后难以重新捕跟踪的问题。

本发明所采用的技术方案是，一种基于复杂背景下的时空信息一体化智能跟踪方法，具体包括如下步骤：

步骤1，训练检测跟踪网络，获得检测模型和跟踪模型；

步骤2，获取当前帧图像，利用检测模型对当前帧图像进行目标检测；

步骤3，将步骤2检测到的所有目标进行数据关联，确认目标；

步骤4，将数据关联后的目标信息输入跟踪模块；

步骤5，跟踪模块通过LSTM模型中的记忆学习将目标回归到准确的位置；

步骤6，根据跟踪结果输出当前帧图像中目标的运动信息。

本发明的特点还在于，

步骤1的具体过程为：

步骤1.1，数据准备；

步骤1.2，对检测模块进行训练；

步骤1.3，训练跟踪模块LSTM。

步骤1.1的具体过程为：

步骤1.1.1，采集原始视频；

步骤1.1.2，按照目标分类，对步骤1.1.1采集的原始视频进行分帧，对分帧后的样本进行筛选整理，剔除无目标以及分不清目标轮廓的样本；

步骤1.1.3，对步骤1.1.2筛选后的图像数据样本进行数据增强；

步骤1.1.4，将步骤1.1.3增强后的数据样本，标注为XML格式的标签文件，得到带标签的数据样本，并按照VOC2007的格式和训练测试比例，将数据样本分为训练样本和测试样本。

步骤1.2的具体过程为：

步骤1.2.1，配置YOLO模型需要的环境；

步骤1.2.2，下载预训练模型，运用预训练得到的模型参数，对YOLO模型进行初始化；

步骤1.2.3，提取步骤1.1得到的增强后带标签的每个数据样本信息为：

(x_j,y_j,w_j,h_j),j∈{1,2,...,N}；

其中，(x_j,y_j)是标签框的中心点横纵坐标，(w_j,h_j)是框的宽高尺寸，N是所有标签框的个数，j代表标签框的计数；

步骤1.2.4，初始给定k个聚类中心点(X_i,Y_i,W_i,H_i)＝{0,0,0,0},i∈{1,2,...,k}，其中，(X_i,Y_i)是要候选框的横纵坐标，(W_i,H_i)是要计算的候选框的宽和高尺寸；i是聚类框的计数，k是候选框的个数；

步骤1.2.5，通过如下公式(1)计算每个标签框和每个聚类中心点的距离d,将标签框分配给距离d最近的聚类中心，形成簇；

d＝1-IOU (1)；

其中：

IOU表示模型产生的目标区域和原来真实标记区域的交并比；C表示模型预测的目标区域，G表示目标的真实标记区域；

步骤1.2.6，对步骤1.2.5形成的簇重新计算聚类中心点的宽和高，计算公式如下：

其中，N_i是第i个簇的标签框个数，w_i,h_i分别是第i个簇的标签框的宽和高，W_i',H_i'分别是计算后的第i个簇的候选框的宽和高；

步骤1.2.7，重复步骤1.2.5～步骤1.2.6，直至W_i',H_i'不变为止；

步骤1.2.8，修改YOLO模型网络配置文件中的参数：候选框尺寸、类别数、最后一个卷积层核参数个数，最后一个卷积层核参数个数的计算公式为：

Filters＝(classes+5)*3 (5)；

其中，classes表示类别数；

步骤1.2.9，修改YOLO模型网络配置文件的训练参数；

步骤1.2.10，开始训练YOLO模型，输出后缀格式为weights的权重模型文件，直到迭代结束或模型损失不在下降，手动停止得到检测模型。

步骤1.3的具体过程为：

步骤1.3.1，配置LSTM运行环境；

步骤1.3.2，利用OBT数据集，确定训练集和测试集；

步骤1.3.3，修改网络模型配置文件参数：学习率、迭代次数、批次大小、输入分辨率、类别数；

步骤1.3.4，LSTM网络模型接收来自YOLO检测模块输出的卷积层、特征表达和全连接层检测信息；

步骤1.3.5，LSTM网络模型接收来自LSTM网络模型上一个时间步的输出状态信息；

步骤1.3.6，将步骤1.3.4和步骤1.3.5接收到的信息一并输入LSTM网络模型下一个时间步，并根据响应计算误差，误差采用如下公式(6)计算，根据误差值获取实际值和预测值之间的损失；

其中，n是训练样本的数量，B_target是真实的目标信息，B_pred是预测到的目标信息；

步骤1.3.7，依次迭代LSTM网路模型，直至模型损失不再减小，手动停止得到跟踪模型。

步骤2的具体过程为：

步骤2.1，输入测试图片，并将图片归一化到跟YOLO模型输入一样的尺寸；

步骤2.2，将图片分割成互不重合的格子方块，并输入检测网络YOLO；

步骤2.3，通过YOLO模型卷积层提取特征图片，生成特征图；

步骤2.4，对中心点在步骤2.2分割的格子方块内的目标进行预测；

步骤2.5，通过IOU距离对步骤2.4预测的box进行取舍，生成正确的分配结果；

步骤2.6，通过特征图位置反射回原图位置，生成初步的检测结果。

步骤3的具体过程如下：

步骤3.1，将步骤2检测模块得到的目标进行图像二值化处理，目标点像素标记为1，非目标点像素标记为0，并统计所有目标点的坐标和数目；

步骤3.2，按照聚类设置的距离条件，将所有统计过的目标点，分成多个目标块；

步骤3.3，将不满足设置的聚类条件的目标点数据进行清除；

步骤3.4，计算聚类后目标块的前后帧的互相关信息，公式如下：

其中，I₁和I₂分别表示两个目标块对应的图像区域，

表示点乘运算；

步骤3.5，利用步骤3.4计算的互相关信息和设置的阈值条件，进行目标块匹配：如果后帧图像存在跟前一帧图像匹配成功的目标块，则将前一帧图像中对应的目标块，替换为当前帧图像的目标块信息，否则，分别保存当前帧和前一帧图像中的目标块信息；

步骤3.6，通过目标确认的帧数阈值条件，对保留下的目标块帧数进行判断，如果帧数小于阈值进行对应的目标块删除，反之，确认该目标块为最终需要跟踪的目标。

步骤5的具体过程为：

步骤5.1，LSTM跟踪模块在每一帧接收来自检测模块输出的目标卷积层特征表达,和全连接层检测位置信息B_t；

步骤5.2，LSTM跟踪模块根据历史帧目标在时间上的变化过程，和自身网络模型在上一个时间步的输出状态信息，确定遗忘门、输入门、和输出门的权重以及偏置项，具体公式如下：

i_t＝σ(W_xix_t+W_hih_t-1+b_i) (8)；

f_t＝σ(W_xfx_t+W_hfh_t-1+b_f) (9)；

o_t＝σ(W_xox_t+W_hoh_t-1+b_o) (10)；

其中，i_t是输入门，σ和

是激活函数，x_t是当前时刻网络的输入值，h_t-1是上一时刻LSTM的输出值，W_xi是当前时刻输入门的权重矩阵，W_hi是上一时刻输出到当前时刻输入门的权重矩阵，b_i是输入门的偏置项；f_t是遗忘门，W_xf是当前时刻遗忘门的权重矩阵，W_hf是上一时刻输出到当前时刻遗忘门的权重矩阵，b_f是遗忘门的偏置项；o_t是输出门，W_xo是当前时刻输出门的权重矩阵，W_ho是上一时刻输出到当前时刻输出门的权重矩阵，b_o是输出门的偏置项，h_t是当前时刻LSTM的输出值，c_t-1是上一时刻的单元状态，c_t是当前时刻的单元状态，且c_t和h_t分别是长记忆和短记忆；

步骤5.3，在遗忘门、输入门、和输出门经过激活函数

变化后，计算出当前时间步t的目标信息B_t和LSTM状态信息c_t；

步骤5.4，依次循环，LSTM会在每一帧利用历史帧的目标信息和自身的状态信息，对当前帧目标进行回归预测h_t，得到更准确的目标信息。

本发明的有益效果是，本发明不仅能高效完成普通的目标检测、目标跟踪任务，能在检测到多个目标时，通过数据关联将不需要的伪目标去除；还能在复杂背景属性，尤其目标丢失或遮挡时，依然能通过跟踪模块的记忆信息，将目标恢复到准确的位置，完成重新捕获跟踪的问题，大大提高了跟踪的效果。

附图说明

图1是本发明一种基于复杂背景下的时空信息一体化智能跟踪方法的框架图；

图2是本发明一种基于复杂背景下的时空信息一体化智能跟踪方法采用的网络模型示意图；

图3是采用本发明一种基于复杂背景下的时空信息一体化智能跟踪方法进行跟踪时运动目标为车时遮挡后的跟踪效果图；

图4是采用本发明一种基于复杂背景下的时空信息一体化智能跟踪方法进行跟踪时运动过程尺度变化的跟踪效果图；

图5是采用本发明一种基于复杂背景下的时空信息一体化智能跟踪方法进行跟踪时运动目标为无人机时遮挡后的跟踪效果图。

具体实施方式

下面结合附图和具体实施方式对本发明进行详细说明。

本发明一种基于复杂背景下的时空信息一体化智能跟踪方法，流程如下：(1)网络模型训练模块，获得后续检测跟踪所用模型；(2)获取当前帧图像，对其进行目标检测；(3)将检测到的所有目标进行数据关联，确认目标；(4)将数据关联后的目标信息输入跟踪模块；(5)跟踪模块通过记忆学习将目标回归到准确的位置；(6)根据跟踪结果输出当前帧图像中目标的运动信息。流程见附件图1。其中所用到网络模型示意图如图2所示：在输入视频序列后，首先利用传统的CNN进行一般的特征学习，去预训练权重。第一个全卷积层的输出是4096维的特征向量，并通过特征图映射的方式获得目标6维的信息，包括类别、中心点横坐标、纵坐标、宽、高以及置信度，接着将目标的视觉特征和6维的空间信息综合起来的x输入到LSTM跟踪模块，LSTM通过记忆回归的方式将目标回归到准确的位置，最后输出目标的运动信息B。

具体步骤如下：

步骤1，训练检测跟踪网络，获得检测模型和跟踪模型；

步骤1.1，数据准备；

为了说明模型方法的有效性，以及模拟跟踪过程的复杂环境，取标准数据库OTB-100作为训练和测试数据，该数据库不仅包括彩色图像和灰度图像，还包括光照变化、尺度变化、遮挡、运动模糊、快速运动、形变、背景干扰等带有典型复杂环境属性的场景，而且每个视频流都有图像序列和对应的记录有标注目标的中心点位置坐标和目标大小，可以更好的对比新旧算法的跟踪效果。另外，为了说明该模型方法对实际场景目标跟踪的适应性，拍摄无人机目标在复杂环境下的遮挡视频进行验证。因此，上述数据对视觉跟踪有很强的泛化性。此步骤为下面的检测模型和跟踪模型训练提供数据样本支持。

具体步骤如下：

步骤1.1的具体过程为：

步骤1.1.1，采集原始视频，可以通过改变无人机的飞行姿态、所处背景、采集视角等方式，增加数据样本的多样性；

步骤1.1.2，按照不同类型目标分类，对步骤1.1.1采集的原始视频进行分帧，对分帧后的样本进行筛选整理，剔除无目标以及分不清目标轮廓的样本；

步骤1.1.3，对步骤1.1.2筛选后的图像数据样本进行数据增强；通过平移、旋转、翻转、模糊、加噪声至少一种方式，进行数据增强；

步骤1.1.4，将步骤1.1.3增强后的数据样本，标注为XML格式的标签文件，得到带标签的数据样本，并按照VOC2007的格式和训练测试比例(7:3)，将数据样本分为训练样本和测试样本。

步骤1.2，对检测模块进行训练；

鉴于YOLO(You Only Look Once)的多尺度特性和注意力机制，使其可以用来被训练检测识别任意对象，作为一个通用的对象检测器。它是一个端到端的网络模型，利用卷积层来提取目标图像特征，生成整幅图像的特征映射，全连接层预测图像中目标位置和类别概率值。其中，第一个全卷积层输出4096维特征向量，它是目标视觉特征在空间上的密集表示；其次，一旦有预训练好的权重模型，就可以用来作为检测模块。在卷积层的顶部，YOLO利用全连接层把提取到的视觉特征，通过回归的方式进行目标位置预测。预测到的目标信息组成一个维度为S×S×(B×5+C)的张量，它表示图片被分成S×S个格子，每个格子负责检测落在该格子内对应的物体，每个格子预测有B个box边界，每个box参数包括x,y,w,h，置信度五个特征变量。C表示待检测识别目标的类别数。为了简化跟踪目的，把类的标签和置信度移除。

B_t＝(0,x,y,w,h,0)

其中，B_t表示t时刻目标的特征信息，(x,y)表示box的相对于图像宽高的中心点坐标，box的宽高是跟整幅图像相关的，(x,y,w,h)∈[0,1]，它跟4096维的空间视觉特征结合起来，很容易回归目标位置，然后把得到的坐标输入到跟踪模块。此步骤模型训练完成后会得到检测模型。

具体训练过程如下：

步骤1.2的具体过程为：

步骤1.2.1，配置YOLO模型需要的环境，并编译YOLO模型源代码，输出可执行文件；

(x_j,y_j,w_j,h_j),j∈{1,2,...,N}；

其中，(x_j,y_j)是标签框的中心点横纵坐标，(w_j,h_j)是标签框的宽高尺寸，N是所有标签框的个数，j代表标签框的计数；

步骤1.2.4，初始给定k个聚类中心点(X_i,Y_i,W_i,H_i)＝{0,0,0,0},i∈{1,2,...,k}，其中，(X_i,Y_i)是要候选框的横纵坐标，(W_i,H_i)是要计算的候选框的宽和高尺寸；i是聚类框的计数，k是候选框的个数，本发明取9；

d＝1-IOU (1)；

其中：

IOU表示模型预测的目标区域和原来真实标记区域的交并比；C表示模型预测的目标区域，G表示目标的真实标记区域；∩表示两个区域的交集，∪表示两个区域的并集。

步骤1.2.7，重复步骤1.2.5～步骤1.2.6，直至W_i',H_i'不变为止；

Filters＝(classes+5)*3 (5)；

其中，classes表示类别数；

步骤1.2.9，修改YOLO模型网络配置文件的训练参数：学习率、迭代次数、批次大小、输入分辨率、多尺度训练值；

步骤1.2.10，对YOLO模型进行编译，获得可执行文件，利用可执行文件、步骤1.2.8、步骤1.2.9修改后的网络配置文件、带标签数据文件(数据准备)、预训练模型开始训练YOLO模型，输出后缀格式为weights的权重模型文件，直到迭代结束或模型损失不再下降，手动停止得到检测模型。

步骤1.3，训练跟踪模块LSTM。

传统的RNN(循环神经网络)模型，对具有序列特性的数据非常有效，它能挖掘数据中的时序信息以及语义信息。但是在训练过程中，使用梯度下降算法更新权重的时候，更加倾向于将序列结尾处的权重作为正确下降方向，而没有利用更远的相关信息。即，在时间上越远序列的输入对权值影响越小，训练的结果就会越来越偏向新的信息，而不能对之前的信息进行记忆。

LSTM(长短期记忆网络)，作为一个时序网络，特色是它的记忆细胞，可以对历史状态信息进行选择性的记忆累加，从而克服梯度爆炸和梯度消失带来的缺陷。在使用LSTM作为跟踪模块的时候，可以更好的发现长期的目标特征关系，恢复目标的相关信息。

训练过程中，为了更好的记忆目标在时间序列上的有效特征，有两种数据流进入LSTM:第一，来自检测模块卷积层的特征，在每个时间步t，提取维度为4096的特征向量X_t，和全连接层的检测信息B_t；第二，来自上一个时间步的状态信息S_t-1。此步骤模型训练完成后会得到跟踪模型，具体过程如下：

步骤1.3的具体过程为：

步骤1.3.1，配置LSTM运行环境；

步骤1.3.2，利用OBT数据集，确定训练集和测试集；

传统的依赖于手工特征的检测方法，不能有效的表征目标特征，尤其是小目标。而基于深度学习的YOLO检测方法，不仅能很好的提取目标空间视觉特征，还能在快速检测的同时达到较高的准确率。该方法将目标检测任务看成是回归问题，采用单个神经网络直接预测目标边界和类别概率，实现端到端的目标检测。首先，YOLO将输入图像归一化到训练网路的输入尺寸大小(本系统取416x416)，并分割成互不重合的小格子方块(对应13x13)，然后输入神经网络，通过卷积产生的特征图映射原图目标位置，并对中心点在小格子内的目标进行预测，所以，可能输出多个检测框。

在YOLO检测出多个框后，并在网络内部进行目标分配时，采用成本矩阵，该矩阵的依据是IOU距离(IOU简单来讲就是模型预测的目标区域和原来真实标记区域的交并比。可理解为预测结果与真实值的交集比上它们之间的并集，即为IOU值。)，它计算的是当前检测帧和短期历史中，通过验证的检查结果均值之间的IOU距离。初始帧的检测是由检测结果和真实值之间的IOU距离决定的。在检测模型预测目标的过程中，每个格子预测有B个box，每个box都可以通过上述公式，计算得到一个IOU距离值，如果设定属于正确分配的IOU阈值为0.5，则一旦计算得到的IOU距离值大于0.5，则认为此box属于正确的目标，并将该box包含的目标位置和特征信息存储下来，作为初始的目标检测结果。

步骤2的具体过程为：

步骤2.1，输入测试图片，并将图片归一化到跟YOLO模型输入一样的尺寸(416x416)；

步骤2.3，通过YOLO模型卷积层提取特征图片，生成特征图；

由于环境的复杂性，检测模块可能检测到多个目标，而有些目标是没有跟踪需求的伪目标。为了去除伪目标并跟踪真实目标，需要从连续帧数据关联的角度出发，确认最终目标。

首先，从当前帧检测后有目标的图像中，提取不同目标二值化后的坐标数据点(将目标点，标记为1，将非目标点，标记为0)，并统计目标点数目；接着，从聚类的角度出发，将所有统计过的坐标点，按照设定的距离条件(两个像素点距离，本发明取5)分成多个目标块，并把不满足聚类条件(目标块的宽高、宽高比以及目标块内的目标点数。其中，预设宽高取值范围为[1,4],预设宽高比例的取值范围为[0.25，2.5]，预设目标点数的取值范围为[1，10])的目标点数据进行去除；在获得聚类后的目标块后，通过前后帧目标的互相关信息进行目标匹配。

在已知的阈值条件下，如果后帧图像存在跟前一帧图像匹配成功的目标块，则将前一帧图像中对应的目标块，替换为当前帧图像的目标快信息，否则，分别保存当前帧和前一帧图像中的目标块信息；最后，通过目标确认的帧数阈值(本发明取阈值帧数为3)条件，对目标块进行删除，并最终确认需要跟踪的目标。

步骤3的具体过程如下：

步骤3.2，按照聚类设置的距离条件(两个像素点距离，本发明取5)，将所有统计过的目标点，分成多个目标块；

步骤3.3，将不满足设置的聚类条件(目标块的宽高、宽高比以及目标块内的目标点数。其中，预设宽高取值范围为[1,4],预设宽高比例的取值范围为[0.25，2.5]，预设目标点数的取值范围为[1，10])的目标点数据进行清除；

其中，I₁和I₂分别表示两个目标块对应的图像区域，

表示点乘运算；

步骤3.5，利用步骤3.4计算的互相关信息和设置的阈值条件(本发明取0.6)，进行目标块匹配：如果后帧图像存在跟前一帧图像匹配成功的目标块，则将前一帧图像中对应的目标块，替换为当前帧图像的目标块信息(目标的横纵坐标和宽高)，否则，分别保存当前帧和前一帧图像中的目标块信息；

步骤3.6，通过目标确认的帧数阈值(本发明取阈值帧数为3)条件，对保留下的目标块帧数进行判断，如果帧数小于阈值进行对应的目标块删除，反之，确认该目标块为最终需要跟踪的目标。

步骤4，将数据关联后的目标信息输入跟踪模块；

现存的大部分跟踪方法用的是CNN(Convolutional Neutral Network,即卷积神经网络)，把它用到每一帧，通过检测的方式来完成目标跟踪的目的，计算代价比较高，所以有必要引入跟踪模块。为了结合空间和时间信息，需要将在时间上变化的目标空间特征输入到跟踪模块，这个空间特征包括在卷积层提取到的特征向量，和在全连接层预测到的目标初步位置信息。另外，为了将这些序列特征进行有选择性的记忆加权，需要不断输入跟踪模块自身的状态信息，以对输入特征进行映射判断。

具体输入到跟踪模块的目标信息如下：

1)检测模块卷积层的视觉特征表达，和全连接层的目标检测信息；

2)跟踪模块自身在上一个时间步的输出状态信息；

传统的RNNS(Recurrent Neural Networks,即循环神经网络)由于梯度爆炸、梯度消失或者时间的推移，而不能访问远程上下文相关信息。相比之下，LSTM能够通过记忆细胞、门状态，模拟自学习的上下文信息。LSTM的主要创新是依托门状态的存储单元c_t，本质上充当状态信息的累加器。如果输入门i_t是激活的，每次输入的目标特征和位置信息会被累加到这个单元；如果遗忘门是激活的，过去单元c_t-1的信息就会被遗忘掉，最新单元c_t是否会被传播到最后门h_t，是由输出门o_t控制的。

本系统中，LSTM作为跟踪模块，在若干单元学习之后，将位置预测限定在特定的范围。假设σ＝(1+e^-x)^-1是使真实输入归一化到[0，1]的非线性激活函数，再假设

其中，x表示输入，则LSTM在时刻t并给定x_t,h_t-1,c_t-1的情况下，更新公式如下：

i_t＝σ(W_xix_t+W_hih_t-1+b_i) (8)；

f_t＝σ(W_xfx_t+W_hfh_t-1+b_f) (9)；

o_t＝σ(W_xox_t+W_hoh_t-1+b_o) (10)；

其中，i_t是输入门，σ和

是激活函数，x_t是当前时刻网络的输入值，h_t-1是上一时刻LSTM的输出值，W_xi是当前时刻输入门的权重矩阵，W_hi是上一时刻输出到当前时刻输入门的权重矩阵，b_i是输入门的偏置项；f_t是遗忘门，W_xf是当前时刻遗忘门的权重矩阵，W_hf是上一时刻输出到当前时刻遗忘门的权重矩阵，b_f是遗忘门的偏置项；o_t是输出门，W_xo是当前时刻输出门的权重矩阵，W_ho是上一时刻输出到当前时刻输出门的权重矩阵，b_o是输出门的偏置项，h_t是当前时刻LSTM的输出值，c_t-1是上一时刻的单元状态，c_t是当前时刻的单元状态，且c_t和h_t分别是长记忆和短记忆，C_t-1是上一时刻的状态信息，W_hc是当前时刻状态信息的权重矩阵，b_c是状态信息的偏置项，

是当前时刻状态信息的激活值。

步骤5.2，LSTM跟踪模块根据历史帧目标在时间上的变化过程，和自身网络模型在上一个时间步的输出状态信息，确定遗忘门、输入门、和输出门的权重以及偏置项；

步骤5.3，在遗忘门、输入门、和输出门经过激活函数

步骤6，根据跟踪结果输出当前帧图像中目标的运动信息。

将跟踪记忆回归得到的特定位置的目标信息，包括目标的位置、大小、类别信息输出。

为了验证算法的有效性，利用广泛的实验进行了评估。并跟传统算法跟踪器进行了结果比较，由于该模型的性能取决于目标检测YOLO部分，为了公平比较，选择默认的YOLO模型，作为对象检测器。

首先,为了验证本发明方法对不同类型目标在不同环境下跟踪的泛化性，取典型的复杂环境对本发明方法进行效果验证。其中，细线框表示传统算法结果，粗线框表示本发明算法结果，目标左上角的数字表示视频流帧数，左边的终端输出表示目标的真实位置和跟踪预测到位置结果。

目标车的遮挡：图3目标在运动过程中，遮挡比较严重。如果跟踪目标为车辆时，在未遮挡的第502帧时，两种算法都可以准确的跟踪车辆；当车辆被少部分遮挡时，第509帧虽然传统算法也可以跟踪目标，但是框的结果已经偏差很大；在完全遮挡的517帧，529帧，549帧时，传统算法已经完全失效，而本发明算法还可以准确的将目标位置恢复出来；直到车辆完全暴露的571帧时，两种算法结果才再次相当。表明该模型在遮挡挑战下成功跟踪目标；

尺度变化：图4目标在运动过程中，尺度变化非常明显。目标尺度在变化过程中，传统算法和本发明算法都可以跟踪到第21帧、40帧、127帧、185帧及197帧，虽然传统算法可以跟踪到大部分目标，但是偏离准确位置的差异很大；而且如果目标尺度变化非常大，第106帧传统算法失效，本发明算法结果准确。表明该模型对尺度变化有一定的泛化性；

其次，为了验证本发明在解决现场环境无人机目标由于遮挡跟踪丢失后的重新捕获效果，图5第23帧、87帧、126帧、259帧无人机目标在遮挡前和遮挡后，或者少部分遮挡时两种算法都可以跟踪目标；第56帧，172帧无人机完全被遮挡时本发明算法还可以较准确的跟踪到目标位置。表明该模型方法可以在无人机目标丢失后进行重新捕获跟踪。因为在YOLO检测模块将空间上的视觉特征传输给跟踪模块后，跟踪模块LSTM能够通过空间监督将时间序列上的视觉特征回归到区域推断。这些来自更高网络层激活获得的高级视觉特征，在目标遮挡时可以重构图像的颜色和粗略轮廓，并将它们回归为准确的位置预测。

最后，为了定量表明两种方法的优劣势，在本发明方法解决目标被遮挡丢失后的重新捕获跟踪问题后。表1，说明本发明算法不仅适应的场景变复杂，还可以提高检测跟踪算法对目标识别的准确率，以及可检测的最小尺寸。虽然跟踪时间有所增加，但是算法也可以达到实时的效果。

表1是传统算法跟本发明算法的定量比较表