CN110390294A

CN110390294A - 一种基于双向长短期记忆神经网络的目标跟踪方法

Info

Publication number: CN110390294A
Application number: CN201910656757.9A
Authority: CN
Inventors: 史殿习; 潘晨; 管乃洋; 夏雨生
Original assignee: National University of Defense Technology
Current assignee: National University of Defense Technology
Priority date: 2019-07-19
Filing date: 2019-07-19
Publication date: 2019-10-29
Anticipated expiration: 2039-07-19
Also published as: CN110390294B

Abstract

本发明公开了一种基于双向长短期记忆神经网络的目标跟踪方法，目的是提高目标识别准确率。技术方案是先构建由特征提取模块、目标检测模块、特征拼接模块、LSTM_f网络分支和LSTM_b网络分支、目标区域计算器构成的目标跟踪系统。然后选择OTB20作为对LSTM_f网络和LSTM_b网络的进行训练的训练数据集，采用边框回归方法对LSTM_f网络分支和LSTM_b网络分支进行训练，得到网络权重参数。最后采用目标跟踪系统对连续图像进行特征提取、目标检测，识别目标区域，训练后的LSTM_f网络分支和训练后的LSTM_b网络分支分别处理正向排序及反向排序的候选区域，目标区域计算器接收LSTM_f网络输出和LSTM_b网络输出，计算最终目标区域。本发明适合处理具有连续性的视频数据序列，目标跟踪准确率高。

Description

一种基于双向长短期记忆神经网络的目标跟踪方法

技术领域

本发明涉及计算机视觉目标跟踪领域，具体涉及一种基于双向长短期记忆神经网络对视频序列中目标进行跟踪的方法。

背景技术

视觉系统是人类同外界交互的主要感官系统之一，是人们获取信息，接受外界丰富资源的重要来源。视频中丰富的画面不仅能够人们带来各种视觉效果体验，还包含了大量的语义信息和特征内容，帮助人们理解视频所要传达的信息。在全球智能化及信息化的时代，视频数据的分析与处理技术一直是科学家们重点研究内容。人工智能技术的发展与硬件设备计算性能的提升，推动了计算机视觉领域图像处理、目标识别、视频分析等多项技术的深入研究。视频分析融合了计算机视觉领域的中层处理和高层处理阶段，即对图像进行处理，从而研究图像中物体目标的规律，或者为系统的决策提供语义或非语义的支持，包括运动检测、目标检测分类、目标跟踪、行为理解、事件监测等。

视频目标跟踪方法的研究与应用作为计算机视觉领域的一个重要分支，正日益广泛地应到人机交互、无人机设备、智能监控系统、无人驾驶等领域，因而目标跟踪方法成为热门研究的课题之一。目标跟踪是计算机视觉领域的一项重要任务。在计算机视觉领域，视觉跟踪一般是指对单目标的跟踪。具体来说，目标跟踪指的是，根据在第一帧图像中给定目标的回归框信息，实现预测后续每帧图像中目标的状态，对应目标的回归框信息。通过直观标注的目标信息，可以计算出目标物体的位置和尺度信息，生成持续不断的轨迹信息，方便后续的目标位置预测、轨迹预测、行为检测和异常分析等任务。目前城市安防系统中使用的智能监控系统中，目标跟踪技术正在被广泛应用，实现特定目标的追踪，特定目标的行为预测等任务。因此对目标跟踪技术展开研究是十分必要的。

目标跟踪算法主要分为两大类，经典的生成式算法和流行的判别式算法。经典的生成式算法使用基于概率密度分布、特征点光流或者粒子滤波，在跟踪效果的精度上有折损。判别式跟踪算法又称为检测式跟踪，算法训练一个检测器，对目标位置及尺度进行初步判断，再利用跟踪算法或者目标框回归算法给出最终的目标定位。基于深度学习的判别式跟踪算法利用神经网络提取的深层卷积特征，具有语义更加丰富、表达能力更强的特点。目标在实际场景下现实场景中存在主动性的不确定行为，导致了目标跟踪需要解决目标大小变化、外观变化、目标受遮挡、实时性需求和背景干扰等问题。目标跟踪技术面对的是实际场景中的情况，会因为光照、目标大小、旋转、移动速度等问题增加跟踪难度。

目标跟踪任务使用的视觉数据为视频数据，视频数据的时序特征能够提供更好的描述运动目标在时间上的连续性，提供更多的上下文信息。基于深度学习的跟踪算法能够对目标提取鲁棒的深度特征，利用深层特征的不变性提高检测率，但是当目标出现巨大形变或者出现遮挡的情况时，只利用目标的外观特征信息不能得到准确的目标定位，忽略了视频数据提供的目标的连续性动态特征。因此，利用视频连续性提供的更丰富的目标动态信息，有助于更准确地对目标行为进行下一步预测。

视频数据的连续性是分析特征的一个重要研究点。现有的目标跟踪算法致力于提取更加鲁棒的目标特征，提高目标在初步识别过程中的检测率，从而提高在后续的跟踪准确率。动态目标在视频中行为具有时间连续性，在连续的动态时空中不会出现较大波动，并且不管是从时间的正向序列还是反向序列来看，目标行为都具有连续性。目标在正向时间起始动作到终止动作，可以看作是倒叙时间中的终止动作和起始动作。利用正反向时序中目标连续信息，能够有效地提高在视频数据中目标的位置判断及行为轨迹预测结果。

因此，如何充分利用视频数据的时序信息，结合正反向时间序列中目标的动态连续性，提供一种鲁棒的目标跟踪方法，是本领域技术人员正在探讨的热点问题。

发明内容

本发明要解决的技术问题是提供一种基于双向长短期记忆神经网络的目标跟踪方法。此方法基于深度学习检测式判别框架，利用视频数据的时序信息，提高目标识别的准确率，实现当目标出现外观形变、大小变化和漂移等情况时，仍然能够有效跟踪目标的要求。

为解决上述技术问题，本发明技术方案是先构建由特征提取模块、目标检测模块、特征拼接模块、LSTM_f网络分支和LSTM_b网络分支、目标区域计算器构成的目标跟踪系统。然后选择OTB20作为对LSTM_f网络和LSTM_b网络的进行训练的训练数据集，采用边框回归方法对LSTM_f网络分支和LSTM_b网络分支进行训练，得到网络权重参数。最后采用目标跟踪系统对连续图像进行特征提取、目标检测，识别目标区域，训练后的LSTM_f网络分支和训练后的LSTM_b网络分支分别处理正向排序及反向排序的候选区域，目标区域计算器接收LSTM_f网络输出和LSTM_b网络输出，计算最终目标区域。

本发明主要包括以下具体步骤：

第一步：构建目标跟踪系统。该系统由特征提取模块、目标检测模块、特征拼接模块、 LSTM_f正向长短时记忆循环网络(以下简称LSTM_f网络)分支和LSTM_b反向长短时记忆循环网络(以下简称LSTM_b网络)分支、目标区域计算器构成。

特征提取模块为卷积神经网络(称为netl)，此网络共包含24个卷积层，4个池化层和1个全连接层，共29层。池化层分别为第2、4、9、20层，全联接层为第29层，其它层均为卷积层。特征提取模块接收来自图像集合I中的连续图像，对I中图像进行特征提取，得到抽象特征图集合F(I)。I＝{i₁，i₂，…，i_t，...，i_n}，共有n张图像，图像之间具有时间连续性，i_t为图像集合I中第t张图像，也为it-1的下一帧图像。n张抽象特征图构成抽象特征图集合，F(I)＝{F(i₁)，F(i₂)，…，F(i_t)，…，F(i_n)}，F(i_t)为i_t的抽象特征图。

目标检测模块是YOLO检测网络(见文献“You Only Look Once：Unified，Real-Time Object Detection[J].2015.”Redmon J，Divvala S等人的论文：你只需要查看一次：统一的、实时目标检测)。目标检测模块从特征提取模块接收抽象特征图集合F(I)，对F(I)中的抽象特征图逐张进行目标检测，得到最佳候选目标区域集合C。C＝(c₁，c₂，...，c_t，...，c_n)，c_t为图像集合I中第t张图像i_t上的最佳候选目标区域。

特征拼接模块将来自F(I)中的抽象特征图F(i_t)和C中的目标区域c_t结合，得到带有上下文特征的目标区域d_t。n个带有上下文特征的目标区域构成目标区域集合D， D＝(d₁，d₂，...，d_t，...，d_n)。因为I的图像具有时间连续性，D中带有上下文特征的目标区域与I中图像一一对应，所以从d₁到d_n也具有时间时间连续性。

LSTM_f网络和LSTM_b网络为并行的两个分支，LSTM_f网络分支接收来自目标区域集合D中正序的连续多个目标区域，输出预测目标区域l^f；LSTM_b网络分支接收来自目标区域集合D中倒序的连续多个目标区域，输出目标预测区域l^b。LSTM_f网络分支和LSTM_b网络分支结构相同，都包含三个全连接层，第一层为输入层，第二层为隐含层，第三层为输出层。输入层、隐含层使用长短期记忆网络单元(以下称为LSTM单元)(见文献“Long short-termmemory.[J].Neural Computation，1997，9(8)：1735-1780.”，Hochreiter S、SchmidhuberJ.和 Girshick R等人的论文：长短期记忆网络)构建，包含5100个LSTM单元。

目标区域计算器接收LSTM_f网络输出和LSTM_b网络输出，计算最终目标区域L。

第二步：准备LSTM_f网络分支和LSTM_b网络分支需要的训练数据。目标跟踪系统中的特征提取模块接收训练数据集中图片，得到训练数据集中图片的抽象特征图；目标检测模块在抽象特征图上做检测，提取抽象特征图的最佳目标候选区域，特征拼接模块将最佳目标候选区域与该最佳目标候选区域所属训练数据集图片的抽象特征图拼接，得到带有上下文特征的目标候选区域集合。具体方法为：

2.1选择来自OTB100中的20个图像集(称为OTB20)，作为对LSTM_f网络和LSTM_b网络的进行训练的训练数据集，OTB100指Online Tracking Benchmark Dateset(见文献“Wu Y，Lim J，Yang M H.Online object tracking：A benchmark[C]//Proceedings of the IEEEconference on computer vision and pattern recognition.2013：2411-2418”，吴毅的论文：在线对象跟踪：一项基准测评)中的100个图像集合。OTB20包含I₁，I₂，…，I_m，…，I₂₀20个图像集合以及对应的图像中真实目标区域的回归框集合G₁，G₂，...，G_m，...，G₂₀，m为整数，1≤m≤20。 I_m中的图片具有时间上的连续性，表示I_m在第j张(也即j时刻) 的图片，1≤j≤n，n是I_m中图片的张数(即I_m共有n个时刻)。从到连续播放可构成一个完整的视频。G＝{g₁，g₂，...，g_j，...，g_n}，g_j表示I_m中第j时刻图片的真实目标区域回归框，为包含四个值的一维向量，表示目标区域回归框中心相对于图像边界的坐标值，表示目标区域的宽度和高度，四个值均为标量，四个值表示出了一个矩形的目标区域。

2.2特征提取模块对I₁，I₂，...，I_m，...，I₂₀中的图像进行特征提取。特征提取模块共包含24个卷积层，4个池化层和1个全连接层，共29层。池化层分别为第2、4、9、20层，全联接层为第29层，其它层均为卷积层。其中，卷积层对I_m中图像通过卷积方式进行特征提取，池化层对前一层输出(若池化层为第25层，则前一层指神经网络的第24层。)进行最大特征提取，全连接层(图1中的fc29)将前一层输出特征汇总(见文献“Fast R-CNN[J].ComputerScience，2015”，Girshick R.的论文：基于区域的快速卷积神经网络的第2页)，得到 I₁，I₂，…，I_m，…，I₂₀相应的特征图集合序列F(I₁)，F(I₂)，...，F(I_m)，...，F(I₂₀)，并将 F(I₁)，F(I₂)，...，F(I_m)，...，F(I₂₀)发送到目标检测模块，表示图像集I_m中第j张图片对应的抽象特征图。由于目标在连续图像中的行为存在密切相关性，所以整张图片的特征对于判断目标位置提供了有效信息。在这里抽象特征图包含了目标相关关键信息及上下文信息。

2.3目标检测模块对F(I₁)，F(I₂)，...，F(I_m)，...，F(I₂₀)中的抽象特征图做检测，得到最佳目标候选区域集合序列C(I₁)，C(I₂)，...，C(I_m)，...，C(I₂₀)。

具体方法为：

2.3.1初始化m＝1；

2.3.2目标检测模块对F(I_m)中的特征图进行目标检测，得到候选框集合序列具体方法为：

2.3.2.1初始化j＝1；

2.3.2.2目标检测模块对进行目标检测(YOLO检测网络的主要功能即是进行目标检测)，得到候选框集合 p_i表示特征图上的第i个候选框，i为正整数，1≤i≤98。

2.3.2.3令j＝j+1，如果j≤n，转2.3.2.2，否则说明已经检测出F(I_m)中所有特征图中的候选框，得到候选框集合序列转2.3.3。

2.3.3目标检测模块采用非极大抑制方法即NMS方法(Non-Maximum Suppression，方法，见文献“Efficient Non-Maximum Suppression.”18th International Conferenceon Pattern Recognition(ICPR′06)3(2006)：850-855，Neubeck，Alexander和Luc VanGool的论文：有效的非极大抑制方法)，计算候选框集合序列中的最佳候选区域，得到最佳候选区域集合表示图像集I_m中第j张(即j 时刻)图像上的最佳候选区域。具体方法为：

2.3.3.1初始化j＝1；

2.3.3.2目标检测模块使用NMS方法计算中最佳候选区域，得到加入到最佳候选区域集合C(I_m)中；

2.3.3.3令j＝j+1，如果j≤n，转2.3.3.2；否则，说明已经计算出所有候选框集合中的最佳候选区域，得到了C(I_m)，转2.3.4。

2.3.4令m＝m+1，如果m≤20，转2.2.2步；如果m＞20，说明 F(I₁)，F(I₂)，...，F(I_m)，...，F(I₂₀)中的所有特征图都已由目标检测模块提取出最佳候选区域，得到了最佳目标候选区域序列C(I₁)，C(I₂)，...，C(I_m)，...，C(I₂₀)，转步骤2.4。

2.4特征拼接模块将C(I₁)，C(I₂)，...，C(I_m)，...，C(I₂₀)中的最佳目标候选区域与F(I₁)，F(I₂)，...，F(I_m)，...，F(I₂₀)中的最佳候选区域拼接，得到带有上下文特征的目标候选区域序列D¹，D²，...，D^m，...，D²⁰。具体方法是：

2.4.1初始化m＝1；

2.4.2特征拼接模块将C(I_m)中的最佳候选区域与F(I_m)中的抽象特征图分别拼接，即将与拼接得到图片集合I_m中1时刻图片的带有上下文特征的目标候选区域将与拼接得到图片集合I_m中j时刻图片的带有上下文特征的目标候选区域将与拼接得到图片集合I_m中n时刻图片的带有上下文特征的目标候选区域由此得到带有上下文特征的目标候选区域集合D^m，图像集合I_m中有n张图片，即D^m中有n个目标区域。

2.4.3令m＝m+1，如果m≤20，转步骤2.4.2；否则说明训练数据集OTB20中的20 个图像集合都经过了特征提取模块和目标检测模块，得到了对应的带有上下文特征的目标候选区域序列D¹，D²，...，D^m，...，D²⁰，将D¹，D²，...，D^m，...，D²⁰即20个目标候选区域集合发送给 LSTM_f网络分支和LSTM_b网络分支，转第三步。

第三步：使用边框回归方法(见文献“You Only Look Once：Unified，Real-TimeObject Detection[J].2015.”Redmon J，Divvala S等人的论文：你只需要查看一次：统一的、实时目标检测)对输入为D¹，D²，...，D^m，...，D²⁰的LSTM_f网络分支和LSTM_b网络分支进行训练，得到网络权重参数。

具体方法如下：

3.1初始化权重参数，将LSTM_f网络分支权重参数集合中所有元素值都初始化为[0，1]之间的随机数；将LSTM_b网络分支权重参数集合中所有元素值都初始化为[0，1]之间的随机数。

表示LSTM_f网络分支输入层的权重参数，表示LSTM_f网络分支隐含层的权重参数，表示LSTM_f网络分支输出层的权重参数；表示LSTM_b网络分支输入层的权重参数，表示LSTM_b网络分支隐含层的权重参数，表示LSTM_b网络分支输出层的权重参数。

3.2设置网络训练参数：网络模型学习率(leamingRate)、批处理尺寸(batchsize)网络步长(numStep)长numstep为在范围[4，9]内的正整数，实验证明，leamingRate＝0.00001， batchsize＝1，numStep＝6时，跟踪到目标的准确率最高。

3.3迭代计算LSTM_f网络分支输出和LSTM_b网络分支输出的差距及两分支网络输出均值与真实目标区域差距，得到损失值，最小化损失值并更新网络参数，直到满足迭代次数要求，得到权重参数。具体方法如下：

3.3.1初始化训练迭代参数itretation＝1；

3.3.2如果itretation≤迭代阈值K，K是[1，100]内的整数，(实验证明，训练迭代30(即K为30)时，跟踪到目标的准确率最高)，执行3.3.3步；否则说明训练满足迭代次数要求，训练结束，将训练后的做为LSTM_f网络分支的权重参数集合，将训练后的作为LSTM_b网络分支的权重参数集合，转第四步。

3.3.3 LSTM_f网络分支接收D¹，D²，...，D^m，...，D²⁰，处理正向排序的带有上文特征的候选区域，得到正向预测的目标区域回归框初值集合 LSTM_b网络分支接收集合D¹，D²，...，D^m，...，D²⁰，处理反向排序的带有上文特征的候选区域，得到反向预测的目标区域回归框初值集合计算LSTM_f网络分支和LSTM_b网络分支输出回归框初值之间的差距，以及两个网络分支均值与真实目标区域回归框的差距，得到损失值，使用优化算法缩小损失值，更新一次网络权重，具体方法如下：

3.3.3.1初始化m＝1，

3.3.3.2 LSTM_f网络分支接收D^m中的候选区域，输出预测目标区域回归框初值，组成预测目标区域回归框集合LSTM_b网络分支接收D^m中的候选区域，输出预测目标区域回归框初值，组成预测目标区域回归框集合具体方法如下：

3.3.3.2.1初始化t＝0；

3.3.3.2.2 LSTM_f网络分支从D^m中取出连续numstep个候选区域将从开始到为止的numstep个候选区域依次输入到LSTM_f网络分支中，得到LSTM_f在t+numstep时刻对目标区域的预测回归框初值将放到集合中。为包含四个值的一维向量，表示正向预测目标区域回归框中心相对于图像边界的坐标值，表示正向预测目标区域回归框的宽度，表示正向预测目标区域回归框的高度，四个值表示出了一个矩形的目标区域。

3.3.3.2.3 LSTM_b网络分支将支转，得到将从d_t+numstep开始到d_t+1为止的numstep个候选区域依次输入到LSTM_b分支中，得到网络LSTM_b网络分支在t+numstep时刻对目标区域的预测回归框初值将放到集合中。为一维向量。表示反向预测目标区域回归框中心相对于图像边界的坐标值，表示反向预测目标区域回归框的宽度，表示反向预测目标区域回归框的高度，四个值表示出了一个矩形的目标区域。

3.3.3.2.4令t＝t+1，如果t≤n-numstep，转3.3.2.2步；否则说明已经根据D^m中候选区域经过LSTM_f网络分支得到目标区域回归框初始集合同时经过LSTM_b网络分支目标区域回归框初始集合执行第 3.3.2.2.5步。

3.3.3.2.5令(即令的值与的值相同)，将加入到中；令将加入到(由于数据集为视频数据，拆分为图片后连续紧密。对于短暂的numstep个时刻，目标位置及大小变化微小，所以可以令前numstep-1个时刻的目标位置与numstep时刻的目标位置相同。)得到正向目标区域回归框预测初值集台和反向目标区域回归框预测初值集合

3.3.3.3计算误差值Loss，令其中，体现了正向预测回归框初值与反向预测回归框初值的平均预测值，为j时刻目标区域回归框的真值。MSE(·)为计算两个输入的均方误差的函数，

3.3.3.4使用Adam优化算法对误差值Loss最小化以更新网络权重参数(见文献“Kingma D P，Ba J.Adam：Amethod for stochastic optimization[J].arXiv preprintarXiv：1412.6980，2014”， Kingma的论文：Adam，一种随机优化方法)。

3.3.3.5令m＝m+1，如果m≤20，转步骤3.3.3.2；否则，说明D¹，D²，...，D^m，...，D²⁰都经过了LSTM_f网络分支和LSTM_b网络分支处理，集合及中的权重参数值都得到一次更新，转步骤3.3.2。

第四步：目标跟踪系统对图像集合I中连续图像进行特征提取、目标检测，识别目标区域。

4.1特征提取模块接收来自图像集合I中的连续图像，对图像进行特征提取，得到抽象特征图集合F(I)。令I＝{i₁，i₂，...，i_t，...，i_n}，共有n张图像，图像之间具有时间连续性，i_t为 i_t-1的下一帧图像。特征提取模块对n张图像进行特征提取，得到n张抽象特征图。n张抽象特征图构成抽象特征图集合F(I)，F(I)＝{f₁，f₂，...，f_j，...，f_n}，f_i是维度为1×4096的向量。

4.2目标检测模块接收来自特征提取模块的抽象特征图集合F(I)，对F(I)中的抽象特征图逐张进行目标检测，得到最佳候选目标区域集合C(I)。C(I)＝{c₁，c₂，...，c_j，...，c_n}，C(I)中包含n张抽象特征图上的目标区域。具体方法为：

4.2.1目标检测模块对F(I)中的特征图进行目标检测，得到第二候选框集合序列P(f₁)，P(f₂)，...，P(f_j)，...，P(f_n)，具体方法为：

4.2.1.1初始化j＝1；

4.2.1.2目标检测模块对特征图f_j进行目标检测，得到候选框集合P(f_j)，P(f_j)＝{p₁，p₂，...，p_i，...，p₉₈}，p_i表示特征图f_j上的第i个候选框，i为正整数，1≤i≤98。

4.2.1.3令j＝j+1，如果j≤n，转4.2.1.2，否则说明已经检测出所有的特征图中的候选框，得到第二候选框集合序列P(f₁)，P(f₂)，...，P(f_j)，...，P(f_n)。转步骤4.2.2。

4.2.2目标检测模块采用非极大抑制方法即NMS方法计算第二候选框集合序列 P(f₁)，P(f₂)，...，P(f_j)，...，P(f_n)中的最佳候选区域，得到最佳候选区域集合C(I)＝ {c₁，c₂，...，c_j，...，c_n}，c_j表示图像集I中第j张(即j时刻)图像上的最佳候选区域。具体方法如下：

4.2.2.1初始化j＝1；

4.2.2.2目标检测模块使用NMS方法计算P(f_j)中最佳候选区域，得到c_j，加入到最佳候选区域集合C(I)中；

4.2.2.3令j＝j+1，如果j≤n，转4.2.2.2；否则，说明已经计算出所有候选框集合中的最佳候选区域，得到C(I)。转步骤4.3。

4.3特征拼接模块将F(I)＝{f₁，f₂，...，f_j，...，f_n}中的抽象特征图和C(I)＝{c₁，c₂，...，c_j，...，c_n} 中的最佳目标候选区域拼接，得到带有上下文特征的目标区域集合D＝{d₁，d₂，...，d_t，...，d_n}， 1≤t≤n。具体方法如下：

4.3.1初始化j＝1；

4.3.2特征拼接模块将抽象特征图f_j与最佳目标候选区域c_j拼接(即将表示f_j的数值向量与表示c_j的数值向量首尾串联)，得到上下文特征的目标区域d_j，将d_j加入到集合D中。

4.3.3令j＝j+1，如果j≤n，转4.3.2；否则，说明已经将F(I)中的抽象特征图与C(I)中的最佳目标候选区域拼接完成，转步骤4.4。

4.4 LSTM_f网络载入训练后的W^f中的网络权重参数，LSTM_b网络分支载入训练后的W^b中的网络权重参数。

4.5初始化t＝1；

4.6 LSTM_f网络分支执行4.6.1步，处理D的正向序列输入得到候选区域中的目标区域回归框；同时LSTM_b网络分支执行4.6.2步，处理D的反向序列输入得到候选区域中的目标区域回归框：

4.6.1 LSTM_f网络分支接收集合D，将D中的连续numstep个候选区域 d_t，d_t+1，…，d_t+numstep-1，从d_t到d_t+numstep-1依次输入到LSTM_f网络分支中，得到LSTM_f在t+ numstep-1时刻对目标区域的预测回归框将放到集合L^f中。为包含四个值的一维向量，表示目标区域回归框中心相对于图像边界的坐标值，表示目标区域回归框的宽度和高度，四个值表示出了一个矩形的目标区域。

4.6.2 LSTM_b网络分支接收集合D，将d_t，d_t+1，…，d_t+numstep-1反转，得到序列d_t+numstep-1，d_t+4，…，d_t，将从d_t+numstep-1开始到d_t为止的numstep个候选区域依次输入到LSTM_b分支中，得到LSTM_b网络分支在t+numstep-1时刻对目标区域回归框的预测将放到L^b中。为一维向量，表示目标区域左上角的坐标值，表示目标区域的宽度和高度四个值均为标量，四个值表示出了一个矩形的目标区域。

4.7目标区域计算器计算最终目标区域，得到目标区域集合L。计算器计算表示最终预测目标区域回归框中心点横坐标值，表示最终预测目标区域回归框中心点横坐标值；表示最终预测目标区域回归框的宽度，表示最终预测目标区域回归框的高度。令l_t+numstep-1表示目标区域在 I中t+numstep-1时刻图像中的最终预测，l_t+numstep-1＝ [x_t+numstep-1，y_t+numstep-1，w_t+numstep-1，h_t+numstep-1]，将l_t+numstep-1加入到集合L中。

4.8令t＝t+1，如果t≤n-numstep，转4.6步；否则说明预测出图像集合I中从 t+numstep-1时刻到n时刻的目标区域回归框，得到集合L，L＝l_numstep，l_numstep+1，...，l_n。执行第4.9步。

4.9令l₁，l₂，...，l_numstep-1＝l_numstep，将l₁，l₂，...，l_numstep-1加入到L中，得到包含所有时刻的最终目标区域回归框预测的集合L，L＝l₁，l₂，...，l_n(由于数据集为视频数据，拆分为图片后连续紧密。对于短暂的6个时刻，目标位置变化微小，所以可以令前5个时刻的目标位置与6时刻的目标位置相同)。将L中的目标区域回归框可视化在图像集合I中对应的图像上后，图像逐帧播放，可看到目标在每帧中都被矩形框框出，即目标跟踪的效果。

采用本发明可以达到以下技术效果：

1.本发明第一步构建了一个完整的目标跟踪系统，融合了特征提取模块、目标检测模块、特征拼接模块、LSTM_f正向长短时记忆循环网络(以下简称LSTM_f网络)分支和LSTM_b反向长短时记忆循环网络(以下简称LSTM_b网络)分支、目标区域计算器。选择了OTB100 当中的的具有代表性的20个视频作为训练LSTM_f网络分支和LSTM_b网络分支的数据。首先特征提取模块对输入数据进行了抽象特征图的提取，目标检测模块在特征图上对目标位置做出母检测，构建了最佳候选区域C(I)，为跟踪系统输出最终目标预测提供了判断辅助作用；特征拼接模块将C(I)与抽象特征图结合得到D。D中不仅包含目标区域最佳候选区域，也包含了图像的抽象特征图，增加了训练数据的丰富性，并且使得LSTM_f网络分支和LSTM_b网络分支有更多目标区域相关的有效信息可以利用，使得目标跟踪准确率较背景技术所述目标跟踪方法有所提高。

2.本发明第三步使用边框回归方法，结合LSTM网络能够处理连续性输入的特性，迭代训练网络，使输出与真值不断拟合，得到了可以准确预测目标区域回归框的两个网络分支。LSTM_f网络分支处理按照时间正序排列的输入数据(此网络分支根据目标在连续numStep个时刻图片中的正向运动轨迹，判断第6时刻的目标区域)，同时LSTM_b网络分支分支处理按照时间倒序排列的输入数据(此网络分支根据目标在连续6个时刻图片中的反向运动轨迹，判断第numStep时刻的目标区域)，综合两个分支在不同的输出，得到图像中目标区域的最终准确预测，进一步提高了跟踪准确性。

3.本发明使用长短期记忆网络(LSTM网络)构建了两个分支，LSTM网络通过存储在一段连续输入数据之间的关联性，处理具有时间连续性的图片(图像中的逐帧图片)。(见文献“Long short-term memory.[J].Neural Computation，1997，9(8)：1735-1780.”，Hochreiter S、 Schmidhuber J.和Girshick R等人的论文：长短期记忆网络)，使得本发明更适合处理具有连续性的视频数据序列。

附图说明：

图1为本发明整体流程图。

图2为本发明第一步构建的目标跟踪系统逻辑结构图。

图3为本发明第四步目标跟踪系统对图像集合I中连续图像进行特征提取、目标检测，识别目标区域的流程图。

图4为本发明目标区域重叠率示意图：图4(a)是步长numstep与准确率关系示意图，图4(b)是步长numstep与算法运行速度关系示意图。

图5为本发明与其他目标跟踪方法OPE、TRE、SRE值对比图。图5(a)是一次通过评估(OPE)成功率输出随设定阈值变化示意图，图5(b)是空间鲁棒性评估(SRE)成功率随设定阈值变化的示意图，图5(c)是时间鲁棒性评估(TRE)成功率随设定阈值变化的示意图。

具体实施方式

图1是本发明总体流程图；如图1所示，本发明包括以下步骤：

第一步：构建目标跟踪系统。如图2所示，目标跟踪系统由特征提取模块、目标检测模块、特征拼接模块、LSTM_f网络分支和LSTM_b网络分支、目标区域计算器构成。

特征提取模块为卷积神经网络，此网络共包含24个卷积层，4个池化层和1个全连接层，共29层。池化层分别为第2、4、9、20层，全联接层为第29层，其它层均为卷积层。特征提取模块接收来自图像集合I中的连续图像，对I中图像进行特征提取，得到抽象特征图集合F(I)。I＝{i₁，i₂，…，i_t，...，i_n}，共有n张图像，图像之间具有时间连续性，i_t为图像集合I中第t张图像，也为i_t-1的下一帧图像。n张抽象特征图构成抽象特征图集合，F(I)＝ {F(i₁)，F(i₂)，…，F(i_t)，…，F(i_n)}，F(i_t)为i_t的抽象特征图。

目标检测模块是YOLO检测网络，目标检测模块从特征提取模块接收抽象特征图集合 F(I)，对F(I)中的抽象特征图逐张进行目标检测，得到最佳候选目标区域集合C。 C＝(c₁，c₂，...，c_t，...，c_n)，c_t为图像集合I中第t张图像i_t上的最佳候选目标区域。

特征拼接模块将来自F(I)中的抽象特征图F(i_t)和C中的目标区域c_t结合，得到带有上下文特征的目标区域d_t。n个带有上下文特征的目标区域构成目标区域集合D， D＝(d₁，d₂，...，d_t，...，d_n)。

LSTM_f网络和LSTM_b网络为并行的两个分支，LSTM_f网络分支接收来自目标区域集合D中正序的连续多个目标区域，输出预测目标区域l^f；LSTM_b网络分支接收来自目标区域集合D中倒序的连续多个目标区域，输出目标预测区域l^b。LSTM_f网络分支和LSTM_b网络分支结构相同，都包含三个全连接层，第一层为输入层，第二层为隐含层，第三层为输出层。输入层、隐含层使用LSTM单元构建，包含5100个LSTM单元。

2.1选择OTB20作为对LSTM_f网络和LSTM_b网络的进行训练的训练数据集，OTB20 包含I₁，I₂，…，I_m，…，I₂₀20个图像集合以及对应的图像中真实目标区域的回归框集合 G₁，G₂，...，G_m，...，G₂₀，m为整数，1≤m≤20。I_m中的图片具有时间上的连续性，表示I_m在第j张(也即j时刻)的图片，1≤j≤n，n是I_m中图片的张数(即I_m共有n个时刻)。从到连续播放可构成一个完整的视频。G＝{g₁，g₂，...，g_j，...，g_n}，g_j表示I_m中第i时刻图片的真实目标区域回归框，为包含四个值的一维向量，表示目标区域回归框中心相对于图像边界的坐标值，表示目标区域的宽度和高度，四个值均为标量。

2.2特征提取模块对I₁，I₂，...，I_m，...，I₂₀中的图像进行特征提取。特征提取模块的卷积层对 Im中图像通过卷积方式进行特征提取，池化层对前一层的输出进行最大特征提取，全连接层(图1中的fc29)将前一层输出特征汇总，得到I₁，I₂，…，I_m，…，I₂₀相应的特征图集合序列 F(I₁)，F(I₂)，...，F(I_m)，...，F(I₂₀)，并将F(I₁)，F(I₂)，...，F(I_m)，...，F(I₂₀)发送到目标检测模块，表示图像集I_m中第j张图片对应的抽象特征图。由于目标在连续图像中的行为存在密切相关性，所以整张图片的特征对于判断目标位置提供了有效信息。在这里抽象特征图包含了目标相关关键信息及上下文信息。

具体方法为：

2.3.1初始化m＝1；

2.3.2.1初始化j＝1；

2.3.2.2目标检测模块对进行目标检测，得到候选框集合 p_i表示特征图上的第i个候选框，i为正整数，1≤i≤98。

2.3.3目标检测模块采用非极大抑制方法即NMS方法，计算候选框集合序列中的最佳候选区域，得到最佳候选区域集合表示图像集I_m中第j张图像上的最佳候选区域。具体方法为：

2.3.3.1初始化j＝1；

2.4.1初始化m＝1；

2.4.2特征拼接模块将C(I_m)中的最佳候选区域与F(I_m)中的抽象特征图分别拼接，即将与拼接得到图片集合I_m中1时刻图片的带有上下文特征的目标候选区域…，将与拼接得到图片集合I_m中j时刻图片的带有上下文特征的目标候选区域…，将与拼接得到图片集合I_m中n时刻图片的带有上下文特征的目标候选区域由此得到带有上下文特征的目标候选区域集合D^m，图像集合I_m中有n张图片，即D^m中有n个目标区域。

第三步：使用边框回归方法对输入为D¹，D²，...，D^m，...，D²⁰的LSTM_f网络分支和LSTM_b网络分支进行训练，得到网络权重参数。

具体方法如下：

3.2设置网络训练参数：leamingRate＝0.00001，batchsize＝1，numStep＝6。

3.3.1初始化训练迭代参数itretation＝1；

3.3.2如果itretation≤30，执行3.3.3步；否则说明训练满足迭代次数要求，训练结束，将训练后的做为LSTM_f网络分支的权重参数集合，将训练后的作为LSTM_b网络分支的权重参数集合，转第四步。

3.3.3.1初始化m＝1，

3.3.3.2.1初始化t＝0；

3.3.3.2.2 LSTM_f网络分支从D^m中取出连续numstep个候选区域将从开始到为止的numstep个候选区域依次输入到LSTM_f网络分支中，得到 LSTM_f在t+numstep时刻对目标区域的预测回归框初值将放到集合中。为包含四个值的一维向量，表示正向预测目标区域回归框中心相对于图像边界的坐标值，表示正向预测目标区域回归框的宽度，表示正向预测目标区域回归框的高度，四个值表示出了一个矩形的目标区域。

3.3.3.2.3 LSTM_b网络分支将反转，得到将从d_t+numstep开始到d_t+1为止的numstep个候选区域依次输入到LSTM_b分支中，得到网络LSTM_b网络分支在t+numstep时刻对目标区域的预测回归框初值将放到集合中。为一维向量。表示反向预测目标区域回归框中心相对于图像边界的坐标值，表示反向预测目标区域回归框的宽度，表示反向预测目标区域回归框的高度，四个值表示出了一个矩形的目标区域。

3.3.3.2.5令将加入到中；令将加入到得到正向目标区域回归框预测初值集合和反向目标区域回归框预测初值集合

3.3.3.3计算误差值Loss，令其中，体现了正向预测回归框初值与反向预测回归框初值的平均预测值，为j时刻目标区域回归框的真值。MSE(·) 为计算两个输入的均方误差的函数，

3.3.3.4使用Adam优化算法对误差值Loss最小化以更新网络权重参数。

4.2.1.1初始化j＝1；

4.2.1.3令j＝j+1，如果j≤n，转4.2.1.2，否则说明已经检测出所有的特征图中的候选框，得第二到候选框集合序列P(f₁)，P(f₂)，...，P(f_j)，...，P(f_n)。转步骤4.2.2。

4.2.2目标检测模块采用非极大抑制方法即NMS方法计算第二候选框集合 P(f₁)，P(f₂)，...，P(f_j)，...，P(f_n)中的最佳候选区域，得到最佳候选区域集合C(I)＝ {c₁，c₂，...，c_j，...，c_n}，c_j表示图像集I中第j张图像上的最佳候选区域。具体方法如下：

4.2.2.1初始化j＝1；

4.3.1初始化j＝1；

4.5初始化t＝1；

4.6.1 LSTM_f网络分支接收集合D，将D中的连续numstep个候选区域 d_t，d_t+1，…，d_t+numstep-1，从d_t到d_t+numstep-1依次输入到LSTM_f网络分支中，得到LSTM_f在t+ humstep-1时刻对目标区域的预测回归框将放到集合L^f中。为包含四个值的一维向量，表示目标区域回归框中心相对于图像边界的坐标值，表示目标区域回归框的宽度和高度，四个值表示出了一个矩形的目标区域。

4.9令l₁，l₂，...，l_numstep-1＝l_numstep，将l₁，l₂，...，l_numstep-1加入到L中，得到包含所有时刻的最终目标区域回归框预测的集合L＝1₁，l₂，...，l_n(由于数据集为视频数据，拆分为图片后连续紧密。对于短暂的6个时刻，目标位置变化微小，所以可以令前5个时刻的目标位置与6 时刻的目标位置相同)。将L＝l₁，l₂，...，l_n中的目标区域回归框可视化在图像集合I中对应的图像上后，图像逐帧播放，可看到目标在每帧中都被矩形框框出，即目标跟踪的效果。

随机选取来自OTB100中的30个视频作为跟踪测试数据集，对本发明进行了跟踪准确率(目标区域与实际目标区域的重叠率的表示跟踪准确率)测试，实验的软件系统环境为乌班图16.04版本(即Ubuntu 16.04，Linux系统的一个版本)，搭载英特尔Xeon Gold系列6154中央处理器，处理频率为3.0Hz，另外配有两块英伟达TITAN V图像处理器，核心频率为1200/1455MHz，显存容量为12GB。在本实验环境下，图4(a)表现出本发明的目标跟踪准确率与步长numstep之间的关系，横坐标是步长numstep值，纵坐标是跟踪准确率 (即预测目标区域与真实区域的比值)；图4(b)表现出在本发明的速度与步长numstep 之间的关系，横坐标是步长numstep，纵坐标是速度(即每秒处理图片的张数)。从图4(a) 可以看出，随着步长参数的增大，LSTM网络能够考虑更长时间的连续数据，准确率也逐渐增加；但是从图4(b)中看出，随着步长增大，LSTM网络需要处理的连续数据增加，方法运行速度减慢。所以得出结论，本发明(当步长(numstep)＝6时)取得跟踪准确率与速度的折中，达到实时的速率同时拥有较高的边框重叠率(IOU)。

采用图4的实验环境，比较本发明方法与STRUCK、OAB、TLD、LSR、CSK等目标跟踪算法的一次通过评估(OPE)成功率，时间鲁棒性评估(TRE)成功率和空间鲁棒性评估(SRE)成功率(三种评估指标见文献“Wu Y，Lim J，Yang M H.Online object tracking：Abenchmark[C]//Proceedings of the IEEE conference on computer vision andpattern recognition. 2013：2411-2418”，吴毅的论文：在线对象跟踪：一项基准测评)。图5为本发明与其他目标跟踪方法OPE、TRE、SRE值对比图。图5(a)是一次通过评估(OPE)成功率输出随设定阈值变化示意图，图5(b)是空间鲁棒性评估(SRE)成功率随设定阈值变化的示意图，图5(c)是时间鲁棒性评估(TRE)成功率随设定阈值变化的示意图。

三幅图中的图中横轴表示阈值，即跟踪方法输出的预测目标区域与真实目标区域的比值；纵轴均表示成功率，预测目标区域与真实目标区域比值超过此阈值为成功，成功预测的图片张数占总图片总数的比值，即成功率。阈值越大，说明要求跟踪方法预测的目标区域与真实目标区域重叠率越高，难度越大。图5(a)中OPE值表示计算一次预测区域与真实区域重叠比值，从图5(a)可以看出，在阈值大于0.5时，本发明较其他参与对比的方法(STRUCK、 OAB、LSK、TLD)有较高的成功率，在阈值大于0.5时(即要求预测目标区域与真实目标区域重叠率大于0.5的情况)，图中的算法都有较低的成功率，预测难度加大，实际情况中跟踪不要求标注出的目标区域大小完全和真实之一致，阈值在0.5时就可以展示出目标被跟踪出得的实际效果。图5(b)中的SRE值表示计算一次预测目标区域与一定范围内的真实目标区域重叠的成功率，第三步的训练使得网络分支结合两个方向的输出预测最终目标区域，在空间范围内做了折中，使得本发明较其他方法(STRUCK、YOLO+SORT、OAB、TLD)再多数阈值下的比较都具有更高的重叠率，说明本发明对于目标区域空间变化的情况有较好的预测结果；图5(c)中的TRE值表现了随时间推移进行连续12次预测目标区域与真实目标区域的重叠率计算，可以看出，本发明在阈值小于0.4时一直保持较高成功率。本发明利用LSTM长短时记忆网络对于处理具有连续性序列数据的优势，使得本发明较其他方法(OAB、CSK、OXT、YOLO)在本发明在阈值小于0.4时一直保持较高的成功率。当阈值大于0.4时，本发明不如其他算法优势明显，这是LSTM网络内部设计的复杂性造成的，有待进一步深入探索。但阈值小于0.4已经能够展现出目标被跟踪到的效果，满足目标跟踪的需求。

以上对本发明所提供的一种基于双向循环神经网络的跟踪方法进行了详细介绍。本文对本发明的原理及实施方式进行了阐述，以上说明用于帮助理解本发明的核心思想。应当指出，对于本技术领域的普通研究人员来说，在不脱离本发明原理的前提下，还可以对本发明进行若干改进和修饰，这些改进和修饰也落入本发明权利要求的保护范围内。

Claims

1.一种基于双向长短期记忆神经网络的目标跟踪方法，其特征在于包括以下步骤：

第一步：构建目标跟踪系统。该系统由特征提取模块、目标检测模块、特征拼接模块、LSTM_f正向长短时记忆循环网络分支和LSTM_b反向长短时记忆循环网络分支、目标区域计算器构成，LSTM_f正向长短时记忆循环网络简称LSTM_f网络，LSTM_b反向长短时记忆循环网络简称LSTM_b网络；

特征提取模块为卷积神经网络，此网络由卷积层、池化层和全连接层组成；特征提取模块接收来自图像集合I中的连续图像，对I中图像进行特征提取，得到抽象特征图集合F(I)；I＝{i₁，i₂，…，i_t，...，i_n}，共有n张图像，1≤t≤n，图像之间具有时间连续性，i_t为图像集合I中第t张图像，也为i_t-1的下一帧图像；F(I)＝{F(i₁)，F(i₂)，…，F(i_t)，…，F(i_n)}，F(i_t)为i_t的抽象特征图；

目标检测模块是YOLO检测网络，目标检测模块从特征提取模块接收抽象特征图集合F(I)，对F(I)中的抽象特征图逐张进行目标检测，得到最佳候选目标区域集合C，C＝(c₁，c₂...，.c_t，....，c_n)，c_t为i_t上的最佳候选目标区域；

特征拼接模块将来自F(I)中的抽象特征图F(i_t)和C中的目标区域c_t结合，得到带有上下文特征的目标区域d_t；n个带有上下文特征的目标区域构成目标区域集合D，D＝(d₁，d₂，...，d_t，...，d_n)；

LSTM_f网络和LSTM_b网络为并行的两个分支，LSTM_f网络分支接收来自目标区域集合D中正序的连续多个目标区域，输出预测目标区域l^f；LSTM_b，网络分支接收来自目标区域集合D中倒序的连续多个目标区域，输出目标预测区域l^b；LSTM_f网络分支和LSTM_b网络分支结构相同，都包含三个全连接层，第一层为输入层，第二层为隐含层，第三层为输出层；

目标区域计算器接收LSTM_f网络输出和LSTM_b网络输出，计算最终目标区域L；

第二步：准备LSTM_f网络分支和LSTM_b网络分支需要的训练数据，方法为：

2.1选择来自OTB100中的20个图像集即OTB20，作为对LSTM_f网络和LSTM_b网络的进行训练的训练数据集，OTB100指Online Tracking Benchmark Dateset中的100个图像集合，OTB20包含I₁，I₂，…，I_m，…，I₂₀20个图像集合以及对应的图像中真实目标区域的回归框集合G₁，G₂，…，G_m，...，G₂₀，m为整数，1≤m≤20；I_m中的图片具有时间上的连续性，表示I_m在第j张即j时刻的图片，1≤j≤n，n是I_m中图片的张数即I_m共有n个时刻；G＝{g₁，g₂，...，g_j，...，g_n}，g_j表示I_m中第j时刻图片的真实目标区域回归框，为包含四个值的一维向量，表示目标区域回归框中心相对于图像边界的坐标值，表示目标区域的宽度和高度，四个值均为标量，四个值表示出了一个矩形的目标区域；

2.2特征提取模块对I₁，I₂，...，I_m，...，I₂₀中的图像进行特征提取：卷积层对I_m中图像通过卷积方式进行特征提取，池化层对前一层的输出进行最大特征提取，全连接层将前一层的输出特征汇总，得到I₁，I₂，...，I_m，...，I₂₀相应的特征图集合序列F(I₁)，F(I₂)，...，F(I_m)，...，F(I₂₀)，将F(I₁)，F(I₂)，...，F(I_m)，...，F(I₂₀)发送到目标检测模块，表示图像集I_m中第j张图片对应的抽象特征图；

2.3目标检测模块对F(I₁)，F(I₂)，...，F(I_m)，...，F(I₂₀)中的抽象特征图做检测，得到最佳目标候选区域集合序列C(I₁)，C(I₂)，...，C(I_m)，...，C(I₂₀)，方法为：

2.3.1初始化m＝1；

2.3.2目标检测模块对F(I_m)中的特征图进行目标检测，得到候选框集合序列

2.3.3目标检测模块采用非极大抑制方法即NMS方法计算中的最佳候选区域，得到最佳候选区域集合表示图像集I_m中第j张图像上的最佳候选区域；

2.3.4令m＝m+1，如果m≤20，转2.2.2步；如果m＞20，说明得到了最佳目标候选区域序列C(I₁)，C(I₂)，...，C(I_m)，...，C(I₂₀)，转步骤2.4；

2.4特征拼接模块将C(I₁)，C(I₂)，...，C(I_m)，...，C(I₂₀)中的最佳目标候选区域与F(I₁)，F(I₂)，...，F(I_m)，...，F(I₂₀)中的最佳候选区域拼接，得到带有上下文特征的目标候选区域序列D¹，D²，...，D^m，...，D²⁰，将D¹，D²，...，D^m，...，D²⁰即20个目标候选区域集合发送给LSTM_f网络分支和LSTM_b网络分支，转第三步；

第三步：使用边框回归方法对输入为D¹，D²，...，D^m，...，D²⁰的LSTM_f网络分支和LSTM_b网络分支进行训练，得到网络权重参数，方法如下：

3.1初始化权重参数，将LSTM_f网络分支权重参数集合中所有元素值都初始化为[0，1]之间的随机数；将LSTM_b网络分支权重参数集合中所有元素值都初始化为[0，1]之间的随机数；表示LSTM_f网络分支输入层的权重参数，表示LSTM_f网络分支隐含层的权重参数，表示LSTM_f网络分支输出层的权重参数；表示LSTM_b网络分支输入层的权重参数，表示LSTM_b网络分支隐含层的权重参数，表示LSTM_b网络分支输出层的权重参数；

3.2设置网络训练参数：令网络模型学习率leamingRate＝0.00001，批处理尺寸batchsize＝1，网络步长numstep为在范围[4，9]内的正整数；

3.3迭代计算LSTM_f网络分支输出和LSTM_b网络分支输出的差距及两分支网络输出均值与真实目标区域差距，得到损失值，最小化损失值并更新网络参数，直到满足迭代次数要求，得到权重参数，具体方法如下：

3.3.1初始化训练迭代参数itretation＝1；

3.3.2如果itretation≤迭代阈值K，K是[1，100]内的整数，执行3.3.3步；否则将训练后的做为LSTM_f网络分支的权重参数集合，将训练后的作为LSTMb网络分支的权重参数集合，转第四步。

3.3.3 LSTM_f网络分支接收D¹，D²，...，D^m，...，D²⁰，处理正向排序的带有上文特征的候选区域，得到正向预测的目标区域回归框初值集合LSTM_b网络分支接收集合D¹，D²，...，D^m，...，D²⁰，处理反向排序的带有上文特征的候选区域，得到反向预测的目标区域回归框初值集合计算LSTM_f网络分支和LSTM_b网络分支输出回归框初值之间的差距，以及两个网络分支均值与真实目标区域回归框的差距，得到损失值，使用优化算法缩小损失值，更新一次网络权重，具体方法如下：

3.3.3.1初始化m＝1；

3.3.3.2.1初始化t＝0；

3.3.3.2.2 LSTM_f网络分支从D^m中取出连续numstep个候选区域将从开始到为止的numstep个候选区域依次输入到LSTM_f网络分支中，得到LSTM_f在t+numstep时刻对目标区域的预测回归框初值将放到集合中；为包含四个值的一维向量，表示正向预测目标区域回归框中心相对于图像边界的坐标值，表示正向预测目标区域回归框的宽度，表示正向预测目标区域回归框的高度，四个值表示一个矩形的目标区域；

3.3.3.2.3 LSTM_b网络分支将反转，得到将从d_t+numstep开始到d_t+1为止的numstep个候选区域依次输入到LSTM_b分支中，得到网络LSTM_b网络分支在t+numstep时刻对目标区域的预测回归框初值将放到集合中，为一维向量；表示反向预测目标区域回归框中心相对于图像边界的坐标值，表示反向预测目标区域回归框的宽度，表示反向预测目标区域回归框的高度，四个值表示出了一个矩形的目标区域；

3.3.3.2.4令t＝t+1，如果t≤n-numstep，转3.3.3.2.2步；否则说明已经根据D^m中候选区域经过LSTM_f网络分支得到目标区域回归框初始集合同时经过LSTM_b网络分支目标区域回归框初始集合执行第3.3.3.2.5步；

3.3.3.3计算误差值Loss，令其中，体现了正向预测回归框初值与反向预测回归框初值的平均预测值，为j时刻目标区域回归框的真值，MSE(·)为计算两个输入的均方误差的函数，

3.3.3.4使用Adam优化算法对误差值Loss最小化以更新网络权重参数；

3.3.3.5令m＝m+1，如果m≤20，转步骤3.3.3.2；否则，说明D¹，D²，...，D^m，...，D²⁰都经过了LSTM_f网络分支和LSTM_b网络分支处理，集合及中的权重参数值都得到一次更新，转步骤3.3.2；

第四步：目标跟踪系统对图像集合I中连续图像进行特征提取、目标检测，识别目标区域，方法是：

4.1特征提取模块接收来自图像集合I中的n张连续图像，对图像进行特征提取，得到抽象特征图集合F(I)；I＝{i₁，i₂，...，i_t，...，i_n}，F(I)＝{f₁，f₂，...，f_j，...，f_n}，f_i是维度为1×4096的向量；

4.2目标检测模块接收来自特征提取模块的F(I)，对F(I)中的抽象特征图逐张进行目标检测，得到最佳候选目标区域集合C(I)，C(I)＝{c₁，c₂，...，c_j，...，c_n}，C(I)中包含n张抽象特征图上的目标区域，方法为：

4.2.1目标检测模块对F(I)＝{f₁，f₂，...，f_j，...，f_n}中的特征图进行目标检测，得到第二候选框集合序列P(f₁)，P(f₂)，...，P(f_j)，...，P(f_n)；

4.2.2目标检测模块采用非极大抑制方法即NMS方法计算第二候选框集合P(f₁)，P(f₂)，...，P(f_j)，...，P(f_n)中的最佳候选区域，得到最佳候选区域集合C(I)＝{c₁，c₂，...，c_j，...，c_n}，c_j表示图像集I中第j张图像上的最佳候选区域；

4.3特征拼接模块将F(I)中的抽象特征图和C(I)中的最佳目标候选区域拼接，得到带有上下文特征的目标区域集合D，D＝{d₁，d₂，...，d_t，...，d_n}；

4.4 LSTM_f网络载入训练后的W^f中的网络权重参数，LSTM_b网络分支载入训练后的W^b中的网络权重参数；

4.5初始化t＝1；

4.6.1 LSTM_f网络分支接收集合D，将D中的连续numstep个候选区域d_t，d_t+1，...，d_t+numstep-1，从d_t到d_t+numstep-1依次输入到LSTM_f网络分支中，得到LSTM_f在t+numstep-1时刻对目标区域的预测回归框将放到集合L^f中；为包含四个值的一维向量，表示目标区域回归框中心相对于图像边界的坐标值，表示目标区域回归框的宽度和高度；

4.6.2 LSTM_b网络分支接收集合D，将d_t，d_t+1，...，d_t+numstep-1反转，得到序列d_t+numstep-1，d_t+4，…，d_t，将从d_t+numstep-1开始到dt为止的numstep个候选区域依次输入到LSTM_b分支中，得到LSTM_b网络分支在t+numstep-1时刻对目标区域回归框的预测将放到L^b中；为一维向量，表示目标区域左上角的坐标值，表示目标区域的宽度和高度四个值均为标量；

4.7目标区域计算器计算最终目标区域，得到目标区域集合L。计算器计算表示最终预测目标区域回归框中心点横坐标值，表示最终预测目标区域回归框中心点横坐标值；表示最终预测目标区域回归框的宽度，h_t+numstep-1＝表示最终预测目标区域回归框的高度；令l_t+numstep-1表示目标区域在I中t+numstep-1时刻图像中的最终预测，l_t+numstep-1＝[x_t+numstep-1，y_t+numstep-1，w_t+numstep-1，h_t+numstep-1]，将l_t+numstep-1加入到集合L中；

4.8令t＝t+1，如果t≤n-numstep，转4.6步；否则说明预测出图像集合I中从t+numstep-1时刻到n时刻的目标区域回归框，得到集合L，L＝l_numstep，l_numstep+1，...，l_n；执行第4.9步；

4.9令l₁，l₂，...，l_numstep-1＝l_numstep，将l₁，l₂，...，l_numstep-1加入到L中，得到包含所有时刻的最终目标区域回归框预测的集合L，L＝l₁，l₂，...，l_n，将L中的目标区域回归框可视化在图像集合I中对应的图像上后，图像逐帧播放，显示目标在每帧中都被矩形框框出，即显示出目标跟踪的效果。

2.如权利要求1所述的一种基于双向长短期记忆神经网络的目标跟踪方法，其特征在于所述构成特征提取模块的卷积神经网络共包含24个卷积层，4个池化层和1个全连接层，共29层；池化层分别为第2、4、9、20层，全联接层为第29层，其它层均为卷积层。

3.如权利要求1所述的一种基于双向长短期记忆神经网络的目标跟踪方法，其特征在于所述LSTM_f网络分支和LSTM_b网络分支的输入层、隐含层使用长短期记忆网络单元即LSTM单元构建，包含5100个LSTM单元。

4.如权利要求1所述的一种基于双向长短期记忆神经网络的目标跟踪方法，其特征在于2.3.2步所述目标检测模块对F(I_m)中的特征图进行目标检测，得到候选框集合序列的方法为：

2.3.2.1初始化j＝1；

2.3.2.2目标检测模块对进行目标检测，得到候选框集合 p_i表示特征图上的第i个候选框，i为正整数，1≤i≤98；

2.3.2.3令j＝j+1，如果j≤n，转2.3.2.2，否则说明已经检测出F(I_m)中所有特征图中的候选框，得到

5.如权利要求1所述的一种基于双向长短期记忆神经网络的目标跟踪方法，其特征在于2.3.3步所述目标检测模块计算中的最佳候选区域的方法为：

2.3.3.1初始化j＝1；

2.3.3.3令j＝j+1，如果j≤n，转2.3.3.2；否则，说明已经计算出所有候选框集合中的最佳候选区域，得到了C(I_m)。

6.如权利要求1所述的一种基于双向长短期记忆神经网络的目标跟踪方法，其特征在于2.4步所述特征拼接模块将C(I₁)，C(I₂)，...，C(I_m)，...，C(I₂₀)中的最佳目标候选区域与F(I₁)，F(I₂)，...，F(I_m)，...，F(I₂₀)中的最佳候选区域拼接的方法是：

2.4.1初始化m＝1；

2.4.2特征拼接模块将C(I_m)中的最佳候选区域与F(I_m)中的抽象特征图分别拼接，即将与拼接得到图片集合I_m中1时刻图片的带有上下文特征的目标候选区域…，将与拼接得到图片集合I_m中j时刻图片的带有上下文特征的目标候选区域…，将与拼接得到图片集合I_m中n时刻图片的带有上下文特征的目标候选区域得到带有上下文特征的目标候选区域集合D^m， D^m中有n个目标区域；

2.4.3令m＝m+1，如果m≤20，转步骤2.4.2；否则说明得到了带有上下文特征的目标候选区域序列D¹，D²，...，D^m，...，D²⁰。

7.如权利要求1所述的一种基于双向长短期记忆神经网络的目标跟踪方法，其特征在于3.2步所述numStep＝6。

8.如权利要求1所述的一种基于双向长短期记忆神经网络的目标跟踪方法，其特征在于3.3.2步所述迭代阈值K为30。

9.如权利要求1所述的一种基于双向长短期记忆神经网络的目标跟踪方法，其特征在于4.2.1步所述目标检测模块对F(I)中的特征图进行目标检测，得到第二候选框集合序列P(f₁)，P(f₂)，...，P(f_j)，...，P(f_n)的方法为：

4.2.1.1初始化j＝1；

4.2.1.2目标检测模块对特征图f_j进行目标检测，得到候选框集合P(f_j)，P(f_j)＝{p₁，p₂，...，p_i，...，p₉₈}，p_i表示特征图f_j上的第i个候选框，i为正整数，1≤i≤98；

4.2.1.3令j＝j+1，如果j≤n，转4.2.1.2，否则说明已经检测出所有的特征图中的候选框，得到第二候选框集合序列P(f₁)，P(f₂)，...，P(f_j)，...，P(f_n)。

10.如权利要求1所述的一种基于双向长短期记忆神经网络的目标跟踪方法，其特征在于4.2.2步所述目标检测模块计算候选框集合P(f_j)中的最佳候选区域的方法为：

4.2.2.1初始化j＝1；

4.2.2.3令j＝j+1，如果j≤n，转4.2.2.2；否则，说明已经计算出所有候选框集合中的最佳候选区域，得到C(I)。

11.如权利要求1所述的一种基于双向长短期记忆神经网络的目标跟踪方法，其特征在于4.3步所述特征拼接模块将F(I)中的抽象特征图和C(I)中的最佳目标候选区域进行拼接的方法为：

4.3.1初始化j＝1；

4.3.2特征拼接模块将抽象特征图f_j与最佳目标候选区域c_j拼接，即将表示f_j的数值向量与表示c_j的数值向量首尾串联，得到上下文特征的目标区域d_j，将d_j加入到集合D中；

4.3.3令j＝j+1，如果j≤n，转4.3.2；否则，说明已经将F(I)中的抽象特征图与C(I)中的最佳目标候选区域拼接完成。