CN110390294B - 一种基于双向长短期记忆神经网络的目标跟踪方法 - Google Patents

一种基于双向长短期记忆神经网络的目标跟踪方法 Download PDF

Info

Publication number
CN110390294B
CN110390294B CN201910656757.9A CN201910656757A CN110390294B CN 110390294 B CN110390294 B CN 110390294B CN 201910656757 A CN201910656757 A CN 201910656757A CN 110390294 B CN110390294 B CN 110390294B
Authority
CN
China
Prior art keywords
target
network
lstm
candidate
numstep
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201910656757.9A
Other languages
English (en)
Other versions
CN110390294A (zh
Inventor
史殿习
潘晨
管乃洋
夏雨生
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
National University of Defense Technology
Original Assignee
National University of Defense Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by National University of Defense Technology filed Critical National University of Defense Technology
Priority to CN201910656757.9A priority Critical patent/CN110390294B/zh
Publication of CN110390294A publication Critical patent/CN110390294A/zh
Application granted granted Critical
Publication of CN110390294B publication Critical patent/CN110390294B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/25Fusion techniques
    • G06F18/253Fusion techniques of extracted features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/044Recurrent networks, e.g. Hopfield networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • G06V20/46Extracting features or characteristics from the video content, e.g. video fingerprints, representative shots or key frames
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • G06V20/48Matching video sequences

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • General Engineering & Computer Science (AREA)
  • Computing Systems (AREA)
  • Software Systems (AREA)
  • Molecular Biology (AREA)
  • Computational Linguistics (AREA)
  • Biophysics (AREA)
  • Biomedical Technology (AREA)
  • Mathematical Physics (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Multimedia (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开了一种基于双向长短期记忆神经网络的目标跟踪方法,目的是提高目标识别准确率。技术方案是先构建由特征提取模块、目标检测模块、特征拼接模块、LSTMf网络分支和LSTMb网络分支、目标区域计算器构成的目标跟踪系统。然后选择OTB20作为对LSTMf网络和LSTMb网络的进行训练的训练数据集,采用边框回归方法对LSTMf网络分支和LSTMb网络分支进行训练,得到网络权重参数。最后采用目标跟踪系统对连续图像进行特征提取、目标检测,识别目标区域,训练后的LSTMf网络分支和训练后的LSTMb网络分支分别处理正向排序及反向排序的候选区域,目标区域计算器接收LSTMf网络输出和LSTMb网络输出,计算最终目标区域。本发明适合处理具有连续性的视频数据序列,目标跟踪准确率高。

Description

一种基于双向长短期记忆神经网络的目标跟踪方法
技术领域
本发明涉及计算机视觉目标跟踪领域,具体涉及一种基于双向长短期记忆神经网络对视频序列中目标进行跟踪的方法。
背景技术
视觉系统是人类同外界交互的主要感官系统之一,是人们获取信息,接受外界丰富资源的重要来源。视频中丰富的画面不仅能够人们带来各种视觉效果体验,还包含了大量的语义信息和特征内容,帮助人们理解视频所要传达的信息。在全球智能化及信息化的时代,视频数据的分析与处理技术一直是科学家们重点研究内容。人工智能技术的发展与硬件设备计算性能的提升,推动了计算机视觉领域图像处理、目标识别、视频分析等多项技术的深入研究。视频分析融合了计算机视觉领域的中层处理和高层处理阶段,即对图像进行处理,从而研究图像中物体目标的规律,或者为系统的决策提供语义或非语义的支持,包括运动检测、目标检测分类、目标跟踪、行为理解、事件监测等。
视频目标跟踪方法的研究与应用作为计算机视觉领域的一个重要分支,正日益广泛地应到人机交互、无人机设备、智能监控系统、无人驾驶等领域,因而目标跟踪方法成为热门研究的课题之一。目标跟踪是计算机视觉领域的一项重要任务。在计算机视觉领域,视觉跟踪一般是指对单目标的跟踪。具体来说,目标跟踪指的是,根据在第一帧图像中给定目标的回归框信息,实现预测后续每帧图像中目标的状态,对应目标的回归框信息。通过直观标注的目标信息,可以计算出目标物体的位置和尺度信息,生成持续不断的轨迹信息,方便后续的目标位置预测、轨迹预测、行为检测和异常分析等任务。目前城市安防系统中使用的智能监控系统中,目标跟踪技术正在被广泛应用,实现特定目标的追踪,特定目标的行为预测等任务。因此对目标跟踪技术展开研究是十分必要的。
目标跟踪算法主要分为两大类,经典的生成式算法和流行的判别式算法。经典的生成式算法使用基于概率密度分布、特征点光流或者粒子滤波,在跟踪效果的精度上有折损。判别式跟踪算法又称为检测式跟踪,算法训练一个检测器,对目标位置及尺度进行初步判断,再利用跟踪算法或者目标框回归算法给出最终的目标定位。基于深度学习的判别式跟踪算法利用神经网络提取的深层卷积特征,具有语义更加丰富、表达能力更强的特点。目标在实际场景下现实场景中存在主动性的不确定行为,导致了目标跟踪需要解决目标大小变化、外观变化、目标受遮挡、实时性需求和背景干扰等问题。目标跟踪技术面对的是实际场景中的情况,会因为光照、目标大小、旋转、移动速度等问题增加跟踪难度。
目标跟踪任务使用的视觉数据为视频数据,视频数据的时序特征能够提供更好的描述运动目标在时间上的连续性,提供更多的上下文信息。基于深度学习的跟踪算法能够对目标提取鲁棒的深度特征,利用深层特征的不变性提高检测率,但是当目标出现巨大形变或者出现遮挡的情况时,只利用目标的外观特征信息不能得到准确的目标定位,忽略了视频数据提供的目标的连续性动态特征。因此,利用视频连续性提供的更丰富的目标动态信息,有助于更准确地对目标行为进行下一步预测。
视频数据的连续性是分析特征的一个重要研究点。现有的目标跟踪算法致力于提取更加鲁棒的目标特征,提高目标在初步识别过程中的检测率,从而提高在后续的跟踪准确率。动态目标在视频中行为具有时间连续性,在连续的动态时空中不会出现较大波动,并且不管是从时间的正向序列还是反向序列来看,目标行为都具有连续性。目标在正向时间起始动作到终止动作,可以看作是倒叙时间中的终止动作和起始动作。利用正反向时序中目标连续信息,能够有效地提高在视频数据中目标的位置判断及行为轨迹预测结果。
因此,如何充分利用视频数据的时序信息,结合正反向时间序列中目标的动态连续性,提供一种鲁棒的目标跟踪方法,是本领域技术人员正在探讨的热点问题。
发明内容
本发明要解决的技术问题是提供一种基于双向长短期记忆神经网络的目标跟踪方法。此方法基于深度学习检测式判别框架,利用视频数据的时序信息,提高目标识别的准确率,实现当目标出现外观形变、大小变化和漂移等情况时,仍然能够有效跟踪目标的要求。
为解决上述技术问题,本发明技术方案是先构建由特征提取模块、目标检测模块、特征拼接模块、LSTMf网络分支和LSTMb网络分支、目标区域计算器构成的目标跟踪系统。然后选择OTB20作为对LSTMf网络和LSTMb网络的进行训练的训练数据集,采用边框回归方法对LSTMf网络分支和LSTMb网络分支进行训练,得到网络权重参数。最后采用目标跟踪系统对连续图像进行特征提取、目标检测,识别目标区域,训练后的LSTMf网络分支和训练后的LSTMb网络分支分别处理正向排序及反向排序的候选区域,目标区域计算器接收LSTMf网络输出和LSTMb网络输出,计算最终目标区域。
本发明主要包括以下具体步骤:
第一步:构建目标跟踪系统。该系统由特征提取模块、目标检测模块、特征拼接模块、LSTMf正向长短时记忆循环网络(以下简称LSTMf网络)分支和LSTMb反向长短时记忆循环网络(以下简称LSTMb网络)分支、目标区域计算器构成。
特征提取模块为卷积神经网络(称为net1),此网络共包含24个卷积层,4个池化层和1个全连接层,共29层。池化层分别为第2、4、9、20层,全联接层为第29层,其它层均为卷积层。特征提取模块接收来自图像集合I中的连续图像,对I中图像进行特征提取,得到抽象特征图集合F(I)。I={i1,i2,…,it,...,in},共有n张图像,图像之间具有时间连续性,it为图像集合I中第t张图像,也为it-1的下一帧图像。n张抽象特征图构成抽象特征图集合,F(I)={F(i1),F(i2),...,F(it),...,F(in)},F(it)为it的抽象特征图。
目标检测模块是YOLO检测网络(见文献“You Only Look Once:Unified,Real-Time Object Detection[J].2015.”Redmon J,Divvala S等人的论文:你只需要查看一次:统一的、实时目标检测)。目标检测模块从特征提取模块接收抽象特征图集合F(I),对F(I)中的抽象特征图逐张进行目标检测,得到最佳候选目标区域集合C。C=(c1,c2,...,ct,...,cn),ct为图像集合I中第t张图像it上的最佳候选目标区域。
特征拼接模块将来自F(I)中的抽象特征图F(it)和C中的目标区域ct结合,得到带有上下文特征的目标区域dt。n个带有上下文特征的目标区域构成目标区域集合D,D=(d1,d2,...,dt,...,dn)。因为I的图像具有时间连续性,D中带有上下文特征的目标区域与I中图像一一对应,所以从d1到dn也具有时间时间连续性。
LSTMf网络和LSTMb网络为并行的两个分支,LSTMf网络分支接收来自目标区域集合D中正序的连续多个目标区域,输出预测目标区域lf;LSTMb网络分支接收来自目标区域集合D中倒序的连续多个目标区域,输出目标预测区域lb。LSTMf网络分支和LSTMb网络分支结构相同,都包含三个全连接层,第一层为输入层,第二层为隐含层,第三层为输出层。输入层、隐含层使用长短期记忆网络单元(以下称为LSTM单元)(见文献“Long short-term memory.[J].Neural Computation,1997,9(8):1735-1780.”,Hochreiter S、Schmidhuber J.和Girshick R等人的论文:长短期记忆网络)构建,包含5100个LSTM单元。
目标区域计算器接收LSTMf网络输出和LSTMb网络输出,计算最终目标区域L。
第二步:准备LSTMf网络分支和LSTMb网络分支需要的训练数据。目标跟踪系统中的特征提取模块接收训练数据集中图片,得到训练数据集中图片的抽象特征图;目标检测模块在抽象特征图上做检测,提取抽象特征图的最佳目标候选区域,特征拼接模块将最佳目标候选区域与该最佳目标候选区域所属训练数据集图片的抽象特征图拼接,得到带有上下文特征的目标候选区域集合。具体方法为:
2.1选择来自OTB100中的20个图像集(称为OTB20),作为对LSTMf网络和LSTMb网络的进行训练的训练数据集,OTB100指Online Tracking Benchmark Dateset(见文献“Wu Y,Lim J,Yang M H.Online object tracking:A benchmark[C]//Proceedings of the IEEEconference on computer vision and pattern recognition.2013:2411-2418”,吴毅的论文:在线对象跟踪:一项基准测评)中的100个图像集合。OTB20包含I1,I2,...,Im,...,I2020个图像集合以及对应的图像中真实目标区域的回归框集合G1,G2,...,Gm,...,G20,m为整数,1≤m≤20。Im中的图片具有时间上的连续性,
Figure GDA0002922715800000041
Figure GDA0002922715800000042
表示Im在第j张(也即j时刻)的图片,1≤j≤n,n是Im中图片的张数(即Im共有n个时刻)。从
Figure GDA0002922715800000043
Figure GDA0002922715800000044
连续播放可构成一个完整的视频。G={g1,g2,...,gj,...,gn},gj表示Im中第j时刻图片的真实目标区域回归框,
Figure GDA0002922715800000045
为包含四个值的一维向量,
Figure GDA0002922715800000046
表示目标区域回归框中心相对于图像边界的坐标值,
Figure GDA0002922715800000047
表示目标区域的宽度和高度,四个值均为标量,四个值表示出了一个矩形的目标区域。
2.2特征提取模块对I1,I2,...,Im,...,I20中的图像进行特征提取。特征提取模块共包含24个卷积层,4个池化层和1个全连接层,共29层。池化层分别为第2、4、9、20层,全联接层为第29层,其它层均为卷积层。其中,卷积层对Im中图像通过卷积方式进行特征提取,池化层对前一层输出(若池化层为第25层,则前一层指神经网络的第24层。)进行最大特征提取,全连接层(图2中的f29)将前一层输出特征汇总(见文献“Fast R-CNN[J].ComputerScience,2015”,Girshick R.的论文:基于区域的快速卷积神经网络的第2页),得到I1,I2,...,Im,...,I20相应的特征图集合序列F(I1),F(I2),...,F(Im),...,F(I20),并将F(I1),F(I2),...,F(Im),...,F(I20)发送到目标检测模块,
Figure GDA0002922715800000048
Figure GDA0002922715800000049
表示图像集Im中第j张图片
Figure GDA00029227158000000410
对应的抽象特征图。由于目标在连续图像中的行为存在密切相关性,所以整张图片的特征对于判断目标位置提供了有效信息。在这里抽象特征图包含了目标相关关键信息及上下文信息。
2.3目标检测模块对F(I1),F(I2),...,F(Im),...,F(I20)中的抽象特征图做检测,得到最佳目标候选区域集合序列C(I1),C(I2),...,C(Im),...,C(I20)。
具体方法为:
2.3.1初始化m=1;
2.3.2目标检测模块对F(Im)中的特征图进行目标检测,得到候选框集合序列
Figure GDA00029227158000000411
具体方法为:
2.3.2.1初始化j=1;
2.3.2.2目标检测模块对
Figure GDA00029227158000000412
进行目标检测(YOLO检测网络的主要功能即是进行目标检测),得到候选框集合
Figure GDA00029227158000000413
Figure GDA00029227158000000414
pi表示特征图
Figure GDA00029227158000000415
上的第i个候选框,i为正整数,1≤i≤98。
2.3.2.3令j=j+1,如果j≤n,转2.3.2.2,否则说明已经检测出F(Im)中所有特征图中的候选框,得到候选框集合序列
Figure GDA0002922715800000051
转2.3.3。
2.3.3目标检测模块采用非极大抑制方法即NMS方法(Non-Maximum Suppression,方法,见文献“Efficient Non-MaximumSuppression.”18th International Conferenceon Pattern Recognition(ICPR'06)3(2006):850-855,Neubeck,Alexander和Luc VanGool的论文:有效的非极大抑制方法),计算候选框集合序列
Figure GDA0002922715800000052
中的最佳候选区域,得到最佳候选区域集合
Figure GDA0002922715800000053
Figure GDA0002922715800000054
表示图像集Im中第j张(即j时刻)图像上的最佳候选区域。具体方法为:
2.3.3.1初始化j=1;
2.3.3.2目标检测模块使用NMS方法计算
Figure GDA0002922715800000055
中最佳候选区域,得到
Figure GDA0002922715800000056
加入到最佳候选区域集合C(Im)中;
2.3.3.3令j=j+1,如果j≤n,转2.3.3.2;否则,说明已经计算出所有候选框集合中的最佳候选区域,得到了C(Im),转2.3.4。
2.3.4令m=m+1,如果m≤20,转2.2.2步;如果m>20,说明F(I1),F(I2),…,F(Im),…,F(I20)中的所有特征图都已由目标检测模块提取出最佳候选区域,得到了最佳目标候选区域序列C(I1),C(I2),...,C(Im),...,C(I20),转步骤2.4。
2.4特征拼接模块将C(I1),C(I2),...,C(Im),...,C(I20)中的最佳目标候选区域与F(I1),F(I2),…,F(Im),…,F(I20)中的最佳候选区域拼接,得到带有上下文特征的目标候选区域序列D1,D2,...,Dm,...,D20。具体方法是:
2.4.1初始化m=1;
2.4.2特征拼接模块将C(Im)中的最佳候选区域
Figure GDA0002922715800000057
与F(Im)中的抽象特征图
Figure GDA0002922715800000058
分别拼接,即将
Figure GDA0002922715800000059
Figure GDA00029227158000000510
拼接得到图片集合Im中1时刻图片
Figure GDA00029227158000000511
的带有上下文特征的目标候选区域
Figure GDA00029227158000000512
…,将
Figure GDA00029227158000000513
Figure GDA00029227158000000514
拼接得到图片集合Im中j时刻图片
Figure GDA00029227158000000515
的带有上下文特征的目标候选区域
Figure GDA00029227158000000516
…,将
Figure GDA00029227158000000517
Figure GDA00029227158000000518
拼接得到图片集合Im中n时刻图片
Figure GDA00029227158000000519
的带有上下文特征的目标候选区域
Figure GDA00029227158000000520
由此得到带有上下文特征的目标候选区域集合Dm
Figure GDA00029227158000000521
图像集合Im中有n张图片,即Dm中有n个目标区域。
2.4.3令m=m+1,如果m≤20,转步骤2.4.2;否则说明训练数据集OTB20中的20个图像集合都经过了特征提取模块和目标检测模块,得到了对应的带有上下文特征的目标候选区域序列D1,D2,...,Dm,...,D20,将D1,D2,...,Dm,...,D20即20个目标候选区域集合发送给LSTMf网络分支和LSTMb网络分支,转第三步。
第三步:使用边框回归方法(见文献“You Only Look Once:Unified,Real-TimeObject Detection[J].2015.”Redmon J,Divvala S等人的论文:你只需要查看一次:统一的、实时目标检测)对输入为D1,D2,...,Dm,...,D20的LSTMf网络分支和LSTMb网络分支进行训练,得到网络权重参数。
具体方法如下:
3.1初始化权重参数,将LSTMf网络分支权重参数集合
Figure GDA0002922715800000061
中所有元素值都初始化为[0,1]之间的随机数;将LSTMb网络分支权重参数集合
Figure GDA0002922715800000062
中所有元素值都初始化为[0,1]之间的随机数。
Figure GDA0002922715800000063
表示LSTMf网络分支输入层的权重参数,
Figure GDA0002922715800000064
表示LSTMf网络分支隐含层的权重参数,
Figure GDA0002922715800000065
表示LSTMf网络分支输出层的权重参数;
Figure GDA0002922715800000066
表示LSTMb网络分支输入层的权重参数,
Figure GDA0002922715800000067
表示LSTMb网络分支隐含层的权重参数,
Figure GDA0002922715800000068
表示LSTMb网络分支输出层的权重参数。
3.2设置网络训练参数:网络模型学习率(learningRate)、批处理尺寸(batchsize)网络步长(numStep)长numstep为在范围[4,9]内的正整数,实验证明,learningRate=0.00001,batchsize=1,numStep=6时,跟踪到目标的准确率最高。
3.3迭代计算LSTMf网络分支输出和LSTMb网络分支输出的差距及两分支网络输出均值与真实目标区域差距,得到损失值,最小化损失值并更新网络参数,直到满足迭代次数要求,得到权重参数。具体方法如下:
3.3.1初始化训练迭代参数itretation=1;
3.3.2如果itretation≤迭代阈值K,K是[1,100]内的整数,(实验证明,训练迭代30(即K为30)时,跟踪到目标的准确率最高),执行3.3.3步;否则说明训练满足迭代次数要求,训练结束,将训练后的
Figure GDA0002922715800000069
做为LSTMf网络分支的权重参数集合,将训练后的
Figure GDA00029227158000000610
作为LSTMb网络分支的权重参数集合,转第四步。
3.3.3LSTMf网络分支接收D1,D2,...,Dm,...,D20
Figure GDA00029227158000000611
处理正向排序的带有上文特征的候选区域,得到正向预测的目标区域回归框初值集合
Figure GDA0002922715800000071
LSTMb网络分支接收集合D1,D2,...,Dm,...,D20,处理反向排序的带有上文特征的候选区域,得到反向预测的目标区域回归框初值集合
Figure GDA0002922715800000072
计算LSTMf网络分支和LSTMb网络分支输出回归框初值之间的差距,以及两个网络分支均值与真实目标区域回归框的差距,得到损失值,使用优化算法缩小损失值,更新一次网络权重,具体方法如下:
3.3.3.1初始化m=1,
3.3.3.2LSTMf网络分支接收Dm中的候选区域,输出预测目标区域回归框初值,组成预测目标区域回归框集合
Figure GDA0002922715800000073
LSTMb网络分支接收Dm中的候选区域,输出预测目标区域回归框初值,组成预测目标区域回归框集合
Figure GDA0002922715800000074
具体方法如下:
3.3.3.2.1初始化t=0;
3.3.3.2.2LSTMf网络分支从Dm中取出连续numstep个候选区域
Figure GDA0002922715800000075
将从
Figure GDA0002922715800000076
开始到
Figure GDA0002922715800000077
为止的numstep个候选区域依次输入到LSTMf网络分支中,得到LSTMf在t+numstep时刻对目标区域的预测回归框初值
Figure GDA0002922715800000078
Figure GDA0002922715800000079
放到集合
Figure GDA00029227158000000710
中。
Figure GDA00029227158000000711
为包含四个值的一维向量,
Figure GDA00029227158000000712
表示正向预测目标区域回归框中心相对于图像边界的坐标值,
Figure GDA00029227158000000713
表示正向预测目标区域回归框的宽度,
Figure GDA00029227158000000714
表示正向预测目标区域回归框的高度,四个值表示出了一个矩形的目标区域。
3.3.3.2.3LSTMb网络分支将
Figure GDA00029227158000000715
反转,得到
Figure GDA00029227158000000716
将从dt+numstep开始到dt+1为止的numstep个候选区域依次输入到LSTMb分支中,得到网络LSTMb网络分支在t+numstep时刻对目标区域的预测回归框初值
Figure GDA00029227158000000717
Figure GDA00029227158000000718
放到集合
Figure GDA00029227158000000719
中。
Figure GDA00029227158000000720
为一维向量。
Figure GDA00029227158000000721
表示反向预测目标区域回归框中心相对于图像边界的坐标值,
Figure GDA00029227158000000722
表示反向预测目标区域回归框的宽度,
Figure GDA00029227158000000723
表示反向预测目标区域回归框的高度,四个值表示出了一个矩形的目标区域。
3.3.3.2.4令t=t+1,如果t≤n-numstep,转3.3.2.2步;否则说明已经根据Dm中候选区域经过LSTMf网络分支得到目标区域回归框初始集合
Figure GDA0002922715800000081
同时经过LSTMb网络分支目标区域回归框初始集合
Figure GDA0002922715800000082
执行第3.3.2.2.5步。
3.3.3.2.5令
Figure GDA0002922715800000083
(即令
Figure GDA0002922715800000084
的值与
Figure GDA0002922715800000085
的值相同),将
Figure GDA0002922715800000086
加入到
Figure GDA0002922715800000087
中;令
Figure GDA0002922715800000088
Figure GDA0002922715800000089
Figure GDA00029227158000000810
加入到
Figure GDA00029227158000000811
(由于数据集为视频数据,拆分为图片后连续紧密。对于短暂的numstep个时刻,目标位置及大小变化微小,所以可以令前numstep-1个时刻的目标位置与numstep时刻的目标位置相同。)得到正向目标区域回归框预测初值集合
Figure GDA00029227158000000812
和反向目标区域回归框预测初值集合
Figure GDA00029227158000000813
3.3.3.3计算误差值Loss,令
Figure GDA00029227158000000814
其中,
Figure GDA00029227158000000815
Figure GDA00029227158000000816
体现了正向预测回归框初值
Figure GDA00029227158000000817
与反向预测回归框初值
Figure GDA00029227158000000818
的平均预测值,
Figure GDA00029227158000000819
为j时刻目标区域回归框的真值。MSE(·)为计算两个输入的均方误差的函数,
Figure GDA00029227158000000820
Figure GDA00029227158000000821
3.3.3.4使用Adam优化算法对误差值Loss最小化以更新网络权重参数(见文献“Kingma D P,Ba J.Adam:A method for stochastic optimization[J].arXiv preprintarXiv:1412.6980,2014”,Kingma的论文:Adam,一种随机优化方法)。
3.3.3.5令m=m+1,如果m≤20,转步骤3.3.3.2;否则,说明D1,D2,...,Dm,...,D20都经过了LSTMf网络分支和LSTMb网络分支处理,集合
Figure GDA00029227158000000822
Figure GDA00029227158000000823
中的权重参数值都得到一次更新,转步骤3.3.2。
第四步:目标跟踪系统对图像集合I中连续图像进行特征提取、目标检测,识别目标区域。
4.1特征提取模块接收来自图像集合I中的连续图像,对图像进行特征提取,得到抽象特征图集合F(I)。令I={i1,i2,...,it,...,in},共有n张图像,图像之间具有时间连续性,it为it-1的下一帧图像。特征提取模块对n张图像进行特征提取,得到n张抽象特征图。n张抽象特征图构成抽象特征图集合F(I),F(I)={f1,f2,…,fj,...,fn},fi是维度为1×4096的向量。
4.2目标检测模块接收来自特征提取模块的抽象特征图集合F(I),对F(I)中的抽象特征图逐张进行目标检测,得到最佳候选目标区域集合C(I)。C(I)={c1,c2,…,cj,…,cn},C(I)中包含n张抽象特征图上的目标区域。具体方法为:
4.2.1目标检测模块对F(I)中的特征图进行目标检测,得到第二候选框集合序列P(f1),P(f2),…,P(fj),…,P(fn),具体方法为:
4.2.1.1初始化j=1;
4.2.1.2目标检测模块对特征图fj进行目标检测,得到候选框集合P(fj),P(fj)={p1,p2,…,pi,…,p98},pi表示特征图fj上的第i个候选框,i为正整数,1≤i≤98。
4.2.1.3令j=j+1,如果j≤n,转4.2.1.2,否则说明已经检测出所有的特征图中的候选框,得到第二候选框集合序列P(f1),P(f2),…,P(fj),…,P(fn)。转步骤4.2.2。
4.2.2目标检测模块采用非极大抑制方法即NMS方法计算第二候选框集合序列P(f1),P(f2),…,P(fj),…,P(fn)中的最佳候选区域,得到最佳候选区域集合C(I)={c1,c2,…,cj,…,cn},cj表示图像集I中第j张(即j时刻)图像上的最佳候选区域。具体方法如下:
4.2.2.1初始化j=1;
4.2.2.2目标检测模块使用NMS方法计算P(fj)中最佳候选区域,得到cj,加入到最佳候选区域集合C(I)中;
4.2.2.3令j=j+1,如果j≤n,转4.2.2.2;否则,说明已经计算出所有候选框集合中的最佳候选区域,得到C(I)。转步骤4.3。
4.3特征拼接模块将F(I)={f1,f2,…,fj,…,fn}中的抽象特征图和C(I)={c1,c2,…,cj,…,cn}中的最佳目标候选区域拼接,得到带有上下文特征的目标区域集合D={d1,d2,…,dt,…,dn},1≤t≤n。具体方法如下:
4.3.1初始化j=1;
4.3.2特征拼接模块将抽象特征图fj与最佳目标候选区域cj拼接(即将表示fj的数值向量与表示cj的数值向量首尾串联),得到上下文特征的目标区域dj,将dj加入到集合D中。
4.3.3令j=j+1,如果j≤n,转4.3.2;否则,说明已经将F(I)中的抽象特征图与C(I)中的最佳目标候选区域拼接完成,转步骤4.4。
4.4LSTMf网络载入训练后的Wf中的网络权重参数,LSTMb网络分支载入训练后的Wb中的网络权重参数。
4.5初始化t=1;
4.6LSTMf网络分支执行4.6.1步,处理D的正向序列输入得到候选区域中的目标区域回归框;同时LSTMb网络分支执行4.6.2步,处理D的反向序列输入得到候选区域中的目标区域回归框:
4.6.1LSTMf网络分支接收集合D,将D中的连续numstep个候选区域dt,dt+1,…,dt+numdtep-1,从dt到dt+numstep-1依次输入到LSTMf网络分支中,得到LSTMf在t+numstep-1时刻对目标区域的预测回归框
Figure GDA0002922715800000101
Figure GDA0002922715800000102
放到集合Lf中。
Figure GDA0002922715800000103
为包含四个值的一维向量,
Figure GDA0002922715800000104
表示目标区域回归框中心相对于图像边界的坐标值,
Figure GDA0002922715800000105
表示目标区域回归框的宽度和高度,四个值表示出了一个矩形的目标区域。
4.6.2LSTMb网络分支接收集合D,将dt,dt+1,…,dt+numstep-1反转,得到序列dt+numstep-1,dt+4,…,dt,将从dt+numstep-1开始到dt为止的numstep个候选区域依次输入到LSTMb分支中,得到LSTMb网络分支在t+numstep-1时刻对目标区域回归框的预测
Figure GDA0002922715800000106
Figure GDA0002922715800000107
放到Lb中。
Figure GDA0002922715800000108
Figure GDA0002922715800000109
为一维向量,
Figure GDA00029227158000001010
表示目标区域左上角的坐标值,
Figure GDA00029227158000001011
表示目标区域的宽度和高度四个值均为标量,四个值表示出了一个矩形的目标区域。
4.7目标区域计算器计算最终目标区域,得到目标区域集合L。计算器计算
Figure GDA00029227158000001012
表示最终预测目标区域回归框中心点横坐标值,
Figure GDA00029227158000001013
表示最终预测目标区域回归框中心点横坐标值;
Figure GDA0002922715800000111
表示最终预测目标区域回归框的宽度,
Figure GDA0002922715800000112
表示最终预测目标区域回归框的高度。令
lt+numstep-1表示目标区域在I中t+numstep-1时刻图像中的最终预测,lt+numstep-1=[xt+numstep-1,yt+numstep-1,wt+numstep-1,ht+numstep-1],将lt+numstep-1加入到集合L中。
4.8令t=t+1,如果t≤n-numstep,转4.6步;否则说明预测出图像集合I中从t+numstep-1时刻到n时刻的目标区域回归框,得到集合L,L=lnumstep,lnumstep+1,…,ln。执行第4.9步。
4.9令l1,l2,…,lnumstep-1=lnumstep,将l1,l2,…,lnumstep-1加入到L中,得到包含所有时刻的最终目标区域回归框预测的集合L,L=l1,l2,…,ln(由于数据集为视频数据,拆分为图片后连续紧密。对于短暂的6个时刻,目标位置变化微小,所以可以令前5个时刻的目标位置与6时刻的目标位置相同)。将L中的目标区域回归框可视化在图像集合I中对应的图像上后,图像逐帧播放,可看到目标在每帧中都被矩形框框出,即目标跟踪的效果。
采用本发明可以达到以下技术效果:
1.本发明第一步构建了一个完整的目标跟踪系统,融合了特征提取模块、目标检测模块、特征拼接模块、LSTMf正向长短时记忆循环网络(以下简称LSTMf网络)分支和LSTMb反向长短时记忆循环网络(以下简称LSTMb网络)分支、目标区域计算器。选择了OTB100当中的的具有代表性的20个视频作为训练LSTMf网络分支和LSTMb网络分支的数据。首先特征提取模块对输入数据进行了抽象特征图的提取,目标检测模块在特征图上对目标位置做出母检测,构建了最佳候选区域C(I),为跟踪系统输出最终目标预测提供了判断辅助作用;特征拼接模块将C(I)与抽象特征图结合得到D。D中不仅包含目标区域最佳候选区域,也包含了图像的抽象特征图,增加了训练数据的丰富性,并且使得LSTMf网络分支和LSTMb网络分支有更多目标区域相关的有效信息可以利用,使得目标跟踪准确率较背景技术所述目标跟踪方法有所提高。
2.本发明第三步使用边框回归方法,结合LSTM网络能够处理连续性输入的特性,迭代训练网络,使输出与真值不断拟合,得到了可以准确预测目标区域回归框的两个网络分支。LSTMf网络分支处理按照时间正序排列的输入数据(此网络分支根据目标在连续numStep个时刻图片中的正向运动轨迹,判断第6时刻的目标区域),同时LSTMb网络分支分支处理按照时间倒序排列的输入数据(此网络分支根据目标在连续6个时刻图片中的反向运动轨迹,判断第numStep时刻的目标区域),综合两个分支在不同的输出,得到图像中目标区域的最终准确预测,进一步提高了跟踪准确性。
3.本发明使用长短期记忆网络(LSTM网络)构建了两个分支,LSTM网络通过存储在一段连续输入数据之间的关联性,处理具有时间连续性的图片(图像中的逐帧图片)。(见文献“Long short-term memory.[J].Neural Computation,1997,9(8):1735-1780.”,Hochreiter S、Schmidhuber J.和Girshick R等人的论文:长短期记忆网络),使得本发明更适合处理具有连续性的视频数据序列。
附图说明:
图1为本发明整体流程图。
图2为本发明第一步构建的目标跟踪系统逻辑结构图。
图3为本发明第四步目标跟踪系统对图像集合I中连续图像进行特征提取、目标检测,识别目标区域的流程图。
图4为本发明目标区域重叠率示意图:图3(a)是步长numstep与准确率关系示意图,图3(b)是步长numstep与算法运行速度关系示意图。
图5为本发明与其他目标跟踪方法OPE、TRE、SRE值对比图。图5(a)是一次通过评估(OPE)成功率输出随设定阈值变化示意图,图5(b)是空间鲁棒性评估(SRE)成功率随设定阈值变化的示意图,图5(c)是时间鲁棒性评估(TRE)成功率随设定阈值变化的示意图。
具体实施方式
图1是本发明总体流程图;如图1所示,本发明包括以下步骤:
第一步:构建目标跟踪系统。如图2所示,目标跟踪系统由特征提取模块、目标检测模块、特征拼接模块、LSTMf网络分支和LSTMb网络分支、目标区域计算器构成。
特征提取模块为卷积神经网络,此网络共包含24个卷积层,4个池化层和1个全连接层,共29层。池化层分别为第2、4、9、20层,全联接层为第29层,其它层均为卷积层。特征提取模块接收来自图像集合I中的连续图像,对I中图像进行特征提取,得到抽象特征图集合F(I)。I={i1,i2,…,it,…,in},共有n张图像,图像之间具有时间连续性,it为图像集合I中第t张图像,也为it-1的下一帧图像。n张抽象特征图构成抽象特征图集合,F(I)={F(i1),F(i2),…,F(it),…,F(in)},F(it)为it的抽象特征图。
目标检测模块是YOLO检测网络,目标检测模块从特征提取模块接收抽象特征图集合F(I),对F(I)中的抽象特征图逐张进行目标检测,得到最佳候选目标区域集合C。C=(c1,c2,...,ct,...,cn),ct为图像集合I中第t张图像it上的最佳候选目标区域。
特征拼接模块将来自F(I)中的抽象特征图F(it)和C中的目标区域ct结合,得到带有上下文特征的目标区域dt。n个带有上下文特征的目标区域构成目标区域集合D,D=(d1,d2,...,dt,...,dn)。
LSTMf网络和LSTMb网络为并行的两个分支,LSTMf网络分支接收来自目标区域集合D中正序的连续多个目标区域,输出预测目标区域lf;LSTMb网络分支接收来自目标区域集合D中倒序的连续多个目标区域,输出目标预测区域lb。LSTMf网络分支和LSTMb网络分支结构相同,都包含三个全连接层,第一层为输入层,第二层为隐含层,第三层为输出层。输入层、隐含层使用LSTM单元构建,包含5100个LSTM单元。
目标区域计算器接收LSTMf网络输出和LSTMb网络输出,计算最终目标区域L。
第二步:准备LSTMf网络分支和LSTMb网络分支需要的训练数据。目标跟踪系统中的特征提取模块接收训练数据集中图片,得到训练数据集中图片的抽象特征图;目标检测模块在抽象特征图上做检测,提取抽象特征图的最佳目标候选区域,特征拼接模块将最佳目标候选区域与该最佳目标候选区域所属训练数据集图片的抽象特征图拼接,得到带有上下文特征的目标候选区域集合。具体方法为:
2.1选择OTB20作为对LSTMf网络和LSTMb网络的进行训练的训练数据集,OTB20包含I1,I2,…,Im,…,I2020个图像集合以及对应的图像中真实目标区域的回归框集合G1,G2,…,Gm,…,G20,m为整数,1≤m≤20。Im中的图片具有时间上的连续性,
Figure GDA0002922715800000131
Figure GDA0002922715800000132
Figure GDA0002922715800000133
表示Im在第j张(也即j时刻)的图片,1≤j≤n,n是Im中图片的张数(即Im共有n个时刻)。从
Figure GDA0002922715800000134
Figure GDA0002922715800000135
连续播放可构成一个完整的视频。G={g1,g2,…,gj,…,gn},gj表示Im中第i时刻图片的真实目标区域回归框,
Figure GDA0002922715800000136
为包含四个值的一维向量,
Figure GDA0002922715800000137
表示目标区域回归框中心相对于图像边界的坐标值,
Figure GDA0002922715800000138
表示目标区域的宽度和高度,四个值均为标量。
2.2特征提取模块对I1,I2,…,Im,…,I20中的图像进行特征提取。特征提取模块的卷积层对Im中图像通过卷积方式进行特征提取,池化层对前一层的输出进行最大特征提取,全连接层(图2中的f29)将前一层输出特征汇总,得到I1,I2,…,Im,…,I20相应的特征图集合序列F(I1),F(I2),…,F(Im),…,F(I20),并将F(I1),F(I2),…,F(Im),…,F(I20)发送到目标检测模块,
Figure GDA0002922715800000139
Figure GDA00029227158000001310
表示图像集Im中第j张图片
Figure GDA00029227158000001311
对应的抽象特征图。由于目标在连续图像中的行为存在密切相关性,所以整张图片的特征对于判断目标位置提供了有效信息。在这里抽象特征图包含了目标相关关键信息及上下文信息。
2.3目标检测模块对F(I1),F(I2),…,F(Im),…,F(I20)中的抽象特征图做检测,得到最佳目标候选区域集合序列C(I1),C(I2),…,C(Im),…,C(I20)。
具体方法为:
2.3.1初始化m=1;
2.3.2目标检测模块对F(Im)中的特征图进行目标检测,得到候选框集合序列
Figure GDA0002922715800000141
具体方法为:
2.3.2.1初始化j=1;
2.3.2.2目标检测模块对
Figure GDA0002922715800000142
进行目标检测,得到候选框集合
Figure GDA0002922715800000143
Figure GDA0002922715800000144
Figure GDA0002922715800000145
pi表示特征图
Figure GDA0002922715800000146
上的第i个候选框,i为正整数,1≤i≤98。
2.3.2.3令j=j+1,如果j≤n,转2.3.2.2,否则说明已经检测出F(Im)中所有特征图中的候选框,得到候选框集合序列
Figure GDA0002922715800000147
转2.3.3。
2.3.3目标检测模块采用非极大抑制方法即NMS方法,计算候选框集合序列
Figure GDA0002922715800000148
中的最佳候选区域,得到最佳候选区域集合
Figure GDA0002922715800000149
Figure GDA00029227158000001410
Figure GDA00029227158000001411
表示图像集Im中第j张图像上的最佳候选区域。具体方法为:
2.3.3.1初始化j=1;
2.3.3.2目标检测模块使用NMS方法计算
Figure GDA00029227158000001412
中最佳候选区域,得到
Figure GDA00029227158000001413
加入到最佳候选区域集合C(Im)中;
2.3.3.3令j=j+1,如果j≤n,转2.3.3.2;否则,说明已经计算出所有候选框集合中的最佳候选区域,得到了C(Im),转2.3.4。
2.3.4令m=m+1,如果m≤20,转2.2.2步;如果m>20,说明F(I1),F(I2),…,F(Im),…,F(I20)中的所有特征图都已由目标检测模块提取出最佳候选区域,得到了最佳目标候选区域序列C(I1),C(I2),…,C(Im),…,C(I20),转步骤2.4。
2.4特征拼接模块将C(I1),C(I2),…,C(Im),…,C(I20)中的最佳目标候选区域与F(I1),F(I2),…,F(Im),…,F(I20)中的最佳候选区域拼接,得到带有上下文特征的目标候选区域序列D1,D2,…,Dm,…,D20。具体方法是:
2.4.1初始化m=1;
2.4.2特征拼接模块将C(Im)中的最佳候选区域
Figure GDA0002922715800000151
与F(Im)中的抽象特征图
Figure GDA0002922715800000152
分别拼接,即将
Figure GDA0002922715800000153
Figure GDA0002922715800000154
拼接得到图片集合Im中1时刻图片
Figure GDA0002922715800000155
的带有上下文特征的目标候选区域
Figure GDA0002922715800000156
…,将
Figure GDA0002922715800000157
Figure GDA0002922715800000158
拼接得到图片集合Im中j时刻图片
Figure GDA0002922715800000159
的带有上下文特征的目标候选区域
Figure GDA00029227158000001510
…,将
Figure GDA00029227158000001511
Figure GDA00029227158000001512
拼接得到图片集合Im中n时刻图片
Figure GDA00029227158000001513
的带有上下文特征的目标候选区域
Figure GDA00029227158000001514
由此得到带有上下文特征的目标候选区域集合Dm
Figure GDA00029227158000001515
图像集合Im中有n张图片,即Dm中有n个目标区域。
2.4.3令m=m+1,如果m≤20,转步骤2.4.2;否则说明训练数据集OTB20中的20个图像集合都经过了特征提取模块和目标检测模块,得到了对应的带有上下文特征的目标候选区域序列D1,D2,…,Dm,…,D20,将D1,D2,…,Dm,…,D20即20个目标候选区域集合发送给LSTMf网络分支和LSTMb网络分支,转第三步。
第三步:使用边框回归方法对输入为D1,D2,…,Dm,…,D20的LSTMf网络分支和LSTMb网络分支进行训练,得到网络权重参数。
具体方法如下:
3.1初始化权重参数,将LSTMf网络分支权重参数集合
Figure GDA00029227158000001516
中所有元素值都初始化为[0,1]之间的随机数;将LSTMb网络分支权重参数集合
Figure GDA00029227158000001517
中所有元素值都初始化为[0,1]之间的随机数。
Figure GDA00029227158000001518
表示LSTMf网络分支输入层的权重参数,
Figure GDA00029227158000001519
表示LSTMf网络分支隐含层的权重参数,
Figure GDA00029227158000001520
表示LSTMf网络分支输出层的权重参数;
Figure GDA00029227158000001521
表示LSTMb网络分支输入层的权重参数,
Figure GDA00029227158000001522
表示LSTMb网络分支隐含层的权重参数,
Figure GDA00029227158000001523
表示LSTMb网络分支输出层的权重参数。
3.2设置网络训练参数:learningRate=0.00001,batchsize=1,numStep=6。
3.3迭代计算LSTMf网络分支输出和LSTMb网络分支输出的差距及两分支网络输出均值与真实目标区域差距,得到损失值,最小化损失值并更新网络参数,直到满足迭代次数要求,得到权重参数。具体方法如下:
3.3.1初始化训练迭代参数itretation=1;
3.3.2如果itretation≤30,执行3.3.3步;否则说明训练满足迭代次数要求,训练结束,将训练后的
Figure GDA00029227158000001524
做为LSTMf网络分支的权重参数集合,将训练后的
Figure GDA00029227158000001525
Figure GDA00029227158000001526
作为LSTMb网络分支的权重参数集合,转第四步。
3.3.3LSTMf网络分支接收D1,D2,…,Dm,…,D20
Figure GDA0002922715800000161
处理正向排序的带有上文特征的候选区域,得到正向预测的目标区域回归框初值集合
Figure GDA0002922715800000162
LSTMb网络分支接收集合D1,D2,…,Dm,…,D20,处理反向排序的带有上文特征的候选区域,得到反向预测的目标区域回归框初值集合
Figure GDA0002922715800000163
计算LSTMf网络分支和LSTMb网络分支输出回归框初值之间的差距,以及两个网络分支均值与真实目标区域回归框的差距,得到损失值,使用优化算法缩小损失值,更新一次网络权重,具体方法如下:
3.3.3.1初始化m=1,
3.3.3.2LSTMf网络分支接收Dm中的候选区域,输出预测目标区域回归框初值,组成预测目标区域回归框集合
Figure GDA0002922715800000164
LSTMb网络分支接收Dm中的候选区域,输出预测目标区域回归框初值,组成预测目标区域回归框集合
Figure GDA0002922715800000165
具体方法如下:
3.3.3.2.1初始化t=0;
3.3.3.2.2LSTMf网络分支从Dm中取出连续numstep个候选区域
Figure GDA0002922715800000166
将从
Figure GDA0002922715800000167
开始到
Figure GDA0002922715800000168
为止的numstep个候选区域依次输入到LSTMf网络分支中,得到LSTMf在t+numstep时刻对目标区域的预测回归框初值
Figure GDA00029227158000001624
Figure GDA0002922715800000169
放到集合
Figure GDA00029227158000001610
中。
Figure GDA00029227158000001611
为包含四个值的一维向量,
Figure GDA00029227158000001612
表示正向预测目标区域回归框中心相对于图像边界的坐标值,
Figure GDA00029227158000001613
表示正向预测目标区域回归框的宽度,
Figure GDA00029227158000001614
表示正向预测目标区域回归框的高度,四个值表示出了一个矩形的目标区域。
3.3.3.2.3LSTMb网络分支将
Figure GDA00029227158000001615
反转,得到
Figure GDA00029227158000001616
将从dt+numstep开始到dt+1为止的numstep个候选区域依次输入到LSTMb分支中,得到网络LSTMb网络分支在t+numstep时刻对目标区域的预测回归框初值
Figure GDA00029227158000001617
Figure GDA00029227158000001618
放到集合
Figure GDA00029227158000001619
中。
Figure GDA00029227158000001620
为一维向量。
Figure GDA00029227158000001621
表示反向预测目标区域回归框中心相对于图像边界的坐标值,
Figure GDA00029227158000001622
表示反向预测目标区域回归框的宽度,
Figure GDA00029227158000001623
表示反向预测目标区域回归框的高度,四个值表示出了一个矩形的目标区域。
3.3.3.2.4令t=t+1,如果t≤n-numstep,转3.3.2.2步;否则说明已经根据Dm中候选区域经过LSTMf网络分支得到目标区域回归框初始集合
Figure GDA0002922715800000171
同时经过LSTMb网络分支目标区域回归框初始集合
Figure GDA0002922715800000172
执行第3.3.2.2.5步。
3.3.3.2.5令
Figure GDA0002922715800000173
Figure GDA0002922715800000174
加入到
Figure GDA0002922715800000175
中;令
Figure GDA0002922715800000176
Figure GDA0002922715800000177
加入到
Figure GDA0002922715800000178
得到正向目标区域回归框预测初值集合
Figure GDA0002922715800000179
和反向目标区域回归框预测初值集合
Figure GDA00029227158000001710
3.3.3.3计算误差值Loss,令
Figure GDA00029227158000001711
其中,
Figure GDA00029227158000001712
Figure GDA00029227158000001713
体现了正向预测回归框初值
Figure GDA00029227158000001714
与反向预测回归框初值
Figure GDA00029227158000001715
的平均预测值,
Figure GDA00029227158000001716
为j时刻目标区域回归框的真值。MSE(·)为计算两个输入的均方误差的函数,
Figure GDA00029227158000001717
Figure GDA00029227158000001718
3.3.3.4使用Adam优化算法对误差值Loss最小化以更新网络权重参数。
3.3.3.5令m=m+1,如果m≤20,转步骤3.3.3.2;否则,说明D1,D2,...,Dm,...,D20都经过了LSTMf网络分支和LSTMb网络分支处理,集合
Figure GDA00029227158000001719
Figure GDA00029227158000001720
中的权重参数值都得到一次更新,转步骤3.3.2。
第四步:目标跟踪系统对图像集合I中连续图像进行特征提取、目标检测,识别目标区域。
4.1特征提取模块接收来自图像集合I中的连续图像,对图像进行特征提取,得到抽象特征图集合F(I)。令I={i1,i2,...,it,...,in},共有n张图像,图像之间具有时间连续性,it为it-1的下一帧图像。特征提取模块对n张图像进行特征提取,得到n张抽象特征图。n张抽象特征图构成抽象特征图集合F(I),F(I)={f1,f2,…,fj,…,fn},fi是维度为1×4096的向量。
4.2目标检测模块接收来自特征提取模块的抽象特征图集合F(I),对F(I)中的抽象特征图逐张进行目标检测,得到最佳候选目标区域集合C(I)。C(I)={c1,c2,…,cj,…,cn},C(I)中包含n张抽象特征图上的目标区域。具体方法为:
4.2.1目标检测模块对F(I)中的特征图进行目标检测,得到第二候选框集合序列P(f1),P(f2),…,P(fj),…,P(fn),具体方法为:
4.2.1.1初始化j=1;
4.2.1.2目标检测模块对特征图fj进行目标检测,得到候选框集合P(fj),P(fj)={p1,p2,…,pi,…,p98},pi表示特征图fj上的第i个候选框,i为正整数,1≤i≤98。
4.2.1.3令j=j+1,如果j≤n,转4.2.1.2,否则说明已经检测出所有的特征图中的候选框,得第二到候选框集合序列P(f1),P(f2),…,P)fj),…,P(fn)。转步骤4.2.2。
4.2.2目标检测模块采用非极大抑制方法即NMS方法计算第二候选框集合P(f1),P(f2),…,P(fj),…,P(fn)中的最佳候选区域,得到最佳候选区域集合C(I)={c1,c2,…,cj,…,cn},cj表示图像集I中第j张图像上的最佳候选区域。具体方法如下:
4.2.2.1初始化j=1;
4.2.2.2目标检测模块使用NMS方法计算P(fj)中最佳候选区域,得到cj,加入到最佳候选区域集合C(I)中;
4.2.2.3令j=j+1,如果j≤n,转4.2.2.2;否则,说明已经计算出所有候选框集合中的最佳候选区域,得到C(I)。转步骤4.3。
4.3特征拼接模块将F(I)={f1,f2,…,fj,…,fn}中的抽象特征图和C(I)={c1,c2,…,cj,…,cn}中的最佳目标候选区域拼接,得到带有上下文特征的目标区域集合D={d1,d2,…,dt,…,dn},1≤t≤n。具体方法如下:
4.3.1初始化j=1;
4.3.2特征拼接模块将抽象特征图fj与最佳目标候选区域cj拼接(即将表示fj的数值向量与表示cj的数值向量首尾串联),得到上下文特征的目标区域dj,将dj加入到集合D中。
4.3.3令j=j+1,如果j≤n,转4.3.2;否则,说明已经将F(I)中的抽象特征图与C(I)中的最佳目标候选区域拼接完成,转步骤4.4。
4.4LSTMf网络载入训练后的Wf中的网络权重参数,LSTMb网络分支载入训练后的Wb中的网络权重参数。
4.5初始化t=1;
4.6LSTMf网络分支执行4.6.1步,处理D的正向序列输入得到候选区域中的目标区域回归框;同时LSTMb网络分支执行4.6.2步,处理D的反向序列输入得到候选区域中的目标区域回归框:
4.6.1LSTMf网络分支接收集合D,将D中的连续numstep个候选区域dt,dt+1,…,dt+numstep-1,从dt到dt+numstep-1依次输入到LSTMf网络分支中,得到LSTMf在t+numstep-1时刻对目标区域的预测回归框
Figure GDA0002922715800000191
Figure GDA0002922715800000192
放到集合Lf中。
Figure GDA0002922715800000193
为包含四个值的一维向量,
Figure GDA0002922715800000194
表示目标区域回归框中心相对于图像边界的坐标值,
Figure GDA0002922715800000195
表示目标区域回归框的宽度和高度,四个值表示出了一个矩形的目标区域。
4.6.2LSTMb网络分支接收集合D,将dt,dt+1,…,dt+numstep-1反转,得到序列dt+numstep-1,dt+4,…,dt,将从dt+numstep-1开始到dt为止的numstep个候选区域依次输入到LSTMb分支中,得到LSTMb网络分支在t+numstep-1时刻对目标区域回归框的预测
Figure GDA0002922715800000196
Figure GDA0002922715800000197
放到Lb中。
Figure GDA0002922715800000198
Figure GDA0002922715800000199
为一维向量,
Figure GDA00029227158000001910
表示目标区域左上角的坐标值,
Figure GDA00029227158000001911
表示目标区域的宽度和高度四个值均为标量,四个值表示出了一个矩形的目标区域。
4.7目标区域计算器计算最终目标区域,得到目标区域集合L。计算器计算
Figure GDA00029227158000001912
表示最终预测目标区域回归框中心点横坐标值,
Figure GDA00029227158000001913
表示最终预测目标区域回归框中心点横坐标值;
Figure GDA00029227158000001914
表示最终预测目标区域回归框的宽度,
Figure GDA00029227158000001915
表示最终预测目标区域回归框的高度。令lt+numstep-1表示目标区域在I中t+numstep-1时刻图像中的最终预测,lt+numstep-1=[xt+numstep-1,yt+numstep-1,wt+numstep-1,ht+numstep-1],将lt+numstep-1加入到集合L中。
4.8令t=t+1,如果t≤n-numstep,转4.6步;否则说明预测出图像集合I中从t+numstep-1时刻到n时刻的目标区域回归框,得到集合L,L=lnumstep,lnumstep+1,…,ln。执行第4.9步。
4.9令l1,l2,…,lnumstep-1=lnumstep,将l1,l2,…,lnumstep-1加入到L中,得到包含所有时刻的最终目标区域回归框预测的集合L=l1,l2,…,ln(由于数据集为视频数据,拆分为图片后连续紧密。对于短暂的6个时刻,目标位置变化微小,所以可以令前5个时刻的目标位置与6时刻的目标位置相同)。将L=l1,l2,…,ln中的目标区域回归框可视化在图像集合I中对应的图像上后,图像逐帧播放,可看到目标在每帧中都被矩形框框出,即目标跟踪的效果。
图4为本发明目标区域重叠率示意图:图4(a)是步长numstep与准确率关系示意图,图4(b)是步长numstep与算法运行速度关系示意图。
随机选取来自OTB100中的30个视频作为跟踪测试数据集,对本发明进行了跟踪准确率(目标区域与实际目标区域的重叠率的表示跟踪准确率)测试,实验的软件系统环境为乌班图16.04版本(即Ubuntu 16.04,Linux系统的一个版本),搭载英特尔Xeon Gold系列6154中央处理器,处理频率为3.0Hz,另外配有两块英伟达TITAN V图像处理器,核心频率为1200/1455MHz,显存容量为12GB。在本实验环境下,图4(a)表现出本发明的目标跟踪准确率与步长numstep之间的关系,横坐标是步长numstep值,纵坐标是跟踪准确率(即预测目标区域与真实区域的比值);图4(b)表现出在本发明的速度与步长numstep之间的关系,横坐标是步长numstep,纵坐标是速度(即每秒处理图片的张数)。从图4(a)可以看出,随着步长参数的增大,LSTM网络能够考虑更长时间的连续数据,准确率也逐渐增加;但是从图4(b)中看出,随着步长增大,LSTM网络需要处理的连续数据增加,方法运行速度减慢。所以得出结论,本发明(当步长(numstep)=6时)取得跟踪准确率与速度的折中,达到实时的速率同时拥有较高的边框重叠率(IOU)。
采用图4的实验环境,比较本发明方法与STRUCK、OAB、TLD、LSR、CSK等目标跟踪算法的一次通过评估(OPE)成功率,时间鲁棒性评估(TRE)成功率和空间鲁棒性评估(SRE)成功率(三种评估指标见文献“Wu Y,Lim J,Yang M H.Online object tracking:Abenchmark[C]//Proceedings of the IEEE conference on computer vision andpattern recognition.2013:2411-2418”,吴毅的论文:在线对象跟踪:一项基准测评)。图5为本发明与其他目标跟踪方法OPE、TRE、SRE值对比图。图5(a)是一次通过评估(OPE)成功率输出随设定阈值变化示意图,图5(b)是空间鲁棒性评估(SRE)成功率随设定阈值变化的示意图,图5(c)是时间鲁棒性评估(TRE)成功率随设定阈值变化的示意图。
三幅图中的图中横轴表示阈值,即跟踪方法输出的预测目标区域与真实目标区域的比值;纵轴均表示成功率,预测目标区域与真实目标区域比值超过此阈值为成功,成功预测的图片张数占总图片总数的比值,即成功率。阈值越大,说明要求跟踪方法预测的目标区域与真实目标区域重叠率越高,难度越大。图5(a)中OPE值表示计算一次预测区域与真实区域重叠比值,从图5(a)可以看出,在阈值大于0.5时,本发明较其他参与对比的方法(STRUCK、OAB、LSK、TLD)有较高的成功率,在阈值大于0.5时(即要求预测目标区域与真实目标区域重叠率大于0.5的情况),图中的算法都有较低的成功率,预测难度加大,实际情况中跟踪不要求标注出的目标区域大小完全和真实之一致,阈值在0.5时就可以展示出目标被跟踪出得的实际效果。图5(b)中的SRE值表示计算一次预测目标区域与一定范围内的真实目标区域重叠的成功率,第三步的训练使得网络分支结合两个方向的输出预测最终目标区域,在空间范围内做了折中,使得本发明较其他方法(STRUCK、YOLO+SORT、OAB、TLD)再多数阈值下的比较都具有更高的重叠率,说明本发明对于目标区域空间变化的情况有较好的预测结果;图5(c)中的TRE值表现了随时间推移进行连续12次预测目标区域与真实目标区域的重叠率计算,可以看出,本发明在阈值小于0.4时一直保持较高成功率。本发明利用LSTM长短时记忆网络对于处理具有连续性序列数据的优势,使得本发明较其他方法(OAB、CSK、OXT、YOLO)在本发明在阈值小于0.4时一直保持较高的成功率。当阈值大于0.4时,本发明不如其他算法优势明显,这是LSTM网络内部设计的复杂性造成的,有待进一步深入探索。但阈值小于0.4已经能够展现出目标被跟踪到的效果,满足目标跟踪的需求。
以上对本发明所提供的一种基于双向循环神经网络的跟踪方法进行了详细介绍。本文对本发明的原理及实施方式进行了阐述,以上说明用于帮助理解本发明的核心思想。应当指出,对于本技术领域的普通研究人员来说,在不脱离本发明原理的前提下,还可以对本发明进行若干改进和修饰,这些改进和修饰也落入本发明权利要求的保护范围内。

Claims (11)

1.一种基于双向长短期记忆神经网络的目标跟踪方法,其特征在于包括以下步骤:
第一步:构建目标跟踪系统;该系统由特征提取模块、目标检测模块、特征拼接模块、LSTMf正向长短时记忆循环网络分支和LSTMb反向长短时记忆循环网络分支、目标区域计算器构成,LSTMf正向长短时记忆循环网络简称LSTMf网络,LSTMb反向长短时记忆循环网络简称LSTMb网络;
特征提取模块为卷积神经网络,此网络由卷积层、池化层和全连接层组成;特征提取模块接收来自图像集合I中的连续图像,对I中图像进行特征提取,得到抽象特征图集合F(I);I={i1,i2,...,it,...,in},共有n张图像,1≤t≤n,图像之间具有时间连续性,it为图像集合I中第t张图像,也为it-1的下一帧图像;F(I)={F(i1),F(i2),...,F(it),...,F(in)},F(it)为it的抽象特征图;
目标检测模块是YOLO检测网络,目标检测模块从特征提取模块接收抽象特征图集合F(I),对F(I)中的抽象特征图逐张进行目标检测,得到最佳候选目标区域集合C,C=(c1,c2,...,ct,...,cn),ct为it上的最佳候选目标区域;
特征拼接模块将来自F(I)中的抽象特征图F(it)和C中的目标区域ct结合,得到带有上下文特征的目标区域dt;n个带有上下文特征的目标区域构成目标区域集合D,D=(d1,d2,...,dt,...,dn);
LSTMf网络和LSTMb网络为并行的两个分支,LSTMf网络分支接收来自目标区域集合D中正序的连续多个目标区域,输出预测目标区域lf;LSTMb网络分支接收来自目标区域集合D中倒序的连续多个目标区域,输出目标预测区域lb;LSTMf网络分支和LSTMb网络分支结构相同,都包含三个全连接层,第一层为输入层,第二层为隐含层,第三层为输出层;
目标区域计算器接收LSTMf网络输出和LSTMb网络输出,计算最终目标区域L;
第二步:准备LSTMf网络分支和LSTMb网络分支需要的训练数据,方法为:
2.1选择来自OTB100中的20个图像集即OTB20,作为对LSTMf网络和LSTMb网络的进行训练的训练数据集,OTB100指Online Tracking Benchmark Dateset中的100个图像集合,OTB20包含I1,I2,...,Im,...,I20 20个图像集合以及对应的图像中真实目标区域的回归框集合G1,G2,...,Gm,...,G20,m为整数,1≤m≤20;Im中的图片具有时间上的连续性,
Figure FDA0002898110590000011
Figure FDA0002898110590000012
Figure FDA0002898110590000013
表示Im在第j张即j时刻的图片,1≤j≤n,n是Im中图片的张数即Im共有n个时刻;G={g1,g2,...,gj,...,gn},gj表示Im中第j时刻图片的真实目标区域回归框,
Figure FDA0002898110590000021
为包含四个值的一维向量,
Figure FDA0002898110590000022
表示目标区域回归框中心相对于图像边界的坐标值,
Figure FDA0002898110590000023
表示目标区域的宽度和高度,四个值均为标量,四个值表示出了一个矩形的目标区域;
2.2特征提取模块对I1,I2,...,Im,...,I20中的图像进行特征提取:卷积层对Im中图像通过卷积方式进行特征提取,池化层对前一层的输出进行最大特征提取,全连接层将前一层的输出特征汇总,得到I1,I2,...,Im,...,I20相应的特征图集合序列F(I1),F(I2),...,F(Im),...,F(I20),将F(I1),F(I2),...,F(Im),...,F(I20)发送到目标检测模块,
Figure FDA0002898110590000024
Figure FDA0002898110590000025
表示图像集Im中第j张图片
Figure FDA0002898110590000026
对应的抽象特征图;
2.3目标检测模块对F(I1),F(I2),...,F(Im),...,F(I20)中的抽象特征图做检测,得到最佳目标候选区域集合序列C(I1),C(I2),...,C(Im),...,C(I20),方法为:
2.3.1初始化m=1;
2.3.2目标检测模块对F(Im)中的特征图进行目标检测,得到候选框集合序列
Figure FDA0002898110590000027
2.3.3目标检测模块采用非极大抑制方法即NMS方法计算
Figure FDA0002898110590000028
中的最佳候选区域,得到最佳候选区域集合
Figure FDA0002898110590000029
Figure FDA00028981105900000210
Figure FDA00028981105900000211
表示图像集Im中第j张图像上的最佳候选区域;
2.3.4令m=m+1,如果m≤20,转2.2.2步;如果m>20,说明得到了最佳目标候选区域序列C(I1),C(I2),...,C(Im),...,C(I20),转步骤2.4;
2.4特征拼接模块将C(I1),C(I2),...,C(Im),...,C(I20)中的最佳目标候选区域与F(I1),F(I2),...,F(Im),...,F(I20)中的最佳候选区域拼接,得到带有上下文特征的目标候选区域序列D1,D2,...,Dm,...,D20,将D1,D2,...,Dm,...,D20即20个目标候选区域集合发送给LSTMf网络分支和LSTMb网络分支,转第三步;
第三步:使用边框回归方法对输入为D1,D2,...,Dm,...,D20的LSTMf网络分支和LSTMb网络分支进行训练,得到网络权重参数,方法如下:
3.1初始化权重参数,将LSTMf网络分支权重参数集合
Figure FDA00028981105900000212
中所有元素值都初始化为[0,1]之间的随机数;将LSTMb网络分支权重参数集合
Figure FDA00028981105900000213
中所有元素值都初始化为[0,1]之间的随机数;
Figure FDA00028981105900000214
表示LSTMf网络分支输入层的权重参数,
Figure FDA00028981105900000215
表示LSTMf网络分支隐含层的权重参数,
Figure FDA0002898110590000031
表示LSTMf网络分支输出层的权重参数;
Figure FDA0002898110590000032
表示LSTMb网络分支输入层的权重参数,
Figure FDA0002898110590000033
表示LSTMb网络分支隐含层的权重参数,
Figure FDA0002898110590000034
表示LSTMb网络分支输出层的权重参数;
3.2设置网络训练参数:令网络模型学习率learningRate=0.00001,批处理尺寸batchsize=l,网络步长numstep为在范围[4,9]内的正整数;
3.3迭代计算LSTMf网络分支输出和LSTMb网络分支输出的差距及两分支网络输出均值与真实目标区域差距,得到损失值,最小化损失值并更新网络参数,直到满足迭代次数要求,得到权重参数,具体方法如下:
3.3.1初始化训练迭代参数itretation=1;
3.3.2如果itretation≤迭代阈值K,K是[1,100]内的整数,执行3.3.3步;否则将训练后的
Figure FDA0002898110590000035
做为LSTMf网络分支的权重参数集合,将训练后的
Figure FDA0002898110590000036
作为LSTMb网络分支的权重参数集合,转第四步;
3.3.3LSTMf网络分支接收D1,D2,...,Dm,...,D20
Figure FDA0002898110590000037
处理正向排序的带有上文特征的候选区域,得到正向预测的目标区域回归框初值集合
Figure FDA0002898110590000038
LSTMb网络分支接收集合D1,D2,...,Dm,...,D20,处理反向排序的带有上文特征的候选区域,得到反向预测的目标区域回归框初值集合
Figure FDA0002898110590000039
计算LSTMf网络分支和LSTMb网络分支输出回归框初值之间的差距,以及两个网络分支均值与真实目标区域回归框的差距,得到损失值,使用优化算法缩小损失值,更新一次网络权重,具体方法如下:
3.3.3.1初始化m=1;
3.3.3.2LSTMf网络分支接收Dm中的候选区域,输出预测目标区域回归框初值,组成预测目标区域回归框集合
Figure FDA00028981105900000310
LSTMb网络分支接收Dm中的候选区域,输出预测目标区域回归框初值,组成预测目标区域回归框集合
Figure FDA00028981105900000311
具体方法如下:
3.3.3.2.1初始化t=0;
3.3.3.2.2LSTMf网络分支从Dm中取出连续numstep个候选区域
Figure FDA00028981105900000312
将从
Figure FDA00028981105900000313
开始到
Figure FDA00028981105900000314
为止的numstep个候选区域依次输入到LSTMf网络分支中,得到LSTMf在t+numstep时刻对目标区域的预测回归框初值
Figure FDA0002898110590000041
Figure FDA0002898110590000042
放到集合
Figure FDA0002898110590000043
中;
Figure FDA0002898110590000044
为包含四个值的一维向量,
Figure FDA0002898110590000045
表示正向预测目标区域回归框中心相对于图像边界的坐标值,
Figure FDA0002898110590000046
表示正向预测目标区域回归框的宽度,
Figure FDA0002898110590000047
表示正向预测目标区域回归框的高度,四个值表示一个矩形的目标区域;
3.3.3.2.3LSTMb网络分支将
Figure FDA0002898110590000048
反转,得到
Figure FDA0002898110590000049
将从dt+numstep开始到dt+1为止的numstep个候选区域依次输入到LSTMb分支中,得到网络LSTMb网络分支在t+numstep时刻对目标区域的预测回归框初值
Figure FDA00028981105900000410
Figure FDA00028981105900000411
放到集合
Figure FDA00028981105900000412
中,
Figure FDA00028981105900000413
为一维向量;
Figure FDA00028981105900000414
表示反向预测目标区域回归框中心相对于图像边界的坐标值,
Figure FDA00028981105900000415
表示反向预测目标区域回归框的宽度,
Figure FDA00028981105900000416
表示反向预测目标区域回归框的高度,四个值表示出了一个矩形的目标区域;
3.3.3.2.4令t=t+1,如果t≤n-numstep,转3.3.3.2.2步;否则说明已经根据Dm中候选区域经过LSTMf网络分支得到目标区域回归框初始集合
Figure FDA00028981105900000417
同时经过LSTMb网络分支目标区域回归框初始集合
Figure FDA00028981105900000418
执行第3.3.3.2.5步;
3.3.3.2.5令
Figure FDA00028981105900000419
Figure FDA00028981105900000420
加入到
Figure FDA00028981105900000421
中;令
Figure FDA00028981105900000422
Figure FDA00028981105900000423
加入到
Figure FDA00028981105900000424
得到正向目标区域回归框预测初值集合
Figure FDA00028981105900000425
和反向目标区域回归框预测初值集合
Figure FDA00028981105900000426
3.3.3.3计算误差值Loss,令
Figure FDA00028981105900000427
其中,
Figure FDA00028981105900000428
Figure FDA00028981105900000429
体现了正向预测回归框初值
Figure FDA00028981105900000430
与反向预测回归框初值
Figure FDA00028981105900000431
的平均预测值,
Figure FDA00028981105900000432
为j时刻目标区域回归框的真值,MSE(·)为计算两个输入的均方误差的函数,
Figure FDA00028981105900000433
Figure FDA0002898110590000051
3.3.3.4使用Adam优化算法对误差值Loss最小化以更新网络权重参数;
3.3.3.5令m=m+1,如果m≤20,转步骤3.3.3.2;否则,说明D1,D2,...,Dm,...,D20都经过了LSTMf网络分支和LSTMb网络分支处理,集合
Figure FDA0002898110590000052
Figure FDA0002898110590000053
中的权重参数值都得到一次更新,转步骤3.3.2;
第四步:目标跟踪系统对图像集合I中连续图像进行特征提取、目标检测,识别目标区域,方法是:
4.1特征提取模块接收来自图像集合I中的n张连续图像,对图像进行特征提取,得到抽象特征图集合F(I);I={i1,i2,...,it,...,in},F(I)={f1,f2,...,fj,...,fn},fi是维度为1×4096的向量;
4.2目标检测模块接收来自特征提取模块的F(I),对F(I)中的抽象特征图逐张进行目标检测,得到最佳候选目标区域集合C(I),C(I)={c1,c2,...,cj,...,cn},C(I)中包含n张抽象特征图上的目标区域,方法为:
4.2.1目标检测模块对F(I)={f1,f2,...,fj,...,fn}中的特征图进行目标检测,得到第二候选框集合序列P(f1),P(f2),...,P(fj),...,P(fn);
4.2.2目标检测模块采用非极大抑制方法即NMS方法计算第二候选框集合P(f1),P(f2),...,P(fj),...,P(fn)中的最佳候选区域,得到最佳候选区域集合C(I)={c1,c2,...,cj,...,cn},cj表示图像集I中第j张图像上的最佳候选区域;
4.3特征拼接模块将F(I)中的抽象特征图和C(I)中的最佳目标候选区域拼接,得到带有上下文特征的目标区域集合D,D={d1,d2,...,dt,...,dn};
4.4 LSTMf网络载入训练后的Wf中的网络权重参数,LSTMb网络分支载入训练后的Wb中的网络权重参数;
4.5初始化t=1;
4.6 LSTMf网络分支执行4.6.1步,处理D的正向序列输入得到候选区域中的目标区域回归框;同时LSTMb网络分支执行4.6.2步,处理D的反向序列输入得到候选区域中的目标区域回归框:
4.6.1 LSTMf网络分支接收集合D,将D中的连续numstep个候选区域dt,dt+1,...,dt+numstep-1,从dt到dt+numstep-1依次输入到LSTMf网络分支中,得到LSTMf在t+numstep-1时刻对目标区域的预测回归框
Figure FDA0002898110590000061
Figure FDA0002898110590000062
放到集合Lf中;
Figure FDA0002898110590000063
为包含四个值的一维向量,
Figure FDA0002898110590000064
表示目标区域回归框中心相对于图像边界的坐标值,
Figure FDA0002898110590000065
表示目标区域回归框的宽度和高度;
4.6.2LSTMb网络分支接收集合D,将dt,dt+1,...,dt+numstep-1反转,得到序列dt+numstep-1,dt+4,...,dt,将从dt+numstep-1开始到dt为止的numstep个候选区域依次输入到LSTMb分支中,得到LSTMb网络分支在t+numstep-1时刻对目标区域回归框的预测
Figure FDA0002898110590000066
Figure FDA0002898110590000067
放到Lb中;
Figure FDA0002898110590000068
Figure FDA0002898110590000069
为一维向量,
Figure FDA00028981105900000610
表示目标区域左上角的坐标值,
Figure FDA00028981105900000611
表示目标区域的宽度和高度四个值均为标量;
4.7目标区域计算器计算最终目标区域,得到目标区域集合L;计算器计算
Figure FDA00028981105900000612
表示最终预测目标区域回归框中心点横坐标值,
Figure FDA00028981105900000613
表示最终预测目标区域回归框中心点横坐标值;
Figure FDA00028981105900000614
表示最终预测目标区域回归框的宽度,
Figure FDA00028981105900000615
表示最终预测目标区域回归框的高度;令lt+numstep-1表示目标区域在I中t+numstep-1时刻图像中的最终预测,lt+numstep-1=[xt+numstep-1,yt+numstep-1,wt+numstep-1,ht+numstep-1],将lt+numstep-1加入到集合L中;
4.8令t=t+1,如果t≤n-numstep,转4.6步;否则说明预测出图像集合I中从t+numstep-1时刻到n时刻的目标区域回归框,得到集合L,L=lnumstep,lnumstep+1,...,ln;执行第4.9步;
4.9令l1,l2,...,lnumstep-1=lnumstep,将l1,l2,...,lnumstep-1加入到L中,得到包含所有时刻的最终目标区域回归框预测的集合L,L=l1,l2,...,ln,将L中的目标区域回归框可视化在图像集合I中对应的图像上后,图像逐帧播放,显示目标在每帧中都被矩形框框出,即显示出目标跟踪的效果。
2.如权利要求1所述的一种基于双向长短期记忆神经网络的目标跟踪方法,其特征在于所述构成特征提取模块的卷积神经网络共包含24个卷积层,4个池化层和1个全连接层,共29层;池化层分别为第2、4、9、20层,全联接层为第29层,其它层均为卷积层。
3.如权利要求1所述的一种基于双向长短期记忆神经网络的目标跟踪方法,其特征在于所述LSTMf网络分支和LSTMb网络分支的输入层、隐含层使用长短期记忆网络单元即LSTM单元构建,包含5100个LSTM单元。
4.如权利要求1所述的一种基于双向长短期记忆神经网络的目标跟踪方法,其特征在于2.3.2步所述目标检测模块对F(Im)中的特征图进行目标检测,得到候选框集合序列
Figure FDA0002898110590000071
的方法为:
2.3.2.1初始化j=1;
2.3.2.2目标检测模块对
Figure FDA0002898110590000072
进行目标检测,得到候选框集合
Figure FDA0002898110590000073
Figure FDA0002898110590000074
Figure FDA0002898110590000075
pi表示特征图fj m上的第i个候选框,i为正整数,1≤i≤98;
2.3.2.3令j=j+1,如果j≤n,转2.3.2.2,否则说明已经检测出F(Im)中所有特征图中的候选框,得到
Figure FDA0002898110590000076
5.如权利要求1所述的一种基于双向长短期记忆神经网络的目标跟踪方法,其特征在于2.3.3步所述目标检测模块计算
Figure FDA0002898110590000077
中的最佳候选区域的方法为:
2.3.3.1初始化j=1;
2.3.3.2目标检测模块使用NMS方法计算
Figure FDA0002898110590000078
中最佳候选区域,得到
Figure FDA0002898110590000079
加入到最佳候选区域集合C(Im)中;
2.3.3.3令j=j+1,如果j≤n,转2.3.3.2;否则,说明已经计算出所有候选框集合中的最佳候选区域,得到了C(Im)。
6.如权利要求1所述的一种基于双向长短期记忆神经网络的目标跟踪方法,其特征在于2.4步所述特征拼接模块将C(I1),C(I2),...,C(Im),...,C(I20)中的最佳目标候选区域与F(I1),F(I2),...,F(Im),...,F(I20)中的最佳候选区域拼接的方法是:
2.4.1初始化m=1;
2.4.2特征拼接模块将C(Im)中的最佳候选区域
Figure FDA0002898110590000081
与F(Im)中的抽象特征图
Figure FDA0002898110590000082
分别拼接,即将
Figure FDA0002898110590000083
Figure FDA0002898110590000084
拼接得到图片集合Im中1时刻图片
Figure FDA0002898110590000085
的带有上下文特征的目标候选区域
Figure FDA0002898110590000086
…,将
Figure FDA0002898110590000087
Figure FDA0002898110590000088
拼接得到图片集合Im中j时刻图片
Figure FDA00028981105900000817
的带有上下文特征的目标候选区域
Figure FDA00028981105900000810
…,将
Figure FDA00028981105900000811
Figure FDA00028981105900000812
拼接得到图片集合Im中n时刻图片
Figure FDA00028981105900000813
的带有上下文特征的目标候选区域
Figure FDA00028981105900000814
得到带有上下文特征的目标候选区域集合Dm
Figure FDA00028981105900000815
Figure FDA00028981105900000816
Dm中有n个目标区域;
2.4.3令m=m+1,如果m≤20,转步骤2.4.2;否则说明得到了带有上下文特征的目标候选区域序列D1,D2,...,Dm,...,D20
7.如权利要求1所述的一种基于双向长短期记忆神经网络的目标跟踪方法,其特征在于3.2步所述numStep=6。
8.如权利要求1所述的一种基于双向长短期记忆神经网络的目标跟踪方法,其特征在于3.3.2步所述迭代阈值K为30。
9.如权利要求1所述的一种基于双向长短期记忆神经网络的目标跟踪方法,其特征在于4.2.1步所述目标检测模块对F(I)中的特征图进行目标检测,得到第二候选框集合序列P(f1),P(f2),...,P(fj),...,P(fn)的方法为:
4.2.1.1初始化j=1;
4.2.1.2目标检测模块对特征图fj进行目标检测,得到候选框集合P(fj),P(fj)={p1,p2,...,pi,…,p98},pi表示特征图fj上的第i个候选框,i为正整数,1≤i≤98;
4.2.1.3令j=j+1,如果j≤n,转4.2.1.2,否则说明已经检测出所有的特征图中的候选框,得到第二候选框集合序列P(f1),P(f2),...,P(fj),...,P(fn)。
10.如权利要求1所述的一种基于双向长短期记忆神经网络的目标跟踪方法,其特征在于4.2.2步所述目标检测模块计算候选框集合P(fj)中的最佳候选区域的方法为:
4.2.2.1初始化j=1;
4.2.2.2目标检测模块使用NMS方法计算P(fj)中最佳候选区域,得到cj,加入到最佳候选区域集合C(I)中;
4.2.2.3令j=j+1,如果j≤n,转4.2.2.2;否则,说明已经计算出所有候选框集合中的最佳候选区域,得到C(I)。
11.如权利要求1所述的一种基于双向长短期记忆神经网络的目标跟踪方法,其特征在于4.3步所述特征拼接模块将F(I)中的抽象特征图和C(I)中的最佳目标候选区域进行拼接的方法为:
4.3.1初始化j=1;
4.3.2特征拼接模块将抽象特征图fj与最佳目标候选区域cj拼接,即将表示fj的数值向量与表示cj的数值向量首尾串联,得到上下文特征的目标区域dj,将dj加入到集合D中;
4.3.3令j=j+1,如果j≤n,转4.3.2;否则,说明已经将F(I)中的抽象特征图与C(I)中的最佳目标候选区域拼接完成。
CN201910656757.9A 2019-07-19 2019-07-19 一种基于双向长短期记忆神经网络的目标跟踪方法 Active CN110390294B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910656757.9A CN110390294B (zh) 2019-07-19 2019-07-19 一种基于双向长短期记忆神经网络的目标跟踪方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910656757.9A CN110390294B (zh) 2019-07-19 2019-07-19 一种基于双向长短期记忆神经网络的目标跟踪方法

Publications (2)

Publication Number Publication Date
CN110390294A CN110390294A (zh) 2019-10-29
CN110390294B true CN110390294B (zh) 2021-03-09

Family

ID=68286750

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910656757.9A Active CN110390294B (zh) 2019-07-19 2019-07-19 一种基于双向长短期记忆神经网络的目标跟踪方法

Country Status (1)

Country Link
CN (1) CN110390294B (zh)

Families Citing this family (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111445498A (zh) * 2020-03-19 2020-07-24 哈尔滨工程大学 一种采用Bi-LSTM神经网络的目标跟踪方法
CN111932583A (zh) * 2020-06-05 2020-11-13 西安羚控电子科技有限公司 一种基于复杂背景下的时空信息一体化智能跟踪方法
CN111754541B (zh) * 2020-07-29 2023-09-19 腾讯科技(深圳)有限公司 目标跟踪方法、装置、设备及可读存储介质
CN112163372B (zh) * 2020-09-21 2022-05-13 上海玫克生储能科技有限公司 一种动力电池的soc估算方法
CN112381021B (zh) * 2020-11-20 2022-07-12 安徽一视科技有限公司 一种基于深度学习的人员检测计数方法
CN112268564B (zh) * 2020-12-25 2021-03-02 中国人民解放军国防科技大学 一种无人机降落空间位置和姿态端到端估计方法

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104952448A (zh) * 2015-05-04 2015-09-30 张爱英 一种双向长短时记忆递归神经网络的特征增强方法及系统
CN106845351A (zh) * 2016-05-13 2017-06-13 苏州大学 一种用于视频的基于双向长短时记忆单元的行为识别方法
CN108320297A (zh) * 2018-03-09 2018-07-24 湖北工业大学 一种视频目标实时跟踪方法及系统
US10242266B2 (en) * 2016-03-02 2019-03-26 Mitsubishi Electric Research Laboratories, Inc. Method and system for detecting actions in videos
CN109816012A (zh) * 2019-01-22 2019-05-28 南京邮电大学 一种融合上下文信息的多尺度目标检测方法
CN109872346A (zh) * 2019-03-11 2019-06-11 南京邮电大学 一种支持循环神经网络对抗学习的目标跟踪方法

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2016022579A2 (en) * 2014-08-05 2016-02-11 Massachusetts Institute Of Technology Design of a free-space optical communication module for small satellites
CN108846426B (zh) * 2018-05-30 2022-01-11 西安电子科技大学 基于深度双向lstm孪生网络的极化sar分类方法
CN109344822B (zh) * 2018-09-03 2022-06-03 电子科技大学 一种基于长短期记忆网络的场景文本检测方法
CN109344725B (zh) * 2018-09-04 2020-09-04 上海交通大学 一种基于时空关注度机制的多行人在线跟踪方法

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104952448A (zh) * 2015-05-04 2015-09-30 张爱英 一种双向长短时记忆递归神经网络的特征增强方法及系统
US10242266B2 (en) * 2016-03-02 2019-03-26 Mitsubishi Electric Research Laboratories, Inc. Method and system for detecting actions in videos
CN106845351A (zh) * 2016-05-13 2017-06-13 苏州大学 一种用于视频的基于双向长短时记忆单元的行为识别方法
CN108320297A (zh) * 2018-03-09 2018-07-24 湖北工业大学 一种视频目标实时跟踪方法及系统
CN109816012A (zh) * 2019-01-22 2019-05-28 南京邮电大学 一种融合上下文信息的多尺度目标检测方法
CN109872346A (zh) * 2019-03-11 2019-06-11 南京邮电大学 一种支持循环神经网络对抗学习的目标跟踪方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
《Fast R-CNN》;Ross Girshick,et al;《arXiv:1504.08083v2》;20150927;全文 *
《Online Object Tracking: A Benchmark》;Yi Wu,et al;《IEEE conference on computer vision and pattern recognition》;20131231;全文 *

Also Published As

Publication number Publication date
CN110390294A (zh) 2019-10-29

Similar Documents

Publication Publication Date Title
CN110390294B (zh) 一种基于双向长短期记忆神经网络的目标跟踪方法
Girdhar et al. Detect-and-track: Efficient pose estimation in videos
Liu et al. Exploiting unlabeled data in cnns by self-supervised learning to rank
Memon et al. Loop closure detection using supervised and unsupervised deep neural networks for monocular SLAM systems
CN111259779B (zh) 一种基于中心点轨迹预测的视频动作检测方法
CN111046821B (zh) 一种视频行为识别方法、系统及电子设备
CN110705463A (zh) 基于多模态双流3d网络的视频人体行为识别方法及系统
Kim et al. Fast pedestrian detection in surveillance video based on soft target training of shallow random forest
Zhu et al. Efficient action detection in untrimmed videos via multi-task learning
CN113095254B (zh) 一种人体部位关键点的定位方法及系统
Ma et al. An improved one-stage pedestrian detection method based on multi-scale attention feature extraction
Pavel et al. Recurrent convolutional neural networks for object-class segmentation of RGB-D video
Mocanu et al. Single object tracking using offline trained deep regression networks
Jiao et al. Magicvo: End-to-end monocular visual odometry through deep bi-directional recurrent convolutional neural network
Wang et al. Quality-aware dual-modal saliency detection via deep reinforcement learning
Yang et al. Deep learning network model based on fusion of spatiotemporal features for action recognition
Osman et al. LoopNet: Where to focus? Detecting loop closures in dynamic scenes
Fu et al. Deep residual split directed graph convolutional neural networks for action recognition
Islam et al. Representation for action recognition with motion vector termed as: SDQIO
Zhang et al. Visual Object Tracking via Cascaded RPN Fusion and Coordinate Attention.
Wang et al. Non-local attention association scheme for online multi-object tracking
Guo et al. An adaptive kernelized correlation filters with multiple features in the tracking application
CN112184767A (zh) 对运动物体进行轨迹跟踪的方法、装置、设备及存储介质
Dian et al. Loop closure detection based on local-global similarity measurement strategies
Neuland et al. Interval inspired approach based on temporal sequence constraints to place recognition

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant