CN110390294A - 一种基于双向长短期记忆神经网络的目标跟踪方法 - Google Patents

一种基于双向长短期记忆神经网络的目标跟踪方法 Download PDF

Info

Publication number
CN110390294A
CN110390294A CN201910656757.9A CN201910656757A CN110390294A CN 110390294 A CN110390294 A CN 110390294A CN 201910656757 A CN201910656757 A CN 201910656757A CN 110390294 A CN110390294 A CN 110390294A
Authority
CN
China
Prior art keywords
lstm
target
network
frame
target area
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201910656757.9A
Other languages
English (en)
Other versions
CN110390294B (zh
Inventor
史殿习
潘晨
管乃洋
夏雨生
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
National University of Defense Technology
Original Assignee
National University of Defense Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by National University of Defense Technology filed Critical National University of Defense Technology
Priority to CN201910656757.9A priority Critical patent/CN110390294B/zh
Publication of CN110390294A publication Critical patent/CN110390294A/zh
Application granted granted Critical
Publication of CN110390294B publication Critical patent/CN110390294B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/25Fusion techniques
    • G06F18/253Fusion techniques of extracted features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/044Recurrent networks, e.g. Hopfield networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • G06V20/46Extracting features or characteristics from the video content, e.g. video fingerprints, representative shots or key frames
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • G06V20/48Matching video sequences

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • General Engineering & Computer Science (AREA)
  • Computing Systems (AREA)
  • Software Systems (AREA)
  • Molecular Biology (AREA)
  • Computational Linguistics (AREA)
  • Biophysics (AREA)
  • Biomedical Technology (AREA)
  • Mathematical Physics (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Multimedia (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开了一种基于双向长短期记忆神经网络的目标跟踪方法,目的是提高目标识别准确率。技术方案是先构建由特征提取模块、目标检测模块、特征拼接模块、LSTMf网络分支和LSTMb网络分支、目标区域计算器构成的目标跟踪系统。然后选择OTB20作为对LSTMf网络和LSTMb网络的进行训练的训练数据集,采用边框回归方法对LSTMf网络分支和LSTMb网络分支进行训练,得到网络权重参数。最后采用目标跟踪系统对连续图像进行特征提取、目标检测,识别目标区域,训练后的LSTMf网络分支和训练后的LSTMb网络分支分别处理正向排序及反向排序的候选区域,目标区域计算器接收LSTMf网络输出和LSTMb网络输出,计算最终目标区域。本发明适合处理具有连续性的视频数据序列,目标跟踪准确率高。

Description

一种基于双向长短期记忆神经网络的目标跟踪方法
技术领域
本发明涉及计算机视觉目标跟踪领域,具体涉及一种基于双向长短期记忆神经网络对 视频序列中目标进行跟踪的方法。
背景技术
视觉系统是人类同外界交互的主要感官系统之一,是人们获取信息,接受外界丰富资 源的重要来源。视频中丰富的画面不仅能够人们带来各种视觉效果体验,还包含了大量的 语义信息和特征内容,帮助人们理解视频所要传达的信息。在全球智能化及信息化的时代, 视频数据的分析与处理技术一直是科学家们重点研究内容。人工智能技术的发展与硬件设 备计算性能的提升,推动了计算机视觉领域图像处理、目标识别、视频分析等多项技术的 深入研究。视频分析融合了计算机视觉领域的中层处理和高层处理阶段,即对图像进行处 理,从而研究图像中物体目标的规律,或者为系统的决策提供语义或非语义的支持,包括 运动检测、目标检测分类、目标跟踪、行为理解、事件监测等。
视频目标跟踪方法的研究与应用作为计算机视觉领域的一个重要分支,正日益广泛地 应到人机交互、无人机设备、智能监控系统、无人驾驶等领域,因而目标跟踪方法成为热 门研究的课题之一。目标跟踪是计算机视觉领域的一项重要任务。在计算机视觉领域,视 觉跟踪一般是指对单目标的跟踪。具体来说,目标跟踪指的是,根据在第一帧图像中给定 目标的回归框信息,实现预测后续每帧图像中目标的状态,对应目标的回归框信息。通过 直观标注的目标信息,可以计算出目标物体的位置和尺度信息,生成持续不断的轨迹信息, 方便后续的目标位置预测、轨迹预测、行为检测和异常分析等任务。目前城市安防系统中 使用的智能监控系统中,目标跟踪技术正在被广泛应用,实现特定目标的追踪,特定目标 的行为预测等任务。因此对目标跟踪技术展开研究是十分必要的。
目标跟踪算法主要分为两大类,经典的生成式算法和流行的判别式算法。经典的生成 式算法使用基于概率密度分布、特征点光流或者粒子滤波,在跟踪效果的精度上有折损。 判别式跟踪算法又称为检测式跟踪,算法训练一个检测器,对目标位置及尺度进行初步判 断,再利用跟踪算法或者目标框回归算法给出最终的目标定位。基于深度学习的判别式跟 踪算法利用神经网络提取的深层卷积特征,具有语义更加丰富、表达能力更强的特点。目 标在实际场景下现实场景中存在主动性的不确定行为,导致了目标跟踪需要解决目标大小 变化、外观变化、目标受遮挡、实时性需求和背景干扰等问题。目标跟踪技术面对的是实 际场景中的情况,会因为光照、目标大小、旋转、移动速度等问题增加跟踪难度。
目标跟踪任务使用的视觉数据为视频数据,视频数据的时序特征能够提供更好的描述 运动目标在时间上的连续性,提供更多的上下文信息。基于深度学习的跟踪算法能够对目 标提取鲁棒的深度特征,利用深层特征的不变性提高检测率,但是当目标出现巨大形变或 者出现遮挡的情况时,只利用目标的外观特征信息不能得到准确的目标定位,忽略了视频 数据提供的目标的连续性动态特征。因此,利用视频连续性提供的更丰富的目标动态信息, 有助于更准确地对目标行为进行下一步预测。
视频数据的连续性是分析特征的一个重要研究点。现有的目标跟踪算法致力于提取更 加鲁棒的目标特征,提高目标在初步识别过程中的检测率,从而提高在后续的跟踪准确率。 动态目标在视频中行为具有时间连续性,在连续的动态时空中不会出现较大波动,并且不 管是从时间的正向序列还是反向序列来看,目标行为都具有连续性。目标在正向时间起始 动作到终止动作,可以看作是倒叙时间中的终止动作和起始动作。利用正反向时序中目标 连续信息,能够有效地提高在视频数据中目标的位置判断及行为轨迹预测结果。
因此,如何充分利用视频数据的时序信息,结合正反向时间序列中目标的动态连续性, 提供一种鲁棒的目标跟踪方法,是本领域技术人员正在探讨的热点问题。
发明内容
本发明要解决的技术问题是提供一种基于双向长短期记忆神经网络的目标跟踪方法。 此方法基于深度学习检测式判别框架,利用视频数据的时序信息,提高目标识别的准确率, 实现当目标出现外观形变、大小变化和漂移等情况时,仍然能够有效跟踪目标的要求。
为解决上述技术问题,本发明技术方案是先构建由特征提取模块、目标检测模块、特 征拼接模块、LSTMf网络分支和LSTMb网络分支、目标区域计算器构成的目标跟踪系统。然后选择OTB20作为对LSTMf网络和LSTMb网络的进行训练的训练数据集,采用边框 回归方法对LSTMf网络分支和LSTMb网络分支进行训练,得到网络权重参数。最后采用 目标跟踪系统对连续图像进行特征提取、目标检测,识别目标区域,训练后的LSTMf网络 分支和训练后的LSTMb网络分支分别处理正向排序及反向排序的候选区域,目标区域计算 器接收LSTMf网络输出和LSTMb网络输出,计算最终目标区域。
本发明主要包括以下具体步骤:
第一步:构建目标跟踪系统。该系统由特征提取模块、目标检测模块、特征拼接模块、 LSTMf正向长短时记忆循环网络(以下简称LSTMf网络)分支和LSTMb反向长短时记忆循环网络(以下简称LSTMb网络)分支、目标区域计算器构成。
特征提取模块为卷积神经网络(称为netl),此网络共包含24个卷积层,4个池化层和1个全连接层,共29层。池化层分别为第2、4、9、20层,全联接层为第29层,其它层均 为卷积层。特征提取模块接收来自图像集合I中的连续图像,对I中图像进行特征提取,得 到抽象特征图集合F(I)。I={i1,i2,…,it,...,in},共有n张图像,图像之间具有时间连续性,it为图像集合I中第t张图像,也为it-1的下一帧图像。n张抽象特征图构成抽象特征图集合,F(I)={F(i1),F(i2),…,F(it),…,F(in)},F(it)为it的抽象特征图。
目标检测模块是YOLO检测网络(见文献“You Only Look Once:Unified,Real-Time Object Detection[J].2015.”Redmon J,Divvala S等人的论文:你只需要查看一次:统一的、 实时目标检测)。目标检测模块从特征提取模块接收抽象特征图集合F(I),对F(I)中的抽象 特征图逐张进行目标检测,得到最佳候选目标区域集合C。C=(c1,c2,...,ct,...,cn),ct为图 像集合I中第t张图像it上的最佳候选目标区域。
特征拼接模块将来自F(I)中的抽象特征图F(it)和C中的目标区域ct结合,得到带有上 下文特征的目标区域dt。n个带有上下文特征的目标区域构成目标区域集合D, D=(d1,d2,...,dt,...,dn)。因为I的图像具有时间连续性,D中带有上下文特征的目标区域与I中图像一一对应,所以从d1到dn也具有时间时间连续性。
LSTMf网络和LSTMb网络为并行的两个分支,LSTMf网络分支接收来自目标区域集合D中正序的连续多个目标区域,输出预测目标区域lf;LSTMb网络分支接收来自目标区域集合D中倒序的连续多个目标区域,输出目标预测区域lb。LSTMf网络分支和LSTMb网络分 支结构相同,都包含三个全连接层,第一层为输入层,第二层为隐含层,第三层为输出层。 输入层、隐含层使用长短期记忆网络单元(以下称为LSTM单元)(见文献“Long short-termmemory.[J].Neural Computation,1997,9(8):1735-1780.”,Hochreiter S、SchmidhuberJ.和 Girshick R等人的论文:长短期记忆网络)构建,包含5100个LSTM单元。
目标区域计算器接收LSTMf网络输出和LSTMb网络输出,计算最终目标区域L。
第二步:准备LSTMf网络分支和LSTMb网络分支需要的训练数据。目标跟踪系统中的特征提取模块接收训练数据集中图片,得到训练数据集中图片的抽象特征图;目标检测模块在抽象特征图上做检测,提取抽象特征图的最佳目标候选区域,特征拼接模块将最佳目标候选区域与该最佳目标候选区域所属训练数据集图片的抽象特征图拼接,得到带有上下文特征的目标候选区域集合。具体方法为:
2.1选择来自OTB100中的20个图像集(称为OTB20),作为对LSTMf网络和LSTMb网络的进行训练的训练数据集,OTB100指Online Tracking Benchmark Dateset(见文献“Wu Y,Lim J,Yang M H.Online object tracking:A benchmark[C]//Proceedings of the IEEEconference on computer vision and pattern recognition.2013:2411-2418”,吴毅的论文:在线对 象跟踪:一项基准测评)中的100个图像集合。OTB20包含I1,I2,…,Im,…,I2020个图像集 合以及对应的图像中真实目标区域的回归框集合G1,G2,...,Gm,...,G20,m为整数,1≤m≤20。 Im中的图片具有时间上的连续性, 表示Im在第j张(也即j时刻) 的图片,1≤j≤n,n是Im中图片的张数(即Im共有n个时刻)。从连续播放可构成 一个完整的视频。G={g1,g2,...,gj,...,gn},gj表示Im中第j时刻图片的真实目标区域回归框, 为包含四个值的一维向量,表示目标区域回归框中心相对于图像 边界的坐标值,表示目标区域的宽度和高度,四个值均为标量,四个值表示出了一 个矩形的目标区域。
2.2特征提取模块对I1,I2,...,Im,...,I20中的图像进行特征提取。特征提取模块共包含24个 卷积层,4个池化层和1个全连接层,共29层。池化层分别为第2、4、9、20层,全联接 层为第29层,其它层均为卷积层。其中,卷积层对Im中图像通过卷积方式进行特征提取,池化层对前一层输出(若池化层为第25层,则前一层指神经网络的第24层。)进行最大特 征提取,全连接层(图1中的fc29)将前一层输出特征汇总(见文献“Fast R-CNN[J].ComputerScience,2015”,Girshick R.的论文:基于区域的快速卷积神经网络的第2页),得到 I1,I2,…,Im,…,I20相应的特征图集合序列F(I1),F(I2),...,F(Im),...,F(I20),并将 F(I1),F(I2),...,F(Im),...,F(I20)发送到目标检测模块, 表示图像集Im中第j张图片对应的抽象特征图。由于目标在连续图像中的行为存在密切相关性,所以整张图片的特征对于判断目标位置提供了有效信息。在这里抽象特征图包含了目标相关关键信息及上下文信息。
2.3目标检测模块对F(I1),F(I2),...,F(Im),...,F(I20)中的抽象特征图做检测,得到最佳目 标候选区域集合序列C(I1),C(I2),...,C(Im),...,C(I20)。
具体方法为:
2.3.1初始化m=1;
2.3.2目标检测模块对F(Im)中的特征图进行目标检测,得到候选框集合序列具体方法为:
2.3.2.1初始化j=1;
2.3.2.2目标检测模块对进行目标检测(YOLO检测网络的主要功能即是进行目标检 测),得到候选框集合 pi表示特征图上的第i个候选 框,i为正整数,1≤i≤98。
2.3.2.3令j=j+1,如果j≤n,转2.3.2.2,否则说明已经检测出F(Im)中所有特征图中的 候选框,得到候选框集合序列转2.3.3。
2.3.3目标检测模块采用非极大抑制方法即NMS方法(Non-Maximum Suppression,方法,见文献“Efficient Non-Maximum Suppression.”18th International Conferenceon Pattern Recognition(ICPR′06)3(2006):850-855,Neubeck,Alexander和Luc VanGool的论文:有效 的非极大抑制方法),计算候选框集合序列中的最佳候选 区域,得到最佳候选区域集合 表示图像集Im中第j张(即j 时刻)图像上的最佳候选区域。具体方法为:
2.3.3.1初始化j=1;
2.3.3.2目标检测模块使用NMS方法计算中最佳候选区域,得到加入到最 佳候选区域集合C(Im)中;
2.3.3.3令j=j+1,如果j≤n,转2.3.3.2;否则,说明已经计算出所有候选框集合中的 最佳候选区域,得到了C(Im),转2.3.4。
2.3.4令m=m+1,如果m≤20,转2.2.2步;如果m>20,说明 F(I1),F(I2),...,F(Im),...,F(I20)中的所有特征图都已由目标检测模块提取出最佳候选区域,得 到了最佳目标候选区域序列C(I1),C(I2),...,C(Im),...,C(I20),转步骤2.4。
2.4特征拼接模块将C(I1),C(I2),...,C(Im),...,C(I20)中的最佳目标候选区域与F(I1),F(I2),...,F(Im),...,F(I20)中的最佳候选区域拼接,得到带有上下文特征的目标候选区域 序列D1,D2,...,Dm,...,D20。具体方法是:
2.4.1初始化m=1;
2.4.2特征拼接模块将C(Im)中的最佳候选区域与F(Im)中的抽象特征 图分别拼接,即将拼接得到图片集合Im中1时刻图片的带有上下 文特征的目标候选区域拼接得到图片集合Im中j时刻图片的带有上下 文特征的目标候选区域拼接得到图片集合Im中n时刻图片的带有上下 文特征的目标候选区域由此得到带有上下文特征的目标候选区域集合Dm 图像集合Im中有n张图片,即Dm中有n个目标区域。
2.4.3令m=m+1,如果m≤20,转步骤2.4.2;否则说明训练数据集OTB20中的20 个图像集合都经过了特征提取模块和目标检测模块,得到了对应的带有上下文特征的目标候选区域序列D1,D2,...,Dm,...,D20,将D1,D2,...,Dm,...,D20即20个目标候选区域集合发送给 LSTMf网络分支和LSTMb网络分支,转第三步。
第三步:使用边框回归方法(见文献“You Only Look Once:Unified,Real-TimeObject Detection[J].2015.”Redmon J,Divvala S等人的论文:你只需要查看一次:统一的、实时 目标检测)对输入为D1,D2,...,Dm,...,D20的LSTMf网络分支和LSTMb网络分支进行训练,得 到网络权重参数。
具体方法如下:
3.1初始化权重参数,将LSTMf网络分支权重参数集合中所有元素 值都初始化为[0,1]之间的随机数;将LSTMb网络分支权重参数集合中所 有元素值都初始化为[0,1]之间的随机数。
表示LSTMf网络分支输入层的权重参数,表示LSTMf网络分支隐含层的权重参数, 表示LSTMf网络分支输出层的权重参数;表示LSTMb网络分支输入层的权重参数,表示LSTMb网络分支隐含层的权重参数,表示LSTMb网络分支输出层的权重参数。
3.2设置网络训练参数:网络模型学习率(leamingRate)、批处理尺寸(batchsize)网络 步长(numStep)长numstep为在范围[4,9]内的正整数,实验证明,leamingRate=0.00001, batchsize=1,numStep=6时,跟踪到目标的准确率最高。
3.3迭代计算LSTMf网络分支输出和LSTMb网络分支输出的差距及两分支网络输出均 值与真实目标区域差距,得到损失值,最小化损失值并更新网络参数,直到满足迭代次数 要求,得到权重参数。具体方法如下:
3.3.1初始化训练迭代参数itretation=1;
3.3.2如果itretation≤迭代阈值K,K是[1,100]内的整数,(实验证明,训练迭代30(即K为30)时,跟踪到目标的准确率最高),执行3.3.3步;否则说明训练满足迭代次数要求, 训练结束,将训练后的做为LSTMf网络分支的权重参数集合,将训练后 的作为LSTMb网络分支的权重参数集合,转第四步。
3.3.3 LSTMf网络分支接收D1,D2,...,Dm,...,D20处理正向排序 的带有上文特征的候选区域,得到正向预测的目标区域回归框初值集合 LSTMb网络分支接收集合D1,D2,...,Dm,...,D20,处理反向排序的带有上文特征的候选区域,得 到反向预测的目标区域回归框初值集合计算LSTMf网络分支和LSTMb网络分支输出回归框初值之间的差距,以及两个网络分支均值与真实目标区域回归框的差 距,得到损失值,使用优化算法缩小损失值,更新一次网络权重,具体方法如下:
3.3.3.1初始化m=1,
3.3.3.2 LSTMf网络分支接收Dm中的候选区域,输出预测目标区域回归框初值,组成预 测目标区域回归框集合LSTMb网络分支接收Dm中的候选区域,输出预测目标区域回归 框初值,组成预测目标区域回归框集合具体方法如下:
3.3.3.2.1初始化t=0;
3.3.3.2.2 LSTMf网络分支从Dm中取出连续numstep个候选区域将从开始到为止的numstep个候选区域依次输入到LSTMf网络分支中,得到LSTMf在t+numstep时刻对目标区域的预测回归框初值放到集合中。为包含四个值的一维向量,表示正向预测目标区域回归框中心相对于图像边界的坐标值,表示正向预测目标区域回归框的宽度,表示正向预测目标区域回归框的高度,四个值表示出了一个矩形的目标区域。
3.3.3.2.3 LSTMb网络分支将支转,得到将 从dt+numstep开始到dt+1为止的numstep个候选区域依次输入到LSTMb分支中,得到网络LSTMb网络分支在t+numstep时刻对目标区域的预测回归框初值放到集合中。为一维向量。表示反向预测目标区域回归框中心相对于图像边界的坐标值,表示反向预测目标区域回归框的宽度,表示反向预测目标区域回归框的高度,四个值表示出了一个矩形的目标区域。
3.3.3.2.4令t=t+1,如果t≤n-numstep,转3.3.2.2步;否则说明已经根据Dm中候选区 域经过LSTMf网络分支得到目标区域回归框初始集合同时经 过LSTMb网络分支目标区域回归框初始集合执行第 3.3.2.2.5步。
3.3.3.2.5令(即令的值与的值相同), 将加入到中;令加入到(由于数据集为视频数据,拆分为图片后连续紧密。对于短暂的numstep个时刻,目标位置及大小变化微小,所以可以令前numstep-1个时刻的目标位置与numstep时刻的目标位置相同。)得到正向目标区域回归框预 测初值集台和反向目标区域回归框预测初值集合
3.3.3.3计算误差值Loss,令其中, 体现了正向预测回归框初值与反向预测回归框初值的平均预测值,为j时刻目标区域回归框的真值。MSE(·)为计算两个输入的均方误差的函数,
3.3.3.4使用Adam优化算法对误差值Loss最小化以更新网络权重参数(见文献“Kingma D P,Ba J.Adam:Amethod for stochastic optimization[J].arXiv preprintarXiv:1412.6980,2014”, Kingma的论文:Adam,一种随机优化方法)。
3.3.3.5令m=m+1,如果m≤20,转步骤3.3.3.2;否则,说明D1,D2,...,Dm,...,D20都经过 了LSTMf网络分支和LSTMb网络分支处理,集合中 的权重参数值都得到一次更新,转步骤3.3.2。
第四步:目标跟踪系统对图像集合I中连续图像进行特征提取、目标检测,识别目标区 域。
4.1特征提取模块接收来自图像集合I中的连续图像,对图像进行特征提取,得到抽象 特征图集合F(I)。令I={i1,i2,...,it,...,in},共有n张图像,图像之间具有时间连续性,it为 it-1的下一帧图像。特征提取模块对n张图像进行特征提取,得到n张抽象特征图。n张抽 象特征图构成抽象特征图集合F(I),F(I)={f1,f2,...,fj,...,fn},fi是维度为1×4096的向量。
4.2目标检测模块接收来自特征提取模块的抽象特征图集合F(I),对F(I)中的抽象特征 图逐张进行目标检测,得到最佳候选目标区域集合C(I)。C(I)={c1,c2,...,cj,...,cn},C(I)中包 含n张抽象特征图上的目标区域。具体方法为:
4.2.1目标检测模块对F(I)中的特征图进行目标检测,得到第二候选框集合序列P(f1),P(f2),...,P(fj),...,P(fn),具体方法为:
4.2.1.1初始化j=1;
4.2.1.2目标检测模块对特征图fj进行目标检测,得到候选框集合P(fj),P(fj)={p1,p2,...,pi,...,p98},pi表示特征图fj上的第i个候选框,i为正整数,1≤i≤98。
4.2.1.3令j=j+1,如果j≤n,转4.2.1.2,否则说明已经检测出所有的特征图中的候选框, 得到第二候选框集合序列P(f1),P(f2),...,P(fj),...,P(fn)。转步骤4.2.2。
4.2.2目标检测模块采用非极大抑制方法即NMS方法计算第二候选框集合序列 P(f1),P(f2),...,P(fj),...,P(fn)中的最佳候选区域,得到最佳候选区域集合C(I)= {c1,c2,...,cj,...,cn},cj表示图像集I中第j张(即j时刻)图像上的最佳候选区域。具体方法如下:
4.2.2.1初始化j=1;
4.2.2.2目标检测模块使用NMS方法计算P(fj)中最佳候选区域,得到cj,加入到最佳 候选区域集合C(I)中;
4.2.2.3令j=j+1,如果j≤n,转4.2.2.2;否则,说明已经计算出所有候选框集合中的最 佳候选区域,得到C(I)。转步骤4.3。
4.3特征拼接模块将F(I)={f1,f2,...,fj,...,fn}中的抽象特征图和C(I)={c1,c2,...,cj,...,cn} 中的最佳目标候选区域拼接,得到带有上下文特征的目标区域集合D={d1,d2,...,dt,...,dn}, 1≤t≤n。具体方法如下:
4.3.1初始化j=1;
4.3.2特征拼接模块将抽象特征图fj与最佳目标候选区域cj拼接(即将表示fj的数值向 量与表示cj的数值向量首尾串联),得到上下文特征的目标区域dj,将dj加入到集合D中。
4.3.3令j=j+1,如果j≤n,转4.3.2;否则,说明已经将F(I)中的抽象特征图与C(I)中的 最佳目标候选区域拼接完成,转步骤4.4。
4.4 LSTMf网络载入训练后的Wf中的网络权重参数,LSTMb网络分支载入训练后的Wb中的网络权重参数。
4.5初始化t=1;
4.6 LSTMf网络分支执行4.6.1步,处理D的正向序列输入得到候选区域中的目标区域 回归框;同时LSTMb网络分支执行4.6.2步,处理D的反向序列输入得到候选区域中的目标 区域回归框:
4.6.1 LSTMf网络分支接收集合D,将D中的连续numstep个候选区域 dt,dt+1,…,dt+numstep-1,从dt到dt+numstep-1依次输入到LSTMf网络分支中,得到LSTMf在t+ numstep-1时刻对目标区域的预测回归框放到集合Lf中。为包含四个值的一维向量, 表示目标区域回归框中心相对于图像边界的坐标值,表示目标区域回归框的宽度和高度,四个值表示出了一个矩形的 目标区域。
4.6.2 LSTMb网络分支接收集合D,将dt,dt+1,…,dt+numstep-1反转,得到序列dt+numstep-1,dt+4,…,dt,将从dt+numstep-1开始到dt为止的numstep个候选区域依次输入到LSTMb分支中,得到LSTMb网络分支在t+numstep-1时刻对目标区域回归框的预测放到Lb中。 为一维向量,表示目标区域左上角的坐标值,表示目标区域的宽度和高度四个 值均为标量,四个值表示出了一个矩形的目标区域。
4.7目标区域计算器计算最终目标区域,得到目标区域集合L。计算器计算表示最终预测目标区域回归框中心点横坐标值,表示最终预测目标区域回归框中心点横坐标值;表示最终预测目标区域回归框的宽度, 表示最终预测目标区域回归框的高度。令lt+numstep-1表示目标区域在 I中t+numstep-1时刻图像中的最终预测,lt+numstep-1= [xt+numstep-1,yt+numstep-1,wt+numstep-1,ht+numstep-1],将lt+numstep-1加入到集合L中。
4.8令t=t+1,如果t≤n-numstep,转4.6步;否则说明预测出图像集合I中从 t+numstep-1时刻到n时刻的目标区域回归框,得到集合L,L=lnumstep,lnumstep+1,...,ln。执 行第4.9步。
4.9令l1,l2,...,lnumstep-1=lnumstep,将l1,l2,...,lnumstep-1加入到L中,得到包含所有时刻 的最终目标区域回归框预测的集合L,L=l1,l2,...,ln(由于数据集为视频数据,拆分为图片 后连续紧密。对于短暂的6个时刻,目标位置变化微小,所以可以令前5个时刻的目标位 置与6时刻的目标位置相同)。将L中的目标区域回归框可视化在图像集合I中对应的图像 上后,图像逐帧播放,可看到目标在每帧中都被矩形框框出,即目标跟踪的效果。
采用本发明可以达到以下技术效果:
1.本发明第一步构建了一个完整的目标跟踪系统,融合了特征提取模块、目标检测模 块、特征拼接模块、LSTMf正向长短时记忆循环网络(以下简称LSTMf网络)分支和LSTMb反向长短时记忆循环网络(以下简称LSTMb网络)分支、目标区域计算器。选择了OTB100 当中的的具有代表性的20个视频作为训练LSTMf网络分支和LSTMb网络分支的数据。 首先特征提取模块对输入数据进行了抽象特征图的提取,目标检测模块在特征图上对目标 位置做出母检测,构建了最佳候选区域C(I),为跟踪系统输出最终目标预测提供了判断辅 助作用;特征拼接模块将C(I)与抽象特征图结合得到D。D中不仅包含目标区域最佳候 选区域,也包含了图像的抽象特征图,增加了训练数据的丰富性,并且使得LSTMf网络分 支和LSTMb网络分支有更多目标区域相关的有效信息可以利用,使得目标跟踪准确率较背 景技术所述目标跟踪方法有所提高。
2.本发明第三步使用边框回归方法,结合LSTM网络能够处理连续性输入的特性,迭 代训练网络,使输出与真值不断拟合,得到了可以准确预测目标区域回归框的两个网络分 支。LSTMf网络分支处理按照时间正序排列的输入数据(此网络分支根据目标在连续numStep个时刻图片中的正向运动轨迹,判断第6时刻的目标区域),同时LSTMb网络分支 分支处理按照时间倒序排列的输入数据(此网络分支根据目标在连续6个时刻图片中的反 向运动轨迹,判断第numStep时刻的目标区域),综合两个分支在不同的输出,得到图像中 目标区域的最终准确预测,进一步提高了跟踪准确性。
3.本发明使用长短期记忆网络(LSTM网络)构建了两个分支,LSTM网络通过存储在一段连续输入数据之间的关联性,处理具有时间连续性的图片(图像中的逐帧图片)。(见文献“Long short-term memory.[J].Neural Computation,1997,9(8):1735-1780.”,Hochreiter S、 Schmidhuber J.和Girshick R等人的论文:长短期记忆网络),使得本发明更适合处理具有连 续性的视频数据序列。
附图说明:
图1为本发明整体流程图。
图2为本发明第一步构建的目标跟踪系统逻辑结构图。
图3为本发明第四步目标跟踪系统对图像集合I中连续图像进行特征提取、目标检测, 识别目标区域的流程图。
图4为本发明目标区域重叠率示意图:图4(a)是步长numstep与准确率关系示意图, 图4(b)是步长numstep与算法运行速度关系示意图。
图5为本发明与其他目标跟踪方法OPE、TRE、SRE值对比图。图5(a)是一次通过 评估(OPE)成功率输出随设定阈值变化示意图,图5(b)是空间鲁棒性评估(SRE)成 功率随设定阈值变化的示意图,图5(c)是时间鲁棒性评估(TRE)成功率随设定阈值变 化的示意图。
具体实施方式
图1是本发明总体流程图;如图1所示,本发明包括以下步骤:
第一步:构建目标跟踪系统。如图2所示,目标跟踪系统由特征提取模块、目标检测模块、特征拼接模块、LSTMf网络分支和LSTMb网络分支、目标区域计算器构成。
特征提取模块为卷积神经网络,此网络共包含24个卷积层,4个池化层和1个全连接 层,共29层。池化层分别为第2、4、9、20层,全联接层为第29层,其它层均为卷积层。 特征提取模块接收来自图像集合I中的连续图像,对I中图像进行特征提取,得到抽象特征 图集合F(I)。I={i1,i2,…,it,...,in},共有n张图像,图像之间具有时间连续性,it为图像集合I中第t张图像,也为it-1的下一帧图像。n张抽象特征图构成抽象特征图集合,F(I)= {F(i1),F(i2),…,F(it),…,F(in)},F(it)为it的抽象特征图。
目标检测模块是YOLO检测网络,目标检测模块从特征提取模块接收抽象特征图集合 F(I),对F(I)中的抽象特征图逐张进行目标检测,得到最佳候选目标区域集合C。 C=(c1,c2,...,ct,...,cn),ct为图像集合I中第t张图像it上的最佳候选目标区域。
特征拼接模块将来自F(I)中的抽象特征图F(it)和C中的目标区域ct结合,得到带有上 下文特征的目标区域dt。n个带有上下文特征的目标区域构成目标区域集合D, D=(d1,d2,...,dt,...,dn)。
LSTMf网络和LSTMb网络为并行的两个分支,LSTMf网络分支接收来自目标区域集合D中正序的连续多个目标区域,输出预测目标区域lf;LSTMb网络分支接收来自目标区 域集合D中倒序的连续多个目标区域,输出目标预测区域lb。LSTMf网络分支和LSTMb网络分支结构相同,都包含三个全连接层,第一层为输入层,第二层为隐含层,第三层为 输出层。输入层、隐含层使用LSTM单元构建,包含5100个LSTM单元。
目标区域计算器接收LSTMf网络输出和LSTMb网络输出,计算最终目标区域L。
第二步:准备LSTMf网络分支和LSTMb网络分支需要的训练数据。目标跟踪系统中的特征提取模块接收训练数据集中图片,得到训练数据集中图片的抽象特征图;目标检测模块在抽象特征图上做检测,提取抽象特征图的最佳目标候选区域,特征拼接模块将最佳目标候选区域与该最佳目标候选区域所属训练数据集图片的抽象特征图拼接,得到带有上下文特征的目标候选区域集合。具体方法为:
2.1选择OTB20作为对LSTMf网络和LSTMb网络的进行训练的训练数据集,OTB20 包含I1,I2,…,Im,…,I2020个图像集合以及对应的图像中真实目标区域的回归框集合 G1,G2,...,Gm,...,G20,m为整数,1≤m≤20。Im中的图片具有时间上的连续性, 表示Im在第j张(也即j时刻)的图片,1≤j≤n,n是Im中图片的 张数(即Im共有n个时刻)。从连续播放可构成一个完整的视频。G={g1,g2,...,gj,...,gn},gj表示Im中第i时刻图片的真实目标区域回归框,为包含四个值的一维向量,表示目标区域回归框中心相对于图像边界的坐标值,表示目标区域的宽 度和高度,四个值均为标量。
2.2特征提取模块对I1,I2,...,Im,...,I20中的图像进行特征提取。特征提取模块的卷积层对 Im中图像通过卷积方式进行特征提取,池化层对前一层的输出进行最大特征提取,全连接 层(图1中的fc29)将前一层输出特征汇总,得到I1,I2,…,Im,…,I20相应的特征图集合序列 F(I1),F(I2),...,F(Im),...,F(I20),并将F(I1),F(I2),...,F(Im),...,F(I20)发送到目标检测模块, 表示图像集Im中第j张图片对应的抽象特征图。由于目 标在连续图像中的行为存在密切相关性,所以整张图片的特征对于判断目标位置提供了有 效信息。在这里抽象特征图包含了目标相关关键信息及上下文信息。
2.3目标检测模块对F(I1),F(I2),...,F(Im),...,F(I20)中的抽象特征图做检测,得到最佳目 标候选区域集合序列C(I1),C(I2),...,C(Im),...,C(I20)。
具体方法为:
2.3.1初始化m=1;
2.3.2目标检测模块对F(Im)中的特征图进行目标检测,得到候选框集合序列具体方法为:
2.3.2.1初始化j=1;
2.3.2.2目标检测模块对进行目标检测,得到候选框集合 pi表示特征图上的第i个候选框,i为正整数,1≤i≤98。
2.3.2.3令j=j+1,如果j≤n,转2.3.2.2,否则说明已经检测出F(Im)中所有特征图中的 候选框,得到候选框集合序列转2.3.3。
2.3.3目标检测模块采用非极大抑制方法即NMS方法,计算候选框集合序列中的最佳候选区域,得到最佳候选区域集合 表示图像集Im中第j张图像上的最佳候选区域。具体方法为:
2.3.3.1初始化j=1;
2.3.3.2目标检测模块使用NMS方法计算中最佳候选区域,得到加入到最 佳候选区域集合C(Im)中;
2.3.3.3令j=j+1,如果j≤n,转2.3.3.2;否则,说明已经计算出所有候选框集合中的 最佳候选区域,得到了C(Im),转2.3.4。
2.3.4令m=m+1,如果m≤20,转2.2.2步;如果m>20,说明 F(I1),F(I2),...,F(Im),...,F(I20)中的所有特征图都已由目标检测模块提取出最佳候选区域,得 到了最佳目标候选区域序列C(I1),C(I2),...,C(Im),...,C(I20),转步骤2.4。
2.4特征拼接模块将C(I1),C(I2),...,C(Im),...,C(I20)中的最佳目标候选区域与F(I1),F(I2),...,F(Im),...,F(I20)中的最佳候选区域拼接,得到带有上下文特征的目标候选区域 序列D1,D2,...,Dm,...,D20。具体方法是:
2.4.1初始化m=1;
2.4.2特征拼接模块将C(Im)中的最佳候选区域与F(Im)中的抽象特征 图分别拼接,即将拼接得到图片集合Im中1时刻图片的带有上下 文特征的目标候选区域…,将拼接得到图片集合Im中j时刻图片的带有上下 文特征的目标候选区域…,将拼接得到图片集合Im中n时刻图片的带有上下 文特征的目标候选区域由此得到带有上下文特征的目标候选区域集合Dm 图像集合Im中有n张图片,即Dm中有n个目标区域。
2.4.3令m=m+1,如果m≤20,转步骤2.4.2;否则说明训练数据集OTB20中的20 个图像集合都经过了特征提取模块和目标检测模块,得到了对应的带有上下文特征的目标候选区域序列D1,D2,...,Dm,...,D20,将D1,D2,...,Dm,...,D20即20个目标候选区域集合发送给 LSTMf网络分支和LSTMb网络分支,转第三步。
第三步:使用边框回归方法对输入为D1,D2,...,Dm,...,D20的LSTMf网络分支和LSTMb网 络分支进行训练,得到网络权重参数。
具体方法如下:
3.1初始化权重参数,将LSTMf网络分支权重参数集合中所有元素 值都初始化为[0,1]之间的随机数;将LSTMb网络分支权重参数集合中所 有元素值都初始化为[0,1]之间的随机数。
表示LSTMf网络分支输入层的权重参数,表示LSTMf网络分支隐含层的权重参数, 表示LSTMf网络分支输出层的权重参数;表示LSTMb网络分支输入层的权重参数,表示LSTMb网络分支隐含层的权重参数,表示LSTMb网络分支输出层的权重参数。
3.2设置网络训练参数:leamingRate=0.00001,batchsize=1,numStep=6。
3.3迭代计算LSTMf网络分支输出和LSTMb网络分支输出的差距及两分支网络输出均 值与真实目标区域差距,得到损失值,最小化损失值并更新网络参数,直到满足迭代次数 要求,得到权重参数。具体方法如下:
3.3.1初始化训练迭代参数itretation=1;
3.3.2如果itretation≤30,执行3.3.3步;否则说明训练满足迭代次数要求,训练结束, 将训练后的做为LSTMf网络分支的权重参数集合,将训练后的 作为LSTMb网络分支的权重参数集合,转第四步。
3.3.3 LSTMf网络分支接收D1,D2,...,Dm,...,D20处理正向排序 的带有上文特征的候选区域,得到正向预测的目标区域回归框初值集合 LSTMb网络分支接收集合D1,D2,...,Dm,...,D20,处理反向排序的带有上文特征的候选区域,得 到反向预测的目标区域回归框初值集合计算LSTMf网络分支和LSTMb网络分支输出回归框初值之间的差距,以及两个网络分支均值与真实目标区域回归框的差 距,得到损失值,使用优化算法缩小损失值,更新一次网络权重,具体方法如下:
3.3.3.1初始化m=1,
3.3.3.2 LSTMf网络分支接收Dm中的候选区域,输出预测目标区域回归框初值,组成预 测目标区域回归框集合LSTMb网络分支接收Dm中的候选区域,输出预测目标区域回归 框初值,组成预测目标区域回归框集合具体方法如下:
3.3.3.2.1初始化t=0;
3.3.3.2.2 LSTMf网络分支从Dm中取出连续numstep个候选区域将 从开始到为止的numstep个候选区域依次输入到LSTMf网络分支中,得到 LSTMf在t+numstep时刻对目标区域的预测回归框初值放到集合中。 为包含四个值的一维向量, 表示正向预测目标区域回归框中心相对于图像边界的坐标值, 表示正向预测目标区域回归框的宽度,表示正向预测目标区域回归框 的高度,四个值表示出了一个矩形的目标区域。
3.3.3.2.3 LSTMb网络分支将反转,得到将 从dt+numstep开始到dt+1为止的numstep个候选区域依次输入到LSTMb分支中,得到网络LSTMb网络分支在t+numstep时刻对目标区域的预测回归框初值放到集合中。为一维向量。表示反向预测目标区域回归框中心相对于图像边界的坐标值,表示反向预测目标区域回归框的宽度,表示反向预测目标区域回归框的高度,四个值表示出了一个矩形的目标区域。
3.3.3.2.4令t=t+1,如果t≤n-numstep,转3.3.2.2步;否则说明已经根据Dm中候选区 域经过LSTMf网络分支得到目标区域回归框初始集合同时经 过LSTMb网络分支目标区域回归框初始集合执行第 3.3.2.2.5步。
3.3.3.2.5令加入到中;令加入到得到正向目标区域回归框预测初值集合和反向目标区域回归框预测初值集合
3.3.3.3计算误差值Loss,令其中, 体现了正向预测回归框初值与反向预测 回归框初值的平均预测值,为j时刻目标区域回归框的真值。MSE(·) 为计算两个输入的均方误差的函数,
3.3.3.4使用Adam优化算法对误差值Loss最小化以更新网络权重参数。
3.3.3.5令m=m+1,如果m≤20,转步骤3.3.3.2;否则,说明D1,D2,...,Dm,...,D20都经过 了LSTMf网络分支和LSTMb网络分支处理,集合中 的权重参数值都得到一次更新,转步骤3.3.2。
第四步:目标跟踪系统对图像集合I中连续图像进行特征提取、目标检测,识别目标区 域。
4.1特征提取模块接收来自图像集合I中的连续图像,对图像进行特征提取,得到抽象 特征图集合F(I)。令I={i1,i2,...,it,...,in},共有n张图像,图像之间具有时间连续性,it为 it-1的下一帧图像。特征提取模块对n张图像进行特征提取,得到n张抽象特征图。n张抽 象特征图构成抽象特征图集合F(I),F(I)={f1,f2,...,fj,...,fn},fi是维度为1×4096的向量。
4.2目标检测模块接收来自特征提取模块的抽象特征图集合F(I),对F(I)中的抽象特征 图逐张进行目标检测,得到最佳候选目标区域集合C(I)。C(I)={c1,c2,...,cj,...,cn},C(I)中包 含n张抽象特征图上的目标区域。具体方法为:
4.2.1目标检测模块对F(I)中的特征图进行目标检测,得到第二候选框集合序列P(f1),P(f2),...,P(fj),...,P(fn),具体方法为:
4.2.1.1初始化j=1;
4.2.1.2目标检测模块对特征图fj进行目标检测,得到候选框集合P(fj),P(fj)={p1,p2,...,pi,...,p98},pi表示特征图fj上的第i个候选框,i为正整数,1≤i≤98。
4.2.1.3令j=j+1,如果j≤n,转4.2.1.2,否则说明已经检测出所有的特征图中的候选框, 得第二到候选框集合序列P(f1),P(f2),...,P(fj),...,P(fn)。转步骤4.2.2。
4.2.2目标检测模块采用非极大抑制方法即NMS方法计算第二候选框集合 P(f1),P(f2),...,P(fj),...,P(fn)中的最佳候选区域,得到最佳候选区域集合C(I)= {c1,c2,...,cj,...,cn},cj表示图像集I中第j张图像上的最佳候选区域。具体方法如下:
4.2.2.1初始化j=1;
4.2.2.2目标检测模块使用NMS方法计算P(fj)中最佳候选区域,得到cj,加入到最佳 候选区域集合C(I)中;
4.2.2.3令j=j+1,如果j≤n,转4.2.2.2;否则,说明已经计算出所有候选框集合中的最 佳候选区域,得到C(I)。转步骤4.3。
4.3特征拼接模块将F(I)={f1,f2,...,fj,...,fn}中的抽象特征图和C(I)={c1,c2,...,cj,...,cn} 中的最佳目标候选区域拼接,得到带有上下文特征的目标区域集合D={d1,d2,...,dt,...,dn}, 1≤t≤n。具体方法如下:
4.3.1初始化j=1;
4.3.2特征拼接模块将抽象特征图fj与最佳目标候选区域cj拼接(即将表示fj的数值向 量与表示cj的数值向量首尾串联),得到上下文特征的目标区域dj,将dj加入到集合D中。
4.3.3令j=j+1,如果j≤n,转4.3.2;否则,说明已经将F(I)中的抽象特征图与C(I)中的 最佳目标候选区域拼接完成,转步骤4.4。
4.4 LSTMf网络载入训练后的Wf中的网络权重参数,LSTMb网络分支载入训练后的Wb中的网络权重参数。
4.5初始化t=1;
4.6 LSTMf网络分支执行4.6.1步,处理D的正向序列输入得到候选区域中的目标区域 回归框;同时LSTMb网络分支执行4.6.2步,处理D的反向序列输入得到候选区域中的目标 区域回归框:
4.6.1 LSTMf网络分支接收集合D,将D中的连续numstep个候选区域 dt,dt+1,…,dt+numstep-1,从dt到dt+numstep-1依次输入到LSTMf网络分支中,得到LSTMf在t+ humstep-1时刻对目标区域的预测回归框放到集合Lf中。为包含四个值的一维向量, 表示目标区域回归框中心相对于图像边界的坐标值,表示目标区域回归框的宽度和高度,四个值表示出了一个矩形的 目标区域。
4.6.2 LSTMb网络分支接收集合D,将dt,dt+1,…,dt+numstep-1反转,得到序列dt+numstep-1,dt+4,…,dt,将从dt+numstep-1开始到dt为止的numstep个候选区域依次输入到LSTMb分支中,得到LSTMb网络分支在t+numstep-1时刻对目标区域回归框的预测放到Lb中。 为一维向量,表示目标区域左上角的坐标值,表示目标区域的宽度和高度四个 值均为标量,四个值表示出了一个矩形的目标区域。
4.7目标区域计算器计算最终目标区域,得到目标区域集合L。计算器计算表示最终预测目标区域回归框中心点横坐标值,表示最终预测目标区域回归框中心点横坐标值;表示最终预测目标区域回归框的宽度, 表示最终预测目标区域回归框的高度。令lt+numstep-1表示目标区域在 I中t+numstep-1时刻图像中的最终预测,lt+numstep-1= [xt+numstep-1,yt+numstep-1,wt+numstep-1,ht+numstep-1],将lt+numstep-1加入到集合L中。
4.8令t=t+1,如果t≤n-numstep,转4.6步;否则说明预测出图像集合I中从 t+numstep-1时刻到n时刻的目标区域回归框,得到集合L,L=lnumstep,lnumstep+1,...,ln。执 行第4.9步。
4.9令l1,l2,...,lnumstep-1=lnumstep,将l1,l2,...,lnumstep-1加入到L中,得到包含所有时刻 的最终目标区域回归框预测的集合L=11,l2,...,ln(由于数据集为视频数据,拆分为图片后连 续紧密。对于短暂的6个时刻,目标位置变化微小,所以可以令前5个时刻的目标位置与6 时刻的目标位置相同)。将L=l1,l2,...,ln中的目标区域回归框可视化在图像集合I中对应的 图像上后,图像逐帧播放,可看到目标在每帧中都被矩形框框出,即目标跟踪的效果。
图4为本发明目标区域重叠率示意图:图4(a)是步长numstep与准确率关系示意图, 图4(b)是步长numstep与算法运行速度关系示意图。
随机选取来自OTB100中的30个视频作为跟踪测试数据集,对本发明进行了跟踪准确 率(目标区域与实际目标区域的重叠率的表示跟踪准确率)测试,实验的软件系统环境为 乌班图16.04版本(即Ubuntu 16.04,Linux系统的一个版本),搭载英特尔Xeon Gold系列6154中央处理器,处理频率为3.0Hz,另外配有两块英伟达TITAN V图像处理器,核心 频率为1200/1455MHz,显存容量为12GB。在本实验环境下,图4(a)表现出本发明的目 标跟踪准确率与步长numstep之间的关系,横坐标是步长numstep值,纵坐标是跟踪准确率 (即预测目标区域与真实区域的比值);图4(b)表现出在本发明的速度与步长numstep 之间的关系,横坐标是步长numstep,纵坐标是速度(即每秒处理图片的张数)。从图4(a) 可以看出,随着步长参数的增大,LSTM网络能够考虑更长时间的连续数据,准确率也逐 渐增加;但是从图4(b)中看出,随着步长增大,LSTM网络需要处理的连续数据增加, 方法运行速度减慢。所以得出结论,本发明(当步长(numstep)=6时)取得跟踪准确率与 速度的折中,达到实时的速率同时拥有较高的边框重叠率(IOU)。
采用图4的实验环境,比较本发明方法与STRUCK、OAB、TLD、LSR、CSK等目标 跟踪算法的一次通过评估(OPE)成功率,时间鲁棒性评估(TRE)成功率和空间鲁棒性评 估(SRE)成功率(三种评估指标见文献“Wu Y,Lim J,Yang M H.Online object tracking:Abenchmark[C]//Proceedings of the IEEE conference on computer vision andpattern recognition. 2013:2411-2418”,吴毅的论文:在线对象跟踪:一项基准测评)。图5为本发明与其他目标 跟踪方法OPE、TRE、SRE值对比图。图5(a)是一次通过评估(OPE)成功率输出随设 定阈值变化示意图,图5(b)是空间鲁棒性评估(SRE)成功率随设定阈值变化的示意图, 图5(c)是时间鲁棒性评估(TRE)成功率随设定阈值变化的示意图。
三幅图中的图中横轴表示阈值,即跟踪方法输出的预测目标区域与真实目标区域的比值; 纵轴均表示成功率,预测目标区域与真实目标区域比值超过此阈值为成功,成功预测的图片 张数占总图片总数的比值,即成功率。阈值越大,说明要求跟踪方法预测的目标区域与真实 目标区域重叠率越高,难度越大。图5(a)中OPE值表示计算一次预测区域与真实区域重 叠比值,从图5(a)可以看出,在阈值大于0.5时,本发明较其他参与对比的方法(STRUCK、 OAB、LSK、TLD)有较高的成功率,在阈值大于0.5时(即要求预测目标区域与真实目标 区域重叠率大于0.5的情况),图中的算法都有较低的成功率,预测难度加大,实际情况中 跟踪不要求标注出的目标区域大小完全和真实之一致,阈值在0.5时就可以展示出目标被跟 踪出得的实际效果。图5(b)中的SRE值表示计算一次预测目标区域与一定范围内的真实 目标区域重叠的成功率,第三步的训练使得网络分支结合两个方向的输出预测最终目标区域, 在空间范围内做了折中,使得本发明较其他方法(STRUCK、YOLO+SORT、OAB、TLD)再多数阈值下的比较都具有更高的重叠率,说明本发明对于目标区域空间变化的情况有较好 的预测结果;图5(c)中的TRE值表现了随时间推移进行连续12次预测目标区域与真实目标区域的重叠率计算,可以看出,本发明在阈值小于0.4时一直保持较高成功率。本发明利用LSTM长短时记忆网络对于处理具有连续性序列数据的优势,使得本发明较其他方法(OAB、CSK、OXT、YOLO)在本发明在阈值小于0.4时一直保持较高的成功率。当阈值 大于0.4时,本发明不如其他算法优势明显,这是LSTM网络内部设计的复杂性造成的,有 待进一步深入探索。但阈值小于0.4已经能够展现出目标被跟踪到的效果,满足目标跟踪的 需求。
以上对本发明所提供的一种基于双向循环神经网络的跟踪方法进行了详细介绍。本文对 本发明的原理及实施方式进行了阐述,以上说明用于帮助理解本发明的核心思想。应当指出, 对于本技术领域的普通研究人员来说,在不脱离本发明原理的前提下,还可以对本发明进行 若干改进和修饰,这些改进和修饰也落入本发明权利要求的保护范围内。

Claims (11)

1.一种基于双向长短期记忆神经网络的目标跟踪方法,其特征在于包括以下步骤:
第一步:构建目标跟踪系统。该系统由特征提取模块、目标检测模块、特征拼接模块、LSTMf正向长短时记忆循环网络分支和LSTMb反向长短时记忆循环网络分支、目标区域计算器构成,LSTMf正向长短时记忆循环网络简称LSTMf网络,LSTMb反向长短时记忆循环网络简称LSTMb网络;
特征提取模块为卷积神经网络,此网络由卷积层、池化层和全连接层组成;特征提取模块接收来自图像集合I中的连续图像,对I中图像进行特征提取,得到抽象特征图集合F(I);I={i1,i2,…,it,...,in},共有n张图像,1≤t≤n,图像之间具有时间连续性,it为图像集合I中第t张图像,也为it-1的下一帧图像;F(I)={F(i1),F(i2),…,F(it),…,F(in)},F(it)为it的抽象特征图;
目标检测模块是YOLO检测网络,目标检测模块从特征提取模块接收抽象特征图集合F(I),对F(I)中的抽象特征图逐张进行目标检测,得到最佳候选目标区域集合C,C=(c1,c2...,.ct,....,cn),ct为it上的最佳候选目标区域;
特征拼接模块将来自F(I)中的抽象特征图F(it)和C中的目标区域ct结合,得到带有上下文特征的目标区域dt;n个带有上下文特征的目标区域构成目标区域集合D,D=(d1,d2,...,dt,...,dn);
LSTMf网络和LSTMb网络为并行的两个分支,LSTMf网络分支接收来自目标区域集合D中正序的连续多个目标区域,输出预测目标区域lf;LSTMb,网络分支接收来自目标区域集合D中倒序的连续多个目标区域,输出目标预测区域lb;LSTMf网络分支和LSTMb网络分支结构相同,都包含三个全连接层,第一层为输入层,第二层为隐含层,第三层为输出层;
目标区域计算器接收LSTMf网络输出和LSTMb网络输出,计算最终目标区域L;
第二步:准备LSTMf网络分支和LSTMb网络分支需要的训练数据,方法为:
2.1选择来自OTB100中的20个图像集即OTB20,作为对LSTMf网络和LSTMb网络的进行训练的训练数据集,OTB100指Online Tracking Benchmark Dateset中的100个图像集合,OTB20包含I1,I2,…,Im,…,I2020个图像集合以及对应的图像中真实目标区域的回归框集合G1,G2,…,Gm,...,G20,m为整数,1≤m≤20;Im中的图片具有时间上的连续性, 表示Im在第j张即j时刻的图片,1≤j≤n,n是Im中图片的张数即Im共有n个时刻;G={g1,g2,...,gj,...,gn},gj表示Im中第j时刻图片的真实目标区域回归框,为包含四个值的一维向量,表示目标区域回归框中心相对于图像边界的坐标值,表示目标区域的宽度和高度,四个值均为标量,四个值表示出了一个矩形的目标区域;
2.2特征提取模块对I1,I2,...,Im,...,I20中的图像进行特征提取:卷积层对Im中图像通过卷积方式进行特征提取,池化层对前一层的输出进行最大特征提取,全连接层将前一层的输出特征汇总,得到I1,I2,...,Im,...,I20相应的特征图集合序列F(I1),F(I2),...,F(Im),...,F(I20),将F(I1),F(I2),...,F(Im),...,F(I20)发送到目标检测模块, 表示图像集Im中第j张图片对应的抽象特征图;
2.3目标检测模块对F(I1),F(I2),...,F(Im),...,F(I20)中的抽象特征图做检测,得到最佳目标候选区域集合序列C(I1),C(I2),...,C(Im),...,C(I20),方法为:
2.3.1初始化m=1;
2.3.2目标检测模块对F(Im)中的特征图进行目标检测,得到候选框集合序列
2.3.3目标检测模块采用非极大抑制方法即NMS方法计算中的最佳候选区域,得到最佳候选区域集合 表示图像集Im中第j张图像上的最佳候选区域;
2.3.4令m=m+1,如果m≤20,转2.2.2步;如果m>20,说明得到了最佳目标候选区域序列C(I1),C(I2),...,C(Im),...,C(I20),转步骤2.4;
2.4特征拼接模块将C(I1),C(I2),...,C(Im),...,C(I20)中的最佳目标候选区域与F(I1),F(I2),...,F(Im),...,F(I20)中的最佳候选区域拼接,得到带有上下文特征的目标候选区域序列D1,D2,...,Dm,...,D20,将D1,D2,...,Dm,...,D20即20个目标候选区域集合发送给LSTMf网络分支和LSTMb网络分支,转第三步;
第三步:使用边框回归方法对输入为D1,D2,...,Dm,...,D20的LSTMf网络分支和LSTMb网络分支进行训练,得到网络权重参数,方法如下:
3.1初始化权重参数,将LSTMf网络分支权重参数集合中所有元素值都初始化为[0,1]之间的随机数;将LSTMb网络分支权重参数集合中所有元素值都初始化为[0,1]之间的随机数;表示LSTMf网络分支输入层的权重参数,表示LSTMf网络分支隐含层的权重参数,表示LSTMf网络分支输出层的权重参数;表示LSTMb网络分支输入层的权重参数,表示LSTMb网络分支隐含层的权重参数,表示LSTMb网络分支输出层的权重参数;
3.2设置网络训练参数:令网络模型学习率leamingRate=0.00001,批处理尺寸batchsize=1,网络步长numstep为在范围[4,9]内的正整数;
3.3迭代计算LSTMf网络分支输出和LSTMb网络分支输出的差距及两分支网络输出均值与真实目标区域差距,得到损失值,最小化损失值并更新网络参数,直到满足迭代次数要求,得到权重参数,具体方法如下:
3.3.1初始化训练迭代参数itretation=1;
3.3.2如果itretation≤迭代阈值K,K是[1,100]内的整数,执行3.3.3步;否则将训练后的做为LSTMf网络分支的权重参数集合,将训练后的 作为LSTMb网络分支的权重参数集合,转第四步。
3.3.3 LSTMf网络分支接收D1,D2,...,Dm,...,D20处理正向排序的带有上文特征的候选区域,得到正向预测的目标区域回归框初值集合LSTMb网络分支接收集合D1,D2,...,Dm,...,D20,处理反向排序的带有上文特征的候选区域,得到反向预测的目标区域回归框初值集合计算LSTMf网络分支和LSTMb网络分支输出回归框初值之间的差距,以及两个网络分支均值与真实目标区域回归框的差距,得到损失值,使用优化算法缩小损失值,更新一次网络权重,具体方法如下:
3.3.3.1初始化m=1;
3.3.3.2 LSTMf网络分支接收Dm中的候选区域,输出预测目标区域回归框初值,组成预测目标区域回归框集合LSTMb网络分支接收Dm中的候选区域,输出预测目标区域回归框初值,组成预测目标区域回归框集合具体方法如下:
3.3.3.2.1初始化t=0;
3.3.3.2.2 LSTMf网络分支从Dm中取出连续numstep个候选区域将从开始到为止的numstep个候选区域依次输入到LSTMf网络分支中,得到LSTMf在t+numstep时刻对目标区域的预测回归框初值放到集合中;为包含四个值的一维向量,表示正向预测目标区域回归框中心相对于图像边界的坐标值,表示正向预测目标区域回归框的宽度,表示正向预测目标区域回归框的高度,四个值表示一个矩形的目标区域;
3.3.3.2.3 LSTMb网络分支将反转,得到将从dt+numstep开始到dt+1为止的numstep个候选区域依次输入到LSTMb分支中,得到网络LSTMb网络分支在t+numstep时刻对目标区域的预测回归框初值放到集合中,为一维向量;表示反向预测目标区域回归框中心相对于图像边界的坐标值,表示反向预测目标区域回归框的宽度,表示反向预测目标区域回归框的高度,四个值表示出了一个矩形的目标区域;
3.3.3.2.4令t=t+1,如果t≤n-numstep,转3.3.3.2.2步;否则说明已经根据Dm中候选区域经过LSTMf网络分支得到目标区域回归框初始集合同时经过LSTMb网络分支目标区域回归框初始集合执行第3.3.3.2.5步;
3.3.3.2.5令加入到中;令加入到得到正向目标区域回归框预测初值集合和反向目标区域回归框预测初值集合
3.3.3.3计算误差值Loss,令其中, 体现了正向预测回归框初值与反向预测回归框初值的平均预测值,为j时刻目标区域回归框的真值,MSE(·)为计算两个输入的均方误差的函数,
3.3.3.4使用Adam优化算法对误差值Loss最小化以更新网络权重参数;
3.3.3.5令m=m+1,如果m≤20,转步骤3.3.3.2;否则,说明D1,D2,...,Dm,...,D20都经过了LSTMf网络分支和LSTMb网络分支处理,集合中的权重参数值都得到一次更新,转步骤3.3.2;
第四步:目标跟踪系统对图像集合I中连续图像进行特征提取、目标检测,识别目标区域,方法是:
4.1特征提取模块接收来自图像集合I中的n张连续图像,对图像进行特征提取,得到抽象特征图集合F(I);I={i1,i2,...,it,...,in},F(I)={f1,f2,...,fj,...,fn},fi是维度为1×4096的向量;
4.2目标检测模块接收来自特征提取模块的F(I),对F(I)中的抽象特征图逐张进行目标检测,得到最佳候选目标区域集合C(I),C(I)={c1,c2,...,cj,...,cn},C(I)中包含n张抽象特征图上的目标区域,方法为:
4.2.1目标检测模块对F(I)={f1,f2,...,fj,...,fn}中的特征图进行目标检测,得到第二候选框集合序列P(f1),P(f2),...,P(fj),...,P(fn);
4.2.2目标检测模块采用非极大抑制方法即NMS方法计算第二候选框集合P(f1),P(f2),...,P(fj),...,P(fn)中的最佳候选区域,得到最佳候选区域集合C(I)={c1,c2,...,cj,...,cn},cj表示图像集I中第j张图像上的最佳候选区域;
4.3特征拼接模块将F(I)中的抽象特征图和C(I)中的最佳目标候选区域拼接,得到带有上下文特征的目标区域集合D,D={d1,d2,...,dt,...,dn};
4.4 LSTMf网络载入训练后的Wf中的网络权重参数,LSTMb网络分支载入训练后的Wb中的网络权重参数;
4.5初始化t=1;
4.6 LSTMf网络分支执行4.6.1步,处理D的正向序列输入得到候选区域中的目标区域回归框;同时LSTMb网络分支执行4.6.2步,处理D的反向序列输入得到候选区域中的目标区域回归框:
4.6.1 LSTMf网络分支接收集合D,将D中的连续numstep个候选区域dt,dt+1,...,dt+numstep-1,从dt到dt+numstep-1依次输入到LSTMf网络分支中,得到LSTMf在t+numstep-1时刻对目标区域的预测回归框放到集合Lf中;为包含四个值的一维向量,表示目标区域回归框中心相对于图像边界的坐标值,表示目标区域回归框的宽度和高度;
4.6.2 LSTMb网络分支接收集合D,将dt,dt+1,...,dt+numstep-1反转,得到序列dt+numstep-1,dt+4,…,dt,将从dt+numstep-1开始到dt为止的numstep个候选区域依次输入到LSTMb分支中,得到LSTMb网络分支在t+numstep-1时刻对目标区域回归框的预测放到Lb中; 为一维向量,表示目标区域左上角的坐标值,表示目标区域的宽度和高度四个值均为标量;
4.7目标区域计算器计算最终目标区域,得到目标区域集合L。计算器计算表示最终预测目标区域回归框中心点横坐标值,表示最终预测目标区域回归框中心点横坐标值;表示最终预测目标区域回归框的宽度,ht+numstep-1表示最终预测目标区域回归框的高度;令lt+numstep-1表示目标区域在I中t+numstep-1时刻图像中的最终预测,lt+numstep-1=[xt+numstep-1,yt+numstep-1,wt+numstep-1,ht+numstep-1],将lt+numstep-1加入到集合L中;
4.8令t=t+1,如果t≤n-numstep,转4.6步;否则说明预测出图像集合I中从t+numstep-1时刻到n时刻的目标区域回归框,得到集合L,L=lnumstep,lnumstep+1,...,ln;执行第4.9步;
4.9令l1,l2,...,lnumstep-1=lnumstep,将l1,l2,...,lnumstep-1加入到L中,得到包含所有时刻的最终目标区域回归框预测的集合L,L=l1,l2,...,ln,将L中的目标区域回归框可视化在图像集合I中对应的图像上后,图像逐帧播放,显示目标在每帧中都被矩形框框出,即显示出目标跟踪的效果。
2.如权利要求1所述的一种基于双向长短期记忆神经网络的目标跟踪方法,其特征在于所述构成特征提取模块的卷积神经网络共包含24个卷积层,4个池化层和1个全连接层,共29层;池化层分别为第2、4、9、20层,全联接层为第29层,其它层均为卷积层。
3.如权利要求1所述的一种基于双向长短期记忆神经网络的目标跟踪方法,其特征在于所述LSTMf网络分支和LSTMb网络分支的输入层、隐含层使用长短期记忆网络单元即LSTM单元构建,包含5100个LSTM单元。
4.如权利要求1所述的一种基于双向长短期记忆神经网络的目标跟踪方法,其特征在于2.3.2步所述目标检测模块对F(Im)中的特征图进行目标检测,得到候选框集合序列的方法为:
2.3.2.1初始化j=1;
2.3.2.2目标检测模块对进行目标检测,得到候选框集合 pi表示特征图上的第i个候选框,i为正整数,1≤i≤98;
2.3.2.3令j=j+1,如果j≤n,转2.3.2.2,否则说明已经检测出F(Im)中所有特征图中的候选框,得到
5.如权利要求1所述的一种基于双向长短期记忆神经网络的目标跟踪方法,其特征在于2.3.3步所述目标检测模块计算中的最佳候选区域的方法为:
2.3.3.1初始化j=1;
2.3.3.2目标检测模块使用NMS方法计算中最佳候选区域,得到加入到最佳候选区域集合C(Im)中;
2.3.3.3令j=j+1,如果j≤n,转2.3.3.2;否则,说明已经计算出所有候选框集合中的最佳候选区域,得到了C(Im)。
6.如权利要求1所述的一种基于双向长短期记忆神经网络的目标跟踪方法,其特征在于2.4步所述特征拼接模块将C(I1),C(I2),...,C(Im),...,C(I20)中的最佳目标候选区域与F(I1),F(I2),...,F(Im),...,F(I20)中的最佳候选区域拼接的方法是:
2.4.1初始化m=1;
2.4.2特征拼接模块将C(Im)中的最佳候选区域与F(Im)中的抽象特征图分别拼接,即将拼接得到图片集合Im中1时刻图片的带有上下文特征的目标候选区域…,将拼接得到图片集合Im中j时刻图片的带有上下文特征的目标候选区域…,将拼接得到图片集合Im中n时刻图片的带有上下文特征的目标候选区域得到带有上下文特征的目标候选区域集合Dm Dm中有n个目标区域;
2.4.3令m=m+1,如果m≤20,转步骤2.4.2;否则说明得到了带有上下文特征的目标候选区域序列D1,D2,...,Dm,...,D20
7.如权利要求1所述的一种基于双向长短期记忆神经网络的目标跟踪方法,其特征在于3.2步所述numStep=6。
8.如权利要求1所述的一种基于双向长短期记忆神经网络的目标跟踪方法,其特征在于3.3.2步所述迭代阈值K为30。
9.如权利要求1所述的一种基于双向长短期记忆神经网络的目标跟踪方法,其特征在于4.2.1步所述目标检测模块对F(I)中的特征图进行目标检测,得到第二候选框集合序列P(f1),P(f2),...,P(fj),...,P(fn)的方法为:
4.2.1.1初始化j=1;
4.2.1.2目标检测模块对特征图fj进行目标检测,得到候选框集合P(fj),P(fj)={p1,p2,...,pi,...,p98},pi表示特征图fj上的第i个候选框,i为正整数,1≤i≤98;
4.2.1.3令j=j+1,如果j≤n,转4.2.1.2,否则说明已经检测出所有的特征图中的候选框,得到第二候选框集合序列P(f1),P(f2),...,P(fj),...,P(fn)。
10.如权利要求1所述的一种基于双向长短期记忆神经网络的目标跟踪方法,其特征在于4.2.2步所述目标检测模块计算候选框集合P(fj)中的最佳候选区域的方法为:
4.2.2.1初始化j=1;
4.2.2.2目标检测模块使用NMS方法计算P(fj)中最佳候选区域,得到cj,加入到最佳候选区域集合C(I)中;
4.2.2.3令j=j+1,如果j≤n,转4.2.2.2;否则,说明已经计算出所有候选框集合中的最佳候选区域,得到C(I)。
11.如权利要求1所述的一种基于双向长短期记忆神经网络的目标跟踪方法,其特征在于4.3步所述特征拼接模块将F(I)中的抽象特征图和C(I)中的最佳目标候选区域进行拼接的方法为:
4.3.1初始化j=1;
4.3.2特征拼接模块将抽象特征图fj与最佳目标候选区域cj拼接,即将表示fj的数值向量与表示cj的数值向量首尾串联,得到上下文特征的目标区域dj,将dj加入到集合D中;
4.3.3令j=j+1,如果j≤n,转4.3.2;否则,说明已经将F(I)中的抽象特征图与C(I)中的最佳目标候选区域拼接完成。
CN201910656757.9A 2019-07-19 2019-07-19 一种基于双向长短期记忆神经网络的目标跟踪方法 Active CN110390294B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910656757.9A CN110390294B (zh) 2019-07-19 2019-07-19 一种基于双向长短期记忆神经网络的目标跟踪方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910656757.9A CN110390294B (zh) 2019-07-19 2019-07-19 一种基于双向长短期记忆神经网络的目标跟踪方法

Publications (2)

Publication Number Publication Date
CN110390294A true CN110390294A (zh) 2019-10-29
CN110390294B CN110390294B (zh) 2021-03-09

Family

ID=68286750

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910656757.9A Active CN110390294B (zh) 2019-07-19 2019-07-19 一种基于双向长短期记忆神经网络的目标跟踪方法

Country Status (1)

Country Link
CN (1) CN110390294B (zh)

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111445498A (zh) * 2020-03-19 2020-07-24 哈尔滨工程大学 一种采用Bi-LSTM神经网络的目标跟踪方法
CN111754541A (zh) * 2020-07-29 2020-10-09 腾讯科技(深圳)有限公司 目标跟踪方法、装置、设备及可读存储介质
CN111932583A (zh) * 2020-06-05 2020-11-13 西安羚控电子科技有限公司 一种基于复杂背景下的时空信息一体化智能跟踪方法
CN112163372A (zh) * 2020-09-21 2021-01-01 上海玫克生储能科技有限公司 一种动力电池的soc估算方法
CN112268564A (zh) * 2020-12-25 2021-01-26 中国人民解放军国防科技大学 一种无人机降落空间位置和姿态端到端估计方法
CN112381021A (zh) * 2020-11-20 2021-02-19 安徽一视科技有限公司 一种基于深度学习的人员检测计数方法

Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104952448A (zh) * 2015-05-04 2015-09-30 张爱英 一种双向长短时记忆递归神经网络的特征增强方法及系统
CN106845351A (zh) * 2016-05-13 2017-06-13 苏州大学 一种用于视频的基于双向长短时记忆单元的行为识别方法
US9813151B2 (en) * 2014-08-05 2017-11-07 Massachusetts Institute Of Technology Free-space optical communication module for small satellites
CN108320297A (zh) * 2018-03-09 2018-07-24 湖北工业大学 一种视频目标实时跟踪方法及系统
CN108846426A (zh) * 2018-05-30 2018-11-20 西安电子科技大学 基于深度双向lstm孪生网络的极化sar分类方法
CN109344822A (zh) * 2018-09-03 2019-02-15 电子科技大学 一种基于长短期记忆网络的场景文本检测方法
CN109344725A (zh) * 2018-09-04 2019-02-15 上海交通大学 一种基于时空关注度机制的多行人在线跟踪方法
US10242266B2 (en) * 2016-03-02 2019-03-26 Mitsubishi Electric Research Laboratories, Inc. Method and system for detecting actions in videos
CN109816012A (zh) * 2019-01-22 2019-05-28 南京邮电大学 一种融合上下文信息的多尺度目标检测方法
CN109872346A (zh) * 2019-03-11 2019-06-11 南京邮电大学 一种支持循环神经网络对抗学习的目标跟踪方法

Patent Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9813151B2 (en) * 2014-08-05 2017-11-07 Massachusetts Institute Of Technology Free-space optical communication module for small satellites
CN104952448A (zh) * 2015-05-04 2015-09-30 张爱英 一种双向长短时记忆递归神经网络的特征增强方法及系统
US10242266B2 (en) * 2016-03-02 2019-03-26 Mitsubishi Electric Research Laboratories, Inc. Method and system for detecting actions in videos
CN106845351A (zh) * 2016-05-13 2017-06-13 苏州大学 一种用于视频的基于双向长短时记忆单元的行为识别方法
CN108320297A (zh) * 2018-03-09 2018-07-24 湖北工业大学 一种视频目标实时跟踪方法及系统
CN108846426A (zh) * 2018-05-30 2018-11-20 西安电子科技大学 基于深度双向lstm孪生网络的极化sar分类方法
CN109344822A (zh) * 2018-09-03 2019-02-15 电子科技大学 一种基于长短期记忆网络的场景文本检测方法
CN109344725A (zh) * 2018-09-04 2019-02-15 上海交通大学 一种基于时空关注度机制的多行人在线跟踪方法
CN109816012A (zh) * 2019-01-22 2019-05-28 南京邮电大学 一种融合上下文信息的多尺度目标检测方法
CN109872346A (zh) * 2019-03-11 2019-06-11 南京邮电大学 一种支持循环神经网络对抗学习的目标跟踪方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
ROSS GIRSHICK,ET AL: "《Fast R-CNN》", 《ARXIV:1504.08083V2》 *
YI WU,ET AL: "《Online Object Tracking: A Benchmark》", 《IEEE CONFERENCE ON COMPUTER VISION AND PATTERN RECOGNITION》 *

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111445498A (zh) * 2020-03-19 2020-07-24 哈尔滨工程大学 一种采用Bi-LSTM神经网络的目标跟踪方法
CN111932583A (zh) * 2020-06-05 2020-11-13 西安羚控电子科技有限公司 一种基于复杂背景下的时空信息一体化智能跟踪方法
CN111754541A (zh) * 2020-07-29 2020-10-09 腾讯科技(深圳)有限公司 目标跟踪方法、装置、设备及可读存储介质
CN111754541B (zh) * 2020-07-29 2023-09-19 腾讯科技(深圳)有限公司 目标跟踪方法、装置、设备及可读存储介质
CN112163372A (zh) * 2020-09-21 2021-01-01 上海玫克生储能科技有限公司 一种动力电池的soc估算方法
CN112163372B (zh) * 2020-09-21 2022-05-13 上海玫克生储能科技有限公司 一种动力电池的soc估算方法
CN112381021A (zh) * 2020-11-20 2021-02-19 安徽一视科技有限公司 一种基于深度学习的人员检测计数方法
CN112381021B (zh) * 2020-11-20 2022-07-12 安徽一视科技有限公司 一种基于深度学习的人员检测计数方法
CN112268564A (zh) * 2020-12-25 2021-01-26 中国人民解放军国防科技大学 一种无人机降落空间位置和姿态端到端估计方法

Also Published As

Publication number Publication date
CN110390294B (zh) 2021-03-09

Similar Documents

Publication Publication Date Title
Fenil et al. Real time violence detection framework for football stadium comprising of big data analysis and deep learning through bidirectional LSTM
CN110390294A (zh) 一种基于双向长短期记忆神经网络的目标跟踪方法
Zhang et al. Graph-based place recognition in image sequences with CNN features
Li et al. SGM-Net: Skeleton-guided multimodal network for action recognition
CN111709311B (zh) 一种基于多尺度卷积特征融合的行人重识别方法
CN110298404A (zh) 一种基于三重孪生哈希网络学习的目标跟踪方法
Li et al. A deep-learning real-time visual SLAM system based on multi-task feature extraction network and self-supervised feature points
Xiong et al. ASK: Adaptively selecting key local features for RGB-D scene recognition
CN108764019A (zh) 一种基于多源深度学习的视频事件检测方法
CN112734803A (zh) 基于文字描述的单目标跟踪方法、装置、设备及存储介质
CN111428650B (zh) 一种基于sp-pggan风格迁移的行人重识别方法
Ning et al. Deep Spatial/temporal-level feature engineering for Tennis-based action recognition
Chen et al. Pgnet: Panoptic parsing guided deep stereo matching
Gelen et al. An artificial neural slam framework for event-based vision
Afrasiabi et al. Spatial-temporal dual-actor CNN for human interaction prediction in video
CN114140524A (zh) 一种多尺度特征融合的闭环检测系统及方法
Song et al. Quasi-equilibrium feature pyramid network for salient object detection
Kim et al. Development of a real-time automatic passenger counting system using head detection based on deep learning
Zhang Behaviour Detection and Recognition of College Basketball Players Based on Multimodal Sequence Matching and Deep Neural Networks
Hu et al. Road crack segmentation using an attention residual U-Net with generative adversarial learning
Muhamad et al. A comparative study using improved LSTM/GRU for human action recognition
Cao Deep learning methods for objective detection
Janardhanan et al. Recognizing Multiple Human Activities Using Deep Learning Framework
Han et al. Application of Multi-Feature Fusion Based on Deep Learning in Pedestrian Re-Recognition Method
Wu et al. Spatial-Temporal Hypergraph Based on Dual-Stage Attention Network for Multi-View Data Lightweight Action Recognition

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant