CN110111370A - 一种基于tld和深度多尺度时空特征的视觉物体跟踪方法 - Google Patents
一种基于tld和深度多尺度时空特征的视觉物体跟踪方法 Download PDFInfo
- Publication number
- CN110111370A CN110111370A CN201910401324.9A CN201910401324A CN110111370A CN 110111370 A CN110111370 A CN 110111370A CN 201910401324 A CN201910401324 A CN 201910401324A CN 110111370 A CN110111370 A CN 110111370A
- Authority
- CN
- China
- Prior art keywords
- target object
- image block
- frame
- image
- indicate
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 19
- 230000033001 locomotion Effects 0.000 claims abstract description 6
- 238000001514 detection method Methods 0.000 claims description 11
- 238000004364 calculation method Methods 0.000 claims description 4
- 230000003252 repetitive effect Effects 0.000 claims description 4
- 238000007689 inspection Methods 0.000 claims description 2
- 239000002537 cosmetic Substances 0.000 abstract description 2
- 238000012549 training Methods 0.000 description 21
- 230000006870 function Effects 0.000 description 4
- 238000012545 processing Methods 0.000 description 4
- 241000208340 Araliaceae Species 0.000 description 2
- 235000005035 Panax pseudoginseng ssp. pseudoginseng Nutrition 0.000 description 2
- 235000003140 Panax quinquefolius Nutrition 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 235000008434 ginseng Nutrition 0.000 description 2
- 238000012544 monitoring process Methods 0.000 description 2
- 238000011160 research Methods 0.000 description 2
- 101710086762 Diamine acetyltransferase 1 Proteins 0.000 description 1
- 102100034274 Diamine acetyltransferase 1 Human genes 0.000 description 1
- 101710181456 Spermidine N(1)-acetyltransferase Proteins 0.000 description 1
- 238000009825 accumulation Methods 0.000 description 1
- 238000004458 analytical method Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000001186 cumulative effect Effects 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 238000011156 evaluation Methods 0.000 description 1
- 238000011478 gradient descent method Methods 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 230000004807 localization Effects 0.000 description 1
- 239000011159 matrix material Substances 0.000 description 1
- 238000005070 sampling Methods 0.000 description 1
- 238000000926 separation method Methods 0.000 description 1
- 238000012360 testing method Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T3/00—Geometric image transformations in the plane of the image
- G06T3/40—Scaling of whole images or parts thereof, e.g. expanding or contracting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/20—Analysis of motion
- G06T7/246—Analysis of motion using feature-based methods, e.g. the tracking of corners or segments
- G06T7/251—Analysis of motion using feature-based methods, e.g. the tracking of corners or segments involving models
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/74—Image or video pattern matching; Proximity measures in feature spaces
- G06V10/75—Organisation of the matching processes, e.g. simultaneous or sequential comparisons of image or video features; Coarse-fine approaches, e.g. multi-scale approaches; using context analysis; Selection of dictionaries
- G06V10/751—Comparing pixel values or logical combinations thereof, or feature values having positional relevance, e.g. template matching
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/10—Image acquisition modality
- G06T2207/10016—Video; Image sequence
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Computation (AREA)
- Artificial Intelligence (AREA)
- Data Mining & Analysis (AREA)
- Computing Systems (AREA)
- Software Systems (AREA)
- General Health & Medical Sciences (AREA)
- General Engineering & Computer Science (AREA)
- Life Sciences & Earth Sciences (AREA)
- Health & Medical Sciences (AREA)
- Biomedical Technology (AREA)
- Multimedia (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Molecular Biology (AREA)
- Mathematical Physics (AREA)
- Databases & Information Systems (AREA)
- Evolutionary Biology (AREA)
- Medical Informatics (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Image Analysis (AREA)
- Closed-Circuit Television Systems (AREA)
Abstract
本发明公开了一种基于TLD和深度多尺度时空特征的视觉物体跟踪方法,包括以下步骤:S1:从网络上选择视频序列,用于进行目标物体的跟踪;S2:选择视频序列中任一帧的图像作为初始帧图像,并进行处理得到第一数据,第一数据包括目标物体的上下文区域、多尺度模板、分类标签以及回归标签;S3:将得到的第一数据输入构建的模型中进行训练,得到模型的初始参数,初始参数为目标物体的分类值和回归值;S4:通过构建的模型计算目标物体的状态信息,状态信息包括位置、尺度和运动方向。本发明提高了算法的运行速度及计算效率,健壮地识别目标物体的外观变化,从而跟踪计算目标物体的位置、尺度和运动方向。
Description
技术领域
本发明涉及计算机图像处理技术领域,特别涉及一种基于TLD和深度多尺度时空特征的视觉物体跟踪方法。
背景技术
物体跟踪是计算机视觉及其相关研究领域中的一个重要而具有挑战性的任务,同时也是各类机器视觉研究领域中一个开放性的研究问题,在自动监控、人机交互、车辆导航、生物医学、虚拟现实、机器人、安全监控、等领域有着广泛的应用。
在视频跟踪领域,单一的深度卷积网络模型由于缺乏正确标注的训练样本数据信息,因此无法直接应用于视觉物体跟踪任务中;此外,有学者提出将视觉物体跟踪分成两个过程,即:离线预训练阶段以及在线微调和跟踪阶段。实验结果表明,虽然这种方式训练得到的深度网络模型应用于视觉物体跟踪任务时取得了非常好的跟踪性能,但是,不管是离线预训练,还是在线微调都会花费很长的时间。Kala等人提出的“跟踪-学习-检测”中,选取的是固定大小的目标物体,不能识别物体的尺度变化,在视频图像序列中一旦目标物体出现大尺度的变化,就会导致无法检测到目标物体,从而导致跟踪失败。
现有的视觉物体跟踪算法计算量一般较大,且无法很好地适应各种不同目标物体的形变,当物体在视频中放大、缩小,或者发生形变和遮挡等表观变化时,现有算法难以对目标物体进行跟踪和确定边界,且精确度和鲁棒性较低。
发明内容
针对现有技术不能有效识别目标物体尺度变化的问题,本发明提供一种基于TLD和深度多尺度时空特征的视觉物体跟踪方法,通过将目标物体的多尺度时空特征和TLD(Tracking-Learning-Detection,跟踪-学习-检测)框架结合,用于识别目标物体的形变,以对目标物体进行跟踪检测。
为了实现上述目的,本发明提供以下技术方案:
一种基于TLD和深度多尺度时空特征的视觉物体跟踪方法,包括以下步骤:
S1:从网络上选择视频序列,用于进行目标物体的跟踪;
S2:选择视频序列中任一帧的图像作为初始帧图像,并进行处理得到第一数据,第一数据包括目标物体的上下文区域、多尺度模板、分类标签以及回归标签;
S3:将得到的第一数据输入构建的模型中进行训练,得到模型的初始参数,初始参数为目标物体的分类值和回归值;
S4:通过构建的模型计算目标物体的状态信息,状态信息包括位置、尺度和运动方向。
优选的,所述S2包括以下步骤:
S2-1:以目标物体为中心构建目标框,再以目标框为边界裁剪一个图像块作为第一图像块,用于代表目标物体;
S2-2:在第一图像块的周围,裁剪第一图像块的上下文区域得到第二图像块,并将第二图像块缩放至127×127像素,且第二图像块和第一图像块应满足以下公式
m0=m+0.5×(m+n),n0=m+0.5×(m+n) (1)
公式(1)中,m表示第一图像块的宽度,n表示第一图像块的高度,m0表示第二图像块的宽度,n0表示第二图像块的高度;
S2-3:在第二图像块周围以尺度步长为r=1.05来采集67个不同大小的多尺度模板,再对第二图像块进行网格绘制得到网格点,每个网格点依次用67个多尺度模板去匹配,得到第二图像块的分类标签;
S2-4:将视频序列中目标物体的预测框和实际目标框的坐标进行参数化以建立三维矩阵,得到第二图像块的回归标签。
优选的,所述S3包括以下步骤:
S3-1:构建MSSTResNet网络模型:在经典的深度残差网络基础上,删除了res5,并用分类损失层和回归损失层分别代替全连阶层和平均池化层,从而构建了MSSTResNet网络模型,以提升网络对于物体和背景的区分能力;
S3-2:将得到的第一数据输入MSSTResNet网络模型中进行训练,得到模型的初始参数。
优选的,模型的初始参数包括分类值回归值,
分类值的表达式如下:
公式(2)中,yi表示样本是目标物体的预测概率;若样本为正,则如果样本为负,则
回归值的表达式如下:
公式(3)中,i表示样本,x表示预测框的x坐标轴的坐标,y表示预测框的y坐标轴的坐标,w表示预测框的宽,h表示预测框的高,表示平滑损失函数;ti表示预测边框坐标系的参数化;表示实际边框坐标系的参数化
优选的,所述第二图像块的大小应满足以下公式:
E=max(z,z0),z0=m0×n0 (4)
公式(4)中,E表示第二图像块的大小,z表示第二图像块的预期大小,z0表示计算所得的第二图像块的预期大小。
优选的,所述S4包括以下步骤:
S4-1:计算目标物体在视频序列变化后的帧图像中的状态信息;
计算出目标物体的分类值Lcls和回归值Lreg,并取最大分类值以确定目标物体在当前视频帧图像中的最佳状态最佳状态的计算公式如下:
公式(5)中,表示在第t个视频帧的图像中目标物体的尺度是α;
S4-2:进行检测器阈值的动态更新;
对目标物体进行跟踪过程中,采用动态的检测阈值,在某一个视频帧的图像中,一旦检测到小于当前阈值的情况,就需要重新学习,并设定新的检测阈值。
优选的,所述检测器阈值的动态更新包括以下步骤:
S4-1:计算第t帧中目标物体最大分类值和回归值,记为第一阈值τ1;
S4-2:计算第t+1帧中目标物体最大分类值和回归值,记为第二阈值τ2,并将第二阈值τ2和第一阈值τ1进行对比,从而更新检测器的阈值;
若τ2>τ1,则将τ2作为检测器的更新阈值;若τ2<τ1,则重新对模型进行10次迭代训练从而计算计算得到τ3,以τ3作为检测器的阈值。
综上所述,由于采用了上述技术方案,与现有技术相比,本发明至少具有以下有益效果:
本发明通过将深度特征融入“跟踪-学习-检测”框架,建立用于区分目标物体和周围的背景的分类器,并对每个目标物体提取多尺度模板、分类标签和回归标签,用于训练学习器,提高学习器的精度;根据目标动态对检测器进行阈值更新,提高目标跟踪的精准度;能对目标物体的大尺度变化进行识别,降低了目标物体跟踪的难度。
附图说明:
图1为根据本发明示例性实施例的一种基于TLD和深度多尺度时空特征的视觉物体跟踪方法流程示意图。
具体实施方式
下面结合实施例及具体实施方式对本发明作进一步的详细描述。但不应将此理解为本发明上述主题的范围仅限于以下的实施例,凡基于本发明内容所实现的技术均属于本发明的范围。
图1为本发明示例性实施例的一种基于TLD和深度多尺度时空特征的视觉物体跟踪方法,具体包括以下步骤:
S1:从网络上选择视频序列进行目标物体的跟踪。
本实施例中,可从网络上的数据集OTB-2015和VOT-2016中选取视频序列,用于进行目标物体的跟踪。
S2:选择视频序列中任一帧的图像作为初始帧图像进行处理得到第一数据。
本实施例中,为防止图像训练过程中出现过拟合的情况,需对视频序列初始帧的图像进行处理得到第一数据,即深度多尺度时空特征,具体包括以下步骤:
S2-1:对图像进行裁剪得到第一图像块。
在需处理的视频序列初始帧的图像中,以需跟踪的目标物体为中心构建目标框(目标框的大小为127×127像素),再以目标框为边界裁剪一个图像块作为目标物体的第一图像块。为了简化批处理,利用双线性插值将裁剪的图像块缩放至127×127像素。
S2-2:获取目标物体的上下文区域,得到第二图像块。
目标物体的上下文区域过大会增大背景干扰项,过小会丢失有用的背景信息。因此本实施例中,在第一图像块的周围,根据公式(1)在需处理的视频序列初始帧的图像中裁剪,从而得到一个包含目标物体上下文区域的第二图像块,并将第二图像块缩放至127×127像素。
m0=m+0.5×(m+n),n0=m+0.5×(m+n) (1)
公式(1)中,m表示第一图像块的宽度,n表示第一图像块的高度,m0表示第二图像块的宽度,n0表示第二图像块的高度。
在网络中,若目标物体过小,则得到的第二图像块同样很小,则表示目标物体的上下文区域很小,会造成背景信息丢失。因此本实施例中,第二图像块的大小应满足公式(2)的规定:
E=max(z,z0),z0=m0×n0 (2)
公式(2)中,E表示第二图像块的大小,z表示第二图像块的预期大小,z0表示计算所得的第二图像块的预期大小。
S2-3:对第二图像块进行网格绘制,并对网格点进行分类标签(label_cls)的计算。
本实施例中,先在第二图像块周围以尺度步长为r=1.05来采集67个不同大小的多尺度模板(尺度步长为:1.05,尺度因子为:
{1.05-33,1.05-32,1.05-31,…,1.0531,1.0532,1.0533})。
本实施例中,第二图像块的大小为127×127像素,以8像素为步长,依次在第二图像块中绘制网格点,就得到了16×16的网格点(127/8≈16),然后在每个网格点依次用67个多尺度模板去匹配,即计算多尺度模板与目标框之间的重叠率(即每个网格点都与67个不同大小的多尺度模板进行匹配,共有67个对应的分类标签label_cls)。若多尺度模板与S2-1中得到的目标框之间的重叠率大于0.7,我们把该网格点的分类标签label_cls标记为1,即为正样本(正样本是包括目标物体的一个图像块);如果模板框与目标框之间的重叠率小于0.3,我们把该网格点的分类标签label_cls标记为-1,即为负样本(负样本是不包括目标物体的背景图像块);如果重叠率大于0.3而小于0.7,则分类标签label_cls标记为0,表示既包含一部分目标物体又包括背景的图像块。因此可得到16×16×67个分类标签。
S2-4:回归标签(label_reg)的计算。
本实施例中,将需处理的视频序列初始帧的图像左下角的点(图像左侧和下侧的交点)为坐标原点,下侧为x轴,左侧为y轴建立坐标系,为便于计算,将预测框和实际目标框的坐标进行参数化以建立三维矩阵,用于进行回归图中回归标签的计算,则三维矩阵的计算公式如下:
公式(3)中,x、xs、x*分别表示预测框(即跟踪算法生成的目标框)、训练样本框(训练样本是包括原始图像块,67个多尺度模版,带正负标签的样本)和实际目标框的的中心位置的x坐标轴的坐标;y、ys、y*预测框、训练样本框和实际目标框的中心位置的y坐标轴的坐标;w、ws、w*分别表示预测框、训练样本框和实际目标框的宽;h、hs、h*分别表示预测框、训练样本框和实际目标框的高。tx、ty、tw、th、分别表示x、y、x*、y*、w、h、w*、h*参数化后的三维矩阵。
本实施例中,需处理的视频序列初始帧的图像的大小是127×127像素,网格点的步长是8像素,因此图像的网格点数是16×16,每个网格点有67个不同大小的多尺度标签,则三维矩阵tx、ty、和的大小均是16×16×67,三维矩阵tw、th、和的大小是1×1×67,即需处理的视频序列初始帧的图像可以生成16×16×(67×4)=16×16×268个回归图。
本实施例中,第一数据包括第二图像块、67个多尺度模板、分类标签以及回归标签。
S3:将得到的第一数据输入构建的模型中进行训练,得到模型的初始参数。
S3-1:构建MSSTResNet网络模型:
在经典的深度残差网络(DRN,Deep Residual Network)基础上,删除了res5,并用分类损失层Lcls和回归损失层Lreg分别代替全连阶层和平均池化层从而构建了MSSTResNet网络模型,以提升网络对于物体和背景的区分能力。
本实施例中,MSSTResNet网络模型中残差层的所有参数均采用零均值高斯分布随机初始化,固定学习率为10-4,允许在不破坏初始化的情况下进行微调,权重衰减设置为0.005,动量参数设置为0.9。为了消除边界不连续的效果,每个残差层的特征通道采用余弦窗加权,进行视频跟踪时所有这些参数均保持固定不变。
本实施例中,在初始帧图像中,有很多的物体,均可称为样本,目标物体也是样本的一种。从网络上选择视频序列的也可看作为带标签的训练样本,且训练样本经过步骤S2可得到多个尺度和多个任务,需输入构建的模型进行处理。则本发明采用多任务损失函数L来训练分类损失层Lcls和回归损失层Lreg。
公式(4)中,Xi表示训练样本;是分类损失层和回归损失层的共同输出;是分类标签,若样本为正,则如果样本为负,则yi表示样本是目标物体的预测概率;表示与正训练样本有关的实际边框的参数化,ti表示预测边框的参数化;λk表示分类损失层和回归损失层之间的平衡权重;Ncls和Nreg分别表示用于分类损失层和回归损失层的训练样本数;表示模型中的回归损失,只有正的训练样本才可以激活回归损失。
本实施例中,为方便模型计算,因此将多尺度和多任务问题进行最小化,表达式如下:
公式(5)中,W表示检测器;K表示尺度数;αK表示多任务损失函数L的权重,平衡不同尺度的训练样本的重要性,可将αK设置为1,表示模型中尺度都是同等重要;S={S1,S2,…,Sk},Sk表示包含k个尺度模型在内的训练样本的子集。
S3-2:将得到的第一数据输入MSSTResNet网络模型中进行训练。
本实施例中,将S2步骤得到的第一数据输入到构建的MSSTResNet网络模型中进行训练,训练次数为50次,从而得到网络模型的初始参数,初始参数包括分类值和回归值。
则分类值的表达公式如下:
公式(6)中,yi表示样本i是目标物体的预测概率;若样本i为正,则如果样本i为负,则
回归值的表达公式如下:
公式(7)中,i∈{x,y,w,h}表示样本,表示平滑损失函数;ti表示预测边框坐标系的参数化;表示实际边框坐标系的参数化,即
本实施例中,采用随机梯度下降方法进行训练,批处理大小为128张图像,每张图像提取5个时间块来优化参数。且为了防止训练过程中出现过拟合,我们在随机梯度下降中采用时间采样机制进行批处理生成。
本实施例中,在对视频序列中的目标物体进行跟踪时,若在第a帧图像中检测到目标物体跟踪失败,则将第a帧图像的前10帧图像及其每张图像所对应的分类标签和回归标签输入MSSTResNet网络模型进行再次训练,经过10次迭代训练后,通过对网络参数的微调,学习得到新的网络参数以继续跟踪目标物体。这样可以通过不断的更新网络模型的初始参数,更好地对目标物体进行跟踪。
S4:通过构建的模型计算目标物体的状态信息。
视频序列中的目标物体很少会是匀速或者直线运动,所以在连续的视频序列中估计目标物体的运动轨迹时难免会出现误差,随着跟踪时间的累积,每个视频帧的估计误差也会逐渐累加,当误差累加到一定程度时,就会出现跟踪失败或者跟踪目标发生偏移。
S4-1:计算目标物体在视频序列变化后的帧图像中的状态信息。
本实施例中,从残差单元res3和res4输出的具有多尺度特征的特征图送入分类和归回层来计算分类值和回归值,用于将物体和背景分离,并根据分类值和回归值确定目标物体在当前视频帧的图像中的状态信息,包括位置、尺度和运动方向。
本实施例中,一个视频序列初始帧中标记为第一帧,包含目标物体和周围背景的上下文区域为R1,目标物体的初始状态为v1。检测器的目标是在视频序列后续的第t帧中,估计目标物体的状态为以及包含目标和背景的上下文区域根据公式(6)和(7)可分别计算出目标物体的分类值Lcls和回归值Lreg,并取最大分类值以确定目标物体在当前视频帧图像中的最佳状态最佳状态的计算公式如下:
公式(8)中,表示在第t个视频帧的图像中目标物体的尺度是α。
S4-2:进行检测器阈值的动态更新。
本实施例中,为了避免误差累加,同时利用了跟踪器和检测器。跟踪器用于提供弱标签的训练数据以改进在检测器每个独立的视频序列图像中的检测性能,而检测器可以重新初始化一个跟踪器以最小化跟踪误差。且在对目标物体进行跟踪过程中,采用动态的检测阈值,在某一个视频帧的图像中,一旦检测到小于当前阈值的情况(当前阈值可根据上一次的检测结果更新得到),就需要重新学习,并设定新的检测阈值。
S4-2-1:计算第t帧中目标物体最大分类值和回归值,记为第一阈值。
本实施例中,以第t帧中目标物体的目标框为中心,步长为1.05,选取3个大小不同的第二图像块,并将3个图像块均缩放至127×127像素,记为第二数据,将第二数据输入训练好的MSSTResNet网络中,将分类值score_cls和回归分值score_reg分值最大(分类值可根据公式(4)计算获得,回归值可根据公式(5)计算获得)的设置为检测器的第一阈值τ1。其中,分类值score_cls用于粗略定位目标,回归分值score_reg用于精确定位目标。
S4-2-2:计算第t+1帧中目标物体最大分类值和回归值,记为第二阈值,将第二阈值和第一阈值进行对比,从而更新检测器的阈值。
本实施例中,在输入第t+1帧图像时,同时将第二数据输入训练好的MSSTResNet网络中,若在第t+1帧图像中计算得到的目标物体的最大分类值和回归值,标记为第二阈值τ2。
若τ2>τ1,则用τ2代替τ1作为检测器的阈值进行后续阈值比较,并根据对应的分类值和回归值计算目标物体的状态信息。
若τ2<τ1,表示目标物体发生了显著地外观变化或检测到跟踪失败,则将第t+1帧之前的10帧图像及其每张图像所对应的分类标签和回归标签输入MSSTResNet网络模型进行10次迭代训练以对MSSTResNet网络模型参数进行调整,再对第t+1帧图像的最大分类值进行二次计算得到τ3,以更新检测器的阈值,即无论τ3是否大于τ1,都将二次计算得到的τ3作为检测器的阈值。并根据τ3对应的分类值和回归值来确定目标物体在当前视频帧的图像中的最佳位置。
在数据集VOT-2016上对各种算法进行了评估,主要从加权平均重叠率(Overlap)、平均加权健壮度(R-Rank)、加权平均失败次数(failures)以及A-排名(A-Rank)方面进行评估,如表1所述。
表1算法评估结果
本发明 | TCNN | CCOT | MDNet_N | MLDF | EBT | SSAT | DDC | STAPLEP | SiamRN | |
R-Rank | 8.28 | 12.38 | 9.68 | 12.62 | 7.8 | 8.67 | 11.7 | 14.72 | 14.32 | 17.92 |
failures | 0.72 | 0.83 | 0.89 | 0.91 | 0.92 | 1.05 | 1.05 | 1.27 | 1.31 | 1.36 |
A-Rank | 9.9 | 5.6 | 7.8 | 5.5 | 13.18 | 17.82 | 3.68 | 5.77 | 4.5 | 3.6 |
Overlap | 0.52 | 0.55 | 0.54 | 0.54 | 0.49 | 0.46 | 0.58 | 0.54 | 0.55 | 0.55 |
从表1的数值中可看出,本发明在各方面的评价较高,表明本发明在健壮度方面表现优秀,并保持了很高的跟踪精度。
Claims (7)
1.一种基于TLD和深度多尺度时空特征的视觉物体跟踪方法,其特征在于,包括以下步骤:
S1:从网络上选择视频序列,用于进行目标物体的跟踪;
S2:选择视频序列中任一帧的图像作为初始帧图像,并进行处理得到第一数据,第一数据包括目标物体的上下文区域、多尺度模板、分类标签以及回归标签;
S3:将得到的第一数据输入构建的模型中进行训练,得到模型的初始参数,初始参数为目标物体的分类值和回归值;
S4:通过构建的模型计算目标物体的状态信息,状态信息包括位置、尺度和运动方向。
2.如权利要求1所述的一种基于TLD和深度多尺度时空特征的视觉物体跟踪方法,其特征在于,所述S2包括以下步骤:
S2-1:以目标物体为中心构建目标框,再以目标框为边界裁剪一个图像块作为第一图像块,用于代表目标物体;
S2-2:在第一图像块的周围,裁剪第一图像块的上下文区域得到第二图像块,并将第二图像块缩放至127×127像素,且第二图像块和第一图像块应满足以下公式
m0=m+0.5×(m+n),n0=m+0.5×(m+n) (1)
公式(1)中,m表示第一图像块的宽度,n表示第一图像块的高度,m0表示第二图像块的宽度,n0表示第二图像块的高度;
S2-3:在第二图像块周围以尺度步长为r=1.05来采集67个不同大小的多尺度模板,再对第二图像块进行网格绘制得到网格点,每个网格点依次用67个多尺度模板去匹配,得到第二图像块的分类标签;
S2-4:将视频序列中目标物体的预测框和实际目标框的坐标进行参数化以建立三维矩阵,得到第二图像块的回归标签。
3.如权利要求1所述的一种基于TLD和深度多尺度时空特征的视觉物体跟踪方法,其特征在于,所述S3包括以下步骤:
S3-1:构建MSSTResNet网络模型:在经典的深度残差网络基础上,删除了res5,并用分类损失层和回归损失层分别代替全连阶层和平均池化层,从而构建了MSSTResNet网络模型,以提升网络对于物体和背景的区分能力;
S3-2:将得到的第一数据输入MSSTResNet网络模型中进行训练,得到模型的初始参数。
4.如权利要求1所述的一种基于TLD和深度多尺度时空特征的视觉物体跟踪方法,其特征在于,模型的初始参数包括分类值回归值,
分类值的表达式如下:
公式(2)中,yi表示样本是目标物体的预测概率;若样本为正,则如果样本为负,则
回归值的表达式如下:
公式(3)中,i表示样本,x表示预测框的x坐标轴的坐标,y表示预测框的y坐标轴的坐标,w表示预测框的宽,h表示预测框的高,表示平滑损失函数;ti表示预测边框坐标系的参数化;表示实际边框坐标系的参数化
5.如权利要求2所述的一种基于TLD和深度多尺度时空特征的视觉物体跟踪方法,其特征在于,所述第二图像块的大小应满足以下公式:
E=max(z,z0),z0=m0×n0 (4)
公式(4)中,E表示第二图像块的大小,z表示第二图像块的预期大小,z0表示计算所得的第二图像块的预期大小。
6.如权利要求1所述的一种基于TLD和深度多尺度时空特征的视觉物体跟踪方法,其特征在于,所述S4包括以下步骤:
S4-1:计算目标物体在视频序列变化后的帧图像中的状态信息;
计算出目标物体的分类值Lcls和回归值Lreg,并取最大分类值以确定目标物体在当前视频帧图像中的最佳状态最佳状态的计算公式如下:
公式(5)中,表示在第t个视频帧的图像中目标物体的尺度是α;
S4-2:进行检测器阈值的动态更新;
对目标物体进行跟踪过程中,采用动态的检测阈值,在某一个视频帧的图像中,一旦检测到小于当前阈值的情况,就需要重新学习,并设定新的检测阈值。
7.如权利要求6所述的一种基于TLD和深度多尺度时空特征的视觉物体跟踪方法,其特征在于,所述检测器阈值的动态更新包括以下步骤:
S4-1:计算第t帧中目标物体最大分类值和回归值,记为第一阈值τ1;
S4-2:计算第t+1帧中目标物体最大分类值和回归值,记为第二阈值τ2,并将第二阈值τ2和第一阈值τ1进行对比,从而更新检测器的阈值;
若τ2>τ1,则将τ2作为检测器的更新阈值;若τ2<τ1,则重新对模型进行10次迭代训练从而计算计算得到τ3,以τ3作为检测器的阈值。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910401324.9A CN110111370B (zh) | 2019-05-15 | 2019-05-15 | 一种基于tld和深度多尺度时空特征的视觉物体跟踪方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910401324.9A CN110111370B (zh) | 2019-05-15 | 2019-05-15 | 一种基于tld和深度多尺度时空特征的视觉物体跟踪方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN110111370A true CN110111370A (zh) | 2019-08-09 |
CN110111370B CN110111370B (zh) | 2023-05-30 |
Family
ID=67490117
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910401324.9A Active CN110111370B (zh) | 2019-05-15 | 2019-05-15 | 一种基于tld和深度多尺度时空特征的视觉物体跟踪方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110111370B (zh) |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111797728A (zh) * | 2020-06-19 | 2020-10-20 | 浙江大华技术股份有限公司 | 一种运动物体的检测方法、装置、计算设备及存储介质 |
CN111932583A (zh) * | 2020-06-05 | 2020-11-13 | 西安羚控电子科技有限公司 | 一种基于复杂背景下的时空信息一体化智能跟踪方法 |
CN112749599A (zh) * | 2019-10-31 | 2021-05-04 | 北京金山云网络技术有限公司 | 图像增强方法、装置和服务器 |
CN115249254A (zh) * | 2022-09-21 | 2022-10-28 | 江西财经大学 | 一种基于ar技术的目标跟踪方法及系统 |
Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101369346A (zh) * | 2007-08-13 | 2009-02-18 | 北京航空航天大学 | 一种视频运动目标自适应窗口的跟踪方法 |
CN106127815A (zh) * | 2016-07-21 | 2016-11-16 | 广东工业大学 | 一种融合卷积神经网络的跟踪方法及系统 |
CN106485732A (zh) * | 2016-09-09 | 2017-03-08 | 南京航空航天大学 | 一种视频序列的目标跟踪方法 |
CN106874894A (zh) * | 2017-03-28 | 2017-06-20 | 电子科技大学 | 一种基于区域全卷积神经网络的人体目标检测方法 |
CN106952293A (zh) * | 2016-12-26 | 2017-07-14 | 北京影谱科技股份有限公司 | 一种基于非参数在线聚类的目标跟踪方法 |
CN107403175A (zh) * | 2017-09-21 | 2017-11-28 | 昆明理工大学 | 一种运动背景下的视觉跟踪方法及视觉跟踪系统 |
CN108447079A (zh) * | 2018-03-12 | 2018-08-24 | 中国计量大学 | 一种基于tld算法框架的目标跟踪方法 |
CN108648233A (zh) * | 2018-03-24 | 2018-10-12 | 北京工业大学 | 一种基于深度学习的目标识别与抓取定位方法 |
-
2019
- 2019-05-15 CN CN201910401324.9A patent/CN110111370B/zh active Active
Patent Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101369346A (zh) * | 2007-08-13 | 2009-02-18 | 北京航空航天大学 | 一种视频运动目标自适应窗口的跟踪方法 |
CN106127815A (zh) * | 2016-07-21 | 2016-11-16 | 广东工业大学 | 一种融合卷积神经网络的跟踪方法及系统 |
CN106485732A (zh) * | 2016-09-09 | 2017-03-08 | 南京航空航天大学 | 一种视频序列的目标跟踪方法 |
CN106952293A (zh) * | 2016-12-26 | 2017-07-14 | 北京影谱科技股份有限公司 | 一种基于非参数在线聚类的目标跟踪方法 |
CN106874894A (zh) * | 2017-03-28 | 2017-06-20 | 电子科技大学 | 一种基于区域全卷积神经网络的人体目标检测方法 |
CN107403175A (zh) * | 2017-09-21 | 2017-11-28 | 昆明理工大学 | 一种运动背景下的视觉跟踪方法及视觉跟踪系统 |
CN108447079A (zh) * | 2018-03-12 | 2018-08-24 | 中国计量大学 | 一种基于tld算法框架的目标跟踪方法 |
CN108648233A (zh) * | 2018-03-24 | 2018-10-12 | 北京工业大学 | 一种基于深度学习的目标识别与抓取定位方法 |
Non-Patent Citations (4)
Title |
---|
LUCA BERTINETTO等: "Fully-Convolutional Siamese Networks for Object Tracking", 《EUROPEAN CONFERENCE ON COMPUTER VISION》 * |
ZDENEK KALAL等: "Tracking-Learning-Detection", 《IEEE TRANSACTIONS ON PATTERN ANALYSIS AND MACHINE INTELLIGENCE》 * |
吴进等: "基于区域卷积神经网络和光流法的目标跟踪", 《电讯技术》 * |
戴凤智等: "基于深度学习的视频跟踪研究进展综述", 《计算机工程与应用》 * |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112749599A (zh) * | 2019-10-31 | 2021-05-04 | 北京金山云网络技术有限公司 | 图像增强方法、装置和服务器 |
CN111932583A (zh) * | 2020-06-05 | 2020-11-13 | 西安羚控电子科技有限公司 | 一种基于复杂背景下的时空信息一体化智能跟踪方法 |
CN111797728A (zh) * | 2020-06-19 | 2020-10-20 | 浙江大华技术股份有限公司 | 一种运动物体的检测方法、装置、计算设备及存储介质 |
CN115249254A (zh) * | 2022-09-21 | 2022-10-28 | 江西财经大学 | 一种基于ar技术的目标跟踪方法及系统 |
Also Published As
Publication number | Publication date |
---|---|
CN110111370B (zh) | 2023-05-30 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110111370A (zh) | 一种基于tld和深度多尺度时空特征的视觉物体跟踪方法 | |
CN105488815B (zh) | 一种支持目标尺寸变化的实时对象跟踪方法 | |
Gao et al. | A real-time defect detection method for digital signal processing of industrial inspection applications | |
CN112836640B (zh) | 一种单摄像头多目标行人跟踪方法 | |
CN103886325B (zh) | 一种分块的循环矩阵视频跟踪方法 | |
CN111079602A (zh) | 基于多尺度区域特征约束的车辆细粒度识别方法及装置 | |
Li et al. | A new clustering algorithm for processing GPS-based road anomaly reports with a mahalanobis distance | |
CN109948415A (zh) | 基于背景过滤和尺度预测的光学遥感图像目标检测方法 | |
CN104036237B (zh) | 基于在线预测的旋转人脸的检测方法 | |
CN104077596A (zh) | 一种无标志物跟踪注册方法 | |
CN112926522B (zh) | 一种基于骨骼姿态与时空图卷积网络的行为识别方法 | |
CN110991397B (zh) | 一种行进方向确定方法及相关设备 | |
CN110097091A (zh) | 训练与推理数据分布不一致条件下的图像细粒度识别方法 | |
CN109284705A (zh) | 一种交通监控视频的异常检测方法 | |
CN107067410A (zh) | 一种基于增广样本的流形正则化相关滤波目标跟踪方法 | |
CN110135327A (zh) | 一种基于多区域特征学习模型的驾驶员行为识别方法 | |
CN114332473A (zh) | 目标检测方法、装置、计算机设备、存储介质及程序产品 | |
CN109858326A (zh) | 基于类别语义弱监督的在线视觉跟踪方法及系统 | |
CN118015048A (zh) | 基于残差网络和群体混合注意力的目标跟踪方法与系统 | |
Feng | Mask RCNN-based single shot multibox detector for gesture recognition in physical education | |
CN113327269A (zh) | 一种无标记颈椎运动检测方法 | |
Faujdar et al. | Human pose estimation using artificial intelligence with virtual gym tracker | |
CN113496260A (zh) | 基于改进YOLOv3算法的粮库人员不规范作业检测法 | |
CN114241371A (zh) | 用于学生实验操作考评的视频动作识别系统及训练方法 | |
CN106056146A (zh) | 基于逻辑回归的视觉跟踪方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |