CN108346159B - 一种基于跟踪-学习-检测的视觉目标跟踪方法 - Google Patents

一种基于跟踪-学习-检测的视觉目标跟踪方法 Download PDF

Info

Publication number
CN108346159B
CN108346159B CN201810080582.7A CN201810080582A CN108346159B CN 108346159 B CN108346159 B CN 108346159B CN 201810080582 A CN201810080582 A CN 201810080582A CN 108346159 B CN108346159 B CN 108346159B
Authority
CN
China
Prior art keywords
tracking
frame
target
classifier
response
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201810080582.7A
Other languages
English (en)
Other versions
CN108346159A (zh
Inventor
李嘉锋
张时雨
卓力
张辉
马春杰
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing University of Technology
Original Assignee
Beijing University of Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing University of Technology filed Critical Beijing University of Technology
Priority to CN201810080582.7A priority Critical patent/CN108346159B/zh
Publication of CN108346159A publication Critical patent/CN108346159A/zh
Application granted granted Critical
Publication of CN108346159B publication Critical patent/CN108346159B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/20Analysis of motion
    • G06T7/246Analysis of motion using feature-based methods, e.g. the tracking of corners or segments
    • G06T7/251Analysis of motion using feature-based methods, e.g. the tracking of corners or segments involving models
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/285Selection of pattern recognition techniques, e.g. of classifiers in a multi-classifier system
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/20Analysis of motion
    • G06T7/223Analysis of motion using block-matching
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/20Analysis of motion
    • G06T7/262Analysis of motion using transform domain methods, e.g. Fourier domain methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/10Image acquisition modality
    • G06T2207/10016Video; Image sequence
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20021Dividing image into blocks, subimages or windows
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20024Filtering details
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20048Transform domain processing
    • G06T2207/20056Discrete and fast Fourier transform, [DFT, FFT]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20081Training; Learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20084Artificial neural networks [ANN]

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Data Mining & Analysis (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Evolutionary Biology (AREA)
  • General Engineering & Computer Science (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Mathematical Physics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开了一种基于跟踪‑学习‑检测的视觉目标跟踪方法,属于计算机视觉领域。首先,本发明从深度特征和核相关滤波的角度出发,建立了一种基于跟踪‑学习‑检测的视觉目标跟踪方法,可完成复杂场景下长时间目标跟踪的任务;其次,本发明针对卷积神经网络的特征图进行了研究和测试,并分析了不同卷积层的特征图对视觉目标跟踪的影响。最后,本发明融入目标检测的思想,可以进行跟踪失败后对目标进行再检测,从而实现对单目标的长时间跟踪。本方法将相关滤波跟踪方法与深度学习相结合,从而提高目标在复杂场景下目标跟踪的鲁棒性。

Description

一种基于跟踪-学习-检测的视觉目标跟踪方法
技术领域
本发明属于计算机视觉领域,特别涉及一种基于跟踪-学习-检测的视觉目标跟踪方法。
背景技术
视觉目标跟踪是计算机视觉领域的重要组成部分,但由于视觉目标会出现光照、形变,遮挡等多种复杂场景,复杂背景下的通用目标跟踪在计算机视觉领域仍然是一项非常具有挑战性的研究任务。目前目标跟踪技术不断地被应用到人们的生产生活以及军事等各个方面,如视频监控、智能无人机、精确制导、智能分析等。
通常视觉目标跟踪是指单目标跟踪。单目标跟踪则是对一个未知目标,通过视频第一帧给定的目标初始化状态(尺度信息与位置信息)进行跟踪。跟踪的结果是在后续帧中,利用跟踪方法计算出目标的位置和尺度信息,并以矩形框(跟踪框)的形式在原视频上显示这些信息。
由于算法速度快,效果好,近年来基于相关滤波的视觉目标跟踪方法吸引了众多研究者的目光。相关滤波器通过将输入特征回归为目标高斯分布来训练滤波器。并在后续跟踪中寻找预测分布中的响应峰值来定位目标的位置。相关滤波器在运算中巧妙应用快速傅立叶变换获得了大幅度速度提升。目前基于相关滤波的拓展方法也有很多,包括核化相关滤波器方法,尺度估计的相关滤波器方法等。
由于深度学习的迅速兴起,研究者们同时也将深度学习应用于视觉目标跟踪上,基于深度学习的方法大致分为两种,一种是利用深度模型,另一种则是利用深度特征。基于深度学习的目标跟踪方法准确性较高但是速度较慢。
发明内容
本发明的目的在于提供一种基于跟踪-学习-检测的视觉目标跟踪方法,将相关滤波跟踪方法与深度学习相结合,从而提高目标在复杂场景下目标跟踪的鲁棒性,同时加入检测机制以应对目标消失在视场后再次出现在视场内的情况,从而实现长时间目标跟踪。
整体流程:获取一帧图像后采用ImageNet预训练好的VGG-19卷积神经网络中的卷积层提取特征,然后通过相关滤波计算出响应图,进行多峰值检测,确定目标的所在位置。当平均峰值能量APCE(average peak-to-correlation energy) 与峰值均大于历史均值时,判定跟踪成功,然后更新模型,并在线训练检测器;当APCE与历史均值的差大于特定值时,判定跟踪失败,然后不更新模型,同时调用检测器对跟踪器进行初始化。
学习部分:学习器利用深度学习中卷积神经网络的卷积层提取目标特征,其中卷积神经网络的卷积层采用ImageNet预训练好的VGG-19中的三个卷积层;
跟踪部分:跟踪器包含四个相关滤波器,其中三个是用来检测目标的位置,另一个为尺度滤波器用来检测目标的的尺度变化;
检测部分:检测器由三个级联分类器构成,分别为方差分类器,随机森林分类器和最近邻分类器。其中随机森林分类器和最近邻分类器需要在线训练
所述的整体流程,具体步骤如下:
步骤1在视频的第一帧手工标定或者从文档中读取目标的位置信息和尺度信息,并初始化检测器;位置信息和尺度信息以跟踪框的形式呈现。
步骤2将跟踪框的1.5倍大小提取的图像块送入VGG-19卷积神经网络,运算完成后提取Conv5-4,Conv4-4和Conv3-4产生的特征图。
步骤3利用三个深度特征初始化三个核相关滤波器。
步骤4在下一帧图像,通过前一帧跟踪框的位置,步骤2进行特征提取,利用三个相关滤波器分别进行相关滤波,得到三个响应图,将三个响应图进行线性加权求和得到一张响应图,查找响应的最大值fmax(最大响应值)以及最大值的坐标作为新的目标位置。然后进行目标尺度估计,获取尺度响应最大值的作为新的目标尺度。计算APCE值,当此时的fmax和APCE与历史均值的差都小于某一值时,判定跟踪成功,在新的跟踪框位置和大小按照步骤2提取特征,然后更新滤波器模型,并训练检测器。
步骤5当此时的fmax和APCE与历史均值的差都大于某一值时,判定跟踪失败,不进行滤波器模型更新,用检测器重新初始化跟踪器,返回步骤4。
步骤6重复步骤4、步骤5直至视频最后一帧。
所述的学习部分,具体步骤如下:
(1)通过跟踪框位置以及大小(如果是第一帧则是手动标出)在当前帧获取一个1.5倍大小的图像块,然后将该图像块归一化到224×224分辨率大小,之后送入VGG-19卷积神经网络做运算,并按照图像块大小创建一个二维高斯分布,然后进行快速傅里叶变换得到
Figure BDA0001560902950000031
(2)运算完成后提取Conv5-4,Conv4-4和Conv3-4分别经过ReLU层产生的特征图,将特征图归一化到同一patch大小(即跟踪框的1.5倍大小),并且对于每一个特征图(特征图一般是三维数据,例如Conv3-4的特征图维度是56× 56×256,Conv4-4的特征图维度是28×28×512)按照第三个维度进行叠加,得到二维的特征图并进行快速傅里叶变换记为
Figure BDA0001560902950000032
所述的跟踪部分,具体步骤如下:
(1)在第t帧图像中,先根据上一帧(t-1)跟踪框位置和大小,利用学习器提取三个深度特征图
Figure BDA0001560902950000033
然后分别与对应滤波器模型参数x(d)进行线性核相关运算,计算
Figure BDA0001560902950000034
公式如下:
Figure BDA0001560902950000035
其中,z表示卷积后的特征图,x表示滤波器参数,kxz表示核相关运算,上标d 表示是第d个特征图和滤波器参数,^表示快速傅里叶变换,⊙表示两个矩阵元素对应相乘,*表示复数共轭。
(2)然后利用线性核相关运算结果
Figure BDA0001560902950000036
与滤波器模型参数α(d)计算三个响应图f(1),f(2),f(3),公式如下:
Figure BDA0001560902950000037
其中,f表示响应图,kxz表示核相关运算,α是滤波器参数,d是上标表示第d 个响应图,
Figure BDA0001560902950000038
表示离散傅里叶的逆变换,^表示快速傅里叶变换,⊙表示两个矩阵元素对应相乘,*表示复数共轭。
(3)得到三个响应图后,进行线性加权求和得到第t帧的位置总响应图ft,p,并找到最大的响应点的位置p以及最大响应的值fmax,公式如下:
Figure BDA0001560902950000039
其中,ft,p是第t帧的位置总响应图,f(d)表示第d个响应图,Cd表示第d个线性加权系数。
(4)通过最大响应的位置,和在t-1帧的尺度大小S提取尺度估计的候选区域Z,构建尺度金字塔,计算尺度滤波器与金字塔的相关滤波运算得到响应图 ft,s,并找到响应值最大相对应的尺度,作为第t帧的尺度;
(5)计算平均峰值能量APCE(average peak-to-correlation energy),计算公式如下:
Figure BDA0001560902950000041
其中,fmax和fmin分别表示响应的最大值和最小值,fw,h表示是(w,h)位置上的响应值。
(6)当此时的fmax和APCE与历史均值的差都大于某一值时,判定跟踪失败,不进行滤波器模型更新。反之,判定跟踪成功,在新的跟踪框位置和大小通过学习器提取特征并进行快速傅里叶变换记为
Figure BDA0001560902950000042
然后更新滤波器模型参数x(d)和α(d),并训练检测器,更新滤波器模型公式如下:
Figure BDA0001560902950000043
Figure BDA0001560902950000044
Figure BDA0001560902950000045
Figure BDA0001560902950000046
其中,kxx表示核相关滤波运算,
Figure BDA0001560902950000047
Figure BDA0001560902950000048
分别表示当前帧和前一帧的滤波器参数,
Figure BDA0001560902950000049
Figure BDA00015609029500000410
分别表示当前帧和前一帧的滤波器参数,η是学习率,λ是常数,
Figure BDA00015609029500000411
表示离散傅里叶的逆变换,^表示快速傅里叶变换,⊙表示两个矩阵元素对应相乘,*表示复数共轭。
所述的检测部分,具体步骤如下:
检测器由方差分类器,集合分类器以及最近邻分类器三个级联分类器构成。方差分类器排除方差小于初始目标边界框方差50%的图像块,方差分类器通过下式计算图像块的灰度值方差:
D(x)=E(x2)-E2(x)(9)
其中,x表示图像块区域,D(x)表示图像块区域的灰度值方差,E(x)表示图像块区域的灰度值均值,E(x2)表示图像块区域灰度值平方的均值。
集合分类器含有n个基本分类器,基本分类器也称为决策树。这n个决策树构成了随机森林。集合分类器在初始化时,随机产生10组每组13个点对,然后对于每一个通过方差分类器的图像,进行点对的两两比较,生成相应的二进制编码,最后得到10个二进制编码,用来代表此图像块的特征,每一个二进制编码都有其各自的后验概率所代表,最后将十个后验概率的平均来判断图像块是否为正样本,定义后验概率公式为:
Figure BDA0001560902950000051
其中,mp和mn分别代表着正样本图像块和负样本图像块的个数;
最近邻分类器通过相关相似性度量对通过集合分类器的正样本进行进一步筛选,所用到的公式如下:
a)目标模型集合M
Figure BDA0001560902950000052
其中,p+表示目标的图像块,p-表示目标周围背景的图像块。将p+和p-添加至集合时,正样本是按照时间进行排序的;
b)正样本最近邻的相似度
Figure BDA0001560902950000053
其中,p是要添加到集合M的样本,
Figure BDA0001560902950000054
是集合M中所有的正样本;
c)负样本最近邻的相似度
Figure BDA0001560902950000055
其中,p是要添加到集合M的样本,
Figure BDA0001560902950000056
是集合M中所有的负样本;
d)相关相似度
Figure BDA0001560902950000057
其中,S+表示正样本最近邻的相似度,S-表示负样本最近邻的相似度;
(1)在第一帧中,利用初始跟踪框的位置和尺度信息,通过仿射变换产生正负样本,其中正负样本标签是通过计算与初始跟踪框的重叠率得到的;
(2)利用正负样本训练集合分类器和最近邻分类器,并构建目标模型M;
(3)当跟踪器判别跟踪成功后,利用当前帧跟踪器产生的跟踪框的位置和尺度信息,通过仿射变换产生正负样本,再次训练集合分类器和最近邻分类器,更新后验概率以及目标模型M;
(4)当跟踪器判别跟踪失败后,检测器通过21种尺度的扫描窗口对当前帧进行扫描具体过程为,扫描窗口尺度的缩放比例为1.2,共有21种尺度变换 (0.16151~6.19174),水平步长系数是初始目标边界框宽度的10%,垂直步长系数是初始目标边界框高度的10%,最小的边界框的大小是20像素。将扫描产生的图像块送入三个级联分类器,然后将与模型相似度最高的图像块作为含有目标的图像块,输出此图像块的大小和坐标作为当前帧跟踪框的位置和尺度。然后对跟踪器进行初始化。
本发明的特点:
首先,本发明从深度特征和核相关滤波的角度出发,建立了一种基于跟踪- 学习-检测的视觉目标跟踪方法,可完成复杂场景下长时间目标跟踪的任务;其次,本发明针对卷积神经网络的特征图进行了研究和测试,并分析了不同卷积层的特征图对视觉目标跟踪的影响。最后,本发明融入目标检测的思想,可以进行跟踪失败后对目标进行再检测,从而实现对单目标的长时间跟踪。
附图说明
图1、发明方法总体流程图;
图2、发明方法学习部分流程图;
图3、发明方法跟踪部分流程图;
图4、发明方法检测部分流程图,其中:
(a)检测部分训练分类器流程图;
(b)跟踪失败后检测部分重新检测目标位置流程图;
图5、本发明方法实验结果图,其中:
(a)第一帧输入图像结果图;
(b)某一帧光照改变跟踪结果图;
(c)某一帧目标尺度发生变化跟踪结果图;
(d)某一帧目标发生旋转畸变跟踪结果图;
具体实施方式
以下结合说明书附图,对本发明的实施实例加以详细说明:
一种基于跟踪-学习-检测的视觉目标跟踪方法,整体流程图如附图1所示;算法分为学习部分,跟踪部分和检测部分;其流程图分别如附图2,附图3和附图4所示;学习部分,根据上一帧输出的(或第一帧的)跟踪框位置和尺度信息,在当前帧获取一个1.5倍跟踪框大小的图像块。将图像块送入VGG-19卷积神经网络进行运算,然后提取Conv5-4,Conv4-4和Conv3-4层分别经过ReLU层产生的特征图,然后进行快速傅里叶变换。接着按照图像块大小创建一个二维高斯分布(标准响应图),并对其进行快速傅里叶变换。跟踪部分,利用学习部分提取的特征图和标准响应图,通过核相关滤波的方法预测下一帧目标的位置和尺度,然后进行跟踪结果的判断,失败则不更新滤波器模型,不训练检测器。成功则更新滤波器模型并训练检测器。检测部分,在第一帧中,通过跟踪框的位置和尺度信息利用仿射变换产生正负样本,初始化集合分类器和最近邻分类器,并构建目标模型。在第t帧中,若跟踪器跟踪成功,则利用跟踪器产生的跟踪框位置和尺度信息产生正负样本,训练集合分类器和最近邻分类器,并更新目标模型;若跟踪器跟踪失败,则由检测器利用21种尺度的扫描窗口在当前帧进行扫描,然后将产生的大量图像块送入三个级联分类器,最后得到一个与目标模型相似度最高的图像块,然后输出此图像块的位置和尺度作为当前帧的跟踪框,并重新初始化跟踪器。
所述学习部分分为两个步骤:
(1)获取第t-1帧(若是更新滤波器模型则是获取第t帧)跟踪框的位置和尺度信息,将跟踪框进行1.5倍的扩大获得一个图像块。然后将这个图像块然后将这个图像块归一化到224×224大小,送入VGG-19卷积神经网络做运算。接着按照原始图像块大小创造一个二维高斯分布,并进行傅里叶变换得到
Figure BDA0001560902950000071
(2)运算完成后提取第Conv5-4,Conv4-4和Conv3-4卷积层分别经过ReLU 层产生的特征图,然后将特征图归一化到原始图像块大小,并且对于每一个特征图(三维数据)按照第三个维度进行叠加,得到二维的特征图再进行快速傅里叶变换记为
Figure BDA0001560902950000072
所述的跟踪部分分为六个步骤:
(1)在第t帧图像中,先根据上t-1帧跟踪框位置和尺度,利用学习部分提取三个深度特征图
Figure BDA0001560902950000073
并乘以余弦窗较少边界效应,然后在频域分别与对应滤波器模型参数x(d)进行线性核相关运算,利用公式(1)计算
Figure BDA0001560902950000074
(2)然后利用线性核相关运算结果
Figure BDA0001560902950000075
与滤波器模型参数α(d)通过公式(2) 计算三个响应图f(1),f(2),f(3)
(3)得到三个响应图后,通过公式(3)进行线性加权求和得到第t帧的位置总响应图ft,p,并找到最大的响应点的位置p以及最大响应的值fmax;
(4)通过最大响应的位置,和在t-1帧的尺度大小S提取尺度估计的候选区域Z,构建尺度金字塔,计算尺度滤波器与金字塔的相关滤波运算得到响应图 ft,,s,并找到响应值最大相对应的尺度,作为第t帧的尺度;
(5)通过公式(4)计算平均峰值能量(average peak-to-correlation energy,APCE);
(6)进行跟踪结果的判定,当此时的fmax和APCE与历史均值的差都大于某一值时,判定跟踪失败,不进行滤波器模型更新。反之,判定跟踪成功,在新的跟踪框位置和大小通过学习器提取特征并进行快速傅里叶变换记为
Figure BDA0001560902950000081
Figure BDA0001560902950000082
然后通过公式(5)-(8)更新滤波器模型参数x(d)和α(d),并训练检测器。
所述的检测部分,具体步骤如下:
检测器由方差分类器,集合分类器以及最近邻分类器三个级联分类器构成。方差分类器排除方差小于初始目标边界框方差50%的图像块,方差分类器通过下式计算图像块的灰度值方差:
D(x)=E(x2)-E2(x)
集合分类器含有n个基本分类器,基本分类器也称为决策树。这n个决策树构成了随机森林。集合分类器在初始化时,随机产生10组每组13个点对,然后对于每一个通过方差分类器的图像,进行点对的两两比较,生成相应的二进制编码,最后得到10个二进制编码,用来代表此图像块的特征,每一个二进制编码都有其各自的后验概率所代表,最后将十个后验概率的平均来判断图像块是否为正样本,定义后验概率公式为:
Figure BDA0001560902950000083
最近邻分类器通过相关相似性度量对通过集合分类器的正样本进行进一步筛选,所用到的公式如下:
a)目标模型集合M
Figure BDA0001560902950000084
b)正样本最近邻的相似度
Figure BDA0001560902950000091
c)负样本最近邻的相似度
Figure BDA0001560902950000092
d)相关相似度
Figure BDA0001560902950000093
(1)在第一帧中,利用初始跟踪框的位置和尺度信息创建21种尺度的扫描窗,然后分别用21种尺度的扫描窗口以0.2倍宽高进行偏移,产生n个图像块的位置和尺度信息用于跟踪失败的目标检测。接着再利用初始跟踪框的位置和尺度信息通过仿射变换产生正负样本用于初始化分类器,其中正负样本标签是通过计算与初始跟踪框的重叠率得到的;
(2)利用正负样本初始化集合分类器和最近邻分类器,并构建目标模型M;
(3)当跟踪器判别跟踪成功后,利用跟踪器产生的跟踪框的位置和尺度信息,通过仿射变换产生正负样本,再次训练集合分类器和最近邻分类器,更新后验概率以及目标模型M;
(4)当跟踪器判别跟踪失败后,检测器利用步骤(1)产生的n个图像块位置和尺度信息提取n个图像块,并将提取的图像块送入三个级联分类器,其中方差分类器滤除了图像块中方差小的部分;集合分类器提取图像块的2bit BP特征并给出该图像块是目标的可能,当投票结果大于5时才认为图像块含有目标;最近邻分类器将通过集合分类器的图像块与目标模型进行相似度计算,筛选出最有可能是目标的图像块,然后输出此图像块的坐标和大小作为当前帧跟踪框的位置和尺度。最后对跟踪器进行初始化。
如图5所示为本发明方法实验结果图,其中:(a)第一帧输入图像结果图; (b)某一帧光照改变跟踪结果图;(c)某一帧目标尺度发生变化跟踪结果图; (d)某一帧目标发生旋转畸变跟踪结果图。

Claims (2)

1.一种基于跟踪-学习-检测的视觉目标跟踪方法,其特征在于:
整体流程:获取一帧图像后采用ImageNet预训练好的VGG-19卷积神经网络中的卷积层提取特征,然后通过相关滤波计算出响应图,进行多峰值检测,确定目标的所在位置;当此时的fmax和APCE与历史均值的差都小于某一值时,判定跟踪成功,然后更新模型,并在线训练检测器;否则,判定跟踪失败,然后不更新模型,同时调用检测器对跟踪器进行初始化;
学习部分:学习器利用深度学习中卷积神经网络的卷积层提取目标特征,其中卷积神经网络的卷积层采用ImageNet预训练好的VGG-19中的三个卷积层;
跟踪部分:跟踪器包含四个相关滤波器,其中三个是用来检测目标的位置,另一个为尺度滤波器用来检测目标的尺度变化;
检测部分:检测器由三个级联分类器构成,分别为方差分类器,随机森林分类器和最近邻分类器;其中随机森林分类器和最近邻分类器需要在线训练;
所述的整体流程,具体步骤如下:
步骤1在视频的第一帧手工标定或者从文档中读取目标的位置信息和尺度信息,并初始化检测器;位置信息和尺度信息以跟踪框的形式呈现;
步骤2将跟踪框的1.5倍大小提取的图像块送入VGG-19卷积神经网络,运算完成后提取Conv5-4,Conv4-4和Conv3-4产生的特征图;
步骤3利用三个深度特征初始化三个核相关滤波器;
步骤4在下一帧图像,通过前一帧跟踪框的位置,利用步骤2进行特征提取,利用三个相关滤波器分别进行相关滤波,得到三个响应图,将三个响应图进行线性加权求和得到一张响应图,查找响应的最大值fmax以及最大值的坐标作为新的目标位置;然后进行目标尺度估计,获取尺度响应最大值作为新的目标尺度;计算APCE值,当此时的fmax和APCE与历史均值的差都小于某一值时,判定跟踪成功,在新的跟踪框位置和大小按照步骤2提取特征,然后更新滤波器模型,并训练检测器;
步骤5当此时fmax或APCE与历史均值的差大于等于某一值时,判定跟踪失败,不进行滤波器模型更新,用检测器重新初始化跟踪器,返回步骤4;
步骤6重复步骤4、步骤5直至视频最后一帧;
所述的学习部分,具体步骤如下:
(1)通过跟踪框位置以及大小在当前帧获取一个1.5倍大小的图像块,然后将该图像块归一化到224×224分辨率大小,之后送入VGG-19卷积神经网络做运算,并按照图像块大小创建一个二维高斯分布,然后进行快速傅里叶变换得到
Figure FDA0003208437720000021
(2)运算完成后提取Conv5-4,Conv4-4和Conv3-4分别经过ReLU层产生的特征图,将特征图归一化到同一patch大小,并且对于每一个特征图按照第三个维度进行叠加,得到二维的特征图并进行快速傅里叶变换记为
Figure FDA0003208437720000022
所述的跟踪部分,具体步骤如下:
(1)在第t帧图像中,先根据t-1帧图像跟踪框位置和大小,利用学习器提取三个深度特征图
Figure FDA0003208437720000023
然后分别与对应滤波器模型参数x(d)进行线性核相关运算,计算
Figure FDA0003208437720000024
公式如下:
Figure FDA0003208437720000025
其中,z表示卷积后的特征图,x表示滤波器参数,kxz表示核相关运算,上标d表示是第d个特征图和滤波器参数,^表示快速傅里叶变换,⊙表示两个矩阵元素对应相乘,*表示复数共轭;
(2)然后利用线性核相关运算结果
Figure FDA0003208437720000026
与滤波器模型参数α(d)计算三个响应图f(1),f(2),f(3),公式如下:
Figure FDA0003208437720000027
其中,f表示响应图,α是滤波器参数,
Figure FDA0003208437720000028
表示离散傅里叶的逆变换;
(3)得到三个响应图后,进行线性加权求和得到第t帧的位置总响应图ft,p,并找到最大的响应点的位置p以及最大响应的值fmax,公式如下:
Figure FDA0003208437720000029
其中,ft,p是第t帧的位置总响应图,f(d)表示第d个响应图,Cd表示第d个线性加权系数;
(4)通过最大响应的位置,和在t-1帧的尺度大小S提取尺度估计的候选区域Z,构建尺度金字塔,计算尺度滤波器与金字塔的相关滤波运算得到响应图ft,s,并找到响应值最大相对应的尺度,作为第t帧的尺度;
(5)计算平均峰值能量APCE,计算公式如下:
Figure FDA0003208437720000031
其中,fmax和fmin分别表示响应的最大值和最小值,fw,h表示是(w,h)位置上的响应值;
(6)当fmax或APCE与历史均值的差大于等于某一值时,判定跟踪失败,不进行滤波器模型更新;反之,判定跟踪成功,在新的跟踪框位置和大小通过学习器提取特征并进行快速傅里叶变换记为
Figure FDA0003208437720000032
然后更新滤波器模型参数x(d)和α(d),并训练检测器,更新滤波器模型公式如下:
Figure FDA0003208437720000033
Figure FDA0003208437720000034
Figure FDA0003208437720000035
Figure FDA0003208437720000036
其中,kxx表示核相关滤波运算,
Figure FDA0003208437720000037
Figure FDA0003208437720000038
分别表示当前帧和前一帧的滤波器参数,
Figure FDA0003208437720000039
Figure FDA00032084377200000310
分别表示当前帧和前一帧的滤波器参数,η是学习率,λ是常数。
2.根据权利要求1所述的一种基于跟踪-学习-检测的视觉目标跟踪方法,其特征在于:
所述的检测部分,具体步骤如下:
检测器由方差分类器,集合分类器以及最近邻分类器三个级联分类器构成;方差分类器排除方差小于初始目标边界框方差50%的图像块,方差分类器通过下式计算图像块的灰度值方差:
D(x)=E(x2)-E2(x)(9)
其中,x表示图像块区域,D(x)表示图像块区域的灰度值方差,E(x)表示图像块区域的灰度值均值,E(x2)表示图像块区域灰度值平方的均值;
集合分类器含有n个基本分类器,基本分类器也称为决策树;这n个决策树构成了随机森林;集合分类器在初始化时,随机产生10组每组13个点对,然后对于每一个通过方差分类器的图像,进行点对的两两比较,生成相应的二进制编码,最后得到10个二进制编码,用来代表此图像块的特征,每一个二进制编码都有其各自的后验概率所代表,最后将十个后验概率的平均来判断图像块是否为正样本,定义后验概率公式为:
Figure FDA0003208437720000041
其中,mp和mn分别代表着正样本图像块和负样本图像块的个数;
最近邻分类器通过相关相似性度量对通过集合分类器的正样本进行进一步筛选,所用到的公式如下:
a)目标模型集合M
Figure FDA0003208437720000042
其中,p+表示目标的图像块,p-表示目标周围背景的图像块;将p+和p-添加至集合时,正样本是按照时间进行排序的;
b)正样本最近邻的相似度
Figure FDA0003208437720000043
其中,p是要添加到集合M的样本,
Figure FDA0003208437720000044
是集合M中所有的正样本;
c)负样本最近邻的相似度
Figure FDA0003208437720000045
其中,
Figure FDA0003208437720000046
是集合M中所有的负样本;
d)相关相似度
Figure FDA0003208437720000047
其中,S+表示正样本最近邻的相似度,S-表示负样本最近邻的相似度;
(1)在第一帧中,利用初始跟踪框的位置和尺度信息,通过仿射变换产生正负样本,其中正负样本标签是通过计算与初始跟踪框的重叠率得到的;
(2)利用正负样本训练集合分类器和最近邻分类器,并构建目标模型M;
(3)当跟踪器判别跟踪成功后,利用当前帧跟踪器产生的跟踪框的位置和尺度信息,通过仿射变换产生正负样本,再次训练集合分类器和最近邻分类器,更新后验概率以及目标模型M;
(4)当跟踪器判别跟踪失败后,检测器通过21种尺度的扫描窗口对当前帧进行扫描具体过程为,扫描窗口尺度的缩放比例为1.2,共有21种尺度变换,水平步长系数是初始目标边界框宽度的10%,垂直步长系数是初始目标边界框高度的10%,最小的边界框的大小是20像素;将扫描产生的图像块送入三个级联分类器,然后将与模型相似度最高的图像块作为含有目标的图像块,输出此图像块的大小和坐标作为当前帧跟踪框的位置和尺度;然后对跟踪器进行初始化。
CN201810080582.7A 2018-01-28 2018-01-28 一种基于跟踪-学习-检测的视觉目标跟踪方法 Active CN108346159B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810080582.7A CN108346159B (zh) 2018-01-28 2018-01-28 一种基于跟踪-学习-检测的视觉目标跟踪方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810080582.7A CN108346159B (zh) 2018-01-28 2018-01-28 一种基于跟踪-学习-检测的视觉目标跟踪方法

Publications (2)

Publication Number Publication Date
CN108346159A CN108346159A (zh) 2018-07-31
CN108346159B true CN108346159B (zh) 2021-10-15

Family

ID=62961382

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810080582.7A Active CN108346159B (zh) 2018-01-28 2018-01-28 一种基于跟踪-学习-检测的视觉目标跟踪方法

Country Status (1)

Country Link
CN (1) CN108346159B (zh)

Families Citing this family (52)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109242882B (zh) * 2018-08-06 2020-11-27 北京市商汤科技开发有限公司 视觉跟踪方法、装置、介质及设备
CN109325407B (zh) * 2018-08-14 2020-10-09 西安电子科技大学 基于f-ssd网络滤波的光学遥感视频目标检测方法
CN109242019B (zh) * 2018-09-01 2022-05-17 哈尔滨工程大学 一种水面光学小目标快速检测与跟踪方法
CN111192288B (zh) * 2018-11-14 2023-08-04 天津大学青岛海洋技术研究院 基于形变样本生成网络的目标跟踪算法
CN109615640B (zh) * 2018-11-19 2021-04-30 北京陌上花科技有限公司 相关滤波目标跟踪方法及装置
CN109543615B (zh) * 2018-11-23 2022-10-28 长沙理工大学 一种基于多级特征的双学习模型目标跟踪方法
CN109697727A (zh) * 2018-11-27 2019-04-30 哈尔滨工业大学(深圳) 基于相关滤波和度量学习的目标跟踪方法、系统及存储介质
US11151707B2 (en) * 2018-12-07 2021-10-19 Kla Corporation System and method for difference filter and aperture selection using shallow deep learning
CN109993052B (zh) * 2018-12-26 2021-04-13 上海航天控制技术研究所 一种复杂场景下尺度自适应的目标跟踪方法和系统
CN109711332B (zh) * 2018-12-26 2021-03-26 浙江捷尚视觉科技股份有限公司 一种基于回归算法的人脸跟踪方法及应用
CN109754410B (zh) * 2019-01-03 2020-12-11 北京化工大学 一种基于机器视觉的铁路车辆车厢计数方法
CN109800692B (zh) * 2019-01-07 2022-12-27 重庆邮电大学 一种基于预训练卷积神经网络的视觉slam回环检测方法
CN109816695A (zh) * 2019-01-31 2019-05-28 中国人民解放军国防科技大学 一种复杂背景下的红外小型无人机目标检测与跟踪方法
CN109961462A (zh) * 2019-03-25 2019-07-02 华瑞新智科技(北京)有限公司 目标跟踪方法、装置和系统
CN109993775B (zh) * 2019-04-01 2023-03-21 云南大学 基于特征补偿的单目标跟踪方法
CN110019953B (zh) * 2019-04-16 2021-03-30 中国科学院国家空间科学中心 一种有效载荷图像数据实时快视系统
CN110097575B (zh) * 2019-04-28 2022-07-01 电子科技大学 一种基于局部特征及尺度池的目标跟踪方法
CN110322475B (zh) * 2019-05-23 2022-11-11 北京中科晶上科技股份有限公司 一种视频的稀疏检测方法
CN110175649B (zh) * 2019-05-28 2022-06-07 南京信息工程大学 一种关于重新检测的快速多尺度估计目标跟踪方法
CN110211157B (zh) * 2019-06-04 2023-05-26 重庆邮电大学 一种基于相关滤波的目标长时跟踪方法
CN110363789B (zh) * 2019-06-25 2022-03-25 电子科技大学 一种面向实际工程应用的长期视觉跟踪方法
CN110298868B (zh) * 2019-06-26 2021-06-25 北京工业大学 一种高实时性的多尺度目标跟踪方法
CN110413166B (zh) * 2019-07-02 2022-11-25 上海熙菱信息技术有限公司 一种历史视频实时线性跟踪的方法
CN110378932B (zh) * 2019-07-10 2023-05-12 上海交通大学 一种基于空间正则矫正的相关滤波视觉跟踪方法
CN110472577B (zh) * 2019-08-15 2022-02-15 江南大学 一种基于自适应相关滤波的长时视频跟踪方法
CN110889863B (zh) * 2019-09-03 2023-03-24 河南理工大学 一种基于目标感知相关滤波的目标跟踪方法
CN110660080A (zh) * 2019-09-11 2020-01-07 昆明理工大学 一种基于学习率调整融合多层卷积特征的多尺度目标跟踪方法
CN110838133B (zh) * 2019-09-27 2020-11-24 深圳云天励飞技术有限公司 多目标跟踪方法及相关设备
CN110827314B (zh) * 2019-09-27 2020-10-23 深圳云天励飞技术有限公司 单目标跟踪方法及相关设备
CN110766721B (zh) * 2019-09-30 2023-06-06 南京航空航天大学 一种基于机载视觉的着舰合作目标检测方法
CN110689559B (zh) * 2019-09-30 2022-08-12 长安大学 一种基于密集卷积网络特征的视觉目标跟踪方法
CN110852235A (zh) * 2019-11-05 2020-02-28 长安大学 一种图像特征提取方法
CN112991382B (zh) * 2019-12-02 2024-04-09 中国科学院国家空间科学中心 一种基于pynq框架的异构视觉目标跟踪系统及方法
CN111160190B (zh) * 2019-12-21 2023-02-14 华南理工大学 面向车载行人检测的分类辅助核相关滤波跟踪方法
CN111354022B (zh) * 2020-02-20 2023-08-22 中科星图股份有限公司 基于核相关滤波的目标跟踪方法及系统
CN111340838B (zh) * 2020-02-24 2022-10-21 长沙理工大学 一种基于多种特征融合的背景时空相关滤波跟踪方法
CN111428566B (zh) * 2020-02-26 2023-09-01 沈阳大学 一种形变目标跟踪系统及方法
CN111354019B (zh) * 2020-03-31 2024-01-26 中国人民解放军军事科学院军事医学研究院 一种基于神经网络的视觉跟踪失效检测系统及其训练方法
CN111460999A (zh) * 2020-03-31 2020-07-28 北京工业大学 一种基于fpga的低空航拍影像目标跟踪的方法
CN111652910B (zh) * 2020-05-22 2023-04-11 重庆理工大学 一种基于对象空间关系的目标跟踪算法
CN112164093A (zh) * 2020-08-27 2021-01-01 同济大学 一种基于边缘特征和相关滤波的人物自动跟踪方法
CN111815681A (zh) * 2020-09-04 2020-10-23 中国科学院自动化研究所 基于深度学习和判别式模型训练的目标跟踪方法及存储器
CN112150509B (zh) * 2020-09-29 2024-05-03 中国人民解放军63875部队 基于多层深度特征的分块跟踪方法
CN112487889A (zh) * 2020-11-17 2021-03-12 中国人民解放军军事科学院国防科技创新研究院 一种基于深度神经网络的无人机对地探测方法及系统
CN113348465A (zh) * 2021-02-22 2021-09-03 商汤国际私人有限公司 图像中对象的关联性预测方法、装置、设备和存储介质
CN113129337B (zh) * 2021-04-14 2022-07-19 桂林电子科技大学 背景感知跟踪方法、计算机可读存储介质及计算机设备
CN113665495A (zh) * 2021-09-23 2021-11-19 温州大学大数据与信息技术研究院 一种便于安装的基于计算机视觉的车载目标跟踪器
CN116665133B (zh) * 2023-07-24 2023-10-13 山东科技大学 基于三元组网络的安全帽检测跟踪方法、设备及存储介质
CN116912289B (zh) * 2023-08-09 2024-01-30 北京航空航天大学 一种面向边缘智能的弱小目标层次化视觉跟踪方法
CN117664518A (zh) * 2023-10-16 2024-03-08 中国气象科学研究院 一种利用稳定光源进行光学校准的方法及系统
CN117893574A (zh) * 2024-03-14 2024-04-16 大连理工大学 基于相关滤波卷积神经网络的红外无人机目标跟踪方法
CN117911724B (zh) * 2024-03-20 2024-06-04 江西软件职业技术大学 一种目标跟踪方法

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107154024A (zh) * 2017-05-19 2017-09-12 南京理工大学 基于深度特征核相关滤波器的尺度自适应目标跟踪方法
CN107423702A (zh) * 2017-07-20 2017-12-01 西安电子科技大学 基于tld跟踪系统的视频目标跟踪方法

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104200237B (zh) * 2014-08-22 2019-01-11 浙江生辉照明有限公司 一种基于核化相关滤波高速自动多目标跟踪方法

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107154024A (zh) * 2017-05-19 2017-09-12 南京理工大学 基于深度特征核相关滤波器的尺度自适应目标跟踪方法
CN107423702A (zh) * 2017-07-20 2017-12-01 西安电子科技大学 基于tld跟踪系统的视频目标跟踪方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
结合相关滤波和卷积神经网络的目标跟踪方法研究;段汝湘;《中国优秀硕士学位论文全文数据库 信息科技辑》;20180115;正文第1-7、16-35页 *

Also Published As

Publication number Publication date
CN108346159A (zh) 2018-07-31

Similar Documents

Publication Publication Date Title
CN108346159B (zh) 一种基于跟踪-学习-检测的视觉目标跟踪方法
CN109829398B (zh) 一种基于三维卷积网络的视频中的目标检测方法
KR100474848B1 (ko) 영상시각 정보를 결합하여 실시간으로 복수의 얼굴을검출하고 추적하는 얼굴 검출 및 추적 시스템 및 방법
US7035431B2 (en) System and method for probabilistic exemplar-based pattern tracking
CN110120064B (zh) 一种基于互强化与多注意机制学习的深度相关目标跟踪算法
US20140307917A1 (en) Robust feature fusion for multi-view object tracking
CN108960047B (zh) 基于深度二次树的视频监控中人脸去重方法
CN110084201B (zh) 一种监控场景下基于特定目标跟踪的卷积神经网络的人体动作识别方法
CN107609571B (zh) 一种基于lark特征的自适应目标跟踪方法
CN113822352B (zh) 基于多特征融合的红外弱小目标检测方法
CN108537822B (zh) 基于加权置信度估计的运动目标跟踪方法
CN115661860A (zh) 一种狗行为动作识别技术的方法、装置、系统及存储介质
CN117576724A (zh) 一种无人机飞鸟检测方法、系统、设备和介质
CN115761888A (zh) 基于nl-c3d模型的塔吊操作人员异常行为检测方法
CN110046595B (zh) 一种基于级联式多尺度的密集人脸检测方法
CN107633527B (zh) 基于全卷积神经网络的目标追踪方法及装置
CN111415370A (zh) 一种基于嵌入式的红外复杂场景目标实时跟踪方法及系统
Farhood et al. Counting people based on linear, weighted, and local random forests
CN114550110A (zh) 一种基于无监督域适应的车辆重识别方法及系统
CN110751671B (zh) 一种基于核相关滤波与运动估计的目标跟踪方法
CN117218545A (zh) 基于LBP特征与改进Yolov5的雷达图像检测方法
CN110827319B (zh) 一种基于局部敏感直方图改进的Staple目标跟踪方法
CN111444816A (zh) 一种基于Faster RCNN的多尺度密集行人检测方法
CN116740607A (zh) 视频处理方法及装置、电子设备和存储介质
CN115311327A (zh) 融合共现统计与fhog梯度特征的目标跟踪方法及系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant