CN107369166B - 一种基于多分辨率神经网络的目标跟踪方法及系统 - Google Patents

一种基于多分辨率神经网络的目标跟踪方法及系统 Download PDF

Info

Publication number
CN107369166B
CN107369166B CN201710570207.6A CN201710570207A CN107369166B CN 107369166 B CN107369166 B CN 107369166B CN 201710570207 A CN201710570207 A CN 201710570207A CN 107369166 B CN107369166 B CN 107369166B
Authority
CN
China
Prior art keywords
target
model
tracking
target displacement
detection block
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201710570207.6A
Other languages
English (en)
Other versions
CN107369166A (zh
Inventor
王振楠
邹文斌
吴迪
徐晨
李霞
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shenzhen University
Original Assignee
Shenzhen University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shenzhen University filed Critical Shenzhen University
Priority to CN201710570207.6A priority Critical patent/CN107369166B/zh
Publication of CN107369166A publication Critical patent/CN107369166A/zh
Application granted granted Critical
Publication of CN107369166B publication Critical patent/CN107369166B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/20Analysis of motion
    • G06T7/246Analysis of motion using feature-based methods, e.g. the tracking of corners or segments
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/10Image acquisition modality
    • G06T2207/10016Video; Image sequence
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20081Training; Learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20084Artificial neural networks [ANN]

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Image Analysis (AREA)

Abstract

本发明适用于视频目标跟踪,提供了一种基于多分辨率神经网络的目标跟踪方法,包括:接收待检测的当前视频帧,在所述当前视频帧上提取检测块;提取所述检测块的多层不同分辨率的深度特征;利用核相关滤波模型计算各层深度特征的目标位移响应图;根据各层的目标位移响应图,利用多分辨率神经网络进行位移估计得到估计目标位移,并更新所述核相关滤波模型;根据所述估计目标位移,利用尺度估计模型进行尺度估计得到估计值,并更新所述尺度估计模型。通过本实施例,能够大幅减少跟踪漂移和跟踪丢失的情况,在运动突变、光照变化等复杂环境或长序列视频跟踪中的鲁棒性和稳定性大幅提升。

Description

一种基于多分辨率神经网络的目标跟踪方法及系统
技术领域
本发明属于视频技术领域,尤其涉及一种基于多分辨率神经网络的目标跟踪方法及系统。
背景技术
视觉目标跟踪是计算机视觉的重要研究课题,其主要任务是连续、实时、准确地定位视频序列中被跟踪的目标对象,在视频监控、机器人、智能驾驶、无人机、人机交互等方面具有广泛应用。
基于相关滤波的目标跟踪方法由于其优越的性能成为了研究的热点。而使用在大规模分类数据集上预训练的深度神经网络提取跟踪目标的深度特征,既避开了跟踪时直接训练深度神经网络样本不足的困境,也充分利用了深度特征强大的表征能力。将深度特征应用到相关滤波跟踪模型中的方法结合了二者的优势,基于这种思想的目标跟踪方法层出不穷,但是大多数这类方法只是根据对特定场景的分析,对各个卷积层的相关滤波响应图进行线性加权,忽略了各个卷积层和目标位移之间的非线性信息,同时,目标模型由于不支持自适应更新,在运动突变、光照变化等复杂环境下的鲁棒性不足。
发明内容
本发明所要解决的技术问题在于提供一种基于多分辨率神经网络的目标跟踪方法及系统,旨在解决现有技术中目标模型不支持自适应更新,在运动突变、光照变化等复杂环境下的鲁棒性不足的问题。
本发明是这样实现的,一种基于多分辨率神经网络的目标跟踪方法,包括:
接收待检测的当前视频帧,在所述当前视频帧上提取检测块;
提取所述检测块的多层不同分辨率的深度特征;
利用核相关滤波模型计算各层深度特征的目标位移响应图;
根据各层的目标位移响应图,利用多分辨率神经网络进行位移估计得到估计目标位移,并更新所述核相关滤波模型;
根据所述估计目标位移,利用尺度估计模型进行尺度估计得到估计值,并更新所述尺度估计模型。
进一步地,所述在所述当前视频帧上提取检测块包括:
获取所述当前视频帧的上一帧,确定所述上一帧的跟踪目标的位置;
以所述上一帧的跟踪目标的位置为中心,按照预置比例选取所述检测块,并将所述检测块的尺寸归一化到固定尺寸。
进一步地,所述提取所述检测块的多层不同分辨率的深度特征包括:
利用预训练的深度神经网络模型提取尺寸归一化后的检测块的多层不同分辨率的深度特征,所述预训练的深度神经网络模型包括AlexNet、GoogleNet、VGGNet或ResNet中的一种。
进一步地,所述利用核相关滤波模型计算各层深度特征的目标位移响应图包括:
利用核相关滤波模型,对每一层深度特征分别进行核相关滤波操作,计算每一层深度特征对应的目标位移响应图,所述目标位移响应图是表示跟踪目标可能性的二维矩阵,所述二维矩阵的行和列表示所述跟踪目标在两个方向的位移。
进一步地,所述根据各层的目标位移响应图,利用多分辨率神经网络进行位移估计得到估计目标位移,并更新所述核相关滤波模型包括:
以各层的目标位移响应图作为输入,利用所述多分辨率神经网络进行位移估计,得到估计目标位移;
根据所述目标位移响应图对核相关滤波模型进行自适应更新;
其中,所述多分辨率神经网络由若干卷积层、池化层和全连接层组成,以a-b×b的形式表示所述卷积层,其中a表示卷积核数目,b表示卷积核尺寸,则所述多分辨率神经网络的结构为:
所述目标位移响应图→16-3×3卷积层→16-3×3卷积层→2×2的最大池化层→32-3×3卷积层→32-3×3卷积层→2×2的最大池化层→32-3×3卷积层→256个神经元的全连接层→输出目标位移;
所述卷积层的激励函数为Relu;
所述多分辨率神经网络的损失函数定义为预测偏差的均方根值:
Figure BDA0001349458400000031
其中Lpos表示损失函数,Δx和Δy表示预测的目标位移,Δx’和Δy’表示实际的目标位移。
进一步地,所述根据所述目标位移响应图对核相关滤波模型进行自适应更新包括:
计算每一层核相关滤波模型的自适应学习率;
Figure BDA0001349458400000032
表示第t帧检测块的第k个目标位移响应图的相关滤波模型的学习率,η表示基础学习率,
Figure BDA0001349458400000033
表示第t帧检测块的第k个目标位移响应图的预测稳定性,则
Figure BDA0001349458400000034
其中,
Figure BDA0001349458400000035
Figure BDA0001349458400000036
表示第t帧检测块的第k个目标位移响应图的最大响应值和目标位移处的响应值的差值,
Figure BDA0001349458400000037
Figure BDA0001349458400000038
Figure BDA0001349458400000039
表示
Figure BDA00013494584000000310
在固定时间长度Δt内的均值和标准差,
Figure BDA00013494584000000311
表示第t帧检测块的第k个目标位移响应图,(xp,yp)表示第t帧检测块中跟踪目标的位移估计值;
根据每一层核相关滤波模型的自适应学习率,更新每一层核相关滤波模型;
所述核相关滤波模型包括滤波器和核相关变量,以
Figure BDA00013494584000000312
表示第t帧检测块的第k个核相关滤波模型的滤波器,
Figure BDA00013494584000000313
表示第t帧检测块的第k个核相关滤波模型的核相关变量,则:
Figure BDA0001349458400000041
进一步地,所述尺度估计模型采用线性岭回归模型,则所述根据所述估计目标位移,利用尺度估计模型进行尺度估计得到估计值,并更新所述尺度估计模型包括:
根据所述估计目标位移,确定所述跟踪目标在所述当前视频帧的位置;
以所述跟踪目标在所述当前视频帧的位置为中心,提取不同尺度的边界框,所述边界框包含有所述跟踪目标;
提取不同尺度的边界框的特征,使用线性岭回归模型对每一尺度的边界框进行回归,得到不同尺度的回归值;
选取回归值最大的尺度作为估计值,以所述估计值确定所述跟踪目标在所述当前视频帧的边界框的大小;
采用线性插值的方式对所述线性岭回归模型进行更新。
本发明还提供了一种基于多分辨率神经网络的目标跟踪系统,包括:
提取单元,用于接收待检测的当前视频帧,在所述当前视频帧上提取检测块,并提取所述检测块的多层不同分辨率的深度特征;
计算单元,用于利用核相关滤波模型计算各层深度特征的目标位移响应图;
位移估计单元,用于根据各层的目标位移响应图,利用多分辨率神经网络进行位移估计得到估计目标位移,并更新所述核相关滤波模型;
尺度估计单元,用于根据所述估计目标位移,利用尺度估计模型进行尺度估计得到估计值,并更新所述尺度估计模型。
进一步地,所述提取单元用于:
获取所述当前视频帧的上一帧,确定所述上一帧的跟踪目标的位置;
以所述上一帧的跟踪目标的位置为中心,按照预置比例选取所述检测块,并将所述检测块的尺寸归一化到固定尺寸;
利用预训练的深度神经网络模型提取尺寸归一化后的检测块的多层不同分辨率的深度特征,所述预训练的深度神经网络模型包括AlexNet、GoogleNet、VGGNet或ResNet中的一种。
进一步地,所述计算单元具体用于:
利用核相关滤波模型,对每一层深度特征分别进行核相关滤波操作,计算每一层深度特征对应的目标位移响应图,所述目标位移响应图是表示跟踪目标可能性的二维矩阵,所述二维矩阵的行和列表示所述跟踪目标在两个方向的位移;
则所述位移估计单元具体用于:
以各层的目标位移响应图作为输入,利用所述多分辨率神经网络进行位移估计,得到估计目标位移;
根据所述目标位移响应图对核相关滤波模型进行自适应更新;
其中,所述多分辨率神经网络由若干卷积层、池化层和全连接层组成,以a-b×b的形式表示所述卷积层,其中a表示卷积核数目,b表示卷积核尺寸,则所述多分辨率神经网络的结构为:
所述目标位移响应图→16-3×3卷积层→16-3×3卷积层→2×2的最大池化层→32-3×3卷积层→32-3×3卷积层→2×2的最大池化层→32-3×3卷积层→256个神经元的全连接层→输出目标位移;
所述卷积层的激励函数为Relu;
所述多分辨率神经网络的损失函数定义为预测偏差的均方根值:
Figure BDA0001349458400000051
其中Lpos表示损失函数,Δx和Δy表示预测的目标位移,Δx’和Δy’表示实际的目标位移;
所述位移估计单元根据所述目标位移响应图对核相关滤波模型进行自适应更新包括:
计算每一层核相关滤波模型的自适应学习率;
Figure BDA0001349458400000052
表示第t帧检测块的第k个目标位移响应图的相关滤波模型的学习率,η表示基础学习率,
Figure BDA0001349458400000061
表示第t帧检测块的第k个目标位移响应图的预测稳定性,则
Figure BDA0001349458400000062
其中,
Figure BDA0001349458400000063
Figure BDA0001349458400000064
表示第t帧检测块的第k个目标位移响应图的最大响应值和目标位移处的响应值的差值,
Figure BDA0001349458400000065
Figure BDA0001349458400000066
Figure BDA0001349458400000067
表示
Figure BDA0001349458400000068
在固定时间长度Δt内的均值和标准差,
Figure BDA0001349458400000069
表示第t帧检测块的第k个目标位移响应图,(xp,yp)表示第t帧检测块中跟踪目标的位移估计值;
根据每一层核相关滤波模型的自适应学习率,更新每一层核相关滤波模型;
所述核相关滤波模型包括滤波器和核相关变量,以
Figure BDA00013494584000000610
表示第t帧检测块的第k个核相关滤波模型的滤波器,
Figure BDA00013494584000000611
表示第t帧检测块的第k个核相关滤波模型的核相关变量,则:
Figure BDA00013494584000000612
所述尺度估计模型采用线性岭回归模型,则所述尺度估计单元具体用于:
根据所述估计目标位移,确定所述跟踪目标在所述当前视频帧的位置;
以所述跟踪目标在所述当前视频帧的位置为中心,提取不同尺度的边界框,所述边界框包含有所述跟踪目标;
提取不同尺度的边界框的特征,使用线性岭回归模型对每一尺度的边界框进行回归,得到不同的尺度回归值;
选取回归值最大的尺度作为估计值,以所述估计值确定所述跟踪目标在所述当前视频帧的边界框的大小;
采用线性插值的方式对所述线性岭回归模型进行更新。
本发明与现有技术相比,有益效果在于:本发明实施例预先设计并训练的多分辨率神经网络充分利用了神经网络强大的非线性问题处理能力,能够更好的利用多层不同分辨率深度特征的相关滤波结果,更精确的估计目标位移,通过本实施例,能够大幅减少跟踪漂移和跟踪丢失的情况,在运动突变、光照变化等复杂环境或长序列视频跟踪中的鲁棒性和稳定性大幅提升。
附图说明
图1是本发明实施例提供的一种基于多分辨率神经网络的目标跟踪方法的流程图;
图2是本发明实施例提供的一种基于多分辨率神经网络的目标跟踪方法的使用示意图;
图3是本发明实施例提供的多分辨率神经网络的示意图;
图4是本发明实施例提供的一种基于多分辨率神经网络的目标跟踪系统的结构示意图。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
图1示出了本发明实施例提供的一种基于多分辨率神经网络的目标跟踪方法,包括:
S101,接收待检测的当前视频帧,在所述当前视频帧上提取检测块。
在本步骤中,目标跟踪系统获取所述当前视频帧的上一帧,确定所述上一帧的跟踪目标的位置,以所述上一帧的跟踪目标的位置为中心,按照预置比例选取所述检测块,并将所述检测块的尺寸归一化到固定尺寸。具体地,以上一帧的跟踪目标的位置为中心,按照某比例选取检测块,并将检测块归一化到某固定尺寸。比如按照2.2倍的边界框大小,以跟踪目标为中心选取检测块,然后将检测块尺寸归一化到240×160。
S102,提取所述检测块的多层不同分辨率的深度特征。
在本步骤中,目标跟踪系统利用在大规模分类数据上预训练的深度神经网络模型,提取尺寸归一化后的检测块的多层不同分辨率的深度特征,所述预训练的深度神经网络模型包括但不限于AlexNet、GoogleNet、VGGNet或ResNet中的一种,比如,可以采用VGGNet-19的block1-conv2、block2-conv2、block3-conv4、block4-conv4、block5-conv4这5个卷积层的深度特征。
S103,利用核相关滤波模型计算各层深度特征的目标位移响应图。
在本步骤中,目标跟踪系统利用核相关滤波模型,对每一层深度特征分别进行核相关滤波操作,计算每一层深度特征对应的目标位移响应图,所述目标位移响应图是一个表示跟踪目标可能性的二维矩阵,所述二维矩阵的行和列表示所述跟踪目标在两个方向的位移。
S104,根据各层的目标位移响应图,利用多分辨率神经网络进行位移估计得到估计目标位移,并更新所述核相关滤波模型。
在本步骤中,目标跟踪系统以各层的目标位移响应图作为输入,利用多分辨率神经网络进行位移估计,得到估计目标位移,根据所述目标位移响应图对核相关滤波模型进行自适应更新。具体地,目标跟踪系统将各层的核相关滤波结果组成多分辨率目标位移响应图作为输入,使用本发明实施例提出的多分辨率神经网络(multi-resolution neuralnetwork)估计目标位移,并根据所估计的目标位移,对核相关滤波模型进行自适应更新。
S105,根据所述估计目标位移,利用尺度估计模型进行尺度估计得到估计值,并更新所述尺度估计模型。
在本步骤中,目标跟踪系统使用尺度估计模型对每一尺度进行回归,选取回归值最大的尺度作为估计值,并对尺度估计模型进行更新。具体地,尺度估计模型采用线性岭回归模型,目标跟踪系统根据所述估计目标位移,确定所述跟踪目标在所述当前视频帧的位置;以所述跟踪目标在所述当前视频帧的位置为中心,提取不同尺度的边界框,所述边界框包含有所述跟踪目标;提取不同尺度的边界框的特征,使用线性岭回归模型对每一尺度的边界框进行回归,得到不同尺度的回归值;选取回归值最大的尺度作为估计值,以所述估计值确定所述跟踪目标在所述当前视频帧的边界框的大小;采用线性插值的方式对所述线性岭回归模型进行更新。
图2示出了本发明实施例提供的的一个使用例,其中:
目标跟踪系统接收到输入的新的一帧视频帧时,将从该新的一帧视频帧中提取检测块,图中,白色框是上一帧跟踪目标的位置,接着在提取的检测块中提取多层不同分辨率的深度特征,并计算各层深度特征的核相关滤波的目标位移响应图,接着采用多分辨率神经网络进行位移估计,最后进行尺度估计的,在此过程中需要更新各层的核相关滤波模型及尺度估计模型,最终得到输入的新的一帧视频帧的跟踪目标的位置并确定该跟踪目标的边界框(boundingbox)。
下面对本发明实施例中的多分辨率神经网络、核相关滤波模型的自适应更新和尺度估计模型进行进一步地解释:
多分辨率神经网络:
该多分辨率神经网络的输入是多分辨率的目标位移响应图,输出是预测的目标位移。其示意图如图3所示:
在图3所示的实例,采用5种分辨率的目标位移响应图,且尺寸为240*160,但是在实际情况中,可以由用户选择分辨率数目和响应图尺寸。
该多分辨率神经网络由多个卷积层、池化层和全连接层组成,以a-b×b的形式表示卷积层,其中a表示卷积核数目,b表示卷积核尺寸,则多分辨率神经网络的结构为:输入层(多分辨率的目标位移响应图)→16-3×3卷积层→16-3×3卷积层→2×2的最大池化层→32-3×3卷积层→32-3×3卷积层→2×2的最大池化层→32-3×3卷积层→256个神经元的全连接层→输出目标位移。其中卷积层的激励函数为Relu。
该多分辨率神经网络的损失函数定义为预测偏差的均方根值:
Figure BDA0001349458400000091
其中Lpos表示损失函数,Δx和Δy表示预测的目标位移,Δx’和Δy’表示实际的目标位移。
该多分辨率神经网络在跟踪数据集上预训练,比如在OTB-2015数据集上预训练。
核相关滤波模型的自适应更新:
核相关滤波模型包括滤波器和核相关变量两部分,在进行自适应更新时首先计算每一层的核相关滤波模型的自适应学习率,然后分别对两个组成部分进行更新。
(a)计算每一层核相关滤波模型的自适应学习率:
Figure BDA0001349458400000101
其中,
Figure BDA0001349458400000102
表示第t帧检测块的第k个目标位移响应图的相关滤波模型的学习率;η表示基础学习率,
Figure BDA0001349458400000103
表示第t帧检测块的第k个目标位移响应图的预测稳定性,其计算如下:
Figure BDA0001349458400000104
其中
Figure BDA0001349458400000105
表示第t帧检测块的第k个目标位移响应图的最大响应值和目标位移处的响应值的差值,
Figure BDA0001349458400000106
Figure BDA0001349458400000107
表示
Figure BDA0001349458400000108
在固定时间长度Δt内的均值和标准差,
Figure BDA0001349458400000109
的计算如下所示:
Figure BDA00013494584000001010
其中,
Figure BDA00013494584000001011
表示第t帧检测块的第k个目标位移响应图,(xp,yp)表示第t帧检测块中跟踪目标的位移估计值。
(b)更新相关滤波模型:
根据每一层的学习率,更新每一层的核相关滤波模型:
Figure BDA00013494584000001012
核相关滤波模型包括两部分:滤波器和核相关变量,
Figure BDA00013494584000001013
表示第t帧检测块的第k个核相关滤波模型的滤波器,
Figure BDA00013494584000001014
表示第t帧检测块的第k个核相关滤波模型的核相关变量。
尺度估计模型:
以当前估计的跟踪目标的位置为中心,提取不同尺度的检测块。对各个检测块提取特征,并赋予一维高斯标签值,建立尺度估计的线性岭回归模型,采用线性插值的方式对岭回归模型进行更新。
本发明提出的一种基于多分辨率神经网络的目标跟踪方法,使用了多分辨率神经网络进行目标位移估计,并且对核相关滤波模型进行自适应更新,使用线性岭回归模型进行尺度估计,在运动突变、光照变化等复杂环境或长视频序列跟踪中的鲁棒性和稳定性大幅提升。
本发明实施例提出并设计的多分辨率神经网络,避免了对多层核相关滤波目标位移响应图进行权重设计,提高了目标位移估计的精度。
本发明实施例以预测稳定性为主要考量进行核相关滤波模型的自适应更新,有效提高了目标模型更新的平滑性和跟踪系统的鲁棒性。
图4示出了本发明实施例提供的一种基于多分辨率神经网络的目标跟踪系统,包括:
提取单元401,用于接收待检测的当前视频帧,在所述当前视频帧上提取检测块,并提取所述检测块的多层不同分辨率的深度特征;
计算单元402,用于利用核相关滤波模型计算各层深度特征的目标位移响应图;
位移估计单元403,用于根据各层的目标位移响应图,利用多分辨率神经网络进行位移估计得到估计目标位移,并更新所述核相关滤波模型;
尺度估计单元404,用于根据所述估计目标位移,利用尺度估计模型进行尺度估计得到估计值,并更新所述尺度估计模型。
进一步地,提取单元401用于:
获取所述当前视频帧的上一帧,确定所述上一帧的跟踪目标的位置;
以所述上一帧的跟踪目标的位置为中心,按照预置比例选取所述检测块,并将所述检测块的尺寸归一化到固定尺寸;
利用预训练的深度神经网络模型提取尺寸归一化后的检测块的多层不同分辨率的深度特征,所述预训练的深度神经网络模型包括AlexNet、GoogleNet、VGGNet或ResNet中的一种。
进一步地,计算单元402具体用于:
利用核相关滤波模型,对每一层深度特征分别进行核相关滤波操作,计算每一层深度特征对应的目标位移响应图,所述目标位移响应图是表示跟踪目标可能性的二维矩阵,所述二维矩阵的行和列表示所述跟踪目标在两个方向的位移;
则位移估计单元403具体用于:
以各层的目标位移响应图作为输入,利用所述多分辨率神经网络进行位移估计,得到估计目标位移;
根据所述目标位移响应图对核相关滤波模型进行自适应更新;
其中,所述多分辨率神经网络由若干卷积层、池化层和全连接层组成,以a-b×b的形式表示所述卷积层,其中a表示卷积核数目,b表示卷积核尺寸,则所述多分辨率神经网络的结构为:
所述目标位移响应图→16-3×3卷积层→16-3×3卷积层→2×2的最大池化层→32-3×3卷积层→32-3×3卷积层→2×2的最大池化层→32-3×3卷积层→256个神经元的全连接层→输出目标位移;
所述卷积层的激励函数为Relu;
所述多分辨率神经网络的损失函数定义为预测偏差的均方根值:
Figure BDA0001349458400000121
其中Lpos表示损失函数,Δx和Δy表示预测的目标位移,Δx’和Δy’表示实际的目标位移;
位移估计单元403根据所述目标位移响应图对核相关滤波模型进行自适应更新包括:
计算每一层核相关滤波模型的自适应学习率;
Figure BDA0001349458400000131
表示第t帧检测块的第k个目标位移响应图的相关滤波模型的学习率,η表示基础学习率,
Figure BDA0001349458400000132
表示第t帧检测块的第k个目标位移响应图的预测稳定性,则
Figure BDA0001349458400000133
其中,
Figure BDA0001349458400000134
Figure BDA0001349458400000135
表示第t帧检测块的第k个目标位移响应图的最大响应值和目标位移处的响应值的差值,
Figure BDA0001349458400000136
Figure BDA0001349458400000137
Figure BDA0001349458400000138
表示
Figure BDA0001349458400000139
在固定时间长度Δt内的均值和标准差,
Figure BDA00013494584000001310
表示第t帧检测块的第k个目标位移响应图,(xp,yp)表示第t帧检测块中跟踪目标的位移估计值;
根据每一层核相关滤波模型的自适应学习率,更新每一层核相关滤波模型;
所述核相关滤波模型包括滤波器和核相关变量,以
Figure BDA00013494584000001311
表示第t帧检测块的第k个核相关滤波模型的滤波器,
Figure BDA00013494584000001312
表示第t帧检测块的第k个核相关滤波模型的核相关变量,则:
Figure BDA00013494584000001313
进一步地,尺度估计单元404具体用于:
根据所述估计目标位移,确定所述跟踪目标在所述当前视频帧的位置;
以所述跟踪目标在所述当前视频帧的位置为中心,提取不同尺度的边界框,所述边界框包含有所述跟踪目标;
提取不同尺度的边界框的特征,使用线性岭回归模型对每一尺度的边界框进行回归,得到不同尺度的回归值;
选取回归值最大的尺度作为估计值,以所述估计值确定所述跟踪目标在所述当前视频帧的边界框的大小;
采用线性插值的方式对所述线性岭回归模型进行更新。
本发明提供的上述实施例,可以应用于行为理解、异常行为检测等技术领域,也可以应用于视频监控、机器人、智能驾驶、无人机、人机交互等应用领域。
以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明的保护范围之内。

Claims (9)

1.一种基于多分辨率神经网络的目标跟踪方法,其特征在于,包括:
接收待检测的当前视频帧,获取所述当前视频帧的上一帧,在所述上一帧上提取检测块;
提取所述检测块的多层不同分辨率的深度特征;
利用核相关滤波模型计算各层深度特征的目标位移响应图;
根据各层的目标位移响应图,利用多分辨率神经网络进行位移估计得到估计目标位移,并更新所述核相关滤波模型;
根据所述估计目标位移,利用尺度估计模型进行尺度估计得到估计值,并更新所述尺度估计模型;
其中,所述根据各层的目标位移响应图,利用多分辨率神经网络进行位移估计得到估计目标位移,并更新所述核相关滤波模型包括:
以各层的目标位移响应图作为输入,利用所述多分辨率神经网络进行位移估计,得到估计目标位移;
根据所述目标位移响应图对核相关滤波模型进行自适应更新;
其中,所述多分辨率神经网络由若干卷积层、池化层和全连接层组成,以a-b×b的形式表示所述卷积层,其中a表示卷积核数目,b表示卷积核尺寸,则所述多分辨率神经网络的结构为:
所述目标位移响应图→16-3×3卷积层→16-3×3卷积层→2×2的最大池化层→32-3×3卷积层→32-3×3卷积层→2×2的最大池化层→32-3×3卷积层→256个神经元的全连接层→输出目标位移;
所述卷积层的激励函数为Relu;
所述多分辨率神经网络的损失函数定义为预测偏差的均方根值:
Figure FDA0002265383930000011
其中Lpos表示损失函数,Δx和Δy表示预测的目标位移,Δx’和Δy’表示实际的目标位移。
2.如权利要求1所述的目标跟踪方法,其特征在于,所述在所述上一帧上提取检测块包括:
确定所述上一帧的跟踪目标的位置;
以所述上一帧的跟踪目标的位置为中心,按照预置比例选取所述检测块,并将所述检测块的尺寸归一化到固定尺寸。
3.如权利要求2所述的目标跟踪方法,其特征在于,所述提取所述检测块的多层不同分辨率的深度特征包括:
利用预训练的深度神经网络模型提取尺寸归一化后的检测块的多层不同分辨率的深度特征,所述预训练的深度神经网络模型包括AlexNet、GoogleNet、VGGNet或ResNet中的一种。
4.如权利要求1所述的目标跟踪方法,其特征在于,所述利用核相关滤波模型计算各层深度特征的目标位移响应图包括:
利用核相关滤波模型,对每一层深度特征分别进行核相关滤波操作,计算每一层深度特征对应的目标位移响应图,所述目标位移响应图是表示跟踪目标可能性的二维矩阵,所述二维矩阵的行和列表示所述跟踪目标在两个方向的位移。
5.如权利要求4所述的目标跟踪方法,其特征在于,所述根据所述目标位移响应图对核相关滤波模型进行自适应更新包括:
计算每一层核相关滤波模型的自适应学习率;
Figure FDA0002265383930000021
表示第t帧检测块的第k个目标位移响应图的相关滤波模型的学习率,η表示基础学习率,
Figure FDA0002265383930000022
表示第t帧检测块的第k个目标位移响应图的预测稳定性,则
Figure FDA0002265383930000023
其中,
Figure FDA0002265383930000024
Figure FDA0002265383930000025
表示第t帧检测块的第k个目标位移响应图的最大响应值和目标位移处的响应值的差值,
Figure FDA0002265383930000026
Figure FDA0002265383930000027
Figure FDA0002265383930000028
表示
Figure FDA0002265383930000029
在固定时间长度Δt内的均值和标准差,
Figure FDA0002265383930000031
表示第t帧检测块的第k个目标位移响应图,(xp,yp)表示第t帧检测块中跟踪目标的位移估计值;
根据每一层核相关滤波模型的自适应学习率,更新每一层核相关滤波模型;
所述核相关滤波模型包括滤波器和核相关变量,以
Figure FDA0002265383930000032
表示第t帧检测块的第k个核相关滤波模型的滤波器,
Figure FDA0002265383930000033
表示第t帧检测块的第k个核相关滤波模型的核相关变量,则:
Figure FDA0002265383930000034
6.如权利要求1所述的目标跟踪方法,其特征在于,所述尺度估计模型采用线性岭回归模型,则所述根据所述估计目标位移,利用尺度估计模型进行尺度估计得到估计值,并更新所述尺度估计模型包括:
根据所述估计目标位移,确定所述跟踪目标在所述当前视频帧的位置;
以所述跟踪目标在所述当前视频帧的位置为中心,提取不同尺度的边界框,所述边界框包含有所述跟踪目标;
提取不同尺度的边界框的特征,使用线性岭回归模型对每一尺度的边界框进行回归,得到不同尺度的回归值;
选取回归值最大的尺度作为估计值,以所述估计值确定所述跟踪目标在所述当前视频帧的边界框的大小;
采用线性插值的方式对所述线性岭回归模型进行更新。
7.一种基于多分辨率神经网络的目标跟踪系统,其特征在于,包括:
提取单元,用于接收待检测的当前视频帧,获取所述当前视频帧的上一帧在所述上一帧上提取检测块,并提取所述检测块的多层不同分辨率的深度特征;
计算单元,用于利用核相关滤波模型计算各层深度特征的目标位移响应图;
位移估计单元,用于根据各层的目标位移响应图,利用多分辨率神经网络进行位移估计得到估计目标位移,并更新所述核相关滤波模型;
尺度估计单元,用于根据所述估计目标位移,利用尺度估计模型进行尺度估计得到估计值,并更新所述尺度估计模型;
其中,所述位移估计单元具体用于:
以各层的目标位移响应图作为输入,利用所述多分辨率神经网络进行位移估计,得到估计目标位移;
根据所述目标位移响应图对核相关滤波模型进行自适应更新;
其中,所述多分辨率神经网络由若干卷积层、池化层和全连接层组成,以a-b×b的形式表示所述卷积层,其中a表示卷积核数目,b表示卷积核尺寸,则所述多分辨率神经网络的结构为:
所述目标位移响应图→16-3×3卷积层→16-3×3卷积层→2×2的最大池化层→32-3×3卷积层→32-3×3卷积层→2×2的最大池化层→32-3×3卷积层→256个神经元的全连接层→输出目标位移;
所述多分辨率神经网络的损失函数定义为预测偏差的均方根值:
Figure FDA0002265383930000041
其中Lpos表示损失函数,Δx和Δy表示预测的目标位移,Δx’和Δy’表示实际的目标位移。
8.如权利要求7所述的目标跟踪系统,其特征在于,所述提取单元用于:
获取所述当前视频帧的上一帧,确定所述上一帧的跟踪目标的位置;
以所述上一帧的跟踪目标的位置为中心,按照预置比例选取所述检测块,并将所述检测块的尺寸归一化到固定尺寸;
利用预训练的深度神经网络模型提取尺寸归一化后的检测块的多层不同分辨率的深度特征,所述预训练的深度神经网络模型包括AlexNet、GoogleNet、VGGNet或ResNet中的一种。
9.如权利要求7所述的目标跟踪系统,其特征在于,所述计算单元具体用于:
利用核相关滤波模型,对每一层深度特征分别进行核相关滤波操作,计算每一层深度特征对应的目标位移响应图,所述目标位移响应图是表示跟踪目标可能性的二维矩阵,所述二维矩阵的行和列表示所述跟踪目标在两个方向的位移;
所述位移估计单元根据所述目标位移响应图对核相关滤波模型进行自适应更新包括:
计算每一层核相关滤波模型的自适应学习率;
Figure FDA0002265383930000051
表示第t帧检测块的第k个目标位移响应图的相关滤波模型的学习率,η表示基础学习率,
Figure FDA0002265383930000052
表示第t帧检测块的第k个目标位移响应图的预测稳定性,则
Figure FDA0002265383930000053
其中,
Figure FDA0002265383930000054
Figure FDA0002265383930000055
表示第t帧检测块的第k个目标位移响应图的最大响应值和目标位移处的响应值的差值,
Figure FDA0002265383930000056
Figure FDA0002265383930000057
Figure FDA0002265383930000058
表示
Figure FDA0002265383930000059
在固定时间长度Δt内的均值和标准差,
Figure FDA00022653839300000510
表示第t帧检测块的第k个目标位移响应图,(xp,yp)表示第t帧检测块中跟踪目标的位移估计值;
根据每一层核相关滤波模型的自适应学习率,更新每一层核相关滤波模型;
所述核相关滤波模型包括滤波器和核相关变量,以
Figure FDA00022653839300000511
表示第t帧检测块的第k个核相关滤波模型的滤波器,
Figure FDA00022653839300000512
表示第t帧检测块的第k个核相关滤波模型的核相关变量,则:
Figure FDA00022653839300000513
Figure FDA00022653839300000514
所述尺度估计模型采用线性岭回归模型,则所述尺度估计单元具体用于:
根据所述估计目标位移,确定所述跟踪目标在所述当前视频帧的位置;
以所述跟踪目标在所述当前视频帧的位置为中心,提取不同尺度的边界框,所述边界框包含有所述跟踪目标;
提取不同尺度的边界框的特征,使用线性岭回归模型对每一尺度的边界框进行回归,得到不同的尺度回归值;
选取回归值最大的尺度作为估计值,以所述估计值确定所述跟踪目标在所述当前视频帧的边界框的大小;
采用线性插值的方式对所述线性岭回归模型进行更新。
CN201710570207.6A 2017-07-13 2017-07-13 一种基于多分辨率神经网络的目标跟踪方法及系统 Active CN107369166B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201710570207.6A CN107369166B (zh) 2017-07-13 2017-07-13 一种基于多分辨率神经网络的目标跟踪方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201710570207.6A CN107369166B (zh) 2017-07-13 2017-07-13 一种基于多分辨率神经网络的目标跟踪方法及系统

Publications (2)

Publication Number Publication Date
CN107369166A CN107369166A (zh) 2017-11-21
CN107369166B true CN107369166B (zh) 2020-05-08

Family

ID=60308025

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201710570207.6A Active CN107369166B (zh) 2017-07-13 2017-07-13 一种基于多分辨率神经网络的目标跟踪方法及系统

Country Status (1)

Country Link
CN (1) CN107369166B (zh)

Families Citing this family (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111278708B (zh) * 2017-11-28 2023-02-14 宝马股份公司 用于辅助驾驶的方法和装置
CN107945210B (zh) * 2017-11-30 2021-01-05 天津大学 基于深度学习和环境自适应的目标跟踪方法
CN108182388A (zh) * 2017-12-14 2018-06-19 哈尔滨工业大学(威海) 一种基于图像的运动目标跟踪方法
CN108093153B (zh) * 2017-12-15 2020-04-14 深圳云天励飞技术有限公司 目标跟踪方法、装置、电子设备及存储介质
GB201804400D0 (en) * 2018-03-20 2018-05-02 Univ Of Essex Enterprise Limited Localisation, mapping and network training
CN108564167B (zh) * 2018-04-09 2020-07-31 杭州乾圆科技有限公司 一种数据集之中异常数据的识别方法
CN108550126A (zh) * 2018-04-18 2018-09-18 长沙理工大学 一种自适应相关滤波器目标跟踪方法及系统
CN108898619B (zh) * 2018-06-08 2021-02-23 上海大学 一种基于pvanet神经网络的目标跟踪方法
CN109191493B (zh) * 2018-07-13 2021-06-04 上海大学 一种基于RefineNet神经网络和稀疏光流的目标跟踪方法
CN109741366B (zh) * 2018-11-27 2022-10-18 昆明理工大学 一种融合多层卷积特征的相关滤波目标跟踪方法
CN109801311B (zh) * 2019-01-31 2021-07-16 长安大学 一种基于深度残差网络特征的视觉目标跟踪方法
CN110310305B (zh) * 2019-05-28 2021-04-06 东南大学 一种基于bssd检测与卡尔曼滤波的目标跟踪方法与装置
CN111774113B (zh) * 2020-06-30 2022-03-18 马良 一种抗干扰移固器
CN111476819A (zh) * 2020-03-19 2020-07-31 重庆邮电大学 一种基于多相关滤波模型的长时目标跟踪方法
CN112053384B (zh) * 2020-08-28 2022-12-02 西安电子科技大学 基于边界框回归模型的目标跟踪方法

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105741316A (zh) * 2016-01-20 2016-07-06 西北工业大学 基于深度学习和多尺度相关滤波的鲁棒目标跟踪方法
CN106056053A (zh) * 2016-05-23 2016-10-26 西安电子科技大学 基于骨骼特征点提取的人体姿势识别方法

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105741316A (zh) * 2016-01-20 2016-07-06 西北工业大学 基于深度学习和多尺度相关滤波的鲁棒目标跟踪方法
CN106056053A (zh) * 2016-05-23 2016-10-26 西安电子科技大学 基于骨骼特征点提取的人体姿势识别方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
Beyond Correlation Filters: Learning Continuous Convolution Operators for Visual Tracking;Martin Danelljan等;《European Conference on Computer Vision》;20161231;第1-16页 *
Hierarchical Convolutional Features for Visual Tracking;Ma C, Huang J B,Yang X等;《2015 IEEE International Conference on Computer Vision(ICCV)》;20151231;第3074-3082页 *

Also Published As

Publication number Publication date
CN107369166A (zh) 2017-11-21

Similar Documents

Publication Publication Date Title
CN107369166B (zh) 一种基于多分辨率神经网络的目标跟踪方法及系统
CN108776975B (zh) 一种基于半监督特征和滤波器联合学习的视觉跟踪方法
CN108734723B (zh) 一种基于自适应权重联合学习的相关滤波目标跟踪方法
CN107529650B (zh) 闭环检测方法、装置及计算机设备
CN108549839B (zh) 自适应特征融合的多尺度相关滤波视觉跟踪方法
CN107358623B (zh) 一种基于显著性检测和鲁棒性尺度估计的相关滤波跟踪方法
CN111768432A (zh) 基于孪生深度神经网络的动目标分割方法及系统
CN110175649B (zh) 一种关于重新检测的快速多尺度估计目标跟踪方法
CN111260688A (zh) 一种孪生双路目标跟踪方法
CN111311647B (zh) 一种基于全局-局部及卡尔曼滤波的目标跟踪方法及装置
CN112837344B (zh) 一种基于条件对抗生成孪生网络的目标跟踪方法
JP2023509953A (ja) ターゲット追跡方法、装置、電子機器及び記憶媒体
CN114565655B (zh) 一种基于金字塔分割注意力的深度估计方法及装置
CN110084201B (zh) 一种监控场景下基于特定目标跟踪的卷积神经网络的人体动作识别方法
CN108734109B (zh) 一种面向图像序列的视觉目标跟踪方法及系统
CN113822352B (zh) 基于多特征融合的红外弱小目标检测方法
CN110889864B (zh) 一种基于双层深度特征感知的目标跟踪方法
CN109685830B (zh) 目标跟踪方法、装置和设备及计算机存储介质
CN110569706A (zh) 一种基于时间和空间网络的深度集成目标跟踪算法
Kadim et al. Deep-learning based single object tracker for night surveillance.
CN113838135B (zh) 基于lstm双流卷积神经网络的位姿估计方法、系统及介质
CN110135435B (zh) 一种基于广度学习系统的显著性检测方法及装置
CN110751670B (zh) 一种基于融合的目标跟踪方法
CN113033356B (zh) 一种尺度自适应的长期相关性目标跟踪方法
CN116740362B (zh) 一种基于注意力的轻量化非对称场景语义分割方法及系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant