CN107369166B - 一种基于多分辨率神经网络的目标跟踪方法及系统 - Google Patents
一种基于多分辨率神经网络的目标跟踪方法及系统 Download PDFInfo
- Publication number
- CN107369166B CN107369166B CN201710570207.6A CN201710570207A CN107369166B CN 107369166 B CN107369166 B CN 107369166B CN 201710570207 A CN201710570207 A CN 201710570207A CN 107369166 B CN107369166 B CN 107369166B
- Authority
- CN
- China
- Prior art keywords
- target
- model
- tracking
- target displacement
- detection block
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/20—Analysis of motion
- G06T7/246—Analysis of motion using feature-based methods, e.g. the tracking of corners or segments
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/10—Image acquisition modality
- G06T2207/10016—Video; Image sequence
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20081—Training; Learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20084—Artificial neural networks [ANN]
Landscapes
- Engineering & Computer Science (AREA)
- Multimedia (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Image Analysis (AREA)
Abstract
本发明适用于视频目标跟踪,提供了一种基于多分辨率神经网络的目标跟踪方法,包括:接收待检测的当前视频帧,在所述当前视频帧上提取检测块;提取所述检测块的多层不同分辨率的深度特征;利用核相关滤波模型计算各层深度特征的目标位移响应图;根据各层的目标位移响应图,利用多分辨率神经网络进行位移估计得到估计目标位移,并更新所述核相关滤波模型;根据所述估计目标位移,利用尺度估计模型进行尺度估计得到估计值,并更新所述尺度估计模型。通过本实施例,能够大幅减少跟踪漂移和跟踪丢失的情况,在运动突变、光照变化等复杂环境或长序列视频跟踪中的鲁棒性和稳定性大幅提升。
Description
技术领域
本发明属于视频技术领域,尤其涉及一种基于多分辨率神经网络的目标跟踪方法及系统。
背景技术
视觉目标跟踪是计算机视觉的重要研究课题,其主要任务是连续、实时、准确地定位视频序列中被跟踪的目标对象,在视频监控、机器人、智能驾驶、无人机、人机交互等方面具有广泛应用。
基于相关滤波的目标跟踪方法由于其优越的性能成为了研究的热点。而使用在大规模分类数据集上预训练的深度神经网络提取跟踪目标的深度特征,既避开了跟踪时直接训练深度神经网络样本不足的困境,也充分利用了深度特征强大的表征能力。将深度特征应用到相关滤波跟踪模型中的方法结合了二者的优势,基于这种思想的目标跟踪方法层出不穷,但是大多数这类方法只是根据对特定场景的分析,对各个卷积层的相关滤波响应图进行线性加权,忽略了各个卷积层和目标位移之间的非线性信息,同时,目标模型由于不支持自适应更新,在运动突变、光照变化等复杂环境下的鲁棒性不足。
发明内容
本发明所要解决的技术问题在于提供一种基于多分辨率神经网络的目标跟踪方法及系统,旨在解决现有技术中目标模型不支持自适应更新,在运动突变、光照变化等复杂环境下的鲁棒性不足的问题。
本发明是这样实现的,一种基于多分辨率神经网络的目标跟踪方法,包括:
接收待检测的当前视频帧,在所述当前视频帧上提取检测块;
提取所述检测块的多层不同分辨率的深度特征;
利用核相关滤波模型计算各层深度特征的目标位移响应图;
根据各层的目标位移响应图,利用多分辨率神经网络进行位移估计得到估计目标位移,并更新所述核相关滤波模型;
根据所述估计目标位移,利用尺度估计模型进行尺度估计得到估计值,并更新所述尺度估计模型。
进一步地,所述在所述当前视频帧上提取检测块包括:
获取所述当前视频帧的上一帧,确定所述上一帧的跟踪目标的位置;
以所述上一帧的跟踪目标的位置为中心,按照预置比例选取所述检测块,并将所述检测块的尺寸归一化到固定尺寸。
进一步地,所述提取所述检测块的多层不同分辨率的深度特征包括:
利用预训练的深度神经网络模型提取尺寸归一化后的检测块的多层不同分辨率的深度特征,所述预训练的深度神经网络模型包括AlexNet、GoogleNet、VGGNet或ResNet中的一种。
进一步地,所述利用核相关滤波模型计算各层深度特征的目标位移响应图包括:
利用核相关滤波模型,对每一层深度特征分别进行核相关滤波操作,计算每一层深度特征对应的目标位移响应图,所述目标位移响应图是表示跟踪目标可能性的二维矩阵,所述二维矩阵的行和列表示所述跟踪目标在两个方向的位移。
进一步地,所述根据各层的目标位移响应图,利用多分辨率神经网络进行位移估计得到估计目标位移,并更新所述核相关滤波模型包括:
以各层的目标位移响应图作为输入,利用所述多分辨率神经网络进行位移估计,得到估计目标位移;
根据所述目标位移响应图对核相关滤波模型进行自适应更新;
其中,所述多分辨率神经网络由若干卷积层、池化层和全连接层组成,以a-b×b的形式表示所述卷积层,其中a表示卷积核数目,b表示卷积核尺寸,则所述多分辨率神经网络的结构为:
所述目标位移响应图→16-3×3卷积层→16-3×3卷积层→2×2的最大池化层→32-3×3卷积层→32-3×3卷积层→2×2的最大池化层→32-3×3卷积层→256个神经元的全连接层→输出目标位移;
所述卷积层的激励函数为Relu;
所述多分辨率神经网络的损失函数定义为预测偏差的均方根值:
其中Lpos表示损失函数,Δx和Δy表示预测的目标位移,Δx’和Δy’表示实际的目标位移。
进一步地,所述根据所述目标位移响应图对核相关滤波模型进行自适应更新包括:
计算每一层核相关滤波模型的自适应学习率;
其中, 表示第t帧检测块的第k个目标位移响应图的最大响应值和目标位移处的响应值的差值, 和表示在固定时间长度Δt内的均值和标准差,表示第t帧检测块的第k个目标位移响应图,(xp,yp)表示第t帧检测块中跟踪目标的位移估计值;
根据每一层核相关滤波模型的自适应学习率,更新每一层核相关滤波模型;
进一步地,所述尺度估计模型采用线性岭回归模型,则所述根据所述估计目标位移,利用尺度估计模型进行尺度估计得到估计值,并更新所述尺度估计模型包括:
根据所述估计目标位移,确定所述跟踪目标在所述当前视频帧的位置;
以所述跟踪目标在所述当前视频帧的位置为中心,提取不同尺度的边界框,所述边界框包含有所述跟踪目标;
提取不同尺度的边界框的特征,使用线性岭回归模型对每一尺度的边界框进行回归,得到不同尺度的回归值;
选取回归值最大的尺度作为估计值,以所述估计值确定所述跟踪目标在所述当前视频帧的边界框的大小;
采用线性插值的方式对所述线性岭回归模型进行更新。
本发明还提供了一种基于多分辨率神经网络的目标跟踪系统,包括:
提取单元,用于接收待检测的当前视频帧,在所述当前视频帧上提取检测块,并提取所述检测块的多层不同分辨率的深度特征;
计算单元,用于利用核相关滤波模型计算各层深度特征的目标位移响应图;
位移估计单元,用于根据各层的目标位移响应图,利用多分辨率神经网络进行位移估计得到估计目标位移,并更新所述核相关滤波模型;
尺度估计单元,用于根据所述估计目标位移,利用尺度估计模型进行尺度估计得到估计值,并更新所述尺度估计模型。
进一步地,所述提取单元用于:
获取所述当前视频帧的上一帧,确定所述上一帧的跟踪目标的位置;
以所述上一帧的跟踪目标的位置为中心,按照预置比例选取所述检测块,并将所述检测块的尺寸归一化到固定尺寸;
利用预训练的深度神经网络模型提取尺寸归一化后的检测块的多层不同分辨率的深度特征,所述预训练的深度神经网络模型包括AlexNet、GoogleNet、VGGNet或ResNet中的一种。
进一步地,所述计算单元具体用于:
利用核相关滤波模型,对每一层深度特征分别进行核相关滤波操作,计算每一层深度特征对应的目标位移响应图,所述目标位移响应图是表示跟踪目标可能性的二维矩阵,所述二维矩阵的行和列表示所述跟踪目标在两个方向的位移;
则所述位移估计单元具体用于:
以各层的目标位移响应图作为输入,利用所述多分辨率神经网络进行位移估计,得到估计目标位移;
根据所述目标位移响应图对核相关滤波模型进行自适应更新;
其中,所述多分辨率神经网络由若干卷积层、池化层和全连接层组成,以a-b×b的形式表示所述卷积层,其中a表示卷积核数目,b表示卷积核尺寸,则所述多分辨率神经网络的结构为:
所述目标位移响应图→16-3×3卷积层→16-3×3卷积层→2×2的最大池化层→32-3×3卷积层→32-3×3卷积层→2×2的最大池化层→32-3×3卷积层→256个神经元的全连接层→输出目标位移;
所述卷积层的激励函数为Relu;
所述多分辨率神经网络的损失函数定义为预测偏差的均方根值:
其中Lpos表示损失函数,Δx和Δy表示预测的目标位移,Δx’和Δy’表示实际的目标位移;
所述位移估计单元根据所述目标位移响应图对核相关滤波模型进行自适应更新包括:
计算每一层核相关滤波模型的自适应学习率;
其中, 表示第t帧检测块的第k个目标位移响应图的最大响应值和目标位移处的响应值的差值, 和表示在固定时间长度Δt内的均值和标准差,表示第t帧检测块的第k个目标位移响应图,(xp,yp)表示第t帧检测块中跟踪目标的位移估计值;
根据每一层核相关滤波模型的自适应学习率,更新每一层核相关滤波模型;
所述尺度估计模型采用线性岭回归模型,则所述尺度估计单元具体用于:
根据所述估计目标位移,确定所述跟踪目标在所述当前视频帧的位置;
以所述跟踪目标在所述当前视频帧的位置为中心,提取不同尺度的边界框,所述边界框包含有所述跟踪目标;
提取不同尺度的边界框的特征,使用线性岭回归模型对每一尺度的边界框进行回归,得到不同的尺度回归值;
选取回归值最大的尺度作为估计值,以所述估计值确定所述跟踪目标在所述当前视频帧的边界框的大小;
采用线性插值的方式对所述线性岭回归模型进行更新。
本发明与现有技术相比,有益效果在于:本发明实施例预先设计并训练的多分辨率神经网络充分利用了神经网络强大的非线性问题处理能力,能够更好的利用多层不同分辨率深度特征的相关滤波结果,更精确的估计目标位移,通过本实施例,能够大幅减少跟踪漂移和跟踪丢失的情况,在运动突变、光照变化等复杂环境或长序列视频跟踪中的鲁棒性和稳定性大幅提升。
附图说明
图1是本发明实施例提供的一种基于多分辨率神经网络的目标跟踪方法的流程图;
图2是本发明实施例提供的一种基于多分辨率神经网络的目标跟踪方法的使用示意图;
图3是本发明实施例提供的多分辨率神经网络的示意图;
图4是本发明实施例提供的一种基于多分辨率神经网络的目标跟踪系统的结构示意图。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
图1示出了本发明实施例提供的一种基于多分辨率神经网络的目标跟踪方法,包括:
S101,接收待检测的当前视频帧,在所述当前视频帧上提取检测块。
在本步骤中,目标跟踪系统获取所述当前视频帧的上一帧,确定所述上一帧的跟踪目标的位置,以所述上一帧的跟踪目标的位置为中心,按照预置比例选取所述检测块,并将所述检测块的尺寸归一化到固定尺寸。具体地,以上一帧的跟踪目标的位置为中心,按照某比例选取检测块,并将检测块归一化到某固定尺寸。比如按照2.2倍的边界框大小,以跟踪目标为中心选取检测块,然后将检测块尺寸归一化到240×160。
S102,提取所述检测块的多层不同分辨率的深度特征。
在本步骤中,目标跟踪系统利用在大规模分类数据上预训练的深度神经网络模型,提取尺寸归一化后的检测块的多层不同分辨率的深度特征,所述预训练的深度神经网络模型包括但不限于AlexNet、GoogleNet、VGGNet或ResNet中的一种,比如,可以采用VGGNet-19的block1-conv2、block2-conv2、block3-conv4、block4-conv4、block5-conv4这5个卷积层的深度特征。
S103,利用核相关滤波模型计算各层深度特征的目标位移响应图。
在本步骤中,目标跟踪系统利用核相关滤波模型,对每一层深度特征分别进行核相关滤波操作,计算每一层深度特征对应的目标位移响应图,所述目标位移响应图是一个表示跟踪目标可能性的二维矩阵,所述二维矩阵的行和列表示所述跟踪目标在两个方向的位移。
S104,根据各层的目标位移响应图,利用多分辨率神经网络进行位移估计得到估计目标位移,并更新所述核相关滤波模型。
在本步骤中,目标跟踪系统以各层的目标位移响应图作为输入,利用多分辨率神经网络进行位移估计,得到估计目标位移,根据所述目标位移响应图对核相关滤波模型进行自适应更新。具体地,目标跟踪系统将各层的核相关滤波结果组成多分辨率目标位移响应图作为输入,使用本发明实施例提出的多分辨率神经网络(multi-resolution neuralnetwork)估计目标位移,并根据所估计的目标位移,对核相关滤波模型进行自适应更新。
S105,根据所述估计目标位移,利用尺度估计模型进行尺度估计得到估计值,并更新所述尺度估计模型。
在本步骤中,目标跟踪系统使用尺度估计模型对每一尺度进行回归,选取回归值最大的尺度作为估计值,并对尺度估计模型进行更新。具体地,尺度估计模型采用线性岭回归模型,目标跟踪系统根据所述估计目标位移,确定所述跟踪目标在所述当前视频帧的位置;以所述跟踪目标在所述当前视频帧的位置为中心,提取不同尺度的边界框,所述边界框包含有所述跟踪目标;提取不同尺度的边界框的特征,使用线性岭回归模型对每一尺度的边界框进行回归,得到不同尺度的回归值;选取回归值最大的尺度作为估计值,以所述估计值确定所述跟踪目标在所述当前视频帧的边界框的大小;采用线性插值的方式对所述线性岭回归模型进行更新。
图2示出了本发明实施例提供的的一个使用例,其中:
目标跟踪系统接收到输入的新的一帧视频帧时,将从该新的一帧视频帧中提取检测块,图中,白色框是上一帧跟踪目标的位置,接着在提取的检测块中提取多层不同分辨率的深度特征,并计算各层深度特征的核相关滤波的目标位移响应图,接着采用多分辨率神经网络进行位移估计,最后进行尺度估计的,在此过程中需要更新各层的核相关滤波模型及尺度估计模型,最终得到输入的新的一帧视频帧的跟踪目标的位置并确定该跟踪目标的边界框(boundingbox)。
下面对本发明实施例中的多分辨率神经网络、核相关滤波模型的自适应更新和尺度估计模型进行进一步地解释:
多分辨率神经网络:
该多分辨率神经网络的输入是多分辨率的目标位移响应图,输出是预测的目标位移。其示意图如图3所示:
在图3所示的实例,采用5种分辨率的目标位移响应图,且尺寸为240*160,但是在实际情况中,可以由用户选择分辨率数目和响应图尺寸。
该多分辨率神经网络由多个卷积层、池化层和全连接层组成,以a-b×b的形式表示卷积层,其中a表示卷积核数目,b表示卷积核尺寸,则多分辨率神经网络的结构为:输入层(多分辨率的目标位移响应图)→16-3×3卷积层→16-3×3卷积层→2×2的最大池化层→32-3×3卷积层→32-3×3卷积层→2×2的最大池化层→32-3×3卷积层→256个神经元的全连接层→输出目标位移。其中卷积层的激励函数为Relu。
该多分辨率神经网络的损失函数定义为预测偏差的均方根值:
其中Lpos表示损失函数,Δx和Δy表示预测的目标位移,Δx’和Δy’表示实际的目标位移。
该多分辨率神经网络在跟踪数据集上预训练,比如在OTB-2015数据集上预训练。
核相关滤波模型的自适应更新:
核相关滤波模型包括滤波器和核相关变量两部分,在进行自适应更新时首先计算每一层的核相关滤波模型的自适应学习率,然后分别对两个组成部分进行更新。
(a)计算每一层核相关滤波模型的自适应学习率:
(b)更新相关滤波模型:
根据每一层的学习率,更新每一层的核相关滤波模型:
尺度估计模型:
以当前估计的跟踪目标的位置为中心,提取不同尺度的检测块。对各个检测块提取特征,并赋予一维高斯标签值,建立尺度估计的线性岭回归模型,采用线性插值的方式对岭回归模型进行更新。
本发明提出的一种基于多分辨率神经网络的目标跟踪方法,使用了多分辨率神经网络进行目标位移估计,并且对核相关滤波模型进行自适应更新,使用线性岭回归模型进行尺度估计,在运动突变、光照变化等复杂环境或长视频序列跟踪中的鲁棒性和稳定性大幅提升。
本发明实施例提出并设计的多分辨率神经网络,避免了对多层核相关滤波目标位移响应图进行权重设计,提高了目标位移估计的精度。
本发明实施例以预测稳定性为主要考量进行核相关滤波模型的自适应更新,有效提高了目标模型更新的平滑性和跟踪系统的鲁棒性。
图4示出了本发明实施例提供的一种基于多分辨率神经网络的目标跟踪系统,包括:
提取单元401,用于接收待检测的当前视频帧,在所述当前视频帧上提取检测块,并提取所述检测块的多层不同分辨率的深度特征;
计算单元402,用于利用核相关滤波模型计算各层深度特征的目标位移响应图;
位移估计单元403,用于根据各层的目标位移响应图,利用多分辨率神经网络进行位移估计得到估计目标位移,并更新所述核相关滤波模型;
尺度估计单元404,用于根据所述估计目标位移,利用尺度估计模型进行尺度估计得到估计值,并更新所述尺度估计模型。
进一步地,提取单元401用于:
获取所述当前视频帧的上一帧,确定所述上一帧的跟踪目标的位置;
以所述上一帧的跟踪目标的位置为中心,按照预置比例选取所述检测块,并将所述检测块的尺寸归一化到固定尺寸;
利用预训练的深度神经网络模型提取尺寸归一化后的检测块的多层不同分辨率的深度特征,所述预训练的深度神经网络模型包括AlexNet、GoogleNet、VGGNet或ResNet中的一种。
进一步地,计算单元402具体用于:
利用核相关滤波模型,对每一层深度特征分别进行核相关滤波操作,计算每一层深度特征对应的目标位移响应图,所述目标位移响应图是表示跟踪目标可能性的二维矩阵,所述二维矩阵的行和列表示所述跟踪目标在两个方向的位移;
则位移估计单元403具体用于:
以各层的目标位移响应图作为输入,利用所述多分辨率神经网络进行位移估计,得到估计目标位移;
根据所述目标位移响应图对核相关滤波模型进行自适应更新;
其中,所述多分辨率神经网络由若干卷积层、池化层和全连接层组成,以a-b×b的形式表示所述卷积层,其中a表示卷积核数目,b表示卷积核尺寸,则所述多分辨率神经网络的结构为:
所述目标位移响应图→16-3×3卷积层→16-3×3卷积层→2×2的最大池化层→32-3×3卷积层→32-3×3卷积层→2×2的最大池化层→32-3×3卷积层→256个神经元的全连接层→输出目标位移;
所述卷积层的激励函数为Relu;
所述多分辨率神经网络的损失函数定义为预测偏差的均方根值:
其中Lpos表示损失函数,Δx和Δy表示预测的目标位移,Δx’和Δy’表示实际的目标位移;
位移估计单元403根据所述目标位移响应图对核相关滤波模型进行自适应更新包括:
计算每一层核相关滤波模型的自适应学习率;
其中, 表示第t帧检测块的第k个目标位移响应图的最大响应值和目标位移处的响应值的差值, 和表示在固定时间长度Δt内的均值和标准差,表示第t帧检测块的第k个目标位移响应图,(xp,yp)表示第t帧检测块中跟踪目标的位移估计值;
根据每一层核相关滤波模型的自适应学习率,更新每一层核相关滤波模型;
进一步地,尺度估计单元404具体用于:
根据所述估计目标位移,确定所述跟踪目标在所述当前视频帧的位置;
以所述跟踪目标在所述当前视频帧的位置为中心,提取不同尺度的边界框,所述边界框包含有所述跟踪目标;
提取不同尺度的边界框的特征,使用线性岭回归模型对每一尺度的边界框进行回归,得到不同尺度的回归值;
选取回归值最大的尺度作为估计值,以所述估计值确定所述跟踪目标在所述当前视频帧的边界框的大小;
采用线性插值的方式对所述线性岭回归模型进行更新。
本发明提供的上述实施例,可以应用于行为理解、异常行为检测等技术领域,也可以应用于视频监控、机器人、智能驾驶、无人机、人机交互等应用领域。
以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明的保护范围之内。
Claims (9)
1.一种基于多分辨率神经网络的目标跟踪方法,其特征在于,包括:
接收待检测的当前视频帧,获取所述当前视频帧的上一帧,在所述上一帧上提取检测块;
提取所述检测块的多层不同分辨率的深度特征;
利用核相关滤波模型计算各层深度特征的目标位移响应图;
根据各层的目标位移响应图,利用多分辨率神经网络进行位移估计得到估计目标位移,并更新所述核相关滤波模型;
根据所述估计目标位移,利用尺度估计模型进行尺度估计得到估计值,并更新所述尺度估计模型;
其中,所述根据各层的目标位移响应图,利用多分辨率神经网络进行位移估计得到估计目标位移,并更新所述核相关滤波模型包括:
以各层的目标位移响应图作为输入,利用所述多分辨率神经网络进行位移估计,得到估计目标位移;
根据所述目标位移响应图对核相关滤波模型进行自适应更新;
其中,所述多分辨率神经网络由若干卷积层、池化层和全连接层组成,以a-b×b的形式表示所述卷积层,其中a表示卷积核数目,b表示卷积核尺寸,则所述多分辨率神经网络的结构为:
所述目标位移响应图→16-3×3卷积层→16-3×3卷积层→2×2的最大池化层→32-3×3卷积层→32-3×3卷积层→2×2的最大池化层→32-3×3卷积层→256个神经元的全连接层→输出目标位移;
所述卷积层的激励函数为Relu;
所述多分辨率神经网络的损失函数定义为预测偏差的均方根值:
其中Lpos表示损失函数,Δx和Δy表示预测的目标位移,Δx’和Δy’表示实际的目标位移。
2.如权利要求1所述的目标跟踪方法,其特征在于,所述在所述上一帧上提取检测块包括:
确定所述上一帧的跟踪目标的位置;
以所述上一帧的跟踪目标的位置为中心,按照预置比例选取所述检测块,并将所述检测块的尺寸归一化到固定尺寸。
3.如权利要求2所述的目标跟踪方法,其特征在于,所述提取所述检测块的多层不同分辨率的深度特征包括:
利用预训练的深度神经网络模型提取尺寸归一化后的检测块的多层不同分辨率的深度特征,所述预训练的深度神经网络模型包括AlexNet、GoogleNet、VGGNet或ResNet中的一种。
4.如权利要求1所述的目标跟踪方法,其特征在于,所述利用核相关滤波模型计算各层深度特征的目标位移响应图包括:
利用核相关滤波模型,对每一层深度特征分别进行核相关滤波操作,计算每一层深度特征对应的目标位移响应图,所述目标位移响应图是表示跟踪目标可能性的二维矩阵,所述二维矩阵的行和列表示所述跟踪目标在两个方向的位移。
5.如权利要求4所述的目标跟踪方法,其特征在于,所述根据所述目标位移响应图对核相关滤波模型进行自适应更新包括:
计算每一层核相关滤波模型的自适应学习率;
其中, 表示第t帧检测块的第k个目标位移响应图的最大响应值和目标位移处的响应值的差值, 和表示在固定时间长度Δt内的均值和标准差,表示第t帧检测块的第k个目标位移响应图,(xp,yp)表示第t帧检测块中跟踪目标的位移估计值;
根据每一层核相关滤波模型的自适应学习率,更新每一层核相关滤波模型;
6.如权利要求1所述的目标跟踪方法,其特征在于,所述尺度估计模型采用线性岭回归模型,则所述根据所述估计目标位移,利用尺度估计模型进行尺度估计得到估计值,并更新所述尺度估计模型包括:
根据所述估计目标位移,确定所述跟踪目标在所述当前视频帧的位置;
以所述跟踪目标在所述当前视频帧的位置为中心,提取不同尺度的边界框,所述边界框包含有所述跟踪目标;
提取不同尺度的边界框的特征,使用线性岭回归模型对每一尺度的边界框进行回归,得到不同尺度的回归值;
选取回归值最大的尺度作为估计值,以所述估计值确定所述跟踪目标在所述当前视频帧的边界框的大小;
采用线性插值的方式对所述线性岭回归模型进行更新。
7.一种基于多分辨率神经网络的目标跟踪系统,其特征在于,包括:
提取单元,用于接收待检测的当前视频帧,获取所述当前视频帧的上一帧在所述上一帧上提取检测块,并提取所述检测块的多层不同分辨率的深度特征;
计算单元,用于利用核相关滤波模型计算各层深度特征的目标位移响应图;
位移估计单元,用于根据各层的目标位移响应图,利用多分辨率神经网络进行位移估计得到估计目标位移,并更新所述核相关滤波模型;
尺度估计单元,用于根据所述估计目标位移,利用尺度估计模型进行尺度估计得到估计值,并更新所述尺度估计模型;
其中,所述位移估计单元具体用于:
以各层的目标位移响应图作为输入,利用所述多分辨率神经网络进行位移估计,得到估计目标位移;
根据所述目标位移响应图对核相关滤波模型进行自适应更新;
其中,所述多分辨率神经网络由若干卷积层、池化层和全连接层组成,以a-b×b的形式表示所述卷积层,其中a表示卷积核数目,b表示卷积核尺寸,则所述多分辨率神经网络的结构为:
所述目标位移响应图→16-3×3卷积层→16-3×3卷积层→2×2的最大池化层→32-3×3卷积层→32-3×3卷积层→2×2的最大池化层→32-3×3卷积层→256个神经元的全连接层→输出目标位移;
所述多分辨率神经网络的损失函数定义为预测偏差的均方根值:
其中Lpos表示损失函数,Δx和Δy表示预测的目标位移,Δx’和Δy’表示实际的目标位移。
8.如权利要求7所述的目标跟踪系统,其特征在于,所述提取单元用于:
获取所述当前视频帧的上一帧,确定所述上一帧的跟踪目标的位置;
以所述上一帧的跟踪目标的位置为中心,按照预置比例选取所述检测块,并将所述检测块的尺寸归一化到固定尺寸;
利用预训练的深度神经网络模型提取尺寸归一化后的检测块的多层不同分辨率的深度特征,所述预训练的深度神经网络模型包括AlexNet、GoogleNet、VGGNet或ResNet中的一种。
9.如权利要求7所述的目标跟踪系统,其特征在于,所述计算单元具体用于:
利用核相关滤波模型,对每一层深度特征分别进行核相关滤波操作,计算每一层深度特征对应的目标位移响应图,所述目标位移响应图是表示跟踪目标可能性的二维矩阵,所述二维矩阵的行和列表示所述跟踪目标在两个方向的位移;
所述位移估计单元根据所述目标位移响应图对核相关滤波模型进行自适应更新包括:
计算每一层核相关滤波模型的自适应学习率;
其中, 表示第t帧检测块的第k个目标位移响应图的最大响应值和目标位移处的响应值的差值, 和表示在固定时间长度Δt内的均值和标准差,表示第t帧检测块的第k个目标位移响应图,(xp,yp)表示第t帧检测块中跟踪目标的位移估计值;
根据每一层核相关滤波模型的自适应学习率,更新每一层核相关滤波模型;
所述尺度估计模型采用线性岭回归模型,则所述尺度估计单元具体用于:
根据所述估计目标位移,确定所述跟踪目标在所述当前视频帧的位置;
以所述跟踪目标在所述当前视频帧的位置为中心,提取不同尺度的边界框,所述边界框包含有所述跟踪目标;
提取不同尺度的边界框的特征,使用线性岭回归模型对每一尺度的边界框进行回归,得到不同的尺度回归值;
选取回归值最大的尺度作为估计值,以所述估计值确定所述跟踪目标在所述当前视频帧的边界框的大小;
采用线性插值的方式对所述线性岭回归模型进行更新。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710570207.6A CN107369166B (zh) | 2017-07-13 | 2017-07-13 | 一种基于多分辨率神经网络的目标跟踪方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710570207.6A CN107369166B (zh) | 2017-07-13 | 2017-07-13 | 一种基于多分辨率神经网络的目标跟踪方法及系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN107369166A CN107369166A (zh) | 2017-11-21 |
CN107369166B true CN107369166B (zh) | 2020-05-08 |
Family
ID=60308025
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201710570207.6A Active CN107369166B (zh) | 2017-07-13 | 2017-07-13 | 一种基于多分辨率神经网络的目标跟踪方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN107369166B (zh) |
Families Citing this family (15)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111278708B (zh) * | 2017-11-28 | 2023-02-14 | 宝马股份公司 | 用于辅助驾驶的方法和装置 |
CN107945210B (zh) * | 2017-11-30 | 2021-01-05 | 天津大学 | 基于深度学习和环境自适应的目标跟踪方法 |
CN108182388A (zh) * | 2017-12-14 | 2018-06-19 | 哈尔滨工业大学(威海) | 一种基于图像的运动目标跟踪方法 |
CN108093153B (zh) * | 2017-12-15 | 2020-04-14 | 深圳云天励飞技术有限公司 | 目标跟踪方法、装置、电子设备及存储介质 |
GB201804400D0 (en) * | 2018-03-20 | 2018-05-02 | Univ Of Essex Enterprise Limited | Localisation, mapping and network training |
CN108564167B (zh) * | 2018-04-09 | 2020-07-31 | 杭州乾圆科技有限公司 | 一种数据集之中异常数据的识别方法 |
CN108550126A (zh) * | 2018-04-18 | 2018-09-18 | 长沙理工大学 | 一种自适应相关滤波器目标跟踪方法及系统 |
CN108898619B (zh) * | 2018-06-08 | 2021-02-23 | 上海大学 | 一种基于pvanet神经网络的目标跟踪方法 |
CN109191493B (zh) * | 2018-07-13 | 2021-06-04 | 上海大学 | 一种基于RefineNet神经网络和稀疏光流的目标跟踪方法 |
CN109741366B (zh) * | 2018-11-27 | 2022-10-18 | 昆明理工大学 | 一种融合多层卷积特征的相关滤波目标跟踪方法 |
CN109801311B (zh) * | 2019-01-31 | 2021-07-16 | 长安大学 | 一种基于深度残差网络特征的视觉目标跟踪方法 |
CN110310305B (zh) * | 2019-05-28 | 2021-04-06 | 东南大学 | 一种基于bssd检测与卡尔曼滤波的目标跟踪方法与装置 |
CN111774113B (zh) * | 2020-06-30 | 2022-03-18 | 马良 | 一种抗干扰移固器 |
CN111476819A (zh) * | 2020-03-19 | 2020-07-31 | 重庆邮电大学 | 一种基于多相关滤波模型的长时目标跟踪方法 |
CN112053384B (zh) * | 2020-08-28 | 2022-12-02 | 西安电子科技大学 | 基于边界框回归模型的目标跟踪方法 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105741316A (zh) * | 2016-01-20 | 2016-07-06 | 西北工业大学 | 基于深度学习和多尺度相关滤波的鲁棒目标跟踪方法 |
CN106056053A (zh) * | 2016-05-23 | 2016-10-26 | 西安电子科技大学 | 基于骨骼特征点提取的人体姿势识别方法 |
-
2017
- 2017-07-13 CN CN201710570207.6A patent/CN107369166B/zh active Active
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105741316A (zh) * | 2016-01-20 | 2016-07-06 | 西北工业大学 | 基于深度学习和多尺度相关滤波的鲁棒目标跟踪方法 |
CN106056053A (zh) * | 2016-05-23 | 2016-10-26 | 西安电子科技大学 | 基于骨骼特征点提取的人体姿势识别方法 |
Non-Patent Citations (2)
Title |
---|
Beyond Correlation Filters: Learning Continuous Convolution Operators for Visual Tracking;Martin Danelljan等;《European Conference on Computer Vision》;20161231;第1-16页 * |
Hierarchical Convolutional Features for Visual Tracking;Ma C, Huang J B,Yang X等;《2015 IEEE International Conference on Computer Vision(ICCV)》;20151231;第3074-3082页 * |
Also Published As
Publication number | Publication date |
---|---|
CN107369166A (zh) | 2017-11-21 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN107369166B (zh) | 一种基于多分辨率神经网络的目标跟踪方法及系统 | |
CN108776975B (zh) | 一种基于半监督特征和滤波器联合学习的视觉跟踪方法 | |
CN108734723B (zh) | 一种基于自适应权重联合学习的相关滤波目标跟踪方法 | |
CN107529650B (zh) | 闭环检测方法、装置及计算机设备 | |
CN108549839B (zh) | 自适应特征融合的多尺度相关滤波视觉跟踪方法 | |
CN107358623B (zh) | 一种基于显著性检测和鲁棒性尺度估计的相关滤波跟踪方法 | |
CN111768432A (zh) | 基于孪生深度神经网络的动目标分割方法及系统 | |
CN110175649B (zh) | 一种关于重新检测的快速多尺度估计目标跟踪方法 | |
CN111260688A (zh) | 一种孪生双路目标跟踪方法 | |
CN111311647B (zh) | 一种基于全局-局部及卡尔曼滤波的目标跟踪方法及装置 | |
CN112837344B (zh) | 一种基于条件对抗生成孪生网络的目标跟踪方法 | |
JP2023509953A (ja) | ターゲット追跡方法、装置、電子機器及び記憶媒体 | |
CN114565655B (zh) | 一种基于金字塔分割注意力的深度估计方法及装置 | |
CN110084201B (zh) | 一种监控场景下基于特定目标跟踪的卷积神经网络的人体动作识别方法 | |
CN108734109B (zh) | 一种面向图像序列的视觉目标跟踪方法及系统 | |
CN113822352B (zh) | 基于多特征融合的红外弱小目标检测方法 | |
CN110889864B (zh) | 一种基于双层深度特征感知的目标跟踪方法 | |
CN109685830B (zh) | 目标跟踪方法、装置和设备及计算机存储介质 | |
CN110569706A (zh) | 一种基于时间和空间网络的深度集成目标跟踪算法 | |
Kadim et al. | Deep-learning based single object tracker for night surveillance. | |
CN113838135B (zh) | 基于lstm双流卷积神经网络的位姿估计方法、系统及介质 | |
CN110135435B (zh) | 一种基于广度学习系统的显著性检测方法及装置 | |
CN110751670B (zh) | 一种基于融合的目标跟踪方法 | |
CN113033356B (zh) | 一种尺度自适应的长期相关性目标跟踪方法 | |
CN116740362B (zh) | 一种基于注意力的轻量化非对称场景语义分割方法及系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |