CN110335289B - 一种基于在线学习的目标跟踪方法 - Google Patents
一种基于在线学习的目标跟踪方法 Download PDFInfo
- Publication number
- CN110335289B CN110335289B CN201910509325.5A CN201910509325A CN110335289B CN 110335289 B CN110335289 B CN 110335289B CN 201910509325 A CN201910509325 A CN 201910509325A CN 110335289 B CN110335289 B CN 110335289B
- Authority
- CN
- China
- Prior art keywords
- target
- frame
- model
- pixel point
- tensor
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 58
- 238000012549 training Methods 0.000 claims abstract description 23
- 230000008859 change Effects 0.000 claims abstract description 9
- 239000011159 matrix material Substances 0.000 claims description 54
- 239000013598 vector Substances 0.000 claims description 48
- 230000006870 function Effects 0.000 claims description 30
- 230000004044 response Effects 0.000 claims description 24
- 238000005457 optimization Methods 0.000 claims description 18
- 230000009467 reduction Effects 0.000 claims description 17
- 230000008569 process Effects 0.000 claims description 14
- 238000013459 approach Methods 0.000 claims description 6
- 238000012545 processing Methods 0.000 claims description 6
- 238000000605 extraction Methods 0.000 claims description 5
- 238000004364 calculation method Methods 0.000 claims description 3
- 238000012937 correction Methods 0.000 claims description 3
- 238000005286 illumination Methods 0.000 claims description 3
- 238000013507 mapping Methods 0.000 claims description 3
- 230000004931 aggregating effect Effects 0.000 claims description 2
- 238000013461 design Methods 0.000 description 2
- PXFBZOLANLWPMH-UHFFFAOYSA-N 16-Epiaffinine Natural products C1C(C2=CC=CC=C2N2)=C2C(=O)CC2C(=CC)CN(C)C1C2CO PXFBZOLANLWPMH-UHFFFAOYSA-N 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 230000008713 feedback mechanism Effects 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 238000005259 measurement Methods 0.000 description 1
- 230000000750 progressive effect Effects 0.000 description 1
- 230000009466 transformation Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/20—Analysis of motion
- G06T7/207—Analysis of motion for motion estimation over a hierarchy of resolutions
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/20—Analysis of motion
- G06T7/246—Analysis of motion using feature-based methods, e.g. the tracking of corners or segments
- G06T7/251—Analysis of motion using feature-based methods, e.g. the tracking of corners or segments involving models
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/10—Image acquisition modality
- G06T2207/10016—Video; Image sequence
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20048—Transform domain processing
- G06T2207/20056—Discrete and fast Fourier transform, [DFT, FFT]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20081—Training; Learning
Landscapes
- Engineering & Computer Science (AREA)
- Multimedia (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Image Analysis (AREA)
Abstract
本发明公开了一种基于在线学习的目标跟踪方法,该方法包括以下步骤:目标初始化,跟踪视频第一帧给出的目标位置和大小初始化目标基本信息;提取特征,提取给定目标的特征信息;模型初始化,使用第一帧目标特征训练初始模型;候选区域,根据上一帧目标位置来获取当前帧目标可能位置;特征提取,对目标候选区域进行特征提取;目标定位,模型判决目标在候选区域的精确位置;模型更新,使用在线学习的方式更新模型参数,使其适应目标外观变化;本发明的目标跟踪方法,提供了一种模型自适应更新的方式,可以有效减少模型的剧烈变化,防止跟踪框漂移,增加跟踪稳定性。
Description
技术领域
本发明属于在线学习领域和单目标跟踪领域,尤其涉及一种基于在线学习的目标跟踪方法。
背景技术
判别式目标跟踪方法把跟踪问题变成一个分类的问题,通过训练分类器来区分目标和背景。在当前帧以目标区域为正样本,背景区域为负样本,通过机器学习方法在线训练分类器来判别目标和背景,下一帧用训练好的分类器寻找最优区域。算法使用样本图像训练滤波器建立目标外观模型,在第一帧中初选目标窗口并进行随机仿射变换,得到一组样本图像用来训练滤波器,然后在后续帧中,将滤波器与搜索窗口进行相关操作,找到相关输出的最大值位置来表示目标的当前帧位置,以此实现跟踪,并基于新位置图像更新滤波器。滤波器需要不断更新,才能实时地捕捉到目标的外观变化。然而,在目标被遮挡时,目标外观剧烈变动,滤波器仍然会以固定的学习率学习到遮挡物的信息,导致模型的漂移。
在线学习是一种渐进式学习的方式,其核心思想是通过已有模型预测数据的类别,并对这样的一个预测结果进行反馈,再通过反馈结果来修正预测模型,使得模型可以对以后的数据进行更好的预测。而常见的批学习方式生成的预测结果仅基于一次确定的训练数据集。
在目标跟踪过程中,当目标被遮挡时,传统的滤波器仍然以固定的模型更新率去学习遮挡物的信息,导致滤波器被污染。在线学习方式和目标跟踪方法的基本思路是吻合的,将在线学习引入到目标跟踪方法中,目的在于让滤波器在权值更新之前获取一个当前帧的预测反馈,并通过这个反馈来修正模型的更新而不是用固定的模型更新率。
针对固定模型更新率存在的弊端以及在线学习反馈对于模型更新的必要性,有必要设计一种反馈机制来改善目标跟踪方法的性能。
发明内容
发明目的:针对以上问题,本发明提出一种基于在线学习的目标跟踪方法,将在线学习引入到目标跟踪方法中,修正跟踪过程中模型(滤波器)的更新方式,使模型在权值更新之前获取一个当前帧的预测反馈,并通过这个反馈来修正模型的更新。
技术方案:为实现本发明的目的,本发明所采用的技术方案是:一种基于在线学习的目标跟踪方法,包括以下步骤:
步骤1:根据视频第一帧图像给出的目标初始状态,确定目标初始位置p1以及下一帧中的目标候选区域;所述目标候选区域是指以目标初始位置p1为中心,长为M宽为N的矩形区域;
步骤2:对步骤1所述目标候选区域进行特征提取,得到特征张量x1∈RM×N×D,其中,RM×N×D表示特征的维度;
步骤3:每帧图像各对应一个模型,所述模型是与特征张量x1维度相同的权值张量,并且是判断一个区域是否为目标的滤波器;对第一帧模型f1∈RM×N×D以及第一帧模型权值置信度张量∑1初始化,设张量f1与∑1的所有元素值为1;模型训练的方法是优化一个回归问题,即根据模型训练的目标函数,使用步骤2中提取的特征张量x1训练模型,得到训练后的第一帧模型f1;
步骤4:获取视频的第t帧图像作为当前的跟踪对象,t=2,…,Num,Num表示图像帧总数量,根据目标在第t-1帧图像中的位置来选取目标在第t帧图像中的可能位置;设目标在第t-1帧图像中的位置为pt-1,则在第t帧图像中,选取以位置pt-1为中心,长为M宽为N的矩形区域作为目标候选区域,所述目标候选区域包括M*N个目标可能位置 表示第t帧的第i个目标可能位置;所述目标可能位置是指所述矩形区域中所有像素点;
步骤5:对第t帧图像中的目标候选区域进行特征提取,得到特征张量xt;
步骤6:使用第t-1帧所得模型与第t帧特征张量进行数字相关性计算,得到第t帧目标候选区域中每个像素点的响应值;选择响应值最大的像素点为第t帧目标所在位置;进入步骤7;
模型(滤波器)应具备良好的泛化性,即模型在识别出当前帧目标的同时保持对过去目标的识别能力,因此前后两帧的模型之间的差异是有限的;根据在线学习思想,本发明将前后两帧的模型之间的差异设计为预测反馈来修正模型的更新;
步骤7:由于目标在视频中的外观会发生变化,每一帧模型都需要更新权值以保证对目标的判别能力;采用KL散度来度量第t帧需要学习的模型与第t-1帧模型之间的差异,并使其成为第t帧模型优化的约束条件,从而实现在模型优化过程中自适应模型更新,根据模型优化的目标函数得到第t帧模型ft以及第t帧模型权值置信度张量∑t;t增加1,重复步骤4-7,直到Num帧图像处理完成,实现目标跟踪。
进一步,步骤2和步骤5所述特征提取的方法如下:
S1:对原始图像进行灰度化处理,即将原始RGB三通道图像转化为单通道图像;
S2:采用gamma校正法对灰度化后的图像进行颜色空间的标准化,降低光照变化以及局部图像阴影的影响,公式如下:
I(x,y)=I(x,y)gamma
式中,I(x,y)表示坐标(x,y)处像素点的像素值,I(x,y)gamma表示对像素值的gamma次幂,gamma是常数;
S3:计算每个像素点的梯度幅值与梯度方向;
S4:将每个像素点的梯度方向离散化,并将每个像素点映射为特征向量;
S5:每k*k个像素点组成一个cell,把每个cell内所有像素点的特征向量相加,从而将步骤S4得到的像素级特征向量聚合成cell级的特征向量C,记为:
C(i,j),{0≤i≤[(M-1)/k],0≤j≤[(N-1)/k]}
其中,C(i,j)表示坐标为(i,j)处cell的特征向量;
S6:对步骤S5所得到的特征进行归一化:
其中,H(i,j)表示坐标为(i,j)处cell的最终特征向量,Min表示取最小值函数,Nδ,υ(i,j)是局部归一化特征向量,其计算公式如下:
Nδ,υ(i,j)=(||C(i,j)||2+||C(i+δ,j)||2+||C(i,j+υ)||2+||C(i+δ,j+υ)||2)1/2δ,υ∈{-1,1}
S7:重复步骤S5-S6,直到目标候选区域内所有cell处理完成,得到目标候选区域的特征。
进一步,步骤S3所述计算每个像素点的梯度幅值与梯度方向,方法如下:
首先获取每个像素点的横纵梯度值,采用的方法是对图像进行横纵方向的卷积:
Gx=[-1,0,1],Gy=[1,0,-1]T
其中,Gx表示水平方向滤波器,Gy表示垂直方向滤波器;卷积后得到像素点I(x,y)水平方向梯度幅值Gx(x,y)和垂直方向梯度幅值Gy(x,y),则每个像素点的梯度幅值和梯度方向分别为:
其中,G(x,y)表示像素点的梯度幅值,α(x,y)表示像素点的梯度方向。
进一步,步骤S4所述将像素点的梯度方向离散化,计算公式如下:
其中,B(x,y)表示梯度方向α(x,y)离散化后的值,p表示离散化的分段个数,round为取整函数,mod为取模函数;
将像素点映射为特征向量,方法如下:
其中,F(x,y)表示坐标(x,y)处像素点的特征向量,F(x,y)b表示特征向量F(x,y)第b维分量的值。
进一步,步骤3所述模型训练的目标函数如下:
其中,d表示张量特征的第d维通道,D表示特征共有D维通道,f1∈RM×N×D表示第一帧模型;常量矩阵y∈RM×N表示训练标签,标签值服从高斯分布,中心趋近去1,四周趋近于0;常量矩阵w∈RM×N表示模型的权值惩罚系数,符号*表示相关运算,符号·表示点积运算。
进一步,步骤6所述得到目标候选区域每个像素点的响应值,方法如下:
为了提高运算效率,对模型和特征张量进行傅里叶变换,将时域相关运算转变成频域点积运算,则目标候选区域像素点的响应值公式如下:
其中,表示第t-1帧所得模型的第d维矩阵,表示第t帧特征张量的第d维矩阵,D表示特征共有D维通道,response∈RM×N表示候选区域每个像素点的响应值矩阵;response中响应值最大的像素点所在坐标即为目标在第t帧图像中的位置pt;上标Λ表示该变量是经过傅里叶变换后的频域变量。
进一步,步骤7所述模型优化的目标函数如下:
所述KL散度公式如下:
其中,d表示张量特征的第d维通道;D表示特征共有D维通道;是第t帧目标特征的第d维矩阵降维形成的长度为M*N的向量;是第t-1帧目标特征的第d维矩阵降维形成的长度为M*N的向量;fd∈RM*N是第t帧模型的第d维矩阵降维形成的长度为M*N的向量;是第t-1帧模型的第d维矩阵降维形成的长度为M*N的向量;y表示训练标签;w表示惩罚系数;是对角矩阵,其对角线元素由第t-1帧置信度张量∑t-1第d维矩阵中所有元素组成;∑d∈RM*N×M*N是对角矩阵,其对角线元素由第t帧置信度张量∑第d维矩阵中所有元素组成;β表示对置信度的正则项系数;μ表示对模型差异的正则项系数;上标-1表示矩阵求逆操作;上标T表示转置操作;det表示求矩阵的行列式;Tr表示求矩阵的迹。
进一步:步骤7所述目标函数优化过程如下:
对于公式(3),采用交替方向乘子法对目标函数进行求解:
其中,g∈RM×N×D表示模型f的辅助变量;s∈RM×N×D表示拉格朗日乘子;γ表示惩罚因子;gd∈RM*N是张量g的第d维矩阵降维形成的长度为M*N的向量;sd∈RM*N是张量s的第d维矩阵降维形成的长度为M*N的向量;
将公式(5)分解成不同变量的子问题进行迭代求解:
其中,fi+1,∑i+1,gi+1,hi+1的上标i+1表示相应变量的第i+1轮迭代的结果;每一轮模型和置信度的解为:
其中,上标Λ表示该变量是频域变量。
进一步,根据上述优化过程,将β,μ两个参数设置为0即可得到步骤3中目标函数的优化过程,并得到第一帧模型的解。
有益效果:与现有技术相比,本发明的技术方案具有以下有益的技术效果:
(1)将模型(滤波器)之间的差异设计为预测反馈来修正模型的更新,使得模型避免了因为权值巨大波动而导致的定位漂移。
(2)置信度张量使得模型能够渐进式的学习目标不同的外观特征,随着目标外观的不断变化,模型的权值对应置信度逐渐提高。
(3)本发明用KL散度度量模型之间的差异,是一种高阶形式的差异。这种高阶形式的差异,可以在一定程度上区分是目标外观变化导致的模型差异还是目标被遮挡导致的模型差异。这样的特性可以使模型避免学习遮挡物信息的同时保留对目标外观变化积极的学习率。
附图说明
图1是本发明实施例的算法流程图。
具体实施方式
下面结合附图和实施例对本发明的技术方案作进一步的说明。
本发明所述的一种基于在线学习的目标跟踪方法,如图1所示,包括以下步骤:
101、根据视频第一帧图像给出的目标初始状态,确定目标初始位置p1以及下一帧中的目标候选区域;所述目标候选区域是指以目标初始位置p1为中心,长为M宽为N的矩形区域;
102、对步骤101所述目标候选区域进行特征提取,得到特征张量x1∈RM×N×D,其中,RM×N×D表示特征的维度;本实施例中,D=31;
103、每帧图像各对应一个模型,所述模型是与特征张量x1维度相同的权值张量,并且是判断一个区域是否为目标的滤波器;对第一帧模型f1∈RM×N×D以及第一帧模型权值置信度张量∑1初始化,设张量f1与∑1的所有元素值为1;模型训练的方法是优化一个回归问题,即根据模型训练的目标函数,使用步骤102中提取的特征张量x1训练模型,得到训练后的第一帧模型f1;
104、获取视频的第t帧图像作为当前的跟踪对象,t=2,…,Num,Num表示图像帧总数量,根据目标在第t-1帧图像中的位置来选取目标在第t帧图像中的可能位置;设目标在第t-1帧图像中的位置为pt-1,则在第t帧图像中,选取以位置pt-1为中心,长为M宽为N的矩形区域作为目标候选区域,所述目标候选区域包括M*N个目标可能位置 表示第t帧的第i个目标可能位置;所述目标可能位置是指所述矩形区域中所有像素点;
105、对第t帧图像中的目标候选区域进行特征提取,得到特征张量xt;
106、使用第t-1帧所得模型与第t帧特征张量进行数字相关性计算,得到第t帧目标候选区域中每个像素点的响应值;选择响应值最大的像素点为第t帧目标所在位置;进入步骤107;
107、由于目标在视频中的外观会发生变化,每一帧模型都需要更新权值以保证对目标的判别能力;采用KL散度来度量第t帧需要学习的模型与第t-1帧模型之间的差异,并使其成为第t帧模型优化的约束条件,从而实现在模型优化过程中自适应模型更新,根据模型优化的目标函数得到第t帧模型ft以及第t帧模型权值置信度张量∑t;t增加1,重复步骤104-107,直到Num帧图像处理完成,实现目标跟踪。
步骤102和步骤105所述特征提取的方法如下:
S1:对原始图像进行灰度化处理,即将原始RGB三通道图像转化为单通道图像;
S2:采用gamma校正法对灰度化后的图像进行颜色空间的标准化,降低光照变化以及局部图像阴影的影响,公式如下:
I(x,y)=I(x,y)gamma
式中,I(x,y)表示坐标(x,y)处像素点的像素值,I(x,y)gamma表示对像素值的gamma次幂,gamma是常数;
S3:计算每个像素点的梯度幅值与梯度方向;
S4:将每个像素点的梯度方向离散化,并将每个像素点映射为特征向量;
S5:每k*k个像素点组成一个cell,本实施例中,k=4,把每个cell内所有像素点的特征向量相加,从而将步骤S4得到的像素级特征向量聚合成cell级的特征向量C,记为:
C(i,j),{0≤i≤[(M-1)/k],0≤j≤[(N-1)/k]}
其中,C(i,j)表示坐标为(i,j)处cell的特征向量;
S6:对步骤S5所得到的特征进行归一化:
其中,H(i,j)表示坐标为(i,j)处cell的最终特征向量,Min表示取最小值函数,Nδ,υ(i,j)是局部归一化特征向量,其计算公式如下:
Nδ,υ(i,j)=(||C(i,j)||2+||C(i+δ,j)||2+||C(i,j+υ)||2+||C(i+δ,j+υ)||2)1/2δ,υ∈{-1,1}
S7:重复步骤S5-S6,直到目标候选区域内所有cell处理完成,得到目标候选区域的特征。
步骤S3所述计算每个像素点的梯度幅值与梯度方向,方法如下:
首先获取每个像素点的横纵梯度值,采用的方法是对图像进行横纵方向的卷积:
Gx=[-1,0,1],Gy=[1,0,-1]T
其中,Gx表示水平方向滤波器,Gy表示垂直方向滤波器;卷积后得到像素点I(x,y)水平方向梯度幅值Gx(x,y)和垂直方向梯度幅值Gy(x,y),则每个像素点的梯度幅值和梯度方向分别为:
其中,G(x,y)表示像素点的梯度幅值,α(x,y)表示像素点的梯度方向。
步骤S4所述将像素点的梯度方向离散化,计算公式如下:
其中,B(x,y)表示梯度方向α(x,y)离散化后的值,p表示离散化的分段个数,round为取整函数,mod为取模函数;
将像素点映射为特征向量,方法如下:
其中,F(x,y)表示坐标(x,y)处像素点的特征向量,F(x,y)b表示特征向量F(x,y)第b维分量的值。
步骤103所述模型训练的目标函数如下:
其中,d表示张量特征的第d维通道,D表示特征共有D维通道,f1∈RM×N×D表示第一帧模型;常量矩阵y∈RM×N表示训练标签,标签值服从高斯分布,中心趋近去1,四周趋近于0;常量矩阵w∈RM×N表示模型的权值惩罚系数,符号*表示相关运算,符号·表示点积运算。
步骤106所述得到目标候选区域每个像素点的响应值,方法如下:
为了提高运算效率,对模型和特征张量进行傅里叶变换,将时域相关运算转变成频域点积运算,则目标候选区域像素点的响应值公式如下:
其中,表示第t-1帧所得模型的第d维矩阵,表示第t帧特征张量的第d维矩阵,D表示特征共有D维通道,response∈RM×N表示候选区域每个像素点的响应值矩阵;response中响应值最大的像素点所在坐标即为目标在第t帧图像中的位置pt;上标Λ表示该变量是经过傅里叶变换后的频域变量。
步骤107所述模型优化的目标函数如下:
所述KL散度公式如下:
其中,d表示张量特征的第d维通道;D表示特征共有D维通道;是第t帧目标特征的第d维矩阵降维形成的长度为M*N的向量;是第t-1帧目标特征的第d维矩阵降维形成的长度为M*N的向量;fd∈RM*N是第t帧模型的第d维矩阵降维形成的长度为M*N的向量;是第t-1帧模型的第d维矩阵降维形成的长度为M*N的向量;y表示训练标签;w表示惩罚系数;是对角矩阵,其对角线元素由第t-1帧置信度张量∑t-1第d维矩阵中所有元素组成;∑d∈RM*N×M*N是对角矩阵,其对角线元素由第t帧置信度张量∑第d维矩阵中所有元素组成;β表示对置信度的正则项系数,本实施例中,β=0.1;μ表示对模型差异的正则项系数,本实施例中,μ=15;上标-1表示矩阵求逆操作;上标T表示转置操作;det表示求矩阵的行列式;Tr表示求矩阵的迹。
步骤107所述目标函数优化过程如下:
对于公式(3),采用交替方向乘子法对目标函数进行求解:
其中,g∈RM×N×D表示模型f的辅助变量;s∈RM×N×D表示拉格朗日乘子;γ表示惩罚因子;gd∈RM*N是张量g的第d维矩阵降维形成的长度为M*N的向量;sd∈RM*N是张量s的第d维矩阵降维形成的长度为M*N的向量;
将公式(5)分解成不同变量的子问题进行迭代求解:
其中,fi+1,∑i+1,gi+1,hi+1的上标i+1表示相应变量的第i+1轮迭代的结果;每一轮模型和置信度的解为:
其中,上标Λ表示该变量是频域变量。
根据上述优化过程,将β,μ两个参数设置为0即可得到步骤103中目标函数的优化过程,并得到第一帧模型的解。
显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
Claims (9)
1.一种基于在线学习的目标跟踪方法,其特征在于:该方法包括以下步骤:
步骤1:根据视频第一帧图像给出的目标初始状态,确定目标初始位置p1以及下一帧中的目标候选区域;所述目标候选区域是指以目标初始位置p1为中心,长为M,宽为N的矩形区域;
步骤2:对步骤1所述目标候选区域进行特征提取,得到特征张量x1∈RM×N×D,其中,RM×N×D表示特征的维度;
步骤3:每帧图像各对应一个模型,所述模型是与特征张量x1维度相同的权值张量,并且是判断一个区域是否为目标的滤波器;对第一帧模型f1∈RM×N×D以及第一帧模型权值置信度张量∑1初始化,设张量f1与∑1的所有元素值为1;根据模型训练的目标函数,使用步骤2中提取的特征张量x1训练模型,得到训练后的第一帧模型f1;
步骤4:获取视频的第t帧图像作为当前的跟踪对象,t=2,…,Num,Num表示图像帧总数量,根据目标在第t-1帧图像中的位置来选取目标在第t帧图像中的可能位置;设目标在第t-1帧图像中的位置为pt-1,则在第t帧图像中,选取以位置pt-1为中心,长为M宽为N的矩形区域作为目标候选区域,所述目标候选区域包括M*N个目标可能位置 表示第t帧的第i个目标可能位置;所述目标可能位置是指所述矩形区域中所有像素点;
步骤5:对第t帧图像中的目标候选区域进行特征提取,得到特征张量xt;
步骤6:使用第t-1帧所得模型与第t帧特征张量进行数字相关性计算,得到第t帧目标候选区域中每个像素点的响应值;选择响应值最大的像素点为第t帧目标所在位置;进入步骤7;
步骤7:每一帧模型都需要更新权值以保证对目标的判别能力;采用KL散度来度量第t帧需要学习的模型与第t-1帧模型之间的差异,并使其成为第t帧模型优化的约束条件,从而实现在模型优化过程中自适应模型更新,根据模型优化的目标函数得到第t帧模型ft以及第t帧模型权值置信度张量∑t;t增加1,重复步骤4-7,直到Num帧图像处理完成,实现目标跟踪。
2.根据权利要求1所述的一种基于在线学习的目标跟踪方法,其特征在于:步骤2和步骤5所述特征提取的方法如下:
S1:对原始图像进行灰度化处理,即将原始RGB三通道图像转化为单通道图像;
S2:采用gamma校正法对灰度化后的图像进行颜色空间的标准化,降低光照变化以及局部图像阴影的影响,公式如下:
I(x,y)=I(x,y)gamma
式中,I(x,y)表示坐标(x,y)处像素点的像素值,I(x,y)gamma表示对像素值的gamma次幂,gamma是常数;
S3:计算每个像素点的梯度幅值与梯度方向;
S4:将每个像素点的梯度方向离散化,并将每个像素点映射为特征向量;
S5:每k*k个像素点组成一个cell,把每个cell内所有像素点的特征向量相加,从而将步骤S4得到的像素级特征向量聚合成cell级的特征向量C,记为:
C(i,j),{0≤i≤[(M-1)/k],0≤j≤[(N-1)/k]}
其中,C(i,j)表示坐标为(i,j)处cell的特征向量;
S6:对步骤S5所得到的特征进行归一化:
其中,H(i,j)表示坐标为(i,j)处cell的最终特征向量,Min表示取最小值函数,Nδ,υ(i,j)是局部归一化特征向量,其计算公式如下:
Nδ,υ(i,j)=(||C(i,j)||2+||C(i+δ,j)||2+||C(i,j+υ)||2+||C(i+δ,j+υ)||2)1/2δ,v∈{-1,1}
S7:重复步骤S5-S6,直到目标候选区域内所有cell处理完成,得到目标候选区域的特征。
7.根据权利要求1所述的一种基于在线学习的目标跟踪方法,其特征在于:步骤7所述模型优化的目标函数如下:
所述KL散度公式如下:
其中,d表示张量特征的第d维通道;D表示特征共有D维通道;是第t帧目标特征的第d维矩阵降维形成的长度为M*N的向量;是第t-1帧目标特征的第d维矩阵降维形成的长度为M*N的向量;fd∈RM*N是第t帧模型的第d维矩阵降维形成的长度为M*N的向量;是第t-1帧模型的第d维矩阵降维形成的长度为M*N的向量;y表示训练标签;w表示惩罚系数;是对角矩阵,其对角线元素由第t-1帧置信度张量∑t-1第d维矩阵中所有元素组成;∑d∈RM*N×M*N是对角矩阵,其对角线元素由第t帧置信度张量∑第d维矩阵中所有元素组成;β表示对置信度的正则项系数;μ表示对模型差异的正则项系数;上标-1表示矩阵求逆操作;上标T表示转置操作;det表示求矩阵的行列式;Tr表示求矩阵的迹。
8.根据权利要求7所述的一种基于在线学习的目标跟踪方法,其特征在于:步骤7所述目标函数优化过程如下:
对于公式(3),采用交替方向乘子法对目标函数进行求解:
其中,g∈RM×N×D表示模型f的辅助变量;s∈RM×N×D表示拉格朗日乘子;γ表示惩罚因子;gd∈RM*N是张量g的第d维矩阵降维形成的长度为M*N的向量;sd∈RM*N是张量s的第d维矩阵降维形成的长度为M*N的向量;
将公式(5)分解成不同变量的子问题进行迭代求解:
其中,fi+1,∑i+1,gi+1,hi+1的上标i+1表示相应变量的第i+1轮迭代的结果;每一轮模型和置信度的解为:
其中,上标Λ表示该变量是频域变量。
9.根据权利要求8所述的一种基于在线学习的目标跟踪方法,其特征在于:根据所述优化过程,将β,μ两个参数设置为0即可得到步骤3中目标函数的优化过程,并得到第一帧模型的解。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910509325.5A CN110335289B (zh) | 2019-06-13 | 2019-06-13 | 一种基于在线学习的目标跟踪方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910509325.5A CN110335289B (zh) | 2019-06-13 | 2019-06-13 | 一种基于在线学习的目标跟踪方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN110335289A CN110335289A (zh) | 2019-10-15 |
CN110335289B true CN110335289B (zh) | 2022-08-05 |
Family
ID=68140317
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910509325.5A Active CN110335289B (zh) | 2019-06-13 | 2019-06-13 | 一种基于在线学习的目标跟踪方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110335289B (zh) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111476821B (zh) * | 2020-04-03 | 2022-08-05 | 河海大学 | 基于在线学习的目标跟踪方法 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106570486A (zh) * | 2016-11-09 | 2017-04-19 | 华南理工大学 | 基于特征融合和贝叶斯分类的核相关滤波目标跟踪方法 |
WO2018086607A1 (zh) * | 2016-11-11 | 2018-05-17 | 纳恩博(北京)科技有限公司 | 一种目标跟踪方法及电子设备、存储介质 |
CN108876816A (zh) * | 2018-05-31 | 2018-11-23 | 西安电子科技大学 | 基于自适应目标响应的目标跟踪方法 |
CN109859242A (zh) * | 2019-01-16 | 2019-06-07 | 重庆邮电大学 | 一种预测自适应学习的目标跟踪方法 |
-
2019
- 2019-06-13 CN CN201910509325.5A patent/CN110335289B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106570486A (zh) * | 2016-11-09 | 2017-04-19 | 华南理工大学 | 基于特征融合和贝叶斯分类的核相关滤波目标跟踪方法 |
WO2018086607A1 (zh) * | 2016-11-11 | 2018-05-17 | 纳恩博(北京)科技有限公司 | 一种目标跟踪方法及电子设备、存储介质 |
CN108876816A (zh) * | 2018-05-31 | 2018-11-23 | 西安电子科技大学 | 基于自适应目标响应的目标跟踪方法 |
CN109859242A (zh) * | 2019-01-16 | 2019-06-07 | 重庆邮电大学 | 一种预测自适应学习的目标跟踪方法 |
Also Published As
Publication number | Publication date |
---|---|
CN110335289A (zh) | 2019-10-15 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108549839B (zh) | 自适应特征融合的多尺度相关滤波视觉跟踪方法 | |
CN108256562B (zh) | 基于弱监督时空级联神经网络的显著目标检测方法及系统 | |
CN109766898B (zh) | 图像文字识别方法、装置、计算机设备及存储介质 | |
CN108776975B (zh) | 一种基于半监督特征和滤波器联合学习的视觉跟踪方法 | |
CN111080675B (zh) | 一种基于时空约束相关滤波的目标跟踪方法 | |
Jiang et al. | Multilayer spectral–spatial graphs for label noisy robust hyperspectral image classification | |
CN109410247A (zh) | 一种多模板和自适应特征选择的视频跟踪算法 | |
CN110163239B (zh) | 一种基于超像素和条件随机场的弱监督图像语义分割方法 | |
US9697614B2 (en) | Method for segmenting and tracking content in videos using low-dimensional subspaces and sparse vectors | |
Chen et al. | Face alignment with kernel density deep neural network | |
CN110008844B (zh) | 一种融合slic算法的kcf长期手势跟踪方法 | |
CN107688829A (zh) | 一种基于支持向量机的识别系统及识别方法 | |
CN113052873B (zh) | 一种在线自监督学习场景适应的单目标跟踪方法 | |
CN110889865B (zh) | 一种基于局部加权稀疏特征选择的视频目标跟踪方法 | |
CN110084201B (zh) | 一种监控场景下基于特定目标跟踪的卷积神经网络的人体动作识别方法 | |
CN114155443B (zh) | 一种基于多感受野图注意力网络的高光谱图像分类方法 | |
CN115937254B (zh) | 一种基于半监督学习的多空中飞行目标跟踪方法和系统 | |
CN109509191A (zh) | 一种图像显著性目标检测方法及系统 | |
CN108846850B (zh) | 一种基于tld算法的目标跟踪方法 | |
CN111274964A (zh) | 一种基于无人机视觉显著性分析水面污染物的检测方法 | |
CN110827327B (zh) | 一种基于融合的长期目标跟踪方法 | |
CN110503090B (zh) | 基于受限注意力模型的字符检测网络训练方法、字符检测方法和字符检测器 | |
CN110335289B (zh) | 一种基于在线学习的目标跟踪方法 | |
Silva et al. | Online weighted one-class ensemble for feature selection in background/foreground separation | |
CN114882534A (zh) | 基于反事实注意力学习的行人再识别方法、系统、介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |