CN106447696B - 一种基于双向sift流运动评估的大位移目标稀疏跟踪方法 - Google Patents
一种基于双向sift流运动评估的大位移目标稀疏跟踪方法 Download PDFInfo
- Publication number
- CN106447696B CN106447696B CN201610863484.1A CN201610863484A CN106447696B CN 106447696 B CN106447696 B CN 106447696B CN 201610863484 A CN201610863484 A CN 201610863484A CN 106447696 B CN106447696 B CN 106447696B
- Authority
- CN
- China
- Prior art keywords
- target
- msub
- mrow
- tracking
- frame
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 230000033001 locomotion Effects 0.000 title claims abstract description 79
- 238000006073 displacement reaction Methods 0.000 title claims abstract description 69
- 238000011156 evaluation Methods 0.000 title claims abstract description 14
- 238000000034 method Methods 0.000 claims abstract description 58
- 239000011159 matrix material Substances 0.000 claims abstract description 22
- 238000001914 filtration Methods 0.000 claims abstract description 14
- 239000013598 vector Substances 0.000 claims description 22
- 230000002457 bidirectional effect Effects 0.000 claims description 19
- 238000005516 engineering process Methods 0.000 claims description 17
- 238000005457 optimization Methods 0.000 claims description 12
- 238000005070 sampling Methods 0.000 claims description 11
- 238000007476 Maximum Likelihood Methods 0.000 claims description 7
- 238000010276 construction Methods 0.000 claims description 4
- 238000000354 decomposition reaction Methods 0.000 claims description 4
- 230000003287 optical effect Effects 0.000 claims description 4
- OAICVXFJPJFONN-UHFFFAOYSA-N Phosphorus Chemical compound [P] OAICVXFJPJFONN-UHFFFAOYSA-N 0.000 claims description 3
- 230000007246 mechanism Effects 0.000 abstract description 4
- 230000006870 function Effects 0.000 description 12
- 238000011160 research Methods 0.000 description 8
- 230000000694 effects Effects 0.000 description 4
- 238000010586 diagram Methods 0.000 description 3
- 230000008569 process Effects 0.000 description 3
- 241000282994 Cervidae Species 0.000 description 2
- 230000008859 change Effects 0.000 description 2
- 238000001514 detection method Methods 0.000 description 2
- 238000013209 evaluation strategy Methods 0.000 description 2
- 230000002159 abnormal effect Effects 0.000 description 1
- 230000003044 adaptive effect Effects 0.000 description 1
- 230000006399 behavior Effects 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000012937 correction Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 230000001419 dependent effect Effects 0.000 description 1
- 230000007613 environmental effect Effects 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 238000005290 field theory Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000012797 qualification Methods 0.000 description 1
- 238000011002 quantification Methods 0.000 description 1
- 238000011158 quantitative evaluation Methods 0.000 description 1
- 238000012546 transfer Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/10—Image acquisition modality
- G06T2207/10016—Video; Image sequence
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20081—Training; Learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/30—Subject of image; Context of image processing
- G06T2207/30232—Surveillance
Landscapes
- Image Analysis (AREA)
Abstract
本发明公开了一种基于双向SIFT流运动评估的大位移目标稀疏跟踪方法,其步骤如下:初始化字典;采用双向SIFT流技术评估目标运动位移:对相邻两帧图像中的所有像素点采用SIFT流技术进行特征匹配,采用点轨迹滤波机制,建立跟踪目标中像素点的可靠运动轨迹集合,依据可靠点对的集合,确定跟踪目标的运动状态;获取观测样本集合;依据稀疏表示理论,计算稀疏外观模型的稀疏系数矩阵;获得观测样本的重构误差;字典模板更新;重复上述操作实现大位移运动目标的跟踪。本发明对动态摄像机下目标存在帧间运动大位移时能够有效地实现持续性跟踪,实现了帧间存在大运动位移目标的精确跟踪,提高了在复杂场景下跟踪的适应能力。
Description
技术领域
本发明涉及动态摄像机下视频目标持续跟踪的技术领域,尤其涉及一种基于双向SIFT流运动评估的大位移目标稀疏跟踪方法。
背景技术
在传统视频跟踪方法研究中,大部分研究者给定了一个运动平滑性假设条件,也就是说目标在视频帧间的运动变化是连续且光滑的。然而,在实际跟踪场景中,往往会因为摄像机视野切换或晃动、视频帧被抽取、目标快速运动和低帧率视频采集等客观因素的存在,导致目标在视频帧间产生了大的运动位移,破坏了传统研究方法的假定条件,引起现有大量目标跟踪算法的执行失败。为了适应跟踪目标这种异常的运动行为,保证算法能够持续地跟踪兴趣目标,必须提出一种新的视频目标跟踪算法。
针对上述问题,很多研究者提出了一些研究思路:(1)基于检测方法的目标跟踪,旨在利用检测手段搜索整个状态空间以覆盖不同的运动位移,这类方法的优点是能够在特定的场景下适应大位移运动目标的跟踪问题,但其易遭遇局部最优化问题,而且扩大的搜索范围会导致大量的背景信息有待处理,如果出现背景复杂的场景跟踪这类方法容易失败;(2)基于多尺度和分层策略的目标跟踪,旨在利用多尺度和分层策略使得目标运动在高尺度或高层空间下再次满足平滑性条件;这类方法的优点是简单易操作,但其适合于目标帧间运动位移不太大的情况下,而且严重依赖分解的层数或尺度数目;(3)基于多运动模型的目标跟踪,旨在通过预先设计的运动模型并借助其能够容忍各种运动位移量而实现有效跟踪,这类方法的优点是直接从目标运动入手能够精确实现不确定运作状态的评估,但是该类方法严重依赖精确的运动模型,在现实中因为目标运动的不确定性其难以广义化;(4)基于马尔科夫链蒙特卡罗(Markov-chain Monte Carlo,MCMC)的目标跟踪,旨在通过不同的重要性采样方法提供能够覆盖目标所有运动状态以解决目标的大位移运动问题。该类方法的优点是能够处理目标的多模态分布和目标丢失再跟踪的问题,但该类方法需要先验信息,而且容易陷入局部最优化。
因此,研究一种基于双向SIFT流运动评估的目标稀疏跟踪新方法,能够直接从帧间运动场出发评估目标运动位移的程度,不需要任何先验信息;能够避免局部陷入问题,这将给大 位移目标持续性跟踪方法研究指引一个新的研究方向;通过对该技术的深入研究能够尽可能地减少目标持续性跟踪技术的约束条件,大大促进跟踪方法的实际应用化进程。
发明内容
为了解决上述技术问题,本发明提出了一种基于双向SIFT流运动评估的大位移目标稀疏跟踪方法,将扩展SIFT流方法引入到视频目标跟踪问题中,结合稀疏外观表示理论通过在线学习实现外观模型的实时更新,对动态摄像机下目标存在帧间运动大位移时能够有效地实现持续性跟踪,实现了帧间存在大运动位移目标的精确跟踪,提高了在复杂场景下跟踪的适应能力。
为了达到上述目的,本发明的技术方案是:将SIFT流方法引入到跟踪问题中,提出双向SIFT流运动评估方法,利用其特性可以实现对目标帧间的大运动位移进行预测;采用稀疏表示理论描述目标外观,有效地提高了外观模型对部分遮挡和光线变化等环境因素的容忍度;观测样本采样有效性的提高,能够构建良好的字典矩阵,再通过字典学习,保证了外观模型的鲁棒性。本发明中提出的双SIFT流运动评估策略,能够保证目标帧间产生大位移时,获得好的观测样本集合,从而跟踪能够适应目标在帧间存在大运动位移的情况。
一种基于双向SIFT流运动评估的大位移目标稀疏跟踪方法,其步骤如下:
步骤1:初始化字典:读取第一帧图像数据信息以及目标在第一帧内给定的状态参数,在目标初始位置处稠密采样产生目标模板T1,T2,…,Tn,选择单位矩阵Im作为琐屑模板,将琐屑模板压缩为G*J的大小,再拉伸为m维列向量,构造初始的字典其中,DT表示字典模板,Tj表示第j个目标的正样本,j=1,…,n,n表示模板的数目,G和J分别表示琐屑模板的宽度和高度,m表示向量的维数,表示实数域;
步骤2:采用双向SIFT流技术评估目标运动位移:新一帧图像到来时,依据双向SIFT流技术评估目标在上一帧图像和新一帧图像之间的运动位移量,其包括的主要内容为:
(1)对相邻两帧图像中的所有像素点采用SIFT流技术进行特征匹配,相邻两帧图像中的所有像素点匹配问题转换成采用置信度传播方法求解下式的最优化问题:
其中,wk(p)=(uk(p),vk(p))是像素点p=(x,y)从第k-1到k帧的位移向量,u,v分别表示水平和垂直方向,x,y表示点p在图像中的坐标值,sk(p)是像素点p在第k帧图像内的SIFT 特征向量;N表示在构建马尔科夫随机场时邻域结构边的数目,α是一个像素在两帧间运动位移量的惩罚因子,β表示代价项的增长率,d是一个截断因子,p,q分别表示第k-1帧和k帧中对应的两个像素点;
(2)依据目标在第k-1帧内的状态信息,获得目标所组成的像素点集合采用SIFT流算法获得像素点集合在第k帧图像中的预测点集合 再对预测点集合中所有点做反方向的SIFT流算法处理;依据SIFT流前后一致性评估参数ErorFB,对预测点集合进行滤波,获得可靠像素点集合Pk,同时获得k-1帧内相匹配的点的集合Pk-1,构建帧间目标上的可靠匹配像素点对集合预测点集合的滤波准则如下:
当ErorFB≤ThFB时,该像素点保留,否则,该像素点滤除;
其中,表示k-1帧目标包含的像素点的集合,表示在第k帧内对应的预测点的集合,表示对集合进行滤波后跟踪目标所包含的像素点集合,表示集合Pk在k-1帧图像内对应的像素点的集合,m表示像素点的数目;ThFB为置信度传播方法对像素点进行前后一致性评估所能够容忍的最大误差阈值;
(3)依据可靠匹配像素点对集合Pk,k-1确定跟踪目标在帧间的运动状态:下一帧内目标的位移量通过可靠点对之间位移量的中值获得,目标的尺度通过前后两帧内两点间距离比值的中值确定,目标的宽度和高度通过上帧内目标尺寸和尺度值共同确定;
步骤3:获取观测样本集合:对新的一帧图像,依据步骤2的运动评估策略获得新一帧图像中目标的预测状态,对其进行高斯采样获得候选样本集合,同样将这些候选样本压缩为G*J的大小,再拉伸为m维列向量,构造观测矩阵Y=[y1,…,yl],其中y1,…,yl为观测样本,l为候选样本模板的个数;
步骤4:观测样本的一般线性表示形式:
yi=DTαi+ε=αi1d1+αi2d2+…+αindn+εi,i=1,2,…,l;
其中,DT=[d1,d2…dn]是正样本构造的字典模板,εi表示残差项,αi=[αi1,αi2,…,αin]是第i个观测样本的线性表示的分解系数;
步骤5:依据稀疏表示理论,计算稀疏外观模型的稀疏系数矩阵,系数αi的求解可以转换成以下的最小化问题:
通过L1范数最小化方式对上式进行求解;
其中,||·||2和||·||1分别代表2范数和1范数,λ为正则化因子;
步骤6:获得观测样本的重构误差:结合步骤5求解出来的系数αi和字典DT,求解每个观测模板在这种外观模型表示下的重构误差值:
选择重构误差最小的观测样本[x,y,width,high]作为目标的跟踪结果;其中,width,high分别表示跟踪目标的宽度和高度;
构建似然函数,确定最佳候选样本:依据获得的稀疏系数计算每个观测样本yi的重构误差,建立似然函数来说明观测样本是跟踪目标的可能性,似然函数表示为exp(-Π*ei),Π表示比例因子;利用最大似然函数估计,获得最佳的目标候选样本作为跟踪结果;
步骤7:字典模板DT更新:依据置信度阈值方法确定字典模板的更新形式;
重复步骤2-7的操作实现大位移运动目标的跟踪。
所述置信度阈值方法为:利用似然函数exp(-Π*ei)的最大似然估计的似然值与预先设定的置信度阈值进行比较,如果大于置信度阈值说明跟踪结果较优,则将其作为基样本进行采样以更新字典模板。
所述SIFT流算法的步骤:(1)对相邻帧的图像像素点提取SIFT特征;(2)将SIFT特征融入到光流运动评估框架中,将点匹配问题转化成最优化求解问题;(3)获得像素点p=(x,y)从第k-1到k帧的位移向量wk(p)=(uk(p),vk(p))。
本发明的有益效果:直接从跟踪目标视频帧间SIFT流场出发评估运动位移,无需先验知识,能够获得全局最优的像素点匹配效果,却具有局部最优化的运行效率。通过双SIFT流技术对目标帧间位移量进行一个评估,能够弥补传统跟踪方法无法适应这样问题的不足。再结合稀疏表示理论,使得跟踪方法能够对目标部分遮挡的问题。同时采用字典学习方法提高了目标外观模型的适应能力,使得此方法能够很好适应目标的帧间大位移运动问题,为后续对跟踪目标的识别、理解和分析具有重要意义。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明的系统流程图。
图2为本发明视频图像帧间SIFT流场示意图。
图3为本发明基于双向SIFT流场一致性评估的点轨迹滤波示意图。
图4为本发明与其他算法的中心误差比较示意图。
图5为本发明与其他算法的跟踪效果示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有付出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本发明的思想在于:(1)将扩展的SIFT流技术引入到跟踪问题,给大位移运动目标跟踪算法研究指出一个新的研究思路;(2)基于SIFT流技术能够兼顾SIFT特征匹配和光流技术的优点,提出双向SIFT流场一致性评估方法实现对跟踪目标帧间的运动位移量进行有效预测;(3)采用稀疏表示理论描述目标特征,通过在线学习策略实时更新目标外观模型,从而实现大位移运动目标的持续性跟踪。
本发明用于实施的硬件环境:Intel(R)Core(TM)i3 CPU 3.2G计算机、4GB内存、1G显卡,运行的软件环境是:Matlab R20012a和Windows 7,实验数据库来自AVSS2007、实验室拍摄的视频和吴毅老师公布的数据库。
如图1所示,本发明实施例提供了一种基于双向SIFT流运动评估的大位移目标稀疏跟踪方法,其步骤如下:
步骤1:初始化字典:读取第一帧图像数据信息以及目标在第一帧内给定的状态参数,在目标初始位置处稠密采样产生目标模板T1,T2,…,Tn,选择单位矩阵Im作为琐屑模板,将琐屑模板压缩为G*J的大小,G和J分别表示琐屑样本的宽度和高度;再拉伸为m维列向量,m表示向量的维数,构造初始的字典 表示实数域;其中,Tj表示第j个目标正样本,j=1,…,n,n表示模板的数目。
给定跟踪目标状态信息,通过紧密采样获得目标正样本T1,T2,…,T10(数目为10),将其压缩成12×15尺寸的模板,并分别转换成180×1的列向量,形成样本矩阵T180×10,构造180×180的琐屑模板矩阵I180×180,形成180×190尺寸的字典D=[T180×10 I180×180]。
步骤2:采用双向SIFT流技术评估目标运动位移:新一帧图像到来时,依据双向SIFT流 技术评估目标在上一帧图像和新一帧图像之间的运动位移量。
因为传统很多方法不能适应目标的帧间大位移运动问题,本发明将SIFT流技术引入跟踪问题,采用双SIFT流运动评估方法实现对目标在帧间形成的大位移程度的进行估计,具体过程有以下三步:
(1)对相邻两帧图像中的所有像素点采用SIFT流技术进行特征匹配,相邻两帧图像中的所有像素点匹配问题转换成采用置信度传播方法求解下式的最优化问题:
其中,wk(p)=(uk(p),vk(p))是像素点p=(x,y)从第k-1到k帧的位移向量,Ek(·)为能量函数;u,v分别表示水平和垂直方向,x,y表示点p在图像中的坐标值,sk(p)是像素点p在第k帧图像内的SIFT特征向量;N表示在构建马尔科夫随机场时邻域结构边的数目,α是一个像素在两帧间运动位移量的惩罚因子,β表示代价项的增长率,d是一个截断因子,p,q分别表示第k-1帧和k帧中对应的两个像素点。
上述优化问题采用基于马尔科夫随机场理论的置信度传播BP(BeliefPropagation)方法来求解,这种方法能达到全局最优,而且运行效率近似于局部方法。采用BP算法求解获得相邻两帧图像内所有像素点的位移关系,建立目标在帧间的SIFT流场。
本发明中α=300,β=0.5,d=3。在置信度传播理论中,采用消息传递机制实现最优化,像素点间的消息按下式计算:
其中,Dp(wp)为像素点自身数据的代价项,V(wp,wq)为像素点间的不连续代价项,N(p)\q代表着除了q像素点外的p邻域系统,表示点p的邻域系统的中点s向其传递的消息大小;经过T次迭代运算每个像素对应的置信度计算如下:
其中,bq(wq)表示点q与点p匹配程度的置信度值,表示点q与点p之间传递的消息,迭代的数目必须保证置信度传播方法在图模型上收敛。这种情况下,迭代的消息传递机制收敛到像素点最有可能对应的离散标签值。当满足收敛条件后,t表示迭代的 次数,每个像素的标签值被选择,像素点依据最大置信度值确定其在图像中的位置,本发明迭代次数为5,邻域系统选择4邻域,即:N=4。如图2(a)中的每个像素都与其在图2(b)中所匹配的像素间产生一个(Δx,Δy)的位移量,依据这些变化量形成了如图2(c)中所示的SIFT流场,称其为目标帧间的运动场,由图2(c)可以看出目标的整体运动趋势。
(2)依据目标在第k-1帧内的状态信息,获得目标所组成的像素点集合采用SIFT流算法获得像素点集合在第k帧图像中的预测点集合 再对预测点集合中所有点进行反向的SIFT流算法处理;依据SIFT流前后一致性评估参数ErorFB,对预测点集合进行滤波,获得可靠像素点集合Pk,同时获得k-1帧内相匹配的点的集合Pk-1,构建帧间目标上的可靠匹配像素点对集合预测点集合的滤波准则如下:
当ErorFB≤ThFB时,该像素点保留,否则,该像素点滤除;
其中,表示k-1帧目标包含的像素点的集合,表示在第k帧内对应的预测点的集合,表示对进行滤波后跟踪目标所包含的像素点集合,表示集合Pk在k-1帧图像内对应的像素点的集合,m表示像素点的数目;ThFB为置信度传播方法对像素点进行前后一致性评估所能够容忍的最大误差阈值;
具体地,采用点轨迹滤波机制,建立跟踪目标中像素点的可靠运动轨迹集合。设定S=(I1,I2…,Ik)是一个图像序列,I1,I2…,Ik表示图像序列,k表示图像的帧数,如图2所示,pk是k时刻图像中的一个像素点位置,使用SIFT流算法获得点pk在k+1帧图像中的匹配点pk+1,从而形成点的前向运动轨迹然后,对点pk+1采用SIFT流算法获得其在k时刻图像中的匹配点从而形成点的后向运动轨迹如果不存在跟踪误差,和pk将会完全重合。
现定义FB误差为和的欧几里得距离,计算公式为它描述了双向流场的一致性程度,误差值越小说明前后项一致性程度越高,则点的运动轨迹越可靠;反之,则说明预测到的点的运动轨迹可能错误。利用所有像素点帧间的FB误差值构建图像序列帧间的误差流场,依据误差流场的中值确定阈值ThFB,依据以下准则对可靠点轨迹进行提炼:如果则相应点对形成的轨迹保留;如果则相应点对形成的轨迹滤除。
如图3所示,第k帧图像中跟踪目标上点pk与它在k+1帧图像中的预测点pk+1形成前向 轨迹同类,第k+1帧图像中的点pk+1与它在k帧图像中的预测点形成后向轨迹图2中明显看出前后轨迹偏差较大,因此滤波这一不可靠的点对(pk,pk+1);对所有点采用相同的操作,获得滤波后的可靠点对集合。
所述SIFT流算法的步骤:(1)对相邻帧的图像像素点提取SIFT特征;(2)将SIFT特征融入到光流运动评估框架下,将点匹配问题转化成最优化求解问题;(3)获得像素点p=(x,y)从第k-1到k帧的位移向量wk(p)=(uk(p),vk(p))。
(3)依据可靠匹配像素点对集合Pk,k-1确定跟踪目标在帧间的运动状态。下一帧内目标的位移量通过可靠点对之间位移量的中值获得,目标的尺度通过前后两帧内两点间距离比值的中值确定,目标的宽度和高度通过上帧内目标尺寸和尺度值共同确定。
经过第(2)和(3)步的操作,跟踪目标上的稠密点集合及预测稠密点集合得到提炼,获得可靠匹配像素点对集合跟踪目标状态X=[x,y,width,high,scale]T,分别按照以下方式确定各个参数:
A、跟踪目标位置Z的确定:
假定点位移矢量为z=[x,y]T,依据第2步的帧间运动流场图,可以获得可靠匹配像素点对集合Pk,k-1中所有点对之间的运动关系,用描述第i对可靠点之间的关系,运动矢量形成的集合为其数目与可靠点集合中点对数目一致,则跟踪目标的位置矢量Zk被确定如下:
其中,m是受轨迹滤波和校正策略影响而自适应确定,但是m必须保证数目大于20,否则目标状态很难保证正确。
B、跟踪目标尺度scale的确定:
首先从可靠匹配像素点对集合Pk,k-1随即选取点对,数目为g=m/2,分别计算第k和k-1帧图像中随机选取的点的距离:
其中,(x,y)为点的坐标值,建立可靠点的距离集合和则目标的尺度scale被确定如下:
跟踪目标的宽度width和高度high被确定如下:
widthk=widthk-1×scalek
highk=highk-1×scalek。
经过(1)-(3)步骤的操作,跟踪目标在帧间的运动位移会被确定,也就是说获得了跟踪目标在下一帧可能出现的预测位置。
步骤3:获取观测样本集合:对新的一帧图像,依据步骤2的运动评估策略获得新一帧图像中目标的预测状态,对其进行高斯采样获得候选样本集合,同样将这些候选样本压缩为G*J的大小,再拉伸为m维列向量,构造观测矩阵Y=[y1,…,yl],其中y1,…,yl为观测样本,l为候选样本模板的个数。
利用双SIFT流技术对目标在下一帧位置进行预测后,采用高斯采样获得候选样300个,将其压缩为12×15大小的样本,同样将每个样本拉伸为180×1维的列向量,构造由候选样本组成的观测矩阵Y=[y1,…,yl],yi为180×1维的列向量,i=1,2,…,300为候选样本的数目。
步骤4:观测样本的一般线性表示形式:
yi=DTαi+ε=αi1d1+αi2d2+…+αindn+εi,i=1,2,…,l;
其中,DT=[d1,d2…dn]是正样本构造的字典,εi表示残差项,αi=[αi1,αi2,…,αin]是第i个观测样本的线性表示的分解系数;
步骤5:依据稀疏表示理论,计算稀疏外观模型的稀疏系数矩阵,系数αi的求解可以转换成以下的最小化问题:
通过L1范数最小化方式对上式进行求解;
其中,||·||2和||·||1分别代表2范数和1范数,λ为正则化因子。
利用观测样本矩阵Y180×300和字典矩阵D180×190求解稀疏系数矩阵,300表示观测样本的数目。字典矩阵D180×190由模板矩阵T180×10和识别矩阵I180×180构成。通过LASSO算法对上述最小化问题求解,λ=0.01,获得稀疏系数矩阵α。
步骤6:获得观测样本的重构误差:结合步骤5求解出来的稀疏系数矩阵α和字典DT,求解每个观测模板在这种外观模型表示下的重构误差值:
选择重构误差最小的观测样本[x,y,width,high]作为目标的跟踪结果;其中,width,high分别表示观测样本的宽和高。
构建似然函数,确定最佳候选样本:依据获得的稀疏系数计算每个观测样本yi的重构误差,建立似然函数来说明观测样本是跟踪目标的可能性,似然函数表示为exp(-Π*ei),Π=30。利用最大似然函数估计,获得最佳的目标候选样本作为跟踪结果。
步骤7:字典模板DT更新:依据置信度阈值方法确定字典模板的更新形式。
动态场景下目标的运动和摄像机的转动会使跟踪目标的外观特征发生变化,字典模板的更新能够保证目标跟踪的持续性。跟踪过程中对模板库中的目标模式进行每5帧更新一次,更新准则依据此5帧内具有获得最大似然估计值的跟踪结果去动态替换模板库中与其相似程度最小的模板。
置信度阈值方法为:利用重构误差建立似然函数exp(-Π*ei),其值反映了观测样本对应的目标稀疏表示的重构误差大小。似然函数的值越小,说明它的稀疏表示越可靠。利用最大似然估计,获得此刻的最大跟踪结果。将此似然值与预先设定的置信度阈值进行比较,如果大于置信度阈值说明跟踪结果较优,则将其作为基样本进行采样以更新字典模板。
重复步骤2-7的操作实现大位移运动目标的跟踪。
本发明采用了定量和定性两种评价方式,定量评价方式采用中心位置误差率(Center Location Error,CLE)来评价。中心位置误差是计算估计目标的中心位置和真实位置之间的平均欧氏距离,一般其值越小说明跟踪结果比较优。图4是本发明的方法与代表性跟踪算法CT,IVT、L1T、VTD和WMILT的比较结果。定性评价方式采用本发明和各种代表性方法在特殊帧上的跟踪效果图,如图5所示。
如图5分别所示的三个视频Deer、Face1和Face2,第一个视频Deer中目标在水平方向的帧间运动位移达到44个像素,第二个Face1和第三个Face2视频中目标在垂直方向上的帧间运动位移分别达到了39和88个像素,这些帧间大位移的产生使得其它跟踪算法均表现出不适应,本发明提出的方法获得了好的跟踪效果。综合图4和图5结果可知,本发明提供的目标跟踪方法能够很好地解决目标帧间运动大位移问题,获得了较好地跟踪表现。
以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
Claims (3)
1.一种基于双向SIFT流运动评估的大位移目标稀疏跟踪方法,其特征在于,其步骤如下:
步骤1:初始化字典:读取第一帧图像数据信息以及目标在第一帧内给定的状态参数,在目标初始位置处稠密采样产生目标模板T1,T2,…,Tn,选择单位矩阵Im作为琐屑模板,将琐屑模板压缩为G*J的大小,再拉伸为m维列向量,构造初始的字典其中,DT表示字典模板,Tj表示第j个目标的正样本,j=1,…,n,n表示模板的数目,G和J分别表示琐屑模板的宽度和高度,m表示向量的维数,表示实数域;
步骤2:采用双向SIFT流技术评估目标运动位移:新一帧图像到来时,依据双向SIFT流技术评估目标在上一帧图像和新一帧图像之间的运动位移量,其包括的内容为:
(1)对相邻两帧图像中的所有像素点采用SIFT流技术进行特征匹配,相邻两帧图像中的所有像素点匹配问题转换成采用置信度传播方法求解下式的最优化问题:
<mfenced open = "" close = "">
<mtable>
<mtr>
<mtd>
<mrow>
<msub>
<mi>E</mi>
<mi>k</mi>
</msub>
<mrow>
<mo>(</mo>
<mrow>
<msub>
<mi>w</mi>
<mi>k</mi>
</msub>
<mrow>
<mo>(</mo>
<mi>p</mi>
<mo>)</mo>
</mrow>
</mrow>
<mo>)</mo>
</mrow>
<mo>=</mo>
<munder>
<mi>&Sigma;</mi>
<mi>p</mi>
</munder>
<mo>|</mo>
<mo>|</mo>
<msub>
<mi>s</mi>
<mi>k</mi>
</msub>
<mrow>
<mo>(</mo>
<mi>p</mi>
<mo>)</mo>
</mrow>
<mo>-</mo>
<msub>
<mi>s</mi>
<mrow>
<mi>k</mi>
<mo>-</mo>
<mn>1</mn>
</mrow>
</msub>
<mrow>
<mo>(</mo>
<mi>p</mi>
<mo>)</mo>
</mrow>
<mo>|</mo>
<msub>
<mo>|</mo>
<mn>1</mn>
</msub>
<mo>+</mo>
<mn>1</mn>
<mo>/</mo>
<msup>
<mi>&alpha;</mi>
<mn>2</mn>
</msup>
<munder>
<mi>&Sigma;</mi>
<mi>p</mi>
</munder>
<mrow>
<mo>(</mo>
<mrow>
<msubsup>
<mi>u</mi>
<mi>k</mi>
<mn>2</mn>
</msubsup>
<mrow>
<mo>(</mo>
<mi>p</mi>
<mo>)</mo>
</mrow>
<mo>+</mo>
<msubsup>
<mi>v</mi>
<mi>k</mi>
<mn>2</mn>
</msubsup>
<mrow>
<mo>(</mo>
<mi>p</mi>
<mo>)</mo>
</mrow>
</mrow>
<mo>)</mo>
</mrow>
<mo>+</mo>
</mrow>
</mtd>
</mtr>
<mtr>
<mtd>
<mrow>
<munder>
<mi>&Sigma;</mi>
<mrow>
<mo>(</mo>
<mi>p</mi>
<mo>,</mo>
<mi>q</mi>
<mo>)</mo>
<mo>&Element;</mo>
<mi>N</mi>
</mrow>
</munder>
<mi>min</mi>
<mrow>
<mo>(</mo>
<mi>&beta;</mi>
<mo>|</mo>
<msub>
<mi>u</mi>
<mi>k</mi>
</msub>
<mo>(</mo>
<mi>p</mi>
<mo>)</mo>
<mo>-</mo>
<msub>
<mi>u</mi>
<mi>k</mi>
</msub>
<mo>(</mo>
<mi>q</mi>
<mo>)</mo>
<mo>|</mo>
<mo>,</mo>
<mi>d</mi>
<mo>)</mo>
</mrow>
<mo>+</mo>
<mi>m</mi>
<mi>i</mi>
<mi>n</mi>
<mrow>
<mo>(</mo>
<mi>&beta;</mi>
<mo>|</mo>
<msub>
<mi>v</mi>
<mi>k</mi>
</msub>
<mo>(</mo>
<mi>p</mi>
<mo>)</mo>
<mo>-</mo>
<msub>
<mi>v</mi>
<mi>k</mi>
</msub>
<mo>(</mo>
<mi>q</mi>
<mo>)</mo>
<mo>|</mo>
<mo>,</mo>
<mi>d</mi>
<mo>)</mo>
</mrow>
</mrow>
</mtd>
</mtr>
</mtable>
</mfenced>
其中,wk(p)=(uk(p),vk(p))是像素点p=(x,y)从第k-1到k帧的位移向量,u,v分别表示水平和垂直方向,x,y表示点p在图像中的坐标值,sk(p)是像素点p在第k帧图像内的SIFT特征向量;N表示在构建马尔科夫随机场时邻域结构边的数目,α是一个像素在两帧间运动位移量的惩罚因子,β表示代价项的增长率,d是一个截断因子,p,q分别表示第k-1帧和k帧中对应的两个像素点;
(2)依据目标在第k-1帧内的状态信息,获得目标所组成的像素点集合采用SIFT流算法获得像素点集合在第k帧图像中的预测点集合再对预测点集合中所有点做反方向的SIFT流算法处理;依据SIFT流前后一致性评估参数ErorFB,对预测点集合进行滤波,获得可靠像素点集合Pk,同时获得k-1帧内相匹配的点的集合Pk-1,构建帧间目标上的可靠匹配像素点对集合预测点集合的滤波准则如下:
当ErorFB≤ThFB时,该像素点保留,否则,该像素点滤除;
其中,表示k-1帧目标包含的像素点的集合,表示在第k帧内对应的预测点的集合,表示对集合进行滤波后跟踪目标所包含的像素点集合,表示集合Pk在k-1帧图像内对应的像素点的集合,m表示像素点的数目;ThFB为置信度传播方法对像素点进行前后一致性评估所能够容忍的最大误差阈值;
(3)依据可靠匹配像素点对集合Pk,k-1确定跟踪目标在帧间的运动状态:下一帧内目标的位移量通过可靠点对之间位移量的中值获得,目标的尺度通过前后两帧内两点间距离比值的中值确定,目标的宽度和高度通过上帧内目标尺寸和尺度值共同确定;
步骤3:获取观测样本集合:对新的一帧图像,依据步骤2的运动评估策略获得新一帧图像中目标的预测状态,对其进行高斯采样获得候选样本集合,同样将这些候选样本压缩为G*J的大小,再拉伸为m维列向量,构造观测矩阵Y=[y1,…,yl],其中y1,…,yl为观测样本,l为候选样本模板的个数;
步骤4:观测样本的一般线性表示形式:
yi=DTαi+ε=αi1d1+αi2d2+…+αindn+εi,i=1,2,…,l;
其中,DT=[d1,d2…dn]是正样本构造的字典模板,εi表示残差项,αi=[αi1,αi2,…,αin]是第i个观测样本的线性表示的分解系数;
步骤5:依据稀疏表示理论,计算稀疏外观模型的稀疏系数矩阵,系数αi的求解转换成以下的最小化问题:
<mrow>
<mi>m</mi>
<mi>i</mi>
<mi>n</mi>
<mo>|</mo>
<mo>|</mo>
<msub>
<mi>y</mi>
<mi>i</mi>
</msub>
<mo>-</mo>
<msub>
<mi>D&alpha;</mi>
<mi>i</mi>
</msub>
<mo>|</mo>
<msubsup>
<mo>|</mo>
<mn>2</mn>
<mn>2</mn>
</msubsup>
<mo>+</mo>
<mi>&lambda;</mi>
<mo>|</mo>
<mo>|</mo>
<msub>
<mi>&alpha;</mi>
<mi>i</mi>
</msub>
<mo>|</mo>
<msub>
<mo>|</mo>
<mn>1</mn>
</msub>
<mo>,</mo>
</mrow>
通过L1范数最小化方式对上式进行求解;
其中,||·||2和||·||1分别代表2范数和1范数,λ为正则化因子;
步骤6:获得观测样本的重构误差:结合步骤5求解出来的系数αi和步骤4中的字典模板DT,求解每个观测模板在这种外观模型表示下的重构误差值:
<mrow>
<msub>
<mi>e</mi>
<mi>i</mi>
</msub>
<mo>=</mo>
<mo>|</mo>
<mo>|</mo>
<msub>
<mi>y</mi>
<mi>i</mi>
</msub>
<mo>-</mo>
<msub>
<mi>D</mi>
<mi>T</mi>
</msub>
<msub>
<mi>&alpha;</mi>
<mi>i</mi>
</msub>
<mo>|</mo>
<msubsup>
<mo>|</mo>
<mn>2</mn>
<mn>2</mn>
</msubsup>
<mo>,</mo>
<mi>i</mi>
<mo>=</mo>
<mn>1</mn>
<mo>,</mo>
<mn>2</mn>
<mo>,</mo>
<mo>...</mo>
<mo>,</mo>
<mi>l</mi>
</mrow>
选择重构误差最小的观测样本[x,y,width,high]作为目标的跟踪结果;其中,width,high分别表示跟踪目标的宽度和高度;
构建似然函数,确定最佳候选样本:依据获得的稀疏系数计算每个观测样本yi的重构误差,建立似然函数来说明观测样本是跟踪目标的可能性,似然函数表示为exp(-Π*ei),Π表示比例因子;利用最大似然函数估计,获得最佳的目标候选样本作为跟踪结果;
步骤7:字典模板DT更新:依据置信度阈值方法确定字典模板的更新形式;
重复步骤2-7的操作实现大位移运动目标的跟踪。
2.根据权利要求1所述的基于双向SIFT流运动评估的大位移目标稀疏跟踪方法,其特征在于,所述置信度阈值方法为:利用似然函数exp(-Π*ei)的最大似然估计的似然值与预先设定的置信度阈值进行比较,如果大于置信度阈值说明跟踪结果较优,则将其作为基样本进行采样以更新字典模板。
3.根据权利要求1所述的基于双向SIFT流运动评估的大位移目标稀疏跟踪方法,其特征在于,所述SIFT流算法的步骤:(1)对相邻帧的图像像素点提取SIFT特征;(2)将SIFT特征融入到光流运动评估框架中,将点匹配问题转化成最优化求解问题;(3)获得像素点p=(x,y)从第k-1到k帧的位移向量wk(p)=(uk(p),vk(p))。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201610863484.1A CN106447696B (zh) | 2016-09-29 | 2016-09-29 | 一种基于双向sift流运动评估的大位移目标稀疏跟踪方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201610863484.1A CN106447696B (zh) | 2016-09-29 | 2016-09-29 | 一种基于双向sift流运动评估的大位移目标稀疏跟踪方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN106447696A CN106447696A (zh) | 2017-02-22 |
CN106447696B true CN106447696B (zh) | 2017-08-25 |
Family
ID=58171072
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201610863484.1A Active CN106447696B (zh) | 2016-09-29 | 2016-09-29 | 一种基于双向sift流运动评估的大位移目标稀疏跟踪方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN106447696B (zh) |
Families Citing this family (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US10421452B2 (en) * | 2017-03-06 | 2019-09-24 | GM Global Technology Operations LLC | Soft track maintenance |
CN107016412A (zh) * | 2017-03-29 | 2017-08-04 | 北京北昂科技有限公司 | 基于外观和运动连续性交叉验证的自适应模板更新策略 |
CN108021738A (zh) * | 2017-11-15 | 2018-05-11 | 南京邮电大学 | 一种具有稀疏特性的芯片单性能成品率预测方法 |
CN108470161A (zh) * | 2018-03-12 | 2018-08-31 | 国网电力科学研究院武汉南瑞有限责任公司 | 一种基于目标跟踪的高压隔离开关状态识别方法 |
CN110738683A (zh) * | 2018-07-19 | 2020-01-31 | 中移(杭州)信息技术有限公司 | 一种计算机视觉跟踪方法及装置 |
CN109816706B (zh) * | 2019-02-01 | 2022-12-06 | 辽宁工程技术大学 | 一种平滑约束与三角网等比例剖分像对稠密匹配方法 |
CN110349186B (zh) * | 2019-07-16 | 2021-05-11 | 南昌航空大学 | 基于深度匹配的大位移运动光流计算方法 |
CN111815667B (zh) * | 2020-06-23 | 2022-06-17 | 成都信息工程大学 | 一种相机移动条件下高精度检测运动目标的方法 |
CN116999044B (zh) * | 2023-09-07 | 2024-04-16 | 南京云思创智信息科技有限公司 | 一种实时运动全连接双向一致光流场心率信号提取方法 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101714256A (zh) * | 2009-11-13 | 2010-05-26 | 河北工业大学 | 基于全方位视觉的动态目标识别和定位方法 |
CN101819682A (zh) * | 2010-04-09 | 2010-09-01 | 哈尔滨工程大学 | 基于马尔科夫链蒙特卡洛粒子滤波的目标跟踪方法 |
CN104240268A (zh) * | 2014-09-23 | 2014-12-24 | 奇瑞汽车股份有限公司 | 一种基于流形学习与稀疏表示的行人跟踪方法 |
CN104599288A (zh) * | 2013-10-31 | 2015-05-06 | 展讯通信(天津)有限公司 | 一种基于肤色模板的特征跟踪方法及装置 |
Family Cites Families (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5253189A (en) * | 1989-06-13 | 1993-10-12 | Schlumberger Technologies, Inc. | Qualitative kinematics |
US6873724B2 (en) * | 2001-08-08 | 2005-03-29 | Mitsubishi Electric Research Laboratories, Inc. | Rendering deformable 3D models recovered from videos |
CN100565244C (zh) * | 2007-10-31 | 2009-12-02 | 北京航空航天大学 | 多模多目标精密跟踪装置和方法 |
CN102183525A (zh) * | 2011-01-20 | 2011-09-14 | 单宝华 | 基于ccd阵列摄像技术的桥梁表观状态自动检测装置及其方法 |
CN103295242B (zh) * | 2013-06-18 | 2015-09-23 | 南京信息工程大学 | 一种多特征联合稀疏表示的目标跟踪方法 |
US9646391B2 (en) * | 2013-12-11 | 2017-05-09 | Reunify Llc | Noninvasive localization of entities in compartmented areas |
-
2016
- 2016-09-29 CN CN201610863484.1A patent/CN106447696B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101714256A (zh) * | 2009-11-13 | 2010-05-26 | 河北工业大学 | 基于全方位视觉的动态目标识别和定位方法 |
CN101819682A (zh) * | 2010-04-09 | 2010-09-01 | 哈尔滨工程大学 | 基于马尔科夫链蒙特卡洛粒子滤波的目标跟踪方法 |
CN104599288A (zh) * | 2013-10-31 | 2015-05-06 | 展讯通信(天津)有限公司 | 一种基于肤色模板的特征跟踪方法及装置 |
CN104240268A (zh) * | 2014-09-23 | 2014-12-24 | 奇瑞汽车股份有限公司 | 一种基于流形学习与稀疏表示的行人跟踪方法 |
Non-Patent Citations (3)
Title |
---|
《基于区域协方差矩阵和2DPCA学习的视频跟踪方法研究》;张焕龙等;《计算机科学》;20150930;第42卷(第9期);第278-281页 * |
《基于极线约束SIFT特征和粒子滤波的目标跟踪算法》;刘士荣等;《上海交通大学学报》;20140731;第48卷(第7期);第1026-1032,1038页 * |
《适应性结构保持约束下的目标跟踪方法》;陈晨树等;《模式识别与人工智能》;20150228;第28卷(第2期);第105-111页 * |
Also Published As
Publication number | Publication date |
---|---|
CN106447696A (zh) | 2017-02-22 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN106447696B (zh) | 一种基于双向sift流运动评估的大位移目标稀疏跟踪方法 | |
Bai et al. | Adaptive dilated network with self-correction supervision for counting | |
Shakeri et al. | COROLA: A sequential solution to moving object detection using low-rank approximation | |
Luo et al. | Real-time dense monocular SLAM with online adapted depth prediction network | |
CN103793477B (zh) | 用于生成视频摘要的系统及方法 | |
Lee et al. | Revisiting hierarchical approach for persistent long-term video prediction | |
CN104200487A (zh) | 一种基于orb特征点匹配的目标跟踪方法 | |
Ziani et al. | Tempclr: Reconstructing hands via time-coherent contrastive learning | |
Fan et al. | Complementary tracking via dual color clustering and spatio-temporal regularized correlation learning | |
Zeng et al. | Idea-net: Dynamic 3d point cloud interpolation via deep embedding alignment | |
Yao et al. | Scale and appearance variation enhanced Siamese network for thermal infrared target tracking | |
Yang et al. | Robust visual tracking using adaptive local appearance model for smart transportation | |
Zhang et al. | Extdm: Distribution extrapolation diffusion model for video prediction | |
Zhou et al. | Nonrigid structure-from-motion from 2-D images using Markov chain Monte Carlo | |
Liu et al. | Joint estimation of pose, depth, and optical flow with a competition–cooperation transformer network | |
Li et al. | Dmhomo: Learning homography with diffusion models | |
Li et al. | Video prediction for driving scenes with a memory differential motion network model | |
Yasarla et al. | Futuredepth: Learning to predict the future improves video depth estimation | |
Li et al. | H-vfi: Hierarchical frame interpolation for videos with large motions | |
Chang et al. | Stip: A spatiotemporal information-preserving and perception-augmented model for high-resolution video prediction | |
CN116543019A (zh) | 一种基于精确边界框预测的单目标跟踪方法 | |
Jing et al. | Video prediction: a step-by-step improvement of a video synthesis network | |
Zhang et al. | Robust object tracking based on sparse representation | |
Wang et al. | Sparse Transformer-based bins and Polarized Cross Attention decoder for monocular depth estimation | |
Xing et al. | ROIFormer: semantic-aware region of interest transformer for efficient self-supervised monocular depth estimation |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |