CN109741364B - 目标跟踪方法及装置 - Google Patents

目标跟踪方法及装置 Download PDF

Info

Publication number
CN109741364B
CN109741364B CN201811378140.7A CN201811378140A CN109741364B CN 109741364 B CN109741364 B CN 109741364B CN 201811378140 A CN201811378140 A CN 201811378140A CN 109741364 B CN109741364 B CN 109741364B
Authority
CN
China
Prior art keywords
target
response value
image
video frame
initial response
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201811378140.7A
Other languages
English (en)
Other versions
CN109741364A (zh
Inventor
刘彬
张默
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Moshanghua Technology Co ltd
Original Assignee
Beijing Moshanghua Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Moshanghua Technology Co ltd filed Critical Beijing Moshanghua Technology Co ltd
Priority to CN201811378140.7A priority Critical patent/CN109741364B/zh
Publication of CN109741364A publication Critical patent/CN109741364A/zh
Application granted granted Critical
Publication of CN109741364B publication Critical patent/CN109741364B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Image Analysis (AREA)

Abstract

本申请公开了一种目标跟踪方法及装置。该方法包括在视频帧的图像目标候选区中提取图像特征,并输出初始响应值;平滑所述视频帧的初始响应值;以及更新响应值,确定目标在视频帧中的位置信息。本申请解决了目标跟踪方法的效果不佳的技术问题。通过本申请的方法,对于网络的输出响应会经常因为尺度变换、突然运动等复杂的目标状态而出现多峰、漂移等现象,通过充分考虑了图像相邻超像素块之间的相似性关系,利用该关系约束了初始响应值,抑制了跟踪过程中的漂移现象,进而校正目标的位置信息。进而提升了标跟踪方法的跟踪精度和跟踪效率。

Description

目标跟踪方法及装置
技术领域
本申请涉及计算机视觉领域,具体而言,涉及一种目标跟踪方法及装置。
背景技术
目标跟踪是计算机视觉领域研究的热点之一,当前广泛应用于视频监控、人机交互等实际问题中,具有重要的研究价值。但是受限于实际环境的复杂性,例如遮挡、光照变化、目标形变以及背景相似干扰等,当相关滤波的跟踪方法在准确性、鲁棒性以及实时性上可以在一定程度的满足实际应用需求。
发明人发现,在相关滤波的跟踪方法,跟踪过程中会产生漂移现象,进一步影响到跟踪准确性。
针对相关技术中目标跟踪方法的效果不佳的问题,目前尚未提出有效的解决方案。
发明内容
本申请的主要目的在于提供一种目标跟踪方法及装置,以解决目标跟踪方法的效果不佳的问题。
为了实现上述目的,根据本申请的一个方面,提供了一种目标跟踪方法。
根据本申请的目标跟踪方法包括:在视频帧的图像目标候选区中提取图像特征,并输出初始响应值;平滑所述视频帧的初始响应值;以及更新响应值,确定目标在视频帧中的位置信息。
进一步地,在视频帧的图像目标候选区中提取图像特征,并输出初始响应值包括:训练轻量级网络模型对图像目标候选区进行特征提取;根据特征提取结果得到滤波器;以及通过滤波器输出初始响应值。
进一步地,平滑所述视频帧的初始响应值包括:通过网络提取目标候选区域的图像块;对图像块超像素化处理,得到相邻超像素块之间的相似性关系;根据所述相似性关系构建相似度矩阵,并通过所述相似矩阵平滑初始响应值。
进一步地,更新响应值,确定目标在视频帧中的位置信息包括:根据所述初始响应值和相似度矩阵更新响应图,确认目标位置。
进一步地,更新响应值,确定目标在视频帧中的位置信息包括:通过训练卷积神经网络得到图像目标候选区的响应值;校正目标的位置信息,得到校正后的响应值;根据所述校正后的响应值确定视频帧中的位置信息。
为了实现上述目的,根据本申请的另一方面,提供了一种目标跟踪装置。
根据本申请的目标跟踪装置包括:响应模块,用于在视频帧的图像目标候选区中提取图像特征,并输出初始响应值;平滑模块,用于平滑所述视频帧的初始响应值;以及学习更新模块,用于更新响应值,确定目标在视频帧中的位置信息。
进一步地,所述响应模块包括:提取单元,用于训练轻量级网络模型对图像目标候选区进行特征提取;滤波单元,用于根据特征提取结果得到滤波器;以及输出单元,用于通过滤波器输出初始响应值。
进一步地,所述平滑模块包括:图像块单元,用于通过网络提取目标候选区域的图像块;相似性关系单元,用于对图像块超像素化处理,得到相邻超像素块之间的相似性关系;平滑单元,用于根据所述相似性关系构建相似度矩阵,并通过所述相似矩阵平滑初始响应值。
进一步地,所述平滑模块包括:更新单元,用于根据所述初始响应值和相似度矩阵更新响应图,确认目标位置。
进一步地,所述学习更新模块包括:响应单元,用于通过训练卷积神经网络得到图像目标候选区的响应值;校正单元,用于校正目标的位置信息,得到校正后的响应值;确定单元,用于根据所述校正后的响应值确定视频帧中的位置信息。
在本申请实施例中,采用在视频帧的图像目标候选区中提取图像特征,并输出初始响应值的方式,通过平滑所述视频帧的初始响应值,达到了更新响应值,确定目标在视频帧中的位置信息的目的,从而实现了抑制了跟踪过程中的漂移现象的技术效果,进而解决了目标跟踪方法的效果不佳的技术问题。本申请通过将连续CRF模型运用到目标跟踪中,通过对CRF模型中单个势结点和相邻势结点之间的关系建模,优化了基于深度学习的DCF跟踪算法,有效缓解了不同情况下的跟踪漂移问题,特别是在目标尺度变化时,明显提高了跟踪的成功率。
此外,本申请在OTB-2013的五十个视频序列和OTB-2015的一百个视频序列上进行了大量的实验与测试,在统一环境下,使用通用评测标准,与九种近年来在国际上具有代表性的相关算法进行了对比分析,显著性实验结果验证了算法的有效性,准确性和鲁棒性。
附图说明
构成本申请的一部分的附图用来提供对本申请的进一步理解,使得本申请的其它特征、目的和优点变得更明显。本申请的示意性实施例附图及其说明用于解释本申请,并不构成对本申请的不当限定。在附图中:
图1是根据本申请第一实施例的目标跟踪方法示意图;
图2是根据本申请第二实施例的目标跟踪方法示意图;
图3是根据本申请第三实施例的目标跟踪方法示意图;
图4是根据本申请第四实施例的目标跟踪方法示意图;
图5是根据本申请第一实施例的目标跟踪装置示意图;
图6是根据本申请第二实施例的目标跟踪装置示意图;
图7是根据本申请第三实施例的目标跟踪装置示意图;
图8是根据本申请第四实施例的目标跟踪装置示意图;
图9是根据本申请实施例的目标跟踪模型架构示意图;
图10是根据本申请实施例的图像超像化过程示意图;
图11是根据本申请实施例的深度网络模块中网络设计细节示意图;
图12是根据本申请实施例的滤波器随着时间步长迭代更新的示意图。
具体实施方式
为了使本技术领域的人员更好地理解本申请方案,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分的实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本申请保护的范围。
需要说明的是,本申请的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本申请的实施例。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
在本申请中,术语“上”、“下”、“左”、“右”、“前”、“后”、“顶”、“底”、“内”、“外”、“中”、“竖直”、“水平”、“横向”、“纵向”等指示的方位或位置关系为基于附图所示的方位或位置关系。这些术语主要是为了更好地描述本申请及其实施例,并非用于限定所指示的装置、元件或组成部分必须具有特定方位,或以特定方位进行构造和操作。
并且,上述部分术语除了可以用于表示方位或位置关系以外,还可能用于表示其他含义,例如术语“上”在某些情况下也可能用于表示某种依附关系或连接关系。对于本领域普通技术人员而言,可以根据具体情况理解这些术语在本申请中的具体含义。
此外,术语“安装”、“设置”、“设有”、“连接”、“相连”、“套接”应做广义理解。例如,可以是固定连接,可拆卸连接,或整体式构造;可以是机械连接,或电连接;可以是直接相连,或者是通过中间媒介间接相连,又或者是两个装置、元件或组成部分之间内部的连通。对于本领域普通技术人员而言,可以根据具体情况理解上述术语在本申请中的具体含义。
在本申请中结合连续条件随机场CRF模型提出了一种新的端到端的目标跟踪方法,充分考虑了图像相邻超像素块之间的相似性关系,利用该关系约束了初始响应值,抑制了跟踪过程中的漂移现象。
需要说明的是,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本申请。
如图1所示,该方法包括如下的步骤S102至步骤S104:
步骤S102,在视频帧的图像目标候选区中提取图像特征,并输出初始响应值;
目标跟踪的主要目的在于确定目标在视频帧中的位置信息,需要通过相应的目标表观特征描述方法将其中相对稳定的统计特征或某些不变的特征提取出来,一般通过相关滤波器来获取目标候选区域的响应,作为判断目标位置的标准,与背景加以区分。
在深度网络中对图像目标候选区进行特征提取,并且可以通过相关滤波层输出初始响应值。具体地,使用一元状态函数对进行建模,目的是通过训练深度网络获取图像目标候选区域的特征,得到理想的滤波器,输出初始响应。
步骤S104,平滑所述视频帧的初始响应值;
通过网络输出一组一维向量,利用该向量建立相邻超像素块之间的相似性关系,用来约束一元状态函数中的初始图像响应。通过相邻超像素块之间的相似性关系平滑视频帧的输出响应。相邻超像素块是指,由于视频中的每一帧图像都由若干个像素组成,假设可以将每一张图像分割成若干个超像素块,并且认为图像模型是由很多超像素块所构成。
步骤S106,更新响应值,确定目标在视频帧中的位置信息。
结合初始响应值和的相似度矩阵更新响应图,最终确认目标位置。更新初始响应矩阵,校正目标的位置信息,得到校正后的响应。
通过一个端到端的网络框架,将连续CRF模型嵌入深度卷积神经网络中,使用反向传播优化网络参数,在保持算法实时性的前提下,提升了算法的跟踪精度和跟踪效率。
从以上的描述中,可以看出,本申请实现了如下技术效果:
在本申请实施例中,采用在视频帧的图像目标候选区中提取图像特征,并输出初始响应值的方式,通过平滑所述视频帧的初始响应值,达到了更新响应值,确定目标在视频帧中的位置信息的目的,从而实现了抑制了跟踪过程中的漂移现象的技术效果,进而解决了目标跟踪方法的效果不佳的技术问题。
根据本申请实施例,作为本实施例中的优选,如图2所示,在视频帧的图像目标候选区中提取图像特征,并输出初始响应值包括:
步骤S202,训练轻量级网络模型对图像目标候选区进行特征提取;
本申请提出的轻量级网络模型经过训练之后,不仅可以应用于传统的相关滤波目标跟踪方法,也可以应用于许多其他类型的目标跟踪方法。每跟踪一个新的视频帧,网络就会输出该帧的特征
Figure BDA0001871283110000061
再输入到相关滤波层,根据上一帧的特征
Figure BDA0001871283110000062
来更新一个新的滤波器w。
步骤S204,根据特征提取结果得到滤波器;
通过相关滤波器来获取目标候选区域的响应,作为判断目标位置的标准,与背景加以区分。
步骤S206,通过滤波器输出初始响应值。
输出的初始响应值,可利用相邻超像素块之间的关系约束初始响应值,从而抑制跟踪过程中的漂移现象。
根据本申请实施例,作为本实施例中的优选,如图3所示,平滑所述视频帧的初始响应值包括:
步骤S302,通过网络提取目标候选区域的图像块;
由于视频中的每一帧图像都由若干个像素组成,假设可以将每一张图像分割成若干个超像素块,并且认为图像模型是由很多超像素块所构成。
具体地,先对图像整体进行卷积运算,再对结果进行分割,从而提高网络训练的速度和准确率。该模块中的特征提取部分主要由两个卷积层、一个修正线性单元和一个局部响应归一化层构成。
步骤S304,对图像块超像素化处理,得到相邻超像素块之间的相似性关系;
步骤S306,根据所述相似性关系构建相似度矩阵,并通过所述相似矩阵平滑初始响应值。
优选地,还包括步骤S308,根据所述初始响应值和相似度矩阵更新响应图,确认目标位置。
具体地,
Figure BDA0001871283110000071
其中,Cij表示相邻超像素块vi和vj之间的依赖关系,可以用全连接层来表示:
Figure BDA0001871283110000072
其中,β是网络参数,S(k)表示相邻超像素块之间的第k种相似性关系矩阵。可以用位置信息、HoG特征等建立相邻超像素块之间的相似性关系,本发明将这k种相似性关系的模型表示为:
Figure BDA0001871283110000081
其中,
Figure BDA0001871283110000082
Figure BDA0001871283110000083
表示相邻超像素块vi和vj对应的特征值,γ是常数,用来调节关系的弹性。
根据本申请实施例,作为本实施例中的优选,如图4所示,更新响应值,确定目标在视频帧中的位置信息包括:
步骤S402,通过训练卷积神经网络得到图像目标候选区的响应值;
步骤S404,校正目标的位置信息,得到校正后的响应值;
步骤S406,根据所述校正后的响应值确定视频帧中的位置信息。
具体地,对相邻超像素块间的位置信息构建相似度矩阵,并更新响应图,根据更新目标的位置信息。
需要说明的是,在附图的流程图示出的步骤可以在诸如一组计算机可执行指令的计算机系统中执行,并且,虽然在流程图中示出了逻辑顺序,但是在某些情况下,可以以不同于此处的顺序执行所示出或描述的步骤。
根据本申请实施例,还提供了一种用于实施上述目标跟踪方法的装置,如图5所示,该装置包括:响应模块10,用于在视频帧的图像目标候选区中提取图像特征,并输出初始响应值;平滑模块20,用于平滑所述视频帧的初始响应值;以及学习更新模块30,用于更新响应值,确定目标在视频帧中的位置信息。
本申请实施例的响应模块10中目标跟踪的主要目的在于确定目标在视频帧中的位置信息,需要通过相应的目标表观特征描述方法将其中相对稳定的统计特征或某些不变的特征提取出来,一般通过相关滤波器来获取目标候选区域的响应,作为判断目标位置的标准,与背景加以区分。
在深度网络中对图像目标候选区进行特征提取,并且可以通过相关滤波层输出初始响应值。具体地,使用一元状态函数对进行建模,目的是通过训练深度网络获取图像目标候选区域的特征,得到理想的滤波器,输出初始响应。
本申请实施例的平滑模块20中通过网络输出一组一维向量,利用该向量建立相邻超像素块之间的相似性关系,用来约束一元状态函数中的初始图像响应。通过相邻超像素块之间的相似性关系平滑视频帧的输出响应。相邻超像素块是指,由于视频中的每一帧图像都由若干个像素组成,假设可以将每一张图像分割成若干个超像素块,并且认为图像模型是由很多超像素块所构成。
本申请实施例的学习更新模块30中结合初始响应值和的相似度矩阵更新响应图,最终确认目标位置。更新初始响应矩阵,校正目标的位置信息,得到校正后的响应。
根据本申请实施例,作为本实施例中的优选,如图6所示,所述响应模块10包括:提取单元101,用于训练轻量级网络模型对图像目标候选区进行特征提取;滤波单元102,用于根据特征提取结果得到滤波器;以及输出单元103,用于通过滤波器输出初始响应值。
本申请实施例的提取单元101中本申请提出的轻量级网络模型经过训练之后,不仅可以应用于传统的相关滤波目标跟踪方法,也可以应用于许多其他类型的目标跟踪方法。每跟踪一个新的视频帧,网络就会输出该帧的特征
Figure BDA0001871283110000091
再输入到相关滤波层,根据上一帧的特征
Figure BDA0001871283110000092
来更新一个新的滤波器w。
本申请实施例的滤波单元102中通过相关滤波器来获取目标候选区域的响应,作为判断目标位置的标准,与背景加以区分。
本申请实施例的输出单元103中输出的初始响应值,可利用相邻超像素块之间的关系约束初始响应值,从而抑制跟踪过程中的漂移现象。
根据本申请实施例,作为本实施例中的优选,如图7所示,所述平滑模块20包括:图像块单元201,用于通过网络提取目标候选区域的图像块;相似性关系单元202,用于对图像块超像素化处理,得到相邻超像素块之间的相似性关系;平滑单元203,用于根据所述相似性关系构建相似度矩阵,并通过所述相似矩阵平滑初始响应值。
优选地,所述平滑模块20还包括:更新单元204,用于根据所述初始响应值和相似度矩阵更新响应图,确认目标位置。
本申请实施例的图像块单元201中由于视频中的每一帧图像都由若干个像素组成,假设可以将每一张图像分割成若干个超像素块,并且认为图像模型是由很多超像素块所构成。
具体地,先对图像整体进行卷积运算,再对结果进行分割,从而提高网络训练的速度和准确率。该模块中的特征提取部分主要由两个卷积层、一个修正线性单元和一个局部响应归一化层构成。
具体地,
Figure BDA0001871283110000101
其中,Cij表示相邻超像素块vi和vj之间的依赖关系,可以用全连接层来表示:
Figure BDA0001871283110000102
其中,β是网络参数,S(k)表示相邻超像素块之间的第k种相似性关系矩阵。可以用位置信息、HoG特征等建立相邻超像素块之间的相似性关系,本发明将这k种相似性关系的模型表示为:
Figure BDA0001871283110000103
其中,
Figure BDA0001871283110000104
Figure BDA0001871283110000105
表示相邻超像素块vi和vj对应的特征值,γ是常数,用来调节关系的弹性。
根据本申请实施例,作为本实施例中的优选,如图8所示,所述学习更新模块30包括:响应单元301,用于通过训练卷积神经网络得到图像目标候选区的响应值;校正单元302,用于校正目标的位置信息,得到校正后的响应值;确定单元303,用于根据所述校正后的响应值确定视频帧中的位置信息。
具体地,对相邻超像素块间的位置信息构建相似度矩阵,并更新响应图,根据更新目标的位置信息。基于图像相邻超像素块之间位置关系的相似度矩阵,利用连续随机校验场模型中极大似然对数存在的闭式解,推导出了图像目标响应值与相邻超像素块相似度之间的理论相关性,利用这种相关性在响应图中校正了目标的相对位置,减少了目标周边背景噪声的影响。
本申请的实现原理如下:
请参考图3是本申请提出的基于条件随机场和基于判别式相关滤波的深度目标跟踪模型,整个跟踪模型包括一元特征模块,二元关系模块和学习更新模块三个部分。其中,一元特征模块实现了在深度网络中对图像目标候选区的特征提取,并且通过相关滤波层输出初始响应值;二元关系模块通过网络输出一组一维向量,利用该向量建立相邻超像素块之间的相似性关系,用来约束一元特征模块中的初始图像响应;学习更新模块结合一元特征模块中的初始响应值和二元关系模块中的相似度矩阵更新响应图,最终确认目标位置。
本申请通过将条件随机场CRF和基于深度学习的相关跟踪滤波跟踪网络DCF结合,设计了一个新的端到端的网络框架。为了使模型的跟踪效果更优,算法鲁棒性更强,在离线训练时,本申请使用了基于随机梯度下降的反向传播来优化网络参数。
根据传统的CRF参数化模型,在随机变量X取值为x的条件下,随机变量Y取值为y的条件概率密度函数可以表示为:
Figure BDA0001871283110000111
式中,i,j=1,2,...,n,sl和tk是特征函数,μl和λk是对应的权值,求和是在所有可能的输出序列上进行的。根据公式(1),本申请将特征表示部分用能量函数G(y,x)来表示,因此条件概率密度函数可以写为:
Figure BDA0001871283110000112
式中,Z(x)表示规范化因子:
Z(x)=∫yexp{-G(y,x)}dy (3)
由于这里的y是连续值,与离散的情况不同,因此需要用积分来替换原来的求和运算,为了预测目标位置,可用模型的最大后验概率(MAP)来推断视频帧的响应,具体表示为:
Figure BDA0001871283110000121
由于概率图模型是由图表示的概率分布,图(graph)是由结点(node)及连接结点的边(edge)组成的集合,结点和边分别表示为v和e,结点和边的集合记作V和E,图G可表示为G=(V,E),本申请中能量函数G(y,x)可由一元状态函数V和二元转移函数E构成,这里V对应于图像中n个超像素块,旨在回归每个超像素块对应的响应;E依赖于图像中S对相邻超像素块之间的关系,该关系的相似性有约束响应值的作用,超像素块间的相似度越高,对应的响应值越接近。根据公式(1)可以将这里的函数V和函数E表示为:
Figure BDA0001871283110000122
Figure BDA0001871283110000123
因此,能量函数G(y,x)也可以表示为:
Figure BDA0001871283110000124
本申请将一元状态函数V和二元转移函数E嵌入到统一的卷积神经网络(CNN)框架中,结合相关滤波建立一个深度网络来得到图像目标候选区的响应值,从而准确地预测目标的位置信息。
请参考图3,本申请使用一元状态函数V对一元特征模块进行建模,目的是通过训练深度网络获取图像目标候选区域的特征,得到理想的滤波器,输出初始响应。
Figure BDA0001871283110000131
其中,yi表示理想状态下的响应,Ri(α)表示网络输出的响应,α是网络中的参数。
将图像分为n个超像素块之后,每个超像素块的区域
Figure BDA0001871283110000132
Figure BDA0001871283110000133
对应CRF中的结点信息,其中(ai,bi)表示超像素块的中心位置,(wi,hi)表示超像素块的宽度和高度,考虑到对每一个超像素块单独进行卷积运算会存在大量的内存消耗,导致计算效率降低,本申请利用Fast R-CNN的思想,先对图像整体进行卷积运算,再对结果进行分割,从而提高网络训练的速度和准确率。具体地,网络设计细节可参考图11,该一元特征模块中的特征提取部分主要由两个卷积层、一个修正线性单元和一个局部响应归一化层构成,
网络的输入表示为视频帧
Figure BDA0001871283110000134
在第一个卷积层中,为了能够更好的利用位置对应信息,本申请在图片x的外侧进行填补,填补的尺寸为1。图片x通过一个权重矩阵W1得到96个特征映射,W1包含96个子矩阵,即
Figure BDA0001871283110000135
其中
Figure BDA0001871283110000136
表示第一个卷积层中每个卷积核对应的参数,卷积核的通道数和尺寸分别为3和3×3,采样间隔为1。因此输出的96个特征映射
Figure BDA0001871283110000141
是通过对x0卷积响应和经过激励函数计算得到的。每个
Figure BDA0001871283110000142
通过下式进行计算:
Figure BDA0001871283110000143
本申请选用修正线性单元(Rectified Linear Unit,ReLU)作为激活函数f(·)=max(0,·)。
Figure BDA0001871283110000144
代表卷积运算,Wi 1
Figure BDA0001871283110000145
分别表示权重矩阵与偏置项,通过将所有的
Figure BDA0001871283110000146
连接在一起,可以得到一个完整的特征映射
Figure BDA0001871283110000147
在第二个卷积层中,为了能更充分地利用输入信息对
Figure BDA0001871283110000148
的外侧进行填补,填补的尺寸为1。之后将
Figure BDA0001871283110000149
与32个卷积核依次进行卷积,对应的权重参数为
Figure BDA00018712831100001410
每个卷积核的通道数和尺寸分别为96和3×3,采样间隔为1,可得:
Figure BDA00018712831100001411
将所有的特征映射
Figure BDA00018712831100001412
组成
Figure BDA00018712831100001413
为了对局部神经元的活动创建竞争机制,使其中响应较大的值变得更加明显,并且抑制其他反馈较小的神经元,增强训练的稳定性和模型的泛化能力,本申请选用局部响应归一化(Local Response Normalization,LRN)层s(·)来实现,其表达式为:
Figure BDA00018712831100001414
其中
Figure BDA00018712831100001415
对于训练数据中的所有样本,该模块可以得到一个特征集合
Figure BDA0001871283110000151
其中m表示训练样本的数量,
Figure BDA0001871283110000152
表示每一个视频帧的特征值,上标2表示卷积层数。
本申请提出的轻量级网络模型经过训练之后,不仅可以应用于传统的相关滤波目标跟踪方法,也可以应用于许多其他类型的目标跟踪方法。在该模块中,每跟踪一个新的视频帧,网络就会输出该帧的特征
Figure BDA0001871283110000153
再输入到相关滤波层,根据上一帧的特征
Figure BDA0001871283110000154
来更新一个新的滤波器w,从而得到当前帧目标候选区域的初始响应图R(z):
Figure BDA0001871283110000155
这里
Figure BDA0001871283110000156
表示CNN中提取特征的第l个通道,
Figure BDA0001871283110000157
代表循环矩阵的卷积运算,wl表示第l个理想的滤波器,可以表示为:
Figure BDA0001871283110000158
这里y表示目标位置的真实值,
Figure BDA0001871283110000159
表示离散傅里叶变换
Figure BDA00018712831100001510
*表示变量的复共轭,⊙表示矩阵的哈达玛积。
请参考图9是深度目标跟踪模型中还包括了二元关系模块。
在本申请中使用二元转移函数E对二元关系模块进行建模,目的是为了通过相邻超像素块之间的相似性关系平滑视频帧的输出响应。
Figure BDA00018712831100001511
其中
Figure BDA0001871283110000167
表示相邻超像素块vi和vj之间的依赖关系,可以用全连接层来表示:
Figure BDA0001871283110000161
这里β是网络参数,S(k)表示相邻超像素块之间的第k种相似性关系矩阵。可以用位置信息、HoG特征等建立相邻超像素块之间的相似性关系,本发明将这k种相似性关系的模型表示为:
Figure BDA0001871283110000162
其中,
Figure BDA0001871283110000163
Figure BDA0001871283110000164
表示相邻超像素块vi和vj对应的特征值,γ是常数,用来调节关系的弹性。
请参考图9是深度目标跟踪模型中还包括了学习更新模块。
学习更新模块根据公式(8)一元状态函数V和公式(14)二元转移函数E的定义,能量函数G(y,x)可以表示为:
Figure BDA0001871283110000165
为了便于函数表达和计算,这里定义矩阵A:
A=I+D-C (18)
其中I表示n×n的单位阵,D表示由
Figure BDA0001871283110000166
组成的度矩阵,它是一个对角阵,C表示由
Figure BDA0001871283110000168
组成的邻接矩阵,D-C是一个图拉普拉斯矩阵,因此,这里的矩阵A是一个正则化拉普拉斯矩阵,能量函数G(y,x)可以替换为:
Figure BDA0001871283110000171
由于上式中关于y的二次项系数是矩阵A,这里的A是正定阵,结合均值θ服从先验norm分布,且θ~N(μ0,∑0)的多维高斯分布的公式:
Figure BDA0001871283110000172
规范化因子Z(x)的积分可推算得到:
Figure BDA0001871283110000173
根据公式(2)、公式(19)和公式(21),可以推出CRF的先验概率模型为:
Figure BDA0001871283110000174
这里R=[R1,...,Rn]T,是在初始响应的基础上做池化后得到的矩阵,|·|表示矩阵的行列式,A-1是矩阵A的逆矩阵。因此,根据公式(4)可以得到目标候选区域的响应值为:
Figure BDA0001871283110000181
根据公式(18)中对矩阵A的定义,矩阵A是对称阵,即AT=A,令:
Figure BDA0001871283110000182
因此,公式(23)的闭式解为:
y=A-1R (25)
当不考虑二元关系模块中相邻超像素块之间的关系时,即Cij=0时,上式可以表示为y=R,这是一般的CNN回归模型。本发明将矩阵A定为位置关系矩阵,利用相邻超像素块vi={ai,bi,wi,hi}和vj={aj,bj,wj,hj}之间的欧式距离建立相似性关系Cij和度矩阵D可以表示为:
Figure BDA0001871283110000183
Figure BDA0001871283110000184
根据公式(18)将矩阵A带入式(25)可以更新初始响应矩阵,校正目标的位置信息,得到校正后的响应y,从而确定目标的位置。
Figure BDA0001871283110000191
为了使模型的跟踪效果更优,算法鲁棒性更强,在离线训练时,本发明使用了基于随机梯度下降的反向传播来优化网络参数。
具体地,假设通过网络获取的当前帧响应为y,理想的响应值为
Figure BDA0001871283110000192
定义损失函数为:
Figure BDA0001871283110000193
其中,θ表示网络中的所有参数,γ用来约束正则化项,函数中的变量逐层表示为:
y=A-1R
Figure BDA0001871283110000194
Figure BDA0001871283110000201
根据,离散傅里叶变换与离散傅里叶逆变换的梯度可用下述公式计算:
Figure BDA0001871283110000202
在学习更新模块中,前向传播过程只包含一般矩阵乘法,因此可计算矩阵的导数:
Figure BDA0001871283110000203
在二元转移模块中,由于关系矩阵A可以通过位置信息直接构建,因此这支网络无需从响应更新层反向传播更新参数。在一元状态模块中,响应更新层的反向传播可以表示为:
Figure BDA0001871283110000204
在该模块中,网络的输入分别为当前帧图片z和前一帧图片x对应网络的检测分支与学习分支。对于检测分支的反向传播可以表示为:
Figure BDA0001871283110000205
Figure BDA0001871283110000206
对于学习分支的反向传播,将
Figure BDA0001871283110000207
Figure BDA0001871283110000208
看作两个独立的变量:
Figure BDA0001871283110000211
Figure BDA0001871283110000212
Figure BDA0001871283110000213
误差经过反向传播到有实值的特征图后,余下的传播过程可以看作是传统的卷积神经网络优化问题,这里不再赘述。由于本发明方法中反向传播涉及的运算只是复频域中的哈达玛积以及一般的矩阵乘法,因此可以在大量数据集中进行离线训练,再通过网络模型进行在线跟踪。
当跟踪器在线跟踪时,滤波器会随着时间步长迭代更新,如图12所示,根据公式(13)可得,在时间T范围内,滤波器w在复频域可以表示为:
Figure BDA0001871283110000214
其中ζt≥0是常数,D表示有D个通道数。
显然,本领域的技术人员应该明白,上述的本申请的各模块或各步骤可以用通用的计算装置来实现,它们可以集中在单个的计算装置上,或者分布在多个计算装置所组成的网络上,可选地,它们可以用计算装置可执行的程序代码来实现,从而,可以将它们存储在存储装置中由计算装置来执行,或者将它们分别制作成各个集成电路模块,或者将它们中的多个模块或步骤制作成单个集成电路模块来实现。这样,本申请不限制于任何特定的硬件和软件结合。
以上所述仅为本申请的优选实施例而已,并不用于限制本申请,对于本领域的技术人员来说,本申请可以有各种更改和变化。凡在本申请的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本申请的保护范围之内。

Claims (6)

1.一种目标跟踪方法,其特征在于,包括:
在视频帧的图像目标候选区中提取图像特征,并输出初始响应值;
平滑所述视频帧的初始响应值;以及
更新响应值,确定目标在视频帧中的位置信息;
在视频帧的图像目标候选区中提取图像特征,并输出初始响应值包括:
训练轻量级网络模型对图像目标候选区进行特征提取;
根据特征提取结果得到滤波器;以及
通过滤波器输出初始响应值;
平滑所述视频帧的初始响应值包括:
通过所述轻量级网络提取目标候选区域的图像块;
对图像块超像素化处理,得到相邻超像素块之间的相似性关系;
根据所述相似性关系构建相似度矩阵,并通过所述相似度矩阵平滑初始响应值。
2.根据权利要求1所述的目标跟踪方法,其特征在于,更新响应值,确定目标在视频帧中的位置信息包括:
根据所述初始响应值和相似度矩阵更新响应图,确认目标位置。
3.根据权利要求1所述的目标跟踪方法,其特征在于,更新响应值,确定目标在视频帧中的位置信息包括:
通过训练卷积神经网络得到图像目标候选区的响应值;
校正目标的位置信息,得到校正后的响应值;
根据所述校正后的响应值确定视频帧中的位置信息。
4.一种目标跟踪装置,其特征在于,包括:
响应模块,用于在视频帧的图像目标候选区中提取图像特征,并输出初始响应值;
平滑模块,用于平滑所述视频帧的初始响应值;以及
学习更新模块,用于更新响应值,确定目标在视频帧中的位置信息;
所述响应模块包括:
提取单元,用于训练轻量级网络模型对图像目标候选区进行特征提取;
滤波单元,用于根据特征提取结果得到滤波器;以及
输出单元,用于通过滤波器输出初始响应值;
所述平滑模块包括:
图像块单元,用于通过所述轻量级网络提取目标候选区域的图像块;
相似性关系单元,用于对图像块超像素化处理,得到相邻超像素块之间的相似性关系;
平滑单元,用于根据所述相似性关系构建相似度矩阵,并通过所述相似度矩阵平滑初始响应值。
5.根据权利要求4所述的目标跟踪装置,其特征在于,所述平滑模块包括:
更新单元,用于根据所述初始响应值和相似度矩阵更新响应图,确认目标位置。
6.根据权利要求4所述的目标跟踪装置,其特征在于,所述学习更新模块包括:
响应单元,用于通过训练卷积神经网络得到图像目标候选区的响应值;
校正单元,用于校正目标的位置信息,得到校正后的响应值;
确定单元,用于根据所述校正后的响应值确定视频帧中的位置信息。
CN201811378140.7A 2018-11-19 2018-11-19 目标跟踪方法及装置 Active CN109741364B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201811378140.7A CN109741364B (zh) 2018-11-19 2018-11-19 目标跟踪方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201811378140.7A CN109741364B (zh) 2018-11-19 2018-11-19 目标跟踪方法及装置

Publications (2)

Publication Number Publication Date
CN109741364A CN109741364A (zh) 2019-05-10
CN109741364B true CN109741364B (zh) 2021-09-07

Family

ID=66355717

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201811378140.7A Active CN109741364B (zh) 2018-11-19 2018-11-19 目标跟踪方法及装置

Country Status (1)

Country Link
CN (1) CN109741364B (zh)

Families Citing this family (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110555405B (zh) * 2019-08-30 2022-05-06 北京迈格威科技有限公司 目标跟踪方法及装置、存储介质和电子设备
CN111429478B (zh) * 2020-04-13 2022-08-26 展讯通信(上海)有限公司 目标追踪方法及相关设备
CN111368943B (zh) * 2020-05-27 2020-09-01 腾讯科技(深圳)有限公司 图像中对象的识别方法和装置、存储介质及电子装置
CN112712546A (zh) * 2020-12-21 2021-04-27 吉林大学 一种基于孪生神经网络的目标跟踪方法
CN113192104B (zh) * 2021-04-14 2023-04-28 浙江大华技术股份有限公司 一种目标特征提取方法及其设备
CN116309710A (zh) * 2023-02-27 2023-06-23 荣耀终端有限公司 目标追踪方法和电子设备

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106651913A (zh) * 2016-11-29 2017-05-10 开易(北京)科技有限公司 基于相关滤波和颜色直方图统计的目标跟踪方法及adas系统
CN106887011A (zh) * 2017-01-20 2017-06-23 北京理工大学 一种基于cnn和cf的多模板目标跟踪方法
CN107274435A (zh) * 2017-05-05 2017-10-20 西安交通大学 一种目标跟踪中考虑场景分类的相关滤波器更新装置
CN107578423A (zh) * 2017-09-15 2018-01-12 杭州电子科技大学 多特征分层融合的相关滤波鲁棒跟踪方法
CN108288282A (zh) * 2017-12-26 2018-07-17 浙江工业大学 一种基于卷积神经网络的自适应特征选择目标跟踪方法
CN108470355A (zh) * 2018-04-04 2018-08-31 中山大学 融合卷积网络特征和判别式相关滤波器的目标跟踪方法
CN108734723A (zh) * 2018-05-11 2018-11-02 江南大学 一种基于自适应权重联合学习的相关滤波目标跟踪方法

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106651913A (zh) * 2016-11-29 2017-05-10 开易(北京)科技有限公司 基于相关滤波和颜色直方图统计的目标跟踪方法及adas系统
CN106887011A (zh) * 2017-01-20 2017-06-23 北京理工大学 一种基于cnn和cf的多模板目标跟踪方法
CN107274435A (zh) * 2017-05-05 2017-10-20 西安交通大学 一种目标跟踪中考虑场景分类的相关滤波器更新装置
CN107578423A (zh) * 2017-09-15 2018-01-12 杭州电子科技大学 多特征分层融合的相关滤波鲁棒跟踪方法
CN108288282A (zh) * 2017-12-26 2018-07-17 浙江工业大学 一种基于卷积神经网络的自适应特征选择目标跟踪方法
CN108470355A (zh) * 2018-04-04 2018-08-31 中山大学 融合卷积网络特征和判别式相关滤波器的目标跟踪方法
CN108734723A (zh) * 2018-05-11 2018-11-02 江南大学 一种基于自适应权重联合学习的相关滤波目标跟踪方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
基于超像素的条件随机场图像分类;张微 等;《计算机应用》;20120501;第32卷(第05期);第1272-1275、1279页 *

Also Published As

Publication number Publication date
CN109741364A (zh) 2019-05-10

Similar Documents

Publication Publication Date Title
CN109741364B (zh) 目标跟踪方法及装置
Yang et al. Feed-forward neural network training using sparse representation
Clark et al. Learning to solve nonlinear least squares for monocular stereo
CN112052886B (zh) 基于卷积神经网络的人体动作姿态智能估计方法及装置
CN109948029B (zh) 基于神经网络自适应的深度哈希图像搜索方法
CN107492121B (zh) 一种单目深度视频的二维人体骨骼点定位方法
CN108776975B (zh) 一种基于半监督特征和滤波器联合学习的视觉跟踪方法
CN107369166B (zh) 一种基于多分辨率神经网络的目标跟踪方法及系统
CN111161306B (zh) 一种基于运动注意力的视频目标分割方法
CN113326930B (zh) 数据处理方法、神经网络的训练方法及相关装置、设备
Sidén et al. Deep gaussian markov random fields
CN111260020B (zh) 卷积神经网络计算的方法和装置
WO2021218470A1 (zh) 一种神经网络优化方法以及装置
CN110648292A (zh) 一种基于深度卷积网络的高噪声图像去噪方法
CN110969105B (zh) 一种人体姿态估计方法
WO2020260656A1 (en) Pruning and/or quantizing machine learning predictors
Yu et al. Modeling spatial extremes via ensemble-of-trees of pairwise copulas
CN114998659B (zh) 随时间在线训练脉冲神经网络模型的图像数据分类方法
CN110809126A (zh) 一种基于自适应可变形卷积的视频帧插值方法及系统
Fu et al. Continual image deraining with hypergraph convolutional networks
CN111832228A (zh) 基于cnn-lstm的振动传递系统
CN109615640B (zh) 相关滤波目标跟踪方法及装置
CN110188621B (zh) 一种基于ssf-il-cnn的三维人脸表情识别方法
US10643092B2 (en) Segmenting irregular shapes in images using deep region growing with an image pyramid
CN113407820B (zh) 利用模型进行数据处理的方法及相关系统、存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant