CN111640136B - 一种复杂环境中的深度目标跟踪方法 - Google Patents
一种复杂环境中的深度目标跟踪方法 Download PDFInfo
- Publication number
- CN111640136B CN111640136B CN202010445179.7A CN202010445179A CN111640136B CN 111640136 B CN111640136 B CN 111640136B CN 202010445179 A CN202010445179 A CN 202010445179A CN 111640136 B CN111640136 B CN 111640136B
- Authority
- CN
- China
- Prior art keywords
- frame
- image
- target
- anchor
- score
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/20—Analysis of motion
- G06T7/246—Analysis of motion using feature-based methods, e.g. the tracking of corners or segments
- G06T7/248—Analysis of motion using feature-based methods, e.g. the tracking of corners or segments involving reference images or patches
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/10—Image acquisition modality
- G06T2207/10016—Video; Image sequence
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20081—Training; Learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20084—Artificial neural networks [ANN]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/30—Subject of image; Context of image processing
- G06T2207/30232—Surveillance
Abstract
本发明提出了一种复杂环境中的深度目标跟踪方法。该方法在跟踪网络中输入模板帧和检测帧,通过改进残差模块后的主干网络进行特征提取,再将提取后的图像特征输入至区域提议网络模块,经过分类分支和回归分支,最后输出目标的预测位置,完成跟踪。同时,根据特征图之间的互相关运算阈值进行模板帧更新与检测帧的全局搜索。该方法很好地解决了视频中存在干扰物、目标遮挡、快速移动、尺度变化等问题。
Description
技术领域
本发明属于图像目标跟踪领域,具体涉及一种目标跟踪方法。
背景技术
目标跟踪作为计算机视觉领域的重要研究课题,已经成功应用于多个领域。在日常生活中,智能视频监控系统通常对商场、银行、停车场等重要公共场所进行监控。当被监控场景出现变化时,系统对场景中可疑目标进行跟踪,并在此基础上对该目标的行为进行分析和判断,最后对分析得到的异常行为及时进行反馈和处理。智能监控系统可应用于各类社会安全保护不仅大大的降低了人力物力的投入,跟踪技术的使用可减少各类非法行为的发生,保障了人们生命和财产的安全。而在视觉导航方面,视觉信息是智能系统一种重要的信息源,为能实现自主运动,智能系统须根据采集的视觉信息认识和跟踪环境中的物体。
在目标跟踪问题上,存在诸多挑战问题。主要包括相似目标干扰、目标遮挡、目标快速移动和目标尺度变化等。其中,相似目标干扰,即在被跟踪目标周围存在非常相似的其他目标,跟踪器常常因为干扰物与目标之间的相似性跟踪到相似的其他物体上。目标遮挡是指目标在运动过程中常常被其他物体遮挡,而改变了目标的观测外观,而使得现有的跟踪模板失效。而目标快速移动,往往使得跟踪器无法在小范围内检测到目标,增加了目标搜索的复杂度。目标尺度变换是目标在运动过程中,由远及近或由近及远而产生的尺度大小变化的现象,预测目标框的大小应当做相应的调整,否则也将累计误差最终影响目标跟踪的准确度。针对以上问题,不少学者也给出了一些解决方案。但是现有的技术方案中,并没有完全解决上述问题,在目标存在干扰、遮挡、快速移动、尺度变化等情况下,目标容易丢失,跟踪效果不理想。
发明内容
为了克服现有技术的不足,本发明提供了一种复杂环境中的深度目标跟踪方法。该方法在跟踪网络中输入模板帧和检测帧,通过改进残差模块后的主干网络进行特征提取,再将提取后的图像特征输入至区域提议网络模块,经过分类分支和回归分支,最后输出目标的预测位置,完成跟踪。同时,根据特征图之间的互相关运算阈值进行模板帧更新与检测帧的全局搜索。该方法很好地解决了视频中存在干扰物、目标遮挡、快速移动、尺度变化等问题。
为达到上述目的,本发明提供一种复杂环境中的深度目标跟踪方法,包括以下步骤:
步骤1:目标跟踪网络训练
步骤1-1:从公共数据集中获取训练用视频样本;根据式(1)计算视频样本第一帧图像中目标真值框宽w和高h的平均值p;以目标真值框中心位置为中心点,在视频样本第一帧图像中选取矩形区域,矩形区域的宽为w′,高为h′,w′和h′根据式(2)进行计算;选取的矩形区域如果超出第一帧图像范围,超出的部分采用矩形区域在图像内部分所有像素点的RGB三通道颜色均值进行填充;再将矩形区域尺寸通过缩放变化为D*D,D为预设值,将该D*D大小的图像作为网络训练用模板帧;
w′=w+p h′=h+p (2)
步骤1-2:根据式(1)计算视频样本除第一帧外的其余每帧图像中目标真值框宽w和高h的平均值p;以每帧图像中目标真值框中心位置为中心点,在每帧图像中选取矩形区域,矩形区域的宽为4w′,高为4h′,w′和h′根据式(2)进行计算;选取的矩形区域如果超出当前帧图像范围,超出的部分采用矩形区域在当前帧图像内部分所有像素点的RGB三通道颜色均值进行填充;再将矩形区域尺寸通过缩放变化为E*E,E为预设值,将每帧图像生成的所有E*E大小的图像作为网络训练用检测帧;
步骤1-3:定义基础残差模块1和基础残差模块2;
基础残差模块1由三个依次连接的卷积层组成;第一个和第三个卷积层卷积核大小为1x1,步长为1,无填充,用于改变上下层级网络的输入输出形状;第二个卷积层为主体卷积层,卷积核大小为3x3,步长为1,填充为1;
基础残差模块2由分支1和分支2组成;分支1与基础残差模块1完全相同;分支2为一个卷积层,卷积核大小为1x1,步长为1;分支1和分支2并行处理;
步骤1-4:目标跟踪网络的主干网络采用Resnet50;Resnet50的卷积单元conv1使用7x7大小的卷积核,用于提取输入帧的空间几何特征;Resnet50的卷积单元conv2.x、conv3.x、conv4.x、conv5.x分别包含3、4、6、3个基础残差模块,除conv3.x、conv4.x、conv5.x三个卷积单元的第一个基础残差模块使用基础残差模块2外,其余所有基础残差模块均使用基础残差模块1;主干网络不包含全连接层;
步骤1-6:构造区域提议网络前置卷积层,由一个包含3x3卷积核的卷积层连接一个包含1x1卷积核的卷积层组成;将模板帧特征图输入区域提议网络前置卷积层,前置卷积层的输出再和检测帧特征图进行多通道互相关运算,得到分类分支响应图和回归分支响应图;
分类分支响应图通道数为2k,回归分支响应图通道数为4k;k为响应图中每个锚点对应的模板帧或检测帧中锚框的数量;锚点个数n=wrp·hrp,式中wrp为响应图宽度,hrp为响应图高度,总的锚框个数为N=n·k;
步骤1-7:计算每个锚框与当前检测帧目标真值框的交并比,交并比小于等于a1的锚框记为负样本,交并比大于等于a2的锚框记为正样本,交并比介于a1和a2之间的锚框不用于训练,a1和a2为预设值,且0<a1<a2<1;
所有的正样本和负样本用于区域提议网络分类分支中目标与背景的分类训练,所有的正样本用于区域提议网络回归分支中目标边框的边框回归训练;
步骤1-8:定义单个锚框的分类损失Lcls为:
Lcls=-∑i=1,2yilogpi (3)
式中,yi∈{y1,y2}为锚框的样本标签,y1={1,0}表示该锚框为正样本,y2={0,1}表示该锚框为负样本,;pi∈{p1,p2}为分类分支响应图结果,p1表示该锚框为正样本的概率,p2表示该锚框为负样本的概率;
步骤1-9:定义单个锚框的边框回归损失Lreg为:
式中,d*∈{dx,dy,dw,dh},dx、dy为回归分支响应图中锚框的预测结果中心点坐标与当前检测帧目标真值框中心点坐标的偏差,dw、dh为回归分支响应图中锚框的预测结果的宽和高与当前检测帧目标真值框的宽和高的偏差;σ为曲线形状参数;t*∈{tx,ty,tw,th},tx、ty为锚框的中心点坐标与当前检测帧目标真值框中心点坐标的偏差,tw、th为为锚框的宽和高与当前检测帧目标真值框的宽和高的偏差,计算如下:
(Ax,Ay)为锚框的中心点坐标,Aw、Ah分别为锚框的宽和高,(Tx,Ty)为当前检测帧目标真值框中心点坐标,Tw、Th分别为当前检测帧目标真值框宽和高;
smooth L1函数计算公式如下:
x为函数自变量;
步骤1-10:定义单个锚框的总损失为:
Lanc=Lreg+Lcls (6)
定义单帧的区域提议网络损失Lrpn为:
式中NA为单帧中的锚框总数;
步骤1-11:使用模板帧特征图在检测帧特征图上做滑窗操作,滑窗内模板帧特征图与检测帧特征图进行互相关运算,得到检测帧特征图中各个窗口得分f(z,t),计算如下:
模板帧特征图完成在整个检测帧特征图上的滑窗操作,得到该检测帧特征图全局得分图D;
步骤1-12:定义得分图上得分点的损失为:
l(y,v)=log(1+exp(-yv)) (9)
式中,y为得分图上得分点对应的检测帧特征图相应窗口区域的真值标签,y∈{+1,-1};v为该得分点真实得分值,v=f(z,t)由式(8)计算得到;
在整个得分图G上所有得分点的损失为:
式中u为得分图上得分点对应的当前检测帧中锚框的中心点坐标,v[u]为得分图上得分点的真实得分值;y[u]为得分图上得分点的真值标签,计算如下式:
式中,c为该检测帧的真值边框的中心点坐标,R为坐标差阈值,k1为比例系数;
步骤1-13:定义单帧图像总损失为:
L=L(y,v)+Lrpn (12)
步骤1-14:根据步骤1-11计算当前检测帧之前连续m个检测帧的得分图,m个检测帧得分图中的最大值为Gmax;计算当前检测帧的得分图Gnow;
当Gnow/Gmax<thd时,0<thd<1为目标遮挡阈值,用当前检测帧对应的原始图像帧经过步骤1-1重新得到新的模板帧,用新的模板帧替换当前模板帧;当Gnow/Gmax≥thd时,保持原来的模板帧不变;
步骤1-15:将当前模板帧和视频样本的各个检测帧分别组成图像对,再将图像对按照视频样本中的检测帧顺序依次输入网络,计算每个图像对的单帧图像总损失,当单帧图像总损失不再降低,完成目标跟踪网络训练;
步骤2:目标跟踪
步骤2-1:人工在待处理视频序列第一帧图像中用矩形框选定需要跟踪的目标,使目标恰好处于矩形框内,将此矩形框定义为目标真值框;再采用步骤1-1的方法得到模板帧;
步骤2-2:在待处理视频序列第二帧图像中选择矩形框,矩形框的中心点坐标和第一帧图像中目标真值框的中心点坐标相同,矩形框的高、宽和第一帧图像中目标真值框的高、宽相同,将在第二帧图像中选择的矩形框定义为第二帧图像的目标真值框,再采用步骤1-2的方法得到第二帧图像的检测帧;
步骤2-3:将步骤2-1和2-2得到的模板帧和检测帧组成图像对,将图像对输入步骤1训练完成的目标跟踪网络,目标跟踪网络的输出为在当前检测帧中跟踪到的目标位置信息,目标位置信息由包含目标的矩形框的中心点坐标、矩形框高度值和宽度值组成;
步骤2-4:对于待处理视频中除前两帧图像之外的其他图像帧,在当前图像帧中选择矩形框,矩形框中心点位置、宽度值、高度值和当前图像帧的上一帧图像跟踪到的目标位置信息相同;将当前图像帧中选择的矩形框定义为当前图像帧的目标真值框,再采用步骤1-2的方法得到当前图像帧的检测帧;将当前图像帧的检测帧和模板帧组成图像对,输入目标跟踪网络,网络的输出为在前检测帧中跟踪到的目标位置信息;
步骤2-5:按照步骤1-14的方法,对模板帧进行更新;
步骤2-6:根据步骤1-11,计算当前检测帧的得分图Gnow和当前帧前一帧的得分图Gbef;当Gnow/Gbef<fthd,fthd为目标丢失阈值,且0<fthd<thd<1,则重新确定当前图像帧的检测帧;
步骤2-7:重复步骤2-4到2-6,直至完成待处理视频最后一帧的目标跟踪。
进一步地,步骤2-6中所述的重新确定当前图像帧的检测帧的方法如下:
将当前图像帧扩展为一个正方形图像,正方形图像的边长为当前图像帧宽和高中较大者,正方形图像中当前图像帧以外的部分采用当前图像帧所有像素点的RGB三通道颜色均值进行填充,再将正方形图像尺寸缩放到E*E;将这个E*E大小的图像作为新的检测帧;
本发明的有益效果是:由于采用了本发明提出了一种复杂环境中的深度目标跟踪方法,该方法以孪生网络为基础,提出扩展模板帧和检测帧范围的策略,使网络对干扰问题具有一定的鲁棒性;当目标跟踪过程中存在遮挡时,根据响应图阈值对模板帧进行更新,从而有效解决遮挡问题;针对目标快速移动问题,使用由局部检测过渡为全局检测,能够快速找回跟踪丢失的目标;孪生网络中使用基于锚框机制的目标候选网络,进一步解决了目标尺度变化问题。
附图说明
图1是本发明目标跟踪方法流程图。
图2是本发明目标跟踪结果图。
具体实施方式
下面结合附图和实施例对本发明进一步说明。
如图1所示,本发明提供一种复杂环境中的深度目标跟踪方法,包括以下步骤:
步骤1:目标跟踪网络训练
步骤1-1:从公共数据集中获取训练用视频样本;根据式(1)计算视频样本第一帧图像中目标真值框宽w和高h的平均值p;以目标真值框中心位置为中心点,在视频样本第一帧图像中选取矩形区域,矩形区域的宽为w′,高为h′,w′和h′根据式(2)进行计算;选取的矩形区域如果超出第一帧图像范围,超出的部分采用矩形区域在图像内部分所有像素点的RGB三通道颜色均值进行填充;再将矩形区域尺寸通过缩放变化为D*D,D为预设值,将该D*D大小的图像作为网络训练用模板帧;
w′=w+p h′=h+p (2)
步骤1-2:根据式(1)计算视频样本除第一帧外的其余每帧图像中目标真值框宽w和高h的平均值p;以每帧图像中目标真值框中心位置为中心点,在每帧图像中选取矩形区域,矩形区域的宽为4w′,高为4h′,w′和h′根据式(2)进行计算;选取的矩形区域如果超出当前帧图像范围,超出的部分采用矩形区域在当前帧图像内部分所有像素点的RGB三通道颜色均值进行填充;再将矩形区域尺寸通过缩放变化为E*E,E为预设值,将每帧图像生成的所有E*E大小的图像作为网络训练用检测帧;
步骤1-3:定义基础残差模块1和基础残差模块2;
基础残差模块1由三个依次连接的卷积层组成;第一个和第三个卷积层卷积核大小为1x1,步长为1,无填充,用于改变上下层级网络的输入输出形状;第二个卷积层为主体卷积层,卷积核大小为3x3,步长为1,填充为1;
基础残差模块2由分支1和分支2组成;分支1与基础残差模块1完全相同;分支2为一个卷积层,卷积核大小为1x1,步长为1;分支1和分支2并行处理;
步骤1-4:目标跟踪网络的主干网络采用Resnet50;Resnet50的卷积单元conv1使用7x7大小的卷积核,用于提取输入帧的空间几何特征;Resnet50的卷积单元conv2.x、conv3.x、conv4.x、conv5.x分别包含3、4、6、3个基础残差模块,除conv3.x、conv4.x、conv5.x三个卷积单元的第一个基础残差模块使用基础残差模块2外,其余所有基础残差模块均使用基础残差模块1;主干网络不包含全连接层;
步骤1-6:构造区域提议网络前置卷积层,由一个包含3x3卷积核的卷积层连接一个包含1x1卷积核的卷积层组成;将模板帧特征图输入区域提议网络前置卷积层,前置卷积层的输出再和检测帧特征图进行多通道互相关运算,得到分类分支响应图和回归分支响应图;
分类分支响应图通道数为2k,回归分支响应图通道数为4k;k为响应图中每个锚点对应的模板帧或检测帧中锚框的数量;锚点个数n=wrp·hrp,式中wrp为响应图宽度,hrp为响应图高度,总的锚框个数为N=n·k;
步骤1-7:计算每个锚框与当前检测帧目标真值框的交并比,交并比小于等于a1的锚框记为负样本,交并比大于等于a2的锚框记为正样本,交并比介于a1和a2之间的锚框不用于训练,a1和a2为预设值,且0<a1<a2<1;
所有的正样本和负样本用于区域提议网络分类分支中目标与背景的分类训练,所有的正样本用于区域提议网络回归分支中目标边框的边框回归训练;
步骤1-8:定义单个锚框的分类损失为:
Lcls=-∑i=1,2yilogpi (3)
式中,yi∈{y1,y2}为锚框的样本标签,y1={1,0}表示该锚框为正样本,y2={0,1}表示该锚框为负样本,;pi∈{p1,p2}为分类分支响应图结果,p1表示该锚框为正样本的概率,p2表示该锚框为负样本的概率;
步骤1-9:定义单个锚框的边框回归损失为:
式中,d*∈{dx,dy,dw,dh},dx、dy为回归分支响应图中锚框的预测结果中心点坐标与当前检测帧目标真值框中心点坐标的偏差,dw、dh为回归分支响应图中锚框的预测结果的宽和高与当前检测帧目标真值框的宽和高的偏差;σ为曲线形状参数;t*∈{tx,ty,tw,th},tx、ty为锚框的中心点坐标与当前检测帧目标真值框中心点坐标的偏差,tw、th为为锚框的宽和高与当前检测帧目标真值框的宽和高的偏差,计算如下:
(Ax,Ay)为锚框的中心点坐标,Aw、Ah分别为锚框的宽和高,(Tx,Ty)为当前检测帧目标真值框中心点坐标,Tw、Th分别为当前检测帧目标真值框宽和高;
smooth L1函数计算公式如下:
x为函数自变量;
步骤1-10:定义单个锚框的总损失为:
Lanc=Lreg+Lcls (6)
定义单帧的区域提议网络损失Lrpn为:
式中NA为单帧中的锚框总数;
步骤1-11:使用模板帧特征图在检测帧特征图上做滑窗操作,滑窗内模板帧特征图与检测帧特征图进行互相关运算,得到检测帧特征图中各个窗口得分f(z,t),计算如下:
模板帧特征图完成在整个检测帧特征图上的滑窗操作,得到该检测帧特征图全局得分图D;
步骤1-12:定义得分图上得分点的损失为:
l(y,v)=log(1+exp(-yv)) (9)
式中,y为得分图上得分点对应的检测帧特征图相应窗口区域的真值标签,y∈{+1,-1};v为该得分点真实得分值,v=f(z,t)由式(8)计算得到;
在整个得分图G上所有得分点的损失为:
式中u为得分图上得分点对应的当前检测帧中锚框的中心点坐标,v[u]为得分图上得分点的真实得分值;y[u]为得分图上得分点的真值标签,计算如下式:
式中,c为该检测帧的真值边框的中心点坐标,R为坐标差阈值,k1为比例系数;
步骤1-13:定义单帧图像总损失为:
L=L(y,v)+Lrpn (12)
步骤1-14:根据步骤1-11计算当前检测帧之前连续m个检测帧的得分图,m个检测帧得分图中的最大值为Gmax;计算当前检测帧的得分图Gnow;
当Gnow/Gmax<thd时,0<thd<1为目标遮挡阈值,用当前检测帧对应的原始图像帧经过步骤1-1重新得到新的模板帧,用新的模板帧替换当前模板帧;当Gnow/Gmax≥thd时,保持原来的模板帧不变;
步骤1-15:将当前模板帧和视频样本的各个检测帧分别组成图像对,再将图像对按照视频样本中的检测帧顺序依次输入网络,计算每个图像对的单帧图像总损失,当单帧图像总损失不再降低,完成目标跟踪网络训练;
步骤2:目标跟踪
步骤2-1:人工在待处理视频序列第一帧图像中用矩形框选定需要跟踪的目标,使目标恰好处于矩形框内,将此矩形框定义为目标真值框;再采用步骤1-1的方法得到模板帧;
步骤2-2:在待处理视频序列第二帧图像中选择矩形框,矩形框的中心点坐标和第一帧图像中目标真值框的中心点坐标相同,矩形框的高、宽和第一帧图像中目标真值框的高、宽相同,将在第二帧图像中选择的矩形框定义为第二帧图像的目标真值框,再采用步骤1-2的方法得到第二帧图像的检测帧;
步骤2-3:将步骤2-1和2-2得到的模板帧和检测帧组成图像对,将图像对输入步骤1训练完成的目标跟踪网络,目标跟踪网络的输出为在当前检测帧中跟踪到的目标位置信息,目标位置信息由包含目标的矩形框的中心点坐标、矩形框高度值和宽度值组成;
步骤2-4:对于待处理视频中除前两帧图像之外的其他图像帧,在当前图像帧中选择矩形框,矩形框中心点位置、宽度值、高度值和当前图像帧的上一帧图像跟踪到的目标位置信息相同;将当前图像帧中选择的矩形框定义为当前图像帧的目标真值框,再采用步骤1-2的方法得到当前图像帧的检测帧;将当前图像帧的检测帧和模板帧组成图像对,输入目标跟踪网络,网络的输出为在前检测帧中跟踪到的目标位置信息;
步骤2-5:按照步骤1-14的方法,对模板帧进行更新;
步骤2-6:根据步骤1-11,计算当前检测帧的得分图Gnow和当前帧前一帧的得分图Gbef;当Gnow/Gbef<fthd,fthd为目标丢失阈值,且0<fthd<thd<1,则重新确定当前图像帧的检测帧;
步骤2-7:重复步骤2-4到2-6,直至完成待处理视频最后一帧的目标跟踪。
进一步地,步骤2-6中所述的重新确定当前图像帧的检测帧的方法为:
将当前图像帧扩展为一个正方形图像,正方形图像的边长为当前图像帧宽和高中较大者,正方形图像中当前图像帧以外的部分采用当前图像帧所有像素点的RGB三通道颜色均值进行填充,再将正方形图像尺寸缩放到E*E;将这个E*E大小的图像作为新的检测帧;
实施例:
先对目标跟踪网络进行训练。
(1)按照步骤1-1和1-2构建模板帧和检测帧,模板帧的尺寸D*D设定为127*127,检测帧的尺寸E*E设定为511*511;
(2)按照步骤1-3和1-4构建主干网络,主干网络为改进的Resnet50神经网络。Resnet50的卷积单元中,如果采用基础残差模块1,将前层特征图经过基础残差模块1的三个卷积层处理后形成后层特征图,将后层特征图和前层特征图叠加构成叠加特征图;如果采用基础残差模块2,则将前层特征图分别经过础残差模块2的分支1和分支2,经过分支1和分支2处理之后的结果进行叠加形成叠加特征图。在叠加特征图上采用裁剪处理,裁剪掉叠加特征图的第一行和最后一行,第一列和最后一列。对裁剪后的叠加特征图做池化处理,池化步长为2;
(3)按照步骤1-5和1-6得到分类分支响应图和回归分支响应图,分类分支响应图通道数为2k,回归分支响应图通道数为4k;响应图在分类分支和回归分支中通道数可以分为k组,在分类分支中每组表示不同锚点k个锚框中某个锚框是目标还是背景的类别信息;在回归分支中每组表示不同锚点k个锚框中某个锚框的预测结果与当前检测帧真实目标框的位置偏差;
(4)按照步骤1-7计算交并比,本实施例中a1=0.3和a2=0.6;
(5)按照步骤1-8到1-13计算单帧图像总损失L;
(6)在步骤1-14中,取thd=0.9,当Gnow/Gmax<0.9时,更新模板帧;
(7)将当前模板帧和视频样本的各个检测帧分别组成图像对,再将图像对按照视频样本中的检测帧顺序依次输入网络,计算每个图像对的单帧图像总损失,优化网络权值,当单帧图像总损失不再降低,完成目标跟踪网络训练。
目标跟踪网络训练完成之后,可以用来跟踪目标。
(1)按照步骤2-1和2-2,对待处理视频的第一帧图像和第二帧图像进行处理,得到初始模板帧和检测帧;
(2)按照步骤2-3,将步初始模板帧和检测帧组成图像对,将图像对输入目标跟踪网络,输出为跟踪到的目标位置信息:
(3)按照步骤2-4和2-5,得到待处理视频中每一帧图像的检测帧,并根据交并比决定是否对模板帧进行更新;
(4)在步骤2-6中,目标丢失阈值fthd取0.2,根据计算结果,判断是否要更新检测帧;
(5)将模板帧和检测帧组成图像对,按照视频中图像帧的顺序依次输入目标跟踪网络,完成对视频中目标的跟踪。
如图2所示,是本发明目标跟踪结果图。
Claims (2)
1.一种复杂环境中的深度目标跟踪方法,其特征在于,包括以下步骤:
步骤1:目标跟踪网络训练
步骤1-1:从公共数据集中获取训练用视频样本;根据式(1)计算视频样本第一帧图像中目标真值框宽w和高h的平均值p;以目标真值框中心位置为中心点,在视频样本第一帧图像中选取矩形区域,矩形区域的宽为w′,高为h′,w′和h′根据式(2)进行计算;选取的矩形区域如果超出第一帧图像范围,超出的部分采用矩形区域在图像内部分所有像素点的RGB三通道颜色均值进行填充;再将矩形区域尺寸通过缩放变化为D*D,D为预设值,将该D*D大小的图像作为网络训练用模板帧;
w′=w+p h′=h+p (2)
步骤1-2:根据式(1)计算视频样本除第一帧外的其余每帧图像中目标真值框宽w和高h的平均值p;以每帧图像中目标真值框中心位置为中心点,在每帧图像中选取矩形区域,矩形区域的宽为4w′,高为4h′,w′和h′根据式(2)进行计算;选取的矩形区域如果超出当前帧图像范围,超出的部分采用矩形区域在当前帧图像内部分所有像素点的RGB三通道颜色均值进行填充;再将矩形区域尺寸通过缩放变化为E*E,E为预设值,将每帧图像生成的所有E*E大小的图像作为网络训练用检测帧;
步骤1-3:定义基础残差模块1和基础残差模块2;
基础残差模块1由三个依次连接的卷积层组成;第一个和第三个卷积层卷积核大小为1x1,步长为1,无填充,用于改变上下层级网络的输入输出形状;第二个卷积层为主体卷积层,卷积核大小为3x3,步长为1,填充为1;
基础残差模块2由分支1和分支2组成;分支1与基础残差模块1完全相同;分支2为一个卷积层,卷积核大小为1x1,步长为1;分支1和分支2并行处理;
步骤1-4:目标跟踪网络的主干网络采用Resnet50;Resnet50的卷积单元conv1使用7x7大小的卷积核,用于提取输入帧的空间几何特征;Resnet50的卷积单元conv2.x、conv3.x、conv4.x、conv5.x分别包含3、4、6、3个基础残差模块,除conv3.x、conv4.x、conv5.x三个卷积单元的第一个基础残差模块使用基础残差模块2外,其余所有基础残差模块均使用基础残差模块1;主干网络不包含全连接层;
步骤1-6:构造区域提议网络前置卷积层,由一个包含3x3卷积核的卷积层连接一个包含1x1卷积核的卷积层组成;将模板帧特征图输入区域提议网络前置卷积层,前置卷积层的输出再和检测帧特征图进行多通道互相关运算,得到分类分支响应图和回归分支响应图;
分类分支响应图通道数为2k,回归分支响应图通道数为4k;k为响应图中每个锚点对应的模板帧或检测帧中锚框的数量;锚点个数n=wrp·hrp,式中wrp为响应图宽度,hrp为响应图高度,总的锚框个数为N=n·k;
步骤1-7:计算每个锚框与当前检测帧目标真值框的交并比,交并比小于等于a1的锚框记为负样本,交并比大于等于a2的锚框记为正样本,交并比介于a1和a2之间的锚框不用于训练,a1和a2为预设值,且0<a1<a2<1;
所有的正样本和负样本用于区域提议网络分类分支中目标与背景的分类训练,所有的正样本用于区域提议网络回归分支中目标边框的边框回归训练;
步骤1-8:定义单个锚框的分类损失Lcls为:
Lcls=-∑i=1,2yilogpi (3)
式中,yi∈{y1,y2}为锚框的样本标签,y1={1,0}表示该锚框为正样本,y2={0,1}表示该锚框为负样本,pi∈{p1,p2}为分类分支响应图结果,p1表示该锚框为正样本的概率,p2表示该锚框为负样本的概率;
步骤1-9:定义单个锚框的边框回归损失Lreg为:
式中,d*∈{dx,dy,dw,dh},dx、dy为回归分支响应图中锚框的预测结果中心点坐标与当前检测帧目标真值框中心点坐标的偏差,dw、dh为回归分支响应图中锚框的预测结果的宽和高与当前检测帧目标真值框的宽和高的偏差;σ为曲线形状参数;t*∈{tx,ty,tw,th},tx、ty为锚框的中心点坐标与当前检测帧目标真值框中心点坐标的偏差,tw、th为为锚框的宽和高与当前检测帧目标真值框的宽和高的偏差,计算如下:
(Ax,Ay)为锚框的中心点坐标,Aw、Ah分别为锚框的宽和高,(Tx,Ty)为当前检测帧目标真值框中心点坐标,Tw、Th分别为当前检测帧目标真值框宽和高;
smooth L1函数计算公式如下:
x为函数自变量;
步骤1-10:定义单个锚框的总损失为:
Lanc=Lreg+Lcls (6)
定义单帧的区域提议网络损失Lrpn为:
式中NA为单帧中的锚框总数;
步骤1-11:使用模板帧特征图在检测帧特征图上做滑窗操作,滑窗内模板帧特征图与检测帧特征图进行互相关运算,得到检测帧特征图中各个窗口得分f(z,t),计算如下:
模板帧特征图完成在整个检测帧特征图上的滑窗操作,得到该检测帧特征图全局得分图D;
步骤1-12:定义得分图上得分点的损失为:
l(y,v)=log(1+exp(-yv)) (9)
式中,y为得分图上得分点对应的检测帧特征图相应窗口区域的真值标签,y∈{+1,-1};v为该得分点真实得分值,v=f(z,t)由式(8)计算得到;
在整个得分图G上所有得分点的损失为:
式中u为得分图上得分点对应的当前检测帧中锚框的中心点坐标,v[u]为得分图上得分点的真实得分值;y[u]为得分图上得分点的真值标签,计算如下式:
式中,c为该检测帧的真值边框的中心点坐标,R为坐标差阈值,k1为比例系数;
步骤1-13:定义单帧图像总损失为:
L=L(y,v)+Lrpn (12)
步骤1-14:根据步骤1-11计算当前检测帧之前连续m个检测帧的得分图,m个检测帧得分图中的最大值为Gmax;计算当前检测帧的得分图Gnow;
当Gnow/Gmax<thd时,0<thd<1为目标遮挡阈值,用当前检测帧对应的原始图像帧经过步骤1-1重新得到新的模板帧,用新的模板帧替换当前模板帧;当Gnow/Gmax≥thd时,保持原来的模板帧不变;
步骤1-15:将当前模板帧和视频样本的各个检测帧分别组成图像对,再将图像对按照视频样本中的检测帧顺序依次输入网络,计算每个图像对的单帧图像总损失,当单帧图像总损失不再降低,完成目标跟踪网络训练;
步骤2:目标跟踪
步骤2-1:人工在待处理视频序列第一帧图像中用矩形框选定需要跟踪的目标,使目标恰好处于矩形框内,将此矩形框定义为目标真值框;再采用步骤1-1的方法得到模板帧;
步骤2-2:在待处理视频序列第二帧图像中选择矩形框,矩形框的中心点坐标和第一帧图像中目标真值框的中心点坐标相同,矩形框的高、宽和第一帧图像中目标真值框的高、宽相同,将在第二帧图像中选择的矩形框定义为第二帧图像的目标真值框,再采用步骤1-2的方法得到第二帧图像的检测帧;
步骤2-3:将步骤2-1和2-2得到的模板帧和检测帧组成图像对,将图像对输入步骤1训练完成的目标跟踪网络,目标跟踪网络的输出为在当前检测帧中跟踪到的目标位置信息,目标位置信息由包含目标的矩形框的中心点坐标、矩形框高度值和宽度值组成;
步骤2-4:对于待处理视频中除前两帧图像之外的其他图像帧,在当前图像帧中选择矩形框,矩形框中心点位置、宽度值、高度值和当前图像帧的上一帧图像跟踪到的目标位置信息相同;将当前图像帧中选择的矩形框定义为当前图像帧的目标真值框,再采用步骤1-2的方法得到当前图像帧的检测帧;将当前图像帧的检测帧和模板帧组成图像对,输入目标跟踪网络,网络的输出为在前检测帧中跟踪到的目标位置信息;
步骤2-5:按照步骤1-14的方法,对模板帧进行更新;
步骤2-6:根据步骤1-11,计算当前检测帧的得分图Gnow和当前帧前一帧的得分图Gbef;当Gnow/Gbef<fthd,fthd为目标丢失阈值,且0<fthd<thd<1,则重新确定当前图像帧的检测帧;
步骤2-7:重复步骤2-4到2-6,直至完成待处理视频最后一帧的目标跟踪。
2.如权利要求1所述的一种复杂环境中的深度目标跟踪方法,其特征在于,步骤2-6中所述的重新确定当前图像帧的检测帧的方法如下:
将当前图像帧扩展为一个正方形图像,正方形图像的边长为当前图像帧宽和高中较大者,正方形图像中当前图像帧以外的部分采用当前图像帧所有像素点的RGB三通道颜色均值进行填充,再将正方形图像尺寸缩放到E*E;将这个E*E大小的图像作为新的检测帧。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010445179.7A CN111640136B (zh) | 2020-05-23 | 2020-05-23 | 一种复杂环境中的深度目标跟踪方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010445179.7A CN111640136B (zh) | 2020-05-23 | 2020-05-23 | 一种复杂环境中的深度目标跟踪方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111640136A CN111640136A (zh) | 2020-09-08 |
CN111640136B true CN111640136B (zh) | 2022-02-25 |
Family
ID=72332870
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010445179.7A Active CN111640136B (zh) | 2020-05-23 | 2020-05-23 | 一种复杂环境中的深度目标跟踪方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111640136B (zh) |
Families Citing this family (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112215079B (zh) * | 2020-09-16 | 2022-03-15 | 电子科技大学 | 一种全局多阶段目标跟踪方法 |
CN112200870B (zh) * | 2020-10-30 | 2024-03-12 | 上海海事大学 | 基于孪生网络的分类和位置损失相结合的单目标跟踪方法 |
CN112651994A (zh) * | 2020-12-18 | 2021-04-13 | 零八一电子集团有限公司 | 地面多目标跟踪方法 |
CN112816474B (zh) * | 2021-01-07 | 2022-02-01 | 武汉大学 | 一种基于目标感知的深度孪生网络高光谱视频目标跟踪方法 |
CN112884037B (zh) * | 2021-02-09 | 2022-10-21 | 中国科学院光电技术研究所 | 一种基于模板更新和无锚框方式的目标跟踪方法 |
CN113052875A (zh) * | 2021-03-30 | 2021-06-29 | 电子科技大学 | 一种基于状态感知模板更新的目标跟踪算法 |
CN113240709B (zh) * | 2021-04-23 | 2022-05-20 | 中国人民解放军32802部队 | 基于对比学习的孪生网络目标跟踪方法 |
Citations (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110033473A (zh) * | 2019-04-15 | 2019-07-19 | 西安电子科技大学 | 基于模板匹配和深度分类网络的运动目标跟踪方法 |
CN110300380A (zh) * | 2019-07-30 | 2019-10-01 | 电子科技大学 | 移动wsn中平衡系统能耗与追踪精度的目标跟踪方法 |
CN110335290A (zh) * | 2019-06-04 | 2019-10-15 | 大连理工大学 | 基于注意力机制的孪生候选区域生成网络目标跟踪方法 |
CN110544269A (zh) * | 2019-08-06 | 2019-12-06 | 西安电子科技大学 | 基于特征金字塔的孪生网络红外目标跟踪方法 |
CN110570458A (zh) * | 2019-08-12 | 2019-12-13 | 武汉大学 | 一种基于内部裁剪和多层特征信息融合的目标跟踪方法 |
CN110619655A (zh) * | 2019-08-23 | 2019-12-27 | 深圳大学 | 一种融合光流信息和Siamese框架的目标跟踪方法及装置 |
CN110675423A (zh) * | 2019-08-29 | 2020-01-10 | 电子科技大学 | 一种基于孪生神经网络和注意力模型的无人机跟踪方法 |
CN110942471A (zh) * | 2019-10-30 | 2020-03-31 | 电子科技大学 | 一种基于时空约束的长时目标跟踪方法 |
CN111126132A (zh) * | 2019-10-25 | 2020-05-08 | 宁波必创网络科技有限公司 | 一种基于孪生网络的学习目标跟踪算法 |
CN111179314A (zh) * | 2019-12-30 | 2020-05-19 | 北京工业大学 | 一种基于残差密集孪生网络的目标跟踪方法 |
CN111192292A (zh) * | 2019-12-27 | 2020-05-22 | 深圳大学 | 基于注意力机制与孪生网络的目标跟踪方法及相关设备 |
Family Cites Families (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110796679B (zh) * | 2019-10-30 | 2023-04-07 | 电子科技大学 | 一种面向航拍影像的目标跟踪方法 |
CN111192291B (zh) * | 2019-12-06 | 2022-11-11 | 东南大学 | 一种基于级联回归与孪生网络的目标跟踪方法 |
-
2020
- 2020-05-23 CN CN202010445179.7A patent/CN111640136B/zh active Active
Patent Citations (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110033473A (zh) * | 2019-04-15 | 2019-07-19 | 西安电子科技大学 | 基于模板匹配和深度分类网络的运动目标跟踪方法 |
CN110335290A (zh) * | 2019-06-04 | 2019-10-15 | 大连理工大学 | 基于注意力机制的孪生候选区域生成网络目标跟踪方法 |
CN110300380A (zh) * | 2019-07-30 | 2019-10-01 | 电子科技大学 | 移动wsn中平衡系统能耗与追踪精度的目标跟踪方法 |
CN110544269A (zh) * | 2019-08-06 | 2019-12-06 | 西安电子科技大学 | 基于特征金字塔的孪生网络红外目标跟踪方法 |
CN110570458A (zh) * | 2019-08-12 | 2019-12-13 | 武汉大学 | 一种基于内部裁剪和多层特征信息融合的目标跟踪方法 |
CN110619655A (zh) * | 2019-08-23 | 2019-12-27 | 深圳大学 | 一种融合光流信息和Siamese框架的目标跟踪方法及装置 |
CN110675423A (zh) * | 2019-08-29 | 2020-01-10 | 电子科技大学 | 一种基于孪生神经网络和注意力模型的无人机跟踪方法 |
CN111126132A (zh) * | 2019-10-25 | 2020-05-08 | 宁波必创网络科技有限公司 | 一种基于孪生网络的学习目标跟踪算法 |
CN110942471A (zh) * | 2019-10-30 | 2020-03-31 | 电子科技大学 | 一种基于时空约束的长时目标跟踪方法 |
CN111192292A (zh) * | 2019-12-27 | 2020-05-22 | 深圳大学 | 基于注意力机制与孪生网络的目标跟踪方法及相关设备 |
CN111179314A (zh) * | 2019-12-30 | 2020-05-19 | 北京工业大学 | 一种基于残差密集孪生网络的目标跟踪方法 |
Non-Patent Citations (6)
Title |
---|
Deeper and Wider Siamese Networks for Real-Time Visual Tracking;Zhipeng Zhang等;《2019 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR)》;20200109;4586-7595 * |
High Performance Visual Tracking with Siamese Region Proposal Network;Bo Li等;《2018 IEEE/CVF Conference on Computer Vision and Pattern Recognition》;20181217;8971-8970 * |
Siamese Cascaded Region Proposal Networks for Real-Time Visual Tracking;Heng Fan等;《2019 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR)》;20200109;7944-7953 * |
SiamRPN++: Evolution of Siamese Visual Tracking With Very Deep Networks;Bo Li等;《2019 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR)》;20200109;4277-4286 * |
基于深度学习的牲畜目标检测与跟踪算法研究;房永峰;《中国优秀硕士学位论文全文数据库 农业科技辑》;20190915;第2019年卷(第9期);D050-84 * |
基于目标感知特征筛选的孪生网络跟踪算法;陈志旺等;《光学学报》;20200515;第40卷(第9期);110-126 * |
Also Published As
Publication number | Publication date |
---|---|
CN111640136A (zh) | 2020-09-08 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111640136B (zh) | 一种复杂环境中的深度目标跟踪方法 | |
CN106960195B (zh) | 一种基于深度学习的人群计数方法及装置 | |
CN108062531B (zh) | 一种基于级联回归卷积神经网络的视频目标检测方法 | |
CN108830171B (zh) | 一种基于深度学习的智能物流仓库引导线视觉检测方法 | |
CN107145889B (zh) | 基于具有RoI池化的双CNN网络的目标识别方法 | |
CN108171112A (zh) | 基于卷积神经网络的车辆识别与跟踪方法 | |
CN113627228B (zh) | 一种基于关键点回归与多尺度特征融合的车道线检测方法 | |
CN113076871B (zh) | 一种基于目标遮挡补偿的鱼群自动检测方法 | |
CN109284670A (zh) | 一种基于多尺度注意力机制的行人检测方法及装置 | |
CN109145836B (zh) | 基于深度学习网络和卡尔曼滤波的船只目标视频检测方法 | |
CN111680655A (zh) | 一种面向无人机航拍影像的视频目标检测方法 | |
CN110765906A (zh) | 一种基于关键点的行人检测算法 | |
CN114241548A (zh) | 一种基于改进YOLOv5的小目标检测算法 | |
CN108280397A (zh) | 基于深度卷积神经网络的人体图像头发检测方法 | |
Ren et al. | A novel squeeze YOLO-based real-time people counting approach | |
CN108288047A (zh) | 一种行人/车辆检测方法 | |
CN113706581B (zh) | 基于残差通道注意与多层次分类回归的目标跟踪方法 | |
CN107369158A (zh) | 基于rgb‑d图像的室内场景布局估计及目标区域提取方法 | |
CN110032952B (zh) | 一种基于深度学习的道路边界点检测方法 | |
CN110309765B (zh) | 一种视频运动目标高效检测方法 | |
CN112861970B (zh) | 一种基于特征融合的细粒度图像分类方法 | |
CN113065431B (zh) | 一种基于隐马尔可夫模型和循环神经网络的人体违规行为预测方法 | |
CN105809716A (zh) | 融合超像素与三维自组织背景减除法的前景提取方法 | |
CN113516664A (zh) | 一种基于语义分割动态点的视觉slam方法 | |
CN103886609B (zh) | 基于粒子滤波和lbp特征的车辆跟踪方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |