CN110827318A - 一种基于多层语义特征与多响应图融合的目标跟踪方法 - Google Patents
一种基于多层语义特征与多响应图融合的目标跟踪方法 Download PDFInfo
- Publication number
- CN110827318A CN110827318A CN201910994934.4A CN201910994934A CN110827318A CN 110827318 A CN110827318 A CN 110827318A CN 201910994934 A CN201910994934 A CN 201910994934A CN 110827318 A CN110827318 A CN 110827318A
- Authority
- CN
- China
- Prior art keywords
- response
- network model
- search image
- fusion
- regression
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 230000004044 response Effects 0.000 title claims abstract description 95
- 230000004927 fusion Effects 0.000 title claims abstract description 41
- 238000000034 method Methods 0.000 title claims abstract description 29
- 238000012549 training Methods 0.000 claims abstract description 40
- 238000000605 extraction Methods 0.000 claims abstract description 11
- 238000001514 detection method Methods 0.000 claims abstract description 6
- 238000011478 gradient descent method Methods 0.000 claims description 5
- 239000003550 marker Substances 0.000 abstract 1
- 239000010410 layer Substances 0.000 description 21
- 230000006870 function Effects 0.000 description 14
- 230000000007 visual effect Effects 0.000 description 6
- 238000004422 calculation algorithm Methods 0.000 description 4
- 238000011156 evaluation Methods 0.000 description 4
- 238000005286 illumination Methods 0.000 description 3
- 238000002474 experimental method Methods 0.000 description 2
- 230000003993 interaction Effects 0.000 description 2
- 238000011176 pooling Methods 0.000 description 2
- 230000008569 process Effects 0.000 description 2
- 238000013528 artificial neural network Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 230000002860 competitive effect Effects 0.000 description 1
- 238000013527 convolutional neural network Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000009499 grossing Methods 0.000 description 1
- 230000007787 long-term memory Effects 0.000 description 1
- 238000005065 mining Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 239000002356 single layer Substances 0.000 description 1
- 230000017105 transposition Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/20—Analysis of motion
- G06T7/215—Motion-based segmentation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20081—Training; Learning
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Biophysics (AREA)
- Evolutionary Computation (AREA)
- Health & Medical Sciences (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- Biomedical Technology (AREA)
- Software Systems (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Mathematical Physics (AREA)
- General Health & Medical Sciences (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- General Engineering & Computer Science (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Multimedia (AREA)
- Image Analysis (AREA)
Abstract
本发明公开了一种基于多层语义特征与多响应图融合的目标跟踪方法,包括:将提取的搜索图像块的多层语义特征分别输入不同分支的卷积层中生成多个响应图,并进行多响应图的融合,融合后得到最终响应图作为回归网络模型的输出;训练、更新模型的参数,将搜索图像块与对应的训练标记图组成训练样本对,送入模型中,直到预定义的损失函数小于设定的阈值或迭代步数超过上限;利用模型进行在线检测,裁剪出与前一帧图像块同样大小的搜索图像块,作为训练好的模型的输入,进行多层语义特征提取与多响应图融合,通过搜索最终响应图的最大值,确定预测的目标位置;提取多个不同尺寸的搜索图像块,通过比较回归响应结果的最大值,确定对应的目标尺寸。
Description
技术领域
本发明涉及目标跟踪领域,尤其涉及一种基于多层语义特征与多响应图融合的目标跟踪方法。
背景技术
视觉目标跟踪的目的是在视频的每一帧中找到一个紧紧包围目标物体的边界框,它是仅在第一帧中给出目标的边界框时估计视频中未知目标物体位置的问题,这是计算机视觉领域的基本问题之一。与目标检测相比,必须检测已知类中的多个对象并将其定位在单个图像中,由于视频的特性,例如:运动模糊、照明变化、相机和物体的运动、变形和与物体的相互作用(遮挡、物体之间的视觉相似性等),使得视频中的视觉目标跟踪是更具挑战性的任务。此外,由于大多数视觉目标跟踪应用,例如:自动驾驶、视频监视,需要实时跟踪,因此视觉目标跟踪器必须比视频的帧速率更快地操作。
基于相关滤波器的跟踪方法[1]-[5]由于其计算效率和有竞争力的性能而引起了人们的关注,该方法只需要很低的计算量就可以在傅里叶域中学习相关滤波器。Bolme等人[1]提出了误差最小平方和滤波器,Henriques等人[3]提出了具有多通道特征的核化相关滤波器(KCFs),Hong等人[4]提出了使用短期相关跟踪器和长期存储器的组合系统。为了克服手工特征的不充分表现,在相关滤波器[6,7]中使用了深度卷积特征,从而实现了最先进的性能。然而,这些方法需要大量的计算负荷,因为需要使用深度卷积特征来训练多个按比例缩放的滤波器。
基于相关滤波器的跟踪器虽然实现了可区分的性能,然而傅立叶域中的相关优化会引起边界效应。与传统的基于相关滤波器的跟踪器不同,深度回归跟踪器试图通过空间域中的梯度下降来获得近似解。它们将相关滤波器表示为卷积运算并构建单通道输出卷积层,像在典型的卷积神经网络中所使用的一样。最近的跟踪器[8,9]使用深度回归模型,与相关滤波器跟踪器相比,性能得到显著改善。Chen等人[9]引入了用于视觉目标跟踪的单层回归模型,并利用一种新颖的自动难例挖掘方法来促进回归模型的训练。
然而,目前基于深度回归模型的方法,虽然利用了深度特征表征目标物体,但是没有充分利用不同层语义特征对目标表示的差别,从而不能很好地将目标从背景之中区分开;同时,通过搜索单一响应图的最大值,在面对目标被遮挡、扭曲旋转等挑战时容易出现跟踪漂移的情况,因此模型不够鲁棒。
发明内容
本发明提供了一种基于多层语义特征与多响应图融合的目标跟踪方法,本发明避免了低水平特征表示的不充分性,充分利用深度特征的多层语义信息和判别信息,可以通过多层语义特征与多响应图融合提高跟踪的准确度,详见下文描述:
一种基于多层语义特征与多响应图融合的目标跟踪方法,所述方法包括:
将提取的多层语义特征分别输入不同分支的卷积层中生成多个响应图,并进行多响应图的融合,融合后得到最终响应图作为回归网络模型的输出;
训练、更新回归网络模型的参数,回归网络模型的训练标记图由高斯函数生成,将搜索图像块与训练标记图组成的训练样本对,送入回归网络模型中,直到预定义的损失函数小于设定的阈值或迭代步数超过上限,回归网络型训练结束;
利用训练好的回归网络模型进行在线检测,裁剪出与前一帧图像块同样大小的搜索图像块,将此裁剪的搜索图像块作为训练好的回归网络模型的输入,进行多层语义特征提取与多响应图融合,通过搜索最终响应图的最大值,作为回归响应结果,确定预测的目标物体的位置;
提取多个不同尺寸的搜索图像块,分别送入回归网络模型中,对应得到多个最终响应图,通过比较回归响应结果的最大值,确定对应的目标尺寸。
其中,所述提取的多层语义特征具体为:
首先进行回归网络模型的初始化,回归网络模型的输入为一个搜索图像块,输出为回归响应图;
使用深度网络VGG16中的不同层对搜索图像块进行多层语义特征提取。
进一步地,所述将提取的多层语义特征分别输入不同分支的卷积层中生成多个响应图,并进行多响应图的融合具体为:
将深度网络VGG16中的conv4_3和conv5_3这两个语义特征进行不同方式的组合,分别为二者相加得到特征F1、conv5_3本身作为特征F2、二者通过按通道方向串联的方式组合得到特征F3;
多响应图融合是特征F1、F2、F3分别输入三个卷积层,分别得到三个响应图R1、R2、R3;R1与R2通过双线性融合得到P1,R2与R3也通过响应图融合得到P2,最后P1与P2相加得到最终响应图。
其中,所述训练、更新回归网络模型的参数,回归网络模型的训练标记图由高斯函数生成具体为:
通过梯度下降法迭代训练回归网络模型,根据搜索图像块,提取样本特征X,并通过高斯函数生成相应的训练标记图Y;通过求解预定义的损失函数Lreg的最小化问题来训练卷积层的网络参数W。
进一步地,所述通过比较回归响应结果的最大值,确定对应的目标尺寸具体为:
提取多个不同尺寸的搜索图像块,通过比较生成响应图的最大值,对目标的尺寸进行平滑的估计;
将多个搜索图像块缩放至与初始帧的搜索图像块大小一致,以匹配回归网络模型,将缩放后的搜索图像块输入到回归网络模型中,生成多个响应图,通过比较每个响应图的最大值来确定当前帧的目标尺寸,然后,以平滑的方式更新目标物体的比例。
所述方法还包括:实时更新跟踪器。
本发明提供的技术方案的有益效果是:
1、本发明避免了低水平手工特征表示的不充分性,充分利用深度特征的多层语义信息,更好地区分开目标物体和背景,提高跟踪的准确性;
2、本发明的多层特征分别经过卷积层预测响应图,从而形成多支路的网络并进行多响应图融合,形成相应图的信息交互和位置关联,提高跟踪的鲁棒性。
附图说明
图1为一种基于多层语义特征与多响应图融合的目标跟踪方法的流程图;
图2为在OTB2013数据集上得到的准确率图;
图3为在OTB2013数据集上得到的成功率图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚,下面对本发明实施方式作进一步地详细描述。
为了解决以上问题,需要能够全面、自动、准确提取目标物体的特征,并根据响应图进行目标物体跟踪的方法。研究表明:深度网络的低层次特征含有目标物体更多的细节信息,而高层次特征含有目标物体更多的语义信息,可以通过结合多层次的语义信息和多支路响应图融合,提高目标物体跟踪的准确性。
实施例1
本发明实施例提出了一种基于多层语义特征与多响应图融合的目标跟踪方法,参见图1,该方法包括以下步骤:
101:首先进行回归网络模型的初始化,回归网络模型的输入为一个搜索图像块,输出为回归响应图;
其中,整个回归网络模型包括:多语义特征提取和多响应图融合。根据第一帧中给定的目标位置和尺寸,裁剪得到以目标为中心的搜索图像块作为模型输入。
102:使用深度网络VGG16中的不同层对步骤101中得到的搜索图像块进行多层语义特征提取;
103:由步骤102中提取的多层语义特征分别进入不同分支的卷积层中生成多个响应图,并进行多响应图的融合,融合后得到最终响应图作为回归网络模型的输出;
104:利用梯度下降法迭代训练回归网络模型,重复更新回归网络模型的参数,回归网络模型的训练标记图由高斯函数生成,将搜索图像块与训练标记图组成的训练样本对,送入回归网络模型中,直到预定义的损失函数小于设定的阈值或迭代步数超过上限,回归网络型训练结束;
105:利用训练好的回归网络模型进行在线检测,裁剪出与前一帧图像块同样大小的搜索图像块,将此裁剪的搜索图像块作为训练好的回归网络模型的输入,进行多层语义特征提取与多响应图融合,通过搜索最终响应图的最大值,作为回归响应结果,确定预测的目标物体的位置;
106:再进行尺度估计,提取多个不同尺寸的搜索图像块,分别送入步骤105中的回归网络模型,对应得到多个最终响应图,通过比较回归响应结果的最大值,确定对应的目标尺寸;
即,每个最终响应图都有一个最大值,比较这些最大值找到其中最大的一个,获取该最大值对应的最终响应图,进而获得该最终响应图对应的尺寸,作为最后估计的尺寸。
107:最后进行回归网络模型的更新,重复执行步骤101至步骤106,为了使回归网络模型适应目标外观的变化,需要实时更新跟踪器。
其中,更新跟踪器具体为:根据估计的位置和尺寸裁剪搜索图像块并生成相应的训练标记图,在后续的每一帧中更新回归网络模型;同时为了减轻回归网络模型更新过程中噪声引起的模型漂移,使用历史帧的训练数据进行回归网络模型的在线更新。
综上所述,本发明实施例避免了低水平手工特征表示的不充分性,充分利用深度特征的多层语义信息,更好地区分开目标物体和背景,并且通过多层语义特征与多响应图融合,提高跟踪的准确度。
实施例2
下面结合具体的计算公式、图1对实施例1中的方案进行进一步地介绍,详见下文描述:
201:首先进行回归网络模型的初始化,回归网络模型输入为一个搜索图像块,输出为回归响应图,整个回归网络模型包括:多语义特征提取和多响应图融合;
其中,根据第一帧中给定的目标位置和尺寸,裁剪得到以目标为中心的搜索图像块作为回归网络模型的输入。
202:使用深度网络VGG16中的不同层对步骤201中得到的搜索图像块进行多层语义特征提取;
其中,多层语义特征提取是使用深度神经网络VGG16提取搜索图像块的特征,以充分表示目标物体的外观。这里使用的VGG16网络,仅保留前两个池化层,以保证后面的输出具有相同尺寸。这个网络具有5个阶段,每个阶段又包含2个或者3个卷积层。对于低层次的特征,如前3个阶段的特征,其包含物体更多的判别信息;而高层次的特征,如4、5阶段的特征包含物体更多的语义信息。所以在对搜索图像块提取特征时,分别提取conv4_3和conv5_3的特征。
203:步骤202中提取的多层语义特征分别进入不同分支的卷积层中生成多个响应图,并进行多响应图的融合,融合后的最终响应图作为回归网络模型的输出;
将conv4_3和conv5_3这两个语义特征进行不同方式的组合,分别为二者相加得到特征F1、conv5_3本身作为特征F2、二者通过按通道方向串联的方式组合得到特征F3。多响应图融合是特征F1、F2、F3分别输入三个卷积层,分别得到三个响应图R1、R2、R3。R1与R2通过双线性融合算法进行响应图融合得到P1,R2与R3也通过双线性融合算法进行响应图融合得到P2,最后P1与P2相加得到最终响应图P。
多响应图融合所用到的双线性融合算法,具体公式如下:
Bilinear(xs)=f(xs)Tg(xs) (1)
对于输入图像其中w,h和c分别为输入图像x的宽、高和通道数。是输入图像x的空间位置的集合。是输入图像x在每个空间位置处,对应的通道方向上的值,为实数集合。f(xs)和g(xs)分别表示对输入图像提取特征,T表示向量的转置。为了保持输出向量的空间分辨率,不进行双线性融合算法后续的池化求和操作。
204:利用梯度下降法迭代训练回归网络模型,重复更新回归网络模型的参数,回归网络模型的训练标记图由高斯函数生成,将搜索图像块与训练标记图组成的训练样本对,送入回归网络模型中,直到预定义的损失函数小于设定的阈值或迭代步数超过上限,回归网络模型训练结束。
由高斯函数将搜索图像块转化为训练标记图的公式如下:
其中,σ为方差,x,y代表像素点的横、纵坐标,标记图中心点的坐标为原点(0,0),高斯函数峰值代表目标位置,它的方差与目标的长和宽成正比。
通过梯度下降法迭代训练回归网络模型,它是一个最小化损失函数Lreg的过程。根据搜索图像块,可以提取其样本特征X,并通过高斯函数生成相应的训练标记图Y。通过求解以下预定义的损失函数Lreg的最小化问题来训练卷积层的网络参数W。
其中,*表示卷积运算,λ是防止发生过拟合的正则化参数。
205:利用训练好的回归网络模型进行在线检测;
利用步骤201中训练得到的回归网络模型,进行后续帧的目标位置预测。以前一帧预测的目标位置为中心,裁剪出同样大小的搜索图像块,再将这个裁剪的搜索图像块作为训练好的回归网络模型的输入,进行多层语义特征提取与多响应图融合,搜索生成最终响应图的最大值,即为下一帧预测的目标位置。
206:进行尺度估计,提取多个不同尺寸的搜索图像块,通过比较它们生成响应图的最大值,对目标的尺寸(即长和宽)进行平滑的估计。
在获得当前帧中的目标位置之后,提取三种尺度不同的搜索图像块,搜索图像块的中心位置与上一帧的目标中心位置重合,尺寸不一且成比例。将多个搜索图像块缩放至与初始帧的搜索图像块大小一致,以匹配回归网络模型,将缩放后的搜索图像块输入到回归网络模型中,生成多个响应图,通过比较每个响应图的最大值来确定当前帧的目标尺寸。然后,以平滑的方式更新目标物体的比例:
(wt,ht)=β(wp,hp)+(1-β)(wt-1,ht-1) (4)
其中,wt和ht分别表示第t帧时目标物体的宽和高,类似地,wt-1和ht-1分别表示第t-1帧时目标物体的宽和高。而wp和hp分别表示预测的目标物体的宽和高,β表示更新目标尺度的平滑因子。
207:进行回归网络模型的更新。
为了使回归网络模型适应不同的物体外观,逐步更新跟踪器。对于每一帧,依靠估计的位置和比例裁剪搜索图像块并生成相应的训练标记图。为了减轻噪声更新引起的回归网络模型漂移,使用历史帧的训练数据对回归网络模型进行在线更新。
综上所述,本发明实施例避免了低水平手工特征表示的不充分性,充分利用深度特征的多层语义信息,更好地区分开目标物体和背景,并且通过多层语义特征与多响应图融合,提高跟踪的准确度。
实施例3
下面结合具体的实验对实施例1和2中的方案进行可行性验证,详见下文描述:
本方法在OTB2013[10]数据库上进行实验,该数据库含有51个视频序列,每个序列都被11种挑战情况标注,分别为:光照变化(Illumination Variation)、尺度变化(ScaleVariation)、遮挡(Occlusion)、形变(Deformation)、运动模糊(Motion Blur)、快速运动(Fast Motion)、平面内旋转(In-Plane Rotation)、平面外旋转(Out-of-PlaneRotation)、超出视野(Out-of-View)、背景杂乱(Background Clutter)、低分辨率(LowResolution)。
OTB2013的评估基于一次通过评估方式(One Pass Evaluation),中心位置误差(CLE)的值是通过测量真实值和生成的边界框之间的平均欧几里德距离,距离精度(DP)是CLE小于某个阈值的序列中的相对帧数,重叠精度(OP)是边界框重叠超过阈值的帧所占百分比。所有跟踪器都使用精确度图和成功率图展示在OTB2013数据库的表现,平均DP在精确度图中的一系列阈值上绘制,用于对跟踪器进行排名的平均DP分数以每个跟踪器的20个像素作为阈值。平均OP绘制在成功率图中,曲线下面积(AUC)分数用于对成功率图中的每个跟踪器进行排名。精确率图和成功率图展示了OTB2013上所有视频序列的平均结果。
将本方法(Ours)与不进行多语义特征融合和响应图融合的网络(Baseline)进行对比,使用一次性通过(OPE)的评价方式,生成准确率图和成功率图,实验结果如图2和图3。
可以看到,如图2所示,在准确率图上本方法Ours的值为0.884,而Baseline的值为0.872。同时,如图3所示,在成功率图上Ours的值为0.613,而Baseline的值为0.567,在两张图上Ours一致高于Baseline。因此,多语义特征融合避免了低水平手工特征表示的不充分性,充分利用深度特征的多层语义信息,更好地区分开目标物体和背景。同时通过多响应图融合,综合多个响应图考虑目标物体可能出现的位置,提高跟踪的准确度。
参考文献:
[1]Bolme D S,Beveridge J R,and Draper B A.Visual object trackingusing adaptive correlation filters.In Proceedings of IEEE Conference onComputer Vision and Pattern Recognition(CVPR),2010.
[2]DanelljanM,G,and Khan F S.Accurate scale estimation forrobust visual tracking.In Proceedings of the British Machine VisionConference,2014.
[3]Henriques J F,Caseiro R,and Martins P.High-speed trackingwithkernelized correlation filters[J].IEEE Trans.Pattern Anal,2015,37(3):583–596.
[4]Hong Z,Chen Z,and Wang C.Multi-Store tracker(MUSTer):A cognitivepsychology inspired approach to object tracking.In Proceedings of IEEEConference on Computer Vision and Pattern Recognition (CVPR),2015.
[5]Choi J,Chang H J,and Jeong J.Visual tracking using attention-modulated disintegration and integration.In Proceedings of IEEE Conference onComputer Vision and Pattern Recognition(CVPR),2016.
[6]Danelljan M,G,and Khan F S.Convolutional features forcorrelation filter based visual tracking,”In Proceedings of IEEEInternational Conference on Computer Vision Workshops,2015.
[7]Danelljan M,Robinson A,and Khan F S.Beyond correlation filters:Learning continuous convolution operators for visual tracking.In Proceedingsof European Conference on Computer Vision,2016,pp.472–488.
[8]Wang L,Ouyang W,and Wang X.Visual tracking with fullyconvolutional networks.In Proceedings ofthe IEEE International Conference onComputer Vision,2015;pp.3119–3127.
[9]Chen K,Tao W.Convolutional regression for visual tracking[J].IEEETrans.Image Process.2018,27,3611–3620.
[10]Wu Y,Lim J,and Yang M H.Online object tracking:A benchmark.InProceedings of IEEE Conference on Computer Vision and Pattern Recognition(CVPR),2013,pp.2411–2418.
本领域技术人员可以理解附图只是一个优选实施例的示意图,上述本发明实施例序号仅仅为了描述,不代表实施例的优劣。
以上所述仅为本发明的较佳实施例,并不用以限制本发明,凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
Claims (6)
1.一种基于多层语义特征与多响应图融合的目标跟踪方法,其特征在于,所述方法包括:
将提取的多层语义特征分别输入不同分支的卷积层中生成多个响应图,并进行多响应图的融合,融合后得到最终响应图作为回归网络模型的输出;
训练、更新回归网络模型的参数,回归网络模型的训练标记图由高斯函数生成,将搜索图像块与训练标记图组成的训练样本对,送入回归网络模型中,直到预定义的损失函数小于设定的阈值或迭代步数超过上限,回归网络型训练结束;
利用训练好的回归网络模型进行在线检测,裁剪出与前一帧图像块同样大小的搜索图像块,将此裁剪的搜索图像块作为训练好的回归网络模型的输入,进行多层语义特征提取与多响应图融合,通过搜索最终响应图的最大值,作为回归响应结果,确定预测的目标物体的位置;
提取多个不同尺寸的搜索图像块,分别送入回归网络模型中,对应得到多个最终响应图,通过比较回归响应结果的最大值,确定对应的目标尺寸。
2.根据权利要求1所述的一种基于多层语义特征与多响应图融合的目标跟踪方法,其特征在于,所述提取的多层语义特征具体为:
首先进行回归网络模型的初始化,回归网络模型的输入为一个搜索图像块,输出为回归响应图;
使用深度网络VGG16中的不同层对搜索图像块进行多层语义特征提取。
3.根据权利要求1所述的一种基于多层语义特征与多响应图融合的目标跟踪方法,其特征在于,所述将提取的多层语义特征分别输入不同分支的卷积层中生成多个响应图,并进行多响应图的融合具体为:
将深度网络VGG16中的conv4_3和conv5_3这两个语义特征进行不同方式的组合,分别为二者相加得到特征F1、conv5_3本身作为特征F2、二者通过按通道方向串联的方式组合得到特征F3;
多响应图融合是特征F1、F2、F3分别输入三个卷积层,分别得到三个响应图R1、R2、R3;R1与R2通过双线性融合得到P1,R2与R3也通过响应图融合得到P2,最后P1与P2相加得到最终响应图。
4.根据权利要求1所述的一种基于多层语义特征与多响应图融合的目标跟踪方法,其特征在于,所述训练、更新回归网络模型的参数,回归网络模型的训练标记图由高斯函数生成具体为:
通过梯度下降法迭代训练回归网络模型,根据搜索图像块,提取样本特征X,并通过高斯函数生成相应的训练标记图Y;通过求解预定义的损失函数Lreg的最小化问题来训练卷积层的网络参数W。
5.根据权利要求1所述的一种基于多层语义特征与多响应图融合的目标跟踪方法,其特征在于,所述通过比较回归响应结果的最大值,确定对应的目标尺寸具体为:
提取多个不同尺寸的搜索图像块,通过比较生成响应图的最大值,对目标的尺寸进行平滑的估计;
将多个搜索图像块缩放至与初始帧的搜索图像块大小一致,以匹配回归网络模型,将缩放后的搜索图像块输入到回归网络模型中,生成多个响应图,通过比较每个响应图的最大值来确定当前帧的目标尺寸,然后,以平滑的方式更新目标物体的比例。
6.根据权利要求1所述的一种基于多层语义特征与多响应图融合的目标跟踪方法,其特征在于,所述方法还包括:实时更新跟踪器。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910994934.4A CN110827318A (zh) | 2019-10-18 | 2019-10-18 | 一种基于多层语义特征与多响应图融合的目标跟踪方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910994934.4A CN110827318A (zh) | 2019-10-18 | 2019-10-18 | 一种基于多层语义特征与多响应图融合的目标跟踪方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN110827318A true CN110827318A (zh) | 2020-02-21 |
Family
ID=69549609
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910994934.4A Pending CN110827318A (zh) | 2019-10-18 | 2019-10-18 | 一种基于多层语义特征与多响应图融合的目标跟踪方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110827318A (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113269808A (zh) * | 2021-04-30 | 2021-08-17 | 武汉大学 | 视频小目标跟踪方法和装置 |
CN115100509A (zh) * | 2022-07-15 | 2022-09-23 | 山东建筑大学 | 基于多分支块级注意力增强网络的图像识别方法及系统 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105869178A (zh) * | 2016-04-26 | 2016-08-17 | 昆明理工大学 | 一种基于多尺度组合特征凸优化的复杂目标动态场景无监督分割方法 |
CN108830170A (zh) * | 2018-05-24 | 2018-11-16 | 杭州电子科技大学 | 一种基于分层特征表示的端到端目标跟踪方法 |
CN109902748A (zh) * | 2019-03-04 | 2019-06-18 | 中国计量大学 | 一种基于多层信息融合全卷积神经网络的图像语义分割方法 |
WO2019136946A1 (zh) * | 2018-01-15 | 2019-07-18 | 中山大学 | 基于深度学习的弱监督显著性物体检测的方法及系统 |
-
2019
- 2019-10-18 CN CN201910994934.4A patent/CN110827318A/zh active Pending
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105869178A (zh) * | 2016-04-26 | 2016-08-17 | 昆明理工大学 | 一种基于多尺度组合特征凸优化的复杂目标动态场景无监督分割方法 |
WO2019136946A1 (zh) * | 2018-01-15 | 2019-07-18 | 中山大学 | 基于深度学习的弱监督显著性物体检测的方法及系统 |
CN108830170A (zh) * | 2018-05-24 | 2018-11-16 | 杭州电子科技大学 | 一种基于分层特征表示的端到端目标跟踪方法 |
CN109902748A (zh) * | 2019-03-04 | 2019-06-18 | 中国计量大学 | 一种基于多层信息融合全卷积神经网络的图像语义分割方法 |
Non-Patent Citations (2)
Title |
---|
张春婷: ""基于双线性卷积神经网络的视觉目标跟踪算法"" * |
张静;高伟;刘安安;高赞;苏育挺;张哲: ""基于运动轨迹的视频语义事件建模方法"" * |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113269808A (zh) * | 2021-04-30 | 2021-08-17 | 武汉大学 | 视频小目标跟踪方法和装置 |
CN113269808B (zh) * | 2021-04-30 | 2022-04-15 | 武汉大学 | 视频小目标跟踪方法和装置 |
CN115100509A (zh) * | 2022-07-15 | 2022-09-23 | 山东建筑大学 | 基于多分支块级注意力增强网络的图像识别方法及系统 |
CN115100509B (zh) * | 2022-07-15 | 2022-11-29 | 山东建筑大学 | 基于多分支块级注意力增强网络的图像识别方法及系统 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110298404B (zh) | 一种基于三重孪生哈希网络学习的目标跟踪方法 | |
Wang et al. | Multifocus image fusion using convolutional neural networks in the discrete wavelet transform domain | |
CN114730490A (zh) | 用于虚拟现实和增强现实的系统和方法 | |
CN111523447A (zh) | 车辆跟踪方法、装置、电子设备及存储介质 | |
Narr et al. | Stream-based active learning for efficient and adaptive classification of 3d objects | |
Iraei et al. | Object tracking with occlusion handling using mean shift, Kalman filter and edge histogram | |
CN111125397A (zh) | 一种基于卷积神经网络的布料图像检索方法 | |
CN110827318A (zh) | 一种基于多层语义特征与多响应图融合的目标跟踪方法 | |
Meier et al. | Using the condensation algorithm to implement tracking for mobile robots | |
Kim et al. | Robust facial landmark extraction scheme using multiple convolutional neural networks | |
CN110852241B (zh) | 一种应用于护理机器人的小目标检测方法 | |
CN110598771A (zh) | 一种基于深度语义分割网络的视觉目标识别方法和装置 | |
Hamid et al. | Stereo matching algorithm based on hybrid convolutional neural network and directional intensity difference | |
Fatemeh Razavi et al. | Integration of colour and uniform interlaced derivative patterns for object tracking | |
Nie et al. | Multiple person tracking by spatiotemporal tracklet association | |
CN106446832B (zh) | 一种基于视频的实时检测行人的方法 | |
CN111339342B (zh) | 一种基于角度三元中心损失的三维模型检索方法 | |
Hodne et al. | Detecting and suppressing marine snow for underwater visual slam | |
CN116912763A (zh) | 一种融合步态人脸模态的多行人重识别方法 | |
Elashry et al. | Feature matching enhancement using the graph neural network (gnn-ransac) | |
Mao et al. | Disparity filtering with 3D convolutional neural networks | |
Farfan-Escobedo et al. | Towards accurate building recognition using convolutional neural networks | |
Karbasi et al. | Real-time hand detection by depth images: A survey | |
CN113129332A (zh) | 执行目标对象跟踪的方法和装置 | |
Mahgoub et al. | Multi-target tracking using hierarchical convolutional features and motion cues |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
WD01 | Invention patent application deemed withdrawn after publication |
Application publication date: 20200221 |
|
WD01 | Invention patent application deemed withdrawn after publication |