CN111598928B

CN111598928B - 一种基于具有语义评估和区域建议的突变运动目标跟踪方法

Info

Publication number: CN111598928B
Application number: CN202010440974.7A
Authority: CN
Inventors: 姜素霞; 王延峰; 张焕龙; 李盼龙; 凌丹; 刘一君
Original assignee: Zhengzhou University of Light Industry
Current assignee: Zhengzhou University of Light Industry
Priority date: 2020-05-22
Filing date: 2020-05-22
Publication date: 2023-03-10
Anticipated expiration: 2040-05-22
Also published as: CN111598928A

Abstract

本发明提出了一种基于具有语义评估和区域建议的突变运动目标跟踪方法，用以解决现有方法运行效率不高，跟踪精度较低的问题。本发明的步骤为：首先初始化区域建议网络的模型参数和目标图像块的状态参数；由上一状态得到密集采样候选图像块,由区域建议网络生成目标区域候选建议，根据语义信息和上下文空间位置信息对候选建议进行筛选，截图少量与目标块大小相同的区域作为候选图像块，混合多个响应映射综合决策，将与目标图像块的相似度值最大的候选图像块作为最优候选图像块，学习和训练独立的滤波器对目标的尺度进行估计；将最优候选图像块作为当前帧的目标图像块及下一帧的目标状态参数进行下一帧图像的跟踪。本发明减少了目标检测的数量，提高区域建议网络目标建议的质量，提高了运行效率，能够很好的适应突变运动目标跟踪问题。

Description

一种基于具有语义评估和区域建议的突变运动目标跟踪方法

技术领域

本发明涉及目标跟踪的技术领域，尤其涉及一种基于具有语义评估和区域建议的突变运动目标跟踪方法，当目标在相邻帧之间出现突变运动时能够很好的实现目标的持续性跟踪。

背景技术

在计算机视觉领域中，视频中运动目标的跟踪是一个热点研究问题，但是由于跟踪环境的复杂性，目标运动的不确定性和摄像机成像等因素，往往导致相邻两帧图像中目标的位移量很大，致使目标跟踪失败。针对目标突变这一现象，传统的基于目标平滑性假设的众多算法很容易跟踪失败。而区域建议可以在全局内给出目标建议，从而在目标出现突变运动时区域建议可以覆盖目标的真实状态来达到跟踪目标。因此，用区域建议的方法解决运动目标突变的状况，可以保证目标跟踪算法的鲁棒性。

在视频跟踪中，用区域建议网络的方法来解决目标突变运动的问题，首先要解决传统区域建议方法两个明显的问题：(1)区域建议网络由离线训练，可以检测出特定的一些类别的目标。在跟踪时如果将所有的区域建议都用来进行目标匹配，效率会大大降低；(2)区域建议网络所给出的区域往往不能直接作为图像块用来进行匹配。因此，必须寻找一种能够减少无关的区域建议和有效的从候选块截取图像块的目标跟踪方法。

发明内容

针对现有的突变运动目标跟踪方法跟踪效果交叉的问题，本发明提出了一种基于具有语义评估和区域建议的突变运动目标跟踪方法，将区域建议和语义评估引入到跟踪中，在全局提供更加可靠的目标候选样本，从而解决突变运动的目标跟踪问题。

为达到上述目的，本发明采用以下技术方案：

一种基于具有语义评估和区域建议的突变运动目标跟踪方法，其步骤如下：

步骤一：初始化区域建议网络模型：将网络模型选用VGG-16模型用来提取图像特征，设置最大目标建议数量、重叠阈值和测试量表，设定候选目标建议输出的阈值；

步骤二：采用语义评估和区域建议在全局内获得少量高质量的含有目标的区域建议：1)根据跟踪目标与目标建议的图像块的语义信息判断目标的类别，将不属于该目标类别的候选区域去除；2)根据上下文位置信息在候选区域位置上截取与目标图像块大小形同的区域作为候选图像块；

步骤三：采用混合跟踪算法搜索候选图像块：1)将目标区域候选图像块和当前图片上一帧目标位置的图像块进行对比；2)将于目标图像块的相似度值最大的候选目标图像块做为当前帧的最后候选图像块的位置；3)在确定目标图像块位置后，以图像块中点为中心，在当前帧以固定步长截取与当前目标图像块具有相同宽高比例的一系列图像块，然后将这些图像块调整至与目标图像块一样的大小，再次与上一帧目标图像块进行对比，并将相似度值最大的图像块做为当前帧图像的目标真实状态；

步骤四：将步骤三输出的最优候选图像块作为当前帧的目标图像块及下一帧的目标状态参数，返回步骤二进行下一帧图像的跟踪；

步骤五：重复步骤二…步骤四，直至达到最后一帧图像，输出每一帧图像的最优候选图像块，实现运动目标的跟踪。

所述步骤一中初始化目标图像块的状态参数的方法为：读取第一帧图像的数据信息，确定目标图像块在第一帧图像内的状态参数[x,y,w,h]，其中，x、y为目标图像块在每帧图像左上角像素点的坐标值，w为目标图像块的宽度，h为目标图像块的高度。

所述步骤二中根据目标语义信息判断目标类别筛选的方法是：根据计算目标在上一时刻与候选区域建议的重叠率(IOU)：

其中其中i为候选建议的类别，j为第i类的第j个候选建议，p_a为目标在前一帧中的位置信息，p_b(i,j)为上一帧中第类的第个候选区域边界框位置信息，则可得到最大重叠率：

IOU_(t,j')＝max{IOU_(1,1),...IOU_(2,1),...IOU_(20,j)}

其中t是在当前帧图像中跟踪的目标的类别；因此当前帧的候选区与建议经过筛选后为：

p_t＝{p(t,1),p(t,2),...p(t,n)}

其中p_t是经过语义评估后生成的对象级候选区域建议。

所述的候选目标建议输出的阈值设置为0.1。

所述步骤二中使用上下文空间位置信息获取候选图像块的方法是：由目标在上一帧的空间位置信息在当前帧的对象级区域候选建议截取图像块，建立一个以目标检测框左上角为原点的坐标系，目标位置由中心点坐标表示；目标在检测框中的相对位置表示为：

其中a₁和b₁分别为上一帧目标检测框的宽度和高度，a₀和b₀为目标检测框中的目标位置；x_k和y_k是目标在上一帧的空间位置信息；同样的方法在当前帧建立目标检测框的坐标系；候选图像块由x_k和y_k确定；其位置估计为：

其中x和y为图像块的中心位置，c₁和d₁为当前帧目标检测框的宽度和高度；由此在当前帧中得到图像块对目标进行视觉跟踪定位。

所述步骤三中的混合跟踪算法为：分别将目标区域候选图像块和当前图片上一帧目标位置的图像块学习训练的滤波器进行对比；将于目标图像块的相似度值最大的候选目标图像块做为当前帧的最后候选图像块的位置。

所述步骤三中的目标尺度估计为：

采用尺度搜索策略在目标周围构造一个目标金字塔，并学习一个单独的一维尺度估计滤波器来估计目标尺度，训练样本设置为大小如下的矩形框：

f＝{aⁿM×aⁿN},n∈{-16,-15,...,15,16}

其中a＝1.02为尺度因子，原图像块大小为M×N，即上一帧目标图像块宽度和高度；n为以尺度因子为步长，原图像块所放缩的倍数，放缩后的图像块大小为aⁿM×aⁿN；s为尺度样本的个数；即n从-16取到16，一共放缩了33次，共33个样本；最终得到目标在当前帧的预测位置[x_best,y_best,w_best,h_best]。

所述步骤三中相似度值的计算方法为：将候选目标块进行循环矩阵移位，构造出复杂的样本，然后利用循环矩阵移位得到丰富的训练集进行训练，对应的标签是根据距离的不同来进行赋值的；利用岭回归进行分类器训练，并且目标函数即为损失函数及正则化项之和:

其中，x_i和y_i为分类器训练的样本和样本对应的标签，i表示第i个样本和样本标签，w是表示权重系数的列向量，λ为控制复杂性的参数；然后提取图像块的HOG特征，将它们作为随机变量，计算目标图像与候选图像之间的相似度：

其中，a_i为列向量，k为核函数；首先得到密集采样候选图像块与目标图像的响应，并找出其最大响应值R_kmax和位置(x_kbest,y_kbest)，w^T为w的转置，z为候选图像块，x_i为分类器第i个训练样本i∈N⁺；

然后计算区域建议候选图像块与目标图像块的最大响应和对应的位置：

R_max＝{R_1max,R_2max,R_3max,...,R_nmax}

P＝{(x_i,y_i)|i＝1,2,....,n}

对比密集采样图像块最大响应R_kmax与区域建议图像块R_max值得大小，当R_max≥R_kmax时：

R_kmax←R_imax

(x_kbest,y_kbest)←(x_i,y_i)

判断当i＝n时，将最后得到的(x_kbest,y_kbest)作为目标在当前帧的位置。

本发明的有益效果：采用区域建议网络进行全局的运动状态建议，并在此基础上，采用语义评估和上下文空间位置信息来进一步的对候选建议进行筛选，最终获得少量的高质量的包含目标真实运动状态候选区域建议使得能够在全局内去找到与目标最相似的图像块区域，从而适应突变运动下的目标跟踪问题，后续对跟踪目标的识别、理解和分析具有重要意义。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明的流程图；

图2为根据上下文空间信息在建议区域截取图像块操作示意图；

图3为本发明与其他算法的距离精度比较示意图；

图4为本发明与其他算法的重叠率比较示意图；

图5为本发明与其他算法的跟踪效果示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有付出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

如图1所示，一种基于具有语义评估和区域建议的突变运动目标跟踪方法，主要思想在于：(1)将区域建议引入到跟踪领域中，实现目标运动状态的全局性预测。(2)引入语义评估和上下文空间位置信息，对区域建议进行筛选获得候选图像块，减少了区域建议的数量，同时提高了建议质量，使得其数量和质量进一步得到提高。(3)通过将区域建议候选和传统密集采样图像块进行综合决策对比，最终确定目标位置(4)最后进行目标的尺度评估获得目标的精确运动状态。具体步骤如下：

步骤一：初始化网络模型参数和目标图像块的状态参数。

初始化区域建议网络模型的参数，读取第一帧图像的数据信息，确定目标在第一帧图像内的状态参数[x,y,w,h]，其中，x、y为图像块左上角像素点的坐标值，w为目标宽度，h为目标高度；确定目标的类别，根据语义信息对区域建议网络的建议进行初步的筛选，留下与跟踪目标具有同一类别的区域建议，然后根据上下文的空间位置信息在区域建议内截取候选图像块。

步骤二：采用语义评估和区域建议在全局内获得少量高质量的含有目标的区域建议。

采用的混合跟踪算法搜索候选最优图像块的实现方法为：1)根据目标在上一帧处的真实位置得到密集采样候选图像块，再由区域建议网络产生含有目标的一些区域建议，经过语义评估和上下文空间位置信息得到少量区域建议候选图像块；2)得到密集采样候选图像块的相似度最大值；3)将区域建议候选图像块的最大相似度最大值与步骤2)中的值进行对比，若大于步骤2)中的相似度最大值，则将当前的图像块和相似度最大值进行替换；4)重复步骤3),当区域建议候选图像块对比完后，得到相似度值最大的候选图像块作为当前帧图像的最优候选图像块；5)确定目标位之后对目标进行尺度估计，以得到更加精确的目标状态。

基于具有语义评估和区域建议网络的突变运动目标跟踪问题就是利用目标图像块与候选图像块之间的相似度，在每一帧图像中找到与目标图像块相似度值最大的候选图像块。当新的一帧图像到来时，依据所提算法以及在上一帧图像中寻找的最优候选图像块的信息，在新的一帧图像上搜索最优候选图像块作为下一帧图像的目标状态参数。主要包括以下几个内容：

A.语义评估。所用到的区域建议网络为经过离线训练的Faster R-CNN网络，该网络经过离线训练可以识别20类的物体。而在目标跟踪时往往跟踪的是其中的一类目标。为了有效的进行目标跟踪，需要对区域建议进行筛选，首先，用边界框得分粗略筛选(C>0.1，C为候选目标建议输出的阈值)类别级语义提案，过滤后得到每个边界框位置[x,y,w,h]，其中x、y为目标图像块在每帧图像左上角像素点的坐标值，w为目标图像块的宽度，h为目标图像块的高度。得到20类的候选区域的位置：

P＝{p_(1,1),p_(1,3),....,p_(20,1),p_(20,2),...p_(20,j)}

其中i为候选建议的类别，j为第i类的第j个候选建议。然后计算每一个边界框与目标在前一帧的实际位置之间的重叠率(IOU)：

其中p_a为目标在前一帧中的位置信息，p_b(i,j)为上一帧中第(i)类的第(j)个候选区域边界框位置信息，则可得到最大重叠率：

IOU_(t,j')＝max{IOU_(1,1),...IOU_(2,1),...IOU_(20,j)}

其中t是在当前帧图像中跟踪的目标的类别。因此当前帧的候选区与建议经过筛选后为：

p_t＝{p(t,1),p(t,2),...p(t,n)}

其中p_t是经过语义评估后生成的对象级候选区域建议。

B.通过上下文空间位置信息获取候选图像块。经过语义评估筛选后的区域建议包含所跟踪的真实目标的区域，然而这些区域中图像块的大小不尽相同，故不能直接将其作为候选图像用于视觉跟踪。相对于直接从区域建议的中心截取候选图像块而可能导致在跟踪目标的某一部分时而失败(如人脸，眼睛等)。通过上下文空间位置信息从对象级的候选区与建议进行图像块的截取，所提出的方法能够适应对物体的局部区域进行跟踪的任务。由目标在上一帧的空间位置信息在当前帧的对象级区域候选建议截取图像块，如图2(a)所示，建立一个以目标检测框左上角为原点的坐标系，目标位置由中心点坐标表示。目标在检测框中的相对位置表示为：

其中a₁和b₁分别为上一帧目标检测框的宽度和高度，a₀和b₀为目标检测框中的目标位置。x_k和y_k是目标在上一帧的空间位置信息。同样的方法在当前帧建立目标检测框的坐标系。候选图像块由x_k和y_k确定。如图2(b)所示，其位置估计为：

其中x和y为图像块的中心位置。由此在当前帧中得到图像块对目标进行视觉跟踪定位，如图2(c)所示。

步骤三：采用混合跟踪算法搜索候选图像块。

A.目标位置估计。将目标进行循环矩阵移位，构造出复杂的样本，然后利用循环矩阵移位得到丰富的训练集进行训练，对应的标签是根据距离的不同来进行赋值的。利用岭回归进行分类器训练，并且目标函数即为损失函数及正则化项之和:

其中，x_i和y_i为分类器训练的样本和类别，w是表示权重系数的列向量，λ为控制复杂性的参数。然后提取图像块的HOG特征，将它们作为随机变量，计算目标图像与候选图像之间的相似度：

其中，a_i为列向量，k为核函数。首先得到密集采样候选图像块与目标图像的响应，并找出其最大响应值R_kmax和位置(x_kbest,y_kbest)，w^T为w的转置，z为候选图像块，x_i为分类器第i个训练样本i∈N+。然后计算区域建议候选图像块与目标图像块的最大响应和对应的位置：

R_max＝{R_1max,R_2max,R_3max,...,R_nmax}

P＝{(x_i,y_i)|i＝1,2,....,n}

对比密集采样图像块最大响应R_kmax与区域建议图像块R_max值得大小，当R_max≥R_{k ma}时：

R_kmax←R_imax

(x_kbest,y_kbest)←(x_i,y_i)

B.目标尺度估计。在的到目标的位置后，采用尺度搜索策略在目标周围构造一个目标金字塔，并学习一个单独的一维尺度估计滤波器来估计目标尺度，训练样本设置为大小如下的矩形框：

其中M×N是目标之前的大小。a＝1.02为尺度因子，s＝33为样本数。最终得到目标在当前帧的预测位置[x_best,y_best,w_best,h_best]。

步骤四：将输出的最优候选图像块作为当前帧图像的目标图像块及下一帧的目标状态参数，进行下一帧图像的跟踪。

步骤五：重复步骤二…步骤四，实现运动目标的跟踪。

本发明的实施步骤如下：初始化目标状态参数和区域间与网络模型参数，由区域建议网络生成类别级目标区域建议，然后经过语义评估筛选得到对象级区域建议，由目标的上下文空间位置信息在区域建议内截图候选目标图像块，同时截取得到密集采样候选图像块。将目标进行循环矩阵移位，构造出复杂的样本，然后利用循环矩阵移位得到丰富的训练集进行训练，利用岭回归进行分类器训练，学习得到滤波器，使用使候选图像块的HOG特征与滤波器得到的响应图的最大响应值确定目标位置。找到当前帧的最优候选图像块，然后进行目标的尺度估计，确定最终的最佳目标状态，并以此图像块作为下一帧图像的跟踪目标；重复以上操作，实现对运动目标的跟踪。当目标在相邻帧之间发生突变运动时，本发明能够防止目标的丢失实现有效的持续性跟踪，提高在复杂环境下跟踪方法的适应能力。本发明用于实施的硬件环境为：Intel(R)Core(TM)i3-8100 CPU 3.6GHZ计算机、8GB内存，运行的软件环境是：Matlab R2017a和Windows10。视频序列均可在网站http://www.visual-tracking.net上获得。

本发明采用定性和定量两种方式来评价其有效性。定性评价方式采用本发明方法和基于上下文感知框架的相关滤波(CACF)跟踪方法﹑基于核相关滤波(KCF)、基于鲁棒视觉跟踪的精确尺度估计(DSST)跟踪方法和基于时空上下文(STC)算法进行比较，它们在部分帧内的跟踪效果图如图5所示，其从上到下依次为HUMAN9、Human7、FACE1、BlurBody。其中在第一个和第二个视频中目标在垂直方向上的帧间位移分别达到了22和31个像素，第三个和第四个视频中目标在水平方向上的帧间运动位移达到76和90个像素，这些突变运动而产生的帧间大位移使得经典的跟踪算法---CACF跟踪器表现出不适应，而在使用基于鲁棒视觉跟踪的精确尺度估计DSST跟踪器和基于时空上下文的STC跟踪器然有些时候能够适应这些大位移的运动，但在跟踪精度上，明显的差于本发明提出的方法，本发明提出的方法获得了好的跟踪效果。定量评价方式采用中心位置误差率(DP)和目标重叠率(OP)来评价。中心误差(DP)是通过计算跟踪目标的中心位置和真实位置之间的欧氏距离，一般其值越小说明跟踪结果比较优。目标重叠率OP(Overlap)是指跟踪结果与真实目标区域面积与操作和并操作的比值，其值越大，说明跟踪结果越好。图3展示了本发明与KCF、DSST、CACF、STC算法的距离精度DP值比较结果，图4展示相应跟踪算法的目标重叠率OP值的比较结果。综合图5结果表示，本发明提供的目标跟踪方法能够很好地解决目标突变的运动问题，获得了较好地跟踪表现。

以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种基于具有语义评估和区域建议的突变运动目标跟踪方法，其特征在于，其步骤如下：

2.根据权利要求1所述的一种基于具有语义评估和区域建议的突变运动目标跟踪方法，其特征在于：所述步骤一中初始化目标图像块的状态参数的方法为：读取第一帧图像的数据信息，确定目标图像块在第一帧图像内的状态参数[x,y,w,h]，其中，x、y为目标图像块在每帧图像左上角像素点的坐标值，w为目标图像块的宽度，h为目标图像块的高度。

3.根据权利要求1所述的一种基于具有语义评估和区域建议的突变运动目标跟踪方法，其特征在于：所述步骤二中根据目标语义信息判断目标类别筛选的方法是：根据计算目标在上一时刻与候选区域建议的重叠率(IOU)：

IOU_(t,j')＝max{IOU_(1,1),...IOU_(2,1),...IOU_(20,j)}

p_t＝{p(t,1),p(t,2),...p(t,n)}

其中p_t是经过语义评估后生成的对象级候选区域建议。

4.根据权利要求1所述的一种基于具有语义评估和区域建议的突变运动目标跟踪方法，其特征在于：所述的候选目标建议输出的阈值设置为0.1。

5.根据权利要求1所述的一种基于具有语义评估和区域建议的突变运动目标跟踪方法，其特征在于：所述步骤二中使用上下文空间位置信息获取候选图像块的方法是：由目标在上一帧的空间位置信息在当前帧的对象级区域候选建议截取图像块，建立一个以目标检测框左上角为原点的坐标系，目标位置由中心点坐标表示；目标在检测框中的相对位置表示为：

6.根据权利要求1所述的一种基于具有语义评估和区域建议的突变运动目标跟踪方法，其特征在于：所述步骤三中的混合跟踪算法为：分别将目标区域候选图像块和当前图片上一帧目标位置的图像块学习训练的滤波器进行对比；将于目标图像块的相似度值最大的候选目标图像块做为当前帧的最后候选图像块的位置。

7.根据权利要求1-6任一条所述的一种基于具有语义评估和区域建议的突变运动目标跟踪方法，其特征在于：所述步骤三中的目标尺度估计为：

f＝{aⁿM×aⁿN},n∈{-16,-15,...,15,16}

8.根据权利要求7所述的一种基于具有语义评估和区域建议的突变运动目标跟踪方法，其特征在于：所述步骤三中相似度值的计算方法为：将候选目标块进行循环矩阵移位，构造出复杂的样本，然后利用循环矩阵移位得到丰富的训练集进行训练，对应的标签是根据距离的不同来进行赋值的；利用岭回归进行分类器训练，并且目标函数即为损失函数及正则化项之和:

R_max＝{R_1max,R_2max,R_3max,...,R_nmax}

P＝{(x_i,y_i)|i＝1,2,....,n}

R_kmax←R_imax

(x_kbest,y_kbest)←(x_i,y_i)