CN111161309B

CN111161309B - 一种车载视频动态目标的搜索与定位方法

Info

Publication number: CN111161309B
Application number: CN201911131799.7A
Authority: CN
Inventors: 郑可尧; 邓颖; 郑红; 梁航; 张栋; 刘书珍
Original assignee: Beijing University Of Aeronautics And Astronautics Aerospace Industry Research Institute Co Ltd Danyang
Current assignee: Beijing University Of Aeronautics And Astronautics Aerospace Industry Research Institute Co Ltd Danyang
Priority date: 2019-11-19
Filing date: 2019-11-19
Publication date: 2023-09-12
Anticipated expiration: 2039-11-19
Also published as: CN111161309A

Abstract

本发明提供一种车载视频动态目标的搜索与定位方法，其特征在于，包括如下步骤：步骤一：输入待处理的视频；步骤二：目标运动估计：S21：获取视频帧间稠密光流，即视频图像序列中关键帧与当前帧图像之间每个像素点的运动信息；S22：本发明引入中值流思路，筛选参与预测的像素点，根据筛选出的像素点位置的变化预测新的目标位置；步骤三：限定目标搜索范围；步骤四：建立深度回归模型实现准确定位；步骤五：通过步骤四建立的深度回归模型进行目标跟踪检测，所述跟踪检测包括视频特征提取和目标搜索定位。本发明的方法能够平衡跟踪任务的准确性与实时性，在保障检测准确性的基础上，检测速度上有了大幅提升，能够满足车载视频动态目标检测需求。

Description

一种车载视频动态目标的搜索与定位方法

技术领域

本发明涉及计算机视觉、深度学习技术领域，具体涉及一种车载视频目标的搜索与定位方法。

背景技术

目标跟踪技术开始于二十世纪60年代初，但是直到二十世纪70年代后期，当计算机的性能达到了可以处理视频、图像等大规模的数据时，视频运动目标跟踪技术才得到了真正的发展和应用。特别是当光流法被提出后，图像处理以静态为主转向了以动态序列为主，但是随着研究的深入以及视频的复杂度增加，光流法很难满足实时性的要求，难以应用到实际的跟踪系统中，于是出现了许多其他跟踪算法。如基于核密度估计的均值漂移类方法，用加权采样样本(粒子)来近似目标分布概率的粒子滤波类方法，根据与目标模板相关性筛选候选样本的相关滤波类方法等。各种新型的网络设计与改造层出不穷，使得当下深度学习在跟踪领域的研究迅速发展。

虽然国内外学者对目标跟踪技术进行了多年研究，也有了不少技术和想法上的突破，目前的跟踪算法仍难以满足实际工程应用的需求。跟踪过程会因各种因素导致结果误差、跟踪漂移，甚至跟踪失败，目标跟踪面临的主要难点如下：

(1)目标遮挡

遮挡可分为部分遮挡与完全遮挡，发生部分遮挡时，跟踪算法应凭借目标未被遮挡的部分进行跟踪；当目标发生完全遮挡时，应及时做出判断，待目标重新出现于视场后，根据之前存储的目标特征重新对其检测、捕获。目前大部分跟踪器对于目标完全遮挡的情况缺少辨识能力，从而选择错误目标而导致跟踪失败。

(2)目标剧烈形变和尺度变化

剧烈形变会导致目标外观相关特征失效，从而影响跟踪器对候选区域的判别能力，因此，常见的应对方法是采用与目标形状无关的特征，如颜色直方图信息；目标尺度的突然改变，也会导致已有特征失效，常见的应对方法是建立不同尺度的特征搜索空间，选择似然性最大的候选对象，但这种做法会显著增大计算量。

(3)目标运动规律复杂

不同目标的运动规律各不相同，如车辆、飞机等的运动具有一定的相对规律，而行人、飞鸟等的运动则具有极强的灵活性，且其运动速度难以掌控。大部分跟踪器设计建立在物体不存在快速运动的假设之上，较大的位移可能会导致目标超出跟踪器的搜索范围，或者被列为低概率目标，影响跟踪准确率。

(4)复杂背景干扰

若跟踪目标所处背景过于复杂，尤其是包含一些与目标相似的特征时，则跟踪器往往容易被相似特征所欺骗，将背景像素错判为目标，进而导致跟踪对象漂移，甚至跟踪失败。

(5)摄像设备移动

目前，背景不变状况下的目标检测已基本成熟，然而，在大多数视频信息中，背景并非一成不变。从实际应用角度考虑，只有移动摄像头才能实现连续跟踪；但摄像设备的移动会导致整个背景的运动，使前景与背景更难区分，大大提高了目标检测与跟踪的难度。

(6)实时性要求

实际工程应用中，目标跟踪的目的不仅仅是检测目标，还要能实时地反馈跟踪信息以供其他部分使用，因此，跟踪器需要尽快获取目标准确位置，而处理速度的要求限制了算法复杂度。

虽然，近年来出现了大量视觉目标跟踪算法，但是，如何实现复杂环境下，移动平台下运动目标的准确和鲁棒的跟踪仍是一个尚未解决难题。这是因为复杂环境下的目标跟踪，常常受到难以预料的光照变化、遮挡、镜头运动非线性等因素的影响，与此同时，目标自身的外观也可能发生剧烈的形变和尺度变化。另外，为了满足实时性需求，跟踪算法还需尽量减少其计算复杂度，如何兼顾算法的准确性和实时性成为目标跟踪领域面临的严峻挑战。

发明内容

本发明重点从视频帧间特征融合方法和目标搜索定位策略两大环节出发，探索平衡跟踪任务的准确性与实时性的方法。

本发明的具体技术方案如下：

一种车载视频动态目标的搜索与定位方法，其特征在于，包括如下步骤：

步骤一：输入待处理的视频；

步骤二：目标运动估计：

S21：获取视频帧间稠密光流，即视频图像序列中关键帧与当前帧之间每个像素点的运动信息，包括点的移动方向和距离；

S22：筛选参与预测的像素点，根据筛选出的像素点位置的变化预测新的目标位置；

步骤三：限定目标搜索范围；

步骤四：建立深度回归模型并对模型进行训练；

步骤五：通过步骤四建立的深度回归模型进行目标跟踪检测，所述跟踪检测包括视频特征提取和目标搜索定位。

优选地，所述步骤S22中筛选参与预测的像素点的过程包括：

采用前向-后向误差，评估每个像素点的光流估计质量，给定样本点在t帧的初始位置x(t)，先追踪它到t+δt帧的位置x(t+δt)，再从位置x(t+δt)反向追踪回第t帧，得到回溯位置x'(t)，初始位置x(t)和回溯位置x'(t)之间的距离就是该点在t时间的FB反馈误差；

求取当前目标检测框中所有像素点的FB，保留其中误差最小的50％像素点作为最佳追踪点，取这些点的光流中值近似目标中心位移。

优选地，在预测任意第t帧目标中心时，都是以关键帧k为参照，计算k到t帧和t到k帧的光流，最佳追踪点取自第k帧且估算的是第k帧中目标检测框中心到第t帧目标中心的位移。

优选地，所述步骤三中限定目标搜索范围包括：

取两倍于原始目标长宽的搜索范围，即假设第t帧的前一个关键帧k中目标区域大小为(w_k，h_k)，则在t帧中估计目标中心为搜索中心，以长宽为(2w_k，2h_k)范围为搜索区域。

优选地，所述步骤四中建立深度回归模型包括：

S41：模型输入

回归模型输入为两个样本块的特征拼接：第一个样本块是前一帧中已知目标矩形区域，第二个样本块是靠后帧中矩形搜索区域，第二个样本块的长和宽分别是第一个样本块的长和宽的两倍；两个样本块的特征提取均借助印象网络；

所述模型输入中包含了前面帧已知的目标样本；

S42：模型输出

回归模型输出四个值(x₁，y₁，x₂，y₂)，表示目标在矩形搜索区域中的左上角和右下角的横纵坐标；

S43：回归网络结构

所述回归网络由四个全连接层构成，每一层都使用ReLU激活函数；前三个全连阶层均为4096个神经元，最后一个全连接层输出四个单元，分别对应样本的四个坐标值；

S44：损失函数选择

模型损失函数包括输出坐标回归损失和模型参数正则化损失；

所述输出坐标回归损失包括：

假设预测目标左上角和右下角相对于搜索区域的坐标为目标实际位置相对于搜索区域的坐标为(x₁，y₁，x₂，y₂)，搜索区域的宽和高为(w，h)，预测误差相对搜索区域大小归一化为：

回归问题采用Smooth L1损失函数：

采用Smooth L1函数计算坐标回归损失：

所述模型参数正则化损失使用L2损失函数f(x)＝x²计算，记为R；

综合以上两部分损失，得到整个模型的损失函数表达式如式(4)所示：

loss＝L_reg+βR (4)

其中β是正则化损失所贡献的权重。

优选地，所述步骤四中对模型进行训练包括：

步骤1，模型输入

模型要求成对输入视频中两帧图像I_k-d，I_k，I_k-d为关键帧，I_k为当前帧，d为当前帧与关键帧的间隔帧数；I_k-d中的目标位置(x_(k-d)，1，y_(k-d)，1，x_(k-d)，2，y_(k-d)，2)，坐标角标的第一个数字为关键帧序号，第二个数字为关键帧中目标边框的左上角和右下角坐标；

步骤2，模型输出，标记当前帧I_k中目标的预测边框；

步骤3，随机扰动，所述S41中I_k-d中的目标位置的四个坐标值分别利用正态分布N-{10,5}添加随机及扰动；

每次训练迭代中，利用ResNet101获取I_k-d深度特征以及计算I_k-d与I_k两帧之间的光流场，如果I_k是关键帧，更新关键帧，利用ResNet101获取其深度特征，然后，从两帧特征图上分别截取目标搜索区域，送入回归网络训练。

优选地，指定训练样本中的帧间隔范围d∈[1，L]，L为最大帧间间隔。

优选地，步骤五中所述视频特征提取包括：

利用两个子网络，表征时域运动信息的深度光流网和提取目标外观特征的深度特征网，通过深度回归网络实现视频关键帧与当前帧之间的时-空特征融合；

所述深度回归分成两个子机制：关键帧之间的特征聚合和关键帧到非关键帧的特征卷曲映射。

优选地，步骤五中所述目标搜索定位包括：

通过中值流方法预测下一帧目标中心，并指定两倍于目标先前尺寸的区域为搜索范围；

通过深度回归网预测目标区域坐标。

优选地，所述步骤五包括：

S51：视频样本制作

给定任意视频序列，标记初始帧中目标位置；

S52：关键帧提取与更新

S521：关键帧初始化：

选择视频中的第一帧，标记该帧中的目标位置，运行ResNet101特征网络提取该帧目标深度特征信息；

S522：关键帧更新

计算当前帧与前一关键帧之间的光流，根据光流对应的两帧之间的空间关系，映射关键帧的特征到当前帧；利用自适应条件判别当前帧是否为新的关键帧，如果是非关键帧，则映射特征就是该帧特征；如果是关键帧，则运行所述步骤四中训练后的深度回归模型，重新提取该帧空间特征，并将其与映射特征加权聚合，替换原关键帧；

S523：自适应条件

本发明设计一种关键帧自动选取策略，令IsKey_i∈{0，1}，判断第i帧是否为关键帧，0为不是关键帧，1为是关键帧；计算从第i-1帧到第i帧的光流场M_(i-1)→i，M_(i-1)→i为具有两通道(分别对应水平、垂直方向光流)的矩阵；对于图像上任意坐标p处像素，其光流位移量|M_(i-1)→i(p)|>τ时，认为该点发生形变或运动较大，可能降低特征传播质量；当类似点的数量超过原图总像素数n的一定比例γ时，该帧视作关键帧，τ，γ为指定的超参数；

该判别条件表示为：

式中，I_{A}为示性函数，表示当条件A成立时其值为1，否则其值为0；

S53：目标跟踪

根据关键帧中目标区域光流中值和目标尺寸，预测当前帧的目标中心和搜索范围，输入关键帧目标区域特征和当前帧搜索区域特征到深度回归网，得到当前帧目标准确定位；

S54：返回S522，周而复始，完成视频目标跟踪任务。

和现有技术相比，本发明提供的技术方案优点如下：

(1)本发明提供的技术方案能够消除光照变化、遮挡、镜头运动非线性等因素对目标的影响，且能够克服目标自身外观的剧烈形变和尺寸变化，实现对目标的实时有效跟踪，与现有VITAL和ECO等算法相比，本发明的方法在检测准确性上与其不相上下，但由于方法复杂性降低，在检测速度上本发明有了30％的提升，更加适用于车载视频动态目标检测等特殊环境下的快速检测。且本发明提供的方法中所有模型参数无需训练更新，也加快了算法运行速度。

(2)另外，本发明中光流估计主要是服务于视频的帧间特征融合，通过对像素点选取时误差的控制使得光流更稳定，目标检测的可靠性更强。本发明中通过对损失函数的优化，消除了不同目标之间的大小差异对损失计算的干扰，使得跟踪结果定位的准确性更强。

附图说明

图1为本发明提供的整体网络结构。

图2为本发明提供的跟踪算法运行总框架。

图3为本发明提供的方法测试样本跟踪性能展示。

具体实施方式

下面结合附图和具体实施例，进一步解释本发明提供的技术方案及工作原理。

备注：前向-后向误差(forward-backward error,FB error)。

图1为本发明提供的整体网络结构。图2为本发明提供的跟踪算法运行总框架，其中FeatNet为特征网，Flow Net为光流网，Reg Net为回归网。本发明的方法主要利用关键帧与当前帧之间的数据冗余减少大多数帧的特征计算开销。

本发明提供的技术方案的一个具体实施例如下：一种车载视频动态目标的搜索与定位方法(也可称为车载视频动态目标的跟踪方法)，包括如下步骤：

步骤一：输入待处理的视频(使用ResNet101进行处理)；

步骤二：目标运动估计：

具体筛选像素点的方法为：采用前向-后向误差，评估每个像素点的光流估计质量，给定样本点在t帧的初始位置x(t)，先追踪它到t+δt帧的位置x(t+δt)，再从位置x(t+δt)反向追踪回第t帧，得到回溯位置x'(t)，初始位置x(t)和回溯位置x'(t)之间的距离就是该点在t时间的FB反馈误差。FB越小，表明该点光流更稳定，描述运动的可靠性更强。

求取当前目标检测框中所有像素点的FB，保留其中误差最小的50％像素点作为最佳追踪点，取这些点的光流中值近似目标中心位移。(需要指出的是，本方法中光流估计主要是服务于视频的帧间特征融合，也就是说，光流输入中必定包含关键帧，而不一定是连续相邻两帧图像。因此，在预测任意第t帧目标中心时，都是以关键帧k为参照，计算k到t帧和t到k帧的光流，最佳追踪点取自第k帧且估算的是第k帧中目标检测框中心到第t帧目标中心的位移。)

步骤三：限定目标搜索范围；

由于已经得到了目标的近似区域中心，要确定搜索范围则主要考虑目标形变因素。本实施例中，取两倍于原始目标长宽的搜索范围，即假设第t帧的前一个关键帧k中目标区域大小为(w_k，h_k)，则在t帧中估计目标中心为搜索中心，以长宽为(2w_k，2h_k)范围为搜索区域。

步骤四：建立深度回归模型并对模型进行训练实现目标准确定位；

建立深度回归模型的步骤包括：

S41：模型输入

所述模型输入中包含了前面帧已知的目标样本；

S42：模型输出

S43：回归网络结构

S44：损失函数选择

所述输出坐标回归损失包括：

回归问题采用Smooth L1损失函数：

采用Smooth L1函数计算坐标回归损失：

所述模型参数正则化损失使用L2损失函数f(x)＝x²计算，记为R。

loss＝L_reg+βR (4)

其中β是正则化损失所贡献的权重。

另外还要模型进行训练，对模型进行训练的步骤包括：

步骤1，模型输入

模型要求成对输入视频中两帧图像I_k-d，I_k，I_k-d为关键帧，I_k为当前帧，d为当前帧与关键帧的间隔帧数；I_k-d中的目标位置(x_(k-d)，1，y_(k-d)，1，x_(k-d)，2，y_(k-d)，2)，坐标角标的第一个数字为关键帧序号，第二个数字为关键帧中目标边框的左上角和右下角坐标；(备注：由于本发明模型跟踪机制中，光流估计和特征映射操作只针对关键帧和当前帧，因此，指定训练样本中的帧间隔范围d∈[1，L]，L为最大帧间间隔，以保证输入两帧图像在内容上差异不会太大，在实验中指定L＝10。)

步骤2，模型输出，标记当前帧I_k中目标的预测边框；

步骤3，随机扰动，由于实际跟踪任务中，(x_(k-d)，1，y_(k-d)，1，x_(k-d)，2，y_(k-d)，2)来源于模型预测，与真实结果之间存在误差，因此，四个坐标值分别利用正态分布N-{10,5}添加随机及扰动；

视频特征提取步骤具体包括：

述目标搜索定位步骤包括包括：

通过深度回归网预测目标区域坐标。

下面以一个具体实例展示步骤五的目标跟踪检测具体过程：

S51：视频样本制作

给定任意视频序列，标记初始帧中目标位置；

S52：关键帧提取与更新

S521：关键帧初始化：

选择视频中的第一帧，标记该帧中的目标位置，直接运行ResNet101特征网络提取该帧目标深度特征信息；

S522：关键帧更新

S523：自适应条件

该判别条件表示为：

式中，I_{A}为示性函数，表示当条件A成立时其值为1，否则其值为0。

S53：目标跟踪

根据关键帧中目标区域光流中值和目标尺寸，预测当前帧的目标中心和搜索范围，输入关键帧目标区域特征和当前帧搜索区域特征到深度回归网，得到当前帧目标准确定位。

S54：返回S522，周而复始，完成视频目标跟踪任务。

图3展示了本发明跟踪方法在测试数据集上的表现，每行图像取自同一个视频序列，展示了本发明方法测试样本跟踪性能，图中白色框为groundtruth(真实目标)，黑色框为本发明方法预测结果，图像左上角数字为其在对应视频序列中的帧序号。

这些示例代表了特定的复杂场景：(a)光照剧烈变化场景；(b)目标翻转形变和背景变化场景；(c)目标形变和周围相似物干扰场景；(d)目标运动模糊场景；(e)相机视角变化场景；(f)目标被遮挡场景。

测试时，只给出第一帧目标初始位置，本发明的跟踪器在这些场景中均性能稳定，能够有效检测出待测物体。且由于算法复杂度大大降低，所有模型参数无需训练更新，也加快了算法运行速度，在检测速度上本发明相对现有算法有了30％的提升，更加适用于车载视频动态目标检测等特殊环境下的快速实时检测。

以上所述仅为本发明的优选实施例而已，并不用于限制本发明，对于本领域的技术人员来说，本发明可以有各种更改和变化。凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均包含在本发明的保护范围之内。

Claims

1.一种车载视频动态目标的搜索与定位方法，其特征在于，包括如下步骤：

步骤一：输入待处理的视频；

步骤二：目标运动估计：

S22：筛选参与预测的像素点，根据筛选出的像素点位置的变化预测新的目标位置；所述筛选参与预测的像素点的过程包括：求取当前目标检测框中所有像素点的FB反馈误差，保留其中FB反馈误差最小的50％像素点作为最佳追踪点，取这些点的光流中值近似目标中心位移；

步骤三：限定目标搜索范围；

步骤四：建立深度回归模型并对模型进行训练；所述建立深度回归模型包括：S41：模型输入，深度回归模型的输入为两个样本块的特征拼接：第一个样本块是前一帧中已知目标矩形区域，第二个样本块是靠后帧中矩形搜索区域，第二个样本块的长和宽是第一个样本块的长和宽的两倍；S42：模型输出：深度回归模型输出四个值(x₁,y₁,x₂,y₂)，表示目标在矩形搜索区域中的左上角和右下角的横纵坐标；

2.一种如权利要求1所述的车载视频动态目标的搜索与定位方法，其特征在于，所述步骤S22中筛选参与预测的像素点的过程还包括：

采用前向-后向误差，评估每个像素点的光流估计质量，给定样本点在t帧的初始位置x(t)，先追踪它到t+δt帧的位置x(t+δt)，再从位置x(t+δt)反向追踪回第t帧，得到回溯位置x^′(t)，初始位置x(t)和回溯位置x^′(t)之间的距离就是该点在t时间的FB反馈误差。

3.一种如权利要求2所述的车载视频动态目标的搜索与定位方法，其特征在于，在预测任意第t帧目标中心时，都是以关键帧k为参照，计算k到t帧和t到k帧的光流，最佳追踪点取自第k帧且估算的是第k帧中目标检测框中心到第t帧目标中心的位移。

4.一种如权利要求1所述的车载视频动态目标的搜索与定位方法，其特征在于，所述步骤三中限定目标搜索范围包括：

取两倍于原始目标长宽的搜索范围，即假设第t帧的前一个关键帧k中目标区域大小为(w_k,h_k)，则在t帧中估计目标中心为搜索中心，以长宽为(2_k,2h_k)范围为搜索区域。

5.一种如权利要求4所述的车载视频动态目标的搜索与定位方法，其特征在于，所述步骤四中建立深度回归模型还包括：

在S41中：所述模型输入中包含了前面帧已知的目标样本；

在S42后还包括：

S43：回归网络结构

S44：损失函数选择

所述输出坐标回归损失包括：

假设预测目标左上角和右下角相对于搜索区域的坐标为目标实际位置相对于搜索区域的坐标为(x₁,y₁,x₂,y₂)，搜索区域的宽和高为(w,h)，预测误差相对搜索区域大小归一化为：

回归问题采用Smooth L1损失函数：

采用Smooth L1函数计算坐标回归损失：

loss＝L_reg+βR (4)

其中β是正则化损失所贡献的权重。

6.一种如权利要求5所述的车载视频动态目标的搜索与定位方法，其特征在于，所述步骤四中对模型进行训练包括：

步骤1，模型输入

模型要求成对输入视频中两帧图像I_k-d,I_k，I_k-d为关键帧，I_k为当前帧，d为当前帧与关键帧的间隔帧数；I_k-d中的目标位置x_(k-d),,y_(k-d),,x_(k-d),,y_(k-d),)，坐标角标的第一个数字为关键帧序号，第二个数字为关键帧中目标边框的左上角和右下角坐标；

步骤2，模型输出，标记当前帧I_k中目标的预测边框；

7.一种如权利要求6所述的车载视频动态目标的搜索与定位方法，其特征在于，指定训练样本中的帧间隔范围d∈[1,L]，L为最大帧间间隔。

8.一种如权利要求1所述的车载视频动态目标的搜索与定位方法，其特征在于，所述视频特征提取包括：

9.一种如权利要求1所述的车载视频动态目标的搜索与定位方法，其特征在于，所述目标搜索定位包括：

通过深度回归网预测目标区域坐标。

10.一种如权利要求1所述的车载视频动态目标的搜索与定位方法，其特征在于，所述步骤五包括：

S51：视频样本制作

给定任意视频序列，标记初始帧中目标位置；

S52：关键帧提取与更新

S521：关键帧初始化：

S522：关键帧更新

S523：自适应条件

本发明设计一种关键帧自动选取策略，令IsKey_i∈{0,1}，判断第i帧是否为关键帧，0为不是关键帧，1为是关键帧；计算从第i-1帧到第i帧的光流场M_(i-1)→i，M_(i-1)→i为具有两通道(分别对应水平、垂直方向光流)的矩阵；对于图像上任意坐标p处像素，其光流位移量|M_(i-1)→i(p)|＞τ时，认为该点发生形变或运动较大，可能降低特征传播质量；当类似点的数量超过原图总像素数n的一定比例γ时，该帧视作关键帧，τ,γ为指定的超参数；

该判别条件表示为：

S53：目标跟踪

S54：返回S522，周而复始，完成视频目标跟踪任务。