CN108242062B

CN108242062B - 基于深度特征流的目标跟踪方法、系统、终端及介质

Info

Publication number: CN108242062B
Application number: CN201711439352.7A
Authority: CN
Inventors: 吴子章; 王凡; 唐锐
Original assignee: Beijing Zongmu Anchi Intelligent Technology Co ltd
Current assignee: Beijing Zongmu Anchi Intelligent Technology Co ltd
Priority date: 2017-12-27
Filing date: 2017-12-27
Publication date: 2023-06-30
Anticipated expiration: 2037-12-27
Also published as: CN108242062A

Abstract

本发明提供一种基于深度特征流的目标跟踪方法、系统、终端及介质，由视觉传感器捕获连续的视频帧序列，从视频帧序列中获得当前帧图像；检测移动物体，并确定至少一个包含该移动物体的关键帧、建立当前帧图和关键帧图像中对应的特征之间的映射关系并得到光流估计矢量图；分别过滤关键帧图像中的静止物体得到关于移动物体的运行特征提取网络提取特征图；将关键帧移动物体特征传播到当前帧上。本发明采用深度特征流处理图像速度快，对于视频分割、识别任务无影响，使用端到端的方式进行映射可以提高精度。

Description

基于深度特征流的目标跟踪方法、系统、终端及介质

技术领域

本发明涉及车载电子技术领域，特别是涉及一种基于深度特征流的目标跟踪方法、系统、终端及介质。

背景技术

ADAS即先进驾驶辅助系统又称主动安全系统，主要包括车身电子稳定系统ESC、自适应巡航系统ACC、车道偏移报警系统LDW、车道保持系统LKA、前向碰撞预警系统FCW、开门预警DOW、自动紧急刹车系统AEB、交通标志识别TSR、盲点探测BSD、夜视系统NV、自动泊车系统APS等。

ADAS主动安全系统不仅要识别静态的物体，也要识别动态的物体。目前深度卷积神经网络在图像识别任务上已经取得了极大的成功，然而将图像识别网络转换成视频识别网络却是一件十分复杂的工作，因为直接对视频中的每一帧进行测试速度会很慢，造成这种结果的原因是目标追踪中耗时最多的是候选区特征提取过程。

发明内容

为了解决上述的以及其他潜在的技术问题，本发明提供了一种基于深度特征流的目标跟踪方法、系统、终端及介质，第一，通过光流估计直接把关键帧的特征图传播到当前帧，且通过用特征传播得到的特征图代替真实特征图进而提高速度，借助于光流场进行特征在帧与帧之间的传播，在效果较差的帧上把其附近特征较好的帧传播过来，形成特征聚集；从而避免每一帧上都进行很复杂的卷积运算，减小了运算量，而且对于以后的视频分割、识别等任务并无影响。第二，光流估计利用双线性插值法将关键帧的特征图传播到当前帧的对应位置中，这种方式在给定一个关键帧以及两帧求出来的特征图之后，就可以对关键帧的特征图进行传播即把每个像素的特征图拷到对应当前帧的位置当中，可以解决遮挡、运动模糊等视频中的很多帧会有不理想的情况。第三，根据估计值做特征传播，把前后帧的特征都整合到当前帧，这三组特征图做一个特征聚合，最终得到一个融合多帧的特征图来进行测试，可以提高精度。

一种基于深度特征流的目标跟踪方法，包括以下步骤：

S01：由视觉传感器捕获连续的视频帧序列，从视频帧序列中获得当前帧图像；

S02：检测移动物体，并从当前帧图像时间节点之前的视频帧序列中确定至少一个包含该移动物体的关键帧；从当前帧图像时间节点之后的视频帧序列中确定至少一个包含该物体的关键帧；

S03：分别建立当前帧图和关键帧图像中对应的特征之间的映射关系，分别得到光流估计矢量图；

S04：分别过滤关键帧图像中的静止物体得到关于移动物体的运行特征提取网络提取特征图；

S05：将当前帧图像时间节点之前的关键帧获取的运行特征提取网络提取特征图与当前帧图像时间节点之前的关键帧图像得到光流估计矢量图通过特征传播整合在一起，得到第一特征融合图像；将当前帧图像时间节点之后的关键帧获取的运行特征提取网络提取特征图与当前指针图像节点之后的关键帧图像得到光流估计矢量图通过特征传播整合在一起，得到第二特征融合图像；将第一特征融合图像和第二特征融合图像进行特征聚合，得到特征聚合图；

S06：在特征聚合图上运行任务网络，得到当前帧图像上标注出移动物体目标候选区框的输出结果。

进一步地，步骤S02中根据追踪模型函数以及收集的追踪目标数据给一个追踪目标确定一个或几个关键帧图像时，关键帧图像的数量是根据追踪目标自起始出现在视觉传感器捕获图像时间开始至追踪目标消失在视觉传感器捕获图像为止的时间段长短来确定关键帧数量的。

进一步地，步骤S02中根据追踪模型函数以及收集的追踪目标数据给一个追踪目标确定一个或几个关键帧图像时，关键帧图像的数量是根据追踪目标数据中高于权重阈值的表征特征像素点所在矢量的大小来确定关键帧数量的；当矢量的大小越大，关键帧图像的抽取的间隔越频繁；当矢量的大小越小，关键帧图像的抽取的间隔越稀疏。

一种基于深度特征流的目标跟踪系统，包括视觉传感器、运动目标检测模块和目标追踪模块；

所述视觉传感器用于捕获连续的视频帧序列；

所述运动目标检测模块根据捕获的至少两帧图像为检测基础检测移动物体，将检测到的移动物体作为检测目标，建立追踪模型函数，收集追踪目标数据；根据追踪模型函数以及收集的追踪目标数据给每一个追踪目标从视觉传感器捕获图像中确定一个或几个关键帧；由视觉传感器根据捕获的至少当前帧图像和关键帧图像为基础，给当前帧图像中的每个像素点赋予一个速度矢量，这样就形成了一个运动矢量场；根据当前帧图像的各个像素点的速度矢量特征对当前帧图像进行动态分析，生成由各个像素点的光流矢量组成的光流场；若当前帧图像中没有运动目标，则光流矢量在整个图像区域是连续变化的；当前帧图像中有运动物体时，则光流矢量不连续，根据光流矢量图中图像区域的不连续变化区域确定移动物体的位置；

所述目标追踪模块根据运动目标检测模块检测到的移动物体作为追踪目标，根据追踪模型函数和收集的追踪目标数据在当前帧图像中搜索追踪目标中最具有代表性的关键特征点的疑似区域，分析这些当前帧图像中的关键特征点在视觉传感器捕获连续的视频帧序列中的移动特征是否是连续的或者符合运动逻辑的，则认定当前帧图像中的疑似区域是追踪目标，并以追踪目标的标识符标记该疑似区域。

进一步地，所述运动目标检测模块还包括关键帧抽取频率分析模块，所述关键帧抽取频率分析模块根据追踪目标自起始出现在视觉传感器捕获图像时间开始至追踪目标消失在视觉传感器捕获图像为止的时间段长短来确定关键帧数量。

进一步地，所述运动目标检测模块还包括关键帧抽取频率分析模块，关键帧抽取频率分析模块根据追踪目标数据中高于权重阈值的表征特征像素点所在矢量的大小来确定关键帧数量。

进一步地，步骤S02中还包括以下步骤：由视觉传感器根据捕获的至少两帧图像为检测基础检测移动物体，将检测到的移动物体作为追踪目标，建立追踪模型函数，收集追踪目标数据。

进一步地，步骤S03建立关系时还包括以下步骤：

由视觉传感器根据捕获的当前帧图像，估计当前帧图像中可能为移动物体的追踪目标候选区，并提取追踪目标候选区中移动物体的表征特征，

在关键帧图像中遍历这些表征特征进而找到全面覆盖这些表征特征的关键帧图像；

建立当前帧图像的追踪目标候选区中的表征特征和与关键帧图像中与这些表征特征对应的特征之间的映射关系。

进一步地，所述步骤S05中特征传播时，利用双线性插值法将关键帧图像的特征图传播到当前帧图像的对应位置中，在传播后的当前帧图像上运行任务网络，得到当前帧图像上标注出移动物体目标候选区框的输出结果。

进一步地，步骤S05中利用双线性插值法将关键帧图像的特征图传播到当前帧图像的对应位置中，具体的特征传播方法为：

S051：通过双线性缩放到和特征图有同样的空间分辨率用来传播，它将当前帧i的位置投影回关键帧k，特征变换通过双线性插值实现，所述双线性插值的公式：

其中c代表特征图f的一个通道，其中q列出了关键帧图像运行特征提取网络得到的特征图中所有的空间位置，其中p表示当前帧图像中表征特征的空间位置，p+δp表示关键帧图像中表征特征的空间位置，G代表双线性插值核。双线性插值核G是二维的，双线性插值核G可以被分解成两个一维的核。

S052：将双线性插值二维核G分解成两个一维的核，具体由下的公式：

G(q,p+δp)＝g(q_x,p_x+δp_x)·g(q_y,p_y+δp_y)

其中，g(a,b)＝max(0,1-|a-b|)，qx表示空间位置中的横坐标位置，px+δpx表示关键帧空间位置中的x坐标，qy表示空间位置中的横坐标位置，py+δpy表示关键帧空间位置中的y坐标,g表示双线性插值二维核分解成的一维核。

S053：一维核的振幅通过scale field进行调制，scale field和特征图空间的通道维度相同。scale field通过在两帧上应用尺度函数获得，进而得到从关键帧图像的表征特征传播到当前帧图像的表征特征，特征传播函数定义为：

f_i＝w(f_k,M_i→k,S_i→k)

其中W表示对特征图的所有位置和所有通道都使用双线性插值的公式，然后按元素将特征和尺度函数相乘；其中M_i→k是2D的光流场，其中f_k是关键帧图像上的卷积特征映射，其中S_i→k是规模领域。

进一步地，步骤S05中利用双线性插值法将关键帧图像的特征图传播到当前帧图像的对应位置中，在传播后的当前帧图像上运行任务网络，运行任务网络的结构采用基于CNN的FlowNet结构、FlowNetHalf网络结构或FlowNetInception网络结构。

进一步地，采用基于CNN的FlowNet网络结构时，神经网络的输出复杂度为正常。

进一步地，采用基于CNN的FlowNetHalf网络结构时，相比FlowNet网络结构时，将FlowNet每层卷积核的数量减少至一半，复杂度降低至1/4。采用FlowNetInception网络结构，复杂度降至1/8。“Inception/Reduction”模块由四个分支组成：1x1卷积(#1x1)，1x1卷积-3x3卷积(#1x1-#3x3)，1x1卷积-3x3卷积-3x3卷积(#1x1-#3x3-#3x3)，以及3x3最大池化和其后的1x1卷积(#池化，步长为2)。

一种基于深度特征流的目标跟踪车载终端，其特征在于，包括处理器和存储器，所述存储器存储有程序指令，所述处理器运行程序指令实现上述的方法中的步骤。

一种计算机可读存储介质，其上存储有计算机程序，其特征在于：该程序被处理器执行时实现上述的方法中的步骤。

如上所述，本发明的具有以下有益效果：

第一，采用深度特征流中第一个优点是处理速度快。由实验结果可以看出，只识别当前帧图像得到特征图对比用光流估计将关键帧图像特征传播到当前帧中得到的识别图像，这两张特征图相似度极高，通过特征传播得到的特征图与真实特征图非常相近，而且对于以后的视频分割、识别等任务并无影响，但速度却提升很多。

第二，采用深度特征流的第二个优点是精度高。目前仅对当前帧图像运动物体检测，视频中的很多帧会有不理想的情况，比如遮挡、运动模糊等情况，这些问题对于单帧的识别是会失败的，而现有的计算机视觉中很少有方法解决在视频中检测问题做好的研究，已有的方法主要关注于后处理，即在做完单帧检测任务后，在时间的维度上对box做一些后处理包括关联、过滤等，通过这样的方式来提高识别精度，但通过这样的方式并不是端到端的方式，而且工程性较强。本方案在视频数据上，利用视频数据多帧之间的关系和深层特征得到一个特征聚合，使用端到端的方式进行映射提高精度。

附图说明

为了更清楚地说明本发明实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1显示为本发明的流程图。

图2显示为光流场应用在深度特征流中特征传播的流程图。

图3显示为一实施例中本发明的流程图。

图4显示为图3中步骤S04的分解流程图。

图5显示为本发明图像的传播流程图。

具体实施方式

以下通过特定的具体实例说明本发明的实施方式，本领域技术人员可由本说明书所揭露的内容轻易地了解本发明的其他优点与功效。本发明还可以通过另外不同的具体实施方式加以实施或应用，本说明书中的各项细节也可以基于不同观点与应用，在没有背离本发明的精神下进行各种修饰或改变。需说明的是，在不冲突的情况下，以下实施例及实施例中的特征可以相互组合。

须知，本说明书所附图式所绘示的结构、比例、大小等，均仅用以配合说明书所揭示的内容，以供熟悉此技术的人士了解与阅读，并非用以限定本发明可实施的限定条件，故不具技术上的实质意义，任何结构的修饰、比例关系的改变或大小的调整，在不影响本发明所能产生的功效及所能达成的目的下，均应仍落在本发明所揭示的技术内容得能涵盖的范围内。同时，本说明书中所引用的如“上”、“下”、“左”、“右”、“中间”及“一”等的用语，亦仅为便于叙述的明了，而非用以限定本发明可实施的范围，其相对关系的改变或调整，在无实质变更技术内容下，当亦视为本发明可实施的范畴。

参见图1～图5，基于深度特征流的目标跟踪方法，包括以下步骤：

作为优选实施例，步骤S02中根据追踪模型函数以及收集的追踪目标数据给一个追踪目标确定一个或几个关键帧图像时，关键帧图像的数量是根据追踪目标自起始出现在视觉传感器捕获图像时间开始至追踪目标消失在视觉传感器捕获图像为止的时间段长短来确定关键帧数量的。

作为优选实施例，步骤S02中根据追踪模型函数以及收集的追踪目标数据给一个追踪目标确定一个或几个关键帧图像时，关键帧图像的数量是根据追踪目标数据中高于权重阈值的表征特征像素点所在矢量的大小来确定关键帧数量的；当矢量的大小越大，关键帧图像的抽取的间隔越频繁；当矢量的大小越小，关键帧图像的抽取的间隔越稀疏。

基于深度特征流的目标跟踪系统，包括视觉传感器、运动目标检测模块和目标追踪模块；

所述视觉传感器用于捕获连续的视频帧序列；

作为优选实施例，所述运动目标检测模块还包括关键帧抽取频率分析模块，所述关键帧抽取频率分析模块根据追踪目标自起始出现在视觉传感器捕获图像时间开始至追踪目标消失在视觉传感器捕获图像为止的时间段长短来确定关键帧数量。

作为优选实施例，所述运动目标检测模块还包括关键帧抽取频率分析模块，关键帧抽取频率分析模块根据追踪目标数据中高于权重阈值的表征特征像素点所在矢量的大小来确定关键帧数量。

作为优选实施例，步骤S02中还包括以下步骤：由视觉传感器根据捕获的至少两帧图像为检测基础检测移动物体，将检测到的移动物体作为追踪目标，建立追踪模型函数，收集追踪目标数据。

作为优选实施例，步骤S03建立关系时还包括以下步骤：

作为优选实施例，所述步骤S05中特征传播时，利用双线性插值法将关键帧图像的特征图传播到当前帧图像的对应位置中，在传播后的当前帧图像上运行任务网络，得到当前帧图像上标注出移动物体目标候选区框的输出结果。

作为优选实施例，步骤S05中利用双线性插值法将关键帧图像的特征图传播到当前帧图像的对应位置中，具体的特征传播方法为：

G(q,p+δp)＝g(q_x,p_x+δp_x)·g(q_y,p_y+δp_y)

f_i＝w(f_k,M_i→k,S_i→k)

作为优选实施例，步骤S05中利用双线性插值法将关键帧图像的特征图传播到当前帧图像的对应位置中，在传播后的当前帧图像上运行任务网络，运行任务网络的结构采用基于CNN的FlowNet结构、FlowNetHalf网络结构或FlowNetInception网络结构。

作为优选实施例，采用基于CNN的FlowNet网络结构时，神经网络的输出复杂度为正常。

作为优选实施例，采用基于CNN的FlowNetHalf网络结构时，相比FlowNet网络结构时，将FlowNet每层卷积核的数量减少至一半，复杂度降低至1/4。采用FlowNetInception网络结构，复杂度降至1/8。“Inception/Reduction”模块由四个分支组成：1x1卷积(#1x1)，1x1卷积-3x3卷积(#1x1-#3x3)，1x1卷积-3x3卷积-3x3卷积(#1x1-#3x3-#3x3)，以及3x3最大池化和其后的1x1卷积(#池化，步长为2)。

一种基于深度特征流的目标跟踪车载终端，其特征在于，包括处理器和存储器，所述存储器存储有程序指令，所述处理器运行程序指令实现如上所述的方法中的步骤。

上述实施例仅例示性说明本发明的原理及其功效，而非用于限制本发明。任何熟悉此技术的人士皆可在不违背本发明的精神及范畴下，对上述实施例进行修饰或改变。因此，举凡所属技术领域中包括通常知识者在未脱离本发明所揭示的精神与技术思想下所完成的一切等效修饰或改变，仍应由本发明的权利要求所涵盖。

Claims

1.基于深度特征流的目标跟踪方法，其特征在于，包括以下步骤：

2.根据权利要求1所述的基于深度特征流的目标跟踪方法，其特征在于，所述步骤S02中根据追踪模型函数以及收集的追踪目标数据给一个追踪目标确定一个或几个关键帧图像时，关键帧图像的数量是根据追踪目标自起始出现在视觉传感器捕获图像时间开始至追踪目标消失在视觉传感器捕获图像为止的时间段长短来确定关键帧数量或是根据追踪目标数据中高于权重阈值的表征特征像素点所在矢量的大小来确定关键帧数量。

3.根据权利要求2所述的基于深度特征流的目标跟踪方法，其特征在于，步骤S02中还包括以下步骤：由视觉传感器根据捕获的至少两帧图像为检测基础检测移动物体，将检测到的移动物体作为追踪目标，建立追踪模型函数，收集追踪目标数据。

4.根据权利要求2所述的基于深度特征流的目标跟踪方法，其特征在于，步骤S03建立关系时还包括以下步骤：

由视觉传感器根据捕获的当前帧图像，估计当前帧图像中可能为移动物体的追踪目标候选区，并提取追踪目标候选区中移动物体的表征特征，在关键帧图像中遍历这些表征特征进而找到全面覆盖这些表征特征的关键帧图像；

5.根据权利要求4所述的基于深度特征流的目标跟踪方法，其特征在于，所述步骤S05中利用双线性插值法将关键帧图像的特征图传播到当前帧图像的对应位置中，具体的特征传播方法为：

其中c代表特征图f的一个通道，其中q列出了关键帧图像运行特征提取网络得到的特征图中所有的空间位置，其中p表示当前帧图像中表征特征的空间位置，p+δp表示关键帧图像中表征特征的空间位置，G代表双线性插值核，双线性插值核G是二维的，双线性插值核G可以被分解成两个一维的核；

G(q，p+δp)＝g(q_x,p_x+δp_x)·g(q_y,p_y+δp_y)

其中，g(a，b)＝max(0,1-|a-b|)，q_x表示空间位置中的横坐标位置，p_x+δp_x表示关键帧图像中表征特征的空间位置中的横坐标，q_y表示空间位置中的纵坐标位置，p_y+δp_y表示关键帧图像中表征特征的空间位置中的纵坐标,g表示双线性插值二维核分解成的一维核；

S053：一维核的振幅通过scale field进行调制，scale field和特征图空间的通道维度相同；scale field通过在两帧上应用尺度函数获得，进而得到从关键帧图像的表征特征传播到当前帧图像的表征特征，特征传播函数定义为：

f_i＝w(f_k,M_i→k,S_i→k)

其中，W表示对特征图的所有位置和所有通道都使用双线性插值的公式，然后按元素将特征和尺度函数相乘；其中Mi→k是2D的光流场，其中fk是关键帧图像上的卷积特征映射，其中Si→k是规模领域。

6.根据权利要求4所述的基于深度特征流的目标跟踪方法，其特征在于，步骤S05中利用双线性插值法将关键帧图像的特征图传播到当前帧图像的对应位置中，在传播后的当前帧图像上运行任务网络，运行任务网络的结构采用基于CNN的FlowNet结构、FlowNetHalf网络结构或FlowNetInception网络结构。

7.基于深度特征流的目标跟踪系统，包括视觉传感器、运动目标检测模块和目标追踪模块；

所述视觉传感器用于捕获连续的视频帧序列；

8.根据权利要求7所述的基于深度特征流的目标跟踪系统，其特征在于，所述运动目标检测模块还包括关键帧抽取频率分析模块，所述关键帧抽取频率分析模块根据追踪目标自起始出现在视觉传感器捕获图像时间开始至追踪目标消失在视觉传感器捕获图像为止的时间段长短来确定关键帧数量或根据追踪目标数据中高于权重阈值的表征特征像素点所在矢量的大小来确定关键帧数量。

9.一种基于深度特征流的目标跟踪车载终端，其特征在于，包括处理器和存储器，所述存储器存储有程序指令，所述处理器运行程序指令实现如权利要求1至6任一权利要求所述的方法中的步骤。

10.一种计算机可读存储介质，其上存储有计算机程序，其特征在于：该程序被处理器执行时实现如权利要求1至6任一权利要求所述的方法中的步骤。