CN113379795B

CN113379795B - 一种基于条件卷积和光流特征的多目标跟踪与分割方法

Info

Publication number: CN113379795B
Application number: CN202110557528.9A
Authority: CN
Inventors: 许营坤; 陈天阳; 徐新黎; 杨旭华
Original assignee: Zhejiang University of Technology ZJUT
Current assignee: Zhejiang University of Technology ZJUT
Priority date: 2021-05-21
Filing date: 2021-05-21
Publication date: 2024-03-22
Anticipated expiration: 2041-05-21
Also published as: CN113379795A

Abstract

一种基于条件卷积和光流特征的多目标跟踪与分割方法，首先，将视频每幅图像经过多层卷积操作提取不同尺度大小的外观特征图，同时提取与下一时刻图像的光流场特征，缩放为同样的尺度的运动特征，对外观特征和运动特征融合；其次，利用掩码的非最大抑制算法，合并可能同一对象的分割掩码，生成对应同意物体的唯一掩码；利用重识别网络，对检测和历史轨迹进行匹配，从而得到跟踪和分割的结果。本发明利用条件卷积和光流特征的融合算法，提高了图像目标检测和分割的便捷性和有效性，降低了单张图像检测的不可靠性，同时利用关联特征得到了跟踪的匹配结果。

Description

一种基于条件卷积和光流特征的多目标跟踪与分割方法

技术领域

本专利涉及计算机视觉与机器学习领域，特别是指一种面向行人的多目标与分割的处理方法。

背景技术

近年来，随着人工智能产业的持续火热，计算机视觉逐渐成为较为活跃的研究领域，而多目标跟踪是计算机视觉领域中具有重要研究意义的课题之一。随着计算机性能的不断提高与深度学习技术的不断发展，基于深度学习的目标跟踪技术逐渐成为研究热点，在取得突破性进展的同时被广泛应用于模式识别、无人驾驶、人机交互、智能机器人和视频监控等领域。

行人目标检测与跟踪是计算机视觉领域的一个重要方向，由于其技术应用场景愈发复杂，如何优化算法性能来应对这样的复杂场景，是我们的重要研究目标。当前的复杂环境问题主要有以下几点。(1)行人的遮挡问题，对于行人的遮挡可以大致的划分为行人的主动性和被动性遮挡，针对遮挡的情况可以划分为部分遮挡和完全遮挡，其中的完全遮挡可能会导致追踪目标和前期检测目标的不匹配并导致ID跳变，造成判断失误。(2)行人的外观刚性形变问题，如果行人自身发生不确定的形变(动作或者行人重叠等变化)，追踪行人的特征就会产生变化，导致低匹配的追踪失效。这个问题也可能由拍摄光线、摄像角度等因素引起。(3)视频模糊或视频背景复杂问题，视频中行人的高速运动会导致行人的外观特征(如轮廓、纹理、边缘等)变得模糊，而造成追踪失效。同时，复杂的环境也对追踪算法的模型有着较高的要求。

根据轨迹生成模式划分，多目标跟踪算法可以大致分为两类：离线多目标跟踪和在线多目标跟踪。

离线算法能够预先获得连续图像序列的整体信息，其中包括全序列的图像信息和检测结果，而后将多目标跟踪任务转化为检测结果的聚类。计算聚类检测结果的最大后验概率的过程，也就是实现多目标跟踪预测的过程，可以被转化为不同形式、不同类别的数理模型。其中有一些工作将多目标跟踪问题转化为图优化任务，将邻近帧间的目标检测匹配看作图中节点之间的边，进而可以通过最小代价网络流，k最短路径或者基于多裁剪和多分割的子图分解方法进行处理。

在线跟踪算法运行中，跟踪器只能接受到当前帧的图像信息和检测结果。所以，多目标跟踪问题可以被转化为将已有轨迹与当前图像中获取到的检测结果进行相似性度量，判定各个检测结果是否为正在跟踪目标轨迹的延伸的过程，这一过程被称为数据关联。大量研究针对多目标跟踪过程中的数据关联任务进行算法研究，例如，采用随机森林的方法对不同轨迹之前的外观特征进行匹配。

发明内容

为了解决现有的行人遮挡、跟踪准确度不高、鲁棒性差等问题，本发明提出了一种融合神经网络提取的特征和光流特征的多目标跟踪与分割方法。

本发明解决其技术问题所采用的技术方案是：

一种基于条件卷积和光流特征的多目标跟踪与分割方法，包括如下步骤：

步骤一：输入当前时刻图像帧，通过卷积神经网络提取当前图的像五个不同尺度大小的外观特征f_i，i＝1,2,3,4,5，同时，输入当前图像相对于上一帧和下一帧的光流结果，通过下采样以及多个卷积层计算得到与f_i相同大小的五个相应尺度的光流特征p_i，i＝1,2,3,4,5；将光流特征p_i与外观特征f_i相乘，计算公共特征，再将公共特征与外观特征f_i按元素相加，得到含有运动信息的特征图，并传入特征金字塔网络；

步骤二：对特征金字塔网络提取的特征图进行检测，得到当前图片上检测到的目标信息D₁＝{d1,d2,d3,…}，其中每个d包含{class,score,box,mask,offset}，class代表该目标类别，只对行人进行检测，scores代表检测的置信度得分，box代表回归的边界框，mask代表分割掩码，offset表示该目标在下一帧上的偏移量；

步骤三：去除D₁中置信度小于检测阈值θ的目标，并将检测集合D₁进行基于分割掩码的非最大值抑制(Mask NMS)处理，结果检测初始化为活跃轨迹T＝{t1,t2,t3,…}，删除的检测设为不活跃轨迹inactive_tracks＝{t1,t2,t3,…},并删除不活跃轨迹中存活时间大于max_age的轨迹；

步骤四：输入第二帧图片以及该图片相对于下一帧的光流特征，并重复步骤一和步骤二得到第二帧图片上的D；

步骤五：每个活跃轨迹t通过offset去计算在第二帧上可能出现的位置d_p，如果d_p置信度大于回归阈值λ的用于更新T中的轨迹，否则添加到不活跃的轨迹inactive_tracks；

步骤六：通过重识别(re-ID)网络分别提取D和T中对象的n＝128维外观特征向量，并遍历循环计算外观特征向量的欧式距离

通过匈牙利算法进行匹配，D中成功匹配上的对象用于更新T中的对象，未成功匹配的对象再与不活跃轨迹Inactive_Track进行外观特征向量的匹配，成功匹配的轨迹添加到活跃轨迹中，D中仍未匹配的对象初始化为新的轨迹添加到T中，以此达到更新轨迹的目的；

步骤七：循环输入视频的下一帧，并重复步骤四和步骤五；

步骤八：对于每张图片上对象的分割结果，当出现某个像素点被分配给多个对象时，将该像素点分配给置信度得分更高的对象。

本发明的技术构思为：将光流特征与神经网络提取的特征融合，并通过网络中的offset分支去预测目标在下一帧上的位置，以此增强网络对遮挡目标的检测能力。然后通过re-ID网络对目标进行关联，以此来更新轨迹。

本发明的有益效果为：利用光流特征，提出了一种鲁棒性强、像素级的多目标跟踪方法，提高了多目标跟踪并分割的跟踪精度，降低了漏检和误检率

附图说明

图1为本发明的流程图。

具体实施方式

下面结合附图对本发明做进一步说明。

参照图1，一种基于条件卷积和光流特征的多目标跟踪与分割方法，包括如下步骤：

步骤二：对特征金字塔网络提取的特征图进行检测，得到当前图片上检测到的目标信息D₁＝{d1,d2,d3,…}，其中每个d包含{class,score,box,mask,offset}，class代表该目标类别，在本发明中，只对行人进行检测，scores代表检测的置信度得分，box代表回归的边界框，mask代表分割掩码，offset表示该目标在下一帧上的偏移量；

步骤七：循环输入视频的下一帧，并重复步骤四和步骤五；

本实施例的方案将光流特征与神经网络提取的特征融合，并通过网络中的offset分支去预测目标在下一帧上的位置，以此增强网络对遮挡目标的检测能力。然后通过re-ID网络对目标进行关联，以此来更新轨迹。

如上所述，本专利实施的具体实现步骤使本发明更加清晰。在本发明的精神和权利要求的保护范围内，对本发明做出的任何修改和改变，都落入本发明的保护范围。

Claims

1.一种基于条件卷积和光流特征的多目标跟踪与分割方法，其特征在于，所述方法包括如下步骤：

步骤一：输入当前帧图片，通过卷积神经网络提取当前图片五个不同尺度大小的外观特征f_i，i＝1,2,3,4,5，同时，输入当前图片相对于上一帧和下一帧的光流结果，通过下采样以及多个卷积层计算得到与f_i相同大小的五个相应尺度的光流特征p_i，i＝1,2,3,4,5；将光流特征p_i与外观特征f_i相乘，计算公共特征，再将公共特征与外观特征f_i按元素相加，得到含有运动信息的特征图，并传入特征金字塔网络；

步骤三：去除D₁中置信度小于检测阈值θ的目标，并将检测结果D₁进行Mask NMS处理，剩下的对象初始化为活跃轨迹T＝{t1,t2,t3,…}，删除的对象添加到不活跃轨迹inactive_tracks＝{t1,t2,t3,…}，并删除不活跃轨迹中存活时间大于max_age的轨迹；

步骤五：轨迹T通过offset去计算在第二帧上可能出现的位置pred_Detection，pred_Detection中大于回归阈值λ的用于更新T中的轨迹，否则添加到不活跃的轨迹inactive_tracks；

步骤六：通过重识别re-ID网络分别提取D和T中对象的n＝128维外观特征向量，并遍历循环计算外观特征向量的欧式距离

步骤七：循环输入视频的下一帧，并重复步骤四和步骤五；