CN112598697A

CN112598697A - 基于光流和三维重建的鲁棒跟踪方法和装置

Info

Publication number: CN112598697A
Application number: CN202011595349.6A
Authority: CN
Inventors: 宋旭博
Original assignee: Beijing Moviebook Technology Corp ltd
Current assignee: Beijing Moviebook Technology Corp ltd
Priority date: 2020-12-29
Filing date: 2020-12-29
Publication date: 2021-04-02

Abstract

本申请公开了一种基于光流和三维重建的鲁棒跟踪方法和装置，涉及目标跟踪领域。该方法包括：为输入的视频数据创建连续的三维点云场景，利用光流法处理所述视频数据生成目标物体的2D轨迹，在所述三维点云场景中，将生成的所有2D轨迹融合为动态三维重建，根据动态三维重建的结果对所述目标物体进行跟踪。该装置包括：创建模块、生成模块、重建模块和跟踪模块。本申请基于光流法结合点云的方式实现多目标跟踪，与以往的方法相比，具有较强的鲁棒性。

Description

基于光流和三维重建的鲁棒跟踪方法和装置

技术领域

本申请涉及目标跟踪领域，特别是涉及一种基于光流和三维重建的鲁棒跟踪方法和装置。

背景技术

多目标检测跟踪(MOT)的传统方法之一是对状态进行预测，即通过检测来实现多目标跟踪。多假设跟踪(MHT)和基于贝叶斯滤波的跟踪是最近在全球MOT方法中流行的方法。目前许多研究将MOT作为一个数据关联问题来进行探讨。Leal-Taixé提出通过分组行为来构建数据关联，将概率假设密度滤波器引入到多状态估计中，对数据关联进行线性决策。Zeyu等使用蒙特卡洛PHD滤波器，其中外观特征采用字典匹配的形式，使用RGB颜色直方图和HoG聚类定义。Sarthak Sharma等使用对象的形状、姿势、2D和3D定位信息以及深度学习的关键点匹配，然后进行匈牙利分配在其跟踪框架中用于提高检测精度。还有一些研究者将深度学习结构应用于数据关联中建立非线性建模，比如提出应用卷积神经网络产生的深度学习特性来提高跟踪性能。

尽管基于深度学习的MOT方法可以产生准确的跟踪结果，但是与传统的基于手工特征的方法相比，通常很耗时并且需要大量的训练数据，而且多目标跟踪过程的鲁棒性还存在较大的提升空间。

发明内容

本申请的目的在于克服上述问题或者至少部分地解决或缓减解决上述问题。

根据本申请的一个方面，提供了一种基于光流和三维重建的鲁棒跟踪方法，包括：

为输入的视频数据创建连续的三维点云场景；

利用光流法处理所述视频数据生成目标物体的2D轨迹；

在所述三维点云场景中，将生成的所有2D轨迹融合为动态三维重建；

根据动态三维重建的结果对所述目标物体进行跟踪。

可选地，利用光流法处理所述视频数据生成2D轨迹，包括：

对所述视频数据的初始帧使用全卷积神经网络裁剪并调整由边框提供的图像区域，为每个边框输出一个分割蒙版，使用光流值将每个分割蒙版掩模的像素扭曲到下一帧，生成2D轨迹，在下一帧中对分割和扭曲后的像素集合进行计算，得到关联相似点，判断所述关联相似点是否满足指定的最小阈值，如果是，则合并到已有轨迹中，否则，将所述关联相似点作为新的轨迹。

可选地，在下一帧中对分割和扭曲后的像素集合进行计算，得到关联相似点，包括：

在下一帧中利用每个点与其k个近邻的局部可达密度，计算局部离群因子并求取中值，在分割和扭曲后的像素集合中过滤掉离群因子高于所述中值的像素，对于保留的像素使用光流向量来进行相邻帧的关联，得到关联相似点。

可选地，在所述三维点云场景中，将生成的所有2D轨迹融合为动态三维物体重建，包括：

在所述三维点云场景中，通过最小二乘法拟合出的最佳刚体变换，将所述2D轨迹中的目标物体，在每个时间步上的所有点云融合成一致的三维重建。

可选地，根据动态三维重建的结果对所述目标物体进行跟踪，包括：

根据动态三维重建的结果，计算当前帧与相邻帧的平均马氏距离，如果均小于指定阈值，则确定所述当前帧中的目标物体与所述相邻帧的目标物体属于同一个目标物体，合并它们的运动轨迹。

根据本申请的另一个方面，提供了一种基于光流和三维重建的鲁棒跟踪装置，包括：

创建模块，其配置成为输入的视频数据创建连续的三维点云场景；

生成模块，其配置成利用光流法处理所述视频数据生成目标物体的2D轨迹；

重建模块，其配置成在所述三维点云场景中，将生成的所有2D轨迹融合为动态三维重建；

跟踪模块，其配置成根据动态三维重建的结果对所述目标物体进行跟踪。

可选地，所述生成模块具体配置成：

可选地，所述重建模块具体配置成：

可选地，所述跟踪模块具体配置成：

根据本申请的又一个方面，提供了一种计算设备，包括存储器、处理器和存储在所述存储器内并能由所述处理器运行的计算机程序，其中，所述处理器执行所述计算机程序时实现如上所述的方法。

根据本申请的又一个方面，提供了一种计算机可读存储介质，优选为非易失性可读存储介质，其内存储有计算机程序，所述计算机程序在由处理器执行时实现如上所述的方法。

根据本申请的又一个方面，提供了一种计算机程序产品，包括计算机可读代码，当所述计算机可读代码由计算机设备执行时，导致所述计算机设备执行上述的方法。

本申请提供的技术方案，通过为输入的视频数据创建连续的三维点云场景，利用光流法处理视频数据生成目标物体的2D轨迹，在三维点云场景中，将生成的所有2D轨迹融合为动态三维重建，根据动态三维重建的结果对目标物体进行跟踪，基于光流法结合点云的方式实现多目标跟踪，与以往的方法相比，具有较强的鲁棒性。

根据下文结合附图对本申请的具体实施例的详细描述，本领域技术人员将会更加明了本申请的上述以及其他目的、优点和特征。

附图说明

后文将参照附图以示例性而非限制性的方式详细描述本申请的一些具体实施例。附图中相同的附图标记标示了相同或类似的部件或部分。本领域技术人员应该理解，这些附图未必是按比例绘制的。附图中：

图1是根据本申请一个实施例的基于光流和三维重建的鲁棒跟踪方法流程图；

图2是根据本申请另一个实施例的基于光流和三维重建的鲁棒跟踪方法流程图；

图3是根据本申请另一个实施例的基于光流和三维重建的鲁棒跟踪装置结构图；

图4是根据本申请另一个实施例的计算设备结构图；

图5是根据本申请另一个实施例的计算机可读存储介质结构图。

具体实施方式

本发明实施例涉及一种基于光流和三维重建的鲁棒跟踪方法和装置，先通过光流法和掩模确定目标物体的运动轨迹，再借助三维点云辅助确定运动轨迹的变化，从而实现了鲁棒跟踪。

图1是根据本申请一个实施例的基于光流和三维重建的鲁棒跟踪方法流程图。参见图1，该方法包括：

101：为输入的视频数据创建连续的三维点云场景；

102：利用光流法处理视频数据生成目标物体的2D轨迹；

103：在三维点云场景中，将生成的所有2D轨迹融合为动态三维重建；

104：根据动态三维重建的结果对目标物体进行跟踪。

本实施例中，待跟踪的目标可以有多个，当对多目标进行跟踪时，每个目标物体都有自己的轨道，因此，可以得到每个目标物体的2D轨迹。

本实施例中，可选的，利用光流法处理视频数据生成2D轨迹，包括：

对视频数据的初始帧使用全卷积神经网络裁剪并调整由边框提供的图像区域，为每个边框输出一个分割蒙版，使用光流值将每个分割蒙版掩模的像素扭曲到下一帧，生成2D轨迹，在下一帧中对分割和扭曲后的像素集合进行计算，得到关联相似点，判断关联相似点是否满足指定的最小阈值，如果是，则合并到已有轨迹中，否则，将关联相似点作为新的轨迹。

本实施例中，可选的，在下一帧中对分割和扭曲后的像素集合进行计算，得到关联相似点，包括：

在下一帧中利用每个点与其k个近邻的局部可达密度，计算局部离群因子并求取中值，在分割和扭曲后的像素集合中过滤掉离群因子高于中值的像素，对于保留的像素使用光流向量来进行相邻帧的关联，得到关联相似点。

本实施例中，可选的，在三维点云场景中，将生成的所有2D轨迹融合为动态三维物体重建，包括：

在三维点云场景中，通过最小二乘法拟合出的最佳刚体变换，将2D轨迹中的目标物体，在每个时间步上的所有点云融合成一致的三维重建。

本实施例中，可选的，根据动态三维重建的结果对目标物体进行跟踪，包括：

根据动态三维重建的结果，计算当前帧与相邻帧的平均马氏距离，如果均小于指定阈值，则确定当前帧中的目标物体与相邻帧的目标物体属于同一个目标物体，合并它们的运动轨迹。

本实施例提供的上述方法，通过为输入的视频数据创建连续的三维点云场景，利用光流法处理视频数据生成目标物体的2D轨迹，在三维点云场景中，将生成的所有2D轨迹融合为动态三维重建，根据动态三维重建的结果对目标物体进行跟踪，实现了基于光流法结合点云的方式实现多目标跟踪，与以往的方法相比，具有较强的鲁棒性。

图2是根据本申请另一个实施例的基于光流和三维重建的鲁棒跟踪方法流程图。参见图2，该方法包括：

201：为输入的视频数据创建连续的三维点云场景；

具体地，可以从视频数据的第一帧开始就创建一个连续的三维点云场景。

202：对视频数据的初始帧使用全卷积神经网络裁剪并调整由边框提供的图像区域，为每个边框输出一个分割蒙版，使用光流值将每个分割蒙版掩模的像素扭曲到下一帧，生成2D轨迹；

其中，利用光流法得到的2D轨迹具有二维运动的一致性，准确性较高，尤其是当目标物体连续可见时，能够生成高度精确的短轨迹。

203：在下一帧中利用每个点与其k个近邻的局部可达密度，计算局部离群因子并求取中值，在分割和扭曲后的像素集合中过滤掉离群因子高于中值的像素，对于保留的像素使用光流向量来进行相邻帧的关联，得到关联相似点；

其中，计算得到的局部离群因子有很多个，为了减少计算，可以取它们的平均值即中值，从而方便计算相邻帧的相似度，并最小化深度估计错误和对象掩膜的影响。

204：判断关联相似点是否满足指定的最小阈值，如果是，则合并到已有轨迹中，否则，将关联相似点作为新的轨迹；

本步骤中的最小阈值可以根据经验来设定，本实施例对具体数值不做限定。

205：在三维点云场景中，通过最小二乘法拟合出的最佳刚体变换，将2D轨迹中的目标物体，在每个时间步上的所有点云融合成一致的三维重建；

本实施例中，无需特别区分目标物体是刚体变换的物体，还是非刚体变换的物体，统一按照刚体变换的物体进行处理即可，从而降低了处理过程的复杂度。其中，通过最小二乘法得到最小值的变换就是最佳刚体变换，该最佳刚体变换可以在所有的时间帧上累积，从而可以将轨迹上的所有点都转换成一致的三维重建。另外，在计算最小二乘法时，可以随机选点进行计算，如在蒙版上采样最多200个对应点，通过最小化相邻帧两个点云中每对对应点之间的距离来执行非线性最小二乘优化，从而正确估计物体在当前帧与前一帧的位姿变化。

206：根据动态三维重建的结果，计算当前帧与相邻帧的平均马氏距离，如果均小于指定阈值，则确定当前帧中的目标物体与相邻帧的目标物体属于同一个目标物体，合并它们的运动轨迹。

其中，三维重建是指重建物体的三维模型框架，从而便于计算相邻帧之间的相似性。用于与平均马氏距离相比较的指定阈值也可以根据经验来设定，具体数值不限定。

图3是根据本申请另一个实施例的基于光流和三维重建的鲁棒跟踪装置结构图。参见图3，该装置包括：

创建模块301，其配置成为输入的视频数据创建连续的三维点云场景；

生成模块302，其配置成利用光流法处理视频数据生成目标物体的2D轨迹；

重建模块303，其配置成在三维点云场景中，将生成的所有2D轨迹融合为动态三维重建；

跟踪模块304，其配置成根据动态三维重建的结果对目标物体进行跟踪。

本实施例中，可选的，生成模块具体配置成：

本实施例中，可选的，重建模块具体配置成：

本实施例中，可选的，跟踪模块具体配置成：

本实施例提供的上述装置，可以执行上述任一方法实施例提供的方法，详细过程详见方法实施例中的描述，此处不赘述。

本实施例提供的上述装置，通过为输入的视频数据创建连续的三维点云场景，利用光流法处理视频数据生成目标物体的2D轨迹，在三维点云场景中，将生成的所有2D轨迹融合为动态三维重建，根据动态三维重建的结果对目标物体进行跟踪，实现了基于光流法结合点云的方式实现多目标跟踪，与以往的方法相比，具有较强的鲁棒性。

本申请实施例还提供了一种计算设备，参照图4，该计算设备包括存储器1120、处理器1110和存储在所述存储器1120内并能由所述处理器1110运行的计算机程序，该计算机程序存储于存储器1120中的用于程序代码的空间1130，该计算机程序在由处理器1110执行时实现用于执行任一项根据本发明的方法步骤1131。

本申请实施例还提供了一种计算机可读存储介质。参照图5，该计算机可读存储介质包括用于程序代码的存储单元，该存储单元设置有用于执行根据本发明的方法步骤的程序1131′，该程序被处理器执行。

本申请实施例还提供了一种包含指令的计算机程序产品。当该计算机程序产品在计算机上运行时，使得计算机执行根据本发明的方法步骤。

在上述实施例中，可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。当使用软件实现时，可以全部或部分地以计算机程序产品的形式实现。所述计算机程序产品包括一个或多个计算机指令。在计算机加载和执行所述计算机程序指令时，全部或部分地产生按照本申请实施例所述的流程或功能。所述计算机可以是通用计算机、专用计算机、计算机网络、获取其他可编程装置。所述计算机指令可以存储在计算机可读存储介质中，或者从一个计算机可读存储介质向另一个计算机可读存储介质传输，例如，所述计算机指令可以从一个网站站点、计算机、服务器或数据中心通过有线(例如同轴电缆、光纤、数字用户线(DSL))或无线(例如红外、无线、微波等)方式向另一个网站站点、计算机、服务器或数据中心进行传输。所述计算机可读存储介质可以是计算机能够存取的任何可用介质或者是包含一个或多个可用介质集成的服务器、数据中心等数据存储设备。所述可用介质可以是磁性介质，(例如，软盘、硬盘、磁带)、光介质(例如，DVD)、或者半导体介质(例如固态硬盘Solid State Disk(SSD))等。

专业人员应该还可以进一步意识到，结合本文中所公开的实施例描述的各示例的单元及算法步骤，能够以电子硬件、计算机软件或者二者的结合来实现，为了清楚地说明硬件和软件的可互换性，在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本申请的范围。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分步骤是可以通过程序来指令处理器完成，所述的程序可以存储于计算机可读存储介质中，所述存储介质是非短暂性(英文：non-transitory)介质，例如随机存取存储器，只读存储器，快闪存储器，硬盘，固态硬盘，磁带(英文：magnetic tape)，软盘(英文：floppy disk)，光盘(英文：optical disc)及其任意组合。

以上所述，仅为本申请较佳的具体实施方式，但本申请的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本申请揭露的技术范围内，可轻易想到的变化或替换，都应涵盖在本申请的保护范围之内。因此，本申请的保护范围应该以权利要求的保护范围为准。

Claims

1.一种基于光流和三维重建的鲁棒跟踪方法，其特征在于，包括：

为输入的视频数据创建连续的三维点云场景；

利用光流法处理所述视频数据生成目标物体的2D轨迹；

根据动态三维重建的结果对所述目标物体进行跟踪。

2.根据权利要求1所述的方法，其特征在于，利用光流法处理所述视频数据生成2D轨迹，包括：

3.根据权利要求2所述的方法，其特征在于，在下一帧中对分割和扭曲后的像素集合进行计算，得到关联相似点，包括：

4.根据权利要求1所述的方法，其特征在于，在所述三维点云场景中，将生成的所有2D轨迹融合为动态三维物体重建，包括：

5.根据权利要求4所述的方法，其特征在于，根据动态三维重建的结果对所述目标物体进行跟踪，包括：

6.一种基于光流和三维重建的鲁棒跟踪装置，其特征在于，包括：

7.根据权利要求6所述的装置，其特征在于，所述生成模块具体配置成：

8.根据权利要求7所述的装置，其特征在于，所述生成模块具体配置成：

9.根据权利要求6所述的装置，其特征在于，所述重建模块具体配置成：

10.根据权利要求9所述的装置，其特征在于，所述跟踪模块具体配置成：