CN117351234A

CN117351234A - 基于时空域和包围盒信息的三维运动目标追踪方法和装置

Info

Publication number: CN117351234A
Application number: CN202311245456.XA
Authority: CN
Inventors: 张松海; 徐天行; 郭元晨; 胡事民
Original assignee: Tsinghua University
Current assignee: Tsinghua University
Priority date: 2023-09-25
Filing date: 2023-09-25
Publication date: 2024-01-05

Abstract

本发明提供一种基于时空域和包围盒信息的三维运动目标追踪方法和装置，包括：对于给定点云序列，基于每一帧的追踪目标的包围盒信息得到每一帧点云中追踪目标的掩膜信息；对点云序列的每一帧进行几何特征提取，得到每一帧的点特征，点特征包括点和点的几何特征描述算子；基于注意力机制，利用特征融合或共享相似度矩阵的方式，将追踪目标的掩膜信息传递到当前帧点特征中，利用时空上下文信息优化当前帧点特征，得到当前帧的优化后点特征；利用当前帧的优化后点特征计算当前帧的追踪目标的包围盒信息。本发明充分地利用了历史帧和当前帧中丰富的时空域的上下文信息，无需对点云进行裁剪，实现对指定的单个运动物体性能更高的持续和精确的追踪。

Description

基于时空域和包围盒信息的三维运动目标追踪方法和装置

技术领域

本发明涉及计算机视觉三维单目标追踪技术领域，尤其涉及一种基于时空域和包围盒信息的三维运动目标追踪方法和装置。

背景技术

跟踪3D空间中的物体的能力对于许多应用至关重要，包括机器人、自动驾驶和监控系统。给定特定对象的初始状态，单目标跟踪(SOT)的目的是估计每帧中跟踪目标的姿态和位置。最近的方法主要集中在使用点云来解决三维对象跟踪，因为点云相比图像输入具有独特的优势，例如准确的空间信息和对光照变化的鲁棒性。

三维单目标追踪任务的现有方法主要遵循孪生神经网络范式，将从前一帧中裁剪的表示追踪目标的点云和当前帧中的搜索区域作为输入，然后使用诸如候选生成网络(Region Proposal Network,RPN)等定位网络以端到端的方式定位目标。与以前的方法不同，M2-Track方法首先从相邻两帧点云中裁剪出追踪目标，然后显式地建模了两个连续帧之间的目标运动信息。这种基于裁剪的方法只关注到了与追踪目标相关的点云信息，忽略了追踪目标时空域上下文信息。这一限制使得三维单目标追踪成为一项具有挑战性的任务，特别是在外观变化较大或遮挡导致目标消失的情况下。为此，TAT方法通过对从历史帧中裁剪的一组高质量目标模板进行采样来利用时序相关的追踪目标信息，以实现可靠的特征交互。然而，忽略最新帧中的信息可能会导致网络无法捕获持久的外观变化，例如随着跟踪目标移得更远，点云逐渐稀疏。TAT还忽略了目标周围的上下文信息，这对于三维单目标追踪至关重要，从而导致跟踪性能有限。

此外，不同类别的跟踪目标在尺寸和几何形状上的巨大差异也给三维单目标追踪带来了挑战，而这一点在之前的工作中被忽视了。现有方法中采用的定位网络可以分为两种范式，即基于点特征的定位网络和基于体素特征的定位网络。对于基于体素特征的定位网络，具有简单形状和大尺寸的跟踪目标(例如车辆)可以很好地匹配体素形状，从而比基于点特征的定位网络(例如RPN)实现更精确的定位。然而，对于行人等具有复杂几何形状和小尺寸的类别，体素化会导致大量信息丢失，从而降低跟踪性能。

综上，现有技术存在单目标追踪性能有限的问题。

发明内容

本发明提供一种基于时空域和包围盒信息的三维运动目标追踪方法和装置，用以解决现有技术中性能有限的缺陷，实现性能更高的持续和精确的追踪。

本发明提供一种基于时空域和包围盒信息的三维运动目标追踪方法，包括：

对于给定点云序列，基于每一帧的追踪目标的包围盒信息得到每一帧点云中所述追踪目标的掩膜信息；对所述点云序列的每一帧进行几何特征提取，得到每一帧的点特征，所述点特征包括点和所述点的几何特征描述算子；

基于注意力机制，利用特征融合或共享相似度矩阵的方式，将所述追踪目标的掩膜信息传递到当前帧点特征中，利用时空上下文信息优化所述当前帧点特征，得到当前帧的优化后点特征；所述时空上下文信息包括所述当前帧内空间上下文特征关系与帧间时间上下文特征关系；

利用所述当前帧的所述优化后点特征计算当前帧的所述追踪目标的包围盒信息。

根据本发明提供的一种基于时空域和包围盒信息的三维运动目标追踪方法，所述基于注意力机制，利用特征融合的方式，将所述追踪目标的掩膜信息传递到当前帧点特征中，利用时空上下文信息优化所述当前帧点特征，得到当前帧的优化后点特征，具体包括：

将每一帧所述追踪目标的掩膜信息编码为掩膜特征描述算子；

将所述掩膜特征描述算子与所述几何特征描述算子融合；

利用自注意力机制与交叉注意力机制相结合的方式，建模每一帧所述追踪目标与所述时空域上下文信息之间的特征关系；

使用交叉注意力机制，基于所述特征关系，利用历史帧中的所述时空域上下文信息优化所述当前帧点特征，得到当前帧的优化后点特征。

根据本发明提供的一种基于时空域和包围盒信息的三维运动目标追踪方法，所述基于注意力机制，利用共享相似度矩阵的方式，将所述追踪目标的掩膜信息传递到当前帧点特征中，利用时空上下文信息优化所述当前帧点特征，得到当前帧的优化后点特征，具体包括：

对于所述几何特征和掩膜特征，分别利用自注意力机制与交叉注意力机制相交错的方式，建模每一帧所述追踪目标与时空域上下文信息之间的特征关系，得到第一特征关系和第二特征关系；

使用交叉注意力机制，基于所述第一特征关系和第二特征关系，利用历史帧中的上下文信息优化所述当前帧点特征，得到第一目标点特征和第二目标点特征；

基于所述第一目标点特征和第二目标点特征，将所述掩膜特征描述算子与所述几何特征描述算子融合，得到当前帧的优化后点特征。

根据本发明提供的一种基于时空域和包围盒信息的三维运动目标追踪方法，所述利用所述当前帧的所述优化后点特征计算当前帧的所述追踪目标的包围盒信息，具体包括：

根据所述当前帧中每个优化后点特征预测所述追踪目标的中心位置，得到预测中心位置，并预测所述当前帧的每个点是否属于所述追踪目标；

利用局部自注意力机制，对所述预测中心位置邻域的点特征进行信息聚合，得到当前帧的包围盒信息。

利用历史帧的包围盒尺寸信息，在所述预测中心位置附近采样预设数量个参考点；

将所述当前帧的优化后点特征转化为定义在所述参考点上的点特征；

对所述参考点的点特征进行信息聚合，得到当前帧的包围盒信息。

根据本发明提供的一种基于时空域和包围盒信息的三维运动目标追踪方法，所述对于给定点云序列，基于每一帧的追踪目标的包围盒信息得到每一帧点云中所述追踪目标的掩膜信息，具体包括：

对于所述点云序列中的初始帧，基于所述初始帧的追踪目标的包围盒信息，逐点计算所述初始帧中每个点是否在包围盒内，得到所述追踪目标的掩膜信息；

对于所述点云序列中的非初始帧，在预测所述非初始帧的追踪目标的包围盒信息时，预测所述追踪目标的掩膜信息。

本发明还提供一种基于时空域和包围盒信息的三维运动目标追踪装置，包括：

特征单元，用于对于给定点云序列，基于每一帧的追踪目标的包围盒信息得到每一帧点云中所述追踪目标的掩膜信息；对所述点云序列的每一帧进行几何特征提取，得到每一帧的点特征，所述点特征包括点和所述点的几何特征描述算子；

优化单元，用于基于注意力机制，利用特征融合或共享相似度矩阵的方式，将所述追踪目标的掩膜信息传递到当前帧点特征中，利用时空上下文信息优化所述当前帧点特征，得到当前帧的优化后点特征；所述时空上下文信息包括所述当前帧内空间上下文特征关系与帧间时间上下文特征关系；

定位单元，用于利用所述当前帧的所述优化后点特征计算当前帧的所述追踪目标的包围盒信息。

本发明还提供一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现如上述任一种所述基于时空域和包围盒信息的三维运动目标追踪方法。

本发明还提供一种非暂态计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现如上述任一种所述基于时空域和包围盒信息的三维运动目标追踪方法。

本发明还提供一种计算机程序产品，包括计算机程序，所述计算机程序被处理器执行时实现如上述任一种所述基于时空域和包围盒信息的三维运动目标追踪方法。

本发明提供的一种基于时空域和包围盒信息的三维运动目标追踪方法和装置，通过对于给定点云序列，基于每一帧的追踪目标的包围盒信息得到每一帧点云中所述追踪目标的掩膜信息；对所述点云序列的每一帧进行几何特征提取，得到每一帧的点特征，所述点特征包括点和所述点的几何特征描述算子；基于注意力机制，利用特征融合或共享相似度矩阵的方式，将所述追踪目标的掩膜信息传递到当前帧点特征中，利用时空上下文信息优化所述当前帧点特征，得到当前帧的优化后点特征；所述时空上下文信息包括所述当前帧内空间上下文特征关系与帧间时间上下文特征关系；利用所述当前帧的所述优化后点特征计算当前帧的所述追踪目标的包围盒信息。本发明基于注意力机制，利用时空域上下文和包围盒尺寸信息对三维运动目标进行追踪，充分地利用了历史帧和当前帧中丰富的时空域的上下文信息，无需对点云进行裁剪，实现对指定的单个运动物体性能更高的持续和精确的追踪。

附图说明

为了更清楚地说明本发明或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本发明提供的基于时空域和包围盒信息的三维运动目标追踪方法的流程示意图之一；

图2是本发明提供的基于时空域和包围盒信息的三维运动目标追踪方法的流程示意图之二；

图3为本发明提供的基于时空域和包围盒信息的三维运动目标追踪方法一个实施例的利用包围盒尺寸信息自适应采样得到采样点的示意图；

图4为本发明提供的基于时空域和包围盒信息的三维运动目标追踪方法一个实施例的实际运算连续若干帧的输出结果图；

图5是本发明提供的基于时空域和包围盒信息的三维运动目标追踪装置的结构示意图；

图6是本发明提供的电子设备的结构示意图。

附图标记：

510：特征单元；520：优化单元；530：定位单元。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚，下面将结合本发明中的附图，对本发明中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

下面结合图1-图4描述本发明的基于时空域和包围盒信息的三维运动目标追踪方法，图1-图2是本发明提供的基于时空域和包围盒信息的三维运动目标追踪方法的流程示意图，如图1所示，方法包括以下步骤：

步骤110：对于给定点云序列，基于每一帧的追踪目标的包围盒信息得到每一帧点云中所述追踪目标的掩膜信息；对所述点云序列的每一帧进行几何特征提取，得到每一帧的点特征，所述点特征包括点和所述点的几何特征描述算子。

对于给定的云序列，进行掩膜信息计算和几何特征提取。需要注意的是，掩膜信息计算和几何特征提取两个步骤不必然存在先后关系，可以同时进行，也可以先进行掩膜信息计算，再进行几何特征提取。

具体来说，给定云序列是直接获取或预测得到的云序列，利用每一帧点云的包围盒信息，预测或计算得到每一帧点云中追踪目标的掩膜信息。需要注意的是，包围盒信息是追踪目标的包围盒信息，是通过计算或预测得到的。

进一步地，计算掩膜信息的方法包括：使用每一帧点云的包围盒信息计算点云中每个点是否在包围盒中，或是利用几何特征提取得到的点特征预测得到掩膜信息。也就是说掩膜信息包括对每一帧点云的每个点是否在包围盒中的判断。

进行几何特征提取时，对输入的点云序列的每一帧进行几何特征提取，得到每一帧的至少一个点特征。在一些实施例中，使用特征提取网络进行几何特征的提取，得到具有区分性的点特征。特征提取网络可以是层次化骨干网络。

具体来说，层次化骨干网络可以根据实际情况选择使用任一层次化点云特征提取网络，本发明对此不做限制。特征提取网络相对于点云序列中的每一帧共享网络权重，解码得到每个点和其几何特征描述算子，每个点和其几何特征描述算子共同构成一个点特征，在一般情况下，点特征至少有一个，所有点特征构成点特征集合。

步骤120：基于注意力机制，利用特征融合或共享相似度矩阵的方式，将所述追踪目标的掩膜信息传递到当前帧点特征中，利用时空上下文信息优化所述当前帧点特征，得到当前帧的优化后点特征；所述时空上下文信息包括所述当前帧内空间上下文特征关系与帧间时间上下文特征关系。

得到掩膜信息和点特征后，利用注意力机制，利用特征融合或是共享相似度矩阵的方式，将追踪目标的掩膜信息传入当前帧的点特征或是掩膜特征描述算子中，利用上下文信息对当前帧点特征进行特征优化。

在具体实施过程中，首先将每一帧追踪目标的掩膜编码为掩膜特征描述算子，然后利用特征融合或是共享相似度矩阵的方式，将追踪目标的掩膜信息传入当前帧的点特征或是掩膜特征描述算子中，同时利用自注意力机制与交叉注意力机制相结合的方式，建模追踪目标与时空域上下文之间的特征关系，对当前帧的特征描述算子进行优化。

需要注意的是，时空上下文信息包括所述当前帧内空间上下文特征关系与帧间时间上下文特征关系。

步骤130：利用所述当前帧的所述优化后点特征计算当前帧的所述追踪目标的包围盒信息。

得到优化后的点特征后，根据优化后的点特征信息预测出当前帧的包围盒信息，该过程可以利用历史帧的包围盒尺寸信息进行更加精准地定位。具体来说，利用优化后的点特征使用注意力机制预测出当前帧的包围盒信息，或是根据历史帧的包围盒采样出若干参考点，将点特征转换为参考点上的特征，再预测当前帧的包围盒的信息。

利用每个当前帧的优化后点特征分别预测出追踪目标的中心位置和是否属于追踪目标，后者构成当前帧的追踪目标的掩膜信息。

预测完成后，在一些实施例中，利用局部自注意力机制，对预测中心位置相近的优化后点特征进行信息聚合，对信息聚合后的特征进行追踪目标包围盒的预测，得到当前帧的所述追踪目标的包围盒信息。

在另一些实施例中，利用历史帧的包围盒尺寸信息，在预测出的预测中心位置附近均匀采样固定数量的参考点，将当前帧的点特征转化到定义在参考点上的点特征描述算子，对参考点特征进行信息聚合，预测追踪目标包围盒。进一步地，利用三维卷积神经网络参考点特征进行信息聚合。

基于上述实施例，该方法中，所述基于注意力机制，利用特征融合的方式，将所述追踪目标的掩膜信息传递到当前帧点特征中，利用时空上下文信息优化所述当前帧点特征，得到当前帧的优化后点特征，具体包括：

将所述掩膜特征描述算子与所述几何特征描述算子融合；

具体地，若采用特征融合的方式，首先将每一帧追踪目标的掩膜信息编码为掩膜特征描述算子。记M_i表示第i帧点云的追踪目标掩膜信息，第i帧点云的追踪目标掩膜信息M_i编码后的掩膜特征描述算子记作ME_i。记第i帧点云的几何特征描述算子为X_i。对于当前帧第t帧，将掩膜各处的值初始化为0.5得到ME_t。

在具体实施过程中，首先将掩膜特征描述算子ME_i与几何特征描述算子融合：

然后，采用自注意力机制与交叉注意力机制相交错的方式，建模当前帧内空间上下文特征关系与帧间时间上下文特征关系，假定注意力机制表示为：

其中，d表示特征的维度数，Q表示注意力机制中的查询特征，K^T表示注意力机制中键特征的转置，V表示注意力机制中值特征，Q、K、V均由输入特征经变换得到，softmax()表示归一化指数函数。

通过自注意力机制建模帧内时空域上下文信息的特征关系，特征关系表示为：

其中，W_q，W_k，W_v为可学习的权重矩阵。

使用交叉注意力机制利用历史帧中的上下文信息优化当前帧的特征信息，为了节约运算资源的占用，假定只利用前k帧的信息，表示为：

其中，由/>经过线性变换后得到。以上注意力机制可以重复堆叠多层，得到优化后的特征表示，即优化后点特征。

基于上述实施例，该方法中，所述基于注意力机制，利用共享相似度矩阵的方式，将所述追踪目标的掩膜信息传递到当前帧点特征中，利用时空上下文信息优化所述当前帧点特征，得到当前帧的优化后点特征，具体包括：

具体地，首先将每一帧追踪目标的掩膜信息编码为掩膜特征描述算子。记M_i表示第i帧点云的追踪目标掩膜信息，第i帧点云的追踪目标掩膜信息M_i编码后的掩膜特征描述算子记作ME_i。记第i帧点云的几何特征描述算子为X_i。对于当前帧第t帧，将掩膜各处的值初始化为0.5得到ME_t。

若采用共享注意力矩阵的方式，不对几何特征与掩码特征进行特征融合，其他处理方式与之前所述采用特征融合的方式类似，即对几何特征和掩膜特征分别采用自注意力机制与交叉注意力机制相交错的方式，共享注意力机制中注意力矩阵，建模当前帧内空间上下文特征关系与帧间时间上下文特征关系。假定注意力机制表示为：

对于几何特征，通过自注意力机制建模帧内时空域上下文信息的特征关系，得到第一特征关系：

使用交叉注意力机制利用历史帧中的上下文信息优化当前帧的几何特征信息，为了节约运算资源的占用，假定只利用前k帧的信息，得到第一目标点特征，第一目标点特征表示为：

对于掩膜特征，复用几何特征计算得到的注意力矩阵进行特征交互的建模，得到第二特征关系：

使用交叉注意力机制利用历史帧中的上下文信息优化当前帧的掩膜特征信息，为了节约运算资源的占用，假定只利用前k帧的信息，得到第二目标点特征，第二目标点特征表示为：

其中，由M_i经过线性变换后得到，。

以上注意力机制可以重复堆叠多层，得到优化后的特征表示，最后将几何特征与掩膜特征进行融合，即将最终优化完成的第一目标点特征和第二目标点特征融合，得到最终的优化后点特征。

在一些实施例中，得到最终的优化后点特征之后，根据优化后的点特征信息预测出当前帧的包围盒信息，当前帧优化后点特征记作F，其中第i个点x_i特征表示为f_i，首先对每个点分别预测追踪目标的中心位置和是否属于追踪目标：

其中为参数可学习的变换，后者构成当前帧的追踪目标掩膜，c_i为该点预测的追踪目标的中心位置，m_i为该点是否属于追踪目标的预测。可利用局部自注意力机制，对预测中心位置相近的点特征进行信息聚合，或是利用历史帧的包围盒尺寸信息，采样参考点，对参考点进行信息聚合。

对利用局部自注意力机制，对预测中心位置相近的点特征进行信息聚合时，在一些实施例中，所述利用所述当前帧的所述优化后点特征计算当前帧的所述追踪目标的包围盒信息，具体包括：

具体地，若利用局部自注意力机制，定义点x_i的邻域点为：

N(x_i)＝{x_k|||c_i-c_k||<r}

其中，r为指定半径。

局部自注意力机制表示为：

其中，对于矩阵Qk^T的第i,j位置的值，如果点x_j不为点x_i的邻域点，Mask将该位置的值填为-inf，表示点特征f_j不参与点特征f_i的优化过程，以此来抑制不属于同一物体的点特征的交互，得到优化特征：

F′＝F+LocalAttn(FW_q,FW_k,FW_v)

利用优化特征F′预测追踪目标包围盒：

B_t＝h(F^′)

其中，h表示参数可学习的变换函数，B_t为追踪目标包围盒的参数。

利用历史帧的包围盒尺寸信息，采样参考点，对参考点进行信息聚合，在一些实施例中，所述利用所述当前帧的所述优化后点特征计算当前帧的所述追踪目标的包围盒信息，具体包括：

具体地，若利用历史帧的包围盒尺寸信息(w,l,h)，在预测出追踪目标中心c_v附近均匀采样固定数量n_x×n_y×n_z的参考点：

得到如图3所示的参考点(即采样点)，利用EdgeConv等操作符将点特征F转化到定义在采样点上的特征，因为采样点沿坐标轴稠密分布，因此采样点特征可转化为三维特征图，利用三维卷积神经网络对参考点特征进行信息聚合，预测追踪目标包围盒。

本实施例中的利用追踪目标的包围盒尺寸信息进行动态的参考点采样过程中，利用包围盒尺寸信息，自适应地采样参考点，辅助追踪目标定位。参考点可以自适应地覆盖不同尺寸，不同类别的追踪物体，实现鲁棒和精确的目标追踪。在追踪目标点云发生形状变化、遮挡、丢失等场景下均能较为准确地定位追踪目标，对不同种类、不同尺寸的追踪目标都有较好的定位表现，从而有效地对三维运动物体进行追踪。

在一个实施例中，本发明最终输出的若干连续帧包围盒预测结果如图4所示，从上到下表示点云序列中每一帧的点云表示，B框表示追踪目标的真实位置，A框表示本发明给出的预测结果。

基于上述实施例，该方法中，所述对于给定点云序列，基于每一帧的追踪目标的包围盒信息得到每一帧点云中所述追踪目标的掩膜信息，具体包括：

具体地，对于给定的点云序列中初始帧(第一帧)追踪目标的包围盒，逐点计算初始帧中每个点是否在包围盒内，得到追踪目标的掩膜。对于点云序列的其他帧，本发明在预测每帧的追踪物体的包围盒时，还会预测该帧追踪目标的掩膜，该预测结果在之后的追踪过程中作为输入进行复用。可以理解的是，掩膜预测为本发明的辅助输出，用于该算法在之后预测的输入，表示每个点是否属于追踪物体，即0-1之间的概率，包含了模型对每个点是否落在包围盒中的置信度，相比于利用预测出的包围盒计算得到每个点的01二值化掩膜，具有更加丰富的信息。

本发明提供的方法充分地利用了历史帧和当前帧中丰富的时空域的上下文信息，无需对点云进行裁剪，从而相比于之前的方法能够更好地处理追踪目标的形状变化与遮挡等问题。通过自注意力机制和交叉注意力机制，建模动态场景中追踪目标与时空域上下文之间的信息交互，本方法在精度上取得了优于之前方法的结果，在速度上取得了超过实时的表现。同时，为了针对不同类别、不同尺寸、不同形状的运动目标进行精准的定位，本发明利用历史帧的追踪目标包围盒尺寸信息进行动态的参考点采样，利用参考点聚合点特征信息得到最终的包围盒预测结果。本方法在追踪的准确度上取得了优于之前方法的结果，并达到了超过实时的运行速度。

本发明提供的一种基于时空域和包围盒信息的三维运动目标追踪方法，通过对于给定点云序列，基于每一帧的追踪目标的包围盒信息得到每一帧点云中所述追踪目标的掩膜信息；对所述点云序列的每一帧进行几何特征提取，得到每一帧的点特征，所述点特征包括点和所述点的几何特征描述算子；基于注意力机制，利用特征融合或共享相似度矩阵的方式，将所述追踪目标的掩膜信息传递到当前帧点特征中，利用时空上下文信息优化所述当前帧点特征，得到当前帧的优化后点特征；所述时空上下文信息包括所述当前帧内空间上下文特征关系与帧间时间上下文特征关系；利用所述当前帧的所述优化后点特征计算当前帧的所述追踪目标的包围盒信息。本发明基于注意力机制，利用时空域上下文和包围盒尺寸信息对三维运动目标进行追踪，充分地利用了历史帧和当前帧中丰富的时空域的上下文信息，无需对点云进行裁剪，实现对指定的单个运动物体性能更高的持续和精确的追踪。

下面对本发明提供的基于时空域和包围盒信息的三维运动目标追踪装置进行描述，下文描述的基于时空域和包围盒信息的三维运动目标追踪装置与上文描述的基于时空域和包围盒信息的三维运动目标追踪方法可相互对应参照。图5是本发明提供的基于时空域和包围盒信息的三维运动目标追踪装置的结构示意图，如图5所示，装置包括：

特征单元510，用于对于给定点云序列，基于每一帧的追踪目标的包围盒信息得到每一帧点云中所述追踪目标的掩膜信息；对所述点云序列的每一帧进行几何特征提取，得到每一帧的点特征，所述点特征包括点和所述点的几何特征描述算子；

优化单元520，用于基于注意力机制，利用特征融合或共享相似度矩阵的方式，将所述追踪目标的掩膜信息传递到当前帧点特征中，利用时空上下文信息优化所述当前帧点特征，得到当前帧的优化后点特征；所述时空上下文信息包括所述当前帧内空间上下文特征关系与帧间时间上下文特征关系；

定位单元530，用于利用所述当前帧的所述优化后点特征计算当前帧的所述追踪目标的包围盒信息。

基于上述实施例，该装置中，所述基于注意力机制，利用特征融合的方式，将所述追踪目标的掩膜信息传递到当前帧点特征中，利用时空上下文信息优化所述当前帧点特征，得到当前帧的优化后点特征，具体包括：

将所述掩膜特征描述算子与所述几何特征描述算子融合；

基于上述实施例，该装置中，所述基于注意力机制，利用共享相似度矩阵的方式，将所述追踪目标的掩膜信息传递到当前帧点特征中，利用时空上下文信息优化所述当前帧点特征，得到当前帧的优化后点特征，具体包括：

基于上述实施例，该装置中，所述利用所述当前帧的所述优化后点特征计算当前帧的所述追踪目标的包围盒信息，具体包括：

基于上述实施例，该装置中，所述对于给定点云序列，基于每一帧的追踪目标的包围盒信息得到每一帧点云中所述追踪目标的掩膜信息，具体包括：

本发明提供的一种基于时空域和包围盒信息的三维运动目标追踪装置，通过对于给定点云序列，基于每一帧的追踪目标的包围盒信息得到每一帧点云中所述追踪目标的掩膜信息；对所述点云序列的每一帧进行几何特征提取，得到每一帧的点特征，所述点特征包括点和所述点的几何特征描述算子；基于注意力机制，利用特征融合或共享相似度矩阵的方式，将所述追踪目标的掩膜信息传递到当前帧点特征中，利用时空上下文信息优化所述当前帧点特征，得到当前帧的优化后点特征；所述时空上下文信息包括所述当前帧内空间上下文特征关系与帧间时间上下文特征关系；利用所述当前帧的所述优化后点特征计算当前帧的所述追踪目标的包围盒信息。本发明基于注意力机制，利用时空域上下文和包围盒尺寸信息对三维运动目标进行追踪，充分地利用了历史帧和当前帧中丰富的时空域的上下文信息，无需对点云进行裁剪，实现对指定的单个运动物体性能更高的持续和精确的追踪。

图6示例了一种电子设备的实体结构示意图，如图6所示，该电子设备可以包括：处理器(processor)610、通信接口(Communications Interface)620、存储器(memory)630和通信总线640，其中，处理器610，通信接口620，存储器630通过通信总线640完成相互间的通信。处理器610可以调用存储器630中的逻辑指令，以执行基于时空域和包围盒信息的三维运动目标追踪方法，该方法包括：对于给定点云序列，基于每一帧的追踪目标的包围盒信息得到每一帧点云中所述追踪目标的掩膜信息；对所述点云序列的每一帧进行几何特征提取，得到每一帧的点特征，所述点特征包括点和所述点的几何特征描述算子；基于注意力机制，利用特征融合或共享相似度矩阵的方式，将所述追踪目标的掩膜信息传递到当前帧点特征中，利用时空上下文信息优化所述当前帧点特征，得到当前帧的优化后点特征；所述时空上下文信息包括所述当前帧内空间上下文特征关系与帧间时间上下文特征关系；利用所述当前帧的所述优化后点特征计算当前帧的所述追踪目标的包围盒信息。

此外，上述的存储器630中的逻辑指令可以通过软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

另一方面，本发明还提供一种计算机程序产品，所述计算机程序产品包括计算机程序，计算机程序可存储在非暂态计算机可读存储介质上，所述计算机程序被处理器执行时，计算机能够执行上述各方法所提供的基于时空域和包围盒信息的三维运动目标追踪方法，该方法包括：对于给定点云序列，基于每一帧的追踪目标的包围盒信息得到每一帧点云中所述追踪目标的掩膜信息；对所述点云序列的每一帧进行几何特征提取，得到每一帧的点特征，所述点特征包括点和所述点的几何特征描述算子；基于注意力机制，利用特征融合或共享相似度矩阵的方式，将所述追踪目标的掩膜信息传递到当前帧点特征中，利用时空上下文信息优化所述当前帧点特征，得到当前帧的优化后点特征；所述时空上下文信息包括所述当前帧内空间上下文特征关系与帧间时间上下文特征关系；利用所述当前帧的所述优化后点特征计算当前帧的所述追踪目标的包围盒信息。

又一方面，本发明还提供一种非暂态计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现以执行上述各方法提供的基于时空域和包围盒信息的三维运动目标追踪方法，该方法包括：对于给定点云序列，基于每一帧的追踪目标的包围盒信息得到每一帧点云中所述追踪目标的掩膜信息；对所述点云序列的每一帧进行几何特征提取，得到每一帧的点特征，所述点特征包括点和所述点的几何特征描述算子；基于注意力机制，利用特征融合或共享相似度矩阵的方式，将所述追踪目标的掩膜信息传递到当前帧点特征中，利用时空上下文信息优化所述当前帧点特征，得到当前帧的优化后点特征；所述时空上下文信息包括所述当前帧内空间上下文特征关系与帧间时间上下文特征关系；利用所述当前帧的所述优化后点特征计算当前帧的所述追踪目标的包围盒信息。

以上所描述的装置实施例仅仅是示意性的，其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下，即可以理解并实施。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件。基于这样的理解，上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在计算机可读存储介质中，如ROM/RAM、磁碟、光盘等，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。

最后应说明的是：以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims

1.一种基于时空域和包围盒信息的三维运动目标追踪方法，其特征在于，包括：

2.根据权利要求1所述的基于时空域和包围盒信息的三维运动目标追踪方法，其特征在于，所述基于注意力机制，利用特征融合的方式，将所述追踪目标的掩膜信息传递到当前帧点特征中，利用时空上下文信息优化所述当前帧点特征，得到当前帧的优化后点特征，具体包括：

将所述掩膜特征描述算子与所述几何特征描述算子融合；

3.根据权利要求1所述的基于时空域和包围盒信息的三维运动目标追踪方法，其特征在于，所述基于注意力机制，利用共享相似度矩阵的方式，将所述追踪目标的掩膜信息传递到当前帧点特征中，利用时空上下文信息优化所述当前帧点特征，得到当前帧的优化后点特征，具体包括：

4.根据权利要求1所述的基于时空域和包围盒信息的三维运动目标追踪方法，其特征在于，所述利用所述当前帧的所述优化后点特征计算当前帧的所述追踪目标的包围盒信息，具体包括：

5.根据权利要求1所述的基于时空域和包围盒信息的三维运动目标追踪方法，其特征在于，所述利用所述当前帧的所述优化后点特征计算当前帧的所述追踪目标的包围盒信息，具体包括：

6.根据权利要求1所述的基于时空域和包围盒信息的三维运动目标追踪方法，其特征在于，所述对于给定点云序列，基于每一帧的追踪目标的包围盒信息得到每一帧点云中所述追踪目标的掩膜信息，具体包括：

7.一种基于时空域和包围盒信息的三维运动目标追踪装置，其特征在于，包括：

8.一种电子设备，包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序，其特征在于，所述处理器执行所述程序时实现如权利要求1至6任一项所述基于时空域和包围盒信息的三维运动目标追踪方法。

9.一种非暂态计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求1至6任一项所述基于时空域和包围盒信息的三维运动目标追踪方法。

10.一种计算机程序产品，包括计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求1至6任一项所述基于时空域和包围盒信息的三维运动目标追踪方法。