CN117853533A

CN117853533A - 基于多级特征融合的三维点云视觉跟踪方法及系统

Info

Publication number: CN117853533A
Application number: CN202410158729.5A
Authority: CN
Inventors: 郭文; 丁昕苗; 李志杰; 梁卜文; 李雷
Original assignee: Shandong Technology and Business University
Current assignee: Shandong Technology and Business University
Priority date: 2024-02-04
Filing date: 2024-02-04
Publication date: 2024-04-09

Abstract

本发明公开了一种基于多级特征融合的三维点云视觉跟踪方法及系统，属于三维点云跟踪技术领域。包括获取模板帧和搜索帧，对模板帧和搜索帧并行执行结合点注意力嵌入的特征提取操作，分别获取对应不同层次的点特征；使用交叉注意力将对应不同层次的点特征依照残差网络的方式相互融合，获取融合的深度特征；根据融合的深度特征进行粗预测，获取粗预测结果；根据粗预测结果、特征提取操作的最终输出和融合的深度特征进行精细化预测，获取精细化预测结果。能够实现点云特征的充分提取，提高三维点云视觉跟踪的精确度和鲁棒性，解决了现有无法提取三维点云充分的特征信息，影响三维点云视觉跟踪精度的问题。

Description

基于多级特征融合的三维点云视觉跟踪方法及系统

技术领域

本发明涉及三维点云跟踪技术领域，特别是涉及一种基于多级特征融合的三维点云视觉跟踪方法及系统。

背景技术

本部分的陈述仅仅是提到了与本发明相关的背景技术，并不必然构成现有技术。

近几年，3D点云以其在解决场景理解、自动驾驶、机器人视觉等领域问题时的出色表现，迅速地激起了人们的广泛关注。在视觉跟踪领域的课题研究中，三维点云数据本身具有独特的几何特征，和二维的视觉跟踪相比，其以更高一维的优势性为目标跟踪中的对象提供了更精准的数据依据。不仅如此，在面对光照变化、外观变化和背景噪音等问题时，3D目标跟踪中独特的数据性质并不会受到影响。

但是，将三维点云数据应用至目标跟踪虽然克服了二维数据中一些缺点，却也不可避免的带来了稀疏性、无序性、不完整性和缺乏纹理特征等新挑战，无法提取到足够充分的特征信息，导致数据融合的不够完善，造成特征的丢失，影响三维点云视觉跟踪的精度。

发明内容

为了解决现有技术的不足，本发明提供了一种基于多级特征融合的三维点云视觉跟踪方法、系统、电子设备及计算机可读存储介质，通过在注意力中嵌入新的注意力，增强3D特征提取；使用交叉注意力将不同的点特征依照残差网络的方式互相融合，实现了模板帧与搜索帧中特征信息的深度融合，提高三维点云视觉跟踪的精度和鲁棒性。

第一方面，本发明提供了一种基于多级特征融合的三维点云视觉跟踪方法；

一种基于多级特征融合的三维点云视觉跟踪方法，包括：

获取模板帧和搜索帧，对模板帧和搜索帧并行执行结合点注意力嵌入的特征提取操作，分别获取对应不同层次的点特征；

使用交叉注意力将对应不同层次的点特征依照残差网络的方式相互融合，获取融合的深度特征；

根据融合的深度特征进行粗预测，获取粗预测结果；

根据粗预测结果、特征提取操作的最终输出和融合的深度特征进行精细化预测，获取精细化预测结果。

进一步的，所述对模板帧和搜索帧并行执行结合点注意力嵌入的特征提取操作具体具体为：

将模板帧和搜索帧输入并行的特征提取网络进行特征提取；

其中，所述特征提取网络包括多层抽样模块，每层抽样模块中均分别嵌入点注意力嵌入模块。

优选的，抽样模块对模板帧或搜索帧进行处理具体为：通过抽样层对模板帧或搜索帧进行特征提取，获取点特征并输入点注意力嵌入模块进行处理。

进一步优选的，点注意力嵌入模块对点特征进行处理具体包括：

将点特征输入外嵌入点注意力模块进行处理，获取到对应的查询向量、键向量和值向量，进行线性变化和L2范式操作，并计算查询向量和键向量的余弦相似度；

将查询向量和键向量的余弦相似度输入内嵌入注意力模块，进行线性变化和L2范式操作，并执行余弦相似处理，以实现对点云数据的深度筛选。

优选的，并行的所述特征提取网络之间权重参数共享。

进一步的，所述使用交叉注意力将对应不同层次的点特征依照残差网络的方式相互融合具体为：

将模板帧和搜索帧分别对应的不同层次的点特征通过对应的交叉注意力模块依次融合，获取多个融合特征；

其中，以最后一层的交叉注意力模块为基础，将其余交叉注意力模块以残差网络连接。

进一步的，所述根据粗预测结果、特征提取操作的最终输出和融合的深度特征进行精细化预测具体包括：

对模板帧对应特征提取操作的最终输出和粗预测结果执行点偏移操作，获取点偏移量；

根据搜索帧对应特征提取操作的最终输出、融合的深度特征和点偏移量进行精细化预测，获取精细化预测结果。

第二方面，本发明提供了一种基于多级特征融合的三维点云视觉跟踪系统；

一种基于多级特征融合的三维点云视觉跟踪系统，包括：

特征提取模块，被配置为：获取模板帧和搜索帧，对所述模板帧和所述搜索帧并行执行结合点注意力嵌入的特征提取操作，分别获取对应不同层次的点特征；

深度融合模块，被配置为：使用交叉注意力将对应不同层次的点特征依照残差网络的方式相互融合，获取融合的深度特征；

预测模块，被配置为：根据融合的深度特征进行粗预测，获取粗预测结果；根据粗预测结果、特征提取操作的最终输出和融合的深度特征进行精细化预测，获取精细化预测结果。

第三方面，本发明提供了一种电子设备；

一种电子设备，包括存储器和处理器以及存储在存储器上并在处理器上运行的计算机指令，所述计算机指令被处理器运行时，完成上述基于多级特征融合的三维点云视觉跟踪方法的步骤。

第四方面，本发明提供了一种计算机可读存储介质；

一种计算机可读存储介质，用于存储计算机指令，所述计算机指令被处理器执行时，完成上述基于多级特征融合的三维点云视觉跟踪方法的步骤。

与现有技术相比，本发明的有益效果是：

1、本发明提供的技术方案，在使用PointNet++进行特征提取的过程中，将外嵌入点注意力模块嵌入每层的抽象层中，并在该模块中再次嵌入内嵌入注意力模块，使得点注意力获取到的相关性信息更具有判别性，减少了嘈杂的、错误的点注意力相关性的影响，提高三维点云视觉跟踪的精度和鲁棒性。

2、本发明提供的技术方案，针对特征融合模块设计点注意力加强模块，在模板帧和搜索帧通过点注意力嵌入模块对相应的特征进行筛选和加强之后，通过交叉注意力获取最后两层特征信息并进行互相融合，使用残差网络对其连接，以实现特征信息深度融合的要求。

3、本发明提供的技术方案，为保证预测的准确性，将经过点注意力加强处理过的数据作为预测模块的输入，实现目标的精准预测并达到最终鲁棒性跟踪的要求。

附图说明

构成本发明的一部分的说明书附图用来提供对本发明的进一步理解，本发明的示意性实施例及其说明用于解释本发明，并不构成对本发明的不当限定。

图1为本发明实施例提供的网络整体架构示意图；

图2为本发明实施例提供的外嵌入点注意力模块的网络架构示意图；

图3为本发明实施例提供的点注意力嵌入模块的网络架构及内部细节架构示意图；

图4为本发明实施例提供的交叉注意力的连接架构示意图；

图5为本发明实施例提供的点注意力嵌入模块的对比分析示例图；

图6为本发明实施例提供的点特征对比验证示例图；

图7为本发明实施例提供的可视化对比结果示例图。

具体实施方式

应该指出，以下详细说明都是示例性的，旨在对本发明提供进一步的说明。除非另有指明，本发明使用的所有技术和科学术语具有与本发明所属技术领域的普通技术人员通常理解的相同含义。

需要注意的是，这里所使用的术语仅是为了描述具体实施方式，而非意图限制根据本发明的示例性实施方式。如在这里所使用的，除非上下文另外明确指出，否则单数形式也意图包括复数形式，此外，还应当理解的是，术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

在不冲突的情况下，本发明中的实施例及实施例中的特征可以相互组合。

实施例一

由于三维点云数据具有稀疏性、无序性、不完整性和缺乏纹理特征的特点，导致将其应用至视觉跟踪时，跟踪精确度和鲁棒性收到很大影响；因此，本发明提供了一种基于多级特征融合的三维点云视觉跟踪方法。

针对跟踪过程中所出现的遮挡、稀疏性和随机噪音等问题，将点注意嵌入模块和点注意力增强模块应用于特征提取和特征融合的过程，将两个注意力互相嵌入，并和关系感知采样法融合，实现充分提取特征的目的。之后，将特征信息输入到点注意力增强模块中，使用交叉注意力对各个层次的特征依次聚合，达到全局特征和局部特征深度融合的目标。最后，通过使用残差网络将融合的结果进行连接，并将其输入到目标预测模块中，实现对最终3D目标对象的精准预测。

接下来，结合图1-图7对本实施例公开的一种基于多级特征融合的三维点云视觉跟踪方法进行详细说明。该基于多级特征融合的三维点云视觉跟踪方法，包括如下步骤：

S1、获取模板帧和搜索帧，其中，模板帧是初始第一帧的跟踪目标，搜索帧是紧接着跟踪序列帧的搜索域。

S2、对模板帧和搜索帧并行执行结合点注意力嵌入的特征提取操作，分别获取对应不同层次的点特征。

具体的，将模板帧和搜索帧输入并行的特征提取网络进行特征提取，特征提取网络为PointNet++，包括3层抽样模块，每层抽样模块中均分别嵌入点注意力嵌入模块，并行的特征提取网络之间共享权重参数。

其中，点注意力嵌入模块由两种互相嵌入的自注意力模块构成，包括外嵌入点注意力模块和内嵌入点注意力模块，通过关系感知采样的方法相融合，利用感知特征相似性保留了更多的模板相关点以缓解点云的稀疏问题，在此基础上，对获取的模板点特征充分提取并利用，减少了嘈杂的、错误的点注意力相关性的影响，加强了重要的点特征，为下一阶段目标的深度融合提供了保障。

作为一种实施方式，结合图1-图3，对步骤S2进行详细说明，具体流程包括：

S201、将模板帧和搜索帧输入并行的PointNet++网络中进行特征提取，通过对应的抽样模块，提取模板帧或搜索帧的点特征。

S202、将点特征输入外嵌入点注意力模块进行处理，获取到对应的查询向量、键向量和值向量，进行线性变化和L2范式操作，并计算查询向量和键向量的余弦相似度。

其中，点特征指的是点云的特征信息。

在2D目标跟踪中，注意力中的互相关都是通过内积来完成的，而在3D数据中，因为本身数据的稀疏性、无序性，通过余弦相似度来求得点与点之间的相关性。

示例性的，结合图2，Q,K,V分别代表注意力中的查询向量、键向量和值向量，可以推断出外嵌入点注意力模块对应的规范化表示下：

ExtAttn(Q,K,V)＝φ(Q-(M·(W_V·V)))

其中，φ代表线性操作和“ReLU”操作，Q为注意力中查询向量的输入值，K和V为注意力中的键向量和值向量，M是注意力分数，由“查询”向量和“键”值通过余弦相似度处理，其公式表示如下：

式中，为Q的线性投影，/>为K的线性投影，其公式表示如下：

式中，||·||₂代表L2范式，W_q,W_k,W_v分别代表Q,K，V线性投影的投影矩阵。

S203、将查询向量和键向量的余弦相似度输入内嵌入注意力模块，进行线性变化和L2范式操作，并执行余弦相似处理，以实现对点云数据的深度筛选。

该注意力是在外嵌入点注意力的基础上再次嵌入注意力，点注意力嵌入的输出表示如下：

A＝Q·K

在注意力机制中，“查询”和“键”值的余弦相似度是根据每一个点云数据特征进行的独立操作，所以对于遮挡、稀疏性和随机噪音等问题，其不可避免的会混入一些嘈杂的、错误的数据点，导致影响最终的跟踪效果。因此，本实施例提出了3D数据特征增强的方法，应用内嵌入点注意力模块，阐明“查询”和“键”值之间的相关性。

如图3右侧所示，为内嵌入点注意力的结构图，“嵌入模块”即为内嵌入点注意力嵌入的位置，通过残差网络进行相连，实现对特征提取的加强效果。

当获取到外嵌入点注意力模块中余弦相似度的结果后，便将其作为内嵌入点注意力模块的输入，之后通过线性变化和L2范式操作，并以同样的方式进行余弦相似处理，实现对点云数据的深度筛选。内嵌入注意力模块规范化表达公式表示如下：

式中，只用到了“查询”和“键”值，同上，和/>是Q和K对应的线性投影，然后通过余弦相似度获取相关性，最后将其输入到外嵌入点注力的模块中，实现对特征提取中重要特征信息的加强。

综上所述，点注意力嵌入模块是将内嵌入注意力模块与外嵌入注意力模块融合，如图3左侧所示，为整个点嵌入模块内部细节架构图，该模块与关系感知特征提取相辅相成，旨在实现点云数据中点特征的充分提取。点注意力嵌入模块的公式表示如下：

Attn(Q,K,V)＝φ(Q-soft max(A+InnAttn(A′)·(W_V·V)))

S3、使用交叉注意力将对应不同层次的点特征依照残差网络的方式相互融合，获取融合的深度特征。

结合图4，具体的，将不同层次的点特征依序通过交叉注意力逐层融合，因此通过特征提取网络提取到的特征就会被融合为四个不同的结果。为保证点特征的融合程度，引入了残差网络，以用于第三层中模板帧和搜索帧的特征融合为的交叉注意力模块为基础，将其他三个交叉注意力模块分别以残差网络连接，旨在实现局部特征与全局信息的深度融合。

S4、根据融合的深度特征进行粗预测，获取粗预测结果；根据粗预测结果、特征提取操作的最终输出和融合的深度特征进行精细化预测，获取精细化预测结果。具体包括：

S401、根据融合的深度特征进行粗预测，获取粗预测结果。

S402、对模板帧对应特征提取操作的最终输出和粗预测结果执行点偏移操作，获取点偏移量并进行局部区域编码后输入融合模块。

S403、将搜索帧对应特征提取操作的最终输出、融合的深度特征输入融合模块，进行精细化预测，获取精细化预测结果。

其中，此处的融合指的是直接连接(concatenate)。

示例性的，将粗预测与精细化预测分步进行，其公式表示如下：

L_total＝L_A+λL_B

其中，L_A表示的是粗预测的损失函数，L_B表示的是精细化损失函数，λ表示的是权重参数。在L_A和L_B中，都有其对应的分类分量和回归分量表示，表示如下:

在预测模块中，L_cls和L′_cls用来对每个点进行分类判断，L_reg和L′_reg则是对其进行回归，在3D目标跟踪中，回归操作包括3D数据中每个点的X,Y,Z坐标和其旋转角度θ。

接下来，为了验证本实施例所述方法的先进性，基于Kitti数据集对本实施例所述的方法进行效果评估，其中，Kitti数据集作为3D物体检测和3D目标跟踪的经典数据集，包括四个不同的类别，分别有小轿车，自行车，行人和大货车。

表1 Kitti数据集中成功值、精度值的比较

表1中，将本实施例的训练测试结果和之前的模型结构进行对比，其中，黑色加粗的结果为表中最优结果。在与自行车、货车、小轿车的比较中，我们的成功值和精确值数据均取得了较好的效果，这也验证了新的特征提取和特征融合方法的有效性。表1中的Largesamples是对表中所有大样本数据求平均值，在不考虑小样本的前提下，本实施例所述方法的跟踪性能确实高于baseline中的数据。所以，针对3D单目标跟踪数据中大型目标跟踪的样本，通过自注意力增强特征表达并通过交叉注意力实现局部特征和全局信息深度融合的方法的确能够获取并利用更加充足的特征信息，提高了目标跟踪的鲁棒性。

为了探讨特征充分提取和深度融合方法的有效性，在Kitti数据集上进行了消融实验。

在3D点云数据中，稀疏性是影响目标跟踪的一个重要因素。表2中，在关系感知采样模块的基础上，将其与点注意力嵌入模块进行融合，不仅保证了在特征提取过程中重要信息的不被丢失，也实现了对特征信息的增强表达。如表2中所示，针对大样本数据，本实施例所述方法的精确度和成功值均有提升。所以在特征提取的过程中，通过点注意力嵌入模块实现特征信息的增强表达的确是一种可靠的处理方法。为验证点注意力嵌入模块针对大样本数据的有效性，通过使用大货车和自行车类型的数据作为大样本实现可视化，其结果如图5所示。

表2不同模块组件的消融研究

表3不同融合方法的性能比较

表3中，对两种不同的交叉融合方式分别做了对应的消融实验，其中，平行连接代表着将相同层的模板帧和搜索帧互相关之后的特征融合图实现连接，而相交连接则是将不同层的模板帧与搜索帧互相关之后再次连接。在表2中的第三行代表我们将一个通过相交得到的特征融合图与两个平行的特征融合图连接的结果。通过表3中的消融实验有效的证明了本实施例所述的方法中点注意加强模块的有效性。

为了探讨点注意力嵌入模块中对特征提取的有效性，进行了对应的可视化分析，如图6所示。其中，第一列图是原始数据集中的点云数据，以Kitti数据集中的自行车类型为例，随机选择了其中的两个进行实验；第二列是baseline的可视化图，即对原始数据集在经过PointNet++特征提取之后的特征信息实现的可视化；第三列是在特征提取模块中增加点注意力嵌模块之后的可视化效果图，最后一列是我们方法的可视化效果图。

由图6可以明显看到，在从第一列的可视化图逐步向右侧可视化图分析的过程中，点的特征数据明显的减少而且更加集中。这说明在点注意力嵌入模块，本实施例的方法与PTTR中关系感知模块的结合能够保留更多的模板信息并缓解点云的稀疏性问题。

由于本实施例点注意力嵌入模块由外嵌入点注意力和内嵌入点注意力两个模块组成，所以点注意力嵌入模块的确能够排除一些错误的、嘈杂的数据，使获取的特征更具有判别性。因此，在目标跟踪的过程中，本实施例提出的点注意嵌入模块中的3D特征提取的方法发挥着重要的作用，能够实现点特征的充分提取。

实施例二

本实施例公开了一种基于多级特征融合的三维点云视觉跟踪系统，包括：

此处需要说明的是，上述特征提取模块、深度融合模块和预测模块对应于实施例一中的步骤，上述模块与对应的步骤所实现的示例和应用场景相同，但不限于上述实施例一所公开的内容。需要说明的是，上述模块作为系统的一部分可以在诸如一组计算机可执行指令的计算机系统中执行。

实施例三

本发明实施例三提供一种电子设备，包括存储器和处理器以及存储在存储器上并在处理器上运行的计算机指令，计算机指令被处理器运行时，完成上述基于多级特征融合的三维点云视觉跟踪方法的步骤。

实施例四

本发明实施例四提供一种计算机可读存储介质，用于存储计算机指令，所述计算机指令被处理器执行时，完成上述基于多级特征融合的三维点云视觉跟踪方法的步骤。

本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

上述实施例中对各个实施例的描述各有侧重，某个实施例中没有详述的部分可以参见其他实施例的相关描述。

以上所述仅为本发明的优选实施例而已，并不用于限制本发明，对于本领域的技术人员来说，本发明可以有各种更改和变化。凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.基于多级特征融合的三维点云视觉跟踪方法，其特征在于，包括：

根据融合的深度特征进行粗预测，获取粗预测结果；

2.如权利要求1所述的基于多级特征融合的三维点云视觉跟踪方法，其特征在于，所述对模板帧和搜索帧并行执行结合点注意力嵌入的特征提取操作具体具体为：

将模板帧和搜索帧输入并行的特征提取网络进行特征提取；

3.如权利要求2所述的基于多级特征融合的三维点云视觉跟踪方法，其特征在于，抽样模块对模板帧或搜索帧进行处理具体为：通过抽样层对模板帧或搜索帧进行特征提取，获取点特征并输入点注意力嵌入模块进行处理。

4.如权利要求3所述的基于多级特征融合的三维点云视觉跟踪方法，其特征在于，点注意力嵌入模块对点特征进行处理具体包括：

5.如权利要求2所述的基于多级特征融合的三维点云视觉跟踪方法，其特征在于，并行的所述特征提取网络之间权重参数共享。

6.如权利要求1所述的基于多级特征融合的三维点云视觉跟踪方法，其特征在于，所述使用交叉注意力将对应不同层次的点特征依照残差网络的方式相互融合具体为：

7.如权利要求1所述的基于多级特征融合的三维点云视觉跟踪方法，其特征在于，所述根据粗预测结果、特征提取操作的最终输出和融合的深度特征进行精细化预测具体包括：

8.基于多级特征融合的三维点云视觉跟踪系统，其特征在于，包括：

9.一种电子设备，其特征在于，包括存储器和处理器以及存储在存储器上并在处理器上运行的计算机指令，所述计算机指令被处理器运行时，完成权利要求1-7任一项所述的方法。

10.一种计算机可读存储介质，其特征在于，用于存储计算机指令，所述计算机指令被处理器执行时，完成权利要求1-7任一项所述的方法。