CN114419412A

CN114419412A - 一种用于点云配准的多模态特征融合方法与系统

Info

Publication number: CN114419412A
Application number: CN202210328519.7A
Authority: CN
Inventors: 左一帆; 黄小水; 曲文涛; 方玉明; 温文媖
Original assignee: Jiangxi University of Finance and Economics
Current assignee: Jiangxi University of Finance and Economics
Priority date: 2022-03-31
Filing date: 2022-03-31
Publication date: 2022-04-29

Abstract

本发明提出一种用于点云配准的多模态特征融合方法与系统，该方法包括：采用渐进式下采样多尺度方式提取得到点云结构特征以及图像纹理特征；基于Transformer交叉注意力机制初步融合点云结构特征与图像纹理特征；采用渐进式上采样多尺度方式深度融合点云结构特征以及点云融合特征以得到高质量点云特征；将高质量点云特征输入至特征激活映射模块中，从高质量点云特征中选取其中一个点特征作为目标点云特征，计算得到对应的原始点贡献度，最后将综合贡献度以3D热度图的形式可视化以得到目标点云特征3D热度图。本发明不仅能鲁棒地融合图像纹理特征与点云结构特征，并且可解释性强，运算复杂度低。

Description

一种用于点云配准的多模态特征融合方法与系统

技术领域

本发明涉及计算机3D技术领域，特别涉及一种用于点云配准的多模态特征融合方法与系统。

背景技术

随着三维重建和虚拟现实等技术的发展，点云处理的需求变得越来越广泛。作为当前的热门任务，点云配准需要解决的基本问题是：给定两个姿态不同且有部分重叠的点云数据，通过估计它们之间的旋转与平移矩阵，将它们变换至统一的坐标系下。点云配准共包含两个步骤：特征表征与特征匹配。特征表征是指从原始点云中提取具有旋转不变性的结构特征；特征匹配是根据点云结构特征估计姿态矩阵，实现相应的坐标系变换。

在点云配准的早期研究中，研究者基于预定义的描述方法提取点云的结构特征。该类方法受制于浅层模型的表征能力，在实际场景中精度较低。例如，该类方法具有部分重叠区域的点云配准问题。近年来，得益于深度神经网络强大的学习能力，基于深度神经网络的方法，可极大提高点云结构特征表征的有效性。

目前，利用Transformer交叉注意力机制学习点云对之间的结构信息已取得一定进展，其进一步提高了点云结构特征的分辨能力。此外，其它方法通过将点投影至球形空间，利用三维卷积提取球形空间中点的结构信息。在点的多尺度特征提取方面，一些方法通过提取不同采样下点云数据的结构信息，使点云特征具有表征点密度信息的能力。

然而，上述的特征提取方法，仅关注于结构特征的表征，忽略了对应的纹理线索，不利于进一步提升特征的分辨能力。

发明内容

鉴于上述状况，本发明的主要目的是为了提出一种用于点云配准的多模态特征融合方法与系统，用于解决上述技术问题。

本发明实施例提出一种用于点云配准的多模态特征融合方法，用于通过深度神经网络以实现点云结构特征与图像纹理特征的融合，所述深度神经网络的拓扑结构包括依次连接的特征提取编码器、注意力融合模块、特征融合解码器以及特征激活映射模块，其特征在于，所述方法包括如下步骤：

步骤一、获取同一场景的点云数据与图像数据，并根据所述点云数据与所述图像数据划分训练集与测试集；

步骤二、通过所述特征提取编码器，采用渐进式下采样多尺度方式分别对所述点云数据以及所述图像数据进行提取以得到点云结构特征以及图像纹理特征；

步骤三、通过所述注意力融合模块，基于Transformer交叉注意力机制，对所述点云结构特征以及所述图像纹理特征进行初步融合，以得到点云融合特征；

步骤四、通过所述特征融合解码器，采用渐进式上采样多尺度方式深度融合所述特征提取编码器输出的点云结构特征，以及所述注意力融合模块输出的点云融合特征，以得到高质量点云特征；

步骤五、将所述高质量点云特征输入至所述特征激活映射模块，从所述高质量点云特征中选取其中一个点特征作为目标点云特征，通过梯度反向传播方式获取所有原始点对所述目标点云特征的原始点贡献度，根据所述原始点贡献度计算得到综合贡献度，并将所述综合贡献度以3D热度图的形式可视化以得到目标点云特征3D热度图。

本发明提出一种用于点云配准的多模态特征融合方法，基于稀疏3D卷积构建深度神经网络，由特征提取编码器、注意力融合模块、特征融合解码器以及激活映射模块组成；其中，特征提取编码器采用渐进式下采样多尺度方式提取得到点云结构特征以及图像纹理特征；注意力融合模块基于Transformer交叉注意力机制初步融合点云结构特征与图像纹理特征；特征融合解码器采用渐进式上采样多尺度方式深度融合特征提取编码器输出的点云结构特征以及注意力融合模块输出的点云融合特征以得到高质量点云特征；最后将高质量点云特征输入至特征激活映射模块中，从高质量点云特征中选取其中一个点特征作为目标点云特征，计算得到对应的原始点贡献度，进而根据原始点贡献度计算得到综合贡献度，最后将综合贡献度以3D热度图的行驶可视化表现以得到目标点云特征3D热度图。本发明提出的用于点云配准的多模态特征融合方法，不仅能鲁棒地融合图像纹理特征与点云结构特征，而且具有可解释性强、运算复杂度低的优点。

所述一种用于点云配准的多模态特征融合方法，其中，在所述步骤一中，所述训练集的构建方法包括如下步骤：

在所述图像数据中选取与点云Z轴投影姿态一致的场景纹理图像；

根据预设体素，对所述点云数据进行渐进式下采样得到点云，并对点云进行随机增强；其中，对点云进行随机增强的操作包括：0度旋转，90度旋转，180度旋转以及270度旋转；

根据预设图像尺寸，对所述场景纹理图像进行提取以得到子图像，根据随机增强后的点云以及所述子图像构建得到训练集。

所述一种用于点云配准的多模态特征融合方法，其中，在所述步骤二中，通过所述特征提取编码器，采用渐进式下采样多尺度方式分别对所述点云数据以及所述图像数据进行提取以得到点云结构特征以及图像纹理特征的方法包括如下步骤：

基于 3D Minkowski Engin卷积神经网络构建的点云下采样网络，并显式引入残差网络以及批量归一化层，采用渐进式下采样多尺度方式对所述点云数据进行提取以得到所述点云结构特征；

基于2D卷积神经网络构建的图像下采样网络，采用渐进式下采样多尺度方式在多个下采样阶段对所述图像数据进行提取以得到所述图像纹理特征。

所述一种用于点云配准的多模态特征融合方法，其中，在所述步骤三中，通过所述注意力融合模块，基于Transformer交叉注意力机制，对所述点云结构特征以及所述图像纹理特征进行初步融合，以得到点云融合特征的方法包括如下步骤：

以所述点云结构特征作为查询

，以所述图像纹理特征作为键

值

对，基于交叉注意力机制将查询

与键

的乘积输入至

层以得到特征相似权重矩阵

；

基于所述特征相似权重矩阵

以及值

进行矩阵相乘处理以得到点云纹理特征

；

将所述点云纹理特征

与所述点云结构特征进行初步融合，以得到所述点云融合特征

。

所述一种用于点云配准的多模态特征融合方法，其中，在所述步骤三中，所述查询

与所述键

值

对的计算公式表示为：

其中，

表示层标准化操作，

表示查询的权重，

表示键

的权重，

表示值

的权重，

表示特征提取编码器10输出的点云结构特征，

表示特征提取编码器10输出的图像纹理特征；

所述特征相似权重矩阵

表示为：

其中，所述特征相似权重矩阵

用于表示点云结构特征中每个点与图像纹理特征中每个像素的相似程度，

表示卷积核输出通道维度，

表示转置操作；

所述点云纹理特征

表示为：

其中，

表示线性投影操作；

所述点云融合特征

表示为：

其中，

表示

处理，

表示矩阵相乘操作，

表示元素相加操作。

所述一种用于点云配准的多模态特征融合方法，其中，在所述步骤四中，所述特征提取编码器包括第一结构特征提取单元111、第二结构特征提取单元112、第三结构特征提取单元113以及第四结构特征提取单元114，

所述高质量点云特征的计算公式表示为：

其中，

表示所述高质量点云特征，

表示卷积操作，

表示维度拼接操作，

表示第一结构特征提取单元111输出的点云结构特征，

表示第二结构特征提取单元112输出的点云结构特征，

表示第三结构特征提取单元113输出的点云结构特征，

表示注意力融合模块20输出的点云融合特征。

所述一种用于点云配准的多模态特征融合方法，其中，在所述步骤五中，从高质量点云特征中选取其中一个点特征作为目标点云特征

，并以目标点云特征

中逐个元素作为损失值通过梯度反向传播至目标层以获取目标层特征映射以及卷积核梯度；

其中，在目标点云特征

中以第

个元素作为损失值通过梯度反向传播至目标层，对应获取得到的目标层特征映射表示为

，对应获取得到的修正后的卷积核梯度表示为

；

其中，

其中，

，

表示目标点云特征

中的元素序号，

表示卷积核，

表示目标点云特征

中的元素数量，

表示卷积核输出通道维度，

表示输入通道数，

表示空间尺寸，

表示目标点云特征的第

个元素

作为损失值对卷积核

求导的卷积核梯度，

表示标记函数，

，

表示卷积核梯度

与标记函数

的乘积，即修正后的卷积核梯度，

表示实体空间，

表示元素数量。

所述一种用于点云配准的多模态特征融合方法，其中，在所述步骤五中，所述方法还包括：

通过修正后的卷积核梯度

，以卷积核输出通道维度

上执行逐元素累加以得到特征通道权重

，其中所述特征通道权重

表示为：

其中，

表示输入通道数的序号，

表示卷积核空间尺寸大小的取值，

表示卷积核输出通道的序号，

表示以目标点云特征

中第

个元素作为损失值，修正后的卷积核梯度

中第

个输入通道第

个卷积核空间尺寸大小对应的输出通道上的元素。

所述一种用于点云配准的多模态特征融合方法，其中，所述原始点贡献度表示为：

其中，

表示所述原始点贡献度；

所述综合贡献度表示为：

其中，

表示所述综合贡献度，

表示

处理。

本发明还提出一种用于点云配准的多模态特征融合系统，用于通过深度神经网络以实现点云结构特征与图像纹理特征的融合，所述深度神经网络的拓扑结构包括依次连接的特征提取编码器、注意力融合模块、特征融合解码器以及特征激活映射模块，其中，所述系统包括：

预处理模块，用于获取同一场景的点云数据与图像数据，并根据所述点云数据与所述图像数据划分训练集与测试集；

特征提取编码器，用于采用渐进式下采样多尺度方式分别对所述点云数据以及所述图像数据进行提取以得到点云结构特征以及图像纹理特征；

注意力融合模块，用于基于Transformer交叉注意力机制，对所述点云结构特征以及所述图像纹理特征进行初步融合，以得到点云融合特征；

特征融合解码器，用于采用渐进式上采样多尺度方式深度融合所述特征提取编码器输出的点云结构特征，以及所述注意力融合模块输出的点云融合特征，以得到高质量点云特征；

特征激活映射模块，用于将所述高质量点云特征输入至所述特征激活映射模块，从所述高质量点云特征中选取其中一个点特征作为目标点云特征，通过梯度反向传播方式获取所有原始点对所述目标点云特征的原始点贡献度，根据所述原始点贡献度计算得到综合贡献度，并将所述综合贡献度以3D热度图的形式可视化以得到目标点云特征3D热度图。

本发明的附加方面和优点将在下面的描述中部分给出，部分将从下面的描述中变得明显，或通过本发明的实施例了解到。

附图说明

图1为本发明提出的一种用于点云配准的多模态特征融合方法的流程图；

图2为本发明提出的一种用于点云配准的多模态特征融合方法对应的网络拓扑图；

图3为本发明提出的一种用于点云配准的多模态特征融合方法的注意力融合模块拓扑图；

图4为本发明提出的一种用于点云配准的多模态特征融合方法的特征激活映射模块拓扑图。

具体实施方式

下面详细描述本发明的实施例，所述实施例的示例在附图中示出，其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的，仅用于解释本发明，而不能理解为对本发明的限制。

参照下面的描述和附图，将清楚本发明的实施例的这些和其他方面。在这些描述和附图中，具体公开了本发明的实施例中的一些特定实施方式，来表示实施本发明的实施例的原理的一些方式，但是应当理解，本发明的实施例的范围不受此限制。相反，本发明的实施例包括落入所附加权利要求书的精神和内涵范围内的所有变化、修改和等同物。

请参阅图1至图4，本发明提出一种用于点云配准的多模态特征融合方法，用于通过深度神经网络以实现点云结构特征与图像纹理特征的融合，所述深度神经网络的拓扑结构包括依次连接的特征提取编码器、注意力融合模块、特征融合解码器以及特征激活映射模块，其特征在于，所述方法包括如下步骤：

S101、获取同一场景的点云数据与图像数据，并根据所述点云数据与所述图像数据划分训练集与测试集。

在步骤S101中，训练集的构建方法包括如下步骤：

S1011、在所述图像数据中选取与点云Z轴投影姿态一致的场景纹理图像。

S1012、根据预设体素，对所述点云数据进行渐进式下采样得到点云，并对点云进行随机增强。

其中，对点云进行随机增强的操作包括：0度旋转，90度旋转，180度旋转以及270度旋转。

S1013、根据预设图像尺寸，对所述场景纹理图像进行提取以得到子图像，根据随机增强后的点云以及所述子图像构建得到训练集。

S102、通过所述特征提取编码器，采用渐进式下采样多尺度方式分别对所述点云数据以及所述图像数据进行提取以得到点云结构特征以及图像纹理特征。

如图2所示，特征提取编码器10包含第一纹理特征提取单元101、第二纹理特征提取单元102、第三纹理特征提取单元103、第一结构特征提取单元111、第二结构特征提取单元112、第三结构特征提取单元113以及第四结构特征提取单元114。

具体的，第一纹理特征提取单元101包含第一卷积层1011、第一BN层1012，第一ReLU层1013以及第一池化层1014；第二纹理特征提取单元102包含第一残差块1021、第二残差块1022以及第三残差块1023；第三纹理特征提取单元103包含第四残差块1031、第五残差块1032、第六残差块1033以及第七残差块1034。

第一结构特征提取单元111包含第二卷积层1111、第八残差块1112、第二BN层1113以及第二ReLU层1114；第二结构特征提取单元112包含第三卷积层1121、第九残差块1122、第三BN层1123以及第三ReLU层1124；第三结构特征提取单元113包含第四卷积层1131、第十残差块1132、第四BN层1133以及第四ReLU层1134；第四结构特征提取单元114包含第五卷积层1141、第十一残差块1142、第五BN层1143以及第五ReLU层1144。

在步骤S102中，通过特征提取编码器10，采用渐进式下采样多尺度方式分别对所述点云数据以及所述图像数据进行提取以得到点云结构特征以及图像纹理特征的方法包括如下步骤：

S1021、基于 3D Minkowski Engin卷积神经网络构建的点云下采样网络，并显式引入残差网络以及批量归一化层，采用渐进式下采样多尺度方式对所述点云数据进行提取以得到所述点云结构特征。

如图2与图3所示，点云数据

依次经过第一结构特征提取单元111、第二结构特征提取单元112、第三结构特征提取单元113以及第四结构特征提取单元114，各结构特征提取单元对点云数据

执行多尺度、分布式地特征提取，以得到点云结构特征

。

S1022、基于2D卷积神经网络构建的图像下采样网络，采用渐进式下采样多尺度方式在多个下采样阶段对所述图像数据进行提取以得到所述图像纹理特征。

如图2与图3所示，图像数据

依次经过第一纹理特征提取单元101、第二纹理特征提取单元102以及第三纹理特征提取单元103，产生图像纹理特征

。

在本实施例中，第三纹理特征提取单元103输出的图像纹理特征

与第四结构特征提取单元114输出的点云结构特征

同时输入到注意力融合模块20中，通过Transformer交叉注意力机制初步融合点云结构特征

与图像纹理特征

并产生点云融合特征

。

S103、通过所述注意力融合模块，基于Transformer交叉注意力机制，对所述点云结构特征以及所述图像纹理特征进行初步融合，以得到点云融合特征。

在本实施例中，由第一MLP层201、第二MLP层211、第三MLP层216、第四MLP层218、第一Layer层212、第二Layer层215、Softmax层214以及GeLU层217组成的注意力融合模块20实现对点云结构特征

与图像纹理特征

的初步融合。

具体的，图像纹理特征

经过第一MLP层201产生键204值203对，点云结构特征

通过第二MLP层211与第一Layer层212处理后产生查询213。

在本发明中，通过所述注意力融合模块20，基于Transformer交叉注意力机制，对点云结构特征以及所述图像纹理特征进行初步融合，以得到点云融合特征的方法包括如下步骤：

S1031、以所述点云结构特征作为查询

，以所述图像纹理特征作为键

值

对，基于交叉注意力机制将查询

与键

的乘积输入至层以得到特征相似权重矩阵

。

所述查询

与所述键

值

对的计算公式表示为：

其中，

表示层标准化操作，

表示查询的权重，

表示键

的权重，

表示值

的权重，

表示特征提取编码器10输出的点云结构特征，

表示特征提取编码器10输出的图像纹理特征。

键204与查询213执行矩阵相乘并通过Softmax层214的处理后产生特征相似权重矩阵

，特征相似权重矩阵

表示为：

其中，所述特征相似权重矩阵

表示卷积核输出通道维度，

表示转置操作。

S1032、基于所述特征相似权重矩阵

以及值

进行矩阵相乘处理以得到点云纹理特征

。

特征相似权重矩阵

与值203实行矩阵相乘并通过第二Layer层215以及第三MLP层216的处理后得到点云纹理特征

，所述点云纹理特征

表示为：

其中，

表示线性投影操作。

S1033、将所述点云纹理特征

。

所述点云融合特征

表示为：

其中，

表示

处理，

表示矩阵相乘操作，

表示元素相加操作。

S104、通过所述特征融合解码器，采用渐进式上采样多尺度方式深度融合所述特征提取编码器输出的点云结构特征，以及所述注意力融合模块输出的点云融合特征，以得到高质量点云特征。

请参阅图2，特征融合解码器30包括第一特征融合单元301、第二特征融合单元302、第三特征融合单元303、第四特征融合单元304以及第十卷积层305。其中，第一特征融合单元301包括第六卷积层3011、第十二残差块3012、第六BN层3013以及第六ReLU层3014；第二特征融合单元302包括第七卷积层3021、第十三残差块3022、第七BN层3023以及第七ReLU层3024；第三特征融合单元303包括第八卷积层3031、第十四残差块3032、第八BN层3033以及第八ReLU层3034；第四特征融合单元304包括第九卷积层3041、第十五残差块3042、第九BN层3043以及第九ReLU层3044。

注意力融合模块20输出的点云融合特征

输入至第一特征融合单元301，首先，第一特征融合单元301输出的点云结构特征

与第三结构特征提取单元113输出的点云结构特征

，在点数量维度上执行维度拼接并产生点云特征

，

输入至第二特征融合单元302，完成第一次点云特征上采样；随后，第二特征融合单元302输出的点云特征

与第二结构特征提取单元112输出的点云特征

在点数量维度上实行维度拼接并产生点云特征

，

继续输入至第三特征融合单元303，完成第二次点云特征上采样；

然后，第三特征融合单元303输出的点云特征

与第一结构特征提取单元111输出的点云特征

在点数量维度上进行维度拼接并产生点云特征

，

接着输入至第四特征融合单元304，完成第三次点云特征上采样；最后，第四特征融合单元304输出的点云特征

经过第十卷积层305的维度处理后，输出最终融合纹理信息的高质量点云特征

。在此需要补充说明的，上述的

并不是附图中的标记，只是为了更好地说明特征融合解码器30的原理，故未说明书附图中进行标注。

其中，高质量点云特征的计算公式表示为：

其中，

表示所述高质量点云特征，

表示卷积操作，

表示维度拼接操作，

表示第一结构特征提取单元111输出的点云结构特征，

表示第二结构特征提取单元112输出的点云结构特征，

表示第三结构特征提取单元113输出的点云结构特征，

表示注意力融合模块20输出的点云融合特征。

S105、将所述高质量点云特征输入至所述特征激活映射模块，从所述高质量点云特征中选取其中一个点特征作为目标点云特征，通过梯度反向传播方式获取所有原始点对所述目标点云特征的原始点贡献度，根据所述原始点贡献度计算得到综合贡献度，并将所述综合贡献度以3D热度图的形式可视化以得到目标点云特征3D热度图。

请参阅图4，由目标点云特征401、卷积核梯度402、特征映射412，特征映射通道权重403，显著特征映射404，原始点贡献度405以及3D热度图406组成的特征激活映射模块40实现计算所有原始点对目标点云特征的原始贡献度。

首先，目标点云特征

的第

个元素

逐个作为损失值梯度反向传播至目标层。目标层对象产生目标点云特征

第

个元素的特征映射412以及卷积核梯度402。

从高质量点云特征中选取其中一个点特征作为目标点云特征

，并以目标点云特征

中逐个元素作为损失值通过梯度反向传播至目标层以获取目标层特征映射以及卷积核梯度。

其中，在目标点云特征

中以第

，对应获取得到的修正后的卷积核梯度表示为

；

其中，

其中，

，

表示目标点云特征

中的元素序号，

表示卷积核，

表示目标点云特征

中的元素数量，

表示卷积核输出通道维度，

表示输入通道数，

表示空间尺寸，

表示目标点云特征的第

个元素

作为损失值对卷积核

求导的卷积核梯度，

表示标记函数，

，

表示卷积核梯度

与标记函数

的乘积，即修正后的卷积核梯度，

表示实体空间，

表示元素数量。

需要说明的是，若目标点云特征

没有被指定，那么特征激活映射模块40会选择高质量点云特征

中特征匹配度最好的点特征作为目标点云特征。

随后，通过修正后的卷积核梯度

，以卷积核输出通道维度

上执行逐元素累加以得到特征通道权重

，其中所述特征通道权重

表示为：

其中，

表示输入通道数的序号，

表示卷积核空间尺寸大小的取值，

表示卷积核输出通道的序号，

表示以目标点云特征

中第

个元素作为损失值，修正后的卷积核梯度

中第

个输入通道第

个卷积核空间尺寸大小对应的输出通道上的元素。

可以理解的，特征通道权重描述了目标点云特征第

个元素作为损失值，目标层特征映射每个通道上元素对目标点云特征的贡献程度。

然后，特征映射通道权重403与特征映射412执行元素相乘，得到显著特征映射404。显著特征映射404表示目标点云特征第

个元素作为损失值，体现每个通道上元素对目标点云特征贡献大小的特征映射。然后，显著特征映射404以点数量维度上实行逐元素累加获取目标点云特征第

个元素的原始点贡献度。

所述原始点贡献度表示为：

其中，

表示所述原始点贡献度。

根据原始点贡献度计算得到综合贡献度，综合贡献度表示为：

其中，

表示所述综合贡献度，

表示

处理。

应当理解的，本发明的各部分可以用硬件、软件、固件或它们的组合来实现。在上述实施方式中，多个步骤或方法可以用存储在存储器中且由合适的指令执行系统执行的软件或固件来实现。例如，如果用硬件来实现，和在另一实施方式中一样，可用本领域公知的下列技术中的任一项或他们的组合来实现：具有用于对数据信号实现逻辑功能的逻辑门电路的离散逻辑电路，具有合适的组合逻辑门电路的专用集成电路，可编程门阵列（PGA），现场可编程门阵列（FPGA）等。

在本说明书的描述中，参考术语“一个实施例”、“一些实施例”、 “示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中，对上述术语的示意性表述不一定指的是相同的实施例或示例。而且，描述的具体特征、结构、材料或者特点可以在任何的一个或多个实施例或示例中以合适的方式结合。

以上所述实施例仅表达了本发明的几种实施方式，其描述较为具体和详细，但并不能因此而理解为对本发明专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本发明构思的前提下，还可以做出若干变形和改进，这些都属于本发明的保护范围。因此，本发明专利的保护范围应以所附权利要求为准。