CN112347932A

CN112347932A - 一种点云-多视图融合的三维模型识别方法

Info

Publication number: CN112347932A
Application number: CN202011233224.9A
Authority: CN
Inventors: 彭勃; 宋嘉慧; 雷建军; 于增瑞; 秦天一
Original assignee: Tianjin University
Current assignee: Tianjin University
Priority date: 2020-11-06
Filing date: 2020-11-06
Publication date: 2021-02-09
Anticipated expiration: 2040-11-06
Also published as: CN112347932B

Abstract

本发明公开了一种点云‑多视图融合的三维模型识别方法，包括：通过模态间交互的注意力模块，实现将两种模态数据之间的相关信息融合到模态间交互的注意力掩膜中；构建模态间注意力增强模块，用于通过一个残差结构来获得增强的多视图特征和点云特征；构建基于视图上下文的注意力增强模块，用于在多视图序列中挖掘上下文信息，获取三维模型的空间结构信息；构建点云特征和多视图特征融合模块，用于融合增强的点云特征以及进一步增强的多视图特征，得到三维模型特征表示；训练点云‑多视图融合的三维模型识别网络，采用三维模型分类任务评估三维模型的识别性能。本发明联合优化点云特征和多视图特征学习、融合以及增强过程，提升三维模型识别性能。

Description

一种点云-多视图融合的三维模型识别方法

技术领域

本发明涉及三维模型识别、计算机视觉领域，尤其涉及一种点云-多视图融合的三维模型识别方法。

背景技术

随着多媒体技术的发展，三维模型的数据量急剧增长。作为计算机视觉领域的基础问题之一，三维模型识别的目标旨在通过学习三维模型数据的特征表示，以理解三维模型的内容。目前，三维模型识别技术已被广泛应用于三维模型生成、自动驾驶以及虚拟现实等领域。不同于二维图像，三维模型可由体素、多视图和点云等不同模态数据表示，不同模态的数据能够从不同的角度描述三维模型的特点。因此，有效地利用多模态数据特性以获得更具辨析力的特征表示，从而获得较好的三维模型识别性能已成为计算机视觉领域的热门研究方向。

近年来，研究人员提出了许多基于单模态数据的三维模型识别方法。在这些方法中，基于体素数据的方法通常需要很高的存储成本和计算成本。而基于点云数据的方法虽然能够准确地表征三维模型的空间结构信息，但其缺乏三维模型的颜色信息和纹理信息。相反地，基于多视图数据的方法能够很好地表示三维模型的颜色信息及纹理信息，但其对于三维模型的空间结构信息表征能力不足。上述基于单模态数据的三维模型识别方法通常仅关注于提取某一模态数据的特征表示，忽略了多模态数据的综合表示能力。因此，如何有效地利用多模态数据特性学习一个更全面的三维模型特征是提高三维模型识别性能的有效手段。

目前，已有工作关注于综合利用三维模型的多模态数据表示，以提高三维模型数据的表示能力。例如，Hegde等人提出了FusionNet网络来联合学习体素数据和多视图数据的统一特征表示。You等人提出了一种用于三维模型识别的点云和多视图联合卷积网络PVNet，该网络利用全局视图特征来指导点云的局部特征提取。然而，上述方法没有考虑到多视图序列中所包含的三维模型空间信息。

因此，如何有效地挖掘不同模态数据之间的相关性，根据相关性及各模态自身特点进一步强化不同模态的特征，并将多模态数据特征聚合成更具鉴别性的特征表示，将有助于表征三维模型的空间结构信息和表面细节信息，从而提高三维模型识别任务的性能。

发明内容

为了挖掘点云数据和多视图数据间的相关性，并有效地将点云数据特征和多视图数据特征聚合成更有鉴别性的特征表示，本发明提出了一种点云-多视图融合的三维模型识别方法，以联合优化点云特征和多视图特征的学习、融合以及增强过程，从而提升三维模型识别性能，详见下文描述：

一种点云-多视图融合的三维模型识别方法，所述方法包括：

构建点云特征学习网络和多视图特征学习网络，以分别学习点云特征和多视图特征；

通过模态间交互的注意力模块，实现将两种模态数据之间的相关信息融合到模态间交互的注意力掩膜中；

构建模态间注意力增强模块，用于通过一个残差结构来获得增强的多视图特征和点云特征；

构建基于视图上下文的注意力增强模块，用于在多视图序列中挖掘上下文信息，获取三维模型的空间结构信息；

构建点云特征和多视图特征融合模块，用于融合增强的点云特征以及进一步增强的多视图特征，得到三维模型特征表示；

训练点云-多视图融合的三维模型识别网络，采用三维模型分类任务评估三维模型的识别性能。

其中，所述通过模态间交互的注意力模块，实现将两种模态数据之间的相关信息融合到模态间交互的注意力掩膜中具体为：

将点云特征P∈R^c复制n次得到与多视图特征V∈R^n×c同尺寸的点云特征Pⁿ∈R^n×c，并与多视图特征V沿通道维度进行级联；

基于级联后的特征，利用多层感知器将级联后的特征投影到高层语义空间以获得融合点云特性和多视图特性的联合特征表示；

采用sigmoid函数计算模态间交互的注意力掩膜：

ATT_{inter-modality}＝sigmoid(MLP₁(C(Pⁿ,V)))

其中，C表示级联操作，MLP₁表示多层感知器，ATT_{inter-modality}∈R^n×c表示模态间交互的注意力掩膜。

进一步地，所述模态间注意力增强模块具体为：

将注意力掩膜与不同模态特征进行元素级相乘，并将相乘后的结果与对应模态特征进行元素级相加以获得增强的各模态特征，计算公式为：

其中，

表示元素级相乘操作，

表示元素级相加操作，E_v和E_p表示两种模态增强的特征表示。

其中，所述基于视图上下文的注意力增强模块具体为：

基于增强的多视图特征E_v，利用长短时序列网络进一步提取多视图图像的上下文特征表示，并利用softmax函数计算包含多视图上下文信息的注意力得分ATT_view-context：

ATT_view-context＝softmax(f_FC(LSTM(E_v)))

其中，LSTM表示长短时序列网络，f_FC(·)表示全连接层，softmax函数用于对f_FC(·)的输出进行归一化处理；

其中，E_v'表示进一步增强的多视图特征。

进一步地，所述点云特征和多视图特征融合模块具体为：

F_3D＝MLP₂(C(E_p,E_v'))

其中，F_3D代表三维模型的特征表示，MLP₂表示多层感知器。

本发明提供的技术方案的有益效果是：

1、考虑到不同模态数据之间的相关性，本发明设计了点云-多视图融合的三维模型识别网络，通过渐进地融合并优化两个模态数据的特征，最终得到更有鉴别力的三维模型特征表达，实现了点云-多视图融合的三维模型识别；

2、为了增强点云特征和多视图特征，本发明提出了模态间注意力增强模块，以将两种模态数据间的相关信息有效融合到模态间交互的注意力掩膜中；

3、为了获得更具鉴别力的三维模型特征表达，本发明设计了基于视图上下文的注意力增强模块，以获取三维模型更全面的空间信息。

附图说明

图1为一种点云-多视图融合的三维模型识别方法的流程图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚，下面对本发明实施方式作进一步地详细描述。

本发明实施例提供了一种点云-多视图融合的三维模型识别方法，参见图1，该方法包括以下步骤：

101：构建不同模态的特征学习网络；

首先，构建不同模态的特征学习网络，包括：点云特征学习网络和多视图特征学习网络，以分别学习点云特征和多视图特征。多视图特征学习网络为一种基于深度学习的二维图像特征提取网络，本发明实施例采用MVCNN(多视图卷积神经网络)网络学习多视图数据中不同视图的特征表示，然后将学习到的多视图特征进行级联得到三维模型的多视图特征V∈R^n×c，其中，V为三维模型的多视图特征，R为全体实数定义域，n为多视图数据视图的个数，c为每个视图特征的维度。点云特征学习网络为一种基于深度学习的点云特征提取网络，本发明实施例采用DGCNN(动态图卷积神经网络)网络用于学习点云数据的全局特征信息P∈R^c，其中，P为点云数据的全局特征信息。

102：设计模态间交互的注意力模块；

本发明实施例通过特征学习网络获取了点云特征P∈R^c和多视图特征V∈R^n×c之后，为了有效地探索多视图数据与点云数据之间的相关性，首先将点云特征P∈R^c复制n次得到与多视图特征V∈R^n×c同尺寸的点云特征Pⁿ∈R^n×c，并与多视图特征V沿通道维度进行级联。

基于级联后的特征，利用多层感知器将级联后的特征投影到高层语义空间以获得融合点云特性和多视图特性的联合特征表示。然后，采用sigmoid函数计算模态间交互的注意力掩膜，公式表示为：

ATT_{inter-modality}＝sigmoid(MLP₁(C(Pⁿ,V))) (1)

其中，C表示级联操作，旨在将多视图特征V∈R^n×c和重复点云特征Pⁿ∈R^n×c沿通道维进行融合。MLP₁表示多层感知器，用于自适应地将级联后的特征投影到高层语义空间以获得融合点云特性和多视图特性的联合特征表示。ATT_{inter-modality}∈R^n×c表示模态间交互的注意力掩膜。

通过模态间交互的注意力模块，实现了将两种模态数据之间的相关信息融合到模态间交互的注意力掩膜中。接下来，通过对多模态数据特征分配注意力分数，该注意力掩膜将用于进一步细化多视图特征和点云特征。

103：设计模态间注意力增强模块；

本发明实施例在模态间交互的注意力模块的基础上，引入了模态间注意力增强模块，以获得两种模态数据增强后的特征表示。

具体来说，在获得模态间交互的注意力掩膜ATT_{inter-modality}∈R^n×c的基础上，模态间注意力增强模块通过一个残差结构来获得增强的多视图特征E_v∈R^n×c和点云特征E_p∈Rⁿ ^×c。

具体实现过程为：将注意力掩膜与不同模态特征进行元素级相乘，并将相乘后的结果与对应模态特征进行元素级相加以获得增强的各模态特征，计算公式为：

其中，

表示元素级相乘操作，

表示元素级相加操作。通过模态间注意力增强模块，最终实现了将点云数据和多视点数据之间的相关信息集成到两种模态增强的特征表示E_v和E_p中。

104：设计基于视图上下文的注意力增强模块；

为了进一步利用三维模型的空间信息，提出了基于视图上下文的注意力增强模块，以提高最终三维模型特征表示的表征能力。不同于点云数据，多视图模态数据采用具有空间顺序的多个视图的图像来描述三维模型的空间结构。因此，在多视图序列中挖掘上下文信息，有利于获取三维模型更全面的空间结构信息。

在基于视图上下文的注意力增强模块中，首先，基于增强的多视图特征E_v，利用长短时序列网络进一步提取多视图图像的上下文特征表示，并利用softmax函数计算包含多视图上下文信息的注意力得分ATT_view-context，公式计算如下：

ATT_view-context＝softmax(f_FC(LSTM(E_v))) (4)

其中，LSTM表示长短时序列网络，f_FC(·)表示全连接层，softmax函数用于对f_FC(·)的输出进行归一化处理，以获取视图上下文的注意得分ATT_view-context。

其中，E_v'表示进一步增强的多视图特征。

105：设计点云特征和多视图特征的融合模块；

为了有效挖掘三维模型更全面的空间信息，设计点云特征和多视图特征融合模块以融合增强的点云特征以及进一步增强的多视图特征，从而得到最终更具鉴别力的三维模型特征表示，具体公式表示为：

F_3D＝MLP₂(C(E_p,E_v')) (6)

其中，F_3D代表三维模型的特征表示。MLP₂表示多层感知器。

106：训练点云-多视图融合的三维模型识别网络；

本发明实施例提出的点云-多视图融合的三维模型识别网络包括不同模态的特征学习网络、模态间交互的注意力模块、模态间注意力增强模块、基于视图上下文的注意力增强模块以及点云特征和多视图特征融合模块。

在本发明实施例所提出的方法中，网络的输入为12张多视图数据和包含1024个点的点云数据。在网络训练阶段，本发明实施例采用在MdoelNet40数据集上预训练的DGCNN和MVCNN模型参数来分别初始化点云和多视图模态的特征提取网络。在三维模型特征表示F_3D之后应用softmax分类器训练整体网络，以获得能够提取有效三维模型特征表示的点云-多视图融合网络。

107：采用三维模型分类任务评估三维模型的识别性能。

在网络训练结束后，本发明实施例采用三维模型分类任务来评估三维模型的识别性能。将测试集中的三维模型输入训练后的点云-多视图融合的三维模型识别网络中，网络输出各个三维模型的类别标签，并与三维模型的真实类别标签进行比较以判断是否分类正确。最后，统计分类准确率用于评估点云-多视图融合的三维模型识别网络的性能。

本发明实施例对各器件的型号除做特殊说明的以外，其他器件的型号不做限制，只要能完成上述功能的器件均可。

本领域技术人员可以理解附图只是一个优选实施例的示意图，上述本发明实施例序号仅仅为了描述，不代表实施例的优劣。

以上所述仅为本发明的较佳实施例，并不用以限制本发明，凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。