CN114972794A

CN114972794A - 基于多视图Pooling Transformer的三维对象识别方法

Info

Publication number: CN114972794A
Application number: CN202210671530.3A
Authority: CN
Inventors: 陈罡; 王文举; 周浩然; 王晓琳
Original assignee: University of Shanghai for Science and Technology
Current assignee: University of Shanghai for Science and Technology
Priority date: 2022-06-15
Filing date: 2022-06-15
Publication date: 2022-08-30

Abstract

本发明提供一种基于多视图PoolingTransformer的三维对象识别方法，首先基于待测对象的多视图的信息熵构造得到了最佳视图集，从而减少了多视图的冗余性，提高了网络模型进行识别的精准度。其次，采用ResNet网络和Embedding网络一次性对所有视图进行特征信息提取，获取了最佳视图集的多视图低级局部特征token序列，从而使之能够输入到PoolingTransformer完成并行化训练。然后，通过PoolingTransformer将所述多视图低级局部特征token序列的局部视图信息token序列，实现分别从全局和局部聚合多视图低级局部特征token序列为一个紧凑而单一的3D全局描述符。最后，由分类器识别该3D全局描述符得到待测对象的识别结果。该方法能够高效、准确地捕获多个视图之间的相关特征信息，极大地提高了网络模型的识别精度和训练效率。

Description

基于多视图Pooling Transformer的三维对象识别方法

技术领域

本发明属于3D对象识别技术领域，具体涉及一种基于多视图PoolingTransformer的三维对象识别方法。

背景技术

随着3D采集技术的快速发展，3D扫描仪、深度扫描仪和3D相机等传感器变得大众化、廉价化，点云、网格等3D数据的获取也变得更加方便、精准。这些因素推动了基于3D数据的对象识别技术在自动驾驶的环境感知、机器人的抓起识别、增强现实的场景理解等领域的广泛应用。因此3D对象识别成为了当前的一个研究热点。

目前，基于深度学习的方法已经成为3D对象识别任务的主流研究技术。总体而言，这些方法根据深度神经网络输入的数据类型不同可以分为三类：基于体素的方法[1-8]，基于点云的方法[9-16]，基于多视图的方法[17-26]。

基于体素的方法：将点云表示的3D对象体素化，然后使用3D卷积神经网络(3DCNN)从固定大小的体素中学习3D对象的特征。Daniel Maturana等人提出VoxNet[1]，它使用3D CNN提取经过体素化的3D对象特征，并经过最大池化对不重叠的体素进行处理，但它不能做到自动学习3D对象的形状分布信息。为此Zhirong Wu等人提出3D ShapeNets[2]，它将3D对象表示为3D体素网格上二进制变量的概率分布并提取特征，从而能自动发现分层组成的3D对象的部件表示。VoxNet和3D ShapeNets将3D对象体素化能够一定程度上解决点云非结构化的问题，但仍存在随着分辨率增加计算成本增加和3D对象的结构不能紧凑表示的问题。于是一些工作对3D对象体素化结构的表示展开研究，其中OctNet[3]利用输入3D数据的稀疏性将3D空间分层划分为一组不平衡的八叉树，八叉树的每个叶节点都存储一个池化特征表示，该结构很好地考虑了3D对象的全局特征，但它处理高分辨率体素化3D对象的能力还需要加强。Pengshuai Wang等人通过限制CNN的计算和特征在3D对象表面占据的八分圆上，所提出的Octree-based Convolutional Neural Network(O-CNN)[4]能有效地分析高分辨率的3D对象。虽然用灵活的八叉树结构替代固定分辨率的体素能减少3D对象表示的内存占用，但每次从根节点遍历八叉树在高分辨率的情况下计算成本还是过于昂贵，所以这种树表示结构还有优化的空间。因此Kd-network[5]被提出来，它基于Kd-tree结构来创建3D对象的结构图并共享做变换时的可学习参数，并以前馈自底向上的方式计算层次表示序列，这样它的网络结构内存占用更小，计算效率更高，但它未考虑全局和局部背景信息的关系。Wei Zeng等人提出的3D ContextNet[6]探索了这种关系，该网络沿着树结构逐步学习表示向量，通过使用自适应特征识别局部模式，并将全局模式计算为同一级别不同区域的非局部响应，从而捕获了局部和全局信息的相关性。这些使用Kd-tree的方法虽然基于Kd-tree的索引和结构化的能力能减少计算时的内存占用，但可能会丢失局部几何结构的信息。Truc Le等人提出的PointGrid[7]能够解决这个问题，它在每个网格单元内使用点量化操作采样固定数量的点，从而学习更高阶的局部近似函数来避免了局部信息的丢失，但它适应体素网格稀疏性的能力还有待于提升。VV-NET[8]网络考虑增强对体素中稀疏分布的捕获，它使用内插变分自编码器结构对体素内的局部几何进行编码，再使用径向基函数来计算局部连续表示。虽然这些基于体素的方法很好地解决了点云体素化存在的内存占用高和训练时间长的问题，但该过程仍存在不可避免的问题，即3D对象体素化低分辨率时可能存在信息丢失，高分辨率时总会导致高昂的计算成本。

基于点云的方法：因为点云体素化过程中存在不可避免的信息丢失问题，而这些丢失的信息又可能十分重要。一些方法考虑不经过体素化，直接对点云进行高效而准确地处理，从而完成后续的对象识别任务。这些方法可归为一类即基于点云的方法。该类方法又可细分为基于邻域特征池化的方法、基于注意力机制的方法和基于图神经网络的方法。第一类是基于邻域特征池化的方法：Charles R.Qi等人提出的PointNet[9]是最早地直接处理点云的方法，它使用T-Net对输入点矩阵做仿射变换，经过多层感知机(MLP)提取每点特征，这样能够解决了点云数据存在无序性、置换不变性的问题，但它却无法捕获点之间的局部邻域信息。从而进一步提出PointNet++[10]，它通过引入分层神经网络来构建局部邻域子集，然后基于PointNet提取局部邻域特征，PointNet++一定程度上解决了PointNet局部邻域信息提取的问题，但它不具备同时实现方向感知和尺度感知的能力。对此MingyangJiang等人提出PointSIFT[11]网络，它通过使用方向编码卷积(OEC)集成定向方向的信息，并通过堆叠方向编码单元实现多尺度表示，但它尚不能做到自适应特征来查找点与点之间的联系。将局部邻域的点密集连接来准确表示该区域，并使用自适应特征调整(AFA)来构建局部网络，由此PointWeb[12]能从点对差异中学习到点特征，但丢失了全局特征之间的相关性。第2类是基于注意力机制的方法：在生活中人们将注意力有选择地集中在视觉空间的某些部分，这样能加强不同视觉位置的相互依赖，从而能够高效地学习有效特征，由此注意力机制成为研究者们考虑的方向。Dual Attention Network(DANet)[13]采用双重注意力，它的位置注意力模块有选择地聚合局部邻域特征，通道注意力模块整合全局通道图之间的关联特征，并将两个注意力模块的输出进行融合，从而增强了特征表示的能力，但它的局部几何特征在空间上的泛化性还存在不足。为此Mingtao Feng等人提出了LocalAttention-Edge Convolution(LEA-Conv)[14]，它基于多向搜索策略来构造局部特征图，然后分配注意力系数给图的每条边，再将中心点特征聚合为其相邻节点的加权总和，从而获得了更具细粒度的局部几何特征。第3类是基于图神经网络的方法：该类方法将点云转换为k-近邻图或叠加图，并利用图论进化网络来探索拓扑结构也能有效地捕获局部几何结构，同时保持排列不变性。Dynamic Graph CNN(DGCNN)[15]通过EdgeConv来构建动态图卷积神经网络进行对象识别，EdgeConv能够提取局部领域特征信息，且提取到的点云局部形状的特征能够保持排列不变性，但是它的深度特征和邻域可能过于相似，无法提供有价值的边缘向量。Linked Dynamic Graph CNN(LDGCNN)[16]在DGCNN的基础上进一步改进，将不同动态图的层次特征结合，使用当前索引从先前特征中获取有用的边缘向量来学习新特征，从而提高了识别精度。虽然基于点云的方法直接处理点云能减少信息丢失，但它的网络模型往往很复杂，训练时间偏长，最后的识别精度也不够高。

基于多视图的方法将3D数据对象渲染为多个2D视图。这样它不再需要依赖复杂的3D特征，而是将渲染得到的多视图输入到成熟的2D图像分类网络来提取高效准确的特征进行对象识别。特别对于3D对象存在遮挡的情况，该类方法根据来自不同视点的视图捕获可互相补充3D对象的细节特征。相比较基于体素的方法、基于点云的方法，目前这类方法取得了最好的3D对象识别精度。Hang Su等人首先提出Multi-view Convolutional NeuralNetworks(MVCNN)[17]。它采用2D CNN网络来单独地处理经过渲染的多视图，然后经过视图池化将多个视图的信息组合成一个单一而紧凑的形状描述符，但因为它在所有视图上做池化，会丢失视点的一些位置信息。一些方法开始考虑对多视图特征进行分组来加强对多视图位置信息的捕捉，RCPCNN[18]从分好组的相似视图中汇聚信息，然后以循环的方式将汇聚的特征向量作为输入馈送到同一层，它一定程度上捕获了相似视图之间的信息，但未考虑不同视图的区别性。将不同视点下CNN提取的视图级别描述符进行分组，并以组为单位根据其判别权重组合对特征进行聚合，Multi-view Convolutional Neural Networks(GVCNN)[19]同时考虑了视图之间的组内相似性和组间区分性，但它需要考虑所有视图才能进行推断。通过将视点标签视为潜在向量，以无监督的方式进行训练学习，RotationNet[20]仅使用几个视图也可以获得不错的识别性能，但是它的局限性是单独处理视图时会存在信息丢失。Carlos Esteves等人提出的Equivariant Multi-View Networks(EMV)[21]解决了这个问题，它在旋转组的离散子组上执行卷积，因此能以等变的方式对所有视图进行联合推理，但它的网络模型可能有些复杂。由于注意力机制可以灵活的捕捉全局和局部特征的联系，从而能对网络模型结构进行优化，一些研究工作开始考虑加入注意力机制。Zhizhong Han提出3D to Sequential Views(3D2SeqViews)[22]，它对每个视图的内容信息进行编码，用分层注意力聚合特征，并同时聚合编码视图的内容信息和视图之间的序列空间性，加强学习特征的区别性，但是它只能聚集顺序视图而不适用于无序视图。View N-gram Network(View-gram)[23]将视图序列划分为一组视觉n-gram，这样可以捕获跨多个视图的空间信息，有助于为每个3D对象学习有区别的全局嵌入，但是它的单个视点图像的信息存在丢失。Relation Network(RN)[24]能够加强单个视图图像的信息，并考虑了不同视图之间区域到区域和视图到视图的关系，因为它使用关系网络来有效地连接来自不同视点的相应区域，并利用了一组视图上的相互关系，但它不能灵活地模拟不同的视图配置。Songle Chen等人认为将多个视图作为一个序列后使用RNN选择视图进行聚合也能很好地考虑视图之间的联系，对此提出了View-Enhanced RecurrentAttention Model(VERAM)[25]网络，这是一种视图增强的循环注意力模型，它通过设计一个奖励函数为视图估计做强化训练，能够主动选择视图序列以进行高精度的3D对象识别，但它不能通过自适应计算特征的权值来进行局部特征融合。在此基础上，Hierarchical multi-view contextmodelling(HMVCM)[26]采用自适应计算特征的权值高低来聚合特征为紧凑的3D对象描述符，这是一种分层的多视图上下文建模方法，它使用结合了卷积神经网络(CNN)和双向长短期记忆(Bi-LSTM)网络的模块来学习单个视图及其邻域的视觉上下文特征后，最终在ModelNet 40数据集上达到了94.57％的总体识别精度。但它在训练时不能并行考虑所有视图的局部特征，丢失了视图间的相关信息，从而聚合得到的全局描述符也不够紧凑，所以它的3D对象识别精度还有进一步提升的空间。

基于多视图的上述方法因其经过渲染的多个2D视图保留了原始3D对象的局部特征信息。此处这些来自不同视点的视图还能相互补充3D对象的细节特征，经过后续的融合处理可大大提高对3D对象的识别精度。所以相比基于体素和基于点云的方法，基于多视图的方法识别精度更高。但该类方法目前还存在训练时不能一次性对所有视图进行特征信息提取，无法高效捕获多个视图之间的相关特征信息以及渲染3D对象为多视图时存在冗余性的问题。多视图之间的相关特征信息对于最后聚合多视图局部特征为一个紧凑的全局描述符是不可缺少的。它们的部分遗漏是造成该类方法的识别精度难以进一步提高的主要原因。而视图冗余性问题则会增加不必要的网络模型训练时间和进一步影响最终的识别精度。

发明内容

为解决上述多视图冗余性问题、模型训练繁杂一家特征信息遗漏等问题，提供一种基于多视图的三维对象识别方法，本发明采用了如下技术方案：

本发明提供了一种基于多视图Pooling Transformer的三维对象识别方法，其特征在于，包括以下步骤：步骤S1，构建Multi-view Pooling Transformer网络模型，该模型具有最佳视图集获取模块、低级局部特征token序列生成模块、基于Pooling Transformer的全局描述符生成模块以及分类器；步骤S2，将待测对象输入至MVPT模型，通过最佳视图集获取模块获取对应的多视图，并根据多视图的信息熵构建最佳视图集；步骤S3，由低级局部特征token序列生成模块提取最佳视图集的多视图低级局部特征，并基于该多视图低级局部特征生成对应的多视图低级局部特征token序列；步骤S4，全局描述符生成模块将多视图低级局部特征token序列的局部视图信息token序列，与其全局特征信息序列聚合生成待测对象的3D全局描述符；步骤S5，分类器将3D全局描述符作为输入进行三维对象识别，从而得到待测对象的识别结果。

本发明提供的基于多视图Pooling Transformer的三维对象识别方法，还可以具有这样的技术特征，其中，步骤S2包括以下子步骤：步骤S2-1，对待测对象按照正十二面体视点获取对应的多个2D视图；步骤S2-2，计算每个2D视图的信息熵，并按信息熵值的高低进行排序；步骤S2-3，选取信息熵排名前n位的视图作为最佳视图集，从而减少冗余的视图。

本发明提供的基于多视图Pooling Transformer的三维对象识别方法，还可以具有这样的技术特征，其中，信息熵的计算公式为：

P_a,b＝f(a,b)/W·H

式中，H_i表示第i个视图v_i的信息熵，(a,b)为一个二元组，a表示某个滑动窗口内中心的灰度值，b为该窗口内除开中心像素的灰度均值；P_a,b表示(a,b)在整个视图v_i中出现的概率；f(a,b)表示(a,b)这个二元组在整个视图v_i中出现的次数；W、H表示视图v_i的宽高。

本发明提供的基于多视图PoolingTransformer的三维对象识别方法，还可以具有这样的技术特征，其中，低级局部特征token序列生成模块具有ResNet网络和Embedding网络，步骤S3包括以下子步骤：步骤S3-1，由ResNet网络提取最佳视图集的多视图低级局部特征；步骤S3-2，基于Embedding网络生成多视图低级局部特征的局部视图token序列：

[x₁,...x_i...,x_n]＝Emb{Res[v₁,...v_i...,v_n]}

式中，[v_i,…v_i…,v_n]是最佳视图集，v_i表示其中的一个视图；步骤S3-3，将一个初始化class tokenx_class添加到局部视图token序列的首部，并将它们分别与位置编码E_pos进行拼接，最终生成多视图低级局部特征token序列：

式中，X₀是多视图低级局部特征token序列，x_class是一个与局部视图token序列的维度相匹配的随机初始化值，E_pos用来保存来自不同视点x_i的位置信息。

本发明提供的基于多视图PoolingTransformer的三维对象识别方法，还可以具有这样的技术特征，其中，全局描述符生成模块包括基于Transformer的全局特征信息生成子模块和基于Pooling的局部视图信息token序列聚合子模块，基于Transformer的全局特征信息生成子模块具有Layer Normalization网络、Multi-HeadMulti-ViewAttention网络、多层感知机网络以及残差连接。

本发明提供的基于多视图PoolingTransformer的三维对象识别方法，还可以具有这样的技术特征，其中，步骤S5包括以下子步骤：步骤S4-1，Layer Normalization网络对多视图低级局部特征token序列进行归一化处理：

步骤S4-2，Multi-HeadMulti-View Attention网络将归一化后的token序列

通过线性变换完成MHMVA计算，生成token序列X_MHMVA；步骤S4-3，对token序列X_MHMVA使用残差连接得到token序列X₁从而避免梯度消失，再将X₁输入至LayerNormalization网络进行归一化处理后输入至多层感知机网络；步骤S4-4，将多层感知机网络的输出结果与X₁进行残差连接，得到局部视图信息token序列：

其中，局部视图信息token序列由全局class token

和局部视图信息token序列

组成，其中全局class token

保存了局部视图token序列的全局特征信息，即

步骤S4-5，基于Pooling的局部视图信息token序列聚合子模块将局部视图信息token序列

进行池化处理得到单个最佳局部视图信息token，再将该最佳局部视图信息token与全局class token

进行拼接聚合，最终生成对应的3D全局描述符Y：

本发明提供的基于多视图Pooling Transformer的三维对象识别方法，还可以具有这样的技术特征，其中，Multi-Head Multi-View Attention网络由多个Multi-ViewAttention组成，MHMVA计算是进行多个并行化的Multi-View Attention计算：步骤S4-2-1，将经过归一化处理的

先通过线性变换生成Query、Key、Value三个向量：

步骤S4-2-2，根据Head数量N将上一步的三个向量均分为多个Multi-ViewAttention的输入q_i、k_i、v_i，能够形成多个子空间，关注输入特征不同部分的信息，最后将这些特征信息拼接能获得更加丰富的信息：

步骤S4-2-3，Multi-ViewAttention根据输入进行MVA的计算，即，计算q_i与k_i转置的乘积得到一个score，除以

进行归一化处理来稳定梯度，再将归一化后的结果值作为softmax函数的输入，该softmax函数的输出与v_i点乘得到

式中，d_k为k_i的维度；步骤S4-2-4，对于计算后的每个

进行Concat，再经过一次线性变换最终完成MHMVA计算：

发明作用与效果

根据本发明的基于多视图Pooling Transformer的三维对象识别方法，该方法构建了Multi-view Pooling Transformer网络模型，该模型具有最佳视图集获取模块、低级局部特征token序列生成模块、基于Pooling Transformer的全局描述符生成模块以及分类器。首先基于待测对象的多视图的信息熵构造得到了最佳视图集，从而减少了多视图的冗余性，提高了网络模型进行识别的精准度。其次，采用ResNet网络和Embedding网络一次性对所有视图进行特征信息提取，获取了最佳视图集的多视图低级局部特征token序列，从而使之能够输入到Pooling Transformer完成并行化训练。然后，通过Pooling Transformer将多视图低级局部特征token序列的局部视图信息token序列，实现分别从全局和局部聚合多视图低级局部特征token序列为一个紧凑而单一的3D全局描述符。最后，由分类器识别该3D全局描述符得到待测对象的识别结果。

本发明的基于多视图Pooling Transformer的三维对象识别方法能够高效、准确地捕获多个视图之间的相关特征信息，极大地提高了网络模型的识别精度和训练效率。

附图说明

图1是本发明实施例中的基于多视图Pooling Transformer的三维对象识别方法的流程示意图；

图2是本发明实施例中Multi-view Pooling Transformer网络模型的结构示意图；

图3是本发明实施例中正十二面体相机视点设置的示意图；

图4是本发明实施例中全局描述符生成模块的示意图；

图5是本发明实施例中Multi-HeadMulti-ViewAttention网络的结构示意图；

图6是本发明实施例中Multi-ViewAttention网络的结构示意图；

图7是本发明实施例中数据集ModelNet40中部分类别对象的示意图；

图8是本发明实施例中基于信息熵的最佳视图集构造过程示意图。

具体实施方式

为了提升当前基于多视图的3D对象识别方法的识别精度和降低网络模型的训练时间，本发明基于Transformer模型、池化技术和信息熵计算提出了Multi-view PoolingTransformer(简称MVPT)网络框架。该MVPT网络基于信息熵构造最佳视图集来减少多视图的冗余性，并提取最佳视图集为多视图低级局部特征token序列，从而输入到PoolingTransformer完成并行化训练。该方法一次性对所有视图进行特征信息提取，从而高效地捕获多个视图之间的相关特征信息，极大地提高网络模型的识别精度和训练效率。

为了使本发明实现的技术手段、创作特征、达成目的与功效易于明白了解，以下结合实施例及附图对本发明的基于多视图PoolingTransformer的三维对象识别方法作具体阐述。

<实施例>

图1是本发明实施例中的基于多视图PoolingTransformer的三维对象识别方法的流程示意图。

如图1所示，基于多视图PoolingTransformer的三维对象识别方法包括以下步骤：

步骤S1，构建Multi-viewPoolingTransformer即多视图池化Transformer网络模型。

图2是本发明实施例中Multi-viewPoolingTransformer网络模型的结构示意图。

如图2所示，该Multi-viewPoolingTransformer模型具有最佳视图集获取模块、低级局部特征token序列生成模块、基于PoolingTransformer的全局描述符生成模块以及分类器。

步骤S2，将待测对象输入至MVPT网络模型，通过最佳视图集获取模块获取对应的多视图，并根据多视图的信息熵构建最佳视图集。

在MVPT网络的输入部分，可以将由点云、网格表示的3D对象渲染为多个2D视图。本实施例选用3D对象识别精度更高的网格表示形式，当然点云形式的3D对象也可以重建为网格形式。

由于常用的多视图渲染方法获取的多视图往往存在着冗余性的问题，导致网络模型的训练时间不必要的增加。为此本实施例利用2D视图信息熵的计算提出基于信息熵的最佳视图集构造方法。具体地：

对于一个3D对象O，通过不同位置的相机视点设置，能够获得不同的2D渲染视图V＝{v₁,...v_i...,v_N}，[v₁,...v_i...,v_N]＝Render(O)，其中v_i表示从第i个视点获取的视图。

图3是本发明实施例中正十二面体相机视点设置的示意图。

本实施例中，使用正十二面体相机视点设置：把3D对象放在正十二面体的中心，然后根据正十二面体的顶点来设置相机视点，如图3所示。该方法使用正十二面体进行视点设置，因为正十二面体的顶点数量N＝20，每个顶点即为一个相机视点。这样的视点设置可以使得相机视点在3D空间中完全均匀分布，从而尽可能多地捕获3D对象的全局空间信息，从而减少信息丢失。

通过观察这种相机视点设置渲染得到20个2D视图，虽然它们均匀覆盖了3D对象各个部分，但是各个视图之间总会存在重复的部分，这样可能会导致深度神经网络提取到的特征存在冗余性，并且会增加网络模型的训练时间，最终导致3D对象识别精度下降。

针对正十二面体相机视点设置存在重复性的这一问题，本实施例采用2D视图的信息熵作为评价标准构造最佳视图集来减少冗余的视图。信息熵可以在视图所包含信息量的前提下，突出反映视图中像素位置的灰度信息和像素邻域内灰度分布的综合特征。所以信息熵可以作为评价视图质量的一种有效手段。

首先，计算2D视图N(N＝20)的信息熵：

P_a,b＝f(a,b)/W·H

然后，将信息熵值H_i(i＝1,…,N，N＝20)按高低排序。

最后，将信息熵排名前n位(n<N，本实施例中n＝6)的视图作为最佳视图集V＝{v₁,...v_i...,v_n}。当最佳视图集中取n＝1时,即选取信息熵值最高的单个视图称之为最佳视图。

经过该处理过程后MVPT网络模型将不再需要依赖于复杂的3D对象特征，并且可以使用成熟的2D图像分类网络来提取高效准确的低级视图特征，从而优化网络模型的复杂度。此外，如果采集到的3D对象存在遮挡的情况，来自不同相机视点的2D视图还可以互相补充3D对象的细节特征，从而提升网络模型3D对象识别精度。

步骤S3，由低级局部特征token序列生成模块提取最佳视图集的多视图低级局部特征，并基于该多视图低级局部特征生成对应的多视图低级局部特征token序列。

由于Transformer是在自然语言处理任务中提出，它的输入要求是二维矩阵序列。而最佳视图集V＝{v₁,...v_i...,v_n}，v_i的维度为Bn×C×H×W(其中B为批次大小，n为视图数量，C为通道数，H为图片的高，W为图片的宽)。因此所获得的视图并不能直接输入到Transformer来进行处理，还需要提取各个视图v_i的低级局部特征，将其展平为局部视图token序列X＝{x₁,...x_i...,x_n}。x_i表示由第i个视图生成的局部视图token，它的维度为Bn×D(其中D为视图v_i经过特征提取和Embedding后的维度)。

其中，关于视图低级特征提取，可以采用任何成熟的2D图像分类网络，例如ResNet系列网络。ResidualNetwork(ResNet)首次引入了残差连接的概念来解决梯度消失、信息丢失等问题，让较深的网络也能得到很好地训练。该网络已广泛应用于图像分类等领域或作为主干网络来完成计算机视觉任务，常见的有18-layer、34-layer、50-layer。具体地：

首先，由ResNet34网络提取最佳视图集的多视图低级局部特征。其中，该ResNet34网络中有34个layer，并且经过微调去掉了最后一层全连接层。

然后，对多视图低级局部特征进行一次Embedding操作生成局部视图token序列X＝{x₁,...x_i...,x_n}：

[x₁,...x_i...,x_n]＝Emb{Res[v₁,...v_i...,v_n]}。

最后，将一个初始化class tokenx_class添加到局部视图token序列的首部，并将它们分别与位置编码E_pos进行拼接，最终生成多视图低级局部特征token序列：

步骤S4，全局描述符生成模块将多视图低级局部特征token序列的局部视图信息token序列，与其全局特征信息序列聚合生成一个紧凑而单一的3D全局描述符。

图4是本发明实施例中全局描述符生成模块的示意图。

如图4所示，全局描述符生成模块包括基于Transformer的全局特征信息生成子模块和基于Pooling的局部视图信息token序列聚合子模。其中，基于Transformer的全局特征信息生成子模块具有Layer Normalization网络、Multi-Head Multi-ViewAttention网络、多层感知机网络以及一个残差连接。

本步骤S4包括以下子步骤：

步骤S4-1，采用Layer Normalization网络对多视图低级局部特征token序列进行归一化处理：

步骤S4-2，基于Multi-Head Multi-ViewAttention网络将归一化后的token序列

通过线性变换完成MHMVA计算，生成token序列X_MHMVA。

图5是本发明实施例中Multi-Head Multi-ViewAttention网络的结构示意图，以及图6是本发明实施例中Multi-ViewAttention网络的结构示意图。

如图5及图6所示，Multi-Head Multi-ViewAttention网络由多个Multi-ViewAttention组成，进行多个并行化的Multi-ViewAttention计算即为MHMVA计算。具体地：

步骤S4-2-1，MHMVA计算需要Query、Key、Value三个向量,为此先将经过归一化处理的

通过线性变换生成Query、Key、Value三个向量：

步骤S4-2-2，根据Head数量N将上一步的三个向量均分为多个Multi-ViewAttention的输入q_i、k_i、v_i，形成多个子空间，从而使得Multi-HeadMulti-View Attention网络能够关注输入特征不同部分的信息，将这些特征信息拼接能获得更加丰富的信息：

式中，d_k为k_i的维度。

步骤S4-2-4，对于计算后的每个

进行Concat，再经过一次线性变换最终完成MHMVA计算：

步骤S4-3，对token序列X_MHMVA使用残差连接得到token序列X₁从而避免梯度消失：X₁＝X_MHMVA+X₀，再将X₁输入至LayerNormalization网络进行归一化处理后输入至多层感知机网络。

因为Multi-HeadMulti-ViewAttention网络对复杂过程的拟合程度不够，因此本实施例在其后面添加了多层感知机MLP来增强模型的泛化能力。MLP由Linear层组成，使用GELU激活函数：

MLP(X)＝GELU(XW₁+b₁)W₂+b₂

式中，W₁和b₁是第一层全连接层的权值，W₂和b₂是第二层全连接层的权值，X表示输入的特征信息。

步骤S4-4，将多层感知机的输出结果与X₁进行残差连接得到局部视图信息token序列：

其中，局部视图信息token序列由全局class token

和局部视图信息token序列

组成，其中全局class token

保存了局部视图token序列的全局特征信息，即

经过MHMVA并行化计算后，全局class token

保存了局部视图token序列的全局特征信息，却存在丢失了单个最佳局部视图信息token的问题。该部分信息对于聚合为3D全局描述符是十分有效的。为此，本实施例提出基于Pooling的局部视图信息token序列聚合方法。该方法在保留了局部视图token序列的全局特征信息的情况下，还能同时捕获单个最佳局部视图信息token。具体地：

进行拼接聚合，经过这些处理过程我们就能实现分别从局部和全局来汇聚多视图低级局部特征token序列，最终生成了一个更加紧凑的3D全局描述符Y：

步骤S5，分类器将3D全局描述符Y作为输入进行三维对象识别，从而得到待测对象的识别结果。

本实施例中，为了对MVPT网络模型进行性能评估，在广泛使用的3D对象识别数据集ModelNet40上进行了多个对比实验。ModelNet40因其类别多样、形状干净、构建良好等优势而广受欢迎。它由40个类别(如飞机、汽车、植物、灯)构成，一共有12311个CAD模型，其中包含9843个训练样本和2468个测试样本。ModelNet40的构成如图7所示。

本实施例中，选择了多个具有代表性的3D对象识别方法在保持一致的实验环境设置下进行对比实验，并定量分析了本实施例提出的MVPT网络模型。采用总体识别精度(OA)、平均识别精度(AA)和整个网络模型的训练时间作为评估指标。

其中，总体识别精度OA表示所有类别正确识别的样本数与样本总数的比率，计算公式如下：

式中，N是样本总数，x_ii是沿着混淆矩阵对角分布的正确识别的样本数，C表示类别数量。

平均识别精度AA表示每个类别的正确识别样本数与样本总数比率的平均值，计算公式如下：

式中，recall表示每个类别正确识别样本数与样本总数的比率，sum表示求和，C表示类别数量。

本实施例在装有Windows 10系统的计算机上使用PyCharm进行。该计算机的相关配置如下：(1)Central Processing Unit(CPU):Intel(R)Xeon CPU@2.80GHz；(2)GraphicProcessing Unit(GPU):RTX2080(3)random access memory(RAM):64.0GB(4)Pytorch1.6。

在实验过程中，将训练分为了两个阶段。第一阶段仅仅处理单个视图来实现对象识别，以便对网络模型进行微调。第二阶段对输入的所有视图进行处理，从而完成训练和测试工作，其中迭代次数设置为20次。为了在训练时优化MVPT网络模型，将学习率初始化为0.0001，并使用Adam优化器，学习率衰减和L2正则化权重衰减能够避免网络模型发生过拟合。

关于2D图像分类网络对图像识别性能的影响测试：

在多视图低级局部特征token序列生成阶段，使用不同的2D图像分类网络会影响整个网络模型的对象识别精度和训练时间。所以本实施例选择在ImageNe上经过预训练的多个经典的图像分类网络进行对比实验，来评估它们对识别精度和训练时间的影响，从而选择最佳的网络进行后续的实验。在该项测试中，最佳视图集的视图数量n设置为6，训练次数设置为20次，其他实验设置也保持一致，比较VGG11、DenseNet121、ResNet18、ResNet50和ResNet34，实验结果如下表1所示(粗体值表示最佳性能)：

表1

由上表1可知，VGG11作为较早提出的2D图像分类网络，它的总体识别精度(OA)和平均识别精度(AA)是最低的，并且训练时间表现也不佳。DenseNet121网络层次深，训练时间长，但也未达到最佳的识别精度。ResNet系列网络在这些CNN模型中表现最好，其中ResNet34在训练时间第二少(149min)的情况下，达到了最佳的97.32％的OA和95.95％的AA。因此本实施例选择ResNet34作为多视图低级特征提取器进行后续的实验。

关于视图设置的数量对图像识别性能的影响测试：

将3D对象渲染为多个2D视图，视图数量的不同会对网络模型的对象识别精度和训练时间产生不同的影响。我们使用基于信息熵的最佳视图集构造方法选取了单视图、3视图、6视图、12视图和正十二面体视点设置渲染的20视图这五种不同的视图数量来定量分析MVPT方法的识别精度和训练时间。其中，基于信息熵的最佳视图集构造过程如图8所示(黑色加粗框里即为构造的最佳视图集(n＝6))。

表2

不同视图数量下MVPT方法的对象识别精度如上表2所示。由表2可知，当视图数量设置20时，它的总体识别精度(OA)相比3视图、6视图和12视图都降低了，还伴随着训练时间的大幅增加。该实验论证了本发明提出的：当前的基于多视图的3D对象识别方法渲染3D对象为多视图时存在冗余性的问题。而本实施例提出的基于信息熵的最佳视图集构造方法能够较好地解决这个问题。

本实施例将信息熵值排名前六的视图构造为最佳视图集，MVPT方法达到了最佳97.32％的OA和95.95％的AA。该结果相比20视图获得的96.55％的OA提升了0.77％，95.28％的AA提升了0.67％。在训练时间上，6视图的网络模型为149min。相较12视图、20视图的训练时间238min和348min分别减少了37.3％和57.1％。当视图数量设置为1时，MVPT方法就能达到95.74％的OA和93.78的AA。该结果已经优于当前的多个基于多视图的3D对象识别方法(见表5)，并且它们的视图数量往往设置为12。在同样设置为20个epoch时，单视图的训练时间大大减少。它只需要80min即可完成对网络模型的训练，在表2中的各种视图数量中是最少的。这同样也验证了基于信息熵的最佳视图集构造方法的有效性。

对于不同数量的视图设置，本实施例还与其他基于多视图的3D对象识别方法进行了对比实验，包括MVCNN、RCPCNN、3D2SeqViews、VERAM、MHBN和RN。在不同视图数量下各种多视图对象识别方法的实验结果如下表3所示：

表3(实验结果由总体识别精度表示，单位为％，粗体值表示最佳性能)

由表3可知，对于3视图、6视图和12视图的视图设置，本实施例提出的MVPT方法总是表现最先进的性能，分别为96.88％、97.32％和96.71％。在上述的其他方法中，达到最高OA的是RN方法。该方法在12视图的情况下达到了94.30％的OA，而MVPT方法相比RN提高了3.02％。值得注意的是，大多数方法的视图数量n从6个增加到12个时，它们的对象识别精度却下降了。这也是本发明提出的当前的渲染3D对象为多视图的方法存在冗余性问题的又一体现。同时，本实施例构造的6视图最佳视图集达到了最佳的对象识别精度。这是因为信息熵值高的视图经过深度神经网络提取到的特征信息也更加丰富；此外视图数量n设置为6，各个视图之间存在的重复部分减少，降低了所提取特征信息的冗余性。

关于不同聚合方法对对象识别精度的影响测试：

为了验证基于Pooling Transformer的全局描述符生成方法的有效性，本实施例与仅使用maxpool和Transformer的聚合方法进行了对比实验。实验视图数量n设置为6，选用ResNet34作为多视图低级特征提取器，在其他实验环境设置一致的情况下，得到的实验结果如下表4所示：

表4

由表4可知，这3种方法的训练时间基本保持一致，但本实施例提出的PoolingTransformer方法达到了最佳的对象识别精度，总体识别精度(OA)为97.32％的同时平均分类精度(AA)也达到了95.95％。相比原始的Transformer方法，OA提高了1.35％，AA提高了0.99％。相比max pool方法则有更大的提升。这是因为Pooling Transformer方法解决了原始Transformer局部特征聚合能力不足的问题，它能分别从局部和全局汇聚所有局部视图token序列的特征信息。

关于在对象识别实验上与其他方法的比较测试：

本实施例中，将MVPT方法与基于体素的方法3D ShapeNets、VoxNet和O-CNN、基于点云的方法PointNet、PointNet++、PointWeb[16]和DGCNN、以及基于多视图的方法MVCNN、GVCNN、3D2SeqViews、VERAM、RN]、HMVCM、EMV和MHBN在ModelNet40数据集上进行了3D对象识别对比实验，实验结果见下表5：

表5

由表5可知，MVPT方法的性能远远优于当前的其他方法，其中总体识别精度达到97.32％、平均识别精度达到95.95％。此外对于每个3D对象本发明仅需要6个视图即可完成对象识别任务。相比其他基于多视图的方法，视图数量也是最少的，这将有利于减少训练时间和计算成本。此外，基于多视图的方法大多优于基于点云和基于体素的方法。

综上，本实施例在ModelNet40数据集上进行了大量的实验来验证该方法的性能，MVPT仅使用6个视图即可达到97.32％的总体识别精度和95.95％的平均识别精度，与现有的基于深度学习的方法相比，MVPT网络达到了最先进的性能。并且相比正十二面体的视点设置，本实施例提出的基于信息熵的最佳视图集构造方法将网络模型的训练时间减少为原来的42.8％。当选取最佳视图时即信息熵值最高的单个视图时，MVPT方法就能达到95.74％的OA，已经优于当前的多个基于多视图的3D对象识别方法，但其花费训练时间更短仅为80min，在同等计算硬件条件下，减少为已有先进算法训练时间的51％。

实施例作用与效果

根据本实施例提供的基于多视图Pooling Transformer的三维对象识别方法，该方法提出一种Multi-view Pooling Transformer(MVPT)网络模型，该MVPT模型首先基于多视图的信息熵构造最佳视图集，采用ResNet网络和Embedding网络一次性对所有视图进行特征信息提取，获取了多视图低级局部特征token序列，从而使之能够输入到PoolingTransformer完成并行化训练。然后，通过Pooling Transformer实现分别从全局和局部聚合多视图低级局部特征token序列为一个紧凑而单一的3D全局描述符。最后，由分类器识别该3D全局描述符得到待测对象的识别结果。

实施例中，由于通过选取多视图的排名靠前的信息熵构造得到了最佳视图集，因此解决了当前从3D对象渲染多视图存在冗余性的问题，提高了网络模型进行识别的精准度。还由于将Transformer应用于3D对象识别任务，因此解决了当前基于多视图的方法存在丢失不同视图之间相关信息的问题。此外，基于Pooling Transformer的全局描述符生成方法还解决了Transformer局部特征信息聚合能力不足的问题。

因此，本实施例的基于多视图Pooling Transformer的三维对象识别方法一次性对所有视图进行特征信息提取，解决了多视图的冗余性问题和模型训练的低效率问题，从而高效、准确地捕获多个视图之间的相关特征信息，极大地提高了网络模型的识别精度和训练效率。

上述实施例仅用于举例说明本发明的具体实施方式，而本发明不限于上述实施例的描述范围。

上述参考文献为：

[1]Maturana D,Scherer S.Voxnet:A 3d convolutional neural network forreal-time object recognition[C]//2015IEEE/RSJ International Conference onIntelligent Robots and Systems(IROS).IEEE,2015:922-928.

[2]Wu Z,Song S,Khosla A,et al.3d shapenets:A deep representation forvolumetric shapes[C]//Proceedings of the IEEE conference on computer visionand pattern recognition.2015:1912-1920.

[3]Riegler G,Osman Ulusoy A,Geiger A.Octnet:Learning deep 3drepresentations at high resolutions[C]//Proceedings of the IEEE conference oncomputer vision andpattern recognition.2017:3577-3586.

[4]Wang P S,Liu Y,Guo Y X,et al.O-cnn:Octree-based convolutionalneural networks for 3d shape analysis[J].ACM Transactions On Graphics(TOG),2017,36(4):1-11.

[5]Klokov R,Lempitsky V.Escape from cells:Deep kd-networks for therecognition of 3d point cloud models[C]//Proceedings of the IEEEInternational Conference on Computer Vision.2017:863-872.

[6]Zeng W,Gevers T.3dcontextnet:Kd tree guided hierarchical learningof point clouds using local and global contextual cues[C]//Proceedings of theEuropean Conference on Computer Vision(ECCV)Workshops.2018:0-0.

[7]Le T,Duan Y.Pointgrid:A deep network for 3d shape understanding[C]//Proceedings of the IEEE conference on computer vision and patternrecognition.2018:9204-9214.

[8]Meng H Y,Gao L,Lai Y K,et al.Vv-net:Voxel vae net with groupconvolutions for point cloud segmentation[C]//Proceedings of the IEEE/CVFInternational Conference on Computer Vision.2019:8500-8508.

[9]Qi C R,Su H,Mo K,et al.Pointnet:Deep learning on point sets for 3dclassification and segmentation[C]//Proceedings ofthe IEEE conference oncomputer vision and pattern recognition.2017:652-660.

[10]Qi C R,Yi L,Su H,et al.Pointnet++:Deep hierarchical featurelearning on point sets in a metric space[J].arXiv preprint arXiv:1706.02413,2017.

[11]Jiang M,Wu Y,Zhao T,et al.Pointsift:A sift-like network modulefor 3d point cloud semantic segmentation[J].arXiv preprint arXiv:1807.00652,2018.

[12]Zhao H,Jiang L,Fu C W,et al.Pointweb:Enhancing local neighborhoodfeatures for point cloud processing[C]//Proceedings of the IEEE/CVFConference on Computer Vision and Pattern Recognition.2019:5565-5573.

[13]Fu J,Liu J,Tian H,et al.Dual attention network for scenesegmentation[C]//Proceedings of the IEEE/CVF Conference on Computer Visionand Pattern Recognition.2019:3146-3154.

[14]Feng M,Zhang L,Lin X,et al.Point attention network for semanticsegmentation of3D point clouds[J].Pattern Recognition,2020,107:107446.

[15]Wang Y,Sun Y,Liu Z,et al.Dynamic graph cnn for learning on pointclouds[J].Acm Transactions On Graphics(tog),2019,38(5):1-12.

[16]Zhang K,Hao M,Wang J,et al.Linked dynamic graph cnn:Learning onpoint cloud via linking hierarchical features[J].arXiv preprint arXiv:1904.10014,2019.

[17]Su H,Maji S,Kalogerakis E,et al.Multi-view convolutional neuralnetworks for 3d shape recognition[C]//Proceedings of the IEEE internationalconference on computer vision.2015:945-953.

[18]Wang C,Pelillo M,Siddiqi K.Dominant set clustering and poolingfor multi-view 3d object recognition[J].arXiv preprint arXiv:1906.01592,2019.

[19]Su H,Maji S,Kalogerakis E,et al.Multi-view convolutional neuralnetworks for 3d shape recognition[C]//Proceedings of the IEEE internationalconference on computer vision.2015:945-953.

[20]Kanezaki A,Matsushita Y,Nishida Y.Rotationnet:Joint objectcategorization and pose estimation using multiviews from unsupervisedviewpoints[C]//Proceedings of the IEEE Conference on Computer Vision andPattern Recognition.2018:5010-5019.

[21]Esteves C,Xu Y,Allen-Blanchette C,et al.Equivariant multi-viewnetworks[C]//Proceedings of the IEEE/CVF International Conference on ComputerVision.2019:1568-1577.

[22]Han Z,Lu H,Liu Z,et al.3D2SeqViews:Aggregating sequential viewsfor 3D global feature learning by CNN with hierarchical attention aggregation[J].IEEE Transactions on Image Processing,2019,28(8):3986-3999.

[23]He X,Huang T,Bai S,et al.View n-gram network for 3d objectretrieval[C]//Proceedings of the IEEE/CVF International Conference onComputer Vision.2019:7515-7524.

[24]He X,Huang T,Bai S,et al.View n-gram network for 3d objectretrieval[C]//Proceedings of the IEEE/CVF International Conference onComputer Vision.2019:7515-7524.

[25]Chen S,Zheng L,Zhang Y,et al.Veram:View-enhanced recurrentattention model for 3d shape classification[J].IEEE transactions onvisualization and computer graphics,2018,25(12):3244-3257.

[26]Liu A A,Zhou H,Nie W,et al.Hierarchical multi-view contextmodelling for 3D object classification and retrieval[J].Information Sciences,2021,547:984-995.

Claims

1.一种基于多视图Pooling Transformer的三维对象识别方法，其特征在于，包括以下步骤：

步骤S1，构建Multi-view Pooling Transformer网络模型，该模型具有最佳视图集获取模块、低级局部特征token序列生成模块、基于Pooling Transformer的全局描述符生成模块以及分类器；

步骤S2，将待测对象输入至所述Multi-view Pooling Transformer网络模型，通过所述最佳视图集获取模块获取对应的多视图，并根据所述多视图的信息熵构建最佳视图集；

步骤S3，由所述低级局部特征token序列生成模块提取所述最佳视图集的多视图低级局部特征，并基于该多视图低级局部特征生成对应的多视图低级局部特征token序列；

步骤S4，所述全局描述符生成模块将所述多视图低级局部特征token序列的局部视图信息token序列，与其全局特征信息序列聚合生成所述待测对象的3D全局描述符；

步骤S5，所述分类器将所述3D全局描述符作为输入进行三维对象识别，从而得到所述待测对象的识别结果。

2.根据权利要求1所述的基于多视图Pooling Transformer的三维对象识别方法，其特征在于：

其中，所述步骤S2包括以下子步骤：

步骤S2-1，对所述待测对象按照正十二面体视点获取对应的多个2D视图；

步骤S2-2，计算每个所述2D视图的信息熵，并按信息熵值的高低进行排序；

步骤S2-3，选取信息熵排名前n位的视图作为所述最佳视图集，从而减少冗余的视图。

3.根据权利要求2所述的基于多视图Pooling Transformer的三维对象识别方法，其特征在于：

其中，所述信息熵的计算公式为：

P_a,b＝f(a,b)/W·H

4.根据权利要求1所述的基于多视图Pooling Transformer的三维对象识别方法，其特征在于：

其中，所述低级局部特征token序列生成模块具有ResNet网络和Embedding网络，

所述步骤S3包括以下子步骤：

步骤S3-1，由所述ResNet网络提取所述最佳视图集的多视图低级局部特征；

步骤S3-2，基于所述Embedding网络生成所述多视图低级局部特征的局部视图token序列：

[x₁,...x_i...,x_n]＝Emb{Res[v₁,...v_i...,v_n]}

式中，[v_i,…v_i…,v_n]是所述最佳视图集，v_i表示其中的一个视图；

步骤S3-3，将一个初始化class tokenx_class添加到所述局部视图token序列的首部，并将它们分别与位置编码E_pos进行拼接，最终生成所述多视图低级局部特征token序列：

5.根据权利要求4所述的基于多视图Pooling Transformer的三维对象识别方法，其特征在于：

其中，所述全局描述符生成模块包括基于Transformer的全局特征信息生成子模块和基于Pooling的局部视图信息token序列聚合子模块，

所述基于Transformer的全局特征信息生成子模块具有Layer Normalization网络、Multi-Head Multi-View Attention网络、多层感知机网络以及残差连接。

6.根据权利要求5所述的基于多视图Pooling Transformer的三维对象识别方法，其特征在于：

其中，所述步骤S4包括以下子步骤：

步骤S4-1，所述LayerNormalization网络对所述多视图低级局部特征token序列进行归一化处理：

步骤S4-2，所述Multi-Head Multi-View Attention网络将归一化后的token序列

通过线性变换完成MHMVA计算，生成token序列X_MHMVA；

步骤S4-3，对token序列X_MHMVA使用残差连接得到token序列X₁从而避免梯度消失，再将X₁输入至所述Layer Normalization网络进行归一化处理后输入至所述多层感知机网络；

步骤S4-4，将多层感知机网络的输出结果与X₁进行残差连接，得到所述局部视图信息token序列：

其中，所述局部视图信息token序列由全局classtoken

和局部视图信息token序列

组成，其中全局class token

保存了局部视图token序列的全局特征信息，即

步骤S4-5，所述基于Pooling的局部视图信息token序列聚合子模块将所述局部视图信息token序列

进行拼接聚合，最终生成对应的3D全局描述符Y：

7.根据权利要求6所述的基于多视图Pooling Transformer的三维对象识别方法，其特征在于：

其中，所述Multi-Head Multi-View Attention网络由多个Multi-View Attention组成，

所述MHMVA计算是进行多个并行化的Multi-View Attention计算：

步骤S4-2-1，将经过归一化处理的

先通过线性变换生成Query、Key、Value三个向量：

步骤S4-2-2，根据Head数量N将上一步的三个向量均分为多个Multi-View Attention的输入q_i、k_i、v_i，能够形成多个子空间，关注输入特征不同部分的信息，最后将这些特征信息拼接能获得更加丰富的信息：

步骤S4-2-3，Multi-View Attention根据输入进行MVA的计算，即，计算q_i与k_i转置的乘积得到一个score，除以

式中，d_k为k_i的维度；

步骤S4-2-4，对于计算后的每个

进行Concat，再经过一次线性变换最终完成MHMVA计算：