CN113869120A

CN113869120A - 一种基于视图过滤的聚合卷积三维模型分类方法

Info

Publication number: CN113869120A
Application number: CN202110990067.4A
Authority: CN
Inventors: 张雨禾; 刘泽华; 高健; 郭宝; 王淑睿
Original assignee: Northwest University
Current assignee: Northwest University
Priority date: 2021-08-26
Filing date: 2021-08-26
Publication date: 2021-12-31
Anticipated expiration: 2041-08-26
Also published as: CN113869120B

Abstract

本发明属于计算机视觉技术领域，公开了一种基于视图过滤的聚合卷积三维模型分类方法，所述基于视图过滤的聚合卷积三维模型分类方法将所有三维模型通过视图捕获的方式，转换成三维模型多视图数据；利用二维图像分类网络，对多视图数据进行训练，投票排序，生成视图序列；提取视图序列中前k个视图的特征，对k视图特征进行拆分重组，将重塑的k视图特征输入聚合卷积，聚合多视图特征，生成一个三维模型全局形状描述符；采用全连接层和全局形状描述符进行三维模型分类。本发明操作方便，克服了三维模型分类方法对视图配置的依赖；克服了现有方法需要定向数据集中的预定义规范视点，无法处理视图缺失等问题。

Description

一种基于视图过滤的聚合卷积三维模型分类方法

技术领域

本发明属于计算机视觉技术领域，尤其涉及一种基于视图过滤的聚合卷积三维模型分类方法。

背景技术

目前，三维模型识别是计算机图形学和计算机视觉的一个重要研究方向。三维模型是真实物体虚拟化表示，它通常可以用不同的格式表示，比较有代表性的如点云，体积网格和从单一视角捕捉的二维图像。近年来，随着3D采集技术(比如苹果深度相机和Kinect)的快速发展，三维模型在医疗、虚拟现实/增强现实和自动驾驶等领域被应用，推动了三维模型识别的发展。

近年来，大量的方法被提出，在三维模型识别上实现了良好的性能。按照三维形状的表示，可以将这些方法分为基于点的方法、基于体积的方法和基于多视图的方法。基于多视图的方法主要的问题是如何将多视图的特征融合成一个紧凑且可分辨的全局的三维形状描述符。基于体积的方法通常是先将点云转化成三维网格，然后从三维网格中学习三维形状的特征以实现形状分类。在基于点的方法中，每个点都用于特征学习，可以分为逐点MLP方法、基于卷积的方法、基于图的方法等经典方法。

现有的基于多视图的方法在三维形状识别方面有着最优的性能，但是仍然受到了一些限制。多视图序列可以有效地利用连续的多视图中所包含的特征信息，但更普遍的情况，如相机在正十二面体顶点上拍摄的多视图包含的三维几何信息被多视图序列所忽略，而且无法处理视图缺失问题。基于点的方法虽然使用了具有完整信息的点云作为输入，但是由于点云的非结构化和高维化等因素，严重影响了基于点的三维模型分类的进一步发展。基于体积的方法通常需要大量的计算开销，其形状识别的性能不如基于多视图的方法。综上，三维模型分类方法虽然达到了97％的准确率，但是仍然受到前置条件的诸多限制，导致三维模型分类性能不能进一步提升。

通过上述分析，现有技术存在的问题及缺陷为：现有技术中存在的依赖视图配置的同质空间、依赖于定向数据集中的预定义规范视点、无法应对视图缺失。

解决以上问题及缺陷的难度为：视图配置的同质空间需要严格的数学定义为基础条件，对于视图捕获的要求苛刻。大多数方法依赖于预定义规范视点获得的所有视图，对于其中不规范的视图无法进行识别筛选，使得不规范视图影响了三维模型的识别性能。对于多视图中代表性视图丢失，首先破坏了视图配置，导致无法识别，其次代表性视图的缺失影响识别。

解决以上问题及缺陷的意义为：三维模型多视图识别不依赖于视图配置的同质空间，极大地推动了三维模型识别在现实世界应用。克服多视图识别中预定义的规范视点及视图缺失的问题，为复杂环境中的三维模型识别提供了实验支撑。

发明内容

针对现有技术存在的问题，本发明提供了一种基于视图过滤的聚合卷积三维模型分类方法。

本发明是这样实现的，一种基于视图过滤的聚合卷积三维模型分类方法，所述基于视图过滤的聚合卷积三维模型分类方法包括：

将所有三维模型通过视图捕获的方式，转换成三维模型多视图数据，将结构复杂的点云转换成规格的图像数据，避免了点云数据结构复杂，难以分析的难题；

利用二维图像分类网络，对多视图数据进行训练，投票排序，生成视图序列。利用生成的视图序列，将多视图序列中前k个代表性视图筛选出来用于识别，提升三维模型的识别性能；

提取视图序列中前k个视图的特征，对k视图特征进行拆分重组，使k视图特征能够充分的进行融合。将重塑的k视图特征输入聚合卷积，聚合多视图特征。使每个视图的特征能够平等加权，避免了多视图特征融合中的信息损失。然后生成一个三维模型全局形状描述符；

采用全连接层和全局形状描述符进行三维模型分类。通过全连接层将高维度的全局形状描述符转换成低纬度的类别分数。

进一步，所述将所有三维模型通过视图捕获的方式，转换成三维模型多视图数据具体包括：将所有三维模型通过视图渲染捕获的方式，转换成三维模型多视图数据

N＝20；三维模型数据集为ModelNet40，训练集和测试集中的三维模型数分别为9843和2468个。

进一步，所述利用二维图像分类网络，对多视图数据进行训练，投票排序，生成视图序列具体包括：多视图数据中的每个视图图像I_i通过一个二维图像分类网络得到每个视图的预测标签

其中l_i∈{0，1，...，c-1}，c表示分类任务中共有c个类别，比较预测标签与真实标签

得到预测结果

p_i＝0表示预测错误，p_i＝1表示预测正确，N＝20。

进一步，所述提取视图序列中前k个视图的特征，对k视图特征进行拆分重组，将重塑的k视图特征输入聚合卷积，聚合多视图特征，生成一个三维模型全局形状描述符具体包括：首先将所有三维模型的多视图预测结果定义为

其中M是分类任务中所有形状的数量，基于预测结果P，进行实例级投票：

所有模型的同一视点的预测结果累加，给构造一个辅助序列

再对实例级投票结果

进行排序：

V′_ins.＝ψ_ins.(V_ins.，A_ins.)

其中，排序函数ψ_ins.将V_ins.从大到小排列，序列A_ins.记录了排序过程中，V_ins.中每个数字的位置变化，最终生成序列V′_ins.＝{i}_{i∈{1，2，...，N}}，序列V′_ins.中的每个数字代表了一个视点的视图，生成实例级投票的视图序列。

进一步，所述采用全连接层和全局形状描述符进行三维模型分类具体包括：继续用定义的预测结果

再将所有三维模型多视图的预测标签定义为

对同一类别的预测结果进行实例级投票，使得同一类别中所有模型同一视点的预测结果累加；类级投票结果定义为

其中

被定义为：

其中，i＝1，2，...，N，j＝0，1，...，c-1，

作为一个约束条件保证同一类别的预测结果累加；构造一个辅助序列

其中

将投票结果和辅助序列输入排序函数：

V′_cls.＝ψ_cls.(V_cls.，A_cls.)

得到类级投票的视图序列

其中

表示第j类的视图序列。

本发明的另一目的在于提供一种多视图三维模型分类方法，所述多视图三维模型分类方法包括所述的方法，具体包括：

步骤一，将待分类的三维模型进行抓拍捕获，转换成多视图数据；

步骤二，对三维模型多视图进行视图投票，得到两种视图序列V′_ins.＝{i}_{i∈{1，2，...，N}}和

步骤三以V′_ins.＝{i}_{i∈{1，2，...，N}}投票结果为例，提取多视图特征

将视图序列中前k个视图的通过设计的拆分重组函数Φ，

F′＝Φ(F，k)

对特征进行拆分重组后得到

k为输入视图的数量；

步骤四，利用设计的聚合卷积模块聚合多视图特征，聚合卷积模块由单层二维卷积实现，输入通道为k，输出通道为1；得到三维模型全局形状特征；

步骤五，将全局形状描述符输入一个由全连接层、Dropout和LeakyRule组成的模块，再通过softmax函数得到最终的类别概率向量P_M。

本发明的另一目的在于提供一种计算机设备，所述计算机设备包括存储器和处理器，所述存储器存储有计算机程序，所述计算机程序被所述处理器执行时，使得所述处理器执行所述基于视图过滤的聚合卷积三维模型分类方法的步骤。

本发明的另一目的在于提供一种实施所述基于视图过滤的聚合卷积三维模型分类方法的基于视图过滤的聚合卷积三维模型分类系统，所述基于视图过滤的聚合卷积三维模型分类系统包括：

三维模型转换模块，用于将所有三维模型通过视图捕获的方式，转换成三维模型多视图数据；

视图序列生成模块，用于利用二维图像分类网络，对多视图数据进行训练，投票排序，生成视图序列；

三维模型全局形状描述符生成模块，用于提取视图序列中前k个视图的特征，对k视图特征进行拆分重组，将重塑的k视图特征输入聚合卷积，聚合多视图特征，生成一个三维模型全局形状描述符；

三维模型分类模块，用于采用全连接层和全局形状描述符进行三维模型分类。

视图捕获的方式，转换成三维模型多视图数据。

本发明的另一目的在于提供一种所述基于视图过滤的聚合卷积三维模型分类方法在机器人三维模型分类中的应用。

本发明的另一目的在于提供一种所述基于视图过滤的聚合卷积三维模型分类方法在自动驾驶三维模型分类中的应用。

结合上述的所有技术方案，本发明所具备的优点及积极效果为：本发明所采取的基于投票的视图序列生成方法，克服了现有方法无法处理视图缺失，以及需要视图配置的同质空间等诸多前置条件；本发明所采取的特征融合方法，克服了传统的最大池化特征融合过程中信息损失的问题，本发明所采取方法，具有效率高，操作方便，正确率较高，达98.0％以上。

附图说明

图1是本发明实施例提供的基于视图过滤的聚合卷积三维模型分类方法的流程图。

图2是本发明实施例提供的基于视图过滤的聚合卷积三维模型分类系统的结构示意图；

图2中：1、三维模型转换模块；2、视图序列生成模块；3、三维模型全局形状描述符生成模块；4、三维模型分类模块。

图3是本发明实施例提供的两种三维模型多视图渲染捕获配置示意图。

图4是本发明实施例提供的原始视图序列以及两种投票后的视图序列示意图。

图5是本发明实施例提供的两种投票方式的流程图。

图6是本发明实施例提供的实例级投票视图序列的生成流程图。

图7是本发明实施例提供的类级投票视图序列的生成流程图。

图8是本发明实施例提供的实例级投票机制下，三种二维图像分类网络不同k值的分类结果示意图。

图9是本发明实施例提供的类级投票机制下，三种二维图像分类网络不同k值的分类结果示意图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。

针对现有技术存在的问题，本发明提供了一种基于视图过滤的聚合卷积三维模型分类方法，下面结合附图对本发明作详细的描述。

如图1所示，本发明提供的基于视图过滤的聚合卷积三维模型分类方法包括以下步骤：

S101：将所有三维模型通过视图捕获的方式，转换成三维模型多视图数据；

S102：利用二维图像分类网络，对多视图数据进行训练，投票排序，生成视图序列；

S103：提取视图序列中前k个视图的特征，对k视图特征进行拆分重组，将重塑的k视图特征输入聚合卷积，聚合多视图特征，生成一个三维模型全局形状描述符；

S104：采用全连接层和全局形状描述符进行三维模型分类。

本发明提供的基于视图过滤的聚合卷积三维模型分类方法业内的普通技术人员还可以采用其他的步骤实施，图1的本发明提供的基于视图过滤的聚合卷积三维模型分类方法仅仅是一个具体实施例而已。

如图2所示，本发明提供的基于视图过滤的聚合卷积三维模型分类系统包括：

三维模型转换模块1，用于将所有三维模型通过视图捕获的方式，转换成三维模型多视图数据；

视图序列生成模块2，用于利用二维图像分类网络，对多视图数据进行训练，投票排序，生成视图序列；

三维模型全局形状描述符生成模块3，用于提取视图序列中前k个视图的特征，对k视图特征进行拆分重组，将重塑的k视图特征输入聚合卷积，聚合多视图特征，生成一个三维模型全局形状描述符；

三维模型分类模块4，用于采用全连接层和全局形状描述符进行三维模型分类。

下面结合附图对本发明的技术方案作进一步的描述。

本发明的三维模型是三维网格数据，三维模型视图渲染捕获配置依照三维模型的中心点建立，例如，如图4所示，可由x、y和z三个坐标的中心点确定。给定一个三维形状S，本发明按照图5所示的两种预定义相机阵列，从三维形状渲染生成N个视图，其中N分别等于12和20。

首先通过二维图像分类网络对三维物体的多视图进行投票排序，生成视图序列。其次本发明对二维图像分类网络重新进行训练，提取利用视图序列筛选出k个视图的特征。然后本发明设计了一个多视图聚合卷积来聚合多视图特征生成一个全局形状描述符。最后，全局形状描述符可用于三维形状识别。

本发明采用LeakyRule激活函数来增强网络的非线性表达能力，计算公式如下：

y＝max(0，x)+leak*min(0，x) (1)

其中，x为上一层网络的输出，leak是一个很小的常数，这样保留了一些负轴的值，使得负轴的信息不会全部丢失。

本发明采用投票函数来获取视图的最优序列。投票函数如下：

其中，

表示投票结果，

表示多视图分类结果，

为0即表示预测错误，为1则表示预测正确。

为了获得更加有代表性的视图序列，本发明优化公式(2)为：

其中，i＝1，2，...，N，j＝0，1，...，c-1，

作为一个约束条件保证同一类别的预测结果累加。

表示多视图分类结果，

为0即表示预测错误，为1则表示预测正确。

本发明用softmax函数来获取每个类别的预测概率。softmax函数如下：

表示，样本x数据属于第j类的概率。其中w为权重项，x为上一层网络的输出。

下面结合具体实施例对本发明的技术方案作进一步的描述。

本发明中所述的三维模型为三维网格数据，下面针对所述的三维模型为三维网格数据进行描述。所采用的三维网格数据通过合成得到，没有任何遮挡和背景。以下实施实例均以经过ImageNet预训练的ResNet-18为骨干网络。

实施例1：

本发明实施例的三维模型数据为三维网格数据，下面针对所述的三维模型数据为三维网格数据进行描述。所采用的三维网格数据通过合成得到，没有任何遮挡和背景。评估数据总共有11231个三维模型，其中9843个训练集，2468个测试集，分为40类。以下为具体的实施步骤：

步骤一：把评估数据中的三维模型的三维网格数据按照图4的(b)中的视图渲染捕获方式，把三维模型的网格数据转换成多视图数据。共20个视图，每个视图的大小为224×224；

步骤二：将评估数据放入二维图像分类网络，得到每个视图的预测标签

比较预测标签和真实标签

得到预测结果

k＝1，2，...，2468，

表示预测错误，

表示预测正确；

步骤三：利用预测结果

k＝1，2，...，2468和两种投票函数进行投票，得到投票结果，即得到投票结果

和

其中

表示第j类的投票结果，j＝0，1，...，39。V_ins.和

中每个位置的数字，代表一个视图；

步骤四：分别构造两个辅助序列

和

其中

利用排序函数ψ分别对

和

以及辅助序列进行排序，得到最终的视图序列V′_ins.＝{i}_{i∈{1，2，...，20}}和

表示第j类的准确率；

该实施例中：

V′_ins.＝[7，5，16，19，9，10，15，6，11，0，2，8，14，3，4，1，17，13，18 12]，

V′_cls.＝[[0，1，2，3，4，5，6，7，8，9，10，11，12，13，14，15，16，17，18，19]，[2，19，15，18，3，5，7，11，6，14，1，9，4，10，17，8，12，13，16，0]，[5，17，10，13，14，1，2，6，0，3，9，11，15，16，4，7，8，12，18，19]，[8，10，0，1，2，4，5，6，9，11，12，14，15，18，13，16，17，3，7，19]，[7，4，5，9，10，16，17，6，14，15，8，0，11，12，19，1，2，3，13，18]，[19，7，4，5，8，0，1，3，15，16，2，6，11，9，12，13，10，14，17，18]，[0，19，7，9，2，5，10，12，16，17，1，4，11，14，15，3，6，8，13，18]，[8，9，0，2，6，7，11，14，18，1，3，4，5，10，12，13，15，16，17，19]，[19，7，16，18，15，17，4，6，10，13，14，0，1，2，3，5，8，9，11，12]，[0，7，16，19，6，11，12，14，15，17，18，1，2，3，4，5，8，9，10，13]，[0，19，1，7，8，13，3，6，11，14，15，18，4，5，9，10，12，16，17，2]，[9，0，1，11，2，3，10，13，16，5，7，8，12，14，18，19，4，6，15，17]，[5，2，9，16，3，13，1，10，17，7，0，4，11，12，14，18，6，8，15，19]，[7，9，10，15，0，4，12，14，17，1，3，6，13，16，18，19，2，5，8，11]，[9，10，12，5，14，0，11，17，18，4，7，13，15，16，1，6，2，8，3，19]，[16，0，7，9，10，2，14，17，3，4，5，13，15，18，1，11，19，6，8，12]，[6，7，0，1，15，16，19，10，11，17，5，13，3，4，9，8，14，18，12，2]，[19，8，2，11，5，7，10，0，4，6，9，13，14，16，1，3，12，15，17，18]，[9，19，0，1，2，4，5，7，8，10，11，16，3，6，12，13，14，15，17，18]，[0，7，16，19，3，6，11，12，14，15，18，1，2，5，8，10，13，4，9，17]，[0，7，10，11，16，1，2，3，4，5，6，8，9，12，13，14，15，17，18，19]，[10，9，1，6，15，7，8，19，0，4，5，14，16，17，12，2，3，18，11，13]，[7，16，6，8，11，13，17，19，0，2，4，12，3，10，14，15，1，5，9，18]，[9，12，10，13，14，5，7，2，1，6，15，18，4，17，19，3，11，8，16，0]，[0，1，6，9，10，2，3，4，5，7，8，11，13，14，15，16，17，19，12，18]，[9，10，7，8，11，4，19，0，5，2，6，15，16，17，14，1，3，13，18，12]，[16，19，10，18，9，0，7，14，15，6，8，12，17，1，3，5，11，13，4，2]，[7，0，6，16，5，11，3，8，9，10，15，17，18，1，14，19，2，12，4，13]，[7，6，19，9，11，16，0，8，18，12，13，14，15，17，1，3，4，10，2，5]，[4，15，18，3，11，14，19，0，2，5，6，7，8，10，9，13，17，1，12，16]，[9，7，0，5，1，8，10，14，15，16，19，2，4，11，3，6，12，18，13，17]，[7，19，0，3，15，5，9，11，18，2，6，8，10，12，13，16，17，1，14，4]，[11，16，9，10，12，17，1，2，5，7，8，13，0，3，4，6，14，15，18，19]，[14，13，11，15，7，16，2，9，12，17，18，5，6，19，0，1，10，3，4，8]，[7，16，8，10，13，0，9，11，14，15，19，1，6，12，17，18，2，3，4，5]，[18，17，2，3，4，5，7，11，12，13，15，0，1，6，8，9，10，14，16，19]，[9，7，10，0，16，17，11，14，15，5，6，8，1，4，18，19，12，2，3，13]，[5，18，2，7，13，19，17，9，3，14，4，10，12，15，6，16，8，11，0，1]，[17，5，14，16，0，4，10，15，7，8，9，3，6，18，2，13，1，11，12，19]，[9，10，0，1，2，5，6，7，8，16，4，12，17，11，15，19，14，18，3，13]]，部分模型的多视图投票排序结果如图3所示。

实施例2：

本发明实施例是用实施例1得到的多视图投票排序结果分类多视图三维模型：

步骤二：以实施例1中的投票结果V′_cls.为例，将评估数据输入二维图像分类网络，重新训练，然后筛选出前10个视图的特征进行特征聚合，其中前10个特征为

其中

步骤四：利用特征拆分重组函数Φ，对前k个视图特征进行操作。得到重组后的特征

其中

步骤五：利用聚合卷积聚合多视图特征F′，得到输出结果

即为三维模型全局描述符。再通过全连接模块和softmax函数，得到分类概率

该实施例使用ModelNet40进行训练和测试，其中9843个训练集，2468个测试集，如图3所示，AlexNet、ResNet18和ResNet-50三种二维图像分类网络平均分类准确率分别为96.65％、97.49％，97.60％，最大分类准确率分别为97.16％、97.97％和97.93％，k值分别为16，10，8。

该实施例中：

正确分类示例：airplane为第一类，

softmax函数的输入为：

[23.8367，-1.1190，2.2015，2.4085，-2.7210，-0.3147，1.4109，0.9245，1.4851，1.5933，-2.5887，-0.2850，-1.8253，-2.5971，-7.1425，0.0674，-1.0757，1.7438，1.0768，-2.2955，-2.2966，-4.6665，-1.1007，-2.8307，3.6586，-1.5686，4.5477，-2.3176，0.0850，-2.2065，0.1969，1.6204，1.1256，-2.8454，2.2598，-4.5910，-3.2231，-1.7781，-3.2291，0.1780]；

softmax函数的输出概率

[1.0000E+00，1.4517E-11，4.0175E-10，4.9414E-10，2.9251E-12，3.2447E-11，1.8222E-10，1.1204E-10，1.9626E-10，2.1868E-10，3.3388E-12，3.3426E-11，7.1637E-12，3.3109E-12，3.5148E-14，4.7547E-11，1.5159E-11，2.5420E-10，1.3047E-10，4.4764E-12，4.4715E-12，4.1804E-13，1.4785E-11，2.6212E-12，1.7249E-09，9.2602E-12，4.1966E-09，4.3786E-12，4.8391E-11，4.8931E-12，5.4121E-11，2.2469E-10，1.3699E-10，2.5829E-12，4.2586E-10，4.5082E-13，1.7704E-12，7.5099E-12，1.7598E-12，5.3108E-11]

其中概率最大值在

的第一个位置，故分类正确。

错误分类示例：vase为第三十八类；

softmax函数的输入为：

[-4.0602，-1.7853，-3.2099，-1.8614，1.8016，2.5911，-1.2325，-0.7580，-4.5995，-2.3000，-1.4997，-0.3561，-1.5776，0.8206，0.3007，-2.1277，2.1265，-0.3672，3.8206，-0.9660，-1.2970，0.4597，-0.3220，0.1353，-0.0863，-0.8107，-0.8431，6.5920，-0.8845，0.4109，3.2181，-1.1692，-0.5150，-0.3259，1.3129，-1.2948，5.1673，2.5991，5.5469，2.4707]；

softmax函数的输出概率

[1.3214E-05，1.2854E-04，3.0926E-05，1.1912E-04，4.6430E-03，1.0225E-02，2.2341E-04，3.5907E-04，7.7060E-06，7.6823E-05，1.7102E-04，5.3668E-04，1.5821E-04，1.7408E-03，1.0351E-03，9.1269E-05，6.4253E-03，5.3076E-04，3.4965E-02，2.9164E-04，2.0945E-04，1.2134E-03，5.5530E-04，8.7726E-04，7.0289E-04，3.4063E-04，3.2977E-04，5.5878E-01，3.1640E-04，1.1556E-03，1.9141E-02，2.3801E-04，4.5783E-04，5.5314E-04，2.8481E-03，2.0992E-04，1.3443E-01，1.0307E-02，1.9650E-01，9.0653E-03]。

其中概率最大值在

的第二十八个位置，而vase的分类概率值排在第六的位置，故分类错误。

下面结合实验对本发明的技术效果作详细的描述。

本实验以ModelNet40为性能评估数据集，分别以ResNet-18、AlexNet、ResNet-50为特征提取的骨干网络，与目前最先进的方法View-GCN和RotationNet做了比较，结果如下表所示。可以看出，以ResNet-18为骨干网络，本发明的方法与View-GCN相比，每个实例的准确率提升了0.37％。以AlexNet为骨干网络，本发明的方法与RotationNet和View-GCN相比，每个实例的准确率分别提高了0.85％和0.04％，而当使用ResNet-50作为骨干网络时，每个实例的准确率分别提高了1.01％和0.63％。

此外，本发明还评估了本发明方法的参数量和内存用量及分类准确率(括号中为每类的平均准确率)，结果如下表所示。本发明的方法参数量比VoxNet和PointNet多，在使用AlexNet时与VoxNet的内存用量相当，但是本发明的方法的性能，明显超过了VoxNet和PointNet。使用相同的ResNet-18作为骨干网络，本发明方法的参数量只有View-GCN的三分之一，但是性能却优于它。与其他的方法，如RotationNet和MVCNN-New，本发明的方法在参数量，内存用量，准确率方法，均占有优势。

此外，本发明还在RGBD数据集上评估了本发明的方法。RGBD是一个真实拍摄的多视角数据集，由300个家用物品组成，分为51个类别，结果如下表所示。与View-GCN相比，本发明的方法在使用AlexNet和ResNet-18作为骨干网络的情况下，每实例的分类精度分别提高了0.26％和0.60％。与之前一些需要更多视图的方法相比，如MDSI-CNN、CFK和MMDCN，本发明的方法表现出明显的改进，并取得了最佳的每实例分类精度结果。这些结果验证了本发明的方法可以在真实拍摄的多视图图像上表现良好。

应当注意，本发明的实施方式可以通过硬件、软件或者软件和硬件的结合来实现。硬件部分可以利用专用逻辑来实现；软件部分可以存储在存储器中，由适当的指令执行系统，例如微处理器或者专用设计硬件来执行。本领域的普通技术人员可以理解上述的设备和方法可以使用计算机可执行指令和/或包含在处理器控制代码中来实现，例如在诸如磁盘、CD或DVD-ROM的载体介质、诸如只读存储器(固件)的可编程的存储器或者诸如光学或电子信号载体的数据载体上提供了这样的代码。本发明的设备及其模块可以由诸如超大规模集成电路或门阵列、诸如逻辑芯片、晶体管等的半导体、或者诸如现场可编程门阵列、可编程逻辑设备等的可编程硬件设备的硬件电路实现，也可以用由各种类型的处理器执行的软件实现，也可以由上述硬件电路和软件的结合例如固件来实现。

以上所述，仅为本发明的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等，都应涵盖在本发明的保护范围之内。