CN111310670B

CN111310670B - 一种基于预定义和随机视点的多视图三维形状识别方法

Info

Publication number: CN111310670B
Application number: CN202010101436.5A
Authority: CN
Inventors: 郁钱; 王跃
Original assignee: Jiangsu University of Technology
Current assignee: Jiangsu University of Technology
Priority date: 2020-02-19
Filing date: 2020-02-19
Publication date: 2024-02-06
Anticipated expiration: 2040-02-19
Also published as: CN111310670A

Abstract

一种基于预定义和随机视点的多视图三维形状识别方法，开发了一种新颖的多视图卷积神经网络Latent‑MVCNN(LMVCNN)，使用来自预定义或随机视点的多个视图图像识别3D形状。LMVCNN由三种类型的子卷积神经网络组成。对于每个视图图像，第一CNN输出多个类别似然性，第二CNN输出潜在矢量以帮助第一CNN选择正确的类别似然性。第三CNN输出从一个视图的类别可能性到另一视图的类别可能性的转变概率，这进一步帮助LMVCNN为每对视图图像找到正确的类别可能性。三个CNN相互协作以获得令人满意的分类分数。我们的实验结果表明，对于预定义和随机视点，LMVCNN在ModelNet10和ModelNet40上的3D形状识别方面均具有竞争优势，并且当视图图像的数量很少时，其表现出令人鼓舞的性能。

Description

一种基于预定义和随机视点的多视图三维形状识别方法

技术领域

本发明涉及计算机视觉领域，具体是一种基于预定义和随机视点的多视图三维形状识别方法。

背景技术

由于深度学习在许多计算机视觉任务中的出色表现，因此深度神经网络已应用于3D形状分析。现已经提出了用于3D形状识别的各种深度网络，其基于3D形状的不同格式，例如视图，体素，网格和点云。但是，在这些方法中，只有基于视图的方法才具有出色的性能。Su等人首先提出了用于识别3D形状的多视图卷积神经网络MVCNN，并开发了视图合并层以将来自所有视图的信息合成为单个紧凑的3D形状描述符。视图池层将max操作应用于所有视图的卷积特征，并丢弃较小的特征值。尽管此视图池层提供了一种方便的聚合视图的方法，但它显然限制了MVCNN的性能改进，因为它没有充分利用所有视图信息。

Kanezaki等人提出的RotationNet扩展。RotationNet的最后一层为每个视图图像输出许多类别似然，并且每个类别似然由softmax层实现。RotationNet使用潜在变量作为3D对象姿态估计。但是，潜变量只有一个维度，其范围很小。在RotationNet中，可以将潜在变量分配给从1到视图数的整数之一。此外，RotationNet对预定义视图假设非常敏感。通常，这些方法尚未应用于随机视点的3D形状识别。此外，当观看图像的数量很少时，3D形状识别将面临巨大挑战。

基于体素的方法通常将3D形状转换为包含许多体素的体积。因此，可以将CNN扩展为3D架构以轻松处理体素化形状。但是，当3D体积形状的分辨率提高时，体素的总数将极大地增加，从而无法处理体积形状。由于基于体素的方法的局限性，它们的性能通常不如基于视图的方法。

Qi等人设计了一种新型的神经网络PointNet，它可以直接处理点云，并尊重输入点的排列不变性。该神经网络为3D对象识别提供了有效的方法。接下来，Qi等人开发了另一个层次神经网络PointNet++，该网络递归地在输入点的嵌套子集上使用PointNet。最近，Su等人提出了一个直接处理点云的处理点云的网络，它被表示为高维格子中的稀疏样本集。点云处理一直是自动驾驶中的重要模块。但是，点云格式易受噪声干扰，并且缺乏描述局部细节的能力。

与上述其他方法相比，基于视图的3D形状表示方法具有更好的适应性，并且可以更轻松地获取2D视图图像。

发明内容

为了增强CNN的3D形状识别功能，可用于预定义和随机视点，并处理少量可用视图图像的情况，开发了一种新颖的多视图卷积神经网络“Latent-MVCNN”(LMVCNN)，它可以识别3D形状，并由三种类型的子CNN组成。第一个CNN为每个视图图像输出多个类别似然，第二个CNN输出一个隐变量以帮助第一个CNN选择正确的类别似然。潜在向量的作用类似于GVCNN中的视图分组模块，但此处用于选择正确的类别可能性。第三CNN输出从一个视图的类别可能性到另一视图的类别可能性的转变概率，这进一步帮助LMVCNN为每对视图图像找到正确的类别可能性。

为实现上述目的，本发明的技术方案是：一种基于预定义和随机视点的多视图三维形状识别方法，按以下步骤实现：

一种基于预定义和随机视点的多视图三维形状识别方法，所述方法中设计一种多视图卷积神经网络Latent-MVCNN，即LMVCNN，由三种类型的子CNN组成；第一种类型的子CNN为每个视图图像输出多个类别似然，第二种类型的子CNN输出一个隐变量以帮助第一种类型的子CNN选择正确的类别似然，第三种类型的子CNN输出从一个视图的类别可能性到另一视图的类别可能性的转变概率；

所述方法包括如下分步骤：

步骤1，设M为预定义或随机视点的数量，N为目标对象类别的数量，通过在这些M个视点下渲染一个3D对象，得到M个视图图像{x_i|1≤i≤M}，用表示；

步骤2，如果已被确定，则计算M个视图图像的整个类别可能性；

步骤3，若确定未被确定，则使用第二种类型的子CNN，选择合适的类别似然，输出一个隐变量V_i，其最后一层的激活函数设置为S型，由于未提供V_i的监督信号，因此V_i是隐变量，向输出隐变量引入了具有相同维数的K个分类索引中心/>它们分别对应于类别似然，如果输出隐变量V_i最接近分类索引中心c_m，则意味着/>更有可能被分配给第m类可能性的索引；

步骤4，引入了第三种类型的子CNN以使用一对视图图像来预测索引变量，该子CNN是一个Siamese network，该网络利用一对视图图像来输出从一个视图的类别可能性到另一视图的类别可能性的转变概率，即将从的候选值到/>候选值的转变概率的发展表示为P(x_i，x_j，/>)；第三种类型的子CNN的输入是一对视图图像，输出是最终卷积层特征的减法，维数为K²的softmax作为最后一层连接到第三种类型的子CNN；

步骤5，对于离散的参数根据算法确定/>然后使用反向传播算法通过固定来更新三种类型的子CNN和分类索引中心的参数；

步骤6，当类别似然数K和输入视点图像M的数量变大时，通过步骤5中的算法快速计算的值，定义一个矩阵/>表示当/>时/>的最佳分配概率；

步骤7，使用另一个矩阵来记住步骤6中当/> 时，对/>的最佳分配H；

步骤8，所有索引变量都被赋予相同的值，一旦确定了两个矩阵eng和pos，则步骤5中的算法获得/>合适的值，在测试阶段，对于输入的视图图像，首先使用三种类型的CNN分别获得类别似然性，潜在矢量和转移概率，然后根据步骤5中的算法获得/>的合适值，最后使用等式/>计算分类分数，根据分类分数选择合适的分类。

进一步的，步骤2中M个视图图像的整个类别可能性为：

为解决上式概率通常小于1，因此多个概率的乘积将导致非常小的值，上述等式被重写为对数可能性之和：

进一步的，步骤3中V_i，c_m和应该服从以下方程式：

从V_i到c_m的距离越小，将索引m分配给的可能性就越大，通过使用softmax，将概率定义如下：

使用负对数可能性定义了以下优化问题：

其中y_lable是类别标签。

进一步的，步骤4中：

进一步的，步骤5中的算法如下：

算法定义为：的贪婪计算；

输入：输入参数类别标签y_lable，输入视点图像的数量M和类别可能性K的数量；

输出：分配给

1:j∈{1，2…，K}

2:

3:pos(1，j)＝j；

4:for m＝2：M do

5:for n＝1：K do

6:根据等式

计算eng(m，n),

7:pos(m，n)等于等式中对的最佳分配H,

8:除以外，/>中的任何变量均未分配H；

9:

10:fori＝M-1：1do

11:

12:

进一步的，步骤6中当时/>求矩阵/>的值的方程为：

进一步的，步骤7其中当时，对/>的最佳分配H，H是唯一的，即除了之外，H还没有分配给/>中的任何变量。

相较于现有技术，本发明有以下有益效果：

1)LMVCNN输出许多类别似然性，因此，无论是在预定义视点还是随机视点的情况下，它都可以针对任何视图图像尽其所能选择一个合适的分类。另外，LMVCNN能够处理少量视图图像。因此，如果测试视图图像的数量非常小，我们的方法仍然可以正常工作。

2)视图图像生成为了尽可能完整地捕获3D形状的2D视图图像，我们设计了三种类型的视点设置，例如Upright，Dodecahedron和Random设置，然后生成了渲染这些视点下3D形状的视图。

3)(Upright)在第一种情况下，我们将z轴固定为旋转轴，然后将视点围绕该轴以角度θ的间隔放置，并与地平面成30°角。我们将θ＝30°设置为可产生一个对象的12个视图。(Dodecahedron)我们在围绕该对象的十二面体的M＝20个顶点上设置了视点。这是因为具有20个顶点的十二面体是具有最多顶点数的规则多面体。(Random)我们随机设置摄像机的视点。我们统一选择0°和360°之间的方位角和高度。此外，摄像机到原始坐标的径向距离也可以随机设置。人们识别3D对象时，首先不能定义其视点，并且通常是随机的。因此，随机生成的视图图像类似于人们从现实世界中捕获的图像。注意，由于观察到的视点的变化，所以随机视点产生的2D视点图像是可变的。

附图说明

图1为本发明实施例中LMVCNN中的第一和第二子CNN概述。

图2为本发明实施例中LMCNN中的第三个子CNN概述。

具体实施方式

下面结合说明书附图对本发明的技术方案做进一步的详细说明。

一种基于预定义和随机视点的多视图三维形状识别方法，所述方法中设计一种多视图卷积神经网络Latent-MVCNN，即LMVCNN，由三种类型的子CNN组成；第一种类型的子CNN为每个视图图像输出多个类别似然，第二种类型的子CNN输出一个隐变量以帮助第一种类型的子CNN选择正确的类别似然，第三种类型的子CNN输出从一个视图的类别可能性到另一视图的类别可能性的转变概率。

所述方法包括如下分步骤：

步骤1，设M为预定义或随机视点的数量，N为目标对象类别的数量，通过在这些M个视点下渲染一个3D对象，得到M个视图图像{x_i|1≤i≤M}，用表示。

步骤2，如果已被确定，则计算M个视图图像的整个类别可能性。M个视图图像的整个类别可能性为：

为解决上式概率通常小于1，因此多个概率的乘积将导致非常小的值，上述等式被重写为对数可能性之和。

步骤3，若确定未被确定，则使用第二种类型的子CNN，选择合适的类别似然，输出一个隐变量V_i，其最后一层的激活函数设置为S型，由于未提供V_i的监督信号，因此V_i是隐变量，向输出隐变量引入了具有相同维数的K个分类索引中心/>它们分别对应于类别似然，如果输出隐变量V_i最接近分类索引中心c_m，则意味着/>更有可能被分配给第m类可能性的索引。

步骤3中V_i，c_m和应该服从以下方程式：

使用负对数可能性定义了以下优化问题：

其中y_lable是类别标签。

步骤4，引入了第三种类型的子CNN以使用一对视图图像来预测索引变量，该子CNN是一个Siamese network，该网络利用一对视图图像来输出从一个视图的类别可能性到另一视图的类别可能性的转变概率，即将从的候选值到/>候选值的转变概率的发展表示为P(x_i，x_j，/>)；第三种类型的子CNN的输入是一对视图图像，输出是最终卷积层特征的减法，维数为K²的softmax作为最后一层连接到第三种类型的子CNN。

步骤4中，重写步骤3中的等式：

步骤5，对于离散的参数根据算法确定/>然后使用反向传播算法通过固定来更新三种类型的子CNN和分类索引中心的参数。步骤5中的算法如下：

算法定义为：的贪婪计算。

输入：输入参数类别标签y_lable，输入视点图像的数量M和类别可能性K的数量。

输出：分配给

1:j∈{1，2…，K}

2:

3:pos(1，j)＝j；

4:for m＝2：M do

5:for n＝1：K do

6:根据等式

计算eng(m，n),

7:pos(m，n)等于等式中对的最佳分配H,

8:除以外，/>中的任何变量均未分配H；

9:

10:for i＝M-1：1do

11:

12:

步骤6，当类别似然数K和输入视点图像M的数量变大时，通过步骤5中的算法快速计算的值，定义一个矩阵/>表示当/>时/>的最佳分配概率。步骤6中当/>时/>求矩阵/>的值的方程为：

步骤7，使用另一个矩阵来记住步骤6中当/> 时，对/>的最佳分配H。H是唯一的，即除了/>之外，H还没有分配给/>中的任何变量。

以上所述仅为本发明的较佳实施方式，本发明的保护范围并不以上述实施方式为限，但凡本领域普通技术人员根据本发明所揭示内容所作的等效修饰或变化，皆应纳入权利要求书中记载的保护范围内。

Claims

1.一种基于预定义和随机视点的多视图三维形状识别方法，其特征在于：所述方法中设计一种多视图卷积神经网络Latent-MVCNN，即LMVCNN，由三种类型的子CNN组成；第一种类型的子CNN为每个视图图像输出多个类别似然，第二种类型的子CNN输出一个隐变量以帮助第一种类型的子CNN选择正确的类别似然，第三种类型的子CNN输出从一个视图的类别可能性到另一视图的类别可能性的转变概率；

所述方法包括如下分步骤：

步骤4，引入了第三种类型的子CNN以使用一对视图图像来预测索引变量，该子CNN是一个Siamese network，该网络利用一对视图图像来输出从一个视图的类别可能性到另一视图的类别可能性的转变概率，即将从的候选值到/>候选值的转变概率的发展表示为P(x_i，/>第三种类型的子CNN的输入是一对视图图像，输出是最终卷积层特征的减法，维数为K²的softmax作为最后一层连接到第三种类型的子CNN；

步骤7，使用另一个矩阵来记住步骤6中当/>时，对/>的最佳分配H；

2.根据权利要求1所述的一种基于预定义和随机视点的多视图三维形状识别方法，其特征在于：步骤2中M个视图图像的整个类别可能性为：

3.根据权利要求1所述的一种基于预定义和随机视点的多视图三维形状识别方法，其特征在于：步骤3中V_i，c_m和应该服从以下方程式：

使用负对数可能性定义了以下优化问题：

其中y_lable是类别标签。

4.根据权利要求1-3中任一项所述的一种基于预定义和随机视点的多视图三维形状识别方法，其特征在于：步骤4中：

5.根据权利要求1所述的一种基于预定义和随机视点的多视图三维形状识别方法，其特征在于：步骤5中的算法如下：

算法定义为：的贪婪计算；

输出：分配给

1:j∈{1,2…,K}

2:

3:pos(1,j)＝j；

4:for m＝2:M do

5:for n＝1:K do

6:根据等式

计算eng(m,n),

7:pos(m,n)等于等式中对的最佳分配H,

8:除以外，/>中的任何变量均未分配H；

9:

10:for i＝M-1:1 do

11:

12:

6.根据权利要求1所述的一种基于预定义和随机视点的多视图三维形状识别方法，其特征在于：步骤6中当时/>求矩阵/>的值的方程为:

7.根据权利要求1所述的一种基于预定义和随机视点的多视图三维形状识别方法，其特征在于：步骤7其中当时，对/>的最佳分配H，H是唯一的，即除了/>之外，H还没有分配给/>中的任何变量。