CN111382300B

CN111382300B - 基于组对深度特征学习的多视图三维模型检索方法及系统

Info

Publication number: CN111382300B
Application number: CN202010086644.2A
Authority: CN
Inventors: 刘丽; 陈秀秀; 张龙; 张化祥; 高爽; 刘冬梅
Original assignee: Shandong Normal University
Current assignee: Shandong Normal University
Priority date: 2020-02-11
Filing date: 2020-02-11
Publication date: 2023-06-06
Anticipated expiration: 2040-02-11
Also published as: CN111382300A

Abstract

本发明公开了基于组对深度特征学习的多视图三维模型检索方法及系统，包括：获取待检索三维模型不同角度的二维视图，提取每一个二维视图的初始视图描述符；对上述的多个初始视图描述符进行聚合，获得最终的视图描述符；分别提取最终的视图描述符的潜在特征和类别特征；将所述潜在特征和类别特征进行加权组合，形成形状描述符；将得到的形状描述符与数据库中三维模型的形状描述符进行相似性计算，实现多视图三维模型的检索。本发明提出多视图三维模型检索框架GPDFL，融合了模型的潜在特征和类别特征，能够提高特征的识别能力和模型的检索性能。

Description

基于组对深度特征学习的多视图三维模型检索方法及系统

技术领域

本发明涉及三维模型检索技术领域，尤其涉及一种基于组对深度特征学习的多视图三维模型检索方法及系统。

背景技术

本部分的陈述仅仅是提供了与本发明相关的背景技术信息，不必然构成在先技术。

随着计算机图形处理能力和三维建模技术的不断提高，三维模型在游戏、虚拟现实环境、医学诊断、计算机辅助设计等领域得到了广泛的应用，成为继图像、声音、文本之后的新一代多媒体数据。面对庞大的三维模型数据库，三维模型检索已成为计算机视觉和计算机图形学领域的一个重要研究课题，近年来引起了人们的极大关注。随着深度学习的普及，各种深度网络被用于三维模型识别。如今，研究趋势已经从设计手工制作的特征转移到直接通过深层结构学习三维形状表示。

根据采用的数据类型不同，三维模型检索方法大致可分为两大类：基于模型的方法和基于视图的方法。基于模型的方法直接从原始三维表示中获得三维形状特征，如多边形网格或曲面、体素网格和点云等。基于视图的方法通常首先用一组二维视图表示一个三维模型，然后提取或学习每个视图的特征，最后将它们聚合成一个紧凑的三维形状描述符。与基于模型的方法相比，基于视图的方法对三维模型的识别能力更强，并且可以从二维图像分析的最新发展中获益，这将导致更好的模型检索性能。

识别描述符的设计是优化三维模型检索的基础问题。尽管近年来对二维图像的深度学习方法已经有了很好的研究，但是对于基于多视图的三维模型的描述还处于起步阶段。在最近的文献中，基于多视图的方法，如多视图卷积神经网络(MVCNN和MVCNNMultiRes)通常采用视图池操作从多个视图中生成形状描述符。这些方法在三维模型识别方面具有里程碑意义，并取得了目前最先进的性能。然而，发明人发现，在现有方法中所有视图都被同等对待以生成一种单一的形状描述符。视图之间的潜在关系和类别信息尚未被挖掘出来，这大大限制了形状描述符的性能，导致无法充分利用三维模型特征表示的能力。一方面，有些视图彼此相似，而另一些视图则不同。这些类似的视图对形状描述符的贡献应该类似。另一方面，视图的类别信息对形状识别的判别能力更强。在这种情况下，进一步研究视图之间的潜在关系，从这些视图中挖掘类别信息是非常重要的。

发明内容

本发明目的是为了解决上述问题，提出了一种基于组对深度特征学习的多视图三维模型检索方法及系统，首先使用可扩展的卷积神经网络(CNN)来提取三维模型的初始视图描述符，并且利用最大值视图池进行特征选择，得到最终的视图描述符。然后，引入一个自编码器对不同视图之间的关系进行建模，以挖掘它们的潜在特征。此外，采用生成对抗网络的判别器来进一步提取二维视图的类别特征。最后，根据潜在特征和类别特征的判别性权值，将其组合成最终的形状描述符。

在一些实施方式中，采用如下技术方案：

基于组对深度特征学习的多视图三维模型检索方法，包括：

获取待检索三维模型不同角度的二维视图，提取每一个二维视图的初始视图描述符；

对上述的多个初始视图描述符进行聚合，获得最终的视图描述符；

分别提取最终的视图描述符的潜在特征和类别特征；

将所述潜在特征和类别特征进行加权组合，形成形状描述符；

将得到的形状描述符与数据库中三维模型的形状描述符进行相似性计算，实现多视图三维模型的检索。

本发明方案融合了模型的潜在特征和类别特征，通过调节两种特征之间的权重关系能够进一步提高三维模型检索性能。

在另外一些实施方式中，采用如下技术方案：

基于组对深度特征学习的多视图三维模型检索系统，包括：

用于获取待检索三维模型不同角度的二维视图，提取每一个二维视图的初始视图描述符的装置；

用于对上述的多个初始视图描述符进行聚合，获得最终的视图描述符的装置；

用于分别提取最终的视图描述符的潜在特征和类别特征的装置；

用于将所述潜在特征和类别特征进行加权组合，形成形状描述符的装置；

用于将得到的形状描述符与数据库中三维模型的形状描述符进行相似性计算，实现多视图三维模型的检索的装置。

在另外一些实施方式中，采用如下技术方案：

一种终端设备，其包括处理器和计算机可读存储介质，处理器用于实现各指令；计算机可读存储介质用于存储多条指令，所述指令适于由处理器加载并执行上述的基于组对深度特征学习的多视图三维模型检索方法。

一种计算机可读存储介质，其中存储有多条指令，所述指令适于由终端设备的处理器加载并执行上述的基于组对深度特征学习的多视图三维模型检索方法。

与现有技术相比，本发明的有益效果是：

(1)本发明提出一种新的多视图三维模型检索框架GPDFL，它是一种端到端的方法，融合了模型的潜在特征和类别特征，通过调节两种特征之间的权重关系可以进一步提高三维模型检索性能。通过组对深度特征学习框架，能够发现更加重要的具有判别性的视觉信息。

(2)为了进一步提高检索性能，本发明提出了一种改进的中心损失函数，该函数可以同时增大类间距离及减小类内距离，能够提高特征的识别能力和模型的检索性能。

(3)本发明在ModelNet40数据集上进行了大量的实验，实验结果表明本发明提出的GPDFL方法明显优于其他三维模型检索方法。

附图说明

图1为本发明实施例中基于组对深度特征学习的多视图三维模型检索方法流程图；

图2(a)-(b)分别为传统单一特征学习架构和本发明实施例提出的组对深度特征学习架构在三维形状描述中的比较；

图3为本发明实施例中自编码器的详细结构示意图；

图4为本发明实施例提出的GPDFL与其他比较方法在ModelNet40上的性能比较。

具体实施方式

应该指出，以下详细说明都是例示性的，旨在对本申请提供进一步的说明。除非另有指明，本发明使用的所有技术和科学术语具有与本申请所属技术领域的普通技术人员通常理解的相同含义。

需要注意的是，这里所使用的术语仅是为了描述具体实施方式，而非意图限制根据本申请的示例性实施方式。如在这里所使用的，除非上下文另外明确指出，否则单数形式也意图包括复数形式，此外，还应当理解的是，当在本说明书中使用术语“包含”和/或“包括”时，其指明存在特征、步骤、操作、器件、组件和/或它们的组合。

在不冲突的情况下，本发明中的实施例及实施例中的特征可以相互组合。

实施例一

在一个或多个实施方式中，公开了一种基于组对深度特征学习的多视图三维模型检索方法，参照图1，包括以下步骤：

(1)使用可扩展的卷积神经网络来提取三维模型的初始视图描述符；

(2)采用最大值视图池来聚合多个初始视图描述符以获得最终的视图描述符；

(3)采用自编码器挖掘二维视图描述符的潜在特征；

(4)使用生成对抗网络的判别器根据判别分数提取二维视图的类别特征；

(5)将所述潜在特征和类别特征进行加权组合，形成形状描述符；

(6)采用余弦距离度量函数对查询三维模型和数据库三维模型的形状描述符进行相似性计算，将3D模型按相似性从高到低排列，从而达到检索的目的。

本实施例提出一种有效且高效的多视图三维模型检索框架—组对深度特征学习(GPDFL)，该框架部署在一种成对学习的方案上，实现潜在特征和类别特征特征之间的智能融合。GPDFL框架由卷积神经网络(CNN)、自编码器以及基于生成对抗网络(GAN)的判别器组成。

具体地说，本实施例首先使用可扩展的CNN来提取三维模型的初始视图描述符，并且采用视图池来聚合多个视图以获得最终的视图描述符。然后，采用自编码器进一步挖掘二维视图的潜在特征。自编码器被设计来建立不同二维视图之间的关系模型，在重构损失的约束下很好地重构特征。此外，利用生成对抗网络的判别器根据相应的判别分数来提取二维视图的类别特征。最后，根据潜在特征和类别特征的判别性权值，将其聚合成最终的形状描述符并应用于多视图三维模型检索。另外，为了提高特征的识别能力和模型的检索性能，提出一种改进的中心损失函数。该损失函数为每个类学习一个类中心，实现较大的类间距离、较小的类内距离的思想。

下面详细介绍所提出的GPDFL框架。与以往的单一特征学习体系架构相比，如图2(a)所示，考虑到不同视图之间的潜在关系和类别信息，本文提出组对深度特征学习框架，如图2(b)所示。在本实施例提出的GPDFL框架中，首先从所有初始视图描述符中生成最终的视图描述符。然后，将潜在特征和类别特征加权组合，生成最终的形状描述。

本实施例方法的详细流程如图1所示。GPDFL以CNN为基本结构，引入自编码器以及GAN的判别器来实现成对级地深度特征学习。给定一个三维模型，我们首先从不同角度获取一组二维视图。每个视图都通过网络的第一部分(CNN)来获取初始视图描述符。然后，网络的第二部分(视图池)用于特征选择，以获得最终的视图描述符。最后，根据潜在特征和类别特征的判别性权值，将它们以加权和的形式组合成最终的形状描述符。

一、本实施例主要提出两种网络，它们显著地改善了最新的CNN在三维模型检索任务中的性能。第一个网络是自编码器，它被设计来对不同视图之间的关系建模，并被鼓励从潜在空间预测对象类标签。第二个网络由多个基于GAN的判别器组成，其作用是为了挖掘三维模型的类别特征，因为它们在三维模型分类方面具有很强的功能。两个网络都是建立在CNN基础上。需要注意的是，特征提取和模型训练是以端到端的方式执行的。

1、初始视图描述符的生成

给定z个三维模型，每个三维模型用一组二维视图来表示，利用带有参数α的共享卷积神经网络(CNN)F_CNN来提取初始的视图描述符，如图1所示。CNN是多个视图并行处理的过程，在这一部分中，多个视图分别输入到12个并行的参数共享的CNN中。对于每一个视图V_i,CNN的输出是一个d维的特征向量m_i∈R^d。然后，每一个三维模型都可以用根据渲染顺序来堆叠m_i(1≤i≤k)得到的多视图特征嵌入(即初始视图描述符)m＝[m_1,m_2,m_3,…,m_k]∈R^k×d来表示。

任何现有的卷积神经网络，如AlexNet、GoogLeNet、ResNet都可以用作视图特征提取器。本实施例选择了批量标准化的VGG-19作为基础网络。该网络对属于1k个类别的ImageNet图像进行预训练，然后对训练集中3D形状的所有2D视图进行微调。原始VGG-19包含16个卷积层(conv 1-16)，其核大小为1×1，3个完全连接层(fc 17-19)。在本实施例的工作中，VGG-19通过移除最后两个完全连接的层而被构造为特征提取器。这种情况下，特征向量维度d是4096。

2、最大值视图池

在提取每个视图的特征描述之后，关键是如何对一个三维模型的多个视图之间的交互进行建模，从而得到最终的视图描述符，表示为s＝{s₁,s₂,s₃,…,s_z}。视图池的特征选择方法主要分为两类，即最大池和平均池。

在本实施例的方法中，视图池采用最大池操作，旨在通过在不同视图特征的相同维度上执行元素的最大值操作来实现多视图的局部最优筛选。另一种方法是元素平均池操作，但是在实验中显示出较弱的性能。此外，还观察到它应该放在靠近最后一个池化层的地方。

3、自编码器

近年来，深度学习方法在自动提取复杂特征表示方面取得了很好的效果，特别是在目标分类和模式识别领域。从每个投影的二维视图中提取原始视图描述符，然后通过视图池聚合成最终的视图描述符。本实施例将通过一个深入学习的自编码器对其进一步学习。

自编码器具有由编码器F和解码器G两部分组成的对称神经网络结构，用于挖掘二维视图之间的潜在关系，以便进一步提取三维模型的潜在特征；如图3所示，编码器由三个完全连接的层组成，每一层后面跟着一个批量规范化层和一个LeakyReLu激活层。三层的隐藏单元数分别为1024、256和100。解码器的结构也由三个完全连接层组成，除了在第三个完全连接层之后没有后续层。第一层的维数为256，第二层的维数为1024，第三层的维数与CNN得到的原始表示相同。应用自编码器的目的是获得更紧凑的具有类间最大化和类内最小化的潜在特征。为了更好地实现分类效果，本文定义了一种改进的中心损失函数来减小类内数据的距离并增大类间数据的距离，定义如下：

其中，N表示批处理的大小，s_i表示网络的特征嵌入，c₊∈R^d表示特征相应的类中心，c_-∈R^d为距离类中心c₊最近的一个样本中心，δ表示距离边界。函数L₂(·)表示L₂范式。

训练期间，中心损失鼓励同一类的实例更加靠近学习到的类中心c₊。由于参数中心是基于一个小批量而不是整个数据集进行更新的，因此将改进的中心损失函数与标签损失结合使用，如下所示：

其中，y_i表示标签数据。实质上，L_CE表示用于对F(s_i)实例进行分类的交叉熵损失。

对于自编码器神经网络，输入层的训练数据(s∈R^d×1)被连接到隐藏层(h∈R^r×1)，其中d表示训练数据的维度，r表示神经元的个数。每一层的输出(f)都被发送到下一层。例如，第^(l+1)-th层可以被表示为：

f_l+1(a^l)＝σ(W^la^l+b^l) (3)

其中，a^l为第l_th的神经元，σ(·)为激活函数，(W^l，b^l)分别表示权重和偏置。因此，对于包括p个隐藏单元的编码器F而言，最终的输出可以被表示为：

F(s)＝f_p(f_p-1(…，f₂(s))) (4)

对于解码器G而言，其相应的输出数据可以表示为

G(s)＝f_L(f_L-1(…，F(s))) (5)

其中，L代表自编码器网络的层数。

利用深度学习方法，自编码器网络能够通过最小化重构损失函数来优化隐藏层中{(W^l，b^l)，l＝1，2，3，…，L-1}，从而被训练。重构损失如下：

其中，s_i表示第i个三维模型的视图描述符，N表示训练数据的个数。参数W＝[W¹，W²，W³，…，W^L-1]和b＝[b¹，b²，b³，…，b^L-1]分别为每一层中的权重和偏置。

如上所述，中心损失主要集中在减小类内数据之间的距离。标签损失的目的是使预测的概率分布接近实际的概率分布，以达到拟合的目的。重构损失的目的是通过减小重构特征数据与输入特征数据之间的距离来获得最优的潜在特征表示。本实施例将这三种损失函数结合在一起，以实现更加具有区别性和鲁棒性的特征表示，表示如下：

L_A＝λ₁L_C+λ₂L_R+L_CE (7)

其中，λ₁和λ₂是控制三种损失函数之间权衡关系的超参数。实验结果表明，通过调整参数来确定三种损失函数之间的最佳权重关系，可以提高特征表示的判别性。

4、生成对抗网络的判别器

如上所述，不同类型的二维视图特征对于三维模型检索任务具有不同的重要性。然而，现有的深度学习方法只注重对每个三维模型提取单一的形状表示，忽略了多视图的类别信息。针对此问题，本文设计n个基于生成对抗网络(GAN)的判别器来挖掘三维模型的类别特征F₂，判别器用D＝{D₁，D₂，D₃，…，D_n}来表示。判别器将一个三维模型的视图描述符s作为输入。假设数据的类标签y＝{y₁，y₂，y₃，…，y_n}和判别器D＝{D₁，D₂，D₃，…，D_n}之间是一一对应的关系，那么，对于判别器D_i而言，只有当输入数据是第i的数据时，判别值为1，否则为0。换句话说，对于第i类特征数据而言，只有在对应的判别器D_i中被判别为1，在其他判别器中均为0。判别器将判别损失作为目标函数被训练，损失定义如下：

其中，

表示第y_i类特征输入数据，D_j表示第j个判别器。

5、特征融合

为了生成最终的形状描述符，将三维模型的潜在特征F₁和类别特征F₂进一步结合。因此，本实施例进行一个权重融合处理的过程来获得最终的三维模型形状描述符L_B，表示如下：

L_B＝αF₁+βF₂ (9)

通过这种方式，与含有较少判别信息的单个特征相比，包含较多判别信息的三维模型特征L_B对最终形状描述符的贡献更大。通过组对深度特征学习框架，能够发现更加重要的具有判别性的视觉信息。

实验结果表明通过调节潜在特征和类别特征之间的权重关系可以进一步提高三维模型检索性能。在实验结果和分析中给出了参数α和β对检索结果的影响。

二、训练过程

根据公式(7)和公式(8)中的目标函数，自编码器和判别器分别被训练。接下来将分别介绍两种网络模型的优化算法。

1、CNN和自编码器的优化：

模型训练实质上是找到CNN的卷积层中的最优参数α和自编码器的全连接层中的最优参数β的过程。CNN是在ImageNet图像上进行预训练，然后在三维模型的所有二维视图上进行微调的。在微调的过程中，CNN每经过一个周期被训练一次，其训练过程如下：

自编码器的训练过程如下：

/>

方程(10)和(11)可以通过随机梯度下降的优化算法实现，如算法1所示。

2、判别器的优化:

模型的训练是找到判别器的最优参数γ＝{γ₁,γ₂,γ₃,…,γ_n}的过程。第i个判别器的训练公式如下：

方程(12)可以通过随机梯度下降的优化算法实现，如算法2所示。

三、实验

本实施例在广泛使用的ModelNet40数据集上进行了实验。将提出的方法与其他9种方法进行比较，以全面验证我本实施例方法的有效性。

1、数据集

为了验证GPDFL学习到的形状特征的表示能力，本实施例在大量的三维形状集合上训练我们的网络。普林斯顿ModelNet数据集是一个最近发布的在线形状数据集，包含127,915个CAD模型，含有662个类别；我们在它的子集ModelNet40上运行我们的算法。ModelNet40数据集由12311个CAD模型组成，平均属于40个类别。在评价实验中，本实施例对ModelNet40中每个类别随机选择100个模型，其中80个模型作为训练数据，其余模型用于测试。

将提出的方法与几种基线方法进行比较，包括:3DShapeNet、DeepPano、MVCNN、GIFT、DLAN、RED、GVCNN、PVR、ATCL。下面分别简要介绍这些方法:

3DShapeNet给出了在大型三维形状基准模型ModelNet40上对稀疏三维卷积神经网络S3DCNN进行性能评估的初步结果，并测量了其对输入形状体素分辨率的影响。

DeepPano首先将每个三维形状转换为全景视图。然后，CNN的一个变体被专门设计用于直接从这些视图学习深层表示。与典型的CNN不同，在卷积层和完全连接层之间插入一个行最大池层，使得所学习的表示具有旋转不变性。

MVCNN将来自3D形状的多个视图的信息组合成一个单一而紧凑的形状描述符，从而提供更好的识别性能。

GIFT结合了GPU加速和倒排文件，在流形特征中捕捉3D形状的局部分布，用于高效的基于上下文的重排序。

DLAN使用一组对局部旋转不变性的三维几何特征来描述三维模型的局部三维区域。然后，DLAN将特征集合聚合为3D模型的(全局)旋转不变和压缩特征。

RED与一个自动权重学习范式捆绑在一起，因此噪声相似性的负面影响被抑制。

GVCNN是一种层次相关建模方法。它由一个层次化的视图-组-形状体系结构组成，即从视图层、组层和形状层，这些层是使用分组策略组织的。

PVR同时利用了基于图像和基于三维形状的方法。它使用360度投影有效地反映了三维形状的内部结构和关键特征。具体地说，将三维形状的点云映射到二维(2D)平面上，通过点云的最大深度来获得极坐标视图表示。将三维点云投影到二维平面中，可以使用高效的图像数据进行训练。

在ModelNet40上评估我们的方法和其他比较方法，评价指标是平均精度(mAP)，它是指多个查询的平均精度(AP)的平均值，反映了模型整体的检索性能。

实验结果如图4所示，从图中可以看出，本实施例方法实现了非常好的性能，mAP值达到87.3％，优于其他的比较方法。具体来说，本实施例方法在mAP方面比基于模型的最佳方法DLAN高2.3％。与其他基于视图的方法相比，GPDFL在mAP上的表现分别比GIFT、GVCNN和PVR高出5.4％、1.6％和3.0％。与传统的利用softmax损失函数训练的MVCNN算法相比，本实施例方法(GPDFL)具有更好的识别能力，mAP值提高了7.1％，达到87.3％。与成熟的相似性融合方法RED相比，在mAP上的性能提高了1.0％。此外，我们的方法在mAP上获得了比最先进的ATCL还要好的性能(86.1％对87.3％)，与基线方法和最新方法相比，mAP的提升证明了本实施例方法的优越性。

实施例二

基于组对深度特征学习的多视图三维模型检索系统，包括：

用于使用可扩展的卷积神经网络来提取三维模型的初始视图描述符的装置；

用于采用最大值视图池来聚合多个初始视图描述符以获得最终的视图描述符的装置；

用于采用自编码器挖掘二维视图描述符的潜在特征的装置；

用于使用生成对抗网络的判别器根据判别分数提取二维视图的类别特征的装置；

用于将得到的形状描述符与数据库中三维模型的形状描述符进行相似性计算，实现多视图三维模型检索的装置。

上述装置的具体实现方法与实施例一中公开的方法相同，不再赘述。

实施例三

在一个或多个实施方式中，公开了一种终端设备，包括服务器，所述服务器包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现实施例一中的基于组对深度特征学习的多视图三维模型检索方法。为了简洁，在此不再赘述。

应理解，本实施例中，处理器可以是中央处理单元CPU，处理器还可以是其他通用处理器、数字信号处理器DSP、专用集成电路ASIC，现成可编程门阵列FPGA或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。

存储器可以包括只读存储器和随机存取存储器，并向处理器提供指令和数据、存储器的一部分还可以包括非易失性随机存储器。例如，存储器还可以存储设备类型的信息。

在实现过程中，上述方法的各步骤可以通过处理器中的硬件的集成逻辑电路或者软件形式的指令完成。

实施例一中的基于组对深度特征学习的多视图三维模型检索方法可以直接体现为硬件处理器执行完成，或者用处理器中的硬件及软件模块组合执行完成。软件模块可以位于随机存储器、闪存、只读存储器、可编程只读存储器或者电可擦写可编程存储器、寄存器等本领域成熟的存储介质中。该存储介质位于存储器，处理器读取存储器中的信息，结合其硬件完成上述方法的步骤。为避免重复，这里不再详细描述。

本领域普通技术人员可以意识到，结合本实施例描述的各示例的单元即算法步骤，能够以电子硬件或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本申请的范围。

上述虽然结合附图对本发明的具体实施方式进行了描述，但并非对本发明保护范围的限制，所属领域技术人员应该明白，在本发明的技术方案的基础上，本领域技术人员不需要付出创造性劳动即可做出的各种修改或变形仍在本发明的保护范围以内。