CN112270762A

CN112270762A - 一种基于多模态融合的三维模型检索方法

Info

Publication number: CN112270762A
Application number: CN202011292371.3A
Authority: CN
Inventors: 褚晶辉; 郑博文; 聂为之
Original assignee: Tianjin University
Current assignee: Tianjin University
Priority date: 2020-11-18
Filing date: 2020-11-18
Publication date: 2021-01-26

Abstract

本发明公开了一种基于多模态融合的三维模型检索方法，包括：将点云数据输入PointNet网络，将12张多视图图像输入MVCNN训练网络，将12张全景视图图像输入另一个MVCNN预训练网络；使用加入了关联损失和实例损失的损失函数对三个网络进行联合训练；将训练好的三个网络的输出特征向量进行统计加权融合，使用融合后的特征向量作为三维模型的最终特征向量，以用于后续的三维模型检索中。本发明充分利用不同模态间的相关性来提升模型标准的鲁棒性，进而得到更精确的模型检索结果，在三维模型检索和分类任务上更加准确和科学。

Description

一种基于多模态融合的三维模型检索方法

技术领域

本发明涉及多模态融合和三维模型检索领域，尤其涉及一种基于多模态融合的三维模型检索方法。

背景技术

计算机的出现催化了众多领域的蓬勃发展，特别是近年来软硬件技术的迭代升级迅速，使得借助计算机来完成复杂的三维模型数据构建、存储、分析愈发简单高效；加之互联网技术极大地推动了信息交流的效率，三维模型在生产活动中占据的比重越来越大，已然成为了继文本、声音、图像之后的又一大众传媒形式。三维模型拥有着更加丰富的细节表示，可以传达更多的信息，特别是三维模型对目标物体空间结构进行了直观描述，极大地增加了它的交互性，人们可以通过拉伸、旋转操作来改变模型的视角，从而获得感兴趣的信息。近年来计算机视觉领域的研究日新月异，三维模型数据采集和构建成本越来越低，使得三维模型得到了广泛应用，不仅推动了传统行业的技术革新，如机械制造^[1]、医疗成像^[2]、地质建模^[3]等，更催化了新兴行业的蓬勃发展，如3D打印^[4]、电商购物^[5]、影视娱乐^[6]等。目前三维模型已经与人们的生活生产密不可分。

另外随着互联网技术及大数据存储技术的迅猛发展，目前网络上存在有海量的三维模型数据，并且每天都在以指数的趋势增长着。在一项研究调查报告中^[7]曾指出，3D建模需求中，其实只有大约20％是需要完全重新设计的，剩下的80％完全可以在已有的相似模型上，进行二次开发或者组合多个模型来实现。而现有的三维模型的构建方式，或依靠成熟的建模软件，或依靠精密的三维扫描仪器和摄影仪器，构建高精度复杂模型依旧具有一定的时间成本和经济成本。因此，一个很有实践意义的问题就是，如何充分利用现有的海量模型数据，以快速的检索出相似的模型用于二次开发。如果可以解决这个问题，将会极大地减少建模工作量，可以将工作重心从繁琐而耗时的前期建模任务中解放出来，大大节省企业生产成本。

传统的三维模型检索方法主要是基于人工标注的，检索时主要依靠的是对模型标签内容的文本检索。这种检索方案技术实现简单，但是极易受到标注人员的主观影响，且标注工作会占用大量人力物力，特别是模型标签适用场景单一，当产生新的需求时，往往需要对标签进行修改，或者重新进行标注。

传统的三维模型检索方案由于检索精度低、可复用性差、标注成本高、开发周期长等特点，难以满足实际的生产生活需求。而基于内容的三维模型检索^[8]方案则关注于模型本身的纹理信息、空间结构、颜色分布等，通过特定的算法来将这些深层信息数据化。相较于传统检索方式，基于内容的检索方式有效地避免了人工的主观影响，可以充分利用模型本身包含的特征信息，检索结果更加客观。加之模型的特征向量计算可以借助图形处理器(Graphics Processing Unit，GPU)实现批量处理和全自动化处理，节省了大量人力物力，避免了重复劳动，更加适应实际生产活动的节奏。

三维模型检索目前面临的主要挑战为：

1)三维模型包含的信息量较大，如何将数据库中的模型进行描述，提取出区分度较高的特征，特征的质量将直接影响到检索的性能；

2)当前主流方法大多考虑的是单一模式，专注于从单一形式中获取特征向量，而忽略了多种表示模态之间的相关性，如何充分利用这部分忽略的信息以提高检索精度也是一值得深思的问题。

发明内容

本发明提供了一种基于多模态融合的三维模型检索方法，本发明充分利用不同模态间的相关性来提升模型标准的鲁棒性，进而得到更精确的模型检索结果，在三维模型检索和分类任务上更加准确和科学，详见下文描述：

一种基于多模态融合的三维模型检索方法，所述方法包括：

1)对旋转后的三维模型使用蝴蝶细分算法进行表面细分，并从三维模型中提取出点云数据；

2)对旋转后的三维模型使用OpenGL工具，以30度角间隔对三维模型进行12个视角的视图渲染，获得12张多视图图像；

3)对旋转后的三维模型从xyz三个坐标轴方向上将三维模型投影到一个圆柱体表面，在每个坐标轴上分别获取4张全景视图，分别是三维模型空间分布图像、三维模型法线偏差图像、法线偏差图的梯度信息图像、上述三通道的堆叠图像，最后共可获得12张全景视图图像；

4)将点云数据输入PointNet网络，将12张多视图图像输入MVCNN训练网络，将12张全景视图图像输入另一个MVCNN预训练网络；

5)使用加入了关联损失和实例损失的损失函数对三个网络进行联合训练；

6)将训练好的三个网络的输出特征向量进行统计加权融合，使用融合后的特征向量作为三维模型的最终特征向量，以用于后续的三维模型检索中。

在步骤1)之前还包括：获取旋转后的三维模型的步骤，具体为：

给定一个三维模型，计算它的质心并进行平移，使得质心与坐标原点重合；

对处理后的三维模型计算协方差矩阵，通过矩阵特征分解获得一组特征向量和特征值，对特征值进行降序排序并选择前三个特征向量作为新的主轴方向，获得一个旋转矩阵，通过旋转矩阵对三维模型进行旋转。

其中，所述步骤5)具体为：

将点云数据输入到PointNet网络中，将多视图模态数据、全景视图模态数据分别输入到不同的MVCNN深度网络中；

使用改造后的损失函数对网络进行联合训练，其中改造后的损失函数由判别损失、关联损失、实例损失三部分构成；

其中，

代表模态M₁的判别损失，

和

分别代表M₁与模态M₂和M₃的关联损失，

代表实例损失。

进一步地，所述关联损失具体为：

L_c(M_i,M_n)＝||ξ(f_Mi)-ξ(f_Mn)||₂

其中，f表示不同模态的特征向量，M表示模态，不同的下标表示不同的模态，ξ＝sigmoid(log(abs(.))，ξ用于归一化特征向量，sigmoid函数为机器学习的神经元激励函数，abs(.)表示求绝对值。

其中，所述实例损失具体为：

其中，

为特征向量

分类为模型x_i的概率，α＝1,2,3。

进一步地，所述将训练好的三个网络的输出特征向量进行统计加权融合具体为：

其中，γ_i代表不同模态的权重，

为对应模态下的特征向量，不同的下标i表示来自同一个三维模型的不同模态。

本发明提供的技术方案的有益效果是：

1、本发明通过融合点云、多视图、全景视图三种模态的信息，对三维模型的描述更加全面，使得检索和分类任务更加准确和科学；

2、本发明在损失函数中加入了关联损失函数，充分利用了三维模型间语义的一致性，在训练中互相指导优化，提升信息融合的完整度；

3、本发明在损失函数中加入了实例损失函数，关注了模态自身的特性，在训练过程中保留了模态本身所特有的信息，进而提升了模型融合信息的区分度；

4、本发明对三种模态的特征向量进行了有效地加权融合，充分挖掘了不同模态的信息优势。

附图说明

图1为一种基于多模态融合的三维模型检索方法的流程图；

图2为ModelNet数据集中部分三维模型的示例图；

图3为在ModelNet40数据集上使用不同损失函数组合的损失函数值变化趋势图；

图4为在ModelNet40数据集上检索任务的不同方法PR曲线对比图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚，下面对本发明实施方式作进一步地详细描述。

常见的三维模型表示模式有多视图、点云、草图图像、全景图像等等。不同的表示模式有着不同的关注点，有各自独特的信息优势。现阶段，大多数三维模型检索方法考虑的是单一模式，专注于从单一形式中获取更加有效的特征向量，而忽略了多种表示模态之间的相关性。相反地，如果可以更多地关注和利用不同模态的优点，将有助于构建更具鲁棒性的特征向量。

基于此，本发明实施例提出了一种基于多模态融合的三维模型检索方法。首先对三维模型进行标准化预处理，其次对每个三维模型生成点云、多视图、全景视图三种模态下的一组数据，然后分别输入PointNet(点云网络)、MVCNN(Multi-View CNN，多视图卷积神经网络)深度网络并使用改造后的损失函数进行联合训练，最后将三种模态下的特征向量进行加权融合以作为最终的特征向量。本发明实施例还提供了本方法与其他几种主流方法的性能对比，在ModelNet和ShapeNetCore55数据集上的评估显示了本方法的正确性与有效性。

实施例1

本发明实施例提供了一种基于多模态融合的三维模型检索方法，参见图1，该方法中最重要的部分之一，是对三维模型的预处理和数据准备工作，对输入网络的三维模型数据进行标准化处理，以期望最终得到的三维模型特征描述符在发生几何变换时保持不变。

本方法实施例主要通过法向量主成分分析法^[9](NPCA，Normal PrincipalComponent Analysis)对三维模型进行了标准化处理，以及使用蝴蝶细分算法^[10]来避免三维模型表面采样太过稀疏而丢失细节信息，还使用了参考文献[11]对全景视图数据的处理方法。在获取到预处理的数据之后，对三种模态的深度网络进行联合训练，并将网络输出的特征向量进行加权融合，具体实施步骤如下：

101：给定一个三维模型，计算它的质心并进行平移，使得质心与坐标原点重合；

102：对步骤101处理后的三维模型计算协方差矩阵，通过矩阵特征分解获得一组特征向量和特征值，对特征值进行降序排序并选择前三个特征向量作为新的主轴方向，获得一个旋转矩阵，通过旋转矩阵对三维模型进行旋转；

103：对步骤102旋转后的三维模型使用蝴蝶细分算法进行表面细分，并使用MeshLab工具从三维模型中提取出点云数据；

其中，MeshLab工具为本领域技术人员所公知，本发明实施例对此不做赘述。

104：对步骤102旋转后的三维模型使用OpenGL(Open Graphics Library，开发图形库)，以30度角间隔对三维模型进行12个视角的视图渲染，获得12张视图图像；

105：对步骤102旋转后的三维模型从xyz三个坐标轴方向上将三维模型投影到一个圆柱体表面，在每个坐标轴上分别获取4张全景视图，分别是三维模型空间分布图像、三维模型法线偏差图像、法线偏差图的梯度信息图像、上述三通道的堆叠图像，最后共可获得12张全景视图图像；

即，上述步骤103-步骤105可以为顺序执行，或并列执行均可，本发明实施例对此不作限制。

106：将点云数据输入PointNet网络，将12张多视图图像输入MVCNN训练网络，将12张全景视图图像输入另一个MVCNN预训练网络；

107：使用加入了关联损失和实例损失的损失函数对上述三个网络进行联合训练；

108：将步骤107中训练好的三个网络的输出特征向量进行统计加权融合，使用融合后的特征向量作为步骤101中给定的三维模型的最终特征向量，以用于后续的三维模型检索中。

具体实现时，使用上述步骤108得到的特征向量进行具体检索任务时，将数据库中所有三维模型以上述步骤101-步骤108进行处理计算，得到特征向量；

将待检索三维模型的特征向量与数据库中其他三维模型的特征向量一一计算欧氏距离，并将计算结果按照升序排列；

升序排列结果即为检索结果，欧氏距离越小，表示两个三维模型的特征向量越接近，即两个模型越相似。

实施例2

下面结合具体的计算公式、实例、附图对实施例1中的方案进行进一步地介绍，详见下文描述：

其中，上述步骤101和步骤102中的标准化处理具体为：给定一个三维模型，通过法向量主成分分析法对三维模型进行处理，即：

1)将三维模型置于一个三维空间中，根据模型的三角面片来计算三维模型的质心

质心

可表示如下：

其中，

表示三维模型表面的一个点，T表示三维模型的一个三角面片，i＝1,2,,N，N为三维模型的三角面片数量，

为第i三角面片的顶点向量，E表示三维模型的总面积，

表示三角面片T_i的表面积。对三维模型进行平移，使其质心与原点重合。

2)计算协方差矩阵C，这里的协方差矩阵C可定义如下：

其中，

表示三角面片T_i的法向量，

表示平均面法向量

其中，

经过公式变换恒等于零向量，故协方差矩阵C最终表示如下：

通过协方差矩阵特征分解可获得一组特征向量和特征值，对特征值进行降序排序并选择前三个特征向量作为新的主轴方向，即可获得一个旋转矩阵R，通过旋转矩阵R对三维模型进行旋转。

其中，上述步骤103、步骤104、步骤105从标准化的三维模型中分别提取点云模态数据、多视图模态数据、全景视图模态数据具体为：

1)点云模态数据首先采用蝴蝶细分算法对三维模型表面进行细分，以获得数量适中的采样点，然后使用MeshLab工具从三维模型中提取出点云数据；

2)多视图模态数据使用开放图形库OpenGL，首先在三维空间中设定一个以模型质心为圆心、以z轴为法线方向的圆形轨道，轨道上依次排列有n个朝向轨道圆心的虚拟相机，这些虚拟相机之间的间隔角度d满足条件n×d＝360°，同时虚拟相机镜头方向保持与水平方向向下成30度夹角。这里n＝12，最终可获得一组12个视角的三维模型渲染视图；

3)全景视图模态数据首先将三维模型投影到一个圆柱体的表面上，以将空间结构信息映射到二维的视图中，其中投影所用到的圆柱体的设计取决于三维模型的大小。

一般可将圆柱体的半径设置为R，高度H设置为2R。其中R为模型表面与其形心之间最大距离的三倍，这里使用

y∈[0,H]来表示参数化后的三维模型表面，其中

和y是极坐标系的参数。这里分别以2B和B的速率对

和y坐标进行采样，最后可获得在xyz三个坐标轴方向上的全景视图，其中每个坐标轴方向上的全景视图信息又可分为以下四个部分：

(1)基于

的三维模型的位置信息，一般称之为空间分布图SDM；

(2)三维模型的方向信息，一般称之为法线偏差图NDM；

(3)法线偏差图的梯度信息；

(4)基于上述信息的三通道堆叠图像。

最终，每个三维模型可表示为12张全景视图。

进一步地，上述步骤107中的将三种模态下的数据分别输入不同的深度学习网络，并使用改造后的损失函数进行联合学习具体为：

1)将点云模态数据输入到PointNet深度网络中，将多视图模态数据、全景视图模态数据分别输入到不同的MVCNN深度网络中；

2)使用改造后的损失函数对网络进行联合训练，其中改造后的损失函数由判别损失、关联损失、实例损失三部分构成。

其中，判别损失与传统的监督学习方法类似，旨在增加类别之间的距离和减少类内实例之间的距离，一般用来优化特征向量的鲁棒性。判别损失可表示如下：

其中，K代表类别总数，y_ij为属于第j类的第i个模型的真实标签，u表示模型个数，p_ij(η_ij|η_i1,η_i2,…,η_iK)为第i个模型分类为第j类的概率，η_iK表示第i个模型分类为第K类的情况。当输入到SoftMax层时，可以从以下方程式中获得每种模态的每个类别的预测概率：

进一步地，关联损失充分利用了三维模型间语义的一致性，在训练中互相指导优化，提升信息融合的完整度。关联损失可表示如下：

L_c(M_i,M_n)＝||ξ(f_Mi)-ξ(f_Mn)||₂ (6)

进一步地，实例损失关注于模态自身的特性，在训练过程中保留了模态本身所特有的信息，进而提升了模型融合信息的区分度。

在每个训练周期内，首先对数据集进行随机采样，通过采样可获得m个样本模型，这里用{x₁,x₂,…,x_m}进行表示，并使用

来表示模型x_i的特征向量。然后通过最大似然估计来将问题转化为二元分类问题进行处理。对于每个三维模型x_i，可以获得三种模态的特征向量

这三种模态的特征向量最终分类都应该归入到模型x_i中，故将特征向量

分类为模型x_i的概率可表示为：

其中，τ是控制样本分布密度的温度参数，分别用α和β表示不同的模态。特征向量

被识别为模型x_i分类的最终概率表示为：

实例损失定义最终可表示为：

最终损失函数可表示如下：

其中，

代表模态M₁的判别损失，

和

分别代表M₁与模态M₂和M₃的关联损失，

代表实例损失。参数λ₁和λ₂的具体取值需要进行对比实验以确定最佳取值。

进一步地，上述步骤108中的通过统计加权的方式获得三种模态下特征向量的最优组合权重，进而以组合后的特征向量来估计三维模型之间的相关性具体为：

1)使用加权融合的方法，通过对比不同权重下的检索性能来确定最佳权重值。具体的特征向量融合过程可描述如下：

其中，γ_i代表不同模态的权重，

为对应模态下的特征向量，不同的下标i表示来自同一个三维模型的不同模态；

2)将融合后的特征向量f输入到一个全连接层中，全连接层分别设置为1×512、1×256和1×C，其中C表示分类类别数。

实施例3

下面结合具体的实例，对实施例1中的方案进行可行性验证，详见下文描述：

本发明实施例中的数据库使用了ModelNet40数据集^[12]，ModelNet是一款3D CAD模型的数据集，它由两个子集组成：ModelNet10和ModelNet40。其中ModelNet10包含有10个手动标注的方向类别，训练数据有3991个模型，测试数据有908个模型；ModelNet40包含有40个类别，训练数据有9843个模型，测试数据有2468个模型，合计12311个。本发明实施例所用到的一些模型如附图2所示。

本发明实施例中深度网络使用到的损失函数由判别损失、关联损失、实例损失三部分构成，附图3记录了100个训练周期内的损失函数在不同的组合下的损失函数值的变化情况，其中L_D表示在没有其他损失函数的情况下训练期间内损失函数值变化趋势；L_D+L_C表示仅添加关联损失的损失函数值变化趋势；L_D+L_E表示仅添加实例损失的损失函数值变化趋势；L_D+L_C+L_E表示增加了关联损失和实例损失的损失函数值变化趋势。从附图3中可以看出，在添加关联损失和实例损失之后，损失函数值有明显下降趋势。

本发明实施例中还比较了当前较为流行的多种方法的检索性能，检索任务一般使用PR曲线来评测性能高低。P表示Precision查准率，R表示Recall查全率，PR曲线又叫做查全查准曲线，PR曲线与横纵坐标轴所围的面积越大，代表检索性能越好。mAP指标一般用来表示PR曲线与坐标轴所围成的面积。附图4展示了当前主流方法与本发明方法的PR曲线对比图，可以看出本发明的PR曲线基本位于其他方法的曲线之上，具体来说，本发明以90.3％的mAP指标达到了最佳性能。

参考文献

[1]杨育彬，林珲，朱庆.基于内容的三维模型检索综述[J].计算机学报，2004，27(010)：1297-1310.

[2]郑伯川，彭维，张引，等.3D模型检索技术综述[J].计算机辅助设计与图形学学报，2004，016(007)：873-881.

[3]崔晨旸，石教英.三维模型检索中的特征提取技术综述[J].计算机辅助设计与图形学学报，2004，016(007)：882-889.

[4]Bimbo A D,Pala P.Content-based retrieval of 3D models[J].ACMTransactions on Multimedia Computing,Communications,and Applications(TOMM),2006,2(1):20-43.

[5]Kemelmacher-Shlizerman I,Basri R.3D face reconstruction from asingle image using a single reference face shape[J].IEEE Transactions onPattern Analysis and Machine Intelligence,2010,33(2):394-405.

[6]Bruno F,Bruno S,De Sensi G,et al.From 3D reconstruction to virtualreality:A complete methodology for digital archaeological exhibition[J].Journal of Cultural Heritage,2010,11(1):42-49.

[7]Gunn T G.The Mechanization of Design and Manufacturing[J].Scientific American,1982,247:114-130.

[8]Tangelder J W H,Veltkamp R C.A survey of content based 3D shaperetrieval methods[J].Multimedia Tools and Applications,2008,39(3):441.

[9]Papadakis P,Pratikakis I,Perantonis S,et al.Efficient 3D shapematching and retrieval using a concrete radialized spherical projectionrepresentation [J].Pattern Recognition,2007,40(9):2437-2452.

[10]Dyn N,Levine D,Gregory J A.A butterfly subdivision scheme forsurface interpolation with tension control [J].ACM transactions on Graphics(TOG),1990,9(2):160-169.

[11]Sfikas K,Theoharis T,Patikakis I.Exploiting the PANORAMARepresentation for Convolutional Neural Network Classification and Retrieval[J].Eurographics Workshop on 3D Object Retrieval,2017,6:7.

[12]Wu Z,Song S,Khosla A,et al.3D ShapeNets:A Deep Representation forVolumetric Shapes[C].Proceedings of the IEEE conference on Computer Visionand Pattern Recognition.Boston:IEEE,2015:1912-1920.

本领域技术人员可以理解附图只是一个优选实施例的示意图，上述本发明实施例序号仅仅为了描述，不代表实施例的优劣。

以上所述仅为本发明的较佳实施例，并不用以限制本发明，凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。