CN111078913A

CN111078913A - 基于多视图卷积神经网络的三维模型检索方法

Info

Publication number: CN111078913A
Application number: CN201911296893.8A
Authority: CN
Inventors: 刘安安
Original assignee: Tianjin Yuntai Technology Co Ltd
Current assignee: Tianjin Yuntai Technology Co Ltd
Priority date: 2019-12-16
Filing date: 2019-12-16
Publication date: 2020-04-28

Abstract

本发明公开了一种基于多视图卷积神经网络的三维模型检索方法，所述方法包括：采用最大池化层合并多个视图特征，再用基于长短期记忆网络的注意力机制动态地计算特征矩阵每个位置的权重，将特征矩阵上的元素进行加权求和从而得到三维模型的特征，通过反向传播算法最小化损失函数学习到最优的权重矩阵；权重矩阵和注意力得分由神经网络自动更新，神经网络训练结束后，将特征进行加权求和，得到三维模型的最终特征描述符；神经网络通过隐藏状态输出单个三维模型的最终特征描述符，根据欧式距离算出与查询模型距离较近的数据库中的其他三维模型从而完成检索任务。本发明可以在视觉域和空间域中挖掘多个视图之间的上下文信息，所提取的三维模型特征也更具鉴别性与显著性，从而提高了检索精度。

Description

基于多视图卷积神经网络的三维模型检索方法

技术领域

本发明涉及多视图三维模型检索领域，尤其涉及一种基于多视图卷积神经网络的三维模型检索方法。

背景技术

随着三维数据的爆炸式增长、三维重建技术^[1]的快速发展和三维设备的广泛应用，近年来三维对象检索^[2]和分类^[3]的重要性日益提高。三维模型在医学诊断、智能机器人、自动驾驶汽车等领域也有着广泛的应用。与文本和图像相比，三维对象^[4]不易处理，在互联网上存在着万亿个三维对象，如何有效地获取所需的三维对象成为一项重要且具有挑战性的任务。因此，如何实现快速有效的三维对象检索成为一个亟待解决的问题。

目前三维模型检索主要有两大类^[5]：第一类是基于文本进行三维模型检索，另外一类基于三维模型的内容检索。在第一类中，基于文本的检索算法通常做法是输入文本信息来搜索模型。由于文本所能承载的信息量过少，不能准确并充分的描述出三维模型的结构、纹理等关键性信息。第二类是基于内容的检索，基于内容的三维模型检索是针对模型的特征信息进行检索。一般步骤是：采用一些算法处理提取三维模型的拓扑结构^[6]、几何形状^[7]等特征，然后与数据库中其他模型的相关特征进行相似度计算。根据特征提取方式的不同，基于内容的三维模型检索可以分为基于模型和基于视图两种^[8]：而基于模型的检索要求每个三维模型必须具有清晰完整的空间和结构信息，这限制了基于模型检索的实际应用。近些年来，因为神经网络在图像领域的杰出表现，人们把视线转向基于视图的检索。三维模型检索领域目前面临的主要挑战为^[9]：如何挖掘出最具鉴别性的特征矩阵去描述三维模型。

基于视图的三维模型检索方法领域目前面临的挑战主要有两个方面^[10]：

1、多视图特征融合方式的选择，当通过二维卷积神经网络得到三维模型的多个视图特征后，如何去有效的将多个视图特征合并成为一个三维模型特征。

2、如何去挖掘三维模型多视图之间的相关信息，单个视图信息是有限的，而多个视图之间的上下文信息也是需要去探索的。

发明内容

本发明提供了一种基于多视图卷积神经网络的三维模型检索方法，本发明可以在视觉域和空间域中挖掘多个视图之间的上下文信息，所提取的三维模型特征也更具鉴别性与显著性，从而提高了检索精度，详见下文描述：

一种基于多视图卷积神经网络的三维模型检索方法，所述方法包括：

将每个三维模型沿着固定坐标轴垂直放置，将12个虚拟摄像机以θ＝30°为间隔围绕模型进行虚拟拍照，虚拟摄像机指向三维模型的质心后与地平面成30度的夹角，得到单个三维模型的十二个视图后，即可构成多视图模型数据库；

采用最大池化层合并多个视图特征，再用基于长短期记忆网络的注意力机制动态地计算特征矩阵每个位置的权重，将特征矩阵上的元素进行加权求和从而得到三维模型的特征，通过反向传播算法最小化损失函数学习到最优的权重矩阵；权重矩阵和注意力得分由神经网络自动更新，神经网络训练结束后，将特征进行加权求和，得到三维模型的最终特征描述符；

神经网络通过隐藏状态输出单个三维模型的最终特征描述符，根据欧式距离算出与查询模型距离较近的数据库中的其他三维模型从而完成检索任务。

其中，所述方法还包括：

将多视图模型数据库按照7：2：1的比例划分为训练集、测试集和验证集。

进一步地，所述权重矩阵具体为：

其中，

e_i＝w^Ttanh(U_vh_t-1+A_vv′_i+b_v)

w,U_v,A_v,b_v分别代表变换矩阵，前一时刻的隐藏状态h_t-1的权重矩阵，v′_i的权重矩阵以及偏置向量；a_i即为特征矩阵v′对应的权重，也是特征的注意力得分。

本发明提供的技术方案的有益效果是：

1、本方法利用LSTM设计了一个针对三维模型视图序列特征的注意力机制，不仅可以使网络在模型一些重要的特征上自动学到更大的权重，还能挖掘视图序列之间的上下文关联信息，从而使得最终输出的三维模型特征更加具有显著性与鉴别性；

2、本方法针对基于多视图卷积神经网络的三维模型检索设计了全新的网络结构；

3、本方法大幅提高了模型检索的精度和效率，改善了传统方法针对多视图特征融合而导致信息缺失的问题。

附图说明

图1为一种基于多视图卷积神经网络的三维模型检索方法的流程图；

图2为单个目标经过虚拟拍照后得到多视图的示意图；

图3为基于多视图卷积神经网络的三维模型检索的查准-查全曲线的示意图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚，下面对本发明实施方式作进一步地详细描述。

实施例1

一种基于多视图卷积神经网络的三维模型检索方法，参见图1，该方法包括以下步骤：

101：假设数据库中的每个三维模型沿着固定轴(例如，z轴)垂直放置，将12个虚拟摄像机以θ＝30°为间隔围绕模型进行虚拟拍照，这些虚拟摄像机指向三维模型的质心后与地平面成30度的夹角，得到单个三维模型的十二个视图后，即可构成多视图模型数据库；

102：将多视图模型数据库按照7：2：1的比例划分为训练集、测试集和验证集，训练过程中通过反向传播算法最小化损失函数并不断更新网络参数；

103：网络训练结束后，神经网络通过隐藏状态h_t输出单个三维模型的特征，根据欧式距离算出与查询模型距离较近的数据库中的其他三维模型从而完成检索任务。

综上所述，本发明针对基于多视图卷积神经网络的三维模型检索任务设计了全新的网络结构，充分挖掘三维模型的多视图之间的上下文信息，使得模型特征更加具有显著性，提高了模型检索的精度和效率。

实施例2

下面结合具体的实例、计算公式对实施例1中的方案进行进一步地介绍，详见下文描述：

201：将ModelNet40^[11]数据库中的每个三维模型沿着固定轴(例如，z轴)垂直放置，将十二个虚拟摄像机以θ＝30°为间隔围绕模型进行虚拟拍照，这些虚拟摄像机指向三维模型的质心后与地平面成30度的夹角。得到单个三维模型的十二个视图后，即可构成多视图模型数据库；

其中，上述步骤201主要包括：

预定义一组视点，视点即为观测目标物体的视点，设L为预定义视点的数量，在本发明实施例中，L取为12。将十二个虚拟摄像机以θ＝30°为间隔围绕模型进行虚拟拍照，这些虚拟摄像机指向三维模型的质心后与地平面成30度的夹角。将

记作单个目标的所有视图的集合，其中v_i为ModelNet40数据库中单个训练样本的第i个视图。

将数据库中所有物体进行投影，每个目标得到12个视图，所有目标的12个视图即构成了多视图模型数据库。以ModelNet40为例，ModelNet40是由普林斯顿大学收集构建的三维模型数据库，主要有12311个CAD三维模型，将数据库中的每个模型进行投影，即可以得到147732个视图，构成了多视图模型数据库。图2为从多视图模型数据库中取的某单个模型，经过虚拟拍照后的多视图示意图。

202：将上述得到的多视图模型数据库按照7：2：1的比例划分为训练集、测试集和验证集，训练集主要用于神经网络模型参数的设定，验证集主要用于调整神经网络模型中的超参数，而测试集则用于判定一个网络的好坏。

得到每个三维模型的12个视图后，将这12个视图分别传进2D卷积神经网络进行训练，在本发明实施例中，选择AlexNet卷积神经网络作为2D卷积神经网络。接着提取该网络的第五个卷积层作为每个视图的特征矩阵v′，这样就得到了v′＝{v′₁,v′₂,...,v′_L,}。接下来采用最大池化层合并多个视图特征，具体做法是将12个二维特征矩阵堆叠在一起，在每个通道上取最大值，从而可将多个视图特征合并成一个二维的特征矩阵，再用基于长短期记忆网络(LSTM)的注意力机制动态地计算特征矩阵每个位置的权重，将特征矩阵上的元素进行加权求和从而得到三维模型的特征，其中LSTM模块主要包括一个隐藏状态(h_t)和内部存储状态(c_t)。隐藏状态和存储状态之间的相关性计算：

代表内部元素对应相乘。而o_t的计算公式为：

其中，σ是一个logistic函数，U₀是前一时刻的隐藏状态h_t-1的权重矩阵，A₀是函数φ(v′_i,a_i)的权重矩阵，b₀是偏置向量。

c_t的计算公式为：

c_t＝tanh(U_ch_t-1+A_cφ(v′_i,a_i)+b_c

其中，U_c是前一时刻的隐藏状态h_t-1的权重矩阵，A_c是函数φ(v′_i,a_i)的权重矩阵，b_c是偏置向量。其中φ(v′_i,a_i)的计算公式如下：

e_i＝w^Ttanh(U_vh_t-1+A_vv′_i+b_v)

其中，w,U_v,A_v,b_v分别代表变换矩阵，前一时刻的隐藏状态h_t-1的权重矩阵，v′_i的权重矩阵以及偏置向量。a_i即为特征矩阵v′对应的权重，也是特征的注意力得分。

以往的三维模型特征学习过程中并没有对特征进行分配权重，通常做法是采用视图合并层，对视图特征取最大值或者平均值。本方法设计出对特征自动学习权重的模块称为注意力机制，训练时通过模型参数的不断更新，神经网络能在模型一些重要的特征上自动学到更大的权重(注意力得分)。

因为是有监督的学习，神经网络可以通过反向的梯度传播更新参数，学习到最优的权重矩阵。φ(v′_i,a_i)的计算公式是用于给特征分配权重，权重矩阵和注意力得分由神经网络自动更新，神经网络训练结束后，将特征进行加权求和，就可以得到三维模型的最终特征描述符。通过加权得到的特征更具代表性、显著性，能考虑到不同视角下的三维模型所包含的鉴别性信息的不同从而更好地挖掘三维模型的空间性信息。网络最后输出隐藏状态h_t作为三维模型的最终特征描述符。

203：得到三维模型的最终特征向量后，通过计算该特征与数据库其他三维模型特征之间的欧式距离，将距离较近的模型检索出来即可。计算公式为：

综上所述，本发明不是单纯的将视图特征整合成一个三维模型描述符，通过设计引入特征空间注意力机制从而使得方法可以在视觉和空间域中挖掘多个视图之间的上下文信息；得到单个三维模型的十二个视图后，即可构成多视图模型数据库；将多视图模型数据库按照7：2：1的比例划分为训练集、测试集和验证集；本方法创新之处就在于得到合并的视图特征后，设计了一个基于长短期记忆网络(LSTM)的注意力机制动态地计算特征矩阵每个位置的权重，将特征矩阵上的元素进行加权求和后更新网络参数反复迭代从而得到三维模型的特征，提高了模型检索的精度和效率。

实施例3

下面结合具体的试验对实施例1和2中的方案进行可行性验证，详见下文描述：

图3对本实施例中的方案进行了可行性验证，采用查全率-查准率来衡量本方法的性能，它分别以查全率(Recall)和查准率(Precision)作为x轴和y轴，根据以下公式即可得到：

其中，Recall为查全率，K_z为检索结果中与查询模型同类别的数量，K_r数据库中所有与查询模型同类别的三维模型的数量。

其中，Precision为查准率，K_all是是检索结果中所有的三维模型的数量。

一般而言，查全率-查准率曲线越靠近右上方，与坐标轴围成的面积越大，算法性能越好。由图3可知，查全率-查准率与坐标轴围成的面积在0.5以上，较之于传统的算法(面积在0.4以下)，本发明设计的算法在检索精度上有着较大的提高。

参考文献：

[1]S Jeannin，S Jeannin.MPEG7 Visual part of eXperimentation ModelVersion 7[J].ISO/IEC JTC1/SC29/WG11 N，2001,3914.

[2]张飞.三维模型特征提取和相关反馈算法研究与实现[D].西北大学,2010.

[3]刘小明.基于适应加非对称AdaBoost HMM的三维模型分类方法[J].浙江大学学报，2006

[4]Kider J T.Simulation of 3D model,shape,and appearance aging byphysical,chemical,biological,environmental,and weathering effects[J].Dissertations&Theses-Gradworks,2012.

[5]Renu RS,Mocko G.Computing similarity of text-based assemblyprocesses for knowledge retrieval and reuse[J].Journal of ManufacturingSystems,2016,39:101-110.

[6]Kumar M.Strategy for Design and Building Multimedia Data Type[J].International Journal of Computer Applications,2013,73(4):50-52.

[7]Yang Y,Lin H,Zhang Y.Content-based 3-D model retrieval:asurvey.Systems,Man,and Cybernetics[C],Part C:Applications and Reviews,IEEETransactions on,2007,37(6):1081-1098.

[8]Guetat G,Maitre M,Joly L,et al.Automatic 3-D grayscale volumematching and shape analysis[J].Information Technology in Biomedicine IEEETransactions on,2006,10(2):362-376.

[9]俞晓妮.基于特征提取的三维模型检索技术研究[J].科技传播,2014,(2).

[10]Chen Y,Medasani S,Jiang Q,et al.Video content-based retrieval[J].2016.

[11]Z.Wu,S.Song,A.Khosla,F.Yu,L.Zhang,X.Tang,and J.Xiao.3d shapenets:A deep representation for volumetric shapes.In Proceedings of IEEE Conferenceon Computer Vision and Pattern Recognition(CVPR),2015

本发明实施例对各器件的型号除做特殊说明的以外，其他器件的型号不做限制，只要能完成上述功能的器件均可。

本领域技术人员可以理解附图只是一个优选实施例的示意图，上述本发明实施例序号仅仅为了描述，不代表实施例的优劣。

以上所述仅为本发明的较佳实施例，并不用以限制本发明，凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种基于多视图卷积神经网络的三维模型检索方法，其特征在于，所述方法包括：

2.根据权利要求1所述的一种基于多视图卷积神经网络的三维模型检索方法，其特征在于，其特征在于，所述方法还包括：

3.根据权利要求1所述的一种基于多视图卷积神经网络的三维模型检索方法，其特征在于，其特征在于，所述权重矩阵具体为：

其中，

e_i＝w^T tanh(U_vh_t-1+A_vv′_i+b_v)

w,U_v,A_v,b_v分别代表变换矩阵，前一时刻的隐藏状态h_t-1的权重矩阵，v_i′的权重矩阵以及偏置向量；a_i即为特征矩阵v′对应的权重，也是特征的注意力得分。