CN107122396B

CN107122396B - 基于深度卷积神经网络的三维模型检索方法

Info

Publication number: CN107122396B
Application number: CN201710147284.0A
Authority: CN
Inventors: 安勃卿; 史维峰
Original assignee: Northwest University
Current assignee: Northwest University
Priority date: 2017-03-13
Filing date: 2017-03-13
Publication date: 2019-10-29
Anticipated expiration: 2037-03-13
Also published as: CN107122396A

Abstract

本发明公开了基于深度卷积神经网络的三维模型检索算法，该方法采用度量学习算法得到一个欧氏嵌入空间,将手绘草图与模型投影嵌入同一特征空间，在该特征嵌入空间中的欧氏距离可以直接代表草图和模型投影之间的相似度，解决了草图与模型投影图之间的跨域匹配问题。同时设计一种排序机制，使得在该特征空间中同类别图像之间的距离小于不同类别图像之间的距离，可以区分不同类别间的细微差异并且适应同类别不同风格的变体；并且本发明采用卷积神经网络来学习超完备的特征过滤器组组成特征提取器，提取出高级抽象特征，有效的解决了手工设计的低级几何特征描述子的算法泛化能力弱，难以扩展到未知数据集的问题。

Description

基于深度卷积神经网络的三维模型检索方法

技术领域

本发明属于计算机视觉技术领域，涉及基于深度卷积神经网络的三维模型检索的方法。

背景技术

目前三维模型已经在诸如虚拟现实、工业设计、3D游戏和视觉设计等领域广泛应用。随着三维图形建模技术和三维数据获取技术的发展，产生了海量的三维模型数据库。因此，为了充分利用现有的三维模型，帮助用户方便高效的获取符合需求的三维模型，三维检索技术成为当前热点研究问题。

三维模型检索的工作流程是根据用户输入的查询请求，在模型数据库中搜索出相关的模型集合最终反馈给用户。一类算法通过已有三维模型作为输入表达查询意图，但通常用户难以获取合适的现有模型用来查询。另一类算法通过文字描述目标模型来表达查询意图，但用户通常难以用语言精确的描述目标模型，而且模型库通常也没有充分标签化，因此这种算法使用场景也十分有限。人类自从史前时期就已经使用手绘草图来描绘视觉世界了，直至今日，手工绘制草图可能是唯一一种所有人都具备的绘画能力。近期的神经科学研究表明：大脑认知简单抽象的草图的方式和认知真实世界物体的方式相同。因此，手绘草图作为一种方便快捷的交互方式可以更好的表达用户的查询意图。

在基于手绘草图的三维模型检索算法中，用户通过绘制二维草图表达查询意图，而直接匹配二维草图和三维模型十分困难，通常此类检索算法首先根据非真实感渲染技术(Non-Photorealistic Render)在多个视角下渲染出三维模型的二维投影图，将问题映射为单个查询草图和数据库中目标模型生成的若干张投影图之间的相似度匹配问题，然后通过匹配用户输入的草图和模型投影图完成检索。手绘草图及模型投影示意如图2所示。基于手绘草图的三维模型检索具有以下特点及挑战：(1)手绘草图由于经过人脑的艺术加工处理，具有很强的抽象性，而三维模型是参照现实世界中的物体建模产生，具有精确性，从而三维模型的二维投影图也具有与手绘草图不同的写实风格。二者处于不同域，难以直接进行相似度计算，这给相似度度量造成很大挑战，需要检索算法能很好的解决跨域匹配(Cross Domain Matching)问题。(2)手绘草图是二值线条信息，与自然图像相比缺少颜色和纹理信息，不同物体通常被绘制成相似的草图，例如轮胎和甜甜圈绘制成草图后，由于缺乏颜色和细节纹理信息，变得很难区分，这对检索算法区分不同物体之间差异的能力提出极高的要求。(3)由于不同用户的思维方式、领域背景知识和手绘习惯偏好等不同，对同一物体的绘制会产生风格迥异，抽象程度不同，形状外观相去甚远的草图，如图2中对同一模型绘制的草图几何外观差异很大。这就对检索算法对同类模型图像的大量变体有极高的适应性。(4)由于模型数据库规模巨大，为了使检索系统在大规模数据集上有较强的可用性，对检索算法的计算效率提出很高要求。(5)由于算法设计阶段掌握的样本数量有限，当检索系统上线运行时会遇到大量未知样本数据，所以要求算法有较强的泛化能力。

特征提取算法是三维模型检索最重要的环节，特征表达能力的强弱直接影响查询效果。传统的基于手工设计特征描述子的算法都基于一个基本假设：手绘草图和模型及其投影之间的风格差异造成的跨域匹配问题可以很容易的通过手工设计的描述低级几何信息的视觉特征描述子解决。但事实上，在扩展到大规模数据集时，由于手绘草图风格千变万化，模型外观复杂度上升，很难实现通过手工设计的特征描述子来解决跨域匹配问题。同时，手工设计的特征描述子往往泛化能力(generalization ability)弱，难以适应未知数据集，限制了在线查询系统的可扩展性。

本发明的工作和卷积神经网络息息相关。近年来，深度学习在计算机视觉任务上取得了瞩目的成就。特别是深度卷积神经网络不断打破图像识别标准记录，大幅超越手工设计特征描述子的算法。卷积神经网络(CNN)是一种常见的深度学习架构，受生物自然视觉认知机制启发而来。CNN能够以极少的预处理操作学习到图像原始像素的一种高抽象层次的结构化特征表达。CNN通常由卷积层、池化层、各种非线性激活层以及损失函数构成。局部信号首先通过与一组过滤器卷积，进一步经由池化层降采样整合局部信号，减少参数，防止过拟合，再由非线性激活层对信号进行非线性映射，学习到抽象层次高的特征表达。CNN的学习过程采用随机梯度下降法(Stochastic Gradient Descent,SGD)等优化算法。

深度卷积神经网络具有强大的表达能力，可通过深层非线性网络结构，实现复杂函数逼近，学习到输入数据的分布式表示，并具有强大的从少数样本集中学习数据集本质特征的能力。因此，本发明基于深度卷积神经网络设计特征提取器提高检索系统的性能。

发明内容

本发明的目的是针对现有技术的不足，提出一种基于深度卷积神经网络的三维模型检索方法。该方法采用度量学习算法得到一个欧氏嵌入空间,将手绘草图与模型投影嵌入同一特征空间，在该特征嵌入空间中的欧氏距离可以直接代表草图和模型投影之间的相似度，很好的解决了草图与模型投影图之间的跨域匹配问题。同时设计一种排序机制，使得在该特征空间中同类别图像之间的距离小于不同类别图像之间的距离，从而得到健壮的特征表示，可以区分不同类别间的细微差异并且适应同类别不同风格的变体。并且本发明采用卷积神经网络来自动学习超完备的特征过滤器组组成特征提取器，提取出高级抽象特征，该特征除了能够容忍非线性形变之外，在未知数据集上也有很强的泛化能力，有效的解决了手工设计的低级几何特征描述子的算法泛化能力弱，难以扩展到未知数据集的问题。最终，将上述约束形式化为一个统一的目标函数，设计出一个集成化的检索方法。

基于深度卷积神经网络的三维模型检索方法，包括以下步骤：

步骤1，设三维模型数据库M＝{m₁,m₂,...,m_n}；

步骤11，设单位球面三角网格U＝{V,T}，V是三角形顶点集合，T是三角形集合；

步骤12，从三角形顶点集合V中随机选择d个顶点作为种子顶点，所述d个种子顶点组成种子顶点集合Seeds，

步骤131，以Seeds中所有种子顶点作为劳埃德松弛算法的种子，得到d个沃罗诺伊原胞，所述d个沃罗诺伊原胞的中心分别为Cent₁,Cent₂,...,Cent_d；

步骤132，将Seeds中的每个种子顶点分别移动到对应的沃罗诺伊原胞的中心，即令vertex₁＝Cent₁,vertex₂＝Cent₂,...,vertex_d＝Cent_d,所述Seeds中的所有种子顶点移动到对应的沃罗诺伊原胞的中心的距离记为D＝{distance₁,distance₂,...,distance_d},且将D中的最大值记为Max_distance；

步骤133，重复步骤131至步骤132,直到Max_distance<0.01，执行步骤14；

步骤14，将沃罗诺伊原胞的中心Cent_j,j＝1...d作为视角v_j，得到视角集合Views＝{v₁,v₂,...,v_j,...v_d}；

任选三维模型数据库M＝{m₁,m₂,...,m_n}中的任一个三维模型m_i，i＝1,2，…，n，n为大于等于1的自然数；将m_i做归一化处理后，依次采用视角集合Views中的所有视角对三维模型m_i进行线渲染得到的投影图集合其中，为选用视角集合Views中的任一视角v_j，对三维模型m_i进行线渲染得到投影视图，j＝1,2,...d；

步骤15，重复步骤14得到三维模型数据库M＝{m₁,m₂,...,m_n}中所有模型的投影图数据集

步骤2，设手绘草图数据集为S＝{s¹,s²,...,s^a,...,s^k}，a＝1,2，…，k；

步骤21，将S∪P作为GoogLeNet网络的输入，将GoogLeNet网络中的全连接层节点个数设置为模型类别数，将学习率设置为0.01,权重衰减设置为0.0001,动量设置为0.95，以随机梯度下降法作为优化算法，迭代训练GoogLeNet网络得到分类器C(x)；

步骤22，将投影图数据集中的每一个投影图作为分类器C(x)的输入，得到投影图数据集P中所有图像的索引I(key,value)，所述key为投影图数据集P中所有投影图所属类别的编号；设key＝c，c为大于等于1的自然数，投影图数据集P中属于类别c的投影图集合为value为在分类器globalpool层的特征向量组成的集合

步骤3，生成三元组数据集合，包括：

步骤31，任取手绘草图数据集S中的任一手绘草图作为当前手绘草图s^a；

将当前手绘草图s^a输入分类器C(x)得到分类预测分数向量其中，当前手绘草图s^a的预测类别向量为绘草图s^a的预测类别编号，b＝1，2，…,C，C为预测类别总数，C为大于等于1的自然数，表示手绘草图s^a属于类别的概率，

步骤31，设当前手绘草图s^a的类别标签为l^a，l^a∈C^a，将类别标签l^a作为正类标签p^a，从当前手绘草图s^a的预测类别向量中任选5个不同于p^a的标签作为负类标签集合

步骤32，从索引I中得到标记为正类标签p^a的所有投影图的特征向量集合计算当前手绘草图s^a的特征向量C_gp(s^a)与所有正类投影图特征向量的欧氏距离选取其中距离最小的5个投影图作为正样本，得到5个正样本；

步骤331，任选负类标签集合n^a中的任一负类标签作为当前负类标签

从索引I中得到标记为当前负类标签的所有投影图的特征向量集合计算当前手绘草图s^a的特征向量C_gp(s^a)与所有负类投影图特征向量的欧氏距离选取其中距离最小的5个投影图作为负样本；

步骤332，重复步骤331，直至负类标签集合n^a中所有的负类标签都被作为当前负类标签，共得到25个负样本，执行步骤34；

步骤34，将5个正样本和25个负样本组成125个三元组对组成的集合Triplet_a；

步骤35，重复步骤31至步骤34，直至手绘草图数据集S中所有的手绘草图都被作为当前手绘草图，得到三元组集合

步骤4，设三元组集合中的任一三元组其中为三元组中的正样本图片，为三元组中的手绘草图，为三元组中的负样本图片；

步骤41，将三元组中的正样本输入Net^p得到将三元组中的负样本输入Netⁿ得到将三元组中的手绘草图输入Net^g得到

其中，Net^p,Net^g,Netⁿ为构建用于度量学习的卷积神经网络G中包含的三个子卷积神经网络；

步骤42，通过式(1)得到卷积神经网络G的损失函数值L：

式(1)中，N为三元组的数量，α为正样本和负样本之间的间隔；

步骤43，采用随机梯度下降法作为最优化算法，以损失函数值L为目标训练卷积神经网络G，所述卷积神经网络G输出嵌入函数E(x)；

步骤5，包括：

步骤51，将三维模型m_i的投影图集合中的任一张模型投影图作为当前模型投影图

采用嵌入函数E(x)将当前模型投影图嵌入到欧式特征空间中，得到欧式特征空间中的特征点

步骤52，重复步骤51，得到三维模型m_i的投影图集合中所有模型投影图的欧式特征空间中的特征点集合；

步骤53，重复步骤51至步骤52，将三维模型数据库M＝{m₁,m₂,...,m_n}中的所有三维模型都嵌入到欧式空间中，得到三维模型数据库中所有模型投影图的欧式特征空间中的特征点集合。

进一步地，还包括：

步骤6，设待测试手绘草图为x^s；

步骤61，采用嵌入函数E(x)将x^s嵌入到欧式特征空间中，得到x^s在欧式特征空间中的特征点E(x^s)；

步骤62，在欧式特征空间中搜索与测试手绘草图为x^s类别标签相同的投影图特征点集合F，计算F中每个特征点和特征点E(x^s)之间的欧氏距离；

步骤63，选取欧式距离最小的前K个投影图特征点所对应的模型作为与待测试手绘草图x^s最相近的K个模型。

与现有技术相比，本发明具有以下技术效果：

本发明有效的解决了以手绘草图检索三维模型过程中难以实现跨域匹配的问题，通过度量学习方法得到一种辨识度高的特征表达及相应的相似度度量方法。实验表明，相较于其他基于手工设计低级几何特征描述符的算法，本发明的检索性能有很大提升。

附图说明

图1是本发明的流程图；

图2(a)～(e)是属于同一类别的六个手绘草图；(f)是和手绘草图属于同一类别的模型投影示意图；

图3是度量学习神经网络架构图；

图4是嵌入特定样本时网络内部状态示意图；

图5是本发明与其他方法准确率召回率曲线对比图；

图6是学习到的特征空间示意图。

具体实施方式

下面结合附图和实施例对本发明作进一步说明。

实施例1

本实施例提供了基于深度卷积神经网络的三维模型检索方法，包括以下步骤：

步骤1，设三维模型数据库M＝{m₁,m₂,...,m_n}；

本实施例选用SHREC’13数据集；

本实施例所采用的劳埃德松弛算法为：Lloyd S.Least squares quantizationin PCM[J].IEEE transactions on information theory,1982,28(2):129-137.

本实施例计算d个沃罗诺伊原胞的中心所采用的方法为：Berg M D.计算几何:算法与应用[M].邓俊辉,译.北京:清华大学出版社,2009.

步骤133，重复步骤131至步骤132,直到Max_distance<0.01，得到执行步骤14；

本实施例是将沃罗诺伊原胞中心Cent_j,j＝1...d作为摄像机位置，将摄像机指向单位球面U的质心作为视角v_j。

本实施例所采用的线渲染方法为Suggestive contour算法，Decarlo D,Finkelstein A,Rusinkiewicz S,et al.Suggestive contours for conveying shape[J].Acm Transactions on Graphics,2003,22(3):848-855.

步骤21，将S∪P作为GoogLeNet网络的输入，将GoogLeNet网络中的全连接层节点个数设置为模型类别数，以在ImageNet数据集上预训练的GoogLeNet网络的参数初始化权重，将学习率设置为0.01,权重衰减设置为0.0001,动量设置为0.95，以随机梯度下降法作为优化算法，迭代训练GoogLeNet网络得到分类器C(x)；x为一张图像(投影图或草图)数据，分类器的输出为一个c维的向量，c为数据集中模型类别的数量，向量的第b个元素为分类器判断输入的图像x属于第b类的概率值。

本实施例中的GoogLeNet卷神经网络的构建方法为：Szegedy C,Liu W,Jia Y,etal.Going deeper with convolutions[C]//Proceedings of the IEEE

Conference on Computer Vision and Pattern Recognition.2015:1-9.

所构建出的GoogLeNet网络如表1所示：

表1GoogLeNet结构明细表

步骤22，将投影图数据集中的每一个投影图作为分类器的输入，得到投影图数据集P中所有图像的索引I(key,value)，所述key为投影图数据集P中所有投影图所属类别的编号；设key＝c，c为大于等于1的自然数，投影图数据集P中属于类别c的投影图集合为value为在分类器global pool层的特征向量组成的集合

步骤35，重复步骤31至步骤34，直至手绘草图数据集S中所有的手绘草图都被作为当前手绘草图，得到三元组集合该三元组集合中每个元素为一个三元组：(正样本模型投影图，锚点手绘草图，负样本模型投影图)；

步骤4，设三元组集合中的任一三元组其中为三元组中的正样本图片，为三元组中的手绘草图(锚点)，为三元组中的负样本图片；

本实施例中，卷积神经网络G的网络结果如图2所示，每个子卷积神经网络的基础模型都从表1所示的GoogLeNet最后一层softmax去除所得，Net^p,Net^a,Netⁿ三个子网络共享同一组参数，三个子网络的输出都记为f(·)。最终同时使用Net^p,Net^a,Netⁿ三个网络的输出计算损失函数值。

步骤42，通过式(1)得到卷积神经网络G的损失函数值L：

通过最优化算法修正该网络的参数使得L最小化后，该网络即可将输入的图像映射到一个可以完成跨域匹配的特征空间。

本实施例所采用的随机梯度下降法的参考文献为：Bottou L.Large-scalemachine learning with stochastic gradient descent[M]//Proceedings ofCOMPSTAT'2010.Physica-Verlag HD,2010:177-186.训练过程包含2个阶段：

第一阶段是前向传播阶段，将训练样本输入网络的数据层，经过网络中各种隐含层进行逐层变换，逐层映射，直到输出层按照损失函数L计算损失值。

第二阶段是反向传播阶段，用损失值计算各个参数的梯度值，将参数向负梯度方向更新，进一步对整个卷积神经网络的参数进行监督优化。

实施例2

本实施例在实施例1的基础上，还包括：

步骤6，设待测试手绘草图为x^s；

实验结果

实施例1和实施例2选用SHREC'13数据集进行实验，实施例1和实施例2选用的SHREC’13数据集参考文献为：B.Li,Y.Lu,Afzal Godil,Tobias Schreck,Masaki Aono,Henry Johan,Jose M.Saavedra,S.Tashiro,In:S.Biasotti,I.Pratikakis,U.Castellani,T.Schreck,A.Godil,and R.Veltkamp(eds.),SHREC'13Track:Large ScaleSketch-Based 3D Shape Retrieval,Eurographics Workshop on 3D Object Retrieval2013(3DOR 2013):89-96,2013.。

SHREC'13数据集包含1258个三维模型，每个模型配有80张手绘草图，共有90个类别，每个类别下的模型数量是不均匀的。本次实验用MXNET深度学习库实现所有卷积神经网络的训练过程。训练时间和三元组数据对的数量以及训练纪元(epoch)有关，在SHREC'13数据集上，共生成787500组三元组训练数据和112500个测试数据对。经过30次迭代过程结束网络的训练。本发明实验的机器配置为Intel Core-i5-6600K 3.2Hz CPU、16GB内存、Nvidia GTX 1060 6GB GPU×2、CUDA v8.0、CuDNN v5.1、MXNET v0.9.3、Ubuntu16.04操作系统。本发明提出的卷积神经网络是用MXNET深度学习库实现的。在预先计算所有模型投影的特征后，每张草图的查询处理时间平均大约为0.002秒，说明本发明设计的算法有较高的可用性。

本发明的算法模型在常见的类别上表现良好，例如桌子，人脸，树木等。通过观察发现算法对一些相似草图的查询结果也很准确，比如骷髅头和人脸草图，只有细节不同，而本发明算法依然能正确区分出来，反映了本发明算法学习到的特征空间满足了同类特征间在嵌入空间距离近，而不同模型之间的特征在特征空间中距离远，证实了度量学习的有效性，反映出算法对模型的辨识度较高。

在图5中，展示了本发明算法与SHREC'13数据集上其他算法的查准率-查全率曲线比较。从图5中可见本发明的算法大幅超越其他基于手工设计特征描述子的算法。这是由于本发明算法采用表达能力强的深度卷积神经网络模型作为特征提取器，提取出了高级抽象视觉特征，而不是手工设计的描述子提取出的低级几何特征。

在查全率(recall)较小时，本发明算法相对于SHREC'13最好结果的性能提升将近30％。在查全率逐渐增大的过程中，整个曲线下降的速度相较于其他算法更缓慢，说明本发明算法有更强的稳定性。当查准率增加到1时，本发明算法的查准率相较于其他算法有将近5％的提升。

表2查询性能评价指标对比

表2展示了本发明算法的其他查询性能评价指标与现有方法的对比结果。其中，NN即Nearest Neighbor,代表了查询结果的top-1精确度。由表中可见，本发明算法的NN指数相较于对照方法有很大的提高，说明本发明方法对用户查询意图的把握更为精准，查询结果质量高。由于对照方法是无监督的，本发明算法在选择三元组时使用了监督学习方法，利用了模型的语义标签信息，所以结果有了较大提升。说明将几何视觉信息以外的语义信息融合进特征表达对检索性能的提升有很大帮助。FT即First Tier,假设有C个相关模型，FT是检索的top-C召回率。相似的ST即Second Tier代表top-2C召回率。这两个指标从不同程度上说明了本发明方法的查询结果质量较高。由于大多数用户只关注搜索结果的第一页，E-Measure是对top-32结果的查准率和查全率综合考虑的指标。它反映了查询结果第一页的查全率和查准率。计算方法如下:

DCG是Discounted Cumulated Gain，该指标的设计动机是用户关注相关模型在查询列表里出现的位置，因为用户希望相关模型排在靠前的位置。DCG被定义为相关模型位置的正则化累积值。为了计算DCG，首先将查询列表R转换为一个向量G,当R_i是相关模型的时候G_i＝1,否则G_i＝0。然后根据公式:

计算出DCG。由表2可见本发明的查询结果中相关模型的排序也是很靠前的，说明本发明算法学习到的相似度度量有很强的鲁棒性。

由于训练数据量较少，在训练过程结束时发现，模型训练过程存在一定的过拟合现象。这表明算法性能有进一步提升的空间，可以通过微调参数以及增大训练数据量对算法调优。

图4是对学习到的特征进行可视化展示。本发明算法提取的视觉特征的抽象程度随着网络层次的加深而提高。同时，可见训练的卷积神经网络中包含了一组过完备的多尺度不同抽象程度的过滤器组，能够提取到不同尺度的多种视觉特征。而手工设计的特征描述子过滤器数量有限，所以相对能提取出的特征种类也有限。另外，卷积神经网络中的过滤器参数是由数据驱动直接调整得到的，而手工设计的特征描述子是通过先验知识设计过滤器参数的，显然通过数据驱动方式训练的过滤器对数据的适应性更强。

如图6所示，将草图和投影图混合，随机选择5000个对应的学习到的特征向量，特征向量的维度是1024,使用PCA算法降维到2维进行可视化。图6中，数据点是草图和投影图对应的特征点，为了更直观的展现效果，随机挑选若干个数据点，将其对应的模型的视图绘制在点云上以便观察。可以看出，相似模型的特征点自然聚合在一起，例如右下角飞机模型类和左上角汽车模型类等。本发明算法是一种弱监督学习方法，图中的分布说明了学习到的特征表达对于域内匹配和跨域匹配都有很好的适应性。所以，本发明算法通过度量学习学到的特征表达符合前文所述的性质，即在该特征空间中，欧氏距离可以直接代表样本的相似度，同类模型的特征点之间的欧氏距离小，而不同模型特征点之间欧氏距离大，很好的解决了难以跨域匹配的问题。

Claims

1.基于深度卷积神经网络的三维模型检索方法，其特征在于，包括以下步骤：

步骤1，设三维模型数据库M＝{m₁,m₂,...,m_n}；

步骤22，将投影图数据集中的每一个投影图作为分类器C(x)的输入，得到投影图数据集P中所有图像的索引I(key,value)，所述key为投影图数据集P中所有投影图所属类别的编号；设key＝c，c为大于等于1的自然数，投影图数据集P中属于类别c的投影图集合为value为在分类器global pool层的特征向量组成的集合

步骤3，生成三元组数据集合，包括：

步骤42，通过式(1)得到卷积神经网络G的损失函数值L：

步骤5，包括：

步骤51，将三维模型mi的投影图集合中的任一张模型投影图作为当前模型投影图

步骤52，重复步骤51，得到三维模型mi的投影图集合中所有模型投影图的欧式特征空间中的特征点集合；

2.如权利要求1所述的基于深度卷积神经网络的三维模型检索方法，其特征在于，还包括：

步骤6，设待测试手绘草图为x^s；