CN112085072A

CN112085072A - 基于时空特征信息的草图检索三维模型的跨模态检索方法

Info

Publication number: CN112085072A
Application number: CN202010854244.1A
Authority: CN
Inventors: 白静; 周文惠; 拖继文; 秦飞巍
Original assignee: North Minzu University
Current assignee: Chongqing Boshi Intellectual Property Service Co ltd
Priority date: 2020-08-24
Filing date: 2020-08-24
Publication date: 2020-12-15
Anticipated expiration: 2040-08-24
Also published as: CN112085072B

Abstract

本发明公开了一种基于时空特征信息的草图检索三维模型的跨模态检索方法，该方法是先进行数据选取，然后构建草图‑三维模型图像序列和时空特征信息提取网络，使用时空特征信息提取网络提取草图和三维模型的时空特征信息，再使用深度度量学习实现草图和三维模型的时空特征信息联合，最后根据时空特征信息联合中草图和三维模型的时空特征信息的欧式距离进行相似度计算。本发明检索性能突出，可有效完成草图检索三维模型的跨模态检索，有着更好的准确度，操作简单，实用性强。

Description

基于时空特征信息的草图检索三维模型的跨模态检索方法

技术领域

本发明涉及计算机图形学、计算机视觉与智能识别的技术领域，尤其是指一种基于时空特征信息的草图检索三维模型的跨模态检索方法。

背景技术

随着计算机辅助设计与计算机视觉的快速发展,三维物体作为一种重要的数据类型成为了继声音、图像与视频之后信息的主要载体之一,在工业制造,虚拟现实和增强现实等领域有着广泛的应用。如何有效识别和检索三维模型是诸多应用的研究基础,成为研究学者关注的课题,手绘草图易于构建,非常直观,且不受地域、专业、年龄等外在因素影响,在人类历史中一直被当作一种非常有效的交流手段.近些年来,随着便携式触屏设备的普及,手绘草图数据变得易于获取,基于手绘草图的三维模型检索成为新的研究方向。

然而，在基于草图的三维模型检索领域中，三维模型和草图之间存在着巨大的域间差异性:三维模型数据是现实世界的客观表征或虚拟世界的数字化模型,具有表征准确、具体的,数据维度高、非结构化等特性；而草图是用户的一种主观表达,往往由表征物体全局属性的简单线条组成,强调整体结构和突出特点,具有稀疏性和全局性等特性。因而,基于手绘草图的三维模型检索仍然非常困难.根据检索工作内容可以将现有工作的检索过程分为跨域数据的初始表征、特征嵌入和相似度计算三个步骤,在跨域数据的初始表征中将草图数据和三维模型数据进行数据表征,从而使数据特征完整的被表示.在特征嵌入阶段通常将草图域和三维模型域的特征数据使用度量学习进行特征嵌入,与此同时使得特征嵌入空间中相同类的特征数据距离拉近不同类特征距离推远.相似度计算阶段通过使用欧式距离完成草图域和视图域特征的相似度计算。现有的方法往往将数据特征看作一幅静态图像,使用经典的CNN(Convolutional Neural Network，卷积神经网络)对进行特征表示,然而这种方法只考虑到数据特征的空间信息却忽略了数据特征的时序信息,一定程度影响检索效果.

在现有的检索工作中,跨域数据的初始表征部分研究者们只提取到了特征数据的空间信息,如刘等人使用AlexNet[Liu Yujie,Song Yang,Li Zongmin,et al.Sketch-based 3D shape retrieval with representative view and convolutional neuralnetwork[J].Journal of Graphics,2018,39(4):735-741(in Chinese)(刘杰,宋阳,宗,等.融合信息熵和CNN的基于手绘的三维模型检索[J].图学学报,2018,39(4):735-741)],Chen等人使用ResNet[[7]Chen J,Fang Y.Deep cross-modality adaptation via se-mantics preserving adversarial learning for sketch-based 3d shape retrieval[C]//Proceedings of the European Confer-ence on Computer Vision(ECCV).2018:605-620],Qi等人使用Inception-ResNet-v2[[8]Qi A,Song Y Z,Xiang T.SemanticEmbedding for Sketch-Based 3D Shape Retrieval[C]//BMVC.2018,2(7):8]提取草图初始特征。由于CNN本是针对自然图像设计的,旨在获取图像中有判别性的纹理特征,而手绘草图较为抽象,仅由简单线条构成,缺乏颜色和纹理信息,因此仅使用CNN对草图进行特征提取效果还不够理想.此外,草图的绘制是一个动态过程,仅仅使用CNN的算法往往忽略了草图绘制过程中所包含的时序信息,造成有益信息的损失,这也进一步影响了草图特征提取的效果.

考虑到三维模型的非结构化特性,在三维模型草图检索中,研究者们往往将三维模型转换为一个或一组代表性视图,从而降低跨域匹配的难度.如刘等人提出基于视图信息熵选择一张代表性视图表征三维模型[Liu Yujie,Song Yang,Li Zongmin,etal.Sketch-based 3D shape retrieval with representative view and convolutionalneural network[J].Journal of Graphics,2018,39(4):735-741(in Chinese)(刘杰,宋阳,宗,等.融合信息熵和CNN的基于手绘的三维模型检索[J].图学学报,2018,39(4):735-741)],保证检索效果的同时简化了网络结构.由于草图并不对应三维模型某一个固定视角的视图,因而最佳视图的构建是极其困难的.为此,Wang[Wang F,Kang L,Li Y.Sketch-based 3d shape retrieval using convolutional neural networks[C]//Proceedingsof the IEEE Conference on Computer Vision and Pattern Recognition.2015:1875-1883]等人提出针对竖直摆放的三维模型随机选择两个大小间隔超过45度的投影视图表征三维模型；Xie等人则提出使用多张视图表征三维模型,并最终采用瓦瑟斯坦重心融合多视图特征[Xie J,Dai G,Zhu F,et al.Learning barycentric representa-tions of 3dshapes for sketch-based3d shape retriev-al[C]//Proceedings of the IEEEConference on Computer Vision and Pattern Recognition.2017:5068-5076].以上工作,无论是一张或多张视图,当三维模型的摆放角度较差时,都难以保证信息的完整性.针对这一问题,Chen等人提出了围绕三维模型的包围球渲染多张视图的表征方式[[Chen J,Qin J,Liu L,et al.Deep sketch-shape hashing with segmented 3D stochasticviewing[C]//Proceedings of the IEEE Conference on Computer Vision and PatternRecog-nition.2019:791-800.]:通过在球体的K个空间段随机采样获取视图,并使用注意力网络对多张视图赋予不同权重,捕获到信息完整、冗余小且互补的多张视图,进一步提高了表征效果.以上方法为三维模型的多视图表征做出了有益尝试,取得了良好效果.然而,三维模型的多个视图之间是存在位置次序的,而现有方法独立看待每个视图,忽略了这种相关性,势必会造成一定程度的信息损失.

在特征跨域嵌入部分，部分基于草图的三维模型检索方法在完成三维模型和草图的初始特征提取后,直接进行相似评价.如刘等人在利用CNN提取草图和三维模型的特征后,便采用最小距离法进行相似评价[Liu Yujie,Song Yang,Li Zongmin,et al.Sketch-based 3D shape retrieval with representative view and convolutional neuralnetwork[J].Journal of Graphics,2018,39(4):735-741(in Chinese)(刘杰,宋阳,宗,等.融合信息熵和CNN的基于手绘的三维模型检索[J].图学学报,2018,39(4):735-741)].然而由于没有充分考虑跨域数据之间的差异性,这类方法的检索效果不够理想.

更多的特征潜入方法使用度量学习将草图和三维模型的初始特征嵌入到一个公共空间中,以使得特征空间中同类数据(同域和跨域)的距离更近,异类数据的距离更远.如,Wang等人使用二元度量学习网络Siamese,迫使跨域同类数据之间的距离足够近,完成跨域数据的表征和嵌入[Wang F,Kang L,Li Y.Sketch-based 3d shape retrieval usingconvolutional neural networks[C]//Proceedings of the IEEE Conference onComputer Vision and Pattern Recognition.2015:1875-1883].Qi等人[Qi A,Song Y Z,Xiang T.Semantic Embedding for Sketch-Based 3D Shape Retrieval[C]//BMVC.2018,2(7):8]、白等人[J.Bai,M.Wang,and D.Kong,Deep Common Semantic Space Embeddingfor Sketch-Based3D Model Retrieval,Entropy,vol.21,no.4,pp.369,2019]则同时考虑同类数据和异类数据之间的关系,提出基于三元度量学习(Triplet Loss)的跨域数据嵌入,取得了很好的效果.然而,基于三元度量学习(Triplet Loss)的方法需要考虑每一对正负样本组合,网络训练费时且困难.

发明内容

本发明的目的在于克服现有技术没有考虑到草图和三维模型数据的时序动态特征信息的缺点与不足，提出了一种基于时空特征信息的草图检索三维模型的跨模态检索方法，该方法的检索性能突出，可有效完成草图检索三维模型的跨模态检索，有着更好的准确度，操作简单，实用性强。

为实现上述目的，本发明所提供的技术方案为：基于时空特征信息的草图检索三维模型的跨模态检索方法，所述时空特征信息包括时序动态特征信息和空间静态特征信息；该方法是先进行数据选取，然后构建草图-三维模型图像序列和时空特征信息提取网络，使用时空特征信息提取网络提取草图和三维模型的时空特征信息，再使用深度度量学习实现草图和三维模型的时空特征信息联合，最后根据时空特征信息联合中草图和三维模型的时空特征信息的欧式距离进行相似度计算；其包括以下步骤：

S1、数据选取

数据集选用草图检索三维模型的标准数据集SHREC2013、SHREC2014，每个数据集包括三维模型数据和草图数据两个部分，分别针对两个数据集划分训练数据集和测试数据集；

S2、构建草图-三维模型图像序列

构建的草图-三维模型图像序列包含草图图像序列和三维模型图像序列；针对步骤S1所选取的两个数据集的草图数据部分，根据草图绘制的笔画顺序构建草图图像序列；针对步骤S1所选取的两个数据集的三维模型部分，根据三维模型的投影顺序获得三维模型图像序列；

S3、构建时空特征信息提取网络

构建的时空特征信息提取网络由卷积神经网络和循环神经网络组成，所述时空特征信息提取网络通过训练数据集完成训练后，再使用测试数据集进行测试，在进行时空特征信息提取时，所述时空特征信息提取网络是使用卷积神经网络提取草图-三维模型图像序列中单个图像的空间静态特征信息，使用循环神经网络提取草图-三维模型图像序列的时序动态特征信息，再将提取的空间静态特征信息和时序动态特征信息串行连接，完成时空特征信息的有效融合；

S4、时空特征信息联合

引入深度度量学习进行草图和三维模型的时空特征信息联合，确保在时空特征信息联合中草图和三维模型这两种跨域数据的相同类别的欧式距离小于不同类别的欧式距离，以符合草图检索三维模型这一跨模态数据检索的特性；

S5、相似度计算

在相似度计算中，计算测试数据集的草图和三维模型的时空特征信息在时空特征联合中的欧式距离，并将得到的欧式距离进行排序完成检索过程，最后使用三维模型检索领域通用的评价指标作为检索的评价标准；其中，对于相同类别的草图和三维模型，在时空特征信息联合中的时空特征信息距离趋近。

在步骤S1中，所述SHREC2013包含90个类、7200张草图和1258个三维模型，各个类中的三维模型数量不等，最少的只有4个，最多的则有184个，各个类中的草图数目均为80，实验中，针对每个类，50个草图用作训练，30个草图用作测试，1258个三维模型则全部作为检索对象；所述SHREC2014包含171个类、13680张草图和8978个三维模型，各个类中的三维模型数量最少的少于10个，最多的则多于300个，各个类中的草图数目也为80，实验中，针对每个类，50个草图用作训练，30个草图用作测试，8978个三维模型则全部作为检索对象。

在步骤S2中，所述草图图像序列的选取范围为2～4张；针对步骤S1所选取的两个数据集的三维模型部分，将三维模型水平放置后选取预设角度对三维模型进行顺序视图投影，根据其投影顺序选取4～12张视图完成对三维模型图像序列的构建。

在步骤S3中，所述卷积神经网络选用网络权值共享的残差网络(ResNet，ResidualNetwork)提取输入草图-三维模型图像序列的空间静态特征，所述循环神经网络选用网络权值共享的长短期记忆网络(LSTM，Long Short-Term Memory)进行时序动态特征的提取，其中，所述长短期记忆网络中每个网络模块由三个不同的门控单元构成，分别为遗忘门、输入门和输出门，门控单元介绍如下：

遗忘门，决定了上一时刻的单元状态有多少保留到当前时刻的网络模块；

输入门，决定了当前时刻网络的输入有多少保存到单元状态；

输出门，能够控制单元状态有多少输出到的当前输出值。

在步骤S4中，使用深度度量学习对草图和三维模型进行时空特征信息联合，以使草图和三维模型的时空特征信息联合具有相同类别的时空特征信息欧式距离相近，不同类别的时空特征信息欧式距离变远的特点；在深度度量方法中选择了三元中心损失(Triplet-center Loss)的方法，将草图和三维模型的样本统称为xⁱ，则输入样本xⁱ与其类中心C_i的距离D^p为：D^p＝D(R(xⁱ),C_i)，与其它类中心C_j的距离Dⁿ为Dⁿ＝D(R(xⁱ),C_j)，其中，R(xⁱ)为样本xⁱ在步骤S3中的特征提取操作，要求输入样本与同类样本在时空特征联合中欧式距离近，到其它类样本在时空特征联合中欧式距离远，等价于输入样本与同类样本中心之间的欧式距离小于到其它类样本中心的欧式距离，即minDⁿ＞D^p，引入决策边界α，α>0，则能够进一步转化为minDⁿ-D^p＞α，为此，设定一个批次的样本数目为M，i为选取样本的编号，i的取值范围为1～M，∑为遍历求和操作，则三元中心损失的损失函数L_t-c定义为：

为了在训练过程中更好地找到各个类的类中心，建立更加鲁棒的损失函数，在三元中心损失L_t-c的基础上考虑交叉熵损失L_softmax，形成最终损失L_total：

L_total＝w₁L_t-c+w₂L_softmax

其中，w₁和w₂为权重，旨在平衡度量损失和分类损失在整个分类中所占的比重。

在步骤S5中，对测试数据集部分的草图和三维模型的时空特征信息进行相似度计算，设i、j分别表示为草图和三维模型中的不同类别，当类别为i时，设草图和三维模型的样本统称为xⁱ，设R(xⁱ)为样本xⁱ在步骤S3中的特征提取操作，C_j是类别为j时草图和三维模型样本在步骤S4中时空特征信息联合的类别中心，||||为绝对值操作，则计算草图和三维模型的时空特征信息在时空特征信息联合中的欧式距离D(R(xⁱ),C_j)定义为：

最后，将得到的欧式距离进行排序操作，即可完成基于时空特征信息的草图检索三维模型的跨模态检索过程，并使用三维模型检索领域通用的7项评价指标：Precision-Recall curves(准确率-召回率曲线，PR)、Nearest Neighbor(最近邻，NN)、First Tier(第一批次，FT)、Second Tier(第二批次，ST)、E-Measure(E方法，E)、Discounted CumulativeGain(折扣累计收益，DCG)、Mean Average Precision(平均准确率，MAP)作为检索的评价标准。

本发明与现有技术相比，具有如下优点与有益效果：

1、将草图和三维模型表征为图像序列，并引入卷积神经网络中的残差网络(ResNet，Residual Network)和循环神经网络中的长短期记忆网络(LSTM，Long Short-Term Memory)，建立时空特征信息提取网络，能够更加全面、准确刻画草图和三维模型的特征信息。

2、提出一种端到端的跨域深度学习架构，端到端的表现为该架构将时空特征信息提取网络的构建、时空特征信息联合融于一体，形成全局优化策略，减小草图和三维模型差异性的同时更好地保留草图和三维模型的内容属性。

3、引入深度度量学习形成三维模型和草图之间的时空特征信息联合，确保在时空特征信息联合中草图和三维模型这两种跨域数据的相同类别的欧式距离小于不同类别的欧式距离，以更加符合草图检索三维模型这一跨模态数据检索的特性。

4、本发明选用三维模型检索领域通用的Precision-Recall curves(准确率-召回率曲线，PR)、Nearest Neighbor(最近邻，NN)、First Tier(第一批次，FT)、Second Tier(第二批次，ST)、E-Measure(E方法，E)、Discounted Cumulative Gain(折扣累计收益，DCG)、Mean Average Precision(平均准确率，MAP)七个指标作为评价标准，可全面评价检索算法的性能。

5、本发明在草图检索三维模型方面有着更好的准确度，操作简单，实用性强，具有很好的利用前景。

6、本发明的网络结构简单，仅采用卷积神经网络中的残差网络(ResNet，ResidualNetwork)和循环神经网络中的长短期记忆网络(LSTM，Long Short-Term Memory)为主要特征提取网络。

7、经过标准数据集SHREC13和SHREC14的测试结果表明，本发明方法在同类工作中取得了领先水平，获得了目前最先进的成果。

附图说明

图1为基于时空特征信息的草图检索三维模型的跨模态检索框架。

图2为三维模型图像序列投影过程。

图3为草图图像序列示例。

图4为在数据集SHREC2013上查全查准率曲线对比图。

图5为在数据集SHREC2013上的检索实例展示图。

图6为在数据集SHREC2014上查全查准率曲线对比图。

具体实施方式

下面结合具体实施例对本发明作进一步说明。

如图1所示，本实施例所提供的基于时空特征信息的草图检索三维模型的跨模态检索方法，所述时空特征信息包括时序动态特征信息和空间静态特征信息；该方法是先进行数据选取，然后构建草图-三维模型图像序列和时空特征信息提取网络，使用时空特征信息提取网络提取草图和三维模型的时空特征信息，再使用深度度量学习实现草图和三维模型的时空特征信息联合，最后根据时空特征信息联合中草图和三维模型的时空特征信息的欧式距离进行相似度计算；其包括以下步骤：

S1、数据选取

数据集选用草图检索三维模型的标准数据集SHREC2013、SHREC2014，每个数据集包括三维模型数据和草图数据两个部分，分别针对两个数据集划分训练数据集和测试数据集；SHREC2013包含90个类、7200张草图和1258个三维模型，各个类中的三维模型数量不等，最少的只有4个，最多的则有184个，各个类中的草图数目均为80，实验中，针对每个类，50个草图用作训练，30个草图用作测试，1258个三维模型则全部作为检索对象；SHREC2014包含171个类、13680张草图和8978个三维模型，各个类中的三维模型数量最少的少于10个，最多的则多于300个，各个类中的草图数目也为80，实验中，针对每个类，50个草图用作训练，30个草图用作测试，8978个三维模型则全部作为检索对象。

S2、构建草图-三维模型图像序列

三维模型图像序列构建：采用MVCNN[Su H,Maji S,Kalogerakis E,et al.Multi-view convolutional neural networks for 3d shape recognition[C]//Proceedingsof the IEEE international conference on computer vision.2015:945-953.]的方法如图2所示，将三维模型正向摆置,然后在其斜向上30°的位置,随机选取第一个视角,并以此为起点,均匀设置4～12个虚拟摄像机，将三维模型处理成视图渲染的形式，从而完成三维模型图像序列构建。

草图图像序列构建：在子图笔画数n不能被序列图像数m整除时，无法严格保证各个子图中累加的笔画数完全一致。此时，若n对m进行除法运算取整为a，所得余数为b,则为第1至第b张子图每张子图增加1画，即它们所对应的新增笔画数为a+1，其余子图新增笔画数为a；当笔画数n小于m时，确保第1至第b张子图每张子图递增1画，其余子图和第b张子图保持一致即可。在以上两种情况下，无法严格保证每张子图累加笔画数一致，但是可以保证数目变化最多为1，一定程度上确保了各个子图包含信息的一致性，草图图像序列示例参见图3所示。

针对每一个草图和视图，将其缩放至256×256，使得图片尺寸一致，并将视图转换为灰度图，将所得图片减去对应图像均值的方式实现图像归一化，使得数据分布中心化；利用水平翻转和垂直翻转以及随机裁剪的方式获取224×224的扩增图像，由于裁剪和旋转是随机的，本操作可增加训练数据并提高训练样本的多样性，进而减小网络的过拟合，提高预测的鲁棒性。

S3、构建时空特征信息提取网络

构建的时空特征信息提取网络由卷积神经网络和循环神经网络组成，时空特征信息提取网络通过训练数据集完成训练后，再使用测试数据集进行测试，在进行时空特征信息提取时，卷积神经网络选用网络权值共享的残差网络(ResNet，Residual Network)提取输入草图-三维模型图像序列的空间静态特征，循环神经网络选用网络权值共享的长短期记忆网络(LSTM，Long Short-Term Memory)进行时序动态特征的提取，其中长短期记忆网络中每个网络模块由三个不同的门控单元(遗忘门、输入门、输出门)构成，门控单元介绍如下：

输出门，能够控制单元状态有多少输出到的当前输出值。

S4、时空特征信息联合

使用深度度量学习对草图和三维模型进行时空特征信息联合，以使草图和三维模型的时空特征信息联合具有相同类别的时空特征信息欧式距离相近，不同类别的时空特征信息欧式距离较远的特点，在深度度量方法中选择了三元中心损失(Triplet-centerLoss)的方法，将草图和三维模型的样本统称为xⁱ，则输入样本xⁱ与其类中心C_i的距离D^p为：D^p＝D(R(xⁱ),C_i)，与其它类中心C_j的距离Dⁿ为Dⁿ＝D(R(xⁱ),C_j)，其中，R(xⁱ)为样本xⁱ在步骤S3中的特征提取操作，要求输入样本与同类样本在时空特征联合中欧式距离近，到其它类样本在时空特征联合中欧式距离远，等价于输入样本与同类样本中心之间的欧式距离小于到其它类样本中心的欧式距离，即minDⁿ＞D^p，引入决策边界α，α>0，则能够进一步转化为minDⁿ-D^p＞α，为此，设定一个批次的样本数目为M，i为选取样本的编号，i的取值范围为1～M，∑为遍历求和操作，则三元中心损失的损失函数L_t-c可定义为：

进一步，为了在训练过程中更好地找到各个类的类中心，建立更加鲁棒的损失函数，在三元中心损失L_t-c的基础上考虑交叉熵损失L_softmax,形成最终损失L_total:

L_total＝w₁L_t-c+w₂L_softmax

其中,w₁和w₂为权重,旨在平衡度量损失和分类损失在整个分类中所占的比重.

S5、相似度计算

在相似度计算中，对测试数据集部分的草图和三维模型的时空特征信息进行相似度计算，设i、j分别表示为草图和三维模型中的不同类别，当类别为i时，设草图和三维模型的样本统称为xⁱ，设R(xⁱ)为样本xⁱ在步骤S3中的特征提取操作，C_j是类别为j时草图和三维模型样本在步骤S4中时空特征信息联合的类别中心，||||为绝对值操作，则计算草图和三维模型的时空特征信息在时空特征信息联合中的欧式距离D(R(xⁱ),C_j)可定义为：

本发明实验的硬件环境为Intel Core i7 2600k+GTX 1080 8GHg+16GB RAM,软件环境为windows 10x64+CUDA 9.0+CuDNN 7.1+Pytorch 1.3.1+Python3.7+Matlab,使用Python处理数据、存储图像特征并完成检索实验。

一、不同草图个数的比较

草图绘制序列中，不同个数的草图包含的内容不同，体现的时序信息也不相同。为比较不同草图个数对算法的影响，在保证其它因素一致的情况，本文依次采用2～4个子草图表征草图动态绘制信息并完成检索，得到如表1所示的结果。由表1可见，当草图数目为3时，算法得到了最佳性能。通过分析图3所示示例，也可以看到，当草图数目为2时，体现的动态绘制信息过少，因此性能较差。而当草图数目为4时性能之所以下降，我们分析是因为尽管草图绘制整体过程具有一致性，包含某种语义信息，但是单个笔画绘制中却存在主观性和差异性。当草图数目取值较大时，相邻草图之间新增的笔画数目较少，就会更多的体现“个别笔画绘制中的差异性和主观性”,反而降低了算法的准确率。

表1不同草图个数的实验结果对比

草图个数	NN	FT	ST	E	DCG	MAP
							2	0.850	0.805	0.845	0.407	0.910	0.844
3	0.873	0.832	0.879	0.415	0.918	0.863
							4	0.851	0.802	0.850	0.409	0.912	0.857

二、SHREC2013检索结果及对比

图4展示了各种算法在SHREC2013数据集上的查全查准率曲线(TCL算法未提供查全查准率数据).由图可见:(1)本发明方法在各个查全率下均获得了最高的查准率,整体性能优于当前所有算法，与LMBR、DCML等方法相比较，本发明方法的平均准确率分别提高了69.8％和84.22％。(2)本发明方法的检索性能非常稳定,在查全率小于85％时,查准率在82％以上；在查全率达到100％时,查准率仍然稳定在60％。以上数据充分说明了本发明方法的有效性。由于LMBR,DCML都采用了非常先进的手段对草图和三维模型进行表征,因此,我们分析认为本发明方法能够取得更优的性能主要是因为本发明方法在深度学习过程中引入了草图和三维模型所对应的时序信息，因此能够更加全面的刻画被表征对象。

表2综合对比了各种算法在SHREC2013上的检索指标。如表所示：(1)与基于深度学习的经典算法相比，本发明在6项检索指标上都具有一定的优势。(2)与仅仅包含静态特征联合嵌入的TCL相比，本发明方法通过引入动态序列，检索性能在NN,FT,ST,E,DCG和MAP这6项指标上分别提高了14.9％,6.7％,3.5％,5.8％,7.5％和6.9％.以上对比结果充分验证了本发明方法所提出的基于时空特征信息的草图检索三维模型的跨模态检索的有效性。

表2检索性能综合对比(SHREC2013数据集)

	NN	FT	ST	E	DCG	MAP
							CDMR	0.279	0.203	0.296	0.166	0.458	0.250
SBR-VC	0.164	0.097	0.149	0.085	0.348	0.116
							Siamese	0.405	0.403	0.548	0.287	0.607	0.469
DCML	0.650	0.634	0.719	0.348	0.766	0.674
							LWBR	0.712	0.725	0.785	0.369	0.814	0.752
TCL	0.763	0.787	0.849	0.392	0.854	0.807
							本文	0.873	0.832	0.879	0.415	0.918	0.863

图5展示了SHREC2013中的部分检索结果,左侧为随机选取的7个草图,右侧为根据本发明方法获得前10个检索结果,其中正确的模型着绿色,错误的模型着橘黄色。由图可见，在7个检索实例中：(1)Airplane,Fish，Gutia，Tablelamp这4个检索结果完全正确。(2)Dog的检索结果中前7个正确,最后3个错误.通过查询数据集发现这是因为Dog类中仅仅包含了7个三维模型，在所有同类模型都已返回的情况下，算法根据相似度返回了最为接近的其它3个模型。(3)Bicycle数据集也仅仅包含7个模型，返回的10个结果中已经完全包含了这7个模型，只是由于从形状来看，第7个返回的摩托车较第8个结果所示的自行车更接近草图,因此产生了错误的排序。(4)Hot_air_balloon类内包含9个模型,返回的前10个结果中包含了其中8个，存在2个形状相似的异类错误模型。

综合以上检索结果来看，本发明方法能够根据用户提供的草图较为准确、鲁棒的检索到库内三维模型,尽管存在少量错误,但是都是形状极为相似的难分模型。

三、SHREC2014检索结果及对比

为进一步测试本发明方法在更加复杂大型数据集上的检索效果，选取了数据规模更大、类别更多、类内模型数量差异度更大的SHREC2014进行对比实验。图6给出了各种方法在该数据集上的查全查准率曲线。由图可见，本发明方法在所对比的算法中依然保持最高的查全查准率。表3给出了各种方法在NN,FT,ST,E,DCG和MAP这6项指标上的对比结果，本发明方法在NN,FT,ST,E,DCG和MAP上表现突出.这再次验证了本发明方法的有效性。

表3检索性能综合对比(SHREC2014数据集)

	NN	FT	ST	E	DCG	MAP
							CDMR	0.109	0.057	0.089	0.041	0.328	0.054
SBR-VC	0.095	0.050	0.081	0.037	0.319	0.050
							Siamese	0.239	0.212	0.316	0.140	0.496	0.228
DCML	0.272	0.275	0.345	0.171	0.498	0.286
							LWBR	0.403	0.378	0.455	0.236	0.581	0.401
TCL	0.585	0.455	0.539	0.275	0.666	0.477
							本文	0.601	0.520	0.551	0.335	0.705	0.569

以上所述实施例只为本发明之较佳实施例，并非以此限制本发明的实施范围，故凡依本发明之形状、原理所作的变化，均应涵盖在本发明的保护范围内。

Claims

1.基于时空特征信息的草图检索三维模型的跨模态检索方法，所述时空特征信息包括时序动态特征信息和空间静态特征信息；其特征在于，该方法是先进行数据选取，然后构建草图-三维模型图像序列和时空特征信息提取网络，使用时空特征信息提取网络提取草图和三维模型的时空特征信息，再使用深度度量学习实现草图和三维模型的时空特征信息联合，最后根据时空特征信息联合中草图和三维模型的时空特征信息的欧式距离进行相似度计算；其包括以下步骤：

S1、数据选取

S2、构建草图-三维模型图像序列

S3、构建时空特征信息提取网络

S4、时空特征信息联合

S5、相似度计算

2.根据权利要求1所述的基于时空特征信息的草图检索三维模型的跨模态检索方法，其特征在于：在步骤S1中，所述SHREC2013包含90个类、7200张草图和1258个三维模型，各个类中的三维模型数量不等，最少的只有4个，最多的则有184个，各个类中的草图数目均为80，实验中，针对每个类，50个草图用作训练，30个草图用作测试，1258个三维模型则全部作为检索对象；所述SHREC2014包含171个类、13680张草图和8978个三维模型，各个类中的三维模型数量最少的少于10个，最多的则多于300个，各个类中的草图数目也为80，实验中，针对每个类，50个草图用作训练，30个草图用作测试，8978个三维模型则全部作为检索对象。

3.根据权利要求1所述的基于时空特征信息的草图检索三维模型的跨模态检索方法，其特征在于：在步骤S2中，所述草图图像序列的选取范围为2～4张；针对步骤S1所选取的两个数据集的三维模型部分，将三维模型水平放置后选取预设角度对三维模型进行顺序视图投影，根据其投影顺序选取4～12张视图完成对三维模型图像序列的构建。

4.根据权利要求1所述的基于时空特征信息的草图检索三维模型的跨模态检索方法，其特征在于：在步骤S3中，所述卷积神经网络选用网络权值共享的残差网络提取输入草图-三维模型图像序列的空间静态特征，所述循环神经网络选用网络权值共享的长短期记忆网络进行时序动态特征的提取，其中，所述长短期记忆网络中每个网络模块由三个不同的门控单元构成，分别为遗忘门、输入门和输出门，门控单元介绍如下：

输出门，能够控制单元状态有多少输出到的当前输出值。

5.根据权利要求1所述的基于时空特征信息的草图检索三维模型的跨模态检索方法，其特征在于：在步骤S4中，使用深度度量学习对草图和三维模型进行时空特征信息联合，以使草图和三维模型的时空特征信息联合具有相同类别的时空特征信息欧式距离相近，不同类别的时空特征信息欧式距离变远的特点；在深度度量方法中选择了三元中心损失的方法，将草图和三维模型的样本统称为xⁱ，则输入样本xⁱ与其类中心C_i的距离D^p为：D^p＝D(R(xⁱ),C_i)，与其它类中心C_j的距离Dⁿ为Dⁿ＝D(R(xⁱ),C_j)，其中，R(xⁱ)为样本xⁱ在步骤S3中的特征提取操作，要求输入样本与同类样本在时空特征联合中欧式距离近，到其它类样本在时空特征联合中欧式距离远，等价于输入样本与同类样本中心之间的欧式距离小于到其它类样本中心的欧式距离，即min Dⁿ＞D^p，引入决策边界α，α>0，则能够进一步转化为min Dⁿ-D^p＞α，为此，设定一个批次的样本数目为M，i为选取样本的编号，i的取值范围为1～M，∑为遍历求和操作，则三元中心损失的损失函数L_t-c定义为：

L_total＝w₁L_t-c+w₂L_softmax

6.根据权利要求1所述的基于时空特征信息的草图检索三维模型的跨模态检索方法，其特征在于：在步骤S5中，对测试数据集部分的草图和三维模型的时空特征信息进行相似度计算，设i、j分别表示为草图和三维模型中的不同类别，当类别为i时，设草图和三维模型的样本统称为xⁱ，设R(xⁱ)为样本xⁱ在步骤S3中的特征提取操作，C_j是类别为j时草图和三维模型样本在步骤S4中时空特征信息联合的类别中心，|| ||为绝对值操作，则计算草图和三维模型的时空特征信息在时空特征信息联合中的欧式距离D(R(xⁱ),C_j)定义为：

最后，将得到的欧式距离进行排序操作，即可完成基于时空特征信息的草图检索三维模型的跨模态检索过程，并使用三维模型检索领域通用的7项评价指标：Precision-Recallcurves即准确率-召回率曲线PR、Nearest Neighbor即最近邻NN、First Tier即第一批次FT、Second Tier即第二批次ST、E-Measure即E方法、Discounted Cumulative Gain即折扣累计收益DCG、Mean Average Precision即平均准确率MAP，作为检索的评价标准。