CN112085072A - 基于时空特征信息的草图检索三维模型的跨模态检索方法 - Google Patents

基于时空特征信息的草图检索三维模型的跨模态检索方法 Download PDF

Info

Publication number
CN112085072A
CN112085072A CN202010854244.1A CN202010854244A CN112085072A CN 112085072 A CN112085072 A CN 112085072A CN 202010854244 A CN202010854244 A CN 202010854244A CN 112085072 A CN112085072 A CN 112085072A
Authority
CN
China
Prior art keywords
sketch
dimensional model
spatio
characteristic information
retrieval
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202010854244.1A
Other languages
English (en)
Other versions
CN112085072B (zh
Inventor
白静
周文惠
拖继文
秦飞巍
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Chongqing Boshi Intellectual Property Service Co ltd
Original Assignee
North Minzu University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by North Minzu University filed Critical North Minzu University
Priority to CN202010854244.1A priority Critical patent/CN112085072B/zh
Publication of CN112085072A publication Critical patent/CN112085072A/zh
Application granted granted Critical
Publication of CN112085072B publication Critical patent/CN112085072B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/50Information retrieval; Database structures therefor; File system structures therefor of still image data
    • G06F16/58Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/583Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/22Matching criteria, e.g. proximity measures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/049Temporal neural networks, e.g. delay elements, oscillating neurons or pulsed inputs

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Evolutionary Computation (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Computing Systems (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Molecular Biology (AREA)
  • Computational Linguistics (AREA)
  • Biophysics (AREA)
  • Biomedical Technology (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Library & Information Science (AREA)
  • Databases & Information Systems (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开了一种基于时空特征信息的草图检索三维模型的跨模态检索方法,该方法是先进行数据选取,然后构建草图‑三维模型图像序列和时空特征信息提取网络,使用时空特征信息提取网络提取草图和三维模型的时空特征信息,再使用深度度量学习实现草图和三维模型的时空特征信息联合,最后根据时空特征信息联合中草图和三维模型的时空特征信息的欧式距离进行相似度计算。本发明检索性能突出,可有效完成草图检索三维模型的跨模态检索,有着更好的准确度,操作简单,实用性强。

Description

基于时空特征信息的草图检索三维模型的跨模态检索方法
技术领域
本发明涉及计算机图形学、计算机视觉与智能识别的技术领域,尤其是指一种基于时空特征信息的草图检索三维模型的跨模态检索方法。
背景技术
随着计算机辅助设计与计算机视觉的快速发展,三维物体作为一种重要的数据类型成为了继声音、图像与视频之后信息的主要载体之一,在工业制造,虚拟现实和增强现实等领域有着广泛的应用。如何有效识别和检索三维模型是诸多应用的研究基础,成为研究学者关注的课题,手绘草图易于构建,非常直观,且不受地域、专业、年龄等外在因素影响,在人类历史中一直被当作一种非常有效的交流手段.近些年来,随着便携式触屏设备的普及,手绘草图数据变得易于获取,基于手绘草图的三维模型检索成为新的研究方向。
然而,在基于草图的三维模型检索领域中,三维模型和草图之间存在着巨大的域间差异性:三维模型数据是现实世界的客观表征或虚拟世界的数字化模型,具有表征准确、具体的,数据维度高、非结构化等特性;而草图是用户的一种主观表达,往往由表征物体全局属性的简单线条组成,强调整体结构和突出特点,具有稀疏性和全局性等特性。因而,基于手绘草图的三维模型检索仍然非常困难.根据检索工作内容可以将现有工作的检索过程分为跨域数据的初始表征、特征嵌入和相似度计算三个步骤,在跨域数据的初始表征中将草图数据和三维模型数据进行数据表征,从而使数据特征完整的被表示.在特征嵌入阶段通常将草图域和三维模型域的特征数据使用度量学习进行特征嵌入,与此同时使得特征嵌入空间中相同类的特征数据距离拉近不同类特征距离推远.相似度计算阶段通过使用欧式距离完成草图域和视图域特征的相似度计算。现有的方法往往将数据特征看作一幅静态图像,使用经典的CNN(Convolutional Neural Network,卷积神经网络)对进行特征表示,然而这种方法只考虑到数据特征的空间信息却忽略了数据特征的时序信息,一定程度影响检索效果.
在现有的检索工作中,跨域数据的初始表征部分研究者们只提取到了特征数据的空间信息,如刘等人使用AlexNet[Liu Yujie,Song Yang,Li Zongmin,et al.Sketch-based 3D shape retrieval with representative view and convolutional neuralnetwork[J].Journal of Graphics,2018,39(4):735-741(in Chinese)(刘杰,宋阳,宗,等.融合信息熵和CNN的基于手绘的三维模型检索[J].图学学报,2018,39(4):735-741)],Chen等人使用ResNet[[7]Chen J,Fang Y.Deep cross-modality adaptation via se-mantics preserving adversarial learning for sketch-based 3d shape retrieval[C]//Proceedings of the European Confer-ence on Computer Vision(ECCV).2018:605-620],Qi等人使用Inception-ResNet-v2[[8]Qi A,Song Y Z,Xiang T.SemanticEmbedding for Sketch-Based 3D Shape Retrieval[C]//BMVC.2018,2(7):8]提取草图初始特征。由于CNN本是针对自然图像设计的,旨在获取图像中有判别性的纹理特征,而手绘草图较为抽象,仅由简单线条构成,缺乏颜色和纹理信息,因此仅使用CNN对草图进行特征提取效果还不够理想.此外,草图的绘制是一个动态过程,仅仅使用CNN的算法往往忽略了草图绘制过程中所包含的时序信息,造成有益信息的损失,这也进一步影响了草图特征提取的效果.
考虑到三维模型的非结构化特性,在三维模型草图检索中,研究者们往往将三维模型转换为一个或一组代表性视图,从而降低跨域匹配的难度.如刘等人提出基于视图信息熵选择一张代表性视图表征三维模型[Liu Yujie,Song Yang,Li Zongmin,etal.Sketch-based 3D shape retrieval with representative view and convolutionalneural network[J].Journal of Graphics,2018,39(4):735-741(in Chinese)(刘杰,宋阳,宗,等.融合信息熵和CNN的基于手绘的三维模型检索[J].图学学报,2018,39(4):735-741)],保证检索效果的同时简化了网络结构.由于草图并不对应三维模型某一个固定视角的视图,因而最佳视图的构建是极其困难的.为此,Wang[Wang F,Kang L,Li Y.Sketch-based 3d shape retrieval using convolutional neural networks[C]//Proceedingsof the IEEE Conference on Computer Vision and Pattern Recognition.2015:1875-1883]等人提出针对竖直摆放的三维模型随机选择两个大小间隔超过45度的投影视图表征三维模型;Xie等人则提出使用多张视图表征三维模型,并最终采用瓦瑟斯坦重心融合多视图特征[Xie J,Dai G,Zhu F,et al.Learning barycentric representa-tions of 3dshapes for sketch-based3d shape retriev-al[C]//Proceedings of the IEEEConference on Computer Vision and Pattern Recognition.2017:5068-5076].以上工作,无论是一张或多张视图,当三维模型的摆放角度较差时,都难以保证信息的完整性.针对这一问题,Chen等人提出了围绕三维模型的包围球渲染多张视图的表征方式[[Chen J,Qin J,Liu L,et al.Deep sketch-shape hashing with segmented 3D stochasticviewing[C]//Proceedings of the IEEE Conference on Computer Vision and PatternRecog-nition.2019:791-800.]:通过在球体的K个空间段随机采样获取视图,并使用注意力网络对多张视图赋予不同权重,捕获到信息完整、冗余小且互补的多张视图,进一步提高了表征效果.以上方法为三维模型的多视图表征做出了有益尝试,取得了良好效果.然而,三维模型的多个视图之间是存在位置次序的,而现有方法独立看待每个视图,忽略了这种相关性,势必会造成一定程度的信息损失.
在特征跨域嵌入部分,部分基于草图的三维模型检索方法在完成三维模型和草图的初始特征提取后,直接进行相似评价.如刘等人在利用CNN提取草图和三维模型的特征后,便采用最小距离法进行相似评价[Liu Yujie,Song Yang,Li Zongmin,et al.Sketch-based 3D shape retrieval with representative view and convolutional neuralnetwork[J].Journal of Graphics,2018,39(4):735-741(in Chinese)(刘杰,宋阳,宗,等.融合信息熵和CNN的基于手绘的三维模型检索[J].图学学报,2018,39(4):735-741)].然而由于没有充分考虑跨域数据之间的差异性,这类方法的检索效果不够理想.
更多的特征潜入方法使用度量学习将草图和三维模型的初始特征嵌入到一个公共空间中,以使得特征空间中同类数据(同域和跨域)的距离更近,异类数据的距离更远.如,Wang等人使用二元度量学习网络Siamese,迫使跨域同类数据之间的距离足够近,完成跨域数据的表征和嵌入[Wang F,Kang L,Li Y.Sketch-based 3d shape retrieval usingconvolutional neural networks[C]//Proceedings of the IEEE Conference onComputer Vision and Pattern Recognition.2015:1875-1883].Qi等人[Qi A,Song Y Z,Xiang T.Semantic Embedding for Sketch-Based 3D Shape Retrieval[C]//BMVC.2018,2(7):8]、白等人[J.Bai,M.Wang,and D.Kong,Deep Common Semantic Space Embeddingfor Sketch-Based3D Model Retrieval,Entropy,vol.21,no.4,pp.369,2019]则同时考虑同类数据和异类数据之间的关系,提出基于三元度量学习(Triplet Loss)的跨域数据嵌入,取得了很好的效果.然而,基于三元度量学习(Triplet Loss)的方法需要考虑每一对正负样本组合,网络训练费时且困难.
发明内容
本发明的目的在于克服现有技术没有考虑到草图和三维模型数据的时序动态特征信息的缺点与不足,提出了一种基于时空特征信息的草图检索三维模型的跨模态检索方法,该方法的检索性能突出,可有效完成草图检索三维模型的跨模态检索,有着更好的准确度,操作简单,实用性强。
为实现上述目的,本发明所提供的技术方案为:基于时空特征信息的草图检索三维模型的跨模态检索方法,所述时空特征信息包括时序动态特征信息和空间静态特征信息;该方法是先进行数据选取,然后构建草图-三维模型图像序列和时空特征信息提取网络,使用时空特征信息提取网络提取草图和三维模型的时空特征信息,再使用深度度量学习实现草图和三维模型的时空特征信息联合,最后根据时空特征信息联合中草图和三维模型的时空特征信息的欧式距离进行相似度计算;其包括以下步骤:
S1、数据选取
数据集选用草图检索三维模型的标准数据集SHREC2013、SHREC2014,每个数据集包括三维模型数据和草图数据两个部分,分别针对两个数据集划分训练数据集和测试数据集;
S2、构建草图-三维模型图像序列
构建的草图-三维模型图像序列包含草图图像序列和三维模型图像序列;针对步骤S1所选取的两个数据集的草图数据部分,根据草图绘制的笔画顺序构建草图图像序列;针对步骤S1所选取的两个数据集的三维模型部分,根据三维模型的投影顺序获得三维模型图像序列;
S3、构建时空特征信息提取网络
构建的时空特征信息提取网络由卷积神经网络和循环神经网络组成,所述时空特征信息提取网络通过训练数据集完成训练后,再使用测试数据集进行测试,在进行时空特征信息提取时,所述时空特征信息提取网络是使用卷积神经网络提取草图-三维模型图像序列中单个图像的空间静态特征信息,使用循环神经网络提取草图-三维模型图像序列的时序动态特征信息,再将提取的空间静态特征信息和时序动态特征信息串行连接,完成时空特征信息的有效融合;
S4、时空特征信息联合
引入深度度量学习进行草图和三维模型的时空特征信息联合,确保在时空特征信息联合中草图和三维模型这两种跨域数据的相同类别的欧式距离小于不同类别的欧式距离,以符合草图检索三维模型这一跨模态数据检索的特性;
S5、相似度计算
在相似度计算中,计算测试数据集的草图和三维模型的时空特征信息在时空特征联合中的欧式距离,并将得到的欧式距离进行排序完成检索过程,最后使用三维模型检索领域通用的评价指标作为检索的评价标准;其中,对于相同类别的草图和三维模型,在时空特征信息联合中的时空特征信息距离趋近。
在步骤S1中,所述SHREC2013包含90个类、7200张草图和1258个三维模型,各个类中的三维模型数量不等,最少的只有4个,最多的则有184个,各个类中的草图数目均为80,实验中,针对每个类,50个草图用作训练,30个草图用作测试,1258个三维模型则全部作为检索对象;所述SHREC2014包含171个类、13680张草图和8978个三维模型,各个类中的三维模型数量最少的少于10个,最多的则多于300个,各个类中的草图数目也为80,实验中,针对每个类,50个草图用作训练,30个草图用作测试,8978个三维模型则全部作为检索对象。
在步骤S2中,所述草图图像序列的选取范围为2~4张;针对步骤S1所选取的两个数据集的三维模型部分,将三维模型水平放置后选取预设角度对三维模型进行顺序视图投影,根据其投影顺序选取4~12张视图完成对三维模型图像序列的构建。
在步骤S3中,所述卷积神经网络选用网络权值共享的残差网络(ResNet,ResidualNetwork)提取输入草图-三维模型图像序列的空间静态特征,所述循环神经网络选用网络权值共享的长短期记忆网络(LSTM,Long Short-Term Memory)进行时序动态特征的提取,其中,所述长短期记忆网络中每个网络模块由三个不同的门控单元构成,分别为遗忘门、输入门和输出门,门控单元介绍如下:
遗忘门,决定了上一时刻的单元状态有多少保留到当前时刻的网络模块;
输入门,决定了当前时刻网络的输入有多少保存到单元状态;
输出门,能够控制单元状态有多少输出到的当前输出值。
在步骤S4中,使用深度度量学习对草图和三维模型进行时空特征信息联合,以使草图和三维模型的时空特征信息联合具有相同类别的时空特征信息欧式距离相近,不同类别的时空特征信息欧式距离变远的特点;在深度度量方法中选择了三元中心损失(Triplet-center Loss)的方法,将草图和三维模型的样本统称为xi,则输入样本xi与其类中心Ci的距离Dp为:Dp=D(R(xi),Ci),与其它类中心Cj的距离Dn为Dn=D(R(xi),Cj),其中,R(xi)为样本xi在步骤S3中的特征提取操作,要求输入样本与同类样本在时空特征联合中欧式距离近,到其它类样本在时空特征联合中欧式距离远,等价于输入样本与同类样本中心之间的欧式距离小于到其它类样本中心的欧式距离,即minDn>Dp,引入决策边界α,α>0,则能够进一步转化为minDn-Dp>α,为此,设定一个批次的样本数目为M,i为选取样本的编号,i的取值范围为1~M,∑为遍历求和操作,则三元中心损失的损失函数Lt-c定义为:
Figure BDA0002645824950000071
为了在训练过程中更好地找到各个类的类中心,建立更加鲁棒的损失函数,在三元中心损失Lt-c的基础上考虑交叉熵损失Lsoftmax,形成最终损失Ltotal
Ltotal=w1Lt-c+w2Lsoftmax
其中,w1和w2为权重,旨在平衡度量损失和分类损失在整个分类中所占的比重。
在步骤S5中,对测试数据集部分的草图和三维模型的时空特征信息进行相似度计算,设i、j分别表示为草图和三维模型中的不同类别,当类别为i时,设草图和三维模型的样本统称为xi,设R(xi)为样本xi在步骤S3中的特征提取操作,Cj是类别为j时草图和三维模型样本在步骤S4中时空特征信息联合的类别中心,||||为绝对值操作,则计算草图和三维模型的时空特征信息在时空特征信息联合中的欧式距离D(R(xi),Cj)定义为:
Figure BDA0002645824950000081
最后,将得到的欧式距离进行排序操作,即可完成基于时空特征信息的草图检索三维模型的跨模态检索过程,并使用三维模型检索领域通用的7项评价指标:Precision-Recall curves(准确率-召回率曲线,PR)、Nearest Neighbor(最近邻,NN)、First Tier(第一批次,FT)、Second Tier(第二批次,ST)、E-Measure(E方法,E)、Discounted CumulativeGain(折扣累计收益,DCG)、Mean Average Precision(平均准确率,MAP)作为检索的评价标准。
本发明与现有技术相比,具有如下优点与有益效果:
1、将草图和三维模型表征为图像序列,并引入卷积神经网络中的残差网络(ResNet,Residual Network)和循环神经网络中的长短期记忆网络(LSTM,Long Short-Term Memory),建立时空特征信息提取网络,能够更加全面、准确刻画草图和三维模型的特征信息。
2、提出一种端到端的跨域深度学习架构,端到端的表现为该架构将时空特征信息提取网络的构建、时空特征信息联合融于一体,形成全局优化策略,减小草图和三维模型差异性的同时更好地保留草图和三维模型的内容属性。
3、引入深度度量学习形成三维模型和草图之间的时空特征信息联合,确保在时空特征信息联合中草图和三维模型这两种跨域数据的相同类别的欧式距离小于不同类别的欧式距离,以更加符合草图检索三维模型这一跨模态数据检索的特性。
4、本发明选用三维模型检索领域通用的Precision-Recall curves(准确率-召回率曲线,PR)、Nearest Neighbor(最近邻,NN)、First Tier(第一批次,FT)、Second Tier(第二批次,ST)、E-Measure(E方法,E)、Discounted Cumulative Gain(折扣累计收益,DCG)、Mean Average Precision(平均准确率,MAP)七个指标作为评价标准,可全面评价检索算法的性能。
5、本发明在草图检索三维模型方面有着更好的准确度,操作简单,实用性强,具有很好的利用前景。
6、本发明的网络结构简单,仅采用卷积神经网络中的残差网络(ResNet,ResidualNetwork)和循环神经网络中的长短期记忆网络(LSTM,Long Short-Term Memory)为主要特征提取网络。
7、经过标准数据集SHREC13和SHREC14的测试结果表明,本发明方法在同类工作中取得了领先水平,获得了目前最先进的成果。
附图说明
图1为基于时空特征信息的草图检索三维模型的跨模态检索框架。
图2为三维模型图像序列投影过程。
图3为草图图像序列示例。
图4为在数据集SHREC2013上查全查准率曲线对比图。
图5为在数据集SHREC2013上的检索实例展示图。
图6为在数据集SHREC2014上查全查准率曲线对比图。
具体实施方式
下面结合具体实施例对本发明作进一步说明。
如图1所示,本实施例所提供的基于时空特征信息的草图检索三维模型的跨模态检索方法,所述时空特征信息包括时序动态特征信息和空间静态特征信息;该方法是先进行数据选取,然后构建草图-三维模型图像序列和时空特征信息提取网络,使用时空特征信息提取网络提取草图和三维模型的时空特征信息,再使用深度度量学习实现草图和三维模型的时空特征信息联合,最后根据时空特征信息联合中草图和三维模型的时空特征信息的欧式距离进行相似度计算;其包括以下步骤:
S1、数据选取
数据集选用草图检索三维模型的标准数据集SHREC2013、SHREC2014,每个数据集包括三维模型数据和草图数据两个部分,分别针对两个数据集划分训练数据集和测试数据集;SHREC2013包含90个类、7200张草图和1258个三维模型,各个类中的三维模型数量不等,最少的只有4个,最多的则有184个,各个类中的草图数目均为80,实验中,针对每个类,50个草图用作训练,30个草图用作测试,1258个三维模型则全部作为检索对象;SHREC2014包含171个类、13680张草图和8978个三维模型,各个类中的三维模型数量最少的少于10个,最多的则多于300个,各个类中的草图数目也为80,实验中,针对每个类,50个草图用作训练,30个草图用作测试,8978个三维模型则全部作为检索对象。
S2、构建草图-三维模型图像序列
三维模型图像序列构建:采用MVCNN[Su H,Maji S,Kalogerakis E,et al.Multi-view convolutional neural networks for 3d shape recognition[C]//Proceedingsof the IEEE international conference on computer vision.2015:945-953.]的方法如图2所示,将三维模型正向摆置,然后在其斜向上30°的位置,随机选取第一个视角,并以此为起点,均匀设置4~12个虚拟摄像机,将三维模型处理成视图渲染的形式,从而完成三维模型图像序列构建。
草图图像序列构建:在子图笔画数n不能被序列图像数m整除时,无法严格保证各个子图中累加的笔画数完全一致。此时,若n对m进行除法运算取整为a,所得余数为b,则为第1至第b张子图每张子图增加1画,即它们所对应的新增笔画数为a+1,其余子图新增笔画数为a;当笔画数n小于m时,确保第1至第b张子图每张子图递增1画,其余子图和第b张子图保持一致即可。在以上两种情况下,无法严格保证每张子图累加笔画数一致,但是可以保证数目变化最多为1,一定程度上确保了各个子图包含信息的一致性,草图图像序列示例参见图3所示。
针对每一个草图和视图,将其缩放至256×256,使得图片尺寸一致,并将视图转换为灰度图,将所得图片减去对应图像均值的方式实现图像归一化,使得数据分布中心化;利用水平翻转和垂直翻转以及随机裁剪的方式获取224×224的扩增图像,由于裁剪和旋转是随机的,本操作可增加训练数据并提高训练样本的多样性,进而减小网络的过拟合,提高预测的鲁棒性。
S3、构建时空特征信息提取网络
构建的时空特征信息提取网络由卷积神经网络和循环神经网络组成,时空特征信息提取网络通过训练数据集完成训练后,再使用测试数据集进行测试,在进行时空特征信息提取时,卷积神经网络选用网络权值共享的残差网络(ResNet,Residual Network)提取输入草图-三维模型图像序列的空间静态特征,循环神经网络选用网络权值共享的长短期记忆网络(LSTM,Long Short-Term Memory)进行时序动态特征的提取,其中长短期记忆网络中每个网络模块由三个不同的门控单元(遗忘门、输入门、输出门)构成,门控单元介绍如下:
遗忘门,决定了上一时刻的单元状态有多少保留到当前时刻的网络模块;
输入门,决定了当前时刻网络的输入有多少保存到单元状态;
输出门,能够控制单元状态有多少输出到的当前输出值。
S4、时空特征信息联合
使用深度度量学习对草图和三维模型进行时空特征信息联合,以使草图和三维模型的时空特征信息联合具有相同类别的时空特征信息欧式距离相近,不同类别的时空特征信息欧式距离较远的特点,在深度度量方法中选择了三元中心损失(Triplet-centerLoss)的方法,将草图和三维模型的样本统称为xi,则输入样本xi与其类中心Ci的距离Dp为:Dp=D(R(xi),Ci),与其它类中心Cj的距离Dn为Dn=D(R(xi),Cj),其中,R(xi)为样本xi在步骤S3中的特征提取操作,要求输入样本与同类样本在时空特征联合中欧式距离近,到其它类样本在时空特征联合中欧式距离远,等价于输入样本与同类样本中心之间的欧式距离小于到其它类样本中心的欧式距离,即minDn>Dp,引入决策边界α,α>0,则能够进一步转化为minDn-Dp>α,为此,设定一个批次的样本数目为M,i为选取样本的编号,i的取值范围为1~M,∑为遍历求和操作,则三元中心损失的损失函数Lt-c可定义为:
Figure BDA0002645824950000121
进一步,为了在训练过程中更好地找到各个类的类中心,建立更加鲁棒的损失函数,在三元中心损失Lt-c的基础上考虑交叉熵损失Lsoftmax,形成最终损失Ltotal:
Ltotal=w1Lt-c+w2Lsoftmax
其中,w1和w2为权重,旨在平衡度量损失和分类损失在整个分类中所占的比重.
S5、相似度计算
在相似度计算中,对测试数据集部分的草图和三维模型的时空特征信息进行相似度计算,设i、j分别表示为草图和三维模型中的不同类别,当类别为i时,设草图和三维模型的样本统称为xi,设R(xi)为样本xi在步骤S3中的特征提取操作,Cj是类别为j时草图和三维模型样本在步骤S4中时空特征信息联合的类别中心,||||为绝对值操作,则计算草图和三维模型的时空特征信息在时空特征信息联合中的欧式距离D(R(xi),Cj)可定义为:
Figure BDA0002645824950000131
最后,将得到的欧式距离进行排序操作,即可完成基于时空特征信息的草图检索三维模型的跨模态检索过程,并使用三维模型检索领域通用的7项评价指标:Precision-Recall curves(准确率-召回率曲线,PR)、Nearest Neighbor(最近邻,NN)、First Tier(第一批次,FT)、Second Tier(第二批次,ST)、E-Measure(E方法,E)、Discounted CumulativeGain(折扣累计收益,DCG)、Mean Average Precision(平均准确率,MAP)作为检索的评价标准。
本发明实验的硬件环境为Intel Core i7 2600k+GTX 1080 8GHg+16GB RAM,软件环境为windows 10x64+CUDA 9.0+CuDNN 7.1+Pytorch 1.3.1+Python3.7+Matlab,使用Python处理数据、存储图像特征并完成检索实验。
一、不同草图个数的比较
草图绘制序列中,不同个数的草图包含的内容不同,体现的时序信息也不相同。为比较不同草图个数对算法的影响,在保证其它因素一致的情况,本文依次采用2~4个子草图表征草图动态绘制信息并完成检索,得到如表1所示的结果。由表1可见,当草图数目为3时,算法得到了最佳性能。通过分析图3所示示例,也可以看到,当草图数目为2时,体现的动态绘制信息过少,因此性能较差。而当草图数目为4时性能之所以下降,我们分析是因为尽管草图绘制整体过程具有一致性,包含某种语义信息,但是单个笔画绘制中却存在主观性和差异性。当草图数目取值较大时,相邻草图之间新增的笔画数目较少,就会更多的体现“个别笔画绘制中的差异性和主观性”,反而降低了算法的准确率。
表1不同草图个数的实验结果对比
草图个数 NN FT ST E DCG MAP
2 0.850 0.805 0.845 0.407 0.910 0.844
3 0.873 0.832 0.879 0.415 0.918 0.863
4 0.851 0.802 0.850 0.409 0.912 0.857
二、SHREC2013检索结果及对比
图4展示了各种算法在SHREC2013数据集上的查全查准率曲线(TCL算法未提供查全查准率数据).由图可见:(1)本发明方法在各个查全率下均获得了最高的查准率,整体性能优于当前所有算法,与LMBR、DCML等方法相比较,本发明方法的平均准确率分别提高了69.8%和84.22%。(2)本发明方法的检索性能非常稳定,在查全率小于85%时,查准率在82%以上;在查全率达到100%时,查准率仍然稳定在60%。以上数据充分说明了本发明方法的有效性。由于LMBR,DCML都采用了非常先进的手段对草图和三维模型进行表征,因此,我们分析认为本发明方法能够取得更优的性能主要是因为本发明方法在深度学习过程中引入了草图和三维模型所对应的时序信息,因此能够更加全面的刻画被表征对象。
表2综合对比了各种算法在SHREC2013上的检索指标。如表所示:(1)与基于深度学习的经典算法相比,本发明在6项检索指标上都具有一定的优势。(2)与仅仅包含静态特征联合嵌入的TCL相比,本发明方法通过引入动态序列,检索性能在NN,FT,ST,E,DCG和MAP这6项指标上分别提高了14.9%,6.7%,3.5%,5.8%,7.5%和6.9%.以上对比结果充分验证了本发明方法所提出的基于时空特征信息的草图检索三维模型的跨模态检索的有效性。
表2检索性能综合对比(SHREC2013数据集)
NN FT ST E DCG MAP
CDMR 0.279 0.203 0.296 0.166 0.458 0.250
SBR-VC 0.164 0.097 0.149 0.085 0.348 0.116
Siamese 0.405 0.403 0.548 0.287 0.607 0.469
DCML 0.650 0.634 0.719 0.348 0.766 0.674
LWBR 0.712 0.725 0.785 0.369 0.814 0.752
TCL 0.763 0.787 0.849 0.392 0.854 0.807
本文 0.873 0.832 0.879 0.415 0.918 0.863
图5展示了SHREC2013中的部分检索结果,左侧为随机选取的7个草图,右侧为根据本发明方法获得前10个检索结果,其中正确的模型着绿色,错误的模型着橘黄色。由图可见,在7个检索实例中:(1)Airplane,Fish,Gutia,Tablelamp这4个检索结果完全正确。(2)Dog的检索结果中前7个正确,最后3个错误.通过查询数据集发现这是因为Dog类中仅仅包含了7个三维模型,在所有同类模型都已返回的情况下,算法根据相似度返回了最为接近的其它3个模型。(3)Bicycle数据集也仅仅包含7个模型,返回的10个结果中已经完全包含了这7个模型,只是由于从形状来看,第7个返回的摩托车较第8个结果所示的自行车更接近草图,因此产生了错误的排序。(4)Hot_air_balloon类内包含9个模型,返回的前10个结果中包含了其中8个,存在2个形状相似的异类错误模型。
综合以上检索结果来看,本发明方法能够根据用户提供的草图较为准确、鲁棒的检索到库内三维模型,尽管存在少量错误,但是都是形状极为相似的难分模型。
三、SHREC2014检索结果及对比
为进一步测试本发明方法在更加复杂大型数据集上的检索效果,选取了数据规模更大、类别更多、类内模型数量差异度更大的SHREC2014进行对比实验。图6给出了各种方法在该数据集上的查全查准率曲线。由图可见,本发明方法在所对比的算法中依然保持最高的查全查准率。表3给出了各种方法在NN,FT,ST,E,DCG和MAP这6项指标上的对比结果,本发明方法在NN,FT,ST,E,DCG和MAP上表现突出.这再次验证了本发明方法的有效性。
表3检索性能综合对比(SHREC2014数据集)
NN FT ST E DCG MAP
CDMR 0.109 0.057 0.089 0.041 0.328 0.054
SBR-VC 0.095 0.050 0.081 0.037 0.319 0.050
Siamese 0.239 0.212 0.316 0.140 0.496 0.228
DCML 0.272 0.275 0.345 0.171 0.498 0.286
LWBR 0.403 0.378 0.455 0.236 0.581 0.401
TCL 0.585 0.455 0.539 0.275 0.666 0.477
本文 0.601 0.520 0.551 0.335 0.705 0.569
以上所述实施例只为本发明之较佳实施例,并非以此限制本发明的实施范围,故凡依本发明之形状、原理所作的变化,均应涵盖在本发明的保护范围内。

Claims (6)

1.基于时空特征信息的草图检索三维模型的跨模态检索方法,所述时空特征信息包括时序动态特征信息和空间静态特征信息;其特征在于,该方法是先进行数据选取,然后构建草图-三维模型图像序列和时空特征信息提取网络,使用时空特征信息提取网络提取草图和三维模型的时空特征信息,再使用深度度量学习实现草图和三维模型的时空特征信息联合,最后根据时空特征信息联合中草图和三维模型的时空特征信息的欧式距离进行相似度计算;其包括以下步骤:
S1、数据选取
数据集选用草图检索三维模型的标准数据集SHREC2013、SHREC2014,每个数据集包括三维模型数据和草图数据两个部分,分别针对两个数据集划分训练数据集和测试数据集;
S2、构建草图-三维模型图像序列
构建的草图-三维模型图像序列包含草图图像序列和三维模型图像序列;针对步骤S1所选取的两个数据集的草图数据部分,根据草图绘制的笔画顺序构建草图图像序列;针对步骤S1所选取的两个数据集的三维模型部分,根据三维模型的投影顺序获得三维模型图像序列;
S3、构建时空特征信息提取网络
构建的时空特征信息提取网络由卷积神经网络和循环神经网络组成,所述时空特征信息提取网络通过训练数据集完成训练后,再使用测试数据集进行测试,在进行时空特征信息提取时,所述时空特征信息提取网络是使用卷积神经网络提取草图-三维模型图像序列中单个图像的空间静态特征信息,使用循环神经网络提取草图-三维模型图像序列的时序动态特征信息,再将提取的空间静态特征信息和时序动态特征信息串行连接,完成时空特征信息的有效融合;
S4、时空特征信息联合
引入深度度量学习进行草图和三维模型的时空特征信息联合,确保在时空特征信息联合中草图和三维模型这两种跨域数据的相同类别的欧式距离小于不同类别的欧式距离,以符合草图检索三维模型这一跨模态数据检索的特性;
S5、相似度计算
在相似度计算中,计算测试数据集的草图和三维模型的时空特征信息在时空特征联合中的欧式距离,并将得到的欧式距离进行排序完成检索过程,最后使用三维模型检索领域通用的评价指标作为检索的评价标准;其中,对于相同类别的草图和三维模型,在时空特征信息联合中的时空特征信息距离趋近。
2.根据权利要求1所述的基于时空特征信息的草图检索三维模型的跨模态检索方法,其特征在于:在步骤S1中,所述SHREC2013包含90个类、7200张草图和1258个三维模型,各个类中的三维模型数量不等,最少的只有4个,最多的则有184个,各个类中的草图数目均为80,实验中,针对每个类,50个草图用作训练,30个草图用作测试,1258个三维模型则全部作为检索对象;所述SHREC2014包含171个类、13680张草图和8978个三维模型,各个类中的三维模型数量最少的少于10个,最多的则多于300个,各个类中的草图数目也为80,实验中,针对每个类,50个草图用作训练,30个草图用作测试,8978个三维模型则全部作为检索对象。
3.根据权利要求1所述的基于时空特征信息的草图检索三维模型的跨模态检索方法,其特征在于:在步骤S2中,所述草图图像序列的选取范围为2~4张;针对步骤S1所选取的两个数据集的三维模型部分,将三维模型水平放置后选取预设角度对三维模型进行顺序视图投影,根据其投影顺序选取4~12张视图完成对三维模型图像序列的构建。
4.根据权利要求1所述的基于时空特征信息的草图检索三维模型的跨模态检索方法,其特征在于:在步骤S3中,所述卷积神经网络选用网络权值共享的残差网络提取输入草图-三维模型图像序列的空间静态特征,所述循环神经网络选用网络权值共享的长短期记忆网络进行时序动态特征的提取,其中,所述长短期记忆网络中每个网络模块由三个不同的门控单元构成,分别为遗忘门、输入门和输出门,门控单元介绍如下:
遗忘门,决定了上一时刻的单元状态有多少保留到当前时刻的网络模块;
输入门,决定了当前时刻网络的输入有多少保存到单元状态;
输出门,能够控制单元状态有多少输出到的当前输出值。
5.根据权利要求1所述的基于时空特征信息的草图检索三维模型的跨模态检索方法,其特征在于:在步骤S4中,使用深度度量学习对草图和三维模型进行时空特征信息联合,以使草图和三维模型的时空特征信息联合具有相同类别的时空特征信息欧式距离相近,不同类别的时空特征信息欧式距离变远的特点;在深度度量方法中选择了三元中心损失的方法,将草图和三维模型的样本统称为xi,则输入样本xi与其类中心Ci的距离Dp为:Dp=D(R(xi),Ci),与其它类中心Cj的距离Dn为Dn=D(R(xi),Cj),其中,R(xi)为样本xi在步骤S3中的特征提取操作,要求输入样本与同类样本在时空特征联合中欧式距离近,到其它类样本在时空特征联合中欧式距离远,等价于输入样本与同类样本中心之间的欧式距离小于到其它类样本中心的欧式距离,即min Dn>Dp,引入决策边界α,α>0,则能够进一步转化为min Dn-Dp>α,为此,设定一个批次的样本数目为M,i为选取样本的编号,i的取值范围为1~M,∑为遍历求和操作,则三元中心损失的损失函数Lt-c定义为:
Figure FDA0002645824940000041
为了在训练过程中更好地找到各个类的类中心,建立更加鲁棒的损失函数,在三元中心损失Lt-c的基础上考虑交叉熵损失Lsoftmax,形成最终损失Ltotal
Ltotal=w1Lt-c+w2Lsoftmax
其中,w1和w2为权重,旨在平衡度量损失和分类损失在整个分类中所占的比重。
6.根据权利要求1所述的基于时空特征信息的草图检索三维模型的跨模态检索方法,其特征在于:在步骤S5中,对测试数据集部分的草图和三维模型的时空特征信息进行相似度计算,设i、j分别表示为草图和三维模型中的不同类别,当类别为i时,设草图和三维模型的样本统称为xi,设R(xi)为样本xi在步骤S3中的特征提取操作,Cj是类别为j时草图和三维模型样本在步骤S4中时空特征信息联合的类别中心,|| ||为绝对值操作,则计算草图和三维模型的时空特征信息在时空特征信息联合中的欧式距离D(R(xi),Cj)定义为:
Figure FDA0002645824940000042
最后,将得到的欧式距离进行排序操作,即可完成基于时空特征信息的草图检索三维模型的跨模态检索过程,并使用三维模型检索领域通用的7项评价指标:Precision-Recallcurves即准确率-召回率曲线PR、Nearest Neighbor即最近邻NN、First Tier即第一批次FT、Second Tier即第二批次ST、E-Measure即E方法、Discounted Cumulative Gain即折扣累计收益DCG、Mean Average Precision即平均准确率MAP,作为检索的评价标准。
CN202010854244.1A 2020-08-24 2020-08-24 基于时空特征信息的草图检索三维模型的跨模态检索方法 Active CN112085072B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010854244.1A CN112085072B (zh) 2020-08-24 2020-08-24 基于时空特征信息的草图检索三维模型的跨模态检索方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010854244.1A CN112085072B (zh) 2020-08-24 2020-08-24 基于时空特征信息的草图检索三维模型的跨模态检索方法

Publications (2)

Publication Number Publication Date
CN112085072A true CN112085072A (zh) 2020-12-15
CN112085072B CN112085072B (zh) 2022-04-29

Family

ID=73728981

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010854244.1A Active CN112085072B (zh) 2020-08-24 2020-08-24 基于时空特征信息的草图检索三维模型的跨模态检索方法

Country Status (1)

Country Link
CN (1) CN112085072B (zh)

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113283469A (zh) * 2021-04-14 2021-08-20 中国海洋大学 基于视图的三维模型检索的图嵌入无监督特征学习方法
CN113392244A (zh) * 2021-06-10 2021-09-14 北京印刷学院 一种基于深度度量学习的三维模型检索方法及系统
CN113886615A (zh) * 2021-10-25 2022-01-04 重庆邮电大学 一种基于多粒度联想学习的手绘图像实时检索方法
CN114647753A (zh) * 2022-05-23 2022-06-21 华中师范大学 一种多区域空间对齐的细粒度草图检索三维模型方法
CN115578680A (zh) * 2022-09-09 2023-01-06 北京理工大学 一种视频理解方法
CN115878833A (zh) * 2023-02-20 2023-03-31 中山大学 基于手绘草图语义的外观专利图像检索方法与系统
CN118227821A (zh) * 2024-05-24 2024-06-21 济南大学 一种基于抗噪声网络的草图检索三维模型的方法

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108595636A (zh) * 2018-04-25 2018-09-28 复旦大学 基于深度跨模态相关性学习的手绘草图的图像检索方法
CN109033144A (zh) * 2018-06-11 2018-12-18 厦门大学 基于草图的三维模型检索方法
CN109213884A (zh) * 2018-11-26 2019-01-15 北方民族大学 一种基于草图检索三维模型的跨模态检索方法
CN110188228A (zh) * 2019-05-28 2019-08-30 北方民族大学 基于草图检索三维模型的跨模态检索方法
CN111460193A (zh) * 2020-02-28 2020-07-28 天津大学 一种基于多模态信息融合的三维模型分类方法

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108595636A (zh) * 2018-04-25 2018-09-28 复旦大学 基于深度跨模态相关性学习的手绘草图的图像检索方法
CN109033144A (zh) * 2018-06-11 2018-12-18 厦门大学 基于草图的三维模型检索方法
CN109213884A (zh) * 2018-11-26 2019-01-15 北方民族大学 一种基于草图检索三维模型的跨模态检索方法
CN110188228A (zh) * 2019-05-28 2019-08-30 北方民族大学 基于草图检索三维模型的跨模态检索方法
CN111460193A (zh) * 2020-02-28 2020-07-28 天津大学 一种基于多模态信息融合的三维模型分类方法

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
BO LI等: "3D Sketch-Based 3D Model Retrieval", 《2013 IEEE ICMEW》 *
白静等: "基于联合特征映射的端到端三维模型草图检索", 《计算机辅助设计与图形学学报》 *
邓宗慧: "基于卷积神经网络的三维模型检索方法研究", 《中国优秀硕士学位论文全文数据库》 *

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113283469A (zh) * 2021-04-14 2021-08-20 中国海洋大学 基于视图的三维模型检索的图嵌入无监督特征学习方法
CN113392244A (zh) * 2021-06-10 2021-09-14 北京印刷学院 一种基于深度度量学习的三维模型检索方法及系统
CN113886615A (zh) * 2021-10-25 2022-01-04 重庆邮电大学 一种基于多粒度联想学习的手绘图像实时检索方法
CN113886615B (zh) * 2021-10-25 2024-06-04 重庆邮电大学 一种基于多粒度联想学习的手绘图像实时检索方法
CN114647753A (zh) * 2022-05-23 2022-06-21 华中师范大学 一种多区域空间对齐的细粒度草图检索三维模型方法
CN115578680A (zh) * 2022-09-09 2023-01-06 北京理工大学 一种视频理解方法
CN115578680B (zh) * 2022-09-09 2023-06-02 北京理工大学 一种视频理解方法
CN115878833A (zh) * 2023-02-20 2023-03-31 中山大学 基于手绘草图语义的外观专利图像检索方法与系统
CN118227821A (zh) * 2024-05-24 2024-06-21 济南大学 一种基于抗噪声网络的草图检索三维模型的方法

Also Published As

Publication number Publication date
CN112085072B (zh) 2022-04-29

Similar Documents

Publication Publication Date Title
CN112085072B (zh) 基于时空特征信息的草图检索三维模型的跨模态检索方法
CN111489358B (zh) 一种基于深度学习的三维点云语义分割方法
CN111858954B (zh) 面向任务的文本生成图像网络模型
CN107679250B (zh) 一种基于深度自编码卷积神经网络的多任务分层图像检索方法
CN110188228B (zh) 基于草图检索三维模型的跨模态检索方法
CN110825899A (zh) 融合颜色特征和残差网络深度特征的服装图像检索方法
US20230206603A1 (en) High-precision point cloud completion method based on deep learning and device thereof
CN114255238A (zh) 一种融合图像特征的三维点云场景分割方法及系统
CN111178208A (zh) 基于深度学习的行人检测方法、装置及介质
CN110751027B (zh) 一种基于深度多示例学习的行人重识别方法
CN106780639B (zh) 基于显著性特征稀疏嵌入和极限学习机的哈希编码方法
CN112329662B (zh) 基于无监督学习的多视角显著性估计方法
CN112528845A (zh) 一种基于深度学习的物理电路图识别方法及其应用
CN111325237A (zh) 一种基于注意力交互机制的图像识别方法
CN111652273A (zh) 一种基于深度学习的rgb-d图像分类方法
Zhou et al. 2D compressive sensing and multi-feature fusion for effective 3D shape retrieval
CN108388901B (zh) 基于空间-语义通道的协同显著目标检测方法
CN113392244A (zh) 一种基于深度度量学习的三维模型检索方法及系统
CN116823782A (zh) 一种基于图卷积和多尺度特征的无参考图像质量评价方法
CN108428234B (zh) 基于图像分割结果评价的交互式分割性能优化方法
CN113011359B (zh) 一种基于图像的同时检测平面结构和生成平面描述的方法及应用
CN117312594A (zh) 一种融合双尺度特征的草图化机械零件库检索方法
CN115795069A (zh) 基于特征迁移的两阶段三维模型草图检索方法
Li et al. A new algorithm of vehicle license plate location based on convolutional neural network
CN115966017A (zh) 行为识别方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
TR01 Transfer of patent right
TR01 Transfer of patent right

Effective date of registration: 20240909

Address after: 401320 Banan District, Banan District, Chongqing, No. 8-29, Yu Nan Road, No. 8-29

Patentee after: Chongqing Boshi Intellectual Property Service Co.,Ltd.

Country or region after: China

Address before: 750021 No. 204, Wenchang North Street, Xixia District, the Ningxia Hui Autonomous Region, Yinchuan

Patentee before: BEIFANG MINZU University

Country or region before: China