CN104182765B - 一种互联网图像驱动的三维模型最优视图自动选择方法 - Google Patents
一种互联网图像驱动的三维模型最优视图自动选择方法 Download PDFInfo
- Publication number
- CN104182765B CN104182765B CN201410415993.9A CN201410415993A CN104182765B CN 104182765 B CN104182765 B CN 104182765B CN 201410415993 A CN201410415993 A CN 201410415993A CN 104182765 B CN104182765 B CN 104182765B
- Authority
- CN
- China
- Prior art keywords
- threedimensional model
- image
- internet
- view
- model
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
- 238000010187 selection method Methods 0.000 title abstract description 5
- 230000000007 visual effect Effects 0.000 claims abstract description 54
- 238000012549 training Methods 0.000 claims abstract description 50
- 238000011156 evaluation Methods 0.000 claims abstract description 9
- 238000000605 extraction Methods 0.000 claims abstract description 6
- 238000001914 filtration Methods 0.000 claims abstract description 4
- 238000000034 method Methods 0.000 claims description 71
- 230000008569 process Effects 0.000 claims description 32
- 238000010606 normalization Methods 0.000 claims description 16
- 238000002372 labelling Methods 0.000 claims description 11
- 238000004458 analytical method Methods 0.000 claims description 8
- 239000012141 concentrate Substances 0.000 claims description 7
- 238000004422 calculation algorithm Methods 0.000 claims description 6
- 230000015572 biosynthetic process Effects 0.000 claims description 5
- 238000003786 synthesis reaction Methods 0.000 claims description 5
- 230000008859 change Effects 0.000 claims description 4
- 241000270322 Lepidosauria Species 0.000 claims description 3
- 230000006855 networking Effects 0.000 claims description 3
- 238000007781 pre-processing Methods 0.000 abstract 1
- 239000013598 vector Substances 0.000 description 16
- 239000000203 mixture Substances 0.000 description 6
- 238000001514 detection method Methods 0.000 description 5
- 238000010586 diagram Methods 0.000 description 5
- 239000011159 matrix material Substances 0.000 description 5
- 238000000513 principal component analysis Methods 0.000 description 4
- 230000001149 cognitive effect Effects 0.000 description 3
- 238000011960 computer-aided design Methods 0.000 description 3
- 230000006870 function Effects 0.000 description 3
- 238000005303 weighing Methods 0.000 description 3
- 230000008901 benefit Effects 0.000 description 2
- 238000004364 calculation method Methods 0.000 description 2
- 230000019771 cognition Effects 0.000 description 2
- 238000012937 correction Methods 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 238000005286 illumination Methods 0.000 description 2
- 230000006872 improvement Effects 0.000 description 2
- 230000035699 permeability Effects 0.000 description 2
- 238000005070 sampling Methods 0.000 description 2
- 208000031481 Pathologic Constriction Diseases 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- MYSWGUAQZAJSOK-UHFFFAOYSA-N ciprofloxacin Chemical compound C12=CC(N3CCNCC3)=C(F)C=C2C(=O)C(C(=O)O)=CN1C1CC1 MYSWGUAQZAJSOK-UHFFFAOYSA-N 0.000 description 1
- 238000013480 data collection Methods 0.000 description 1
- 230000007812 deficiency Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 239000000284 extract Substances 0.000 description 1
- 238000003709 image segmentation Methods 0.000 description 1
- 239000004615 ingredient Substances 0.000 description 1
- 230000000977 initiatory effect Effects 0.000 description 1
- 238000003780 insertion Methods 0.000 description 1
- 230000037431 insertion Effects 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 238000013507 mapping Methods 0.000 description 1
- 239000000463 material Substances 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000003909 pattern recognition Methods 0.000 description 1
- 230000008447 perception Effects 0.000 description 1
- 238000012545 processing Methods 0.000 description 1
- 238000003672 processing method Methods 0.000 description 1
- 238000011002 quantification Methods 0.000 description 1
- 230000005855 radiation Effects 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 210000001525 retina Anatomy 0.000 description 1
- 238000009394 selective breeding Methods 0.000 description 1
- 230000001953 sensory effect Effects 0.000 description 1
- 238000012706 support-vector machine Methods 0.000 description 1
- 210000001215 vagina Anatomy 0.000 description 1
- 238000013316 zoning Methods 0.000 description 1
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开了一种互联网图像驱动的三维模型最优视图自动选择方法,包括以下步骤:三维模型集预处理;图像视角分类器训练:得到一个用以估计图像的观察视角的分类器,包括训练集生成、图像视角分类器训练两个步骤;互联网图像采集:通过图像搜索引擎和社交网络中用户上传的大量图像,采集互联网中相应模型的图像,包括互联网图像抓取、无关图像过滤以及前景物体图像提取三个步骤;视图投票评价:通过互联网图像对三维模型相应的视图投票,选择排序靠前的视图为最优视图,包括互联网图像视角估计以及视图排序两个步骤。本发明可以适用于包括刚体和非刚体在内的多种类别的三维模型,符合人们的视觉习惯。
Description
技术领域
本发明涉及一种互联网图像驱动的计算机图形形状分析的处理方法,属于计算机图形学技术领域,具体地说是一种互联网图像驱动的三维模型最优视图自动选择方法。
背景技术
根据成像原理以及视觉计算理论,三维模型需要在人类的视网膜或者显示屏幕上映射到二维视图后,才能被人类浏览和认知。人类对物体的认知依赖于视点位置,而使得人类能够最好地认知和理解三维模型的视点位置,称之为该三维模型的最优视点,从该视点映射得到的二维视图为最优视图。最优视图选择问题的目标在于找到能够表示三维模型主要特点的代表性视图。计算机技术的发展使得三维模型在计算机辅助设计、数字娱乐、医学、生物学等诸多领域得到了广泛的应用,为了有效地利用由此产生的大量三维模型,需要高效的浏览与认知手段。三维模型数据集的浏览过程中,应该选用具有代表性的最优视图作为缩略图来展示三维模型。人类能够合理地选择视点位置,得到三维模型的最优视图,但是对于大量的三维模型来说,完全由人工选择是不可行的,因而需要自动选择三维模型最优视图的方法。
由于最优视图和人类的感知有关,难以确切地给出最优视图严格的数学定义,因此近年来出现了多种最优视图的定义以及相应方法。这些方法都基于不同的最优视图的定义来量化人类观察物体的视觉习惯,将二维视图的优劣定义为一个三维模型与视图相关的函数,使得该函数取得最大值的视图就是最优视图。
一种是基于信息论的框架,最优视图是包含最多信息的视图,一个视图的信息量由熵函数来评价,例如文献1:Feixas M,delAcebo E,Bekaert P,et al.An informationtheory framework for the analysis of scene complexity[J].Computer GraphicsForum 18(3),95-106(1999).定义了基于互信息的场景复杂性评价,来度量场景中点或者面片之间的相关性;文献2:杨利明,王文成,吴恩化.基于视平面上特征计算的视点选择[J].计算机辅助设计与图形学学报,2008,20(9):1097-1103.在视平面上分析曲率特征度量模型的几何特征在视平面上的分布状况,以此计算熵值作为衡量视点优劣的标准;文献3:曹伟国,胡平,李华,等.基于距离直方图的最优视点选择[J].计算机辅助设计与图形学学报,2010,22(9):1515-1521.提出基于距离直方图的三维模型最优视点选择方法,计算距离直方图的香农熵并作为衡量视点优劣的标准,又如文献4:Joshua P,Philip S,AlekseyG,et al.A planar-reflective symmetry transform for3D shapes[J].ACMTransactions on Graphics,2006,25:549-559.提出的对称性方法、文献5:Yamauchi H,Saleem W,Yoshizawa S,Karni,et al.Towardsstableand salient multi-viewrepresentation of3D shapes.In Proceedings of the IEEE InternationalConference on Shape Modeling and Applications2006(SMI’06),2006:40.提出的相似性方法等等使得视觉冗余信息最小化。
虽然基于这种定义,有着众多的评价标准及相应方法,但是三维模型随着人们的需求有各种类别,使得难以有适用于所有种类三维模型的通用评价标准。此外,这些方法并不考虑在视觉上能够对模型加以区别,然而同类三维模型也会有几何变化,这样也就难以保证同类模型具有人类感官上相似的最优视图,因此,这些方法不适用于对三维数据集的高效浏览。
此外,这些定义都试图量化人类的对于三维模型的视觉认知。但是这些量化标准都相对主观。一种更好的方法是引入人们对他们感觉的最优视图的投票和选择,以往这种人工标记需要很多的人力成本来调查人们的观点。但是,人们在拍摄照片的时候往往带有对于物体视角的喜好,这可以反映出人们对于三维模型最优视图的选择。而且随着互联网的和图片共享服务的兴起,人们愿意在互联网上发布自己拍摄的图像。这样可以利用在互联网上的大量图像直接获取人们对于三维模型最优视图的选择。此外,这种定义是在类别层次上的,只需要对于一类三维模型进行计算和选择,不需要对每个模型的每个视图进行计算,从而可以节省计算代价。文献6:中国发明专利,CN102163343,基于互联网图像的三维模型最佳视角自动获取方法,使用了这种定义来获得三维模型最优视图,但是仅仅利用了互联网图像和三维模型视图之间一些简单特征的匹配,对于人体等非刚体以及其他较为复杂的模型的效果不佳,而且需要对于每个模型的每个视图进行处理,需要很大的计算开销。
发明内容
发明目的:本发明所要解决的技术问题是针对现有技术的不足,提供一种互联网图像驱动的三维模型最优视图自动选择方法,利用互联网图像来支持对三维模型最优视图的自动选择。
为了解决上述技术问题,本发明公开了一种互联网图像驱动的三维模型最优视图自动选择方法,包括以下步骤:
步骤一,三维模型集预处理:对输入的三维模型集中的各个三维模型进行预处理,得到所有三维模型的类别,包括姿态校正、尺度归一化以及三维模型类别判断三个步骤,所述三维模型集中每个三维模型设有类别或者描述标记;
姿态校正过程调整三维模型的坐标系,将三维模型的姿态校正为直立状态;
尺度归一化过程将三维模型的大小归一化为单位长度;
三维模型类别判断过程根据已有三维模型集来确定不在三维模型集中未分类三维模型的所属类别;
步骤二,图像视角分类器训练:得到一个用以估计图像的观察视角的分类器,包括训练集生成以及图像视角分类器训练两个步骤;
训练集生成过程渲染带有贴图和纹理的三维模型,并采集各个角度的图像和视角标记;
图像视角分类器训练过程使用之前生成的训练集,来训练得到一个对于某类物体图像的视角分类器;
步骤三,互联网图像采集:通过图像搜索引擎和社交网络中用户上传的大量图像,采集互联网中相应模型的图片,包括图像抓取、无关图像过滤以及前景物体图像提取三个步骤:
互联网图像抓取过程以三维模型类别描述为关键词,通过爬虫抓取图像搜索引擎和社交网络中用户上传的大量图像;
无关图像过滤过程过滤掉与三维模型类别描述无关的图像,保留相关的图像;
前景物体图像提取过程将图像中背景去除,提取出前景物体及其包围盒,并放置于纯白色背景的新图像之中,构建相应三维模型的候选互联网图像集合;
步骤四,视图评价:通过互联网图像对三维模型相应的视图投票,选择排序靠前的视图为最优视图,包括互联网图像视角估计以及视图排序两个步骤;
互联网图像视角估计过程使用图像视角分类器对于互联网图像集合的所有图像的视角进行估测和计算;
视图排序过程中,三维模型对应的互联网图像集合中每幅图像对相应的视角进行投票,按视图得到的票数降序排列,排序最靠前视图的为该模型的最优视图。
本发明步骤一中所述姿态校正部分还包括以下步骤:步骤111计算三维模型的中心,将三维模型平移至以该模型的中心为原点的坐标系上。步骤112通过PCA(主成分分析,Principal Component Analysis)方法(文献7:Pearson K.On lines and planes ofclosest fit to systems of points in space[J].Philosophical Magazine,1901,2(6):559-572.)计算模型的主轴方向。步骤113将模型所在坐标系的各个坐标轴方向调整为PCA方法得到的主轴方向。
本发明步骤一中所述尺度归一化部分还包括以下步骤:步骤121计算三维模型的中心以及三维模型上的各个顶点到中心的距离。步骤122,以最长的距离作为单位长度对各个顶点进行归一化。
本发明步骤一中所述三维模型类别判断部分还包括以下步骤:步骤131对每个三维模型进行特征提取,得到三维模型的特征。步骤132利用已有三维模型集每个模型的特征和类别标记作为训练集进行有监督学习,得到三维模型类别的分类器。步骤133对于不在步骤132中已有三维模型集里的三维模型,使用步骤132得到的分类器该三维模型确定所属类别,并加入三维模型集相应类别中,得到完全分好类的三维模型集M={M1,...,Mn},其中n为三维模型的数量。
本发明步骤二中所述三维模型视图采样部分还包括以下步骤:步骤211从带有贴图和纹理的三维模型数据库中,利用三维模型类别或描述标签检索相应的三维模型,数据库中的所有三维模型都经过了预先的校正。步骤212,将相应的三维模型放入坐标轴原点,附上贴图和纹理,并加入在红绿蓝阿尔法颜色(red green blue alpha,RGBA)空间中的亮度值为(0.4,0.4,0.4,1)的均一白色全局环境光照。步骤213,利用预先定义的正二十面体的坐标生成初始包围三维模型的正二十面体,对正二十面体进行曲面细分得到离散化的视点位置。步骤214,在每个视点上渲染三维模型,得到三维模型的多个视角合成的图像、视角标记和前景物体包围盒。
本发明步骤二中所述图像视角分类器训练部分还包括以下步骤:步骤221,对于某类三维模型,提取之前步骤得到的合成的图像的方向梯度直方图(Histogram of orientedgradient,HOG)特征(文献8:Dalai N,Triggs B.Histograms of oriented gradients forhuman detection[C]//Computer Vision and Pattern Recognition,2005.CVPR2005.IEEE Computer Society Conference on.IEEE,2005,1:886-893.)。步骤222,以方向梯度直方图特征、图像视角标记以及前景物体包围盒作为输入,使用文献9:P.Felzenszwalb,R.Girshick,D.McAllester,D.Ramanan,Object Detection withDiscriminatively Trained Part Based Models IEEE Transactions on PatternAnalysis and Machine Intelligence,Vol.32,No.9,Sep.2010提出的可变形部件模型(Deformable part models,DPM)训练得到图像视角分类器。
本发明步骤三中所述互联网图像抓取部分还包括以下步骤:步骤311以三维模型类别描述作为关键词,利用基于文本的图像搜索在互联网和社交网络上进行检索。步骤312,对于检索结果,构建一个互联网资源爬虫下载检索结果中的图像,构建各类三维模型的互联网图像集。
本发明步骤三中所述无关图像过滤部分还包括以下步骤:步骤321,采用显著性测试算法衡量图像集中每幅图像的显著性并过滤掉显著性物体过多、背景复杂的图像。
本发明步骤三中所述前景物体图像提取部分还包括以下步骤:步骤331,采用文献10:Boykov Y,Veksler O,Zabih R.Fast approximate energy minimization via graphcuts[J].Pattern Analysis and Machine Intelligence,IEEE Transactions on,2001,23(11):1222-1239.提出的Graph Cuts算法分割出互联网图像的前景物体并得到前景物体的包围盒。步骤332,依据包围盒裁剪图像,仅保留前景物体。
本发明步骤四中所述互联网图像视角估计部分还包括以下步骤:步骤411,从互联网图像集中选择属于同类型物体的图像,使用训练得到的图像视角分类器估计互联网图像的视角。
本发明步骤四中所述图像投票部分还包括以下步骤:步骤421,三维模型对应的互联网图像集合中每幅图像对相应的视角进行投票。步骤422,按视图得到的票数降序排列,输出排序最靠前的视图的为该类三维模型的最优视图。
本发明不同于已有的最优视图几何度量标准的大量研究,本发明采用另外一种评价标准:采用互联网图像获取人们对于三维模型最优视图的评价并对三维模型的各个视图进行投票,票数最多的视图为三维模型的最优视图。这样,三维模型的最优视图选择问题就可以划归为互联网图像收集和互联网图像视角估计的机器学习问题,而这些在图像识别的问题中得到了大量的研究。采用互联网图像投票作为最优视图的选择标准以及使用带有纹理和贴图的三维模型作为训练集构建图像视角分类器,是本发明区别于以往传统的主观选择方法之处,使得本发明的选择方法建立在客观量化的评价标准上,实现了技术上的可重复再现性,满足了工业计算机领域图形图像处理的基本要求。
有益效果:本发明具有以下优点:首先,本发明是一种通用的最优视图选择方法,可以适用于多种类别的三维模型;其次,本发明依据对于互联网图像的视角估计,是一种较为可观的度量方式;再次,本发明利用带有纹理和贴图的三维模型来训练图像视角分类器,不需要大量人工标注;最后,本发明是在三维模型类别层面上的,具有较高的计算速度,且同类别三维模型的最优视图具有较高的姿态一致性。
附图说明
下面结合附图和具体实施方式对本发明做更进一步的具体说明,本发明的上述和/或其他方面的优点将会变得更加清楚。
图1是本发明的处理流程示意图。
图2是输入的一个无标记的汽车模型。
图3是生成三维模型采样视点的示意图。
图4是对带有纹理和贴图的三维模型采样得到的多个二维视图图像。
图5是可变形部件模型在模型上检测到的部件。
图6是训练得到的各个视角下可变形部件模型的部件构成。
图7是谷歌搜索引擎上关于轿车类别的三维模型的描述标记搜索结果的示意图。
图8a~8d是对轿车类别的三维模型选择得到的最优视图的示意图。
具体实施方式:
如图1所示,本发明公开的一种三维模型最优视图的自动选择方法,具体包括以下步骤:
步骤一,三维模型集预处理:对输入的三维模型进行预处理以减少三维模型不同姿态以及缩放尺度的影响,并得到所有模型的类别,包括姿态校正、尺度归一化以及三维模型类别判断三个步骤,所述三维模型集中每个三维模型设有类别或者描述标记。
步骤二,图像视角分类器训练:得到一个用以估计图像的观察视角的分类器,包括训练集生成以及图像视角分类器训练两个步骤。
步骤三,互联网图像采集:通过图像搜索引擎和社交网络中用户上传的大量图像,采集互联网中相应模型的图片,包括图像抓取、无关图像过滤以及前景物体图像提取三个步骤。
步骤四,视图评价:通过互联网图像对三维模型相应的视图投票,选择排序靠前的视图为最优视图,包括互联网图像视角估计以及视图排序两个步骤。
本发明的输入三维模型集为含有已分好类且有类别标记的三维网格模型集合以及带有纹理和贴图的三维模型集合。
下面具体介绍各个步骤的主要流程:
1.三维模型集预处理
三维模型集预处理:对输入的三维模型进行预处理以减少三维模型不同姿态以及缩放尺度的影响,并得到所有模型的类别,包括姿态校正、尺度归一化以及三维模型类别判断三个步骤。
1.1.姿态校正
姿态校正过程调整三维模型的坐标系,将三维模型的姿态校正为直立状态,减少三维模型不同姿态的影响。过程如下
步骤1通过对三维模型顶点坐标进行排序,得到三维模型在原坐标系上x轴方向上的最大值xmax及最小值xmin,y轴方向上的最大值ymax及最小值ymin,以及z轴方向上的最大值zmax及最小值zmin。得到三维模型的中心的坐标(xcenter,ycenter,zcenter)=((xmax-xmin)/2,(ymax-ymin)/2,(zmax-zmin)/2),将三维模型每个顶点的坐标减去中心坐标,顶点之间的连接关系保持不变,设原顶点的坐标为(x,y,z),那么对应的新的顶点的坐标为(x-xcenter,y-ycenter,z-zcenter)。这样就使得三维模型平移至以该模型的中心为原点的坐标系上。
步骤2通过主成分分析方法计算模型的主轴方向,设三维模型顶点坐标组成的矩阵其中n为三维模型顶点个数,然后计算X中每列坐标的平均值
其中为i为列号i=1,2,3,将X中每列减去相应的平均值xi得到新的矩阵
得到协方差矩阵
对协方差矩阵S进行对角化
Sqi=λiqi,i=1,2,3,
得到3个特征向量q1,q2,q3和特征值λ1,λ2,λ3,特征向量q1,q2,q3分别对应调整后的坐标系的x轴、y轴、z轴方向。
步骤3将模型所在坐标系的各个坐标轴方向调整为主成分分析方法得到的三个主成分轴方向,新的顶点坐标组成的矩阵X′=X·[q1,q2,q3]。
1.2.尺度归一化。
尺度归一化过程将三维模型的大小归一化为单位长度,减少三维模型不同缩放尺度的影响。过程如下:
步骤1当前坐标系下三维模型的中心即为坐标原点,三维模型上的各个坐标为(xi,yi,zi)的顶点到中心的距离为
步骤2以di中最长的距离dmax作为单位长度,将三维模型上各个顶点的坐标除以该距离,进行尺度归一化,新的顶点坐标组成的矩阵X″=X′./dmax。
1.3.三维模型类别判断
三维模型类别判断过程根据已有三维模型集来确定不在该集合中未分类三维模型的所属类别,对于已在在该集合中的三维模型则略过此步骤。过程如下:
步骤1对每个三维模型进行特征提取,得到三维模型的特征,所提取特征为文献11:Vranic D V,Saupe D.3D Model Retrieval.Proc.of the Spring Conference onComputer Graphics and its Applications(SCCG2000),Budmerice,2000:89~93.提出的由186维的深度视图特征、150维的轮廓特征、136维的射线特征组成的混合描述子,将这些特征组合起来成为每个三维模型的特征向量。
步骤2利用三维模型集每个已分类模型的特征和相应的类别标记作为训练集,应用AdaBoost算法进行有监督学习,由于三维模型集中有较多类别,因此使用一对多分类策略将多分类问题转为多个二分类问题,在训练时当前类别的样本归为一类,其他剩余的样本归为另一类,得到三维模型类别的分类器。
步骤3对于不在数据集里的新模型,向分类器输入步骤1中提取的特征,使用步骤2中得到的分类器确定模型所属类别,并加入三维模型集中相应类别。
2.图像视角分类器训练
图像视角分类器训练:得到一个用以估计图像的观察视角的分类器,包括训练集生成以及图像视角分类器训练两个步骤。
2.1.训练集生成
训练集生成过程渲染带有贴图和纹理的三维模型,并采集各个角度的图像和视角标记。过程如下:
步骤1从带有贴图和纹理的三维模型数据库中,利用三维模型类别或描述标签Li为关键词,通过Li与三维数据库中模型文本描述的匹配来检索相应的三维模型,数据库中的所有三维模型都经过了预先的校正。
步骤2将与Li相匹配的三维模型逐一放入坐标轴原点,依照三维模型文件提供的贴图和纹理图像和位置给三维模型贴图、附上纹理、设置材质,设置背景为纯白色,加入均一白色全局环境光照,其在红绿蓝阿尔法颜色(red green blue alpha,RGBA)空间中红色通道的值为0.4,绿色通道的值为0.4,蓝色通道的值为0.4,阿尔法通道的值为1,这样构成(0.4,0.4,0.4,1)的环境光照亮度值,环境光照充满着整个场景,使得场景中的物体被环境光从各个方向照射,场景和物体上几乎不存在阴影。
步骤3采用伪均匀法来离散化视点位置,根据文献11:M.Woo,J.Neider,T.Davis,D.Shreiner.OpenGL Programming Guide,Addison-Wesley,1999:2.10.中正二十面体的生成方法,首先依照预先定义的正二十面体的12个顶点的坐标位置 生成一个体心位于原点(0,0,0)的正二十面体。通过扩张这个正二十面体体心到每个顶点的距离,可以生成初始能够包围三维模型的正二十面体,对正二十面体进行Loop曲面细分,在三角形面片每边的中点处插入新顶点,并将其两两相连,使每个三角形面片剖分为4个三角形面片,Loop曲面细分算法对每个顶点及其相邻顶点计算权重得到新的顶点位置,通过执行Loop曲面细分,得到离散化的均匀分布的视点位置。
步骤4在每个视点上,以视点到模型中心即坐标系原点作为相机的方向,渲染三维模型,截取多个视点下的二维彩色图像得到三维模型的多个视角合成的图像;以这些视点的参数作为图像的视角标记;从图像中找到非白色的像素在图像坐标系中的坐标,并得到其中X轴方向的最大值xmax和最小值xmin,y轴方向的最大值ymax和最小值ymin,得到图像中前景物体包围盒的四个顶点的坐标分别为(xmin,ymin),(xmin,ymax),(xmax,ymin),(xmax,ymax)。
2.2.视角分类器训练
步骤1对于类别或描述标签为Li的三维模型,提取其多个视角图像的方向梯度直方图特征,将视角图像分成固定尺寸的小的连通区域,每个连通区域称为细胞;计算细胞单元中各像素点梯度或边缘的局部方向直方图;把这些局部直方图多个细胞单元内,进行对比度归一化;将这些直方图组合到一起构成金字塔形的视角图像特征描述。
步骤2采用可变形部件模型将图像中的物体表示为根滤波器(root filter)和一系列部件滤波器(part filter)的星形连接而成的组合。根滤波器覆盖整个物体以获取全局的整体信息,部件滤波器置于方向梯度直方图特征金字塔的底部,用以覆盖物体更小的部件,获取局部信息。然后通过一系列形变参数β={F0,F1,...,Fn,d1,...,dn,b}和部件假设为L时的特征特征向量来描述整个模型,其中β为模型的参数向量,F1,...,Fn为各部件滤波器的参数向量,d1,...,dn为各部件的形变向量,b为偏移向量,φ(ln)为部件vn放置在位置ln时的方向梯度直方图特征向量,-φd(ln-l0)为部件之间相对位置的特征向量。这些参数描述了检测中部件的实际位置相对其训练位置的偏移程度,以β和的点积,作为当前部件位置的得分。对于一类三维模型,以2.1中以生成的该模型各个视角下的二维视图作为训练正样本,以其他视角以及随机图像作为负样本,以每幅二维图像的视角作为标记。通过隐支持向量机(latent support vector machine,Latent-SVM)进行训练,初始化参数向量β,利用当前的参数β,采用动态规划对训练集中正样本和负样本中的每张图像进行扫描检测,找到每张图像上得分最高的部件位置假设,然后采用梯度下降最小化目标函数其中是第i个样本根据得分最高的部件位置向量得到得特征向量,N为训练集中剩余样本的总数,yi∈{1,-1}为样本正负标记,从而得到当前循环的最优参数向量β。不断利用新的最优参数向量β进行检测并对β进行修正,循环500万次,得到最终的参数向量β,从而得到图像视角的分类器。
3.图像视角分类器训练
3.1.图像抓取
步骤1以三维模型类别或描述标签Li作为关键词,利用基于文本的图像搜索在谷歌、百度以及必应等互联网搜索引擎和社交网络上进行检索,对于谷歌图片搜索来说使用HTTPGET请求进行图像检索,GET请求的查询参数为q:Li以及tbm:isch,即生成类似于https://www.google.com/search?q=Li&tbm=isch的HTTPURL来请求检索结果;
步骤2对于检索结果,通过分析页面的框架构建一个互联网资源爬虫来下载图像,对于页面中类别为rg_di的div块中使用正则表达式提取出检索到的图像的HTTP地址;然后根据这些HTTP地址下载所有的图像。
3.2.无关图像过滤
步骤1采用文献12Zhai Y,Shah M.Visual attention detection in videosequences using spatiotemporal cues[C]//Proceedings of the14th annual ACMintemational conference on Multimedia.ACM,2006:815-824.中图像显著度区域计算的方法得到每幅图像的高显著性的区域,首先计算图像像素级的显著度为每个像素点颜色与图像中所有其他像素点的欧式距离与其他像素点颜色直方图频率的乘积,然后,根据得到的显著性高的像素点对显著性区域进行初始化,以其为中心生成种子区域,通过计算区域边缘的能量进行迭代区域增长,最终得到一个矩形的显著区域。扩展的区域重叠时,将重叠的区域合并到一起作为一个连通区域,如果这些块的总数超过5块,认为这张图像太复杂而进行排除。这样,仅保留了前景物体明晰的图像,过滤掉了无关的图像。
3.3.前景物体图像提取
步骤1采用图割算法把图像分割问题转化为二值分类问题,然后利用图论重的最大流原理进行解决,假设图的构成为G=<y,E>,其中y为节点集,E为边缘集,通过最小化Gibbs能量,给y中所有节点附上值,从而分割出互联网图像的前景物体并得到图像中前景物体包围盒的四个顶点的坐标分别为(xmin,ymin),(xmin,ymax),(xmax,ymin),(xmax,ymax)。
步骤2依据包围盒的坐标,裁剪图像中位于包围盒之外的部分,得到仅保留前景物体的图像。
4.视图排序
4.1.互联网图像视角估计
步骤1从互联网图像集中选择与类别或描述标签Li匹配的图像Ii,使用训练得到的图像视角分类器估计互联网图像Ii得到其拍摄时的视角Vi。
4.2.图像投票
步骤1给一类三维模型的每个视角Vi设置一个计数器Ci,并将Ci初始化为0,如果使用图像视角分类器得到的互联网图像Ii的视角Vi,那么对视角Vi投一票,使得Vi对应的计数器Ci加一。最终Ci表示互联网上这类模型视角为Vi的图像数量。
步骤2按每个视图得到的票数Ci降序排列,输出排序最靠前的视图作为该类三维模型的最优视图。
实施例
本实施例中,输入三维模型集合,通过本发明所述的三维模型最优视图的自动选择方法,可以得到每个三维模型的最优视图。以一个无标记的汽车模型为例,其三视图如图2所示,具体实施过程如下:
步骤一中,该三维模型经过姿态校正过程、尺度归一化过程后,判断出这个三维模型的类别为轿车,添加相应类别的中文标记“轿车”和英文标记“Car”。
步骤二中,训练集生成过程首先生成包围模型的二十面体,对这个二十面体进行一次曲面细分,以生成的多面体顶点作为视点,如图3所示,在每个视点上取得训练集中每个三维模型的二维投影,得到这组训练集中三维模型各个视角下带有纹理和贴图的二维图像和视角标记,如图4所示。图像视角分类器训练过程中提取这些图像的特征,并利用图像附带的视角标记训练得到基于可变形部件模型的图像视角分类器,可变形部件模型在模型上检测到的部件如图5所示,训练得到的各个视角下每个部件的构成如图6所示。
步骤三中,互联网图像抓取过程使用三维模型的类别标记“轿车”和“Car”作为关键词在谷歌图片搜索引擎上进行搜索,得到的搜索结果图像如图7所示,下载搜索结果中的图像,对这些图像进行无关图像过滤排除掉与轿车整体外观无关的图像,再对这些图像提取存在于前景中的轿车,删除背景,从而构建这一类三维模型的互联网图像集。
步骤四中,通过互联网图像视角估计和图像投票过程后,对于轿车相关的图像,从前侧视角拍摄的图像最多,因此前侧视角得到的票数最多,选择这个视角作为三维模型最优视图,得到三维模型的最优视图如图8a~图8d所示。
本发明提供了一种互联网图像驱动的三维模型最优视图自动选择方法的思路,具体实现该技术方案的方法和途径很多,以上所述仅是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本发明的保护范围。本实施例中未明确的各组成部分均可用现有技术加以实现。
Claims (6)
1.一种互联网图像驱动的三维模型最优视图自动选择方法,其特征在于,包括以下步骤:
步骤一,三维模型集预处理:对输入的三维模型集中的各个三维模型进行预处理,得到所有三维模型的类别,包括姿态校正、尺度归一化以及三维模型类别判断三个步骤,所述三维模型集中每个三维模型设有类别或者描述标记;
姿态校正过程调整三维模型的坐标系,将三维模型的姿态校正为直立状态;
尺度归一化过程将三维模型的大小归一化为单位长度;
三维模型类别判断过程根据已有三维模型集来确定不在三维模型集中未分类三维模型的所属类别;
步骤二,图像视角分类器训练:得到一个用以估计图像的观察视角的分类器,包括训练集生成以及图像视角分类器训练两个步骤;
训练集生成过程渲染带有贴图和纹理的三维模型,并采集各个角度的图像和视角标记;
图像视角分类器训练过程使用之前生成的训练集,来训练得到一个对于一类物体图像的视角分类器;
步骤三,互联网图像采集:采集互联网中相应三维模型的图片,包括互联网图像抓取、无关图像过滤以及前景物体图像提取三个步骤:
互联网图像抓取过程以三维模型类别描述为关键词,通过爬虫抓取图像搜索引擎和互联网中用户上传的图像;
无关图像过滤过程过滤掉与三维模型类别描述无关的图像,保留相关的图像;
前景物体图像提取过程将图像中的背景去除,提取出前景物体及其包围盒,并放置于纯白色背景的新图像之中,构建相应三维模型的互联网图像集合;
步骤四,视图评价:通过互联网图像对三维模型相应的视图投票,选择排序靠前的视图为最优视图,包括互联网图像视角估计以及视图排序两个步骤:
互联网图像视角估计过程使用图像视角分类器对于互联网图像集合的所有图像的视角进行估测和计算;
视图排序过程中,三维模型对应的互联网图像集合中每幅图像对相应的视角进行投票,按视图得到的票数降序排列,排序最靠前视图的为该三维模型的最优视图;
步骤一中所述姿态校正部分包括以下步骤:
步骤111,计算三维模型的中心,将三维模型平移至以该三维模型的中心为原点的坐标系上;
步骤112,通过主成分分析方法计算三维模型的主轴方向;
步骤113,将三维模型所在坐标系的各个坐标轴方向调整为PCA方法得到的主轴方向;
步骤一中所述尺度归一化部分包括以下步骤:
步骤121,计算三维模型的中心以及三维模型上的各个顶点到中心的距离;
步骤122,以最长的距离作为单位长度对各个顶点进行归一化;
步骤一中所述三维模型类别判断部分包括以下步骤:
步骤131,对每个三维模型进行特征提取,得到三维模型的特征;
步骤132,利用已有三维模型集中每个三维模型的特征和类别标记作为训练集进行学习,得到三维模型类别的分类器;
步骤133,对于不在步骤132中已有三维模型集里的三维模型,使用步骤132得到的分类器该三维模型确定所属类别,并加入三维模型集相应类别中,得到完全分好类的三维模型集M={M1,…,Mn},其中n为三维模型的数量;
步骤二中训练集生成部分包括以下步骤:
步骤211,从带有贴图和纹理的三维模型数据库中,利用三维模型类别或描述标签检索相应的三维模型;
步骤212,将相应的三维模型放入坐标轴原点,附上贴图和纹理,并加入均一白色全局环境光照;
步骤213,利用预先定义的正二十面体的坐标生成初始包围三维模型的正二十面体,对正二十面体进行曲面细分得到离散化的视点位置;
步骤214,在每个视点上渲染三维模型,得到三维模型的多个视角合成的图像、视角标记和前景物体包围盒。
2.根据权利要求1所述的一种互联网图像驱动的三维模型最优视图自动选择方法,其特征在于,步骤二中图像视角分类器训练部分包括以下步骤:
步骤221,对于一类三维模型,提取之前步骤得到的合成的图像的方向梯度直方图特征;
步骤222,以方向梯度直方图特征、图像视角标记以及前景物体包围盒作为输入,使用可变形部件模型训练得到图像视角分类器。
3.根据权利要求2所述的一种互联网图像驱动的三维模型最优视图自动选择方法,其特征在于,步骤三中所述互联网图像抓取部分包括以下步骤:
步骤311,以三维模型类别描述作为关键词,利用基于文本的图像搜索在互联网上进行检索;
步骤312,对于检索结果,构建一个互联网资源爬虫下载检索结果中的图像,构建各类三维模型的互联网图像集。
4.根据权利要求3所述的一种互联网图像驱动的三维模型最优视图自动选择方法,其特征在于,步骤三中所述无关图像过滤部分包括以下步骤:
步骤321,采用显著性测试算法衡量图像集中每幅图像的显著性并过滤掉显著性物体多且背景复杂的图像。
5.根据权利要求4所述的一种互联网图像驱动的三维模型最优视图自动选择方法,其特征在于,步骤三中前景物体图像提取部分包括以下步骤:
步骤331,采用图割算法分割出互联网图像的前景物体并得到前景物体的包围盒;
步骤332,依据包围盒裁剪图像,仅保留前景物体。
6.根据权利要求5所述的一种互联网图像驱动的三维模型最优视图自动选择方法,其特征在于,步骤四中互联网图像视角估计部分包括以下步骤:
步骤411,从互联网图像集中选择属于同类型物体的图像,使用训练得到的图像视角分类器估计互联网图像的视角;
步骤四中图像投票部分包括以下步骤:
步骤421,三维模型对应的互联网图像集合中每幅图像对相应的视角进行投票;
步骤422,按视图得到的票数降序排列,输出排序最靠前的视图的为该类三维模型的最优视图。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201410415993.9A CN104182765B (zh) | 2014-08-21 | 2014-08-21 | 一种互联网图像驱动的三维模型最优视图自动选择方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201410415993.9A CN104182765B (zh) | 2014-08-21 | 2014-08-21 | 一种互联网图像驱动的三维模型最优视图自动选择方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN104182765A CN104182765A (zh) | 2014-12-03 |
CN104182765B true CN104182765B (zh) | 2017-03-22 |
Family
ID=51963791
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201410415993.9A Expired - Fee Related CN104182765B (zh) | 2014-08-21 | 2014-08-21 | 一种互联网图像驱动的三维模型最优视图自动选择方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN104182765B (zh) |
Families Citing this family (17)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
EP3286737A1 (en) * | 2015-04-23 | 2018-02-28 | Ostendo Technologies, Inc. | Methods for full parallax compressed light field synthesis utilizing depth information |
CN105303192B (zh) * | 2015-09-08 | 2019-03-26 | 苏州大学张家港工业技术研究院 | 一种基于混合描述子的形状匹配方法及系统 |
CN107689073A (zh) * | 2016-08-05 | 2018-02-13 | 阿里巴巴集团控股有限公司 | 图像集的生成方法、装置及图像识别模型训练方法、系统 |
FR3060170B1 (fr) * | 2016-12-14 | 2019-05-24 | Smart Me Up | Systeme de reconnaissance d'objets base sur un modele generique 3d adaptatif |
US10769411B2 (en) * | 2017-11-15 | 2020-09-08 | Qualcomm Technologies, Inc. | Pose estimation and model retrieval for objects in images |
US10755112B2 (en) * | 2018-03-13 | 2020-08-25 | Toyota Research Institute, Inc. | Systems and methods for reducing data storage in machine learning |
CN108563742B (zh) * | 2018-04-12 | 2022-02-01 | 王海军 | 自动创建人工智能图像识别训练素材与标注文件的方法 |
CN108961422B (zh) * | 2018-06-27 | 2023-02-14 | 百度在线网络技术(北京)有限公司 | 三维模型的标记方法和装置 |
CN109325957B (zh) * | 2018-08-30 | 2022-08-19 | 盈嘉互联(北京)科技有限公司 | 一种数值成像bim楼宇群外轮廓提取装置、系统和方法 |
CN109859306A (zh) * | 2018-12-24 | 2019-06-07 | 青岛红创众投科技发展有限公司 | 一种基于机器学习的从照片中提取人体模型的方法 |
CN110263203B (zh) * | 2019-04-26 | 2021-09-24 | 桂林电子科技大学 | 一种结合皮尔逊重构的文本到图像生成方法 |
CN111080748B (zh) * | 2019-12-27 | 2023-06-02 | 北京工业大学 | 基于互联网的图片自动合成系统 |
CN113377983A (zh) * | 2021-07-09 | 2021-09-10 | 联想(北京)有限公司 | 三维图像的图像特征的提取方法、装置及电子设备 |
CN114419233A (zh) * | 2021-12-31 | 2022-04-29 | 网易(杭州)网络有限公司 | 模型生成方法、装置、计算机设备及存储介质 |
CN115471642A (zh) * | 2022-11-14 | 2022-12-13 | 中国电子科技集团公司第二十八研究所 | 一种采用粒子群优化的三维模型最优视角选择方法 |
CN116434220B (zh) * | 2023-04-24 | 2024-02-27 | 济南大学 | 基于描述符和AdaBoost算法的三维物体分类方法及系统 |
CN116311225B (zh) * | 2023-05-18 | 2023-07-21 | 四川新迎顺信息技术股份有限公司 | 一种基于图像识别的大数据采集方法、数据管理方法及系统 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6580821B1 (en) * | 2000-03-30 | 2003-06-17 | Nec Corporation | Method for computing the location and orientation of an object in three dimensional space |
CN101840509A (zh) * | 2010-04-30 | 2010-09-22 | 深圳华昌视数字移动电视有限公司 | 人眼观察视角的测量方法及装置 |
CN102163343A (zh) * | 2011-04-11 | 2011-08-24 | 西安交通大学 | 基于互联网图像的三维模型最佳视角自动获取方法 |
CN102254338A (zh) * | 2011-06-15 | 2011-11-23 | 西安交通大学 | 基于最大化可视信息的三维场景最佳视角自动获取方法 |
CN103295025A (zh) * | 2013-05-03 | 2013-09-11 | 南京大学 | 一种三维模型最优视图的自动选择方法 |
-
2014
- 2014-08-21 CN CN201410415993.9A patent/CN104182765B/zh not_active Expired - Fee Related
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6580821B1 (en) * | 2000-03-30 | 2003-06-17 | Nec Corporation | Method for computing the location and orientation of an object in three dimensional space |
CN101840509A (zh) * | 2010-04-30 | 2010-09-22 | 深圳华昌视数字移动电视有限公司 | 人眼观察视角的测量方法及装置 |
CN102163343A (zh) * | 2011-04-11 | 2011-08-24 | 西安交通大学 | 基于互联网图像的三维模型最佳视角自动获取方法 |
CN102254338A (zh) * | 2011-06-15 | 2011-11-23 | 西安交通大学 | 基于最大化可视信息的三维场景最佳视角自动获取方法 |
CN103295025A (zh) * | 2013-05-03 | 2013-09-11 | 南京大学 | 一种三维模型最优视图的自动选择方法 |
Non-Patent Citations (1)
Title |
---|
"一种三维模型最优视图的分类选择方法";李晨曦 等;《智能系统学报》;20140228;第9卷(第1期);第12-18页 * |
Also Published As
Publication number | Publication date |
---|---|
CN104182765A (zh) | 2014-12-03 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN104182765B (zh) | 一种互联网图像驱动的三维模型最优视图自动选择方法 | |
Wiley et al. | Computer vision and image processing: a paper review | |
CN103514456B (zh) | 基于压缩感知多核学习的图像分类方法及其装置 | |
CN110852182B (zh) | 一种基于三维空间时序建模的深度视频人体行为识别方法 | |
Nedović et al. | Stages as models of scene geometry | |
CN103295025B (zh) | 一种三维模型最优视图的自动选择方法 | |
CN108898145A (zh) | 一种结合深度学习的图像显著目标检测方法 | |
CN105528575B (zh) | 基于上下文推理的天空检测方法 | |
CN101211356A (zh) | 一种基于显著区域的图像查询方法 | |
CN105205135B (zh) | 一种基于主题模型的3d模型检索方法及其检索装置 | |
CN103699578B (zh) | 一种基于谱图分析的图像检索方法 | |
CN104112143A (zh) | 基于加权超球支持向量机算法的图像分类方法 | |
CN105930497B (zh) | 基于图像边缘和线条特征的三维模型检索方法 | |
CN104598889B (zh) | 人体行为识别的方法和装置 | |
Pound et al. | A patch-based approach to 3D plant shoot phenotyping | |
CN111709941B (zh) | 一种面向病理图像的轻量级自动化深度学习系统及方法 | |
CN105574545B (zh) | 街道环境图像多视角语义切割方法及装置 | |
CN108960260A (zh) | 一种分类模型生成方法、医学影像图像分类方法及装置 | |
CN106886754B (zh) | 一种基于三角面片的三维场景下的物体识别方法及系统 | |
Wu et al. | [Retracted] 3D Film Animation Image Acquisition and Feature Processing Based on the Latest Virtual Reconstruction Technology | |
CN113920498B (zh) | 一种基于多层特征金字塔的点云3d物体检测方法 | |
Zhang et al. | Fully automatic system for fish biomass estimation based on deep neural network | |
CN114358279A (zh) | 图像识别网络模型剪枝方法、装置、设备及存储介质 | |
CN106980878B (zh) | 三维模型几何风格的确定方法及装置 | |
CN115115847B (zh) | 三维稀疏重建方法、装置及电子装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
C14 | Grant of patent or utility model | ||
GR01 | Patent grant | ||
CF01 | Termination of patent right due to non-payment of annual fee |
Granted publication date: 20170322 |
|
CF01 | Termination of patent right due to non-payment of annual fee |