CN112330825A - 一种基于二维图像信息的三维模型检索方法 - Google Patents

一种基于二维图像信息的三维模型检索方法 Download PDF

Info

Publication number
CN112330825A
CN112330825A CN202011268458.7A CN202011268458A CN112330825A CN 112330825 A CN112330825 A CN 112330825A CN 202011268458 A CN202011268458 A CN 202011268458A CN 112330825 A CN112330825 A CN 112330825A
Authority
CN
China
Prior art keywords
image
dimensional model
dimensional
view
similarity
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202011268458.7A
Other languages
English (en)
Inventor
褚晶辉
郑博文
聂为之
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tianjin University
Original Assignee
Tianjin University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tianjin University filed Critical Tianjin University
Priority to CN202011268458.7A priority Critical patent/CN112330825A/zh
Publication of CN112330825A publication Critical patent/CN112330825A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T19/00Manipulating 3D models or images for computer graphics
    • G06T19/20Editing of 3D images, e.g. changing shapes or colours, aligning objects or positioning parts
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T17/00Three dimensional [3D] modelling, e.g. data description of 3D objects

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Software Systems (AREA)
  • General Physics & Mathematics (AREA)
  • Computer Graphics (AREA)
  • General Engineering & Computer Science (AREA)
  • Computing Systems (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Computational Linguistics (AREA)
  • Biophysics (AREA)
  • Biomedical Technology (AREA)
  • Mathematical Physics (AREA)
  • Data Mining & Analysis (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Architecture (AREA)
  • Health & Medical Sciences (AREA)
  • Computer Hardware Design (AREA)
  • Geometry (AREA)
  • Processing Or Creating Images (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种基于二维图像信息的三维模型检索方法,所述方法包括:获取预处理后的三维模型的多个二维视图,基于深度强化学习网络结构,估计三维模型的最佳姿态,选择最佳姿态下的虚拟视图作为三维模型的特征视图;对特征视图做模态转换,基于生成对抗网络结构,通过生成器和判别器的不断对抗,生成虚拟视图的“真实图像”,以使特征视图和检索图像具有相同的特征空间;度量生成图像和输入检索图像的相似度,通过VGG‑NET16网络结构对图像做特征向量提取;通过欧氏距离计算生成图像和输入检索图像特征向量的相似度,以特征向量的相似度来代表三维模型和检索图像间的相似度,根据相似度的大小对检索结果进行排序。

Description

一种基于二维图像信息的三维模型检索方法
技术领域
本发明涉及三维模型检索领域,尤其涉及一种基于二维图像信息的三维模型检索方法。
背景技术
三维模型检索是计算机视觉和模式识别领域的一个热点研究内容。随着数字化技术和计算机视觉技术的发展,三维模型在计算机辅助设计、医学诊断、生物信息学、3D打印、机械设计制造、医学成像和数字娱乐等领域得到了广泛的应用,也不断吸引着越来越多的专家学者投身大量精力去研究。模型广泛应用的同时也带来了三维模型数据量的激增,三维模型检索系统的精度和速度便成为了亟需解决的问题,人们对有效的三维模型检索算法提出了更高的要求。
目前三维模型检索技术主要分为两类:基于文本的三维模型检索技术和基于内容的三维模型检索技术。每种检索方法都各有利弊,如图1所示。
基于文本的三维模型检索方法,它的本质就是文本检索,只不过检索的返回结果集是三维模型的集合。文本检索就需要人为的方式去对每一个三维模型打标签分类,由于存在人为思想的主观性,标定存在较大误差。这种利用文本的检索方案检索出来的结果不够理想,检索结果的查全率很低,故而这种检索方法已经逐渐淡出三维模型检索领域。
基于内容的三维模型检索方法,它的本质是利用模型本身自带的信息来检索,这种检索方法需要构建一个特征描述子来表征三维模型。特征描述子携带了模型本身的结构信息和纹理信息,度量两个三维模型的相似度,只需要计算两个特征描述子之间的欧式距离即可。这种方法相较于基于文本的方法的好处是能够利用模型本身的属性和信息,抛开了人为因素的干扰,所以检索结果更加具有客观性,同时还提高了检索结果的精度。
如果往更细的层面去划分,基于内容的三维模型检索技术又分为两种:基于模型的三维模型检索技术和基于视图的三维模型检索技术。基于模型的特征描述符直接从三维模型对象中提取特征。基于视图的三维模型检索从三维模型的不同角度捕捉其二维视图,从若干张二维投影视图中提取相关特征信息,当模型在每个视角都相似时,模型之间的相似度才最大。与基于模型的方法相比,基于视图的检索方法可以显著降低算法的复杂度,但如何找到有效的特征视图,在获取特征视图后如何解决虚拟试图和真实图像的跨域相似度计算仍然是一大难题。
发明内容
本发明提供了一种基于二维图像信息的三维模型检索方法,本发明根据查询图像自动选择三维模型姿态,进而得到最佳姿态下的虚拟特征视图,有效地降低了特征视图提取的计算成本,提高了检索效率,详见下文描述:
一种基于二维图像信息的三维模型检索方法,所述方法包括:
获取预处理后的三维模型的多个二维视图,基于深度强化学习网络结构,估计三维模型的最佳姿态,选择最佳姿态下的虚拟视图作为三维模型的特征视图;
对特征视图做模态转换,基于生成对抗网络结构,通过生成器和判别器的不断对抗,生成虚拟视图的“真实图像”,以使特征视图和检索图像具有相同的特征空间;
度量生成图像和输入检索图像的相似度,通过VGG-NET16网络结构对图像做特征向量提取;
通过欧氏距离计算生成图像和输入检索图像特征向量的相似度,以特征向量的相似度来代表三维模型和检索图像间的相似度,根据相似度的大小对检索结果进行排序。
其中,所述预处理具体为:
将原始三维模型转换为可视化读取文件,将原始三维模型的数据大小进行缩小或者放大,转换为设定的标准值。
进一步地,所述获取预处理后的三维模型的多个二维视图具体为:
将三维模型存储为多边形网格,使用以Phong映射模型为核心的渲染引擎将多边形网格生成蛋白质的渲染视图;
三维模型的动作设置为:“向上旋转”、“向下旋转”、“向左旋转”、“向右旋转”和“停止”共五个动作,遵循如下规则:
“向左旋转”和“向右旋转”表示沿纬度方向对虚拟相机进行移动视角的动作;
“向上旋转”和“向下旋转”表示沿经度方向对虚拟相机进行移动视角的动作;
“停止”表示自上次操作后虚拟相机的拍摄视角保持不变;
三维模型的奖励函数表示为:奖励函数R与模型状态的改进成正比,通过三维模型记录查询图像和虚拟视图之间的相似度来衡量动作设置的改进;
相似性度量定义为:
Figure BDA0002776848020000021
其中,Iq和Iv分别是真实图像和虚拟三维模型视图,
Figure BDA0002776848020000031
Figure BDA0002776848020000032
表示输入检索图像和虚拟视图的“真实图像”,φ是特征提取的变换函数。当智能体执行动作a从状态s转移到状态s′时,计算奖励函数Ra(s,s′);每个状态都有一个关联的虚拟视图Iv,奖励函数定义如下:
Ra(s,s′)=sign(S(Iq,I′v)-S(Iq,Iv))
如果三维模型从状态s转移到状态s′,输入图像和模型的相似度提高,则奖励为正,反之则为负。
其中,所述生成对抗网络的目标损失函数为:
Figure BDA0002776848020000033
其中,
Figure BDA0002776848020000034
为隐藏层的损失,
Figure BDA0002776848020000035
为初始目标函数。
进一步地,所述通过VGG-NET16网络结构对图像做特征向量提取具体为:
通过VGG-NET16网络分别对生成图像和检索图像提取底层特征,将网络Fc7层的输出结果作为特征向量。
本发明提供的技术方案的有益效果是:
1、本发明提出了一种新的三维模型姿态估计模型,该模型允许三维模型根据查询图像自动选择三维模型姿态,进而得到最佳姿态下的虚拟特征视图,有效地降低了特征视图提取的计算成本,提高了检索效率;
2、本发明通过生成对抗网络将三维模型的二维投影视图转换成二维真实图片,将模型数据域转换到图片数据域,通过VGG-NET16对转换后的图片提取底层特征,网络输出的特征表征三维模型的特征,最后通过相似性度量来表示最终的结果;
3、本发明建立了一个新的数据集,其中包括基于ImageNet数据集的真实图片和基于普林斯顿ModelNet项目的相关3D模型,以演示本发明的性能。
附图说明
图1为本发明提出的所有三维模型检索方法的总结对比图;
图2为是本发明提出的基于二维图像信息的三维模型检索方法的流程图;
图3为本发明提出的三维模型姿态估计流程图;
图4为本发明提出的视角设置示意图;
图5为本发明提出的三维模型144张视图;
图6为本发明提出的虚拟视图到“真实图片”模态转换的流程图;
图7为由真实图片组成的数据集示意图;
图8为三维模型组成的数据集示意图;
图9为基于强化学习的特征视图选择部分实验结果示意图;
图10为基于生成对抗网络的跨域检索部分实验结果示意图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚,下面对本发明实施方式作进一步地详细描述。
实施例1
一种基于二维图像信息的三维模型检索方法,参见图2,该方法包括以下步骤:
S101:对原始三维模型进行预处理,包括:数据类型转换和数据大小标准化,得到预处理后的三维模型;
其中,原始三维模型在构建时尺寸不统一以及所选取的比例大小不一致,且描述每个体素的三维位置多采用pdb格式文件和描述三维模型表面多采用off格式文件,这些文件不利于特征提取。因此,本发明实施例通过将原始文件转换为方便处理的数据类型文件,以及通过将数据大小标准化处理,便于统一处理。
其中,该预处理的步骤为本领域技术人员所公知,本发明实施例对此不做赘述。
S102:获取预处理后的三维模型的多个二维视图,基于深度强化学习网络结构,估计三维模型的最佳姿态,选择最佳姿态下的虚拟视图作为三维模型的特征视图,如图3所示;
实际应用中,同一个三维模型,通过虚拟相机在不同的视角去拍摄,拍摄到的虚拟视图是存在差异的,甚至有可能千差万别。通过多个视角就可以获取到多张视图,所以需要找到三维模型最佳姿态下的视图作为特征视图,此时的特征视图与检索图像具有相同的姿态,相似度最高。
因此,本发明实施例中将三维模型看作一个智能体,对其赋予动作、状态、奖励函数,通过深度强化学习网络结构对预处理后三维模型的下一步动作进行选择,选择出最优的动作以找到三维模型的最佳姿态,选择最佳姿态下的虚拟视图作为三维模型的特征视图。
S103:对特征视图做模态转换,基于生成对抗网络结构,生成虚拟视图的“真实图像”作为后续步骤中的生成图像;
虽然在步骤S102中已经获得了三维模型的特征视图,解决了三维模型和二维检索图像在维度上的跨域鸿沟问题,但是同为二维结构的特征视图和检索图像仍然存在细微的差异,同样需要解决跨域相似度匹配问题。
所以本发明实施例采取模态转换将虚拟的特征视图映射到真实图像域的方案。基于生成对抗网络结构,通过生成器和判别器的不断对抗,生成虚拟视图的“真实图像”,以使特征视图和检索图像具有相同的特征空间便于相似性度量。
S104:度量生成图像和输入检索图像的相似度,通过VGG-NET16网络结构对图像做特征向量提取;
在上述步骤S103中已经获取了处于同一域的生成图像和输入检索图像,从图像存储的角度,可以把图像看作二维矩阵,通过VGG-NET16网络分别对两张图片提取底层特征,将网络Fc7层的输出结果作为图像的特征向量。
S105:通过欧氏距离计算生成图像和输入检索图像特征向量的相似度,以特征向量的相似度来代表三维模型和检索图像间的相似度,根据相似度的大小对检索结果进行排序。
其中,步骤S104中网络输出的特征向量能够表征图像的特征,等价的也就是三维模型的特征,最后通过欧氏距离计算两个特征向量之间的距离来表示最终的结果,并通过距离值的大小对检索相似度进行排序。
综上所述,本发明实施例通过上述步骤101-步骤105根据查询图像自动选择三维模型姿态,进而得到最佳姿态下的虚拟特征视图,有效地降低了特征视图提取的计算成本,提高了检索效率。
实施例2
下面结合具体的实例、计算公式对实施例1中的方案进行进一步地介绍,详见下文描述:
S201:对原始三维模型进行预处理方法;
其中,该步骤包括:将原始三维模型转换为可视化读取文件,以及将原始三维模型的数据大小进行缩小或者放大,转换为设定的标准值。
本实施例中,将以pdb格式文件和off格式文件的三维模型数据集通过meshlab批量转化为.obj格式文件,以利于后面对三维模型的操作和特征提取。
S202:获取预处理后的三维模型的多个二维视图;
将所获取的二维视图至少覆盖预处理三维模型的全部外表面,各二维视图的大小相等。为每个三维模型定义了144个视角,在经纬度上每30度设置一个视角,针对每一个视角都可以对三维模型进行拍照,便会得到144张环绕整个三维模型的视图,视角设置如图4所示。将三维模型存储为多边形网格,使用以Phong映射模型为核心的渲染引擎将多边形网格生成蛋白质的渲染视图。
为了创建多视图的特征描述符,需要设置视点(虚拟摄像机)来生成渲染视图。处理过程中,从渲染引擎生成三维模型的多个二维视图,相当于采用虚拟相机对预处理三维模型进行旋转拍照,根据拍照视角,例如:可每间隔30°提取一张视图,共拍得12个二维视图。
在本发明实施例中,通过在经度方向每隔30度在网格周围放置12个虚拟摄像机,同时在纬度方向每隔30度在网格周围放置12个虚拟摄像机,来创建12*12共144个渲染视图,如图5所示。
其中,三维模型的动作设置为:“向上旋转”、“向下旋转”、“向左旋转”、“向右旋转”和“停止”共五个动作。在三维模型旋转的过程中,这些动作遵循如下规则:
1、“向左旋转”和“向右旋转”表示沿纬度方向对虚拟相机进行移动视角的动作;
2、“向上旋转”和“向下旋转”表示沿经度方向对虚拟相机进行移动视角的动作;
3、“停止”表示自上次操作后虚拟相机的拍摄视角保持不变。
步骤S202中模型的状态表示为:查询图像的特征向量和每个步骤中更新的虚拟视图的特征向量的组合。每当三维模型执行一个特定动作后,都会记录一个新的虚拟视图,此时模型的状态也随之更新,由于新的虚拟视图相比前一个姿态的虚拟试图与真实图像更加接近,所以模型也更加趋向于最佳状态。
步骤S202中模型的奖励函数表示为:奖励函数R与模型状态的改进成正比,在任何给定时间下,通过三维模型记录的查询图像和虚拟视图之间的相似度来衡量动作设置的改进。
进一步的,相似性度量定义为:
Figure BDA0002776848020000061
其中,Iq和Iv分别是真实图像和虚拟三维模型视图,
Figure BDA0002776848020000062
Figure BDA0002776848020000063
表示输入检索图像和虚拟视图的“真实图像”,φ是特征提取的变换函数。当智能体执行动作a从状态s转移到状态s′时,计算奖励函数Ra(s,s′)。每个状态都有一个关联的虚拟视图Iv。奖励函数定义如下:
Ra(s,s′)=sign(S(Iq,I′v)-S(Iq,Iv)) (2)
如果三维模型从状态s转移到状态s′,输入图像和模型的相似度提高,则奖励为正,反之则为负。
步骤S203:生成虚拟视图的“真实图像”;
其中,该步骤具体为:基于生成对抗网络结构,生成网络G被训练用来产生不能由判别网络D区分的逼真图像,训练判别网络D用来鉴别生成网络生成的图片是否为真,两个网络相互对抗最终使判别网络无法判断生成网络的输出结果是否真实,如图6所示为该步骤的完整过程。
对于生成对抗网络中的图像像素点xi有两个来源,要么来自于真实图像,要么来自于生成器生成的图像。其中,对于来自于真实的图像,要判别该像素点为正确的分布yi。对于来自于生成的图像,要判别其为错误分布1-yi。使用概率分布的期望形式写出,并且使yi为0.5且使用G(z)表示生成样本可以得到如下公式:
Figure BDA0002776848020000071
其中,
Figure BDA0002776848020000072
为生成器生成的样本期望,Εz为投到生成器中噪声的分布期望。
生成对抗网络的目标损失函数可以表达为:
Figure BDA0002776848020000073
其中,
Figure BDA0002776848020000074
为隐藏层的损失,
Figure BDA0002776848020000075
为初始目标函数。
其中,生成器G试图最小化这个目标损失函数,以对抗判别器D试图最大化它的倾向,在两个网络不断相互对抗后,最终使判别网络无法判断生成网络的输出结果是否真实,此时生成虚拟特征视图的“真实图像”。
步骤S204:提取生成图像和输入检索图像的图像特征向量;
其中,该步骤具体为:利用卷积神经网络分别提取生成图像和输入检索图像的图像特征向量。在提取三维模型的特征视图后,利用VGG-NET16网络结构分别提取上述两个图像的特征向量。该网络结构使用统一CNN(卷积神经网络)架构来提取二维图像的信息,以产生描述图像的单个紧凑特征描述符。
卷积神经网络在大型数据集上训练后,已被证明能够学习常见的图像描述符,用于许多视觉检测任务中,例如:物体检测、场景识别、纹理识别和细化等。实验表明,这些深度结构可以提取图像的各种特征,包括:三维物体的投影图、线条图和手绘草图等。对于卷积神经网络的选取,本发明实施例采用VGG-NET16卷积神经网络。VGG-NET16是一种深度卷积神经网络。该卷积神经网络主要由5个卷积层(Conv1,2,3,4,5)、3个全连接层(Fc6、7、8)和一个SoftMax分类层组成。整个神经网络使用相同大小的卷积核3×3和最大池化2×2。该神经网络结构简单,泛化能力强,可用于提取图像特征向量。
步骤S205:计算生成图像和输入检索图像特征矩阵的相似度;
其中,该步骤为:通过欧氏距离计算,使用f(G(x))和f(y)来分别表示生成图像和输入检索图像的图像特征向量。然后,使用欧几里德距离计算这两个图像之间的相似性,欧几里德距离的计算公式为:
Figure BDA0002776848020000081
以特征矩阵的相似度来代表三维模型和检索图像间的相似度的方法为:给定查询真实图片y′,可以计算查询与数据集中的其他3D模型之间的所有距离。查询图片y′的匹配模型为:
Figure BDA0002776848020000082
其中,xm是三维模型的特征视图,m是真实图像,如图7所示,
Figure BDA0002776848020000083
是真实图像对应的三维模型,如图8所示。m和
Figure BDA0002776848020000084
共同构成了三维模型的数据集。
最后通过欧氏距离计算两个特征向量之间的距离来表示最终的结果,并通过距离值的大小对检索相似度进行排序。
实施例3
下面结合具体的实例、图9-图10、表1和表2,对实施例1和2中的方案进行可行性验证,详见下文描述:
本发明实施例介绍的基于二维图像的三维模型检索方法可以分为两部分,一部分是基于强化学习的特征视图选择,另一部分是基于生成对抗网络的跨域检索。分别对两部分进行对比实验。
一、首先对基于强化学习的特征视图选择部分进行对比实验,和其他的特征视图选择方法进行对比实验。
随机视图选取:随机选择一个虚拟视图来表示三维模型;
所有视图选取:选择144个虚拟视图作为图像集合来表示三维模型。
相应的实验结果如图9和表1所示。根据实验结果有以下发现:
(1)本发明实施例提供的CVSM方法的检索结果与AV方法比较接近,虽然AV方法结果更好,但是AV在提取所有视图时花费了1348s,而本方法仅花费了13s,这意味着本方法节省了更多的计算能力;
(2)本发明实施例提供的CVSM方法的计算复杂度与RV相似,但本方法的正确率明显优于RV,因为RV很难保证随机选取的视图与查询图像具有相同的模型姿态。
表1
Figure BDA0002776848020000091
表2
Figure BDA0002776848020000092
二、对基于生成对抗网络的跨域检索部分进行对比实验
本发明实施例使用三种经典的跨域相似度计算方法(JGSA、TJM、JDA)作为对比方法来演示本发明中方法的性能。相应的实验结果如图10和表2所示。
根据实验结果可以看出,其他跨域方法侧重于特征映射,而忽略了数据模型本身,它们明显地限制了特征映射函数的鲁棒性,而本方法考虑了不同模态图像的差异,将虚拟视图映射为“真实图像”。实验结果证明了本发明实施例中的跨域检索方法的优越性。
本发明实施例对各器件的型号除做特殊说明的以外,其他器件的型号不做限制,只要能完成上述功能的器件均可。
本领域技术人员可以理解附图只是一个优选实施例的示意图,上述本发明实施例序号仅仅为了描述,不代表实施例的优劣。
以上所述仅为本发明的较佳实施例,并不用以限制本发明,凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (5)

1.一种基于二维图像信息的三维模型检索方法,其特征在于,所述方法包括:
获取预处理后的三维模型的多个二维视图,基于深度强化学习网络结构,估计三维模型的最佳姿态,选择最佳姿态下的虚拟视图作为三维模型的特征视图;
对特征视图做模态转换,基于生成对抗网络结构,通过生成器和判别器的不断对抗,生成虚拟视图的“真实图像”,以使特征视图和检索图像具有相同的特征空间;
度量生成图像和输入检索图像的相似度,通过VGG-NET16网络结构对图像做特征向量提取;
通过欧氏距离计算生成图像和输入检索图像特征向量的相似度,以特征向量的相似度来代表三维模型和检索图像间的相似度,根据相似度的大小对检索结果进行排序。
2.根据权利要求1所述的一种基于二维图像信息的三维模型检索方法,其特征在于,所述预处理具体为:
将原始三维模型转换为可视化读取文件,将原始三维模型的数据大小进行缩小或者放大,转换为设定的标准值。
3.根据权利要求1所述的一种基于二维图像信息的三维模型检索方法,其特征在于,所述获取预处理后的三维模型的多个二维视图具体为:
将三维模型存储为多边形网格,使用以Phong映射模型为核心的渲染引擎将多边形网格生成蛋白质的渲染视图;
三维模型的动作设置为:“向上旋转”、“向下旋转”、“向左旋转”、“向右旋转”和“停止”共五个动作,遵循如下规则:
“向左旋转”和“向右旋转”表示沿纬度方向对虚拟相机进行移动视角的动作;
“向上旋转”和“向下旋转”表示沿经度方向对虚拟相机进行移动视角的动作;
“停止”表示自上次操作后虚拟相机的拍摄视角保持不变;
三维模型的奖励函数表示为:奖励函数R与模型状态的改进成正比,通过三维模型记录查询图像和虚拟视图之间的相似度来衡量动作设置的改进;
相似性度量定义为:
Figure FDA0002776848010000011
其中,Iq和Iv分别是真实图像和虚拟三维模型视图,
Figure FDA0002776848010000012
Figure FDA0002776848010000013
表示输入检索图像和虚拟视图的“真实图像”,φ是特征提取的变换函数;当智能体执行动作a从状态s转移到状态s′时,计算奖励函数Ra(s,s′);每个状态都有一个关联的虚拟视图Iv,奖励函数定义如下:
Ra(s,s′)=sign(S(Iq,Iv′)-S(Iq,Iv))
如果三维模型从状态s转移到状态s′,输入图像和模型的相似度提高,则奖励为正,反之则为负。
4.根据权利要求1所述的一种基于二维图像信息的三维模型检索方法,其特征在于,所述生成对抗网络的目标损失函数为:
Figure FDA0002776848010000021
其中,
Figure FDA0002776848010000022
为隐藏层的损失,
Figure FDA0002776848010000023
为初始目标函数。
5.根据权利要求1所述的一种基于二维图像信息的三维模型检索方法,其特征在于,所述通过VGG-NET16网络结构对图像做特征向量提取具体为:
通过VGG-NET16网络分别对生成图像和检索图像提取底层特征,将网络Fc7层的输出结果作为特征向量。
CN202011268458.7A 2020-11-13 2020-11-13 一种基于二维图像信息的三维模型检索方法 Pending CN112330825A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011268458.7A CN112330825A (zh) 2020-11-13 2020-11-13 一种基于二维图像信息的三维模型检索方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011268458.7A CN112330825A (zh) 2020-11-13 2020-11-13 一种基于二维图像信息的三维模型检索方法

Publications (1)

Publication Number Publication Date
CN112330825A true CN112330825A (zh) 2021-02-05

Family

ID=74318159

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011268458.7A Pending CN112330825A (zh) 2020-11-13 2020-11-13 一种基于二维图像信息的三维模型检索方法

Country Status (1)

Country Link
CN (1) CN112330825A (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113191400A (zh) * 2021-04-14 2021-07-30 中国海洋大学 基于二维图像检索对应三维模型的方法及装置
CN113240012A (zh) * 2021-05-14 2021-08-10 天津大学 一种基于二维图像的无监督多视角三维目标检索方法及装置
CN114882496A (zh) * 2022-04-15 2022-08-09 武汉益模科技股份有限公司 基于深度图像的三维部件相似度计算方法

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104090972A (zh) * 2014-07-18 2014-10-08 北京师范大学 用于三维城市模型检索的图像特征提取和相似性度量方法
US20180204111A1 (en) * 2013-02-28 2018-07-19 Z Advanced Computing, Inc. System and Method for Extremely Efficient Image and Pattern Recognition and Artificial Intelligence Platform
WO2019013736A1 (en) * 2017-07-10 2019-01-17 Siemens Mobility GmbH CALIBRATION OF USER FEEDBACK BASED MODEL DATA
CN110069656A (zh) * 2019-03-28 2019-07-30 天津大学 一种基于生成对抗网络的二维图片检索三维模型的方法
CN110598018A (zh) * 2019-08-13 2019-12-20 天津大学 一种基于协同注意力的草图图像检索方法

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20180204111A1 (en) * 2013-02-28 2018-07-19 Z Advanced Computing, Inc. System and Method for Extremely Efficient Image and Pattern Recognition and Artificial Intelligence Platform
CN104090972A (zh) * 2014-07-18 2014-10-08 北京师范大学 用于三维城市模型检索的图像特征提取和相似性度量方法
WO2019013736A1 (en) * 2017-07-10 2019-01-17 Siemens Mobility GmbH CALIBRATION OF USER FEEDBACK BASED MODEL DATA
CN110069656A (zh) * 2019-03-28 2019-07-30 天津大学 一种基于生成对抗网络的二维图片检索三维模型的方法
CN110598018A (zh) * 2019-08-13 2019-12-20 天津大学 一种基于协同注意力的草图图像检索方法

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
LING HUANG等: "Adversarial Learning for Content-Based Image Retrieval", 《2019 IEEE CONFERENCE ON MULTIMEDIA INFORMATION PROCESSING AND RETRIEVAL (MIPR)》 *
WEI-ZHI NIE等: "3D Pose Estimation Based on Reinforce Learning for 2D Image-Based 3D Model Retrieval", 《IEEE TRANSACTIONS ON MULTIMEDIA》 *
WEIZHI NIE等: "Characteristic Views Extraction Modal Based-on Deep Reinforcement Learning for 3D Model Retrieval", 《2019 IEEE INTERNATIONAL CONFERENCE ON IMAGE PROCESSING (ICIP)》 *
王亚等: "基于多模态融合的三维模型检索算法研究", 《计算机应用研究》 *

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113191400A (zh) * 2021-04-14 2021-07-30 中国海洋大学 基于二维图像检索对应三维模型的方法及装置
CN113240012A (zh) * 2021-05-14 2021-08-10 天津大学 一种基于二维图像的无监督多视角三维目标检索方法及装置
CN113240012B (zh) * 2021-05-14 2022-08-23 天津大学 一种基于二维图像的无监督多视角三维目标检索方法及装置
CN114882496A (zh) * 2022-04-15 2022-08-09 武汉益模科技股份有限公司 基于深度图像的三维部件相似度计算方法

Similar Documents

Publication Publication Date Title
Zhang et al. A review of deep learning-based semantic segmentation for point cloud
Ahmed et al. A survey on deep learning advances on different 3D data representations
Sfikas et al. Ensemble of PANORAMA-based convolutional neural networks for 3D model classification and retrieval
Shao et al. An interactive approach to semantic modeling of indoor scenes with an rgbd camera
Torralba et al. Labelme: Online image annotation and applications
Yang et al. Content-based 3-D model retrieval: A survey
Li et al. Multi-scale neighborhood feature extraction and aggregation for point cloud segmentation
CN112330825A (zh) 一种基于二维图像信息的三维模型检索方法
CN113569979B (zh) 一种基于注意力机制的三维物体点云分类方法
Liu et al. 3D object retrieval based on multi-view latent variable model
WO2023142602A1 (zh) 图像处理方法、装置和计算机可读存储介质
Feng et al. 3D shape retrieval using a single depth image from low-cost sensors
CN113628329B (zh) 一种零样本草图三维点云检索方法
Abdulwahab et al. Adversarial learning for depth and viewpoint estimation from a single image
Su et al. 3d-assisted image feature synthesis for novel views of an object
CN113011359B (zh) 一种基于图像的同时检测平面结构和生成平面描述的方法及应用
CN112668662B (zh) 基于改进YOLOv3网络的野外山林环境目标检测方法
Drobnitzky et al. Survey and systematization of 3D object detection models and methods
Ding et al. An efficient 3D model retrieval method based on convolutional neural network
CN116912486A (zh) 基于边缘卷积和多维特征融合的目标分割方法、电子装置
Nie et al. Multi-scale CNNs for 3D model retrieval
Guan et al. View-based 3D model retrieval by joint subgraph learning and matching
Elharrouss et al. 3d objects and scenes classification, recognition, segmentation, and reconstruction using 3d point cloud data: A review
CN111414802B (zh) 蛋白质数据特征提取方法
Liang et al. Multimodal information fusion based on LSTM for 3D model retrieval

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
WD01 Invention patent application deemed withdrawn after publication

Application publication date: 20210205

WD01 Invention patent application deemed withdrawn after publication