CN112330825A

CN112330825A - 一种基于二维图像信息的三维模型检索方法

Info

Publication number: CN112330825A
Application number: CN202011268458.7A
Authority: CN
Inventors: 褚晶辉; 郑博文; 聂为之
Original assignee: Tianjin University
Current assignee: Tianjin University
Priority date: 2020-11-13
Filing date: 2020-11-13
Publication date: 2021-02-05

Abstract

本发明公开了一种基于二维图像信息的三维模型检索方法，所述方法包括：获取预处理后的三维模型的多个二维视图，基于深度强化学习网络结构，估计三维模型的最佳姿态，选择最佳姿态下的虚拟视图作为三维模型的特征视图；对特征视图做模态转换，基于生成对抗网络结构，通过生成器和判别器的不断对抗，生成虚拟视图的“真实图像”，以使特征视图和检索图像具有相同的特征空间；度量生成图像和输入检索图像的相似度，通过VGG‑NET16网络结构对图像做特征向量提取；通过欧氏距离计算生成图像和输入检索图像特征向量的相似度，以特征向量的相似度来代表三维模型和检索图像间的相似度，根据相似度的大小对检索结果进行排序。

Description

一种基于二维图像信息的三维模型检索方法

技术领域

本发明涉及三维模型检索领域，尤其涉及一种基于二维图像信息的三维模型检索方法。

背景技术

三维模型检索是计算机视觉和模式识别领域的一个热点研究内容。随着数字化技术和计算机视觉技术的发展，三维模型在计算机辅助设计、医学诊断、生物信息学、3D打印、机械设计制造、医学成像和数字娱乐等领域得到了广泛的应用，也不断吸引着越来越多的专家学者投身大量精力去研究。模型广泛应用的同时也带来了三维模型数据量的激增，三维模型检索系统的精度和速度便成为了亟需解决的问题，人们对有效的三维模型检索算法提出了更高的要求。

目前三维模型检索技术主要分为两类：基于文本的三维模型检索技术和基于内容的三维模型检索技术。每种检索方法都各有利弊，如图1所示。

基于文本的三维模型检索方法，它的本质就是文本检索，只不过检索的返回结果集是三维模型的集合。文本检索就需要人为的方式去对每一个三维模型打标签分类，由于存在人为思想的主观性，标定存在较大误差。这种利用文本的检索方案检索出来的结果不够理想，检索结果的查全率很低，故而这种检索方法已经逐渐淡出三维模型检索领域。

基于内容的三维模型检索方法，它的本质是利用模型本身自带的信息来检索，这种检索方法需要构建一个特征描述子来表征三维模型。特征描述子携带了模型本身的结构信息和纹理信息，度量两个三维模型的相似度，只需要计算两个特征描述子之间的欧式距离即可。这种方法相较于基于文本的方法的好处是能够利用模型本身的属性和信息，抛开了人为因素的干扰，所以检索结果更加具有客观性，同时还提高了检索结果的精度。

如果往更细的层面去划分，基于内容的三维模型检索技术又分为两种：基于模型的三维模型检索技术和基于视图的三维模型检索技术。基于模型的特征描述符直接从三维模型对象中提取特征。基于视图的三维模型检索从三维模型的不同角度捕捉其二维视图，从若干张二维投影视图中提取相关特征信息，当模型在每个视角都相似时，模型之间的相似度才最大。与基于模型的方法相比，基于视图的检索方法可以显著降低算法的复杂度，但如何找到有效的特征视图，在获取特征视图后如何解决虚拟试图和真实图像的跨域相似度计算仍然是一大难题。

发明内容

本发明提供了一种基于二维图像信息的三维模型检索方法，本发明根据查询图像自动选择三维模型姿态，进而得到最佳姿态下的虚拟特征视图，有效地降低了特征视图提取的计算成本，提高了检索效率，详见下文描述：

一种基于二维图像信息的三维模型检索方法，所述方法包括：

获取预处理后的三维模型的多个二维视图，基于深度强化学习网络结构，估计三维模型的最佳姿态，选择最佳姿态下的虚拟视图作为三维模型的特征视图；

对特征视图做模态转换，基于生成对抗网络结构，通过生成器和判别器的不断对抗，生成虚拟视图的“真实图像”，以使特征视图和检索图像具有相同的特征空间；

度量生成图像和输入检索图像的相似度，通过VGG-NET16网络结构对图像做特征向量提取；

通过欧氏距离计算生成图像和输入检索图像特征向量的相似度，以特征向量的相似度来代表三维模型和检索图像间的相似度，根据相似度的大小对检索结果进行排序。

其中，所述预处理具体为：

将原始三维模型转换为可视化读取文件，将原始三维模型的数据大小进行缩小或者放大，转换为设定的标准值。

进一步地，所述获取预处理后的三维模型的多个二维视图具体为：

将三维模型存储为多边形网格，使用以Phong映射模型为核心的渲染引擎将多边形网格生成蛋白质的渲染视图；

三维模型的动作设置为：“向上旋转”、“向下旋转”、“向左旋转”、“向右旋转”和“停止”共五个动作，遵循如下规则：

“向左旋转”和“向右旋转”表示沿纬度方向对虚拟相机进行移动视角的动作；

“向上旋转”和“向下旋转”表示沿经度方向对虚拟相机进行移动视角的动作；

“停止”表示自上次操作后虚拟相机的拍摄视角保持不变；

三维模型的奖励函数表示为：奖励函数R与模型状态的改进成正比，通过三维模型记录查询图像和虚拟视图之间的相似度来衡量动作设置的改进；

相似性度量定义为：

其中，I_q和I_v分别是真实图像和虚拟三维模型视图，

和

表示输入检索图像和虚拟视图的“真实图像”，φ是特征提取的变换函数。当智能体执行动作a从状态s转移到状态s′时，计算奖励函数R_a(s,s′)；每个状态都有一个关联的虚拟视图I_v，奖励函数定义如下：

R_a(s,s′)＝sign(S(I_q,I′_v)-S(I_q,I_v))

如果三维模型从状态s转移到状态s′，输入图像和模型的相似度提高，则奖励为正，反之则为负。

其中，所述生成对抗网络的目标损失函数为：

其中，

为隐藏层的损失，

为初始目标函数。

进一步地，所述通过VGG-NET16网络结构对图像做特征向量提取具体为：

通过VGG-NET16网络分别对生成图像和检索图像提取底层特征，将网络Fc7层的输出结果作为特征向量。

本发明提供的技术方案的有益效果是：

1、本发明提出了一种新的三维模型姿态估计模型，该模型允许三维模型根据查询图像自动选择三维模型姿态，进而得到最佳姿态下的虚拟特征视图，有效地降低了特征视图提取的计算成本，提高了检索效率；

2、本发明通过生成对抗网络将三维模型的二维投影视图转换成二维真实图片，将模型数据域转换到图片数据域，通过VGG-NET16对转换后的图片提取底层特征，网络输出的特征表征三维模型的特征，最后通过相似性度量来表示最终的结果；

3、本发明建立了一个新的数据集，其中包括基于ImageNet数据集的真实图片和基于普林斯顿ModelNet项目的相关3D模型，以演示本发明的性能。

附图说明

图1为本发明提出的所有三维模型检索方法的总结对比图；

图2为是本发明提出的基于二维图像信息的三维模型检索方法的流程图；

图3为本发明提出的三维模型姿态估计流程图；

图4为本发明提出的视角设置示意图；

图5为本发明提出的三维模型144张视图；

图6为本发明提出的虚拟视图到“真实图片”模态转换的流程图；

图7为由真实图片组成的数据集示意图；

图8为三维模型组成的数据集示意图；

图9为基于强化学习的特征视图选择部分实验结果示意图；

图10为基于生成对抗网络的跨域检索部分实验结果示意图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚，下面对本发明实施方式作进一步地详细描述。

实施例1

一种基于二维图像信息的三维模型检索方法，参见图2，该方法包括以下步骤：

S101：对原始三维模型进行预处理，包括：数据类型转换和数据大小标准化，得到预处理后的三维模型；

其中，原始三维模型在构建时尺寸不统一以及所选取的比例大小不一致，且描述每个体素的三维位置多采用pdb格式文件和描述三维模型表面多采用off格式文件，这些文件不利于特征提取。因此，本发明实施例通过将原始文件转换为方便处理的数据类型文件，以及通过将数据大小标准化处理，便于统一处理。

其中，该预处理的步骤为本领域技术人员所公知，本发明实施例对此不做赘述。

S102：获取预处理后的三维模型的多个二维视图，基于深度强化学习网络结构，估计三维模型的最佳姿态，选择最佳姿态下的虚拟视图作为三维模型的特征视图，如图3所示；

实际应用中，同一个三维模型，通过虚拟相机在不同的视角去拍摄，拍摄到的虚拟视图是存在差异的，甚至有可能千差万别。通过多个视角就可以获取到多张视图，所以需要找到三维模型最佳姿态下的视图作为特征视图，此时的特征视图与检索图像具有相同的姿态，相似度最高。

因此，本发明实施例中将三维模型看作一个智能体，对其赋予动作、状态、奖励函数，通过深度强化学习网络结构对预处理后三维模型的下一步动作进行选择，选择出最优的动作以找到三维模型的最佳姿态，选择最佳姿态下的虚拟视图作为三维模型的特征视图。

S103：对特征视图做模态转换，基于生成对抗网络结构，生成虚拟视图的“真实图像”作为后续步骤中的生成图像；

虽然在步骤S102中已经获得了三维模型的特征视图，解决了三维模型和二维检索图像在维度上的跨域鸿沟问题，但是同为二维结构的特征视图和检索图像仍然存在细微的差异，同样需要解决跨域相似度匹配问题。

所以本发明实施例采取模态转换将虚拟的特征视图映射到真实图像域的方案。基于生成对抗网络结构，通过生成器和判别器的不断对抗，生成虚拟视图的“真实图像”，以使特征视图和检索图像具有相同的特征空间便于相似性度量。

S104：度量生成图像和输入检索图像的相似度，通过VGG-NET16网络结构对图像做特征向量提取；

在上述步骤S103中已经获取了处于同一域的生成图像和输入检索图像，从图像存储的角度，可以把图像看作二维矩阵，通过VGG-NET16网络分别对两张图片提取底层特征，将网络Fc7层的输出结果作为图像的特征向量。

S105：通过欧氏距离计算生成图像和输入检索图像特征向量的相似度，以特征向量的相似度来代表三维模型和检索图像间的相似度，根据相似度的大小对检索结果进行排序。

其中，步骤S104中网络输出的特征向量能够表征图像的特征，等价的也就是三维模型的特征，最后通过欧氏距离计算两个特征向量之间的距离来表示最终的结果，并通过距离值的大小对检索相似度进行排序。

综上所述，本发明实施例通过上述步骤101-步骤105根据查询图像自动选择三维模型姿态，进而得到最佳姿态下的虚拟特征视图，有效地降低了特征视图提取的计算成本，提高了检索效率。

实施例2

下面结合具体的实例、计算公式对实施例1中的方案进行进一步地介绍，详见下文描述：

S201：对原始三维模型进行预处理方法；

其中，该步骤包括：将原始三维模型转换为可视化读取文件，以及将原始三维模型的数据大小进行缩小或者放大，转换为设定的标准值。

本实施例中，将以pdb格式文件和off格式文件的三维模型数据集通过meshlab批量转化为.obj格式文件，以利于后面对三维模型的操作和特征提取。

S202：获取预处理后的三维模型的多个二维视图；

将所获取的二维视图至少覆盖预处理三维模型的全部外表面，各二维视图的大小相等。为每个三维模型定义了144个视角，在经纬度上每30度设置一个视角，针对每一个视角都可以对三维模型进行拍照，便会得到144张环绕整个三维模型的视图，视角设置如图4所示。将三维模型存储为多边形网格，使用以Phong映射模型为核心的渲染引擎将多边形网格生成蛋白质的渲染视图。

为了创建多视图的特征描述符，需要设置视点(虚拟摄像机)来生成渲染视图。处理过程中，从渲染引擎生成三维模型的多个二维视图，相当于采用虚拟相机对预处理三维模型进行旋转拍照，根据拍照视角，例如：可每间隔30°提取一张视图，共拍得12个二维视图。

在本发明实施例中，通过在经度方向每隔30度在网格周围放置12个虚拟摄像机，同时在纬度方向每隔30度在网格周围放置12个虚拟摄像机，来创建12*12共144个渲染视图，如图5所示。

其中，三维模型的动作设置为：“向上旋转”、“向下旋转”、“向左旋转”、“向右旋转”和“停止”共五个动作。在三维模型旋转的过程中，这些动作遵循如下规则：

1、“向左旋转”和“向右旋转”表示沿纬度方向对虚拟相机进行移动视角的动作；

2、“向上旋转”和“向下旋转”表示沿经度方向对虚拟相机进行移动视角的动作；

3、“停止”表示自上次操作后虚拟相机的拍摄视角保持不变。

步骤S202中模型的状态表示为：查询图像的特征向量和每个步骤中更新的虚拟视图的特征向量的组合。每当三维模型执行一个特定动作后，都会记录一个新的虚拟视图，此时模型的状态也随之更新，由于新的虚拟视图相比前一个姿态的虚拟试图与真实图像更加接近，所以模型也更加趋向于最佳状态。

步骤S202中模型的奖励函数表示为：奖励函数R与模型状态的改进成正比，在任何给定时间下，通过三维模型记录的查询图像和虚拟视图之间的相似度来衡量动作设置的改进。

进一步的，相似性度量定义为：

其中，I_q和I_v分别是真实图像和虚拟三维模型视图，

和

表示输入检索图像和虚拟视图的“真实图像”，φ是特征提取的变换函数。当智能体执行动作a从状态s转移到状态s′时，计算奖励函数R_a(s,s′)。每个状态都有一个关联的虚拟视图I_v。奖励函数定义如下：

R_a(s,s′)＝sign(S(I_q,I′_v)-S(I_q,I_v)) (2)

步骤S203：生成虚拟视图的“真实图像”；

其中，该步骤具体为：基于生成对抗网络结构，生成网络G被训练用来产生不能由判别网络D区分的逼真图像，训练判别网络D用来鉴别生成网络生成的图片是否为真，两个网络相互对抗最终使判别网络无法判断生成网络的输出结果是否真实，如图6所示为该步骤的完整过程。

对于生成对抗网络中的图像像素点x_i有两个来源，要么来自于真实图像，要么来自于生成器生成的图像。其中，对于来自于真实的图像，要判别该像素点为正确的分布y_i。对于来自于生成的图像，要判别其为错误分布1-y_i。使用概率分布的期望形式写出，并且使y_i为0.5且使用G(z)表示生成样本可以得到如下公式：

其中，

为生成器生成的样本期望，Ε_z为投到生成器中噪声的分布期望。

生成对抗网络的目标损失函数可以表达为：

其中，

为隐藏层的损失，

为初始目标函数。

其中，生成器G试图最小化这个目标损失函数，以对抗判别器D试图最大化它的倾向，在两个网络不断相互对抗后，最终使判别网络无法判断生成网络的输出结果是否真实，此时生成虚拟特征视图的“真实图像”。

步骤S204：提取生成图像和输入检索图像的图像特征向量；

其中，该步骤具体为：利用卷积神经网络分别提取生成图像和输入检索图像的图像特征向量。在提取三维模型的特征视图后，利用VGG-NET16网络结构分别提取上述两个图像的特征向量。该网络结构使用统一CNN(卷积神经网络)架构来提取二维图像的信息，以产生描述图像的单个紧凑特征描述符。

卷积神经网络在大型数据集上训练后，已被证明能够学习常见的图像描述符，用于许多视觉检测任务中，例如：物体检测、场景识别、纹理识别和细化等。实验表明，这些深度结构可以提取图像的各种特征，包括：三维物体的投影图、线条图和手绘草图等。对于卷积神经网络的选取，本发明实施例采用VGG-NET16卷积神经网络。VGG-NET16是一种深度卷积神经网络。该卷积神经网络主要由5个卷积层(Conv1，2，3，4，5)、3个全连接层(Fc6、7、8)和一个SoftMax分类层组成。整个神经网络使用相同大小的卷积核3×3和最大池化2×2。该神经网络结构简单，泛化能力强，可用于提取图像特征向量。

步骤S205：计算生成图像和输入检索图像特征矩阵的相似度；

其中，该步骤为：通过欧氏距离计算，使用f(G(x))和f(y)来分别表示生成图像和输入检索图像的图像特征向量。然后，使用欧几里德距离计算这两个图像之间的相似性，欧几里德距离的计算公式为：

以特征矩阵的相似度来代表三维模型和检索图像间的相似度的方法为：给定查询真实图片y′，可以计算查询与数据集中的其他3D模型之间的所有距离。查询图片y′的匹配模型为：

其中，x^m是三维模型的特征视图，m是真实图像，如图7所示，

是真实图像对应的三维模型，如图8所示。m和

共同构成了三维模型的数据集。

最后通过欧氏距离计算两个特征向量之间的距离来表示最终的结果，并通过距离值的大小对检索相似度进行排序。

实施例3

下面结合具体的实例、图9-图10、表1和表2，对实施例1和2中的方案进行可行性验证，详见下文描述：

本发明实施例介绍的基于二维图像的三维模型检索方法可以分为两部分，一部分是基于强化学习的特征视图选择，另一部分是基于生成对抗网络的跨域检索。分别对两部分进行对比实验。

一、首先对基于强化学习的特征视图选择部分进行对比实验，和其他的特征视图选择方法进行对比实验。

随机视图选取：随机选择一个虚拟视图来表示三维模型；

所有视图选取：选择144个虚拟视图作为图像集合来表示三维模型。

相应的实验结果如图9和表1所示。根据实验结果有以下发现：

(1)本发明实施例提供的CVSM方法的检索结果与AV方法比较接近，虽然AV方法结果更好，但是AV在提取所有视图时花费了1348s，而本方法仅花费了13s，这意味着本方法节省了更多的计算能力；

(2)本发明实施例提供的CVSM方法的计算复杂度与RV相似，但本方法的正确率明显优于RV，因为RV很难保证随机选取的视图与查询图像具有相同的模型姿态。

表1

表2

二、对基于生成对抗网络的跨域检索部分进行对比实验

本发明实施例使用三种经典的跨域相似度计算方法(JGSA、TJM、JDA)作为对比方法来演示本发明中方法的性能。相应的实验结果如图10和表2所示。

根据实验结果可以看出，其他跨域方法侧重于特征映射，而忽略了数据模型本身，它们明显地限制了特征映射函数的鲁棒性，而本方法考虑了不同模态图像的差异，将虚拟视图映射为“真实图像”。实验结果证明了本发明实施例中的跨域检索方法的优越性。

本发明实施例对各器件的型号除做特殊说明的以外，其他器件的型号不做限制，只要能完成上述功能的器件均可。

本领域技术人员可以理解附图只是一个优选实施例的示意图，上述本发明实施例序号仅仅为了描述，不代表实施例的优劣。

以上所述仅为本发明的较佳实施例，并不用以限制本发明，凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。