CN108009222B

CN108009222B - 基于较优视图和深度卷积神经网络的三维模型检索方法

Info

Publication number: CN108009222B
Application number: CN201711178604.5A
Authority: CN
Inventors: 刘志; 李江川; 陈波
Original assignee: Zhejiang University of Technology ZJUT
Current assignee: Zhejiang University of Technology ZJUT
Priority date: 2017-11-23
Filing date: 2017-11-23
Publication date: 2020-07-17
Anticipated expiration: 2037-11-23
Also published as: CN108009222A

Abstract

本发明涉及基于较优视图和深度卷积神经网络的三维模型检索方法，本发明首先从多个视点提取三维模型的视图，并按照灰度熵的排序选取较优视图。其次通过深度卷积神经网络对视图集进行训练，从而提取视图的深度特征并进行降维。同时，对输入的自然图像提取边缘轮廓图，经过相似度匹配返回一组三维模型。最后，基于目标模型所属类别占检索结果比例对结果列表进行微调重排，返回最终的检索结果以实现三维模型检索，此方法有效选取了较优视图，降低了视图冗余，并使用深度特征对视图进行更高层的表达，有效提高了检索效果。

Description

基于较优视图和深度卷积神经网络的三维模型检索方法

技术领域

本发明涉及计算机图形领域，尤其涉及基于较优视图和深度卷积神经网络的三维模型检索方法。

背景技术

随着计算机图形处理能力和三维建模技术的日益增强，三维模型在工业设计、虚拟现实、医学诊断等诸多领域得到了广泛应用，三维模型的数量也随之产生了爆发式的增长。海量的数据为三维模型检索技术的发展带来了新的机遇与挑战。

在基于视图的三维模型检索领域，常用的研究思路是将三维模型渲染出多个二维视图，对视图进行人工设计特征的提取，再将输入源图像的特征与视图特征进行相似度匹配，进而得到目标模型。而这种检索方法存在以下两点问题：

(1)在已有的视图选取方法中，通常研究者会选择用一个多面体包围三维模型，将多面体的顶点作为视图选取的视点，提取与顶点数量一致的视图，或使用网格显著度、可见面积比、最大面积投影法等方法选取最优视图，但前者获取到的视点质量不一，后者对不同类别的模型的提取效果相差较大。

(2)在特征的选取上，通常使用的是基于先验知识设计的特征，通过提取视图的纹理、形状等底层特征，构造视图特征集。其中视图特征的表达效果会对检索结果产生关键影响，而视图高层语义与底层特征表示之间往往有着较大差距。

发明内容

本发明为克服上述的不足之处，目的在于提供基于较优视图和深度卷积神经网络的三维模型检索方法，本发明首先从多个视点提取三维模型的视图，并按照灰度熵的排序选取较优视图，形成较优视图集，并选取部分视图组成训练集，其余部分视图组成验证集。其次通过较优视图集中的训练集对深度卷积神经网络进行训练，进而提取深度特征并进行降维。同时，对输入的自然图像提取边缘轮廓图，经过相似度匹配返回一组三维模型。最后，基于目标模型所属类别占检索结果比例对结果列表进行微调重排，返回最终的检索结果以实现三维模型检索，此方法有效选取了较优视图，降低了视图冗余，并使用深度特征对视图进行更高层的表达，有效提高了检索效果。

本发明是通过以下技术方案达到上述目的：基于较优视图和深度卷积神经网络的三维模型检索方法，包括如下步骤：

(1)预定义初始视点的坐标，通过从多个不同角度、等距的方式对三维模型渲染出二维视图；

(2)在三维模型数据集中，根据每个类别下的模型数量占模型总数的比例，来确定该类别下模型最终保留的较优视图数量，并对每个模型保留的较优视图计算灰度熵，用熵过滤机制去除较差视图，得到较优视图集，并选取部分视图组成训练集，其余部分视图组成验证集；

(3)在VGG16神经网络结构内的卷积模块的基础上构建一个由3个卷积层和2个全连接层构成的卷积神经网络，使用较优视图集中的训练集对该卷积神经网络进行充分训练后，对较优视图集中的验证集提取深度特征，并通过PCA对提取到的深度特征进行降维；

(4)检索时选取自然图像进行边缘检测获得轮廓线条图，通过卷积神经网络进行特征提取，通过计算输入图像的特征与较优视图集提取的特征之间的欧几里德距离，并进行相似度匹配，获取初始检索结果列表；

(5)依据初始检索结果列表中模型所属分类下模型数量与列表长度的比例调整匹配值，并以此对检索结果列表的次序进行重排，得到最终的检索结果。

作为优选，所述步骤(1)渲染的方法为采用以三维模型的质心为球心的、包含多个视点的视点球对三维模型进行包裹，采用闭合轮廓线结合暗示轮廓的渲染方法对三维模型进行渲染。

作为优选，所述步骤(2)的熵过滤机制为采用灰度熵排序判断视图质量，并根据每个分类下模型的数量与模型总量的比值确定该分类下模型的较优视图数量的视图选取；具体为：

1)在视图数量的选择上，通过如下公式计算出每个分类下模型提取视图的数量n：

其中，N代表视点数量，n代表该类别下模型最终的视图数量，ci代表i类别下模型的数量，a是固定常数，用于控制视图数量，t代表数据集中模型的类别总数；

2)在视图质量的判定上，采用如下公式对每张视图的灰度熵进行计算，并按照熵的大小进行排序，保留熵最大的前n张视图作为该模型的较优视图：

其中，pi表示灰度值为i的像素在整个视图中所占的比例，H代表灰度熵。

作为优选，所述步骤(3)在构建卷积神经网络时，需对卷积结果进行最大池化操作后传输给全链接层；在误差反向传播阶段，对实际输出与理想输出之间的误差进行计算，使用随机梯度下降法对累计误差进行最小化。

作为优选，所述的卷积神经网络使用ELU作为激活函数，在卷积模块中卷积核的设置上，选择了1*1,3*3,1*1相交替的模式；在卷积层的最后设置有一层2*2的池化层；在全连接层的设计上，使用1024维的全连接层搭配与模型类别总数一致的最后一层全连接层作为全连接模块。

作为优选，所述步骤(5)中对检索列表重排的方法如下：

(5.1)获取与输入源相似度最高的一组二维视图候选列表Lo及其相似度，对每个三维模型保留相似度最高的一张视图，并将其与所属的三维模型一一对应，得到三维模型的候选列表L；

(5.2)对候选列表L中的三维模型的视图在视图候选列表Lo中出现的次数进行统计，计算公式如下：

(5.3)原有相似度Score0经过步骤(5.2)计算后得到Score1，统计出L中每个模型所属的类别，并计算出每个模型所属分类存在于数据集中的模型的数量占模型总数的比例，提高占比高的模型的最终相似度值，并以此相似度对检索结果列表的次序进行重排。

本发明的有益效果在于：(1)本发明通过较优视图的选取，对三维模型有较好的表达效果，提高了数据集的质量，并减少了数据不均衡的状况；(2)本发明使用CNN网络提取深度特征，该特征鲁棒性更强，能够对视图进行更高层的表达，有效提高了检索效果。

附图说明

图1是本发明的总体流程示意图；

图2是本发明实施例的三维模型的二维渲染图；

图3是本发明实施例的视图选取方法过程图；

图4是本发明实施例的卷积神经网络设置图；

图5是本发明实施例的自然图像的边缘提取图；

图6是本发明实施例的基于自然图像的检索示例图1；

图7是本发明实施例的基于自然图像的检索示例图2。

具体实施方式

下面结合具体实施例对本发明进行进一步描述，但本发明的保护范围并不仅限于此：

实施例：如图1所示，基于较优视图和深度卷积神经网络的三维模型检索方法，包括如下步骤：

步骤一，对总量为2106的三维模型进行视图提取,首先根据预定义初使视点，采用以三维模型的质心为球心的、包含多个视点的视点球对三维模型进行包裹，在视图的渲染方法上，采用闭合轮廓线结合暗示轮廓的渲染方法(以下简称混合轮廓线)；其中闭合轮廓线是通过检测视点向量与模型表面法向量垂直的部分，并将其绘制出来得到的，而暗示轮廓线在其周围找出符合接近人类可视曲率的部分线条进行进一步绘制，以得到三维模型的二维视图。使用混合轮廓线渲染方法提取三维模型的二维视图如图2所示。

如图3所示，根据数据集中每个分类下模型的数量占总数的比例，确定该分类的每个模型保留的较优视图的数量，通过熵过滤机制去除较差视图，具体如下：

1)在视图数量的选择上，由于通常数据集中不同分类下三维模型的数量不一，按照传统方法固定视图数量会带来训练数据不均衡的问题，进而影响下文中基于较优视图集进行的深层卷积神经网络的训练。因此通过以下公式计算出每个分类下模型提取视图的数量n.

其中N代表视点数量，n代表该类别下模型最终的视图数量，c_i代表i类别下模型的数量，a是固定常数，用于控制视图数量，t代表数据集中模型的类别总数。

2)在视图质量的判定上，使用如下公式对每张视图的灰度熵进行计算，并按照熵的大小进行排序，保留熵最大的前n张视图作为该模型的较优视图集。

其中p_i表示灰度值为i的像素在整个视图中所占的比例，H代表灰度熵。

步骤二，在所有模型的较优视图集中，选取19352张视图作为训练集，6452张视图作为验证集，将图像尺寸统一调整为150x150后，使用深度卷积神经网络进行训练，在训练过程中，本发明使用的卷积神经网络模型包括如图4所示的VGG16的卷积模块和CNN-FLI模块两部分，前者在ImageNet上已经经过了充分训练，较高的训练率可能会破坏该部分权重。

本卷积神经网络在VGG16卷积模块的基础上，增加了三个卷积层和两个全连接层，并对卷积结果进行最大池化操作，然后传输给全链接层，在误差反向传播阶段，对实际输出与理想输出之间的误差进行计算，使用随机梯度下降法(SGD)对累计误差进行最小化；使用ELU作为激活函数，避免了部分神经元永远不被激活的情况，在卷积模块中卷积核的设置上，选择了1*1,3*3,1*1相交替的模式，降低层数的增加带来的过拟合的倾向。同时在卷积层的最后设置了一层2*2的池化层，通过最大池化操作，有效减少了参数的数量。一个m*m的特征矩阵，经过大小为a*a的池化区域的池化，参数数量会变成(m/a)*(m/a).在全连接层的设计上，使用1024维的全连接层搭配与模型类别总数一致的最后一层全连接层作为全连接模块。

整个训练过程分成两部分进行；首先是预训练部分，为了避免训练过程劣化已有权重，我们选择固定VGG16卷积模块的参数，将其作为特征提取器，在此基础上对CNN-FLI的权重进行随机初始化，选择了RMSProp最优化方法展开训练。经过预训练阶段，CNN-FLI会获得一个较好的初始权重。第二阶段是fine-tune部分，此时整个网络都获取到了经过训练的初始权重，已经具备了较好的特征提取能力，为了进一步提高该网络在本数据集上的效果，本专利将VGG模块的最后三个卷积层与CNN-FLI进行同步fine-tune，经过此阶段的训练，网络模型对二维线条图的特征提取能力会得到进一步的提升。在fine-tune过程中，为了避免了较高的学习率带来的训练效果出现震荡，难以收敛的情况，将学习率设置为le-4，在此学习率下loss稳步下降，收敛速度较快，准确率提升稳定。卷积神经网络中，全连接层提取到的图像特征可以有效应用于图像检索中，本专利用于检索的特征是全连接层输出的1024维特征。该特征对图像具有良好的表达效果，对图像信息的表述较为精确，但是在检索领域，对检索的实时性有一定的要求，因此在高维特征的基础上，本专利使用PCA将维度降低至128维，从而减少了冗余数据，有效提高了检索效率。

步骤三，在输入检索时，本发明以简单背景下的自然图像作为输入源，对图像使用剪影轮廓提取方法，结合Canny算子提取到混合边缘，并进行形态学膨胀去除细小噪声，平滑物体边界，从而有效控制噪点的产生，突出关键线条，提取到如图5所示的线条轮廓图，其能够有有效表述自然图像的轮廓特征，具有可观的辨识度。在此基础上，对提取后的轮廓图使用与步骤二相同的方法提取深度特征并降维，得到128维的特征。

步骤四，使用欧氏距离对自然图像的特征与较优视图集的特征进行计算，获取与输入源相似度最高的二维视图候选列表Lo及其相似度，将视图的相似度作为三维模型的相似度，进而得到三维模型的候选列表L，对列表中的三维模型的视图在视图候选列表Lo中出现的次数t进行统计，并以其为基准对L中模型的相似度进行进一步计算：

原有相似度Score0经过上述计算得到Score1之后，统计出L中每个模型所属的类别，当候选列表的长度为length，类别A出现次数为i时，进行如下计算：

在a₂的取值上，为了平衡视图原有相似度与视图所处类别占比的关系，选取0.4作为固定取值。通过调整检索结果的相对位置，具体如图6、图7所示，得到的检索列表的序列会更符合检索预期，以此获得最终的检索结果。

以上的所述乃是本发明的具体实施例及所运用的技术原理，若依本发明的构想所作的改变，其所产生的功能作用仍未超出说明书及附图所涵盖的精神时，仍应属本发明的保护范围。

Claims

1.基于较优视图和深度卷积神经网络的三维模型检索方法，其特征在于，包括如下步骤：

(3)在VGG16神经网络结构内的卷积模块的基础上构建一个由3个卷积层和2个全连接层构成的卷积神经网络，基于较优视图集中的训练集进行充分训练后，利用该网络对较优视图集中的验证集提取深度特征，并通过PCA对提取到的深度特征进行降维；

(5)依据初始检索结果列表中模型所属分类下模型数量与列表长度的比例调整最终相似度，并以此对检索结果列表的次序进行重排，得到最终的检索结果。

2.根据权利要求1所述的基于较优视图和深度卷积神经网络的三维模型检索方法，其特征在于：所述步骤(1)渲染的方法为采用以三维模型的质心为球心的、包含多个视点的视点球对三维模型进行包裹，采用闭合轮廓线结合暗示轮廓的渲染方法对三维模型进行渲染。

3.根据权利要求1所述的基于较优视图和深度卷积神经网络的三维模型检索方法，其特征在于：所述步骤(2)的熵过滤机制为采用灰度熵排序判断视图质量，并根据每个类别下模型的数量与模型总量的比值，来确定该类别下模型的较优视图数量的选取；具体为：

4.根据权利要求1所述的基于较优视图和深度卷积神经网络的三维模型检索方法，其特征在于：所述步骤(3)在构建卷积神经网络时，需对卷积结果进行最大池化操作后传输给全链接层；在误差反向传播阶段，对实际输出与理想输出之间的误差进行计算，使用随机梯度下降法对累计误差进行最小化。

5.根据权利要求4所述的基于较优视图和深度卷积神经网络的三维模型检索方法，其特征在于：所述的卷积神经网络使用ELU作为激活函数，在卷积模块中卷积核的设置上，选择了1*1,3*3,1*1相交替的模式；在卷积层的最后设置有一层2*2的池化层；在全连接层的设计上，使用1024维的全连接层搭配与模型类别总数一致的最后一层全连接层作为全连接模块。

6.根据权利要求1所述的基于较优视图和深度卷积神经网络的三维模型检索方法，其特征在于：所述步骤(5)中对检索列表重排的方法如下：

(5.1)获取与输入源相似度最高的二维视图候选列表Lo及其相似度，对每个三维模型保留相似度最高的一张视图，并将其与所属的三维模型一一对应，得到三维模型的候选列表L；

(5.3)原有相似度Score0经过步骤(5.2)计算后得到Score1，统计出L中每个模型所属的类别，并计算出每个模型所属分类存在于数据集中的模型的数量占模型总数的比例，提高占比高的模型的最终相似度，并以此相似度对检索结果列表的次序进行重排。