CN109543054B

CN109543054B - 一种基于视图的特征降维三维模型检索方法

Info

Publication number: CN109543054B
Application number: CN201811208023.6A
Authority: CN
Inventors: 刘安安; 周河宇
Original assignee: Tianjin University
Current assignee: Tianjin University
Priority date: 2018-10-17
Filing date: 2018-10-17
Publication date: 2022-12-09
Anticipated expiration: 2038-10-17
Also published as: CN109543054A

Abstract

本发明公开了一种基于视图的特征降维三维模型检索方法，所述方法包括以下步骤：将数据库中各物体的多视角彩色视图集定义为多视角模型库，提取多视角模型库的特征得到各物体的特征向量集，并定义为多视角特征库；利用奇异值分解算法计算多视角特征库的特征值和特征向量，选取每个三维物体的代表视图以降低视图数量，得到减少视图数后的特征库；构建降维方程，利用迭代算法和特征库对降维方程中的变量进行最优化训练；根据最优变量计算两模型间的距离，得到最终的检索结果。本方法实现了在选取视图代表的同时降低了特征维度，降低了计算的复杂度，提高了三维模型检索的精度。

Description

一种基于视图的特征降维三维模型检索方法

技术领域

本发明涉及三维模型检索领域，尤其涉及一种基于视图的特征降维三维模型检索方法。

背景技术

3D模型作为一种比2D图片更加丰富多彩的多媒体数据类型在近几年正不断进步和发展。一方面，建模工具，3D扫描器，3D图形加速硬件等等设备的发展使得接入和产生高质量的3D模型成为可能。尤其是微软Kinect的发明和使用，有力的推动和促进了这个发展趋势。另一方面，计算机图形学的发展，工业产品设计^[1]，三维场景^[2]，虚拟现实^[3]等等3D模型的应用使得3D模型被广泛传播和使用。3D模型在娱乐^[4]、医学^[5]、工业等应用领域的研究和使用得到了认同。日益发展的互联网技术也为3D模型的传输和处理提供了条件，这些都推动了3D模型数据库及其应用需求的快速增长。因此，面对一个庞大的3D模型数据库，如何高效率地检索成为了一个热门课题^[6]。

3D模型检索技术和其他的多媒体数据检索技术一样，3D模型检索技术可以分为基于文本的检索技术^[7]和基于内容的检索技术^[8]，但是基于文本的检索需要对模型库用关键字或者文本信息对模型进行描述且需要人工进行标注，要花费大量的人力物力，容易降低检索效率，因此，基于内容的检索技术是目前的主流研究方法。

基于内容的检索方法首先从模型的数据中提取出相应的特征，如形状、颜色以及纹理等等。这些特征可以用来代表或者表示一个3D模型。然后在多维特征空间中计算待查询模型与目标3D模型之间的相似度，从而实现对三维数据库的检索^[9]。基于内容的3D模型检索方法主要可以分为两类：1)基于几何形状的检索技术；2)基于多视图的检索技术。早期的研究工作主要关注基于几何形状的检索技术。但是近几年，基于多视图的检索技术由于其较高的辨别度而引起了更多的关注。

基于视图的三维模型检索领域目前面临的主要挑战为：大多数方法都关注在相似度计算和模型结构表征上，而忽略了代表视图的选择和特征维度的减少，限制了实际应用范围。

发明内容

本发明提供了一种基于视图的特征降维三维模型检索方法，本发明在选取视图代表的同时降低了特征维度，降低了计算的复杂度，提高了三维模型检索的精度，详见下文描述：

一种基于视图的特征降维三维模型检索方法，所述方法包括以下步骤：

将数据库中各物体的多视角彩色视图集定义为多视角模型库，提取多视角模型库的特征得到各物体的特征向量集，并定义为多视角特征库；

利用奇异值分解算法计算多视角特征库的特征值和特征向量，选取每个三维物体的代表视图以降低视图数量，得到减少视图数后的特征库；

构建降维方程，利用迭代算法和特征库对降维方程中的变量进行最优化训练；根据最优变量计算两模型间的距离，得到最终的检索结果。

所述利用奇异值分解算法计算多视角特征库的特征值和特征向量，选取每个三维物体的代表视图的步骤具体为：

设定代表视图的数量为x，

其中Λ_i，Q_i为s_i的前x个特征值和特征向量，T为矩阵转置；选取Q_i∈R^D×x作为s_i减少视图数后的特征组成特征库Q；

每张视图的特征为D维，R表示矩阵。

所述降维方程具体为：

其中，Y^*为最优化训练后得到的最优映射矩阵；Y为映射矩阵；M(Y)为使用映射矩阵作为输入的降维方程；α反映了类内相似度距离和类间相似度距离的权衡度；M_w(Y)为类内特征的降维方程；M_b(Y)为类间特征的降维方程。

所述利用迭代算法和特征库对降维方程中的变量进行最优化训练的步骤具体为：

通过第k-1的共轭梯度H_k-1计算出第k次的共轭梯度H_k，

其中，

为对降维方程中的矩阵Y求梯度操作；M(Y_k)为第k次迭代时的降维方程；η为求导得出的局部极小值；Y_k为第k次迭代的Y矩阵；

通过对Y_k-1＝γ(k-1)进行梯度求导得到梯度方向H_k-1并利用步长γ得到

Y_k＝arg min_YM(Y)，重复计算直到收敛；

其中，Y_k-1为第k-1次迭代的Y矩阵；M(Y)为需要进行求最优化操作的降维方程。

本发明提供的技术方案的有益效果是：

1、避免了采集初始视图时对样本视图数的依赖，可设定代表视图的数量，具有很好的调节性；

2、使用迭代方法降低特征维度，提高了匹配精确度。

附图说明

图1为一种基于视图的特征降维三维模型检索方法的流程图；

图2为物体的初始多视角视图集样例；

图3为四种三维模型检索方法的查准-查全曲线。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚，下面对本发明实施方式作进一步地详细描述。

实施例1

为了解决三维模型检索中特征降维的问题，提高三维模型检索的准确度，参见图1，本发明实施提供了一种基于视图的特征降维三维模型检索方法，该方法包括以下步骤：

101：将数据库中各物体的多视角彩色视图集定义为多视角模型库，提取多视角模型库的特征得到各物体的特征向量集，并定义为多视角特征库；

102：利用奇异值分解算法计算多视角特征库的特征值和特征向量，选取每个三维物体的代表视图以降低视图数量，得到减少视图数后的特征库；

103：构建降维方程，利用迭代算法和步骤102中得到的特征库对降维方程中的变量进行最优化训练；

104：利用上述步骤中得到的最优变量计算两模型间的距离，得到最终的检索结果。

综上所述，本发明实施例通过上述步骤101-步骤104实现了在选取视图代表的同时降低了特征维度，降低了计算的复杂度，提高了三维模型检索的精度。

实施例2

下面结合具体的计算公式、实例对实施例1中的方案进行详细介绍，详见下文描述：

201：将数据库中各物体的多视角彩色视图集定义为多视角模型库SD(SetDatabase)，提取多视角模型库的特征得到各物体的特征向量集并定义为初始多视角特征库FD(Feature Database)；

由于Zernike矩[^10]在视图的平移、缩放和旋转中具有不变性，所以不失一般性的，采用Zernike矩为例进行实验，得到特征向量集并定义为初始多视角特征库FD，用S表示，S＝{s₁,s₂,...,s_m}和类别标签

其中，m为三维模型的数量；s_m为第m个三维模型的特征；

为第m个三维模型的类别标签。

202：利用奇异值分解算法计算多视角特征库的特征值和特征向量，选取每个三维物体的代表视图以降低视图数量，得到减少视图数后的特征库；

根据步骤201中得到的初始多视角特征S＝{s₁,s₂,...,s_m}每个三维模型的特征向量都视为一个矩阵，一个三维模型的特征为

表示第i个三维模型有v_i张视图，每张视图的特征为D维，R表示矩阵。

奇异值分解算法^[11]的主要思路是求出每个三维模型的特征s_i的特征值和特征向量，并利用特征值和特征向量来表示s_i，针对本发明的具体计算方法为：设定代表视图的数量为x，

其中Λ_i，Q_i为s_i的前x个特征值和特征向量，T为矩阵转置。选取Q_i∈R^D ^×x作为s_i减少视图数后的特征组成特征库Q。

203：构建降维方程，利用迭代算法和步骤202中得到的特征库对方程中的变量进行最优化训练；

降维方程使得类内相似度最小、并且类间相似度最大：

类内相似度和类间相似度的计算方法如下：

其中，Z∈R^D×d且为一个正交矩阵，d为降维后的矩阵维数，Q_i∈R^D×x为第i个三维模型s_i的代表视图，但是Z^TQ_i一般在最初时非正交，所以需要将Q_i转换为Q′_i从而使得Z^TQ′_i正交，要求Z满秩，Q′_i为Q_i转换后的使得Z^TQ′_i正交的矩阵，Q′_j为Q_j转换后的使得Z^TQ′_j正交的矩阵；i，j分别为第i个三维模型和第j个三维模型，N_w为同类的样本对数，N_b为不同类的样本对数，m为三维模型的数量，l_i为第i个三维模型的类别标签，l_j为j个三维模型的类别标签；

Y＝ZZ^T，Y和P为需要学习的矩阵，tr和F为数学中的矩阵计算公式。

对每个三维模型i，它的降维矩阵Q_i都应当变为Q′_i，这样矩阵Z^TQ_i才是正交的并且可得到固定的Y＝ZZ^T。为了得到所需的Q′_i值，首先对Z^TQ_i进行QR-分解得到q列的正交矩阵O_i和可逆上三角矩阵F_i∈R^q×q，Z^TQ_i＝O_iF_i。由于O_i正交且F_i可逆，可得到更新的Q′_i使得Z^TQ_i正交：

O_i＝Z^T(Q_iF_i ^-1)→Q′_i＝Q_iF_i ^-1

将目标函数转换如下：

X_w和X_b定义为：

初始化Y：Y₀是通过利用非线性RCG(黎曼共轭梯度)算法给定的Q_i得到的，具体计算步骤为本领域技术人员所公知。

迭代优化(该部分是对Y的处理，Y_K是第k次迭代产生的矩阵)：

步骤1：输入原始的Y₀，根据Y₀矩阵求出共轭梯度H₀＝0；

步骤2：通过第k-1的共轭梯度H_k-1计算出第k次的共轭梯度H_k，

其中η为求导得出的局部极小值。

其中，M(Y_k)为第k次迭代时的降维方程；

为对降维方程中的矩阵Y求梯度操作；Y_k为第k次迭代的Y矩阵。

步骤3：通过对Y_k-1＝γ(k-1)进行梯度求导得到梯度方向H_k-1并利用步长γ得到Y_k＝arg min_YM(Y)，重复计算直到收敛。

204：利用上述步骤中得到的最优变量计算两模型间的距离，得到最终的检索结果。

根据步骤203得到的最优变量Y和P，任意两个三维模型之间的距离定义为：

距离越小，代表两个三维模型间的相似度越大。

综上所述，本发明实施例通过上述步骤201-步骤204实现了在选取视图代表的同时降低了特征维度，降低了计算的复杂度，提高了三维模型检索的精度。

实施例3

下面结合具体的实验数据、图3对实施例1和2中的方案进行可行性验证，详见下文描述：

本实验使用的数据库为由中国台湾大学发布的数据库ETH。这是一个真实世界的多视角模型数据库，共包含8类80个物体，每个物体共有41张视图。

本实验中涉及到了几个参数：迭代次数、权重系数α和代表视图数x。本实验中设置迭代次数为8，权重系数α＝0.06和代表视图数x＝16。

采用查准-查全曲线(Precision-Recall)来衡量本方法的检索性能。查准-查全曲线是三维物体检索的性能评估的重要指标之一，以查全率(Recall)为横坐标，查准率(Precision)为纵坐标。根据以下公式求得Recall和Precision，做出查准-查全曲线：

其中，Recall是查全率，N_z是正确检索对象的数量，N_r是所有相关对象的数量。

其中Precision是查准率，N_all是所有检索对象的数量。

实验中将本方法与五种三维模型检索方法进行对比：

AVC^[12](A Bayesian 3D Search Engine using Adaptive Views Clustering)，又称“利用可适应视图分类基于贝叶斯准则的三维检索算法”；CCFV^[13](CameraConstraint-Free View-Based)，又称“基于视图的相机约束自由”；NN^[14](The nearestneighbor method)，又称“最近邻分析”；SCCV^[15](Graph-based characteristic view setextraction and matching)，又称“基于图的特征视图集提取与匹配”；WBGM^[16](WeightedBipartite Graph Matching)，又称“加权二分图匹配”。

本实验与五种三维模型检索算法的查准-查全曲线比较结果如图3，查准-查全曲线与横纵坐标所围面积越大，代表检索性能越优良。

由图3可知，本方法的检索性能明显高于其他算法。这是由于与三维模型检索算法相比，本方法结合使用视图选取和特征降维，大幅度提升了检索性能。实验结果验证了本方法的可行性与优越性。

参考文献：

[1]Pu J,Lou K,Ramani K.A 2D Sketch-Based User Interface for 3D CADModel Retrieval[J].Computer-Aided Design and Applications,2005,2(6):717-725.

[2]Bao H,Dong W.The calculation and the drawing of equivalentsections of model-based 3D graphics[C]//International Congress on Image andSignal Processing.IEEE,2015.

[3]Watanabe T,Saito Y.Camera modeling technique of 3D sensing basedon tile coding for computer vision[C]//International Conference on Body AreaNetworks.2013.

[4]Wong H S,Ma B,Yu Z,et al.3-D Head Model Retrieval Using a SingleFace View Query[J].Multimedia IEEE Transactions on,2007,9(5):1026-1036.

[5]Guetat G,Maitre M,Joly L,et al.Automatic 3-D grayscale volumematching and shape analysis[J].Information Technology in Biomedicine IEEETransactions on,2006,10(2):362-376.

[6]Vranic D V,Saupe D.A feature vector approach for retrieval of 3Dobjects in the context of MPEG-7[C]//Proc.Intl.Conf.on Augmented,VirtualEnvironments and Three-Dimensional Imaging(ICAV3D’01).2001:37-40.

[7]Renu R S,Mocko G.Computing similarity oftext-based assemblyprocesses for knowledge retrieval and reuse[J].Journal of ManufacturingSystems,2016,39:101-110.

[8]Chen Y,Medasani S,Jiang Q,et al.Video content-based retrieval[J].2016.

[9]俞晓妮.基于特征提取的三维模型检索技术研究[J].科技传播,2014,(2).

[10]Khotanzad A,Hong Y H.Invariant Image Recognition by ZernikeMoments[J].IEEETransactions on Pattern Analysis&Machine Intelligence,1990,12(5):489-497.

[11]Golub G H,Reinsch C.Singular value decomposition and leastsquares solutions[J].Numerische Mathematik,1970,14(5):403-420.

[12]Ansary T F,Daoudi M,Vandeborre J P.A bayesian 3-d search engineusing adaptive views clustering[J].Multimedia,IEEE Transactions on,2007,9(1):78-88.

[13]Gao Y,Tang J,Hong R,et al.Camera Constraint-Free View-Based 3-DObject Retrieval[J].IEEE Transactions on Image Processing A Publication ofthe IEEE Signal Processing Society,2012,21(4):2269-2281.

[14]Cover T M,Hart P E.Nearest neighbor pattern classification[J].IEEE Transactions on Information Theory,1967,13(1):21-27.

[15]Liu A,Wang Z,Nie W,et al.Graph-based characteristic view setextraction and matching for 3D model retrieval[J].Information Sciences,2015,320:429-442.

[16]Gao Y,Dai Q,Wang M,et al.3D model retrieval using weightedbipartite graph matching[J].Signal Processing Image Communication,2011,26(1):39-47.

本领域技术人员可以理解附图只是一个优选实施例的示意图，上述本发明实施例序号仅仅为了描述，不代表实施例的优劣。

以上所述仅为本发明的较佳实施例，并不用以限制本发明，凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。