CN107066559B

CN107066559B - 一种基于深度学习的三维模型检索方法

Info

Publication number: CN107066559B
Application number: CN201710201079.8A
Authority: CN
Inventors: 刘安安; 李梦洁; 聂为之
Original assignee: Tianjin University
Current assignee: Tianjin University
Priority date: 2017-03-30
Filing date: 2017-03-30
Publication date: 2019-12-27
Anticipated expiration: 2037-03-30
Also published as: CN107066559A

Abstract

本发明公开了一种基于深度学习的三维模型检索方法，包括：将任意类型图片与特征提取器逐通道卷积，对卷积结果取绝对值进行矫正，并进行局部对比度归一化，对每张图片进行平均池化，得到每张图片的单层卷积神经网络结果；对卷积神经网络输出低阶特征以预设尺寸进行分块，每块聚合成一个父向量，最终将输出矩阵聚合成一个向量；每幅图片用多特征表示，将多特征串联，作为图片输出特征；对提取的输出特征采用基于视图的三维模型检索算法，对被查模型和已有模型进行匹配，计算被查模型和已有模型的相似度进行排序，得到最终的检索结果。本发明避免了采集图像特征时对特定类型图像依赖，消除了不同图像对人工设计特征限制，提高了多视图目标检索精度。

Description

一种基于深度学习的三维模型检索方法

技术领域

本发明涉及三维模型检索领域，尤其涉及一种基于深度学习的三维模型检索方法。

背景技术

随着计算机技术和网络的高速发展，多媒体数据规模越来越大，三维模型数据成为继声音、图像、视频之后新的多媒体数据类型。三维模型具有直观、表现力强等特点，其应用领域越来与广泛，例如：计算机辅助设计(CAD)、计算机视觉(如姿态识别)、医学影像、室内机器人导航、行为分析等。

目前已有多种三维模型识别方法或系统，分为几大类，比如早期的基于文本的三维模型检索方法，基于内容检索的三维模型检索方法，还有基于主题模型的三维模型检索方法，以及基于功能语义的三维模型检索系统。这些方法需要明确的空间结构信息，硬件要求高，使用范围受限。

发明内容

本发明提供了一种基于深度学习的三维模型检索方法，本发明避免了采集图像特征时对特定类型图像的依赖，消除了不同图像对人工设计特征的限制，提高了多视图目标检索的精度，详见下文描述：

一种基于深度学习的三维模型检索方法，所述三维模型检索方法包括以下步骤：

将任意类型图片与特征提取器逐通道卷积，对卷积结果取绝对值进行矫正，并进行局部对比度归一化，对每张图片进行平均池化，得到每张图片的单层卷积神经网络结果；

对卷积神经网络输出的低阶特征以预设尺寸进行分块，每块聚合成一个父向量，最终将输出矩阵聚合成一个向量；每幅图片用多特征表示，将多特征串联，作为图片的输出特征；

对提取的输出特征采用基于视图的三维模型检索算法，对被查模型和已有模型进行匹配，计算被查模型和已有模型的相似度进行排序，得到最终的检索结果。

其中，所述特征提取器具体为：

对数据库所有图片进行预处理，通过k-means聚类得到聚类中心；

将聚类中心作为卷积神经网络所需的特征提取器。

其中，所述对卷积神经网络输出的低阶特征以预设尺寸进行分块，每块聚合成一个父向量，最终将输出矩阵聚合成一个向量，每幅图片用多特征表示，将多特征串联，作为图片的输出特征的步骤具体为：

对卷积神经网络输出的低阶特征以预设尺寸进行分块，每块与一个大小相同的权值矩阵相乘聚合成一个父向量，所得的父向量按顺序排列，同样以预设尺寸进行分块，与同一个大小相同的权值矩阵相乘聚合成一个父向量，以此类推，直至最终将输出的低阶特征矩阵聚合成一个向量。对同一个卷积神经网络输出的低阶特征矩阵进行多次分块聚合迭代，每次迭代都使用一个新的固定大小的权值矩阵，得到多个特征向量，将多特征串联，作为图片的输出特征。

本发明提供的技术方案的有益效果是：

1、提高了多个目标检索系统的检索性能，而且几种检索方法均达到了几乎相近的检索性能，使得检索方法之间的差异性不再重要；

2、借用了卷积神经网络的优点，可以对原始的未经过任何处理的图像数据提取特征，极大地发挥了其机器学习的自主性；

3、避免了采集视图特征时对摄像机空间位置信息的依赖。

附图说明

图1为一种基于深度学习的三维模型检索方法的流程图；

图2为ETH数据库视图样例；

图3为MVRED(多视图RGB-D物体数据库)数据库视图样例；

图4(a)ETH(苏黎世联邦理工学院数据集)数据库上各种特征的查准查全曲线；

图4(b)ETH数据库上卷积递归神经网络特征的其他评测方法(NN(最近邻)、FT(第一层)、ST(第二层)、F-measure(F值)、DCG(折扣增益值)、ANMRR(平均归一化检索秩))结果(图中用“CRNN”表示卷积递归神经网络)；

图5(a)ETH数据库上卷积递归神经网络特征在不同的目标检索方法(WBGM(最大加权二分图匹配机制)、HAUS(豪斯多夫距离)、CCFV(基于高斯分布的三维模型检索)、NN)中的查准查全曲线；

图5(b)ETH数据库上卷积递归神经网络特征的其他评测方法(NN、FT、ST、F-measure、DCG、ANMRR)结果；

图6(a)MVRED数据库上各种特征的查准查全曲线；

图6(b)MVRED数据库上基于CRNN特征的其他评测方法(NN、FT、ST、F-measure、DCG、ANMRR)结果；

图7(a)MVRED数据库上卷积递归神经网络特征在不同的目标检索方法(WBGM、HAUS、CCFV、NN)中的查准查全曲线；

图7(b)MVRED数据库上卷积递归神经网络特征的其他评测方法(NN、FT、ST、F-measure、DCG、ANMRR)结果。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚，下面对本发明实施方式作进一步地详细描述。

早在1956年，就已经提出了人工智能(artificial intelligence，AI)的概念，伟大的计算机先驱图灵曾在1950年设计出了一项测试，判断机器是否具备智能，后被人称为“图灵测试”。机器学习是人工智能的核心，专门研究计算机如何模拟并实现人类的学习行为，它的一个新领域就是深度学习。虽然深度学习的重点网络模型是神经网络之一，但神经网络早在60年代就被提出。直到20世纪80年代末期，反向传播算法被提出，应用于人工神经网络，神经网络再掀波澜，其主要思想是随机设定初值计算含有隐藏神经元的网络输出，然后根据输出计算误差，再将误差向回传播。但早期神经网络模型效果不佳，一是由于训练数据集规模小，容易导致模型过拟合，泛化能力差；二是BP(后向传播)算法导致误差传播到前几层已很小，梯度扩散。2006年，多伦多大学的Hinton等人提出了结合无监督学习、限制玻尔兹曼机等的深度置信网络(deep belief networks，DBN)^[1]。这篇文章开启了深度学习在学术界和工业界的浪潮，主要观点认为将无监督学习应用在每一层初始化，可以有效克服之前训练神经网络的困难，如陷入局部最小值。之后Erhan等人通过实验验证了无监督预训练在训练深层结构时的优势。Bengio^[2]提出了深度学习的概念，相比于神经网络的BP算法，Bengio采用了layer-wise(分层)的训练机制，解决了梯度衰竭问题。

深度架构学习的重点是从最底层的特征到最高层的概念自动发现学习目标的抽象性，尽管现在有很多人工设计的特征提取方法已被提出，比如SIFT(尺度不变特征变换)、HOG(方向梯度直方图)、Zernike等，人们仍然希望学习算法这一步尽可能由机器自己实现，即无需手动定义所有必要的特征或提供一套庞大的手工标记样例。原始数据由许多可观察到的变量组成，但是这些变量间有着错综复杂的统计关系，手工地分离出这些变量或指出变量间的统计关系并不容易。因此在未来更庞大的数据量和更广泛的应用领域，深度学习所具备的自动学习的能力将成为越来越重要的机器学习方法。

2016年3月9日，由Google旗下deepmind团队研发的智能围棋程序AlphaGo在与韩国围棋9段李世乭的比赛中一站成名，最终以4:1的成绩将人工智能和深度学习推上了新的热潮。相较于1997年5月11日加里·卡斯帕罗夫与IBM的计算机程序“深蓝”的人机大战，AlphaGo的成功显得更令人吃惊。与象棋不同，围棋的规则简单，但是19*19的棋盘以及变化多端的棋路让围棋每一步的计算量都可以成为一个天文数字，因此用深蓝电脑“穷举”的方法是无法战胜人类的。使用深度学习的AlphaGo找到了一种更聪明的学习方法，利用走棋网络(Policy Network)和估值网络(Value Network)来学习经验，提高效率^[3]。

卷积神经网络^[4]是第一个真正成功训练多层网络结构的学习算法。它利用空间关系减少需要学习的参数数目以提高一般前向BP算法的训练性能。在卷积神经网络中，图像的一小部分(局部感受区域)作为层级结构的最低层的输入，信息再依次传输到不同的层，每层通过一个数字滤波器去获得观测数据的最显著的特征。这个方法能够获取对平移、缩放和旋转不变的观测数据的显著特征，因为图像的局部感受区域允许神经元或者处理单元可以访问到最基础的特征，例如定向边缘或者角点。

自2006以来，深度网络已成功地应用于分类任务，还有回归，降维，建模纹理，建模运动，对象分割，信息检索，机器人，自然语言处理和协同过滤等^[5]。卷积神经网络用于各国语言识别、交通标志识别、谷歌街景中的门牌号码和车牌识别等任务中，卷积网络也能有效地应用在目标检测任务中，如人脸检测、行人检测、自然图像中的文本检测等^[6]。

2012年，Socher等人^[7]设计了一种结合CNN和RNN的针对RGB-D这种新型三维信息提取特征并分类的模型结构。其中CNN提取低阶特征送入RNN提取高阶特征。实验在RGB-D数据集上取得了非常好的效果。

实施例1

为了解决以上问题，需要能够全面、自动、准确提取多视图目标的特征并进行检索的方法。研究表明：随着神经网络层数的提高，所得到的特征将会显示出组合性、平移不变性提高、类可区分度提高等直观的优良属性^[8]。本发明实施例提出了基于深度学习的三维模型检索方法，参见图1，详见下文描述：

101：将任意类型图片与特征提取器逐通道卷积，对卷积结果取绝对值进行矫正，并进行局部对比度归一化，对每张图片进行平均池化，得到每张图片的单层卷积神经网络结果；

102：对卷积神经网络输出的低阶特征以预设尺寸进行分块，每块聚合成一个父向量，最终将输出矩阵聚合成一个向量；每幅图片用多特征表示，将多特征串联，作为图片的输出特征；

103：对提取的输出特征采用基于视图的三维模型检索算法，对被查模型和已有模型进行匹配，计算被查模型和已有模型的相似度进行排序，得到最终的检索结果。

综上所述，本发明实施例通过上述步骤101-步骤103避免了采集图像特征时对特定类型图像的依赖，消除了不同图像对人工设计特征的限制，提高了多视图目标检索的精度。

实施例2

下面结合具体的计算公式、实例对实施例1中的方案进行进一步地介绍，详见下文描述：

201：对数据库所有图片进行预处理，通过k-means聚类得到聚类中心；

其中，对数据库所有图片进行预处理，包括图片大小归一化、提取图片块亮度和对比度归一化x⁽ⁱ⁾、白化、k-means聚类得到聚类中心c^(j)步骤，其中i∈{1,2,…,M}，j∈{1,2,…,N}。

本发明实施例首先对输入图片进行预处理，过程如下：首先将输入的不同大小的RGB图片数据进行尺度归一化，调整大小为148×148×3大小的图片，然后需要对图片间隔步长1提取大小为9×9×3的图片块共可得到19600个图片块，其中i∈{1,2,…,19600}。然后针对每个图像块进行归一化：

其中，为所提取的图片块向量；为对所提取的图片块取均值；为对所提取的图片块取方差。

即减去该图像块的均值再除以其标准差，这里为了避免标准差值为零或值极小，所以给标准差增加一个小的常数10。

然后对数据进行白化。归一化后还不能立即进行k-means聚类，对于聚类算法k-means来说，白化与未白化的效果相距甚远，未白化的k-means会产生很多高度相关的聚类中心。先对一幅图片所提取的所有图片块{x⁽ⁱ⁾}的243个维度之间求协方差矩阵cov({x⁽ⁱ⁾})∈R^243×243，然后对该协方差矩阵进行特征值分解得到cov({x⁽ⁱ⁾})＝VDV^T，得到特征值矩阵D和特征向量矩阵V，T为转置。ZCA白化的公式为：

其中，x⁽ⁱ⁾ _ZCAwhite为经过ZCA白化后的图片块；ε为正则化参数；I为单位矩阵。

ε是加入了正则化，本发明实施例取值为0.1，原因是当某些特征值极小或接近0，加入ε压制噪声，防止数据上溢。mean({x⁽ⁱ⁾})是对一幅图片所提取的所有图片块{x⁽ⁱ⁾}的243个维度之间求均值，结果为243维的行向量。

最后，使用k-means对所有图像块进行聚类：

其中，μ_j为前一次迭代得到的聚类中心；c^(j)为迭代得到的新聚类中心；：＝为定义的意思；j为聚类中心的标号。

对每一个输入向量x⁽ⁱ⁾∈R²⁴³求它到每个聚类中心的距离，找到距离最小的所对应的那个聚类中心，标记为c^(j)

其中，l为求两个向量之间的距离。

对于第j个聚类中心，找到使得c^(j)值为j的所有输入向量x⁽ⁱ⁾，即求出所有和这个聚类中心距离最近的输入向量，把它们作为该聚类中心的簇成员，并求出簇成员的最小距离的均值，最为新的聚类中心，仍标记为c^(j)。重复上两个步骤，直至迭代结束，或直至收敛。最终可得128个聚类中心，其中c^(j)∈R²⁴³，j∈{1,2,…,128}。

202：将聚类中心c^(j)作为卷积神经网络所需的特征提取器，将输入的任意类型图片与特征提取器逐通道卷积，再对卷积结果y_tmn取绝对值进行矫正，然后对校正结果进行局部对比度归一化，最后对每张图片进行平均池化，得到每张图片的单层卷积神经网络结果；

其中，上述任意类型图片可以为彩色或灰度图片等。

本发明实施例对输入的RGB图片看作一个三维数组∈R^148×148×3，由3个大小为148×148的二维视图构成，每个二维图记为x_t，其中t∈{1,2,3}。每一个特征提取器c^(j)可看作3个卷积核k_mn，大小为9×9。输出也为一个三维数组y∈R^{128×140×140}。这里x_tm′n′和y_smn代表x_t和y的每个元素。得到以下公式：

y＝g_stanh(∑_m,n k_mn*x_t)

其中，tanh是非线性的双曲正切函数。*是二维离散卷积操作符。g_s是一个可训练的标量系数。

然后对输出三维数组的每一个元素进行矫正：

y_smn＝|y_smn|

对于一个元素y_smn的减法归一化运算为：

其中，v_smn为对于每个元素y_smn的减法归一化运算的结果；y_s,m+p,n+q为y_smn横向相邻p个纵向相邻q个元素的元素值。

即该位置的值减去领域各点的值，其中ω_pq是归一化的高斯加权窗，本实验中使用大小为9×9的高斯加权窗，且有∑_spqω_pq＝1(权值是为了区分与该位置距离不同影响不同，距离越远权值越小)。

再对每个v_ijk进行除法归一化计算公式为

y_smn＝v_smn/max(c,σ_mn)

其中，σ_mn＝(∑_spqω_pq·v_s,m+p,n+q)^1/2是每一个特征图在同一个空间位置的邻域的加权和的值，相当于方差，常数c是所有特征图的σ_mn的均值。如果方差值大于1时则舍去(因为归一化的目的是要去限制它，使其减少响应，而不是增强响应)。

最后需要对得到的特征图进行下采样，本发明实施例采用平均池化的方法：

y_smn＝∑_pqω_pq·y_s,m+p,n+q

其中，ω_pq均值加权窗，池化窗采用滑动窗口的方法，滑动步长为1，且输出特征图数量保持与输入一致，这里仍为3。池化后的输出为R^128×27×27。

203：对卷积神经网络输出的低阶特征以预设尺寸进行分块，每块聚合成一个父向量，重复递归上述结构，最终将输出矩阵聚合成一个向量；

上述预设尺寸可以为4×4，具体实现时，本发明实施例对此不做限制。

本发明实施例递归神经网络层的输入为每张图片经过卷积神经网络层提取出的一个三维矩阵R^128×27×27，在第二维和第三维平面上划分向量块，大小为128×2×2，每个向量块中有2²个子向量b₁…b₄∈R¹²⁸，使向量块中相邻的子向量融合成一个父向量P∈R¹²⁸，为了方便起见，向量块采用正方形。计算父向量的公式如下：

其中，参数矩阵W∈R^{128×(4·128)}，f函数是一个非线性的函数如tanh，b₁…b₄为向量块中的4个子向量。公式中忽略了偏差的计算。所有的向量块将会使用同一套权重矩阵W。最后会得到(27/2)²个父向量，构成新的三维矩阵B₁。重复以上步骤直至最终只剩一个父向量。

204：重复上一步骤，每幅图片将得到64个特征表示，并将这64个向量串联，作为该输入图片的输出特征；

本发明实施例将对同一个卷积输出特征进行64次递归神经网络计算，即会随机生成64个参数矩阵W_h，其中h∈{1,2,…,64}，然后得到64个父向量P_h，P_h∈R¹²⁸。将这64个父向量串联得到长为64×128长的向量作为递归神经网络的输出。

205：对提取的特征采用基于视图的三维模型检索算法，对被查模型和已有模型进行匹配，计算被查模型和已有模型的相似度，进行降序排序，得到最终的检索结果。

对含有S个物体，每个物体含有l张视图的数据库进行卷积神经网络和递归神经网络计算后得到初始特征向量集Ψ＝{Ψ¹,Ψ²,…,Ψⁱ,…,Ψ^S}，其中Ψⁱ∈R^l×8192。

从测试特征向量集中随机选择一物体作为测试目标Q，再从查询特征向量集中选取任一物体作为比较目标M，检索任务为从查询特征向量集中找到与Q相似的物体M。

不失一般性，以最大加权二分图匹配机制中所采用的匈牙利算法为例。匈牙利算法的核心问题在于找增广路径。增广路径为从一个未匹配点出发交替经过两类集合Q和M的节点，如果途经一个未匹配点(出发的点不算)，则走过的所有路径为一条增广路。增广路的选择方法决定了其未匹配边比已匹配边多1条的性质。因此交换未匹配边和已匹配边可使匹配边增多1条。在找不到增广路时，达到两类集合的最大匹配，并计算Q和M的匹配概率。

选取查询特征向量集中下一比较目标M，重复上述步骤，直至查询特征向量集中的所有模型。

将测试目标Q与查询特征向量集中所有模型的匹配概率降序排列，得到最终的检索结果。

本实验还采用了其他三维模型检索算法对所得的深度特征进行检索以验证该深度特征具备良好的检索性能，以及对各种检索系统的普适性的特点。

本实例还用到基于高斯分布的三维视图模型检索(Camera Constraint-FreeView-Based 3-D Object Retrieval，CCFV)，得到查询和测试特征向量集之后，采用高斯模型，通过样本训练得到模型参数，将Q与查询特征向量集中所有模型匹配，对匹配的概率进行降序排列，得到最终的检索结果。

本实例还用到最小距离(the nearest neighbor，NN)检索算法，得到查询和测试特征向量集之后，采用高斯模型，通过样本训练得到模型参数，将测试目标Q与查询特征向量集中所有模型计算相似度：

其中，O₁和O₂定义了查询模型与被查询模型的两组视图集，v′和v″分别表示视图集中的视图，函数d(.,.)表示两张视图间的距离。将相似度降序排列，得到最终的检索结果。

本实例还用到豪斯多夫距离(HAUSdorff，HAUS)检索算法，得到查询和测试特征向量集之后，将测试目标Q与查询特征向量集中所有模型计算豪斯多夫距离，豪斯多夫距离的算法为先求是一个集合中的一个点到另一个模型集合中的最近的一个点的距离的集合，然后求出集合中最长的距离，另一个集合做同样的计算，比较两个集合中最长距离哪个更长。将得到的匹配概率降序排列，得到最终的检索结果。

综上所述，本发明实施例通过上述步骤201-步骤205避免了采集图像特征时对特定类型图像的依赖，消除了不同图像对人工设计特征的限制，提高了多视图目标检索的精度。

实施例3

下面结合具体的实例对实施例1和2中的方案进行可行性验证，详见下文描述：

本实验使用ETH数据库中共分为8类，每类10个物体，总共80个物体。每个物体包括41张图片。包括：小汽车、马、西红柿、苹果、奶牛、梨、杯子、小狗等。

本实验使用MVRED数据库由天津大学实验室制作，包括311个查询物体和505个测试物体。每个物体包括73张图片。包括RGB图片以及对应的深度图、掩膜。505个测试物体分为61类，每类中含有1到20个不等的物体。311个物体作为查询模型，每类别包含不少于10个物体。每类物体包含三个视角的图片，分别包含36、36、1张图片。

查准-查全曲线(Precision-recall curve)：其主要是根据排名列表描述查全率与查准率的动态关系。一个好的PR曲线应该尽可能的靠近坐标轴的(1,1)点。则查全率或召回率为：

即表示属于同一类被检索到的正确样本的个数，查全率越大被检索到的内容越多。准确率或查准率为：

即被检索到的样本中正确的(属于同一个类的)，查全率越大，检索到的准确率越高。其中将A表示为检索到的且属于同一个类的，B表示为检索到的但不属于同一个类的，C表示为未检索到的但属于同一个类的。当然检索的结果查准率越高越好，查全率也越高越好，但事实上这两者在某些情况下是矛盾的。

F-measure：主要是对前k个检索结果的查全率和查准率进行综合衡量的标准，且k值固定。F-Measure是查全率和查准率加权调和平均：

当参数a＝1时，就是最常见的F1了：

FT(First Tier)：是衡量前τ个结果的召回率的指标。τ指的是检索模型所属类别在数据库中的模型数目。

ST(Second Tier)：是衡量前2τ个结果的召回率的指标。τ指的是检索模型所属类别在数据库中的模型数目。

DCG(Discounted cumulative gain)：对结果的相关度进行加权求和，按照检索排列顺序，越靠后的检索结果权重越低。

NN(Nearest Neighbor Precision)：用于评价返回的第一个结果的准确率。

平均归一化检索秩(ANMRR)：是一个基于排名的检索性能评级准则，它主要关注的是检索结果中与被检索模型相关的模型的排名情况。ANMRR的值越低表示了更好的检索性能。

实验中将本方法与以下两种方法进行对比：

Zernike^[9]矩。

HOG^[10](histogram of oriented gradient)，又称“方向梯度直方图”。

SIFT^[11](Scale-invariant feature transform)，又称“尺度不变特征变换”。

HSV^[12](Hue，Saturation，Value)，又称基于视觉的特征。

如图4所示，图4(a)是ETH数据库上各种特征的查准查全曲线，图(b)是其他评测方法(NN、FT、ST、F-measure、DCG、ANMRR)。

如图4(a)所示，在ETH数据库上，Zernike、HOG、卷积递归神经网络特征的查准查重曲线表现都较好，其中SIFT表现最差，卷积递归神经网络的性能优于SIFT、HOG、Zernike、HSV。各算法的查准查全曲线所占面积分别是卷积递归神经网络为72.45％，HOG为63.97％，SIFT为23.33％，Zernike为65.75％，HSV为39.84％。

如图4(b)所示，卷积递归神经网络算法与HOG算法相比，其NN、FT、ST指标分别高出4％、10.9％、5.4％。与SIFT算法相比，其NN、FT、ST指标分别高出52％、58.8％、48.7％。与Zernike算法相比，其NN、FT、ST指标分别高出2.7％、13.1％、2.4％。与HSV算法相比，其NN、FT、ST指标分别高出30.6％、37.0％、27.3％。

图5为本方法中所用的卷积递归神经网络特征在其他不同的目标检索方法(WBGM、HAUS、CCFV、NN)中的查准查全曲线，曲线均接近(1,1)坐标点。

如图5所示，由查准查重曲线可以看出虽然Zernike矩特征性能较好，WBGM、HAUS、CCFV、NN四种目标检索方法中所占面积分别达到了65.75％，62.43％，62.50％，62.88％。但是卷积递归神经网络普遍都比Zernike矩效果更好，WBGM、HAUS、CCFV、NN四种目标检索方法中所占面积分别达到了72.45％，72.64％，75.81％，74.77％。在其他评测标准中也可以看到卷积递归神经网络普遍都比Zernike矩效果更好。

WBGM、HAUS、CCFV、NN四种方法中，每种方法所耗时间资源不同，在不同的实验上获得不同好坏的效果。HAUS使用豪斯多夫距离，NN简单计算最近邻距离，相较于WBGM和CCFV的检索方法都较为简单。CCFV算法分析了被测物体和数据库模型间的相关性，且在正负样本上分别计算概率获取了更多相关信息。WBGM使用了加权二分图方法，对每幅代表视图使用权重值，包含了代表性视图之间的联系和聚类的规模大小等信息。但是在图5中，因为采用了卷积递归神经网络特征，使得检索方法之间的差异性不再重要，几种检索方法均达到了几乎相近的检索性能。

如图6所示，图6(a)是MVRED数据库上各种特征的查准查全曲线，图6(b)是其他评测方法(NN、FT、ST、F-measure、DCG、ANMRR)。

如图6(a)所示，在MVRED数据库上，HOG、卷积递归神经网络特征的查准查重曲线表现都较好，其中SIFT表现最差，卷积递归神经网络的性能优于SIFT、HOG、Zernike、HSV。各算法的查准查全曲线所占面积分别是卷积递归神经网络为39.13％，HOG为34.12％，SIFT为8.44％，Zernike为26.04％，HSV为24.01％。

如图6(b)所示，卷积递归神经网络算法与HOG算法相比，其NN、FT、ST指标分别高出4.26％、11.78％、12.42％。与SIFT算法相比，其NN、FT、ST指标分别高出93.62％、75.50％、76.28％。与Zernike算法相比，其NN、FT、ST指标分别高出13.62％、24.28％、27.21％。与HSV算法相比，其NN、FT、ST指标分别高出34.89％、30.88％、25.36％。

Zernike只对形状轮廓敏感，多用于描述物体形状占优势的图片，没有参考任何颜色信息，不能很好区分形状相近而种类完全不同的物体，比如苹果，橘子。HSV只考虑颜色信息，缺少对形状的描述。SIFT特征检索结果较其他检索结果来说非常差，原因分析有两点：其一SIFT特征多使用于对视频或运动物体提取特征，对拐角处和边缘信息比较敏感，但是忽视了颜色信息，对于静态的数据库图像识别能力较差。其二，SIFT特征在本实验中平均对每张图片提取30个关键点，关键点提取较少，且SIFT的关键点位置分布不均匀。HOG特征在图像块局部提取，对图像几何形变和光学形变都能保持较好的不变性，综合来说要优于以上3种特征。但是仍然无法与卷积递归神经网络相提并论。

图4和图6相比，目标检索在ETH数据库上的检索性能相较于MVRED的检索性能更好，分析原因在于ETH数据库相较于MVRED数据库来说较为简单，数据量较少，因此在ETH数据库上大部分特征的检索结果都非常好，而在这之中，卷积递归神经网络的检索结果普遍比其他检索结果都要好。

图7为本方法中所用的卷积递归神经网络特征在其他不同的目标检索方法(WBGM、HAUS、CCFV、NN)中的查准查全曲线。

如图7所示，可以看出虽然HOG特征性能较好，WBGM、HAUS、NN三种目标检索方法中所占面积分别达到了34.12％、28.99％、30.61％。但是卷积递归神经网络普遍都比Zernike矩效果更好，WBGM、HAUS、NN三种目标检索方法中所占面积分别达到了39.13％、36.26％、37.01％。在其他评测标准中也可以看到卷积递归神经网络普遍都比HOG效果更好。

提取的卷积递归神经网络特征分别在ETH数据库和MVRED数据库上，与其他人工设计的浅层特征作比，表现突出，所列评测指标中均优于其他特征。并且，卷积递归神经网络特征在多个目标检索系统上都拥有良好的性能，而且几种检索方法均达到了几乎相近的检索性能，使得检索方法之间的差异性不再重要。

参考文献：

[1]Hinton G E,Osindero S,Teh Y W.A fast learning algorithm for deepbelief nets[J].Neural computation,2006,18(7):1527-1554.

[2]Bengio Y,Lamblin P,Popovici D,et al.Greedy layer-wise training ofdeep networks[J].Advances in neural information processing systems,2007,19:153.

[3]Silver D,Huang A,Maddison C J,et al.Mastering the game of Go withdeep neural networks and tree search[J].Nature,2016,529(7587):484-489.

[4]何鹏程.改进的卷积神经网络模型及其应用研究[D].大连理工大学,2015.

[5]Bengio Y.Learning deep architectures for AI[J].Foundations andin Machine Learning,2009,2(1):1-127.

[6]余滨,李绍滋,徐素霞等.深度学习:开启大数据时代的钥匙[J].工程研究:跨学科视野中的工程,2014,6(3):233-243.

[7]Socher R,Huval B,Bath B,et al.Convolutional-recursive deeplearning for 3d object classification[C].Advances in Neural InformationProcessing Systems.2012:665-673.

[8]Zeiler M D,Fergus R.Visualizing and understanding convolutionalnetworks[C]//European Conference on Computer Vision.Springer InternationalPublishing,2014:818-833.

[9]Chen D Y,Tian X P,Shen Y T,et al.On visual similarity based 3Dmodel retrieval[C].Computer graphics forum.Blackwell Publishing,Inc,2003,22(3):223-232.

[10]Dalal N,Triggs B.Histograms of oriented gradients for humandetection[C]//2005IEEE Computer Society Conference on Computer Vision andPattern Recognition(CVPR'05).IEEE,2005,1:886-893.

[11]Lowe D G.Distinctive image features from scale-invariantkeypoints[J].International journal of fcomputer vision,2004,60(2):91-110.

[12]Hanbury A.The taming of the hue,saturation and brightness colourspace[C]//Proceedings of the 7th Computer Vision Winter Workshop,Bad Aussee,Austria.2002:234-243.

本发明实施例对各器件的型号除做特殊说明的以外，其他器件的型号不做限制，只要能完成上述功能的器件均可。

本领域技术人员可以理解附图只是一个优选实施例的示意图，上述本发明实施例序号仅仅为了描述，不代表实施例的优劣。

以上所述仅为本发明的较佳实施例，并不用以限制本发明，凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种基于深度学习的三维模型检索方法，其特征在于，所述三维模型检索方法包括以下步骤：

对提取的输出特征采用基于视图的三维模型检索算法，对被查模型和已有模型进行匹配，计算被查模型和已有模型的匹配概率并降序排列，得到最终的检索结果；

其中，所述对卷积结果取绝对值进行矫正，并进行局部对比度归一化具体为：

对输出三维数组的每一个元素进行矫正：

y_smn＝|y_smn|

对于一个元素y_smn的减法归一化运算为：

其中，v_smn为对于每个元素y_smn的减法归一化运算的结果；y_s,m+p,n+q为y_smn横向相邻p个纵向相邻q个元素的元素值；ω_pq是归一化的高斯加权窗；

再对每个v_ijk进行除法归一化计算公式为

y_smn＝v_smn/max(c,σ_mn)

其中，σ_mn＝(∑_spqω_pq·v_s,m+p,n+q)^1/2是每一个特征图在同一个空间位置的邻域的加权和的值，相当于方差，常数c是所有特征图的σ_mn的均值。

2.根据权利要求1所述的一种基于深度学习的三维模型检索方法，其特征在于，所述特征提取器具体为：

将聚类中心作为卷积神经网络所需的特征提取器。

3.根据权利要求1所述的一种基于深度学习的三维模型检索方法，其特征在于，所述对卷积神经网络输出的低阶特征以预设尺寸进行分块，每块聚合成一个父向量，最终将输出矩阵聚合成一个向量，每幅图片用多特征表示，将多特征串联，作为图片的输出特征的步骤具体为：

对卷积神经网络输出的低阶特征以预设尺寸进行分块，每块与一个大小相同的权值矩阵相乘聚合成一个父向量，所得的父向量按顺序排列，同样以预设尺寸进行分块，与同一个大小相同的权值矩阵相乘聚合成一个父向量，以此类推，直至最终将输出的低阶特征矩阵聚合成一个向量；

对同一个卷积神经网络输出的低阶特征矩阵进行多次分块聚合迭代，每次迭代都使用一个新的固定大小的权值矩阵，得到多个特征向量，将多特征串联，作为图片的输出特征。