CN111339342B

CN111339342B - 一种基于角度三元中心损失的三维模型检索方法

Info

Publication number: CN111339342B
Application number: CN201911084984.5A
Authority: CN
Inventors: 冷彪; 杨量
Original assignee: Shenzhen Beihang Emerging Industrial Technology Research Institute
Current assignee: Shenzhen Beihang Emerging Industrial Technology Research Institute
Priority date: 2019-11-08
Filing date: 2019-11-08
Publication date: 2023-05-05
Anticipated expiration: 2039-11-08
Also published as: CN111339342A

Abstract

本发明涉及一种基于角度三元中心损失的三维模型检索方法，将三维模型投影到二维图像，设计多视角融合深度神经网络；设计三元中心损失函数；替换距离函数，角度三元中心损失函数；网络参数的更新；提取模型的特征向量；根据特征向量进行三维模型检索。本发明在三维模型领域具有广泛的应用。在深度学习模型基础上添加了全新的损失函数进行监督，能够增强深度神经网络的特征提取能力。同时，本发明采用余弦距离进行检索，检索系统的速度和准确性都有很大的提升。

Description

一种基于角度三元中心损失的三维模型检索方法

技术领域

本发明涉及一种基于角度三元中心损失的三维模型检索方法，属于深度学习以及计算机视觉领域。

背景技术

传统的三维模型检索方法依赖于人工设计的特征向量。通过设计具有鲁棒性的特征提取器，这些方法首先将三维模型转换为具有辨别力的特征向量，然后在特征空间进行相应的检索任务。在传统检索算法中，SIFT(Scale-invariant feature transform)算法是设计特征向量最常用的算法。SIFT算法首先提取三维模型的局部特征，对于各种几何变换，例如旋转、尺度缩放、亮度变化保持不变等具有特征不变性，同时对视角变化、仿射变换、噪声等干扰因素也有很强的鲁棒性。一个三维模型往往有多个特征，形成的一个特征集合代表了这个三维物体。在各种SIF变体算法中，特征集合的独特性得到了体现。进一步通过结合相应的集合匹配算法，SIFT能够快速检索特征库以实现三维模型检索的任务。

近些年来，随着计算机视觉和深度学习的发展，基于深度神经网络的三维模型检索算法取得了很大的进步。由于三维模型有多种表示方法，例如体素、点云、多边形等，各种基于深度学习三维模型检索算法可以根据处理对象的形式分为两类：基于视图算法和基于模型算法。基于模型的算法将整个三维模型整体或者分部分输入到神经网络中进行特征提取。三维模型的检索依赖于模型的三维几何性质和所在的场景，而基于模型的算法能够获取到物体的整体结构信息，所以能够获取更多的三维特征性质。但是整体模型的输入带来了巨大的运算负载，这反而限制了此类算法对于模型特征的提取能力。而基于视图的算法首先要将三维模型进行投影，这一过程中虚拟相机在各个视角下将三维模型渲染成一个二维图像，以整个二维图像集作为模型的表示。然后，通过神经网络处理一组二维图像信息进而获取三维模型的几何特征，在后续中加入特征向量处理步骤，最后通过后续算法处理完成检索任务。

随着三维模型的应用越来越广泛，工业产品设计、虚拟现实、三维游戏、教育等领域广泛使用三维模型检索技术。

发明内容

本发明的技术解决问题是：克服现有三维模型检索系统的训练与测试度量方式不一致的缺点，提供一种基于角度三元中心损失的三维模型检索方法，可以保持训练时的高精度，提高检索性能。同时兼顾类内距离和类间距离的优化，在角度空间中来设计损失函数，使得本发明可以应用到各种类型的三维数据上。

本发明设计的算法应用深度神经网络，是一种基于角度三元中心损失的三维模型检索方法，步骤如下：

步骤一：将三维模型投影到二维图像

设一个三维模型s，首先通过计算机图形学投影法在8个不同视角上将s渲染为8张图像。所有的图片均为深度图，表示为一个频道的灰度图，灰度值从0到255表示距离虚拟相机的远近。

步骤二：设计多视角融合深度神经网络

使用了传统的VGGM网络结构，此网络包含5个卷积层和3个全连接层。在训练和测试的时候，整个模型的渲染图是整个输入到网络中的，我们在最后一层卷积层后边添加了一个最大化操作，8张特征图融合为一个特征图，然后输入到网络后续的全连接层中。

步骤三：设计三元中心损失函数

在深度度量学习中，三元损失函数是一个常用的选择。在应用此损失函数时，我们首先需要从数据集中组成三元组(a,p,n)。其中a是从数据集中随机抽取的三维模型，p是与a同类别的一个模型，称为正样本而n是与a异类别的一个模型，称为负样本。

用均值为0，方差为0.01的高斯分布随机初始化类中心{c₁,c₂,…,c_k}，其中k为数据集的类别数。在这里，中心可以看作类别特征的几何中心。然后，我们用三元组(a,c_a,c_n)来组成三元中心损失函数：

其中m是余量，y_i是模型a对应的类别,y_i∈Y,Y＝{1,2,…,k}。这样，我们就避免了繁琐的三元组的挑选，直接在特征和中心之间优化距离分布。

步骤四：替换距离函数

在上述的三元中心损失函数中，距离选择使用的是欧几里得距离。然而随着神经网络架构选择的不同以及同一架构下特征层选择的不同，特征向量的模长分布有着很大的方差，因此很难确定余量m的值。因此，这里将欧几里得距离替换为角度距离，这样距离就处在[0,π]的区间内，余量m的值就有着更好的解释意义。具体地，我们提出用角度距离函数替换欧几里得距离函数：

D_n＝<f_a,c_j>

角度可以通过两个向量的内积和模长间接求得。

步骤五：角度三元中心损失函数

在训练的过程中，可以求得距离原始样本最近的负样本中心，即：

因为在角度距离中，中心代表着相应类别特征向量分布的方向，我们在损失函数中首先要将中心和特征进行归一化操作：

由此退出损失函数的公式为：

其中m是余量，

是锚特征，

分别表示正负中心。α_i和β_i称为正角度和负角度分别代表a和正负中心的角距离。

步骤六：网络参数的更新

由于我们采用了随机梯度下降的方法更新网络参数，所以只需要求得L_ATC关于

的梯度和L_ATC关于

的梯度就可以对网络进行学习。首先，L_ATC可以分解为多个损失的和：

L_i＝max(α_i+m-β_i,0)

这样，由数学公式推导得到的反向传播公式为：

其中：

是锚特征，α_i，β_i分别表示正角度和负角度,

分别表示正负中心。

步骤七：提取模型的特征向量

用上述的角度三元中心损失函数进行监督，在整个数据集上进行训练和学习。在损失收敛完成网络学习之后，将三维模型s输入到网络中，得到网络倒数第二层的输出作为特征向量进行后续的检索任务。在此过程中，网络中的参数都是固定的，不再进行更新。由于一个模型8张渲染图输入到网络中只得到一个向量，所以直接进行距离测量。

步骤八：根据特征向量进行三维模型检索

假设三维模型s经过神经网络后提取到的特征向量为f_s，待检索的数据库为S，那么对于任意的模型s_r∈S，同样提取它的特征向量f_r，模型s和s_r之间的距离为他们对应特征向量的余弦距离。这样根据距离完成检索任务。

本发明与现有技术相比的优点及功效在于：

(1)本发明在三维模型领域具有广泛的应用。在深度学习模型基础上添加了全新的损失函数进行监督，能够增强深度神经网络的特征提取能力。同时，本发明采用余弦距离进行检索，检索系统的速度和准确性都有很大的提升。

(2)横向比较而言，本发明运用类别的特征中心解决了三元组样本过多的问题，不仅简化了训练的流程、节约了时间，同样促进了整个神经网络的收敛，避免了网络的过拟合。同时运用了角度距离来设计损失函数，在角度空间内直接进行距离优化，从而克服了基于欧几里得距离的损失函数的各项缺点，进而提升了检索的性能。

附图说明

图1为本发明所述方法流程图；

图2为本发明中的VGGM的网络结构图，并在网络最后一层加入角度三元中心损失函数。

具体实施方式

为了更好地理解本发明，先对一些概念进行一下解释说明。

1.深度神经网络是一个从图片映射到特征向量的多参数映射函数，用f_θ(·)来表示。对于给定的数据集X＝{x₁,x₂,…,x_n}及其对应的标签集合Y＝{y₁,y₂,…,y_n}，通常用f_i＝f_θ(x_i)来表示数据相对应的特征向量。

2.向量间的距离最常用的欧几里德距离(Euclidean Distance)，为n维空间中两点之间的线段长度。对于给定的两个点p＝(p₁,p₂…,p_n),q＝(q₁,q₂…,q_n),他们的距离计算如下：

而向量间的角度公式为：

整个实现过程如下：

本发明一种基于角度三元中心损失的三维模型检索方法，如图1所示，该方法包括有下列实施步骤：

步骤一：将三维模型投影到二维图像

设一个三维模型s，首先通过计算机图形学投影法在8个不同视角{v₁,v₂,…,v₈}上将s渲染为8张图像{m₁,m₂,…,m₈}。所有的图片均为深度图，表示为一个频道的灰度图，灰度值从0到255表示距离虚拟相机的远近。

步骤二：设计多视角融合深度神经网络

使用VGGM网络结构，此网络包含5个卷积层和3个全连接层。在训练和测试的时候，整个模型的渲染图是整个输入到网络中的，为了将多个渲染图片的特征图进行融合，在最后一层卷积层后边添加了一个最大化操作，在特征图的各个位置上取8个值中的最大值。在最大化操作之后，8张特征图融合为一个特征图，输入到网络后续的全连接层中。采用统计随机梯度下降的优化方法进行学习，目标是将损失降到最低直至收敛。

步骤三：设计三元中心损失函数

在深度度量学习中，三元损失函数是一个常用的选择。在应用此损失函数时，首先需要从数据集中组成三元组(a,p,n)。其中a是从数据集中随机抽取的三维模型，p是与a同类别的一个模型，称为正样本而n是与a异类别的一个模型，称为负样本。假设三元组的特征为(f_a,f_p,f_n)，三元损失函数可以表示为：

其中M是批训练的大小，D_p和D_n表示距离函数：

受此启发，首先引入类别中心的概念，然后用类别中心替代三元组中正负样本，以此减少抽样的复杂性。具体地，我们用均值为0，方差为0.01的高斯分布随机初始化类中心{c₁,c₂,…,c_k}，其中k为数据集的类别数。在这里，中心可以看作类别特征的几何中心。然后，用三元组(a,c_a,c_n)来组成三元中心损失函数：

其中m是余量，y_i是模型a对应的类别,y_i∈Y,Y＝{1,2,…,k}。这样，就避免了繁琐的三元组的挑选，直接在特征和中心之间优化距离分布。

步骤四：替换距离函数

在上述的三元中心损失函数中，距离选择使用的是欧几里得距离。然而随着神经网络架构选择的不同以及同一架构下特征层选择的不同，特征向量的模长分布有着很大的方差，因此很难确定余量m的值。在实际应用中，m的大小也是人工设计的，并不能通过神经网络学习到。因此，将欧几里得距离替换为角度距离，这样距离就处在[0,π]的区间内，余量m的值就有着更好的解释意义。

具体地，提出用角度距离函数替换欧几里得距离函数：

D_n＝<f_a,c_j>

角度可以通过两个向量的内积和模长间接求得。在我们实际实验过程中，我们发现余量m＝1能够取得最好的检索效果。

步骤五：角度三元中心损失函数

由上面的变换得到角度三元中心损失函数，并将神经网络最后一层的特征作为输入，可以得到每批次优化目标的损失值。在训练的过程中，可以求得距离原始样本最近的负样本中心，即：

由此退出损失函数的公式为：

其中m是余量，

是锚特征，

步骤六：VGGM网络参数的更新

由于采用随机梯度下降的方法更新网络参数，只需要得L_ATC关于

的梯度和L_ATC关于

的梯度就能够对VGGM网络进行学习。首先，L_ATC可以分解为多个损失的和：

L_i＝max(α_i+m-β_i,0)

这样，由数学公式推导得到的反向传播公式为：

其中m是余量，α_i，β_i分别表示正角度和负角度，并且：

是锚特征，α_i，β_i分别表示正角度和负角度,

分别表示正负中心。

而且在中心的更新过程中使用了平均化的方法。

步骤七：提取模型的特征向量

用上述的角度三元中心损失函数进行监督，在整个数据集上进行训练和学习。在损失收敛完成网络学习之后，将三维模型s输入到网络中，得到网络倒数第二层的输出作为特征向量进行后续的检索任务。在此过程中，网络中的参数都是固定的，不再进行更新。由于一个模型8张渲染图输入到网络中只得到一个向量，所以可以直接进行距离测量。

步骤八：根据特征向量进行三维模型检索

假设三维模型s经过神经网络后提取到的特征向量为f_s，待检索的数据库为S，那么对于任意的模型s_r∈S，同样提取它的特征向量f_r，模型s和s_r之间的距离为他们对应特征向量的余弦距离。这样检索数据库S中所有的三维模型，距离s越近的模型意味着相似度越大，由此找出最近的三维模型或者最近的多个模型。

本发明应用于大规模三维模型数据库的检索，方法快速、高效、准确。如将其应用于城市的三维建筑模型图，利用手机图片检索整个城市的特定建筑和区域，达到定位的作用。

总之，本发明利用了神经网络强大的特征提取能力，大大提升了深度学习为基础的检索系统的准确性。同时通过简化运算，检索速度也进一步提升，进而得到综合平衡最优。

本发明未详细描述的部分属于本领域公知技术。

提供以上实施例仅仅是为了描述本发明的目的，而并非要限制本发明的范围。本发明的范围由所附权利要求限定。不脱离本发明的精神和原理而做出的各种等同替换和修改，均应涵盖在本发明的范围之内。

Claims

1.一种基于角度三元中心损失的三维模型检索方法，其特征在于，包括以下步骤：

步骤一：对三维模型数据库中的三维模型基于多个视角进行渲染，得到三维模型的渲染图像；

步骤二：根据步骤一中得到的渲染图像，利用多视角融合深度神经网络对三维模型进行特征提取，得到模型的特征向量；

步骤三：设计三元中心损失函数，将步骤二中得到的特征向量输入到三元中心损失函数中；

步骤四：将三元中心损失函数中的距离函数替换为角度距离，得到与检索相匹配的度量方法；

步骤五：根据替换的距离函数，得到角度三元中心损失函数；

步骤六：根据步骤五得到的角度三元中心损失函数，利用梯度下降法更新神经网络参数，最终得到训练好的神经网络模型；

步骤七：利用所述训练好的神经网络提取待检索三维模型的特征向量；

步骤八：根据得到的特征向量，在三维模型库中进行检索，最后得到与待检索模型同类别的三维模型。

2.根据权利要求1所述的基于角度三元中心损失的三维模型检索方法，其特征在于：所述步骤一中，具体如下：

设一个三维模型s，首先通过计算机图形学投影法在8个不同视角上将三维模型s渲染为8张图像；在实验中，发现8张二维渲染图像足够完整表示一个三维模型的几何特征，实际应用中可以渲染更多图片增加检索性能，所有的图像均为深度图，表示为一个频道的灰度图，灰度值从0到255表示距离虚拟相机的远近。

3.根据权利要求1所述的基于角度三元中心损失的三维模型检索方法，其特征在于：所述步骤二中，多视角融合深度神经网络的结构如下：

使用VGGM网络结构，此网络结构包括5个卷积层和3个全连接层，在训练和测试时，将整个三维模型的渲染图输入到VGGM网络中，在最后一层的卷积层后添加一个最大化操作，所有的特征向量融合为一个特征图，然后输入到VGGM网络后续的全连接层中。

4.根据权利要求1所述的基于角度三元中心损失的三维模型检索方法，其特征在于：所述步骤三中，设计三元中心损失函数并输入特征向量的步骤如下：

在神经网络的损失函数中，选择三元损失函数，在应用此三元损失函数时，首先从三维模型检索数据集中组成三元组(a,p,n)，其中a是从该数据集中随机抽取的三维模型，p是与a同类别的一个三维模型，称为正样本；n是与a异类别的一个三维模型，称为负样本；正负样本共同构成一个三元组输入到损失函数中；

然后，用三元组(a,c_a,c_n)组成三元中心损失函数L_TC：

其中m是余量，y_i是模型a对应的类别,y_i∈Y,Y＝{1,2,…,k}，k为数据集的类别数，中心看作类别特征的几何中心，避免繁琐的三元组的挑选，直接在三维特征向量和类别中心之间优化距离分布；

分别是三维模型a的特征向量、正样本特征向量、负样本特征向量。

5.根据权利要求1所述的基于角度三元中心损失的三维模型检索方法，其特征在于：所述步骤四中，用角度距离函数替换欧几里得距离函数，角度距离函数如下：

其中<·,·>表示两个向量间的角度，

6.根据权利要求1所述的基于角度三元中心损失的三维模型检索方法，其特征在于：所述步骤五中，根据替换后的角度距离函数D(·,·)，得到角度三元中心损失函数如下：

其中

表示归一化后的向量，m是余量，α_i，β_i分别表示正角度和负角度，

是锚特征，

分别表示正负中心。

7.根据权利要求1所述的基于角度三元中心损失的三维模型检索方法，其特征在于：所述步骤六中，利用梯度下降法进行网络参数的更新过程如下：

其中L_i为三维模型i在训练过程中的损失值，并且：

是锚特征，α_i，β_i分别表示正角度和负角度,

分别表示正负中心。

8.根据权利要求1所述的基于角度三元中心损失的三维模型检索方法，其特征在于：所述步骤七中，提取三维模型的特征向量过程如下：

三维模型的所有渲染图像输入到训练好的神经网络中，网络倒数第二层的输出即为此三维模型的特征向量。

9.根据权利要求1所述的基于角度三元中心损失的三维模型检索方法，其特征在于：所述步骤八中，根据特征向量进行三维模型检索的过程如下：

三维模型s经过神经网络后提取到的特征向量为f_s，待检索的数据库为S，对于任意的三维模型s_r∈S，同样提取s_r的特征向量f_r，模型s和s_r之间的距离为他们对应特征向量的余弦距离，根据余弦距离完成检索任务。