CN104103093A

CN104103093A - 一种基于深度卷积神经网络的三维网格语义标记方法

Info

Publication number: CN104103093A
Application number: CN201410327036.0A
Authority: CN
Inventors: 陈小武; 郭侃; 邹冬青; 赵沁平
Original assignee: Beihang University
Current assignee: Beihang University
Priority date: 2014-07-10
Filing date: 2014-07-10
Publication date: 2014-10-15
Anticipated expiration: 2034-07-10
Also published as: CN104103093B

Abstract

本发明提供一种基于深度卷积神经网络的三维网格语义标记方法，该方法包括五大步骤：步骤一：三维网格三角面片的特征向量构建；步骤二：深度卷积神经网络构建；步骤三：根据已有的带语义标记三维网格数据进行深度卷积神经网络训练；步骤四：根据输入的无语义标记三维网络数据进行语义标记概率计算；步骤五：根据三维网格三角面片间的二面角进行语义标记结果优化。本发明基于训练的深度卷积神经网络，三维网格语义标记准确率高。

Description

一种基于深度卷积神经网络的三维网格语义标记方法

技术领域

本发明属于计算机图形领域，具体地说是涉及一种基于深度卷积神经网络的三维网格语义标记方法。

背景技术

随着社会科技的不断进步发展，三维技术已成为现代科技的重要组成部分。三维网格语义标记技术作为三维网格理解与处理的重要基础技术之一，在三维建模、三维动画以及三维贴图等各三维技术领域都发挥着巨大作用。

目前，许多科研工作者致力于该方面的研究。2010年，以色列特拉维夫大学的LiorShapira等人提出了一种找寻不同三维网格部件间上下文类比关系的方法。该方法首先利用shape diameter function(SDF)对三维网格进行层次化的分割，然后通过bipartite图匹配的方法进行部件间类比关系计算，从而达到可以将一个三维网格的部件语义标记扩展到其他三维网格的目标。

2010年，加拿大多伦多大学的Evangelos Kalogerakis等人提出了一种学习的三维网格分割与语义标记方法。该方法使用条件随机场(CRF)模型与JointBoost分类器，通过对大量训练数据进行学习，可以对不同类别三维网格进行自动分割与语义标记。

2013年，中国科学院深圳先进技术研究院的Yunhai Wang等人提出了一种通过二维投影分析进行三维网格语义标记的方法。该方法使用Bi-class symmetric Hausdorff(BiSH)距离，将三维网格投影到二维空间，在二维投影上进行语义标记分析并反投影回三维网格，进行三维网格的语义标记。

深度学习是机器学习研究中的一个新领域，其动机在于建立、模拟人脑进行分析学习的神经网络，它模仿人脑的机制来解释数据。2013年，中国香港大学的Yi Sun等人提出了一种基于深度卷积网络的面部特征点检测方法。通过构建深度卷积网络，该方法有效地由底层图像特征提取出高层特征，得到了更高的面部特征点检测准确率。

2013年，美国纽约大学的Clement Farabet等人提出了一种基于层次特征学习的场景语义标记方法。该方法使用训练的多尺度卷积网络，从原始的图像像素数据中提取出有效的高层特征表达，并利用其对图像场景进行语义标记。该方法在SIFT Flow等多个数据集上测试并得到了令人信服的结果。

发明内容

为了克服现有技术的不足，本发明的目的在于提出一种基于深度卷积神经网络的三维网格语义标记方法。

为完成发明目的，本发明采用的技术方案是：一种基于深度卷积神经网络的三维网格语义标记方法，如附图1所示，它包括以下步骤：

步骤一：三维网格三角面片的特征向量构建；其具体实现过程如下：

(1)计算三角面片的Curvature feature(CUR)；

(2)计算三角面片的PCA feature(PCA)；

(3)计算三角面片的Shape Diameter Function(SDF)；

(4)计算三角面片的Distance from medial surface(DIS)；

(5)计算三角面片的Average Geodesic Distance(AGD)；

(6)计算三角面片的Shape Context(SC)；

(7)计算三角面片的Spin Image(SI)。

步骤二：深度卷积神经网络构建；其具体实现过程如下：

(1)构建尺寸为7*5、输出层数为12的卷积层；

(2)构建缩放因子为2的下采样层；

(3)构建尺寸为5*5、输出层数为24的卷积层；

(4)构建缩放因子为2的下采样层。

步骤三：根据已有的带语义标记三维网格数据进行深度卷积神经网络训练；其具体实现过程如下：

(1)根据步骤一计算已有的带语义标记三维网格数据的三角面片特征；

(2)前向传导：将上述计算得到的三角面片特征输入到步骤二构建的深度卷积神经网络中，逐层计算，得到每个面片属于各个语义标记的概率；

(3)由上述计算得到的概率与已有的语义标记数据相减并做平方运算得到残差；

(4)反向传播：根据计算得到的残差从最后一层往前逐层对每一层的参数求偏导，并逐层更新每层的参数值；

(5)迭代过程(2)-(4)直到残差收敛。

步骤四：根据输入的无语义标记三维网络数据进行语义标记概率计算；其具体实现过程如下：

(1)根据步骤一计算无语义标记三维网络数的三角面片特征；

(2)将上述计算得到的三角面片特征输入到步骤三训练得到的深度卷积神经网络中，逐层计算，得到每个面片属于各个语义标记的概率。

步骤五：根据三维网格相邻三角面片间的二面角进行语义标记结果优化；其具体实现过程如下：

(1)计算三维网络相邻三角面片间的二面角；

(2)根据步骤四计算得到的语义标记概率与过程(1)计算得到的二面角，构建图结构，应用Graphcuts算法进行结果优化。

本发明技术方案的原理在于：

本方法首先提取已有的带语义标记三维网格三角面片的基本几何特征，包括CUR、PCA、SDF、DIS、AGD、SC、SI，并初始化深度卷积神经网络；然后以三角面片的基本几何特征为网络输入，利用全监督方式和已有的带语义标记三维网格数据对构建的深度网络进行训练学习，通过前向传导与反向传播两个过程的不断迭代来减少残差，得到最终的深度网络；对输入的无语义标记三维网络提取三角面片的基本几何特征，输入到最终的深度网络进行语义标记概率计算；最后根据三维网格相邻三角面片间的二面角，使用Graphcuts算法进行语义标记结果优化，得到最终的语义标记结果。

本发明与现有的技术相比，其有益的特点是：1、本发明首次将深度卷积神经网络应用于三维网格语义标记上，利用非线性组合与逐层递进的方式，对基本几何特征进行高层化表达，使其更好的应用于三维网格语义标记；2、本发明提出有效的监督学习算法训练深度卷积神经网络对三维网格进行表达，对每类三维网格仅使用少量带标记数据训练就能达到很高的识别准确率。

附图说明：

图1是本发明方法的总体步骤流程图；

图2是本发明通过深度卷积神经网络进行三维语义标记具体流程示意图；

图3是本发明步骤三过程(2)中第二阶段的输出特征生成示意图；

图4是本发明使用Graphcuts算法进行语义标记优化示意图；

图中符号说明如下：

图2中CUR、PCA、SDF、DIS、AGD、SC、SI均为发明内容步骤一中所说明的特征向量；

图3中‘c’表示卷积操作，‘b’表示非线性操作；

图4中l_t表示三角面片t的语义标记，l_v表示三角面片v的语义标记。

具体实施方式：

下面结合附图对本发明的具体实施方式进行描述，以便更好地理解本发明。需要特别提醒注意的是，在以下的描述中，当采用已知功能和设计的详细描述也许会淡化本发明的主要内容时，这些描述在这里将被忽略。

见图1，本发明一种基于深度卷积神经网络的三维网格语义标记方法，它包括以下步骤：

步骤一：三维网格三角面片的特征向量构建；

步骤二：深度卷积神经网络构建；

步骤三：根据已有的带语义标记三维网格数据进行深度卷积神经网络训练；

步骤四：根据输入的无语义标记三维网络数据进行语义标记概率计算；

步骤五：根据三维网格相邻三角面片间的二面角进行语义标记结果优化。

参阅图2本发明通过深度卷积神经网络进行三维语义标记具体流程示意图，本发明首先提取三维网格三角面片的基本几何特征，包括CUR、PCA、SDF、DIS、AGD、SC、SI，构成600维的特征向量，再重构成30*20的矩阵(记作X)以便作为深度网络的输入。

如附图2所示，本发明深度卷积神经网络主要分三个阶段来构建高层特征表达。第一阶段为包含12个尺寸为7*5的卷积核的卷积层。令W_i为一个卷积核的权重，定义卷积操作如下：

Y_i＝W_i*X+b_i,i＝1...12

其中*表示卷积操作，b_i表示偏置向量。利用12个卷积核对输入的基本几何特征进行卷积操作，得到12个尺寸为24*16的输出特征，紧接着利用sigmoid激活函数对其进行激活操作如下：

M = sigmoid (Y) = \frac{1}{1 + \exp^{- Y}}

然后我们对经过非线性与激活操作后的特征进行缩放因子为2的下采样操作，得到12个尺寸为12*8的输出特征作为第二阶段的输入。

在第二阶段，我们将第一阶段输出的12个输出特征扩展为24个尺寸为8*4的新特征。如附图3所示，对于每一个新特征的求解，我们利用12个尺寸为5*5的卷积核构建的卷积层对第一阶段的12个输出特征进行卷积操作并进行叠加操作。类似地，我们对得到的特征进行激活操作与下采样操作，最后得到24个尺寸为4*2的输出特征。

在第三阶段，我们将第二阶段输出的特征重构为192*1的特征向量，为了将输出特征归一化到[0,1]之间，我们利用非线性映射并再次应用sigmoid激活函数对其进行激活操作，并得到每个三角面片t属于不同语义标记的概率值P_t。

下面我们将对深度卷积神经网络的训练过程进行详细阐述：

对于我们构建的深度网络，主要需要训练的参数是权重矩阵W和偏置向量b。我们主要通过前向传导与反向传播两个过程的不断迭代完成训练。

在前向传导过程中，我们用很小的随机数初始化W，并用0向量初始化偏置向量b。然后我们利用输入的基本几何特征通过深度网络进行逐层计算并得到每个三角面片t属于不同语义标记的概率值P_t。令G_t表示ground-truth数据，我们利用欧式距离计算残差如下：

E_{t} = \underset{t &Element; T}{Σ} {| G_{t} - P_{t} |}^{2}

其中T表示训练过程中使用的所有三维网格三角面片的集合。

在反向传播过程中，我们希望通过调节每一层的参数W和b来减少残差E_t。由于Y＝W*X+b，我们可以得到残差E_t对b的偏导如下：

{&dtri;}_{b^{l}} E_{t} = \frac{&PartialD; E_{t}}{&PartialD; Y} \frac{&PartialD; Y}{&PartialD; b} = δ^{l}

特别的，从第l+1层反向传播到第l层时：

δ^{l} = \{\begin{matrix} {(W^{l + 1})}^{T} δ^{l + 1} \cdot {sigmoid}^{'} (Y^{l}), & iflisa C_{''}^{''} layer \\ {(W^{l + 1})}^{T} δ^{l + 1}, & iflisa S_{''}^{''} layer \end{matrix}

其中"·"表示每个元素对应相乘操作，"C"和"S"分别表示卷积操作和下采样操作。特别的，在计算残差的最后一层L层，与其他层的计算略有不同：

δ^L＝sigmoid'(Y^L)·(G_t-P_t)＝Y^L·(1-Y^L)·(G_t-P_t)

与计算残差E_t对b的偏导类似，我们计算残差E_t对W的偏导如下：

{&dtri;}_{W^{l}} E_{t} = X^{l} {(δ^{l})}^{T} = M^{l - 1} {(δ^{l})}^{T}

最后，我们利用如下公式更新每层的参数：

W^{l} = W^{l} - α * {&dtri;}_{W^{l}} E_{t}

b^{l} = b^{l} - α * {&dtri;}_{b^{l}} E_{t}

其中，α表示学习速率，我们通常设置α＝0.95。如上所述，前向传导与反向传播过程不断迭代直到残差收敛。通常我们根据训练集规模来设置迭代次数。

基于上述描述的训练学习得到的深度卷积神经网络，输入无语义标记三维网络数据，我们可以计算得到每个三角面片t属于各个语义标记的概率值P_t，令l_t表示三角面片t的语义标记。参阅图4本发明使用Graphcuts算法进行语义标记优化示意图，我们定义图结构G＝{T,NT}，其中T表示三维网格的三角面片，NT表示三角面片的拓扑邻接关系，(t,v)∈NT即表示三角面片t与v相邻。我们定义优化目标函数如下：

\min_{{l_{t}, t &Element; T}} \underset{t &Element; T}{Σ} ξ_{U} (t, l_{t}) + λ \underset{(t, v) &Element; NT}{Σ} ξ_{S} (t, v, l_{t}, l_{v})

其中λ表示平衡两个能量项的权重参数，我们通常设置其为50。第一个能量项ξ_U(t,l_t)是为了使三角面片t∈T的语义标记更趋近于P_t中最大值，进一步的，我们定义ξ_U(t,l_t)如下：

ξ_{U} (t, l_{t}) = - \log (P_{t} (l_{t}))

第二个能量项ξ_S(t,v,l_t,l_v)是为了使三维网格上的语义标记更平滑连续，我们定义ξ_S(t,v,l_t,l_v)如下：

其中和θ_tv分别表示三角面片t和v间的距离与二面角值。

尽管上面对本发明说明性的具体实施方式进行了描述，以便于本技术领域的技术人员理解本发明，但应该清楚，本发明不限于具体实施方式的范围，对本技术领域的普通技术人员来讲，只要各种变化在所附的权利要求限定和确定的本发明的精神和范围内，这些变化是显而易见的，一切利用本发明构思的发明创造均在保护之列。

Claims

1.一种基于深度卷积神经网络的三维网格语义标记方法，其特征在于，它包括以下步骤：

(1)计算三角面片的Curvature feature即CUR；

(2)计算三角面片的PCA feature即PCA；

(3)计算三角面片的Shape Diameter Function即SDF；

(4)计算三角面片的Distance from medial surface即DIS；

(5)计算三角面片的Average Geodesic Distance即AGD；

(6)计算三角面片的Shape Context即SC；

(7)计算三角面片的Spin Image即SI；

步骤二：深度卷积神经网络构建；其具体实现过程如下：

(1)构建尺寸为7*5、输出层数为12的卷积层；

(2)构建缩放因子为2的下采样层；

(3)构建尺寸为5*5、输出层数为24的卷积层；

(4)构建缩放因子为2的下采样层；

(5)迭代过程(2)-(4)直到残差收敛；

(1)根据步骤一计算无语义标记三维网络数的三角面片特征；

(2)将上述计算得到的三角面片特征输入到步骤三训练得到的深度卷积神经网络中，逐层计算，得到每个面片属于各个语义标记的概率；

(1)计算三维网络相邻三角面片间的二面角；