CN104103093A - 一种基于深度卷积神经网络的三维网格语义标记方法 - Google Patents

一种基于深度卷积神经网络的三维网格语义标记方法 Download PDF

Info

Publication number
CN104103093A
CN104103093A CN201410327036.0A CN201410327036A CN104103093A CN 104103093 A CN104103093 A CN 104103093A CN 201410327036 A CN201410327036 A CN 201410327036A CN 104103093 A CN104103093 A CN 104103093A
Authority
CN
China
Prior art keywords
tri patch
semantic marker
calculating
semantic
grid
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201410327036.0A
Other languages
English (en)
Other versions
CN104103093B (zh
Inventor
陈小武
郭侃
邹冬青
赵沁平
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beihang University
Original Assignee
Beihang University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beihang University filed Critical Beihang University
Priority to CN201410327036.0A priority Critical patent/CN104103093B/zh
Publication of CN104103093A publication Critical patent/CN104103093A/zh
Application granted granted Critical
Publication of CN104103093B publication Critical patent/CN104103093B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Landscapes

  • Image Analysis (AREA)

Abstract

本发明提供一种基于深度卷积神经网络的三维网格语义标记方法,该方法包括五大步骤:步骤一:三维网格三角面片的特征向量构建;步骤二:深度卷积神经网络构建;步骤三:根据已有的带语义标记三维网格数据进行深度卷积神经网络训练;步骤四:根据输入的无语义标记三维网络数据进行语义标记概率计算;步骤五:根据三维网格三角面片间的二面角进行语义标记结果优化。本发明基于训练的深度卷积神经网络,三维网格语义标记准确率高。

Description

一种基于深度卷积神经网络的三维网格语义标记方法
技术领域
本发明属于计算机图形领域,具体地说是涉及一种基于深度卷积神经网络的三维网格语义标记方法。
背景技术
随着社会科技的不断进步发展,三维技术已成为现代科技的重要组成部分。三维网格语义标记技术作为三维网格理解与处理的重要基础技术之一,在三维建模、三维动画以及三维贴图等各三维技术领域都发挥着巨大作用。
目前,许多科研工作者致力于该方面的研究。2010年,以色列特拉维夫大学的LiorShapira等人提出了一种找寻不同三维网格部件间上下文类比关系的方法。该方法首先利用shape diameter function(SDF)对三维网格进行层次化的分割,然后通过bipartite图匹配的方法进行部件间类比关系计算,从而达到可以将一个三维网格的部件语义标记扩展到其他三维网格的目标。
2010年,加拿大多伦多大学的Evangelos Kalogerakis等人提出了一种学习的三维网格分割与语义标记方法。该方法使用条件随机场(CRF)模型与JointBoost分类器,通过对大量训练数据进行学习,可以对不同类别三维网格进行自动分割与语义标记。
2013年,中国科学院深圳先进技术研究院的Yunhai Wang等人提出了一种通过二维投影分析进行三维网格语义标记的方法。该方法使用Bi-class symmetric Hausdorff(BiSH)距离,将三维网格投影到二维空间,在二维投影上进行语义标记分析并反投影回三维网格,进行三维网格的语义标记。
深度学习是机器学习研究中的一个新领域,其动机在于建立、模拟人脑进行分析学习的神经网络,它模仿人脑的机制来解释数据。2013年,中国香港大学的Yi Sun等人提出了一种基于深度卷积网络的面部特征点检测方法。通过构建深度卷积网络,该方法有效地由底层图像特征提取出高层特征,得到了更高的面部特征点检测准确率。
2013年,美国纽约大学的Clement Farabet等人提出了一种基于层次特征学习的场景语义标记方法。该方法使用训练的多尺度卷积网络,从原始的图像像素数据中提取出有效的高层特征表达,并利用其对图像场景进行语义标记。该方法在SIFT Flow等多个数据集上测试并得到了令人信服的结果。
发明内容
为了克服现有技术的不足,本发明的目的在于提出一种基于深度卷积神经网络的三维网格语义标记方法。
为完成发明目的,本发明采用的技术方案是:一种基于深度卷积神经网络的三维网格语义标记方法,如附图1所示,它包括以下步骤:
步骤一:三维网格三角面片的特征向量构建;其具体实现过程如下:
(1)计算三角面片的Curvature feature(CUR);
(2)计算三角面片的PCA feature(PCA);
(3)计算三角面片的Shape Diameter Function(SDF);
(4)计算三角面片的Distance from medial surface(DIS);
(5)计算三角面片的Average Geodesic Distance(AGD);
(6)计算三角面片的Shape Context(SC);
(7)计算三角面片的Spin Image(SI)。
步骤二:深度卷积神经网络构建;其具体实现过程如下:
(1)构建尺寸为7*5、输出层数为12的卷积层;
(2)构建缩放因子为2的下采样层;
(3)构建尺寸为5*5、输出层数为24的卷积层;
(4)构建缩放因子为2的下采样层。
步骤三:根据已有的带语义标记三维网格数据进行深度卷积神经网络训练;其具体实现过程如下:
(1)根据步骤一计算已有的带语义标记三维网格数据的三角面片特征;
(2)前向传导:将上述计算得到的三角面片特征输入到步骤二构建的深度卷积神经网络中,逐层计算,得到每个面片属于各个语义标记的概率;
(3)由上述计算得到的概率与已有的语义标记数据相减并做平方运算得到残差;
(4)反向传播:根据计算得到的残差从最后一层往前逐层对每一层的参数求偏导,并逐层更新每层的参数值;
(5)迭代过程(2)-(4)直到残差收敛。
步骤四:根据输入的无语义标记三维网络数据进行语义标记概率计算;其具体实现过程如下:
(1)根据步骤一计算无语义标记三维网络数的三角面片特征;
(2)将上述计算得到的三角面片特征输入到步骤三训练得到的深度卷积神经网络中,逐层计算,得到每个面片属于各个语义标记的概率。
步骤五:根据三维网格相邻三角面片间的二面角进行语义标记结果优化;其具体实现过程如下:
(1)计算三维网络相邻三角面片间的二面角;
(2)根据步骤四计算得到的语义标记概率与过程(1)计算得到的二面角,构建图结构,应用Graphcuts算法进行结果优化。
本发明技术方案的原理在于:
本方法首先提取已有的带语义标记三维网格三角面片的基本几何特征,包括CUR、PCA、SDF、DIS、AGD、SC、SI,并初始化深度卷积神经网络;然后以三角面片的基本几何特征为网络输入,利用全监督方式和已有的带语义标记三维网格数据对构建的深度网络进行训练学习,通过前向传导与反向传播两个过程的不断迭代来减少残差,得到最终的深度网络;对输入的无语义标记三维网络提取三角面片的基本几何特征,输入到最终的深度网络进行语义标记概率计算;最后根据三维网格相邻三角面片间的二面角,使用Graphcuts算法进行语义标记结果优化,得到最终的语义标记结果。
本发明与现有的技术相比,其有益的特点是:1、本发明首次将深度卷积神经网络应用于三维网格语义标记上,利用非线性组合与逐层递进的方式,对基本几何特征进行高层化表达,使其更好的应用于三维网格语义标记;2、本发明提出有效的监督学习算法训练深度卷积神经网络对三维网格进行表达,对每类三维网格仅使用少量带标记数据训练就能达到很高的识别准确率。
附图说明:
图1是本发明方法的总体步骤流程图;
图2是本发明通过深度卷积神经网络进行三维语义标记具体流程示意图;
图3是本发明步骤三过程(2)中第二阶段的输出特征生成示意图;
图4是本发明使用Graphcuts算法进行语义标记优化示意图;
图中符号说明如下:
图2中CUR、PCA、SDF、DIS、AGD、SC、SI均为发明内容步骤一中所说明的特征向量;
图3中‘c’表示卷积操作,‘b’表示非线性操作;
图4中lt表示三角面片t的语义标记,lv表示三角面片v的语义标记。
具体实施方式:
下面结合附图对本发明的具体实施方式进行描述,以便更好地理解本发明。需要特别提醒注意的是,在以下的描述中,当采用已知功能和设计的详细描述也许会淡化本发明的主要内容时,这些描述在这里将被忽略。
见图1,本发明一种基于深度卷积神经网络的三维网格语义标记方法,它包括以下步骤:
步骤一:三维网格三角面片的特征向量构建;
步骤二:深度卷积神经网络构建;
步骤三:根据已有的带语义标记三维网格数据进行深度卷积神经网络训练;
步骤四:根据输入的无语义标记三维网络数据进行语义标记概率计算;
步骤五:根据三维网格相邻三角面片间的二面角进行语义标记结果优化。
参阅图2本发明通过深度卷积神经网络进行三维语义标记具体流程示意图,本发明首先提取三维网格三角面片的基本几何特征,包括CUR、PCA、SDF、DIS、AGD、SC、SI,构成600维的特征向量,再重构成30*20的矩阵(记作X)以便作为深度网络的输入。
如附图2所示,本发明深度卷积神经网络主要分三个阶段来构建高层特征表达。第一阶段为包含12个尺寸为7*5的卷积核的卷积层。令Wi为一个卷积核的权重,定义卷积操作如下:
Yi=Wi*X+bi,i=1...12
其中*表示卷积操作,bi表示偏置向量。利用12个卷积核对输入的基本几何特征进行卷积操作,得到12个尺寸为24*16的输出特征,紧接着利用sigmoid激活函数对其进行激活操作如下:
M = sigmoid ( Y ) = 1 1 + exp - Y
然后我们对经过非线性与激活操作后的特征进行缩放因子为2的下采样操作,得到12个尺寸为12*8的输出特征作为第二阶段的输入。
在第二阶段,我们将第一阶段输出的12个输出特征扩展为24个尺寸为8*4的新特征。如附图3所示,对于每一个新特征的求解,我们利用12个尺寸为5*5的卷积核构建的卷积层对第一阶段的12个输出特征进行卷积操作并进行叠加操作。类似地,我们对得到的特征进行激活操作与下采样操作,最后得到24个尺寸为4*2的输出特征。
在第三阶段,我们将第二阶段输出的特征重构为192*1的特征向量,为了将输出特征归一化到[0,1]之间,我们利用非线性映射并再次应用sigmoid激活函数对其进行激活操作,并得到每个三角面片t属于不同语义标记的概率值Pt
下面我们将对深度卷积神经网络的训练过程进行详细阐述:
对于我们构建的深度网络,主要需要训练的参数是权重矩阵W和偏置向量b。我们主要通过前向传导与反向传播两个过程的不断迭代完成训练。
在前向传导过程中,我们用很小的随机数初始化W,并用0向量初始化偏置向量b。然后我们利用输入的基本几何特征通过深度网络进行逐层计算并得到每个三角面片t属于不同语义标记的概率值Pt。令Gt表示ground-truth数据,我们利用欧式距离计算残差如下:
E t = Σ t ∈ T | G t - P t | 2
其中T表示训练过程中使用的所有三维网格三角面片的集合。
在反向传播过程中,我们希望通过调节每一层的参数W和b来减少残差Et。由于Y=W*X+b,我们可以得到残差Et对b的偏导如下:
▿ b l E t = ∂ E t ∂ Y ∂ Y ∂ b = δ l
特别的,从第l+1层反向传播到第l层时:
δ l = ( W l + 1 ) T δ l + 1 · sigmoid ′ ( Y l ) , iflisa C ′ ′ ′ ′ layer ( W l + 1 ) T δ l + 1 , iflisa S ′ ′ ′ ′ layer
其中"·"表示每个元素对应相乘操作,"C"和"S"分别表示卷积操作和下采样操作。特别的,在计算残差的最后一层L层,与其他层的计算略有不同:
δL=sigmoid'(YL)·(Gt-Pt)=YL·(1-YL)·(Gt-Pt)
与计算残差Et对b的偏导类似,我们计算残差Et对W的偏导如下:
▿ W l E t = X l ( δ l ) T = M l - 1 ( δ l ) T
最后,我们利用如下公式更新每层的参数:
W l = W l - α * ▿ W l E t
b l = b l - α * ▿ b l E t
其中,α表示学习速率,我们通常设置α=0.95。如上所述,前向传导与反向传播过程不断迭代直到残差收敛。通常我们根据训练集规模来设置迭代次数。
基于上述描述的训练学习得到的深度卷积神经网络,输入无语义标记三维网络数据,我们可以计算得到每个三角面片t属于各个语义标记的概率值Pt,令lt表示三角面片t的语义标记。参阅图4本发明使用Graphcuts算法进行语义标记优化示意图,我们定义图结构G={T,NT},其中T表示三维网格的三角面片,NT表示三角面片的拓扑邻接关系,(t,v)∈NT即表示三角面片t与v相邻。我们定义优化目标函数如下:
min { l t , t ∈ T } Σ t ∈ T ξ U ( t , l t ) + λ Σ ( t , v ) ∈ NT ξ S ( t , v , l t , l v )
其中λ表示平衡两个能量项的权重参数,我们通常设置其为50。第一个能量项ξU(t,lt)是为了使三角面片t∈T的语义标记更趋近于Pt中最大值,进一步的,我们定义ξU(t,lt)如下:
ξ U ( t , l t ) = - log ( P t ( l t ) )
第二个能量项ξS(t,v,lt,lv)是为了使三维网格上的语义标记更平滑连续,我们定义ξS(t,v,lt,lv)如下:
其中和θtv分别表示三角面片t和v间的距离与二面角值。
尽管上面对本发明说明性的具体实施方式进行了描述,以便于本技术领域的技术人员理解本发明,但应该清楚,本发明不限于具体实施方式的范围,对本技术领域的普通技术人员来讲,只要各种变化在所附的权利要求限定和确定的本发明的精神和范围内,这些变化是显而易见的,一切利用本发明构思的发明创造均在保护之列。

Claims (1)

1.一种基于深度卷积神经网络的三维网格语义标记方法,其特征在于,它包括以下步骤:
步骤一:三维网格三角面片的特征向量构建;其具体实现过程如下:
(1)计算三角面片的Curvature feature即CUR;
(2)计算三角面片的PCA feature即PCA;
(3)计算三角面片的Shape Diameter Function即SDF;
(4)计算三角面片的Distance from medial surface即DIS;
(5)计算三角面片的Average Geodesic Distance即AGD;
(6)计算三角面片的Shape Context即SC;
(7)计算三角面片的Spin Image即SI;
步骤二:深度卷积神经网络构建;其具体实现过程如下:
(1)构建尺寸为7*5、输出层数为12的卷积层;
(2)构建缩放因子为2的下采样层;
(3)构建尺寸为5*5、输出层数为24的卷积层;
(4)构建缩放因子为2的下采样层;
步骤三:根据已有的带语义标记三维网格数据进行深度卷积神经网络训练;其具体实现过程如下:
(1)根据步骤一计算已有的带语义标记三维网格数据的三角面片特征;
(2)前向传导:将上述计算得到的三角面片特征输入到步骤二构建的深度卷积神经网络中,逐层计算,得到每个面片属于各个语义标记的概率;
(3)由上述计算得到的概率与已有的语义标记数据相减并做平方运算得到残差;
(4)反向传播:根据计算得到的残差从最后一层往前逐层对每一层的参数求偏导,并逐层更新每层的参数值;
(5)迭代过程(2)-(4)直到残差收敛;
步骤四:根据输入的无语义标记三维网络数据进行语义标记概率计算;其具体实现过程如下:
(1)根据步骤一计算无语义标记三维网络数的三角面片特征;
(2)将上述计算得到的三角面片特征输入到步骤三训练得到的深度卷积神经网络中,逐层计算,得到每个面片属于各个语义标记的概率;
步骤五:根据三维网格相邻三角面片间的二面角进行语义标记结果优化;其具体实现过程如下:
(1)计算三维网络相邻三角面片间的二面角;
(2)根据步骤四计算得到的语义标记概率与过程(1)计算得到的二面角,构建图结构,应用Graphcuts算法进行结果优化。
CN201410327036.0A 2014-07-10 2014-07-10 一种基于深度卷积神经网络的三维网格语义标记方法 Active CN104103093B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201410327036.0A CN104103093B (zh) 2014-07-10 2014-07-10 一种基于深度卷积神经网络的三维网格语义标记方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201410327036.0A CN104103093B (zh) 2014-07-10 2014-07-10 一种基于深度卷积神经网络的三维网格语义标记方法

Publications (2)

Publication Number Publication Date
CN104103093A true CN104103093A (zh) 2014-10-15
CN104103093B CN104103093B (zh) 2017-02-15

Family

ID=51671210

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201410327036.0A Active CN104103093B (zh) 2014-07-10 2014-07-10 一种基于深度卷积神经网络的三维网格语义标记方法

Country Status (1)

Country Link
CN (1) CN104103093B (zh)

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107516103A (zh) * 2016-06-17 2017-12-26 北京市商汤科技开发有限公司 一种影像分类方法和系统
CN108010122A (zh) * 2017-11-14 2018-05-08 深圳市云之梦科技有限公司 一种人体三维模型重建与测量的方法及系统
CN108389251A (zh) * 2018-03-21 2018-08-10 南京大学 基于融合多视角特征的投影全卷积网络三维模型分割方法
CN109816714A (zh) * 2019-01-15 2019-05-28 西北大学 一种基于三维卷积神经网络的点云物体类型识别方法
CN109993748A (zh) * 2019-03-30 2019-07-09 华南理工大学 一种基于点云处理网络的三维网格物体分割方法
CN110400370A (zh) * 2019-07-17 2019-11-01 北京航空航天大学 一种构建三维cad模型的语义级部件模板的方法
CN111145338A (zh) * 2019-12-17 2020-05-12 桂林理工大学 一种基于单视角rgb图像的椅子模型重建方法及系统
CN113570692A (zh) * 2021-06-03 2021-10-29 清华大学 一种使用面片卷积的三维模型特征提取方法

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1710607A (zh) * 2005-07-08 2005-12-21 北京航空航天大学 一种面向虚拟现实三维图形引擎的三维场景组织方法
CN100438406C (zh) * 2006-01-23 2008-11-26 北京航空航天大学 一种基于远程渲染的三维模型网络发布方法
CN103544705B (zh) * 2013-10-25 2016-03-02 华南理工大学 一种基于深度卷积神经网络的图像质量测试方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
CLE´MENT FARABET 等: "Learning Hierarchical Features for Scene Labeling", 《IEEE TRANSACTIONS ON PATTERN ANALYSIS AND MACHINE INTELLIGENCE》 *
EVANGELOS KALOGERAKIS 等: "Learning 3D Mesh Segmentation and Labeling", 《ACM TRANSACTIONS ON GRAPHICS(TOG) 2010》 *

Cited By (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107516103A (zh) * 2016-06-17 2017-12-26 北京市商汤科技开发有限公司 一种影像分类方法和系统
CN108010122A (zh) * 2017-11-14 2018-05-08 深圳市云之梦科技有限公司 一种人体三维模型重建与测量的方法及系统
CN108010122B (zh) * 2017-11-14 2022-02-11 深圳市云之梦科技有限公司 一种人体三维模型重建与测量的方法及系统
CN108389251A (zh) * 2018-03-21 2018-08-10 南京大学 基于融合多视角特征的投影全卷积网络三维模型分割方法
CN108389251B (zh) * 2018-03-21 2020-04-17 南京大学 基于融合多视角特征的投影全卷积网络三维模型分割方法
CN109816714A (zh) * 2019-01-15 2019-05-28 西北大学 一种基于三维卷积神经网络的点云物体类型识别方法
CN109993748A (zh) * 2019-03-30 2019-07-09 华南理工大学 一种基于点云处理网络的三维网格物体分割方法
CN110400370A (zh) * 2019-07-17 2019-11-01 北京航空航天大学 一种构建三维cad模型的语义级部件模板的方法
CN111145338A (zh) * 2019-12-17 2020-05-12 桂林理工大学 一种基于单视角rgb图像的椅子模型重建方法及系统
CN111145338B (zh) * 2019-12-17 2023-09-26 桂林理工大学 一种基于单视角rgb图像的椅子模型重建方法及系统
CN113570692A (zh) * 2021-06-03 2021-10-29 清华大学 一种使用面片卷积的三维模型特征提取方法

Also Published As

Publication number Publication date
CN104103093B (zh) 2017-02-15

Similar Documents

Publication Publication Date Title
CN104103093A (zh) 一种基于深度卷积神经网络的三维网格语义标记方法
CN108596248B (zh) 一种基于改进深度卷积神经网络的遥感影像分类方法
CN106529569A (zh) 基于深度学习的三维模型三角面特征学习分类方法及装置
CN106023065A (zh) 一种基于深度卷积神经网络的张量型高光谱图像光谱-空间降维方法
CN103065158B (zh) 基于相对梯度的isa模型的行为识别方法
CN105320965A (zh) 基于深度卷积神经网络的空谱联合的高光谱图像分类方法
CN103345643B (zh) 一种遥感图像分类方法
Cheng et al. An advanced hybrid deep adversarial autoencoder for parameterized nonlinear fluid flow modelling
CN103605985B (zh) 一种基于张量全局‑局部保持投影的数据降维的人脸识别方法
CN103544697B (zh) 一种基于超图谱分析的图像分割方法
CN101639935A (zh) 基于几何活动轮廓目标跟踪的数字人连续切片图像分割方法
CN102521563A (zh) 基于椭圆拟合的猪行走姿态识别方法
CN104834772B (zh) 基于人工神经网络的飞机翼型/机翼反设计方法
CN104732551A (zh) 基于超像素和图割优化的水平集图像分割方法
Ahmed et al. Skin lesion classification with deep CNN ensembles
CN107506792A (zh) 一种半监督的显著对象检测方法
CN103077555A (zh) 一种三维模型构成的自动标注方法
CN107451594A (zh) 一种基于多元回归的多视角步态分类方法
CN104077742A (zh) 基于Gabor特征的人脸素描合成方法及系统
CN108446661A (zh) 一种深度学习并行化人脸识别方法
Wang et al. A novel sparse boosting method for crater detection in the high resolution planetary image
Liu et al. A multi-angle comprehensive solution based on deep learning to extract cultivated land information from high-resolution remote sensing images
CN104050489B (zh) 一种基于多核最优化的合成孔径雷达自动目标识别方法
WO2021095093A1 (ja) 3次元点群ラベル学習装置、3次元点群ラベル推定装置、方法、及びプログラム
Wu et al. Recognition of pear leaf disease under complex background based on DBPNet and modified mobilenetV2

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant