CN112070105A

CN112070105A - 基于双通道卷积神经网络学习的非刚性三维模型分类方法

Info

Publication number: CN112070105A
Application number: CN202010672065.6A
Authority: CN
Inventors: 韩丽; 于冰; 朴京钰; 佟宇宁
Original assignee: Liaoning Normal University
Current assignee: Liaoning Normal University
Priority date: 2020-07-14
Filing date: 2020-07-14
Publication date: 2020-12-11
Anticipated expiration: 2040-07-14
Also published as: CN112070105B

Abstract

本发明公开一种基于双通道卷积神经网络学习的非刚性三维模型分类方法，首先，提取三维模型的BoF特征向量，通过构建的BoF‑CNN学习通道，获取内蕴的深度几何特征；其次，基于MVCNN(Multi‑view CNN,多视图卷积神经网络)，建立并行的2D视图CNN学习通道，提取外蕴的深度视图特征；进而，将视图特征与几何特征连接，构建信息图像的特征表示；最终，通过神经网络进一步细化与加权融合，生成具有区分性的深度特征表示，基于Softmax实现三维模型的有效分类，不仅适用范围广，而且有效提高了分类精度及效率。

Description

基于双通道卷积神经网络学习的非刚性三维模型分类方法

技术领域

本发明属于三维模型的分类领域，尤其涉及一种适用范围广的基于双通道卷积神经网络学习的非刚性三维模型分类方法。

背景技术：

随着三维数字模型在虚拟现实、工业、影视娱乐、教育、医疗等各个领域的广泛应用，互联网上三维模型的数据量与复杂性显著提高，对于三维模型的形状识别与分类技术提出了更高的挑战。目前，常用的三维模型分类算法主要分为基于手工定义特征描述符的分类算法和基于深度学习的分类算法。基于手工定义特征的形状分类算法一般提取单个模型的低层几何特征，依赖于特定的模型或者特定的条件，不能直接推广到其他模型表示方法及应用中，适用范围窄；基于深度学习的分类算法是采用数据驱动方式，利用深度神经网络实现对三维模型的自动识别与分类，但是存在局限于特定的应用、分类精度及效率低等问题。

发明内容

本发明是为了解决现有技术所存在的上述技术问题，提供一种适用范围广的基于双通道卷积神经网络学习的非刚性三维模型分类方法。

本发明的技术解决方案是：一种基于双通道卷积神经网络学习的非刚性三维模型分类方法，包括建立分类模型，其特征在于所述建立分类模型依次按照如下步骤进行：

步骤1：生成三维模型的BoF特征图像：

令非刚性模型的集合M＝{Mq}表示三维模型集合，其中Mq表示三维模型集合M中的一个三维模型，所述q＝1,2,3……m；从q＝1开始至q＝m，依次重复步骤1.1～1.4，获得m个三维模型Mq的BoF特征图像；

步骤1.1提取三维模型Mq的低级几何特征：p×n维的HKS热核特征矩阵

及1×n维的平均测地线距离AGD特征矩阵

所述p为顶点的特征维度，n为顶点数；所述i＝1,2,3……n；

步骤1.2构建联合特征描述符

将两个特征矩阵

和

连接起来；

步骤1.3采用特征词袋模型方法，对联合特征描述符

构建中级特征词袋表示F，具体步骤如下：

步骤1.3.1令

为三维模型Mq的联合特征描述符集合，将S进行聚类，计算聚类中心D，D＝{d_l}∈R^(p+1)×k，所述l＝1,2,3……k，k为分类数目；

步骤1.3.2依据平均测地线距离AGD特征对聚类中心D进行降序排列，构造D^＊；

步骤1.3.3利用软量化SVQ方法，将联合特征描述符

量化到视觉词汇D^＊上，利用公式(1)构造U＝{u_i}，即BoF特征；

其中，α表示平滑参数，取α＝1/(8η²)；η表示聚类中心的平均值；

步骤1.3.4引入双调和距离矩阵K，利用公式(2)构建中级特征词袋表示F；

其中，k_ef代表双调和矩阵K的元素，为三维模型中任意顶点v_e和v_f之间的调和距离，其中λ,

分别代表Laplace-Beltrami算子的特征值和对应的特征向量；

步骤1.4将中级特征词袋表示F矩阵转换为图像表示，即三维模型Mq的BOF特征图像；

步骤2.构建基于BoF特征图像的卷积神经网络BoF-CNN：

步骤2.1使用Alexnet作为BoF-CNN的网络结构；

步骤2.2依次输入m个三维模型BoF特征图像，BoF特征图像统一分辨率为224*224像素；

步骤2.3网络参数设置，其中batch_size设置为16，正则化参数σ设置为0.5，学习率设置为0.01，dropout率设为0.5；

步骤2.4输出4096维长度的深度特征向量；

步骤3.建立多视图网络学习框架Views-CNN

步骤3.1构建三维模型Mq的多视图投影图像

将12台摄像机均匀放置在三维模型Mq的单位包围球上，生成12个角度的二维投影视图，每个二维投影图像统一设置分辨率为224*224像素，其中6台摄像机的放置角度为

3个摄像机放置角度为：

剩下3个摄像机放置角度为：

所述

为方位角，

为仰角；

步骤3.2建立一个由12个CNN1并行的VGG-16结构学习网络，分别对应学习12个二维投影视图；并行的网络CNN1共享权值与参数并具有相同的网络结构，所述网络结构第1、2层有64个卷积核，第3、4层有128个卷积核，第5、6、7层有256个卷积核，第8到13层有512个卷积核，所有卷积核大小均为3×3；最大池化层对数据进行最大值二次采样，步长为2，采样窗口大小为2×2；fc6是4096维全连接层，随后是ViewPooling层，所述ViewPooling层接收步骤2.4所输出的4096维长度的深度特征向量并将它们最大池化聚合为一个4096维的特征，fc7层4096维的倒数第二层，即CNN2为三维模型Mq特征向量；

步骤4.结合BoF-CNN与Views-CNN，构造双通道CNN联合学习模型：

步骤4.1将BoF-CNN输出的4096维特征向量与Views-CNN输出的4096维特征向量加权连接，再将构造的8192维特征向量输入到softmax分类层进行三维非刚性模型形状分类；加权后的深度特征向量为h_a＝W_n[h_bof,h_view]，其中权值矩阵为W_n，W_n＝[w₁,...,w_n]，该模块的输出o为：

步骤4.2利用交叉熵损失函数和对比损失函数作为联合损失函数L，进行学习模型的训练优化，实现非刚性三维模型的形状分类与识别：

步骤4.2.1设L_s为交叉熵损失函数，L_c为对比损失函数，如公式(4)、(5)所示：

L＝L_s+L_c (4)

其中，D_W表示成对输入的形状特征(Y_2r-1，Y_2r)的L₂范数，

表示成对输入的形状特征(Y_2r-1，Y_2r)之间的相似性，如果匹配，设置为1，否则设置为0；T_s表示不同类别的形状特征之间的距离阈值，即0和T_s之间的欧几里德距离；

步骤4.2.2计算正向传播时联合损失函数L的值与真实值之间的损耗：

本发明是针对目前基于视图深度学习方法的局限性，提供了一种基于双通道卷积神经网络学习的非刚性三维模型分类方法。首先，提取三维模型的BoF特征向量，通过构建的BoF-CNN学习通道，获取内蕴的深度几何特征；其次，基于MVCNN(Multi-view CNN,多视图卷积神经网络)，建立并行的2D视图CNN学习通道，提取外蕴的深度视图特征；进而，将视图特征与几何特征连接，构建信息图像的特征表示；最终，通过神经网络进一步细化与加权融合，生成具有区分性的深度特征表示，基于Softmax实现三维模型的有效分类，不仅适用范围广，而且有效提高了分类精度及效率。

具体实施方式

本发明的基于双通道卷积神经网络学习的非刚性三维模型分类方法，包括建立分类模型，所述建立分类模型依次按照如下步骤进行：

步骤1：生成三维模型的BoF特征图像：

及1×n维的平均测地线距离AGD特征矩阵

所述p为顶点的特征维度，n为顶点数；所述i＝1,2,3……n；

步骤1.2构建联合特征描述符

将两个特征矩阵

和

连接起来；

步骤1.3采用特征词袋模型(BoF：Bag of feature)方法，对联合特征描述符

构建中级特征词袋表示F，具体步骤如下：

步骤1.3.1令

为三维模型Mq的联合特征描述符集合，使用K-means聚类算法将S进行聚类，计算聚类中心D，D＝{d_l}∈R^(p+1)×k，所述l＝1,2,3……k，k为分类数目；

步骤1.3.3利用软量化SVQ方法，将联合特征描述符

分别代表Laplace-Beltrami算子的特征值和对应的特征向量；

步骤1.4将中级特征词袋表示F矩阵转换为图像表示，即三维模型Mq的BOF特征图像(BoF-image)；

步骤2.构建基于BoF特征图像的卷积神经网络BoF-CNN：

步骤2.1使用Alexnet作为BoF-CNN的网络结构；

步骤2.4输出4096维长度的深度特征向量；

步骤3.建立多视图网络学习框架Views-CNN

步骤3.1构建三维模型Mq的多视图投影图像

3个摄像机放置角度为：

剩下3个摄像机放置角度为：

所述

为方位角，

为仰角；

步骤3.2建立一个由12个CNN1并行的VGG-16结构学习网络，分别对应学习12个二维投影视图；并行的网络CNN1共享权值与参数并具有相同的网络结构，所述网络结构第1、2层有64个卷积核，第3、4层有128个卷积核，第5、6、7层有256个卷积核，第8到13层有512个卷积核，所有卷积核大小均为3×3；最大池化层对数据进行最大值二次采样，步长为2，采样窗口大小为2×2；fc6是4096维全连接层，随后是ViewPooling层，所述ViewPooling层接收步骤2.4所输出的4096维长度的深度特征向量并将它们最大池化聚合为一个4096维的特征，fc7层4096维的倒数第二层(penultimate)，即CNN2为三维模型Mq特征向量；

步骤4.结合BoF-CNN与Views-CNN，构造双通道CNN联合学习模型：

L＝L_s+L_c (4)

其中，D_W表示成对输入的形状特征(Y_2r-1，Y_2r)的L₂范数，

本发明实施例与现有方法在SHREC2010、SHREC2011和SHREC2015数据库上进行综合实验以及对比分析(见表1、表2)，结果表明本发明适用范围广且具有更高的分类精度以及高效性。

表1准确率比较(％)

Tab.1 The comparison of performances(％)with deep learning methods

算法数据库	SHREC2010	SHREC2011	SHREC2015	mAP
					ShapeGoogle<sup>[58]</sup>	90.96	92.89	83.16	89.15
GA-BoF<sup>[24]</sup>	86.02	93.20	72.93	84.11
					SA-BoF<sup>[60]</sup>	91.83	98.00	84.27	91.37
SGWC-BoF<sup>[57]</sup>	95.66	97.66	92.54	95.28
					DeepShape<sup>[32]</sup>	95.50	96.53	92.87	94.96
DeepGM<sup>[29]</sup>	96.33	97.89	93.03	95.75
					FeaStNet<sup>[62]</sup>	97.84	98.12	96.35	97.43
MVCNN<sup>[31]</sup>	97.42	97.86	96.17	97.15
					本发明BoFCNN	93.75	95.83	94.62	94.73
本发明MVCNN	97.61	98.04	96.49	97.38
					本发明双通道CNN	98.72	98.86	98.64	98.74

表2各方法的效率比较

Claims

1.一种基于双通道卷积神经网络学习的非刚性三维模型分类方法，包括建立分类模型，其特征在于所述建立分类模型依次按照如下步骤进行：

步骤1：生成三维模型的BoF特征图像：

及1×n维的平均测地线距离AGD特征矩阵

所述p为顶点的特征维度，n为顶点数；所述i＝1,2,3……n；

步骤1.2构建联合特征描述符

将两个特征矩阵

和

连接起来；

步骤1.3采用特征词袋模型方法，对联合特征描述符

构建中级特征词袋表示F，具体步骤如下：

步骤1.3.1令

步骤1.3.3利用软量化SVQ方法，将联合特征描述符

分别代表Laplace-Beltrami算子的特征值和对应的特征向量；

步骤2.构建基于BoF特征图像的卷积神经网络BoF-CNN：

步骤2.1使用Alexnet作为BoF-CNN的网络结构；

步骤2.4输出4096维长度的深度特征向量；

步骤3.建立多视图网络学习框架Views-CNN：

步骤3.1构建三维模型Mq的多视图投影图像

3个摄像机放置角度为：

剩下3个摄像机放置角度为：

所述

为方位角，

为仰角；

步骤4.结合BoF-CNN与Views-CNN，构造双通道CNN联合学习模型：

步骤4.1将BoF-CNN输出的4096维特征向量与Views-CNN输出的4096维特征向量加权连接，将构造的8192维特征向量输入到softmax分类层进行三维非刚性模型形状分类；加权后的深度特征向量为h_a＝W_n[h_bof,h_view]，其中权值矩阵为W_n，W_n＝[w₁,...,w_n]，该模块的输出o为：

L＝L_s+L_c (4)

其中，D_W表示成对输入的形状特征(Y_2r-1，Y_2r)的L₂范数，