CN112070105A - 基于双通道卷积神经网络学习的非刚性三维模型分类方法 - Google Patents
基于双通道卷积神经网络学习的非刚性三维模型分类方法 Download PDFInfo
- Publication number
- CN112070105A CN112070105A CN202010672065.6A CN202010672065A CN112070105A CN 112070105 A CN112070105 A CN 112070105A CN 202010672065 A CN202010672065 A CN 202010672065A CN 112070105 A CN112070105 A CN 112070105A
- Authority
- CN
- China
- Prior art keywords
- dimensional
- feature
- bof
- dimensional model
- cnn
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Evolutionary Computation (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Software Systems (AREA)
- Mathematical Physics (AREA)
- Health & Medical Sciences (AREA)
- Biomedical Technology (AREA)
- Computing Systems (AREA)
- Molecular Biology (AREA)
- General Health & Medical Sciences (AREA)
- Evolutionary Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Image Analysis (AREA)
Abstract
本发明公开一种基于双通道卷积神经网络学习的非刚性三维模型分类方法,首先,提取三维模型的BoF特征向量,通过构建的BoF‑CNN学习通道,获取内蕴的深度几何特征;其次,基于MVCNN(Multi‑view CNN,多视图卷积神经网络),建立并行的2D视图CNN学习通道,提取外蕴的深度视图特征;进而,将视图特征与几何特征连接,构建信息图像的特征表示;最终,通过神经网络进一步细化与加权融合,生成具有区分性的深度特征表示,基于Softmax实现三维模型的有效分类,不仅适用范围广,而且有效提高了分类精度及效率。
Description
技术领域
本发明属于三维模型的分类领域,尤其涉及一种适用范围广的基于双通道卷积神经网络学习的非刚性三维模型分类方法。
背景技术:
随着三维数字模型在虚拟现实、工业、影视娱乐、教育、医疗等各个领域的广泛应用,互联网上三维模型的数据量与复杂性显著提高,对于三维模型的形状识别与分类技术提出了更高的挑战。目前,常用的三维模型分类算法主要分为基于手工定义特征描述符的分类算法和基于深度学习的分类算法。基于手工定义特征的形状分类算法一般提取单个模型的低层几何特征,依赖于特定的模型或者特定的条件,不能直接推广到其他模型表示方法及应用中,适用范围窄;基于深度学习的分类算法是采用数据驱动方式,利用深度神经网络实现对三维模型的自动识别与分类,但是存在局限于特定的应用、分类精度及效率低等问题。
发明内容
本发明是为了解决现有技术所存在的上述技术问题,提供一种适用范围广的基于双通道卷积神经网络学习的非刚性三维模型分类方法。
本发明的技术解决方案是:一种基于双通道卷积神经网络学习的非刚性三维模型分类方法,包括建立分类模型,其特征在于所述建立分类模型依次按照如下步骤进行:
步骤1:生成三维模型的BoF特征图像:
令非刚性模型的集合M={Mq}表示三维模型集合,其中Mq表示三维模型集合M中的一个三维模型,所述q=1,2,3……m;从q=1开始至q=m,依次重复步骤1.1~1.4,获得m个三维模型Mq的BoF特征图像;
步骤1.3.2依据平均测地线距离AGD特征对聚类中心D进行降序排列,构造D*;
其中,α表示平滑参数,取α=1/(8η2);η表示聚类中心的平均值;
步骤1.3.4引入双调和距离矩阵K,利用公式(2)构建中级特征词袋表示F;
步骤1.4将中级特征词袋表示F矩阵转换为图像表示,即三维模型Mq的BOF特征图像;
步骤2.构建基于BoF特征图像的卷积神经网络BoF-CNN:
步骤2.1使用Alexnet作为BoF-CNN的网络结构;
步骤2.2依次输入m个三维模型BoF特征图像,BoF特征图像统一分辨率为224*224像素;
步骤2.3网络参数设置,其中batch_size设置为16,正则化参数σ设置为0.5,学习率设置为0.01,dropout率设为0.5;
步骤2.4输出4096维长度的深度特征向量;
步骤3.建立多视图网络学习框架Views-CNN
步骤3.1构建三维模型Mq的多视图投影图像
将12台摄像机均匀放置在三维模型Mq的单位包围球上,生成12个角度的二维投影视图,每个二维投影图像统一设置分辨率为224*224像素,其中6台摄像机的放置角度为3个摄像机放置角度为:剩下3个摄像机放置角度为:所述为方位角,为仰角;
步骤3.2建立一个由12个CNN1并行的VGG-16结构学习网络,分别对应学习12个二维投影视图;并行的网络CNN1共享权值与参数并具有相同的网络结构,所述网络结构第1、2层有64个卷积核,第3、4层有128个卷积核,第5、6、7层有256个卷积核,第8到13层有512个卷积核,所有卷积核大小均为3×3;最大池化层对数据进行最大值二次采样,步长为2,采样窗口大小为2×2;fc6是4096维全连接层,随后是ViewPooling层,所述ViewPooling层接收步骤2.4所输出的4096维长度的深度特征向量并将它们最大池化聚合为一个4096维的特征,fc7层4096维的倒数第二层,即CNN2为三维模型Mq特征向量;
步骤4.结合BoF-CNN与Views-CNN,构造双通道CNN联合学习模型:
步骤4.1将BoF-CNN输出的4096维特征向量与Views-CNN输出的4096维特征向量加权连接,再将构造的8192维特征向量输入到softmax分类层进行三维非刚性模型形状分类;加权后的深度特征向量为ha=Wn[hbof,hview],其中权值矩阵为Wn,Wn=[w1,...,wn],该模块的输出o为:
步骤4.2利用交叉熵损失函数和对比损失函数作为联合损失函数L,进行学习模型的训练优化,实现非刚性三维模型的形状分类与识别:
步骤4.2.1设Ls为交叉熵损失函数,Lc为对比损失函数,如公式(4)、(5)所示:
L=Ls+Lc (4)
其中,DW表示成对输入的形状特征(Y2r-1,Y2r)的L2范数,表示成对输入的形状特征(Y2r-1,Y2r)之间的相似性,如果匹配,设置为1,否则设置为0;Ts表示不同类别的形状特征之间的距离阈值,即0和Ts之间的欧几里德距离;
步骤4.2.2计算正向传播时联合损失函数L的值与真实值之间的损耗:
本发明是针对目前基于视图深度学习方法的局限性,提供了一种基于双通道卷积神经网络学习的非刚性三维模型分类方法。首先,提取三维模型的BoF特征向量,通过构建的BoF-CNN学习通道,获取内蕴的深度几何特征;其次,基于MVCNN(Multi-view CNN,多视图卷积神经网络),建立并行的2D视图CNN学习通道,提取外蕴的深度视图特征;进而,将视图特征与几何特征连接,构建信息图像的特征表示;最终,通过神经网络进一步细化与加权融合,生成具有区分性的深度特征表示,基于Softmax实现三维模型的有效分类,不仅适用范围广,而且有效提高了分类精度及效率。
具体实施方式
本发明的基于双通道卷积神经网络学习的非刚性三维模型分类方法,包括建立分类模型,所述建立分类模型依次按照如下步骤进行:
步骤1:生成三维模型的BoF特征图像:
令非刚性模型的集合M={Mq}表示三维模型集合,其中Mq表示三维模型集合M中的一个三维模型,所述q=1,2,3……m;从q=1开始至q=m,依次重复步骤1.1~1.4,获得m个三维模型Mq的BoF特征图像;
步骤1.3.2依据平均测地线距离AGD特征对聚类中心D进行降序排列,构造D*;
其中,α表示平滑参数,取α=1/(8η2);η表示聚类中心的平均值;
步骤1.3.4引入双调和距离矩阵K,利用公式(2)构建中级特征词袋表示F;
步骤1.4将中级特征词袋表示F矩阵转换为图像表示,即三维模型Mq的BOF特征图像(BoF-image);
步骤2.构建基于BoF特征图像的卷积神经网络BoF-CNN:
步骤2.1使用Alexnet作为BoF-CNN的网络结构;
步骤2.2依次输入m个三维模型BoF特征图像,BoF特征图像统一分辨率为224*224像素;
步骤2.3网络参数设置,其中batch_size设置为16,正则化参数σ设置为0.5,学习率设置为0.01,dropout率设为0.5;
步骤2.4输出4096维长度的深度特征向量;
步骤3.建立多视图网络学习框架Views-CNN
步骤3.1构建三维模型Mq的多视图投影图像
将12台摄像机均匀放置在三维模型Mq的单位包围球上,生成12个角度的二维投影视图,每个二维投影图像统一设置分辨率为224*224像素,其中6台摄像机的放置角度为3个摄像机放置角度为:剩下3个摄像机放置角度为:所述为方位角,为仰角;
步骤3.2建立一个由12个CNN1并行的VGG-16结构学习网络,分别对应学习12个二维投影视图;并行的网络CNN1共享权值与参数并具有相同的网络结构,所述网络结构第1、2层有64个卷积核,第3、4层有128个卷积核,第5、6、7层有256个卷积核,第8到13层有512个卷积核,所有卷积核大小均为3×3;最大池化层对数据进行最大值二次采样,步长为2,采样窗口大小为2×2;fc6是4096维全连接层,随后是ViewPooling层,所述ViewPooling层接收步骤2.4所输出的4096维长度的深度特征向量并将它们最大池化聚合为一个4096维的特征,fc7层4096维的倒数第二层(penultimate),即CNN2为三维模型Mq特征向量;
步骤4.结合BoF-CNN与Views-CNN,构造双通道CNN联合学习模型:
步骤4.1将BoF-CNN输出的4096维特征向量与Views-CNN输出的4096维特征向量加权连接,再将构造的8192维特征向量输入到softmax分类层进行三维非刚性模型形状分类;加权后的深度特征向量为ha=Wn[hbof,hview],其中权值矩阵为Wn,Wn=[w1,...,wn],该模块的输出o为:
步骤4.2利用交叉熵损失函数和对比损失函数作为联合损失函数L,进行学习模型的训练优化,实现非刚性三维模型的形状分类与识别:
步骤4.2.1设Ls为交叉熵损失函数,Lc为对比损失函数,如公式(4)、(5)所示:
L=Ls+Lc (4)
其中,DW表示成对输入的形状特征(Y2r-1,Y2r)的L2范数,表示成对输入的形状特征(Y2r-1,Y2r)之间的相似性,如果匹配,设置为1,否则设置为0;Ts表示不同类别的形状特征之间的距离阈值,即0和Ts之间的欧几里德距离;
步骤4.2.2计算正向传播时联合损失函数L的值与真实值之间的损耗:
本发明实施例与现有方法在SHREC2010、SHREC2011和SHREC2015数据库上进行综合实验以及对比分析(见表1、表2),结果表明本发明适用范围广且具有更高的分类精度以及高效性。
表1准确率比较(%)
Tab.1 The comparison of performances(%)with deep learning methods
算法数据库 | SHREC2010 | SHREC2011 | SHREC2015 | mAP |
ShapeGoogle<sup>[58]</sup> | 90.96 | 92.89 | 83.16 | 89.15 |
GA-BoF<sup>[24]</sup> | 86.02 | 93.20 | 72.93 | 84.11 |
SA-BoF<sup>[60]</sup> | 91.83 | 98.00 | 84.27 | 91.37 |
SGWC-BoF<sup>[57]</sup> | 95.66 | 97.66 | 92.54 | 95.28 |
DeepShape<sup>[32]</sup> | 95.50 | 96.53 | 92.87 | 94.96 |
DeepGM<sup>[29]</sup> | 96.33 | 97.89 | 93.03 | 95.75 |
FeaStNet<sup>[62]</sup> | 97.84 | 98.12 | 96.35 | 97.43 |
MVCNN<sup>[31]</sup> | 97.42 | 97.86 | 96.17 | 97.15 |
本发明BoFCNN | 93.75 | 95.83 | 94.62 | 94.73 |
本发明MVCNN | 97.61 | 98.04 | 96.49 | 97.38 |
本发明双通道CNN | 98.72 | 98.86 | 98.64 | 98.74 |
表2各方法的效率比较
Claims (1)
1.一种基于双通道卷积神经网络学习的非刚性三维模型分类方法,包括建立分类模型,其特征在于所述建立分类模型依次按照如下步骤进行:
步骤1:生成三维模型的BoF特征图像:
令非刚性模型的集合M={Mq}表示三维模型集合,其中Mq表示三维模型集合M中的一个三维模型,所述q=1,2,3……m;从q=1开始至q=m,依次重复步骤1.1~1.4,获得m个三维模型Mq的BoF特征图像;
步骤1.3.2依据平均测地线距离AGD特征对聚类中心D进行降序排列,构造D*;
其中,α表示平滑参数,取α=1/(8η2);η表示聚类中心的平均值;
步骤1.3.4引入双调和距离矩阵K,利用公式(2)构建中级特征词袋表示F;
步骤1.4将中级特征词袋表示F矩阵转换为图像表示,即三维模型Mq的BOF特征图像;
步骤2.构建基于BoF特征图像的卷积神经网络BoF-CNN:
步骤2.1使用Alexnet作为BoF-CNN的网络结构;
步骤2.2依次输入m个三维模型BoF特征图像,BoF特征图像统一分辨率为224*224像素;
步骤2.3网络参数设置,其中batch_size设置为16,正则化参数σ设置为0.5,学习率设置为0.01,dropout率设为0.5;
步骤2.4输出4096维长度的深度特征向量;
步骤3.建立多视图网络学习框架Views-CNN:
步骤3.1构建三维模型Mq的多视图投影图像
将12台摄像机均匀放置在三维模型Mq的单位包围球上,生成12个角度的二维投影视图,每个二维投影图像统一设置分辨率为224*224像素,其中6台摄像机的放置角度为3个摄像机放置角度为:剩下3个摄像机放置角度为:所述为方位角,为仰角;
步骤3.2建立一个由12个CNN1并行的VGG-16结构学习网络,分别对应学习12个二维投影视图;并行的网络CNN1共享权值与参数并具有相同的网络结构,所述网络结构第1、2层有64个卷积核,第3、4层有128个卷积核,第5、6、7层有256个卷积核,第8到13层有512个卷积核,所有卷积核大小均为3×3;最大池化层对数据进行最大值二次采样,步长为2,采样窗口大小为2×2;fc6是4096维全连接层,随后是ViewPooling层,所述ViewPooling层接收步骤2.4所输出的4096维长度的深度特征向量并将它们最大池化聚合为一个4096维的特征,fc7层4096维的倒数第二层,即CNN2为三维模型Mq特征向量;
步骤4.结合BoF-CNN与Views-CNN,构造双通道CNN联合学习模型:
步骤4.1将BoF-CNN输出的4096维特征向量与Views-CNN输出的4096维特征向量加权连接,将构造的8192维特征向量输入到softmax分类层进行三维非刚性模型形状分类;加权后的深度特征向量为ha=Wn[hbof,hview],其中权值矩阵为Wn,Wn=[w1,...,wn],该模块的输出o为:
步骤4.2利用交叉熵损失函数和对比损失函数作为联合损失函数L,进行学习模型的训练优化,实现非刚性三维模型的形状分类与识别:
步骤4.2.1设Ls为交叉熵损失函数,Lc为对比损失函数,如公式(4)、(5)所示:
L=Ls+Lc (4)
其中,DW表示成对输入的形状特征(Y2r-1,Y2r)的L2范数,表示成对输入的形状特征(Y2r-1,Y2r)之间的相似性,如果匹配,设置为1,否则设置为0;Ts表示不同类别的形状特征之间的距离阈值,即0和Ts之间的欧几里德距离;
步骤4.2.2计算正向传播时联合损失函数L的值与真实值之间的损耗:
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010672065.6A CN112070105B (zh) | 2020-07-14 | 2020-07-14 | 基于双通道卷积神经网络学习的非刚性三维模型分类方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010672065.6A CN112070105B (zh) | 2020-07-14 | 2020-07-14 | 基于双通道卷积神经网络学习的非刚性三维模型分类方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112070105A true CN112070105A (zh) | 2020-12-11 |
CN112070105B CN112070105B (zh) | 2023-07-11 |
Family
ID=73657758
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010672065.6A Active CN112070105B (zh) | 2020-07-14 | 2020-07-14 | 基于双通道卷积神经网络学习的非刚性三维模型分类方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112070105B (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113657522A (zh) * | 2021-08-23 | 2021-11-16 | 天津大学 | 一种多视图三维模型聚类方法 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20180101752A1 (en) * | 2016-10-11 | 2018-04-12 | Beihang Univesity | Deep learning based method and apparatus for three dimensional model triangular facet feature learning and classifying |
CN109063753A (zh) * | 2018-07-18 | 2018-12-21 | 北方民族大学 | 一种基于卷积神经网络的三维点云模型分类方法 |
CN109145944A (zh) * | 2018-07-11 | 2019-01-04 | 哈尔滨工程大学 | 一种基于纵向三维图像深度学习特征的分类方法 |
CN110781918A (zh) * | 2019-09-23 | 2020-02-11 | 辽宁师范大学 | 自适应稀疏编码融合的非刚性三维模型分类算法 |
-
2020
- 2020-07-14 CN CN202010672065.6A patent/CN112070105B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20180101752A1 (en) * | 2016-10-11 | 2018-04-12 | Beihang Univesity | Deep learning based method and apparatus for three dimensional model triangular facet feature learning and classifying |
CN109145944A (zh) * | 2018-07-11 | 2019-01-04 | 哈尔滨工程大学 | 一种基于纵向三维图像深度学习特征的分类方法 |
CN109063753A (zh) * | 2018-07-18 | 2018-12-21 | 北方民族大学 | 一种基于卷积神经网络的三维点云模型分类方法 |
CN110781918A (zh) * | 2019-09-23 | 2020-02-11 | 辽宁师范大学 | 自适应稀疏编码融合的非刚性三维模型分类算法 |
Non-Patent Citations (2)
Title |
---|
吴冬梅;卢静;蒋瑜;: "基于双通道C3D的基建现场人体异常行为识别", 信息技术与信息化, no. 01 * |
杨军;党吉圣;: "采用深度级联卷积神经网络的三维点云识别与分割", 光学精密工程, no. 05 * |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113657522A (zh) * | 2021-08-23 | 2021-11-16 | 天津大学 | 一种多视图三维模型聚类方法 |
CN113657522B (zh) * | 2021-08-23 | 2023-11-24 | 天津大学 | 一种多视图三维模型聚类方法 |
Also Published As
Publication number | Publication date |
---|---|
CN112070105B (zh) | 2023-07-11 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
WO2021042828A1 (zh) | 神经网络模型压缩的方法、装置、存储介质和芯片 | |
WO2020221200A1 (zh) | 神经网络的构建方法、图像处理方法及装置 | |
CN109410307B (zh) | 一种场景点云语义分割方法 | |
CN111340814B (zh) | 一种基于多模态自适应卷积的rgb-d图像语义分割方法 | |
CN111325165B (zh) | 考虑空间关系信息的城市遥感影像场景分类方法 | |
CN113033570B (zh) | 一种改进空洞卷积和多层次特征信息融合的图像语义分割方法 | |
CN112329658A (zh) | 一种对于yolov3网络的检测算法改进方法 | |
AU2020101435A4 (en) | A panoramic vision system based on the uav platform | |
CN110580461A (zh) | 一种结合多级卷积特征金字塔的人脸表情识别算法 | |
CN110222718B (zh) | 图像处理的方法及装置 | |
US12056841B2 (en) | Method for image shape transformation based on generative adversarial network | |
CN112653899A (zh) | 一种基于联合注意力ResNeSt的复杂场景下网络直播视频特征提取方法 | |
CN105631416A (zh) | 采用新型密度聚类进行人脸识别的方法 | |
CN113505719B (zh) | 基于局部-整体联合知识蒸馏算法的步态识别模型压缩系统及方法 | |
CN111523377A (zh) | 一种多任务的人体姿态估计和行为识别的方法 | |
WO2022052782A1 (zh) | 图像的处理方法及相关设备 | |
CN112037228A (zh) | 一种基于双倍注意力的激光雷达点云目标分割方法 | |
CN109934272A (zh) | 一种基于全卷积网络的图像匹配方法 | |
CN115330620A (zh) | 一种基于循环生成对抗网络的图像去雾方法 | |
CN115546500A (zh) | 一种红外图像小目标检测方法 | |
CN110807369B (zh) | 基于深度学习和注意力机制的短视频内容智能分类方法 | |
CN115272696A (zh) | 一种基于自适应卷积和局部几何信息的点云语义分割方法 | |
CN107832713A (zh) | 一种基于OptiTrack的人体姿态识别方法 | |
CN112070105B (zh) | 基于双通道卷积神经网络学习的非刚性三维模型分类方法 | |
CN112819832A (zh) | 基于激光点云的城市场景语义分割细粒度边界提取方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |