CN109308486A

CN109308486A - 基于深度学习的多源图像融合和特征提取算法

Info

Publication number: CN109308486A
Application number: CN201810879184.1A
Authority: CN
Inventors: 周河宇; 韦莎; 程雨航; 王伟忠; 刘安安; 聂为之; 苏育挺
Original assignee: Tianjin University; China Electronics Standardization Institute
Current assignee: Tianjin University; China Electronics Standardization Institute
Priority date: 2018-08-03
Filing date: 2018-08-03
Publication date: 2019-02-05

Abstract

本发明公开了一种基于深度学习的多源图像融合和特征提取算法，包括：将数据库中的每个三维模型置于一个虚拟的正十二面体中，将虚拟相机安置在正十二面体的均匀分布的二十个顶点上，从三维空间的视点中对原始物体进行虚拟拍照，得到单个目标的二十个视图，构成多视图模型数据库；将多视图模型数据库按照7：2：1的比例划分为训练集、测试集和验证集，利用视图姿态标签这一隐变量重新定义损失函数，通过反向传播算法最小化损失函数；在最小化损失函数后，神经网络最后一层通过softmax级联输出单个目标的多个视图，在候选视图姿态标签的约束下所属类别的得分。本发明避免了对特征所处空间的依赖，提高了目标分类的精度。

Description

基于深度学习的多源图像融合和特征提取算法

技术领域

本发明涉及多视图目标分类领域，尤其涉及一种基于深度学习的多源图像融合和特征提取算法。

背景技术

伴随着数字化、显示技术和三维建模^[1]等技术的日益成熟，三维模型这一目标呈现出爆破式地增长，如何对这一目标进行高效分析和检索成为一个重要的研究问题^[2]。而目标分类^[3]作为三维模型检索中重要的一步，能够在很大程度上影响分类的速度和精度，通过类别来限定检索的范围，既能提高检索的效率，又能提高检索的精度。而目标分类技术，是指将一部分已经标注过的目标(比如：图像、视频、三维模型等^[4])作为训练样本，通过深度学习等算法对其进行训练，得到最优的分类器。

目标分类技术是三维模型检索中重要的一步，目前三维模型检索主要有两大类^[5]：第一类是基于文本进行三维模型检索，另外一类基于三维模型的内容检索更加常见。在一类中，通过文本标注，将三维模型进行文字标注，通过标注来检索获取三维模型。但由于文本的二义性和三维模型复杂的空间结构信息，检索效果不太理想。第二类是基于内容的检索，根据三维模型的拓扑结构^[6]、几何形状^[7]等形状内容来获取目标的形状特征，将特征存储后，进行检索。而几何相似性是基于内容检索中的主要组成部分，它不仅能相对精确的描述三维模型的内在信息，还无需人工干预，排除了因人工标注而导致的信息差异性。基于内容的检索分为两类^[8]：基于模型的检索和基于视图的检索。由于基于模型的检索受到计算量的限制应用不是很广泛，现在较为常用的是基于视图的检索。基于视图的三维模型检索方法使用二维视图来描述三维模型，同时，三维模型的比较也是基于二维视图之间的比较实现的。

基于多视图的目标分类方法领域目前面临的挑战主要有两个方面^[9]：

1、视图本身不能表征目标三维模型的拓扑结构，基于视图进行三维模型分类有一定的局限性。

2、如何去选取最优视图在一定程度上影响了最终目标分类的精度，而关于最优视图的选择目前还没有比较完善的方法。

基于视图的三维模型检索领域目前面临的主要挑战为^[10]：大多数方法都关注在相似度计算和模型结构表征上，而忽略了对特征的学习和优化，限制了实际应用范围。

发明内容

本发明提供了一种基于深度学习的多源图像融合和特征提取算法，本发明避免了对特征所处空间的依赖，提高了目标分类的精度，详见下文描述：

一种基于深度学习的多源图像融合和特征提取算法，所述方法包括以下步骤：

将数据库中的每个三维模型置于一个虚拟的正十二面体中，将虚拟相机安置在正十二面体的均匀分布的二十个顶点上，从三维空间的视点中对原始物体进行虚拟拍照，得到单个目标的二十个视图，构成多视图模型数据库；

将多视图模型数据库按照7：2：1的比例划分为训练集、测试集和验证集，利用视图姿态标签这一隐变量重新定义损失函数，通过反向传播算法最小化损失函数；

在最小化损失函数后，神经网络最后一层通过softmax级联输出单个目标的多个视图，在候选视图姿态标签的约束下所属类别的得分。

所述的数据库为ModelNet40数据库。

进一步地，所述利用视图姿态标签这一隐变量重新定义损失函数具体为：

其中，R是神经网络模型中所有超参数的集合，v_i是单个视图姿态标签，神经网络模型的训练过程就是找到最优的R和v_i使得最终输出的概率P的累计乘积最大。

具体实现时，所述在候选视图姿态标签的约束下所属类别的得分具体为：

确定任一视图在候选视图姿态标签约束下的类别得分，将该得分累计相乘，即可以得到直方图，用于确定目标最终的姿态及其类别。

进一步地，所述神经网络模型通过以下公式进行目标类别和视图姿态标签的判定：

与训练阶段相似，是由经过softmax分类得到的矩阵决定，最终不仅能预测出目标所属的类别，还能预测出单个目标输入视图的标签。

本发明提供的技术方案的有益效果是：

1、通过本方法引入视图姿态隐标签，能够有效提高目标分类的精度；

2、本方法针对目标的多视图分类基于深度学习设计了全新的网络结构；

3、本方法大幅提高了目标分类的精度和效率，改善了传统方法针对多视图特征融合而导致信息缺失的问题。

附图说明

图1为一种基于深度学习的多源图像融合和特征提取算法的流程图；

图2为单个目标经过虚拟拍照后得到多视图的示意图；

图3为基于深度学习进行目标检索的查准-查全曲线的示意图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚，下面对本发明实施方式作进一步地详细描述。

实施例1

一种基于深度学习的多源图像融合和特征提取算法，参见图1，该方法包括以下步骤：

101：将数据库中的每个三维模型置于一个虚拟的正十二面体中，将虚拟相机安置在正十二面体的均匀分布的二十个顶点上，从三维空间的视点中对原始物体进行虚拟拍照，得到单个目标的二十个视图，构成多视图模型数据库；

102：将多视图模型数据库按照7：2：1的比例划分为训练集、测试集和验证集，利用视图姿态标签这一隐变量重新定义损失函数，通过反向传播算法最小化损失函数；

103：在最小化损失函数后，神经网络最后一层通过softmax级联输出单个目标的多个视图，在候选视图姿态标签的约束下所属类别的得分。

进一步地，步骤103中的在候选视图姿态标签的约束下所属类别的得分具体为：

综上所述，本发明实施例针对目标的多视图分类基于深度学习设计了全新的网络结构，避免了对特征所处空间的依赖，提高了目标分类的精度。

实施例2

下面结合具体的实例、计算公式对实施例1中的方案进行进一步地介绍，详见下文描述：

201：将ModelNet40^[11]数据库中的每个三维模型置于一个虚拟的正十二面体中，将虚拟相机安置在正十二面体的二十个顶点上，从这二十个均匀分布在三维空间的视点中对原始物体进行虚拟拍照，即可以得到单个目标的二十个视图；

其中，上述步骤201主要包括：

预定义一组视点，视点即为观测目标物体的视点，设M为预定义视点的数量，在本发明实施例中，M取为20。将虚拟相机放在包含目标的十二面体的20个顶点上，正十二面体是包含顶点的数量最多的正多面体，并且其视点完全均匀的分布在三维空间中。由于十二面体的每个顶点是由三条边相交而成，单个视点观察目标视图有三种不同的旋转方向。因此，单个目标的所有视图姿态标签候选数量为预定义视点数量的3倍：3M＝60，即为

其中v_i为ModelNet40数据库中单个训练样本的第i个视图姿态标签，v_i∈{1,...,20}，此外将记作单个目标的所有视图的集合。

将数据库中所有物体进行投影，每个目标得到20个视图，所有目标的20个视图即构成了多视图模型数据库。以ModelNet40为例，ModelNet40是由普林斯顿大学收集构建的三维模型数据库，主要有12311个CAD三维模型，将数据库中的每个模型进行投影，即可以得到246220个视图，构成了多视图模型数据库。图2为从多视图模型数据库中取的某单个模型，经过虚拟拍照后的多视图示意图。

202：将上述得到的多视图模型数据库按照7：2：1的比例划分为训练集、测试集和验证集，利用视图姿态标签这一隐变量重新定义损失函数，通过反向传播算法最小化损失函数；

其中，上述步骤202主要包括：

1)将构建的多视图模型数据库按照7：2：1的比例划分为训练集，测试集和验证集。其中，训练集主要用于神经网络模型参数的设定，验证集主要用于调整神经网络模型中的超参数，而测试集则用于判定一个网络的好坏。

2)损失函数的定义过程如下：

对于给定的单个目标S，其投影后的视图集合记为单个目标所对应的类别标签为y∈{1,...,N}，其中，N为目标类别的个数。设定单个目标S的单个视图姿态标签为v_i，当从第j个视点对目标进行虚拟拍照得到视图时，其视图姿态标签为j，即可以记为 v_i←j。

在训练过程中，视图姿态标签v_i为训练过程中不断去优化的隐变量，其标签是未知的，而类别标签y是给定的。

与传统神经网络模型相比，本发明实施例中的神经网络模型主要包括：卷积层、池化层和激活层，以及最后的softmax分类层。不同的是本发明实施例中的分类层为多个softmax的级联，输出为每个目标所有视图所属各个类目的概率大小，可以记为 P(y_i'＝y|x_i,v_i)，其中y_i'为每个视图x_i估计的标签类别。

整个神经网络模型的训练过程，可以看作是对于给定的三维模型视图集合通过反向传播算法去不断调整超参数，以达到最小化损失函数的目的，可以写作为：

其中，R是神经网络模型中所有超参数的集合，因此整个神经网络模型的训练过程就是找到最优的R和v_i使得其最终输出的概率P的累计乘积最大。与原始损失函数的区别在于姿态隐标签v_i的引入，原始损失函数定义如下：

对于目标S，若其第i个视图姿态标签预测正确，即，则其概率输出P接近1。否则，如果视图姿态标签v_i预测错误，输出概率会接近0，因为视图x_i是从其它的视点观测到的图像。

为了让在神经网络模型预测的过程中，稳定性更好，在本发明实施例中引入了一个错误的视图姿态标签，其作用就相当于目标分类中的背景标签，对于一个负样本，其不属于任何类别。

具体用法如下：将原始N维的类别标签扩充至N+1维，因此对于上式中的概率分布P，有其中P(y_i'＝N+1|x_i,v_i)表明了隐变量标签v_i判断错误的概率大小。

基于以上讨论，可以得到以下的相关结论：假定是一个由M个视点和(N+1)个类别组成的M×(N+1)维的矩阵，矩阵中具体的值由P(y_i'|x_i,v_i)决定。由以下函数决定：

因此上述描述的问题可以写作为：

如果固定住参数上面的问题可以看作一个不断优化模型中参数R的子问题，上式可以写作成：

其中，神经网络模型的参数R可以通过标准反向传播不断去更新，由于不是常数，因此在训练过程中交替的去训练两个参数。

具体操作如下：在每一次迭代过程中，通过固定住神经网络模型中的超参数R，得到矩阵P_i，以此确定同样，通过固定去修正R。隐变量主要由以下表达式确定：

因为为的候选数量是有限的，将所有的视图姿态标签候选参数代到上式中进行计算，可以找到一个最优解。

203：在最小化损失函数后，神经网络最后一层(多个softmax级联)可以输出单个目标的多个视图，在候选视图姿态标签的约束下所属类别的得分。一般而言，损失值越小，其得分将更加准确。

对于任意给定的三维模型，可以确定任一视图在候选视图姿态标签约束下的类别得分，将该得分累计相乘，即可以得到直方图，用于确定目标最终的姿态及其类别。

在预测阶段，从测试集中按照视图投影的顺序挑选出单个目标的M'(1≤M'≤M)张图像，神经网络模型将会通过以下公式进行目标类别和视图姿态标签的判定：

实施例3

下面结合具体的试验对实施例1和2中的方案进行可行性验证，详见下文描述：

图3对本实施例中的方案进行了可行性验证，采用查全率-查准率来衡量本方法的性能，它分别以查全率(Recall)和查准率(Precision)作为x轴和y轴，根据以下公式即可得到：

其中，Recall为查全率，N_z为正确检索目标的数量，C_r是所有相关目标的数量。

其中，Precision为查准率，C_all是所有检索目标的数量。

一般而言，查全率-查准率曲线与坐标轴围成的面积越大，算法性能越好。由图3可知，查全率-查准率与坐标轴围成的面积在0.5以上，较之于传统的算法(面积在0.4以下)，有着较大的提高。

参考文献：

[1]S Jeannin，S Jeannin.MPEG7Visual part of eXperimentation ModelVersion 7[J].ISO/IEC JTC1/SC29/WG11N，2001,3914.

[2]张飞.三维模型特征提取和相关反馈算法研究与实现[D].西北大学,2010.

[3]刘小明.基于适应加非对称AdaBoost HMM的三维模型分类方法[J].浙江大学学报，2006

[4]Kider J T.Simulation of 3D model,shape,and appearance aging byphysical,chemical, biological,environmental,and weathering effects[J].Dissertations&Theses-Gradworks,2012.

[5]Renu RS,Mocko G.Computing similarity of text-based assemblyprocesses for knowledge retrieval and reuse[J].Journal of ManufacturingSystems,2016,39:101-110.

[6]Kumar M.Strategy for Design and Building Multimedia Data Type[J].International Journal of Computer Applications,2013,73(4):50-52.

[7]Yang Y,Lin H,Zhang Y.Content-based 3-D model retrieval:asurvey.Systems,Man,and Cybernetics[C],Part C:Applications and Reviews,IEEETransactions on,2007,37(6): 1081-1098.

[8]Guetat G,Maitre M,Joly L,et al.Automatic 3-D grayscale volumematching and shape analysis[J].Information Technology in Biomedicine IEEETransactions on,2006,10(2):362-376.

[9]俞晓妮.基于特征提取的三维模型检索技术研究[J].科技传播,2014,(2).

[10]Chen Y,Medasani S,Jiang Q,et al.Video content-based retrieval[J].2016.

[11]Z.Wu,S.Song,A.Khosla,F.Yu,L.Zhang,X.Tang,and J.Xiao.3d shapenets:A deep representation for volumetric shapes.In Proceedings ofIEEE Conferenceon Computer Vision and Pattern Recognition(CVPR),2015

本发明实施例对各器件的型号除做特殊说明的以外，其他器件的型号不做限制，只要能完成上述功能的器件均可。

本领域技术人员可以理解附图只是一个优选实施例的示意图，上述本发明实施例序号仅仅为了描述，不代表实施例的优劣。

以上所述仅为本发明的较佳实施例，并不用以限制本发明，凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种基于深度学习的多源图像融合和特征提取算法，其特征在于，所述方法包括以下步骤：

2.根据权利要求1所述的一种基于深度学习的多源图像融合和特征提取算法，其特征在于，

所述的数据库为ModelNet40数据库。

3.根据权利要求1所述的一种基于深度学习的多源图像融合和特征提取算法，其特征在于，所述利用视图姿态标签这一隐变量重新定义损失函数具体为：

4.根据权利要求1所述的一种基于深度学习的多源图像融合和特征提取算法，其特征在于，所述在候选视图姿态标签的约束下所属类别的得分具体为：

5.根据权利要求3所述的一种基于深度学习的多源图像融合和特征提取算法，其特征在于，所述神经网络模型通过以下公式进行目标类别和视图姿态标签的判定：