CN109635843B

CN109635843B - 一种基于多视角图像的三维物体模型分类方法

Info

Publication number: CN109635843B
Application number: CN201811351263.1A
Authority: CN
Inventors: 宣琦; 李甫宪; 刘毅; 徐东伟; 翔云; 陈晋音
Original assignee: Zhejiang University of Technology ZJUT
Current assignee: Zhejiang University of Technology ZJUT
Priority date: 2018-11-14
Filing date: 2018-11-14
Publication date: 2021-06-18
Anticipated expiration: 2038-11-14
Also published as: CN109635843A

Abstract

一种基于多视角图像的三维物体模型分类方法，包括以下步骤：1)基于冯氏光照反射模型对三维物体点云格式的数据进行渲染，得到三维物体多视角图像；2)随机选择每一个类别内的多个三维物体实例，将其对应的经过S1所得的图像进行复制，扩充该对应类别数据量，得到数据分布平衡的训练数据集；3)从训练数据集中随机选择连续视角图像，将其输入经过预训练的三维卷积神经网络进行目标数据集的训练；4)调整三维卷积神经网络卷积核大小，使得模型具有更好的分类效果。本发明采用三维卷积神经网络算法对物体多视角图像进行特征学习，在只有物体连续视角的情况下有效的学习每类物体的泛化特征，获得的特征有更好的判别性，且具有更好的分类精度。

Description

一种基于多视角图像的三维物体模型分类方法

技术领域

本发明涉及深度学习、计算机视觉领域，特别是涉及一种基于多视角图像的三维物体模型分类方法。

背景技术

随着三维数据的快速增长，针对三维物体数据的研究在计算机视觉领域变得越发重要。受到以卷积神经网络(Convolutional Neural Networks,CNNs)为代表的深度学习模型在二维图像的广泛应用而启发，三维卷积神经网络(3D Convolutional NeuralNetworks,3D CNNs)在三维物体分类、识别、检测、分割等领域得到不同程度的应用，同时取得了较好的效果。

针对三维物体分类问题，目前存在两种类型主流方法：一是将点云格式的数据体素化后应用立体卷积神经网络进行特征学习从而进行分类。例如：Zhirong Wu利用二值体素将点云数据立体化，应用4层三维全连接神经网络对其进行分类(Wu,Zhirong,et al.3dshapenets:A deep representation for volumetric shapes[C]//Computer Vision andPattern Recognition.IEEE,2015:1912-1920.)；Vishakh Hdgde将点云数据进行灰度体素化后，分别应用两种不同架构的立体卷积神经网络对其进行特征学习，而后将模型特征融合从而得到分类结果(Hegde V,Zadeh R.Fusionnet:3d object classification usingmultiple data representations[C]//Neural Information Processing Systems.2016:1284-1292)。二是将点云格式的数据渲染生成二维图像，结合二维卷积神经网络进行分类。例如：Hang Su利用冯氏光照模型将物体数据渲染生成12张不同视角下的图像，应用多视角通道二维卷积神经网络获取不同视角图像的特征，然后将特征融合进行分类(Su,Hang,etal.Multi-view convolutional neural networks for 3d shape recognition[C]//International Conference on Computer Vision.2015:945-953)。

因此，结合三维物体的多视角图像与三维卷积神经网络对物体进行分类是一种可行性较强的方法。

发明内容

为了克服现有技术方案无法根据物体的多视角图像进行分类的不足，本发明提出一种有效实现根据物体多视角图像进行分类的方法，采用三维卷积神经网络算法进行特征学习，获得的特征有更好的判别性，且具有更好的分类精度。

本发明实现上述发明目的所采用的技术方案为：

一种基于多视角图像的三维物体模型分类方法，包括以下步骤：

S1：基于冯氏光照反射模型(Phong Reflection Model)对三维物体点云格式的数据进行渲染，得到三维物体多视角图像；

S2：随机选择每一个类别内的多个三维物体实例，将其对应的经过S1所得的图像进行复制，扩充该对应类别数据量，得到数据分布平衡的训练数据集；

S3：从S2得到的数据集中，随机选择连续视角图像，将其输入经过预训练的三维卷积神经网络进行目标数据集的训练；

S4：调整三维卷积神经网络卷积核大小，使得模型具有更好的分类效果。

进一步，所述步骤S1中，以三维物体质心设定为三维坐标系原点，以X，Y轴为水平面，所有物体直立向上摆放，并且围绕物体圆周等间隔角度(θ_inter＝10°)地设定36个视角点，每一个视角点上设立一个面向物体质心的虚拟相机；同时，每一个虚拟视角点与水平面的夹角θ_plane为30°；应用冯氏光照反射模型计算每一个虚拟相机下的物体图像，得到每一个物体的36幅图像。

再进一步，所述步骤S2中，为避免训练数据集中每一个类别数据量不同而导致分类模型具有偏置性，将训练数据集进行扩展以得到数据分布更加平衡的训练数据集，操作过程如下：首先，统计数据集中每个类别的样本数量X_i，i∈k，其中k为分类类别数，设定每一个类别中的样本数量扩充至X_p，计算公式如下：

然后，根据当前类别样本数量与扩充后的数据量比较，确定扩充数据量的类别，即，当X_i＞X_p，则无需扩展该类数据；当X_i＜X_p，则扩充该类别样本数量；

最后，对每一个需要扩充数据量的类别，随机的选取该类别内多个样本X_ij，j∈N_i，N_i为第i类类别的样本数量，将其复制作为该类别的新样本，重复该操作直到该类别数量扩充至X_p。

所述步骤S3中，设计一个三维卷积神经网络模型，如下：该三维卷积神经网络一共具有八个卷积层，五个池化层以及三个全连接层；其中，每一个卷积层的卷积核为三维，设定为v×3×3，其中v是卷积核的深度，3×3分别为卷积核的宽度和高度，所有卷积操作的步长stride均为1，经过三维卷积层后得到的也是三维特征图，每一层的卷积核数量依次是64、128、256、256、512、512、512、512，三维卷积计算如下：

其中，(x，y，z)为特征图的坐标，i表示第i个卷积层，j表示第j个特征图，

表示第i层的第j个特征图在位置(x，y，z)的值，(p，q，r)为卷积核的坐标，

表示卷积核在(p，q，r)位置与前一层第m个特征图的连接权值，b_ij为第i层第j个特征图的偏置，ReLU表示修正线性单元激活函数(Rectified Linear Unit)，其公式如下：

同时，为保证下一层特征图的简便计算，在每一次进行三维卷积操作都会对上一层的特征图进行适当的填充边缘操作，

池化层采用的最大池化操作，采用池化层可以有效减少特征图的大小从而降低了三维卷积神经网络的参数量，同时保持了原有特征图的特性，如平移不变性、旋转不变性、尺度不变动性等；为了避免过早的融合不同视角图像中的空间特征，将第一层池化层融合区域为1×2×2，同时池化操作的步长设定为1×2×2。而其他池化层的融合区域设定为2×2×2，步长为2×2×2，以此达到融合不同视角图像特征的作用，最大池化操作计算公式如下：

其中x′∈[2x-1，2x+1]，y′∈[2y-1，2y+1]，z′∈[2z-1，2z+1]，

为第i层第j个特征图在位置(x，y，z)的数值，

三个全连接层的神经元个数分别为4096、4096、k，其中k表示待分类数据类里的类别数，最后的全连接层后紧接一个Softmax分类器得到每一个类别的概率分布，概率计算公式如下：

其中，p_i为模型预测物体属于第i类的概率，z_i为最后一层全连接层第i个神经元的输出，将确定的模型在视频分类数据集UCF101进行预训练。

所述步骤S4中，保证其他网络参数设置不变，仅将每一个卷积层的卷积核尺寸进行变化，对比各个设定下的分类效果，选取分类效果最佳的参数设定作为模型的最后设置，操作过程如下，采用两种策略：一是将每一个卷积核的深度v固定，二是将卷积核的深度v随着层数的变化而变化；对于策略一，分别选取1、3、5、7作为卷积核的深度v，其中深度为1的卷积核相当于分别在每个视角图像上做卷积操作，并没有融合不同视角图像上的特征；对于策略二，分别采用递减设定(每层卷积核深度依次是7-5-5-5-3-3-1-1)与先升后降设定(每层卷积核深度依次是3-5-7-7-5-5-3-3)，根据上述两种策略观察效果选取最佳设定。

与现有的技术相比，本发明的有益效果是：采用三维卷积神经网络算法对物体多视角图像进行特征学习，在只有物体连续视角的情况下有效的学习每类物体的泛化特征，获得的特征有更好的判别性，且具有更好的分类精度。

附图说明

图1为基于多视角图像的三维物体模型分类方法流程图；

图2为点云数据转化多视角图像示意图；

图3为三维卷积神经网络模型图；

图4为不同卷积核参数设定结果对比示意图。

具体实施方式

下面结合说明书附图对本发明做进一步说明。

参照图1～图4，一种有效实现根据物体多视角图像进行分类的方法，本发明使用ModelNet公开数据集来评估所提出的方法。ModelNet中包含两个子数据集ModelNet40和ModelNet10。本发明中采用的实施例为ModelNet10，其中共包含10个物体类别，分别是Bathtub、Bed、Chair、Desk、Dresser、Monitor、Night Stand、Sofa、Table、Toilet(具体样本数量见表1)。采用三维卷积神经网络算法对物体多视角图像进行特征学习，在只有物体连续视角的情况下有效的学习每类物体的泛化特征，得到较好分类精度。

类别名称	训练集样本量	测试集样本量
			Bathtub	106	50
Bed	515	100
			Chair	889	100
Desk	200	86
			Dresser	200	86
Monitor	465	100
			Night Stand	200	86
Sofa	680	100
			Table	392	100
Toilet	344	100

表1

本发明包括以下步骤：

进一步，所述步骤S1中，如图2所示，以三维物体质心设定为三维坐标系原点，以X，Y轴为水平面，所有物体直立向上摆放，并且围绕物体圆周等间隔角度(θ_inter＝10°)地设定36个视角点，每一个视角点上设立一个面向物体质心的虚拟相机，同时，每一个虚拟视角点与水平面的夹角θ_plane为30°，应用冯氏光照反射模型计算每一个虚拟相机下的物体图像，得到每一个物体的36幅图像。

更进一步，所述步骤S2中，为避免训练数据集中每一个类别数据量不同而导致分类模型具有偏置性，将训练数据集进行扩展以得到数据分布更加平衡的训练数据集，操作过程如下：首先，统计数据集中每个类别的样本数量X_i，i∈k，其中k为分类类别数，设定每一个类别中的样本数量扩充至X_p，计算公式如下：

然后，根据当前类别样本数量与扩充后的数据量比较，确定扩充数据量的类别，即，当X_i＞X_p，则无需扩展该类数据；当X_i＜X_p，则扩充该类别样本数量，在本实施例中X_p＝500；

所述步骤S3中，如图3所示，设计一个三维卷积神经网络模型具体如下：该三维卷积神经网络一共具有八个卷积层，五个池化层以及三个全连接层，其中，每一个卷积层的卷积核为三维，设定为v×3×3，其中v是卷积核的深度，3×3分别为卷积核的宽度和高度，所有卷积操作的步长stride均为1，经过三维卷积层后得到的也是三维特征图，每一层的卷积核数量依次是64、128、256、256、512、512、512、512，三维卷积计算如下：

同时，为保证下一层特征图的简便计算，在每一次进行三维卷积操作都会对上一层的特征图进行适当的填充边缘操作。

其中x′∈[2x-1，2x+1]，y′∈[2y-1，2y+1]，z′∈[2z-1，2z+1]，

为第i层第j个特征图在位置(x，y，z)的数值；

三个全连接层的神经元个数分别为4096、4096、k，其中k表示待分类数据类里的类别数。最后的全连接层后紧接一个Softmax分类器得到每一个类别的概率分布，概率计算公式如下：

所述步骤S4中，保证其他网络参数设置不变，仅将每一个卷积层的卷积核尺寸进行变化，对比各个设定下的分类效果，选取分类效果最佳的参数设定作为模型的最后设置，操作过程如下，采用两种策略：一是将每一个卷积核的深度v固定，二是将卷积核的深度v随着层数的变化而变化。对于策略一，分别选取1、3、5、7作为卷积核的深度v，其中深度为1的卷积核相当于分别在每个视角图像上做卷积操作，并没有融合不同视角图像上的特征；对于策略二，分别采用递减设定(每层卷积核深度依次是7-5-5-5-3-3-1-1)与先升后降设定(每层卷积核深度依次是3-5-7-7-5-5-3-3)。根据上述两种策略，得到网络的分类结果，如图4所示，将卷积核设置为固定值3可以达到最好的分类效果，故将此作为模型的最终设定。

如上所述为本发明基于多视角图像的三维物体模型分类实施例介绍，本发明通过采用三维卷积神经网络的方法，对三维物体模型的多视角图像的进行特征学习，得到较好的分类结果，而后对于模型进行参数对比，选取效果最好的参数组合作为模型的最终参数。对发明而言仅仅是说明性的，而非限制性的。

本专业技术人员理解，在发明权利要求所限定的精神和范围内可对其进行许多改变，修改，甚至等效，但都将落入本发明的保护范围内。

Claims

1.一种基于多视角图像的三维物体模型分类方法，其特征在于，所述方法包括以下步骤：

S1：基于冯氏光照反射模型对三维物体点云格式的数据进行渲染，得到三维物体多视角图像；

所述步骤S1中，以三维物体质心设定为三维坐标系原点，以X，Y轴为水平面，所有物体直立向上摆放，并且围绕物体圆周等间隔角度地设定36个视角点，间隔角度θ_inter＝10°，每一个视角点上设立一个面向物体质心的虚拟相机，同时，每一个虚拟视角点与水平面的夹角θ_plane为30°，应用冯氏光照反射模型计算每一个虚拟相机下的物体图像，得到每一个物体的36幅图像；

所述步骤S2中，为避免训练数据集中每一个类别数据量不同而导致分类模型具有偏置性，将训练数据集进行扩展以得到数据分布更加平衡的训练数据集，操作过程如下：首先，统计数据集中每个类别的样本数量X_i，i∈k，其中k为分类类别数，设定每一个类别中的样本数量扩充至X_p，计算公式如下：

然后，根据当前类别样本数量与扩充后的数据量比较，确定扩充数据量的类别，即，当X_i＞X_p，则无需扩展该类数据；当X_i＜X_p，则扩充该类别样本数量；最后，对每一个需要扩充数据量的类别，随机的选取该类别内多个样本X_ij，j∈N_i，N_i为第i类类别的样本数量，将其复制作为该类别的新样本，重复该操作直到该类别数量扩充至X_p；

所述步骤S3中，设计一个三维卷积神经网络具体如下：该三维卷积神经网络一共具有八个卷积层，五个池化层以及三个全连接层，其中，每一个卷积层的卷积核为三维，设定为v×3×3，其中v是卷积核的深度，3×3分别为卷积核的宽度和高度，所有卷积操作的步长stride均为1，经过三维卷积层后得到的也是三维特征图，每一层的卷积核数量依次是64、128、256、256、512、512、512、512，三维卷积计算如下：

表示第i层的第j个特征图在位置(x，y，z)的值，(p，q，r)为卷积核的坐标，表示卷积核在(p，q，r)位置与前一层第m个特征图的连接权值，b_ij为第i层第j个特征图的偏置，ReLU表示修正线性单元激活函数，其公式如下：

同时，为保证下一层特征图的简便计算，在每一次进行三维卷积操作都会对上一层的特征图进行适当的填充边缘操作；

池化层采用的最大池化操作，将第一层池化层融合区域为1×2×2，同时池化操作的步长设定为1×2×2；而其他池化层的融合区域设定为2×2×2，步长为2×2×2，以此达到融合不同视角图像特征的作用，最大池化操作计算公式如下：

其中x′∈[2x-1，2x+1]，y′∈[2y-1，2y+1]，z′∈[2z-1，2z+1]，为第i层第j个特征图在位置(x，y，z)的数值；

其中，p_i为模型预测物体属于第i类的概率，z_i为最后一层全连接层第i个神经元的输出，将确定的模型在视频分类数据集UCF101进行预训练；

2.如权利要求1所述的一种基于多视角图像的三维物体模型分类方法，其特征在于：保证其他网络参数设置不变，仅将每一个卷积层的卷积核尺寸进行变化，对比各个设定下的分类效果，选取分类效果最佳的参数设定作为模型的最后设置，操作过程如下，采用两种策略：一是将每一个卷积核的深度v固定，二是将卷积核的深度v随着层数的变化而变化；对于策略一，分别选取1、3、5、7作为卷积核的深度v，其中深度为1的卷积核相当于分别在每个视角图像上做卷积操作，并没有融合不同视角图像上的特征；对于策略二，分别采用递减设定与先升后降设定，根据上述两种策略观察效果选取最佳设定。