CN106228177A

CN106228177A - 基于卷积神经网络的日常生活物体图像识别方法

Info

Publication number: CN106228177A
Application number: CN201610528629.2A
Authority: CN
Inventors: 王欢; 王曰海
Original assignee: Zhejiang University ZJU
Current assignee: Zhejiang University ZJU
Priority date: 2016-06-30
Filing date: 2016-06-30
Publication date: 2016-12-14

Abstract

本发明公开了一种基于卷积神经网络的日常生活物体图像识别方法，其主要包括以下步骤：使用kinect相机对日常生活物体进行拍照，获取图像的颜色和深度信息，建立样本集。然后建立六层的卷积神经网络，得到训练好的模型。最后将此模型用于日常生活物体图片的识别测试。本发明的卷积网络结构用于日常生活物体识别，解决了传统图像识别方法中难以提取到优良特征的难题，同时利用了图片中的深度信息，有效提高了识别率。最终在大量图片上进行测试后的结果证明这种结构具有良好的泛化能力，可以用于家居机器人等众多家居场合的图像处理设备上。

Description

基于卷积神经网络的日常生活物体图像识别方法

技术领域

本发明涉及图像识别领域，特别涉及一种基于卷积神经网络的日常生活物体图像识别方法。

背景技术

随着信息时代的全面发展，数字图像已经是传递信息非常重要的媒介。智能设备的发展使得我们希望电子设备具备类似于人的图像识别能力，这一点在家居机器人身上更是如此，如软银推出的Pepper，法国研制的Keecher和Buddy，这些都需要实现人与机器之间的交互，机器人具备人类视觉的识别能力就很重要了，至少能识别出日常生活中常见的物体。

但是传统的图像识别技术都严重依赖于手工设计的特征提取器，一方面这些特征提取器的设计耗时耗力，如非常著名的SIFT(尺度不变特征转换)就花费了多年的时间来研制；另一方面这些特征还是比较低级的特征，如SIFT只能用于提取一些粗浅的边缘信息。要研制高级特征的提取器是特征工程中的难题。

发明内容

为了克服上述传统特征提取的难题，本发明提供了一种基于卷积神经网络的日常生活物体图像识别方法，该方法不用手工提取特征，同时不仅利用了颜色信息还可以利用图片的深度信息，解决了传统图像识别方法中难以提取到优良特征的难题，同时利用了图片中的深度信息，有效提高了识别率。最终在大量图片上进行测试后的结果证明这种结构具有良好的泛化能力，可以用于家居机器人等众多家居场合的图像处理设备上。

本发明的目的可以通过以下的技术方法实现：一种基于卷积神经网络的日常生活物体图像识别方法，具体包括以下步骤：

(1)建立数据集，并进行预处理：

拍摄日常生活物体图片并建立数据集，所述图片包括颜色图像和深度图像，对得到的图片进行预处理，得到训练数据和测试数据；

(2)搭建卷积神经网络模型：

卷积神经网络模型包括C个卷积层、F个全连接层和一个softmax分类器，2≤C≤5，1≤F≤3；在每一个卷积层中进行卷积、池化和归一化处理；每个卷积层的卷积核大小是c_i*c_i，步长为sc_i*sc_i，其中1≤c_i≤10，1≤sc_i≤5，1≤i≤C；对图像进行卷积处理得到k_i种特征，1≤k_i≤256；每个卷积层的池化处理使用最大池化，大小为p_i*p_i，步长为sp_i*sp_i，其中1≤p_i≤10，1≤sp_i≤5，1≤i≤C；对池化处理后的图像进行归一化处理；图像经过上一个卷积层处理后得到的结果输入下一个卷积层；

在第C个卷积层之后，将得到的特征展开成一维向量输入到第一个全连接层中，然后将第一个全连接层的结果输入到第二个全连接层中，以此类推，在经过第F个全连接层之后得到logits值，最后将得到的logits值输入到softmax分类器中，得到该图片属于各个类别的概率值，由此概率值与真实的label计算得到交叉熵损失函数，从而完成了卷积神经网络模型的搭建；其中，每一个全连接层中含有的神经元个数为f_j，其中1≤f_j≤768，1≤j≤F；

(3)模型的训练：

将步骤(1)得到的训练数据输入到步骤(2)得到的卷积神经网络模型中开始训练；训练使用梯度下降法，学习率使用变动学习率，训练迭代次数在5万‐10万次之间；

(4)模型的测试：

将步骤(1)得到的测试数据输入到步骤(3)得到的训练完成后的模型中，得到预测的label，将预测的label和真实的label进行对比，可计算出识别率；如果识别率大于85％，则步骤(3)训练得到的训练模型合格；若识别率小于85％，则返回步骤(2)；

(5)模型的使用：

将待识别的图片进行预处理后输入到合格的训练模型的前C+F层中，得到logits值，然后在logits值中选择最大值所在的下标，即为预测的label，从而完成识别。

进一步地，所述图片进行预处理具体为：对深度图像中缺失深度信息的像素进行线性和最邻近法进行插值，然后将深度图像和颜色图像的大小同时归一化为M*M像素，其中c1≤M≤256；然后对归一化后的两张图片进行随机裁剪、随机水平翻转、随机对比度和亮度的改变，最后进行白化操作，得到两张N*N像素的图片，其中1≤N<M；提取N*N像素的颜色图像中的RGB信息和深度图像中的深度信息，并将RGB信息和深度信息排列成一行，最后将label放于这一行的第一个字节，从而组成一个样本的数据。

进一步地，所述神经元均是修正线性单元(ReLU)；为了防止过拟合，对两个全连接层使用weight decay。

与现有技术相比，本发明具有如下优点：

(1)本发明基于卷积神经网络，对原始图片进行操作，不需要设计复杂的特征提取器，减少了大量的时间和人力。

(2)在卷积网络的设计中相比传统的卷积网络使用了更小的卷积核，在不增加参数的情况下相比传统卷积网络增加了深度，使得提取特征的能力更强。

(3)本发明中不仅利用了图片的颜色信息还利用了图片的深度信息。不同物体有不同形状，在传统图像处理中形状只能通过平面的外形来表现，而在本发明中利用了图片的深度信息，意味着可以利用物体的三维外形信息，这对于识别率的提升有很大帮助。

附图说明

图1为本发明实施例中数据预处理的流程图；

图2为本发明实施例的卷积神经网络结构图；

图3为本发明实施例的卷积神经网络系统图。

具体实施方法

结合下面的实施例子，对本发明进行进一步的详细说明，但是本发明提出的方法并不限于这一种实施方法。

如图1‐3所示，本发明为基于卷积神经网络的日常生活物体图像识别方法，其一种实施例包括以下步骤：

(1)建立数据集，并进行预处理：

拍摄日常生活物体图片并建立数据集，所述图片包括颜色图像和深度图像，对得到的图片进行预处理，得到训练数据和测试数据。本发明中使用的数据集为华盛顿大学的RGB‐D ObjectDataset(链接：http://rgbd‐dataset.cs.washington.edu)，本发明中使用其中的207000张图片，其中训练集180000张，测试27000张。预处理包括：对深度图像中缺失深度信息的像素进行线性和最邻近法进行插值，然后将深度图和颜色图的大小同时归一化为32*32。然后对图片进行随机裁剪、随机水平反转、随机对比度和亮度的改变，最后进行白化，得到24*24的图片，将其中的RGB信息提取出来和深度信息排列成一行，将label放于这一行的第一位，从而组成一张图片的数据。对于所有的图片均按照这种方式处理，得到训练数据和测试数据，整个流程如图1所示。

(2)搭建卷积神经网络模型：

实施例中卷积神经网络模型包括3个卷积层、2个全连接层和一个softmax分类器；在每一个卷积层中进行卷积、池化和归一化处理。整个网络结构示意图如图2所示。其中，第一卷积层的卷积核大小是5*5，步长为1*1，卷积完成后从图片中提取出64种特征；池化使用最大池化，大小为3*3，步长为1*1，第二和第三卷积层的设置是一样的，卷积核大小为3*3，步长为1*1，池化为最大池化，大小为3*3，步长为2*2。在卷积之后，将得到的特征展开输入到两个全连接层中，这两层的神经元分别为384、192个，最后将得到的logits值输入到softmax分类器中，与真实的label进行对比得到交叉熵损失函数。

交叉熵是信息论中的常用函数，用来衡量两种分布之间的差异。在本发明中，每张图片真实的label存在某种分布，建立模型后对每张图片的预测label构成另一个分布，好的模型就是要使得这两个分布尽可能地接近。具体来说，交叉熵的定义如下：

H_{p} (q) = - \underset{l a b e l}{Σ} q (l a b e l) \log_{2} [p (l a b e l)]

其中p(label)表示label的真实分布，q(label)表示label的预测分布。

模型中使用的神经元均是线性修正单元(ReLU)。为了防止过拟合，对两个全连接层使用weight decay，weight decay的系数设置为0.004。权重的初始化为均值为0的高斯分布，不同层的差异在于标准差不同，偏置初始化为常数，具体列表如下：

(3)模型的训练：

将步骤(1)得到的训练数据输入到步骤(2)得到的卷积神经网络模型中开始训练；训练使用梯度下降法，对(2)中的到的损失函数关于所有变量进行求导，将梯度逐层反向传播，对变量进行更新。学习率使用变动学习率，即初始学习率为0.1，设定约10000次之后，学习率衰减为之前的0.8，训练迭代次数在5万‐10万次之间，在本实验中为51000次。

(4)模型的测试：

将准备好的测试集输入到模型的前五层中，对于得到logits值，然后在logits值中选择最大值所在的下标，即为预测的label；将270000张图片预测的label和真实的label进行对比得到识别率；如果识别率大于85％，则步骤(3)训练得到的训练模型合格；若识别率小于85％，则返回步骤(2)。

(5)模型的使用：

将待识别的图片进行预处理后输入到合格的训练模型的前五层中，得到logits值，然后在logits值中选择最大值所在的下标，即为预测的label，从而完成识别。

Claims

1.一种基于卷积神经网络的日常生活物体图像识别方法，其特征在于，具体包括以下步骤：

(1)建立数据集，并进行预处理：

(2)搭建卷积神经网络模型：

卷积神经网络模型包括C个卷积层、F个全连接层和一个softmax分类器，2≤C≤5，1≤F≤3；在每一个卷积层中进行卷积、池化和归一化处理；每个卷积层的卷积核大小是c_i*c_i，步长为sc_i*sc_i，其中1≤c_i≤10，1≤sc_i≤5，1≤i≤C；对图像进行卷积处理得到k_i种特征，1≤k_i≤256；每个卷积层的池化处理使用最大池化，大小为p_i*p_i，步长为sp_i*sp_i，其中1≤p_i≤10，1≤sp_i≤5，1≤i≤C；对池化处理后的图像进行归一化处理；图像经过上一个卷积层处理后得到的结果输入下一个卷积层。

(3)模型的训练：

(4)模型的测试：

(5)模型的使用：

2.根据权利要求1所述的基于卷积神经网络的日常生活物体图像识别方法，其特征在于，所述图片进行预处理具体为：对深度图像中缺失深度信息的像素进行线性和最邻近法进行插值，然后将深度图像和颜色图像的大小同时归一化为M*M像素，其中c1≤M≤256；然后对归一化后的两张图片进行随机裁剪、随机水平翻转、随机对比度和亮度的改变，最后进行白化操作，得到两张N*N像素的图片，其中1≤N<M；提取N*N像素的颜色图像中的RGB信息和深度图像中的深度信息，并将RGB信息和深度信息排列成一行，最后将label放于这一行的第一个字节，从而组成一个样本的数据。

3.根据权利要求1所述的基于卷积神经网络的日常生活物体图像识别方法，其特征在于，所述神经元均是修正线性单元(ReLU)；为了防止过拟合，对两个全连接层使用weightdecay。