CN106446930B

CN106446930B - 基于深层卷积神经网络的机器人工作场景识别方法

Info

Publication number: CN106446930B
Application number: CN201610617218.0A
Authority: CN
Inventors: 段勇; 喻祥尤
Original assignee: Shenyang University of Technology
Current assignee: Shenyang University of Technology
Priority date: 2016-06-28
Filing date: 2016-08-01
Publication date: 2019-11-22
Anticipated expiration: 2036-08-01
Also published as: CN106446930A

Abstract

基于深层卷积神经网络的机器人工作场景识别方法，其包括采集机器人工作场景视频；提取工作场景视频中的场景图像作为原始场景图像数据集；对原始工作场景图像进行归一化处理；对机器人工作场景数据集进行去均值化等预处理；提取机器人工作场景数据集PARTIAL场景图像的SIFT特征；提取机器人工作场景数据集GLOBAL中场景图像的卷积层特征以及池化层特征；机器人工作场景图像分别通过特征词袋分类模型和深度神经网络模型得到长度为n的输出，将这两个输出结合成的向量作为样本数据，然后训练一个三层的神经网络，得到最终机器人工作场景的分类结果，其实现机器人在环境场景中，通过摄像头采集图像，并把该图像作为输入至训练好的分类器，提高机器人场景识别精度。

Description

基于深层卷积神经网络的机器人工作场景识别方法

技术领域

本发明属于机器学习领域，涉及图像处理领域，特别涉及一种基于深层卷积神经网络的机器人工作环境场景识别方法。

背景技术

机器人研究领域中，机器人环境感知研究是一个吸引众多研究者的极具挑战性的课题。机器人环境感知是机器人环境建模、定位以及导航等领域的基础研究方向，机器人环境感知的研究既是研究出能够使机器人能够识别或获取当前工作环境信息数据并根据获取到的数据完成机器人任务的方法；在机器人环境感知领域中一个重要的方向为机器工作环境的场景识别。在机器人领域中，机器人场景识别目的与广义的图像识别相同，其目标都为是机器人具有通过理解当前图像包含的内容而判断出图像所属类别的能力；场景识别的具体目标为机器人在实际场景中采集一些图像，机器人可通过这些图像判断出机器人当前所属场景的类别。目前场景识别已经被广泛的应用在机器人、互联网、视频监控等诸多领域，因此吸引众多学者对其进行研究。

场景识别又称场景分类以及场景感知。不同于广义的图像分类，同一场景图像类别内的变化非常复杂，不同场景图像类别内构成对象的差异突出，这就造成同种场景分类的方法在不同场景数据集中得出的结果差异很大；这一问题室内场景分类中显现的更加突出。其原因在与在室内场景中，其布局非常复杂和多样，造成机器人在同一场景的不同位置采集的图像差别巨大，同一场景不同拍摄角度和不同光照、遮挡、分辨率等问题都会造成同类室内场景图像之间的差别巨大，对场景分类问题造成困难。

目前，现有的图像场景分类方法其主要步骤分为两步，首先提取场景图像特征，如SIFT(特征包括尺度不变特征)、颜色直方图、HOG(梯度直方图)；其次利用从大量场景图像中提取出来的特征训练一个分类器；由于场景图像具有很强的空间布局性，这种空间布局信息非常有利于场景分类。

场景分类的提取图像特征步骤中，无论是场景图像的全景特征还是局部特征的选取都需要实验者一定的经验，能选取好的特征非常不易，并且同一种特征可能出现对于一种场景类别有较好的效果，但是应用其他场景效果并不好。一种提取特征方法只能提取一种图像特征，但在场景分类问题中数据量大，这无疑给手动提取图像特征增加难度。

发明内容

发明目的：

针对场景识别现有方法不足，提出一种结合特征词袋模型的深层卷积神经网络的机器人工作场景识别方法，其目的是解决以往所存在的问题。

技术方案：本发明所采用的技术方案如下：

一种基于深层卷积神经网络的机器人工作场景识别方法，其特征在于:所述方法包括：

(1)、控制机器人采集其工作场景视频；

(2)、使用关键帧提取的方法提取机器人工作场景视频中的场景图像作为原始场景图像数据集；

(3)、对原始机器人工作场景图像进行归一化处理；

(4)对机器人工作场景数据集进行去均值化等预处理；

(5)、提取机器人工作场景数据集PARTIAL场景图像的SIFT特征，聚类生成SIFT特征中心，得到特征字典，计算场景图像在特征字典上的直方图向量，以此特征向量加上标签数据作为样本数据训练分类器，得到机器人工作场景的特征词袋分类模型；

(6)、提取机器人工作场景数据集GLOBAL中场景图像的卷积层特征以及池化层特征，使用这些特征经过全连接层进行分类器训练以及测试，得到深层卷积神经网络分类模型；

(7)、机器人工作场景图像分别通过特征词袋分类模型和深度神经网络模型得到长度为n的输出(设场景类别为n)，将这两个输出结合成2n的向量作为样本数据，然后训练一个三层的神经网络，得到最终机器人工作场景的分类结果。

(3)步骤中的归一化处理包括：

1)、对原始机器人工作场景图像数据集，进行大小归一化为m*m，得到机器人工作场景数据集GLOBAL；具体步骤如下：

a)、将机器人工作场景图像的较短边(设为w)按照的比例放大缩小；

b)、将机器人工作场景图像的长边(设为h)按照的比例放大缩小；

c)、对于步骤b)中长边缩小放大后会大于m，因此继续使用m*m的窗口从放大缩小后的图像中截取目的大小的图片；此方法归一化图像大小可保留图像的宽高比例，保留了机器人工作场景的结构特征；

2)、对原始机器人工作场景图像数据集中给的场景图像做m*m窗口滑动截取操作生成数据集PARTIAL，具体步骤如下：

a)、使用m*m的滑动窗口从左向右(从上到下)裁截取原场景图像中的一部分，滑动步长为m，窗口滑动到最后不足m图像部分则窗口以图片边缘对齐，向图片内侧扩展补齐不足部分，将每个窗口截取到的图片加入到场景图像数据集PARTIAL中。过程示意图见附图2。

步骤(6)中深层卷积神经网络结构包括一个输入层、五个卷积层、五个激活函数Relu层、三个池化层、三个全连接层和最后一个输出层；

五个卷积层记为Conv₁～Conv₅，五个激活函数Relu层记为Relu₁～Relu₅，三个池化层记为Pool₁，Pool₂，Pool₅，三个全连接层记为Fc₁～Fc₅，最后一个输出层即为output，每个Relu层在卷积层之后，每个池化层依次在第1、2、5个Relu层之后。

(1).对于卷积层，前两层卷积层的滤波器的核大为11*11与5*5，其余三层卷积层核大小为3*3；

(2).对于池化层：第一层池化层采用的是max-pooling方式进行向下采样，核大小为3*3，步长为2；第二层池化层采用与第一层相同的方式进行向下采样；第三层池化层采用的是mean-pooling方式进行向下采样，核大小为3*3，步长也为2。

步骤(7)深层卷积神经网络结构模型的输出和特征词袋模型的输出结合成2n的特征向量，将这2n的特征向量输入到神经网络进行分类；该神经网络中包含三层结构，即长度为2n的输入层、长度为n的输出层以及一个长度为3n的隐含层，层之间神经元是全连接。

优点效果：

本发明提供一种基于深层卷积神经网络的机器人工作场景识别方法，本发明实现机器人在环境场景中，通过摄像头采集图像，并把该图像作为输入至训练好的分类器，可提高机器人场景识别精度。其很好的解决了以往所存在的问题。

附图说明：

图1是场景图像大小归一化示意图；

图2是数据集PARTIAL以滑动窗口m*m截取场景图像示意图；

图3是深层卷积神经网络结构模型示意图；

图4特征词袋分类模型和深度神经网络模型组合后特征分类器示意图；

图5为本发明的流程图。

具体实施方案：

步骤1：采集机器人工作场景的图像数据集，具体步骤：

(1)建立远程计算机与机器人上位工控机之间的局域网，用远程计算机控制机器人以控制机器人行动；

(2)将视频采集器固定在在机器上80公分的高度上，已达到较好的视频采集角度；

(3)建立机器人工控机与视频采集器的连接，建立远程计算机控制机器人工控机运动；

(4)控制机器人在每个场景中运动，保证机器人工作场景每个角度都能采集到视频数据，机器人在每个场景采集到的视频数据保存为不同的视频文件；

(5)处理每个场景视频文件，用视频的关键帧提取方法提取出机器人工作场景的图像，将每个视频提取到的图像作为该场景的样本集，并加上机器人工作场景的标签数据，将这些样本集集合得到场景数据集。

步骤2：建立机器人工作环境的数据集，具体如下：

将机器人工作场景图像训练集和测试集进行预处理。(场景图像大小为M*N，假设M＞N)。对每幅场景图像进行裁剪缩小等操作，对场景图像进行归一化成大小为s*s的图像；具体操作为如下：

(1)对原场景图像进行缩小操作：对原场景图像中N按比例缩小成s；M按比例N/s缩小为m(m＞s)；然后对缩小后的M边进行裁剪，去掉两边多于s的部分；示意图见附图1。将处理得到的s*s的场景图像加上场景标签添加到数据集GLOBAL。

(2)使用s*s的滑动窗口从左向右(从上到下)裁截取原场景图像中的一部分，滑动步长为s，窗口滑动到最后不足s图像部分则窗口以图片边缘对齐，向图片内侧扩展补齐不足部分，将每个窗口截取到的图片加入到场景图像数据集PARTIAL中。过程示意图见附图2。

步骤3：去除数据集中场景图像的亮度的影响，对数据集中图像进行去均值处理。具体处理如下：

(1)计算场景图像数据集中每个图像像素的均值，计算公式如下：

其中X_i为第i个像素点的像素值(i∈[0,M*N])，M、N为图像的宽高，为每张场景图像中像素的平均值。

(2)逐个扫描数据集中场景图像，每个像素减去求得的均值得到去均值之后的场景图像

步骤4：随机在数据集PARTIAL中场景图像中截取小图像块，计算小图像块的SIFT特征，得到数据集图像的特征集合，使用k-means聚类生成对这些特征集合进行聚类，得到特征字典，计算场景图像的SIFT在特征字典上的直方图，将此直方图作为该场景图像的整体特征。将该图像特征输入分类器，进行训练，该分类器的输出个数是场景的类别数量。SIFT特征提取具体过程如下：

(1)检测PARTIAL数据集中场景图像的极值点；

(2)获取图像的候选特征点，然后对特征候选点做稳定性检测处理操作，保留那些具有高噪声敏感度的特征点作为SIFT特征点；

(3)确定关键点的方向参数，以特征点作为中心点的周围领域，计算领域像素点的的梯度方向直方图，将该梯度方向直方图的峰值作为该SIFT特征点梯度的主方向。

梯度幅值确定方式为：

梯度方向为：

上两式中分别表示了图像空间坐标(x,y)处梯度的幅值和方向，其中L表示关键点所在的空间尺度函数。

(4)在4*4的小块上计算8个方向的梯度直方图，生成SIFT特征向量。

步骤5：将提取的场景图像数据集进行训练样本集和测试集划分，85％作为训练集，15％作为测试集。

步骤6：构建深层卷积神经网络,示意图见附图3，具体过程如下：

(1)本发明的深层卷积神经网络结构包括一个输入层，卷积层五个(记为Conv₁～Conv₅)，五个激活函数Relu层(记为Relu₁～Relu₅)，3个池化层(记为Pool₁，Pool₂，Pool₅)，三个全连接层(记为Fc₁～Fc₅)和最后一个输出层(即为output)。每个Relu层在卷积层之后，每个池化层依次在第1、2、5个Relu层之后。

(2)对于输入层，GLOBAL数据集中经过预处理的图像的像素RGB三通道的值作为深层卷积神经网络的输入，输入矩阵大小为s*s*3；

(3)对于卷积层，前两层卷积层的滤波器的核大为11*11与5*5，其余三层卷积层核大小为3*3；为方便设卷积层核大小为k*k，滑动步长(stride)为s，数据pad为p，其上一层输入大小为N*N，则经过卷积层后下一层的输出为(N-k-2*p)/s+1；具体的：

卷积层核参数记为W_ij(i,j∈[1,k])，卷积核窗口滑动取出的神经元输入记为A_ij(i,j∈[1,k])，则卷积层神经单元输出O_i如下：

(4)对于Relu层，Relu为激活函数层；Relu模拟的是脑神经元在接收信号时只有很少一部分脑神经元被激活，具有很强的稀疏性，传统激活函数logistic-sigmoid和tanh-sigmoid函数则不具有神经元抑制性。Relu函数使用的函数形式与softplus(x)＝log(1+exp(x))近似的g(x)＝max(0,x)；其原理为在给定一个输入x时，如果x<0则将x置0，否则x保持不变。

(5)对于池化层：第一层池化层采用的是max-pooling方式进行向下采样，核大小为3*3，步长为2；第二层池化层采用与第一层相同的方式进行向下采样；第三层池化层采用的是mean-pooling方式进行向下采样，核大小为3*3，步长也为2；为方便设核大小为k*k,步长为s,D_ij(i,j∈[1,k])为池化层核窗口取到的输入的数据，函数f表示池化层进行的操作，Output表示池化层每个神单元的输出。则公式如下：

其中max-pooling池化层向下采样的操作中：函数f的工作就是从窗口取出的数据中找到最大值作为池化层当前单元的输出。

其中mean-pooling池化层向下采样的操作中：函数f的工作就是从窗口取出的数据中求平均值作为池化层当前单元的输出，计算公式如下：

步骤7：训练深层卷积神经网络，GLOBAL数据集中的场景图像经过预处理后，用其输入步骤6中的神经网络模型进行训练。

(1)深层卷积神经网络模型的前馈阶段；

初始深度卷积网络模型的参数初始化采用的方法是：输入的场景样本图像输入一个三层的神经网络，输入的是图像的数据，中间是神经元数为样本图像宽的隐含层，输出层是和输入层具有相同的神经元数；将样本本身作为标签数据对神经网络进行训练，得到神经网络的参数。

(2)训练网络的反馈阶段

设GLOBAL场景图像数据集中的样本为[(X₁,P₁),(X₂,P₂),...,(X_m,P_m)]，样本数为m，场景图像的类别为n，其中X为样本图像数据，P为标签数据；深度神经网络第l层神经元记为A^l，第l层的第i个神经元的输出记为第l层神经元权值参数为W^l，偏置参数为b^l，则其下一层计算公式如下：

训练深层卷积神经网络才用的代价计算函数如下：

其中f_W,b(X_i)为第i,i∈(1,m)个样本图像经过深层卷积神经网络的输出；W,b分别为卷积神经网络待训练的权值参数和偏置参数；P_i为第i个样本图像的标签数据。

根据梯度下降法对网络模型进行迭代更新参数进行调优，参数更新的公式如下：

其中α为网络的学习速率；训练网络模型得到一组参数θ(W,b)使得代价函数J(W,b,X,Y)最小，W为网络权值b为网络偏置，X为样本数据集，Y为样本集的标签数据，其中为网络中l层的j号神经单元与其下一层i号神经单元之间的权值参数。

步骤8：将GLOBAL场景图像数据集中的数据分别输入值步骤4中得到的BOF模型中得到n(场景类别个数)个输出和输入到步骤7训练得到的深层卷积神经网络中的到n(场景类别个数)个输出。将这两个输出组合成一个2n的特征向量，这样就得到数据为2n的特征向量集合，数据的标签不变；将得到的特征向量集合去训练一个神经网络分类器。具体的分类器包含三层结构，长度为2n的输入层，长度为n的输出层，以及一个长度为3n的隐含层。训练完成与BOF分类模型以及深层卷积神经网络模型结合组成整体的场景图像分类的深度神经网络。其网络模型结构见附图4。

Claims

1.一种基于深层卷积神经网络的机器人工作场景识别方法，其特征在于:所述方法包括：

(1)、控制机器人采集其工作场景视频；

(3)、对原始机器人工作场景图像进行归一化处理；

(4)、对机器人工作场景数据集进行去均值化预处理；

(6)、提取机器人工作场景数据集GLOBAL中场景图像的卷积层特征以及池化层特征，使用这些特征经过全连接层进行分类器训练以及测试，训练之后得到深层卷积神经网络分类模型；

(7)、机器人工作场景图像分别通过特征词袋分类模型和深层卷积神经网络分类模型得到长度为n的输出,设场景类别为n，将这两个输出结合成2n的向量作为样本数据，然后训练一个三层的神经网络，得到最终机器人工作场景的分类结果。

2.根据权利要求1所述的基于深层卷积神经网络的机器人工作场景识别方法，其特征在于:(3)步骤中的归一化处理包括：

a)、将机器人工作场景图像的较短边设为w，按照的比例放大缩小；

b)、将机器人工作场景图像的长边设为h，按照的比例放大缩小；

a)、使用m*m的滑动窗口从左向右或从上到下裁截取原场景图像中的一部分，滑动步长为m，窗口滑动到最后不足m图像部分则窗口以图片边缘对齐，向图片内侧扩展补齐不足部分，将每个窗口截取到的图片加入到场景图像数据集PARTIAL中。

3.根据权利要求1所述的基于深层卷积神经网络的机器人工作场景识别方法，其特征在于：步骤(6)中深层卷积神经网络结构包括一个输入层、五个卷积层、五个激活函数Relu层、三个池化层、三个全连接层和最后一个输出层；

五个卷积层记为Conv₁～Conv₅，五个激活函数Relu层记为Relu₁～Relu₅，三个池化层记为Pool₁，Pool₂，Pool₅，三个全连接层记为Fc₁～Fc₃，最后一个输出层即为output，每个Relu层在卷积层之后，每个池化层依次在第1、2、5个Relu层之后。

4.根据权利要求3所述的基于深层卷积神经网络的机器人工作场景识别方法，其特征在于：

5.根据权利要求1所述的基于深层卷积神经网络的机器人工作场景识别方法，其特征在于：

步骤(7)深层卷积神经网络分类模型的输出和特征词袋模型的输出结合成2n的特征向量，将这2n的特征向量输入到神经网络进行分类；该神经网络中包含三层结构，即长度为2n的输入层、长度为n的输出层以及一个长度为3n的隐含层，层之间神经元是全连接。

6.根据权利要求1所述的基于深层卷积神经网络的机器人工作场景识别方法，其特征在于：

步骤1：采集机器人工作场景的图像数据集，具体步骤：

(2)将视频采集器固定在机器上80公分的高度上，已达到较好的视频采集角度；

(5)处理每个场景视频文件，用视频的关键帧提取方法提取出机器人工作场景的图像，将每个视频提取到的图像作为该场景的样本集，并加上机器人工作场景的标签数据，将这些样本集集合得到场景数据集；

步骤2：建立机器人工作环境的数据集，具体如下：

将机器人工作场景图像训练集和测试集进行预处理，场景图像大小为M*N，假设M＞N，对每幅场景图像进行裁剪缩小操作；

步骤3：对场景图像进行归一化成大小为s*s的图像；具体操作为如下：

(1)、对原场景图像进行缩小操作：对原场景图像中N按比例缩小成s；M按比例N/s缩小为m，m＞s；然后对缩小后的M边进行裁剪，去掉两边多于s的部分；将处理得到的s*s的场景图像加上场景标签添加到数据集GLOBAL；

(2)使用s*s的滑动窗口从左向右或从上到下裁截取原场景图像中的一部分，滑动步长为s，窗口滑动到最后不足s图像部分则窗口以图片边缘对齐，向图片内侧扩展补齐不足部分，将每个窗口截取到的图片加入到场景图像数据集PARTIAL中；

步骤:4：去除数据集中场景图像的亮度的影响，对数据集中图像进行去均值处理，具体处理如下：

其中X_i为第i个像素点的像素值，i∈[0,M*N]，M、N为图像的宽高，为每张场景图像中像素的平均值；

(2)、逐个扫描数据集中场景图像，每个像素减去求得的均值得到去均值之后的场景图像；

步骤5：随机在数据集PARTIAL中场景图像中截取小图像块，计算小图像块的SIFT特征，得到数据集图像的特征集合，使用k-means聚类生成对这些特征集合进行聚类，得到特征字典，计算场景图像的SIFT在特征字典上的直方图，将此直方图作为该场景图像的整体特征；将该图像特征输入分类器，进行训练，该分类器的输出个数是场景的类别数量；

步骤6：将提取的场景图像数据集进行训练样本集和测试集划分，85％作为训练集，15％作为测试集；

步骤7：构建深层卷积神经网络，具体过程如下：

(1)所述的深层卷积神经网络结构包括一个输入层，卷积层五个记为Conv₁～Conv₅，五个激活函数Relu层记为Relu₁～Relu₅，三个池化层记为Pool₁、Pool₂和Pool₅，三个全连接层记为Fc₁～Fc₃，最后一个输出层即为output；每个Relu层在卷积层之后，每个池化层依次在第1、2、5个Relu层之后；

(3)对于卷积层，前两层卷积层的滤波器的核大为11*11与5*5，其余三层卷积层核大小为3*3；为方便设卷积层核大小为k*k，滑动步长为s，数据pad为p，其上一层输入大小为N*N，则经过卷积层后下一层的输出为(N-k-2*p)/s+1；具体的：

卷积层核参数记为W_ij其中i，j∈[1，k]，卷积核窗口滑动取出的神经元输入记为A_ij其中i，j∈[1，k]，则卷积层神经单元输出O_i如下：

(4)对于Relu层，Relu为激活函数层；Relu模拟的是脑神经元在接收信号时只有很少一部分脑神经元被激活，具有很强的稀疏性，传统激活函数logistic-sigmoid和tanh-sigmoid函数则不具有神经元抑制性；Relu函数使用的函数形式与softplus(x)＝log(1+exp(x))近似的g(x)＝max(0,x)；其原理为在给定一个输入x时，如果x<0则将x置0，否则x保持不变；

(5)对于池化层：第一层池化层采用的是max-pooling方式进行向下采样，核大小为3*3，步长为2；第二层池化层采用与第一层相同的方式进行向下采样；第三层池化层采用的是mean-pooling方式进行向下采样，核大小为3*3，步长也为2；为方便设核大小为k*k,步长为s,D_ij其中i，j∈[1，k]为池化层核窗口取到的输入的数据，函数f表示池化层进行的操作，Output表示池化层每个神经单元的输出；则公式如下：

其中max-pooling池化层向下采样的操作中：函数f的工作就是从窗口取出的数据中找到最大值作为池化层当前单元的输出；

步骤8：训练深层卷积神经网络，GLOBAL数据集中的场景图像经过预处理后，用其输入步骤7中的神经网络模型进行训练；

(1)深层卷积神经网络模型的前馈阶段；

初始深度卷积网络模型的参数初始化采用的方法是：输入的场景样本图像输入一个三层的神经网络，输入的是图像的数据，中间是神经元数为样本图像宽的隐含层，输出层是和输入层具有相同的神经元数；将样本本身作为标签数据对神经网络进行训练，得到神经网络的参数；

(2)训练网络的反馈阶段

设GLOBAL场景图像数据集中的样本为[(X₁,P₁),(X₂,P₂),...,(X_m,P_m)]，样本数为m，场景图像的类别为n，其中X为样本图像数据，P为标签数据；深度神经网络第l层神经元记为A^l，第l层的第i个神经元的输出记为A_i ^l，第l层神经元权值参数为W^l，偏置参数为b^l，则其下一层计算公式如下：

训练深层卷积神经网络采用的代价计算函数如下：

其中f_W,b(X_i)为第i,i∈(1,m)个样本图像经过深层卷积神经网络的输出；W,b分别为卷积神经网络待训练的权值参数和偏置参数；P_i为第i个样本图像的标签数据；

步骤9：将数据集中图像分别输入到步骤5中的分类模型和步骤8中的深层卷积神经网络模型中，并分别的到场景图像的n个输出，将这两个输出组合成一个2n的特征向量，这样就得到数据为2n的特征向量集合，数据的标签不变；将得到的特征向量集合去训练一个神经网络分类器。

7.根据权利要求6所述的基于深层卷积神经网络的机器人工作场景识别方法，其特征在于：步骤5中SIFT特征提取具体过程如下：

(1)检测PARTIAL数据集中场景图像的极值点；

(3)确定关键点的方向参数，以特征点作为中心点的周围领域，计算领域像素点的的梯度方向直方图，将该梯度方向直方图的峰值作为该SIFT特征点梯度的主方向；

梯度幅值确定方式为：

梯度方向为：

上两式中分别表示了图像空间坐标(x,y)处梯度的幅值和方向，其中L表示关键点所在的空间尺度函数；

8.根据权利要求6所述的基于深层卷积神经网络的机器人工作场景识别方法，其特征在于：步骤8中根据梯度下降法对网络模型进行迭代更新参数进行调优，参数更新的公式如下：

其中α为网络的学习速率；训练网络模型得到一组参数θ(W,b)使得代价函数J(W,b,X,P)最小，W为网络权值b为网络偏置，X为样本数据集，P为样本集的标签数据，其中为网络中l层的j号神经单元与其下一层i号神经单元之间的权值参数。

9.根据权利要求6所述的基于深层卷积神经网络的机器人工作场景识别方法，其特征在于：步骤9中具体的分类器包含三层结构，长度为2n的输入层，长度为n的输出层，以及一个长度为3n的隐含层；训练完成与BOF分类模型以及深层卷积神经网络模型结合组成整体的场景图像分类的深度神经网络。