CN106446930B - 基于深层卷积神经网络的机器人工作场景识别方法 - Google Patents
基于深层卷积神经网络的机器人工作场景识别方法 Download PDFInfo
- Publication number
- CN106446930B CN106446930B CN201610617218.0A CN201610617218A CN106446930B CN 106446930 B CN106446930 B CN 106446930B CN 201610617218 A CN201610617218 A CN 201610617218A CN 106446930 B CN106446930 B CN 106446930B
- Authority
- CN
- China
- Prior art keywords
- layer
- image
- scene
- robot
- feature
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/23—Clustering techniques
- G06F18/232—Non-hierarchical techniques
- G06F18/2321—Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions
- G06F18/23213—Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions with fixed number of clusters, e.g. K-means clustering
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
- G06V10/46—Descriptors for shape, contour or point-related descriptors, e.g. scale invariant feature transform [SIFT] or bags of words [BoW]; Salient regional features
- G06V10/462—Salient features, e.g. scale invariant feature transforms [SIFT]
Landscapes
- Engineering & Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- General Physics & Mathematics (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Evolutionary Biology (AREA)
- Evolutionary Computation (AREA)
- Bioinformatics & Computational Biology (AREA)
- General Engineering & Computer Science (AREA)
- Artificial Intelligence (AREA)
- Life Sciences & Earth Sciences (AREA)
- Probability & Statistics with Applications (AREA)
- Multimedia (AREA)
- Image Analysis (AREA)
- Image Processing (AREA)
Abstract
基于深层卷积神经网络的机器人工作场景识别方法,其包括采集机器人工作场景视频;提取工作场景视频中的场景图像作为原始场景图像数据集;对原始工作场景图像进行归一化处理;对机器人工作场景数据集进行去均值化等预处理;提取机器人工作场景数据集PARTIAL场景图像的SIFT特征;提取机器人工作场景数据集GLOBAL中场景图像的卷积层特征以及池化层特征;机器人工作场景图像分别通过特征词袋分类模型和深度神经网络模型得到长度为n的输出,将这两个输出结合成的向量作为样本数据,然后训练一个三层的神经网络,得到最终机器人工作场景的分类结果,其实现机器人在环境场景中,通过摄像头采集图像,并把该图像作为输入至训练好的分类器,提高机器人场景识别精度。
Description
技术领域
本发明属于机器学习领域,涉及图像处理领域,特别涉及一种基于深层卷积神经网络的机器人工作环境场景识别方法。
背景技术
机器人研究领域中,机器人环境感知研究是一个吸引众多研究者的极具挑战性的课题。机器人环境感知是机器人环境建模、定位以及导航等领域的基础研究方向,机器人环境感知的研究既是研究出能够使机器人能够识别或获取当前工作环境信息数据并根据获取到的数据完成机器人任务的方法;在机器人环境感知领域中一个重要的方向为机器工作环境的场景识别。在机器人领域中,机器人场景识别目的与广义的图像识别相同,其目标都为是机器人具有通过理解当前图像包含的内容而判断出图像所属类别的能力;场景识别的具体目标为机器人在实际场景中采集一些图像,机器人可通过这些图像判断出机器人当前所属场景的类别。目前场景识别已经被广泛的应用在机器人、互联网、视频监控等诸多领域,因此吸引众多学者对其进行研究。
场景识别又称场景分类以及场景感知。不同于广义的图像分类,同一场景图像类别内的变化非常复杂,不同场景图像类别内构成对象的差异突出,这就造成同种场景分类的方法在不同场景数据集中得出的结果差异很大;这一问题室内场景分类中显现的更加突出。其原因在与在室内场景中,其布局非常复杂和多样,造成机器人在同一场景的不同位置采集的图像差别巨大,同一场景不同拍摄角度和不同光照、遮挡、分辨率等问题都会造成同类室内场景图像之间的差别巨大,对场景分类问题造成困难。
目前,现有的图像场景分类方法其主要步骤分为两步,首先提取场景图像特征,如SIFT(特征包括尺度不变特征)、颜色直方图、HOG(梯度直方图);其次利用从大量场景图像中提取出来的特征训练一个分类器;由于场景图像具有很强的空间布局性,这种空间布局信息非常有利于场景分类。
场景分类的提取图像特征步骤中,无论是场景图像的全景特征还是局部特征的选取都需要实验者一定的经验,能选取好的特征非常不易,并且同一种特征可能出现对于一种场景类别有较好的效果,但是应用其他场景效果并不好。一种提取特征方法只能提取一种图像特征,但在场景分类问题中数据量大,这无疑给手动提取图像特征增加难度。
发明内容
发明目的:
针对场景识别现有方法不足,提出一种结合特征词袋模型的深层卷积神经网络的机器人工作场景识别方法,其目的是解决以往所存在的问题。
技术方案:本发明所采用的技术方案如下:
一种基于深层卷积神经网络的机器人工作场景识别方法,其特征在于:所述方法包括:
(1)、控制机器人采集其工作场景视频;
(2)、使用关键帧提取的方法提取机器人工作场景视频中的场景图像作为原始场景图像数据集;
(3)、对原始机器人工作场景图像进行归一化处理;
(4)对机器人工作场景数据集进行去均值化等预处理;
(5)、提取机器人工作场景数据集PARTIAL场景图像的SIFT特征,聚类生成SIFT特征中心,得到特征字典,计算场景图像在特征字典上的直方图向量,以此特征向量加上标签数据作为样本数据训练分类器,得到机器人工作场景的特征词袋分类模型;
(6)、提取机器人工作场景数据集GLOBAL中场景图像的卷积层特征以及池化层特征,使用这些特征经过全连接层进行分类器训练以及测试,得到深层卷积神经网络分类模型;
(7)、机器人工作场景图像分别通过特征词袋分类模型和深度神经网络模型得到长度为n的输出(设场景类别为n),将这两个输出结合成2n的向量作为样本数据,然后训练一个三层的神经网络,得到最终机器人工作场景的分类结果。
(3)步骤中的归一化处理包括:
1)、对原始机器人工作场景图像数据集,进行大小归一化为m*m,得到机器人工作场景数据集GLOBAL;具体步骤如下:
a)、将机器人工作场景图像的较短边(设为w)按照的比例放大缩小;
b)、将机器人工作场景图像的长边(设为h)按照的比例放大缩小;
c)、对于步骤b)中长边缩小放大后会大于m,因此继续使用m*m的窗口从放大缩小后的图像中截取目的大小的图片;此方法归一化图像大小可保留图像的宽高比例,保留了机器人工作场景的结构特征;
2)、对原始机器人工作场景图像数据集中给的场景图像做m*m窗口滑动截取操作生成数据集PARTIAL,具体步骤如下:
a)、使用m*m的滑动窗口从左向右(从上到下)裁截取原场景图像中的一部分,滑动步长为m,窗口滑动到最后不足m图像部分则窗口以图片边缘对齐,向图片内侧扩展补齐不足部分,将每个窗口截取到的图片加入到场景图像数据集PARTIAL中。过程示意图见附图2。
步骤(6)中深层卷积神经网络结构包括一个输入层、五个卷积层、五个激活函数Relu层、三个池化层、三个全连接层和最后一个输出层;
五个卷积层记为Conv1~Conv5,五个激活函数Relu层记为Relu1~Relu5,三个池化层记为Pool1,Pool2,Pool5,三个全连接层记为Fc1~Fc5,最后一个输出层即为output,每个Relu层在卷积层之后,每个池化层依次在第1、2、5个Relu层之后。
(1).对于卷积层,前两层卷积层的滤波器的核大为11*11与5*5,其余三层卷积层核大小为3*3;
(2).对于池化层:第一层池化层采用的是max-pooling方式进行向下采样,核大小为3*3,步长为2;第二层池化层采用与第一层相同的方式进行向下采样;第三层池化层采用的是mean-pooling方式进行向下采样,核大小为3*3,步长也为2。
步骤(7)深层卷积神经网络结构模型的输出和特征词袋模型的输出结合成2n的特征向量,将这2n的特征向量输入到神经网络进行分类;该神经网络中包含三层结构,即长度为2n的输入层、长度为n的输出层以及一个长度为3n的隐含层,层之间神经元是全连接。
优点效果:
本发明提供一种基于深层卷积神经网络的机器人工作场景识别方法,本发明实现机器人在环境场景中,通过摄像头采集图像,并把该图像作为输入至训练好的分类器,可提高机器人场景识别精度。其很好的解决了以往所存在的问题。
附图说明:
图1是场景图像大小归一化示意图;
图2是数据集PARTIAL以滑动窗口m*m截取场景图像示意图;
图3是深层卷积神经网络结构模型示意图;
图4特征词袋分类模型和深度神经网络模型组合后特征分类器示意图;
图5为本发明的流程图。
具体实施方案:
步骤1:采集机器人工作场景的图像数据集,具体步骤:
(1)建立远程计算机与机器人上位工控机之间的局域网,用远程计算机控制机器人以控制机器人行动;
(2)将视频采集器固定在在机器上80公分的高度上,已达到较好的视频采集角度;
(3)建立机器人工控机与视频采集器的连接,建立远程计算机控制机器人工控机运动;
(4)控制机器人在每个场景中运动,保证机器人工作场景每个角度都能采集到视频数据,机器人在每个场景采集到的视频数据保存为不同的视频文件;
(5)处理每个场景视频文件,用视频的关键帧提取方法提取出机器人工作场景的图像,将每个视频提取到的图像作为该场景的样本集,并加上机器人工作场景的标签数据,将这些样本集集合得到场景数据集。
步骤2:建立机器人工作环境的数据集,具体如下:
将机器人工作场景图像训练集和测试集进行预处理。(场景图像大小为M*N,假设M>N)。对每幅场景图像进行裁剪缩小等操作,对场景图像进行归一化成大小为s*s的图像;具体操作为如下:
(1)对原场景图像进行缩小操作:对原场景图像中N按比例缩小成s;M按比例N/s缩小为m(m>s);然后对缩小后的M边进行裁剪,去掉两边多于s的部分;示意图见附图1。将处理得到的s*s的场景图像加上场景标签添加到数据集GLOBAL。
(2)使用s*s的滑动窗口从左向右(从上到下)裁截取原场景图像中的一部分,滑动步长为s,窗口滑动到最后不足s图像部分则窗口以图片边缘对齐,向图片内侧扩展补齐不足部分,将每个窗口截取到的图片加入到场景图像数据集PARTIAL中。过程示意图见附图2。
步骤3:去除数据集中场景图像的亮度的影响,对数据集中图像进行去均值处理。具体处理如下:
(1)计算场景图像数据集中每个图像像素的均值,计算公式如下:
其中Xi为第i个像素点的像素值(i∈[0,M*N]),M、N为图像的宽高,为每张场景图像中像素的平均值。
(2)逐个扫描数据集中场景图像,每个像素减去求得的均值得到去均值之后的场景图像
步骤4:随机在数据集PARTIAL中场景图像中截取小图像块,计算小图像块的SIFT特征,得到数据集图像的特征集合,使用k-means聚类生成对这些特征集合进行聚类,得到特征字典,计算场景图像的SIFT在特征字典上的直方图,将此直方图作为该场景图像的整体特征。将该图像特征输入分类器,进行训练,该分类器的输出个数是场景的类别数量。SIFT特征提取具体过程如下:
(1)检测PARTIAL数据集中场景图像的极值点;
(2)获取图像的候选特征点,然后对特征候选点做稳定性检测处理操作,保留那些具有高噪声敏感度的特征点作为SIFT特征点;
(3)确定关键点的方向参数,以特征点作为中心点的周围领域,计算领域像素点的的梯度方向直方图,将该梯度方向直方图的峰值作为该SIFT特征点梯度的主方向。
梯度幅值确定方式为:
梯度方向为:
上两式中分别表示了图像空间坐标(x,y)处梯度的幅值和方向,其中L表示关键点所在的空间尺度函数。
(4)在4*4的小块上计算8个方向的梯度直方图,生成SIFT特征向量。
步骤5:将提取的场景图像数据集进行训练样本集和测试集划分,85%作为训练集,15%作为测试集。
步骤6:构建深层卷积神经网络,示意图见附图3,具体过程如下:
(1)本发明的深层卷积神经网络结构包括一个输入层,卷积层五个(记为Conv1~Conv5),五个激活函数Relu层(记为Relu1~Relu5),3个池化层(记为Pool1,Pool2,Pool5),三个全连接层(记为Fc1~Fc5)和最后一个输出层(即为output)。每个Relu层在卷积层之后,每个池化层依次在第1、2、5个Relu层之后。
(2)对于输入层,GLOBAL数据集中经过预处理的图像的像素RGB三通道的值作为深层卷积神经网络的输入,输入矩阵大小为s*s*3;
(3)对于卷积层,前两层卷积层的滤波器的核大为11*11与5*5,其余三层卷积层核大小为3*3;为方便设卷积层核大小为k*k,滑动步长(stride)为s,数据pad为p,其上一层输入大小为N*N,则经过卷积层后下一层的输出为(N-k-2*p)/s+1;具体的:
卷积层核参数记为Wij(i,j∈[1,k]),卷积核窗口滑动取出的神经元输入记为Aij(i,j∈[1,k]),则卷积层神经单元输出Oi如下:
(4)对于Relu层,Relu为激活函数层;Relu模拟的是脑神经元在接收信号时只有很少一部分脑神经元被激活,具有很强的稀疏性,传统激活函数logistic-sigmoid和tanh-sigmoid函数则不具有神经元抑制性。Relu函数使用的函数形式与softplus(x)=log(1+exp(x))近似的g(x)=max(0,x);其原理为在给定一个输入x时,如果x<0则将x置0,否则x保持不变。
(5)对于池化层:第一层池化层采用的是max-pooling方式进行向下采样,核大小为3*3,步长为2;第二层池化层采用与第一层相同的方式进行向下采样;第三层池化层采用的是mean-pooling方式进行向下采样,核大小为3*3,步长也为2;为方便设核大小为k*k,步长为s,Dij(i,j∈[1,k])为池化层核窗口取到的输入的数据,函数f表示池化层进行的操作,Output表示池化层每个神单元的输出。则公式如下:
其中max-pooling池化层向下采样的操作中:函数f的工作就是从窗口取出的数据中找到最大值作为池化层当前单元的输出。
其中mean-pooling池化层向下采样的操作中:函数f的工作就是从窗口取出的数据中求平均值作为池化层当前单元的输出,计算公式如下:
步骤7:训练深层卷积神经网络,GLOBAL数据集中的场景图像经过预处理后,用其输入步骤6中的神经网络模型进行训练。
(1)深层卷积神经网络模型的前馈阶段;
初始深度卷积网络模型的参数初始化采用的方法是:输入的场景样本图像输入一个三层的神经网络,输入的是图像的数据,中间是神经元数为样本图像宽的隐含层,输出层是和输入层具有相同的神经元数;将样本本身作为标签数据对神经网络进行训练,得到神经网络的参数。
(2)训练网络的反馈阶段
设GLOBAL场景图像数据集中的样本为[(X1,P1),(X2,P2),...,(Xm,Pm)],样本数为m,场景图像的类别为n,其中X为样本图像数据,P为标签数据;深度神经网络第l层神经元记为Al,第l层的第i个神经元的输出记为第l层神经元权值参数为Wl,偏置参数为bl,则其下一层计算公式如下:
训练深层卷积神经网络才用的代价计算函数如下:
其中fW,b(Xi)为第i,i∈(1,m)个样本图像经过深层卷积神经网络的输出;W,b分别为卷积神经网络待训练的权值参数和偏置参数;Pi为第i个样本图像的标签数据。
根据梯度下降法对网络模型进行迭代更新参数进行调优,参数更新的公式如下:
其中α为网络的学习速率;训练网络模型得到一组参数θ(W,b)使得代价函数J(W,b,X,Y)最小,W为网络权值b为网络偏置,X为样本数据集,Y为样本集的标签数据,其中为网络中l层的j号神经单元与其下一层i号神经单元之间的权值参数。
步骤8:将GLOBAL场景图像数据集中的数据分别输入值步骤4中得到的BOF模型中得到n(场景类别个数)个输出和输入到步骤7训练得到的深层卷积神经网络中的到n(场景类别个数)个输出。将这两个输出组合成一个2n的特征向量,这样就得到数据为2n的特征向量集合,数据的标签不变;将得到的特征向量集合去训练一个神经网络分类器。具体的分类器包含三层结构,长度为2n的输入层,长度为n的输出层,以及一个长度为3n的隐含层。训练完成与BOF分类模型以及深层卷积神经网络模型结合组成整体的场景图像分类的深度神经网络。其网络模型结构见附图4。
Claims (9)
1.一种基于深层卷积神经网络的机器人工作场景识别方法,其特征在于:所述方法包括:
(1)、控制机器人采集其工作场景视频;
(2)、使用关键帧提取的方法提取机器人工作场景视频中的场景图像作为原始场景图像数据集;
(3)、对原始机器人工作场景图像进行归一化处理;
(4)、对机器人工作场景数据集进行去均值化预处理;
(5)、提取机器人工作场景数据集PARTIAL场景图像的SIFT特征,聚类生成SIFT特征中心,得到特征字典,计算场景图像在特征字典上的直方图向量,以此特征向量加上标签数据作为样本数据训练分类器,得到机器人工作场景的特征词袋分类模型;
(6)、提取机器人工作场景数据集GLOBAL中场景图像的卷积层特征以及池化层特征,使用这些特征经过全连接层进行分类器训练以及测试,训练之后得到深层卷积神经网络分类模型;
(7)、机器人工作场景图像分别通过特征词袋分类模型和深层卷积神经网络分类模型得到长度为n的输出,设场景类别为n,将这两个输出结合成2n的向量作为样本数据,然后训练一个三层的神经网络,得到最终机器人工作场景的分类结果。
2.根据权利要求1所述的基于深层卷积神经网络的机器人工作场景识别方法,其特征在于:(3)步骤中的归一化处理包括:
1)、对原始机器人工作场景图像数据集,进行大小归一化为m*m,得到机器人工作场景数据集GLOBAL;具体步骤如下:
a)、将机器人工作场景图像的较短边设为w,按照的比例放大缩小;
b)、将机器人工作场景图像的长边设为h,按照的比例放大缩小;
c)、对于步骤b)中长边缩小放大后会大于m,因此继续使用m*m的窗口从放大缩小后的图像中截取目的大小的图片;此方法归一化图像大小可保留图像的宽高比例,保留了机器人工作场景的结构特征;
2)、对原始机器人工作场景图像数据集中给的场景图像做m*m窗口滑动截取操作生成数据集PARTIAL,具体步骤如下:
a)、使用m*m的滑动窗口从左向右或从上到下裁截取原场景图像中的一部分,滑动步长为m,窗口滑动到最后不足m图像部分则窗口以图片边缘对齐,向图片内侧扩展补齐不足部分,将每个窗口截取到的图片加入到场景图像数据集PARTIAL中。
3.根据权利要求1所述的基于深层卷积神经网络的机器人工作场景识别方法,其特征在于:步骤(6)中深层卷积神经网络结构包括一个输入层、五个卷积层、五个激活函数Relu层、三个池化层、三个全连接层和最后一个输出层;
五个卷积层记为Conv1~Conv5,五个激活函数Relu层记为Relu1~Relu5,三个池化层记为Pool1,Pool2,Pool5,三个全连接层记为Fc1~Fc3,最后一个输出层即为output,每个Relu层在卷积层之后,每个池化层依次在第1、2、5个Relu层之后。
4.根据权利要求3所述的基于深层卷积神经网络的机器人工作场景识别方法,其特征在于:
(1).对于卷积层,前两层卷积层的滤波器的核大为11*11与5*5,其余三层卷积层核大小为3*3;
(2).对于池化层:第一层池化层采用的是max-pooling方式进行向下采样,核大小为3*3,步长为2;第二层池化层采用与第一层相同的方式进行向下采样;第三层池化层采用的是mean-pooling方式进行向下采样,核大小为3*3,步长也为2。
5.根据权利要求1所述的基于深层卷积神经网络的机器人工作场景识别方法,其特征在于:
步骤(7)深层卷积神经网络分类模型的输出和特征词袋模型的输出结合成2n的特征向量,将这2n的特征向量输入到神经网络进行分类;该神经网络中包含三层结构,即长度为2n的输入层、长度为n的输出层以及一个长度为3n的隐含层,层之间神经元是全连接。
6.根据权利要求1所述的基于深层卷积神经网络的机器人工作场景识别方法,其特征在于:
步骤1:采集机器人工作场景的图像数据集,具体步骤:
(1)建立远程计算机与机器人上位工控机之间的局域网,用远程计算机控制机器人以控制机器人行动;
(2)将视频采集器固定在机器上80公分的高度上,已达到较好的视频采集角度;
(3)建立机器人工控机与视频采集器的连接,建立远程计算机控制机器人工控机运动;
(4)控制机器人在每个场景中运动,保证机器人工作场景每个角度都能采集到视频数据,机器人在每个场景采集到的视频数据保存为不同的视频文件;
(5)处理每个场景视频文件,用视频的关键帧提取方法提取出机器人工作场景的图像,将每个视频提取到的图像作为该场景的样本集,并加上机器人工作场景的标签数据,将这些样本集集合得到场景数据集;
步骤2:建立机器人工作环境的数据集,具体如下:
将机器人工作场景图像训练集和测试集进行预处理,场景图像大小为M*N,假设M>N,对每幅场景图像进行裁剪缩小操作;
步骤3:对场景图像进行归一化成大小为s*s的图像;具体操作为如下:
(1)、对原场景图像进行缩小操作:对原场景图像中N按比例缩小成s;M按比例N/s缩小为m,m>s;然后对缩小后的M边进行裁剪,去掉两边多于s的部分;将处理得到的s*s的场景图像加上场景标签添加到数据集GLOBAL;
(2)使用s*s的滑动窗口从左向右或从上到下裁截取原场景图像中的一部分,滑动步长为s,窗口滑动到最后不足s图像部分则窗口以图片边缘对齐,向图片内侧扩展补齐不足部分,将每个窗口截取到的图片加入到场景图像数据集PARTIAL中;
步骤:4:去除数据集中场景图像的亮度的影响,对数据集中图像进行去均值处理,具体处理如下:
(1)计算场景图像数据集中每个图像像素的均值,计算公式如下:
其中Xi为第i个像素点的像素值,i∈[0,M*N],M、N为图像的宽高,为每张场景图像中像素的平均值;
(2)、逐个扫描数据集中场景图像,每个像素减去求得的均值得到去均值之后的场景图像;
步骤5:随机在数据集PARTIAL中场景图像中截取小图像块,计算小图像块的SIFT特征,得到数据集图像的特征集合,使用k-means聚类生成对这些特征集合进行聚类,得到特征字典,计算场景图像的SIFT在特征字典上的直方图,将此直方图作为该场景图像的整体特征;将该图像特征输入分类器,进行训练,该分类器的输出个数是场景的类别数量;
步骤6:将提取的场景图像数据集进行训练样本集和测试集划分,85%作为训练集,15%作为测试集;
步骤7:构建深层卷积神经网络,具体过程如下:
(1)所述的深层卷积神经网络结构包括一个输入层,卷积层五个记为Conv1~Conv5,五个激活函数Relu层记为Relu1~Relu5,三个池化层记为Pool1、Pool2和Pool5,三个全连接层记为Fc1~Fc3,最后一个输出层即为output;每个Relu层在卷积层之后,每个池化层依次在第1、2、5个Relu层之后;
(2)对于输入层,GLOBAL数据集中经过预处理的图像的像素RGB三通道的值作为深层卷积神经网络的输入,输入矩阵大小为s*s*3;
(3)对于卷积层,前两层卷积层的滤波器的核大为11*11与5*5,其余三层卷积层核大小为3*3;为方便设卷积层核大小为k*k,滑动步长为s,数据pad为p,其上一层输入大小为N*N,则经过卷积层后下一层的输出为(N-k-2*p)/s+1;具体的:
卷积层核参数记为Wij其中i,j∈[1,k],卷积核窗口滑动取出的神经元输入记为Aij其中i,j∈[1,k],则卷积层神经单元输出Oi如下:
(4)对于Relu层,Relu为激活函数层;Relu模拟的是脑神经元在接收信号时只有很少一部分脑神经元被激活,具有很强的稀疏性,传统激活函数logistic-sigmoid和tanh-sigmoid函数则不具有神经元抑制性;Relu函数使用的函数形式与softplus(x)=log(1+exp(x))近似的g(x)=max(0,x);其原理为在给定一个输入x时,如果x<0则将x置0,否则x保持不变;
(5)对于池化层:第一层池化层采用的是max-pooling方式进行向下采样,核大小为3*3,步长为2;第二层池化层采用与第一层相同的方式进行向下采样;第三层池化层采用的是mean-pooling方式进行向下采样,核大小为3*3,步长也为2;为方便设核大小为k*k,步长为s,Dij其中i,j∈[1,k]为池化层核窗口取到的输入的数据,函数f表示池化层进行的操作,Output表示池化层每个神经单元的输出;则公式如下:
其中max-pooling池化层向下采样的操作中:函数f的工作就是从窗口取出的数据中找到最大值作为池化层当前单元的输出;
其中mean-pooling池化层向下采样的操作中:函数f的工作就是从窗口取出的数据中求平均值作为池化层当前单元的输出,计算公式如下:
步骤8:训练深层卷积神经网络,GLOBAL数据集中的场景图像经过预处理后,用其输入步骤7中的神经网络模型进行训练;
(1)深层卷积神经网络模型的前馈阶段;
初始深度卷积网络模型的参数初始化采用的方法是:输入的场景样本图像输入一个三层的神经网络,输入的是图像的数据,中间是神经元数为样本图像宽的隐含层,输出层是和输入层具有相同的神经元数;将样本本身作为标签数据对神经网络进行训练,得到神经网络的参数;
(2)训练网络的反馈阶段
设GLOBAL场景图像数据集中的样本为[(X1,P1),(X2,P2),...,(Xm,Pm)],样本数为m,场景图像的类别为n,其中X为样本图像数据,P为标签数据;深度神经网络第l层神经元记为Al,第l层的第i个神经元的输出记为Ai l,第l层神经元权值参数为Wl,偏置参数为bl,则其下一层计算公式如下:
训练深层卷积神经网络采用的代价计算函数如下:
其中fW,b(Xi)为第i,i∈(1,m)个样本图像经过深层卷积神经网络的输出;W,b分别为卷积神经网络待训练的权值参数和偏置参数;Pi为第i个样本图像的标签数据;
步骤9:将数据集中图像分别输入到步骤5中的分类模型和步骤8中的深层卷积神经网络模型中,并分别的到场景图像的n个输出,将这两个输出组合成一个2n的特征向量,这样就得到数据为2n的特征向量集合,数据的标签不变;将得到的特征向量集合去训练一个神经网络分类器。
7.根据权利要求6所述的基于深层卷积神经网络的机器人工作场景识别方法,其特征在于:步骤5中SIFT特征提取具体过程如下:
(1)检测PARTIAL数据集中场景图像的极值点;
(2)获取图像的候选特征点,然后对特征候选点做稳定性检测处理操作,保留那些具有高噪声敏感度的特征点作为SIFT特征点;
(3)确定关键点的方向参数,以特征点作为中心点的周围领域,计算领域像素点的的梯度方向直方图,将该梯度方向直方图的峰值作为该SIFT特征点梯度的主方向;
梯度幅值确定方式为:
梯度方向为:
上两式中分别表示了图像空间坐标(x,y)处梯度的幅值和方向,其中L表示关键点所在的空间尺度函数;
(4)在4*4的小块上计算8个方向的梯度直方图,生成SIFT特征向量。
8.根据权利要求6所述的基于深层卷积神经网络的机器人工作场景识别方法,其特征在于:步骤8中根据梯度下降法对网络模型进行迭代更新参数进行调优,参数更新的公式如下:
其中α为网络的学习速率;训练网络模型得到一组参数θ(W,b)使得代价函数J(W,b,X,P)最小,W为网络权值b为网络偏置,X为样本数据集,P为样本集的标签数据,其中为网络中l层的j号神经单元与其下一层i号神经单元之间的权值参数。
9.根据权利要求6所述的基于深层卷积神经网络的机器人工作场景识别方法,其特征在于:步骤9中具体的分类器包含三层结构,长度为2n的输入层,长度为n的输出层,以及一个长度为3n的隐含层;训练完成与BOF分类模型以及深层卷积神经网络模型结合组成整体的场景图像分类的深度神经网络。
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN2016104825375 | 2016-06-28 | ||
CN201610482537 | 2016-06-28 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN106446930A CN106446930A (zh) | 2017-02-22 |
CN106446930B true CN106446930B (zh) | 2019-11-22 |
Family
ID=58184408
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201610617218.0A Expired - Fee Related CN106446930B (zh) | 2016-06-28 | 2016-08-01 | 基于深层卷积神经网络的机器人工作场景识别方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN106446930B (zh) |
Families Citing this family (38)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106919920B (zh) * | 2017-03-06 | 2020-09-22 | 重庆邮电大学 | 基于卷积特征和空间视觉词袋模型的场景识别方法 |
CN106951473B (zh) * | 2017-03-06 | 2019-11-26 | 浙江大学 | 面向视觉障碍人士的深度视觉问答系统的构建方法 |
WO2018184204A1 (en) * | 2017-04-07 | 2018-10-11 | Intel Corporation | Methods and systems for budgeted and simplified training of deep neural networks |
CN106991451A (zh) * | 2017-04-14 | 2017-07-28 | 武汉神目信息技术有限公司 | 一种证件图片的识别系统及方法 |
CN107169454B (zh) * | 2017-05-16 | 2021-01-01 | 中国科学院深圳先进技术研究院 | 一种人脸图像年龄估算方法、装置及其终端设备 |
CN107316064B (zh) * | 2017-06-26 | 2020-07-14 | 长安大学 | 一种基于卷积神经网络的沥青路面裂缝分类识别方法 |
CN107316295A (zh) * | 2017-07-02 | 2017-11-03 | 苏州大学 | 一种基于深度神经网络的织物瑕疵检测方法 |
CN109284749A (zh) * | 2017-07-19 | 2019-01-29 | 微软技术许可有限责任公司 | 精细化图像识别 |
CN107491733A (zh) * | 2017-07-19 | 2017-12-19 | 南京农业大学 | 一种基于深度神经网络的菊花识别方法 |
CN107688856B (zh) * | 2017-07-24 | 2020-11-06 | 清华大学 | 基于深度强化学习的室内机器人场景主动识别方法 |
CN107292885A (zh) * | 2017-08-08 | 2017-10-24 | 广东工业大学 | 一种基于自动编码器的产品缺陷分类识别方法及装置 |
CN107578067A (zh) * | 2017-09-15 | 2018-01-12 | 国家烟草质量监督检验中心 | 一种基于卷积神经网络的烟丝组分识别方法及装置 |
CN107610146B (zh) * | 2017-09-29 | 2021-02-23 | 北京奇虎科技有限公司 | 图像场景分割方法、装置、电子设备及计算机存储介质 |
CN107766838B (zh) * | 2017-11-08 | 2021-06-01 | 央视国际网络无锡有限公司 | 一种视频场景切换检测方法 |
CN108241433B (zh) * | 2017-11-27 | 2019-03-12 | 王国辉 | 疲劳度解析平台 |
CN108154156B (zh) * | 2017-11-30 | 2021-11-12 | 兰州理工大学 | 基于神经主题模型的图像集成分类方法及装置 |
WO2019109268A1 (zh) * | 2017-12-06 | 2019-06-13 | 中国科学院自动化研究所 | 基于强化学习的图片自动裁剪的方法及装置 |
CN108053815A (zh) * | 2017-12-12 | 2018-05-18 | 广州德科投资咨询有限公司 | 一种机器人的演奏控制方法及机器人 |
CN108122003A (zh) * | 2017-12-19 | 2018-06-05 | 西北工业大学 | 一种基于深度神经网络的弱小目标识别方法 |
CN108154134B (zh) * | 2018-01-11 | 2019-07-23 | 天格科技(杭州)有限公司 | 基于深度卷积神经网络的互联网直播色情图像检测方法 |
CN108288038A (zh) * | 2018-01-19 | 2018-07-17 | 东华大学 | 基于场景分割的夜间机器人运动决策方法 |
CN108345846A (zh) * | 2018-01-29 | 2018-07-31 | 华东师范大学 | 一种基于卷积神经网络的人体行为识别方法及识别系统 |
CN110198471A (zh) * | 2018-02-27 | 2019-09-03 | 北京猎户星空科技有限公司 | 异常识别方法、装置、智能设备及存储介质 |
CN110298210B (zh) * | 2018-03-21 | 2022-07-19 | 北京猎户星空科技有限公司 | 一种基于视觉进行异常判断的方法和装置 |
GB2574372B (en) * | 2018-05-21 | 2021-08-11 | Imagination Tech Ltd | Implementing Traditional Computer Vision Algorithms As Neural Networks |
CN108776779B (zh) * | 2018-05-25 | 2022-09-23 | 西安电子科技大学 | 基于卷积循环网络的sar序列图像目标识别方法 |
CN109035267B (zh) * | 2018-06-22 | 2021-07-27 | 华东师范大学 | 一种基于深度学习的图像目标抠取方法 |
CN108898177A (zh) * | 2018-06-26 | 2018-11-27 | 广东电网有限责任公司 | 一种输电线路走廊地表分类方法、系统、介质及设备 |
CN108921218B (zh) * | 2018-06-29 | 2022-06-24 | 炬大科技有限公司 | 一种目标物体检测方法及装置 |
CN109117773B (zh) * | 2018-08-01 | 2021-11-02 | Oppo广东移动通信有限公司 | 一种图像特征点检测方法、终端设备及存储介质 |
CN111104830A (zh) | 2018-10-29 | 2020-05-05 | 富士通株式会社 | 用于图像识别的深度学习模型、该模型的训练装置及方法 |
CN114424916A (zh) * | 2018-11-01 | 2022-05-03 | 北京石头创新科技有限公司 | 清洁模式选择方法,智能清洁设备,计算机存储介质 |
CN109447030A (zh) * | 2018-11-12 | 2019-03-08 | 重庆知遨科技有限公司 | 一种用于火灾场景的消防机器人动作实时指导算法 |
CN110084198B (zh) * | 2019-04-28 | 2022-07-12 | 哈尔滨工程大学 | 基于Fisher特征分析的CNN机场室内场景识别方法 |
CN113076965A (zh) * | 2020-01-06 | 2021-07-06 | 广州中国科学院先进技术研究所 | 一种基于云端的服务机器人场景分类系统及方法 |
CN113298087B (zh) * | 2021-04-29 | 2022-11-18 | 上海淇玥信息技术有限公司 | 图片分类模型冷启动的方法、系统、装置及介质 |
CN113233270A (zh) * | 2021-06-15 | 2021-08-10 | 上海有个机器人有限公司 | 基于机器人行驶安全的电梯内外判断方法及相关设备 |
CN116549529A (zh) * | 2023-06-08 | 2023-08-08 | 吉林大学 | 具有抗疲劳功效的组合物及其制备方法 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
EP2249292A1 (en) * | 2009-04-03 | 2010-11-10 | Siemens Aktiengesellschaft | Decision making mechanism, method, module, and robot configured to decide on at least one prospective action of the robot |
CN104915673A (zh) * | 2014-03-11 | 2015-09-16 | 株式会社理光 | 一种基于视觉词袋模型的目标分类方法和系统 |
CN105760488A (zh) * | 2016-02-17 | 2016-07-13 | 北京大学 | 基于多层次特征融合的图像表达方法和装置 |
Family Cites Families (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US8942917B2 (en) * | 2011-02-14 | 2015-01-27 | Microsoft Corporation | Change invariant scene recognition by an agent |
CN103544496B (zh) * | 2012-07-12 | 2016-12-21 | 同济大学 | 基于空间与时间信息融合的机器人场景识别方法 |
CN104376326B (zh) * | 2014-11-02 | 2017-06-16 | 吉林大学 | 一种用于图像场景识别的特征提取方法 |
CN104700078B (zh) * | 2015-02-13 | 2018-06-08 | 武汉工程大学 | 一种基于尺度不变特征极限学习机的机器人场景识别方法 |
-
2016
- 2016-08-01 CN CN201610617218.0A patent/CN106446930B/zh not_active Expired - Fee Related
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
EP2249292A1 (en) * | 2009-04-03 | 2010-11-10 | Siemens Aktiengesellschaft | Decision making mechanism, method, module, and robot configured to decide on at least one prospective action of the robot |
CN104915673A (zh) * | 2014-03-11 | 2015-09-16 | 株式会社理光 | 一种基于视觉词袋模型的目标分类方法和系统 |
CN105760488A (zh) * | 2016-02-17 | 2016-07-13 | 北京大学 | 基于多层次特征融合的图像表达方法和装置 |
Non-Patent Citations (1)
Title |
---|
基于场景识别的移动机器人定位方法研究;李桂芝 等;《机器人》;20050331;第27卷(第2期);第123-127页 * |
Also Published As
Publication number | Publication date |
---|---|
CN106446930A (zh) | 2017-02-22 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN106446930B (zh) | 基于深层卷积神经网络的机器人工作场景识别方法 | |
CN113065558B (zh) | 一种结合注意力机制的轻量级小目标检测方法 | |
Wang et al. | Actionness estimation using hybrid fully convolutional networks | |
CN109815785A (zh) | 一种基于双流卷积神经网络的人脸情绪识别方法 | |
CN107967451A (zh) | 一种利用多尺度多任务卷积神经网络对静止图像进行人群计数的方法 | |
CN107463920A (zh) | 一种消除局部遮挡物影响的人脸识别方法 | |
CN109800629A (zh) | 一种基于卷积神经网络的遥感图像目标检测方法 | |
CN107103277B (zh) | 一种基于深度相机和3d卷积神经网络的步态识别方法 | |
CN106650806A (zh) | 一种用于行人检测的协同式深度网络模型方法 | |
CN105678231A (zh) | 一种基于稀疏编码和神经网络的行人图片检测方法 | |
CN105160310A (zh) | 基于3d卷积神经网络的人体行为识别方法 | |
CN109902558A (zh) | 一种基于cnn-lstm的人体健康深度学习预测方法 | |
CN106909938B (zh) | 基于深度学习网络的视角无关性行为识别方法 | |
CN109543632A (zh) | 一种基于浅层特征融合引导的深层网络行人检测方法 | |
CN109145717A (zh) | 一种在线学习的人脸识别方法 | |
CN104134364B (zh) | 具有自我学习能力的实时交通标记识别方法及系统 | |
CN107180241A (zh) | 一种基于Gabor特征具有分形结构的极深神经网络的动物分类方法 | |
CN110163567A (zh) | 基于多任务级联卷积神经网络的课堂点名系统 | |
CN110222636B (zh) | 基于背景抑制的行人属性识别方法 | |
CN110929687A (zh) | 一种基于关键点检测的多人行为识别系统及工作方法 | |
CN109766873A (zh) | 一种混合可变形卷积的行人再识别方法 | |
Janku et al. | Fire detection in video stream by using simple artificial neural network | |
CN112001241A (zh) | 基于通道注意力机制的微表情识别方法及系统 | |
CN110334584A (zh) | 一种基于区域全卷积网络的手势识别方法 | |
CN109919246A (zh) | 基于自适应特征聚类和多重损失融合的行人重识别方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
CB03 | Change of inventor or designer information | ||
CB03 | Change of inventor or designer information |
Inventor after: Duan Yong Inventor after: Yu Xiangyou Inventor before: Duan Yong Inventor before: Sheng Dongliang |
|
GR01 | Patent grant | ||
GR01 | Patent grant | ||
CF01 | Termination of patent right due to non-payment of annual fee | ||
CF01 | Termination of patent right due to non-payment of annual fee |
Granted publication date: 20191122 Termination date: 20210801 |