CN105787510A

CN105787510A - 基于深度学习实现地铁场景分类的系统及方法

Info

Publication number: CN105787510A
Application number: CN201610107387.XA
Authority: CN
Inventors: 朱煜; 盖瑞敏; 郑兵兵; 叶炯耀
Original assignee: East China University of Science and Technology
Current assignee: East China University of Science and Technology
Priority date: 2016-02-26
Filing date: 2016-02-26
Publication date: 2016-07-20

Abstract

本发明涉及一种基于深度学习实现地铁场景分类的系统及方法，其中包括图像预处理模块，用以对地铁场景图像进行预处理；卷积神经网络提取图像特征模块，用以利用构建的卷积神经网络进行深度特征学习并提取图像特征；全连接网络场景分类模块，用以将从卷积神经网络学习到的优选特征输入全连接神经网络并进行分类从而得到样本的标签类别。采用该种结构的基于深度学习实现地铁场景分类的系统及方法，基于卷积神经网络提取地铁场景图片特征，并用单层全连接网络作为分类器，该方法无须对场景语义进行分析，即可实现对地铁不同场景图片的正确分类，鲁棒性强；该方法对地铁后续的运行状态监测工作有重要价值，具有更广泛的应用范围。

Description

基于深度学习实现地铁场景分类的系统及方法

技术领域

本发明涉及模式识别技术领域，尤其涉及卷积神经网络深度学习技术领域，具体是指一种基于深度学习实现地铁场景分类的系统及方法。

背景技术

地铁运行通道内工作环境较为复杂，场景多变，为保证能在不同的场景下检测地铁是否处于良好稳定工作状态，通常需要对不同的场景采用不同的检测方法，此时能准确区分地铁各种不同的场景显得尤为重要。而现有技术中的场景分类一般采用颜色、纹理、形状等底层特征或图像语义特征进行表征分类，但特征提取和计算分析往往鲁棒性不强。

发明内容

本发明的目的是克服了上述现有技术的缺点，提供了一种可实现对地铁不同场景图片的正确分类、鲁棒性强、对地铁后续的运行状态监测工作有重要价值的基于深度学习实现地铁场景分类的系统及方法。

为了实现上述目的，本发明的基于深度学习实现地铁场景分类的系统及方法具有如下构成：

该基于深度学习实现地铁场景分类的系统，其主要特点是，所述的系统包括：

图像预处理模块，用以对地铁场景图像进行预处理；

卷积神经网络提取图像特征模块，用以利用构建的卷积神经网络进行深度特征学习并提取图像特征；

全连接网络场景分类模块，用以将从卷积神经网络学习到的优选特征输入全连接神经网络并进行分类从而得到样本的标签类别。

本发明还涉及一种根据所述的系统基于深度学习实现地铁场景分类的方法，其特征在于，所述的方法包括以下步骤：

(1)所述的图像预处理模块对地铁场景图像进行预处理；

(2)所述的卷积神经网络提取图像特征模块利用构建的卷积神经网络进行深度特征学习并提取图像特征；

(3)所述的全连接网络分类模块将从卷积神经网络学习到的优选特征输入全连接神经网络并进行分类从而得到样本的标签类别。

较佳地，所述的对地铁场景图像进行预处理，包括以下步骤：

(1-1)将地铁场景图像进行彩色转灰度变换，得到对应的灰度图像；

(1-2)将灰度图像进行缩放变换，改变图像大小至预定尺寸；

(1-3)对缩放后的灰度图像进行归一化操作。

较佳地，所述的利用构建的卷积神经网络进行深度特征学习，包括以下步骤：

(2-1)采用含4层隐含层的卷积神经网络模型构建一个深度学习模型；

(2-2)随机初始化网络模型参数；

(2-3)使用训练集对该卷积神经网络模型进行训练。

更佳地，所述的用含4层隐含层的卷积神经网络模型包括：

第一层卷积层C1：设定6张特征图，卷积核大小为5×5；

第一层下采样层S1：设定6张特征图，接受域大小为2×2；

第二层卷积层C2：设定5张特征图，卷积核大小为5×5；

第二层下采样层S2：设定5张特征图，接受域大小为2×2。

更佳地，所述的随机初始化网络模型参数，包括以下步骤：

(2-2-1)随机初始化卷积层卷积核参数，第i张输入特征图和第j张输出特征图对应的卷积核参数矩阵K_ij为：

K_{i j} = r a n d {(- 1, 1)}_{\ker s i z e \times \ker s i z e} \times \sqrt{6 / ({fan}_{i n} + {fan}_{o u t})}

fan_in＝m×kersize×kersize

fan_out＝n×kersize×kersize

其中，i＝1，2，...，num_in，j＝1，2，...，num_out，num_in为输入特征图的数目，num_out为输出特征图的数目，kersize×kersize表示卷积核的大小，rand(-1，1)_{kersize×kersize}表示大小为kersize×kersize的随机矩阵，元素取值在-1～1之间，fan_in表示卷积核输入总数，fan_out表示卷积核输出总数；

(2-2-2)初始化网络层加性偏置参数，每一层网络层的每张特征图对应一个加性偏置参数初始化为0。

更佳地，所述的使用训练集对该卷积神经网络模型进行训练，包括以下步骤：

(2-3-1)将训练样本X_n的灰度转换为一维向量作为输入，通过卷积层卷积操作、下采样层采样操作逐层预训练；

对于卷积层，每个输出特征图由多个输入特征图的组合卷积加上加性偏置经过sigmoid激励函数f(x)＝(1+e^-x)^-1得到：

u_{j}^{l} = \underset{i &Element; M_{j}}{Σ} x_{i}^{l - 1} \times k_{i j}^{l} + b_{j}^{l}

x_{j}^{l} = f (u_{j}^{l})

其中，l表示当前层，M_j表示选择的输入特征图；

对于下采样层，每个输出特征图是对输入特征图进行采样得到：

x_{j}^{l} = β_{j}^{l} d o w n (x_{j}^{l - 1}) + b_{j}^{l}

其中，down(·)表示下采样操作，输出特征图在空间两个维度上缩小m倍；是输出特征图的乘性偏置参数，取1/m²；

训练样本通过该神经网络，提取出样本特征；作为全连接网络输入，得到输出结果和标签数据相比，得到误差E；

(2-3-2)使用梯度下降法更新网络模型卷积核参数和加性偏置参数：

误差从网络的高层向底层反向传播，输出层的误差表示为：

δ^L＝f′(u^L)ο(yⁿ-tⁿ)

其中，L表示输出层，u^L表示输出层未经过sigmoid激励函数的特征图，yⁿ是实际输出结果，tⁿ是期望输出结果；

对于卷积层，误差由下采样层误差传播得到：

δ_{j}^{l} = β_{j}^{l} u p (δ_{j}^{l + 1})

其中，up(·)表示向上采样的操作，若下采样因子为m，具体实现为将的每一个元素水平和垂直方向上拷贝m次，取1/m2；

加性偏置更新公式：

b_{j}^{l} : = b_{j}^{l} + η \frac{\partial E}{\partial b_{j}^{l}}

\frac{\partial E}{\partial b_{j}^{l}} = \underset{u, v}{Σ} {(δ_{j}^{l})}_{u v}

对于卷积层，卷积核更新公式为：

k_{i j}^{l} : = k_{i j}^{l} + η \frac{\partial E}{\partial k_{i j}^{l}}

\frac{\partial E}{\partial k_{i j}^{l}} = r o t 180 (c o n v 2 (x_{i}^{l - 1}, r o t 180 (δ_{j}^{l}),^{'} {valid}^{'}))

其中，η为学习率，取为0.1，rot180为矩阵旋转180度运算，conv2为有效边界卷积运算；

对于下采样层，误差由卷积层误差传播得到：

加性偏置更新公式：

b_{j}^{l} : = b_{j}^{l} + η \frac{\partial E}{\partial b_{j}^{l}}

\frac{\partial E}{\partial b_{j}^{l}} = \underset{u, v}{Σ} {(δ_{j}^{l})}_{u v}

其中，η为学习率，取为0.1。

更佳地，所述的全连接网络分类模块将从卷积神经网络学习到的优选特征输入全连接神经网络并进行分类从而得到样本的标签类别，包括以下步骤：

(3-1)构建一个单层全连接网络模型；

(3-2)随机初始化网络模型参数：权值参数和加性偏置参数；

(3-3)使用卷积神经网络提取的训练样本图像特征作为输入，对该全连接网络模型进行训练；

(3-4)使用卷积神经网络提取的测试样本图像特征作为输入，测试全连接网络分类结果。

更进一步地，所述的随机初始化网络模型参数，包括以下步骤：

(3-2-1)根据如下公式随机初始化权值参数：

W = r a n d {(- 1, 1)}_{o n u m \times f v n u m} \times \sqrt{6 / (f v n u m + o n u m)}

其中，onum是输出神经元个数，fvnum是输入神经元个数；

(3-2-2)初始化网络加性偏置参数，其中加性偏置向量b初始化为0。

更进一步地，所述的使用卷积神经网络提取的图像特征作为输入，对该全连接网络模型进行训练，包括以下步骤：

(3-3-1)将卷积神经网络提取的训练样本图像特征转化为一维向量x，作为输入神经元，对该全连接网络模型进行训练：

u＝W×x

y＝f(u)

f(x)＝(1+e^-x)^-1

得到输出结果y和标签数据t相比，得到误差E；

(3-3-2)使用反向传播算法更新网络模型权值参数和加性偏置参数：

误差从网络的高层向底层反向传播，特征向量输入层的误差表示为：

δ＝f′(u)ο(y-t)

权值参数更新公式为：

\frac{\partial E}{\partial W} = x \times {(δ)}^{T}, W : = W + η \frac{\partial E}{\partial W}

加性偏置参数更新公式为：

\frac{\partial E}{\partial b} = δ, b : = b + η \frac{\partial E}{\partial b}

其中，η为学习率，取值0.1。

采用了该发明中的基于深度学习实现地铁场景分类的系统及方法，基于卷积神经网络提取地铁场景图片特征，并用单层全连接网络作为分类器，该方法无须对场景语义进行分析，即可实现对地铁不同场景图片的正确分类，鲁棒性强；该方法对地铁后续的运行状态监测工作有重要价值，具有更广泛的应用范围。

附图说明

图1为本发明的基于深度学习实现地铁场景分类的方法的流程图。

图2为本发明的图像预处理模块工作的流程图。

图3为本发明的卷积神经网络提取特征模块和全连接网络场景分类模块工作的流程图。

具体实施方式

为了能够更清楚地描述本发明的技术内容，下面结合具体实施例来进行进一步的描述。

为了实现上述目的，本发明的基于深度学习实现地铁场景分类的系统包括：

图像预处理模块，用以地铁场景图像彩色转灰度、缩放变换和归一化预处理操作；

卷积神经网络提取图像特征模块；用以利用构建的卷积神经网络进行深度特征学习，提取图像特征；

全连接网络场景分类模块，用以将从卷积神经网络学习到的优选特征输入全连接神经网络，进行分类，从而得到样本的标签类别。

本发明的基于深度学习的实现地铁场景分类的方法包括以下步骤：

(1)所述的图像预处理模块对地铁场景图像彩色转灰度、缩放变换和归一化预处理操作；

(2)所述的卷积神经网络提取图像特征模块利用构建的卷积神经网络进行深度特征学习，提取图像特征；

(3)所述的全连接网络分类模块将从卷积神经网络学习到的优选特征输入全连接神经网络，进行分类，从而得到样本的标签类别。

在一种较佳的实施方式中，所述的图像预处理模块，包括以下步骤：

(1-2)将灰度图像进行缩放变换，改变图像大小；

(1-3)对缩放后的灰度图像作归一化操作。

在一种较佳的实施方式中，所述的卷积神经网络提取图像特征模块利用构建的卷积神经网络进行深度特征学习，包括以下步骤：

(2-1)构建一个深度学习模型，深度学习模型采用含4层隐含层的卷积神经网络模型；

(2-2)随机初始化网络模型参数：卷积层卷积核参数和加性偏置参数；

(2-3)使用训练集对该卷积神经网络模型进行训练。

在一种更佳的实施方式中，所述的含4层隐含层的卷积神经网络模型具体包含：

(2-1-1)第一层卷积层C1：设定6张特征图，卷积核大小为5×5；第一层下采样层S1：设定6张特征图，接受域大小为2×2；第二层卷积层C2：设定5张特征图，卷积核大小为5×5；第二层下采样层S2：设定5张特征图，接受域大小为2×2。

在一种更佳的实施方式中，所述的随机初始化网络模型参数，包含以下步骤：

(2-2-1)随机初始化卷积层卷积核参数，第i张输入特征图和第j张输出特征图对应的卷积核参数矩阵K_ij：

K_{i j} = r a n d {(- 1, 1)}_{\ker s i z e \times \ker s i z e} \times \sqrt{6 / ({fan}_{i n} + {fan}_{o u t})}

fan_in＝m×kersize×kersize

fan_out＝n×kersize×kersize

其中，i＝1，2，...，num_in，j＝1，2，...，num_out，num_in为输入特征图的数目，num_out为输出特征图的数目，kersize×kersize表示卷积核的大小，rand(-1，1)_{kersize×kersize}表示大小为kersize×kersize的随机矩阵，元素取值在-1～1之间，fan_in表示卷积核输入总数，fan_out表示卷积核输出总数。

在一种更佳的实施方式中，所述的使用训练集对卷积神经网络模型进行训练，包含以下步骤：

(2-3-1)将训练样本X_n的灰度转换为一维向量作为输入，通过卷积层卷积操作、下采样层采样操作逐层预训练。

对于卷积层，每个输出特征图由多个输入特征图的组合卷积加上加性偏置经过sigmoid激励函数f(x)＝(1+e^-x)^-1得到:

u_{j}^{l} = \underset{i &Element; M_{j}}{Σ} x_{i}^{l - 1} \times k_{i j}^{l} + b_{j}^{l}

x_{j}^{l} = f (u_{j}^{l})

其中，l表示当前层，M_j表示选择的输入特征图。

x_{j}^{l} = β_{j}^{l} d o w n (x_{j}^{l - 1}) + b_{j}^{l}

其中，down(·)表示下采样操作，具体实现是对输出特征图的非重叠的m×m的块所有像素进行求和，输出特征图在空间两个维度上缩小m倍。是输出特征图的乘性偏置参数，取1/m²。

训练样本通过该神经网络，提取出样本特征；作为全连接网络输入，得到输出结果和标签数据相比，得到误差E。

误差从网络的高层向底层反向传播，输出层L层的误差表示为：

δ^L＝f′(u^L)ο(yⁿ-tⁿ)

其中，L表示输出层，u^L表示输出层未经过sigmoid激励函数的特征图，yⁿ是实际输出结果，tⁿ是期望输出结果。

对于卷积层，误差由下采样层误差传播得到：

δ_{j}^{l} = β_{j}^{l} u p (δ_{j}^{l + 1})

其中，up(·)表示向上采样的操作，若下采样因子为m，具体实现为将的每一个元素水平和垂直方向上拷贝m次，取1/m²。

加性偏置更新公式：

b_{j}^{l} : = b_{j}^{l} + η \frac{\partial E}{\partial b_{j}^{l}}

\frac{\partial E}{\partial b_{j}^{l}} = \underset{u, v}{Σ} {(δ_{j}^{l})}_{u v}

对于卷积层，卷积核更新公式为：

k_{i j}^{l} : = k_{i j}^{l} + η \frac{\partial E}{\partial k_{i j}^{l}}

\frac{\partial E}{\partial k_{i j}^{l}} = r o t 180 (c o n v 2 (x_{i}^{l - 1}, r o t 180 (δ_{j}^{l}),^{'} {valid}^{'}))

其中，η为学习率，取为0.1，rot180为矩阵旋转180度运算，conv2为有效边界卷积运算。

对于下采样层，误差由卷积层误差传播得到：

加性偏置更新公式：

b_{j}^{l} : = b_{j}^{l} + η \frac{\partial E}{\partial b_{j}^{l}}

\frac{\partial E}{\partial b_{j}^{l}} = \underset{u, v}{Σ} {(δ_{j}^{l})}_{u v}

其中，η为学习率，取为0.1。

在一种更佳的实施方式中，所述的全连接网络分类模块将从卷积神经网络学习到的优选特征输入全连接神经网络，进行分类，包括以下步骤：

(3-1)构建一个单层全连接网络模型；

(3-2)随机初始化网络模型参数：权值参数和加性偏置参数；

(3-3)使用根据所述的卷积神经网络提取的训练样本图像特征作为输入，对该全连接网络模型进行训练；

(3-4)使用根据所述的卷积神经网络提取的测试样本图像特征作为输入，测试全连接网络分类结果。

在一种更进一步的实施方式中，所述的随机初始化网络模型参数，包括以下步骤：

(3-2-1)随机初始化网络模型参数：权值参数；

W = r a n d {(- 1, 1)}_{o n u m \times f v n u m} \times \sqrt{6 / (f v n u m + o n u m)}

其中，onum是输出神经元个数，fvnum是输入神经元个数。

(3-2-2)初始化网络加性偏置参数，因为只有一个输出向量，所以有一个加性偏置向量b，初始化为0。

在一种更进一步的实施方式中，所述的使用卷积神经网络提取的图像特征作为输入，对该全连接网络模型进行训练，包括以下步骤：

(3-3-1)将根据所述的卷积神经网络提取的训练样本图像特征转化为一维向量x，作为输入神经元，对该全连接网络模型进行训练；

u＝W*x

y＝f(u)

f(x)＝(1+e^-x)^-1

得到输出结果y和标签数据t相比，得到误差E。

δ＝f′(u)ο(y-t)

权值参数更新公式：

\frac{\partial E}{\partial W} = x \times {(δ)}^{T}, W : = W + η \frac{\partial E}{\partial W}

加性偏置参数更新公式：

\frac{\partial E}{\partial b} = δ, b : = b + η \frac{\partial E}{\partial b}

其中，η为学习率，取值0.1。

在一种更进一步的实施方式中，所述的卷积神经网络提取图像特征模块和全连接网络分类模块，通过对所有训练样本的100次迭代训练，更新网络结构参数，训练得到能够对地铁场景图片分类的深度学习网络。

在此说明书中，本发明已参照其特定的实施例作了描述。但是，很显然仍可以作出各种修改和变换而不背离本发明的精神和范围。因此，说明书和附图应被认为是说明性的而非限制性的。

Claims

1.一种基于深度学习实现地铁场景分类的系统，其特征在于，所述的系统包括：

图像预处理模块，用以对地铁场景图像进行预处理；

2.一种根据权利要求1所述的系统基于深度学习实现地铁场景分类的方法，其特征在于，所述的方法包括以下步骤：

(1)所述的图像预处理模块对地铁场景图像进行预处理；

3.根据权利要求2所述的基于深度学习实现地铁场景分类的方法，其特征在于，所述的对地铁场景图像进行预处理，包括以下步骤：

(1-2)将灰度图像进行缩放变换，改变图像大小至预定尺寸；

(1-3)对缩放后的灰度图像进行归一化操作。

4.根据权利要求2所述的基于深度学习实现地铁场景分类的方法，其特征在于，所述的利用构建的卷积神经网络进行深度特征学习，包括以下步骤：

(2-2)随机初始化网络模型参数；

(2-3)使用训练集对该卷积神经网络模型进行训练。

5.根据权利要求4所述的基于深度学习实现地铁场景分类的方法，其特征在于，所述的用含4层隐含层的卷积神经网络模型包括：

第一层卷积层C1：设定6张特征图，卷积核大小为5×5；

第一层下采样层S1：设定6张特征图，接受域大小为2×2；

第二层卷积层C2：设定5张特征图，卷积核大小为5×5；

第二层下采样层S2：设定5张特征图，接受域大小为2×2。

6.根据权利要求4所述的基于深度学习实现地铁场景分类的方法，其特征在于，所述的随机初始化网络模型参数，包括以下步骤：

K_{i j} = r a n d {(- 1, 1)}_{\ker s i z e \times \ker s i z e} \times \sqrt{6 / ({fan}_{i n} + {fan}_{o u t})}

fan_in＝m×kersize×kersize

fan_out＝n×kersize×kersize

其中，i＝1，2，…，num_in，j＝1，2，…，num_out，num_in为输入特征图的数目，num_out为输出特征图的数目，kersize×kersize表示卷积核的大小，rand(-1，1)_{kersize×kersize}表示大小为kersize×kersize的随机矩阵，元素取值在-1～1之间，fan_in表示卷积核输入总数，fan_out表示卷积核输出总数；

7.根据权利要求4所述的基于深度学习实现地铁场景分类的方法，其特征在于，所述的使用训练集对该卷积神经网络模型进行训练，包括以下步骤：

u_{j}^{l} = \underset{i &Element; M_{j}}{Σ} x_{i}^{l - 1} \times k_{i j}^{l} + b_{j}^{l}

x_{j}^{l} = f (u_{j}^{l})

其中，l表示当前层，M_j表示选择的输入特征图；

x_{j}^{l} = β_{j}^{l} down (x_{j}^{l - 1}) + b_{j}^{l}

误差从网络的高层向底层反向传播，输出层的误差表示为：

δ^L＝f^′(u^L)о(yⁿ-tⁿ)

对于卷积层，误差由下采样层误差传播得到：

δ_{j}^{l} = β_{j}^{l} u p (δ_{j}^{l + 1})

其中，up(·)表示向上采样的操作，若下采样因子为m，具体实现为将的每一个元素水平和垂直方向上拷贝m次，取1/m²；

加性偏置更新公式：

b_{j}^{l} : = b_{j}^{l} + η \frac{\partial E}{\partial b_{j}^{l}}

\frac{\partial E}{\partial b_{j}^{l}} = \underset{u, v}{Σ} {(δ_{j}^{l})}_{u v}

对于卷积层，卷积核更新公式为：

k_{i j}^{l} : = k_{i j}^{l} + η \frac{\partial E}{\partial k_{i j}^{l}}

\frac{\partial E}{\partial k_{i j}^{l}} = r o t 180 (c o n v 2 (x_{i}^{l - 1}, r o t 180 (δ_{j}^{l}),^{'} {valid}^{'}))

对于下采样层，误差由卷积层误差传播得到：

加性偏置更新公式：

b_{j}^{l} : = b_{j}^{l} + η \frac{\partial E}{\partial b_{j}^{l}}

\frac{\partial E}{\partial b_{j}^{l}} = \underset{u, v}{Σ} {(δ_{j}^{l})}_{u v}

其中，η为学习率，取为0.1。

8.根据权利要求4所述的基于深度学习实现地铁场景分类的方法，其特征在于，所述的全连接网络分类模块将从卷积神经网络学习到的优选特征输入全连接神经网络并进行分类从而得到样本的标签类别，包括以下步骤：

(3-1)构建一个单层全连接网络模型；

(3-2)随机初始化网络模型参数：权值参数和加性偏置参数；

9.根据权利要求8所述的基于深度学习实现地铁场景分类的方法，其特征在于，所述的随机初始化网络模型参数，包括以下步骤：

(3-2-1)根据如下公式随机初始化权值参数：

W = r a n d {(- 1, 1)}_{o n u m \times f v n u m} \times \sqrt{6 / (f v n u m + o n u m)}

其中，onum是输出神经元个数，fvnum是输入神经元个数；

10.根据权利要求8所述的基于深度学习实现地铁场景分类的方法，其特征在于，所述的使用卷积神经网络提取的图像特征作为输入，对该全连接网络模型进行训练，包括以下步骤：

u＝W×x

y＝f(u)

f(x)＝(1+e^-x)^-1

得到输出结果y和标签数据t相比，得到误差E；

δ＝f′(u)о(y-t)

权值参数更新公式为：

\frac{\partial E}{\partial W} = x \times {(δ)}^{T}, W : = W + η \frac{\partial E}{\partial W}

加性偏置参数更新公式为：

\frac{\partial E}{\partial b} = δ, b : = b + η \frac{\partial E}{\partial b}

其中，η为学习率，取值0.1。