CN106650690A

CN106650690A - 基于深度卷积‑反卷积神经网络的夜视图像场景识别方法

Info

Publication number: CN106650690A
Application number: CN201611253882.8A
Authority: CN
Inventors: 高凯珺; 孙韶媛; 姚广顺; 叶国林
Original assignee: Donghua University
Current assignee: Donghua University
Priority date: 2016-12-30
Filing date: 2016-12-30
Publication date: 2017-05-10

Abstract

本发明涉及一种基于深度卷积‑反卷积神经网络的夜视图像场景识别方法，其特征在于，包括如下步骤：步骤1：构建夜视图像数据集；步骤2：对原始样本图像进行镜面对称处理；步骤3：构建深度卷积‑反卷积神经网络；步骤4：实时获取待处理的大小为h×w的图像，将图像输入深度卷积‑反卷积神经网络后，得到大小为h×w的特征图；步骤5：将夜视图像中的物体分为k个不同类别，采用多分类算法确定步骤4得到的特征图中每个像素点所属类别，输出大小为h×w×k的概率图。本发明显著增强了夜视图像的场景感知性，提高了目标识别的效率，降低了人工操作的复杂度。

Description

基于深度卷积-反卷积神经网络的夜视图像场景识别方法

技术领域

本发明涉及一种基于深度卷积-反卷积神经网络的夜视图像场景识别方法，属于夜视图像处理领域。

背景技术

场景识别指的是按照场景图像相近的内容识别出图片中的场景。场景识别是计算机视觉和机器人领域中一个基础的预处理过程，它在图像内容检索、模式识别和机器学习等计算机智能领域中担任重要的角色。

场景识别技术主要有基于物体识别的场景识别方法、基于图像区域识别的场景识别方法、基于语境分析的场景识别方法和模仿生物视觉机制的场景识别方法。

在可见光彩色图像领域，场景识别的研究有较大的进展，如程东生等人的基于单隐层神经网络的场景识别方法，提取局部梯度统计特征，将局部梯度统计特征以及对应场景类别标签加入到单隐层神经网络分类器进行层级式监督学习，得到多个不同的多类单隐层神经网络的最优参数，根据所述最优参数构建多层级场景分类器，能实现高精度场景识别。王慧燕等人的基于多特征融合与Boosting决策森林的街景图像的语义分割方法，将2D特征和3D特征有效的融合在一起，显著地提高了目标的识别率。但上述两种方法都需要人工选取特征，操作复杂，且无法挖掘图像深层特征信息。

近年来，夜视图像的场景识别研究受到广泛关注，通过提取出夜视图像的特征信息，并识别图像中的各像素点所属类别，能够扩展夜间机器人的视觉感应范围和智能识别能力，对夜视图像理解具有重大意义。

夜视图像场景识别的困难在于：夜视图像完全不同于可见光图像，它无色彩，只有单通道的灰度值，信噪比低且缺乏深度感，往往场景中物体的分辨度不高。因此夜视图像场景识别难度极大。

目前国内外对于夜视图像的场景识别研究还不够深入，尚无成熟的解决方案。沈振一等采用随机森林和超像素分割相结合的方法，首先提取Law’s掩膜多尺度特征，并对图像各像素点进行训练学习得到随机森林分类模型，然后通过超像素分割优化分类结果，除去被错误分类的像素点。该方法对非样本库内的测试样本识别误差较大，且计算速度较慢。侯俊杰等提出基于标签转移的场景特征识别算法，该算法需要提前构建对应场景的样本库和通用搜索树，对待处理的图像，先提取GIST特征，从样本库搜索树中寻找最近邻的样本图像，再使用SIFT FLOW方法对比待处理图像和近邻样本图像，得到各样本图像的候选权值，构建马尔可夫随机场(Markov Random Field)，据此生成待处理图像中对象的候选类别标签。但是该算法的缺点是对前期样本库的建立要求非常高，选取的GIST特征对图像中对象的形状、类别或具体位置并不敏感。

发明内容

本发明的目的是实现夜视图像的场景识别，增强夜视图像的场景感知性、提高场景识别的效率。

为了达到上述目的，本发明的技术方案提供了一种基于深度卷积-反卷积神经网络的夜视图像场景识别方法，其特征在于，包括如下步骤：

步骤1：构建夜视图像数据集，夜视图像数据集中包括原始样本图像及对原始样本图像进行人工标注后的标签图像，标签图像中的标记和原始样本图像的像素一一对应；

步骤2：对原始样本图像进行镜面对称处理，并调整对应的标签图像，从而增强夜视图像数据集；

步骤3：构建深度卷积-反卷积神经网络，利用步骤2得到的增强夜视图像数据集训练该深度卷积-反卷积神经网络，其中：深度卷积-反卷积神经网络包括深度卷积神经网络及反卷积网络，通过深度卷积神经网络提取输入的原始图像的特征，从而得到特征图，再通过反卷积过程将特征图映射到原始图像的大小；

步骤4：实时获取待处理的大小为h×w的图像，将图像输入深度卷积-反卷积神经网络后，得到大小为h×w的特征图；

步骤5：将夜视图像中的物体分为k个不同类别，采用多分类算法确定步骤4得到的特征图中每个像素点所属类别，输出大小为h×w×k的概率图。

优选地，所述深度卷积神经网络为一系列的卷积、激励和池化的过程，其中，采用去掉全连接层的VGG16作为卷积网络，加入对称的反卷积网络，池化采用最大值-池化。

优选地，所述反卷积网络具有13个反卷积层。

优选地，在所述步骤5中采用Softmax分类器确定步骤4得到的特征图中每个像素点所属类别。

本发明可用于无人车、机器人和智能视频监控领域。本发明将卷积神经网络应用于图像语义分割，无需手工选取特征，通过端到端，像素到像素的训练，直接预测像素所属的语义类别，从而实现夜视场景识别，保证识别的正确性和实时性，增强场景理解、突出目标，从而更快更精确地探测和识别场景。

本发明的优点是通过使用深度学习，无需手工选取特征，即可充分挖掘夜视图像中蕴含的丰富信息，提取出重要的场景类别信息，实现语义分割。该方法显著增强了夜视图像的场景感知性、提高了目标识别的效率，降低了人工操作的复杂度。

附图说明

附图1为基于深度卷积-反卷积神经网络的夜视图像场景识别流程图。首先需要对夜视图像进行人工标记，得到夜视图像对应的标签图。然后构建深度卷积-反卷积神经网络，将训练图像和对应的标签图放入构建的网络中进行迭代学习，得到网络的模型参数。接着输入测试图像，深度卷积-反卷积神经网络会根据前面训练得到的模型参数对测试图像进行语义分割，最终得到夜视图像中每个像素所属的类别标签。

附图2为深度卷积-反卷积神经网络结构图。主要包含两个部分：卷积网络和反卷积网络。卷积网络表示特征提取的过程，将输入的夜视图像转换成多维特征表示，而反卷积网络则表示形状生成的过程，将卷积网络中提取的特征生成原夜视图像一样大小的特征图，网络最后一层表示Softmax层，能够输出夜视图像场景特征识别的概率图。

附图3为本文的夜视场景识别实验结果。第一行为测试图像，第二行为人工标记的图像，第三行为本文的深度卷积-反卷积神经网络。在测试中发现，本文构建的深度卷积-反卷积神经网络对夜视图像场景有非常好的识别效果。

具体实施方式

为使本发明更明显易懂，兹以优选实施例，并配合附图作详细说明如下。

如附图1所示，基于深度卷积-反卷积神经网络的夜视图像场景识别的具体实施如下：

步骤1：构建夜视图像数据集。采用实验室通过红外热像仪自行采集的实验数据，通过在线类别标记系统LabelMe对样本图像进行人工标注形成标签图，标签图的标记和原图的像素一一对应，一共有9类。数据集包含训练图片312张，测试图片78张，图片尺寸为360×480，具体类别见表1。

表1数据语义类别

类别	未标记	草地	建筑	车辆	行人	道路	标志	天空	树木
										标签	0	1	2	3	4	5	6	7	8

步骤2：对图像进行镜面对称处理从而增强夜视图像数据集。通过上下、左右对称，样本图像数量增加两倍，同时调整对应的标签图像，最终得到训练图片936张，测试图片234张。

步骤3：构建深度卷积-反卷积神经网络，利用步骤2得到的增强夜视图像数据集训练该深度卷积-反卷积神经网络，其中：深度卷积-反卷积神经网络包括深度卷积神经网络及反卷积网络，通过深度卷积神经网络提取输入的原始图像的特征，从而得到特征图，再通过反卷积过程将特征图映射到原始图像的大小。

本发明的算法采用了卷积层和反卷积层相结合的深度学习网络结构，是在16层VGG-net结构的基础上修改得到的深度网络结构，图片通过卷积过程提取特征，再通过反卷积过程将特征映射到原图大小。

深度卷积神经网络f都可以看作是一系列的卷积、激励和池化的过程。采用去掉全连接层的VGG16作为卷积网络，因此，本发明的卷积网络具有13个卷积层。假设深度卷积神经网络f，参数为θ，则f的数学表达式为：

f(X；θ)＝W_LH_L-1

其中，H_l为l层隐层单元的输出，b_l为l层的偏差值，W_l为l层的权值，且b_l和W_l组成可训练的参数θ，pool()表示池化操作，relu()表示激励操作。池化操作将小邻域内的特征点整合得到新特征，使得特征减少，参数减少，且池化单元具有平移不变性。池化的方法主要包括平均-池化和最大值-池化，本发明主要采用最大值-池化操作。

池化操作保留了上层特征图中的最大值，同时丢失了感知域中的空间信息，然而像素级场景分割对位置的精确度要求极高，为了解决这个问题，本发明采用反卷积网络进行反池化和反卷积操作，能够得到每个像素点特征描述子。本发明在反卷积网络中加入反池化层，模拟池化的逆过程，在池化过程中将最大激励值的坐标位置记录下来，在反池化时把池化过程中最大激励值的坐标位置的值(像素)还原，而其他位置则采用补0的方法。池化时记录像素点坐标，反池化时还原像素的位置。经过反池化操作的特征图扩大了2倍，但是得到的特征图是稀疏的，需要对特征图进行加密，因此引入了反卷积层。本发明的反卷积网络具有13个反卷积层。卷积操作将卷积核内的多个激励值连接得到一个激励值，而反卷积则是将一个激励值输出为多个激励值。同样地，反卷积操作也使用多个可学习的卷积核，并且反卷积网络和卷积网络是对称的结构，也能够获取不同层次的特征信息，较低的反卷积层能够得到物体大致的形状信息，较高的层能得到一些细节信息。本发明的深度卷积-反卷积神经网络的详细配置如表2所示。

表2

步骤4：实时获取待处理的大小为360×480×1的图像，将图像输入深度卷积-反卷积神经网络后，得到大小为360×480×64的特征图。

(1)输入一幅360×480×1的夜视图像，通过卷积核大小为3×3的Conv1-1和Conv1-2卷积层，再经过池化层pool1，输出为180×240×64的特征图；

(2)将(1)中得到的特征图通过卷积核大小为3×3的Conv2-1和Conv2-2卷积层，再经过池化层pool2，输出为90×120×128的特征图；

(3)将(2)中得到的特征图通过卷积核大小为3×3的Conv3-1、Conv3-2和Conv3-3卷积层，再经过池化层pool3，输出为45×60×256的特征图；

(4)将(3)中得到的特征图通过卷积核大小为3×3的Conv4-1、Conv4-2和Conv4-3卷积层，再经过池化层pool4，输出为23×30×512的特征图；

(5)将(4)中得到的特征图通过卷积核大小为3×3的Conv5-1、Conv5-2和Conv5-3卷积层，再经过池化层poo15，输出为12×15×512的特征图。完成卷积层的操作，实现特征提取；

(6)将(5)中得到的特征图经过反池化层unpoo15，再通过卷积核大小为3×3的Deconv5-1、Deconv5-2和Deconv5-3反卷积层，输出为23×30×512的特征图；

(7)将(6)中得到的特征图经过反池化层unpool4，再通过卷积核大小为3×3的Deconv4-1、Deconv4-2和Deconv4-3反卷积层，输出为45×60×512的特征图；

(8)将(7)中得到的特征图经过反池化层unpool3，再通过卷积核大小为3×3的Deconv3-1、Deconv3-2和Deconv3-3反卷积层，输出为90×120×256的特征图；

(9)将(8)中得到的特征图经过反池化层unpool2，再通过卷积核大小为3×3的Deconv2-1和Deconv2-2反卷积层，输出为180×240×128的特征图；

(10)将(9)中得到的特征图经过反池化层unpool1，再通过卷积核大小为3×3的Deconv1-1和Deconv1-2反卷积层，输出为360×480×64的特征图。完成反卷积操作，得到和原图尺寸一样的特征图；

步骤5：确定像素点所属类别。多分类问题主要采用Softmax函数确定像素点所属类别。Softmax分类器是Logistic回归模型在多分类问题上的推广。详细步骤如下：

(1)假设现在有一个分k类的任务，本发明主要涉及到9个不同类别的场景，即k＝9，在一个m个样本的训练集上进行学习，每个输入是一个n维向量。训练集T表示为：

T＝{(x⁽¹⁾，y⁽¹⁾)，K，(x^(m)，y^(m))}

其中，y⁽ⁱ⁾∈{1，2，K，k}是标签，x⁽ⁱ⁾∈Rⁿ⁺¹是样本(有一个截距项1，所以维度是n+1)。Softmax分类器将计算每个样本属于k个类的概率：

P(y＝j|x)，(j＝1，2，K，k)

(2)这样对于每个样本就形成一个k维的输出，计算函数的形式如下式：

其中，是模型参数。

(3)利用训练集T来训练Softmax分类器的目标就是找到适当的参数，使得Softmax分类器的某种损失函数达到最小值，一般采用的损失函数如下式：

其中，1{y⁽ⁱ⁾＝j}表示如果y＝j，则为1，否则为0。损失函数越小意味着用Softmax来分类训练集的结果的越正确。

(4)最后整个卷积网络的输出大小为h×w×k的概率图，h×w为原图像尺寸大小，k为类别数量，表示每个像素点属于预定义类别的概率，本发明的输出为360×480×9。从而确定每个像素点所属类别，识别结果如附图3所示。

Claims

1.一种基于深度卷积-反卷积神经网络的夜视图像场景识别方法，其特征在于，包括如下步骤：

2.如权利要求1所述的一种基于深度卷积-反卷积神经网络的夜视图像场景识别方法，其特征在于，所述深度卷积神经网络为一系列的卷积、激励和池化的过程，其中，卷积采用去掉全连接层的VGG16，池化采用最大值-池化。

3.如权利要求1所述的一种基于深度卷积-反卷积神经网络的夜视图像场景识别方法，其特征在于，所述反卷积网络具有13个反卷积层。

4.如权利要求1所述的一种基于深度卷积-反卷积神经网络的夜视图像场景识别方法，其特征在于，在所述步骤5中采用Softmax分类器确定步骤4得到的特征图中每个像素点所属类别。