CN109255364A

CN109255364A - 一种基于深度卷积生成对抗网络的场景识别方法

Info

Publication number: CN109255364A
Application number: CN201810763389.3A
Authority: CN
Inventors: 杨宇翔; 陈德平; 黄继业; 高明煜
Original assignee: Hangzhou Dianzi University
Current assignee: Hangzhou Dianzi University
Priority date: 2018-07-12
Filing date: 2018-07-12
Publication date: 2019-01-22
Anticipated expiration: 2038-07-12
Also published as: CN109255364B

Abstract

本发明涉及一种基于深度卷积生成对抗网络的场景识别方法。现有利用深度学习进行场景识别的方法，都是通过训练集图片自带的样本和标签进行训练，然后利用训练好的模型来对图片进行特征提取，但是实际中大部分的图片都没有标签，即使可以利用人工标注，也需要花费很大的时间和成本。本发明首先利用无标签的图片构建深度卷积生成对抗网络模型，然后，利用已经学习到场景数据集分布的生成器，反向训练得到一个卷积神经网络来提取图像的特征，解决了图像数据集需要标签的问题，并且提取出比传统特征更能表征图像的特征向量，从而提高场景识别任务中的识别准确性。

Description

一种基于深度卷积生成对抗网络的场景识别方法

技术领域

本发明属于模式识别和机器学习领域，具体涉及一种基于深度卷积生成对抗网络的场景识别方法。

背景技术

闭环检测在SLAM(同时定位与地图构建)中，被认为是最重要的一个环节，它主要是在给定当前帧图片下，移动机器人是否能够判别该场景是否之前见到过，这就是闭环检测要解决的问题，也就是场景识别。场景识别在计算机视觉领域是一项具有挑战性的工作，其在无人驾驶和移动机器人领域都有这个广泛的应用。

近几年，随着深度学习在人工智能领域的发展，深度卷积神经网络在图像识别、图像检测和图像分割等方向都取得了巨大的成果。和传统的人工设计的特征SIFT、SURF和GIST等相比，CNN不仅能够自动提取高质量的图像特征，而且具有很好的泛化能力，因此可以使用预训练好的网络应用于其他的任务上。虽然在场景识别领域，CNN特征已经被证明要优于传统的特征，但是这些深度卷积神经网络都是通过给定的训练集和标签的有监督学习得到，然后提取图像的特征，而在实际生活中，并没有很多的带有标签的数据集，即使利用人工标注，也要花费很多的时间和精力。因此，本发明提出了一种新的基于深度卷积生成对抗网络的场景识别方法，采用无监督的学习方法，来训练网络。首先，我们利用场景数据集Place365作为训练集，训练集是大小为256*256的RGB图片。利用该训练集来得到深度卷积生成对抗网络。然后，利用训练好的学习场景数据分布的生成器，再反向训练一个卷积神经网络作为特征提取器，接着利用该卷积神经网络对图片进行特征提取，得到相对应的特征向量。最后，通过计算两张图片特征向量之间的余弦距离，如果其值效于设定的阈值，则认为两张图片的处于同一场景；反之，则认为是不同场景。

发明内容

本发明针对现有技术的不足，提出了一种基于深度卷积生成对抗网络的场景识别方法。

本发明该方法的具体步骤如下：

步骤1、对训练集图片数据进行预处理；

将N张训练集图片像素值进行归一化，利用激励函数tanh，函数形式为f(x)＝(1-e^-2x)/(1+e^-2x)，将所有图片的像素值的归一化在[-1,1]的范围之间，x表示图片像素值；

步骤2、构建深度卷积生成对抗网络模型NN₁；

首先，输入batch个符合高斯分布的K维随机张量到深度卷积对抗网络模型NN₁的生成器G中，得到输出张量；深度卷积生成对抗网络模型NN₁的生成器G的网络模型结构为输入层->反卷积层*6->输出层；其中输入节点数为K,输出节点数为256*256*3,反卷积层节点数分别为4*4*1024，8*8*512,16*16*256,32*32*128,64*64*64,128*128*32；此时，生成器G的输出张量的大小为[batch,256,256,3],即batch个样本，每一个样本的维度是[256,256,3],先令这batch个样本的每一组样本的标签为0，即作为假样本；在步骤1中随机抽取batch个预处理后的图片，令这些样本的标签为1，即作为真样本；接着训练深度卷积生成对抗网络中的判别器D,判别器D为有监督的二分类模型；深度卷积生成对抗网络模型NN₁的判别器D的网络模型结构为输入层->卷积层*6->输出层；其中判别器D输入节点数为256*256*3；输出节点数为1，卷积层节点数分别为128*128*16，64*64*32,32*32*64,16*16*128,8*8*256,4*4*512；对深度卷积对抗网络模型NN₁进行训练获得其判别器D的最优权值矩阵W_c1～W_c7和偏置向量b_c1～b_c7,其中W_c1的大小为[5,5,3,16],b_c1为[16,1],W_c2的大小为[5,5,16,32],b_c2为[32,1],W_c3的大小为[5,5,32,64],b_c3为[64,1],W_c4的大小为[5,5,64,128],b_c4为[128,1],W_c5的大小为[5,5,128,256],b_c5为[256,1],W_c6的大小为[5,5,256,512],b_c6为[512,1],W_c7的大小为[8192,1],b₇为[1,1]；其中，深度卷积对抗网络模型NN₁的生成器G中的所有层都是用ReLU激活函数，函数形式为f(m)＝max(0,m),其中m表示当前层的输出值；除了输出层使用Tanh激活函数，输入层不需要激活层；深度卷积生成对抗网络模型NN₁的判别器D的所有层使用LeakyReLU激活函数，函数形式为f(n)＝max(0,0.2n),其中n表示当前层的输出值；除了输出层采用Sigmoid作为激活函数，函数形式为其中l表示当前层的输出值；在每一层反卷积层和卷积层后面加上归一化层，每一层归一化层都对应的两个训练参数β和γ；然后训练深度卷积生成对抗网络中的生成器G,将深度卷积生成对抗网络模型NN₁的生成器G和判别器D一起训练，训练过程中固定判别器D的参数W_c1～W_c7和b_c1～b_c7，只更新生成器G的参数W_d1～W_d7和b_d1～b_d7；此时，令生成的batch个符合高斯分布的K维随机张量所对应的标签为1，即所对应的标签张量大小为[batch,1]；对深度卷积生成对抗网络模型NN₁进行训练获得其生成器G的最优权值矩阵W_d1～W_d7、偏置向量b_d1～b_d7；其中，W_d1的大小为[K,4*4*1024],b_d1为[4*4*1024,1],W_d2的大小为[4,4,1024,512],b_d2为[512,1],W_d3的大小为[8,8,512,256],b_d3为[256,1],W_d4的大小为[16,16,256,128],b_d4为[128,1],W_d5的大小为[32,32,128,64],b_d5为[64,1],W_d6的大小为[64,64,64,32],b_d6为[32,1],W_d7的大小为[128,128,32,3],b_d7为[3,1]；

步骤3、构建卷积神经网络模型NN₂；

先随机生成batch个符合高斯分布的K维随机张量输入步骤2中训练好的生成对抗网络的生成器G中，得到大小为[batch,256,256,3]的输出张量；把该输出张量作为的卷积神经网络模型NN₂的输入数据，将生成器大小为[batch,K]的输入张量作为卷积神经网络模型NN₂所对应的标签；卷积神经网络模型NN₂网络模型结构为输入层->卷积层*6->输出层；其中输入节点数为256*256*3,输出节点数为K，中间卷积层节点数分别为128*128*8，64*64*16,32*32*32,16*16*64,8*8*128,4*4*25；因此，对模型进行训练获得其生成器的最优权值矩阵W_c1’～W_c7’和偏置向量b_c1’～b_c7’；其中W_c1’的大小为[256,256,3,8],b_c1’为[8,1],W_c2’的大小为[64,64,8,16],b_c2’为[16,1],W_c3’的大小为[32,32,16,32],b_c3’为[32,1],W_c4’的大小为[16,16,32,64],b_c4’为[64,1],W_c5’的大小为[8,8,64,128],b_c5’为[128,1],W_c6’的大小为[4,4,128,256],b_c6’为[256,1],W_c7’的大小为[4096，K],b_c7’的大小为[K,1]；其中卷积神经网络模型NN₂的所有层使用LeakyReLU激活函数，除了输出层采用Sigmoid作为激活函数,并且在每一层卷积层后面加上归一化层；

步骤4、根据步骤3中得到的卷积神经网络模型NN₂，先对需要待判别的图像对进行预处理，即先将图片大小拉伸为[256，256，3]，接着利用tanh函数对像素值进行归一化处理，然后用卷积神经网络模型NN₂对其进行特征提取，得到相对应的特征向量，向量维度为[K,1]；

步骤5、对上述步骤4中得到的两个向量求余弦距离，然后和给定的阈值进行比较；若小于阈值，则判定为相同场景，反之则判定为不同场景。

基于本方法的场景识别方法，和之前基于深度学习的场景识别相比，能够在给定无标签的数据集情境下，对网络进行训练，并且能够在学习到场景数据分布后，再对场景图片进行特征提取。不仅能够降低一些数据集制作的成本，而且提取出的特征向量能够更好的表征图片，能够提高场景识别任务中的识别准确性。

附图说明

图1为本发明方法中深度卷积生成对抗网络模型NN₁的结构图；

图2为本发明方法中的整体结构框图；

图3为本发明中生成器G的内部结构图；

图4为本发明中判别器D的内部结构图；

图5为本发明中卷积神经网络模型NN₂的内部结构图。

图1-5中input表示输入、output表示输出、G表示生成器、D表示判别器，real是真实训练样本数据集，即Place365数据集、N表示一次训练网络所需的训练集图片的数量，即batch，H表示训练集图片的高度，W表示训练集图片的宽度，C表示训练集图片的通道数，NN₂表示卷积神经网络、Input Vector为输入随机向量，Output Vector为输出向量，deconv1～deconv6为反卷积层，conv1～conv7和conv1’～conv7’为卷积层。

具体实施方式

本发明通过利用无监督学习，即先训练一个深度卷积生成对抗网络，其结构图如图1所示，再利用已经学习到场景数据集分布的生成器，反向训练得到一个卷积神经网络来提取图像的特征，解决了图像数据集需要标签的问题，并且提取出比传统特征更能表征图像的特征向量。整个网络结构图如图2所示。

一种基于深度卷积生成对抗网络的场景识别方法，具体步骤是：

步骤1、对训练集图片数据进行预处理；

步骤2、构建深度卷积生成对抗网络模型NN₁；

首先，输入batch个符合高斯分布的K维随机张量到深度卷积对抗网络模型NN₁的生成器G中，生成器G的内部结构图如图3所示，得到输出张量。深度卷积生成对抗网络模型NN₁的生成器G的网络模型结构为输入层->反卷积层*6->输出层；其中输入节点数为K,输出节点数为256*256*3,反卷积层节点数分别为4*4*1024，8*8*512,16*16*256,32*32*128,64*64*64,128*128*32；此时，生成器G的输出张量的大小为[batch,256,256,3],即batch个样本，每一个样本的维度是[256,256,3],先令这batch个样本的每一组样本的标签为0，即作为假样本；在步骤1中随机抽取batch个预处理后的图片，令这些样本的标签为1，即作为真样本；接着训练深度卷积生成对抗网络中的判别器D,判别器D为有监督的二分类模型，判别器D的内部结构图如图4所示；深度卷积生成对抗网络模型NN₁的判别器D的网络模型结构为输入层->卷积层*6->输出层；其中判别器D输入节点数为256*256*3；输出节点数为1，卷积层节点数分别为128*128*16，64*64*32,32*32*64,16*16*128,8*8*256,4*4*512；对深度卷积对抗网络模型NN₁进行训练获得其判别器D的最优权值矩阵W_c1～W_c7和偏置向量b_c1～b_c7,其中W_c1的大小为[5,5,3,16],b_c1为[16,1],W_c2的大小为[5,5,16,32],b_c2为[32,1],W_c3的大小为[5,5,32,64],b_c3为[64,1],W_c4的大小为[5,5,64,128],b_c4为[128,1],W_c5的大小为[5,5,128,256],b_c5为[256,1],W_c6的大小为[5,5,256,512],b_c6为[512,1],W_c7的大小为[8192,1],b₇为[1,1]。其中，深度卷积对抗网络模型NN₁的生成器G中的所有层都是用ReLU激活函数，函数形式为f(m)＝max(0,m),其中m表示当前层的输出值。除了输出层使用Tanh激活函数，输入层不需要激活层。深度卷积生成对抗网络模型NN₁的判别器D的所有层使用LeakyReLU激活函数，函数形式为f(n)＝max(0,0.2n),其中n表示当前层的输出值。除了输出层采用Sigmoid作为激活函数，函数形式为其中l表示当前层的输出值。在每一层反卷积层和卷积层后面加上归一化层，每一层归一化层都对应的两个训练参数β和γ。然后训练深度卷积生成对抗网络中的生成器G,将深度卷积生成对抗网络模型NN₁的生成器G和判别器D一起训练，训练过程中固定判别器D的参数W_c1～W_c7和b_c1～b_c7，只更新生成器G的参数W_d1～W_d7和b_d1～b_d7；此时，令生成的batch个符合高斯分布的K维随机张量所对应的标签为1，即所对应的标签张量大小为[batch,1]；对深度卷积生成对抗网络模型NN₁进行训练获得其生成器G的最优权值矩阵W_d1～W_d7、偏置向量b_d1～b_d7。其中，W_d1的大小为[K,4*4*1024],b_d1为[4*4*1024,1],W_d2的大小为[4,4,1024,512],b_d2为[512,1],W_d3的大小为[8,8,512,256],b_d3为[256,1],W_d4的大小为[16,16,256,128],b_d4为[128,1],W_d5的大小为[32,32,128,64],b_d5为[64,1],W_d6的大小为[64,64,64,32],b_d6为[32,1],W_d7的大小为[128,128,32,3],b_d7为[3,1]；

在本发明的一个具体实例中，K＝128,采用欧式距离度量下的约束作为生成器G和判别器D中的损失函数，生成器G中的反卷积层采用ReLU函数作为非线性映射激活函数，输出层采用tanh作为非线性映射激活函数。判别器D中的卷积层中采用LeakyReLU函数作为非线性映射激活函数，输出层采用Sigmoid作为非线性映射激活函数，并在每一层反卷积层和卷积层后添加一层归一化层。采用随机梯度下降法迭代训练得到深度卷积生成对抗网络模型NN₁中的最优参数。在本发明方法中，采用单独交替迭代训练的方式来对生成器G和判别器D进行训练，即对判别器G的参数更新2次，再对生成器D的参数更新1次，直到判别器D针对所有样本输入的输出值近似为0.5。

步骤3、构建卷积神经网络模型NN₂；

先随机生成batch个符合高斯分布的K维随机张量输入步骤2中训练好的生成对抗网络的生成器G中，得到大小为[batch,256,256,3]的输出张量；把该输出张量作为的卷积神经网络模型NN₂的输入数据，将生成器大小为[batch,K]的输入张量作为卷积神经网络模型NN₂所对应的标签，卷积神经网络模型NN₂的内部结构图如图5所示；卷积神经网络模型NN₂网络模型结构为输入层->卷积层*6->输出层；其中输入节点数为256*256*3,输出节点数为K，中间卷积层节点数分别为128*128*8，64*64*16,32*32*32,16*16*64,8*8*128,4*4*25；因此，对模型进行训练获得其生成器的最优权值矩阵W_c1’～W_c7’和偏置向量b_c1’～b_c7’。其中W_c1’的大小为[256,256,3,8],b_c1’为[8,1],W_c2’的大小为[64,64,8,16],b_c2’为[16,1],W_c3’的大小为[32,32,16,32],b_c3’为[32,1],W_c4’的大小为[16,16,32,64],b_c4’为[64,1],W_c5’的大小为[8,8,64,128],b_c5’为[128,1],W_c6’的大小为[4,4,128,256],b_c6’为[256,1],W_c7’的大小为[4096，K],b_c7’的大小为[K,1]。其中卷积神经网络模型NN₂的所有层使用LeakyReLU激活函数，除了输出层采用Sigmoid作为激活函数,并且在每一层卷积层后面加上归一化层；

在本发明的一个具体实例中，采用欧式距离度量下的约束作为卷积神经网络模型NN₂中的损失函数，并在卷积神经网络模型NN₂中的卷积层中采用LeakyReLU函数作为非线性映射激活函数，并在每一层卷积层后面加入归一化层，输出层采用Sigmoid作为非线性映射激活函数采用随机梯度下降法迭代训练得到神经网络模型NN₂中的最优参数。

步骤5、对上述步骤4中得到的两个向量求余弦距离，然后和给定的阈值进行比较。若小于阈值，则判定为相同场景，反之则判定为不同场景；

Claims

1.一种基于深度卷积生成对抗网络的场景识别方法，其特征在于，该方法的具体步骤如下：

步骤1、对训练集图片数据进行预处理；

步骤2、构建深度卷积生成对抗网络模型NN₁；

步骤3、构建卷积神经网络模型NN₂；