CN108764142A

CN108764142A - 基于3dcnn的无人机影像森林烟雾检测和分类方法

Info

Publication number: CN108764142A
Application number: CN201810530883.5A
Authority: CN
Inventors: 张菁; 李昱钊; 卓力; 梁西; 王立元
Original assignee: Beijing University of Technology
Current assignee: Beijing University of Technology
Priority date: 2018-05-25
Filing date: 2018-05-25
Publication date: 2018-11-06

Abstract

基于3DCNN的无人机影像森林烟雾检测和分类方法属于计算机视觉领域，具体涉及深度学习，目标检测等技术。本发明首先对原始帧序列提取多个通道的时空信息，得到多个通道的初始特征图用于卷积层的特征提取；然后利用不同长宽的卷积层和下采样层对初始特征图进行多尺度特征提取；最后连接各层特征图得到特征向量，组合SVM(Support Vector Machine)分类器，在森林烟雾视频数据集上完成训练和烟雾的检测分类。本发明弥补了模型设计困难，计算量大的缺点，神经网络中不同尺度的卷积层和下采样层可以提取鲁棒的深度场景特征信息，可以适应多角度，多尺度的拍摄场景；其次，对烟雾的动态时空特征具有较好的描述能力。

Description

基于3DCNN的无人机影像森林烟雾检测和分类方法

技术领域

本发明基于深度学习技术，研究了一种无人机影像的森林烟雾实时检测方法。利用先进的3DCNN(Convolutional Neural Network,CNN)，本发明首先对原始帧序列提取多个通道的时空信息，得到多个通道的初始特征图用于卷积层的特征提取；然后利用不同长宽的卷积层和下采样层对初始特征图进行多尺度特征提取；最后连接各层特征图得到特征向量，组合SVM(Support Vector Machine)分类器，在森林烟雾视频数据集上完成训练和烟雾的检测分类。本发明属于计算机视觉领域，具体涉及深度学习，目标检测等技术。

背景技术

无人机技术，即利用先进的无人驾驶飞行器技术、遥感传感器技术，能够快速获取国土资源、自然环境等空间遥感信息的应用技术。无人机具有体积小、重量轻、成本低、隐蔽性好、机动灵活等优点，在军事上和民用领域都得到了广泛应用。森林在人们生产、生活中有很重要的地位，如何有效预防森林火灾成为重要研究课题。森林火灾多发生于人烟稀少的偏僻地区，故利用无人机的机动性，可以有效地使用其搭载的光学传感设备，对无人看守的森林地区进行不间断地检测。森林火灾中有明火出现的时期多为火灾晚期，火势已蔓延，若以明火为预警目标不利于消防人员有效地对森林火灾做出应急措施，而烟雾的产生多发生在森林火灾的初期，以烟雾为主的森林火灾预警将足够有效地检测到早期火灾的发生，火灾尚未扩散，为消防人员提供了充足的应急空间。部分森林地区由于气候潮湿等原因，极易产生和火灾烟相似的水雾，本发明在检测到烟雾后又对烟和雾气进行了区分，有效地减少了误报警率，增加了预警系统的鲁棒性

传统的烟雾检测方法手动设计特征，通过对烟雾在空间和时间上的独特动态特性进行建模，通常提取烟雾在颜色、纹理以及运动方面的特征来对其进行区分，从而实现烟雾检测。该类型方法在特定的运用场景里性能较好，但森林环境变换多样，背景复杂，在不同的时刻和天气条件下，森林中目标的光照和可见度均有较大的差异，传统的手工特征无法包含多个场景下烟雾的特征信息，缺乏鲁棒性；且传统特征的设计需要大量的专业经验，提取难度较大，故本发明采用先进的深度神经网络对烟雾视频进行特征提取和分类。

卷积神经网络(Convolutional Neural Network,CNN)在图像分类和目标检测中发挥着出色的效能，深层的多参数网络能够对图像提取细节特征，且卷积运算对方向的变化具有鲁棒性，能较好地解决无人机影像多角度拍摄的问题。但传统的卷积神经网络仅针对单个帧提取深度特征，忽略了视频的时序信息，而烟雾在时间顺序上是一个规律变化的时序模型，其时序特征包含烟雾检测和烟雾分类的重要信息，故采用传统的卷积神经网络模型难以有效地完成烟雾检测和分类任务。

本发明提出利用改进的3D卷积神经网络应用于烟雾检测。该模型对多帧图像同时提取三维的特征图，能够提取烟雾视频时间和空间上的特征，且本发明加入先验知识来初始化特征图，提取帧序列的梯度和光流场等特征作为初始特征图。得到特征向量后，通过加入线性的SVM分类器来对图像序列进行分类。训练数据采用自建的森林烟雾数据集(ForestSmoke Dataset,FSD)。经实验验证，该方法在数据集上实现了78.9％的mAP(mean averageprecision,平均识别精度)，同时保持了30FPS的检测速度，因此，本发明提出的森林烟雾检测网络模型对于实现高效、准确、实时的烟雾检测有着重要的应用价值。

发明内容

本发明利用深度学习技术，提出了一种基于深度学习的无人机影像森林烟雾检测和分类方法。由于烟雾相较于静态的背景，具有明显的动态特征。而基于多帧图像的3D卷积神经网络可以有效提取包含图像时序信息的动态特征，故本发明提出使用3D卷积神经网络构建森林烟雾检测模型，使用自建的森林烟雾数据集对网络进行训练，将卷积神经网络(Convolutional Neural Network,CNN)基于单张图片的分类进一步延伸到基于多帧烟雾图像的分类。首先，对数据集进行预处理，将数据集上所有的视频分为多帧为一组的序列，利用一个固定的硬线层(hardwire)对原始帧序列进行特征预提取，产生包括光流信息在内的多个通道信息，将所有通道的信息组合起来得到初始特征图，利用初始特征的先验知识，提高网络初始化的性能。其次，将硬线层五个通道的信息输入下层网络的卷积层和下采样层，对其进行进一步的特征提取，卷积层和下采样层拥有不同的宽度和尺度，保证了在提取原始帧序列的特征的同时，可以有效提取不同尺度的烟雾图像的特征，并使其对烟雾运动的不同方向具有鲁棒性。最后，将各层提取的特征在全连接层进行组合,得到一个特征向量，该特征向量同时包含了帧序列时域和空域上的特征信息。使用随机梯度下降法(SGD)在自建的森林烟雾数据集上训练网络，并对烟雾区域进行分类。本方法主要流程如附图1所示，可分为以下三个步骤：数据的预处理和多通道时空信息的提取，多角度、多尺度卷积特征的提取，网络模型的训练和烟雾检测分类

(1)数据的预处理和多通道时空信息的提取。

为了有效地提取多帧图像当中的空间信息以及时间信息，本发明先将视频数据分割成以7帧为一组的烟雾帧序列，对每一组帧序列，提取灰度(gray)、横坐标梯度(gradient-x),纵坐标梯度(gradient-y),x光流(optflow-x),y光流(optflow-y)五个通道的信息作为初始特征图，用于下层特征的进一步提取。

(2)多角度、多尺度卷积特征的提取

本发明所使用的神经网络模型含有多个卷积层和下采样层，在对原始帧序列进行多通道空间信息和时间信息提取得到初始特征图后，通过卷积层和下采样层来对初始特征图进行特征提取，卷积运算在角度和尺度上都具有不变性，保证了提取特征的鲁棒性。

(3)网络模型的训练和烟雾检测分类。

将卷积层和下采样层提取的特征在全连接层进行组合，得到多维的特征向量。使用线性的SVM作为分类器来对特征进行分类。使用自建的森林烟雾数据集训练网络。该数据集包含2000组森林背景的烟图像序列和3000组森林背景的雾图像序列以及2000组森林背景的非烟雾图像序列。数据集包含了不同尺度、光照、拍摄角度的烟雾图像以及非烟雾图像，可以有效地学习不同条件下的烟雾特征。

本发明与现有技术相比，具有以下明显的优势和有益效果：

本发明利用先进的3D卷积神经网络构建烟雾检测模型。首先，相较于传统的烟雾检测方法,弥补了模型设计困难，计算量大的缺点，神经网络中不同尺度的卷积层和下采样层可以提取鲁棒的深度场景特征信息，可以适应多角度，多尺度的拍摄场景；其次，相较于普通的卷积神经网络，本发明采用的3D卷积神经网络能有效地提取多帧视频的时序信息，对烟雾的动态时空特征具有较好的描述能力。

附图说明

图1基于3D卷积神经网络的无人机影像森林烟雾检测方法流程图；

图2森林烟雾检测神经网络模型结构图；

图3 3D卷积示意图。

具体实施方式

根据上述描述，以下是一个具体的实施流程，但本专利所保护的范围并不限于该实施流程。

步骤1：数据的预处理和多通道时空信息的提取

将森林烟雾数据集上的视频图像进行分帧和分块处理，将每一帧分为40×40像素的小块，每连续七帧小块作为一组训练数据。传统的卷积神经网络并没有考虑到连续帧之间的运动信息，而3D卷积神经网络通过对多帧图像进行3D卷积，能够同时捕捉烟雾在时间和空间维度的特征。

本发明提出的3D卷积神经网络模型在第一层设置了一个固定的硬线层来对原始帧序列进行处理。硬线层对每七帧输入的原始图像提取五个通道的特征信息，其中，灰度通道(gray channel)提取输入帧的灰度值；梯度x通道计算每一帧图像水平方向的梯度值作为特征信息；梯度y通道计算每一帧图像垂直方向的梯度值作为特征信息；光流x通道通过计算连续两帧图像中水平方向的光流场来作为特征信息；光流y通道通过计算连续两帧图像中垂直方向的光流场来作为特征信息。硬线层通过加入先验知识作为特征信息，得到五个通道的33(7×3+(7-1)×2)个特征图作为初始特征图。

步骤2：多尺度、多角度卷积特征的提取

在得到五个通道的33个特征图以后，通过多个不同尺度的卷积层和下采样层对特征图提取特征。卷积层中每一个特征图都会与上一层中多个邻近的连续帧相连，因此能够捕捉运动信息。网络采用tanh作为激活函数，其卷积运算可以描述为：

其中，是网络第i层中第j个特征图在其位置坐标(x，y，z)处的值，R_i是第i层卷积核在时间维度的尺寸，b_ij为第i层中第j个特征图的偏置，P_i是第i层第卷积核的高度，Q_i是第i层第卷积核的宽度。表示第i层第j个特征图所对应的卷积核在其位置坐标(p，q，r)处的权重，该卷积核与上一层中第u个特征图相连。则表示网络第i-1层中第j个特征图在其位置坐标(x+p，y+q，z+r)处的值。tanh为双曲正切函数，其计算方法为：

在本发明的神经网络结构中，第二层C2层为一个卷积层，采用7×7×3的3D卷积核(空间维度长度为7，宽度为7，时间维度为3帧)与五个通道的每一个初始特征图分别进行卷积。为了提取不同的特征，在每一个位置都采用两个卷积核进行卷积来增加特征图的个数。故在C2层可以得到两组特征图，每一组包含23个特征图。第三层S3层为一个下采样层，S3下采样层对上一层的特征图进行下采样，采用2×2的窗口进行下采样，得到和上一层相同数目但是空间分辨率有所降低的特征图。在这一层可以训练的参数数量是92个。第四层C4层为一个卷积层，该层采用7×6×3的卷积核对上一个下采样层五个通道的两组特征图分别进行卷积。同样，为了提取不同的特征，在每一个位置都采用三个不同的卷积核来进行特征提取，得到六组互相独立的特征图，每一组包含13个特征图。第五层S5层为下采样层，采用3×3的窗口对上一层特征图进行下采样，同样得到和上一层数目相同但空间分辨率有所下降的特征图。在这个阶段，时间维度的特征图尺寸已经足够小，故C6层仅在空间维度继续进行卷积运算。使用7×4的卷积核对上一层特征图进行卷积运算，得到1×1的输出特征图共128个，将该层每一个特征图与S5层中所有78个特征图全连接，组成一个128维的最终特征向量。

步骤3：网络模型的训练和烟雾的分类

通过在卷积层和下采样层提取最终的特征向量后，采用线性分类器SVM来对128维特征向量进行分类。本发明使用自建的森林烟雾数据集进行神经网络的训练，将数据集森林烟雾视频的帧小块序列送入网络模型进行训练分类。

步骤3.1：本发明提出的神经网络采用在全连接层之后加入支持向量机(SVM)进行分类。其评分函数是：

f(x_m，W)＝Wx_m

其中W为权值矩阵，x_m为输入图像的的第m个特征向量，n表示第n类。该特征向量的第n类预测得分值可以表示为：

f(x_m，W)_n＝Wx_m

考虑到整个训练集合上的平均损失，包括正则项，则神经网络中SVM的损失函数为：

其中，矩阵W代表权值矩阵，维度设置为D*C，其中D代表特征的维度，C代表类别数目。其中N代表样本个数。y_m为图像的标记类别，表示图像被标记为第y_m类。代表权值矩阵第k行，第l列的值的平方，λ取0.5.

因为m代表特征向量的序号，所以每取一个m值，将得到一个样本的不同类别的评分估值。对于样本的第m类估值，损失函数计算如下:

损失函数偏导数按照以下过程计算：

其中，ω_n代表W矩阵第n列,为其转置。x_m代表图像特征矩阵X的第m行，表示样本的第m类特征。二者相乘，得出的是样本m在第n个类别上的得分。Δ为随机偏置，取[0.1,0.5]区间的随机数。ψ代表示性函数,当时，函数值取1，否则取0.

接下来，采用随机梯度下降(SGD)方法，最小化上述的代价函数，训练过程将原始视频帧拆分为40×40像素的小块帧，并以7个小块帧为一组进行训练。学习速率是SGD学习方法的必要参数，决定了权值更新的速度，动量参数和权值衰减因子可以提高训练自适应性。通过实验观察，本发明将学习速率设为10^-3，动量参数设置为0.97，权值衰减因子设置为0.0007，采用caffe深度学习框架。随机梯度下降(SGD)学习过程通过NVIDIA TITAN XP GPU设备加速，共进行90000次迭代。3D卷积神经网络的所有参数都采用随机初始化。

设卷积网络s的初始参数为由随机初始化得到。网络类别权重预测值为W_s ⁰，W_s ¹，W_s ²，损失函数输出值为最终的参数为δ_s。则详细的训练过程如下：

1)随机初始化全卷积参数

2)读入森林烟雾数据集，初始化森林烟雾检测网络模型。

3)使用3D卷积网络进行计算，输出类别预测矩阵W_s ⁰.

4)将W_s ⁰输入损失函数，得到损失输出值

5)根据利用SGD训练烟雾检测网络模型，更新参数为得到新的预测值W_s ¹，输入损失函数得到损失输出值

6)根据利用SGD训练烟雾检测网络模型，更新参数为得到新的预测值W_s ²得到损失输出值

7)重复步骤3-6十次到二十次，获得网络s模型的最终参数δ_s，W_s，α_s.

步骤3.2：经过训练后的森林烟雾检测模型将待预测的帧序列分为三个类别，分别是非烟雾图像、烟图像、雾图像，非烟雾图像即不含烟雾的图像块序列，烟图像即含有烟的图像块序列，雾图像即含有雾的图像块序列。通过分类决策函数来对视频序列所属类别进行决策，分类决策函数为：

f(x)＝sign(W^Tx+b)

其中，任取特征向量x_m，已知其标注的正确类别y_m,可通过b＝y_m-ω_mx_m来计算b的值。

Claims

1.基于3DCNN的无人机影森林烟雾检测和分类方法，其特征在于，包括以下步骤：

(1)先将视频数据分割成以多帧为一组的烟雾帧序列，对每一组帧序列，提取灰度、横坐标梯度,纵坐标梯度,x光流,y光流五个通道的信息作为初始特征图，用于下层特征的进一步提取；

(2)多角度、多尺度卷积特征的提取

神经网络模型含有多个卷积层和下采样层，在对原始帧序列进行多通道空间信息和时间信息提取得到初始特征图后，通过卷积层和下采样层来对初始特征图进行特征提取；

(3)网络模型的训练和烟雾检测分类

将卷积层和下采样层提取的特征在全连接层进行组合，得到多维的特征向量；使用线性的SVM作为分类器来对特征进行分类；该特征向量同时包含了帧序列时域和空域上的特征信息；使用随机梯度下降法在森林烟雾数据集上训练网络，并对烟雾区域进行分类。

2.根据权利要求1所述的方法，其特征在于：

步骤1：数据的预处理和多通道时空信息的提取

将森林烟雾数据集上的视频图像进行分帧和分块处理，将每一帧分为40×40像素的小块，每连续七帧小块作为一组训练数据；3D卷积神经网络模型在第一层设置了一个固定的硬线层来对原始帧序列进行处理；硬线层对每七帧输入的原始图像提取五个通道的特征信息，其中，灰度通道提取输入帧的灰度值；梯度x通道计算每一帧图像水平方向的梯度值作为特征信息；梯度y通道计算每一帧图像垂直方向的梯度值作为特征信息；光流x通道通过计算连续两帧图像中水平方向的光流场来作为特征信息；光流y通道通过计算连续两帧图像中垂直方向的光流场来作为特征信息；硬线层通过加入先验知识作为特征信息，得到五个通道的33(7×3+(7-1)×2)个特征图作为初始特征图；

步骤2：多尺度、多角度卷积特征的提取

在得到五个通道的33个特征图以后，通过多个不同尺度的卷积层和下采样层对特征图提取特征；卷积层中每一个特征图都会与上一层中多个邻近的连续帧相连，因此能够捕捉运动信息；网络采用tanh作为激活函数，其卷积运算描述为：

其中，是网络第i层中第j个特征图在其位置坐标(x，y，z)处的值，R_i是第i层卷积核在时间维度的尺寸，b_ij为第i层中第j个特征图的偏置，P_i是第i层第卷积核的高度，Q_i是第i层第卷积核的宽度；表示第i层第j个特征图所对应的卷积核在其位置坐标(p，q，r)处的权重，该卷积核与上一层中第u个特征图相连；则表示网络第i-1层中第j个特征图在其位置坐标(x+p，y+q，z+r)处的值；tanh为双曲正切函数，其计算方法为：

在本发明的神经网络结构中，第二层C2层为一个卷积层，采用7×7×3的3D卷积核与五个通道的每一个初始特征图分别进行卷积；为了提取不同的特征，在每一个位置都采用两个卷积核进行卷积来增加特征图的个数；故在C2层得到两组特征图，每一组包含23个特征图；第三层S3层为一个下采样层，S3下采样层对上一层的特征图进行下采样，采用2×2的窗口进行下采样，得到和上一层相同数目但是空间分辨率有所降低的特征图；在这一层训练的参数数量是92个；第四层C4层为一个卷积层，该层采用7×6×3的卷积核对上一个下采样层五个通道的两组特征图分别进行卷积；同样，为了提取不同的特征，在每一个位置都采用三个不同的卷积核来进行特征提取，得到六组互相独立的特征图，每一组包含13个特征图；第五层S5层为下采样层，采用3×3的窗口对上一层特征图进行下采样，同样得到和上一层数目相同但空间分辨率有所下降的特征图；在这个阶段，时间维度的特征图尺寸已经足够小，故C6层仅在空间维度继续进行卷积运算；使用7×4的卷积核对上一层特征图进行卷积运算，得到1×1的输出特征图共128个，将该层每一个特征图与S5层中所有78个特征图全连接，组成一个128维的最终特征向量；

步骤3：网络模型的训练和烟雾的分类

通过在卷积层和下采样层提取最终的特征向量后，采用线性分类器SVM来对128维特征向量进行分类。

3.根据权利要求2所述的方法，其特征在于，步骤3具体为：

步骤3.1：神经网络采用在全连接层之后加入支持向量机(SVM)进行分类；其评分函数是：

f(x_m，W)＝Wx_m

其中W为权值矩阵，x_m为输入图像的的第m个特征向量，n表示第n类；该特征向量的第n类预测得分值表示为：

f(x_m，W)_n＝Wx_m

其中，矩阵W代表权值矩阵，维度设置为D*C，其中D代表特征的维度，C代表类别数目；其中N代表样本个数；y_m为图像的标记类别，表示图像被标记为第y_m类；代表权值矩阵第k行，第l列的值的平方，λ取0.5.

因为m代表特征向量的序号，所以每取一个m值，将得到一个样本的不同类别的评分估值；对于样本的第m类估值，损失函数计算如下:

损失函数偏导数按照以下过程计算：

其中，ω_n代表W矩阵第n列,为其转置；x_m代表图像特征矩阵X的第m行，表示样本的第m类特征；二者相乘，得出的是样本m在第n个类别上的得分；Δ为随机偏置，取[0.1,0.5]区间的随机数；ψ代表示性函数,当时，函数值取1，否则取0；

接下来，采用随机梯度下降方法，最小化上述的代价函数，训练过程将原始视频帧拆分为40×40像素的小块帧，并以7个小块帧为一组进行训练；将学习速率设为10^-3，动量参数设置为0.97，权值衰减因子设置为0.0007，采用caffe深度学习框架；随机梯度下降学习过程通过NVIDIA TITAN XP GPU设备加速，共进行90000次以上的迭代；3D卷积神经网络的所有参数都采用随机初始化。