CN107730473A

CN107730473A - 一种基于深度神经网络的煤矿井下图像处理方法

Info

Publication number: CN107730473A
Application number: CN201711076257.5A
Authority: CN
Inventors: 孙晓燕; 满广毅; 聂鑫; 陆子帅
Original assignee: China University of Mining and Technology CUMT
Current assignee: China University of Mining and Technology CUMT
Priority date: 2017-11-03
Filing date: 2017-11-03
Publication date: 2018-02-23

Abstract

一种基于深度神经网络的煤矿井下图像处理方法，采用AlexNet的网络结构模型，构建了八层卷积神经网络，利用Tensorflow深度学习训练框架完成对网络的训练；然后，针对五类图像质量亮度过高，亮度过低，噪点过高，对比度过低，分辨率过低的图像，利用其实现对初始训练后的卷积神经网络的训练和测试，以获得可实现图像质量分类的深度卷积神经网络；结合目前成熟的图像处理方法，分别针对不同质量类型的图像使用不同类型的图像处理方法。本发明内容不仅是矿井灾区侦检探测可视化必须解决的关键问题，也将为未来我国深部煤炭资源大规模安全开采提供知识储备和技术基础。

Description

一种基于深度神经网络的煤矿井下图像处理方法

技术领域

本发明涉及图像处理方法，具体涉及一种基于深度神经网络的煤矿井下图像处理方法。

背景技术

智能视频监控是煤矿安全生产系统不可缺少的组成部分，大部分大中型的煤矿单位和各大矿业研究机构都已经配备了智能视频监控系统，监控人员能够比较及时的通过各种视频设施对煤矿井下的人员情况、设备工作情况、安全情况等信息进行掌握。所以，智能视频监控为煤矿生产的安全顺利进行提供了有力的保障与支持。然而，煤矿井下的事故却仍然时有发生，而且许多事故经过鉴定后，被鉴定为由于视频监控系统的图像质量不好而导致的事故。

针对现有的图像处理方法，面向不同的待增强图像，因为增强方法和工作机制的不同，没有高效普适的图像增强方法，现有理论和技术存在大量亟待解决的问题。

尤其是，煤矿井下的图像具有对比度比较低，光照分布不太均匀，有的区域光照过强，有的区域光照过弱，生产区域粉尘大而导致图像噪点过高，存在明显光斑现象等特点，图像的成像质量比较差，导致图像视觉效果较差。

鉴于此，发明人以矿井下图像增强研究为导向，基于深度神经网络提出了把输入的待增强图像进行分类，再针对每种待增强图像用不同方法进行处理的技术模型。

发明内容

根据现有技术的不足，本发明提供一种基于深度神经网络的煤矿井下图像处理方法，该煤矿井下图像处理方法能够针对各种图像进行增强，得到的增强图像效果更好。

本发明按以下技术方案实现：

一种基于深度神经网络的煤矿井下图像处理方法，该方法包括以下步骤：

步骤一：构建AlexNet网络；

步骤二：使用ImageNet图像样本集训练神经网络；

步骤三：测试是否满足准确率要求；如果不满足则返回上一步骤，如果满足则进行下一步骤；

步骤四：对未知类型井下样本进行分类；

步骤五：对分类后的图像样本进行相应的处理，从而得到增强图像。

优选的是，在步骤四中，井下样本分类是用训练样本通过深度神经网络来学习，然后再对需要分类的图像添加标签；衡量分类是否符合要求用下面两个参数：

损失函数，在进行机器学习任务时，使用的每一个算法都有一个目标函数，算法便是对这个目标函数进行优化，在分类或者回归任务中，便是使用损失函数作为其目标函数；

分类准确率，即为对用训练样本训练好的神经网络进行测试时，分类正确的测试样本占所有测试样本的比重。

优选的是，所述损失函数采用ensorflow中所提供的“categorical_crossentropy”函数。

优选的是，在步骤四中，对井下样本进行五种分类，分别为亮度过低的图像样本、亮度过高的图像样本、图像高噪的图像样本、对比度过低的图像样本以及分辨率过低的图像样本；对于亮度过低的图像样本和亮度过高的图像样本采用直方图均衡化的方法进行处理；对于图像高噪的图像样本采用中值滤波的方法进行处理；对于对比度过低的图像样本采用灰度对数变换的方法进行处理；对于分辨率过低的图像样本采用图像超分辨率重构方法进行处理。

优选的是，所述步骤一中实现AlexNet网络的具体过程如下：

1)首先导入tensorflow，TFlearn，numpy相关Python库；

2)准备训练数据设置占位符；

3)使用神经网络运算搭建卷积神经网络模型；

4)设置训练参数和开启会话并开始训练；

5)使用保存加载器保存训练好的网络模型。

优选的是，所述AlexNet网络共有8层，其中前5层卷积层，后边3层全连接层，最后的一个全连接层的output是softmax的多分类器，最后的优化目标是最大化平均的多元逻辑回归。

优选的是，在图像处理中，图像是以二维矩阵的形式输入到神经网络中，因此需要二维卷积；

假设和分别是第l层和第l-1层的神经元活性，X^(l)的每一个元素为：

其中，W^(l)∈R^u×v为二维的滤波器，B为偏置矩阵，第l-1层的神经元个数为(w_l×h_l)，并且w_l＝w_l-1-u+1，h_l＝h_l-1-v+1。

优选的是，在卷积层之后再加上一个降低特征的维数，避免过拟合的池化层；

对于卷积层得到的一个特征映射X^(l)，能够将X^(l)划分为多个区域R_k,k＝1,7,K，这些区域可以重叠，也可以不重叠；

一个子采样函数down(…)定义为：

其中，w^(l+1)和b^(l+1)分别是可训练的权重和偏置参数；

X^(l+1)＝f(Z^(l+1))＝f(w^(l+1)·down(X^l)+b^(l+1))

down(X^l)是指子采样后的特征映射；

子采样函数down(·)取区域内所有神经元的最大值；即

优选的是，防止过拟合的方法为：当训练数据有限的时候，通过一些变换来从已有的训练数据集中生成一些新的数据，来扩大训练数据的形式，其图像数据变形的方式:

1)从原始图像中，随机的裁剪出一些图像；

2)水平翻转图像；

3)给图像增加一些随机的光照。

优选的是，防止过拟合的方法为：通过训练大量的不同的网络，来平均预测概率，即以0.5的概率，将每个隐层神经元的输出设置为零。

本发明有益效果：

本发明提出的基于深度神经网络的煤矿井下图像处理模型，采用一种先对煤矿井下图像进行分类，决定将图像分为五大类：亮度过高、亮度过低、噪点过高、对比度过低、分辨率过低，之后分别对这五类不同类型的图像有针对性地使用不同的图像处理技术，来提高井下图像增强的效果。主要根据我国煤炭工业的现代化发展趋势，使得监控人员能够更加良好，更加及时地识别图像中所出现的情况，有更充分的时间去应对和制定某些问题，提升煤矿事业的安全生产系数。本发明内容不仅是矿井灾区侦检探测可视化必须解决的关键问题，也将为未来我国深部煤炭资源大规模安全开采提供知识储备和技术基础。

附图说明

图1基于深度神经网络的煤矿井下图像处理框架；

图2为AlexNet网络实现流程图；

图3为利用煤矿井下的图像进行训练的损失函数值变化情况图；

图4为处理前亮度过低的图像样本；

图5为图4通过本发明方法处理后的图像样本；

图6为处理前亮度过高的图像样本；

图7为图6通过本发明方法处理后的图像样本；

图8为处理前图像高噪的图像样本；

图9为图8通过本发明方法处理后的图像样本；

图10为处理前对比度过低的图像样本；

图11为图10通过本发明方法处理后的图像样本；

图12为处理前分辨率过低的图像样本；

图13为图12通过本发明方法处理后的图像样本。

具体实施方式

以下结合附图，通过具体实施例对本发明作进一步的说明。

如图1所示，本发明采用AlexNet的网络结构模型，构建了八层卷积神经网络，利用Tensorflow深度学习训练框架完成对网络的训练；然后，针对五类图像质量亮度过高，亮度过低，噪点过高，对比度过低，分辨率过低的图像，利用其实现对初始训练后的卷积神经网络的训练和测试，以获得可实现图像质量分类的深度卷积神经网络；结合目前成熟的图像处理方法，分别针对不同质量类型的图像使用不同类型的图像处理方法。

如图2所示，实现AlexNet网络的具体过程如下：

1)首先导入tensorflow，TFlearn，numpy等相关Python库；

2)准备训练数据设置占位符(placeholder)；

3)使用神经网络运算

API(conv2d,max_pool,relu,softmax,dropout,matmul)搭建卷积神经网络模型；

4)设置训练参数和开启会话(Session)并开始训练；

5)使用保存加载器(Saver)保存(save)训练好的网络模型。

本发明所搭建的AlexNet网络共有8层，其中前5层卷积层，后边3层全连接层，最后的一个全连接层的output是softmax的多分类器，最后的优化目标是最大化平均的multinomial logistic regression(多元逻辑回归)。

在图像处理中，图像是以二维矩阵的形式输入到神经网络中，因此需要二维卷积。假设和分别是第l层和第l-1层的神经元活性。X^(l)的每一个元素为：

其中，W^(l)∈R^u×v为二维的滤波器，B为偏置矩阵。第l-1层的神经元个数为(w_l×h_l)，并且w_l＝w_l-1-u+1，h_l＝h_l-1-v+1。也可以写成：

在卷积层之后再加上一个池化(Pooling)操作，也叫子采样(Subsampling)层或下采样层。池化层可以大大降低特征的维数，避免过拟合。

对于卷积层得到的一个特征映射X^(l)，可以将X^(l)划分为很多区域R_k,k＝1,…,K，这些区域可以重叠，也可以不重叠。一个子采样函数down(…)定义为：

其中，w^(l+1)和b^(l+1)分别是可训练的权重和偏置参数。

X^(l+1)＝f(Z^(l+1))＝f(w^(l+1)·down(X^l)+b^(l+1))

down(X^l)是指子采样后的特征映射。

子采样函数down(·)取区域内所有神经元的最大值(Maximum Pooling)。

大小为224*224*3的图像样本经过“input”输入层进入该神经网络开始参与训练，首先经过卷积层进行低层次的特征提取，该卷积层的卷积核大小为11*11，滑动步长为4，形成大小为55*55*48的卷积层，之后对卷积层做“maxpooling”池化操作，池化大小为5*5，滑动步长为2，生成大小,为22*22*128的池化层，紧接着进行与之前相同的的第二次卷积、池化操作，再之后进入3层连续卷积层进行高维度特征抽象，卷积核的大小为3*3，滑动步长为1，之后再进行一次“maxpooling”，再之后就是连续的3层全连接层，最后进行softmax的多分类层进行输出，此处由于训练样本与数据集为五类，所以softmax的输出个数为5。

所采用的防止过拟合的方法：Dropout，Data augmentation:

(1)Data augmentation

当训练数据有限的时候，可以通过一些变换来从已有的训练数据集中生成一些新的数据，来扩大训练数据的形式。其中，最简单、通用的图像数据变形的方式:

1)从原始图像(256,256)中，随机的裁剪出一些图像(224,224)。[平移变换，crop]

2)水平翻转图像。[反射变换，flip]

3)给图像增加一些随机的光照。[光照、彩色变换，color jittering]

AlexNet训练的时候，在data augmentation上处理的很好：

·随机裁剪。训练时候，对于256×256的图片进行随机裁剪到224×224，然后允许水平翻转，那么相当与将样本倍增到((256-224)^2)×2＝2048。

·测试时候，对左上、右上、左下、右下、中间做了5次裁剪，然后翻转，共10个裁剪，之后对结果求平均。作者说，不做随机裁剪，大网络基本都过拟合(under substantialoverfitting)。

·对RGB空间做PCA，然后对主成分做一个(0,0.1)的高斯扰动。结果让错误率又下降了1％。

(2)dropout随机失活

Dropout是一个非常有效的模型组合版本，它在训练中只需要花费两倍于单模型的时间。它做的就是以0.5的概率，将每个隐层神经元的输出设置为零。以这种方式“dropped out”的神经元既不参与前向传播，也不参与反向传播。

所以每次输入一个样本，就相当于该神经网络就尝试了一个新的结构，但是所有这些结构之间共享权重。因为神经元不能依赖于其他特定神经元而存在，所以这种技术降低了神经元复杂的互适应关系。

正因如此，网络需要被迫学习更为鲁棒的特征，这些特征在结合其他神经元的一些不同随机子集时有用。在测试时，将所有神经元的输出都仅仅只乘以0.5，对于获取指数级dropout网络产生的预测分布的几何平均值，这是一个合理的近似方法。

Dropout可以看做是一种模型平均，所谓模型平均，顾名思义，就是把来自不同模型的估计或者预测通过一定的权重平均起来，它一般包括组合估计和组合预测。dropout过程就是一个非常有效的神经网络模型平均方法，通过训练大量的不同的网络，来平均预测概率。

图像分类方法：

图像分类没有用一个恒定的阈值，而是用训练样本通过深度神经网络来学习，然后再对需要分类的图像添加标签。

图像质量的分类，用的是AlexNet网络。把煤矿井下的图像分为五种图像样本分别打上标签0-4，分别对应于某一类的图像特点。然后将这些图像样本随机分为两类，其中60％用作深度卷积神经网络的训练样本，另外40％用作深度卷积神经网络的测试样本。衡量分类是否符合要求用下面两个参数：

损失函数loss

在进行机器学习任务时，使用的每一个算法都有一个目标函数，算法便是对这个目标函数进行优化，特别是在分类或者回归任务中，便是使用损失函数(Loss Function)作为其目标函数，又称为代价函数(Cost Function).损失函数是用来评价模型的预测值与真实值的不一致程度，它是一个非负实值函数。本次工作中采用的是Tensorflow中所提供的“categorical_crossentropy”损失函数。

分类准确率accuracy

分类准确率即为对用训练样本训练好的神经网络进行测试时，分类正确的测试样本占所有测试样本的比重。

如图3所示，随着训练步数step的增加，损失函数loss的值逐渐降低，到800步之后损失函数loss的值基本趋于0，说明此时卷积神经网络已经达到训练要求，分类正确率也在90％以上。

对于分类完成的图像，使用对应的图像增强算法进行处理，其处理方法如下：亮度过低的图像样本(即第0类)和过高的图像样本(即第1类)

灰度直方图能够描述图像最基本的一些统计方面的特征，灰度直方图能够比较准确的反映对于某一张照片来说，其所具有的空间域的特征。而直方图均衡化的方法对于直方图非均匀分布的一些图像具有比较良好地处理能力。

图像的直方图在一定程度上表示了图像亮度的概率密度的分布函数，具有良好反应空间像素集合统计规律的特征，直方图在某些程度上也可以用于特殊的图像处理算法。而此处的直方图均衡化的方法就是将一幅图像通过灰度变换为另一幅具有比较良好特性的图像，如图4、5、6、7所示。

图像高噪的图像样本(即第2类)

煤矿井下的图像可能出现的噪声主要为椒盐噪声，所以使用处理椒盐噪声的方法来对该类煤矿井下图像进行处理。

滤除椒盐噪声比较有效的方法是对信号进行中值滤波处理。中值滤波是指将一个像素的值用该像素邻域中强度值的中间值来取代。去除椒盐噪声的后可以得到较为平滑的信号，其效果要优于均值滤波器，如图8、9所示。

对比度过低的图像样本(即第3类)

灰度级变换是借助函数变换将输入的像素灰度值映射成为一个新的输出值，通过改变像素的亮度值来增强图像。将对比度低的图像或暗的图像的灰度值进行重新映射，扩展灰度级范围，使其分布在整个灰度值区间。

根据变换函数的不同，灰度级变换可以分为线性灰度级变换和非线性灰度级变换。而线性灰度级变缓又包括基本线性变换、窗口线性变换、分段线性变换等。非线性灰度变换的类型主要与非线性变换函数有关，常见的有指数变换和对数变换等。对于对比度过低的图像样本使用灰度对数变换的方法进行处理，如图10、11所示。

分辨率过低的图像样本(即第4类)

煤矿井下的一部分图像由于气体的扰动、物体与成像设备之间的相对运动、成像设备聚焦不准确、周围环境的变化等种种因素，导致图像的分辨率比较低，在智能视频监控的过程中，又往往需要一些分辨率比较高的图像来进行分析，那么在这里就需要有关“图像超分辨率重构”的图像处理方法。对于图像超分辨率重构的问题，使用基于卷积神经网络和深度学习的图像超分辨率重建技术对分辨率过低的图像样本进行处理，如图12、13所示。

与现有技术相比，本发明提出的基于深度神经网络的煤矿井下图像处理模型，采用一种先对煤矿井下图像进行分类，决定将图像分为五大类：亮度过高、亮度过低、噪点过高、对比度过低、分辨率过低，之后分别对这五类不同类型的图像有针对性地使用不同的图像处理技术，来提高井下图像增强的效果。主要根据我国煤炭工业的现代化发展趋势，使得监控人员能够更加良好，更加及时地识别图像中所出现的情况，有更充分的时间去应对和制定某些问题，提升煤矿事业的安全生产系数。本发明内容不仅是矿井灾区侦检探测可视化必须解决的关键问题，也将为未来我国深部煤炭资源大规模安全开采提供知识储备和技术基础。

以上仅是本发明的优选实施方式，应当指出：对于本技术领域的普通技术人员来说，在不脱离本发明原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也应视为本发明的保护范围。

Claims

1.一种基于深度神经网络的煤矿井下图像处理方法，其特征在于，该方法包括以下步骤：

步骤一：构建AlexNet网络；

步骤二：使用ImageNet图像样本集训练神经网络；

步骤四：对未知类型井下样本进行分类；

2.根据权利要求1所述的一种基于深度神经网络的煤矿井下图像处理方法，其特征在于：在步骤四中，井下样本分类是用训练样本通过深度神经网络来学习，然后再对需要分类的图像添加标签；

衡量分类是否符合要求用下面两个参数：

3.根据权利要求2所述的一种基于深度神经网络的煤矿井下图像处理方法，其特征在于：所述损失函数采用Tensorflow中所提供的“categorical_crossentropy”函数。

4.根据权利要求1所述的一种基于深度神经网络的煤矿井下图像处理方法，其特征在于：

在步骤四中，对井下样本进行五种分类，分别为亮度过低的图像样本、亮度过高的图像样本、图像高噪的图像样本、对比度过低的图像样本以及分辨率过低的图像样本；

对于亮度过低的图像样本和亮度过高的图像样本采用直方图均衡化的方法进行处理；

对于图像高噪的图像样本采用中值滤波的方法进行处理；

对于对比度过低的图像样本采用灰度对数变换的方法进行处理；

对于分辨率过低的图像样本采用图像超分辨率重构方法进行处理。

5.根据权利要求1所述的一种基于深度神经网络的煤矿井下图像处理方法，其特征在于：

所述步骤一中实现AlexNet网络的具体过程如下：

1)首先导入tensorflow，TFlearn，numpy相关Python库；

2)准备训练数据设置占位符；

3)使用神经网络运算搭建卷积神经网络模型；

4)设置训练参数和开启会话并开始训练；

5)使用保存加载器保存训练好的网络模型。

6.根据权利要求5所述的一种基于深度神经网络的煤矿井下图像处理方法，其特征在于：

所述AlexNet网络共有8层，其中前5层卷积层，后边3层全连接层，最后的一个全连接层的output是softmax的多分类器，最后的优化目标是最大化平均的多元逻辑回归。

7.根据权利要求5所述的一种基于深度神经网络的煤矿井下图像处理方法，其特征在于：

在图像处理中，图像是以二维矩阵的形式输入到神经网络中，因此需要二维卷积；

<mrow> <msubsup> <mi>X</mi> <mrow> <mi>s</mi> <mo>,</mo> <mi>t</mi> </mrow> <mrow> <mo>(</mo> <mi>l</mi> <mo>)</mo> </mrow> </msubsup> <mo>=</mo> <mi>f</mi> <mrow> <mo>(</mo> <munderover> <mo>&Sigma;</mo> <mrow> <mi>i</mi> <mo>=</mo> <mn>1</mn> </mrow> <mi>u</mi> </munderover> <munderover> <mo>&Sigma;</mo> <mrow> <mi>j</mi> <mo>=</mo> <mn>1</mn> </mrow> <mi>v</mi> </munderover> <msubsup> <mi>W</mi> <mrow> <mi>i</mi> <mo>,</mo> <mi>j</mi> </mrow> <mrow> <mo>(</mo> <mi>l</mi> <mo>)</mo> </mrow> </msubsup> <mo>&CenterDot;</mo> <msubsup> <mi>X</mi> <mrow> <mi>s</mi> <mo>-</mo> <mi>i</mi> <mo>+</mo> <mi>u</mi> <mo>,</mo> <mi>t</mi> <mo>-</mo> <mi>j</mi> <mo>+</mo> <mi>v</mi> </mrow> <mrow> <mo>(</mo> <mi>l</mi> <mo>-</mo> <mn>1</mn> <mo>)</mo> </mrow> </msubsup> <mo>+</mo> <msup> <mi>B</mi> <mrow> <mo>(</mo> <mi>l</mi> <mo>)</mo> </mrow> </msup> <mo>)</mo> </mrow> </mrow>

8.根据权利要求7所述的一种基于深度神经网络的煤矿井下图像处理方法，其特征在于：

在卷积层之后再加上一个降低特征的维数，避免过拟合的池化层；

对于卷积层得到的一个特征映射X^(l)，能够将X^(l)划分为多个区域R_k,k＝1,…,K，这些区域可以重叠，也可以不重叠；

一个子采样函数down(…)定义为：

<mfenced open = "" close = ""> <mtable> <mtr> <mtd> <mrow> <msubsup> <mi>X</mi> <mi>k</mi> <mrow> <mo>(</mo> <mi>l</mi> <mo>+</mo> <mn>1</mn> <mo>)</mo> </mrow> </msubsup> <mo>=</mo> <mi>f</mi> <mrow> <mo>(</mo> <msubsup> <mi>Z</mi> <mi>k</mi> <mrow> <mo>(</mo> <mi>l</mi> <mo>+</mo> <mn>1</mn> <mo>)</mo> </mrow> </msubsup> <mo>)</mo> </mrow> </mrow> </mtd> </mtr> <mtr> <mtd> <mrow> <mo>=</mo> <mi>f</mi> <mrow> <mo>(</mo> <msup> <mi>w</mi> <mrow> <mo>(</mo> <mi>l</mi> <mo>+</mo> <mn>1</mn> <mo>)</mo> </mrow> </msup> <mo>&CenterDot;</mo> <mi>d</mi> <mi>o</mi> <mi>w</mi> <mi>n</mi> <mo>(</mo> <msub> <mi>R</mi> <mi>k</mi> </msub> <mo>)</mo> <mo>+</mo> <msup> <mi>b</mi> <mrow> <mo>(</mo> <mi>l</mi> <mo>+</mo> <mn>1</mn> <mo>)</mo> </mrow> </msup> <mo>)</mo> </mrow> </mrow> </mtd> </mtr> </mtable> </mfenced>

其中，w^(l+1)和b^(l+1)分别是可训练的权重和偏置参数；

X^(l+1)＝f(Z^(l+1))

＝f(w^(l+1)·down(X^l)+b^(l+1))

down(X^l)是指子采样后的特征映射；

子采样函数down(·)取区域内所有神经元的最大值；即

<mrow> <msub> <mi>pool</mi> <mrow> <mi>m</mi> <mi>a</mi> <mi>x</mi> </mrow> </msub> <mrow> <mo>(</mo> <msub> <mi>R</mi> <mi>k</mi> </msub> <mo>)</mo> </mrow> <mo>=</mo> <munder> <mrow> <mi>m</mi> <mi>a</mi> <mi>x</mi> </mrow> <mrow> <mi>i</mi> <mo>&Element;</mo> <msub> <mi>R</mi> <mi>k</mi> </msub> </mrow> </munder> <msub> <mi>a</mi> <mi>i</mi> </msub> <mo>.</mo> </mrow>

9.根据权利要求5所述的一种基于深度神经网络的煤矿井下图像处理方法，其特征在于：

防止过拟合的方法为：当训练数据有限的时候，通过一些变换来从已有的训练数据集中生成一些新的数据，来扩大训练数据的形式，其图像数据变形的方式:

1)从原始图像中，随机的裁剪出一些图像；

2)水平翻转图像；

3)给图像增加一些随机的光照。

10.根据权利要求5所述的一种基于深度神经网络的煤矿井下图像处理方法，其特征在于：

防止过拟合的方法为：通过训练大量的不同的网络，来平均预测概率，即以0.5的概率，将每个隐层神经元的输出设置为零。