CN108171672A

CN108171672A - 基于红通道和全卷积神经网络的水下光学智能感知方法

Info

Publication number: CN108171672A
Application number: CN201810020550.8A
Authority: CN
Inventors: 李学龙; 王�琦; 李昊鹏
Original assignee: Northwestern Polytechnical University
Current assignee: Northwestern Polytechnical University
Priority date: 2018-01-10
Filing date: 2018-01-10
Publication date: 2018-06-15
Anticipated expiration: 2038-01-10
Also published as: CN108171672B

Abstract

本发明提供了一种基于红通道和全卷积神经网络的水下光学智能感知方法，利用光学信息对水下场景进行智能感知，首先通过选通成像设备采集得到对比度高且抑制“雾化”现象的水下光学图像，然后利用红通道算法对图像进行颜色恢复，有效地对图像进行视觉效果增强，使得图像更接近于自然光照下的成像效果，最后使用改进的全卷积神经网络对图像进行智能地语义分割，快速得到高精度的水下感知图像。

Description

基于红通道和全卷积神经网络的水下光学智能感知方法

技术领域

本发明属计算机视觉、图形处理技术领域，具体提出一种基于红通道和全卷积神经网络的水下光学智能感知方法。

背景技术

近年来，随着陆地资源的日益紧缺和国际形势的不断发展，海洋越来越成为世界各国争夺的焦点。一方面，海洋作为地球最大的生态系统，是一个庞大的资源宝库，可以为社会的可持续发展提供物质基础；另一方面，海洋同陆地、天空等共同组成一个国家或地区的领土范围，具有重要的军事战略意义。随着科学技术的不断进步，海洋感知技术日渐成熟。海洋感知技术的研究对于海洋资源探索与开发、海洋军事应用和海洋环境监测等具有重大意义。常用的海洋感知技术包括水下光学技术、声纳技术和放射性探测技术等。其中，水下光学技术相较于其他感知技术具有精度高、抗噪声能力强、污染性小、更直观等优点，也越来越成为研究热点。

不同于一般的大气光学，由于光在水中特殊的传输特性，水下光学的成像质量往往很差。一方面，不同频率的光在水中传输的衰减不同，造成水下成像时物体原本颜色的扭曲；另一方面，由于水分子和其他悬浮颗粒的存在，大量的光被散射入相机镜头，造成图像的“雾化”，大大降低了图像的对比度。因此，水下图像往往具有呈现蓝绿色调、对比度较低的特点，这为水下光学感知带来巨大难题。

为解决上述成像难题，大量水下图像处理方法不断涌现，这些方法大致可以分为基于硬件和基于算法两大类型。基于硬件的水下图像处理方法包括偏振成像、距离选通成像、荧光成像和立体成像，例如：Yemelyanov等人在文献“Adaptive algorithms for two-channel polarization sensing under various polarization statistics withnonuniform distributions,Appl Opt,vol.29,no.22,pp.5504-5520,2006”中提出将偏振片固定在相机镜头前方以获得偏振图像；H.Li等人在文献“Speckle noise suppressionof range gated underwater imaging system,Appl Opt,vol.18,no.18,pp.3937–3944,2009”中提出通过抑制选通图像的斑点状噪声来提高水下图像的质量。根据输出结果的不同，基于算法的水下图像处理方法可以分为波长补偿法和颜色复原法，例如：Fattal在文献“Dehazing Using Color-Lines,ACM,vol.34,no.1,pp.1-14,2014”中提出利用“颜色线”(Color-lines)方法估计模糊的混乱程度，然后使用随机马尔科夫场模型重建清晰图像；Petit等人在文献“Underwater image enhancement by attenuation inversion withquaternions,IEEE International Conference on Acoustics,Speech and SignalProcessing,pp.1177-1180,2009”中利用四元数处理RGB颜色空间的收缩，然后提出了光衰减的逆转方法进行图像颜色复原。

上述基于硬件的水下图像处理方法由于涉及硬件设备的设计和改装，工作难度较大；而基于算法的处理方法计算过程复杂，导致在实际使用过程中难以达到实时处理的要求。如何设计快速有效地图像处理方法是水下光学感知的一大难题。

常见的光学感知方法包括目标的检测、识别、跟踪和图像的语义分割。目标检测是指对图像中的物体进行检测并且用方形框标出物体所在位置；目标识别是指对检测出的物体进行语义级别的分类；目标跟踪是指对于每个出现在连续图像序列中的物体进行逐帧的定位；图像的语义分割是指对图像进行逐像素的分类，最后将整幅图像分类不同区块，每一区块表示具有语义一致性的真实场景。相对于目标的检测、识别和跟踪，图像分割具有定位准确、效果直观、网络易训练等优点，因此图像分割是水下光学感知的首选手段。

传统图像分割方法利用图像的浅层特征，例如颜色、边缘、纹理等等。基于浅层特征的图像分割算法效果较差，不能对图像进行语义级别的区域划分。基于卷积神经网络的图像分割算法效果较好，能够实现对图像的深度解析，但是计算时间复杂度和空间复杂度较高，在实际应用中难以实现实时。如何设计高精度、快速的图像分割算法是水下光学感知的另一难题。

发明内容

为了克服现有技术的不足，本发明提供一种基于红通道和全卷积神经网络的水下光学智能感知方法，利用光学信息对水下场景进行智能感知，首先通过选通成像设备采集高对比度水下光学图像，然后利用红通道算法对图像进行颜色恢复，得到增强后的水下图像，最后使用改进的全卷积神经网络对图像进行智能地语义分割，快速得到高精度的水下感知图像。

一种基于红通道和全卷积神经网络的水下光学智能感知方法，其特征在于包括以下步骤：

步骤一：利用脉冲激光器和选通摄像机进行图像成像，得到水下场景图像，具体为：用脉冲激光源照明目标，接收端使用选通摄像机的距离选通门，使由场景中反射回来的辐射脉冲刚好在选通摄像机工作的时间内到达相机镜头并成像。

步骤二：利用红通道算法对水下场景图像进行增强处理，得到增强后的水下场景图像，具体为：

步骤a：通过红通道估计水色。首先，寻找满足下述条件的像素p₀：

其中为步骤一得到的水下场景图像I的红通道，I^R、I^G、I^B分别表示图像I的RGB三个分量，Ω(p)表示像素p的5×5邻域，y表示任意属于Ω(p)的一个像素。

然后，以A＝I(p₀)＝(A^R,A^G,A^B)作为水色估计值，其中，A^R、A^G、A^B分别表示水色A的RGB三个颜色分量。

步骤b：衰减率估计。分别利用以下公式计算得到每个像素的RGB三个颜色的衰减率估计值t^R(p)、t^G(p)和t^B(p)：

其中，d(p)表示像素p所代表的真实目标与摄像机之间的距离，β＝(β^R,β^G,β^B)为固有衰减系数。

步骤c：通过红通道进行颜色校正，得到增强后的水下图像J＝(J^R,J^G,J^B)，即分别按照以下公式计算得到每个像素的RGB三个颜色的校正值J^R(p)、J^G(p)和J^B(p)：

其中，t₀为正则因子，取值范围为[0.05,0.2]。

步骤三：利用改进的全卷积神经网络对增强后的水下场景图像进行语义分割，得到水下光学感知图像，具体为：

步骤a：数据标注。拍摄各种水下场景图像，对其进行如步骤2所述的增强处理，然后进行像素级别的人工标注，标注每个像素所属类别，得到标注后图像。

步骤b：网络训练。以任意80％标注后图像为训练集，输入改进的全卷积神经网络进行训练，其中，学习率设置为0.01，动量设置为0.9，并利用随机梯度下降法进行参数更新，得到训练后的神经网络。并计算网络在训练集上的精度，计算公式为其中，OA表示分类精度，N_c表示分类正确的像素个数，N表示像素总个数。

所述的改进的全卷积神经网络结构共包括13层，第一层为卷积层，卷积核数目为96，大小为11×11，padding设置为5，并用ReLU激活；第二层为池化层，池化核大小设置为4×4；第三层为卷积层，卷积核数目为256，大小为5×5，padding设置为2，并用ReLU激活；第四层为池化层，池化核大小设置为2×2；第五层为卷积层，卷积核数目为384，大小为3×3，padding为设置为1，并用ReLU激活；第六层为池化层，池化核大小设置为2×2；第七层为卷积层，卷积核数目为384，大小为3×3，padding设置为1，并用ReLU激活；第八层为卷积层，卷积核数目为256，大小为3×3，padding设置为1，并用ReLU激活；第九层为卷积层，卷积核数目为2048，大小为1×1，并用ReLU激活；第十层为池化层，池化核大小设置为2×2；第十一层为卷积层，卷积核数目为2048，大小为1×1，并用ReLU激活；第十二层为卷积层，卷积核数目为50，大小为1×1，并用ReLU激活；第十三层为上采样层，上采样核大小为32×32。

步骤c：网络测试。利用剩余20％标注图像对步骤b训练好的神经网络进行分类测试，并按计算得到当前状态下模型的像素分类精度，其中，OA表示分类精度，N_c表示分类正确的像素个数，N表示像素总个数。

步骤d：网络优化。根据步骤c的测试结果对网络学习率和正则参数进行调整，具体为：若在训练集上精度低于90％，表示没有收敛到局部最优解，学习率降低10倍；若模型在训练集上的精度远高于测试集20％，表示模型训练过拟合，正则参数增大10倍。

步骤e：重复步骤b-d，直至测试集的分类精度不再改变，得到最优网络模型。

步骤f：利用最优网络模型对步骤二增强后的水下图像进行语义分割，得到水下光学感知图像。

本发明的有益效果是：由于采用选通成像设备，初步获取的水下图像具有较高的对比度而且“雾化”现象得到抑制；利用红通道算法对图像进行颜色恢复，能够快速有效地对图像进行视觉效果增强，使得图像更接近于自然光照下的成像效果；利用改进的全卷积神经网络对图像进行语义分割，能够精确快速地对图像进行全面解析，最终得到水下光学感知图像。本发明通过优化成像-增强-分割各个过程，能够实现对水下场景的精准快速智能解析，为后续水下任务奠定坚实基础。

附图说明

图1是本发明的一种基于红通道和全卷积神经网络的水下光学智能感知方法流程图

图2是本发明的水下场景图像获取示意图

图3是本发明利用改进的全卷积神经网络进行图像分割示意图，其中W和H分别为原图像的宽和高

具体实施方式

下面结合附图和实施例对本发明进一步说明，本发明包括但不仅限于下述实施例。

本发明提供了一种基于红通道和全卷积神经网络的水下光学智能感知方法，如图1所示，首先通过选通成像设备采集高对比度水下光学图像，然后利用红通道算法对图像进行颜色恢复，得到增强后的水下图像，最后使用改进的全卷积神经网络对图像进行智能地语义分割，快速得到高精度的水下感知图像。具体过程如下：

1、利用脉冲激光器和选通摄像机进行图像成像，得到水下场景图像。

如图2所示，主要利用脉冲激光器和选通摄像机两个工作设备，利用时间先后区分不同距离上的散射光和反射光，使由场景中反射回来的辐射脉冲刚好在选通摄像机工作的时间内到达相机镜头并成像。具体为：首先，用脉冲激光源照明目标，接收端使用距离选通门，在照射的短脉宽激光的光从目标返回前，相机快门一直关闭，信号光抵达时，快门才打开，这样使得接收器几乎同时接收到整个场景的反射光。由于非常短的激光脉冲照射目标物体，相机快门打开的时间相对于照射目标的激光发射时间有一定的延迟,并且快门打开的时间很短,在这段时间内,探测器接收从目标返回的光束,从而排除了大部分的后向散射光。

所获取的水下场景图像的距离分辨率由激光脉冲宽度和探测器选通门宽度决定，宽度为1ns激光脉冲和宽度为1ns成像仪结合，能提供30～60cm的距离分辨率。如果选通脉冲宽度和激光脉冲宽度都很窄，使得只有目标附近的反射光才能到达摄像机，那么就能大大提高回波信号的信噪比。

本实施例采用5ns脉宽532nm YAG激光器，单脉冲能量为160mJ，接收器采用增强电荷耦合器件，视场为12°～13°，并且获取的水下图像对比度较高，拍摄到的6倍衰减距离图像可用人眼识别目标，10倍衰减距离图像可用人眼能够感知到目标的存在。

2、利用红通道算法对水下场景图像进行增强处理，得到增强后的水下场景图像。

光在水下传播会呈指数速率衰减，而且不同波长的光衰减速率不同。实验证明，在水中波长越长的光衰减越快，获取到的RGB图像由于红光衰减过快，红色分量通道强度往往很低，这导致获取的图像颜色发生扭曲。此步骤的目的是对由上一步骤获取的图像进行红色通道增强，以恢复场景的自然颜色。对于水下成像，建立如下成像模型：

I(p)＝J(p)t(p)+A(1-t(p)) (4)

其中，I表示步骤1获取得到的水下场景图像，p表示图像中的像素，J表示场景的反射光，t表示衰减率(与距离有关)，A表示背景光(水色)。目的是通过图像I恢复出场景的真实反射光J。将上述模型按照分量形式等价写为：

其中，I^R、I^G、I^B分别表示图像I的RGB三个分量，J^R、J^G、J^B分别表示J的RGB三个分量，A^R、A^G、A^B分别表示水色A的RGB三个颜色分量，t^R、t^G、t^B分别表示RGB三个颜色的衰减率分量。由于红色分量随着距离增加相比于其他分量衰减更快，本发明提出以下红通道先验：

其中，Ω(p)表示像素p的邻域，本实施例采用5×5领域，y表示任意属于Ω(p)的一个像素，称J^r为J的红通道。利用红通道先验恢复场景反射光的步骤如下：

(1)通过红通道估计水色

理想情况下，希望选取离摄像头最远的点的颜色作为水的估计颜色。已知衰减是与距离有关的，所以最远的距离对应红通道图像I^r的最大值。令水色为A＝I(p₀)＝(A^R,A^G,A^B)，则一定有

其中通过寻找满足上述条件的p₀，即可以得到水色的估计A。

(2)衰减率估计

衰减率与距离有关，并且不同波长光的衰减率不同。本发明通过以下模型对RGB三个颜色的衰减率进行估计：

其中，d(p)表示像素p所代表的真实目标与摄像机之间的距离，β＝(β^R,β^G,β^B)为固有衰减系数。衰减率t∈(0,1)，越接近1表示衰减越少。

(3)通过红通道进行颜色校正

通过上述两步已经获得近似的水色和衰减率，根据成像模型可以得到以下公式进行颜色校正：

其中，t₀为正则因子，取值范围为[0.05,0.2]，本实施例中t₀取值为0.1。J即为增强后的水下图像。

通过以上三个步骤，可以优化水下场景图像得到水下场景在大气环境中的近似自然光照的图像，达到水下场景图像增强的目的，使其视觉效果更加真实自然，为水下场景的分割任务提供更加有效的数据。

3、利用改进的全卷积神经网络对增强后的水下场景图像进行语义分割，得到水下光学感知图像。

图像分割就是把图像分成若干个特定的、具有独特性质的区域并提出感兴趣目标的技术和过程。而场景分割就是利用图像分割算法将场景进行语义层面的分割，即对场景图像中不同目标进行区分。水下场景图像的分割对于水下资源的探索开发、水下环境的监测具有重要意义。水下场景智能分割可以智能地对获取的水下场景图像进行语义分割，突出场景中感兴趣的区域。

本发明利用改进的全卷积神经网络对场景图像进行智能语义分割，因为全卷积神经网络具有以下优点：1)可以用任意大小的图像作为网络输入；2)逐像素的预测能够提高图像分割的精确度；3)相对于基于一般卷积神将网络而言，全卷积神将网络计算量较低。

本发明的全卷积神经网络基于fine-tune的AlexNet“Krizhevsky A,SutskeverI,Hinton G E.ImageNet Classification with Deep Convolutional Neural Networks[J].Advances in Neural Information Processing Systems,2012,25(2):2012”，具体设置如表1所示。

表1

Conv1	卷积核11×11×96，padding 5，ReLU激活
		MaxPool1	池化核4×4
Conv2	卷积核5×5×256，padding 2，ReLU激活
		MaxPool2	池化核2×2
Conv3	卷积核3×3×384，padding 1，ReLU激活
		MaxPool3	池化核2×2
Conv4	卷积核3×3×384，padding 1，ReLU激活
		Conv5	卷积核3×3×256，padding 1，ReLU激活
Conv6	卷积核1×1×2048，ReLU激活
		MaxPool4	池化核2×2
Conv7	卷积核1×1×2048，ReLU激活
		Conv8	卷积核1×1×50，ReLU激活
Upsampling	上采样核32×32

为达到好的分割效果，先对网络模型进行训练优化，具体为：

(1)数据标注。拍摄各种水下场景图像，对其进行如步骤2所述的增强处理，然后进行像素级别的人工标注，标注每个像素所属类别，得到标注后图像。

(2)网络训练。以任意80％标注后图像为训练集，输入改进的全卷积神经网络进行训练，其中，学习率设置为0.01，动量设置为0.9，并利用随机梯度下降法进行参数更新，得到训练后的神经网络。并计算网络在训练集上的精度，计算公式为其中，OA表示分类精度，N_c表示分类正确的像素个数，N表示像素总个数。

(3)网络测试。利用剩余20％标注图像对训练好的神经网络进行分类测试，并按计算得到当前状态下模型的像素分类精度，其中，OA表示分类精度，Nc表示分类正确的像素个数，N表示像素总个数。

(4)网络优化。根据步骤c的测试结果对网络学习率和正则参数进行调整，具体为：若在训练集上精度低于90％，表示没有收敛到局部最优解，需要降低学习率10倍；若模型在训练集上的精度远高于测试集20％，表示模型训练过拟合，需要增大正则参数10倍。

(5)重复步骤b-d，直至测试集精度不再改变，得到最优网络模型。

(6)利用最优网络模型步骤二增强后的水下图像进行语义分割，得到水下光学感知图像，如图3所示。具体为：首先，输入步骤二增强后的水下场景图像，图像大小为W×H；然后经过一系列的卷积—ReLU激活—池化操作，得到大小为W/32×H/32×50的Heatmap；对上述Heatmap进行32倍上采样得到与原图像大小相同的Heatmap，其中每一个像素是一个50维的向量，向量每个分量表示这个像素所属对应类别的概率；最后，根据所属类别的最大概率确定每个像素的所属类别，得到水下场景的分割图。

本发明方法可以智能地对水下场景进行光学感知，精确分割水下场景图像，突出场景中的关键信息。并且由于对方法进行了全局优化，感知结果精确度高，效果显著。

Claims

1.一种基于红通道和全卷积神经网络的水下光学智能感知方法，其特征在于包括以下步骤：

其中，t₀为正则因子，取值范围为[0.05,0.2]。