CN111046967A

CN111046967A - 一种基于卷积神经网络和注意力机制的水下图像分类方法

Info

Publication number: CN111046967A
Application number: CN201911310684.4A
Authority: CN
Inventors: 杨淼; 汤雁冰; 胡珂; 卢道华; 徐启华; 杨慧珍; 纪林海; 姚潇; 康家银
Original assignee: Jiangsu University of Science and Technology; Marine Equipment and Technology Institute Jiangsu University of Science and Technology
Current assignee: Jiangsu University of Science and Technology; Marine Equipment and Technology Institute Jiangsu University of Science and Technology
Priority date: 2019-12-18
Filing date: 2019-12-18
Publication date: 2020-04-21

Abstract

本发明涉及一种基于卷积神经网络和注意力机制的水下图像分类方法，以Inception‑Attention结构为基础构建卷积神经网络，实现对图像的背景特征进行提取并加权，使用训练集中的图像作为原始输入图像，输入到所提网络中进行训练，分别在网络的主干分类分支上和辅助分类分支上得到预测结果，通过分别计算预测结果与图像的真实标签之间的交叉熵以及网络的L2正则化项得到损失函数，并利用随机梯度下降对网络进行优化，再将待预测的图像输入到已训练的网络中，可得到对应的预测结果。本发明的优点在于：本发明通过收集大量的水下图像和非水下图像对所提网络进行训练，大规模图像数据集上进行识别水下图像任务时，可以快速、准确地进行图像分类。

Description

一种基于卷积神经网络和注意力机制的水下图像分类方法

技术领域

本发明属于计算机视觉技术领域，特别涉及一种基于卷积神经网络和注意力机制的水下图像分类方法。

背景技术

水下视觉是人类进行海洋科学研究的重要手段。多年来在海洋环境、海洋工程、海洋养殖、海洋生物调查等领域中各种水下监测平台，海底观测系统及配置高分辨率相机的固定长期水下瞭望台采集到了数以兆兆级的水下图像、视频及高维超光谱图像。这些图像中蕴含了大量的有价值信息。然而，如果采用人工的方法筛选出适合可用图像来进行进一步的图像分析是很具挑战的。海洋图像数据的庞大、海洋专家分析这些数据需要的代价及有限的海洋学学者都使得这一任务非常困难。

随着多个大型带标签的数据的开源，以及计算机GPU计算能力的日益提高，深度学习已经成功应用多种计算机视觉任务^[1-3]。在自然图像数量为上百万规模的目标识别任务中，深度学习模型的识别精度都已经远远超过了人类的识别准确度^[4-5]。但是，将深度学习应用于海洋图像分类的研究尚未可见。

作为一种图像类型，由于水下图像的成像效果受水下环境以及图像采集设备的影响，采集到的水下图像往往出现对比度低，噪声等^[6-10]等复杂退化。首先，在不同水域采集的水下图像的背景特征有很大的差异；其次，不同的水下图像中存在着不同的显著性目标，如废墟，鱼，潜水员等，这些目标不仅存在水下环境中，也可存在于非水下环境。另外，现有的图像分类模型都是依据图像中包含的显著性目标的特征进行分类和识别，而人们对于水下图像的判断更重要的来自于水下图像中的背景区域，若采用现有分类模型的方法依据水下图像中的显著性目标来进行判断，则往往会造成对不在水下环境中而存在水下典型目标如“鱼类”等情况下的错误分类，降低了模型预测结果的准确性。

深度学习在图像分类领域已经取得了显著的成功，特别是在各个视觉竞赛中。自Krizhevsky等人^[11]赢得2012年的ImageNet竞赛以来，卷积神经网络(CNN，ConvolutionalNeural Network)在各种计算机视觉领域的大规模图像识别任务应用越来越多^[12-14]。近年来，学者们已经开始尝试将注意力机制应用于深度神经网络。Mnih等人^[15]首次将注意力机制应用于深度神经网络来进行图像分类，提出了循环神经网络，在模型中对输入按顺序进行处理，即每次只处理一个图像的不同位置，并获取该位置的信息，然后逐步组合这些信息，最终生成场景的动态内部表示。Xiao等人^[16]提出了两级注意力方法，是第一个依靠模型自身产生注意力权重的图像分类模型。Fu等人^[17]则提出了递归注意力卷积神经网络(RA-CNN)，用互相强化的方式对判别区域注意力和基于区域的特征表征进行递归学习。Hu等人^[18]提出抑制与激励网络(Squeeze-and-Excitation Networks)，通过学习获得每个特征通道的重要性，并根据重要性来抑制或增强相应的特征，并且在ImageNet分类竞赛上取得了Top5错误率为2.251％的优异成绩。Wang等人^[19]提出残差注意力网络(ResidualAttention Network，ReNet)，将注意力机制与残差模块相结合，提出残差注意力模块(Residual Attention module)。

尽管现有的图像分类网络在一些大规模图像分类任务上的准确率已经超过了人类，但由于以往的图像分类方法是针对非水下环境中的自然图像设计的，并且分类的依据常常是根据识别图像中的显著性目标达到分类目的。然而水下图像中的显著性目标也存在于非水下图像中，因此如果采用现有的分类方法进行分类，网络会错误地将这些非水下图像预测为水下图像，从而导致分类错误。

参考文献：

[1]Y.Lecun,Y.Bengio,G.Hinton.―Deep learning,”Nature,vol.521,no.7553,pp.436,2015.

[2]Z.Q.Zhao,P.Zheng,S.T.Xu,et al.―Object Detection with DeepLearning:A Review,”IEEE Transactions on Neural Networks and Learning Systems,no.99,PP.1-21,2019.

[3]Z.Zeng,W.Xie,Y.Zhang,et al.―RIC-Unet:An Improved Neural NetworkBased on Unet for Nuclei Segmentation in Histology Images,”IEEE Access,vol.7,no.99,pp.21420-21428,2019.

[4]K.He,X.Zhang,S.Ren,et al.―Deep Residual Learning for ImageRecognition,”CVPR,2016.

[5]F.Wang,M.Jiang,C.Qian,et al.―Residual Attention Network for ImageClassification,”CVPR,2017.

[6]P.V.Komissarov,V.V.Lavrov,A.A.Borisov,et al.―Explosion ofaluminized mixtures in bubble column as a method of underwater compressionwave enhancement,”Journal of Physics Conference Series,no.1147,pp.012036,2019.

[7]D.Jia,Y.Ge.―Underwater Image De-Noising Algorithm Based OnNonsubsampled Contourlet Transform And Total Variation,”InternationalConference on Computer Science and Information Processing(CSIP),pp.76–80,2012.

[8]A.Arnold-Bos,J.P.Malkasse,and G.Kerven.―A Preprocessing Frameworkfor Automatic Underwater Images Denoising,”Proceedings of the EuropeanConference on Propagation and Systems,Brest,France,2005.

[9]A.T.

S.Ertürk.―Visual Enhancement of Underwater Images UsingEmpirical Mode Decomposition,”Expert Systems with Applications,vol.39,no.1,pp.800–805,2012.

[10]A.Galdran,D.Pardo,A.Picón and A.Alvarez-Gila,et.al."AutomaticRed-Channel underwater image restoration,"Journal of Visual Communication andImage Representation,no.26,pp.132-145,2015.

[11]A.Krizhevsky,I.Sutskever,and G.Hinton.―ImageNet Classificationwith Deep Convolutional Neural Networks,”NIPS Curran Associates Inc,2012.

[12]K.Simonyan,A.Zisserman.―Very Deep Convolutional Networks forLarge-Scale Image Recognition,”Computer Science,2014.

[13]G.Huang,et al."Densely Connected Convolutional Networks,"IEEEConference on Computer Vision&Pattern Recognition,2017.

[14]C.Szegedy,W.Liu,Y.Jia,et al.―Going Deeper with Convolutions,”CVPR,2015.

[15]V.Mnih,N.Heess,A.Graves,et al.―Recurrent Models of VisualAttention,”Advances in Neural Information Processing Systems,2014.

[16]T.Xiao,Y.Xu,K.Yang,et al.―The application of two-level attentionmodels in deep convolutional neural network for fine-grained imageclassification,”IEEE Conference on Computer Vision&Pattern Recognition,2015

[17]J.Fu,H.Zheng H,T.Mei.―Look Closer to See Better:RecurrentAttention Convolutional Neural Network for Fine-grained Image Recognition,”Conference on Computer Vision and Pattern Recognition(CVPR),2017.

[18]J.Hu,L.Shen,S.Albanie,et al.―Squeeze-and-Excitation Networks,”IEEE Transactions on Pattern Analysis and Machine Intelligence,2017.

[19]O.Vinyals,A.Toshev,S.Bengio,et al.―Show and tell:A neural imagecaption generator,”IEEE Conference on Computer Vision&Pattern Recognition,2015.

[20]C.Szegedy,V.Vanhoucke,S.Ioffe,et al.―Rethinking the InceptionArchitecture for Computer Vision,”IEEE Conference on Computer Vision andPattern Recognition(CVPR),pp.2818-2826,2016.

[21]N.Srivastava,G.Hinton,A.Krizhevsky,et al.―Dropout:a simple wayto prevent neural networks from overfitting,”Journal of Machine LearningResearch,vol.15,no.1,pp.1929-1958,2014.

[22]S.Ioffe,C.Szegedy.―Batch normalization:accelerating deep networktraining by reducing internal covariate shift,”International Conference onInternational Conference on Machine Learning,2015.

[23]N.Ketkar.―Stochastic Gradient Descent,”Optimization,2014.

发明内容

本发明要解决的技术问题是提供一种能够适用于各种水下图像与非水下图像的分类且具有最高的精度以及最少的计算量和参数量的基于卷积神经网络和注意力机制的水下图像分类方法。

为解决上述技术问题，本发明的技术方案为：一种基于卷积神经网络和注意力机制的水下图像分类方法，其创新点在于：以Inception-Attention结构为基础构建卷积神经网络，实现对图像的背景特征进行提取并加权，具体步骤如下：

步骤1：提取图像基本特征：在水下图像分类网络模型的第一层采用大小为7×7的卷积核进行特征提取，并在第二层在不改变特征图的大小的基础上增加特征通道，然后通过均值池化对特征图进行降采样；

步骤2：提取图像的不同特征：在Inception模块，采用1×1、5×5、7×7的卷积核，并且在Inception模块的池化部分，采用均值池化提取图像的背景特征；

步骤3：构建模拟人类视觉对水下图像理解的注意力机制：通过构建新的Attention模块实现，形成Inception-Attention模块，即Attention模块是由掩码分支和主干分支构成，在掩码分支上采用以均值池化的方式对上一层输出的特征图进行降采样，大小缩至8×8，与网络的最终输出特征图保持一致，再将经过采样后的特征图经过两次连续的1×1卷积，并在第二个卷积层采用Sigmoid函数作为激活函数，最终形成注意力权重；主干分支采取直接映射的方式，最终采用掩码分支学到的特征权重对主干分支的特征图像进行加权，则Attention模块的输出特征图x的值F可描述为：

F(x)＝(1+N(x))×P(x) (1)

其中，N(x)为由模型的掩膜分支计算出的特征图的权重，P(x)是主干分支的输出结果；

步骤4：构建辅助分类分支：网络首先用步骤1对输入图像进行特征提取，再利用两个步骤3中所提的Inception-Attention模块进一步对步骤1输出的特征图进行特征提取，在第二个Inception-Attention模块后，网络引入一条辅助分类分支，在该分支上，首先采用均值池化的方式对特征图进行降采样，大小缩至8×8，与网络的主干分支输出的特征图保持一致，再经过一次卷积，输出预测结果，该预测结果将作为损失函数的一部分；

步骤5：网络的最终分类输出：在与步骤4同样的位置构建网络的主干分支，在该分支上，继续步骤2的操作，采用Inception模块进行特征提取和降采样，特征图的大小缩至8×8，深度为1024，然后通过均值池化，特征图的大小缩至1×1，后面经过一个全连接层，得到最终的网络输出；

步骤6：网络的损失函数设计：网络的损失函数为

J_main＝J_{main_0}+0.3×J_{main_1}+α_main×L_main (2)

其中，J_{main_0}是模型最终输出的结果与真实值的交叉熵，J_{main_1}是模型的辅助分支输出与真实值的交叉熵，α_main是网络训练时的权重衰减系数，L_main是L2正则项；

步骤7：网络的优化和训练：引入辅助分类分支、Dropout层和在每个卷积层后面采用BN层，在训练网络时，采用Gaussian权值初始化方法，利用32个小批量的随机梯度下降法(Stochastic gradient descent,SGD)^[23]对水下图像分类模型网络进行训练；使用0.001的权重衰减，动量为0.9，并将初始的学习速率设置为0.001，在第1000，2000次迭代时，学习率将被除以10。

进一步地，所述步骤5中，在全连接层上采用Dropout^[21]的方式减少输出结果的过拟合现象。

进一步地，所述步骤7中，训练过程为：(1)网络进行权值的初始化；(2)输入数据经过卷积层、下采样层、全连接层的向前传播得到输出值；(3)求出网络的输出值与目标值之间的误差；(4)当误差大于我们的期望值时，将误差传回网络中，依次求得全连接层，下采样层，卷积层的误差，各层的误差可以理解为对于网络的总误差，网络应承担多少；当误差等于或小于我们的期望值时，结束训练；(5)根据求得误差进行权值更新，然后再进入到(2)。

本发明的优点在于：

(1)本发明基于卷积神经网络和注意力机制的水下图像分类方法，并命名为UWNet(Underwater Network)，本发明设计了一种Attention机制对Inception模块输出的信息进行整合，提出了Inception-Attention模块，来增强从先前的Inception模块提取的对于当前分类任务的有用信息，并抑制对于当前分类任务的无用信息；本发明提出的分类网络UWNet是通过堆叠Inception-Attention模块构成的，随着网络深度的增加，特征图中最有效的特征将会被传至网络，对模型的预测输出起到最大的作用；

(2)本发明是基于卷积神经网络和注意力机制的水下图像分类方法，本发明首次提出分类水下图像与非水下图像的分类模型—UWNet，在分类水下图像与非水下图像的任务上，UWNet不仅具有最高的精度，同时具有最少的计算量和参数量，且适用于各种水下图像与非水下图像的分类。

附图说明

下面结合附图和具体实施方式对本发明作进一步详细的说明。

图1为本发明提出的网络在训练集上的损失函数变化曲线。

图2(1)-图2(6)为实施例2中水下图像原图。

图3(1)-图3(6)为实施例2中第一步输出的特征图的热度图。

图4(1)-图4(6)为实施例2中第二步输出的特征图的热度图。

图5(1)-图5(6)为实施例2中第三步输出的特征图的热度图。

图6(1)-图6(6)为实施例2中第五步输出的特征图的热度图。

图7(1)-图7(8)为实施例3中的实验图像。

图8(1)-图8(8)为可视化实施例3中第五步输出的热度图。

图9为本发明收集部分的水下图像示例。

图10为本发明所提网络的结构图。

具体实施方式

下面的实施例可以使本专业的技术人员更全面地理解本发明，但并不因此将本发明限制在所述的实施例范围之中。

本发明基于卷积神经网络和注意力机制的水下图像分类方法，以Inception-Attention结构为基础构建卷积神经网络，实现对图像的背景特征进行提取并加权，具体步骤如下：

步骤1：提取图像基本特征：水下图像在成像的过程中常常受水体中各种物质以及水体中的粒子影响，采集到的水下图像常常伴随着噪声，并且图像的不同区域可能存在不同程度的退化；现有的网络为提取图像中的细节特征通常会采用较小的卷积核，当前最常用的是大小为3×3的卷积核，与现有分类网络不同的是，而本发明为减少这些噪声特征影响分类的结果，在提出水下图像分类网络模型的第一层采用大小为7×7的卷积核进行特征提取，并在第二层在不改变特征图的大小的基础上增加特征通道，然后通过均值池化对特征图进行降采样；

步骤2：提取图像的不同特征：不同的水下图像具有非常大的差异性，尽管人们是通过图像的背景特征来鉴别是否为水下图像的，但不同的水下图像的背景特征也可能存在非常大的差异；在卷积神经网络中，不同尺度大小的卷积核所提取的特征信息也不相同，例如尺寸偏大的卷积核适合用于提取图像的更全局性的信息，尺寸较小的卷积核适合用于提取图像的局部信息；Szegedy等人提出在卷积神经网络的同一层级上运行多个尺寸的卷积核，构建了Inception模块；以往的Inception网络为提取图像的显著性目标，采用的卷积核大小通常为1×1、3×3、5×5，而本发明在Inception模块，采用1×1、5×5、7×7的卷积核，并且在Inception模块的池化部分，采用均值池化提取图像的背景特征；

步骤3：构建模拟人类视觉对水下图像理解的注意力机制：近几年来，深度学习与视觉注意力机制结合的研究工作，大多数是集中于使用掩码(Mask)来形成注意力机制^[17,19]，掩码的原理在于通过训练网络得到一层新的权重，再通过相乘或叠加的方式将图片中关键的特征标识出来；通过训练，让深度神经网络学到每一张图片中需要关注的区域，形成了注意力，但以往的注意力机制更多关注的是图像中的显著性目标，与以往的设计都不同的是，本发明设计的注意力机制将关注图像背景特征，具体是通过通过构建新的Attention模块实现，形成Inception-Attention模块，即Attention模块是由掩码分支和主干分支构成，在掩码分支上采用以均值池化的方式对上一层输出的特征图进行降采样，大小缩至8×8，与网络的最终输出特征图保持一致，再将经过采样后的特征图经过两次连续的1×1卷积，并在第二个卷积层采用Sigmoid函数作为激活函数，最终形成注意力权重；主干分支采取直接映射的方式，最终将掩码分支学到的特征权重对主干分支的特征图像进行加权，则Attention模块的输出特征图x的值F可描述为：

F(x)＝(1+N(x))×P(x) (1)

与以往的所有分类方法不同，本发明将设计的Attention模块与步骤2中设计的Inception模块结合，首次提出构建Inception-Attention模块，Inception模块输出的特征通过Attention模块的处理，对当前分类任务有用的特征将被赋予较大的权重，对分类任务无用的特征将被赋予较小的权重；

步骤4：构建辅助分类分支：Szegedy等人提出的Inception_v3网络^[20]是首次设计辅助分类器的，该设计的最初思想是为了让网络的浅层输出也能参与到最终的分类，并且辅助分类器实现了减少过拟合的目的。在本发明提出的水下图像分类方法设计中，网络首先用步骤1对输入图像进行特征提取，再利用两个步骤3中所提的Inception-Attention模块进一步对步骤1输出的特征图进行特征提取，在第二个Inception-Attention模块后，网络引入一条辅助分类分支，在该分支上，首先采用均值池化的方式对特征图进行降采样，大小缩至8×8，与网络的主干分支输出的特征图保持一致，再经过一次卷积，输出预测结果，该预测结果将作为损失函数的一部分，可以起到减少过拟合的作用；

步骤5：网络的最终分类输出：在与步骤4同样的位置构建网络的主干分支，在该分支上，继续步骤2的操作，采用Inception模块进行特征提取和降采样，特征图的大小缩至8×8，深度为1024，然后通过均值池化，特征图的大小缩至1×1，后面经过一个全连接层，得到最终的网络输出，且该全连接层上采用Dropout^[21]的方式减少输出结果的过拟合现象；

步骤6：网络的损失函数设计：网络的损失函数为

J_main＝J_{main_0}+0.3×J_{main_1}+α_main×L_main (2)

步骤7：网络的优化和训练：Sergey Ioffe等人提出了一种加速深度网络学习的算法Batch Normalization(BN)^[22]。但与以往的分类方法都不同的是，在本发明所提出的水下图像分类方法同时采用以下三种优化算法：引入辅助分类分支、Dropout层和在每个卷积层后面采用BN层，在训练网络时，采用Gaussian权值初始化方法，利用32个小批量的随机梯度下降法(Stochastic gradient descent,SGD)^[23]对水下图像分类模型网络进行训练；使用0.001的权重衰减，动量为0.9，并将初始的学习速率设置为0.001，在第1000，2000次迭代时，学习率将被除以10；训练过程为：(1)网络进行权值的初始化；(2)输入数据经过卷积层、下采样层、全连接层的向前传播得到输出值；(3)求出网络的输出值与目标值之间的误差；(4)当误差大于我们的期望值时，将误差传回网络中，依次求得全连接层，下采样层，卷积层的误差，各层的误差可以理解为对于网络的总误差，网络应承担多少；当误差等于或小于我们的期望值时，结束训练；(5)根据求得误差进行权值更新，然后再进入到(2)。

与普遍用于现有深度学习模型训练的高清晰度自然图像不同，由于水下图像的成像效果受水下环境以及图像采集设备的影响，采集到的水下图像往往出现对比度低，噪声严重等特点，并且这些图像特征是随机的，不具有一致性。即使是在同一水域不同的时间、深度采集到的水下图像也可能具有不同的特征。因此，相比于其他类型的图像，水下图像类内差异是很大的。

在卷积神经网络中，感受野(Receptive Field)的定义是卷积神经网络每一层输出的特征图(Feature Map)上的像素点在输入图片上映射的区域大小，通常尺寸大的感受野可以提取图像的更大范围的特征。因此，在网络的同一层级上采用多个尺度的卷积核，这些卷积核可以适应多种图像特征并在网络的深层可以得到更好的图像表示。这样做的优点是可以提高网络的自适应能力，而且省去了研究者的一些调优工作。针对水下图像的特点，本发明在Inception模块的设计中尽量采用较大尺寸的卷积核，以减少细节对最终结果的干扰。在池化通道，采用平均池化方法用于池化层以提取图像的背景特征。现有的深度学习与视觉注意力机制结合的研究大多数是集中于使用掩码(Mask)来形成注意力机制。SeNet是通过构建通道域的注意力权重，将特征图的每个特征通道进行压缩，通过训练得到每个特征通道的重要性，然后通过乘法加权到先前的特征上，完成在通道维度上的对原始特征的重标定。本发明中的注意力机制与SeNet的构建思想不同，SeNet的注意力机制是将所有的特征通道都压缩至1×1而如式(1)所示，本发明的注意力机制是在每个特征通道上保留一定的空间信息，即将每个特征通道的大小压缩至8×8，通过训练来形成对每一层的特征图的注意力权重，再通过双线性插值的方法将注意力权重层的大小恢复至原特征图一致，再通过相乘和叠加的方式对原始特征图上的特征进行加权标定。

与已有的Inception模块不同，本发明设计了一种Attention机制对Inception模块输出的信息进行整合，提出了Inception-Attention模块，来增强从先前的Inception模块提取的对于当前分类任务的有用信息，并抑制对于当前分类任务的无用信息。本发明提出的分类网络UWNet是通过堆叠Inception-Attention模块构成的。随着网络深度的增加，特征图中最有效的特征将会被传至网络，对模型的预测输出起到最大的作用。

由于水下图像的多样性和复杂性，不同的水下图像可能会有很大的差异。因此，为了保证水下图像数据集的多样性，本发明利用的水下图像来源于ImageNet数据集、Jamstec数据集、OucVision数据集、水下岩石图像数据集以及百度和谷歌的在线图像。图像的场景类型包括近海、深海和多种海域。此外，本发明收集的水下图像包括潜水员、沉船、废墟、珊瑚、岩石以及各种鱼类和其他物体。部分图像如附图9所示。此外，我们训练集中的非水下图像来自ImageNet数据集。非水下图像的种类有一千多种。图像的显著特征包括鸟类、汽车、食物、飞机、猫等，图像的场景包括天空、夜晚、地下、雾等。最终，实验的数据集是由4000多张水下图像和5000多张非水下图像组成的，并按照7：3的比例划分为训练集和测试集。

实施例1构建水下图像分类方法卷积神经网络

本发明所提网络(UWNet)构建的模型结构参数如附表1所示，结构图如图10所示。本发明将所提网络按照技术方案中的步骤7进行训练并保存，损失函数的变化如图1所示。另外将一些经典的分类模型应用于该分类任务，测试集上的结果对比如附表2所示，由表2可知，本发明不仅具有最高的精度，而且在具有最少的参数量和计算量，相对于其他模型优势明显。

附表1：本发明所提网络的结构参数表

附表2：多个分类模型在分类水下图像与非水下图像任务上的准确率分析

实施例2

本发明提出的模型训练后，通过将训练好的模型对水下图像进行测试实验，得到输出结果，并得到网络每一层输出的热度图。热度图中红色区域表示该区域对最终输出产生很大的影响，绿色区域则表示输出的影响小。具体处理过程如下：

第一步，利用技术方案中的步骤1对附图2中的图像进行特征提取，热度图结果如附图3所示，其中图(1)(3)(4)(5)(6)中几乎没有红色区域，图(2)中的红色区域为鱼群和图像的水体背景。显然此时被提取的特征中很少有对最终分类产生作用的特征。

第二步，利用技术方案中的步骤2和步骤3，构建Inception-Attention模块，对上一层输出的特征图进行处理，热度图结果如附图4所示，图(1)(3)(4)(5)(6)的图像背景开始出现红色区域，图(2)中水体背景中的红色区域加深，鱼群逐渐呈现绿色区域。显然，经过第二步的处理后，此时网络得到的特征已经有对最终预测有影响。

第三步，重复第二步的过程，可视化结果的热度图如附图5所示，相比上一层输出的热度图，该层的热度图的红色区域进一步增多，颜色加深，而且红色区域都是出现在图像的背景区域。显然此时网络得到更多对最终预测产生作用的特征。

第四步，利用技术方案中的步骤4，在第三步后引出一条支路作为辅助分类分支，该分支的结果将作为损失函数的一部分，如式2所示。

第五步，利用技术方案中的步骤2，对上一层输出的特征图再次进行特征提取，结果的热度图如附图6所示，该层输出的热度图的红色区域基本覆盖图像的背景区域，并且图像的显著性目标所在的区域呈现绿色。从热度图中可知，对本发明的模型的预测起最大作用的是图像背景特征。

第六步，利用技术方案中的步骤5，对第五步输出的特征图进行处理，最终得到两个分别对应水下图像和非水下图像的概率，网络将以数值的大小决定输入图像为哪一类。结果如表3所示。

附表3：本发明所提网络(UWNet)对图2中的图像处理后预测结果。输出为1时预测为水下图像，输出为0时预测为非水下图像

实施例3

本发明提出的模型训练后，对分类雾天图像、非水下环境中的鱼类图像与水下图像的对比实验：

雾天图像与水下图像类似，存在着对比度低、噪声严重等特点，并且人类对雾天图像的识别也是根据图像的背景特征；包含鱼类的图像不一定是水下图像，因此鱼类作为一种显著性对象，不仅不能帮助图像分类，而且会对预测产生影响。实验采用了500张雾天图像和500张非水下环境的鱼类的图像分别与500张水下图像进行分类测试。部分图像如图7所示。

与实施例2的实验步骤类似，本发明对图7中的图像进行处理，并通过可视化的方法得到第五步输出特征图的热度图，如附图8所示，预测结果如表4所示。

附表4：本发明所提网络(UWNet)对图7中的图像处理后预测结果。输出为1时预测为水下图像，输出为0时预测为非水下图像

由上述结果可知，本发明提出的基于卷积神经网络和注意力机制的水下图像分类方法可以正确区别水下图像和非水下图像。

以上显示和描述了本发明的基本原理和主要特征以及本发明的优点。本行业的技术人员应该了解，本发明不受上述实施例的限制，上述实施例和说明书中描述的只是说明本发明的原理，在不脱离本发明精神和范围的前提下，本发明还会有各种变化和改进，这些变化和改进都落入要求保护的本发明范围内。本发明要求保护范围由所附的权利要求书及其等效物界定。

Claims

1.一种基于卷积神经网络和注意力机制的水下图像分类方法，其特征在于：以Inception-Attention结构为基础构建卷积神经网络，实现对图像的背景特征进行提取并加权，具体步骤如下：

F(x)＝(1+N(x))×P(x) (1)

步骤6：网络的损失函数设计：网络的损失函数为

J_main＝J_{main_0}+0.3×J_{main_1}+α_main×L_main (2)

2.根据权利要求1所述的基于卷积神经网络和注意力机制的水下图像分类方法，其特征在于：所述步骤5中，在全连接层上采用Dropout^[21]的方式减少输出结果的过拟合现象。

3.根据权利要求1或2所述的基于卷积神经网络和注意力机制的水下图像分类方法，其特征在于：所述步骤7中，训练过程为：(1)网络进行权值的初始化；(2)输入数据经过卷积层、下采样层、全连接层的向前传播得到输出值；(3)求出网络的输出值与目标值之间的误差；(4)当误差大于我们的期望值时，将误差传回网络中，依次求得全连接层，下采样层，卷积层的误差，各层的误差可以理解为对于网络的总误差，网络应承担多少；当误差等于或小于我们的期望值时，结束训练；(5)根据求得误差进行权值更新，然后再进入到(2)。