CN114677514A

CN114677514A - 一种基于深度学习的水下图像语义分割模型

Info

Publication number: CN114677514A
Application number: CN202210407563.7A
Authority: CN
Inventors: 苑永起; 张文菊; 周梅香
Original assignee: Individual
Current assignee: Individual
Priority date: 2022-04-19
Filing date: 2022-04-19
Publication date: 2022-06-28

Abstract

本发明公开了一种基于深度学习的水下图像语义分割模型，所述模型包括预处理、编码器模块和解码器模块，其中编码器模块包含五个阶段编码模块，第一阶段、第二阶段、第三阶段和第四阶段包含SENet(通道注意力)子模块，通道注意力模块对特征图进行平均池化、全连接层、激活、全连接层和激活等操作；利用所述分割方法对水下图像训练集进行训练，并将水下图像测试集输入训练好的网络模型，得到分割后的图像；本发明的分割模型对于水下图像中分辨率较低的图像也能做到精确分割，对水下图像中的目标分割精度高，分割效果好。

Description

一种基于深度学习的水下图像语义分割模型

技术领域

本发明涉及一种基于深度学习的水下图像语义分割模型。

背景技术

随着人类对海洋资源开发,对水下环境探测技术的要求也越来越高。水下图像是认识和分析水下环境的关键工具。由于水介质对光线的散折射及吸收效应、水中杂质及水下照明条件等因素影响，水下图像存在对比度低、信噪比低、颜色分布不均等问题。常用的水下图像语义分割方法有：基于阈值的图像分割方法、基于边缘的图像分割技术、基于区域的图像分割技术和基于特定理论的图像分割技术等。例如：一种注意力图像分割方法、装置及介质(CN112950653A)中公开了利用注意力网络以及融合特征图进行图像分割，然后将分割网络与区域信息加权融合得到的矩阵再次进行分割。现有的方法不能很好的关注到图像中的目标对象，对水下图像分割的精度较差，并不能很好的对物体的边缘轮廓进行分割，同时由于水下图像存在对比度低、信噪比低、颜色分布不均等问题，现有的分割方法对于图像轮廓的分割效果较差。

发明内容

发明目的：本发明的目的是提供一种基于深度学习的水下图像分割模型，解决水下图像分割中目标轮廓的分割效果差，分割平均交并比、平均像素精度和准确率较差的问题。

技术方案：为实现上述目的，本发明采用如下技术方案：

本发明所述的一种基于深度学习的水下图像分割模型，包括以下步骤：

预处理模块对输入图像E1进行预处理，即将图像转化为RGB三通道；然后将图像大小调整为512×512得到E2；

对图像E2进行第一阶段编码，通过卷积提取特征，再通过通道注意力进行细节特征捕获，最后通过最大池化来减小特征图的大小，得到第一阶段的编码结果E9；

对第一阶段的编码结果E10进行第二阶段编码，通过卷积提取特征图的特征，再通过通道注意力进行细节特征捕获，其中通道注意力模块中的第一个激活函数采用PReLU激活函数，最后通过最大池化来减小特征图的大小，得到第二阶段的编码结果E17；

对第二阶段的编码结果E26进行第三阶段编码，通过卷积提取特征图的特征，再通过通道注意力进行细节特征捕获，其中通道注意力模块中的第一个激活函数采用PReLU激活函数，最后通过最大池化来减小特征图的大小，得到第三阶段的编码结果E26；

对第三阶段的编码结果27进行第四阶段编码，通过卷积提取特征图的特征，再通过通道注意力进行细节特征捕获，其中通道注意力模块中的第一个激活函数采用PReLU激活函数，最后通过最大池化来减小特征图的大小，得到第四阶段的编码结果E34；

对第四阶段的编码结果27进行第五阶段编码，将图像转化为高语义特征，得到第五阶段的编码结果E39；

进一步地，对第五阶段的编码结果E3进行上采样操作，恢复特征图的大小和细节信息，然后和第四阶段的输出结果E35进行拼接，得到低语义信息和高语义信息融合后的特征图，并对特征图执行卷积操作来对特征图进行解码，得到解码结果E42。

进一步地，对第一阶段的解码结果E42进行上采样操作，恢复特征图的大小和细节信息，然后和第三阶段的输出结果E26进行拼接，得到低语义信息和高语义信息融合后的特征图，并对特征图执行卷积操作来对特征图进行解码，得到解码结果E47。

进一步地，对第二阶段的解码结果E47进行上采样操作，恢复特征图的大小和细节信息，然后和第三阶段的输出结果E17进行拼接，得到低语义信息和高语义信息融合后的特征图，并对特征图执行卷积操作来对特征图进行解码，得到解码结果E51。

进一步地，对第一阶段的解码结果E51进行上采样操作，恢复特征图的大小和细节信息，然后和第三阶段的输出结果E9进行拼接，得到低语义信息和高语义信息融合后的特征图，并对特征图执行两次卷积操作来对特征图进行解码，得到解码结果E55。

进一步地，对第四阶段解码器两次卷积后的结果E55进行卷积操作，输出通道数对应要进行图像分割的类别数+1(1为背景)，即可输出最后的分割结果，完成水下图像语义分割网络模型的构建。

如图4所示，根据上述步骤建立的模型，本发明所述的基于深度学习的水下图像分割模型包括如下步骤：

(1)采用预处理之后的训练集对水下图像语义分割模型进行训练，得到图像分割的网络模型，利用损失函数对训练网络进行约束，然后反向传播优化参数，迭代6.86万次，最后得到训练好的水下图像分割模型。

(2)将水下图像的测试集放入训练好的模型中进行测试，最终输出图像分割后的结果。

基于相同的发明构思，本发明提供的一种计算机系统，包括存储器、处理器6显卡及存储在存储器上并可在处理器上运行的计算机程序，所述计算机程序被加载至处理器时实现所述的基于深度学习的水下图像语义分割模型。

有益效果：本发明提供的一种基于深度学习的水下图像语义分割模型，将训练图像送入编码网络中，并通过通道注意力来捕获图像的细节特征，使分割结果更加精确。本发明通过将通道注意力模块嵌入编码阶段的四个阶段，使编码器在对图像进行编码时能够很好的捕获图像的细节特征和边缘信息，解决传统方法对水下图像进行分割时分割精度较低的问题。

本发明与现有技术相比的优点在于：分割精度高，尤其是边缘分割效果好；第四阶段卷积之后的输出进行卷积注意力加权，使用卷积注意力来对输入图像的不同的通道分配不同的权重，使分割效果更加精确，对于对比度较小的物体之间也能准确分割；在编码时增加卷积层以提取更多特征，在对低层特征和高层特征进行拼接时使用全部的低层特征，能够保留更多有用特征，无需对特征图进行裁剪。

附图说明

图1为本发明的水下图像语义分割模型结构图；

图2为本发明的通道注意力模块结构图；

图3为本发明的通道注意力模块流程图；

图4为本发明的基于深度学习的水下图像语义分割流程图；

具体实施方式

下面结合附图对本发明的技术方案作进一步说明。

如图1所示，所述水下图像语义分割模型，包括预处理模块、编码器和解码器，编码器中包含通道注意力(SENet)模块；编码器用于提取输入图像的特征，减小特征图大小；把低语义特征转换为高语义特征，解码器用于逐步恢复出图像的细节信息和空间维度，并将恢复出来的特征图和编码器的特征图进行融合。所述模型的建立方法，包括如下步骤：

(1)预处理模块

预处理模块对输入图像E1进行预处理，即将图像转化为RGB三通道；然后将图像大小调整为512×512得到E2。

(2)编码器

(2.1)第一阶段编码模块

对图像E2进行两次卷积和激活操作，第一层的卷积核大小为3×3，步长为(1,1)，填充为(1,1)，输入通道数为3，输出通道数为64；第二层的卷积核大小为3×3，步长为(1,1)，填充为(1,1)，输入通道数为64，输出通道数为64；激活函数为ReLU函数。进行卷积、激活、卷积、激活之后得到特征图E4，具体实施过程如下：

E3＝ReLU(conv(E2))

E4＝ReLU(conv(E3))

其中E3，E4为图像E2经过两次卷积分别产生的特征图。

将特征图E4作为输入进入通道注意力(SENet)模块，通道注意力模块结构图如图2所示，通道注意力模块流程图如图3所示，逐次进行平均池化、全连接，激活，全连接，激活等操作，其中池化的输出特征维度为1，第一层全连接的输入特征图通道数为64，输出特征图通道数为4，激活函数为PReLU，第二层全连接的输入特征图通道数为4，输出特征图通道数为64，激活函数为Sigmoid，进行池化、全连接、激活、全连接、激活之后得到特征图E9，具体实施过程如下：

E5＝AdaptiveAvgPool2d(E4)

E6＝Linear(E5)

E7＝PReLU(E6)

E8＝Linear(E7)

E9＝Sigmoid(E8)

(2.2)第二阶段编码模块

将特征图E9进行池化操作，池化采用二维的最大池化，池化核的大小为2，步长为2，具体实施过程如下：

E10＝MaxPool2d(E9)

其中E10为E9池化之后得到的特征图。

对图像E10进行两次卷积和激活操作，第一层的卷积核大小为3×3，步长为(1,1)，填充为(1,1)，输入通道数为64，输出通道数为128；第二层的卷积核大小为3×3，步长为(1,1)，填充为(1,1)，输入通道数为128，输出通道数为128；激活函数为ReLU函数。进行卷积、激活、卷积、激活之后得到特征图E12，具体实施过程如下：

E11＝ReLU(conv(E10))

E12＝ReLU(conv(E11))

其中E11，E12为图像E10经过两次卷积分别产生的特征图。

将特征图E12作为输入进入通道注意力(SENet)模块，通道注意力模块结构图如图2所示，通道注意力模块流程图如图3所示，逐次进行平均池化、全连接，激活，全连接，激活等操作，其中池化的输出特征维度为1，第一层全连接的输入特征图通道数为128，输出特征图通道数为8，激活函数为PReLU，第二层全连接的输入特征图通道数为8，输出特征图通道数为128，激活函数为Sigmoid，进行池化、全连接、激活、全连接、激活之后得到特征图E17，具体实施过程如下：

E13＝AdaptiveAvgPool2d(E12)

E14＝Linear(E13)

E15＝PReLU(E14)

E16＝Linear(E15)

E17＝Sigmoid(E16)

(2.3)第三阶段编码模块

将特征图E17进行池化操作，池化采用二维的最大池化，池化核的大小为2，步长为2，具体实施过程如下：

E18＝MaxPool2d(E17)

其中E18为E17池化之后得到的特征图。

对图像E18进行两次卷积和激活操作，第一层的卷积核大小为3×3，步长为(1,1)，填充为(1,1)，输入通道数为128，输出通道数为256，激活函数为ReLU函数；第二层的卷积核大小为3×3，步长为(1,1)，填充为(1,1)，输入通道数为256，输出通道数为256；激活函数为ReLU函数；第三层的卷积核大小为3×3，步长为(1,1)，填充为(1,1)，输入通道数为256，输出通道数为256；激活函数为ReLU函数。进行卷积、激活、卷积、激活之后得到特征图E21，具体实施过程如下：

E19＝ReLU(conv(E18))

E20＝ReLU(conv(E19))

E21＝ReLU(conv(E20))

其中E19，E20，E21为图像E18经过三次卷积分别产生的特征图。

将特征图E21作为输入进入通道注意力(SENet)模块，通道注意力模块结构图如图2所示，通道注意力模块流程图如图3所示，逐次进行平均池化、全连接，激活，全连接，激活等操作，其中池化的输出特征维度为1，第一层全连接的输入特征图通道数为256，输出特征图通道数为16，激活函数为PReLU，第二层全连接的输入特征图通道数为16，输出特征图通道数为256，激活函数为Sigmoid，进行池化、全连接、激活、全连接、激活之后得到特征图E26，具体实施过程如下：

E22＝AdaptiveAvgPool2d(E21)

E23＝Linear(E22)

E24＝PReLU(E23)

E25＝Linear(E24)

E26＝Sigmoid(E25)

(2.4)第四阶段编码模块

将特征图E26进行池化操作，池化采用二维的最大池化，池化核的大小为2，步长为2，具体实施过程如下：

E27＝MaxPool2d(E26)

其中E27为E26池化之后得到的特征图。

对图像E27进行两次卷积和激活操作，第一层的卷积核大小为3×3，步长为(1,1)，填充为(1,1)，输入通道数为256，输出通道数为512，激活函数为ReLU函数；第二层的卷积核大小为3×3，步长为(1,1)，填充为(1,1)，输入通道数为512，输出通道数为512；激活函数为ReLU函数；第三层的卷积核大小为3×3，步长为(1,1)，填充为(1,1)，输入通道数为512，输出通道数为512；激活函数为ReLU函数。进行卷积、激活、卷积、激活之后得到特征图E30，具体实施过程如下：

E28＝ReLU(conv(E27))

E29＝ReLU(conv(E28))

E30＝ReLU(conv(E29))

其中E28，E29，E30为图像E27经过三次卷积分别产生的特征图。

将特征图E30作为输入进入通道注意力(SENet)模块，通道注意力模块结构图如图2所示，通道注意力模块流程图如图3所示，逐次进行平均池化、全连接，激活，全连接，激活等操作，其中池化的输出特征维度为1，第一层全连接的输入特征图通道数为512，输出特征图通道数为32，激活函数为PReLU，第二层全连接的输入特征图通道数为32，输出特征图通道数为512，激活函数为Sigmoid，进行池化、全连接、激活、全连接、激活之后得到特征图E35，具体实施过程如下：

E31＝AdaptiveAvgPool2d(E30)

E32＝Linear(E31)

E33＝PReLU(E32)

E34＝Linear(E33)

E35＝Sigmoid(E34)

(2.5)第五阶段编码模块

将特征图E35进行池化操作，池化采用二维的最大池化，池化核的大小为2，步长为2，具体实施过程如下：

E36＝MaxPool2d(E35)

其中E36为E35池化之后得到的特征图。

对图像E36进行两次卷积和激活操作，第一层的卷积核大小为3×3，步长为(1,1)，填充为(1,1)，输入通道数为512，输出通道数为512，激活函数为ReLU函数；第二层的卷积核大小为3×3，步长为(1,1)，填充为(1,1)，输入通道数为512，输出通道数为512；激活函数为ReLU函数；第三层的卷积核大小为3×3，步长为(1,1)，填充为(1,1)，输入通道数为512，输出通道数为512；激活函数为ReLU函数。进行卷积、激活、卷积、激活之后得到特征图E39，具体实施过程如下：

E37＝ReLU(conv(E36))

E38＝ReLU(conv(E37))

E39＝ReLU(conv(E38))

其中E37，E38，E39为图像E36经过三次卷积分别产生的特征图。

(3)解码器

(3.1)第一阶段解码模块

将特征图E39进行上采样(UpsamplingBillinear2d)操作，上采样因子为2，上采样之后得到E40，具体按照以下实施：

E40＝UpsamplingBillinear2d(E39)

其中E40为E39上采样之后得到的特征图。

将特征图E40与步骤(2.4)中的特征图E35进行拼接，具体按照以下实施：

E41＝cat(E40,E35)

其中E41为E40和E35拼接之后得到的特征图。

将步骤特征图E41进行两次卷积和激活操作，第一层的卷积核大小为3×3，步长为(1,1)，填充为(1,1)，输入通道数为1024，输出通道数为512；第二层的卷积核大小为3×3，步长为(1,1)，填充为(1,1)，输入通道数为512，输出通道数为512。具体按照以下实施：

E42＝ReLU(conv(E41))

E43＝ReLU(conv(E42))

其中E42和E43为两次卷积之后分别得到的特征图。

(3.2)第二阶段解码模块

将特征图E43进行上采样操作，上采样因子为2，具体按照以下实施：

E44＝UpsamplingBillinear2d(E43)

其中E44为E33上采样之后得到的特征图。

将上采样后的特征图E29与步骤(2.3)中的E26进行拼接，具体按照以下实施：

E45＝cat(E44,E26)

其中E45为E44和E26拼接之后得到的特征图。

将拼接之后的特征图E45进行两次卷积和激活操作，第一层的卷积核大小为3×3，步长为(1,1)，填充为(1,1)，输入通道数为768，输出通道数为256；第二层的卷积核大小为3×3，步长为(1,1)，填充为(1,1)，输入通道数为256，输出通道数为256。具体按照以下实施：

E46＝ReLU(conv(E45))

E47＝ReLU(conv(E46))

其中E46，E47为两次卷积之后分别得到的特征图。

(3.3)第三阶段解码模块

将特征图E47进行上采样(UpsamplingBillinear2d)操作，上采样因子为2，具体按照以下实施：

E48＝UpsamplingBillinear2d(E47)

其中E48为E47上采样之后得到的特征图。

将上采样之后的特征图E48与步骤(2.2)中的E17进行拼接，具体按照以下实施：

E49＝cat(E48,E17)

其中E49为E48和E17拼接之后得到的特征图。

将拼接之后的特征图E49进行两次卷积和激活操作，第一层的卷积核大小为3×3，步长为(1,1)，填充为(1,1)，输入通道数为384，输出通道数为128；第二层的卷积核大小为3×3，步长为(1,1)，填充为(1,1)，输入通道数为128，输出通道数为128。具体按照以下实施：

E50＝ReLU(conv(E49))

E51＝ReLU(conv(E50))

其中E50，E51为两次卷积之后分别得到的特征图。

(3.4)第四阶段解码模块

将特征图E51进行上采样操作，上采样因子为2，具体按照以下实施：

E52＝UpsamplingBillinear2d(E51)

其中E52为E51上采样之后得到的特征图。

步骤23、将步骤22上采样之后的特征图与步骤(2.1)中的E9进行拼接，具体按照以下实施：

E53＝cat(E52,E9)

其中E53为E52和E9拼接之后得到的特征图。

将特征图E53作为输入再次进行解码，对图像进行三次卷积和激活操作；第一层的卷积核大小为3×3，步长为(1,1)，填充为(1,1)，输入通道数为192，输出通道数为64；第二层的卷积核大小为3×3，步长为(1,1)，填充为(1,1)，输入通道数为64，输出通道数为64；第三层的卷积核大小为3×3，步长为(1,1)，填充为(1,1)，输入通道数为64，输出通道数为21；激活函数为ReLU函数，进行卷积、激活、卷积、激活、卷积、激活之后得到特征图E54，具体实施过程如下：

E54＝ReLU(conv(E53))

E55＝ReLU(conv(E54))

E56＝ReLU(conv(E55))

其中E54，E55，E56为三次卷积之后分别得到的特征图。

其中E56的输出通道数对应要进行图像分割的类别数+1(1为背景)，即可输出最后的分割结果，完成水下图像语义分割网络模型的构建。

基于相同的发明构思，本发明提供的一种计算机系统，包括存储器、处理器显卡及存储在存储器上并可在处理器上运行的计算机程序，所述计算机程序被加载至处理器时实现所述的基于深度学习的水下图像语义分割模型。

Claims

1.一种基于深度学习的水下图像语义分割模型，其特征在于，包括如下步骤：

将输入图片进行预处理操作，然后将预处理之后的图片送入编码器模块，其中编码器模块包含五个阶段，先通过编码器进行编码，编码过程中通过通道注意力模块来对特征图的细节特征进行捕获，然后通过解码器进行解码，解码器包含四个阶段，将解码器得到的特征图和编码器得到的特征图进行特征融合，最后输出分割之后的结果。

2.根据权利要求1所述的基于深度学习的水下图像语义分割模型，其特征在于，在编码器中所述第一阶段编码模块输出的特征图通过通道注意力，进行平均池化、全连接层、激活、全连接层、激活等操作，得到特征图E9。

3.根据权利要求1所述的基于深度学习的水下图像语义分割模型，其特征在于，在编码器中所述第一阶段输出的特征图E9经过第二阶段编码器编码模块，然后通过通道注意力，进行平均池化、全连接层、激活、全连接层、激活等操作，得到特征图E17。

4.根据权利要求1所述的基于深度学习的水下图像语义分割模型，其特征在于，在编码器中所述第二阶段输出的特征图E17经过第三阶段编码器编码，然后通过通道注意力，进行平均池化、全连接层、激活、全连接层、激活等操作，得到特征图E26。

5.根据权利要求3所述的基于深度学习的水下图像语义分割模型，其特征在于，在编码器中所述第二阶段输出的特征图E35经过第三阶段编码器编码，然后通过通道注意力，进行平均池化、全连接层、激活、全连接层、激活等操作，得到特征图E39。

6.根据权利要求1所述的基于深度学习的水下图像语义分割模型，其特征在于，第一、二、三、四阶段解码模块所述通道注意力子模块采用PReLU激活函数。

7.根据权利要求1所述的基于深度学习的水下图像语义分割模型，其特征在于，预处理模块将输入图像的尺寸修改为512×512。

8.一种计算机系统，包括存储器、处理器、显卡及存储在存储器上并可在处理器上运行的计算机程序，其特征在于，所述计算机程序被加载至处理器时实现根据权利要求1-7任一项所述的一种基于深度学习的水下图像语义分割模型。