CN114677514A - 一种基于深度学习的水下图像语义分割模型 - Google Patents
一种基于深度学习的水下图像语义分割模型 Download PDFInfo
- Publication number
- CN114677514A CN114677514A CN202210407563.7A CN202210407563A CN114677514A CN 114677514 A CN114677514 A CN 114677514A CN 202210407563 A CN202210407563 A CN 202210407563A CN 114677514 A CN114677514 A CN 114677514A
- Authority
- CN
- China
- Prior art keywords
- feature map
- stage
- encoder
- underwater image
- activation
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 230000011218 segmentation Effects 0.000 title claims abstract description 39
- 238000013135 deep learning Methods 0.000 title claims abstract description 20
- 230000004913 activation Effects 0.000 claims abstract description 66
- 238000011176 pooling Methods 0.000 claims abstract description 37
- 238000000034 method Methods 0.000 claims abstract description 33
- 238000007781 pre-processing Methods 0.000 claims abstract description 9
- 230000006870 function Effects 0.000 claims description 41
- 238000004590 computer program Methods 0.000 claims description 7
- 230000004927 fusion Effects 0.000 claims description 3
- 238000010586 diagram Methods 0.000 abstract description 20
- 238000012549 training Methods 0.000 abstract description 9
- 230000000694 effects Effects 0.000 abstract description 6
- 238000012360 testing method Methods 0.000 abstract description 5
- 238000003709 image segmentation Methods 0.000 description 18
- 241000282326 Felis catus Species 0.000 description 4
- 238000010276 construction Methods 0.000 description 2
- 230000001902 propagating effect Effects 0.000 description 2
- XLYOFNOQVPJJNP-UHFFFAOYSA-N water Substances O XLYOFNOQVPJJNP-UHFFFAOYSA-N 0.000 description 2
- 241000282414 Homo sapiens Species 0.000 description 1
- 238000010521 absorption reaction Methods 0.000 description 1
- 102220405542 c.129G>A Human genes 0.000 description 1
- 102220367019 c.33G>A Human genes 0.000 description 1
- 102220397780 c.48G>A Human genes 0.000 description 1
- 102220419271 c.78G>A Human genes 0.000 description 1
- 102220367935 c.96G>A Human genes 0.000 description 1
- 238000001514 detection method Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 239000012535 impurity Substances 0.000 description 1
- 239000011159 matrix material Substances 0.000 description 1
- 102220300360 rs1004961829 Human genes 0.000 description 1
- 102220038419 rs10062086 Human genes 0.000 description 1
- 102220222002 rs1060504718 Human genes 0.000 description 1
- 102220214584 rs1060504760 Human genes 0.000 description 1
- 102220041521 rs142720069 Human genes 0.000 description 1
- 102220272023 rs145590804 Human genes 0.000 description 1
- 102220336999 rs1483677896 Human genes 0.000 description 1
- 102220172520 rs150640883 Human genes 0.000 description 1
- 102220078706 rs151314714 Human genes 0.000 description 1
- 102220336995 rs1553396127 Human genes 0.000 description 1
- 102220257839 rs1553619344 Human genes 0.000 description 1
- 102220316642 rs1553619385 Human genes 0.000 description 1
- 102220277427 rs1553619391 Human genes 0.000 description 1
- 102220277674 rs1554067113 Human genes 0.000 description 1
- 102220277688 rs1554069532 Human genes 0.000 description 1
- 102220266582 rs1554919178 Human genes 0.000 description 1
- 102220215034 rs183407241 Human genes 0.000 description 1
- 102220060530 rs190031653 Human genes 0.000 description 1
- 102220035186 rs199475860 Human genes 0.000 description 1
- 102220103671 rs370359745 Human genes 0.000 description 1
- 102220083898 rs373348391 Human genes 0.000 description 1
- 102220267077 rs572359733 Human genes 0.000 description 1
- 102220086512 rs587778114 Human genes 0.000 description 1
- 102220042297 rs587780883 Human genes 0.000 description 1
- 102220112669 rs61731639 Human genes 0.000 description 1
- 102220058440 rs63750555 Human genes 0.000 description 1
- 102220057398 rs730881406 Human genes 0.000 description 1
- 102220180890 rs749432078 Human genes 0.000 description 1
- 102220200577 rs752220575 Human genes 0.000 description 1
- 102220061212 rs760609798 Human genes 0.000 description 1
- 102220096001 rs762819719 Human genes 0.000 description 1
- 102220110192 rs78429222 Human genes 0.000 description 1
- 102220066024 rs79889344 Human genes 0.000 description 1
- 102220084178 rs863224363 Human genes 0.000 description 1
- 102220337091 rs866503570 Human genes 0.000 description 1
- 102220096721 rs876660131 Human genes 0.000 description 1
- 102220096708 rs876660538 Human genes 0.000 description 1
- 102220098893 rs878855235 Human genes 0.000 description 1
- 102220113637 rs886038906 Human genes 0.000 description 1
- 102220148769 rs886061426 Human genes 0.000 description 1
- 102220224016 rs977829339 Human genes 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- General Health & Medical Sciences (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Evolutionary Computation (AREA)
- Artificial Intelligence (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Health & Medical Sciences (AREA)
- Image Analysis (AREA)
Abstract
本发明公开了一种基于深度学习的水下图像语义分割模型,所述模型包括预处理、编码器模块和解码器模块,其中编码器模块包含五个阶段编码模块,第一阶段、第二阶段、第三阶段和第四阶段包含SENet(通道注意力)子模块,通道注意力模块对特征图进行平均池化、全连接层、激活、全连接层和激活等操作;利用所述分割方法对水下图像训练集进行训练,并将水下图像测试集输入训练好的网络模型,得到分割后的图像;本发明的分割模型对于水下图像中分辨率较低的图像也能做到精确分割,对水下图像中的目标分割精度高,分割效果好。
Description
技术领域
本发明涉及一种基于深度学习的水下图像语义分割模型。
背景技术
随着人类对海洋资源开发,对水下环境探测技术的要求也越来越高。水下图像是认识和分析水下环境的关键工具。由于水介质对光线的散折射及吸收效应、水中杂质及水下照明条件等因素影响,水下图像存在对比度低、信噪比低、颜色分布不均等问题。常用的水下图像语义分割方法有:基于阈值的图像分割方法、基于边缘的图像分割技术、基于区域的图像分割技术和基于特定理论的图像分割技术等。例如:一种注意力图像分割方法、装置及介质(CN112950653A)中公开了利用注意力网络以及融合特征图进行图像分割,然后将分割网络与区域信息加权融合得到的矩阵再次进行分割。现有的方法不能很好的关注到图像中的目标对象,对水下图像分割的精度较差,并不能很好的对物体的边缘轮廓进行分割,同时由于水下图像存在对比度低、信噪比低、颜色分布不均等问题,现有的分割方法对于图像轮廓的分割效果较差。
发明内容
发明目的:本发明的目的是提供一种基于深度学习的水下图像分割模型,解决水下图像分割中目标轮廓的分割效果差,分割平均交并比、平均像素精度和准确率较差的问题。
技术方案:为实现上述目的,本发明采用如下技术方案:
本发明所述的一种基于深度学习的水下图像分割模型,包括以下步骤:
预处理模块对输入图像E1进行预处理,即将图像转化为RGB三通道;然后将图像大小调整为512×512得到E2;
对图像E2进行第一阶段编码,通过卷积提取特征,再通过通道注意力进行细节特征捕获,最后通过最大池化来减小特征图的大小,得到第一阶段的编码结果E9;
对第一阶段的编码结果E10进行第二阶段编码,通过卷积提取特征图的特征,再通过通道注意力进行细节特征捕获,其中通道注意力模块中的第一个激活函数采用PReLU激活函数,最后通过最大池化来减小特征图的大小,得到第二阶段的编码结果E17;
对第二阶段的编码结果E26进行第三阶段编码,通过卷积提取特征图的特征,再通过通道注意力进行细节特征捕获,其中通道注意力模块中的第一个激活函数采用PReLU激活函数,最后通过最大池化来减小特征图的大小,得到第三阶段的编码结果E26;
对第三阶段的编码结果27进行第四阶段编码,通过卷积提取特征图的特征,再通过通道注意力进行细节特征捕获,其中通道注意力模块中的第一个激活函数采用PReLU激活函数,最后通过最大池化来减小特征图的大小,得到第四阶段的编码结果E34;
对第四阶段的编码结果27进行第五阶段编码,将图像转化为高语义特征,得到第五阶段的编码结果E39;
进一步地,对第五阶段的编码结果E3进行上采样操作,恢复特征图的大小和细节信息,然后和第四阶段的输出结果E35进行拼接,得到低语义信息和高语义信息融合后的特征图,并对特征图执行卷积操作来对特征图进行解码,得到解码结果E42。
进一步地,对第一阶段的解码结果E42进行上采样操作,恢复特征图的大小和细节信息,然后和第三阶段的输出结果E26进行拼接,得到低语义信息和高语义信息融合后的特征图,并对特征图执行卷积操作来对特征图进行解码,得到解码结果E47。
进一步地,对第二阶段的解码结果E47进行上采样操作,恢复特征图的大小和细节信息,然后和第三阶段的输出结果E17进行拼接,得到低语义信息和高语义信息融合后的特征图,并对特征图执行卷积操作来对特征图进行解码,得到解码结果E51。
进一步地,对第一阶段的解码结果E51进行上采样操作,恢复特征图的大小和细节信息,然后和第三阶段的输出结果E9进行拼接,得到低语义信息和高语义信息融合后的特征图,并对特征图执行两次卷积操作来对特征图进行解码,得到解码结果E55。
进一步地,对第四阶段解码器两次卷积后的结果E55进行卷积操作,输出通道数对应要进行图像分割的类别数+1(1为背景),即可输出最后的分割结果,完成水下图像语义分割网络模型的构建。
如图4所示,根据上述步骤建立的模型,本发明所述的基于深度学习的水下图像分割模型包括如下步骤:
(1)采用预处理之后的训练集对水下图像语义分割模型进行训练,得到图像分割的网络模型,利用损失函数对训练网络进行约束,然后反向传播优化参数,迭代6.86万次,最后得到训练好的水下图像分割模型。
(2)将水下图像的测试集放入训练好的模型中进行测试,最终输出图像分割后的结果。
基于相同的发明构思,本发明提供的一种计算机系统,包括存储器、处理器6显卡及存储在存储器上并可在处理器上运行的计算机程序,所述计算机程序被加载至处理器时实现所述的基于深度学习的水下图像语义分割模型。
有益效果:本发明提供的一种基于深度学习的水下图像语义分割模型,将训练图像送入编码网络中,并通过通道注意力来捕获图像的细节特征,使分割结果更加精确。本发明通过将通道注意力模块嵌入编码阶段的四个阶段,使编码器在对图像进行编码时能够很好的捕获图像的细节特征和边缘信息,解决传统方法对水下图像进行分割时分割精度较低的问题。
本发明与现有技术相比的优点在于:分割精度高,尤其是边缘分割效果好;第四阶段卷积之后的输出进行卷积注意力加权,使用卷积注意力来对输入图像的不同的通道分配不同的权重,使分割效果更加精确,对于对比度较小的物体之间也能准确分割;在编码时增加卷积层以提取更多特征,在对低层特征和高层特征进行拼接时使用全部的低层特征,能够保留更多有用特征,无需对特征图进行裁剪。
附图说明
图1为本发明的水下图像语义分割模型结构图;
图2为本发明的通道注意力模块结构图;
图3为本发明的通道注意力模块流程图;
图4为本发明的基于深度学习的水下图像语义分割流程图;
具体实施方式
下面结合附图对本发明的技术方案作进一步说明。
如图1所示,所述水下图像语义分割模型,包括预处理模块、编码器和解码器,编码器中包含通道注意力(SENet)模块;编码器用于提取输入图像的特征,减小特征图大小;把低语义特征转换为高语义特征,解码器用于逐步恢复出图像的细节信息和空间维度,并将恢复出来的特征图和编码器的特征图进行融合。所述模型的建立方法,包括如下步骤:
(1)预处理模块
预处理模块对输入图像E1进行预处理,即将图像转化为RGB三通道;然后将图像大小调整为512×512得到E2。
(2)编码器
(2.1)第一阶段编码模块
对图像E2进行两次卷积和激活操作,第一层的卷积核大小为3×3,步长为(1,1),填充为(1,1),输入通道数为3,输出通道数为64;第二层的卷积核大小为3×3,步长为(1,1),填充为(1,1),输入通道数为64,输出通道数为64;激活函数为ReLU函数。进行卷积、激活、卷积、激活之后得到特征图E4,具体实施过程如下:
E3=ReLU(conv(E2))
E4=ReLU(conv(E3))
其中E3,E4为图像E2经过两次卷积分别产生的特征图。
将特征图E4作为输入进入通道注意力(SENet)模块,通道注意力模块结构图如图2所示,通道注意力模块流程图如图3所示,逐次进行平均池化、全连接,激活,全连接,激活等操作,其中池化的输出特征维度为1,第一层全连接的输入特征图通道数为64,输出特征图通道数为4,激活函数为PReLU,第二层全连接的输入特征图通道数为4,输出特征图通道数为64,激活函数为Sigmoid,进行池化、全连接、激活、全连接、激活之后得到特征图E9,具体实施过程如下:
E5=AdaptiveAvgPool2d(E4)
E6=Linear(E5)
E7=PReLU(E6)
E8=Linear(E7)
E9=Sigmoid(E8)
(2.2)第二阶段编码模块
将特征图E9进行池化操作,池化采用二维的最大池化,池化核的大小为2,步长为2,具体实施过程如下:
E10=MaxPool2d(E9)
其中E10为E9池化之后得到的特征图。
对图像E10进行两次卷积和激活操作,第一层的卷积核大小为3×3,步长为(1,1),填充为(1,1),输入通道数为64,输出通道数为128;第二层的卷积核大小为3×3,步长为(1,1),填充为(1,1),输入通道数为128,输出通道数为128;激活函数为ReLU函数。进行卷积、激活、卷积、激活之后得到特征图E12,具体实施过程如下:
E11=ReLU(conv(E10))
E12=ReLU(conv(E11))
其中E11,E12为图像E10经过两次卷积分别产生的特征图。
将特征图E12作为输入进入通道注意力(SENet)模块,通道注意力模块结构图如图2所示,通道注意力模块流程图如图3所示,逐次进行平均池化、全连接,激活,全连接,激活等操作,其中池化的输出特征维度为1,第一层全连接的输入特征图通道数为128,输出特征图通道数为8,激活函数为PReLU,第二层全连接的输入特征图通道数为8,输出特征图通道数为128,激活函数为Sigmoid,进行池化、全连接、激活、全连接、激活之后得到特征图E17,具体实施过程如下:
E13=AdaptiveAvgPool2d(E12)
E14=Linear(E13)
E15=PReLU(E14)
E16=Linear(E15)
E17=Sigmoid(E16)
(2.3)第三阶段编码模块
将特征图E17进行池化操作,池化采用二维的最大池化,池化核的大小为2,步长为2,具体实施过程如下:
E18=MaxPool2d(E17)
其中E18为E17池化之后得到的特征图。
对图像E18进行两次卷积和激活操作,第一层的卷积核大小为3×3,步长为(1,1),填充为(1,1),输入通道数为128,输出通道数为256,激活函数为ReLU函数;第二层的卷积核大小为3×3,步长为(1,1),填充为(1,1),输入通道数为256,输出通道数为256;激活函数为ReLU函数;第三层的卷积核大小为3×3,步长为(1,1),填充为(1,1),输入通道数为256,输出通道数为256;激活函数为ReLU函数。进行卷积、激活、卷积、激活之后得到特征图E21,具体实施过程如下:
E19=ReLU(conv(E18))
E20=ReLU(conv(E19))
E21=ReLU(conv(E20))
其中E19,E20,E21为图像E18经过三次卷积分别产生的特征图。
将特征图E21作为输入进入通道注意力(SENet)模块,通道注意力模块结构图如图2所示,通道注意力模块流程图如图3所示,逐次进行平均池化、全连接,激活,全连接,激活等操作,其中池化的输出特征维度为1,第一层全连接的输入特征图通道数为256,输出特征图通道数为16,激活函数为PReLU,第二层全连接的输入特征图通道数为16,输出特征图通道数为256,激活函数为Sigmoid,进行池化、全连接、激活、全连接、激活之后得到特征图E26,具体实施过程如下:
E22=AdaptiveAvgPool2d(E21)
E23=Linear(E22)
E24=PReLU(E23)
E25=Linear(E24)
E26=Sigmoid(E25)
(2.4)第四阶段编码模块
将特征图E26进行池化操作,池化采用二维的最大池化,池化核的大小为2,步长为2,具体实施过程如下:
E27=MaxPool2d(E26)
其中E27为E26池化之后得到的特征图。
对图像E27进行两次卷积和激活操作,第一层的卷积核大小为3×3,步长为(1,1),填充为(1,1),输入通道数为256,输出通道数为512,激活函数为ReLU函数;第二层的卷积核大小为3×3,步长为(1,1),填充为(1,1),输入通道数为512,输出通道数为512;激活函数为ReLU函数;第三层的卷积核大小为3×3,步长为(1,1),填充为(1,1),输入通道数为512,输出通道数为512;激活函数为ReLU函数。进行卷积、激活、卷积、激活之后得到特征图E30,具体实施过程如下:
E28=ReLU(conv(E27))
E29=ReLU(conv(E28))
E30=ReLU(conv(E29))
其中E28,E29,E30为图像E27经过三次卷积分别产生的特征图。
将特征图E30作为输入进入通道注意力(SENet)模块,通道注意力模块结构图如图2所示,通道注意力模块流程图如图3所示,逐次进行平均池化、全连接,激活,全连接,激活等操作,其中池化的输出特征维度为1,第一层全连接的输入特征图通道数为512,输出特征图通道数为32,激活函数为PReLU,第二层全连接的输入特征图通道数为32,输出特征图通道数为512,激活函数为Sigmoid,进行池化、全连接、激活、全连接、激活之后得到特征图E35,具体实施过程如下:
E31=AdaptiveAvgPool2d(E30)
E32=Linear(E31)
E33=PReLU(E32)
E34=Linear(E33)
E35=Sigmoid(E34)
(2.5)第五阶段编码模块
将特征图E35进行池化操作,池化采用二维的最大池化,池化核的大小为2,步长为2,具体实施过程如下:
E36=MaxPool2d(E35)
其中E36为E35池化之后得到的特征图。
对图像E36进行两次卷积和激活操作,第一层的卷积核大小为3×3,步长为(1,1),填充为(1,1),输入通道数为512,输出通道数为512,激活函数为ReLU函数;第二层的卷积核大小为3×3,步长为(1,1),填充为(1,1),输入通道数为512,输出通道数为512;激活函数为ReLU函数;第三层的卷积核大小为3×3,步长为(1,1),填充为(1,1),输入通道数为512,输出通道数为512;激活函数为ReLU函数。进行卷积、激活、卷积、激活之后得到特征图E39,具体实施过程如下:
E37=ReLU(conv(E36))
E38=ReLU(conv(E37))
E39=ReLU(conv(E38))
其中E37,E38,E39为图像E36经过三次卷积分别产生的特征图。
(3)解码器
(3.1)第一阶段解码模块
将特征图E39进行上采样(UpsamplingBillinear2d)操作,上采样因子为2,上采样之后得到E40,具体按照以下实施:
E40=UpsamplingBillinear2d(E39)
其中E40为E39上采样之后得到的特征图。
将特征图E40与步骤(2.4)中的特征图E35进行拼接,具体按照以下实施:
E41=cat(E40,E35)
其中E41为E40和E35拼接之后得到的特征图。
将步骤特征图E41进行两次卷积和激活操作,第一层的卷积核大小为3×3,步长为(1,1),填充为(1,1),输入通道数为1024,输出通道数为512;第二层的卷积核大小为3×3,步长为(1,1),填充为(1,1),输入通道数为512,输出通道数为512。具体按照以下实施:
E42=ReLU(conv(E41))
E43=ReLU(conv(E42))
其中E42和E43为两次卷积之后分别得到的特征图。
(3.2)第二阶段解码模块
将特征图E43进行上采样操作,上采样因子为2,具体按照以下实施:
E44=UpsamplingBillinear2d(E43)
其中E44为E33上采样之后得到的特征图。
将上采样后的特征图E29与步骤(2.3)中的E26进行拼接,具体按照以下实施:
E45=cat(E44,E26)
其中E45为E44和E26拼接之后得到的特征图。
将拼接之后的特征图E45进行两次卷积和激活操作,第一层的卷积核大小为3×3,步长为(1,1),填充为(1,1),输入通道数为768,输出通道数为256;第二层的卷积核大小为3×3,步长为(1,1),填充为(1,1),输入通道数为256,输出通道数为256。具体按照以下实施:
E46=ReLU(conv(E45))
E47=ReLU(conv(E46))
其中E46,E47为两次卷积之后分别得到的特征图。
(3.3)第三阶段解码模块
将特征图E47进行上采样(UpsamplingBillinear2d)操作,上采样因子为2,具体按照以下实施:
E48=UpsamplingBillinear2d(E47)
其中E48为E47上采样之后得到的特征图。
将上采样之后的特征图E48与步骤(2.2)中的E17进行拼接,具体按照以下实施:
E49=cat(E48,E17)
其中E49为E48和E17拼接之后得到的特征图。
将拼接之后的特征图E49进行两次卷积和激活操作,第一层的卷积核大小为3×3,步长为(1,1),填充为(1,1),输入通道数为384,输出通道数为128;第二层的卷积核大小为3×3,步长为(1,1),填充为(1,1),输入通道数为128,输出通道数为128。具体按照以下实施:
E50=ReLU(conv(E49))
E51=ReLU(conv(E50))
其中E50,E51为两次卷积之后分别得到的特征图。
(3.4)第四阶段解码模块
将特征图E51进行上采样操作,上采样因子为2,具体按照以下实施:
E52=UpsamplingBillinear2d(E51)
其中E52为E51上采样之后得到的特征图。
步骤23、将步骤22上采样之后的特征图与步骤(2.1)中的E9进行拼接,具体按照以下实施:
E53=cat(E52,E9)
其中E53为E52和E9拼接之后得到的特征图。
将特征图E53作为输入再次进行解码,对图像进行三次卷积和激活操作;第一层的卷积核大小为3×3,步长为(1,1),填充为(1,1),输入通道数为192,输出通道数为64;第二层的卷积核大小为3×3,步长为(1,1),填充为(1,1),输入通道数为64,输出通道数为64;第三层的卷积核大小为3×3,步长为(1,1),填充为(1,1),输入通道数为64,输出通道数为21;激活函数为ReLU函数,进行卷积、激活、卷积、激活、卷积、激活之后得到特征图E54,具体实施过程如下:
E54=ReLU(conv(E53))
E55=ReLU(conv(E54))
E56=ReLU(conv(E55))
其中E54,E55,E56为三次卷积之后分别得到的特征图。
其中E56的输出通道数对应要进行图像分割的类别数+1(1为背景),即可输出最后的分割结果,完成水下图像语义分割网络模型的构建。
如图4所示,根据上述步骤建立的模型,本发明所述的基于深度学习的水下图像分割模型包括如下步骤:
(1)采用预处理之后的训练集对水下图像语义分割模型进行训练,得到图像分割的网络模型,利用损失函数对训练网络进行约束,然后反向传播优化参数,迭代6.86万次,最后得到训练好的水下图像分割模型。
(2)将水下图像的测试集放入训练好的模型中进行测试,最终输出图像分割后的结果。
基于相同的发明构思,本发明提供的一种计算机系统,包括存储器、处理器显卡及存储在存储器上并可在处理器上运行的计算机程序,所述计算机程序被加载至处理器时实现所述的基于深度学习的水下图像语义分割模型。
Claims (8)
1.一种基于深度学习的水下图像语义分割模型,其特征在于,包括如下步骤:
将输入图片进行预处理操作,然后将预处理之后的图片送入编码器模块,其中编码器模块包含五个阶段,先通过编码器进行编码,编码过程中通过通道注意力模块来对特征图的细节特征进行捕获,然后通过解码器进行解码,解码器包含四个阶段,将解码器得到的特征图和编码器得到的特征图进行特征融合,最后输出分割之后的结果。
2.根据权利要求1所述的基于深度学习的水下图像语义分割模型,其特征在于,在编码器中所述第一阶段编码模块输出的特征图通过通道注意力,进行平均池化、全连接层、激活、全连接层、激活等操作,得到特征图E9。
3.根据权利要求1所述的基于深度学习的水下图像语义分割模型,其特征在于,在编码器中所述第一阶段输出的特征图E9经过第二阶段编码器编码模块,然后通过通道注意力,进行平均池化、全连接层、激活、全连接层、激活等操作,得到特征图E17。
4.根据权利要求1所述的基于深度学习的水下图像语义分割模型,其特征在于,在编码器中所述第二阶段输出的特征图E17经过第三阶段编码器编码,然后通过通道注意力,进行平均池化、全连接层、激活、全连接层、激活等操作,得到特征图E26。
5.根据权利要求3所述的基于深度学习的水下图像语义分割模型,其特征在于,在编码器中所述第二阶段输出的特征图E35经过第三阶段编码器编码,然后通过通道注意力,进行平均池化、全连接层、激活、全连接层、激活等操作,得到特征图E39。
6.根据权利要求1所述的基于深度学习的水下图像语义分割模型,其特征在于,第一、二、三、四阶段解码模块所述通道注意力子模块采用PReLU激活函数。
7.根据权利要求1所述的基于深度学习的水下图像语义分割模型,其特征在于,预处理模块将输入图像的尺寸修改为512×512。
8.一种计算机系统,包括存储器、处理器、显卡及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述计算机程序被加载至处理器时实现根据权利要求1-7任一项所述的一种基于深度学习的水下图像语义分割模型。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210407563.7A CN114677514A (zh) | 2022-04-19 | 2022-04-19 | 一种基于深度学习的水下图像语义分割模型 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210407563.7A CN114677514A (zh) | 2022-04-19 | 2022-04-19 | 一种基于深度学习的水下图像语义分割模型 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN114677514A true CN114677514A (zh) | 2022-06-28 |
Family
ID=82077354
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210407563.7A Pending CN114677514A (zh) | 2022-04-19 | 2022-04-19 | 一种基于深度学习的水下图像语义分割模型 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114677514A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117745745A (zh) * | 2024-02-18 | 2024-03-22 | 湖南大学 | 一种基于上下文融合感知的ct图像分割方法 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111259906A (zh) * | 2020-01-17 | 2020-06-09 | 陕西师范大学 | 含多级通道注意力的条件生成对抗遥感图像目标分割方法 |
WO2021093435A1 (zh) * | 2019-11-12 | 2021-05-20 | 腾讯科技(深圳)有限公司 | 语义分割网络结构的生成方法、装置、设备及存储介质 |
CN113902925A (zh) * | 2021-10-26 | 2022-01-07 | 上海师范大学 | 一种基于深度卷积神经网络的语义分割方法及系统 |
CN113989507A (zh) * | 2021-11-23 | 2022-01-28 | 江苏科技大学 | 一种水下图像语义分割模型及分割方法 |
-
2022
- 2022-04-19 CN CN202210407563.7A patent/CN114677514A/zh active Pending
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2021093435A1 (zh) * | 2019-11-12 | 2021-05-20 | 腾讯科技(深圳)有限公司 | 语义分割网络结构的生成方法、装置、设备及存储介质 |
CN111259906A (zh) * | 2020-01-17 | 2020-06-09 | 陕西师范大学 | 含多级通道注意力的条件生成对抗遥感图像目标分割方法 |
CN113902925A (zh) * | 2021-10-26 | 2022-01-07 | 上海师范大学 | 一种基于深度卷积神经网络的语义分割方法及系统 |
CN113989507A (zh) * | 2021-11-23 | 2022-01-28 | 江苏科技大学 | 一种水下图像语义分割模型及分割方法 |
Non-Patent Citations (1)
Title |
---|
YONGQI YUAN,PENGFEI LI: "Research on Sonar Image Classification Algorithm Based on Deep Learning", 2021 2ND INTERNATIONAL SEMINAR ON ARTIFICIAL INTELLIGENCE, NETWORKING AND INFORMATION TECHNOLOGY (AINIT), 8 March 2022 (2022-03-08) * |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117745745A (zh) * | 2024-02-18 | 2024-03-22 | 湖南大学 | 一种基于上下文融合感知的ct图像分割方法 |
CN117745745B (zh) * | 2024-02-18 | 2024-05-10 | 湖南大学 | 一种基于上下文融合感知的ct图像分割方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111369581A (zh) | 图像处理方法、装置、设备及存储介质 | |
CN114943876A (zh) | 一种多级语义融合的云和云影检测方法、设备及存储介质 | |
CN110991310B (zh) | 人像检测方法、装置、电子设备及计算机可读介质 | |
CN113436210B (zh) | 一种融合上下文逐级采样的道路图像分割方法 | |
CN112084859A (zh) | 一种基于稠密边界块和注意力机制的建筑物分割方法 | |
CN117197763A (zh) | 基于交叉注意引导特征对齐网络的道路裂缝检测方法和系统 | |
CN114677514A (zh) | 一种基于深度学习的水下图像语义分割模型 | |
CN113743300A (zh) | 基于语义分割的高分遥感图像云检测方法和装置 | |
CN116503709A (zh) | 一种基于改进YOLOv5的雾霾天气下车辆检测方法 | |
CN116597270A (zh) | 基于注意力机制集成学习网络的道路损毁目标检测方法 | |
CN117541505A (zh) | 基于跨层注意力特征交互和多尺度通道注意力的去雾方法 | |
CN116485682A (zh) | 一种基于潜在扩散模型的图像阴影去除系统及方法 | |
CN111429468A (zh) | 细胞核分割方法、装置、设备及存储介质 | |
CN114241344A (zh) | 一种基于深度学习的植物叶片病虫害严重程度评估方法 | |
CN113989507B (zh) | 一种水下图像语义分割模型及分割方法 | |
CN115100409B (zh) | 一种基于孪生网络的视频人像分割算法 | |
CN116362995A (zh) | 一种基于标准先验的牙齿图像修复方法和系统 | |
CN116071557A (zh) | 一种长尾目标检测方法、计算机可读存储介质及驾驶设备 | |
CN111931689B (zh) | 一种在线提取视频卫星数据鉴别特征的方法 | |
CN114926882A (zh) | 一种基于detr的人脸检测方法 | |
CN117523219A (zh) | 图像处理方法及装置、电子设备、存储介质 | |
CN113192149A (zh) | 图像深度信息单目估计方法、设备及可读存储介质 | |
Wang et al. | FPD Net: Feature Pyramid DehazeNet. | |
CN114187408B (zh) | 三维人脸模型重建方法、装置、电子设备及存储介质 | |
CN116246075B (zh) | 一种动态信息与静态信息结合的视频语义分割方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |