CN115908793A - 一种基于位置注意力机制的编解码结构语义分割模型 - Google Patents

一种基于位置注意力机制的编解码结构语义分割模型 Download PDF

Info

Publication number
CN115908793A
CN115908793A CN202210408406.8A CN202210408406A CN115908793A CN 115908793 A CN115908793 A CN 115908793A CN 202210408406 A CN202210408406 A CN 202210408406A CN 115908793 A CN115908793 A CN 115908793A
Authority
CN
China
Prior art keywords
model
image
feature
semantic
conv
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202210408406.8A
Other languages
English (en)
Inventor
许海霞
王玮
周维
彭伟
张东波
王帅龙
陈祁
丁凡迅
韩丰
刘彦帮
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Xiangtan University
Original Assignee
Xiangtan University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Xiangtan University filed Critical Xiangtan University
Priority to CN202210408406.8A priority Critical patent/CN115908793A/zh
Publication of CN115908793A publication Critical patent/CN115908793A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02TCLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
    • Y02T10/00Road transport of goods or passengers
    • Y02T10/10Internal combustion engine [ICE] based vehicles
    • Y02T10/40Engine management systems

Abstract

本发明公开了一种基于位置注意力机制的编解码结构语义分割模型。本发明包括以下步骤:1、模型建立,设计一种基于位置注意力机制的编解码结构语义分割模型,通过编码器中注意力机制学习像素点图像特征之间的关联性并增强深层语义信息,通过解码器将浅层语义信息和深层语义信息进行融合来捕获图像丰富的上下文语义信息。2、模型训练,首先对数据集预处理,然后根据建立好的模型进行模型训练。3、模型推理,将测试集的图像输入到训练好的模型中,推理测试图像的语义类别预测值,评估预测准确度。本发明是一种针对图像语义分割的神经网络模型,特别是提出了一种基于位置注意力机制的编解码结构来提取图像自身注意力信息的统一建模方法,获得了在语义分割领域较好的分割效果。

Description

一种基于位置注意力机制的编解码结构语义分割模型
技术领域
本发明属于计算机视觉技术领域,特别涉及一种基于位置注意力机制的编解码结构语义分割网络模型。
背景技术
图像语义分割是计算机视觉的一个基础问题,广泛应用于自动驾驶、智能机器人、人机交互等等领域的场景理解。图像语义分割技术是将视觉图像中具有相似语义信息的像素点给予一致的标签,解释不同的语义类别。例如,在自动驾驶场景中我们需要区分图像中属于汽车的所有像素,并把这些像素标记为一个语义类别。
传统的图像语义分割方法包括纹理基元森林(TextonForest)和随机森林(RandomForest)。由于光照对图像邻域分割的影响,导致纹理基元森林(TextonForest)方法不能得到准确率较高的分割效果;随机森林(Random Forest)方法直接利用图像低级的像素信息,提高算法训练和测试速度,该方法的缺点是无法控制模型内部的运行,在回归问题中表现不佳。
近年来伴随着深度学习的不断发展,基于深度学习的图像语义分割模型越来越多的应用在实际的场景中。采用卷积神经网络(Convolutional Neural Networks,CNN)和全卷积神经网络(Fully Convolutional Neural Networks,FCN)进行端到端(end-to-end)的问题建模成为计算机视觉方向上的主流研究方法。在图像的语义分割中,设计相应的深度网络模型实现端到端的建模,分割的准确率和速度均得到了明显的提升,相比传统的语义分割方法分割效果得到了大大的提升。
目前基于深度学习的图像语义分割的主要方法:(1)通过全卷积神经网络进行图像语义分割的处理,虽然全卷积神经网络可以实现任意尺寸大小图像的输入,并且得到与输入对应尺寸大小的输出,但是不能够获得足够丰富的图像上下文信息,得到的图像特征不够明显;(2)基于全卷积神经网络添加后处理模块,近两年用的比较多的是添加注意力机制模块,可以获得丰富的上下文信息,提高图像语义分割的准确率,但是有些模型参数过多,导致模型冗余,提取的特征不够全面,在实际的应用场景中分割效果差。
因此,有必要设计一套高效的易于实现的图像语义分割深度网络模型。
发明内容
本发明提供一种基于位置注意力机制的编解码结构语义分割模型,该基于特征增强的池化位置注意力机制模型效率高,易于实现。
发明的技术解决方案如下:
一种基于位置注意力机制的编解码结构语义分割模型,其特征在于,模型的建立、模型的训练和验证;
基于位置注意力机制的编解码结构语义分割模型按照以下步骤展开:
步骤1:模型建立;
模型的建立是通过分析图像语义增强过程设计具体子模块,构建端到端的语义分割深度网络模型;
步骤2:模型训练;
模型的训练是通过使用训练集和优化算法,确定所建立的模型的参数;
步骤3:模型推理。
模型的推理是通过输入图片到训练好的模型中进行推理,输出预测结果,检验所设计的模型的分割效果。
步骤1中,具体设计一种基于位置注意力机制的编解码结构语义分割模型,在编码器中通过注意力机制学习像素点图像特征之间的关联性并增强深层语义信息,在解码器中通过将浅层语义信息和深层语义信息进行融合来捕获图像丰富的上下文语义信息,以扩大同类别物体的类间差异性,最终提高分割准确性;
首先,建立编码器模型(Encoder),对图像进行特征提取,通过骨干网络ResNet-101提取图像的浅层特征F1到深层特征F4;
然后,通过编码器中的池化交叉注意力模块(PCAM)和池化位置注意力模块(PPAM)增强深层信息的语义一致性,得到具有全局语义信息的图像特征F4X;
最后,建立解码器模型(Decoder),对F4X进行上采样操作得到特征图F4Y,然后通过对浅层特征F1和特征图F4Y进行融合,得到上下文关联性增强的特征图,并对融合后的特征图进行上采样操作,得到和输入图片尺寸大小相同的特征图;
步骤2中,首先构建训练集,及验证集,给定图像I,对应的真实标签图GT,组成数据集,按照1:1比例划分训练集和测试集,为模型训练提供数据基础;
然后对图像I进行尺度随机缩放,水平旋转,将图像裁剪成固定尺寸大小的图像IC
最后对步骤1建立的编解码结构语义分割模型进行训练,将图像IC输入骨干网ResNet-101、编码器中的交叉位置注意力模型(PCAM)子模块、池化位置注意力模型(PPAM)子模块得到特征图F4X,再通过解码器将浅层特征F1和深层特征F4Y融合并经过上采样后进行图像语义类别预测,通过前向传播将预测值Z与真实值GT进行交叉熵运算,度量预测值与真实值的误差;通过反向传播算法对步骤1定义的编解码结构语义分割网络模型参数进行迭代优化训练,训练到整个模型收敛为止;
步骤3中,将测试集的图像输入到训练好的编解码结构语义分割模型中,推理测试图像的语义类别预测值,计算预测值与真实值的平均交并比(MIoU),评估预测准确度。平均交并比的运算公式如下所示:
其中K是数据集的类别数,pij是类别为i的像素被预测为类别为j的数量,pii是正确分类的像素的数量。
步骤1所述的编解码结构语义分割模型建立具体过程如下:
首先,建立编码器模型(Encoder),使用ResNet-101作为骨干网络,对图像IC进行特征提取,得到图像浅层特征F1到深层特征F4,其中 C1是图像特征的通道数,H和W是图像特征的高度和宽度;
然后,通过池化交叉注意力模块(PCAM)进一步对图像深层特征进行增强,关于PCAM 的具体运算如下:
a=Conv(F4);b=Conv(F4);c=Conv(F4);d=Conv(GAP(F4))  (2)
F4’=Conv[Fusion(p,c)+d]+F4     (4)
a1=Conv(F4’);b1=Conv(F4’);c1=Conv(F4’);  (5)
F4”=Conv[Fusion(p1,c1)]+F4’+GAP(F4’)    (7)
其中Conv是1×1卷积,GAP是全局平均池化操作,a,b,c,d,a1,b1,p和p1 是计算权重,T为矩阵的转置,函数softmax(·)的运算公式为:
其中exi是指数运算;
符号的运算表示:
函数Fusion(·)的运算公式为:
其中i和j是图像特征矩阵中的行和列,H和W是图像特征的高度和宽度;
最后,采用池化位置注意力模块(PPAM)来进行计算增强后的深层特征,得到空间关联性强的特征图F4X,其中H和W是图像特征的高度和宽度,对特征图F4”进行注意力机制具体运算如下:
A=MaxPool(Conv(F4"))     (11)
B=AvgPool(Conv(F4"))     (12)
C=Conv(F4")       (13)
D=Softmax(AT×B)      (14)
F4X=(C×D+F4")      (15)
其中Conv是1×1卷积,Maxpool是最大池化操作,AvgPool是平均池化操作, D是计算权重,T为矩阵的转置,符号×是矩阵的乘法;
在完成编码器模型(Encoder)操作后,建立解码器模型(Decoder),关于解码器模型(Decoder)操作的具体过程如下:将浅层特征图F1和特征图F4X作为解码器的输入,对增强的特征图F4X进行上采样,得到和浅层特征图F1尺寸大小相等的特征图F4Y;首先,通过双线性插值对浅层特征F1进行1×1卷积,将卷积后的特征图和深层特征F4Y沿通道拼接,形成聚合特征信息;然后,使用3×3卷积以获得更清晰的特征,将该特征其作为权重信息,通过元素乘法应用于浅层特征,用符号X表示,通过元素集求和将深度特征和浅层特征融合,融合操作用符号+表示;最后,对融合后的信息进行上采样,通过双线性插值得到图像的语义预测图Z;
步骤2所述的模型训练具体过程如下:
输入图像I,通过骨干网络ResNet-101对图像进行特征提取,首先采用池化交叉位置注意力模型(PCAM)进一步对图像特征进行增强,然后采用池化位置注意力模型(PPAM)增强像素间空间位置的关联性,最后采用解码器融合浅层特征和深层特征进行语义分割预测,得到预测结果Z,采用交叉熵损失函数Loss计算预测值与真实值GT之间的损失,其中损失函数如下:
其中B是指输入神经网络的图像的数量,C是类别数;利用随机梯度下降法(SGD)优化器优化损失函数Loss使损失值达到最小;
步骤3所述模型推理具体过程如下:
在步骤2中完成模型训练以后,固定模型参数,输入测试集的图像,推理测试图像的语义类别预测值,计算测试预测值与真实值的交并比,直到所有测试集图像测试完成,给出最终的预测准确度。
本发明有益效果如下:
本发明提出的方法在针对图像语义分割的问题上相较于其他算法提高了精度。具体表现为:1)相对于以住一些网络模型本发明提出的模型比较容易实现;2)本发明的网络参数较少,轻量化了网络,有效地降低了模型训练的时间。本发明基于全卷积端到端的网络通过引入注意力机制增强图像特征以及引入编解码结构来融合深层特征和浅层特征,在图像语义分割任务中获得了比以往模型高的准确度。
附图说明
图1为本发明的算法流程图。
图2为本发明的模型总结构图。
图3为本发明的池化交叉注意力模型(PCAM)。
图4为本发明的池化位置注意力机制模型(PPAM)。
图5为本发明的模型实验可视化结果。
具体实施方式
为了使本发明的目的及技术方案更加清楚明白,以下结合附图和实施例,对本发明的应用原理作详细的描述。但本发明的保护范围并不限于以下具体实施例。
除非另有定义,下文中所使用的所有专业术语与本领域技术人员通常理解含义相同。本文中所使用的专业术语只是为了描述具体实施例的目的,并不是旨在限制本发明的保护范围。
实施例1:
如图1图2图3图4所示,本发明提供一种基于位置注意力机制的编解码结构语义分割模型具体步骤如下:
步骤1所述的模型建立具体如下:
此发明采用PASCAL VOC 2012数据集,其中此数据集包含21个类别,作为训练和测试数据;
首先,使用ResNet-101作为骨干网络提取图像特征,具体过程为:把输入的图像统一缩放到513×513并输入到骨干网络中,经过骨干网络进行图像特征的提取,将输出的最后一层特征图作为输入进入编码器模型(Encoder)进行特征的进一步增强和提取;然后,执行编码器模型(Encoder)操作,具体如下:
①将特征图F4输入到池化交叉注意力模块(PCAM),对深度特征进行加权增强,池化交叉注意力模块(PCAM)操作具体如下:
a=Conv(F4);b=Conv(F4);c=Conv(F4);d=Conv(GAP(F4))    (1)
F4’=Conv[Fusion(p,c)+d]+F4   (3)
a1=Conv(F4’);b1=Conv(F4’);c1=Conv(F4’);  (4)
F4”=Conv[Fusion(p1,c1)]+F4’+GAP(F4’)  (6)
其中Conv是1×1卷积,GAP是全局平均池化操作,a,b,c,d,a1,b1,p和 p1是计算权重,T为矩阵的转置,函数softmax(·)的运算公式为:
符号的运算表示为:
函数Fusion(·)的运算公式为:
其中i和j是图像特征矩阵中的行和列,H和W是图像特征的高度和宽度;
②对特征图F4”进行池化位置注意力机制计算,提取像素点之间的关联性,其中池化位置注意力机制计算具体公式如下:
A=MaxPool(Conv(F4"))      (10)
B=AvgPool(Conv(F4"))      (11)
C=Conv(F4")        (12)
D=Softmax(AT×B)        (13)
F4X=(C×D+F4")                      (14)
其中Conv是1×1卷积,Maxpool是最大池化操作,AvgPool是平均池化操作, D是计算权重,T为矩阵的转置,符号×是矩阵的乘法运算;
最后,执行解码器模块(Decoder)操作,融合深层特征和浅层特征,解码器模块(Decoder)操作具体如下:
①将浅层特征图F1和增强的特征图F4X作为解码器的第一个输入,对增强的特征图 F4X进行上采样,得到和浅层特征图F1尺寸大小相等的特征图F4Y,通过双线性插值对浅层特征F1进行1×1卷积,将卷积后的特征图和深层特征F4Y沿通道拼接,形成聚合特征信息;
②使用3×3卷积以获得更清晰的特征,将该特征其作为权重信息,通过元素乘法应用于浅层特征,用符号X表示,通过元素集求和将深度特征和浅层特征融合,融合操作用符号+表示;最后,对融合后的信息进行上采样,通过双线性插值得到图像的语义预测图Z;
至此完成模型建立的操作。
步骤2所述模型训练,具体如下:
对步骤1建立的模型进行训练,将图像IC通过骨干网ResNet-101、编码器模型模块(Encoder)、解码器模型模块(Decoder)得到特征图E,再进行图像语义类别预测,得到预测值Z;将其与数据集的真实标签图做比较,通过采用交叉熵损失函数计算得到预测值与真实值之间的损失值,然后根据该损失值调整整个网络的参数值,直到网络收敛;
至此完成模型训练的操作。
步骤3所述模型推理,具体如下:
在步骤2训练完成模型以后,固定模型参数,输入测试集的图像得到测试预测值,推理测试图像的语义类别预测值,计算测试预测值与真实值的平均交并比,评估预测准确度。
至此完成模型推理的操作。
下表为本发明所述的方法在Pascal VOC 2012中的准确度。FCN为基于深度学习的图像语义分割开篇之作,Our为本发明所提供的深度模型,aero,bike表示数据集中待语义分割的类别物,采用平均交并比(MIoU)评估图像语义分割的平均准确度。

Claims (4)

1.一种基于位置注意力机制的编解码结构语义分割模型,其特征在于包括以下步骤:
步骤1:模型建立;
具体设计一种基于位置注意力机制的编解码结构语义分割模型,在编码器中通过注意力机制学习像素点图像特征之间的关联性并增强深层语义信息,在解码器中通过将浅层语义信息和深层语义信息进行融合来捕获图像丰富的上下文语义信息,以扩大同类别物体的类间差异性,最终提高分割准确性;
首先,建立编码器模型(Encoder),对图像进行特征提取,通过骨干网络ResNet-101提取图像的浅层特征F1到深层特征F4;
然后,通过编码器中的池化交叉注意力模块(PCAM)和池化位置注意力模块(PPAM)增强深层信息的语义一致性,得到具有全局语义信息的图像特征F4X;
最后,建立解码器模型(Decoder),对F4X进行上采样得到特征图F4Y,通过对浅层特征F1和特征图F4Y进行融合,得到上下文关联性增强的特征图,并对融合后的特征图进行上采样操作,得到和输入图片尺寸大小相同的特征图;
步骤2:模型训练;
首先构建训练集,及验证集,给定图像I,对应的真实标签图GT,组成数据集,按照1:1比例划分训练集和测试集,为模型训练提供数据基础;
然后对图像I进行尺度随机缩放,水平旋转,将图像裁剪成固定尺寸大小的图像IC
最后对步骤1建立的编解码结构语义分割模型进行训练,将图像IC输入骨干网ResNet-101、编码器中的交叉位置注意力模型(PCAM)子模块、池化位置注意力模型(PPAM)子模块得到特征图F4X,再通过解码器将浅层特征F1和深层特征F4Y融合并经过上采样后进行图像语义类别预测,通过前向传播将预测值Z与真实值GT进行交叉熵运算,度量预测值与真实值的误差;通过反向传播算法对步骤1定义的编解码结构语义分割网络模型参数进行迭代优化训练,训练到整个模型收敛为止;
步骤3:模型推理;
将测试集的图像输入到训练好的编解码结构语义分割模型中,推理测试图像的语义类别预测值,计算测试预测值与真实值的平均交并比(MIoU),评估预测准确度。平均交并比的运算公式如下所示:
其中K是数据集的类别数,pij是类别为i的像素被预测为类别为j的数量,pii是正确分类的像素的数量。
2.根据权利要求1所述的一种基于位置注意力机制的编解码结构语义分割模型,其特征在于步骤1的模型建立,具体如下:
2-1.建立编码器模型(Encoder),使用ResNet-101作为骨干网络,对图像IC进行特征提取,得到图像浅层特征F1和深层特征F4,其中C1是图像特征的通道数,H和W是图像特征的高度和宽度;
2-2.通过池化交叉注意力模块(PCAM)进一步对图像深层特征进行增强关于PCAM的具体运算如下:
a=Conv(F4);b=Conv(F4);c=Conv(F4);d=Conv(GAP(F4))      ⑵
F4’=Conv[Fusion(p,c)+d]+F4                    ⑷
a1=Conv(F4’);b1=Conv(F4’);c1=Conv(F4’);         ⑸
F4”=Conv[Fusion(p1,c1)]+F4’+GAP(F4’)             ⑺
其中Conv是1×1卷积,GAP是全局平均池化操作,a,b,c,d,a1,b1,p和p1是计算权重,T为矩阵的转置,函数softmax(·)的运算公式为:
其中是指数运算;
符号的运算公式为:
函数Fusion(·)的运算公式为:
其中i和j是图像特征矩阵中的行和列,H和W是图像特征的高度和宽度;
为了得到空间关联性强的特征图F4X,采用池化位置注意力模块(PPAM)来进行计算增强后的深层特征,其中H和W是图像特征的高度和宽度,对于特征图F4”进行注意力机制具体运算如下:
A=MaxPool(Conv(F4"))                    ⑾
B=AvgPool(Conv(F4"))                    ⑿
C=Conv(F4")                             ⒀
D=Softmax(AT×B)                       ⒁
F4X=(C×D+F4")                            ⒂
其中Conv是1×1卷积,Maxpool是最大池化操作,AvgPool是平均池化操作,A,B, D是计算权重,T为矩阵的转置,符号×是矩阵的乘法;
2-3.建立解码器模型(Decoder),关于解码器模型(Decoder)操作的具体过程如下:将浅层特征图F1和特征图F4X作为解码器的输入;首先,对增强的特征图F4X进行上采样,得到和浅层特征图F1尺寸大小相等的特征图F4Y,通过双线性插值对浅层特征F1进行1×1卷积,将卷积后的特征图和深层特征F4Y沿通道拼接,形成聚合特征信息;然后,使用3×3卷积以获得更清晰的特征,将该特征其作为权重信息,通过元素乘法应用于浅层特征,用符号X表示,通过元素集求和将深度特征和浅层特征融合,融合操作用符号+表示;最后,对融合后的信息进行上采样,通过双线性插值得到图像的语义预测图Z。
3.根据权利要求1所述的一种基于位置注意力机制的编解码结构语义分割模型,其特征在于步骤2所述的模型训练,具体如下:
输入图像I,通过骨干网络ResNet-101对图像进行特征提取,首先采用池化交叉位置注意力模型(PCAM)进一步对图像特征进行增强,然后采用池化位置注意力模型(PPAM)增强像素间空间位置的关联性,最后采用解码器融合浅层特征和深层特征进行语义分割预测,得到预测结果Z,采用交叉熵损失函数Loss计算预测值与真实值GT之间的损失,其中损失函数如下:
其中B是指输入神经网络的图像的个数,C是类别数;利用随机梯度下降法(SGD)优化器优化函数Loss使损失值达到最小。
4.根据权利要求1所述的一种基于位置注意力机制的编解码结构语义分割模型,其特征在于步骤3所述模型推理,具体如下:
在步骤2训练完成模型以后,固定模型参数,输入测试集的图像得到测试预测值,推理测试图像的语义类别预测值,计算测试预测值与真实值的平均交并比(MIoU),直到所有测试集测试完成,评估预测准确度。
CN202210408406.8A 2022-04-18 2022-04-18 一种基于位置注意力机制的编解码结构语义分割模型 Pending CN115908793A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210408406.8A CN115908793A (zh) 2022-04-18 2022-04-18 一种基于位置注意力机制的编解码结构语义分割模型

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210408406.8A CN115908793A (zh) 2022-04-18 2022-04-18 一种基于位置注意力机制的编解码结构语义分割模型

Publications (1)

Publication Number Publication Date
CN115908793A true CN115908793A (zh) 2023-04-04

Family

ID=86495427

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210408406.8A Pending CN115908793A (zh) 2022-04-18 2022-04-18 一种基于位置注意力机制的编解码结构语义分割模型

Country Status (1)

Country Link
CN (1) CN115908793A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116363521A (zh) * 2023-06-02 2023-06-30 山东科技大学 一种遥感影像语义预测方法
CN117115448A (zh) * 2023-10-23 2023-11-24 临沂大学 基于深度神经网络的图像语义分割方法、装置及设备

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116363521A (zh) * 2023-06-02 2023-06-30 山东科技大学 一种遥感影像语义预测方法
CN116363521B (zh) * 2023-06-02 2023-08-18 山东科技大学 一种遥感影像语义预测方法
CN117115448A (zh) * 2023-10-23 2023-11-24 临沂大学 基于深度神经网络的图像语义分割方法、装置及设备
CN117115448B (zh) * 2023-10-23 2024-01-30 临沂大学 基于深度神经网络的图像语义分割方法、装置及设备

Similar Documents

Publication Publication Date Title
CN109190752B (zh) 基于深度学习的全局特征和局部特征的图像语义分割方法
CN112750129B (zh) 一种基于特征增强位置注意力机制的图像语义分割模型
CN115908793A (zh) 一种基于位置注意力机制的编解码结构语义分割模型
CN112329780B (zh) 一种基于深度学习的深度图像语义分割方法
CN111476133B (zh) 面向无人驾驶的前背景编解码器网络目标提取方法
CN113609896A (zh) 基于对偶相关注意力的对象级遥感变化检测方法及系统
CN111598860A (zh) 基于嵌入自注意力门模块的yolov3网络的锂电池缺陷检测方法
CN112784756B (zh) 人体识别跟踪方法
CN112418235B (zh) 一种基于膨胀最近邻特征增强的点云语义分割方法
CN112991364A (zh) 基于卷积神经网络跨模态融合的道路场景语义分割方法
CN112163447B (zh) 基于Attention和SqueezeNet的多任务实时手势检测和识别方法
CN116310305A (zh) 一种基于张量和二阶协方差注意力机制的编解码结构语义分割模型
CN116542991A (zh) 一种用于裂缝图像分割的网络架构及其训练方法和分割方法
CN113361496B (zh) 一种基于U-Net的城市建成区统计方法
CN113066074A (zh) 一种基于双目视差偏移融合的视觉显著性预测方法
CN113096133A (zh) 一种基于注意力机制的语义分割网络的构建方法
CN111612803A (zh) 一种基于图像清晰度的车辆图像语义分割方法
CN116862883A (zh) 基于图像语义分割的混凝土坍落度检测方法
CN116596966A (zh) 一种基于注意力和特征融合的分割与跟踪方法
CN114494284B (zh) 一种基于显式监督区域关系的场景解析模型及方法
CN115457385A (zh) 一种基于轻量级网络的建筑物变化检测方法
CN115775316A (zh) 基于多尺度注意力机制的图像语义分割方法
CN113223006B (zh) 一种基于深度学习的轻量级目标语义分割方法
CN114581789A (zh) 一种高光谱图像分类方法及系统
Si et al. Image semantic segmentation based on improved DeepLab V3 model

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination