CN114494699A - 基于语义传播与前背景感知的图像语义分割方法及系统 - Google Patents
基于语义传播与前背景感知的图像语义分割方法及系统 Download PDFInfo
- Publication number
- CN114494699A CN114494699A CN202210109479.7A CN202210109479A CN114494699A CN 114494699 A CN114494699 A CN 114494699A CN 202210109479 A CN202210109479 A CN 202210109479A CN 114494699 A CN114494699 A CN 114494699A
- Authority
- CN
- China
- Prior art keywords
- semantic
- feature
- convolution
- image
- foreground
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 230000011218 segmentation Effects 0.000 title claims abstract description 54
- 238000000034 method Methods 0.000 title claims abstract description 46
- 230000008447 perception Effects 0.000 title claims abstract description 37
- 238000012549 training Methods 0.000 claims abstract description 46
- 238000013135 deep learning Methods 0.000 claims abstract description 34
- 238000005516 engineering process Methods 0.000 claims abstract description 4
- 238000002372 labelling Methods 0.000 claims abstract description 4
- 230000006870 function Effects 0.000 claims description 54
- 238000011176 pooling Methods 0.000 claims description 32
- 238000004364 calculation method Methods 0.000 claims description 17
- 238000000605 extraction Methods 0.000 claims description 13
- 230000007480 spreading Effects 0.000 claims description 12
- 238000003892 spreading Methods 0.000 claims description 12
- 230000008569 process Effects 0.000 claims description 9
- 239000011800 void material Substances 0.000 claims description 8
- 230000005540 biological transmission Effects 0.000 claims description 6
- 238000013527 convolutional neural network Methods 0.000 claims description 6
- 239000011159 matrix material Substances 0.000 claims description 6
- 238000012545 processing Methods 0.000 claims description 6
- 238000013528 artificial neural network Methods 0.000 claims description 5
- 238000004458 analytical method Methods 0.000 claims description 4
- 230000008859 change Effects 0.000 claims description 4
- 238000013480 data collection Methods 0.000 claims description 4
- 239000000284 extract Substances 0.000 claims description 4
- 238000007781 pre-processing Methods 0.000 claims description 4
- 230000003213 activating effect Effects 0.000 claims description 3
- 238000009826 distribution Methods 0.000 claims description 3
- 230000002708 enhancing effect Effects 0.000 claims description 3
- 238000011478 gradient descent method Methods 0.000 claims description 3
- 238000010606 normalization Methods 0.000 claims description 3
- 238000005457 optimization Methods 0.000 claims description 3
- 230000009466 transformation Effects 0.000 claims description 3
- 230000001131 transforming effect Effects 0.000 claims description 3
- 230000002349 favourable effect Effects 0.000 abstract 1
- 238000010586 diagram Methods 0.000 description 5
- 230000004927 fusion Effects 0.000 description 5
- 230000002776 aggregation Effects 0.000 description 4
- 238000004220 aggregation Methods 0.000 description 4
- 238000011160 research Methods 0.000 description 4
- 230000007246 mechanism Effects 0.000 description 3
- 230000009286 beneficial effect Effects 0.000 description 2
- 238000006243 chemical reaction Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 238000005070 sampling Methods 0.000 description 2
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 238000003709 image segmentation Methods 0.000 description 1
- 238000011084 recovery Methods 0.000 description 1
- 230000007306 turnover Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/047—Probabilistic or stochastic networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/084—Backpropagation, e.g. using gradient descent
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- General Health & Medical Sciences (AREA)
- Computing Systems (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- Life Sciences & Earth Sciences (AREA)
- Molecular Biology (AREA)
- Artificial Intelligence (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Health & Medical Sciences (AREA)
- Probability & Statistics with Applications (AREA)
- Image Analysis (AREA)
Abstract
本发明涉及一种基于语义传播与前背景感知的图像语义分割方法及系统,该方法包括以下步骤:步骤A:收集特定场景的图像样本,并标注每个像素所属的对象类别,构建带类别标签的训练集;步骤B:利用图像增强技术对训练集进行数据增强,得到增强后的训练集SE;步骤C:使用训练集SE训练基于语义传播与前背景感知的深度学习网络模型,用于分析图像中每个像素的语义类别;步骤D:将待分割图像输入到训练后的深度学习网络模型中,输出与原图大小相同的语义分割图,得到语义分割结果。该方法及系统有利于提高图像语义分割的像素准确性与平均交并比。
Description
技术领域
本发明属于计算机视觉与图像语义分割领域,具体涉及一种基于语义传播与前背景感知的图像语义分割方法及系统。
背景技术
图像语义分割(Image Semantic Segmentation)是计算机视觉中长期存在且充满挑战的基础任务。它的基本目标是对于给定图片中每一个像素都分配一个对应语义类别的标签,最后得到对应类别的分割图,因此图像分割也可以被看作是像素级的分类任务,是细粒度最小的图像语义理解任务。
随着深度神经网络的发展,出现了许多基于卷积神经网络的图像语义分割算法。全卷积神经网络FCNs(Fully Convolutional Neural Networks)首次将完全卷积用于语义分割,其将分类网络的全连接层替换成卷积层,能够更有效地进行端到端训练,且输入图像大小不受限制,能够产生对应大小的密集预测,从而实现像素级别的分类预测。此后,研究人员提出了一系列基于FCN的改进算法,并在图像语义分割任务上取得了进展。但是,由于FCN通过堆叠卷积与池化操作提取特征,造成图像分辨率不断下降,从而导致位置信息的损失。此外,上述模型受到感受野的限制,易出现错误的上下文信息聚合,难以适应包括存在多类别的场景在内的一些复杂场景。因此,图像语义分割研究的重点在于解决分辨率重建以及上下文关系建模问题。
针对分辨率重建问题,大多数研究工作采用空洞卷积或编解码结构。基于空洞卷积的模型主要是在骨干网络中以空洞卷积替代原来的卷积操作从而维持图像的分辨率。此类方法没有引入额外参数,但是高分辨率的特征图显著增加了内存消耗与计算复杂度,限制了模型的应用范围。基于编解码结构的模型则通过聚合编码器的多层次特征逐步恢复分辨率,在恢复过程中不断进行上采样以及特征融合操作。通常上采样操作采用双线性插值方法,但双线性插值在预测像素时仅考虑局部的像素,像素重建能力有限,且不可学习。特征融合操作则多采用普通的加法或拼接操作,但许多工作表明高层特征与低层特征进行简单的相加与拼接操作无法得到高质量的特征。主要因为高层特征包含丰富的语义信息,但缺少空间的细节信息,低层特征有着较大的空间信息,但语义表示能力很弱,两者之间存在语义差距。因此,加强低层特征语义的表示是融合的关键问题。
针对上下文关系建模,早期的研究工作主要通过概率图模型来描述像素之间的关系,如条件随机场和马尔科夫随机场。上述模型基于前端-后端结构,前端采用深度神经网络DCNNs(Deep Convolutional Neural Networks)进行特征提取,后端则使用概率图模型提取像素间的依赖关系。但是,由于模型多在离散的标签空间中进行建模,计算代价高昂。一些模型则在骨干网络后通过金字塔聚合或自注意力机制来捕获上下文关系。基于金字塔聚合的模型主要通过池化操作或空洞卷积操作获得更大范围的上下文信息,进而融合多尺度特征的上下文信息得到更有鉴别力的特征。虽然特征金字塔能够收集丰富的上下文信息,但未对上下文信息的重要性进行有效区分,且忽略了前景与背景上下文之间的依赖关系,影响构建的特征的类别区分能力。近来,基于自注意力机制的方法被广泛应用于包括图像语义分割在内的各种计算机视觉任务中。该方法的主要思想是通过一个注意力图对特征进行有选择的增强,即将注意力更多地放在感兴趣的区域内。在图像语义分割任务中,则是通过注意力机制,提取各种依赖关系来建模上下文信息,从而增强特征表示。因此。如何构建一个有效的依赖关系来表示上下文之间的联系是现有研究的一个关键。
发明内容
本发明的目的在于提供一种基于语义传播与前背景感知的图像语义分割方法及系统,该方法及系统有利于提高图像语义分割的像素准确性与平均交并比。
为实现上述目的,本发明采用的技术方案是:一种基于语义传播与前背景感知的图像语义分割方法,包括以下步骤:
步骤A:收集特定场景的图像样本,并标注每个像素所属的对象类别,构建带类别标签的训练集;
步骤B:利用图像增强技术对训练集进行数据增强,得到增强后的训练集SE;
步骤C:使用训练集SE训练基于语义传播与前背景感知的深度学习网络模型,用于分析图像中每个像素的语义类别;
步骤D:将待分割图像输入到训练后的深度学习网络模型中,输出与原图大小相同的语义分割图,得到语义分割结果。
进一步地,所述步骤B中,对训练集中的原始图像及对应掩码标注进行随机水平翻转,并在设定范围内进行随机缩放以及随机亮度抖动。
进一步地,所述步骤C具体包括以下步骤:
步骤C1:将训练集SE中的样本图像的特征图输入深度卷积神经网络,提取高层特征与低层特征的提取,然后送入联合语义传播上采样模块;
步骤C2:在联合语义传播上采样模块中,通过语义传播方法,利用高层特征的语义信息指导低层特征增强语义表示,并嵌入到层次上采样结构中,得到分辨率大且富含语义信息的特征图Xout,并送入金字塔前背景感知模块;
步骤C3:在金字塔前背景感知模块中,对输入特征提取多尺度的前景上下文特征以及背景上下文特征,并计算出每个前景上下文特征与背景上下文特征之间的依赖关系图,利用依赖关系图与对应的前景上下文特征进行加权,增强前景特征的表示能力,最后融合得到特征图Eout;
步骤C4:将Eout输入softmax层,根据目标损失函数loss,利用反向传播方法计算深度学习网络模型中的各参数的梯度,并利用随机梯度下降方法更新参数;
步骤C5:当深度学习网络模型产生的损失值迭代变化小于设定阈值或迭代达到最大迭代次数,终止深度学习网络模型的训练。
进一步地,所述步骤C1具体包括以下步骤:
步骤C11:将训练集SE中的一个样本图像的特征图X,输入深度卷积神经网络ResNet101进行特征提取,ResNet101包含五个特征提取层,分别为layer1-layer5,每经过一个特征提取层,输出的特征图大小减半,每个特征提取层的输出表示为:
l1=layer1(X)
l2=layer2(l1)
l3=layer3(l2)
l4=layer4(l3)
l5=layer5(l4)
其中,layer1包含输出通道数为64、步幅为2的7×7卷积,步幅为2的3×3最大池化操作;layer2由3个卷积块组成,每个卷积块由输出通道数为64的1×1卷积、输出通道数为64的3×3卷积、输出通道数为256的1×1卷积组成,每个卷积块之间都有一个残差连接;Layer3由4个卷积块组成,每个卷积块由输出通道数为128的1×1卷积、输出通道数为128的3×3卷积、输出通道数为512的1×1卷积组成,每个卷积块之间都有一个残差连接;layer4由23个卷积块组成,每个卷积块由输出通道数为256的1×1卷积、输出通道数为256的3×3卷积、输出通道数为1024的1×1卷积组成,每个卷积块之间都有一个残差连接;layer5由3个卷积块组成,每个卷积块由输出通道数为512的1×1卷积、输出通道数为512的3×3卷积、输出通道数为2048的1×1卷积组成,每个卷积块之间都有一个残差连接;
步骤C12:将l3,l4,l5输入联合语义传播上采样模块。
进一步地,所述语义传播方法通过两个分支提取高层特征的全局语义以及局部语义,其中全局语义分支的组成为平均池化+1×1卷积且输出通道数为高级特征通道数的1/2+1×1卷积且输出通道数为高级特征通道数,局部语义分支组成为1×1卷积且输出通道数为高级特征通道数的1/2+1×1卷积且输出通道数为高级特征通道数,将两分支的输出进行相加并通过sigmoid函数激活,得到高层特征的语义表示;然后,通过与低层特征进行逐像素乘法,将语义信息传入低层,增强低层特征的语义表示;增强后的低层特征与原低层特征进行融合,得到经过语义传播的最终输出;整个过程用公式表示为:
其中,T(·)为语义传播函数,t为语义传播函数返回的输出特征,与l具有相同维度,l、h分别为低层特征输入与高层特征输入,Mpool(·)为最大池化操作,Mpool(;1)表示最后输出的空间尺寸为1×1,F(·)为分支结构函数,包含全局语义分支以及局部语义分支操作过程,参数θ、μ表示全局语义分支的两个1×1卷积操作,ω表示局部语义分支的两个1×1卷积操作。
进一步地,所述步骤C2具体包括以下步骤:
步骤C21:将输入特征l5通过双线性插值上采样两倍得到l'5,将l'5与l4输入语义传播函数T(·)进行语义传播,l'5、l4分别作为输入语义传播函数的高层特征与低层特征,将语义传播函数输出的特征向量与l'5进行融合得到输出特征l54;
步骤C22:将输入特征l4通过双线性插值上采样两倍得到l'4,将l'4与l3输入语义传播函数T(·)进行语义传播,l'4、l3分别作为输入语义传播函数的高层特征与低层特征,将语义传播函数输出的特征向量与l'4进行融合得到输出特征l43;
步骤C23:将输出特征l54通过双线性插值上采样两倍得到l'54,将l'54与l43输入语义传播函数T(·)进行语义传播,l'54、l43分别作为语义传播函数的高层特征与低层特征,将语义传播函数输出的特征向量与l'54进行融合得到输出特征l543;
步骤C24:将输入特征l3通过一个3×3卷积层以提取更细粒度的特征表示,然后与步骤C22输出特征l43、步骤C23输出特征l543按通道维度进行拼接,即所有特征空间维度保持一致,将所有通道合并在一起,组合成一个新的特征,得到输出特征Xout,空间维度与l3相同,通道维度为l3通道数的三倍;
Xout=concat(ε1(l3),l43,l543)#
步骤C25:将Xout输入前背景感知模块。
进一步地,所述步骤C3具体包括以下步骤:
步骤C31:将输入特征Xout通过四个并行的不同尺寸的空洞卷积,提取出四个不同的前景特征;
qi=atrous(Xout;ri),i=[1,2,3,4]
r={r1,r2,r3,r4}={1,6,12,18},
Q={q1,q2,q3,q4}
步骤C32:背景特征由最大池化分支以及平均池化分支获得,其中最大池化分支由四个并行的不同尺寸的最大池化层及1×1卷积层组成,平均池化分支由四个并行的不同尺寸的平均池化层及1×1卷积层组成,将Xout输入两个分支后得到8个背景特征,将其按空间平铺展开并拼接在一起得到最后的背景特征B;
mbi=ρi(Mpool(Xout;bi)),i=[1,2,3,4]
abj=τj(Apool(Xout;bj)),j=[1,2,3,4]
b={b1,b2,b3,b4}={1,2,3,6},
MB={Flat(mb1),Flat(mb2),Flat(mb3),Flat(mb4)}
AB={Flat(ab1),Flat(ab2),Flat(ab3),Flat(ab4)}
B=concat2(AB,MB)
其中,B为拼接后的背景特征,C为通道数量,是输入特征Xout通道数的1/8,S表示背景区域个数,根据背景区域划分计算;bi为背景划分区域个数;Apool()、Mpool()为平均池化操作和最大池化操作;Flat()表示将特征向量按空间平铺展开,即保持通道维度不变,将空间维度变换为一维,MB与AB集合中的特征维度均为concat2为空间拼接操作,即通道维度保持一致,将所有空间维度合并在一起,组合成一个新的特征;ρ、τ表示1×1卷积操作;
步骤C33:将前景特征q1通过形状变换成即将前景特征q1的空间尺寸由H×W变换成1×N,N=H×W,将特征向量q'1的转置q'1 T与背景特征B进行矩阵乘法,并通过softmax函数激活,得到依赖关系图之后通过线性插值得到最后的依赖关系图计算过程如下:
M'1=softmax(q'1 T×B)
M1=Interpolation(M1)
A'1=α(q'1×M1)
A”1=reshape(A'1)
其中,α初始值置为0,通过模型学习得到一个分配权重;
步骤C35:分别对前景特征q2,q3,q4采用步骤C33与步骤C34的操作,得到前背景感知特征A2,A3,A4;
步骤C36:将输入特征Xout通过全局池化分支以捕获全局上下文特征G,全局池化分支由平均池操作、1×1卷积和双线性插值组成,计算公式如下:
G=bilinear(δ(Apool(Xout;1)))
其中,Apool为平均池操作,1表示最后输出的空间尺寸为1×1、δ表示1×1卷积且输出通道数与输入特征Xout相同,bilinear为双线性插值操作;
步骤C37:将前背景感知特征A1,A2,A3,A4与全局上下文特征G按通道进行拼接,即所有特征空间维度保持一致,将所有通道合并在一起,组合成一个新的特征,之后通过1×1卷积,减少通道数量,同时加入DropOut层保证模型的泛化能力,获得语义特征图Eout;
Eout=ε2(concat(A1,A2,A3,A4,G))
其中ε2表示1×1卷积,concat按通道维度进行拼接。
进一步地,所述步骤C4具体包括以下步骤:
步骤C41:特征Eout经过两个1×1卷积,将特征通道数量缩减至与类别个数相同,并通过双线性插值恢复到原图大小,使用softmax归一化,计算每个像素属于各个类别的概率,计算公式如下:
Y=softmax(bilinear(σ2(σ1(Eout)))
步骤C42:用交叉熵作为损失函数计算损失值,通过梯度优化算法SGD进行学习率更新,利用反向传播迭代更新模型参数,以最小化损失函数来训练模型;
其中,N是每次迭代训练数据大小的数量,K表示像素空间位置,I表示类别数,Ynij和是模型的预测和真实标签结果,表示辅助分支的预测结果,为模型最终输出的损失值,为在骨干网络第四层中添加的辅助损失,计算方法与步骤C41相同,λ为损失占比。
本发明还提供了一种采用上述方法的图像语义分割系统,包括:
数据收集模块,用于收集特定场景的图像样本,并标注每个像素所属的对象类别,构建带类别标签的训练集;
预处理模块,用于对训练集中的训练样本进行数据增强,包括随机水平翻转、缩放和亮度抖动;
网络训练模块,用于将图像特征输入到深度学习网络中,得到图像语义分割特征图并以此训练深度学习网络,利用图像语义分割特征图中每个像素属于某一类别的概率以及训练集中的标注作为损失,以最小化损失为目标来对整个深度学习网络进行训练,得到基于语义传播与前背景感知的深度学习网络模型;以及
图像语义分割分析模块,用于利用图像处理工具,读取输入的图像特征,之后利用训练好的基于语义传播与前背景感知的深度学习网络模型对输入的图像特征进行分析处理,输出图像语义分割图,显示每个像素的所属类别。
与现有技术相比,本发明具有以下有益效果:本发明结合了语义传播和前背景感知,不仅可以得到分辨率大且富含语义信息的特征,而且能够增强前景特征的表示能力,从而提高了图像语义分割的像素准确性与平均交并比,具有很强的实用性和广阔的应用前景。
附图说明
图1是本发明实施例的方法实现流程图;
图2是本发明实施例中基于语义传播与前背景感知的深度学习网络模型架构图;
图3是本发明实施例中联合语义传播上采样模块的结构图;
图4是本发明实施例中金字塔前背景感知模块的结构图。
具体实施方式
下面结合附图及实施例对本发明做进一步说明。
应该指出,以下详细说明都是示例性的,旨在对本申请提供进一步的说明。除非另有指明,本文使用的所有技术和科学术语具有与本申请所属技术领域的普通技术人员通常理解的相同含义。
需要注意的是,这里所使用的术语仅是为了描述具体实施方式,而非意图限制根据本申请的示例性实施方式。如在这里所使用的,除非上下文另外明确指出,否则单数形式也意图包括复数形式,此外,还应当理解的是,当在本说明书中使用术语“包含”和/或“包括”时,其指明存在特征、步骤、操作、器件、组件和/或它们的组合。
如图1所示,本实施例提供了一种基于语义传播与前背景感知的图像语义分割方法,包括以下步骤:
步骤A:收集特定场景的图像样本,并标注每个像素所属的对象类别,构建带类别标签的训练集。
步骤B:利用图像增强技术对训练集进行数据增强,得到增强后的训练集SE。
其中,数据增强的方法包括:对训练集中的原始图像及对应掩码标注进行随机水平翻转,以及在设定范围内进行随机缩放和随机亮度抖动。
步骤C:使用训练集SE训练基于语义传播与前背景感知的深度学习网络模型,用于分析图像中每个像素的语义类别。所述基于语义传播与前背景感知的深度学习网络模型的架构图如图2所示。
所述步骤C具体包括以下步骤:
步骤C1:将训练集SE中的样本图像的特征图输入深度卷积神经网络,提取高层特征与低层特征的提取,然后送入如图3所示的联合语义传播上采样模块。
所述步骤C1具体包括以下步骤:
步骤C11:将训练集SE中的一个样本图像的特征图X,输入深度卷积神经网络ResNet101进行特征提取,ResNet101包含五个特征提取层,分别为layer1-layer5,每经过一个特征提取层,输出的特征图大小减半,每个特征提取层的输出表示为:
l1=layer1(X)
l2=layer2(l1)
l3=layer3(l2)
l4=layer4(l3)
l5=layer5(l4)
其中,layer1包含输出通道数为64、步幅为2的7×7卷积,步幅为2的3×3最大池化操作;layer2由3个卷积块组成,每个卷积块由输出通道数为64的1×1卷积、输出通道数为64的3×3卷积、输出通道数为256的1×1卷积组成,每个卷积块之间都有一个残差连接;Layer3由4个卷积块组成,每个卷积块由输出通道数为128的1×1卷积、输出通道数为128的3×3卷积、输出通道数为512的1×1卷积组成,每个卷积块之间都有一个残差连接;layer4由23个卷积块组成,每个卷积块由输出通道数为256的1×1卷积、输出通道数为256的3×3卷积、输出通道数为1024的1×1卷积组成,每个卷积块之间都有一个残差连接;layer5由3个卷积块组成,每个卷积块由输出通道数为512的1×1卷积、输出通道数为512的3×3卷积、输出通道数为2048的1×1卷积组成,每个卷积块之间都有一个残差连接。
步骤C12:将l3,l4,l5输入联合语义传播上采样模块。
步骤C2:在联合语义传播上采样模块中,通过语义传播方法,利用高层特征的语义信息指导低层特征增强语义表示,并嵌入到层次上采样结构中,得到分辨率大且富含语义信息的特征图Xout,并送入如图4所示的金字塔前背景感知模块。
所述语义传播方法通过两个分支提取高层特征的全局语义以及局部语义,其中全局语义分支的组成为平均池化+1×1卷积且输出通道数为高级特征通道数的1/2+1×1卷积且输出通道数为高级特征通道数,局部语义分支组成为1×1卷积且输出通道数为高级特征通道数的1/2+1×1卷积且输出通道数为高级特征通道数,将两分支的输出进行相加并通过sigmoid函数激活,得到高层特征的语义表示;然后,通过与低层特征进行逐像素乘法,将语义信息传入低层,增强低层特征的语义表示;增强后的低层特征与原低层特征进行融合,得到经过语义传播的最终输出;整个过程用公式表示为:
其中,T(·)为语义传播函数,t为语义传播函数返回的输出特征,与l具有相同维度,l、h分别为低层特征输入与高层特征输入,Mpool(·)为最大池化操作,Mpool(;1)表示最后输出的空间尺寸为1×1,F(·)为分支结构函数,包含全局语义分支以及局部语义分支操作过程,参数θ、μ表示全局语义分支的两个1×1卷积操作,ω表示局部语义分支的两个1×1卷积操作。
所述步骤C2具体包括以下步骤:
步骤C21:将输入特征l5通过双线性插值上采样两倍得到l'5,将l'5与l4输入语义传播函数T(·)进行语义传播,l'5、l4分别作为输入语义传播函数的高层特征与低层特征,将语义传播函数输出的特征向量与l'5进行融合得到输出特征l54;
步骤C22:将输入特征l4通过双线性插值上采样两倍得到l'4,将l'4与l3输入语义传播函数T(·)进行语义传播,l'4、l3分别作为输入语义传播函数的高层特征与低层特征,将语义传播函数输出的特征向量与l'4进行融合得到输出特征l43;
步骤C23:将输出特征l54通过双线性插值上采样两倍得到l'54,将l'54与l43输入语义传播函数T(·)进行语义传播,l'54、l43分别作为语义传播函数的高层特征与低层特征,将语义传播函数输出的特征向量与l'54进行融合得到输出特征l543;
步骤C24:将输入特征l3通过一个3×3卷积层以提取更细粒度的特征表示,然后与步骤C22输出特征l43、步骤C23输出特征l543按通道维度进行拼接,即所有特征空间维度保持一致,将所有通道合并在一起,组合成一个新的特征,得到输出特征Xout,空间维度与l3相同,通道维度为l3通道数的三倍;
Xout=concat(ε1(l3),l43,l543)#
步骤C25:将Xout输入前背景感知模块。
步骤C3:在金字塔前背景感知模块中,对输入特征提取多尺度的前景上下文特征以及背景上下文特征,并计算出每个前景上下文特征与背景上下文特征之间的依赖关系图,利用依赖关系图与对应的前景上下文特征进行加权,增强前景特征的表示能力,最后融合得到特征图Eout。
所述步骤C3具体包括以下步骤:
步骤C31:将输入特征Xout通过四个并行的不同尺寸的空洞卷积,提取出四个不同的前景特征;
qi=atrous(Xout;ri),i=[1,2,3,4]
r={r1,r2,r3,r4}={1,6,12,18},
Q={q1,q2,q3,q4}
步骤C32:背景特征由最大池化分支以及平均池化分支获得,其中最大池化分支由四个并行的不同尺寸的最大池化层及1×1卷积层组成,平均池化分支由四个并行的不同尺寸的平均池化层及1×1卷积层组成,将Xout输入两个分支后得到8个背景特征,将其按空间平铺展开并拼接在一起得到最后的背景特征B;
mbi=ρi(Mpool(Xout;bi)),i=[1,2,3,4]
abj=τj(Apool(Xout;bj)),j=[1,2,3,4]
b={b1,b2,b3,b4}={1,2,3,6},
MB={Flat(mb1),Flat(mb2),Flat(mb3),Flat(mb4)}
AB={Flat(ab1),Flat(ab2),Flat(ab3),Flat(ab4)}
B=concat2(AB,MB)
其中,B为拼接后的背景特征,C为通道数量,是输入特征Xout通道数的1/8,S表示背景区域个数,根据背景区域划分计算;bi为背景划分区域个数;Apool()、Mpool()为平均池化操作和最大池化操作;Flat()表示将特征向量按空间平铺展开,即保持通道维度不变,将空间维度变换为一维,MB与AB集合中的特征维度均为concat2为空间拼接操作,即通道维度保持一致,将所有空间维度合并在一起,组合成一个新的特征;ρ、τ表示1×1卷积操作。
步骤C33:将前景特征q1通过形状变换成即将前景特征q1的空间尺寸由H×W变换成1×N,N=H×W,将特征向量q'1的转置q'1 T与背景特征B进行矩阵乘法,并通过softmax函数激活,得到依赖关系图之后通过线性插值得到最后的依赖关系图计算过程如下:
M'1=softmax(q'1 T×B)
M1=Interpolation(M1)。
A'1=α(q'1×M1)
A”1=reshape(A'1)
其中,α初始值置为0,通过模型学习得到一个分配权重。
步骤C35:分别对前景特征q2,q3,q4采用步骤C33与步骤C34的操作,得到前背景感知特征A2,A3,A4。
步骤C36:将输入特征Xout通过全局池化分支以捕获全局上下文特征G,全局池化分支由平均池操作、1×1卷积和双线性插值组成,计算公式如下:
G=bilinear(δ(Apool(Xout;1)))
其中,Apool为平均池操作,1表示最后输出的空间尺寸为1×1、δ表示1×1卷积且输出通道数与输入特征Xout相同,bilinear为双线性插值操作。
步骤C37:将前背景感知特征A1,A2,A3,A4与全局上下文特征G按通道进行拼接,即所有特征空间维度保持一致,将所有通道合并在一起,组合成一个新的特征,之后通过1×1卷积,减少通道数量,同时加入DropOut层保证模型的泛化能力,获得语义特征图Eout;
Eout=ε2(concat(A1,A2,A3,A4,G))
其中ε2表示1×1卷积,concat按通道维度进行拼接。
步骤C4:将Eout输入softmax层,根据目标损失函数loss,利用反向传播方法计算深度学习网络模型中的各参数的梯度,并利用随机梯度下降方法更新参数。
所述步骤C4具体包括以下步骤:
步骤C41:特征Eout经过两个1×1卷积,将特征通道数量缩减至与类别个数相同,并通过双线性插值恢复到原图大小,使用softmax归一化,计算每个像素属于各个类别的概率,计算公式如下:
Y=softmax(bilinear(σ2(σ1(Eout)))
步骤C42:用交叉熵作为损失函数计算损失值,通过梯度优化算法SGD进行学习率更新,利用反向传播迭代更新模型参数,以最小化损失函数来训练模型。
其中,N是每次迭代训练数据大小的数量,K表示像素空间位置,I表示类别数,Ynij和是模型的预测和真实标签结果,表示辅助分支的预测结果,为模型最终输出的损失值,为在骨干网络第四层中添加的辅助损失,计算方法与步骤C41相同,λ为损失占比。
步骤C5:当深度学习网络模型产生的损失值迭代变化小于设定阈值或迭代达到最大迭代次数,终止深度学习网络模型的训练。
步骤D:将待分割图像输入到训练后的深度学习网络模型中,输出与原图大小相同的语义分割图,得到语义分割结果。
本实施例还提供了采用上述方法的图像语义分割系统,包括数据收集模块、预处理模块、网络训练模块和图像语义分割分析模块。
所述数据收集模块用于收集特定场景的图像样本,并标注每个像素所属的对象类别,构建带类别标签的训练集;
所述预处理模块用于对训练集中的训练样本进行数据增强,包括随机水平翻转、缩放和亮度抖动;
所述网络训练模块用于将图像特征输入到深度学习网络中,得到图像语义分割特征图并以此训练深度学习网络,利用图像语义分割特征图中每个像素属于某一类别的概率以及训练集中的标注作为损失,以最小化损失为目标来对整个深度学习网络进行训练,得到基于语义传播与前背景感知的深度学习网络模型;以及
所述图像语义分割分析模块用于利用图像处理工具,读取输入的图像特征,之后利用训练好的基于语义传播与前背景感知的深度学习网络模型对输入的图像特征进行分析处理,输出图像语义分割图,显示每个像素的所属类别。
以上所述,仅是本发明的较佳实施例而已,并非是对本发明作其它形式的限制,任何熟悉本专业的技术人员可能利用上述揭示的技术内容加以变更或改型为等同变化的等效实施例。但是凡是未脱离本发明技术方案内容,依据本发明的技术实质对以上实施例所作的任何简单修改、等同变化与改型,仍属于本发明技术方案的保护范围。
Claims (9)
1.一种基于语义传播与前背景感知的图像语义分割方法,其特征在于,包括以下步骤:
步骤A:收集特定场景的图像样本,并标注每个像素所属的对象类别,构建带类别标签的训练集;
步骤B:利用图像增强技术对训练集进行数据增强,得到增强后的训练集SE;
步骤C:使用训练集SE训练基于语义传播与前背景感知的深度学习网络模型,用于分析图像中每个像素的语义类别;
步骤D:将待分割图像输入到训练后的深度学习网络模型中,输出与原图大小相同的语义分割图,得到语义分割结果。
2.根据权利要求1所述的基于语义传播与前背景感知的图像语义分割方法,其特征在于,所述步骤B中,对训练集中的原始图像及对应掩码标注进行随机水平翻转,并在设定范围内进行随机缩放以及随机亮度抖动。
3.根据权利要求1所述的基于语义传播与前背景感知的图像语义分割方法,其特征在于,所述步骤C具体包括以下步骤:
步骤C1:将训练集SE中的样本图像的特征图输入深度卷积神经网络,提取高层特征与低层特征的提取,然后送入联合语义传播上采样模块;
步骤C2:在联合语义传播上采样模块中,通过语义传播方法,利用高层特征的语义信息指导低层特征增强语义表示,并嵌入到层次上采样结构中,得到分辨率大且富含语义信息的特征图Xout,并送入金字塔前背景感知模块;
步骤C3:在金字塔前背景感知模块中,对输入特征提取多尺度的前景上下文特征以及背景上下文特征,并计算出每个前景上下文特征与背景上下文特征之间的依赖关系图,利用依赖关系图与对应的前景上下文特征进行加权,增强前景特征的表示能力,最后融合得到特征图Eout;
步骤C4:将Eout输入softmax层,根据目标损失函数loss,利用反向传播方法计算深度学习网络模型中的各参数的梯度,并利用随机梯度下降方法更新参数;
步骤C5:当深度学习网络模型产生的损失值迭代变化小于设定阈值或迭代达到最大迭代次数,终止深度学习网络模型的训练。
4.根据权利要求3所述的基于语义传播与前背景感知的图像语义分割方法,其特征在于,所述步骤C1具体包括以下步骤:
步骤C11:将训练集SE中的一个样本图像的特征图X,输入深度卷积神经网络ResNet101进行特征提取,ResNet101包含五个特征提取层,分别为layer1-layer5,每经过一个特征提取层,输出的特征图大小减半,每个特征提取层的输出表示为:
l1=layer1(X)
l2=layer2(l1)
l3=layer3(l2)
l4=layer4(l3)
l5=layer5(l4)
其中,layer1包含输出通道数为64、步幅为2的7×7卷积,步幅为2的3×3最大池化操作;layer2由3个卷积块组成,每个卷积块由输出通道数为64的1×1卷积、输出通道数为64的3×3卷积、输出通道数为256的1×1卷积组成,每个卷积块之间都有一个残差连接;Layer3由4个卷积块组成,每个卷积块由输出通道数为128的1×1卷积、输出通道数为128的3×3卷积、输出通道数为512的1×1卷积组成,每个卷积块之间都有一个残差连接;layer4由23个卷积块组成,每个卷积块由输出通道数为256的1×1卷积、输出通道数为256的3×3卷积、输出通道数为1024的1×1卷积组成,每个卷积块之间都有一个残差连接;layer5由3个卷积块组成,每个卷积块由输出通道数为512的1×1卷积、输出通道数为512的3×3卷积、输出通道数为2048的1×1卷积组成,每个卷积块之间都有一个残差连接;
步骤C12:将l3,l4,l5输入联合语义传播上采样模块。
5.根据权利要求3所述的基于语义传播与前背景感知的图像语义分割方法,其特征在于,所述语义传播方法通过两个分支提取高层特征的全局语义以及局部语义,其中全局语义分支的组成为平均池化+1×1卷积且输出通道数为高级特征通道数的1/2+1×1卷积且输出通道数为高级特征通道数,局部语义分支组成为1×1卷积且输出通道数为高级特征通道数的1/2+1×1卷积且输出通道数为高级特征通道数,将两分支的输出进行相加并通过sigmoid函数激活,得到高层特征的语义表示;然后,通过与低层特征进行逐像素乘法,将语义信息传入低层,增强低层特征的语义表示;增强后的低层特征与原低层特征进行融合,得到经过语义传播的最终输出;整个过程用公式表示为:
6.根据权利要求4所述的基于语义传播与前背景感知的图像语义分割方法,其特征在于,所述步骤C2具体包括以下步骤:
步骤C21:将输入特征l5通过双线性插值上采样两倍得到l′5,将l′5与l4输入语义传播函数T(·)进行语义传播,l′5、l4分别作为输入语义传播函数的高层特征与低层特征,将语义传播函数输出的特征向量与l′5进行融合得到输出特征l54;
步骤C22:将输入特征l4通过双线性插值上采样两倍得到l′4,将l′4与l3输入语义传播函数T(·)进行语义传播,l′4、l3分别作为输入语义传播函数的高层特征与低层特征,将语义传播函数输出的特征向量与l′4进行融合得到输出特征l43;
步骤C23:将输出特征l54通过双线性插值上采样两倍得到l′54,将l′54与l43输入语义传播函数T(·)进行语义传播,l′54、l43分别作为语义传播函数的高层特征与低层特征,将语义传播函数输出的特征向量与l′54进行融合得到输出特征l543;
步骤C24:将输入特征l3通过一个3×3卷积层以提取更细粒度的特征表示,然后与步骤C22输出特征l43、步骤C23输出特征l543按通道维度进行拼接,即所有特征空间维度保持一致,将所有通道合并在一起,组合成一个新的特征,得到输出特征Xout,空间维度与l3相同,通道维度为l3通道数的三倍;
Xout=concat(ε1(l3),l43,l543)#
步骤C25:将Xout输入前背景感知模块。
7.根据权利要求6所述的基于语义传播与前背景感知的图像语义分割方法,其特征在于,所述步骤C3具体包括以下步骤:
步骤C31:将输入特征Xout通过四个并行的不同尺寸的空洞卷积,提取出四个不同的前景特征;
qi=atrous(Xout;ri),i=[1,2,3,4]
r={r1,r2,r3,r4}={1,6,12,18},
Q={q1,q2,q3,q4}
步骤C32:背景特征由最大池化分支以及平均池化分支获得,其中最大池化分支由四个并行的不同尺寸的最大池化层及1×1卷积层组成,平均池化分支由四个并行的不同尺寸的平均池化层及1×1卷积层组成,将Xout输入两个分支后得到8个背景特征,将其按空间平铺展开并拼接在一起得到最后的背景特征B;
mbi=ρi(Mpool(Xout;bi)),i=[1,2,3,4]
abj=τj(Apool(Xout;bj)),j=[1,2,3,4]
b={b1,b2,b3,b4}={1,2,3,6},
MB={Flat(mb1),Flat(mb2),Flat(mb3),Flat(mb4)}
AB={Flat(ab1),Flat(ab2),Flat(ab3),Flat(ab4)}
B=concat2(AB,MB)
其中,B为拼接后的背景特征,C为通道数量,是输入特征Xout通道数的1/8,S表示背景区域个数,根据背景区域划分计算;bi为背景划分区域个数;Apool()、Mpool()为平均池化操作和最大池化操作;Flat()表示将特征向量按空间平铺展开,即保持通道维度不变,将空间维度变换为一维,MB与AB集合中的特征维度均为concat2为空间拼接操作,即通道维度保持一致,将所有空间维度合并在一起,组合成一个新的特征;ρ、τ表示1×1卷积操作;
步骤C33:将前景特征q1通过形状变换成即将前景特征q1的空间尺寸由H×W变换成1×N,N=H×W,将特征向量q′1的转置与背景特征B进行矩阵乘法,并通过softmax函数激活,得到依赖关系图之后通过线性插值得到最后的依赖关系图计算过程如下:
M1=Interpolation(M′1)
A′1=α(q′1×M1)
A″1=reshape(A′1)
其中,α初始值置为0,通过模型学习得到一个分配权重;
步骤C35:分别对前景特征q2,q3,q4采用步骤C33与步骤C34的操作,得到前背景感知特征A2,A3,A4;
步骤C36:将输入特征Xout通过全局池化分支以捕获全局上下文特征G,全局池化分支由平均池操作、1×1卷积和双线性插值组成,计算公式如下:
G=bilinear(δ(Apool(Xout;1)))
其中,Apool为平均池操作,1表示最后输出的空间尺寸为1×1、δ表示1×1卷积且输出通道数与输入特征Xout相同,bilinear为双线性插值操作;
步骤C37:将前背景感知特征A1,A2,A3,A4与全局上下文特征G按通道进行拼接,即所有特征空间维度保持一致,将所有通道合并在一起,组合成一个新的特征,之后通过1×1卷积,减少通道数量,同时加入DropOut层保证模型的泛化能力,获得语义特征图Eout;
Eout=ε2(concat(A1,A2,A3,A4,G))
其中ε2表示1×1卷积,concat按通道维度进行拼接。
8.根据权利要求7所述的基于语义传播与前背景感知的图像语义分割方法,其特征在于,所述步骤C4具体包括以下步骤:
步骤C41:特征Eout经过两个1×1卷积,将特征通道数量缩减至与类别个数相同,并通过双线性插值恢复到原图大小,使用softmax归一化,计算每个像素属于各个类别的概率,计算公式如下:
Y=softmax(bilinear(σ2(σ1(Eout))))
步骤C42:用交叉熵作为损失函数计算损失值,通过梯度优化算法SGD进行学习率更新,利用反向传播迭代更新模型参数,以最小化损失函数来训练模型;
9.一种采用如权利要求1-8任一项所述方法的图像语义分割系统,其特征在于,包括:
数据收集模块,用于收集特定场景的图像样本,并标注每个像素所属的对象类别,构建带类别标签的训练集;
预处理模块,用于对训练集中的训练样本进行数据增强,包括随机水平翻转、缩放和亮度抖动;
网络训练模块,用于将图像特征输入到深度学习网络中,得到图像语义分割特征图并以此训练深度学习网络,利用图像语义分割特征图中每个像素属于某一类别的概率以及训练集中的标注作为损失,以最小化损失为目标来对整个深度学习网络进行训练,得到基于语义传播与前背景感知的深度学习网络模型;以及
图像语义分割分析模块,用于利用图像处理工具,读取输入的图像特征,之后利用训练好的基于语义传播与前背景感知的深度学习网络模型对输入的图像特征进行分析处理,输出图像语义分割图,显示每个像素的所属类别。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210109479.7A CN114494699B (zh) | 2022-01-28 | 2022-01-28 | 基于语义传播与前背景感知的图像语义分割方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210109479.7A CN114494699B (zh) | 2022-01-28 | 2022-01-28 | 基于语义传播与前背景感知的图像语义分割方法及系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN114494699A true CN114494699A (zh) | 2022-05-13 |
CN114494699B CN114494699B (zh) | 2024-07-26 |
Family
ID=81477636
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210109479.7A Active CN114494699B (zh) | 2022-01-28 | 2022-01-28 | 基于语义传播与前背景感知的图像语义分割方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114494699B (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117351520A (zh) * | 2023-10-31 | 2024-01-05 | 广州恒沙数字科技有限公司 | 基于生成网络的前背景图像混合生成方法及系统 |
CN117870713A (zh) * | 2024-03-11 | 2024-04-12 | 武汉视普新科技有限公司 | 基于大数据车载影像的路径规划方法及系统 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110826596A (zh) * | 2019-10-09 | 2020-02-21 | 天津大学 | 一种基于多尺度可变形卷积的语义分割方法 |
CN112052783A (zh) * | 2020-09-02 | 2020-12-08 | 中南大学 | 一种结合像素语义关联和边界注意的高分影像弱监督建筑物提取方法 |
AU2020103901A4 (en) * | 2020-12-04 | 2021-02-11 | Chongqing Normal University | Image Semantic Segmentation Method Based on Deep Full Convolutional Network and Conditional Random Field |
CN113554032A (zh) * | 2021-09-22 | 2021-10-26 | 南京信息工程大学 | 基于高度感知的多路并行网络的遥感图像分割方法 |
-
2022
- 2022-01-28 CN CN202210109479.7A patent/CN114494699B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110826596A (zh) * | 2019-10-09 | 2020-02-21 | 天津大学 | 一种基于多尺度可变形卷积的语义分割方法 |
CN112052783A (zh) * | 2020-09-02 | 2020-12-08 | 中南大学 | 一种结合像素语义关联和边界注意的高分影像弱监督建筑物提取方法 |
AU2020103901A4 (en) * | 2020-12-04 | 2021-02-11 | Chongqing Normal University | Image Semantic Segmentation Method Based on Deep Full Convolutional Network and Conditional Random Field |
CN113554032A (zh) * | 2021-09-22 | 2021-10-26 | 南京信息工程大学 | 基于高度感知的多路并行网络的遥感图像分割方法 |
Non-Patent Citations (2)
Title |
---|
刘漳辉: ""Detection of Algorithmically Generated Domain Names Using the Recurrent Convolutional Neural Network with Spatial Pyramid Pooling"", 《ENTROPY》, 4 November 2020 (2020-11-04) * |
刘漳辉: ""基于语义传播与前/背景感知的图像语义分割网络"", 《模式识别与人工智能》, 31 January 2022 (2022-01-31) * |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117351520A (zh) * | 2023-10-31 | 2024-01-05 | 广州恒沙数字科技有限公司 | 基于生成网络的前背景图像混合生成方法及系统 |
CN117351520B (zh) * | 2023-10-31 | 2024-06-11 | 广州恒沙数字科技有限公司 | 基于生成网络的前背景图像混合生成方法及系统 |
CN117870713A (zh) * | 2024-03-11 | 2024-04-12 | 武汉视普新科技有限公司 | 基于大数据车载影像的路径规划方法及系统 |
CN117870713B (zh) * | 2024-03-11 | 2024-05-31 | 武汉视普新科技有限公司 | 基于大数据车载影像的路径规划方法及系统 |
Also Published As
Publication number | Publication date |
---|---|
CN114494699B (zh) | 2024-07-26 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN112347859B (zh) | 一种光学遥感图像显著性目标检测方法 | |
CN112396607B (zh) | 一种可变形卷积融合增强的街景图像语义分割方法 | |
CN113780149B (zh) | 一种基于注意力机制的遥感图像建筑物目标高效提取方法 | |
CN112991350B (zh) | 一种基于模态差异缩减的rgb-t图像语义分割方法 | |
CN109711463A (zh) | 基于注意力的重要对象检测方法 | |
CN113344806A (zh) | 一种基于全局特征融合注意力网络的图像去雾方法与系统 | |
CN111401436B (zh) | 一种融合网络和双通道注意力机制的街景图像分割方法 | |
CN113298815A (zh) | 一种半监督遥感图像语义分割方法、装置和计算机设备 | |
CN114494699B (zh) | 基于语义传播与前背景感知的图像语义分割方法及系统 | |
CN113379771B (zh) | 带有边缘约束的层次化人体解析语义分割方法 | |
CN111310766A (zh) | 基于编解码和二维注意力机制的车牌识别方法 | |
WO2023030182A1 (zh) | 图像生成方法及装置 | |
CN116797787B (zh) | 基于跨模态融合与图神经网络的遥感影像语义分割方法 | |
CN112954399B (zh) | 一种图像处理方法、装置以及计算机设备 | |
CN116778165A (zh) | 基于多尺度自适应语义分割的遥感影像灾害检测方法 | |
CN114677536B (zh) | 一种基于Transformer结构的预训练方法及装置 | |
CN116596966A (zh) | 一种基于注意力和特征融合的分割与跟踪方法 | |
CN115527096A (zh) | 一种基于改进YOLOv5的小目标检测方法 | |
CN112801029B (zh) | 基于注意力机制的多任务学习方法 | |
CN112115786B (zh) | 基于注意力U-net的单目视觉里程计方法 | |
Vijayalakshmi K et al. | Copy-paste forgery detection using deep learning with error level analysis | |
CN117876679A (zh) | 一种基于卷积神经网络的遥感图像场景分割方法 | |
Zheng et al. | Dcu-net: Self-supervised monocular depth estimation based on densely connected u-shaped convolutional neural networks | |
CN117351360A (zh) | 一种基于注意力机制改进的遥感图像道路提取方法 | |
CN109583584B (zh) | 可使具有全连接层的cnn接受不定形状输入的方法及系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |