CN114494699A - 基于语义传播与前背景感知的图像语义分割方法及系统 - Google Patents

基于语义传播与前背景感知的图像语义分割方法及系统 Download PDF

Info

Publication number
CN114494699A
CN114494699A CN202210109479.7A CN202210109479A CN114494699A CN 114494699 A CN114494699 A CN 114494699A CN 202210109479 A CN202210109479 A CN 202210109479A CN 114494699 A CN114494699 A CN 114494699A
Authority
CN
China
Prior art keywords
semantic
feature
convolution
image
foreground
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202210109479.7A
Other languages
English (en)
Other versions
CN114494699B (zh
Inventor
陈羽中
占小路
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fuzhou University
Original Assignee
Fuzhou University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fuzhou University filed Critical Fuzhou University
Priority to CN202210109479.7A priority Critical patent/CN114494699B/zh
Publication of CN114494699A publication Critical patent/CN114494699A/zh
Application granted granted Critical
Publication of CN114494699B publication Critical patent/CN114494699B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/047Probabilistic or stochastic networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • General Health & Medical Sciences (AREA)
  • Computing Systems (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Molecular Biology (AREA)
  • Artificial Intelligence (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Probability & Statistics with Applications (AREA)
  • Image Analysis (AREA)

Abstract

本发明涉及一种基于语义传播与前背景感知的图像语义分割方法及系统,该方法包括以下步骤:步骤A:收集特定场景的图像样本,并标注每个像素所属的对象类别,构建带类别标签的训练集;步骤B:利用图像增强技术对训练集进行数据增强,得到增强后的训练集SE;步骤C:使用训练集SE训练基于语义传播与前背景感知的深度学习网络模型,用于分析图像中每个像素的语义类别;步骤D:将待分割图像输入到训练后的深度学习网络模型中,输出与原图大小相同的语义分割图,得到语义分割结果。该方法及系统有利于提高图像语义分割的像素准确性与平均交并比。

Description

基于语义传播与前背景感知的图像语义分割方法及系统
技术领域
本发明属于计算机视觉与图像语义分割领域,具体涉及一种基于语义传播与前背景感知的图像语义分割方法及系统。
背景技术
图像语义分割(Image Semantic Segmentation)是计算机视觉中长期存在且充满挑战的基础任务。它的基本目标是对于给定图片中每一个像素都分配一个对应语义类别的标签,最后得到对应类别的分割图,因此图像分割也可以被看作是像素级的分类任务,是细粒度最小的图像语义理解任务。
随着深度神经网络的发展,出现了许多基于卷积神经网络的图像语义分割算法。全卷积神经网络FCNs(Fully Convolutional Neural Networks)首次将完全卷积用于语义分割,其将分类网络的全连接层替换成卷积层,能够更有效地进行端到端训练,且输入图像大小不受限制,能够产生对应大小的密集预测,从而实现像素级别的分类预测。此后,研究人员提出了一系列基于FCN的改进算法,并在图像语义分割任务上取得了进展。但是,由于FCN通过堆叠卷积与池化操作提取特征,造成图像分辨率不断下降,从而导致位置信息的损失。此外,上述模型受到感受野的限制,易出现错误的上下文信息聚合,难以适应包括存在多类别的场景在内的一些复杂场景。因此,图像语义分割研究的重点在于解决分辨率重建以及上下文关系建模问题。
针对分辨率重建问题,大多数研究工作采用空洞卷积或编解码结构。基于空洞卷积的模型主要是在骨干网络中以空洞卷积替代原来的卷积操作从而维持图像的分辨率。此类方法没有引入额外参数,但是高分辨率的特征图显著增加了内存消耗与计算复杂度,限制了模型的应用范围。基于编解码结构的模型则通过聚合编码器的多层次特征逐步恢复分辨率,在恢复过程中不断进行上采样以及特征融合操作。通常上采样操作采用双线性插值方法,但双线性插值在预测像素时仅考虑局部的像素,像素重建能力有限,且不可学习。特征融合操作则多采用普通的加法或拼接操作,但许多工作表明高层特征与低层特征进行简单的相加与拼接操作无法得到高质量的特征。主要因为高层特征包含丰富的语义信息,但缺少空间的细节信息,低层特征有着较大的空间信息,但语义表示能力很弱,两者之间存在语义差距。因此,加强低层特征语义的表示是融合的关键问题。
针对上下文关系建模,早期的研究工作主要通过概率图模型来描述像素之间的关系,如条件随机场和马尔科夫随机场。上述模型基于前端-后端结构,前端采用深度神经网络DCNNs(Deep Convolutional Neural Networks)进行特征提取,后端则使用概率图模型提取像素间的依赖关系。但是,由于模型多在离散的标签空间中进行建模,计算代价高昂。一些模型则在骨干网络后通过金字塔聚合或自注意力机制来捕获上下文关系。基于金字塔聚合的模型主要通过池化操作或空洞卷积操作获得更大范围的上下文信息,进而融合多尺度特征的上下文信息得到更有鉴别力的特征。虽然特征金字塔能够收集丰富的上下文信息,但未对上下文信息的重要性进行有效区分,且忽略了前景与背景上下文之间的依赖关系,影响构建的特征的类别区分能力。近来,基于自注意力机制的方法被广泛应用于包括图像语义分割在内的各种计算机视觉任务中。该方法的主要思想是通过一个注意力图对特征进行有选择的增强,即将注意力更多地放在感兴趣的区域内。在图像语义分割任务中,则是通过注意力机制,提取各种依赖关系来建模上下文信息,从而增强特征表示。因此。如何构建一个有效的依赖关系来表示上下文之间的联系是现有研究的一个关键。
发明内容
本发明的目的在于提供一种基于语义传播与前背景感知的图像语义分割方法及系统,该方法及系统有利于提高图像语义分割的像素准确性与平均交并比。
为实现上述目的,本发明采用的技术方案是:一种基于语义传播与前背景感知的图像语义分割方法,包括以下步骤:
步骤A:收集特定场景的图像样本,并标注每个像素所属的对象类别,构建带类别标签的训练集;
步骤B:利用图像增强技术对训练集进行数据增强,得到增强后的训练集SE
步骤C:使用训练集SE训练基于语义传播与前背景感知的深度学习网络模型,用于分析图像中每个像素的语义类别;
步骤D:将待分割图像输入到训练后的深度学习网络模型中,输出与原图大小相同的语义分割图,得到语义分割结果。
进一步地,所述步骤B中,对训练集中的原始图像及对应掩码标注进行随机水平翻转,并在设定范围内进行随机缩放以及随机亮度抖动。
进一步地,所述步骤C具体包括以下步骤:
步骤C1:将训练集SE中的样本图像的特征图输入深度卷积神经网络,提取高层特征与低层特征的提取,然后送入联合语义传播上采样模块;
步骤C2:在联合语义传播上采样模块中,通过语义传播方法,利用高层特征的语义信息指导低层特征增强语义表示,并嵌入到层次上采样结构中,得到分辨率大且富含语义信息的特征图Xout,并送入金字塔前背景感知模块;
步骤C3:在金字塔前背景感知模块中,对输入特征提取多尺度的前景上下文特征以及背景上下文特征,并计算出每个前景上下文特征与背景上下文特征之间的依赖关系图,利用依赖关系图与对应的前景上下文特征进行加权,增强前景特征的表示能力,最后融合得到特征图Eout
步骤C4:将Eout输入softmax层,根据目标损失函数loss,利用反向传播方法计算深度学习网络模型中的各参数的梯度,并利用随机梯度下降方法更新参数;
步骤C5:当深度学习网络模型产生的损失值迭代变化小于设定阈值或迭代达到最大迭代次数,终止深度学习网络模型的训练。
进一步地,所述步骤C1具体包括以下步骤:
步骤C11:将训练集SE中的一个样本图像的特征图X,输入深度卷积神经网络ResNet101进行特征提取,ResNet101包含五个特征提取层,分别为layer1-layer5,每经过一个特征提取层,输出的特征图大小减半,每个特征提取层的输出表示为:
l1=layer1(X)
l2=layer2(l1)
l3=layer3(l2)
l4=layer4(l3)
l5=layer5(l4)
其中,layer1包含输出通道数为64、步幅为2的7×7卷积,步幅为2的3×3最大池化操作;layer2由3个卷积块组成,每个卷积块由输出通道数为64的1×1卷积、输出通道数为64的3×3卷积、输出通道数为256的1×1卷积组成,每个卷积块之间都有一个残差连接;Layer3由4个卷积块组成,每个卷积块由输出通道数为128的1×1卷积、输出通道数为128的3×3卷积、输出通道数为512的1×1卷积组成,每个卷积块之间都有一个残差连接;layer4由23个卷积块组成,每个卷积块由输出通道数为256的1×1卷积、输出通道数为256的3×3卷积、输出通道数为1024的1×1卷积组成,每个卷积块之间都有一个残差连接;layer5由3个卷积块组成,每个卷积块由输出通道数为512的1×1卷积、输出通道数为512的3×3卷积、输出通道数为2048的1×1卷积组成,每个卷积块之间都有一个残差连接;
步骤C12:将l3,l4,l5输入联合语义传播上采样模块。
进一步地,所述语义传播方法通过两个分支提取高层特征的全局语义以及局部语义,其中全局语义分支的组成为平均池化+1×1卷积且输出通道数为高级特征通道数的1/2+1×1卷积且输出通道数为高级特征通道数,局部语义分支组成为1×1卷积且输出通道数为高级特征通道数的1/2+1×1卷积且输出通道数为高级特征通道数,将两分支的输出进行相加并通过sigmoid函数激活,得到高层特征的语义表示;然后,通过与低层特征进行逐像素乘法,将语义信息传入低层,增强低层特征的语义表示;增强后的低层特征与原低层特征进行融合,得到经过语义传播的最终输出;整个过程用公式表示为:
Figure BDA0003494680110000044
其中,T(·)为语义传播函数,t为语义传播函数返回的输出特征,与l具有相同维度,l、h分别为低层特征输入与高层特征输入,Mpool(·)为最大池化操作,Mpool(;1)表示最后输出的空间尺寸为1×1,F(·)为分支结构函数,包含全局语义分支以及局部语义分支操作过程,参数θ、μ表示全局语义分支的两个1×1卷积操作,
Figure BDA0003494680110000045
ω表示局部语义分支的两个1×1卷积操作。
进一步地,所述步骤C2具体包括以下步骤:
步骤C21:将输入特征l5通过双线性插值上采样两倍得到l'5,将l'5与l4输入语义传播函数T(·)进行语义传播,l'5、l4分别作为输入语义传播函数的高层特征与低层特征,将语义传播函数输出的特征向量与l'5进行融合得到输出特征l54
Figure BDA0003494680110000041
其中,
Figure BDA0003494680110000042
为逐像素加法;
步骤C22:将输入特征l4通过双线性插值上采样两倍得到l'4,将l'4与l3输入语义传播函数T(·)进行语义传播,l'4、l3分别作为输入语义传播函数的高层特征与低层特征,将语义传播函数输出的特征向量与l'4进行融合得到输出特征l43
Figure BDA0003494680110000043
步骤C23:将输出特征l54通过双线性插值上采样两倍得到l'54,将l'54与l43输入语义传播函数T(·)进行语义传播,l'54、l43分别作为语义传播函数的高层特征与低层特征,将语义传播函数输出的特征向量与l'54进行融合得到输出特征l543
Figure BDA0003494680110000051
步骤C24:将输入特征l3通过一个3×3卷积层以提取更细粒度的特征表示,然后与步骤C22输出特征l43、步骤C23输出特征l543按通道维度进行拼接,即所有特征空间维度保持一致,将所有通道合并在一起,组合成一个新的特征,得到输出特征Xout,空间维度与l3相同,通道维度为l3通道数的三倍;
Xout=concat(ε1(l3),l43,l543)#
其中,
Figure BDA0003494680110000052
为逐像素加法,ε1为3×3卷积操作,concat(·)表示按通道维度拼接;
步骤C25:将Xout输入前背景感知模块。
进一步地,所述步骤C3具体包括以下步骤:
步骤C31:将输入特征Xout通过四个并行的不同尺寸的空洞卷积,提取出四个不同的前景特征;
qi=atrous(Xout;ri),i=[1,2,3,4]
r={r1,r2,r3,r4}={1,6,12,18},
Q={q1,q2,q3,q4}
其中,Q为前景特征集合,atrous(·)为空洞卷积操作,r为空洞率,q1,q2,q3,
Figure BDA0003494680110000053
Figure BDA0003494680110000054
C为通道个数,是输入特征Xout通道数的1/8,H、W为空间尺寸大小,与输入特征Xout空间尺寸相同;
步骤C32:背景特征由最大池化分支以及平均池化分支获得,其中最大池化分支由四个并行的不同尺寸的最大池化层及1×1卷积层组成,平均池化分支由四个并行的不同尺寸的平均池化层及1×1卷积层组成,将Xout输入两个分支后得到8个背景特征,将其按空间平铺展开并拼接在一起得到最后的背景特征B;
mbi=ρi(Mpool(Xout;bi)),i=[1,2,3,4]
abj=τj(Apool(Xout;bj)),j=[1,2,3,4]
b={b1,b2,b3,b4}={1,2,3,6},
MB={Flat(mb1),Flat(mb2),Flat(mb3),Flat(mb4)}
AB={Flat(ab1),Flat(ab2),Flat(ab3),Flat(ab4)}
B=concat2(AB,MB)
其中,B为拼接后的背景特征,
Figure BDA0003494680110000061
C为通道数量,是输入特征Xout通道数的1/8,S表示背景区域个数,根据背景区域划分计算;
Figure BDA0003494680110000062
bi为背景划分区域个数;Apool()、Mpool()为平均池化操作和最大池化操作;Flat()表示将特征向量按空间平铺展开,即保持通道维度不变,将空间维度变换为一维,MB与AB集合中的特征维度均为
Figure BDA0003494680110000063
concat2为空间拼接操作,即通道维度保持一致,将所有空间维度合并在一起,组合成一个新的特征;ρ、τ表示1×1卷积操作;
步骤C33:将前景特征q1通过形状变换成
Figure BDA0003494680110000064
即将前景特征q1的空间尺寸由H×W变换成1×N,N=H×W,将特征向量q'1的转置q'1 T与背景特征B进行矩阵乘法,并通过softmax函数激活,得到依赖关系图
Figure BDA0003494680110000065
之后通过线性插值得到最后的依赖关系图
Figure BDA0003494680110000066
计算过程如下:
M'1=softmax(q'1 T×B)
M1=Interpolation(M1)
步骤C34:前景特征
Figure BDA0003494680110000067
与依赖关系图
Figure BDA0003494680110000068
通过矩阵乘法对前景特征进行激励与约束,得到鉴别能力更强的特征
Figure BDA0003494680110000069
A'1经过形状变换得到
Figure BDA00034946801100000610
后与
Figure BDA00034946801100000611
融合得到最后的输出特征,记为前背景感知特征
Figure BDA00034946801100000612
A'1=α(q'1×M1)
A”1=reshape(A'1)
Figure BDA00034946801100000613
其中,α初始值置为0,通过模型学习得到一个分配权重;
步骤C35:分别对前景特征q2,q3,q4采用步骤C33与步骤C34的操作,得到前背景感知特征A2,A3,A4
步骤C36:将输入特征Xout通过全局池化分支以捕获全局上下文特征G,全局池化分支由平均池操作、1×1卷积和双线性插值组成,计算公式如下:
G=bilinear(δ(Apool(Xout;1)))
其中,Apool为平均池操作,1表示最后输出的空间尺寸为1×1、δ表示1×1卷积且输出通道数与输入特征Xout相同,bilinear为双线性插值操作;
步骤C37:将前背景感知特征A1,A2,A3,A4与全局上下文特征G按通道进行拼接,即所有特征空间维度保持一致,将所有通道合并在一起,组合成一个新的特征,之后通过1×1卷积,减少通道数量,同时加入DropOut层保证模型的泛化能力,获得语义特征图Eout
Eout=ε2(concat(A1,A2,A3,A4,G))
其中ε2表示1×1卷积,concat按通道维度进行拼接。
进一步地,所述步骤C4具体包括以下步骤:
步骤C41:特征Eout经过两个1×1卷积,将特征通道数量缩减至与类别个数相同,并通过双线性插值恢复到原图大小,使用softmax归一化,计算每个像素属于各个类别的概率,计算公式如下:
Y=softmax(bilinear(σ21(Eout)))
其中,Y为输出特征,
Figure BDA0003494680110000071
C为通道数,与分类类别个数相同,每个通道预测了该像素属于类别i的概率,σ1,σ2表示1×1卷积;
步骤C42:用交叉熵作为损失函数计算损失值,通过梯度优化算法SGD进行学习率更新,利用反向传播迭代更新模型参数,以最小化损失函数来训练模型;
其中,最小化损失函数
Figure BDA0003494680110000072
的计算公式如下:
Figure BDA0003494680110000073
Figure BDA0003494680110000074
Figure BDA0003494680110000075
其中,N是每次迭代训练数据大小的数量,K表示像素空间位置,I表示类别数,Ynij
Figure BDA0003494680110000076
是模型的预测和真实标签结果,
Figure BDA0003494680110000077
表示辅助分支的预测结果,
Figure BDA0003494680110000078
为模型最终输出的损失值,
Figure BDA0003494680110000079
为在骨干网络第四层中添加的辅助损失,计算方法与步骤C41相同,λ为损失占比。
本发明还提供了一种采用上述方法的图像语义分割系统,包括:
数据收集模块,用于收集特定场景的图像样本,并标注每个像素所属的对象类别,构建带类别标签的训练集;
预处理模块,用于对训练集中的训练样本进行数据增强,包括随机水平翻转、缩放和亮度抖动;
网络训练模块,用于将图像特征输入到深度学习网络中,得到图像语义分割特征图并以此训练深度学习网络,利用图像语义分割特征图中每个像素属于某一类别的概率以及训练集中的标注作为损失,以最小化损失为目标来对整个深度学习网络进行训练,得到基于语义传播与前背景感知的深度学习网络模型;以及
图像语义分割分析模块,用于利用图像处理工具,读取输入的图像特征,之后利用训练好的基于语义传播与前背景感知的深度学习网络模型对输入的图像特征进行分析处理,输出图像语义分割图,显示每个像素的所属类别。
与现有技术相比,本发明具有以下有益效果:本发明结合了语义传播和前背景感知,不仅可以得到分辨率大且富含语义信息的特征,而且能够增强前景特征的表示能力,从而提高了图像语义分割的像素准确性与平均交并比,具有很强的实用性和广阔的应用前景。
附图说明
图1是本发明实施例的方法实现流程图;
图2是本发明实施例中基于语义传播与前背景感知的深度学习网络模型架构图;
图3是本发明实施例中联合语义传播上采样模块的结构图;
图4是本发明实施例中金字塔前背景感知模块的结构图。
具体实施方式
下面结合附图及实施例对本发明做进一步说明。
应该指出,以下详细说明都是示例性的,旨在对本申请提供进一步的说明。除非另有指明,本文使用的所有技术和科学术语具有与本申请所属技术领域的普通技术人员通常理解的相同含义。
需要注意的是,这里所使用的术语仅是为了描述具体实施方式,而非意图限制根据本申请的示例性实施方式。如在这里所使用的,除非上下文另外明确指出,否则单数形式也意图包括复数形式,此外,还应当理解的是,当在本说明书中使用术语“包含”和/或“包括”时,其指明存在特征、步骤、操作、器件、组件和/或它们的组合。
如图1所示,本实施例提供了一种基于语义传播与前背景感知的图像语义分割方法,包括以下步骤:
步骤A:收集特定场景的图像样本,并标注每个像素所属的对象类别,构建带类别标签的训练集。
步骤B:利用图像增强技术对训练集进行数据增强,得到增强后的训练集SE
其中,数据增强的方法包括:对训练集中的原始图像及对应掩码标注进行随机水平翻转,以及在设定范围内进行随机缩放和随机亮度抖动。
步骤C:使用训练集SE训练基于语义传播与前背景感知的深度学习网络模型,用于分析图像中每个像素的语义类别。所述基于语义传播与前背景感知的深度学习网络模型的架构图如图2所示。
所述步骤C具体包括以下步骤:
步骤C1:将训练集SE中的样本图像的特征图输入深度卷积神经网络,提取高层特征与低层特征的提取,然后送入如图3所示的联合语义传播上采样模块。
所述步骤C1具体包括以下步骤:
步骤C11:将训练集SE中的一个样本图像的特征图X,输入深度卷积神经网络ResNet101进行特征提取,ResNet101包含五个特征提取层,分别为layer1-layer5,每经过一个特征提取层,输出的特征图大小减半,每个特征提取层的输出表示为:
l1=layer1(X)
l2=layer2(l1)
l3=layer3(l2)
l4=layer4(l3)
l5=layer5(l4)
其中,layer1包含输出通道数为64、步幅为2的7×7卷积,步幅为2的3×3最大池化操作;layer2由3个卷积块组成,每个卷积块由输出通道数为64的1×1卷积、输出通道数为64的3×3卷积、输出通道数为256的1×1卷积组成,每个卷积块之间都有一个残差连接;Layer3由4个卷积块组成,每个卷积块由输出通道数为128的1×1卷积、输出通道数为128的3×3卷积、输出通道数为512的1×1卷积组成,每个卷积块之间都有一个残差连接;layer4由23个卷积块组成,每个卷积块由输出通道数为256的1×1卷积、输出通道数为256的3×3卷积、输出通道数为1024的1×1卷积组成,每个卷积块之间都有一个残差连接;layer5由3个卷积块组成,每个卷积块由输出通道数为512的1×1卷积、输出通道数为512的3×3卷积、输出通道数为2048的1×1卷积组成,每个卷积块之间都有一个残差连接。
步骤C12:将l3,l4,l5输入联合语义传播上采样模块。
步骤C2:在联合语义传播上采样模块中,通过语义传播方法,利用高层特征的语义信息指导低层特征增强语义表示,并嵌入到层次上采样结构中,得到分辨率大且富含语义信息的特征图Xout,并送入如图4所示的金字塔前背景感知模块。
所述语义传播方法通过两个分支提取高层特征的全局语义以及局部语义,其中全局语义分支的组成为平均池化+1×1卷积且输出通道数为高级特征通道数的1/2+1×1卷积且输出通道数为高级特征通道数,局部语义分支组成为1×1卷积且输出通道数为高级特征通道数的1/2+1×1卷积且输出通道数为高级特征通道数,将两分支的输出进行相加并通过sigmoid函数激活,得到高层特征的语义表示;然后,通过与低层特征进行逐像素乘法,将语义信息传入低层,增强低层特征的语义表示;增强后的低层特征与原低层特征进行融合,得到经过语义传播的最终输出;整个过程用公式表示为:
Figure BDA0003494680110000104
其中,T(·)为语义传播函数,t为语义传播函数返回的输出特征,与l具有相同维度,l、h分别为低层特征输入与高层特征输入,Mpool(·)为最大池化操作,Mpool(;1)表示最后输出的空间尺寸为1×1,F(·)为分支结构函数,包含全局语义分支以及局部语义分支操作过程,参数θ、μ表示全局语义分支的两个1×1卷积操作,
Figure BDA0003494680110000105
ω表示局部语义分支的两个1×1卷积操作。
所述步骤C2具体包括以下步骤:
步骤C21:将输入特征l5通过双线性插值上采样两倍得到l'5,将l'5与l4输入语义传播函数T(·)进行语义传播,l'5、l4分别作为输入语义传播函数的高层特征与低层特征,将语义传播函数输出的特征向量与l'5进行融合得到输出特征l54
Figure BDA0003494680110000101
其中,
Figure BDA0003494680110000102
为逐像素加法。
步骤C22:将输入特征l4通过双线性插值上采样两倍得到l'4,将l'4与l3输入语义传播函数T(·)进行语义传播,l'4、l3分别作为输入语义传播函数的高层特征与低层特征,将语义传播函数输出的特征向量与l'4进行融合得到输出特征l43
Figure BDA0003494680110000103
步骤C23:将输出特征l54通过双线性插值上采样两倍得到l'54,将l'54与l43输入语义传播函数T(·)进行语义传播,l'54、l43分别作为语义传播函数的高层特征与低层特征,将语义传播函数输出的特征向量与l'54进行融合得到输出特征l543
Figure BDA0003494680110000111
步骤C24:将输入特征l3通过一个3×3卷积层以提取更细粒度的特征表示,然后与步骤C22输出特征l43、步骤C23输出特征l543按通道维度进行拼接,即所有特征空间维度保持一致,将所有通道合并在一起,组合成一个新的特征,得到输出特征Xout,空间维度与l3相同,通道维度为l3通道数的三倍;
Xout=concat(ε1(l3),l43,l543)#
其中,
Figure BDA0003494680110000112
为逐像素加法,ε1为3×3卷积操作,concat(·)表示按通道维度拼接。
步骤C25:将Xout输入前背景感知模块。
步骤C3:在金字塔前背景感知模块中,对输入特征提取多尺度的前景上下文特征以及背景上下文特征,并计算出每个前景上下文特征与背景上下文特征之间的依赖关系图,利用依赖关系图与对应的前景上下文特征进行加权,增强前景特征的表示能力,最后融合得到特征图Eout
所述步骤C3具体包括以下步骤:
步骤C31:将输入特征Xout通过四个并行的不同尺寸的空洞卷积,提取出四个不同的前景特征;
qi=atrous(Xout;ri),i=[1,2,3,4]
r={r1,r2,r3,r4}={1,6,12,18},
Q={q1,q2,q3,q4}
其中,Q为前景特征集合,atrous(·)为空洞卷积操作,r为空洞率,q1,q2,q3,
Figure BDA0003494680110000113
Figure BDA0003494680110000114
C为通道个数,是输入特征Xout通道数的1/8,H、W为空间尺寸大小,与输入特征Xout空间尺寸相同。
步骤C32:背景特征由最大池化分支以及平均池化分支获得,其中最大池化分支由四个并行的不同尺寸的最大池化层及1×1卷积层组成,平均池化分支由四个并行的不同尺寸的平均池化层及1×1卷积层组成,将Xout输入两个分支后得到8个背景特征,将其按空间平铺展开并拼接在一起得到最后的背景特征B;
mbi=ρi(Mpool(Xout;bi)),i=[1,2,3,4]
abj=τj(Apool(Xout;bj)),j=[1,2,3,4]
b={b1,b2,b3,b4}={1,2,3,6},
MB={Flat(mb1),Flat(mb2),Flat(mb3),Flat(mb4)}
AB={Flat(ab1),Flat(ab2),Flat(ab3),Flat(ab4)}
B=concat2(AB,MB)
其中,B为拼接后的背景特征,
Figure BDA0003494680110000121
C为通道数量,是输入特征Xout通道数的1/8,S表示背景区域个数,根据背景区域划分计算;
Figure BDA0003494680110000122
bi为背景划分区域个数;Apool()、Mpool()为平均池化操作和最大池化操作;Flat()表示将特征向量按空间平铺展开,即保持通道维度不变,将空间维度变换为一维,MB与AB集合中的特征维度均为
Figure BDA0003494680110000123
concat2为空间拼接操作,即通道维度保持一致,将所有空间维度合并在一起,组合成一个新的特征;ρ、τ表示1×1卷积操作。
步骤C33:将前景特征q1通过形状变换成
Figure BDA0003494680110000124
即将前景特征q1的空间尺寸由H×W变换成1×N,N=H×W,将特征向量q'1的转置q'1 T与背景特征B进行矩阵乘法,并通过softmax函数激活,得到依赖关系图
Figure BDA0003494680110000125
之后通过线性插值得到最后的依赖关系图
Figure BDA0003494680110000126
计算过程如下:
M'1=softmax(q'1 T×B)
M1=Interpolation(M1)。
步骤C34:前景特征
Figure BDA0003494680110000127
与依赖关系图
Figure BDA0003494680110000128
通过矩阵乘法对前景特征进行激励与约束,得到鉴别能力更强的特征
Figure BDA0003494680110000129
A'1经过形状变换得到
Figure BDA00034946801100001210
后与
Figure BDA00034946801100001211
融合得到最后的输出特征,记为前背景感知特征
Figure BDA00034946801100001212
A'1=α(q'1×M1)
A”1=reshape(A'1)
Figure BDA00034946801100001213
其中,α初始值置为0,通过模型学习得到一个分配权重。
步骤C35:分别对前景特征q2,q3,q4采用步骤C33与步骤C34的操作,得到前背景感知特征A2,A3,A4
步骤C36:将输入特征Xout通过全局池化分支以捕获全局上下文特征G,全局池化分支由平均池操作、1×1卷积和双线性插值组成,计算公式如下:
G=bilinear(δ(Apool(Xout;1)))
其中,Apool为平均池操作,1表示最后输出的空间尺寸为1×1、δ表示1×1卷积且输出通道数与输入特征Xout相同,bilinear为双线性插值操作。
步骤C37:将前背景感知特征A1,A2,A3,A4与全局上下文特征G按通道进行拼接,即所有特征空间维度保持一致,将所有通道合并在一起,组合成一个新的特征,之后通过1×1卷积,减少通道数量,同时加入DropOut层保证模型的泛化能力,获得语义特征图Eout
Eout=ε2(concat(A1,A2,A3,A4,G))
其中ε2表示1×1卷积,concat按通道维度进行拼接。
步骤C4:将Eout输入softmax层,根据目标损失函数loss,利用反向传播方法计算深度学习网络模型中的各参数的梯度,并利用随机梯度下降方法更新参数。
所述步骤C4具体包括以下步骤:
步骤C41:特征Eout经过两个1×1卷积,将特征通道数量缩减至与类别个数相同,并通过双线性插值恢复到原图大小,使用softmax归一化,计算每个像素属于各个类别的概率,计算公式如下:
Y=softmax(bilinear(σ21(Eout)))
其中,Y为输出特征,
Figure BDA0003494680110000131
C为通道数,与分类类别个数相同,每个通道预测了该像素属于类别i的概率,σ1,σ2表示1×1卷积。
步骤C42:用交叉熵作为损失函数计算损失值,通过梯度优化算法SGD进行学习率更新,利用反向传播迭代更新模型参数,以最小化损失函数来训练模型。
其中,最小化损失函数
Figure BDA0003494680110000132
的计算公式如下:
Figure BDA0003494680110000133
Figure BDA0003494680110000134
Figure BDA0003494680110000135
其中,N是每次迭代训练数据大小的数量,K表示像素空间位置,I表示类别数,Ynij
Figure BDA0003494680110000141
是模型的预测和真实标签结果,
Figure BDA0003494680110000142
表示辅助分支的预测结果,
Figure BDA0003494680110000143
为模型最终输出的损失值,
Figure BDA0003494680110000144
为在骨干网络第四层中添加的辅助损失,计算方法与步骤C41相同,λ为损失占比。
步骤C5:当深度学习网络模型产生的损失值迭代变化小于设定阈值或迭代达到最大迭代次数,终止深度学习网络模型的训练。
步骤D:将待分割图像输入到训练后的深度学习网络模型中,输出与原图大小相同的语义分割图,得到语义分割结果。
本实施例还提供了采用上述方法的图像语义分割系统,包括数据收集模块、预处理模块、网络训练模块和图像语义分割分析模块。
所述数据收集模块用于收集特定场景的图像样本,并标注每个像素所属的对象类别,构建带类别标签的训练集;
所述预处理模块用于对训练集中的训练样本进行数据增强,包括随机水平翻转、缩放和亮度抖动;
所述网络训练模块用于将图像特征输入到深度学习网络中,得到图像语义分割特征图并以此训练深度学习网络,利用图像语义分割特征图中每个像素属于某一类别的概率以及训练集中的标注作为损失,以最小化损失为目标来对整个深度学习网络进行训练,得到基于语义传播与前背景感知的深度学习网络模型;以及
所述图像语义分割分析模块用于利用图像处理工具,读取输入的图像特征,之后利用训练好的基于语义传播与前背景感知的深度学习网络模型对输入的图像特征进行分析处理,输出图像语义分割图,显示每个像素的所属类别。
以上所述,仅是本发明的较佳实施例而已,并非是对本发明作其它形式的限制,任何熟悉本专业的技术人员可能利用上述揭示的技术内容加以变更或改型为等同变化的等效实施例。但是凡是未脱离本发明技术方案内容,依据本发明的技术实质对以上实施例所作的任何简单修改、等同变化与改型,仍属于本发明技术方案的保护范围。

Claims (9)

1.一种基于语义传播与前背景感知的图像语义分割方法,其特征在于,包括以下步骤:
步骤A:收集特定场景的图像样本,并标注每个像素所属的对象类别,构建带类别标签的训练集;
步骤B:利用图像增强技术对训练集进行数据增强,得到增强后的训练集SE
步骤C:使用训练集SE训练基于语义传播与前背景感知的深度学习网络模型,用于分析图像中每个像素的语义类别;
步骤D:将待分割图像输入到训练后的深度学习网络模型中,输出与原图大小相同的语义分割图,得到语义分割结果。
2.根据权利要求1所述的基于语义传播与前背景感知的图像语义分割方法,其特征在于,所述步骤B中,对训练集中的原始图像及对应掩码标注进行随机水平翻转,并在设定范围内进行随机缩放以及随机亮度抖动。
3.根据权利要求1所述的基于语义传播与前背景感知的图像语义分割方法,其特征在于,所述步骤C具体包括以下步骤:
步骤C1:将训练集SE中的样本图像的特征图输入深度卷积神经网络,提取高层特征与低层特征的提取,然后送入联合语义传播上采样模块;
步骤C2:在联合语义传播上采样模块中,通过语义传播方法,利用高层特征的语义信息指导低层特征增强语义表示,并嵌入到层次上采样结构中,得到分辨率大且富含语义信息的特征图Xout,并送入金字塔前背景感知模块;
步骤C3:在金字塔前背景感知模块中,对输入特征提取多尺度的前景上下文特征以及背景上下文特征,并计算出每个前景上下文特征与背景上下文特征之间的依赖关系图,利用依赖关系图与对应的前景上下文特征进行加权,增强前景特征的表示能力,最后融合得到特征图Eout
步骤C4:将Eout输入softmax层,根据目标损失函数loss,利用反向传播方法计算深度学习网络模型中的各参数的梯度,并利用随机梯度下降方法更新参数;
步骤C5:当深度学习网络模型产生的损失值迭代变化小于设定阈值或迭代达到最大迭代次数,终止深度学习网络模型的训练。
4.根据权利要求3所述的基于语义传播与前背景感知的图像语义分割方法,其特征在于,所述步骤C1具体包括以下步骤:
步骤C11:将训练集SE中的一个样本图像的特征图X,输入深度卷积神经网络ResNet101进行特征提取,ResNet101包含五个特征提取层,分别为layer1-layer5,每经过一个特征提取层,输出的特征图大小减半,每个特征提取层的输出表示为:
l1=layer1(X)
l2=layer2(l1)
l3=layer3(l2)
l4=layer4(l3)
l5=layer5(l4)
其中,layer1包含输出通道数为64、步幅为2的7×7卷积,步幅为2的3×3最大池化操作;layer2由3个卷积块组成,每个卷积块由输出通道数为64的1×1卷积、输出通道数为64的3×3卷积、输出通道数为256的1×1卷积组成,每个卷积块之间都有一个残差连接;Layer3由4个卷积块组成,每个卷积块由输出通道数为128的1×1卷积、输出通道数为128的3×3卷积、输出通道数为512的1×1卷积组成,每个卷积块之间都有一个残差连接;layer4由23个卷积块组成,每个卷积块由输出通道数为256的1×1卷积、输出通道数为256的3×3卷积、输出通道数为1024的1×1卷积组成,每个卷积块之间都有一个残差连接;layer5由3个卷积块组成,每个卷积块由输出通道数为512的1×1卷积、输出通道数为512的3×3卷积、输出通道数为2048的1×1卷积组成,每个卷积块之间都有一个残差连接;
步骤C12:将l3,l4,l5输入联合语义传播上采样模块。
5.根据权利要求3所述的基于语义传播与前背景感知的图像语义分割方法,其特征在于,所述语义传播方法通过两个分支提取高层特征的全局语义以及局部语义,其中全局语义分支的组成为平均池化+1×1卷积且输出通道数为高级特征通道数的1/2+1×1卷积且输出通道数为高级特征通道数,局部语义分支组成为1×1卷积且输出通道数为高级特征通道数的1/2+1×1卷积且输出通道数为高级特征通道数,将两分支的输出进行相加并通过sigmoid函数激活,得到高层特征的语义表示;然后,通过与低层特征进行逐像素乘法,将语义信息传入低层,增强低层特征的语义表示;增强后的低层特征与原低层特征进行融合,得到经过语义传播的最终输出;整个过程用公式表示为:
Figure FDA0003494680100000021
其中,T(·)为语义传播函数,t为语义传播函数返回的输出特征,与l具有相同维度,l、h分别为低层特征输入与高层特征输入,Mpool(·)为最大池化操作,Mpool(;1)表示最后输出的空间尺寸为1×1,F(·)为分支结构函数,包含全局语义分支以及局部语义分支操作过程,参数θ、μ表示全局语义分支的两个1×1卷积操作,
Figure FDA0003494680100000031
ω表示局部语义分支的两个1×1卷积操作。
6.根据权利要求4所述的基于语义传播与前背景感知的图像语义分割方法,其特征在于,所述步骤C2具体包括以下步骤:
步骤C21:将输入特征l5通过双线性插值上采样两倍得到l′5,将l′5与l4输入语义传播函数T(·)进行语义传播,l′5、l4分别作为输入语义传播函数的高层特征与低层特征,将语义传播函数输出的特征向量与l′5进行融合得到输出特征l54
Figure FDA0003494680100000032
其中,
Figure FDA0003494680100000033
为逐像素加法;
步骤C22:将输入特征l4通过双线性插值上采样两倍得到l′4,将l′4与l3输入语义传播函数T(·)进行语义传播,l′4、l3分别作为输入语义传播函数的高层特征与低层特征,将语义传播函数输出的特征向量与l′4进行融合得到输出特征l43
Figure FDA0003494680100000034
步骤C23:将输出特征l54通过双线性插值上采样两倍得到l′54,将l′54与l43输入语义传播函数T(·)进行语义传播,l′54、l43分别作为语义传播函数的高层特征与低层特征,将语义传播函数输出的特征向量与l′54进行融合得到输出特征l543
Figure FDA0003494680100000035
步骤C24:将输入特征l3通过一个3×3卷积层以提取更细粒度的特征表示,然后与步骤C22输出特征l43、步骤C23输出特征l543按通道维度进行拼接,即所有特征空间维度保持一致,将所有通道合并在一起,组合成一个新的特征,得到输出特征Xout,空间维度与l3相同,通道维度为l3通道数的三倍;
Xout=concat(ε1(l3),l43,l543)#
其中,
Figure FDA0003494680100000036
为逐像素加法,ε1为3×3卷积操作,concat(·)表示按通道维度拼接;
步骤C25:将Xout输入前背景感知模块。
7.根据权利要求6所述的基于语义传播与前背景感知的图像语义分割方法,其特征在于,所述步骤C3具体包括以下步骤:
步骤C31:将输入特征Xout通过四个并行的不同尺寸的空洞卷积,提取出四个不同的前景特征;
qi=atrous(Xout;ri),i=[1,2,3,4]
r={r1,r2,r3,r4}={1,6,12,18},
Q={q1,q2,q3,q4}
其中,Q为前景特征集合,atrous(·)为空洞卷积操作,r为空洞率,
Figure FDA0003494680100000041
Figure FDA0003494680100000042
C为通道个数,是输入特征Xout通道数的1/8,H、W为空间尺寸大小,与输入特征Xout空间尺寸相同;
步骤C32:背景特征由最大池化分支以及平均池化分支获得,其中最大池化分支由四个并行的不同尺寸的最大池化层及1×1卷积层组成,平均池化分支由四个并行的不同尺寸的平均池化层及1×1卷积层组成,将Xout输入两个分支后得到8个背景特征,将其按空间平铺展开并拼接在一起得到最后的背景特征B;
mbi=ρi(Mpool(Xout;bi)),i=[1,2,3,4]
abj=τj(Apool(Xout;bj)),j=[1,2,3,4]
b={b1,b2,b3,b4}={1,2,3,6},
MB={Flat(mb1),Flat(mb2),Flat(mb3),Flat(mb4)}
AB={Flat(ab1),Flat(ab2),Flat(ab3),Flat(ab4)}
B=concat2(AB,MB)
其中,B为拼接后的背景特征,
Figure FDA0003494680100000043
C为通道数量,是输入特征Xout通道数的1/8,S表示背景区域个数,根据背景区域划分计算;
Figure FDA0003494680100000044
bi为背景划分区域个数;Apool()、Mpool()为平均池化操作和最大池化操作;Flat()表示将特征向量按空间平铺展开,即保持通道维度不变,将空间维度变换为一维,MB与AB集合中的特征维度均为
Figure FDA0003494680100000045
concat2为空间拼接操作,即通道维度保持一致,将所有空间维度合并在一起,组合成一个新的特征;ρ、τ表示1×1卷积操作;
步骤C33:将前景特征q1通过形状变换成
Figure FDA0003494680100000046
即将前景特征q1的空间尺寸由H×W变换成1×N,N=H×W,将特征向量q′1的转置
Figure FDA0003494680100000047
与背景特征B进行矩阵乘法,并通过softmax函数激活,得到依赖关系图
Figure FDA0003494680100000051
之后通过线性插值得到最后的依赖关系图
Figure FDA0003494680100000052
计算过程如下:
Figure FDA0003494680100000053
M1=Interpolation(M′1)
步骤C34:前景特征
Figure FDA0003494680100000054
与依赖关系图
Figure FDA0003494680100000055
通过矩阵乘法对前景特征进行激励与约束,得到鉴别能力更强的特征
Figure FDA0003494680100000056
A′1经过形状变换得到
Figure FDA0003494680100000057
后与
Figure FDA0003494680100000058
融合得到最后的输出特征,记为前背景感知特征
Figure FDA0003494680100000059
A′1=α(q′1×M1)
A″1=reshape(A′1)
Figure FDA00034946801000000510
其中,α初始值置为0,通过模型学习得到一个分配权重;
步骤C35:分别对前景特征q2,q3,q4采用步骤C33与步骤C34的操作,得到前背景感知特征A2,A3,A4
步骤C36:将输入特征Xout通过全局池化分支以捕获全局上下文特征G,全局池化分支由平均池操作、1×1卷积和双线性插值组成,计算公式如下:
G=bilinear(δ(Apool(Xout;1)))
其中,Apool为平均池操作,1表示最后输出的空间尺寸为1×1、δ表示1×1卷积且输出通道数与输入特征Xout相同,bilinear为双线性插值操作;
步骤C37:将前背景感知特征A1,A2,A3,A4与全局上下文特征G按通道进行拼接,即所有特征空间维度保持一致,将所有通道合并在一起,组合成一个新的特征,之后通过1×1卷积,减少通道数量,同时加入DropOut层保证模型的泛化能力,获得语义特征图Eout
Eout=ε2(concat(A1,A2,A3,A4,G))
其中ε2表示1×1卷积,concat按通道维度进行拼接。
8.根据权利要求7所述的基于语义传播与前背景感知的图像语义分割方法,其特征在于,所述步骤C4具体包括以下步骤:
步骤C41:特征Eout经过两个1×1卷积,将特征通道数量缩减至与类别个数相同,并通过双线性插值恢复到原图大小,使用softmax归一化,计算每个像素属于各个类别的概率,计算公式如下:
Y=softmax(bilinear(σ21(Eout))))
其中,Y为输出特征,
Figure FDA0003494680100000061
C为通道数,与分类类别个数相同,每个通道预测了该像素属于类别i的概率,σ1,σ2表示1×1卷积;
步骤C42:用交叉熵作为损失函数计算损失值,通过梯度优化算法SGD进行学习率更新,利用反向传播迭代更新模型参数,以最小化损失函数来训练模型;
其中,最小化损失函数
Figure FDA0003494680100000062
的计算公式如下:
Figure FDA0003494680100000063
Figure FDA0003494680100000064
Figure FDA0003494680100000065
其中,N是每次迭代训练数据大小的数量,K表示像素空间位置,I表示类别数,Ynij
Figure FDA0003494680100000066
是模型的预测和真实标签结果,
Figure FDA0003494680100000067
表示辅助分支的预测结果,
Figure FDA0003494680100000068
为模型最终输出的损失值,
Figure FDA0003494680100000069
为在骨干网络第四层中添加的辅助损失,计算方法与步骤C41相同,λ为损失占比。
9.一种采用如权利要求1-8任一项所述方法的图像语义分割系统,其特征在于,包括:
数据收集模块,用于收集特定场景的图像样本,并标注每个像素所属的对象类别,构建带类别标签的训练集;
预处理模块,用于对训练集中的训练样本进行数据增强,包括随机水平翻转、缩放和亮度抖动;
网络训练模块,用于将图像特征输入到深度学习网络中,得到图像语义分割特征图并以此训练深度学习网络,利用图像语义分割特征图中每个像素属于某一类别的概率以及训练集中的标注作为损失,以最小化损失为目标来对整个深度学习网络进行训练,得到基于语义传播与前背景感知的深度学习网络模型;以及
图像语义分割分析模块,用于利用图像处理工具,读取输入的图像特征,之后利用训练好的基于语义传播与前背景感知的深度学习网络模型对输入的图像特征进行分析处理,输出图像语义分割图,显示每个像素的所属类别。
CN202210109479.7A 2022-01-28 2022-01-28 基于语义传播与前背景感知的图像语义分割方法及系统 Active CN114494699B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210109479.7A CN114494699B (zh) 2022-01-28 2022-01-28 基于语义传播与前背景感知的图像语义分割方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210109479.7A CN114494699B (zh) 2022-01-28 2022-01-28 基于语义传播与前背景感知的图像语义分割方法及系统

Publications (2)

Publication Number Publication Date
CN114494699A true CN114494699A (zh) 2022-05-13
CN114494699B CN114494699B (zh) 2024-07-26

Family

ID=81477636

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210109479.7A Active CN114494699B (zh) 2022-01-28 2022-01-28 基于语义传播与前背景感知的图像语义分割方法及系统

Country Status (1)

Country Link
CN (1) CN114494699B (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117351520A (zh) * 2023-10-31 2024-01-05 广州恒沙数字科技有限公司 基于生成网络的前背景图像混合生成方法及系统
CN117870713A (zh) * 2024-03-11 2024-04-12 武汉视普新科技有限公司 基于大数据车载影像的路径规划方法及系统

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110826596A (zh) * 2019-10-09 2020-02-21 天津大学 一种基于多尺度可变形卷积的语义分割方法
CN112052783A (zh) * 2020-09-02 2020-12-08 中南大学 一种结合像素语义关联和边界注意的高分影像弱监督建筑物提取方法
AU2020103901A4 (en) * 2020-12-04 2021-02-11 Chongqing Normal University Image Semantic Segmentation Method Based on Deep Full Convolutional Network and Conditional Random Field
CN113554032A (zh) * 2021-09-22 2021-10-26 南京信息工程大学 基于高度感知的多路并行网络的遥感图像分割方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110826596A (zh) * 2019-10-09 2020-02-21 天津大学 一种基于多尺度可变形卷积的语义分割方法
CN112052783A (zh) * 2020-09-02 2020-12-08 中南大学 一种结合像素语义关联和边界注意的高分影像弱监督建筑物提取方法
AU2020103901A4 (en) * 2020-12-04 2021-02-11 Chongqing Normal University Image Semantic Segmentation Method Based on Deep Full Convolutional Network and Conditional Random Field
CN113554032A (zh) * 2021-09-22 2021-10-26 南京信息工程大学 基于高度感知的多路并行网络的遥感图像分割方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
刘漳辉: ""Detection of Algorithmically Generated Domain Names Using the Recurrent Convolutional Neural Network with Spatial Pyramid Pooling"", 《ENTROPY》, 4 November 2020 (2020-11-04) *
刘漳辉: ""基于语义传播与前/背景感知的图像语义分割网络"", 《模式识别与人工智能》, 31 January 2022 (2022-01-31) *

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117351520A (zh) * 2023-10-31 2024-01-05 广州恒沙数字科技有限公司 基于生成网络的前背景图像混合生成方法及系统
CN117351520B (zh) * 2023-10-31 2024-06-11 广州恒沙数字科技有限公司 基于生成网络的前背景图像混合生成方法及系统
CN117870713A (zh) * 2024-03-11 2024-04-12 武汉视普新科技有限公司 基于大数据车载影像的路径规划方法及系统
CN117870713B (zh) * 2024-03-11 2024-05-31 武汉视普新科技有限公司 基于大数据车载影像的路径规划方法及系统

Also Published As

Publication number Publication date
CN114494699B (zh) 2024-07-26

Similar Documents

Publication Publication Date Title
CN112347859B (zh) 一种光学遥感图像显著性目标检测方法
CN112396607B (zh) 一种可变形卷积融合增强的街景图像语义分割方法
CN113780149B (zh) 一种基于注意力机制的遥感图像建筑物目标高效提取方法
CN112991350B (zh) 一种基于模态差异缩减的rgb-t图像语义分割方法
CN109711463A (zh) 基于注意力的重要对象检测方法
CN113344806A (zh) 一种基于全局特征融合注意力网络的图像去雾方法与系统
CN111401436B (zh) 一种融合网络和双通道注意力机制的街景图像分割方法
CN113298815A (zh) 一种半监督遥感图像语义分割方法、装置和计算机设备
CN114494699B (zh) 基于语义传播与前背景感知的图像语义分割方法及系统
CN113379771B (zh) 带有边缘约束的层次化人体解析语义分割方法
CN111310766A (zh) 基于编解码和二维注意力机制的车牌识别方法
WO2023030182A1 (zh) 图像生成方法及装置
CN116797787B (zh) 基于跨模态融合与图神经网络的遥感影像语义分割方法
CN112954399B (zh) 一种图像处理方法、装置以及计算机设备
CN116778165A (zh) 基于多尺度自适应语义分割的遥感影像灾害检测方法
CN114677536B (zh) 一种基于Transformer结构的预训练方法及装置
CN116596966A (zh) 一种基于注意力和特征融合的分割与跟踪方法
CN115527096A (zh) 一种基于改进YOLOv5的小目标检测方法
CN112801029B (zh) 基于注意力机制的多任务学习方法
CN112115786B (zh) 基于注意力U-net的单目视觉里程计方法
Vijayalakshmi K et al. Copy-paste forgery detection using deep learning with error level analysis
CN117876679A (zh) 一种基于卷积神经网络的遥感图像场景分割方法
Zheng et al. Dcu-net: Self-supervised monocular depth estimation based on densely connected u-shaped convolutional neural networks
CN117351360A (zh) 一种基于注意力机制改进的遥感图像道路提取方法
CN109583584B (zh) 可使具有全连接层的cnn接受不定形状输入的方法及系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant