CN113870286A - 一种基于多级特征和掩码融合的前景分割方法 - Google Patents

一种基于多级特征和掩码融合的前景分割方法 Download PDF

Info

Publication number
CN113870286A
CN113870286A CN202111162124.6A CN202111162124A CN113870286A CN 113870286 A CN113870286 A CN 113870286A CN 202111162124 A CN202111162124 A CN 202111162124A CN 113870286 A CN113870286 A CN 113870286A
Authority
CN
China
Prior art keywords
fusion
feature
level
features
mask
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202111162124.6A
Other languages
English (en)
Inventor
徐传运
刘欢
李刚
李腾辉
张杨
李天�
宋志瑶
张晴
徐昊
王影
郑宇�
高文建
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Chongqing University of Technology
Original Assignee
Chongqing University of Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Chongqing University of Technology filed Critical Chongqing University of Technology
Priority to CN202111162124.6A priority Critical patent/CN113870286A/zh
Publication of CN113870286A publication Critical patent/CN113870286A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/10Segmentation; Edge detection
    • G06T7/11Region-based segmentation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/048Activation functions
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/10Segmentation; Edge detection
    • G06T7/194Segmentation; Edge detection involving foreground-background segmentation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/10Image acquisition modality
    • G06T2207/10016Video; Image sequence
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20081Training; Learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20084Artificial neural networks [ANN]

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • General Engineering & Computer Science (AREA)
  • General Health & Medical Sciences (AREA)
  • Software Systems (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Biophysics (AREA)
  • Biomedical Technology (AREA)
  • Mathematical Physics (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Evolutionary Biology (AREA)
  • Image Analysis (AREA)

Abstract

本发明涉及计算图像处理技术领域,具体涉及一种基于多级特征和掩码融合的前景分割方法,其将待分类原始图进行编码和多尺度特征融合后,在解码阶段通过低级特征和高级特征融合、级联跨特征层特征拼接和融合,以及不同级别特征和相应尺度掩码融合的方式实现前景分割,得到待分类原始图的前景分割结果。本发明中基于多级特征和掩码融合的前景分割方法能够提高边界分割准确性和特征提取全面性,从而提高前景分割的分割效果。

Description

一种基于多级特征和掩码融合的前景分割方法
技术领域
本发明涉及计算图像处理技术领域,具体涉及一种基于多级特征和掩码融合的前景分割方法。
背景技术
前景分割(Foreground Segmentation)是计算机图像处理和视觉特效制作中的基本操作。前景分割是指从一幅图像中分割出任意形状的前景对象。前景分割的任务是指定图像中的哪些部分是前景(即用户想要提取的部分),哪些部分是背景。虽然人的视觉系统可以很容易地指定前景和背景,但计算机在没有人工帮助下是很难具备这种理解能力的。一旦图像的前景部分从背景中分离出来,就容易与其他背景图像合成而获得新的图像。
针对现有前景分割方法在处理大量待分割图像时,容易引起用户的操作疲劳、降低用户操作的积极性和交互的质量的问题,公开号为CN109712165A的中国专利公开了《一种基于卷积神经网络的同类前景图像集分割方法》,其包括:向计算机输入同类图像集;由计算机从同类图像集中读取一张,生成样本分割掩码;构建训练数据集;学习分割网络模型;基于分割网络模型分割同类图像集中的其余图像;如果所有图像均已获得满意的分割结果,则分割结束。
上述现有方案中的前景图像集分割方法通过深度学习(卷积神经网络)的方法实现前景分割,深度学习方法具有普适的分割性能,能够稳定地提取显著特征,与传统方法相比具有更好的效果。但是,申请人发现,现有深度学习方法在边缘细节分割上表现出了明显的局限性,多阶段的卷积池化会导致最终预测结果分辨率的下降,进而损失较多细节信息;深度网络提取的高级特征缺乏用于边缘精细分割的高频信息,其丢失的低级特征对于精确分割边界细节至关重要。同时,对于前景分割困难的场景,例如运动目标小或移动距离短的场景,现有深度学习方法的分割性能也并不理想,如果只使用高级特征,分割的边缘不精确;若只使用低级特征,容易导致分割目标遗漏,导致前景分割时的边界分割准确性和特征提取全面性均不好。因此,如何设计一种能够提高边界分割准确性和特征提取全面性的前景分割方法是亟需解决的技术问题。
发明内容
针对上述现有技术的不足,本发明所要解决的技术问题是:如何提供一种能够提高边界分割准确性和特征提取全面性的前景分割方法,从而提高前景分割的分割效果。
为了解决上述技术问题,本发明采用了如下的技术方案:
一种基于多级特征和掩码融合的前景分割方法,其将待分类原始图进行编码和多尺度特征融合后,在解码阶段通过低级特征和高级特征融合、级联跨特征层特征拼接和融合,以及不同级别特征和相应尺度掩码融合的方式实现前景分割,得到待分类原始图的前景分割结果。
优选的,所述前景分割方法具体包括如下步骤:
S1:对待分类原始图进行编码,得到对应的高级特征和低级特征;
S2:将所述高级特征进行多尺度特征融合,得到对应的多尺度特征图;
S3:将所述高级特征和所述多尺度特征图进行拼接,得到对应的第一预测掩码;然后将所述高级特征、所述多尺度特征图和所述第一预测掩码进行融合,得到对应的第一融合特征;
S4:将所述第一融合特征进行上采样,得到对应的第一融合特征图;然后将所述第一融合特征图与所述低级特征进行拼接,得到对应的第二预测掩码;最后将所述第一融合特征图、所述低级特征和所述第二预测掩码进行融合,得到对应的第二融合特征;
S5:将所述第二融合特征进行上采样,得到对应的第二融合特征图;然后基于所述第二融合特征图生成对应的最终预测掩码;最后基于所述最终预测掩码生成待分类原始图的前景分割结果。
优选的,步骤S1中,通过设置的编码器进行编码;所述编码器以ResNet-50网络为主干网络并去除掉ResNet-50网络最后的全连接层,包括依次级联的四层残差块;所述编码器第一层残差块的输出为低级特征,第四层残差块的输出为高级特征。
优选的,所述编码器第四层残差块的输出步幅OS为16,卷积步长为1,扩张率为2。
优选的,步骤S2中,通过设置的多尺度特征融合模块进行多尺度特征融合;所述多尺度特征融合模块包括输入端并联的五个分支层:一个1x1卷积层、三个3x3卷积层和一个全局平均池化层;
将所述高级特征输入所述多尺度特征融合模块的五个分支层后,将各个分支层的输出结果并联得到多尺度特征图。
优选的,所述多尺度特征融合模块三个3x3卷积层是扩张率为4、8、12的空洞卷积层;所述全局平均池化层用于合并待分类原始图的全局上下文信息。
优选的,步骤S3至S5中,通过设置的解码器生成最终预测掩码;所述解码器为级联结构,每个当前级的融合特征图都是对上一级融合得到的融合特征进行上采样所得;所述解码器生成的所述第一预测掩码、所述第二预测掩码和所述最终预测掩码的尺寸分别为(W/16,H/16)、(W/4,H/4)、(W,H),输出步幅OS分别为16、4、1。
优选的,所述解码器当前级融合得到的融合特征表示为:
F′=Conv{Concat(F,features,mask)};
上述式中:F′表示当前级的融合特征;F表示上一级的融合特征上采样生成的融合特征图;features表示编码器输出的高级特征或低级特征;mask表示当前级生成的预测掩码。
优选的,将所述高级特征、所述低级特征以及所述多尺度特征图输入至所述解码器之前,先通过设置的1x1卷积将所述高级特征、所述低级特征以及所述多尺度特征图的空间维度映射至与所述编码器的输出特征一致。
优选的,通过训练损失优化所述解码器;所述训练损失包括对应于输出步幅OS为16和4的交叉熵损失,以及对应于输出步幅OS为1的标准化后的L2损失;
通过如下公式计算所述训练损失:
Figure BDA0003290564600000031
上述式中:L表示训练损失;
Figure BDA0003290564600000032
表示对应于输出步幅OS为16的交叉熵损失;
Figure BDA0003290564600000033
表示对应于输出步幅OS为4的交叉熵损失;
Figure BDA0003290564600000034
表示对应于输出步幅OS为1且经过标准化处理的L2损失。
本发明中的前景分割方法与现有技术相比,具有如下有益效果:
本发明通过高级特征和低级特征融合的方式提取图像的细节特征,其中,高级特征确定前景的基本轮廓,低级特征优化分割的细节,在基于特征融合的掩码的指导下修复较大的错误区域,逐步完善和纠正局部边界,提高了前景边界分割的准确性,从而提高前景分割的分割效果。
本发明通过级联跨特征层特征拼接和融合的方式,逐步细化分割结果边界,渐进式提升了分割质量;通过不同级别特征和不同尺度掩码融合的方式,使得融合的特征不但包含了语义信息,也引入了一定的底层细节。
本发明通过解码器融合来自编码器主干网络不同层次的语义特征,这有利于收集全局和局部特征,使得融合后的特征与相应的预测掩码一起回归分割性能,并且级联的设计允许捕获更多边缘细节,从而能够提升特征提取的全面性。
本发明从孤立的帧中学习前景对象而无需考虑时间数据,进而使用少量帧就可学习到精细的前景分割,不仅能够提升前景分割的训练效率,还使得分割困难场景的效果突出。
附图说明
为了使发明的目的、技术方案和优点更加清楚,下面将结合附图对本发明作进一步的详细描述,其中:
图1是实施例中前景分割方法的基本流程图;
图2是实施例中前景分割方法的网络结构示意图;
图3是实施例中前景分割方法的逻辑框图;
图4是实施例中提出的前景分割模型与已有的方法的定性比较;
图5是实施例中提出的前景分割模型在CDnet2014数据集中获得的测试结果;
图6是实施例中提出的前景分割模型与已有的方法的性能比较。
具体实施方式
下面通过具体实施方式进一步详细的说明:
实施例:
本实施例中公开了一种基于多级特征和掩码融合的前景分割方法。
如图1所示,基于多级特征和掩码融合的前景分割方法,将待分类原始图进行编码和多尺度特征融合后,在解码阶段通过低级特征和高级特征融合、级联跨特征层特征拼接和融合,以及不同级别特征和相应尺度掩码融合的方式实现前景分割,得到待分类原始图的前景分割结果。
结合图2和图3所示,具体包括如下步骤:
S1:对待分类原始图进行编码,得到对应的高级特征和低级特征;
S2:将高级特征进行多尺度特征融合,得到对应的多尺度特征图;
S3:将高级特征和多尺度特征图进行拼接,得到对应的第一预测掩码;然后将高级特征、多尺度特征图和第一预测掩码进行融合,得到对应的第一融合特征;
S4:将第一融合特征进行上采样,得到对应的第一融合特征图;然后将第一融合特征图与低级特征进行拼接,得到对应的第二预测掩码;最后将第一融合特征图、低级特征和第二预测掩码进行融合,得到对应的第二融合特征;
S5:将第二融合特征进行上采样,得到对应的第二融合特征图;然后基于第二融合特征图生成对应的最终预测掩码;最后基于最终预测掩码生成待分类原始图的前景分割结果。
在本发明中,通过高级特征和低级特征融合的方式提取图像的细节特征,其中,高级特征确定前景的基本轮廓,低级特征优化分割的细节,在基于特征融合的掩码的指导下修复较大的错误区域,逐步完善和纠正局部边界,提高了前景边界分割的准确性,从而提高前景分割的分割效果。同时,本发明通过级联跨特征层特征拼接和融合的方式,逐步细化分割结果边界,渐进式提升了分割质量;通过不同级别特征和不同尺度掩码融合的方式,使得融合的特征不但包含了语义信息,也引入了一定的底层细节。此外,本发明通过解码器融合来自编码器主干网络不同层次的语义特征,这有利于收集全局和局部特征,使得融合后的特征与相应的预测掩码一起回归分割性能,并且级联的设计允许捕获更多边缘细节,从而能够提升特征提取的全面性。最后,本发明从孤立的帧中学习前景对象而无需考虑时间数据,进而使用少量帧就可学习到精细的前景分割,不仅能够提升前景分割的训练效率,还使得分割困难场景的效果突出。
具体实施过程中,通过设置的编码器进行编码;编码器以ResNet-50网络为主干网络并去除掉ResNet-50网络最后的全连接层,包括依次级联的四层残差块;编码器第一层残差块的输出为低级特征,第四层残差块的输出为高级特征。具体的,编码器第四层残差块的输出步幅OS为16,卷积步长为1,扩张率为2。
原始ResNet-50网络的输出步幅OS(OS是指输入图像空间分辨率与最终输出分辨率的比率)为32,较大的输出步幅OS会导致特征图分辨率的缺失,使得后续解码器难以通过上采样还原底层细节。所以,本发明中使用了更小的输出步幅OS,并设置了对应的卷积步长和扩张率,能够进一步提高前景边界分割的准确性。
具体实施过程中,通过设置的多尺度特征融合模块进行多尺度特征融合;多尺度特征融合模块包括输入端并联的五个分支层:一个1x1卷积层、三个3x3卷积层和一个全局平均池化层;将高级特征输入多尺度特征融合模块的五个分支层后,将各个分支层的输出结果并联得到多尺度特征图。具体的,多尺度特征融合模块三个3x3卷积层是扩张率为4、8、12的空洞卷积层;全局平均池化层用于合并待分类原始图的全局上下文信息。
在本发明中,通过全局平均池化层和空洞卷积层捕获多尺度信息,并将所有分支的输出结果进行并联,使得既能够获得较大感受野,又能够让分辨率不损失太多,进而降低了计算量,保证了分辨率。
具体实施过程中,通过设置的解码器生成最终预测掩码;解码器为级联结构,每个当前级的融合特征图都是对上一级融合得到的融合特征进行上采样所得;解码器生成的第一预测掩码、第二预测掩码和最终预测掩码的尺寸分别为(W/16,H/16)、(W/4,H/4)、(W,H),输出步幅OS分别为16、4、1。具体的,解码器当前级融合得到的融合特征表示为:
F′=Conv{Concat(F,features,mask)};
上述式中:F′表示当前级的融合特征;F表示上一级的融合特征上采样生成的融合特征图;features表示编码器输出的高级特征或低级特征;mask表示当前级生成的预测掩码。
在本发明中,设置了多尺度的预测掩码,并将其与不同级别的特征进行融合,(特别是低级特征和精细掩码的融合)使得融合的特征不但包含了语义信息,也引入了一定的底层细节,网络的优化不仅发生在顶层也发生在底层,进而能够获得更多图像的边界细节和上下文语义信息。
具体实施过程中,将高级特征、低级特征以及多尺度特征图输入至解码器之前,先通过设置的1x1卷积将高级特征、低级特征以及多尺度特征图的空间维度映射至与编码器的输出特征一致。使得高级特征与低级特征、高级特征与多尺度特征图之间的融合效果更好,从而能够提高前景分割的效果。
具体实施过程中,通过训练损失优化解码器;训练损失包括对应于输出步幅OS为16和4的交叉熵损失,以及对应于输出步幅OS为1的标准化后的L2损失;
通过如下公式计算训练损失:
Figure BDA0003290564600000061
上述式中:L表示训练损失;
Figure BDA0003290564600000062
表示对应于输出步幅OS为16的交叉熵损失;
Figure BDA0003290564600000063
表示对应于输出步幅OS为4的交叉熵损失;
Figure BDA0003290564600000064
表示对应于输出步幅OS为1且经过标准化处理的L2损失。
在本发明中,通过不同的训练损失对应不同输出步幅OS的方式,使得粗略的细化侧重于全局信息上而忽略局部细节,最精细的细化旨在通过依赖局部线索来实现像素级精度,从而能够兼顾前景边界分割的准确性和特征提取的全面性。
本实施例以一张(W,H,3)的原始图像作为待分类原始图进行说明:
将原始图像进行编码器和多尺度特征融合模块后,输出的多尺度特征图F16为(W/16,H/16,256)。将编码器第一层残差块的输出进行1x1卷积得到(W/4,H/4,256)的低级特征f4,第四层残差块的输出进行1x1卷积得到(W/16,H/16,256)的高级特征f16。
首先,对F16和f16进行拼接再进行1x1卷积得到(W/16,H/16,1)第一预测掩码mask16,由于F16和f16的感受野均较大,使得mask16更多的是对图像全局的判断,没有对局部的探究,是一个粗略的预测。尽管mask16的预测不够精细,但可以为下一步的预测提供指导。
将F16、f16和mask16融合得到第一融合特征F16′,对F16′进行上采样得到维度为(W/4,H/4,256)的第一融合特征图F4。
将F4与f4进行拼接再进行1x1卷积得到(W/4,H/4,1)第二预测掩码mask4;将F4、f4和mask4进行融合得到第二融合特征F4′。mask4的分割对比mask16更为精细,这证明了逐步融合的有效性。
对F4′进行上采样得到维度为(W,H,256)的第二融合特征图F1,基于F1生成对应的最终预测掩码mask1(没有使用Sigmoid激活)。
为了更好的说明本发明中前景分割方法的优势,本实施例中公开了如下实验。
一、数据集
选用带有标注的图像前景物体分割的公开数据集CDnet2014,其广泛应用于前景/背景分割研究。总共有150000帧11个类别53个场景的像素级标注数据,11个类别包括badWeather、baseline、cameraJitter、dynamicBackground、shadow、nightVideos、lowFramerate、thermal、PTZ、intermittentObjectMotion和turbulence。其中,每个类别包含4到6个视频序列,每个视频序列包含600到7999帧,空间分辨率从320×240到720×576不等。此外,该数据集涵盖各种具有挑战性的场景,如光照变化、硬阴影、高动态背景运动和摄像机运动等。
二、模型训练
本实验使用PyTorch框架构建了一个包含上述编码器、多尺度特征融合模块和解码器的前景分割模型(CFMFN),该模型保持原始ResNet-50网络的预训练权重。针对构建的前景分割模型在监督训练的过程中,首先进行参数初始化,初始化过程中,特征提取骨干网络利用在ImageNet大规模分类数据集上预训练的ResNet-50进行初始化,在每个场景中进行两组实验,分别选择50帧和200帧作为训练集,其余的作为测试集。训练集洗牌后,执行20%的验证分割,因此80%的训练示例用于训练模型。将学习率设置为0.001,训练轮次设置为100,动量设置为0.9,批量大小设置为32。设计早停机制,用于最多60个时期的训练,当验证集性能综合指标即FM在20个轮次内不再提升时,训练将提前结束。由于场景中背景/前景像素之间的高度不平衡,在训练过程中采用平衡权重来缓解不平衡的数据分类问题。此外,由于Sigmoid激活的输出在范围[0,1]内,将其用作概率值;应用阈值为0.5处理以获得作为前景和背景的离散二进制类标签。
本实验对前景分割模型进行了总共24500次迭代的训练,在单块RTX2080GPU上的总训练时间约为7小时。
三、评价指标
本实验使用CDnet2014数据集提供的七个官方指标(即召回率(Re)、精确度(Pr)、特异性(Sp)、假阴性率(FRN)、假阳性率(FNR)、错误分类百分比(PWC)、F-Measure(FM))来评估CFMFN的性能。其中,FM是CDnet2014方法性能排名的综合绩效指标,所以本实验将其作为CFMFN性能评估的主要指标。
四、基线
结合图4所示,本实验的前景分割模型将与CDnet2014官方网站上报告的最佳算法进行比较来评价其分割性能,这些模型被分为2类:1)传统方法,选择3种典型的传统方法IUTIS-5、WeSamBE、GMM-Stauffer进行比较;2)深度学习方法,选择5种先进的深度学习算法FgSegNet_v2、FgSegNet、BSPVGan、Cascade CNN、DeepBS进行比较。
五、实验结果
由于不同算法训练帧数不一致以及传统算法无需训练集,为了在帧数方面进行比较,本实验使用CDnet2014数据集提供的所有Groundtruth(前景分割的真实结果)来测试本发明的前景分割模型。从所得数据来看,基于深度学习方法的FM值远高于传统模型,尤其在PTZ(摄像头运动)、nightVideos(夜晚光线低暗)等具有挑战性的类别中。
本实验仅使用测试帧计算,即训练帧不包含在性能评估中。结果数值如图5所示,每行显示每个类别的平均结果,最后一行显示了11个类别的平均结果。在上述设置下,本发明的前景分割模型在50帧实验中生成的FM为0.9510,在200帧实验中生成的FM为0.9750。
本发明的前景分割模型在使用200帧的训练中提供了高精度的前景分割,与其他类别相比,baseline产生的平均FM最高为0.9955,lowFramrate的平均FM最低,该值达到了0.8933。仅比较测试帧结果,CDnet2014官方网站上报告的最佳模型FgSegNet_v2、FgSegNet在lowFramrate数据集上FM值分别为0.8897和0.8816。
可见,本发明中前景分割模型的性能有明显提升。
当训练样本的数量从200帧减少到50帧时,FM不可避免地会降低。特别是nightVideos类别,FM比训练集为200帧的模型降低了0.0546。然而仍然产生了可接受的结果,11个类别的平均总FM为0.9510,表明本发明的前景分割模型在具有挑战性的场景中能够稳定工作。
由图6可知,本发明的前景分割模型的FM在lowFramerate、turbulence类别上比FgSegNet_v2分别高0.71%、0.13%,而在其他数据集上比FgSegNet_v2稍差,总体性能存在0.22%的略微差距。本发明的前景分割模型在badWeather、dynamicBackground、lowFramerate、PTZ、turbulence类别上的整体性能比FgSegNet高0.03%。也就是说,本发明的前景分割模型在较多类别场景上与其他先进算法相比分割性能有所改进,尤其显著改进了困难类别(即lowFramerate,其类别场景运动目标为小目标、且移动距离短)的分割性能。
与FgSegNet、BSPVGan、Cascade CNN、IUTIS-5、WeSamBE、DeepBS、GMM-Stauffer相比,本发明的前景分割模型整体FM分别提升0.03%、3.67%、5.69%、24.78%、22.75%、20.48%、37.28%。也就是说,在总体性能(尤其是鲁棒性和有效性)方面,本发明的前景分割模型不但优于传统的无监督方法,也优于其他有监督的深度学习方法。
需要说明的是,以上实施例仅用以说明本发明的技术方案而非限制,尽管通过参照本发明的优选实施例已经对本发明进行了描述,但本领域的普通技术人员应当理解,可以在形式上和细节上对其作出各种各样的改变,而不偏离所附权利要求书所限定的本发明的精神和范围。同时,实施例中公知的具体结构及特性等常识在此未作过多描述。最后,本发明要求的保护范围应当以其权利要求的内容为准,说明书中的具体实施方式等记载可以用于解释权利要求的内容。

Claims (10)

1.一种基于多级特征和掩码融合的前景分割方法,其特征在于:将待分类原始图进行编码和多尺度特征融合后,在解码阶段通过低级特征和高级特征融合、级联跨特征层特征拼接和融合,以及不同级别特征和相应尺度掩码融合的方式实现前景分割,得到待分类原始图的前景分割结果。
2.如权利要求1所述的基于多级特征和掩码融合的前景分割方法,其特征在于,具体包括如下步骤:
S1:对待分类原始图进行编码,得到对应的高级特征和低级特征;
S2:将所述高级特征进行多尺度特征融合,得到对应的多尺度特征图;
S3:将所述高级特征和所述多尺度特征图进行拼接,得到对应的第一预测掩码;然后将所述高级特征、所述多尺度特征图和所述第一预测掩码进行融合,得到对应的第一融合特征;
S4:将所述第一融合特征进行上采样,得到对应的第一融合特征图;然后将所述第一融合特征图与所述低级特征进行拼接,得到对应的第二预测掩码;最后将所述第一融合特征图、所述低级特征和所述第二预测掩码进行融合,得到对应的第二融合特征;
S5:将所述第二融合特征进行上采样,得到对应的第二融合特征图;然后基于所述第二融合特征图生成对应的最终预测掩码;最后基于所述最终预测掩码生成待分类原始图的前景分割结果。
3.如权利要求2所述的基于多级特征和掩码融合的前景分割方法,其特征在于:步骤S1中,通过设置的编码器进行编码;所述编码器以ResNet-50网络为主干网络并去除掉ResNet-50网络最后的全连接层,包括依次级联的四层残差块;所述编码器第一层残差块的输出为低级特征,第四层残差块的输出为高级特征。
4.如权利要求3所述的基于多级特征和掩码融合的前景分割方法,其特征在于:所述编码器第四层残差块的输出步幅OS为16,卷积步长为1,扩张率为2。
5.如权利要求2所述的基于多级特征和掩码融合的前景分割方法,其特征在于:步骤S2中,通过设置的多尺度特征融合模块进行多尺度特征融合;所述多尺度特征融合模块包括输入端并联的五个分支层:一个1x1卷积层、三个3x3卷积层和一个全局平均池化层;
将所述高级特征输入所述多尺度特征融合模块的五个分支层后,将各个分支层的输出结果并联得到多尺度特征图。
6.如权利要求5所述的基于多级特征和掩码融合的前景分割方法,其特征在于:所述多尺度特征融合模块三个3x3卷积层是扩张率为4、8、12的空洞卷积层;所述全局平均池化层用于合并待分类原始图的全局上下文信息。
7.如权利要求2所述的基于多级特征和掩码融合的前景分割方法,其特征在于:步骤S3至S5中,通过设置的解码器生成最终预测掩码;所述解码器为级联结构,每个当前级的融合特征图都是对上一级融合得到的融合特征进行上采样所得;所述解码器生成的所述第一预测掩码、所述第二预测掩码和所述最终预测掩码的尺寸分别为(W/16,H/16)、(W/4,H/4)、(W,H),输出步幅OS分别为16、4、1。
8.如权利要求7所述的基于多级特征和掩码融合的前景分割方法,其特征在于,所述解码器当前级融合得到的融合特征表示为:
F′=Conv{Concat(F,features,mask)};
上述式中:F′表示当前级的融合特征;F表示上一级的融合特征上采样生成的融合特征图;features表示编码器输出的高级特征或低级特征;mask表示当前级生成的预测掩码。
9.如权利要求7所述的基于多级特征和掩码融合的前景分割方法,其特征在于:将所述高级特征、所述低级特征以及所述多尺度特征图输入至所述解码器之前,先通过设置的1x1卷积将所述高级特征、所述低级特征以及所述多尺度特征图的空间维度映射至与所述编码器的输出特征一致。
10.如权利要求7所述的基于多级特征和掩码融合的前景分割方法,其特征在于:通过训练损失优化所述解码器;所述训练损失包括对应于输出步幅OS为16和4的交叉熵损失,以及对应于输出步幅OS为1的标准化后的L2损失;
通过如下公式计算所述训练损失:
Figure FDA0003290564590000021
上述式中:L表示训练损失;
Figure FDA0003290564590000022
表示对应于输出步幅OS为16的交叉熵损失;
Figure FDA0003290564590000023
表示对应于输出步幅OS为4的交叉熵损失;
Figure FDA0003290564590000024
表示对应于输出步幅OS为1且经过标准化处理的L2损失。
CN202111162124.6A 2021-09-30 2021-09-30 一种基于多级特征和掩码融合的前景分割方法 Pending CN113870286A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111162124.6A CN113870286A (zh) 2021-09-30 2021-09-30 一种基于多级特征和掩码融合的前景分割方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111162124.6A CN113870286A (zh) 2021-09-30 2021-09-30 一种基于多级特征和掩码融合的前景分割方法

Publications (1)

Publication Number Publication Date
CN113870286A true CN113870286A (zh) 2021-12-31

Family

ID=79001419

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111162124.6A Pending CN113870286A (zh) 2021-09-30 2021-09-30 一种基于多级特征和掩码融合的前景分割方法

Country Status (1)

Country Link
CN (1) CN113870286A (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114387523A (zh) * 2022-03-23 2022-04-22 成都理工大学 基于dcnn边界引导的遥感图像建筑物提取方法
CN117152441A (zh) * 2023-10-19 2023-12-01 中国科学院空间应用工程与技术中心 一种基于跨尺度解码的生物图像实例分割方法
CN118015287A (zh) * 2024-04-09 2024-05-10 哈尔滨工业大学(深圳)(哈尔滨工业大学深圳科技创新研究院) 一种基于域纠正适应器的跨域小样本分割方法

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114387523A (zh) * 2022-03-23 2022-04-22 成都理工大学 基于dcnn边界引导的遥感图像建筑物提取方法
CN117152441A (zh) * 2023-10-19 2023-12-01 中国科学院空间应用工程与技术中心 一种基于跨尺度解码的生物图像实例分割方法
CN117152441B (zh) * 2023-10-19 2024-05-07 中国科学院空间应用工程与技术中心 一种基于跨尺度解码的生物图像实例分割方法
CN118015287A (zh) * 2024-04-09 2024-05-10 哈尔滨工业大学(深圳)(哈尔滨工业大学深圳科技创新研究院) 一种基于域纠正适应器的跨域小样本分割方法

Similar Documents

Publication Publication Date Title
CN111325751B (zh) 基于注意力卷积神经网络的ct图像分割系统
CN109840556B (zh) 一种基于孪生网络的图像分类识别方法
CN114120102A (zh) 边界优化的遥感图像语义分割方法、装置、设备及介质
CN113870286A (zh) 一种基于多级特征和掩码融合的前景分割方法
CN113642390B (zh) 一种基于局部注意力网络的街景图像语义分割方法
CN112651940B (zh) 基于双编码器生成式对抗网络的协同视觉显著性检测方法
CN112257766A (zh) 一种基于频域滤波处理的自然场景下阴影识别检测方法
CN112784756B (zh) 人体识别跟踪方法
CN111914950B (zh) 基于深度对偶变分哈希的无监督跨模态检索模型训练方法
CN112215100B (zh) 一种不平衡训练样本下针对退化图像的目标检测方法
CN111612789A (zh) 一种基于改进的U-net网络的缺陷检测方法
CN115619743A (zh) Oled新型显示器件表面缺陷检测模型的构建方法及其应用
CN114332133A (zh) 基于改进CE-Net的新冠肺炎CT图像感染区分割方法及系统
CN111833282B (zh) 一种基于改进的DDcGAN模型的图像融合方法
CN114359297A (zh) 基于注意力金字塔的多分辨率语义分割方法及装置
TWI803243B (zh) 圖像擴增方法、電腦設備及儲存介質
CN113297804A (zh) 基于U-Transformer多层次特征重构的异常检测方法及系统
Zhao et al. Detecting deepfake video by learning two-level features with two-stream convolutional neural network
CN111723852A (zh) 针对目标检测网络的鲁棒训练方法
CN114155165A (zh) 一种基于半监督的图像去雾方法
Ding et al. Rethinking click embedding for deep interactive image segmentation
CN111612803B (zh) 一种基于图像清晰度的车辆图像语义分割方法
CN111209886B (zh) 一种基于深度神经网络的快速行人再识别方法
CN112861911A (zh) 一种基于深度特征选择融合的rgb-d语义分割方法
CN116612283A (zh) 一种基于大卷积核骨干网络的图像语义分割方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
CB03 Change of inventor or designer information

Inventor after: Li Gang

Inventor after: Wang Ying

Inventor after: Zheng Yu

Inventor after: Gao Wenjian

Inventor after: Liu Huan

Inventor after: Xu Chuanyun

Inventor after: Li Tenghui

Inventor after: Zhang Yang

Inventor after: Li Tian

Inventor after: Song Zhiyao

Inventor after: Zhang Qing

Inventor after: Xu Hao

Inventor before: Xu Chuanyun

Inventor before: Wang Ying

Inventor before: Zheng Yu

Inventor before: Gao Wenjian

Inventor before: Liu Huan

Inventor before: Li Gang

Inventor before: Li Tenghui

Inventor before: Zhang Yang

Inventor before: Li Tian

Inventor before: Song Zhiyao

Inventor before: Zhang Qing

Inventor before: Xu Hao

CB03 Change of inventor or designer information