CN112990222B - 一种基于图像边界知识迁移的引导语义分割方法 - Google Patents

一种基于图像边界知识迁移的引导语义分割方法 Download PDF

Info

Publication number
CN112990222B
CN112990222B CN202110550131.7A CN202110550131A CN112990222B CN 112990222 B CN112990222 B CN 112990222B CN 202110550131 A CN202110550131 A CN 202110550131A CN 112990222 B CN112990222 B CN 112990222B
Authority
CN
China
Prior art keywords
segmentation
boundary
target
image
distribution
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202110550131.7A
Other languages
English (en)
Other versions
CN112990222A (zh
Inventor
程乐超
冯尊磊
刘亚洁
宋明黎
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Zhejiang Lab
Original Assignee
Zhejiang Lab
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Zhejiang Lab filed Critical Zhejiang Lab
Priority to CN202110550131.7A priority Critical patent/CN112990222B/zh
Publication of CN112990222A publication Critical patent/CN112990222A/zh
Application granted granted Critical
Publication of CN112990222B publication Critical patent/CN112990222B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/26Segmentation of patterns in the image field; Cutting or merging of image elements to establish the pattern region, e.g. clustering-based techniques; Detection of occlusion
    • G06V10/267Segmentation of patterns in the image field; Cutting or merging of image elements to establish the pattern region, e.g. clustering-based techniques; Detection of occlusion by performing operations on regions, e.g. growing, shrinking or watersheds
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/46Descriptors for shape, contour or point-related descriptors, e.g. scale invariant feature transform [SIFT] or bags of words [BoW]; Salient regional features
    • G06V10/462Salient features, e.g. scale invariant feature transforms [SIFT]

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • General Engineering & Computer Science (AREA)
  • Evolutionary Computation (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Computational Linguistics (AREA)
  • Multimedia (AREA)
  • Software Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Mathematical Physics (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开了一种基于图像边界知识迁移的引导语义分割方法包括如下步骤:S1,引导分割模块构建,S2构建约束条件,具体分为三个部分,分别是有限样本的监督、表示一致性约束、以及边界一致性约束;S3,边界知识迁移模块构建,其中主要包括伪三元组判别数据生成、边界对抗学习;通过上述步骤建立的基于图像边界知识迁移的引导语意分割方法,能够仅通过数十张有标签样本以及大量任务无关图像数据,利用图像边界知识,通过指定语义相关图像,利用语义空间特征约束,实现特定种类样本目标的语义分割。

Description

一种基于图像边界知识迁移的引导语义分割方法
技术领域
本发明涉及小样本语义分割领域,尤其是涉及一种基于图像边界知识迁移的引导语义分割方法。
背景技术
深度神经网络在很多计算机视觉应用上都取得了显著的作用,例如在自动驾驶以及医学影像中起着重要作用的图像语义分割任务。一般而言,训练一个深度神经网络需要大量有标签样本数据,然而数据的获取与标注过程经常是耗时耗力的。针对这个难题,现有的工作主要聚焦在小样本学习和迁移学习这两种任务上。小样本学习旨在通过很少的标注样本来学习训练一个可靠的模型,而迁移学习则是通过一种任务上学习到的模型迁移到新的场景上。尽管小样本学习和迁移学习已经取得了一些进展,但是这些方法,不是获得精度较差难以达到应用的水平,就是适配的场景必须足够的相似,这限制了有限样本的进一步应用。对于很多小样本和迁移学习方法来说,随着类别种类的增加准确率会持续下降。一个重要的因素是,现有方法主要识别逐类别特征以及分割相应区域。现有的模型层面的知识迁移的不足之处在于,源数据集的种类会影响特定的分割能力,这会限制在目标数据集中的准确度上限,最明显的就是当类别种类增加时分割性能会急剧下降。
发明内容
为解决现有技术中需要大量复杂的标注样本,同时难以指定特定语义进行分割的问题,实现特定种类样本目标的语义分割的目的,本发明采用如下的技术方案:
一种基于图像边界知识迁移的引导语义分割方法,包括如下步骤:
S1,构建引导分割模块,引导分割模块包括:引导特征提取层和目标分割网络,其 中,目标分割网络包括编码层与解码层
Figure 313809DEST_PATH_IMAGE001
,引导特征提取层和目标分割网络的编码层,共 享相同结构
Figure 762107DEST_PATH_IMAGE002
S2,构建约束条件,包括如下步骤:
S21,有限样本监督,在训练阶段,有限标注的样本输入至目标分割网络,并直接产 生监督信息,得到有限样本监督的损失函数
Figure 73003DEST_PATH_IMAGE003
S22,表达一致性约束,当引导图
Figure 248638DEST_PATH_IMAGE004
与目标图像
Figure 594169DEST_PATH_IMAGE005
属于同一个种类时,往往在特征 层面的分布比较接近,采用最大化均值差异MMD来约束特征表达的一致性,得到表达一致性 约束的损失函数
Figure 26419DEST_PATH_IMAGE006
S23,边界一致性约束,通过针对图像分割边界的约束来增强自监督的结果,得到 边界一致性损失函数
Figure 824610DEST_PATH_IMAGE007
S3,构建边界知识迁移模块,包括如下步骤:
S31,伪三元组判别数据生成;
S32,边界对抗学习,伪三元组判别数据生成之后,通过计算判别损失,将源数据集的边界知识迁移到分割网络中。
进一步地,所述步骤S1中,对于给定的目标图像
Figure 554669DEST_PATH_IMAGE008
、引导图和掩模对
Figure 3974DEST_PATH_IMAGE009
Figure 528496DEST_PATH_IMAGE010
表示仅带有目标种类标签的目标数据集,
Figure 813984DEST_PATH_IMAGE011
表示带有精细化分割标注的 目标数据集,
Figure 82154DEST_PATH_IMAGE004
表示引导图,
Figure 887430DEST_PATH_IMAGE012
表示掩模,抽取到的特征表达分别为
Figure 848433DEST_PATH_IMAGE013
Figure 886796DEST_PATH_IMAGE014
,*表示逐像素乘积(或采用哈达玛积,Hadamard product),随后将特征表 达
Figure 693078DEST_PATH_IMAGE015
Figure 116975DEST_PATH_IMAGE016
拼接起来,作为目标分割网络解码层
Figure 983300DEST_PATH_IMAGE001
的输入[
Figure 243380DEST_PATH_IMAGE017
],通过目标分割网络得到目 标掩模
Figure 853353DEST_PATH_IMAGE018
,为方便起见,将后续引导图像分割结果简化为
Figure 633221DEST_PATH_IMAGE019
, 此时,
Figure 936026DEST_PATH_IMAGE020
为需要学习的引导特征提取层和目标分割网络。
进一步地,所述步骤S21中,给定输入
Figure 417823DEST_PATH_IMAGE021
以及引导图和掩模对
Figure 831487DEST_PATH_IMAGE022
,通过目标分割网络,得到分割结果
Figure 970257DEST_PATH_IMAGE023
,定义有限样本监督的 损失函数为
Figure 443963DEST_PATH_IMAGE024
Figure 413056DEST_PATH_IMAGE025
是拉普拉斯平滑参数,默认参数
Figure 364832DEST_PATH_IMAGE026
,用于防止分母为 0时产生误差。
进一步地,所述步骤S22中,定义
Figure 119292DEST_PATH_IMAGE027
为引导图的特征编码器,此时定义表达一致性约 束为
Figure 763900DEST_PATH_IMAGE028
,具体作用是利用约束引导图的图像语义级别特 征与待分割的目标图像之间的一致性,达到语义级别分割的目的。
进一步地,所述步骤S23中,给定随机仿射变换矩阵
Figure 220289DEST_PATH_IMAGE029
,以及目标图像
Figure 975756DEST_PATH_IMAGE030
变换后的分 割结果
Figure 817679DEST_PATH_IMAGE031
和变换后的分割结果
Figure 633188DEST_PATH_IMAGE032
,此时满足
Figure 842452DEST_PATH_IMAGE033
,之后计算边界边缘权重
Figure 152342DEST_PATH_IMAGE034
Figure 865083DEST_PATH_IMAGE035
Figure 585914DEST_PATH_IMAGE036
Figure 16896DEST_PATH_IMAGE037
分别表示膨胀和腐蚀操作,此时定义边界一致性损失函数
Figure 363432DEST_PATH_IMAGE038
,边界一致性具体作用是,使图像 进行仿射变换后的分割边缘与分割后的仿射变换应该是一致的,同时在图像轮廓这种具备 视觉显著性的特征上更加明显,这形成了本发明的边界一致性约束。
进一步地,所述步骤S31包括如下步骤:
S311,定义外边界判别损失,得到外边界预测三元组的判别器结果
Figure 196259DEST_PATH_IMAGE039
S312,定义内边缘判别损失,得到内边界预测三元组的判别器结果
Figure 87992DEST_PATH_IMAGE040
进一步地,所述步骤S311,随机从目标数据采样样本
Figure 6269DEST_PATH_IMAGE041
和引导图和掩模对
Figure 923541DEST_PATH_IMAGE009
中采样,分割网络预测出目标掩模
Figure 345295DEST_PATH_IMAGE042
计算分割目标
Figure 939087DEST_PATH_IMAGE043
,并拼接成判别数据的预测三元组
Figure 328349DEST_PATH_IMAGE044
,从 无关数据集选取样本
Figure 298579DEST_PATH_IMAGE045
,O表示开源语义分割标注数据集,则对应的真值三元组为
Figure 105998DEST_PATH_IMAGE046
,针对样本
Figure 339533DEST_PATH_IMAGE047
的真值掩模
Figure 717556DEST_PATH_IMAGE048
,通过膨胀操作计算
Figure 960319DEST_PATH_IMAGE036
,得到一组伪三元组
Figure 91086DEST_PATH_IMAGE049
Figure 761102DEST_PATH_IMAGE050
定义外边界判别损失:
Figure 100002_DEST_PATH_IMAGE051
其中,E表示数学期望,
Figure 673692DEST_PATH_IMAGE052
表示以
Figure 454566DEST_PATH_IMAGE053
为参数的判别器结果,
Figure 705419DEST_PATH_IMAGE054
表示对应到外边界判别 约束,
Figure 546336DEST_PATH_IMAGE055
表示超参数,
Figure 898951DEST_PATH_IMAGE056
Figure 217937DEST_PATH_IMAGE057
Figure 588876DEST_PATH_IMAGE058
分别表示外边界分割预测三元组分布、膨胀后伪三元组分 布以及真实三元组分布,
Figure 600694DEST_PATH_IMAGE059
表示在预测分布
Figure 158714DEST_PATH_IMAGE056
和真实分布
Figure 796238DEST_PATH_IMAGE058
之间的插值样本的分布,插值 样本
Figure 21683DEST_PATH_IMAGE060
Figure 938823DEST_PATH_IMAGE061
表示0和1之间的随机数。
进一步地,所述步骤S312,另一方面,考虑样本背景掩模
Figure 515298DEST_PATH_IMAGE062
Figure 192398DEST_PATH_IMAGE063
Figure 272350DEST_PATH_IMAGE064
表示相同尺寸全为1的矩阵;
此时对应的预测三元组为
Figure 891550DEST_PATH_IMAGE065
,真值三元组为
Figure 424162DEST_PATH_IMAGE066
,伪三元 组为
Figure 154221DEST_PATH_IMAGE067
此时定义内边缘判别损失:
Figure 337947DEST_PATH_IMAGE068
其中,
Figure 100002_DEST_PATH_IMAGE069
表示以
Figure 659207DEST_PATH_IMAGE053
参数的判别器结果,i表示对应到内边界判别约束,
Figure 944694DEST_PATH_IMAGE070
Figure 963597DEST_PATH_IMAGE071
Figure 283720DEST_PATH_IMAGE072
分 别表示内边缘分割预测三元组分布、腐蚀后伪三元组分布以及真实三元组分布,
Figure 979144DEST_PATH_IMAGE073
表示在 预测分布
Figure 486348DEST_PATH_IMAGE070
和真实分布
Figure 807477DEST_PATH_IMAGE072
之间的插值样本的分布,插值样本
Figure 716527DEST_PATH_IMAGE074
Figure 582852DEST_PATH_IMAGE075
为0和1 之间的随机数。
进一步地,所述步骤S32,有限样本监督的损失函数
Figure 842932DEST_PATH_IMAGE003
主要根据一组有标签样本 来进行监督训练,此时,一组有标签样本,仅需十张或几十张即可;表达一致性损失
Figure 203637DEST_PATH_IMAGE006
, 用于约束引导图像目标的高级语义和目标图像目标的高级语义特征的表达一致性;边界一 致性损失
Figure 232773DEST_PATH_IMAGE007
,用于约束图像语义分割目标在目标边缘轮廓上,具有高的权重,以及仿射变 换后的分割边界一致约束;在训练阶段,整个引导分割损失定义为
Figure 269999DEST_PATH_IMAGE076
,其中
Figure 751796DEST_PATH_IMAGE077
Figure 165460DEST_PATH_IMAGE078
Figure 304229DEST_PATH_IMAGE079
为超参数,在训练过程中, 数据被切分为训练集、验证集和测试集,根据神经网络在训练集上训练后,在验证集上最好 的结果时,所取的超参数,从而获得更好的泛化性以及准确性;在测试阶段,通过输入的目 标图像
Figure 777936DEST_PATH_IMAGE005
与引导图
Figure 481450DEST_PATH_IMAGE004
来指定相应语义的分割,得到结果。
本发明的优势和有益效果在于:
仅仅通过数十张有标签样本以及大量任务无关数据训练,利用图像边界知识完成小样本情况下语义分割,实现指定语义相关图像,利用语义空间特征约束,实现特定种类样本目标的语义分割。利用大量开源的非目标类别的标注样本,可以实现在极少量目标类别标注样本条件下,通过指定语义相关图像,利用语义空间特征约束,实现特定种类样本目标的语义分割。
附图说明
图1是本发明的方法流程图。
图2是本发明的结构示意图。
图3是本发明中SOTA方法在Citycapes数据集上的的视觉结果。
图4是本发明中SOTA方法在SBD数据集上的的视觉结果。
图5是本发明中SOTA方法在THUR数据集上的的视觉结果。
图6是本发明中SOTA方法在人、鸟、花上的的视觉结果。
具体实施方式
以下结合附图对本发明的具体实施方式进行详细说明。应当理解的是,此处所描述的具体实施方式仅用于说明和解释本发明,并不用于限制本发明。
本发明要解决当前基于深度学习的语义分割方法需要大量标注的问题。人类在进行视觉感知时,并不需要知道图像的类别仅通过物体的边缘便能很好的分割语义目标,然而现有的语义分割方法均基于图像的类别标注监督分割网络实现对应类别目标的分割。为解决深度网络需要大量标注以及指定语义目标分割的难题,本发明设计了一种图像边界知识迁移的引导语义分割方法,仅通过数十张有标签样本以及大量任务无关数据训练,利用图像边界知识完成小样本情况下语义分割,通过指定语义相关图像(即给定一张语义引导图),利用语义空间特征约束(即在特征层面的约束),实现特定种类样本目标的语义分割。
相较于现有技术,本发明只有目标样本会被输入到分割网络中,而开源数据中的边界知识则会以对抗形式被迁移到分割网络中。这意味着只有目标数据集中的数据流会被传输到分割网络中;与现有的模型层面的知识迁移存在着根本性的不同,不存在目标数据集中的准确度的限制;与此同时,当给定一张特定种类语义的图像时,人眼可以轻易地了解分割的目标。
如图1、图2所示,本发明基于图像边界知识迁移的引导语义分割方法,包括如下步骤:
1)开源语义分割标注数据集收集整理;
为了辅助进行目标类别的语义分割,本发明首先需要收集整理大量已有的开源语义分割数据集。针对开源数据集,首先需要考虑语义分割数据集的类别应尽可能的多样性(验证阶段需要剔除和目标待分割数据集种类一致的数据),同时对于样本总量应尽可能的多(例如至少应收集整理超过两万张语义分割图像数据)。
2)确定小样本目标数据集以及相关数据增强;
在开源语义分割标注数据集收集整理的基础上,针对目标待分割语义图像数据集,确定每个类别有标签样本数二十张,对于每个类别的目标数据,在训练过程中,实施三种数据增强策略。首先是基本的缩放、旋转、剪切、镜像等图像操作,其次,将有标签目标图像通过掩模抠出目标后贴入目标数据集中无标签图像上形成新的数据。最后,利用现有的工具进行语义级别数据增强,例如图像上目标颜色变换,目标层面仿射变换形成新的训练数据。
3)结合边界知识迁移的语义引导分割框架构建;
引导分割模块主要由两个神经网络分支组成,分别是引导特征提取层
Figure 433225DEST_PATH_IMAGE002
,以及目 标分割网络
Figure 187686DEST_PATH_IMAGE080
,其中特征提取层和目标分割网络的编码层共享相同结构。对于给定的 目标图像
Figure 301135DEST_PATH_IMAGE008
以及引导图和掩模
Figure 757525DEST_PATH_IMAGE009
,此时抽取到的特征表达分别为
Figure 512991DEST_PATH_IMAGE013
Figure 371226DEST_PATH_IMAGE014
。这里的*表示逐像素乘积。随后将表达
Figure 436002DEST_PATH_IMAGE015
Figure 379688DEST_PATH_IMAGE081
拼接起来作为目标分割网 络解码层
Figure 407686DEST_PATH_IMAGE001
的输入[
Figure 120428DEST_PATH_IMAGE017
]。通过目标分割网络得到目标掩模
Figure 857571DEST_PATH_IMAGE018
,为方便起 见,后续引导图像分割结果简化为
Figure 22973DEST_PATH_IMAGE019
,此时的
Figure 120242DEST_PATH_IMAGE020
为需要学习的两个神经网 络分支。
4)约束条件构建;
在训练阶段,有限标注的样本输入至目标分割网络分支并直接产生监督信息。给 定输入
Figure 687489DEST_PATH_IMAGE021
以及引导图
Figure 844801DEST_PATH_IMAGE009
,通过分割网络可得到分割结果
Figure 12346DEST_PATH_IMAGE023
,此时定义有限样本监督的损失函数为
Figure 382148DEST_PATH_IMAGE024
,这里的
Figure 69481DEST_PATH_IMAGE025
是指拉普拉斯平滑参数,默认参数
Figure 397694DEST_PATH_IMAGE026
,用来防止分母为0时产生误差。当引导图与目标图 像属于同一个种类的时候,往往在特征层面的分布比较接近,本发明采用最大化均值差异 (MMD)来约束特征表示的一致性。定义
Figure 272109DEST_PATH_IMAGE027
为引导图的特征编码器,此时定义表示一致性约束 为
Figure 727492DEST_PATH_IMAGE028
。具体作用是利用约束引导图的图像语义级别特征 与待分割的目标图像之间的一致性,达到语义级别分割的目的。本发明通过针对图像分割 边界的约束来增强自监督的结果,给定随机仿射变换矩阵
Figure 269332DEST_PATH_IMAGE029
,以及变换后的图像
Figure 768447DEST_PATH_IMAGE030
的分割结 果
Figure 130158DEST_PATH_IMAGE031
和变换后的分割结果
Figure 356609DEST_PATH_IMAGE032
。此时满足
Figure 18534DEST_PATH_IMAGE033
。之后计算边界边缘权重
Figure 688550DEST_PATH_IMAGE034
Figure 803136DEST_PATH_IMAGE035
。这里的
Figure 318431DEST_PATH_IMAGE036
Figure 585596DEST_PATH_IMAGE037
分别表示膨胀和腐蚀操作,此时定义边界一致性损失
Figure 426513DEST_PATH_IMAGE038
。边界一致性具体作用是,在图像 进行仿射变换后的分割边缘与分割后的仿射变换应该是一致的,同时在图像轮廓这种具备 视觉显著性的特征上更加明显,这形成了本发明的边界一致性约束。
5)边界知识迁移构建;
边界知识模块的构建主要有两个步骤构成,分别是伪三元组判别数据生成和边界 对抗学习。随机从目标数据采样样本
Figure 762816DEST_PATH_IMAGE041
和引导图数据中采样
Figure 347381DEST_PATH_IMAGE009
,分割网络 预测出掩模
Figure 961728DEST_PATH_IMAGE042
。之后计算分割目标
Figure 973546DEST_PATH_IMAGE043
,并拼接程判别数据三元 组
Figure 797146DEST_PATH_IMAGE044
。接着从无关数据集选取样本
Figure 919823DEST_PATH_IMAGE045
,则对应的三元组为
Figure 145268DEST_PATH_IMAGE046
。针对样本
Figure 78720DEST_PATH_IMAGE047
的真值掩模
Figure 389615DEST_PATH_IMAGE048
,通过膨胀操作计算
Figure 315983DEST_PATH_IMAGE036
得到一组伪三元组
Figure 395935DEST_PATH_IMAGE049
, 这其中
Figure 264402DEST_PATH_IMAGE082
。此时定义外边界判别损失
Figure 797015DEST_PATH_IMAGE051
这其中,
Figure 261494DEST_PATH_IMAGE056
Figure 461531DEST_PATH_IMAGE057
Figure 251633DEST_PATH_IMAGE058
分别表示外边界分割预测三元组分布,膨胀后伪三元组分布以 及真实三元组分布。
Figure 756695DEST_PATH_IMAGE059
表示在预测分布
Figure 290444DEST_PATH_IMAGE056
和真实分布
Figure 344988DEST_PATH_IMAGE058
之间的插值样本的分布。插值样本
Figure 774832DEST_PATH_IMAGE060
,
Figure 547616DEST_PATH_IMAGE075
表示0和1之间的随机数。另一方面,考虑样本背景掩模
Figure 868745DEST_PATH_IMAGE083
,
Figure 777795DEST_PATH_IMAGE084
,
Figure 644120DEST_PATH_IMAGE064
表示相同尺寸全为1的矩阵。此时对应的预测三元组为
Figure 638621DEST_PATH_IMAGE085
,真值三元组为
Figure 264905DEST_PATH_IMAGE086
,伪三元组为
Figure 28462DEST_PATH_IMAGE087
。此时定义 内边缘判别损失
Figure 65688DEST_PATH_IMAGE088
同样道理,
Figure 813064DEST_PATH_IMAGE070
Figure 226728DEST_PATH_IMAGE071
Figure 94059DEST_PATH_IMAGE072
分别表示内边缘分割预测三元组分布,腐蚀后伪三元组分布 以及真实三元组分布。
Figure 302186DEST_PATH_IMAGE073
表示在预测分布
Figure 271279DEST_PATH_IMAGE070
和真实分布
Figure 488634DEST_PATH_IMAGE072
之间的插值样本的分布。插值样 本
Figure 961204DEST_PATH_IMAGE074
Figure 356544DEST_PATH_IMAGE061
为0和1之间的随机数。伪三元组判别数据生成之后,通过计算判别 损失将源数据集的边界知识迁移到分割网络中。有限样本监督的损失函数
Figure 812933DEST_PATH_IMAGE003
主要根由仅 有的十张有标签样本来进行监督训练。表达一致性损失
Figure 302820DEST_PATH_IMAGE006
和边界一致性损失
Figure 161055DEST_PATH_IMAGE007
主要加 强逐目标数据集上类别的表达一致性以及边界敏感分割一致性。在训练阶段,整个引导分 割损失定义为
Figure 231691DEST_PATH_IMAGE076
。在测试阶段,通过输入 的目标图像与引导图来指定相应语义的分割,得到结果。这其中,超参数
Figure 909797DEST_PATH_IMAGE089
,
Figure 203375DEST_PATH_IMAGE090
本发明的方法分别与现有技术,在多个公开的数据集上进行对比,如图3-图5所示,其中Input为输入的目标图像,GT为本发明方法的视觉结果,根据SOTA方法,对比其他模型,本发明的方法对应的模型最优。
以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述实施例所记载的技术方案进行修改,或者对其中部分或者全部技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明实施例技术方案的范围。

Claims (9)

1.一种基于图像边界知识迁移的引导语义分割方法,其特征在于包括如下步骤:
S1,构建引导分割模块,引导分割模块包括:引导特征提取层和目标分割网络,其中,目标分割网络包括编码层
Figure DEST_PATH_IMAGE001
与解码层
Figure DEST_PATH_IMAGE002
,引导特征提取层和目标分割网络的编码层,共享相同结构
Figure 472347DEST_PATH_IMAGE001
对 于给定的目标图像
Figure DEST_PATH_IMAGE003
、引导图和掩模对
Figure DEST_PATH_IMAGE004
Figure DEST_PATH_IMAGE005
表示仅带有目标种类标签的目标数据集,
Figure DEST_PATH_IMAGE006
表示带有精细化分割标注的目标数据集,
Figure DEST_PATH_IMAGE007
表示引导图,
Figure DEST_PATH_IMAGE008
表示掩模,抽取到的特征表达分别为
Figure DEST_PATH_IMAGE009
Figure DEST_PATH_IMAGE010
,*表示逐像素乘积,随后将特征表达
Figure DEST_PATH_IMAGE011
Figure DEST_PATH_IMAGE012
拼接起来,作为目标分割网络解码层
Figure 638755DEST_PATH_IMAGE002
的输入[
Figure DEST_PATH_IMAGE013
],通过目标分割网络得到目标掩模
Figure DEST_PATH_IMAGE014
,简化为
Figure DEST_PATH_IMAGE015
Figure DEST_PATH_IMAGE016
为需要学习的引导特征提取层和目标分割网络;
S2,构建约束条件,包括如下步骤:
S21,有限样本监督,在训练阶段,有限标注的样本输入至目标分割网络,并直接产生监督信息,得到有限样本监督的损失函数
Figure DEST_PATH_IMAGE017
S22,表达一致性约束,采用最大化均值差异MMD来约束特征表达的一致性,得到表达一致性约束的损失函数
Figure DEST_PATH_IMAGE018
S23,边界一致性约束,通过针对图像分割边界的约束来增强自监督的结果,得到边界一致性损失函数
Figure DEST_PATH_IMAGE019
S3,构建边界知识迁移模块,包括如下步骤:
S31,伪三元组判别数据生成;
S32,边界对抗学习,通过所述约束条件和所述判别数据,将源数据集的边界知识迁移到分割网络中。
2.根据权利要求1所述的一种基于图像边界知识迁移的引导语义分割方法,其特征在所述步骤S2中,*表示哈达玛积。
3.根据权利要求1或2所述的一种基于图像边界知识迁移的引导语义分割方法,其特征在于所述步骤S21中,给定输入
Figure DEST_PATH_IMAGE020
以及引导图和掩模对
Figure DEST_PATH_IMAGE021
,通过目标分割网络,得到分割结果
Figure DEST_PATH_IMAGE022
,定义有限样本监督的损失函数为
Figure DEST_PATH_IMAGE023
Figure DEST_PATH_IMAGE024
是拉普拉斯平滑参数,用于防止分母为0时产生误差。
4.根据权利要求1或2所述的一种基于图像边界知识迁移的引导语义分割方法,其特征在于所述步骤S22中,定义
Figure DEST_PATH_IMAGE025
为引导图的特征编码器,此时定义表达一致性约束为
Figure DEST_PATH_IMAGE026
,利用约束引导图的图像语义级别特征与待分割的目标图像之间的一致性,达到语义级别分割的目的。
5.根据权利要求1或2所述的一种基于图像边界知识迁移的引导语义分割方法,其特征在于所述步骤S23中,给定随机仿射变换矩阵
Figure DEST_PATH_IMAGE027
,以及目标图像
Figure DEST_PATH_IMAGE028
变换后的分割结果
Figure DEST_PATH_IMAGE029
Figure DEST_PATH_IMAGE030
Figure DEST_PATH_IMAGE031
,计算边界边缘权重
Figure DEST_PATH_IMAGE032
Figure DEST_PATH_IMAGE033
Figure DEST_PATH_IMAGE034
Figure DEST_PATH_IMAGE035
分别表示膨胀和腐蚀操作,定义边界一致性损失函数
Figure DEST_PATH_IMAGE036
,使图像进行仿射变换后的分割边缘与分割后的仿射变换一致,同时在图像轮廓上更加明显,形成边界一致性约束。
6.根据权利要求3所述的一种基于图像边界知识迁移的引导语义分割方法,其特征在于所述步骤S31包括如下步骤:
S311,定义外边界判别损失,得到外边界预测三元组的判别器结果
Figure DEST_PATH_IMAGE037
S312,定义内边界判别损失,得到内边界预测三元组的判别器结果
Figure DEST_PATH_IMAGE038
7.根据权利要求6所述的一种基于图像边界知识迁移的引导语义分割方法,其特征在于所述步骤S311,从目标数据采样样本
Figure DEST_PATH_IMAGE039
和引导图和掩模对
Figure 229879DEST_PATH_IMAGE004
中采样,分割网络预测出目标掩模
Figure DEST_PATH_IMAGE040
计算分割目标
Figure DEST_PATH_IMAGE041
,并拼接成判别数据的预测三元组
Figure DEST_PATH_IMAGE042
,从无关数据集选取样本
Figure DEST_PATH_IMAGE043
,O表示开源语义分割标注数据集,则对应的真值三元组为
Figure DEST_PATH_IMAGE044
,针对样本
Figure DEST_PATH_IMAGE045
的真值掩模
Figure DEST_PATH_IMAGE046
,通过膨胀操作计算
Figure 847592DEST_PATH_IMAGE034
,得到伪三元组
Figure DEST_PATH_IMAGE047
Figure DEST_PATH_IMAGE048
定义外边界判别损失:
Figure DEST_PATH_IMAGE050
其中,E表示数学期望,
Figure DEST_PATH_IMAGE051
表示以
Figure DEST_PATH_IMAGE052
为参数的判别器结果,
Figure DEST_PATH_IMAGE053
表示对应到外边界判别约束,
Figure DEST_PATH_IMAGE054
表示超参数,
Figure DEST_PATH_IMAGE055
Figure DEST_PATH_IMAGE056
Figure DEST_PATH_IMAGE057
分别表示外边界分割预测三元组分布、膨胀后伪三元组分布以及真实三元组分布,
Figure DEST_PATH_IMAGE058
表示在预测分布
Figure 271751DEST_PATH_IMAGE055
和真实分布
Figure 45278DEST_PATH_IMAGE057
之间的插值样本的分布,插值样本
Figure DEST_PATH_IMAGE059
Figure DEST_PATH_IMAGE060
表示0和1之间的随机数。
8.根据权利要求6所述的一种基于图像边界知识迁移的引导语义分割方法,其特征在于所述步骤S312,样本背景掩模
Figure DEST_PATH_IMAGE061
Figure DEST_PATH_IMAGE062
Figure DEST_PATH_IMAGE063
表示相同尺寸全为1的矩阵;
对应的预测三元组为
Figure DEST_PATH_IMAGE064
,真值三元组为
Figure DEST_PATH_IMAGE065
,伪三元组为
Figure DEST_PATH_IMAGE066
定义内边界判别损失:
Figure DEST_PATH_IMAGE068
其中,
Figure DEST_PATH_IMAGE069
表示以
Figure 453257DEST_PATH_IMAGE052
参数的判别器结果,i表示对应到内边界判别约束,
Figure DEST_PATH_IMAGE070
Figure DEST_PATH_IMAGE071
Figure DEST_PATH_IMAGE072
分别表示内边界分割预测三元组分布、腐蚀后伪三元组分布以及真实三元组分布,
Figure DEST_PATH_IMAGE073
表示在预测分布
Figure 472729DEST_PATH_IMAGE070
和真实分布
Figure 344870DEST_PATH_IMAGE072
之间的插值样本的分布,插值样本
Figure DEST_PATH_IMAGE074
Figure DEST_PATH_IMAGE075
为0和1之间的随机数。
9.根据权利要求6所述的一种基于图像边界知识迁移的引导语义分割方法,其特征在于所述步骤S32,在训练阶段,整个引导分割损失定义为
Figure DEST_PATH_IMAGE076
,其中
Figure DEST_PATH_IMAGE077
Figure DEST_PATH_IMAGE078
Figure DEST_PATH_IMAGE079
为超参数;在测试阶段,通过输入的目标图像
Figure DEST_PATH_IMAGE080
与引导图
Figure 823387DEST_PATH_IMAGE007
来指定相应语义的分割,得到结果。
CN202110550131.7A 2021-05-20 2021-05-20 一种基于图像边界知识迁移的引导语义分割方法 Active CN112990222B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110550131.7A CN112990222B (zh) 2021-05-20 2021-05-20 一种基于图像边界知识迁移的引导语义分割方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110550131.7A CN112990222B (zh) 2021-05-20 2021-05-20 一种基于图像边界知识迁移的引导语义分割方法

Publications (2)

Publication Number Publication Date
CN112990222A CN112990222A (zh) 2021-06-18
CN112990222B true CN112990222B (zh) 2021-08-10

Family

ID=76337059

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110550131.7A Active CN112990222B (zh) 2021-05-20 2021-05-20 一种基于图像边界知识迁移的引导语义分割方法

Country Status (1)

Country Link
CN (1) CN112990222B (zh)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112001939B (zh) * 2020-08-10 2021-03-16 浙江大学 基于边缘知识转化的图像前景分割算法
CN113779242A (zh) * 2021-07-30 2021-12-10 国网江苏省电力有限公司 一种新的电网监控告警事件识别算法
CN113870290B (zh) * 2021-09-29 2022-06-03 电子科技大学 基于边缘分布引导的图像分割方法
CN114549842B (zh) * 2022-04-22 2022-08-02 山东建筑大学 基于不确定性知识域自适应的半监督图像分割方法及系统

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2021041755A1 (en) * 2019-08-29 2021-03-04 Siemens Aktiengesellschaft Semantically supported object recognition to provide knowledge transfer
CN111626918B (zh) * 2020-04-29 2023-05-09 杭州火烧云科技有限公司 一种基于语义分割网络技术对数字图像进行风格变化的方法及系统
CN112017301A (zh) * 2020-07-24 2020-12-01 武汉纺织大学 用于服装图像特定相关区域的风格迁移模型及方法

Also Published As

Publication number Publication date
CN112990222A (zh) 2021-06-18

Similar Documents

Publication Publication Date Title
CN112990222B (zh) 一种基于图像边界知识迁移的引导语义分割方法
US10719301B1 (en) Development environment for machine learning media models
US20230195845A1 (en) Fast annotation of samples for machine learning model development
US11537506B1 (en) System for visually diagnosing machine learning models
CN109508671B (zh) 一种基于弱监督学习的视频异常事件检测系统及其方法
CN106462746A (zh) 分析数字全息显微术数据以用于血液学应用
CN110956126A (zh) 一种联合超分辨率重建的小目标检测方法
RU2689818C1 (ru) Способ интерпретации искусственных нейронных сетей
WO2021194490A1 (en) Method and system for improved attention map guidance for visual recognition in images
CN110458022A (zh) 一种基于域适应的可自主学习目标检测方法
CN112686902A (zh) 核磁共振影像中脑胶质瘤识别与分割的两阶段计算方法
CN114511710A (zh) 一种基于卷积神经网络的图像目标检测方法
Szemenyei et al. Real-time scene understanding using deep neural networks for RoboCup SPL
Lorentz et al. Explaining defect detection with saliency maps
CN112633100B (zh) 行为识别方法、装置、电子设备和存储介质
CN114399661A (zh) 一种实例感知主干网络训练方法
Wang et al. Semantic segmentation of sewer pipe defects using deep dilated convolutional neural network
CN110942463B (zh) 一种基于生成对抗网络的视频目标分割方法
CN109461162B (zh) 图像中目标分割的方法
CN115019342A (zh) 一种基于类关系推理的濒危动物目标检测方法
Janouskova et al. Model-Assisted Labeling via Explainability for Visual Inspection of Civil Infrastructures
Liu et al. Peaks fusion assisted early-stopping strategy for overhead imagery segmentation with noisy labels
Zhang Detect forgery video by performing transfer learning on deep neural network
Mahmud et al. Semantic Image Segmentation using CNN (Convolutional Neural Network) based Technique
Yu et al. Construction of garden landscape design system based on multimodal intelligent computing and deep neural network

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant