CN112990222B - 一种基于图像边界知识迁移的引导语义分割方法 - Google Patents
一种基于图像边界知识迁移的引导语义分割方法 Download PDFInfo
- Publication number
- CN112990222B CN112990222B CN202110550131.7A CN202110550131A CN112990222B CN 112990222 B CN112990222 B CN 112990222B CN 202110550131 A CN202110550131 A CN 202110550131A CN 112990222 B CN112990222 B CN 112990222B
- Authority
- CN
- China
- Prior art keywords
- segmentation
- boundary
- target
- image
- distribution
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 230000011218 segmentation Effects 0.000 title claims abstract description 91
- 238000000034 method Methods 0.000 title claims abstract description 41
- 238000013508 migration Methods 0.000 title claims abstract description 25
- 230000005012 migration Effects 0.000 title claims abstract description 25
- 238000012549 training Methods 0.000 claims description 16
- 230000006870 function Effects 0.000 claims description 14
- 230000014509 gene expression Effects 0.000 claims description 12
- 230000009466 transformation Effects 0.000 claims description 12
- PXFBZOLANLWPMH-UHFFFAOYSA-N 16-Epiaffinine Natural products C1C(C2=CC=CC=C2N2)=C2C(=O)CC2C(=CC)CN(C)C1C2CO PXFBZOLANLWPMH-UHFFFAOYSA-N 0.000 claims description 11
- 238000000605 extraction Methods 0.000 claims description 8
- 239000011159 matrix material Substances 0.000 claims description 6
- 238000003709 image segmentation Methods 0.000 claims description 5
- 238000005070 sampling Methods 0.000 claims description 5
- 238000012360 testing method Methods 0.000 claims description 4
- 230000010339 dilation Effects 0.000 claims description 3
- 230000003628 erosive effect Effects 0.000 claims description 3
- 238000009499 grossing Methods 0.000 claims description 3
- 230000002708 enhancing effect Effects 0.000 claims description 2
- 238000010276 construction Methods 0.000 abstract 1
- 230000000007 visual effect Effects 0.000 description 7
- 238000013528 artificial neural network Methods 0.000 description 5
- 230000008569 process Effects 0.000 description 5
- 238000002372 labelling Methods 0.000 description 4
- 238000013526 transfer learning Methods 0.000 description 3
- 238000012795 verification Methods 0.000 description 3
- 241000282414 Homo sapiens Species 0.000 description 2
- 230000007423 decrease Effects 0.000 description 2
- 241000282412 Homo Species 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 238000002059 diagnostic imaging Methods 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000005192 partition Methods 0.000 description 1
- 230000004044 response Effects 0.000 description 1
- 238000010008 shearing Methods 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/20—Image preprocessing
- G06V10/26—Segmentation of patterns in the image field; Cutting or merging of image elements to establish the pattern region, e.g. clustering-based techniques; Detection of occlusion
- G06V10/267—Segmentation of patterns in the image field; Cutting or merging of image elements to establish the pattern region, e.g. clustering-based techniques; Detection of occlusion by performing operations on regions, e.g. growing, shrinking or watersheds
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
- G06V10/46—Descriptors for shape, contour or point-related descriptors, e.g. scale invariant feature transform [SIFT] or bags of words [BoW]; Salient regional features
- G06V10/462—Salient features, e.g. scale invariant feature transforms [SIFT]
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- General Engineering & Computer Science (AREA)
- Evolutionary Computation (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Computational Linguistics (AREA)
- Multimedia (AREA)
- Software Systems (AREA)
- Health & Medical Sciences (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Mathematical Physics (AREA)
- General Health & Medical Sciences (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Evolutionary Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Image Analysis (AREA)
Abstract
本发明公开了一种基于图像边界知识迁移的引导语义分割方法包括如下步骤:S1,引导分割模块构建,S2构建约束条件,具体分为三个部分,分别是有限样本的监督、表示一致性约束、以及边界一致性约束;S3,边界知识迁移模块构建,其中主要包括伪三元组判别数据生成、边界对抗学习;通过上述步骤建立的基于图像边界知识迁移的引导语意分割方法,能够仅通过数十张有标签样本以及大量任务无关图像数据,利用图像边界知识,通过指定语义相关图像,利用语义空间特征约束,实现特定种类样本目标的语义分割。
Description
技术领域
本发明涉及小样本语义分割领域,尤其是涉及一种基于图像边界知识迁移的引导语义分割方法。
背景技术
深度神经网络在很多计算机视觉应用上都取得了显著的作用,例如在自动驾驶以及医学影像中起着重要作用的图像语义分割任务。一般而言,训练一个深度神经网络需要大量有标签样本数据,然而数据的获取与标注过程经常是耗时耗力的。针对这个难题,现有的工作主要聚焦在小样本学习和迁移学习这两种任务上。小样本学习旨在通过很少的标注样本来学习训练一个可靠的模型,而迁移学习则是通过一种任务上学习到的模型迁移到新的场景上。尽管小样本学习和迁移学习已经取得了一些进展,但是这些方法,不是获得精度较差难以达到应用的水平,就是适配的场景必须足够的相似,这限制了有限样本的进一步应用。对于很多小样本和迁移学习方法来说,随着类别种类的增加准确率会持续下降。一个重要的因素是,现有方法主要识别逐类别特征以及分割相应区域。现有的模型层面的知识迁移的不足之处在于,源数据集的种类会影响特定的分割能力,这会限制在目标数据集中的准确度上限,最明显的就是当类别种类增加时分割性能会急剧下降。
发明内容
为解决现有技术中需要大量复杂的标注样本,同时难以指定特定语义进行分割的问题,实现特定种类样本目标的语义分割的目的,本发明采用如下的技术方案:
一种基于图像边界知识迁移的引导语义分割方法,包括如下步骤:
S2,构建约束条件,包括如下步骤:
S3,构建边界知识迁移模块,包括如下步骤:
S31,伪三元组判别数据生成;
S32,边界对抗学习,伪三元组判别数据生成之后,通过计算判别损失,将源数据集的边界知识迁移到分割网络中。
进一步地,所述步骤S1中,对于给定的目标图像、引导图和掩模对,表示仅带有目标种类标签的目标数据集,表示带有精细化分割标注的
目标数据集,表示引导图,表示掩模,抽取到的特征表达分别为和,*表示逐像素乘积(或采用哈达玛积,Hadamard product),随后将特征表
达和拼接起来,作为目标分割网络解码层的输入[],通过目标分割网络得到目
标掩模,为方便起见,将后续引导图像分割结果简化为,
此时,为需要学习的引导特征提取层和目标分割网络。
进一步地,所述步骤S23中,给定随机仿射变换矩阵,以及目标图像变换后的分
割结果和变换后的分割结果,此时满足,之后计算边界边缘权重和,和分别表示膨胀和腐蚀操作,此时定义边界一致性损失函数,边界一致性具体作用是,使图像
进行仿射变换后的分割边缘与分割后的仿射变换应该是一致的,同时在图像轮廓这种具备
视觉显著性的特征上更加明显,这形成了本发明的边界一致性约束。
进一步地,所述步骤S31包括如下步骤:
定义外边界判别损失:
其中,E表示数学期望,表示以为参数的判别器结果,表示对应到外边界判别
约束,表示超参数,,,分别表示外边界分割预测三元组分布、膨胀后伪三元组分
布以及真实三元组分布,表示在预测分布和真实分布之间的插值样本的分布,插值
样本,表示0和1之间的随机数。
此时定义内边缘判别损失:
其中,表示以参数的判别器结果,i表示对应到内边界判别约束,,,分
别表示内边缘分割预测三元组分布、腐蚀后伪三元组分布以及真实三元组分布,表示在
预测分布和真实分布之间的插值样本的分布,插值样本,为0和1
之间的随机数。
进一步地,所述步骤S32,有限样本监督的损失函数主要根据一组有标签样本
来进行监督训练,此时,一组有标签样本,仅需十张或几十张即可;表达一致性损失,
用于约束引导图像目标的高级语义和目标图像目标的高级语义特征的表达一致性;边界一
致性损失,用于约束图像语义分割目标在目标边缘轮廓上,具有高的权重,以及仿射变
换后的分割边界一致约束;在训练阶段,整个引导分割损失定义为,其中、、为超参数,在训练过程中,
数据被切分为训练集、验证集和测试集,根据神经网络在训练集上训练后,在验证集上最好
的结果时,所取的超参数,从而获得更好的泛化性以及准确性;在测试阶段,通过输入的目
标图像与引导图来指定相应语义的分割,得到结果。
本发明的优势和有益效果在于:
仅仅通过数十张有标签样本以及大量任务无关数据训练,利用图像边界知识完成小样本情况下语义分割,实现指定语义相关图像,利用语义空间特征约束,实现特定种类样本目标的语义分割。利用大量开源的非目标类别的标注样本,可以实现在极少量目标类别标注样本条件下,通过指定语义相关图像,利用语义空间特征约束,实现特定种类样本目标的语义分割。
附图说明
图1是本发明的方法流程图。
图2是本发明的结构示意图。
图3是本发明中SOTA方法在Citycapes数据集上的的视觉结果。
图4是本发明中SOTA方法在SBD数据集上的的视觉结果。
图5是本发明中SOTA方法在THUR数据集上的的视觉结果。
图6是本发明中SOTA方法在人、鸟、花上的的视觉结果。
具体实施方式
以下结合附图对本发明的具体实施方式进行详细说明。应当理解的是,此处所描述的具体实施方式仅用于说明和解释本发明,并不用于限制本发明。
本发明要解决当前基于深度学习的语义分割方法需要大量标注的问题。人类在进行视觉感知时,并不需要知道图像的类别仅通过物体的边缘便能很好的分割语义目标,然而现有的语义分割方法均基于图像的类别标注监督分割网络实现对应类别目标的分割。为解决深度网络需要大量标注以及指定语义目标分割的难题,本发明设计了一种图像边界知识迁移的引导语义分割方法,仅通过数十张有标签样本以及大量任务无关数据训练,利用图像边界知识完成小样本情况下语义分割,通过指定语义相关图像(即给定一张语义引导图),利用语义空间特征约束(即在特征层面的约束),实现特定种类样本目标的语义分割。
相较于现有技术,本发明只有目标样本会被输入到分割网络中,而开源数据中的边界知识则会以对抗形式被迁移到分割网络中。这意味着只有目标数据集中的数据流会被传输到分割网络中;与现有的模型层面的知识迁移存在着根本性的不同,不存在目标数据集中的准确度的限制;与此同时,当给定一张特定种类语义的图像时,人眼可以轻易地了解分割的目标。
如图1、图2所示,本发明基于图像边界知识迁移的引导语义分割方法,包括如下步骤:
1)开源语义分割标注数据集收集整理;
为了辅助进行目标类别的语义分割,本发明首先需要收集整理大量已有的开源语义分割数据集。针对开源数据集,首先需要考虑语义分割数据集的类别应尽可能的多样性(验证阶段需要剔除和目标待分割数据集种类一致的数据),同时对于样本总量应尽可能的多(例如至少应收集整理超过两万张语义分割图像数据)。
2)确定小样本目标数据集以及相关数据增强;
在开源语义分割标注数据集收集整理的基础上,针对目标待分割语义图像数据集,确定每个类别有标签样本数二十张,对于每个类别的目标数据,在训练过程中,实施三种数据增强策略。首先是基本的缩放、旋转、剪切、镜像等图像操作,其次,将有标签目标图像通过掩模抠出目标后贴入目标数据集中无标签图像上形成新的数据。最后,利用现有的工具进行语义级别数据增强,例如图像上目标颜色变换,目标层面仿射变换形成新的训练数据。
3)结合边界知识迁移的语义引导分割框架构建;
引导分割模块主要由两个神经网络分支组成,分别是引导特征提取层,以及目
标分割网络,其中特征提取层和目标分割网络的编码层共享相同结构。对于给定的
目标图像以及引导图和掩模,此时抽取到的特征表达分别为
和。这里的*表示逐像素乘积。随后将表达和拼接起来作为目标分割网
络解码层的输入[]。通过目标分割网络得到目标掩模,为方便起
见,后续引导图像分割结果简化为,此时的为需要学习的两个神经网
络分支。
4)约束条件构建;
在训练阶段,有限标注的样本输入至目标分割网络分支并直接产生监督信息。给
定输入以及引导图,通过分割网络可得到分割结果,此时定义有限样本监督的损失函数为,这里的
是指拉普拉斯平滑参数,默认参数,用来防止分母为0时产生误差。当引导图与目标图
像属于同一个种类的时候,往往在特征层面的分布比较接近,本发明采用最大化均值差异
(MMD)来约束特征表示的一致性。定义为引导图的特征编码器,此时定义表示一致性约束
为。具体作用是利用约束引导图的图像语义级别特征
与待分割的目标图像之间的一致性,达到语义级别分割的目的。本发明通过针对图像分割
边界的约束来增强自监督的结果,给定随机仿射变换矩阵,以及变换后的图像的分割结
果和变换后的分割结果。此时满足。之后计算边界边缘权重和。这里的和分别表示膨胀和腐蚀操作,此时定义边界一致性损失。边界一致性具体作用是,在图像
进行仿射变换后的分割边缘与分割后的仿射变换应该是一致的,同时在图像轮廓这种具备
视觉显著性的特征上更加明显,这形成了本发明的边界一致性约束。
5)边界知识迁移构建;
边界知识模块的构建主要有两个步骤构成,分别是伪三元组判别数据生成和边界
对抗学习。随机从目标数据采样样本和引导图数据中采样,分割网络
预测出掩模。之后计算分割目标,并拼接程判别数据三元
组。接着从无关数据集选取样本,则对应的三元组为。针对样本的真值掩模,通过膨胀操作计算得到一组伪三元组, 这其中。此时定义外边界判别损失
这其中,,,分别表示外边界分割预测三元组分布,膨胀后伪三元组分布以
及真实三元组分布。表示在预测分布和真实分布之间的插值样本的分布。插值样本,表示0和1之间的随机数。另一方面,考虑样本背景掩模,,表示相同尺寸全为1的矩阵。此时对应的预测三元组为,真值三元组为,伪三元组为。此时定义
内边缘判别损失
同样道理,,,分别表示内边缘分割预测三元组分布,腐蚀后伪三元组分布
以及真实三元组分布。表示在预测分布和真实分布之间的插值样本的分布。插值样
本,为0和1之间的随机数。伪三元组判别数据生成之后,通过计算判别
损失将源数据集的边界知识迁移到分割网络中。有限样本监督的损失函数主要根由仅
有的十张有标签样本来进行监督训练。表达一致性损失和边界一致性损失主要加
强逐目标数据集上类别的表达一致性以及边界敏感分割一致性。在训练阶段,整个引导分
割损失定义为。在测试阶段,通过输入
的目标图像与引导图来指定相应语义的分割,得到结果。这其中,超参数,。
本发明的方法分别与现有技术,在多个公开的数据集上进行对比,如图3-图5所示,其中Input为输入的目标图像,GT为本发明方法的视觉结果,根据SOTA方法,对比其他模型,本发明的方法对应的模型最优。
以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述实施例所记载的技术方案进行修改,或者对其中部分或者全部技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明实施例技术方案的范围。
Claims (9)
1.一种基于图像边界知识迁移的引导语义分割方法,其特征在于包括如下步骤:
对 于给定的目标图像、引导图和掩模对,表示仅带有目标种类标签的目标数据集,表示带有精细化分割标注的目标数据集,表示引导图,表示掩模,抽取到的特征表达分别为和,*表示逐像素乘积,随后将特征表达和拼接起来,作为目标分割网络解码层的输入[],通过目标分割网络得到目标掩模,简化为,为需要学习的引导特征提取层和目标分割网络;
S2,构建约束条件,包括如下步骤:
S3,构建边界知识迁移模块,包括如下步骤:
S31,伪三元组判别数据生成;
S32,边界对抗学习,通过所述约束条件和所述判别数据,将源数据集的边界知识迁移到分割网络中。
2.根据权利要求1所述的一种基于图像边界知识迁移的引导语义分割方法,其特征在所述步骤S2中,*表示哈达玛积。
定义外边界判别损失:
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110550131.7A CN112990222B (zh) | 2021-05-20 | 2021-05-20 | 一种基于图像边界知识迁移的引导语义分割方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110550131.7A CN112990222B (zh) | 2021-05-20 | 2021-05-20 | 一种基于图像边界知识迁移的引导语义分割方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112990222A CN112990222A (zh) | 2021-06-18 |
CN112990222B true CN112990222B (zh) | 2021-08-10 |
Family
ID=76337059
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110550131.7A Active CN112990222B (zh) | 2021-05-20 | 2021-05-20 | 一种基于图像边界知识迁移的引导语义分割方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112990222B (zh) |
Families Citing this family (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112001939B (zh) * | 2020-08-10 | 2021-03-16 | 浙江大学 | 基于边缘知识转化的图像前景分割算法 |
CN113779242A (zh) * | 2021-07-30 | 2021-12-10 | 国网江苏省电力有限公司 | 一种新的电网监控告警事件识别算法 |
CN113870290B (zh) * | 2021-09-29 | 2022-06-03 | 电子科技大学 | 基于边缘分布引导的图像分割方法 |
CN114549842B (zh) * | 2022-04-22 | 2022-08-02 | 山东建筑大学 | 基于不确定性知识域自适应的半监督图像分割方法及系统 |
Family Cites Families (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2021041755A1 (en) * | 2019-08-29 | 2021-03-04 | Siemens Aktiengesellschaft | Semantically supported object recognition to provide knowledge transfer |
CN111626918B (zh) * | 2020-04-29 | 2023-05-09 | 杭州火烧云科技有限公司 | 一种基于语义分割网络技术对数字图像进行风格变化的方法及系统 |
CN112017301A (zh) * | 2020-07-24 | 2020-12-01 | 武汉纺织大学 | 用于服装图像特定相关区域的风格迁移模型及方法 |
-
2021
- 2021-05-20 CN CN202110550131.7A patent/CN112990222B/zh active Active
Also Published As
Publication number | Publication date |
---|---|
CN112990222A (zh) | 2021-06-18 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN112990222B (zh) | 一种基于图像边界知识迁移的引导语义分割方法 | |
US10719301B1 (en) | Development environment for machine learning media models | |
US20230195845A1 (en) | Fast annotation of samples for machine learning model development | |
US11537506B1 (en) | System for visually diagnosing machine learning models | |
CN109508671B (zh) | 一种基于弱监督学习的视频异常事件检测系统及其方法 | |
CN106462746A (zh) | 分析数字全息显微术数据以用于血液学应用 | |
CN110956126A (zh) | 一种联合超分辨率重建的小目标检测方法 | |
RU2689818C1 (ru) | Способ интерпретации искусственных нейронных сетей | |
WO2021194490A1 (en) | Method and system for improved attention map guidance for visual recognition in images | |
CN110458022A (zh) | 一种基于域适应的可自主学习目标检测方法 | |
CN112686902A (zh) | 核磁共振影像中脑胶质瘤识别与分割的两阶段计算方法 | |
CN114511710A (zh) | 一种基于卷积神经网络的图像目标检测方法 | |
Szemenyei et al. | Real-time scene understanding using deep neural networks for RoboCup SPL | |
Lorentz et al. | Explaining defect detection with saliency maps | |
CN112633100B (zh) | 行为识别方法、装置、电子设备和存储介质 | |
CN114399661A (zh) | 一种实例感知主干网络训练方法 | |
Wang et al. | Semantic segmentation of sewer pipe defects using deep dilated convolutional neural network | |
CN110942463B (zh) | 一种基于生成对抗网络的视频目标分割方法 | |
CN109461162B (zh) | 图像中目标分割的方法 | |
CN115019342A (zh) | 一种基于类关系推理的濒危动物目标检测方法 | |
Janouskova et al. | Model-Assisted Labeling via Explainability for Visual Inspection of Civil Infrastructures | |
Liu et al. | Peaks fusion assisted early-stopping strategy for overhead imagery segmentation with noisy labels | |
Zhang | Detect forgery video by performing transfer learning on deep neural network | |
Mahmud et al. | Semantic Image Segmentation using CNN (Convolutional Neural Network) based Technique | |
Yu et al. | Construction of garden landscape design system based on multimodal intelligent computing and deep neural network |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |