CN115049817A - 一种基于跨图像一致性的图像语义分割方法及其系统 - Google Patents

一种基于跨图像一致性的图像语义分割方法及其系统 Download PDF

Info

Publication number
CN115049817A
CN115049817A CN202210654528.5A CN202210654528A CN115049817A CN 115049817 A CN115049817 A CN 115049817A CN 202210654528 A CN202210654528 A CN 202210654528A CN 115049817 A CN115049817 A CN 115049817A
Authority
CN
China
Prior art keywords
image
semantic segmentation
mask
label
images
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202210654528.5A
Other languages
English (en)
Other versions
CN115049817B (zh
Inventor
方乐缘
吴林山
刘强
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hunan University
Original Assignee
Hunan University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hunan University filed Critical Hunan University
Priority to CN202210654528.5A priority Critical patent/CN115049817B/zh
Publication of CN115049817A publication Critical patent/CN115049817A/zh
Application granted granted Critical
Publication of CN115049817B publication Critical patent/CN115049817B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/22Image preprocessing by selection of a specific region containing or referencing a pattern; Locating or processing of specific regions to guide the detection or recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/74Image or video pattern matching; Proximity measures in feature spaces
    • G06V10/761Proximity, similarity or dissimilarity measures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/764Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/774Generating sets of training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/70Labelling scene content, e.g. deriving syntactic or semantic representations

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Artificial Intelligence (AREA)
  • Health & Medical Sciences (AREA)
  • Computing Systems (AREA)
  • Databases & Information Systems (AREA)
  • Evolutionary Computation (AREA)
  • General Health & Medical Sciences (AREA)
  • Medical Informatics (AREA)
  • Software Systems (AREA)
  • Computational Linguistics (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开了一种基于跨图像一致性的图像语义分割方法及其系统,所述方法包括:1、训练语义分割网络;2、选择一张未标记图像,并到找一张具有相同类别k的标记图像,得到伪标签上区域为类别k的第二掩膜,和标签上区域为类别k的第一掩膜;3、用语义分割网络提取标记图像的第一深度特征,并找到第一深度特征中属于类别k的特征;4、共同优化语义分割网络;5、依据伪标签的可靠性修正未标注图像的伪标签;6、重复2至5,直至未标注图像库所对应的伪标签集全部修正完毕。本发明提出的图像语义分割方法,仅用少量的标记图像和大量的未标记图像进行训练,减少人工标注标签成本的同时,能准确地对图像进行语义分割。

Description

一种基于跨图像一致性的图像语义分割方法及其系统
技术领域
本发明属于图像处理技术领域,具体涉及一种基于跨图像一致性的图像语义分割方法及其系统。
背景技术
语义分割是图像解译中的一项基本任务和挑战,其目的在于对图像中的每一个像素都分配一个语义类别标签,对自然图像理解和自动驾驶中的街景识别具有重大的意义。近年来,随着人工智能和计算机技术的发展,深度学习算法在特征提取,目标检测,语义分割等任务中展现了远超传统算法的优越性能,在图像解译技术中也发挥了重要的作用。
深度学习算法通常需要大量人工标注的标签来进行监督,耗时耗力,尤其对于语义分割任务,制作像素级的标签更是一项成本巨大的工作。因此我们希望仅使用少量的标注样本来进行半监督学习。半监督学习旨在利用少量的标注样本和大量的未标注样本进行训练,从而在节约标注成本的情况下提高识别精度。但是针对半监督语义分割任务,仅使用少量的标注图像,很难为未标注图像生成可靠的伪标签,而带有大量噪声的伪标签严重地限制了对未标注图像的学习。
发明内容
本发明提供了一种基于跨图像一致性的图像语义分割方法及其系统,以解决现有技术中半监督语义分割的精确度低、性能低的技术问题。
为了解决上述技术问题,本发明采用的技术方案为:一种基于跨图像一致性的图像语义分割方法,包括如下步骤:
步骤S10、用标记图像库xl及其标签集yl训练第一语义分割网络N1,训练次数达到设定值后,得到第二语义分割网络N2,用第二语义分割网络N2预测未标注图像库xu并生成相应的伪标签集yu;然后用标记图像库xl及其标签集yl和未标注图像库xu及其伪标签集yu共同训练第二语义分割网络N2,直至训练的次数达到设定值,得到第三语义分割网络N3;
步骤S20、在未标注图像库xu中选择一张未标记图像
Figure BDA0003688843600000011
根据未标记图像
Figure BDA0003688843600000012
其对应的伪标签
Figure BDA0003688843600000013
在标记图像库xl中随机查找一张具有相同类别k的标记图像
Figure BDA0003688843600000014
得到伪标签
Figure BDA0003688843600000015
上区域为类别k的第二掩膜
Figure BDA0003688843600000016
和标签
Figure BDA0003688843600000017
上区域为类别k的第一掩膜
Figure BDA0003688843600000018
步骤S30、用第三语义分割网络N3提取标记图像
Figure BDA0003688843600000019
的第一深度特征fl i,用第一掩膜
Figure BDA00036888436000000110
对第一深度特征fl i进行均值池化得到第一深度特征fl i中属于类别k的类别特征
Figure BDA0003688843600000021
步骤S40、用第三语义分割网络N3提取未标记图像
Figure BDA0003688843600000022
的第二深度特征
Figure BDA0003688843600000023
计算第二深度特征
Figure BDA0003688843600000024
与类别特征
Figure BDA0003688843600000025
的相似度区域得到跨图像一致性掩膜mi,用第二掩膜
Figure BDA0003688843600000026
约束跨图像一致性掩膜mi,共同优化第三语义分割网络N3;
步骤S50、计算第二掩膜
Figure BDA0003688843600000027
和跨图像一致性掩膜mi之间的欧式距离,并作为权重判断伪标签的可靠性,依据伪标签的可靠性修正未标注图像
Figure BDA0003688843600000028
的伪标签
Figure BDA0003688843600000029
步骤S60、重复步骤S20至步骤S50,直至未标注图像库xu所对应的伪标签集yu全部修正完毕,图像语义分割完成。
进一步地,所述步骤S10中语义分割网络N使用DeeplabV3+网络,其中ResNet101网络为DeeplabV3+网络的支架网络。
进一步地,所述步骤S20中的随机查找一张标记图像
Figure BDA00036888436000000210
的过程包括如下步骤:
步骤S21、根据未标记图像
Figure BDA00036888436000000211
找到对应的伪标签
Figure BDA00036888436000000212
步骤S22、判断伪标签
Figure BDA00036888436000000213
的类别,并将该类别并记为k;
步骤S23、在标记图像库xl中随机查找一张同样具有类别k的图像
Figure BDA00036888436000000214
进一步地,所述步骤S20中的生成掩膜
Figure BDA00036888436000000215
的实现方式为:将伪标签
Figure BDA00036888436000000216
上所有类别为k的区域都置为1,其余置为0,从而得到伪标签
Figure BDA00036888436000000217
中属于类别k的掩膜
Figure BDA00036888436000000218
进一步地,所述步骤S20中的生成掩膜
Figure BDA00036888436000000219
的实现方式为:将标签
Figure BDA00036888436000000220
上所有类别为k的区域都置为1,其余置为0,从而得到标签
Figure BDA00036888436000000221
中属于类别k的第一掩膜
Figure BDA00036888436000000222
进一步地,所述步骤S30具体包含如下步骤:
步骤S31、用语义分割网络N提取标记图像
Figure BDA00036888436000000223
的第一深度特征fl i,其中第一深度特征fl i为一个H×W×C大小的张量,H,W,C分别为第一深度特征fl i的长、宽和通道数量;
步骤S32、使用第一掩膜
Figure BDA00036888436000000224
对第一深度特征fl i进行均值池化得到大小为1×1×C的类别特征
Figure BDA00036888436000000225
进一步地,所述步骤S40中的用第二掩膜
Figure BDA00036888436000000226
约束跨图像一致性掩膜mi,优化第三语义分割网络N3的过程为:
步骤S41、首先用第三语义分割网络N3提取未标记图像
Figure BDA00036888436000000227
的第二深度特征
Figure BDA00036888436000000228
步骤S42、使用类别特征
Figure BDA00036888436000000229
与第二深度特征
Figure BDA00036888436000000230
计算相似度区域得到跨图像一致性掩膜mi,跨图像一致性掩膜mi的计算过程为:将H×W×C大小的第二深度特征
Figure BDA00036888436000000231
上每一个位置与1×1×C的类别特征
Figure BDA00036888436000000232
计算进行余弦相似度计算,其值域为0到1;
步骤S43、计算并建立跨图像一致性掩膜mi和第二掩膜
Figure BDA00036888436000000233
的交叉熵的损失函数LCIC
步骤S44、依据损失函数LCIC建立总的损失函数L,并用总的损失函数L优化第三语义分割网络N3。
进一步地,所述步骤S50具体包含如下步骤:
步骤S51、计算跨图像一致性掩膜mi与第二掩膜
Figure BDA0003688843600000031
之间的欧式距离,所述欧式距离值域为0到1;
步骤S52、使用欧式距离判断伪标签
Figure BDA0003688843600000032
满足一致性的概率大小;
步骤S53、将伪标签
Figure BDA0003688843600000033
满足一致性的概率大小作为伪标签
Figure BDA0003688843600000034
准确率的概率大小,并依据伪标签
Figure BDA0003688843600000035
准确率的概率大小修正未标注图像
Figure BDA0003688843600000036
的伪标签
Figure BDA0003688843600000037
进一步地,所述步骤S10中训练第一语义分割网络N1和训练第二语义分割网络N2的次数均为80次。
此外,本发明还提供一种基于跨图像一致性的图像语义分割系统,包括相互连接的微处理器和存储器,该微处理器执行所述基于跨图像一致性的图像语义分割方法的步骤。
和现有技术相比,本发明主要具有以下优点:
第一,本发明提出一种基于跨图像一致性的图像语义分割方法,仅使用少量的标注图像和大量的标注图像,可以在减少人工标注标签成本的基础上,提高语义分割精度。
第二,本发明提出的跨图像一致性,通过约束语义分割网络未标记图像与标记图像的特征表达保持一致,提高网络对未标记图像的预测精度,从而提升未标记图像的半监督学习性能。
第三,本发明提出的跨图像一致性,在仅使用少量标记图像的情况下,对未标记图像生成的伪标签进行优化与修正,大大减少带噪伪标签对语义分割网络优化的影响,从而提升图像语义分割的精度。
附图说明
图1是图像语义分割方法的流程示意图。
图2是本发明实施例方法的图像语义分割方法思路示意图。
图3是本发明实施例提出的跨图像一致性方法整体框架示意图。
图4是本发明实施例方法和其它现有方法的第一组图像语义分割结果对比示意图。
图5是本发明实施例方法和其它现有方法的第二组图像语义分割结果对比示意图。
具体实施方式
如图1所示,本实施例基于跨图像一致性的图像语义分割方法,使用标记图像库xl和未标注图像库xu进行半监督学习,包括如下步骤:
步骤S10、用标记图像库xl及其标签集yl训练第一语义分割网络N1,训练次数达到设定值后,得到第二语义分割网络N2,用第二语义分割网络N2预测未标注图像库xu并生成相应的伪标签集yu;然后用标记图像库xl及其标签集yl和未标注图像库xu及其伪标签集yu共同训练第二语义分割网络N2,直至训练的次数达到设定值,得到第三语义分割网络N3;
步骤S20、在未标注图像库xu中选择一张未标记图像
Figure BDA0003688843600000041
根据未标记图像
Figure BDA0003688843600000042
其对应的伪标签
Figure BDA0003688843600000043
在标记图像库xl中随机查找一张具有相同类别k的标记图像
Figure BDA0003688843600000044
Figure BDA0003688843600000045
得到伪标签
Figure BDA0003688843600000046
上区域为类别k的第二掩膜
Figure BDA0003688843600000047
和标签
Figure BDA0003688843600000048
上区域为类别k的第一掩膜
Figure BDA0003688843600000049
步骤S30、用第三语义分割网络N3提取标记图像
Figure BDA00036888436000000410
的第一深度特征fl i,用第一掩膜
Figure BDA00036888436000000411
对第一深度特征fl i进行均值池化得到第一深度特征fl i中属于类别k的类别特征
Figure BDA00036888436000000412
步骤S40、用第三语义分割网络N3提取未标记图像
Figure BDA00036888436000000413
的第二深度特征
Figure BDA00036888436000000414
计算第二深度特征
Figure BDA00036888436000000415
与类别特征
Figure BDA00036888436000000416
的相似度区域得到跨图像一致性掩膜mi,用第二掩膜
Figure BDA00036888436000000417
约束跨图像一致性掩膜mi,共同优化第三语义分割网络N3;
步骤S50、计算第二掩膜
Figure BDA00036888436000000418
和跨图像一致性掩膜mi之间的欧式距离,并作为权重判断伪标签的可靠性,依据伪标签的可靠性修正未标注图像
Figure BDA00036888436000000419
的伪标签
Figure BDA00036888436000000420
步骤S60、重复步骤S20至步骤S50,直至未标注图像库xu所对应的伪标签集yu全部修正完毕,图像语义分割完成。
本实施例中,步骤S10~步骤S60所执行方法称为基于跨图像一致性的图像语义分割方法,为Cross-Image Consistency(CIC,跨图像一致性)。下文将对步骤S10~步骤S30的执行对CIC过程进行进一步的详细说明。
本实施例中,步骤S10中语义分割网络N使用是DeeplabV3+,其中ResNet101(深度残差神经网络)作为backbone(支架网络)。
ResNet101由四个残差模块组成,残差模块在多个卷积层、批归一化层和修正线性单元的前后加入Shortcut Connection(跳跃连接),每个模块都有步长为2的卷积层会对特征进行两倍下采样,从而得到不同尺度的特征。DeeplabV3+包含空洞卷积模块,对ResNet101提取的最后一层特征进行空洞卷积以增大感受野,最后输出语义分割结果。
本实施例中,步骤S20所述的在标记图像库xl中随机查找一张标记图像
Figure BDA00036888436000000421
过程包括:先根据未标记图像
Figure BDA00036888436000000422
对应的伪标签
Figure BDA00036888436000000423
判断伪标签
Figure BDA00036888436000000424
上存在什么类别并记为k,从而在标记图像库xl中随机查找任意一张同样具有类别k的图像
Figure BDA00036888436000000425
参见图1,例如给出一张伪标签
Figure BDA00036888436000000426
包含类别为马(或牛、羊)的未标记图像
Figure BDA00036888436000000427
则在标记图像库xl中随机查找任意一张同样具有类别马(或牛、羊)的图像
Figure BDA0003688843600000051
作为参考图像。
本实施例中,步骤S20中生成第二掩膜
Figure BDA0003688843600000052
和第一掩膜
Figure BDA0003688843600000053
包括:将伪标签
Figure BDA0003688843600000054
上所有类别为k的区域都置为1,其余置为0,从而得到伪标签
Figure BDA0003688843600000055
中属于类别k的第二掩膜
Figure BDA0003688843600000056
同理得到标签
Figure BDA0003688843600000057
中属于类别k的第一掩膜
Figure BDA0003688843600000058
参见图2,例如查找的类别k为火车,则对伪标签
Figure BDA0003688843600000059
和标签
Figure BDA00036888436000000510
上所有为火车的区域的值都置为1,其余为0。
参见图3,本实施例中,步骤S30中得到类别特征
Figure BDA00036888436000000511
包括:首先用第三语义分割网络N3提取标记图像
Figure BDA00036888436000000512
的第一深度特征fl i,其中第一深度特征fl i为一个H×W×C大小的张量,H,W,C分别为第一深度特征fl i的长、宽和通道数量,然后由步骤S20得到的第一掩膜
Figure BDA00036888436000000513
对第一深度特征fl i进行均值池化得到大小为1×1×C的类别特征
Figure BDA00036888436000000514
参见图3,本实施例中,步骤S40用第二掩膜
Figure BDA00036888436000000515
约束跨图像一致性掩膜mi,优化第三语义分割网络N3包括:首先用第三语义分割网络N3提取未标记图像
Figure BDA00036888436000000516
的第二深度特征
Figure BDA00036888436000000517
其具体步骤同步骤S30;然后用步骤S30所提取的类别特征
Figure BDA00036888436000000518
与第二深度特征
Figure BDA00036888436000000519
计算相似度区域得到跨图像一致性掩膜mi,跨图像一致性掩膜mi的计算过程为对H×W×C大小的第二深度特征
Figure BDA00036888436000000520
上每一个位置都与1×1×C的类别特征
Figure BDA00036888436000000521
计算余弦相似度,其值域为0到1;用第二掩膜
Figure BDA00036888436000000522
约束跨图像一致性掩膜mi,即计算跨图像一致性掩膜mi和第二掩膜
Figure BDA00036888436000000523
的交叉熵损失,记为一致性损失LCIC,即损失函数LCIC,其中,一致性损失LCIC的计算公式为:
Figure BDA00036888436000000524
其中N为输入图像的数量。
参见图3,本实施例中,步骤S50修正未标注图像
Figure BDA00036888436000000525
的伪标签
Figure BDA00036888436000000526
包括:由步骤S40得到跨图像一致性掩膜mi,并计算其与第二掩膜
Figure BDA00036888436000000527
之间的欧式距离,欧式距离值域为0到1,距离大小可以用来判断伪标签满足一致性的概率大小(距离越大,一致性越低),即可作为伪标签准确率的概率大小,从而修正未标注图像
Figure BDA00036888436000000528
的伪标签
Figure BDA00036888436000000529
准确率越小,伪标签参与损失函数计算的权重越小,对第三语义分割网络N3的优化影响越小。
具体地,对于未标记图像的损失函数记为Lu,其计算公式为:
Figure BDA00036888436000000530
其中K为类别总数,
Figure BDA00036888436000000531
代表跨图像一致性掩膜掩膜mi与第二掩膜
Figure BDA00036888436000000532
之间的欧式距离,
Figure BDA00036888436000000533
Figure BDA00036888436000000534
分别为伪标签
Figure BDA00036888436000000535
Figure BDA00036888436000000536
上属于类别k的像素,
Figure BDA00036888436000000537
代表第三语义分割网络N3对像素
Figure BDA00036888436000000538
的输出结果。
同样地对于标记图像
Figure BDA0003688843600000061
及其标签
Figure BDA0003688843600000062
的损失函数记为Ll,其计算公式为:
Figure BDA0003688843600000063
本实施例中,将未标记图像的损失Lu、标记图像的损失Ll和一致性损失LCIC相加得到总的损失函数L,最终得到的函数表达式为:
L=Lu+Ll+LCIC
最后利用总的损失函数L优化语义分割网络N。
为了验证Cross-Image Consistency(CIC)的有效性,本实施例使用公开数据集Pascal Voc(数据集)和Cityscapes(数据集)进行了方法的训练和测试,并且与其他方法进行了对比。Pascal Voc(数据集)包含12031张自然图像,其中10582张图像作为训练集,1449张作为测试集,共分为21个类别。用于半监督学习任务,我们分别取1/16、1/8、1/4的训练集图像作为标记图像,其余作为未标记图像进行训练。对于Cityscapes(数据集),共包含2976张街景图像作为训练集,500张作为测试集,包含19个类别。同样的,用于半监督学习任务,我们分别取1/30、1/8、1/4的训练集图像作为标记图像,其余作为未标记图像进行训练。
本实施例提出的算法与多种现有的半监督语义分割方法进行比较,具体结果如表1和表2所示,评价指标为mIoU(平均交并比)。表1为本方法和其它现有方法在第一组数据集上的测试结果对比表;
表1
Figure BDA0003688843600000064
结合表1可以看出,我们的方法在Pascal Voc(数据集)上的效果相比现有方法提升明显,尤其是在使用的数据更少时提升更加巨大。同样的,结合表1可以看出,我们的方法在Cityscapes上依旧展现了优越的性能;表2为本方法和其它现有方法在第二组数据集上的测试结果对比表;
表2
Figure BDA0003688843600000071
图4和图5分别为本实施例方法和其他现有方法的半监督语义分割结果对比示意图,结合图4和图5也可以看出,本实施例方法的检测结果中,仅使用少量的标记图像,相较于其他方法,我们的分割结果边界清晰,能够准确地分割出不同类别的目标。综上所述,本实施例方法提出的跨图像一致性,通过约束语义分割网络未标记图像与标记图像的特征表达保持一致,提高网络对未标记图像的预测精度,从而提升未标记图像的半监督学习性能;此外,在仅使用少量标记图像的情况下,对未标记图像生成的伪标签进行优化与修正,大大减少带噪伪标签对语义分割网络优化的影响,从而提升图像语义分割的精度。因而,本发明方法仅使用少量的标注图像和大量的标注图像,可以在减少人工标注标签成本的基础上,提高语义分割精度。
此外,本实施例还提供一种基于跨图像一致性的图像语义分割系统,包括相互连接的微处理器和存储器,该微处理器执行前述所述基于跨图像一致性的图像语义分割方法。
此外,本实施例还提供一种计算机可读存储介质,该计算机可读存储介质中存储有执行前述所述基于跨图像一致性的图像语义分割方法的计算机程序。
以上所述仅是本发明的优选实施方式,本发明的保护范围并不仅局限于上述实施例,凡属于本发明思路下的技术方案均属于本发明的保护范围。应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理前提下的若干改进和润饰,这些改进和润饰也应视为本发明的保护范围。

Claims (10)

1.一种基于跨图像一致性的图像语义分割方法,其特征在于,包括如下步骤:
步骤S10、用标记图像库xl及其标签集yl训练第一语义分割网络N1,训练次数达到设定值后,得到第二语义分割网络N2,用第二语义分割网络N2预测未标注图像库xu并生成相应的伪标签集yu;然后用标记图像库xl及其标签集yl和未标注图像库xu及其伪标签集yu共同训练第二语义分割网络N2,直至训练的次数达到设定值,得到第三语义分割网络N3;
步骤S20、在未标注图像库xu中选择一张未标记图像
Figure FDA0003688843590000011
根据未标记图像
Figure FDA0003688843590000012
其对应的伪标签
Figure FDA0003688843590000013
在标记图像库xl中随机查找一张与伪标签
Figure FDA0003688843590000014
具有相同类别k的标记图像
Figure FDA0003688843590000015
得到伪标签
Figure FDA0003688843590000016
上区域为类别k的第二掩膜
Figure FDA0003688843590000017
和标签
Figure FDA0003688843590000018
上区域为类别k的第一掩膜
Figure FDA0003688843590000019
步骤S30、用第三语义分割网络N3提取标记图像
Figure FDA00036888435900000110
的第一深度特征
Figure FDA00036888435900000111
用第一掩膜
Figure FDA00036888435900000112
对第一深度特征
Figure FDA00036888435900000113
进行均值池化得到第一深度特征
Figure FDA00036888435900000114
中属于类别k的类别特征
Figure FDA00036888435900000115
步骤S40、用第三语义分割网络N3提取未标记图像
Figure FDA00036888435900000116
的第二深度特征
Figure FDA00036888435900000117
计算第二深度特征
Figure FDA00036888435900000118
与类别特征
Figure FDA00036888435900000119
的相似度区域得到跨图像一致性掩膜mi,用第二掩膜
Figure FDA00036888435900000120
约束跨图像一致性掩膜mi,共同优化第三语义分割网络N3;
步骤S50、计算第二掩膜
Figure FDA00036888435900000121
和跨图像一致性掩膜mi之间的欧式距离,并作为权重判断伪标签的可靠性,依据伪标签的可靠性修正未标注图像
Figure FDA00036888435900000122
的伪标签
Figure FDA00036888435900000123
步骤S60、重复步骤S20至步骤S50,直至未标注图像库xu所对应的伪标签集yu全部修正完毕,图像语义分割完成。
2.根据权利要求1所述的图像语义分割方法,其特征在于,所述步骤S10中语义分割网络N使用DeeplabV3+网络,其中ResNet101网络为DeeplabV3+网络的支架网络。
3.根据权利要求2所述的图像语义分割方法,其特征在于,所述步骤S20中的随机查找一张标记图像
Figure FDA00036888435900000137
的过程包括如下步骤:
步骤S21、根据未标记图像
Figure FDA00036888435900000124
找到对应的伪标签
Figure FDA00036888435900000125
步骤S22、判断伪标签
Figure FDA00036888435900000126
的类别,并将该类别并记为k;
步骤S23、在标记图像库xl中随机查找一张与伪标签
Figure FDA00036888435900000127
具有相同类别k的标记图像
Figure FDA00036888435900000128
4.根据权利要求3所述的图像语义分割方法,其特征在于,所述步骤S20中的生成掩膜
Figure FDA00036888435900000129
的实现方式为:将伪标签
Figure FDA00036888435900000130
上所有类别为k的区域都置为1,其余置为0,从而得到伪标签
Figure FDA00036888435900000131
中属于类别k的掩膜
Figure FDA00036888435900000132
5.根据权利要求4所述的图像语义分割方法,其特征在于,所述步骤S20中的生成掩膜
Figure FDA00036888435900000133
的实现方式为:将标签
Figure FDA00036888435900000134
上所有类别为k的区域都置为1,其余置为0,从而得到标签
Figure FDA00036888435900000135
中属于类别k的第一掩膜
Figure FDA00036888435900000136
6.根据权利要求5所述的图像语义分割方法,其特征在于,所述步骤S30具体包含如下步骤:
步骤S31、用第三语义分割网络N提取标记图像
Figure FDA0003688843590000021
的第一深度特征
Figure FDA0003688843590000022
其中第一深度特征
Figure FDA0003688843590000023
为一个H×W×C大小的张量,H,W,C分别为第一深度特征
Figure FDA0003688843590000024
的长、宽和通道数量;
步骤S32、使用第一掩膜
Figure FDA0003688843590000025
对第一深度特征
Figure FDA0003688843590000026
进行均值池化得到大小为1×1×C的类别特征
Figure FDA0003688843590000027
7.根据权利要求6所述的图像语义分割方法,其特征在于,所述步骤S40中的用第二掩膜
Figure FDA0003688843590000028
约束跨图像一致性掩膜mi,优化第三语义分割网络N3的过程为:
步骤S41、首先用第三语义分割网络N3提取未标记图像
Figure FDA0003688843590000029
的第二深度特征
Figure FDA00036888435900000210
步骤S42、使用类别特征
Figure FDA00036888435900000211
与第二深度特征
Figure FDA00036888435900000212
计算相似度区域得到跨图像一致性掩膜mi,跨图像一致性掩膜mi的计算过程为:将H×W×C大小的第二深度特征
Figure FDA00036888435900000213
上每一个位置与1×1×C的类别特征
Figure FDA00036888435900000214
进行余弦相似度计算;
步骤S43、计算并建立跨图像一致性掩膜mi和第二掩膜
Figure FDA00036888435900000215
的交叉熵的损失函数LCIC
步骤S44、依据损失函数LCIC建立总的损失函数L,并用总的损失函数L优化第三语义分割网络N3。
8.根据权利要求7所述的图像语义分割方法,其特征在于,所述步骤S50具体包含如下步骤:
步骤S51、计算跨图像一致性掩膜mi与第二掩膜
Figure FDA00036888435900000216
之间的欧式距离;
步骤S52、使用欧式距离判断伪标签
Figure FDA00036888435900000217
满足一致性的概率大小;
步骤S53、将伪标签
Figure FDA00036888435900000218
满足一致性的概率大小作为伪标签
Figure FDA00036888435900000219
准确率的概率大小,并依据伪标签
Figure FDA00036888435900000220
准确率的概率大小修正未标注图像
Figure FDA00036888435900000221
的伪标签
Figure FDA00036888435900000222
9.根据权利要求8所述的图像语义分割方法,其特征在于,所述步骤S10中训练第一语义分割网络N1和训练第二语义分割网络N2的次数均为80次。
10.一种基于跨图像一致性的图像语义分割系统,包括相互连接的微处理器和存储器,其特征在于,所述微处理器执行权利要求1至9中任一项所述的基于跨图像一致性的图像语义分割方法。
CN202210654528.5A 2022-06-10 2022-06-10 一种基于跨图像一致性的图像语义分割方法及其系统 Active CN115049817B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210654528.5A CN115049817B (zh) 2022-06-10 2022-06-10 一种基于跨图像一致性的图像语义分割方法及其系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210654528.5A CN115049817B (zh) 2022-06-10 2022-06-10 一种基于跨图像一致性的图像语义分割方法及其系统

Publications (2)

Publication Number Publication Date
CN115049817A true CN115049817A (zh) 2022-09-13
CN115049817B CN115049817B (zh) 2024-06-14

Family

ID=83161553

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210654528.5A Active CN115049817B (zh) 2022-06-10 2022-06-10 一种基于跨图像一致性的图像语义分割方法及其系统

Country Status (1)

Country Link
CN (1) CN115049817B (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116884003A (zh) * 2023-07-18 2023-10-13 南京领行科技股份有限公司 图片自动标注方法、装置、电子设备及存储介质

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111353498A (zh) * 2018-12-21 2020-06-30 三星电子株式会社 用于通过语义分割提供主导场景分类的系统和方法
CN111507343A (zh) * 2019-01-30 2020-08-07 广州市百果园信息技术有限公司 语义分割网络的训练及其图像处理方法、装置
CN112699892A (zh) * 2021-01-08 2021-04-23 北京工业大学 一种无监督领域自适应语义分割方法
CN113159120A (zh) * 2021-03-15 2021-07-23 浙江工商大学 一种基于多尺度跨图像弱监督学习的违禁物检测方法
CN113496221A (zh) * 2021-09-08 2021-10-12 湖南大学 基于深度双边滤波的点监督遥感图像语义分割方法及系统
CN113505670A (zh) * 2021-06-29 2021-10-15 西南交通大学 基于多尺度cam和超像素的遥感图像弱监督建筑提取方法
CN114175109A (zh) * 2019-07-26 2022-03-11 通腾全球信息公司 用于图像分割的生成对抗网络
CN114283285A (zh) * 2021-11-17 2022-04-05 华能盐城大丰新能源发电有限责任公司 交叉一致性自训练遥感图像语义分割网络训练方法及装置

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111353498A (zh) * 2018-12-21 2020-06-30 三星电子株式会社 用于通过语义分割提供主导场景分类的系统和方法
CN111507343A (zh) * 2019-01-30 2020-08-07 广州市百果园信息技术有限公司 语义分割网络的训练及其图像处理方法、装置
CN114175109A (zh) * 2019-07-26 2022-03-11 通腾全球信息公司 用于图像分割的生成对抗网络
CN112699892A (zh) * 2021-01-08 2021-04-23 北京工业大学 一种无监督领域自适应语义分割方法
CN113159120A (zh) * 2021-03-15 2021-07-23 浙江工商大学 一种基于多尺度跨图像弱监督学习的违禁物检测方法
CN113505670A (zh) * 2021-06-29 2021-10-15 西南交通大学 基于多尺度cam和超像素的遥感图像弱监督建筑提取方法
CN113496221A (zh) * 2021-09-08 2021-10-12 湖南大学 基于深度双边滤波的点监督遥感图像语义分割方法及系统
CN114283285A (zh) * 2021-11-17 2022-04-05 华能盐城大丰新能源发电有限责任公司 交叉一致性自训练遥感图像语义分割网络训练方法及装置

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
王翀;何兴鑫;方乐缘;郭斯羽;陈向东;聂辅娇: "基于联合决策卷积神经网络的光学相干断层扫描图像自动分类", 《中国生物医学工程学报》, 10 December 2018 (2018-12-10) *
陈虎: "弱监督语义分割算法研究", 《中国优秀硕士学位论文全文数据库 信息科技辑》, 15 January 2022 (2022-01-15), pages 138 - 2782 *

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116884003A (zh) * 2023-07-18 2023-10-13 南京领行科技股份有限公司 图片自动标注方法、装置、电子设备及存储介质
CN116884003B (zh) * 2023-07-18 2024-03-22 南京领行科技股份有限公司 图片自动标注方法、装置、电子设备及存储介质

Also Published As

Publication number Publication date
CN115049817B (zh) 2024-06-14

Similar Documents

Publication Publication Date Title
CN110032998B (zh) 自然场景图片的文字检测方法、系统、装置和存储介质
CN113378632A (zh) 一种基于伪标签优化的无监督域适应行人重识别算法
CN109118473B (zh) 基于神经网络的角点检测方法、存储介质与图像处理系统
CN112307919B (zh) 一种基于改进YOLOv3的单证图像中数字信息区域识别方法
CN116258861B (zh) 基于多标签学习的半监督语义分割方法以及分割装置
CN110245683B (zh) 一种少样本目标识别的残差关系网络构建方法及应用
CN110598581B (zh) 基于卷积神经网络的光学乐谱识别方法
CN112528845A (zh) 一种基于深度学习的物理电路图识别方法及其应用
CN113269182A (zh) 一种基于变体transformer对小区域敏感的目标果实检测方法及系统
CN114220086A (zh) 一种成本高效的场景文字检测方法及系统
CN116597136A (zh) 一种半监督遥感图像语义分割方法与系统
CN115049817A (zh) 一种基于跨图像一致性的图像语义分割方法及其系统
CN116681961A (zh) 基于半监督方法和噪声处理的弱监督目标检测方法
CN114241495B (zh) 一种用于脱机手写文本识别的数据增强方法
CN111723852A (zh) 针对目标检测网络的鲁棒训练方法
CN113192108B (zh) 一种针对视觉跟踪模型的人在回路训练方法及相关装置
CN114882204A (zh) 船名自动识别方法
CN113743443A (zh) 一种图像证据分类和识别方法及装置
CN117390207A (zh) 基于自监督学习的遥感影像建筑物样本库构建方法及系统
CN117036711A (zh) 一种基于注意力调节的弱监督语义分割方法
CN116935438A (zh) 一种基于模型结构自主进化的行人图像重识别方法
CN116503885A (zh) 表格识别方法、装置、电子设备及存储介质
CN116824330A (zh) 一种基于深度学习的小样本跨域目标检测方法
CN115424254A (zh) 车牌识别方法、系统、设备及存储介质
CN111797732B (zh) 一种对采样不敏感的视频动作识别对抗攻击方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant