CN115049817A

CN115049817A - 一种基于跨图像一致性的图像语义分割方法及其系统

Info

Publication number: CN115049817A
Application number: CN202210654528.5A
Authority: CN
Inventors: 方乐缘; 吴林山; 刘强
Original assignee: Hunan University
Current assignee: Hunan University
Priority date: 2022-06-10
Filing date: 2022-06-10
Publication date: 2022-09-13
Anticipated expiration: 2042-06-10
Also published as: CN115049817B

Abstract

本发明公开了一种基于跨图像一致性的图像语义分割方法及其系统，所述方法包括：1、训练语义分割网络；2、选择一张未标记图像，并到找一张具有相同类别k的标记图像，得到伪标签上区域为类别k的第二掩膜，和标签上区域为类别k的第一掩膜；3、用语义分割网络提取标记图像的第一深度特征，并找到第一深度特征中属于类别k的特征；4、共同优化语义分割网络；5、依据伪标签的可靠性修正未标注图像的伪标签；6、重复2至5，直至未标注图像库所对应的伪标签集全部修正完毕。本发明提出的图像语义分割方法，仅用少量的标记图像和大量的未标记图像进行训练，减少人工标注标签成本的同时，能准确地对图像进行语义分割。

Description

一种基于跨图像一致性的图像语义分割方法及其系统

技术领域

本发明属于图像处理技术领域，具体涉及一种基于跨图像一致性的图像语义分割方法及其系统。

背景技术

语义分割是图像解译中的一项基本任务和挑战，其目的在于对图像中的每一个像素都分配一个语义类别标签，对自然图像理解和自动驾驶中的街景识别具有重大的意义。近年来，随着人工智能和计算机技术的发展，深度学习算法在特征提取，目标检测，语义分割等任务中展现了远超传统算法的优越性能，在图像解译技术中也发挥了重要的作用。

深度学习算法通常需要大量人工标注的标签来进行监督，耗时耗力，尤其对于语义分割任务，制作像素级的标签更是一项成本巨大的工作。因此我们希望仅使用少量的标注样本来进行半监督学习。半监督学习旨在利用少量的标注样本和大量的未标注样本进行训练，从而在节约标注成本的情况下提高识别精度。但是针对半监督语义分割任务，仅使用少量的标注图像，很难为未标注图像生成可靠的伪标签，而带有大量噪声的伪标签严重地限制了对未标注图像的学习。

发明内容

本发明提供了一种基于跨图像一致性的图像语义分割方法及其系统，以解决现有技术中半监督语义分割的精确度低、性能低的技术问题。

为了解决上述技术问题，本发明采用的技术方案为：一种基于跨图像一致性的图像语义分割方法，包括如下步骤：

步骤S10、用标记图像库x_l及其标签集y_l训练第一语义分割网络N1，训练次数达到设定值后，得到第二语义分割网络N2，用第二语义分割网络N2预测未标注图像库x_u并生成相应的伪标签集y_u；然后用标记图像库x_l及其标签集y_l和未标注图像库x_u及其伪标签集y_u共同训练第二语义分割网络N2，直至训练的次数达到设定值，得到第三语义分割网络N3；

步骤S20、在未标注图像库x_u中选择一张未标记图像

根据未标记图像

其对应的伪标签

在标记图像库x_l中随机查找一张具有相同类别k的标记图像

得到伪标签

上区域为类别k的第二掩膜

和标签

上区域为类别k的第一掩膜

步骤S30、用第三语义分割网络N3提取标记图像

的第一深度特征f_l ⁱ，用第一掩膜

对第一深度特征f_l ⁱ进行均值池化得到第一深度特征f_l ⁱ中属于类别k的类别特征

步骤S40、用第三语义分割网络N3提取未标记图像

的第二深度特征

计算第二深度特征

与类别特征

的相似度区域得到跨图像一致性掩膜mⁱ，用第二掩膜

约束跨图像一致性掩膜mⁱ，共同优化第三语义分割网络N3；

步骤S50、计算第二掩膜

和跨图像一致性掩膜mⁱ之间的欧式距离，并作为权重判断伪标签的可靠性，依据伪标签的可靠性修正未标注图像

的伪标签

步骤S60、重复步骤S20至步骤S50，直至未标注图像库x_u所对应的伪标签集y_u全部修正完毕，图像语义分割完成。

进一步地，所述步骤S10中语义分割网络N使用DeeplabV3+网络，其中ResNet101网络为DeeplabV3+网络的支架网络。

进一步地，所述步骤S20中的随机查找一张标记图像

的过程包括如下步骤：

步骤S21、根据未标记图像

找到对应的伪标签

步骤S22、判断伪标签

的类别，并将该类别并记为k；

步骤S23、在标记图像库x_l中随机查找一张同样具有类别k的图像

进一步地，所述步骤S20中的生成掩膜

的实现方式为：将伪标签

上所有类别为k的区域都置为1，其余置为0，从而得到伪标签

中属于类别k的掩膜

进一步地，所述步骤S20中的生成掩膜

的实现方式为：将标签

上所有类别为k的区域都置为1，其余置为0，从而得到标签

中属于类别k的第一掩膜

进一步地，所述步骤S30具体包含如下步骤：

步骤S31、用语义分割网络N提取标记图像

的第一深度特征f_l ⁱ，其中第一深度特征f_l ⁱ为一个H×W×C大小的张量，H，W，C分别为第一深度特征f_l ⁱ的长、宽和通道数量；

步骤S32、使用第一掩膜

对第一深度特征f_l ⁱ进行均值池化得到大小为1×1×C的类别特征

进一步地，所述步骤S40中的用第二掩膜

约束跨图像一致性掩膜mⁱ，优化第三语义分割网络N3的过程为：

步骤S41、首先用第三语义分割网络N3提取未标记图像

的第二深度特征

步骤S42、使用类别特征

与第二深度特征

计算相似度区域得到跨图像一致性掩膜mⁱ，跨图像一致性掩膜mⁱ的计算过程为：将H×W×C大小的第二深度特征

上每一个位置与1×1×C的类别特征

计算进行余弦相似度计算，其值域为0到1；

步骤S43、计算并建立跨图像一致性掩膜mⁱ和第二掩膜

的交叉熵的损失函数L_CIC；

步骤S44、依据损失函数L_CIC建立总的损失函数L，并用总的损失函数L优化第三语义分割网络N3。

进一步地，所述步骤S50具体包含如下步骤：

步骤S51、计算跨图像一致性掩膜mⁱ与第二掩膜

之间的欧式距离，所述欧式距离值域为0到1；

步骤S52、使用欧式距离判断伪标签

满足一致性的概率大小；

步骤S53、将伪标签

满足一致性的概率大小作为伪标签

准确率的概率大小，并依据伪标签

准确率的概率大小修正未标注图像

的伪标签

进一步地，所述步骤S10中训练第一语义分割网络N1和训练第二语义分割网络N2的次数均为80次。

此外，本发明还提供一种基于跨图像一致性的图像语义分割系统，包括相互连接的微处理器和存储器，该微处理器执行所述基于跨图像一致性的图像语义分割方法的步骤。

和现有技术相比，本发明主要具有以下优点：

第一，本发明提出一种基于跨图像一致性的图像语义分割方法，仅使用少量的标注图像和大量的标注图像，可以在减少人工标注标签成本的基础上，提高语义分割精度。

第二，本发明提出的跨图像一致性，通过约束语义分割网络未标记图像与标记图像的特征表达保持一致，提高网络对未标记图像的预测精度，从而提升未标记图像的半监督学习性能。

第三，本发明提出的跨图像一致性，在仅使用少量标记图像的情况下，对未标记图像生成的伪标签进行优化与修正，大大减少带噪伪标签对语义分割网络优化的影响，从而提升图像语义分割的精度。

附图说明

图1是图像语义分割方法的流程示意图。

图2是本发明实施例方法的图像语义分割方法思路示意图。

图3是本发明实施例提出的跨图像一致性方法整体框架示意图。

图4是本发明实施例方法和其它现有方法的第一组图像语义分割结果对比示意图。

图5是本发明实施例方法和其它现有方法的第二组图像语义分割结果对比示意图。

具体实施方式

如图1所示，本实施例基于跨图像一致性的图像语义分割方法，使用标记图像库x_l和未标注图像库x_u进行半监督学习，包括如下步骤：

步骤S20、在未标注图像库x_u中选择一张未标记图像

根据未标记图像

其对应的伪标签

在标记图像库x_l中随机查找一张具有相同类别k的标记图像

得到伪标签

上区域为类别k的第二掩膜

和标签

上区域为类别k的第一掩膜

步骤S30、用第三语义分割网络N3提取标记图像

的第一深度特征f_l ⁱ，用第一掩膜

步骤S40、用第三语义分割网络N3提取未标记图像

的第二深度特征

计算第二深度特征

与类别特征

的相似度区域得到跨图像一致性掩膜mⁱ，用第二掩膜

约束跨图像一致性掩膜mⁱ，共同优化第三语义分割网络N3；

步骤S50、计算第二掩膜

的伪标签

本实施例中，步骤S10～步骤S60所执行方法称为基于跨图像一致性的图像语义分割方法，为Cross-Image Consistency(CIC，跨图像一致性)。下文将对步骤S10～步骤S30的执行对CIC过程进行进一步的详细说明。

本实施例中，步骤S10中语义分割网络N使用是DeeplabV3+，其中ResNet101(深度残差神经网络)作为backbone(支架网络)。

ResNet101由四个残差模块组成，残差模块在多个卷积层、批归一化层和修正线性单元的前后加入Shortcut Connection(跳跃连接)，每个模块都有步长为2的卷积层会对特征进行两倍下采样，从而得到不同尺度的特征。DeeplabV3+包含空洞卷积模块，对ResNet101提取的最后一层特征进行空洞卷积以增大感受野，最后输出语义分割结果。

本实施例中，步骤S20所述的在标记图像库x_l中随机查找一张标记图像

过程包括：先根据未标记图像

对应的伪标签

判断伪标签

上存在什么类别并记为k，从而在标记图像库x_l中随机查找任意一张同样具有类别k的图像

参见图1，例如给出一张伪标签

包含类别为马(或牛、羊)的未标记图像

则在标记图像库x_l中随机查找任意一张同样具有类别马(或牛、羊)的图像

作为参考图像。

本实施例中，步骤S20中生成第二掩膜

和第一掩膜

包括：将伪标签

上所有类别为k的区域都置为1，其余置为0，从而得到伪标签

中属于类别k的第二掩膜

同理得到标签

中属于类别k的第一掩膜

参见图2，例如查找的类别k为火车，则对伪标签

和标签

上所有为火车的区域的值都置为1，其余为0。

参见图3，本实施例中，步骤S30中得到类别特征

包括：首先用第三语义分割网络N3提取标记图像

的第一深度特征f_l ⁱ，其中第一深度特征f_l ⁱ为一个H×W×C大小的张量，H，W，C分别为第一深度特征f_l ⁱ的长、宽和通道数量，然后由步骤S20得到的第一掩膜

参见图3，本实施例中，步骤S40用第二掩膜

约束跨图像一致性掩膜mⁱ，优化第三语义分割网络N3包括：首先用第三语义分割网络N3提取未标记图像

的第二深度特征

其具体步骤同步骤S30；然后用步骤S30所提取的类别特征

与第二深度特征

计算相似度区域得到跨图像一致性掩膜mⁱ，跨图像一致性掩膜mⁱ的计算过程为对H×W×C大小的第二深度特征

上每一个位置都与1×1×C的类别特征

计算余弦相似度，其值域为0到1；用第二掩膜

约束跨图像一致性掩膜mⁱ，即计算跨图像一致性掩膜mⁱ和第二掩膜

的交叉熵损失，记为一致性损失L_CIC，即损失函数L_CIC，其中，一致性损失L_CIC的计算公式为：

其中N为输入图像的数量。

参见图3，本实施例中，步骤S50修正未标注图像

的伪标签

包括：由步骤S40得到跨图像一致性掩膜mⁱ，并计算其与第二掩膜

之间的欧式距离，欧式距离值域为0到1，距离大小可以用来判断伪标签满足一致性的概率大小(距离越大，一致性越低)，即可作为伪标签准确率的概率大小，从而修正未标注图像

的伪标签

准确率越小，伪标签参与损失函数计算的权重越小，对第三语义分割网络N3的优化影响越小。

具体地，对于未标记图像的损失函数记为L_u，其计算公式为：

其中K为类别总数，

代表跨图像一致性掩膜掩膜mⁱ与第二掩膜

之间的欧式距离，

和

分别为伪标签

和

上属于类别k的像素，

代表第三语义分割网络N3对像素

的输出结果。

同样地对于标记图像

及其标签

的损失函数记为L_l，其计算公式为：

本实施例中，将未标记图像的损失L_u、标记图像的损失L_l和一致性损失L_CIC相加得到总的损失函数L，最终得到的函数表达式为：

L＝L_u+L_l+L_CIC

最后利用总的损失函数L优化语义分割网络N。

为了验证Cross-Image Consistency(CIC)的有效性，本实施例使用公开数据集Pascal Voc(数据集)和Cityscapes(数据集)进行了方法的训练和测试，并且与其他方法进行了对比。Pascal Voc(数据集)包含12031张自然图像，其中10582张图像作为训练集，1449张作为测试集，共分为21个类别。用于半监督学习任务，我们分别取1/16、1/8、1/4的训练集图像作为标记图像，其余作为未标记图像进行训练。对于Cityscapes(数据集)，共包含2976张街景图像作为训练集，500张作为测试集，包含19个类别。同样的，用于半监督学习任务，我们分别取1/30、1/8、1/4的训练集图像作为标记图像，其余作为未标记图像进行训练。

本实施例提出的算法与多种现有的半监督语义分割方法进行比较，具体结果如表1和表2所示，评价指标为mIoU(平均交并比)。表1为本方法和其它现有方法在第一组数据集上的测试结果对比表；

表1

结合表1可以看出，我们的方法在Pascal Voc(数据集)上的效果相比现有方法提升明显，尤其是在使用的数据更少时提升更加巨大。同样的，结合表1可以看出，我们的方法在Cityscapes上依旧展现了优越的性能；表2为本方法和其它现有方法在第二组数据集上的测试结果对比表；

表2

图4和图5分别为本实施例方法和其他现有方法的半监督语义分割结果对比示意图，结合图4和图5也可以看出，本实施例方法的检测结果中，仅使用少量的标记图像，相较于其他方法，我们的分割结果边界清晰，能够准确地分割出不同类别的目标。综上所述，本实施例方法提出的跨图像一致性，通过约束语义分割网络未标记图像与标记图像的特征表达保持一致，提高网络对未标记图像的预测精度，从而提升未标记图像的半监督学习性能；此外，在仅使用少量标记图像的情况下，对未标记图像生成的伪标签进行优化与修正，大大减少带噪伪标签对语义分割网络优化的影响，从而提升图像语义分割的精度。因而，本发明方法仅使用少量的标注图像和大量的标注图像，可以在减少人工标注标签成本的基础上，提高语义分割精度。

此外，本实施例还提供一种基于跨图像一致性的图像语义分割系统，包括相互连接的微处理器和存储器，该微处理器执行前述所述基于跨图像一致性的图像语义分割方法。

此外，本实施例还提供一种计算机可读存储介质，该计算机可读存储介质中存储有执行前述所述基于跨图像一致性的图像语义分割方法的计算机程序。

以上所述仅是本发明的优选实施方式，本发明的保护范围并不仅局限于上述实施例，凡属于本发明思路下的技术方案均属于本发明的保护范围。应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明原理前提下的若干改进和润饰，这些改进和润饰也应视为本发明的保护范围。