CN117975241A - 一种面向指向性目标分割的半监督学习方法 - Google Patents
一种面向指向性目标分割的半监督学习方法 Download PDFInfo
- Publication number
- CN117975241A CN117975241A CN202410370335.6A CN202410370335A CN117975241A CN 117975241 A CN117975241 A CN 117975241A CN 202410370335 A CN202410370335 A CN 202410370335A CN 117975241 A CN117975241 A CN 117975241A
- Authority
- CN
- China
- Prior art keywords
- segmentation
- data
- pseudo tag
- mask
- model
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 52
- 230000011218 segmentation Effects 0.000 claims abstract description 97
- 238000012549 training Methods 0.000 claims abstract description 35
- 230000010354 integration Effects 0.000 claims description 12
- 230000006870 function Effects 0.000 claims description 11
- 238000005457 optimization Methods 0.000 claims description 11
- 238000005192 partition Methods 0.000 claims description 11
- 230000008569 process Effects 0.000 claims description 10
- 230000004913 activation Effects 0.000 claims description 3
- 230000015572 biosynthetic process Effects 0.000 claims description 3
- 238000009499 grossing Methods 0.000 claims description 3
- 238000013507 mapping Methods 0.000 claims description 3
- 238000011524 similarity measure Methods 0.000 claims description 3
- 238000003786 synthesis reaction Methods 0.000 claims description 3
- 238000002372 labelling Methods 0.000 description 8
- 230000014509 gene expression Effects 0.000 description 6
- 239000013545 self-assembled monolayer Substances 0.000 description 5
- 238000010586 diagram Methods 0.000 description 4
- 238000002474 experimental method Methods 0.000 description 4
- 238000013459 approach Methods 0.000 description 3
- 230000006872 improvement Effects 0.000 description 3
- 238000010200 validation analysis Methods 0.000 description 3
- 230000008901 benefit Effects 0.000 description 2
- 238000012937 correction Methods 0.000 description 2
- 238000001514 detection method Methods 0.000 description 2
- 238000001914 filtration Methods 0.000 description 2
- 238000010438 heat treatment Methods 0.000 description 2
- 230000004807 localization Effects 0.000 description 2
- 238000012545 processing Methods 0.000 description 2
- 238000012360 testing method Methods 0.000 description 2
- 230000000007 visual effect Effects 0.000 description 2
- 241000406668 Loxodonta cyclotis Species 0.000 description 1
- 241000283080 Proboscidea <mammal> Species 0.000 description 1
- 239000002131 composite material Substances 0.000 description 1
- 230000006835 compression Effects 0.000 description 1
- 238000007906 compression Methods 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000002059 diagnostic imaging Methods 0.000 description 1
- 238000011156 evaluation Methods 0.000 description 1
- 230000001747 exhibiting effect Effects 0.000 description 1
- 239000003550 marker Substances 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000008450 motivation Effects 0.000 description 1
- 235000013550 pizza Nutrition 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 238000000682 scanning probe acoustic microscopy Methods 0.000 description 1
Landscapes
- Image Analysis (AREA)
Abstract
本发明提供一种面向指向性目标分割的半监督学习方法,包括:将RES的三个主流数据集分别拆分为有标数据和无标数据,有标数据包含图文对和分割的真实掩码,无标数据只包含图文对;利用SAM离线地构建了一个分割掩码候选库,分割掩码候选库包含了对无标数据中无标图片的多尺度候选分割;在预热阶段:使用带标签的数据对预训练模型进行训练,训练结束后保存模型参数赋值给教师和学生模型;在师生迭代互相学习阶段:将无标图像输入教师模型得到伪标签,从分割掩码候选库中获取与伪标签最匹配的分割掩码替换伪标签,得到优化后的伪标签,以监督学生的训练;同时,有标数据继续有监督学习。本发明有效提高伪标签掩码质量,同时提高未标注数据的利用率。
Description
技术领域
本发明涉及图像识别技术领域,尤其是涉及一种以SAM作为向导的面向指向性目标分割的半监督学习方法。
背景技术
指向性目标分割(Referring Expression Segmentation,RES)已经引起了视觉和语言研究领域的广泛关注。与常见的视觉定位任务,如短语定位和指向性目标检测任务不同,RES则要求根据指向性的表达式在图像中精确进行像素级别的目标分割,这超出了简单的边界框识别。
尽管RES任务最近取得了不错的进展,对有像素级的分割标记数据的高需求让RES部署中成为了一个重要障碍,特别是在标记成本极高的领域,如医学影像和自动驾驶。对于COCO的图片进行像素级别掩码标注的时间计算,若为一张单独的掩码进行标注大约需要79.1秒的时间。而对于RES任务的三个基准数据集RefCOCO、RefCOCO+和G-Ref来说,都包含数以万计的标记实例,需要人工投入大量的时间成本,如图4所示。受成本和时间的影响,加上手动标记可能存在的不准确性,为RES模型的可扩展性和可靠性带来了显著挑战,突显了更高效方法的迫切需求。
为了解决上述提到的挑战,可采用一种半监督学习框架,半监督指向性目标分割,旨在解决全监督的指向性目标分割(Referring Expression Segmentation, RES)任务中需要昂贵且费时的像素级标注问题,利用大量的无分割标注的图像与文本对和少量的有分割标注的图像与文本对进行半监督学习,在保持模型性能的同时,显著减少了对标注的需求。考虑到在普通的教师学生网络的半监督框架的互相学习阶段,教师模型生成的伪标签质量很大影响了学生模型的学习,比如原始的伪标签通常存在噪声和分割边缘不精细、不完整等问题,这可能导致模型性能陷入次优状态,如图3所示,因此如何去提升伪标签的质量成为其核心问题。
目前解决这一问题常通过使用基于置信度的伪标签过滤策略或辅助纠正网络来实现。虽然从直觉看是很直观的,但仅依赖置信度进行过滤可能导致降低对未标注数据的利用率,并在处理伪标签中的各种噪声时也缺乏灵活性。
发明内容
本发明要解决的技术问题,在于提供一种面向指向性目标分割的半监督学习方法,可解决指向性目标分割的半监督学习中伪标签存在的较大噪声、欠分割、过分割等不精细不完整问题,提高伪标签掩码质量,同时提高未标注数据的利用率。
本发明是这样实现的:一种面向指向性目标分割的半监督学习方法,所述方法包括:
步骤S1、在数据拆分阶段:将RES的三个主流数据集分别拆分为有标数据和无标数据,所述有标数据包含图文对和分割的真实掩码,无标数据只包含图文对;
步骤S2、利用SAM离线地构建了一个分割掩码候选库,所述分割掩码候选库包含了对无标数据中无标图片的多尺度候选分割;
步骤S3、在预热阶段:使用带标签的数据对预训练模型进行训练,训练结束后保存模型参数,并赋值给教师和学生模型进行模型的初始化;
步骤S4、在师生迭代互相学习阶段:将无标图像输入教师模型得到伪标签,从分割掩码候选库中获取与伪标签最匹配的分割掩码,将其替换伪标签中掩码,得到优化后的伪标签,以监督学生的训练,将无标图像输入学生模型得到学生预测;同时,有标数据继续有监督学习,师生模型同时训练、相互学习、共同进步。
进一步的,所述步骤S1具体为:在数据拆分阶段:对于RES三个基准数据集RefCOCO、RefCOCO+、G-Ref,分别将其拆分成有标数据和无标数据/>,其中有标数据/>是包含图文对和分割的真实标签,无标数据/>只包含图文对,不包含真实标签的标注:
其中,,/>是第i张有标图像和第i张无标图像,/>和/>是相应的描述文本,/>是第i张有标图像/>的真实掩码标签,/>和/>分别为有标和无标数据的数目,通常情况下/>。
进一步的,所述步骤S2具体为:利用SAM的“Segment Everything”功能离线地构建了一个分割掩码候选库,所述分割掩码候选库包含了对RES数据集无标图片的多尺度候选分割,并采用运行长度编码(RLE)算法存储分割掩码候选库。
进一步的,所述步骤S3中预热阶段模型训练过程的优化目标定义如下:
其中,表示模型对第i张带标签图像的第j个像素的预测掩码,/>表示相应的真实掩码值,/>表示二元交叉熵损失,/>和/>表示第i张有标图像的高度和宽度;
在完成预热(Burn-In)阶段之后,我们将训练好的模型参数赋值到互相学习阶段的教师和学生模型中,为后续的训练过程做好准备,如下所示:
其中,分别表示教师、学生和预热阶段模型(Burn-In模型)的参数。
进一步的,在步骤S4的在师生迭代互相学习阶段中:
教师为无标签数据生成伪标签,以监督学生的训练,其定义如下:
其中,和/>分别表示学生模型和教师模型对第i张无标图像的第j个像素的预测掩码,/>和/>表示第i张无标图像的高度和宽度;
同时,学生继续在少量带标签的数据上训练,这两个损失函数组合一起进行联合优化,其定义如下:
其中,和/>分别表示有监督损失/>和无监督损失/>的权重系数。
进一步的,通过指数移动平均方法更新教师模型的参数,其定义如下:
其中,分别表示教师和学生模型的参数,/>是EMA的衰减系数,通常设置在0.9到0.999之间的小范围内。
进一步的,所述步骤S4中,在将无标图像输入教师模型前先进行经过弱数据增强,且将无标图像输入学生模型前先进行经过弱数据增强再进行强数据增强处理。
进一步的,所述步骤S4中的“从分割掩码候选库中获取与伪标签最匹配的分割掩码”具体方式如下:
预先设置对应的优化伪标签的策略,根据原始伪标签去从分割掩码候选库中选择合适的由SAM生成的候选掩码去优化伪标签;所述优化伪标签的策略包括基于IoU的最优匹配策略和合成部分集成策略CPI;
对于伪标签中存在噪声的情况,采用所述基于IoU的最优匹配策略进行伪标签优化,对于伪标签中存在欠分割和过分割问题,采用合成部分集成策略CPI。
进一步的,所述基于IoU的最优匹配策略进行伪标签优化,具体包括:计算伪标签与SAM生成的每个分割之间的相似性,识别具有最高相似性得分的分割,确保它与整体目标掩码紧密对齐,相似性度量使用交并比度量IoU,用于量化两个区域之间的重叠程度:
其中,/>和/>分别表示伪标签和SAM生成的第i张无标签图像的第j个像素的伪标签和第k个分割掩码上的值。当分数/>超过特定的阈值时,匹配的最佳掩码将替换伪标签。
进一步的,所述合成部分集成策略CPI,具体包括:
当伪标签存在欠分割问题时,即对目标实例覆盖不完整,存在部分区域像素缺少激活时,在候选库中识别较大的区域,以修正伪标签,此时选择基于与伪标签的重叠比率,计算如下:
其中,是平滑因子,用于防止分母为零。当重叠比率/>超过预定义的阈值时,选择由SAM生成的第k个分割/>,然后和k-1步构建的细化后的伪标签求并集以替换原始伪标签,这种方法称为CPI-U;
相反,当伪标签存在过分割问题时,即引入了错误的区域到分割掩码中,此时利用SAM的分割功能来过滤掉额外的噪声,选择是基于与候选掩码的重叠比率,计算如下:
当比率超过设定的阈值/>时,选择由SAM生成的第k个分割/>,并将其整合以细化伪标签,这种方法称为CPI-O。
进一步的,当两种优化伪标签的策略计算出的候选的分数都未达到一定阈值时,表明SAM生成的分割与当前伪标签不匹配,则使用原始伪标签,并采用基于像素级别的调整策略(Pixel-Wise Adjustment,PWA)根据像素置信水平分配不同权重,以加强模型对原始伪标签中可靠像素对关注,确保焦点保持在高质量的数据点上,具体如下:
将像素置信度转化为权重的映射函数的定义如下:
其中,、/>和/>是超参数,分别设置为1.3、0.1和0.5,因此,第i张无标签图像的损失定义如下:
。
本发明具有如下优点:
1、通过定义预热阶段策略、数据增强技术和指数移动平均方法设置本申请的半监督学习框架,这是一个为RES量身定制的半监督框架,通过使用少量标记数据和大量未标记数据高效训练模型,从而减少对昂贵的像素级注释的依赖;
2、同时考虑到伪标签的质量可能影响学生模型的学习,引入了基于IoU的最优匹配(IOM)和合成部分集成(CPI),利用SAM的强大的分割能力来生成优质的伪标签;
3、大量的实验表明,本发明提出的 SemiRES框架在三个基准数据集RefCOCO、RefCOCO+和G-Ref上取得了显著的性能改进,同时降低了标记成本。
附图说明
下面参照附图结合实施例对本发明作进一步的说明。
图1为本发明一种面向指向性目标分割的半监督学习方法的执行流程示意图。
图2为本发明一种面向指向性目标分割的半监督学习方法的原理示意图。
图3为在所选示例上本申请所提出的SemiRES与半监督基线模型的比较结果示意图。
图4为不同数据比例下的标注成本。横坐标是有标数据的比例,纵坐标是标注成本。
图5为在RefCOCO数据集上我们的方法与基线模型的比较。横坐标是有标数据的比例,纵坐标是评价指标总交并比。
图6为SemiRES在RES基准数据集与其他方法的性能(总的交并比)比较表格。
图7为我们设计的两种匹配策略IOM和CPI解决伪标签中几种常见问题。每一行的结果依次为文本,原图,伪标签,SAM的分割结果,IOM的预测结果,CPI的预测结果,真实掩码标签。
图8为本发明SemiRES的两种匹配策略及变体和半监督基线的训练曲线(横坐标是训练过程迭代次数,纵坐标是整体交并比)。
图9为我们构建的SemiRES在RefCOCO数据集上可视化的经典样例示意图。
具体实施方式
本申请实施例中的技术方案,总体思路如下:设计了一种为RES量身定制的半监督学习框架SemiRES,利用一个小规模图文对数据集,其中包含分割掩码标注,以及大量无分割掩码标注的图文对无标集来训练模型。首先,我们建立了一个半监督RES的基线模型,包括一个全面的训练流程,并使用了数据增强和指数移动平均训练机制。然而,这个基线模型面临着一个重大挑战:伪标签对于目标实例来说存在不完整和噪声问题,这可能导致模型性能陷入次优状态,如图3所示,展示了我们构建的SemiRES解决了有监督和半监督基线模型的问题。半监督学习的关键在于优化这些伪标签以提高它们的质量。本申请中SemiRES的动机是利用SAM(Segment Anything Model)的强大分割能力来纠正伪标签,尤其是优化实例边缘附近的区域。具体而言,我们使用SAM从原始图像中提取多尺度掩码以构建一个掩码候选库。SemiRES的核心是从这个库中检索一个或多个候选掩码来重建高质量的伪标签。为了实现这一点,我们提出了两种策略:基于IoU的最优匹配(IOM)和合成部分集成(CPI)。第一种策略假设候选掩码库中包含一个与目标实例紧密匹配的掩码,因此利用IoU(Intersection over Union)直接去检索并用库中最匹配的掩码替换伪标签。第二种策略则摆脱了这种假设,而是使用根据伪标签从库中选择不同的部分特定候选掩码来组装一个完整的掩码。而在两种策略都无法从候选库中检索到合适的掩码的情况下,我们将默认使用原始伪标签本身来优化学生模型,为了增强在这种情况下的训练,我们设计了一种Pixel-Wise Adjustment(PWA)策略,根据伪标签上的置信水平对最终损失进行逐像素调整。
为了更好地理解上述技术方案,下面将结合说明书附图以及具体的实施方式对上述技术方案进行详细的说明。
请参考图1和图2,本申请一种面向指向性目标分割的半监督学习方法,所述方法包括:
步骤S1、在数据拆分阶段:将RES的三个主流数据集分别拆分为有标数据和无标数据,所述有标数据包含图文对和分割的真实掩码,无标数据只包含图文对;
步骤S2、利用SAM离线地构建了一个分割掩码候选库,所述分割掩码候选库包含了对无标数据中无标图片的多尺度候选分割;
步骤S3、在预热阶段:使用带标签的数据对预训练模型进行训练,训练结束后保存模型参数,并赋值给教师和学生模型进行模型的初始化;
步骤S4、在师生迭代互相学习阶段:将无标图像输入教师模型得到伪标签,从分割掩码候选库中获取与伪标签最匹配的分割掩码,将其替换伪标签中掩码,得到优化后的伪标签,以监督学生的训练,将无标图像输入学生模型得到学生预测;同时,有标数据继续有监督学习,师生模型同时训练、相互学习、共同进步。
其中,所述步骤S1具体为:在数据拆分阶段:对于RES三个基准数据集RefCOCO、RefCOCO+、G-Ref,分别将其拆分成有标数据和无标数据/>,其中有标数据/>是包含图文对和分割的真实标签,无标数据/>只包含图文对,不包含真实标签的标注:
其中,,/>是第i张有标图像和第i张无标图像,/>和/>是相应的描述文本,/>是第i张有标图像/>的真实掩码标签,/>和/>分别为有标和无标数据的数目,通常情况下/>。
值得注意的是,在未标记的集合中没有真实掩码标签,而描述文本只被用作输入。我们的主要目标是利用这个小型标记集/>和一个大型未标记集/>,以在RES任务中取得不错的性能。
在一较佳实施例中,尽管半监督框架利用了大量的无标数据,但是教师模型生成的伪标签通常都是含大量噪声或边界不完整的。视觉分割大模型SAM展现出了强大的分割能力,但有效利用这个能力进行伪标签细化是一个值得探讨的领域,本申请中我们制定了两种策略,用于将由SAM生成的分割候选与原始伪标签进行匹配,以提高它们的准确性。在使用这些策略之前,我们利用SAM的“Segment Everything”功能离线地构建了一个分割掩码候选库,包含了我们对RES数据集无标图片的多尺度候选分割,从而消除了对特定提示的需求。为了优化存储空间,我们采用了运行长度编码(RLE)算法存储。考虑到SAM能够为每个图像生成数百到数千个复杂的分割,采用高效的存储解决方案至关重要。值得注意的是,尽管RLE算法实现了高压缩率,但它也保留了候选掩码的精度。
在一较佳实施例中,所述步骤S3中预热阶段模型训练过程的优化目标定义如下:
其中,表示模型对第i张带标签图像的第j个像素的预测掩码,/>表示相应的真实掩码值,/>表示二元交叉熵损失,/>和/>表示第i张有标图像的高度和宽度;
在完成预热阶段之后,我们将训练好的模型参数赋值到互相学习阶段的教师和学生模型中,为后续的训练过程做好准备,如下所示:
其中,分别表示教师、学生和预热阶段模型的参数。
在一较佳实施例中,在步骤S4的在师生迭代互相学习阶段中:
教师为无标签数据生成伪标签,以监督学生的训练,其定义如下:
其中,和/>分别表示学生模型和教师模型对第i张无标图像的第j个像素的预测掩码,/>和/>表示第i张无标图像的高度和宽度;
同时,学生继续在少量带标签的数据上训练,这两个损失函数组合一起进行联合优化,其定义如下:
其中,和/>分别表示有监督损失/>和无监督损失/>的权重系数。
在一较佳实施例中,为了保持伪标签的稳定性,我们不使用梯度反向传播来更新教师模型的参数。相反,我们采用指数移动平均(EMA)方法创建一个聚合模型,反映了当前和先前状态。EMA的有效性在许多研究中得到了证实。使用EMA不仅提高了教师模型的准确性,还增强了其稳定性,使其成为相互学习阶段中的有用工具,通过指数移动平均(EMA)方法更新教师模型的参数,其定义如下:
其中,是EMA的衰减系数,通常设置在0.9到0.999之间的小范围内。
在一较佳实施例中,所述步骤S4中,在将无标图像输入教师模型前先进行经过弱数据增强,且将无标图像输入学生模型前先进行经过弱数据增强再进行强数据增强处理。
数据增强对于模型的泛化性和鲁棒性起着至关重要的作用。在我们的方法里,我们设计了强弱数据增强策略。对于无标图片,我们对其进行弱增强后输入到教师模型,在弱增强的基础上再加入强增强后输入学生模型。这里我们使用的弱增强是RandomGaussianBlur,强增强在此基础上又增加了RandomColorJitter。
在一较佳实施例中,所述步骤S4中的“从分割掩码候选库中获取与伪标签最匹配的分割掩码”具体方式如下:
预先设置对应的优化伪标签的策略,根据原始伪标签去从分割掩码候选库中选择合适的由SAM生成的候选掩码去优化伪标签;所述优化伪标签的策略包括基于IoU的最优匹配策略和合成部分集成策略CPI;
对于伪标签中存在噪声的情况,采用所述基于IoU的最优匹配策略进行伪标签优化,对于伪标签中存在欠分割和过分割问题,采用合成部分集成策略CPI。
在一较佳实施例中,为了实现我们的目标,我们最初考虑了一种更直接的方法,基于SAM的强大多尺度分割能力。我们假设在构建的分割掩码候选中,很可能包含理想目标分割的一个近似。因此,我们的任务简化为设计一种方法,从库中检索出这个最优掩码。我们的方法涉及一个基于IoU的选择过程,计算伪标签与SAM生成的每个分割之间的相似性。我们的目标是识别具有最高相似性得分的分割,确保它与整体目标掩码紧密对齐。相似性度量使用交并比(Intersection over Union,IoU)度量,这是目标检测和分割任务中的标准,用于量化两个区域之间的重叠程度。通过从候选库中选择具有最高IoU得分的分割,我们能够有效地将我们模型的输出与预期分割的最准确表示对齐。所述基于IoU的最优匹配(IoU-based Optimal Matching, IOM)策略进行伪标签优化,具体包括:
其中,/>和/>分别表示伪标签和SAM生成的第i张无标签图像的第j个像素的伪标签和第k个分割掩码上的值。当分数/>超过特定的阈值时,匹配的最佳掩码将替换伪标签。
在一较佳实施例中,在我们对半监督指向型目标分割任务的探索中,我们认识到尽管基于IoU的最优匹配(IOM)策略通常直接而有效,但在某些情况下可能会失败。一个这样的情况是当提案库缺乏理想的目标分割时,即使是最复杂的匹配算法也无法找到适当的掩码。另一种情况是当伪标签与期望分割之间的差异太大,以至于无法进行有效的校正。我们注意到教师模型生成的原始伪标签可能会受到目标实例的过分割或欠分割的影响,如图7所示,对文本图片对中的图片进行处理得到的伪标签,SAM,IOM,CPI,真实标签示例。我们发现,不同的图片的伪标签会存在噪声问题(Noisy)或欠分割问题(Under-Segmentation)或过分割问题(Over-Segmentation)。这些不准确性降低了伪标签的质量,为学生模型提供了错误的指导,阻碍了其学习。为了解决这个问题,我们提出合成部分集合策略CPI(Composite Parts Integration),所述合成部分集成策略CPI,具体包括:
当伪标签存在欠分割问题时,即对目标实例覆盖不完整,存在部分区域像素缺少激活时,我们的目标是在候选库中识别较大的区域,以修正伪标签,此时选择基于与伪标签的重叠比率,计算如下:
其中,是平滑因子,用于防止分母为零。当重叠比率/>超过预定义的阈值/>时,选择由SAM生成的第k个分割/>,然后和k-1步构建的细化后的伪标签求并集以替换原始伪标签,这种方法称为CPI-U;
相反,当伪标签存在过分割问题时,即引入了错误的区域到分割掩码中,为了减轻这个问题,此时利用SAM的分割功能来过滤掉额外的噪声,选择是基于与候选掩码的重叠比率,计算如下:
当比率超过设定的阈值/>时,选择由SAM生成的第k个分割/>,并将其整合以细化伪标签,这种方法称为CPI-O。当两个条件都满足时,我们形成了完整的CPI策略。
在一较佳实施例中,当两种优化伪标签的策略计算出的候选的分数都未达到一定阈值时,表明SAM生成的分割与当前伪标签不匹配,则使用原始伪标签,并采用基于像素级别的调整策略(Pixel-Wise Adjustment,PWA)根据像素置信水平分配不同权重,以加强模型对原始伪标签中可靠像素对关注,确保焦点保持在高质量的数据点上,具体如下:
将像素置信度转化为权重的映射函数的定义如下:
其中,、/>和/>是超参数,分别设置为1.3、0.1和0.5,因此,第i张无标签图像的损失定义如下:
。
尽管我们用于优化伪标签的两种策略非常有效,但在某些情况下,两种策略计算出的候选的分数都未达到一定阈值,表明SAM生成的分割与当前伪标签不匹配。在这种情况下,我们使用原始伪标签,基于像素级别的调整策略(Pixel-Wise Adjustment,PWA)。PWA的核心目标是根据像素的置信水平为其分配不同权重。对于那些高置信度像素,得分接近0或1,表示对前景或背景非常确信的像素点,我们给这些像素点更多的注意力权重,相反,得分近似为0.5左右的像素点通常与噪声或不确定性相关,它们将被赋予较低的权重,以减小它们对训练的影响。
本发明利用半监督学习解决指向性目标分割任务中需要昂贵的像素级标签的问题,使用了Burn-In策略、数据增强技术和指数移动平均方法的有效性,同时考虑到伪标签的质量可能影响学生模型的学习,从而影响师生互相训练的过程,影响模型最终性能,我们提出基于SAM的两种伪标签细化策略IOM和CPI,可实现一种半监督指向性目标分割框架SemiRES,使用少量标记数据和大量未标记数据高效训练模型,从而减少对昂贵的像素级注释的依赖,提高图片分割任务处理效率。
为了进一步定性验证我们提出的SemiRES的有效性,我们在三个RES基准数据集——RefCOCO、RefCOCO+和G-Ref上进行了大量实验。我们的实验证明,在所有不同的有标数据比例设置中,SemiRES都显著优于有监督和半监督基线模型,例如,在1%标记的RefCOCO上,图5所示,SemiRES的性能相对有监督和半监督基线模型分别提升了+18.64%和+8.28%,突显了它在实际应用中的显著潜力。
具体实验结果如下:
本发明是在指向性目标分割任务(RES)上进行训练并测试的。我们在三个标准的RES enchmark数据集上验证了我们提出的方法的有效性,这些数据集包括RefCOCO、RefCOCO+和G-Ref。这些数据集的图像来自MS-COCO数据集,每个图像都附有一个或多个简短的文本标题。
RefCOCO和RefCOCO+分别包含19,994和19,992张图像,有50,000和49,856个标注对象以及142,209和141,564个指向性描述。RefCOCO和RefCOCO+分为四个部分,即训练集、验证集、测试集A和测试集B。RefCOCO的表达主要涉及绝对位置,而RefCOCO+的表达包含更多与属性相关的信息。
G-Ref包含26,711张图像,有54,822个标注对象和104,560个指向性描述。相比之下,G-Ref包含更复杂的表达,平均长度为8.4个单词,使数据集更具挑战性。此外,G-Ref数据集分为由UMD拆分的一个版本和由Google拆分的另一个版本,我们提供了UMD版本的结果。
在图6表格中,我们在0.5%、1%、2%和5%标记数据的设置下对RefCOCO、RefCOCO+和G-Ref进行了实验。从结果可以看出,当缺乏足够的标记数据时,有监督模型的性能会显著下降。例如,使用0.5%标记数据,RefCOCO验证集上的整体IoU仅为22.37%。我们还比较了普通的半监督基线,如第3.2节所述。基线模型在所有设置下均优于有监督方法,例如在在使用0.5%标记数据的设置训练下,在RefCOCO验证集上表现出+7.96%的改善。最重要的是,我们提出的SemiRES相对于基线实现了最先进的性能。与监督模型相比,在0.5%、1%、2%和5%标记数据的情况下,SemiRES在RefCOCO验证集上分别获得了+17.94%、+18.64%、+15.39%和+11.91%的提升。
图8展示了SemiRES的两种匹配策略及变体和半监督基线的训练曲线。可以看出两种匹配策略都比基线模型改善了性能。其中CPI-U表现最好。
我们在图9中展示了典型的定性结果,将本申请SemiRES(图中的Ours)与监督模型(图中有监督模型(Supervised)是只用固定数量的有标数据而不用无标数据训练得到的模型)、半监督基线(即Baseline)和地面真相(即真实标签Ground Truth)进行了比较。令人印象深刻的是,SemiRES纠正了监督模型和半监督基线的错误。例如,在第一个示例中,监督模型和基线模型未能正确解释“far right”,导致对行李的错误识别,而SemiRES精确地定位了目标。在第二个示例中,SemiRES有效地理解了“smile”并准确地分割了正确的比萨。在第三个更复杂的例子中,涉及多头大象,SemiRES准确辨别了所描述的大象是面向我们的,而不是背对着我们的,展示了其卓越的语义理解能力。综上所述,我们所提出的SemiRES方法在节省了标注成本的前提下,在性能上也保持了不错的结果。
虽然以上描述了本发明的具体实施方式,但是熟悉本技术领域的技术人员应当理解,我们所描述的具体的实施例只是说明性的,而不是用于对本发明的范围的限定,熟悉本领域的技术人员在依照本发明的精神所作的等效的修饰以及变化,都应当涵盖在本发明的权利要求所保护的范围内。
Claims (10)
1.一种面向指向性目标分割的半监督学习方法,其特征在于:所述方法包括:
步骤S1、在数据拆分阶段:将RES的三个主流数据集分别拆分为有标数据和无标数据,所述有标数据包含图文对和分割的真实掩码,无标数据只包含图文对;
步骤S2、利用SAM离线地构建了一个分割掩码候选库,所述分割掩码候选库包含了对无标数据中无标图片的多尺度候选分割;
步骤S3、在预热阶段:使用带标签的数据对预训练模型进行训练,训练结束后保存模型参数,并赋值给教师和学生模型进行模型的初始化;
步骤S4、在师生迭代互相学习阶段:将无标图像输入教师模型得到伪标签,从分割掩码候选库中获取与伪标签最匹配的分割掩码,将其替换伪标签中掩码,得到优化后的伪标签,以监督学生的训练,将无标图像输入学生模型得到学生预测;同时,有标数据继续有监督学习,师生模型同时训练、相互学习、共同进步。
2.根据权利要求1所述的一种面向指向性目标分割的半监督学习方法,其特征在于:所述步骤S1具体为:在数据拆分阶段:对于RES三个基准数据集RefCOCO、RefCOCO+、G-Ref,分别将其拆分成有标数据 和无标数据 />,其中有标数据 />是包含图文对和分割的真实标签,无标数据 />只包含图文对,不包含真实标签的标注:
其中,,/>是第i张有标图像和第i张无标图像,/>和/>是相应的描述文本,/>是第i张有标图像/>的真实掩码标签,/>和/>分别为有标和无标数据的数目,通常情况下。
3.根据权利要求1所述的一种面向指向性目标分割的半监督学习方法,其特征在于:所述步骤S3中预热阶段模型训练过程的优化目标定义如下:
其中,表示模型对第i张带标签图像的第j个像素的预测掩码,/>表示相应的真实掩码值,/>表示二元交叉熵损失,/>和/>表示第i张有标图像的高度和宽度;
在完成预热阶段之后,将训练好的模型参数赋值到互相学习阶段的教师和学生模型中,为后续的训练过程做好准备,如下所示:
其中,分别表示教师、学生和预热阶段模型的参数。
4.根据权利要求1所述的一种面向指向性目标分割的半监督学习方法,其特征在于:在步骤S4的在师生迭代互相学习阶段中:
教师为无标签数据生成伪标签,以监督学生的训练,其定义如下:
其中,和/>分别表示学生模型和教师模型对第i张无标图像的第j个像素的预测掩码,/>和/>表示第i张无标图像的高度和宽度;
同时,学生继续在少量带标签的数据上训练,这两个损失函数组合一起进行联合优化,其定义如下:
其中,和/>分别表示有监督损失/>和无监督损失/>的权重系数。
5.根据权利要求1所述的一种面向指向性目标分割的半监督学习方法,其特征在于:通过指数移动平均方法更新教师模型的参数,其定义如下:
其中,分别表示教师和学生模型的参数,/>是EMA的衰减系数,通常设置在0.9到0.999之间的小范围内。
6.根据权利要求1所述的一种面向指向性目标分割的半监督学习方法,其特征在于:所述步骤S4中,在将无标图像输入教师模型前先进行经过弱数据增强,且将无标图像输入学生模型前先进行经过弱数据增强再进行强数据增强处理。
7.根据权利要求1所述的一种面向指向性目标分割的半监督学习方法,其特征在于:所述步骤S4中的“从分割掩码候选库中获取与伪标签最匹配的分割掩码”具体方式如下:
预先设置对应的优化伪标签的策略,根据原始伪标签去从分割掩码候选库中选择合适的由SAM生成的候选掩码去优化伪标签;所述优化伪标签的策略包括基于IoU的最优匹配策略和合成部分集成策略CPI;
对于伪标签中存在噪声的情况,采用所述基于IoU的最优匹配策略进行伪标签优化,对于伪标签中存在欠分割和过分割问题,采用合成部分集成策略CPI。
8.根据权利要求7所述的一种面向指向性目标分割的半监督学习方法,其特征在于:所述基于IoU的最优匹配策略进行伪标签优化,具体包括:计算伪标签与SAM生成的每个分割之间的相似性,识别具有最高相似性得分的分割,确保它与整体目标掩码紧密对齐,相似性度量使用交并比度量IoU,用于量化两个区域之间的重叠程度:
其中,/>和 />分别表示伪标签和SAM生成的第i张无标签图像的第j个像素的伪标签和第k个分割掩码上的值。当分数/>超过特定的阈值/>时,匹配的最佳掩码将替换伪标签。
9.根据权利要求7所述的一种面向指向性目标分割的半监督学习方法,其特征在于:
所述合成部分集成策略CPI,具体包括:
当伪标签存在欠分割问题时,即对目标实例覆盖不完整,存在部分区域像素缺少激活时,在候选库中识别较大的区域,以修正伪标签,此时选择基于与伪标签的重叠比率,计算如下:
其中,是平滑因子,用于防止分母为零。当重叠比率/>超过预定义的阈值/>时,选择由SAM生成的第k个分割/>,然后和k-1步构建的细化后的伪标签求并集以替换原始伪标签,这种方法称为CPI-U;
相反,当伪标签存在过分割问题时,即引入了错误的区域到分割掩码中,此时利用SAM的分割功能来过滤掉额外的噪声,选择是基于与候选掩码的重叠比率,计算如下:
当比率超过设定的阈值/>时,选择由SAM生成的第k个分割 />,并将其整合以细化伪标签,这种方法称为CPI-O。
10.根据权利要求7所述的一种面向指向性目标分割的半监督学习方法,其特征在于:当两种优化伪标签的策略计算出的候选的分数都未达到一定阈值时,表明SAM生成的分割与当前伪标签不匹配,则使用原始伪标签,并采用基于像素级别的调整策略PWA根据像素置信水平分配不同权重,以加强模型对原始伪标签中可靠像素对关注,确保焦点保持在高质量的数据点上,具体如下:
将像素置信度转化为权重的映射函数的定义如下:
其中,、/>和/>是超参数,分别设置为1.3、0.1和0.5,因此,第i张无标签图像的损失定义如下:
。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202410370335.6A CN117975241A (zh) | 2024-03-29 | 2024-03-29 | 一种面向指向性目标分割的半监督学习方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202410370335.6A CN117975241A (zh) | 2024-03-29 | 2024-03-29 | 一种面向指向性目标分割的半监督学习方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN117975241A true CN117975241A (zh) | 2024-05-03 |
Family
ID=90863390
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202410370335.6A Pending CN117975241A (zh) | 2024-03-29 | 2024-03-29 | 一种面向指向性目标分割的半监督学习方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN117975241A (zh) |
Citations (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110363201A (zh) * | 2019-07-10 | 2019-10-22 | 上海交通大学 | 基于协同学习的弱监督语义分割方法及系统 |
US11100373B1 (en) * | 2020-11-02 | 2021-08-24 | DOCBOT, Inc. | Autonomous and continuously self-improving learning system |
CN114418954A (zh) * | 2021-12-24 | 2022-04-29 | 中国科学院深圳先进技术研究院 | 一种基于互学习的半监督医学图像分割方法及其系统 |
CN115393687A (zh) * | 2022-07-12 | 2022-11-25 | 西北工业大学 | 一种基于双伪标签优化学习的rgb图像半监督目标检测方法 |
CN116091886A (zh) * | 2022-12-26 | 2023-05-09 | 浙江大学 | 一种基于教师学生模型与强弱分支的半监督目标检测方法及系统 |
CN116563687A (zh) * | 2023-06-07 | 2023-08-08 | 厦门大学 | 一种面向半监督指向性目标检测的教师-学生网络方法 |
CN116958889A (zh) * | 2023-07-25 | 2023-10-27 | 北京能创科技有限公司 | 一种基于伪标签的半监督小样本目标检测方法 |
CN117115555A (zh) * | 2023-09-14 | 2023-11-24 | 中国科学技术大学 | 一种基于噪声数据的半监督三维目标检测方法 |
CN117635998A (zh) * | 2022-08-26 | 2024-03-01 | 欧特克公司 | 用于多标签半监督分类的基于百分位数的伪标签选择 |
CN117649515A (zh) * | 2023-11-20 | 2024-03-05 | 深空探测实验室(天都实验室) | 一种基于数字孪生的半监督3d目标检测方法、系统和设备 |
-
2024
- 2024-03-29 CN CN202410370335.6A patent/CN117975241A/zh active Pending
Patent Citations (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110363201A (zh) * | 2019-07-10 | 2019-10-22 | 上海交通大学 | 基于协同学习的弱监督语义分割方法及系统 |
US11100373B1 (en) * | 2020-11-02 | 2021-08-24 | DOCBOT, Inc. | Autonomous and continuously self-improving learning system |
CN114418954A (zh) * | 2021-12-24 | 2022-04-29 | 中国科学院深圳先进技术研究院 | 一种基于互学习的半监督医学图像分割方法及其系统 |
CN115393687A (zh) * | 2022-07-12 | 2022-11-25 | 西北工业大学 | 一种基于双伪标签优化学习的rgb图像半监督目标检测方法 |
CN117635998A (zh) * | 2022-08-26 | 2024-03-01 | 欧特克公司 | 用于多标签半监督分类的基于百分位数的伪标签选择 |
CN116091886A (zh) * | 2022-12-26 | 2023-05-09 | 浙江大学 | 一种基于教师学生模型与强弱分支的半监督目标检测方法及系统 |
CN116563687A (zh) * | 2023-06-07 | 2023-08-08 | 厦门大学 | 一种面向半监督指向性目标检测的教师-学生网络方法 |
CN116958889A (zh) * | 2023-07-25 | 2023-10-27 | 北京能创科技有限公司 | 一种基于伪标签的半监督小样本目标检测方法 |
CN117115555A (zh) * | 2023-09-14 | 2023-11-24 | 中国科学技术大学 | 一种基于噪声数据的半监督三维目标检测方法 |
CN117649515A (zh) * | 2023-11-20 | 2024-03-05 | 深空探测实验室(天都实验室) | 一种基于数字孪生的半监督3d目标检测方法、系统和设备 |
Non-Patent Citations (1)
Title |
---|
李拓: "无监督领域自适应目标检测方法研究", 《中国优秀硕士学位论文全文数据库 信息科技辑》, no. 2, 15 February 2024 (2024-02-15) * |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Wu et al. | Handwritten mathematical expression recognition via paired adversarial learning | |
CN110443818B (zh) | 一种基于涂鸦的弱监督语义分割方法与系统 | |
RU2699687C1 (ru) | Обнаружение текстовых полей с использованием нейронных сетей | |
US10963632B2 (en) | Method, apparatus, device for table extraction based on a richly formatted document and medium | |
Garcia-Fidalgo et al. | Hierarchical place recognition for topological mapping | |
CN110347857B (zh) | 基于强化学习的遥感影像的语义标注方法 | |
CN113628244B (zh) | 基于无标注视频训练的目标跟踪方法、系统、终端及介质 | |
JP7174812B2 (ja) | 非構造化文書からのセマンティックデータの照会 | |
Moysset et al. | Learning to detect, localize and recognize many text objects in document images from few examples | |
CN114596566A (zh) | 文本识别方法及相关装置 | |
Mauceri et al. | Sun-spot: An rgb-d dataset with spatial referring expressions | |
CN115544303A (zh) | 用于确定视频的标签的方法、装置、设备及介质 | |
US20220270341A1 (en) | Method and device of inputting annotation of object boundary information | |
Henderson | Analysis of engineering drawings and raster map images | |
US20230138491A1 (en) | Continuous learning for document processing and analysis | |
Vidanapathirana et al. | Spectral geometric verification: Re-ranking point cloud retrieval for metric localization | |
CN111462132A (zh) | 一种基于深度学习的视频物体分割方法及系统 | |
Mohammad et al. | Contour-based character segmentation for printed Arabic text with diacritics | |
CN114255381A (zh) | 图像识别模型的训练方法、图像识别方法、装置及介质 | |
CN116343237A (zh) | 基于深度学习和知识图谱的票据识别方法 | |
CN111144469B (zh) | 基于多维关联时序分类神经网络的端到端多序列文本识别方法 | |
CN117315090A (zh) | 基于跨模态风格学习的图像生成方法及装置 | |
CN117975241A (zh) | 一种面向指向性目标分割的半监督学习方法 | |
CN115984894A (zh) | 2d图纸特征识别方法、系统、设备及介质 | |
CN111259176B (zh) | 融合有监督信息的基于矩阵分解的跨模态哈希检索方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |