CN117237343A

CN117237343A - 半监督rgb-d图像镜面检测方法、存储介质及计算机设备

Info

Publication number: CN117237343A
Application number: CN202311498290.2A
Authority: CN
Inventors: 刘政怡; 张广辉; 涂铮铮; 汪粼波; 方贤勇
Original assignee: Anhui University
Current assignee: Anhui University
Priority date: 2023-11-13
Filing date: 2023-11-13
Publication date: 2023-12-15
Anticipated expiration: 2043-11-13
Also published as: CN117237343B

Abstract

本发明公开了一种半监督RGB‑D图像镜面检测方法，包括以下步骤：S1、有标签图像预热三分支学生网络，学生网络提取RGB图像特征和Depth图像特征，融合形成融合特征；S2、将融合特征、RGB图像特征和Depth图像特征送入三分支解码，获得预测图并利用真值监督；S3、利用教师网络获得无标签图像的伪标签；S4、无标签图像与有标签图像混合获得混合图像；S5、混合图像与有标签图像送入学生网络进行训练；S6、将上述训练得到的最优参数加载进模型，将RGB‑D镜面检测数据集送入模型，得到对应图像的预测结果图，完成RGB‑D图像的镜面检测。本发明减少了RGB‑D图像镜面检测对像素级图像标注的依赖，减少了数据集标注所需要的人工成本与时间成本。

Description

半监督RGB-D图像镜面检测方法、存储介质及计算机设备

技术领域

本发明涉及计算机视觉领域，具体地说涉及一种半监督RGB-D图像镜面检测方法、存储介质及计算机设备。

背景技术

RGB-D图像是由RGB颜色图像和Depth深度图像组成，表达了某一场景的外观特点及三维信息。目前，RGB-D图像镜面检测方法一般多为全监督方式，在训练网络时需要依赖大量的像素级别的真值标注，而像素级别的真值标注不仅代价昂贵，还耗费时间。因此，通过联合无标签图像和有标签图像的网络训练方式，即半监督训练方式值得被深度探索。

发明内容

本发明提供的一种有助于增强模型鲁棒性、减少数据集标注所需的人工成本及时间成本的半监督RGB-D图像镜面检测方法、存储介质及计算机设备，可至少解决上述技术问题之一。

为了解决上述技术问题，本发明采用如下技术方案：

一种半监督RGB-D图像镜面检测方法，包括以下步骤：

S1、利用有标签图像预热三分支学生网络，学生网络提取RGB图像特征和Depth图像特征，并融合形成融合特征；

S2、将融合特征、RGB图像特征和Depth图像特征送入三分支解码，获得预测图并利用真值监督；

S3、利用教师网络获得无标签图像的伪标签；

S4、将无标签图像与有标签图像进行图像混合，获得混合图像；

S5、将混合图像与有标签图像同时送入学生网络进行训练；

S6、将模型部署在计算机设备上，将上述训练得到的最优参数加载进模型，将RGB-D镜面检测数据集送入模型，得到对应图像的预测结果图，完成RGB-D图像的镜面检测。

进一步地，所述S1进一步包括：

S11、提取RGB图像特征：使用在ImageNet上预训练的PVTv2-B2网络提取图像颜色特征，形成，i=1，...4；

S12、提取Depth图像特征：使用在ImageNet上预训练的PVTv2-B2网络提取图像深度特征，形成，i=1，…4；

S13、形成融合特征：

S131、针对最高层RGB图像特征与最高层Depth图像特征/>，所述融合模块先通过ASPP模块对高级语义特征进行增强，接着将RGB图像和Depth图像经过级联送入卷积块，将特征进行融合和通道维度降维后，得到融合特征/>，

；

S132、针对低层RGB图像特征与底层Depth图像特征/>，所述融合模块直接对应特征级联后，得到对应的融合特征/>，/>，/>，

。

进一步地，所述S2中的所述三分支解码包括融合分支解码、RGB分支解码和Depth分支解码；

所述融合分支解码是将所述S132得到的先通过上采样后级联，再通过卷积块操作得到所述预测图；

所述的RGB分支解码与所述Depth分支解码是将编码特征次低层特征和/>进行交换，送入所述RGB分支解码的特征为/>，得到对应的/>，送入所述Depth分支解码的特征为/>得到对应的/>，

，

。

进一步地，所述S3中的所述教师网络是对所述学生网络结构的复制，所述教师网络的初始化参数加载所述S1中得到的最优学生网络参数，所述教师网络的参数是通过指数平均移动操作EMA动态更新，而不被神经网络梯度后向传播所更新。

进一步地，所述S3进一步包括：

S31、将无标签图像RGB图像和Depth图像/>进行弱数据增强，生成对应的弱增强图像/>；

S32、将所述弱增强图像送入所述教师网络，生成对应无标签图像的预测图，由于所述教师网络是三分支结构，所以将所述三分支解码的预测概率图相加求平均可得到平均预测概率图所得。

进一步地，所述S4进一步包括：

S41、对弱增强无标签RGB图像进行强数据增强，生成新的强增强图像，对弱增强无标签Depth图像/>不做任何操作，直接作为强增强图像/>；

S42、将所述弱增强无标签RGB图像与所述弱增强无标签Depth图像/>送入所述教师网络，得到的三分支解码概率图/>和/>特征图，求平均得到平均概率图/>，

；

S43、计算所述平均概率图的置信度：

S431、通过熵计算公式得到不确定度；

S432、通过1-获得每个像素点的置信度；

S433、将所有像素点的置信度相加求平均，得到整张图的置信度，

，

；

S44、根据置信度随机图像混合：

将有标签图像、强增强无标签图像和分别送入/>模块，得到所述混合图像/>，

。

进一步地，所述S5进一步包括：

S51、将所述混合图像与所述有标签图像在Batch维度上级联；

S52、送入所述学生网络，并利用对应的所述伪标签与真值进行监督。

进一步地，所述S6进一步包括：

S61、在计算机设备上构建模型；

S62、通过Pycharm将训练得到的最优模型参数文件加载入模型；

S63、加载现有RGB-D镜面检测的图像，送入所述学生网络获得对应图像的分割预测图；

S64、将所述分割预测图与真值进行比对，评估模型检测效果，完成镜RGB-D镜面检测。

一种计算机可读存储介质，存储有计算机程序，所述计算机程序被处理器执行时，使得所述处理器执行上述检测方法的步骤。

一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，所述计算机程序被所述处理器执行时，使得所述处理器执行上述检测方法的步骤。

本发明的有益效果体现在：

1、本发明提出一种半监督RGB-D图像镜面检测方法，是在RGB-D图像镜面检测任务上为数不多的一次在半监督领域上的探索，一方面，提出三分支解码的结构，探索RGB-D图像对在一致性约束上的作用，三分支解码结构本身将RGB、Depth以及RGBD融合信息，三者进行一致性约束，不仅结构简单，而且在对无标签数据的信息挖掘上起到帮助，得到更好的模型性能，另一方面，将Cutmix方法应用在RGBD双模态无标签数据增强上，充分的利用了无标签图像信息，如此，通过本检测方法可以减少RGB-D图像镜面检测对像素级图像标注的依赖，大大减少了数据集标注所需要的人工成本与时间成本。

2、本发明中，通过三分支解码器更好生成无标签图像的伪标签，以及通过不同分支结果之间的一致性约束增强模型对无标签图像的利用程度，提高模型的鲁棒性，最终达到提高模型性能的目的。

附图说明

图1是本发明实施例中半监督RGB-D图像镜面检测方法的流程图。

图2是本发明实施例中半监督RGB-D图像镜面检测方法的神经网络结构图。

图3是本发明实施例中计算机设备的结构框图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明的一部分实施例，而不是全部的实施例。在不冲突的情况下，本申请中的实施例及实施例中的特征可以相互组合。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

参见图1，本发明实施例提供了一种半监督RGB-D图像镜面检测方法，包括以下步骤：

S3、利用教师网络获得无标签图像的伪标签；

S5、将混合图像与有标签图像同时送入学生网络进行训练；

半监督训练方式通常采用教师学生双网络，利用教师网络给无标签图像提供伪标签，再将其与有标签图像混合，联合训练学生网络。在文献《FixMatch: Simplifying Semi-Supervised Learning with Consistency and Confidence》中提到通过对无标签图像进行强弱数据增强，得到同一张图像不同视角的图像，两者做一致性约束，能够很好的利用无标签图像信息，而在RGB-D镜面检测中，RGB和Depth图像本身信息不同，但可以相互补充，通过三分支信息一致性约束利用RGB和Depth的对应信息可以提高半监督对无标签图像的利用程度，来帮助模型提高性能；

Cutmix是指将图像中的一部分区域掩盖掉并随机填充其他图像的区域像素值，在文献《Augmentation Matters: A Simple-yet-Effective Approach to Semi-supervisedSemantic Segmentation》证明其在半监督领域的有效性，将其应用在双模态RGB-D图像下必能帮助模型提高性能；

本发明提出一种半监督RGB-D图像镜面检测方法，是在RGB-D图像镜面检测任务上为数不多的一次在半监督领域上的探索，一方面，提出三分支解码的结构，探索RGB-D图像对在一致性约束上的作用，三分支解码结构本身将RGB、Depth以及RGBD融合信息，三者进行一致性约束，虽然结构简单，但在对无标签数据的信息挖掘上起到帮助，得到更好的模型性能，另一方面，将Cutmix方法应用在RGBD双模态无标签数据增强上，充分的利用了无标签图像信息，如此，通过本检测方法可以减少RGB-D图像镜面检测对像素级图像标注的依赖，大大减少了数据集标注所需要的人工成本与时间成本。

在本实施例中，所述S1进一步包括：

S13、形成融合特征：

；

。

上述i对应于PVTv2-B2的层数，i取值为1至4的自然数；

上述融合模块的融合方法描述为：

其中，操作是指论文《Atrous Spatial Pyramid Pooling》所提出的空洞空间卷积池化金字塔模块，/>表示通道级联操作，/>表示卷积块操作，包括卷积操作、BatchNorm操作和ReLU操作，本方法中采用了两次卷积块操作。

在本实施例中，所述S2中的所述三分支解码包括融合分支解码、RGB分支解码和Depth分支解码；

，

。

上述方法中，所述RGB分支解码与所述Depth分支解码将编码特征次低层特征和进行交换，可实现特征级别的图像扰动，增强模型的鲁棒性，同时保证模型在双模态的基础上，基于一致性原则更好的利用无标签图像；

上述三分支解码具体的方法描述为：

其中，指上采样操作，/>指卷积操作，/>是指概率函数，/>指取最大值操作。

在本实施例中，所述S3中的所述教师网络是对所述学生网络结构的复制，所述教师网络的初始化参数加载所述S1中得到的最优学生网络参数，所述教师网络的参数是通过指数平均移动操作EMA动态更新，而不被神经网络梯度后向传播所更新。

上述方法中，所述教师网络参数更新的方法描述为：

在本实施例中，所述S3进一步包括：

上述方法具体描述为：

所述包括随机水平翻转、随机裁剪和随机旋转操作。

在本实施例中，所述S4进一步包括：

；

S43、计算所述平均概率图的置信度：

S431、通过熵计算公式得到不确定度；

S432、通过1-获得每个像素点的置信度；

，

；

S44、根据置信度随机图像混合：

。

上述S41中强增强图像生成的具体描述方式为：

其中，StrongAugment操作是来自于论文《Augmentation Matters: A Simple-yet-Effective Approach to Semi-supervised Semantic Segmentation》中的RandomIntensity-based Augmentations；

上述S44中所述混合图像获取的具体描述方式为：

其中，操作是来自于论文《Augmentation Matters: A Simple-yet-Effective Approach to Semi-supervised Semantic Segmentation》中的AdaptiveCutMix-based augmentations。

在本实施例中，所述S5进一步包括：

S51、将所述混合图像与所述有标签图像在Batch维度上级联；

上述方法中，利用所述混合图像训练学生网络具体描述为：

其中，、/>、/>、/>、/>、/>分别对应为有标签RGB图、混合RGB图、有标签Depth图、混合Depth图、有标签真值图、混合伪真值图；

并且，包括三分支预测结果/>，/>包括三分支预测结果/>，/>是基于阈值过滤的交叉熵损失，是基础的交叉熵损失。

在本实施例中，所述S6进一步包括：

S61、在计算机设备上构建模型；

S62、通过Pycharm将训练得到的最优模型参数文件加载入模型；

参见图2，在一仿真实例中，本半监督RGB-D图像镜面检测方法在RGBD-Mirror数据集进行验证，将数据集中1/4的训练数据作为有标签图像，剩下的3/4作为无标签图像，整个数据集包括训练集2000对RGB-D图像，测试集1049对RGB-D图像；

在训练和测试阶段，输入的RGB-D图像被调整到416*416大小。模型训练选取AdamW优化器，初始学习率为1e-5，批处理大小为4，采用PVTv2-B2预训练参数及PyTorch默认设置，使用的显卡是NVIDIA GTX 3090 GPU。预热阶段和联合训练阶段的训练epoch各为100epch；

本方法与14种RGBD检测的方法对比，其中有些方法并不是直接应用在RGBD镜面检测上的。S2MA[1]，SSF[2]，A2dele[3]，CoNet[4]，JL-DCF[5]，HDFNet[6]，ATSA[7]，BBS-Net[8]，MirrorNet[9]，PMD[10]，PDNet[11]，SANet[12]，VCNet[13]，SATNet[14]进行对比，结果见下表1：

表1.实验结果

如上表1所示可知，本发明方法在IoU，，MAE，BER评价指标上均取得与全监督方法接近的效果，证明了本方法的有效性。

本发明实施例还提供了一种计算机可读存储介质，存储有计算机程序，所述计算机程序被处理器执行时，使得所述处理器执行上述检测方法的步骤。此处检测方法的步骤可以是上述各个实施例的检测方法中的步骤。

参见图3，本发明实施例还提供了一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，所述计算机程序被所述处理器执行时，使得所述处理器执行上述检测方法的步骤。此处检测方法的步骤可以是上述各个实施例的检测方法中的步骤。

综上，本发明提出一种半监督RGB-D图像镜面检测方法，是在RGB-D图像镜面检测任务上为数不多的一次在半监督领域上的探索，一方面，提出三分支解码的结构，探索RGB-D图像对在一致性约束上的作用，三分支解码结构本身将RGB、Depth以及RGBD融合信息，三者进行一致性约束，虽然结构简单，但在对无标签数据的信息挖掘上起到帮助，得到更好的模型性能，另一方面，将Cutmix方法应用在RGBD双模态无标签数据增强上，充分的利用了无标签图像信息，如此，通过本检测方法可以减少RGB-D图像镜面检测对像素级图像标注的依赖，大大减少了数据集标注所需要的人工成本与时间成本；

再者，本检测方法通过三分支解码器更好生成无标签图像的伪标签，以及通过不同分支结果之间的一致性约束增强模型对无标签图像的利用程度，提高模型的鲁棒性，最终达到提高模型性能的目的。

应当理解本文所述的例子和实施方式仅为了说明，并不用于限制本发明，本领域技术人员可根据它做出各种修改或变化，凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种半监督RGB-D图像镜面检测方法，其特征在于，包括以下步骤：

S3、利用教师网络获得无标签图像的伪标签；

S5、将混合图像与有标签图像同时送入学生网络进行训练；

2.如权利要求1所述的半监督RGB-D图像镜面检测方法，其特征在于，所述S1进一步包括：

S13、形成融合特征：

；

。

3.如权利要求2所述的半监督RGB-D图像镜面检测方法，其特征在于，所述S2中的所述三分支解码包括融合分支解码、RGB分支解码和Depth分支解码；

，

。

4.如权利要求1所述的半监督RGB-D图像镜面检测方法，其特征在于，所述S3中的所述教师网络是对所述学生网络结构的复制，所述教师网络的初始化参数加载所述S1中得到的最优学生网络参数，所述教师网络的参数是通过指数平均移动操作EMA动态更新，而不被神经网络梯度后向传播所更新。

5.如权利要求4所述的半监督RGB-D图像镜面检测方法，其特征在于，所述S3进一步包括：

S31、将无标签图像RGB图像和Depth图像/>进行弱数据增强，生成对应的弱增强图像；

6.如权利要求1所述的半监督RGB-D图像镜面检测方法，其特征在于，所述S4进一步包括：

；

S43、计算所述平均概率图的置信度：

S431、通过熵计算公式得到不确定度；

S432、通过1-获得每个像素点的置信度；

，

；

S44、根据置信度随机图像混合：

。

7.如权利要求1所述的半监督RGB-D图像镜面检测方法，其特征在于，所述S5进一步包括：

S51、将所述混合图像与所述有标签图像在Batch维度上级联；

8.如权利要求1所述的半监督RGB-D图像镜面检测方法，其特征在于，所述S6进一步包括：

S61、在计算机设备上构建模型；

S62、通过Pycharm将训练得到的最优模型参数文件加载入模型；

9.一种计算机可读存储介质，存储有计算机程序，所述计算机程序被处理器执行时，使得所述处理器执行如权利要求1至8中任一项所述方法的步骤。

10.一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，所述计算机程序被所述处理器执行时，使得所述处理器执行如权利要求1至8中任一项所述方法的步骤。