CN116363357A

CN116363357A - 基于mim和对比学习的半监督语义分割方法及装置

Info

Publication number: CN116363357A
Application number: CN202310063885.9A
Authority: CN
Inventors: 陈浩; 李政宏; 伍江江; 杜春; 李沛秦; 熊伟; 李军; 吴烨; 贾庆仁; 陈荦
Original assignee: National University of Defense Technology
Current assignee: National University of Defense Technology
Priority date: 2023-01-13
Filing date: 2023-01-13
Publication date: 2023-06-30

Abstract

本申请涉及一种基于MIM和对比学习的半监督语义分割方法及装置。所述方法包括：获取训练图像集；构建MIM半监督语义分割网络模型，该模型包括教师模型、学生模型、重建探测头及特征探测头；将弱增强图像发送至教师模型进行语义分割，生成第一预测熵图；将强增强图像输入学生模型解码器中，通过特征探测头提取强语义特征及第二伪标签；将弱增强图像的掩码图像输入学生模型编码器中，通过重建探测头生成重建图像语义特征及第四伪标签；拼接强语义特征、重建图像语义特征、第二伪标签及第四伪标签，生成第二预测熵图；根据第一预测熵图与第二预测熵图的对比学习结果，得到训练好的MIM半监督语义分割网络模型。本发明可提升图像特征提取效果。

Description

基于MIM和对比学习的半监督语义分割方法及装置

技术领域

本申请涉及图像数据处理技术领域，特别是涉及一种基于MIM和对比学习的半监督语义分割方法及装置。

背景技术

随着图像数据处理技术的发展，对于目标追踪时捕捉到的图像需要进行数据真实性预测，出现了半监督语义分割技术，通过半监督学习来利用图像中未标记数据的信息，通过模拟图像标记和未标记数据的真实数据分布，进而生成新的图像数据或者高质量伪标签，并在一致性正则化方法的假设下，利用伪标签方法以迭代方式增强半监督语义特征提取的性能。

然而，目前的半监督语义分割方法，致力于从有标签数据中提取无标签信息，而忽略了图像内不同区域间的信息交互，导致图像数据处理和未标记数据的提取精度较差，并且对于目标掩蔽情况下，捕捉到的图像信息训练结果偏差率较大。

发明内容

基于此，有必要针对上述技术问题，提供一种能够提取不同切片间图像数据信息的基于MIM和对比学习的半监督语义分割方法及装置。

一种基于MIM和对比学习的半监督语义分割方法，所述方法包括：

获取训练图像集，训练图像集包括：弱增强图像和强增强图像。

构建MIM半监督语义分割网络模型，半监督语义分割网络模型包括：教师模型、学生模型、重建探测头以及特征探测头。

将弱增强图像发送至教师模型进行语义分割，得到弱增强图像中未标记图像的第一伪标签，根据第一伪标签生成第一预测熵图。

将强增强图像输入所述学生模型解码器中，通过特征探测头从学生模型解码器中提取强语义特征及第二伪标签。

将弱增强图像的掩码图像输入学生模型编码器中，通过重建探测头从学生模型编码器中提取的掩码语义特征及第三伪标签，基于MIM生成重建图像语义特征及第四伪标签。

通过拼接强语义特征、重建图像语义特征、第二伪标签以及第四伪标签，生成第二预测熵图。

根据第一预测熵图与第二预测熵图的对比学习结果进行反向训练，得到训练好的MIM半监督语义分割网络模型。

在其中一个实施例中，还包括：将弱增强图像发送至教师模型，经教师模型中的第一残差模块、第一全局-局部注意力机制模块、第一加权求和模块以及第一特征增强模块对弱增强图像的第一语义特征进行提取，并对弱增强图像中的未标记图像赋予第一伪标签，根据第一语义特征与第一伪标签进行拼接，生成第一预测熵图。

在其中一个实施例中，还包括：教师模型包括：第一残差模块、第一全局-局部注意力机制模块、第一加权求和模块以及第一特征增强模块。

第一残差模块接收弱增强图像并逐层处理弱增强图像的语义特征信息，得到第一残差语义特征。

第一全局-局部注意力机制模块包括第一全局分支和第一局部分支，第一全局分支采用上下文交互模块提取弱增强图像的第一全局语义特征，第一局部分支采用并行的卷积层提取所述弱增强图像的第一局部语义特征。

第一加权求和模块用于聚合第一残差语义特征、第一全局语义特征以及第一局部语义特征，得到弱增强图像的第一融合语义特征。

第一特征增强模块接收第一融合语义特征，采用双信道处理方式处理第一融合语义特征，得到弱增强图像的第一语义特征。

在其中一个实施例中，还包括：学生模型包括第二残差模块、第二全局-局部注意力机制模块、第二加权求和模块以及第二特征增强模块。

将强增强图像输入学生模型解码器中，经学生模型解码器中的第二残差模块、第二全局-局部注意力机制模块以及第二加权求和模块进行语义特征提取，得到第二语义特征。

特征探测头从学生模型解码器中获取第二语义特征，根据预先构建的对比损失函数进行收敛，生成强语义特征及第二伪标签。

在其中一个实施例中，还包括：将弱增强图像的掩码图像输入学生模型编码器中，经学生模型编码器中的第二残差模块进行语义特征提取，得到掩码语义特征。

重建探测头从学生模型编码中提取掩码语义特征及弱增强图像的掩码图像的第三伪标签，基于MIM将掩码语义特征和第三伪标签进行拼接，得到重建图像。

根据预先构建的重建损失函数对重建图像进行收敛，生成掩码预测图像，通过预先构建的重建语义一致性损失函数收敛掩码预测图像，得到重建图像语义特征及第四伪标签。

在其中一个实施例中，还包括：通过预先构建的标签损失函数，将训练图象集的标签分别与第二伪标签和第四伪标签进行差值收敛，得到优化后的第二伪标签和第四伪标签，将强语义特征、重建图像语义特征、优化后的第二伪标签以及优化后的第四伪标签进行拼接，生成第二预测熵图。

在其中一个实施例中，还包括：标签损失函数定义为：

其中，λ_i是第i个像素的标签权重，y_i是第i个像素的标签或伪标签，

是第i-个像素的预测，n是参与计算的像素数。

在其中一个实施例中，还包括：根据第一预测熵图与第二预测熵图的差异构建熵损失函数，并将第一预测熵图与第二预测熵图的对比学习结果进行收敛，将收敛后的对比学习结果作为训练图像集输入MIM半监督语义分割网络模型中，得到训练好的MIM半监督语义分割网络模型。

在其中一个实施例中，还包括：重建损失失函数定义为：

其中，n_m是屏蔽像素的数量，

是学生模型的重建图像，x_weak为具有弱增强的原始图像，/>

是指示符函数，/>

表示屏蔽区域。

一种基于MIM和对比学习的半监督语义分割装置，所述装置包括：

样本获取模块，用于获取训练图像集，训练图像集包括：弱增强图像和强增强图像。

模型构建模块，用于构建MIM半监督语义分割网络模型，MIM半监督语义分割网络模型包括：教师模型、学生模型、重建探测头以及特征探测头。

第一预测熵图生成模块，用于将弱增强图像发送至教师模型进行语义分割，得到弱增强图像中未标记图像的第一伪标签，根据第一伪标签生成第一预测熵图。

强特征提取模块，用于将强增强图像输入学生模型解码器中，通过特征探测头从学生模型解码器中提取强语义特征及第二伪标签。

重建图像模块，用于将弱增强图像的掩码图像输入学生模型编码器中，通过重建探测头从学生模型编码器中提取的掩码语义特征及第三伪标签，基于MIM生成重建图像语义特征及第四伪标签。

第二预测熵图生成模块，用于通过拼接强语义特征、重建图像语义特征、第二伪标签以及第四伪标签，生成第二预测熵图。

模型训练模块，用于根据第一预测熵图与第二预测熵图的对比学习结果进行反向训练，得到训练好的MIM半监督语义分割网络模型。

上述基于MIM和对比学习的半监督语义分割方法及装置，通过构建MIM半监督语义分割网络模型，首先利用教师模型处理弱增强图像中未标签图像的数据，进而提取到第一伪标签，根据第一伪标签生成第一预测熵图，并且将弱增强图像的掩码图像作为学生模型的处理数据，促进了训练图像集各切片之间的信息交互，保障后续模型训练过程中数据的稳定性。其次，为重点提取训练图像集中未标签的语义特征，将强增强图像作为学生模型接收的另一个数据源，通过增加特征探测头和重建探测头，对学生模型中的图像数据进行分区域、分切片、分标签的处理，以此获取强语义特征、重建图像语义特征、第二伪标签以及第四伪标签，通过拼接融合，生成第二预测熵图，最后将第一预测熵图和第二预测熵图的对比学习结果作为反向训练图像集，重新输入至MIM半监督语义分割网络模型，不断提高训练结果的精度，以此得到训练好的MIM半监督语义分割网络模型。

附图说明

图1为一个实施例中基于MIM和对比学习的半监督语义分割方法的流程示意图；

图2为一个实施例中半监督语义分割网络模型的示意图；

图3为一个实施例中特征探测头的结构示意图；

图4为一个实施例中重建探测头的结构示意图；

图5为一个实施例中UNetFormer网络架构的示意图；

图6为一个实施例中训练LoveDA数据集部分结果对比图，其中，(a)遥感图像；(b)道路标签；(c)ReCo；(d)U2PL；(e)CAC；(f)CCT；(g)CPS；(h)PSMT；(i)SemiCMNet；

图7为一个实施例中训练DGLCC数据集部分结果对比图，其中，(a)遥感图像；(b)道路标签；(c)ReCo；(d)U2PL；(e)CAC；(f)CCT；(g)CPS；(h)PSMT；(i)SemiCMNet；

图8为一个实施例中Potsdam数据集部分结果对比图，其中，(a)遥感图像；(b)道路标签；(c)ReCo；(d)U2PL；(e)CAC；(f)CCT；(g)CPS；(h)PSMT；(i)SemiCMNet；

图9为一个实施例中基于MIM和对比学习的半监督语义分割装置的结构示意图。

具体实施方式

为了使本申请的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本申请进行进一步详细说明。应当理解，此处描述的具体实施例仅仅用以解释本申请，并不用于限定本申请。

值得说明的是，本发明中所涉及的“第一”、“第二”等描述仅代表命名方式，不区分大小和先后顺序，不能理解为指示或暗示其相对重要性或者隐含指明所指示的技术特征的数量。

在一个实施例中，如图1所示，提供了一种基于MIM和对比学习的半监督语义分割方法，包括以下步骤：

步骤102，获取训练图像集。

训练图像集包括：弱增强图像和强增强图像。

训练图像集可以分为标记图像x^l和未标记图像x^u，其中，标记图像的数据集表示为

其中包含M个标记图像/>

和其相应的标签/>

另外，未标记图像的数据集表示为/>

其中包含N未标记个未标记图像/>

具体的，弱增强图像为x_weak，可以分为标记弱增强图像和未标记弱增强图像，强增强图像为x_strong，可以分为标记强增强图像和未标记强增强图像。

步骤104，构建MIM半监督语义分割网络模型。

通过构建MIM半监督语义分割网络模型可以对训练图像集中的未标签图像进行更好的语义分割，使得提取到的语义特征及其对应的标签数量增多，有利于后续图像数据的还原。

半监督语义分割网络模型包括：教师模型、学生模型、重建探测头以及特征探测头。

教师模型和学生模型均采用UNetFormer模型，其中，UNetFormer模型中的编码器为ResNet50编码器。另外教师模型的参数由EMA(Exponential Moving Average，指数移动平均值)在学生模型上更新，其中，教师模型权重的更新可以表示为：

θ_t,i＝(1-α_θ)θ_t,i-1+α_θθ_s

其中，θ_t，i是教师模型的第i代权重，θ_s是学生模型的当前代权重，α_θ是平滑系数的超参数。

步骤106，将弱增强图像发送至教师模型进行语义分割，得到弱增强图像中未标记图像的第一伪标签，根据第一伪标签生成第一预测熵图。

值得说明的是，将弱增强图像发送至教师模型进行语义分割，得到弱增强图像的语义特征及其对应标签，利用UNetFormer模型对弱增强图像中未标签图像赋予第一伪标签，通过将第一伪标签与弱增强图像的标签进行拼接，生成第一预测熵图。

步骤108，将强增强图像输入所述学生模型解码器中，通过特征探测头从学生模型解码器中提取强语义特征及第二伪标签。

第一伪标签基于学生模型的第二伪标签进行自更新，表示为：

其中，

是未标记图像xu的第i个像素伪标签，/>

是x^u上的教师模型预测，

是/>

的预测标签，δ_p是伪标签阈值。值得说明的是，通过特征探测头对强增强图像语义特征及未标记图像像素的标签提取，进一步捕捉切片间的语义信息，提高语义特征提取精度。

步骤110，将弱增强图像的掩码图像输入学生模型编码器中，通过重建探测头从学生模型编码器中提取的掩码语义特征及第三伪标签，基于MIM生成重建图像语义特征及第四伪标签。

掩码m根据掩码速率随机生成，其形状与训练图像集x相同，值得说明的是，将弱增强图像的掩码图像x_weak·m输入学生模型中，通过重建语义一致性损失函数l_rsc，将弱增强图像的掩码图像的预测标签与训练图像集的标签进行比对，基于语义一致性损失函数l_rsc在语义级别上增强了不同补丁的连接，进而补充了训练图像集屏蔽区域缺失的语义特征信息，利用重建特测头和学生模型的残差模块重建图像

并提取重建图像中的掩码语义特征，对重建图像中未标签图像赋予第三伪标签，然后通过均方损失计算重建图像/>

与弱增强图像x_weak之间的差，掩码m像素仅包含两个不同的值，其中，1表示未掩码像素，0表示掩码像素。

具体的，重建损失函数l_r定义为：

其中，n_m为屏蔽像素的数量，

为学生模型的重建掩码图像，x_weak为弱增强图像，/>

为指示符函数，/>

表示屏蔽区域。

重构语义一致性损失函数lrsc，表示为：

其中，y是对教师模型处理的弱增强图像x_weak的语义分割预测第一伪标签，

是对弱增强图像的掩码图像x_weak·m的语义分割预测第三伪标签。

步骤112，通过拼接强语义特征、重建图像语义特征、第二伪标签以及第四伪标签，生成第二预测熵图。

步骤114，根据第一预测熵图与第二预测熵图的对比学习结果进行反向训练，得到训练好的MIM半监督语义分割网络模型。

值得说明的是，引入对比损失函数l_c，定义为：

其中，F_q是查询特征集，

是c类的负特征存储库，/>

是c类的正关键字，τ是控制特征分布平滑度的温度参数。通过对比损失函数对第一预测熵图与第二预测熵图的对比学习结果进行差值收敛，将收敛后的对比学习结果作为MIM半监督语义分割网络模型的输入数据，通过不断迭代训练，得到最终训练好的MIM半监督语义分割网络模型，即SemiCMNet模型。

具体的，采用batch中的类c(查询特性的类)的平均特性作为主键

，为了保持负密钥数和内存资源之间的平衡，构建一个动态队列，其中，负关键字队列/>

表示队列中除类c(即查询类)之外的所有数据。由于样本策略对对比学习很重要，因此，对查询F_q进行采样，发现对应的像素置信度低于查询阈值δ_q，故，当前批次的负密钥编号是根据批次和队列之间的平均特征相似度确定的。

上述基于MIM和对比学习的半监督语义分割方法中，上述基于MIM和对比学习的半监督语义分割方法及装置，通过构建MIM半监督语义分割网络模型，首先利用教师模型处理弱增强图像中未标签图像的数据，进而提取到第一伪标签，根据第一伪标签生成第一预测熵图，并且将弱增强图像的掩码图像作为学生模型的处理数据，促进了训练图像集各切片之间的信息交互，保障后续模型训练过程中数据的稳定性。其次，为重点提取训练图像集中未标签的语义特征，将强增强图像作为学生模型接收的另一个数据源，通过增加特征探测头和重建探测头，对学生模型中的图像数据进行分区域、分切片、分标签的处理，以此获取强语义特征、重建图像语义特征、第二伪标签以及第四伪标签，通过拼接融合，生成第二预测熵图，最后将第一预测熵图和第二预测熵图的对比学习结果作为反向训练图像集，重新输入至MIM半监督语义分割网络模型，不断提高训练结果的精度，以此得到训练好的MIM半监督语义分割网络模型。

在其中一个实施例中，将弱增强图像发送至教师模型，经教师模型中的第一残差模块、第一全局-局部注意力机制模块、第一加权求和模块以及第一特征增强模块对弱增强图像的第一语义特征进行提取，并对弱增强图像中的未标记图像赋予第一伪标签，根据第一语义特征与第一伪标签进行拼接，生成第一预测熵图。

值得说明的是，如图5所示，教师模型采用编码器为ResNet50的UNetFormer模型，以获得更好的特征提取能力。

在其中一个实施例中，教师模型包括：第一残差模块、第一全局-局部注意力机制模块、第一加权求和模块以及第一特征增强模块。第一残差模块接收弱增强图像并逐层处理弱增强图像的语义特征信息，得到第一残差语义特征。第一全局-局部注意力机制模块包括第一全局分支和第一局部分支，第一全局分支采用上下文交互模块提取弱增强图像的第一全局语义特征，第一局部分支采用并行的卷积层提取所述弱增强图像的第一局部语义特征。第一加权求和模块用于聚合第一残差语义特征、第一全局语义特征以及第一局部语义特征，得到弱增强图像的第一融合语义特征。第一特征增强模块接收第一融合语义特征，采用双信道处理方式处理第一融合语义特征，得到弱增强图像的第一语义特征。

在其中一个实施例中，学生模型包括第二残差模块、第二全局-局部注意力机制模块、第二加权求和模块以及第二特征增强模块。将强增强图像输入学生模型解码器中，经学生模型解码器中的第二残差模块、第二全局-局部注意力机制模块以及第二加权求和模块进行语义特征提取，得到第二语义特征。特征探测头从学生模型解码器中获取第二语义特征，根据预先构建的对比损失函数进行收敛，生成强语义特征及第二伪标签。

值得说明的是，如图3、图5所示，通过将学生模型的UNetFormer模型进行分模块提取特征，利用特征探测头对解码器中的语义特征进行二次分析和处理，可以进一步捕捉到强图像像素中未标签的像素，从而提高整体提取语义特征的提取精度。

在其中一个实施例中，将弱增强图像的掩码图像输入学生模型编码器中，经学生模型编码器中的第二残差模块进行语义特征提取，得到掩码语义特征。重建探测头从学生模型编码中提取掩码语义特征及弱增强图像的掩码图像的第三伪标签，基于MIM将掩码语义特征和第三伪标签进行拼接，得到重建图像。根据预先构建的重建损失函数对重建图像进行收敛，生成掩码预测图像，通过预先构建的重建语义一致性损失函数收敛掩码预测图像，得到重建图像语义特征及第四伪标签。

值得说明的是，如图4所示，MIM(Masked Image Modeling，掩码图像建模)可以增强重建图像各切片间的语义信息交互，使得重建探测头提取到的掩码语义特征及第三伪标签精度更高，且高置信度像素的预测标签对应的是第三伪标签。

在其中一个实施例中，通过预先构建的标签损失函数，将训练图象集的标签分别与第二伪标签和第四伪标签进行差值收敛，得到优化后的第二伪标签和第四伪标签，将强语义特征、重建图像语义特征、优化后的第二伪标签以及优化后的第四伪标签进行拼接，生成第二预测熵图。

在其中一个实施例中，标签损失函数定义为：

是第i-个像素的预测，n是参与计算的像素数。

值得说明的是，标签损失函数l_lab利用了标签y^l和伪标签y^u的信息，并且l_lab中的权重根据EMA(Exponential Moving Average，指数移动平均值)对相应标签的召回率进行动态调整，对于标记图像，训练图像和标签的所有像素都参与计算，因此n等于H×W。对于未标记图像，只有高置信度伪标签像素和相应的训练图像像素参与计算，所以n与伪标签像素的像素数相等。具体的，EMA更新权重λ，以保持稳定性和动态性的平衡。考虑到伪标签与真实标签相比不够可靠，更新基础是标签数据的召回率，而不是批次中的总数据。因此，权重λ通过以下方式更新：

λ_c,i＝(1-α_λ)λ_c,i-1+α_λ(1-Rec_l)

其中，λ_c，i是第i次权重更新迭代中类c的权重，α_λ是定义的参数，Rec_l是批中有标签数据的召回率。

在其中一个实施例中，根据第一预测熵图与第二预测熵图的差异构建熵损失函数，并将第一预测熵图与第二预测熵图的对比学习结果进行收敛，将收敛后的对比学习结果作为训练图像集输入MIM半监督语义分割网络模型中，得到训练好的MIM半监督语义分割网络模型。

值得说明的是，基于学生模型和教师模型的预测熵图之间的差异来设计熵损失函数le，定义为：

l_e(e_s,e_t)＝(e_t-e_s)²

其中，e_s和e_t分别是学生模型和教师模型的熵映射。具体的，熵映射值反映了预测的不确定性范围。熵损失l_e倾向于减少基于教师熵图e_t和学生熵图e的学生模型预测不确定性。熵值e_i(学生熵图e_s或教师熵图e_t)由以下公式计算：

其中，y_j表示预测向量

类别为j的概率。以此提高第一预测熵图与第二预测熵图对比学习结果的精度。

在其中一个实施例中，重建损失失函数定义为：

其中，n_m是屏蔽像素的数量，

是学生模型的重建图像，x_weak为具有弱增强的原始图像，/>

是指示符函数，/>

表示屏蔽区域。

在其中一个实施例中，采用三个公开的遥感图像道路数据集进行实验比对，分别是：LoveDA数据集、DeepGlobe Land Cover Classification数据集以及Potsdam数据集。

表格1各数据集图像数量

为了证明本发明提出的方法的有效性，使用几种先进的几种先进的半监督语义分割方法来进行定量和定性比较发明模型的性能，并进行定量和定性比较。

在对比实验中，我们使用三种图像质量评价指标来比较SemiCMNet(即MIM半监督语义分割网络模型)与其他模型。其他模型。表格2、表格3、表格4分别列出了使用每种方法训练LoveDA数据集、DGLCC数据集以及Potsdam数据集的定量结果；图6、图7、图8分别列出了各方法在数据集的定性结果。最高分用粗体表示，总的来说，提出的SemiCMNet在表现最好，在评价指标上分数最高并且预测图像的连续性最好。

表格2LoveDA数据集实验结果

表格3DGLCC数据集实验结果

表格4Potsdam数据集实验结果

应该理解的是，虽然图1-5的流程图中的各个步骤按照箭头的指示依次显示，但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明，这些步骤的执行并没有严格的顺序限制，这些步骤可以以其它的顺序执行。而且，图1-5中的至少一部分步骤可以包括多个子步骤或者多个阶段，这些子步骤或者阶段并不必然是在同一时刻执行完成，而是可以在不同的时刻执行，这些子步骤或者阶段的执行顺序也不必然是依次进行，而是可以与其它步骤或者其它步骤的子步骤或者阶段的至少一部分轮流或者交替地执行。

在一个实施例中，如图9所示，提供了一种基于MIM和对比学习的半监督语义分割装置，包括：样本获取模块、模型构建模块、第一预测熵图生成模块、强特征提取模块、重建图像模块、第二预测熵图生成模块和模型训练模块，其中：

关于基于MIM和对比学习的半监督语义分割装置的具体限定可以参见上文中对于基于MIM和对比学习的半监督语义分割方法的限定，在此不再赘述。上述基于MIM和对比学习的半监督语义分割装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中，也可以以软件形式存储于计算机设备中的存储器中，以便于处理器调用执行以上各个模块对应的操作。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的计算机程序可存储于一非易失性计算机可读取存储介质中，该计算机程序在执行时，可包括如上述各方法的实施例的流程。其中，本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用，均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限，RAM以多种形式可得，诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双数据率SDRAM(DDRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink)DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。

以上实施例的各技术特征可以进行任意的组合，为使描述简洁，未对上述实施例中的各个技术特征所有可能的组合都进行描述，然而，只要这些技术特征的组合不存在矛盾，都应当认为是本说明书记载的范围。

以上所述实施例仅表达了本申请的几种实施方式，其描述较为具体和详细，但并不能因此而理解为对发明专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本申请构思的前提下，还可以做出若干变形和改进，这些都属于本申请的保护范围。因此，本申请专利的保护范围应以所附权利要求为准。

Claims

1.一种基于MIM和对比学习的半监督语义分割方法，其特征在于，所述方法包括：

获取训练图像集，所述训练图像集包括：弱增强图像和强增强图像；

构建MIM半监督语义分割网络模型，所述MIM半监督语义分割网络模型包括：教师模型、学生模型、重建探测头以及特征探测头；

将所述弱增强图像发送至所述教师模型进行语义分割，得到所述弱增强图像中未标记图像的第一伪标签，根据所述第一伪标签生成第一预测熵图；

将所述强增强图像输入所述学生模型解码器中，通过所述特征探测头从所述学生模型解码器中提取强语义特征及第二伪标签；

将所述弱增强图像的掩码图像输入所述学生模型编码器中，通过所述重建探测头从所述学生模型编码器中提取的掩码语义特征及第三伪标签，基于MIM生成重建图像语义特征及第四伪标签；

通过拼接所述强语义特征、所述重建图像语义特征、所述第二伪标签以及所述第四伪标签，生成第二预测熵图；

根据所述第一预测熵图与所述第二预测熵图的对比学习结果进行反向训练，得到训练好的MIM半监督语义分割网络模型。

2.根据权利要求1所述的方法，其特征在于，将所述弱增强图像发送至所述教师模型进行语义分割，得到所述弱增强图像中未标记图像的第一伪标签，根据所述第一伪标签生成第一预测熵图，包括：

将所述弱增强图像发送至所述教师模型，经所述教师模型中的第一残差模块、第一全局-局部注意力机制模块、第一加权求和模块以及第一特征增强模块对所述弱增强图像的第一语义特征进行提取，并对所述弱增强图像中的未标记图像赋予第一伪标签，根据所述第一语义特征与所述第一伪标签进行拼接，生成第一预测熵图。

3.根据权利要求2所述的方法，其特征在于，所述教师模型包括：第一残差模块、第一全局-局部注意力机制模块、第一加权求和模块以及第一特征增强模块；

所述第一残差模块接收所述弱增强图像并逐层处理所述弱增强图像的语义特征信息，得到第一残差语义特征；

所述第一全局-局部注意力机制模块包括第一全局分支和第一局部分支，所述第一全局分支采用上下文交互模块提取所述弱增强图像的第一全局语义特征，所述第一局部分支采用并行的卷积层提取所述弱增强图像的第一局部语义特征；

所述第一加权求和模块用于聚合所述第一残差语义特征、所述第一全局语义特征以及所述第一局部语义特征，得到所述弱增强图像的第一融合语义特征；

所述第一特征增强模块接收所述第一融合语义特征，采用双信道处理方式处理所述第一融合语义特征，得到所述弱增强图像的第一语义特征。

4.根据权利要求3所述的方法，其特征在于，将所述强增强图像输入所述学生模型解码器中，通过所述特征探测头从所述学生模型解码器中提取强语义特征及第二伪标签，包括：

所述学生模型包括第二残差模块、第二全局-局部注意力机制模块、第二加权求和模块以及第二特征增强模块；

将所述强增强图像输入所述学生模型解码器中，经所述学生模型解码器中的所述第二残差模块、所述第二全局-局部注意力机制模块以及所述第二加权求和模块进行语义特征提取，得到第二语义特征；

所述特征探测头从所述学生模型解码器中获取所述第二语义特征，根据预先构建的对比损失函数进行收敛，生成强语义特征及第二伪标签。

5.根据权利要求4所述的方法，其特征在于，将所述弱增强图像的掩码图像输入所述学生模型编码器中，通过所述重建探测头从所述学生模型编码器中提取的掩码语义特征及第三伪标签，基于MIM生成重建图像语义特征及第四伪标签，包括：

将所述弱增强图像的掩码图像输入所述学生模型编码器中，经所述学生模型编码器中的所述第二残差模块进行语义特征提取，得到掩码语义特征；

所述重建探测头从所述学生模型编码中提取所述掩码语义特征及所述弱增强图像的掩码图像的第三伪标签，基于MIM将所述掩码语义特征和所述第三伪标签进行拼接，得到重建图像；

根据预先构建的重建损失函数对所述重建图像进行收敛，生成所述掩码预测图像，通过预先构建的重建语义一致性损失函数收敛所述掩码预测图像，得到重建图像语义特征及第四伪标签。

6.根据权利要求5所述的方法，其特征在于，通过拼接所述强语义特征、所述重建图像语义特征、所述第二伪标签以及所述第四伪标签，生成第二预测熵图，包括：

通过预先构建的标签损失函数，将所述训练图象集的标签分别与所述第二伪标签和所述第四伪标签进行差值收敛，得到优化后的所述第二伪标签和所述第四伪标签，将所述强语义特征、所述重建图像语义特征、优化后的所述第二伪标签以及优化后的所述第四伪标签进行拼接，生成第二预测熵图。

7.根据权利要求6所述的方法，其特征在于，所述标签损失函数定义为：

是第i-个像素的预测，n是参与计算的像素数。

8.根据权利要求7所述的方法，其特征在于，根据所述第一预测熵图与所述第二预测熵图的对比学习结果进行反向训练，得到训练好的MIM半监督语义分割网络模型，包括：

根据所述第一预测熵图与所述第二预测熵图的差异构建熵损失函数，并将所述第一预测熵图与所述第二预测熵图的对比学习结果进行收敛，将收敛后的所述对比学习结果作为训练图像集输入MIM半监督语义分割网络模型中，得到训练好的MIM半监督语义分割网络模型。

9.根据权利要求8所述的方法，其特征在于，所述重建损失函数定义为：

其中，n_m是屏蔽像素的数量，

是学生模型的重建图像，x_weak为具有弱增强的原始图像，/>

是指示符函数，/>

表示屏蔽区域。

10.一种基于MIM和对比学习的半监督语义分割装置，其特征在于，所述装置包括：

样本获取模块，用于获取训练图像集，所述训练图像集包括：弱增强图像和强增强图像；

模型构建模块，用于构建MIM半监督语义分割网络模型，所述MIM半监督语义分割网络模型包括：教师模型、学生模型、重建探测头以及特征探测头；

第一预测熵图生成模块，用于将所述弱增强图像发送至所述教师模型进行语义分割，得到所述弱增强图像中未标记图像的第一伪标签，根据所述第一伪标签生成第一预测熵图；

强特征提取模块，用于将所述强增强图像输入所述学生模型解码器中，通过所述特征探测头从所述学生模型解码器中提取强语义特征及第二伪标签；

重建图像模块，用于将所述弱增强图像的掩码图像输入所述学生模型编码器中，通过所述重建探测头从所述学生模型编码器中提取的掩码语义特征及第三伪标签，基于MIM生成重建图像语义特征及第四伪标签；

第二预测熵图生成模块，用于通过拼接所述强语义特征、所述重建图像语义特征、所述第二伪标签以及所述第四伪标签，生成第二预测熵图；

模型训练模块，用于根据所述第一预测熵图与所述第二预测熵图的对比学习结果进行反向训练，得到训练好的MIM半监督语义分割网络模型。