CN116228639A

CN116228639A - 基于半监督多级不确定性感知的口腔全景片龋齿分割方法

Info

Publication number: CN116228639A
Application number: CN202211597481.XA
Authority: CN
Inventors: 王显赟; 蒋凯盛; 高斯哲; 俞俊; 张慧聪; 陈宇; 杨帆; 陈枫; 朱素果
Original assignee: Hangzhou Yuyu Intelligent Technology Co ltd; Shaoxing Microsource Biomedical Technology Co ltd; Hangzhou Dianzi University; Zhejiang Provincial Peoples Hospital
Current assignee: Hangzhou Yuyu Intelligent Technology Co ltd; Shaoxing Microsource Biomedical Technology Co ltd; Hangzhou Dianzi University; Zhejiang Provincial Peoples Hospital
Priority date: 2022-12-12
Filing date: 2022-12-12
Publication date: 2023-06-06

Abstract

本发明公开了一种基于半监督多级不确定性感知的口腔全景片龋齿分割方法。本发明通过学生老师模型进行迭代训练，从解码器的各层中提取不同尺度的特征图进行深监督，并采用高斯噪声扰动和蒙特卡罗方法生成不确定性掩码矩阵，利用不同层解码器的多级输出辅助不确定性掩码的生成。由于各层感受野的差异，本方法将不确定性掩码矩阵从二维空间扩展到三维，即同时利用噪声扰动、指数移动平均(EMA)和多级特征来丰富不确定性掩码的参考性，从而帮助模型区分口腔全景图中图像特征相似的伪影和龋齿，提高模型对各种规模龋齿的识别性能，以提高医疗辅助作用。

Description

基于半监督多级不确定性感知的口腔全景片龋齿分割方法

技术领域

本发明属于医学图像分割及医疗辅助领域，涉及一种基于半监督多级不确定性感知的口腔全景片龋齿分割方法。

背景技术

龋病是以细菌为主的多种因素影响下所导致的牙体硬组织慢性进行性破坏性疾病，是人类最常见的口腔疾病。世界卫生组织已将龋齿、肿瘤和心血管疾病列为人类防治的三大疾病。根据2017年中国第四次口腔健康流行病学调查报告显示，5岁儿童乳牙患龋率为70.9％；12岁儿童恒牙患龋率为34.5％；35-44岁年龄组恒牙患龋率为89.0％，55-64岁年龄组恒牙患龋率为95.6％，65-74岁年龄组恒牙患龋率为98.0％。由此可见，我国龋病在各年龄段普及并且患病率很高，但在临床治疗中牙齿患龋率和治疗率之间却存在极大差距。

龋齿的临床诊断主要依靠口腔全景片，全景X光图像可以提供全面的口腔状况，并提示大部分牙齿病变的信息，但仍然存在以下问题：首先，由于X光成像的特点，全景片图像总是有很多来自患者的噪声包括患者头部摆动、设备质量和医务人员的操作经验造成的大量伪影，对基于低密度阴影的识别造成很大干扰。其次，不同于一般的医学分割任务，龋病灶的平均面积仅占全景图像的1.5‰，浅龋甚至不到0.5‰。目前，小目标感知是现代神经网络的一个具有挑战性的问题，因此早期的牙齿龋坏很难在深度感受野中被提取到。考虑到龋齿是一种从牙釉质出现并逐渐侵入牙本质和牙髓腔的发展性疾病，其在全景片图像中经常呈渐进性边界形态。因此全景口腔影像的正确判读很大程度上依赖于临床牙医的经验，这也极大地增加了龋齿诊断的不确定性，导致漏诊率和误诊率相对较高。

随着基于深度卷积神经网络在医学图像分割领域的普及，以编码器和解码器为基础架构的方法，例如FPN、U-Net以及改良变种Res-UNet和U-Net++等后续网络，已经广泛用于各种分割任务。全监督的深度学习方法往往需要大量的数据才能有较好的效果，但由于医学数据标注需要专业知识和高昂的人力成本，研究人员很难获取到大量数据。为了解决这一个问题，利用无标签数据的半监督框架也被使用到医学图像分割领域，生成伪标签监督和一致正则化是比较主流的两个半监督子方向，其中一致性正则化关键在于如何设计出一个强大的不确定性掩码矩阵，而这一矩阵对半监督训练过程来说是极其敏感的。

发明内容

本发明提供了一种基于半监督多级不确定性感知的口腔全景片龋齿分割方法。之前的研究表明，不同层解码器激活的统一特征与最后的识别结果的置信度高度相关，且不同层次解码器的输出可以衍生出多级不同尺度特征。本方法通过学生老师模型进行迭代训练，从解码器的各层中提取不同尺度的特征图进行深监督。同时采用高斯噪声扰动和蒙特卡罗方法生成不确定性掩码矩阵，并利用多级输出辅助不确定性掩码的生成。教师网络利用指数移动平均值(EMA)来记录历史扰动信息。由于各层感受野的差异，本方法将不确定性感知区域从二维空间扩展到三维，即同时利用噪声扰动、EMA和多级特征来丰富不确定性掩码矩阵的参考性，可以帮助区分口腔全景图中图像特征相似的伪影和龋齿，显著地提高了口腔全景片龋齿的分割能力。

本发明解决其技术问题所采用的技术方案实现如下：

基于半监督多级不确定性感知的口腔全景片龋齿分割方法，其步骤如下：

步骤1.数据集获取，本方法为龋齿分割任务提出了一个全新的龋齿数据集DC1000，其清晰图像数据来自浙江省人民医院口腔科。

步骤2.数据处理，在步骤1所获取的医学图像分割数据集上，将训练数据裁剪成包含龋齿的切片，将测试数据去除骨质部分，裁剪得到中心口腔位置。再对裁剪后的训练样本图像进行随机的亮度、对比度调整，和水平翻转以及固定范围内随机旋转，从而增加训练样本的多样性。

步骤3.定义基于多级不确定性感知的网络架构，该网络架构采用一种双网络结构，包括两个分支即教师分支和学生分支。以步骤2处理后的训练集中的有标签图像和无标签图像作为学生网络的输入，并对有标签图像结合其对应实际分割标签图做有监督训练。将输入学生网络中的无标签图像同样输入教师网络，并且再对该无标签图像进行随机扰动多次，后再多次输入教师网络。关闭教师网络的梯度回传，由学生网络通过指数移动平均(EMA)方法更新教师网络参数，保存历史版本的扰动信息。

步骤4.损失函数，本方法损失函数分为3个部分，包括学生模型有监督直接预测的训练损失、多尺度深监督的训练损失以及双网络模型无标签预测的一致性损失。

步骤5.定义AdamW优化器，初始学习率设定为0.001，模型训练过程中，动量和权重衰减系数分别设置为0.9和0.001，学习率随着训练周期增加而减缓，从而有效抑制振荡。半监督的一个batch中，有标签样本和无标签样本各占一半。

步骤6.网络训练与测试，按照步骤3的方式进行网络训练，教师网络参数由学生网络通过指数移动平均(EMA)方式进行更新。在测试阶段，本方法使用滑动窗口以50％的重复率进行切片组成切片集，输入到学生网络中得到预测集结果，将预测结果按照对应切片位置重新恢复成原始图像得到最后的预测结果。评估指标采用的为平均Dice、平均敏感度(Sensitivity)以及平均准确率(Precision)。

步骤1所述的DC1000数据集包含从浙江省人民医院口腔科芬兰普兰梅卡系列X射线机所拍摄的已用于临床使用的1000张口腔全景图。其中含有精准标注593张和未标注407张，全景图像素尺寸为2943*1435。

步骤2所述的数据处理，具体实现如下：

将训练数据裁剪成包含龋齿的384*384大小的切片，将测试数据去除骨质部分，裁剪得到1536*768的中心口腔位置图片。再对裁剪后的训练样本图像进行概率为50％的亮度、对比度调整，和概率为50％的水平翻转以及-45°到45°内围绕原图中心随机旋转，从而增加训练样本的多样性。

其中训练切片数据含有标签数据和无标签数据这两个部分。有标签数据包含对应的实际分割标签，即分别代表前景与背景的值为255和0像素的二值图。

步骤3所述的学生网络和教师网络，具体实现如下：

学生网络和教师网络的网络结构是相同的，整个模型采用编码器和解码器结构，编码器均采用ResNet34，下采样次数和上采样次数均为4次。学生网络作为训练全监督和半监督的网络模型，教师网络作为训练全无标签数据的网络模型，教师网络无反向传播，其参数来自于学生网络的历史版本，可以保留历史扰动信息。

对于学生网络，以步骤2处理后的训练集切片中的有标签图像和无标签图像以及有标签图像对应的实际分割标签图作为其网络的输入。有标签图像共有M张，每张标签图像有监督训练得到1个直接预测，使用交叉熵损失和Dice损失函数进行有监督训练，损失函数l_seg定义如下：

其中f(x_i)为每张有标签图像的直接预测输出，y_i为对应的真实标签(即实际分割标签图)。

同时有监督训练预测输出还包含L层多尺度解码器输出，将各层解码器输出结果输入到L个分割模块以获取相同尺度的预测结果进行深监督。该部分同样使用交叉熵损失和Dice损失函数，深监督损失函数l_DS定义如下：

其中，M_(decl，i)表示第i层解码器的输出，W_l表示对应的分割模块权重参数，σ表示sigmoid函数，而y_i为该样本对应的真实标签。l_bce表示交叉熵损失，l_dce表示Dice损失函数。

对于教师网络，将输入到学生网络中相同的无标签图像，同样不采取任何高斯扰动处理，直接输入到教师网络中得到1个直接预测和L层多尺度输出。将教师网络得到的无标签直接输出和对应学生网络得到的直接输出做一个L2 MSE Loss。随后，本发明对此无标签图像数据先进行一次高斯噪声扰动，随后教师网络采用蒙特卡罗方法采样T次，在每次采样的过程中再进行一次高斯噪声扰动，将扰动后的无标签图像数据集再次输入教师网络，同样会得到1个直接输出和L个多尺度输出。对L个多尺度输出同样输入到对应的L个分割模块中，上采样得到相同尺度的预测结果。经过上述的T次循环采样后，得到T*L个预测结果，使用Mean方法对预测结果进行融合得到

使用如下的公式得到不确定性掩码矩阵m_uncertain：

并且模型会动态生成一个阈值threshold来调整不确定掩码矩阵，生成动态阈值的公式如下所示：

其中，γ和β是用于调整阈值的两个超参数。c和C分别表示当前和最大训练时间。选择不确定度测量矩阵中小于当前训练阈值的部分作为特定的掩码。在不确定掩码矩阵中小于当前训练阈值的部分将被选为最后的特定掩码矩阵。

最后得到学生网络和教师网络对于同一批次无标签样本数据的无监督训练损失为根据特定掩码矩阵从之前的两个网络的直接预测输出选择某些区域的L2 MSE Loss。其一致性损失l_con计算公式如下图所示：

其中M表示全部的有标签图像，N表示全部的无标签图像，

表示教师网络的直接输出，/>

表示学生网络的直接输出。

对于教师网络，其模型参数由学生网络通过指数移动平均(EMA)方式进行更新。参数更新函数如下所示：

θ_g＝αθ_g+(1-α)θ_f (公式6)

其中θ_g表示教师网络的参数，θ_f表示学生网络的参数，α是一个超参数，α会根据当前的周期动态变化。

步骤4.损失函数，通过步骤3本方法损失函数分为3个部分，包括学生模型有监督直接预测的训练损失l_seg、多尺度深监督的训练损失l_DS以及双网络模型无标签预测的一致性损失l_con。本方法定义总训练损失公式如下所示：

l＝l_seg+l_DS+λl_con (公式7)

其中λ为超参数表示有标签数据和无标签数据训练过程权衡损失函数的平衡因子，其值也会根据周期而动态变化。

步骤5.定义AdamW优化器，初始学习率设定为0.001，模型训练过程中，动量和权重衰减系数分别设置为0.9和0.001，学习率随着训练周期增加而减缓。

全监督和半监督的批量大小分别设置为4和8。在半监督的8个批次大小中，标记和未标记的样本各占一半。另外，实验中取最大epoch数为200，设置多层解码器的层数为4，即C＝200，L＝4。此外，α＝0.99，β＝0.75，γ＝2为上述提到的其余3个超参数设置。

步骤6.网络训练与测试，按照步骤3的方式进行网络训练，教师网络参数由学生网络通过指数移动平均(EMA)方式进行更新。在测试阶段，本方法使用滑动窗口以50％的重复率进行切片组成切片集，输入到学生网络中得到预测集结果，并取预测值大于0.5的作为最后预测集结果，将预测结果按照对应切片位置使用Mean方法重新恢复成原始图像得到最后的预测结果。评估指标采用的为平均Dice、平均敏感度(Sensitivity)以及平均准确率(Precision)。平均Dice是指每张预测分割图与真实分割标签图计算Dice结果，再取其均值。同样敏感度和准确率也是计算每张图的结果累和后取平均。

本发明的有益效果如下：

本发明基于半监督多级不确定性感知掩码矩阵对口腔全景片龋齿进行分割。本方法利用不同层解码器激活的统一特征与最后的识别结果的置信度高度相关，而不同层解码器的输出可以衍生出多个不同尺度这一特性。通过学生老师模型进行迭代训练，从解码器的各层中提取不同尺度的特征图进行深监督。同时采用高斯噪声扰动和蒙特卡罗方法生成不确定性掩码矩阵，并利用多级输出辅助不确定掩码生成。而教师网络利用EMA更新历史扰动信息。多层输出具有不同的感受野大小，基于各层感受野的差异，本方法将不确定性掩码矩阵从二维空间扩展到三维，即同时利用噪声扰动、EMA和多级特征来丰富不确定性掩码的参考性，可以帮助区分口腔全景图中图像特征相似的伪影和龋齿，提高模型对中小龋齿的识别率，以显著对各种规模龋齿的识别效果，提升分割网络的精度。

附图说明

图1是本发明流程图。

图2是发明方法中的整个模型框架示意图。

图3是本发明与其他方法的分割效果对比图。

具体实施方式

下面结合附图和实施例对本发明作进一步说明。

本发明通过学生老师模型进行迭代训练，从解码器的各层中提取不同尺度的特征图进行深监督，并采用高斯噪声扰动和蒙特卡罗方法生成不确定性掩码矩阵，利用不同层解码器的多级输出辅助不确定性掩码的生成。由于各层感受野的差异，本方法将不确定性掩码矩阵从二维空间扩展到三维，即同时利用噪声扰动、指数移动平均(EMA)和多级特征来丰富不确定性掩码的参考性，从而帮助模型区分口腔全景图中图像特征相似的伪影和龋齿，提高模型对各种规模龋齿的识别性能，以提高医疗辅助作用。

如图1所示，基于半监督多级不确定性感知的口腔全景片龋齿分割方法流程图，具体包括如下步骤：

步骤1.收集的全景图数据集DC1000包含从浙江省人民医院口腔科由芬兰普兰梅卡系列X射线机所拍摄的已用于临床使用的1000张口腔全景图。其中含有精准标注593张和粗略标注407张，全景图像素尺寸为2943*1435。

步骤2.数据处理，首先将带注释的训练口腔全景图中的牙齿区域框出，然后选择包含完整龋齿标签的部分区域进行切片(尽量边界不切断龋齿)，并将其作为模型的输入，切片的大小统一为384*384。这解决了牙科全景图像中前景和背景比例不平衡的问题，加速了模型的收敛并保持了模型的稳定性。其次将100张测试全景图数据去除骨质部分，裁剪得到1536*768的包含仅牙齿的中心口腔位置图片。再对裁剪后的训练样本图像进行概率为50％的亮度、对比度调整，和概率为50％的水平翻转以及-45°到45°内围绕原图中心随机旋转，提升模型收敛的能力。

步骤3.如图2所示为基于半监督多级不确定性感知掩码矩阵网络框架图，本方法采用ResNet34作为编码器，整个U形状网络架构被用做分割模型的主干网络。整个网络为双模型结构，分别为学生模型和教师模型，两个分支网络结构相同但参数不共享。以步骤2处理后的训练图像以及训练图像的真实分割图作为输入进行有监督训练。输入图像的维度为(B_Stu/2，C，H，W)，有监督训练包括L层多尺度输出和1个直接预测，L层多层输出分别对应L次下采样次数，每次下采样H和W缩小一半，随后将多尺度输出输入到对应分割头中，在分割头中会先做一个简单的3*3卷积和Relu操作，再分别上采样还原到统一标签形状(B_Stu/2，1，H，W)进行损失计算，损失计算包括交叉熵损失和Dice损失，学生网络的有监督损失为将L层特征图的损失结果平均再加上直接预测的损失结果。然后，将无标签数据不经过高斯扰动直接输入网络中得到一个预测结果，其维度同样为(B_Stu/2，1，H，W)。

对于教师网络，将输入到学生网络中相同的无标签图像维度为(B_Tea/2，C，H，W)，同样不采取任何高斯扰动处理，直接输入到网络中得到1个直接预测和L层多尺度输出。将教师网络得到的无标签直接输出和对应学生网络得到的直接输出做一个L2 MSE Loss。随后，本方法对此无标签数据先进行一次高斯噪声扰动，随后教师网络采用蒙特卡罗方法采样T次，在每次采样的过程中再进行一次高斯噪声扰动，将扰动后的无标签数据再次输入教师网络，同样会得到(1+L)个输出。对L个多尺度输出同样输入到对应的L个分割头中，上采样得到相同尺度的预测结果。上述的步骤循环T次之后，会得到T*(1+L)*B个预测样本结果，将预测结果在第一个维度上叠在一起得到维度(T*L*B，1，H，W)，在进行维度转换还原到batch层次，此时输出维度为(T*(1+L)，B，1，H，W)，最后使用Mean方法将对预测结果进行融合，其最终输出维度为(B，1，H，W)。随后计算得到初次不确定性掩码矩阵m_uncertain。并且模型会动态生成一个阈值threshold来调整每个周期的不确定性掩码矩阵，选择不确定性掩码矩阵中小于当前训练阈值的部分作为确定掩码M_certain。

最后得到学生网络和教师网络对于同一批次无标签样本数据的无监督训练损失为根据确定掩码矩阵M_certain从之前的两个网络的直接预测输出选择某些区域的L2 MSELoss得到最后l_con损失。

步骤4.损失函数，通过步骤3本方法损失函数分为3个部分，包括学生模型有监督直接预测的训练损失l_seg、多尺度深监督的训练损失l_DS以及双网络模型无标签预测的一致性损失l_con。

步骤5.定义AdamW优化器，初始学习率设定为0.001，模型训练过程中，动量和权重衰减系数分别设置为0.9和0.001，学习率随着训练周期增加而减缓全监督和半监督的批量大小分别设置为B_train＝4和B_train＝8。在半监督的B_train＝8这8个批大小中，标记和未标记的样本各占一半。本方法最大epoch数为200，设置多层解码器的层数为4，即C＝200，L＝4。此外，α＝0.99，β＝0.75，y＝2为上述提到的其余3个超参数设置。

本方法两组实验中分别进行了265和530切片数量下的全监督和半监督性能评估，分别表示为DICE₂₆₅、SEN₂₆₅、Pre₂₆₅和DICE₅₃₀、SEN₅₃₀和Pre₅₃₀。实现模型包括MANet、FPN、DeepLabV3+、Linknet、Unet、Unet++、PAN和PSPnet。为了进行公平比较，还引入了一些常用的半监督学习框架例如URPC、UAMT、CLCC，以测试本方法在龋齿分割任务中识别争议区域的有效性。结果示于表1。(全景图部分切片分割可视化效果可见图3)

表1经典分割网络与基于不确定性感知的半监督模型的性能比较

由表1可见，在265个切片的全监督训练条件下，网络之间的性能差异很大。MAnet的表现最差为40.37％，而PSPnet的表现最好，为54.43％。当训练切片的数量增加一倍至530个时，每个网络的评估结果的多样性显着降低，并且它们的性能稳定在65％Dice。经典的分割网络Unet和在本方法网络使用的基准骨干模型FPN，两者分割准确率分别为64.66％和64.99％。在选择的三个半监督框架中，URPC的性能最差，两次实验的Dice分别为49.44％和59.34％，而本方法的为61.40％和71.12％均优于UAMT和CLCC。

并且本方法引入高斯噪声、迭代训练和多尺度干扰共同参与不确定性掩码矩阵的生成，成功将两次实验的最佳Dice性能分别从56.23％提高5.17％，从66.08提高5.04％。同时，在医学任务中需尽可能地提高检测率以减少漏检，本方法在敏感度(Sensitivity)上也有不错的提升，在两次实验中分别达到了58.77％和68.44％，这更加有利于早期龋齿的诊断，可以更好的辅助于临床医疗。

Claims

1.基于半监督多级不确定性感知的口腔全景片龋齿分割方法，其特征在于包括如下步骤：

步骤1.数据集获取，为龋齿分割任务构建一个全新的龋齿数据集DC1000；

步骤2.数据处理，在步骤1所获取的龋齿数据集上，将训练数据裁剪成包含龋齿的切片，将测试数据去除骨质部分，裁剪得到中心口腔位置；再对裁剪后的训练样本图像进行随机的亮度、对比度调整，和水平翻转以及固定范围内随机旋转，从而增加训练样本的多样性；

步骤3.定义基于多级不确定性感知的网络架构，该网络架构采用一种双网络结构，包括两个分支即教师分支和学生分支；以步骤2处理后的训练集中的有标签图像和无标签图像作为学生网络的输入，并对有标签图像结合其对应实际分割标签图做有监督训练；将输入学生网络中的无标签图像同样输入教师网络，并且再对该无标签图像进行随机扰动多次，后再多次输入教师网络；关闭教师网络的梯度回传，由学生网络通过指数移动平均方法更新教师网络参数，保存历史版本的扰动信息；

步骤4.损失函数，该损失函数分为3个部分，包括学生模型有监督直接预测的训练损失、多尺度深监督的训练损失以及双网络模型无标签预测的一致性损失；

步骤5.定义AdamW优化器，设定初始学习率；模型训练过程中，动量和权重衰减系数分别进行设置；学习率随着训练周期增加而减缓，从而有效抑制振荡；半监督的一个batch中，有标签样本和无标签样本各占一半；

步骤6.网络训练与测试，按照步骤3的方式进行网络训练，教师网络参数由学生网络通过指数移动平均方式进行更新；在测试阶段，使用滑动窗口以50％的重复率进行切片组成切片集，输入到学生网络中得到预测集结果，将预测结果按照对应切片位置重新恢复成原始图像得到最后的预测结果。

2.根据权利要求1所述的基于半监督多级不确定性感知的口腔全景片龋齿分割方法，其特征在于步骤1具体如下：

步骤1所述的龋齿数据集DC1000包含从浙江省人民医院口腔科芬兰普兰梅卡系列X射线机所拍摄的已用于临床使用的1000张口腔全景图，其中含有精准标注593张和未标注407张，全景图像素尺寸为2943*1435。

3.根据权利要求2所述的基于半监督多级不确定性感知的口腔全景片龋齿分割方法，其特征在于步骤2所述的数据处理，具体实现如下：

将训练数据裁剪成包含龋齿的384*384大小的切片，将测试数据去除骨质部分，裁剪得到1536*768的中心口腔位置图片；再对裁剪后的训练样本图像进行概率为50％的亮度、对比度调整，和概率为50％的水平翻转以及-45°到45°内围绕原图中心随机旋转，从而增加训练样本的多样性。

4.根据权利要求3所述的基于半监督多级不确定性感知的口腔全景片龋齿分割方法，其特征在于步骤3所述的学生网络分支和教师网络分支，具体实现如下：

学生网络和教师网络的网络结构是相同的，整个模型采用编码器和解码器结构，编码器均采用ResNet34，下采样次数和上采样次数均为4次；学生网络作为训练全监督和半监督的网络模型，教师网络作为训练全无标签数据的网络模型，教师网络无反向传播，其参数来自于学生网络的历史版本，从而保留历史扰动信息；

对于学生网络，以步骤2处理后的训练集切片中的有标签图像和无标签图像以及有标签图像对应的实际分割标签图作为其网络的输入；有标签图像共有M张，每张标签图像有监督训练得到1个直接预测，使用交叉熵损失和Dice损失函数进行有监督训练，损失函数

定义如下：

其中f(x_i)为每张有标签图像的直接预测输出，y_i为对应的真实标签；

同时有监督训练预测输出还包含L层多尺度解码器输出，将各层解码器输出结果输入到L个分割模块以获取相同尺度的预测结果进行深监督；该部分同样使用交叉熵损失和Dice损失函数，深监督损失函数

定义如下：

其中，M_(decl,i)表示第i层解码器的输出，W_l表示对应的分割模块权重参数，σ表示sigmoid函数，而y_i为该样本对应的真实标签；

表示交叉熵损失，/>

表示Dice损失函数；

对于教师网络，将输入到学生网络中相同的无标签图像，同样不采取任何高斯扰动处理，直接输入到教师网络中得到1个直接预测和L层多尺度输出；将教师网络得到的无标签直接输出和对应学生网络得到的直接输出做一个L2 MSE Loss；随后对此无标签图像数据先进行一次高斯噪声扰动，随后教师网络采用蒙特卡罗方法采样T次，在每次采样的过程中再进行一次高斯噪声扰动，将扰动后的无标签图像数据集再次输入教师网络，同样会得到1个直接输出和L个多尺度输出；对L个多尺度输出同样输入到对应的L个分割模块中，上采样得到相同尺度的预测结果；经过上述的T次循环采样后，得到T*L个预测结果，使用Mean方法对预测结果进行融合得到