CN115661459A

CN115661459A - 一种使用差异信息的2D mean teacher模型

Info

Publication number: CN115661459A
Application number: CN202211363695.0A
Authority: CN
Inventors: 杜秀全; 王召鹤; 邹军国; 吴昌雨
Original assignee: Anhui University
Current assignee: Anhui University
Priority date: 2022-11-02
Filing date: 2022-11-02
Publication date: 2023-01-31

Abstract

本发明涉及一种使用差异信息的2D mean teacher模型，其是在mean teacher框架的基础上改进得到的。mean teacher框架是一个比较流行的半监督学习框架，很多优秀的半监督框架都是对其的改造。本发明在基础的mean teacher基础上，提取出学生模型的预测和教师模型的预测间的差异信息，然后通过约束提取出的差异信息，来保证学生模型和教师模型之间的预测一致性，保证二者可以互相学习。同时，为了进一步保证学生模型和教师模型间的一致性，从而提升模型性能，本发明利用提取的差异信息，对模型间的一致性损失进行了改进，使其能够更加关注图像的具有挑战性的区域。

Description

一种使用差异信息的2D mean teacher模型

技术领域

本发明涉及医学图像分割领域，特别是涉及一种使用差异信息的2D meanteacher模型。

背景技术

针对半监督左心房医学图像分割，在半监督左心房医学图像分割任务中大部分的方法均是基于一致性准则来实现的。然而，一部分现有的遵守该原则的半监督方法，为了保证训练的准确性，通常会计算出图像的不确定性，在训练过程中去除不确定性大的区域。例如图1所示：Yu et al.在3Dmean teacher模型中使用Monte Carlo Dropout计算教师模型预测的不确定性区域，这些不确定区域就是具有挑战性的区域，为了让学生模型学到更准确的数据，将不确定性区域高的地方去掉供学生模型学习。

但是，这些经过Monte Carlo Dropout计算得到的不确定大的区域代表了图像中具有挑战性的部分，包含了较难识别的特征如图2所示，这些特征同样比较重要，不应该被舍弃，盲目丢弃会导致模型无法从这些区域获取一些有用的特征来进行优化，不利于模型性能的提升。

也有其他方法认识到了这些不确定大的区域也就是具有挑战性区域的重要性。例如图3所示，有人使用循环伪标签方案将两个解码器的预测差异转化为无监督损失，从而使整体框架能够从未标记图片中具有挑战性的区域捕获一定的特征，从而减少两个解码器的预测差异，使两个解码器具有一致的准确预测。

该方法使用模型间的差异来当作不确定，差异大的区域就是不确定性大的区域，也就是具有挑战性的区域。但是该方法虽然考虑到了模型间的差异，却没有将其提取进一步利用，只是将之转化为无监督损失，这并不能保证模型会关注这些区域，并从中提取特征，而且它只考虑了模型最后输出间的差异，并没有考虑模型中间的输出，这可能导致得到的差异信息不够完整。

发明内容

基于此，在左心房分割任务中有必要针对现有3D模型的性能不够完善并且占用内存大，训练时间长的技术问题，本发明提供一种使用差异信息的2Dmean teacher模型。

本发明采用以下技术方案实现：一种使用差异信息的2D mean teacher模型，其为一个2D模型，用于左心房图像的分割，2D mean teacher模型在分割时包括以下步骤：

步骤一，对得到的左心房数据集进行数据预处理，所述左心房数据集包括多张左心房图像；

步骤二，将处理好的所述左心房数据集划分为训练集和测试集，训练集中的数据用于2D mean teacher模型的模型训练，经过多次训练，得到一个在训练集上优化的2Dmean teacher模型；

步骤三，使用测试集对训练集得到的模型进行验证，进一步评估模型的性能；

在步骤一中，对所述左心房数据集中的3D数据，需要先进行切片处理，然后将得到的切片统一变成2D mean teacher模型要求的大小；

在步骤二中，训练集和测试集的划分比例一般为训练集占80％，测试集占20％，然后将训练集中的切片分成有标签切片和无标签切片，且保证无标签切片的数量要大于有标签切片；

在步骤三中，2D mean teacher模型包括学生模型和教师模型，训练集中有标签切片全部进入学生模型中进行处理，而无标签切片会进入教师模型和学生模型中进行处理；无论是学生模型还是教师模型都是一个基础的2D Unet网络，但是在Unet网络解码器的最后一个上采样层处额外添加了一个1×1的卷积层和sigmoid层，倒数第二个上采样层处额外添加了一个上采样层，1×1的卷积层和sigmoid层，从而得到和2D Unet网络最后的预测图同样尺寸的中间预测图。

作为上述方案的进一步改进，在步骤一中，按照Z轴将3D数据全部变成2D切片，然后对这些2D切片中目标比较暗的图片进行了变亮的操作，同时去除了没有分割目标的2D切片，也就是不包含左心房的2D切片。

进一步地，对一张图片进行变亮操作是通过整体放大一张图片的像素值来实现。

作为上述方案的进一步改进，2D mean teacher模型要求的大小为：将2D切片的尺寸变换为128×128大小，对应的标签也变换成了128×128大小。

作为上述方案的进一步改进，在2D mean teacher模型中，学生模型和教师模型拥有相同的网络架构，教师模型的权重θ^T使用学生模型的权重θ^S的指数移动平均值EMA更新，第t步的教师模型权重将更新为

其中η用来控制EMA的更新率，也就是在教师模型第t步的权重中，第t步的学生模型权重和第t-1步的教师模型权重各自所占的比例。

进一步地，当切片进入到学生模型后，无论是学生模型的最后还是中间都会得到相应的预测结果，然后，对于有标签切片，会计算出一个有监督损失l_sup，这个有监督损失l_sup根据的是有标签切片经过学生模型后，在学生模型的最后产生的预测结果和这有标签切片对应的标签计算得到的，如下公式所示：

其中，l_dice表示dice损失函数，用来评估有标记切片输入上的网络预测质量；

i表示有标签切片的序号，取值为1,2,…,L，L为正整数表示有标签切片的数量；

f_s(·)表示学生模型的分割网络；

θ为学生模型的网络权重；

x_i为第i张有标签切片；

y_i为第i张有标签切片的标签。

进一步地，对于分别进入到学生模型和教师模型的无标签切片添加了不同的干扰，进入学生模型的无标签切片和进入教师模型的无标签切片添加的干扰信息不同：

首先需要计算出学生模型和教师模型对于这相同的无标签切片的预测结果之间的差异；

为了计算这个差异，需要获得以下信息：学生模型对于这无标签切片的最后的预测结果、学生模型对于这无标签张切片的中间预测结果和教师模型对于这无标签张切片的最后的预测结果；其中，中间预测结果包括学生模型最后一个上采样层产生的预测结果和学生模型倒数第二个上采样层产生的预测结果；

差异信息D就是通过计算教师模型对于这无标签切片的最后的预测结果和学生模型对于这无标签切片的最后的预测结果和中间预测结果之间的差异得到的，差异的具体计算方式就是计算图片间的像素差异；

得到差异信息D后，就可以对其进行监督了：使用一张值全为零的图像与提取出的差异信息D进行计算得到差异损失l_D；这个差异损失l_D用来约束学生模型和教师模型间的预测一致性，促使学生模型和教师模型相互学习。

优选地，差异信息D和差异损失l_D的具体计算公式：

l_D＝l_MSE(D,Black)

其中，U表示无标签切片的数量，f_s(·)、f_s1(·)和f_s2(·)表示学生模型的分割网络，f_s(·)的输出为学生模型分割网络最后的输出，f_s1(·)的输出为学生模型分割网络最后一个上采样层的输出，f_s2(·)的输出为学生模型分割网络倒数第二个上采样层的输出，f_t(·)表示教师模型的分割网络，l_MSE为均方误差损失，θ为学生模型的网络权重，θ′为教师模型的网络权重，ξ为学生模型的网络扰动，ξ′为教师模型的网络扰动，a,b,c均为常数系数，Black是和D同样尺寸的值全为零的图像。

再进一步地，根据提取出的差异信息D，对学生模型和教师模型设计了一个新的一致性损失函数l_Dcon，为：

其中，Ⅱ(·)是指示器函数，起判断作用，H为选择区域的阈值系数，α和β均为常数系数；

之后综合D、l_D和l_Dcon得到无监督损失l_unsup，如下所示：

其中，p为阈值系数。

然后结合进入学生模型的切片得到的有监督损失l_sup，得到2D mean teacher模型的最终的损失函数l_total，如下所示：

其中m为阈值系数。

作为上述方案的进一步改进，在步骤三中，直接将测试集中的切片送入已经训练完成的模型得到预测结果，然后将切片的预测结果和其对应的标签进行比较，计算一些指标，这些指标就表示训练后的模型的性能，这些指标如下：骰子相似度系数：

杰卡德相似系数：

表面平均距离：

豪斯多夫距离_95：95HD＝max[d(X,Y),d(Y,X)]×95％

其中TP、TN、FP和FN分别指真阳性、真阴性、假阳性和假阴性；X,Y分别代表预测和标签的边界；d(X,Y)代表X上的点到距离最近的Y上的点的距离中最大的一个；x表示预测结果的边界上的某一个点的坐标，y表示标签的边界上的某一个点的坐标。

本发明解决了以下技术问题：

第一，对于3D模型占用内存大、训练时间长和训练数据有限的问题，我们的方法框架是以2D模型为基础的，因此占用内存更少，训练速度更快，而且2D模型使用的是3D体积图像的切片，每一个3D体积图像都可以得到大量的2D切片，所以在3D体积图像较少的数据集中，2D模型凭借着训练数据数量的优势，可以达到与3D模型相当的性能。

第二，对于有些方法为了提高模型的整体精度而将计算出的不确定性大的区域去除进而提升性能的问题，本发明关注到了这些区域的重要性，关注到了这些区域包含的一些重要信息，能够在不丢弃这些不确定性大也就是具有挑战性区域的情况下，从中挖掘信息，提升模型的性能。

第三，对于有些方法关注到了模型间的差异信息的重要性，并认为差异信息大的区域所代表的具有挑战性的区域包含重要信息不能丢弃，但是却没有对差异信息进行较为充分的提取与利用的问题，本发明在计算模型间差异信息的时候不仅考虑到了模型最后输出间的差异，还考虑到了模型中间输出的差异，这样得到的差异信息更加充分，并且得到的差异信息，本发明还对其进行再次利用，借助它去优化本发明的一致性损失，进一步提升整体模型的性能。

本发明具备以下有益效果：

1.降低对标签数据的需求，缓解了医生标注的负担：对于医学图像来说，有标记图像的获取一般是比较困难的。因为需要大量具有专业知识的医学人员耗费大量的时间才能够完成精准的注释，这大大增加了获取标记数据的成本，也大大增加了医学人员的负担。左心房图像同样面对着这个问题。而本发明的方法框架是半监督方法，能够利用未标记的数据提升模型性能。这样就能够降低对标记数据的需求，在一定程度上缓解了医生标注的负担。

2.提高了分割精度：由于本发明采用了大多数此类半监督方法所忽视的模块间的差异信息，这种信息类似于一种不确定性，可以在一定程度上指出图像中的挑战区域，并便于关注它们和挖掘信息。借助这种信息，本发明设计了一个二维平均教师框架(D-MT)，该框架以mean teacher模型为基础，引入差异信息改善性能，差异信息可以通过提取教师模型的最后输出和学生模型中间及最后输出之间的输出差异来获得。对于引入的差异信息首先使用损失函数进行约束，然后借助这些差异信息对学生模型和教师模型之间的一致性损失进行了优化，从而引导框架对差异信息大的区域，也就是具有挑战性的区域，给予更多的关注，进而获得一些难以识别的特征，进而提升整体框架的性能。整体框架的性能提升也就代表模型性能的提升，也就表示提高了模型对左心房图像的分割精度。

3.提升了效率：在各种医学图像分割任务中，大多数半监督框架都是采用3D模型作为基础模型。因为相较于2D模型，3D模型拥有更简单的图像处理管道，可以考虑到相邻切片的信息，拥有更加稳定且准确的分割性能，但是3D模型的高性能是以计算成本为代价的。相比于2D模型，3D模型通常拥有更多的参数量，需要占用更大的内存，训练的时间也会更长，这些将会成为使用3D模型的主要限制。另外对于3D模型来说，训练数据的数量有限也是一个限制，因为2D模型使用的是3D体积图像的切片，3D模型使用的是完整的3D体积图像，而通常在数据集中完整的3D体积图像数量不会太多，但是每一个3D体积图像都可以得到大量的2D切片，所以在3D体积图像较少的数据集中，2D模型凭借着训练数据数量的优势，可以达到与3D模型相当的性能，而且占用的内存更少。本发明的方法框架(D-MT)就是以2D模型为基础模型，在性能上达到了和以3D模型为基础的比较先进的方法相近的性能，从而提高了整体框架在左心房图像中的训练速度，能够在较短的时间内得到一个对左心房图像分割精度比较高的模型，提高了效率。

附图说明

图1为现有3D meanteacher模型的框架示意图。

图2为图1中不确定图的计算流程及高不确定区域重要性示意图。

图3为现有的通过计算相似解码器间的差异得到差异信息的过程示意图。

图4为现有最基础的2D mean teacher模型的框架示意图。

图5为本发明的2D mean teacher模型的框架示意图。

图6为图5中采用的基础的2D Unet的框架示意图。

图7为本发明的流程图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

需要说明的是，当组件被称为“安装于”另一个组件，它可以直接在另一个组件上或者也可以存在居中的组件。当一个组件被认为是“设置于”另一个组件，它可以是直接设置在另一个组件上或者可能同时存在居中组件。当一个组件被认为是“固定于”另一个组件，它可以是直接固定在另一个组件上或者可能同时存在居中组件。

除非另有定义，本文所使用的所有的技术和科学术语与属于本发明的技术领域的技术人员通常理解的含义相同。本文中在本发明的说明书中所使用的术语只是为了描述具体的实施例的目的，不是旨在于限制本发明。本文所使用的术语“或/及”包括一个或多个相关的所列项目的任意的和所有的组合。

本发明的方法框架(D-MT)是在mean teacher框架的基础上，引入差异信息得到的，通过引入的差异信息提升了模型的整体性能。mean teacher框架是一个比较流行的半监督学习框架，很多优秀的半监督框架都是对其的改造。具体来说mean teacher模型包括学生模型和教师模型，教师模型是学生模型的权重平均，能够产生更加准确的目标，学生模型通过惩罚与教师模型不一致的预测来向教师模型学习，二者相互优化，从而使整体模型达到比较高的性能。如图4展示的一个最基础的mean teacher模型。

本发明的方法框架(D-MT)因为是对基础的mean teacher框架进行的改进，所以和基础的mean teacher模型一样，本发明的框架依旧鼓励学生模型和教师模型在带有不同扰动的相同输入下保持一致的预测，从而能够使学生模型和教师模型可以互相学习，相互优化，这样可以从未标记的数据中捕获更多的信息。本发明对mean teacher基础模型的改进主要是通过引入差异信息来进行的。本发明的方法框架(D-MT)引入的差异信息是通过提取教师模型的最后输出和学生模型中间及最后输出之间的输出差异来获得。该差异信息在一定程度上能够比较完整地代表了模型之间的不确定性信息。对于提取出的差异信息，本发明首先使用损失函数进行监督使之不断减少，从而达到学生模型和教师模型之间的预测一致性。为了进一步实现模型间的一致性，本发明进一步利用了提取出的差异信息，对学生模型和教师模型之间的一致性损失进行了改进，使之在差异信息大也就是不确定性大的区域拥有更高的损失值，相反在差异性小也就是不确定性小的区域拥有更低的损失值，从而使模型能够更加关注不确定性高的区域，也就是更具有挑战性的区域，使本发明的方法框架(D-MT)对图像中具有挑战性的区域具有了一定的处理能力，从而达到一定程度上解决目标边界模糊，目标区域小等问题。图5就是本发明的具体方法框架。

本发明的使用差异信息的2D mean teacher模型为一个2D模型，用于左心房图像的分割，2D mean teacher模型在分割时包括以下步骤：

步骤一，对得到的左心房数据集进行数据预处理，所述左心房数据集包括多张左心房图像；在步骤一中，对所述左心房数据集中的3D数据，需要先进行切片处理，然后将得到的切片统一变成2D mean teacher模型要求的大小；

步骤二，将处理好的所述左心房数据集划分为训练集和测试集，训练集中的数据用于2D mean teacher模型的模型训练，经过多次训练，得到一个在训练集上优化的2Dmean teacher模型；在步骤二中，训练集和测试集的划分比例一般为训练集占80％，测试集占20％，然后将训练集中的切片分成有标签切片和无标签切片，且保证无标签切片的数量要大于有标签切片；

步骤三，使用测试集对训练集得到的模型进行验证，进一步评估模型的性能；在步骤三中，2D mean teacher模型包括学生模型和教师模型，训练集中有标签切片全部进入学生模型中进行处理，而无标签切片会进入教师模型中进行处理；无论是学生模型还是教师模型都是一个基础的2D Unet网络，但是在Unet网络解码器的最后一个上采样层处额外添加了一个1×1的卷积层和sigmoid层，倒数第二个上采样层处额外添加了一个上采样层，1×1的卷积层和sigmoid层，从而得到和2D Unet网络最后的预测图同样尺寸的中间预测图。

在本实施例中，在步骤1中，由于本发明的方法框架是一个2D模型，所以如果数据集的数据为3D的话，需要先进行切片处理，然后将切片统一变成本发明的方法框架要求的大小，为了提升训练效率，可以对数据集中的图片做一些处理，比如去除其中的没有分割目标的全黑图像，如果图像中的内容比较暗，可以适当整体提高该张图像的像素值，对图像进行变亮操作，方便提取特征。

在步骤2中：训练集和测试集的划分比例一般为训练集占80％，测试集占20％。然后由于本发明的方法框架是半监督方法，所以还需要对训练集进行进一步的划分，需要将训练集中的数据分成有标签数据和无标签数据，这两种数据的比例一般可以是有标签数据20％，无标签数据占80％，也可以有标签数据10％，无标签数据占90％，也可以是其他比例，但是一般必须保证无标签数据的数量要大于有标签数据。

在训练集上得到的比较好的模型指的是在训练过程中损失函数降低到非常小的时候保存的模型，一般这种时候保存的模型在训练集上的精度都会非常高，但这并不代表该模型的性能就非常高，需要在测试集上进行进一步验证，因为会出现过拟合的情况。过拟合就是模型在训练集上表现非常好，而在测试集上表现非常差，很显然过拟合的模型并不是一个好的模型。

在步骤3中：整体框架训练完成后，由于本发明的方法框架是在2D mean teacher方法基础上进行改进的，所以一般会有两个模型被训练好，一个是学生模型，一个是教师模型，要选择哪个模型进行测试验证，可以选择学生模型，也可以选择教师模型，当然也可以先测试几组数据，挑选学生模型和教师模型中表现比较好的模型进行测试验证。

为了进一步展示本发明的方法框架的具体实现过程，下面将以一个公开的左心房数据集作为例子，也就是2018年左心房分割挑战赛的数据集，来展现本发明的方法框架(D-MT)如何处理该数据集。

本发明的方法框架的流程可以分为三个阶段，分别为数据预处理阶段、训练阶段和测试阶段。

1数据预处理阶段

首先来简单介绍一下该数据集的基本情况：该数据集提供100个三维钆增强磁共振成像扫描(GE MRIs)和LA分割掩模用于训练和验证。这些扫描图像的各向同性分辨率为0.625×0.625×0.625mm³。

简单来说就是该数据集中包含100个病人的3D左心房图像，本发明将其中的80个病人作为训练集的数据，20个病人作为测试集的数据。

由于本发明的方法框架是以2D模型为基础的，所以对于这些病人的图像，本发明首先按照Z轴将它们全部变成2D切片，然后为了让框架对这些图像处理得更加好，本发明对这些2D切片中目标比较暗的图片进行了变亮的操作，对一张图片进行变亮操作是通过整体大一张图片的像素值来实现的。同时本发明去除了没有分割目标的2D切片，也就是不包含左心房的切片，这样有利于框架进行训练。然后为了让这些切片能够进入本发明的框架进行训练，本发明将这些2D切片的尺寸全部变换为128×128大小，对应的标签也变换成了128×128大小。

2训练阶段

由于本发明的方法框架采用半监督方法，所以在训练开始前，需要将该数据集进行进一步的划分，将数据集的训练集部分，也就是包含80个病人的部分，进一步划分为有标签的部分和无标签的部分，可以按照有标签占20％，无标签占80％进行划分，也可以按照有标签占10％，无标签占90％进行划分，在这里本发明按照有标签占20％，无标签占80％来继续进行，也就是有标签的数据包含16个病人的全部2D切片，无标签数据包含64个病人的全部切片。

本发明的框架每次训练迭代需要输入12张2D切片，其中包含6张有标签切片，6张无标签切片，有标签切片是从有标签的16个病人的全部切片中随机获取的，同样无标签切片是从无标签的64个病人的全部切片中随机获取的。本发明框架的训练过程包含多个epoch，每个epoch包含很多次迭代，每次epoch的全部迭代结束都会进行一次验证。

12张切片稍微加入一些干扰信息，然后进入本发明的框架，当它们进入本发明的框架后，会进入本发明框架中的两个模型，一个是学生模型，一个是教师模型。这12张切片会全部进入学生模型中进行处理，而只有6张无标签的切片会进入教师模型中进行处理。无论是学生模型还是教师模型都是一个基础的2D Unet网络，只不过本发明在Unet网络解码器的最后一个上采样层处额外添加了一个1×1的卷积层和sigmoid层，倒数第二个上采样层处额外添加了一个上采样层，1×1的卷积层和sigmoid层，从而得到和网络最后的预测图同样尺寸的中间预测图，方便之后的操作。基础的2D Unet如图6所示。

本发明的整体方法框架是基于mean teacher模型产生的，所以和基础的meanteacher模型一样。本发明的学生模型和教师模型虽然是两个模型，但是它们具有相同的网络结构，它们之间的区别就是在训练过程中网络中的权重不同，以及对模型优化方式不同。而且学生模型和教师模型在训练过程中是相互学习的。有权威研究表明，如果在不同的训练过程中对模型进行集成预测可以提高模型对目标的预测质量，因此可以用来提升教师模型的性能，改善教师模型的预测结果。因此，在本发明的框架中，学生模型和教师模型拥有相同的网络架构，教师模型的权重θ^T使用学生模型的权重θ^S的指数移动平均值(EMA)更新。第t步的教师模型权重将更新为

当12张切片进入到学生模型后，无论是学生模型的最后还是中间都会得到相应的预测结果。然后，对于6张有标签的切片，本发明会计算出一个有监督损失，这个有监督损失根据的是这6张有标签的切片经过学生模型后，在学生模型的最后产生的预测结果和这6张切片对应的标签计算得到的，如下公式所示：

其中l_dice表示dice损失函数，用来评估有标记数据输入上的网络预测质量。这里，f_s(·)表示学生模型的分割网络，θ为学生模型的网络权重。

对于进入到学生模型的6张无标签切片和进入到教师模型的6张无标签切片，本发明有另外的出路。进入到学生模型的6张无标签切片和进入到教师模型的6张无标签切片是相同的，只是对图片稍微添加了不同的干扰，进入学生模型的切片和进入教师模型的切片添加的干扰信息不同。对于这6张切片，本发明首先需要计算出学生模型和教师模型对于这相同的6张切片的预测结果之间的差异。为了计算这个差异，本发明需要获得以下信息：学生模型对于这6张切片的最后的预测结果、学生模型对于这6张切片的中间预测结果(包括学生模型最后一个上采样层产生的预测结果和学生模型倒数第二个上采样层产生的预测结果)和教师模型对于这6张切片的最后的预测结果。差异信息D就是通过计算教师模型对于这6张切片的最后的预测结果和学生模型对于这6张切片的最后的预测结果和中间预测结果之间的差异得到的。差异的具体计算方式就是计算图片间的像素差异。得到差异信息D后，就可以对其进行监督了。使用一张值全为零的图像与提取出的差异信息(D)进行计算得到本发明的差异损失l_D。这个差异损失l_D可以用来约束学生模型和教师模型间的预测一致性，促使学生模型和教师模型相互学习。

如下就是差异信息D和差异损失l_D的具体计算公式：

l_D＝l_MSE(D,Black)

其中，f_s(·)、f_s1(·)和f_s2(·)表示学生模型的分割网络，f_s(·)的输出为学生模型分割网络最后的输出，f_s1(·)的输出为学生模型分割网络最后一个上采样层的输出，f_s2(·)的输出为学生模型分割网络倒数第二个上采样层的输出，f_t(·)表示教师模型的分割网络，l_MSE为均方误差损失，θ为学生模型的网络权重，θ′为教师模型的网络权重，ξ为学生模型的网络扰动，ξ′为教师模型的网络扰动，a,b,c均为常数系数，Black是和D同样尺寸的值全为零的图像。

经过上述过程，本发明得到了由这6张无标签切片计算得到的差异信息D和差异损失l_D

然后，本发明提取出的差异信息(D)可以代表本发明整体框架的不确定性，对于差异信息大的区域也就是不确定性大的区域，本发明认为应该重点关注，所以根据本发明提取出的差异信息(D)，本发明对学生模型和教师模型设计了一个新的一致性损失函数，该损失函数可以使整体框架对训练过程中不确定性高的区域给予更多的关注，从而使整体框架从不确定性高的区域尽可能捕获更多有用的特征，进而提升整体框架的分割性能。本发明的一致性损失具体表示为：

其中，Ⅱ(·)是指示器函数，起判断作用，H为选择区域的阈值系数，α和β均为常数系数。

经过上述过程本发明又得到了由这6张无标签切片得到的一致性损失l_Dcon

之后综合D、l_D和l_Dcon就可以得到本发明的无监督损失l_unsup，如下所示：

其中p为阈值系数。

然后再结合通过12张进入学生模型的切片得到的有监督损失l_sup，就可以得到本发明最终的损失函数l_total，如下所示：

其中m为阈值系数。

这样本发明通过这12张进入框架的2D切片，经过一番计算后就得到了本发明框架的最终损失l_total，其中这12切片张全部进入学生模型，6张无标签切片进入到教师模型。通过这个最终损失值就可以对学生模型的权重进行优化，而教师模型就通过学生模型权重的EMA进行优化。这样本发明框架的一次迭代就完成了。然后就不断地进行迭代，迭代一定次数后一个训练epoch就完成了。完成一个训练epoch后，就会对使用一些有标签的切片送入学生模型和教师模型验证模型的性能。具体的验证过程就是计算模型预测和对应标签之间的dice值。dice值越大代表模型预测的结果越好，模型的性能也就越好。这部分有标签的图片是没有进入过框架参与过训练的，可以在划分进入框架的有标签数据和无标签数据的时候，从64个无标签数据的病人中留出几个用来验证。验证过后，一个epoch就完成了，然后就是重复训练多个epoch，直到损失函数l_total值不再下降，模型的性能达到最优就可以停止训练了。如图5为本发明的具体方法框架。

3测试阶段

这个阶段就比较简单，直接将测试集中的切片数据送入已经训练完成的模型得到预测结果，然后将切片的预测结果和其对应的标签进行比较，计算一些指标，这些指标就可以表示训练后的模型的性能。这些指标如下：

骰子相似度系数：

杰卡德相似系数：

表面平均距离：

豪斯多夫距离_95：95HD＝max[d(X,Y),d(Y,X)]×95％

其中TP、TN、FP和FN分别指真阳性、真阴性、假阳性和假阴性。X,Y分别代表预测和标签的边界。d(X,Y)代表X上的点到距离最近的Y上的点的距离中最大的一个。x表示预测结果的边界上的某一个点的坐标，y表示标签的边界上的某一个点的坐标。

需要注意的是，这些指标全都是根据3D图像计算出来的，所以将一个病人的切片全部通过模型预测出来后，需要将这些2D切片再次组合成3D图像，对应的标签组合成3D图像，然后才能计算这些3D指标。

测试模型的选择可以是训练好的学生模型也可以是训练好的教师模型，主要是通过每个epoch最后的验证过程得到的学生模型和教师模型的性能，选出其中比较好的一个模型。如图7为本发明的流程图。

本发明具有以下有益效果：

1.降低对标签数据的需求，缓解了医生标注的负担：对于医学图像来说，有标记图像的获取一般是比较困难的。因为需要大量具有专业知识的医学人员耗费大量的时间才能够完成精准的注释，这大大增加了获取标记数据的成本，也大大增加了医学人员的负担。因此对于左心房图像依然面对着这个问题。而本发明的方法框架是半监督方法，能够利用未标记的数据提升模型性能。这样就能够降低对标记数据的需求，在一定程度上缓解了医生标注的负担。

以上所述实施例的各技术特征可以进行任意的组合，为使描述简洁，未对上述实施例中的各个技术特征所有可能的组合都进行描述，然而，只要这些技术特征的组合不存在矛盾，都应当认为是本说明书记载的范围。

以上所述实施例仅表达了本发明的几种实施方式，其描述较为具体和详细，但并不能因此而理解为对发明范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本发明构思的前提下，还可以做出若干变形和改进，这些都属于本发明的保护范围。因此，本发明的保护范围应以所附权利要求为准。

Claims

1.一种使用差异信息的2D mean teacher模型，其为一个2D模型，用于左心房图像的分割，2D mean teacher模型在分割时包括以下步骤：

步骤二，将处理好的所述左心房数据集划分为训练集和测试集，训练集中的数据用于2D mean teacher模型的模型训练，经过多次训练，得到一个在训练集上优化的2D meanteacher模型；

其特征在于：

2.根据权利要求1所述的使用差异信息的2D mean teacher模型，其特征在于，在步骤一中，按照Z轴将3D数据全部变成2D切片，然后对这些2D切片中目标比较暗的图片进行了变亮的操作，同时去除了没有分割目标的2D切片，也就是不包含左心房的2D切片。

3.根据权利要求2所述的使用差异信息的2D mean teacher模型，其特征在于，对一张图片进行变亮操作是通过整体放大一张图片的像素值来实现。

4.根据权利要求1所述的使用差异信息的2D mean teacher模型，其特征在于，2D meanteacher模型要求的大小为：将2D切片的尺寸变换为128×128大小，对应的标签也变换成了128×128大小。

5.根据权利要求1所述的使用差异信息的2D mean teacher模型，其特征在于，在2Dmean teacher模型中，学生模型和教师模型拥有相同的网络架构，教师模型的权重θ^T使用学生模型的权重θ^S的指数移动平均值EMA更新，第t步的教师模型权重将更新为

6.根据权利要求5所述的使用差异信息的2D mean teacher模型，其特征在于，当切片进入到学生模型后，无论是学生模型的最后还是中间都会得到相应的预测结果，然后，对于有标签切片，会计算出一个有监督损失l_sup，这个有监督损失l_sup根据的是有标签切片经过学生模型后，在学生模型的最后产生的预测结果和这有标签切片对应的标签计算得到的，如下公式所示：