CN117611601B

CN117611601B - 基于文字辅助的半监督3d医学图像分割方法

Info

Publication number: CN117611601B
Application number: CN202410096489.0A
Authority: CN
Inventors: 蔡青; 鄢柯; 曹子彦; 冯春梅; 刘治; 董军宇
Original assignee: Ocean University of China
Current assignee: Ocean University of China
Priority date: 2024-01-24
Filing date: 2024-01-24
Publication date: 2024-04-23
Anticipated expiration: 2044-01-24
Also published as: CN117611601A

Abstract

本发明公开了一种基于文字辅助的半监督3D医学图像分割方法，属于医学图像处理技术领域。本发明在基于文字辅助正交注释的“几乎无监督”3D医学图像分割的时候，考虑到了整个过程中应最大化的减少人工标注的工作，降低相邻切片注释的冗余性，充分利用体积图片不同视角所带来的视差可以互相弥补的优势。克服两分支交叉监督是“非此即彼”的范式，引入了更多的惩罚因素，使得交叉伪监督的效果更好。本发明对减轻训练3D医学图像分割中所需要复杂的注释工作具有重要意义，为如何使用文本来指导3D医学分割的工作提供了一个新方向。

Description

基于文字辅助的半监督3D医学图像分割方法

技术领域

本发明涉及一种基于文字辅助的半监督3D医学图像分割方法，属于医学图像处理技术领域。

背景技术

医学图像分割的目的是将医学图像中某些感兴趣的区域和器官分割出来，并且提取出可以帮助诊断的特征，在定量医学图像分析中起到不可或缺的作用。随着深度学习的发展，医学图像分割领域获得了越来越大的成就。作为语义分割的开山之作，全卷积网络（FCN）虽然打开了自然图像分割的大门，但是在医学图像分割领域表现平平。

U-Net通过对全卷积网络中skip connection的改进，在医学图像分割中取得了惊人的性能，而后这种优美的包含编码器、瓶颈层、解码器的——“U”形架构及其变体在这一领域实现了令人印象深刻的结果。之后通过对U-Net网络骨干、skip connection策略、瓶颈层的特征增强等的修改，自从2015年以来，“U”形结构成为医学图像分割领域的支柱。而后随着Transformer的崛起以及视觉语言预训练（VLP）方面取得的进展，VLP迅速的被引进到2D医学图像分析，为医学图像分割开启了新的篇章。虽然目前获得了令人鼓舞的成就，但通过对以往方法的分析总结，它面前面临着几个亟待解决的关键挑战。

第一，注释成本高昂。以往的方法依赖于大规模带有手动精确注释的数据集，实现起来费人费力。尤其是3D医学图像包含大量的切片，对于人工注释者来说，需要依次仔细浏览每个切片，这意味着注释者不仅需要有医学专业的背景，而且对图像分割技术有一定的了解，相对于2D图像来说需要更多的时间和劳力。

第二，图像文本对齐的数据稀缺。虽然当前预训练视觉语言多模态模型取得了很大的发展，但其主要集中在自然图像领域，并且需要大规模的数据集来进行训练，而这点在3D医学图像上显得尤为困难。因为3D医学图像数据集通常相对较小，而且其图像和对应文本数据通常非常复杂且多样化。例如，医学图像可能包括CT扫描、MRI等，而相应的文本数据可能是诊断报告、病历记录等。对齐这些不同类型的数据需要综合考虑它们的多样性和复杂性。

第三，范式有限。现有的用来克服注释成本高昂、数据集相对较小的办法通常是使用弱监督方法和半监督方法。但首先由于弱监督盲目的降低了注释的质量会导致模糊边界问题，而边界是区分目标区域和背景区域最重要的信息之一。而半监督分割通常还是需要5-10个体积图像的完整注释才能取得不错的效果，事实上，哪怕是完整的注释一个体积图像都仍旧是一个比较昂贵的过程。

第四，信息丢失。虽然之前的很多工作都取得了很大的进展，但是大部分都集中在2D医学图像，而将同样的方法引入到3D医学图像分析中会导致一个不可避免的问题——空间信息的丢失。这种将3D医学图像分割成一个个单独切片然后对切片进行处理的方法，损害了3D图像的空间连贯性，对最终的结果会造成极大的损失。

发明内容

本发明的目的是提供一种基于文字辅助的“几乎无监督”3D医学图像分割方法，以弥补现有技术的不足。

为实现上述发明的目的，本发明采取的具体技术方案如下：

一种基于文字辅助的半监督3D医学图像分割方法，包括如下步骤：

S1：收集3D医学图像数据建立数据集，并对图像数据进行预处理；将数据集分为训练集和测试集，所述训练集包括有监督的图像数据和无监督的图像数据；

S2：利用大型视觉语言模型CLIP的文本编码器，对所选数据集的文本描述进行编码从而获得文本特征；

S3：构建网络模型，包括三个分支，分别是分割网络，分割网络/>，分割网络/>，该分割网络结构均为VNet，结构相同但是参数初始化不同；

S4：构造权重矩阵，对于有监督的图像，将其对应的真实标签分割乘上权重矩阵得到稀疏正交注释的标签；

S5：将训练集输入所述网络模型后，对于每个分支提取到的图像特征与已经获取的文本特征进行拼接，然后将其作为参数添加在后续操作当中作为指导得到分割结果；

S6：构造整个过程中的损失函数，包括利用稀疏正交注释的有监督部分的损失函数，以及无监督图像两两之间的交叉伪监督损失，以及将两者结合起来的总损失函数；

S7：利用训练集对所述网络模型进行训练，再使用测试数据对已经训练好的模型进行测试，输出图像分割结果。

进一步的，所述S1中，所述预处理包括：处理图像格式，进行图像裁剪，并对图像进行归一化处理；然后构建训练阶段的数据集，包含有监督的部分/>和无监督的部分，即/>，其中/> = />，其中/>表示体积图像，/>是其对应的真实标签，L代表带注释的3D图像数量，/> =，从L+1到M总共M-L项代表不带注释的3D图片数目。

进一步的，所述S2中，使用大型视觉语言模型CLIP的文本编码器来对文本描述进行特征提取，在整个训练过程中不对其进行微调，不仅可以极大程度上减少训练开销，并且也不会过于降低精度，文本描述只是一句很简单的句子即可；如公式（1）所示:

；

其中代表提取到的特征向量，/>代表文本编码器,t代表器官的文本描述,对于每个数据集而言，其中每个图像对应的文本描述都是相同的。

进一步的，所述S3中，为了充分利用一副3D图像不同的视角所带来的互补信息的优点，同时克服密集注释所带来的成本高昂且相邻切片间冗余信息过多的缺点，使用三个分割网络，分割网络，分割网络/>，分割网络/>构成三分支，均为VNet，初始化参数不同，以及训练过程中每个分支上对于有监督部分的真实标签的标注方式不同。

进一步的，所述S4中，对于所构建训练集体积图像，其中/>的标签/>，i表示第i幅图像，根据视角的不同可以将其拆分成一系列切片；如下式（2）、（3）、（4）所示：

；

其中a、b、c分别代表不同的视角，m、n、p则分别代表沿着a视角看过去可以将分成m个切片，沿着b视角看过去可以将/>分成n个切片，沿着c视角看过去可以将/>分成p个切片。i表示当前是第i个体积图像。对于实现本发明中所提到的每个分支选取两个正交切片注释作为监督信号，首先以第一个分支为例，只需构造一个与/>大小相同的全零矩阵/>，此时是一个3D矩阵，在第一与第二个维度上设置某一个切片的值为1，如公式（5）、公式（6）所示：

；

公式（5）表示沿着b视角，将第k张切片，也即是切片的值设置为1，公式（6）表示沿着a视角，将第j张切片，也即是/>切片的值设置为1；然后第一个分支的有监督图像的稀疏标签/>，可通过下式（7）计算得到：

；

对于第二个分支和第三个分支的稀疏标签同理可得，通过构造全零矩阵和/>。首先设置/>，表示沿着a视角，将第j张切片，也即是/>切片的值设置为1，，表示沿着c视角，将第q张切片，也即是/>切片的值设置为1，通过，得到第二个分支的稀疏标签/>；设置/>，表示沿着b视角，将第k张切片，也即是/>切片的值设置为1，/>，表示沿着c视角，将第q张切片，也即是切片的值设置为1，通过/>得到第三个分支的稀疏标签/>；

基于上述步骤，三个分支分别对应的稀疏正交注释，/>，/>构造完毕，可以用于后续的监督训练。

进一步的，所述S5中，由于三个分支的分割网络都是结构一样的VNet，所以每个分支所做的操作都是相同的。具体而言，输入图像首先经过分割网络编码器得到图像特征，如公式（8）所示：

；

其中表示此时第i个图像输入网络，/>为分割网络的编码器部分，/>则是提取到的图像特征。由于此时特征图/>的大小与之前得到的文本特征/>的大小不一致，所以将其经过全局平均池化之后才能与/>拼接，得到中间参数,如公式（9）所示：；

其中表示全局平均池化操作，/>表示向量拼贴操作，/>是待处理的中间参数变量；而对于编码器得到的图像特征/>,继续经过解码器的上采样部分，将特征图还原成原始图片的大小，并且与经过处理的/>相加，将相加的结果再经过卷积操作，得到最终的预测掩码，如下式（10）所示：

；

其中表示分割网络的解码器部分，/>表示卷积操作，目的是使/>的通道数和经解码器过后得到的特征图的通道数相一致，/>是扩充操作，使得/>的大小经解码器过后得到的特征图的大小相一致，经过这两步处理才能进行相加操作。/>是得到最终分割结果的卷积层。

上述步骤是一个分支的处理过程，其余两分支的过程相同，并且每个小批量处理过程中都包含一个有监督的图像和一个无监督的图像，两者的处理过程也是一样的。

进一步的，所述S6具体如下：

经步骤S5得到了正交注释的稀疏标签，以及通过分割网络计算出的预测掩码，就需要构建损失进行模型的训练以对模型参数进行优化；S6-1：监督损失（）

如前所述，对于每个体积图像有对应的三个稀疏标签/>，/>，/>；分割网络，分割网络/>，分割网络/>分别使用/>，/>，/>进行监督训练，这样三个分割网络从三个不同的角度学习到不同的知识，并且正交注释的视差得到了很好的保留；监督损失包括Dice损失和交叉熵损失，如公式（11）、（12）、（13）所示：

；

其中表示网络输出的预测标签，/>表示图像的体素数量，/>表示计算得到的稀疏标签；/>是监督损失，/>表示交叉熵损失，/>表示Dice损失；

S6-2：无监督损失（）

对于占大多数的没有注释的体积图像，三个分支之间两两进行预测指导，三分支比两分支的优势在于不是一种“非此即彼”的策略，更像是一种“少数服从多数”的投票策略，可以提升交叉伪监督过程当中的鲁棒性，并且对于每一个分割网络生成的预测掩码，只选择那些不确定性低于阈值的体素，实现更好的交叉监督，如公式(14)、(15)、(16)所示：

；

其中表示当前分支网络输出的预测标签，/>表示图像的体素数量，/>和分别表示另外两个分支计算得到的预测标签。/>表示当前体素是否被选择。/>和是交叉熵损失，/>表示无监督损失；

S6-3：最终的总损失是监督损失与无监督损失的加权和，如下式（17）所示：

；

引入动态参数的目的是因为，在网络训练前期主要是根据稀疏注释的标签进行参数的优化，但同时也会累计很多错误，随着网络的不断迭代，后期应该赋予无监督损失更大的权重用来更正前面累积的损失。

进一步的，所述S7中，在模型训练中，选择效果最好的分支中的分割网络作为后续推理的模型，将3D医学图片输入模型后得到预测掩码，通过对比真实标签来计算精度。

本发明的优点和有益效果：

本发明在基于文字辅助正交注释的“几乎无监督”3D医学图像分割的时候，考虑到了整个过程中应最大化的减少人工标注的工作，降低相邻切片注释的冗余性，充分利用体积图片不同视角所带来的视差可以互相弥补的优势。克服两分支交叉监督是“非此即彼”的范式，引入了更多的惩罚因素，使得交叉伪监督的效果更好。

相比于传统的利用半监督或者弱监督范式来训练网络时仍旧需要完整的对体积图像进行注释的缺点，本发明旨在通过对每个图像只使用三张不同视角下正交的切片首先构成一种“几乎无监督”范式，进行更有效的交叉伪监督指导，同时引入文本描述的信息，利用预训练的视觉语言模型来处理以做额外的低成本的指导，降低了密集注释操作的昂贵开销。

本发明对减轻训练3D医学图像分割中所需要复杂的注释工作具有重要意义，提出了一种新的注释的思路，并且为如何使用文本来指导3D医学分割的工作提供了一个新方向。

附图说明

图1是本发明的整体流程图。

图2是本发明的框架图。

图3是本发明的细节网络结构图。

具体实施方式

下面将结合附图1-3以及具体实施例对本发明的技术方案进行详细说明。

实施例1：

一种基于文字辅助的半监督3D医学图像分割方法，整体流程如图1所示，包括如下步骤：

S1：首先需要划分训练所用的数据集，收集网上公开的数据集例如LA（左心房）数据集、KITS（肾脏和肾肿瘤）数据集并对其进行预处理。预处理操作包括：将后缀为.nii.gz格式的图像处理成.h5格式，便于后续处理、将一个比较大包含很多冗余信息的体积图像裁剪中心区域得到包含冗余信息比较少的图像、对图像进行归一化处理。然后构建训练阶段的数据集，包含有监督的部分/>和无监督的部分/>，即/>，其中 = />，其中/>表示体积图像，/>是其对应的真实标签，L代表带注释的3D图像数量，/> = />，下标从L+1到M总共M-L项代表不带注释的3D图片数目。

S2：对于收集到的数据集，由于缺乏专业的医生提供的诊断描述，故使用极其简单的一句话作为文本描述。本实验中对于所分割器官的文本描述仅作为一个辅助监督信号使用，因此直接使用大型视觉语言模型CLIP模型的文本编码器来对文本描述进行特征提取，在整个训练过程中不对其进行微调，不仅可以极大程度上减少训练开销，并且也不会过于降低精度，文本描述是一句很简单的句子即“来自XX器官的照片”，例如对于LA数据集这里的文本描述就是“A Photo Of A Left Atrium”，所以用原始的CLIP模型就可以充分的提取到特征。如公式（1）所示：

；

S3：对于一副3D图像，不同的观察视角产生的视差可以更好的帮助网络理解该图片，故为了充分利用一副3D图像不同的视角所带来的互补信息的优点，同时克服密集注释所带来的成本高昂且相邻切片间冗余信息过多的缺点，使用三个分割网络，分割网络，分割网络/>，分割网络/>，构成三分支。三个分割网络是结构相同的VNet，不同的是初始化参数，以及训练过程中每个分支上对于有监督部分的真实标签的标注方式不同。

具体而言，一幅3D图像可以根据视角的不同分成矢状面（从左往右看），横截面（从上往下看），冠状面（从前往后看），这三个视角是两两相互正交的，对于有监督的每个图像，在每个视角上只选取一张包含前景比较多的切片标注，从而选取了三张切片，形成一个三视角正交注释的稀疏标签。而每个分支则从中选取两个正交切片注释作为有监督图像的指导，根据排列组合，可知总共有三种组合方式，所以构成三分支。

S4：每个体积图像和其对应的真实标签/>都是一个/>的3D矩阵，为了得到后续使用的稀疏标签，即在每一个视角选取一张注释切片形成三视角正交稀疏注释。对于体积图像/>的标签/>，根据视角的不同可以将其拆分成一系列切片。如下式（2）、（3）、（4）所示：

；

其中a、b、c分别代表不同的视角，m、n、p则分别代表沿着a视角看过去可以将分成m个切片，沿着b视角看过去可以将/>分成n个切片，沿着c视角看过去可以将/>分成p个切片。i表示当前是第i个体积图像。对于实现本发明中所提到的每个分支选取两个正交切片注释作为监督信号，首先以第一个分支为例，只需构造一个与/>大小相同的全零矩阵/>，此时是一个3D矩阵，在第一与第二个维度上设置某一个切片的值为1，如下式（5）、（6）所示：

；

公式（5）表示沿着b视角，将切片的值设置为1，式（6）表示沿着a视角，将/>切片的值设置为1。然后第一个分支的有监督图像的稀疏标签，可通过下式（7）计算得到：

；

对于第二个分支和第三个分支的稀疏标签同理可得，通过构造全零矩阵和/>。首先设置/>，表示沿着a视角，将第j张切片，也即是/>切片的值设置为1，，表示沿着c视角，将第q张切片，也即是/>切片的值设置为1，通过，得到第二个分支的稀疏标签/>；设置/>，表示沿着b视角，将第k张切片，也即是/>切片的值设置为1，/>，表示沿着c视角，将第q张切片，也即是切片的值设置为1，通过/>得到第三个分支的稀疏标签/>；基于上述步骤，三个分支分别对应的稀疏正交注释/>，/>，/>构造完毕，可以用于后续的监督训练。

S5：此时需要计算每个小批量中所包含的体积图片的预测掩码，由于三个分支的分割网络都是结构一样的VNet，所以每个分支所做的操作都是相同的。具体而言，输入图像首先经过分割网络编码器得到图像特征，如公式（8）所示：

；

其中表示此时第i个图像输入网络，/>为分割网络的编码器部分，/>则是提取到的图像特征。由于此时特征图/>的大小与之前得到的文本特征/>的大小不一致，所以将其经过全局平均池化之后才能与/>拼接，得到中间参数，如下式（9）所示：

；

其中表示全局平均池化操作，/>表示向量拼贴操作，/>是待处理的中间参数变量。而对于编码器得到的图像特征/>,继续经过解码器的上采样部分，将特征图还原成原始图片的大小，并且与经过处理的/>相加，将相加的结果再经过卷积操作，得到最终的预测掩码，如下式（10）所示：

；

S6：前面解释了模型网络的各个部分的组件，还需要明确整个过程中的目标函数和优化目标。通过前面步骤得到了正交注释的稀疏标签，以及通过分割网络计算出的预测掩码，就需要构建损失进行模型的训练以对模型参数进行优化。

（1）监督损失（）

如前所述，对于每个体积图像有对应的三个稀疏标签/>，/>，/>。分割网络，分割网络/>，分割网络/>分别使用/>，/>，/>进行监督训练，这样三个分割网络从三个不同的角度学习到不同的知识，并且正交注释的视差得到了很好的保留。监督损失包括Dice损失和交叉熵损失，如下式（11）、（12）、（13）所示：

；

其中表示网络输出的预测标签，/>表示图像的体素数量，/>表示计算得到的稀疏标签。/>是监督损失，/>表示交叉熵损失，/>表示Dice损失。

（2）无监督损失（）

对于占大多数的没有注释的体积图像，三个分支之间两两进行预测指导，三分支比两分支的优势在于不是一种“非此即彼”的策略，更像是一种“少数服从多数”的投票策略，可以提升交叉伪监督过程当中的鲁棒性，并且对于每一个分割网络生成的预测掩码，只选择那些不确定性低于阈值的体素，实现更好的交叉监督,如下式(14)、(15)、(16)所示：

；

其中表示当前分支网络输出的预测标签，/>表示图像的体素数量，/>和分别表示另外两个分支计算得到的预测标签。/>表示当前体素是否被选择。/>和是交叉熵损失，/>表示无监督损失。

最后，最终的总损失是监督损失与无监督损失的加权和，如下式（17）所示：

；

S7：基于前面的步骤，各分支的结果已经得到，并且损失函数以及主要的学习任务也全部明确，可以开始训练整个模型。模型训练好之后，就可以用于后续的推理工作。由于三个分支的效果略有差异，选择测试阶段效果最好的分支中的分割网络作为最终推理的模型，将对应3D医学图片输入模型后得到预测掩码。

实施例2：该实施例以实施例1为基本方法，进行模块设计。

一种基于文字辅助的半监督3D医学图像分割系统，由数据预处理模块、文本特征提取模块、计算稀疏标签模块、分割网络模块、损失模块组成，如图2所示，以下对各部分进行详细说明：

所述数据预处理模块：将原始数据集的格式进行统一，并对其进行归一化，将数据划分为训练集和测试集，训练集中又分为有标签监督的部分和无标签监督的部分。

所述文本特征提取模块：对于当前数据集的分割器官，比如使用“A Photo Of A（器官的名字）”作为文本描述，使用大型语言模型的CLIP的文本编码器提取文本特征。

所述计算稀疏标签模块：将原始体积图片对应的密集标签乘以权重矩阵得到正交注释的稀疏标签，记作/>，作为后续有标签数据的监督信号。

所述分割网络模块：包含3个分支，对小批量中的数据计算出分割掩码之后，用3种不同的稀疏标签进行指导学习，同时两两之间再进行信息的补充学习。

所述损失模块：合理平衡监督损失和无监督损失在整个训练阶段的作用，利用后期无监督损失来消除前面稀疏注释累积到的误差。

实施例3：该实施例以上述方法和系统为基础进行实例验证，整个流程如图3所示。

为了验证本发明提出图像分割的准确性，在两个数据集：左心房数据集（LeftAtrium Dataset,LA）、肾脏和肾肿瘤数据集（KiTS19 Challenge Data，KITS19）上进行了实验，使用Dice和Jaccard为评价指标。

与本发明最接近的DeSCO方法也是选取正交切片注释，但是其有一个通过形态学的相似性按照逐片对比生成密集伪标签的过程，不过对于3D图像有几十上百个切片，生成伪标签过程耗时较长，并且效果也是次优。本发明在LA数据集上的Dice和Jaccard分别为82.03%和69.92%，在KITS19数据集上的Dice和Jaccard分别为88.17%和79.85%。

在两个真实的数据集上，本发明提供的3D医学图像分割方法得到的Dice和Jaccard都要显著高于同范式设置下的其他方法，包括交叉伪监督（Cross PseudoSupervision，CPS）、卷积神经网络和Transformer的交叉教学（Cross Teaching BetweenCnn and Transformer，CTBCT）、感知不一致性（CoraNet）方法，甚至要高于半监督下的MT方法，这说明，本发明构建的模型优于其他现有的模型，图像分割的准确性更高。

以上计划方案，仅为本发明中的实施方法，但本发明的保护范围不限于此，所有熟悉该技术的人员在本发明所披露的技术范围以内，可理解想到的替换或者变换，都应该包含在本发明的保护范围之内，所以，本发明的保护范围应以权利要求书的保护范围为准。

Claims

1.一种基于文字辅助的半监督3D医学图像分割方法，其特征在于，包括如下步骤：

S2：利用大型视觉语言模型CLIP的文本编码器，对所选数据集的文本描述进行编码从而获得文本特征；使用大型视觉语言模型CLIP的文本编码器来对文本描述进行特征提取，如公式(1)所示：

T_e＝F_t(t) (1)：

其中T_e代表提取到的特征向量，F_t代表文本编码器，t代表器官的文本描述；

S3：构建网络模型，包括三个分支，分别是分割网络分割网络/>分割网络该分割网络结构均为VNet；

S4：构造权重矩阵，对于有监督的图像，将其对应的真实标签分割乘上权重矩阵得到稀疏正交注释的标签；对于所构建训练集体积图像D_tr，其中X_i的标签Y_i，i表示第i幅图像，根据视角不同将其拆分成一系列切片；如下式(2)、(3)、(4)所示：

其中a、b、c分别代表不同的视角，m、n、p则分别代表沿着a视角将Y_i分成m个切片，沿b视角将Y_i分成n个切片，沿c视角将Y_i分成p个切片；i表示当前是第i个体积图像；以第一个分支为例，只需构造一个与Y_i大小相同的全零矩阵W_a，此时W_a是一个3D矩阵，在第一与第二个维度上设置某一个切片的值为1，如公式(5)、公式(6)所示：

W_a[：，k，：]＝1 (5)；

W_a[j，：，：]＝1 (6)；

公式(5)表示沿b视角，将第k张切片，也即是切片的值设置为1，公式(6)表示沿a视角，将第j张切片，也即是/>切片的值设置为1；然后第一个分支的有监督图像的稀疏标签通过下式(7)计算得到：

对于第二个分支和第三个分支的稀疏标签同理可得，通过构造全零矩阵W_b和W_c；首先设置W_b[j，：，：]＝1，表示沿着a视角，将第j张切片，也即是切片的值设置为1，W_b[：，：，q]＝1，表示沿着c视角，将第q张切片，也即是/>切片的值设置为1，通过/>得到第二个分支的稀疏标签/>设置W_c[：，k，：]＝1，表示沿着b视角，将第k张切片，也即是/>切片的值设置为1，W_c[：，：，q]＝1，表示沿着c视角，将第q张切片，也即是/>切片的值设置为1，通过/>得到第三个分支的稀疏标签/>

基于上述步骤，三个分支分别对应的稀疏正交注释构造完毕，用于后续的监督训练；

S5：将训练集输入所述网络模型后，对于每个分支提取到的图像特征与已经获取的文本特征进行拼接，然后将其作为参数添加在后续操作当中作为指导得到分割结果；输入图像首先经过分割网络编码器得到图像特征，如公式(8)所示：

其中X_i表示此时第i个图像输入网络，为分割网络的编码器部分，/>则是提取到的图像特征；由于此时特征图/>的大小与之前得到的文本特征T_e的大小不一致，所以将其经过全局平均池化之后才能与T_e拼接，得到中间参数，如公式(9)所示：

其中GAP表示全局平均池化操作，Concat(·，·)表示向量拼贴操作，θ_i是待处理的中间参数变量；而对于编码器得到的图像特征继续经过解码器的上采样部分，将特征图还原成原始图片的大小，并且与经过处理的θ_i相加，将相加的结果再经过卷积操作，得到最终的预测掩码，如下式(10)所示：

其中表示分割网络的解码器部分，Conv(·)表示卷积操作，目的是使θ_i的通道数和经解码器过后得到的特征图的通道数相一致，Expand(·)是扩充操作，使得θ_i的大小经解码器过后得到的特征图的大小相一致，Conv是得到最终分割结果的卷积层；

上述步骤是一个分支的处理过程，其余两分支的过程相同；

2.如权利要求1所述的3D医学图像分割方法，其特征在于，所述S1中，所述预处理包括：处理图像格式，进行图像裁剪，并对图像进行归一化处理；然后构建训练阶段的数据集D_tr，包含有监督的部分D_sup和无监督的部分D_unsup，即D_tr＝D_sup∩D_unsup，其中D_sup＝{(X₁，Y₁)，(X₂，Y₂)，……(X_L，Y_L)}，其中X_L表示体积图像，Y_L是其对应的真实标签，L代表带注释的3D图像数量，

D_unsup＝{(X_L+1)，(X_L+2)，......(X_M)}，从L+1到M总共M-L项代表不带注释的3D图片数目。

3.如权利要求1所述的3D医学图像分割方法，其特征在于，所述S3中，分割网络分割网络/>分割网络/>构成三分支，三分支结构均为VNet，初始化参数不同，以及训练过程中每个分支上对于有监督部分的真实标签的标注方式不同。

4.如权利要求1所述的3D医学图像分割方法，其特征在于，所述S6具体如下：

S6-1：监督损失L_sup：

对于每个体积图像X_i有对应的三个稀疏标签分割网络/>分割网络分割网络/>分别使用/>进行监督训练，监督损失包括Dice损失和交叉熵损失，如公式(11)、(12)、(13)所示：

其中p_i表示网络输出的预测标签，H×W×D表示图像的体素数量，表示计算得到的稀疏标签；L_sup是监督损失，L_ce表示交叉熵损失，L_dice表示Dice损失；

S6-2：无监督损失L_unsup：

为实现更好的交叉监督，如公式(14)，(15)，(16)所示：

其中p_i表示当前分支网络输出的预测标签，H×W×D表示图像的体素数量，和/>分别表示另外两个分支计算得到的预测标签，m_i表示当前体素是否被选择，L_cross1和L_cross2是交叉熵损失，L_unsup表示无监督损失；

S6-3：最终的总损失是监督损失与无监督损失的加权和，如下式(17)所示：

其中，λ为动态参数。