CN118212490A - 图像分割模型的训练方法、装置、设备及存储介质 - Google Patents
图像分割模型的训练方法、装置、设备及存储介质 Download PDFInfo
- Publication number
- CN118212490A CN118212490A CN202410600152.9A CN202410600152A CN118212490A CN 118212490 A CN118212490 A CN 118212490A CN 202410600152 A CN202410600152 A CN 202410600152A CN 118212490 A CN118212490 A CN 118212490A
- Authority
- CN
- China
- Prior art keywords
- segmentation
- model
- image
- segmentation result
- sample
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000012549 training Methods 0.000 title claims abstract description 135
- 238000003709 image segmentation Methods 0.000 title claims abstract description 134
- 238000000034 method Methods 0.000 title claims abstract description 123
- 238000003860 storage Methods 0.000 title claims abstract description 35
- 230000011218 segmentation Effects 0.000 claims abstract description 459
- 238000002372 labelling Methods 0.000 claims description 56
- 230000008569 process Effects 0.000 claims description 32
- 238000012937 correction Methods 0.000 claims description 25
- 230000000007 visual effect Effects 0.000 claims description 18
- 238000004590 computer program Methods 0.000 claims description 6
- 238000010586 diagram Methods 0.000 description 17
- 238000012545 processing Methods 0.000 description 9
- 230000006870 function Effects 0.000 description 7
- 238000013459 approach Methods 0.000 description 6
- 230000001746 atrial effect Effects 0.000 description 6
- 230000009467 reduction Effects 0.000 description 5
- 238000005070 sampling Methods 0.000 description 5
- 238000004422 calculation algorithm Methods 0.000 description 4
- 238000013461 design Methods 0.000 description 4
- 230000000694 effects Effects 0.000 description 4
- 238000001793 Wilcoxon signed-rank test Methods 0.000 description 3
- 230000009286 beneficial effect Effects 0.000 description 3
- 230000008901 benefit Effects 0.000 description 3
- 238000004364 calculation method Methods 0.000 description 3
- 238000009826 distribution Methods 0.000 description 3
- 210000005246 left atrium Anatomy 0.000 description 3
- 230000003044 adaptive effect Effects 0.000 description 2
- 230000000747 cardiac effect Effects 0.000 description 2
- 238000002591 computed tomography Methods 0.000 description 2
- 238000012790 confirmation Methods 0.000 description 2
- 238000013527 convolutional neural network Methods 0.000 description 2
- 125000004122 cyclic group Chemical group 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 238000011156 evaluation Methods 0.000 description 2
- 238000002474 experimental method Methods 0.000 description 2
- 238000000605 extraction Methods 0.000 description 2
- 230000003902 lesion Effects 0.000 description 2
- 238000002595 magnetic resonance imaging Methods 0.000 description 2
- 230000003446 memory effect Effects 0.000 description 2
- 238000012544 monitoring process Methods 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 210000000056 organ Anatomy 0.000 description 2
- 238000003909 pattern recognition Methods 0.000 description 2
- 238000012360 testing method Methods 0.000 description 2
- 206010063385 Intellectualisation Diseases 0.000 description 1
- 230000002411 adverse Effects 0.000 description 1
- 238000013473 artificial intelligence Methods 0.000 description 1
- 238000013528 artificial neural network Methods 0.000 description 1
- 230000003190 augmentative effect Effects 0.000 description 1
- 238000013475 authorization Methods 0.000 description 1
- 230000006399 behavior Effects 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 238000005520 cutting process Methods 0.000 description 1
- 230000003247 decreasing effect Effects 0.000 description 1
- 238000004821 distillation Methods 0.000 description 1
- 230000004927 fusion Effects 0.000 description 1
- 238000005286 illumination Methods 0.000 description 1
- 238000010191 image analysis Methods 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 210000004072 lung Anatomy 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000001151 non-parametric statistical test Methods 0.000 description 1
- 238000013421 nuclear magnetic resonance imaging Methods 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
- 230000008447 perception Effects 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 238000011524 similarity measure Methods 0.000 description 1
- 239000007787 solid Substances 0.000 description 1
- 238000000638 solvent extraction Methods 0.000 description 1
- 238000012956 testing procedure Methods 0.000 description 1
- 238000012546 transfer Methods 0.000 description 1
- 230000007704 transition Effects 0.000 description 1
Landscapes
- Image Analysis (AREA)
Abstract
本申请公开了一种图像分割模型的训练方法、装置、设备及存储介质,属于半监督学习领域。所述方法包括:获取有标签样本和无标签样本,有标签样本是标注有真实标签的图像样本;将有标签样本输入图像分割模型,得到有标签样本的第一分割结果;基于第一分割结果和真实标签,确定第一损失;将无标签样本输入图像分割模型,得到无标签样本的第二分割结果;通过通才分割模型校正第二分割结果,得到校正后的第二分割结果;基于校正后的第二分割结果,确定第二损失;基于第一损失和第二损失,训练图像分割模型。本申请可以采用通才分割模型的能力辅助训练得到高质量的专才分割模型。
Description
技术领域
本申请涉及半监督学习领域,特别涉及一种图像分割模型的训练方法、装置、设备及存储介质。
背景技术
图像分割模型在医学领域具有较高的实用价值。比如针对三维(3D)形式的核磁共振图像,采用图像分割模型识别各个器官以及病灶。
由于3D形式的医学图像的标注工作量非常巨大,相关技术采用半监督学习方式来训练图像分割模型。半监督学习方式是指:由医学专家随机标注一部分医学图像,得到少量的有标签样本。采用少量的有标签样本和大量的无标签样本,对图像分割模型训练。
上述半监督学习方式虽然能够减少对有标签样本的数量需求。但仍然需要有标签样本的数量达到一定数量才能完成训练。若有标签样本的数量不足,容易导致严重的过拟合问题。
发明内容
本申请提供了一种图像分割模型的训练方法、装置、设备及存储介质。所述技术方案如下:
根据本申请的一方面,提供了一种图像分割模型的训练方法,所述方法包括:
获取有标签样本和无标签样本,所述有标签样本是标注有真实标签的图像样本;
将所述有标签样本输入所述图像分割模型,得到所述有标签样本的第一分割结果;基于所述第一分割结果和所述真实标签,确定第一损失;
将所述无标签样本输入所述图像分割模型,得到所述无标签样本的第二分割结果;通过通才分割模型校正所述第二分割结果,得到校正后的第二分割结果,所述通才分割模型具有不限领域的通用图像分割能力;基于所述校正后的第二分割结果,确定第二损失;
基于所述第一损失和所述第二损失,训练所述图像分割模型。
根据本申请的另一方面,提供了一种图像分割模型的训练装置,所述装置包括:
样本获取模块,用于获取有标签样本和无标签样本,所述有标签样本是标注有真实标签的图像样本;
有标签分割模块,用于将所述有标签样本输入所述图像分割模型,得到所述有标签样本的第一分割结果;基于所述第一分割结果和所述真实标签,确定第一损失;
无标签分割模块,用于将所述无标签样本输入所述图像分割模型,得到所述无标签样本的第二分割结果;通过通才分割模型校正所述第二分割结果,得到校正后的第二分割结果,所述通才分割模型具有不限领域的通用图像分割能力;基于所述校正后的第二分割结果,确定第二损失;
模型训练模块,用于基于所述第一损失和所述第二损失,训练所述图像分割模型。
根据本申请的另一方面,提供了一种计算机设备,所述计算机设备包括处理器和存储器,所述存储器中存储有至少一段程序,所述至少一段程序由所述处理器加载并执行以实现如上方面所述的图像分割模型的训练方法。
根据本申请的另一方面,提供了一种计算机可读存储介质,所述计算机可读存储介质中存储有至少一段程序,所述至少一段程序由处理器加载并执行以实现如上方面所述的图像分割模型的训练方法。
根据本申请的另一方面,提供了一种计算机程序产品或计算机程序,该计算机程序产品或计算机程序包括计算机指令,该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令,处理器执行该计算机指令,使得该计算机设备执行上述方面的各种可选实现方式中提供的图像分割模型的训练方法。
本申请提供的技术方案带来的有益效果至少包括:
由于通才分割模型具有不限领域的通用图像分割能力,本申请通过使用图像分割模型对无标签样本的第二预测结果作为提示信息,提示通才分割模型生成校正后的第二分割结果,使用该校正后的第二分割结果在训练图像分割模型时提供额外的监督信号,能够提高对无标签样本中的信息利用率,从而有效降低对有标签样本的数量需求。本申请能够在低标注预算的情况下,使用极少量的有标签样本获得较为满意的训练结果。
附图说明
为了更清楚地说明本申请实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本申请一个示例性实施例提供的图像分割系统的结构框图;
图2是本申请一个示例性实施例提供的专才-通才协作过程的原理示意图;
图3是本申请一个示例性实施例提供的图像分割模型的训练方法的示意图;
图4是本申请另一个示例性实施例提供的图像分割模型的训练方法的示意图;
图5是本申请再一个示例性实施例提供的图像分割模型的训练方法的示意图;
图6是本申请一个示例性实施例提供的专家-模型协作过程的原理示意图;
图7是本申请一个示例性实施例提供的伪标签校正过程的不同标签的示意图;
图8是本申请的图像分割模型与其他图像分割模型的性能对比图;
图9是本申请一个示例性实施例提供的图像分割模型的训练装置的结构示意图;
图10是本申请一个示例性实施例提供的计算机设备的结构示意图。
此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本申请的实施例,并与说明书一起用于解释本申请的原理。
具体实施方式
为使本申请的目的、技术方案和优点更加清楚,下面将结合附图对本申请实施方式作进一步地详细描述。
首先,对本申请涉及的名词进行介绍。
图像分割:是将一张图像中的各个像素点或体素划分至某一个语义分类的技术。比如将一个二维图像中的每个像素点划分至两分类中的一个类别,两分类包括前景类别和背景类别中;又比如,将一个三维医学图像中的每个体素划分至两分类中的一个类别,两分类包括:心脏类别和非心脏类别。当然,图像分割也不局限于二分类场景,还可以是多分类场景。
通才分割模型:也称通用分割模型、通用基础大模型或通用视觉大模型,是采用大规模图像样本集训练得到的、不限制使用领域的图像分割模型。通才分割模型是类不可知的。类不可知是指通才分割模型在不知晓图像中每个分割部分的实际语义分类的情况下,也能将图像中具有不同语义分类的各个分割部分准确分割。
专才分割模型:也称专家分割模型,是采用指定领域图像样本集训练得到的,适用于指定领域的图像分割模型。专才分割模型是相对于通才分割模型来讲的,专才分割模型的使用领域有限。
范式(Paradigm):这个词在不同的学科和语境中有不同的含义,但通常它指的是一个领域中广泛接受的理论框架、方法论、标准或思维模式。
半监督学习(Semi-Supervised Learning,SSL):是机器学习中的一种方法,它介于监督学习和无监督学习之间。在监督学习中,模型从有标签样本中学习,而在无监督学习中,模型从无标签样本中学习。半监督学习则结合了这两种方法,使用少量的有标签样本和大量的无标签样本来进行训练。
真实标签(Real Labels):真实标签是指对于数据集中的每个样本,都有正确且准确的标签(类别或值)。比如,由医学专家标注的标签。
伪标签(Pseudo Labels):伪标签是一种在没有真实标签的情况下使用的标签,它们是由已训练的人工智能模型生成的预测,充当真实标签来使用。在某些学习场景下,尤其是当有大量未标记数据可用时,伪标签可以被用来提升模型性能。
半监督学习通过有效减少放射科医生繁琐的密集标注需求,已经在三维(3D)医学图像分割领域取得了显著进步。过往针对半监督学习的研究集中在以模型为中心的创新上,也即开发更高级更复杂的半监督学习算法。但随着开源的通才分割模型的出现,本申请将针对半监督学习的研究转向以数据为中心的视角,也即更关注如何通过通才分割模型的通才能力来有效且高效地提升监督信号的质量,从而更加有效的利用无标签样本中的信息。
图1是本申请一个示例性实施例提供的图像分割系统的结构框图。该图像分割系统包括:患者设备110、服务器120和医生设备130。
患者设备110安装和运行有客户端。该客户端支持上传待分割的图像,比如3D医疗图像。该客户端的存在形式包括应用程序(Application,APP)、小程序(Mini Program)、网页(Web Page)、网页客户端(Web Client)、云客户端(Cloud Client)等。一些实施例中,该客户端登录有第一用户的用户账号。患者设备110的设备类型包括:智能手机(Smartphone)、平板电脑(Tablet Computer)、虚拟现实设备(Virtual Reality Device,VRDevice)、增强现实设备(Augmented Reality Device,AR Device)、医疗设备(MedicalEquipment)、电子书阅读器(E-Book Reader)、MP3播放器(MP3 Player)、MP4播放器(MP4Player)、膝上型便携计算机和台式计算机中的至少一种。可选地,在医疗场景中,患者设备110是患者使用的设备,或放射科医生使用的设备。
患者设备110通过无线网络或有线网络与服务器120相连。需要说明的是,上述终端的数量仅用作实例,不作为对本申请实施例提供的计算机系统的限制。
服务器120包括一台服务器、多台服务器、云计算平台和虚拟化中心中的至少一种。一些实施例中,服务器120用于为客户端提供后台服务,服务器120内运行有本申请提供的半监督训练后的专才分割模型10,该专才分割模型10具有在指定领域内的图像分割能力。在本申请中,该专才分割模型10是利用通才分割模型20辅助训练得到的。可选地,服务器120承担主要计算工作,患者设备110承担次要计算工作;或者,服务器120承担次要计算工作,患者设备110承担主要计算工作;或者,服务器120和患者设备110之间采用分布式计算架构进行协同计算。
医生设备130安装和运行有客户端。该客户端支持接收图像的分割结果,比如3D医疗图像的分割结果。该客户端的存在形式包括APP、小程序、网页、网页客户端、云客户端等。一些实施例中,该客户端登录有第二用户的用户账号。医生设备130的设备类型包括:智能手机、平板电脑、VR设备、AR设备、医疗设备、电子书阅读器、MP3播放器、MP4播放器、膝上型便携计算机和台式计算机中的至少一种。可选地,在医疗场景中,医生设备130是诊断医生使用的设备,用于查看对患者的医学图像的分割结果。
以专才分割模型10是医学领域的图像分割模型为例,患者使用患者设备110上传医学图像给服务器120,服务器120将医学图像输入该专才分割模型10,生成该医学图像的分割结果。服务器120将该医学图像的分割结果发送给医生设备130,供诊断医生在医生设备130上查看该分割结果。
需要说明的是,图1以患者设备110和医生设备130各为一个来说明,但在不同的实施例中,患者设备110和医生设备130均可以为一个或多个,本申请实施例对此不加以限定。
本申请提出了一种基于通才分割模型20驱动的半监督学习范式,旨在使用有限的标注资源开发定制化的专才分割模型10。结合参考图2,图2是本申请一个示例性实施例提供的专才-通才协作过程的原理示意图。在该协作框架中包括:专才分割模型10和通才分割模型20。其中:
专才分割模型10包括学生模型12和教师模型14。在训练阶段中,学生模型12和教师模型14均会被使用;在推理阶段中,仅使用学生模型12即可。相关技术中,学生模型12和教师模型14的训练过程包括如下步骤。
步骤一:将有标签样本(x1,y1)输入学生模型12,计算出第一损失;x1是有标签样本中的图像,y1是有标签样本中的真实标签,第一损失是学生模型12的学生分割结果与真实标签y1之间的损失。
步骤二:将无标签样本x2输入学生模型12得到标签1(学生分割结果),将无标签样本x2输入教师模型14得到标签2(教师分割结果),由于希望学生模型12和教师模型14的预测标签尽量相等,因此可根据标签1和标签2(伪标签)计算出第二损失;其中,将无标签样本x2输入教师模型14前,可以对无标签样本x2增加数据扰动。
步骤三:在当前轮迭代中,根据第一损失和第二损失更新学生模型12的网络参数。
步骤四:在当前轮迭代中,在更新学生模型12的网络参数后,再利用学生模型12的网络参数更新教师模型14的网络参数。比如,利用至少两轮迭代(含当前轮)中学生模型12的网络参数的平均值或加权平均值,作为教师模型14的网络参数。教师模型14的更新过程可采用指数移动平均(Exponential Moving Average,EMA)机制。
在相关技术的上述步骤四中,特别是训练早期,教师模型14为无标签样本所预测的标签2的准确率很低,本申请实施例使用通才分割模型20来校准标签2,得到更为准确的伪标签(标签2)。利用更为准确的标签2来为学生模型12提供更为有效的监督信号。
通才分割模型20能够基于提示信息,对任何领域的图像预测出分割结果的通用分割能力。在本申请中,将教师模型14预测的标签2作为通才分割模型20的提示信息,使得通才分割模型20能够预测出更为准确的标签2,也即校正后的标签2。
以通才分割模型20是具有二维图像的通才分割能力、“有标签样本+无标签样本”是三维图像为例。使用通才分割模型20校正得到更为准确的标签2的介绍如下:示例性的,通才分割模型20包括图像编码器22、提示编码器24和掩码解码器26。其中,图像编码器22用于对输入的二维图像执行特征提取,得到图像特征表示;提示编码器24用于对输入的提示信息(校正前的标签2)执行特征提取,得到提示特征表示;掩码解码器26用于基于提示特征表示的提示引导作用,对图像特征表示执行图像分割,得到更为准确的分割结果。
但是由于通才分割模型20的输入图像是二维图像,而无标签样本是三维图像。因此先将无标签样本按照三个视角(比如冠状、轴向、矢状)分别切片,得到三个视角分别对应的多个切片图像。然后由通才分割模型20针对每个视角对应的多个切片图像分别执行图像分割,得到每个视角下的伪标签。每个视角下的伪标签是由该视角下对应的多个切片图像的二维分割信息得到的。这样,三维图像中的每个体素,其实会得到三份分割信息(分别对应三个视角)。为了将每个体素在三个视角下的分割信息融合校正为一份准确的分割信息。本申请实施例引入了两种可能的校正策略。
校正策略一:全体一致同意(Unanimous Agreement,UA);全体一致同意策略是指:针对三维图像中的每个体素,只有当该体素的三份分割信息均认为该体素属于第一分类时,确定该体素属于第一分类;否则,属于第二分类。
校正策略二:少数服从多数(Majority Voting,MV);少数服从多数策略是指:针对三维图像中的每个体素,当该体素的至少两份分割信息均认为该体素属于第一分类时,确定该体素属于第一分类;否则,属于第二分类。
在标签校正完毕后,得到由通才分割模型20校正后的标签2,利用校正后的标签2来计算上述步骤四中的第二损失,能够提供更为有效的监督信号。
图3是本申请一个示例性实施例提供的图像分割模型的训练方法的示意图。该方法由开发人员所使用的计算机设备执行,或图1中的服务器120执行。该计算机设备或服务器120中运行有图像分割模型。该方法包括如下步骤中的至少之一。
步骤302:获取有标签样本和无标签样本;
有标签样本是标注有真实标签的图像样本,无标签样本是未标注有真实标签的图像样本。真实标签是用于指示图像中的像素点或体素属于哪一种分类的标注信息。
在图像分割领域,图像样本是二维图像或三维图像。可选地,对于二维图像,真实标签使用二维图像的掩码图像来表示,比如在该掩码图像中的像素点取值为1时,代表二维图像中相应位置的像素点属于第一分类;在该掩码图像中的像素点取值为0时,代表二维图像中相应位置的像素点属于第二分类。对于三维图像,真实标签可使用三维图像中体素的掩码来标识,比如在该三维图像中的体素的掩码取值为1时,代表属于第一分类;在该三维图像中的体素的掩码取值为0时,代表属于第二分类。
其中,有标签样本的数量在低标注预算成本的情况下,少于相关技术中所需要的数量。
步骤304:将有标签样本输入图像分割模型,得到有标签样本的第一分割结果;
第一分割结果是由图像分割模型预测的分割结果。第一分割结果用于预测有标签样本中的像素点或体素属于哪一种分类,也可称为预测分割结果。
图像分割模型可以是采用任意具有图像分割能力的神经网络架构实现。比如图像分割模型可采用卷积神经网络、V型网络(V-Net)、语义分割的全卷积网络(FullyConvolutional Networks for Semantic Segmentation,FCN)、用于生物医学图像分割的卷积网络(Convolutional Networks for Biomedical Image Segmentation,U-net)网络、深度卷积网络、空洞卷积和全连接条件随机场的语义图像分割(Semantic ImageSegmentation with Deep Convolutional Nets,Atrous Convolution,and FullyConnected CRFs,DeepLab)、密集连接卷积网络(Densely Connected ConvolutionalNetworks,DenseNet)、残差网络(Residual Networks,ResNet)中的任意一种。
本实施例以图像分割模型是V-Net来举例说明。V-Net的特点是它结合了3D卷积神经网络和全卷积网络(Fully Convolutional Network,FCN)的思想,通过编码器-解码器(encoder-decoder)架构实现精确的图像分割。这种设计有助于在图像中捕捉到更深层次的空间关系,从而提高分割的精度。V-Net在医学图像分割任务中表现出了良好的性能,因此被广泛应用于医学领域。
步骤306:基于第一分割结果和真实标签,确定第一损失;
第一分割结果与真实标签存在有误差,基于第一分割结果和真实标签之间的误差,确定第一损失。也即,第一损失用于指示图像分割模型预测的第一分割结果和真实标签之间的误差。
步骤308:将无标签样本输入图像分割模型,得到无标签样本的第二分割结果;通过通才分割模型校正第二分割结果,得到校正后的第二分割结果;
第二分割结果是由图像分割模型预测的分割结果。第二分割结果用于预测无标签样本中的体素属于哪一种分类,也可称为预测分割结果。在训练早期,该第二分割结果的准确率较差。
通才分割模型是相关技术中预先训练好(也称冻结)的不限领域的分割模型。通才分割模型是类不可知的。类不可知是指通才分割模型在不知晓图像中每个分割部分的具体语义的情况下,也能将图像中各个分割部分准确分割。通才分割模型通常是使用大规模图像数据集训练得到的。
通才分割模型能够在提示信息的引导下,对图像准确分割。利用通才分割模型的这一能力,以第二分割结果为引导信息,使用通才分割模型对无标签样本执行图像分割,能够得到校正后的第二分割结果。
需要说明的是,有标签样本也可以作为无标签样本执行步骤308和步骤310的训练过程。
步骤310:以校正后的第二分割结果作为无标签样本的伪标签,确定第二损失;
校正后的第二分割结果的准确性较高,基于校正后的第二分割结果作为无标签样本的伪标签,确定无标签样本的第二损失。
可选地,采用半监督学习方式,以校正后的第二分割结果作为伪标签来确定无标签样本的第二损失。第二损失用于指示图像分割模型为无标签样本预测的分割结果与伪标签之间的误差。
步骤312:基于第一损失和第二损失,训练图像分割模型。
其中,第一损失是有标签样本的损失,第二损失是无标签样本的损失。基于第一损失和第二损失,采用半监督学习方式训练图像分割模型。
综上所述,本申请实施例提供的方法,由于通才分割模型具有不限领域的通用图像分割能力,通过使用图像分割模型对无标签样本的第二预测结果作为提示信息,提示通才分割模型生成校正后的第二分割结果,使用该校正后的第二分割结果在训练图像分割模型时提供额外的监督信号,能够提高对无标签样本中的信息利用率,从而有效降低对有标签样本的数量需求。本申请能够在低标注预算的情况下,使用极少量的有标签样本获得较为满意的训练结果。
伪标签的校正:
本申请实施例要训练的图像分割模型是针对某个应用领域专用的分割模型,称为专才分割模型10。比如应用在医疗领域的专才分割模型10。通才分割模型20是相关技术中预先训练好的不限领域的分割模型。
本申请实施例采用专才分割模型10和通才分割模型20的协作,利用通才分割模型20的图像分割能力来给专才分割模型10提供额外的监督信号。由于通才分割模型20能够在提示信息的引导下,对图像进行准确分割。利用通才分割模型20的这一能力,以无标签样本作为待分割图像,以及以第二分割结果作为提示信息,通过通才分割模型20生成校正后的第二分割结果。由于通才分割模型20具有不限领域的通用图像分割能力,因此以第二分割结果作为提示信息,能够利用通才分割模型20的已有分割能力,校正出更为准确的第二分割结果,从而能提取出无标签样本的更多有效信息,提供额外的监督信号。
通才分割模型20可以是对二维图像具有通才分割能力的图像分割模型,也可以是对三维图像具有通才分割能力的图像分割模型。
在一些实施例中,上述无标签样本是二维图像,专才分割模型是指定领域的二维图像的分割模型,通才分割模型是通用领域的二维图像的分割模型。以无标签样本作为待分割图像,以及以第二分割结果作为提示信息,通过通才分割模型预测出的分割结果,即为校正后的第二分割结果。
在一些实施例中,上述无标签样本是三维图像,专才分割模型是指定领域的三维图像的分割模型,通才分割模型是通用领域的三维图像的分割模型。以无标签样本作为待分割图像,以及以第二分割结果作为提示信息,通过通才分割模型预测出的分割结果,即为校正后的第二分割结果。
在一些实施例中,上述无标签样本是三维图像,图像分割模型是三维图像的分割模型,通才分割模型是二维图像的分割模型。如图4所示,图4是本申请另一个示例性实施例提供的图像分割模型的训练方法的示意图。上述步骤“通过通才分割模型校正第二分割结果,得到校正后的第二分割结果”,可包括如下子步骤中的至少一个步骤。
步骤402:从无标签样本提取三个视角的多个切片图像,三个视角与三维图像的三个坐标平面对应;
三个视角分别与三维图像的三个坐标平面对应。以三维图像是医学三维图像为例,三个视角分别是冠状视角、轴向视角、矢状视角。
将三维图像按照每个视角切割成多个二维的切片图像。也即,将三维图像按照冠状视角切割成为多个切片图像;将三维图像按照轴向视角切割成为多个切片图像;将三维图像按照矢状视角切割成为多个切片图像。
步骤404:将三个视角的多个切片图像作为待分割图像,以及以第二分割结果作为提示信息,通过通才分割模型预测出三个视角上的伪标签,每个视角上的伪标签包括属于同一视角的多个切片图像的二维分割结果;
由于通才分割模型是二维图像的分割模型,将每个视角的第i个切片图像作为待分割图像,以及将第二分割结果(三维体素级)中针对当前视角的第i个切片图像的预测结果(二维像素级)作为提示信息。其中,体素是三维图像中的基本元素,像素是二维图像中的基本元素。在本申请实施例中,体素和像素可以认为是同一概念,只是针对三维图像和二维图像中的不同称呼。
将待分割图像和提示信息一同输入通才分割模型,预测出当前视角上的伪标签。当前视角上的伪标签用于指示当前视角的关键切片图像的二维分割结果(像素级)。
在一些实施例中,步骤404包括如下子步骤中的至少一个子步骤。
子步骤1:基于第二分割结果,确定三个视角的每个切片图像的二维分割信息,三个视角包括第一视角、第二视角和第三视角;
比如在医疗领域中,三个视角包括冠状视角、轴向视角和矢状视角。
该二维分割信息可以是点状提示信息、框状提示信息或掩码提示信息。该二维分割信息是像素级的提示信息。
第二分割结果是三维分割结果,包括三维图像中每个体素属于哪个分类的预测结果。假设三维图像的分辨率为H×W×D,则三个视角分别可拆分为H个切片图像、W个切片图像和D个切片图像。
由于训练早期的监督信号有限,导致第二分割结果的准确度不高。在一些实施例中,还可以对二维分割信息增加随机噪声。比如,二维分割信息是框状提示信息,对框状提示信息增加0-10像素的随机扰动,该随机扰动是指将分割框放大或缩小x像素,x是0-10之间的随机数。
本实施例通过增加数据扰动,使得学生模型能够学习到更多的数据变化,从而提高其泛化能力,减少过拟合的风险。同时,数据扰动可以模拟不同的真实情况,如不同的患者、采集环境、光照、角度、噪声等,使得模型能够更好地处理实际应用中的多样性。
子步骤2:将第一视角的多个切片图像作为待分割图像,以及以第一视角的多个切片图像的二维分割信息作为提示信息,通过通才分割模型预测出第一视角下的伪标签;
示例性的,将第一视角的第i个切片图像作为待分割图像,以及以第一视角的第i个切片图像的二维分割信息作为提示信息,通过通才分割模型预测出第一视角的第i个切片图像的二维分割结果。其中,i的起始值为1,最大值为H。在i不等于H的情况下,将i更新为i+1,重复上述步骤直至得到通才分割模型对第一视角下的H个切片图像的二维分割结果,汇总为第一视角下的伪标签。
子步骤3:将第二视角的多个切片图像作为待分割图像,以及以第二视角的多个切片图像的二维分割信息作为提示信息,通过通才分割模型预测出第二视角下的伪标签;
示例性的,将第二视角的第j个切片图像作为待分割图像,以及以第二视角的第j个切片图像的二维分割信息作为提示信息,通过通才分割模型预测出第二视角的第j个切片图像的二维分割结果。其中,j的起始值为1,最大值为W。在j不等于W的情况下,将j更新为j+1,重复上述步骤直至得到通才分割模型对第二视角下的W个切片图像的二维分割结果,汇总为第二视角下的伪标签。
子步骤4:将第三视角的多个切片图像作为待分割图像,以及以第三视角的多个切片图像的二维分割信息作为提示信息,通过通才分割模型预测出第三视角上的伪标签;
示例性的,将第三视角的第k个切片图像作为待分割图像,以及以第三视角的第k个切片图像的二维分割信息作为提示信息,通过通才分割模型预测出第三视角的第k个切片图像的二维分割结果。其中,j的起始值为1,最大值为D。在k不等于D的情况下,将k更新为k+1,重复上述步骤直至得到通才分割模型对第三视角下的W个切片图像的二维分割结果,汇总为第三视角下的伪标签。
由于目前技术中的通才分割模型基本都是针对2D图像的图像分割模型,采用上述方法能够将支持2D的通才分割模型的通用图像分割能力,应用到3D的无标签样本的伪标签校正过程中,实现了跨图像格式的能力利用。
步骤406:采用校正策略融合三个视角上的伪标签,生成校正后的第二分割结果。
校正策略包括但不限于:全体一致同意策略和少数服从多数策略中的任意一个。
以图像分割模型是二分类模型分割为例,全体一致同意策略是指:对于无标签样本中的任意一个体素,在三个视角上的伪标签均认为该体素属于第一分类的情况下,确定该体素属于第一分类;在三个视角上的伪标签存在至少一个认为该体素不属于第一分类的情况下,确定该体素属于第二分类。基于无标签样本中的各个体素的分类结果,生成校正后的第二分割结果。
以第一分类是前景,第二分类是背景为例,若针对无标签样本中的任意一个体素,在三个视角上的伪标签均认为该体素属于前景的情况下,确定该体素属于前景;在三个视角上的伪标签存在至少一个伪标签认为该体素属于背景的情况下,确定该体素属于背景。
在样本标签的校正过程中,采用全体一致同意策略可以确保准确性以及减少错误决策。由于要求所有视角对同一体素的校正达成共识,因此有助于确保校正过程的准确性,避免因某个视角的偏见或错误导致的校正错误。
少数服从多数策略是指:对于无标签样本中的任意一个体素,在至少两个视角上的伪标签均认为该体素属于第一分类的情况下,确定该体素属于第一分类;在至少两个视角上的伪标签认为该体素属于第二分类的情况下,确定该体素属于所述第二分类。基于无标签样本中的各个体素的分类结果,生成校正后的第二分割结果。
以第一分类是前景,第二分类是背景为例,若针对无标签样本中的任意一个体素,存在至少两个视角上的伪标签均认为该体素属于前景的情况下,确定该体素属于前景;在存在至少两个视角上的伪标签认为该体素属于背景的情况下,确定该体素属于背景。
在样本标签的校正过程中,采用少数服从多数策略允许快速做出决策,也即有2个视角达成共识即可无需再查看第3个视角的伪标签。由于每个三维图像中的体素数量非常庞大,采用少数服从多数策略能够显著降低对整个三维图像中所有体素校正时的计算量,提高校正过程的效率。
学生模型和教师模型:
在一些实施例中,上述图像分割模型包括学生模型和教师模型。在训练阶段,该学生模型需要配合教师模型来训练;在推理阶段,仅需要该学生模型即可完成图像分割。图5是本申请再一个示例性实施例提供的图像分割模型的训练方法的示意图。该方法由开发人员所使用的计算机设备执行,或图1中的服务器120执行。该计算机设备或服务器120中运行有图像分割模型。该方法包括:
步骤502:获取有标签样本和无标签样本;
有标签样本是标注有真实标签的图像样本,无标签样本是未标注有真实标签的图像样本。真实标签是用于指示图像中的像素点或体素属于哪一种分类的标注信息。
在图像分割领域,图像样本是二维图像或三维图像。可选地,对于二维图像,真实标签可使用二维图像的掩码图像来表示,比如在该掩码图像中的像素点取值为1时,代表属于第一分类;在该掩码图像中的像素点取值为0时,代表属于第二分类。对于三维图像,真实标签可使用三维图像中体素的掩码来标识,比如在该三维图像中的体素的掩码取值为1时,代表属于第一分类;在该三维图像中的体素的掩码取值为0时,代表属于第二分类。
其中,有标签样本的数量在低标注预算成本的情况下,少于相关技术中所需要的数量。
步骤504:将有标签样本输入学生模型,得到有标签样本的第一分割结果;
第一分割结果是由学生模型预测的分割结果。第一分割结果用于预测有标签样本中的像素点或体素属于哪一种分类,也可称为预测分割结果。
步骤506:基于第一分割结果和真实标签,确定学生模型的第一损失;
第一分割结果与真实标签存在有误差,基于第一分割结果和真实标签之间的误差,确定第一损失。
第一损失用于指示学生模型预测的第一分割结果和真实标签之间的误差。该第一损失提供了输入数据及其对应的正确输出,是半监督学习算法能够进行的关键信息,能够使得学生模型学习到最基础的专才分割能力。
步骤508:将无标签样本分别输入学生模型和教师模型得到第二分割结果,第二分割结果包括教师模型预测的教师分割结果和学生模型预测的学生分割结果;通过通才分割模型校正教师分割结果,得到校正后的教师分割结果;
第二分割结果是由图像分割模型对无标签样本预测的分割结果。在图像分割模型包括教师模型和学生模型的情况下,第二分割结果包括教师模型预测的教师分割结果和学生模型预测的学生分割结果。
通才分割模型是相关技术中预先训练好(也称冻结)的不限领域的分割模型。通才分割模型是类不可知的。类不可知是指通才分割模型在不知晓图像中每个分割部分的具体语义的情况下,也能将图像中各个分割部分准确分割。通才分割模型通常是使用大规模图像数据集训练得到的。
通才分割模型能够在提示信息的引导下,对输入的图像准确分割。利用通才分割模型的这一能力,以教师预测结果为引导信息,使用通才分割模型对无标签样本执行图像分割,能够得到校正后的教师分割结果。
步骤510:基于校正后的教师分割结果和学生分割结果,确定学生模型的第二损失;
校正后的教师分割结果的准确性较高,基于校正后的教师分割结果确定无标签样本的第二损失。可选地,基于校正后的教师分割结果和学生预测结果,确定学生模型的第二损失。例如,以校准后的教师分割结果作为伪标签,计算学生分割结果和校正后的教师分割结果之间的差异,确定学生模型的第二损失。
在有标签样本比较稀缺的情况下,无标签样本和有标签样本一起使用,能够显著提高学生模型的性能,同时增强训练样本的多样性来提高学生模型的泛化能力。
在一些实施例中,本步骤包括如下子步骤:
步骤(1):基于学生分割结果和校正后的教师分割结果,计算伪标签损失;
可选地,计算学生分割结果和校正后的教师分割结果之间的Dice损失,作为伪标签损失。Dice系数,根据 Lee Raymond Dice命名,是一种集合相似度度量函数,通常用于计算两个样本的相似度(值范围为[0,1])。
其中,|X∩Y|表示X和Y集合的交集,|X|和|Y|表示其元素个数,对于分割任务而言,|X|和|Y|表示分割的校正后的教师分割结果和学生分割结果。基于Dice系数可以得到Dice Loss的公式:
可选地,计算学生分割结果和校正后的教师分割结果之间的增强Dice损失,作为伪标签损失。该增强Dice损失是耐噪声的Dice损失。
步骤(2):基于学生分割结果和教师分割结果,计算一致性损失;
步骤(3):将伪标签损失和一致性损失之间的加权求和值,确定为第二损失。
可选地,计算第一权重和伪标签损失的第一乘积,以及第二权重和一致性损失的第二乘积;将第一乘积和第二乘积之和,确定为第二损失。
利用伪标签损失和一致性损失计算第二损失,即能够利用伪标签损失提供的额外监督作用,也能够利用一致性损失帮助学生模型学习到与教师模型一致的表示,从而提高学生模型的泛化能力。也即,能够同时从两个训练角度为无标签样本提供监督信号,促进学生模型的训练效果。
由于在训练早期时,教师分割结果不太准确,训练过程更依赖伪标签损失,伪标签损失可提供有效的早期监督作用,但后续训练过程过渡依赖这些噪声标签可能会由于记忆效应而误导学生模型。另外,由于噪训练早期的学生模型难以感知物体,使得一致性损失这种稳定性约束相对没有意义。因此在可选设计中,引入与训练时间有关的权重,来调节协作训练期间的两个损失的重要性,使得不同阶段都参考最有效的损失提供监督信号来训练。
基于训练过程的当前训练次数和最大训练次数,确定第一权重和第二权重。示例性的,假设当前训练次数和最大训练次数之间的比值为已训练次数占比,第一权重与已训练次数占比呈负相关关系,也即已训练次数占比越大,第一权重越小;第二权重与已训练次数占比呈正相关关系,也即已训练次数占比越大,第二权重越大。
步骤512:基于第一损失和第二损失,更新学生模型在第i轮训练的网络参数;
训练过程通常包括多轮训练。以降低第一损失和第二损失为训练目标,更新学生模型在第i轮训练的网络参数,i为整数,i的起始值为0或1。
步骤514:基于学生模型在第i轮训练之前的网络参数和第i轮训练的网络参数,更新教师模型的网络参数。
可选地,教师-学生模型是基于一致性正则化的标准SSL设计。学生模型通过误差反向传播算法训练,教师模型通过学生模型在过去的网络参数和当前的网络参数,基于指数移动平均(EMA)更新。
其中,第i轮训练之前的网络参数可以是至少一轮历史训练的网络参数。比如,将学生模型在上一轮训练的网络参数和本轮训练的网络参数按照权重求和,得到教师模型的网络参数。
主动学习(主动选择有标签样本):
在传统的半监督学习中会随机选择一部分无标签样本,由标记人员标记得到有标签样本。但随机选择的方式不一定能选择到图像分割模型最需要的样本,容易噪声标注冗余。为了更好的利用珍贵的标注预算,在写实施例中采用了主动样本选择。在每一轮训练中,通过学生模型对每个无标签样本评分,然后选择得分较高的无标签样本进行标注,以得到有标签样本。重复该过程直到标注预算耗尽。
主动选择样本标记可以更高效地使用有限的标注资源。一方面,通过选择最有价值的样本进行标注,学习对当前阶段的学生模型改进最大的样本,可以更快地提高学生模型的性能。在标注成本高昂的情况下,主动学习可以减少需要标注的样本数量,从而节约成本。
在采用上述主动学习的实施例中,上述方法还包括:基于第i轮训练中的无标签样本的第二分割结果,从无标签样本中选择待标注样本;获取为待标注样本标注的真实标签,得到第i轮训练中主动选择生成的有标签样本,以及将有标签样本添加至第i+1轮训练使用的有标签样本集合中。其中,将待标注样本标注为有标签样本的过程,可由具有专业技能的人工完成。
示例性的,基于第i轮训练中的无标签样本的第二分割结果,将满足预设条件的无标签样本选择为待标注样本;其中,满足预设条件的无标签样本,包括如下至少之一。
(i)按照第二分割结果的置信度由低到高排序的前K1个无标签样本;
对于每个无标签样本,以该无标签样本的第二分割结果的置信度作为主动分数,由低到高排序的前K1个无标签样本是主动选择的待标注样本。由于置信度较低的样本是当前阶段的模型无法准确预测的样本,因此选择这部分样本进行学习,能够使得当前模型快速改进自身的性能。
(ii)按照第二分割结果的平均预测熵由高到低排序的前K2个无标签样本,平均预测熵是第二分割结果中所有体素的平均熵;
对于每个无标签样本,以该无标签样本的第二分割结果的平均预测熵作为主动分数,由高到低排序的前K2个无标签样本是主动选择的待标注样本。
每个体素有各自对应的预测概率,代表是否属于第一分类。平均预测熵代表第二分割结果的不确定性,选择平均预测熵较高的样本能够选择出不确定性较高的样本,从而使得当前模型快速改进自身的性能。
(iii)按照第二分割结果的熵比由高到低排序的前K3个无标签样本,熵比是第二分割结果中超过概率阈值的体素占所有体素的比例;
对于每个无标签样本,以该无标签样本的第二分割结果的熵比作为主动分数,由高到低排序的前K3个无标签样本是主动选择的待标注样本。相比于平均预测熵,最高熵比能够更清楚地反映图像中高不确定性的分布,有利于挑选出存在高不确定性分布的样本,进而标记为有标签样本,从而使得当前模型快速改进自身的性能。
其中,K1、K2和K3均为正整数。
结合参考图6,图6是本申请一个示例性实施例提供的专家-模型协作过程的原理示意图。在第i轮训练后,基于学生模型预测的学生预测结果。通过主动学习函数计算每个无标签样本的主动分数。选择主动分数排序在前K个的无标签样本,作为待标注样本。然后咨询相关领域的专家,由专家对主动选择的无标签样本执行标注。
交叉标注策略:
在一些实施例中,有标签样本为三维图像。传统的标注方法对三维图像执行标注时,需要对三维图像中的每个体素执行标注,工作量非常庞大。因此,本申请实施例还提供了一种降低标注工作量的标注方法。也即,本申请实施例中的有标签样本的真实标签可以采用交叉标签策略标注。交叉标签策略是对三维图像中三个视角的关键切片图像分别标记二维分割信息的标注策略;其中,每个视角的关键切片图像是属于当前视角的多张切片图像中的一张切片图像。
可选地,若一个视角下的多个切片图像为n1个切片图像,n1为奇数,则该视角下的关键切片图像是位于最中间的一个切片图像,也即第(n1+1)/2个切片图像;若一个视角下的多个切片图像为n2个切片图像,n2为偶数,则该视角下的关键切片图像是位于中间的一个切片图像,也即第n2/2个切片图像或第(n2/2)+1个切片图像。
继续结合参考图6,以三维图像是医学图像为例,在三维图像的冠状视角的多个切片图像中选择一个冠状关键切片;在三维图像的轴向视角的多个切片图像中选择一张轴向关键切片;在三维图像的矢状视角的多个切片图像中选择一个矢状关键切片。由医学专家为冠状关键切片、轴向关键切片、矢状关键切片共三张切片图像执行标注,作为该三维图像经过交叉标注后的真实标签。
由于一张三维图像的体素数量非常多,达到H×D×W个。相比于对所有体素均标记的方案,本申请对一张三维图像所需要标注的体素数量为:H×D+H×W+D×W个,实现1-2个数量级级别的工作量减少,能够极大的降低标注工作量,更充分的利用有限的标注预算,来实现与所有体素均标注类似的训练效果。
图像分割是计算机视觉领域中的一项重要技术,是图像理解中的重要一环。上述图像分割模型的训练方法可适用于二维图像的图像分割场景,也可适用于三维图像的图像分割场景。同时,图像分割可以应用在医学影像分析、安全监控、无人驾驶系统、农业智能化、人脸识别、视频编辑、增强显示、零售图像识别、虹膜识别、机器视觉等领域。以下以图像分割应用在3D医学影像、医学分割模型为三维图像的分割模型、通才分割模型为二维图像的分割模型为例,进行示例性说明。
问题定义:
传统的SSL通常涉及从训练数据集中随机预选一个/>个无标签样本的子集进行密集标注,之后使用标注子集/>(/>个有标签样本)和未标注子集/>(/>个无标签样本)进行训练,上角标l代表有标签样本,上角标u代表无标签样本。本实施例探索了一种新的主动稀疏监督学习设置,强调更有效地使用极限的标注预算。与传统的SSL不同,本实施例的主动稀疏监督学习结合了人在循环中(human in the loop)的范式,以在训练过程中选择模型想要的高价值样本进行标注,并采用高效的交叉标注策略。
具体来说,在第轮主动学习中,本实施例有一个交叉标注子集,包含/>个交叉标注后的有标签样本,剩余的作为未标注子集,包含/>个未标注的无标签样本,cl代表交叉标注,u代表无标注。表示具有高度/>、宽度/>和深度/>的3D图像,/>表示/>的交叉标签(本实施例关注二类分割)。
在训练之前,本实施例通过随机选择一小部分无标签样本执行交叉标注,以进行医学分割模型的热身,从而构建作为起点。本实施例的目标是通过优化以下损失函数来使用主动交叉标注的有标签样本和无标签样本来学习准确的医学分割模型:
其中,表示/>中的有标签样本的监督损失(也即第一损失),/>表示来自所有样本的辅助损失(也即第二损失)。对于第一损失/>,本实施例采用了真实标签中的各个体素上的部分交叉熵损失。本实施例采用了上述的两种数据中心策略:专才-通才协作和专家-模型协作。
该医学分割模型的训练过程包括如下步骤中的至少一个步骤。
步骤1:获取大量采用三维图像格式的无标签医学样本;
以医学图像为放射科医学图像为例,存在大量不具有真实标签的计算机断层扫描图像(Computed Tomography,CT)图像或核共振扫描图像(Magnetic Resonance Imaging,MRI)图像。其中,该医学图像是采用三维图像格式的。每个医学样本包括H×W×D个体素。
步骤2:在首轮迭代中,随机选择少量的无标签医学样本执行标注,得到有标签医学样本;
在首轮迭代中,随机选择少量的无标签医学样本。由医学专家标注被选择出的无标签医学样本,得到有标签医学样本。
由于每个医学样本包括H×W×D个体素,若对每个体素均标注分割概率(是否属于第一分类的概率,取值范围为0%~100%),则医学专家的标注工程量会非常巨大。因此,本实施例采用交叉标注策略。
三维医学图像可视为多张二维图像的堆叠结构。该交叉标注策略是对三维图像格式的三个视角的关键切片图像分别标记二维分割信息的标注策略。其中,每个视角的关键切片图像是属于当前视角的多张切片图像中的一张切片图像。也即,每个视角的多个切片图像中仅需要标注一张切片图像的二维分割信息即可,无需对每个切片图像均执行标注。二维分割信息包括切片图像中的每个像素(或体素)是否属于第一分类的分割概率。
此时,具有少量的有标签医学样本和大量的无标签医学样本。
步骤3:将有标签医学样本输入学生模型,得到有标签医学样本的第一分割结果;
第一分割结果包括为有标签医学样本中的每个体素预测的分割概率,该分割概率用于指示当前体素属于第一分类的概率。可选的,第一分类是某种医学器官或病灶,比如,心脏区域、肺部区域等。
将有标签医学样本输入学生模型,由学生模型预测出有标签医学样本的第一分割结果。
步骤4:基于第一分割结果和真实标签,确定学生模型的第一损失;
由于真实标签中仅有三个视角的关键切片图像上的各个体素的分割概率,而第一分割结果包括为有标签医学样本中的所有体素预测的分割概率。在计算第一损失时,可以只考虑计算三个视角的关键切片图像上的各个体素的交叉熵损失,无需考虑所有体素。
也即,针对三个视角的关键切片图像上的各个体素,计算各个体素在真实标签中的分割概率和第一分割结果中的分割概率之间的交叉熵损失,作为学生模型的第一损失。
步骤5:至少将无标签医学样本分别输入学生模型和教师模型得到第二分割结果,第二分割结果包括教师模型预测的教师分割结果和学生模型预测的学生分割结果;通过通才分割模型校正教师分割结果,得到校正后的教师分割结果;
在确定第二损失时,至少将无标签医学样本分别输入学生模型和教师模型是指:对于各个无标签医学样本中的任意一个样本,分别输入学生模型和教师模型,或,对于各个无标签医学样本和各个有标签医学样本中的任意一个样本,分别输入学生模型和教师模型。
在将无标签/有标签医学样本输入至教师模型之前,还可以对医学样本增加数据扰动。该数据扰动包括但不限于:高斯噪声和随机对比度调整。
在医学分割模型包括教师模型和学生模型的情况下,第二分割结果包括教师模型预测的教师分割结果和学生模型预测的学生分割结果。
通才分割模型能够在提示信息的引导下,对输入的图像准确分割。利用通才分割模型的这一能力,以教师分割结果为引导信息,使用通才分割模型对无标签医学样本执行图像分割,能够得到校正后的教师分割结果。
示例性的,无标签医学样本被输入教师模型,以获得教师分割结果。考虑到2D的通才分割模型在提供精确伪标签和缺乏3D感知方面的困难,本实施例继承了交叉标注的精神,从三个不同视角利用教师分割结果/>来产生每个二维切片图像的提示框(基于每个体素的分割概率确定)来稀疏地逐层提示冻结的 2D的通才分割模型,从而在三个视角生成了三个3D的伪标签(/>、/>和/>),其中/>表示冠状,/>表示轴向,/>表示矢状。
考虑到由于监督信号有限而导致教师分割结果中的不准确,本实施例对提示框应用适度的随机扩展(0-10 像素)。如图7所示,图7是本申请一个示例性实施例提供的伪标签校正过程的不同标签的示意图。灰度区域为真实的左心房区域,空白区域为每种标签预测出的左心房区域,来自三个视角(冠状+轴向+矢状)的伪标签有噪声并且显著不同,但它们在某些区域重叠。因此,本实施例融合了每个视角的伪标签,并引入了两种标签校准策略:全体一致同意和少数服从多数。
全体一致同意:仅当所有视角的伪标签对某个体素的分割分类达成共识时,才被纳入最终的伪标签,如图7中的校正策略1所示。
少数服从多数,当至少两个视角的伪标签对某个体素的分割分类达成共识时,纳入最终的伪标签,如图7中的校正策略2所示。
这样,本实施例就获得了最终的校正后的伪标签。需要说明的是,由于通才分割模型对三维图像的推理效率较低,可以不用频繁更新伪标签/>,而是策略性地每1000迭代次数(或其他迭代次数)才更新一次伪标签/>,平衡其实用性与计算需求。
步骤6:基于校正后的教师分割结果和学生分割结果,确定学生模型的第二损失;
考虑到校正后的伪标签不可避免的噪声性质,本实施例进一步引入了一种耐噪声的Dice损失来减轻标签噪声的不利影响,公式为:
其中,是学生分割结果,也即学生模型对体素/>的预测概率,校正后的伪标签转换为独热(one-hot)表示。可选地,在/>和/>时,该Dice损失对标签噪声具有较好的鲁棒性。额外注意的是,当/>时,此损失会退化为典型的Dice损失。这种耐噪声的Dice损失可以提供有效的早期监督,然而,在后期训练阶段过度依赖这些校正后的伪标签可能会由于记忆效应而误导学生模型。
至于一致性损失,学生模型在早期阶段难以感知物体,使得这种稳定性约束相对没有意义。因此,本实施例引入了与训练时间相关的第一权重/>和第二权重/>,以调节协作训练期间中第一损失和第二损失的重要性。
具体来说,第一权重和第二权重。
其中,和/>分别表示当前迭代次数和最大迭代次数。因此,第二损失/>的计算公式为:
步骤7:基于第一损失和第二损失,更新学生模型在第i轮训练的网络参数;
训练过程通常包括多轮训练。以降低第一损失和第二损失为训练目标,更新学生模型在第i轮训练的网络参数,i为整数,i的起始值为0或1。
步骤8:基于学生模型在第i轮训练之前的网络参数和第i轮训练的网络参数,更新教师模型的网络参数。
可选地,教师-学生模型是基于一致性正则化的标准SSL设计具体来说,可训练的学生模型的网络参数通过标准的误差反向传播算法进行优化,而教师模型的网络参数通过学生模型在过去轮迭代和当前轮迭代中指数移动平均(EMA)更新。
将表示为学生模型对应的权重,将/>表示为教师模型的权重。在第/>次迭代时,/>的更新公式为/>,其中,/>是EMA系数,根据经验设置为0.99。
本实施例,还继承了一致性损失作为第二损失/>的一部分,公式为:
这里使用平均绝对误差作为距离函数;/>表示扰动的类型,这里使用了高斯噪声和随机对比度调整。采用这种稳定性约束是因为:(i)它有助于规范模型行为并增强泛化能力,减轻有限监督造成的过拟合问题,以及(ii)它鼓励模型关注内在数据结构,减少后续讨论的由基于通才分割模型的含噪声的伪标签引发的偏差影响。
步骤9:在基于第i轮训练中的无标签医学样本的第二分割结果,从无标签医学样本中选择待标注医学样本;
为了更好地利用珍贵的标注预算,本实施例在训练期间采用了主动样本选择策略。
在每i轮训练中,通过学生模型对每个无标签医学样本进行评分,然后选择主动分数最高的无标签医学样本进行交叉标注,以增加有标签医学样本集合(也称交叉标记集),重复此过程直到标注预算耗尽。
主动样本选取策略,包括如下三个采样策略中的至少之一。
最小置信度(Least Confidence,LC)采样:计算预测置信度(概率)的平均值,选取分数最低的K1个样本;
高熵(High Entropy,HE)采样:选取平均预测熵最大的Top-K2样本;
最高熵比(High Entropy Ratio,HER)采样:计算超过阈值的预测占整体的比例,并选取该比值最高的Top-K3个样本。示例性的,K3设为2。
对于HE和HER,将表示为学生模型在体素/>处的预测概率,其归一化熵/>由如下公式计算:
其中,是真实标签。
高熵在某种程度上表明较高的不确定性。对于HE,计算无标签样本的所有体素的平均预测熵以确定该无标签样本的主动分数。在HER采样中,计算无标签样本的(/>是通过高斯斜坡函数从0.5到0.75中确定的阈值)的体素数量,然后计算/>的体素数量相对于总体素数量的比率,得到该无标签样本的主动分数。与HE相比,HER能够更清楚地反映无标签样本中高不确定性的分布。/>
步骤10:获取为待标注医学样本标注的真实标签,得到第i轮训练中主动选择生成的有标签医学样本,以及将有标签医学样本添加至第i+1轮训练使用的有标签医学样本集合中。
实验数据集:本申请使用了左心房(Left Atrium,LA)分割数据集来进行实验。左心房分割数据集提供有100例带有专家标签的3D磁共振图像。本申请对训练集的标签进行交叉标注处理以模拟本申请的稀疏监督设定。图像的分辨率为0.625x0.625x0.625mm^3。所有图像都被裁剪到心脏区域的中心,并归一化为零均值和单位方差。本申请将数据集中的100例3D磁共振图像分为2组:80例用于训练过程,20例用于测试过程。
实施细节和评估指标:该框架使用24GB内存的NVIDIA GeForce RTX 3090 GPU,用Python和PyTorch实现。在所有实验中,本申请采用相同的3D V-Net作为主干进行公平的比较。对于通才基础模型,本申请采用了适用于移动终端的分割任何事物模型(MobileSegment Anything Model,Mobile SAM),这是一种从美国Meta公司的分割任何事物模型(Segment Anything Model,SAM)蒸馏得到的更高效的预训练基础模型,采用了小型视觉变换器模型(Tiny Vision Transformer,ViT-Tiny)架构。本申请使用随机梯度下降优化器(Stochastic Gradient Descent Optimizer,SGD)训练网络(权重衰减=0.0001,动量=0.9)。在每个训练批次中,批(batch)大小设置为4,包括2个交叉标注图像和2个无标注图像。最大训练步骤都设置为10000。学习速率被初始化为0.01,并且在每一步之后以0.9的幂衰减。本申请随机裁剪112×112×80体素的切块作为网络输入。还应用了标准的数据扩充,包括随机裁剪、翻转和旋转。本申请使用18×18×4体素步长的滑动窗口策略用于测试阶段。然后,本申请采用四个指标进行综合评价,包括Dice系数(Dice Coefficient,DICE)、Jaccard指数(Jaccard Index,JI)、平均表面距离(Average Surface Distance,ASD)和95%豪斯多夫距离(95% Hausdorff Distance,95HD)。
对比基线方法:将本申请的方法与采用全监督学习方式的基线方法、以及一些最近的采用半监督学习方式的医学图像分割方法进行了比较,包括:多任务学习(Multi-TaskLearning,MT)、不确定性引导的多任务学习(Uncertainty-Aware Multi-Task Learning,UA-MT)、插值一致性训练(Interpolation Consistency Training,ICT)、循环原型一致性学习(Cyclic Prototype Consistency Learning,CPCL)、交叉伪监督(cross pseudosupervision,CPS)、相关性感知相互学习(Correlation-Aware Mutual Learning,CAML)、自适应级联多任务学习(Adaptive Cascade Multi-Task Learning,ACMT)和DeSCO。DeSCO可参考文献:《正交标注对几乎无监督的医学图像分割有益》,作者蔡恒等。源自2023年电气和电子工程师协会(Institute of Electrical and Electronics Engineers,IEEE)和计算机视觉基金会(The Computer Vision Foundation,CVF)计算机视觉与模式识别会议论文集。(Cai,Heng,et al. "Orthogonal annotation benefits barely-supervisedmedical image segmentation." Proceedings of the IEEE/CVF Conference onComputer Vision and Pattern Recognition.2023.)。
实验结果:表1展示了本申请的方法和一些最近的采用半监督学习方式的医学图像分割方法(下面简称其它方法)在仅仅只标注60个切片图像(属于20个样本,每个样本标注3个视角上的一张关键切片图像)时的性能表现。在相同的划分协议下,相比于其它方法,本申请的方法可以获得很大的提升,证明了本申请的方法的优越性和鲁棒性。
其中,*表示(本申请的方法与其他方法中的每个方法成对执行Wilcoxon符号秩检验)。Wilcoxon符号秩检验是一种非参数统计检验方法,用于检验两个相关样本的中位数是否有显著差异,p是Wilcoxon符号秩检验中的统计指标。标准差显示在括号中。
在标准随机采样协议(random)下,本申请的两种校正策略(UA和MV)始终优于其它方法,这证明了本申请在稀疏监督的情况下专才-通才协作的有效性。一般来说,采用少数服从多数(MV)来校准基于多视图通才的伪标签会产生优异的结果。接着,进一步通过采用主动学习策略,本申请实施例的性能得到进一步增强,凸显了“专家-模型”协作的好处。具体来说,在左心房(Left Atrium)分割任务中,配备HER采样策略的本申请(MV)获得了86.14%的Dice分数,相比于采用全监督学习方式的基线方法的上确界91.56%的Dice分数,落后了5.42% Dice分数,但本申请的方法仅标记了0.8%的切片图像。
结合参考图8,图8是本申请的图像分割模型与其他图像分割模型的分割性能对比图。图8以可视化的方式示出了UA-MT、CAML、CPCL和本申请对同一个左心房图像执行图像分割后的示意图。图8中的空白区域代表每种方法所分割出的左心房区域。
需要进行说明的是,本申请在收集用户的相关数据(例如用户输入的医学图像)之前以及在收集用户的相关数据的过程中,都可以显示提示界面、弹窗或输出语音提示信息,该提示界面、弹窗或语音提示信息用于提示用户当前正在搜集其相关数据,使得本申请仅仅在获取到用户对该提示界面或者弹窗发出的确认操作后,才开始执行获取用户相关数据的相关步骤,否则(即未获取到用户对该提示界面或者弹窗发出的确认操作时),结束获取用户相关数据的相关步骤,即不获取用户的相关数据。换句话说,本申请所采集的所有用户数据都是在用户同意并授权的情况下进行采集的,且相关用户数据的收集、使用和处理需要遵守相关国家和地区的相关法律法规和标准。
需要说明的是,本申请实施例提供的方法步骤的先后顺序可以进行适当调整,步骤也可以根据情况进行相应增减,任何熟悉本技术领域的技术人员在本申请揭露的技术范围内,可轻易想到变化的方法,都应涵盖在本申请的保护范围之内,因此不再赘述。
图9是本申请一个示例性实施例提供的图像分割模型的训练装置的结构示意图。如图9所示,该装置包括如下模块中的至少一个。
样本获取模块920,用于获取有标签样本和无标签样本,所述有标签样本是标注有真实标签的图像样本。
有标签分割模块940,用于将所述有标签样本输入所述图像分割模型,得到所述有标签样本的第一分割结果;基于所述第一分割结果和所述真实标签,确定第一损失。
无标签分割模块960,用于至少将所述无标签样本输入所述图像分割模型,得到所述无标签样本的第二分割结果;通过通才分割模型校正所述第二分割结果,得到校正后的第二分割结果;基于所述校正后的第二分割结果,确定第二损失。
模型训练模块980,用于基于所述第一损失和所述第二损失,训练所述图像分割模型。
在一些实施例中,无标签分割模块960,用于至少以所述无标签样本作为输入数据,以及以所述第二分割结果作为提示信息,通过所述通才分割模型生成校正后的第二分割结果。
在一些实施例中,无标签分割模块960,用于从所述无标签样本提取三个视角的多个切片图像,所述三个视角与所述三维图像的三个坐标平面对应;将所述三个视角的多个切片图像作为待分割图像,以及以所述第二分割结果作为提示信息,通过所述通才分割模型预测出所述三个视角上的伪标签,每个视角上的伪标签包括属于同一视角的多个切片图像的二维分割结果;采用校正策略融合三个视角上的伪标签,生成校正后的第二分割结果。
在一些实施例中,无标签分割模块960,用于对于所述无标签样本中的任意一个体素,在所述三个视角上的伪标签均认为所述体素属于第一分类的情况下,确定所述体素属于所述第一分类;在存在至少一个视角上的伪标签认为所述体素不属于所述第一分类的情况下,确定所述体素属于第二分类;基于所述无标签样本中的各个体素的分类结果,生成所述校正后的第二分割结果。
在一些实施例中,无标签分割模块960,用于对于所述无标签样本中的任意一个体素,在至少两个视角上的伪标签均认为所述体素属于第一分类的情况下,确定所述体素属于所述第一分类;在至少两个视角上的伪标签认为所述体素属于第二分类的情况下,确定所述体素属于所述第二分类;基于所述无标签样本中的各个体素的分类结果,生成所述校正后的第二分割结果。
在一些实施例中,无标签分割模块960,用于基于所述第二分割结果,确定所述三个视角的多个切片图像的二维分割信息,所述三个视角包括第一视角、第二视角和第三视角;将所述第一视角的多个切片图像作为待分割图像,以及以所述第一视角的多个切片图像的二维分割信息作为提示信息,通过所述通才分割模型预测出所述第一视角上的伪标签;将所述第二视角的多个切片图像作为待分割图像,以及以所述第二视角的多个切片图像的二维分割信息作为提示信息,通过所述通才分割模型预测出所述第二视角上的伪标签;将所述第三视角的多个切片图像作为待分割图像,以及以所述第三视角的多个切片图像的二维分割信息作为提示信息,通过所述通才分割模型预测出所述第三视角上的伪标签。
在一些实施例中,无标签分割模块960,还用于对所述二维分割信息增加随机噪声。
在一些实施例中,所述图像分割模型包括教师模型和学生模型;所述第一分割结果是所述学生模型预测的分割结果;所述有标签分割模块940,用于基于所述第一分割结果和所述真实标签,确定所述学生模型的第一损失。
在一些实施例中,所述图像分割模型包括教师模型和学生模型;所述第二分割结果包括所述教师模型预测的教师分割结果,以及所述学生模型预测的学生分割结果,所述校正后的第二分割结果包括校正后的教师分割结果;所述无标签分割模块960,还用于基于所述学生分割结果和所述校正后的教师分割结果,确定所述学生模型的第二损失。
在一些实施例中,所述无标签分割模块960,还用于基于所述学生分割结果和所述校正后的教师分割结果,计算伪标签损失;基于所述学生分割结果和所述教师分割结果,计算一致性损失;将所述伪标签损失和所述一致性损失之间的加权求和值,确定为所述第二损失。
在一些实施例中,所述无标签分割模块960,还用于基于训练过程的当前训练次数和最大训练次数,确定第一权重和第二权重;计算所述第一权重和所述伪标签损失的第一乘积,以及所述第二权重和所述一致性损失的第二乘积;将所述第一乘积和所述第二乘积之和,确定为所述第二损失。
在一些实施例中,所述训练过程包括多轮训练,所述图像分割模型包括教师模型和学生模型;所述模型训练模块980,用于基于所述第一损失和所述第二损失,更新所述学生模型在第i轮训练的网络参数;基于所述学生模型在所述第i轮训练之前的网络参数和所述第i轮训练的网络参数,更新所述教师模型的网络参数。
在一些实施例中,所述训练过程包括多轮训练,所述样本获取模块920,用于基于第i轮训练中的无标签样本的第二分割结果,从所述无标签样本中选择待标注样本;获取为所述待标注样本标注的真实标签,得到所述第i轮训练中主动选择生成的有标签样本,以及将所述有标签样本添加至第i+1轮训练使用的有标签样本集合中。
在一些实施例中,所述训练过程包括多轮训练,所述样本获取模块920,用于基于第i轮训练中的无标签样本的第二分割结果,将满足预设条件的无标签样本选择为所述待标注样本;其中,所述满足预设条件的无标签样本,包括如下至少之一:所述第二分割结果的置信度最低的K1个无标签样本;平均预测熵最大的K2个无标签样本,所述平均预测熵是所述第二分割结果中所有体素的平均熵;最高熵比对应的K3个无标签样本,所述最高熵比是超过概率阈值的第二分割结果占所有第二分割结果的比例最高。
在一些实施例中,所述有标签样本为三维图像,所述有标签样本的真实标签是采用交叉标签策略标注的;所述交叉标签策略是对所述三维图像中三个视角的关键切片图像分别标记二维分割信息的标注策略;其中,每个视角的关键切片图像是属于当前视角的多张切片图像中的一张切片图像。
需要说明的是:上述实施例提供的任务执行装置,仅以上述各功能模块的划分进行举例说明,实际应用中,可以根据需要而将上述功能分配由不同的功能模块完成,即将设备的内部结构划分成不同的功能模块,以完成以上描述的全部或者部分功能。另外,上述实施例提供的任务执行装置与图像分割模型的训练方法实施例属于同一构思,其具体实现过程详见方法实施例,这里不再赘述。
本申请实施例还提供了一种计算机设备,该计算机设备包括:处理器和存储器,存储器中存储有至少一条指令、至少一段程序、代码集或指令集,至少一条指令、至少一段程序、代码集或指令集由处理器加载并执行以实现上述各方法实施例提供的图像分割模型的训练方法。
示例地,图10是本申请一个示例性实施例提供的计算机设备的结构示意图。
所述计算机设备1000包括中央处理单元(Central Processing Unit,CPU)1001、包括随机存取存储器(Random Access Memory,RAM)1002和只读存储器(Read-OnlyMemory,ROM)1003的系统存储器1004,以及连接系统存储器1004和中央处理单元1001的系统总线1005。所述计算机设备1000还包括帮助计算机设备内的各个器件之间传输信息的基本输入/输出系统(Input/Output系统,I/O系统)1006,和用于存储操作系统1013、应用程序1014和其他程序模块1015的大容量存储设备1007。
所述基本输入/输出系统1006包括有用于显示信息的显示器1008和用于用户输入信息的诸如鼠标、键盘之类的输入设备1009。其中所述显示器1008和输入设备1009都通过连接到系统总线1005的输入输出控制器1010连接到中央处理单元1001。所述基本输入/输出系统1006还可以包括输入输出控制器1010以用于接收和处理来自键盘、鼠标、或电子触控笔等多个其他设备的输入。类似地,输入输出控制器1010还提供输出到显示屏、打印机或其他类型的输出设备。
所述大容量存储设备1007通过连接到系统总线1005的大容量存储控制器(未示出)连接到中央处理单元1001。所述大容量存储设备1007及其相关联的计算机可读存储介质为计算机设备1000提供非易失性存储。也就是说,所述大容量存储设备1007可以包括诸如硬盘或者只读光盘(Compact Disc Read-Only Memory,CD-ROM)驱动器之类的计算机可读存储介质(未示出)。
不失一般性,所述计算机可读存储介质可以包括计算机存储介质和通信介质。计算机存储介质包括以用于存储诸如计算机可读存储指令、数据结构、程序模块或其他数据等信息的任何方法或技术实现的易失性和非易失性、可移动和不可移动介质。计算机存储介质包括RAM、ROM、可擦除可编程只读寄存器(Erasable Programmable Read OnlyMemory,EPROM)、电子抹除式可复写只读存储器(Electrically-Erasable ProgrammableRead-Only Memory,EEPROM)、闪存或其他固态存储设备、CD-ROM、数字多功能光盘(DigitalVersatile Disc,DVD)或其他光学存储、磁带盒、磁带、磁盘存储或其他磁性存储设备。当然,本领域技术人员可知所述计算机存储介质不局限于上述几种。上述的系统存储器1004和大容量存储设备1007可以统称为存储器。
存储器存储有一个或多个程序,一个或多个程序被配置成由一个或多个中央处理单元1001执行,一个或多个程序包含用于实现上述方法实施例的指令,中央处理单元1001执行该一个或多个程序实现上述各个方法实施例提供的方法。
根据本申请的各种实施例,所述计算机设备1000还可以通过诸如因特网等网络连接到网络上的远程计算机设备运行。也即计算机设备1000可以通过连接在所述系统总线1005上的网络接口单元1011连接到网络1012,或者说,也可以使用网络接口单元1011来连接到其他类型的网络或远程计算机设备系统(未示出)。
所述存储器还包括一个或者一个以上的程序,所述一个或者一个以上程序存储于存储器中,所述一个或者一个以上程序包含用于进行本申请实施例提供的方法中由计算机设备所执行的步骤。
本申请实施例中还提供了一种计算机可读存储介质,该计算机可读存储介质中存储有至少一条指令、至少一段程序、代码集或指令集,当该至少一条指令、至少一段程序、代码集或指令集由计算机设备的处理器加载并执行时,实现上述各方法实施例提供的图像分割模型的训练方法。
本申请还提供了一种计算机程序产品或计算机程序,该计算机程序产品或计算机程序包括计算机指令,该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令,处理器执行该计算机指令,使得该计算机设备执行上述各方法实施例提供的图像分割模型的训练方法。
本领域普通技术人员可以理解实现上述实施例的全部或部分步骤可以通过硬件来完成,也可以通过程序来指令相关的硬件完成,该程序可以存储于一种计算机可读存储介质中,上述提到的计算机可读存储介质可以是只读存储器,磁盘或光盘等。
以上所述仅为本申请的可选实施例,并不用以限制本申请,凡在本申请的精神和原则之内,所作的任何修改、等同切换、改进等,均应包含在本申请的保护范围之内。
Claims (19)
1.一种图像分割模型的训练方法,其特征在于,所述方法包括:
获取有标签样本和无标签样本,所述有标签样本是标注有真实标签的图像样本;
将所述有标签样本输入所述图像分割模型,得到所述有标签样本的第一分割结果;基于所述第一分割结果和所述真实标签,确定第一损失;
将所述无标签样本输入所述图像分割模型,得到所述无标签样本的第二分割结果;通过通才分割模型校正所述第二分割结果,得到校正后的第二分割结果,所述通才分割模型具有不限领域的通用图像分割能力;基于所述校正后的第二分割结果,确定第二损失;
基于所述第一损失和所述第二损失,训练所述图像分割模型。
2.根据权利要求1所述的方法,其特征在于,所述通过通才分割模型校正所述第二分割结果,得到校正后的第二分割结果,包括:
以所述无标签样本作为待分割图像,以及以所述第二分割结果作为提示信息,通过所述通才分割模型生成所述校正后的第二分割结果。
3.根据权利要求2所述的方法,其特征在于,所述无标签样本为三维图像,所述以所述无标签样本作为待分割图像,以及以所述第二分割结果作为提示信息,通过所述通才分割模型生成校正后的第二分割结果,包括:
从所述无标签样本提取三个视角的多个切片图像,所述三个视角与所述三维图像的三个坐标平面对应;
将所述三个视角的多个切片图像作为所述待分割图像,以及以所述第二分割结果作为所述提示信息,通过所述通才分割模型预测出所述三个视角上的伪标签,每个视角上的伪标签包括属于同一视角的多个切片图像的二维分割结果;
采用校正策略融合所述三个视角上的伪标签,生成所述校正后的第二分割结果。
4.根据权利要求3所述的方法,其特征在于,所述采用校正策略融合所述三个视角上的伪标签,生成所述校正后的第二分割结果,包括:
对于所述无标签样本中的任意一个体素,在所述三个视角上的伪标签均认为所述体素属于第一分类的情况下,确定所述体素属于所述第一分类;在存在至少一个视角上的伪标签认为所述体素不属于所述第一分类的情况下,确定所述体素属于第二分类;
基于所述无标签样本中的各个体素的分类结果,生成所述校正后的第二分割结果。
5.根据权利要求3所述的方法,其特征在于,所述采用校正策略融合所述三个视角上的伪标签,生成所述校正后的第二分割结果,包括:
对于所述无标签样本中的任意一个体素,在所述三个视角中的至少两个视角上的伪标签均认为所述体素属于第一分类的情况下,确定所述体素属于所述第一分类;在所述三个视角中的至少两个视角上的伪标签认为所述体素属于第二分类的情况下,确定所述体素属于所述第二分类;
基于所述无标签样本中的各个体素的分类结果,生成所述校正后的第二分割结果。
6.根据权利要求3所述的方法,其特征在于,所述将所述三个视角的关键切片图像作为所述待分割图像,以及以所述第二分割结果作为所述提示信息,通过所述通才分割模型预测出所述三个视角上的伪标签,包括:
基于所述第二分割结果,确定所述三个视角的多个切片图像的二维分割信息,所述三个视角包括第一视角、第二视角和第三视角;
将所述第一视角的多个切片图像作为所述待分割图像,以及以所述第一视角的多个切片图像的二维分割信息作为所述提示信息,通过所述通才分割模型预测出所述第一视角上的伪标签;
将所述第二视角的多个切片图像作为所述待分割图像,以及以所述第二视角的多个切片图像的二维分割信息作为所述提示信息,通过所述通才分割模型预测出所述第二视角上的伪标签;
将所述第三视角的多个切片图像作为所述待分割图像,以及以所述第三视角的多个切片图像的二维分割信息作为所述提示信息,通过所述通才分割模型预测出所述第三视角上的伪标签。
7.根据权利要求6所述的方法,其特征在于,所述方法还包括:
对所述二维分割信息增加随机噪声。
8.根据权利要求1至7任一所述的方法,其特征在于,所述图像分割模型包括教师模型和学生模型;所述第一分割结果是所述学生模型预测的分割结果;
所述基于所述第一分割结果和所述真实标签,确定第一损失,包括:
基于所述第一分割结果和所述真实标签,确定所述学生模型的所述第一损失。
9.根据权利要求1至7任一所述的方法,其特征在于,所述图像分割模型包括教师模型和学生模型;所述第二分割结果包括所述教师模型预测的教师分割结果,以及所述学生模型预测的学生分割结果,所述校正后的第二分割结果包括校正后的教师分割结果;
所述基于所述校正后的第二分割结果,确定第二损失,包括:
基于所述学生分割结果和所述校正后的教师分割结果,确定所述学生模型的所述第二损失。
10.根据权利要求9所述的方法,其特征在于,所述基于所述学生分割结果和所述校正后的教师分割结果,确定所述学生模型的所述第二损失,包括:
基于所述学生分割结果和所述校正后的教师分割结果,计算伪标签损失;以及基于所述学生分割结果和所述教师分割结果,计算一致性损失;
将所述伪标签损失和所述一致性损失之间的加权求和值,确定为所述学生模型的所述第二损失。
11.根据权利要求10所述的方法,其特征在于,所述将所述伪标签损失和所述一致性损失之间的加权求和值,确定为所述学生模型的第二损失,包括:
基于训练过程的当前训练次数和最大训练次数,确定第一权重和第二权重;
计算所述第一权重和所述伪标签损失的第一乘积,以及所述第二权重和所述一致性损失的第二乘积;
将所述第一乘积和所述第二乘积之和,确定为所述学生模型的所述第二损失。
12.根据权利要求1至7任一所述的方法,其特征在于,所述训练过程包括多轮训练,所述图像分割模型包括教师模型和学生模型;
所述基于所述第一损失和所述第二损失,训练所述图像分割模型,包括:
基于所述第一损失和所述第二损失,更新所述学生模型在第i轮训练的网络参数,i为正整数;
基于所述学生模型在所述第i轮训练之前的网络参数和所述第i轮训练的网络参数,更新所述教师模型的网络参数。
13.根据权利要求1至7任一所述的方法,其特征在于,所述训练过程包括多轮训练,所述方法还包括:
基于第i轮训练中的所述无标签样本的第二分割结果,从所述无标签样本中选择待标注样本,i为正整数;
获取为所述待标注样本标注的所述真实标签,得到所述第i轮训练中主动选择生成的有标签样本,以及将所述有标签样本添加至第i+1轮训练使用的有标签样本集合中。
14.根据权利要求13所述的方法,其特征在于,所述基于第i轮训练中的所述无标签样本的第二分割结果,从所述无标签样本中选择待标注样本,包括:
基于所述第i轮训练中的所述无标签样本的第二分割结果,将满足预设条件的无标签样本选择为所述待标注样本;
其中,所述满足预设条件的无标签样本,包括如下至少之一:
按照所述第二分割结果的置信度由低到高排序的前K1个无标签样本;
按照所述第二分割结果的平均预测熵由高到低排序的前K2个无标签样本,所述平均预测熵是所述第二分割结果中所有体素的平均熵;
按照所述第二分割结果的熵比由高到低排序的前K3个无标签样本,所述熵比是所述第二分割结果中超过概率阈值的体素占所有体素的比例;
其中,K1、K2和K3均为正整数。
15.根据权利要求1至7任一所述的方法,其特征在于,所述有标签样本为三维图像,所述有标签样本的真实标签是采用交叉标签策略标注的;
所述交叉标签策略是对所述三维图像中三个视角的关键切片图像分别标记二维分割信息的标注策略;
其中,所述三个视角中每个视角的关键切片图像是属于当前视角的多张切片图像中的一张切片图像。
16.一种图像分割模型的训练装置,其特征在于,所述装置包括:
样本获取模块,用于获取有标签样本和无标签样本,所述有标签样本是标注有真实标签的图像样本;
有标签分割模块,用于将所述有标签样本输入所述图像分割模型,得到所述有标签样本的第一分割结果;基于所述第一分割结果和所述真实标签,确定第一损失;
无标签分割模块,用于将所述无标签样本输入所述图像分割模型,得到所述无标签样本的第二分割结果;通过通才分割模型校正所述第二分割结果,得到校正后的第二分割结果,所述通才分割模型具有不限领域的通用图像分割能力;基于所述校正后的第二分割结果,确定第二损失;
模型训练模块,用于基于所述第一损失和所述第二损失,训练所述图像分割模型。
17.一种计算机设备,其特征在于,所述计算机设备包括处理器和存储器,所述存储器中存储有至少一段程序,所述至少一段程序由所述处理器加载并执行以实现如权利要求1至15任一所述的图像分割模型的训练方法。
18.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质中存储有至少一段程序,所述至少一段程序由处理器加载并执行以实现如权利要求1至15任一所述的图像分割模型的训练方法。
19.一种计算机程序产品,其特征在于,所述计算机程序产品包括计算机指令,所述计算机指令存储在计算机可读存储介质,计算机设备的处理器从所述计算机可读存储介质读取所述计算机指令,所述处理器执行所述计算机指令,使得所述计算机设备执行如权利要求1至15任一所述的图像分割模型的训练方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202410600152.9A CN118212490A (zh) | 2024-05-15 | 2024-05-15 | 图像分割模型的训练方法、装置、设备及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202410600152.9A CN118212490A (zh) | 2024-05-15 | 2024-05-15 | 图像分割模型的训练方法、装置、设备及存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN118212490A true CN118212490A (zh) | 2024-06-18 |
Family
ID=91446419
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202410600152.9A Pending CN118212490A (zh) | 2024-05-15 | 2024-05-15 | 图像分割模型的训练方法、装置、设备及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN118212490A (zh) |
-
2024
- 2024-05-15 CN CN202410600152.9A patent/CN118212490A/zh active Pending
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Song et al. | Bottleneck feature supervised U-Net for pixel-wise liver and tumor segmentation | |
Wells et al. | Artificial intelligence in dermatopathology: Diagnosis, education, and research | |
CN108197629B (zh) | 一种基于标签相关性约束张量分解的多模态医学影像特征提取方法 | |
Sun et al. | Intelligent analysis of medical big data based on deep learning | |
Liu et al. | A semi-supervised convolutional transfer neural network for 3D pulmonary nodules detection | |
Guo et al. | Msanet: multiscale aggregation network integrating spatial and channel information for lung nodule detection | |
An et al. | Medical Image Classification Algorithm Based on Visual Attention Mechanism‐MCNN | |
WO2023207389A1 (zh) | 数据处理方法、装置、程序产品、计算机设备和介质 | |
Sirjani et al. | Automatic cardiac evaluations using a deep video object segmentation network | |
Kalash et al. | Relative saliency and ranking: Models, metrics, data and benchmarks | |
CN116883768A (zh) | 基于多模态特征融合的肺结节智能分级方法及系统 | |
Meng et al. | Radiomics-enhanced deep multi-task learning for outcome prediction in head and neck cancer | |
CN105426836A (zh) | 一种基于分部式模型和稀疏成分分析的单样本人脸识别方法 | |
Tian et al. | Radiomics and its clinical application: artificial intelligence and medical big data | |
Qiu et al. | Spiculation sign recognition in a pulmonary nodule based on spiking neural p systems | |
Gao et al. | jun Wang | |
Termritthikun et al. | Explainable knowledge distillation for on-device chest x-ray classification | |
Thilagavathy et al. | Digital transformation in healthcare using eagle perching optimizer with deep learning model | |
Mao et al. | Bone age assessment method based on fine-grained image classification using multiple regions of interest | |
CN118212490A (zh) | 图像分割模型的训练方法、装置、设备及存储介质 | |
CN113822850A (zh) | 剂量预测方法、装置、设备及介质 | |
He et al. | Fast depth extraction from a single image | |
Zhou et al. | An unsupervised deep clustering for Bone X-ray classification and anomaly detection | |
Wang et al. | Automatic water-level class estimation from repeated crowd-based photos of streams | |
Shen et al. | Confidence-aware cross-supervised model for semi-supervised skin lesion segmentation |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination |