CN111667027A

CN111667027A - 多模态图像的分割模型训练方法、图像处理方法及装置

Info

Publication number: CN111667027A
Application number: CN202010635637.3A
Authority: CN
Inventors: 边成
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2020-07-03
Filing date: 2020-07-03
Publication date: 2020-09-15
Anticipated expiration: 2040-07-03
Also published as: CN111667027B

Abstract

本公开提供了一种用于多模态图像的分割模型的训练方法、图像处理方法、图像处理装置以及计算机可读存储介质。该训练方法包括：利用第一模态的训练图像集训练第一分割模型，其中，第一模态的训练图像集是对多个参考对象在第一模态下进行采集得到的图像的集合，第一模态的训练图像集中的每个训练图像具有第一数量的已标注类别；基于使用所训练的第一分割模型对第二模态的训练图像集进行处理得到的结果，利用第二模态的训练图像集训练第二分割模型，其中，第二模态的训练图像集是对多个参考对象在第二模态下进行采集得到的图像的集合，第二模态的训练图像集中的每个训练图像具有第二数量的已标注类别，并且第二数量小于第一数量。

Description

多模态图像的分割模型训练方法、图像处理方法及装置

技术领域

本公开涉及深度学习领域，并且具体的涉及一种用于多模态图像的分割模型的训练方法、图像处理方法、图像处理装置和计算机可读存储介质。

背景技术

机器学习(Machine Learning,ML)是一门多领域交叉学科，涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科，专门研究计算机怎样模拟或实现人类的学习行为，以获取新的知识或技能，重新组织已有的知识结构使之不断改善自身的性能。机器学习是人工智能的核心，是使计算机具有智能的根本途径，其应用遍及人工智能的各个领域。机器学习和深度学习通常包括人工神经网络、置信网络、强化学习、迁移学习、归纳学习、式教学习等技术。

在深度学习领域中，零样本学习方法(ZSL，Zero-shot Learning)是学术界重要的前沿研究分支之一。尽管大量科研相关人员已经标注了很多标准数据集，但是其类别也是有限的。例如著名的数据集ImageNet，即使包含千万级的数据，也仅能涵盖有限个类别。在现实世界中，类别是无穷的，已经标注的数据仍然只占少数，诸如疾病图像数据难以大量获取并进行标注。因此，研究模型对无标注类别进行有效的学习并进行预测是非常有意义的。现有技术中的零样本学习方法对图像分割的精度有限，并且需采用基于自然语言处理的Word2vec模型，这使得现有方法无法应用于诸如医学图像等的非自然图像的图像分割。

发明内容

为了克服现有技术中存在的缺陷，本公开提出了一种用于多模态图像的分割模型的训练方法、图像处理方法及装置和计算机可读存储介质。

根据本公开的一个方面，提供了一种用于多模态图像的分割模型的训练方法，所述训练方法包括：利用第一模态的训练图像集训练第一分割模型，其中，所述第一模态的训练图像集是对多个参考对象在第一模态下进行采集得到的图像的集合，所述第一模态的训练图像集中的每个训练图像具有第一数量的已标注类别；基于使用所训练的第一分割模型对第二模态的训练图像集进行处理得到的结果，利用第二模态的训练图像集训练第二分割模型，其中，所述第二模态的训练图像集是对多个参考对象在第二模态下进行采集得到的图像的集合，所述第二模态的训练图像集中的每个训练图像具有第二数量的已标注类别，并且所述第二数量小于所述第一数量。

根据本公开的一个示例，其中，所述利用第一模态的训练图像集训练第一分割模型包括：对于所述第一模态的训练图像集中的每个训练图像，利用所述第一分割模型对所述训练图像中的每个类别生成预测标签；以及通过利用所述训练图像的第一数量的已标注类别中的每个类别的已标注标签对所述预测标签进行监督，来对所述第一分割模型进行有监督训练。

根据本公开的一个示例，其中，所述基于使用所训练的第一分割模型对第二模态的训练图像集进行处理得到的结果，利用第二模态的训练图像集训练第二分割模型包括：利用所训练的第一分割模型对所述第二模态的训练图像集中的每个训练图像进行处理以得到第一语义特征；利用第二分割模型对所述第二模态的训练图像集中的每个训练图像进行处理以得到第二语义特征；以及训练第二分割模型，将所述第一语义特征和所述第二语义特征对齐。

根据本公开的一个示例，其中，所述训练第二分割模型将所述第一语义特征和所述第二语义特征对齐包括：利用第一判别器对所述第二分割模型进行对抗训练，将所述第一语义特征和所述第二语义特征对齐。

根据本公开的一个示例，其中，所述基于使用所训练的第一分割模型对第二模态的训练图像集进行处理得到的结果，利用第二模态的训练图像集训练第二分割模型还包括：利用所训练的第一分割模型根据所述第一语义特征生成第一空间结构信息；利用第二分割模型根据所述第二语义特征生成第二空间结构信息；以及训练第二分割模型，将所述第一空间结构信息和所述第二空间结构信息对齐。

根据本公开的一个示例，其中，所述训练第二分割模型将所述第一空间结构信息和所述第二空间结构信息对齐包括：利用第二判别器对所述第二分割模型进行对抗训练，将所述第一空间结构信息和所述第二空间结构信息对齐。

根据本公开的一个示例，其中，所述利用第二模态的训练图像集训练第二分割模型包括：对于所述第二模态的训练图像集中的每个训练图像，利用所述第二分割模型对所述训练图像中的每个类别生成预测标签；以及通过利用所述训练图像的第二数量的已标注类别中的每个类别的已标注标签对所述预测标签进行监督，来对所述第二分割模型进行有监督训练。

根据本公开的一个示例，其中，所述第一分割模型和所述第二分割模型中的每一个是卷积神经网络，所述第一模态的训练图像集和所述第二模态的训练图像集中的训练图像是医学图像，所述第一模态的训练图像集是磁共振成像训练图像集；所述第二模态的训练图像集是计算机断层成像训练图像集。

根据本公开的另一方面，提供了一种用于多模态图像的图像处理方法，所述图像处理方法包括：输入多模态图像；确定所述多模态图像是在第一模态还是第二模态下采集得到的图像；在确定所述多模态图像是在第一模态采集得到的图像的情况下，利用第一分割模型对所述多模态图像进行图像分割，以及在确定所述多模态图像是在第二模态采集得到的图像的情况下，利用第二分割模型对所述多模态图像进行图像分割；以及输出所述多模态图像的分割结果，其中，所述第一分割模型和第二分割模型通过以下步骤进行训练：利用第一模态的训练图像集训练第一分割模型，其中，所述第一模态的训练图像集是对多个参考对象在第一模态下进行采集得到的图像的集合，所述第一模态的训练图像集中的每个训练图像具有第一数量的已标注类别；基于使用所训练的第一分割模型对第二模态的训练图像集进行处理得到的结果，利用第二模态的训练图像集训练第二分割模型，其中，所述第二模态的训练图像集是对多个参考对象在第二模态下进行采集得到的图像的集合，所述第二模态的训练图像集中的每个训练图像具有第二数量的已标注类别，并且所述第二数量小于所述第一数量。

根据本公开的另一方面，提供了一种用于多模态图像的图像处理设备，包括：输入单元，被配置为输入多模态图像；确定单元，被配置为确定所述多模态图像是在第一模态还是第二模态下采集得到的图像；分割单元，被配置为在确定所述多模态图像是在第一模态采集得到的图像的情况下，利用第一分割模型对所述多模态图像进行图像分割，以及在确定所述多模态图像是在第二模态采集得到的图像的情况下，利用第二分割模型对所述多模态图像进行图像分割；以及输出单元，被配置为输出所述多模态图像的分割结果，其中，所述图像处理设备还包括训练单元，所述训练单元被配置为：利用第一模态的训练图像集训练第一分割模型，其中，所述第一模态的训练图像集是对多个参考对象在第一模态下进行采集得到的图像的集合，所述第一模态的训练图像集中的每个训练图像具有第一数量的已标注类别；基于使用所训练的第一分割模型对第二模态的训练图像集进行处理得到的结果，利用第二模态的训练图像集训练第二分割模型，其中，所述第二模态的训练图像集是对多个参考对象在第二模态下进行采集得到的图像的集合，所述第二模态的训练图像集中的每个训练图像具有第二数量的已标注类别，并且所述第二数量小于所述第一数量。

根据本公开的一个示例，其中，所述训练单元还被配置为：对于所述第一模态的训练图像集中的每个训练图像，利用所述第一分割模型对所述训练图像中的每个类别生成预测标签；以及通过利用所述训练图像的第一数量的已标注类别中的每个类别的已标注标签对所述预测标签进行监督，来对所述第一分割模型进行有监督训练。

根据本公开的一个示例，其中，所述训练单元还被配置为：利用所训练的第一分割模型对所述第二模态的训练图像集中的每个训练图像进行处理以得到第一语义特征；利用第二分割模型对所述第二模态的训练图像集中的每个训练图像进行处理以得到第二语义特征；以及训练第二分割模型，将所述第一语义特征和所述第二语义特征对齐。

根据本公开的一个示例，其中，所述训练单元包括第一判别器，所述第一判别器被配置为对所述第二分割模型进行对抗训练，将所述第一语义特征和所述第二语义特征对齐。

根据本公开的一个示例，其中，所述训练单元还被配置为：利用所训练的第一分割模型根据所述第一语义特征生成第一空间结构信息；利用第二分割模型根据所述第二语义特征生成第二空间结构信息；以及训练第二分割模型，将所述第一空间结构信息和所述第二空间结构信息对齐。

根据本公开的一个示例，其中，所述训练单元还包括第二判别器，所述第二判别器被配置为对所述第二分割模型进行对抗训练，将所述第一空间结构信息和所述第二空间结构信息对齐。

根据本公开的一个示例，其中，所述训练单元还被配置为：对于所述第二模态的训练图像集中的每个训练图像，利用所述第二分割模型对所述训练图像中的每个类别生成预测标签；以及通过利用所述训练图像的第二数量的已标注类别中的每个类别的已标注标签对所述预测标签进行监督，来对所述第二分割模型进行有监督训练。

根据本公开的另一方面，提供了一种图像处理方法，包括：输入第二模态的待分割图像；利用用于所述第二模态的第二分割模型对所述待分割图像进行图像分割，以得到图像分割结果；以及输出所述图像分割结果，其中，用于特定模态的分割模型通过以下步骤进行训练：利用第一模态的训练图像集训练第一分割模型，其中，所述第一模态的训练图像集是对多个参考对象在第一模态下进行采集得到的图像的集合，所述第一模态的训练图像集中的每个训练图像具有第一数量的已标注类别；基于使用所训练的第一分割模型对第二模态的训练图像集进行处理得到的结果，利用第二模态的训练图像集训练第二分割模型，其中，所述第二模态的训练图像集是对多个参考对象在第二模态下进行采集得到的图像的集合，所述第二模态的训练图像集中的每个训练图像具有第二数量的已标注类别，并且所述第二数量小于所述第一数量。

根据本公开的另一方面，提供了一种图像处理设备，包括：输入单元，被配置为输入第二模态的待分割图像；分割单元，被配置为利用用于所述第二模态的第二分割模型对所述待分割图像进行图像分割，以得到图像分割结果；以及输出单元，被配置为输出所述图像分割结果，其中，所述图像处理设备还包括训练单元，所述训练单元被配置为：利用第一模态的训练图像集训练第一分割模型，其中，所述第一模态的训练图像集是对多个参考对象在第一模态下进行采集得到的图像的集合，所述第一模态的训练图像集中的每个训练图像具有第一数量的已标注类别；基于使用所训练的第一分割模型对第二模态的训练图像集进行处理得到的结果，利用第二模态的训练图像集训练第二分割模型，其中，所述第二模态的训练图像集是对多个参考对象在第二模态下进行采集得到的图像的集合，所述第二模态的训练图像集中的每个训练图像具有第二数量的已标注类别，并且所述第二数量小于所述第一数量。

根据本公开的另一方面，提供了一种用于多模态图像的图像处理装置，包括：处理器；和存储器，其中，所述存储器中存储有计算机可读代码，所述计算机可读代码在由所述处理器运行时，使得所述处理器执行上述方法。

根据本公开的另一方面，提供了一种计算机可读存储介质，其上存储有指令，所述指令在被处理器执行时，使得所述处理器执行上述方法。

根据本公开的上述各个方面的用于多模态图像的分割模型的训练方法、图像处理方法、图像处理设备、图像处理装置以及计算机可读存储介质，通过利用具有第一数量的已标注类别的第一模态的训练图像集训练第一分割模型，并基于所训练的第一分割模型，利用具有小于第一数量的第二数量的已标注类别的第二模态的训练图像集训练第二分割模型，可以将第一分割模型从第一模态的训练图像集中学习到的知识迁移至第二分割模型，从而使得所训练的第二分割模型对于第二模态的图像能够识别出第一数量的类别，具体地，所训练的第二分割模型不仅能够对处于第二模态的图像中的无标注类别进行分割，而且同时保持对第二模态的图像中的已标注类别的分割的可靠性和准确性。另外，利用所训练的第二分割模型对图像中的无标注类别进行预测，可以减轻操作人员对无标注类别进行标注的负担，在快速获得新标签的同时，可以利用所预测的标签进一步提高模型预测的准确性。

附图说明

通过结合附图对本公开实施例进行更详细的描述，本公开的上述以及其它目的、特征和优势将变得更加明显。附图用来提供对本公开实施例的进一步理解，并且构成说明书的一部分，与本公开实施例一起用于解释本公开，并不构成对本公开的限制。在附图中，相同的参考标号通常代表相同部件或步骤。

图1是根据本公开实施例的用于多模态图像的分割模型的训练方法100的流程图；

图2是根据本公开实施例的一个示例的用于多模态图像的分割模型的训练方法100的流程图；

图3是根据本公开实施例的一个示例的用于多模态图像的分割模型的训练方法300；

图4是根据本公开实施例的用于多模态图像的图像处理方法400的流程图；

图5是根据本公开实施例的用于多模态图像的图像处理设备500的结构示意图；

图6是根据本公开实施例的图像处理方法600的流程图；

图7是根据本公开实施例的图像处理设备700的结构示意图；

图8示出了根据本公开实施例的示例性计算设备的架构的示意图。

具体实施方式

下面将结合本公开实施例中的附图，对本公开实施例中的技术方案进行清楚、完整地描述。显然，所描述的实施例仅是本公开一部分的实施例，而不是全部的实施例。基于本公开中的实施例，本领域普通技术人员在无需创造性劳动的前提下所获得的所有其他实施例，都属于本公开保护的范围。

在本公开中，多模态图像(multi-modality image)是指针对相同参考对象利用不同成像原理或者不同成像设备采集得到的图像。例如，利用红外相机和利用光学相机对相同参考对象进行采集得到的图像可以被称为多模态图像。又例如，在医学领域中，对于相同参考对象，利用磁共振成像(Magnetic Resonance Imaging，MRI)采集的MRI图像、利用计算机断层成像(Computed Tomography，CT)采集的CT图像、以及利用正电子发射型计算机断层成像(Positron Emission Computed Tomography，PET)采集的PET图像等可以被称为多模态图像。应当理解的是，多模态图像不限于以上示例，并且可以是任意来源于不同成像设备或者基于不同成像原理的相同参考对象的图像。

下面参照图1描述根据本公开实施例的用于多模态图像的分割模型的训练方法。图1是根据本公开实施例的用于多模态图像的分割模型的训练方法100的流程图。

如图1所示，在步骤S110中，利用第一模态的训练图像集训练第一分割模型。第一模态的训练图像集是对多个参考对象在第一模态下进行采集得到的图像的集合。第一模态的训练图像集中的训练图像例如可以为医学图像，例如，第一模态可以是MRI，多个参考对象可以是多个人的某个器官，例如多个人的心脏，则在此情况下，第一模态的训练图像集是利用MRI对多个人的心脏进行采集得到的多个心脏MRI图像的集合。上述以MRI为例描述了第一模态，以多个人的心脏为例描述了多个参考对象，但应当理解的是，本公开不限于此，第一模态也可以是CT、PET等各种其他模态，多个参考对象也可以是多个人的肾脏、多个人的骨骼等各种其他参考对象。这里的第一分割模型例如可以基于卷积神经网络，例如第一分割模型可以为深度卷积全连接条件随机场版本2(DeepLabV2)，但是本公开不限于此，第一分割模型也可以是全卷积网络(FCN)、深度卷积分割网络(SegNet)、精细网络(RefineNet)等其他语义分割模型。

此外，第一模态的训练图像集中的每个训练图像具有第一数量的已标注类别。通常，在一幅图像中可以包括一个或多个类别。例如，在一幅星空图像中可以包括星星、云朵、天空背景等3个类别。又例如，在一幅人的心脏图像中，可以包括升主动脉、左心房血腔、左心室血腔、左心室心肌等4个类别。在本公开中，“标注”是指：针对图像的视觉内容，给图像添加反映其内容的文本特征信息以便计算机可以识别的过程，例如给图像添加分类标签，例如，给上述星空图像的3个类别分别添加“星星”、“云朵”和“天空背景”3个标签。相应地，“已标注类别”是指图像中已经具有对应标签的类别。例如，在第一模态的训练图像集是多个心脏MRI图像的集合的情况下，如果每个训练图像中的所有类别均具有对应的已标注的标签，则每个训练图像具有4个已标注类别，即第一数量为4。虽然本公开以第一数量为4进行了示例说明，但应当理解的是，本公开不限于此，第一数量可以为大于1的任何数值。

根据本公开实施例的一个示例，步骤S110可以包括：对于第一模态的训练图像集中的每个训练图像，利用第一分割模型对该训练图像中的每个类别生成预测标签；以及通过利用训练图像的第一数量的已标注类别中的每个类别的已标注标签对预测标签进行监督，来对第一分割模型进行有监督训练。

有监督训练是机器学习中的一种方法，其通过分析学习已标注的训练样本集中的输入值和已标注标签之间的关系来推断得到模型函数，从而可以实现对新的实例的分析处理。在本公开中，第一模态的训练图像集中的每个训练图像具有第一数量的已标注类别，该第一数量的已标注类别可以用于对第一分割模型进行有监督训练。具体地，首先，利用第一分割模型对每个训练图像中的每个类别生成估计的标签，即预测标签；然后，利用该训练图像中的每个类别的已标注标签对该预测标签进行监督，例如，通过使预测标签和已标注标签之间的损失函数最小，来使得预测标签与已标注标签之间的误差最小，从而使得第一分割模型对第一模态的训练图像的各个类别的分割准确度最优。损失函数例如可以为交叉熵损失函数，但是本公开不限于此，损失函数也可以为绝对误差损失函数(Mean AbsoluteError(MAE)Loss)、平方误差损失函数(Mean Squared Error(MSE)Loss)等。在训练完成第一分割模型之后，可以固定已训练的第一分割模型，即不再对其进行训练或其他处理。

在步骤S120中，基于使用所训练的第一分割模型对第二模态的训练图像集进行处理得到的结果，利用第二模态的训练图像集训练第二分割模型。第二模态的训练图像集是对多个参考对象在第二模态下进行采集而得到的。第二模态的训练图像集中的训练图像例如可以为医学图像，例如，第二模态可以是CT，多个参考对象可以是多个人的某个器官，例如多个人的心脏，则在此情况下，第二模态的训练图像集是利用CT对多个人的心脏进行采集得到的多个心脏CT图像的集合。上述以CT为例描述了第二模态，以多个人的心脏为例描述了多个参考对象，但应当理解的是，本公开不限于此，第二模态也可以是MRI、PET等各种其他模态，多个参考对象也可以是多个人的肾脏、多个人的骨骼等各种其他参考对象。这里的第二分割模型例如可以基于卷积神经网络，例如第二分割模型可以为DeepLabV2，但是本公开不限于此，第二分割模型也可以是FCN、SegNet、RefineNet等其他语义分割模型。第二分割模型可以与第一分割模型具有相同的网络结构但具有不同的模型参数，或者第二分割模型也可以与第一分割模型具有不同的网络结构。

此外，第二模态的训练图像集中的每个训练图像具有第二数量的已标注类别，并且该第二数量小于上述第一模态的训练图像集中的每个训练图像的已标注类别的第一数量。例如，在第一模态的训练图像集是多个心脏MRI图像的集合的情况下，如果每个第一模态的训练图像中的所有类别均具有对应的已标注的标签，则每个第一模态的训练图像具有4个已标注类别，即第一数量为4；在第二模态的训练图像集是多个心脏CT图像的集合的情况下，如果每个第二模态的训练图像中仅有3个类别具有对应的已标注的标签，例如仅具有“升主动脉”、“左心房血腔”、“左心室血腔”3个标签，则每个第二模态的训练图像具有3个已标注类别，即第二数量为3。也就是说，在该示例中，第一模态的MRI训练图像中的4个类别升主动脉、左心房血腔、左心室血腔和左心室心肌均已被标注，第二模态的CT训练图像则仅标注了升主动脉、左心房血腔和左心室血腔3个类别，左心室心肌类别则未被标注。需要说明的是，虽然这里以第二数量为3进行了示例说明，但本公开不限于此，第二数量可以为大于等于1且小于第一数量的任何数值。例如，如果每个第二模态的训练图像中仅有2个类别具有对应的已标注的标签，例如仅具有“升主动脉”、“左心房血腔”2个标签，则每个第二模态的训练图像具有2个已标注类别，即第二数量为2。

在步骤S120中，具体的，虽然利用第一模态的训练图像集训练的第一分割模型对第二模态的训练图像是陌生的，但由于第二模态的训练图像和第一模态的训练图像在结构上的相似性，所训练的第一分割模型可以对第二模态的训练图像进行粗糙预测，特别是可以对第二模态的训练图像中的无标注类别进行粗糙预测，而第二分割模型可以从第一分割模型所预测的结果中获得第一分割模型对第二模态的训练图像的知识，并利用该知识来训练第二分割模型，使得训练后的第二分割模型能够对第二模态的训练图像中的无标注类别进行分割。例如，在上述示例中，在第一模态的训练图像集是多个心脏MRI图像的集合，第二模态的训练图像集是多个心脏CT图像的集合，并且每个第一模态的训练图像具有4个已标注类别，第二模态的训练图像具有3个已标注类别的情况下，基于利用多个MRI图像的集合训练的第一分割模型，利用多个CT图像来训练第二分割模型，使得第二分割模型从所训练的第一分割模型中获得第一分割模型对CT图像中的无标注类别(例如，左心室心肌类别)的知识，利用该知识来训练第二分割模型，以使得训练后的第二分割模型能够对CT图像中的无标注类别进行分割。

根据本公开实施例的一个示例，步骤S120可以包括步骤S121，如图2所示。图2是根据本公开实施例的一个示例的用于多模态图像的分割模型的训练方法100的流程图。在步骤121中，利用所训练的第一分割模型对第二模态的训练图像集中的每个训练图像进行处理以得到第一语义特征；利用第二分割模型对第二模态的训练图像集中的每个训练图像进行处理以得到第二语义特征；以及训练第二分割模型，将第一语义特征和第二语义特征对齐。语义特征例如可以是描述图像的颜色、纹理、形状及其组合的矩阵。例如，在第一分割模型和第二分割模型为卷积神经网络的情况下，第一语义特征和第二语义特征可以是第一分割模型和第二分割模型分别对输入的训练图像进行卷积运算得到的结果。第一语义特征和第二语义特征对齐例如可以是第一语义特征和第二语义特征之间不再有明显的区分性，即第一语义特征和第二语义特征的分布相似，或者说第一语义特征和第二语义特征之间的差小于预定阈值。

根据本公开实施例的一个示例，可以利用第一判别器对第二分割模型进行对抗训练，将第一语义特征和第二语义特征对齐。例如，在训练过程中，第一判别器可以反复判断第一语义特征是来自第一分割模型还是第二分割模型，判断第二语义特征是来自第一分割模型第二分割模型，并输出判断结果，不断调整模型的训练参数，直到第一判别器无法区分第一语义特征或者第二语义特征是来自第一分割模型还是第二分割模型，此时表明第一语义特征和第二语义特征之间的差小于预定阈值，即第一语义特征和第二语义特征对齐。此时，第二语义特征中对应于已标注类别的特征与第一语义特征中对应于已标注类别的特征是对齐的，并且相应地，第二语义特征中对应于无标注类别的特征与第一语义特征中对应于无标注类别的特征也是对齐的，从而第二语义特征获得了第一语义特征中的关于无标注类别的知识，即此时的第二分割模型能够对第二模态图像中的无标注类别实现分割。在本公开中，例如，第一判别器可以和第二分割模型构成生成式对抗网络(GenerativeAdversarial Network,GAN)，例如块生成式对抗网络(PatchGAN)，其中，第二分割模型作为GAN的生成器，第一判别器作为GAN的判别器。应当理解的是，第一判别器和第二分割模型也可以构成其他类型的GAN。第一判别器的损失函数可以采用MSE Loss，但是本公开不限于此，第一判别器的损失函数也可以为MAE Loss等。

通过对齐第一语义特征和第二语义特征来训练第二分割模型，第二分割模型能够从第一语义特征中获得第一分割模型对第二模态的训练图像中的无标注类别的知识，使得训练后的第二分割模型能够对第二模态的训练图像中的无标注类别进行分割。

此外，根据本公开实施例的一个示例，步骤S120可以进一步包括步骤S122。如图2所示，在步骤S122中，利用所训练的第一分割模型根据第一语义特征生成第一空间结构信息；利用第二分割模型根据第二语义特征生成第二空间结构信息；以及训练第二分割模型，将第一空间结构信息和第二空间结构信息对齐。空间结构信息可以是已经按照不同类别进行分类的图像，即已分割的图像。例如，可以通过对语义特征进行压缩，将高维的语义特征压缩为低维的空间结构信息。例如，在第二模态的训练图像集为多个心脏CT图像的集合，且其中每个CT图像具有4个类别(其中3个类别已标注，即第二数量为3)时，假定第一分割模型对每个CT图像进行处理所得到的第一语义特征的大小为128×256×256，其中128为特征维度，256×256为原图像的尺寸，则对第一语义特征进行压缩得到的第一空间结构信息可以为4×256×256，其中4表示类别数。第一空间结构信息和第二空间结构信息对齐例如可以是第一空间结构信息和第二空间结构信息的分布相似，或者说第一空间结构信息和第二空间结构信息之间的差小于预定阈值。

根据本公开实施例的一个示例，可以利用第二判别器对第二分割模型进行对抗训练，将第一空间结构信息和第二空间结构信息对齐。例如，在训练过程中，第二判别器可以反复判断第一空间结构信息是来自第一分割模型还是第二分割模型，判断第二空间结构信息是来自第一分割模型第二分割模型，并输出判断结果，不断调整模型的训练参数，直到第二判别器无法区分第一空间结构信息或者第二空间结构信息是来自第一分割模型还是第二分割模型，此时表明第一空间结构信息和第二空间结构信息之间的差小于预定阈值，即第一空间结构信息和第二空间结构信息对齐。此时，第二空间结构信息中的已标注类别部分与第一空间结构信息中的已标注类别部分是对齐的，并且相应地，第二空间结构信息中的无标注类别部分与第一空间结构信息中的无标注类别部分也是对齐的，从而第二空间结构信息获得了第一空间结构信息中的关于无标注类别的知识，即此时的第二分割模型能够对第二模态图像中的无标注类别实现分割。在本公开中，例如，第二判别器可以和第二分割模型构成GAN，例如PatchGAN，其中，第二分割模型作为GAN的生成器，第二判别器作为GAN的判别器。应当理解的是，第二判别器和第二分割模型也可以构成其他类型的GAN。第二判别器的损失函数可以采用MSE Loss，但是本公开不限于此，第二判别器的损失函数也可以为MAE Loss等。

通过进一步对齐第一空间结构信息和第二空间结构信息来进一步训练第二分割模型，第二分割模型能够从第一空间结构信息中获得第一分割模型对第二模态的训练图像中的无标注类别的知识，使得训练后的第二分割模型能够对第二模态的训练图像中的无标注类别进行更精确的分割。

此外，根据本公开实施例的一个示例，步骤S120还可以包括步骤S123。如图2所示，在步骤S123中，对于第二模态的训练图像集中的每个训练图像，利用第二分割模型对训练图像中的每个类别生成预测标签；以及通过利用训练图像的第二数量的已标注类别中的每个类别的已标注标签对预测标签进行监督，来对第二分割模型进行有监督训练。在本公开中，第二模态的训练图像集中的每个训练图像具有第二数量的已标注类别，该第二数量的已标注类别可以用于对第二分割模型进行有监督训练。具体地，首先，利用第二分割模型对每个训练图像中的每个类别生成估计的标签，即预测标签；然后，利用该训练图像中的每个类别的已标注标签对该预测标签进行监督，例如，通过使预测标签和已标注标签之间的损失函数最小，来使得预测标签与已标注标签之间的误差最小，从而在使得第二分割模型能够对第二模态的训练图像中的无标注类别进行分割的同时，加强第二分割模型对第二模态的训练图像中的已标注类别的分割准确度。

需要说明的是，在上述示例中，虽然在图2中以先后顺序示出了步骤S121、S122和S123，但步骤S121、S122和S123不限于图2中所示的顺序，并且可以同时进行。另外，步骤S110可以仅进行一次，即对第一分割模型可以仅进行一次训练，然后固定第一分割模型；步骤S121、S122和S123可以进行多次，即对第二分割模型进行多次训练，在此过程中，通过不断调整各种训练参数来获得最优的第二分割模型。可以采用优化器来更新和计算影响模型训练的训练参数，例如学习率、权重衰减系数等，例如第一分割模型和第二分割模型可以采用SGD优化器，第一判别器和第二判别器可以采用亚当(Adam)优化器，但本公开不限于此，第一、第二分割模型以及第一、第二判别器也可以采用诸如批量梯度下降法(BGD)、牛顿加速梯度(NAG)等其他机器学习领域中常用的优化器。

根据上述实施例的用于多模态图像的分割模型的训练方法，通过利用具有第一数量的已标注类别的第一模态的训练图像集训练第一分割模型，并基于所训练的第一分割模型，利用具有小于第一数量的第二数量的已标注类别的第二模态的训练图像集训练第二分割模型，可以将第一分割模型从第一模态的训练图像集中学习到的知识迁移至第二分割模型，从而使得所训练的第二分割模型对于第二模态的图像能够识别出第一数量的类别，具体地，所训练的第二分割模型不仅能够对第二模态的图像中的无标注类别进行分割，而且同时保持对第二模态的图像中的已标注类别的分割的可靠性和准确性。另外，在根据本公开实施例的分割模型的训练方法的应用中，利用所训练的第二分割模型对图像中的无标注类别进行预测，可以减轻操作人员对无标注类别进行标注的负担，在快速获得新标签的同时，可以利用所预测的标签进一步提高模型预测的准确性。

基于本公开上述实施例的用于多模态图像的分割模型的训练方法的框架名称例如可以为ZS4MMNet(Zero-Shot for Multiy-Modality Networks)，其可以利用多模态图像的特性，对多模态图像中未标注过的类别实现零样本分割。根据本公开的ZS4MMNet能够解决现有的语义分割模型中只能分割出训练图像集中已标注的类别的信息，而无法识别新的训练集中未标注过的类别的信息的问题。

下面以医疗多模态图像为例来描述根据本公开实施例的用于多模态图像的分割模型的训练方法。图3是根据本公开实施例的一个示例的用于多模态图像的分割模型的训练方法300。在该示例中，第一分割模型和第二分割模型为卷积神经网络，第一模态的训练图像集为心脏MRI图像集，第二模态的训练图像集为心脏CT图像集。每个MRI或CT心脏图像中至少具有升主动脉、左心房血腔、左心室血腔和左心室心肌等4个自然类别，其中，每个MRI图像中的4个类别均为已标注类别，每个CT图像中则仅有3个已标注类别，而左心室心肌类别则未标注。如图3所示，在步骤S310中，将MRI图像集输入到第一分割模型，利用每个MRI图像中的4个已标注类别对第一分割模型进行有监督训练。在训练完成后，固定第一分割模型。此时，训练后的第一分割模型可以识别MRI图像中的所有4个类别，但对CT图像集中的类别则是陌生的。

接下来，在步骤S320中，将CT图像集分别输入到所训练的第一分割模型和第二分割模型中。训练后的第一分割模型通过对每个CT图像的视觉特征进行卷积运算得到第一语义特征，并根据第一语义特征生成第一空间结构信息；第二分割模型通过对每个CT图像的视觉特征进行卷积运算得到第二语义特征，并根据第二语义特征生成第二空间结构信息。虽然，训练后的第一分割模型对CT图像集中的类别是陌生的，但由于作为心脏的多模态图像的MRI图像和CT图像在结构上的相似性，训练后的第一分割模型能够对CT图像中的类别进行粗糙预测，而其预测结果可以用来训练第二分割模型。分别利用第一判别器和第二判别器对第二分割模型进行对抗训练，使得第一语义特征和第二语义特征对齐，并且第一空间结构信息和第二空间结构信息对齐。同时，使用每个CT图像中的3个已标注类别，利用损失函数(例如交叉熵损失)对第二分割模型进行有监督训练，以加强第二分割模型对每个CT图像中的3个已标注类别的分割准确度。

重复上述步骤S320，在此过程中，可以不断调整各种训练参数来优化第二分割模型。例如，可以采用SGD优化器来更新和计算影响模型训练的训练参数，例如学习率、权重衰减系数等，例如，第一分割模型和第二分割模型的学习率可以设置为2.5e-4，第一判别器和第二判别器的学习率可以设置为1e-4，权重衰减系数可以设置为1e-5。在训练完成后，第二分割模型在保持对CT图像中的3个已标注类别的分割的可靠性和准确性的同时，还通过从第一分割模型获得的对于CT图像中的无标注类别的知识，实现了对CT图像中的无标注类别的分割。另外，在根据本公开实施例的分割模型的训练方法的应用中，利用所训练的第二分割模型对图像中的无标注类别进行预测，可以减轻操作人员对无标注类别进行标注的负担，在快速获得新标签的同时，利用所预测的标签进一步提高模型预测的准确性。

下面参照图4描述根据本公开实施例的用于多模态图像的图像处理方法。图4是根据本公开实施例的用于多模态图像的图像处理方法400的流程图。如图4所示，在步骤S410中，输入多模态图像。接着，在步骤S420中，确定多模态图像是在第一模态还是第二模态下采集得到的图像。例如，可以通过读取输入的多模态图像中包括的图像头信息，来确定该多模态图像是在第一模态还是第二模态下采集得到的图像。又例如，可以通过分析输入的多模态图像的像素特征，来确定该多模态图像是在第一模态还是第二模态下采集得到的图像。例如，这里的第一模态可以是上面提到的MRI，第二模态可以是上面提到的CT，则在此情况下，如果确定输入的多模态图像为MRI图像，则该多模态图像为第一模态的图像；如果确定输入的多模态图像为CT图像，则该多模态图像为第二模态的图像。

接着，在步骤S430中，在步骤S420中确定多模态图像是在第一模态采集得到的图像的情况下，利用第一分割模型对多模态图像进行图像分割，以及在步骤S420中确定多模态图像是在第二模态采集得到的图像的情况下，利用第二分割模型对多模态图像进行图像分割。

其中，第一分割模型和第二分割模型可以是通过以下步骤进行训练得到的：利用第一模态的训练图像集训练第一分割模型，其中，第一模态的训练图像集是对多个参考对象在第一模态下进行采集而得到的，第一模态的训练图像集中的每个训练图像具有第一数量的已标注类别；基于使用所训练的第一分割模型对第二模态的训练图像集进行处理得到的结果，利用第二模态的训练图像集训练第二分割模型，其中，第二模态的训练图像集是对多个参考对象在第二模态下进行采集而得到的，第二模态的训练图像集中的每个训练图像具有第二数量的已标注类别，并且第二数量小于第一数量。

例如，在第一模态的训练图像集是多个心脏MRI图像的集合的情况下，如果每个第一模态的训练图像中的所有类别均具有对应的已标注的标签，则每个第一模态的训练图像具有4个已标注类别，即第一数量为4；例如，在第二模态的训练图像集是多个心脏CT图像的集合的情况下，如果每个第二模态的训练图像中仅有3个类别具有对应的已标注的标签，例如仅具有“升主动脉”、“左心房血腔”、“左心室血腔”3个标签，则每个第二模态的训练图像具有3个已标注类别，即第二数量为3。需要说明的是，虽然这里以第一数量为4、第二数量为3进行了示例说明，但是本公开不限于此，第一数量可以为大于1的任何数值，并且第二数量可以为大于等于1且小于第一数量的任何数值。

根据本公开实施例的一个示例，利用第一模态的训练图像集训练第一分割模型可以包括：对于第一模态的训练图像集中的每个训练图像，利用第一分割模型对该训练图像中的每个类别生成预测标签；以及通过利用训练图像的第一数量的已标注类别中的每个类别的已标注标签对预测标签进行监督，来对第一分割模型进行有监督训练。在本公开中，第一模态的训练图像集中的每个训练图像具有第一数量的已标注类别，该第一数量的已标注类别可以用于对第一分割模型进行有监督训练。具体地，首先，利用第一分割模型对每个训练图像中的每个类别生成估计的标签，即预测标签；然后，利用该训练图像中的每个类别的已标注标签对该预测标签进行监督，例如，通过使预测标签和已标注标签之间的损失函数最小，来使得预测标签与已标注标签之间的误差最小，从而使得第一分割模型对第一模态的训练图像的各个类别的分割准确度最优。损失函数例如可以为交叉熵损失函数，但是本公开不限于此，损失函数也可以为绝对误差损失函数(MAE Loss)、平方误差损失函数(MSELoss)等。在训练完成第一分割模型之后，可以固定已训练的第一分割模型，即不再对其进行训练或其他处理。

此外，根据本公开实施例的一个示例，基于使用所训练的第一分割模型对第二模态的训练图像集进行处理得到的结果，利用第二模态的训练图像集训练第二分割模型包括：利用所训练的第一分割模型对第二模态的训练图像集中的每个训练图像进行处理以得到第一语义特征；利用第二分割模型对第二模态的训练图像集中的每个训练图像进行处理以得到第二语义特征；以及训练第二分割模型，将第一语义特征和第二语义特征对齐。语义特征例如可以是描述图像的颜色、纹理、形状及其组合的矩阵。例如，在第一分割模型和第二分割模型为卷积神经网络的情况下，第一语义特征和第二语义特征可以是第一分割模型和第二分割模型分别对输入的训练图像进行卷积运算得到的结果。第一语义特征和第二语义特征对齐例如可以是第一语义特征和第二语义特征不再有明显的区分性，即第一语义特征和第二语义特征的分布相似，或者说第一语义特征和第二语义特征之间的差小于预定阈值。

根据本公开实施例的一个示例，可以利用第一判别器对第二分割模型进行对抗训练，将第一语义特征和第二语义特征对齐。例如，在训练过程中，第一判别器可以反复判断第一语义特征是来自第一分割模型还是第二分割模型，判断第二语义特征是来自第一分割模型第二分割模型，并输出判断结果，不断调整模型的训练参数，直到第一判别器无法区分第一语义特征或者第二语义特征是来自第一分割模型还是第二分割模型，此时表明第一语义特征和第二语义特征之间的差小于预定阈值，即第一语义特征和第二语义特征对齐。此时，第二语义特征中对应于已标注类别的特征与第一语义特征中对应于已标注类别的特征是对齐的，并且相应地，第二语义特征中对应于无标注类别的特征与第一语义特征中对应于无标注类别的特征也是对齐的，从而第二语义特征获得了第一语义特征中的关于无标注类别的知识，即此时的第二分割模型能够对第二模态图像中的无标注类别实现分割。在本公开中，例如，第一判别器可以和第二分割模型构成GAN，例如PatchGAN，其中，第二分割模型作为GAN的生成器，第一判别器作为GAN的判别器。应当理解的是，第一判别器和第二分割模型也可以构成其他类型的GAN。第一判别器的损失函数可以采用MSE Loss，但是本公开不限于此，第一判别器的损失函数也可以为MAE Loss等。

此外，根据本公开实施例的一个示例，基于使用所训练的第一分割模型对第二模态的训练图像集进行处理得到的结果，利用第二模态的训练图像集训练第二分割模型还可以包括：利用所训练的第一分割模型根据第一语义特征生成第一空间结构信息；利用第二分割模型根据第二语义特征生成第二空间结构信息；以及训练第二分割模型，将第一空间结构信息和第二空间结构信息对齐。空间结构信息可以是已经按照不同类别进行分类的图像，即已分割的图像。例如，可以通过对语义特征进行压缩，将高维的语义特征压缩为低维的空间结构信息。例如，在第二模态的训练图像集为多个心脏CT图像的集合，且其中每个CT图像具有4个类别(其中3个类别已标注，即第二数量为3)时，假定第一分割模型对每个CT图像进行处理所得到的第一语义特征的大小为128×256×256，其中128为特征维度，256×256为原图像的尺寸，则对第一语义特征进行压缩得到的第一空间结构信息可以为4×256×256，其中4表示类别数。第一空间结构信息和第二空间结构信息对齐例如可以是第一空间结构信息和第二空间结构信息的分布相似，或者说第一空间结构信息和第二空间结构信息之间的差小于预定阈值。

此外，根据本公开实施例的一个示例，利用第二模态的训练图像集训练第二分割模型还可以包括：对于第二模态的训练图像集中的每个训练图像，利用第二分割模型对训练图像中的每个类别生成预测标签；以及通过利用训练图像的第二数量的已标注类别中的每个类别的已标注标签对预测标签进行监督，来对第二分割模型进行有监督训练。在本公开中，第二模态的训练图像集中的每个训练图像具有第二数量的已标注类别，该第二数量的已标注类别可以用于对第二分割模型进行有监督训练。具体地，首先，利用第二分割模型对每个训练图像中的每个类别生成估计的标签，即预测标签；然后，利用该训练图像中的每个类别的已标注标签对该预测标签进行监督，例如，通过使预测标签和已标注标签之间的损失函数最小，来使得预测标签与已标注标签之间的误差最小，从而在使得第二分割模型能够对第二模态的训练图像中的无标注类别进行分割的同时，加强第二分割模型对第二模态的训练图像中的已标注类别的分割准确度。

接着，在步骤S440中，输出多模态图像的分割结果。在分割后的多模态图像中，图像的每个类别均具有对应的预测标签。

根据上述实施例的用于多模态图像的图像处理方法，通过确定输入的多模态图像是在第一模态还是第二模态下采集得到的图像，并利用对应的第一分割模型或者第二分割模型，既可以对第一模态的图像进行图像分割，也可以对第二模态的图像进行图像分割，并且对于第二模态的图像能够识别出第一数量的类别，具体地，不仅能够对第二模态的图像中的无标注类别进行分割，而且同时保持对第二模态的图像中的已标注类别的分割的可靠性和准确性。另外，根据本公开实施例的用于多模态图像的图像处理方法，利用所训练的第二分割模型对图像中的无标注类别进行预测，可以减轻操作人员对无标注类别进行标注的负担，在快速获得新标签的同时，可以利用所预测的标签进一步提高模型预测的准确性。

下面参照图5描述本公开实施例的用于多模态图像的图像处理设备。图5是根据本公开实施例的用于多模态图像的图像处理设备500的结构示意图。由于图像处理设备500的功能与在上文中参照图4描述的方法的细节相同，因此在这里为了简单起见，省略对相同内容的详细描述。如图5所示，图像处理设备500包括：输入单元510，被配置为输入多模态图像；确定单元520，被配置为确定多模态图像是在第一模态还是第二模态下采集得到的图像；分割单元530，被配置为在确定多模态图像是在第一模态采集得到的图像的情况下，利用第一分割模型对多模态图像进行图像分割，以及在确定多模态图像是在第二模态采集得到的图像的情况下，利用第二分割模型对多模态图像进行图像分割；以及输出单元540，被配置为输出多模态图像的分割结果。

根据本公开实施例的一个示例，例如，确定单元520可以通过读取输入的多模态图像中包括的图像头信息，来确定该多模态图像是在第一模态还是第二模态下采集得到的图像。例如，确定单元520可以通过分析输入的多模态图像的像素特征，来确定该多模态图像是在第一模态还是第二模态下采集得到的图像。例如，这里的第一模态可以是上面提到的MRI，第二模态可以是上面提到的CT，则如果确定输入的多模态图像为MRI图像，则该多模态图像为第一模态的图像；如果确定输入的多模态图像为CT图像，则该多模态图像为第二模态的图像。

接着，根据确定单元520所确定的结果，分割单元530利用第一分割模型或者第二分割模型对多模态图像进行图像分割。如果确定单元520确定输入的多模态图像为第一模态的图像，则分割单元530利用第一分割模型对该多模态图像进行分割；如果确定单元520确定输入的多模态图像为第二模态的图像，则分割单元530利用第二分割模型对该多模态图像进行分割。

此外，根据本公开实施例的一个示例，图像处理设备还包括训练单元550。除了这五个单元以外，图像处理设备500还可以包括其他部件，然而，由于这些部件与本公开实施例的内容无关，因此在这里省略其图示和描述。训练单元550被配置为：利用第一模态的训练图像集训练第一分割模型，其中，第一模态的训练图像集是对多个参考对象在第一模态下进行采集而得到的，第一模态的训练图像集中的每个训练图像具有第一数量的已标注类别；基于使用所训练的第一分割模型对第二模态的训练图像集进行处理得到的结果，利用第二模态的训练图像集训练第二分割模型，其中，第二模态的训练图像集是对多个参考对象在第二模态下进行采集而得到的，第二模态的训练图像集中的每个训练图像具有第二数量的已标注类别，并且第二数量小于第一数量。例如，在第一模态的训练图像集是多个心脏MRI图像的集合的情况下，如果每个第一模态的训练图像中的所有类别均具有对应的已标注的标签，则每个第一模态的训练图像具有4个已标注类别，即第一数量为4；例如，在第二模态的训练图像集是多个心脏CT图像的集合的情况下，如果每个第二模态的训练图像中仅有3个类别具有对应的已标注的标签，例如仅具有“升主动脉”、“左心房血腔”、“左心室血腔”3个标签，则每个第二模态的训练图像具有3个已标注类别，即第二数量为3。需要说明的是，虽然这里以第一数量为4、第二数量为3进行了示例说明，但是本公开不限于此，第一数量可以为大于1的任何数值，并且第二数量可以为大于等于1且小于第一数量的任何数值。

根据本公开实施例的一个示例，训练单元550还被配置为：对于第一模态的训练图像集中的每个训练图像，利用第一分割模型对该训练图像中的每个类别生成预测标签；以及通过利用训练图像的第一数量的已标注类别中的每个类别的已标注标签对预测标签进行监督，来对第一分割模型进行有监督训练。在本公开中，第一模态的训练图像集中的每个训练图像具有第一数量的已标注类别，该第一数量的已标注类别可以用于对第一分割模型进行有监督训练。具体地，首先，利用第一分割模型对每个训练图像中的每个类别生成估计的标签，即预测标签；然后，利用该训练图像中的每个类别的已标注标签对该预测标签进行监督，例如，通过使预测标签和已标注标签之间的损失函数最小，来使得预测标签与已标注标签之间的误差最小，从而使得第一分割模型对第一模态的训练图像的各个类别的分割准确度最优。损失函数例如可以为交叉熵损失函数，但是本公开不限于此，损失函数也可以为绝对误差损失函数(MAE Loss)、平方误差损失函数(MSE Loss)等。在训练完成第一分割模型之后，可以固定已训练的第一分割模型，即不再对其进行训练或其他处理。

此外，根据本公开实施例的一个示例，训练单元550还被配置为：利用所训练的第一分割模型对第二模态的训练图像集中的每个训练图像进行处理以得到第一语义特征；利用第二分割模型对第二模态的训练图像集中的每个训练图像进行处理以得到第二语义特征；以及训练第二分割模型，将第一语义特征和第二语义特征对齐。语义特征例如可以是描述图像的颜色、纹理、形状及其组合的矩阵。例如，在第一分割模型和第二分割模型为卷积神经网络的情况下，第一语义特征和第二语义特征可以是第一分割模型和第二分割模型分别对输入的训练图像进行卷积运算得到的结果。第一语义特征和第二语义特征对齐例如可以是第一语义特征和第二语义特征不再有明显的区分性，即第一语义特征和第二语义特征的分布相似，或者说第一语义特征和第二语义特征之间的差小于预定阈值。

根据本公开实施例的一个示例，训练单元550可以包括第一判别器，第一判别器被配置为对第二分割模型进行对抗训练，将第一语义特征和第二语义特征对齐。例如，在训练过程中，第一判别器可以反复判断第一语义特征是来自第一分割模型还是第二分割模型，判断第二语义特征是来自第一分割模型第二分割模型，并输出判断结果，不断调整模型的训练参数，直到第一判别器无法区分第一语义特征或者第二语义特征是来自第一分割模型还是第二分割模型，此时表明第一语义特征和第二语义特征之间的差小于预定阈值，即第一语义特征和第二语义特征对齐。此时，第二语义特征中对应于已标注类别的特征与第一语义特征中对应于已标注类别的特征是对齐的，并且相应地，第二语义特征中对应于无标注类别的特征与第一语义特征中对应于无标注类别的特征也是对齐的，从而第二语义特征获得了第一语义特征中的关于无标注类别的知识，即此时的第二分割模型能够对第二模态图像中的无标注类别实现分割。在本公开中，例如，第一判别器可以和第二分割模型构成GAN，例如PatchGAN，其中，第二分割模型作为GAN的生成器，第一判别器作为GAN的判别器。应当理解的是，第一判别器和第二分割模型也可以构成其他类型的GAN。第一判别器的损失函数可以采用MSE Loss，但是本公开不限于此，第一判别器的损失函数也可以为MAE Loss等。

此外，根据本公开实施例的一个示例，训练单元550还被配置为：利用所训练的第一分割模型根据第一语义特征生成第一空间结构信息；利用第二分割模型根据第二语义特征生成第二空间结构信息；以及训练第二分割模型，将第一空间结构信息和第二空间结构信息对齐。空间结构信息可以是已经按照不同类别进行分类的图像，即已分割的图像。例如，可以通过对语义特征进行压缩，将高维的语义特征压缩为低维的空间结构信息。例如，在第二模态的训练图像集为多个心脏CT图像的集合，且其中每个CT图像具有4个类别(其中3个类别已标注，即第二数量为3)时，假定第一分割模型对每个CT图像进行处理所得到的第一语义特征的大小为128×256×256，其中128为特征维度，256×256为原图像的尺寸，则对第一语义特征进行压缩得到的第一空间结构信息可以为4×256×256，其中4表示类别数。第一空间结构信息和第二空间结构信息对齐例如可以是第一空间结构信息和第二空间结构信息的分布相似，或者说第一空间结构信息和第二空间结构信息之间的差小于预定阈值。

根据本公开实施例的一个示例，训练单元550还可以包括第二判别器，第二判别器被配置为对第二分割模型进行对抗训练，将第一空间结构信息和第二空间结构信息对齐。例如，在训练过程中，第二判别器可以反复判断第一空间结构信息是来自第一分割模型还是第二分割模型，判断第二空间结构信息是来自第一分割模型第二分割模型，并输出判断结果，不断调整模型的训练参数，直到第二判别器无法区分第一空间结构信息或者第二空间结构信息是来自第一分割模型还是第二分割模型，此时表明第一空间结构信息和第二空间结构信息之间的差小于预定阈值，即第一空间结构信息和第二空间结构信息对齐。此时，第二空间结构信息中的已标注类别部分与第一空间结构信息中的已标注类别部分是对齐的，并且相应地，第二空间结构信息中的无标注类别部分与第一空间结构信息中的无标注类别部分也是对齐的，从而第二空间结构信息获得了第一空间结构信息中的关于无标注类别的知识，即此时的第二分割模型能够对第二模态图像中的无标注类别实现分割。在本公开中，例如，第二判别器可以和第二分割模型构成GAN，例如PatchGAN，其中，第二分割模型作为GAN的生成器，第二判别器作为GAN的判别器。应当理解的是，第二判别器和第二分割模型也可以构成其他类型的GAN。第二判别器的损失函数可以采用MSE Loss，但是本公开不限于此，第二判别器的损失函数也可以为MAE Loss等。

此外，根据本公开实施例的一个示例，训练单元550还被配置为：对于第二模态的训练图像集中的每个训练图像，利用第二分割模型对训练图像中的每个类别生成预测标签；以及通过利用训练图像的第二数量的已标注类别中的每个类别的已标注标签对预测标签进行监督，来对第二分割模型进行有监督训练。在本公开中，第二模态的训练图像集中的每个训练图像具有第二数量的已标注类别，该第二数量的已标注类别可以用于对第二分割模型进行有监督训练。具体地，首先，利用第二分割模型对每个训练图像中的每个类别生成估计的标签，即预测标签；然后，利用该训练图像中的每个类别的已标注标签对该预测标签进行监督，例如，通过使预测标签和已标注标签之间的损失函数最小，来使得预测标签与已标注标签之间的误差最小，从而在使得第二分割模型能够对第二模态的训练图像中的无标注类别进行分割的同时，加强第二分割模型对第二模态的训练图像中的已标注类别的分割准确度。

根据上述实施例的用于多模态图像的图像处理设备，通过确定输入的多模态图像是在第一模态还是第二模态下采集得到的图像，并利用对应的第一分割模型或者第二分割模型，既可以对第一模态的图像进行图像分割，也可以对第二模态的图像进行图像分割，并且对于第二模态的图像能够识别出第一数量的类别，具体地，不仅能够对第二模态的图像中的无标注类别进行分割，而且同时保持对第二模态的图像中的已标注类别的分割的可靠性和准确性。另外，在根据本公开实施例的用于多模态图像的图像处理方法，利用所训练的第二分割模型对图像中的无标注类别进行预测，可以减轻操作人员对无标注类别进行标注的负担，在快速获得新标签的同时，可以利用所预测的标签进一步提高模型预测的准确性。

此外，根据本公开的一个实施例，利用根据本公开上述实施例的用于多模态图像的分割模型的训练方法100训练的第一分割模型和第二分割模型也可以单独应用。例如，所训练的第二分割模型可以单独应用于图像处理，而不必与第一分割模型一起应用。下面参照图6描述根据本公开实施例的图像处理方法。图6示出了根据本公开实施例的图像处理方法600的流程图。如图6所示，在步骤S610中，输入第二模态的待分割图像。接着，在步骤S620中，利用用于第二模态的第二分割模型对待分割图像进行图像分割，以得到图像分割结果。其中，用于特定模态的分割模型通过以下步骤进行训练：利用第一模态的训练图像集训练第一分割模型，其中，第一模态的训练图像集是对多个参考对象在第一模态下进行采集得到的图像的集合，第一模态的训练图像集中的每个训练图像具有第一数量的已标注类别；基于使用所训练的第一分割模型对第二模态的训练图像集进行处理得到的结果，利用第二模态的训练图像集训练第二分割模型，其中，第二模态的训练图像集是对多个参考对象在第二模态下进行采集得到的图像的集合，第二模态的训练图像集中的每个训练图像具有第二数量的已标注类别，并且第二数量小于第一数量。由于图像处理方法600中的分割模型与上文参照图1-5描述的分割模型的训练方法的细节相同，因此在这里为了简单起见，省略对相同内容的详细描述。最后，在步骤S630中，输出图像分割结果。

下面参照图7描述根据本公开实施例的图像处理设备。图7示出了根据本公开实施例的图像处理设备700的结构示意图。如图7所示，图像处理设备700包括：输入单元710，被配置为输入第二模态的待分割图像；分割单元720，被配置为利用用于第二模态的第二分割模型对待分割图像进行图像分割，以得到图像分割结果；以及输出单元730，被配置为输出图像分割结果。此外，图像处理设备700还可以包括训练单元740，被配置为：利用第一模态的训练图像集训练第一分割模型，其中，第一模态的训练图像集是对多个参考对象在第一模态下进行采集得到的图像的集合，第一模态的训练图像集中的每个训练图像具有第一数量的已标注类别；基于使用所训练的第一分割模型对第二模态的训练图像集进行处理得到的结果，利用第二模态的训练图像集训练第二分割模型，其中，第二模态的训练图像集是对多个参考对象在第二模态下进行采集得到的图像的集合，第二模态的训练图像集中的每个训练图像具有第二数量的已标注类别，并且第二数量小于第一数量。由于图像处理设备700中的训练单元740的功能与上文参照图5描述的训练单元550的细节相同，因此在这里为了简单起见，省略对相同内容的详细描述。此外，除了这四个单元以外，图像处理设备700还可以包括其他部件，然而，由于这些部件与本公开实施例的内容无关，因此在这里省略其图示和描述。

此外，根据本公开实施例的设备(例如，图像处理设备等)也可以借助于图8所示的示例性计算设备的架构来实现。图8示出了根据本公开实施例的示例性计算设备的架构的示意图。如图8所示，计算设备800可以包括总线810、一个或多个CPU 820、只读存储器(ROM)830、随机存取存储器(RAM)840、连接到网络的通信端口850、输入/输出组件860、硬盘870等。计算设备800中的存储设备，例如ROM 830或硬盘870可以存储计算机处理和/或通信使用的各种数据或文件以及CPU所执行的程序指令。计算设备800还可以包括用户界面880。当然，图8所示的架构只是示例性的，在实现不同的设备时，根据实际需要，可以省略图8示出的计算设备中的一个或多个组件。

本公开的实施例也可以被实现为计算机可读存储介质。根据本公开实施例的计算机可读存储介质上存储有计算机可读指令。当计算机可读指令由处理器运行时，可以执行参照以上附图描述的根据本公开实施例的方法。计算机可读存储介质包括但不限于例如易失性存储器和/或非易失性存储器。易失性存储器例如可以包括随机存取存储器(RAM)和/或高速缓冲存储器(cache)等。非易失性存储器例如可以包括只读存储器(ROM)、硬盘、闪存等。

根据本公开的实施例，还提供了一种计算机程序产品或计算机程序，该计算机程序产品或者计算机程序包括计算机可读指令，该计算机可读指令存储在计算机可读存储介质中。计算机设备的处理器可以从计算机可读存储介质读取该计算机可读指令，处理器执行该计算机可读指令，使得该计算机设备执行上述各个实施例中描述的训练方法和图像处理方法。

本领域技术人员能够理解，本公开所披露的内容可以出现多种变型和改进。例如，以上所描述的各种设备或组件可以通过硬件实现，也可以通过软件、固件、或者三者中的一些或全部的组合实现。

此外，如本公开和权利要求书中所示，除非上下文明确提示例外情形，“一”、“一个”、“一种”和/或“该”等词并非特指单数，也可包括复数。本公开中使用的“第一”、“第二”以及类似的词语并不表示任何顺序、数量或者重要性，而只是用来区分不同的组成部分。同样，“包括”或者“包含”等类似的词语意指出现该词前面的元件或者物件涵盖出现在该词后面列举的元件或者物件及其等同，而不排除其他元件或者物件。“连接”或者“相连”等类似的词语并非限定于物理的或者机械的连接，而是可以包括电性的连接，不管是直接的还是间接的。

此外，本公开中使用了流程图用来说明根据本公开实施例的实施例的系统所执行的操作。应当理解的是，前面或下面操作不一定按照顺序来精确地执行。相反，可以按照倒序或同时处理各种步骤。同时，也可以将其他操作叠加到这些过程中，或从这些过程移除某一步或数步操作。

除非另有定义，这里使用的所有术语(包括技术和科学术语)具有与本公开所属领域的普通技术人员共同理解的相同含义。还应当理解，诸如在通常字典里定义的那些术语应当被解释为具有与它们在相关技术的上下文中的含义相一致的含义，而不应用理想化或极度形式化的意义来解释，除非这里明确地这样定义。

以上对本公开进行了详细说明，但对于本领域技术人员而言，显然，本公开并非限定于本说明书中说明的实施方式。本公开在不脱离由权利要求书的记载所确定的本公开的宗旨和范围的前提下，可以作为修改和变更方式来实施。因此，本说明书的记载是以示例说明为目的，对本公开而言并非具有任何限制性的意义。

Claims

1.一种用于多模态图像的分割模型的训练方法，包括：

利用第一模态的训练图像集训练第一分割模型，其中，所述第一模态的训练图像集是对多个参考对象在第一模态下进行采集得到的图像的集合，所述第一模态的训练图像集中的每个训练图像具有第一数量的已标注类别；

基于使用所训练的第一分割模型对第二模态的训练图像集进行处理得到的结果，利用第二模态的训练图像集训练第二分割模型，其中，所述第二模态的训练图像集是对多个参考对象在第二模态下进行采集得到的图像的集合，所述第二模态的训练图像集中的每个训练图像具有第二数量的已标注类别，并且所述第二数量小于所述第一数量。

2.根据权利要求1所述的训练方法，其中，所述利用第一模态的训练图像集训练第一分割模型包括：

对于所述第一模态的训练图像集中的每个训练图像，

利用所述第一分割模型对所述训练图像中的每个类别生成预测标签；以及

通过利用所述训练图像的第一数量的已标注类别中的每个类别的已标注标签对所述预测标签进行监督，来对所述第一分割模型进行有监督训练。

3.根据权利要求1所述的训练方法，其中，所述基于使用所训练的第一分割模型对第二模态的训练图像集进行处理得到的结果，利用第二模态的训练图像集训练第二分割模型包括：

利用所训练的第一分割模型对所述第二模态的训练图像集中的每个训练图像进行处理以得到第一语义特征；

利用第二分割模型对所述第二模态的训练图像集中的每个训练图像进行处理以得到第二语义特征；以及

训练第二分割模型，将所述第一语义特征和所述第二语义特征对齐。

4.根据权利要求3所述的训练方法，其中，所述训练第二分割模型将所述第一语义特征和所述第二语义特征对齐包括：

利用第一判别器对所述第二分割模型进行对抗训练，将所述第一语义特征和所述第二语义特征对齐。

5.根据权利要求3所述的训练方法，其中，所述基于使用所训练的第一分割模型对第二模态的训练图像集进行处理得到的结果，利用第二模态的训练图像集训练第二分割模型还包括：

利用所训练的第一分割模型根据所述第一语义特征生成第一空间结构信息；

利用第二分割模型根据所述第二语义特征生成第二空间结构信息；以及

训练第二分割模型，将所述第一空间结构信息和所述第二空间结构信息对齐。

6.根据权利要求5所述的训练方法，其中，所述训练第二分割模型将所述第一空间结构信息和所述第二空间结构信息对齐包括：

利用第二判别器对所述第二分割模型进行对抗训练，将所述第一空间结构信息和所述第二空间结构信息对齐。

7.根据权利要求1所述的训练方法，其中，所述利用第二模态的训练图像集训练第二分割模型包括：

对于所述第二模态的训练图像集中的每个训练图像，

利用所述第二分割模型对所述训练图像中的每个类别生成预测标签；以及

通过利用所述训练图像的第二数量的已标注类别中的每个类别的已标注标签对所述预测标签进行监督，来对所述第二分割模型进行有监督训练。

8.根据权利要求1-7中任一项所述的训练方法，其中，所述第一分割模型和所述第二分割模型中的每一个是卷积神经网络，

所述第一模态的训练图像集和所述第二模态的训练图像集中的训练图像是医学图像，

所述第一模态的训练图像集是磁共振成像训练图像集；

所述第二模态的训练图像集是计算机断层成像训练图像集。

9.一种用于多模态图像的图像处理方法，包括：

输入多模态图像；

确定所述多模态图像是在第一模态还是第二模态下采集得到的图像；

在确定所述多模态图像是在第一模态采集得到的图像的情况下，利用第一分割模型对所述多模态图像进行图像分割，以及在确定所述多模态图像是在第二模态采集得到的图像的情况下，利用第二分割模型对所述多模态图像进行图像分割；以及

输出所述多模态图像的分割结果，

其中，所述第一分割模型和第二分割模型通过以下步骤进行训练：

10.根据权利要求9所述的图像处理方法，其中，所述基于使用所训练的第一分割模型对第二模态的训练图像集进行处理得到的结果，利用第二模态的训练图像集训练第二分割模型包括：

11.根据权利要求10所述的图像处理方法，其中，所述基于使用所训练的第一分割模型对第二模态的训练图像集进行处理得到的结果，利用第二模态的训练图像集训练第二分割模型还包括：

12.一种图像处理方法，包括：

输入第二模态的待分割图像；

利用用于所述第二模态的第二分割模型对所述待分割图像进行图像分割，以得到图像分割结果；以及

输出所述图像分割结果，

其中，用于特定模态的分割模型通过以下步骤进行训练：

13.根据权利要求12所述的图像处理方法，其中，

所述第一分割模型和所述第二分割模型中的每一个是卷积神经网络，

所述第一模态的训练图像集是磁共振成像训练图像集；

所述第二模态的训练图像集是计算机断层成像训练图像集。

14.种用于多模态图像的图像处理装置，包括：

处理器；和

存储器，其中，所述存储器中存储有计算机可读代码，所述计算机可读代码在由所述处理器运行时，使得所述处理器执行如权利要求1-13中任一项所述的方法。

15.一种计算机可读存储介质，其上存储有指令，所述指令在被处理器执行时，使得所述处理器执行如权利要求1-13中任一项所述的方法。