CN111667483B

CN111667483B - 多模态图像的分割模型的训练方法、图像处理方法和装置

Info

Publication number: CN111667483B
Application number: CN202010635872.0A
Authority: CN
Inventors: 边成
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2020-07-03
Filing date: 2020-07-03
Publication date: 2022-08-30
Anticipated expiration: 2040-07-03
Also published as: CN111667483A

Abstract

本公开提供了一种用于多模态图像的分割模型的训练方法、图像处理方法、装置和介质。训练方法包括：利用第一模态的训练图像集训练第一分割模型；对于第二模态的训练图像集中的每个训练图像，分别利用所训练的第一分割模型和第二分割模型进行处理以得到第一语义特征和第二语义特征，其中，第一和第二模态的训练图像集是对多个参考对象分别在第一和第二模态下进行采集得到的图像的集合，第一和第二模态的每个训练图像分别具有第一数量和第二数量的已标注类别，并且第二数量小于第一数量；以及通过将第一语义特征输入到第二分割模型并将第二语义特征输入到所训练的第一分割模型，来对第二分割模型进行训练。

Description

多模态图像的分割模型的训练方法、图像处理方法和装置

技术领域

本公开涉及深度学习领域，并且具体的涉及一种用于多模态图像的分割模型的训练方法、图像处理方法、图像处理装置和计算机可读存储介质。

背景技术

机器学习(Machine Learning,ML)是一门多领域交叉学科，涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科，专门研究计算机怎样模拟或实现人类的学习行为，以获取新的知识或技能，重新组织已有的知识结构使之不断改善自身的性能。机器学习是人工智能的核心，是使计算机具有智能的根本途径，其应用遍及人工智能的各个领域。机器学习和深度学习通常包括人工神经网络、置信网络、强化学习、迁移学习、归纳学习、式教学习等技术。

在深度学习领域中，零样本学习方法(ZSL，Zero-shot Learning)是学术界重要的前沿研究分支之一。尽管大量科研相关人员已经标注了很多标准数据集，但是其类别也是有限的。例如著名的数据集ImageNet，即使包含千万级的数据，也仅能涵盖有限个类别。在现实世界中，类别是无穷的，已经标注的数据仍然只占少数，诸如疾病图像数据难以大量获取并进行标注。因此，研究模型对无标注类别进行有效的学习并进行预测是非常有意义的。现有技术中的零样本学习方法对图像分割的精度有限，并且需采用基于自然语言处理的Word2vec模型，这使得现有方法无法应用于诸如医学图像等的非自然图像的图像分割。

发明内容

为了克服现有技术中存在的缺陷，本公开提出了一种用于多模态图像的分割模型的训练方法、图像处理方法及装置和计算机可读存储介质。

根据本公开的一个方面，提供了一种用于多模态图像的分割模型的训练方法，所述训练方法包括：利用第一模态的训练图像集训练第一分割模型，其中，所述第一模态的训练图像集是对多个参考对象在第一模态下进行采集得到的图像的集合，所述第一模态的训练图像集中的每个训练图像具有第一数量的已标注类别；利用所训练的第一分割模型对第二模态的训练图像集中的每个训练图像进行语义特征提取以得到第一语义特征，并利用第二分割模型对第二模态的训练图像集中的每个训练图像进行语义特征提取以得到第二语义特征，其中，所述第二模态的训练图像集是对多个参考对象在第二模态下进行采集得到的图像的集合，所述第二模态的训练图像集中的每个训练图像具有第二数量的已标注类别，并且所述第二数量小于所述第一数量；以及通过将所述第一语义特征输入到所述第二分割模型并将所述第二语义特征输入到所训练的第一分割模型，来对第一分割模型和第二分割模型进行语义迁移，并基于所述语义迁移对第二分割模型进行训练。

根据本公开的一个示例，其中，所述利用所训练的第一分割模型对第二模态的训练图像集中的每个训练图像进行语义特征提取以得到第一语义特征，并利用第二分割模型对第二模态的训练图像集中的每个训练图像进行语义特征提取以得到第二语义特征包括：利用所训练的第一分割模型对第二模态的训练图像集中的每个训练图像进行语义特征提取以得到第一初始语义特征，并对所述第一初始语义特征进行特征白化以得到所述第一语义特征；以及利用第二分割模型对第二模态的训练图像集中的每个训练图像进行语义特征提取以得到第二初始语义特征，并对所述第二初始语义特征进行特征白化以得到所述第二语义特征。

根据本公开的一个示例，其中，通过第一特征白化层对所述第一初始语义特征进行特征白化，通过第二特征白化层对所述第二初始语义特征进行特征白化，所述第一特征白化层与所述第二特征白化层具有相同的处理参数。

根据本公开的一个示例，所述第一分割模型包括第一分类器，在将所述第二语义特征输入到所训练的第一分割模型之前，所述训练方法还包括：利用所述第一分类器对所述第一语义特征进行分类以生成第一初始空间结构信息；根据所述第一初始空间结构信息和所述第二语义特征生成增强的第二语义特征；以及将所述增强的第二语义特征作为所述第二语义特征。

根据本公开的一个示例，其中，所述根据所述第一初始空间结构信息和所述第二语义特征生成增强的第二语义特征包括：根据所述第一初始空间结构信息和所述第二语义特征生成所述第二语义特征的残差，并对所述第二语义特征的残差与所述第二语义特征进行求和来得到所述增强的第二语义特征。

根据本公开的一个示例，其中，所述第一分割模型包括第一分类器，所述第二分割模型包括第二分类器，所述训练方法还包括：利用第一分类器对所述第二语义特征进行分类以生成第一空间结构信息；利用第二分类器对所述第一语义特征进行分类以生成第二空间结构信息；以及训练第二分割模型，将所述第一空间结构信息和所述第二空间结构信息对齐。

根据本公开的一个示例，其中，所述训练第二分割模型将所述第一空间结构信息和所述第二空间结构信息对齐包括：利用判别器对所述第二分割模型进行对抗训练，将所述第一空间结构信息和所述第二空间结构信息对齐。

根据本公开的一个示例，其中，所述利用第一模态的训练图像集训练第一分割模型包括：对于所述第一模态的训练图像集中的每个训练图像，利用所述第一分割模型对所述训练图像中的每个类别生成预测标签；以及通过利用所述训练图像的第一数量的已标注类别中的每个类别的已标注标签对所述预测标签进行监督，来对所述第一分割模型进行有监督训练。

根据本公开的一个示例，其中，所述对第二分割模型进行训练包括：对于所述第二模态的训练图像集中的每个训练图像，利用所述第二分割模型对所述训练图像中的每个类别生成预测标签；以及通过利用所述训练图像的第二数量的已标注类别中的每个类别的已标注标签对所述预测标签进行监督，来对所述第二分割模型进行有监督训练。

根据本公开的另一方面，提供了一种用于多模态图像的图像处理方法，所述图像处理方法包括：输入多模态图像；确定所述多模态图像是在第一模态还是第二模态下采集得到的图像；在确定所述多模态图像是在第一模态采集得到的图像的情况下，利用第一分割模型对所述多模态图像进行图像分割，以及在确定所述多模态图像是在第二模态采集得到的图像的情况下，利用第二分割模型对所述多模态图像进行图像分割；以及输出所述多模态图像的分割结果，其中，所述第一分割模型和第二分割模型通过以下步骤进行训练：利用第一模态的训练图像集训练第一分割模型，其中，所述第一模态的训练图像集是对多个参考对象在第一模态下进行采集得到的图像的集合，所述第一模态的训练图像集中的每个训练图像具有第一数量的已标注类别；利用所训练的第一分割模型对第二模态的训练图像集中的每个训练图像进行语义特征提取以得到第一语义特征，并利用第二分割模型对第二模态的训练图像集中的每个训练图像进行语义特征提取以得到第二语义特征，其中，所述第二模态的训练图像集是对多个参考对象在第二模态下进行采集得到的图像的集合，所述第二模态的训练图像集中的每个训练图像具有第二数量的已标注类别，并且所述第二数量小于所述第一数量；以及通过将所述第一语义特征输入到所述第二分割模型并将所述第二语义特征输入到所训练的第一分割模型，来对第一分割模型和第二分割模型进行语义迁移，并基于所述语义迁移对第二分割模型进行训练。

根据本公开的一个示例，所述第一分割模型包括第一分类器，在将所述第二语义特征输入到所训练的第一分割模型之前，所述训练方法还包括：利用所第一分类器对所述第一语义特征进行分类以生成第一初始空间结构信息；根据所述第一初始空间结构信息和所述第二语义特征生成增强的第二语义特征；以及将所述增强的第二语义特征作为所述第二语义特征。

根据本公开的另一方面，提供了一种用于多模态图像的图像处理设备，包括：输入单元，被配置为输入多模态图像；确定单元，被配置为确定所述多模态图像是在第一模态还是第二模态下采集得到的图像；分割单元，被配置为在确定所述多模态图像是在第一模态采集得到的图像的情况下，利用第一分割模型对所述多模态图像进行图像分割，以及在确定所述多模态图像是在第二模态采集得到的图像的情况下，利用第二分割模型对所述多模态图像进行图像分割；以及输出单元，被配置为输出所述多模态图像的分割结果，其中，所述图像处理设备还包括训练单元，所述训练单元被配置为：利用第一模态的训练图像集训练第一分割模型，其中，所述第一模态的训练图像集是对多个参考对象在第一模态下进行采集得到的图像的集合，所述第一模态的训练图像集中的每个训练图像具有第一数量的已标注类别；利用所训练的第一分割模型对第二模态的训练图像集中的每个训练图像进行语义特征提取以得到第一语义特征，并利用第二分割模型对第二模态的训练图像集中的每个训练图像进行语义特征提取以得到第二语义特征，其中，所述第二模态的训练图像集是对多个参考对象在第二模态下进行采集得到的图像的集合，所述第二模态的训练图像集中的每个训练图像具有第二数量的已标注类别，并且所述第二数量小于所述第一数量；以及通过将所述第一语义特征输入到所述第二分割模型并将所述第二语义特征输入到所训练的第一分割模型，来对第一分割模型和第二分割模型进行语义迁移，并基于所述语义迁移对第二分割模型进行训练。

根据本公开的另一方面，提供了一种图像处理方法，包括：输入第二模态的待分割图像；利用用于所述第二模态的第二分割模型对所述待分割图像进行图像分割，以得到图像分割结果；以及输出所述图像分割结果，其中，用于特定模态的分割模型通过以下步骤进行训练：利用第一模态的训练图像集训练第一分割模型，其中，所述第一模态的训练图像集是对多个参考对象在第一模态下进行采集得到的图像的集合，所述第一模态的训练图像集中的每个训练图像具有第一数量的已标注类别；利用所训练的第一分割模型对第二模态的训练图像集中的每个训练图像进行语义特征提取以得到第一语义特征，并利用第二分割模型对第二模态的训练图像集中的每个训练图像进行语义特征提取以得到第二语义特征，其中，所述第二模态的训练图像集是对多个参考对象在第二模态下进行采集得到的图像的集合，所述第二模态的训练图像集中的每个训练图像具有第二数量的已标注类别，并且所述第二数量小于所述第一数量；以及通过将所述第一语义特征输入到所述第二分割模型并将所述第二语义特征输入到所训练的第一分割模型，来对第一分割模型和第二分割模型进行语义迁移，并基于所述语义迁移对第二分割模型进行训练。

根据本公开的另一方面，提供了一种图像处理设备，包括：输入单元，被配置为输入第二模态的待分割图像；分割单元，被配置为利用用于所述第二模态的第二分割模型对所述待分割图像进行图像分割，以得到图像分割结果；以及输出单元，被配置为输出所述图像分割结果，其中，所述图像处理设备还包括训练单元，所述训练单元被配置为：利用第一模态的训练图像集训练第一分割模型，其中，所述第一模态的训练图像集是对多个参考对象在第一模态下进行采集得到的图像的集合，所述第一模态的训练图像集中的每个训练图像具有第一数量的已标注类别；利用所训练的第一分割模型对第二模态的训练图像集中的每个训练图像进行语义特征提取以得到第一语义特征，并利用第二分割模型对第二模态的训练图像集中的每个训练图像进行语义特征提取以得到第二语义特征，其中，所述第二模态的训练图像集是对多个参考对象在第二模态下进行采集得到的图像的集合，所述第二模态的训练图像集中的每个训练图像具有第二数量的已标注类别，并且所述第二数量小于所述第一数量；以及通过将所述第一语义特征输入到所述第二分割模型并将所述第二语义特征输入到所训练的第一分割模型，来对第一分割模型和第二分割模型进行语义迁移，并基于所述语义迁移对第二分割模型进行训练。

根据本公开的上述各个方面的用于多模态图像的分割模型的训练方法、图像处理方法、图像处理设备、图像处理装置以及计算机可读存储介质，通过利用具有第一数量的已标注类别的第一模态的训练图像集来训练第一分割模型，并且对于具有小于第一数量的第二数量的已标注类别的第二模态的训练图像集进行第一分割模型和第二分割模型的语义迁移，可以将第一分割模型从第一模态的训练图像集中学习到的知识迁移至第二分割模型，从而使得所训练的第二分割模型对于第二模态的图像能够识别出第一数量的类别，具体地，所训练的第二分割模型不仅能够对处于第二模态的图像中的无标注类别进行分割，而且同时保持对第二模态的图像中的已标注类别的分割的可靠性和准确性。另外，利用所训练的第二分割模型对图像中的无标注类别进行预测，可以减轻操作人员对无标注类别进行标注的负担，在快速获得新标签的同时，可以利用所预测的标签进一步提高模型预测的准确性。

附图说明

通过结合附图对本公开实施例进行更详细的描述，本公开的上述以及其它目的、特征和优势将变得更加明显。附图用来提供对本公开实施例的进一步理解，并且构成说明书的一部分，与本公开实施例一起用于解释本公开，并不构成对本公开的限制。在附图中，相同的参考标号通常代表相同部件或步骤。

图1A是根据本公开实施例的一个示例的人类心脏的CT和MRI多模态图像；

图1B是根据本公开实施例的另一示例的人类心脏的CT和MRI多模态图像；

图2是根据本公开实施例的用于多模态图像的分割模型的训练方法200的流程图；

图3示出了根据本公开实施例的一个示例的特征白化层的原理图；

图4示出了根据本公开实施例的一个示例的语义迁移器的示意图；

图5示出了根据本公开实施例的一个示例的空间注意力模块的示意图；

图6示出了根据本公开实施例的一个示例的空间感知器的示意图；

图7是根据本公开实施例的一个示例的用于多模态图像的分割模型的训练方法700；

图8是根据本公开实施例的用于多模态图像的图像处理方法800的流程图；

图9是根据本公开实施例的用于多模态图像的图像处理设备900的结构示意图；

图10是根据本公开实施例的图像处理方法1000的流程图；

图11是根据本公开实施例的图像处理设备1100的结构示意图；以及

图12是根据本公开实施例的示例性计算设备的架构的示意图。

具体实施方式

下面将结合本公开实施例中的附图，对本公开实施例中的技术方案进行清楚、完整地描述。显然，所描述的实施例仅是本公开一部分的实施例，而不是全部的实施例。基于本公开中的实施例，本领域普通技术人员在无需创造性劳动的前提下所获得的所有其他实施例，都属于本公开保护的范围。

在本公开中，多模态图像(multi-modality image)是指针对相同参考对象利用不同成像原理或者不同成像设备采集得到的图像。例如，利用红外相机和利用光学相机对相同参考对象进行采集得到的图像可以被称为多模态图像。又例如，在医学领域中，对于相同参考对象，利用磁共振成像(Magnetic Resonance Imaging，MRI)采集的MRI图像、利用计算机断层成像(Computed Tomography，CT)采集的CT图像、以及利用正电子发射型计算机断层成像(Positron Emission Computed Tomography，PET)采集的PET图像等可以被称为多模态图像。例如，图1A和图1B分别示出了人类心脏的多模态图像的示例，图1A是根据本公开实施例的一个示例的人类心脏的CT和MRI多模态图像，图1B是根据本公开实施例的另一示例的人类心脏的CT和MRI多模态图像。可以看到，在图1A或图1B中，CT图像和MRI图像中的心脏具有类似的图像结构，但其颜色、形态、纹理等则完全不同。应当理解的是，多模态图像不限于以上示例，并且可以是任意来源于不同成像设备或者基于不同成像原理的相同参考对象的图像。

下面参照图2描述根据本公开实施例的用于多模态图像的分割模型的训练方法。图2是根据本公开实施例的用于多模态图像的分割模型的训练方法200的流程图。

如图2所示，在步骤S210中，利用第一模态的训练图像集训练第一分割模型。第一模态的训练图像集是对多个参考对象在第一模态下进行采集得到的图像的集合。第一模态的训练图像集中的训练图像例如可以为医学图像，例如，第一模态可以是MRI，多个参考对象可以是多个人的某个器官，例如多个人的心脏，则在此情况下，第一模态的训练图像集是利用MRI对多个人的心脏进行采集得到的多个心脏MRI图像的集合。上述以MRI为例描述了第一模态，以多个人的心脏为例描述了多个参考对象，但应当理解的是，本公开不限于此，第一模态也可以是CT、PET等各种其他模态，多个参考对象也可以是多个人的肾脏、多个人的骨骼等各种其他参考对象。这里的第一分割模型例如可以基于卷积神经网络，例如第一分割模型可以为深度卷积全连接条件随机场版本2(DeepLabV2)，但是本公开不限于此，第一分割模型也可以是全卷积网络(FCN)、深度卷积分割网络(SegNet)、精细网络(RefineNet)等其他语义分割模型。

此外，第一模态的训练图像集中的每个训练图像具有第一数量的已标注类别。通常，在一幅图像中可以包括一个或多个类别。例如，在一幅星空图像中可以包括星星、云朵、天空背景等3个类别。又例如，在一幅人的心脏图像中，可以包括升主动脉、左心房血腔、左心室血腔、左心室心肌等4个类别。在本公开中，“标注”是指：针对图像的视觉内容，给图像添加反映其内容的文本特征信息以便计算机可以识别的过程，例如给图像添加分类标签，例如，给上述星空图像的3个类别分别添加“星星”、“云朵”和“天空背景”3个标签。相应地，“已标注类别”是指图像中已经具有对应标签的类别。例如，在第一模态的训练图像集是多个心脏MRI图像的集合的情况下，如果每个训练图像中的所有类别均具有对应的已标注的标签，则每个训练图像具有4个已标注类别，即第一数量为4。虽然本公开以第一数量为4进行了示例说明，但应当理解的是，本公开不限于此，第一数量可以为大于1的任何数值。

根据本公开的一个示例，步骤S210可以包括：对于第一模态的训练图像集中的每个训练图像，利用第一分割模型对该训练图像中的每个类别生成预测标签；以及通过利用训练图像的第一数量的已标注类别中的每个类别的已标注标签对预测标签进行监督，来对第一分割模型进行有监督训练。

有监督训练是机器学习中的一种方法，其通过分析学习已标注的训练样本集中的输入值和已标注标签之间的关系来推断得到模型函数，从而可以实现对新的实例的分析处理。在本公开中，第一模态的训练图像集中的每个训练图像具有第一数量的已标注类别，该第一数量的已标注类别可以用于对第一分割模型进行有监督训练。具体地，首先，利用第一分割模型对每个训练图像中的每个类别生成估计的标签，即预测标签；然后，利用该训练图像中的每个类别的已标注标签对该预测标签进行监督，例如，通过使预测标签和已标注标签之间的损失函数最小，来使得预测标签与已标注标签之间的误差最小，从而使得第一分割模型对第一模态的训练图像的各个类别的分割准确度最优。损失函数例如可以为交叉熵损失函数，但是本公开不限于此，损失函数也可以为绝对误差损失函数(Mean AbsoluteError(MAE)Loss)、平方误差损失函数(Mean Squared Error(MSE)Loss)等。在训练完成第一分割模型之后，可以固定已训练的第一分割模型，即不再对其进行训练或其他处理。

接下来，在步骤S220中，利用所训练的第一分割模型对第二模态的训练图像集中的每个训练图像进行语义特征提取以得到第一语义特征，并利用第二分割模型对第二模态的训练图像集中的每个训练图像进行语义特征提取以得到第二语义特征。第二模态的训练图像集是对多个参考对象在第二模态下进行采集而得到的。第二模态的训练图像集中的训练图像例如可以为医学图像，例如，第二模态可以是CT，多个参考对象可以是多个人的某个器官，例如多个人的心脏，则在此情况下，第二模态的训练图像集是利用CT对多个人的心脏进行采集得到的多个心脏CT图像的集合。上述以CT为例描述了第二模态，以多个人的心脏为例描述了多个参考对象，但应当理解的是，本公开不限于此，第二模态也可以是MRI、PET等各种其他模态，多个参考对象也可以是多个人的肾脏、多个人的骨骼等各种其他参考对象。这里的第二分割模型例如可以基于卷积神经网络，例如第二分割模型可以为DeepLabV2，但是本公开不限于此，第二分割模型也可以是FCN、SegNet、RefineNet等其他语义分割模型。第二分割模型可以与第一分割模型具有相同的网络结构但具有不同的模型参数，或者第二分割模型也可以与第一分割模型具有不同的网络结构。

此外，第二模态的训练图像集中的每个训练图像具有第二数量的已标注类别，并且该第二数量小于上述第一模态的训练图像集中的每个训练图像的已标注类别的第一数量。例如，在第一模态的训练图像集是多个心脏MRI图像的集合的情况下，如果每个第一模态的训练图像中的所有类别均具有对应的已标注的标签，则每个第一模态的训练图像具有4个已标注类别，即第一数量为4；在第二模态的训练图像集是多个心脏CT图像的集合的情况下，如果每个第二模态的训练图像中仅有3个类别具有对应的已标注的标签，例如仅具有“升主动脉”、“左心房血腔”、“左心室血腔”3个标签，则每个第二模态的训练图像具有3个已标注类别，即第二数量为3。也就是说，在该示例中，第一模态的MRI训练图像中的4个类别升主动脉、左心房血腔、左心室血腔和左心室心肌均已被标注，第二模态的CT训练图像则仅标注了升主动脉、左心房血腔和左心室血腔3个类别，左心室心肌类别则未被标注。需要说明的是，虽然这里以第二数量为3进行了示例说明，但本公开不限于此，第二数量可以为大于等于1且小于第一数量的任何数值。例如，如果每个第二模态的训练图像中仅有2个类别具有对应的已标注的标签，例如仅具有“升主动脉”、“左心房血腔”2个标签，则每个第二模态的训练图像具有2个已标注类别，即第二数量为2。另外，在本公开中，语义特征例如可以是描述图像的颜色、纹理、形状及其组合的矩阵。

接下来，在步骤S230中，通过将第一语义特征输入到第二分割模型并将第二语义特征输入到所训练的第一分割模型，来对第一分割模型和第二分割模型进行语义迁移，并基于这种语义迁移对第二分割模型进行训练。例如，可以通过语义迁移器来对第一分割模型和第二分割模型进行语义迁移，图4示出了根据本公开实施例的一个示例的语义迁移器的示意图，如图4所示，语义迁移器可以分别将第一语义特征输入到第二分割模型的第二分类器，并将第二语义特征输入到所训练的第一分割模型的第一分类器。该步骤加强了第二分割模型和所训练的第一分割模型的关联性，使得第二分割模型，或者具体地，第二分割模型的第二分类器能够适应所训练的第一分割模型的第一语义特征。

具体地，虽然利用第一模态的训练图像集训练的第一分割模型对第二模态的训练图像是陌生的，但由于第二模态的训练图像和第一模态的训练图像在结构上的相似性，所训练的第一分割模型可以对第二模态的训练图像进行粗糙预测，特别是可以对第二模态的训练图像中的无标注类别进行粗糙预测，因此，通过这种语义迁移，第二分割模型可以从第一语义特征中获得第一分割模型对第二模态的训练图像的迁移知识，并利用该迁移知识来训练第二分割模型，使得训练后的第二分割模型能够对第二模态的训练图像中的无标注类别进行分割。由此，所训练的第二分割模型不仅能识别第二训练图像集中的第二数量的已标注类别，还能识别第二训练图像集中未标注的但第一训练图像集中已标注的类别，即，所训练的第二分割模型能识别出第一数量的类别。

下面将具体地描述根据本公开实施例的用于多模态图像的分割模型的训练方法200的步骤S220的操作。

根据本公开实施例的一个示例，步骤S220可以包括：利用所训练的第一分割模型对第二模态的训练图像集中的每个训练图像进行语义特征提取以得到第一初始语义特征，并对第一初始语义特征进行特征白化以得到第一语义特征；以及利用第二分割模型对第二模态的训练图像集中的每个训练图像进行语义特征提取以得到第二初始语义特征，并对第二初始语义特征进行特征白化以得到第二语义特征。具体地，根据本公式实施例的一个示例，所训练的第一分割模型可以通过第一特征白化层对第一初始语义特征进行特征白化，并且第二分割模型可以通过第二特征白化层对第二初始语义特征进行特征白化。

根据本公开实施例的一个示例，第一分割模型和第二分割模型还可以分别包括对输入的训练图像的视觉特征进行多次计算的第一残差块和第二残差块，并且第一特征白化层和第二特征白化层可以分别插入到第一分割模型的第一残差块的末尾和第二分割模型的第二残差块的末尾，其中，第一残差块和第二残差块可以分别包括多个子块，第一残差块的多个子块和第二残差块的多个子块例如可以分别构成残差神经网络。在此示例中，利用所训练的第一分割模型的第一残差块通过对第二模态的训练图像集中的每个训练图像的视觉特征进行多次计算以得到第一初始语义特征，并且利用第二分割模型的第二残差块通过对第二模态的训练图像集中的每个训练图像进行多次计算以得到第二初始语义特征，其中，训练图像的视觉特征例如是通过对训练图像进行卷积计算得到的。

下面结合图3中的具体示例来描述第一特征白化层和第二特征白化层。图3示出了根据本公开实施例的一个示例的特征白化层的原理图。如图3所示，特征白化层可以包括两个服从高斯分布的变换系数γ和β，其中，γ～N(1,softplus(θ_γ))，β～N(0,softplus(θ_β))，即γ和β分别服从期望为1和0、方差为softplus(θ_γ)和softplus(θ_β)的高斯分布；θ_γ和θ_β为两个超参数，即在训练开始之前设置的参数，并且θ_γ∈R^C×1×1，θ_β∈R^C×1×1，即θ_γ和θ_β分别是C×1×1维的实数向量；softplus()是用于引入非线性元素的激活函数，可以表示为softplus(x)＝ln(1+e^x)。假设第一残差块或第二残差块所输出的初始语义特征为Z_c,h,w，其中，c、h和w为特征的各个维度的大小，则初始语义特征Z_c,h,w在经过如图3所示的特征白化层时将执行运算：

其中γ和β是分别在其所服从的高斯分布中随机采样得到的数值。根据本公开的一个示例，第一特征白化层和第二特征白化层具有相同的处理参数，也就是说，第一特征白化层和第二特征白化层可以使用相同的变换系数γ和β，从而第一语义特征和第二语义特征具有一致的变换，使得训练后的第二分割模型具有较强的泛化能力。另外，根据本公开实施例的一个示例，特征白化层的超参数，例如，θ_γ和θ_β，可以在第二分割模型的训练过程中一起被训练，但超参数的更新并不会影响已固定的第一分割模型，因为第一特征白化层的超参数可以认为是被额外引入已固定的第一分割模型的参数。另外，需要说明的是，在此示例中，以第一特征白化层和第二特征白化层具有两个变换系数γ和β为例进行了说明，但是本公开不限于此，第一特征白化层和第二特征白化层也可以具有其他合适数量的其他处理参数。

在本公开中，通过特征白化层对语义特征进行线性变换来模拟不同情况下的特征分布，可以使训练后的第二分割模型能够适应语义特征的各种可能的扭曲、变形，增强了模型的泛化能力。

根据本公开实施例，还可以利用第一分割模型生成的空间结构信息来对第二分割模型生成的第二语义特征进行空间注意力增强。

具体地，根据本公开实施例的一个示例，在将第二语义特征输入到所训练的第一分割模型之前，训练方法200还包括：利用所训练的第一分割模型的第一分类器对第一语义特征进行分类以生成第一初始空间结构信息；根据第一初始空间结构信息和第二语义特征生成增强的第二语义特征；以及将增强的第二语义特征作为第二语义特征。这里，空间结构信息可以是已经按照不同类别进行分类的图像，即已分割的图像。例如，在第二模态的训练图像集为多个心脏CT图像的集合，且其中每个CT图像具有4个自然类别(其中3个类别已标注，即第二数量为3)时，假定第一分割模型对每个CT图像进行语义特征提取所得到的第一语义特征的大小为128×256×256，其中128为特征维度，256×256为原图像的尺寸，则第一分类器对第一语义特征进行分类得到的第一初始空间结构信息可以为4×256×256，其中4表示类别数。

根据本公开实施例的一个示例，根据第一初始空间结构信息和第二语义特征生成增强的第二语义特征可以包括：根据第一初始空间结构信息和第二语义特征生成第二语义特征的残差，并对第二语义特征的残差与第二语义特征进行求和来得到增强的第二语义特征。例如，可以利用空间注意力模块来进行上述操作。

下面结合图5来描述利用空间注意力模块生成增强的第二语义特征的具体示例。图5示出了根据本公开实施例的一个示例的空间注意力模块的示意图，如图5所示，空间注意力模块可以包括多个卷积层和一个残差求和操作。在该示例中，假定第一分类器对第一语义特征进行分类所生成的第一初始空间结构信息为MA并且第二语义特征为FB，利用softmax函数对MA进行处理得到softmax(MA)，其中，softmax函数为归一化指数函数，它可以将任意向量中的元素的范围压缩到(0，1]之间，并且所有元素的和为1；然后，将softmax(MA)与第二语义特征FB逐像素相乘，即softmax(MA)*FB，并将其经过多个卷积层的处理，例如，经过4个卷积层的处理，则可以得到第二语义特征的残差Conv(Conv(Conv(Conv(softmax(MA)*FB))))；然后，将该残差与第二语义特征FB相加即得到增强的第二语义特征FB’＝Conv(Conv(Conv(Conv(softmax(MA)*FB))))+FB。

在得到增强的第二语义特征之后，将该增强的第二语义特征作为第二语义特征。也就是说，此时，在上述步骤S230中，通过将第一语义特征输入到第二分割模型的第二分类器，并将增强的第二语义特征输入到所训练的第一分割模型的第一分类器，来对第一分割模型和第二分割模型进行语义迁移，并基于这种语义迁移对第二分割模型进行训练。

通过利用第一语义特征和增强的第二语义特征对第二分割模型进行交叉训练，能够进一步增强所训练的第一分割模型和第二分割模型的关联性，并且增强了训练后的第二分割模型的泛化能力。

根据本公开实施例，还包括通过将第一分割模型和第二分割模型各自生成的空间结构信息进行对齐来对第二分割模型进行训练。

具体地，根据本公开实施例的一个示例，训练方法200还包括：利用所训练的第一分割模型的第一分类器对第二语义特征进行分类以生成第一空间结构信息；利用第二分割模型的第二分类器对第一语义特征进行分类以生成第二空间结构信息；以及训练第二分割模型，将第一空间结构信息和第二空间结构信息对齐。由于在上述步骤S230中，将第一语义特征输入到了第二分割模型，并且将第二语义特征输入到了所训练的第一分割模型，因此，这里利用所训练的第一分割模型的第一分类器对第二语义特征进行分类，并且利用第二分割模型的第二分类器对第一语义特征进行分类。第一空间结构信息和第二空间结构信息对齐例如可以是第一空间结构信息和第二空间结构信息的分布相似，或者说第一空间结构信息和第二空间结构信息之间的差小于预定阈值。

根据本公开实施例的一个示例，可以利用判别器对第二分割模型进行对抗训练，将第一空间结构信息和第二空间结构信息对齐。例如，在训练过程中，判别器可以反复判断第一空间结构信息是来自第一分割模型还是第二分割模型，判断第二空间结构信息是来自第一分割模型第二分割模型，并输出判断结果，不断调整模型的训练参数，直到判别器无法区分第一空间结构信息或者第二空间结构信息是来自第一分割模型还是第二分割模型，此时表明第一空间结构信息和第二空间结构信息之间的差小于预定阈值，即第一空间结构信息和第二空间结构信息对齐。此时，第二空间结构信息中的已标注类别部分与第一空间结构信息中的已标注类别部分是对齐的，并且相应地，第二空间结构信息中的无标注类别部分与第一空间结构信息中的无标注类别部分也是对齐的，从而第二空间结构信息获得了第一空间结构信息中的关于无标注类别的知识，即此时的第二分割模型能够对第二模态图像中的无标注类别实现分割。在本公开中，例如，判别器可以和第二分割模型构成生成式对抗网络(Generative Adversarial Network,GAN)，例如块生成式对抗网络(PatchGAN)，其中，第二分割模型作为GAN的生成器，判别器作为GAN的判别器。应当理解的是，判别器和第二分割模型也可以构成其他类型的GAN。判别器的损失函数可以采用交叉熵损失函数，但是本公开不限于此，判别器的损失函数也可以为MSE Loss、MAE Loss等。

根据本公开实施例的一个示例，判别器可以通过包括多个卷积层的空间感知器来实现，如图6所示。图6示出了根据本公开实施例的一个示例的空间感知器的示意图，在图6中，空间感知器包括两个卷积层Conv1和Conv2，这两个卷积层用于判断第一空间结构信息是来自第一分割模型还是第二分割模型，判断第二空间结构信息是来自第一分割模型第二分割模型，并输出真(TRUE)或者假(FALSE)的判断结果，不断调整模型的训练参数，直到它们无法区分第一空间结构信息或者第二空间结构信息是来自第一分割模型还是第二分割模型，此时表明第一空间结构信息和第二空间结构信息对齐。应当理解的是，图6中所示的空间感知器仅仅是判别器的一个示例，但是本公开不限于此，判别器还可以采用其他合适的形式。

通过对齐第一空间结构信息和第二空间结构信息来进一步训练第二分割模型，第二分割模型能够从第一空间结构信息中获得第一分割模型对第二模态的训练图像中的无标注类别的知识，使得训练后的第二分割模型能够对第二模态的训练图像中的无标注类别进行更精确的分割。

此外，根据本公开实施例的一个示例，对第二分割模型进行训练还可以包括：对于第二模态的训练图像集中的每个训练图像，利用第二分割模型对训练图像中的每个类别生成预测标签；以及通过利用训练图像的第二数量的已标注类别中的每个类别的已标注标签对预测标签进行监督，来对第二分割模型进行有监督训练。在本公开中，第二模态的训练图像集中的每个训练图像具有第二数量的已标注类别，该第二数量的已标注类别可以用于对第二分割模型进行有监督训练。具体地，首先，利用第二分割模型对每个训练图像中的每个类别生成估计的标签，即预测标签；然后，利用该训练图像中的每个类别的已标注标签对该预测标签进行监督，例如，通过使预测标签和已标注标签之间的损失函数最小，来使得预测标签与已标注标签之间的误差最小，从而在使得第二分割模型能够对第二模态的训练图像中的无标注类别进行分割的同时，加强第二分割模型对第二模态的训练图像中的已标注类别的分割准确度。

需要说明的是，在上述示例中，步骤S210可以仅进行一次，即对第一分割模型可以仅进行一次训练，然后固定第一分割模型；步骤S220和S230可以进行多次，即对第二分割模型进行多次训练，在此过程中，通过不断调整各种训练参数来获得最优的第二分割模型。可以采用优化器来更新和计算影响模型训练的训练参数，例如学习率、权重衰减系数等，例如第一分割模型和第二分割模型可以采用SGD优化器，判别器可以采用亚当(Adam)优化器，但本公开不限于此，第一、第二分割模型以及判别器也可以采用诸如批量梯度下降法(BGD)、牛顿加速梯度(NAG)等其他机器学习领域中常用的优化器。

根据本公开上述实施例的用于多模态图像的分割模型的训练方法，通过利用具有第一数量的已标注类别的第一模态的训练图像集来训练第一分割模型，并且对于具有小于第一数量的第二数量的已标注类别的第二模态的训练图像集进行第一分割模型和第二分割模型的语义迁移，可以将第一分割模型从第一模态的训练图像集中学习到的知识迁移至第二分割模型，从而使得训练后的第二分割模型对于第二模态的图像能够识别出第一数量的类别，具体地，训练后的第二分割模型不仅能够对处于第二模态的图像中的无标注类别进行分割，而且同时保持对第二模态的图像中的已标注类别的分割的可靠性和准确性。另外，利用所训练的第二分割模型对图像中的无标注类别进行预测，可以减轻操作人员对无标注类别进行标注的负担，在快速获得新标签的同时，可以利用所预测的标签进一步提高模型预测的准确性。

基于本公开上述实施例的用于多模态图像的分割模型的训练方法的框架名称例如可以为ZSXNet(Zero-Shot Cross Networks)，其可以利用多模态图像的特性，对多模态图像中未标注过的类别实现零样本分割。根据本公开的ZSXNet能够解决现有的语义分割模型中只能分割出训练图像集中已标注的类别的信息，而无法识别新的训练集中未标注过的类别的信息的问题。

下面以医疗多模态图像为例来描述根据本公开实施例的用于多模态图像的分割模型的训练方法。图7是根据本公开实施例的一个示例的用于多模态图像的分割模型的训练方法700。在该示例中，第一模态的训练图像集为心脏MRI图像集，第二模态的训练图像集为心脏CT图像集。每个MRI或CT心脏图像中至少具有升主动脉、左心房血腔、左心室血腔和左心室心肌等4个自然类别，其中，每个MRI图像中的4个类别均为已标注类别，每个CT图像中则仅有3个已标注类别，而左心室心肌类别则未标注。如图7所示，在步骤S710中，将MRI图像集输入到第一分割模型，利用每个MRI图像中的4个已标注类别对第一分割模型进行有监督训练。在训练完成后，固定第一分割模型。此时，训练后的第一分割模型可以识别MRI图像中的所有4个类别，但对CT图像集中的类别则是陌生的。

接下来，在步骤S720中，将CT图像集分别输入到所训练的第一分割模型和第二分割模型中。所训练的第一分割模型通过对每个CT图像进行卷积运算得到视觉特征，然后利用第一残差块对视觉特征进行多次计算，并利用第一特征白化层对第一残差块的输出进行特征白化以得到第一语义特征；第二分割模型通过对每个CT图像进行卷积运算得到视觉特征，然后利用第二残差块对视觉特征进行多次计算，并利用第二特征白化层对第二残差块的输出进行特征白化以得到第二语义特征，其中第一特征白化层和第二特征白化层共享相同的变换系数。空间注意力模块根据第一分类器对第一语义特征分类得到的第一初始空间结构信息和第二语义特征生成增强的第二语义特征。虽然训练后的第一分割模型对CT图像集中的类别是陌生的，但由于作为心脏的多模态图像的MRI图像和CT图像在结构上的相似性，训练后的第一分割模型能够对CT图像中的类别进行粗糙预测，将其预测结果迁移至第二分割模型，可以利用迁移知识来训练第二分割模型。利用语义迁移器将第一语义特征输入到第二分割模型的第二分类器，并将增强的第二语义特征输入到第一分割模型的第一分类器，并利用第一分类器和第二分类器分别对增强的第二语义特征和第一语义特征进行分类以生成第一空间结构信息和第二空间结构信息。随后，通过空间感知器对第一空间结构信息和第二空间结构信息进行对齐。同时，在上述过程中，使用每个CT图像中的3个已标注类别，利用损失函数(例如交叉熵损失函数)对第二分割模型进行有监督训练，以加强第二分割模型对每个CT图像中的3个已标注类别的分割准确度。

重复上述步骤S720，在此过程中，可以不断调整各种训练参数来优化第二分割模型。例如，可以采用SGD优化器来更新和计算影响模型训练的训练参数，例如学习率、权重衰减系数、特征白化层的超参数等，例如，第一分割模型和第二分割模型的学习率可以设置为2.5e-4，空间感知器的学习率可以设置为1e-4，权重衰减系数可以设置为1e-5，特征白化层的超参数θ_γ和θ_β为可以分别设置为0.3和0.5。在训练完成后，第二分割模型在保持对CT图像中的3个已标注类别的分割的可靠性和准确性的同时，还通过从第一分割模型获得的对于CT图像中的无标注类别的知识，实现了对CT图像中的无标注类别的分割。另外，在根据本公开实施例的分割模型的训练方法的应用中，利用所训练的第二分割模型对图像中的无标注类别进行预测，可以减轻操作人员对无标注类别进行标注的负担，在快速获得新标签的同时，利用所预测的标签进一步提高模型预测的准确性。

下面参照图8描述根据本公开实施例的用于多模态图像的图像处理方法。图8是根据本公开实施例的用于多模态图像的图像处理方法800的流程图。如图8所示，在步骤S810中，输入多模态图像。接着，在步骤S820中，确定多模态图像是在第一模态还是第二模态下采集得到的图像。例如，可以通过读取输入的多模态图像中包括的图像头信息，来确定该多模态图像是在第一模态还是第二模态下采集得到的图像。又例如，可以通过分析输入的多模态图像的像素特征，来确定该多模态图像是在第一模态还是第二模态下采集得到的图像。例如，这里的第一模态可以是上面提到的MRI，第二模态可以是上面提到的CT，则在此情况下，如果确定输入的多模态图像为MRI图像，则该多模态图像为第一模态的图像；如果确定输入的多模态图像为CT图像，则该多模态图像为第二模态的图像。

接着，在步骤S830中，在步骤S820中确定多模态图像是在第一模态采集得到的图像的情况下，利用第一分割模型对多模态图像进行图像分割，以及在步骤S820中确定多模态图像是在第二模态采集得到的图像的情况下，利用第二分割模型对多模态图像进行图像分割。

其中，第一分割模型和第二分割模型可以是通过以下步骤进行训练得到的：利用第一模态的训练图像集训练第一分割模型，其中，第一模态的训练图像集是对多个参考对象在第一模态下进行采集得到的图像的集合，第一模态的训练图像集中的每个训练图像具有第一数量的已标注类别；利用所训练的第一分割模型对第二模态的训练图像集中的每个训练图像进行语义特征提取以得到第一语义特征，并利用第二分割模型对第二模态的训练图像集中的每个训练图像进行语义特征提取以得到第二语义特征，其中，第二模态的训练图像集是对多个参考对象在第二模态下进行采集得到的图像的集合，第二模态的训练图像集中的每个训练图像具有第二数量的已标注类别，并且第二数量小于第一数量；以及通过将第一语义特征输入到第二分割模型并将第二语义特征输入到所训练的第一分割模型，来对第一分割模型和第二分割模型进行语义迁移，并基于语义迁移对第二分割模型进行训练。由于第一分割模型和第二分割模型的训练方法与上文参照图2描述的训练方法200的部分细节相同，这里省略对相同内容的重复描述。

例如，在第一模态的训练图像集是多个心脏MRI图像的集合的情况下，如果每个第一模态的训练图像中的所有类别均具有对应的已标注的标签，则每个第一模态的训练图像具有4个已标注类别，即第一数量为4；在第二模态的训练图像集是多个心脏CT图像的集合的情况下，如果每个第二模态的训练图像中仅有3个类别具有对应的已标注的标签，例如仅具有“升主动脉”、“左心房血腔”、“左心室血腔”3个标签，则每个第二模态的训练图像具有3个已标注类别，即第二数量为3。需要说明的是，虽然这里以第二数量为3进行了示例说明，但本公开不限于此，第二数量可以为大于等于1且小于第一数量的任何数值。

根据本公开实施例的一个示例，利用所训练的第一分割模型对第二模态的训练图像集中的每个训练图像进行语义特征提取以得到第一语义特征，并利用第二分割模型对第二模态的训练图像集中的每个训练图像进行语义特征提取以得到第二语义特征可以包括：利用所训练的第一分割模型对第二模态的训练图像集中的每个训练图像进行语义特征提取以得到第一初始语义特征，并对第一初始语义特征进行特征白化以得到第一语义特征；以及利用第二分割模型对第二模态的训练图像集中的每个训练图像进行语义特征提取以得到第二初始语义特征，并对第二初始语义特征进行特征白化以得到第二语义特征。具体地，根据本公式实施例的一个示例，所训练的第一分割模型可以通过第一特征白化层对第一初始语义特征进行特征白化，并且第二分割模型可以通过第二特征白化层对第二初始语义特征进行特征白化。

接下来，通过将第一语义特征输入到第二分割模型并将第二语义特征输入到所训练的第一分割模型，来对第一分割模型和第二分割模型进行语义迁移，并基于这种语义迁移对第二分割模型进行训练。例如，可以通过语义迁移器来对第一分割模型和第二分割模型进行语义迁移，如图4所示，语义迁移器可以分别将第一语义特征输入到第二分割模型的第二分类器，并将第二语义特征输入到所训练的第一分割模型的第一分类器。该步骤加强了第二分割模型和所训练的第一分割模型的关联性，使得第二分割模型，或者具体地，第二分割模型的第二分类器能够适应所训练的第一分割模型的第一语义特征。

具体地，虽然利用第一模态的训练图像集训练的第一分割模型对第二模态的训练图像是陌生的，但由于第二模态的训练图像和第一模态的训练图像在结构上的相似性，所训练的第一分割模型可以对第二模态的训练图像进行粗糙预测，特别是可以对第二模态的训练图像中的无标注类别进行粗糙预测，因此，通过这种语义迁移，第二分割模型可以从第一语义特征中获得第一分割模型对第二模态的训练图像的迁移知识，并利用该迁移知识来训练第二分割模型，使得训练后的第二分割模型能够对第二模态的训练图像中的无标注类别进行分割。

根据本公开实施例的一个示例，在将第二语义特征输入到所训练的第一分割模型之前，训练方法还包括：利用所训练的第一分割模型的第一分类器对第一语义特征进行分类以生成第一初始空间结构信息；根据第一初始空间结构信息和第二语义特征生成增强的第二语义特征；以及将增强的第二语义特征作为第二语义特征。

根据本公开实施例的一个示例，根据第一初始空间结构信息和第二语义特征生成增强的第二语义特征可以包括：根据第一初始空间结构信息和第二语义特征生成第二语义特征的残差，并对第二语义特征的残差与第二语义特征进行求和来得到增强的第二语义特征。例如，可以利用空间注意力模块来进行上述操作。在得到增强的第二语义特征之后，将该增强的第二语义特征作为第二语义特征。也就是说，此时，通过将第一语义特征输入到第二分割模型的第二分类器，并将增强的第二语义特征输入到所训练的第一分割模型的第一分类器，来对第一分割模型和第二分割模型进行语义迁移，并基于这种语义迁移对第二分割模型进行训练。

根据本公开实施例的一个示例，训练方法还包括：利用所训练的第一分割模型的第一分类器对第二语义特征进行分类以生成第一空间结构信息；利用第二分割模型的第二分类器对第一语义特征进行分类以生成第二空间结构信息；以及训练第二分割模型，将第一空间结构信息和第二空间结构信息对齐。由于在上述步骤中，将第一语义特征输入到了第二分割模型，并且将第二语义特征输入到了所训练的第一分割模型，因此，这里利用所训练的第一分割模型的第一分类器对第二语义特征进行分类，并且利用第二分割模型的第二分类器对第一语义特征进行分类。第一空间结构信息和第二空间结构信息对齐例如可以是第一空间结构信息和第二空间结构信息的分布相似，或者说第一空间结构信息和第二空间结构信息之间的差小于预定阈值。

接着，在步骤S840中，输出多模态图像的分割结果。在分割后的多模态图像中，图像的每个类别均具有对应的预测标签。

根据上述实施例的用于多模态图像的图像处理方法，通过确定输入的多模态图像是在第一模态还是第二模态下采集得到的图像，并利用对应的第一分割模型或者第二分割模型，既可以对第一模态的图像进行图像分割，也可以对第二模态的图像进行图像分割，并且对于第二模态的图像能够识别出第一数量的类别，具体地，不仅能够对第二模态的图像中的无标注类别进行分割，而且同时保持对第二模态的图像中的已标注类别的分割的可靠性和准确性。另外，根据本公开实施例的用于多模态图像的图像处理方法，利用所训练的第二分割模型对图像中的无标注类别进行预测，可以减轻操作人员对无标注类别进行标注的负担，在快速获得新标签的同时，可以利用所预测的标签进一步提高模型预测的准确性。

下面参照图9描述本公开实施例的用于多模态图像的图像处理设备。图9是根据本公开实施例的用于多模态图像的图像处理设备900的结构示意图。由于图像处理设备900的功能与在上文中参照图8描述的方法的细节相同，因此在这里为了简单起见，省略对相同内容的详细描述。如图9所示，图像处理设备900包括：输入单元910，被配置为输入多模态图像；确定单元920，被配置为确定多模态图像是在第一模态还是第二模态下采集得到的图像；分割单元930，被配置为在确定多模态图像是在第一模态采集得到的图像的情况下，利用第一分割模型对多模态图像进行图像分割，以及在确定多模态图像是在第二模态采集得到的图像的情况下，利用第二分割模型对多模态图像进行图像分割；以及输出单元940，被配置为输出多模态图像的分割结果。

根据本公开实施例的一个示例，例如，确定单元920可以通过读取输入的多模态图像中包括的图像头信息，来确定该多模态图像是在第一模态还是第二模态下采集得到的图像。例如，确定单元920可以通过分析输入的多模态图像的像素特征，来确定该多模态图像是在第一模态还是第二模态下采集得到的图像。例如，这里的第一模态可以是上面提到的MRI，第二模态可以是上面提到的CT，则如果确定输入的多模态图像为MRI图像，则该多模态图像为第一模态的图像；如果确定输入的多模态图像为CT图像，则该多模态图像为第二模态的图像。

接着，根据确定单元920所确定的结果，分割单元930利用第一分割模型或者第二分割模型对多模态图像进行图像分割。如果确定单元920确定输入的多模态图像为第一模态的图像，则分割单元930利用第一分割模型对该多模态图像进行分割；如果确定单元920确定输入的多模态图像为第二模态的图像，则分割单元930利用第二分割模型对该多模态图像进行分割。

此外，根据本公开实施例的一个示例，图像处理设备还包括训练单元950。除了这五个单元以外，图像处理设备900还可以包括其他部件，然而，由于这些部件与本公开实施例的内容无关，因此在这里省略其图示和描述。训练单元950被配置为：利用第一模态的训练图像集训练第一分割模型，其中，第一模态的训练图像集是对多个参考对象在第一模态下进行采集得到的图像的集合，第一模态的训练图像集中的每个训练图像具有第一数量的已标注类别；利用所训练的第一分割模型对第二模态的训练图像集中的每个训练图像进行语义特征提取以得到第一语义特征，并利用第二分割模型对第二模态的训练图像集中的每个训练图像进行语义特征提取以得到第二语义特征，其中，第二模态的训练图像集是对多个参考对象在第二模态下进行采集得到的图像的集合，第二模态的训练图像集中的每个训练图像具有第二数量的已标注类别，并且第二数量小于第一数量；以及通过将第一语义特征输入到第二分割模型并将第二语义特征输入到所训练的第一分割模型，来对第一分割模型和第二分割模型进行语义迁移，并基于语义迁移对第二分割模型进行训练。

根据本公开实施例的一个示例，训练单元950还被配置为：利用所训练的第一分割模型对第二模态的训练图像集中的每个训练图像进行语义特征提取以得到第一初始语义特征，并对第一初始语义特征进行特征白化以得到第一语义特征；以及利用第二分割模型对第二模态的训练图像集中的每个训练图像进行语义特征提取以得到第二初始语义特征，并对第二初始语义特征进行特征白化以得到第二语义特征。具体地，根据本公式实施例的一个示例，所训练的第一分割模型可以通过第一特征白化层对第一初始语义特征进行特征白化，并且第二分割模型可以通过第二特征白化层对第二初始语义特征进行特征白化。

根据本公开实施例的一个示例，在将第二语义特征输入到所训练的第一分割模型之前，训练单元950还被配置为：利用所训练的第一分割模型的第一分类器对第一语义特征进行分类以生成第一初始空间结构信息；根据第一初始空间结构信息和第二语义特征生成增强的第二语义特征；以及将增强的第二语义特征作为第二语义特征。

根据本公开实施例的一个示例，训练单元950还被配置为：利用所训练的第一分割模型的第一分类器对第二语义特征进行分类以生成第一空间结构信息；利用第二分割模型的第二分类器对第一语义特征进行分类以生成第二空间结构信息；以及训练第二分割模型，将第一空间结构信息和第二空间结构信息对齐。由于在上述步骤中，将第一语义特征输入到了第二分割模型，并且将第二语义特征输入到了所训练的第一分割模型，因此，这里利用所训练的第一分割模型的第一分类器对第二语义特征进行分类，并且利用第二分割模型的第二分类器对第一语义特征进行分类。第一空间结构信息和第二空间结构信息对齐例如可以是第一空间结构信息和第二空间结构信息的分布相似，或者说第一空间结构信息和第二空间结构信息之间的差小于预定阈值。

此外，根据本公开实施例的一个示例，训练单元950还被配置为：对于第二模态的训练图像集中的每个训练图像，利用第二分割模型对训练图像中的每个类别生成预测标签；以及通过利用训练图像的第二数量的已标注类别中的每个类别的已标注标签对预测标签进行监督，来对第二分割模型进行有监督训练。在本公开中，第二模态的训练图像集中的每个训练图像具有第二数量的已标注类别，该第二数量的已标注类别可以用于对第二分割模型进行有监督训练。具体地，首先，利用第二分割模型对每个训练图像中的每个类别生成估计的标签，即预测标签；然后，利用该训练图像中的每个类别的已标注标签对该预测标签进行监督，例如，通过使预测标签和已标注标签之间的损失函数最小，来使得预测标签与已标注标签之间的误差最小，从而在使得第二分割模型能够对第二模态的训练图像中的无标注类别进行分割的同时，加强第二分割模型对第二模态的训练图像中的已标注类别的分割准确度。

根据上述实施例的用于多模态图像的图像处理设备，通过确定输入的多模态图像是在第一模态还是第二模态下采集得到的图像，并利用对应的第一分割模型或者第二分割模型，既可以对第一模态的图像进行图像分割，也可以对第二模态的图像进行图像分割，并且对于第二模态的图像能够识别出第一数量的类别，具体地，不仅能够对第二模态的图像中的无标注类别进行分割，而且同时保持对第二模态的图像中的已标注类别的分割的可靠性和准确性。另外，根据本公开实施例的用于多模态图像的图像处理方法，利用所训练的第二分割模型对图像中的无标注类别进行预测，可以减轻操作人员对无标注类别进行标注的负担，在快速获得新标签的同时，可以利用所预测的标签进一步提高模型预测的准确性。

此外，根据本公开的一个实施例，利用根据本公开上述实施例的用于多模态图像的分割模型的训练方法200训练的第一分割模型和第二分割模型也可以单独应用。例如，所训练的第二分割模型可以单独应用于图像处理，而不必与第一分割模型一起应用。下面参照图10描述根据本公开实施例的图像处理方法。图10示出了根据本公开实施例的图像处理方法1000的流程图。如图10所示，在步骤S1010中，输入第二模态的待分割图像。接着，在步骤S1020中，利用用于第二模态的第二分割模型对待分割图像进行图像分割，以得到图像分割结果。其中，用于特定模态的分割模型通过以下步骤进行训练：利用第一模态的训练图像集训练第一分割模型，其中，第一模态的训练图像集是对多个参考对象在第一模态下进行采集得到的图像的集合，第一模态的训练图像集中的每个训练图像具有第一数量的已标注类别；利用所训练的第一分割模型对第二模态的训练图像集中的每个训练图像进行语义特征提取以得到第一语义特征，并利用第二分割模型对第二模态的训练图像集中的每个训练图像进行语义特征提取以得到第二语义特征，其中，第二模态的训练图像集是对多个参考对象在第二模态下进行采集得到的图像的集合，第二模态的训练图像集中的每个训练图像具有第二数量的已标注类别，并且第二数量小于第一数量；以及通过将第一语义特征输入到第二分割模型并将第二语义特征输入到所训练的第一分割模型，来对第一分割模型和第二分割模型进行语义迁移，并基于语义迁移对第二分割模型进行训练。由于图像处理方法1000中的分割模型与上文参照图2-9描述的分割模型的训练方法的细节相同，因此在这里为了简单起见，省略对相同内容的详细描述。最后，在步骤S1030中，输出图像分割结果。

下面参照图11描述根据本公开实施例的图像处理设备。图11示出了根据本公开实施例的图像处理设备1100的结构示意图。如图11所示，图像处理设备1100包括：输入单元1110，被配置为输入第二模态的待分割图像；分割单元1120，被配置为利用用于第二模态的第二分割模型对待分割图像进行图像分割，以得到图像分割结果；以及输出单元1130，被配置为输出图像分割结果。此外，图像处理设备1100还可以包括训练单元1140，被配置为：利用第一模态的训练图像集训练第一分割模型，其中，第一模态的训练图像集是对多个参考对象在第一模态下进行采集得到的图像的集合，第一模态的训练图像集中的每个训练图像具有第一数量的已标注类别；利用所训练的第一分割模型对第二模态的训练图像集中的每个训练图像进行语义特征提取以得到第一语义特征，并利用第二分割模型对第二模态的训练图像集中的每个训练图像进行语义特征提取以得到第二语义特征，其中，第二模态的训练图像集是对多个参考对象在第二模态下进行采集得到的图像的集合，第二模态的训练图像集中的每个训练图像具有第二数量的已标注类别，并且第二数量小于第一数量；以及通过将第一语义特征输入到第二分割模型并将第二语义特征输入到所训练的第一分割模型，来对第一分割模型和第二分割模型进行语义迁移，并基于语义迁移对第二分割模型进行训练。由于图像处理设备1100中的训练单元1140的功能与上文参照图9描述的训练单元950的细节相同，因此在这里为了简单起见，省略对相同内容的详细描述。此外，除了这四个单元以外，图像处理设备1100还可以包括其他部件，然而，由于这些部件与本公开实施例的内容无关，因此在这里省略其图示和描述。

此外，根据本公开实施例的设备(例如，图像处理设备等)也可以借助于图12所示的示例性计算设备的架构来实现。图12示出了根据本公开实施例的示例性计算设备的架构的示意图。如图12所示，计算设备1200可以包括总线1210、一个或多个CPU 1220、只读存储器(ROM)1230、随机存取存储器(RAM)1240、连接到网络的通信端口1250、输入/输出组件1260、硬盘1270等。计算设备1200中的存储设备，例如ROM 1230或硬盘1270可以存储计算机处理和/或通信使用的各种数据或文件以及CPU所执行的程序指令。计算设备1200还可以包括用户界面1280。当然，图12所示的架构只是示例性的，在实现不同的设备时，根据实际需要，可以省略图12示出的计算设备中的一个或多个组件。

本公开的实施例也可以被实现为计算机可读存储介质。根据本公开实施例的计算机可读存储介质上存储有计算机可读指令。当计算机可读指令由处理器运行时，可以执行参照以上附图描述的根据本公开实施例的方法。计算机可读存储介质包括但不限于例如易失性存储器和/或非易失性存储器。易失性存储器例如可以包括随机存取存储器(RAM)和/或高速缓冲存储器(cache)等。非易失性存储器例如可以包括只读存储器(ROM)、硬盘、闪存等。

根据本公开的实施例，还提供了一种计算机程序产品或计算机程序，该计算机程序产品或者计算机程序包括计算机可读指令，该计算机可读指令存储在计算机可读存储介质中。计算机设备的处理器可以从计算机可读存储介质读取该计算机可读指令，处理器执行该计算机可读指令，使得该计算机设备执行上述各个实施例中描述的训练方法和图像处理方法。

本领域技术人员能够理解，本公开所披露的内容可以出现多种变型和改进。例如，以上所描述的各种设备或组件可以通过硬件实现，也可以通过软件、固件、或者三者中的一些或全部的组合实现。

此外，如本公开和权利要求书中所示，除非上下文明确提示例外情形，“一”、“一个”、“一种”和/或“该”等词并非特指单数，也可包括复数。本公开中使用的“第一”、“第二”以及类似的词语并不表示任何顺序、数量或者重要性，而只是用来区分不同的组成部分。同样，“包括”或者“包含”等类似的词语意指出现该词前面的元件或者物件涵盖出现在该词后面列举的元件或者物件及其等同，而不排除其他元件或者物件。“连接”或者“相连”等类似的词语并非限定于物理的或者机械的连接，而是可以包括电性的连接，不管是直接的还是间接的。

此外，本公开中使用了流程图用来说明根据本公开实施例的实施例的系统所执行的操作。应当理解的是，前面或下面操作不一定按照顺序来精确地执行。相反，可以按照倒序或同时处理各种步骤。同时，也可以将其他操作叠加到这些过程中，或从这些过程移除某一步或数步操作。

除非另有定义，这里使用的所有术语(包括技术和科学术语)具有与本公开所属领域的普通技术人员共同理解的相同含义。还应当理解，诸如在通常字典里定义的那些术语应当被解释为具有与它们在相关技术的上下文中的含义相一致的含义，而不应用理想化或极度形式化的意义来解释，除非这里明确地这样定义。

以上对本公开进行了详细说明，但对于本领域技术人员而言，显然，本公开并非限定于本说明书中说明的实施方式。本公开在不脱离由权利要求书的记载所确定的本公开的宗旨和范围的前提下，可以作为修改和变更方式来实施。因此，本说明书的记载是以示例说明为目的，对本公开而言并非具有任何限制性的意义。

Claims

1.一种用于多模态图像的分割模型的训练方法，包括：

利用第一模态的训练图像集训练第一分割模型，其中，所述第一模态的训练图像集是对多个参考对象在第一模态下进行采集得到的图像的集合，所述第一模态的训练图像集中的每个训练图像具有第一数量的已标注类别；

利用所训练的第一分割模型对第二模态的训练图像集中的每个训练图像进行语义特征提取以得到第一语义特征，并利用第二分割模型对第二模态的训练图像集中的每个训练图像进行语义特征提取以得到第二语义特征，其中，所述第二模态的训练图像集是对多个参考对象在第二模态下进行采集得到的图像的集合，所述第二模态的训练图像集中的每个训练图像具有第二数量的已标注类别，并且所述第二数量小于所述第一数量；以及

通过将所述第一语义特征输入到所述第二分割模型并将所述第二语义特征输入到所训练的第一分割模型，来对第一分割模型和第二分割模型进行语义迁移，并基于所述语义迁移对第二分割模型进行训练。

2.根据权利要求1所述的训练方法，其中，所述利用所训练的第一分割模型对第二模态的训练图像集中的每个训练图像进行语义特征提取以得到第一语义特征，并利用第二分割模型对第二模态的训练图像集中的每个训练图像进行语义特征提取以得到第二语义特征包括：

利用所训练的第一分割模型对第二模态的训练图像集中的每个训练图像进行语义特征提取以得到第一初始语义特征，并对所述第一初始语义特征进行特征白化以得到所述第一语义特征；以及

利用第二分割模型对第二模态的训练图像集中的每个训练图像进行语义特征提取以得到第二初始语义特征，并对所述第二初始语义特征进行特征白化以得到所述第二语义特征。

3.根据权利要求2所述的训练方法，其中，通过第一特征白化层对所述第一初始语义特征进行特征白化，通过第二特征白化层对所述第二初始语义特征进行特征白化，所述第一特征白化层与所述第二特征白化层具有相同的处理参数。

4.根据权利要求1所述的训练方法，其中，所述第一分割模型包括第一分类器，在将所述第二语义特征输入到所训练的第一分割模型之前，所述训练方法还包括：

利用所述第一分类器对所述第一语义特征进行分类以生成第一初始空间结构信息；

根据所述第一初始空间结构信息和所述第二语义特征生成增强的第二语义特征；以及

将所述增强的第二语义特征作为所述第二语义特征。

5.根据权利要求4所述的训练方法，其中，所述根据所述第一初始空间结构信息和所述第二语义特征生成增强的第二语义特征包括：

根据所述第一初始空间结构信息和所述第二语义特征生成所述第二语义特征的残差，并对所述第二语义特征的残差与所述第二语义特征进行求和来得到所述增强的第二语义特征。

6.根据权利要求1或4所述的训练方法，其中，所述第一分割模型包括第一分类器，所述第二分割模型包括第二分类器，所述训练方法还包括：

利用所述第一分类器对所述第二语义特征进行分类以生成第一空间结构信息；

利用所述第二分类器对所述第一语义特征进行分类以生成第二空间结构信息；以及

训练第二分割模型，将所述第一空间结构信息和所述第二空间结构信息对齐。

7.根据权利要求6所述的训练方法，其中，所述训练第二分割模型将所述第一空间结构信息和所述第二空间结构信息对齐包括：

利用判别器对所述第二分割模型进行对抗训练，将所述第一空间结构信息和所述第二空间结构信息对齐。

8.根据权利要求1所述的训练方法，其中，所述利用第一模态的训练图像集训练第一分割模型包括：

对于所述第一模态的训练图像集中的每个训练图像，

利用所述第一分割模型对所述训练图像中的每个类别生成预测标签；以及

通过利用所述训练图像的第一数量的已标注类别中的每个类别的已标注标签对所述预测标签进行监督，来对所述第一分割模型进行有监督训练。

9.根据权利要求1所述的训练方法，其中，所述对第二分割模型进行训练包括：

对于所述第二模态的训练图像集中的每个训练图像，

利用所述第二分割模型对所述训练图像中的每个类别生成预测标签；以及

通过利用所述训练图像的第二数量的已标注类别中的每个类别的已标注标签对所述预测标签进行监督，来对所述第二分割模型进行有监督训练。

10.根据权利要求1所述的训练方法，其中，所述第一模态为磁共振成像MRI，所述第二模态为计算机断层成像CT。

11.一种用于多模态图像的图像处理方法，包括：

输入多模态图像；

确定所述多模态图像是在第一模态还是第二模态下采集得到的图像；

在确定所述多模态图像是在第一模态采集得到的图像的情况下，利用第一分割模型对所述多模态图像进行图像分割，以及在确定所述多模态图像是在第二模态采集得到的图像的情况下，利用第二分割模型对所述多模态图像进行图像分割；以及

输出所述多模态图像的分割结果，

其中，所述第一分割模型和第二分割模型通过以下步骤进行训练：

12.根据权利要求11所述的图像处理方法，其中，所述利用所训练的第一分割模型对第二模态的训练图像集中的每个训练图像进行语义特征提取以得到第一语义特征，并利用第二分割模型对第二模态的训练图像集中的每个训练图像进行语义特征提取以得到第二语义特征包括：

13.根据权利要求12所述的图像处理方法，其中，通过第一特征白化层对所述第一初始语义特征进行特征白化，通过第二特征白化层对所述第二初始语义特征进行特征白化，所述第一特征白化层与所述第二特征白化层具有相同的处理参数。

14.一种图像处理方法，包括：

输入第二模态的待分割图像；

利用用于所述第二模态的第二分割模型对所述待分割图像进行图像分割，以得到图像分割结果；以及

输出所述图像分割结果，

其中，用于特定模态的分割模型通过以下步骤进行训练：

15.一种用于多模态图像的图像处理装置，包括：

处理器；和

存储器，其中，所述存储器中存储有计算机可读代码，所述计算机可读代码在由所述处理器运行时，使得所述处理器执行如权利要求1-14中任一项所述的方法。

16.一种计算机可读存储介质，其上存储有指令，所述指令在被处理器执行时，使得所述处理器执行如权利要求1-14中任一项所述的方法。