CN116824308B

CN116824308B - 图像分割模型训练方法与相关方法、装置、介质及设备

Info

Publication number: CN116824308B
Application number: CN202311105648.0A
Authority: CN
Inventors: 卢东焕; 魏东; 郑冶枫
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2023-08-30
Filing date: 2023-08-30
Publication date: 2024-03-22
Anticipated expiration: 2043-08-30
Also published as: CN116824308A

Abstract

本申请实施例公开了一种图像分割模型训练方法与相关方法、装置、介质及设备，通过获取待训练图像样本以及图像分割模型；将待训练图像样本输入预设编码器进行图像卷积处理，得到中间图像特征；将中间图像特征输入预训练后的自然图像分割模型进行图像分割处理，并提取图像分割处理下生成的高层图像特征；将高层图像特征输入预设解码器进行特征卷积处理，通过特征卷积处理将高层图像特征转化为预测分割结果；根据预测分割结果和分割标签之间的关系，生成相应的损失函数；基于损失函数对图像分割模型中的预设编码器和预设解码器进行迭代训练，直至损失函数满足预设条件，得到训练后的图像分割模型。提升了训练后的图像分割模型的分割准确率。

Description

图像分割模型训练方法与相关方法、装置、介质及设备

技术领域

本申请涉及计算机视觉技术领域，具体涉及一种图像分割模型训练方法与相关方法、装置、介质及设备。

背景技术

计算机视觉技术中经常需要分割给定图像中特定物体的准确轮廓，在相关技术中，一般是通过大量的自然图像对图像分割模型进行训练，得到可以从给定图像中直接分割出特定物体的准确轮廓的图像分割模型。

但是，对于与自然图像差异比较大的非自然图像，例如医疗图像，往往由于训练样本不足，无法在医疗影像上实现准确的物体分割效果，一般而言，为了克服训练样本不足的缺陷，可以将在自然图像上训练得到的图像分割模型，再在医疗图像上进行微调训练。

然而，这样的微调训练方式会导致图像分割模型灾难性遗忘，即导致图像分割模型遗忘掉自然图像上学习到的分割知识，因此，上述微调训练后的图像分割模型对于非自然图像上的物体的分割准确率仍然较低。

发明内容

本申请实施例提供一种图像分割模型训练方法与相关方法、装置、介质及设备，可以提升训练出的模型的分割准确率。

为解决上述技术问题，本申请实施例提供以下技术方案：

一种图像分割模型训练方法，包括：

获取待训练图像样本以及图像分割模型，所述图像分割模型至少由预设编码器、预训练后的自然图像分割模型和预设解码器构成；

将所述待训练图像样本输入所述预设编码器进行图像卷积处理，得到所述预设编码器经过图像卷积处理后输出的中间图像特征；

将所述中间图像特征输入所述预训练后的自然图像分割模型进行图像分割处理，并提取所述预训练后的自然图像分割模型在图像分割处理下生成的高层图像特征；

将所述高层图像特征输入所述预设解码器进行特征卷积处理，通过特征卷积处理将所述高层图像特征转化为预测分割结果；

根据所述预测分割结果和分割标签之间的关系，生成相应的损失函数；

基于所述损失函数对所述图像分割模型中的所述预设编码器和所述预设解码器进行迭代训练，直至所述损失函数满足预设条件，得到训练后的图像分割模型，所述训练后的图像分割模型至少由训练后的预设编码器、所述预训练后的自然图像分割模型和训练后的预设解码器构成。

一种图像处理方法，包括：

获取待识别图像和根据上述图像分割模型训练方法进行训练得到的训练后的图像分割模型，所述训练后的图像分割模型至少由训练后的预设编码器、预训练后的自然图像分割模型和训练后的预设解码器构成；

将所述待识别图像输入所述训练后的预设编码器进行图像卷积处理，得到所述训练后的预设编码器输出的待识别中间图像特征；

将所述待识别中间图像特征输入所述预训练后的自然图像分割模型进行图像分割处理，并提取所述预训练后的自然图像分割模型在图像分割处理下生成的待识别高层图像特征；

将所述待识别高层图像特征输入训练后的预设解码器进行特征卷积处理，通过特征卷积处理将所述待识别高层图像特征转化为目标分割结果输出。

一种图像分割模型训练装置，包括：

获取单元，用于获取待训练图像样本以及图像分割模型，所述图像分割模型至少由预设编码器、预训练后的自然图像分割模型和预设解码器构成；

第一输入单元，用于将所述待训练图像样本输入所述预设编码器进行图像卷积处理，得到所述预设编码器经过图像卷积处理后输出的中间图像特征；

第二输入单元，用于将所述中间图像特征输入所述预训练后的自然图像分割模型进行图像分割处理，并提取所述预训练后的自然图像分割模型在图像分割处理下生成的高层图像特征；

第三输入单元，用于将所述高层图像特征输入所述预设解码器进行特征卷积处理，通过特征卷积处理将所述高层图像特征转化为预测分割结果；

生成单元，用于根据所述预测分割结果和分割标签之间的关系，生成相应的损失函数；

训练单元，用于基于所述损失函数对所述图像分割模型中的所述预设编码器和所述预设解码器进行迭代训练，直至所述损失函数满足预设条件，得到训练后的图像分割模型，所述训练后的图像分割模型至少由训练后的预设编码器、所述预训练后的自然图像分割模型和训练后的预设解码器构成。

在一些实施方式中，所述第一输入单元，包括：

第一提取子单元，用于将所述待训练图像样本输入预设编码器进行图像卷积处理；

第二提取子单元，用于提取所述预设编码器经过图像卷积处理后倒数第二个卷积模块生成的图像特征作为中间图像特征。

在一些实施方式中，所述第一提取子单元，包括：

二维处理子模块，用于当所述待训练图像样本为二维图像时，将所述待训练图像样本输入预设编码器进行图像卷积处理。

在一些实施方式中，所述预设编码器包括下采样模块、连接模块和上采样模块；所述二维处理子模块，用于：

当所述待训练图像样本为二维图像时，将所述待训练图像样本输入所述下采样模块进行下采样卷积处理，得到第一图像特征；

将所述第一图像特征输入所述连接模块进行卷积处理，得到相应的第二图像特征；

将所述第二图像特征输入所述上采样模块进行上采样卷积处理，并结合所述第一图像特征进行特征融合，得到第三图像特征；

所述第二提取子单元，用于：

提取所述上采样模块经过上采样卷积处理后输出的第三图像特征作为中间图像特征。

在一些实施方式中，所述该第一提取子单元，还包括：

降维子模块，用于当所述待训练图像样本为三维图像时，将所述待训练图像样本进行降维处理，得到多个二维图像特征；

图像卷积处理子模块，用于将每个二维图像特征输入预设编码器进行图像卷积处理。

在一些实施例中，所述预设编码器包括降维模块，所述降维模块至少包括三维卷积层和目标池化层；所述降维子模块，还用于：

当所述待训练图像样本为三维图像时，将所述待训练图像样本输入所述三维卷积层进行三维卷积处理，得到三维图像特征，所述三维图像特征由多个初始二维图像特征组成；

将所述三维图像特征输入所述目标池化层，进行不同层的初始二维图像特征之间的空间关系表征处理，得到目标三维图像特征；

获取所述目标三维图像特征相应的多个二维图像特征。

在一些实施例中，所述预设编码器还包括下采样模块、连接模块和上采样模块；所述特征提取子模块，用于：

将每个二维图像特征依次输入所述下采样模块进行下采样卷积处理，得到第四图像特征；

将所述第四图像特征输入所述连接模块进行卷积处理，得到相应的第五图像特征；

将所述第五图像特征输入所述上采样模块进行上采样卷积处理，并结合相应的所述第四图像特征进行特征融合，得到第六图像特征；

所述第二提取子单元，用于：

提取所述上采样模块经过上采样卷积处理后输出的第六图像特征作为中间图像特征。

在一些实施例中，所述第三输入单元，用于：

将所述高层图像特征输入预设解码器进行特征卷积处理，通过特征卷积处理将所述高层图像特征转化为每个二维图像特征相应的分割结果；

获取每个二维图像特征的三维位置信息；

根据所述三维位置信息将每个二维图像特征的分割结果进行拼接，得到预测分割结果。

在一些实施例中，所述第二输入单元，包括：

输入子单元，用于将所述中间图像特征输入预训练后的自然图像分割模型的第二个卷积模块进行图像分割处理；

提取子单元，用于提取所述预训练后的自然图像分割模型在图像分割处理下倒数第二个卷积模块生成的图像特征作为高层图像特征。

在一些实施例中，所述预训练后的自然图像分割模型至少包括图像编码器和掩码解码器，该输入子单元，用于：

将所述中间图像特征输入所述图像编码器的第二个卷积模块进行编码处理，得到编码处理后的目标中间图像特征；

将所述目标中间图像特征输入所述掩码解码器进行图像分割处理。

在一些实施例中，所述图像分割模型还包括预设提示编码器，所述装置，还包括语句输入单元，用于：

接收目标语句样本；

将所述目标语句样本输入预设提示编码器，输出相应的文本向量；

所述输入子单元，还用于：

将所述中间图像特征输入图像编码器的第二个卷积模块进行编码处理，得到编码处理后的目标中间图像特征；

将所述目标中间图像特征和所述文本向量一并输入掩码解码器进行图像分割处理。

在一些实施例中，所述训练单元，用于：

基于所述损失函数对所述图像分割模型中的所述预设编码器、所述预设解码器和所述预设提示编码器进行迭代训练，直至所述损失函数满足预设条件，得到训练后的图像分割模型，所述训练后的图像分割模型至少由训练后的预设编码器、训练后的预设提示编码器、所述预训练后的自然图像分割模型和训练后的预设解码器构成。

在一些实施例中，所述提取子单元，还用于：

提取所述掩码解码器在图像分割处理下倒数第二个卷积模块生成的图像特征作为高层图像特征。

在一些实施例中，所述生成单元，用于：

获取所述预测分割结果和分割标签的交集面积；

计算所述预测分割结果和所述分割标签的面积之和，得到目标面积；

根据所述交集面积和所述目标面积，构建相应的损失函数。

一种图像处理装置，包括：

获取单元，用于获取待识别图像和根据上述图像分割模型训练方法进行训练得到的训练后的图像分割模型，所述训练后的图像分割模型至少由训练后的预设编码器、预训练后的自然图像分割模型和训练后的预设解码器构成；

第一输入单元，用于将所述待识别图像输入所述训练后的预设编码器进行图像卷积处理，得到所述训练后的预设编码器输出的待识别中间图像特征；

第二输入单元，用于将所述待识别中间图像特征输入所述预训练后的自然图像分割模型进行图像分割处理，并提取所述预训练后的自然图像分割模型在图像分割处理下生成的待识别高层图像特征；

第三输入单元，用于将所述待识别高层图像特征输入训练后的预设解码器进行特征卷积处理，通过特征卷积处理将所述待识别高层图像特征转化为目标分割结果输出。

在一些实施方式中，所述装置还包括语句处理单元，用于：

接收输入的待识别语句；

将所述待识别语句输入预设编码器，输出相应的目标文本向量；

所述第二输入单元，还用于：

将所述待识别中间图像特征和所述目标文本向量一并输入所述预训练后的自然图像分割模型进行图像分割处理，并提取所述预训练后的自然图像分割模型在图像分割处理下生成的待识别高层图像特征。

一种计算机可读存储介质，所述计算机可读存储介质存储有多条指令，所述指令适于处理器进行加载，以执行上述图像分割模型训练方法或图像处理方法。

一种计算机设备，包括存储器、处理器以及存储在所述存储器中并可以在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现上述图像分割模型训练方法或图像处理方法。

一种计算机程序产品或计算机程序，所述计算机程序产品或计算机程序包括计算机指令，所述计算机指令存储在存储介质中。计算机设备的处理器从存储介质读取所述计算机指令，处理器执行所述计算机指令，使得实现上述图像分割模型训练方法或图像处理方法。

本申请实施例通过获取待训练图像样本以及图像分割模型，图像分割模型至少由预设编码器、预训练后的自然图像分割模型和预设解码器构成；将待训练图像样本输入预设编码器进行图像卷积处理，得到预设编码器经过图像卷积处理后输出的中间图像特征；将中间图像特征输入预训练后的自然图像分割模型进行图像分割处理，并提取预训练后的自然图像分割模型在图像分割处理下生成的高层图像特征；将高层图像特征输入预设解码器进行特征卷积处理，通过特征卷积处理将高层图像特征转化为预测分割结果；根据预测分割结果和分割标签之间的关系，生成相应的损失函数；基于损失函数对图像分割模型中的预设编码器和预设解码器进行迭代训练，直至损失函数满足预设条件，得到训练后的图像分割模型，训练后的图像分割模型至少由训练后的预设编码器、预训练后的自然图像分割模型和训练后的预设解码器构成。以此，通过固定预训练后的自然图像分割模型的模型参数，利用其分割能力，对预设编码器的特征提取能力进行训练，对预设解码器的分割能力进行训练，相对于相关技术在自然图像上训练得到的图像分割模型，再在医疗图像上进行微调训练的方案，本申请实施例可以避免灾难性遗忘，极大提升了训练后的图像分割模型的分割准确率。

本公开的其他特征和优点将在随后的说明书中阐述，并且，部分地从说明书中变得显而易见，或者通过实施本公开而了解。本公开的目的和其他优点可通过在说明书、权利要求书以及附图中所特别指出的结构来实现和获得。

附图说明

为了更清楚地说明本申请实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本申请实施例提供的模型训练系统的场景示意图。

图2是本申请实施例提供的图像分割模型训练方法的应用示意图。

图3是本申请实施例提供的图像分割模型训练方法的另一应用示意图。

图4为本申请实施例提供的图像分割模型训练方法的流程示意图。

图5本申请实施例提供的U-Net网络的结构示意图。

图6为本申请实施例提供的SAM模型的结构示意图。

图7为本申请实施例提供的transformer模型的编码器结构。

图8为本申请实施例提供的图像分割模型训练方法的另一流程示意图。

图9为本申请实施例提供的图像分割模型训练方法的另一流程示意图。

图10为本申请实施例提供的图像分割模型训练方法的架构示意图。

图11为本申请实施例提供的图像处理方法的流程示意图。

图12为本申请实施例提供的图像分割模型训练方法的场景示意图。

图13是本申请实施例提供的图像处理装置的结构示意图。

图14是本申请实施例提供的服务器的结构示意图。

具体实施方式

为了使本技术领域的人员更好地理解本申请的方案，下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

可以理解的是，在本申请的具体实施方式中，涉及到待训练图像样本和待识别图像等相关的数据，当本申请以上实施例运用到具体产品或技术中时，需要获得对象许可或者同意，且相关数据的收集、使用和处理需要遵守相关国家和地区的相关法律法规和标准。

需要说明的是，在说明书、权利要求书和上述附图所描述的一些流程中，包含了按照特定顺序出现的多个步骤，但应该清楚了解，这些步骤可以不按照其在本文中出现的顺序来执行或并行执行，步骤序号仅仅是用于区分开各个不同的步骤，序号本身不代表任何的执行顺序。此外，本文中的“第一”、“第二”或者“目标”等描述，是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。

对本公开实施例进行进一步详细说明之前，对本公开实施例中涉及的名词和术语进行说明，本公开实施例中涉及的名词和术语适用于如下的解释：

人工智能：是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能，感知环境、获取知识并使用知识获得目标结果的理论、方法、技术及应用系统。换句话说，人工智能是计算机科学的一个综合技术，它企图了解智能的实质，并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法，使机器具有感知、推理与决策的功能。

人工智能技术是一门综合学科，涉及领域广泛，既有硬件层面的技术也有软件层面的技术。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。随着人工智能技术研究和进步，人工智能技术在多个领域展开研究和应用，例如常见的智能家居、智能穿戴设备、虚拟助理、智能音箱、智能营销、无人驾驶、自动驾驶、无人机、机器人、智能医疗、智能客服等，相信随着技术的发展，人工智能技术将在更多的领域得到应用，并发挥越来越重要的价值。

计算机视觉技术(Computer Vision, CV)：计算机视觉是一门研究如何使机器“看”的科学，更进一步的说，就是指用摄影机和电脑代替人眼对目标进行识别、跟踪和测量等机器视觉，并进一步做图形处理，使电脑处理成为更适合人眼观察或传送给仪器检测的图像。作为一个科学学科，计算机视觉研究相关的理论和技术，试图建立能够从图像或者多维数据中获取信息的人工智能系统。计算机视觉技术通常包括图像处理、图像识别、图像语义理解、图像检索、OCR、视频处理、视频语义理解、视频内容/行为识别、三维物体重建、3D技术、虚拟现实、增强现实、同步定位与地图构建等技术，还包括常见的人脸识别、指纹识别等生物特征识别技术。

自然图像，自然图像就是照相机根据感光单元拍摄出来的，例如通过手机拍摄的图像。

非自然图像，非自然图像为另外像放射成像，功能性成像，磁共振成像，超声成像等通过其他手段转成图像，自然图像和非自然图像的显示方式，表现模态具有较大的差别。

大模型（Large Model）是指具有数百万或数十亿个参数的深度神经网络模型，这种模型经过专门的训练过程，能够对大规模数据进行复杂的处理和任务处理。

灾难性遗忘，是指在新的数据集上训练模型，会遗忘掉旧数据上学习到的知识，在旧数据上测试会发生很大的掉点，即在深度神经网络学习不同任务的时候，相关权重的快速变化会损害先前任务的表现。

过拟合(overfitting)，指的是模型在训练集上表现的很好,但是在交叉验证集合测试集上表现一般,也就是说模型对未知样本的预测表现一般,泛化(generalization)能力较差。

感受野（Receptive Field）的定义是卷积神经网络每一层输出的特征图（featuremap）上的像素点在输入图片上映射的区域大小。再通俗点的解释是，特征图上的一个点对应输入图上的区域。或当我们通过卷积、池化等操作获得一个特征图以后，这张特征图上的一个特征点（一个像素），受到了原输入图像上多大范围内像素的影响。感受野事实上反映了当前用来对输入图像进行描述的特征，究竟能够涵盖到输入图像上多大范围内的信息。

ReLU（Rectified Linear Unit，修正线性单元）激活函数，可以将输入特征映射到一个非线性特征空间，从而可以实现更复杂的表达。

批标准化(batch normalization)，指的是对神经网络每一层的输入进行标准化，目的是为了解决训练过程中输入数据分布漂移。

图像分割，就是给一张图像，图像分割出物体的准确轮廓。

编码器，将输入编程成中间表达形式（特征)。

解码器：将中间表达表示（特征)解码成输出。

下采样，下采样实际上就是缩小图像，主要目的是为了使得图像符合显示区域的大小，生成对应图像的缩略图。下采样层有两个作用：

一是减少计算量，防止过拟合；

二是增大感受野，使得后面的卷积核能够学到更加全局的信息。

上采样：实际上就是放大图像，指的是任何可以让图像变成更高分辨率的技术。

目前，对于与自然图像差异比较大的非自然图像，例如医疗图像，往往由于训练样本不足，无法在医疗影像上实现准确的物体分割效果，一般而言，为了克服训练样本不足的缺陷，可以将在自然图像上训练得到的图像分割模型，再在医疗图像上进行微调训练。但是，这样的微调训练方式会导致图像分割模型灾难性遗忘，即导致图像分割模型遗忘掉自然图像上学习到的分割知识，因此，上述训练方式对于非自然图像上的物体的分割准确率仍然较低。

本申请实施例为了解决上述问题，提出一种能够提高非自然图像上的物体的分割准确率的图像分割模型训练方法。

请参阅图1，图1是本申请实施例提供的模型训练系统的场景示意图。它包括终端140、互联网130、网关120、服务器110等。

终端140括桌面电脑、膝上型电脑、PDA（个人数字助理）、手机、车载终端、家庭影院终端、专用终端等多种形式。另外，它可以是单台设备，也可以是多台设备组成的集合。终端140可以以有线或无线的方式与互联网130进行通信，交换数据。

服务器110是指能对终端140提供某些服务的计算机系统。相对于普通终端140来说，服务器110在稳定性、安全性、性能等方面都要求更高。服务器110可以是网络平台中的一台高性能计算机、多台高性能计算机的集群、一台高性能计算机中划出的一部分（例如虚拟机）、多台高性能计算机中划出的一部分（例如虚拟机）的组合等。

网关120又称网间连接器、协议转换器。网关在传输层上实现网络互连，是一种充当转换作用的计算机系统或设备。在使用不同的通信协议、数据格式或语言，甚至体系结构完全不同的两种系统之间，网关是一个翻译器。同时，网关也可以提供过滤和安全功能。终端140向服务器110发送的消息要通过网关120发送到相应的服务器110。服务器110向终端140发送的消息也要通过网关120发送到相应的终端140。

本公开实施例的图像分割模型训练方法可以完全在终端140实现，可以完全在服务器110实现，也可以一部分在终端140实现，另一部分在服务器110实现。

图像分割模型训练方法完全在终端140实现的情况下，一般是在终端140训练出预设编码器和预设解码器。然后，在终端140本地，就可以将图像输入预设编码器，通过预设加码器输出该图像的目标分割结果。它不用借助于服务器110，实现终端140本地智能化。

图像分割模型训练方法完全在服务器110实现的情况下，在服务器110训练出预设编码器和预设解码器。在一些情况下，服务器110本身有利用模型执行后续任务的需求。例如，终端140接收到对象输入的图像，无法确定该图像中的物体，则向服务器110发出查询请求。由于服务器110具有训练出的预设编码器和预设解码器，由预设解码器输出该图像的目标分割结果。

图像分割模型训练方法一部分在终端140实现，另一部分在服务器110实现的情况下，一般是模型训练在服务器110上实现，由各终端140提供训练用的图像。各终端140将收集的图像发送到服务器110，由服务器110在此基础上训练预设编码器和预设解码器，并根据各个终端140实时收集的图像，不断更新训练出的预设编码器和预设解码器。

本公开实施例可以应用在多种场景下，如图2和图3所示的医疗识别系统的场景。

医疗识别系统的场景：

医疗识别系统是指能够根据对象提供的图像，自动进行物体分割的系统，它通过计算机视觉技术，从图像中识别出目标物体的准确轮廓。

目前通过自然影像训练得到的图像分割模型，可以在自然图像分割任务上获得良好的效果，但是对于医疗图像这种非自然图像的特殊场景，由于图像的模态差异较大，使得无法在医疗图像上获得准确的识别效果。此时，可以将该医疗图像输入本申请实施例的图像分割模型训练方法训练出的预设编码器进行特征提取，并由本申请实施例的图像分割模型训练方法训练出的预设解码器输出相应物体的目标分割结果，从而实现对医疗图像这种非自然图像的特殊场景进行准确的图像分割。

如图2所示，在终端10的医疗识别系统的界面上，对象可以选择医疗影像11，这时，医疗识别系统可以将该医疗影像11输入本申请实施例的图像分割模型训练方法训练出的预设编码器进行特征提取，再通过本申请实施例的图像分割模型训练方法训练出的预设解码器输出相应物体的目标分割结果12，实现医疗识别系统准确分割出医疗图像上的物体，该物体可以为白细胞，淋巴等等。

如图3所示，在终端20的医疗识别系统的界面上，对象可以选择医疗影像21，并且输入识别目标对应的语句22“白细胞”，这时，医疗识别系统可以将该医疗影像21输入本申请实施例的图像分割模型训练方法训练出的预设编码器进行特征提取，将语句22“白细胞”输入本申请实施例的图像分割模型训练方法训练出的预设解码器进行文本向量提取，再通过本申请实施例的图像分割模型训练方法训练出的预设解码器输出文本向量相应物体的目标分割结果23，实现医疗识别系统准确分割医疗图像输入的语句对应的物体，以此，医疗人员可以根据需求快速标注出需要的病变区域进行分析。

需要说明的是，图1所示的模型训练系统的场景示意图仅仅是一个示例，本申请实施例描述的模型训练系统以及场景是为了更加清楚的说明本申请实施例的技术方案，并不构成对于本申请实施例提供的技术方案的限定，本领域普通技术人员可知，随着模型训练系统的演变和新业务场景的出现，本申请实施例提供的技术方案对于类似的技术问题，同样适用。

在本实施例中，将从图像分割模型训练装置的角度进行描述，该图像分割模型训练装置具体可以集成在具备储存单元并安装有微处理器而具有运算能力的计算机设备中，计算机设备可以为服务器，即在本实施例中以计算机设备为服务器进行说明。

请参阅图4，图4是本申请实施例提供的图像分割模型训练方法的流程示意图。该图像分割模型训练方法包括：

在步骤201中，获取待训练图像样本以及图像分割模型。

其中，该待训练图像样本是指后续进行模型训练中的基础图像样本，该待训图像样本可以为非自然图像。该待训练样本可以为多个，可以为二维图像，也可以为三维图像。该图像分割模型至少由预设编码器、预训练后的自然图像分割模型和预设解码器构成。

该预设编码器用于提取非自然图像的图像特征，可以为任意的图像特征提取网络，例如卷积神经网络（Convolutional Neural Networks，CNN）、残差网络（ResNets）以及U-Net网络。

预训练后的自然图像分割模型为在自然图像上训练得到的图像分割模型，例如CNN或者分割一切模型（Segment Anything Model，SAM）。

该预设解码器用于将高层图像特征转化为非自然图像的分割结果，该预设解码器由多个简单的卷积块组成，例如由两个卷积块组成，第一个卷积块包括一个3乘3乘3的卷积层、ReLU激活层和批标准化层组成，第二个卷积块包括1*1*1的卷积层、ReLU激活层和批标准化层组成。

在步骤202中，将待训练图像样本输入预设编码器进行图像卷积处理，得到预设编码器经过图像卷积处理后输出的中间图像特征。

其中，可以对每个待训练图像样本分别执行一轮步骤202-206的模型训练过程，甚至每个待训练图像样本可以重复执行多次步骤202-206的模型训练过程，在每次模型训练过程中，预设编码器和预设解码器的模型参数都会得到调整，因此，待训练图像样本的数量越多，模型训练的效果效果越好。

需要说明的是，对于与自然图像差异比较大的非自然图像，例如医疗图像，往往由于训练样本不足，导致无法在医疗影像上实现准确的物体分割效果，一般而言，为了克服训练样本不足的缺陷，可以将在自然图像上训练得到的图像分割模型（即本申请实施例中的预训练后的自然图像分割模型），再在医疗图像上进行微调训练。但是，这样的微调训练方式会导致图像分割模型灾难性遗忘，即导致图像分割模型遗忘掉自然图像上学习到的分割知识，限制了图像分割模型的效果，特别是该图像图像模型为大模型而言，由于大模型的参数量过大，而如果待训练样本过少，很容易导致过拟合，并且训练大模型需要很高的硬件要求，因此，需要实现一种能够提高非自然图像上的物体的分割准确率的图像分割模型训练方法。

基于此，本申请实施例冻结该预训练后的自然图像分割模型的模型参数，利用其的分割推理能力，在该预训练后的自然图像分割模型的前后添加适配器，即预设编码器和预设解码器，通过调节该预设编码器和预设解码器的模型参数来实现对非自然图像的分割，以此，即节省了训练的算力资源，又可以避免该预训练后的自然图像分割模型遗忘从自然图像中学习到的分割知识。

相应的，由于预训练后的自然图像分割模型无法实现将非自然图像转化为自然图像，即该预训练后的自然图像分割模型无法准确的提取出非自然图像的图像特征，因此，本申请实施例将提取非自然图像的图像特征功能设置由该预设编码器实现，该预设编码器用于提取非自然图像的图像特征，以此，将待训练图像样本输入预设编码器进行图像卷积处理，实现图像特征提取，得到预设编码器经过图像卷积处理后输出的中间图像特征，该中间图像特征也可以理解为特征图，即为由图像特征组成的图。

在一些实施方式中，该将所述待训练图像样本输入所述预设编码器进行图像卷积处理，得到所述预设编码器经过图像卷积处理后输出的中间图像特征，包括：

（1）将所述待训练图像样本输入预设编码器进行图像卷积处理；

（2）提取所述预设编码器经过图像卷积处理后倒数第二个卷积模块生成的图像特征作为中间图像特征。

其中，可以将待训练图像样本输入预设编码器进行图像卷积处理，实现图像特征提取，该预设编码器中，可以包含多个卷积模块，每个卷积模块可以由多个卷积层组成，通过该卷积模块可以不断进行图像卷积处理，提取该待训练图像样本的图像特征。

进一步的，由于该预设编码器最后一个卷积模型一般为输出层，也可以理解为分类器，而该预设编码器是用于提取待训练图像样本的图像特征，不需要分类结果，相应的，越接近该输出层的卷积模块提取的图像特征的细节越多，因此，本申请实施例可以提取该预设编码器经过图像卷积处理后倒数第二个卷积模块，即输出层前一个卷积模块卷积生成的图像特征作为中间图像特征，实现对非自然图像的图像特征提取。

在一些实施方式中，该待训练图像可以为二维图像或者三维图像，当该待训练图像为二维图像时，可以直接将该待训练图像样本输入预设编码器进行图像卷积处理。

为了更好的说明本申请实施例，以该预设编码器为U-Net网络为例进行说明，请一并参阅图5所示，图5本申请实施例提供的U-Net网络的结构示意图。该U-Net网络包括下采样模块、连接模块和上采样模块。

该下采样模块由多个卷积块（convolution block）构成，除最后一个卷积块外的每个卷积块均由2个3乘3卷积层，非线性ReLU层和一个2乘2的最大池化层（max pooling）组成，以此，除最后一个卷积块外的每个卷积块在提取图像特征之后，均通过最大池化层将长宽高降为原来的一半，以便下一个卷积块在更大的感受野范围内继续提取特征，每个卷积块所提取特征的通道数为上一个卷积块的两倍，例如64，128，256，512，1024。

连接模块由2个3乘3的卷积层组成，用于实现将下采样部分和上采样部分连接在一起，以此，该下采样模块最后一个卷积块输出的图像特征经过该连接模块进行处理，得到用于输入上采样模块的图像特征。

该上采样模块由多个卷积块构成，最初输入为连接模块处理得到的图像特征，除最后一个卷积块外的每个卷积块均由上卷积层（up-convolution layer），特征拼接concat（即跳跃连接），两个3乘3的卷积层和非线性ReLU层组成，以此，除最后一个卷积块外的每个卷积块都会通过上卷积层将图像特征变为原来的两倍，由于最大池化层的下采样操作会导致丢掉部分图像细节信息，为了补偿这部分丢掉的图像细节信息，上采样模块的每个卷积块都和下采样模块相应的卷积块通过跳跃连接进行连接，实现将上采样后的图像特征和由下采样模块相应的卷积块提取到的图像特征进行拼接，作为上采样模块的卷积块的输入，上采样模块最后一个卷积块输出和原图等大的图像特征。

基于此，该将该待训练图像样本输入预设编码器进行图像特征提取，包括：

（1.1）将该待训练图像样本输入该下采样模块进行下采样卷积处理，得到第一图像特征；

（1.2）将该第一图像特征输入该连接模块进行卷积处理，得到相应的第二图像特征；

（1.3）将该第二图像特征输入该上采样模块进行上采样卷积处理，并结合该第一图像特征进行特征融合，得到第三图像特征；

因此，可以将该待训练图像样本输入预设编码器中的下采样模块进行下采样卷积处理，通过每个卷积块卷积提取图像特征，并通过最大池化层处理，得到多个第一图像特征。

进一步的，将下采样模块最后输出的第一图像特征输入连接模块进行卷积处理，得到相应的第二图像特征，进而将该第二图像特征输入该上采样模块进行上采样卷积处理，通过每个卷积块的上卷积层处理、特征拼接处理和卷积处理，得到多个第三图像特征，以此，实现对非自然图像的图像特征提取。

相应的，由于医疗图像语义较为简单、结构固定。因此语义信息相比自然图像较为单一，因此并不需要去筛选过滤无用的信息。医疗图像的所有特征都很重要，因此低级特征和高级语义特征都很重要，所以U型结构的跳跃连接结构（特征拼接）更好派上用场。

而且医疗图像的数据较少，获取难度大，数据量可能只有几百甚至不到100，因此如果使用大型的网络，很容易过拟合，因此该U-Net网络可以提取更适合于医疗图像的图像特征。

相应的，该提取该预设编码器倒数第二个卷积模块生成的图像特征作为中间图像特征，包括：

（1.4）提取所述上采样模块经过上采样卷积处理后输出的第三图像特征作为中间图像特征。

其中，由于该U-Net网络最后一个卷积模型一般为分类输出层，也可以理解为分类器，而该U-Net网络是用于提取待训练图像样本的图像特征，不需要分类结果，相应的，越接近该分类输出层的卷积模块提取的图像特征的细节越多，因此，本申请实施例直接将该上采样模块经过上采样卷积处理后最后一个卷积块输出的第三图像特征作为中间图像特征。

在一些实施例中，由于非自然图像中存在部分三维图像，例如医疗图像中存在大量的三维图像，为了提升网络的泛化能力，希望模型也能处理三维图像，目前的做法为将卷积网络中的二维卷积层改为三维卷积层，实现对三维图像的处理，但是由于预训练后的自然图像分割模型的模型参数是固定的，因此，该预训练后的自然图像分割模型的卷积层的维度也是固定的，无法实现升维操作，因此，当该待训练图像为三维图像时，还需要对该待训练图像样本进行降维处理，即将该待训练图像样本输入预设编码器进行图像特征提取，还包括：

（2.1）当该待训练图像样本为三维图像时，将该待训练图像样本进行降维处理，得到多个二维图像特征；

（2.2）将每个二维图像特征输入预设编码器进行图像卷积处理。

其中，由于三维图像是由一组堆叠的二维图像组成。因此，当该待训练图像样本为三维图像时，可以将该待训练图像样本进行降维处理，得到多个二维图像特征，二维图像特征可以被预训练后图像分割模型处理，以此，可以将每个二维图像特征输入预设编码器进行图像特征提取，需要说明的是，堆栈的二维图像为一层一层进行堆栈之后形成三维图像的，因此，每个二维图像均包含相应的三维位置信息，该三维位置信息可以为深度信息，指示每个二维图像为第几层的图像。

为了更好的说明本申请实施例，以该预设编码器为U-Net网络为例进行说明，为了实现降维处理，可以在该U-Net网络上额外设置降维模块，该降维模块至少包括三维卷积层和目标池化层，该三维卷积层可以为5乘5乘5的三维卷积层，该目标池化层的核函数可以为1乘1乘19。

基于此，该将该待训练图像样本进行降维处理，得到多个二维图像特征，包括：

（3.1）将该待训练图像样本输入该三维卷积层进行三维卷积处理，得到三维图像特征；

（3.2）将该三维图像特征输入该目标池化层，进行不同层的初始二维图像特征之间的空间关系表征处理，得到目标三维图像特征；

（3.3）获取该目标三维图像特征相应的多个二维图像特征。

其中，当该待训练图像为三维图像时，会启用该降维模块，将该待训练图像样本输入该三维卷积层进行三维卷积处理，并且还可以接ReLU激活函数和批标准化处理，得到三维图像特征，由于该由于三维图像是由一组堆栈的二维图像组成，因此该三维图像特征也由多个初始二维图像特征组成，由于初始二维图像特征之间在空间上具有一定的关联性。

以此，还需要通过目标池化层对三维图像特征进行池化处理，与最大池化层不同的是，该目标池化层不对图像特征进行降采样处理，而是找到每个二维图像的像素点在领域的二维图像范围内相同的像素点上的最大特征作为该点的特征，实现考虑不同的二维图像特征之间的空间关系，得到目标三维图像特征，该目标三维图像特征由多个二维图像特征，进而，将该三维图像特征拆开，得到相应的多个二维图像特征。

基于此，该将每个二维图像特征输入预设编码器进行图像特征提取，包括：

（4.1）将每个二维图像特征依次输入该下采样模块进行下采样卷积处理，得到第四图像特征；

（4.2）将该第四图像特征输入该连接模块进行卷积处理，得到相应的第五图像特征；

（4.3）将该第五图像特征输入该上采样模块进行上采样卷积处理，并结合相应的该第四图像特征进行特征融合，得到第六图像特征；

其中，可以将拆开后的每个二维图像特征依次独立输入预设编码器中的下采样模块进行下采样卷积处理，通过每个卷积块卷积提取图像特征，并通过最大池化层处理，得到多个第四图像特征。

进一步的，将下采样模块最后输出的第四图像特征输入连接模块进行卷积处理，得到相应的第五图像特征，进而将该第五图像特征输入该上采样模块进行上采样卷积处理，通过每个卷积块的上卷积层处理、特征拼接处理和卷积处理，得到多个第六图像特征，以此，实现对三维的非自然图像的图像特征提取。

（4.4）提取所述上采样模块经过上采样卷积处理后输出的第六图像特征作为中间图像特征。

其中，由于该U-Net网络最后一个卷积模型一般为分类输出层，也可以理解为分类器，而该U-Net网络是用于提取待训练图像样本的图像特征，不需要分类结果，相应的，越接近该分类输出层的卷积模块提取的图像特征的细节越多，因此，本申请实施例直接将该上采样模块经过上采样卷积处理最后一个卷积块输出的第六图像特征作为中间图像特征，需要说明的是，可以得到每个二维图像特征的中间图像特征，并且记录每个二维图像特征的三维位置信息，以此，在每个二维图像特征实现图像分割之后，可以根据三维位置信息拼接回去，实现对三维图像的待训练图像样本的图像分割。

在步骤203中，将中间图像特征输入预训练后的自然图像分割模型进行图像分割处理，并提取预训练后的自然图像分割模型在图像分割处理下生成的高层图像特征。

其中，该预训练后的自然图像分割模型为在自然图像上训练得到的图像分割模型，本申请实施例为了利用该预训练后的自然图像分割模型的分割推理能力，避免灾难性遗忘，可以固定该预训练后的自然图像分割模型的模型参数，只用于分割推理，以此，可以将由预设编码器提取的中间图像特征输入预训练后的自然图像分割模型进行图像分割处理。

该预训练后的自然图像分割模型的输出层的作用为将最后的图像特征转化为分割结果。然而由于非自然图像与自然图像的图像模态不同，因此，该预训练后的自然图像分割模型对于非自然图像输出的分割结果是不准确的，所以不需要该预训练后的自然图像分割模型的分割结果，而是提取靠近输出层的高层图像特征，因为随着预训练后的自然图像分割模型的不断加深，卷积提取到的特征逐渐清晰且携带的信息越多，例如该高层图像特征可以为预训练后的自然图像分割模型倒数第二个卷积模块输出的图像特征或者倒数第三个卷积模块输出的图像特征，该高层图像特征映射了每个像素经过预训练后的自然图像分割模型进行预测之后的预测类别信息，以使得后续可以参考该预测类别信息实现图像分割。

在一些实施方式中，该将中间图像特征输入预训练后的自然图像分割模型进行图像分割处理，并提取预训练后的自然图像分割模型在图像分割处理下生成的高层图像特征，包括：

（1）将该中间图像特征输入预训练后的自然图像分割模型的第二个卷积模块进行图像分割处理；

（2）提取该预训练后的自然图像分割模型倒数第二个卷积模块生成的图像特征作为高层图像特征。

其中，该预训练后的自然图像分割模型的第一个卷积模块为将自然图像转换为图像特征的卷积模块，由于该图像特征提取功能由预设编码器实现，因此，可以将该预训练后的自然图像分割模型的第一个卷积模块删除或者冻结，将该中间图像特征输入预训练后的自然图像分割模型的第二个卷积模块进行图像分割处理。

因为随着图像分割模型的不断加深，卷积提取到的特征逐渐清晰且携带的信息越多，以此，提取图像分割模型倒数第二个卷积模块生成的图像特征作为高层图像特征。

为了更好的说明本申请实施例，以该预训练后的自然图像分割模型为SAM模型为例进行说明，SAM模型，其在1100万张图像上训练了超过10亿个掩码，实现了强大的零样本泛化。请一并参阅图6所示，图6为本申请实施例提供的SAM模型的结构示意图。该SAM模型包括图像编码器（image encoder）、提示编码器（prompt encoder）和掩码解码器（maskdecoder）。

该图像编码器，旨在映射待分割的图像到图像特征空间（得到图像特征），可以为传统的卷积结构形成。

该提示编码器，用于编码提示，可以输入物体的简单掩码，该提示编码器可以使用卷积操作，将该掩码转化为掩码向量，也可以输入点或者边界框，该提示编码器可以使用位置编码，得到位置向量。还可以输入文本提示，该提示编码器可以将该文本转化为带有自注意力机制的文本向量。

掩码解码器（mask decoder），可以整合图像特征和提示编码器的提示向量，在特征图解码出最终的分割掩码，即实现语义分割。

基于此，将该中间图像特征输入预训练后的自然图像分割模型的第二个卷积模块进行图像分割处理，包括：

（1.1）将该中间图像特征输入图像编码器的第二个卷积模块进行编码处理，得到编码处理后的目标中间图像特征；

（1.2）将该目标中间图像特征输入掩码解码器进行图像分割处理。

其中，该图像编码器的第一个卷积模块为将自然图像转换为图像特征的卷积模块，由于该图像特征提取功能由预设编码器实现，因此，可以将该图像编码器的第一个卷积模块删除或者冻结，将该中间图像特征输入图像编码器的第二个卷积模块进行图像分割处理。

该图像编码器会继续对该中间图像特征进行编码处理，得到编码处理后的目标中间图像特征，即图6中的image embedding。

需要说明的是，在本申请实施例中，由于自然图像和非自然图像之间的模态差异，会导致该图像分割模型中通过自然图像训练出来的提示编码器无法在非自然图像的场景上使用，因此，会将该提示编码器冻结或者直接删除。以此，在分割任务为单一任务的情况下，可以直接将该目标中间图像特征输入掩码解码器实现语义分割。

在一些实施方式中，在分割任务为面向多种分割任务，甚至不确定分割目标的任务时，需要语义理解模型，用来提示图像分割模型需要分割的目标，由于非自然图像的场景中出现的术语，该图像分割模型可能无法正确理解，因此还需要设置一个预设提示编码器，以此，该将该目标中间图像特征输入掩码解码器进行图像分割处理之前，还包括：

（2.1）接收目标语句样本；

（2.2）将该目标语句样本输入预设提示编码器进行文本向量化表征，输出相应的文本向量；

其中，接收目标语句样本，该目标语句样本可以提示预训练后的自然图像分割模型需要分割的目标，例如该目标语句样本可以为“白细胞”或者“淋巴”。

在一种实施方式中，该预设提示编码器可以为预训练好的语义提取模型，例如ClinicalBert的特征提取部分，Bert是基于transformer编码器架构的深度神经网络，它用于学习文本的向量表达，而该ClinicalBert则代表专门用于学习医疗文本的向量的BERT模型，以此，可以将该目标语句样本输入该ClinicalBert进行文本向量化表征，输出相应的文本向量，由于该预设提示编码可以为预训练好的语义提取模型，对语义的理解较好，可以提升文本向量表征的准确性。

在另一种实施方式中，该预设提示编码器可以为需要进行训练的语义提取模型，例如可以为transformer模型的编码器结构（即特征提取器），为了更好的说明本申请实施例，请一并参阅图7所示，图7为本申请实施例提供的transformer模型的编码器结构，该transformer模型的编码器结构包括多头自注意力层和全连接网络层。

多头注意力层应用了一种特定的注意力机制，称为自注意力，实现每个单词和输入中的其他单词关联起来，生成带有编码的输出向量，指示序列中的每个词如何关注其他所有词。

该全连接网络层，能够提取出更加抽象的特征，从而提升模型的表达和泛化能力。

该transformer模型的编码器结构对于输入的特征，执行如下计算方式，得到相应的文本向量：

其中，该q，k，v分别是查询，键以及值特征，U_qkv是一个科学系的参数矩阵，A是注意力矩阵，D_h是尺度，R实数集合，即为文本向量。

以此，可以将目标语句样本输入该多头注意力层和全连接网络层，输出相应的文本向量，由于该预设提示编码器还需要训练，因此该文本向量的表征未必准确，即后续还需要对该预设提示编码器进行训练，提升其输出的文本向量表征的准确率。

在一些实施方式中，该将该目标中间图像特征输入掩码解码器进行图像分割处理，包括：将该目标中间图像特征和该文本向量一并输入掩码解码器进行图像分割处理。

其中，可以将该目标中间图像特征和该文本向量一并输入掩码解码器，以使得该掩码解码器在基于目标中间图像特征进行编码处理的基础上，还可以根据文本向量提示的分割目标进行图像分割，以此，使得掩码解码器加强分割目标相应的像素的权重表达。

在一些实施方式中，该提取该图像分割模型倒数第二个卷积模块生成的图像特征作为高层图像特征，包括：提取该掩码解码器倒数在图像分割处理下第二个卷积模块生成的图像特征作为高层图像特征。

其中，掩码解码器可以整合目标中间图像特征，解码出最终的分割掩码，即该掩码解码器的输出层可以输出最终分割掩码的图像，然而由于非自然图像与自然图像的图像模态不同，因此，该掩码解码器对于非自然图像输出的分割结果是不准确的，所以不需要该掩码解码器的分割结果，而是提取靠近输出层的高层图像特征，因为随着掩码解码器的不断加深，卷积提取到的特征逐渐清晰且携带的分类信息越多，可以将掩码解码器在图像分割处理下倒数第二个卷积模块输出的图像特征作为高层图像特征，该高层图像特征映射了每个像素经过图像分割模型进行预测之后的预测类别信息。

在步骤204中，将高层图像特征输入预设解码器进行特征卷积处理，通过特征卷积处理将高层图像特征转化为预测分割结果。

其中，由于非自然图像所需的分割结果和自然图像的分割结果不同，因此，本申请实施例不通过图像分割模型输出预测分割结果，而是通过在预设解码器来实现预测分割结果的输出，该预测解码器为用于替换图像分割模型中掩码解码器的最后一层输出层，用于将高层图像特征转化为非自然图像的分割结果，该预设解码器由多个简单的卷积块组成，例如由两个卷积块组成，第一个卷积块包括一个3乘3乘3的卷积层、ReLU激活层和批标准化层组成，第二个卷积块包括1*1*1的卷积层、ReLU激活层和批标准化层组成，以此，可以将该高层图像特征输入预设解码器进行特征卷积处理，由倒数第二个卷积块输出即为最终的分割结果。

在一些实施方式中，当该待训练图像为三维图像时，还有进一步拼接，即该将高层图像特征输入预设解码器，得到预设解码器输出的预测分割结果，包括：

（1）将所述高层图像特征输入预设解码器进行特征卷积处理，通过特征卷积处理将所述高层图像特征转化为每个二维图像特征相应的分割结果；

（2）获取每个二维图像特征的三维位置信息；

（3）根据该三维位置信息将每个二维图像特征的分割结果进行拼接，得到预测分割结果。

其中，可以将每个二维图像特征的高层图像特征依次独立的输入该预设解码器进行特征卷积处理，由该预设解码器依次输出每个二维图像特征相应的分割结果，由于之前记录了每个二维图像特征的三维位置信息，以此，可以根据该三维位置信息将每个二维图像特征的分割结果进行对堆叠，得到三维图像形式的待训练图像样本的预测分割结果。

在步骤205中，根据预测分割结果和分割标签之间的关系，生成相应的损失函数。

其中，该损失函数是用于衡量预设编码器的特征提取误差和预设解码器的分割误差的函数，其体现了两者的训练效果，该损失函数越小，说明预设编码器和预设解码器训练得越好。

在一个实施例中，该损失函数可以表示为如下公式：

其中，该L代表损失函数，其中为预测分割结果，为分割标签，| |代表区域的面积，ε是平滑系数，一般设为1。

以此，可以基于预测分割结果和分割标签之间的空间关系，生成相应的损失函数，该损失函数用于后续训练预设编码器和预设解码器。

在一些实施方式中，该根据预测分割结果和分割标签之间的关系，生成相应的损失函数，包括：

（1）获取该预测分割结果和分割标签的交集面积；

（2）计算该预测分割结果和该分割标签的面积之和，得到目标面积；

（3）根据该交集面积和该目标面积，构建相应的损失函数。

其中，请继续参阅上述公式，可以通过获取预测分割结果和分割标签的交集面积，通过计算出该预测分割结果和分割标签的面积之和，得到目标面积，以此，将交集面积乘以2与相应的目标面积的比值构建损失函数，期望预测分割结果和分割标签的交集尽量重叠，损失接近于0，实现准确的分割。

在步骤206中，基于损失函数对图像分割模型中的预设编码器和预设解码器进行迭代训练，直至损失函数满足预设条件，得到训练后的图像分割模型。

其中，可以基于该损失函数对预设编码器和预设解码器进行训练，直至该损失函数满足预设条件，得到训练后的图像分割模型，所述训练后的图像分割模型至少由训练后的预设编码器、所述预训练后的自然图像分割模型和训练后的预设解码器构成。其中，预设条件可以为：损失函数的损失值小于预设值、损失函数的损失值不再变化、或者训练次数达到预设次数等。以此，得到训练后的图像分割模型，所述训练后的图像分割模型至少由训练后的预设编码器、所述预训练后的自然图像分割模型和训练后的预设解码器，在利用自然图像分割模型的分割推理能力的基础上，使得该预设编码器可以实现对非自然图像准确的特征提取，该预设解码器可以实现对非自然图像准确的图像分割，避免灾难性遗忘，极大的提升了对非自然图像的分割的准确性。

在一些实施方式中，该基于损失函数对图像分割模型中的预设编码器和预设解码器进行迭代训练，直至损失函数满足预设条件，得到训练后的图像分割模型，包括：基于所述损失函数对所述图像分割模型中的所述预设编码器、所述预设解码器和所述预设提示编码器进行迭代训练，直至所述损失函数满足预设条件，得到训练后的图像分割模型，所述训练后的图像分割模型至少由训练后的预设编码器、训练后的预设提示编码器、所述预训练后的自然图像分割模型和训练后的预设解码器构成。

其中，还可以基于该损失函数对预设编码器、预设提示编码器和预设解码器进行训练，直至该损失函数满足预设条件，得到训练后的预设编码器、训练后的预设提示编码器和训练后的预设解码器。以此，得到训练后的预设编码器、训练后的预设提示编码器和训练后的预设解码器，在利用预训练后的自然图像分割模型的分割推理能力的基础上，使得该预设编码器可以实现对非自然图像准确的特征提取，该预设提示编码器可以根据语句实现准确的文本向量表征，输出相应的文本向量，用于提示预训练后的自然图像分割模型在进行分割处理时应该注意的分割目标，该预设解码器可以实现根据高层图像特征对非自然图像上的分割目标准确的图像分割，实现后续可以根据对象输入的文字需求来实现图像分割，在提升了对非自然图像的分割的准确性下，还提升了分割的多样性。

由上述可知，本申请实施例通过获取待训练图像样本以及图像分割模型，图像分割模型至少由预设编码器、预训练后的自然图像分割模型和预设解码器构成；将待训练图像样本输入预设编码器进行图像卷积处理，得到预设编码器经过图像卷积处理后输出的中间图像特征；将中间图像特征输入预训练后的自然图像分割模型进行图像分割处理，并提取预训练后的自然图像分割模型在图像分割处理下生成的高层图像特征；将高层图像特征输入预设解码器进行特征卷积处理，通过特征卷积处理将高层图像特征转化为预测分割结果；根据预测分割结果和分割标签之间的关系，生成相应的损失函数；基于损失函数对图像分割模型中的预设编码器和预设解码器进行迭代训练，直至损失函数满足预设条件，得到训练后的图像分割模型，训练后的图像分割模型至少由训练后的预设编码器、预训练后的自然图像分割模型和训练后的预设解码器构成。以此，通过固定预训练后的自然图像分割模型的模型参数，利用其分割能力，对预设编码器的特征提取能力进行训练，对预设解码器的分割能力进行训练，相对于相关技术在自然图像上训练得到的图像分割模型，再在医疗图像上进行微调训练的方案，本申请实施例可以避免灾难性遗忘，极大提升了训练后的图像分割模型的分割准确率。

结合上述实施例所描述的方法，以下将举例作进一步详细说明。

在本实施例中，将以该图像分割模型训练装置具体集成在服务器中为例进行说明。

本申请实施例提供的图像分割模型训练方法即可以根据二维图像的待训练图像样本进行模型训练，也可以根据三维图像的待训练图像样本进行模型训练。在本申请实施例中，将该待训练图像样本为医疗图像为例进行说明。

为了更好的说明本申请实施例，请一并参阅图8，图8为本申请实施例提供的图像分割模型训练方法的另一流程示意图。该方法流程即为二维图像的待训练图样样本进行模型训练的流程，可以包括：

在步骤301中，服务器检测到当待训练图像样本为二维图像时，将待训练图像样本输入下采样模块进行下采样卷积处理，得到第一图像特征。

其中，即该预训练后的自然图像分割模型无法准确的提取出医疗图像的图像特征，因此，将提取医疗图像的图像特征功能设置由该预设编码器实现，请继续参阅图5所示，可以将该待训练图像样本输入预设编码器中的下采样模块进行下采样卷积处理，通过每个卷积块卷积提取图像特征，并通过最大池化层处理，得到多个第一图像特征。

在步骤302中，服务器将第一图像特征输入连接模块进行卷积处理，得到相应的第二图像特征。

其中，将下采样模块最后输出的第一图像特征输入连接模块进行卷积处理，得到相应的第二图像特征。

在步骤303中，服务器将第二图像特征输入上采样模块进行上采样卷积处理，并结合第一图像特征进行特征融合，得到第三图像特征。

其中，将该第二图像特征输入该上采样模块进行上采样卷积处理，通过每个卷积块的上卷积层处理、特征拼接处理和卷积处理，得到多个第三图像特征，以此，实现医疗图像的图像特征提取。

在步骤304中，服务器提取上采样模块经过上采样卷积处理后输出的第三图像特征作为中间图像特征。

在步骤305中，服务器将中间图像特征输入图像编码器的第二个卷积模块进行编码处理，得到编码处理后的目标中间图像特征。

为了更好的说明本申请实施例，以该预训练后的自然图像分割模型为SAM模型为例进行说明，该SAM模型包括图像编码器、提示编码器和掩码解码器。

其中，请继续参阅图6，该图像编码器的第一个卷积模块为将自然图像转换为图像特征的卷积模块，由于该图像特征提取功能由预设编码器实现，因此，可以将该图像编码器的第一个卷积模块删除，将该中间图像特征输入图像编码器的第二个卷积模块进行图像分割处理。

该图像编码器会继续对该中间图像特征进行编码处理，得到编码处理后的目标中间图像特征。

在步骤306中，服务器接收目标语句样本，将目标语句样本输入预设提示编码器进行文本向量化表征，输出相应的文本向量。

需要说明的是，在本申请实施例中，由于自然图像和医疗图像之间的模态差异，会导致该预训练后的自然图像分割模型中通过自然图像训练出来的提示编码器无法在医疗图像的场景上使用，因此，会将该提示编码器直接删除。以此，在分割任务为单一任务的情况下，可以直接将该目标中间图像特征输入掩码解码器实现语义分割。

但是，在分割任务为面向多种分割任务，甚至不确定分割目标的任务时，需要语义理解模型，用来提示预训练后的自然图像分割模型需要分割的目标，由于医疗图像的场景中出现的术语，该图像分割模型可能无法正确理解，因此还需要设置一个预设提示编码器来替代该提示编码器。

基于此，可以接收目标语句样本，该目标语句样本可以提示预训练后的自然图像分割模型需要分割的目标，例如该目标语句样本可以为医疗相关，例如“白细胞”或者“淋巴”。

在一种实施方式中，该预设提示编码器可以为预训练好的语义提取模型，例如ClinicalBert的特征提取部分，由于该ClinicalBert则代表专门用于学习医疗文本的向量的BERT模型，以此，可以将该医疗相关的目标语句样本输入该ClinicalBert，可以输出准确的文本向量。

在步骤307中，服务器将目标中间图像特征和文本向量一并输入掩码解码器进行图像分割处理。

其中，可以将该目标中间图像特征和该文本向量一并输入掩码解码器，以使得该掩码解码器根据文本向量提示的分割目标对该目标中间图像特征进行图像分割处理，以此，使得掩码解码器加强分割目标相应的像素的权重表达。

在步骤308中，服务器提取掩码解码器在图像分割处理下倒数第二个卷积模块生成的图像特征作为高层图像特征。

其中，掩码解码器解码出最终的分割掩码，即该掩码解码器的输出层可以输出最终分割掩码的图像，然而由于医疗图像与自然图像的图像模态不同，因此，该掩码解码器对于医疗图像输出的分割结果是不准确的，所以不需要该掩码解码器的分割结果，而是提取靠近输出层的高层图像特征，因为随着掩码解码器的不断加深，卷积提取到的特征逐渐清晰且携带的分类信息越多，所以可以将掩码解码器倒数第二个卷积模块输出的图像特征作为高层图像特征，该高层图像特征映射了每个像素经过图像分割模型进行预测之后的预测类别信息，并且通过文本向量提示，对于文本向量对应的分割目标相应像素的预测类别信息的自注意力权重会较高，使得可以更准确的识别出该文本向量对应的分割目标。

在步骤309中，将高层图像特征输入预设解码器进行特征卷积处理，通过特征卷积处理将高层图像特征转化为预测分割结果。

其中，由于医疗图像所需的分割结果和自然图像的分割结果不同，因此，本申请实施例不通过预训练后的自然图像分割模型输出预测分割结果，而是通过在预设解码器来实现预测分割结果的输出，该预测解码器为用于替换预训练后的自然图像分割模型中掩码解码器的最后一层输出层，用于将高层图像特征转化为医疗图像的预设分割结果，该预设解码器由两个卷积块组成，第一个卷积块包括一个3乘3乘3的卷积层、ReLU激活层和批标准化层组成，第二个卷积块包括1*1*1的卷积层、ReLU激活层和批标准化层组成，以此，可以将该高层图像特征输入预设解码器进行特征卷积处理，由第二个卷积块输出最终的分割结果。

在步骤310中，服务器获取预测分割结果和分割标签的交集面积，计算预测分割结果和分割标签的面积之和，得到目标面积，根据交集面积和目标面积，构建相应的损失函数。

该损失函数可以表示为如下公式：

在步骤311中，服务器基于损失函数对图像分割模型中的预设编码器和预设解码器进行迭代训练，直至损失函数满足预设条件，得到训练后的图像分割模型。

其中，可以基于该损失函数对图像分割模型中的预设编码器和预设解码器进行训练，直至该损失函数满足预设条件，得到训练后的预设编码器和预设解码器。其中，预设条件可以为：损失函数小于预设值、损失函数的损失值不再变化、或者训练次数达到预设次数等。以此，得到训练后的预设编码器和预设解码器，在利用预训练后的自然图像分割模型的分割推理能力的基础上，使得该预设编码器可以实现对医疗图像准确的特征提取，该预设解码器可以实现对医疗图像准确的图像分割，避免灾难性遗忘，极大的提升了对医疗图像的分割的准确性。

为了更好的说明本申请实施例，请一并参阅图9，图9为本申请实施例提供的图像分割模型训练方法的另一流程示意图。该方法流程即为三维图像的待训练图样样本进行模型训练的流程，可以包括：

在步骤401中，服务器检测到当待训练图像样本为三维图像时，将待训练图像样本输入三维卷积层进行三维卷积处理，得到三维图像特征。

其中，由于医疗图像中存在部分三维图像，为了提升网络的泛化能力，希望预设编码器也能处理三维图像，目前的做法为将卷积网络中的二维卷积层改为三维卷积层，实现对三维图像的处理，但是由于预训练后的自然图像分割模型的网络参数是固定的，因此，该预训练后的自然图像分割模型的卷积层的维度也是固定的，无法实现升维操作，因此，当该待训练图像为三维图像时，还需要对该待训练图像样本进行降维处理。

其中，请继续参阅图5所示，可以在该U-Net网络上额外设置降维模块，该降维模块至少包括三维卷积层和目标池化层，该三维卷积层可以为5乘5乘5的三维卷积层，该目标池化层的核函数可以为1乘1乘19。

当该待训练图像为三维图像时，会启用该降维模块，将该待训练图像样本输入该三维卷积层进行三维卷积处理，并且还可以接ReLU激活函数和批标准化处理，得到三维图像特征，由于该由于三维图像是由一组堆栈的二维图像组成，因此该三维图像特征也由多个初始二维图像特征组成。

在步骤402中，服务器将三维图像特征输入目标池化层，进行不同层的初始二维图像特征之间的空间关系表征处理，得到目标三维图像特征，获取目标三维图像特征相应的多个二维图像特征。

其中，由于初始二维图像特征之间在空间上具有一定的关联性。以此，还需要通过目标池化层对三维图像特征进行池化处理，与最大池化层不同的是，该目标池化层不对图像特征进行降采样处理，而是找到每个二维图像的像素点在领域的二维图像范围内相同的像素点上的最大特征作为该点的特征，实现考虑不同的二维图像特征之间的空间关系，得到目标三维图像特征，该目标三维图像特征由多个二维图像特征，进而，将该三维图像特征拆开，得到相应的多个二维图像特征。

在步骤403中，服务器将每个二维图像特征依次输入下采样模块进行下采样卷积处理，得到第四图像特征，将第四图像特征输入连接模块进行卷积处理，得到相应的第五图像特征。

进一步的，将下采样模块最后输出的第四图像特征输入连接模块进行卷积处理，得到相应的第五图像特征。

在步骤404中，服务器将第五图像特征输入上采样模块进行上采样卷积处理，并结合相应的第四图像特征进行特征融合，得到第六图像特征。

其中，将该第五图像特征输入该上采样模块进行上采样卷积处理，通过每个卷积块的上卷积层处理、特征拼接处理和卷积处理，得到多个第六图像特征，以此，实现对三维的医疗图像的图像特征提取。

在步骤405中，服务器提取上采样模块经过上采样卷积处理后输出的第六图像特征作为中间图像特征。

其中，由于该U-Net网络最后一个卷积模型一般为分类输出层，也可以理解为分类器，而该U-Net网络是用于提取待训练图像样本的图像特征，不需要分类结果，相应的，越接近该分类输出层的卷积模块提取的图像特征的细节越多，因此，本申请实施例直接将该上采样模块最后一个卷积块输出的第六图像特征作为中间图像特征，需要说明的是，可以得到每个二维图像特征的中间图像特征，并且记录每个二维图像特征的三维位置信息，以此，在每个二维图像特征实现图像分割之后，可以根据三维位置信息拼接回去，实现对三维图像的待训练图像样本的图像分割。在实际实现中可以通过矩阵的形状改来实现(原本图像特征通道图的维数是N*C*D*H*W，改变后变为ND*C*H*W，其中N，C，D，H，W分别为图像数量，特征通道数，图像深度，高度和长度)，该图像深度即可以为三维位置信息，因此不影响训练过程中整个网络的反向传导。

在步骤406中，服务器将中间图像特征输入图像编码器的第二个卷积模块进行编码处理，得到编码处理后的目标中间图像特征。

其中，该图像编码器的第一个卷积模块为将自然图像转换为图像特征的卷积模块，由于该图像特征提取功能由预设编码器实现，因此，可以将该图像编码器的第一个卷积模块删除，将该中间图像特征输入图像编码器的第二个卷积模块进行图像分割处理。

在步骤407中，服务器接收目标语句样本，将目标语句样本输入预设提示编码器进行文本向量化表征，输出相应的文本向量。

需要说明的是，在本申请实施例中，由于自然图像和医疗图像之间的模态差异，会导致该图像分割模型中通过自然图像训练出来的提示编码器无法在医疗图像的场景上使用，因此，会将该提示编码器直接删除。以此，在分割任务为单一任务的情况下，可以直接将该目标中间图像特征输入掩码解码器实现语义分割。

但是，在分割任务为面向多种分割任务，甚至不确定分割目标的任务时，需要语义理解模型，用来提示预训练后的自然图像分割模型需要分割的目标，由于医疗图像的场景中出现的术语，该图预训练后的自然图像分割模型可能无法正确理解，因此还需要设置一个预设提示编码器来替代该提示编码器。

基于此，可以接收目标语句样本，该目标语句样本可以提示图像分割模型需要分割的目标，例如该目标语句样本可以为医疗相关，例如“白细胞”或者“淋巴”。

在步骤408中，服务器将目标中间图像特征和文本向量一并输入掩码解码器进行图像分割处理。

其中，可以将该目标中间图像特征和该文本向量一并输入掩码解码器，以使得该掩码解码器根据文本向量提示的分割目标进行图像分割，以此，使得掩码解码器加强分割目标相应的像素的权重表达。

在步骤409中，服务器提取掩码解码器在图像分割处理下倒数第二个卷积模块生成的图像特征作为高层图像特征。

其中，掩码解码器解码出最终的分割掩码，即该掩码解码器的输出层可以输出最终分割掩码的图像，然而由于医疗图像与自然图像的图像模态不同，因此，该掩码解码器对于医疗图像输出的分割结果是不准确的，所以不需要该掩码解码器的分割结果，而是提取靠近输出层的高层图像特征，因为随着掩码解码器的不断加深，卷积提取到的特征逐渐清晰且携带的分类信息越多，可以将掩码解码器倒数第二个卷积模块输出的图像特征作为高层图像特征，该高层图像特征映射了每个像素经过图像分割模型进行预测之后的预测类别信息，并且通过文本向量提示，对于文本向量对应的分割目标相应像素的预测类别信息的自注意力权重会较高，使得后续可以更准确的识别出该文本向量对应的分割目标。

在步骤410中，服务器将高层图像特征输入预设解码器进行特征卷积处理，通过特征卷积处理将高层图像特征转化为每个二维图像特征相应的分割结果，获取每个二维图像特征的三维位置信息，根据三维位置信息将每个二维图像特征的分割结果进行拼接，得到预测分割结果。

其中，可以将每个二维图像特征的高层图像特征依次独立的输入该预设解码器，由该预设解码器依次输出每个二维图像特征相应的分割结果，由于之前记录了每个二维图像特征的三维位置信息，以此，可以根据该三维位置信息将每个二维图像特征的分割结果进行对堆叠，得到三维图像形式的待训练图像样本的预测分割结果。从输出结果来看，即将输出的ND*H*W的矩阵变为N*D*H*W的矩阵，即实现对三维图像的分割结果处理。

在步骤411中，服务器获取预测分割结果和分割标签的交集面积，计算预测分割结果和分割标签的面积之和，得到目标面积，根据交集面积和目标面积，构建相应的损失函数。

该损失函数可以表示为如下公式：

在步骤412中，服务器基于损失函数对图像分割模型中的预设编码器和预设解码器进行迭代训练，直至损失函数满足预设条件，得到训练后的图像分割模型。

其中，可以基于该损失函数对预设编码器和预设解码器进行训练，直至该损失函数满足预设条件，得到训练后的预设编码器和预设解码器。其中，预设条件可以为：损失函数小于预设值、损失函数的损失值不再变化、或者训练次数达到预设次数等。以此，得到训练后的预设编码器和预设解码器，在利用预训练后的自然图像分割模型的分割推理能力的基础上，使得该预设编码器可以实现对医疗图像准确的特征提取，该预设解码器可以实现对医疗图像准确的图像分割，避免灾难性遗忘，极大的提升了对医疗图像的分割的准确性。

以此，通过上述实施方式，实现对二维图像的待训练图像样本进行模型训练以及三维图像的待训练图像样本进行模型训练，每个待训练图像样本反复训练1000次。

在一些实施方式中，为了更好的说明本申请实施例，请一并参阅图10所示，图10为本申请实施例提供的图像分割模型训练方法的架构示意图，将该待训练图像输入预设编码器，提取预设编码器倒数第二个卷积模块输出的中间图像特征，通过预设提示编码器对目标语句样本进行文本向量表征。将该中间图像特征和文本向量输入预训练后的自然图像分割模型进行图像分割处理，指示预训练后的自然图像分割模型根据文本向量提示的分割目标进行图像分割，以此，使得预训练后的自然图像分割模型中的掩码解码器加强分割目标相应的像素的权重表达。并提取该预训练后的自然图像分割模型的高层图像特征，将该高层图像特征输入预设解码器输出的预测分割结果，并根据该预测分割结果和分割标签之间的关系，生成相应的损失函数对预设编码器、预设提示编码器和预设加码器进行迭代训练，直至该损失函数满足预设条件，得到训练后的图像分割模型，所述训练后的图像分割模型至少由训练后的预设编码器、训练后的预设提示编码器、所述预训练后的自然图像分割模型和训练后的预设解码器构成，避免训练后的图像分割模型灾难性遗忘，提升了图像分割的准确性。

由上述可知，本申请实施例本申请实施例通过获取待训练图像样本以及图像分割模型，图像分割模型至少由预设编码器、预训练后的自然图像分割模型和预设解码器构成；将待训练图像样本输入预设编码器进行图像卷积处理，得到预设编码器经过图像卷积处理后输出的中间图像特征；将中间图像特征输入预训练后的自然图像分割模型进行图像分割处理，并提取预训练后的自然图像分割模型在图像分割处理下生成的高层图像特征；将高层图像特征输入预设解码器进行特征卷积处理，通过特征卷积处理将高层图像特征转化为预测分割结果；根据预测分割结果和分割标签之间的关系，生成相应的损失函数；基于损失函数对图像分割模型中的预设编码器和预设解码器进行迭代训练，直至损失函数满足预设条件，得到训练后的图像分割模型，训练后的图像分割模型至少由训练后的预设编码器、预训练后的自然图像分割模型和训练后的预设解码器构成。以此，通过固定预训练后的自然图像分割模型的模型参数，利用其分割能力，对预设编码器的特征提取能力进行训练，对预设解码器的分割能力进行训练，相对于相关技术在自然图像上训练得到的图像分割模型，再在医疗图像上进行微调训练的方案，本申请实施例可以避免灾难性遗忘，极大提升了训练后的图像分割模型的分割准确率。

进一步的，本申请实施例还可以根据根据语句的文本向量指导图像分割，实现后续可以根据对象输入的文字需求来实现目标物体的图像分割，还提升了分割的多样性。

在本实施例中，将从图像处理装置的角度进行描述，该图像处理装置具体可以集成在具备储存单元并安装有微处理器而具有运算能力的计算机设备中，计算机设备可以为服务器。

请参阅图11，图11是本申请实施例提供的图像处理方法的流程示意图。该图像分割模型训练方法包括：

在步骤601中，获取待识别图像和根据图像分割模型训练方法进行训练得到的训练后的图像分割模型。

其中，可以获取待识别图像以及，该待识别图像可以为非自然图像，例如医疗图像，上述图像分割模型训练方法训练出的训练后的图像分割模型，所述训练后的图像分割模型至少由训练后的预设编码器、预训练后的自然图像分割模型和训练后的预设解码器构成。

在步骤602中，将待识别图像输入训练后的预设编码器进行图像卷积处理，得到训练后的预设编码器输出的待识别中间图像特征。

其中，可以将该待识别图像输入训练后的预设编码器，得到输出准确的待识别中间图像特征。

在步骤603中，将待识别中间图像特征输入预训练后的自然图像分割模型进行图像分割处理，并提取预训练后的自然图像分割模型在图像分割处理下生成的待识别高层图像特征。

其中，本申请实施例冻结该预训练后的自然图像分割模型的模型参数，利用其的分割推理能力，可以将该待识别中间图像特征输入预训练后的自然图像分割模型进行图像分割处理，提取该预训练后的自然图像分割模型在图像分割处理下生成的待识别高层图像特征。例如该高层图像特征可以为预训练后的自然图像分割模型倒数第二个卷积模块输出的图像特征。

在步骤604中，将待识别高层图像特征输入训练后的预设解码器进行特征卷积处理，通过特征卷积处理将待识别高层图像特征转化为目标分割结果输出。

其中，可以将该待识别高层图像特征输入训练后的预设解码器进行特征卷积处理，该训练后的预设解码器可以实现对非自然图像准确的图像分割，通过特征卷积处理将待识别高层图像特征转化为目标分割结果输出，避免灾难性遗忘，极大的提升了对非自然图像的分割的准确性，得到输出的目标分割结果。

在一些实施方式中，还包括：

（1）接收输入的待识别语句；

（2）将该待识别语句输入预设编码器，输出相应的目标文本向量；

将所述待识别中间图像特征输入所述预训练后的自然图像分割模型进行图像分割处理，并提取所述预训练后的自然图像分割模型在图像分割处理下生成的待识别高层图像特征，包括：

（3）将所述待识别中间图像特征和所述目标文本向量一并输入所述预训练后的自然图像分割模型进行图像分割处理，并提取所述预训练后的自然图像分割模型在图像分割处理下生成的待识别高层图像特征。

其中，还可以接收对象输入的待识别语句，将该待识别语句输入预设编码器，输出准确的相应的目标文本向量，进而将该待识别高层图像特征和该目标文本向量一并输入输入所述预训练后的自然图像分割模型进行图像分割处理，输出在待识别语句相应的目标文本向量指引下对应的待识别高层图像特征，通过目标文本向量提示，对于目标文本向量对应的分割目标相应像素的预测类别信息的自注意力权重会较高，使得后续可以更准确的识别出该目标文本向量对应的分割目标。

以上各个步骤的具体实施可参见前面的实施例，在此不再赘述。

为便于更好的实施本申请实施例提供的图像分割模型训练方法，本申请实施例还提供一种基于上述图像分割模型训练方法的装置。其中名词的含义与上述图像分割模型训练方法中相同，具体实现细节可以参考方法实施例中的说明。

请参阅图12，图12为本申请实施例提供的图像分割模型训练装置的结构示意图，该图像分割模型训练装置应用于发送设备，其中该图像分割模型训练装置可以包括获取单元601，第一输入单元602、第二输入单元603、第三输入单元604、生成单元605及训练单元606等。

获取单元601，用于获取待训练图像样本以及图像分割模型，所述图像分割模型至少由预设编码器、预训练后的自然图像分割模型和预设解码器构成。

第一输入单元602，用于将所述待训练图像样本输入所述预设编码器进行图像卷积处理，得到所述预设编码器经过图像卷积处理后输出的中间图像特征。

在一些实施方式中，该第一输入单元602，包括：

第一提取子单元（未标识），用于将所述待训练图像样本输入预设编码器进行图像卷积处理；

第二提取子单元（未标识），用于提取所述预设编码器经过图像卷积处理后倒数第二个卷积模块生成的图像特征作为中间图像特征。

在一些实施方式中，该第一提取子单元（未标识），包括：

二维处理子模块（未标识），用于当所述待训练图像样本为二维图像时，将所述待训练图像样本输入预设编码器进行图像卷积处理。

在一些实施方式中，该预设编码器包括下采样模块、连接模块和上采样模块；该二维处理子模块（未标识），用于：

当该待训练图像样本为二维图像时，将该待训练图像样本输入该下采样模块进行下采样卷积处理，得到第一图像特征；

将该第一图像特征输入该连接模块进行卷积处理，得到相应的第二图像特征；

将该第二图像特征输入该上采样模块进行上采样卷积处理，并结合该第一图像特征进行特征融合，得到第三图像特征；

该第二提取子单元（未标识），用于：

在一些实施方式中，该第一提取子单元（未标识），还包括：

降维子模块（未标识），用于当该待训练图像样本为三维图像时，将该待训练图像样本进行降维处理，得到多个二维图像特征；

图像卷积处理子模块（未标识），用于将每个二维图像特征输入预设编码器进行图像卷积处理。

在一些实施例中，该预设编码器包括降维模块，该降维模块至少包括三维卷积层和目标池化层；该降维子模块（未标识），还用于：

将该三维图像特征输入该目标池化层，进行不同层的初始二维图像特征之间的空间关系表征处理，得到目标三维图像特征；

获取该目标三维图像特征相应的多个二维图像特征。

在一些实施例中，该预设编码器还包括下采样模块、连接模块和上采样模块；该特征提取子模块（未标识），用于：

将每个二维图像特征依次输入该下采样模块进行下采样卷积处理，得到第四图像特征；

将该第四图像特征输入该连接模块进行卷积处理，得到相应的第五图像特征；

将该第五图像特征输入该上采样模块进行上采样卷积处理，并结合相应的该第四图像特征进行特征融合，得到第六图像特征；

该第二提取子单元（未标识），用于：

第二输入单元603，用于将所述中间图像特征输入所述预训练后的自然图像分割模型进行图像分割处理，并提取所述预训练后的自然图像分割模型在图像分割处理下生成的高层图像特征。

在一些实施例中，该第二输入单元603，包括：

输入子单元（未标识），用于将所述中间图像特征输入预训练后的自然图像分割模型的第二个卷积模块进行图像分割处理；

提取子单元（未标识），用于提取所述预训练后的自然图像分割模型在图像分割处理下倒数第二个卷积模块生成的图像特征作为高层图像特征。

在一些实施例中，该预训练后的自然图像分割模型至少包括图像编码器和掩码解码器，该输入子单元（未标识），用于：

在一些实施例中，该装置，还包括语句输入单元（未标识），用于：

接收目标语句样本；

将该目标语句样本输入预设提示编码器，输出相应的文本向量；

该输入子单元（未标识），还用于：

将该中间图像特征输入图像编码器的第二个卷积模块进行编码处理，得到编码处理后的目标中间图像特征；

在一些实施例中，该提取子单元（未标识），还用于：

第三输入单元604，用于将所述高层图像特征输入所述预设解码器进行特征卷积处理，通过特征卷积处理将所述高层图像特征转化为预测分割结果。

在一些实施例中，该第三输入单元604，用于：

获取每个二维图像特征的三维位置信息；

生成单元605，用于根据所述预测分割结果和分割标签之间的关系，生成相应的损失函数。

在一些实施例中，该生成单元605，用于：

获取该预测分割结果和分割标签的交集面积；

计算该预测分割结果和该分割标签的面积之和，得到目标面积；

根据该交集面积和该目标面积，构建相应的损失函数。

训练单元606，用于基于所述损失函数对所述图像分割模型中的所述预设编码器和所述预设解码器进行迭代训练，直至所述损失函数满足预设条件，得到训练后的图像分割模型，所述训练后的图像分割模型至少由训练后的预设编码器、所述预训练后的自然图像分割模型和训练后的预设解码器构成。

在一些实施例中，该训练单元606，用于：

以上各个单元的具体实施可参见前面的实施例，在此不再赘述。

由上述可知，本申请实施例通过获取单元601获取待训练图像样本以及图像分割模型，图像分割模型至少由预设编码器、预训练后的自然图像分割模型和预设解码器构成；第一输入单元602将待训练图像样本输入预设编码器进行图像卷积处理，得到预设编码器经过图像卷积处理后输出的中间图像特征；第二输入单元603将中间图像特征输入预训练后的自然图像分割模型进行图像分割处理，并提取预训练后的自然图像分割模型在图像分割处理下生成的高层图像特征；第三输入单元604将高层图像特征输入预设解码器进行特征卷积处理，通过特征卷积处理将高层图像特征转化为预测分割结果；生成单元605根据预测分割结果和分割标签之间的关系，生成相应的损失函数；训练单元606基于损失函数对图像分割模型中的预设编码器和预设解码器进行迭代训练，直至损失函数满足预设条件，得到训练后的图像分割模型，训练后的图像分割模型至少由训练后的预设编码器、预训练后的自然图像分割模型和训练后的预设解码器构成。以此，通过固定预训练后的自然图像分割模型的模型参数，利用其分割能力，对预设编码器的特征提取能力进行训练，对预设解码器的分割能力进行训练，相对于相关技术在自然图像上训练得到的图像分割模型，再在医疗图像上进行微调训练的方案，本申请实施例可以避免灾难性遗忘，极大提升了训练后的图像分割模型的分割准确率。

为便于更好的实施本申请实施例提供的图像处理方法，本申请实施例还提供一种基于上述图像处理方法的装置。其中名词的含义与上述图像处理方法中相同，具体实现细节可以参考方法实施例中的说明。

请参阅图13，图13为本申请实施例提供的图像处理装置的结构示意图，该图像处理装置应用于服务器，其中该图像处理装置可以包括第一输入单元702、第二输入单元703及第三输入单元704等。

获取单元701，用于获取待识别图像和根据上述图像分割模型训练方法进行训练得到的训练后的图像分割模型，所述训练后的图像分割模型至少由训练后的预设编码器、预训练后的自然图像分割模型和训练后的预设解码器构成。

第一输入单元702，用于将所述待识别图像输入所述训练后的预设编码器进行图像卷积处理，得到所述训练后的预设编码器输出的待识别中间图像特征。

第二输入单元703，用于将所述待识别中间图像特征输入所述预训练后的自然图像分割模型进行图像分割处理，并提取所述预训练后的自然图像分割模型在图像分割处理下生成的待识别高层图像特征。

第三输入单元704，用于将所述待识别高层图像特征输入训练后的预设解码器进行特征卷积处理，通过特征卷积处理将所述待识别高层图像特征转化为目标分割结果输出。

在一些实施方式中，该装置还包括语句处理单元（未标识），用于：

接收输入的待识别语句；

将该待识别语句输入预设编码器，输出相应的目标文本向量；

该第二输入单元703，还用于：

所述待识别中间图像特征和所述目标文本向量一并输入所述预训练后的自然图像分割模型进行图像分割处理，并提取所述预训练后的自然图像分割模型在图像分割处理下生成的待识别高层图像特征。

本申请实施例还提供一种计算机设备，如图14所示，其示出了本申请实施例所涉及的服务器的结构示意图，具体来讲：

该计算机设备可以包括一个或者一个以上处理核心的处理器801、一个或一个以上计算机可读存储介质的存储器802、电源803和输入单元804等部件。本领域技术人员可以理解，图14中示出的计算机设备结构并不构成对计算机设备的限定，可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件布置。其中：

处理器801是该计算机设备的控制中心，利用各种接口和线路连接整个计算机设备的各个部分，通过运行或执行存储在存储器802内的软件程序和/或模块，以及调用存储在存储器802内的数据，执行计算机设备的各种功能和处理数据，从而对计算机设备进行整体监测。可选的，处理器801可包括一个或多个处理核心；可选的，处理器801可集成应用处理器和调制解调处理器，其中，应用处理器主要处理操作系统、对象界面和应用程序等，调制解调处理器主要处理无线通信。可以理解的是，上述调制解调处理器也可以不集成到处理器801中。

存储器802可用于存储软件程序以及模块，处理器801通过运行存储在存储器802的软件程序以及模块，从而执行各种功能应用以及数据处理。存储器802可主要包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需的应用程序（比如声音播放功能、图像播放功能等）等；存储数据区可存储根据服务器的使用所创建的数据等。此外，存储器802可以包括高速随机存取存储器，还可以包括非易失性存储器，例如至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。相应地，存储器802还可以包括存储器控制器，以提供处理器801对存储器802的访问。

计算机设备还包括给各个部件供电的电源803，可选的，电源803可以通过电源管理系统与处理器801逻辑相连，从而通过电源管理系统实现管理充电、放电、以及功耗管理等功能。电源803还可以包括一个或一个以上的直流或交流电源、再充电系统、电源故障检测电路、电源转换器或者逆变器、电源状态指示器等任意组件。

计算机设备还可包括输入单元804，该输入单元804可用于接收输入的数字或字符信息，以及产生与对象设置以及功能控制有关的键盘、鼠标、操作杆、光学或者轨迹球信号输入。

尽管未示出，计算机设备还可以包括显示单元等，在此不再赘述。具体在本实施例中，计算机设备中的处理器801会按照如下的指令，将一个或一个以上的应用程序的进程对应的可执行文件加载到存储器802中，并由处理器801来运行存储在存储器802中的应用程序，从而实现前述实施例提供的各种方法步骤，如下：

在上述实施例中，对各个实施例的描述都各有侧重，某个实施例中没有详述的部分，可以参见上文针对队列处理方法的详细描述，此处不再赘述。

由上述可知，本申请实施例的计算机设备可以通过获取待训练图像样本以及图像分割模型，图像分割模型至少由预设编码器、预训练后的自然图像分割模型和预设解码器构成；将待训练图像样本输入预设编码器进行图像卷积处理，得到预设编码器经过图像卷积处理后输出的中间图像特征；将中间图像特征输入预训练后的自然图像分割模型进行图像分割处理，并提取预训练后的自然图像分割模型在图像分割处理下生成的高层图像特征；将高层图像特征输入预设解码器进行特征卷积处理，通过特征卷积处理将高层图像特征转化为预测分割结果；根据预测分割结果和分割标签之间的关系，生成相应的损失函数；基于损失函数对图像分割模型中的预设编码器和预设解码器进行迭代训练，直至损失函数满足预设条件，得到训练后的图像分割模型，训练后的图像分割模型至少由训练后的预设编码器、预训练后的自然图像分割模型和训练后的预设解码器构成。以此，通过固定预训练后的自然图像分割模型的模型参数，利用其分割能力，对预设编码器的特征提取能力进行训练，对预设解码器的分割能力进行训练，相对于相关技术在自然图像上训练得到的图像分割模型，再在医疗图像上进行微调训练的方案，本申请实施例可以避免灾难性遗忘，极大提升了训练后的图像分割模型的分割准确率。

本领域普通技术人员可以理解，上述实施例的各种方法中的全部或部分步骤可以通过指令来完成，或通过指令控制相关的硬件来完成，该指令可以存储于一计算机可读存储介质中，并由处理器进行加载和执行。

为此，本申请实施例提供一种计算机可读存储介质，其中存储有多条指令，该指令能够被处理器进行加载，以执行本申请实施例所提供的任一种图像分割模型训练方法中的步骤。例如，该指令可以执行如下步骤：

根据本申请的一个方面，提供了一种计算机程序产品或计算机程序，该计算机程序产品或计算机程序包括计算机指令，该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令，处理器执行该计算机指令，使得该计算机设备执行上述实施例提供的各种可选实现方式中提供的方法。

以上各个操作的具体实施可参见前面的实施例，在此不再赘述。

其中，该计算机可读存储介质可以包括：只读存储器（ROM，Read Only Memory）、随机存取记忆体（RAM，Random Access Memory）、磁盘或光盘等。

由于该计算机可读存储介质中所存储的指令，可以执行本申请实施例所提供的任一种图像分割模型训练方法以及任一种图像处理方法中的步骤，因此，可以实现本申请实施例所提供的任一种图像分割模型训练方法以及任一种图像处理方法中所能实现的有益效果，详见前面的实施例，在此不再赘述。

以上对本申请实施例所提供的一种图像分割模型训练方法与相关方法、装置、介质及设备进行了详细介绍，本文中应用了具体个例对本申请的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本申请的方法及其核心思想；同时，对于本领域的技术人员，依据本申请的思想，在具体实施方式及应用范围上均会有改变之处，综上所述，本说明书内容不应理解为对本申请的限制。

Claims

1.一种图像分割模型训练方法，其特征在于，包括：

将所述中间图像特征输入预训练后的自然图像分割模型的第二个卷积模块进行图像分割处理；

提取所述预训练后的自然图像分割模型在图像分割处理下倒数第二个卷积模块生成的图像特征作为高层图像特征；

2.根据权利要求1所述的图像分割模型训练方法，其特征在于，所述将所述待训练图像样本输入所述预设编码器进行图像卷积处理，得到所述预设编码器经过图像卷积处理后输出的中间图像特征，包括：

将所述待训练图像样本输入预设编码器进行图像卷积处理；

提取所述预设编码器经过图像卷积处理后倒数第二个卷积模块生成的图像特征作为中间图像特征。

3.根据权利要求2所述的图像分割模型训练方法，其特征在于，所述将所述待训练图像样本输入预设编码器进行图像卷积处理，包括：

当所述待训练图像样本为二维图像时，将所述待训练图像样本输入预设编码器进行图像卷积处理。

4.根据权利要求3所述的图像分割模型训练方法，其特征在于，所述预设编码器包括下采样模块、连接模块和上采样模块；

所述将所述待训练图像样本输入预设编码器进行图像卷积处理，包括：

将所述待训练图像样本输入所述下采样模块进行下采样卷积处理，得到第一图像特征；

所述提取所述预设编码器经过图像卷积处理后倒数第二个卷积模块生成的图像特征作为中间图像特征，包括：

5.根据权利要求3所述的图像分割模型训练方法，其特征在于，所述将所述待训练图像样本输入预设编码器进行图像卷积处理，还包括：

当所述待训练图像样本为三维图像时，将所述待训练图像样本进行降维处理，得到多个二维图像特征；

将每个二维图像特征输入预设编码器进行图像卷积处理。

6.根据权利要求5所述的图像分割模型训练方法，其特征在于，所述预设编码器包括降维模块，所述降维模块至少包括三维卷积层和目标池化层；

将所述待训练图像样本进行降维处理，得到多个二维图像特征，包括：

将所述待训练图像样本输入所述三维卷积层进行三维卷积处理，得到三维图像特征，所述三维图像特征由多个初始二维图像特征组成；

获取所述目标三维图像特征相应的多个二维图像特征。

7.根据权利要求6所述的图像分割模型训练方法，其特征在于，所述预设编码器还包括下采样模块、连接模块和上采样模块；

所述将每个二维图像特征输入预设编码器进行图像卷积处理，包括：

8.根据权利要求6或7所述的图像分割模型训练方法，其特征在于，所述将所述高层图像特征输入所述预设解码器进行特征卷积处理，通过特征卷积处理将所述高层图像特征转化为预测分割结果，包括：

获取每个二维图像特征的三维位置信息；

9.根据权利要求1所述的图像分割模型训练方法，其特征在于，所述预训练后的自然图像分割模型至少包括图像编码器和掩码解码器；

将所述中间图像特征输入预训练后的自然图像分割模型的第二个卷积模块进行图像分割处理，包括：

10.根据权利要求9所述的图像分割模型训练方法，其特征在于，所述图像分割模型还包括预设提示编码器，所述将所述目标中间图像特征输入所述掩码解码器进行图像分割处理之前，还包括：

接收目标语句样本；

将所述目标语句样本输入所述预设提示编码器进行文本向量化表征，输出相应的文本向量；

所述将所述目标中间图像特征输入所述掩码解码器进行图像分割处理，包括：

11.根据权利要求10所述的图像分割模型训练方法，其特征在于，所述基于所述损失函数对所述图像分割模型中的所述预设编码器和所述预设解码器进行迭代训练，直至所述损失函数满足预设条件，得到训练后的图像分割模型，所述训练后的图像分割模型至少由训练后的预设编码器、所述预训练后的自然图像分割模型和训练后的预设解码器构成，包括：

12.根据权利要求9所述的图像分割模型训练方法，其特征在于，所述提取所述预训练后的自然图像分割模型在图像分割处理下倒数第二个卷积模块生成的图像特征作为高层图像特征，包括：

13.根据权利要求1至7任一项所述的图像分割模型训练方法，其特征在于，所述根据所述预测分割结果和分割标签之间的关系，生成相应的损失函数，包括：

获取所述预测分割结果和分割标签的交集面积；

根据所述交集面积和所述目标面积，构建相应的损失函数。

14.一种图像处理方法，其特征在于，包括：

获取待识别图像和根据权利要求1-13任一个所述图像分割模型训练方法进行训练得到的训练后的图像分割模型，所述训练后的图像分割模型至少由训练后的预设编码器、预训练后的自然图像分割模型和训练后的预设解码器构成；

15.根据权利要求14所述的图像处理方法，其特征在于，所述方法，还包括：

接收输入的待识别语句；

所述将所述待识别中间图像特征输入所述预训练后的自然图像分割模型进行图像分割处理，并提取所述预训练后的自然图像分割模型在图像分割处理下生成的待识别高层图像特征，包括：

16.一种图像分割模型训练装置，其特征在于，包括：

所述第二输入单元，包括：

提取子单元，用于提取所述预训练后的自然图像分割模型在图像分割处理下倒数第二个卷积模块生成的图像特征作为高层图像特征；

17.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质存储有多条指令，所述指令适于处理器进行加载，以执行权利要求1至13任一项所述的图像分割模型训练方法，或执行权利要求14至15任一项所述图像处理方法。

18.一种计算机设备，包括存储器、处理器以及存储在所述存储器中并可以在所述处理器上运行的计算机程序，其特征在于，所述处理器执行所述计算机程序时实现权利要求1至13任一项所述的图像分割模型训练方法，或执行权利要求14至15任一项所述图像处理方法。