CN117036706A

CN117036706A - 一种基于多模态对话语言模型的图像分割方法和系统

Info

Publication number: CN117036706A
Application number: CN202311012084.6A
Authority: CN
Inventors: 杨超; 张�成; 朱宝
Original assignee: Beijing Wucoded Technology Co ltd
Current assignee: Beijing Wucoded Technology Co ltd
Priority date: 2023-08-11
Filing date: 2023-08-11
Publication date: 2023-11-10

Abstract

本发明公开了一种基于多模态对话语言模型的图像分割方法和系统。方法包括：训练得到多模态对话语言模型和图像分割神经网络模型；接收用户输入的图像分割需求和待分割图像；将图像分割需求输入到多模态对话语言模型中，利用多模态对话语言模型，将图像分割需求转化为图像分割任务；将待分割图像和图像分割任务输入到图像分割神经网络模型中，根据图像分割任务对待分割图像进行分割。本发明通过多模态对话语言模型实现语言和图像之间的自然交互，可以同时处理多种模态的输入，将用户的语言需求转化为图像分割的任务；用户不需要具备专业的图像处理技能，只需要通过自然语言的方式向系统提出需求即可，大大降低了使用门槛，提高了使用效率。

Description

一种基于多模态对话语言模型的图像分割方法和系统

技术领域

本申请涉及图像分割技术领域，特别是涉及一种基于多模态对话语言模型的图像分割方法和系统。

背景技术

数字图像处理技术是一个跨学科的领域。随着计算机科学技术的不断发展，图像处理和分析逐渐形成了自己的科学体系，新的处理方法层出不穷，尽管其发展历史不长，但却引起各方面人士的广泛关注。首先，视觉是人类最重要的感知手段，图像又是视觉的基础，因此，数字图像成为心理学、生理学、计算机科学等诸多领域内的学者们研究视觉感知的有效工具。其次，图像处理在军事、遥感、气象等大型应用中有不断增长的需求。

图像分割(image segmentation)技术是计算机视觉领域的个重要的研究方向，是图像语义理解的重要一环。图像分割是图像识别和计算机视觉至关重要的预处理，没有正确的分割就不可能有正确的识别。图像分割是指将图像分成若干具有相似性质的区域的过程，从数学角度来看，图像分割是将图像划分成互不相交的区域的过程。

现有的图像分割技术主要包括基于阈值分割、边缘检测、区域生长、分水岭算法等多种方法。这些方法各有优缺点，但是都存在一些共性问题，例如对噪声和复杂图像的处理能力较弱，对图像纹理和颜色差异的识别能力不足，难以适应多种场景和多种类型的图像；以及需要使用者对图像分割算法有较强的专业知识，使用门槛较高。

发明内容

基于此，提供一种基于多模态对话语言模型的图像分割方法和系统，以解决现有图像分割技术要求使用者对图像分割算法有较强的专业知识，使用门槛较高的技术问题。

为了实现上述目的，本申请提供如下技术方案：

第一方面，一种基于多模态对话语言模型的图像分割方法，应用于云平台，所述方法包括：

S1，训练得到多模态对话语言模型；

S2，训练得到图像分割神经网络模型；

S3，接收用户输入的图像分割需求和待分割图像，所述图像分割需求的模态为多种模态中的一种；

S4，将所述图像分割需求输入到所述多模态对话语言模型中，利用所述多模态对话语言模型，将所述图像分割需求转化为图像分割任务；

S5，将所述待分割图像和图像分割任务输入到所述图像分割神经网络模型中，利用所述图像分割神经网络模型，根据所述图像分割任务对所述待分割图像进行分割，得到所述待分割图像的分割结果。

可选地，所述多种模态包括语音、文本和图像。

可选地，步骤S1具体包括：

获取多模态数据集，所述多模态数据集包括多种模态的数据样本；对所述多模态数据集中的每个数据样本进行语义标注；

获取第一图像训练数据集；

利用所述多模态数据集，训练得到预训练语言模型，所述预训练语言模型能够理解和分析输入的数据，提取语义信息并生成对应的输出；

利用所述第一图像训练数据集，训练得到预训练图像分割模型，所述预训练图像分割模型能够将输入图像分割成不同物体或区域，并生成对应的分割结果；

将所述预训练语言模型和预训练图像分割模型作为基础模型，通过反向自回归或联合优化的方式，对所述预训练语言模型和预训练图像分割模型进行联合训练，得到多模态对话语言模型。

进一步可选地，所述多模态数据集包括维基百科和新闻报道，所述预训练语言模型为BERT或GPT，所述第一图像训练数据集为COCO或PASCAL VOC，所述预训练图像分割模型为FCN或U-Net。

可选地，步骤S2具体包括：

获取第二图像训练数据集，所述第二图像训练数据集包括多个图像和对应的分割任务标注；对所述第二图像训练数据集中每张图像的每个像素点进行归属信息标注；

将所述第二图像训练数据集以预设比例划分为训练集和验证集；

设计神经网络模型；

使用所述第二图像训练数据集中的训练集，对所述神经网络模型进行训练，得到图像分割神经网络模型；

使用所述第二图像训练数据集中的验证集，对所述图像分割神经网络模型进行验证，根据验证结果对所述图像分割神经网络模型的泛化能力进行评估；

对所述图像分割神经网络模型进行参数调优，选择最佳的模型参数，将所述图像分割神经网络模型的参数设置为选择的最佳的模型参数。

进一步可选地，所述第二图像训练数据集为SA-1B；所述神经网络模型为SAM、FCN、U-Net或Mask R-CNN；

使用所述第二图像训练数据集中的训练集，对所述神经网络模型进行训练，得到图像分割神经网络模型，具体包括：

S2A，初始化所述神经网络模型的参数；

S2B，将所述第二图像训练数据集中的训练集输入到所述神经网络模型中，通过前向传播计算模型的输出，得到对所述第二图像训练数据集中的训练集预测的分割结果；

S2C，将计算得到的输出与对应的分割任务标注和归属信息标注进行比较，通过优化算法，计算损失函数，评价预测的分割结果与真实分割结果的差异；

S2D，进行反向传播，更新所述神经网络模型的参数，使损失函数最小化；

S2E，不断重复步骤S2B-S2D，直至所述神经网络模型收敛、损失函数不再下降，将最终收敛的所述神经网络模型作为图像分割神经网络模型。

进一步可选地，步骤S2还包括

扩充所述第二图像训练数据集，以解决过拟合问题；

更改所述图像分割神经网络模型的结构，利用扩充后的所述第二图像训练数据集训练更改结构后的所述图像分割神经网络模型；在训练更改结构后的所述图像分割神经网络模型时，更换损失函数或优化器，以更好地训练所述图像分割神经网络模型；

通过不断的迭代，提升所述图像分割神经网络模型的性能。

可选地，在训练所述多模态对话语言模型和图像分割神经网络模型时，在CPU上同时执行多个进程或线程，并使用GPU进行并行计算。

可选地，所述将所述图像分割需求转化为图像分割任务，包括：

通过文本解码器将所述图像分割需求表示为自由格式文本；

利用分词器，对所述自由格式文本进行处理，提取出图像分割任务。

第二方面，一种基于多模态对话语言模型的图像分割系统，所述系统打包成Docker镜像，通过Kubernetes集群管理技术部署在云平台上，所述系统包括：

多模态对话语言模型训练模块，用于训练得到多模态对话语言模型；

图像分割神经网络模型训练模块，用于训练得到图像分割神经网络模型；

输入接收模块，用于接收用户输入的图像分割需求和待分割图像，所述图像分割需求的模态为多种模态中的一种；

需求转化模块，用于将所述图像分割需求输入到所述多模态对话语言模型中，利用所述多模态对话语言模型，将所述图像分割需求转化为图像分割任务；

图像分割模块，用于将所述待分割图像和图像分割任务输入到所述图像分割神经网络模型中，利用所述图像分割神经网络模型，根据所述图像分割任务对所述待分割图像进行分割，得到所述待分割图像的分割结果。

本发明至少具有以下有益效果：

在本发明实施例提供的基于多模态对话语言模型的图像分割方法中，采用了多模态对话语言模型和计算机视觉技术相结合的方式；通过多模态对话语言模型来实现语言和图像之间的自然交互，可以同时处理多种模态的输入，将用户的语言需求转化为图像分割的任务；用户可以通过不同模态的输入向系统提出图像分割的需求，用户不需要具备专业的图像处理技能，只需要通过自然语言的方式向系统提出需求即可，从而大大降低了使用门槛，提高了使用效率；通过计算机视觉技术，包括深度学习和神经网络等技术，来实现图像分割的任务；通过训练好的图像分割神经网络模型，可以实现更准确、自适应和快速的图像分割。

附图说明

图1为本发明一个实施例提供的一种基于多模态对话语言模型的图像分割方法的流程示意图；

图2为本发明一个实施例中SAM模型的整体架构图；

图3为本发明一个实施例中分割mask解码器模块的架构图；

图4为本发明一个实施例提供的一种基于多模态对话语言模型的图像分割系统的模块架构框图；

图5为本发明一个实施例中计算机视觉模块的示意图；

图6为本发明一个实施例提供的一种基于多模态对话语言模型的图像分割系统中涉及的方法流程示意图；

图7为本发明一个实施例提供的一种计算机设备的内部结构图。

具体实施方式

为了使本申请的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本申请进行进一步详细说明。应当理解，此处描述的具体实施例仅仅用以解释本申请，并不用于限定本申请。

与本发明相关技术介绍如下：

1、深度学习(Deep Learning)：深度学习是一种基于神经网络的技术，尤其是卷积神经网络(CNN)在图像分割领域取得了显著的成果。典型的深度学习图像分割算法是U-Net、Mask R-CNN、Deeplab、PSANet、SETR、PVT等。

优点：

自动学习特征：深度学习算法可以从大量输入图像中自动学习区分不同对象的特征，无需手动设计特征提取器。

强大的泛化能力：训练好的模型可以应用于多种场景，具有很高的泛化能力。

高精度：深度学习方法在许多图像分割领域的基准数据集上取得了最佳的性能。

2、图割(Graph Cut)：图割方法将图像分割问题转化为图论中的最小割问题。其中，像素或像素集合被视为图中的节点，节点之间的相似度被视为边的权重。代表性的图割算法有GrabCut和Normalized Cut。

优点：

全局最优：图割方法可以找到全局最优解，从而在分割边界上实现更好的连续性。

适用于多尺度分割：可以通过调整超参数来实现不同尺度的图像分割。

具有交互能力：可以方便地引入用户交互，以辅助分割结果。

3、超像素聚类(Superpixel Clustering)：超像素聚类方法将图像分割成一组紧密连接的像素集合(即超像素)。典型的超像素聚类算法有Simple Linear IterativeClustering(SLIC)和Turbopixel。

优点：

减少计算复杂度：通过将图像分割成具有相似属性的超像素，可以显著降低后续处理的计算复杂度。

适应性边界：超像素聚类方法可以在不同尺度下保持边界的适应性。

可扩展性：超像素聚类方法可以与其他图像分割算法相结合，以提高分割性能。

这三种先进的图像分割算法各有优点，可以根据具体需求和应用场景选择合适的算法。

在一个实施例中，如图1所示，提供了一种基于多模态对话语言模型的图像分割方法，应用于云平台，主要目的是通过对图像进行处理和分析，实现对图像的自动化分割，该方法包括：

S1，训练得到多模态对话语言模型。

进一步地，步骤S1具体包括：

获取多模态数据集，多模态数据集包括多种模态的数据样本；对多模态数据集中的每个数据样本进行语义标注；

获取第一图像训练数据集；

利用多模态数据集，训练得到预训练语言模型，预训练语言模型能够理解和分析输入的数据，提取语义信息并生成对应的输出；

利用第一图像训练数据集，训练得到预训练图像分割模型，预训练图像分割模型能够将输入图像分割成不同物体或区域，并生成对应的分割结果；

将预训练语言模型和预训练图像分割模型作为基础模型，通过反向自回归或联合优化的方式，对预训练语言模型和预训练图像分割模型进行联合训练，得到多模态对话语言模型。

其中，多种模态包括语音、文本和图像。多模态数据集包括维基百科和新闻报道，预训练语言模型为BERT或GPT，第一图像训练数据集为COCO或PASCALVOC，预训练图像分割模型为FCN或U-Net。

也就是说，多模态对话语言模型的训练过程如下：

1、预处理数据集：首先需要准备一个大规模的多模态数据集，包括语音、文本和图像等不同模态的输入。对于每个数据样本，需要将其对应的语音、文本和图像进行标注，以便后续训练模型。

2、训练语言模型：使用大规模文本数据集，例如Wikipedia、新闻报道等，训练一个预训练的语言模型，如BERT或GPT。模型理解和分析输入的文本，提取语义信息并生成对应的输出。

3、训练图像分割模型：使用大规模图像数据集，例如COCO、PASCALVOC等，训练一个预训练的图像分割模型，例如FCN、U-Net等。模型可以将输入的图像分割成不同的物体或区域，并生成对应的分割结果。

4、联合训练多模态对话语言模型：使用上述预训练的语言模型和图像分割模型作为基础模型，将它们结合起来进行联合训练。具体来说，对于每个输入样本，先利用语言模型对输入的语音、文本和图像等模态进行理解和分析，得到对应的语义表示。然后，利用图像分割模型将语义表示转化为图像分割任务，并生成对应的分割结果。最后，将生成的分割结果与输入样本进行比较，计算损失函数并进行反向传播，更新模型参数。这个过程可以通过反向自回归(BackTranslation)或者联合优化(Joint Optimization)的方式实现。

例如，在一组训练数据中，有一张带有标注的病理学图像，该图像需要分割出其中的不同细胞类型。同时，还有对应的语音和文本输入，例如“将该病理学图像中的不同细胞类型分割出来”和“该图像中的细胞分割任务”。然后将这些数据输入到多模态对话语言模型中进行训练，让模型学习如何将语音和文本输入转化为图像分割任务，并生成对应的分割结果。

S2，训练得到图像分割神经网络模型。

进一步地，步骤S2具体包括：

获取第二图像训练数据集，第二图像训练数据集包括多个图像和对应的分割任务标注；对第二图像训练数据集中每张图像的每个像素点进行归属信息标注；

将第二图像训练数据集以预设比例划分为训练集和验证集；

设计神经网络模型；

使用第二图像训练数据集中的训练集，对神经网络模型进行训练，得到图像分割神经网络模型；

使用第二图像训练数据集中的验证集，对图像分割神经网络模型进行验证，根据验证结果对图像分割神经网络模型的泛化能力进行评估；

对图像分割神经网络模型进行参数调优，选择最佳的模型参数，将图像分割神经网络模型的参数设置为选择的最佳的模型参数。

其中，第二图像训练数据集为SA-1B；神经网络模型为SAM、FCN、U-Net或Mask R-CNN。

具体地，使用第二图像训练数据集中的训练集，对神经网络模型进行训练，得到图像分割神经网络模型，具体包括：

S2A，初始化神经网络模型的参数；

S2B，将第二图像训练数据集中的训练集输入到神经网络模型中，通过前向传播计算模型的输出，得到对第二图像训练数据集中的训练集预测的分割结果；

S2D，进行反向传播，更新神经网络模型的参数，使损失函数最小化；

S2E，不断重复步骤S2B-S2D，直至神经网络模型收敛、损失函数不再下降，将最终收敛的神经网络模型作为图像分割神经网络模型。

进一步地，步骤S2还包括

扩充第二图像训练数据集，以解决过拟合问题；

更改图像分割神经网络模型的结构，利用扩充后的第二图像训练数据集训练更改结构后的图像分割神经网络模型；在训练更改结构后的图像分割神经网络模型时，更换损失函数或优化器，以更好地训练图像分割神经网络模型；

通过不断的迭代，提升图像分割神经网络模型的性能。

也就是说，图像分割神经网络模型的训练过程如下：

1、准备训练数据集：首先需要准备一个大规模的图像训练数据集，包括输入图像和对应的分割标注。对于每个图像，需要将其对应的分割标注进行标注，标注每个像素点属于哪个物体或背景等信息。

2、设计神经网络模型：根据具体的需求，可以选择不同的神经网络模型，例如SAM、FCN、U-Net、Mask R-CNN等。这些模型通常都是基于卷积神经网络(CNN)或者Transformer等结构设计的，可以有效地提取图像特征并实现分割任务。

3、训练神经网络模型：使用上述准备好的图像训练数据集，对设计好的神经网络模型进行训练。具体来说，将输入图像输入到模型中，通过前向传播计算模型的输出，然后将输出与对应的标注进行比较，计算损失函数并进行反向传播，更新模型参数。这个过程可以通过批量梯度下降(Batch Gradient Descent)等优化算法实现。

4、验证和调优模型：训练完毕后，需要使用验证集对模型进行验证，并根据验证结果进行调优。可以根据交叉验证等方法，对模型的泛化能力进行评估，从而选择最佳的模型参数。

例如，要训练一个用于医学图像分割的神经网络模型，该模型可以自动将图像中的不同器官或病变区域分割出来。首先，需要准备一个大规模的医学图像训练数据集，包括输入图像和对应的分割标注。然后选择基于U-Net结构的神经网络模型，将其作为基础模型进行训练。在训练过程中，将输入图像输入到模型中，通过前向传播计算模型的输出，然后将输出与对应的标注进行比较，计算损失函数并进行反向传播，更新模型参数。训练完毕后，使用验证集对模型进行验证，并根据验证结果进行调优，选择最佳的模型参数。最终使用训练好的神经网络模型，对新的医学图像进行分割，实现自动化的医学影像分析。

换句话说，本发明能够自适应地学习和优化分割算法，提高了分割算法的通用性和适应性：

1、收集图像数据集和对应的真实分割结果作为训练数据，然后选择分割模型，比如U-Net、FCN等。

2、学习图像中的特征和分割规则。过程通包含以下步骤:

①初始化模型参数(权重和偏置)；②前馈通过网络，得到预测的分割结果；③计算损失函数(如交叉熵损失)，评价预测与真实结果的差异；④反馈通过网络，更新模型参数，使损失函数最小化；⑤重复步骤②-④，直到模型收敛，损失函数不再显著下降。

3、在测试数据集上评估模型的性能，优化方法包括以下步骤：

①收集更多训练数据以解决过拟合；②更改网络结构，如添加更多层或更宽的网络来学习更复杂的特征；③尝试其他损失函数或优化器来更好地训练网络；④结合其他模态(如语义信息)以改进分割性能。

通过不断优化，得到一个性能更强的分割模型。整体是一个迭代的过程，需要针对不同的数据集和问题，尝试不同的模型和方法，评估结果并不断改进从而取得最佳的性能。

S3，接收用户输入的图像分割需求和待分割图像，图像分割需求的模态为多种模态中的一种。

其中，多种模态包括语音、文本和图像。

也就是说，用户可以通过语音、文本或图像等多种模态的输入向系统提出图像分割的需求。

S4，将图像分割需求输入到多模态对话语言模型中，利用多模态对话语言模型，将图像分割需求转化为图像分割任务。

进一步地，将图像分割需求转化为图像分割任务，包括：

通过文本解码器将图像分割需求表示为自由格式文本；

利用分词器，对自由格式文本进行处理，提取出图像分割任务。

S5，将待分割图像和图像分割任务输入到图像分割神经网络模型中，利用图像分割神经网络模型，根据图像分割任务对待分割图像进行分割，得到待分割图像的分割结果。

进一步地，在训练多模态对话语言模型和图像分割神经网络模型时，在CPU上同时执行多个进程或线程，并使用GPU进行并行计算。

具体来说，使用多线程、GPU并行等技术提高图像分割系统的性能，主要体现在以下几个步骤：

1、数据预处理，可以使用多线程加速图像读取、增强和加载到内存中。GPU可以并行处理大批量图像的预处理操作。

2、模型训练，训练深度学习模型通常需要大量计算，可以使用GPU进行并行计算加速网络前馈、反馈和更新参数的过程。也可以使用多GPU或多机训练模型。预测推理，在模型部署阶段，使用多线程可以同时处理多个输入图像的预测结果。GPU也可以并行地对一批图像进行预测，获得结果。后处理，像分割结果的后处理、可视化等也可以使用多线程加速，GPU可以进一步优化。

3、图像分割的方法与系统的每个阶段都可以使用并行计算技术提高效率，具体为：

多线程，在CPU上同时执行多个进程或线程，加速系统中非GPU部分的计算；GPU并行，GPU具有数百个核心，可以同时执行大批量数据的相同操作，可实现模型训练和预测的并行；多机并行，在多台机器上分发数据和计算工作，并行地训练模型或进行预测，再聚合结果，可处理超大规模数据；混合并行，系统中使用多线程、多GPU、多机并行的混合策略，发挥各自的优势，获得最优的系统性能。

进一步地，本发明在训练图像分割神经网络模型时，优选使用SAM模型(SegmentAnything Model)。

如图2所示，SAM模型由图片编码器模块(image encoder)、提示信息编码器模块(prompt encoder)、分割mask解码器模块(mask decoder)这3部分组成。

网络特征提取可以采用：

图片编码器模块基于Vision Transformer(ViT)、Transformer in Transformer(TNT)或Swin Transformer主干网络实现；

提示信息编码器模块支持稀疏特征点、框、文本(points,boxes,text)和稠密特征阴影(masks)；

对于点和框在提取embedding的时候加入了位置编码信息的embedding，然后将两者相加得到最终的embedding。对于文本信息的编码采用了clip模型；

对于阴影信息的编码通过conv实现，并最终和图片的编码特征相加。

如图3所示，分割mask解码器模块采用Transformer的解码器部分实现，并在后面接入动态的头部预测模块。同时在训练过程中，从图片到提示和从提示到图片都引入了自监督(self-attention)和跨监督(cross-attention)操作。最后上采样图片的embedding，通过一个MLP模块，经线性分类器，得到最终的概率图。

SAM与传统单纯的语义分割方式不同，加入了Prompt机制，可以将文字、坐标点、坐标框等作为辅助信息优化分割结果。

进一步地，由于第二图像训练数据集为SA-1B，本发明在训练图像分割神经网络模型时，实现了选用更大规模、更多样性的数据集。

SA-1B作为大规模分割数据集，包括10亿个mask和110w图片。相比同类分割数据集，多了400倍的mask。原始图片的分辨率为3300×4950，考虑到存储和展示的必要，将图片都缩放到短边为1500像素。即使是这样，也比coco数据集的图片分辨率480×640大很多。

SA-1B覆盖了更广泛的图片区间，比第二大分割数据集多了11倍的图片400倍的mask。同时SA-1B包含了更多的小和中等的mask。通过mask轮廓的凹陷程度来分析mask的多样性，发现SA-1B和其他分割数据集拥有同样的mask多样性。

在本发明实施例所提供的基于多模态对话语言模型的图像分割方法中，主要包括以下几个方面：

一、多模态对话语言模型：本发明采用了多模态对话语言模型来实现语言和图像之间的自然交互。多模态对话语言模型可以同时处理语音、文本和图像等多种模态的输入，将用户的语言需求转化为图像分割的任务。

本发明采用了多模态对话语言模型，实现语言和图像之间的自然交互：用户可以通过语音、文本和图像等多种模态的输入向系统提出图像分割的需求，从而实现语言和图像之间的自然交互。具体地，当用户通过语音、文本和图像等不同模态的输入向系统提出图像分割的需求时，系统会借助预训练的自然语言处理模型，将用户的语言需求转化为图像分割任务。在这个过程中，系统会使用诸如BERT、GPT等自然语言处理模型来实现对输入语句的理解和分析，然后将语言需求转化为图像分割任务。

二、计算机视觉技术：本发明还采用了计算机视觉技术，包括深度学习和神经网络等技术，来实现图像分割的任务。通过训练深度神经网络模型(图像分割神经网络模型)，可以实现更准确、自适应和快速的图像分割。

本发明采用了计算机视觉技术，提高图像分割的准确性和稳定性：本发明采用计算机视觉技术，包括深度学习和神经网络等技术，来实现更准确、自适应和快速的图像分割。具体地，系统会借助预训练的深度学习模型，如U-Net、Mask R-CNN等，在大规模的图像训练集上进行训练，以实现对图像的精准分割。

在实际应用中，当系统接收到用户的图像分割需求后，它会自动将语言需求转化为图像分割任务，并利用深度学习和神经网络等技术进行图像分割。具体地，系统会将图像输入到预训练的深度神经网络模型中，通过多次卷积和池化等操作对图像特征进行提取和抽象，最终实现对图像的精准分割。

基于多模态对话语言模型的图像分割方法和系统可以帮助用户通过语音、文本和图像等不同方式向系统提出图像分割的需求，并将其转化为具体的图像分割任务，实现自动化的图像分割处理。例如医学影像分析、智能交通、安防监控等领域。例如：

(1)用户通过语音输入：“我想查看这张医学影像中的肿瘤部分。”

系统通过语音识别技术将用户的语音转化为文本，并利用自然语言处理模型进行理解和分析，得到用户的需求为“肿瘤部分的分割”。然后，系统可以利用图像分割算法，提取出医学影像中肿瘤的轮廓和边界。

(2)用户通过文本输入：“我需要分割这张街景图片中的行人。”

系统利用自然语言处理技术分析用户的文本输入，得到用户的需求为“行人的分割”。接着，系统可以利用图像分割算法，将街景图片中的行人从背景中分离出来。

(3)用户通过图像输入：“我想把这张照片中的背景换成海滩。”

系统利用计算机视觉技术识别输入的图像，并通过自然语言处理模型将用户的需求转化为图像分割任务：“将照片中的背景分割出来，并替换成海滩”。然后，系统可以利用图像分割和图像合成算法，实现对照片背景的分割和替换。

三、云原生技术：本发明还提供了基于云原生技术的自动化部署方法和系统，以便用户可以快速地部署和使用本发明的图像分割系统。该系统采用了容器化技术和Kubernetes集群管理技术，可以实现自动化部署、扩展和负载均衡等功能，提高系统的可靠性和可扩展性。

云原生的应用程序自动化部署，实现自动化部署和管理：本发明提供了基于云原生技术的自动化部署方法和系统，可以帮助用户快速部署和使用本发明的图像分割系统。通过容器化技术和Kubernetes集群管理技术，可以实现自动化部署、扩展和负载均衡等功能，提高系统的可靠性和可扩展性。具体地，系统采用了容器化技术和Kubernetes集群管理技术，在云平台上自动部署和管理图像分割系统。

具体地，系统会将图像分割系统打包成Docker镜像，并通过Kubernetes集群管理技术进行自动化部署和管理。在集群中，系统会根据负载情况自动进行扩容和负载均衡，以确保系统的可靠性和可扩展性。此外，系统还提供了自动化的监控和日志管理功能，以便管理员可以及时发现和解决系统中的问题。

换句话说，本发明的目的是通过多模态对话语言模型和计算机视觉技术相结合，实现图像和语言之间的自然交互，从而提高图像分割的准确性和稳定性，降低使用门槛，提高效率。本发明创造所要解决的具体课题是如何通过多模态对话语言模型实现图像和语言之间的自然交互，并将用户的语言需求转化为图像分割的任务，从而实现更准确、自适应和快速的图像分割。

可以利用本发明的多模态对话语言模型的自动化图像分割方法与系统来解决政府领域中的图像分析和识别问题。例如，在城市规划和交通管理方面，政府可以利用本发明的图像分割系统对城市交通流量进行实时监测和分析。

用户可以通过多模态对话语言模型向系统提出交通监测和分析需求，系统可以自动将语言需求转化为图像分割任务，并利用深度学习和神经网络等技术实现更准确、自适应和快速的图像分割。通过分析交通流量图像，政府可以及时采取有效的交通管理措施，提高城市交通的效率和安全性。

本发明的多模态对话语言模型的自动化图像分割方法与系统在政府领域有着广泛的应用前景，可以为政府解决图像分析和识别问题提供有效的解决方案，提高政府决策的精度和效率，为公众服务创造更大的价值。

通过图像分割可以获得图像中的车辆位置和数量信息，政府可以根据这些信息采取相应的交通管理措施，例如：

(1)如果图像分割结果显示某条道路的车流量过大，政府可以：调整该路段的红绿灯时长，增加该方向的通行时间，疏导车流；临时开放辅助车道以增加该方向的通行能力；推荐司机选择替代路线以分散车流；限制部分车辆进入该路段(如货运车辆)以控制车流量。

(2)如果分割结果显示某条道路的车辆拥堵情况，政府可以：派警力现场疏导，加快交通流动；推送交通广播，提醒司机避开该路段；设置临时禁止掉头/停车等限制以增加道路通行能力。

(3)如果发现交通事故导致的路段封闭，政府也可以通过图像分割快速掌握事故准确位置和车辆分布，指挥交警和救援车辆进行有效救援。

在第一时间疏导车流、控制交通量、应对事故等，最大程度地提高城市交通的效率、安全性和便利性。这需要政府具备图像分析与交通管理的相关知识与决策能力。

本发明相对于现有技术所具有的主要优点和积极效果包括：

1、实现语言和图像之间的自然交互：相对于传统的图像分割方法，本发明采用了多模态对话语言模型来实现语言和图像之间的自然交互。用户可以通过语音、文本和图像等多种模态的输入向系统提出图像分割的需求，从而大大降低了使用门槛，提高了使用效率。

2、提高图像分割的准确性和稳定性：相对于传统的图像分割方法，本发明采用了计算机视觉技术，包括深度学习和神经网络等技术，来实现更准确、自适应和快速的图像分割。通过训练深度神经网络模型，可以对图像进行精准的分割，提高了图像分割的准确性和稳定性。

3、实现自动化部署和管理：本发明还提供了基于云原生技术的自动化部署方法和系统，可以帮助用户快速部署和使用本发明的图像分割系统。通过容器化技术和Kubernetes集群管理技术，可以实现自动化部署、扩展和负载均衡等功能，提高系统的可靠性和可扩展性。

本发明的基于多模态对话语言模型的自动化图像分割方法相对于现有技术具有许多优点和积极效果，如实现语言和图像之间的自然交互、提高图像分割的准确性和稳定性，以及实现自动化部署和管理等。这些优点和积极效果主要是基于本发明采用的多模态对话语言模型、计算机视觉技术和云原生技术等不同于现有技术的技术手段和实现步骤而实现的。

本发明降低使用门槛，提高效率：本发明的多模态对话语言模型可以大大降低使用门槛，用户不需要具备专业的图像处理技能，只需要通过自然语言的方式向系统提出需求即可，从而提高使用效率。

可以利用本发明的多模态对话语言模型的自动化图像分割方法来解决政府领域中的图像分析和识别问题，例如：在城市规划和交通管理方面，政府可以利用本发明的图像分割系统对城市交通流量进行实时监测和分析。用户可以通过多模态对话语言模型向系统提出交通监测和分析需求，系统可以自动将语言需求转化为图像分割任务，并利用深度学习和神经网络等技术实现更准确、自适应和快速的图像分割。通过分析交通流量图像，政府可以及时采取有效的交通管理措施，提高城市交通的效率和安全性。

本发明实施例提出了一种基于多模态对话语言模型的自动化图像分割方法，相比现有技术具有更高的准确度、适应性和效率。其涉及多模态对话语言模型、计算机视觉、深度学习、神经网络和图像处理等领域，这些技术已经得到了广泛的应用和研究。本发明的创新点在于，利用这些技术相结合，实现了图像和语言之间的自然交互，从而提高了图像分割的准确性和稳定性，同时降低了使用门槛。此外，本发明还采用了深度学习和神经网络等技术，自适应地学习和优化分割算法，提高了分割算法的通用性和适应性。与现有技术相比，本发明具有更高的准确度、适应性和效率，可以更好地满足实际应用需求，具有很大的商业化潜力和市场竞争优势。

换种说法，本发明提出的基于多模态对话语言模型的自动化图像分割方法具有以下优点：

1、更高的分割准确度：本发明利用多模态对话语言模型和计算机视觉技术相结合，可以更准确地识别图像中的目标对象，提高图像分割的准确度和稳定性，从而避免了现有技术中常见的分割错误和误判问题。

2、更强的适应性和通用性：本发明利用多模态对话语言模型实现了图像和语言之间的自然交互，可以更好地理解用户的意图和需求，从而实现更准确和自适应的图像分割。同时，本发明还采用了深度学习和神经网络等技术，可以自适应地学习和优化分割算法，适应不同的场景和不同类型的图像，从而提高了分割算法的通用性和适应性。

3、更高的效率：本发明利用多模态对话语言模型实现了图像和语言之间的自然交互，可以减少使用者对图像分割算法的专业知识要求，从而降低了使用门槛。同时，本发明还采用了多线程和GPU并行计算等技术，可以大幅提高图像分割的速度和效率，从而满足了实时图像处理和分析的需求。

客观地看，现有技术中图像分割方法存在着处理复杂图像和对噪声图像的处理能力较弱的问题。而本发明的多模态对话语言模型的应用，可以有效地解决这些问题，提高了图像分割的准确性和稳定性。

本发明的创新点在于，利用多模态对话语言模型和计算机视觉技术相结合，实现了图像和语言之间的自然交互，从而提高了图像分割的准确性和稳定性，同时也降低了使用门槛。同时，本发明还采用了深度学习和神经网络等技术，自适应地学习和优化分割算法，提高了分割算法的通用性和适应性。此外，本发明还提供了一种自适应的分割方法，可以自动调整参数和优化算法，实现更好的适应性和通用性。另外，本发明还采用了多线程和GPU并行计算等技术，提高了分割的效率和速度，满足了实时图像处理和分析的需求。

应该理解的是，虽然图1的流程图中的各个步骤按照箭头的指示依次显示，但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明，这些步骤的执行并没有严格的顺序限制，这些步骤可以以其它的顺序执行。而且，图1中的至少一部分步骤可以包括多个步骤或者多个阶段，这些步骤或者阶段并不必然是在同一时刻执行完成，而是可以在不同的时刻执行，这些步骤或者阶段的执行顺序也不必然是依次进行，而是可以与其它步骤或者其它步骤中的步骤或者阶段的至少一部分轮流或者交替地执行。

在一个实施例中，如图4所示，提供了一种基于多模态对话语言模型的图像分割系统，该系统打包成Docker镜像，通过Kubernetes集群管理技术部署在云平台上，该系统包括以下程序模块：

多模态对话语言模型训练模块401，用于训练得到多模态对话语言模型；

图像分割神经网络模型训练模块402，用于训练得到图像分割神经网络模型；

输入接收模块403，用于接收用户输入的图像分割需求和待分割图像，图像分割需求的模态为多种模态中的一种；

需求转化模块404，用于将图像分割需求输入到多模态对话语言模型中，利用多模态对话语言模型，将图像分割需求转化为图像分割任务；

图像分割模块405，用于将待分割图像和图像分割任务输入到图像分割神经网络模型中，利用图像分割神经网络模型，根据图像分割任务对待分割图像进行分割，得到待分割图像的分割结果。

关于一种基于多模态对话语言模型的图像分割系统的具体限定可以参见上文中对于一种基于多模态对话语言模型的图像分割方法的限定。

换句话说，该图像分割系统主要包括三个部分：多模态对话语言模型、计算机视觉模块和云原生自动化部署系统。

多模态对话语言模型部分是本发明的核心组成部分，它可以处理多种语言模态的输入，包括语音、文本和图像等，将用户的语言需求转化为图像分割的任务。具体地，当用户通过语音、文本和图像等不同模态的输入向系统提出图像分割的需求时，系统会借助预训练的自然语言处理模型，如BERT、GPT等，对输入语句进行理解和分析，然后将语言需求转化为图像分割任务。

计算机视觉模块是本发明的另一个核心组成部分，它利用深度学习来实验对图像的精准分割。具体地，当系统通过与用户的对话确定好图像分割精准的需求后、自动将语言需求转化为图像分割任务，它会利用深度神经网络模型的方式对图像进行编码和解码。

计算机视觉模块在大规模的图像训练集上进行训练，以实现对图像的精准分割。如图5所示，在实际应用中，系统会将图像输入到深度神经网络模型中，通过采用基于Transformer的VIT骨干网进行图像编码，采用类似Transformer解码器，后跟动态掩码预测头，然后计算每个图像位置的蒙版前景概率进行解码，最终实现对图像的精准分割。

云原生自动化部署系统是本发明的另一个关键组成部分，它可以帮助用户快速部署和使用本发明的图像分割系统。具体地，系统采用了容器化技术和Kubernetes集群管理技术，在云平台上自动部署和管理图像分割系统。具体地，系统会将图像分割系统打包成Docker镜像，并通过Kubernetes集群管理技术进行自动化部署和管理。在集群中，系统会根据负载情况自动进行扩容和负载均衡，以确保系统的可靠性和可扩展性。此外，系统还提供了自动化的监控和日志管理功能，以便管理员可以及时发现和解决系统中的问题。

综上，本发明实施例提供的基于多模态对话语言模型的图像分割系统包括多模态对话语言模型、计算机视觉模块和云原生自动化部署系统三个部分。这三个部分相互协作，能够实现对图像的自动化分割，提高图像分割的准确性和稳定性，同时还能够实现语言和图像之间的自然交互，并通过云原生自动化部署系统实现快速部署和管理，具有较强的实用性和商业价值。

上述一种基于多模态对话语言模型的图像分割系统中涉及的方法的流程图还可参见图6，换句话说，该图像分割系统中涉及的步骤包括：

(1)输入：用户根据需求输入分割的图像，以及分割图像的需求以语音、文本和图像等多种方式输入。

(2)特征融合：需要分割图像传递给计算机视觉模块中的视觉编码进行编码处理，需要分割的需求传递文本解码器使用BLIP2来表示自由格式文本。再经过多模态对话语言模型中的分词器进行处理。将两种处理的结果进行拼接传递给LLM进行处理。

(3)多模态对话语言模型处理：多模态对话语言模型会对用户的对话进行分割需求进行精准化，将语言转化为图像分割任务。

(4)计算机视觉模块处理：计算机视觉模块会利用掩码解码器有效地将图像、提示和输出的掩码到掩码，采用了类似Transformer解码器，后跟动态掩码预测头，然后计算每个图像位置的蒙版前景概率；

(5)图像分割输出：使用一个输出，如果给定一个具有歧义的提示，模型将平均多个有效掩码。为了解决这个问题，模型以预测单个提示的多个输出掩码。使用IoU进行打分排序。计算机视觉模块会输出分割分数加高的图像。

(6)云原生自动化部署系统：本发明的图像分割系统采用了云原生自动化部署系统，可以实现快速部署和管理。

(7)图像分割系统部署：图像分割系统会被部署在云原生自动化部署系统的环境中，可以实现快速部署和管理。

(8)用户获取图像分割结果：用户可以通过图像分割系统获取分割好的图像。

基于多模态对话语言模型的自动化图像分割方法与系统的流程图主要包括多模态对话语言模型的输入、处理，计算机视觉模块的输入、处理和图像分割输出，以及云原生自动化部署系统和图像分割系统的部署与使用。这些步骤相互协作，能够实现对图像的自动化分割，提高图像分割的准确性和稳定性，同时还能够实现语言和图像之间的自然交互，从而为用户提供更好的使用体验。

本发明实施例所提供的基于多模态对话语言模型的图像分割系统主要包括以下几个模块：

(1)用户接口模块：用户可以通过语音、文本和图像等多种方式向系统输入图像分割的需求。

(2)自然语言处理模块：自然语言处理模块可以理解和分析用户的输入，将语言需求转化为图像分割任务。

(3)图像分割模块：图像分割模块利用深度学习和神经网络等技术实现对图像的精准分割。

(4)结果输出模块：结果输出模块将分割好的图像结果反馈给用户。

(5)云原生自动化部署模块：云原生自动化部署模块可以帮助用户快速部署和管理图像分割系统。

具体来说，当用户输入图像分割需求时，用户接口模块会将用户输入的数据传递给自然语言处理模块进行处理。自然语言处理模块会将用户的语言需求转化为图像分割任务，并将其传递给图像分割模块进行处理。图像分割模块会利用深度学习和神经网络等技术对图像进行特征提取和抽象，并实现对图像的精准分割。最后，结果输出模块将分割好的图像结果反馈给用户。

此外，本发明的图像分割系统采用了云原生自动化部署模块，可以帮助用户快速部署和管理图像分割系统。具体地，云原生自动化部署模块采用了容器化技术和Kubernetes集群管理技术，在云平台上自动部署和管理图像分割系统。系统会将图像分割系统打包成Docker镜像，并通过Kubernetes集群管理技术进行自动化部署和管理。在集群中，系统会根据负载情况自动进行扩容和负载均衡，以确保系统的可靠性和可扩展性。此外，系统还提供了自动化的监控和日志管理功能，以便管理员可以及时发现和解决系统中的问题。

本发明的基于多模态对话语言模型的自动化图像分割方法与系统的框图包括用户接口模块、自然语言处理模块、图像分割模块、结果输出模块和云原生自动化部署模块五个模块。这些模块相互协作，能够实现对图像的自动化分割，提高图像分割的准确性和稳定性，同时还能够实现语言和图像之间的自然交互，并通过云原生自动化部署模块实现快速部署和管理，具有较强的实用性和商业价值。

上述一种基于多模态对话语言模型的图像分割系统中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中，也可以以软件形式存储于计算机设备中的存储器中，以便于处理器调用执行以上各个模块对应的操作。

在一个实施例中，提供了一种计算机设备，该计算机设备可以是服务器，其内部结构图可以如图7所示。该计算机设备包括通过系统总线连接的处理器、存储器和网络接口。其中，该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统、计算机程序和数据库。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现上述一种基于多模态对话语言模型的图像分割方法。

本领域技术人员可以理解，图7中示出的结构，仅仅是与本申请方案相关的部分结构的框图，并不构成对本申请方案所应用于其上的计算机设备的限定，具体的计算机设备可以包括比图中所示更多或更少的部件，或者组合某些部件，或者具有不同的部件布置。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的计算机程序可存储于一非易失性计算机可读取存储介质中，该计算机程序在执行时，可包括如上述各方法的实施例的流程。其中，本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用，均可包括非易失性和易失性存储器中的至少一种。非易失性存储器可包括只读存储器(Read-OnlyMemory，ROM)、磁带、软盘、闪存或光存储器等。易失性存储器可包括随机存取存储器(Random Access Memory，RAM)或外部高速缓冲存储器。作为说明而非局限，RAM可以是多种形式，比如静态随机存取存储器(Static RandomAccess Memory，SRAM)或动态随机存取存储器(Dynamic RandomAccess Memory，DRAM)等。

以上实施例的各技术特征可以进行任意的组合，为使描述简洁，未对上述实施例中的各个技术特征所有可能的组合都进行描述，然而，只要这些技术特征的组合不存在矛盾，都应当认为是本说明书记载的范围。

以上所述实施例仅表达了本申请的几种实施方式，其描述较为具体和详细，但并不能因此而理解为对发明专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本申请构思的前提下，还可以做出若干变形和改进，这些都属于本申请的保护范围。因此，本申请专利的保护范围应以所附权利要求为准。

Claims

1.一种基于多模态对话语言模型的图像分割方法，其特征在于，应用于云平台，所述方法包括：

S1，训练得到多模态对话语言模型；

S2，训练得到图像分割神经网络模型；

2.根据权利要求1所述的基于多模态对话语言模型的图像分割方法，其特征在于，所述多种模态包括语音、文本和图像。

3.根据权利要求1所述的基于多模态对话语言模型的图像分割方法，其特征在于，步骤S1具体包括：

获取第一图像训练数据集；

4.根据权利要求3所述的基于多模态对话语言模型的图像分割方法，其特征在于，所述多模态数据集包括维基百科和新闻报道，所述预训练语言模型为BERT或GPT，所述第一图像训练数据集为COCO或PASCALVOC，所述预训练图像分割模型为FCN或U-Net。

5.根据权利要求1所述的基于多模态对话语言模型的图像分割方法，其特征在于，步骤S2具体包括：

设计神经网络模型；

6.根据权利要求5所述的基于多模态对话语言模型的图像分割方法，其特征在于，所述第二图像训练数据集为SA-1B；所述神经网络模型为SAM、FCN、U-Net或Mask R-CNN；

S2A，初始化所述神经网络模型的参数；

7.根据权利要求6所述的基于多模态对话语言模型的图像分割方法，其特征在于，步骤S2还包括

扩充所述第二图像训练数据集，以解决过拟合问题；

通过不断的迭代，提升所述图像分割神经网络模型的性能。

8.根据权利要求1所述的基于多模态对话语言模型的图像分割方法，其特征在于，在训练所述多模态对话语言模型和图像分割神经网络模型时，在CPU上同时执行多个进程或线程，并使用GPU进行并行计算。

9.根据权利要求1所述的基于多模态对话语言模型的图像分割方法，其特征在于，所述将所述图像分割需求转化为图像分割任务，包括：

通过文本解码器将所述图像分割需求表示为自由格式文本；

10.一种基于多模态对话语言模型的图像分割系统，其特征在于，所述系统打包成Docker镜像，通过Kubernetes集群管理技术部署在云平台上，所述系统包括：