CN115294150A

CN115294150A - 一种图像处理方法和终端设备

Info

Publication number: CN115294150A
Application number: CN202210712879.7A
Authority: CN
Inventors: 韩建华; 徐航; 许春景
Original assignee: Huawei Technologies Co Ltd
Current assignee: Huawei Technologies Co Ltd
Priority date: 2022-06-22
Filing date: 2022-06-22
Publication date: 2022-11-04
Also published as: WO2023246822A1

Abstract

本申请实施例公开了一种图像处理方法和终端设备，用于实现对图像的语义识别。本申请实施例提供一种图像处理方法，语义分割模型包括：视觉编码器和聚类头，其中，方法包括：将待预测的图像输入到视觉编码器中，以得到像素级嵌入特征；将像素级嵌入特征输入到聚类头中，以得到聚类结果；根据聚类结果对像素级嵌入特征进行池化，以得到多个图像区域分别对应的视觉嵌入特征；根据多个图像区域分别对应的视觉嵌入特征和文本嵌入特征，对多个图像区域进行语义分割，以得到每个图像区域对应的语义分割结果；文本嵌入特征为根据预定义的文本类别获得。

Description

一种图像处理方法和终端设备

技术领域

本申请涉及计算机技术领域，尤其涉及一种图像处理方法和终端设备。

背景技术

语义分割任务是输入一张平面图像，为其中的每一个像素点分配一个类别标签。目前的分割数据集中需要逐像素点进行的标注，人工标注代价较大，往往只含有有限的语义类别，例如PASCAL VOC数据集中只含有20类别。

然而下游复杂的应用场景需求分割模型在无需特定类别标注的情况下完成开集(open-set)语义分割任务，开集语义分割技术的技术应用场景广泛，涵盖大多数无标签或少标签语义分割任务，举例如下，对于自动驾驶应用场景中采集的图片进行语义分割，以识别路面非白名单物体(corner case)；对于中国强制性产品认证(China CompulsoryCertification，3C)产线中对固定位置或者感兴趣区域的器件图片进行语义分割；对于终端拍照场景中的拍摄图片进行语义分割。

目前的语义分割的相关研究主要集中在有监督的语义分割领域，需要在有细粒度标注的人工数据集上进行监督训练，训练出的神经网络模型通常只适用于该数据集所涵盖的类别或场景，泛化性能不好，这远远达不到在真实世界的图片正确处理的目的。

为了弥补有监督的语义分割和真实世界应用的差距，一些基础的无需标注的(zero-shot)的语义分割模型陆续被提出。但是这些方法大多数是探索不可见(unseen)和可见(seen)类之间的深度语义关系，需要大量的有标注的数据以及更多样化的可见类类别。这些方法的训练数据集多局限于某一个数据集或某些特定内容的数据集，因此容易过拟合到相应场景或类别，并不能有效分割真实世界多样的类别，存在图像中的语义结果无法识别的问题。

发明内容

本申请实施例提供了一种图像处理方法和终端设备，用于实现对图像的语义识别。

为解决上述技术问题，本申请实施例提供以下技术方案：

第一方面，本申请实施例提供一种图像处理方法，语义分割模型包括：视觉编码器和聚类头，其中，所述方法包括：将待预测的图像输入到所述视觉编码器中，以得到像素级嵌入特征；将所述像素级嵌入特征输入到所述聚类头中，以得到聚类结果；根据所述聚类结果对所述像素级嵌入特征进行池化，以得到多个图像区域分别对应的视觉嵌入特征；根据所述多个图像区域分别对应的视觉嵌入特征和文本嵌入特征，对所述多个图像区域进行语义分割，以得到每个图像区域对应的语义分割结果；所述文本嵌入特征为根据预定义的文本类别获得。在上述方案中，本申请实施例中采用基于视觉的对比，语义分割模型可以更好地学习细粒度的视觉嵌入特征，且只需要预定义的文本类别就可以编码得到文本嵌入特征，不需要提供人为标注的数据，因此大幅度提高语义分割的效果，快速实现对图像的语义识别。

在一种可能的实现方式中，所述将预定义的文本类别输入到所述文本编码器中，以得到文本嵌入特征，包括：根据预定义的文本类别和预定义的提示模板进行组合，以得到文本；将所述文本输入到所述文本编码器中，以得到多个文本类别对应的文本嵌入特征。在上述方案中，提示模板应用于自然语言研究领域，用于和类别名称一起形成像自然语言的语句，是跨模态预训练的手段。通过提示模板和文本类别进行组合，可以快速得到文本。

在一种可能的实现方式中，所述根据所述多个图像区域分别对应的视觉嵌入特征和文本嵌入特征，对所述多个图像区域进行语义分割，以得到每个图像区域对应的语义分割结果，包括：计算每个图像区域对应的视觉嵌入特征分别与所述多个文本类别的文本嵌入特征之间的相似度，以得到所述每个图像区域对应的多个相似度值；将所述多个相似度值中最大相似度值对应的文本类别作为所述每个图像区域对应的语义分割结果。在上述方案中，可以通过计算不同图像区域的视觉嵌入特征和文本嵌入特征的相似度，得到每个图像区域对应的多个相似度值，再通过相似度值的最大值选取，可以得到每个图像区域对应的语义分割结果。

在一种可能的实现方式中，所述方法还包括：使用没有标注文本类别的图像文本对对所述语义分割模型进行模型训练，然后输出完成训练的语义分割模型。在上述方案中，首先获取没有标注文本类别的图像文本对，例如该图像文本对可以是互联网上的图像文本对数据，而不需要任何的细粒度的标注，本申请实施例可以采用上述图像文本对作为训练数据，从而对原始的语义分割模型进行模型训练，从而完成语义分割训练，输出该完成训练的语义分割模型。

在一种可能的实现方式中，所述使用没有标注文本类别的图像文本对对所述语义分割模型进行模型训练，包括：从所述图像文本对中获取原始图像以及对应的原始文本；对所述原始图像进行图像数据增强，以得到所述原始图像对应的多张局部图像；将所述原始图像和所述多张局部图像输入到所述视觉编码器中，以得到全局视觉嵌入特征和局部视觉嵌入特征；对所述全局视觉嵌入特征和所述局部视觉嵌入特征分别进行池化处理，以得到池化后的全局视觉嵌入特征和池化后的局部视觉嵌入特征；对原始文本嵌入特征和所述池化后的全局视觉嵌入特征进行跨模态对比监督，以得到跨模态对比结果，原始文本嵌入特征通过所述语义分割模型对所述原始文本进行特征提取得到；将所述全局视觉嵌入特征和所述局部视觉嵌入特征输入到所述聚类头中，通过所述聚类头计算所述全局视觉嵌入特征和所述局部视觉嵌入特征之间同一个像素点聚类结果分布的最大化互信息；通过优化所述跨模态对比结果和所述同一个像素点聚类结果分布的最大化互信息，以实现对所述语义分割模型的训练，并在所述语义分割模型收敛时结束训练。在上述方案中，分别生成优化跨模态对比结果和同一个像素点聚类结果分布的最大化互信息，通过对跨模态对比结果和同一个像素点聚类结果分布的最大化互信息的优化处理，可以实现对语义分割模型的训练，并在每次优化时判断语义分割模型是否收敛，最后可以结束对语义分割模型的训练。

在一种可能的实现方式中，所述通过优化所述跨模态对比结果和所述同一个像素点聚类结果分布的最大化互信息，以实现对所述语义分割模型的训练，并在所述语义分割模型收敛时结束训练，包括：对所述池化后的全局视觉嵌入特征和所述池化后的局部视觉嵌入特征进行视觉对比监督，以得到视觉对比结果；通过优化所述视觉对比结果、所述跨模态对比结果和所述同一个像素点聚类结果分布的最大化互信息，以实现对所述语义分割模型的训练，并在所述语义分割模型收敛时结束训练。在上述方案中，视觉编码器中可以引入视觉对比监督，可以提高语义分割模型的训练效果，在模型的训练阶段，通过对视觉对比结果、跨模态对比结果和同一个像素点聚类结果分布的最大化互信息的优化处理，可以实现对语义分割模型的训练。

在一种可能的实现方式中，所述对所述池化后的全局视觉嵌入特征和所述池化后的局部视觉嵌入特征进行视觉对比监督，以得到视觉对比结果，包括：对所述池化后的全局视觉嵌入特征和所述池化后的局部视觉嵌入特征进行全连接映射，以得到全连接映射结果；根据所述全连接映射结果计算全局视觉嵌入特征和局部视觉嵌入特征之间的语义一致性，并计算损失函数，得到包括所述损失函数的视觉对比结果。在上述方案中，视觉编码器可以根据池化后的全局视觉嵌入特征和池化后的局部视觉嵌入特征生成全连接映射结果，基于该全局视觉嵌入特征和局部视觉嵌入特征之间的语义一致性，计算视觉对比监督的损失函数，例如可以使用交叉熵作为损失函数，从而得到视觉对比结果。

在一种可能的实现方式中，所述对所述原始文本嵌入特征和所述池化后的全局视觉嵌入特征进行跨模态对比监督，以得到跨模态对比结果，包括：当所述图像文本对为多个的图像文本对时，根据所述原始文本嵌入特征和所述池化后的全局视觉嵌入特征计算所述多个的图像文本对的跨模态监督损失函数；对所述多个的图像文本对的跨模态监督损失函数进行平均值计算，以得到跨模态对比结果。在上述方案中，视觉编码器可以计算每个图像文本对的跨模态监督损失函数，多个图像文本对的跨模态监督损失函数计算平均值，可以得到跨模态对比结果，本申请实施例中通过跨模态监督可以对齐视觉特征和文本特征的嵌入空间。

在一种可能的实现方式中，所述聚类头包括：在线聚类头。在上述方案中，在线聚类头能够动态地把像素级嵌入特征分成不同的语义区域，在推理阶段基于区域池化的对齐方式，使得语义分割结果更为平滑。

在一种可能的实现方式中，语义分割结果，用于自动驾驶领域、或者产品器件缺陷检测领域、或者终端图像分类识别领域。

具体的，所述语义分割结果，用于识别自动驾驶系统中的路面非白名单物体；或者，用于对产品器件的缺陷检测；或者，用于对终端设备拍摄的图片进行分类，图片编辑以及文本图片的检索分析。在上述方案中，语义分割可适用于对开集语义分割的需求，识别自动驾驶领域中的图像，以及检测产品器件是否存在缺陷，以及对终端设备拍摄的图片进行分析，辅助图片的编辑以及基于文本图片的检索分析。

第二方面，本申请实施例还提供一种终端设备，语义分割模型包括：视觉编码器和聚类头，其中，所述终端设备包括：

视觉编码模块，用于将待预测的图像输入到所述视觉编码器中，以得到像素级嵌入特征；

聚类模块，用于将所述像素级嵌入特征输入到所述聚类头中，以得到聚类结果；

池化模块，用于根据所述聚类结果对所述像素级嵌入特征进行池化，以得到多个图像区域分别对应的视觉嵌入特征；

语义分割模块，用于根据所述多个图像区域分别对应的视觉嵌入特征和文本嵌入特征，对所述多个图像区域进行语义分割，以得到每个图像区域对应的语义分割结果；所述文本嵌入特征为根据预定义的文本类别获得。

在本申请的第二方面中，终端设备的组成模块还可以执行前述第一方面以及各种可能的实现方式中所描述的步骤，详见前述对第一方面以及各种可能的实现方式中的说明。

第三方面，本申请实施例提供了一种计算机可读存储介质，所述计算机可读存储介质中存储有指令，当其在计算机上运行时，使得计算机执行上述第一方面所述的方法。

第四方面，本申请实施例提供了一种包含指令的计算机程序产品，当其在计算机上运行时，使得计算机执行上述第一方面所述的方法。

第五方面，本申请实施例提供一种通信装置，该通信装置可以包括终端设备或者芯片等实体，所述通信装置包括：处理器、存储器；所述存储器用于存储指令；所述处理器用于执行所述存储器中的所述指令，使得所述通信装置执行如前述第一方面中任一项所述的方法。

第六方面，本申请提供了一种芯片系统，该芯片系统包括处理器，用于支持终端设备实现上述方面中所涉及的功能，例如，发送或处理上述方法中所涉及的数据和/或信息。在一种可能的设计中，所述芯片系统还包括存储器，所述存储器，用于保存终端设备必要的程序指令和数据。该芯片系统，可以由芯片构成，也可以包括芯片和其他分立器件。

从以上技术方案可以看出，本申请实施例具有以下优点：

在本申请实施例中，语义分割模型包括：视觉编码器和聚类头，将待预测的图像输入到视觉编码器中，以得到像素级嵌入特征；将像素级嵌入特征输入到聚类头中，以得到聚类结果；根据聚类结果对像素级嵌入特征进行池化，以得到多个图像区域分别对应的视觉嵌入特征；根据多个图像区域分别对应的视觉嵌入特征和文本嵌入特征，对多个图像区域进行语义分割，以得到每个图像区域对应的语义分割结果；文本嵌入特征为根据预定义的文本类别获得。本申请实施例中采用基于视觉的对比，语义分割模型可以更好地学习细粒度的视觉嵌入特征，且只需要预定义的文本类别就可以编码得到文本嵌入特征，不需要提供人为标注的数据，因此大幅度提高语义分割的效果，快速实现对图像的语义识别。

附图说明

图1为本申请实施例提供的一种图像处理方法的实现原理示意图；

图2为本申请实施例提供的一种图像处理方法的流程方框示意图；

图3为本申请实施例提供的语义分割模型的训练流程示意图；

图4为本申请实施例提供的语义分割模型的推断流程示意图；

图5为本申请实施例提供的一种终端设备的组成结构示意图；

图6为本申请实施例提供的另一种终端设备的组成结构示意图。

具体实施方式

下面结合附图，对本申请的实施例进行描述。

本申请的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的术语在适当情况下可以互换，这仅仅是描述本申请的实施例中对相同属性的对象在描述时所采用的区分方式。此外，术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，以便包含一系列单元的过程、方法、系统、产品或设备不必限于那些单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它单元。

语义分割任务是输入一张平面图像，为其中的每一个像素点分配一个类别标签。目前的分割数据集因为人工标注代价较大(基于逐像素点的标注耗时长，成本高)，往往只含有有限的语义类别(例如PASCAL VOC数据集中只含有20类别)。然而下游复杂的应用场景需求分割模型可以在无需特定类别标注的情况下完成开集分割任务，因此如何搭建出具有开集(open-set)分割能力的模型成为现阶段学术界与工业界都比较关注的问题。开集语义分割技术的应用场景广泛，涵盖大多数无标签或少标签语义分割任务，举例如下：在一种场景中，自动驾驶系统中路面非白名单物体(corner case)(例如道路上的垃圾袋，石头，树枝等)的分割或收集任务，对自动驾驶系统的安全性起重要作用。又如，中国强制性产品认证(China Compulsory Certification，3C)产线中对固定位置或者感兴趣区域的器件(例如电阻、电容、电感、接插件、螺钉等等)进行有无、错漏检测，以及缺陷(连焊、漏焊、虚焊等)分割。又如，终端中对拍摄照片进行自动新建类别并分类，同时可以协助图片编辑以及文本与图片检索工作。

目前的语义分割的相关研究主要集中在有监督的语义分割领域，需要在有细粒度标注的人工数据集上进行监督训练，训练出的神经网络模型通常只适用于该数据集所涵盖的类别或场景，泛化性能不好，这远远达不到对开集语义分割的需求。

为了弥补有监督的语义分割和真实世界应用的差距，一些基础的无需标注的(zero-shot)的语义分割模型陆续被提出。但是这些方法大多数是探索不可见(unseen)和可见(seen)类之间的深度语义关系，需要大量的有标注的数据以及更多样化的可见类类别。这些方法的训练数据集多局限于某一个数据集或某些特定内容的数据集，因此容易过拟合到相应场景或类别，并不能有效分割真实世界多样的类别。举例来说，假设用户的数据集中可见类别只含有动物的类别，那基于现有zero-shot方法是无法做到检测自动驾驶场景的类别，例如自行车。

基于上述分析可知，如何使用具有开集分割能力的模型实现对上述技术应用场景中的图像正确处理是目前尚未解决的技术问题。

为解决无法进行图像的语义识别的问题，本申请实施例中采用视觉语言驱动的语言分割方法，采用了基于视觉对比和基于文本对比分别获得视觉嵌入特征和文本嵌入特征，从而对待预测图像进行语义分割，不需要提供人为标注的数据，因此能够大幅度提高语义分割的效果，快速实现对图像的语义识别。

如图1所示，为本申请实施例提供的一种图像处理方法的实现原理示意图。该方法通过语义分割模型实现语义分割，该语义分割模型包括：视觉编码器和聚类头。其中，

语义分割模型通过视觉编码器接收带预测的图像；根据该图像提取像素级嵌入特征；向聚类头发送像素级嵌入特征；

语义分割模型通过聚类头根据视觉编码器提供的像素级嵌入特征进行聚类分析，并输出聚类结果；

语义分割模型通过视觉编码器根据该聚类结果对像素级嵌入特征进行池化，以得到多个图像区域分别对应的视觉嵌入特征；

语义分割模型可以获取预定义的文本类别，对该文本类别进行特征提取，以得到文本嵌入特征；进一步的，语义分割模型还包括文本编码器，该语义分割模型可以通过文本编码器接收预定义的文本类别。

语义分割模型根据多个图像区域分别对应的视觉嵌入特征和文本嵌入特征，对多个图像区域进行语义分割，以得到每个图像区域对应的语义分割结果。

在一些实施例中，该语义分割模型具体可以是ViL-Seg模型。不限定的是，本申请实施例提供的语义分割模型还可以是其他语义分割模型，例如U-Net、全卷积网络(FullyConvolutional Networks，FCN)、(A Deep Convolutional Encoder-DecoderArchitecture for Image Segmentation，SegNet)、DeepLab v1等。

通过对前述语义分割模型的推理流程的说明可知，本申请实施例采用视觉语言驱动的语言分割方法，利用图像文本对数据，而不需要任何的细粒度的标注进行语义分割。本申请实施例基于图像文本中的分割方式，采用了基于视觉对比和基于语言的对比分别获得细粒度的视觉嵌入特征和粗粒度的文本嵌入特征。本申请实施例采用聚类头把视觉嵌入特征分成不同的语义区域，在推理阶段同时提出了基于区域池化的对齐方式，使得分割结果更为平滑，同时训练和推断都是端到端进行的，具有简单可实施的优点。

基于前述的语义分割模型，本申请实施例提供一种图像处理方法，如图2所示，该图像处理方法通过语义分割模型实现语义分割，语义分割模型包括：视觉编码器和聚类头，其中，该图像处理方法包括：

201、将待预测的图像输入到视觉编码器中，以得到像素级嵌入特征。

其中，该待预测的图像可以是单张的图像，也可以是经过数据增强之后的多张局部图像。另外，该待预测的图像可以是RGB图像，本申请实施例中不限定图像的具体类型和数量。

该视觉编码器，也可以称为图像编码器，视觉编码器可以是可视化编码器(VisualTransformer)，例如具体可以是ViT-B/16。视觉编码器具有视觉特征提取功能，从该待预测的图像中提取到像素级特征，以得到像素级嵌入特征。

202、将像素级嵌入特征输入到聚类头中，以得到聚类结果。

其中，聚类头可以从视觉编码器中接收到像素级嵌入特征，聚类头可以对该像素级嵌入特征进行聚类分析，以得到聚类结果。

在本申请的一些实施例中，该聚类头可以为在线聚类头。

其中，在线聚类头能够动态地把像素级嵌入特征分成不同的语义区域，在推理阶段基于区域池化的对齐方式，使得语义分割结果更为平滑。

203、根据聚类结果对像素级嵌入特征进行池化，以得到多个图像区域分别对应的视觉嵌入特征。

其中，视觉编码器获取到聚类头输出的聚类结果之后，视觉编码器可以对该聚类结果进行池化处理，例如该池化处理具体可以是平均池化处理。通过池化处理，可以得到多个图像区域分别对应的视觉嵌入特征，该视觉嵌入特征可以是区域图像嵌入特征。

204、根据多个图像区域分别对应的视觉嵌入特征和文本嵌入特征，对多个图像区域进行语义分割，以得到每个图像区域对应的语义分割结果；文本嵌入特征为根据预定义的文本类别获得。

本申请实施例中，语义分割模型中可以预先输入预定义的文本类别，通过该预定义的文本类别得到文本嵌入特征。例如，语义分割模型通过视觉编码器得到多个图像区域分别对应的视觉嵌入特征，结合预先得到的文本嵌入特征，接下来根据该视觉嵌入特征和文本嵌入特征对多个图像区域分别进行语义分割，得到图像区域的语义分割结果。

在本申请的一些实施例中，语义分割模型还可以包括文本编码器，将预定义的文本类别输入到文本编码器中，以得到文本嵌入特征。

其中，文本编码器可以接收到预定义的文本类别，该文本类别又可以称为语义类别，通过文本编码器提取图像对应的文本嵌入特征。

在本申请的一些实施例中，语义分割模型，还包括：文本编码器；将预定义的文本类别输入到文本编码器中，以得到文本嵌入特征，包括：

A1、根据预定义的文本类别和预定义的提示模板进行组合，以得到文本；

A2、将文本输入到文本编码器中，以得到多个文本类别对应的文本嵌入特征。

其中，文本编码器可以将文本类别与提示模板(prompt template)组合得到文本，将该文本输入到文本编码器中，以得到文本嵌入特征，提示模板应用于自然语言研究领域，例如a photo of a{category}，用于和类别名称一起形成像自然语言的语句，是跨模态预训练的手段。通过提示模板和文本类别进行组合，可以快速得到文本。

本申请实施例中可以使用没有标注文本类别输入到语义分割模型中，可以减少人工标注的工作量。

在本申请的一些实施例中，步骤204根据多个图像区域分别对应的视觉嵌入特征和文本嵌入特征，对多个图像区域进行语义分割，以得到每个图像区域对应的语义分割结果，包括：

B1、计算每个图像区域对应的视觉嵌入特征分别与多个文本类别的文本嵌入特征之间的相似度，以得到每个图像区域对应的多个相似度值；

B2、将多个相似度值中最大相似度值对应的文本类别作为每个图像区域对应的语义分割结果。

其中，可以通过计算不同图像区域的视觉嵌入特征和文本嵌入特征的相似度，得到每个图像区域对应的多个相似度值，再通过相似度值的最大值选取，可以得到每个图像区域对应的语义分割结果。对于相似度值的具体计算过程，详见后续实施例中的说明。

所述语义分割结果，用于识别自动驾驶系统中的路面非白名单物体；或者，用于对产品器件的缺陷检测；或者，用于对终端设备拍摄的图片进行分类，图片编辑以及文本图片的检索分析。在上述方案中，语义分割可适用于对开集语义分割的需求，识别自动驾驶领域中的图像，以及检测产品器件是否存在缺陷，以及对终端设备拍摄的图片进行分析，辅助图片的编辑以及基于文本图片的检索分析。

通过前述实施例的举例说明可知，语义分割模型包括：视觉编码器和聚类头，将待预测的图像输入到视觉编码器中，以得到像素级嵌入特征；将像素级嵌入特征输入到聚类头中，以得到聚类结果；根据聚类结果对像素级嵌入特征进行池化，以得到多个图像区域分别对应的视觉嵌入特征；根据多个图像区域分别对应的视觉嵌入特征和文本嵌入特征，对多个图像区域进行语义分割，以得到每个图像区域对应的语义分割结果；所述文本嵌入特征为根据预定义的文本类别获得。本申请实施例中采用基于视觉的对比，语义分割模型可以更好地学习细粒度的视觉嵌入特征，且只需要预定义的文本类别就可以编码得到文本嵌入特征，不需要提供人为标注的数据，因此大幅度提高语义分割的效果，快速实现对图像的语义识别。

在本申请的一些实施例中，本申请实施例提供的图像处理方法，除了执行前述图2所示的方法步骤外，该图像处理方法还包括：

C1、使用没有标注文本类别的图像文本对对语义分割模型进行模型训练，然后输出完成训练的语义分割模型。

其中，首先获取没有标注文本类别的图像文本对，例如该图像文本对可以是互联网上的图像文本对数据，而不需要任何的细粒度的标注，本申请实施例可以采用上述图像文本对作为训练数据，从而对原始的语义分割模型进行模型训练，从而完成语义分割训练，输出该完成训练的语义分割模型。

进一步的，在本申请的一些实施例中，前述步骤C1使用没有标注文本类别的图像文本对对语义分割模型进行模型训练，包括：

C11、从图像文本对中获取原始图像以及对应的原始文本。

其中，输入到语义分割模型的是没有标注文本类别的图像文本对，该图像文本对中包括成对的原始图像和原始文本。

C12、对原始图像进行图像数据增强，以得到原始图像对应的多张局部图像。

其中，本申请实施例中对原始图像进行图像数据增强，从而可以得到多张局部图像，对于采用的图像增强策略不做限定。

C13、将原始图像和多张局部图像输入到视觉编码器中，以得到全局视觉嵌入特征和局部视觉嵌入特征。

其中，视觉编码器中输入有原始图像和多张局部图像，语义分割模型可以通过ViT-B/16的图像编码器的主干网络提取全局视觉嵌入(embedding)特征和局部视觉嵌入特征，这两个嵌入特征分别提取了图像的全局信息和局部信息。

C14、对全局视觉嵌入特征和局部视觉嵌入特征分别进行池化处理，以得到池化后的全局视觉嵌入特征和池化后的局部视觉嵌入特征。

其中，视觉编码器对全局视觉嵌入特征和局部视觉嵌入特征分别进行池化处理，可以将原始图像划分为多个图像区域，得到池化后的全局视觉嵌入特征和池化后的局部视觉嵌入特征。例如对全局视觉嵌入特征和局部视觉嵌入特征分别经过平均池化，可以得到全局图像嵌入特征。

C15、对原始文本嵌入特征和池化后的全局视觉嵌入特征进行跨模态对比(cross-modalcontrasting)监督，以得到跨模态对比结果，原始文本嵌入特征通过语义分割模型对原始文本进行特征提取得到。

例如，可以将原始文本输入到文本编码器中，以得到原始文本嵌入特征。

其中，文本编码器对原始文本的提取可以得到原始文本嵌入特征，该原始文本嵌入特征也可以称为单词嵌入特征。

在获取到原始文本嵌入特征和池化后的全局视觉嵌入特征之后，通过原始文本嵌入特征和池化后的全局视觉嵌入特征进行跨模态对比监督学习，具体可以定义跨模态对比监督损失函数，以得到跨模态对比结果。

C16、将全局视觉嵌入特征和局部视觉嵌入特征输入到聚类头中，通过聚类头计算全局视觉嵌入特征和局部视觉嵌入特征之间同一个像素点聚类结果分布的最大化互信息。

具体的，在线聚类头中可以输入全局视觉嵌入特征和局部视觉嵌入特征，该在线聚类头可以计算全局视觉嵌入特征和局部视觉嵌入特征之间同一个像素点聚类结果分布的最大化互信息，在线聚类头的互信息最大化使语义分割模型可以对视觉特征进行语义区域的自动切分。

C17、通过优化跨模态对比结果和同一个像素点聚类结果分布的最大化互信息，以实现对语义分割模型的训练，并在语义分割模型收敛时结束训练。

在前述步骤中，分别生成优化跨模态对比结果和同一个像素点聚类结果分布的最大化互信息，通过对跨模态对比结果和同一个像素点聚类结果分布的最大化互信息的优化处理，可以实现对语义分割模型的训练，并在每次优化时判断语义分割模型是否收敛，最后可以结束对语义分割模型的训练。

进一步的，在本申请的一些实施例中，步骤C17通过优化跨模态对比结果和同一个像素点聚类结果分布的最大化互信息，以实现对语义分割模型的训练，并在语义分割模型收敛时结束训练，包括：

C171、对池化后的全局视觉嵌入特征和池化后的局部视觉嵌入特征进行视觉对比(vision-based contrasting)监督，以得到视觉对比结果；

其中，视觉编码器中还可以引入视觉对比监督，具体的，可以对池化后的全局视觉嵌入特征和池化后的局部视觉嵌入特征进行视觉对比监督，并生成视觉对比结果。

C172、通过优化视觉对比结果、跨模态对比结果和同一个像素点聚类结果分布的最大化互信息，以实现对语义分割模型的训练，并在语义分割模型收敛时结束训练。

其中，在前述步骤中，视觉编码器中可以引入视觉对比监督，可以提高语义分割模型的训练效果，在模型的训练阶段，通过对视觉对比结果、跨模态对比结果和同一个像素点聚类结果分布的最大化互信息的优化处理，可以实现对语义分割模型的训练。

进一步的，在本申请的一些实施例中，前述步骤C171对池化后的全局视觉嵌入特征和池化后的局部视觉嵌入特征进行视觉对比监督，以得到视觉对比结果，包括：

C1711、对池化后的全局视觉嵌入特征和池化后的局部视觉嵌入特征进行全连接映射，以得到全连接映射结果；

C1712、根据全连接映射结果计算全局视觉嵌入特征和局部视觉嵌入特征之间的语义一致性，并计算损失函数，得到包括损失函数的视觉对比结果。

其中，视觉编码器可以根据池化后的全局视觉嵌入特征和池化后的局部视觉嵌入特征生成全连接映射结果，基于该全局视觉嵌入特征和局部视觉嵌入特征之间的语义一致性，计算视觉对比监督的损失函数，例如可以使用交叉熵作为损失函数，从而得到视觉对比结果。

进一步的，在本申请的一些实施例中，前述步骤C15对原始文本嵌入特征和池化后的全局视觉嵌入特征进行跨模态对比监督，以得到跨模态对比结果，包括：

C151、当图像文本对为多个的图像文本对时，根据原始文本嵌入特征和池化后的全局视觉嵌入特征计算多个的图像文本对的跨模态监督损失函数；

C152、对多个的图像文本对的跨模态监督损失函数进行平均值计算，以得到跨模态对比结果。

其中，视觉编码器可以计算每个图像文本对的跨模态监督损失函数，多个图像文本对的跨模态监督损失函数计算平均值，可以得到跨模态对比结果，本申请实施例中通过跨模态监督可以对齐视觉特征和文本特征的嵌入空间。

为便于更好的理解和实施本申请实施例的上述方案，下面举例相应的应用场景来进行具体说明。

本申请实施例的应用场景主要针对在开放世界数据集的开集语义分割任务。作为视觉领域中极为重要的组成部分，语义分割在各行各业的应用都很广泛，如自动驾驶领域、或者产品器件缺陷检测领域、或者终端图像分类识别领域。自动驾驶是一项复杂的机器人任务，需要在不断变化的环境中进行感知、规划和执行。由于其安全性至关重要，因此还需要以最高精度执行此任务，语义分割提供有关道路上自由空间的信息，以及检测车道标记和交通标志等信息。而自动驾驶领域，怎样高精度地分割长尾场景尤为重要。长尾场景通常包含非常复杂的路况，有多种物体存在于同一个场景中，不同物体之间又有着多种组合方式，这都影响着分割的精度。数据集通常都是关注于几个场景或部分常见的类别(例如人或者车)，在此数据集上训练的模型通常只能分割该数据集定义的类别，而不能分割出未定义的新类别，这样会对自动驾驶系统的安全性造成重要挑战。例如，道路上的轮胎与纸片往往不在现有自动驾驶数据集标注的类别中，而无法检测出道路上的这些障碍物体，会降低现有自动驾驶系统的安全性。

本申请实施例可以采用基于图片文本对比和视觉对比的开放数据集场景的语义分割模型，提升在开放数据集标注缺失的数据或类别上的语义分割模型的性能与鲁棒性。通过图像文本对比，本申请实施例提供的语义分割模型可以学习到复杂的语义信息，同时利用互联网数据的特点，语义分割模型可以分割出不常见的类别，应用到各种场景上并得到比较好的效果。例如本申请实施例提供的语义分割模型根据所给的名词准确分割出各个不常见类别，例如恐龙，热气球或瑜伽垫等的掩码图，在未见过这些类别标注的前提下。

本申请实施例使用基于图片文本(VisionLanguage)对比学习分割的网络模型，能够通过基于视觉的对比获取图像细粒度视觉的特征信息，从而得到较准确的分割掩码；通过基于语言的对比获取图像的粗粒度的语义信息，从而很好地确定分割掩码的类别。其中，粗粒度语义指的是利用全图和类别文本做对应，不能很好地处理像素点信息，细粒度视觉特征指的是利用将裁剪图片和原图片特征对齐以学习到图像区域(patch)或者像素点层面上的细节；另外，本申请实施例提出在线聚类头，来更好的将视觉特征划分成不同的语义区域。需要说明的是，本申请实施例只需要收集网络上自然存在的广泛的图像文本对数据作为训练数据集，不需要额外的人工标注；除此以外，本申请实施例可以应用于大多数图像数据集的语义分割任务上，并获得较好的效果。

本申请实施例提供的终端设备只需要是能够采集二维图像数据的普通相机，根据场景不同部署在相应的计算设备上即可，后续实施例中以语义分割模型为ViL-Seg模型进行示例。接下来对本申请实施例提供的图像处理方法流程进行说明。

首先，本申请实施例可以分为两个流程：ViL-Seg模型训练流程和ViL-Seg模型推断流程。

如图3和图4所示，ViL-Seg模型主要包括如下三个部分组成：视觉编码器，文本编码器和聚类头。

其中，视觉编码器，也可以称为图像编码器，具体可以为VisionTransformer(例如ViT-B/16)，用于提取像素级视觉嵌入特征及全局视觉嵌入特征。在基于视觉的对比监督中，使用多次裁剪策略从图像中裁剪出6个局部块，映射层维度为2048，视觉嵌入特征的维度为512。

文本编码器具体可以为TextTransformer(例如ViT-B/16)，用于提取与图片对应的文本嵌入特征，文本嵌入特征的维度为512，文本嵌入特征可以用于计算文本嵌入特征与视觉嵌入特征之间的余弦相似度。

聚类头为ViL-Seg模型设计得到，例如该聚类头可以为在线聚类头，在线聚类头的聚类通道数C为25。

本申请实施例使用Adam优化器，该优化器可用于训练前述的模型，采用学习率为5e^-4，即5*10^-4，在1200万的图片-文本数据集(例如CC12M)数据集上训练。

如图3所示，为ViL-Seg模型训练流程，主要有三个监督信号，跨模态监督是模型学习粗粒度的语义类别特征，视觉基础监督是模型学习细粒度的视觉特征，在线聚类头的互信息最大化使模型可以对视觉特征进行语义区域的自动切分。

在模型的训练阶段，给定一个RGB图像x作为输入，首先对该图像做数据增强，得到多张局部图像，ViL-Seg模型会通过一个ViT-B/16的视觉编码器的主干网络提取全局视觉嵌入(embedding)特征和局部视觉嵌入特征，这两个嵌入特征分别提取了图像的全局信息和局部信息，分别经过平均池化得到全局图像嵌入特征。接着，使用图像的全局信息与局部信息进行基于视觉的对比监督学习。

对应于RGB图像x的文本t，ViL-Seg模型通过一个Transformer的文本编码器的主干网络得到文本嵌入特征，该文本嵌入特征提取了图像对应的文本信息，包括了图像的类别信息等，通过文本嵌入特征与全局图像嵌入特征进行跨模态对比监督学习。ViL-Seg模型将像素级嵌入特征输入到前述的聚类头上，得到像素级嵌入特征属于各个类别的概率分布，通过使同一像素点在不同数据增强下的图片特征互信息最大化进行学习。整个训练过程在互联网上采集的大规模的无详细分割标注的图像-文本对数据集上进行训练。

如图4所示，为ViL-Seg模型推断流程，推断流程使用训练流程中训练过的图像编码器和文本编码器权重，分别编码图像和文本得到特征，使用训练过的聚类头聚类不同区域图像特征，并计算相似度，得到不同区域的图像特征和文本特征的最优匹配。

如图4所示，在ViL-Seg模型的推断阶段，本申请实施例只需要输入一张图片和预先定义的类别就可以得到语义分割结果。ViL-Seg模型将图像数据输入到训练得到的图像编码器中得到像素级嵌入特征，通过聚类头得到聚类结果。然后，通过基于聚类的池化得到不同图像区域对应的视觉嵌入特征。

将文本类别与提示模板(prompt template)组合得到文本，将该文本输入到训练的文本编码器中得到文本嵌入特征，其中，提示模板应用于自然语言研究领域，例如aphoto of a{category}，用于和类别名称一起形成像自然语言的语句，可用于跨模态预训练。通过计算视觉嵌入特征和文本嵌入特征的余弦相似度得到的最大的值对应的文本类别，即为该图像区域对应的语义分割类别。

接下来详细介绍语义分割模型的训练流程和推断流程，包括如下步骤：

步骤1：输入为一个RGB图像x，使用多次裁剪(multicrop)的图像增强策略g(·)，将RGB图像x转化为k个局部图像，x^local＝g(x)＝[x^l1，x^l2，…，x^lk]，k为局部图像的个数。

步骤2：步骤1中的所有的图像，包括局部图像和全局图像，输入到视觉编码器中，得到全局特征e_v(x)和局部特征e_v(x^local)，局部特征是多个视图的拼接[e_v(x^l1)，e_v(x^l2)，…，e_v(x^lk)]。

步骤3：对步骤2中的特征进行一个全连接映射Φ_a(e_v(x))，Φ_a(e_v(x^local))。

步骤4：对步骤3中得到的特征进行对比监督，学习全局特征和局部特征的语义信息一致性，使用交叉熵作为损失函数L_vision＝H(Φ_a(e_v(x))，Φ_a(e_v(x^local)))。

步骤5：输入步骤1中的RGB图像相对应的文本t，将其通过一个文本编码器e_t，在本申请实施例中使用的是一个预训练好的Transformer模型，得到文本嵌入特征e_t(t)。

步骤6：步骤1中和步骤5中的图像文本对是小批次b对{x_j，t_i}_j＝1 ^b，b为当前对(batch)内图片的数量。

当m＝n时，图像特征e_v(x_m)和文本特征e_t(t_n)是一个正对，否则是一个负对，对于这个小批次中的跨模态监督损失函数为

其中，⊙定义为余弦相似度，例如，

τ定义为温度参数，温度参数是为了让得到的分布更加平滑或尖锐的超参，最终的目标函数是小批次中的跨模态监督损失函数的平均值

其中，a＝e_v(x_m)，b＝e_t(t_m)。对齐视觉嵌入特征和文本嵌入特征使得文本中的类别信息迁移到了视觉嵌入空间，因此，可以对比视觉嵌入特征和不同类的文本嵌入特征的相似度，从而得到图像类别信息。

步骤7：根据步骤3中的视觉编码器得到全局和局部图像的每个像素的视觉嵌入特征

其中，特征维度是HW·D，H是图片的高，W是图片的宽，D是通道(channel)数。

步骤8：构建聚类头Φ_c，该聚类头由C个通道的卷积层和损失(softmax)函数组成，将像素级的视觉嵌入特征输入到聚类头中。

步骤9：定义q，q′∈R^1·D是像素级视觉嵌入特征中同一像素点在不同数据增强图片数据中得到的特征，目标是使得两者的互信息最大化

Φ_c代表在线聚类头的参数。q和q′是同一个像素点在不同数据增强图片数据中经过视觉编码器得到的不同的特征。

步骤10：优化损失函数L_vision，L_cross，

直至收敛。

步骤11：在ViL-Seg模型的推断阶段，使用步骤10中的视觉编码器，文本编码器和聚类头，将输入图像x输入视觉编码器中得到像素级嵌入特和

将其传递给聚类头得到C个聚类掩码M∈{0，1}^HWC。

步骤12：步骤11中产生的C个聚类掩码根据像素索引通过过滤和平均池化，得到区域级的所有像素点的池化特征

其中，过滤指的是过滤掉该掩码标记为非本类(标记为0)的像素点。

步骤13：步骤12中每个区域的类别由计算区域级特征和不同类的文本嵌入特征的相似度得出，不同类的单词可以加入提示“a photo of a[]”，从而提升语义分割效果。

通过前述的举例说明可知，本申请实施例在ViL-Seg模型上进行了全面和细致的实验，以证明ViL-Seg模型的有效性。本申请实施例在PASCALVOC、PASCALContext和COCOStuff数据集的全量测试集上进行了测试。由于其他方法都使用了可见类的人工标注进行训练，为公平比较，本申请实施例与其他方法比较了在不可见类上的分割结果。

PASCAL VOC数据集的测试集有1449张图片，其中，不可见类有5类，分别为：pottedplant，sheep，sofa，train，tv-monitor。

PASCALContext数据集的测试集有5105张图片，其中，不可见类有4类，分别为：cow，motorbike，sofa，cat。

COCOStuff数据集的测试集有5000张图片，其中，不可见类有15类，分别为：frisbee，skateboard，cardboard，carrot，scissots，suitcase，giraffe，cow，road，wallconcrete，tree，grass，river，clouds，playingfield。

本申请实施例中可以使用平均交并比(mean Intersection over Union，mIoU)和像素精度(pix.acc.)作为评价指标。得到如下表1所示的不同数据集下的语义分割结果对比表。

表1不同语义分割方法在不同数据集上的不可见类的零样本分割比较，表1展示了ViL-Seg模型与其他方法在PASCALVOC，PASCAL Context，COCO stuff数据集上的比较(“n/a”表示该结果其他方法并未测试)。从表1可知，ViL-Seg模型比其他所有的方法在三个数据集上的mIoU和pixelaccuracy指标都要好。这证明本申请实施例可以从互联网上的图片文本对上学习到具有分割能力的模型，去分割不同的开放世界类别。ZS3需要在有细粒度标注的数据集上进行训练，而ViL-Seg不需要，但结果仍比ZS3好，这可以极大节约人为标注的花费。ViL-Seg在PASCALVOC上的提升比其他两个数据集的提上效果好，一个可能的原因是PASCALVOC可见类有15类，而PASCALContext有55类，COCOStuff有168类。

本申请实施例中，抛弃了原有的需要人为标注的数据，直接从互联网上获取需要的图片文本对，使得花费减少；由于数据集的广泛性，可扩容性，本申请实施例可以应用于任何的下游任务并取得非常好的效果；提出了基于视觉的对比，ViL-Seg模型可以更好地学习细粒度的视觉特征，可以大幅度提高语义分割的效果；本申请实施例使用在线聚类头，减少了推断时间，提高推断效率，同时提高了语义分割的效果。

在本申请的另一些实施例中，可以确定各个模块的单独作用效果，其中包括仅仅不使用基于视觉对比监督，及使用离线聚类对整个结果的影响。

仍使用与前述实施例中相同的数据集设定，得到本申请实施例提出的几个模块的影响，采用消融实验，分别消除了基于视觉对比和在线聚类(或者使用离线聚类K-means)。如下

表2为ViL-Seg消除几个模块后的影响对比比较表。

如表2所示，本申请实施例提出的ViL-Seg模型消除了基于视觉对比后，效果显著降低，说明除了跨模态监督来对齐视觉和文本的嵌入空间，视觉编码器也被自身的局部和全局图像块的自监督信号约束。没有基于视觉对比，聚类结果不能将有语义的物体与背景区域区别开，全局信号不足以支持细粒度的任务。在三个数据集上，本申请实施例提供的在线聚类方法比离线聚类方法有更高的分割性能。可以认为在线聚类头与视觉编码器紧密耦合，随着训练的进行，可以提高视觉嵌入的质量，这是离线方法无法达到的。在线聚类头的帧率(Frames Per Second，FPS)为3.53，离线聚类的帧率为2.97，离线聚类的速度更慢因为需要后处理神经网络的特征，本申请实施例的在线聚类头提高了推断的速度。

本申请实施例提出了视觉语言驱动的语义分割框架ViL-Seg，从互联网上收集海量的图像文本对数据应用于模型训练，提升语义分割模型的泛化性。提出了跨模态对比和基于视觉对比相结合的方案，可以同时兼顾模型对不同语义物体的粗粒度分类能力和细粒度特征分割能力。采用在线聚类头，语义分割模型可以端到端地训练和推断，优化了分割图像的质量，提高了推断速度。

不限定的是，本申请实施例中在线聚类头使得语义分割模型可以提高分割图像的质量同时提高推断速度，本申请实施例还可以扩展到其他语义分割框架或系统中，例如其他语义分割框架可以包括如下至少一种：U-Net，FCN，SegNet，DeepLab v1等。可以与其他的视觉嵌入结合，提升分割图的质量，同时提升推断速度。

需要说明的是，对于前述的各方法实施例，为了简单描述，故将其都表述为一系列的动作组合，但是本领域技术人员应该知悉，本申请并不受所描述的动作顺序的限制，因为依据本申请，某些步骤可以采用其他顺序或者同时进行。其次，本领域技术人员也应该知悉，说明书中所描述的实施例均属于优选实施例，所涉及的动作和模块并不一定是本申请所必须的。

为便于更好的实施本申请实施例的上述方案，下面还提供用于实施上述方案的相关装置。

请参阅图5所示，本申请实施例提供的一种终端设备500，语义分割模型包括：视觉编码器和聚类头，其中，所述终端设备包括：视觉编码模块501、聚类模块502、池化模块503、和语义分割模块504，其中，

需要说明的是，上述装置各模块/单元之间的信息交互、执行过程等内容，由于与本申请方法实施例基于同一构思，其带来的技术效果与本申请方法实施例相同，具体内容可参见本申请前述所示的方法实施例中的叙述，此处不再赘述。

本申请实施例还提供一种计算机存储介质，其中，该计算机存储介质存储有程序，该程序执行包括上述方法实施例中记载的部分或全部步骤。

接下来介绍本申请实施例提供的另一种终端设备，请参阅图6所示，终端设备600包括：

接收器601、发射器602、处理器603和存储器604(其中终端设备600中的处理器603的数量可以一个或多个，图6中以一个处理器为例)。在本申请的一些实施例中，接收器601、发射器602、处理器603和存储器604可通过总线或其它方式连接，其中，图6中以通过总线连接为例。

存储器604可以包括只读存储器和随机存取存储器，并向处理器603提供指令和数据。存储器604的一部分还可以包括非易失性随机存取存储器(non-volatile randomaccess memory，NVRAM)。存储器604存储有操作系统和操作指令、可执行模块或者数据结构，或者它们的子集，或者它们的扩展集，其中，操作指令可包括各种操作指令，用于实现各种操作。操作系统可包括各种系统程序，用于实现各种基础业务以及处理基于硬件的任务。

处理器603控制终端设备的操作，处理器603还可以称为中央处理单元(centralprocessing unit，CPU)。具体的应用中，终端设备的各个组件通过总线系统耦合在一起，其中总线系统除包括数据总线之外，还可以包括电源总线、控制总线和状态信号总线等。但是为了清楚说明起见，在图中将各种总线都称为总线系统。

上述本申请实施例揭示的方法可以应用于处理器603中，或者由处理器603实现。处理器603可以是一种集成电路芯片，具有信号的处理能力。在实现过程中，上述方法的各步骤可以通过处理器603中的硬件的集成逻辑电路或者软件形式的指令完成。上述的处理器603可以是通用处理器、数字信号处理器(digital signal processing，DSP)、专用集成电路(application specific integrated circuit，ASIC)、现场可编程门阵列(field-programmable gate array，FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。可以实现或者执行本申请实施例中的公开的各方法、步骤及逻辑框图。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。结合本申请实施例所公开的方法的步骤可以直接体现为硬件译码处理器执行完成，或者用译码处理器中的硬件及软件模块组合执行完成。软件模块可以位于随机存储器，闪存、只读存储器，可编程只读存储器或者电可擦写可编程存储器、寄存器等本领域成熟的存储介质中。该存储介质位于存储器604，处理器603读取存储器604中的信息，结合其硬件完成上述方法的步骤。

接收器601可用于接收输入的数字或字符信息，以及产生与终端设备的相关设置以及功能控制有关的信号输入，发射器602可包括显示屏等显示设备，发射器602可用于通过外接接口输出数字或字符信息。

本申请实施例中，处理器603，用于执行前述图2所示的图像处理方法中的任意一个步骤。

在另一种可能的设计中，当终端设备具体为芯片时，芯片包括：处理单元和通信单元，所述处理单元例如可以是处理器，所述通信单元例如可以是输入/输出接口、管脚或电路等。该处理单元可执行存储单元存储的计算机执行指令，以使该终端内的芯片执行上述第一方面任意一项的方法。可选地，所述存储单元为所述芯片内的存储单元，如寄存器、缓存等，所述存储单元还可以是所述终端内的位于所述芯片外部的存储单元，如只读存储器(read-onlymemory，ROM)或可存储静态信息和指令的其他类型的静态存储设备，随机存取存储器(randomaccessmemory，RAM)等。

其中，上述任一处提到的处理器，可以是一个通用中央处理器，微处理器，ASIC，或一个或多个用于控制上述第一方面方法的程序执行的集成电路。

另外需说明的是，以上所描述的装置实施例仅仅是示意性的，其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。另外，本申请提供的装置实施例附图中，模块之间的连接关系表示它们之间具有通信连接，具体可以实现为一条或多条通信总线或信号线。

通过以上的实施方式的描述，所属领域的技术人员可以清楚地了解到本申请可借助软件加必需的通用硬件的方式来实现，当然也可以通过专用硬件包括专用集成电路、专用CPU、专用存储器、专用元器件等来实现。一般情况下，凡由计算机程序完成的功能都可以很容易地用相应的硬件来实现，而且，用来实现同一功能的具体硬件结构也可以是多种多样的，例如模拟电路、数字电路或专用电路等。但是，对本申请而言更多情况下软件程序实现是更佳的实施方式。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品存储在可读取的存储介质中，如计算机的软盘、U盘、移动硬盘、ROM、RAM、磁碟或者光盘等，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本申请各个实施例所述的方法。

在上述实施例中，可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。当使用软件实现时，可以全部或部分地以计算机程序产品的形式实现。

所述计算机程序产品包括一个或多个计算机指令。在计算机上加载和执行所述计算机程序指令时，全部或部分地产生按照本申请实施例所述的流程或功能。所述计算机可以是通用计算机、专用计算机、计算机网络、或者其他可编程装置。所述计算机指令可以存储在计算机可读存储介质中，或者从一个计算机可读存储介质向另一计算机可读存储介质传输，例如，所述计算机指令可以从一个网站站点、计算机、服务器或数据中心通过有线(例如同轴电缆、光纤、数字用户线(DSL))或无线(例如红外、无线、微波等)方式向另一个网站站点、计算机、服务器或数据中心进行传输。所述计算机可读存储介质可以是计算机能够存储的任何可用介质或者是包含一个或多个可用介质集成的服务器、数据中心等数据存储设备。所述可用介质可以是磁性介质，(例如，软盘、硬盘、磁带)、光介质(例如，DVD)、或者半导体介质(例如固态硬盘(Solid State Disk，SSD))等。

Claims

1.一种图像处理方法，其特征在于，语义分割模型包括：视觉编码器和聚类头，其中，所述方法包括：

将待预测的图像输入到所述视觉编码器中，以得到像素级嵌入特征；

将所述像素级嵌入特征输入到所述聚类头中，以得到聚类结果；

根据所述聚类结果对所述像素级嵌入特征进行池化，以得到多个图像区域分别对应的视觉嵌入特征；

根据所述多个图像区域分别对应的视觉嵌入特征和文本嵌入特征，对所述多个图像区域进行语义分割，以得到每个图像区域对应的语义分割结果；所述文本嵌入特征为根据预定义的文本类别获得。

2.根据权利要求1所述的方法，其特征在于，所述语义分割模型，还包括：文本编码器；

所述方法，还包括：

根据预定义的文本类别和预定义的提示模板进行组合，以得到文本；

将所述文本输入到所述文本编码器中，以得到多个文本类别对应的文本嵌入特征。

3.根据权利要求2所述的方法，其特征在于，所述根据所述多个图像区域分别对应的视觉嵌入特征和文本嵌入特征，对所述多个图像区域进行语义分割，以得到每个图像区域对应的语义分割结果，包括：

计算每个图像区域对应的视觉嵌入特征分别与所述多个文本类别的文本嵌入特征之间的相似度，以得到所述每个图像区域对应的多个相似度值；

将所述多个相似度值中最大相似度值对应的文本类别作为所述每个图像区域对应的语义分割结果。

4.根据权利要求1至3中任一项所述的方法，其特征在于，所述方法还包括：

使用没有标注文本类别的图像文本对对所述语义分割模型进行模型训练，然后输出完成训练的语义分割模型。

5.根据权利要求4所述的方法，其特征在于，所述使用没有标注文本类别的图像文本对对所述语义分割模型进行模型训练，包括：

从所述图像文本对中获取原始图像以及对应的原始文本；

对所述原始图像进行图像数据增强，以得到所述原始图像对应的多张局部图像；

将所述原始图像和所述多张局部图像输入到所述视觉编码器中，以得到全局视觉嵌入特征和局部视觉嵌入特征；

对所述全局视觉嵌入特征和所述局部视觉嵌入特征分别进行池化处理，以得到池化后的全局视觉嵌入特征和池化后的局部视觉嵌入特征；

对原始文本嵌入特征和所述池化后的全局视觉嵌入特征进行跨模态对比监督，以得到跨模态对比结果，所述原始文本嵌入特征通过所述语义分割模型对所述原始文本进行特征提取得到；

将所述全局视觉嵌入特征和所述局部视觉嵌入特征输入到所述聚类头中，通过所述聚类头计算所述全局视觉嵌入特征和所述局部视觉嵌入特征之间同一个像素点聚类结果分布的最大化互信息；

通过优化所述跨模态对比结果和所述同一个像素点聚类结果分布的最大化互信息，以实现对所述语义分割模型的训练，并在所述语义分割模型收敛时结束训练。

6.根据权利要求4所述的方法，其特征在于，所述通过优化所述跨模态对比结果和所述同一个像素点聚类结果分布的最大化互信息，以实现对所述语义分割模型的训练，并在所述语义分割模型收敛时结束训练，包括：

对所述池化后的全局视觉嵌入特征和所述池化后的局部视觉嵌入特征进行视觉对比监督，以得到视觉对比结果；

通过优化所述视觉对比结果、所述跨模态对比结果和所述同一个像素点聚类结果分布的最大化互信息，以实现对所述语义分割模型的训练，并在所述语义分割模型收敛时结束训练。

7.根据权利要求6所述的方法，其特征在于，所述对所述池化后的全局视觉嵌入特征和所述池化后的局部视觉嵌入特征进行视觉对比监督，以得到视觉对比结果，包括：

对所述池化后的全局视觉嵌入特征和所述池化后的局部视觉嵌入特征进行全连接映射，以得到全连接映射结果；

根据所述全连接映射结果计算全局视觉嵌入特征和局部视觉嵌入特征之间的语义一致性，并计算损失函数，得到包括所述损失函数的视觉对比结果。

8.根据权利要求5至7中任一项所述的方法，其特征在于，所述对原始文本嵌入特征和所述池化后的全局视觉嵌入特征进行跨模态对比监督，以得到跨模态对比结果，包括：

当所述图像文本对为多个的图像文本对时，根据所述原始文本嵌入特征和所述池化后的全局视觉嵌入特征计算所述多个的图像文本对的跨模态监督损失函数；

对所述多个的图像文本对的跨模态监督损失函数进行平均值计算，以得到跨模态对比结果。

9.根据权利要求1至8中任一项所述的方法，其特征在于，所述聚类头包括：在线聚类头。

10.根据权利要求1至9中任一项所述的方法，其特征在于，所述语义分割结果，用于自动驾驶领域、或者产品器件缺陷检测领域、或者终端图像分类识别领域。

11.一种终端设备，其特征在于，语义分割模型包括：视觉编码器和聚类头，其中，所述终端设备包括：

12.一种终端设备，其特征在于，所述终端设备包括：处理器，存储器；所述处理器、所述存储器之间进行相互的通信；

所述存储器用于存储指令；

所述处理器用于执行所述存储器中的所述指令，执行如权利要求1至10中任一项所述的方法。

13.一种计算机可读存储介质，包括指令，当其在计算机上运行时，使得计算机执行如权利要求1-10任意一项所述的方法。

14.一种包含指令的计算机程序产品，当其在计算机上运行时，使得计算机执行如权利要求1-10任意一项所述的方法。