CN118135571A

CN118135571A - 图像语义分割方法、系统、存储介质及电子设备

Info

Publication number: CN118135571A
Application number: CN202410572175.3A
Authority: CN
Inventors: 张俊杰; 孔欧; 刘益东
Original assignee: Shanghai Mido Technology Co ltd
Current assignee: Shanghai Mido Technology Co ltd
Priority date: 2024-05-10
Filing date: 2024-05-10
Publication date: 2024-06-04
Anticipated expiration: 2044-05-10
Also published as: CN118135571B

Abstract

本申请提供一种图像语义分割方法、系统、存储介质及电子设备，所述方法包括：获取多模态信息、第一聚类标准矩阵与第二聚类标准矩阵；所述多模态信息包括待处理图像与类别文本；基于所述待处理图像获取图像矩阵；基于所述类别文本获取类别向量；基于所述第一聚类标准矩阵对所述图像矩阵进行第一次聚类，获取第一次聚类结果；所述第一次聚类结果包括第一语义矩阵和第一聚类向量矩阵；基于所述第二聚类标准矩阵对所述第一聚类向量矩阵进行第二次聚类，获取第二次聚类结果；所述第二次聚类结果包括第二语义矩阵和第二聚类向量矩阵；基于所述第一次聚类结果、所述第二次聚类结果和所述类别向量获取图像语义分割结果。本申请能够增强语义分割效果。

Description

图像语义分割方法、系统、存储介质及电子设备

技术领域

本申请属于计算机视觉领域的技术领域，特别是涉及一种图像语义分割方法、系统、存储介质及电子设备。

背景技术

在计算机视觉领域中，图像语义分割是一项重要技术，其旨在将图像中的每个像素分配到预定义的语义类别中。图像语义分割技术能够应用于自动驾驶、医学图像分析、智能监控等诸多场景。

传统的图像语义分割方法主要基于图像的像素之间的颜色、纹理等低级特征进行分割。然而，这些方法往往对于复杂的场景和变化较大的图像效果不佳。随着深度学习的发展，基于神经网络的图像语义分割技术逐渐成为主流。例如，全卷积网络（FCN）是一种经典的深度学习模型，能够端到端地将输入图像映射到像素级的语义类别，极大地提高了图像语义分割的精度和效率。

但是，目前的图像语义分割技术仅仅利用了图像这一单一模态，导致分割效果较差。

发明内容

本申请的目的在于提供一种图像语义分割方法、系统、存储介质及电子设备，能够增强图像语义分割效果。

第一方面，本申请提供一种图像语义分割方法，所述方法包括：获取多模态信息、第一聚类标准矩阵与第二聚类标准矩阵；所述多模态信息包括待处理图像与类别文本；基于所述待处理图像获取图像矩阵；基于所述类别文本获取类别向量；基于所述第一聚类标准矩阵对所述图像矩阵进行第一次聚类，获取第一次聚类结果；所述第一次聚类结果包括第一语义矩阵和第一聚类向量矩阵；基于所述第二聚类标准矩阵对所述第一聚类向量矩阵进行第二次聚类，获取第二次聚类结果；所述第二次聚类结果包括第二语义矩阵和第二聚类向量矩阵；基于所述第一次聚类结果、所述第二次聚类结果和所述类别向量获取图像语义分割结果。

在第一方面的一种实现方式中，基于所述待处理图像获取图像矩阵包括：调整所述待处理图像的大小，并对调整后的图像进行分块处理以获取分块图像矩阵；将所述分块图像矩阵输入第一编码器以获取所述图像矩阵。

在第一方面的一种实现方式中，基于所述类别文本获取类别向量包括：将所述类别文本输入clip文本编码器，以获取所述类别向量。

在第一方面的一种实现方式中，基于所述第一聚类标准矩阵对所述图像矩阵进行第一次聚类，获取第一次聚类结果包括：基于所述图像矩阵获取第一查询向量；基于所述第一聚类标准矩阵获取第一值向量和第一健向量；基于所述第一查询向量和所述第一健向量获取所述第一语义矩阵；基于所述图像矩阵、所述第一语义矩阵和所述第一值向量获取所述第一聚类向量矩阵。

在第一方面的一种实现方式中，基于所述第二聚类标准矩阵对所述第一聚类向量矩阵进行第二次聚类，获取第二次聚类结果包括：将所述第一聚类向量矩阵输入第二编码器，获取编码矩阵；基于所述编码矩阵获取第二查询向量；基于所述第二聚类标准矩阵获取第二值向量和第二健向量；基于所述第二查询向量和所述第二健向量获取所述第二语义矩阵；基于所述编码矩阵、所述第二语义矩阵和所述第二值向量获取所述第二聚类向量矩阵。

在第一方面的一种实现方式中，基于所述第一次聚类结果、所述第二次聚类结果和所述类别向量获取图像语义分割结果包括：基于所述第一语义矩阵和所述第二语义矩阵获取语义矩阵；基于所述第二聚类向量矩阵和所述类别向量获取相似度矩阵；基于所述语义矩阵和所述相似度聚类矩阵获取图像语义分割结果。

在第一方面的一种实现方式中，基于所述语义矩阵和所述相似度聚类矩阵获取图像语义分割结果包括：将所述语义矩阵和所述相似度矩阵进行矩阵乘法以获取语义分割图；对所述语义分割图进行双线性插值处理以获取初始语义分割结果；基于所述初始语义分割结果选取语义类别以获取图像语义分割结果。

第二方面，本申请提供一种图像语义分割系统，所述系统包括：第一获取模块，用于获取多模态信息、第一聚类标准矩阵与第二聚类标准矩阵；所述多模态信息包括待处理图像与类别文本；第二获取模块，用于基于所述待处理图像获取图像矩阵；第三获取模块，用于基于所述类别文本获取类别向量；第一聚类模块，用于基于所述第一聚类标准矩阵对所述图像矩阵进行第一次聚类，获取第一次聚类结果；所述第一次聚类结果包括第一语义矩阵和第一聚类向量矩阵；第二聚类模块，用于基于所述第二聚类标准矩阵对所述第一聚类向量矩阵进行第二次聚类，获取第二次聚类结果；所述第二次聚类结果包括第二语义矩阵和第二聚类向量矩阵；分割模块，用于基于所述第一次聚类结果、所述第二次聚类结果和所述类别向量获取图像语义分割结果。

第三方面，本申请提供一种电子设备，所述电子设备包括：处理器和存储器；所述存储器用于存储计算机程序；所述处理器用于执行所述存储器存储的计算机程序，以使所述电子设备执行上述的图像语义分割方法。

第四方面，本申请提供一种计算机可读存储介质，其上存储有计算机程序，该程序被电子设备执行时实现上述的图像语义分割方法。

如上所述，本申请所述的图像语义分割方法、系统、存储介质及电子设备，具有以下有益效果：本申请通过多模态信息，引入类别文本来更好地识别图像语义类别，从而进一步增强图像语义分割的效果。

附图说明

图1显示为本申请的电子设备于一实施例中的场景示意图。

图2显示为本申请实施例所述的图像语义分割方法于一实施例中的流程图。

图3显示为本申请实施例所述的图像语义分割方法于一实施例中的流程图。

图4显示为本申请实施例所述的图像语义分割方法于一实施例中的流程图。

图5显示为本申请实施例所述的图像语义分割方法于一实施例中的流程图。

图6显示为本申请实施例所述的图像语义分割方法于一实施例中的流程图。

图7显示为本申请实施例所述的图像语义分割系统于一实施例中的结构示意图。

图8显示为本申请的电子设备于一实施例中的结构示意图。

具体实施方式

以下通过特定的具体实例说明本申请的实施方式，本领域技术人员可由本说明书所揭露的内容轻易地了解本申请的其他优点与功效。本申请还可以通过另外不同的具体实施方式加以实施或应用，本说明书中的各项细节也可以基于不同观点与应用，在没有背离本申请的精神下进行各种修饰或改变。需说明的是，在不冲突的情况下，以下实施例及实施例中的特征可以相互组合。

需要说明的是，以下实施例中所提供的图示仅以示意方式说明本申请的基本构想，遂图式中仅显示与本申请中有关的组件而非按照实际实施时的组件数目、形状及尺寸绘制，其实际实施时各组件的型态、数量及比例可为一种随意的改变，且其组件布局型态也可能更为复杂。

另外，在本申请中如涉及“第一”、“第二”等的描述仅用于描述目的，而不能理解为指示或暗示其相对重要性或者隐含指明所指示的技术特征的数量。由此，限定有“第一”、“第二”的特征可以明示或者隐含地包括至少一个该特征。另外，各个实施例之间的技术方案可以相互结合，但是必须是以本领域普通技术人员能够实现为基础，当技术方案的结合出现相互矛盾或无法实现时应当认为这种技术方案的结合不存在，也不在本申请要求的保护范围之内。

本申请以下实施例提供了图像语义分割方法，其可应用于如图1所示的电子设备。本申请中所述电子设备可以包括具备无线充电功能的手机11、平板电脑12、笔记本电脑13、可穿戴设备、车载设备、增强现实(Augmented Reality，AR)/虚拟现实(Virtual Reality，VR)设备、超级移动个人计算机(Ultra-Mobile Personal Computer，UMPC)、上网本、个人数字助理(Personal Digital Assistant，PDA)等，本申请实施例对电子设备的具体类型不作任何限制。

例如，所述电子设备可以是具备无线充电功能的 WLAN 中的站点(STAION，ST)，可以是具备无线充电功能的蜂窝电话、无绳电话、会话启动协议(SessionInitiationProtocol，SIP)电话、无线本地环路(WirelessLocal Loop，WLL)站、个人数字处理(Personal Digital Assistant，PDA)设备、具备无线充电功能的手持设备、计算设备或其它处理设备、电脑、膝上型计算机、手持式通信设备、手持式计算设备、和/或用于在无线系统上进行通信的其它设备以及下一代通信系统，例如，5G 网络中的移动终端、未来演进的公共陆地移动网络(PublicLand Mobile Network，PLMN)中的移动终端或者未来演进的非地面网络（Non-terrestrial Network，NTN）中的移动终端等。

例如，所述电子设备可以通过无线通信与网络和其他设备通信。上述无线通信可以使用任一通信标准或协议，包括但不限于全球移动通讯系统(GlobalSystem of Mobilecommunication，GSM)、通用分组无线服务(General Packet RadioService，GPRS)、码分多址(Code Division Multiple Access，CDMA)、宽带码分多址(Wideband Code DivisionMultiple Access,WCDMA)、长期演进(Long Term Evolution,LTE))、电子邮件、短消息服务(Short Messaging Service，SMS)、BT，GNSS，WLAN，NFC，FM，和/或 IR 技术等。所述 GNSS可以包括全球卫星定位系统 (Global Positioning System，GPS)，全球导航卫星系统(Global Navigation Satellite System，GLONASS)，北斗卫星导航系统(BeiDounavigation Satellite System，BDS)，准天顶卫星系统(Quasi-Zenith SatelliteSystem，QZSS)和/或星基增强系统(Satellite Based Augmentation Systems，SBAS)。

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行详细描述。

如图2所示，于一实施例中，本申请的图像语义分割方法包括步骤S1-步骤S6。

S1：获取多模态信息、第一聚类标准矩阵与第二聚类标准矩阵；所述多模态信息包括待处理图像与类别文本。

具体的，所述类别文本根据用户的需要进行收集，例如一些想要检测的类别文本{汽车，人物，大象...}。

具体的，所述第一聚类标准矩阵为向量矩阵，其形状为（64,256），其中64表示聚类点的数量，256表示第一聚类标准矩阵中的向量长度。

具体的，所述第二聚类标准矩阵为向量矩阵，其形状为（8,256），其中8表示聚类点的数量，256表示第二聚类标准矩阵中的向量长度。

需要说明的是，在一些实施例中，本申请所提供的图像语义分割方法通过图像语义分割模型执行。图像语义分割模型通过第一聚类标准矩阵和第二聚类标准矩阵将图像信息聚类融合到聚类点中。通过图像语义分割模型的学习训练，可以获取所述第一聚类标准矩阵和第二聚类标准矩阵，以进行后续的语义分割。

S2：基于所述待处理图像获取图像矩阵。

具体的，如图3所示，步骤S2包括步骤S21和S22。

S21：调整所述待处理图像的大小，并对调整后的图像进行分块处理以获取分块图像矩阵。

在一些实施例中，将所述待处理图像的大小调整至（448，448）大小，再利用2维卷积将图像进行分块处理，从而获取（28*28，256）= （784，256）的分块图像矩阵。

S22：将所述分块图像矩阵输入第一编码器以获取所述图像矩阵。

在一些实施例中，第一编码器为transformer编码器。步骤S22将所述分块图像矩阵输入transformer编码器中，获取所述图像矩阵。

需要说明的是，所述图像矩阵与所述分块图像矩阵为相同形状的输出。

S3：基于所述类别文本获取类别向量。

在一些实施例中，将20个类别文本输入clip文本编码器中，获取20个类别向量。其中，每个向量的长度为256。

需要说明的是，CLIP（Contrastive Language-Image Pre-training）模型是一种基于对比学习的多模态模型，其通过对比学习，能够学习到文本-图像对的匹配关系。CLIP模型将图像和文本分别输入一个图像编码器和一个文本编码器，得到图像和文本的向量表示，然后将图像和文本向量表示映射到一个联合的多模态空间，从而得到新的可以直接进行比较的图像和文本向量。本申请中，步骤S3采用的文本编码器可以采用NLP中常用的texttransformer模型。

S4：基于所述第一聚类标准矩阵对所述图像矩阵进行第一次聚类，获取第一次聚类结果。

具体的，如图4所示，步骤S4包括步骤S41和S44。

S41：基于所述图像矩阵获取第一查询向量。

具体的，将所述图像矩阵输入第一多层感知机，获取第一查询向量。其中，多层感知机是一种基本的人工神经网络模型，其结构由多个神经元组成的多层结构。MLP是一种前馈式神经网络，通常用于解决分类和回归问题。其基本结构包括输入层、输出层和至少一层或多层的隐藏层。其中，每个层都由多个神经元组成，每个神经元通过对输入值进行加权求和，并经过激活函数后生成输出。在训练过程中，MLP 通过反向传播算法来更新神经元之间的权重和偏置，以最小化预测输出与真实输出之间的误差。本申请中步骤S41通过多层感知机获取第一查询向量，能够更好的获取图像表示。

S42：基于所述第一聚类标准矩阵获取第一值向量和第一健向量。

具体的，将所述第一聚类标准矩阵输入第二多层感知机，获取第一值向量。

具体的，将所述第一聚类标准矩阵输入第三多层感知机，获取第一健向量。

其中，所述第一聚类标准矩阵的形状为（64,256）。

S43：基于所述第一查询向量和所述第一健向量获取所述第一语义矩阵。

具体的，将所述第一查询向量和所述第一健向量进行矩阵乘法和softmax操作，获取第一语义矩阵。

具体的，所述第一语义矩阵的形状为（784,64）。

S44：基于所述图像矩阵、所述第一语义矩阵和所述第一值向量获取所述第一聚类向量矩阵。

具体的，将所述第一语义矩阵和所述第一值向量进行矩阵乘法，并将矩阵乘法的结果与所述图像矩阵进行元素相加，从而获取第一聚类向量矩阵。

具体的，所述第一聚类向量矩阵的形状为（64,256）。

S5：基于所述第二聚类标准矩阵对所述第一聚类向量矩阵进行第二次聚类，获取第二次聚类结果。

具体的，如图5所示，步骤S5包括步骤S51和S55。

S51：将所述第一聚类向量矩阵输入第二编码器，获取编码矩阵。

具体的，第二编码器选择transformer编码器。将所述第一聚类向量矩阵输入transformer编码器中，获取编码矩阵。所述编码矩阵的形状与所述第一聚类向量矩阵相同。

S52：基于所述编码矩阵获取第二查询向量。

具体的，将所述编码矩阵输入第四多层感知机，获取第二查询向量。

S53：基于所述第二聚类标准矩阵获取第二值向量和第二健向量。

具体的，将所述第二聚类标准矩阵输入第五多层感知机，获取第二值向量。

具体的，将所述第二聚类标准矩阵输入第六多层感知机，获取第二健向量。

其中，所述第二聚类标准矩阵的形状为（8,256）。

S54：基于所述第二查询向量和所述第二健向量获取所述第二语义矩阵。

具体的，将所述第二查询向量和所述第二健向量进行矩阵乘法和softmax操作，获取第二语义矩阵。

具体的，所述第二语义矩阵的形状为（64,8）。

S55：基于所述编码矩阵、所述第二语义矩阵和所述第二值向量获取所述第二聚类向量矩阵。

具体的，将所述第二语义矩阵和所述第二值向量进行矩阵乘法，并将矩阵乘法的结果与所述编码矩阵进行元素相加，从而获取第二聚类向量矩阵。

具体的，所述第二聚类向量矩阵的形状为（8,256）。

S6：基于所述第一次聚类结果、所述第二次聚类结果和所述类别向量获取图像语义分割结果。

具体的，如图6所示，步骤S6包括步骤S61和S63。

S61：基于所述第一语义矩阵和所述第二语义矩阵获取语义矩阵。

具体的，将所述第一语义矩阵和所述第二语义矩阵进行矩阵乘法，从而获取语义矩阵。所述语义矩阵可以集成第一语义矩阵和第二语义矩阵的效果。

具体的，所述语义矩阵的形状为（768，8）。

S62：基于所述第二聚类向量矩阵和所述类别向量获取相似度矩阵。

具体的，将第二聚类向量矩阵与类别向量进行矩阵乘法，从而获取相似度矩阵，以此将图像表示和文本表示进行匹配。

在一些实施例中，将步骤S55获得的形状为（8,256）的第二聚类向量矩阵与步骤S3获取的20个类别向量，依次进行矩阵乘法，可以获得8个长度为20的向量，此时相似度矩阵为（8，20）。

S63：基于所述语义矩阵和所述相似度聚类矩阵获取图像语义分割结果。

具体的，步骤S63获取图像语义分割结果具体包括：

（1）将所述语义矩阵和所述相似度矩阵进行矩阵乘法以获取语义分割图。

在上述实施例中，将形状为（768，8）的语义矩阵与形状为（8，20）的相似度矩阵进行矩阵乘法后，可以得到形状为（784，20）的语义分割图。其中，784是语义分割图中图像块的数量，20表示输入的20个类别。

（2）对所述语义分割图进行双线性插值处理以获取初始语义分割结果。

具体的，对所述语义分割图进行双线性插值处理，获取初始语义分割结果，其形状为（448*448，20）。

（3）基于所述初始语义分割结果选取语义类别以获取图像语义分割结果。

具体的，基于所述初始语义分割结果，在20的维度上选取值最大的索引作为类别，以此获取图像语义分割结果，其形状为（448，448）。

其中，每一个元素值域属于属于[0，20)，也就是代表了类别。

本申请实施例所述的图像语义分割方法的保护范围不限于本实施例列举的步骤执行顺序，凡是根据本申请的原理所做的现有技术的步骤增减、步骤替换所实现的方案都包括在本申请的保护范围内。

本申请实施例还提供一种图像语义分割系统，所述图像语义分割系统可以实现本申请所述的图像语义分割方法，但本申请所述的图像语义分割系统的实现装置包括但不限于本实施例列举的图像语义分割系统的结构，凡是根据本申请的原理所做的现有技术的结构变形和替换，都包括在本申请的保护范围内。

如图7所示，于一实施例中，本申请的图像语义分割系统包括第一获取模块41、第二获取模块42、第三获取模块43、第一聚类模块44、第二聚类模块45和分割模块46。

第一获取模块41，用于获取多模态信息、第一聚类标准矩阵与第二聚类标准矩阵；所述多模态信息包括待处理图像与类别文本。

第二获取模块42，用于基于所述待处理图像获取图像矩阵。

第三获取模块43，用于基于所述类别文本获取类别向量。

第一聚类模块44，用于基于所述第一聚类标准矩阵对所述图像矩阵进行第一次聚类，获取第一次聚类结果；所述第一次聚类结果包括第一语义矩阵和第一聚类向量矩阵。

第二聚类模块45，用于基于所述第二聚类标准矩阵对所述第一聚类向量矩阵进行第二次聚类，获取第二次聚类结果；所述第二次聚类结果包括第二语义矩阵和第二聚类向量矩阵。

分割模块46，用于基于所述第一次聚类结果、所述第二次聚类结果和所述类别向量获取图像语义分割结果。

其中，第一获取模块41、第二获取模块42、第三获取模块43、第一聚类模块44、第二聚类模块45和分割模块46的结构和原理与上述图像语义分割方法中的步骤一一对应，故在此不再赘述。

在本申请所提供的几个实施例中，应该理解到，所揭露的系统、装置或方法，可以通过其它的方式实现。例如，以上所描述的装置实施例仅是示意性的，例如，模块/单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个模块或单元可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或模块或单元的间接耦合或通信连接，可以是电性，机械或其它的形式。

作为分离部件说明的模块/单元可以是或者也可以不是物理上分开的，作为模块/单元显示的部件可以是或者也可以不是物理模块，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块/单元来实现本申请实施例的目的。例如，在本申请各个实施例中的各功能模块/单元可以集成在一个处理模块中，也可以是各个模块/单元单独物理存在，也可以两个或两个以上模块/单元集成在一个模块/单元中。

本领域普通技术人员应该还可以进一步意识到，结合本文中所公开的实施例描述的各示例的单元及算法步骤，能够以电子硬件、计算机软件或者二者的结合来实现，为了清楚地说明硬件和软件的可互换性，在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本申请的范围。

本申请实施例还提供了一种计算机可读存储介质。本领域普通技术人员可以理解实现上述实施例的方法中的全部或部分步骤是可以通过程序来指令处理器完成，所述的程序可以存储于计算机可读存储介质中，所述存储介质是非短暂性（non-transitory）介质，例如随机存取存储器，只读存储器，快闪存储器，硬盘，固态硬盘，磁带（magnetic tape），软盘（floppy disk），光盘（optical disc）及其任意组合。上述存储介质可以是计算机能够存取的任何可用介质或者是包含一个或多个可用介质集成的服务器、数据中心等数据存储设备。该可用介质可以是磁性介质（例如，软盘、硬盘、磁带）、光介质（例如数字视频光盘（digital video disc，DVD））、或者半导体介质（例如固态硬盘（solid state disk，SSD））等。

本申请实施例还提供了一种电子设备。所述电子设备包括处理器和存储器。

所述存储器用于存储计算机程序。

所述存储器包括：ROM、RAM、磁碟、U盘、存储卡或者光盘等各种可以存储程序代码的介质。

所述处理器与所述存储器相连，用于执行所述存储器存储的计算机程序，以使所述电子设备执行上述的图像语义分割方法。

优选地，所述处理器可以是通用处理器，包括中央处理器(Central ProcessingUnit，简称CPU)、网络处理器(Network Processor，简称NP)等；还可以是数字信号处理器(Digital Signal Processor，简称DSP)、专用集成电路(Application SpecificIntegrated Circuit，简称ASIC)、现场可编程门阵列(Field Programmable Gate Array，简称FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。

如图8所示，本申请的电子设备以通用计算设备的形式表现。电子设备的组件可以包括但不限于：一个或者多个处理器或者处理单元51，存储器52，连接不同系统组件（包括存储器52和处理单元51）的总线53。

总线53表示几类总线结构中的一种或多种，包括存储器总线或者存储器控制器，外围总线，图形加速端口，处理器或者使用多种总线结构中的任意总线结构的局域总线。举例来说，这些体系结构包括但不限于工业标准体系结构（ISA）总线，微通道体系结构（MAC）总线，增强型ISA总线、视频电子标准协会（VESA）局域总线以及外围组件互连（PCI）总线。

电子设备典型地包括多种计算机系统可读介质。这些介质可以是任何能够被电子设备访问的可用介质，包括易失性和非易失性介质，可移动的和不可移动的介质。

存储器52可以包括易失性存储器形式的计算机系统可读介质，例如随机存取存储器（RAM）521和/或高速缓存存储器522。电子设备可以进一步包括其它可移动/不可移动的、易失性/非易失性计算机系统存储介质。仅作为举例，存储系统523可以用于读写不可移动的、非易失性磁介质（图8未显示，通常称为“硬盘驱动器”）。尽管图8中未示出，可以提供用于对可移动非易失性磁盘（例如“软盘”）读写的磁盘驱动器，以及对可移动非易失性光盘（例如CD-ROM ，DVD-ROM或者其它光介质）读写的光盘驱动器。在这些情况下，每个驱动器可以通过一个或者多个数据介质接口与总线53相连。存储器52可以包括至少一个程序产品，该程序产品具有一组（例如至少一个）程序模块，这些程序模块被配置以执行本申请各实施例的功能。

具有一组（至少一个）程序模块5241的程序/实用工具524，可以存储在例如存储器52中，这样的程序模块5241包括但不限于操作系统、一个或者多个应用程序、其它程序模块以及程序数据，这些示例中的每一个或某种组合中可能包括网络环境的实现。程序模块5241通常执行本申请所描述的实施例中的功能和/或方法。

电子设备也可以与一个或多个外部设备（例如键盘、指向设备、显示器等）通信，还可与一个或者多个使得用户能与该电子设备交互的设备通信，和/或与使得该电子设备能与一个或多个其它计算设备进行通信的任何设备（例如网卡，调制解调器等等）通信。这种通信可以通过输入/输出（I/O）接口54进行。并且，电子设备还可以通过网络适配器55与一个或者多个网络（例如局域网（LAN），广域网（WAN）和/或公共网络，例如因特网）通信。如图8所示，网络适配器55通过总线53与电子设备的其它模块通信。应当明白，尽管图中未示出，可以结合电子设备使用其它硬件和/或软件模块，包括但不限于：微代码、设备驱动器、冗余处理单元、外部磁盘驱动阵列、RAID系统、磁带驱动器以及数据备份存储系统等。

本申请实施例还可以提供一种计算机程序产品，所述计算机程序产品包括一个或多个计算机指令。在计算设备上加载和执行所述计算机指令时，全部或部分地产生按照本申请实施例所述的流程或功能。所述计算机指令可以存储在计算机可读存储介质中，或者从一个计算机可读存储介质向另一计算机可读存储介质传输，例如，所述计算机指令可以从一个网站站点、计算机或数据中心通过有线（例如同轴电缆、光纤、数字用户线（DSL））或无线（例如红外、无线、微波等）方式向另一个网站站点、计算机或数据中心进行传输。

所述计算机程序产品被计算机执行时，所述计算机执行前述方法实施例所述的方法。该计算机程序产品可以为一个软件安装包，在需要使用前述方法的情况下，可以下载该计算机程序产品并在计算机上执行该计算机程序产品。

本申请提供了一种图像语义分割方法、系统、存储介质及电子设备，通过多模态信息，引入类别文本来更好地识别图像语义类别，从而进一步增强图像语义分割的效果。

上述各个附图对应的流程或结构的描述各有侧重，某个流程或结构中没有详述的部分，可以参见其他流程或结构的相关描述。

上述实施例仅例示性说明本申请的原理及其功效，而非用于限制本申请。任何熟悉此技术的人士皆可在不违背本申请的精神及范畴下，对上述实施例进行修饰或改变。因此，举凡所属技术领域中具有通常知识者在未脱离本申请所揭示的精神与技术思想下所完成的一切等效修饰或改变，仍应由本申请的权利要求所涵盖。

Claims

1.一种图像语义分割方法，其特征在于，所述方法包括：

获取多模态信息、第一聚类标准矩阵与第二聚类标准矩阵；所述多模态信息包括待处理图像与类别文本；

基于所述待处理图像获取图像矩阵；

基于所述类别文本获取类别向量；

基于所述第一聚类标准矩阵对所述图像矩阵进行第一次聚类，获取第一次聚类结果；所述第一次聚类结果包括第一语义矩阵和第一聚类向量矩阵；

基于所述第二聚类标准矩阵对所述第一聚类向量矩阵进行第二次聚类，获取第二次聚类结果；所述第二次聚类结果包括第二语义矩阵和第二聚类向量矩阵；

基于所述第一次聚类结果、所述第二次聚类结果和所述类别向量获取图像语义分割结果。

2.根据权利要求1所述的图像语义分割方法，其特征在于，基于所述待处理图像获取图像矩阵包括：

调整所述待处理图像的大小，并对调整后的图像进行分块处理以获取分块图像矩阵；

将所述分块图像矩阵输入第一编码器以获取所述图像矩阵。

3.根据权利要求1所述的图像语义分割方法，其特征在于，基于所述类别文本获取类别向量包括：

将所述类别文本输入clip文本编码器，以获取所述类别向量。

4.根据权利要求1所述的图像语义分割方法，其特征在于，基于所述第一聚类标准矩阵对所述图像矩阵进行第一次聚类，获取第一次聚类结果包括：

基于所述图像矩阵获取第一查询向量；

基于所述第一聚类标准矩阵获取第一值向量和第一健向量；

基于所述第一查询向量和所述第一健向量获取所述第一语义矩阵；

基于所述图像矩阵、所述第一语义矩阵和所述第一值向量获取所述第一聚类向量矩阵。

5.根据权利要求1所述的图像语义分割方法，其特征在于，基于所述第二聚类标准矩阵对所述第一聚类向量矩阵进行第二次聚类，获取第二次聚类结果包括：

将所述第一聚类向量矩阵输入第二编码器，获取编码矩阵；

基于所述编码矩阵获取第二查询向量；

基于所述第二聚类标准矩阵获取第二值向量和第二健向量；

基于所述第二查询向量和所述第二健向量获取所述第二语义矩阵；

基于所述编码矩阵、所述第二语义矩阵和所述第二值向量获取所述第二聚类向量矩阵。

6.根据权利要求1所述的图像语义分割方法，其特征在于，基于所述第一次聚类结果、所述第二次聚类结果和所述类别向量获取图像语义分割结果包括：

基于所述第一语义矩阵和所述第二语义矩阵获取语义矩阵；

基于所述第二聚类向量矩阵和所述类别向量获取相似度矩阵；

基于所述语义矩阵和所述相似度聚类矩阵获取图像语义分割结果。

7.根据权利要求1所述的图像语义分割方法，其特征在于，基于所述语义矩阵和所述相似度聚类矩阵获取图像语义分割结果包括：

将所述语义矩阵和所述相似度矩阵进行矩阵乘法以获取语义分割图；

对所述语义分割图进行双线性插值处理以获取初始语义分割结果；

基于所述初始语义分割结果选取语义类别以获取图像语义分割结果。

8.一种图像语义分割系统，其特征在于，所述系统包括：

第一获取模块，用于获取多模态信息、第一聚类标准矩阵与第二聚类标准矩阵；所述多模态信息包括待处理图像与类别文本；

第二获取模块，用于基于所述待处理图像获取图像矩阵；

第三获取模块，用于基于所述类别文本获取类别向量；

第一聚类模块，用于基于所述第一聚类标准矩阵对所述图像矩阵进行第一次聚类，获取第一次聚类结果；所述第一次聚类结果包括第一语义矩阵和第一聚类向量矩阵；

第二聚类模块，用于基于所述第二聚类标准矩阵对所述第一聚类向量矩阵进行第二次聚类，获取第二次聚类结果；所述第二次聚类结果包括第二语义矩阵和第二聚类向量矩阵；

分割模块，用于基于所述第一次聚类结果、所述第二次聚类结果和所述类别向量获取图像语义分割结果。

9.一种电子设备，其特征在于，所述电子设备包括：处理器和存储器；

所述存储器用于存储计算机程序；

所述处理器用于执行所述存储器存储的计算机程序，以使所述电子设备执行权利要求1至7中任一项所述的图像语义分割方法。

10.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，该程序被电子设备执行时实现权利要求1至7中任一项所述的图像语义分割方法。