CN117315334A

CN117315334A - 图像分类方法、模型的训练方法、装置、设备及介质

Info

Publication number: CN117315334A
Application number: CN202311161247.7A
Authority: CN
Inventors: 龙思凡; 谭资昌; 王井东
Original assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Current assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Priority date: 2023-09-08
Filing date: 2023-09-08
Publication date: 2023-12-29

Abstract

本公开提供了图像分类方法、深度学习模型的训练方法、装置、电子设备、存储介质以及程序产品，涉及人工智能技术领域，尤其涉及计算机视觉、深度学习、大模型等技术领域，可应用于图像处理等场景。具体实现方案为：对待处理图像进行特征提取，得到图像特征；对图像特征进行聚类，得到图像聚类标记特征；基于图像聚类标记特征和任务提示标记特征，得到文本提示特征，任务提示标记特征用于表征与图像分类任务相关的知识；以及基于文本提示特征和待处理图像，得到待处理图像的图像分类结果。

Description

图像分类方法、模型的训练方法、装置、设备及介质

技术领域

本公开涉及人工智能技术领域，尤其涉及计算机视觉、深度学习、大模型等技术领域，可应用于图像处理等场景。具体涉及图像分类方法、深度学习模型的训练方法、装置、电子设备、存储介质以及程序产品。

背景技术

随着图像数据量爆炸式增长，海量的数据源以及丰富的数据层次，使得依靠人工来分析和处理这些图像变得越来越困难。计算机视觉技术为解放人力提供巨大潜力。计算机视觉是一门研究如何使用电子设备“看”的科学，即，利用摄影机和电脑代替人眼对图像中的目标对象进行分类、搜索等的科学技术。实现人与机器之间的视觉问答、视觉对话等的智能交互。

发明内容

本公开提供了一种图像分类方法、深度学习模型的训练方法、装置、电子设备、存储介质以及程序产品。

根据本公开的一方面，提供了一种图像分类方法，包括：对待处理图像进行特征提取，得到图像特征；对上述图像特征进行聚类，得到图像聚类标记特征；基于上述图像聚类标记特征和任务提示标记特征，得到文本提示特征，其中，上述任务提示标记特征用于表征与图像分类任务相关的知识；以及基于上述文本提示特征和上述待处理图像，得到上述待处理图像的图像分类结果。

根据本公开的另一方面，提供了一种深度学习模型的训练方法，其中，上述深度学习模型包括任务提示模块，上述任务提示模块包括可调参数，上述方法包括：对样本图像进行特征提取，得到样本图像特征；对上述样本图像特征进行聚类，得到样本图像聚类标记特征；基于上述任务提示模块，得到样本任务提示标记特征；基于上述样本图像聚类标记特征和上述样本任务提示标记特征，得到样本文本提示特征；以及基于上述样本文本提示特征、上述样本图像特征和标签，调整上述任务提示模块中的上述可调参数，得到经训练的深度学习模型，其中，上述标签用于表征样本图像的真实图像分类结果。

根据本公开的另一方面，提供了一种图像分类装置，包括：特征提取模块，用于对待处理图像进行特征提取，得到图像特征；聚类模块，用于对上述图像特征进行聚类，得到图像聚类标记特征；文本提示生成模块，用于基于上述图像聚类标记特征和任务提示标记特征，得到文本提示特征，其中，上述任务提示标记特征用于表征与图像分类任务相关的知识；以及分类模块，用于基于上述文本提示特征和上述待处理图像，得到上述待处理图像的图像分类结果。

根据本公开的另一方面，提供了一种深度学习模型的训练装置，其中，上述深度学习模型包括任务提示模块，上述任务提示模块包括可调参数，上述装置包括：样本特征提取模块，用于对样本图像进行特征提取，得到样本图像特征；样本聚类模块，用于对上述样本图像特征进行聚类，得到样本图像聚类标记特征；样本任务提示生成模块，用于基于上述任务提示模块，得到样本任务提示标记特征；样本文本提示生成模块，用于基于上述样本图像聚类标记特征和上述样本任务提示标记特征，得到样本文本提示特征；以及调参模块，用于基于上述样本文本提示特征、上述样本图像特征和标签，调整上述任务提示模块中的上述可调参数，得到经训练的深度学习模型，其中，上述标签用于表征样本图像的真实图像分类结果。

根据本公开的另一方面，提供了一种电子设备，包括：至少一个处理器；以及与上述至少一个处理器通信连接的存储器；其中，上述存储器存储有可被上述至少一个处理器执行的指令，上述指令被上述至少一个处理器执行，以使上述至少一个处理器能够执行如本公开的方法。

根据本公开的另一方面，提供了一种存储有计算机指令的非瞬时计算机可读存储介质，其中，上述计算机指令用于使上述计算机执行如本公开的方法。

根据本公开的另一方面，提供了一种计算机程序产品，包括计算机程序，上述计算机程序在被处理器执行时实现如本公开的方法。

应当理解，本部分所描述的内容并非旨在标识本公开的实施例的关键或重要特征，也不用于限制本公开的范围。本公开的其它特征将通过以下的说明书而变得容易理解。

附图说明

附图用于更好地理解本方案，不构成对本公开的限定。其中：

图1示意性示出了根据本公开实施例的可以应用图像分类方法及装置的示例性系统架构；

图2示意性示出了根据本公开实施例的图像分类方法的流程图；

图3示意性示出了根据本公开实施例的生成文本提示特征的示意图；

图4示意性示出了根据本公开实施例的生成文本重组的视觉提示特征的示意图；

图5示意性示出了根据本公开实施例的生成图像分类结果的示意图；

图6示意性示出了根据本公开实施例的深度学习模型的训练方法的流程图；

图7示意性示出了根据本公开实施例的调整可调参数的示意图；

图8示意性示出了根据本公开实施例的图像分类装置的框图；

图9示意性示出了根据本公开实施例的深度学习模型的训练装置的框图；以及

图10示意性示出了根据本公开实施例的适于实现图像分类方法的电子设备的框图。

具体实施方式

以下结合附图对本公开的示范性实施例做出说明，其中包括本公开实施例的各种细节以助于理解，应当将它们认为仅仅是示范性的。因此，本领域普通技术人员应当认识到，可以对这里描述的实施例做出各种改变和修改，而不会背离本公开的范围和精神。同样，为了清楚和简明，以下的描述中省略了对公知功能和结构的描述。

根据本公开的实施例，图像分类方法可以包括：对待处理图像进行特征提取，得到图像特征；对图像特征进行聚类，得到图像聚类标记特征；基于图像聚类标记特征和任务提示标记特征，得到文本提示特征，任务提示标记特征用于表征与图像分类任务相关的知识；以及基于文本提示特征和待处理图像，得到待处理图像的图像分类结果。

在本公开的技术方案中，所涉及的用户个人信息的收集、存储、使用、加工、传输、提供、公开和应用等处理，均符合相关法律法规的规定，采取了必要保密措施，且不违背公序良俗。

在本公开的技术方案中，在获取或采集用户个人信息之前，均获取了用户的授权或同意。

图1示意性示出了根据本公开实施例的可以应用图像分类方法及装置的示例性系统架构。

需要注意的是，图1所示仅为可以应用本公开实施例的系统架构的示例，以帮助本领域技术人员理解本公开的技术内容，但并不意味着本公开实施例不可以用于其他设备、系统、环境或场景。例如，在另一实施例中，可以应用图像分类方法及装置的示例性系统架构可以包括终端设备，但终端设备可以无需与服务器进行交互，即可实现本公开实施例提供的图像分类方法及装置。

如图1所示，根据该实施例的系统架构100可以包括终端设备101、102、103，网络104和服务器105。网络104用以在终端设备101、102、103和服务器105之间提供通信链路的介质。网络104可以包括各种连接类型，例如有线和/或无线通信链路等等。

用户可以使用终端设备101、102、103通过网络104与服务器105交互，以接收或发送消息等。终端设备101、102、103上可以安装有各种通讯客户端应用，例如知识阅读类应用、网页浏览器应用、搜索类应用、即时通信工具、邮箱客户端和/或社交平台软件等(仅为示例)。

终端设备101、102、103可以是具有显示屏并且支持网页浏览的各种电子设备，包括但不限于智能手机、平板电脑、膝上型便携计算机和台式计算机等等。

服务器105可以是提供各种服务的服务器，例如对用户利用终端设备101、102、103所浏览的内容提供支持的后台管理服务器(仅为示例)。后台管理服务器可以对接收到的用户请求等图像数据进行分析等处理，并将处理结果(例如根据用户请求获取或生成的网页、信息、或数据等)反馈给终端设备。

需要说明的是，本公开实施例所提供的图像分类方法一般可以由终端设备101、102、或103执行。相应地，本公开实施例所提供的图像分类装置也可以设置于终端设备101、102、或103中。

或者，本公开实施例所提供的图像分类方法一般也可以由服务器105执行。相应地，本公开实施例所提供的图像分类装置一般可以设置于服务器105中。本公开实施例所提供的图像分类方法也可以由不同于服务器105且能够与终端设备101、102、103和/或服务器105通信的服务器或服务器集群执行。相应地，本公开实施例所提供的图像分类装置也可以设置于不同于服务器105且能够与终端设备101、102、103和/或服务器105通信的服务器或服务器集群中。

例如，终端设备101、102、103可以获取用户上传的待处理图像，然后将获取的待处理图像发送给服务器105，由服务器105对待处理图像进行特征提取，得到图像特征；对图像特征进行聚类，得到图像聚类标记特征；基于图像聚类标记特征和任务提示标记特征，得到文本提示特征，任务提示标记特征用于表征与图像分类任务相关的知识；以及基于文本提示特征和待处理图像，得到待处理图像的图像分类结果。或者由能够与终端设备101、102、103和/或服务器105通信的服务器或服务器集群对待处理图像进行分析，并最终得到待处理图像的图像分类结果。

应该理解，图1中的终端设备、网络和服务器的数目仅仅是示意性的。根据实现需要，可以具有任意数目的终端设备、网络和服务器。

应注意，以下方法中各个操作的序号仅作为该操作的表示以便描述，而不应被看作表示该各个操作的执行顺序。除非明确指出，否则该方法不需要完全按照所示顺序来执行。

图2示意性示出了根据本公开实施例的图像分类方法的流程图。

如图2所示，该方法包括操作S210～S240。

在操作S210，对待处理图像进行特征提取，得到图像特征。

在操作S220，对图像特征进行聚类，得到图像聚类标记特征。

在操作S230，基于图像聚类标记特征和任务提示标记特征，得到文本提示特征。

在操作S240，基于文本提示特征和待处理图像，得到待处理图像的图像分类结果。

根据本公开的实施例，任务提示标记特征用于表征与图像分类任务相关的知识。

根据本公开的实施例，可以利用视觉语言模型中的图像编码器对待处理图像进行特征提取，得到图像特征。图像编码器可以是基于卷积神经网络(Convolutional NeuralNetworks，CNN)的图像编码器。只要是能够提取待处理图像中的图像特征的特征提取模块即可，对此不做限定。

根据本公开的实施例，对图像特征进行聚类，得到图像聚类标记特征，可以指：将图像特征的整体语义特征进行语义解耦，得到多个子图像特征。将相同语义的多个子图像特征进行聚类，得到图像聚类标记特征。

根据本公开的实施例，图像聚类标记特征可以指细粒度的图像标记特征。该细粒度可以指图像标记特征的向量维度与任务提示标记特征的向量维度相同。由此可以使得图像标记特征与任务提示标记特征在语义上得到对齐，避免了直接利用图像特征与任务提示标记特征结合得到文本提示特征而导致的文本提示特征的语义歧义问题。

根据本公开的实施例，基于文本提示特征和待处理图像共同作为预训练的视觉语言模型的输入数据，可以在对预训练的视觉语言模型固定模型参数的基础上，得到精度具有保证的待处理图像的图像分类结果。通过向待处理图像中添加额外的文本提示特征来重新激活预训练的视觉语言模型的特定表示功能，而无需修改预训练的视觉语言模型的模型参数。

根据本公开的实施例，文本提示特征是基于图像聚类标记特征和任务提示标记特征得到的，结合了与图像分类任务相关的知识的同时，结合了与任务提示标记特征在向量维度对齐的图像聚类标记特征，使得提示信息充分的同时，避免了语义歧义，由此提高了预训练的视觉语言模型的分类性能和识别精度。

根据本公开的实施例，针对如图2所示的操作S220，对图像特征进行聚类，得到图像聚类标记特征，可以包括如下操作。

例如，对图像特征进行语义解耦，得到多个子图像特征。对多个子图像特征进行聚类，得到聚类标记特征。

根据本公开的实施例，对图像特征进行语义解耦，得到多个子图像特征，可以包括：按照预定的向量维度，对图像特征进行拆分，得到多个子图像特征。向量维度可以包括横向向量维度和竖向向量维度。

根据本公开的实施例，对多个子图像特征进行聚类，得到聚类标记特征，可以包括：对多个子图像特征进行聚类，得到多个聚类簇。基于多个聚类簇，得到聚类标记特征。

根据本公开的实施例，基于多个聚类簇，得到聚类标记特征，可以包括：针对每个聚类簇，将聚类簇中的多个子图像特征进行加权求和，得到图像聚类标记向量。基于与多个聚类簇一一对应的多个图像聚类标记向量，得到图像聚类标记特征。

根据本公开的实施例，将聚类簇中多个子图像特征进行加权求和，得到图像聚类标记向量，可以参考如下公式(1)。

其中，t_k表示第K个聚类簇的图像聚类标记向量，H_k表示第K个聚类簇，z_j表示第K个聚类簇中的第j个子图像特征，ω_j表示第K个聚类簇中的第j个子图像特征的权重。

根据本公开的实施例，ω_j用于表征第j个子图像特征的重要性分数，权重。可以通过预定的方式得到每个子图像特征的权重，但是并不局限于此，还可以基于第K个聚类簇中的第j个子图像特征的分类置信度确定权重，只要是能够表征子图像特征的重要性分数即可。

根据本公开的其他实施例，可以认为同一聚类簇中的多个子图像特征具有相同的语义信息，则可以确定多个子图像特征的权重相同。可以直接将聚类簇中的多个子图像特征进行求平均，得到图像聚类标记向量。但是并不局限于此。还可以将聚类簇中的作为聚类中心的子图像特征作为图像聚类标记向量。

根据本公开的实施例，通过权重表示聚类簇中每个子图像特征的语义信息的重要程度，由此能够增强重要性高的子图像特征的特征，进而使得图像聚类标记特征与实际的待处理图像的类别相贴近，提高图像聚类标记特征的提示效果。

根据本公开的实施例，对多个子图像特征进行聚类，得到多个聚类簇，包括：利用密度峰值聚类算法对多个子图像特征进行聚类，得到多个聚类簇。但是并不局限于此。还可以利用其他聚类算法对多个子图像特征进行聚类，得到多个聚类簇。其他聚类算法例如可以是K-means聚类算法。

根据本公开的实施例，利用密度峰值聚类算法对多个子图像特征进行聚类，可以假设聚类簇的聚类中心被低密度邻居包围，并且聚类中心与任何高密度子图像特征之间的距离都比较大。可以确定每个子图像特征的密度和与较高密度的子图像特征之间的最小距离。密度ρ_i的确定方式可以参见公式(2)，最小距离δ_i的确定方式可以参见公式(3)。

其中，Z表示子图像特征集合，z_i表示第i个子图像特征，z_j表示第j个子图像特征。

根据本公开的实施例，可以基于密度和最小距离确定每个子图像特征的聚类中心分值，聚类中心分值越高意味着成为聚类中心的潜力越大。将聚类中心分值最高的子图像特征作为聚类中心。将剩余的子图像特征分配给与聚类中心距离最近且密度较高的聚类簇，由此完成聚类簇的生成。

根据本公开的实施例，与其他聚类算法相比，利用密度峰值聚类算法对多个子图像特征进行聚类，能够利用聚类簇的密度连通性来快速确定任意形状的聚类簇，避免迭代，生成一种既没有迭代过程也没有较多参数参与的聚类簇生成算法，由此提高了处理效率。

根据本公开的实施例，针对如图2所示的操作S220，基于图像聚类标记特征和任务提示标记特征，得到文本提示特征，可以包括如下操作。

例如，对图像聚类标记特征和任务提示标记特征进行融合，得到文本标记特征。基于文本标记特征和预定类别标记向量，得到文本提示标记特征。对文本提示标记特征进行文本编码，得到文本提示特征。

根据本公开的实施例，可以将表征整体图像语义信息的图像特征解耦为更细粒度的语义信息，例如图像聚类标记特征。可以将图像聚类标记特征添加至任务提示标记特征中，以使得任务提示标记特征中添加了图像语义信息，进而使得文本和视觉相互提示并充分释放两种模态的潜在表示能力。

根据本公开的实施例，对多个子图像特征进行聚类，得到多个聚类簇，还可以包括：确定任务提示标记特征的向量维度。基于任务提示标记特征的向量维度，确定聚类簇的簇数量。基于聚类簇的簇数量，利用密度峰值聚类算法对多个子图像特征进行聚类，得到多个聚类簇。

根据本公开的实施例，设置聚类簇的簇数量和任务提示标记特征的向量维度相同，可以实现图像聚类标记特征和任务提示标记特征之间的语义对齐，避免出现语义歧义。

图3示意性示出了根据本公开实施例的生成文本提示特征的示意图。

如图3所示，可以将待处理图像310输入至图像编码器M310中，得到图像特征320。

如图3所示，可以对图像特征320进行语义解耦，得到多个子图像特征330。

如图3所示，可以对多个子图像特征330进行聚类，得到多个聚类簇340，例如{C1、C2、C3、C4}。

如图3所示，任务提示标记特征350可以包括4个任务提示标记向量，例如{v₁、v₂、v₃、v₄}。可以基于竖向向量维度4，确定聚类簇的簇数量为4。可以基于聚类簇，得到图像聚类标记特征360。图像聚类标记特征360可以包括4个图像聚类标记向量，例如{t₁、t₂、t₃、t₄}。

如图3所示，可以将{v₁、v₂、v₃、v₄}和{t₁、t₂、t₃、t₄}对应元素加和，得到文本标记特征。文本标记特征可以包括{v₁+t₁、v₂+t₂、v₃+t₃、v₄+t₄}。

如图3所示，可以基于文本标记特征和预定类别标记向量370，得到文本提示标记特征。将文本提示标记特征输入至文本编码器M320中，得到文本提示特征380。

根据本公开的实施例，文本编码器可以是Transformer(编码解码器)TextEncoder(文本编码器)。但是并不局限于此。只要是能够对文本标记特征进行特征处理，得到文本提示特征的文本编码器即可。

根据本公开的实施例，预定类别标记向量[class]可以指用于指示图像动物类别结果例如“狗”、“猫”或者“鱼”的类别标记向量。

根据本公开的实施例，{v₁+t₁、v₂+t₂、v₃+t₃、v₄+t₄}与预定类别标记向量[class]拼接，得到文本提示标记特征，例如{v₁+t₁、v₂+t₂、v₃+t₃、v₄+t₄、class}。

根据本公开的实施例，利用密度峰值聚类算法将整体图像语义例如图像特征解耦为更细粒度的图像聚类标记特征。例如，可以通过密度峰值聚类算法，将同一聚类簇中的多个子图像特征可视化为一种颜色。例如，构成天空的所有子图像特征都显示为蓝色。可以将该聚类簇转换为一个新标记，表示为[天空]语义的图像聚类标记向量。

可以将本公开实施例提供的文本提示特征作为标记感知文本提示特征，该文本提示特征是基于表征更细粒度的图像语义的图像聚类标记特征得到的，而不是基于完整的图像特征生成的，由此可以实现在不引入额外学习语义信息歧义的情况下提高对未见类别的分类准确性。

根据本公开的实施例，针对如图2所示的操作S240，基于文本提示特征和待处理图像，得到待处理图像的图像分类结果，可以包括如下操作。

例如，基于文本提示特征和图像特征，得到文本重组的视觉提示特征。基于文本重组的视觉提示特征和待处理图像，得到图像分类结果。

根据本公开的实施例，基于文本提示特征和图像特征，得到文本重组的视觉提示特征，可以包括：对文本提示特征和图像特征进行融合，得到文本重组的视觉提示特征。该融合可以指对应元素加权求和。但是并不局限于此。还可以包括：对文本提示特征和图像特征进行交叉注意力处理，得到文本重组的视觉提示特征。只要是能够将文本提示特征和图像特征进行重组的方式即可。

根据本公开的实施例，可以利用文本提示特征对图像特征进行重组，得到文本提示特征和图像特征在特征空间对齐的视觉提示，由此提高图像分类结果的精度。

根据本公开的其他实施例，可以利用经训练的固定参数的图像提示特征作为视觉提示特征。

与利用图像提示特征作为视觉提示特征的方式相比，利用文本重组的视觉提示特征，可以避免因视觉提示特征中的参数固定而对待处理图像造成扰动，进而导致识别结果不稳定的问题。

根据本公开的可选实施例，基于文本提示特征和图像特征，得到文本重组的视觉提示特征，可以包括：对文本提示特征和图像特征进行交叉注意力处理，得到注意力权重矩阵。基于注意力权重矩阵、文本提示特征和图像特征，得到文本重组的视觉提示特征。

根据本公开的实施例，对文本提示特征和图像特征进行交叉注意力处理，得到注意力权重矩阵，可以通过如下公式(4)得到。

A^x＝f_x(g_t)^T；公式(4)

其中，A^x表示注意力权重矩阵，f_x表示图像特征中与第i个类别标记相对应的图像块的图像块向量，g_t表示文本提示特征中第j个类别标记所对应的特征。

根据本公开的实施例，注意力权重矩阵用于表征不同标记类别与图像特征的相关程度。通过交叉注意力处理在公共输出空间中对齐图像特征和文本提示特征，得到文本重组的视觉提示特征。可以通过交叉注意力处理充分释放文本重组的视觉提示特征的潜在表示能力，由此提高图像分类任务中的泛化性能。

根据本公开的实施例，基于注意力权重矩阵、文本提示特征和图像特征，得到文本重组的视觉提示特征，可以包括：基于注意力权重矩阵和文本提示特征，得到加权后的文本提示特征。基于加权后的文本提示特征，对图像特征进行特征增强，得到增强后的图像特征。基于图像特征和增强后的图像特征，得到文本重组的视觉提示特征。

根据本公开的实施例，基于注意力权重矩阵和文本提示特征，得到加权后的文本提示特征，可以包括：对注意力权重矩阵进行归一化，得到权重系数向量。基于权重系数向量和文本提示特征，得到加权后的文本提示特征。

例如，将注意力权重矩阵输入至激活函数例如Softmax函数中，输出权重系数向量。将权重系数向量和文本提示特征进行点乘，得到加权后的文本提示特征。

根据本公开的实施例，基于加权后的文本提示特征，对图像特征进行特征增强，得到增强后的图像特征，可以包括：将加权后的文本提示特征和图像特征进行元素求和，得到增强后的图像特征。

根据本公开的实施例，增强后的图像特征f^a可以通过如下公式(5)得到。

f^a＝softmax(A^x)g_t+f_x；公式(5)

根据本公开的实施例，利用得到的权重系数加权文本提示特征，使得特征空间中距离图像近的文本提示特征得到增强，由此提高文本重组的视觉提示特征的提示性能。

根据本公开的实施例，可以将图像特征和增强后的图像特征进行元素相加，得到文本重组的视觉提示特征。但是并不局限于此。还可以直接将增强后的图像特征f^a作为文本重组的视觉提示特征。

根据本公开的实施例，文本重组的视觉提示特征f_x ^a可以通过如下公式(6)得到。

f_x ^a＝f^a+f_x；公式(6)

根据本公开的实施例，基于图像特征和增强后的图像特征，得到文本重组的视觉提示特征，以此避免文本重组的视觉提示特征破坏了原始图像信息，由此使得文本重组的视觉提示特征包含的提示信息充分、特征突出，进而有利于提高作为图像分类结果的提示信息的提示性能。

根据本公开的实施例，针对如图2所示的操作S210，对待处理图像进行特征提取，得到图像特征，可以包括：对待处理图像进行切分，得到多个图像块。对多个图像块分别进行特征提取，得到多个图像块向量。对多个图像块向量进行编码，得到图像特征。

图4示意性示出了根据本公开实施例的生成文本重组的视觉提示特征的示意图。

如图4所示，对待处理图像410进行切分，得到多个图像块420。将多个图像块420输入至输入层M410，例如Embedding层，得到多个图像块向量430。将多个图像块向量430输入至图像编码器M420，得到图像特征440。

如图4所示，将图像特征440和文本提示特征450输入至交叉注意力模块M430，得到文本重组的视觉提示特征460。

根据本公开的实施例，对待处理图像进行切分，得到多个图像块，包括：确定文本提示特征的向量维度。按照文本提示特征的向量维度，对待处理图像进行切分，得到多个图像块。

例如，文本提示特征可以包括{g₁、g₂、g₃、g₄}，竖向向量维度为4。则对待处理图像切分为4块，得到4个图像块。

根据本公开的实施例，将文本提示特征的竖向向量维度与图像块的块数量设置为相同，可以简化文本提示特征与图像特征之间的融合过程，提高融合效率，进而提高分类速度。

根据本公开的实施例，基于文本重组的视觉提示特征和待处理图像，得到图像分类结果，可以包括：对待处理图像进行切分，得到多个图像块。对多个图像块分别进行特征提取，得到多个图像块向量。将文本重组的视觉提示特征和多个图像块向量进行融合，得到图像融合特征。对图像融合特征进行图像编码，得到图像编码特征。基于图像编码特征，得到图像分类结果。

图5示意性示出了根据本公开实施例的生成图像分类结果的示意图。

如图5所示，多个图像块向量510的生成方式与如图4所示的多个图像块向量的生成方式相同，在此不再赘述。

如图5所示，文本重组的视觉提示特征520的生成方式与如图4所示的文本重组的视觉提示特征的生成方式相同，在此不再赘述。

如图5所示，可以将文本重组的视觉提示特征520和多个图像块向量510进行元素相加，得到图像融合特征530。将图像融合特征530输入至图像编码器M510中，得到图像编码特征540。将图像编码特征540输入至图像分类器M520中，得到图像分类结果550。

根据本公开的实施例，图像编码器可以是Transformer(编码解码器)VisualEncoder(视觉编码器)。但是并不局限于此。只要是能够对图像融合特征进行特征处理的图像编码器即可。

根据本公开的实施例，图像分类器可以包括全连接层和激活函数，但是并不局限于此，还可以是Transformer(编码解码器)Decoder(解码器)。只要是能够基于图像编码特征得到图像分类结果的分类器即可。

根据本公开的实施例，结合文本重组的视觉提示特征对待处理图像进行图像分类，得到图像分类结果，能够充分利用文本提示和视觉提示两方面的提示能力的同时，充分释放两种模态的潜在表示能力，由此提高未见类别的分类准确性，提高应用范围。

根据本公开的实施例，视觉语言模型(Visual Language Model，VLM)可以是利用视觉语言数据的预训练得到的。视觉语言模型是强大的神经网络，可以包括图像编码器和文本编码器，为各种下游任务联合编码图像信息和文本信息，执行例如图像字幕、视觉问答、视觉对话等下游任务。然而，直接将预训练的视觉语言模型应用于下游任务可能无法获得最佳性能。因为预训练目标与任务特定目标之间可能存在差距。

根据本公开的其他实施例，可以利用下游任务训练数据训练预训练的视觉语言模型，对预训练的视觉语言模型中的参数进行微调，以弥合这一差距，由此使视觉语言模型适应下游任务的结果。然而，对预训练的视觉语言模型中的参数进行微调有如下缺点：例如视觉语言模型例如对比语言图像预训练模型(Contrastive Language-Image Pre-Training，CLIP)或者大规模图像和噪声文本嵌入模型(A Large-scale Image and Noisy-textEmbedding)等中存在数亿或数十亿个参数，微调计算成本昂贵，容易过度拟合；此外，还可能导致学习特征遗忘的问题。

根据本公开的实施例，针对下游任务，提示学习可以是提高预训练的视觉语言模型性能的有效方法。可以通过结合轻量级神经网络处理待处理图像，动态生成视觉提示。但是并不局限于此。还可以生成文本提示。利用视觉提示或者文本提示中的可学习的提示向量，学习下游任务中的图像分类任务的知识，以在保证固定预训练的视觉语言模型中的模型参数的同时，利用可学习的提示向量提高对下游任务的处理性能。

根据本公开的实施例，可以基于预训练的视觉语言模型和任务提示模块结合，生成如图6所示的深度学习模型。利用任务提示模块生成样本任务提示标记特征，将样本任务提示标记特征作为文本提示。任务提示模块可以包括可学习的提示向量，可学习的提示向量中包括可调参数。在保证固定预训练的视觉语言模型中的模型参数的同时，通过训练，调节任务提示模块中的可调参数，以使得基于任务提示模块得到的任务提示标记特征具有下游任务例如图像分类任务的知识。由此提高经训练的深度学习模型对下游任务例如图像分类任务的分类性能。

图6示意性示出了根据本公开实施例的深度学习模型的训练方法的流程图。

如图6所示，该方法600可以包括操作S6 10～操作S650。

在操作S610，对样本图像进行特征提取，得到样本图像特征。

在操作S620，对样本图像特征进行聚类，得到样本图像聚类标记特征。

在操作S630，基于任务提示模块，得到样本任务提示标记特征。

在操作S640，基于样本图像聚类标记特征和样本任务提示标记特征，得到样本文本提示特征。

在操作S650，基于样本文本提示特征、样本图像特征和标签，调整任务提示模块中的可调参数，得到经训练的深度学习模型。

根据本公开的实施例，标签用于表征样本图像的真实图像分类结果。可以利用标签和深度学习模型输出的图像分类结果，确定损失值，基于损失值调整任务提示模块中的可调参数，得到经训练的深度学习模型。

根据本公开的实施例，可以将样本文本提示特征、样本图像特征输入至深度学习模型中，得到图像分类结果。

根据本公开的其他实施例，可以基于样本任务提示标记特征，得到样本文本提示特征。

与基于样本任务提示标记特征，得到样本文本提示特征的方式相比，采用基于样本图像聚类标记特征和样本任务提示标记特征，得到样本文本提示特征的方式，能够使得样本任务提示标记特征的生成动态化，利用样本图像聚类标记特征激活样本任务提示标记特征与任务相关的表示能力，进而释放视觉语言模型的潜力。

根据本公开的其他实施例，可以直接基于样本图像特征和样本任务提示标记特征，得到样本文本提示特征。

与基于样本图像特征和样本任务提示标记特征，得到样本文本提示特征的方式相比，采用基于样本图像聚类标记特征和样本任务提示标记特征，得到样本文本提示特征的方式，能够通过对样本图像特征进行聚类，使得得到的样本图像聚类标记特征与样本任务提示标记特征在图像语义上对齐，避免语义歧义，由此提高样本文本提示特征的提示表示能力。

根据本公开的实施例，通过上述训练方法能够利用在图像语义上与样本任务提示标记特征对齐的样本图像聚类标记特征，提高样本文本提示特征的提示表示能力，由此提高深度学习模型在训练过程中的稳定性，提高深度学习模型的泛化能力。

根据本公开的可选实施例，基于样本文本提示特征和特征、样本图像特征和标签，调整任务提示模块中的可调参数，得到经训练的深度学习模型，可以包括：基于样本文本提示特征和样本图像特征，得到交叉损失值。基于交叉损失值和标签，调整任务提示模块中的可调参数，得到经训练的深度学习模型。

根据本公开的实施例，深度学习模型可以包括预训练的语言视觉模型。预训练的语言视觉模型包括图像编码器。可以将样本图像输入至图像编码器中，得到样本图像特征。但是并不局限于此。还可以对样本图像进行切分，得到多个样本图像块。对多个样本图像块分别进行特征提取，得到多个样本图像块向量。将多个样本图像块向量输入至图像编码器中，得到样本图像特征。

根据本公开的实施例，深度学习模型的训练方法还可以包括：生成样本文本提示特征。

根据本公开的实施例，生成样本文本提示特征可以包括：对样本图像聚类标记特征和样本任务提示标记特征进行融合，得到样本文本标记特征。基于样本文本标记特征和预定样本类别标记向量，得到样本文本提示标记特征。对样本文本提示标记特征进行文本编码，得到样本文本提示特征。

根据本公开的实施例，对样本图像特征进行聚类，得到样本图像聚类标记特征，可以包括：对样本图像特征进行语义解耦，得到多个样本子图像特征。对多个样本子图像特征进行聚类，得到多个样本聚类簇。基于多个样本聚类簇，得到样本图像聚类标记特征。

根据本公开的实施例，对样本图像特征进行语义解耦，得到多个样本子图像特征，可以包括：按照预定的样本向量维度，对样本图像特征进行拆分，得到多个样本子图像特征。样本向量维度可以包括样本横向向量维度和样本竖向向量维度。

根据本公开的实施例，对多个子样本图像特征进行聚类，得到初始样本聚类标记特征，可以包括：对多个样本子图像特征进行聚类，得到多个样本聚类簇。基于多个样本聚类簇，得到样本聚类标记特征。

根据本公开的实施例，基于多个样本聚类簇，得到样本聚类标记特征，可以包括：针对每个样本聚类簇，将样本聚类簇中的多个样本子图像特征进行加权求和，得到样本图像聚类标记向量。基于与多个样本聚类簇一一对应的多个样本图像聚类标记向量，得到样本图像聚类标记特征。

根据本公开的实施例，对多个子样本图像特征进行聚类，得到多个样本聚类簇，可以包括：利用密度峰值聚类算法对多个样本子图像特征进行聚类，得到多个样本聚类簇。

根据本公开的实施例，基于样本文本提示特征和样本图像特征，得到交叉损失值，包括：基于样本文本提示特征和样本图像特征，得到文本重组的样本视觉提示特征。基于样本文本提示特征和文本重组的样本视觉提示特征，得到交叉损失值。

根据本公开的实施例，基于样本文本提示特征和样本图像特征构建文本重组的样本视觉提示特征，由此使得不同的两个模态分支在整个训练过程中紧密耦合和互惠互利。由此提高训练过程中对任务提示模块中可调参数的调节效率和训练效率。

根据本公开的实施例，基于样本文本提示特征和样本图像特征，得到文本重组的样本视觉提示特征，可以包括：对样本文本提示特征和样本图像特征进行交叉注意力处理，得到样本注意力权重矩阵。基于样本注意力权重矩阵、样本文本提示特征和样本图像特征，得到文本重组的样本视觉提示特征。

根据本公开的实施例，基于样本注意力权重矩阵、样本文本提示特征和样本图像特征，得到文本重组的样本视觉提示特征，可以包括：基于样本注意力权重矩阵和样本文本提示特征，得到加权后的样本文本提示特征。基于加权后的样本文本提示特征，对样本图像特征进行特征增强，得到增强后的样本图像特征。基于样本图像特征和增强后的样本图像特征，得到文本重组的样本视觉提示特征。

根据本公开的实施例，基于样本注意力权重矩阵和样本文本提示特征，得到加权后的样本文本提示特征，可以包括：对样本注意力权重矩阵进行归一化，得到样本权重系数向量。基于样本权重系数向量和样本文本提示特征，得到加权后的样本文本提示特征。

根据本公开的实施例，基于加权后的样本文本提示特征，对样本图像特征进行特征增强，得到增强后的样本图像特征，可以包括：将加权后的样本文本提示特征和样本图像特征进行元素求和，得到增强后的样本图像特征。

图7示意性示出了根据本公开实施例的调整可调参数的示意图。

如图7所示，可以将样本图像710输入至图像编码器M710中，得到样本图像特征720。

如图7所示，可以对样本图像特征720进行聚类，得到样本图像聚类标记特征730。

如图7所示，样本任务提示标记特征740可以包括4个样本任务提示标记向量。可以基于样本向量维度4，确定样本聚类簇的样本簇数量为4。可以基于样本聚类簇，得到样本图像聚类标记特征730。样本图像聚类标记特征可以包括4个样本图像聚类标记向量。

如图7所示，可以将样本任务提示标记特征740和样本图像聚类标记特征730进行对应元素加和，得到样本文本标记特征。

如图7所示，可以基于样本文本标记特征和预定样本类别标记向量750，得到样本文本提示标记特征。将样本文本提示标记特征输入至文本编码器M720中，得到样本文本提示特征760。

如图7所示，将样本图像特征720和样本文本提示特征760输入至交叉注意力模块M730，得到文本重组的样本视觉提示特征770。

如图7所示，可以基于样本文本提示特征760和文本重组的样本视觉提示特征770，得到交叉损失值。基于交叉损失值和标签，调整可调参数，直至与标签相对应的交叉损失值的概率最高或者收敛。

根据本公开的可选实施例，基于样本文本提示特征和样本图像特征，得到交叉损失值，可以包括如下操作。

例如，基于样本任务提示标记特征和预定样本类别标记向量，得到未对齐样本文本提示标记特征。对未对齐样本文本提示标记特征进行文本编码，得到未对齐样本文本提示特征。基于样本图像特征和未对齐样本文本提示特征，得到第一交叉损失值。基于样本文本提示特征和样本图像特征，得到第二交叉损失值。基于样本文本提示特征和文本重组的样本视觉提示特征，得到第三交叉损失值。基于第一交叉损失值、第二交叉损失值和第三交叉损失值，得到交叉损失值。

根据本公开的实施例，基于样本任务提示标记特征和预定样本类别标记向量，得到未对齐样本文本提示标记特征，可以包括：将样本任务提示标记特征和预定样本类别标记向量进行拼接，得到未对齐样本文本提示标记特征。

根据本公开的实施例，将对未对齐样本文本提示标记特征进行文本编码，得到未对齐样本文本提示特征，将未对齐样本文本提示标记特征输入至文本编码器中，得到未对齐样本文本提示特征。

根据本公开的实施例，未对齐样本文本提示特征可以指以静态生成方式生成的样本文本提示特征，为未添加样本图像聚类标记特征的特征。

根据本公开的实施例，可以基于第一交叉损失值、第二交叉损失值和第三交叉损失值中的一项或多项组合，得到交叉损失值。基于第一交叉损失值、第二交叉损失值和第三交叉损失值，得到交叉损失值，可以使得损失值的参考因素更充分，进而使得调节可调参数的效率高的同时精准有效。

图8示意性示出了根据本公开实施例的图像分类装置的框图。

如图8所示，图像分类装置800包括：特征提取模块810、聚类模块820、文本提示生成模块830以及分类模块840。

特征提取模块810，用于对待处理图像进行特征提取，得到图像特征。

聚类模块820，用于对图像特征进行聚类，得到图像聚类标记特征。

文本提示生成模块830，用于基于图像聚类标记特征和任务提示标记特征，得到文本提示特征。任务提示标记特征用于表征与图像分类任务相关的知识。

分类模块840，用于基于文本提示特征和待处理图像，得到待处理图像的图像分类结果。

根据本公开的实施例，聚类模块包括：解耦子模块、聚类子模块以及聚类标记生成子模块。

解耦子模块，用于对图像特征进行语义解耦，得到多个子图像特征。

聚类子模块，用于对多个子图像特征进行聚类，得到多个聚类簇。

聚类标记生成子模块，用于基于多个聚类簇，得到图像聚类标记特征。

根据本公开的实施例，聚类子模块包括：聚类单元。

聚类单元，用于利用密度峰值聚类算法对多个子图像特征进行聚类，得到多个聚类簇。

根据本公开的实施例，聚类标记生成子模块包括：聚类融合单元以及聚类标记生成单元。

聚类融合单元，用于针对每个聚类簇，将聚类簇中的多个子图像特征进行加权求和，得到图像聚类标记向量。

聚类标记生成单元，用于基于多个图像聚类标记向量，得到图像聚类标记特征。

根据本公开的实施例，分类模块包括：重组子模块以及分类子模块。

重组子模块，用于基于文本提示特征和图像特征，得到文本重组的视觉提示特征。

分类子模块，用于基于文本重组的视觉提示特征和待处理图像，得到图像分类结果。

根据本公开的实施例，重组子模块包括：注意处理单元以及重组单元。

注意处理单元，用于对文本提示特征和图像特征进行交叉注意力处理，得到注意力权重矩阵。

重组单元，用于基于注意力权重矩阵、文本提示特征和图像特征，得到文本重组的视觉提示特征。

根据本公开的实施例，重组单元包括：加权子单元、增强子单元以及重组子单元。

加权子单元，用于基于注意力权重矩阵和文本提示特征，得到加权后的文本提示特征。

增强子单元，用于基于加权后的文本提示特征，对图像特征进行特征增强，得到增强后的图像特征。

重组子单元，用于基于图像特征和增强后的图像特征，得到文本重组的视觉提示特征。

根据本公开的实施例，分类子模块包括：切分单元、特征提取单元、图像特征融合单元、图像编码单元以及分类单元。

切分单元，用于对待处理图像进行切分，得到多个图像块。

特征提取单元，用于对多个图像块分别进行特征提取，得到多个图像块向量。

图像特征融合单元，用于将文本重组的视觉提示特征和多个图像块向量进行融合，得到图像融合特征。

图像编码单元，用于对图像融合特征进行图像编码，得到图像编码特征。

分类单元，用于基于图像编码特征，得到图像分类结果。

根据本公开的实施例，切分单元包括：维度确定子单元以及切分子单元。

维度确定子单元，用于确定文本提示特征的向量维度。

切分子单元，用于按照向量维度，对待处理图像进行切分，得到多个图像块。

根据本公开的实施例，文本提示生成模块包括：文本特征融合子模块、拼接子模块以及文本编码子模块。

文本特征融合子模块，用于对图像聚类标记特征和任务提示标记特征进行融合，得到文本标记特征。

拼接子模块，用于基于文本标记特征和预定类别标记向量，得到文本提示标记特征。

文本编码子模块，用于对文本提示标记特征进行文本编码，得到文本提示特征。

根据本公开的实施例，特征提取模块包括：图像切分子模块、特征提取子模块以及图像编码子模块。

图像切分子模块，用于对待处理图像进行切分，得到多个图像块。

特征提取子模块，用于对多个图像块分别进行特征提取，得到多个图像块向量。

图像编码子模块，用于对多个图像块向量进行编码，得到图像特征。

图9示意性示出了根据本公开实施例的深度学习模型的训练装置的框图。

根据本公开的实施例，深度学习模型包括任务提示模块，任务提示模块包括可调参数。

如图9所示，深度学习模型的训练装置900包括：样本特征提取模块910、样本聚类模块920、样本任务提示生成模块930、样本文本提示生成模块940以及调参模块950。

样本特征提取模块910，用于对样本图像进行特征提取，得到样本图像特征。

样本聚类模块920，用于对样本图像特征进行聚类，得到样本图像聚类标记特征。

样本任务提示生成模块930，用于基于任务提示模块，得到样本任务提示标记特征。

样本文本提示生成模块940，用于基于样本图像聚类标记特征和样本任务提示标记特征，得到样本文本提示特征。

调参模块950，用于基于样本文本提示特征、样本图像特征和标签，调整任务提示模块中的可调参数，得到经训练的深度学习模型。标签用于表征样本图像的真实图像分类结果。

根据本公开的实施例，调参模块包括：损失值生成子模块以及调参子模块。

损失值生成子模块，用于基于样本文本提示特征和样本图像特征，得到交叉损失值。

调参子模块，用于基于交叉损失值和标签，调整任务提示模块中的可调参数，得到经训练的深度学习模型。

根据本公开的实施例，深度学习模型的训练装置还包括：样本文本特征融合模块、样本文本特征拼接模块以及样本文本特征编码模块。

样本文本特征融合模块，用于对样本图像聚类标记特征和样本任务提示标记特征进行融合，得到样本文本标记特征。

样本文本特征拼接模块，用于基于样本文本标记特征和预定样本类别标记向量，得到样本文本提示标记特征。

样本文本特征编码模块，用于对样本文本提示标记特征进行文本编码，得到样本文本提示特征。

根据本公开的实施例，损失值生成子模块包括：样本视觉提示生成单元以及损失值生成单元。

样本视觉提示生成单元，用于基于样本文本提示特征和样本图像特征，得到文本重组的样本视觉提示特征。

损失值生成单元，用于基于样本文本提示特征和文本重组的样本视觉提示特征，得到交叉损失值。

根据本公开的实施例，损失值生成子模块包括：未对齐文本标记生成单元、未对齐文本提示生成单元、第一损失值生成单元、第二损失值生成单元、第三损失值生成单元、交叉损失值生成单元。

未对齐文本标记生成单元，用于基于样本任务提示标记特征和预定样本类别标记向量，得到未对齐样本文本提示标记特征。

未对齐文本提示生成单元，用于对未对齐样本文本提示标记特征进行文本编码，得到未对齐样本文本提示特征。

第一损失值生成单元，用于基于样本图像特征和未对齐样本文本提示特征，得到第一交叉损失值。

第二损失值生成单元，用于基于样本文本提示特征和样本图像特征，得到第二交叉损失值。

第三损失值生成单元，用于基于样本文本提示特征和文本重组的样本视觉提示特征，得到第三交叉损失值。

交叉损失值生成单元，用于基于第一交叉损失值、第二交叉损失值和第三交叉损失值，得到交叉损失值。

根据本公开的实施例，本公开还提供了一种电子设备、一种可读存储介质和一种计算机程序产品。

根据本公开的实施例，一种电子设备，包括：至少一个处理器；以及与至少一个处理器通信连接的存储器；其中，存储器存储有可被至少一个处理器执行的指令，指令被至少一个处理器执行，以使至少一个处理器能够执行如本公开实施例的方法。

根据本公开的实施例，一种存储有计算机指令的非瞬时计算机可读存储介质，其中，计算机指令用于使计算机执行如本公开实施例的方法。

根据本公开的实施例，一种计算机程序产品，包括计算机程序，计算机程序在被处理器执行时实现如本公开实施例的方法。

图10示出了可以用来实施本公开的实施例的示例电子设备1000的示意性框图。电子设备旨在表示各种形式的数字计算机，诸如，膝上型计算机、台式计算机、工作台、个人数字助理、服务器、刀片式服务器、大型计算机、和其它适合的计算机。电子设备还可以表示各种形式的移动装置，诸如，个人数字处理、蜂窝电话、智能电话、可穿戴设备和其它类似的计算装置。本文所示的部件、它们的连接和关系、以及它们的功能仅仅作为示例，并且不意在限制本文中描述的和/或者要求的本公开的实现。

如图10所示，设备1000包括计算单元1001，其可以根据存储在只读存储器(ROM)1002中的计算机程序或者从存储单元1008加载到随机访问存储器(RAM)1003中的计算机程序，来执行各种适当的动作和处理。在RAM 1003中，还可存储设备1000操作所需的各种程序和数据。计算单元1001、ROM 1002以及RAM 1003通过总线1004彼此相连。输入/输出(I/O)接口1005也连接至总线1004。

设备1000中的多个部件连接至输入/输出(I/O)接口1005，包括：输入单元1006，例如键盘、鼠标等；输出单元1007，例如各种类型的显示器、扬声器等；存储单元1008，例如磁盘、光盘等；以及通信单元1009，例如网卡、调制解调器、无线通信收发机等。通信单元1009允许设备1000通过诸如因特网的计算机网络和/或各种电信网络与其他设备交换信息/数据。

计算单元1001可以是各种具有处理和计算能力的通用和/或专用处理组件。计算单元1001的一些示例包括但不限于中央处理单元(CPU)、图形处理单元(GPU)、各种专用的人工智能(AI)计算芯片、各种运行机器学习模型算法的计算单元、数字信号处理器(DSP)、以及任何适当的处理器、控制器、微控制器等。计算单元1001执行上文所描述的各个方法和处理，例如图像分类方法。例如，在一些实施例中，图像分类方法可被实现为计算机软件程序，其被有形地包含于机器可读介质，例如存储单元1008。在一些实施例中，计算机程序的部分或者全部可以经由ROM 1002和/或通信单元1009而被载入和/或安装到设备1000上。当计算机程序加载到RAM 1003并由计算单元1001执行时，可以执行上文描述的图像分类方法的一个或多个步骤。备选地，在其他实施例中，计算单元1001可以通过其他任何适当的方式(例如，借助于固件)而被配置为执行图像分类方法。

本文中以上描述的系统和技术的各种实施方式可以在数字电子电路系统、集成电路系统、场可编程门阵列(FPGA)、专用集成电路(ASIC)、专用标准产品(ASSP)、芯片上系统的系统(SOC)、复杂可编程逻辑设备(CPLD)、计算机硬件、固件、软件、和/或它们的组合中实现。这些各种实施方式可以包括：实施在一个或者多个计算机程序中，该一个或者多个计算机程序可在包括至少一个可编程处理器的可编程系统上执行和/或解释，该可编程处理器可以是专用或者通用可编程处理器，可以从存储系统、至少一个输入装置、和至少一个输出装置接收数据和指令，并且将数据和指令传输至该存储系统、该至少一个输入装置、和该至少一个输出装置。

用于实施本公开的方法的程序代码可以采用一个或多个编程语言的任何组合来编写。这些程序代码可以提供给通用计算机、专用计算机或其他可编程数据处理装置的处理器或控制器，使得程序代码当由处理器或控制器执行时使流程图和/或框图中所规定的功能/操作被实施。程序代码可以完全在机器上执行、部分地在机器上执行，作为独立软件包部分地在机器上执行且部分地在远程机器上执行或完全在远程机器或服务器上执行。

在本公开的上下文中，机器可读介质可以是有形的介质，其可以包含或存储以供指令执行系统、装置或设备使用或与指令执行系统、装置或设备结合地使用的程序。机器可读介质可以是机器可读信号介质或机器可读储存介质。机器可读介质可以包括但不限于电子的、磁性的、光学的、电磁的、红外的、或半导体系统、装置或设备，或者上述内容的任何合适组合。机器可读存储介质的更具体示例会包括基于一个或多个线的电气连接、便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦除可编程只读存储器(EPROM或快闪存储器)、光纤、便捷式紧凑盘只读存储器(CD-ROM)、光学储存设备、磁储存设备、或上述内容的任何合适组合。

为了提供与用户的交互，可以在计算机上实施此处描述的系统和技术，该计算机具有：用于向用户显示信息的显示装置(例如，CRT(阴极射线管)或者LCD(液晶显示器)监视器)；以及键盘和指向装置(例如，鼠标或者轨迹球)，用户可以通过该键盘和该指向装置来将输入提供给计算机。其它种类的装置还可以用于提供与用户的交互；例如，提供给用户的反馈可以是任何形式的传感反馈(例如，视觉反馈、听觉反馈、或者触觉反馈)；并且可以用任何形式(包括声输入、语音输入或者、触觉输入)来接收来自用户的输入。

可以将此处描述的系统和技术实施在包括后台部件的计算系统(例如，作为数据服务器)、或者包括中间件部件的计算系统(例如，应用服务器)、或者包括前端部件的计算系统(例如，具有图形用户界面或者网络浏览器的用户计算机，用户可以通过该图形用户界面或者该网络浏览器来与此处描述的系统和技术的实施方式交互)、或者包括这种后台部件、中间件部件、或者前端部件的任何组合的计算系统中。可以通过任何形式或者介质的数字数据通信(例如，通信网络)来将系统的部件相互连接。通信网络的示例包括：局域网(LAN)、广域网(WAN)和互联网。

计算机系统可以包括客户端和服务器。客户端和服务器一般远离彼此并且通常通过通信网络进行交互。通过在相应的计算机上运行并且彼此具有客户端-服务器关系的计算机程序来产生客户端和服务器的关系。服务器可以是云服务器，也可以是分布式系统的服务器，或者是结合了区块链的服务器。

应该理解，可以使用上面所示的各种形式的流程，重新排序、增加或删除步骤。例如，本发公开中记载的各步骤可以并行地执行也可以顺序地执行也可以不同的次序执行，只要能够实现本公开公开的技术方案所期望的结果，本文在此不进行限制。

上述具体实施方式，并不构成对本公开保护范围的限制。本领域技术人员应该明白的是，根据设计要求和其他因素，可以进行各种修改、组合、子组合和替代。任何在本公开的精神和原则之内所作的修改、等同替换和改进等，均应包含在本公开保护范围之内。

Claims

1.一种图像分类方法，包括：

对待处理图像进行特征提取，得到图像特征；

对所述图像特征进行聚类，得到图像聚类标记特征；

基于所述图像聚类标记特征和任务提示标记特征，得到文本提示特征，其中，所述任务提示标记特征用于表征与图像分类任务相关的知识；以及

基于所述文本提示特征和所述待处理图像，得到所述待处理图像的图像分类结果。

2.根据权利要求1所述的方法，其中，所述对所述图像特征进行聚类，得到图像聚类标记特征，包括：

对所述图像特征进行语义解耦，得到多个子图像特征；

对所述多个子图像特征进行聚类，得到多个聚类簇；以及

基于所述多个聚类簇，得到所述图像聚类标记特征。

3.根据权利要求2所述的方法，其中，所述对所述多个子图像特征进行聚类，得到多个聚类簇，包括：

利用密度峰值聚类算法对所述多个子图像特征进行聚类，得到所述多个聚类簇。

4.根据权利要求2或3所述的方法，其中，所述基于所述多个聚类簇，得到所述图像聚类标记特征，包括：

针对每个所述聚类簇，将所述聚类簇中的多个子图像特征进行加权求和，得到图像聚类标记向量；以及

基于多个所述图像聚类标记向量，得到所述图像聚类标记特征。

5.根据权利要求1至4中任一项所述的方法，其中，所述基于所述文本提示特征和所述待处理图像，得到所述待处理图像的图像分类结果，包括：

基于所述文本提示特征和所述图像特征，得到文本重组的视觉提示特征；以及

基于所述文本重组的视觉提示特征和所述待处理图像，得到所述图像分类结果。

6.根据权利要求5所述的方法，其中，所述基于所述文本提示特征和所述图像特征，得到文本重组的视觉提示特征，包括：

对所述文本提示特征和所述图像特征进行交叉注意力处理，得到注意力权重矩阵；以及

基于所述注意力权重矩阵、所述文本提示特征和所述图像特征，得到所述文本重组的视觉提示特征。

7.根据权利要求6所述的方法，其中，所述基于所述注意力权重矩阵、所述文本提示特征和所述图像特征，得到所述文本重组的视觉提示特征，包括：

基于所述注意力权重矩阵和所述文本提示特征，得到加权后的文本提示特征；

基于所述加权后的文本提示特征，对所述图像特征进行特征增强，得到增强后的图像特征；以及

基于所述图像特征和所述增强后的图像特征，得到所述文本重组的视觉提示特征。

8.根据权利要求5至7中任一项所述的方法，其中，所述基于所述文本重组的视觉提示特征和所述待处理图像，得到所述图像分类结果，包括：

对所述待处理图像进行切分，得到多个图像块；

对所述多个图像块分别进行特征提取，得到多个图像块向量；

将所述文本重组的视觉提示特征和所述多个图像块向量进行融合，得到图像融合特征；

对所述图像融合特征进行图像编码，得到图像编码特征；以及

基于所述图像编码特征，得到所述图像分类结果。

9.根据权利要求8所述的方法，其中，所述对所述待处理图像进行切分，得到多个图像块，包括：

确定所述文本提示特征的向量维度；以及

按照所述向量维度，对所述待处理图像进行切分，得到所述多个图像块。

10.根据权利要求1至9中任一项所述的方法，其中，所述基于所述图像聚类标记特征和任务提示标记特征，得到文本提示特征，包括：

对所述图像聚类标记特征和所述任务提示标记特征进行融合，得到文本标记特征；

基于所述文本标记特征和预定类别标记向量，得到文本提示标记特征；以及

对所述文本提示标记特征进行文本编码，得到所述文本提示特征。

11.根据权利要求1至10中任一项所述的方法，其中，所述对待处理图像进行特征提取，得到图像特征，包括：

对所述待处理图像进行切分，得到多个图像块；

对所述多个图像块分别进行特征提取，得到多个图像块向量；以及

对所述多个图像块向量进行编码，得到所述图像特征。

12.一种深度学习模型的训练方法，其中，所述深度学习模型包括任务提示模块，所述任务提示模块包括可调参数，所述方法包括：

对样本图像进行特征提取，得到样本图像特征；

对所述样本图像特征进行聚类，得到样本图像聚类标记特征；

基于所述任务提示模块，得到样本任务提示标记特征；

基于所述样本图像聚类标记特征和所述样本任务提示标记特征，得到样本文本提示特征；以及

基于所述样本文本提示特征、所述样本图像特征和标签，调整所述任务提示模块中的所述可调参数，得到经训练的深度学习模型，其中，所述标签用于表征样本图像的真实图像分类结果。

13.根据权利要求12所述的方法，其中，所述基于所述样本文本提示特征、所述样本图像特征和标签，调整所述任务提示模块中的所述可调参数，得到经训练的深度学习模型，包括：

基于所述样本文本提示特征和所述样本图像特征，得到交叉损失值；以及

基于所述交叉损失值和所述标签，调整所述任务提示模块中的所述可调参数，得到所述经训练的深度学习模型。

14.根据权利要求12或13所述的方法，还包括：

对所述样本图像聚类标记特征和所述样本任务提示标记特征进行融合，得到样本文本标记特征；

基于所述样本文本标记特征和预定样本类别标记向量，得到样本文本提示标记特征；以及

对所述样本文本提示标记特征进行文本编码，得到所述样本文本提示特征。

15.根据权利要求13所述的方法，其中，所述基于所述样本文本提示特征和所述样本图像特征，得到所述交叉损失值，包括：

基于所述样本文本提示特征和所述样本图像特征，得到文本重组的样本视觉提示特征；以及

基于所述样本文本提示特征和所述文本重组的样本视觉提示特征，得到所述交叉损失值。

16.根据权利要求13-15中任一项所述的方法，其中，所述基于所述样本文本提示特征和所述样本图像特征，得到所述交叉损失值，包括：

基于所述样本任务提示标记特征和预定样本类别标记向量，得到未对齐样本文本提示标记特征；

对所述未对齐样本文本提示标记特征进行文本编码，得到未对齐样本文本提示特征；

基于所述样本图像特征和所述未对齐样本文本提示特征，得到第一交叉损失值；

基于所述样本文本提示特征和所述样本图像特征，得到第二交叉损失值；

基于所述样本文本提示特征和所述文本重组的样本视觉提示特征，得到第三交叉损失值；以及

基于所述第一交叉损失值、所述第二交叉损失值和所述第三交叉损失值，得到所述交叉损失值。

17.一种图像分类装置，包括：

特征提取模块，用于对待处理图像进行特征提取，得到图像特征；

聚类模块，用于对所述图像特征进行聚类，得到图像聚类标记特征；

文本提示生成模块，用于基于所述图像聚类标记特征和任务提示标记特征，得到文本提示特征，其中，所述任务提示标记特征用于表征与图像分类任务相关的知识；以及

分类模块，用于基于所述文本提示特征和所述待处理图像，得到所述待处理图像的图像分类结果。

18.根据权利要求17所述的装置，其中，所述聚类模块包括：

解耦子模块，用于对所述图像特征进行语义解耦，得到多个子图像特征；

聚类子模块，用于对所述多个子图像特征进行聚类，得到多个聚类簇；以及

聚类标记生成子模块，用于基于所述多个聚类簇，得到所述图像聚类标记特征。

19.根据权利要求18所述的装置，其中，所述聚类子模块包括：

聚类单元，用于利用密度峰值聚类算法对所述多个子图像特征进行聚类，得到所述多个聚类簇。

20.根据权利要求18或19所述的装置，其中，所述聚类标记生成子模块包括：

聚类融合单元，用于针对每个所述聚类簇，将所述聚类簇中的多个子图像特征进行加权求和，得到图像聚类标记向量；以及

聚类标记生成单元，用于基于多个所述图像聚类标记向量，得到所述图像聚类标记特征。

21.根据权利要求17至20中任一项所述的装置，其中，所述分类模块包括：

重组子模块，用于基于所述文本提示特征和所述图像特征，得到文本重组的视觉提示特征；以及

分类子模块，用于基于所述文本重组的视觉提示特征和所述待处理图像，得到所述图像分类结果。

22.根据权利要求21所述的装置，其中，所述重组子模块包括：

注意处理单元，用于对所述文本提示特征和所述图像特征进行交叉注意力处理，得到注意力权重矩阵；以及

重组单元，用于基于所述注意力权重矩阵、所述文本提示特征和所述图像特征，得到所述文本重组的视觉提示特征。

23.根据权利要求22所述的装置，其中，所述重组单元包括：

加权子单元，用于基于所述注意力权重矩阵和所述文本提示特征，得到加权后的文本提示特征；

增强子单元，用于基于所述加权后的文本提示特征，对所述图像特征进行特征增强，得到增强后的图像特征；以及

重组子单元，用于基于所述图像特征和所述增强后的图像特征，得到所述文本重组的视觉提示特征。

24.根据权利要求21至23中任一项所述的装置，其中，所述分类子模块包括：

切分单元，用于对所述待处理图像进行切分，得到多个图像块；

特征提取单元，用于对所述多个图像块分别进行特征提取，得到多个图像块向量；

图像特征融合单元，用于将所述文本重组的视觉提示特征和所述多个图像块向量进行融合，得到图像融合特征；

图像编码单元，用于对所述图像融合特征进行图像编码，得到图像编码特征；以及

分类单元，用于基于所述图像编码特征，得到所述图像分类结果。

25.根据权利要求24所述的装置，其中，所述切分单元包括：

维度确定子单元，用于确定所述文本提示特征的向量维度；以及

切分子单元，用于按照所述向量维度，对所述待处理图像进行切分，得到所述多个图像块。

26.根据权利要求17至25中任一项所述的装置，其中，所述文本提示生成模块包括：

文本特征融合子模块，用于对所述图像聚类标记特征和所述任务提示标记特征进行融合，得到文本标记特征；

拼接子模块，用于基于所述文本标记特征和预定类别标记向量，得到文本提示标记特征；以及

文本编码子模块，用于对所述文本提示标记特征进行文本编码，得到所述文本提示特征。

27.根据权利要求17至28中任一项所述的装置，其中，所述特征提取模块包括：

图像切分子模块，用于对所述待处理图像进行切分，得到多个图像块；

特征提取子模块，用于对所述多个图像块分别进行特征提取，得到多个图像块向量；以及

图像编码子模块，用于对所述多个图像块向量进行编码，得到所述图像特征。

28.一种深度学习模型的训练装置，其中，所述深度学习模型包括任务提示模块，所述任务提示模块包括可调参数，所述装置包括：

样本特征提取模块，用于对样本图像进行特征提取，得到样本图像特征；

样本聚类模块，用于对所述样本图像特征进行聚类，得到样本图像聚类标记特征；

样本任务提示生成模块，用于基于所述任务提示模块，得到样本任务提示标记特征；

样本文本提示生成模块，用于基于所述样本图像聚类标记特征和所述样本任务提示标记特征，得到样本文本提示特征；以及

调参模块，用于基于所述样本文本提示特征、所述样本图像特征和标签，调整所述任务提示模块中的所述可调参数，得到经训练的深度学习模型，其中，所述标签用于表征样本图像的真实图像分类结果。

29.根据权利要求28所述的装置，其中，所述调参模块包括：

损失值生成子模块，用于基于所述样本文本提示特征和所述样本图像特征，得到交叉损失值；以及

调参子模块，用于基于所述交叉损失值和所述标签，调整所述任务提示模块中的所述可调参数，得到所述经训练的深度学习模型。

30.根据权利要求27或29所述的装置，还包括：

样本文本特征融合模块，用于对所述样本图像聚类标记特征和所述样本任务提示标记特征进行融合，得到样本文本标记特征；

样本文本特征拼接模块，用于基于所述样本文本标记特征和预定样本类别标记向量，得到样本文本提示标记特征；以及

样本文本特征编码模块，用于对所述样本文本提示标记特征进行文本编码，得到所述样本文本提示特征。

31.根据权利要求29所述的装置，其中，所述损失值生成子模块包括：

样本视觉提示生成单元，用于基于所述样本文本提示特征和所述样本图像特征，得到文本重组的样本视觉提示特征；以及

损失值生成单元，用于基于所述样本文本提示特征和所述文本重组的样本视觉提示特征，得到所述交叉损失值。

32.根据权利要求29-31中任一项所述的装置，其中，所述损失值生成子模块包括：

未对齐文本标记生成单元，用于基于所述样本任务提示标记特征和预定样本类别标记向量，得到未对齐样本文本提示标记特征；

未对齐文本提示生成单元，用于对所述未对齐样本文本提示标记特征进行文本编码，得到未对齐样本文本提示特征；

第一损失值生成单元，用于基于所述样本图像特征和所述未对齐样本文本提示特征，得到第一交叉损失值；

第二损失值生成单元，用于基于所述样本文本提示特征和所述样本图像特征，得到第二交叉损失值；

第三损失值生成单元，用于基于所述样本文本提示特征和所述文本重组的样本视觉提示特征，得到第三交叉损失值；以及

交叉损失值生成单元，用于基于所述第一交叉损失值、所述第二交叉损失值和所述第三交叉损失值，得到所述交叉损失值。

33.一种电子设备，包括：

至少一个处理器；以及

与所述至少一个处理器通信连接的存储器；其中，

所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行权利要求1至1 6中任一项所述的方法。

34.一种存储有计算机指令的非瞬时计算机可读存储介质，其中，所述计算机指令用于使所述计算机执行根据权利要求1至16中任一项所述的方法。

35.一种计算机程序产品，包括计算机程序，所述计算机程序在被处理器执行时实现根据权利要求1至16中任一项所述的方法。