CN117576465A

CN117576465A - 图像分类方法和设备

Info

Publication number: CN117576465A
Application number: CN202311551343.2A
Authority: CN
Inventors: 周叶江; 莫琪
Original assignee: Avatr Technology Chongqing Co Ltd
Current assignee: Avatr Technology Chongqing Co Ltd
Priority date: 2023-11-20
Filing date: 2023-11-20
Publication date: 2024-02-20

Abstract

本申请提供一种图像分类方法和设备，可用于图像处理技术领域。该方法包括：获取待分类图像和待分类图像的至少一个图像信息；根据待分类图像和至少一个图像信息，确定待分类图像的特征描述向量；根据待分类图像和特征描述向量，确定并输出待分类图像的图像类别。本申请的方法，可以提高图像分类的准确性。

Description

图像分类方法和设备

技术领域

本申请涉及图像处理技术领域，尤其涉及一种图像分类方法和设备。

背景技术

随着图像处理技术的不断发展，图像处理技术被广泛用来解决各种问题，例如，通过图像处理技术实现图像分类。

现有技术中，可以图像本身进行分类处理，以得到图像的类别。

但上述方式中，仅通过对图像本身进行处理，以得到图像的类别，这样的方式由于所获取到的信息不足，导致分类结果并不准确；进而，导致图像类别判断错误，进而影响图像分类的准确性。

发明内容

本申请提供一种图像分类方法和设备，用以解决的问题。

第一方面，本申请提供一种图像分类方法，所述方法包括：

获取待分类图像和所述待分类图像的至少一个图像信息；其中，所述图像信息中包括描述文本，所述描述文本表征对图像的描述的文本内容；

根据所述待分类图像和所述至少一个图像信息，确定所述待分类图像的特征描述向量，其中，所述特征描述向量中包括至少一个细节描述信息，所述细节描述信息表征待分类图像的细节内容；

根据所述待分类图像和所述特征描述向量，确定并输出所述待分类图像的图像类别。

一个示例中，根据所述待分类图像和所述至少一个图像信息，确定所述待分类图像的特征描述向量，包括：

根据所述待分类图像和所述图像信息，生成与所述图像信息对应的扩展描述信息集合；其中，所述扩展描述信息集合包括至少一个扩展描述文本，所述扩展描述文本表征针对图像信息所描述的文本内容的细节属性；

根据各所述扩展描述信息集合，确定所述特征描述向量。

一个示例中，根据各所述扩展描述信息集合，确定所述特征描述向量，包括：

对所述扩展描述信息集合进行编码处理，得到所述扩展描述信息集合对应的特征矩阵集合；其中，所述特征矩阵集合中包括与扩展描述信息集合中的每一扩展描述文本对应的描述特征矩阵，所述描述特征矩阵用于表征扩展描述文本；

根据各所述特征矩阵集合，确定所述特征描述向量。

一个示例中，根据各所述特征矩阵集合，确定所述特征描述向量，包括：

基于预设的自注意力模型，对所述特征矩阵集合进行拟合处理，得到与所述特征矩阵集合对应的自注意力矩阵；其中，所述自注意力矩阵表征针对图像信息所描述的文本内容的细节属性；

根据所述特征矩阵集合和所述特征矩阵集合对应的自注意力矩阵，确定所述特征描述向量中与特征矩阵集合对应的细节描述信息。

一个示例中，根据所述特征矩阵集合和所述特征矩阵集合对应的自注意力矩阵，确定所述特征描述向量中与特征矩阵集合对应的细节描述信息，包括：

根据预设超参数，对所述特征矩阵集合和所述特征矩阵集合对应的自注意力矩阵进行处理，得到与所述特征矩阵集合对应的拟合矩阵集合；其中，所述拟合矩阵集合包括与特征矩阵集合中的描述特征矩阵对应的拟合矩阵；所述拟合矩阵表征针对图像信息所描述的文本内容的细节属性；

对与所述特征矩阵集合对应的拟合矩阵集合中的各拟合矩阵进行均值计算处理，得到所述特征描述向量中与特征矩阵集合对应的细节描述信息。

一个示例中，所述拟合矩阵集合中第i个拟合矩阵为M_i＝β·N+(1-β)K_i；其中，β为所述预设超参数，K_i为所述特征矩阵集合中的第i个描述特征矩阵，N为与特征矩阵集合对应的自注意力矩阵；i为大于或者等于1的正整数。

对所述特征矩阵集合进行聚类处理，以剔除所述特征矩阵集合中的离散的描述特征矩阵，得到处理之后的特征矩阵集合；

基于预设的自注意力模型，对所述处理之后的特征矩阵集合进行拟合处理，得到所述特征描述向量中与特征矩阵集合对应的细节描述信息。

一个示例中，所述图像信息中还包括至少一个问题信息，所述问题信息表征针对图像信息中的描述文本的问题；

根据所述待分类图像和所述图像信息，生成与所述图像信息对应的扩展描述信息集合，包括：

基于预设模型对所述待分类图像进行识别，得到图像识别信息；其中，所述图像识别信息表征待分类图像的特征；

基于预设模型对图像识别信息对所述图像信息中的问题信息进行处理，得到与所述图像信息中的问题信息对应的回复文本；

基于所述问题信息中的描述文本和各所述回复文本，生成与所述图像信息对应的扩展描述信息集合。

一个示例中，根据所述待分类图像和所述图像信息，生成与所述图像信息对应的扩展描述信息集合，包括：

对所述图像信息中的描述文本进行特征提取处理，得到与所述图像信息对应的关键特征信息；其中，所述关键特征信息表征描述文本的关键词；

对与所述图像信息对应的关键特征信息进行文本拓展处理，得到与所述图像信息对应的扩展描述信息集合。

一个示例中，对与所述图像信息对应的关键特征信息进行文本拓展处理，得到与所述图像信息对应的扩展描述信息集合，包括：

从预设数据库中提取与所述图像信息对应的关键特征信息所匹配的文本；其中，所述预设数据库中包括多个文本；

根据所述图像信息中的描述文本和所匹配到的文本，生成与所述图像信息对应的扩展描述信息集合。

一个示例中，根据所述待分类图像和所述特征描述向量，确定并输出所述待分类图像的图像类别，包括：

对所述待分类图像进行特征提取处理，得到图像特征向量；

根据所述图像特征向量和所述特征描述向量，确定并输出所述待分类图像的图像类别。

一个示例中，根据所述图像特征向量和所述特征描述向量，确定并输出所述待分类图像的图像类别，包括：

针对所述特征描述向量中的每一细节描述信息，对所述图像特征向量和该细节描述信息进行相似度计算处理，得到与该细节描述信息对应的相似度信息；所述相似度信息表征图像特征向量与细节描述信息之间的相似度；

根据各所述相似度信息，确定并输出所述待分类图像的图像类别。

一个示例中，所述细节描述信息具有类别标签；根据各所述相似度信息，确定并输出所述待分类图像的图像类别，包括：

对各所述相似度信息进行归一化处理，得到各归一化后的相似度信息；

确定各归一化后的相似度信息中的最大值，并确定该最大值对应的细节描述信息所归属的类别标签，为所述待分类图像的图像类别；并输出所述待分类图像的图像类别。

第二方面，本申请提供一种装置，所述装置包括：

获取单元，用于获取待分类图像和所述待分类图像的至少一个图像信息；其中，所述图像信息中包括描述文本，所述描述文本表征对图像的描述的文本内容；

确定单元，用于根据所述待分类图像和所述至少一个图像信息，确定所述待分类图像的特征描述向量，其中，所述特征描述向量中包括至少一个细节描述信息，所述细节描述信息表征待分类图像的细节内容；

输出单元，用于根据所述待分类图像和所述特征描述向量，确定并输出所述待分类图像的图像类别。

一个示例中，所述确定单元，包括：

生成子单元，用于根据所述待分类图像和所述图像信息，生成与所述图像信息对应的扩展描述信息集合；其中，所述扩展描述信息集合包括至少一个扩展描述文本，所述扩展描述文本表征针对图像信息所描述的文本内容的细节属性；

确定子单元，用于根据各所述扩展描述信息集合，确定所述特征描述向量。

一个示例中，所述确定子单元，包括：

编码模块，用于对所述扩展描述信息集合进行编码处理，得到所述扩展描述信息集合对应的特征矩阵集合；其中，所述特征矩阵集合中包括与扩展描述信息集合中的每一扩展描述文本对应的描述特征矩阵，所述描述特征矩阵用于表征扩展描述文本；

确定模块，用于根据各所述特征矩阵集合，确定所述特征描述向量。

一个示例中，所述确定模块，包括：

第一拟合子模块，用于基于预设的自注意力模型，对所述特征矩阵集合进行拟合处理，得到与所述特征矩阵集合对应的自注意力矩阵；其中，所述自注意力矩阵表征针对图像信息所描述的文本内容的细节属性；

确定子模块，用于根据所述特征矩阵集合和所述特征矩阵集合对应的自注意力矩阵，确定所述特征描述向量中与特征矩阵集合对应的细节描述信息。

一个示例中，所述确定子模块，具体用于：

一个示例中，所述确定模块，包括：

处理子模块，用于对所述特征矩阵集合进行聚类处理，以剔除所述特征矩阵集合中的离散的描述特征矩阵，得到处理之后的特征矩阵集合；

第二拟合子模块，用于基于预设的自注意力模型，对所述处理之后的特征矩阵集合进行拟合处理，得到所述特征描述向量中与特征矩阵集合对应的细节描述信息。

所述生成子单元，包括：

识别模块，用于基于预设模型对所述待分类图像进行识别，得到图像识别信息；其中，所述图像识别信息表征待分类图像的特征；

第一处理模块，用于基于预设模型对图像识别信息对所述图像信息中的问题信息进行处理，得到与所述图像信息中的问题信息对应的回复文本；

生成模块，用于基于所述问题信息中的描述文本和各所述回复文本，生成与所述图像信息对应的扩展描述信息集合。

一个示例中，所述生成子单元，包括：

提取模块，用于对所述图像信息中的描述文本进行特征提取处理，得到与所述图像信息对应的关键特征信息；其中，所述关键特征信息表征描述文本的关键词；

拓展模块，用于对与所述图像信息对应的关键特征信息进行文本拓展处理，得到与所述图像信息对应的扩展描述信息集合。

一个示例中，所述拓展模块，包括：

提取子模块，用于从预设数据库中提取与所述图像信息对应的关键特征信息所匹配的文本；其中，所述预设数据库中包括多个文本；

生成子模块，用于根据所述图像信息中的描述文本和所匹配到的文本，生成与所述图像信息对应的扩展描述信息集合。

一个示例中，所述输出单元，包括：

处理子单元，用于对所述待分类图像进行特征提取处理，得到图像特征向量；

输出子单元，用于根据所述图像特征向量和所述特征描述向量，确定并输出所述待分类图像的图像类别。

一个示例中，所述输出子单元，包括：

第二处理模块，用于针对所述特征描述向量中的每一细节描述信息，对所述图像特征向量和该细节描述信息进行相似度计算处理，得到与该细节描述信息对应的相似度信息；所述相似度信息表征图像特征向量与细节描述信息之间的相似度；

输出模块，用于根据各所述相似度信息，确定并输出所述待分类图像的图像类别。

一个示例中，所述细节描述信息具有类别标签；所述输出模块，包括：

第二处理子模块，用于对各所述相似度信息进行归一化处理，得到各归一化后的相似度信息；

输出子模块，用于确定各归一化后的相似度信息中的最大值，并确定该最大值对应的细节描述信息所归属的类别标签，为所述待分类图像的图像类别；并输出所述待分类图像的图像类别。

第三方面，本申请提供一种电子设备，包括：处理器，以及与所述处理器通信连接的存储器；

所述存储器存储计算机执行指令；

所述处理器执行所述存储器存储的计算机执行指令，以实现第一方面所述的方法。

第四方面，本申请提供一种计算机可读存储介质，所述计算机可读存储介质中存储有计算机执行指令，所述计算机执行指令被处理器执行时用于实现第一方面所述的方法。

第五方面，本申请提供一种计算机程序产品，所述计算机程序产品包括：计算机程序，所述计算机程序存储在可读存储介质中，电子设备的至少一个处理器可以从所述可读存储介质读取所述计算机程序，所述至少一个处理器执行所述计算机程序，使得电子设备执行第一方面所述的方法。

本申请提供的图像分类方法和设备，通过基于图像的原描述，生成图像的细节描述的信息，对图像的细节描述的信息和图像进行处理，输出图像的类别；进而，提高图像分类的准确性。

附图说明

此处的附图被并入说明书中并构成本说明书的一部分，示出了符合本申请的实施例，并与说明书一起用于解释本申请的原理。

图1为本申请提供的一种应用场景示意图；

图2为本申请实施例提供的一种图像分类方法的流程示意图；

图3为本申请实施例提供的另一种图像分类方法的流程示意图；

图4为本申请实施例提供的一种文本信息扩展过程的示意图；

图5为本申请实施例提供的一种多模态大模型处理过程的示意图；

图6为本申请实施例提供的一种图像分类装置的结构示意图；

图7为本申请实施例提供的另一种图像分类装置的结构示意图；

图8为本申请实施例提供的一种电子设备的结构示意图；

图9为根据一示例性实施例示出的一种电子设备的框图。

通过上述附图，已示出本申请明确的实施例，后文中将有更详细的描述。这些附图和文字描述并不是为了通过任何方式限制本申请构思的范围，而是通过参考特定实施例为本领域技术人员说明本申请的概念。

具体实施方式

这里将详细地对示例性实施例进行说明，其示例表示在附图中。下面的描述涉及附图时，除非另有表示，不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本申请相一致的所有实施方式。相反，它们仅是与如所附权利要求书中所详述的、本申请的一些方面相一致的装置和方法的例子。

图1为本申请提供的一种应用场景示意图。如图1所示，该场景中包括电子设备101和用户102。用户102在对图像进行分类时，将图像以及相关的图像信息内容输入至电子设备101中，电子设备101接收到图像以及相关的图像信息内容，并对图像以及相关的图像信息内容进行处理，输出图像的类别。

一个示例中，可以图像本身进行分类处理，以得到图像的类别。

本申请提供的图像分类方法和设备，旨在解决现有技术的如上技术问题。

需要说明的是，本申请所涉及的用户信息(包括但不限于用户设备信息、用户个人信息等)和数据(包括但不限于用于分析的数据、存储的数据、展示的数据等)，均为经用户授权或者经过各方充分授权的信息和数据，并且相关数据的收集、使用和应用于车辆的开门控制需要遵守相关法律法规和标准，并提供有相应的操作入口，供用户选择授权或者拒绝。

需要说明的是，本申请图像分类方法和设备可用于图像处理技术领域，也可用于除图像处理技术领域之外的任意领域，本申请图像分类方法和设备的应用领域不做限定。

下面以具体地实施例对本申请的技术方案以及本申请的技术方案如何解决上述技术问题进行详细说明。下面这几个具体的实施例可以相互结合，对于相同或相似的概念或过程可能在某些实施例中不再赘述。下面将结合附图，对本申请的实施例进行描述。

图2为本申请实施例提供的一种图像分类方法的流程示意图，如图2所示，该方法包括：

S101、获取待分类图像和待分类图像的至少一个图像信息；其中，图像信息中包括描述文本，描述文本表征对图像的描述的文本内容。

示例性地，本实施例的执行主体可以是电子设备。首先，当用户需要对图像进行分类处理时，可以通过用户的输入操作，或者从预设的图像数据库中，获取需要分类的待分类图像，以及获取该需要分类的待分类图像的多个图像信息，包括表征对图像的描述的文本内容的描述文本，以待处理。

S102、根据待分类图像和至少一个图像信息，确定待分类图像的特征描述向量，其中，特征描述向量中包括至少一个细节描述信息，细节描述信息表征待分类图像的细节内容。

示例性地，根据获取到的待分类图像和待分类图像的多个图像信息，通过图像识别和文本识别技术，对获取到的待分类图像和待分类图像的多个图像信息中的描述文本进行特征融合处理，得到待分类图像的多个图像信息所对应的特征描述向量，该特征描述向量包括一个或者多个细节描述信息，每一个细节描述信息表征待分类图像的细节内容。

S103、根据待分类图像和特征描述向量，确定并输出待分类图像的图像类别。

示例性地，根据已得到的待分类图像的特征描述向量和获取的待分类图像，对待分类图像和待分类图像的特征描述向量，进行融合处理，比如可以通过图像处理技术或者已经训练好的预设的分类模型，确定待分类图像的图像类别，并将该待分类图像的图像类别进行输出，比如通过电子设备的显示功能如显示屏，使得用户能够得到准确的待分类图像的类别。

本实施例中，提供了一种图像分类方法，通过基于图像的原描述，生成图像的细节描述的信息，对图像的细节描述的信息和图像进行处理，输出图像的类别；进而，提高图像分类的准确性。

图3为本申请实施例提供的另一种图像分类方法的流程示意图，如图3所示，该方法包括：

S201、获取待分类图像和待分类图像的至少一个图像信息；其中，图像信息中包括描述文本，描述文本表征对图像的描述的文本内容。

示例性地，参见步骤S101中的内容，此处不再赘述。

S202、根据待分类图像和图像信息，生成与图像信息对应的扩展描述信息集合；其中，扩展描述信息集合包括至少一个扩展描述文本，扩展描述文本表征针对图像信息所描述的文本内容的细节属性。

示例性地，针对每一个待分类图像的描述文本，通过提示工程技术，对待分类图像和每一个待分类图像的描述文本进行融合处理，得到针对图像信息所描述的文本内容的细节属性，整理得到与每一个待分类图像的图像信息对应的扩展描述信息集合，其中，扩展描述信息集合包括一个或者多个扩展描述文本，以表征针对图像信息所描述的文本内容的细节属性。

一个示例中，图像信息中还包括至少一个问题信息，问题信息表征针对图像信息中的描述文本的问题；步骤S202包括：

步骤S202的第一步骤、基于预设模型对待分类图像进行识别，得到图像识别信息；其中，图像识别信息表征待分类图像的特征。

步骤S202的第二步骤、基于预设模型对图像识别信息对图像信息中的问题信息进行处理，得到与图像信息中的问题信息对应的回复文本。

步骤S202的第三步骤、基于问题信息中的描述文本和各回复文本，生成与图像信息对应的扩展描述信息集合。

示例性地，图4为本申请实施例提供的一种文本信息扩展过程的示意图，如图4所示，为了得到更为丰富、详细的图像的相关信息，电子设备预先设置已训练好的预设模型，比如基于提示工程prompt engineering的深度学习模型，调用该预设模型，将待分类图像输入至该预设模型中，基于预设模型对该待分类图像进行识别，得到表征待分类图像的特征的图像识别信息。已获取的每一图像信息中还包括一个或者多个问题信息，其中，问题信息表征针对每一图像信息中的描述文本的问题，比如“请总结出20条关于这张图像的描述”，提取得到每一图像信息中包括的问题信息，并将与每一图像信息中包括的问题信息，输入至预设模型中，基于预设模型，对每一图像信息中包括的问题信息和图像识别信息进行处理，输出与每一图像信息中的问题信息对应的回复文本，比如“一条黄色的鸟”、“一只鸟站在树枝上”、…、“一只鸟，嘴巴为红色，整体偏黄”等文本信息。根据得到的各回复文本以及问题信息中的描述文本，通过文本处理技术，对各回复文本以及问题信息中的描述文本进行融合处理，得到与每一图像信息对应的扩展描述信息集合。

一个示例中，步骤S202包括：

步骤S202的第四步骤、对图像信息中的描述文本进行特征提取处理，得到与图像信息对应的关键特征信息；其中，关键特征信息表征描述文本的关键词。

步骤S202的第五步骤、对与图像信息对应的关键特征信息进行文本拓展处理，得到与图像信息对应的扩展描述信息集合。

示例性地，除了通过预设模型得到与每一图像信息对应的扩展描述信息集合之外，还可以通过预设的文本处理规则，对每一图像信息中的描述文本进行特征提取处理，得到与每一图像信息对应的关键特征信息，以表征描述文本的关键词，比如对“一只黄鹂鸟的照片”这一图像信息中的描述文本进行处理，得到对应的关键特征信息为“黄鹂鸟”。基于预设的文本处理规则，对与每一图像信息对应的关键特征信息进行文本拓展处理，得到扩展描述文本，比如，“黄鹂鸟”拓展为“黄色的黄鹂鸟”“黄鹂鸟的嘴巴是红色的”等扩展描述文本，进而整理得到与每一图像信息对应的扩展描述信息集合。

一个示例中，步骤S202的第五步骤包括：

步骤一、从预设数据库中提取与图像信息对应的关键特征信息所匹配的文本；其中，预设数据库中包括多个文本。

步骤二、根据图像信息中的描述文本和所匹配到的文本，生成与图像信息对应的扩展描述信息集合。

具体地，基于预设的文本处理规则进行文本拓展处理时，调取预设数据库，该预设数据库中包括多个文本，从预设数据库中提取与图像信息对应的关键特征信息所匹配的文本，将图像信息中的描述文本与提取到的关键特征信息所匹配的文本，进行组合、拼接，得到扩展描述文本，进而整理得到与每一图像信息对应的扩展描述信息集合。

S203、根据各扩展描述信息集合，确定特征描述向量。

示例性地，根据得到的与每一图像信息对应的扩展描述信息集合，基于预设的文本处理技术，对所有的扩展描述信息集进行向量转换和特征融合处理，得到携带了待分类图像的细节信息的特征描述向量，比如，有P个扩展描述信息集合，每一扩展描述信息集合包括S个扩展描述文本，经过处理后，得到包括P个待分类图像的细节信息的特征描述向量。

一个示例中，步骤S203包括：

步骤S203的第一步骤、对扩展描述信息集合进行编码处理，得到扩展描述信息集合对应的特征矩阵集合；其中，特征矩阵集合中包括与扩展描述信息集合中的每一扩展描述文本对应的描述特征矩阵，描述特征矩阵用于表征扩展描述文本。

步骤S203的第二步骤、根据各特征矩阵集合，确定特征描述向量。

示例性地，根据得到的与每一图像信息对应的扩展描述信息集合，基于调取预设的文本编码器Text encoder，将得到的与每一扩展描述信息集合输入到预设的文本编码器中，对每一扩展描述信息集合中的每一扩展描述文本进行编码处理，得到与扩展描述信息集合中的每一扩展描述文本对应的描述特征矩阵，比如A个扩展描述信息集合，每一扩展描述信息集合中包括B条扩展描述文本，则有A*B条扩展描述文本，对应得到A*B个三维矩阵，以表征扩展描述文本，进一步对各个描述特征矩阵整理，得到每一扩展描述信息集合中对应的特征矩阵集合。基于特征矩阵处理技术，对各个已得到的特征矩阵集合进行计算处理，得到待分类图像的细节信息的特征描述向量。

一个示例中，步骤S203的第二步骤包括：

步骤一、基于预设的自注意力模型，对特征矩阵集合进行拟合处理，得到与特征矩阵集合对应的自注意力矩阵；其中，自注意力矩阵表征针对图像信息所描述的文本内容的细节属性。

步骤二、根据特征矩阵集合和特征矩阵集合对应的自注意力矩阵，确定特征描述向量中与特征矩阵集合对应的细节描述信息。

示例性地，为了得到更准确的待分类图像的细节信息，可以预先设置一个自注意力模型，调取该预设的自注意力模型，将每一个特征矩阵集合输入到该预设的自注意力模型中，针对每一个特征矩阵集合，该预设的自注意力模型对每一特征矩阵集合中的所有的描述特征矩阵进行拟合处理，输出与每一特征矩阵集合对应的自注意力矩阵，以表征针对图像信息所描述的文本内容的细节属性。通过预设的算法，针对每一特征矩阵集合，对每一特征矩阵集合和得到的每一特征矩阵集合对应的自注意力矩阵进行矩阵计算处理，得到与每一特征矩阵集合对应的细节描述信息，进而得到包括所有细节描述信息的特征描述向量。

一个示例中，步骤S203的第二步骤中的步骤二，包括：

步骤一、根据预设超参数，对特征矩阵集合和特征矩阵集合对应的自注意力矩阵进行处理，得到与特征矩阵集合对应的拟合矩阵集合；其中，拟合矩阵集合包括与特征矩阵集合中的描述特征矩阵对应的拟合矩阵；拟合矩阵表征针对图像信息所描述的文本内容的细节属性。

步骤二、对与特征矩阵集合对应的拟合矩阵集合中的各拟合矩阵进行均值计算处理，得到特征描述向量中与特征矩阵集合对应的细节描述信息。

一个示例中，拟合矩阵集合中第i个拟合矩阵为M_i＝β·N+(1-β)K_i；其中，β为预设超参数，K_i为特征矩阵集合中的第i个描述特征矩阵，N为与特征矩阵集合对应的自注意力矩阵；i为大于或者等于1的正整数。

具体地，为了避免对每一特征矩阵集合中的所有的描述特征矩阵进行过拟合，在进行矩阵计算处理中，引入了预先设置的参数，即预设超参数，通过预设超参数以及预设的算法，对每一特征矩阵集合和得到的每一特征矩阵集合对应的自注意力矩阵进行矩阵计算处理，即针对每一特征矩阵集合，对该特征矩阵集合中的每一描述特征矩阵、以及该特征矩阵集合对应的自注意力矩阵进行计算处理，对得到与该特征矩阵集合中的每一描述特征矩阵对应的拟合矩阵，以表征针对图像信息所描述的文本内容的细节属性，进而对每一特征矩阵集合中的拟合矩阵整理，得到与每一特征矩阵集合对应的拟合矩阵集合。其中，可以通过计算公式M_i＝β·N+(1-β)K_i；其中，β为预设超参数，K_i为特征矩阵集合中的第i个描述特征矩阵，N为与特征矩阵集合对应的自注意力矩阵；i为大于或者等于1的正整数。

一个示例中，步骤S203的第二步骤，还包括：

步骤一、对特征矩阵集合进行聚类处理，以剔除特征矩阵集合中的离散的描述特征矩阵，得到处理之后的特征矩阵集合。

步骤二、基于预设的自注意力模型，对处理之后的特征矩阵集合进行拟合处理，得到特征描述向量中与特征矩阵集合对应的细节描述信息。

示例性地，为了得到更准确的待分类图像的细节信息，除了引入参数防止过拟合以外，还可以通过预设的聚类算法，对每一特征矩阵集合中的描述特征矩阵进行聚类处理，得到每一特征矩阵集合中的离散的描述特征矩阵，并将每一特征矩阵集合中的离散的描述特征矩阵进行剔除处理，得到对应的每一个处理之后的特征矩阵集合。调取预设的自注意力模型，将得到的每一个处理之后的特征矩阵集输入至预设的自注意力模型中，基于预设的自注意力模型，对每一个处理之后的特征矩阵集合进行拟合处理，得到对每一特征矩阵集合中的所有的描述特征矩阵进行拟合处理，输出得到与每一特征矩阵集合对应的细节描述信息，进而得到包括所有细节描述信息的特征描述向量。

S204、对待分类图像进行特征提取处理，得到图像特征向量。

示例性地，根据获取的待分类图像，可以通过预设的图像处理模型或者基于图像编码器Image Encoder，将获取的待分类图像输入至预设的图像处理模型，或者图像编码器中，对待分类图像进行特征提取处理，得到图像特征向量。

S205、根据图像特征向量和特征描述向量，确定并输出待分类图像的图像类别。

示例性地，图5为本申请实施例提供的一种多模态大模型处理过程的示意图，如图5所示，根据得到的待分类图像的图像特征向量和待分类图像的特征描述向量，对待分类图像的图像特征向量和待分类图像的特征描述向量进行处理，比如将图像特征向量和特征描述向量输入预设的多模态大模型，文本-图像对CLIP(Contrastive Language-Image Pre-training)模型，进一步确定出待分类图像的图像类别，并输出已确定的待分类图像的图像类别。

一个示例中，步骤S205包括：

步骤S205的第一步骤、针对特征描述向量中的每一细节描述信息，对图像特征向量和该细节描述信息进行相似度计算处理，得到与该细节描述信息对应的相似度信息；相似度信息表征图像特征向量与细节描述信息之间的相似度。

步骤S205的第二步骤、根据各相似度信息，确定并输出待分类图像的图像类别。

示例性地，针对待分类图像的特征描述向量中的每一细节描述信息，对待分类图像的图像特征向量和每一细节描述信息进行相似度计算处理，比如可以计算在多维空间里图像特征向量和每一细节描述信息这二者之间的欧氏距离、或者余弦相似度，进而得到图像特征向量和每一细节描述信息之间的相似度，即每一细节描述信息对应的相似度信息，以表征图像特征向量与该细节描述信息之间的相似度。根据得到的各个细节描述信息对应的相似度信息，基于预设算法，对各个相似度信息进行计算处理，得到各个相似度信息对应的计算结果，比如计算各个相似度信息之间的均值，并对该计算结果进行分析，进而得到待分类图像的图像类别，将得到的待分类图像的图像类别输出，比如通过电子设备的显示功能如显示屏，使得用户能够得到准确的待分类图像的类别。

一个示例中，细节描述信息具有类别标签；根据各相似度信息，确定并输出待分类图像的图像类别，步骤S205的第二步骤包括：

步骤一、对各相似度信息进行归一化处理，得到各归一化后的相似度信息。

步骤二、确定各归一化后的相似度信息中的最大值，并确定该最大值对应的细节描述信息所归属的类别标签，为待分类图像的图像类别；并输出待分类图像的图像类别。

具体地，基于预设的映射操作mapping，将特征描述向量中的每一细节描述信息与类别标签之间进行映射，即每一细节描述信息具有类别标签，进而，在处理各个相似度信息时，先基于预设的归一化计算方法，对各相似度信息进行归一化处理，得到各个归一化后的相似度信息，在从各归一化后的相似度信息中，确定出最大值，根据该最大值，从各个细节描述信息中，确定出与该最大值所对应的细节描述信息，基于预设的映射操作，根据与该最大值所对应的细节描述信息，确定出与该最大值所对应的细节描述信息所归属的类别标签，并将该类别标签，确定为待分类图像的图像类别，将得到的待分类图像的图像类别输出，使得用户能够得到准确的待分类图像的类别。

本实施例中，在上述实施例的基础上，一方面，通过基于图像的原描述，生成图像的细节描述的信息，对图像的细节描述的信息和图像进行处理，输出图像的类别；进而，提高图像分类的准确性；另一方面，通过根据图像的原文本描述和图像，得到图像的细节属性的扩展描述，根据图像的细节属性的扩展描述，确定出图像的细节描述的信息，对图像的细节描述的信息和图像进行处理，输出图像的类别；进而，丰富图像的描述信息，以提高图像分类的准确性。

图6为本申请实施例提供的一种图像分类装置的结构示意图，如图6所示，该装置300包括：

获取单元301，用于获取待分类图像和待分类图像的至少一个图像信息；其中，图像信息中包括描述文本，描述文本表征对图像的描述的文本内容。

确定单元302，用于根据待分类图像和至少一个图像信息，确定待分类图像的特征描述向量，其中，特征描述向量中包括至少一个细节描述信息，细节描述信息表征待分类图像的细节内容。

输出单元303，用于根据待分类图像和特征描述向量，确定并输出待分类图像的图像类别。

本实施例的装置，可以执行上述方法中的技术方案，其具体实现过程和技术原理相同，此处不再赘述。

图7为本申请实施例提供的另一种图像分类装置的结构示意图，如图7所示，该装置400包括：

获取单元401，用于获取待分类图像和待分类图像的至少一个图像信息；其中，图像信息中包括描述文本，描述文本表征对图像的描述的文本内容。

确定单元402，用于根据待分类图像和至少一个图像信息，确定待分类图像的特征描述向量，其中，特征描述向量中包括至少一个细节描述信息，细节描述信息表征待分类图像的细节内容。

输出单元403，用于根据待分类图像和特征描述向量，确定并输出待分类图像的图像类别。

一个示例中，确定单元402，包括：

生成子单元4021，用于根据待分类图像和图像信息，生成与图像信息对应的扩展描述信息集合；其中，扩展描述信息集合包括至少一个扩展描述文本，扩展描述文本表征针对图像信息所描述的文本内容的细节属性。

确定子单元4022，用于根据各扩展描述信息集合，确定特征描述向量。

一个示例中，确定子单元4022，包括：

编码模块，用于对扩展描述信息集合进行编码处理，得到扩展描述信息集合对应的特征矩阵集合；其中，特征矩阵集合中包括与扩展描述信息集合中的每一扩展描述文本对应的描述特征矩阵，描述特征矩阵用于表征扩展描述文本。

确定模块，用于根据各特征矩阵集合，确定特征描述向量。

一个示例中，确定模块，包括：

第一拟合子模块，用于基于预设的自注意力模型，对特征矩阵集合进行拟合处理，得到与特征矩阵集合对应的自注意力矩阵；其中，自注意力矩阵表征针对图像信息所描述的文本内容的细节属性。

确定子模块，用于根据特征矩阵集合和特征矩阵集合对应的自注意力矩阵，确定特征描述向量中与特征矩阵集合对应的细节描述信息。

一个示例中，确定子模块，具体用于：

根据预设超参数，对特征矩阵集合和特征矩阵集合对应的自注意力矩阵进行处理，得到与特征矩阵集合对应的拟合矩阵集合；其中，拟合矩阵集合包括与特征矩阵集合中的描述特征矩阵对应的拟合矩阵；拟合矩阵表征针对图像信息所描述的文本内容的细节属性。

对与特征矩阵集合对应的拟合矩阵集合中的各拟合矩阵进行均值计算处理，得到特征描述向量中与特征矩阵集合对应的细节描述信息。

一个示例中，确定模块，包括：

第一处理子模块，用于对特征矩阵集合进行聚类处理，以剔除特征矩阵集合中的离散的描述特征矩阵，得到处理之后的特征矩阵集合。

第二拟合子模块，用于基于预设的自注意力模型，对处理之后的特征矩阵集合进行拟合处理，得到特征描述向量中与特征矩阵集合对应的细节描述信息。

一个示例中，图像信息中还包括至少一个问题信息，问题信息表征针对图像信息中的描述文本的问题。

生成子单元4021，包括：

识别模块，用于基于预设模型对待分类图像进行识别，得到图像识别信息；其中，图像识别信息表征待分类图像的特征。

第一处理模块，用于基于预设模型对图像识别信息对图像信息中的问题信息进行处理，得到与图像信息中的问题信息对应的回复文本。

生成模块，用于基于问题信息中的描述文本和各回复文本，生成与图像信息对应的扩展描述信息集合。

一个示例中，生成子单元4021，包括：

提取模块，用于对图像信息中的描述文本进行特征提取处理，得到与图像信息对应的关键特征信息；其中，关键特征信息表征描述文本的关键词。

拓展模块，用于对与图像信息对应的关键特征信息进行文本拓展处理，得到与图像信息对应的扩展描述信息集合。

一个示例中，拓展模块，包括：

提取子模块，用于从预设数据库中提取与图像信息对应的关键特征信息所匹配的文本；其中，预设数据库中包括多个文本。

生成子模块，用于根据图像信息中的描述文本和所匹配到的文本，生成与图像信息对应的扩展描述信息集合。

一个示例中，输出单元403，包括：

处理子单元4031，用于对待分类图像进行特征提取处理，得到图像特征向量。

输出子单元4032，用于根据图像特征向量和特征描述向量，确定并输出待分类图像的图像类别。

一个示例中，输出子单元4032，包括：

第二处理模块，用于针对特征描述向量中的每一细节描述信息，对图像特征向量和该细节描述信息进行相似度计算处理，得到与该细节描述信息对应的相似度信息；相似度信息表征图像特征向量与细节描述信息之间的相似度；

输出模块，用于根据各相似度信息，确定并输出待分类图像的图像类别。

一个示例中，细节描述信息具有类别标签；输出模块，包括：

第二处理子模块，用于对各相似度信息进行归一化处理，得到各归一化后的相似度信息。

输出子模块，用于确定各归一化后的相似度信息中的最大值，并确定该最大值对应的细节描述信息所归属的类别标签，为待分类图像的图像类别；并输出待分类图像的图像类别。

图8为本申请实施例提供的一种电子设备的结构示意图，如图8所示，电子设备500包括：存储器501，处理器502；存储器501；用于存储处理器502可执行指令的存储器。

其中，处理器502被配置为执行如上述实施例提供的方法。

电子设备500还包括接收器503和发送器504。接收器503用于接收其他设备发送的指令和数据，发送器504用于向外部设备发送指令和数据。

图9是根据一示例性实施例示出的一种电子设备的框图，如图9所示，该电子设备800可以是移动电话，计算机，数字广播终端，消息收发设备，游戏控制台，平板设备，医疗设备，健身设备，个人数字助理等。

电子设备800可以包括以下一个或多个组件：处理组件802，存储器804，电源组件806，多媒体组件808，音频组件810，输入/输出接口812，传感器组件814，以及通信组件816。

处理组件802通常控制电子设备800的整体操作，诸如与显示，电话呼叫，数据通信，相机操作和记录操作相关联的操作。处理组件802可以包括一个或多个处理器820来执行指令，以完成上述的方法的全部或部分步骤。此外，处理组件802可以包括一个或多个模块，便于处理组件802和其他组件之间的交互。例如，处理组件802可以包括多媒体模块，以方便多媒体组件808和处理组件802之间的交互。

存储器804被配置为存储各种类型的数据以支持在电子设备800的操作。这些数据的示例包括用于在电子设备800上操作的任何应用程序或方法的指令，联系人数据，电话簿数据，消息，图片，视频等。存储器804可以由任何类型的易失性或非易失性存储设备或者它们的组合实现，如静态随机存取存储器，电可擦除可编程只读存储器，可擦除可编程只读存储器，可编程只读存储器，只读存储器，磁存储器，快闪存储器，磁盘或光盘。

电源组件806为电子设备800的各种组件提供电力。电源组件806可以包括电源管理系统，一个或多个电源，及其他与为电子设备800生成、管理和分配电力相关联的组件。

多媒体组件808包括在电子设备800和用户之间的提供一个输出接口的屏幕。在一些实施例中，屏幕可以包括液晶显示器和触摸面板。如果屏幕包括触摸面板，屏幕可以被实现为触摸屏，以接收来自用户的输入信号。触摸面板包括一个或多个触摸传感器以感测触摸、滑动和触摸面板上的手势。触摸传感器可以不仅感测触摸或滑动动作的边界，而且还检测与触摸或滑动操作相关的持续时间和压力。在一些实施例中，多媒体组件808包括一个前置摄像头和/或后置摄像头。当电子设备800处于操作模式，如拍摄模式或视频模式时，前置摄像头和/或后置摄像头可以接收外部的多媒体数据。每个前置摄像头和后置摄像头可以是一个固定的光学透镜系统或具有焦距和光学变焦能力。

音频组件810被配置为输出和/或输入音频信号。例如，音频组件810包括一个麦克风，当电子设备800处于操作模式，如呼叫模式、记录模式和语音识别模式时，麦克风被配置为接收外部音频信号。所接收的音频信号可以被进一步存储在存储器804或经由通信组件816发送。在一些实施例中，音频组件88还包括一个扬声器，用于输出音频信号。

输入/输出接口812为处理组件802和外围接口模块之间提供接口，上述外围接口模块可以是键盘，点击轮，按钮等。这些按钮可包括但不限于：主页按钮、音量按钮、启动按钮和锁定按钮。

传感器组件814包括一个或多个传感器，用于为电子设备800提供各个方面的状态信息。例如，传感器组件814可以检测到电子设备800的打开/关闭状态，组件的相对定位，例如组件为电子设备800的显示器和小键盘，传感器组件814还可以检测电子设备800或电子设备800中一个组件的位置改变，用户与电子设备800接触的存在或不存在，电子设备800方位或加速/减速和电子设备800的温度变化。传感器组件814可以包括接近传感器，被配置用来在没有任何的物理接触时检测附近物体的存在。传感器组件814还可以包括光传感器，用于在成像应用中使用。在一些实施例中，该传感器组件814还可以包括加速度传感器，陀螺仪传感器，磁传感器，压力传感器或温度传感器。

通信组件816被配置为便于电子设备800和其他设备之间有线或无线方式的通信。电子设备800可以接入基于通信标准的无线网络。在一个示例性实施例中，通信组件816经由广播信道接收来自外部广播管理系统的广播信号或广播相关信息。在一个示例性实施例中，通信组件816还包括近场通信模块，以促进短程通信。例如，在近场通信模块可基于射频识别技术，红外数据协会技术，超宽带技术以及其他技术来实现。

在示例性实施例中，电子设备800可以被一个或多个应用专用集成电路、数字信号处理器、数字信号处理设备、可编程逻辑器件、现场可编程门阵列、控制器、微控制器、微处理器或其他电子元件实现，用于执行上述方法。

根据本申请的实施例，本申请还提供了一种包括指令的非临时性计算机可读存储介质，例如包括指令的存储器804，上述指令可由电子设备800的处理器820执行以完成上述方法。例如，非临时性计算机可读存储介质可以是随机存取存储器、磁带、软盘和光盘数据存储设备等。

根据本申请的实施例，本申请还提供了一种非临时性计算机可读存储介质，当该存储介质中的指令由电子设备的处理器执行时，使得电子设备能够执行上述方法。

根据本申请的实施例，本申请还提供了一种计算机程序产品，计算机程序产品包括：计算机程序，计算机程序存储在可读存储介质中，电子设备的至少一个处理器可以从可读存储介质读取计算机程序，至少一个处理器执行计算机程序使得电子设备执行上述任一个实施例中提供的方案。

本领域技术人员在考虑说明书及实践这里公开的发明后，将容易想到本申请的其它实施方案。本申请旨在涵盖本申请的任何变型、用途或者适应性变化，这些变型、用途或者适应性变化遵循本申请的一般性原理并包括本申请未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的，本申请的真正范围和精神由下面的权利要求书指出。

应当理解的是，本申请并不局限于上面已经描述并在附图中示出的精确结构，并且可以在不脱离其范围进行各种修改和改变。本申请的范围仅由所附的权利要求书来限制。

Claims

1.一种图像分类方法，其特征在于，所述方法包括：

2.根据权利要求1所述的方法，其特征在于，根据所述待分类图像和所述至少一个图像信息，确定所述待分类图像的特征描述向量，包括：

根据各所述扩展描述信息集合，确定所述特征描述向量。

3.根据权利要求2所述的方法，其特征在于，根据各所述扩展描述信息集合，确定所述特征描述向量，包括：

根据各所述特征矩阵集合，确定所述特征描述向量。

4.根据权利要求3所述的方法，其特征在于，根据各所述特征矩阵集合，确定所述特征描述向量，包括：

5.根据权利要求4所述的方法，其特征在于，根据所述特征矩阵集合和所述特征矩阵集合对应的自注意力矩阵，确定所述特征描述向量中与特征矩阵集合对应的细节描述信息，包括：

6.根据权利要求3所述的方法，其特征在于，根据各所述特征矩阵集合，确定所述特征描述向量，包括：

7.根据权利要求1-6中任一项所述的方法，其特征在于，根据所述待分类图像和所述特征描述向量，确定并输出所述待分类图像的图像类别，包括：

对所述待分类图像进行特征提取处理，得到图像特征向量；

8.根据权利要求7所述的方法，其特征在于，根据所述图像特征向量和所述特征描述向量，确定并输出所述待分类图像的图像类别，包括：

9.根据权利要求8所述的方法，其特征在于，所述细节描述信息具有类别标签；根据各所述相似度信息，确定并输出所述待分类图像的图像类别，包括：

10.一种电子设备，其特征在于，包括：处理器，以及与所述处理器通信连接的存储器；

所述存储器存储计算机执行指令；

所述处理器执行所述存储器存储的计算机执行指令，以实现如权利要求1至9中任一项所述的方法。