CN117830706A

CN117830706A - 一种基于跨模态语义增强的图像分类方法及装置

Info

Publication number: CN117830706A
Application number: CN202311755755.8A
Authority: CN
Inventors: 杨瀚; 张诗涵; 温序铭; 倪宇
Original assignee: Chengdu Sobey Digital Technology Co Ltd
Current assignee: Chengdu Sobey Digital Technology Co Ltd
Priority date: 2023-12-19
Filing date: 2023-12-19
Publication date: 2024-04-05

Abstract

本申请公开了一种基于跨模态语义增强的图像分类方法及装置，首先对输入图像进行数据重塑操作、基础卷积神经网络处理、上采样操作以及全局平均池化操作得到包含显著信息的图像特征，其次使用初始化的文本提示构建多任务跨模态源提示集，最后根据图像特征和多任务跨模态源提示集构建预测图像的类别概率，通过类别概率完成对输入图像的分类，能够有效提升少样本或零样本的图像分类任务的分类准确率，使得整体分类效果更加理想。

Description

一种基于跨模态语义增强的图像分类方法及装置

技术领域

本申请涉及图像分类技术领域，具体而言，涉及一种基于跨模态语义增强的图像分类方法及装置。

背景技术

图像分类旨在让计算机能够自动识别并分类图像中的对象或者场景。图像分类在很多实际应用中具有广泛的应用，如图像检索、自动驾驶、医学图像分析等。跨模态是指涉及多个不同的模态之间的关系和交互，模态通常指不同的数据类型或表示方式，如图像、文本、语音、视频等。

目前先进的图文跨模态分类方法采用固定的文本提示，将图像及其文本描述组合在一起，同时将特征空间中不匹配的排除在外。通过大规模的预训练，模型可以学习不同的视觉概念，并且可以很容易地通过提示转移到任何下游任务。

虽然这种方法通过图文跨模态的方法实现少样本甚至零样本的图像分类任务，但其中的文本描述并未与图像中的特征进行结合，导致整体分类效果仍旧不理想，因此如何更好地结合文本描述图像中的特征，提升整体分类效果成为本领域技术人员的研究方向之一。

发明内容

本申请的目的在于，为了克服现有的技术缺陷，提供了一种基于跨模态语义增强的图像分类方法及装置，通过类别概率完成对输入图像的分类，能够有效提升少样本或零样本的图像分类任务的分类准确率。

本申请目的通过下述技术方案来实现：

第一方面，本申请提出了一种基于跨模态语义增强的图像分类方法，所述方法包括：

对输入图像进行数据重塑操作、基础卷积神经网络处理、上采样操作以及全局平均池化操作得到包含显著信息的图像特征；

使用初始化的文本提示构建多任务跨模态源提示集；

根据图像特征和多任务跨模态源提示集构建预测图像的类别概率，通过类别概率完成对输入图像的分类。

在一种可能的实施方式中，对输入图像进行数据重塑操作、基础卷积神经网络处理、上采样操作以及全局平均池化操作得到包含显著信息的图像特征的步骤，包括：

对输入图像进行数据重塑操作得到Img图像；

利用基础卷积神经网络ResNet-18对Img图像进行处理得到对应的第一特征、第二特征、第三特征、第四特征，并利用基础卷积神经网络Swin-B对Img图像进行处理得到第五特征、第六特征、第七特征、第八特征；

将第一生成特征进行上采样、与第六特征维度对齐和特征融合得到第一融合特征，第一生成特征为将第一特征输入设置的第一卷积层和第二卷积层所得到的；

将第二生成特征进行上采样、与第七特征维度对齐和特征融合得到第二融合特征，第二生成特征为将第一融合特征输入第三卷积层所得到的；

将第四生成特征和第五生成特征进行特征融合得到第三融合特征，第四生成特征为将第八特征输入第三卷积层所得到的，第五生成特征为将第四特征输入第三卷积层所得到的；

将第三生成特征进行上采样、与第三融合特征维度对齐和特征融合得到第四融合特征，第三生成特征为将第二融合特征输入第三卷积层所得到的；

将第六生成特征进行上采样、与第三特征维度对齐和特征融合得到第五融合特征，第六生成特征为将第四融合特征输入第三卷积层所得到的；

将第七生成特征进行上采样、与第二特征维度对齐和特征融合得到第六融合特征，第七生成特征为将第五融合特征输入第三卷积层所得到的；

将第八生成特征进行上采样、与第一特征维度对齐和特征融合得到第七融合特征，第八生成特征为将第六融合特征输入第三卷积层所得到的；

对第九生成特征进行全局平均池化操作得到包含显著信息的图像特征，第九生成特征为将第七融合特征输入第三卷积层所得到的。

在一种可能的实施方式中，使用初始化的文本提示构建多任务跨模态源提示集的步骤，包括：

利用文本编码器对初始化的文本提示进行编码得到文本编码特征；

利用图像编码器对分类任务中的训练图像进行编码得到图像编码特征；

对文本编码特征和图像编码特征求和之后通过分类训练流程得到跨模态模型；

提取跨模态模型中的多个训练文本编码特征并合并得到多任务跨模态源提示集。

在一种可能的实施方式中，根据图像特征和多任务跨模态源提示集构建预测图像的类别概率，通过类别概率完成对输入图像的分类的步骤，包括：

通过多任务跨模态源提示集中的关键集合和关键提示、超参数、任务级查询以及实例级查询得到第一训练提示；

将第一训练提示与图像特征进行求和得到第二训练提示；

在第二训练提示中加入类别信息之后送入文本编码器进行编码，得到文本编码信息；

通过文本编码信息构建预测图像的类别概率，通过类别概率完成对输入图像的分类。

在一种可能的实施方式中，第一训练提示P_s的计算公式为：

其中P_i为多任务跨模态源提示集，Softmax()为softmax函数，α为超参数，q_task为任务级查询，q_ins为实例级查询，k_c为关键集合，k_i为关键提示。

在一种可能的实施方式中，所述类别概率P(y＝i|I_infer-f)的计算公式为：其中sim()为余弦相似性计算，I_infer-f为图像特征，τ为可学习参数，g表示预测样本的类别数，T_i为文本编码信息。

第二方面，本申请提出了一种基于跨模态语义增强的图像分类装置，所述装置包括：

图像特征提取模块，用于对输入图像进行数据重塑操作、基础卷积神经网络处理、上采样操作以及全局平均池化操作得到包含显著信息的图像特征；

提示集构建模块，用于使用初始化的文本提示构建多任务跨模态源提示集；

分类模块，用于根据图像特征和多任务跨模态源提示集构建预测图像的类别概率，通过类别概率完成对输入图像的分类。

在一种可能的实施方式中，所述图像特征提取模块具体用于：

对输入图像进行数据重塑操作得到Img图像；

在一种可能的实施方式中，提示集构建模块，具体用于：

在一种可能的实施方式中，分类模块，具体用于：

将第一训练提示与图像特征进行求和得到第二训练提示；

上述本申请主方案及其各进一步选择方案可以自由组合以形成多个方案，均为本申请可采用并要求保护的方案；且本申请，(各非冲突选择)选择之间以及和其他选择之间也可以自由组合。本领域技术人员在了解本申请方案后根据现有技术和公知常识可明了有多种组合，均为本申请所要保护的技术方案，在此不做穷举。

附图说明

图1示出了本申请实施例提出的一种基于跨模态语义增强的图像分类方法的流程示意图。

图2示出了本申请实施例提出的图像特征的生成示意图。

图3示出了本申请实施例提出的多任务跨模态源提示集的构建示意图。

图4示出了本申请实施例提出的输入图像的分类示意图。

具体实施方式

以下通过特定的具体实例说明本申请的实施方式，本领域技术人员可由本说明书所揭露的内容轻易地了解本申请的其他优点与功效。本申请还可以通过另外不同的具体实施方式加以实施或应用，本说明书中的各项细节也可以基于不同观点与应用，在没有背离本申请的精神下进行各种修饰或改变。需说明的是，在不冲突的情况下，以下实施例及实施例中的特征可以相互组合。

基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

在现有技术中，图文跨模态分类方法采用固定的文本提示，将图像及其文本描述组合在一起，同时将特征空间中不匹配的排除在外。通过大规模的预训练，模型可以学习不同的视觉概念，并且可以很容易地通过提示转移到任何下游任务。但是其中的文本描述并未与图像中的特征进行结合，导致整体分类效果仍旧不理想。

为了解决上述问题，本申请实施例提出了一种基于跨模态语义增强的图像分类方法及装置，通过类别概率完成对输入图像的分类，能够有效提升少样本或零样本的图像分类任务的分类准确率，使得整体分类效果更加理想，接下来对其进行详细地说明。

请参照图1，图1示出了本申请实施例提出的一种基于跨模态语义增强的图像分类方法的流程示意图，该方法包括如下步骤：

步骤S1、对输入图像进行数据重塑操作、基础卷积神经网络处理、上采样操作以及全局平均池化操作得到包含显著信息的图像特征。

在根据输入图像得到包含显著信息的图像特征的过程中，还包括以下子步骤；

对输入图像进行数据重塑操作得到Img图像；

首先输入图像通过颜色通道为RGB三通道输入，对输入图像进行数据重塑操作(ReShape操作)得到Img图像，Img图像的尺寸大小为224像素*224像素。请参照图2，图2示出了本申请实施例提出的图像特征的生成示意图。将Img图像通过基础卷积神经网络ResNet-18后得到4个特征图，分别为第一特征R1、第二特征R2、第三特征R3、第四特征R4，其中第一特征R1的维度为7*7*512，第二特征R2的维度为14*14*256，第三特征的R3维度为28*28*128，第四特征R4的维度为56*56*64。将Img图像通过通过基础卷积神经网络Swin-B后得到4个特征图，分别为第五特征S1、第六特征S2、第七特征S3、第八特征S4，其中第五特征S1的维度为14*14*512、第六特征S2的维度为14*14*512、第七特征S3的维度为28*28*256、第八特征S4的维度为56*56*128。

接下来设置第一卷积层Conv_2D_a、第二卷积层Conv_2D_b、第三卷积层Conv_2D_c这三个2D卷积层，卷积层的参数为：第一卷积层Conv_2D_a的卷积核维度为1*1，步长为1，填充维度为0，第二卷积层Conv_2D_b的卷积核维度为3*3，步长为1，填充维度为2，第三卷积层Conv_2D_c的卷积核维度为3*3，步长为1，填充维度为1。

依次将第五特征S1输入至第二卷积层Conv_2D_b和第一卷积层Conv_2D_a得到第一生成特征S1_n(S1_n＝Conv_2D_a(Conv_2D_b(S1)))，将第一生成特征S1_n进行上采样操作、与第六特征S2维度对齐之后，再与第六特征S2进行特征融合得到第一融合特征FS₁( unsample()表示对第一生成特征S1_n进行上采样操作，/>表示Concat特征融合操作)。

将第一融合特征FS₁输入第三卷积层Conv_2D_c得到第二生成特征S2_n(S2_n＝Conv_2D_c(FS₁)₄，Conv_2D_c()₄表示通过4层第三卷积层Conv_2D_c)。将第二生成特征S2_n进行上采样操作、与第七特征S3维度对齐之后，再与第七特征S3进行特征融合得到第二融合特征FS₂(表示对第二生成特征S2_n进行上采样操作，/>表示Concat特征融合操作)。

再将第二融合特征FS₂输入第三卷积层Conv_2D_c得到第三生成特征S3_n(S3_n＝Conv_2D_c(FS₂)₄)，分别将第八特征S4输入第三卷积层Conv_2D_c得到第四生成特征S4_n(S4_n＝Conv_2D_c(S4))与第四特征R4输入第三卷积层Conv_2D_c得到第五生成特征R4_n(R4_n＝Conv_2D_c(R4))然后将第四生成特征S4_n和第五生成特征R4_n进行特征融合得到第三融合特征

将第三生成特征S3_n进行上采样操作、与第三融合特征FS₃维度对齐之后，再与第三融合特征FS₃进行特征融合得到第四融合特征

将第四融合特征FS₄输入第三卷积层Conv_2D_c得到第六生成特征S5_n(S5_n＝Conv_2D_c(FS₄)₄)，对第六生成特征S5_n进行上采样操作、与第三特征R3维度对齐之后，再与第三特征R3进行特征融合得到第五融合特征

将第五融合特征FS₅输入第三卷积层Conv_2D_c得到第七生成特征S6_n(S6_n＝Conv_2D_c(FS₅)₄)，对第七生成特征S6_n进行上采样操作、与第二特征R2维度对齐之后，再与第二特征R2进行特征融合得到第六融合特征

将第六融合特征FS₆输入第三卷积层Conv_2D_c得到第八生成特征S7_n(S7_n＝Conv_2D_c(FS₆)₄)，将第八生成特征S7_n进行上采样操作、与第一特征R1维度对齐之后，再与第一特征R1进行特征融合得到第七融合特征

将第七融合特征FS₇输入第三卷积层Conv_2D_c得到第九生成特征S8_n(S8_n＝Conv_2D_c(FS₇)₄)，对第九生成特征S8_n进行全局平均池化操作得到包含显著信息的图像特征GP_mean(S8_n)，其中GP_mean()为全局平均池化操作。

步骤S2、使用初始化的文本提示构建多任务跨模态源提示集。

构建多任务跨模态源提示集的子步骤，包括：

请参照图3，图3示出了本申请实施例提出的多任务跨模态源提示集的构建示意图，首先随机初始化长度为L的文本提示P_init：P_init＝Random_L，Random_L表示随机初始化长度为L的文本提示，然后使用文本编码器对文本提示编码得到文本编码特征EP_init：EP_init＝Text_Encoder(P_init)，Text_Encoder为文本编码器，利用图像编码器对分类任务中的训练图像进行编码得到图像编码特征，分类任务m_ci(ci＝1，2，...，N，其中N为任务总数)，训练图像MImg_mi(mi＝1，2，...，N_img，其中N_img为训练图像总数)，图像编码特征EI_mi：EI_mi＝Image_Encoder(MImg_mi)，mi＝1，2，...，N_img，Image_Encoder为图像编码器。将文本编码特征EP_init与图像编码特征EI_mi进行求和后通过分类训练流程得到跨模态模型M_ci：M_ci＝Train(EP_init+EI_mi)，ci＝1，2，...，N，Train表示分类训练流程。从训练得到的跨模态模型M_ci中，将得到训练的文本编码特征命名为源提示SP_ci(ci＝1，2，...，N)，将源提示SP_ci进行合并得到多任务跨模态源提示集P：

步骤S3、根据图像特征和多任务跨模态源提示集构建预测图像的类别概率，通过类别概率完成对输入图像的分类。

步骤S3的子步骤为：

将第一训练提示与图像特征进行求和得到第二训练提示；

图4示出了本申请实施例提出的输入图像的分类示意图，首先随机初始化长度为L的文本提示P_{init_1}：P_{init_1}＝Random_L，在多任务跨模态源提示集中存在两个可学习参数，分别为关键集合Kc和关键提示Ki，任务级查询q_task被定义为一个能够查询与特定目标任务相关信息的可学习向量，d表示编码的维度。实例级查询被定义为一个能够关注高度相关的源提示来学习目标提示的可学习向量，该向量本质上为P_{init_1}，通过多任务跨模态源提示集中的关键集合和关键提示、超参数、任务级查询以及实例级查询得到第一训练提示Ps：第一训练提示P_s的计算公式为：

其中P_i为多任务跨模态源提示集，Softmax()为softmax函数，α为超参数，q_task为任务级查询，q_ins为实例级查询，k_c为关键集合，k_i为关键提示。α是一个取值范围为0-1的超参数，表示对q_task求转置操作，/>表示对q_ins求转置操作。

将第一训练提示与图像特征进行求和得到第二训练提示P_e，在第二训练提示P_e的尾部加上类别信息[CLS]j后，送入文本编码器进行编码，得到文本编码信息T_i：T_i＝T_Encode(P_e[CLS]_j，T_Encode表示文本编码器，j＝1，2，...，t，t为图像类别总数。

在得到文本编码信息之后构建预测图像的类别概率P(y＝i|I_infer-f)，其计算公式为：其中sim()为余弦相似性计算，I_infer-f为图像特征，τ为可学习参数，g表示预测样本的类别数，T_i为文本编码信息。

因此，本申请公开了的基于跨模态语义增强的图像分类方法通过类别概率完成对输入图像的分类，能够有效提升少样本或零样本的图像分类任务的分类准确率，使得整体分类效果更加理想。

下面给出一种基于跨模态语义增强的图像分类装置可能的实现方式，其用于执行上述实施例及可能的实现方式中示出的基于跨模态语义增强的图像分类方法各个执行步骤和相应的技术效果，该装置包括：

在一种可能的实施方式中，图像特征提取模块具体用于：

对输入图像进行数据重塑操作得到Img图像；

在一种可能的实施方式中，提示集构建模块，具体用于：

在一种可能的实施方式中，分类模块，具体用于：

将第一训练提示与图像特征进行求和得到第二训练提示；

以上所述仅为本申请的较佳实施例而已，并不用以限制本申请，凡在本申请的精神和原则之内所作的任何修改、等同替换和改进等，均应包含在本申请的保护范围之内。

Claims

1.一种基于跨模态语义增强的图像分类方法，其特征在于，所述方法包括：

使用初始化的文本提示构建多任务跨模态源提示集；

2.如权利要求1所述的图像分类方法，其特征在于，对输入图像进行数据重塑操作、基础卷积神经网络处理、上采样操作以及全局平均池化操作得到包含显著信息的图像特征的步骤，包括：

对输入图像进行数据重塑操作得到Img图像；

将第一生成特征进行上采样、与第六特征维度对齐和特征融合得到第一融合特征，第一生成特征为将第五特征依次输入设置的第二卷积层和第一卷积层所得到的；

3.如权利要求1所述的图像分类方法，其特征在于，使用初始化的文本提示构建多任务跨模态源提示集的步骤，包括：

4.如权利要求1所述的图像分类方法，其特征在于，根据图像特征和多任务跨模态源提示集构建预测图像的类别概率，通过类别概率完成对输入图像的分类的步骤，包括：

将第一训练提示与图像特征进行求和得到第二训练提示；

5.如权利要求4所述的图像分类方法，其特征在于，第一训练提示P_s的计算公式为：

6.如权利要求4所述的图像分类方法，其特征在于，类别概率P(i|I_infer-f)的计算公式为：其中sim()为余弦相似性计算，I_infer-f为图像特征，τ为可学习参数，g表示预测样本的类别数，T_i为文本编码信息。

7.一种基于跨模态语义增强的图像分类装置，其特征在于，所述装置包括：

8.如权利要求7所述的图像分类装置，其特征在于，所述图像特征提取模块具体用于：

对输入图像进行数据重塑操作得到Img图像；

9.如权利要求7所述的图像分类装置，其特征在于，提示集构建模块，具体用于：

10.如权利要求7所述的图像分类装置，其特征在于，分类模块，具体用于：

将第一训练提示与图像特征进行求和得到第二训练提示；