CN116977796A

CN116977796A - 零样本图像识别方法、系统、设备及存储介质

Info

Publication number: CN116977796A
Application number: CN202311237308.3A
Authority: CN
Inventors: 张勇东; 殷婉婷; 谢洪涛
Original assignee: University of Science and Technology of China USTC
Current assignee: University of Science and Technology of China USTC
Priority date: 2023-09-25
Filing date: 2023-09-25
Publication date: 2023-10-31
Anticipated expiration: 2043-09-25
Also published as: CN116977796B

Abstract

本发明公开了一种零样本图像识别方法、系统、设备及存储介质，它们是一一对应的方案，方案中：将频域特征引入到零样本学习任务中，与现有的在RGB域中学习和训练模型的零样本识别任务相比，本发明对于局部重要特征的识别度更高，定位更加精准，同时本发明注重于学习重要的语义知识，从而进行更加细致的视觉语义信息交互，显著提高零样本任务的性能，使图像识别能力更强，识别结果的准确度更高。

Description

零样本图像识别方法、系统、设备及存储介质

技术领域

本发明涉及零样本图像识别技术领域，尤其涉及一种零样本图像识别方法、系统、设备及存储介质。

背景技术

图像识别作为计算机视觉的关键任务之一，近年来取得了巨大的进展。然而大多数图像处理方法仍然严重依赖昂贵和劳动密集型人工标注的数据，零样本学习（ZSL）的提出有效地缓解了这一数据稀缺问题。它模拟了人类的认知过程，可应用于具有缺失样本的各种现实场景中，如稀有物种的识别。

传统的零样本学习（CZSL）只学习可见类的视觉特征，而一种新的替代方法广义零样本学习（GZSL）在测试集中同时包含可见类和未见类。GZSL将视觉特征与语义描述（如人工标注的属性和word2vec）在一个联合嵌入空间中对齐，其中的word2vec是一种将单词转换成向量形式模型。这样，识别任务就变成了最近邻搜索问题。CZSL在真实的场景中不具有实用性，使GZSL成为更有前途的替代方案。

现有的ZSL方法（包含以上CZSL与GZSL）通常直接从RGB（红绿蓝通道）域学习视觉特征，会影响某些属性的识别。然而，RGB域中的细粒度属性容易受到背景噪声的影响难以有效区分，导致零样本图像识别结果的准确度不佳。

发明内容

本发明的目的是提供一种零样本图像识别方法、系统、设备及存储介质，可以更好的提升图像识别能力，提升图像识别结果的准确度。

本发明的目的是通过以下技术方案实现的：

一种零样本图像识别方法，包括：

构建零样本图像识别模型，其包括：特征提取器、掩码残差聚合模块、相位增广模块与识别模块；

训练所述零样本图像识别模型，训练过程如下：特征提取器从训练图像中提取出全局特征，掩码残差聚合模块利用所述全局特征生成多个掩码，基于每一掩码获取对应的注意力特征，将每一注意力特征分别与所述全局特征融合，获得增强特征，再将所述增强特征转换为频域特征，一个训练批次中所有训练图像对应的频域特征形成频域特征集合；对于当前频域特征，相位增广模块从频域特征集合中随机选出其它单个频域特征，结合选出的其它单个频域特征的相位以及当前频域特征的振幅获得新的频域特征，识别模块利用所述新的频域特征进行图像识别；基于给定的训练图像对应语义信息对所述新的频域特征进行语义对齐，并计算语义对齐损失函数，以及基于给定的训练图像对应的类别标签与图像识别结果计算分类损失函数，利用语义对齐损失函数与分类损失函数训练所述零样本图像识别模型；

训练完毕后，从训练后的零样本图像识别模型中移除相位增广模块，利用特征提取器、掩码残差聚合模块与识别模块对输入的待识别的图像进行图像识别。

一种零样本图像识别系统，包括：

模型构建单元，用于构建零样本图像识别模型，其包括：特征提取器、掩码残差聚合模块、相位增广模块与识别模块；

模型训练单元，用于训练所述零样本图像识别模型，训练过程如下：特征提取器从训练图像中提取出全局特征，掩码残差聚合模块利用所述全局特征生成多个掩码，基于每一掩码获取对应的注意力特征，将每一注意力特征分别与所述全局特征融合，获得增强特征，再将所述增强特征转换为频域特征，一个训练批次中所有训练图像对应的频域特征形成频域特征集合；对于当前频域特征，相位增广模块从频域特征集合中随机选出其它单个频域特征，结合选出的其它单个频域特征的相位以及当前频域特征的振幅获得新的频域特征，识别模块利用所述新的频域特征进行图像识别；基于给定的训练图像对应语义信息对所述新的频域特征进行语义对齐，并计算语义对齐损失函数，以及基于给定的训练图像对应的类别标签与图像识别结果计算分类损失函数，利用语义对齐损失函数与分类损失函数训练所述零样本图像识别模型；

图像识别单元，用于训练完毕后，从训练后的零样本图像识别模型中移除相位增广模块，利用特征提取器、掩码残差聚合模块与识别模块对输入的待识别的图像进行图像识别。

一种处理设备，包括：一个或多个处理器；存储器，用于存储一个或多个程序；

其中，当所述一个或多个程序被所述一个或多个处理器执行时，使得所述一个或多个处理器实现前述的方法。

一种可读存储介质，存储有计算机程序，当计算机程序被处理器执行时实现前述的方法。

由上述本发明提供的技术方案可以看出，将频域特征引入到零样本学习任务中，与现有的在RGB域中学习和训练模型的零样本识别任务相比，本发明对于局部重要特征的识别度更高，定位更加精准，同时本发明注重于学习重要的语义知识，从而进行更加细致的视觉语义信息交互，显著提高零样本任务的性能，使图像识别能力更强，识别结果的准确度更高。

附图说明

为了更清楚地说明本发明实施例的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域的普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他附图。

图1为本发明实施例提供的一种零样本图像识别方法的流程图；

图2为本发明实施例提供的一种零样本图像识别模型的训练过程示意图；

图3为本发明实施例提供的掩码残差聚合模块的示意图；

图4为本发明实施例提供的相位增广模块的示意图；

图5为本发明实施例提供的CAM可视化示意图；

图6为本发明实施例提供的一种零样本图像识别系统的示意图；

图7为本发明实施例提供的一种处理设备的示意图。

具体实施方式

下面结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明的保护范围。

首先对本文中可能使用的术语进行如下说明：

术语“包括”、“包含”、“含有”、“具有”或其它类似语义的描述，应被解释为非排它性的包括。例如：包括某技术特征要素（如原料、组分、成分、载体、剂型、材料、尺寸、零件、部件、机构、装置、步骤、工序、方法、反应条件、加工条件、参数、算法、信号、数据、产品或制品等），应被解释为不仅包括明确列出的某技术特征要素，还可以包括未明确列出的本领域公知的其它技术特征要素。

术语“由……组成”表示排除任何未明确列出的技术特征要素。若将该术语用于权利要求中，则该术语将使权利要求成为封闭式，使其不包含除明确列出的技术特征要素以外的技术特征要素，但与其相关的常规杂质除外。如果该术语只是出现在权利要求的某子句中，那么其仅限定在该子句中明确列出的要素，其他子句中所记载的要素并不被排除在整体权利要求之外。

下面对本发明所提供的一种零样本图像识别方法、系统、设备及存储介质进行详细描述。本发明实施例中未作详细描述的内容属于本领域专业技术人员公知的现有技术。本发明实施例中未注明具体条件者，按照本领域常规条件或制造商建议的条件进行。

实施例一

本发明实施例提供一种零样本图像识别方法，如图1所示，其主要包括如下步骤：

步骤1、构建零样本图像识别模型，其包括：特征提取器、掩码残差聚合模块、相位增广模块与识别模块。

步骤2、训练所述零样本图像识别模型，训练过程如下：特征提取器从训练图像中提取出全局特征，掩码残差聚合模块利用所述全局特征生成多个掩码，基于每一掩码获取对应的注意力特征，将每一注意力特征分别与所述全局特征融合，获得增强特征，再将所述增强特征转换为频域特征，一个训练批次中所有训练图像对应的频域特征形成频域特征集合；对于当前频域特征，相位增广模块从频域特征集合中随机选出其它单个频域特征，结合选出的其它单个频域特征的相位以及当前频域特征的振幅获得新的频域特征，识别模块利用所述新的频域特征进行图像识别；基于给定的训练图像对应语义信息对所述新的频域特征进行语义对齐，并计算语义对齐损失函数，以及基于给定的训练图像对应的类别标签与图像识别结果计算分类损失函数，利用语义对齐损失函数与分类损失函数训练所述零样本图像识别模型。

本发明实施例中，通过语义对齐损失函数可以学习到重要的语义知识，进行更加细致的视觉语义信息交互；此处所述的重要的语义知识是指更具有判别性的语义（即具有判别性的属性信息），比如，两只鸟的嘴巴翅膀形状都很相似难以区分，只有翅膀颜色不同，那么，翅膀颜色这个属性信息即为重要的语义知识。

步骤3、训练完毕后，从训练后的零样本图像识别模型中移除相位增广模块，利用特征提取器、掩码残差聚合模块与识别模块对输入的待识别的图像进行图像识别。

本发明实施例提供的上述方案，首次将频域特征引入到零样本学习任务中。与现有的在RGB域中学习和训练模型的零样本识别任务相比，本发明对于局部重要特征的识别度更高，定位更加精准。同时本发明注重于学习重要的语义知识，从而进行更加细致的视觉语义信息交互，显著提高零样本任务的性能。

为了更加清晰地展现出本发明所提供的技术方案及所产生的技术效果，下面以具体实施例对本发明实施例所提供的方法进行详细描述。

一、数据准备。

数据集包括图片和属性两个部分。图片又分为可见类别和不可见类别（不可见类别指在训练过程中没有出现过的图片类别），其中可见类别图片用于模型的训练，模型测试则使用可见类别图片和不可见类别图片的混合数据。属性特征为312维度乘以200维度的矩阵。属性特征经过一个输入为312、输出为2048的两层全连接层映射成一个2048×200的矩阵，作为语义信息。

二、构建零样本图像识别模型并进行训练。

本发明实施例中，构建了包含特征提取器、掩码残差聚合模块、相位增广模块与识别模块的零样本图像识别模型，并利用前述数据进行训练，训练过程如图2所示，由于识别模块不参与训练，因此，图2未示出识别模块。下面针对训练过程进行介绍。

1、特征提取器。

每次取设定数量的训练集数据集图像输入至零样本图像识别模型中，通过特征提取器进行全局特征提取，示例性的：一次取128张训练集数据集图像。图片首先经过一个卷积神经网络网络（CNN）获得图片的特征图（全局特征），每张图片对应特征图维度为2048×28×28。此处的卷积神经网络网络作为特征提取器。

示例性的：卷积神经网络网络可以选择ResNet101网络（101层的残差网络）。

2、掩码残差聚合模块。

为了更好地融合并灵活关注局部和全局信息，引入了一个掩码残差聚合模块，以在RGB域中生成增强特征，如图3展示了掩码残差聚合模块的示意图。具体来说，是从特征提取器中提取的全局特征，其中C、H和W分别表示通道数、高度和宽度，/>为实数集符号。

之后，利用m个可学习的卷积运算和Sigmoid函数（即注意力层）生成m个掩码，其中，第i个可学习的卷积运算记为G_i，对应的第i个掩码记为N_i，生成方式表示为：

；

其中，，m为正整数，/>表示全局特征，Sigmoid(.)为Sigmoid函数，它是一种S型函数；卷积运算可以为1×1的卷积运算。

再基于每一掩码获取对应的注意力特征，具体的，基于第i个掩码N_i，获得第i个注意力特征，表示为：

；

其中，表示第i个注意力特征，/>表示两个矩阵的元素乘法，R(.)表示广播操作，将N_i广播为和/>相同的维度。

然后，将获得的注意力特征再次添加到原始全局特征中，获得对应的初步增强特征，对于第i个注意力特征，将其与全局特征/>融合，获得第i个初步增强特征，表示为：

；

其中，表示第i个初步增强特征。初步增强特征可以最大限度地保留全局和局部特征。

最终，获得所有初步增强特征（）后，经过一个卷积层（1×1卷积）获得最终的增强特征/>，它的维度与全局特征/>的维度相同；之后，将最终的增强特征变换为频域特征，记为/>，示例性的，可通过二维DFT（离散傅里叶变换）实现。

训练过程中，一个批次中每一训练图像均经过上述方式的处理获得对应的频域特征，将它们综合为频域特征集合。

3、相位增广模块。

受傅里叶变换的一个著名性质的启发，相位分量显示了更多的高层语义信息。增加特征的相位并保持幅值恒定，以增强模型对语义部分的敏感性。相位增广模块如图4所示，对于当前频域特征，相位增广模块从频域特征集合中随机选出其它单个频域特征，结合其它单个频域特征的相位以及当前频域特征的振幅获得新的频域特征。

（1）对于当前频域特征，从频域特征集合中随机选出一个频域特征（除去当前频域特征之外的频域），记为，计算/>的相位，记为/>，并与当前频域特征的相位组合为新的合成相位，表示为：

；

其中，P(.)为相位计算函数，为当前频域特征/>的相位，/>为当前频域特征的序号，/>，/>为训练批次的大小（例如/>），即频域特征集合中频域特征的数目，图4左下方的/>表示不包含当前前频域特征的相位，也就是随机选出一个频域特征不包含当前频域特征/>；/>为当前频域特征对应的新的合成相位，/>为频域上的点，/>为比例系数。此外，由于增广特征的相位信息中存在干扰信息，也可以将其视为困难样本，鼓励模型更多地关注相位学习，即语义信息的学习。

之后，将当前频域特征的振幅记为/>，通过下式计算出新的频域特征，表示为：

；

其中，为当前频域特征对应的新的频域特征，它的维度与全局特征的维度相同，/>表示两个矩阵的元素乘法，j为虚数单位，e为自然常数。

频域特征集合中的K个频域特征均经过以上方式处理，获得对应新的频域特征。

4、识别模块。

训练阶段，识别模块的输入是新的频域特征，输出训练图像对应的图像识别结果，即图像类别。

5、计算总损失函数。

对于每一图片对应的属性，提取出对应的语义信息，图2右侧的为语义信息集合，单个语义信息记为/>，将语义信息与相应频域特征对应的新的频域特征投影到一个联合嵌入空间中，之后，使用距离函数（例如，余弦距离函数）约束对齐，计算出损失L_zsr，以及使用L2范数进行约束对齐，计算出损失L_att，综合以上两部分损失作为语义对齐损失函数。此部分中，语义信息与新的频域特征是相互对应的，它们来自同一训练图像及对应的属性。在语义对齐损失函数的约束下，每一训练图像的频域特征均为与语义对齐的特征向量。

同时，利用识别模块输出的图像识别结果与对应训练图像的类别标签（已知信息）计算分类损失函数，计算时可以带入交叉熵损失函数进行计算。

综合以上语义对齐损失函数与交叉熵损失函数训练所述零样本图像识别模型，优化模型参数。

本发明实施例中，后续涉及的参数优化流程可参照常规技术实现，本发明不赘述。

三、推理阶段。

本发明实施例中，相位增广模块作为训练阶段的辅助模块，训练完毕后将被移除。推理阶段的流程为：将待识别的图像输入至训练后的零样本图像识别模型，获得图像识别结果，具体的，待识别的图像经特征提取器提取全局特征，经掩码残差聚合模块获得增强特征并转化为频域特征，再经识别模块获得图像识别结果。

本发明实施例提供的上述方案可以装载于计算机或者服务器，使用可见类别图片进行训练，训练完毕后可用于识别未被标注的未知类别物体（种类）；例如识别新发现的鸟类或者其他物种等。图5展示了模型在推理过程中的类激活映射（CAM）图，虚线左侧部分对应于可见类，虚线左侧部分的第一列为基线方案生成的CAM图，虚线左侧部分的第二列为本发明方案生成的CAM图；虚线右侧部分对应于不可见类，虚线右侧部分的第一列为基线方案生成的CAM图，虚线右侧部分的第二列为本发明方案生成的CAM图，可以看到模型有着准确的属性定位和识别功能，从而有效解释了模型的性能，在CUB数据集上精度可达70.7%；其中，基线方案为DVBE方法，DVBE的全称为：Domain-aware visual bias eliminating forgeneralized zero-shot learning（用于广义零发射学习的领域感知视觉偏差消除）。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到上述实施例可以通过软件实现，也可以借助软件加必要的通用硬件平台的方式来实现。基于这样的理解，上述实施例的技术方案可以以软件产品的形式体现出来，该软件产品可以存储在一个非易失性存储介质（可以是CD-ROM，U盘，移动硬盘等）中，包括若干指令用以使得一台计算机设备（可以是个人计算机，服务器，或者网络设备等）执行本发明各个实施例所述的方法。

实施例二

本发明还提供一种零样本图像识别系统，其主要用于实现前述实施例提供的方法，如图6所示，该系统主要包括：

所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，仅以上述各功能模块的划分进行举例说明，实际应用中，可以根据需要而将上述功能分配由不同的功能模块完成，即将系统的内部结构划分成不同的功能模块，以完成以上描述的全部或者部分功能。

需要说明的是，上述系统中所涉及的各项技术细节已经在之前的实施例一中做了详细的介绍，故不再赘述。

实施例三

本发明还提供一种处理设备，如图7所示，其主要包括：一个或多个处理器；存储器，用于存储一个或多个程序；其中，当所述一个或多个程序被所述一个或多个处理器执行时，使得所述一个或多个处理器实现前述实施例提供的方法。

进一步的，所述处理设备还包括至少一个输入设备与至少一个输出设备；在所述处理设备中，处理器、存储器、输入设备、输出设备之间通过总线连接。

本发明实施例中，所述存储器、输入设备与输出设备的具体类型不做限定；例如：

输入设备可以为触摸屏、图像采集设备、物理按键或者鼠标等；

输出设备可以为显示终端；

存储器可以为随机存取存储器（Random Access Memory，RAM），也可为非不稳定的存储器（non-volatile memory），例如磁盘存储器。

实施例四

本发明还提供一种可读存储介质，存储有计算机程序，当计算机程序被处理器执行时实现前述实施例提供的方法。

本发明实施例中可读存储介质作为计算机可读存储介质，可以设置于前述处理设备中，例如，作为处理设备中的存储器。此外，所述可读存储介质也可以是U盘、移动硬盘、只读存储器（Read-Only Memory，ROM）、磁碟或者光盘等各种可以存储程序代码的介质。

以上所述，仅为本发明较佳的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明披露的技术范围内，可轻易想到的变化或替换，都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应该以权利要求书的保护范围为准。

Claims

1.一种零样本图像识别方法，其特征在于，包括：

2.根据权利要求1所述的一种零样本图像识别方法，其特征在于，利用所述全局特征生成多个掩码，基于每一掩码获取对应的注意力特征，将每一注意力特征分别与所述全局特征融合，获得增强特征，再将所述增强特征转换为频域特征包括：

利用m个可学习的卷积运算和Sigmoid函数生成m个掩码，基于每一掩码获取对应的注意力特征；其中，m为正整数，Sigmoid函数是一种S型函数；

将每一注意力特征分别与所述全局特征融合，获得对应的初步增强特征；

获得所有初步增强特征后经过卷积层处理，获得最终的增强特征；

将所述最终的增强特征转换为频域特征。

3.根据权利要求2所述的一种零样本图像识别方法，其特征在于，

将第i个可学习的卷积运算记为G_i，对应的第i个掩码记为N_i，生成方式表示为：

；

其中，，/>表示全局特征，Sigmoid(.)为Sigmoid函数；

基于第i个掩码N_i，获得第i个注意力特征，表示为：

；

其中，表示第i个注意力特征，/>表示两个矩阵的元素乘法，R(.)表示广播操作；

对于第i个注意力特征，将其与全局特征/>融合，获得第i个初步增强特征，表示为：

；

其中，表示第i个初步增强特征。

4.根据权利要求1所述的一种零样本图像识别方法，其特征在于，所述对于当前频域特征，相位增广模块从频域特征集合中随机选出其它单个频域特征，结合选出的其它单个频域特征的相位以及当前频域特征的振幅获得新的频域特征包括：

对于当前频域特征，相位增广模块从频域特征集合中随机选出其它单个频域特征，计算出相应的相位后与当前频域特征的相位组合为新的合成相位，再结合当前频域特征的振幅获得新的频域特征。

5.根据权利要求4所述的一种零样本图像识别方法，其特征在于，所述对于当前频域特征，相位增广模块从频域特征集合中随机选出其它单个频域特征，计算出相应的相位后与当前频域特征的相位组合为新的合成相位包括：

将随机选出其它单个频域特征记为，计算其相位，记为/>，并与当前频域特征的相位组合为新的合成相位，表示为：

；

其中，P(.)为相位计算函数，为当前频域特征/>的相位，/>为当前频域特征的序号，/>，/>为训练批次的大小，即频域特征集合中频域特征的数目；/>为当前频域特征对应的新的合成相位，/>为频域上的点，/>为比例系数。

6.根据权利要求4所述的一种零样本图像识别方法，其特征在于，所述再结合当前频域特征的振幅获得新的频域特征表示为：

；

其中，为当前频域特征/>的振幅，/>为当前频域特征对应的新的频域特征，/>表示两个矩阵的元素乘法，j为虚数单位，e为自然常数。

7.根据权利要求1所述的一种零样本图像识别方法，其特征在于，所述基于给定的训练图像对应语义信息对所述新的频域特征进行语义对齐，并计算语义对齐损失函数包括：

将语义信息与相应频域特征对应的新的频域特征投影到一个联合嵌入空间中，之后，使用距离函数约束对齐，计算出第一部分损失L_zsr，以及使用L2范数进行约束对齐，计算出第二部分损失L_att，综合以上两部分损失作为语义对齐损失函数。

8.一种零样本图像识别系统，其特征在于，包括：

9.一种处理设备，其特征在于，包括：一个或多个处理器；存储器，用于存储一个或多个程序；

其中，当所述一个或多个程序被所述一个或多个处理器执行时，使得所述一个或多个处理器实现如权利要求1~7任一项所述的方法。

10.一种可读存储介质，存储有计算机程序，其特征在于，当计算机程序被处理器执行时实现如权利要求1~7任一项所述的方法。