CN115731415A

CN115731415A - 基于双模态融合的小样本细粒度目标识别模型及方法

Info

Publication number: CN115731415A
Application number: CN202211429508.4A
Authority: CN
Inventors: 周彦; 任晓; 杨珊
Original assignee: Xiangtan University
Current assignee: Xiangtan University
Priority date: 2022-11-15
Filing date: 2022-11-15
Publication date: 2023-03-03

Abstract

本发明公开了一种基于双模态融合的小样本细粒度目标识别模型及方法。解决了现有技术中小样本细粒度图像识别类内差异小且单一视觉信息提供信息有限而导致识别准确率较低的问题。本发明系统包括样本预处理模块、背景过滤模块、属性引导模块，原型分类器。将样本数据集输入主干网络进行预处理；主干网络的输出表征经过背景过滤模块，得到细化的前景图；属性引导模块重构属性信息，指导网络学习前景图中的细粒度特征，其中属性正则化损失函数用来约束学习到的细粒度特征，以保证细粒度特征质量；构建所述的基于双模态融合的小样本细粒度目标识别模型的网络结构。本发明结合了结合自注意力、双模态融合学习、原型编码的原理，能够提供双模态信息且专注于局部区域，提高了分类器的性能和泛化能力，能够实现更好的小样本细粒度图片识别。

Description

基于双模态融合的小样本细粒度目标识别模型及方法

技术领域

本发明属于计算机视觉中的小样本图片分类领域，具体涉及一种基于双模态融合的小样本细粒度目标识别模型及方法。

背景技术

早期深度学习依赖于大量标记数据、计算机优秀的运算能力以及大型神经网络而得到飞速发展，然而人们发现获取大量标记数据的代价是昂贵的，大型神经网络的成功也取决于计算机充裕的库容量和杰出的推理能力。让机器像人类一样学习是深度学习的目标之一，而人类拥有可以仅从一个或者几个示例轻松识别从未见过新颖事物的能力，小样本学习的概念应运而生。

小样本识别主要是采用单模态方法来解决，但细粒度小样本识别问题具有类内差异非常小的问题，如仅有部分毛发颜色不同等差异，而单纯的视觉特征提供的信息十分有限，导致识别准确率较低。

发明内容

本发明的目的是提供一种基于双模态融合的小样本细粒度目标识别模型及方法，以解决目前小样本细粒度图像识别类内差异小且单纯的视觉特征提供的信息十分有限，导致识别准确率较低的问题。本申请通过结合自注意力、双模态融合学习、原型编码的原理，能够专注于细粒度特征，计算样本特征空间分布，能够实现更好的细粒度图像识别。

本发明采用的技术方案是：样本预处理模块、背景过滤模块、属性引导模块，原型分类器；

所述样本预处理模块，用于将样本进行图像增强，并输入卷积神经网络进行初级特征提取；

所述背景过滤模块，用于通过卷积核和高维矩阵算法，使神经网络关注不同输入之间的相关性，从而过滤掉差异性大的背景特征；

所述属性引导模块，用于通过属性学习器得到属性特征映射，并引导神经网络学习各样本的细粒度特征；

所述原型分类器，用于获取细化的类原型特征，将经过属性引导模块处理的特征映射到嵌入空间得到类原型特征向量，计算新颖类到类原型的距离得到识别精度与损失，完成模型推理。

进一步地：所述样本预处理模块的图像增强包括将输入样本图片随机裁剪后统一尺寸大小84×84，调节样本图像亮度、对比度、饱和度属性，参数设置为0.4；

进一步地：所述样本预处理模块的卷积神经网络包括四个卷积层，所述卷积层每一层具体为：一个3×3卷积核、一个批量归一化层、一个ReLU激活层、一个窗口大小为2×2最大池化层，其输出为C×H×W形状的初级特征向量；其中，C是特征向量的深度，H是特征向量的高度，W是特征向量的宽度；

进一步地：所述背景过滤模块的卷积核大小为1×1，卷积核个数与初级特征向量的深度保持一致，高维矩阵算法步骤包括，

步骤一，初级特征向量经过q、k、v卷积核，得到Q、K、V三个特征矩阵；

步骤二，Q特征矩阵在H×W维度上转置之后与K特征矩阵相乘，得到矩阵At，

步骤三，对矩阵At进行归一化处理后得到权重矩阵at，at与V特征矩阵相乘后，得到过滤背景特征的细化特征图S；细化特征图S进入最大平均池化层，得到S'；

进一步地：所述的属性学习器包括，

步骤一，属性学习器包括两个1×1卷积、一个LeakyReLU激活层、一个Sigmoid激活层、一个Dropout层，得到(0,1)范围内的属性特征图A；

步骤二，属性特征图A作为细粒度属性权重矩阵分别与S和S'相乘，得到空间位置最相关的属性特征图(RS)和与属性最相关的类别特征图(CS)；融合RS于CS作为最终精细化输出F；

步骤三，空间位置最相关的属性特征图和与属性最相关的类别特征图分别与真值属性特征对齐，对齐Lr、Lc计算方式如下：

其中，

分别是S，S'的第k个元素，

是p^a的第k个属性，融合层包括两个1×1卷积、一个ReLU激活层；

进一步地：所述原型分类器的分类精度计算如下：

其中，

第j个新颖类的预测标签，y_j是第j个类的真值标签，

是支持集中每个类别的原型，q_j是第j个未见类的样本，d(·)代表欧几里得距离；

所述分类器损失计算公式为：

L＝L_cls+α(L_r+L_c)

其中L_cls为基础分类损失，L为总损失，Q为新颖类的样本数，α为比例系数。

实施本发明的有益效果在于：

由于细粒度图像在不同背景下，前景目标具有多尺度、多姿态等特点，而背景过滤模块对长距离像素滤波这有助于解决这一问题，将前景目标与无关杂波的降噪区分开来极为重要，可以帮助网络更好地感知到不同位置的对象和细粒度特征。属性引导模块将属性特征映射至视觉信息特征空间，并将数值范围控制在，属性权重将引导经过背景过滤模块处理的视觉表征学习类内细微变化。原型分类器得到修正的原型特征，学习特征的空间分布，使用欧氏距离计算新颖类到原型的距离，能够专注于细粒度特征，对新颖类进行预测，在小样本细粒度识别上取得最优效果。

附图说明

利用附图对本发明作进一步说明，但附图中的实施例不构成对本发明的任何限制，对于本领域的普通技术人员，在不付出创造性劳动的前提下，还可以根据以下附图获得其它的附图。

图1是一种基于双模态融合的小样本细粒度目标识别模型框架图；

图2是一种基于双模态融合的小样本细粒度目标识别模型的背景过滤模块算法流程图。

图3是一种基于双模态融合的小样本细粒度目标识别模型的属性引导算法流程图。

具体实施方式

为了使本领域的技术人员更好地理解本发明的技术方案，下面结合附图和具体实施例对本发明作进一步详细的描述，需要说明的是，在不冲突的情况下，本申请的实施例及实施例中的特征可以相互组合。

本文首先提出一种基于双模态融合的小样本细粒度目标识别模型，包括样本预处理模块、背景过滤模块、属性引导模块，原型分类器。参见图1，图1展示了一种基于双模态融合的小样本细粒度目标识别模型的整体框架图。为了更接近人类思维，我们引入语义辅助信息进行跨模态的学习，旨在增强细粒度特征表达，识别细微的类内差异。先利用背景过滤模块融合视觉特征上下文信息，突出目标前景，属性引导模块再融合辅助语义信息，以学习更多鉴别性的细粒度特征。我们加入正则化对齐机制，在空间和通道上对齐正确的属性知识。

背景过滤模块，用于通过卷积核和高维矩阵算法，使神经网络关注不同输入之间的相关性，从而过滤掉差异性大的背景特征；一种基于双模态融合的小样本细粒度目标识别模型的背景过滤模块算法流程图如图2所示。背景过滤模块的卷积核大小为1×1，卷积核个数与初级特征向量的深度保持一致，高维矩阵算法步骤包括：

步骤三，对矩阵At进行归一化处理后得到权重矩阵at，at与V特征矩阵相乘后，得到过滤背景特征的细化特征图S；细化特征图S进入最大平均池化层，得到S'；，

属性引导模块，用于通过属性学习器得到属性特征映射，并引导神经网络学习各样本的细粒度特征；一种基于双模态融合的小样本细粒度目标识别模型的属性引导模块算法流程图如图3所示。属性引导模块算法流程包括：

其中，

分别是S，S'的第k个元素，

另外，原型分类器用于获取细化的类原型特征，将经过属性引导模块处理的特征映射到嵌入空间得到类原型特征向量，计算新颖类到类原型的距离得到识别精度与损失，完成模型推理。所述原型分类器的分类精度计算如下：

其中，

第j个新颖类的预测标签，y_j是第j个类的真值标签，

所述分类器损失计算公式为：

L＝L_cls+α(L_r+L_c)

上面的描述中阐述了很多具体细节以便于充分理解本发明，但是，本发明以采用其他不同于在此描述的其他方式来实施，因此，不能理解为对本发明保护范围的限制。

总之，本发明虽然列举了上述优选实施方式，但是应该说明，虽然本领域的技术人员可以进行各种变化和改型，除非这样的变化和改型偏离了本发明的范围，否则都应该包括在本发明的保护范围内。

Claims

1.一种基于双模态融合的小样本细粒度目标识别模型及方法，其特征在于，所述算法包括样本预处理模块、背景过滤模块、属性引导模块，原型分类器；

所述样本预处理模块，用于将样本进行图像增强，并输入卷积神经网络进行初级特征提取；所述背景过滤模块，用于通过卷积核和高维矩阵算法，使神经网络关注不同输入之间的相关性，从而过滤掉差异性大的背景特征；

2.如权利要求1所述的样本预处理模块，其特征在于，所述的图像增强包括将输入样本图片随机裁剪后统一尺寸大小84×84，调节样本图像亮度、对比度、饱和度属性，参数设置为0.4；

3.如权利要求1所述的样本预处理模块，其特征在于，所述的卷积神经网络包括四个卷积层，所述卷积层每一层具体为：一个3×3卷积核、一个批量归一化层、一个ReLU激活层、一个窗口大小为2×2最大池化层，其输出为C×H×W形状的初级特征向量；其中，C是特征向量的深度，H是特征向量的高度，W是特征向量的宽度；

4.如权利要求1所述的背景过滤模块，其特征在于，所述的卷积核大小为3×3，卷积核个数与初级特征向量的深度保持一致，包括以下步骤：

步骤二，Q特征矩阵在H×W维度上转置之后与K特征矩阵相乘，得到矩阵At；

步骤三，对矩阵At进行归一化处理后得到权重矩阵at，at与V特征矩阵相乘后，得到过滤背景特征的细化特征图S；细化特征图S进入最大平均池化层，得到S’；

5.如权利要求1所述的属性引导模块，其特征在于，所述的属性学习器包括：

步骤三，空间位置最相关的属性特征图和与属性最相关的类别特征图分别与真值属性特征p^a对齐，对齐Lr、L_c计算方式如下：