CN115731415A - 基于双模态融合的小样本细粒度目标识别模型及方法 - Google Patents

基于双模态融合的小样本细粒度目标识别模型及方法 Download PDF

Info

Publication number
CN115731415A
CN115731415A CN202211429508.4A CN202211429508A CN115731415A CN 115731415 A CN115731415 A CN 115731415A CN 202211429508 A CN202211429508 A CN 202211429508A CN 115731415 A CN115731415 A CN 115731415A
Authority
CN
China
Prior art keywords
attribute
sample
fine
grained
module
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202211429508.4A
Other languages
English (en)
Inventor
周彦
任晓
杨珊
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Xiangtan University
Original Assignee
Xiangtan University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Xiangtan University filed Critical Xiangtan University
Priority to CN202211429508.4A priority Critical patent/CN115731415A/zh
Publication of CN115731415A publication Critical patent/CN115731415A/zh
Pending legal-status Critical Current

Links

Images

Landscapes

  • Image Analysis (AREA)

Abstract

本发明公开了一种基于双模态融合的小样本细粒度目标识别模型及方法。解决了现有技术中小样本细粒度图像识别类内差异小且单一视觉信息提供信息有限而导致识别准确率较低的问题。本发明系统包括样本预处理模块、背景过滤模块、属性引导模块,原型分类器。将样本数据集输入主干网络进行预处理;主干网络的输出表征经过背景过滤模块,得到细化的前景图;属性引导模块重构属性信息,指导网络学习前景图中的细粒度特征,其中属性正则化损失函数用来约束学习到的细粒度特征,以保证细粒度特征质量;构建所述的基于双模态融合的小样本细粒度目标识别模型的网络结构。本发明结合了结合自注意力、双模态融合学习、原型编码的原理,能够提供双模态信息且专注于局部区域,提高了分类器的性能和泛化能力,能够实现更好的小样本细粒度图片识别。

Description

基于双模态融合的小样本细粒度目标识别模型及方法
技术领域
本发明属于计算机视觉中的小样本图片分类领域,具体涉及一种基于双模态融合的小样本细粒度目标识别模型及方法。
背景技术
早期深度学习依赖于大量标记数据、计算机优秀的运算能力以及大型神经网络而得到飞速发展,然而人们发现获取大量标记数据的代价是昂贵的,大型神经网络的成功也取决于计算机充裕的库容量和杰出的推理能力。让机器像人类一样学习是深度学习的目标之一,而人类拥有可以仅从一个或者几个示例轻松识别从未见过新颖事物的能力,小样本学习的概念应运而生。
小样本识别主要是采用单模态方法来解决,但细粒度小样本识别问题具有类内差异非常小的问题,如仅有部分毛发颜色不同等差异,而单纯的视觉特征提供的信息十分有限,导致识别准确率较低。
发明内容
本发明的目的是提供一种基于双模态融合的小样本细粒度目标识别模型及方法,以解决目前小样本细粒度图像识别类内差异小且单纯的视觉特征提供的信息十分有限,导致识别准确率较低的问题。本申请通过结合自注意力、双模态融合学习、原型编码的原理,能够专注于细粒度特征,计算样本特征空间分布,能够实现更好的细粒度图像识别。
本发明采用的技术方案是:样本预处理模块、背景过滤模块、属性引导模块,原型分类器;
所述样本预处理模块,用于将样本进行图像增强,并输入卷积神经网络进行初级特征提取;
所述背景过滤模块,用于通过卷积核和高维矩阵算法,使神经网络关注不同输入之间的相关性,从而过滤掉差异性大的背景特征;
所述属性引导模块,用于通过属性学习器得到属性特征映射,并引导神经网络学习各样本的细粒度特征;
所述原型分类器,用于获取细化的类原型特征,将经过属性引导模块处理的特征映射到嵌入空间得到类原型特征向量,计算新颖类到类原型的距离得到识别精度与损失,完成模型推理。
进一步地:所述样本预处理模块的图像增强包括将输入样本图片随机裁剪后统一尺寸大小84×84,调节样本图像亮度、对比度、饱和度属性,参数设置为0.4;
进一步地:所述样本预处理模块的卷积神经网络包括四个卷积层,所述卷积层每一层具体为:一个3×3卷积核、一个批量归一化层、一个ReLU激活层、一个窗口大小为2×2最大池化层,其输出为C×H×W形状的初级特征向量;其中,C是特征向量的深度,H是特征向量的高度,W是特征向量的宽度;
进一步地:所述背景过滤模块的卷积核大小为1×1,卷积核个数与初级特征向量的深度保持一致,高维矩阵算法步骤包括,
步骤一,初级特征向量经过q、k、v卷积核,得到Q、K、V三个特征矩阵;
步骤二,Q特征矩阵在H×W维度上转置之后与K特征矩阵相乘,得到矩阵At,
步骤三,对矩阵At进行归一化处理后得到权重矩阵at,at与V特征矩阵相乘后,得到过滤背景特征的细化特征图S;细化特征图S进入最大平均池化层,得到S';
进一步地:所述的属性学习器包括,
步骤一,属性学习器包括两个1×1卷积、一个LeakyReLU激活层、一个Sigmoid激活层、一个Dropout层,得到(0,1)范围内的属性特征图A;
步骤二,属性特征图A作为细粒度属性权重矩阵分别与S和S'相乘,得到空间位置最相关的属性特征图(RS)和与属性最相关的类别特征图(CS);融合RS于CS作为最终精细化输出F;
步骤三,空间位置最相关的属性特征图和与属性最相关的类别特征图分别与真值属性特征对齐,对齐Lr、Lc计算方式如下:
Figure BDA0003944037400000021
Figure BDA0003944037400000022
其中,
Figure BDA0003944037400000023
分别是S,S'的第k个元素,
Figure BDA0003944037400000024
是pa的第k个属性,融合层包括两个1×1卷积、一个ReLU激活层;
进一步地:所述原型分类器的分类精度计算如下:
Figure BDA0003944037400000025
其中,
Figure BDA0003944037400000026
第j个新颖类的预测标签,yj是第j个类的真值标签,
Figure BDA0003944037400000027
是支持集中每个类别的原型,qj是第j个未见类的样本,d(·)代表欧几里得距离;
所述分类器损失计算公式为:
Figure BDA0003944037400000028
L=Lcls+α(Lr+Lc)
其中Lcls为基础分类损失,L为总损失,Q为新颖类的样本数,α为比例系数。
实施本发明的有益效果在于:
由于细粒度图像在不同背景下,前景目标具有多尺度、多姿态等特点,而背景过滤模块对长距离像素滤波这有助于解决这一问题,将前景目标与无关杂波的降噪区分开来极为重要,可以帮助网络更好地感知到不同位置的对象和细粒度特征。属性引导模块将属性特征映射至视觉信息特征空间,并将数值范围控制在,属性权重将引导经过背景过滤模块处理的视觉表征学习类内细微变化。原型分类器得到修正的原型特征,学习特征的空间分布,使用欧氏距离计算新颖类到原型的距离,能够专注于细粒度特征,对新颖类进行预测,在小样本细粒度识别上取得最优效果。
附图说明
利用附图对本发明作进一步说明,但附图中的实施例不构成对本发明的任何限制,对于本领域的普通技术人员,在不付出创造性劳动的前提下,还可以根据以下附图获得其它的附图。
图1是一种基于双模态融合的小样本细粒度目标识别模型框架图;
图2是一种基于双模态融合的小样本细粒度目标识别模型的背景过滤模块算法流程图。
图3是一种基于双模态融合的小样本细粒度目标识别模型的属性引导算法流程图。
具体实施方式
为了使本领域的技术人员更好地理解本发明的技术方案,下面结合附图和具体实施例对本发明作进一步详细的描述,需要说明的是,在不冲突的情况下,本申请的实施例及实施例中的特征可以相互组合。
本文首先提出一种基于双模态融合的小样本细粒度目标识别模型,包括样本预处理模块、背景过滤模块、属性引导模块,原型分类器。参见图1,图1展示了一种基于双模态融合的小样本细粒度目标识别模型的整体框架图。为了更接近人类思维,我们引入语义辅助信息进行跨模态的学习,旨在增强细粒度特征表达,识别细微的类内差异。先利用背景过滤模块融合视觉特征上下文信息,突出目标前景,属性引导模块再融合辅助语义信息,以学习更多鉴别性的细粒度特征。我们加入正则化对齐机制,在空间和通道上对齐正确的属性知识。
背景过滤模块,用于通过卷积核和高维矩阵算法,使神经网络关注不同输入之间的相关性,从而过滤掉差异性大的背景特征;一种基于双模态融合的小样本细粒度目标识别模型的背景过滤模块算法流程图如图2所示。背景过滤模块的卷积核大小为1×1,卷积核个数与初级特征向量的深度保持一致,高维矩阵算法步骤包括:
步骤一,初级特征向量经过q、k、v卷积核,得到Q、K、V三个特征矩阵;
步骤二,Q特征矩阵在H×W维度上转置之后与K特征矩阵相乘,得到矩阵At,
步骤三,对矩阵At进行归一化处理后得到权重矩阵at,at与V特征矩阵相乘后,得到过滤背景特征的细化特征图S;细化特征图S进入最大平均池化层,得到S';,
属性引导模块,用于通过属性学习器得到属性特征映射,并引导神经网络学习各样本的细粒度特征;一种基于双模态融合的小样本细粒度目标识别模型的属性引导模块算法流程图如图3所示。属性引导模块算法流程包括:
步骤一,属性学习器包括两个1×1卷积、一个LeakyReLU激活层、一个Sigmoid激活层、一个Dropout层,得到(0,1)范围内的属性特征图A;
步骤二,属性特征图A作为细粒度属性权重矩阵分别与S和S'相乘,得到空间位置最相关的属性特征图(RS)和与属性最相关的类别特征图(CS);融合RS于CS作为最终精细化输出F;
步骤三,空间位置最相关的属性特征图和与属性最相关的类别特征图分别与真值属性特征对齐,对齐Lr、Lc计算方式如下:
Figure BDA0003944037400000041
Figure BDA0003944037400000042
其中,
Figure BDA0003944037400000043
分别是S,S'的第k个元素,
Figure BDA0003944037400000044
是pa的第k个属性,融合层包括两个1×1卷积、一个ReLU激活层;
另外,原型分类器用于获取细化的类原型特征,将经过属性引导模块处理的特征映射到嵌入空间得到类原型特征向量,计算新颖类到类原型的距离得到识别精度与损失,完成模型推理。所述原型分类器的分类精度计算如下:
Figure BDA0003944037400000045
其中,
Figure BDA0003944037400000046
第j个新颖类的预测标签,yj是第j个类的真值标签,
Figure BDA0003944037400000047
是支持集中每个类别的原型,qj是第j个未见类的样本,d(·)代表欧几里得距离;
所述分类器损失计算公式为:
Figure BDA0003944037400000048
L=Lcls+α(Lr+Lc)
其中Lcls为基础分类损失,L为总损失,Q为新颖类的样本数,α为比例系数。
上面的描述中阐述了很多具体细节以便于充分理解本发明,但是,本发明以采用其他不同于在此描述的其他方式来实施,因此,不能理解为对本发明保护范围的限制。
总之,本发明虽然列举了上述优选实施方式,但是应该说明,虽然本领域的技术人员可以进行各种变化和改型,除非这样的变化和改型偏离了本发明的范围,否则都应该包括在本发明的保护范围内。

Claims (6)

1.一种基于双模态融合的小样本细粒度目标识别模型及方法,其特征在于,所述算法包括样本预处理模块、背景过滤模块、属性引导模块,原型分类器;
所述样本预处理模块,用于将样本进行图像增强,并输入卷积神经网络进行初级特征提取;所述背景过滤模块,用于通过卷积核和高维矩阵算法,使神经网络关注不同输入之间的相关性,从而过滤掉差异性大的背景特征;
所述属性引导模块,用于通过属性学习器得到属性特征映射,并引导神经网络学习各样本的细粒度特征;
所述原型分类器,用于获取细化的类原型特征,将经过属性引导模块处理的特征映射到嵌入空间得到类原型特征向量,计算新颖类到类原型的距离得到识别精度与损失,完成模型推理。
2.如权利要求1所述的样本预处理模块,其特征在于,所述的图像增强包括将输入样本图片随机裁剪后统一尺寸大小84×84,调节样本图像亮度、对比度、饱和度属性,参数设置为0.4;
3.如权利要求1所述的样本预处理模块,其特征在于,所述的卷积神经网络包括四个卷积层,所述卷积层每一层具体为:一个3×3卷积核、一个批量归一化层、一个ReLU激活层、一个窗口大小为2×2最大池化层,其输出为C×H×W形状的初级特征向量;其中,C是特征向量的深度,H是特征向量的高度,W是特征向量的宽度;
4.如权利要求1所述的背景过滤模块,其特征在于,所述的卷积核大小为3×3,卷积核个数与初级特征向量的深度保持一致,包括以下步骤:
步骤一,初级特征向量经过q、k、v卷积核,得到Q、K、V三个特征矩阵;
步骤二,Q特征矩阵在H×W维度上转置之后与K特征矩阵相乘,得到矩阵At;
步骤三,对矩阵At进行归一化处理后得到权重矩阵at,at与V特征矩阵相乘后,得到过滤背景特征的细化特征图S;细化特征图S进入最大平均池化层,得到S’;
5.如权利要求1所述的属性引导模块,其特征在于,所述的属性学习器包括:
步骤一,属性学习器包括两个1×1卷积、一个LeakyReLU激活层、一个Sigmoid激活层、一个Dropout层,得到(0,1)范围内的属性特征图A;
步骤二,属性特征图A作为细粒度属性权重矩阵分别与S和S'相乘,得到空间位置最相关的属性特征图(RS)和与属性最相关的类别特征图(CS);融合RS于CS作为最终精细化输出F;
步骤三,空间位置最相关的属性特征图和与属性最相关的类别特征图分别与真值属性特征pa对齐,对齐Lr、Lc计算方式如下:
Figure FDA0003944037390000021
Figure FDA0003944037390000022
其中,
Figure FDA0003944037390000023
分别是S,S'的第k个元素,
Figure FDA0003944037390000024
是pa的第k个属性,融合层包括两个1×1卷积、一个ReLU激活层;
6.如权利要求1所述的原型分类器,其特征在于,分类精度计算如下:
Figure FDA0003944037390000025
其中,
Figure FDA0003944037390000026
是第j个新颖类的预测标签,yj是第j个类的真值标签,
Figure FDA0003944037390000027
是支持集中每个类别的原型,qj是第j个未见类的样本,d(·)代表欧几里得距离;
所述分类器损失计算公式为:
Figure FDA0003944037390000028
L=Lcls+α(Lr+Lc)
其中Lcls是基础分类损失,L为总损失,Q为新颖类的样本数,α为比例系数。
CN202211429508.4A 2022-11-15 2022-11-15 基于双模态融合的小样本细粒度目标识别模型及方法 Pending CN115731415A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202211429508.4A CN115731415A (zh) 2022-11-15 2022-11-15 基于双模态融合的小样本细粒度目标识别模型及方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202211429508.4A CN115731415A (zh) 2022-11-15 2022-11-15 基于双模态融合的小样本细粒度目标识别模型及方法

Publications (1)

Publication Number Publication Date
CN115731415A true CN115731415A (zh) 2023-03-03

Family

ID=85295853

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202211429508.4A Pending CN115731415A (zh) 2022-11-15 2022-11-15 基于双模态融合的小样本细粒度目标识别模型及方法

Country Status (1)

Country Link
CN (1) CN115731415A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116630726A (zh) * 2023-07-26 2023-08-22 成都大熊猫繁育研究基地 基于多模态的鸟类分类方法及系统

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116630726A (zh) * 2023-07-26 2023-08-22 成都大熊猫繁育研究基地 基于多模态的鸟类分类方法及系统
CN116630726B (zh) * 2023-07-26 2023-09-22 成都大熊猫繁育研究基地 基于多模态的鸟类分类方法及系统

Similar Documents

Publication Publication Date Title
CN112926396B (zh) 一种基于双流卷积注意力的动作识别方法
CN108460356B (zh) 一种基于监控系统的人脸图像自动处理系统
CN112766158B (zh) 基于多任务级联式人脸遮挡表情识别方法
CN111639544B (zh) 基于多分支跨连接卷积神经网络的表情识别方法
CN110070107B (zh) 物体识别方法及装置
Vig et al. Large-scale optimization of hierarchical features for saliency prediction in natural images
CN112150493B (zh) 一种基于语义指导的自然场景下屏幕区域检测方法
CN104599275B (zh) 基于概率图模型的非参数化的rgb-d场景理解方法
CN111753752B (zh) 基于卷积神经网络多层特征融合的机器人闭环检测方法
CN112801015B (zh) 一种基于注意力机制的多模态人脸识别方法
CN112580590A (zh) 一种基于多语义特征融合网络的指静脉识别方法
CN111582044A (zh) 基于卷积神经网络和注意力模型的人脸识别方法
CN112232184B (zh) 一种基于深度学习和空间转换网络的多角度人脸识别方法
CN113963032A (zh) 一种融合目标重识别的孪生网络结构目标跟踪方法
CN110222718A (zh) 图像处理的方法及装置
CN110110724A (zh) 基于指数型挤压函数驱动胶囊神经网络的文本验证码识别方法
CN115731415A (zh) 基于双模态融合的小样本细粒度目标识别模型及方法
CN112016592B (zh) 基于交叉领域类别感知的领域适应语义分割方法及装置
CN115330759B (zh) 一种基于豪斯多夫距离计算距离损失的方法及装置
Qiu Convolutional neural network based age estimation from facial image and depth prediction from single image
CN116758415A (zh) 一种基于二维离散小波变换的轻量化害虫识别方法
CN112560824B (zh) 一种基于多特征自适应融合的人脸表情识别方法
Zhang et al. A mixed depthwise separation residual network for image feature extraction
CN112613574B (zh) 一种图像分类模型的训练方法、图像分类方法和装置
Pei et al. FGO-Net: Feature and Gaussian Optimization Network for visual saliency prediction

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination