CN113743497A

CN113743497A - 基于注意力机制与多尺度特征的细粒度识别方法及系统

Info

Publication number: CN113743497A
Application number: CN202111025778.4A
Authority: CN
Inventors: 李泽超; 袁呈呈; 唐金辉
Original assignee: Nanjing University of Science and Technology
Current assignee: Nanjing University of Science and Technology
Priority date: 2021-09-02
Filing date: 2021-09-02
Publication date: 2021-12-03

Abstract

本发明提供了一种基于注意力机制与多尺度特征的细粒度识别方法及系统，方法包括：获取待识别图片；将待识别图片输入类别确定模型中，得到所述待识别训练图片的类别。本发明中的类别确定模型能够同时捕获图片的整体特征和细节特征，能够提高小样本细粒度识别的识别精度。

Description

基于注意力机制与多尺度特征的细粒度识别方法及系统

技术领域

本发明涉及训练图片识别技术领域，特别是涉及一种基于注意力机制与多尺度特征的细粒度识别方法及系统。

背景技术

小样本学习是机器学习领域一个重要的问题，关注如何使用少量样本就能够识别一类目标。其中，细粒度识别，也称为子类别识别，旨在区分属于同一超类别下不同子类别的对象(例如区分不同种类的狗)。细粒度识别需要区分细微的视觉差异，这比通用对象识别更具挑战性。最近，卷积神经网络的快速发展在这个研究课题上取得了很大进展。然而，一些方法依赖于额外的注释(例如，边界框或部件注释)，而这些注释通常需要专业知识。其次，几乎所有的工作都严重依赖于大规模标注良好的训练数据。

小样本细粒度识别是一项新任务，探索如何使用少量标注数据完成细颗粒度识别任务。现有的细颗粒度小样本学习方法，直接使用包含全局信息的整体特征(即大尺度特征，卷积神经网络深层经过较多降采样得到的特征)用于识别任务，忽略了包含局部信息的细节特征(即小尺度特征，卷积神经网络浅层经过较少降采样得到的特征)，于是限制训练图片小样本细粒度识别的实现别精度。

发明内容

本发明的目的是提供一种基于注意力机制与多尺度特征的细粒度识别方法及系统，能够提高小样本细粒度识别的识别精度。

为实现上述目的，本发明提供了如下方案：

一种基于注意力机制与多尺度特征的细粒度识别方法，包括：

获取待识别图片；

将所述待识别图片输入类别确定模型中，得到所述待识别训练图片的类别；所述类别确定模型是通过对训练图片的整体特征和细节特征对卷积神经网络进行训练得到的；所述细节特征是利用注意力模块对训练图片进行训练得到的。

可选的，在所述获取待识别图像之前，还包括：

获取多张训练图片作为训练集；所述训练集包括支撑集和查询集；所述支撑集中训练图片的种类数量大于或等于所述查询中训练图片的种类数量；

将所述训练集内的训练图片均输入卷积神经网络中进行特征提取处理，得到每张训练图片的整体特征和空间注意力得分；

根据每张训练图片的空间注意力得分，得到每张训练图片的细节特征；

拼接同一张训练图片的整体特征和细节特征，得到多张训练图片的总特征；

将支撑集内同一类别的多张训练图片的总特征的均值作为类别指标，得到多个类别指标；

根据查询集内每张训练图片的总特征和多个类别指标，利用ProtoNet算法，确定查询集内每张训练图片在每个类别下的类别分数；

将查询集内每张训练图片的类别分数的最大值对应的类别确定为查询集内训练图片的类别；

调整模型参数并返回步骤“将所述训练集内的训练图片均输入卷积神经网络中进行特征提取处理，得到每张训练图片的整体特征和空间注意力得分”直至达到预设迭代次数，得到所述类别确定模型。

可选的，所述将所述训练集内的训练图片均输入卷积神经网络中进行特征提取处理，得到每张训练图片的整体特征和空间注意力得分，具体包括：

确定任一训练图片为当前训练图片；

对所述当前训练图片进行第多次降采样处理，得到所述当前训练图片的多个尺度特征；

将所述当前训练图片的多个所述尺度特征进行卷积叠加处理，得到所述当前训练图片的多个一次卷积叠加处理后的尺度特征；

利用卷积神经网络中的注意力模块对所述当前训练图片的多个一次卷积叠加处理后的尺度特征进行处理，得到当前训练图片的空间注意力得分；

将所述当前训练图片的多个一次卷积叠加处理后的尺度特征进行卷积叠加处理，得到所述当前训练图片的多个二次卷积叠加处理后的尺度特征；

将多个一次卷积叠加处理后的尺度特征进行全局均值池化处理，得到多个全局均值池化处理后的尺度特征；

将多个全局均值池化处理后的尺度特征进行拼接，作为初始的整体特征；

将所述当前训练图片的多个所述尺度特征与所述空间注意力得分进行加权全局均值池化处理后，再与所述初始的整体特征拼接，得到所述整体特征。

可选的，所述根据每张训练图片的空间注意力得分，得到每张训练图片的细节特征，具体包括：

利用公式

确定裁剪图片的边界坐标；所述边界坐标包括左坐标、右坐标、上坐标和下坐标；其中，X_left为左坐标，X_right为右坐标，Y_top为上坐标，Y_bottom为下坐标，H为当前训练图片的高度，W为当前训练图片的宽度，S^i，j为在第i行第j列个空间注意力得分，θ为裁剪阈值；l、r、t、b分别表示左边界、右边界、上边界和下边界；

根据所述边界坐标对当前训练图片进行裁剪，得到裁剪图片；

将所述裁剪图片的尺寸调整为所述对裁剪训练图片的尺寸，得到裁剪训练图片；

对所述裁剪训练图片进行第多次降采样处理，得到所述裁剪训练图片的多个尺度特征；

将所述裁剪训练图片的多个所述尺度特征进行卷积叠加处理，得到所述裁剪训练图片的多个一次卷积叠加处理后的尺度特征；

利用卷积神经网络中的注意力模块对所述裁剪训练图片的多个一次卷积叠加处理后的尺度特征进行处理，得到裁剪训练图片的空间注意力得分；

将所述裁剪训练图片的多个一次卷积叠加处理后的尺度特征进行卷积叠加处理，得到所述裁剪训练图片的多个二次卷积叠加处理后的尺度特征；

将多个全局均值池化处理后的尺度特征进行拼接，作为初始的细节特征；

将所述裁剪训练图片的多个所述尺度特征与所述空间注意力得分进行加权全局均值池化处理后，再与所述初始的细节特征拼接，得到所述细节特征。

可选的，所述类别确定模型的损失函数为训练集中多张训练图片的初始分类分数和查询集内每张训练图片的类别分数的交叉熵；所述初始分类分数为所述训练图片的传统分类分数和非传统分类分数之和；所述传统分类分数是所述整体特征或所述细节特征经过卷积神经网络中的第一分类器得到的；所述非传统分类分数是所述总特征经过卷积神经网络中的第二分类器得到的。

一种基于注意力机制与多尺度特征的细粒度识别系统，包括：

待识别图片获取模块，用于获取待识别图片；

待识别图片类别识别模块，用于将所述待识别图片输入类别确定模型中，得到所述待识别训练图片的类别；所述类别确定模型是通过对训练图片的整体特征和细节特征对卷积神经网络进行训练得到的；所述细节特征是利用注意力模块对训练图片进行训练得到的。

可选的，所述系统，还包括：

训练集获取模块，用于获取多张训练图片作为训练集；所述训练集包括支撑集和查询集；所述支撑集中训练图片的种类数量大于或等于所述查询中训练图片的种类数量；

整体特征提取模块，用于将所述训练集内的训练图片均输入卷积神经网络中进行特征提取处理，得到每张训练图片的整体特征和空间注意力得分；

细节特征提取模块，用于根据每张训练图片的空间注意力得分，得到每张训练图片的细节特征；

总特征确定模块，用于拼接同一张训练图片的整体特征和细节特征，得到多张训练图片的总特征；

类别指标确定模块，用于将支撑集内同一类别的多张训练图片的总特征的均值作为类别指标，得到多个类别指标；

类别分数确定模块，用于根据查询集内每张训练图片的总特征和多个类别指标，利用ProtoNet算法，确定查询集内每张训练图片在每个类别下的类别分数；

训练图片类别确定模块，用于将查询集内每张训练图片的类别分数的最大值对应的类别确定为查询集内训练图片的类别；

类别确定模型确定模块，用于调整模型参数并调用所述整体特征提取模块直至达到预设迭代次数，得到所述类别确定模型。

可选的，所述整体特征提取模块，具体包括：

当前训练图片确定单元，用于确定任一训练图片为当前训练图片；

第一尺度特征确定单元，用于对所述当前训练图片进行第多次降采样处理，得到所述当前训练图片的多个尺度特征；

第一卷积叠加处理单元，用于将所述当前训练图片的多个所述尺度特征进行卷积叠加处理，得到所述当前训练图片的多个一次卷积叠加处理后的尺度特征；

第一空间注意力得分确定单元，用于利用卷积神经网络中的注意力模块对所述当前训练图片的多个一次卷积叠加处理后的尺度特征进行处理，得到当前训练图片的空间注意力得分；

第二卷积叠加处理单元，用于将所述当前训练图片的多个一次卷积叠加处理后的尺度特征进行卷积叠加处理，得到所述当前训练图片的多个二次卷积叠加处理后的尺度特征；

第一全局均值池化处理处理单元，用于将多个一次卷积叠加处理后的尺度特征进行全局均值池化处理，得到多个全局均值池化处理后的尺度特征；

初始的整体特征确定单元，用于将多个全局均值池化处理后的尺度特征进行拼接，作为初始的整体特征；

整体特征确定单元，用于将所述当前训练图片的多个所述尺度特征与所述空间注意力得分进行加权全局均值池化处理后，再与所述初始的整体特征拼接，得到所述整体特征。

可选的，所述细节特征提取模块，具体包括：

边界坐标确定单元，用于利用公式

裁剪单元，用于根据所述边界坐标对当前训练图片进行裁剪，得到裁剪图片；

裁剪训练图片确定单元，用于将所述裁剪图片的尺寸调整为所述对裁剪训练图片的尺寸，得到裁剪训练图片；

第二尺度特征确定单元，用于对所述裁剪训练图片进行第多次降采样处理，得到所述裁剪训练图片的多个尺度特征；

第三卷积叠加处理单元，用于将所述裁剪训练图片的多个所述尺度特征进行卷积叠加处理，得到所述裁剪训练图片的多个一次卷积叠加处理后的尺度特征；

第二空间注意力得分确定单元，用于利用卷积神经网络中的注意力模块对所述裁剪训练图片的多个一次卷积叠加处理后的尺度特征进行处理，得到裁剪训练图片的空间注意力得分；

第四卷积叠加处理单元，用于将所述裁剪训练图片的多个一次卷积叠加处理后的尺度特征进行卷积叠加处理，得到所述裁剪训练图片的多个二次卷积叠加处理后的尺度特征；

第二全局均值池化处理处理单元，用于将多个一次卷积叠加处理后的尺度特征进行全局均值池化处理，得到多个全局均值池化处理后的尺度特征；

初始的细节特征确定单元，用于将多个全局均值池化处理后的尺度特征进行拼接，作为初始的细节特征；

细节特征确定单元，用于将所述裁剪训练图片的多个所述尺度特征与所述空间注意力得分进行加权全局均值池化处理后，再与所述初始的细节特征拼接，得到所述细节特征。

根据本发明提供的具体实施例，本发明公开了以下技术效果：

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例基于注意力机制与多尺度特征的细粒度识别方法流程图；

图2为本发明实施例基于注意力机制与多尺度特征的细粒度识别结构示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

为使本发明的上述目的、特征和优点能够更加明显易懂，下面结合附图和具体实施方式对本发明作进一步详细的说明。

图1为本发明实施例基于注意力机制与多尺度特征的细粒度识别方法流程图，如图1所示，本发明提供了一种基于注意力机制与多尺度特征的细粒度识别方法，包括：

步骤101：获取待识别图片；

步骤102：将待识别图片输入类别确定模型中，得到待识别训练图片的类别；类别确定模型是通过对训练图片的整体特征和细节特征对卷积神经网络进行训练得到的；细节特征是利用注意力模块对训练图片进行训练得到的。

在步骤101之前，还包括：

获取多张训练图片作为训练集；训练集包括支撑集和查询集；支撑集中训练图片的种类数量大于或等于查询中训练图片的种类数量；

将训练集内的训练图片均输入卷积神经网络中进行特征提取处理，得到每张训练图片的整体特征和空间注意力得分；

调整模型参数并返回步骤“将训练集内的训练图片均输入卷积神经网络中进行特征提取处理，得到每张训练图片的整体特征和空间注意力得分”直至达到预设迭代次数，得到类别确定模型。

其中，将训练集内的训练图片均输入卷积神经网络中进行特征提取处理，得到每张训练图片的整体特征和空间注意力得分，具体包括：

确定任一训练图片为当前训练图片；

对当前训练图片进行第多次降采样处理，得到当前训练图片的多个尺度特征；

将当前训练图片的多个尺度特征进行卷积叠加处理，得到当前训练图片的多个一次卷积叠加处理后的尺度特征；

利用卷积神经网络中的注意力模块对当前训练图片的多个一次卷积叠加处理后的尺度特征进行处理，得到当前训练图片的空间注意力得分；

将当前训练图片的多个一次卷积叠加处理后的尺度特征进行卷积叠加处理，得到当前训练图片的多个二次卷积叠加处理后的尺度特征；

将当前训练图片的多个尺度特征与空间注意力得分进行加权全局均值池化处理后，再与初始的整体特征拼接，得到整体特征。

其中，根据每张训练图片的空间注意力得分，得到每张训练图片的细节特征，具体包括：

利用公式

确定裁剪图片的边界坐标；边界坐标包括左坐标、右坐标、上坐标和下坐标；其中，X_left为左坐标，X_right为右坐标，Y_top为上坐标，Y_bottom为下坐标，H为当前训练图片的高度，W为当前训练图片的宽度，S^i，j为在第i行第j列个空间注意力得分，θ为裁剪阈值；l、r、t、b分别表示左边界、右边界、上边界和下边界；

根据边界坐标对当前训练图片进行裁剪，得到裁剪图片；

将裁剪图片的尺寸调整为对裁剪训练图片的尺寸，得到裁剪训练图片；

对裁剪训练图片进行第多次降采样处理，得到裁剪训练图片的多个尺度特征；

将裁剪训练图片的多个尺度特征进行卷积叠加处理，得到裁剪训练图片的多个一次卷积叠加处理后的尺度特征；

利用卷积神经网络中的注意力模块对裁剪训练图片的多个一次卷积叠加处理后的尺度特征进行处理，得到裁剪训练图片的空间注意力得分；

将裁剪训练图片的多个一次卷积叠加处理后的尺度特征进行卷积叠加处理，得到裁剪训练图片的多个二次卷积叠加处理后的尺度特征；

将裁剪训练图片的多个尺度特征与空间注意力得分进行加权全局均值池化处理后，再与初始的细节特征拼接，得到细节特征。

具体的，与设次数的损失函数为训练集中多张训练图片的初始分类分数和查询集内每张训练图片的类别分数的交叉熵；初始分类分数为训练图片的传统分类分数和非传统分类分数之和；传统分类分数是整体特征或细节特征经过卷积神经网络中的第一分类器得到的；非传统分类分数是总特征经过卷积神经网络中的第二分类器得到的。

具体的，本发明提供的一种基于注意力机制与多尺度特征的细粒度识别方法，包括：

步骤1：采集细颗粒度图片数据及其类别标注。

步骤2：训练时采用N-wayK-shot的训练方式，即每次随机从训练集中选取N个类别，每个类别选取K个图片，称作支撑集，每个类别还选取Q个图片，称作查询集。一次一共选取N*(K+Q)张图片。本方案能够在已知支撑集内N*K个图片的标签的情况下，预测查询集N*Q个图片的类别。

具体的，假设数据集里有200个类别，将其中100个类别划分为训练集，50个划分为验证集，50个划分为测试集。

训练时，只抽取训练集中的图片，验证集与测试集同理。

N-way K-shot步骤如下：一次迭代，选取N个类别，每个类别选取K张图片作为支撑集图片，Q张图片作为查询集图片。一次迭代共有N*K张支撑集图片，N*Q张查询集图片。通过本模型，对这些图片进行一系列卷积，得到N*K个支撑集特征，N*Q个查询集特征。

然后ProtoNet元学习算法将属于同一类别的支撑集特征取均值，称作该类的prototype。然后对于查询集特征，计算到各个类别的prototype的欧式距离的负数，作为该类别的分类分数。

步骤3：首先选择一个神经网络作为骨干网络，本方案选择以Conv64F作为骨干网络进行了实验。

步骤4：假设输入高为H宽为W的三通道图片，记作I∈R^3×H×W，I经过骨干网络的卷积，每一次降采样都会生成一个尺度的特征，分别记作

步骤5：注意力门(AttentionGate)模块，注意力门包含以下两个子模块：通道注意力门(ChannelGate)与空间注意力门(SpatialGate)。

通道注意力门ChannelGate会依次对输入数据进行全局均值池化、两次卷积和求绝对值操作；

空间注意力门SpatialGate会依次对输入数据进行一次卷积和求绝对值操作。

步骤6：通过多尺度特征金字塔对提取B₂，B₃，B₄进行以下操作：

首先对特征进行一层卷积，得到一次卷积后的B₂，B₃，B₄，记作：F_2-0、F_3-0、F_4-0。

F_4-0＝Conv(B₄)

F_3-0＝Conv(B₃)

F_2-0＝Conv(B₂)

然后将高层次的特征经过上采样以后，与低层次特征相加，再进行一次卷积，得到二次卷积后的B₂，B₃，B₄，记作：F_2-1、F_3-1、F_4-1。

F_4-1＝Conv(F_4-0)

F_3-1＝Conv(F_3-0+UpSample(F_4-1))

F_2-1＝Conv(F_2-0+UpSample(F_3-1))

其中，F_4-0，F_4-1是层次4的特征，F_3-0，F_3-1是层次3的特征，F_2-0，F_2-1是层次2的特征，F_4-0，F_4-1与F_3-0，F_3-1相比，F_4-0，F_4-1是高层次特征，F_3-0，F_3-1是低层次特征。F_3-0，F_3-1与F_2-0，F_2-1相比，F_4-0，F_4-1是高层次特征，F_2-0，F_2-1是低层次特征。

使用通道注意力门和空间注意力门，突出重要的部分：

F_{4-channel-attention}＝ChannelGate(F_4-1)

F_{4-spatital-attention}＝SpatitalGate(F_4-1*F_{4-channel-attention})

F_4-2＝F_4-1*F_{4-channel-attention}*F_{4-spatital-attention}

F_{3-channel-attention}＝ChannelGate(F_3-1)

F_{3-spatital-attention}＝SpatitalGate(F_3-1*F_{3-channel-attention})

F_3-2＝F_3-1*F_{3-channel-attention}*F_{3-spatital-attention}

F_{2-channel-attention}＝ChannelGate(F_2-1)

F_{2-spatital-attention}＝SpatitalGate(F_2-1*F_{2-channel-attention})

F_2-2＝F_2-1*F_{2-channel-attention}*F_{2-spatital-attention}

其中：F_{4-channel-attention}、F_{3-channel-attention}、F_{2-channel-attention}分别为层次4、层次3、层次2的通道注意力，F_{4-spatital-attention}、F_{3-spatital-attention}、F_{2-spatital-attention}分别为层次4、层次3、层次2的空间注意力；F_4-2、F_3-2、F_2-2分别为经过注意力机制加权后的F_4-1、F_3-1、F_2-1。

最后再将低层次特征下采样以后和高层次特征相加，再进行卷积，得到三次卷积的B₂，B₃，B₄，记作：F_2-3、F_3-3、F_4-3。

F_2-3＝Conv(F_2-0+F_2-2)

F_3-3＝Conv(F_3-0+F_3-2+DownSample(F_2-3))

F_4-3＝Conv(F_4-0+F_4-2+DownSample(F_3-3))

各个层次三次卷积后的的特征经过全局均值池化后拼接起来得到的最终特征，记作F_MSFP。

F_MSFP＝Concat(Pool(F_2-3)，Pool(F_3-3)，Pool(F_4-3))

其中，Conv代表卷积，UpSample代表使用双线性插值法进行上采样2倍，DownSample代表使用双线性插值法进行下采样2倍，Concat代表在通道维度拼接特征，Pool代表全局均值池化。

步骤7：将F_MSFP经过一个包含两层的全连接层的分类器，得到传统分类分数，记作TraditionalScore_raw。

步骤8：将骨干网络输出B₄，B₃，B₂经过空间注意力加权后，再经过全局均值池化，与F_MSFP拼接起来，得到元学习分类特征，记作F_meta-raw。

F_meta-raw＝Concat(Pool(F_{4-spatital-attention}

*B₄)，Pool(F_{3-spatital-attention}*B₃)，Pool(F_{2-spatital-attention}

*B₂)，F_MSFP)

步骤9：根据空间注意力得分F_{2-spatital-attention}对原图进行裁剪。裁剪方式如下：

记输入图片为I∈R^3×H×W，空间注意力得分图

裁剪阈值为θ。

首先将F_{2-spatital-attention}的宽和高拉伸到H×W，然后进行归一化，结果记作S∈R¹ ^×H×W。

按照如下方式计算裁剪区域的左右上下坐标：X_left,X_right，Y_top,Y_bottom。

然后根据X_left,X_right，Y_top,Y_bottom对原图I进行裁剪，然后剪裁后的的图片拉伸到H×W，将得到的新图片记作I_refine。l含义为left，左边界。图像的第1～left-1列是被左边界裁掉的区域。X_left是使得左边裁掉区域内空间注意力得分尽可能大但是又不超过θ的左边界。r含义为right，右边界。图像的第right+1～W列是被右边界裁掉的区域。X_right是使得右边裁掉区域内空间注意力得分尽可能大但是又不超过θ的右边界。t含义为top，上边界。图像的第1～top-1行是被上边界裁掉的区域。Y_top是使得上边裁掉区域内空间注意力得分尽可能大但是又不超过θ的上边界。b含义为bottom，下边界。图像的第bottom+1～H行是被下边界裁掉的区域。Y_bottom是使得下边裁掉区域内空间注意力得分尽可能大但是又不超过θ的下边界。

步骤10：将新得到的图片I_refine进行步骤4到步骤8中的操作。其中在步骤7中产生的传统分类分数记作TraditionalScore_refine，在步骤8中产生的元学习分类特征记作F_meta-refine。

步骤11：将F_meta-refine与F_meta-raw拼接起来，记作F_meta：

F_meta＝Concat(F_meta-refine，F_meta-raw)

步骤12：将TraditionalScore_refine与TraditionalScore_raw求和，记作TraditionalScore：

TraditionalScore＝TraditionalScore_refine+TraditionalScore_raw

步骤13：使用元学习算法ProtoNet算法，根据F_meta进行分类，得到一个元学习分类分数，记作MetaScore。

步骤14：记模型的参数为

则损失函数为

为MetaScore和TraditionalScore(步骤7中传统分类器分数)与图片真实类别的交叉熵。

步骤15：使用Adam算法，根据损失函数

更新模型参数。

步骤16：使用MetaScore中分数最高的类别作为对目标真实类别的预测。

图2为本发明实施例基于注意力机制与多尺度特征的细粒度识别结构示意图，如图2所示，本发明还提供了一种基于注意力机制与多尺度特征的细粒度识别系统，包括：

待识别图片获取模块201，用于获取待识别图片；

待识别图片类别识别模块202，用于将待识别图片输入类别确定模型中，得到待识别训练图片的类别；类别确定模型是通过对训练图片的整体特征和细节特征对卷积神经网络进行训练得到的；细节特征是利用注意力模块对训练图片进行训练得到的。

本发明提供的基于注意力机制与多尺度特征的细粒度识别系统，还包括：

训练集获取模块，用于获取多张训练图片作为训练集；训练集包括支撑集和查询集；支撑集中训练图片的种类数量大于或等于查询中训练图片的种类数量；

整体特征提取模块，用于将训练集内的训练图片均输入卷积神经网络中进行特征提取处理，得到每张训练图片的整体特征和空间注意力得分；

类别确定模型确定模块，用于调整模型参数并调用整体特征提取模块直至达到预设迭代次数，得到类别确定模型。

其中，整体特征提取模块，具体包括：

第一尺度特征确定单元，用于对当前训练图片进行第多次降采样处理，得到当前训练图片的多个尺度特征；

第一卷积叠加处理单元，用于将当前训练图片的多个尺度特征进行卷积叠加处理，得到当前训练图片的多个一次卷积叠加处理后的尺度特征；

第一空间注意力得分确定单元，用于利用卷积神经网络中的注意力模块对当前训练图片的多个一次卷积叠加处理后的尺度特征进行处理，得到当前训练图片的空间注意力得分；

第二卷积叠加处理单元，用于将当前训练图片的多个一次卷积叠加处理后的尺度特征进行卷积叠加处理，得到当前训练图片的多个二次卷积叠加处理后的尺度特征；

整体特征确定单元，用于将当前训练图片的多个尺度特征与空间注意力得分进行加权全局均值池化处理后，再与初始的整体特征拼接，得到整体特征。

具体的，细节特征提取模块，具体包括：

边界坐标确定单元，用于利用公式

裁剪单元，用于根据边界坐标对当前训练图片进行裁剪，得到裁剪图片；

裁剪训练图片确定单元，用于将裁剪图片的尺寸调整为对裁剪训练图片的尺寸，得到裁剪训练图片；

第二尺度特征确定单元，用于对裁剪训练图片进行第多次降采样处理，得到裁剪训练图片的多个尺度特征；

第三卷积叠加处理单元，用于将裁剪训练图片的多个尺度特征进行卷积叠加处理，得到裁剪训练图片的多个一次卷积叠加处理后的尺度特征；

第二空间注意力得分确定单元，用于利用卷积神经网络中的注意力模块对裁剪训练图片的多个一次卷积叠加处理后的尺度特征进行处理，得到裁剪训练图片的空间注意力得分；

第四卷积叠加处理单元，用于将裁剪训练图片的多个一次卷积叠加处理后的尺度特征进行卷积叠加处理，得到裁剪训练图片的多个二次卷积叠加处理后的尺度特征；

细节特征确定单元，用于将裁剪训练图片的多个尺度特征与空间注意力得分进行加权全局均值池化处理后，再与初始的细节特征拼接，得到细节特征。

具体的，类别确定模型的损失函数为训练集中多张训练图片的初始分类分数和查询集内每张训练图片的类别分数的交叉熵；初始分类分数为训练图片的传统分类分数和非传统分类分数之和；传统分类分数是整体特征或细节特征经过卷积神经网络中的第一分类器得到的；非传统分类分数是总特征经过卷积神经网络中的第二分类器得到的。

本说明书中各个实施例采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似部分互相参见即可。对于实施例公开的系统而言，由于其与实施例公开的方法相对应，所以描述的比较简单，相关之处参见方法部分说明即可。

本文中应用了具体个例对本发明的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本发明的方法及其核心思想；同时，对于本领域的一般技术人员，依据本发明的思想，在具体实施方式及应用范围上均会有改变之处。综上所述，本说明书内容不应理解为对本发明的限制。

Claims

1.一种基于注意力机制与多尺度特征的细粒度识别方法，其特征在于，所述方法，包括：

获取待识别图片；

2.根据权利要求1所述的基于注意力机制与多尺度特征的细粒度识别方法，其特征在于，在所述获取待识别图像之前，还包括：

3.根据权利要求2所述的基于注意力机制与多尺度特征的细粒度识别方法，其特征在于，所述将所述训练集内的训练图片均输入卷积神经网络中进行特征提取处理，得到每张训练图片的整体特征和空间注意力得分，具体包括：

确定任一训练图片为当前训练图片；

4.根据权利要求3所述的基于注意力机制与多尺度特征的细粒度识别方法，其特征在于，所述根据每张训练图片的空间注意力得分，得到每张训练图片的细节特征，具体包括：

利用公式

5.根据权利要求2所述的基于注意力机制与多尺度特征的细粒度识别方法，其特征在于，所述类别确定模型的损失函数为训练集中多张训练图片的初始分类分数和查询集内每张训练图片的类别分数的交叉熵；所述初始分类分数为所述训练图片的传统分类分数和非传统分类分数之和；所述传统分类分数是所述整体特征或所述细节特征经过卷积神经网络中的第一分类器得到的；所述非传统分类分数是所述总特征经过卷积神经网络中的第二分类器得到的。

6.一种基于注意力机制与多尺度特征的细粒度识别系统，其特征在于，所述系统，包括：

待识别图片获取模块，用于获取待识别图片；

7.根据权利要求6所述的基于注意力机制与多尺度特征的细粒度识别系统，其特征在于，所述系统，还包括：

8.根据权利要求7所述的基于注意力机制与多尺度特征的细粒度识别系统，其特征在于，所述整体特征提取模块，具体包括：

9.根据权利要求8所述的基于注意力机制与多尺度特征的细粒度识别系统，其特征在于，所述细节特征提取模块，具体包括：

边界坐标确定单元，用于利用公式

10.根据权利要求7所述的基于注意力机制与多尺度特征的细粒度识别系统，其特征在于，所述类别确定模型的损失函数为训练集中多张训练图片的初始分类分数和查询集内每张训练图片的类别分数的交叉熵；所述初始分类分数为所述训练图片的传统分类分数和非传统分类分数之和；所述传统分类分数是所述整体特征或所述细节特征经过卷积神经网络中的第一分类器得到的；所述非传统分类分数是所述总特征经过卷积神经网络中的第二分类器得到的。