CN113095370B

CN113095370B - 图像识别方法、装置、电子设备及存储介质

Info

Publication number: CN113095370B
Application number: CN202110293108.4A
Authority: CN
Inventors: 熊晏民
Original assignee: Beijing Dajia Internet Information Technology Co Ltd
Current assignee: Beijing Dajia Internet Information Technology Co Ltd
Priority date: 2021-03-18
Filing date: 2021-03-18
Publication date: 2023-11-03
Anticipated expiration: 2041-03-18
Also published as: CN113095370A

Abstract

本公开关于一种图像识别方法、装置、电子设备及存储介质，应用于细粒度图像的分类识别。所述方法包括：获取目标图像，将目标图像输入特征提取网络得到第N个卷积层输出的第一特征图，作为全局特征注意力网络以及特征融合网络的输入，使得可以减少目标图像识别过程中的计算量，并通过全局特征注意力网络识别第一特征图中的关键区域，得到第二特征图，将第二特征图的多层特征展开为时序序列输入特征融合网络进行关联关系提取操作，得到包括多层特征中各层特征之间的关联关系的分类特征，从而可以更精准地获取目标图像的细节特征，根据分类特征进行分类处理，确定目标图像中对象所属的类别，提高了识别分类地精准度。

Description

图像识别方法、装置、电子设备及存储介质

技术领域

本公开涉及神经网络技术领域，尤其涉及图像识别方法、装置、电子设备及存储介质。

背景技术

目前，细粒度图像分类用于识别更微观的物体类别。比如，对一朵花卉的图像，不仅要识别出它是一朵花，还需要识别具体属于哪一个品种的花卉，而不同品种的花卉之间的差别非常细微。

现有技术中，卷积神经网络(Convolutional Neural Networks，CNN)能够学习到非常鲁棒的图像特征，可以在常规图像的识别中能够取得较好的效果。然而，由于细粒度图像之间的差异十分细微，导致常规的卷积神经网络对细粒度图像进行识别的效率和识别率低。

发明内容

本公开提供一种图像识别方法、装置、电子设备及存储介质，以至少解决相关技术中常规的卷积神经网络对细粒度图像进行识别的效率和识别率低的问题。

本公开的技术方案如下：

根据本公开实施例的第一方面，提供一种图像识别方法，包括获取目标图像；将目标图像输入特征提取网络进行特征提取，得到特征提取网络的第N个卷积层输出的第一特征图，其中，1＜N＜M，N为整数，M为特征提取网络的总卷积层数；将第N个卷积层输出的第一特征图输入全局特征注意力网络，得到第二特征图，将第二特征图的多层特征展开为时序序列，第二特征图用于表征第一特征图中关键区域的特征，关键区域包括的权重值大于预设权重值的像素点；将时序序列输入特征融合网络进行关联关系提取操作，得到包括多层特征中各层特征之间的关联关系的分类特征；根据分类特征进行分类处理，确定所述目标图像中对象所属的类别。

可选的，将第N个卷积层输出的第一特征图输入全局注意力网络，得到第二特征图，包括：确定第一特征图中对应的第一矩阵以及第一矩阵的转置矩阵；将第一矩阵以及转置矩阵内积，得到关系矩阵，关系矩阵用于表征第一特征图中每一像素点与其他像素点之间的关系；基于关系矩阵，确定第一特征图中每个像素点的平均关系权重值；根据平均关系权重值，对第一特征图进行加权处理，得到第二特征图。

可选的，基于特征融合网络对时序序列进行关联关系提取操作，得到包括多层特征中各层特征之间的关联关系的分类特征，包括：将时序序列输入特征融合网络中的自注意网络，得到各层特征对应的加权向量；基于特征融合网络中的反馈前向网络，对各层特征对应的加权向量进行非线性编码处理，以增大各层特征对应的加权向量的维度；确定维度增大后的加权向量之和为目标向量，并将目标向量作为所述分类特征。

可选的，特征提取网络为ResNet网络，全局特征注意力网络为SANet网络，特征融合网络为Transformer网络。

根据本公开实施例的第二方面，提供一种图像识别装置，包括获取单元，被配置为执行获取目标图像；

第一特征提取单元，被配置为执行将目标图像输入特征提取网络进行特征提取，得到特征提取网络的第N个卷积层输出的第一特征图，其中，1＜N＜M，N为整数，M为特征提取网络的总卷积层数；

全局特征注意力单元，被配置为执行将第N个卷积层输出的第一特征图输入全局特征注意力网络，得到第二特征图，将第二特征图的多层特征展开为时序序列，第二特征图用于表征第一特征图中关键区域的特征，关键区域包括的权重值大于预设权重值的像素点；特征融合单元，被配置为执行将时序序列输入特征融合网络进行关联关系提取操作，得到包括多层特征中各层特征之间的关联关系的分类特征；识别单元，被配置为执行根据分类特征进行分类处理，确定目标图像中对象所属的类别。

可选的，全局特征注意力单元，被配置为执行将第N个卷积层输出的第一特征图输入全局特征注意力网络，得到第二特征图，具体包括：确定第一特征图中对应的第一矩阵以及第一矩阵的转置矩阵；将第一矩阵以及所述转置矩阵内积，得到关系矩阵，关系矩阵用于表征第一特征图中每一像素点与其他像素点之间的关系；基于关系矩阵，确定第一特征图中每个像素点的平均关系权重值；根据平均关系权重值，对第一特征图进行加权处理，得到第二特征图。

可选的，特征融合单元，被配置为执行基于特征融合网络对时序序列进行关联关系提取操作，得到包括多层特征中各层特征之间的关联关系的分类特征，具体包括：将时序序列输入特征融合网络中的自注意网络，得到各层特征对应的加权向量；基于特征融合网络中的反馈前向网络，对各层特征对应的加权向量进行非线性编码处理，以增大各层特征对应的加权向量的维度；确定维度增大后的加权向量之和为目标向量，并将目标向量作为分类特征。

第三方面，提供一种图像识别电子设备，该图像识别电子设备包括处理器；用于存储所述处理器可执行指令的存储器；当处理器被配置为执行所述指令时，图像识别电子设备执行如第一方面及其任一种可能的实现方式的图像识别方法。

第四方面，提供一种芯片系统，该芯片系统应用于图像识别装置。芯片系统包括一个或多个接口电路，以及一个或多个处理器。接口电路和处理器通过线路互联；接口电路用于从图像识别装置的存储器接收信号，并向处理器发送信号，信号包括存储器中存储的计算机指令。当处理器执行计算机指令时，图像识别装置执行如第一方面及其任一种可能的实现方式的图像识别方法。

第五方面，提供一种计算机可读存储介质，该计算机可读存储介质包括计算机指令，当计算机指令在图像识别装置上运行时，使得图像识别装置执行如第一方面及其任一种可能的实现方式的图像识别方法。

第六方面，本申请提供一种计算机程序产品，该计算机程序产品包括计算机指令，当计算机指令在图像识别装置上运行时，使得图像识别装置执行如第一方面及其任一种可能的实现方式的图像识别方法。

本申请中第二方面到第六方面及其各种实现方式的具体描述，可以参考第一方面及其各种实现方式中的详细描述；并且，第二方面到第六方面及其各种实现方式的有益效果，可以参考第一方面及其各种实现方式中的有益效果分析，此处不再赘述。

本公开的实施例提供的一种图像识别方法、装置、电子设备及存储介质，应用于细粒度图像分类识别场景(如花卉识别场景)中。具体的：获取目标图像，将目标图像输入特征提取网络得到第N个卷积层输出的第一特征图，作为全局特征注意力网络以及特征融合网络的输入，使得可以减少目标图像识别过程中的计算量，并通过全局特征注意力网络识别第一特征图中的关键区域，得到第二特征图，将第二特征图的多层特征展开为时序序列输入特征融合网络进行关联关系提取操作，得到包括多层特征中各层特征之间的关联关系的分类特征，从而可以更精准地获取目标图像的细节特征，根据分类特征进行分类处理，确定目标图像中对象所属的类别，提高了识别分类地精准度。

应当理解的是，以上的一般描述和后文的细节描述仅是示例性和解释性的，并不能限制本公开。

附图说明

此处的附图被并入说明书中并构成本说明书的一部分，示出了符合本公开的实施例，并与说明书一起用于解释本公开的原理，并不构成对本公开的不当限定。

图1为本申请实施例提供的图像识别系统的一种结构示意图；

图2为本申请实施例提供的计算装置的一种结构示意图；

图3为本申请实施例提供的一种图像识别网络模型的示意图；

图4A为本申请实施例提供的一种特征提取网络的逻辑结构示意图；

图4B为本申请实施例提供的一种深度残差单元的逻辑结构示意图；

图5A为本申请实施例提供的一种全局特征注意力网络的逻辑结构示意图；

图5B为本申请实施例提供的一种全局特征注意力网络的特征图输出示意图；

图6为本申请实施例提供的一种特征融合网络的逻辑结构示意图；

图7为本申请实施例提供的一种图像识别方法的流程示意图一；

图8为本申请实施例提供的一种图像识别方法的流程示意图二；

图9为本申请实施例提供的一种图像识别方法的流程示意图三；

图10为本申请实施例提供的一种图像识别装置的结构示意图一。

具体实施方式

为了使本领域普通人员更好地理解本公开的技术方案，下面将结合附图，对本公开实施例中的技术方案进行清楚、完整地描述。

需要说明的是，本公开的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本公开的实施例能够以除了在这里图示或描述的那些以外的顺序实施。以下示例性实施例中所描述的实施方式并不代表与本公开相一致的所有实施方式。相反，它们仅是与如所附权利要求书中所详述的、本公开的一些方面相一致的装置和方法的例子。

首先，说明本申请中涉及的部分术语和技术：

细粒度图像识别(fine-grained image classification)：细粒度图像识别又被称作子类别图像识别，其目的是对属于同一基础类别的图像(汽车、狗、花、鸟等)进行更加细致的子类划分。

特征图像(image features)：即图像的颜色特征、纹理特征、形状特征和空间关系特征等。

卷积神经网络(convolutional neural network)：是一种前馈神经网络，它的人工神经元可以响应一部分覆盖范围内的周围单元，对于大型图像处理有出色表现。

深度残差网络(deep residual network，ResNet)：是一种神经网络的变种，用于解决深度CNN模型难训练的一种神经网络的变种。

语义分割的压缩注意力网络(Squeeze-and-Attention Network for SemanticSegmentation，SANet)：是一种能够对特征图的空间维度进行加权的神经网络。

特征提取网络(Transformer)：一个基于自注意力机制的全新神经网络。

损失函数(loss function)：损失函数是用来估量模型的预测值f(x)与真实值Y的不一致程度，通常使用L(Y，f(x))来表示，损失函数越小，模型的鲁棒性就越好。一个最佳化问题的目标是将损失函数最小化。一个目标函数通常为一个损失函数本身或者为其负值。当一个目标函数为损失函数的负值时，目标函数的值寻求最大化。

泛化能力(generalization ability)：是指机器学习算法对新鲜样本的适应能力。

目前，常规图像进行分类过程如下：首先，检测出该目标图像需要分类的物体；然后，利用检测出分类的物体对图像进行分类；最后，再通过学习不同类别图像之间的区别，进而最终得到图像的识别结果。而由于细粒度图像的差异十分细微，对分类标注需要有专业知识的相关人员参与，其能够获取的有效数据相对较少，因此，导致现有细粒度数据集标注成本高，而且无法有效提取细微的区别特征。

在现有技术的方案中，是利用特征判别性损失函数、特征多样性损失函数以及模型优化损失函数对图像进行分类。具体的，将目标图像输入特征提取网络得到对应的深度特征，将得到的深度特征分为N组，并在每组深度特征中随机丢弃二分一，其中，N为类别数，将余下的每组深度特征，在相同位置处取最大值，获得每组深度特征对应的显著特征，对每一个显著特征求平均值，得到对应类别的预测值。

但是，由于现有技术的方案是将特征层随机分组，随机丢弃，而未说明随机性的要求。这样容易导致同一个模型下，不同随机性可能会导致输出不同的图像类别的识别结果。另外，直接在不同特征图的相同位置处取最大值作为显著特征，使得最大值的波动范围比较大，这样导致输出的图像识别的结果不准确。

综上可得，现有技术对细粒度图像进行识别的效率和识别率低。

基于此，本申请实施例提供了一种神经网络模型训练方法以及图像识别方法，应用于细粒度图像分类识别场景(如花卉识别场景)中。具体的：获取目标图像，将目标图像输入特征提取网络得到第N个卷积层输出的第一特征图，作为全局特征注意力网络以及特征融合网络的输入，使得可以减少目标图像识别过程中的计算量，并通过全局特征注意力网络识别第一特征图中的关键区域，得到第二特征图，将第二特征图的多层特征展开为时序序列输入特征融合网络进行关联关系提取操作，得到包括多层特征中各层特征之间的关联关系的分类特征，从而可以更精准地获取目标图像的细节特征，根据分类特征进行分类处理，确定目标图像中对象所属的类别，提高了识别分类地精准度。这样，与现有技术相比，有助于使得识别后的特征表示差异小，从而提高匹配准确率。

本申请实施例提供的神经网络模型训练方法和图像识别方法可以分别应用于相同或不同的计算机设备中。例如，神经网络模型训练方法可以由服务器或终端等计算机设备执行。图像识别方法可以由终端(如智能手机、智能手表等)执行。本申请实施例对此不进行限定。

本申请实施例提供的图像识别方法的执行主体为图像识别装置。

在一种场景中，图像识别装置可以为电子设备，该电子设备可以为服务器或者终端设备。也就是说，电子设备自身发起神经网络模型训练，通过训练好的神经网络模型执行本申请实施例提供的图像识别方法来识别图像。

在另一种场景中，神经网络模型的训练装置可以为服务器，运行神经网络模型的为终端设备。也就是说，服务器通过执行本申请实施例提供的神经网络模型训练方法训练神经网络模型，并将训练好的神经网络模型发送至终端设备。终端设备运行接收到的训练好的神经网络模型，以执行本申请实施例提供的图像识别方法来识别图像。具体的，本申请实施例提供的图像识别方法可以适用于图像识别系统。

图1为本申请实施例提供的图像识别系统的一种结构示意图。如图1所示，该图像识别系统可以包括：服务器11和终端设备12。服务器11和终端设备12采用有线通信方式或无线通信方式建立连接。

服务器11，是本申请实施例提供的图像识别方法的执行主体。主要用于训练神经网络模型，并根据神经网络模型的评价指标和损失函数更新神经网络模型中的超参数，直到更新后的神经网络模型满足在终端设备12上执行图像识别方法的条件。还用于将更新后的神经网络模型发送至终端设备12。

在一些实施例中，服务器11，可以是一台服务器，也可以是由多台服务器组成的服务器集群，还可以一个云计算服务中心。本申请实施例在此对服务器的具体形式不做限定，图1中以一台服务器为例示出。

终端设备12，用于运行来自服务器11的神经网络模型，以执行本申请实施例提供的图像识别方法来识别图像。

在一些实施例中，终端设备12可以为：手机(mobile phone)、平板电脑、笔记本电脑、掌上电脑、移动互联网设备(mobile internet device，MID)、可穿戴设备，虚拟现实(virtual reality，VR)设备、增强现实(augmented reality，AR)设备、工业控制(industrial control中的无线终端、无人驾驶(self driving)中的无线终端、远程手术(remote medical surgery)中的无线终端、智能电网(smart grid)中的无线终端、运输安全(transportation safety)中的无线终端、智慧城市(smart city)中的无线终端、智慧家庭(smart home)中的无线终端、物联网(internet of things，IOT)设备等。本申请实施例在此对终端设备的具体形式不做限定，图1中以终端设备12为手机为例示出。

本申请实施例在此对图像识别方法具体应用于哪一种场景中不做限定。

上述服务器11和终端设备12的基本硬件结构类似，都包括图2所示计算装置所包括的元件。下面以图2所示的计算装置为例，介绍服务器11和终端设备12的硬件结构。

图2为本申请实施例提供的计算装置的一种结构示意图，如图2所示，计算装置可以包括处理器21，存储器22、通信接口23、总线24。处理器21，存储器22以及通信接口23之间可以通过总线24连接。

处理器21是计算装置的控制中心，可以是一个处理器，也可以是多个处理元件的统称。例如，处理器21可以是一个通用中央处理单元(central processing unit，CPU)，也可以是其他通用处理器等。其中，通用处理器可以是微处理器或者是任何常规的处理器等，例如，通用处理器可以是图形处理器(graphics processing unit，GPU)、数字信号处理器(digital signal processing，DSP)等。

作为一种实施例，处理器21可以包括一个或多个CPU，例如图2中所示的CPU 0和CPU 1。

存储器22可以是只读存储器(read-only memory，ROM)或可存储静态信息和指令的其他类型的静态存储设备，随机存取存储器(random access memory，RAM)或者可存储信息和指令的其他类型的动态存储设备，也可以是电可擦可编程只读存储器(electricallyerasable programmable read-only memory，EEPROM)、磁盘存储介质或者其他磁存储设备、或者能够用于携带或存储具有指令或数据结构形式的期望的程序代码并能够由计算机存取的任何其他介质，但不限于此。

一种可能的实现方式中，存储器22可以独立于处理器21存在，存储器22可以通过总线24与处理器21相连接，用于存储指令或者程序代码。处理器21调用并执行存储器22中存储的指令或程序代码时，能够实现本申请下述实施例提供的神经网络模型的训练方法和图像识别方法。

在本申请实施例中，对于服务器11和终端设备12而言，存储器22中存储的软件程序不同，所以服务器11和终端设备12实现的功能不同。关于各设备所执行的功能将结合下面的流程图进行描述。

另一种可能的实现方式中，存储器22也可以和处理器21集成在一起。

通信接口23，用于计算装置与其他设备通过通信网络连接，所述通信网络可以是以太网，无线接入网(radio access network，RAN)，无线局域网(wireless local areanetworks，WLAN)等。通信接口23可以包括用于接收数据的接收单元，以及用于发送数据的发送单元。

总线24，可以是工业标准体系结构(Industry Standard Architecture，ISA)总线、外部设备互连(Peripheral Component Interconnect，PCI)总线或扩展工业标准体系结构(Extended Industry Standard Architecture，EISA)总线等。该总线可以分为地址总线、数据总线、控制总线等。为便于表示，图2中仅用一条粗线表示，但并不表示仅有一根总线或一种类型的总线。

需要指出的是，图2中示出的结构并不构成对该计算装置的限定，除图2所示部件之外，该计算装置可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件布置。

以下，结合附图对本申请实施例提供的技术方案进行说明：

本申请实施例所采用的网络模型是神经网络模型(下文中简称网络模型)。如图3所示，图3为本申请实施例提供的一种图像识别网络模型的示意图。

图3所示的网络模型包括：特征提取网络31、全局特征注意力网络32和特征融合网络33。

特征提取网络31用于对输入的图像(即目标图像)进行特征提取，输出目标图像的第一特征图。

特征提取网络31对该目标图像进行提取特征(如：纹理特征、颜色特征、形状特征和空间关系特征等)，输出的第一特征图。该第一特征图为该特征提取网络31的第N个卷积层对目标图像执行卷积操作所输出的特征图，并将第N层卷积操作所输出的第一特征图作为下一级神经网络模型的输入，其中，1＜N＜M，所述N为整数，所述M为所述特征提取网络的总卷积层数。该第一特征图可以是一个三维张量，张量中的一个元素可以对应目标图像中的一个区域，该区域也可以称作是卷积神经网络的感受野(receptive field)。

该特征提取网络31可以为一个深度残差网络(Deep Residual Network，ResNet)，深度残差网络ResNet是一种改进的卷积神经网络，通过引入跨层连接，降低了模型训练的难度。

示例性的，如图4A所示，为本申请实施例提供的一种特征提取网络的逻辑结构示意图。该特征提取网络31可以包括N+1个深度残差单元、全局均值池化层以及全连接层。如图4B所示，为本申请实施例提供的一种深度残差单元的逻辑结构示意图。该深度残差单元，包括3个卷积层，每个卷积层中的3*3表示卷积核尺寸为3和3，在Conv后面，K表示输出特征图的通道数。其中，K的通道数可以是64、128、512、1024等。/2表示的是卷积核每次移动的步长为2，从而使得输出特征图的宽度减半。

示例性的，该特征提取网络31可以包括6个深度残差网络层，1个全局均值池化层以及1个全连接层，第一个深度残差网络层的通道数为64，第二个深度残差网络层的通道数为128，第三个深度残差网络层的通道数为256，第四个深度残差网络层的通道数为512，第五个深度残差网络层的通道数为1042，第六个深度残差网络层的通道数为2048，将目标图像图片的尺寸要求是224*224*3，将该目标图像输入该特征提取网络31中，可以转换成1个特征，得到的目标图像的256*1*1042个特征图像，则该池化野为1。

需要说明的是，该特征提取网络31的图片输入的分辨率要求是224*224，但是大多数情况下，图片的分辨率与要求不同，需要对输入的数据进行数据增强，因此，可以预训练该特征提取网络31，从而提高该特征提取网络31的特征提取效率。

示例性的，预训练ResNet可以遵循以下流程:

A步骤：先使用Imagenet21k粗训练ResNet模型：构建Imagenet21k数据集，训练数据经过随机翻转、随机光照变换、随机blur等数据增强后，双线性差值到尺寸为224×224×3，并归一化到0-1；验证数据双线性差值到尺寸为224×224×3，并归一化到0-1；初始化模型结构，将所有卷积层权重进行标准化，设置优化器为SGD，学习率设置为0.003，损失函数为CrossEntropy损失；将训练数据以及验证数据输入到网络中，训练100个epoch，每隔200个iterations计算一次recall以及precision，保存F1-score最大值下的模型。由于Imagenet21k数据较多，带来的图片噪声也更多，因此，只需让网络学习Imagenet21k的广泛的数据分布。

B步骤：再使用ILSVRC-2012微调粗训练的ResNet模型：ILSVRC-2012数据为Imagenet21k的子集，数据质量相对较好，因此，使用该数据对步骤A中保存的模型进行微调，微调的训练步骤基本与步骤A相同，另外在训练的过程中，额外使用mix-up对训练数据进行扰动。

C步骤：在预设的花卉数据集上微调预训练的ResNet模型:微调步骤和步骤B相同。

D步骤：提取ResNet第N层的特征输出作为下一级模型网络的输入：为了进一步提取花卉之间具有差异的细节信息，同时减少RenNet后面计算量大的层数。首先，去掉第N层，固定其他层的参数，将第N层的特征输入作为下一级模型网络的输入。对于第N层的选择可以选择ResNet中倒数第2层或者倒数第3层输出的特征图，因为倒数第2层或者倒数第3层的卷积块含有丰富的分类信息，且能保证ResNet的计算速度。

通过上述预训练ResNet，可以提高ResNet的泛化能力。

全局特征注意力网络32用于对输入的第一特征图进行特征提取，得到第二特征图，将该第二特征图的多层特征展开为时序序列。

全局特征注意力网络32对第一特征图进行全局特征“注意力”的识别操作，提取第一特征图中的关键区域的特征作为第二特征图，该第二特征图可以包括多层特征(如：纹理特征中表示叶子纹理的特征可以作为第一层特征，形状特征中表示根部形状的特征可以作为第二层特征等)，并将该第二特征图的多层特征展开为时序序列。该第二特征图可以是一个三维张量，该张量中的一个元素对应目标图像中对象的一个区域，该区域也可以称作是卷积神经网络的感受野(receptive field)。

该全局特征注意力网络32可以是语义分割的压缩注意力网络(Squeeze-and-Attention Network for Semantic Segmentation，SANet)：是一种能够对特征图的空间维度进行加权的神经网络。

示例性的，如图5A所示，为本申请实施例提供的一种全局特征注意力网络的逻辑结构示意图。SANet网络模型用于对第一特征图中关键区域的特征赋予更高的权重值，来强调目标图像的分类特征。如果想强调表述花卉分类的纹理差别，则SANet提取的第二特征图，将在纹理特征层中有较高的权重值。通过SANet结构后，每个第二特征图都会描述第一特征图的某一关键区域，因此，并将第二特征图的多层特征展开为时序序列，可以更好地对目标图像的分类特征进行标定。其训练的具体过程如下：

首先，可以提取提前训练好的ResNet模型的倒数第N个卷积块的每一层特征图生成一维向量，可以将该一维向量作为SANet的输入，即16*16*1024，通过一个256*1*1042的滤波器与其进行矩阵内积，得到一个关系矩阵256*256*1042，从而可以获得每一个像素点与其他所有像素点的关系。然后，对该关系矩阵256*256*1042每一行进行全平均层，获得每一个像素点与其他所有像素点的平均关系权重值，并重新生成输入特征图的尺寸。最后，利用该平均关系权重值对重新生成的第一特征图进行加权，权重越大的第二特征图具有显著代表性。因此，SANet模块能够帮助ResNet寻找目标图像的特征区域。

如图5B所示，为本申请实施例提供的一种全局特征注意力网络的第二特征图输出示意图。如果表述花卉纹理的差别，则SANet提取的第二特征图，将在纹理特征的关键区域有较高的权重值。通过SANet结构后，每个第二特征图都会描述第一特征图的某一关键区域，因此，第二特征图有多层特征，并对该多层特征展开成时序序列，以便更好地对目标图像的特征进行标定。作为时序序列输入到下一级网络模型中，进一步融合特征。

特征融合网络33用于对输入的第二特征图的时序序列进行关联关系提取操作，得到包括多层特征中各层特征之间的关联关系的分类特征。

特征融合网络33对输入第二特征图的时序序列进行关联关系提取操作，得到包括多层特征中各层特征之间的关联关系的分类特征，根据分类特征进行分类处理，输出目标图像对应不同类别的概率值，例如：如果只判断10个分类，则可以获取该目标图像对应10个分类的概率值，从而确定目标图像中对象所属的类别。

该特征融合网络33可以为一个特征抽取器(Transformer)网络，是一种基于编码-解码框架结构的网络模型，用于对输入的第二特征图的时序序列进行关联关系提取操作，得到包括多层特征中各层特征之间的关联关系的分类特征，以反映目标图像对应的类别。

示例性的，如图6所示，为本申请实施例提供的一种特征融合网络的逻辑结构示意图。Transformer网络模型可以包括自注意力层(self-attention)、前向反馈网络层(FeedForward)、全平均池化层以及全连接层。可以将上述SANet提取的第二特征图的时序序列，特征1、特征2……以及特征n，其中，n为正整数。将该特征1、特征2……以及特征n分别通过对应的自注意力层(self-attention)以及前向反馈网络层(Feed Forward)对输入第二特征图的时序序列进行编码处理，输出多层特征中各层特征之间的关联关系；再根据关联关系通过全局平均池化以及全连接层，输出目标图像目对应不同类别的概率值，例如：如果只判断10个分类，则可以获取该目标图像对应10分类的概率值。由于Transformer网络模型能够通过自注意力层(self-attention)整合一个像素点与全局图像所有用于将时序序列输入特征融合网络进行关联关系提取操作，得到包括多层特征中各层特征之间的关联关系的分类特征。

其中，自注意力层的处理流程如下：首先，按照时序序列得时间顺序输入特征1、特征2以及特征n，分别展开为各层特征对应得一维向量，将该一维向量通过三个不同的权重矩阵(Query，Key以及Value)获得三个不同的向量，分别是Query Vector，Key Vector以及Value Vector，利用Query Vector以及Key Vector计算得到一个权重，将该权重点乘ValueVector向量得到各层特征的加权Value Vector。然后，将各层特征的加权Value向量通过反馈前向网络层(Feed Forward)进行非线性编码处理，以增大各层特征对应的加权向量的维度，其中，反馈前向网络层(Feed Forward)可以包括一个激活函数和一层线性网络，目的是为了将向量投影到更高维的空间，在更高维的空间每个类别将更易于区分。确定维度增大后的加权向量之和为目标向量，并将目标向量作为分类特征，从而得到输出结果。

基于图3所示的网络模型，应用于图像识别阶段时，基于目标图像获得的分类特征对目标图像进行识别，进而可以高效准确的识别图像。下文中的具体示例均是以图3所示的网络模型为例进行说明的，此处统一说明，下文不再赘述。

本申请实施例提供的技术方案包括训练阶段和图像识别阶段，以下分别进行说明：

训练阶段

训练阶段包括图像数据预训练阶段和模型训练阶段，从而可以更精准地识别图像，以下以识别花卉图像的场景分别对这三个网络的训练过程进行说明，但具体还可以通过其他细粒度图像进行模型训练，如动物、汽车、飞机等类别的图像，并不以此为限。

a)、图像数据预训练阶段

在进行图像的分类识别之前，可以通过特征提取网络进行图像数据的预训练，其中，对于图像数据的预训练过程如下：

步骤1：获取至少两个图像参考数据集，其中，该至少两个图像参考数据集的参考图像数量和/或参考图像中对象的分类标注质量不同。

本实施例中参考样本数据集可以是现有的数据集，例如，Imagenet21k数据集，ILSVRC-2012数据集等；其中，至少两个图像参考数据集分别包括多个参考图像，每个参考图像的参考图像数量和/或参考图像中对象的分类标注质量不同，例如，像素、特征分类等不同。

步骤2：使用初始化的特征提取网络对至少两个参考图像数据集的参考图像进行训练，获取训练后初始化的特征提取网络的最优超参数。

在本实施例中，可以通过初始化特征提取网络的超参数，得到初始化的特征提取网络。其中，可以调整特征提取网络的学习率和聚类中类的个数等。

示例性的，该特征提取网络的所有卷积层权重进行标准化，设置该特征提取网络的优化器为梯度更新规则(Stochastic Gradient Descent，SGD)，学习率设置为0.003，损失函数为CrossEntropy损失函数。具体可以根据实际情况进行设置，并不以此为限。

将至少一个图像数据集的参考图像的训练样本和验证样本输入特征提取网络进行训练，当训练后的特征提取网络的训练样本的分类精确率和召回率达到均衡时，获取该特征提取网络的最优超参数。

步骤3：根据最优超参数更新初始化的特征提取网络的超参数，得到预训练的特征提取网络。

在本实施例中，通过不同图像样本数据集对特征提取网络进行训练，获取特征提取网络的最优超参数，从而得到预训练的特征提取网络。

示例性的，先将Imagenet21k数据集的训练参考图像输入特征提取网络进行训练，通过对参考图像进行几何图像变换，得到该训练参考图像的第一特征图，选取Imagenet21k数据集中验证图像也输入该特征提取网络。在训练过程中，对每100个一代训练(epoch)，每隔200个一次训练(iterations)计算一次召回率(recall)以及精确率(precision)，得到精确率和召回率的调和平均数(F1-score)，其取值范围为0-1，当F1-score达到最大值时，获取特征提取网络的最优超参数。

接着采用ILSVRC-2012数据集以及花卉数据集重复上述Imagenet21k数据集的训练过程，同样获取特征提取网络的最优超参数。但在采用ILSVRC-2012数据集以及花卉数据集进行训练的过程中，可以采用数据增广的方式，如：mix-up对训练数据进行扰动，对之前获取的最优超参数进行微调，作为特征提取网络下一次训练的超参数。

通过上述采用多个参考图像数据集对特征提取网络进行预训练，可以学习大量参考图像的特征分类，将其分布迁移到花卉数据中，能提高花卉数据泛化能力。

b)、模型训练阶段

步骤10:获取模型训练图像集，该训练图像集包括多个样本图像，依次将将该样本图像输入特征提取网络进行特征提取，得到特征提取网络的第N个卷积层输出的第一特征图，其中，1＜N＜M，N为整数，M为特征提取网络的总卷积层数。

在本实施例中，上述N通常选择2或者3，因为第2或者3层卷积块含有丰富的分类信息，且能保证网络模型的计算速度。

步骤20:将第N个卷积层输出的第一特征图输入全局特征注意力网络，得到第二特征图，将第二特征图的多层特征展开为时序序列，第二特征图用于表征所述第一特征图中关键区域的特征，关键区域包括的权重值大于预设权重值的像素点；

步骤30：将时序序列输入特征融合网络进行关联关系提取操作，得到包括多层特征中各层特征之间的关联关系的分类特征；

步骤40：根据分类特征进行分类处理，确定样本图像中对象所属的类别；

步骤50：将样本图像训练出类别与该样本图像的标定分类进行比对，直至特征提取网络、全局特征注意力网络以及特征融合网络均收敛。

步骤60：如果特征提取网络、全局特征注意力网络以及特征融合网络符合预先设定的收敛条件的情况下，更新特征提取网络、全局特征注意力网络以及特征融合网络中至少一种网络模型的参数。

在本实施例中，特征提取网络、全局特征注意力网络以及特征融合网络可以包括多种运算层，例如，卷积层、分组加权层等。卷积层的参数包括卷积层的层数，以及每个卷积层所使用的卷积核的尺寸。

在训练特征提取网络、全局特征注意力网络以及特征融合网络之前，可以预先配置如下信息：运算层的输入的尺寸、运算层的参数的尺寸、运算层的输出的尺寸，以及运算层之间的关联关系(即哪个运算层的输出作为哪个运算层的输入等)。

在本实施例中，特征提取网络、全局特征注意力网络以及特征融合网络的收敛条件均可以包括以下三种，第一种：误差小于某个预先设定的较小的值；第二种：两次迭代之间的权值变化已经很小，可设定一个阈值，当小于这个阈值后，就停止训练。第三种，设定最大迭代次数，当迭代超过最大次数就停止训练。对于收敛条件还可以根据实际情况设置，具体不以此为限。

通过使用特征提取网络输出的第N层卷积操作所输出的第一特征图，作为全局特征注意力网络以及特征融合网络训练的输入，可以减少训练过程中的计算量，同时还能够更好地对特征细节进行识别，提高了网络模型的识别精度。

c)、模型训练阶段的评价阶段

可选的，可以获取模型训练之后识别样本图像的精确率和召回率，作为训练模型的评价指标，其中，精确率描述被分类为正例中实际为正例数的比例，数值越大，表明其他类别分类到当前类别数量占比越少，即误检少；召回率描述实际为正例中分类为正例的比例，数值越大，表明分类对的数量占比越高，即漏检少。

可选的，可以根据评价指标更新特征提取网络、全局特征注意力网络以及特征融合网络对于不同类别的样本图像识别的概率值阈值。获取上述精确率和召回率的调和平均值，当调和平均值大于预设阈值，可以提高不同类别的样本图像识别的概率值阈值，当调和平均值小于预设阈值，降低不同类别的样本图像识别的概率值阈值。

通过评价指标更新特征提取网络、全局特征注意力网络以及特征融合网络对于不同类别的样本图像识别的概率值阈值，可以使得图像识别的分类结果更准确。

可选的，获取图像样本数据集中所有样本图像的类间距离和类内距离。

在本实施例中，为了优化图像识别结果，可以获取图像样本数据集中所有样本图像的类间距离和类内距离，在样本图像的类间距离小于样本图像的类内距离的情况下，使用预设的损失函数调大样本图像的类间距离，以使样本图像的类间距离大于样本图像的类内距离，且样本图像的类间距离与类内距离之间的差值超过预设距离阈值。

在本实施例中，在样本图像的类间距离小于样本图像的类内距离的情况下，使用预设的损失函数调大样本图像的类间距离，以使样本图像的类间距离大于样本图像的类内距离，且样本图像的类间距离与类内距离之间的差值超过预设距离阈值。其中，该预设的损失函数用Triplet损失函数。

示例性的，假设类别A的样本图像分别为a1和a2，类别B的样本图像为b。现在a1和b之间很难区分，即a1和b的距离|a1-b|很小，并且a1和a2之间的无法归为一类，即a1与a2距离|a1-a2|大。如果希望|a1-b|>|a1-a2|+margin对所有类别A和类别B的图片均成立。可以设置margin为一个常数，即表征两个类别间的距离。因此，该通过调整损失函数的参数，达到优化公式|a1-b|>|a1-a2|+margin对所有类别A和类别B的图片均成立。由于margin容易造成Triplet损失无法收敛，可以首先将margin设置为0，并且计算训练初期margin的平均数，之后训练的margin将设置成该值并且不断增大。

需要说明的是，Triplet损失函数往往对所有训练样本进行监督，但是当网络模型训练较好时，大部分训练样本损失将很小，Triplet损失函数难以得到回传，因此，本实施例仅用Triplet损失函数监督困难样例。

通过调整预设损失函数，以使样本图像的类间距离大于样本图像的类内距离，且样本图像的类间距离与类内距离之间的差值超过预设距离阈值，从而能够提高识别图像的精确率。

识别阶段

如图7所示，为本申请实施例提供的一种图像识别方法的流程示意图一，该方法的执行主体可以是图像识别装置，该方法可以包括以下步骤：

S101：获取目标图像。

S102：将目标图像输入特征提取网络进行特征提取，得到特征提取网络的第N个卷积层输出的第一特征图，其中，1＜N＜M，N为整数，M为特征提取网络的总卷积层数。

S103：将第N个卷积层输出的第一特征图输入全局特征注意力网络，得到第二特征图，将第二特征图的多层特征展开为时序序列，第二特征图用于表征第一特征图中关键区域的特征，关键区域包括的权重值大于预设权重值的像素点。

S104：将时序序列输入特征融合网络进行关联关系提取操作，得到包括多层特征中各层特征之间的关联关系的分类特征。

S105：根据分类特征进行分类处理，确定目标图像中对象所属的类别。

在本实施例中，将目标图像输入预训练的特征提取网络，进行特征提取，得到每一层卷积操作所输出的第一特征图。获取第N层卷积操作所输出的第一特征图，其中，N可以取值为2或者3。将其输入全局特征注意力网络，得到第二特征图的多层特征，并将该多层特征展开为时序序列，该第二特征图是用于对第一特征图中关键区域的特征赋予更高的权重值，来强调某一层特征的关键区域，如果表述花卉纹理差别，则在纹理特征层的关键区域有较高的权重值。通过全局特征注意力网络后，每一层特征都会对某一关键区域进行加权，并对每一层特征按照时间顺序展开成时序序列，输入特征融合网络进行关联关系提取操作，得到包括多层特征中各层特征之间的关联关系的分类特征，最后输出到全连接层得到分类结果。

通过获取目标图像，将目标图像输入特征提取网络得到第N个卷积层输出的第一特征图，作为全局特征注意力网络以及特征融合网络的输入，使得可以减少目标图像识别过程中的计算量，并通过全局特征注意力网络识别第一特征图中的关键区域，得到第二特征图，将第二特征图的多层特征展开为时序序列输入特征融合网络进行关联关系提取操作，得到包括多层特征中各层特征之间的关联关系的分类特征，从而可以更精准地获取目标图像的细节特征，根据分类特征进行分类处理，确定目标图像中对象所属的类别，提高了识别分类地精准度。

如图8所示，为本申请实施例提供的一种图像识别方法的流程示意图二，该方法的执行主体可以是图像识别装置，该方法中步骤S103：将第N个卷积层输出的第一特征图输入全局注意力网络，得到第二特征图，包括：

S201：确定第一特征图中对应的第一矩阵以及第一矩阵的转置矩阵。

S202：将第一矩阵以及转置矩阵内积，得到关系矩阵，关系矩阵用于表征第一特征图中每一像素点与其他像素点之间的关系。

S203：基于关系矩阵，确定第一特征图中每个像素点的平均关系权重值。

S204：根据平均关系权重值，对第一特征图进行加权处理，得到第二特征图。

在本实施例中，将第N个卷积层输出的第一特征图中每一层特征都代表花卉的一种特点，如第一层描述花卉的叶子纹理，第二层描述花卉的根部形状等等。为了让网络能够明白特征层之间的区别，首先，全局注意力网络会确定第N个卷积层输出的第一特征图中对应的第一矩阵以及第一矩阵的转置矩阵，并将第一矩阵以及转置矩阵内积得到一个关系矩阵，从而获得第一特征图中每一像素点与其他像素点之间的关系；其次，对关系矩阵每一行进行Avg Pooling，获得每一像素点与其他像素点之间的平均关系权重值，并重新reshape为输入特征尺寸；最后，利用该权重值对第一特征图进行加权处理，权重越大的区域希望能代表花卉特征。

通过全局特征注意力网络对第一特征图中关键区域赋予更大的权重值，得到第二特征图的多层特征，从而使得可以识别图像中的关键特征，从而提高图像识别的精确率。

如图9所示，为本申请实施例提供的一种图像识别方法的流程示意图三，该方法的执行主体可以是图像识别装置，步骤S104：将时序序列输入特征融合网络进行关联关系提取操作，得到包括多层特征中各层特征之间的关联关系的分类特征，包括：

S301：将时序序列输入特征融合网络中的自注意网络，得到各层特征对应的加权向量。

S302：基于特征融合网络中的反馈前向网络，对各层特征对应的加权向量进行非线性编码处理，以增大各层特征对应的加权向量的维度。

S303：确定维度增大后的加权向量之和为目标向量，并将目标向量作为分类特征。

在本实施例中，特征融合网络包括自注意力层、前向反馈网络层、全局平均池化以及全连接层。将第二特征图的多层特征按照时间顺序依次输入自注意力层以及前向反馈网络层，通过自注意力层整合一个像素点与全局图像所有用于提取花卉图像中重要部分与周围环境的关系，得到各层特征对应的加权向量。示例性的，首先，将第二特征图的每一层特征会展开为一个一维的向量，向量都会经过三个不同的权重矩阵(Query，Key以及Value)获得三个不同的向量，分别是Query Vector，Key Vector以及Value Vector；利用QueryVector以及Key Vector计算得到一个权重，权重点乘Value Vector向量得到一个加权的Value Vector。然后，将加权Value向量通过Feed Forward网络进行非线性编码处理，以增大各层特征对应的加权向量的维度，其中，Feed forward为一个激活函数+一层线性网络，目的是为了将向量投影到更高维的空间，在更高维的空间每个类别将更易于区分。最后，确定维度增大后的加权向量之和为目标向量，并将目标向量作为分类特征，使用全局平均池化以及全连接层对分类特征进行分类处理，获取目标图像对应不同类别的概率值。识别不同类别的概率值中大于预设类别概率值阈值的类别，确定为目标图像的分类结果。

示例性的，最终分成10类，则最后卷积层应该包含10个滤波器(即输出10个特征图)，然后按照全局池化平均定义，分别对每个融合特征图，累加所有像素值并求平均，最后得到10个数值，将这10个数值输入到全连接层中，得到10个概率值，即这张图片属于每个类别的概率值。

通过特征融合网络进一步对特征图进行关联关系提取操作，得到包括多层特征中各层特征之间的关联关系的分类特征，可以整合目标图像中关键区域与周围环境的关系，从而可以更精准对目标图像进行识别。

可选的，上述特征提取网络为ResNet网络，上述全局特征注意力网络为SANet网络，上述特征融合网络为Transformer网络。

通过ResNet网络、SANet网络以及Transformer网络进行图像识别，可以大大提高细粒度图像识别的效率和精准度。

上述主要从方法的角度对本申请实施例提供的方案进行了介绍。为了实现上述功能，其包含了执行各个功能相应的硬件结构和/或软件模块。本领域技术人员应该很容易意识到，结合本文中所公开的实施例描述的各示例的单元及算法步骤，本申请能够以硬件或硬件和计算机软件的结合形式来实现。某个功能究竟以硬件还是计算机软件驱动硬件的方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本申请的范围。

本申请实施例可以根据上述方法示例对图像识别装置进行功能模块的划分，例如，可以对应各个功能划分各个功能模块，也可以将两个或两个以上的功能集成在一个处理模块中。上述集成的模块既可以采用硬件的形式实现，也可以采用软件功能模块的形式实现。需要说明的是，本申请实施例中对模块的划分是示意性的，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式。

如图10所示，图10示出了本申请实施例提供的图像识别装置的结构示意图一。该图像识别装置100用于执行上述的图像识别方法，例如，执行图7所示的图像识别方法。示例的，图像识别装置100可以包括获取单元1001、特征提取单元1002、全局特征注意力单元1003、特征融合单元1004和识别单元1005。

获取单元1001，被配置为执行获取目标图像。

特征提取单元1002，被配置为执行将目标图像输入特征提取网络进行特征提取，得到特征提取网络的第N个卷积层输出的第一特征图，其中，1＜N＜M，N为整数，M为特征提取网络的总卷积层数。

全局特征注意力单元1003，被配置为执行使用全局特征注意力网络对所述第N层输出的第一特征图进行特征提取并进行排序，得到第二特征图的时序序列。

特征融合单元1004，被配置为执行将时序序列输入特征融合网络进行关联关系提取操作，得到包括多层特征中各层特征之间的关联关系的分类特征。

识别单元1005，被配置为执行使用根据分类特征进行分类处理，确定目标图像中对象所属的类别。

可选的，上述全局特征注意力单元1003，被配置为执行将第N个卷积层输出的第一特征图输入全局特征注意力网络，得到第二特征图，具体包括：

确定第一特征图中对应的第一矩阵以及第一矩阵的转置矩阵；

将第一矩阵以及转置矩阵内积，得到关系矩阵，关系矩阵用于表征第一特征图中每一像素点与其他像素点之间的关系；

基于关系矩阵，确定第一特征图中每个像素点的平均关系权重值；

根据平均关系权重值，对第一特征图进行加权处理，得到第二特征图。

可选的，特征融合单元1004，被配置为执行将时序序列输入特征融合网络进行关联关系提取操作，得到包括多层特征中各层特征之间的关联关系的分类特征，具体包括：

将时序序列输入特征融合网络中的自注意网络，得到各层特征对应的加权向量；

基于特征融合网络中的反馈前向网络，对各层特征对应的加权向量进行非线性编码处理，以增大各层特征对应的加权向量的维度；

确定维度增大后的加权向量之和为目标向量，并将目标向量作为分类特征。

关于上述实施例中的装置，其中各个模块执行操作的具体方式已经在有关该方法的实施例中进行了详细描述，此处将不做详细阐述说明。

本申请另一实施例还提供一种计算机可读存储介质，该计算机可读存储介质中存储有计算机指令，当计算机指令在图像识别装置上运行时，使得图像识别装置执行上述方法实施例所示的方法流程中图像识别装置执行的各个步骤。

本申请另一实施例还提供一种芯片系统，该芯片系统应用于图像识别装置。芯片系统包括一个或多个接口电路，以及一个或多个处理器。接口电路和处理器通过线路互联。接口电路用于从图像识别装置的存储器接收信号，并向处理器发送信号，信号包括存储器中存储的计算机指令。当处理器执行计算机指令时，图像识别装置执行上述方法实施例所示的方法流程中图像识别装置执行的各个步骤。

在本申请另一实施例中，还提供一种计算机程序产品，该计算机程序产品包括计算机指令，当计算机指令在图像识别装置上运行时，使得图像识别装置执行上述方法实施例所示的方法流程中图像识别装置执行的各个步骤。

在上述实施例中，可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。当使用软件程序实现时，可以全部或部分地以计算机程序产品的形式来实现。该计算机程序产品包括一个或多个计算机指令。在计算机上加载和执行计算机执行指令时，全部或部分地产生按照本申请实施例的流程或功能。计算机可以是通用计算机、专用计算机、计算机网络、或者其他可编程装置。计算机指令可以存储在计算机可读存储介质中，或者从一个计算机可读存储介质向另一个计算机可读存储介质传输，例如，计算机指令可以从一个网站站点、计算机、服务器或者数据中心通过有线(例如同轴电缆、光纤、数字用户线(digitalsubscriber line，DSL))或无线(例如红外、无线、微波等)方式向另一个网站站点、计算机、服务器或数据中心进行传输。计算机可读存储介质可以是计算机能够存取的任何可用介质或者是包含一个或多个可以用介质集成的服务器、数据中心等数据存储设备。可用介质可以是磁性介质(例如，软盘、硬盘、磁带)，光介质(例如，DVD)、或者半导体介质(例如固态硬盘(solid state disk，SSD))等。

以上所述，仅为本申请的具体实施方式。熟悉本技术领域的技术人员根据本申请提供的具体实施方式，可想到变化或替换，都应涵盖在本申请的保护范围之内。

本领域技术人员在考虑说明书及实践这里公开的发明后，将容易想到本公开的其它实施方案。本申请旨在涵盖本公开的任何变型、用途或者适应性变化，这些变型、用途或者适应性变化遵循本公开的一般性原理并包括本公开未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的，本公开的真正范围和精神由下面的权利要求指出。

应当理解的是，本公开并不局限于上面已经描述并在附图中示出的精确结构，并且可以在不脱离其范围进行各种修改和改变。本公开的范围仅由所附的权利要求来限制。

Claims

1.一种图像识别方法，其特征在于，包括：

获取目标图像；

将所述目标图像输入特征提取网络进行特征提取，得到所述特征提取网络的第N个卷积层输出的第一特征图，其中，1＜N＜M，所述N为整数，所述M为所述特征提取网络的总卷积层数；

将所述第N个卷积层输出的第一特征图输入全局特征注意力网络，得到第二特征图，将所述第二特征图的多层特征展开为时序序列，所述第二特征图用于表征所述第一特征图中关键区域的特征，所述关键区域包括的权重值大于预设权重值的像素点；

将所述时序序列输入特征融合网络进行关联关系提取操作，得到包括所述多层特征中各层特征之间的关联关系的分类特征；

根据所述分类特征进行分类处理，确定所述目标图像中对象所属的类别；

其中，所述将所述第N个卷积层输出的第一特征图输入全局注意力网络，得到第二特征图，包括：确定所述第一特征图中对应的第一矩阵以及所述第一矩阵的转置矩阵；

将所述第一矩阵以及所述转置矩阵内积，得到关系矩阵，所述关系矩阵用于表征所述第一特征图中每一像素点与其他像素点之间的关系；

基于所述关系矩阵，确定所述第一特征图中每个像素点的平均关系权重值；

根据所述平均关系权重值，对所述第一特征图进行加权处理，得到所述第二特征图。

2.根据权利要求1所述的方法，其特征在于，所述将所述时序序列输入特征融合网络进行关联关系提取操作，得到包括所述多层特征中各层特征之间的关联关系的分类特征，包括：

将所述时序序列输入所述特征融合网络中的自注意网络，得到各层特征对应的加权向量；

基于所述特征融合网络中的反馈前向网络，对所述各层特征对应的加权向量进行非线性编码处理，以增大所述各层特征对应的加权向量的维度；

确定维度增大后的加权向量之和为目标向量，并将所述目标向量作为所述分类特征。

3.根据权利要求1-2任一项所述的方法，其特征在于，所述特征提取网络为ResNet网络，所述全局特征注意力网络为SANet网络，所述特征融合网络为Transformer网络。

4.一种图像识别装置，其特征在于，包括：

获取单元，被配置为执行获取目标图像；

特征提取单元，被配置为执行将所述目标图像输入特征提取网络进行特征提取，得到所述特征提取网络的第N个卷积层输出的第一特征图，其中，1＜N＜M，所述N为整数，所述M为所述特征提取网络的总卷积层数；

全局特征注意力单元，被配置为执行将所述第N个卷积层输出的第一特征图输入全局特征注意力网络，得到第二特征图，将所述第二特征图的多层特征展开为时序序列，所述第二特征图用于表征所述第一特征图中关键区域的特征，所述关键区域包括的权重值大于预设权重值的像素点；

特征融合单元，被配置为执行将所述时序序列输入特征融合网络进行关联关系提取操作，得到包括所述多层特征中各层特征之间的关联关系的分类特征；

识别单元，被配置为执行根据所述分类特征进行分类处理，确定所述目标图像中对象所属的类别；

所述全局特征注意力单元，被配置为执行将所述第N个卷积层输出的第一特征图输入全局特征注意力网络，得到第二特征图，具体包括：

确定所述第一特征图中对应的第一矩阵以及所述第一矩阵的转置矩阵；

5.根据权利要求4所述的图像识别装置，其特征在于，所述特征融合单元，被配置为执行将所述时序序列输入特征融合网络进行关联关系提取操作，得到包括所述多层特征中各层特征之间的关联关系的分类特征，具体包括：

6.根据权利要求4-5任一项所述图像识别装置，其特征在于，所述特征提取网络为ResNet网络，所述全局特征注意力网络为SANet网络，所述特征融合网络为Transformer网络。

7.一种图像识别电子设备，其特征在于，包括：

处理器；

用于存储所述处理器可执行指令的存储器；

其中，所述处理器被配置为执行所述指令，以实现如权利要求1至3中任一项所述的图像识别方法。

8.一种计算机可读存储介质，其特征在于，当所述计算机可读存储介质中的指令由图像识别电子设备的处理器执行时，使得所述图像识别电子设备能够执行如权利要求1至3中任一项所述的图像识别方法。

9.一种计算机程序产品，包括计算机指令，其特征在于，所述计算机指令被处理器执行时实现权利要求1-3任一项所述的图像识别方法。