CN116740414A

CN116740414A - 图像识别方法、装置、电子设备和存储介质

Info

Publication number: CN116740414A
Application number: CN202310542913.5A
Authority: CN
Inventors: 朱宽; 郭海云; 王金桥; 唐明
Original assignee: Institute of Automation of Chinese Academy of Science
Current assignee: Institute of Automation of Chinese Academy of Science
Priority date: 2023-05-15
Filing date: 2023-05-15
Publication date: 2023-09-12
Anticipated expiration: 2043-05-15
Also published as: CN116740414B

Abstract

本发明提供一种图像识别方法、装置、电子设备和存储介质，涉及图像识别技术领域，该方法包括：获取待识别图像；将待识别图像输入改进的Transformer网络，得到改进的Transformer网络输出的图像识别结果；改进的Transformer网络是基于带有图像识别结果标签的样本图像训练得到的；改进的Transformer网络用于对输入图像的原始特征图进行空间重组，得到至少三个重组特征图，并基于至少三个重组特征图进行自注意力计算；其中，每个重组特征图内都划分多个小组，自注意力计算在每个小组内进行。从而可以显著降低网络的计算量，提高图像识别的效率，降低图像识别的显存占用。

Description

图像识别方法、装置、电子设备和存储介质

技术领域

本发明涉及图像识别技术领域，尤其涉及一种图像识别方法、装置、电子设备和存储介质。

背景技术

图像识别旨在识别图像中所包含物体的类别。其难点在于如何设计高效的神经网络，在降低计算量的同时，获得更好的分类效果。

由于Transformer网络结构具有全局视野的优势，逐渐成为了图像识别领域的主流网络结构。但是，现有的Transformer网络包含大量自注意力操作，存在计算量大、速度慢、显存占用高等问题。

发明内容

针对现有技术存在的问题，本发明提供一种图像识别方法、装置、电子设备和存储介质。

第一方面，本发明提供一种图像识别方法，包括：

获取待识别图像；

将所述待识别图像输入改进的Transformer网络，得到所述改进的Transformer网络输出的图像识别结果；

所述改进的Transformer网络是基于带有图像识别结果标签的样本图像训练得到的；

所述改进的Transformer网络用于对输入图像的原始特征图进行空间重组，得到至少三个重组特征图，并基于所述至少三个重组特征图进行自注意力计算；其中，每个所述重组特征图内都划分多个小组，自注意力计算在每个所述小组内进行。

可选地，所述改进的Transformer网络包括空间重组模块、自注意力模块和分类模块；

所述空间重组模块用于对输入图像的原始特征图进行空间重组，得到至少三个重组特征图；

所述自注意力模块包括多个串联的Transformer层，每个所述Transformer层用于对一个所述重组特征图进行自注意力计算；

所述分类模块用于基于最后一个所述Transformer层输出的特征图，输出图像识别结果。

可选地，所述对输入图像的原始特征图进行空间重组，得到至少三个重组特征图，包括：

对所述原始特征图进行空间重组，得到第一特征图和第二特征图，所述第一特征图内划分多个组分辨率为K*K的小组，所述第二特征图内划分多个组分辨率为S*S的小组；其中，所述K为大于或等于2的整数，所述S等于所述原始特征图的宽或高与所述K的比值；

在所述第二特征图的每个小组内进行空间重组，得到第三特征图和第四特征图，所述第三特征图内划分多个组分辨率为L*L的小组，所述第四特征图内划分多个组分辨率为T*T的小组；其中，所述L为大于或等于2、且小于S的整数，所述T等于S/L；

将所述第一特征图、所述第三特征图和所述第四特征图确定为所述重组特征图。

可选地，所述对所述原始特征图进行空间重组，得到第一特征图和第二特征图，包括：

在所述原始特征图内划分多个组分辨率为K*K的小组，得到第一特征图，并从所述原始特征图中，每间隔K-1个位置取一个特征，S*S个特征组成一个小组，多个组分辨率为S*S的小组构成第二特征图。

可选地，所述在所述第二特征图的每个小组内进行空间重组，得到第三特征图和第四特征图，包括：

针对所述第二特征图的任一组分辨率为S*S的小组，在所述任一组分辨率为S*S的小组内进一步划分多个组分辨率为L*L的小组，得到第三特征图，并从所述任一组分辨率为S*S的小组中，每间隔L-1个位置取一个特征，T*T个特征组成一个小组，多个组分辨率为T*T的小组构成第四特征图。

可选地，所述S具有整数平方根，且所述S大于所述K。

可选地，所述改进的Transformer网络包括的多个串联的Transformer层中，第i个所述Transformer层用于对所述第一特征图进行自注意力计算，第j个所述Transformer层用于对所述第四特征图进行自注意力计算，第m个所述Transformer层用于对所述第三特征图进行自注意力计算；其中，i＝{1，4，7，…，n-2}，j＝{2，5，8，…，n-1}，m＝{3，6，9，…，n}，n为所述Transformer层的总数。

第二方面，本发明还提供一种图像识别装置，包括：

获取单元，用于获取待识别图像；

识别单元，用于将所述待识别图像输入改进的Transformer网络，得到所述改进的Transformer网络输出的图像识别结果；

第三方面，本发明还提供一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现如上所述第一方面所述的图像识别方法。

第四方面，本发明还提供一种非暂态计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现如上所述第一方面所述的图像识别方法。

本发明提供的图像识别方法、装置、电子设备和存储介质，通过改进的Transformer网络进行图像识别，该改进的Transformer网络可以对输入图像的原始特征图进行空间重组，得到至少三个重组特征图，然后基于该至少三个重组特征图在小组内进行自注意力计算，从而可以显著降低网络的计算量，提高图像识别的效率，降低图像识别的显存占用。

附图说明

为了更清楚地说明本发明或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明提供的图像识别方法的流程示意图；

图2为本发明提供的特征图重组过程示意图之一；

图3为本发明提供的特征图重组过程示意图之二；

图4为本发明提供的图像识别装置的结构示意图；

图5为本发明提供的电子设备的结构示意图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚，下面将结合本发明中的附图，对本发明中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

图1为本发明提供的图像识别方法的流程示意图，如图1所示，该方法包括如下步骤：

步骤100、获取待识别图像。

步骤101、将待识别图像输入改进的Transformer网络，得到改进的Transformer网络输出的图像识别结果。

具体地，传统的自注意力计算是在输入图像的整个特征图上进行的，由于其计算复杂度和H*W(H和W分别表示特征图的高和宽，一般特征图的H和W相等)成平方正比关系，对整个特征图进行自注意力计算将会消耗大量计算资源，导致现有Transformer网络存在计算量大、速度慢、显存占用高等问题，针对这些问题，本发明提出一种改进的Transformer网络用于图像识别，通过带有图像识别结果标签的样本图像对该改进的Transformer网络进行训练后，便可以在需要进行图像识别时，将待识别图像输入该改进的Transformer网络，得到图像识别结果。

对现有Transformer网络的优化，一种可行的思路是对输入图像的原始特征图进行空间重组，将其划分为若干小组，然后在组内进行自注意力机制的计算，以降低计算量。然而，通过试验发现，对于原始特征图的分辨率不能满足整数平方根的情况，简单地将原始特征图重组为两个特征图并不能有效地降低计算量。例如，对于32*32大小的特征图，简单的空间重组方法可以将其重组为组分辨率为4*4和8*8的两个特征图，并在组内做自注意力计算，但这样的方法对于计算量的减少并不明显。

基于上述现象，本发明进一步提出一种改进的Transformer网络结构，可以明显地降低网络的计算量和显存占用。相比现有的Transformer网络，该改进的Transformer网络主要改进点在于：其可以对输入图像的原始特征图进行空间重组，得到至少三个重组特征图(每个重组特征图内都划分多个小组，自注意力计算在每个小组内进行)，然后基于该至少三个重组特征图进行自注意力计算。

例如，在一些实施例中，对于32*32大小的特征图，该改进的Transformer网络可以首先将其分成组分辨率为2*2和16*16的两个特征图，然后，对于组分辨率为16*16的特征图，可以进一步分成两个组分辨率为4*4的特征图，最终得到组分辨率为2*2、4*4和4*4的三个特征图，使用这三个特征图在小组内进行自注意力计算，从而大幅度降低计算量。该举例中，可以通过两次分组，得到三个重组特征图，类似地，在一些实施例中，还可以通过更多次分组，得到更多重组特征图，本发明不再赘述。

需要说明的是，本发明所述的组分辨率指的是一个小组内包含的一部分特征图的尺寸，例如：组分辨率为4*4的特征图，表示该特征图包括的每个小组，其小组边长都是4。

本发明提供的图像识别方法，通过改进的Transformer网络进行图像识别，该改进的Transformer网络可以对输入图像的原始特征图进行空间重组，得到至少三个重组特征图，然后基于该至少三个重组特征图在小组内进行自注意力计算，从而可以显著降低网络的计算量，提高图像识别的效率，降低图像识别的显存占用。

可选地，该改进的Transformer网络包括空间重组模块、自注意力模块和分类模块；

空间重组模块用于对输入图像的原始特征图进行空间重组，得到至少三个重组特征图；

自注意力模块包括多个串联的Transformer层，每个Transformer层用于对一个重组特征图进行自注意力计算；

分类模块用于基于最后一个Transformer层输出的特征图，输出图像识别结果。

具体地，该改进的Transformer网络至少包括空间重组模块、自注意力模块和分类模块，一种实施方式中，其图像识别过程可以概述为：对于一张输入图片，该改进的Transformer网络首先将其等分为相同大小的图像块，每个图像块经过线性映射变成一个一维向量(维度为C，C为通道数)，这些一维向量组合为高为H和宽为W的特征图，对这些特征图进行空间重组，重组的特征图通过自注意力模块，输出图像的高维度特征表达H*W*C。然后，经过池化层得到一个全局的一维向量，最终使用分类头对全局特征表达进行分类，输出图像识别结果。

在一些实施例中，自注意力模块主要包括自注意力机制和多层感知机制，自注意力的计算过程可以参考现有Transformer网络，不同之处在于使用的特征图和小组内计算自注意力的机制。对于任一个Transformer层，自注意力模块首先将重组特征图映射为Q(query，查询)、K(key，键)和V(value，值)三个向量，Q和K相乘得到注意力图，注意力图和V相乘得到最后的输出，再通过多层全连接层，得到一个Transformer层的输出。多个Transformer层串联，上一个Transformer层的自注意力计算结果输入到下一个Transformer层。可选地，该改进的Transformer网络中，编码器网络可以包含12个Transformer层。

在一些实施例中，多个重组特征图可以以级联循环的方式输入多个串联的Transformer层。例如，重组特征图有X个，可以每X个Transformer层作为一个循环，一个循环内的X个Transformer层分别进行这X个重组特征图的自注意力计算。

在一些实施例中，分类模块具体用于：对于最后一个Transformer层输出的特征图，首先使用全局平均池化将其转化为一维特征表达，然后在特征表达上添加分类头，输出网络预测的类别。具体地，该分类头由全连接层组成，输出为每个类别的预测概率。

可选地，对输入图像的原始特征图进行空间重组，得到至少三个重组特征图，包括：

对原始特征图进行空间重组，得到第一特征图和第二特征图，第一特征图内划分多个组分辨率为K*K的小组，第二特征图内划分多个组分辨率为S*S的小组；其中，K为大于或等于2的整数，S等于原始特征图的宽或高与K的比值；

在第二特征图的每个小组内进行空间重组，得到第三特征图和第四特征图，第三特征图内划分多个组分辨率为L*L的小组，第四特征图内划分多个组分辨率为T*T的小组；其中，L为大于或等于2、且小于S的整数，T等于S/L；

将第一特征图、第三特征图和第四特征图确定为重组特征图。

具体地，在一些实施例中，可以对输入图像的原始特征图进行空间重组，得到第一特征图和第二特征图，然后在第二特征图的每个小组内进行空间重组，得到第三特征图和第四特征图，最后将第一特征图、第三特征图和第四特征图确定为重组特征图，即最终得到三个重组特征图。

在一些实施例中，S具有整数平方根(例如：16具有整数平方根4，而32不具有整数平方根)，且S大于K。也就是说，原始特征图重组得到的两个特征图，可以是一个组分辨率较小的特征图和一个组分辨率较大的特征图，其中组分辨率较大的特征图的小组边长具有整数平方根。这样再通过对第二特征图的进一步重组可以大幅度降低网络的计算量。

可选地，对原始特征图进行空间重组，得到第一特征图和第二特征图，包括：

在原始特征图内划分多个组分辨率为K*K的小组，得到第一特征图，并从原始特征图中，每间隔K-1个位置取一个特征，S*S个特征组成一个小组，多个组分辨率为S*S的小组构成第二特征图。

具体地，为便于说明，以图2进行示例，图2为本发明提供的特征图重组过程示意图之一，如图2所示，图中原始特征图的尺寸为8*8，K＝2，S＝4，为了便于描述，将原始特征图中的每个特征(即图中的一个方块)用一个数字编号进行标记(需要说明的是，该数字编号仅为说明重组过程之用，不代表任何实际含义)，第一特征图和第二特征图上的每个虚线框表示一个小组。

如图2所示，在第一次分组(即得到第一特征图和第二特征图的分组)中，原始特征图可以按照两种方式分成两个特征图，在各自的特征图中，都只需要在其小组内计算自注意力。具体地，对于第一特征图，可以将原始特征图直接按照空间顺序，将其分成边长为2的若干小组，并在组内计算自注意力。对于第二特征图，可以从原始特征图中，每间隔1个位置取一个特征，取一遍(即取4*4个特征)组成一个小组，并在组内计算自注意力。

可选地，在第二特征图的每个小组内进行空间重组，得到第三特征图和第四特征图，包括：

针对第二特征图的任一组分辨率为S*S的小组，在任一组分辨率为S*S的小组内进一步划分多个组分辨率为L*L的小组，得到第三特征图，并从任一组分辨率为S*S的小组中，每间隔L-1个位置取一个特征，T*T个特征组成一个小组，多个组分辨率为T*T的小组构成第四特征图。

具体地，为便于说明，以图3进行示例，图3为本发明提供的特征图重组过程示意图之二，图3中所示的第二特征图即图2中所示的第二特征图，图3中，L＝2，T＝2，第三特征图和第四特征图上的每个粗实线框表示一个小组。

如图3所示，在第二次分组(即得到第三特征图和第四特征图的分组)中，对第二特征图中边长为4的小组进行拆分，按照第一次分组的方式，进一步分成两个特征图。对于第三特征图，可以直接按照空间位置，将第二特征图中边长为4的小组进一步划分为边长为2的更小的小组，对于第四特征图，可以在每个边长为4的小组内部，每间隔1个位置取一个特征，小组内取一遍(即取2*2个特征)组成一个边长为2的更小的小组，并在组内计算自注意力。

通过将一个原始特征图拆分成3个重组特征图，并在小组内计算自注意力，使得每个重组特征图所需要的计算量更小。对每一个重组特征图进行自注意力计算为网络的一层，不会增加网络的层数，这样可以大幅度降低网络的计算量。

可选地，该改进的Transformer网络包括的多个串联的Transformer层中，第i个Transformer层用于对第一特征图进行自注意力计算，第j个Transformer层用于对第四特征图进行自注意力计算，第m个Transformer层用于对第三特征图进行自注意力计算；其中，i＝{1，4，7，…，n-2}，j＝{2，5，8，…，n-1}，m＝{3，6，9，…，n}，n为Transformer层的总数。

例如，该改进的Transformer网络包括12个Transformer层，那么，可以第1个Transformer层输入第一特征图进行自注意力计算，第2个Transformer层输入第四特征图进行自注意力计算，第3个Transformer层输入第三特征图进行自注意力计算，第4个Transformer层输入第一特征图进行自注意力计算，第5个Transformer层输入第四特征图进行自注意力计算，第6个Transformer层输入第三特征图进行自注意力计算，依次类推，直到最后一个Transformer层。将三个重组特征图按照这种顺序分别输入Transformer层，可以使各个位置的特征更有效的交互。

为使本发明的技术方案更加清楚明白，以下结合具体实施例作进一步的详细说明。

在该具体实施例中，基于本发明提供的级联空间重组的高效Transformer网络结构，其对图像识别主要包括以下步骤：

步骤1：将输入图像划分为图像块，对每个图像块进行特征编码，得到原始特征图。

步骤2：对原始特征图进行第一次空间重组，使得到的两个特征图上被划分为若干个小组。

步骤3：对上述两个特征图中小组边长较大的，进行二次分组，得到两个具有更小组划分的特征图。

步骤4：对上述得到的三个特征图，仅在其小组内进行自注意力机制的计算。

步骤5：重复步骤2-4若干次，得到最终的特征图输出。

步骤6：对最终的特征图进行全局平均池化，并加上分类器进行图像分类。

通过本发明提出的改进的Transformer网络，可以进一步降低图像识别的计算量和显存占用，提高图像识别的效率。

下面对本发明提供的图像识别装置进行描述，下文描述的图像识别装置与上文描述的图像识别方法可相互对应参照。

图4为本发明提供的图像识别装置的结构示意图，如图4所示，该装置包括：

获取单元400，用于获取待识别图像；

识别单元410，用于将待识别图像输入改进的Transformer网络，得到改进的Transformer网络输出的图像识别结果；

改进的Transformer网络是基于带有图像识别结果标签的样本图像训练得到的；

改进的Transformer网络用于对输入图像的原始特征图进行空间重组，得到至少三个重组特征图，并基于至少三个重组特征图进行自注意力计算；其中，每个重组特征图内都划分多个小组，自注意力计算在每个小组内进行。

可选地，改进的Transformer网络包括空间重组模块、自注意力模块和分类模块；

可选地，S具有整数平方根，且S大于K。

可选地，改进的Transformer网络包括的多个串联的Transformer层中，第i个Transformer层用于对第一特征图进行自注意力计算，第j个Transformer层用于对第四特征图进行自注意力计算，第m个Transformer层用于对第三特征图进行自注意力计算；其中，i＝{1，4，7，…，n-2}，j＝{2，5，8，…，n-1}，m＝{3，6，9，…，n}，n为Transformer层的总数。

在此需要说明的是，本发明提供的上述装置，能够实现上述方法实施例所实现的所有方法步骤，且能够达到相同的技术效果，在此不再对本实施例中与方法实施例相同的部分及有益效果进行具体赘述。

图5为本发明提供的电子设备的结构示意图，如图5所示，该电子设备可以包括：处理器(processor)510、通信接口(Communications Interface)520、存储器(memory)530和通信总线540，其中，处理器510，通信接口520，存储器530通过通信总线540完成相互间的通信。处理器510可以调用存储器530中的逻辑指令，以执行上述各实施例提供的任一所述图像识别方法。

此外，上述的存储器530中的逻辑指令可以通过软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

在此需要说明的是，本发明提供的电子设备，能够实现上述方法实施例所实现的所有方法步骤，且能够达到相同的技术效果，在此不再对本实施例中与方法实施例相同的部分及有益效果进行具体赘述。

另一方面，本发明还提供一种非暂态计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现以执行上述各实施例提供的任一所述图像识别方法。

在此需要说明的是，本发明提供的非暂态计算机可读存储介质，能够实现上述方法实施例所实现的所有方法步骤，且能够达到相同的技术效果，在此不再对本实施例中与方法实施例相同的部分及有益效果进行具体赘述。

以上所描述的装置实施例仅仅是示意性的，其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下，即可以理解并实施。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件。基于这样的理解，上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在计算机可读存储介质中，如ROM/RAM、磁碟、光盘等，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。

最后应说明的是：以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims

1.一种图像识别方法，其特征在于，包括：

获取待识别图像；

2.根据权利要求1所述的图像识别方法，其特征在于，所述改进的Transformer网络包括空间重组模块、自注意力模块和分类模块；

3.根据权利要求1或2所述的图像识别方法，其特征在于，所述对输入图像的原始特征图进行空间重组，得到至少三个重组特征图，包括：

4.根据权利要求3所述的图像识别方法，其特征在于，所述对所述原始特征图进行空间重组，得到第一特征图和第二特征图，包括：

5.根据权利要求3所述的图像识别方法，其特征在于，所述在所述第二特征图的每个小组内进行空间重组，得到第三特征图和第四特征图，包括：

6.根据权利要求3所述的图像识别方法，其特征在于，所述S具有整数平方根，且所述S大于所述K。

7.根据权利要求3所述的图像识别方法，其特征在于，所述改进的Transformer网络包括的多个串联的Transformer层中，第i个所述Transformer层用于对所述第一特征图进行自注意力计算，第j个所述Transformer层用于对所述第四特征图进行自注意力计算，第m个所述Transformer层用于对所述第三特征图进行自注意力计算；其中，i＝{1，4，7，…，n-2}，j＝{2，5，8，…，n-1}，m＝{3，6，9，…，n}，n为所述Transformer层的总数。

8.一种图像识别装置，其特征在于，包括：

获取单元，用于获取待识别图像；

9.一种电子设备，包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序，其特征在于，所述处理器执行所述程序时实现如权利要求1至7任一项所述图像识别方法。

10.一种非暂态计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求1至7任一项所述图像识别方法。