CN113378973A

CN113378973A - 一种基于自注意力机制的图像分类方法

Info

Publication number: CN113378973A
Application number: CN202110723547.4A
Authority: CN
Inventors: 杨木润; 赵闯
Original assignee: Shenyang Yaze Network Technology Co ltd
Current assignee: Shenyang Yaze Network Technology Co ltd
Priority date: 2021-06-29
Filing date: 2021-06-29
Publication date: 2021-09-10
Anticipated expiration: 2041-06-29
Also published as: CN113378973B

Abstract

本发明提供一种基于自注意力机制的图像分类方法，步骤为：构建包含自注意力机制的Transformer模型，针对图像分类任务添加分类器单元；处理公开数据集ImageNet，调整原图片至合适大小；将调整后的图片划分成固定大小的子图，连接各子图后进行维度调整，得到图片嵌入向量；进行二维位置编码，得到二维位置编码向量，和图片嵌入向量连接，作为模型输入；将连接后向量送入Transformer模型，提取图片特征，最终解码时通过分类器单元将模型输出的向量转换成概率表示，完成图像分类。本发明通过自注意力机制的使用，能够有效地从图片中提取全局信息，即传统卷积神经网络所提取的图片特征，基于提取的特征能够有效地完成对图片的分类。

Description

一种基于自注意力机制的图像分类方法

技术领域

本发明涉及一种图像分类技术，具体为基于自注意力机制的图像分类方法。

背景技术

图像分类是一个模式分类问题，它的目标是将不同的图像，划分到不同的类别，实现最小的分类误差。它的典型方法就是提取图像的特征，基于特征对图像进行分类标签的分配。图像分类任务从传统的方法到基于深度学习的方法，经历了几十年的发展。目前的方法主要基于卷积神经网络结构来提取图像特征，并在基础网络之上采取了加深模型层数和深度，改进卷积方式等操作。方法的更迭使得基本的图像分类任务性能已经接近饱和，模型的复杂度也已经接近人工设计的极限。因此，需要更多的方法来突破当前的瓶颈，其中一个想法就是引入其他领域，如自然语言处理领域的研究成果，来对传统卷积网络进行一定的改进甚至是替代。

而在自然语言处理领域，注意力机制的引入使得人们能够更高效提取各个词之间的相关度，从而得到每个词基于整句话的相关度信息。这一提取信息的过程与对图像进行卷积操作有着相似的地方，都是对全局信息的提取，只是相比之下注意力机制无法提取到位置信息。于是，许多将卷积神经网络与注意力机制结合的思想也被激发出来，其核心是将图片或图片的表示视作自然语言处理中的词串，使用注意力机制提取他们之间的关注度。这样的方式就是在探究注意力机制对卷积神经网络描述图像能力的替代。目前这些将注意力机制引入卷积网络的操作，主要有：将卷积网络和注意力机制结合，如卷积的结果再进行自注意力计算；用注意力机制对卷积网络进行完全的替代。但是这些方法在大规模的数据上，仍然无法超越现有的基于卷积神经网络的图像分类模型。因此除了使用基础的注意力机制，如何将更复杂、高效的自然语言处理领域的模型移植到图像领域，便成为了新的问题。

针对上述问题，考虑到在机器翻译领域，结合了自注意力机制，基于编码器-解码器结构的Transformer模型已经成为了新的范式。并且，它也具有优越的计算效率和可扩展性，可以在预训练下处理多类任务。将它应用到图像任务可以将传统的特征提取过程转换成“词串”进行编码解码的过程，用不同于卷积的另一个角度对全局特征进行充分提取，并可以在大规模数据下拥有良好的表现。当然，通过对Transformer结构进行分析，在使用Transformer结构对图像进行特征提取时，也面临着以下问题：如何将图像转换成类似于句子的表示，如何引入图像的位置信息，以及如何针对特定图像分类任务进行模型修改。这些问题的存在，使得目前在图像领域对Transformer结构的应用还不成熟，仍需大量的实践探索。

发明内容

针对现有技术中注意力机制对卷积网络的替代还不明显，将Transformer模型的优势引入图像领域的尝试还不完善等不足，本发明要解决的技术问题是提供一种基于自注意力机制的图像分类方法，探索Transformer结构在图像分类任务上的应用。

为解决上述技术问题，本发明采用的技术方案是：

本发明提供一种基于自注意力机制的图像分类方法，包括以下步骤：

1)构建包含自注意力机制的Transformer模型，修改模型结构，并针对图像分类任务添加分类器单元；

2)处理公开数据级ImageNet，调整图片至合适大小；

3)将图片划分成固定大小的子图，连接各子图后进行维度调整，从而组成图片嵌入向量，代表图片对应的“词串”；

4)对调整后的图片使用sincos编码方式进行二维位置编码，得到二维位置编码向量，并将其和图片嵌入向量连接，作为模型的输入；

5)将连接完后的编码向量送入模型，提取图片特征，完成分类，进行参数调优，训练到收敛为止，最终解码时通过分类器单元将模型输出的向量转换成概率表示，完成图像分类。

步骤1)中，使用Transformer结构时，将解码器部分的自注意力计算都替换为与编码器部分相同，并将解码器部分初始输入替换为一个用于分类的向量CLS。同时进行位置编码计算时，采用的是二维位置编码，将其与图片嵌入向量和分类向量连接分别作为编码器解码器的输入。针对图像分类任务，在解码器的输出部分连接一个分类头。具体为：

101)编码器部分，由多头自注意力计算和前馈神经网络层FNN组成，用于图像各部分注意力的提取，多头自注意力的计算如下：

MultiHead(Q,K,V)＝Concat(head₁,…,head_h)W^o

其中，Q、K、V为模型的输入向量，head_i为第i个头的向量，W为翻译模型参数，Attention(.)为注意力机制函数，Concat(.)为向量连接函数。

前馈神经网络层FNN的计算如下：

FFN(x)＝max(0,xW₁+b₁)W₂+b₂

其中，x为隐藏层向量，W₁、W₂、b₁、b₂为模型的参数，由模型自动学习得到；

102)解码器部分，由两次多头自注意力计算和两层前馈神经网络层FNN组成，编码器的初始输入替换成了一个新的用于图像分类的向量CLS；

103)使用分类头，即经过编码器-解码器输出的向量再经过前馈神经网络层FNN和softmax层进行分类。

步骤2)中，从公开数据集ImageNet中获取训练数据，将训练数据的图片调整成统一大小，如分辨率为384*384。

步骤3)中，将调整大小后的原图片划分成固定大小的子图片，每个子图片称作patch，再调整其维度至对于模型的输入大小合适，这样就得到了对每一个patch的编码，即得到了图片嵌入向量。具体为：

301)以输入(batch，3，384，384)，每个patch分辨率为32*32为例，划分为子图片的过程的具体过程：首先，将每张图片切分成12*12个小块，即从(batch，3，32*12，32*12)到(batch，3，12*12，32*32)，再将其转换成(batch，12*12，32*32*3)，相当于分成了12*12个patch，每个patch的维度是32*32*3。这一过程的实现可通过以下计算：

x＝rearrange(img,′b c(hp1)(w p2)→b(hw)(p1 p2 c)′,p1＝p,p2＝p)

其中，rearrange函数是einops库的算子，p是patch大小，c是通道数，b是batch数，h，w分别是图像的高和宽；

302)划分子图片后，得到图片的嵌入向量，还需对其维度进行调整。这里图片嵌入向量经过一层全连接层调整维度至1024，使之作为模型的输入不会过长。

步骤4)中，使用2维的sincos编码方式，编码公式为：

其中，PE为二维矩阵，行表示子图片，列表示位置向量；pos表示子图片在图片中的位置；d_model表示位置向量的维度；i表示位置向量的位置。

二维的编码方式，即是将二维位置编码的一半维度用横向的sincos编码表示，另一半维度用纵向的sincos编码表示。编码完毕后，将位置编码向量与上一步的图像嵌入向量连接，即可得到模型的输入向量。

步骤5)中，得到图像嵌入向量和位置向量的连接结果后，将其送入编码器-解码器结构，提取特征到CLS向量，完成分类，重复此过程进行模型训练；训练结束后，模型只需经过一次解码即可输出对应输入图片的分类结果。

本发明具有以下有益效果及优点：

1.本发明通过自注意力机制的使用，能够有效地从图片中提取全局信息，即传统卷积神经网络所提取的图片特征，基于提取的特征能够有效地完成对图片的分类。

2.与此同时，本发明通过将图片拆分成子图后编码的方式，将图像转换成类似于句子的表示，并对图片进行二维位置编码引入位置信息，最后针对图像分类问题在模型中添加了分类头，从语言的角度来解决图像问题。

3.本发明成功地将基础的Transformer结构应用到了图像分类领域，为后续在其他图像任务上利用Transformer等自然语言处理领域的先进模型提供了更多的可能。

附图说明

图1为本发明方法中模型结构图示；

图2为本发明方法中多头注意力机制图示；

图3为本发明中图片划分过程的图示。

具体实施方式

下面结合说明书附图对本发明作进一步阐述。

本发明针对传统的图像分类方法主要基于卷积神经网络来提取特征这一现状，提出一种自注意力机制的图像分类方法，该方法成功地将自然语言处理任务中的Transformer模型引入了图像任务中，通过自注意力机制来提取图像的全局信息，构成图像特征，在达到有效的图像分类目的的同时，为后续的研究提供了更多的可能。

本发明提供一种基于自注意力机制的图像分类方法，采用的技术方案是：

2)处理公开数据集ImageNet，调整原图片至合适大小；

3)将调整后的图片划分成固定大小的子图，连接各子图后进行维度调整，从而组成图片嵌入向量，代表图片对应的“词串”；

5)将图片嵌入向量、二维位置编码向量连接后送入Transformer模型，提取图片特征，进行参数调优，训练到收敛为止，最终解码时通过分类器单元将模型输出的向量转换成概率表示，完成图像分类。

步骤1)中，使用Transformer结构时，将解码器部分的自注意力计算都替换为与编码器部分相同，见图1中的多头注意力计算模块和编码解码注意力，它们实际的计算都是一致的，计算图示可见图2，只是它们的输入不同。还要将解码器部分的初始输入替换为一个用于分类的向量CLS。同时进行位置编码计算时，采用的是二维位置编码，将其与图片嵌入向量和分类向量连接分别作为编码器解码器的输入。另外，针对图像分类任务，需要在解码器的输出部分连接一个分类头。具体为：

101)编码器部分，如图1模型结构左侧所示，由多头自注意力计算和前馈神经网络层FNN组成，用于图像各部分注意力的提取，多头注意力的计算过程如图2所示，其中基于点乘的多头自注意力的具体计算公式如下：

MultiHead(Q,K,V)＝Concat(head₁,…,head_h)W^o

前馈神经网络层FNN的计算如下：

FFN(x)＝max(0,xW₁+b₁)W₂+b₂

102)解码器部分，如图1模型结构右侧所示，由两次多头自注意力计算和两层前馈神经网络层FNN组成，这里的区别在于，编码器的初始输入替换成了一个新的用于图像分类的向量CLS。以图片类别为10类为例，则向量CLS经过分类头后的维度为10，此向量涵盖了图片中抽取到的全局信息，用于最终的分类；

103)使用分类头，如图1模型结构右上侧所示，即经过编码器-解码器输出的CLS向量再经过前馈神经网络层FNN和softmax层进行分类，此时向量每一维表示每一种分类的概率。

步骤3)中，将调整大小后的原图片划分成固定大小的子图片，每个子图片称作patch，再调整其维度至对于模型的输入大小合适，这样就得到了对每一个patch的编码，即得到了图片嵌入向量。这一过程如图3所示，具体为：

x＝rearrange(img,′b c(hp1)(w p2)→b(hw)(p1 p2 c)′,p1＝p,p2＝p)

其中，rearrange函数是einops库的算子，p是patch大小，c是通道数，b是batch数，h，w分别是图像的高和宽。

步骤4)中，使用2维的sincos编码方式，编码公式为：

步骤5)中，得到图像嵌入向量和位置向量的和后，将其送入编码器-解码器结构，提取特征到CLS向量，完成分类，重复此过程进行模型训练，此处使用交叉熵损失进行模型训练。训练结束后，向模型中输入处理完毕的图片，经过一次解码获得对应CLS向量，向量中数值最大的一维即图片对应的类别。

本发明提出了一种基于自注意力机制的图像分类方法，能够有效地从图片中提取全局信息，即传统卷积神经网络所提取的图片特征。基于提取的特征，模型能够有效地完成对图片的分类。这种方式通过将图片转换成类似词串向量的形式，用自然语言处理的视角去解决图像问题，验证了自注意力在提取图片特征时对卷积网络的替代能力。与此同时，通过大规模的预训练等手段，也能将如Transformer等自然语言处理领域的先进模型运用到更多图像任务上去，为未来图像领域的研究提供了新的方向。

Claims

1.一种基于自注意力机制的图像分类方法，其特征在于包括以下步骤：

2)处理公开数据集ImageNet，调整原图片至合适大小；

2.按权利要求1所述的基于自注意力机制的图像分类方法，其特征在于：步骤1)中，使用Transformer模型结构时，将解码器部分的自注意力计算都替换为与编码器部分相同，并将解码器部分初始输入替换为一个用于分类的向量CLS；

同时进行位置编码计算时，采用二维位置编码，将其与图片嵌入向量和分类向量连接分别作为编码器解码器的输入；针对图像分类任务，在解码器的输出部分连接一个分类头，具体为：

head_i＝Attention(QW_i ^Q,KW_I ^K,VW_I ^V)

MultiHead(Q,K,V)＝Concat(head₁,…,head_h)W^o

其中，Q、K、V为模型的输入向量，head_i为第i个头的向量，W为翻译模型参数，Attention(.)为注意力机制函数，Concat(.)为向量连接函数；

前馈神经网络层FNN的计算如下：

FFN(x)＝max(0,xW₁+b₁)W₂+b₂

3.按权利要求1所述的基于自注意力机制的图像分类方法，其特征在于：步骤2)中，从公开数据集ImageNet中获取训练数据，将训练数据的图片调整成统一大小。

4.按权利要求1所述的基于自注意力机制的图像分类方法，其特征在于：步骤3)中，将调整大小后的原图片划分成固定大小的子图片，每个子图片称作patch，再调整其维度至对于模型的输入大小合适，得到对每一个patch的编码，即图片嵌入向量，具体为：

301)以输入(batch，c，h，w)，每个patch分辨率为p*p为例，划分为子图片的过程的具体过程：首先，将每张图片切分成(h/p)*(w/p)个小块，即从(batch，c，p*(h/p)，p*(w/p))到(batch，c，(h/p)*(w/p)，p*p)，再将其转换成(batch，(h/p)*(w/p)，p*p*c)，相当于分成了(h/p)*(w/p)个patch，每个patch的维度是p*p*c；这一过程的实现可通过以下计算：

x＝rearrange(img,′b c(h p1)(w p2)→b(h w)(p1 p2 c)′,p1＝p,p2＝p)

其中，rearrange函数是einops库的算子，p1、p2是patch大小，c是通道数，b是batch数，h，w分别是图像的高和宽；

302)划分子图片后，得到图片的嵌入向量，并对其维度进行调整，图片嵌入向量经过一层全连接层调整维度至所需长度，使之作为模型的输入不会过长。

5.按权利要求1所述的基于自注意力机制的图像分类方法，其特征在于：步骤4)中，使用2维的sincos编码方式，编码公式为：

其中，PE为二维矩阵，行表示子图片，列表示位置向量；pos表示子图片在图片中的位置；d_model表示位置向量的维度；i表示位置向量的位置；

二维的编码方式，即是将二维位置编码的一半维度用横向的sincos编码表示，另一半维度用纵向的sincos编码表示，编码完毕后，将位置编码向量与上一步的图像嵌入向量连接，即可得到模型的输入向量。

6.按权利要求1所述的基于自注意力机制的图像分类方法，其特征在于：步骤5)中，将图片嵌入向量、二维位置编码向量连接后得到输入向量，将其送入编码器-解码器结构，提取特征到CLS向量，将分类头得到的分类结果与真实结果对比，优化模型，重复此过程进行模型训练；训练结束后，模型经过一次解码即可输出对应输入图片的分类结果。