CN115984574B

CN115984574B - 一种基于循环Transformer的图像信息提取模型、方法及其应用

Info

Publication number: CN115984574B
Application number: CN202310264405.5A
Authority: CN
Inventors: 邓岳; 章修惠
Original assignee: Beihang University
Current assignee: Beihang University
Priority date: 2023-03-20
Filing date: 2023-03-20
Publication date: 2023-09-19
Anticipated expiration: 2043-03-20
Also published as: CN115984574A

Abstract

本发明公开了一种基于循环Transformer的图像信息提取模型、方法及其应用，本发明提出多尺度循环模块，利用分割思想将图像分块进行局部自注意力机制以降低计算复杂度并提高计算效率，通过循环采样模块实现整张图像高效充分的全局信息交流，能够提取出更具有特征的信息。同时，在多尺度信息融合模块将来自多个尺度的信息进行交流与传递，实现局部信息的充分理解。此外，加入按通道卷积模块，增强模型的卷积归纳能力，并最终将信息融合提高模型的鲁棒性。

Description

一种基于循环Transformer的图像信息提取模型、方法及其应用

技术领域

本发明涉及计算机视觉技术领域，更具体的说是涉及一种基于循环Transformer的图像信息提取模型、方法及其应用。

背景技术

图像分类、目标检测与语义分割是计算机视觉、模式识别与机器学习领域非常活跃的研究方向，在很多领域得到广泛应用，包括安防领域的人脸识别、行人检测、智能视频分析、行人跟踪等，交通领域的车辆自动驾驶、交通场景物体识别、车辆计数、逆行检测、车牌检测与识别，以及互联网领域的基于内容的图像检索、相册自动归类等。

传统方法上，早在2006年之前，已有人提出卷积神经网络（Convolution NeuralNetwork）作为图像领域的深度学习结构，通过对图像进行卷积操作，引入了卷积层和池化层以处理具有位移不变性的图像数据，提取图像特征用于后续任务；何恺明等提出ResNet(Residual Neural Network)，引入捷径连接技术(shortcut connections)，提高了模型的识别准确率以及鲁棒性，解决了梯度消失的问题。

近年来，随着Transformer的发展，很多研究注重于利用Transformer解决图像分类、目标检测和语义分割中的问题。Google团队在2020年发布的ViT(Vision Transformer)在尽可能遵循原始Transformer结构的基础上，在计算机视觉分类上达到或者超越最先进的结果(State of the Art, SOTA)，引起学术领域利用Transformer研究计算机视觉任务的潮流。ViT利用分割思想，将一整张图片分割为多个小块，并将小块内的像素点由二维图像展平为一维序列，得以输入到Transformer中。在此之后，诸如swin transformer和shuffle transformer等由ViT改进而来结构也不断地取得更好的效果。

然而Vision Transformer（ViT）虽然是最先将Transformer结构应用在计算机视觉领域的模型，其通过将二维图像分块并将像素展平为一维序列从而使用Transformer，但缺点在于模型计算复杂度过高，为输入序列长度的平方数量级，当输入图像过大，输入序列过长时，模型计算复杂度过高、参数量大、训练难度高。

Swin Transformer通过窗口局部自注意力机制(Window Self Attention)，在划分的小块内部利用自注意力机制进行信息交换，充分降低了计算复杂度。但缺点在于，由于仅仅在划分的小块内部进行信息交换，整幅图像各个分块之间的信息交流受到限制，整体感受野非常局限，信息交换不充分，缺乏全局信息交流。

Shuffle Transformer通过在分块之间进行随机排列使得每个分块都有与其他分块进行信息交流的机会，相比Swin Transformer扩大了感受野，但缺点在由于分块之间随机排列，丧失了原本存在于各个分块之间的二维相对位置关系，存在信息的损失。此外，以上的方法均未考虑尺度问题，无法对同一张图像中占面积相对较大的物体或是占面积相对较小的物体进行特异识别。

因此，如何提供一种计算简单且能够完成全局交流的基于循环Transformer的图像信息提取模型、方法及其应用是本领域技术人员亟需解决的问题。

发明内容

有鉴于此，本发明提供了一种基于循环Transformer的图像信息提取模型、方法及其应用，目的在于解决目前Transformer方法中存在的计算复杂度高、图像全局信息交流不充分等问题。

为了实现上述目的，本发明采用如下技术方案：

一种基于循环Transformer的图像信息提取模型，包括：图像分块处理模块、线性嵌入编码模块、第一多尺度循环模块和循环处理系统并依次相连；

所述图像分块处理模块，用于获取原始图像，并将所述原始图像划分为m个尺度下的图像分块；

所述线性嵌入编码模块，用于获取所述图像处理分块模块划分得到的所述图像分块，并将所述原始图像的每一个分块之内的像素点拉平至一列，同时将原有每个像素块点的特征维度通过线性层映射到编码维度C，得到编码后图像分块；

所述第一多尺度循环模块，用于将所述编码后图像分块进行循环采样操作，得到不同尺度下的特征信息，并将所得到的不同尺度下的特征信息拼接在一起，使用自注意力机制将不同尺度的特征信息进行融合，使得每个尺度下的特征信息根据其他尺度下的特征信息进行更新，将更新后的特征信息发送至所述循环处理系统；

所述循环处理系统中包括n个循环子系统并依次相连，每个所述循环子系统中均包括图像分块融合模块和第二多尺度循环模块；

所述图像分块融合模块与所述第二多尺度循环模块相连，用于将所述编码后图像分块中相邻的2×2个分块在特征维度上进行拼接合成为一个特征维度为4C的融合分块，再将所述融合分块通过线性层将原特征维度4C变换为2C，得到融合后的像素分块；

所述第二多尺度循环模块，用于对所述像素分块进行循环采样操作，得到不同尺度下的特征信息，并将所得到的不同尺度下的特征信息拼接在一起，使用自注意力机制将不同尺度的特征信息进行融合。

优选的，所述第一多尺度循环模块和所述第二多尺度循环模块中均包括：循环采样单元、多尺度融合单元、自注意力单元和按通道卷积单元；

所述循环采样单元，用于所述图像分块或所述编码后图像分块之间进行循环采样操作，对采样到的分块应用自注意力机制，经过信息交互和提取后得到不同尺度下的特征信息；

所述多尺度融合单元，用于对三个尺度下的特征信息进行融合后，使每个尺度下的特征信息根据其他尺度下的特征信息进行更新；

所述自注意力单元，用于从其他尺度获得的特征信息进一步在各个尺度上进行特征信息的交换与提炼，综合性考虑全局特征信息；

所述按通道卷积单元，用于利用卷积神经网络按通道对所述图像分块或所述编码后图像分块进行卷积操作，并与所述自注意力单元的输出进行结合，得到特征值构成保留原始相对位置关系的特征图。

优选的，所述循环采样单元包括分块内局部自注意力机制子单元、行内自注意力机制子单元或列内自注意力机制子单元；

所述分块内局部自注意力机制子单元，用于对所述图像分块或所述编码后图像

优选的，同一列内的像素点组成一个图像分块，所述行内自注意力机制子单元在图像分块的行上进行不同分块之间的信息交流与互通的具体方法为：当一行内包括a个像素点时，在第一行选取第一个像素点，第二行选取第二个像素点，直至到第a+1行时，重新选取第a+1行的第一个像素点，以此类推，直至每一行都被选取过像素点；

所述列内自注意力机制子单元在图像分块的列上进行不同分块之间的信息交流与互通的具体方法为：当一列内包括b个像素点时，在第一列选取第一个像素点，第二列选取第二个像素点，直至到第b+1列时，重新选取第b+1列的第一个像素点，以此类推，直至每一列都被选取过像素点。

分块内部的有限的像素点所含的信息进行局部自注意力操作，在每一个分块内部提取和归纳图像信息；

所述行内自注意力机制子单元，用于在图像分块的行上进行不同分块之间的信息交流与互通；

所述列内自注意力机制子单元，用于在图像分块的列上进行不同分块之间的信息交流与互通。

一种基于循环Transformer的图像信息提取方法，包括以下步骤：

S1.获取原始图像，并将所述原始图像划分为m个尺度下的分块；

S2.获取划分得到的不同尺度的分块，并将所述原始图像的每一个分块之内的像素拉平至一列，同时将原有每个像素的特征维度通过线性层映射到编码维度C；

S3.将线性嵌入编码后的像素块进行循环采样操作，得到不同尺度下的特征信息，并将所得到的不同尺度下的特征信息拼接在一起，使用自注意力机制将不同尺度的特征信息进行融合，使得每个尺度下的特征信息根据其他尺度下的特征信息进行更新；

S4.将图像分块中相邻的2×2个分块在特征维度上进行拼接，并将拼接后的像素分块通过线性层将原特征维度4C变换为2C，得到融合后的像素分块；

S5.对融合后的像素分块进行循环采样操作，得到不同尺度下的特征信息，并将所得到的不同尺度下的特征信息拼接在一起，使用自注意力机制将不同尺度的特征信息进行融合。

优选的，S3和S5中进行循环采样的过程包括：

（1）在图像分块之间进行循环采样操作，对采样到的分块应用自注意力机制，经过信息交互和提取后得到不同尺度下的特征信息；

（2）对三个尺度下的特征信息进行融合后，使每个尺度下的特征信息根据其他尺度下的特征信息进行更新；

（3）从其他尺度获得的特征信息进一步在各个尺度上进行特征信息的交换与提炼，综合性考虑全局特征信息；

（4）利用卷积神经网络按通道对原始图像进行卷积操作，得到特征值构成保留原始相对位置关系的特征图。

优选的，循环采样操作方法包括：分块内局部自注意力机制、行内自注意力机制或列内自注意力机制；

分块内局部自注意力机制：对分块内部的有限的像素点所含的信息进行局部自注意力操作，在每一个分块内部提取和归纳图像信息；

行内自注意力机制：在图像分块的行上进行不同分块之间的信息交流与互通；

列内自注意力机制：在图像分块的列上进行不同分块之间的信息交流与互通。

一种基于循环Transformer的图像信息提取模型的图像分类训练方法，包括以下步骤：

步骤1.从现有数据集中随机抽取图像分别作为训练集、验证集和测试集；

步骤2.对图像信息提取模型的网络参数进行初始化；

步骤3.随机从训练集中抽取一组样本，包含a张图像；

步骤4.对训练集中抽取出的样本进行随机裁剪操作，裁剪出p像素×q像素的样本图像作为网络输入；

步骤5.将裁剪后的样本图像送入图像信息提取模型，根据提取到的图像特征信息进行图像分类，获取图像分类结果；

步骤6.根据图像分类结果与真实结果的交叉熵计算奖励；

步骤7.根据奖励更新图像信息提取模型参数；

步骤8.判断是否达到最大迭代次数；若否，则返回步骤3继续训练；若是，则停止训练。

经由上述的技术方案可知，与现有技术相比，本发明公开提供了一种基于循环Transformer的图像信息提取模型、方法及其应用，本发明提出多尺度循环模块（CycleBlock），利用分割思想将图像分块进行局部自注意力机制以降低计算复杂度并提高计算效率，通过循环采样模块实现整张图像高效充分的全局信息交流，能够提取出更具有特征的信息。同时，在多尺度信息融合模块将来自多个尺度的信息进行交流与传递，实现局部信息的充分理解。此外，加入按通道卷积模块，增强模型的卷积归纳能力，并最终将信息融合提高模型的鲁棒性。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据提供的附图获得其他的附图。

图1为本发明提供的一种基于循环Transformer的图像信息提取模型的整体结构示意图；

图2为本发明提供的一种基于循环Transformer的图像信息提取模型中第一多尺度循环模块和第二多尺度循环模块的结构示意图；

图3为本发明提供的一种基于循环Transformer的图像信息提取模型中行内自注意力机制单元的工作示意图；

图4为本发明提供的一种基于循环Transformer的图像信息提取模型的图像分类训练方法的流程图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

本发明实施例公开了一种基于循环Transformer的图像信息提取模型，如图1所示，包括：图像分块处理模块、线性嵌入编码模块、第一多尺度循环模块和循环处理系统并依次相连；

图像分块处理模块，用于获取原始图像，并将原始图像划分为m个尺度下的图像分块；

线性嵌入编码模块，用于获取图像处理分块模块划分得到的图像分块，并将原始图像的每一个分块之内的像素点拉平至一列，同时将原有每个像素点的特征维度通过线性层映射到编码维度C，得到编码后图像分块；

第一多尺度循环模块，用于将编码后图像分块进行循环采样操作，得到不同尺度下的特征信息，并将所得到的不同尺度下的特征信息拼接在一起，使用自注意力机制将不同尺度的特征信息进行融合，使得每个尺度下的特征信息根据其他尺度下的特征信息进行更新，将更新后的特征信息发送至循环处理系统；

循环处理系统中包括n个循环子系统并依次相连，每个循环子系统中均包括图像分块融合模块和第二多尺度循环模块；

图像分块融合模块与第二多尺度循环模块相连，用于将编码后图像分块中相邻的2×2个分块在特征维度上进行拼接合成为一个特征维度为4C的融合分块，再将融合分块通过线性层将特征维度从4C变换为2C，得到融合后的像素分块；

第二多尺度循环模块，用于对融合后的像素分块进行循环采样操作，得到不同尺度下的特征信息，并将所得到的不同尺度下的特征信息拼接在一起，使用自注意力机制将不同尺度的特征信息进行融合。

需要说明的是：

多尺度循环模块是一种通用的训练框架，能够高效完整地提取原始图片信息，并能够兼容其他计算机视觉算法，有效提升其网络性能。

图像分块处理模块：

图像分块处理是将整张图像划分为多个小块，本发明中考虑多尺度信息，将原始图像分别划分为3×3像素、5×5像素、7×7像素等三个不同尺度的分块。

其中,Patch_Partition表示对图像进行分块。以5×5像素为例，划分完成后，原始图像(H,W,3)将转化为。在原始图像表示中，H表示原始图像的高为H个像素，W表示原始图像宽为W像素，3代表图像的RGB三个通道的值。(H,W,3)能够完整描述一张图像的所有特征。而在划分为5×5像素的分块之后，/>中，后三项表示一个高为5个像素，宽为5个像素，通道数为3的小块，而前两项表示这个小块在原始图像上的位置。

线性嵌入编码模块：

线性嵌入编码是将原有图像每一个分块之内的像素拉平至一列，同时将原有每个像素的特征维度3通过线性层映射到编码维度C。仍以5×5像素为例，编码完成后维度为。

图像分块融合模块：

图像分块融合通过将相邻的2×2分块（即四个分块）在特征维度上进行拼接，再送入线性层使维度为4C的特征维度变换维度为2C。以3×3像素分块为例，初始特征维度为C，一个3×3像素分块可用矩阵表示为（3,3,C），将四个3×3像素分块在特征维度上拼接表示为(3,3,4C)，再经过线性层将特征维度变换为2C，最终得到（3，3，2C）。这样就实现了由（12,12,C）至（3,3,2C）的图像分块融合。

图像分块融合能够对特征进行压缩，帮助模型提取更高维的信息，扩大网络感受野，提高对全局信息的提炼能力，同时去除冗余信息，减少计算量。

为了进一步实施上述技术方案，如图2所示，第一多尺度循环模块和第二多尺度循环模块中均包括：循环采样单元、多尺度融合单元、自注意力单元和按通道卷积单元；

循环采样单元，用于在图像分块或编码后图像分块之间进行循环采样操作，对采样到的分块应用自注意力机制，经过信息交互和提取后得到不同尺度下的特征信息；

多尺度融合单元，用于对三个尺度下的特征信息进行融合后，使每个尺度下的特征信息根据其他尺度下的特征信息进行更新；

自注意力单元，用于从其他尺度获得的特征信息进一步在各个尺度上进行特征信息的交换与提炼，综合性考虑全局特征信息；

按通道卷积单元，用于利用卷积神经网络按通道对图像分块或编码后图像分块进行卷积操作，并与自注意力单元的输出进行结合，得到特征值构成保留原始相对位置关系的特征图。

需要说明的是：

循环采样单元用于各分块之间的信息交流，能够在保留各分块相对位置信息的情况下，进行各分块之间的信息交流，灵活调整模型对图像整体的感受野，充分高效的进行全局信息交换。

多尺度融合单元：

为全面考虑原始图像中占面积比重大和占面积比重小的区域，本发明创新性提出多尺度处理与融合机制，在图像分块阶段将图像根据3×3像素、5×5像素、7×7像素分为不同的尺度，每一个尺度下的信息流分别经过循环采样模块进行信息交互与提取。为综合考虑各个尺度中提取到的信息，本发明提出多尺度融合单元，将来自三个尺度的信息进行融合，使每个尺度能根据其他尺度提取的信息更新特征。

多尺度融合单元将三个尺度的特征信息拼接在一起，使用自注意力机制将来自不同尺度的信息进行交流，将感受野再次扩大到不同尺度上，获取更多的有效信息用于后续处理。公式表示如下：

其中，z表示多尺度融合单元的输出，attention表示对其中的参数进行自注意力信息交互操作。

多尺度融合单元能够对三个尺度产生的信息进行充分融合，利用自注意力（SelfAttention）机制，将来自大、中、小三个尺度的信息进行互相交流并融合，综合考虑三种尺度下的特征信息。

自注意力单元：能够进行序列之间的信息交换，在图像的分块内进行像素之间的信息交换，并且能在各个分块之间进行信息交换，显著提升模型的感受野，获取全局更多信息。

按通道卷积单元：

通过按通道卷积单元，利用卷积神经网络按通道对原始图像进行卷积操作，得到特征值构成保留原始相对位置关系的特征图，从而提取出用于下游任务的特征。公式表示如下

式中，x表示输入数据，depth_wise_conv表示对输入数据进行按通道卷积操作，z为输出的特征。

为了进一步实施上述技术方案，循环采样单元包括分块内局部自注意力机制子单元、行内自注意力机制子单元或列内自注意力机制子单元；

分块内局部自注意力机制子单元，用于对图像分块或编码后图像分块内部的有限的像素点所含的信息进行局部自注意力操作，在每一个分块内部提取和归纳图像信息；

行内自注意力机制子单元，用于在图像分块的行上进行不同分块之间的信息交流与互通；

列内自注意力机制子单元，用于在图像分块的列上进行不同分块之间的信息交流与互通。

为了进一步实施上述技术方案，同一列内的像素点组成一个图像分块，行内自注意力机制子单元在图像分块的行上进行不同分块之间的信息交流与互通的具体方法为：当一行内包括a个像素点时，在第一行选取第一个像素点，第二行选取第二个像素点，直至到第a+1行时，重新选取第a+1行的第一个像素点，以此类推，直至每一行都被选取过像素点；

列内自注意力机制子单元在图像分块的列上进行不同分块之间的信息交流与互通的具体方法为：当一列内包括b个像素点时，在第一列选取第一个像素点，第二列选取第二个像素点，直至到第b+1列时，重新选取第b+1列的第一个像素点，以此类推，直至每一列都被选取过像素点。

需要说明的是：

分块内局部自注意力机制：通过对分块内部的有限的像素点所含的信息进行局部自注意力操作，在每一个小块内部提取和归纳图像信息。

行内自注意力机制：以3×3像素为例，如图3所示，每一个方框代表一个像素点所包含的信息，每一列9个像素点代表这一个3×3像素分块之内的所有像素点，而这一行共有六列代表在原图中宽度方向一行有6个分块。以对第一个分块第一个像素点进行信息更新为例（图中黑色方块），通过对本行其他的像素点进行循环采样，图中条纹方块像素点均会被采样到，将图中黑色和条纹方块像素点构建成为一个新的序列，应用自注意力方法，使这些像素点之间能够进行信息的交流，循环采样模块在保持相对位置信息的前提下获得了同一行之内不同分块之间的信息，扩大了模型的感受野，能够感知到更多的行内信息，提高网络性能。

列内自注意力机制。与行内自注意力机制类似，列内自注意力机制是在图像分块的列上进行不同分块之间的信息交流与互通，综合列内信息以提取出有效的特征信息。具体实施方法与行内自注意力机制相同。

通过多尺度循环模块的不断复用，每一个像素点包含的信息都将逐渐与来自本行与本列的信息融合，从而实现整张图像信息的全局信息融合，提取出可用于后处理的特征信息。公式表示如下：

其中，3×3、5×5、7×7分别表示对三个尺度进行操作，cycle表示对参量进行循环采样操作，x’表示各个尺度下的输出。

S1.获取原始图像，并将原始图像划分为m个尺度下的分块；

S2.获取划分得到的不同尺度的分块，并将原始图像的每一个分块之内的像素拉平至一列，同时将原有每个像素的特征维度通过线性层映射到编码维度C；

为了进一步实施上述技术方案，S3和S5中进行循环采样的过程包括：

为了进一步实施上述技术方案，循环采样操作方法包括：分块内局部自注意力机制、行内自注意力机制或列内自注意力机制；

本发明是用于计算机视觉领域常见的图像分类、目标检测和语义分割等任务中提取信息，利用本发明创新提出的多尺度循环模块，具有以下优势：

一、降低计算复杂度、

Transformer由于计算复杂度数量级为输入长度的平方级别，在处理二维图片等长序列时计算复杂度高。本发明采用图像分块思想，将大尺寸二维图像分割为小尺寸分块，在分块中使用Transformer时序列输入长度显著受到限制，计算复杂度下降为分块大小的平方级，显著降低计算复杂度，提升运算效率。

二、灵活扩大感受野，缓解全局自注意力缺失的问题

通过本发明采用的循环采样模块，信息不仅能够在分块内部进行传递，还能分别在每一行的分块之间和每一列的分块之间进行传递与交流，不仅能够扩大模型感受野，还能灵活调整信息交流方式，缓解全局自注意力缺失的问题，实现整体图像的全局信息交流，提取出更加有效的特征信息。

三、融合来自多尺度的有效特征信息

为了全面收集原始图像中面积占比较大的对象和面积占比较小的对象的信息，本发明建立多尺度机制，通过将原始图像划分为3×3像素、5×5像素、7×7像素三个不同尺度的分块，能够全面覆盖原始图像中不同尺度的信息。此外，本发明利用Transformer机制将来自三个尺度的信息互相交流融合，每一个尺度都能从其他尺度获取其所在位置的局部信息，从而获得更有效的特征信息。

一种基于循环Transformer的图像信息提取模型的图像分类训练方法，如图4所示，包括以下步骤：

步骤2.对图像信息提取模型的网络参数进行初始化；

步骤3.随机从训练集中抽取一组样本，包含a张图像；

步骤6.根据图像分类结果与真实结果的交叉熵计算奖励；

步骤7.根据奖励更新图像信息提取模型参数；

本说明书中各个实施例采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似部分互相参见即可。对于实施例公开的装置而言，由于其与实施例公开的方法相对应，所以描述的比较简单，相关之处参见方法部分说明即可。

对所公开的实施例的上述说明，使本领域专业技术人员能够实现或使用本发明。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的，本文中所定义的一般原理可以在不脱离本发明的精神或范围的情况下，在其它实施例中实现。因此，本发明将不会被限制于本文所示的这些实施例，而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

Claims

1.一种基于循环Transformer的图像信息提取方法，其特征在于，包括以下步骤：

S5.对融合后的像素分块进行循环采样操作，得到不同尺度下的特征信息，并将所得到的不同尺度下的特征信息拼接在一起，使用自注意力机制将不同尺度的特征信息进行融合；

S3和S5中进行循环采样的过程包括：

2.根据权利要求1所述的一种基于循环Transformer的图像信息提取方法，其特征在于，循环采样操作方法包括：分块内局部自注意力机制、行内自注意力机制或列内自注意力机制；

3.一种基于循环Transformer的图像信息提取模型的图像分类训练方法，其特征在于，包括以下步骤：

步骤2.对图像信息提取模型的网络参数进行初始化；

步骤3.随机从训练集中抽取一组样本，包含a张图像；

步骤6.根据图像分类结果与真实结果的交叉熵计算奖励；

步骤7.根据奖励更新图像信息提取模型参数；

步骤8.判断是否达到最大迭代次数；若否，则返回步骤3继续训练；若是，则停止训练；

循环Transformer的图像信息提取模型，包括：图像分块处理模块、线性嵌入编码模块、第一多尺度循环模块和循环处理系统并依次相连；

所述线性嵌入编码模块，用于获取所述图像分块处理模块划分得到的所述图像分块，并将所述原始图像的每一个分块之内的像素点拉平至一列，同时将原有每个像素点的特征维度通过线性层映射到编码维度C，得到编码后图像分块；

所述第一多尺度循环模块，用于将所述编码后图像分块进行循环采样操作，得到三个尺度下的特征信息，并将所得到的三个尺度下的特征信息拼接在一起，使用自注意力机制将不同尺度的特征信息进行融合，使得每个尺度下的特征信息根据其他尺度下的特征信息进行更新，将更新后的特征信息发送至所述循环处理系统；

所述图像分块融合模块与所述第二多尺度循环模块相连，用于将所述编码后图像分块中相邻的2×2个分块在特征维度上进行拼接合成为一个特征维度为4C的融合分块，再将所述融合分块通过线性层将特征维度从4C变换为2C，得到融合后的像素分块；

所述第二多尺度循环模块，用于对所述像素分块进行循环采样操作，得到不同尺度下的特征信息，并将所得到的不同尺度下的特征信息拼接在一起，使用自注意力机制将不同尺度的特征信息进行融合；

所述第一多尺度循环模块和所述第二多尺度循环模块中均包括：循环采样单元、多尺度融合单元、自注意力单元和按通道卷积单元；

所述循环采样单元，用于在所述图像分块或所述编码后图像分块之间进行循环采样操作，对采样到的分块应用自注意力机制，经过信息交互和提取后得到不同尺度下的特征信息；

4.根据权利要求3所述的图像分类训练方法，其特征在于，所述循环采样单元包括分块内局部自注意力机制子单元、行内自注意力机制子单元或列内自注意力机制子单元；

所述分块内局部自注意力机制子单元，用于对所述图像分块或所述编码后图像分块内部的有限的像素点所含的信息进行局部自注意力操作，在每一个分块内部提取和归纳图像信息；

5.权利要求4所述的图像分类训练方法，其特征在于，同一列内的像素点组成一个图像分块，所述行内自注意力机制子单元在图像分块的行上进行不同分块之间的信息交流与互通的具体方法为：当一行内包括a个像素点时，在第一行选取第一个像素点，第二行选取第二个像素点，直至到第a+1行时，重新选取第a+1行的第一个像素点，以此类推，直至每一行都被选取过像素点；