CN116664952A

CN116664952A - 一种融合卷积与ViT的图像方向识别方法

Info

Publication number: CN116664952A
Application number: CN202310759553.4A
Authority: CN
Inventors: 白茹意
Original assignee: Shanxi University
Current assignee: Shanxi University
Priority date: 2023-06-26
Filing date: 2023-06-26
Publication date: 2023-08-29

Abstract

本发明属于图像分类与计算机视觉技术领域，公开了一种融合卷积与ViT的图像方向识别方法。针对图像方向识别方法大多考虑图像的语义信息，对空间和方向信息考虑不足。提出了方向金字塔ViT模型，它融合了卷积神经网络和ViT框架来实现图像方向的自动识别。MOAB捕捉不同尺度下中心子图与其周围邻域子图之间的相对位置信息；将条件位置编码和可变形卷积进行结合，即DCPE。DCPE在条件位置编码中加入了可变形卷积，既能适应不同尺寸的输入图像，又能表达图像的旋转特性；将方向卷积方法应用于TransformerEncoder Block中的Self‑Attentation，即DTEB。DTEB压缩了浅层特征的分辨率，提高了特征提取能力。经过实验验证，该方法更全面地表达图像的方向语义，在准确性和性能方面都超过了当前最先进的模型。

Description

一种融合卷积与ViT的图像方向识别方法

技术领域

本发明属于图像分类与计算机视觉技术领域，具体涉及一种融合卷积与ViT的图像方向识别方法。

背景技术

随着数字成像、摄影和图像理解技术的发展，数码相机、智能手机和其他电子产品的广泛使用，人们对数字图像存储、检索和处理工具的需求越来越大。这些工具都需要图像的方向信息，使图像能被正确的处理和显示。目前，检测图像的方向在许多领域中是非常必要的，如自然摄影，医学诊断、机器人辅助自动干预系统(RAIS)、指纹验证系统和人脸检测。智能手机和数码相机都有一个内置的方位传感器，可以在拍照时跟踪相机的方向，并将其存储在图像的EXIF元数据中。在磁共振成像(MRI)中，切片组的位置和方向对于实现高质量的图像诊断和满足各种临床工作至关重要。在自动机器人辅助干预系统(RAIS)的支气管镜检查中，有一种检测支气管图像分支方向的技术，可以防止外科医生疲劳并最大限度地减少错误。使用指纹进行个人认证的系统需要被测指纹匹配模式图像的大小、类型和方向。这种用于检测指纹图像方向的方法显著提高了系统的精度。在人脸检测系统中，上下颠倒显示的图像将降低视觉显著性。因此，在将人脸图像发送到人脸识别系统之前进行校正可以提高检测性能，防止不诚实的行为。一般地，拍摄照片时照片的方向是由相机的旋转来确定，任何角度都是可能的，但是旋转90°是最常见的。图像处理工具一旦检测到图像方向是90的倍数，图像方向就很容易被校正。因此，通常假设图像旋转依赖于四个方向之一(0°，90°，180°和270°)。由于图片类型和内容多种多样，形成一个能广泛用于不同种类图像的自动方向检测系统是一项具有挑战性的任务。

目前研究中，图像方向识别方法大多采用图像处理与深度学习算法。尽管如此，这些方法存在一些问题：(1)主要依赖图像的低层特征，如纹理，颜色和形状等。但由于现阶段图像样本数量的不断增加，以及低层特征和高层图像语义之间的语义鸿沟，手工构建的特征往往在性能上受到限制，没有充分考虑人类视觉机理对图像方向感知的影响。(2)针对特殊的图像，比如抽象图像的内容和语义相对比较含蓄，不明显，导致这些方法应用于抽象画时识别结果不是很理想。(3)使用的网络模型的结构比较单一，大多直接对现有的神经网络进行微调，如(VGG，AlexNet或ResNet等)。模型特征主要表达了图像的高层语义特征，但没有考虑图像内容的空间位置信息对方向判断的影响。(4)模型对输入图片的大小要求是一致的，如果不满足，需要进行缩放或裁剪。但是，图像的长度与宽度对方向的判断有很大的影响。

发明内容

针对目前图像方向识别的问题，本发明提供了一种融合卷积与ViT的图像方向识别方法。

为了达到上述目的，本发明采用了下列技术方案：

一种融合卷积与ViT的图像方向识别方法方法，包括以下步骤：

步骤1，将每幅图像分别按顺时针旋转四个角度0度、90度、180度和270度，每幅图像最终得到四个不同方向的图像(0°，90°，180°和270°)；

步骤2，输入一幅图像，采用多尺度Outlook Attentation模块(MOAB)，计算每个中心点与周围不同尺度邻域内的k×k个像素点的注意力，k表示当前位置对应的邻域尺度。MOAB能捕捉某个中心子图与其周围邻域子图的相对位置信息，具体步骤如下：

步骤2.1，对大小为H×W×C的输入图像进行线性变换，得到维度为H×W×k⁴的特征图，其中，H表示特征图的高度，W表示特征图的宽度，C表示特征图的通道数；

步骤2.2，将步骤2.1中得到的H×W×k⁴特征图的维度变换成注意力特征图(H×W，k×k，k×k)，之后采用SoftMax得到注意力图AM(Attentation Map)；

步骤2.3，采用“Linear+Unfold”操作将AM映射到一个新的特征空间V(H×W，C，k×k)；

步骤2.4，将注意力图AM与特征空间V进行矩阵相乘，之后通过“Fold”操作，将特征图还原到原始输入图像的大小；

步骤2.5，采用不同的尺度k(k＝3，5)分别执行步骤2.1～2.4，得到两个不同尺度的Outlook Attentation(OA)，分别记作OA_3和OA_5；

步骤2.6，将OA_3、OA_5和输入特征进行线性相加，记作OA_Fusion＝OA_3⊕OA_5⊕input feature。其中，⊕表示对应元素相加；

步骤2.7，最后，对OA_Fusion使用层归一化(LayerNorm，LN)和多层感知机(Multilayer Perceptron，MLP)的残差连接，即OA_Fusion+LN&MLP(OA_Fusion)，得到新的特征图；

步骤2.8，将步骤2.7得到的特征图进行Patch Embedding，包括：一个卷积操作，层归一化Layer Norm和展平Flatten操作。最终，得到token序列(N×d)，其中N表示序列的个数，d表示序列的维度；

步骤3，将条件位置编码(CPE)和可变性卷积(DCN)进行结合，即把CPE中的F函数替换为DCN，记作DCPE。DCPE既能对不同尺寸的输入进行编码，编码中又能包含每个patch的空间排列信息，体现图像的旋转特性，具体步骤如下：

步骤3.1，将步骤2.8中得到的token序列作为输入，并把维度变换为二维图像空间中的H×W×C；

步骤3.2，采用kernel_size＝3，stride＝1，进行卷积操作，卷积后的结果表示每个像素的位置偏移量offset(H×W×2M)。其中，M＝3×3，通道数2M表示“横坐标”和“纵坐标”两个方向的偏移。输出的offset与输入特征图具有相同的空间分辨率；

步骤3.3，根据步骤3.2中得到的offset，计算新的M个点在特征图上的值。由于offset可能为小数，因此新的坐标也是小数，根据该坐标所围绕的4个像素的特征值，通过双线性插值计算特征值；

步骤3.4，对步骤3.3中得到的特征图通过卷积操作kernel_size＝3，stride＝1，得到新的特征图，维度是H×W×C；

步骤3.5，最后再将特征图的维度进行变换，得到新的token序列，新的token序列的维度与步骤3.1中的token序列维度相同；

步骤4，采用方向卷积(Directional Convolution，DC)方法，从不同的方向和尺度(水平，垂直，带扩张率的深度可分离)进行卷积融合，并将其作用于ViT中TranformerEncoder Block模块的多头自注意力机制(Multi Head Atterntation)，记作DTEB。DTEB将浅层特征尺度压缩到最低分辨率，增加网络特征提取能力并保持高效的计算效率，具体步骤如下：

步骤4.1，将输入特征图(H×W，C)的维度变换为(H×W×C)。

步骤4.2，所述特征图通过线性变换W_K获得键值(K)，通过方向卷积(DC)压缩特征图的空间分辨率，然后使用W_Q和W_V分别获得查询(Q)和值(V)，其中，W_Q、W_K和W_V都使用1×1卷积；

步骤4.3，采用多头注意力机制生成Q和K的注意力权重，并将其应用于V，即：其中d_K是指键值(K)的维度，QK^T表示Q和K的点积；

步骤5，构建一个融合卷积神经网络和ViT的框架，即方向金字塔ViT模型(Directional Pyramidal Vision Transformer，DPVT)。DPVT分为Stage_i(i＝1，2，3，4)四个阶段，每个阶段都使用MOAB、DCPE和DTEB的组合，每个阶段的输入是一个3D特征图，具体步骤如下：

步骤5.1，在Stage_i阶段(i＝1，2，3，4)，特征图H_i-1×W_i-1×C_i-1使用3×3卷积对分辨率进行下采样并增加输出通道的数量，Stage_1阶段的下采样率为4，Stage_2、Stage_3和Stage_4阶段的下采样率均为2。输出patch的大小为P₁＝4，P₂＝P₃＝P₄＝2，P_i表示Stage_i的下采样率，H_i表示特征图的高度，W_i表示特征图的宽度，C_i表示特征图的通道数。通过这种方式，可以在每个阶段灵活地调整特征图的大小，构建特征金字塔模型；

步骤5.2，将步骤5.1中获得的特征图输入到MOAB模块中，产生每个空间位置上的patch与其周围局部邻域的patch之间的相关注意力权重；

步骤5.3，经过方向卷积和层归一化(LayerNorm)操作之后，对特征图进行进一步展平(Flatten)操作，得到token序列，维度是

步骤5.4，使用DCPE对token序列进行位置编码，并与原始token序列进行相加，得到带有位置编码的token序列。DCPE可以提取每个patch的位置关系，并表达图像的旋转特征，还可以适应不同大小的输入图像；

步骤5.5，将带有位置编码的token序列输入到DTEB中，降低Transformer计算复杂度，提升网络对图像方向检测的准确率；

步骤5.6，将步骤5.5中token序列变换成一个3-D特征图，Stage_1、Stage_2、Stage_3和Stage_4阶段的输出特征图大小分别为输入图像的和即通道数增大到输入图像的4倍，2倍，2倍和2倍；因此，4个阶段的特征图分别是原图大小的和

步骤5.7，最后，利用类似卷积神经网络的结构将全局平均池化层(GAP)作用于Stage_4的输出特征图。采用全连接层(Full Connection，FC)进行最后的分类映射；

步骤5.8，为了适应不同规模的应用场景，根据每个Stage_i中参数选取不同的值构建了三种不同容量的DPTV模型。

进一步，所述步骤2.3中的“Linear+Unfold”操作中的“Linear”操作是对输入特征X_n×in执行了一个线性变换，即：

Y_n×out＝X_n×inW_in×out+b_n×out

其中，X_n×in是输入特征，Y_n×out是输出特征，W是模型要学习的参数，b是向量偏置，n为输入向量的行数，in是输入神经元的个数，out是输出神经元的个数，in与out相同；

所述“Unfold”操作是从一个批次的输入样本中，提取出滑动的局部区域块，实现局部连接的滑动窗口操作。本发明中输入大小为(C，H，W)，卷积核大小为3×3，步长为1，padding为1，输出大小为(C×3×3，H×W)。

进一步，所述步骤2.4中的“Fold”操作和“Unfold”操作相反，是把一系列的滑动区块拼接成一个张量。本发明中输入大小为(C×3×3，H×W)，卷积核大小为3×3，步长为1，padding为1，输出大小为(C，H，W)。

进一步，所述步骤3.3中计算新的M个点在特征图的上的值，采用如下公式，

其中，Coord＝{(0，0)，(1，1)，(0，1)，(-1，0)，(0，-1)，(-1，1)，(1，-1)，(-1，-1)}，pos_i表示第i个点的坐标，x(pos_i)表示第i个点的像素值，co是卷积核内每个元素的坐标，w是卷积核，offset表示偏移量，co+offset表示偏移位置。

进一步，所述步骤4采用方向卷积(Directional Convolution，DC)方法，由五个卷积核并行而成，分别是：(1)3×3的卷积核；(2)1×3的卷积核；(3)3×1的卷积核；(4)卷积核为3×3，扩张率为3的深度可分离扩张卷积；(5)卷积核为3×3，扩张率为5的深度可分离扩张卷积。之后对五个分支的输出进行对应元素相加。

进一步，所述步骤5.8中构建了三种不同容量的DPTV模型具体为DPTV-Tiny、DPTV-Small和DPTV-Base。

进一步，所述带扩张率的深度可分离卷积分为两步：第一步是带扩张率的逐层卷积，即用“扩张率-1”个0填充卷积核，扩张率不同，卷积的感受野也就不同；输入特征为H×W×C_in，采用[3+2×(rate-1)]×[3+2×(rate-1)]×C_in的卷积核对输入特征进行逐层卷积，其中，C_in是输入通道数，rate是扩张率；经过卷积后，输出特征维度是H×W×C_in；第二步是逐点卷积，采用1×1×C_in×C_out的卷积核对第一步的输出特征进行卷积操作，将特征图在深度方向上进行加权组合，生成新的特征图，维度是H×W×C_out，其中，C_out是输出通道数。

本发明采用的原始卷积核大小是3，扩展率分别采用3和5，所以得到的扩张卷积核大小分别是3+(3-1)×(3-1)＝7和3+(3-1)×(5-1)＝11。如输入特征为H×W×C_in，分别采用7×7×C_in和11×11×C_in的卷积核对输入特征进行逐层卷积，其中C_in是输入通道数。经过卷积后，输出特征维度是H×W×C_in。第二步逐点卷积，采用1×1×C_in×C_out的卷积核对第一步的输出特征进行卷积操作，将特征图在深度方向上进行加权组合，生成新的特征图，维度是H×W×C_out，其中C_out是输出通道数。

五个分支的结构可以拟合更多信息，其中1×3和3×1卷积核用于捕获图像中的水平和垂直方向信息，深度可分离卷积在捕获方向信息的同时具有更大的感受野，也可以学习图像中不同尺度的旋转空间信息，减少计算量。

与现有技术相比本发明具有以下优点：

(1)采用多尺度的Outlook Attentation模块(MOAB)，使每一个中心点的位置都要与周围不同尺度邻域内的k×k个位置进行注意力计算。可以更好的捕捉某个中心子图与其周围邻域子图的相对位置信息。(2)为了使位置编码能适应不同尺寸的输入，也能更好的表达旋转特性，我们将条件位置编码(CPE)和可变性卷积DCN进行结合，即将CPE中的F函数(原文采用的是深度可分离卷积)替换为DCN，称为DCPE。DCPE既能对不同尺寸的输入进行编码，编码中又能包含每个patch的空间排列信息，体现图像的旋转特性。(3)为了在表达方向属性的同时提高模型的轻量化程度，采用了一种方向卷积，从不同的方向和尺度(水平，垂直，带扩张率的深度可分离)进行卷积融合，并将其作用于Transformer模块中Self-Atterntation的K和V，将浅层特征尺度压缩到最低分辨率，增加网络特征提取能力并保持高效的计算效率。

附图说明

图1为本发明图像示意图；

图2为本发明MOAB结构示意图；

图3为本发明DCPE结构示意图；

图4为本发明DTEB结构示意图；

图5为本发明DPVT网络模型框架。

具体实施方式

为了使本发明所要解决的技术问题、技术方案及有益效果更加清楚明白，结合实施例和附图，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅用以解释本发明，并不用于限定本发明。下面结合实施例和附图详细说明本发明的技术方案，但保护范围不被此限制。

实施例1

如图1-5所示，本发明选取公开数据集，进行实验，具体实施步骤如下：

步骤1：选取公开数据集SUN-397和INRIA Holidays(INRIA)数据集。SUN-397包含397类场景，每类至少包含100张图片，总共有108754张图像。INRIA包括1491幅来自各种场景类型(自然、人造、水和火效果等)的图像，共500个图像组，每个图像组代表一个不同的场景或对象。将每幅图像分别顺时针旋转四个角度0度、90度、180度和270度，每幅图像会得到4个类别的图像，分别是(0°，90°，180°和270°)。

步骤2：输入一幅图像，采用多尺度Outlook Attentation模块(MOAB)，计算每个中心点与周围不同尺度邻域内的k×k个像素点的注意力，k表示当前位置对应的邻域尺度。MOAB可以更好的捕捉某个中心子图与其周围邻域子图的相对位置信息，具体步骤如下：

步骤2.1，对大小为H×W×C的输入图像进行线性变换，得到维度为H×W×k⁴的特征图，其中，H表示特征图的高度，W表示特征图的宽度，C表示特征图的通道数。

步骤2.2，将H×W×k⁴特征图的维度变换成注意力特征图(H×W，k×k，k×k)，之后采用SoftMax得到注意力图AM(Attentation Map)。

步骤2.3，采用“Linear+Unfold”操作将AM映射到一个新的特征空间V(H×W，C，k×k)。“Linear”是对输入特征X_n×in执行了一个线性变换，即：

Y_n×out＝X_n×inW_in×out+b_n×out

其中，X_n×in是输入特征，Y_n×out是输出特征，W是模型要学习的参数，b是向量偏置，n为输入向量的行数，in是输入神经元的个数，out是输出神经元的个数，在本发明中in与out相同。

“Unfold”操作是从一个批次的输入样本中，提取出滑动的局部区域块，实现局部连接的滑动窗口操作。本发明中输入大小为(C，H，W)，卷积核大小为3×3，步长为1，padding为1，输出大小为(C×3×3，H×W)。

步骤2.4，将AM与V进行矩阵相乘，之后通过“Fold”操作，就能将特征图还原到原始输入图像的大小。“Fold”操作和“Unfold”相反，是把一系列的滑动区块拼接成一个张量。本发明中输入大小为(C×3×3，H×W)，卷积核大小为3×3，步长为1，padding为1，输出大小为(C，H，W)。

步骤2.5，采用不同的尺度(k＝3，5)分别执行步骤2.1～2.4，得到两个不同尺度的Outlook Attentation(OA)，分别记作OA_3和OA_5。

步骤2.6，将OA_3、OA_5和输入特征进行线性相加，记OA_Fusion＝OA_3⊕OA_5⊕input feature。其中，⊕表示对应元素相加。

步骤2.7，最后，对OA_Fusion使用层归一化(LayerNorm，LN)和多层感知机(Multilayer Perceptron，MLP)的残差连接，即OA_Fusion+LN&MLP(OA_Fusion)，得到新的特征图。

步骤2.8，将步骤2.7得到的特征图进行Patch Embedding，包括：一个卷积操作，层归一化LayerNorm和展平Flatten操作。最终，得到token序列(N×d)，其中N表示序列的个数，d表示序列的维度；

步骤3：将条件位置编码(CPE)和可变性卷积(DCN)进行结合，即把CPE中的F函数替换为DCN，记作DCPE。DCPE既能对不同尺寸的输入进行编码，编码中又能包含每个patch的空间排列信息，体现图像的旋转特性，具体步骤如下。

步骤3.1，将步骤2.8中得到的token序列作为输入，并把维度变换为二维图像空间中的H×W×C。

步骤3.2，采用kernel_size＝3，stride＝1，进行卷积操作，卷积后的结果表示每个像素的位置偏移量offset(H×W×2M)。其中，M＝3×3，通道数2M表示“横坐标”和“纵坐标”两个方向的偏移。输出的offset与输入特征图具有相同的空间分辨率。

步骤3.3，根据步骤3.2中得到的offset，计算新的M个点在特征图的上的值，采用如下公式，

其中，Coord＝{(0，0)，(1，1)，(0，1)，(1，0)，(-1，0)，(0，-1)，(-1，1)，(1，-1)，(-1，-1)}，pos_i表示第i个点的坐标，co+offset表示第i个点的像素值，co是卷积核内每个元素的坐标，w是卷积核，offset表示偏移量，co+offset表示偏移位置。

由于offset可能为小数，因此新的坐标也是小数，根据该坐标所围绕的4个像素的特征值，通过双线性插值计算特征值。

步骤3.4，对3.3中得到的特征图通过卷积操作kernel_size＝3，stride＝1，得到新的特征图，维度是H×W×C。

步骤3.5，最后再将特征图的维度进行变换，得到新的token序列，新的token序列的维度与步骤3.1中的token序列维度相同。

步骤4：采用了一种方向卷积(Directional Convolution，DC)方法，从不同的方向和尺度(水平，垂直，带扩张率的深度可分离)进行卷积融合，并将其作用于ViT中Tranformer Encoder Block模块的多头自注意力机制(Multi Head Atterntation)，记作DTEB。DTEB将浅层特征尺度压缩到最低分辨率，增加网络特征提取能力并保持高效的计算效率，具体步骤如下：

步骤4.1，将输入特征图(H×W，C)的维度变换为(H×W×C)。

步骤4.2，特征图通过线性变换W_K获得键值(K)，通过方向卷积(DC)压缩特征图的空间分辨率，然后使用W_Q和W_V分别获得查询(Q)和值(V)，其中W_Q、W_K和W_V都使用1×1卷积。

方向卷积方法是由五个卷积核并行组合而成，分别是：(1)3×3的卷积核；(2)1×3的卷积核；(3)3×1的卷积核；(4)卷积核为3×3，扩张率为3的深度可分离扩张卷积；(5)卷积核为3×3，扩张率为5的深度可分离扩张卷积。之后对五个分支的输出进行对应元素相加。

所述带扩张率的深度可分离卷积分为两步：第一步是带扩张率的逐层卷积，即用“扩张率-1”个0填充卷积核，扩张率不同，卷积的感受野也就不同。本发明采用的原始卷积核大小是3，扩展率分别采用3和5，所以得到的扩张卷积核大小分别是3+(3-1)×(3-1)＝7和3+(3-1)×(5-1)＝11。如输入特征为H×W×C_in，分别采用7×7×C_in和11×11×C_in的卷积核对输入特征进行逐层卷积，其中C_in是输入通道数。经过卷积后，输出特征维度是H×W×C_in。第二步是逐点卷积，采用1×1×C_in×C_out的卷积核对第一步的输出特征进行卷积操作，将特征图在深度方向上进行加权组合，生成新的特征图，维度是H×W×C_out，其中C_out是输出通道数。

步骤4.3，采用多头注意力机制生成Q和K的注意力权重，并将其应用于V，即其中d_K是指键值(K)的维度，QK^T表示Q和K的点积。

步骤5：构建一个融合卷积神经网络和ViT的框架，即方向金字塔ViT模型(Directional Pyramidal Vision Transformer，DPVT)。DPVT分为Stage_i(i＝1，2，3，4)四个阶段，每个阶段都使用MOAB、DCPE和DTEB的组合。每个阶段的输入是一个3D特征图。具体步骤如下：

步骤5.1，在Stage_i阶段，特征图H_i-1×W_i-1×C_i-1使用3×3卷积对分辨率进行下采样并增加输出通道的数量。第一个阶段(Stage_1)的下采样率为4，其他三个阶段(Stage_2，Stage_3和Stage_4)的下采样率为2。输出patch的大小为P₁＝4，P₂＝P₃＝P₄＝2，其中，P_i表示Stage_i的下采样率，H_i表示特征图的高度，W_i表示特征图的宽度，C_i表示特征图的通道数。通过这种方式，可以在每个阶段灵活地调整特征图的大小，构建特征金字塔模型。

步骤5.2，将从步骤5.1中获得的特征图输入到MOAB模块中，产生每个空间位置上的patch与其周围局部邻域的patch之间的相关注意力权重。

步骤5.3，经过一个方向卷积和一个LayerNorm操作之后，对特征图进行进一步展平(Flatten)操作，得到token序列，维度是

步骤5.4，使用DCPE对token序列进行位置编码，并与原始token序列进行相加，得到带有位置编码的token序列。DCPE可以提取每个patch的位置关系，并表达图像的旋转特征，还可以适应不同大小的输入图像。

步骤5.5，将带有位置编码的token序列输入到DFEB中，降低Transformer计算复杂度，提升网络对图像方向检测的准确率。

步骤5.6，将步骤5.5中token序列的维度变换成一个3-D特征图，不同阶段的特征图大小分别为输入图像的(Stage_1)，(Stage_2，Stage_3和Stage_4)，即通道数增大到输入图像的4倍(Stage_1)，2倍(Stage_2，Stage_3和Stage_4)。因此，4个阶段的特征图分别是原图大小的和

步骤5.8，为了适应不同规模的应用场景，根据每个Stage_i中参数选取不同的值构建了三种不同容量的DPTV模型，分别为DPTV-Tiny、DPTV-Small和DPTV-Base。三种模型的详细架构如表1所示，其中k、C、P、H和L分别表示当前位置对应的邻域尺度、输出通道的数量、下采样率、注意头的数量和DTEB的数量。kernel_size表示卷积核大小，stride表示卷积步长，Patch embedding表示ViT中的嵌入补丁。

表1

步骤6:采用的实验环境为Pycharm，深度学习框架为pytorch(GPU)。选择每个数据集中的70％作为训练集，30％作为测试集。原始图像大小保持不变。采用10折交叉验证方法，因此最终的评价指标为经10折交叉验证后准确率的平均值。

实验相关参数设置：采用动量大小为0.9的AdamW优化器，初始的学习率设置为0.002，权重衰减为0.05，总共训练150个epochs，训练批处理大小为128。通过加入L2正则化来防止过拟合。本发明方法使用的评价方法有：模型参数Parameters(M)，每秒浮点运算次数FLOPs(G)和准确率Accuracy(％)。

为充分验证本发明方法的有效性和适用性，检测DCPE、MOAB和DTEB模块融合的作用，我们比较了不同模块组合(模型1～模型7)对分类结果的影响。实验在相同的实验环境、数据集、图像预处理和网络超参数设置下进行。如表2所示，主干是PVT-v2-Base。模型1将主干的PEG更改为DCPE，后者可以处理不同大小的输入图像。在Backbone中嵌入补丁之后，将模型2添加到MOAB中。模型3用DTEB取代了主干中的Transformer Block。模型4采用DCPE和MOAB，保留了原来的Tran former模块。模型5将PEG改为DCPE，Tran former模块由DTEB代替。模型6使用MOAB和DTEB。模型7是我们提出的模型，它还使用了DCPE、MOAB和DTEB。这些模型采用“X-Base”结构。

实验结果如表2所示。模型1～模型7的性能均优于Backbone。仅在DCPE、MOAB和DTEB中使用一种结构的模型(模型1～模型3)的精度比组合模型(模型4～模型6)低0.9％～4.4％。与模型4相比，模型7使用DTEB，精度提高了1.5％～3.1％。与模型5相比，模型5使用MOAB，精度提高0.5％～2.3％。与模型6相比，模型6使用DCPE，精度提高0.8％～2.2％。分析这些结果的原因如下：(1)DCPE结合了CPE和DCN，可以对不同尺寸的图像进行的编码。编码可以包括每个patch的空间排列信息，并反映图像的旋转特性。(2)MOAB通过测量每对token之间的相似性来编码空间信息，因此其特征学习能力比卷积更强。此外，它还利用不同的注意力尺度来扩展方位判断的感知领域。(3)在DTEB中，作用于变换器块中的自注意的方向卷积压缩了输入特征的分辨率，捕获了方向信息，同时具有更大的感知场，增加了网络特征提取能力，并保持高计算效率。

表2

为了验证输入图像大小对图像方向检测的影响，我们使用两种类型的输入在两个不同的数据集上进行了实验。一种是将图像大小裁剪为224×224，另一种是保持原始图像大小不变。实验中使用了三种不同容量的DPVT模型。如表3所示，当使用原始图像作为输入时，精度比其他图像高1.3％～6.1％。结果表明，图像的长宽比是影响方向识别的因素之一，这种影响在绘画图像(如抽象图像)中尤为明显。

表3

为了本模型整体的有效性，我们将DPVT的性能与最先进的模型进行了比较，包括表4中的CNN模型、Transformer模型和CNN与Transformer模型相结合。在两个不同的数据集上对模型的参数、FLOPs和准确性率进行了评估。实验结果如表4所示。首先，我们将DVPT与两个CNN模型进行了比较，即ResNet和RegNetY。所提出的模型DPVT的参数和计算成本比ResNet少，但精度提高了1.4％～7.8％。DPVT Large与RegNetY-16G相比，参数数量减少了15.6，计算成本减少了2.2，但精度提升了0.7％～6.3％。

其次，在较小规模的模型上，我们将DVPT Small与七个具有“X-Small”的Transformer模型进行了比较，即PoolFormer-S12、DeiT-S、TNT-S、T2T-ViT-19、PVT-v2-S、CPVT-S和Swin-S。在五种不同类型的数据集上，DVPT-Small的准确率比其他分别七个模型分别高了0.1％～1.9％、1.3％～3.0％、0.2％～2.2％、0.1％～2.4％、2.6％～5.3％、0.4％～3.3％和0.1％～2.0％。然而，与其他七个模型相比，DVPT Small的参数数量减少了2.2～29.5，DVPT Small的计算成本减少了1.4～4。

第三，对于CNN和Transformer的组合模型，DPVT也显示出显著的性能优势。对于基本规模的模型，将DVPTbase与五个具有“X-base”的模型进行比较，即Twins-SVT-B、Shu-sulu e-B、CMT-B、VOLO-D2、Next-ViT-B。DVPT-Base的准确度分别比其他五种模型分别高了0.8％～4.9％、0.5％～5.1％、1.6％～3.4％、2,3％～6.2％和0.2％～2.8％。此外，与Shuffle-B和CMT-B相比，DVPT-Base的参数数量减少了41.4和14.4，DVPT-Base的计算成本减少了6.2和4.7。对于更大规模的模型，将DVPT-Large与Twins-SVT-L进行比较，DPVT-Large的准确率比其他方法高0.6％～6.4％，参数和FLOPs的数量分别减少了30.8和1.3。

表4

与现有图像方向感知的方法相比，本发明的优势在于：(1)采用多尺度的Outlookattentation模块，使每一个中心点的位置都要与周围不同尺度邻域内的kxk个位置进行注意力计算。可以更好的捕捉某个中心子图与其周围邻域子图的相对位置信息。(2)为了使位置编码能适应不同尺寸的输入，也能更好的表达旋转特性，我们将条件位置编码(CPE)和可变性卷积DCN进行结合，即将CPE中的F函数(原文采用的是深度可分离卷积)替换为DCN。经过这种替换，DCPE既能对不同尺寸的输入进行编码，编码中又能包含每个patch的空间排列信息，体现图像的旋转特性。(3)为了在表达方向属性的同时提高模型的轻量化程度，我们采用了一种方向卷积，从不同的方向和尺度(水平，垂直，带扩张率的深度可分离)进行卷积融合，并将其作用于Transformer模块中Self-Atterntation的K和V，将浅层特征尺度压缩到最低分辨率，增加网络特征提取能力并保持高效的计算效率。

本发明说明书中未作详细描述的内容属于本领域专业技术人员公知的现有技术。尽管上面对本发明说明性的具体实施方式进行了描述，以便于本技术领域的技术人员理解本发明，但应该清楚，本发明不限于具体实施方式的范围，对本技术领域的普通技术人员来讲，只要各种变化在所附的权利要求限定和确定的本发明的精神和范围内，这些变化是显而易见的，一切利用本发明构思的发明创造均在保护之列。

Claims

1.一种融合卷积与ViT的图像方向识别方法，其特征在于，包括以下步骤：

步骤1，将每幅图像分别按顺时针旋转四个角度0度、90度、180度和270度，每幅图像最终得到四个不同方向的图像；

步骤2，输入一幅图像，采用多尺度Outlook Attentation模块，即MOAB，计算每个中心点与周围不同尺度邻域内的k×k个像素点的注意力，k表示当前位置对应的邻域尺度；所述MOAB能捕捉某个中心子图与其周围邻域子图的相对位置信息，具体步骤如下：

步骤2.2，将步骤2.1中得到的H×W×k⁴特征图的维度变换成注意力特征图，之后采用SoftMax得到注意力图AM；

步骤2.3，采用“Linear+Unfold”操作将注意力图AM映射到一个新的特征空间V；

步骤2.5，采用不同的尺度k(3，5)分别执行步骤2.1～2.4，得到不同尺度的OA；分别记作OA_3和OA_5；

步骤2.6，将OA_3、OA_5和输入特征进行线性相加，记作OA_Fusion＝OA_3⊕OA_5⊕input feature；其中，⊕表示对应元素相加；

步骤2.7，最后，对OA_Fusion使用层归一化LN和多层感知机MLP的残差连接，即OA_Fusion+LN&MLP(OA_Fusion)，得到新的特征图；

步骤2.8，将步骤2.7得到的特征图进行Patch Embedding，包括：一个卷积操作，层归一化Layer Norm和展平Flatten操作，最终，得到token序列(N×d)，其中N表示序列的个数，d表示序列的维度；

步骤3，将条件位置编码和可变性卷积进行结合，即把条件位置编码中的F函数替换为可变性卷积，记作DCPE，具体步骤如下：

步骤3.2，采用kernel_size＝3，stride＝1，进行卷积操作，卷积后的结果表示每个像素的位置偏移量offset(H×W×2M)；其中，M＝3×3，通道数2M表示“横坐标”和“纵坐标”两个方向的偏移，输出的offset与输入特征图具有相同的空间分辨率；

步骤3.3，根据步骤3.2中得到的offset，计算新的M个点在特征图上的值；

步骤4，采用方向卷积方法，从不同的方向和尺度进行卷积融合，并将其作用于ViT中Tranformer Encoder Block模块的多头自注意力机制，记作DTEB；所述DTEB将浅层特征尺度压缩到最低分辨率，增加网络特征提取能力并保持高效的计算效率，具体步骤如下：

步骤4.1，对步骤3.5中得到的token序列的维度变换为二维特征图(H×W×C)；

步骤4.2，所述特征图通过线性变换W_K获得键值K，通过方向卷积压缩特征图的空间分辨率，然后使用W_Q和W_V分别获得查询Q和值V，其中，W_Q、W_K和W_V都使用1×1卷积；

步骤4.3，采用多头注意力机制生成Q和K的注意力权重，并将其应用于V，即：其中，d_K是指键值K的维度，QK^T表示Q和K的点积；

步骤5，构建一个融合卷积神经网络和ViT的框架，即方向金字塔ViT模型，即DPVT，DPVT分为Stage_i(i＝1，2，3，4)四个阶段，每个阶段都使用MOAB、DCPE和DTEB的组合，每个阶段的输入是一个3D特征图，具体步骤如下：

步骤5.1，在Stage_i阶段，特征图H_i-1×W_i-1×C_i-1使用3×3卷积对分辨率进行下采样并增加输出通道的数量；Stage_1的下采样率为4，Stage_2、Stage_3和Stage_4阶段的下采样率均为2；输出patch的大小为其中，P_i表示Stage_i的下采样率，H_i表示特征图的高度，W_i表示特征图的宽度，C_i表示特征图的通道数；

步骤5.3，经过方向卷积和层归一化操作之后，对特征图进行进一步展平操作，得到token序列，维度是

步骤5.4，使用DCPE对token序列进行位置编码，并与原始token序列进行相加，得到带有位置编码的token序列；

步骤5.6，将步骤5.5中的token序列变换成一个3-D特征图，Stage_1、Stage_2、Stage_3和Stage_4阶段的输出特征图大小分别是输入图像的和即通道数增大4倍，2倍，2倍和2倍；因此，4个阶段的特征图分别是原图大小的和

步骤5.7，利用卷积神经网络的结构将全局平均池化层作用于Stage_4的输出特征图；采用全连接层进行最后的分类映射；

2.根据权利要求1所述的一种融合卷积与ViT的图像方向识别方法，其特征在于，所述步骤2.3中“Linear+Unfold”操作中的“Linear”操作是对输入特征X_n×in执行了一个线性变换，即：

Y_n×out＝X_n×inW_in×out+b_n×out

所述“Unfold”操作是从一个批次的输入样本中，提取出滑动的局部区域块，实现局部连接的滑动窗口操作。

3.根据权利要求1所述的一种融合卷积与ViT的图像方向识别方法，其特征在于，所述步骤2.4中的“Fold”操作和“Unfold”操作相反，是把一系列的滑动区块拼接成一个张量。

4.根据权利要求1所述的一种融合卷积与ViT的图像方向识别方法，其特征在于，所述步骤3.3中计算新的M个点在特征图的上的值，采用如下公式，

5.根据权利要求1所述的一种融合卷积与ViT的图像方向识别方法，其特征在于，所述步骤4中采用方向卷积方法是由五个卷积核并行而成，具体为：(1)3×3的卷积核；(2)1×3的卷积核；(3)3×1的卷积核；(4)卷积核为3×3，扩张率为3的深度可分离扩张卷积；(5)卷积核为3×3，扩张率为5的深度可分离扩张卷积；之后对五个分支的输出进行对应元素相加。

6.根据权利要求1一种融合卷积与ViT的图像方向识别方法，其特征在于，所述步骤5.8中构建了三种不同容量的DPTV模型具体为DPTV-Tiny、DPTV-Small和DPTV-Base。

7.根据权利要求5所述的一种融合卷积与ViT的图像方向识别方法，其特征在于，所述带扩张率的深度可分离卷积分为两步：

第一步是带扩张率的逐层卷积，即用“扩张率-1”个0填充卷积核，扩张率不同，卷积的感受野也就不同；输入特征为H×W×C_in，采用[3+2×(rate-1)]×[3+2×(rate-1)]×C_in的卷积核对输入特征进行逐层卷积，其中，C_in是输入通道数，rate是扩张率；经过卷积后，输出特征维度是H×W×C_in；

第二步是逐点卷积，采用1×1×C_in×C_out的卷积核对第一步的输出特征进行卷积操作，将特征图在深度方向上进行加权组合，生成新的特征图，维度是H×W×C_out，其中，C_out是输出通道数。