CN113963009B

CN113963009B - 基于可形变划块的局部自注意力的图像处理方法和系统

Info

Publication number: CN113963009B
Application number: CN202111575874.6A
Authority: CN
Inventors: 王金桥; 朱优松; 陈志扬; 赵朝阳
Original assignee: Objecteye Beijing Technology Co Ltd
Current assignee: Objecteye Beijing Technology Co Ltd
Priority date: 2021-12-22
Filing date: 2021-12-22
Publication date: 2022-03-18
Anticipated expiration: 2041-12-22
Also published as: CN113963009A

Abstract

本发明提供一种基于可形变划块的局部自注意力的图像处理方法和系统。其中方法包括：对输入图像的第一特征图进行划块处理，基于第一特征图预测划块处理得到的每个块的第一偏移值，基于第一偏移值对划块处理得到的每个块的范围进行修正；基于第一特征图中修正后的每个块进行特征提取，得到第二特征图；对第二特征图进行划窗处理，基于第二特征图预测划窗处理得到的每个窗口的第二偏移值，基于第二偏移值对划窗处理得到的每个窗口的范围进行修正；基于修正后的每个窗口确定第二特征图中每个块的自注意力，将确定自注意力后的特征图作为第一特征图或者目标特征图。本发明可以在不增加大量计算的情况下有效地提升模型的性能。

Description

基于可形变划块的局部自注意力的图像处理方法和系统

技术领域

本发明涉及计算机视觉技术领域，尤其涉及一种基于可形变划块的局部自注意力的图像处理方法和系统。

背景技术

Transformer（自注意力模型）是自然语言处理领域各类任务中的主流模型，近些年也在计算机视觉领域内引起了广泛关注。相比于传统卷积网络，Transformer在建立长距离关系模型、以及拟合超大规模数据集中有着明显优势。目前Transformer已经在图像分类、目标检测、语义分割等领域取得了超越传统卷积模型的性能。

Transformer主要包括两个模块，自注意力模块和全连接前向模块。最早的Transformer将输入图片按16x16的大小均匀划分成若干个小区域块，然后将这些块向量化并依次通过若干个自注意力模块。这种方法往往忽视了图片本身具有的二维空间信息。更新一些的Transformer借鉴卷积网络的一些优点，将整体结构划分成若干个不同分辨率的阶段，并采用逐渐下采样的方式来保留更加细节的特征。然而，即使如此，Transformer依然存在一些问题，即Transformer都采用了一个固定的块区域划分方式，这导致网络不能自适应地从同一图像中不同大小的物体、同一物体不同远近的图像中提取出一致的信息，从而导致了语义上的损失，因此，如何使模型在切分块的同时保持信息不丢失，是一具亟待解决的问题。

Transformer另一个有待解决的问题是，在处理高分辨率特征图的时候，计算不同块之间的注意力往往需要与块数量成平方关系的复杂度，极大地限制了自注意力模块在高分辨率特征图上的应用，也因此阻碍了Transformer在检测、分割等下游任务上的应用。目前先进的Transformer结构通过只计算局部区域内的注意力分布来有效地减少计算量。通过将整张特征图划分成若干个相同的窗口区域，在窗口区域内的任意一个小块只与同一个窗口内的其他块计算相关度。但是，这种对于自注意力计算的粗暴划窗使得部分相邻块不会参与到自注意力的计算，即使他们有着很高的相似度，从而损害了模型的表征能力，并降低了模型的性能。因此，如何让局部自注意力计算更加符合输入特征图本身的特性，是一个有待解决的问题。

发明内容

本发明提供一种基于可形变划块的局部自注意力的图像处理方法和系统，用以解决现有技术在注意力计算时的划块方法和划窗方法会降低模型性能的缺陷，可以实现对模型性能的有效地提升。

第一方面，本发明提供一种基于可形变划块的局部自注意力的图像处理方法，包括：

对输入图像进行特征提取，得到第一特征图；

确定所述第一特征图的自注意力，得到目标特征图；

基于所述目标特征图确定图像处理的结果；

其中，所述确定所述第一特征图的自注意力，得到目标特征图，包括：

对所述第一特征图进行划块处理，基于所述第一特征图预测划块处理得到的每个块的第一偏移值，基于所述第一偏移值对划块处理得到的每个块的范围进行修正；

基于所述第一特征图中修正后的每个块进行特征提取，得到第二特征图；

对所述第二特征图进行划窗处理，基于所述第二特征图预测划窗处理得到的每个窗口的第二偏移值，基于所述第二偏移值对划窗处理得到的每个窗口的范围进行修正；

基于修正后的每个窗口确定所述第二特征图中每个块的自注意力，将确定自注意力后的特征图作为所述第一特征图或者所述目标特征图。

根据本发明提供的一种基于可形变划块的局部自注意力的图像处理方法，对所述第一特征图进行划块处理，基于所述第一特征图预测划块处理得到的每个块的第一偏移值，基于所述第一偏移值对划块处理得到的每个块的范围进行修正，包括：

对所述第一特征图进行划块处理，基于所述第一特征图，预测划块处理得到的每个矩形块的两个对角顶点的横坐标和纵坐标的偏移值；

基于所预测的每个矩形块的两个对角顶点的横坐标和纵坐标的偏移值，对划块处理得到的对应的矩形块的两个对角顶点的横坐标和纵坐标分别进行修正；

所述基于所述第一特征图中修正后的每个块进行特征提取，得到第二特征图，包括：

基于预先设定的每个矩形块内采样点的数量，通过双线性插值确定所述第一特征图中修正后的每个矩形块内采样点的位置；

基于所确定的采样点的位置，对所述第一特征图中修正后的每个矩形块进行特征提取，得到所述第二特征图。

根据本发明提供的一种基于可形变划块的局部自注意力的图像处理方法，所述对所述第一特征图进行划块处理，基于所述第一特征图预测划块处理得到的每个块的第一偏移值，基于所述第一偏移值对划块处理得到的每个块的范围进行修正，包括：

对所述第一特征图进行划块处理，基于所述第一特征图预测划块处理得到的每个块的第一偏移值和一组掩码值，基于所述第一偏移值对划块处理得到的每个块的范围进行修正；

基于所述第一特征图中修正后的每个块进行特征提取，得到第二特征图，包括：

基于所述第一特征图中修正后的每个块进行特征提取，基于所述掩码值对修正后的每个块所提取的特征进行修正，得到所述第二特征图。

根据本发明提供的一种基于可形变划块的局部自注意力的图像处理方法，预测得到的每个块的一组掩码值的数量与预先设定的每个块内采样点的数量相同，所述掩码值的大小介于0到1之间。

根据本发明提供的一种基于可形变划块的局部自注意力的图像处理方法，所述对所述第二特征图进行划窗处理，基于所述第二特征图预测划窗处理得到的每个窗口的第二偏移值，基于所述第二偏移值对划窗处理得到的每个窗口的范围进行修正，包括：

对所述第二特征图进行划窗处理，基于所述第二特征图，预测划窗处理得到的每个矩形窗口的两个对角顶点的横坐标和纵坐标的偏移值；

基于所预测的每个矩形窗口的两个对角顶点的横坐标和纵坐标的偏移值，对划窗处理得到的对应的矩形窗口的两个对角顶点的横坐标和纵坐标分别进行修正；

所述基于修正后的每个窗口确定所述第二特征图中每个块的自注意力，将确定自注意力后的特征图作为所述第一特征图或者所述目标特征图，包括：

基于划窗处理得到的每个矩形窗口内矩形块的相对位置编码，通过双线性插值确定修正后的每个矩形窗口内矩形块的相对位置编码；

基于所确定的相对位置编码，在修正后的每个矩形窗口内，确定所述第二特征图中每个矩形块的自注意力，将确定自注意力后的特征图作为所述第一特征图或者所述目标特征图。

根据本发明提供的一种基于可形变划块的局部自注意力的图像处理方法，所述对输入图像进行特征提取，得到第一特征图，包括：

对所述输入图像进行划块处理；

通过线性变换对划块处理得到的每个块进行特征提取处理，得到具有目标通道数的第三特征图；

对所述第三特征图进行划窗处理，基于所述第三特征图预测划窗处理得到的每个窗口的第二偏移值，基于所述第二偏移值对划窗处理得到的每个窗口的范围进行修正；

基于修正后的每个窗口确定所述第三特征图中每个块的自注意力，得到所述第一特征图。

第二方面，本发明还提供一种基于可形变划块的局部自注意力的图像处理系统，包括：

特征提取模块，用于对输入图像进行特征提取，得到第一特征图；

自注意力计算模块，用于确定所述第一特征图的自注意力，得到目标特征图；

结果确定模块，用于基于所述目标特征图确定图像处理的结果；

其中，所述自注意力计算模块，包括：

可形变划块单元，用于对所述第一特征图进行划块处理，基于所述第一特征图预测划块处理得到的每个块的第一偏移值，基于所述第一偏移值对划块处理得到的每个块的范围进行修正；

特征提取单元，用于基于所述第一特征图中修正后的每个块进行特征提取，得到第二特征图；

自适应划窗单元，用于对所述第二特征图进行划窗处理，基于所述第二特征图预测划窗处理得到的每个窗口的第二偏移值，基于所述第二偏移值对划窗处理得到的每个窗口的范围进行修正；

自注意力计算单元，用于基于修正后的每个窗口确定所述第二特征图中每个块的自注意力，将确定自注意力后的特征图作为所述第一特征图或者所述目标特征图。

第三方面，本发明还提供一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现如上述任一种所述神经网络自适应量化方法的步骤。

第四方面，发明还提供一种非暂态计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现如上述任一种所述神经网络自适应量化方法的步骤。

第五方面，发明还提供一种计算机程序产品，其上存储有计算机程序，该计算机程序被处理器执行时实现如上述任一种所述神经网络自适应量化方法的步骤。

本发明提供的基于可形变划块的局部自注意力的图像处理方法和系统，在确定图像的自注意力时，通过采用可形变的划块方法，参考特征图为每个块分别预测偏移值，并通过预测的偏移值分别对每个块的范围进行修正，可以使修正后的每个块的大小和位置由输入的特征图确定，具备了可变化性不再是固定的大小，可以适应同一图像中不同大小的物体，和同一物体的不同远近的图像，从中提取出一致的特征，获取更加完整、有意义的语义信息；通过采用区域自适应的窗口划分方法，参考特征图为每个窗口分别预测偏移值，并通过预测的偏移值分别对每个窗口的范围进行修正，可以使修正后的每个窗口的大小和位置由输入的特征图确定，可以自适应地将具有相似语义信息的块划分到同一个窗口内，使每个块只与其同一个窗口内的其他块进行注意力的计算，在减少自注意力计算量的同时，不过于损失特征的表征能力；实现了在不增加大量计算的情况下有效地提升模型的性能。

附图说明

为了更清楚地说明本发明或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本发明提供的基于可形变划块的局部自注意力的图像处理方法的流程示意图；

图2是本发明提供的根据注意力机制确定第一特征图的自注意力的方法的流程示意图；

图3是本发明一些实施例提供的对第一特征图进行划块处理和特征提取的流程示意图；

图4是本发明另一些实施例提供的对第一特征图进行划块处理和特征提取的流程示意图；

图5是本发明一些实施例提供的对第二特征图进行划窗处理和自注意力计算的流程示意图；

图6是本发明一些实施例提供的通过输入图像得到第一特征图的流程示意图；

图7是本发明提供的基于可形变划块的局部自注意力的图像处理系统的组成结构示意图；

图8是本发明一些实施例提供的基于可形变划块的局部自注意力的图像处理系统的结构示意图；

图9是应用图8的图像处理系统进行划块处理和特征提取的流程示意图；

图10是应用图8的图像处理系统进行划窗处理和自注意力计算的流程示意图；

图11是本发明提供的电子设备的组成结构示意图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚，下面将结合本发明中的附图，对本发明中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

下面结合图1-图6描述本发明的基于可形变划块的局部自注意力的图像处理方法。

请参阅图1，图1是本发明提供的基于可形变划块的局部自注意力的图像处理方法的流程示意图，图1所示的基于可形变划块的局部自注意力的图像处理方法可以由基于可形变划块的局部自注意力的图像处理系统执行，基于可形变划块的局部自注意力的图像处理系统可以设置于智能手机、台式计算机、笔记型计算机、车载计算机、机器人、可穿戴式设备等，本发明实施例对此不作限定。如图1所示，该基于可形变划块的局部自注意力的图像处理方法至少包括：

101，对输入图像进行特征提取，得到第一特征图。

在本发明实施例中，输入图像是用于进行图像处理的图像，对输入图像进行的图像处理可以是图像分类、目标检测、语义分割等，本发明实施例对输入图像进行的图像处理类型不作限定。输入图像可以是通过摄像头、照相机、扫描仪等图像采集设备采集的图像，或者也可以是通过网络、数据库等其他方式获得的图像，本发明实施例对输入图像获取的方式不作限定。可以根据输入图像中的像素，通过对输入图像中的像素进行变换提取输入图像的特征，获得输入图像的第一特征图，例如，可以通过卷积或者下采样对输入图像的特征进行提取，获得输入图像的第一特征图，本发明实施例对获得输入图像的第一特征图的实现方法不作限定。可选地，在获取输入图像之后，可以首先对输入图像进行预处理，例如，对输入图像进行缩放、旋转、裁剪等预处理，然后对预处理得到的图像进行特征提取，得到输入图像的第一特征图，本发明实施例对输入图像进行预处理的类型不作限定。

102，确定第一特征图的自注意力，得到目标特征图。

在本发明实施例中，在获得输入图像的第一特征图之后，可以根据注意力机制进行计算，确定第一特征图的自注意力，获得输入图像的目标特征图。如图2所示，本发明提供的根据注意力机制确定第一特征图的自注意力的方法，可以包括以下步骤：201，对第一特征图进行划块处理，基于第一特征图预测划块处理得到的每个块的第一偏移值，基于第一偏移值对划块处理得到的每个块的范围进行修正；202，基于第一特征图中修正后的每个块进行特征提取，得到第二特征图；203，对第二特征图进行划窗处理，基于第二特征图预测划窗处理得到的每个窗口的第二偏移值，基于第二偏移值对划窗处理得到的每个窗口的范围进行修正；204，基于修正后的每个窗口确定第二特征图中每个块的自注意力，将确定自注意力后的特征图作为第一特征图或者目标特征图。

在本发明实施例中，在确定第一特征图的自注意力时，可以基于预先设定的划块规则，将第一特征图划分成若干个块，每个块在第一特征图上的大小和位置都是固定的，同时根据第一特征图预测划分得到的每个块的第一偏移值，根据预测的第一偏移值对划分得到的对应的块的范围进行修正，根据第一特征图改变块的大小和位置。在对第一特征图划分得到的每个块的范围进行修正之后，可以以修正后的每个块为单位，对修正后的每个块进行特征提取，获得输入图像的第二特征图，其中第二特征图中的块为第一特征图中修正后的块。

在本发明实施例中，划块处理得到的第一特征图中若干个块的形状和大小可以相同，或者也可以不同，本发明实施例对划块处理得到的块的形状和大小不作限定。可以根据划块处理得到的每个块的形状来确定根据第一特征图预测得到的每个块的第一偏移值的信息。例如，可以将第一特征图均匀地划分成若干个大小相同的矩形区域块，同时根据第一特征图预测划分得到的每个矩形区域块在横坐标和纵坐标上的第一偏移值，根据预测的横坐标和纵坐标的第一偏移值对划分得到的对应的矩形区域块的横坐标和纵坐标进行修正，根据第一特征图来调节每个矩形区域块的大小和位置，并以修正后的每个矩形区域块为单位，对修正后的每个矩形区域块进行特征提取，获得输入图像的第二特征图。

然后，可以基于预先设定的划窗规则，将第二特征图划分成若干个窗口，每个窗口包含至少二个第二特征图中的块，每个窗口在第二特征图上的大小和位置都是固定的，同时根据第二特征图预测划分得到的每个窗口的第二偏移值，根据预测的第二偏移值对划分得到的对应的窗口的范围进行修正，根据第二特征图改变窗口的大小和位置。在对第二特征图划分得到的每个窗口的范围进行修正之后，可以以修正后的每个窗口为单位，在修正后的每个窗口内，确定第二特征图中的块的自注意力，可以将确定自注意力后的特征图作为输入图像的第一特征图，继续从步骤201开始执行，或者将确定自注意力后的特征图作为输入图像的目标特征图，用来确定图像处理的结果。

在本发明实施例中，划窗处理得到的第二特征图中若干个窗口的形状和大小可以相同，或者也可以不同，本发明实施例对划窗处理得到的窗口的形状和大小不作限定。可以根据划窗处理得到的每个窗口的形状来确定根据第一特征图预测得到的每个窗口的第二偏移值的信息。例如，可以将第二特征图均匀地划分成若干个大小相同的矩形区域窗口，同时根据第二特征图预测划分得到的每个矩形区域窗口在横坐标和纵坐标上的第二偏移值，根据预测的横坐标和纵坐标的第二偏移值对划分得到的对应的矩形区域窗口的横坐标和纵坐标进行修正，根据第二特征图来调节每个矩形区域窗口的大小和位置，并以修正后的每个矩形区域窗口为单位，在修正后的每个矩形区域窗口内，确定第二特征图中的矩形区域块的自注意力，并将确定自注意力后的特征图作为第一特征图或者目标特征图。

103，基于目标特征图确定图像处理的结果。

在本发明实施例中，在获得输入图像的目标特征图之后，可以根据图像处理的类型，通过输入图像的目标特征图确定对应的图像处理结果。例如，图像处理的类型为图像分类，可以根据目标特征图得到输入图像的类型；图像处理的类型为目标检测，可以根据目标特征图从输入图像中将目标检测出来；图像处理的类型为语义分割，可以根据目标特征图得到输入图像的语义分割图像。

本发明实施例在确定图像的自注意力时，通过采用可形变的划块方法，参考特征图为每个块分别预测偏移值，并通过预测的偏移值分别对每个块的范围进行修正，可以使修正后的每个块的大小和位置由输入的特征图确定，具备了可变化性不再是固定的大小，可以适应同一图像中不同大小的物体，和同一物体的不同远近的图像，从中提取出一致的特征，获取更加完整、有意义的语义信息；通过采用区域自适应的窗口划分方法，参考特征图为每个窗口分别预测偏移值，并通过预测的偏移值分别对每个窗口的范围进行修正，可以使修正后的每个窗口的大小和位置由输入的特征图确定，可以自适应地将具有相似语义信息的块划分到同一个窗口内，使每个块只与其同一个窗口内的其他块进行注意力的计算，在减少自注意力计算量的同时，不过于损失特征的表征能力；实现了在不增加大量计算的情况下有效地提升模型的性能。

请参阅图3，图3是本发明一些实施例提供的对第一特征图进行划块处理和特征提取的流程示意图。如图3所示，对第一特征图进行划块处理和特征提取至少包括：

301，对第一特征图进行划块处理，基于第一特征图，预测划块处理得到的每个矩形块的两个对角顶点的横坐标和纵坐标的偏移值。

在本发明实施例中，可以基于预先设定的划块规则，将第一特征图划分成若干个矩形区域块，此时每个矩形区域块在第一特征图上的大小和位置都是固定的，同时根据第一特征图预测划分得到的每个矩形区域块的两个对角顶点的横坐标和纵坐标的偏移值

，例如，两个对角顶点可以为每个矩形区域块的左上角顶点

和右下角顶点

，或者两个对角顶点也可以为每个矩形区域块的右上角顶点

和左下角顶点

，本发明实施例对预测每个矩形区域块的偏移值时所选取的对角顶点的类型不作限定。

302，基于所预测的每个矩形块的两个对角顶点的横坐标和纵坐标的偏移值，对划块处理得到的对应的矩形块的两个对角顶点的横坐标和纵坐标分别进行修正。

在本发明实施例中，在通过第一特征图预测得到每个矩形区域块的两个对角顶点的横坐标和纵坐标的偏移值之后，可以根据预测得到的每个矩形区域块的两个对角顶点的横坐标和纵坐标的偏移值

对第一特征图划分得到的对应的矩形区域块的两个对角顶点的横坐标和纵坐标分别进行修正，根据修正后的每个矩形区域块的两个对角顶点的横坐标和纵坐标，可以确定每个矩形区域块在第一特征图中修正后的大小和位置，例如，当两个对角顶点为每个矩形区域块的左上角顶点

和右下角顶点

，修正后的矩形区域块的左上角顶点和右下角顶点的坐标分别为

和

，当两个对角顶点为每个矩形区域块的右上角顶点

和左下角顶点

时，修正后的矩形区域块的右上角顶点和左下角顶点的坐标分别为

和

。

可选地，在人工神经网络模型中，预测每个块的偏移值可以通过添加一个新分支来实现，例如，对于矩形区域块，可以通过公式1在整张特征图上对每个矩形区域块预测一组偏移值

，公式1如下：

（公式1）

其中，

为特征图，

，

为卷积处理得到的特征向量。

303，基于预先设定的每个矩形块内采样点的数量，通过双线性插值确定第一特征图中修正后的每个矩形块内采样点的位置。

在本发明实施例中，在通过预测得到的每个矩形区域块的两个对角顶点的横坐标和纵坐标偏移值，对对应的矩形区域块的两个对角顶点的横坐标和纵坐标分别进行修正之后，由于每个矩形区域块内采样点的数量为预先设定的，即

超参数，不根据每个矩形区域块的大小的改变而改变，并且对每个矩形区域块是均匀采样，即每个矩形区域块的

个采样点是均匀分布于该矩形区域块内，因此可以根据预先设定的每个矩形块内采样点的数量

，通过双线性插值确定第一特征图中修正后的每个矩形区域块内采样点的位置。

304，基于所确定的采样点的位置，对第一特征图中修正后的每个矩形块进行特征提取，得到第二特征图。

在本发明实施例中，在确定第一特征图中修正后的每个矩形区域块内采样点的位置之后，可以根据所确定的第一特征图中修正后的每个矩形区域块内采样点的位置，对第一特征图中修正后的每个矩形区域块进行特征提取，获得第一特征图中修正后的每个矩形区域块内每个采样点的特征，从而得到第一特征图中修正后的每个矩形区域块可以用来表征整个矩形区域块的特征，进而得到与第一特征图对应的第二特征图。

请参阅图4，图4是本发明另一些实施例提供的对第一特征图进行划块处理和特征提取的流程示意图。如图4所示，对第一特征图进行划块处理和特征提取至少包括：

401，对第一特征图进行划块处理，基于第一特征图预测划块处理得到的每个块的第一偏移值和一组掩码值，基于第一偏移值对划块处理得到的每个块的范围进行修正。

402，基于第一特征图中修正后的每个块进行特征提取，基于掩码值对修正后的每个块所提取的特征进行修正，得到第二特征图。

在本发明实施例中，由于并非所有的采样点都具有相等的表征能力，部分采样点可能是冗余的甚至会损害表征性能，因此在对第一特征图进行划块处理，根据第一特征图预测划块处理得到的每个块的第一偏移值时，可以同时根据第一特征图预测划块处理得到的每个块的一组掩码值，以在对第一特征图中修正后的每个块进行特征提取之后，根据预测得到的一组掩码值对对应的修正后的块所提取的特征进行修正，通过掩码值对采样点采样的特征进行修正，来对不同采样点的表征能力进行区分，可以减小冗余采样点和损害表征性能的采样点的表征能力。

本发明实施例对预测得到的每个块的一组掩码值的数量和大小不作限定。可选地，预测得到的每个块的一组掩码值的数量可以与预先设定的每个块内采样点的数量相同，掩码值的大小可以介于0到1之间，可以通过将预测得到的每个块的一组掩码值分别与对应的修正后的块内的每个采样点相乘，将相乘得到的特征作为最后用来表征修正后的每个块的特征。

可选地，在人工神经网络模型中，预测每个块的一组掩码值可以通过添加一个新分支来实现，例如，可以通过公式2在整张特征图上对每个块预测一组掩码值

，公式2如下：

（公式2）

其中，

为特征图，

，

为卷积处理得到的特征向量，

。

在得到预测得到每个块的一组掩码值

之后，可以根据公式3，对每个块的特征进行修正，公式3如下：

（公式3）

其中，

采样点i的特征，

采样点i的特征，

。

请参阅图5，图5是本发明一些实施例提供的对第二特征图进行划窗处理和自注意力计算的流程示意图。如图5所示，对第二特征图进行窗块处理和自注意力计算至少包括：

501，对第二特征图进行划窗处理，基于第二特征图，预测划窗处理得到的每个矩形窗口的两个对角顶点的横坐标和纵坐标的偏移值。

在本发明实施例中，可以基于预先设定的划窗规则，将第二特征图划分成若干个矩形区域窗口，使每个矩形区域窗口包含至少二个第二特征图中的矩形区域块，此时每个矩形区域窗口在第二特征图上的大小和位置都是固定的，同时根据第二特征图预测划分得到的每个矩形区域窗口的两个对角顶点的横坐标和纵坐标的偏移值

，例如，两个对角顶点可以为每个矩形区域窗口的左上角顶点

和右下角顶点

，或者两个对角顶点也可以为每个矩形区域窗口的右上角顶点

和左下角顶点

，本发明实施例对预测每个矩形区域窗口的偏移值时所选取的对角顶点的类型不作限定。

502，基于所预测的每个矩形窗口的两个对角顶点的横坐标和纵坐标的偏移值，对划窗处理得到的对应的矩形窗口的两个对角顶点的横坐标和纵坐标分别进行修正。

在本发明实施例中，在通过第二特征图预测得到每个矩形区域窗口的两个对角顶点的横坐标和纵坐标的偏移值之后，可以根据预测得到的每个矩形区域窗口的两个对角顶点的横坐标和纵坐标的偏移值

对第二特征图划分得到的对应的矩形区域窗口的两个对角顶点的横坐标和纵坐标分别进行修正，根据修正后的每个矩形区域窗口的两个对角顶点的横坐标和纵坐标，可以确定每个矩形区域窗口在第二特征图中修正后的大小和位置，例如，当两个对角顶点为每个矩形区域窗口的左上角顶点

和右下角顶点

和

，当两个对角顶点为每个矩形区域块的右上角顶点

和左下角顶点

和

。

503，基于划窗处理得到的每个矩形窗口内矩形块的相对位置编码，通过双线性插值确定修正后的每个矩形窗口内矩形块的相对位置编码。

在本发明实施例中，在划窗处理之后，可以通过计算同一个矩形区域窗口内两个矩形区域块之间的相对位置，确定第二特征图中每个矩形区域窗口的相对位置编码

，相对位置编码

对应于二维空间中一个确定的物理距离。由于经过修正后的每个矩形区域窗口的大小和位置会发生变化，为了使每个矩形区域窗口的相对位置编码

可以适应修正后的矩形区域窗口，在通过预测得到的每个矩形区域窗口的两个对角顶点的横坐标和纵坐标偏移值，对对应的矩形区域窗口的两个对角顶点的横坐标和纵坐标分别进行修正之后，可以根据第二特征图中每个矩形区域窗口内每个矩形区域块的相对位置编码，通过双线性插值确定第二特征图中修正后的每个矩形区域窗口内每个矩形区域块的相对位置编码，使通过双线性插值得到的相对位置编码可以与修正后的矩形区域窗口保持一致。

可选地，在人工神经网络模型中，对于修正后的每个矩形区域窗口，可以通过公式 4计算相对位置编码

，公式4如下：

（公式4）

其中，

为划窗处理得到的每个窗口内矩形区域块的集合，

}为修正后的每个窗口内矩形区域块的集合，

为双线性插值函数。

504，基于所确定的相对位置编码，在修正后的每个矩形窗口内，确定第二特征图中每个矩形块的自注意力，将确定自注意力后的特征图作为第一特征图或者目标特征图。

在本发明实施例中，在确定第二特征图中修正后的每个矩形区域窗口

内矩形区域块的相对位置编码之后，可以将第二特征图中修正后的每个矩形区域窗口确定为自注意力计算范围，在第二特征图中修正后的每个矩形区域窗口内，通过查表的方式，确定与划窗处理得到的每个矩形区域窗口

内的矩形区域块相关的矩形区域块，即从集合

中提取查询

，从集合

中提取键

、值

，进行自相关运算，从而得到第二特征图中修正后的每个矩形区域窗口的局部自注意力，并将确定自注意力后的特征图作为第一特征图或者目标特征图。

可选地，在人工神经网络模型中，对于修正后的每个矩形区域窗口，可以通过公式5计算局部自注意力，公式5如下：

（公式5）

其中

为自注意力，

为归一化指数函数。

请参阅图6，图6是本发明一些实施例提供的通过输入图像得到第一特征图的流程示意图。如图6所示，通过输入图像得到第一特征图至少包括：

601，对输入图像进行划块处理。

602，通过线性变换对划块处理得到的每个块进行特征提取处理，得到具有目标通道数的第三特征图。

603，对第三特征图进行划窗处理，基于第三特征图预测划窗处理得到的每个窗口的第二偏移值，基于第二偏移值对划窗处理得到的每个窗口的范围进行修正。

604，基于修正后的每个窗口确定第三特征图中每个块的自注意力，得到第一特征图。

在本发明实施例中，在获得输入图像的第一特征图时，可以首先可以基于预先设定的划块规则，将输入图像划分成若干个块，每个块在输入图像上的大小和位置都是固定的；然后通过线性变换对划块处理得到的每个块进行特征提取，获得具有目标通道数的第三特征图；之后基于预先设定的划窗规则，将第三特征图划分成若干个窗口，每个窗口包含至少二个第三特征图中的块，每个窗口在第三特征图上的大小和位置都是固定的，同时根据第四特征图预测划分得到的每个窗口的第二偏移值，根据预测的第二偏移值对划分得到的对应的窗口的范围进行修正，根据第三特征图改变窗口的大小和位置；最后以修正后的每个窗口为单位，在修正后的每个窗口内，确定第三特征图中的块的自注意力，获得输入图像的第一特征图。

例如，可以将输入图像均匀地划分成若干个大小相同的矩形区域块，通过线性变换对划块处理得到的每个矩形区域块进行特征提取，获得具有目标通道数的第三特征图；可以将第三特征图均匀地划分成若干个大小相同的矩形区域窗口，同时根据第三特征图预测划分得到的每个矩形区域窗口在横坐标和纵坐标上的第二偏移值，根据预测的横坐标和纵坐标的第二偏移值对划分得到的对应的矩形区域窗口的横坐标和纵坐标进行修正，根据第三特征图来调节每个矩形区域窗口的大小和位置，并以修正后的每个矩形区域窗口为单位，在修正后的每个矩形区域窗口内，确定第三特征图中的矩形区域块的自注意力，获得输入图像的第一特征图。

下面对本发明提供的基于可形变划块的局部自注意力的图像处理系统进行描述，下文描述的基于可形变划块的局部自注意力的图像处理系统与上文描述的基于可形变划块的局部自注意力的图像处理方法可相互对应参照。

请参阅图7，图7是本发明提供的基于可形变划块的局部自注意力的图像处理系统的组成结构示意图，图7所示的基于可形变划块的局部自注意力的图像处理系统可用来执行图1的基于可形变划块的局部自注意力的图像处理方法，如图7所示，该基于可形变划块的局部自注意力的图像处理系统至少包括：

特征提取模块710，用于对输入图像进行特征提取，得到第一特征图.

自注意力计算模块720，用于确定第一特征图的自注意力，得到目标特征图。

结果确定模块730，用于基于目标特征图确定图像处理的结果。

其中，自注意力计算模块720，包括：

可形变划块单元721，用于对第一特征图进行划块处理，基于第一特征图预测划块处理得到的每个块的第一偏移值，基于第一偏移值对划块处理得到的每个块的范围进行修正。

特征提取单元722，用于基于第一特征图中修正后的每个块进行特征提取，得到第二特征图。

自适应划窗单元723，用于对第二特征图进行划窗处理，基于第二特征图预测划窗处理得到的每个窗口的第二偏移值，基于第二偏移值对划窗处理得到的每个窗口的范围进行修正。

自注意力计算单元724，用于基于修正后的每个窗口确定第二特征图中每个块的自注意力，将确定自注意力后的特征图作为第一特征图或者目标特征图。

可选地，可形变划块单元721，包括：

第一子单元，用于对第一特征图进行划块处理，基于第一特征图，预测划块处理得到的每个矩形块的两个对角顶点的横坐标和纵坐标的偏移值。

第二子单元，用于基于所预测的每个矩形块的两个对角顶点的横坐标和纵坐标的偏移值，对划块处理得到的对应的矩形块的两个对角顶点的横坐标和纵坐标分别进行修正。

特征提取单元722，包括：

第三子单元，用于基于预先设定的每个矩形块内采样点的数量，通过双线性插值确定第一特征图中修正后的每个矩形块内采样点的位置。

第四子单元，用于基于所确定的采样点的位置，对第一特征图中修正后的每个矩形块进行特征提取，得到第二特征图。

可选地，可形变划块单元721，用于对第一特征图进行划块处理，基于第一特征图预测划块处理得到的每个块的第一偏移值和一组掩码值，基于第一偏移值对划块处理得到的每个块的范围进行修正。

特征提取单元722，用于基于第一特征图中修正后的每个块进行特征提取，基于掩码值对修正后的每个块所提取的特征进行修正，得到第二特征图。

可选地，预测得到的每个块的一组掩码值的数量与预先设定的每个块内采样点的数量相同，掩码值的大小介于0到1之间。

可选地，自适应划窗单元723，包括：

第五子单元，用于对第二特征图进行划窗处理，基于第二特征图，预测划窗处理得到的每个矩形窗口的两个对角顶点的横坐标和纵坐标的偏移值。

第六子单元，用于基于所预测的每个矩形窗口的两个对角顶点的横坐标和纵坐标的偏移值，对划窗处理得到的对应的矩形窗口的两个对角顶点的横坐标和纵坐标分别进行修正。

自注意力计算单元724，包括：

第七子单元，用于基于划窗处理得到的每个矩形窗口内矩形块的相对位置编码，通过双线性插值确定修正后的每个矩形窗口内矩形块的相对位置编码。

第八子单元，用于基于所确定的相对位置编码，在修正后的每个矩形窗口内，确定第二特征图中每个矩形块的自注意力，将确定自注意力后的特征图作为第一特征图或者目标特征图。

可选地，特征提取模块710，包括：

划块单元，用于对输入图像进行划块处理。

线性变换单元，用于通过线性变换对划块处理得到的每个块进行特征提取处理，得到具有目标通道数的第三特征图。

自适应划窗单元723，用于对第三特征图进行划窗处理，基于第三特征图预测划窗处理得到的每个窗口的第二偏移值，基于第二偏移值对划窗处理得到的每个窗口的范围进行修正。

自注意力计算单元724，用于基于修正后的每个窗口确定第三特征图中每个块的自注意力，得到第一特征图。

请参阅图8、图9和图10，图8是本发明一些实施例提供的基于可形变划块的局部自注意力的图像处理系统的结构示意图，图9是应用图8的图像处理系统进行划块处理和特征提取的流程示意图，图10是应用图8的图像处理系统进行划窗处理和自注意力计算的流程示意图。

可以将本发明提供的基于可形变划块的局部自注意力的图像处理方法应用于Swin-Transformer模型，Swin-Transformer模型是一个类金字塔形的多阶段自注意力模型。该模型首先在第一阶段将图像切分成若干个4x4的矩形块，然后在后续每个阶段开始将相邻的2x2个矩形块聚合成一个新的矩形块，来实现划块，在每个阶段的自注意力模块中，均采用了相同大小的矩形窗口的局部自注意力机制，以保证计算量随着空间分辨率增加复杂度只会以线性关系上升。

如图8所示，Swin-Transformer模型包括4个阶段，即Stage1至Stage4，在Swin-Transformer模型的基础上，可以将Swin-Transformer模型的Stage2至Stage4中的块聚合划块操作用本发明提供的可变形下采样划块代替，可以将Swin-Transformer模型的Stage1至Stage4中的固定窗局部自注意力模块用本发明提供的自适应窗局部自注意力模块代替。这两种替换几乎不会增加模型的计算量，但是会帮助模型更好地捕获输入图像的语义信息，并根据输入调节划块、划窗的具体方法，可以保证获得完整且具有判别力的特征，从而大幅度提升模型的性能。

以ImageNet图像数据集为例，将ImageNet图像数据集中的图像输入图8中的模型，

步骤1：首先将输入图像缩放到224x224像素，然后通过划块操作与线性编码层将每个块转换为向量特征，得到具有目标通道数C的特征图。

步骤2：将步骤1得到的特征图送入第一阶段的自适应窗局部自注意力模块，通过单个线性预测单元预测每个局部矩形窗上、下、左、右侧边缘的偏移值，并根据预测的偏移值确定自适应窗局部自注意力模块的每个局部矩形窗的划窗范围。

步骤3：在步骤2得到的划窗范围内进行局部自注意力的相关计算，利用该计算对特征图中的特征进行处理，同一个阶段内自适应窗局部自注意力模块得到的多个局部矩形窗重复进行该计算，进行多次特征处理，得到新的特征图。

如图10所示，在图10的左侧为原始固定窗局部自注意力的窗口在图像中的示意图，其中A、B、C、D四个区域分别为正方形的固定窗口，每个固定窗口的大小相同、位置固定，每个固定窗口均包含

个正方形块，a、b、c、d分别为A、B、C、D四个窗口内的一个正方形块；在图10的右侧为自适应窗局部自注意力的窗口在图像中的示意图，其中A’、B’、C’、D’四个区域分别为长方形的自适应窗口，每个自适应窗口的大小不同，位置可变，每个自适应窗口包含的正方形块的数量不同，a’、b’、c’、d’分别为A’、B’、C’、D’四个窗口内的一个正方形块。

步骤4：在第二阶段至第四阶段，前一阶段得到的特征图送入可变形下采样操作来降低分辨率，通过单个线性预测单元预测每个矩形块的位置偏移值

，并根据预测的偏移值确定可变形下采样操作的每个矩形块的位置和大小，从而确定需要处理的特征。

如图9所示，可变形下采样操作可以根据输入的特征图预测一组偏移值

，通过偏移值确定特征图中正方形块E的位置和大小，对所确定的正方形块E进行

，通过掩码值对

内采样点的特征

，并通过线性层进行线性变换，得到新的特征图。

步骤5：重复步骤2至步骤4，分别在第二、三、四阶段中依次进行可变形下采样操作和通过自适应窗局部自注意力模块进行自注意力计算，从而提取到更好的图像的最终特征。

步骤6：将图像的最终特征，送入softmax线性分类器中进行图像分类。

经过试验证明在同等计算条件下，采用现有的Swin-Transformer模型进行图像处理，得到的图像处理的精度为75.1%，采用本发明提供的基于可形变划块的局部自注意力的图像处理方法的Swin-Transformer模型进行图像处理，得到的图像处理的精度为77.4%，可见网络的性能得到了显著地提升。

图11示例了一种电子设备的实体结构示意图，如图11所示，该电子设备可以包括：处理器(processor)1110、通信接口(CommunicationsInterface)1120、存储器(memory)1130和通信总线1140，其中，处理器1110，通信接口1120，存储器1130通过通信总线1140完成相互间的通信。处理器1110可以调用存储器1130中的逻辑指令，以执行基于可形变划块的局部自注意力的图像处理方法，该方法包括：

对输入图像进行特征提取，得到第一特征图；

确定所述第一特征图的自注意力，得到目标特征图；

基于所述目标特征图确定图像处理的结果；

此外，上述的存储器1130中的逻辑指令可以通过软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备（可以是个人计算机，服务器，或者网络设备等）执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器（ROM，Read-OnlyMemory）、随机存取存储器（RAM，RandomAccessMemory）、磁碟或者光盘等各种可以存储程序代码的介质。

另一方面，本发明还提供一种计算机程序产品，所述计算机程序产品包括存储在非暂态计算机可读存储介质上的计算机程序，所述计算机程序包括程序指令，当所述程序指令被计算机执行时，计算机能够执行上述各方法实施例提供的基于可形变划块的局部自注意力的图像处理方法，该方法包括：

对输入图像进行特征提取，得到第一特征图；

确定所述第一特征图的自注意力，得到目标特征图；

基于所述目标特征图确定图像处理的结果；

又一方面，本发明还提供一种非暂态计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现以执行上述各方法实施例提供的基于可形变划块的局部自注意力的图像处理方法，该方法包括：

对输入图像进行特征提取，得到第一特征图；

确定所述第一特征图的自注意力，得到目标特征图；

基于所述目标特征图确定图像处理的结果；

以上所描述的装置实施例仅仅是示意性的，其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下，即可以理解并实施。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件。基于这样的理解，上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在计算机可读存储介质中，如ROM/RAM、磁碟、光盘等，包括若干指令用以使得一台计算机设备（可以是个人计算机，服务器，或者网络设备等）执行各个实施例或者实施例的某些部分所述的方法。

最后应说明的是：以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims

1.一种基于可形变划块的局部自注意力的图像处理方法，其特征在于，包括：

对输入图像进行特征提取，得到第一特征图；

确定所述第一特征图的自注意力，得到目标特征图；

基于所述目标特征图确定图像处理的结果；

基于所述第一特征图中修正后的每个块进行特征提取，基于所述掩码值对修正后的每个块所提取的特征进行修正，得到第二特征图；

基于修正后的每个窗口确定所述第二特征图中每个块的自注意力，基于确定自注意力后的特征图得到所述目标特征图；

其中，对所述第一特征图进行划块处理，基于所述第一特征图预测划块处理得到的每个块的第一偏移值和一组掩码值，基于所述第一偏移值对划块处理得到的每个块的范围进行修正，包括：

对所述第一特征图进行划块处理，基于所述第一特征图，预测划块处理得到的每个矩形块的两个对角顶点的横坐标和纵坐标的偏移值和与预先设定的每个块内采样点的数量相同的一组掩码值；

所述对所述第二特征图进行划窗处理，基于所述第二特征图预测划窗处理得到的每个窗口的第二偏移值，基于所述第二偏移值对划窗处理得到的每个窗口的范围进行修正，包括：

基于所预测的每个矩形窗口的两个对角顶点的横坐标和纵坐标的偏移值，对划窗处理得到的对应的矩形窗口的两个对角顶点的横坐标和纵坐标分别进行修正。

2.根据权利要求1所述的基于可形变划块的局部自注意力的图像处理方法，其特征在于，所述基于所述第一特征图中修正后的每个块进行特征提取，基于所述掩码值对修正后的每个块所提取的特征进行修正，得到第二特征图，包括：

基于所确定的采样点的位置，对所述第一特征图中修正后的每个矩形块进行特征提取；

基于所述掩码值对修正后的每个矩形块所提取的特征进行修正，得到所述第二特征图。

3.根据权利要求2所述的基于可形变划块的局部自注意力的图像处理方法，其特征在于，所述掩码值的大小介于0到1之间。

4.根据权利要求1至3任一项所述的基于可形变划块的局部自注意力的图像处理方法，其特征在于，所述基于修正后的每个窗口确定所述第二特征图中每个块的自注意力，基于确定自注意力后的特征图得到所述目标特征图，包括：

基于所确定的相对位置编码，在修正后的每个矩形窗口内，确定所述第二特征图中每个矩形块的自注意力，基于确定自注意力后的特征图得到所述目标特征图。

5.根据权利要求4所述的基于可形变划块的局部自注意力的图像处理方法，其特征在于，所述对输入图像进行特征提取，得到第一特征图，包括：

对所述输入图像进行划块处理；

6.一种基于可形变划块的局部自注意力的图像处理系统，其特征在于，包括：

其中，所述自注意力计算模块，包括：

可形变划块单元，用于对所述第一特征图进行划块处理，基于所述第一特征图预测划块处理得到的每个块的第一偏移值和一组掩码值，基于所述第一偏移值对划块处理得到的每个块的范围进行修正；

特征提取单元，用于基于所述第一特征图中修正后的每个块进行特征提取，基于所述掩码值对修正后的每个块所提取的特征进行修正，得到第二特征图；

自注意力计算单元，用于基于修正后的每个窗口确定所述第二特征图中每个块的自注意力，基于确定自注意力后的特征图得到所述目标特征图；

其中，所述可形变划块单元，包括：

第一子单元，用于对所述第一特征图进行划块处理，基于所述第一特征图，预测划块处理得到的每个矩形块的两个对角顶点的横坐标和纵坐标的偏移值和与预先设定的每个块内采样点的数量相同的一组掩码值；

第二子单元，用于基于所预测的每个矩形块的两个对角顶点的横坐标和纵坐标的偏移值，对划块处理得到的对应的矩形块的两个对角顶点的横坐标和纵坐标分别进行修正；

所述自适应划窗单元，包括：

第五子单元，用于对所述第二特征图进行划窗处理，基于所述第二特征图，预测划窗处理得到的每个矩形窗口的两个对角顶点的横坐标和纵坐标的偏移值；

7.一种电子设备，包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序，其特征在于，所述处理器执行所述程序时实现如权利要求1至5任一项所述基于可形变划块的局部自注意力的图像处理方法的步骤。

8.一种非暂态计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求1至5任一项所述基于可形变划块的局部自注意力的图像处理方法的步骤。