CN113963009B - 基于可形变划块的局部自注意力的图像处理方法和系统 - Google Patents

基于可形变划块的局部自注意力的图像处理方法和系统 Download PDF

Info

Publication number
CN113963009B
CN113963009B CN202111575874.6A CN202111575874A CN113963009B CN 113963009 B CN113963009 B CN 113963009B CN 202111575874 A CN202111575874 A CN 202111575874A CN 113963009 B CN113963009 B CN 113963009B
Authority
CN
China
Prior art keywords
feature map
block
attention
self
window
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202111575874.6A
Other languages
English (en)
Other versions
CN113963009A (zh
Inventor
王金桥
朱优松
陈志扬
赵朝阳
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Objecteye Beijing Technology Co Ltd
Original Assignee
Objecteye Beijing Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Objecteye Beijing Technology Co Ltd filed Critical Objecteye Beijing Technology Co Ltd
Priority to CN202111575874.6A priority Critical patent/CN113963009B/zh
Publication of CN113963009A publication Critical patent/CN113963009A/zh
Application granted granted Critical
Publication of CN113963009B publication Critical patent/CN113963009B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/10Segmentation; Edge detection
    • G06T7/11Region-based segmentation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Artificial Intelligence (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • Image Processing (AREA)
  • Image Analysis (AREA)

Abstract

本发明提供一种基于可形变划块的局部自注意力的图像处理方法和系统。其中方法包括:对输入图像的第一特征图进行划块处理,基于第一特征图预测划块处理得到的每个块的第一偏移值,基于第一偏移值对划块处理得到的每个块的范围进行修正;基于第一特征图中修正后的每个块进行特征提取,得到第二特征图;对第二特征图进行划窗处理,基于第二特征图预测划窗处理得到的每个窗口的第二偏移值,基于第二偏移值对划窗处理得到的每个窗口的范围进行修正;基于修正后的每个窗口确定第二特征图中每个块的自注意力,将确定自注意力后的特征图作为第一特征图或者目标特征图。本发明可以在不增加大量计算的情况下有效地提升模型的性能。

Description

基于可形变划块的局部自注意力的图像处理方法和系统
技术领域
本发明涉及计算机视觉技术领域,尤其涉及一种基于可形变划块的局部自注意力的图像处理方法和系统。
背景技术
Transformer(自注意力模型)是自然语言处理领域各类任务中的主流模型,近些年也在计算机视觉领域内引起了广泛关注。相比于传统卷积网络,Transformer在建立长距离关系模型、以及拟合超大规模数据集中有着明显优势。目前Transformer已经在图像分类、目标检测、语义分割等领域取得了超越传统卷积模型的性能。
Transformer主要包括两个模块,自注意力模块和全连接前向模块。最早的Transformer将输入图片按16x16的大小均匀划分成若干个小区域块,然后将这些块向量化并依次通过若干个自注意力模块。这种方法往往忽视了图片本身具有的二维空间信息。更新一些的Transformer借鉴卷积网络的一些优点,将整体结构划分成若干个不同分辨率的阶段,并采用逐渐下采样的方式来保留更加细节的特征。然而,即使如此,Transformer依然存在一些问题,即Transformer都采用了一个固定的块区域划分方式,这导致网络不能自适应地从同一图像中不同大小的物体、同一物体不同远近的图像中提取出一致的信息,从而导致了语义上的损失,因此,如何使模型在切分块的同时保持信息不丢失,是一具亟待解决的问题。
Transformer另一个有待解决的问题是,在处理高分辨率特征图的时候,计算不同块之间的注意力往往需要与块数量成平方关系的复杂度,极大地限制了自注意力模块在高分辨率特征图上的应用,也因此阻碍了Transformer在检测、分割等下游任务上的应用。目前先进的Transformer结构通过只计算局部区域内的注意力分布来有效地减少计算量。通过将整张特征图划分成若干个相同的窗口区域,在窗口区域内的任意一个小块只与同一个窗口内的其他块计算相关度。但是,这种对于自注意力计算的粗暴划窗使得部分相邻块不会参与到自注意力的计算,即使他们有着很高的相似度,从而损害了模型的表征能力,并降低了模型的性能。因此,如何让局部自注意力计算更加符合输入特征图本身的特性,是一个有待解决的问题。
发明内容
本发明提供一种基于可形变划块的局部自注意力的图像处理方法和系统,用以解决现有技术在注意力计算时的划块方法和划窗方法会降低模型性能的缺陷,可以实现对模型性能的有效地提升。
第一方面,本发明提供一种基于可形变划块的局部自注意力的图像处理方法,包括:
对输入图像进行特征提取,得到第一特征图;
确定所述第一特征图的自注意力,得到目标特征图;
基于所述目标特征图确定图像处理的结果;
其中,所述确定所述第一特征图的自注意力,得到目标特征图,包括:
对所述第一特征图进行划块处理,基于所述第一特征图预测划块处理得到的每个块的第一偏移值,基于所述第一偏移值对划块处理得到的每个块的范围进行修正;
基于所述第一特征图中修正后的每个块进行特征提取,得到第二特征图;
对所述第二特征图进行划窗处理,基于所述第二特征图预测划窗处理得到的每个窗口的第二偏移值,基于所述第二偏移值对划窗处理得到的每个窗口的范围进行修正;
基于修正后的每个窗口确定所述第二特征图中每个块的自注意力,将确定自注意力后的特征图作为所述第一特征图或者所述目标特征图。
根据本发明提供的一种基于可形变划块的局部自注意力的图像处理方法,对所述第一特征图进行划块处理,基于所述第一特征图预测划块处理得到的每个块的第一偏移值,基于所述第一偏移值对划块处理得到的每个块的范围进行修正,包括:
对所述第一特征图进行划块处理,基于所述第一特征图,预测划块处理得到的每个矩形块的两个对角顶点的横坐标和纵坐标的偏移值;
基于所预测的每个矩形块的两个对角顶点的横坐标和纵坐标的偏移值,对划块处理得到的对应的矩形块的两个对角顶点的横坐标和纵坐标分别进行修正;
所述基于所述第一特征图中修正后的每个块进行特征提取,得到第二特征图,包括:
基于预先设定的每个矩形块内采样点的数量,通过双线性插值确定所述第一特征图中修正后的每个矩形块内采样点的位置;
基于所确定的采样点的位置,对所述第一特征图中修正后的每个矩形块进行特征提取,得到所述第二特征图。
根据本发明提供的一种基于可形变划块的局部自注意力的图像处理方法,所述对所述第一特征图进行划块处理,基于所述第一特征图预测划块处理得到的每个块的第一偏移值,基于所述第一偏移值对划块处理得到的每个块的范围进行修正,包括:
对所述第一特征图进行划块处理,基于所述第一特征图预测划块处理得到的每个块的第一偏移值和一组掩码值,基于所述第一偏移值对划块处理得到的每个块的范围进行修正;
基于所述第一特征图中修正后的每个块进行特征提取,得到第二特征图,包括:
基于所述第一特征图中修正后的每个块进行特征提取,基于所述掩码值对修正后的每个块所提取的特征进行修正,得到所述第二特征图。
根据本发明提供的一种基于可形变划块的局部自注意力的图像处理方法,预测得到的每个块的一组掩码值的数量与预先设定的每个块内采样点的数量相同,所述掩码值的大小介于0到1之间。
根据本发明提供的一种基于可形变划块的局部自注意力的图像处理方法,所述对所述第二特征图进行划窗处理,基于所述第二特征图预测划窗处理得到的每个窗口的第二偏移值,基于所述第二偏移值对划窗处理得到的每个窗口的范围进行修正,包括:
对所述第二特征图进行划窗处理,基于所述第二特征图,预测划窗处理得到的每个矩形窗口的两个对角顶点的横坐标和纵坐标的偏移值;
基于所预测的每个矩形窗口的两个对角顶点的横坐标和纵坐标的偏移值,对划窗处理得到的对应的矩形窗口的两个对角顶点的横坐标和纵坐标分别进行修正;
所述基于修正后的每个窗口确定所述第二特征图中每个块的自注意力,将确定自注意力后的特征图作为所述第一特征图或者所述目标特征图,包括:
基于划窗处理得到的每个矩形窗口内矩形块的相对位置编码,通过双线性插值确定修正后的每个矩形窗口内矩形块的相对位置编码;
基于所确定的相对位置编码,在修正后的每个矩形窗口内,确定所述第二特征图中每个矩形块的自注意力,将确定自注意力后的特征图作为所述第一特征图或者所述目标特征图。
根据本发明提供的一种基于可形变划块的局部自注意力的图像处理方法,所述对输入图像进行特征提取,得到第一特征图,包括:
对所述输入图像进行划块处理;
通过线性变换对划块处理得到的每个块进行特征提取处理,得到具有目标通道数的第三特征图;
对所述第三特征图进行划窗处理,基于所述第三特征图预测划窗处理得到的每个窗口的第二偏移值,基于所述第二偏移值对划窗处理得到的每个窗口的范围进行修正;
基于修正后的每个窗口确定所述第三特征图中每个块的自注意力,得到所述第一特征图。
第二方面,本发明还提供一种基于可形变划块的局部自注意力的图像处理系统,包括:
特征提取模块,用于对输入图像进行特征提取,得到第一特征图;
自注意力计算模块,用于确定所述第一特征图的自注意力,得到目标特征图;
结果确定模块,用于基于所述目标特征图确定图像处理的结果;
其中,所述自注意力计算模块,包括:
可形变划块单元,用于对所述第一特征图进行划块处理,基于所述第一特征图预测划块处理得到的每个块的第一偏移值,基于所述第一偏移值对划块处理得到的每个块的范围进行修正;
特征提取单元,用于基于所述第一特征图中修正后的每个块进行特征提取,得到第二特征图;
自适应划窗单元,用于对所述第二特征图进行划窗处理,基于所述第二特征图预测划窗处理得到的每个窗口的第二偏移值,基于所述第二偏移值对划窗处理得到的每个窗口的范围进行修正;
自注意力计算单元,用于基于修正后的每个窗口确定所述第二特征图中每个块的自注意力,将确定自注意力后的特征图作为所述第一特征图或者所述目标特征图。
第三方面,本发明还提供一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现如上述任一种所述神经网络自适应量化方法的步骤。
第四方面,发明还提供一种非暂态计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现如上述任一种所述神经网络自适应量化方法的步骤。
第五方面,发明还提供一种计算机程序产品,其上存储有计算机程序,该计算机程序被处理器执行时实现如上述任一种所述神经网络自适应量化方法的步骤。
本发明提供的基于可形变划块的局部自注意力的图像处理方法和系统,在确定图像的自注意力时,通过采用可形变的划块方法,参考特征图为每个块分别预测偏移值,并通过预测的偏移值分别对每个块的范围进行修正,可以使修正后的每个块的大小和位置由输入的特征图确定,具备了可变化性不再是固定的大小,可以适应同一图像中不同大小的物体,和同一物体的不同远近的图像,从中提取出一致的特征,获取更加完整、有意义的语义信息;通过采用区域自适应的窗口划分方法,参考特征图为每个窗口分别预测偏移值,并通过预测的偏移值分别对每个窗口的范围进行修正,可以使修正后的每个窗口的大小和位置由输入的特征图确定,可以自适应地将具有相似语义信息的块划分到同一个窗口内,使每个块只与其同一个窗口内的其他块进行注意力的计算,在减少自注意力计算量的同时,不过于损失特征的表征能力;实现了在不增加大量计算的情况下有效地提升模型的性能。
附图说明
为了更清楚地说明本发明或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本发明提供的基于可形变划块的局部自注意力的图像处理方法的流程示意图;
图2是本发明提供的根据注意力机制确定第一特征图的自注意力的方法的流程示意图;
图3是本发明一些实施例提供的对第一特征图进行划块处理和特征提取的流程示意图;
图4是本发明另一些实施例提供的对第一特征图进行划块处理和特征提取的流程示意图;
图5是本发明一些实施例提供的对第二特征图进行划窗处理和自注意力计算的流程示意图;
图6是本发明一些实施例提供的通过输入图像得到第一特征图的流程示意图;
图7是本发明提供的基于可形变划块的局部自注意力的图像处理系统的组成结构示意图;
图8是本发明一些实施例提供的基于可形变划块的局部自注意力的图像处理系统的结构示意图;
图9是应用图8的图像处理系统进行划块处理和特征提取的流程示意图;
图10是应用图8的图像处理系统进行划窗处理和自注意力计算的流程示意图;
图11是本发明提供的电子设备的组成结构示意图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚,下面将结合本发明中的附图,对本发明中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
下面结合图1-图6描述本发明的基于可形变划块的局部自注意力的图像处理方法。
请参阅图1,图1是本发明提供的基于可形变划块的局部自注意力的图像处理方法的流程示意图,图1所示的基于可形变划块的局部自注意力的图像处理方法可以由基于可形变划块的局部自注意力的图像处理系统执行,基于可形变划块的局部自注意力的图像处理系统可以设置于智能手机、台式计算机、笔记型计算机、车载计算机、机器人、可穿戴式设备等,本发明实施例对此不作限定。如图1所示,该基于可形变划块的局部自注意力的图像处理方法至少包括:
101,对输入图像进行特征提取,得到第一特征图。
在本发明实施例中,输入图像是用于进行图像处理的图像,对输入图像进行的图像处理可以是图像分类、目标检测、语义分割等,本发明实施例对输入图像进行的图像处理类型不作限定。输入图像可以是通过摄像头、照相机、扫描仪等图像采集设备采集的图像,或者也可以是通过网络、数据库等其他方式获得的图像,本发明实施例对输入图像获取的方式不作限定。可以根据输入图像中的像素,通过对输入图像中的像素进行变换提取输入图像的特征,获得输入图像的第一特征图,例如,可以通过卷积或者下采样对输入图像的特征进行提取,获得输入图像的第一特征图,本发明实施例对获得输入图像的第一特征图的实现方法不作限定。可选地,在获取输入图像之后,可以首先对输入图像进行预处理,例如,对输入图像进行缩放、旋转、裁剪等预处理,然后对预处理得到的图像进行特征提取,得到输入图像的第一特征图,本发明实施例对输入图像进行预处理的类型不作限定。
102,确定第一特征图的自注意力,得到目标特征图。
在本发明实施例中,在获得输入图像的第一特征图之后,可以根据注意力机制进行计算,确定第一特征图的自注意力,获得输入图像的目标特征图。如图2所示,本发明提供的根据注意力机制确定第一特征图的自注意力的方法,可以包括以下步骤:201,对第一特征图进行划块处理,基于第一特征图预测划块处理得到的每个块的第一偏移值,基于第一偏移值对划块处理得到的每个块的范围进行修正;202,基于第一特征图中修正后的每个块进行特征提取,得到第二特征图;203,对第二特征图进行划窗处理,基于第二特征图预测划窗处理得到的每个窗口的第二偏移值,基于第二偏移值对划窗处理得到的每个窗口的范围进行修正;204,基于修正后的每个窗口确定第二特征图中每个块的自注意力,将确定自注意力后的特征图作为第一特征图或者目标特征图。
在本发明实施例中,在确定第一特征图的自注意力时,可以基于预先设定的划块规则,将第一特征图划分成若干个块,每个块在第一特征图上的大小和位置都是固定的,同时根据第一特征图预测划分得到的每个块的第一偏移值,根据预测的第一偏移值对划分得到的对应的块的范围进行修正,根据第一特征图改变块的大小和位置。在对第一特征图划分得到的每个块的范围进行修正之后,可以以修正后的每个块为单位,对修正后的每个块进行特征提取,获得输入图像的第二特征图,其中第二特征图中的块为第一特征图中修正后的块。
在本发明实施例中,划块处理得到的第一特征图中若干个块的形状和大小可以相同,或者也可以不同,本发明实施例对划块处理得到的块的形状和大小不作限定。可以根据划块处理得到的每个块的形状来确定根据第一特征图预测得到的每个块的第一偏移值的信息。例如,可以将第一特征图均匀地划分成若干个大小相同的矩形区域块,同时根据第一特征图预测划分得到的每个矩形区域块在横坐标和纵坐标上的第一偏移值,根据预测的横坐标和纵坐标的第一偏移值对划分得到的对应的矩形区域块的横坐标和纵坐标进行修正,根据第一特征图来调节每个矩形区域块的大小和位置,并以修正后的每个矩形区域块为单位,对修正后的每个矩形区域块进行特征提取,获得输入图像的第二特征图。
然后,可以基于预先设定的划窗规则,将第二特征图划分成若干个窗口,每个窗口包含至少二个第二特征图中的块,每个窗口在第二特征图上的大小和位置都是固定的,同时根据第二特征图预测划分得到的每个窗口的第二偏移值,根据预测的第二偏移值对划分得到的对应的窗口的范围进行修正,根据第二特征图改变窗口的大小和位置。在对第二特征图划分得到的每个窗口的范围进行修正之后,可以以修正后的每个窗口为单位,在修正后的每个窗口内,确定第二特征图中的块的自注意力,可以将确定自注意力后的特征图作为输入图像的第一特征图,继续从步骤201开始执行,或者将确定自注意力后的特征图作为输入图像的目标特征图,用来确定图像处理的结果。
在本发明实施例中,划窗处理得到的第二特征图中若干个窗口的形状和大小可以相同,或者也可以不同,本发明实施例对划窗处理得到的窗口的形状和大小不作限定。可以根据划窗处理得到的每个窗口的形状来确定根据第一特征图预测得到的每个窗口的第二偏移值的信息。例如,可以将第二特征图均匀地划分成若干个大小相同的矩形区域窗口,同时根据第二特征图预测划分得到的每个矩形区域窗口在横坐标和纵坐标上的第二偏移值,根据预测的横坐标和纵坐标的第二偏移值对划分得到的对应的矩形区域窗口的横坐标和纵坐标进行修正,根据第二特征图来调节每个矩形区域窗口的大小和位置,并以修正后的每个矩形区域窗口为单位,在修正后的每个矩形区域窗口内,确定第二特征图中的矩形区域块的自注意力,并将确定自注意力后的特征图作为第一特征图或者目标特征图。
103,基于目标特征图确定图像处理的结果。
在本发明实施例中,在获得输入图像的目标特征图之后,可以根据图像处理的类型,通过输入图像的目标特征图确定对应的图像处理结果。例如,图像处理的类型为图像分类,可以根据目标特征图得到输入图像的类型;图像处理的类型为目标检测,可以根据目标特征图从输入图像中将目标检测出来;图像处理的类型为语义分割,可以根据目标特征图得到输入图像的语义分割图像。
本发明实施例在确定图像的自注意力时,通过采用可形变的划块方法,参考特征图为每个块分别预测偏移值,并通过预测的偏移值分别对每个块的范围进行修正,可以使修正后的每个块的大小和位置由输入的特征图确定,具备了可变化性不再是固定的大小,可以适应同一图像中不同大小的物体,和同一物体的不同远近的图像,从中提取出一致的特征,获取更加完整、有意义的语义信息;通过采用区域自适应的窗口划分方法,参考特征图为每个窗口分别预测偏移值,并通过预测的偏移值分别对每个窗口的范围进行修正,可以使修正后的每个窗口的大小和位置由输入的特征图确定,可以自适应地将具有相似语义信息的块划分到同一个窗口内,使每个块只与其同一个窗口内的其他块进行注意力的计算,在减少自注意力计算量的同时,不过于损失特征的表征能力;实现了在不增加大量计算的情况下有效地提升模型的性能。
请参阅图3,图3是本发明一些实施例提供的对第一特征图进行划块处理和特征提取的流程示意图。如图3所示,对第一特征图进行划块处理和特征提取至少包括:
301,对第一特征图进行划块处理,基于第一特征图,预测划块处理得到的每个矩形块的两个对角顶点的横坐标和纵坐标的偏移值。
在本发明实施例中,可以基于预先设定的划块规则,将第一特征图划分成若干个 矩形区域块,此时每个矩形区域块在第一特征图上的大小和位置都是固定的,同时根据第 一特征图预测划分得到的每个矩形区域块的两个对角顶点的横坐标和纵坐标的偏移值
Figure 652447DEST_PATH_IMAGE001
,例如,两个对角顶点可以为每个矩形区域块的左上角顶点
Figure 727851DEST_PATH_IMAGE002
和右 下角顶点
Figure 924477DEST_PATH_IMAGE003
,或者两个对角顶点也可以为每个矩形区域块的右上角顶点
Figure 944385DEST_PATH_IMAGE004
和左 下角顶点
Figure 884660DEST_PATH_IMAGE005
,本发明实施例对预测每个矩形区域块的偏移值时所选取的对角顶点的类 型不作限定。
302,基于所预测的每个矩形块的两个对角顶点的横坐标和纵坐标的偏移值,对划块处理得到的对应的矩形块的两个对角顶点的横坐标和纵坐标分别进行修正。
在本发明实施例中,在通过第一特征图预测得到每个矩形区域块的两个对角顶点 的横坐标和纵坐标的偏移值之后,可以根据预测得到的每个矩形区域块的两个对角顶点的 横坐标和纵坐标的偏移值
Figure 814569DEST_PATH_IMAGE006
对第一特征图划分得到的对应的矩形区域块的两 个对角顶点的横坐标和纵坐标分别进行修正,根据修正后的每个矩形区域块的两个对角顶 点的横坐标和纵坐标,可以确定每个矩形区域块在第一特征图中修正后的大小和位置,例 如,当两个对角顶点为每个矩形区域块的左上角顶点
Figure 509993DEST_PATH_IMAGE007
和右下角顶点
Figure 954881DEST_PATH_IMAGE008
,修正后的 矩形区域块的左上角顶点和右下角顶点的坐标分别为
Figure 636529DEST_PATH_IMAGE009
Figure 545579DEST_PATH_IMAGE010
,当 两个对角顶点为每个矩形区域块的右上角顶点
Figure 84008DEST_PATH_IMAGE011
和左下角顶点
Figure 219454DEST_PATH_IMAGE012
时,修正后的矩形 区域块的右上角顶点和左下角顶点的坐标分别为
Figure 563848DEST_PATH_IMAGE013
Figure 265088DEST_PATH_IMAGE014
可选地,在人工神经网络模型中,预测每个块的偏移值可以通过添加一个新分支 来实现,例如,对于矩形区域块,可以通过公式1在整张特征图上对每个矩形区域块预测一 组偏移值
Figure 443259DEST_PATH_IMAGE015
,公式1如下:
Figure 659477DEST_PATH_IMAGE016
(公式1)
其中,
Figure 745245DEST_PATH_IMAGE017
为特征图,
Figure 504253DEST_PATH_IMAGE018
Figure 712381DEST_PATH_IMAGE019
为卷积处理得到的特征向量。
303,基于预先设定的每个矩形块内采样点的数量,通过双线性插值确定第一特征图中修正后的每个矩形块内采样点的位置。
在本发明实施例中,在通过预测得到的每个矩形区域块的两个对角顶点的横坐标 和纵坐标偏移值,对对应的矩形区域块的两个对角顶点的横坐标和纵坐标分别进行修正之 后,由于每个矩形区域块内采样点的数量为预先设定的,即
Figure 556840DEST_PATH_IMAGE020
超参数,不根据每个矩形区域 块的大小的改变而改变,并且对每个矩形区域块是均匀采样,即每个矩形区域块的
Figure 180719DEST_PATH_IMAGE021
个采 样点是均匀分布于该矩形区域块内,因此可以根据预先设定的每个矩形块内采样点的数量
Figure 184447DEST_PATH_IMAGE021
,通过双线性插值确定第一特征图中修正后的每个矩形区域块内采样点的位置。
304,基于所确定的采样点的位置,对第一特征图中修正后的每个矩形块进行特征提取,得到第二特征图。
在本发明实施例中,在确定第一特征图中修正后的每个矩形区域块内采样点的位置之后,可以根据所确定的第一特征图中修正后的每个矩形区域块内采样点的位置,对第一特征图中修正后的每个矩形区域块进行特征提取,获得第一特征图中修正后的每个矩形区域块内每个采样点的特征,从而得到第一特征图中修正后的每个矩形区域块可以用来表征整个矩形区域块的特征,进而得到与第一特征图对应的第二特征图。
请参阅图4,图4是本发明另一些实施例提供的对第一特征图进行划块处理和特征提取的流程示意图。如图4所示,对第一特征图进行划块处理和特征提取至少包括:
401,对第一特征图进行划块处理,基于第一特征图预测划块处理得到的每个块的第一偏移值和一组掩码值,基于第一偏移值对划块处理得到的每个块的范围进行修正。
402,基于第一特征图中修正后的每个块进行特征提取,基于掩码值对修正后的每个块所提取的特征进行修正,得到第二特征图。
在本发明实施例中,由于并非所有的采样点都具有相等的表征能力,部分采样点可能是冗余的甚至会损害表征性能,因此在对第一特征图进行划块处理,根据第一特征图预测划块处理得到的每个块的第一偏移值时,可以同时根据第一特征图预测划块处理得到的每个块的一组掩码值,以在对第一特征图中修正后的每个块进行特征提取之后,根据预测得到的一组掩码值对对应的修正后的块所提取的特征进行修正,通过掩码值对采样点采样的特征进行修正,来对不同采样点的表征能力进行区分,可以减小冗余采样点和损害表征性能的采样点的表征能力。
本发明实施例对预测得到的每个块的一组掩码值的数量和大小不作限定。可选地,预测得到的每个块的一组掩码值的数量可以与预先设定的每个块内采样点的数量相同,掩码值的大小可以介于0到1之间,可以通过将预测得到的每个块的一组掩码值分别与对应的修正后的块内的每个采样点相乘,将相乘得到的特征作为最后用来表征修正后的每个块的特征。
可选地,在人工神经网络模型中,预测每个块的一组掩码值可以通过添加一个新 分支来实现,例如,可以通过公式2在整张特征图上对每个块预测一组掩码值
Figure 438842DEST_PATH_IMAGE022
,公式2如下:
Figure 567335DEST_PATH_IMAGE023
(公式2)
其中,
Figure 57222DEST_PATH_IMAGE024
为特征图,
Figure 525244DEST_PATH_IMAGE025
Figure 12857DEST_PATH_IMAGE019
为卷积处理得到的特征 向量,
Figure 690963DEST_PATH_IMAGE026
在得到预测得到每个块的一组掩码值
Figure 125487DEST_PATH_IMAGE022
之后,可以根据公式3,对每个 块的特征进行修正,公式3如下:
Figure 510332DEST_PATH_IMAGE027
(公式3)
其中,
Figure 231163DEST_PATH_IMAGE028
采样点i的特征,
Figure 68669DEST_PATH_IMAGE029
采样点i的特征,
Figure 41304DEST_PATH_IMAGE030
请参阅图5,图5是本发明一些实施例提供的对第二特征图进行划窗处理和自注意力计算的流程示意图。如图5所示,对第二特征图进行窗块处理和自注意力计算至少包括:
501,对第二特征图进行划窗处理,基于第二特征图,预测划窗处理得到的每个矩形窗口的两个对角顶点的横坐标和纵坐标的偏移值。
在本发明实施例中,可以基于预先设定的划窗规则,将第二特征图划分成若干个 矩形区域窗口,使每个矩形区域窗口包含至少二个第二特征图中的矩形区域块,此时每个 矩形区域窗口在第二特征图上的大小和位置都是固定的,同时根据第二特征图预测划分得 到的每个矩形区域窗口的两个对角顶点的横坐标和纵坐标的偏移值
Figure 608552DEST_PATH_IMAGE031
,例如,两个对角顶点可以为每个矩形区域窗口的左上角顶点
Figure 375651DEST_PATH_IMAGE032
和右下角顶点
Figure 966032DEST_PATH_IMAGE033
,或者两个对角顶点也可以为每个矩形区域窗口的右 上角顶点
Figure 601413DEST_PATH_IMAGE034
和左下角顶点
Figure 898533DEST_PATH_IMAGE035
,本发明实施例对预测每个矩形区域窗口的 偏移值时所选取的对角顶点的类型不作限定。
502,基于所预测的每个矩形窗口的两个对角顶点的横坐标和纵坐标的偏移值,对划窗处理得到的对应的矩形窗口的两个对角顶点的横坐标和纵坐标分别进行修正。
在本发明实施例中,在通过第二特征图预测得到每个矩形区域窗口的两个对角顶 点的横坐标和纵坐标的偏移值之后,可以根据预测得到的每个矩形区域窗口的两个对角顶 点的横坐标和纵坐标的偏移值
Figure 898850DEST_PATH_IMAGE036
对第二特征图划分得到的对应的矩形 区域窗口的两个对角顶点的横坐标和纵坐标分别进行修正,根据修正后的每个矩形区域窗 口的两个对角顶点的横坐标和纵坐标,可以确定每个矩形区域窗口在第二特征图中修正后 的大小和位置,例如,当两个对角顶点为每个矩形区域窗口的左上角顶点
Figure 773265DEST_PATH_IMAGE037
和右下 角顶点
Figure 150020DEST_PATH_IMAGE038
,修正后的矩形区域块的左上角顶点和右下角顶点的坐标分别为
Figure 567226DEST_PATH_IMAGE039
Figure 800761DEST_PATH_IMAGE040
,当两个对角顶点为每个矩形区域块的右上角 顶点
Figure 100155DEST_PATH_IMAGE041
和左下角顶点
Figure 218284DEST_PATH_IMAGE042
时,修正后的矩形区域块的右上角顶点和左下角顶点 的坐标分别为
Figure 349051DEST_PATH_IMAGE043
Figure 894433DEST_PATH_IMAGE044
503,基于划窗处理得到的每个矩形窗口内矩形块的相对位置编码,通过双线性插值确定修正后的每个矩形窗口内矩形块的相对位置编码。
在本发明实施例中,在划窗处理之后,可以通过计算同一个矩形区域窗口内两个 矩形区域块之间的相对位置,确定第二特征图中每个矩形区域窗口的相对位置编码
Figure 669405DEST_PATH_IMAGE045
,相对 位置编码
Figure 184700DEST_PATH_IMAGE045
对应于二维空间中一个确定的物理距离。由于经过修正后的每个矩形区域窗口 的大小和位置会发生变化,为了使每个矩形区域窗口的相对位置编码
Figure 576498DEST_PATH_IMAGE045
可以适应修正后的 矩形区域窗口,在通过预测得到的每个矩形区域窗口的两个对角顶点的横坐标和纵坐标偏 移值,对对应的矩形区域窗口的两个对角顶点的横坐标和纵坐标分别进行修正之后,可以 根据第二特征图中每个矩形区域窗口内每个矩形区域块的相对位置编码,通过双线性插值 确定第二特征图中修正后的每个矩形区域窗口内每个矩形区域块的相对位置编码,使通过 双线性插值得到的相对位置编码可以与修正后的矩形区域窗口保持一致。
可选地,在人工神经网络模型中,对于修正后的每个矩形区域窗口,可以通过公式 4计算相对位置编码
Figure 89519DEST_PATH_IMAGE046
,公式4如下:
Figure 691401DEST_PATH_IMAGE047
(公式4)
其中,
Figure 885753DEST_PATH_IMAGE048
为划窗处理得到的每个窗口内矩形区域块的 集合,
Figure 928796DEST_PATH_IMAGE049
}为修正后的每个窗口内矩形区域块 的集合,
Figure 940614DEST_PATH_IMAGE050
为双线性插值函数。
504,基于所确定的相对位置编码,在修正后的每个矩形窗口内,确定第二特征图中每个矩形块的自注意力,将确定自注意力后的特征图作为第一特征图或者目标特征图。
在本发明实施例中,在确定第二特征图中修正后的每个矩形区域窗口
Figure 374001DEST_PATH_IMAGE051
内矩形区 域块的相对位置编码之后,可以将第二特征图中修正后的每个矩形区域窗口确定为自注意 力计算范围,在第二特征图中修正后的每个矩形区域窗口内,通过查表的方式,确定与划窗 处理得到的每个矩形区域窗口
Figure 434361DEST_PATH_IMAGE052
内的矩形区域块相关的矩形区域块,即从集合
Figure 659805DEST_PATH_IMAGE052
中提取查询
Figure 717891DEST_PATH_IMAGE053
,从集合
Figure 294366DEST_PATH_IMAGE054
中提取键
Figure 96100DEST_PATH_IMAGE055
、值
Figure 176052DEST_PATH_IMAGE056
,进行自相关运算,从而得到第二特征图中修正后的每个矩 形区域窗口的局部自注意力,并将确定自注意力后的特征图作为第一特征图或者目标特征 图。
可选地,在人工神经网络模型中,对于修正后的每个矩形区域窗口,可以通过公式5计算局部自注意力,公式5如下:
Figure 670618DEST_PATH_IMAGE057
(公式5)
其中
Figure 203230DEST_PATH_IMAGE058
为自注意力,
Figure 808655DEST_PATH_IMAGE059
为归一化指数函数。
请参阅图6,图6是本发明一些实施例提供的通过输入图像得到第一特征图的流程示意图。如图6所示,通过输入图像得到第一特征图至少包括:
601,对输入图像进行划块处理。
602,通过线性变换对划块处理得到的每个块进行特征提取处理,得到具有目标通道数的第三特征图。
603,对第三特征图进行划窗处理,基于第三特征图预测划窗处理得到的每个窗口的第二偏移值,基于第二偏移值对划窗处理得到的每个窗口的范围进行修正。
604,基于修正后的每个窗口确定第三特征图中每个块的自注意力,得到第一特征图。
在本发明实施例中,在获得输入图像的第一特征图时,可以首先可以基于预先设定的划块规则,将输入图像划分成若干个块,每个块在输入图像上的大小和位置都是固定的;然后通过线性变换对划块处理得到的每个块进行特征提取,获得具有目标通道数的第三特征图;之后基于预先设定的划窗规则,将第三特征图划分成若干个窗口,每个窗口包含至少二个第三特征图中的块,每个窗口在第三特征图上的大小和位置都是固定的,同时根据第四特征图预测划分得到的每个窗口的第二偏移值,根据预测的第二偏移值对划分得到的对应的窗口的范围进行修正,根据第三特征图改变窗口的大小和位置;最后以修正后的每个窗口为单位,在修正后的每个窗口内,确定第三特征图中的块的自注意力,获得输入图像的第一特征图。
例如,可以将输入图像均匀地划分成若干个大小相同的矩形区域块,通过线性变换对划块处理得到的每个矩形区域块进行特征提取,获得具有目标通道数的第三特征图;可以将第三特征图均匀地划分成若干个大小相同的矩形区域窗口,同时根据第三特征图预测划分得到的每个矩形区域窗口在横坐标和纵坐标上的第二偏移值,根据预测的横坐标和纵坐标的第二偏移值对划分得到的对应的矩形区域窗口的横坐标和纵坐标进行修正,根据第三特征图来调节每个矩形区域窗口的大小和位置,并以修正后的每个矩形区域窗口为单位,在修正后的每个矩形区域窗口内,确定第三特征图中的矩形区域块的自注意力,获得输入图像的第一特征图。
下面对本发明提供的基于可形变划块的局部自注意力的图像处理系统进行描述,下文描述的基于可形变划块的局部自注意力的图像处理系统与上文描述的基于可形变划块的局部自注意力的图像处理方法可相互对应参照。
请参阅图7,图7是本发明提供的基于可形变划块的局部自注意力的图像处理系统的组成结构示意图,图7所示的基于可形变划块的局部自注意力的图像处理系统可用来执行图1的基于可形变划块的局部自注意力的图像处理方法,如图7所示,该基于可形变划块的局部自注意力的图像处理系统至少包括:
特征提取模块710,用于对输入图像进行特征提取,得到第一特征图.
自注意力计算模块720,用于确定第一特征图的自注意力,得到目标特征图。
结果确定模块730,用于基于目标特征图确定图像处理的结果。
其中,自注意力计算模块720,包括:
可形变划块单元721,用于对第一特征图进行划块处理,基于第一特征图预测划块处理得到的每个块的第一偏移值,基于第一偏移值对划块处理得到的每个块的范围进行修正。
特征提取单元722,用于基于第一特征图中修正后的每个块进行特征提取,得到第二特征图。
自适应划窗单元723,用于对第二特征图进行划窗处理,基于第二特征图预测划窗处理得到的每个窗口的第二偏移值,基于第二偏移值对划窗处理得到的每个窗口的范围进行修正。
自注意力计算单元724,用于基于修正后的每个窗口确定第二特征图中每个块的自注意力,将确定自注意力后的特征图作为第一特征图或者目标特征图。
可选地,可形变划块单元721,包括:
第一子单元,用于对第一特征图进行划块处理,基于第一特征图,预测划块处理得到的每个矩形块的两个对角顶点的横坐标和纵坐标的偏移值。
第二子单元,用于基于所预测的每个矩形块的两个对角顶点的横坐标和纵坐标的偏移值,对划块处理得到的对应的矩形块的两个对角顶点的横坐标和纵坐标分别进行修正。
特征提取单元722,包括:
第三子单元,用于基于预先设定的每个矩形块内采样点的数量,通过双线性插值确定第一特征图中修正后的每个矩形块内采样点的位置。
第四子单元,用于基于所确定的采样点的位置,对第一特征图中修正后的每个矩形块进行特征提取,得到第二特征图。
可选地,可形变划块单元721,用于对第一特征图进行划块处理,基于第一特征图预测划块处理得到的每个块的第一偏移值和一组掩码值,基于第一偏移值对划块处理得到的每个块的范围进行修正。
特征提取单元722,用于基于第一特征图中修正后的每个块进行特征提取,基于掩码值对修正后的每个块所提取的特征进行修正,得到第二特征图。
可选地,预测得到的每个块的一组掩码值的数量与预先设定的每个块内采样点的数量相同,掩码值的大小介于0到1之间。
可选地,自适应划窗单元723,包括:
第五子单元,用于对第二特征图进行划窗处理,基于第二特征图,预测划窗处理得到的每个矩形窗口的两个对角顶点的横坐标和纵坐标的偏移值。
第六子单元,用于基于所预测的每个矩形窗口的两个对角顶点的横坐标和纵坐标的偏移值,对划窗处理得到的对应的矩形窗口的两个对角顶点的横坐标和纵坐标分别进行修正。
自注意力计算单元724,包括:
第七子单元,用于基于划窗处理得到的每个矩形窗口内矩形块的相对位置编码,通过双线性插值确定修正后的每个矩形窗口内矩形块的相对位置编码。
第八子单元,用于基于所确定的相对位置编码,在修正后的每个矩形窗口内,确定第二特征图中每个矩形块的自注意力,将确定自注意力后的特征图作为第一特征图或者目标特征图。
可选地,特征提取模块710,包括:
划块单元,用于对输入图像进行划块处理。
线性变换单元,用于通过线性变换对划块处理得到的每个块进行特征提取处理,得到具有目标通道数的第三特征图。
自适应划窗单元723,用于对第三特征图进行划窗处理,基于第三特征图预测划窗处理得到的每个窗口的第二偏移值,基于第二偏移值对划窗处理得到的每个窗口的范围进行修正。
自注意力计算单元724,用于基于修正后的每个窗口确定第三特征图中每个块的自注意力,得到第一特征图。
请参阅图8、图9和图10,图8是本发明一些实施例提供的基于可形变划块的局部自注意力的图像处理系统的结构示意图,图9是应用图8的图像处理系统进行划块处理和特征提取的流程示意图,图10是应用图8的图像处理系统进行划窗处理和自注意力计算的流程示意图。
可以将本发明提供的基于可形变划块的局部自注意力的图像处理方法应用于Swin-Transformer模型,Swin-Transformer模型是一个类金字塔形的多阶段自注意力模型。该模型首先在第一阶段将图像切分成若干个4x4的矩形块,然后在后续每个阶段开始将相邻的2x2个矩形块聚合成一个新的矩形块,来实现划块,在每个阶段的自注意力模块中,均采用了相同大小的矩形窗口的局部自注意力机制,以保证计算量随着空间分辨率增加复杂度只会以线性关系上升。
如图8所示,Swin-Transformer模型包括4个阶段,即Stage1至Stage4,在Swin-Transformer模型的基础上,可以将Swin-Transformer模型的Stage2至Stage4中的块聚合划块操作用本发明提供的可变形下采样划块代替,可以将Swin-Transformer模型的Stage1至Stage4中的固定窗局部自注意力模块用本发明提供的自适应窗局部自注意力模块代替。这两种替换几乎不会增加模型的计算量,但是会帮助模型更好地捕获输入图像的语义信息,并根据输入调节划块、划窗的具体方法,可以保证获得完整且具有判别力的特征,从而大幅度提升模型的性能。
以ImageNet图像数据集为例,将ImageNet图像数据集中的图像输入图8中的模型,
步骤1:首先将输入图像缩放到224x224像素,然后通过划块操作与线性编码层将每个块转换为向量特征,得到具有目标通道数C的特征图。
步骤2:将步骤1得到的特征图送入第一阶段的自适应窗局部自注意力模块,通过单个线性预测单元预测每个局部矩形窗上、下、左、右侧边缘的偏移值,并根据预测的偏移值确定自适应窗局部自注意力模块的每个局部矩形窗的划窗范围。
步骤3:在步骤2得到的划窗范围内进行局部自注意力的相关计算,利用该计算对特征图中的特征进行处理,同一个阶段内自适应窗局部自注意力模块得到的多个局部矩形窗重复进行该计算,进行多次特征处理,得到新的特征图。
如图10所示,在图10的左侧为原始固定窗局部自注意力的窗口在图像中的示意 图,其中A、B、C、D四个区域分别为正方形的固定窗口,每个固定窗口的大小相同、位置固定, 每个固定窗口均包含
Figure 743113DEST_PATH_IMAGE060
个正方形块,a、b、c、d分别为A、B、C、D四个窗口内的一个正方形块; 在图10的右侧为自适应窗局部自注意力的窗口在图像中的示意图,其中A’、B’、C’、D’四个 区域分别为长方形的自适应窗口,每个自适应窗口的大小不同,位置可变,每个自适应窗口 包含的正方形块的数量不同,a’、b’、c’、d’分别为A’、B’、C’、D’四个窗口内的一个正方形 块。
步骤4:在第二阶段至第四阶段,前一阶段得到的特征图送入可变形下采样操作来 降低分辨率,通过单个线性预测单元预测每个矩形块的位置偏移值
Figure 408581DEST_PATH_IMAGE061
,并 根据预测的偏移值确定可变形下采样操作的每个矩形块的位置和大小,从而确定需要处理 的特征。
如图9所示,可变形下采样操作可以根据输入的特征图预测一组偏移值
Figure 694069DEST_PATH_IMAGE061
,通过偏移值确定特征图中正方形块E的位置和大小,对所确定的正方形 块E进行
Figure 634343DEST_PATH_IMAGE062
,通过掩码值对
Figure 564253DEST_PATH_IMAGE063
内采样点的特征
Figure 525256DEST_PATH_IMAGE064
,并通过线性 层进行线性变换,得到新的特征图。
步骤5:重复步骤2至步骤4,分别在第二、三、四阶段中依次进行可变形下采样操作和通过自适应窗局部自注意力模块进行自注意力计算,从而提取到更好的图像的最终特征。
步骤6:将图像的最终特征,送入softmax线性分类器中进行图像分类。
经过试验证明在同等计算条件下,采用现有的Swin-Transformer模型进行图像处理,得到的图像处理的精度为75.1%,采用本发明提供的基于可形变划块的局部自注意力的图像处理方法的Swin-Transformer模型进行图像处理,得到的图像处理的精度为77.4%,可见网络的性能得到了显著地提升。
图11示例了一种电子设备的实体结构示意图,如图11所示,该电子设备可以包括:处理器(processor)1110、通信接口(CommunicationsInterface)1120、存储器(memory)1130和通信总线1140,其中,处理器1110,通信接口1120,存储器1130通过通信总线1140完成相互间的通信。处理器1110可以调用存储器1130中的逻辑指令,以执行基于可形变划块的局部自注意力的图像处理方法,该方法包括:
对输入图像进行特征提取,得到第一特征图;
确定所述第一特征图的自注意力,得到目标特征图;
基于所述目标特征图确定图像处理的结果;
其中,所述确定所述第一特征图的自注意力,得到目标特征图,包括:
对所述第一特征图进行划块处理,基于所述第一特征图预测划块处理得到的每个块的第一偏移值,基于所述第一偏移值对划块处理得到的每个块的范围进行修正;
基于所述第一特征图中修正后的每个块进行特征提取,得到第二特征图;
对所述第二特征图进行划窗处理,基于所述第二特征图预测划窗处理得到的每个窗口的第二偏移值,基于所述第二偏移值对划窗处理得到的每个窗口的范围进行修正;
基于修正后的每个窗口确定所述第二特征图中每个块的自注意力,将确定自注意力后的特征图作为所述第一特征图或者所述目标特征图。
此外,上述的存储器1130中的逻辑指令可以通过软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-OnlyMemory)、随机存取存储器(RAM,RandomAccessMemory)、磁碟或者光盘等各种可以存储程序代码的介质。
另一方面,本发明还提供一种计算机程序产品,所述计算机程序产品包括存储在非暂态计算机可读存储介质上的计算机程序,所述计算机程序包括程序指令,当所述程序指令被计算机执行时,计算机能够执行上述各方法实施例提供的基于可形变划块的局部自注意力的图像处理方法,该方法包括:
对输入图像进行特征提取,得到第一特征图;
确定所述第一特征图的自注意力,得到目标特征图;
基于所述目标特征图确定图像处理的结果;
其中,所述确定所述第一特征图的自注意力,得到目标特征图,包括:
对所述第一特征图进行划块处理,基于所述第一特征图预测划块处理得到的每个块的第一偏移值,基于所述第一偏移值对划块处理得到的每个块的范围进行修正;
基于所述第一特征图中修正后的每个块进行特征提取,得到第二特征图;
对所述第二特征图进行划窗处理,基于所述第二特征图预测划窗处理得到的每个窗口的第二偏移值,基于所述第二偏移值对划窗处理得到的每个窗口的范围进行修正;
基于修正后的每个窗口确定所述第二特征图中每个块的自注意力,将确定自注意力后的特征图作为所述第一特征图或者所述目标特征图。
又一方面,本发明还提供一种非暂态计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现以执行上述各方法实施例提供的基于可形变划块的局部自注意力的图像处理方法,该方法包括:
对输入图像进行特征提取,得到第一特征图;
确定所述第一特征图的自注意力,得到目标特征图;
基于所述目标特征图确定图像处理的结果;
其中,所述确定所述第一特征图的自注意力,得到目标特征图,包括:
对所述第一特征图进行划块处理,基于所述第一特征图预测划块处理得到的每个块的第一偏移值,基于所述第一偏移值对划块处理得到的每个块的范围进行修正;
基于所述第一特征图中修正后的每个块进行特征提取,得到第二特征图;
对所述第二特征图进行划窗处理,基于所述第二特征图预测划窗处理得到的每个窗口的第二偏移值,基于所述第二偏移值对划窗处理得到的每个窗口的范围进行修正;
基于修正后的每个窗口确定所述第二特征图中每个块的自注意力,将确定自注意力后的特征图作为所述第一特征图或者所述目标特征图。
以上所描述的装置实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下,即可以理解并实施。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件。基于这样的理解,上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在计算机可读存储介质中,如ROM/RAM、磁碟、光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。
最后应说明的是:以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims (8)

1.一种基于可形变划块的局部自注意力的图像处理方法,其特征在于,包括:
对输入图像进行特征提取,得到第一特征图;
确定所述第一特征图的自注意力,得到目标特征图;
基于所述目标特征图确定图像处理的结果;
其中,所述确定所述第一特征图的自注意力,得到目标特征图,包括:
对所述第一特征图进行划块处理,基于所述第一特征图预测划块处理得到的每个块的第一偏移值和一组掩码值,基于所述第一偏移值对划块处理得到的每个块的范围进行修正;
基于所述第一特征图中修正后的每个块进行特征提取,基于所述掩码值对修正后的每个块所提取的特征进行修正,得到第二特征图;
对所述第二特征图进行划窗处理,基于所述第二特征图预测划窗处理得到的每个窗口的第二偏移值,基于所述第二偏移值对划窗处理得到的每个窗口的范围进行修正;
基于修正后的每个窗口确定所述第二特征图中每个块的自注意力,基于确定自注意力后的特征图得到所述目标特征图;
其中,对所述第一特征图进行划块处理,基于所述第一特征图预测划块处理得到的每个块的第一偏移值和一组掩码值,基于所述第一偏移值对划块处理得到的每个块的范围进行修正,包括:
对所述第一特征图进行划块处理,基于所述第一特征图,预测划块处理得到的每个矩形块的两个对角顶点的横坐标和纵坐标的偏移值和与预先设定的每个块内采样点的数量相同的一组掩码值;
基于所预测的每个矩形块的两个对角顶点的横坐标和纵坐标的偏移值,对划块处理得到的对应的矩形块的两个对角顶点的横坐标和纵坐标分别进行修正;
所述对所述第二特征图进行划窗处理,基于所述第二特征图预测划窗处理得到的每个窗口的第二偏移值,基于所述第二偏移值对划窗处理得到的每个窗口的范围进行修正,包括:
对所述第二特征图进行划窗处理,基于所述第二特征图,预测划窗处理得到的每个矩形窗口的两个对角顶点的横坐标和纵坐标的偏移值;
基于所预测的每个矩形窗口的两个对角顶点的横坐标和纵坐标的偏移值,对划窗处理得到的对应的矩形窗口的两个对角顶点的横坐标和纵坐标分别进行修正。
2.根据权利要求1所述的基于可形变划块的局部自注意力的图像处理方法,其特征在于,所述基于所述第一特征图中修正后的每个块进行特征提取,基于所述掩码值对修正后的每个块所提取的特征进行修正,得到第二特征图,包括:
基于预先设定的每个矩形块内采样点的数量,通过双线性插值确定所述第一特征图中修正后的每个矩形块内采样点的位置;
基于所确定的采样点的位置,对所述第一特征图中修正后的每个矩形块进行特征提取;
基于所述掩码值对修正后的每个矩形块所提取的特征进行修正,得到所述第二特征图。
3.根据权利要求2所述的基于可形变划块的局部自注意力的图像处理方法,其特征在于,所述掩码值的大小介于0到1之间。
4.根据权利要求1至3任一项所述的基于可形变划块的局部自注意力的图像处理方法,其特征在于,所述基于修正后的每个窗口确定所述第二特征图中每个块的自注意力,基于确定自注意力后的特征图得到所述目标特征图,包括:
基于划窗处理得到的每个矩形窗口内矩形块的相对位置编码,通过双线性插值确定修正后的每个矩形窗口内矩形块的相对位置编码;
基于所确定的相对位置编码,在修正后的每个矩形窗口内,确定所述第二特征图中每个矩形块的自注意力,基于确定自注意力后的特征图得到所述目标特征图。
5.根据权利要求4所述的基于可形变划块的局部自注意力的图像处理方法,其特征在于,所述对输入图像进行特征提取,得到第一特征图,包括:
对所述输入图像进行划块处理;
通过线性变换对划块处理得到的每个块进行特征提取处理,得到具有目标通道数的第三特征图;
对所述第三特征图进行划窗处理,基于所述第三特征图预测划窗处理得到的每个窗口的第二偏移值,基于所述第二偏移值对划窗处理得到的每个窗口的范围进行修正;
基于修正后的每个窗口确定所述第三特征图中每个块的自注意力,得到所述第一特征图。
6.一种基于可形变划块的局部自注意力的图像处理系统,其特征在于,包括:
特征提取模块,用于对输入图像进行特征提取,得到第一特征图;
自注意力计算模块,用于确定所述第一特征图的自注意力,得到目标特征图;
结果确定模块,用于基于所述目标特征图确定图像处理的结果;
其中,所述自注意力计算模块,包括:
可形变划块单元,用于对所述第一特征图进行划块处理,基于所述第一特征图预测划块处理得到的每个块的第一偏移值和一组掩码值,基于所述第一偏移值对划块处理得到的每个块的范围进行修正;
特征提取单元,用于基于所述第一特征图中修正后的每个块进行特征提取,基于所述掩码值对修正后的每个块所提取的特征进行修正,得到第二特征图;
自适应划窗单元,用于对所述第二特征图进行划窗处理,基于所述第二特征图预测划窗处理得到的每个窗口的第二偏移值,基于所述第二偏移值对划窗处理得到的每个窗口的范围进行修正;
自注意力计算单元,用于基于修正后的每个窗口确定所述第二特征图中每个块的自注意力,基于确定自注意力后的特征图得到所述目标特征图;
其中,所述可形变划块单元,包括:
第一子单元,用于对所述第一特征图进行划块处理,基于所述第一特征图,预测划块处理得到的每个矩形块的两个对角顶点的横坐标和纵坐标的偏移值和与预先设定的每个块内采样点的数量相同的一组掩码值;
第二子单元,用于基于所预测的每个矩形块的两个对角顶点的横坐标和纵坐标的偏移值,对划块处理得到的对应的矩形块的两个对角顶点的横坐标和纵坐标分别进行修正;
所述自适应划窗单元,包括:
第五子单元,用于对所述第二特征图进行划窗处理,基于所述第二特征图,预测划窗处理得到的每个矩形窗口的两个对角顶点的横坐标和纵坐标的偏移值;
第六子单元,用于基于所预测的每个矩形窗口的两个对角顶点的横坐标和纵坐标的偏移值,对划窗处理得到的对应的矩形窗口的两个对角顶点的横坐标和纵坐标分别进行修正。
7.一种电子设备,包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现如权利要求1至5任一项所述基于可形变划块的局部自注意力的图像处理方法的步骤。
8.一种非暂态计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1至5任一项所述基于可形变划块的局部自注意力的图像处理方法的步骤。
CN202111575874.6A 2021-12-22 2021-12-22 基于可形变划块的局部自注意力的图像处理方法和系统 Active CN113963009B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111575874.6A CN113963009B (zh) 2021-12-22 2021-12-22 基于可形变划块的局部自注意力的图像处理方法和系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111575874.6A CN113963009B (zh) 2021-12-22 2021-12-22 基于可形变划块的局部自注意力的图像处理方法和系统

Publications (2)

Publication Number Publication Date
CN113963009A CN113963009A (zh) 2022-01-21
CN113963009B true CN113963009B (zh) 2022-03-18

Family

ID=79473642

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111575874.6A Active CN113963009B (zh) 2021-12-22 2021-12-22 基于可形变划块的局部自注意力的图像处理方法和系统

Country Status (1)

Country Link
CN (1) CN113963009B (zh)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115239765B (zh) * 2022-08-02 2024-03-29 合肥工业大学 基于多尺度可形变注意力的红外图像目标跟踪系统及方法
CN115880567B (zh) * 2023-03-03 2023-07-25 深圳精智达技术股份有限公司 一种自注意力的计算方法、装置、电子设备和存储介质

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111178432A (zh) * 2019-12-30 2020-05-19 武汉科技大学 多分支神经网络模型的弱监督细粒度图像分类方法
CN113361537A (zh) * 2021-07-23 2021-09-07 人民网股份有限公司 基于通道注意力的图像语义分割方法及装置
CN113379819A (zh) * 2020-03-09 2021-09-10 辉达公司 使用神经网络来扩展图像的技术
CN113709455A (zh) * 2021-09-27 2021-11-26 北京交通大学 一种使用Transformer的多层次图像压缩方法

Family Cites Families (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9015071B2 (en) * 2000-09-08 2015-04-21 Intelligent Technologies International, Inc. Asset monitoring using the internet
RU2669412C1 (ru) * 2017-09-20 2018-10-11 Общество с ограниченной ответственностью "Научно-производственное предприятие "РостТех" (ООО "НПП "РостТех") Устройство для установки металлического пластыря в наклонно-направленных и горизонтальных участках нефтяных и газовых скважин
CN110060236B (zh) * 2019-03-27 2023-08-11 天津大学 基于深度卷积神经网络的立体图像质量评价方法
US11189028B1 (en) * 2020-05-15 2021-11-30 Retrace Labs AI platform for pixel spacing, distance, and volumetric predictions from dental images
US11366985B2 (en) * 2020-05-15 2022-06-21 Retrace Labs Dental image quality prediction platform using domain specific artificial intelligence
CN110648334A (zh) * 2019-09-18 2020-01-03 中国人民解放军火箭军工程大学 一种基于注意力机制的多特征循环卷积显著性目标检测方法
CN112785486A (zh) * 2019-11-07 2021-05-11 英特尔公司 用于图像去噪声的自适应可变形核预测网络
CN111861880B (zh) * 2020-06-05 2022-08-30 昆明理工大学 基于区域信息增强与块自注意力的图像超分与融合方法
CN112668469A (zh) * 2020-12-28 2021-04-16 西安电子科技大学 基于深度学习的多目标检测识别方法
CN113361567B (zh) * 2021-05-17 2023-10-31 上海壁仞智能科技有限公司 图像处理方法、装置、电子设备和存储介质
CN113674334B (zh) * 2021-07-06 2023-04-18 复旦大学 基于深度自注意力网络和局部特征编码的纹理识别方法
CN113537027B (zh) * 2021-07-09 2023-09-01 中国科学院计算技术研究所 基于面部划分的人脸深度伪造检测方法及系统
CN113723553A (zh) * 2021-09-07 2021-11-30 中国科学院软件研究所 一种基于选择性密集注意力的违禁物品检测方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111178432A (zh) * 2019-12-30 2020-05-19 武汉科技大学 多分支神经网络模型的弱监督细粒度图像分类方法
CN113379819A (zh) * 2020-03-09 2021-09-10 辉达公司 使用神经网络来扩展图像的技术
CN113361537A (zh) * 2021-07-23 2021-09-07 人民网股份有限公司 基于通道注意力的图像语义分割方法及装置
CN113709455A (zh) * 2021-09-27 2021-11-26 北京交通大学 一种使用Transformer的多层次图像压缩方法

Also Published As

Publication number Publication date
CN113963009A (zh) 2022-01-21

Similar Documents

Publication Publication Date Title
US11488308B2 (en) Three-dimensional object detection method and system based on weighted channel features of a point cloud
CN108664981B (zh) 显著图像提取方法及装置
CN113963009B (zh) 基于可形变划块的局部自注意力的图像处理方法和系统
CN110853047A (zh) 智能图像分割及分类方法、装置及计算机可读存储介质
CN110570440A (zh) 一种基于深度学习边缘检测的图像自动分割方法及装置
CN108961180B (zh) 红外图像增强方法及系统
CN111627015B (zh) 小样本缺陷识别方法、装置、设备及存储介质
US11328184B2 (en) Image classification and conversion method and device, image processor and training method therefor, and medium
CN106169174B (zh) 一种图像放大方法
CN110942071A (zh) 一种基于车牌分类和lstm的车牌识别方法
Park 2D discrete Fourier transform on sliding windows
CN112233129B (zh) 基于深度学习的并行多尺度注意力机制语义分割方法及装置
CN110348531B (zh) 具有分辨率适应性的深度卷积神经网络构建方法及应用
CN111179270A (zh) 基于注意力机制的图像共分割方法和装置
Zhang et al. A GPU-accelerated real-time single image de-hazing method using pixel-level optimal de-hazing criterion
CN110136061B (zh) 一种基于深度卷积预测与插值的分辨率提升方法及系统
CN114511862B (zh) 表格识别方法、装置及电子设备
US10115195B2 (en) Method and apparatus for processing block to be processed of urine sediment image
CN113657196B (zh) Sar图像目标检测方法、装置、电子设备和存储介质
CN115861922A (zh) 一种稀疏烟火检测方法、装置、计算机设备及存储介质
CN114723973A (zh) 大尺度变化鲁棒的图像特征匹配方法及装置
EP2884427B1 (en) Method and system for describing an image
CN112419407A (zh) 基于云团边缘识别的云团位移矢量计算方法及装置
CN113627124A (zh) 一种针对字体迁移模型的处理方法、装置、电子设备
CN111640105B (zh) 一种图像接缝裁剪检测方法、设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant