CN113963009A - 基于可形变划块的局部自注意力的图像处理方法和模型 - Google Patents

基于可形变划块的局部自注意力的图像处理方法和模型 Download PDF

Info

Publication number
CN113963009A
CN113963009A CN202111575874.6A CN202111575874A CN113963009A CN 113963009 A CN113963009 A CN 113963009A CN 202111575874 A CN202111575874 A CN 202111575874A CN 113963009 A CN113963009 A CN 113963009A
Authority
CN
China
Prior art keywords
feature map
block
attention
self
window
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202111575874.6A
Other languages
English (en)
Other versions
CN113963009B (zh
Inventor
王金桥
朱优松
陈志扬
赵朝阳
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Objecteye Beijing Technology Co Ltd
Original Assignee
Objecteye Beijing Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Objecteye Beijing Technology Co Ltd filed Critical Objecteye Beijing Technology Co Ltd
Priority to CN202111575874.6A priority Critical patent/CN113963009B/zh
Publication of CN113963009A publication Critical patent/CN113963009A/zh
Application granted granted Critical
Publication of CN113963009B publication Critical patent/CN113963009B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/10Segmentation; Edge detection
    • G06T7/11Region-based segmentation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Artificial Intelligence (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • Image Analysis (AREA)
  • Image Processing (AREA)

Abstract

本发明提供一种基于可形变划块的局部自注意力的图像处理方法和模型。其中方法包括:对输入图像的第一特征图进行划块处理,基于第一特征图预测划块处理得到的每个块的第一偏移值,基于第一偏移值对划块处理得到的每个块的范围进行修正;基于第一特征图中修正后的每个块进行特征提取,得到第二特征图;对第二特征图进行划窗处理,基于第二特征图预测划窗处理得到的每个窗口的第二偏移值,基于第二偏移值对划窗处理得到的每个窗口的范围进行修正;基于修正后的每个窗口确定第二特征图中每个块的自注意力,将确定自注意力后的特征图作为第一特征图或者目标特征图。本发明可以在不增加大量计算的情况下有效地提升模型的性能。

Description

基于可形变划块的局部自注意力的图像处理方法和模型
技术领域
本发明涉及计算机视觉技术领域,尤其涉及一种基于可形变划块的局部自注意力的图像处理方法和模型。
背景技术
Transformer(自注意力模型)是自然语言处理领域各类任务中的主流模型,近些年也在计算机视觉领域内引起了广泛关注。相比于传统卷积网络,Transformer在建立长距离关系模型、以及拟合超大规模数据集中有着明显优势。目前Transformer已经在图像分类、目标检测、语义分割等领域取得了超越传统卷积模型的性能。
Transformer主要包括两个模块,自注意力模块和全连接前向模块。最早的Transformer将输入图片按16x16的大小均匀划分成若干个小区域块,然后将这些块向量化并依次通过若干个自注意力模块。这种方法往往忽视了图片本身具有的二维空间信息。更新一些的Transformer借鉴卷积网络的一些优点,将整体结构划分成若干个不同分辨率的阶段,并采用逐渐下采样的方式来保留更加细节的特征。然而,即使如此,Transformer依然存在一些问题,即Transformer都采用了一个固定的块区域划分方式,这导致网络不能自适应地从同一图像中不同大小的物体、同一物体不同远近的图像中提取出一致的信息,从而导致了语义上的损失,因此,如何使模型在切分块的同时保持信息不丢失,是一具亟待解决的问题。
Transformer另一个有待解决的问题是,在处理高分辨率特征图的时候,计算不同块之间的注意力往往需要与块数量成平方关系的复杂度,极大地限制了自注意力模块在高分辨率特征图上的应用,也因此阻碍了Transformer在检测、分割等下游任务上的应用。目前先进的Transformer结构通过只计算局部区域内的注意力分布来有效地减少计算量。通过将整张特征图划分成若干个相同的窗口区域,在窗口区域内的任意一个小块只与同一个窗口内的其他块计算相关度。但是,这种对于自注意力计算的粗暴划窗使得部分相邻块不会参与到自注意力的计算,即使他们有着很高的相似度,从而损害了模型的表征能力,并降低了模型的性能。因此,如何让局部自注意力计算更加符合输入特征图本身的特性,是一个有待解决的问题。
发明内容
本发明提供一种基于可形变划块的局部自注意力的图像处理方法和模型,用以解决现有技术在注意力计算时的划块方法和划窗方法会降低模型性能的缺陷,可以实现对模型性能的有效地提升。
第一方面,本发明提供一种基于可形变划块的局部自注意力的图像处理方法,包括:
对输入图像进行特征提取,得到第一特征图;
确定所述第一特征图的自注意力,得到目标特征图;
基于所述目标特征图确定图像处理的结果;
其中,所述确定所述第一特征图的自注意力,得到目标特征图,包括:
对所述第一特征图进行划块处理,基于所述第一特征图预测划块处理得到的每个块的第一偏移值,基于所述第一偏移值对划块处理得到的每个块的范围进行修正;
基于所述第一特征图中修正后的每个块进行特征提取,得到第二特征图;
对所述第二特征图进行划窗处理,基于所述第二特征图预测划窗处理得到的每个窗口的第二偏移值,基于所述第二偏移值对划窗处理得到的每个窗口的范围进行修正;
基于修正后的每个窗口确定所述第二特征图中每个块的自注意力,将确定自注意力后的特征图作为所述第一特征图或者所述目标特征图。
根据本发明提供的一种基于可形变划块的局部自注意力的图像处理方法,对所述第一特征图进行划块处理,基于所述第一特征图预测划块处理得到的每个块的第一偏移值,基于所述第一偏移值对划块处理得到的每个块的范围进行修正,包括:
对所述第一特征图进行划块处理,基于所述第一特征图,预测划块处理得到的每个矩形块的两个对角顶点的横坐标和纵坐标的偏移值;
基于所预测的每个矩形块的两个对角顶点的横坐标和纵坐标的偏移值,对划块处理得到的对应的矩形块的两个对角顶点的横坐标和纵坐标分别进行修正;
所述基于所述第一特征图中修正后的每个块进行特征提取,得到第二特征图,包括:
基于预先设定的每个矩形块内采样点的数量,通过双线性插值确定所述第一特征图中修正后的每个矩形块内采样点的位置;
基于所确定的采样点的位置,对所述第一特征图中修正后的每个矩形块进行特征提取,得到所述第二特征图。
根据本发明提供的一种基于可形变划块的局部自注意力的图像处理方法,所述对所述第一特征图进行划块处理,基于所述第一特征图预测划块处理得到的每个块的第一偏移值,基于所述第一偏移值对划块处理得到的每个块的范围进行修正,包括:
对所述第一特征图进行划块处理,基于所述第一特征图预测划块处理得到的每个块的第一偏移值和一组掩码值,基于所述第一偏移值对划块处理得到的每个块的范围进行修正;
基于所述第一特征图中修正后的每个块进行特征提取,得到第二特征图,包括:
基于所述第一特征图中修正后的每个块进行特征提取,基于所述掩码值对修正后的每个块所提取的特征进行修正,得到所述第二特征图。
根据本发明提供的一种基于可形变划块的局部自注意力的图像处理方法,预测得到的每个块的一组掩码值的数量与预先设定的每个块内采样点的数量相同,所述掩码值的大小介于0到1之间。
根据本发明提供的一种基于可形变划块的局部自注意力的图像处理方法,所述对所述第二特征图进行划窗处理,基于所述第二特征图预测划窗处理得到的每个窗口的第二偏移值,基于所述第二偏移值对划窗处理得到的每个窗口的范围进行修正,包括:
对所述第二特征图进行划窗处理,基于所述第二特征图,预测划窗处理得到的每个矩形窗口的两个对角顶点的横坐标和纵坐标的偏移值;
基于所预测的每个矩形窗口的两个对角顶点的横坐标和纵坐标的偏移值,对划窗处理得到的对应的矩形窗口的两个对角顶点的横坐标和纵坐标分别进行修正;
所述基于修正后的每个窗口确定所述第二特征图中每个块的自注意力,将确定自注意力后的特征图作为所述第一特征图或者所述目标特征图,包括:
基于划窗处理得到的每个矩形窗口内矩形块的相对位置编码,通过双线性插值确定修正后的每个矩形窗口内矩形块的相对位置编码;
基于所确定的相对位置编码,在修正后的每个矩形窗口内,确定所述第二特征图中每个矩形块的自注意力,将确定自注意力后的特征图作为所述第一特征图或者所述目标特征图。
根据本发明提供的一种基于可形变划块的局部自注意力的图像处理方法,所述对输入图像进行特征提取,得到第一特征图,包括:
对所述输入图像进行划块处理;
通过线性变换对划块处理得到的每个块进行特征提取处理,得到具有目标通道数的第三特征图;
对所述第三特征图进行划窗处理,基于所述第三特征图预测划窗处理得到的每个窗口的第二偏移值,基于所述第二偏移值对划窗处理得到的每个窗口的范围进行修正;
基于修正后的每个窗口确定所述第三特征图中每个块的自注意力,得到所述第一特征图。
第二方面,本发明还提供一种基于可形变划块的局部自注意力的图像处理模型,包括:
特征提取模块,用于对输入图像进行特征提取,得到第一特征图;
自注意力计算模块,用于确定所述第一特征图的自注意力,得到目标特征图;
结果确定模块,用于基于所述目标特征图确定图像处理的结果;
其中,所述自注意力计算模块,包括:
可形变划块单元,用于对所述第一特征图进行划块处理,基于所述第一特征图预测划块处理得到的每个块的第一偏移值,基于所述第一偏移值对划块处理得到的每个块的范围进行修正;
特征提取单元,用于基于所述第一特征图中修正后的每个块进行特征提取,得到第二特征图;
自适应划窗单元,用于对所述第二特征图进行划窗处理,基于所述第二特征图预测划窗处理得到的每个窗口的第二偏移值,基于所述第二偏移值对划窗处理得到的每个窗口的范围进行修正;
自注意力计算单元,用于基于修正后的每个窗口确定所述第二特征图中每个块的自注意力,将确定自注意力后的特征图作为所述第一特征图或者所述目标特征图。
第三方面,本发明还提供一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现如上述任一种所述神经网络自适应量化方法的步骤。
第四方面,发明还提供一种非暂态计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现如上述任一种所述神经网络自适应量化方法的步骤。
第五方面,发明还提供一种计算机程序产品,其上存储有计算机程序,该计算机程序被处理器执行时实现如上述任一种所述神经网络自适应量化方法的步骤。
本发明提供的基于可形变划块的局部自注意力的图像处理方法和模型,在确定图像的自注意力时,通过采用可形变的划块方法,参考特征图为每个块分别预测偏移值,并通过预测的偏移值分别对每个块的范围进行修正,可以使修正后的每个块的大小和位置由输入的特征图确定,具备了可变化性不再是固定的大小,可以适应同一图像中不同大小的物体,和同一物体的不同远近的图像,从中提取出一致的特征,获取更加完整、有意义的语义信息;通过采用区域自适应的窗口划分方法,参考特征图为每个窗口分别预测偏移值,并通过预测的偏移值分别对每个窗口的范围进行修正,可以使修正后的每个窗口的大小和位置由输入的特征图确定,可以自适应地将具有相似语义信息的块划分到同一个窗口内,使每个块只与其同一个窗口内的其他块进行注意力的计算,在减少自注意力计算量的同时,不过于损失特征的表征能力;实现了在不增加大量计算的情况下有效地提升模型的性能。
附图说明
为了更清楚地说明本发明或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本发明提供的基于可形变划块的局部自注意力的图像处理方法的流程示意图;
图2是本发明提供的根据注意力机制确定第一特征图的自注意力的方法的流程示意图;
图3是本发明一些实施例提供的对第一特征图进行划块处理和特征提取的流程示意图;
图4是本发明另一些实施例提供的对第一特征图进行划块处理和特征提取的流程示意图;
图5是本发明一些实施例提供的对第二特征图进行划窗处理和自注意力计算的流程示意图;
图6是本发明一些实施例提供的通过输入图像得到第一特征图的流程示意图;
图7是本发明提供的基于可形变划块的局部自注意力的图像处理模型的组成结构示意图;
图8是本发明一些实施例提供的基于可形变划块的局部自注意力的图像处理模型的结构示意图;
图9是应用图8的图像处理模型进行划块处理和特征提取的流程示意图;
图10是应用图8的图像处理模型进行划窗处理和自注意力计算的流程示意图;
图11是本发明提供的电子设备的组成结构示意图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚,下面将结合本发明中的附图,对本发明中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
下面结合图1-图6描述本发明的基于可形变划块的局部自注意力的图像处理方法。
请参阅图1,图1是本发明提供的基于可形变划块的局部自注意力的图像处理方法的流程示意图,图1所示的基于可形变划块的局部自注意力的图像处理方法可以由基于可形变划块的局部自注意力的图像处理模型执行,基于可形变划块的局部自注意力的图像处理模型可以设置于智能手机、台式计算机、笔记型计算机、车载计算机、机器人、可穿戴式设备等,本发明实施例对此不作限定。如图1所示,该基于可形变划块的局部自注意力的图像处理方法至少包括:
101,对输入图像进行特征提取,得到第一特征图。
在本发明实施例中,输入图像是用于进行图像处理的图像,对输入图像进行的图像处理可以是图像分类、目标检测、语义分割等,本发明实施例对输入图像进行的图像处理类型不作限定。输入图像可以是通过摄像头、照相机、扫描仪等图像采集设备采集的图像,或者也可以是通过网络、数据库等其他方式获得的图像,本发明实施例对输入图像获取的方式不作限定。可以根据输入图像中的像素,通过对输入图像中的像素进行变换提取输入图像的特征,获得输入图像的第一特征图,例如,可以通过卷积或者下采样对输入图像的特征进行提取,获得输入图像的第一特征图,本发明实施例对获得输入图像的第一特征图的实现方法不作限定。可选地,在获取输入图像之后,可以首先对输入图像进行预处理,例如,对输入图像进行缩放、旋转、裁剪等预处理,然后对预处理得到的图像进行特征提取,得到输入图像的第一特征图,本发明实施例对输入图像进行预处理的类型不作限定。
102,确定第一特征图的自注意力,得到目标特征图。
在本发明实施例中,在获得输入图像的第一特征图之后,可以根据注意力机制进行计算,确定第一特征图的自注意力,获得输入图像的目标特征图。如图2所示,本发明提供的根据注意力机制确定第一特征图的自注意力的方法,可以包括以下步骤:201,对第一特征图进行划块处理,基于第一特征图预测划块处理得到的每个块的第一偏移值,基于第一偏移值对划块处理得到的每个块的范围进行修正;202,基于第一特征图中修正后的每个块进行特征提取,得到第二特征图;203,对第二特征图进行划窗处理,基于第二特征图预测划窗处理得到的每个窗口的第二偏移值,基于第二偏移值对划窗处理得到的每个窗口的范围进行修正;204,基于修正后的每个窗口确定第二特征图中每个块的自注意力,将确定自注意力后的特征图作为第一特征图或者目标特征图。
在本发明实施例中,在确定第一特征图的自注意力时,可以基于预先设定的划块规则,将第一特征图划分成若干个块,每个块在第一特征图上的大小和位置都是固定的,同时根据第一特征图预测划分得到的每个块的第一偏移值,根据预测的第一偏移值对划分得到的对应的块的范围进行修正,根据第一特征图改变块的大小和位置。在对第一特征图划分得到的每个块的范围进行修正之后,可以以修正后的每个块为单位,对修正后的每个块进行特征提取,获得输入图像的第二特征图,其中第二特征图中的块为第一特征图中修正后的块。
在本发明实施例中,划块处理得到的第一特征图中若干个块的形状和大小可以相同,或者也可以不同,本发明实施例对划块处理得到的块的形状和大小不作限定。可以根据划块处理得到的每个块的形状来确定根据第一特征图预测得到的每个块的第一偏移值的信息。例如,可以将第一特征图均匀地划分成若干个大小相同的矩形区域块,同时根据第一特征图预测划分得到的每个矩形区域块在横坐标和纵坐标上的第一偏移值,根据预测的横坐标和纵坐标的第一偏移值对划分得到的对应的矩形区域块的横坐标和纵坐标进行修正,根据第一特征图来调节每个矩形区域块的大小和位置,并以修正后的每个矩形区域块为单位,对修正后的每个矩形区域块进行特征提取,获得输入图像的第二特征图。
然后,可以基于预先设定的划窗规则,将第二特征图划分成若干个窗口,每个窗口包含至少二个第二特征图中的块,每个窗口在第二特征图上的大小和位置都是固定的,同时根据第二特征图预测划分得到的每个窗口的第二偏移值,根据预测的第二偏移值对划分得到的对应的窗口的范围进行修正,根据第二特征图改变窗口的大小和位置。在对第二特征图划分得到的每个窗口的范围进行修正之后,可以以修正后的每个窗口为单位,在修正后的每个窗口内,确定第二特征图中的块的自注意力,可以将确定自注意力后的特征图作为输入图像的第一特征图,继续从步骤201开始执行,或者将确定自注意力后的特征图作为输入图像的目标特征图,用来确定图像处理的结果。
在本发明实施例中,划窗处理得到的第二特征图中若干个窗口的形状和大小可以相同,或者也可以不同,本发明实施例对划窗处理得到的窗口的形状和大小不作限定。可以根据划窗处理得到的每个窗口的形状来确定根据第一特征图预测得到的每个窗口的第二偏移值的信息。例如,可以将第二特征图均匀地划分成若干个大小相同的矩形区域窗口,同时根据第二特征图预测划分得到的每个矩形区域窗口在横坐标和纵坐标上的第二偏移值,根据预测的横坐标和纵坐标的第二偏移值对划分得到的对应的矩形区域窗口的横坐标和纵坐标进行修正,根据第二特征图来调节每个矩形区域窗口的大小和位置,并以修正后的每个矩形区域窗口为单位,在修正后的每个矩形区域窗口内,确定第二特征图中的矩形区域块的自注意力,并将确定自注意力后的特征图作为第一特征图或者目标特征图。
103,基于目标特征图确定图像处理的结果。
在本发明实施例中,在获得输入图像的目标特征图之后,可以根据图像处理的类型,通过输入图像的目标特征图确定对应的图像处理结果。例如,图像处理的类型为图像分类,可以根据目标特征图得到输入图像的类型;图像处理的类型为目标检测,可以根据目标特征图从输入图像中将目标检测出来;图像处理的类型为语义分割,可以根据目标特征图得到输入图像的语义分割图像。
本发明实施例在确定图像的自注意力时,通过采用可形变的划块方法,参考特征图为每个块分别预测偏移值,并通过预测的偏移值分别对每个块的范围进行修正,可以使修正后的每个块的大小和位置由输入的特征图确定,具备了可变化性不再是固定的大小,可以适应同一图像中不同大小的物体,和同一物体的不同远近的图像,从中提取出一致的特征,获取更加完整、有意义的语义信息;通过采用区域自适应的窗口划分方法,参考特征图为每个窗口分别预测偏移值,并通过预测的偏移值分别对每个窗口的范围进行修正,可以使修正后的每个窗口的大小和位置由输入的特征图确定,可以自适应地将具有相似语义信息的块划分到同一个窗口内,使每个块只与其同一个窗口内的其他块进行注意力的计算,在减少自注意力计算量的同时,不过于损失特征的表征能力;实现了在不增加大量计算的情况下有效地提升模型的性能。
请参阅图3,图3是本发明一些实施例提供的对第一特征图进行划块处理和特征提取的流程示意图。如图3所示,对第一特征图进行划块处理和特征提取至少包括:
301,对第一特征图进行划块处理,基于第一特征图,预测划块处理得到的每个矩形块的两个对角顶点的横坐标和纵坐标的偏移值。
在本发明实施例中,可以基于预先设定的划块规则,将第一特征图划分成若干个 矩形区域块,此时每个矩形区域块在第一特征图上的大小和位置都是固定的,同时根据第 一特征图预测划分得到的每个矩形区域块的两个对角顶点的横坐标和纵坐标的偏移值
Figure 904694DEST_PATH_IMAGE001
,例如,两个对角顶点可以为每个矩形区域块的左上角顶点
Figure 635890DEST_PATH_IMAGE002
和右下 角顶点
Figure 98095DEST_PATH_IMAGE003
,或者两个对角顶点也可以为每个矩形区域块的右上角顶点
Figure 180321DEST_PATH_IMAGE004
和左下角 顶点
Figure 510808DEST_PATH_IMAGE005
,本发明实施例对预测每个矩形区域块的偏移值时所选取的对角顶点的类型不 作限定。
302,基于所预测的每个矩形块的两个对角顶点的横坐标和纵坐标的偏移值,对划块处理得到的对应的矩形块的两个对角顶点的横坐标和纵坐标分别进行修正。
在本发明实施例中,在通过第一特征图预测得到每个矩形区域块的两个对角顶点 的横坐标和纵坐标的偏移值之后,可以根据预测得到的每个矩形区域块的两个对角顶点的 横坐标和纵坐标的偏移值
Figure 237455DEST_PATH_IMAGE006
对第一特征图划分得到的对应的矩形区 域块的两个对角顶点的横坐标和纵坐标分别进行修正,根据修正后的每个矩形区域块的两 个对角顶点的横坐标和纵坐标,可以确定每个矩形区域块在第一特征图中修正后的大小和 位置,例如,当两个对角顶点为每个矩形区域块的左上角顶点
Figure 496661DEST_PATH_IMAGE007
和右下角顶点
Figure 66182DEST_PATH_IMAGE008
,修正后的矩形区域块的左上角顶点和右下角顶点的坐标分别为
Figure 810147DEST_PATH_IMAGE009
Figure 781514DEST_PATH_IMAGE010
,当两个对角顶点为每个矩形区域块的右 上角顶点
Figure 710156DEST_PATH_IMAGE011
和左下角顶点
Figure 642340DEST_PATH_IMAGE012
时,修正后的矩形区域块的右上角顶点和左下角 顶点的坐标分别为
Figure 816095DEST_PATH_IMAGE013
Figure 641968DEST_PATH_IMAGE014
可选地,在人工神经网络模型中,预测每个块的偏移值可以通过添加一个新分支 来实现,例如,对于矩形区域块,可以通过公式1在整张特征图上对每个矩形区域块预测一 组偏移值
Figure 351298DEST_PATH_IMAGE015
,公式1如下:
Figure 895412DEST_PATH_IMAGE016
(公式1)
其中,
Figure 371393DEST_PATH_IMAGE017
为特征图,
Figure 927139DEST_PATH_IMAGE018
Figure 710767DEST_PATH_IMAGE019
为卷积处理得到的特征向 量。
303,基于预先设定的每个矩形块内采样点的数量,通过双线性插值确定第一特征图中修正后的每个矩形块内采样点的位置。
在本发明实施例中,在通过预测得到的每个矩形区域块的两个对角顶点的横坐标 和纵坐标偏移值,对对应的矩形区域块的两个对角顶点的横坐标和纵坐标分别进行修正之 后,由于每个矩形区域块内采样点的数量为预先设定的,即
Figure 476598DEST_PATH_IMAGE020
超参数,不根据每个矩形区 域块的大小的改变而改变,并且对每个矩形区域块是均匀采样,即每个矩形区域块的
Figure 366056DEST_PATH_IMAGE021
个采样点是均匀分布于该矩形区域块内,因此可以根据预先设定的每个矩形块内采样点的 数量
Figure 166522DEST_PATH_IMAGE021
,通过双线性插值确定第一特征图中修正后的每个矩形区域块内采样点的位置。
304,基于所确定的采样点的位置,对第一特征图中修正后的每个矩形块进行特征提取,得到第二特征图。
在本发明实施例中,在确定第一特征图中修正后的每个矩形区域块内采样点的位置之后,可以根据所确定的第一特征图中修正后的每个矩形区域块内采样点的位置,对第一特征图中修正后的每个矩形区域块进行特征提取,获得第一特征图中修正后的每个矩形区域块内每个采样点的特征,从而得到第一特征图中修正后的每个矩形区域块可以用来表征整个矩形区域块的特征,进而得到与第一特征图对应的第二特征图。
请参阅图4,图4是本发明另一些实施例提供的对第一特征图进行划块处理和特征提取的流程示意图。如图4所示,对第一特征图进行划块处理和特征提取至少包括:
401,对第一特征图进行划块处理,基于第一特征图预测划块处理得到的每个块的第一偏移值和一组掩码值,基于第一偏移值对划块处理得到的每个块的范围进行修正。
402,基于第一特征图中修正后的每个块进行特征提取,基于掩码值对修正后的每个块所提取的特征进行修正,得到第二特征图。
在本发明实施例中,由于并非所有的采样点都具有相等的表征能力,部分采样点可能是冗余的甚至会损害表征性能,因此在对第一特征图进行划块处理,根据第一特征图预测划块处理得到的每个块的第一偏移值时,可以同时根据第一特征图预测划块处理得到的每个块的一组掩码值,以在对第一特征图中修正后的每个块进行特征提取之后,根据预测得到的一组掩码值对对应的修正后的块所提取的特征进行修正,通过掩码值对采样点采样的特征进行修正,来对不同采样点的表征能力进行区分,可以减小冗余采样点和损害表征性能的采样点的表征能力。
本发明实施例对预测得到的每个块的一组掩码值的数量和大小不作限定。可选地,预测得到的每个块的一组掩码值的数量可以与预先设定的每个块内采样点的数量相同,掩码值的大小可以介于0到1之间,可以通过将预测得到的每个块的一组掩码值分别与对应的修正后的块内的每个采样点相乘,将相乘得到的特征作为最后用来表征修正后的每个块的特征。
可选地,在人工神经网络模型中,预测每个块的一组掩码值可以通过添加一个新 分支来实现,例如,可以通过公式2在整张特征图上对每个块预测一组掩码值
Figure 342288DEST_PATH_IMAGE022
,公式2如下:
Figure 736361DEST_PATH_IMAGE023
(公式2)
其中,
Figure 790030DEST_PATH_IMAGE024
为特征图,
Figure 710581DEST_PATH_IMAGE025
Figure 198194DEST_PATH_IMAGE019
为 卷积处理得到的特征向量,
Figure 938617DEST_PATH_IMAGE026
在得到预测得到每个块的一组掩码值
Figure 294512DEST_PATH_IMAGE022
之后,可以根据公式 3,对每个块的特征进行修正,公式3如下:
Figure 679357DEST_PATH_IMAGE027
(公式3)
其中,
Figure 963970DEST_PATH_IMAGE028
采样点i的特征,
Figure 191689DEST_PATH_IMAGE029
采样点i的特征,
Figure 226641DEST_PATH_IMAGE030
请参阅图5,图5是本发明一些实施例提供的对第二特征图进行划窗处理和自注意力计算的流程示意图。如图5所示,对第二特征图进行窗块处理和自注意力计算至少包括:
501,对第二特征图进行划窗处理,基于第二特征图,预测划窗处理得到的每个矩形窗口的两个对角顶点的横坐标和纵坐标的偏移值。
在本发明实施例中,可以基于预先设定的划窗规则,将第二特征图划分成若干个 矩形区域窗口,使每个矩形区域窗口包含至少二个第二特征图中的矩形区域块,此时每个 矩形区域窗口在第二特征图上的大小和位置都是固定的,同时根据第二特征图预测划分得 到的每个矩形区域窗口的两个对角顶点的横坐标和纵坐标的偏移值
Figure 590626DEST_PATH_IMAGE031
,例如,两个对角顶点可以为每个矩形区域窗口的左上角顶点
Figure 810255DEST_PATH_IMAGE032
和右下角顶点
Figure 400636DEST_PATH_IMAGE033
,或者两个对角顶点也可以为每个矩形区域窗口的右上角顶点
Figure 599799DEST_PATH_IMAGE034
和左下 角顶点
Figure 83870DEST_PATH_IMAGE035
,本发明实施例对预测每个矩形区域窗口的偏移值时所选取的对角顶点 的类型不作限定。
502,基于所预测的每个矩形窗口的两个对角顶点的横坐标和纵坐标的偏移值,对划窗处理得到的对应的矩形窗口的两个对角顶点的横坐标和纵坐标分别进行修正。
在本发明实施例中,在通过第二特征图预测得到每个矩形区域窗口的两个对角顶 点的横坐标和纵坐标的偏移值之后,可以根据预测得到的每个矩形区域窗口的两个对角顶 点的横坐标和纵坐标的偏移值
Figure 84187DEST_PATH_IMAGE036
对第二特征图划分得到的 对应的矩形区域窗口的两个对角顶点的横坐标和纵坐标分别进行修正,根据修正后的每个 矩形区域窗口的两个对角顶点的横坐标和纵坐标,可以确定每个矩形区域窗口在第二特征 图中修正后的大小和位置,例如,当两个对角顶点为每个矩形区域窗口的左上角顶点
Figure 286498DEST_PATH_IMAGE037
和右下角顶点
Figure 787887DEST_PATH_IMAGE038
,修正后的矩形区域块的左上角顶点和右下角 顶点的坐标分别为
Figure 1830DEST_PATH_IMAGE039
Figure 64726DEST_PATH_IMAGE040
,当 两个对角顶点为每个矩形区域块的右上角顶点
Figure 488755DEST_PATH_IMAGE041
和左下角顶点
Figure 138042DEST_PATH_IMAGE042
时,修正后的矩形区域块的右上角顶点和左下角顶点的坐标分别为
Figure 862284DEST_PATH_IMAGE043
Figure 329038DEST_PATH_IMAGE044
503,基于划窗处理得到的每个矩形窗口内矩形块的相对位置编码,通过双线性插值确定修正后的每个矩形窗口内矩形块的相对位置编码。
在本发明实施例中,在划窗处理之后,可以通过计算同一个矩形区域窗口内两个 矩形区域块之间的相对位置,确定第二特征图中每个矩形区域窗口的相对位置编码
Figure 115728DEST_PATH_IMAGE045
,相 对位置编码
Figure 460384DEST_PATH_IMAGE045
对应于二维空间中一个确定的物理距离。由于经过修正后的每个矩形区域窗 口的大小和位置会发生变化,为了使每个矩形区域窗口的相对位置编码
Figure 773554DEST_PATH_IMAGE045
可以适应修正后 的矩形区域窗口,在通过预测得到的每个矩形区域窗口的两个对角顶点的横坐标和纵坐标 偏移值,对对应的矩形区域窗口的两个对角顶点的横坐标和纵坐标分别进行修正之后,可 以根据第二特征图中每个矩形区域窗口内每个矩形区域块的相对位置编码,通过双线性插 值确定第二特征图中修正后的每个矩形区域窗口内每个矩形区域块的相对位置编码,使通 过双线性插值得到的相对位置编码可以与修正后的矩形区域窗口保持一致。
可选地,在人工神经网络模型中,对于修正后的每个矩形区域窗口,可以通过公式 4计算相对位置编码
Figure 286574DEST_PATH_IMAGE046
,公式4如下:
Figure 950774DEST_PATH_IMAGE047
(公式4)
其中,
Figure 332077DEST_PATH_IMAGE048
为划窗处理得到的每个窗口内 矩形区域块的集合,
Figure 375119DEST_PATH_IMAGE049
} 为修正后的每个窗口内矩形区域块的集合,
Figure 685140DEST_PATH_IMAGE050
为双线性插值函数。
504,基于所确定的相对位置编码,在修正后的每个矩形窗口内,确定第二特征图中每个矩形块的自注意力,将确定自注意力后的特征图作为第一特征图或者目标特征图。
在本发明实施例中,在确定第二特征图中修正后的每个矩形区域窗口
Figure 571056DEST_PATH_IMAGE051
内矩形区 域块的相对位置编码之后,可以将第二特征图中修正后的每个矩形区域窗口确定为自注意 力计算范围,在第二特征图中修正后的每个矩形区域窗口内,通过查表的方式,确定与划窗 处理得到的每个矩形区域窗口
Figure 631416DEST_PATH_IMAGE052
内的矩形区域块相关的矩形区域块,即从集合
Figure 919178DEST_PATH_IMAGE052
中提取查 询
Figure 898636DEST_PATH_IMAGE053
,从集合
Figure 147214DEST_PATH_IMAGE054
中提取键
Figure 371784DEST_PATH_IMAGE055
、值
Figure 248474DEST_PATH_IMAGE056
,进行自相关运算,从而得到第二特征图中修正后的每 个矩形区域窗口的局部自注意力,并将确定自注意力后的特征图作为第一特征图或者目标 特征图。
可选地,在人工神经网络模型中,对于修正后的每个矩形区域窗口,可以通过公式5计算局部自注意力,公式5如下:
Figure 805357DEST_PATH_IMAGE057
(公式5)
其中
Figure 400286DEST_PATH_IMAGE058
为自注意力,
Figure 661503DEST_PATH_IMAGE059
为归一化指数函数。
请参阅图6,图6是本发明一些实施例提供的通过输入图像得到第一特征图的流程示意图。如图6所示,通过输入图像得到第一特征图至少包括:
601,对输入图像进行划块处理。
602,通过线性变换对划块处理得到的每个块进行特征提取处理,得到具有目标通道数的第三特征图。
603,对第三特征图进行划窗处理,基于第三特征图预测划窗处理得到的每个窗口的第二偏移值,基于第二偏移值对划窗处理得到的每个窗口的范围进行修正。
604,基于修正后的每个窗口确定第三特征图中每个块的自注意力,得到第一特征图。
在本发明实施例中,在获得输入图像的第一特征图时,可以首先可以基于预先设定的划块规则,将输入图像划分成若干个块,每个块在输入图像上的大小和位置都是固定的;然后通过线性变换对划块处理得到的每个块进行特征提取,获得具有目标通道数的第三特征图;之后基于预先设定的划窗规则,将第三特征图划分成若干个窗口,每个窗口包含至少二个第三特征图中的块,每个窗口在第三特征图上的大小和位置都是固定的,同时根据第四特征图预测划分得到的每个窗口的第二偏移值,根据预测的第二偏移值对划分得到的对应的窗口的范围进行修正,根据第三特征图改变窗口的大小和位置;最后以修正后的每个窗口为单位,在修正后的每个窗口内,确定第三特征图中的块的自注意力,获得输入图像的第一特征图。
例如,可以将输入图像均匀地划分成若干个大小相同的矩形区域块,通过线性变换对划块处理得到的每个矩形区域块进行特征提取,获得具有目标通道数的第三特征图;可以将第三特征图均匀地划分成若干个大小相同的矩形区域窗口,同时根据第三特征图预测划分得到的每个矩形区域窗口在横坐标和纵坐标上的第二偏移值,根据预测的横坐标和纵坐标的第二偏移值对划分得到的对应的矩形区域窗口的横坐标和纵坐标进行修正,根据第三特征图来调节每个矩形区域窗口的大小和位置,并以修正后的每个矩形区域窗口为单位,在修正后的每个矩形区域窗口内,确定第三特征图中的矩形区域块的自注意力,获得输入图像的第一特征图。
下面对本发明提供的基于可形变划块的局部自注意力的图像处理模型进行描述,下文描述的基于可形变划块的局部自注意力的图像处理模型与上文描述的基于可形变划块的局部自注意力的图像处理方法可相互对应参照。
请参阅图7,图7是本发明提供的基于可形变划块的局部自注意力的图像处理模型的组成结构示意图,图7所示的基于可形变划块的局部自注意力的图像处理模型可用来执行图1的基于可形变划块的局部自注意力的图像处理方法,如图7所示,该基于可形变划块的局部自注意力的图像处理模型至少包括:
特征提取模块710,用于对输入图像进行特征提取,得到第一特征图.
自注意力计算模块720,用于确定第一特征图的自注意力,得到目标特征图。
结果确定模块730,用于基于目标特征图确定图像处理的结果。
其中,自注意力计算模块720,包括:
可形变划块单元721,用于对第一特征图进行划块处理,基于第一特征图预测划块处理得到的每个块的第一偏移值,基于第一偏移值对划块处理得到的每个块的范围进行修正。
特征提取单元722,用于基于第一特征图中修正后的每个块进行特征提取,得到第二特征图。
自适应划窗单元723,用于对第二特征图进行划窗处理,基于第二特征图预测划窗处理得到的每个窗口的第二偏移值,基于第二偏移值对划窗处理得到的每个窗口的范围进行修正。
自注意力计算单元724,用于基于修正后的每个窗口确定第二特征图中每个块的自注意力,将确定自注意力后的特征图作为第一特征图或者目标特征图。
可选地,可形变划块单元721,包括:
第一子单元,用于对第一特征图进行划块处理,基于第一特征图,预测划块处理得到的每个矩形块的两个对角顶点的横坐标和纵坐标的偏移值。
第二子单元,用于基于所预测的每个矩形块的两个对角顶点的横坐标和纵坐标的偏移值,对划块处理得到的对应的矩形块的两个对角顶点的横坐标和纵坐标分别进行修正。
特征提取单元722,包括:
第三子单元,用于基于预先设定的每个矩形块内采样点的数量,通过双线性插值确定第一特征图中修正后的每个矩形块内采样点的位置。
第四子单元,用于基于所确定的采样点的位置,对第一特征图中修正后的每个矩形块进行特征提取,得到第二特征图。
可选地,可形变划块单元721,用于对第一特征图进行划块处理,基于第一特征图预测划块处理得到的每个块的第一偏移值和一组掩码值,基于第一偏移值对划块处理得到的每个块的范围进行修正。
特征提取单元722,用于基于第一特征图中修正后的每个块进行特征提取,基于掩码值对修正后的每个块所提取的特征进行修正,得到第二特征图。
可选地,预测得到的每个块的一组掩码值的数量与预先设定的每个块内采样点的数量相同,掩码值的大小介于0到1之间。
可选地,自适应划窗单元723,包括:
第五子单元,用于对第二特征图进行划窗处理,基于第二特征图,预测划窗处理得到的每个矩形窗口的两个对角顶点的横坐标和纵坐标的偏移值。
第六子单元,用于基于所预测的每个矩形窗口的两个对角顶点的横坐标和纵坐标的偏移值,对划窗处理得到的对应的矩形窗口的两个对角顶点的横坐标和纵坐标分别进行修正。
自注意力计算单元724,包括:
第七子单元,用于基于划窗处理得到的每个矩形窗口内矩形块的相对位置编码,通过双线性插值确定修正后的每个矩形窗口内矩形块的相对位置编码。
第八子单元,用于基于所确定的相对位置编码,在修正后的每个矩形窗口内,确定第二特征图中每个矩形块的自注意力,将确定自注意力后的特征图作为第一特征图或者目标特征图。
可选地,特征提取模块710,包括:
划块单元,用于对输入图像进行划块处理。
线性变换单元,用于通过线性变换对划块处理得到的每个块进行特征提取处理,得到具有目标通道数的第三特征图。
自适应划窗单元723,用于对第三特征图进行划窗处理,基于第三特征图预测划窗处理得到的每个窗口的第二偏移值,基于第二偏移值对划窗处理得到的每个窗口的范围进行修正。
自注意力计算单元724,用于基于修正后的每个窗口确定第三特征图中每个块的自注意力,得到第一特征图。
请参阅图8、图9和图10,图8是本发明一些实施例提供的基于可形变划块的局部自注意力的图像处理模型的结构示意图,图9是应用图8的图像处理模型进行划块处理和特征提取的流程示意图,图10是应用图8的图像处理模型进行划窗处理和自注意力计算的流程示意图。
可以将本发明提供的基于可形变划块的局部自注意力的图像处理方法应用于Swin-Transformer模型,Swin-Transformer模型是一个类金字塔形的多阶段自注意力模型。该模型首先在第一阶段将图像切分成若干个4x4的矩形块,然后在后续每个阶段开始将相邻的2x2个矩形块聚合成一个新的矩形块,来实现划块,在每个阶段的自注意力模块中,均采用了相同大小的矩形窗口的局部自注意力机制,以保证计算量随着空间分辨率增加复杂度只会以线性关系上升。
如图8所示,Swin-Transformer模型包括4个阶段,即Stage1至Stage4,在Swin-Transformer模型的基础上,可以将Swin-Transformer模型的Stage2至Stage4中的块聚合划块操作用本发明提供的可变形下采样划块代替,可以将Swin-Transformer模型的Stage1至Stage4中的固定窗局部自注意力模块用本发明提供的自适应窗局部自注意力模块代替。这两种替换几乎不会增加模型的计算量,但是会帮助模型更好地捕获输入图像的语义信息,并根据输入调节划块、划窗的具体方法,可以保证获得完整且具有判别力的特征,从而大幅度提升模型的性能。
以ImageNet图像数据集为例,将ImageNet图像数据集中的图像输入图8中的模型,
步骤1:首先将输入图像缩放到224x224像素,然后通过划块操作与线性编码层将每个块转换为向量特征,得到具有目标通道数C的特征图。
步骤2:将步骤1得到的特征图送入第一阶段的自适应窗局部自注意力模块,通过单个线性预测单元预测每个局部矩形窗上、下、左、右侧边缘的偏移值,并根据预测的偏移值确定自适应窗局部自注意力模块的每个局部矩形窗的划窗范围。
步骤3:在步骤2得到的划窗范围内进行局部自注意力的相关计算,利用该计算对特征图中的特征进行处理,同一个阶段内自适应窗局部自注意力模块得到的多个局部矩形窗重复进行该计算,进行多次特征处理,得到新的特征图。
如图10所示,在图10的左侧为原始固定窗局部自注意力的窗口在图像中的示意 图,其中A、B、C、D四个区域分别为正方形的固定窗口,每个固定窗口的大小相同、位置固定, 每个固定窗口均包含
Figure 799224DEST_PATH_IMAGE060
个正方形块,a、b、c、d分别为A、B、C、D四个窗口内的一个正方形 块;在图10的右侧为自适应窗局部自注意力的窗口在图像中的示意图,其中A’、B’、C’、D’四 个区域分别为长方形的自适应窗口,每个自适应窗口的大小不同,位置可变,每个自适应窗 口包含的正方形块的数量不同,a’、b’、c’、d’分别为A’、B’、C’、D’四个窗口内的一个正方形 块。
步骤4:在第二阶段至第四阶段,前一阶段得到的特征图送入可变形下采样操作来 降低分辨率,通过单个线性预测单元预测每个矩形块的位置偏移值
Figure 875809DEST_PATH_IMAGE061
,并根 据预测的偏移值确定可变形下采样操作的每个矩形块的位置和大小,从而确定需要处理的 特征。
如图9所示,可变形下采样操作可以根据输入的特征图预测一组偏移值
Figure 692455DEST_PATH_IMAGE062
,通过偏移值确定特征图中正方形块E的位置和大小,对所确定 的正方形块E进行
Figure 163888DEST_PATH_IMAGE063
,通过掩码值对
Figure 15169DEST_PATH_IMAGE064
内采样点的特征
Figure 507330DEST_PATH_IMAGE065
,并通过线性层进行线性变换,得到新的特征图。
步骤5:重复步骤2至步骤4,分别在第二、三、四阶段中依次进行可变形下采样操作和通过自适应窗局部自注意力模块进行自注意力计算,从而提取到更好的图像的最终特征。
步骤6:将图像的最终特征,送入softmax线性分类器中进行图像分类。
经过试验证明在同等计算条件下,采用现有的Swin-Transformer模型进行图像处理,得到的图像处理的精度为75.1%,采用本发明提供的基于可形变划块的局部自注意力的图像处理方法的Swin-Transformer模型进行图像处理,得到的图像处理的精度为77.4%,可见网络的性能得到了显著地提升。
图11示例了一种电子设备的实体结构示意图,如图11所示,该电子设备可以包括:处理器(processor)1110、通信接口(CommunicationsInterface)1120、存储器(memory)1130和通信总线1140,其中,处理器1110,通信接口1120,存储器1130通过通信总线1140完成相互间的通信。处理器1110可以调用存储器1130中的逻辑指令,以执行基于可形变划块的局部自注意力的图像处理方法,该方法包括:
对输入图像进行特征提取,得到第一特征图;
确定所述第一特征图的自注意力,得到目标特征图;
基于所述目标特征图确定图像处理的结果;
其中,所述确定所述第一特征图的自注意力,得到目标特征图,包括:
对所述第一特征图进行划块处理,基于所述第一特征图预测划块处理得到的每个块的第一偏移值,基于所述第一偏移值对划块处理得到的每个块的范围进行修正;
基于所述第一特征图中修正后的每个块进行特征提取,得到第二特征图;
对所述第二特征图进行划窗处理,基于所述第二特征图预测划窗处理得到的每个窗口的第二偏移值,基于所述第二偏移值对划窗处理得到的每个窗口的范围进行修正;
基于修正后的每个窗口确定所述第二特征图中每个块的自注意力,将确定自注意力后的特征图作为所述第一特征图或者所述目标特征图。
此外,上述的存储器1130中的逻辑指令可以通过软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-OnlyMemory)、随机存取存储器(RAM,RandomAccessMemory)、磁碟或者光盘等各种可以存储程序代码的介质。
另一方面,本发明还提供一种计算机程序产品,所述计算机程序产品包括存储在非暂态计算机可读存储介质上的计算机程序,所述计算机程序包括程序指令,当所述程序指令被计算机执行时,计算机能够执行上述各方法实施例提供的基于可形变划块的局部自注意力的图像处理方法,该方法包括:
对输入图像进行特征提取,得到第一特征图;
确定所述第一特征图的自注意力,得到目标特征图;
基于所述目标特征图确定图像处理的结果;
其中,所述确定所述第一特征图的自注意力,得到目标特征图,包括:
对所述第一特征图进行划块处理,基于所述第一特征图预测划块处理得到的每个块的第一偏移值,基于所述第一偏移值对划块处理得到的每个块的范围进行修正;
基于所述第一特征图中修正后的每个块进行特征提取,得到第二特征图;
对所述第二特征图进行划窗处理,基于所述第二特征图预测划窗处理得到的每个窗口的第二偏移值,基于所述第二偏移值对划窗处理得到的每个窗口的范围进行修正;
基于修正后的每个窗口确定所述第二特征图中每个块的自注意力,将确定自注意力后的特征图作为所述第一特征图或者所述目标特征图。
又一方面,本发明还提供一种非暂态计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现以执行上述各方法实施例提供的基于可形变划块的局部自注意力的图像处理方法,该方法包括:
对输入图像进行特征提取,得到第一特征图;
确定所述第一特征图的自注意力,得到目标特征图;
基于所述目标特征图确定图像处理的结果;
其中,所述确定所述第一特征图的自注意力,得到目标特征图,包括:
对所述第一特征图进行划块处理,基于所述第一特征图预测划块处理得到的每个块的第一偏移值,基于所述第一偏移值对划块处理得到的每个块的范围进行修正;
基于所述第一特征图中修正后的每个块进行特征提取,得到第二特征图;
对所述第二特征图进行划窗处理,基于所述第二特征图预测划窗处理得到的每个窗口的第二偏移值,基于所述第二偏移值对划窗处理得到的每个窗口的范围进行修正;
基于修正后的每个窗口确定所述第二特征图中每个块的自注意力,将确定自注意力后的特征图作为所述第一特征图或者所述目标特征图。
以上所描述的装置实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下,即可以理解并实施。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件。基于这样的理解,上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在计算机可读存储介质中,如ROM/RAM、磁碟、光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。
最后应说明的是:以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims (10)

1.一种基于可形变划块的局部自注意力的图像处理方法,其特征在于,包括:
对输入图像进行特征提取,得到第一特征图;
确定所述第一特征图的自注意力,得到目标特征图;
基于所述目标特征图确定图像处理的结果;
其中,所述确定所述第一特征图的自注意力,得到目标特征图,包括:
对所述第一特征图进行划块处理,基于所述第一特征图预测划块处理得到的每个块的第一偏移值,基于所述第一偏移值对划块处理得到的每个块的范围进行修正;
基于所述第一特征图中修正后的每个块进行特征提取,得到第二特征图;
对所述第二特征图进行划窗处理,基于所述第二特征图预测划窗处理得到的每个窗口的第二偏移值,基于所述第二偏移值对划窗处理得到的每个窗口的范围进行修正;
基于修正后的每个窗口确定所述第二特征图中每个块的自注意力,将确定自注意力后的特征图作为所述第一特征图或者所述目标特征图。
2.根据权利要求1所述的基于可形变划块的局部自注意力的图像处理方法,其特征在于,对所述第一特征图进行划块处理,基于所述第一特征图预测划块处理得到的每个块的第一偏移值,基于所述第一偏移值对划块处理得到的每个块的范围进行修正,包括:
对所述第一特征图进行划块处理,基于所述第一特征图,预测划块处理得到的每个矩形块的两个对角顶点的横坐标和纵坐标的偏移值;
基于所预测的每个矩形块的两个对角顶点的横坐标和纵坐标的偏移值,对划块处理得到的对应的矩形块的两个对角顶点的横坐标和纵坐标分别进行修正;
所述基于所述第一特征图中修正后的每个块进行特征提取,得到第二特征图,包括:
基于预先设定的每个矩形块内采样点的数量,通过双线性插值确定所述第一特征图中修正后的每个矩形块内采样点的位置;
基于所确定的采样点的位置,对所述第一特征图中修正后的每个矩形块进行特征提取,得到所述第二特征图。
3.根据权利要求1所述的基于可形变划块的局部自注意力的图像处理方法,其特征在于,所述对所述第一特征图进行划块处理,基于所述第一特征图预测划块处理得到的每个块的第一偏移值,基于所述第一偏移值对划块处理得到的每个块的范围进行修正,包括:
对所述第一特征图进行划块处理,基于所述第一特征图预测划块处理得到的每个块的第一偏移值和一组掩码值,基于所述第一偏移值对划块处理得到的每个块的范围进行修正;
所述基于所述第一特征图中修正后的每个块进行特征提取,得到第二特征图,包括:
基于所述第一特征图中修正后的每个块进行特征提取,基于所述掩码值对修正后的每个块所提取的特征进行修正,得到所述第二特征图。
4.根据权利要求3所述的基于可形变划块的局部自注意力的图像处理方法,其特征在于,预测得到的每个块的一组掩码值的数量与预先设定的每个块内采样点的数量相同,所述掩码值的大小介于0到1之间。
5.根据权利要求1至4任一项所述的基于可形变划块的局部自注意力的图像处理方法,其特征在于,所述对所述第二特征图进行划窗处理,基于所述第二特征图预测划窗处理得到的每个窗口的第二偏移值,基于所述第二偏移值对划窗处理得到的每个窗口的范围进行修正,包括:
对所述第二特征图进行划窗处理,基于所述第二特征图,预测划窗处理得到的每个矩形窗口的两个对角顶点的横坐标和纵坐标的偏移值;
基于所预测的每个矩形窗口的两个对角顶点的横坐标和纵坐标的偏移值,对划窗处理得到的对应的矩形窗口的两个对角顶点的横坐标和纵坐标分别进行修正;
所述基于修正后的每个窗口确定所述第二特征图中每个块的自注意力,将确定自注意力后的特征图作为所述第一特征图或者所述目标特征图,包括:
基于划窗处理得到的每个矩形窗口内矩形块的相对位置编码,通过双线性插值确定修正后的每个矩形窗口内矩形块的相对位置编码;
基于所确定的相对位置编码,在修正后的每个矩形窗口内,确定所述第二特征图中每个矩形块的自注意力,将确定自注意力后的特征图作为所述第一特征图或者所述目标特征图。
6.根据权利要求5所述的基于可形变划块的局部自注意力的图像处理方法,其特征在于,所述对输入图像进行特征提取,得到第一特征图,包括:
对所述输入图像进行划块处理;
通过线性变换对划块处理得到的每个块进行特征提取处理,得到具有目标通道数的第三特征图;
对所述第三特征图进行划窗处理,基于所述第三特征图预测划窗处理得到的每个窗口的第二偏移值,基于所述第二偏移值对划窗处理得到的每个窗口的范围进行修正;
基于修正后的每个窗口确定所述第三特征图中每个块的自注意力,得到所述第一特征图。
7.一种基于可形变划块的局部自注意力的图像处理模型,其特征在于,包括:
特征提取模块,用于对输入图像进行特征提取,得到第一特征图;
自注意力计算模块,用于确定所述第一特征图的自注意力,得到目标特征图;
结果确定模块,用于基于所述目标特征图确定图像处理的结果;
其中,所述自注意力计算模块,包括:
可形变划块单元,用于对所述第一特征图进行划块处理,基于所述第一特征图预测划块处理得到的每个块的第一偏移值,基于所述第一偏移值对划块处理得到的每个块的范围进行修正;
特征提取单元,用于基于所述第一特征图中修正后的每个块进行特征提取,得到第二特征图;
自适应划窗单元,用于对所述第二特征图进行划窗处理,基于所述第二特征图预测划窗处理得到的每个窗口的第二偏移值,基于所述第二偏移值对划窗处理得到的每个窗口的范围进行修正;
自注意力计算单元,用于基于修正后的每个窗口确定所述第二特征图中每个块的自注意力,将确定自注意力后的特征图作为所述第一特征图或者所述目标特征图。
8.一种电子设备,包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现如权利要求1至6任一项所述基于可形变划块的局部自注意力的图像处理方法的步骤。
9.一种非暂态计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1至6任一项所述基于可形变划块的局部自注意力的图像处理方法的步骤。
10.一种计算机程序产品,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1至6任一项所述基于可形变划块的局部自注意力的图像处理方法的步骤。
CN202111575874.6A 2021-12-22 2021-12-22 基于可形变划块的局部自注意力的图像处理方法和系统 Active CN113963009B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111575874.6A CN113963009B (zh) 2021-12-22 2021-12-22 基于可形变划块的局部自注意力的图像处理方法和系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111575874.6A CN113963009B (zh) 2021-12-22 2021-12-22 基于可形变划块的局部自注意力的图像处理方法和系统

Publications (2)

Publication Number Publication Date
CN113963009A true CN113963009A (zh) 2022-01-21
CN113963009B CN113963009B (zh) 2022-03-18

Family

ID=79473642

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111575874.6A Active CN113963009B (zh) 2021-12-22 2021-12-22 基于可形变划块的局部自注意力的图像处理方法和系统

Country Status (1)

Country Link
CN (1) CN113963009B (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115239765A (zh) * 2022-08-02 2022-10-25 合肥工业大学 基于多尺度可形变注意力的红外图像目标跟踪系统及方法
CN115880567A (zh) * 2023-03-03 2023-03-31 深圳精智达技术股份有限公司 一种自注意力的计算方法、装置、电子设备和存储介质

Citations (17)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20140081813A1 (en) * 2000-09-08 2014-03-20 Intelligent Technologies International, Inc. Asset Monitoring Using the Internet
RU2669412C1 (ru) * 2017-09-20 2018-10-11 Общество с ограниченной ответственностью "Научно-производственное предприятие "РостТех" (ООО "НПП "РостТех") Устройство для установки металлического пластыря в наклонно-направленных и горизонтальных участках нефтяных и газовых скважин
CN110060236A (zh) * 2019-03-27 2019-07-26 天津大学 基于深度卷积神经网络的立体图像质量评价方法
CN110648334A (zh) * 2019-09-18 2020-01-03 中国人民解放军火箭军工程大学 一种基于注意力机制的多特征循环卷积显著性目标检测方法
CN111178432A (zh) * 2019-12-30 2020-05-19 武汉科技大学 多分支神经网络模型的弱监督细粒度图像分类方法
CN111861880A (zh) * 2020-06-05 2020-10-30 昆明理工大学 基于区域信息增强与块自注意力的图像超分与融合方法
CN112668469A (zh) * 2020-12-28 2021-04-16 西安电子科技大学 基于深度学习的多目标检测识别方法
CN112785486A (zh) * 2019-11-07 2021-05-11 英特尔公司 用于图像去噪声的自适应可变形核预测网络
CN113361567A (zh) * 2021-05-17 2021-09-07 上海壁仞智能科技有限公司 图像处理方法、装置、电子设备和存储介质
CN113361537A (zh) * 2021-07-23 2021-09-07 人民网股份有限公司 基于通道注意力的图像语义分割方法及装置
CN113379819A (zh) * 2020-03-09 2021-09-10 辉达公司 使用神经网络来扩展图像的技术
CN113537027A (zh) * 2021-07-09 2021-10-22 中国科学院计算技术研究所 基于面部划分的人脸深度伪造检测方法及系统
US20210358123A1 (en) * 2020-05-15 2021-11-18 Retrace Labs AI Platform For Pixel Spacing, Distance, And Volumetric Predictions From Dental Images
CN113674334A (zh) * 2021-07-06 2021-11-19 复旦大学 基于深度自注意力网络和局部特征编码的纹理识别方法
US20210365736A1 (en) * 2020-05-15 2021-11-25 Retrace Labs Dental Image Quality Prediction Platform Using Domain Specific Artificial Intelligence
CN113709455A (zh) * 2021-09-27 2021-11-26 北京交通大学 一种使用Transformer的多层次图像压缩方法
CN113723553A (zh) * 2021-09-07 2021-11-30 中国科学院软件研究所 一种基于选择性密集注意力的违禁物品检测方法

Patent Citations (17)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20140081813A1 (en) * 2000-09-08 2014-03-20 Intelligent Technologies International, Inc. Asset Monitoring Using the Internet
RU2669412C1 (ru) * 2017-09-20 2018-10-11 Общество с ограниченной ответственностью "Научно-производственное предприятие "РостТех" (ООО "НПП "РостТех") Устройство для установки металлического пластыря в наклонно-направленных и горизонтальных участках нефтяных и газовых скважин
CN110060236A (zh) * 2019-03-27 2019-07-26 天津大学 基于深度卷积神经网络的立体图像质量评价方法
CN110648334A (zh) * 2019-09-18 2020-01-03 中国人民解放军火箭军工程大学 一种基于注意力机制的多特征循环卷积显著性目标检测方法
CN112785486A (zh) * 2019-11-07 2021-05-11 英特尔公司 用于图像去噪声的自适应可变形核预测网络
CN111178432A (zh) * 2019-12-30 2020-05-19 武汉科技大学 多分支神经网络模型的弱监督细粒度图像分类方法
CN113379819A (zh) * 2020-03-09 2021-09-10 辉达公司 使用神经网络来扩展图像的技术
US20210358123A1 (en) * 2020-05-15 2021-11-18 Retrace Labs AI Platform For Pixel Spacing, Distance, And Volumetric Predictions From Dental Images
US20210365736A1 (en) * 2020-05-15 2021-11-25 Retrace Labs Dental Image Quality Prediction Platform Using Domain Specific Artificial Intelligence
CN111861880A (zh) * 2020-06-05 2020-10-30 昆明理工大学 基于区域信息增强与块自注意力的图像超分与融合方法
CN112668469A (zh) * 2020-12-28 2021-04-16 西安电子科技大学 基于深度学习的多目标检测识别方法
CN113361567A (zh) * 2021-05-17 2021-09-07 上海壁仞智能科技有限公司 图像处理方法、装置、电子设备和存储介质
CN113674334A (zh) * 2021-07-06 2021-11-19 复旦大学 基于深度自注意力网络和局部特征编码的纹理识别方法
CN113537027A (zh) * 2021-07-09 2021-10-22 中国科学院计算技术研究所 基于面部划分的人脸深度伪造检测方法及系统
CN113361537A (zh) * 2021-07-23 2021-09-07 人民网股份有限公司 基于通道注意力的图像语义分割方法及装置
CN113723553A (zh) * 2021-09-07 2021-11-30 中国科学院软件研究所 一种基于选择性密集注意力的违禁物品检测方法
CN113709455A (zh) * 2021-09-27 2021-11-26 北京交通大学 一种使用Transformer的多层次图像压缩方法

Non-Patent Citations (6)

* Cited by examiner, † Cited by third party
Title
BOYU CHEN 等: ""Glit: Neural architecture search for global and local image transformer"", 《 ICCV》 *
ZHAOWEN LI 等: ""MST: Masked Self-Supervised Transformer for Visual Representation"", 《ARXIV:2106.05656V2》 *
ZHIYANG CHEN 等: ""DPT: Deformable Patch-based Transformer for Visual Recognition"", 《ARXIV:2107.14467V1 [CS.CV]》 *
樊龙飞: ""基于自适应卷积网络和视觉注意力机制的视频目标检测方法"", 《中国硕士学位论文全文数据库 信息科技辑》 *
赵朝阳: ""低压光储直流微网设计与试验研究"", 《中国硕士学位论文全文数据库 工程科技Ⅱ辑》 *
金鑫 等: ""面向嵌入式系统的高精度实时人群计数算法研究"", <高技术通讯> *

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115239765A (zh) * 2022-08-02 2022-10-25 合肥工业大学 基于多尺度可形变注意力的红外图像目标跟踪系统及方法
CN115239765B (zh) * 2022-08-02 2024-03-29 合肥工业大学 基于多尺度可形变注意力的红外图像目标跟踪系统及方法
CN115880567A (zh) * 2023-03-03 2023-03-31 深圳精智达技术股份有限公司 一种自注意力的计算方法、装置、电子设备和存储介质

Also Published As

Publication number Publication date
CN113963009B (zh) 2022-03-18

Similar Documents

Publication Publication Date Title
US11488308B2 (en) Three-dimensional object detection method and system based on weighted channel features of a point cloud
CN110738207B (zh) 一种融合文字图像中文字区域边缘信息的文字检测方法
CN113963009B (zh) 基于可形变划块的局部自注意力的图像处理方法和系统
CN108510504B (zh) 图像分割方法和装置
CN111627015B (zh) 小样本缺陷识别方法、装置、设备及存储介质
CN110570440A (zh) 一种基于深度学习边缘检测的图像自动分割方法及装置
CN108961180B (zh) 红外图像增强方法及系统
CN106169174B (zh) 一种图像放大方法
KR101618996B1 (ko) 호모그래피를 추정하기 위한 샘플링 방법 및 영상 처리 장치
CN112233129B (zh) 基于深度学习的并行多尺度注意力机制语义分割方法及装置
CN107784288A (zh) 一种基于深度神经网络的迭代定位式人脸检测方法
CN110348531B (zh) 具有分辨率适应性的深度卷积神经网络构建方法及应用
CN111179270A (zh) 基于注意力机制的图像共分割方法和装置
CN109712075B (zh) 一种数字图像数据原图识别方法及装置
CN115272691A (zh) 一种钢筋绑扎状态检测模型的训练方法、识别方法及设备
Pan et al. Optimal O (1) bilateral filter with arbitrary spatial and range kernels using sparse approximation
CN113077477B (zh) 图像矢量化方法、装置及终端设备
CN110136061B (zh) 一种基于深度卷积预测与插值的分辨率提升方法及系统
CN114511862B (zh) 表格识别方法、装置及电子设备
US10115195B2 (en) Method and apparatus for processing block to be processed of urine sediment image
CN110991230A (zh) 基于旋转候选框的任意方向遥感影像舰船检测方法及系统
CN114723973A (zh) 大尺度变化鲁棒的图像特征匹配方法及装置
CN113657196A (zh) Sar图像目标检测方法、装置、电子设备和存储介质
CN112419407A (zh) 基于云团边缘识别的云团位移矢量计算方法及装置
CN114648751A (zh) 一种处理视频字幕的方法、装置、终端及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant