CN114092773B

CN114092773B - 信号处理方法、信号处理装置、电子设备及存储介质

Info

Publication number: CN114092773B
Application number: CN202111272720.XA
Authority: CN
Inventors: 伍天意; 吴思彤; 郭国栋
Original assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Current assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Priority date: 2021-10-29
Filing date: 2021-10-29
Publication date: 2023-11-21
Anticipated expiration: 2041-10-29
Also published as: CN114092773A; US20230135109A1

Abstract

本公开的示例实施例提供了一种信号处理方法、信号处理装置、电子设备及存储介质。涉及人工智能技术领域，具体为深度学习、计算机视觉技术领域。该信号处理方法包括：响应于接收输入特征图，将输入特征图划分为多个行和多个列的特征图子块，其中输入特征图表示信号的特征；从多个行中选择行子集以及从多个列中选择列子集，其中行子集中的行之间至少彼此间隔开一行，以及列子集中的列之间至少彼此间隔开一列；以及对行子集对应的特征图子块和列子集对应的特征图子块执行自注意力计算，以获得信号的聚合特征。本公开的实施例能够大幅降低计算量，减少聚合过程中信息的损失和混淆，使得能够在相似的计算复杂度下捕获更丰富的上下文信息。

Description

信号处理方法、信号处理装置、电子设备及存储介质

技术领域

本公开涉及人工智能技术领域，尤其涉及为深度学习、计算机视觉技术领域。具体地，涉及信号处理方法及装置、电子设备、计算机可读存储介质和计算机程序产品。

背景技术

人工智能技术飞速发展，计算机视觉在人工智能系统中扮演着重要角色。计算机视觉旨在识别和理解图像/图像中的内容，其主要任务就是通过对采集的图片或视频进行处理以获得相应场景的三维信息。计算机视觉的基本任务主要包括分类、定位、检测、分割等。在当前解决计算机视觉任务的主干网络中，存在计算复杂度高和上下文建模不够充分等问题。

发明内容

本公开提供了一种用于信号处理的的方法及装置、电子设备、计算机可读存储介质和计算机程序产品。

根据本公开的第一方面，提供了一种信号处理方法。该方法包括：响应于接收输入特征图，将输入特征图划分为多个行和多个列的特征图子块，其中输入特征图表示信号的特征；从多个行中选择行子集以及从多个列中选择列子集，其中行子集中的行之间至少彼此间隔开一行，以及列子集中的列之间至少彼此间隔开一列；以及对行子集对应的特征图子块和列子集对应的特征图子块执行自注意力计算，以获得信号的聚合特征。

在本公开的第二方面中，提供了一种信号处理装置。该装置包括：特征图划分模块，被配置为响应于接收输入特征图，将输入特征图划分为多个行和多个列的特征图子块，其中输入特征图表示信号的特征；选择模块，被配置为从多个行中选择行子集以及从多个列中选择列子集，其中行子集中的行之间至少彼此间隔开一行，以及列子集中的列之间至少彼此间隔开一列；以及自注意力计算模块，被配置为对行子集对应的特征图子块和列子集对应的特征图子块执行自注意力计算，以获得信号的聚合特征。。

在本公开的第三方面中，提供了一种电子设备，包括一个或多个处理器；以及存储装置，用于存储一个或多个程序，当一个或多个程序被一个或多个处理器执行，使得一个或多个处理器实现根据本公开的第一方面的方法。

在本公开的第四方面中，提供了一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现根据本公开的第一方面的方法。

在本公开的第五方面中，提供了一种计算机程序产品，计算机程序在被处理器执行时实现根据本公开的第一方面的方法。

应当理解，本部分所描述的内容并非旨在标识本公开的实施例的关键或重要特征，也不用于限制本公开的范围。本公开的其它特征将通过以下的说明书而变得容易理解。

附图说明

附图用于更好地理解本方案，不构成对本公开的限定。结合附图并参考以下详细说明，本公开各实施例的上述和其他特征、优点及方面将变得更加明显。在附图中，相同或相似的附图标记表示相同或相似的元素，其中：

图1示出了本公开的多个实施例能够在其中实现的示例环境的示意图；

图2示出了根据本公开的实施例的用于信号处理的方法的流程图；

图3示出了根据本公开的实施例的自注意力方法的示意图；

图4示出了根据本公开的实施例的生成第一尺度的特征图的方法流程示意图；

图5示出了根据本公开的实施例的基于自注意力机制的信号处理方法示意图；

图6示出了根据本公开的实施例的信号处理装置的示意图；(图1方框图的方法)

图7示出了根据本公开的基于自注意力机制的信号处理装置的示意框图；

图8示出了根据本公开的实施例的基于自注意力机制的信号处理装置的示意图；以及

图9示出了能够实施本公开的多个实施例的计算设备的框图。

具体实施方式

以下结合附图对本公开的示范性实施例做出说明，其中包括本公开实施例的各种细节以助于理解，应当将它们认为仅仅是示范性的。因此，本领域普通技术人员应当认识到，可以对这里描述的实施例做出各种改变和修改，而不会背离本公开的范围和精神。同样，为了清楚和简明，以下的描述中省略了对公知功能和结构的描述。

在本公开的实施例的描述中，术语“包括”及其类似用语应当理解为开放性包含，即“包括但不限于”。术语“基于”应当理解为“至少部分地基于”。术语“一个实施例”或“该实施例”应当理解为“至少一个实施例”。术语“第一”、“第二”等等可以指代不同的或相同的对象。下文还可能包括其他明确的和隐含的定义。

如前面所提到的，在当前解决计算机视觉任务的主干网络中，存在计算复杂度高和上下文建模不够充分等问题。自注意力网络(Transformer)被越来越多地应用到在这类主干网络中。自注意力网络被证明是一个简单和可扩展的框架，可用于计算机视觉任务，如图像识别、分类和分割，或仅仅学习全局图像表示。目前，越来越多地将自注意力网络应用到计算机视觉任务中，以降低结构的复杂性，探索可扩展性和训练效率。

自注意力(Self-Attention)有时候也称为内部注意力，是一个与单个序列的不同位置相关的注意力机制。它是自注意力网络的核心内容，可以理解为将队列和一组值与输入对应，即形成查询(Query)、键值(Key)、以及值项(Value)向输出(output)的映射，output可以看作是value的加权求和，加权值则是通过自注意力来得出的。

目前针对自注意力网络主干网络的中的自注意力机制主要有以下三类：

第一类，全局自注意力：该方案将图像划分成多个特征图子块(patch)，然后对所有特征图子块之间进行自注意力计算，因此可以获得全局的上下文信息。

第二类，稀疏自注意力：该方案通过减小自注意力中的key的数量来降低计算量，相当于对全局自注意力进行稀疏化。

第三类，局部自注意力：该方案将自注意力的区域限制在局部，并引入了跨窗口的特征融合。

第一类方法尽管可以获得全局的感受野，但是通常具有非常大的计算复杂度，因为每个特征图子块都需要和其他所有特征图子块建立联系，并且方法需要大量的数据用作训练。

第二类稀疏自注意力方法，将特征图子块之间密集的连接变为稀疏的连接来降低计算量，但是会导致信息的损失和混淆，且依赖于语义丰富的高层特征。

第三类方法只在局部窗口内的特征图子块之间进行基于注意力的信息传递，尽管可以很大程度上降低计算量，但是也会导致感受野减小、上下文建模不够充分。针对这个问题，已知的一种方案是在相邻的层中交替使用两种不同的窗口划分方式来使得信息可以在不同的窗口之间传递。已知的另外一种方案是将窗口形状变为一行一列或相邻的多行多列来增大感受野。尽管这类方案在一定程度上降低了计算量，但它们的上下文依赖还不够丰富，在单个自注意力层中无法捕获足够的上下文信息，因此限制了整个网络的建模能力。

为了解决上述至少一些问题，本公开的实施例提供了改进方案。该方案中，响应于接收输入特征图，将输入特征图划分为多个行和多个列的特征图子块，其中输入特征图表示信号的特征。从多个行中选择行子集以及从多个列中选择列子集。行子集中的行之间至少彼此间隔开一行，列子集中的列之间至少彼此间隔开一列。对行子集对应的特征图子块和列子集对应的特征图子块执行自注意力计算，以获得信号的聚合特征。以此方式，本公开实施例的方案相比于全意局自注力方法，能够大幅降低计算量。相比于稀疏自注意力方法，本公开的方案减少了聚合过程中信息的损失和混淆。相比于局部自注意力方法，本公开的方案可以在相似的计算复杂度下捕获更丰富的上下文信息。

在本公开的实施例中，主要以图像信号处理为例进行介绍。但是本公开的方案并不限于图像处理，而是可以应用于其他多种处理对象。例如，语音信号、文本信号等等。

以下将参照附图来具体描述本公开的实施例。图1示出了本公开的多个实施例能够在其中实现的示例环境100的示意图。如图1所示，示例环境100中包含输入信号110、计算设备120和经计算设备120生成输出信号130。

在某些实施例中，输入信号110可以是图像信号。例如，输入信号110可以是计算设备本地存储的图像，也可以是外部输入的图像，例如，从网上下载的图像。在某些实施例中，计算设备120还可以外接图像获取设备以获取图像。计算设备120对输入信号110进行处理，生成输出信号130。

在某些实施例中，计算设备120可以包括但不限于个人计算机、服务器计算机、手持或膝上型设备、移动设备(诸如移动电话、个人数字助理PDA、媒体播放器等)、消费电子产品、小型计算机、大型计算机、云计算资源等。

应当理解，仅出于示例性的目的描述示例环境100的结构和功能并不旨在限制本文所描述主题的范围。本文所描述主题可以在不同的结构和/或功能中实施。

上文描述的技术方案仅用于示例，而非限制本发明。应理解，示例环境100还可以具有其他多种方式。为了更清楚地解释本公开方案的原理，下文将参考图2来更详细描述信号处理的过程。

图2示出了根据本公开的实施例的用于信号处理的方法的流程图。在某些实施例中，信号处理过程200可以在图1的计算设备120中实现。现参照图2并结合图1、图3描述根据本公开实施例的用于信号处理过程200。为了便于理解，在下文描述中提及的具体实例均是示例性的，并不用于限定本公开的保护范围。

在框202，计算设备120响应于接收输入特征图302，例如输入信号110的特征图，将输入特征图302划分为多个行和多个列的特征图子块。输入特征图302表示信号的特征。在某些实施例中，输入特征图302为图像的特征图，该特征图表示图像中的特征。在某些实施例中，输入特征图302可以是其他信号的特征图，例如，语音信号、文本信号等。在某些实施例中，输入特征图302可以是经过神经网络对输入信号(例如图像)进行预处理而得到特征(例如图像特征)。在某些实施例中，输入特征图302通常可为矩形形状。可根据输入特征图302的尺寸将输入特征图302划分为相应数量的多个行和多个列，以确保特征图分为完整的多个行和完整的多个列，从而避免补零(padding)。

在某些实施例中，每个行可以具有相同尺寸，每个列可以具有相同的尺寸。上述实施例中划分多个行和多个列的方式仅仅是示例性的，本公开的实施例并不限于上述方式，而是可以有多种变型方式。例如，每个行的尺寸并不限于相同，也可以包括一些不同尺寸的行，每个列的尺寸也并不限于相同，也可以包括一些不同尺寸的列。

在某些实施例中，输入特征图302分为在通道维度上相互独立的第一特征图306和第二特征图304。将第一特征图306划分为多个列，以及将第二特征图304划分为多个行。例如，在某些实施例中，给定输入特征图X∈R^h×w×c，可以首先在通道维度上将它分成两个独立的部分和/>然后分别将X_r和X_c分成多个组，如下：

其中：

Xr为向量矩阵，表示与第一特征图306的特征图子块对应的向量的矩阵，表示与第一特征图306的第一行(间隔行)的特征图子块对应的向量；

表示与第一特征图306的第Nr行的特征图子块对应的向量。

也就是说X_r包括这些组。

X_c为向量矩阵，表示与第二特征图304的特征图子块对应的向量的矩阵；

表示与第二特征图304的第一列(间隔列)的特征图子块对应的向量。/>表示与第二特征图304的第Nc列的特征图子块对应的向量，即，X_c包括/>这些组。

其中，N_r＝h/s_r，N_c＝w/s_c，和/>其中，h为输入特征图302的高度，w为输入特征图302的宽度，Sr为有间隔的行(即行子集中的行)的数量，s_c为有间隔的列(即，列子集中的列)的数量。/>表示与第一特征图306的第i行(间隔行)的特征图子块对应的向量。/>表示与第二特征图304的第j列(间隔列)的特征图子块对应的向量。其中R为实数，c为向量的维度。

以此方式，在某些实施例中，只需要保证h可以被s_r整除，且w可以被s_c整除即可，从而避免补零。

通过这种划分方式，可以将自注意力计算分解成行方向的自注意力计算和列方向的自注意力计算。下文对此详细介绍。

在某些实施例中，接收输入特征图，对输入特征图进行空间下采样，以获得下采样特征图。以此方式，能够缩小图像，换言之，可以生成图像的缩略图，从而能够降低特征的维度并保留有效信息。以此方式，能够在一定程度上避免过拟合，保持旋转、平移、伸缩不变形。

在框204，从所划分的多个行中选择行子集以及从多个列中选择列子集。行子集中的行之间至少彼此间隔开一行，并且列子集中的列之间至少彼此间隔开一列。在某些实施例中，行子集的各个行中可以间隔开相等的距离。例如，间隔开一行、两行、或者其他数量的行。列子集的各个列中可以间隔开相等的距离。例如，间隔开一列、两列、或者其他数量的列。

在某些实施例中，从多个行中选择行子集以及从多个列中选择列子集可以包括：从行子集和列子集中确定多个栅栏，其中每个栅栏包括行子集中的至少一个行和列子集中的至少一个列。例如，可参照图3中的聚合特征图308。聚合特征图308所示的阴影部分构成栅栏。在某些实施例中，一个栅栏可以由多行子集中的行和多个列子集中的列组成。例如，在某些实施例中，一个栅栏可以由s_r个有间隔的行(即行子集中的行)和s_c个有间隔的列(即，行子集中的列)组成，其中s_r和s_c为大于1的整数。因此每个栅栏包含(s_rw+s_ch-s_rs_c)个特征图子块，s_rw即为每行上的特征图子块的数量，s_ch即为每列上的特征图子块的数量。s_rs_c小为栅栏中的行与列交叉的方格的数量。方格可代表特征图上的一个点。w为栅栏的宽度，h为栅栏的高度。在某些实施例中，特征图的尺寸(宽度、长度)可以等于栅栏的尺寸。在某些实施例中，可将(s_r,s_c)定义为栅栏的尺寸。给定输入特征图X∈R^h×w×c，其中R为实数，h为栅栏的高度，w为栅栏的宽度，c为维度。维度例如可以为128、256、512、1024等等。在某些实施例中，可将输入特征图划分成多个相同尺寸的栅栏{P_P,...,P_N}，其中栅栏的数量为N＝h/Sr＝w/Sc。对于所有的栅栏，栅栏中的相邻行或列之间的间隔可以是相同的，也可以是不同的。在某些实施例中，可以在每个栅栏内的行和列所对应的特征图子块分别执行自注意力计算。以此方式，相比于全局自注力，大幅降低了计算量。而且，相比于局部自注意力方法，栅栏形自注意力网络的感受野更大，可以捕获更丰富的上下文信息。

在框206，计算设备120对行子集对应的特征图子块和列子集对应的特征图子块执行自注意力计算，以获得信号的聚合特征。在某些实施例中，对行子集对应的特征图子块和列子集对应的特征图子块执行自注意力计算包括：对多个栅栏中的每一个栅栏所对应的特征图子块分别执行自注意力计算，以获得相应的子聚合特征。并且将各个相应的子聚合特征级联，以获得聚合特征。

下面结合图3对此进一步说明。图3示出了根据本公开的实施例的自注意力方法的示意图。如图3所示，该过程300中，输入特征图302分为在通道维度上相互独立的第一特征图306和第二特征图304。第一特征图306划分为多个列，第二特征图304划分为多个行在某些实施例中对行子集对应的特征图子块和列子集对应的特征图子块分别执行自注意力计算。该计算包括对第一特征图306的行子集和第二特征图304的列子集分别执行自注意力计算，以分别获得第一子聚合特征和第二子聚合特征；并且将第一子聚合特征和第二子聚合特征在通道维度上级联，以生成聚合特征。以此方式，通过将输入特征图302分为在通道维度上相互独立的第一特征图306和第二特征图304，并对其进一步分组，然后对行方向上的分组与列方向上的分组并行执行自注意力计算。这种自注意力机制能够进一步降低计算复杂度。

在某些实施例中，分别对第一特征图的行子集和第二特征图的列子集执行自注意力计算包括：将第一特征图中的行子集分成多个行组，每个行组中包括至少一个行；将第二特征图中的列子集分成多个列组，每个列组中包括至少一个列。分组方式如前面针对公式(1)所描述的，X_r包括这些组。X_c包括/>这些组。对每个行组对应的特征图子块和每个列组对应的特征图子块分别执行自注意力计算，以分别获得相应的行聚合特征和相应的列聚合特征；并且将各个相应的行聚合特征和相应的列聚合特征在通道维度上级联，以获得聚合特征。以此方式，通过将第一特征图中的各个行组和第二特征图中的各个列组分别进行自注意力计算，可以降低计算量，提高计算效率。

在某些实施例中，对每个行组对应的特征图子块和每个列组对应的特征图子块分别执行自注意力计算包括：分别确定每个行组以及每个列组的第一矩阵、第二矩阵、第三矩阵，第一矩阵、第二矩阵、第三矩阵分别用于生成每个行组以及每个列组的查询Query、键值Key、以及值项Value；分别对每个行组的第一矩阵、第二矩阵、第三矩阵以及每个列组的第一矩阵、第二矩阵、第三矩阵进行多头自注意力计算。以此方式，通过对每个行组以及每个列组的矩阵进行相应的运算，能够提升计算效率。

在某些实施例中，在每个行方向组和列方向组上分别进行自注意力的计算，如下：

其中，如前所述，表示与第一特征图306的第i行的特征图子块对应的向量。/>为与第二特征图304的第j列的特征图子块对应的向量，φ_Q，φ_K和φ_V分别为前面提到的第一矩阵、第二矩阵、第三矩阵，分别代表生成查询(Query)、键值(Key)、值项(Value)的矩阵。本公开实施例的φ_Q，φ_K和φ_V并不限于代表生成查询(Query)、键值(Key)、值项(Value)的矩阵，在某些实施例中还可以采用其他矩阵。i∈{1,2,...,N}，MSA表示对上述矩阵执行多头自注意力计算。/>表示对上述行方向(r方向)上的向量进行多头自注意力计算所得到的结果；/>表示对上述列方向(c方向)上的向量进行多头自注意力计算所得到的结果。将行方向的自注意力和列方向的自注意力的输出在通道维度上级联，得到最终的输出Y∈R^h×w×c。在某些实施例中，进行多头自注意力计算时，将φ_Q，φ_K相乘，之后进行归一化处理，归一化处理的结果与φ_V相乘。

将行方向的自注意力和列方向的自注意力的输出在通道维度上合并，得到最终的输出Y∈R^h×w×c。

Y＝Concat(Y_r,Y_c) (3)

其中，Y_r表示对所有行方向上的向量进行多头自注意力计算所得到总和，Y_c表示对所有行方向上的向量进行多头自注意力计算所得到总和。Concat表示对Y_r,Y_c进行级联，即在空间维度上对二者进行合并。Y表示级联的结果。上述实施例能够降低自注意力计算的复杂度。复杂度分析如下：假设输入特征分辨率为h×w×c，栅栏尺寸为(s_r,s_c)。

全局自注意力的计算复杂度为：

表示全局自注意力的计算复杂度，其余参数的含义如前所述。栅栏形自注意力(PS-Attention)的计算复杂度为：

表示栅栏形自注意力方法的计算复杂度，其余参数的含义如前所述。

可见，本公开实施例的自注意力的计算复杂度显著低于全局自注意力的计算复杂度。

应当理解，本公开的自注意力机制并不限于上述结合附图所描述的特定的实施例，而是可以有多种变化形式。本领域技术人员基于上述示例的方式，容易想到各种变形。

图4示出了根据本公开的实施例的生成第一尺度的特征图方法流程图。如图4所示，在该过程400中，在某些实施例中，在框402，对特征图进行条件位置编码，以生成编码特征图。以此方式，能够更准确获得特征的位置。在某些实施例中，可以先对输入特征图进行下采样，以获得下采样特征图。在某些实施例中，对下采样特征图进行条件位置编码包括：对下采样特征图进行深度(depth-wise)卷积计算，以生成编码特征图。以此方式，能够快速地生成编码特征图。在框404，将下采样特征图与编码特征图相加，以生成第一特征向量。在框406，对第一特征向量进行层归一化，以生成第一归一化特征向量。在框408，对第一归一化特征向量进行自注意力计算，以生成第二特征向量。在框410，将第一向量与第二特征向量相加，以生成第三特征向量。在框412，对第三特征向量进行层归一化处理，以生成第二归一化特征向量。在框414，对所述第二归一化特征向量进行多感知积计算，以生成第四特征向量。在框416，将第二层归一化特征向量与第四特征向量相加，以生成第一尺度的特征图。以此方式，能够提升对输入特征图的特征学习的能力和性能。

图5示出了根据本公开的实施例的基于自注意力的信号处理方法示意图。如图5所示，在该过程500中，在框502，接收输入特征图。在框504，对输入特征图执行块合并处理。在某些实施例中，通过对输入特征图执行块合并处理能够实现在空间上对特征图进行下采样，并且能够扩大通道维度，例如扩大为原来的2倍。在某些实施例中，可以采用7×7卷积，步长(stride)＝4来实现4倍下采样。在某些实施例中，可以采用使用3×3卷积，步长＝2，来实现2倍下采样。在框506，对块合并处理后的特征执行自注意力计算，以生成第一尺度的特征图。对块合并处理后的特征执行自注意力计算可以采用与前面针对如图4所描述的生成第一尺度的特征图的方法，此处不再赘述。

在某些实施例中，可以将第一尺度的特征图作为输入特征图，重复执行对输入特征图进行空间下采样以及生成可变尺度特征的步骤；其中在每个重复周期中，执行一次下采样以及至少一次生成可变尺度特征的步骤。实验表明，以此方式，能够进一步提升输出的特征图的质量。

图6示出了根据本公开的实施例信号处理装置的示意图；(图1方框图的方法)。如图6所示，信号处理装置600包括特征图划分模块610，被配置为响应于接收输入特征图，将输入特征图划分为多个行和多个列的特征图子块，其中输入特征图表示信号的特征。信号处理装置600还包括选择模块620，被配置为从多个行中选择行子集以及从多个列中选择列子集，其中行子集中的行之间至少彼此间隔开一行，以及列子集中的列之间至少彼此间隔开一列。信号处理装置600还包括自注意力计算模块630，被配置为对行子集对应的特征图子块和列子集对应的特征图子块执行自注意力计算，以获得信号的聚合特征。

在某些实施例中，特征图划分模块包括：栅栏确定模块，被配置为从行子集和列子集中确定多个栅栏，其中每个栅栏包括行子集中的至少一个行和列子集中的至少一个列。

在某些实施例中，自注意力计算模块包括：第一子自注意力计算模块，被配置为对多个栅栏中的每一个栅栏所对应的特征图子块分别执行自注意力计算，以获得相应的子聚合特征；以及第一级联模块，被配置为将各个相应的子聚合特征级联，以获得聚合特征。

在某些实施例中，特征图划分模块包括：特征图拆分模块，被配置为将输入特征图分为在通道维度上相互独立的第一特征图和第二特征图；以及行列划分模块，被配置为将第一特征图划分为多个行，以及将第二特征图划分为多个列。

在某些实施例中，自注意力计算模块包括：第二子自注意力计算模块，被配置为分别对第一特征图的行子集和第二特征图的列子集执行自注意力计算，以分别获得第一子聚合特征和第二子聚合特征；以及第二级联模块，被配置为将第一子聚合特征和第二子聚合特征在通道维度上级联，以生成聚合特征。

在某些实施例中，第二子自注意力计算模块包括：行组划分模块，被配置为将第一特征图中的行子集分成多个行组，每个行组中包括至少一个行；列组划分模块，被配置为将第二特征图中的列子集分成多个列组，每个列组中包括至少一个列；行列组自注意力计算单元，被配置为对每个行组对应的特征图子块和每个列组对应的特征图子块分别执行自注意力计算，以分别获得相应的行聚合特征和相应的列聚合特征；以及行列组级联单元，被配置为将各个相应的行聚合特征和相应的列聚合特征在通道维度上级联，以获得聚合特征。

在某些实施例中，行列组自注意力计算单元包括：矩阵确定单元，被配置为分别确定每个行组以及每个列组的第一矩阵、第二矩阵、第三矩阵，第一矩阵、第二矩阵、第三矩阵分别用于生成每个行组以及每个列组的查询、键值、以及值项；以及多头自注意力单元，被配置为分别对每个行组的第一矩阵、第二矩阵、第三矩阵以及每个列组的第一矩阵、第二矩阵、第三矩阵进行多头自注意力计算。

在某些实施例中，信号处理装置还包括：下采样模块，被配置为：对输入特征图进行空间下采样，以获得下采样特征图。

在某些实施例中，信号处理装置还包括：条件位置编码模块，被配置为对下采样特征图进行条件位置编码，以生成编码特征图。

在某些实施例中，条件位置编码模块被配置为通过对下采样特征图进行深度卷积计算来实施条件位置编码。

在某些实施例中，信号处理装置，包括串联连接的多个级，每个级包括条件位置编码模块以及至少一个可变尺度特征生成模块；其中每个可变尺度特征生成模块包括：第一特征向量生成模块，被配置为将下采样特征图与编码特征图相加，以生成第一特征向量；第一层归一化模块，被配置为对第一特征向量进行层归一化，以生成第一归一化特征向量；自注意力模块，被配置为对归一化特征向量进行自注意力计算，以生成第二特征向量；将第一向量与第二特征向量相加，以生成第三特征向量；第三特征向量生成模块，被配置为对第三特征向量进行层归一化，以生成第二归一化特征向量；多层感知积计算模块，被配置为对第二归一化特征向量计算多层感知积，以生成第四特征向量；以及第三加法模块，被配置为将第二层归一化特征向量与第四特征向量相加，以生成第一尺度的特征图。

在某些实施例中，信号处理装置还包括：将第一尺度的特征图作为输入特征图，重复执行对输入特征图进行空间下采样以及生成可变尺度特征的步骤；其中在每个重复周期中，执行一次下采样以及至少一次生成可变尺度特征的步骤。

通过上述实施例，提出了一种信号处理装置，该信号处理装置能够大幅降低计算量，减少聚合过程中信息的损失和混淆，并且能够在相似的计算复杂度下捕获更丰富的上下文信息。

图7示出了根据本公开的基于自注意力机制的处理装置示意框图。如图7所示，处理装置700包括CPE 702，第一加法模块704、第一层归一化模块706、栅栏形自注意力模块708、第二加法模块710、第二层归一化模块714、MLP以及第三加法模块。第一加法模块704，将输入的下采样特征图与编码特征图相加，以生成第一特征向量。第一层归一化模块706对第一特征向量进行层归一化，以生成第一归一化特征向量。栅栏形自注意力模块708对第一归一化特征向量进行自注意力计算，以生成第二特征向量。第二加法模块710将第一向量与第二特征向量相加，以生成第三特征向量。第二层归一化模块712，对第三特征向量进行层归一化处理，以生成第二归一化特征向量。MLP 714对所述第二归一化特征向量进行多层感知积计算，以生成第四特征向量。第三加法模块716将第二层归一化特征向量与第四特征向量相加，以生成第一尺度的特征图。以此方式，能够提升对输入特征图的特征学习的能力和性能。

图8示出了根据本公开的实施例的基于自注意力机制的信号处理装置示意图。如图8所示，基于自注意力机制的信号处装置800可以是通用的视觉自注意力主干网络，可称为做栅栏形自注意力网络(Pale Transformer)。在图8所示的实施例中，栅栏形自注意力网络包含4个级(stage)。本公开的实施例并不限于采用4个级，其他数量的级也是可能的。例如，可以采用一个级、二个级、三个级，……，N个级，其中N为正整数。该系统中，每个级可对应生成具有一种尺度的特征。在某些实施例中，使用具有多个级的层次化的结构来生成多尺度特征。每个级都由一个块合并层(Patch Merging Layer)和至少一个栅栏形自注意力网络块(Pale Transformer block)组成。

块合并层的作用主要有两个：(1)在空间上对特征图进行下采样，(2)扩大通道维度为原来的2倍。在某些实施例中，采用7×7卷积(stride＝2)来实现4倍下采样，使用3×3卷积(stride＝4)来实现2倍下采样。卷积核的参数是可学习的，根据不同的输入而不同。

栅栏形自注意力网络块由三个部分组成：条件位置编码(CPE)模块、PS-Attention模块和MLP(多层感知积，Multilayer Perceptron)模块。条件位置编码(CPE)模块可计算特征的位置。PS-Attention模块可用于对条件位置编码的向量进行自注意力计算。MLP模块包含两个线性层，分别用于扩张和收缩通道维度。第l个块的前向计算过程如下：

其中，CPE表示条件位置编码函数，用于获得特征图子块的位置；l表示装置中的第l个栅栏形自注意力网络块。X^l-1表示第X^l-1个注意力网络块的输出。表示第X^l-1个块的输出与该输出进行CPE计算后，将二者求和得到的第一结果。Ps-Attention表示栅栏形自注意力计算。LN表示层归一化。/>表示对第一结果与/>求和得到的第二结果。MLP表示多层感知积函数，用于将输入的多个数据集映射到单一的输出的数据集上。X^l表示对第二结果与/>求和得到的结果。条件位置编码(CPE)可以根据输入图像动态地生成位置编码。在某些实施例中，用一个深度(depth-wise)卷积来实现根据输入图像动态地生成位置编码。在某些实施例中，将特征图输入该卷积，即可输出位置编码。

在某些实施例中，每个级中可以包括一个或多个栅栏形自注意力块。在某些实施例中，第一级810中包括1个栅栏形自注意力块。第二级812中包括2个栅栏形自注意力块。第三级814中包括16个栅栏形MLP块。第四级812中包括2个栅栏形MLP块。

在某些实施例中，经过第一级810的处理，输入特征图的尺寸变小，例如，高度变为四分之一，宽度变为四分之一，维度例如为c。经过第二级820的处理，输入特征图的尺寸变小，例如，高度变为八分之一，宽度变为八分之一，维度例如为2c。经过第三级830的处理，输入特征图的尺寸变小，例如，高度变为十六分之一，宽度变为十六分之一，维度例如为4c。经过第四级840的处理，输入特征图的尺寸变小，例如，高度变为三十二分之一，宽度变为三十二分之一，维度例如为c。

在某些实施例中，对于第二级820，将第一级812输出的第一尺度的特征图作为第二级820的输入特征图，执行与第一级812中相同或类似的计算，以生成第二尺度的特征图。对于第N级，将第N-1级输出的第N-1尺度的特征图作为第N级的输入特征图，执行与前面相同或类似的计算，以生成第N尺度的特征图，其中N为大于等于2的整数。

在某些实施例中，基于自注意力机制的信号处装置800可以是基于自注意力机制的神经网络。

本公开的方案能够有效提升计算机视觉任务(比如图像分类、语义分割、目标检测等)的特征学习能力和性能。例如，能够大幅降低计算量，减少聚合过程中信息的损失和混淆，并且能够在相似的计算复杂度下捕获更丰富的上下文信息。本发明提出的栅栏形自注意力主干网络在三个权威数据集ImageNet-1K、ADE20K和COCO上都超过了相似模型大小和计算量的其他主干网络。

图9示出了能够实施本公开的多个实施例的计算设备900的框图。电子设备旨在表示各种形式的数字计算机，诸如，膝上型计算机、台式计算机、工作台、个人数字助理、服务器、刀片式服务器、大型计算机、和其它适合的计算机。电子设备还可以表示各种形式的移动装置，诸如，个人数字处理、蜂窝电话、智能电话、可穿戴设备和其它类似的计算装置。本文所示的部件、它们的连接和关系、以及它们的功能仅仅作为示例，并且不意在限制本文中描述的和/或者要求的本公开的实现。

如图9所示，设备900包括计算单元901，其可以根据存储在只读存储器(ROM)902中的计算机程序或者从存储单元908加载到随机访问存储器(RAM)903中的计算机程序，来执行各种适当的动作和处理。在RAM 903中，还可存储设备900操作所需的各种程序和数据。计算单元901、ROM 902以及RAM 903通过总线904彼此相连。输入/输出(I/O)接口905也连接至总线904。

设备900中的多个部件连接至I/O接口905，包括：输入单元905，例如键盘、鼠标等；输出单元907，例如各种类型的显示器、扬声器等；存储单元908，例如磁盘、光盘等；以及通信单元909，例如网卡、调制解调器、无线通信收发机等。通信单元909允许设备900通过诸如因特网的计算机网络和/或各种电信网络与其他设备交换信息/数据。

计算单元901可以是各种具有处理和计算能力的通用和/或专用处理组件。计算单元901的一些示例包括但不限于中央处理单元(CPU)、图形处理单元(GPU)、各种专用的人工智能(AI)计算芯片、各种运行机器学习模型算法的计算单元、数字信号处理器(DSP)、以及任何适当的处理器、控制器、微控制器等。计算单元901执行上文所描述的各个方法和处理，例如过程200、300、400、500。例如，在某些实施例中，过程200、300、400、500可被实现为计算机软件程序，其被有形地包含于机器可读介质，例如存储单元908。在某些实施例中，计算机程序的部分或者全部可以经由ROM 902和/或通信单元909而被载入和/或安装到设备900上。当计算机程序加载到RAM 903并由计算单元901执行时，可以执行上文描述的过程200、300、400、500的一个或多个步骤。备选地，在其他实施例中，计算单元901可以通过其他任何适当的方式(例如，借助于固件)而被配置为执行过程200、300、400、500。

本文中以上描述的系统和技术的各种实施方式可以在数字电子电路系统、集成电路系统、场可编程门阵列(FPGA)、专用集成电路(ASIC)、专用标准产品(ASSP)、芯片上系统的系统(SOC)、负载可编程逻辑设备(CPLD)、计算机硬件、固件、软件、和/或它们的组合中实现。这些各种实施方式可以包括：实施在一个或者多个计算机程序中，该一个或者多个计算机程序可在包括至少一个可编程处理器的可编程系统上执行和/或解释，该可编程处理器可以是专用或者通用可编程处理器，可以从存储系统、至少一个输入装置、和至少一个输出装置接收数据和指令，并且将数据和指令传输至该存储系统、该至少一个输入装置、和该至少一个输出装置。

用于实施本公开的方法的程序代码可以采用一个或多个编程语言的任何组合来编写。这些程序代码可以提供给通用计算机、专用计算机或其他可编程数据处理装置的处理器或控制器，使得程序代码当由处理器或控制器执行时使流程图和/或框图中所规定的功能/操作被实施。程序代码可以完全在机器上执行、部分地在机器上执行，作为独立软件包部分地在机器上执行且部分地在远程机器上执行或完全在远程机器或服务器上执行。

在本公开的上下文中，机器可读介质可以是有形的介质，其可以包含或存储以供指令执行系统、装置或设备使用或与指令执行系统、装置或设备结合地使用的程序。机器可读介质可以是机器可读信号介质或机器可读储存介质。机器可读介质可以包括但不限于电子的、磁性的、光学的、电磁的、红外的、或半导体系统、装置或设备，或者上述内容的任何合适组合。机器可读存储介质的更具体示例会包括基于一个或多个线的电气连接、便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦除可编程只读存储器(EPROM或快闪存储器)、光纤、便捷式紧凑盘只读存储器(CD-ROM)、光学储存设备、磁储存设备、或上述内容的任何合适组合。

为了提供与用户的交互，可以在计算机上实施此处描述的系统和技术，该计算机具有：用于向用户显示信息的显示装置(例如，CRT(阴极射线管)或者LCD(液晶显示器)监视器)；以及键盘和指向装置(例如，鼠标或者轨迹球)，用户可以通过该键盘和该指向装置来将输入提供给计算机。其它种类的装置还可以用于提供与用户的交互；例如，提供给用户的反馈可以是任何形式的传感反馈(例如，视觉反馈、听觉反馈、或者触觉反馈)；并且可以用任何形式(包括声输入、语音输入或者、触觉输入)来接收来自用户的输入。

可以将此处描述的系统和技术实施在包括后台部件的计算系统(例如，作为数据服务器)、或者包括中间件部件的计算系统(例如，应用服务器)、或者包括前端部件的计算系统(例如，具有图形用户界面或者网络浏览器的用户计算机，用户可以通过该图形用户界面或者该网络浏览器来与此处描述的系统和技术的实施方式交互)、或者包括这种后台部件、中间件部件、或者前端部件的任何组合的计算系统中。可以通过任何形式或者介质的数字数据通信(例如，通信网络)来将系统的部件相互连接。通信网络的示例包括：局域网(LAN)、广域网(WAN)和互联网。

计算机系统可以包括客户端和服务器。客户端和服务器一般远离彼此并且通常通过通信网络进行交互。通过在相应的计算机上运行并且彼此具有客户端-服务器关系的计算机程序来产生客户端和服务器的关系。

应该理解，可以使用上面所示的各种形式的流程，重新排序、增加或删除步骤。例如，本发公开中记载的各步骤可以并行地执行也可以顺序地执行也可以不同的次序执行，只要能够实现本公开公开的技术方案所期望的结果，本文在此不进行限制。

上述具体实施方式，并不构成对本公开保护范围的限制。本领域技术人员应该明白的是，根据设计要求和其他因素，可以进行各种修改、组合、子组合和替代。任何在本公开的精神和原则之内所作的修改、等同替换和改进等，均应包含在本公开保护范围之内。

Claims

1.一种图像处理方法，包括：

响应于接收输入特征图，将所述输入特征图划分为多个行和多个列的特征图子块，其中所述输入特征图表示图像的特征；

从所述多个行中选择行子集以及从所述多个列中选择列子集，其中所述行子集中的行之间至少彼此间隔开一行，以及所述列子集中的列之间至少彼此间隔开一列；以及

对所述行子集对应的特征图子块和所述列子集对应的所述特征图子块执行自注意力计算，以获得所述图像的聚合特征；

其中将所述输入特征图划分为多个行和多个列的特征图子块包括：

从所述行子集和所述列子集中确定多个栅栏，其中每个所述栅栏包括所述行子集中的至少一个行和所述列子集中的至少一个列；

其中对所述行子集对应的特征图子块和所述列子集对应的所述特征图子块执行自注意力计算包括：

对所述多个栅栏中的每一个栅栏所对应的特征图子块分别执行自注意力计算，以获得相应的子聚合特征；以及

将各个所述相应的子聚合特征级联，以获得所述聚合特征。

2.根据权利要求1所述的图像处理方法，其中将所述输入特征图划分为多个行和多个列的特征图子块包括：

将所述输入特征图分为在通道维度上相互独立的第一特征图和第二特征图；以及

将所述第一特征图划分为所述多个行，以及将所述第二特征图划分为所述多个列。

3.根据权利要求1所述的图像处理方法，其中所述接收输入特征图包括：

对所述输入特征图进行空间下采样，以获得下采样特征图。

4.根据权利要求3所述的图像处理方法，还包括：

对所述下采样特征图进行条件位置编码，以生成编码特征图。

5.根据权利要求4所述的图像处理方法，其中对所述下采样特征图进行条件位置编码包括：

对所述下采样特征图进行深度卷积计算。

6.根据权利要求4所述的图像处理方法，其中还包括生成可变尺度特征的步骤：

将所述下采样特征图与所述编码特征图相加，以生成第一特征向量；

对所述第一特征向量进行层归一化，以生成第一归一化特征向量；

对所述归一化特征向量进行自注意力计算，以生成第二特征向量；

将所述第一特征向量与所述第二特征向量相加，以生成第三特征向量；

对所述第三特征向量进行层归一化，以生成第二归一化特征向量；

对所述第二归一化特征向量计算多层感知积，以生成第四特征向量；以及

将所述第二层归一化特征向量与所述第四特征向量相加，以生成第一尺度的特征图。

7.根据权利要求6所述的图像处理方法，其中还包括：

将所述第一尺度的特征图作为所述输入特征图，重复执行对所述输入特征图进行空间下采样以及所述生成可变尺度特征的步骤；

其中在每个重复周期中，执行一次所述下采样以及至少一次所述生成可变尺度特征的步骤。

8.一种图像处理装置，包括：

特征图划分模块，被配置为响应于接收输入特征图，将所述输入特征图划分为多个行和多个列的特征图子块，其中所述输入特征图表示图像的特征；

选择模块，被配置为从所述多个行中选择行子集以及从所述多个列中选择列子集，其中所述行子集中的行之间至少彼此间隔开一行，以及所述列子集中的列之间至少彼此间隔开一列；以及

自注意力计算模块，被配置为对所述行子集对应的特征图子块和所述列子集对应的所述特征图子块执行自注意力计算，以获得所述图像的聚合特征；

其中特征图划分模块包括：

栅栏确定模块，被配置为从所述行子集和所述列子集中确定多个栅栏，其中每个所述栅栏包括所述行子集中的至少一个行和所述列子集中的至少一个列；

其中所述自注意力计算模块包括：

第一子自注意力计算模块，被配置为对所述多个栅栏中的每一个栅栏所对应的特征图子块分别执行自注意力计算，以获得相应的子聚合特征；以及

第一级联模块，被配置为将各个所述相应的子聚合特征级联，以获得所述聚合特征。

9.根据权利要求8所述的图像处理装置，其中所述特征图划分模块包括：

特征图拆分模块，被配置为将所述输入特征图分为在通道维度上相互独立的第一特征图和第二特征图；以及

行列划分模块，被配置为将所述第一特征图划分为所述多个行，以及将所述第二特征图划分为所述多个列。

10.根据权利要求8所述的图像处理装置，还包括：下采样模块，被配置为：

对所述输入特征图进行空间下采样，以获得下采样特征图。

11.根据权利要求10所述的图像处理装置，还包括：

条件位置编码模块，被配置为对所述下采样特征图进行条件位置编码，以生成编码特征图。

12.根据权利要求11所述的图像处理装置，其中所述条件位置编码模块被配置为通过对所述下采样特征图进行深度卷积计算来实施所述条件位置编码。

13.根据权利要求11所述的图像处理装置，包括串联连接的多个级，每个所述级包括所述条件位置编码模块以及至少一个可变尺度特征生成模块；

其中每个所述可变尺度特征生成模块包括：

第一加法模块，被配置为将所述下采样特征图与所述编码特征图相加，以生成第一特征向量；

第一层归一化模块，被配置为对所述第一特征向量进行层归一化，以生成第一归一化特征向量；

所述自注意力模块，被配置为对所述归一化特征向量进行自注意力计算，以生成第二特征向量；

第二加法模块，被配置为将所述第一向量与所述第二特征向量相加，以生成第三特征向量；

第三特征向量生成模块，被配置为对所述第三特征向量进行层归一化，以生成第二归一化特征向量；

多层感知积计算模块，被配置为对所述第二归一化特征向量计算多层感知积，以生成第四特征向量；以及

第三加法模块，被配置为将所述第二层归一化特征向量与所述第四特征向量相加，以生成第一尺度的特征图。

14.一种电子设备，所述电子设备包括：

一个或多个处理器；以及

存储装置，用于存储一个或多个程序，当所述一个或多个程序被所述一个或多个处理器执行时，使得所述一个或多个处理器实现如权利要求1-7中任一项所述的方法。

15.一种计算机可读存储介质，其上存储有计算机程序，所述程序被处理器执行时实现如权利要求1-7中任一项所述的方法。

16.一种计算机程序产品，包括计算机程序，所述计算机程序在被处理器执行时实现根据权利要求1-7中任一项所述的方法。