CN115482141A

CN115482141A - 图像处理方法、装置、电子设备和存储介质

Info

Publication number: CN115482141A
Application number: CN202211140552.3A
Authority: CN
Inventors: 何泳澔; 隋伟; 张骞
Original assignee: Beijing Horizon Information Technology Co Ltd
Current assignee: Beijing Horizon Information Technology Co Ltd
Priority date: 2022-09-19
Filing date: 2022-09-19
Publication date: 2022-12-16
Also published as: WO2024060940A1

Abstract

本公开实施例公开了一种图像处理方法、装置、电子设备和存储介质，其中，方法包括：确定待处理图像对应的第一张量；基于第一张量，确定第一张量对应的行向聚合的第一键张量、列向聚合的第二键张量、行向聚合的第一值张量、及列向聚合的第二值张量；基于第二张量，确定查询张量；基于第一键张量和查询张量进行注意力操作，获得第一注意力权重；基于第二键张量和查询张量进行注意力操作，获得第二注意力权重；基于第一注意力权重、第一值张量、第二注意力权重及第二值张量，确定目标输出张量；基于目标输出张量，确定图像处理结果。本公开实施例实现了对键张量和值张量的降维，可以有效降低注意力操作的计算复杂度，从而提高图像处理效率。

Description

图像处理方法、装置、电子设备和存储介质

技术领域

本公开涉及计算机视觉技术，尤其是一种图像处理方法、装置、电子设备和存储介质。

背景技术

近来，Transformer神经网络模型逐渐被用于跨空间(cross-space或cross-view)的特征关联学习任务，该任务主要通过交叉注意力(Cross-Space Attention)实现，交叉注意力是指不同数据模态(比如图像坐标系下的图像特征与鸟瞰视角(Bird'sEye View，简称：BEV)坐标系下的BEV特征属于两种数据模态，图像特征与文本特征属于两种数据模态，等等)之间、相同数据模态的不同数据之间的注意力操作。实现交叉注意力的核心为多头注意力机制(MHA，Multi-Head Attention)，由于图像特征是二维特征图，在进行注意力操作时，将特征图每个位置的像素作为token(令牌)，导致输入的token数量会非常大，比如一个特征图的token数量就可能达到万数以上，在实际应用中通常会有多个特征图，导致交叉注意力操作的计算量过大，使得图像处理效率较低。

发明内容

为了解决上述图像处理效率较低等技术问题，提出了本公开。本公开的实施例提供了一种图像处理方法、装置、电子设备和存储介质。

根据本公开实施例的一个方面，提供了一种图像处理方法，包括：确定待处理图像对应的第一张量；基于所述第一张量，确定所述第一张量对应的行向聚合的第一键张量、列向聚合的第二键张量、行向聚合的第一值张量、及列向聚合的第二值张量；基于第二张量，确定查询张量，所述第二张量为待与所述第一张量进行交叉注意力操作的张量；基于所述第一键张量和所述查询张量进行注意力操作，获得第一注意力权重；基于所述第二键张量和所述查询张量进行注意力操作，获得第二注意力权重；基于所述第一注意力权重、所述第一值张量、所述第二注意力权重及所述第二值张量，确定目标输出张量；基于所述目标输出张量，确定所述待处理图像对应的图像处理结果。

根据本公开实施例的另一个方面，提供了一种图像处理装置，包括：第一确定模块，用于确定待处理图像对应的第一张量；第一处理模块，用于基于所述第一张量，确定所述第一张量对应的行向聚合的第一键张量、列向聚合的第二键张量、行向聚合的第一值张量、及列向聚合的第二值张量；第二处理模块，用于基于第二张量，确定查询张量，所述第二张量为待与所述第一张量进行交叉注意力操作的张量；第三处理模块，用于基于所述第一键张量和所述查询张量进行注意力操作，获得第一注意力权重；第四处理模块，用于基于所述第二键张量和所述查询张量进行注意力操作，获得第二注意力权重；第五处理模块，用于基于所述第一注意力权重、所述第一值张量、所述第二注意力权重及所述第二值张量，确定目标输出张量；第六处理模块，用于基于所述目标输出张量，确定所述待处理图像对应的图像处理结果。

根据本公开实施例的再一方面，提供一种计算机可读存储介质，所述存储介质存储有计算机程序，所述计算机程序用于执行本公开上述任一实施例所述的图像处理方法。

根据本公开实施例的又一方面，提供一种电子设备，所述电子设备包括：处理器；用于存储所述处理器可执行指令的存储器；所述处理器，用于从所述存储器中读取所述可执行指令，并执行所述指令以实现本公开上述任一实施例所述的图像处理方法。

基于本公开上述实施例提供的图像处理方法、装置、电子设备和存储介质，通过基于待处理图像对应的第一张量，确定第一张量对应的行向聚合的第一键张量、列向聚合的第二键张量、行向聚合的第一值张量及列向聚合的第二值张量，实现了对键张量和值张量的降维，用于交叉注意力操作，可以有效降低计算复杂度，从而提高图像处理效率。

下面通过附图和实施例，对本公开的技术方案做进一步的详细描述。

附图说明

通过结合附图对本公开实施例进行更详细的描述，本公开的上述以及其他目的、特征和优势将变得更加明显。附图用来提供对本公开实施例的进一步理解，并且构成说明书的一部分，与本公开实施例一起用于解释本公开，并不构成对本公开的限制。在附图中，相同的参考标号通常代表相同部件或步骤。

图1是本公开提供的图像处理方法的一个示例性的应用场景；

图2是本公开一示例性实施例提供的图像处理方法的流程示意图；

图3是本公开一示例性实施例提供的第一键张量、第一值张量、第二键张量和第二值张量的示意图；

图4是本公开一示例性实施例提供的步骤202的流程示意图；

图5是本公开一示例性实施例提供的第一张量的聚合原理示意图；

图6是本公开另一示例性实施例提供的步骤202的流程示意图；

图7是本公开一示例性实施例提供的第一张量的映射原理示意图；

图8是本公开另一示例性实施例提供的图像处理方法的流程示意图；

图9是本公开一示例性实施例提供的单个Token的权重值的示意图；

图10是本公开一示例性实施例提供的第一输出张量和第二输出张量的示意图；

图11是本公开一示例性实施例提供的DETR网络的结构示意图；

图12是本公开一示例性实施例提供的图像处理装置的结构示意图；

图13是本公开一示例性实施例提供的第一处理模块502的结构示意图；

图14是本公开另一示例性实施例提供的第一处理模块502的结构示意图；

图15是本公开另一示例性实施例提供的图像处理装置的结构示意图；

图16是本公开电子设备一个应用实施例的结构示意图。

具体实施方式

下面，将参考附图详细地描述根据本公开的示例实施例。显然，所描述的实施例仅仅是本公开的一部分实施例，而不是本公开的全部实施例，应理解，本公开不受这里描述的示例实施例的限制。

应注意到：除非另外具体说明，否则在这些实施例中阐述的部件和步骤的相对布置、数字表达式和数值不限制本公开的范围。

本领域技术人员可以理解，本公开实施例中的“第一”、“第二”等术语仅用于区别不同步骤、设备或模块等，既不代表任何特定技术含义，也不表示它们之间的必然逻辑顺序。

还应理解，在本公开实施例中，“多个”可以指两个或两个以上，“至少一个”可以指一个、两个或两个以上。

还应理解，对于本公开实施例中提及的任一部件、数据或结构，在没有明确限定或者在前后文给出相反启示的情况下，一般可以理解为一个或多个。

另外，本公开中术语“和/或”，仅仅是一种描述关联对象的关联关系，表示可以存在三种关系，例如，A和/或B，可以表示：单独存在A，同时存在A和B，单独存在B这三种情况。另外，本公开中字符“/”，一般表示前后关联对象是一种“或”的关系。

还应理解，本公开对各个实施例的描述着重强调各个实施例之间的不同之处，其相同或相似之处可以相互参考，为了简洁，不再一一赘述。

同时，应当明白，为了便于描述，附图中所示出的各个部分的尺寸并不是按照实际的比例关系绘制的。

以下对至少一个示例性实施例的描述实际上仅仅是说明性的，决不作为对本公开及其应用或使用的任何限制。

对于相关领域普通技术人员已知的技术、方法和设备可能不作详细讨论，但在适当情况下，所述技术、方法和设备应当被视为说明书的一部分。

应注意到：相似的标号和字母在下面的附图中表示类似项，因此，一旦某一项在一个附图中被定义，则在随后的附图中不需要对其进行进一步讨论。

本公开实施例可以应用于终端设备、计算机系统、服务器等电子设备，其可与众多其它通用或专用计算系统环境或配置一起操作。适于与终端设备、计算机系统、服务器等电子设备一起使用的众所周知的终端设备、计算系统、环境和/或配置的例子包括但不限于：个人计算机系统、服务器计算机系统、瘦客户机、厚客户机、手持或膝上设备、基于微处理器的系统、机顶盒、可编程消费电子产品、网络个人电脑、小型计算机系统、大型计算机系统和包括上述任何系统的分布式云计算技术环境，等等。

终端设备、计算机系统、服务器等电子设备可以在由计算机系统执行的计算机系统可执行指令(诸如程序模块)的一般语境下描述。通常，程序模块可以包括例程、程序、目标程序、组件、逻辑、数据结构等等，它们执行特定的任务或者实现特定的抽象数据类型。计算机系统/服务器可以在分布式云计算环境中实施，分布式云计算环境中，任务是由通过通信网络链接的远程处理设备执行的。在分布式云计算环境中，程序模块可以位于包括存储设备的本地或远程计算系统存储介质上。

本公开概述

在实现本公开的过程中，发明人发现，近来，Transformer神经网络模型逐渐被用于跨空间(cross-space或cross-view)的特征关联学习任务，该任务主要通过交叉注意力(Cross-Space Attention)实现，交叉注意力是指不同数据模态(比如图像坐标系下的图像特征与鸟瞰视角(Bird's Eye View，简称：BEV)坐标系下的BEV特征属于两种数据模态，再比如图像特征与文本特征属于两种数据模态，等等)之间、相同数据模态的不同数据之间的注意力操作。实现交叉注意力的核心为多头注意力机制(MHA，Multi-Head Attention)，由于图像特征是二维特征图，在进行注意力操作时，将特征图每个位置的像素作为token(令牌)，导致输入的token数量会非常大，比如一个特征图的token数量就可能达到万数以上，在实际应用中通常会有多个特征图，导致交叉注意力操作的计算量过大，使得图像处理效率较低。

示例性概述

图1是本公开提供的图像处理方法的一个示例性的应用场景。

在自动驾驶领域，涉及需要进行BEV(Bird’s Eye View，鸟瞰图视角)语义分割的场景，通常需要将待处理图像的图像特征与BEV嵌入特征(BEV embedding)进行交叉注意力，参见图1，待处理图像(即输入图像)经特征提取网络处理，获得其对应的第一图像特征，第一图像特征加上空间位置编码后作为交叉注意力(Cross-Space Attention)的第一张量，BEV embedding经初始化后作为交叉注意力的第二张量，第一张量与第二张量进行交叉注意力操作，即第一张量用于确定交叉注意力操作的键张量(Key)和值张量(Value)，第二张量用于确定交叉注意力操作的查询张量(Query)，基于查询张量和键张量获得注意力权重，注意力权重作用于值张量，获得注意力操作的目标输出张量，注意力权重作用于值张量是指基于注意力权重将值张量的每个通道的像素值进行加权求和，获得目标输出张量。具体来说，对于查询张量的每个Token(每个像素位置的C通道的像素值形成的C维向量)，将该Token与键张量的转置相乘可以获得该Token对应的注意力权重，该Token对应的注意力权重作为值张量中每个通道的各位置像素值的权重，将值张量中每个通道的像素值进行加权求和，获得该Token对应的输出结果，所有Token的输出结果形成目标输出张量。目标输出张量经BEV decoder(BEV解码器)及语义分割预测获得待处理图像对应的BEV语义分割结果。利用本公开的图像处理方法，在第一张量与第二张量进行交叉注意力操作时，可以基于第一张量，确定第一张量对应的行向聚合的第一键张量、列向聚合的第二键张量、行向聚合的第一值张量、及列向聚合的第二值张量，基于第二张量，确定查询张量，基于第一键张量和查询张量进行注意力操作，获得第一注意力权重，基于第二键张量和查询张量进行注意力操作，获得第二注意力权重，基于第一注意力权重、第一值张量、第二注意力权重及第二值张量，确定目标输出张量，由于确定的是轴向(行向或列向)聚合的键张量和值张量，实现了键张量和值张量的降维，用于交叉注意力操作，可以大大降低计算复杂度，有效提高图像处理效率。

本公开的图像处理方法不限于上述自动驾驶的相关场景，在实际应用中可以根据实际需求应用于任意需要进行交叉注意力操作的场景，比如在需要基于DETR(DEtectionTransformer，检测变换器)及其系列(比如Deformable DETR(Deformable DEtectionTransformer，可变形检测变换器))的网络架构完成一定任务场景，DETR是Transformer的视觉版本，可以用于目标检测，也可以用于全景分割，DETR的解码器中包括编码-解码注意力层，该编码-解码注意力层为交叉注意力层，其键张量和值张量基于编码器提取的特征图确定，其查询张量基于Object query(对象查询特征)确定，则可以利用本公开的图像处理方法实现交叉注意力以降低计算复杂度，具体可以根据实际需求设置。

示例性方法

图2是本公开一示例性实施例提供的图像处理方法的流程示意图。本实施例可应用在电子设备上，具体比如服务器或终端上，如图2所示，包括如下步骤：

步骤201，确定待处理图像对应的第一张量。

其中，待处理图像可以为任意需要进行处理的图像，比如需要进行目标检测的图像、需要进行语义分割的图像，等等，具体不作限定。待处理图像可以包括一个或多个图像。待处理图像对应的第一张量是对待处理图像进行一定的处理(比如特征提取)获得的用于进行交叉注意力操作的张量，比如前述图1中提取的第一图像特征与空间位置编码张量相加的结果作为第一张量，具体第一张量的确定可以根据实际需求设置，在此不再赘述。

步骤202，基于第一张量，确定第一张量对应的行向聚合的第一键张量、列向聚合的第二键张量、行向聚合的第一值张量、及列向聚合的第二值张量。

其中，行向聚合的第一键张量是在行向上进行降维后的键张量，比如第一张量大小为C×H1×W1，C、H1、W1分别表示通道数量、高度和宽度。获得的第一键张量大小为C×H1×1，将每行的W1维聚合成1维，具体降维后的第一键张量的行向维度可以根据实际需求设置，比如降维后的第一键张量的宽度W可以为W1/2、W1/4、2、1，等等，具体不作限定。列向聚合的第二键张量是在列向上进行降维后的键张量，比如获得的第二键张量大小为C×1×W1，将每列的H1维聚合成1维或小于H1的多维。同理，行向聚合的第一值张量是在行向上进行降维的值张量，列向聚合的第二值张量是在列向上进行降维的值张量。需要说明的是，第一键张量、第二键张量、第一值张量和第二值张量的大小需要相同。由于键张量和值张量均进行了降维，从而可以降低注意力操作的计算量。

示例性的，图3是本公开一示例性实施例提供的第一键张量、第一值张量、第二键张量和第二值张量的示意图。在本示例中，第一键张量和第一值张量是在行向上被降维成W＝1的张量，第二键张量和第二值张量是在列向上被降维成H＝1的张量。这种情况下，可以实现将原本的二维注意力操作转换成两个一维的注意力操作，可以大大降低注意力操作的计算复杂度，提高图像处理效率。

可选地，对于降维后的第一键张量、第二键张量、第一值张量和第二值张量，可以是先对第一张量分别进行行向和列向聚合，再基于行向聚合结果进行映射，获得行向聚合的第一键张量和第一值张量，基于列向聚合结果进行映射获得列向聚合的第二键张量和第二值张量；也可以是先对第一张量进行映射获得键张量和值张量，再分别对键张量和值张量进行行向和列向聚合，获得第一键张量、第一值张量、第二键张量和第二值张量，本实施例不作限定。第一张量可以通过预设映射规则映射为键张量和值张量，具体不再赘述。

步骤203，基于第二张量，确定查询张量，第二张量为待与第一张量进行交叉注意力操作的张量。

其中，第二张量可以根据交叉注意力的实际应用需求确定，比如上述的BEVembedding，具体不作限定。可以通过一定的映射规则将第二张量映射为查询张量，具体不再赘述。

步骤202和步骤203不分先后顺序。

步骤204，基于第一键张量和查询张量进行注意力操作，获得第一注意力权重。

其中，第一键张量与查询张量的注意力操作是指将查询张量中每个位置的C维向量作为Token(令牌)，与第一键张量中每个位置的C维向量的转置相乘(内积，即C个值对应相乘再求和)，获得查询张量的每个位置对应的权重值，查询张量各位置分别对应的权重值形成第一注意力权重。

步骤205，基于第二键张量和查询张量进行注意力操作，获得第二注意力权重。

该步骤的注意力操作原理与步骤204相同或相似，在此不再赘述。

步骤204和步骤205不分先后顺序。

步骤206，基于第一注意力权重、第一值张量、第二注意力权重及第二值张量，确定目标输出张量。

其中，第一注意力权重作用于第一值张量，获得第一输出张量，第二注意力权重作用于第二值张量，获得第二输出张量，结合第一输出张量和第二输出张量获得目标输出张量。第一注意力权重包括多个Token分别对应的注意力权重，第一注意力权重作用于第一值张量是指基于第一注意力权重中每个Token对应的注意力权重对第一值张量的每个通道的像素值进行加权求和，获得第一输出张量。

步骤207，基于目标输出张量，确定待处理图像对应的图像处理结果。

其中，在获得交叉注意力的目标输出张量后，可以基于目标输出张量进行后续的处理，比如解码、输出投影等，获得待处理图像对应的图像处理结果。具体后续处理可以根据实际需求设置，本实施例不做限定。

本实施例提供的图像处理方法，通过基于待处理图像对应的第一张量，确定第一张量对应的行向聚合的第一键张量、列向聚合的第二键张量、行向聚合的第一值张量及列向聚合的第二值张量，实现了对键张量和值张量的降维，用于交叉注意力操作，可以有效降低计算复杂度，从而提高图像处理效率。

图4是本公开一示例性实施例提供的步骤202的流程示意图。

在一个可选示例中，步骤202具体可以包括以下步骤：

步骤2021a，基于第一张量，确定行向聚合的第一聚合张量、及列向聚合的第二聚合张量。

其中，行向聚合和列向聚合可以通过池化操作实现，通过对第一张量进行行向聚合获得第一聚合张量，对第一张量进行列向聚合获得第二聚合张量。行向聚合是将第一张量的宽度W1进行降维，列向聚合是将第一张量的高度H1进行降维，具体降维后的维度可以根据实际需求设置。比如将第一张量的宽度聚合成1维，获得第一聚合张量，将第一张量的高度聚合成1维获得第二聚合张量。

步骤2022a，基于第一聚合张量及第一映射规则，确定第一键张量。

其中，第一映射规则可以根据实际需求设置，比如可以为第一键张量对应的第一映射矩阵W_K。

步骤2023a，基于第二聚合张量及第二映射规则，确定第二键张量。

其中，第二映射规则可以根据实际需求设置，比如可以为第二键张量对应的第二映射矩阵。

在实际应用中，第二映射矩阵与第一映射矩阵可以为同一映射矩阵W_K。

步骤2024a，基于第一聚合张量及第三映射规则，确定第一值张量。

其中，第三映射规则可以为第一值张量对应的第三映射矩阵。

步骤2025a，基于第二聚合张量及第四映射规则，确定第二值张量。

其中，第四映射规则可以为第二值张量对应的第四映射矩阵。在实际应用中，第四映射矩阵与第三映射矩阵可以为同一映射矩阵W_V。

示例性的，图5是本公开一示例性实施例提供的第一张量的聚合原理示意图。第一张量经行向聚合获得第一聚合张量，第一聚合张量通过W_K映射得到第一键张量，第一聚合张量通过W_V映射得到第一值张量，第一张量经列向聚合获得第二聚合张量，第二聚合张量通过W_K映射得到第二键张量，第二聚合张量通过W_V映射得到第二值张量。

本公开通过将第一张量在行向和列向进行聚合，获得行向聚合的第一聚合张量及列向聚合的第二聚合张量，进而基于聚合后的第一聚合张量映射为第一键张量和第一值张量，基于第二聚合张量映射为第二键张量和第二值张量，实现键张量和值张量的降维，从而降低注意力操作的计算复杂度。

在一个可选示例中，步骤2021a的基于第一张量，确定行向聚合的第一聚合张量、及列向聚合的第二聚合张量，包括：对第一张量在行向上进行第一预设池化操作，确定第一聚合张量；对第一张量在列向上进行第二预设池化操作，确定第二聚合张量。

其中，第一预设池化(Pooling)操作和第二预设池化操作的具体池化方式可以根据实际需求设置，比如通过神经网络中的池化层(Pooling Layer)实现对第一张量的聚合，其中池化操作可以是平均池化(Average Pooling)、最大池化(Average Pooling)，等等。池化操作的作用是将输入特征降维，具体原理不再赘述。

本公开通过池化操作实现第一张量的聚合，进而实现键张量和值张量的降维，降低注意力操作的计算量。

图6是本公开另一示例性实施例提供的步骤202的流程示意图。

在一个可选示例中，步骤202的基于第一张量，确定第一张量对应的行向聚合的第一键张量、列向聚合的第二键张量、行向聚合的第一值张量、及列向聚合的第二值张量，包括：

步骤2021b，基于第一张量，确定第三键张量及第三值张量。

其中，可以通过键张量对应的映射矩阵将第一张量映射为第三键张量，同理，基于值张量对应的映射矩阵将第一张量映射为第三值张量，第三键张量和第三值张量为与第一张量大小相同的张量。

步骤2022b，对第三键张量在行向进行聚合操作，获得第一键张量。

其中，行向聚合操作原理与前述第一张量的聚合类似，在此不再赘述。

步骤2023b，对第三键张量在列向进行聚合操作，获得第二键张量。

其中，列向聚合操作原理参见前述内容，在此不再赘述。

步骤2024b，对第三值张量在行向进行聚合操作，获得第一值张量。

其中，行向聚合操作原理参见前述内容，在此不再赘述。

步骤2025b，对第三值张量在列向进行聚合操作，获得第二值张量。

其中，列向聚合操作原理参见前述内容，在此不再赘述。

示例性的，图7是本公开一示例性实施例提供的第一张量的映射原理示意图。第一张量经映射矩阵W_K映射得到第三键张量，第三键张量通过行向聚合获得第一键张量，第三键张量通过列向聚合获得第二键张量；第一张量经映射矩阵W_V映射得到第三值张量，第三值张量经行向聚合获得第一值张量，第三值张量经列向聚合获得第二值张量。

本公开通过第一张量先映射为相同大小的第三键张量和第三值张量，再将第三键张量和第三值张量进行行向聚合和列向聚合，获得第一键张量、第一值张量、第二键张量和第二值张量，实现键张量和值张量的降维。上述的相同大小是指第三键张量和第三值张量的宽度、高度和通道数量均相同，比如均为C×H1×W1。

图8是本公开另一示例性实施例提供的图像处理方法的流程示意图。

在一个可选示例中，步骤204的基于第一键张量和查询张量进行注意力操作，获得第一注意力权重，包括：

步骤2041，针对查询张量中的任一第一位置的C维向量，将该C维向量与第一键张量中每个第二位置的C维向量的转置相乘，获得该第一位置对应的权重值，C表示查询张量和第一键张量的通道数量。

示例性的，查询张量表示为Q＝Q_{[1:H2,1:W2,1:C]}，第一键张量表示为K＝K_{[1:H1,1:W,1:C]}，W小于第一张量的宽度W1，对于查询张量中的每个Token，表示为Q_[i,j,1:C]＝[q₁,q₂,…,q_C]，i＝1,2,…,H2，j＝1,2,…,W2，第一键张量中每个第二位置的C维向量表示为K_[l,k,1:C]＝[k₁,k₂,…,k_C]，l＝1,2,…,H1，k＝1,2,…,W，则对于查询张量中的第i行、第j列位置对应的权重值表示如下：

其中，Z_[1:H1,1:W]表示H1×W的张量，也即包括H1×W个权重值，对于第一键张量中的每个第二位置，该第二位置的权重值表示为q₁k₁+q₂k₂+…+q_Ck_C。

示例性的，图9是本公开一示例性实施例提供的单个Token的权重值的示意图。对于每个Token，与第一键张量(C×H1×W)的注意力操作获得的该Token对应的权重值的大小为H1×W，以W＝1为例，查询张量包括H2×W2个Token，因此会获得H2×W2个大小为H1×W的权重值(称为第一权重值)。

步骤2042，基于各第一位置分别对应的权重值，确定第一注意力权重。

将上述获得的H2×W2个大小为H1×W的权重值作为第一注意力权重。

本公开基于行向聚合的第一键张量与查询张量进行注意力操作，获得第一注意力权重，相对于现有键张量的全量注意力操作，大大减少了计算量。

在一个可选示例中，步骤205的基于第二键张量和查询张量进行注意力操作，获得第二注意力权重，包括：

步骤2051，针对查询张量中的任一第一位置的C维向量，将该C维向量与第二键张量中每个第三位置的C维向量的转置相乘，获得该第一位置对应的权重值，C表示查询张量和第二键张量的通道数量。

步骤2052，基于各第一位置分别对应的权重值，确定第二注意力权重。

步骤2051-2052的具体操作原理参见上述步骤2041-2042，在此不再赘述。

在一个可选示例中，步骤206的基于第一注意力权重、第一值张量、第二注意力权重及第二值张量，确定目标输出张量，包括：

步骤2061，基于第一注意力权重及第一值张量，确定第一输出张量。

其中，第一注意力权重作用于第一值张量，获得第一输出张量。具体来说，基于第一注意力权重将第一值张量中每个通道的像素值进行加权求和，获得第一输出张量。

步骤2062，基于第二注意力权重及第二值张量，确定第二输出张量。

其中，该步骤的具体操作与步骤2061类似，在此不再赘述，获得的第二输出张量同第一输出张量大小相同。

示例性的，图10是本公开一示例性实施例提供的第一输出张量和第二输出张量的示意图。在本示例中以单个Token为例，每个Token对应的第一权重值作用于第一值张量，获得C×1×1的第一输出结果，具体来说，对于第一值张量中的每个通道，将H1×W的第一权重值中每个位置的值作为第一值张量中对应位置的像素值的权重，基于该第一权重值，将第一值张量中该通道的H1×W个像素值进行加权求和，获得该通道的1×1的输出结果，C个通道的1×1的输出结果形成C×1×1的第一输出结果。查询张量对应的H2×W2个Token则可以获得H2×W2个C×1×1的第一输出结果，该H2×W2个C×1×1的第一输出结果形成C×H2×W2的第一输出张量。同理，每个Token对应的第二权重值作用于第二值张量，获得C×1×1的第二输出结果，查询张量对应的H2×W2个Token则可以获得H2×W2个C×1×1的第二输出结果，该H2×W2个C×1×1的第二输出结果形成C×H2×W2的第二输出张量。

步骤2063，基于第一输出张量和第二输出张量，确定目标输出张量。

其中，第一输出张量与第二输出张量融合即可获得目标输出张量，具体融合方式可以根据实际需求设置。

本公开通过聚合的键张量(第一键张量和第二键张量)获得的注意力权重，作用于聚合的值张量(第一值张量和第二值张量)，进一步降低计算量。

在一个可选示例中，步骤2063基于第一输出张量和第二输出张量，确定目标输出张量，包括：将第一输出张量与第二输出张量相加，获得目标输出张量。

其中，第一输出张量与第二输出张量相加是指两张量对应元素相加。

在一个可选示例中，步骤203的基于第二张量，确定查询张量，包括：

步骤2031，基于第二张量及第五映射规则，确定查询张量。

其中，第五映射规则可以根据实际需求设置，比如为查询张量对应的映射矩阵W_Q，具体不再赘述。

在一个可选示例中，步骤207的基于目标输出张量，确定待处理图像对应的图像处理结果，包括：

步骤2071，将目标输出张量与第二张量相加，获得第三张量。

其中，目标输出张量与第二张量可以通过残差连接实现相加，获得第三张量。

步骤2072，对第三张量进行归一化，获得第四张量。

其中，第三张量的归一化方式可以根据实际需求设置，比如层归一化(LayerNormalization，简称：LN)、批量归一化(Batch Normalization，简称：BN)，等等，具体不作限定。

步骤2073，基于第四张量，确定待处理图像对应的图像处理结果。

其中，第四张量还可以经解码器、输出投影等，确定待处理图像对应的图像处理结果，具体可以根据实际需求设置。

示例性的，图11是本公开一示例性实施例提供的DETR网络的结构示意图，其中，Image features表示图像特征，Multi-Head Self-Attention表示多头自注意力网络，Add&Norm表示相加并归一化，FFN(Feed Forward Networks)表示前馈网络，Multi-HeadAttention表示多头注意力网络，Object queries表示对象查询特征，Class表示分类，Bounding Box表示预测框，Encoder表示编码器，Decoder表示解码器，N×表示有N个编码器，M×表示有M个解码器。可见在DETR网络中，在每个解码器(Decoder)中均包括交叉注意力网络(Multi-Head Attention)，其键张量和值张量是基于从编码器获得的图像特征结合空间位置编码确定，其查询张量则基于可初始化的Object queries(对象查询特征)及其自注意力结果的归一化结果确定，对于该DETR网络即可利用本公开的图像处理方法，在交叉注意力网络部分，对键张量和值张量进行轴向(行向和列向)聚合，再与查询张量进行注意力操作，以有效降低注意力操作的计算复杂度，提高图像处理效率。交叉注意力获得的目标输出张量还需要与其前面的归一化结果进行相加并归一化，获得第四张量，第四张量经后续的前馈网络(FFN)、Add&Norm、及两个预测头的FFN获得分类和预测框，作为待处理图像对应的图像处理结果，DETR的具体原理在此不再赘述。同理，在其他任意具有交叉注意力的神经网络的应用中，均可以采用本公开的交叉注意力方式，以降低计算复杂度。

在一个可选示例中，步骤201的确定待处理图像对应的第一张量，包括：

步骤2011，对待处理图像进行特征提取，获得待处理图像对应的第一图像特征。

其中，特征提取方式可以根据实际需求设置，比如基于特征提取网络进行特征提取，特征提取网络可以为任意可实施的网络，比如卷积神经网络、编码器网络等等。

步骤2012，基于第一图像特征及第一图像特征对应的空间位置编码张量，确定第一张量。

其中，第一图像特征可以与空间位置编码张量相加获得第一张量。

在一个可选示例中，可以基于第一张量获得行向聚合为1维(宽度W＝1)的第一键张量和第一值张量，以及列向聚合为1维(高度H＝1)的第二键张量和第二值张量，这样可以将原本二维的注意力操作转换成两个一维的注意力操作，大大降低计算复杂度。

示例性的，原本二维的注意力操作的计算复杂度o₁为：

O₁＝H2×W2×(H1×W1)

聚合成行列分别计算的计算复杂度为：

O₂＝H2×W2×(H1+W1)

可见，计算复杂度从乘法变为了加法，对于图像来说，计算量大大降低，通常会降低1-2个数量级。

本公开的图像处理方法，通过键向量和值向量的行列聚合，使得Transformer等网络中的MHA(Multi-Head Attention，多头注意力)的计算量大大降低，也因此使得计算过程的内存消耗大大降低，从而大大提高图像处理效率。

本公开上述各实施例或可选示例可以单独实施也可以在不冲突的情况下以任意组合方式结合实施，具体可以根据实际需求设置，本公开不做限定。

本公开实施例提供的任一种图像处理方法可以由任意适当的具有数据处理能力的设备执行，包括但不限于：终端设备和服务器等。或者，本公开实施例提供的任一种图像处理方法可以由处理器执行，如处理器通过调用存储器存储的相应指令来执行本公开实施例提及的任一种图像处理方法。下文不再赘述。

示例性装置

图12是本公开一示例性实施例提供的图像处理装置的结构示意图。该实施例的装置可用于实现本公开相应的方法实施例，如图12所示的装置包括：第一确定模块501、第一处理模块502、第二处理模块503、第三处理模块504、第四处理模块505、第五处理模块506和第六处理模块507。

第一确定模块501，用于确定待处理图像对应的第一张量；第一处理模块502，用于基于第一确定模块501确定的所述第一张量，确定所述第一张量对应的行向聚合的第一键张量、列向聚合的第二键张量、行向聚合的第一值张量、及列向聚合的第二值张量；第二处理模块503，用于基于第二张量，确定查询张量，所述第二张量为待与所述第一张量进行交叉注意力操作的张量；第三处理模块504，用于基于所述第一键张量和所述查询张量进行注意力操作，获得第一注意力权重；第四处理模块505，用于基于所述第二键张量和所述查询张量进行注意力操作，获得第二注意力权重；第五处理模块506，用于基于所述第一注意力权重、所述第一值张量、所述第二注意力权重及所述第二值张量，确定目标输出张量；第六处理模块507，用于基于第五处理模块506确定的所述目标输出张量，确定所述待处理图像对应的图像处理结果。

在一个可选示例中，图13是本公开一示例性实施例提供的第一处理模块502的结构示意图。本示例中，第一处理模块502包括：第一确定单元5021a、第二确定单元5022a、第三确定单元5023a、第四确定单元5024a和第五确定单元5025a。

第一确定单元5021a，用于基于所述第一张量，确定行向聚合的第一聚合张量、及列向聚合的第二聚合张量；第二确定单元5022a，用于基于所述第一聚合张量及第一映射规则，确定所述第一键张量；第三确定单元5023a，用于基于所述第二聚合张量及第二映射规则，确定所述第二键张量；第四确定单元5024a，用于基于所述第一聚合张量及第三映射规则，确定所述第一值张量；第五确定单元5025a，用于基于所述第二聚合张量及第四映射规则，确定所述第二值张量。

在一个可选示例中，第一确定单元5021a具体用于：对所述第一张量在行向上进行第一预设池化操作，确定所述第一聚合张量；对所述第一张量在列向上进行第二预设池化操作，确定所述第二聚合张量。

在一个可选示例中，图14是本公开另一示例性实施例提供的第一处理模块502的结构示意图。在本示例中，第一处理模块502包括：第一处理单元5021b、第二处理单元5022b、第三处理单元5023b、第四处理单元5024b和第五处理单元5025b。

第一处理单元5021b，用于基于所述第一张量，确定第三键张量及第三值张量；第二处理单元5022b，用于对所述第三键张量在行向进行聚合操作，获得所述第一键张量；第三处理单元5023b，用于对所述第三键张量在列向进行聚合操作，获得所述第二键张量；第四处理单元5024b，用于对所述第三值张量在行向进行聚合操作，获得所述第一值张量；第五处理单元5025b，用于对所述第三值张量在列向进行聚合操作，获得所述第二值张量。

图15是本公开另一示例性实施例提供的图像处理装置的结构示意图。

在一个可选示例中，所述第三处理模块504包括：第六处理单元5041和第六确定单元5042。

第六处理单元5041，用于针对所述查询张量中的任一第一位置的C维向量，将该C维向量与所述第一键张量中每个第二位置的C维向量的转置相乘，获得该第一位置对应的权重值，C表示所述查询张量和所述第一键张量的通道数量；第六确定单元5042，用于基于各所述第一位置分别对应的权重值，确定所述第一注意力权重。

在一个可选示例中，所述第四处理模块505包括：第七处理单元5051和第七确定单元5052

第七处理单元5051，用于针对所述查询张量中的任一第一位置的C维向量，将该C维向量与所述第二键张量中每个第三位置的C维向量的转置相乘，获得该第一位置对应的权重值，C表示所述查询张量和所述第二键张量的通道数量；第七确定单元5052，用于基于各所述第一位置分别对应的权重值，确定所述第二注意力权重。

在一个可选示例中，所述第五处理模块506包括：第八确定单元5061、第九确定单元5062和第十确定单元5063。

第八确定单元5061，用于基于所述第一注意力权重及所述第一值张量，确定第一输出张量；第九确定单元5062，用于基于所述第二注意力权重及所述第二值张量，确定第二输出张量；第十确定单元5063，用于基于所述第一输出张量和所述第二输出张量，确定所述目标输出张量。

在一个可选示例中，第十确定单元5063具体用于：将所述第一输出张量与所述第二输出张量相加，获得所述目标输出张量。

在一个可选示例中，第二处理模块503包括：映射单元5031，用于基于所述第二张量及第五映射规则，确定所述查询张量。

在一个可选示例中，所述第六处理模块507包括：第八处理单元5071、归一化单元5072和第九处理单元5073。

第八处理单元5071，用于将所述目标输出张量与所述第二张量相加，获得第三张量；归一化单元5072，用于对所述第三张量进行归一化，获得第四张量；第九处理单元5073，用于基于所述第四张量，确定所述待处理图像对应的所述图像处理结果。

在一个可选示例中，第一确定模块501包括：特征提取单元5011和第十处理单元5012。

特征提取单元5011，用于对所述待处理图像进行特征提取，获得所述待处理图像对应的第一图像特征；第十处理单元5012，用于基于所述第一图像特征及所述第一图像特征对应的空间位置编码张量，确定所述第一张量。

示例性电子设备

本公开实施例还提供了一种电子设备，包括：存储器，用于存储计算机程序；

处理器，用于执行所述存储器中存储的计算机程序，且所述计算机程序被执行时，实现本公开上述任一实施例所述的图像处理方法。

图16是本公开电子设备一个应用实施例的结构示意图。本实施例中，该电子设备10包括一个或多个处理器11和存储器12。

处理器11可以是中央处理单元(CPU)或者具有数据处理能力和/或指令执行能力的其他形式的处理单元，并且可以控制电子设备10中的其他组件以执行期望的功能。

存储器12可以包括一个或多个计算机程序产品，所述计算机程序产品可以包括各种形式的计算机可读存储介质，例如易失性存储器和/或非易失性存储器。所述易失性存储器例如可以包括随机存取存储器(RAM)和/或高速缓冲存储器(cache)等。所述非易失性存储器例如可以包括只读存储器(ROM)、硬盘、闪存等。在所述计算机可读存储介质上可以存储一个或多个计算机程序指令，处理器11可以运行所述程序指令，以实现上文所述的本公开的各个实施例的方法以及/或者其他期望的功能。在所述计算机可读存储介质中还可以存储诸如输入信号、信号分量、噪声分量等各种内容。

在一个示例中，电子设备10还可以包括：输入装置13和输出装置14，这些组件通过总线系统和/或其他形式的连接机构(未示出)互连。

例如，该输入装置13可以是上述的麦克风或麦克风阵列，用于捕捉声源的输入信号。

此外，该输入装置13还可以包括例如键盘、鼠标等等。

该输出装置14可以向外部输出各种信息，包括确定出的距离信息、方向信息等。该输出装置14可以包括例如显示器、扬声器、打印机、以及通信网络及其所连接的远程输出设备等等。

当然，为了简化，图16中仅示出了该电子设备10中与本公开有关的组件中的一些，省略了诸如总线、输入/输出接口等等的组件。除此之外，根据具体应用情况，电子设备10还可以包括任何其他适当的组件。

示例性计算机程序产品和计算机可读存储介质

除了上述方法和设备以外，本公开的实施例还可以是计算机程序产品，其包括计算机程序指令，所述计算机程序指令在被处理器运行时使得所述处理器执行本说明书上述“示例性方法”部分中描述的根据本公开各种实施例的方法中的步骤。

所述计算机程序产品可以以一种或多种程序设计语言的任意组合来编写用于执行本公开实施例操作的程序代码，所述程序设计语言包括面向对象的程序设计语言，诸如Java、C++等，还包括常规的过程式程序设计语言，诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算设备上执行、部分地在用户设备上执行、作为一个独立的软件包执行、部分在用户计算设备上部分在远程计算设备上执行、或者完全在远程计算设备或服务器上执行。

此外，本公开的实施例还可以是计算机可读存储介质，其上存储有计算机程序指令，所述计算机程序指令在被处理器运行时使得所述处理器执行本说明书上述“示例性方法”部分中描述的根据本公开各种实施例的方法中的步骤。

所述计算机可读存储介质可以采用一个或多个可读介质的任意组合。可读介质可以是可读信号介质或者可读存储介质。可读存储介质例如可以包括但不限于电、磁、光、电磁、红外线、或半导体的系统、装置或器件，或者任意以上的组合。可读存储介质的更具体的例子(非穷举的列表)包括：具有一个或多个导线的电连接、便携式盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。

以上结合具体实施例描述了本公开的基本原理，但是，需要指出的是，在本公开中提及的优点、优势、效果等仅是示例而非限制，不能认为这些优点、优势、效果等是本公开的各个实施例必须具备的。另外，上述公开的具体细节仅是为了示例的作用和便于理解的作用，而非限制，上述细节并不限制本公开为必须采用上述具体的细节来实现。

本说明书中各个实施例均采用递进的方式描述，每个实施例重点说明的都是与其它实施例的不同之处，各个实施例之间相同或相似的部分相互参见即可。对于系统实施例而言，由于其与方法实施例基本对应，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。

本公开中涉及的器件、装置、设备、系统的方框图仅作为例示性的例子并且不意图要求或暗示必须按照方框图示出的方式进行连接、布置、配置。如本领域技术人员将认识到的，可以按任意方式连接、布置、配置这些器件、装置、设备、系统。诸如“包括”、“包含”、“具有”等等的词语是开放性词汇，指“包括但不限于”，且可与其互换使用。这里所使用的词汇“或”和“和”指词汇“和/或”，且可与其互换使用，除非上下文明确指示不是如此。这里所使用的词汇“诸如”指词组“诸如但不限于”，且可与其互换使用。

可能以许多方式来实现本公开的方法和装置。例如，可通过软件、硬件、固件或者软件、硬件、固件的任何组合来实现本公开的方法和装置。用于所述方法的步骤的上述顺序仅是为了进行说明，本公开的方法的步骤不限于以上具体描述的顺序，除非以其它方式特别说明。此外，在一些实施例中，还可将本公开实施为记录在记录介质中的程序，这些程序包括用于实现根据本公开的方法的机器可读指令。因而，本公开还覆盖存储用于执行根据本公开的方法的程序的记录介质。

还需要指出的是，在本公开的装置、设备和方法中，各部件或各步骤是可以分解和/或重新组合的。这些分解和/或重新组合应视为本公开的等效方案。

提供所公开的方面的以上描述以使本领域的任何技术人员能够做出或者使用本公开。对这些方面的各种修改对于本领域技术人员而言是非常显而易见的，并且在此定义的一般原理可以应用于其他方面而不脱离本公开的范围。因此，本公开不意图被限制到在此示出的方面，而是按照与在此公开的原理和新颖的特征一致的最宽范围。

为了例示和描述的目的已经给出了以上描述。此外，此描述不意图将本公开的实施例限制到在此公开的形式。尽管以上已经讨论了多个示例方面和实施例，但是本领域技术人员将认识到其某些变型、修改、改变、添加和子组合。

Claims

1.一种图像处理方法，包括：

确定待处理图像对应的第一张量；

基于所述第一张量，确定所述第一张量对应的行向聚合的第一键张量、列向聚合的第二键张量、行向聚合的第一值张量、及列向聚合的第二值张量；

基于第二张量，确定查询张量，所述第二张量为待与所述第一张量进行交叉注意力操作的张量；

基于所述第一键张量和所述查询张量进行注意力操作，获得第一注意力权重；

基于所述第二键张量和所述查询张量进行注意力操作，获得第二注意力权重；

基于所述第一注意力权重、所述第一值张量、所述第二注意力权重及所述第二值张量，确定目标输出张量；

基于所述目标输出张量，确定所述待处理图像对应的图像处理结果。

2.根据权利要求1所述的方法，其中，所述基于所述第一张量，确定所述第一张量对应的行向聚合的第一键张量、列向聚合的第二键张量、行向聚合的第一值张量、及列向聚合的第二值张量，包括：

基于所述第一张量，确定行向聚合的第一聚合张量、及列向聚合的第二聚合张量；

基于所述第一聚合张量及第一映射规则，确定所述第一键张量；

基于所述第二聚合张量及第二映射规则，确定所述第二键张量；

基于所述第一聚合张量及第三映射规则，确定所述第一值张量；

基于所述第二聚合张量及第四映射规则，确定所述第二值张量。

3.根据权利要求2所述的方法，其中，所述基于所述第一张量，确定行向聚合的第一聚合张量、及列向聚合的第二聚合张量，包括：

对所述第一张量在行向上进行第一预设池化操作，确定所述第一聚合张量；

对所述第一张量在列向上进行第二预设池化操作，确定所述第二聚合张量。

4.根据权利要求1所述的方法，其中，所述基于所述第一张量，确定所述第一张量对应的行向聚合的第一键张量、列向聚合的第二键张量、行向聚合的第一值张量、及列向聚合的第二值张量，包括：

基于所述第一张量，确定第三键张量及第三值张量；

对所述第三键张量在行向进行聚合操作，获得所述第一键张量；

对所述第三键张量在列向进行聚合操作，获得所述第二键张量；

对所述第三值张量在行向进行聚合操作，获得所述第一值张量；

对所述第三值张量在列向进行聚合操作，获得所述第二值张量。

5.根据权利要求1所述的方法，其中，所述基于所述第一键张量和所述查询张量进行注意力操作，获得第一注意力权重，包括：

针对所述查询张量中的任一第一位置的C维向量，将该C维向量与所述第一键张量中每个第二位置的C维向量的转置相乘，获得该第一位置对应的权重值，C表示所述查询张量和所述第一键张量的通道数量；

基于各所述第一位置分别对应的权重值，确定所述第一注意力权重。

6.根据权利要求1所述的方法，其中，所述基于所述第二键张量和所述查询张量进行注意力操作，获得第二注意力权重，包括：

针对所述查询张量中的任一第一位置的C维向量，将该C维向量与所述第二键张量中每个第三位置的C维向量的转置相乘，获得该第一位置对应的权重值，C表示所述查询张量和所述第二键张量的通道数量；

基于各所述第一位置分别对应的权重值，确定所述第二注意力权重。

7.根据权利要求1所述的方法，其中，所述基于所述第一注意力权重、所述第一值张量、所述第二注意力权重及所述第二值张量，确定目标输出张量，包括：

基于所述第一注意力权重及所述第一值张量，确定第一输出张量；

基于所述第二注意力权重及所述第二值张量，确定第二输出张量；

基于所述第一输出张量和所述第二输出张量，确定所述目标输出张量。

8.根据权利要求7所述的方法，其中，所述基于所述第一输出张量和所述第二输出张量，确定所述目标输出张量，包括：

将所述第一输出张量与所述第二输出张量相加，获得所述目标输出张量。

9.根据权利要求1所述的方法，其中，所述基于第二张量，确定查询张量，包括：

基于所述第二张量及第五映射规则，确定所述查询张量。

10.根据权利要求1所述的方法，其中，所述基于所述目标输出张量，确定所述待处理图像对应的图像处理结果，包括：

将所述目标输出张量与所述第二张量相加，获得第三张量；

对所述第三张量进行归一化，获得第四张量；

基于所述第四张量，确定所述待处理图像对应的所述图像处理结果。

11.根据权利要求1所述的方法，其中，所述确定待处理图像对应的第一张量，包括：

对所述待处理图像进行特征提取，获得所述待处理图像对应的第一图像特征；

基于所述第一图像特征及所述第一图像特征对应的空间位置编码张量，确定所述第一张量。

12.一种图像处理装置，包括：

第一确定模块，用于确定待处理图像对应的第一张量；

第一处理模块，用于基于所述第一张量，确定所述第一张量对应的行向聚合的第一键张量、列向聚合的第二键张量、行向聚合的第一值张量、及列向聚合的第二值张量；

第二处理模块，用于基于第二张量，确定查询张量，所述第二张量为待与所述第一张量进行交叉注意力操作的张量；

第三处理模块，用于基于所述第一键张量和所述查询张量进行注意力操作，获得第一注意力权重；

第四处理模块，用于基于所述第二键张量和所述查询张量进行注意力操作，获得第二注意力权重；

第五处理模块，用于基于所述第一注意力权重、所述第一值张量、所述第二注意力权重及所述第二值张量，确定目标输出张量；

第六处理模块，用于基于所述目标输出张量，确定所述待处理图像对应的图像处理结果。

13.一种计算机可读存储介质，所述存储介质存储有计算机程序，所述计算机程序用于执行上述权利要求1-11任一所述的图像处理方法。

14.一种电子设备，所述电子设备包括：

处理器；

用于存储所述处理器可执行指令的存储器；

所述处理器，用于从所述存储器中读取所述可执行指令，并执行所述指令以实现上述权利要求1-11任一所述的图像处理方法。