CN115062673B

CN115062673B - 图像处理方法、装置、电子设备及存储介质

Info

Publication number: CN115062673B
Application number: CN202210895580.XA
Authority: CN
Inventors: 赫然; 黄怀波; 周晓强
Original assignee: Institute of Automation of Chinese Academy of Science
Current assignee: Institute of Automation of Chinese Academy of Science
Priority date: 2022-07-28
Filing date: 2022-07-28
Publication date: 2022-10-28
Anticipated expiration: 2042-07-28
Also published as: CN115062673A

Abstract

本发明涉及计算机视觉技术领域，提供一种图像处理方法、装置、电子设备及存储介质，其中方法包括：获取待处理图像；将所述待处理图像输入至特征提取模型，得到所述特征提取模型输出的图像特征；基于所述图像特征，对所述待处理图像进行图像处理；所述特征提取模型包括正交自注意力模块，所述正交自注意力模块用于将所述待处理图像的令牌投影到正交空间进行自注意力转换。本发明提供的方法、装置、电子设备及存储介质，特征提取模型中的正交自注意力模块，可以将待处理图像的令牌投影到正交空间进行自注意力转换，降低了自注意力转换的复杂度，提高了图像特征的提取质量，因此保证了图像处理的有效性。

Description

图像处理方法、装置、电子设备及存储介质

技术领域

本发明涉及计算机视觉技术领域，尤其涉及一种图像处理方法、装置、电子设备及存储介质。

背景技术

随着人工智能的快速发展，研究者们成功地将Transformer网络中的自注意力机制应用于图像处理中的图像特征提取中。

然而，现有的自注意力机制存在计算复杂度高的问题，针对这一问题，现有技术中通过减少令牌数量，降低了全局自注意力机制的计算复杂度，但伴随着丢失细粒度图像特征信息的问题。

因此，如何在降低图像特征提取的复杂度的同时，又能不丢失细粒度图像特征信息的前提下，进行图像特征提取，是图像处理技术领域亟待解决的问题。

发明内容

本发明提供一种图像处理方法、装置、电子设备及存储介质，用以解决现有技术中进行图像特征提取时复杂度高的缺陷。

本发明提供一种图像处理方法，包括：

获取待处理图像；

将所述待处理图像输入至特征提取模型，得到所述特征提取模型输出的图像特征；

基于所述图像特征，对所述待处理图像进行图像处理；

所述特征提取模型包括正交自注意力模块，所述正交自注意力模块用于将所述待处理图像的令牌投影到正交空间进行自注意力转换。

根据本发明提供的一种图像处理方法，所述特征提取模型包括级联的多个特征提取模块，所述多个特征提取模块包括正交特征提取模块，所述正交特征提取模块包括级联的所述正交自注意力模块和前向传播网络；

所述将所述待处理图像输入至特征提取模型，得到所述特征提取模型输出的图像特征，包括：

将所述待处理图像的上一令牌输入到当前的特征提取模块，得到所述当前的特征提取模块输出的当前令牌，所述上一令牌是所述当前的特征提取模块之前的特征提取模块输出的；

将最尾的特征提取模块输出的令牌作为所述图像特征。

根据本发明提供的一种图像处理方法，在所述当前的特征提取模块为正交特征提取模块的情况下，所述将所述待处理图像的上一令牌输入到当前的特征提取模块，得到所述当前的特征提取模块输出的当前令牌，包括：

将所述上一令牌输入到当前的特征提取模块的正交自注意力模块，由所述正交自注意力模块将所述上一令牌进行正交化，得到正交令牌，再对所述正交令牌进行多头注意力计算，将计算所得的正交注意力特征进行逆正交化，并对逆正交化后的注意力特征与所述上一令牌进行融合，得到所述正交自注意力模块输出的当前自注意力特征；

将所述当前自注意力特征输入到当前的特征提取模块的前向传播网络，得到所述前向传播网络输出的当前令牌。

根据本发明提供的一种图像处理方法，所述多个特征提取模块还包括窗口特征提取模块，所述窗口特征提取模块包括级联的窗口自注意力模块和前向传播网络，所述窗口自注意力模块用于将所述待处理图像的令牌以滑动窗口的形式划分后进行自注意力转换。

根据本发明提供的一种图像处理方法，在所述当前的特征提取模块为窗口特征提取模块的情况下，所述将所述待处理图像的上一令牌输入到当前的特征提取模块，得到所述当前的特征提取模块输出的当前令牌，包括：

将所述上一令牌输入到当前的特征提取模块的窗口自注意力模块，由所述窗口自注意力模块将所述上一令牌进行窗口划分，得到窗口令牌，再对所述窗口令牌进行多头注意力计算，将计算所得的窗口注意力特征进行窗口合并，并对窗口合并后的注意力特征与所述上一令牌进行融合，得到所述窗口自注意力模块输出的当前自注意力特征；

根据本发明提供的一种图像处理方法，所述前向传播网络包括第一卷积层，所述第一卷积层用于提取位置信息。

根据本发明提供的一种图像处理方法，所述前向传播网络包括第一分支和第二分支，所述第一分支和所述第二分支的输入相同，所述第一分支和所述第二分支的输出相加作为所述前向传播网络的输出；

所述第一分支包括顺次连接的第一归一化层、第一全连接层、激活层、所述第一卷积层和第二全连接层；

在所述第一卷积层的卷积核步长为1的情况下，所述第二分支的输入与输出相同；

在所述第一卷积层的卷积核步长大于1的情况下，所述第二分支包括顺次连接的第二归一化层和第二卷积层，所述第二卷积层的卷积核步长与所述第一卷积层的卷积核步长相同。

本发明还提供一种图像处理装置，包括：

获取单元，用于获取待处理图像；

特征提取单元，用于将所述待处理图像输入至特征提取模型，得到所述特征提取模型输出的图像特征；

图像处理单元，用于基于所述图像特征，对所述待处理图像进行图像处理；

本发明还提供一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现如上述任一种所述图像处理方法。

本发明还提供一种非暂态计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现如上述任一种所述图像处理方法。

本发明还提供一种计算机程序产品，包括计算机程序，所述计算机程序被处理器执行时实现如上述任一种所述图像处理方法。

本发明提供的图像处理方法、装置、电子设备及存储介质，特征提取模型中的正交自注意力模块，可以将待处理图像的令牌投影到正交空间进行自注意力转换，降低了自注意力转换的复杂度，提高了图像特征的提取质量，因此保证了图像处理的有效性。

附图说明

为了更清楚地说明本发明或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本发明提供的图像处理方法的流程示意图；

图2是本发明提供的正交特征提取模块的结构示意图；

图3是本发明提供的卷积编码器的结构示意图；

图4是本发明提供的正交自注意力模块进行自注意力转换的流程示意图；

图5是本发明提供的窗口特征提取模块的结构示意图；

图6是本发明提供的窗口特征提取模块进行窗口自注意力转换的流程示意图；

图7是本发明提供的第一卷积层的卷积核步长大于1的情况下，前向传播网络的结构示意图；

图8是本发明提供的第一卷积层的卷积核步长为1的情况下，前向传播网络的结构示意图；

图9是本发明提供的特征提取模型的结构示意图；

图10是本发明提供的图像处理装置的结构示意图；

图11是本发明提供的电子设备的结构示意图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚，下面将结合本发明中的附图，对本发明中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

本发明的说明书和权利要求书中的术语“第一”、“第二”等是用于区别类似的对象，而不用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便本申请的实施例能够以除了在这里图示或描述的那些以外的顺序实施，且“第一”、“第二”等所区分的对象通常为一类。

本发明提供了一种图像处理方法，图1是本发明提供的图像处理方法的流程示意图，如图1所示，该方法包括：

步骤110，获取待处理图像。

此处，待处理图像即需要进行图像处理的图像，可以是通过图像采集设备预先采集得到的，也可以是实时拍摄得到的，还可以是通过互联网下载或者扫描得到的，本发明实施例对此不作具体限定。

步骤120，将所述待处理图像输入至特征提取模型，得到所述特征提取模型输出的图像特征；

步骤130，基于所述图像特征，对所述待处理图像进行图像处理；

具体地，将获取到的待处理图像输入至特征提取模型，就可以得到特征提取模型输出的图像特征，此处的特征提取模型包括正交自注意力模块，其中，正交自注意力模块用于将待处理图像的令牌投影到正交空间进行自注意力转换。此处的正交自注意力模块可以顺次执行正交化、多头注意力计算以及逆正交化的步骤。

此处的令牌是指将待处理图像以滑动窗口的方式，划分为不同的图像块，并对每个图像块进行编码得到的。此处的正交空间是指由正交(向量内积)这个度量概念的空间,即被赋予了对称双线性函数的空间。此处的正交自注意力模块可以通过正交化，将待处理图像的令牌投影到正交空间中，然后在正交空间中对令牌进行多头注意力计算，随后通过逆正交化，将注意力计算得到的令牌从正交空间还原为原始空间。

可以理解的是，Transformer网络中自注意力机制的计算复杂度和输入令牌数量的二次方成正比。而将待处理图像的令牌投影到正交空间进行自注意力转换，可以降低自注意力机制的计算复杂度，进一步降低图像特征提取的复杂度。

在将待处理图像输入至特征提取模型，得到特征提取模型输出的图像特征之后，就可以基于图像特征，对待处理图像进行图像处理，此处的图像处理可以是目标检测、语义分割、图像重建等，本发明实施例对此不作具体限定。可以理解的是，特征提取模型输出的图像特征是进行自注意力转换后的图像特征，基于由此得到的图像特征进行图像处理，可以保证图像处理的可靠性。

本发明实施例提供的方法，特征提取模型中的正交自注意力模块，可以将待处理图像的令牌投影到正交空间进行自注意力转换，降低了自注意力转换的复杂度，提高了图像特征的提取质量，因此保证了图像处理的有效性。

基于上述实施例，所述特征提取模型包括级联的多个特征提取模块，所述多个特征提取模块包括正交特征提取模块。图2是本发明提供的正交特征提取模块的结构示意图，如图2所示，所述正交特征提取模块包括级联的所述正交自注意力模块20和前向传播网络21。

具体地，特征提取模型包括级联的多个特征提取模块，此处的多个特征提取模块中，可以包括一个或者多个正交特征提取模块，此处的正交特征提取模块可以包括级联的正交自注意力模块20和前向传播网络21（Feed Forward Network, FFN）。此处的正交自注意力模块可以进行正交化、归一化、多头注意力计算以及逆正交化。

相应地，步骤120包括：

步骤121，将所述待处理图像的上一令牌输入到当前的特征提取模块，得到所述当前的特征提取模块输出的当前令牌，所述上一令牌是所述当前的特征提取模块之前的特征提取模块输出的；

步骤122，将最尾的特征提取模块输出的令牌作为所述图像特征。

具体地，多个级联的特征提取模块之间是有先后顺序的，可以将待处理图像的上一令牌输入到当前的特征提取模块，得到当前的特征提取模块输出的当前令牌，其中，上一令牌是当前的特征提取模块之前的特征提取模块输出的，即，此处的上一令牌可以是正交特征提取模块输出的，也可以是窗口特征提取模块输出的，本发明实施例对此不作具体限定。

例如，可以将待处理图像的图像编码作为首个特征提取模块的输入，此后，每个特征提取模块的输入均为上一个特征提取模块的输出，最后，将最尾的特征提取模块输出的令牌作为图像特征，此处的最尾的特征提取模块是多个特征提取模块中的最后一个特征提取模块。在此过程中，待处理图像经过了多个特征提取模块逐次执行的特征提取操作。

需要说明的是，首个特征提取模块的输入，即图像编码，可以是待处理图像本身，也可以是对待处理图像进行编码得到的，例如在特征提取模型中还可以包括卷积编码器，卷积编码器的输出端与首个特征提取模块的输入端连接，即，可以通过卷积编码器对待处理图像进行编码得到图像编码。

基于上述实施例，图3是本发明提供的卷积编码器的结构示意图，如图3所示，此外，此处的多个特征提取模块还可以包括卷积编码器，此处的卷积编码器可以包括卷积层30、归一化层31、激活层32，卷积编码器可以按照卷积层30、归一化层31、激活层32的顺序级联，此处的卷积层30可以使用深层全卷积网络（Deep-ConvNet），也可以使用全卷积网络（Fully Convolutional Networks，FCN），此处的归一化层31可以是LN(LayerNormalization，层归一化)，也可以是BN(Batch Normalization，批量归一化层)，还可以是IN(Instance Normalization)，此处的激活层32可以使用GELU（Gaussian Error LinearUnit）激活函数，也可以使用Sigmoid激活函数，还可以使用ReLU （Rectified LinearUnits）激活函数，本发明实施例对此不作具体限定。

并且，将卷积编码器的卷积核的步长设置为2，达到降低特征分辨率的作用，例如，将待处理图像

输入该卷积编码器后，得到图像编码特征

。

基于上述实施例，图4是本发明提供的正交自注意力模块进行自注意力转换的流程示意图，如图4所示，在所述当前的特征提取模块为正交特征提取模块的情况下，所述步骤121包括：

步骤1211，将所述上一令牌输入到当前的特征提取模块的正交自注意力模块，由所述正交自注意力模块将所述上一令牌进行正交化，得到正交令牌，再对所述正交令牌进行多头注意力计算，将计算所得的正交注意力特征进行逆正交化，并对逆正交化后的注意力特征与所述上一令牌进行融合，得到所述正交自注意力模块输出的当前自注意力特征。

具体地，在当前的特征提取模块为正交特征提取模块的情况下，将上一令牌输入到当前的特征提取模块的正交自注意力模块，由正交自注意力模块将上一令牌进行正交化，得到正交令牌，此处的正交令牌即从原始特征空间投影到正交空间中的上一令牌。随后，正交自注意力模块可以将正交令牌进行归一化，再对归一化之后的正交令牌进行多头注意力计算，将计算所得的正交注意力特征进行逆正交化，从而得到原始特征空间的正交注意力特征，即得到逆正交化后的注意力特征。

最后，正交自注意力模块可以对逆正交化后的注意力特征与上一令牌进行融合，即将正交特征提取模块的输入、输出采用残差方式进行连接，由此得到正交自注意力模块输出的当前自注意力特征

，具体计算公式如下：

其中，

为输入的上一令牌，

分别表示正交化及其逆正交化，并且对于正交化矩阵来说，其逆矩阵即为其转置矩阵。

表示归一化，

表示多头注意力计算。

步骤1212，将所述当前自注意力特征输入到当前的特征提取模块的前向传播网络，得到所述前向传播网络输出的当前令牌。

具体地，在得到正交自注意力模块输出的当前自注意力特征之后，可以将当前自注意力特征输入到当前的特征提取模块的前向传播网络，得到前向传播网络输出的当前令牌。

基于上述实施例，图5是本发明提供的窗口特征提取模块的结构示意图，如图5所示，所述多个特征提取模块还包括窗口特征提取模块，所述窗口特征提取模块包括级联的窗口自注意力模块50和前向传播网络21，所述窗口自注意力模块50用于将所述待处理图像的令牌以滑动窗口的形式划分后进行自注意力转换。

具体地，多个特征提取模块除了包括卷积编码器和正交特征提取模块，还包括了窗口特征提取模块，此处的窗口特征提取模块包括级联的窗口自注意力模块50和前向传播网络21。此处的窗口自注意力模块50用于将待处理图像的令牌以滑动窗口的形式划分后进行自注意力转换。此处的滑动窗口的形式划分包括窗口划分和窗口合并，分别与正交特征提取模块的正交化、逆正交化相对应，都是用于将待处理图像的令牌进行自注意力转换。

基于上述实施例，图6是本发明提供的窗口特征提取模块进行窗口自注意力转换的流程示意图，如图6所示，在所述当前的特征提取模块为窗口特征提取模块的情况下，所述将所述待处理图像的上一令牌输入到当前的特征提取模块，得到所述当前的特征提取模块输出的当前令牌，包括：

步骤310，将所述上一令牌输入到当前的特征提取模块的窗口自注意力模块，由所述窗口自注意力模块将所述上一令牌进行窗口划分，得到窗口令牌，再对所述窗口令牌进行多头注意力计算，将计算所得的窗口注意力特征进行窗口合并，并对窗口合并后的注意力特征与所述上一令牌进行融合，得到所述窗口自注意力模块输出的当前自注意力特征；

步骤320，将所述当前自注意力特征输入到当前的特征提取模块的前向传播网络，得到所述前向传播网络输出的当前令牌。

具体地，在当前的特征提取模块为窗口特征提取模块的情况下，将上一令牌输入到当前的特征提取模块的窗口自注意力模块，由窗口自注意力模块将上一令牌进行窗口划分，得到窗口令牌，此处的窗口划分是指将上一令牌进行相同大小的多个窗口划分，得到窗口令牌。再将窗口令牌进行归一化，再对归一化之后的窗口令牌进行多头注意力计算，将计算所得的窗口注意力特征进行窗口合并，此处的窗口合并是指将计算所得的窗口注意力特征按照之前窗口划分的规则进行合并，从而得到当前令牌。

最后，对窗口合并后的窗口注意力特征与上一令牌进行融合，即，将窗口特征提取模块的输入、输出采用残差方式进行连接，得到窗口自注意力模块输出的当前自注意力特征

，具体计算公式如下：

其中，

为输入的上一令牌，

分别表示滑动窗口、窗口合并，

表示归一化，

表示多头注意力计算。

进一步地，在得到窗口自注意力模块输出的当前自注意力特征之后，可以将当前自注意力特征输入到当前窗口特征提取模块的前向传播网络，得到前向传播网络输出的当前令牌。

基于上述实施例，所述前向传播网络包括第一卷积层，所述第一卷积层用于提取位置信息。

具体地，正交特征提取模块和窗口特征提取模块中均包括前向传播网络，且正交特征提取模块和窗口特征提取模块中包括的前向传播网络的结构一致，均包括第一卷积层。此处的第一卷积层可以在前向传播网络中提取当前自注意力特征中携带的位置信息，由此使得前向传播网络输出的当前令牌中，也可以携带位置信息。

此处所指的位置信息，可以包括图像块在图像中所处位置的信息，或令牌在特征中所处位置的信息，前向传播网络中第一卷积层的应用，实现了针对位置信息的建模嵌入，提高了特征提取模块对任意分辨率的待处理图像的灵活处理能力。

基于上述实施例，图7是本发明提供的第一卷积层的卷积核步长大于1的情况下，前向传播网络的结构示意图，图8是本发明提供的第一卷积层的卷积核步长为1的情况下，前向传播网络的结构示意图，如图7、8所示，所述前向传播网络包括第一分支和第二分支，所述第一分支和所述第二分支的输入相同，所述第一分支和所述第二分支的输出相加作为所述前向传播网络的输出；

具体地，正交特征提取模块和窗口特征提取模块中的前向传播网络包括第一分支和第二分支，此处的第一分支包括顺次连接的第一归一化层、第一全连接层（FullyConnected layers，FC）、激活层、第一卷积层和第二全连接层。此处的第一归一化层可以是LN，也可以是BN，还可以是IN，此处的激活层可以使用GELU激活函数，也可以使用Sigmoid激活函数，还可以使用ReLU激活函数，本发明实施例对此不作具体限定。

并且，第一分支和第二分支的输入相同，第一分支和第二分支的输出相加作为前向传播网络的输出，即，将第一分支和第二分支的输出采用残差进行连接。

并且，第二分支有两种不同的情况，在第一卷积层的卷积核步长为1的情况下，第二分支的输入与输出相同，即第二分支为空；

在第一卷积层的卷积核步长大于1的情况下，第二分支包括顺次连接的第二归一化层和第二卷积层，并且，第二卷积层的卷积核步长与第一卷积层的卷积核步长相同。

可以理解的是，图7和图8示出的前向传播网络中，第一卷积层均可以实现位置信息的建模嵌入，而图7和图8示出的前向传播网络，区别在于是否具备降采样的功能，即图7示出的前向传播网络具备降采样功能，图8示出的前向传播网络不具备降采样功能。

此处，图8示出的不具备降采样功能的前向传播网络

的具体计算公式如下：

其中，

为输入的当前自注意力特征，

表示归一化层，

表示激活层，

表示全连接层，

表示深度可分离卷积层，第一个全连接层

会扩增输入的当前自注意力特征的通道数，而第二个全连接层

，则将扩增的输入的当前自注意力特征的通道数变换为扩增前的通道数。

在一个实施例中，图9是本发明提供的特征提取模型的结构示意图，如图9所示，特征提取模型中，首先将大小为

的待处理图像卷积编码器中，得到编码器输出的图像编码，再经过四个阶段的特征提取，得到的图像特征。此处，H、W表示待处理图像的高和宽，3是待处理图像的通道数，每个阶段的特征提取均由级联的多个特征提取模块实现。

此处的第一阶段的特征提取模块共包括

个特征提取模块，其中有

个不具备降采样功能的特征提取模块和一个具备降采样功能的特征提取模块，例如，第一阶段的特征提取模块中

个不具备降采样功能的特征提取模块输出的当前令牌的大小是

，则经过第一阶段的特征提取模块中一个具备降采样功能的特征提取模块输出的当前令牌的大小是

，此处，

和

均为通道数。

第二阶段的特征提取模块共包括

个特征提取模块，其中有

个不具备降采样功能的特征提取模块和一个具备降采样功能的特征提取模块，相应地，经过第二阶段的特征提取模块中一个具备降采样功能的特征提取模块输出的当前令牌的大小是

，此处，

为通道数。

第三阶段的特征提取模块共包括

个特征提取模块，其中有

个不具备降采样功能的特征提取模块和一个具备降采样功能的特征提取模块，相应地，经过第三阶段的特征提取模块中一个具备降采样功能的特征提取模块输出的当前令牌的大小是

，此处，

为通道数。

第四阶段的特征提取模块共包括

个不具备降采样功能的特征提取模块。

需要说明的是，上述各阶段的特征提取模块，可以进一步划分为两类特征提取模块，即正交特征提取模块和窗口特征提取模块，此两类特征提取模块均可以是基于transformer模块构建的。

下面对本发明提供的图像处理装置进行描述，下文描述的图像处理装置与上文描述的图像处理方法可相互对应参照。

基于上述任一实施例，图10是本发明提供的图像处理装置的结构示意图，如图10所示，该装置包括：

获取单元1010，用于获取待处理图像；

特征提取单元1020，用于将所述待处理图像输入至特征提取模型，得到所述特征提取模型输出的图像特征；

图像处理单元1030，用于基于所述图像特征，对所述待处理图像进行图像处理；

本发明实施例提供的装置，特征提取模型中的正交自注意力模块，可以将待处理图像的令牌投影到正交空间进行自注意力转换，降低了自注意力转换的复杂度，提高了图像特征的提取质量，因此保证了图像处理的有效性。

基于上述任一实施例，所述特征提取模型包括级联的多个特征提取模块，所述多个特征提取模块包括正交特征提取模块，所述正交特征提取模块包括级联的所述正交自注意力模块和前向传播网络；

特征提取单元具体包括：

将最尾的特征提取模块输出的令牌作为所述图像特征。

基于上述任一实施例，在所述当前的特征提取模块为正交特征提取模块的情况下，所述将所述待处理图像的上一令牌输入到当前的特征提取模块，得到所述当前的特征提取模块输出的当前令牌，包括：

当前自注意力特征单元，用于将所述上一令牌输入到当前的特征提取模块的正交自注意力模块，由所述正交自注意力模块将所述上一令牌进行正交化，得到正交令牌，再对所述正交令牌进行多头注意力计算，将计算所得的正交注意力特征进行逆正交化，并对逆正交化后的注意力特征与所述上一令牌进行融合，得到所述正交自注意力模块输出的当前自注意力特征；

当前令牌单元，用于将所述当前自注意力特征输入到当前的特征提取模块的前向传播网络，得到所述前向传播网络输出的当前令牌。

基于上述任一实施例，所述多个特征提取模块还包括窗口特征提取模块，所述窗口特征提取模块包括级联的窗口自注意力模块和前向传播网络，所述窗口自注意力模块用于将所述待处理图像的令牌以滑动窗口的形式划分后进行自注意力转换。

基于上述任一实施例，在所述当前的特征提取模块为窗口特征提取模块的情况下，所述将所述待处理图像的上一令牌输入到当前的特征提取模块，得到所述当前的特征提取模块输出的当前令牌，包括：

当前自注意力特征子单元，用于将所述上一令牌输入到当前的特征提取模块的窗口自注意力模块，由所述窗口自注意力模块将所述上一令牌进行窗口划分，得到窗口令牌，再对所述窗口令牌进行多头注意力计算，将计算所得的窗口注意力特征进行窗口合并，并对窗口合并后的注意力特征与所述上一令牌进行融合，得到所述窗口自注意力模块输出的当前自注意力特征；

当前令牌子单元，用于将所述当前自注意力特征输入到当前的特征提取模块的前向传播网络，得到所述前向传播网络输出的当前令牌。

基于上述任一实施例，所述前向传播网络包括第一卷积层，所述第一卷积层用于提取位置信息。

基于上述任一实施例，所述前向传播网络包括第一分支和第二分支，所述第一分支和所述第二分支的输入相同，所述第一分支和所述第二分支的输出相加作为所述前向传播网络的输出；

图11示例了一种电子设备的实体结构示意图，如图11所示，该电子设备可以包括：处理器(processor)1110、通信接口(Communications Interface)1120、存储器(memory)1130和通信总线1140，其中，处理器1110，通信接口1120，存储器1130通过通信总线1140完成相互间的通信。处理器1110可以调用存储器1130中的逻辑指令，以执行图像处理方法，该方法包括：获取待处理图像；将所述待处理图像输入至特征提取模型，得到所述特征提取模型输出的图像特征；基于所述图像特征，对所述待处理图像进行图像处理；所述特征提取模型包括正交自注意力模块，所述正交自注意力模块用于将所述待处理图像的令牌投影到正交空间进行自注意力转换。

此外，上述的存储器1130中的逻辑指令可以通过软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备（可以是个人计算机，服务器，或者网络设备等）执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器（ROM，Read-Only Memory）、随机存取存储器（RAM，Random Access Memory）、磁碟或者光盘等各种可以存储程序代码的介质。

另一方面，本发明还提供一种计算机程序产品，所述计算机程序产品包括计算机程序，计算机程序可存储在非暂态计算机可读存储介质上，所述计算机程序被处理器执行时，计算机能够执行上述各方法所提供的图像处理方法，该方法包括：获取待处理图像；将所述待处理图像输入至特征提取模型，得到所述特征提取模型输出的图像特征；基于所述图像特征，对所述待处理图像进行图像处理；所述特征提取模型包括正交自注意力模块，所述正交自注意力模块用于将所述待处理图像的令牌投影到正交空间进行自注意力转换。

又一方面，本发明还提供一种非暂态计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现以执行上述各方法提供的图像处理方法，该方法包括：获取待处理图像；将所述待处理图像输入至特征提取模型，得到所述特征提取模型输出的图像特征；基于所述图像特征，对所述待处理图像进行图像处理；所述特征提取模型包括正交自注意力模块，所述正交自注意力模块用于将所述待处理图像的令牌投影到正交空间进行自注意力转换。

以上所描述的装置实施例仅仅是示意性的，其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下，即可以理解并实施。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件。基于这样的理解，上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在计算机可读存储介质中，如ROM/RAM、磁碟、光盘等，包括若干指令用以使得一台计算机设备（可以是个人计算机，服务器，或者网络设备等）执行各个实施例或者实施例的某些部分所述的方法。

最后应说明的是：以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims

1.一种图像处理方法，其特征在于，包括：

获取待处理图像；

基于所述图像特征，对所述待处理图像进行图像处理；

所述特征提取模型包括正交自注意力模块，所述正交自注意力模块用于将所述待处理图像的令牌投影到正交空间进行自注意力转换，所述令牌是将所述待处理图像以滑动窗口的方式，划分为不同的图像块，并对每个图像块进行编码得到的，所述正交空间是指由正交这个度量概念的空间，所述正交自注意力模块顺次执行正交化、多头注意力计算以及逆正交化。

2.根据权利要求1所述的图像处理方法，其特征在于，所述特征提取模型包括级联的多个特征提取模块，所述多个特征提取模块包括正交特征提取模块，所述正交特征提取模块包括级联的所述正交自注意力模块和前向传播网络；

将最尾的特征提取模块输出的令牌作为所述图像特征。

3.根据权利要求2所述的图像处理方法，其特征在于，在所述当前的特征提取模块为正交特征提取模块的情况下，所述将所述待处理图像的上一令牌输入到当前的特征提取模块，得到所述当前的特征提取模块输出的当前令牌，包括：

4.根据权利要求2所述的图像处理方法，其特征在于，所述多个特征提取模块还包括窗口特征提取模块，所述窗口特征提取模块包括级联的窗口自注意力模块和前向传播网络，所述窗口自注意力模块用于将所述待处理图像的令牌以滑动窗口的形式划分后进行自注意力转换。

5.根据权利要求4所述的图像处理方法，其特征在于，在所述当前的特征提取模块为窗口特征提取模块的情况下，所述将所述待处理图像的上一令牌输入到当前的特征提取模块，得到所述当前的特征提取模块输出的当前令牌，包括：

6.根据权利要求2至5中任一项所述的图像处理方法，其特征在于，所述前向传播网络包括第一卷积层，所述第一卷积层用于提取位置信息。

7.根据权利要求6所述的图像处理方法，其特征在于，所述前向传播网络包括第一分支和第二分支，所述第一分支和所述第二分支的输入相同，所述第一分支和所述第二分支的输出相加作为所述前向传播网络的输出；

8.一种图像处理装置，其特征在于，包括：

获取单元，用于获取待处理图像；

9.一种电子设备，包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序，其特征在于，所述处理器执行所述程序时实现如权利要求1至7任一项所述图像处理方法。

10.一种非暂态计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求1至7任一项所述图像处理方法。