CN113642585B

CN113642585B - 图像处理方法、装置、设备、存储介质及计算机程序产品

Info

Publication number: CN113642585B
Application number: CN202111199333.8A
Authority: CN
Inventors: 黄子龙; 贲有成; 俞刚
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2021-10-14
Filing date: 2021-10-14
Publication date: 2022-02-11
Anticipated expiration: 2041-10-14
Also published as: CN113642585A

Abstract

本申请公开了一种图像处理方法、装置、设备、存储介质及计算机程序产品，可应用于云技术、人工智能、智慧交通、区块链等各种领域或场景，该方法包括：获取待处理图像的第一待处理特征图和第二待处理特征图；对第一待处理特征图和第二待处理特征图进行不同的语义分析处理，得到中间局部语义特征图和中间全局语义特征图；根据中间局部语义特征图和中间全局语义特征图确定第一融合特征图和第二融合特征图；再分别对第一融合特征图和第二融合特征图进行不同的语义分析处理，得到融合局部语义特征图和融合全局语义特征图；根据融合局部语义特征图和融合全局语义特征图确定待处理图像的图像处理结果。采用本方案可以有效提高图像处理结果的准确性。

Description

图像处理方法、装置、设备、存储介质及计算机程序产品

技术领域

本申请涉及计算机技术领域，尤其涉及一种图像处理方法、一种图像处理装置、一种计算机设备、一种计算机可读存储介质及计算机程序产品。

背景技术

随着人工智能技术的发展，图像处理技术的研究取得了很大的进展，各式各样的深度神经网络大量应用于图像识别、图像分割等基本的图像处理领域。在现有的行业需求中，诸如图像识别或分割等图像处理方式，仍旧是计算机视觉任务中的研究热点，并且有着十分广泛的实际应用。以图像语义分割为例，可以广泛应用于例如目标检测、场景理解、机器人视觉、自动驾驶的街景识别、增强现实、图像理解和图像编辑等方面的计算机视觉任务。但如何保证图像处理结果的准确性是目前有待解决的问题。

发明内容

本申请实施例提供一种图像处理方法、装置、设备、存储介质及计算机程序产品，可以有效提高图像处理结果的准确性。

本申请实施例一方面提供了一种图像处理方法，包括：

获取待处理图像的第一待处理特征图和第二待处理特征图；

对第一待处理特征图进行局部语义分析，得到中间局部语义特征图，以及对第二待处理特征图进行全局语义分析，得到中间全局语义特征图；

根据中间局部语义特征图和中间全局语义特征图确定第一融合特征图和第二融合特征图；

对第一融合特征图进行局部语义分析，得到融合局部语义特征图，以及对第二融合特征图进行全局语义分析，得到融合全局语义特征图；

根据融合局部语义特征图和融合全局语义特征图确定待处理图像的图像处理结果。

本申请实施例一方面提供了一种图像处理装置，包括：

获取模块，用于获取待处理图像的第一待处理特征图和第二待处理特征图；

处理模块，用于对第一待处理特征图进行局部语义分析，得到中间局部语义特征图，以及对第二待处理特征图进行全局语义分析，得到中间全局语义特征图；

处理模块，还用于根据中间局部语义特征图和中间全局语义特征图确定第一融合特征图和第二融合特征图；

处理模块，还用于对第一融合特征图进行局部语义分析，得到融合局部语义特征图，以及对第二融合特征图进行全局语义分析，得到融合全局语义特征图；

处理模块，还用于根据融合局部语义特征图和融合全局语义特征图确定待处理图像的图像处理结果。

在一实施例中，获取模块，具体用于：获取待处理图像的初始特征图，将初始特征图确定为待处理图像的第一待处理特征图；对初始特征图进行处理，确定初始特征图的符号特征图和位置嵌入特征图；将符号特征图和位置嵌入特征图进行融合处理，得到待处理图像的第二待处理特征图。

在一实施例中，处理模块，具体用于：对初始特征图分别进行N次池化处理，得到N个池化特征图，其中，N为正整数；根据N个池化特征图进行位置编码处理，得到初始特征图的位置嵌入特征图。

在一实施例中，处理模块，还用于：将初始特征图输入目标特征提取网络包括的符号特征提取模块中进行处理，得到初始特征图的符号特征图；将初始特征图输入目标特征提取网络包括的位置嵌入特征提取模块中进行处理，得到初始特征图的位置嵌入特征图。

在一实施例中，位置嵌入特征提取模块包括多个特征调整单元和位置编码单元，且各个特征调整单元包括的池化处理子单元的池化核大小不同；多个特征调整单元并行连接，且各个特征调整单元的输出端与位置编码单元的输入端连接；特征调整单元包括池化处理子单元、升维处理子单元和上采样子单元。

在一实施例中，中间局部语义特征图的尺寸大于中间全局语义特征图的尺寸，中间局部语义特征图的通道数小于中间全局语义特征图的通道数；处理模块，具体用于：对中间全局语义特征图进行降维处理，其中，降维处理后的中间全局语义特征图的通道数与中间局部语义特征图的通道数相同；对降维处理后的中间全局语义特征图进行上采样处理，得到待融合的中间全局语义特征图，其中，待融合的中间全局语义特征图的尺寸与中间局部语义特征图的尺寸相同；将中间局部语义特征图与待融合的中间全局语义特征图进行融合处理，得到第一融合特征图。

在可行的实施方式中，处理模块，具体还用于：对中间局部语义特征图进行下采样处理，其中，下采样处理后的中间局部语义特征图的尺寸与中间全局语义特征图的尺寸相同；对下采样处理后的中间局部语义特征图进行升维处理，得到待融合的中间局部语义特征图，其中，待融合的中间局部语义特征图的通道数与中间全局语义特征图的通道数相同；将中间全局语义特征图与待融合的中间局部语义特征图进行融合处理，得到第二融合特征图。

在一实施例中，处理模块，具体还用于：根据融合局部语义特征图和融合全局语义特征图确定待处理图像的语义分割图；或者，根据融合局部语义特征图和融合全局语义特征图确定待处理图像的实例分割图；或者，根据融合局部语义特征图和融合全局语义特征图确定待处理图像的物体检测结果；或者，根据融合局部语义特征图和融合全局语义特征图确定待处理图像的图像分类结果。

在一实施例中，处理模块，还用于：利用局部语义分析网络中的局部语义分析模块对第一待处理特征图进行局部语义分析，得到中间局部语义特征图；利用全局语义分析网络中的全局语义分析模块对第二待处理特征图进行全局语义分析，得到中间全局语义特征图；其中，局部语义分析网络包括多个串行连接的局部语义分析模块，全局语义分析网络包括多个串行连接的全局语义分析模块，局部语义分析网络和全局语义分析网络之间设置有多尺度扩散模块，多尺度扩散模块用于对中间局部语义特征图和中间全局语义特征图进行处理得到第一融合特征图和第二融合特征图。

可选地，多尺度扩散模块包括上采样单元、下采样单元、降维处理单元和升维处理单元；下采样单元的输入端与局部语义分析网络连接，输出端与升维处理单元的输入端连接，升维处理单元的输出端与全局语义分析网络连接；降维处理单元的输入端与全局语义分析网络连接，输出端与上采样单元的输入端连接，上采样单元的输出端与局部语义分析网络连接。

本申请实施例一方面提供了一种计算机设备，包括：处理器、存储器以及网络接口；处理器与存储器、网络接口相连，其中，网络接口用于提供网络通信功能，存储器用于存储程序代码，处理器用于调用程序代码，以执行本申请实施例中的图像处理方法。

本申请实施例一方面提供了一种计算机可读存储介质，计算机可读存储介质存储有计算机程序，计算机程序包括程序指令，程序指令当被处理器执行时，执行本申请实施例中的图像处理方法。

相应的，本申请实施例提供了一种计算机程序产品或计算机程序，该计算机程序产品或计算机程序包括计算机指令，该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令，处理器执行该计算机指令，使得该计算机设备执行本申请实施例中一方面提供的图像处理方法。

本申请实施例中，对待处理图像的第一待处理特征图和第二待处理特征图分别进行局部语义分析处理和进行全局语义分析处理，处理得到的中间局部语义特征图和中间全局语义特征图是对待处理图像的不同维度的上下文语义表达，通过对中间局部语义特征图和中间全局语义特征图进行处理并得到第一融合特征图和第二融合特征图，能够将两种维度的信息进行交换融合，使得特征图所包含的信息更加丰富，进而针对融合特征图进行进一步处理，能够使得最终得到的图像处理结果具有高准确性。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本申请实施例提供的一种图像处理系统的架构图；

图2是本申请实施例提供的一种图像处理方法的流程示意图；

图3是本申请实施例提供的另一种图像处理方法的流程示意图；

图4是本申请实施例提供的一种目标特征提取网络的结构示意图；

图5是本申请实施例提供的又一种图像处理方法的流程示意图；

图6是本申请实施例提供的一种多尺度扩散模块的结构示意图；

图7是本申请实施例提供的一种图像处理的网络架构图；

图8是本申请实施例提供的一种图像处理装置的结构示意图；

图9是本申请实施例提供的一种计算机设备的结构示意图。

具体实施方式

为了使本技术领域的人员更好地理解本申请方案，下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

人工智能（Artificial Intelligence，AI）是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能，感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说，人工智能是计算机科学的一个综合技术，它企图了解智能的实质，并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法，使机器具有感知、推理与决策的功能。

人工智能技术是一门综合学科，涉及领域广泛，既有硬件层面的技术也有软件层面的技术。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。

本申请实施例提供的方案属于人工智能领域下属的计算机视觉技术（ComputerVision，CV）和深度学习（Deep Learning，DL）。其中，计算机视觉技术（Computer Vision，CV）是一门研究如何使机器“看”的科学，更进一步的说，就是指用摄影机和电脑代替人眼对目标进行识别、跟踪和测量等机器视觉，并进一步做图形处理，使电脑处理成为更适合人眼观察或传送给仪器检测的图像。作为一个科学学科，计算机视觉研究相关的理论和技术，试图建立能够从图像或者多维数据中获取信息的人工智能系统。计算机视觉技术通常包括图像处理、图像识别、图像语义理解、图像检索、OCR、视频处理、视频语义理解、视频内容/行为识别、三维物体重建、3D技术、虚拟现实、增强现实、同步定位与地图构建等技术，还包括常见的人脸识别、指纹识别等生物特征识别技术。深度学习通常包括人工神经网络、置信网络、强化学习、迁移学习、归纳学习、式教学习等技术。本申请实施例中对图像进行处理，获取待处理图像的特征图，以及对特征图进行不同的语义分析处理可以采用神经网络来实现。

在可行的实施例中，本申请实施例提供的图像处理方法还可以基于云技术（Cloudtechnology）。具体可以涉及云技术中的云存储（Cloud storage）、云数据库（CloudDatabase）、大数据（Big data）中的一种或者多种。例如，从云数据库中获取执行该图像处理方法所需要的数据（例如待处理图像）。

在可行的实施例中，本申请实施例提供的图像处理方法还可以基于区块链技术，区块链是分布式数据存储、点对点传输、共识机制、加密算法等计算机技术的新型应用模式。区块链（Blockchain），本质上是一个去中心化的数据库，是一串使用密码学方法相关联产生的数据块，每一个数据块中包含了一批次网络交易的信息，用于验证其信息的有效性（防伪）和生成下一个区块。其中，包括一系列按照产生的先后时间顺序相互接续的区块（Block），新区块一旦加入到区块链中就不会再被移除，区块中记录了区块链系统中节点提交的记录数据。可选地，可以将执行该图像处理方法所产生的数据（例如图像分割结果、物体检测结果等）以区块的形式存储到区块链网络中，也可以从区块链网络中获取图像分割结果，用于其他业务场景。另外，执行该图像处理方法的设备可以是区块链网络中的节点设备。

请参见图1，图1是本申请实施例提供的一种图像处理系统的架构图，包括数据库10和图像处理设备11，其中，数据库10和图像处理设备11可以通过有线或无线的方式进行连接，数据库10可以是图像处理设备11的本地数据库，也可以是图像处理设备11可以访问的云端数据库等。

数据库10可以存储图像数据或视频数据，这些数据可以是用户终端上传的原始数据，通过这些原始数据可以生成待处理图像，例如一张图片可以作为待处理图像，或者视频中的一帧图像也可以作为待处理图像，对于待处理图像具体的处理由图像处理设备11执行并给出处理结果。

图像处理设备11可以从数据库10中获取各种图像数据或视频数据，并从图像数据或视频数据提取待处理图像，图像处理设备11可以对获取到的待处理图像进行初步的特征提取处理，得到第一待处理特征图和第二待处理特征图。通过对第一待处理特征图进行局部语义分析处理，可以得到用于表达图像的局部语义的中间局部语义特征图，局部语义可以是指局部上下文信息，描述的是图像的空间细节信息；通过对第二待处理特征图进行全局语义分析处理，可以得到用于表达图像全局语义的中间全局语义特征图，该全局语义是指全局上下文信息，描述的是图像的全局语义信息；此外，图像处理设备11还可以对中间局部语义特征图和中间全局语义特征图进行处理，得到交换特征信息的第一融合特征图和第二融合特征图，后续对这两种融合特征图进行不同的分析处理，可以得到表达准确的融合局部语义特征图和融合全局语义特征图，进而能够准确地确定图像处理结果。该图像处理结果可以是诸如图像分割结果、物体检测结果等，可以将其发送至数据库10进行存储，也可以将其存储到服务器的本地存储单元中。

可以理解的是，数据库10可以是关系型数据库，也可以是非关系型数据库，图像处理设备11可以是服务器或者终端等计算机设备，其中，服务器可以是独立的物理服务器，也可以是多个物理服务器构成的服务器集群或者分布式系统，还可以是提供服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、CDN、以及大数据和人工智能平台等基础云计算服务的云服务器，在此不做限制。终端可以是智能手机、平板电脑、智能可穿戴设备、智能语音交互设备、智能家电、个人电脑、车载终端等等设备，在此也不做限制。

以上对本申请实施例提供的图像处理系统的架构图进行了简要介绍，下面对基于该架构图的图像处理方法的具体实现方式进行详细阐述。

请参阅图2，图2是本申请实施例提供的一种图像处理方法的流程示意图。本申请实施例中所描述的图像处理方法可以由图1所示的图像处理设备执行，该图像处理方法包括但不限于如下步骤：

S201，获取待处理图像的第一待处理特征图和第二待处理特征图。

本申请实施例中，待处理图像可以是图像处理设备（如服务器）从图像数据库中获取的一张图像，也可以是图像处理设备从数据库中获取视频，从视频中获取一张图像作为待处理图像。待处理图像可以是针对某个场景拍摄得到的，该某个场景例如是图书馆、卧室、风景环境等等，在待处理图像中可以包括多种物体，每种物体可能有不同的实例，例如待处理图像是针对卧室拍摄得到的，该待处理图像中包括床、柜子、桌子以及多张椅子，而多张椅子则是椅子的多个实例。对于待处理图像包括的内容在此不做限制。

第一待处理特征图是对待处理图像进行初始特征提取后得到的特征图，例如利用初始特征提取网络对待处理图像进行特征提取，得到初始特征图。在一实施例中，该初始特征提取网络可以是卷积神经网络，该卷积神经网络可以包括多个卷积层，例如，该卷积神经网络包括3个步长为2的卷积层，假设待处理图像的尺寸大小为1024×2048，通过该卷积神经网络对图像进行特征提取后，可以得到尺寸大小128×256的特征图，该特征图的尺寸缩小为原来的1⁄64，对应的分辨率缩小为原来的1⁄8，可以称之为1⁄8输入分辨率大小的特征图。

第二待处理特征图可以是在初始特征提取的基础上进一步地特征提取得到的，可以是用于提取图像特征的另一卷积神经网络对初始特征图进行处理得到的。由于是直接将初始特征图作为第一待处理特征图，对初始特征图进行进一步处理后得到第二待处理特征图，因此相比于第二待处理特征图，第一待处理特征图可以是尺寸更大（或者说分辨率更高）的特征图；而第二待处理特征图的尺寸（或者说分辨率）均比第一待处理特征图的尺寸（或者说分辨率）小。此外，为了让提取的全局语义更具有代表性，可选地，第二待处理特征图的通道数可以大于第一待处理特征图的通道数，也即第二待处理特征图的深度大于第一待处理特征图的深度。

由上可知，不论是第一待处理特征图还是第二待处理特征图都是表达待处理图像的上下文信息的多维（例如二维）特征矩阵，区别在于第二待处理特征图的通道数比第一待处理特征图的通道数多，因此表达的特征更深层，也更有利于提取全局语义；往往在确定全局语义时，只需大致识别出图像中的物体类别，可以不考虑空间细节信息，所以采用尺寸较小的特征图进行全局语义分析时，可以在能够分析出全局语义的情况下，大大减少需要处理的像素点，从而加快全局语义分析的速度。在确定局部语义时，则需要分析出像素点所在的空间位置信息，对图像整体的空间细节信息进行把握，因此采用尺寸较大的特征图进行局部语义分析时，可以在较大的空间范围内处理更多的像素点，从而使得局部语义分析的结果更加准确。由此，后续对第一待处理特征图和第二待处理特征图进行不同的语义分析处理，可以得到待处理图像不同维度的特征信息，并且在不同维度上的特征信息对图像能够进行更加精准的语义信息表达。

S202，对第一待处理特征图进行局部语义分析，得到中间局部语义特征图，以及对第二待处理特征图进行全局语义分析，得到中间全局语义特征图。

在一实施例中，对第一待处理特征图的局部语义分析可以是一种局部特征分析处理，即对第一待处理特征图进一步提取特征，得到中间局部语义特征图，中间局部语义特征图是一种局部上下文语义特征，可以用于描述图像的空间语义信息（或者说空间细节信息），这里的空间语义信息刻画的是当前像素点和周围像素点之间的关系，例如当前像素点周围有哪些像素点。这是因为中间局部语义特征图中的每个空间位置的像素点，其实都和输入的待处理图像或表示待处理图像的第一待处理特征图中一定范围大小的局部区域存在对应关系，属于局部细节特征信息。

对第二待处理特征图的全局语义分析可以是一种全局特征分析处理，得到的中间全局语义特征图是一种全局上下文语义特征，可以用于表示当前像素点和所有像素点之间的联系，即每个像素点都能感知到图像中其他所有像素点的信息，但全局上下文语义特征并不关心空间细节信息，这也就好比一张图像我们可以关心其中包括哪些物体，但并不需要关心这些物体所处的位置。

由上可知，中间局部语义特征图更多的是对空间细节信息的刻画，对于全局语义信息的把握存在一定的不足，而中间全局语义特征图则是对于图像的空间细节信息或者说图像结构信息的描述存在一定缺失，为了解决这一问题，可以经过下述步骤S203的处理对各自的特征图存在的缺陷进行补偿。

在一实施例中，中间局部语义特征图的尺寸大于中间全局语义特征图的尺寸，中间局部语义特征图的通道数小于中间全局语义特征图的通道数，中间局部语义特征图和第一待处理特征图的尺寸以及通道数保持一致，中间全局语义特征图和第二待处理特征图的尺寸以及通道数保持一致，这样有利于简化网络结构，加快处理速度。

S203，根据中间局部语义特征图和中间全局语义特征图确定第一融合特征图和第二融合特征图。

在一实施例中，当中间局部语义特征图的尺寸大于中间全局语义特征图的尺寸，中间局部语义特征图的通道数小于中间全局语义特征图的通道数时，根据中间局部语义特征图和中间全局语义特征图确定第一融合特征图的实现方式可以是：对中间全局语义特征图进行降维处理，其中，降维处理是指降低特征图的通道数。降维处理后的中间全局语义特征图的通道数与中间局部语义特征图的通道数相同；对降维处理后的中间全局语义特征图进行上采样处理，得到待融合的中间全局语义特征图，其中，待融合的中间全局语义特征图的尺寸与中间局部语义特征图的尺寸相同；将中间局部语义特征图与待融合的中间全局语义特征图进行融合处理，得到第一融合特征图。

可以看出，第一融合特征图是由中间局部语义特征图以及处理之后的中间全局语义特征图融合得到的，由于中间全局语义特征图的通道数比中间局部语义特征图的通道数多，尺寸（或者说分辨率）比中间全局语义特征图的尺寸（或者说分辨率）小，先对中间全局语义特征图进行降维处理以减少通道数，再进行上采样处理以调整尺寸大小，进而和中间局部语义特征图融合得到第一融合特征图，可以通过减少像素点的处理量来有效地提高计算效率，并且节省计算资源。为了便于不同特征图的快速融合，降维后的中间全局语义特征图的通道数和中间局部语义特征图的通道数保持一致，上采样处理后的中间全局语义特征图的尺寸和中间局部语义特征图的尺寸保持一致。

可选地，降维处理可以是通过卷积神经网络对中间全局语义特征图进行处理，该卷积神经网络可以包括多个卷积层，卷积层的大小可以采用1×1，也可以采用3×3、4×4等，在此不做限制。其中，卷积层采用1×1大小可以专注于调整通道数，而不改变中间全局语义特征图的尺寸大小。上采样处理是一种空间缩放处理，在此用于放大降维处理后的中间全局语义特征图的尺寸，具体可以是将降维处理后的中间全局语义特征图的尺寸调整为中间局部语义特征图的尺寸。可选地，可以采用最近邻插值算法、双线性插值算法、双三次插值算法中的任一种进行上采样，也可以是通过转置卷积、亚像素卷积等实现上采样处理，在此不做限制。中间全局语义特征图依次经过降维处理以及上采样处理之后得到待融合的中间全局语义特征图，之后和中间局部语义特征图的融合可以是相应通道上的特征图的对应元素值相加，得到第一融合特征图，需要说明的是，第一融合特征图和中间局部语义特征图的通道数、尺寸（或者说分辨率）是相同的，中间局部语义特征图和第一待处理特征图的通道数、尺寸（或者说分辨率）也可以是相同。

类似地，在相同的前提条件下，根据中间局部语义特征图和中间全局语义特征图确定第二融合特征图的方式可以是：对中间局部语义特征图进行下采样处理，其中，下采样处理后的中间局部语义特征图的尺寸与中间全局语义特征图的尺寸相同；对下采样处理后的中间局部语义特征图进行升维处理，得到待融合的中间局部语义特征图，其中，升维处理是指升高特征图的通道数，待融合的中间局部语义特征图的通道数与中间全局语义特征图的通道数相同；将中间全局语义特征图与待融合的中间局部语义特征图进行融合处理，得到第二融合特征图。

可以发现，该第二融合特征图是由中间全局语义特征图和处理之后的中间局部语义特征图融合得到的。由于中间局部语义特征图是尺寸大（或者说分辨率大）、通道数少的特征图，对中间局部语义特征图先进行下采样处理，缩小特征图的尺寸（或者说分辨率），再进行升维处理，将中间局部语义特征图的通道数增加到和中间全局语义特征图相同的通道数，进而再和中间全局语义特征图融合得到第二融合特征图，可以有效节省计算时间和资源，提高计算速度。可选地，下采样处理可以通过池化操作实现，例如最大池化、平均池化等，升维处理可以同降维处理类似，即通过运用卷积神经网络对中间局部语义特征图进行处理实现，该卷积神经网络中包括的卷积层的个数与中间全局语义特征图的通道数是匹配的。中间局部语义特征图依次经过下采样处理以及升维处理之后得到待融合的中间局部语义特征图，再和相应通道上的中间全局语义特征图对应的元素值相加，得到第二融合特征图，需要说明的是，为了使得处理过程更加便捷，第二融合特征图和中间全局语义特征图通道数、尺寸（或者说分辨率）可以是相同的，中间全局语义特征图和第二待处理特征图的通道数、尺寸（或者说分辨率）也可以是相同的。

上述第一融合特征图是以中间局部语义特征图为准，融合表达局部语义信息的特征图得到的，第二融合特征图是以全局语义特征图为准，融合表达全局语义信息的特征图得到的，这可以视为一种特征交换融合，融合之后得到的融合特征图都蕴含丰富的空间语义信息和全局语义信息，进而能够增强后续处理得到的全局语义特征图或局部语义特征图对图像上下文信息的表达。

S204，对第一融合特征图进行局部语义分析，得到融合局部语义特征图，以及对第二融合特征图进行全局语义分析，得到融合全局语义特征图。

在一实施例中，对第一融合特征图的局部语义分析处理和对第一待处理特征图的局部语义分析处理的方式类似，对第二融合特征图的全局语义分析处理和对第二待处理特征图的全局语义分析处理的方式类似，此处不再赘述。

融合局部语义特征图和中间局部语义特征图都是一种局部上下文语义特征或者说空间上下文特征，用于描述图像的空间语义信息，不同的是融合局部语义特征图是参考融合了全局语义信息的特征图，并对其进行局部语义分析处理得到的，而不单是在中间局部语义特征图的基础之上进行局部语义分析处理，这样可以让提取到的局部语义特征图的信息表达力更强。同理，融合全局语义特征图和中间局部语义特征图也都是一种全局上下文语义特征，可以描述图像的全局语义信息，获取该融合全局语义特征图是参考融合了局部语义信息的特征图。因此，融合全局语义特征图对于全局语义信息的表达，以及融合局部语义特征图对于空间语义信息的表达都会更加准确。需要说明的是，为了方便计算以及网络结构的简化，融合全局语义特征图和中间全局语义特征图的通道数、尺寸（或者说分辨率）可以相同，融合局部语义特征图和中间局部语义特征图的通道数、尺寸（或者说分辨率）可以相同，对应地，融合全局语义特征图的通道数大于融合局部语义特征图的通道数，尺寸（或者说分辨率）小于融合局部语义特征图的尺寸（或者说分辨率）。

S205，根据融合局部语义特征图和融合全局语义特征图确定待处理图像的图像处理结果。

在一实施例中，可以进一步对融合局部语义特征图和融合全局语义特征图进行处理，具体可以是对融合局部语义特征图依次执行下采样处理和升维处理，得到处理后的融合局部语义特征图，再将其和融合全局语义特征图进行融合处理，得到新的第一融合特征图；进一步对融合全局语义特征图依次执行降维处理和上采样处理，得到处理后的融合全局语义特征图，再将其和融合局部语义特征图进行融合处理，得到新的第二融合特征图；可以将这一过程称为特征交换融合处理。

对于新的第一融合特征图和新的第二融合特征图的后续处理，包括但不限于以下两种处理方式：方式1，可以直接将新的第一融合特征图和新的第二融合特征图进行融合处理，得到目标特征图，进而根据该目标特征图确定图像处理结果。方式2，在得到新的第一融合特征图和新的第二融合特征图之后，可以进一步对新的第一特征图进行局部语义分析处理，得到新的融合局部语义特征图，以及对新的第二特征图进行全局语义分析处理，得到新的融合全局语义特征图。可以将这一过程称为语义分析处理，其中，局部语义分析处理得到的特征图可以统称为局部上下文语义特征，全局语义分析处理得到的特征图可以统称为全局上下文语义特征。进一步地，可以直接将新的融合全局语义特征图和新的融合局部语义融合特征图进行融合处理，得到目标特征图，进而根据该目标特征图确定图像处理结果，其中，方式1和方式2中的融合处理均可以是拼接处理。

在一可行的实施方式中，也可以后续基于新的融合局部语义特征图和新的融合全局语义特征图重复P次上述特征交换融合处理和/或语义分析处理，并采用上述方式1或方式2确定最终的目标特征图，进而根据该目标特征图确定图像处理结果，其中，P为正整数。

在另一实施例中，可以直接将融合局部语义特征图和融合全局语义特征图进行融合处理，得到目标特征图，进而根据该目标特征图确定图像处理结果，其中，融合处理具体可以是拼接处理，这种方式无需对融合局部语义特征图和融合全局语义特征图进行特征交换融合处理和语义分析处理，在保证图像处理结果具备较高准确性的同时，可以减少计算量，加快图像处理的效率。

需要说明的是，由于融合局部语义特征图和融合全局语义特征图（或者新的第一融合特征图和新的第二融合特征图，或者新的融合局部语义特征图和新的融合全局语义特征图）尺寸大小影响矩阵实际拼接效果，因此融合之前需要将两种特征图的尺寸调整为一致。具体的调整方式可以是将融合全局语义特征图（或者新的第一融合特征图，或者新的融合局部语义特征图）进行上采样处理，之后再将其和融合局部语义特征图（或者新的第二融合特征图，或者新的融合全局语义特征图）进行拼接，也可以是将融合局部语义特征图（或者新的第二融合特征图，或者新的融合全局语义特征图）进行下采样处理，之后再将其和融合全局语义特征图（或者新的第一融合特征图，或者新的融合局部语义特征图）进行拼接。此外，上述根据目标特征图确定图像处理结果的具体方式可以是将目标特征图输入卷积神经网络处理，输出语义分割图这一图像处理结果。

可选地，对于待处理图像的图像处理结果包括但不限于语义分割图、实例分割图、物体检测结果、图像分类结果中的一种或多种。其中，语义分割图中将待处理图像中的每个像素点标注为某个物体类别，最直观的展示是将每个物体类别用不同颜色划分；实例分割图属于物体检测和语义分割的综合体，即精确到物体的边缘同时还会标注出待处理图像中同一物体的不同个体；物体检测结果是指检测到的物体的类别和位置，常见的位置用边界框表示；图像分类结果是指待处理图像中物体类别的候选集。

应该理解的是，虽然图2的流程图中的各个步骤按照箭头的指示依次显示，但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明，这些步骤的执行并没有严格的顺序限制，这些步骤可以以其它的顺序执行。而且，图2中的至少一部分步骤可以包括多个子步骤或者多个阶段，这些子步骤或者阶段并不必然是在同一时刻执行完成，而是可以在不同的时刻执行，这些子步骤或者阶段的执行顺序也不必然是依次进行，而是可以与其它步骤或者其它步骤的子步骤或者阶段的至少一部分轮流或者交替地执行，例如在确定当前待处理图像的中间局部语义特征图和中间全局语义特征图的时候，可以获取下一个待处理图像的第一待处理特征图和第二待处理特征图。针对下述实施例示出的流程图的顺序也可以满足上述内容，在此不做赘述。

综上所述，本申请实施例至少具有以下优点：

通过对待处理图像的第一待处理特征图和第二待处理特征图进行不同的语义分析处理，可以使得不同特征图的处理更有针对性，提高处理效率；由于第一待处理特征图和第二待处理特征图是不同分辨率或者说不同尺寸大小的特征图，对高分辨率的第一待处理特征图进行局部语义分析处理，能够获取描述空间细节信息的中间局部语义特征图，以及对低分辨率的第二待处理特征图进行全局语义分析处理，能够获取描述全局语义信息的中间全局语义特征图，两种特征图从不同维度描述待处理图像所包括的语义信息，同时对两种不同特征图进行交换融合，可以进一步增强特征图对图像的表达，提升特征图对图像信息的描述准确度，从而使得图像处理结果准确性更高。

请参阅图3，图3是本申请实施例提供的另一种图像处理方法的流程示意图。本申请实施例中所描述的图像处理方法可以由图1所示的图像处理设备执行，该图像处理方法包括但不限于如下步骤：

S301，获取待处理图像的初始特征图，将初始特征图确定为待处理图像的第一待处理特征图。

在一实施例中，待处理图像的初始特征图是一个多维（例如二维）的特征矩阵，该初始特征图可以是通过前述初始特征提取网络对待处理图像进行特征提取处理得到的，该初始特征提取网络可以是一般的卷积神经网络，也可以是深度可分离卷积神经网络。例如是多个串行连接的卷积层，经过该卷积神经网络处理得到的特征可以称为卷积特征，本实施例中可以将其作为待处理图像的第一待处理特征图。举例来说，以图像

作为待处理图像，其中，3、H和W分别表示图像P的通道数、高度和宽度，将图像I通过由三个步长为2的卷积层以生成卷积特征X，且

，即初始特征图是一个输入分辨率为1/8的特征图，特征图的高度和宽度都分别缩小为待处理图像原本的高度H和宽度W的1/8，而通道数由3变为了64，其中，输出的特征图的通道数是由卷积核的个数决定的，该卷积特征X即第一待处理特征图。

S302，对初始特征图进行处理，确定初始特征图的符号特征图和位置嵌入特征图。

在一实施例中，可以对初始特征图进行符号化处理，得到初始特征图的符号特征图，这里的符号化（tokenization）是指对初始特征图进行进一步地特征提取。通过符号化可以将初始特征图变为更高维度的特征图，也即符号特征图（简称符号特征），对应表示图像的全局语义信息。确定符号特征图的方式可以是采用卷积神经网络处理初始特征图，该卷积神经网络可以包括多个跨步卷积的卷积层。

位置嵌入特征图是隐式的位置嵌入特征，该位置嵌入特征图可以是一个多维（如二维）的特征矩阵，其中的数值可以用于表示图像中各个像素点的位置信息。相比于利用空间先验信息来进行位置编码的方式，本申请实施例中确定位置嵌入特征图时可以处理任意尺寸的特征图，提高处理性能，因为在常规的位置编码中采用显式的位置嵌入特征（Positional Encodings，PE），当图像分辨率提升时会直接对PE插值处理，性能会下降。并且从自注意力的角度来看，位置嵌入特征图更多是用于增加相邻像素间的相似度。需要说明的是，为便于计算，符号特征图的通道数和位置嵌入特征的通道数保持一致，同时为利于全局信息的表达，符号特征图的通道数和位置嵌入特征的通道数均大于初始特征图的通道数。

可选地，确定位置嵌入特征图的方式可以是：对初始特征图分别进行N次池化处理，得到N个池化特征图，其中，N为正整数；根据N个池化特征图进行位置编码处理，得到初始特征图的位置嵌入特征图。这里的N次池化处理可以是由N个不同的尺寸大小的池化核分别对初始特征图进行池化处理，不同于卷积处理中所使用的卷积核，池化核类似于一个模具，里面并没有参数。具体地，池化处理可以是平均池化处理、也可以是最大池化处理等，池化处理之后得到的N个池化特征图是尺寸缩小的特征图，池化处理可以让特征图中表达的特征更加集中，不同大小的池化核可以将一个特征图从不同角度进行特征提取，得到特征集中的范围不同的池化特征，后续集中融合池化特征可以增加相邻像素间的相似性，进而高效地进行自注意力计算的处理，有利于全局语义特征图的提取。当N个池化特征图的大小依次由小到大，可以认为是对初始特征图中不同子区域的金字塔特征表示，在此将这N个池化特征图称为金字塔池化特征。然后根据该金字塔池化特征进行位置编码处理，这里的位置编码处理是指将池化特征图中的局部信息映射为一个数值，以表示像素点在图像中所处的位置。经过位置编码处理之后得到的位置嵌入特征图可以维持输出的特征（例如下述第二待处理特征图）的平移等价性。该平移等价性是指当物体在图像中平移时，物体的位置会改变，但物体对应的符号特征不变，融合相应位置的位置编码特征输出的特征也应该不变。而维持这样的平移等价性可以通过本实施例中的位置嵌入特征图实现，这样也可以保证处理的图像大小变化时性能是稳定的。在此之前，需要先调整池化特征图的通道数，具体是将池化特征图的通道数调整至与符号特征图的通道数一致，可以通过卷积神经网络包括的卷积层（例如1×1的卷积层，卷积核个数和符号特征图的通道数相同）进行处理，再对通道数调整之后的池化特征图进行上采样处理，例如通过双线性插值，得到与符号特征图相同尺寸的上采样特征图，进而对上采样特征图进行位置编码处理，得到位置嵌入特征图，位置编码处理具体可以是按对应位置将上采样特征图相加后输入卷积层（例如1×1的卷积层）来生成位置嵌入特征图，其中，上采样特征图相加处理可以增加相邻像素间的相似度，卷积处理可以实现位置编码，进而使得位置嵌入特征图维持输出特征的平移等价性，保证全局语义特征不受空间信息变化的干扰，进而提高图像处理性能。

S303，将符号特征图和位置嵌入特征图进行融合处理，得到待处理图像的第二待处理特征图。

在一实施例中，通过对初始特征图进行处理获取到的符号特征图和位置嵌入特征图的尺寸和通道数都是相同的，因此对符号特征图和位置嵌入特征的融合处理可以是将对应通道上的符号特征图和位置嵌入特征图相加，得到第二待处理特征图，该第二待处理特征图中相邻像素间的相似度比初始特征图更高，并且符号化的处理使得最终得到的第二待处理特征图的尺寸均小于第一待处理特征图的尺寸。在获取第二待处理特征图的过程中，由于第一待处理特征图的存在，后续的处理不需要第二待处理特征图来维护丰富的空间信息，因此在对初始特征图进行符号化时，符号（token）特征的数量可以显著减少，从而减少计算量。

可选地，根据上述描述的内容，可以有如下目标特征提取网络获取第二待处理特征图，具体步骤可以是：将初始特征图输入目标特征提取网络包括的符号特征提取模块中进行处理，得到初始特征图的符号特征图；将初始特征图输入目标特征提取网络包括的位置嵌入特征提取模块中进行处理，得到初始特征图的位置嵌入特征图。可选地，位置嵌入特征提取模块包括多个特征调整单元和位置编码单元，多个特征调整单元并行连接，且各个特征调整单元的输出端与位置编码单元的输入端连接，各个特征调整单元包括的池化处理子单元的池化核大小不同。池化处理子单元中使用不同大小的池化核可以将一个特征图从不同角度进行特征提取，即某一位置及其相邻位置的特征值计算的范围不同，得到特征集中范围不同的池化特征，之后再集中融合这些池化特征可以增加相邻像素间的相似度，提高自注意力机制的处理的效率，有利于全局语义特征图的提取。进一步地，特征调整单元可以包括池化处理子单元、升维处理子单元和上采样子单元。

其中，目标特征提取网络中包括的特征调整单元用于对输入的初始特征图进行调整，即通过池化子单元稀疏初始特征图，然后通过升维处理子单元先调整池化特征图的通道数，池化特征图调整后的通道数与符号特征图的通道数相同，再通过上采样子单元调整池化特征图的尺寸，调整后的尺寸大小到和符号特征图的尺寸大小相同，经过这些子单元处理之后的池化特征图即是调整后的特征图。由于特征调整单元是并行存在的，并且由于池化子单元各个池化特征图尺寸不同，使得初始特征图可以经过不同的调整，得到不同的特征图，后续可以由位置编码单元将这些调整后的特征图融合（例如求和）再经过卷积处理，得到最终的位置嵌入特征图。

图4示出了一种示例性地目标特征提取网络的结构示意图，包括符号特征提取模块和位置嵌入特征提取模块，其中，符号特征提取模块由三个串行连接的卷积层构成，主要功能是对初始特征图进行符号化，位置嵌入特征提取模块包括位置编码单元和三个并行的特征调整单元，位置编码单元包括的三个池化子单元得到的金字塔池化后的特征图的尺寸分别是2×2、4×4、7×7大小之一。该目标特征提取网络也可以称为金字塔池化位置编码（Pyramid Pooling Position Encoding，PPPE）模型，针对各个单元对应的功能在此不再赘述。

需要说明的是，金字塔池化位置编码PPPE和金字塔模型（Pyramid PoolingModule，PPM）密切相关，但是金字塔池化位置编码PPPE和金字塔模型PPM存在以下几个显著差异：1）动机不同。PPPE中的金字塔池化用于增加相邻像素间的相似度，而PPM用于捕获上下文信息；2）不同的动机导致不同的设计。PPPE中没有全局池化，因为全局池化后的池化特征图再经过上采样处理，得到的特征图中包括的相同元素值，并不能提供有效的位置编码。相比之下，全局池化是PPM中最重要的部分；3）在网络中的位置不同。PPPE通常放置在网络（例如Transformer模型，一种由多个自注意力神经网络层组成的编码结构的神经网络模型）之前的浅层，而PPM被附加为网络的最后一个模块。

S304，对第一待处理特征图进行局部语义分析，得到中间局部语义特征图，以及对第二待处理特征图进行全局语义分析，得到中间全局语义特征图。

S305，根据中间局部语义特征图和中间全局语义特征图确定第一融合特征图和第二融合特征图。

S306，对第一融合特征图进行局部语义分析，得到融合局部语义特征图，以及对第二融合特征图进行全局语义分析，得到融合全局语义特征图。

S307，根据融合局部语义特征图和融合全局语义特征图确定待处理图像的图像处理结果。

步骤S304~S307的具体实现方式可参见上述图2对应实施例中的步骤S202~S205，这里不再进行赘述。

综上所述，本申请实施例至少具有以下优点：

基于待处理图像的初始特征图可以获取不同分辨率（或者说不同尺寸）和通道数不同的第一待处理特征图和第二待处理特征图，从而表达不同深度的图像特征；在第二待处理特征图的获取过程中，由于对第二待处理特征图无需维护空间细节信息，因此获取第二待处理特征图时可以有效地降低符号化的计算量，以提高第二待处理特征图的获取效率，同时利用金字塔池化位置编码可以增加第二特征图中相邻像素间的相似度，有利于后续对第二待处理特征图进行全局语义分析处理，并且隐式的位置嵌入特征可以处理不同尺寸的图像，使得对图像的处理尺寸更加多样化，进一步提高图像处理方法的通用性。

请参阅图5，图5是本申请实施例提供的又一种图像处理方法的流程示意图。本申请实施例中所描述的图像处理方法可以由图1所示的图像处理设备执行，该图像处理方法包括但不限于如下步骤：

S501，获取待处理图像的第一待处理特征图和第二待处理特征图。

此步骤的具体实现方式可以参见图2对应实施例的步骤S201或者图3对应实施例的步骤S301~S303，在此不做赘述。

S502，利用局部语义分析网络中的局部语义分析模块对第一待处理特征图进行局部语义分析，得到中间局部语义特征图。

在一实施例中，局部语义分析网络包括多个串行连接的局部语义分析模块，每个局部语义分析模块的处理方式可以是类似的，不同之处在于模块处理的具体数据和输出的处理结果。该局部语义分析模块可以作为局部语义分析网络的基本模块（basicblock，或称之为基本块），可选地，该基本块可以是卷积神经网络，例如可以是由两个具有残差连接的3×3连续卷积层组成的卷积神经网络，其中，3×3大小的卷积层具有很强的位置先验信息，可以保证去掉位置编码后的性能。

对第一待处理特征图进行局部分析处理可以是一个局部语义分析模块，也可以是多个串联的局部语义分析模块，例如两个串行连接的局部语义分析模块，第一个局部语义分析模块的输入为第一待处理特征图，经过第一个局部语义分析模块得到的输出作为紧连着的下一个局部语义分析模块的输入，进而由第二个局部语义分析模块输出中间局部语义特征图。需要说明的是，由于局部语义分析网络进行的局部语义分析本质上是对空间细节信息的把握，因此局部语义分析网络包括的局部语义分析模块的串联处理路径可以称为空间上下文路径。考虑到下述全局语义分析网络带来的全局上下文语义，可以不用添加任何下采样层或者上下文模块来扩大感受野，这样可以使得局部语义分析网络变得简洁而轻量。

S503，利用全局语义分析网络中的全局语义分析模块对第二待处理特征图进行全局语义分析，得到中间全局语义特征图。

在一实施例中，全局语义分析网络包括多个串行连接的全局语义分析模块，每个全局语义模块的处理方式可以是类似的，全局语义分析模块可以作为全局语义分析网络的基本块，该基本块可以提取全局特征的神经网络模型，例如可以是用于图像分类的VisionTransformer（简称ViT模型）中的Transformer模块，中间全局语义特征图可以是一个基本块的输出结果，也可以是多个串联的基本块处理最终的输出结果，即使用一个或者是多个串联的全局语义分析模块对第二待处理特征图进行全局语义分析处理。

可选地，局部语义分析网络和全局语义分析网络之间设置有多尺度扩散模块，该多尺度扩散模块用于对中间局部语义特征图和中间全局语义特征图进行处理得到第一融合特征图和第二融合特征图。其中，多尺度扩散模块的结构可以是如下设计：多尺度扩散模块包括上采样单元、下采样单元、降维处理单元和升维处理单元；下采样单元的输入端与局部语义分析网络连接，输出端与升维处理单元的输入端连接，升维处理单元的输出端与全局语义分析网络连接；降维处理单元的输入端与全局语义分析网络连接，输出端与上采样单元的输入端连接，上采样单元的输出端与局部语义分析网络连接。

根据上述对多尺度扩散模块描述的内容，如图6示出了一种多尺度扩散模块的结构示意图，其中，升维处理单元和降维处理单元均可以是1×1卷积层，不同之处在于：升维处理单元的卷积层的通道数与中间局部语义特征图的通道数相同，个数与中间全局语义特征图的通道数相同的，而降维处理单元的卷积层的通道数与中间全局语义特征图的通道数相同，个数与中间局部语义特征图的通道数相同。对应单元的处理原理可参见图2对应实施例的步骤S203中的内容，在此不做赘述。由于处理的特征图的尺寸（或者说分辨率）不同，因此多尺度扩散模块也可以称为多分辨率特征扩散模块，在局部语义分析网络和全局分析网络中产生的不同尺寸的特征图可以同时送入该多分辨率特征扩散模块，以交换全局语义信息和局部语义信息，使得不同的语义特征图同时获取丰富的空间细节信息和全局语义。

需要说明的是，多尺度扩散模块的输入不仅可以是中间局部语义特征图和中间全局语义特征图，还可以是下述融合局部语义特征图和融合全局语义特征图。也就是说多尺度扩散模块处理的是局部语义分析模块和全局语义分析模块输出的特征图。多尺度扩散模块的输入端可以和局部语义分析模块以及全局语义分析模块的输出端相连接，多尺度扩散模块的输出端和下一个局部语义分析模块和全局语义分析模块的输入端相连接。由于全局语义分析网络是对图像的全局上下文语义信息的提取，因此该全局语义分析网络包括的各个全局语义分析模块所在的处理路径可以称为全局上下文路径。

S504，根据中间局部语义特征图和中间全局语义特征图确定第一融合特征图和第二融合特征图。

在一实施例中，可以将中间局部语义特征图和中间全局语义特征图输入多尺度扩散模块，由多尺度扩散模块输出第一融合特征图和第二融合特征图。对应的处理步骤在此不做赘述。

S505，对第一融合特征图进行局部语义分析，得到融合局部语义特征图，以及对第二融合特征图进行全局语义分析，得到融合全局语义特征图。

在一实施例中，可以利用局部语义分析网络中的局部语义分析模块对第一融合特征图进行局部语义分析处理，得到融合局部语义特征图，该局部语义分析模块是连接在处理中间局部语义特征图的局部语义分析模块之后的一个或者多个基本模块。同理，可以利用全局语义分析网络中的全局语义分析模块对第二融合特征图进行全局语义分析处理，得到融合全局语义特征图，该全局语义分析模块是连接在处理中间全局语义特征图的全局语义分析模块之后的一个或多个基本模块。具体地，可以将第一融合特征图作为局部语义分析模块的输入以及将第二融合特征图作为全局语义分析模块的输入，进而由局部语义分析模块输出融合局部语义特征图，由全局语义分析模块输出融合全局语义特征图。

S506，根据融合局部语义特征图和融合全局语义特征图确定待处理图像的图像处理结果。

在一实施例中，融合局部语义特征图可以继续输入局部语义分析模块进行处理，以及融合全局语义特征图可以继续输入全局语义分析模块进行处理，分别输出两种特征图，再基于两种特征图拼接得到的特征图确定图像处理结果；也可以将融合局部语义特征图和融合全局语义特征图通过多尺度扩散模块进行特征交换融合处理之后，再将处理结果分别送入局部语义分析模块和全局语义分析模块进行处理，得到局部上下文语义特征和全局上下文语义特征，根据这两种特征确定图像处理结果；还可以是直接对融合局部语义特征图和融合全局语义特征图进行拼接处理，根据拼接之后的特征图确定图像处理结果。图像处理结果可以是图像分割结果，包括语义分割或实例分割，也可以是物体检测结果等。

基于上述内容，如图7示出了一种图像处理的网络架构图，包括两个分支，可以分别称为空间上下文路径和全局上下文路径，空间上下文路径中包括的局部语义分析网络采用的是卷积神经网络，输入为高分辨率特征，用于提取空间上下文或者说用于维护空间语义信息，空间上下文路径中包括多个基本块，每个基本块是由两个具有残差连接的卷积层组成，其中采用残差连接可以解决深度神经网络退化的问题，有利于模型的训练，由于都是由卷积层构成的网络，也可称为全卷积神经网络。

全局上下文路径中包括的全局语义分析网络可以采用Transformer架构，用于提取全局上下文，它可以对网络每一层的全局上下文信息进行建模，获取更丰富的全局上下文语义，和用于图像分类的Vision Transformer（简称ViT模型）中使用的Transformer模块相比，图7示出的Transformer模块在设计上有相应地调整，包括：1)用1×1卷积替换所有的线性连接层，可以提高计算效率并且增加网络的非线性，使得网络可以表达更加复杂的特征，同时在多头自注意力 (Multi-headed Self-attention，MSA)中添加形变操作，使Transformer模块可以接受多维（例如二维）的特征图（如前述的第二待处理特征图）作为输入，相比于ViT模型中的Transformer，例如二维特征图不会在输入之前展平为一维向量，而是在MSA这一层中通过形变操作将输入的二维特征图变为一维向量再进行自注意力计算，计算结束后MSA的输出还是二维特征图，具体的形变操作可以通过reshape二维特征矩阵或一维向量实现；2)使用BatchNorm（批标准化）而不是LayerNorm（层标准化）作为归一化层，它可以在不降低性能的情况下加快推理速度，这是因为在模型训练时BatchNorm可统计学习到的图像的归一化结果，而在使用模型处理图像时可以不用重新计算该归一化结果，进而可以提升整体网络架构的处理速度，也即加快推理速度。

对于Transformer模块的处理，大致流程是先将输入的二维特征图进行批标准化，可以在训练的时候加速收敛，在应用的时候提高计算速度，然后通过多头自注意力模块得到全局自注意力，再进行一次批标准化，最终可以由两个1×1卷积和一个激活函数构成的多层感知机（Multilayer Perceptron，MLP）输出处理后的二维特征图。另外，在全局上下文路径中不仅包括基本的Transformer模块，还包括符号化和金字塔池化位置编码模块，其中金字塔池化位置编码模块通过替换现有的定长位置编码方式，可以使得模型能够处理任意尺寸大小的图像。

空间上下文路径和全局上下文路径都可以包括T个基本块（如图7所示的T=5），即两条路径包括的基本块的数量可以相同。整个网络架构中可以包括多个嵌入在两种不同的基本块中的多尺度扩散模块，用于多次交换两个分支的特征，如图7示出的每两个基本卷积模块和Transformer模块后插入一个扩散模块，包括了2个多尺度扩散模块，可以将融合过程重复多次。可选地，对于多尺度扩散模块的设计也可以是每一个基本卷积模块和Transformer模块之后就插入一个，或者每三个基本块搭配一个多尺度扩散模块。理论上来讲，多尺度扩散模块越多，特征交换融合过程越频繁，最终的图像处理结果也越准确，与此同时，需要的计算资源更多，计算效率受到限制，因此考虑到计算资源以及计算效率等因素的影响，最好的设计是在处理效果和处理效率之间求取平衡。如图7所示的多尺度扩散模块在网络架构中的位置设计即是一种基于处理效果以及计算效率的综合评估结果的设计。可选地，多尺度扩散模块的具体结构可以采用如图6示出的内容，符号化以及金字塔位置编码模块的结构可以采用如图4示出的目标特征提取网络的结构。

下面针对如图7示出的图像处理网络架构应用于图像分割处理进行示例性地说明，仍旧以前述图像

作为输入的待处理图像，首先将图像I通过由三个步长为2的卷积层组成的初始特征提取模块（或称之为STEM模块）以生成卷积特征X，得到的

，是1/8输入分辨率下的特征图，然后X（即第一待处理特征图）被分别送往两条路径并产生一系列特征{S¹, … ,S^T}和{G¹,… ,G^T}，其中T表示空间上下文路径和全局上下文路径的网络块数（此处网络块数T=5），也就是两条分支的基本块。需要说明的是，这里选取1/8输入分辨率下的特征图是因为特征图的分辨率是处理效率和处理效果的影响因素之一。一方面，可以选择更高分辨率的特征来保持更多的空间信息，另一方面，也可以选择更低的分辨率来减少计算或内存。但是前者由于空间分辨率高会导致更多的计算或内存，而后者会导致用于分割的空间信息不足，因此需要寻求能够维持提供大量空间信息和更少计算或内存之间的平衡的特征图。针对如图7示出的网络结构图，实验发现选择1/8输入分辨率下的特征图能够来维护空间信息可以达到提供大量空间信息和减少计算或内存之间的良好权衡。

空间上下文路径没有任何下采样层，它用于保持特征中的空间语义信息。具体而言，对于空间上下文路径产生的一系列局部上下文语义特征{S¹, S², … , S^T}，这些局部上下文特征可以包括中间局部语义特征图、融合局部语义特征图等，其分辨率都和这一路径的输入特征X的分辨率相同。为简单起见，这些局部上下文特征的通道数也和输入特征X的通道数保持一致。

全局上下文路径首先使用多个跨步卷积层将输入特征X映射为符号 (token)特征。与此同时，金字塔池化位置编码模块将特征X作为输入来生成隐式的位置嵌入。然后，将位置嵌入和符号(token)特征相加得到1/32输入分辨率下的特征图或1/64输入分辨率下的特征图（即第二待处理特征图），将其作为后续Transformer模块层的输入以产生一系列的全局上下文语义特征{G¹,G²,… ,G^T}，这些全局上下文语义特征可以包括中间全局语义特征、融合全局语义特征，其分辨率与符号特征的分辨率相同，并且通道数也与符号特征的通道数相同。

为了使特征获得丰富的空间信息和全局语义，将特征对(St,Gt)送入多分辨率的扩散模块（即多尺度扩散模块），扩散模块的作用是在全局上下文路径和空间上下文路径之间交换信息，采用如图6示出的模块，可以在局部上下文语义特征S^t上应用空间降采样层（对应下采样单元）和1×1卷积（对应升维单元）并将输出添加到全局上下文语义特征G^t上，得到融合特征图，例如可以是第一融合特征图，与此同时，在全局上下文语义特征G^t上应用带有上采样层（对应上采样单元）的1×1卷积（对应降维单元）并将输出添加到局部上下文语义特征S^t上，得到融合特征图，例如可以是第二融合特征图。如图7所示的多尺度扩散模块处理的是排列在偶数位置的基本块输出的特征，包括以S²、G²及S⁴、G⁴。最后，将全局上下文路径的上采样输出特征与空间上下文路径的输出特征连接起来，连接后的特征通过几个卷积层以产生最终的分割图。

此外，需要说明的是，对于如图7所示的整个网络模型的训练过程，是属于有监督的训练，即利用带有真实标签的图像数据训练模型，通过前向传播由预测标签和真实标签确定的损失信息，对整体模型进行不断地调整得到最终的模型参数配置和模型结构。

对于图7示出的图像处理的网络架构图，是一个示例性地说明，各个模块的构成以及具体的参数设置可以是多样化的，如表1所示的具体实现细节包括多种参数配置：

表1具体实现细节

可以看出，对于stem层（初始特征提取模块）是由3个步长为2的卷积层来产生1⁄8输入分辨率大小的特征图，其中基本块是指同空间上下文路径分支相同的基本块。对于后续的网络结构，设计了三种不同的参数配置，对应小、中、大三档模型。对于符号(token)特征的生成，小模型和中模型使用三个连续的步长为2的3×3卷积层来生成1⁄64输入分辨率大小的特征图，大模型使用两个连续的步长为2的3×3卷积层来生成1/32输入分辨率大小的特征图。不论何种参数配置下，特征图的尺寸都是在逐渐变小的，可以视为一个下采样过程。

上述揭示了一种结合卷积神经网络和Transformer的并行网络架构，CNNs（Convolutional Neural Networks，卷积神经网络）和Transformer可以分别处理不同分辨率特征，具体而言，利用CNNs处理高分辨特征以获取空间细节信息，利用Transformer处理低分辨率特征以获取全局语义信息。同时设计了多分辨率特征扩散模块，多次交换两个并行分支的特征，提升了网络的表达能力。整体方案可行性强，成本低，精度高并适合部署到下游任务，比如图像分割和物体检测等。

综上所述，本申请实施例至少具有以下优点：

利用局部语义分析网络和全局语义分析网络处理不同分辨率的输入特征图，充分利用不同功能网络的计算能力处理不同的特征图，有效地降低了整体模型的计算复杂度，在具体处理过程中，局部语义分析网络可以提取高分辨率的特征，全局语义分析网络可以提取低分辨率的特征，进而实现对空间上下文和全局上下文的建模，同时多尺度扩散模块可以多次交换两个并行分支的特征，能够进一步加速两个分支信息的交互，增强网络表达能力，进而提升图像处理结果的准确性。

请参见图8，图8是本申请实施例提供的一种图像处理装置的结构示意图。上述图像处理装置可以是运行于计算机设备中的一个计算机程序（包括程序代码），例如该图像处理装置为一个应用软件；该图像处理装置可以用于执行本申请实施例提供的方法中的相应步骤。如图8所示，该图像处理装置80可以包括：

获取模块801，用于获取待处理图像的第一待处理特征图和第二待处理特征图；

处理模块802，用于对第一待处理特征图进行局部语义分析，得到中间局部语义特征图，以及对第二待处理特征图进行全局语义分析，得到中间全局语义特征图；

处理模块802，还用于根据中间局部语义特征图和中间全局语义特征图确定第一融合特征图和第二融合特征图；

处理模块802，还用于对第一融合特征图进行局部语义分析，得到融合局部语义特征图，以及对第二融合特征图进行全局语义分析，得到融合全局语义特征图；

处理模块802，还用于根据融合局部语义特征图和融合全局语义特征图确定待处理图像的图像处理结果。

在一实施例中，获取模块801，具体用于：获取待处理图像的初始特征图，将初始特征图确定为待处理图像的第一待处理特征图；对初始特征图进行处理，确定初始特征图的符号特征图和位置嵌入特征图；将符号特征图和位置嵌入特征图进行融合处理，得到待处理图像的第二待处理特征图。

在一实施例中，处理模块802，具体用于：对初始特征图分别进行N次池化处理，得到N个池化特征图，其中，N为正整数；根据N个池化特征图进行位置编码处理，得到初始特征图的位置嵌入特征图。

在一实施例中，处理模块802，还用于：将初始特征图输入目标特征提取网络包括的符号特征提取模块中进行处理，得到初始特征图的符号特征图；将初始特征图输入目标特征提取网络包括的位置嵌入特征提取模块中进行处理，得到初始特征图的位置嵌入特征图。

在一实施例中，中间局部语义特征图的尺寸大于中间全局语义特征图的尺寸，中间局部语义特征图的通道数小于中间全局语义特征图的通道数；处理模块802，具体用于：对中间全局语义特征图进行降维处理，其中，降维处理后的中间全局语义特征图的通道数与中间局部语义特征图的通道数相同；对降维处理后的中间全局语义特征图进行上采样处理，得到待融合的中间全局语义特征图，其中，待融合的中间全局语义特征图的尺寸与中间局部语义特征图的尺寸相同；将中间局部语义特征图与待融合的中间全局语义特征图进行融合处理，得到第一融合特征图。

在可行的实施方式中，处理模块802，具体还用于：对中间局部语义特征图进行下采样处理，其中，下采样处理后的中间局部语义特征图的尺寸与中间全局语义特征图的尺寸相同；对下采样处理后的中间局部语义特征图进行升维处理，得到待融合的中间局部语义特征图，其中，待融合的中间局部语义特征图的通道数与中间全局语义特征图的通道数相同；将中间全局语义特征图与待融合的中间局部语义特征图进行融合处理，得到第二融合特征图。

在一实施例中，处理模块802，具体还用于：根据融合局部语义特征图和融合全局语义特征图确定待处理图像的语义分割图；或者，根据融合局部语义特征图和融合全局语义特征图确定待处理图像的实例分割图；或者，根据融合局部语义特征图和融合全局语义特征图确定待处理图像的物体检测结果；或者，根据融合局部语义特征图和融合全局语义特征图确定待处理图像的图像分类结果。

在一实施例中，处理模块802，还用于：利用局部语义分析网络中的局部语义分析模块对第一待处理特征图进行局部语义分析，得到中间局部语义特征图；利用全局语义分析网络中的全局语义分析模块对第二待处理特征图进行全局语义分析，得到中间全局语义特征图；其中，局部语义分析网络包括多个串行连接的局部语义分析模块，全局语义分析网络包括多个串行连接的全局语义分析模块，局部语义分析网络和全局语义分析网络之间设置有多尺度扩散模块，多尺度扩散模块用于对中间局部语义特征图和中间全局语义特征图进行处理得到第一融合特征图和第二融合特征图。

可以理解的是，本申请实施例所描述的图像处理装置80的各功能模块的功能，可根据上述方法实施例中的图像处理方法具体实现，其具体实现过程可以参照上述方法实施例的相关描述，此处不再赘述。另外，对采用相同方法的有益效果描述，也不再进行赘述。

请参见图9，图9是本申请实施例提供的一种计算机设备90的结构示意图。该计算机设备90可以包含独立设备（例如服务器、节点、终端等等中的一个或者多个），也可以包含独立设备内部的部件（例如芯片、软件模块或者硬件模块等）。该计算机设备90可以包括至少一个处理器901和通信接口902，进一步可选地，计算机设备90还可以包括至少一个存储器903和总线904。其中，处理器901、通信接口902和存储器903通过总线904相连。

其中，处理器901是进行算术运算和/或逻辑运算的模块，具体可以是中央处理器（central processing unit，CPU）、图片处理器（graphics processing unit，GPU）、微处理器（microprocessor unit，MPU）、专用集成电路（Application SpecificIntegratedCircuit，ASIC）、现场可编程逻辑门阵列（Field Programmable Gate Array，FPGA）、复杂可编程逻辑器件（Complex programmable logic device，CPLD）、协处理器（协助中央处理器完成相应处理和应用）、微控制单元（Microcontroller Unit，MCU）等处理模块中的一种或者多种的组合。

通信接口902可以用于为所述至少一个处理器提供信息输入或者输出。和/或，所述通信接口902可以用于接收外部发送的数据和/或向外部发送数据，可以为包括诸如以太网电缆等的有线链路接口，也可以是无线链路（Wi-Fi、蓝牙、通用无线传输、车载短距通信技术以及其他短距无线通信技术等）接口。

存储器903用于提供存储空间，存储空间中可以存储操作系统和计算机程序等数据。存储器903可以是随机存储记忆体（random access memory，RAM）、只读存储器（read-only memory，ROM）、可擦除可编程只读存储器（erasable programmable read onlymemory，EPROM）、或便携式只读存储器（compact disc read-only memory，CD-ROM）等等中的一种或者多种的组合。

该计算机设备90中的至少一个处理器901用于调用至少一个存储器903中存储的计算机程序，用于执行前述的图像处理方法，例如前述图2、图3、图5实施例所描述的图像处理方法，该计算机设备可以是图1所示的图像处理设备11。

在本申请实施例中，该计算机设备90中的处理器901用于调用至少一个存储器903中存储的计算机程序，用于执行以下操作：通过通信接口902获取待处理图像的第一待处理特征图和第二待处理特征图；对第一待处理特征图进行局部语义分析，得到中间局部语义特征图，以及对第二待处理特征图进行全局语义分析，得到中间全局语义特征图；根据中间局部语义特征图和中间全局语义特征图确定第一融合特征图和第二融合特征图；对第一融合特征图进行局部语义分析，得到融合局部语义特征图，以及对第二融合特征图进行全局语义分析，得到融合全局语义特征图；根据融合局部语义特征图和融合全局语义特征图确定待处理图像的图像处理结果。

在一实施例中，处理器901获取待处理图像的第一待处理特征图和第二待处理特征图时，具体用于：获取待处理图像的初始特征图，将初始特征图确定为待处理图像的第一待处理特征图；对初始特征图进行处理，确定初始特征图的符号特征图和位置嵌入特征图；将符号特征图和位置嵌入特征图进行融合处理，得到待处理图像的第二待处理特征图。

在一实施例中，处理器901还用于：对初始特征图分别进行N次池化处理，得到N个池化特征图，其中，N为正整数；根据N个池化特征图进行位置编码处理，得到初始特征图的位置嵌入特征图。

在一实施例中，处理器901还用于：将初始特征图输入目标特征提取网络包括的符号特征提取模块中进行处理，得到初始特征图的符号特征图；将初始特征图输入目标特征提取网络包括的位置嵌入特征提取模块中进行处理，得到初始特征图的位置嵌入特征图。

在一实施例中，中间局部语义特征图的尺寸大于中间全局语义特征图的尺寸，中间局部语义特征图的通道数小于中间全局语义特征图的通道数；处理器901根据中间局部语义特征图和中间全局语义特征图确定第一融合特征图时，具体用于：对中间全局语义特征图进行降维处理，其中，降维处理后的中间全局语义特征图的通道数与中间局部语义特征图的通道数相同；对降维处理后的中间全局语义特征图进行上采样处理，得到待融合的中间全局语义特征图，其中，待融合的中间全局语义特征图的尺寸与中间局部语义特征图的尺寸相同；将中间局部语义特征图与待融合的中间全局语义特征图进行融合处理，得到第一融合特征图。

在可行的实施方式中，处理器901根据中间局部语义特征图和中间全局语义特征图确定第二融合特征图时，具体还用于：对中间局部语义特征图进行下采样处理，其中，下采样处理后的中间局部语义特征图的尺寸与中间全局语义特征图的尺寸相同；对下采样处理后的中间局部语义特征图进行升维处理，得到待融合的中间局部语义特征图，其中，待融合的中间局部语义特征图的通道数与中间全局语义特征图的通道数相同；将中间全局语义特征图与待融合的中间局部语义特征图进行融合处理，得到第二融合特征图。

在一实施例中，处理器901对第一待处理特征图进行局部语义分析，得到中间局部语义特征图，以及对第二待处理特征图进行全局语义分析，得到中间全局语义特征图时，具体用于：利用局部语义分析网络中的局部语义分析模块对第一待处理特征图进行局部语义分析，得到中间局部语义特征图；利用全局语义分析网络中的全局语义分析模块对第二待处理特征图进行全局语义分析，得到中间全局语义特征图；其中，局部语义分析网络包括多个串行连接的局部语义分析模块，全局语义分析网络包括多个串行连接的全局语义分析模块，局部语义分析网络和全局语义分析网络之间设置有多尺度扩散模块，多尺度扩散模块用于对中间局部语义特征图和中间全局语义特征图进行处理得到第一融合特征图和第二融合特征图。

在一实施例中，处理器901根据融合局部语义特征图和融合全局语义特征图确定待处理图像的图像处理结果时，具体用于：根据融合局部语义特征图和融合全局语义特征图确定待处理图像的语义分割图；或者，根据融合局部语义特征图和融合全局语义特征图确定待处理图像的实例分割图；或者，根据融合局部语义特征图和融合全局语义特征图确定待处理图像的物体检测结果；或者，根据融合局部语义特征图和融合全局语义特征图确定待处理图像的图像分类结果。

应当理解，本申请实施例中所描述的计算机设备90可以实现实施例中对图像处理方法的描述，也可执行对应实施例对图像处理装置80的描述，在此不再赘述。另外，对采用相同方法的有益效果描述，也在此不再赘述。

此外，这里需要指出的是：本申请实施例还提供了一种计算机可读存储介质，且上述计算机可读存储介质中存储有前文提及的计算机设备所执行的计算机程序，且上述计算机程序包括程序指令，当上述处理器执行上述程序指令时，能够执行前文实施例中对上述图像处理方法的描述，因此，这里将不再进行赘述。另外，对采用相同方法的有益效果描述，也不再进行赘述。对于本申请所涉及的计算机可读存储介质实施例中未披露的技术细节，请参照本申请方法实施例的描述。

上述计算机可读存储介质可以是前述任一实施例提供的图像处理装置或者上述计算机设备的内部存储单元，例如计算机设备的硬盘或内存。该计算机可读存储介质也可以是该计算机设备的外部存储设备，例如该计算机设备上配备的插接式硬盘，智能存储卡（smart media card，SMC），安全数字（secure digital，SD）卡，闪存卡（flash card）等。进一步地，该计算机可读存储介质还可以既包括该计算机设备的内部存储单元也包括外部存储设备。该计算机可读存储介质用于存储该计算机程序以及该计算机设备所需的其他程序和数据。该计算机可读存储介质还可以用于暂时地存储已经输出或者将要输出的数据。

本申请的一个方面，提供了一种计算机程序产品或计算机程序，该计算机程序产品或计算机程序包括计算机指令，该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令，处理器执行该计算机指令，使得该计算机设备执行本申请实施例中一方面提供的方法。

本申请的一个方面，提供了另一种计算机程序产品，该计算机程序产品包括计算机程序或计算机指令，该计算机程序或计算机指令被处理器执行时实现本申请实施例提供的图像处理方法的步骤。

以上所揭露的仅为本申请较佳实施例而已，当然不能以此来限定本申请之权利范围，因此依本申请权利要求所作的等同变化，仍属本申请所涵盖的范围。

Claims

1.一种图像处理方法，其特征在于，所述方法包括：

获取待处理图像的初始特征图，将所述初始特征图确定为所述待处理图像的第一待处理特征图；

对所述初始特征图进行处理，确定所述初始特征图的符号特征图和位置嵌入特征图，将所述符号特征图和所述位置嵌入特征图进行融合处理，得到所述待处理图像的第二待处理特征图；其中，所述位置嵌入特征图是将利用N个不同尺寸大小的池化核分别对所述初始特征图进行池化处理得到的N个池化特征图，进行位置编码处理得到的，N为大于1的正整数；

对所述第一待处理特征图进行局部语义分析，得到中间局部语义特征图，以及对所述第二待处理特征图进行全局语义分析，得到中间全局语义特征图；

根据所述中间局部语义特征图和所述中间全局语义特征图确定第一融合特征图和第二融合特征图；

对所述第一融合特征图进行局部语义分析，得到融合局部语义特征图，以及对所述第二融合特征图进行全局语义分析，得到融合全局语义特征图；

根据所述融合局部语义特征图和所述融合全局语义特征图确定所述待处理图像的图像处理结果。

2.如权利要求1所述的方法，其特征在于，所述方法还包括：

将所述初始特征图输入目标特征提取网络包括的符号特征提取模块中进行处理，得到所述初始特征图的符号特征图；

将所述初始特征图输入所述目标特征提取网络包括的位置嵌入特征提取模块中进行处理，得到所述初始特征图的位置嵌入特征图。

3.如权利要求2所述的方法，其特征在于，所述位置嵌入特征提取模块包括多个特征调整单元和位置编码单元，且各个所述特征调整单元包括的池化处理子单元的池化核大小不同；所述多个特征调整单元并行连接，且各个所述特征调整单元的输出端与所述位置编码单元的输入端连接。

4.如权利要求1-3中任一项所述的方法，其特征在于，所述中间局部语义特征图的尺寸大于所述中间全局语义特征图的尺寸，所述中间局部语义特征图的通道数小于所述中间全局语义特征图的通道数；

根据所述中间局部语义特征图和所述中间全局语义特征图确定第一融合特征图，包括：

对所述中间全局语义特征图进行降维处理，其中，降维处理后的中间全局语义特征图的通道数与所述中间局部语义特征图的通道数相同；

对所述降维处理后的中间全局语义特征图进行上采样处理，得到待融合的中间全局语义特征图，其中，所述待融合的中间全局语义特征图的尺寸与所述中间局部语义特征图的尺寸相同；

将所述中间局部语义特征图与所述待融合的中间全局语义特征图进行融合处理，得到第一融合特征图。

5.如权利要求1-3中任一项所述的方法，其特征在于，所述中间局部语义特征图的尺寸大于所述中间全局语义特征图的尺寸，所述中间局部语义特征图的通道数小于所述中间全局语义特征图的通道数；

根据所述中间局部语义特征图和所述中间全局语义特征图确定第二融合特征图，包括：

对所述中间局部语义特征图进行下采样处理，其中，下采样处理后的中间局部语义特征图的尺寸与所述中间全局语义特征图的尺寸相同；

对所述下采样处理后的中间局部语义特征图进行升维处理，得到待融合的中间局部语义特征图，其中，所述待融合的中间局部语义特征图的通道数与所述中间全局语义特征图的通道数相同；

将所述中间全局语义特征图与所述待融合的中间局部语义特征图进行融合处理，得到第二融合特征图。

6.如权利要求1所述的方法，其特征在于，所述对所述第一待处理特征图进行局部语义分析，得到中间局部语义特征图，以及对所述第二待处理特征图进行全局语义分析，得到中间全局语义特征图，包括：

利用局部语义分析网络中的局部语义分析模块对所述第一待处理特征图进行局部语义分析，得到中间局部语义特征图；

利用全局语义分析网络中的全局语义分析模块对所述第二待处理特征图进行全局语义分析，得到中间全局语义特征图；

其中，所述局部语义分析网络包括多个串行连接的局部语义分析模块，所述全局语义分析网络包括多个串行连接的全局语义分析模块，所述局部语义分析网络和所述全局语义分析网络之间设置有多尺度扩散模块，所述多尺度扩散模块用于对所述中间局部语义特征图和所述中间全局语义特征图进行处理得到第一融合特征图和第二融合特征图。

7.如权利要求6所述的方法，其特征在于，所述多尺度扩散模块包括上采样单元、下采样单元、降维处理单元和升维处理单元；所述下采样单元的输入端与所述局部语义分析网络连接，输出端与所述升维处理单元的输入端连接，所述升维处理单元的输出端与所述全局语义分析网络连接；所述降维处理单元的输入端与所述全局语义分析网络连接，输出端与所述上采样单元的输入端连接，所述上采样单元的输出端与所述局部语义分析网络连接。

8.如权利要求1所述的方法，其特征在于，所述根据所述融合局部语义特征图和所述融合全局语义特征图确定所述待处理图像的图像处理结果，包括：

根据所述融合局部语义特征图和所述融合全局语义特征图确定所述待处理图像的语义分割图；或者，

根据所述融合局部语义特征图和所述融合全局语义特征图确定所述待处理图像的实例分割图；或者，

根据所述融合局部语义特征图和所述融合全局语义特征图确定所述待处理图像的物体检测结果；或者，

根据所述融合局部语义特征图和所述融合全局语义特征图确定所述待处理图像的图像分类结果。

9.一种图像处理装置，其特征在于，包括：

获取模块，用于获取待处理图像的初始特征图，将所述初始特征图确定为所述待处理图像的第一待处理特征图；对所述初始特征图进行处理，确定所述初始特征图的符号特征图和位置嵌入特征图，将所述符号特征图和所述位置嵌入特征图进行融合处理，得到所述待处理图像的第二待处理特征图；其中，所述位置嵌入特征图是将利用N个不同尺寸大小的池化核分别对所述初始特征图进行池化处理得到的N个池化特征图，进行位置编码处理得到的，N为大于1的正整数；

处理模块，用于对所述第一待处理特征图进行局部语义分析，得到中间局部语义特征图，以及对所述第二待处理特征图进行全局语义分析，得到中间全局语义特征图；

所述处理模块，用于根据所述中间局部语义特征图和所述中间全局语义特征图确定第一融合特征图和第二融合特征图；

所述处理模块，还用于对所述第一融合特征图进行局部语义分析，得到融合局部语义特征图，以及对所述第二融合特征图进行全局语义分析，得到融合全局语义特征图；

所述处理模块，还用于根据所述融合局部语义特征图和所述融合全局语义特征图确定所述待处理图像的图像处理结果。

10.一种计算机设备，包括：处理器、存储器以及网络接口；所述处理器与所述存储器、所述网络接口相连，其中，所述网络接口用于提供网络通信功能，所述存储器用于存储程序代码，所述处理器用于调用程序代码，以执行如权利要求1-8任一项所述的图像处理方法的步骤。

11.一种计算机存储介质，其特征在于，所述计算机可读存储介质存储有计算机程序，所述计算机程序包括程序指令，所述程序指令当被处理器执行时，执行如权利要求1-8任一项所述的图像处理方法的步骤。

12.一种计算机程序产品，其特征在于，所述计算机程序产品包括计算机程序或计算机指令，所述计算机程序或计算机指令被处理器执行时实现如权利要求1-8中任一项所述的图像处理方法的步骤。