CN114913329A

CN114913329A - 一种图像处理方法、语义分割网络的训练方法及装置

Info

Publication number: CN114913329A
Application number: CN202210544100.5A
Authority: CN
Inventors: 李翔宇; 朱红梅; 张骞; 任伟强
Original assignee: Beijing Horizon Robotics Technology Research and Development Co Ltd
Current assignee: Beijing Horizon Robotics Technology Research and Development Co Ltd
Priority date: 2022-05-18
Filing date: 2022-05-18
Publication date: 2022-08-16

Abstract

本公开实施例公开了一种图像处理方法、语义分割网络的训练方法及装置。该方法包括：获取不同视角的多个待处理图像；利用第一特征提取网络，对多个待处理图像进行特征提取，确定多个图像特征；将多个图像特征转换至鸟瞰视角BEV空间下，确定不同视角的多个BEV图像特征；对多个BEV图像特征进行特征融合，确定BEV融合特征；利用第一语义分割网络对BEV融合特征进行语义分割，确定BEV语义分割结果。本公开实施例的方案，利用第一语义分割网络，以多摄像机系统采集的不同视角的多个待处理图像作为输入，直接输出BEV语义分割结果，不需要再对多个待处理图像进行后处理，实现了端到端的BEV语义分割，提高语义分割效率。

Description

一种图像处理方法、语义分割网络的训练方法及装置

技术领域

本公开涉及计算机视觉技术领域，尤其涉及一种图像处理方法、语义分割网络的训练方法、装置、存储介质及电子设备。

背景技术

自动驾驶汽车为了规划行驶路线，需要获得鸟瞰图(bird eye view，BEV)视角下的语义分割结果。目前，自动驾驶汽车可以利用车载相机拍摄对车辆周围不同视角的多张图像，然后对不用视角的多张图像进行语义分割，得到不同视角对应的多个语义分割图像，然后将不同视角对应的多个语义分割图像转换到BEV视角下，得到BEV视角下的语义分割结果。

发明内容

目前，自动驾驶汽车需要先将车载相机拍摄的不同视角的多张图像进行语义分割，得到不同视角对应的多个语义分割图像，然后再将不同视角对应的多个语义分割图像转换到BEV视角下，导致鸟瞰视角下的语义分割的效率较低。

为了解决上述技术问题，提出了本公开。本公开的实施例提供了一种图像处理方法及装置。

根据本公开的第一方面，提供了一种图像处理方法，包括：获取多个待处理图像，其中，所述多个待处理图像为载具的多摄相机系统在同一时刻针对载具周围环境采集的不同视角的多个图像；利用第一特征提取网络，对多个所述待处理图像进行特征提取，确定多个图像特征；将多个所述图像特征转换至鸟瞰视角BEV空间下，确定多个BEV图像特征，其中，多个所述BEV图像特征包括多个所述待处理图像在BEV空间下各自对应的特征；对多个所述BEV图像特征进行特征融合，确定BEV融合特征；利用第一语义分割网络对所述BEV融合特征进行语义分割，确定BEV语义分割结果。

根据本公开的第二方面，提供了一种语义分割网络的训练方法，包括：获取多个样本图像，其中，多个样本图像为载具的多摄相机系统在同一时刻针对载具周围环境采集的不同视角的多个图像；利用第一特征提取网络，对多个样本图像进行特征提取，确定多个图像特征；将多个图像特征转换至BEV空间下，确定多个BEV图像特征，其中，多个BEV图像特征包括多个样本图像在BEV空间下各自对应的特征；对多个BEV图像特征进行特征融合，确定BEV融合特征；利用第一初始语义分割网络对BEV融合特征进行预测，得到预测BEV语义分割结果；基于预设的损失函数，利用预测BEV语义分割结果与预设的基准BEV语义分割结果，确定第一初始语义分割网络预测的BEV语义分割结果的损失；基于BEV语义分割结果的损失，监督第一初始语义分割网络，直至符合预设的训练结束条件，得到第一语义分割网络。

根据本公开的第三方面，提供了一种图像处理装置，包括：获取模块，用于获取多个待处理图像，其中，多个待处理图像为载具的多摄相机系统在同一时刻针对载具周围环境采集的不同视角的多个图像；特征提取模块，用于利用第一特征提取网络，对多个待处理图像进行特征提取，确定多个图像特征；空间转换模块，用于将多个图像特征转换至BEV空间下，确定多个BEV图像特征，其中，多个BEV图像特征包括多个待处理图像在BEV空间下各自对应的特征；特征融合模块，用于对多个BEV图像特征进行特征融合，确定BEV融合特征；语义分割模块，用于利用第一语义分割网络对BEV融合特征进行语义分割，确定BEV语义分割结果。

根据本公开的第四方面，提供了一种语义分割网络的训练装置，包括：获取模块，用于获取多个样本图像，其中，多个样本图像为载具的多摄相机系统在同一时刻针对载具周围环境采集的不同视角的多个图像；特征提取模块，用于利用第一特征提取网络，对多个样本图像进行特征提取，确定多个图像特征；空间转换模块，用于将多个图像特征转换至BEV空间下，确定多个BEV图像特征，其中，多个BEV图像特征包括多个样本图像在BEV空间下各自对应的特征；特征融合模块，用于对多个BEV图像特征进行特征融合，确定BEV融合特征；预测模块，用于利用第一初始语义分割网络对BEV融合特征进行预测，得到预测BEV语义分割结果；损失确定模块，用于基于预设的损失函数，利用预测BEV语义分割结果与预设的基准BEV语义分割结果，确定第一初始语义分割网络预测的BEV语义分割结果的损失；监督模块，用于基于BEV语义分割结果的损失，监督第一初始语义分割网络，直至符合预设的训练结束条件，得到第一语义分割网络。

根据本公开的第五方面，提供了一种电子设备，电子设备包括：处理器；用于存储处理器可执行指令的存储器；处理器，用于从存储器中读取可执行指令，并执行指令以实现上述的图像处理方法或语义分割网络的训练方法。

本公开实施例的方案，利用第一语义分割网络，以多摄像机系统采集的不同视角的多个待处理图像作为输入，直接输出BEV语义分割结果，不需要再对多个待处理图像进行后处理，实现了端到端的BEV语义分割，可以有效的降低语义分割部署的负担，提高语义分割效率。

附图说明

通过结合附图对本公开实施例进行更详细的描述，本公开的上述以及其他目的、特征和优势将变得更加明显。附图用来提供对本公开实施例的进一步理解，并且构成说明书的一部分，与本公开实施例一起用于解释本公开，并不构成对本公开的限制。在附图中，相同的参考标号通常代表相同部件或步骤。

图1是适用于本公开实施例的各方法和装置的示例性系统架构示意图。

图2是本公开一示例性实施例提供的图像处理方法的流程图。

图3是本公开一示例性实施例提供的多摄相机系统采集图像的示意图。

图4是本公开一示例性实施例提供的待处理图像的示意图。

图5是本公开一示例性实施例提供的特征提取的示意图。

图6是本公开一示例性实施例提供的BEV融合特征的示意图。

图7是本公开一示例性实施例提供的语义分割图的示意图。

图8是本公开一示例性实施例提供的图像处理方法步骤S230的流程图。

图9是本公开一示例性实施例提供的图像处理方法步骤S220的流程图。

图10是本公开一示例性实施例提供的图像处理方法步骤S240的流程图。

图11是本公开一示例性实施例提供的语义分割网络的训练方法的流程图。

图12是本公开一示例性实施例提供的获取基准BEV语义分割结果的流程图。

图13是本公开一示例性实施例提供的对重叠区域进行处理的流程图。

图14是本公开一示例性实施例提供的图像处理装置的结构图。

图15是本公开一示例性实施例提供的图像处理装置的另一结构图。

图16是本公开一示例性实施例提供的语义分割网络的训练装置的结构图。

图17是本公开一示例性实施例提供的语义分割网络的训练装置的另一结构图。

图18是本公开一示例性实施例提供的电子设备的结构框图。

具体实施方式

下面，将参考附图详细地描述根据本公开的示例实施例。显然，所描述的实施例仅仅是本公开的一部分实施例，而不是本公开的全部实施例，应理解，本公开不受这里描述的示例实施例的限制。

应注意到：除非另外具体说明，否则在这些实施例中阐述的部件和步骤的相对布置、数字表达式和数值不限制本公开的范围。

本领域技术人员可以理解，本公开实施例中的“第一”、“第二”等术语仅用于区别不同步骤、设备或模块等，既不代表任何特定技术含义，也不表示它们之间的必然逻辑顺序。

还应理解，在本公开实施例中，“多个”可以指两个或两个以上，“至少一个”可以指一个、两个或两个以上。

还应理解，对于本公开实施例中提及的任一部件、数据或结构，在没有明确限定或者在前后文给出相反启示的情况下，一般可以理解为一个或多个。

另外，本公开中术语“和/或”，仅仅是一种描述关联对象的关联关系，表示可以存在三种关系，例如，A和/或B，可以表示：单独存在A，同时存在A和B，单独存在B这三种情况。另外，本公开中字符“/”，一般表示前后关联对象是一种“或”的关系。

还应理解，本公开对各个实施例的描述着重强调各个实施例之间的不同之处，其相同或相似之处可以相互参考，为了简洁，不再一一赘述。

同时，应当明白，为了便于描述，附图中所示出的各个部分的尺寸并不是按照实际的比例关系绘制的。

以下对至少一个示例性实施例的描述实际上仅仅是说明性的，决不作为对本公开及其应用或使用的任何限制。

对于相关领域普通技术人员已知的技术、方法和设备可能不作详细讨论，但在适当情况下，所述技术、方法和设备应当被视为说明书的一部分。

应注意到：相似的标号和字母在下面的附图中表示类似项，因此，一旦某一项在一个附图中被定义，则在随后的附图中不需要对其进行进一步讨论。

本公开实施例可以应用于终端设备、计算机系统、服务器等电子设备，其可与众多其它通用或专用计算系统环境或配置一起操作。适于与终端设备、计算机系统、服务器等电子设备一起使用的众所周知的终端设备、计算系统、环境和/或配置的例子包括但不限于：个人计算机系统、服务器计算机系统、瘦客户机、厚客户机、手持或膝上设备、基于微处理器的系统、机顶盒、可编程消费电子产品、网络个人电脑、小型计算机系统﹑大型计算机系统和包括上述任何系统的分布式云计算技术环境，等等。

终端设备、计算机系统、服务器等电子设备可以在由计算机系统执行的计算机系统可执行指令(诸如程序模块)的一般语境下描述。通常，程序模块可以包括例程、程序、目标程序、组件、逻辑、数据结构等等，它们执行特定的任务或者实现特定的抽象数据类型。计算机系统/服务器可以在分布式云计算环境中实施，分布式云计算环境中，任务是由通过通信网络链接的远程处理设备执行的。在分布式云计算环境中，程序模块可以位于包括存储设备的本地或远程计算系统存储介质上。

申请概述

自动驾驶汽车在行驶过程中，可以通过车载多摄相机系统对车辆周围进行拍摄，得到不同视角的多张图像，并对拍摄到的图像进行图像语义分割，获取车辆周围的道路、交通标识、车辆位置和障碍物等外部环境信息，以确定自动驾驶汽车的可行驶区域，用以规划行驶路线。

然而，由于车载多摄相机系统拍摄的多张图像的视角不同，目前的自动驾驶汽车需要先利用车载相机拍摄不同视角的多张图像进行语义分割，得到不同视角对应的多个语义分割图像，然后再对不同视角对应的多个语义分割图像进行后处理操作，例如：将不同视角对应的多个语义分割图像转换到BEV视角下，得到BEV视角下的语义分割结果。

可见，目前的语义分割方法无法从车载多摄相机系统拍摄的多张图像中直接获得鸟瞰视角下可行驶区域的图像语义分割结果，并且后处理过程还存在延时和误差，导致语义分割效率较低。

示例性系统

如图1所示，系统架构100可以包括终端设备101，网络102、服务器103、移动物体104和设置在移动物体104上的图像采集设备105。网络102用于在终端设备101和服务器103之间提供通信链路的介质。

终端设备101通常设置在移动物体104上，终端设备101可以是各种电子设备，包括但不限于移动电话、笔记本电脑、平板电脑PAD、车载终端(例如车载导航终端)、自动驾驶计算平台、车载计算模块，移动数据中心(mobile data center，MDC)等。终端设备101上可以安装有各种通讯客户端应用，例如导航类应用，电子地图应用、搜索类应用、网页浏览器应用、即时通信工具等。

网络102可以包括2G、3G、4G和5G等多种模式的网络，用于使终端设备101与服务器103通过网络102实现通信，以接收或发送消息等，例如实现车辆的车联万物(vehicle-to-everything，V2X)等。

服务器103可以是提供各种服务的服务器，例如对终端设备101上传的数据进行分析的数据处理服务器。数据处理服务器可以对接收到的数据进行处理，得到处理结果。

移动物体104可以是各种可移动的载具，例如车辆(汽车)、轮船、火车、地铁、飞机等，以及各种机器人，例如：服务机器人、运输机器人、自主导引机器人(automated guidedvehicle，AGV)、无人地面车(unmanned ground vehicle，UGV)等。图1所示的移动物体104为汽车，其仅仅是本公开实施例的移动物体的一个示例，不对移动物体的范围造成限定。

图像采集设备105可以是各种可采集图像的设备，例如包含多个相机的多摄相机系统等。其中，多个相机例如可以是鱼眼相机、窄角相机或者其他类型的相机，本公开实施例对相机的数量和类型不作具体限定。图像采集设备105可以采集移动物体周围环境的图像，并将图像发送给终端设备101或者经网络102发送给服务器进行处理。

需要说明的是，本公开的实施例所提供的图像处理方法或语义分割网络的训练方法可以由终端设备101执行，也可以由服务器103执行，相应地，图像处理装置或语义分割网络的训练装置可以设置于终端设备101中，也可以设置于服务器103中。

应该理解，图1中的终端设备、网络和服务器的数目仅仅是示意性的。根据实现需要，可以具有任意数目的终端设备、网络和服务器。在用于进行处理的图像不需要从远程获取的情况下，上述系统架构可以不包括网络，只包括终端设备101、移动物体104和图像采集设备105。

示例性方法

图2是本公开一示例性实施例提供的图像处理方法的流程图。

本实施例可应用在电子设备(例如图1所示的终端设备101或服务器103)，如图2所示，包括如下步骤：

步骤S210，获取多个待处理图像，其中，多个待处理图像为载具的多摄相机系统在同一时刻针对载具周围环境采集的不同视角的多个图像。

其中，多摄相机系统可以包括视角不同的多个相机，每个相机用于采集一个视角的环境图像，多个相机覆盖载具周围的环境范围。每个相机定义自己的相机视角坐标系，通过各自的相机视角坐标系形成各自的相机视角空间，每个相机采集的环境图像为在对应的相机视角空间下的图像。

如图3所示，在一个实施例中，多摄相机系统可以实时采集不同视角的多个图像，如图像1、2……N，并实时将采集到的图像发送给电子设备。这样，电子设备获取到的图像能够表征当前时刻载体周围环境的真实情况。

图4是本公开一示例性实施例提供的待处理图像的示意图。

如图4中(1)-(6)所示，在一个实施例中，多摄相机系统可以包括6个相机。6个相机分别设置在载体的前端、左前端、右前端、后端、左后端和右后端。这样，在任意时刻，多摄相机系统均可以采集到6个不同视角的图像，如前视图像I_front、左前视图像I_frontleft、右前视图像I_frontright、后视图像I_rear、左后视图像I_rearleft和右后视图像I_rearright。

步骤S220，利用第一特征提取网络，对多个待处理图像进行特征提取，确定多个图像特征。

其中，第一特征提取网络可以是一个经过训练的神经网络，例如：卷积神经网络、深度残差网络(deep residual network，ResNet)、densenet、mobilenet等，这里不做具体限定。图像特征包括但不限于图像纹理信息、边缘轮廓信息、语义信息等。

其中，图像纹理信息用于表征图像中目标的图像纹理，边缘轮廓信息用于表征图像中目标的边缘轮廓，语义信息用于表征图像中目标的类别。其中，图像中的目标包括但不限于：车道、标志线、车道线、斑马线、箭头、导流线、停止线、减速-三角路标、限速路标、菱形、自行车路标、减速带、锥桶、绿化带、栏杆、障碍物、汽车、卡车、行人、骑车人等。

图5是本公开一示例性实施例提供的特征提取的示意图。

如图5所示，电子设备可以将多个待处理图像输入到第一特征提取网络。第一特征提取网络可以利用其内部的神经网络层等对待处理图像进行卷积、池化等操作，从而得到每个待处理图像的图像特征。

例如，电子设备对前视图像I_front进行特征提取，可以得到前视图像I_front的图像特征f_front；对左前视图像I_frontleft进行特征提取，可以得到左前视图像I_frontleft的图像特征f_frontleft；对右前视图像I_frontright进行特征提取，可以得到右前视图像I_frontright的图像特征f_frontright；对后视图像I_rear进行特征提取，可以得到后视图像I_rear的图像特征f_rear；对左后视图像I_rearleft进行特征提取，可以得到左后视图像I_rearleft的图像特征f_rearleft；对右后视图像I_rearright进行特征提取，可以得到右后视图像I_rearright的图像特征f_rearright。

步骤S230，将多个图像特征转换至鸟瞰视角的BEV空间下，确定多个BEV图像特征，其中，多个BEV图像特征包括多个待处理图像在BEV空间下各自对应的特征。

例如，电子设备将前视图像I_front的图像特征f_front映射至BEV空间下，得到前视图像I_front的BEV图像特征F_front；将左前视图像I_frontleft的图像特征f_frontleft映射至BEV空间下，得到左前视图像I_frontleft的BEV图像特征F_frontleft；将右前视图像I_frontright的图像特征f_frontright映射至BEV空间下，得到右前视图像I_frontright的BEV图像特征F_frontright；将后视图像I_rear的图像特征f_rear映射至BEV空间下，得到后视图像I_rear的BEV图像特征F_rear；将左后视图像I_rearleft的图像特征f_rearleft映射至BEV空间下，得到左后视图像I_rearleft的BEV图像特征F_rearleft；将右后视图像I_rearright的图像特征f_rearright映射至BEV空间下，得到右后视图像I_rearright的BEV图像特征F_rearright。

步骤S240，对多个BEV图像特征进行特征融合，确定BEV融合特征。

在一个实施例中，电子设备可以对多个BEV图像特征进行特征叠加，得到BEV融合特征。特征叠加具体可以通过以下公式实现：

F′＝Add(∑F_front，F_frontleft，F_frontright，F_rear，F_rearleft，F_rearright)

其中，F′表示BEV融合特征，Add表示特征叠加计算。

图6是本公开一示例性实施例提供的BEV融合特征的示意图。

如图6所示，将不同相机视角的多个图像特征转换至BEV空间下，并进行特征融合之后，多个图像特征最终被融合成一个BEV空间下的完整的图像特征，即BEV融合特征。那么，电子设备后续就可以直接对BEV融合特征进行语义分割。

需要补充说明的是，确定BEV融合特征的方式不局限于对多个BEV图像特征进行特征叠加，也可以采用特征乘法、特征加法、特征平均等方式对多个BEV图像特征进行特征融合。

步骤S250，利用第一语义分割网络对BEV融合特征进行语义分割，确定BEV语义分割结果。

其中，第一语义分割网络可以是一个经过训练的神经网络，该神经网络以BEV融合特征作为输入，输出鸟瞰图视角下的BEV语义分割结果。

其中，BEV语义分割结果可以包括BEV视角下可行驶区域的一个或者多个语义分割图。语义分割图的数量与可行驶区域的数量有关，每个语义分割图可以包括BEV视角下的一个可行驶区域或者多个可行驶区域。其中，可行驶区域例如可以包括车道，标志线，车道线，斑马线，箭头，导流线，停止线，减速-三角路标，限速路标，菱形，自行车路标，减速带等。

图7是本公开一示例性实施例提供的语义分割图的示意图。

如图7所示，在语义分割图中，根据可行驶区域的形状、尺寸等不同，可行驶区域表示为高亮的线条或者色块。例如：图7中的白色线条71表示可行驶区域中的车道线，灰色色块72表示可行驶区域中的斑马线。

如图8所示，在上述图2所示实施例的基础上，步骤S230可以包括如下步骤：

步骤S231，基于预设的载具参数和多摄相机系统参数，确定多摄相机系统中各相机的相机坐标系到BEV坐标系分别对应的转换矩阵。

其中，多摄相机系统参数可以包括每个相机的相机内参数和相机外参数，相机外参数是指多摄相机的相机坐标系到载具坐标系的转换矩阵，载具参数是指载具坐标系(vehicle coordinate system，VCS)到BEV坐标系的转换矩阵。

在一个实施例中，各相机的相机坐标系到BEV坐标系分别对应的转换矩阵具体可以由各相机的相机坐标系到载具坐标系的转换矩阵、预设的相机内参、以及载具坐标系到BEV坐标系的转换矩阵计算得到。例如采用以下公式计算：

H＝T_vcs→bev@T_camera→vcs@K^-1；

其中，H表示相机坐标系到BEV坐标系分别对应的转换矩阵；@表示矩阵乘法；T_vcs→bev表示载具坐标系到BEV坐标系的转换矩阵；T_camera→vcs表示相机坐标系到载具坐标系的转换矩阵；K表示相机内参矩阵。

其中，各个相机坐标系到载具坐标系的转换矩阵可以通过多摄相机系统的标定得到。载具坐标系到BEV坐标系的转换矩阵可以由预设BEV的范围(例如载具前、后、左、右各100米范围)，以及BEV图像的分辨率(例如512像素×512像素)计算得到。

相机内参矩阵可以是以下形式：

其中：f表示相机的焦距，单位一般为毫米；dx像素在x轴方向上的宽度，为一般为毫米；1/dx表示在x轴方向上，1毫米内有多少个像素；f/dx表示使用像素来描述焦距在x轴方向的长度；dy像素在y轴方向上的宽度，为一般为毫米；1/dy表示在y轴方向上，1毫米内有多少个像素；f/dy表示使用像素来描述焦距在y轴方向的长度；u₀、v₀表示相机主点的实际位置，单位为像素。

步骤S232，基于各相机的相机坐标系到BEV坐标系分别对应的转换矩阵，将多个图像特征从相机空间转换至BEV空间下，得到多个BEV图像特征。

在一个实施例中，电子设备可以将各个相机的转换矩阵与各自相机视角下的图像特征执行矩阵乘法，以得到各个图像特征对应的BEV图像特征。

F＝H@f。

其中，F表示BEV图像特征；H表示多摄相机系统中各个相机对应的转换矩阵；f表示相机视角下的图像特征。

本公开实施例的方案，基于预设的载具参数和多摄相机系统参数，计算从各个相机坐标系到BEV坐标系的转换矩阵，然后根据转换矩阵对将各个图像特征从相机空间转换至同一个BEV空间下，得到图像特征对应的BEV图像特征，实现了将多个图像特征从不同的视角空间向BEV空间的转换，以便于多个图像特征的融合。

如图9所示，在上述图2所示实施例的基础上，步骤S220可以包括如下步骤：

步骤S221，基于各待处理图像，分别提取不同尺度的图像数据。

其中，图像数据的尺度可以是图像数据的分辨率，包括但不限于图像的高度h、宽度w、色彩通道数m等。色彩通道包括但不限于为RGB通道、YUV通道等。

例如，对于任意待处理图像，可以提取其多个不同尺度的图像数据1～n。其中，图像数据1的尺度可以为h₁×w₁×m₁，图像数据2的尺度可以为h₂×w₂×m₂，图像数据n的尺度可以为h_n×w_n×m_n。

步骤S222，利用第一特征提取网络对不同尺度的图像数据进行卷积计算，确定多个待处理图像分别对应的多个图像特征。

其中，将图像数据输入到第一特征提取网络后，第一特征提取网络可以对图像数据进行卷积计算等操作，从而输出H×W×N维度的特征矩阵，该特征矩阵即为待处理图像的图像特征。其中，H为特征矩阵的高度，W为特征矩阵的宽度，N是特征矩阵的通道数。

本公开实施例中，不同尺度的图像数据通过第一特征提取网络进行卷积计算之后，输出的特征矩阵的维度可以是相同的，也可以是不同的，这里不做具体限定。

本公开实施例的方案，利用第一特征提取网络对不同尺度的图像数据进行卷积计算，可以得到待处理图像的不同尺度的图像特征，使图像特征能够从多个维度描述图像中的纹理、边缘轮廓和语义等信息。

如图10所示，在上述图2所示实施例的基础上，步骤S240可以包括如下步骤：

步骤S241，利用第二特征提取网络对BEV融合特征进行特征提取，确定BEV提取特征。

其中，第二特征提取网络可以是一个已训练的神经网络。例如：卷积神经网络、深度残差网络(deep residual network,ResNet)、densenet、mobilenet等，这里不做具体限定。第一特征提取网络和第二特征提取网络可以是相同类型的神经网络，也可以是不同类型的神经网络。

步骤S242，利用第一语义分割网络对BEV提取特征进行语义分割，确定BEV语义分割结果。

这里需要说明的是，BEV融合特征是由多个图像特征融合得到，属于图像特征，BEV提取特征则包含更多的BEV语义层面信息，有利于提高第一语义分割网络进行语义分割的准确性。

本公开实施例的方案，首先利用第二特征提取网络对BEV融合特征进行了进一步地特征提取，得到包含更多的BEV语义层面信息的BEV提取特征，然后，再利用BEV语义分割网络对BEV提取特征进行语义分割，使BEV语义分割网络能够输出更准确的BEV语义分割结果。

图11是本公开一示例性实施例提供的语义分割网络的训练方法的流程图。该训练方法可以用于训练以上各实施例中的、用于对BEV融合特征进行语义分割的第一语义分割网络，还可以用于对已训练的第一语义分割网络进行更新，得到更新后的第一语义分割网络。如图11所示，该训练方法在用于训练第一语义分割网络时，可以包括如下步骤：

步骤S310，获取多个样本图像，其中，多个样本图像为载具的多摄相机系统在同一时刻针对载具周围环境采集的不同视角的多个图像。

其中，步骤S310，即获取样本图像的具体方式，请参照步骤S210中的获取待处理图像的方式实现，这里不再赘述。

步骤S320，利用第一特征提取网络，对多个样本图像进行特征提取，确定多个图像特征。

其中，步骤320，即利第一特征提取网络，对多个样本图像进行特征提取，确定多个图像特征的具体方式，请参照步骤S220中的利用第一特征提取网络，对多个待处理图像进行特征提取，确定多个图像特征的方式实现，这里不再赘述。

步骤S330，将多个图像特征转换至BEV空间下，确定多个BEV图像特征，其中，多个BEV图像特征包括多个样本图像在BEV空间下各自对应的特征。

其中，步骤S330，即确定多个BEV图像特征的具体方式，请参照步骤S230实现，这里不再赘述。

步骤S340，对多个BEV图像特征进行特征融合，确定BEV融合特征。

其中，步骤S340，即确定BEV融合特征的具体方式，请参照步骤S240实现，这里不再赘述。

步骤S350，利用第一初始语义分割网络对BEV融合特征进行预测，得到预测BEV语义分割结果。

其中，第一初始语义分割网络可以是一个初始的神经网络模型。第一初始语义分割以BEV融合特征作为输入，对BEV融合特征进行预测，并输出预测BEV语义分割结果。

步骤S360，基于预设的损失函数，利用预测BEV语义分割结果与预设的基准BEV语义分割结果，确定第一初始语义分割网络预测的BEV语义分割结果的损失。

其中，其中预设的损失函数可以是交叉熵损失函数、log损失函数、最大似然损失函数等，相应地，网络损失例如可以是交叉熵损失、log损失、最大似然损失等，本公开实施例对此均不做限定。

步骤S370，基于BEV语义分割结果的损失，监督第一初始语义分割网络，直至符合预设的训练结束条件，得到第一语义分割网络。

基于网络损失，第一初始语义分割网络可以以基准BEV语义分割结果作为其预测输出的目标，进行多次迭代，从而不断更新其内部的模型参数，使网络损失不断收敛。其中，当网络损失收敛至预设条件，例如第一初始语义分割网络的损失函数的值小于预设阈值时，结束训练，得到第一语义分割网络，或者，当第一初始语义分割网络的训练迭代达到预设次数时，结束训练，得到第一语义分割网络。

这里需要补充说明的是，当本公开实施例的训练方法用于对已训练的第一语义分割网络进行更新时，在步骤S350中，可以利用已训练的第一语义分割网络对BEV融合特征进行预测，得到预测BEV语义分割结果。在步骤S370中，可以基于网络损失监督已训练的第一语义分割网络的更新过程，直至符合预设的更新结束条件，得到更新后的第一语义分割网络。

本公开实施例的方案，获取了多个样本图像在BEV视角下的BEV融合特征，并利用BEV融合特征和预设的基准BEV语义分割结果训练第一初始语义分割网络，得到了第一语义分割网络。这样，第一语义分割网络能够以多摄像机系统采集的不同视角的多个待处理图像作为输入，直接输出BEV语义分割结果，不需要再对多个待处理图像进行后处理，实现了端到端的BEV语义分割，可以有效的降低语义分割部署的负担，提高语义分割效率。

如图12所示，在上述图11所示实施例的基础上，获取基准BEV语义分割结果可以包括如下步骤：

步骤S510，利用第二语义分割网络，对载具的多摄相机系统采集的不同视角的多个样本图像进行语义分割，确定多个基准语义分割结果，其中，多个基准语义分割结果包括多个样本图像在各自视角下对应的结果。

其中，第二语义分割网络可以是一个已训练的神经网络。与第一语义分割网络不同，第二语义分割网络以各个相机视角的样本图像作为输入，输出各个样本图像在各自视角下对应的基准语义分割结果。

基准语义分割结果中可以包括多个语义类别，例如第一语义类别和第二语义类别。其中，第一语义类别是基准语义分割结果中的不可行驶区域对应的语义类别，第二语义类别是基准语义分割结果中的可行驶区域对应的语义类别。其中，不可形式区域例如可以包括锥桶、绿化带、栏杆、障碍物、汽车、卡车、行人、骑车人等。可行驶区域例如可以包括车道，标志线，车道线，斑马线，箭头，导流线，停止线，减速-三角路标，限速路标，菱形，自行车路标，减速带等。

步骤S520，将多个基准语义分割结果转换至BEV空间下，确定多个BEV语义分割结果。

在一个实施例中，电子设备可以基于载具参数和多摄相机系统参数，计算多摄相机系统中各相机的相机坐标系到BEV坐标系分别对应的转换矩阵。然后，基于各相机的相机坐标系到BEV坐标系分别对应的转换矩阵，对多个基准语义分割结果进行逆透视变换，将多个基准语义分割结果从相机空间转换至BEV空间下，确定多个BEV语义分割结果。

其中，转换矩阵可以基于载具参数和多摄相机系统参数确定。相机坐标系到BEV坐标系的转换矩阵与相机坐标系到BEV坐标系的转换矩阵可以使用同一个矩阵，也可以使用不同的矩阵，这里不做具体限定。

步骤S530，基于多个BEV语义分割结果，进行图像拼接，确定基准BEV语义分割结果。

可以理解的是，由于多摄相机系统的不同相机的视角可能会存在重叠，因此，在对多个BEV语义分割结果进行拼接后，不同视角对应的BEV语义分割结果可能会发生重叠，形成重叠区域。

本公开实施例可以根据重叠区域的各个BEV语义分割结果的语义类别，对重叠区域进行处理，以确定基准BEV语义分割结果在重叠区域的语义类别。

如图13所示，在一个实施例中，对重叠区域的处理可以包括以下步骤：

步骤S531，确定基准BEV语义分割结果中的重叠区域，重叠区域为多个BEV语义分割结果在图像拼接后发生重叠的区域。

其中，电子设备可以获取不同视角分别对应的BEV语义分割结果在BEV坐标系中的坐标范围，如果至少两个视角分别对应的BEV语义分割结果的坐标范围存在重叠，则将坐标范围重叠的区域确定为重叠区域。

步骤S532，确定重叠区域中的所有BEV语义分割结果的语义类别是否相同。

其中，如果重叠区域中的所有BEV语义分割结果的均为第一语义类别，或者均为第二语义类别，则重叠区域中的所有BEV语义分割结果的语义类别相同。否则，不相同。

步骤S5331，如果相同，将重叠区域的所有BEV语义分割结果合并。

其中，如果重叠区域中的所有BEV语义分割结果的均为第一语义类别，那么在对重叠区域的所有BEV语义分割结果合并之后，重叠区域依然为第一语义类别；如果重叠区域中的所有BEV语义分割结果的均为第二语义类别，那么在对重叠区域的所有BEV语义分割结果合并之后，重叠区域依然为第二语义类别。

步骤S5332，如果不相同，确定重叠区域的语义类别为第一语义类别，第一语义类别是载具的不可行驶区域对应的语义类别。

可以理解的是，当重叠区域中的所有BEV语义分割结果的语义类别不相同时(例如：重叠区域的一部分BEV语义分割结果为第一语义类别，另一部分BEV语义分割结果为第二语义类别)，说明重叠区域的语义类别是不确定的，在这种情况下，电子设备可以将重叠区域的语义类别确定为第一语义类别，以确保自动驾驶安全，避免载具行驶到不可行驶区域而发生事故。

本公开实施例的方案，将不同视角分别对应的基准语义分割结果转换至BEV空间下，得到不同视角分别对应的BEV语义分割结果，然后对不同视角分别对应的BEV语义分割结果进行拼接，得到基准BEV语义分割结果，从而为第一初始语义分割网络提供了训练目标。

示例性装置

图14是本公开一示例性实施例提供的图像处理装置的结构图。示例性的，该图像处理装置可以设置于电子设备中，用于执行本公开上述任一实施例的图像处理方法。

如图14所示，该图像处理装置包括：获取模块610，特征提取模块620，空间转换模块630，特征融合模块640，语义分割模块650。其中：

获取模块610，用于获取多个待处理图像，其中，多个待处理图像为载具的多摄相机系统在同一时刻针对载具周围环境采集的不同视角的多个图像。

特征提取模块620，用于利用第一特征提取网络，对多个待处理图像进行特征提取，确定多个图像特征；

空间转换模块630，用于将多个图像特征转换至BEV空间下，确定多个BEV图像特征，其中，多个BEV图像特征包括多个待处理图像在BEV空间下各自对应的特征；

特征融合模块640，用于对多个BEV图像特征进行特征融合，确定BEV融合特征；

语义分割模块650，用于利用第一语义分割网络对BEV融合特征进行语义分割，确定BEV语义分割结果。

在一个实施例中，如图15所示，空间转换模块630具体包括：

转换矩阵确定单元631，用于基于预设的载具参数和多摄相机系统参数，确定多摄相机系统中各相机的相机坐标系到BEV坐标系分别对应的转换矩阵。

空间转换单元632，用于基于各相机的相机坐标系到BEV坐标系分别对应的转换矩阵，将多个图像特征从相机空间转换至BEV空间下，得到多个BEV图像特征。

在一种可选择的实现方式中，转换矩阵确定单元631具体包括：

转换矩阵获取子单元，用于获取多摄相机系统中各相机的相机坐标系到载具坐标系的转换矩阵、以及获取载具坐标系到BEV坐标系的转换矩阵；

转换矩阵确定子单元，用于基于各相机的相机坐标系到载具坐标系的转换矩阵、预设的相机内参、以及载具坐标系到BEV坐标系的转换矩阵，确定多摄相机系统中各相机的相机坐标系到BEV坐标系分别对应的转换矩阵。

在一个实施例中，如图15所示，特征提取模块620具体包括：

图像数据获取单元621，用于基于各待处理图像，分别提取不同尺度的图像数据；

图像特征确定单元622，用于利用第一特征提取网络对不同尺度的图像数据进行卷积计算，确定多个待处理图像分别对应的多个图像特征。

在一个实施例中，如图16所示，语义分割模块650具体包括：

特征提取单元651，用于利用第二特征提取网络对BEV融合特征进行特征提取，确定BEV提取特征；

语义分割单元652，用于利用BEV语义分割网络对BEV提取特征进行语义分割，确定BEV语义分割结果。

图16是本公开一示例性实施例提供的语义分割网络的训练装置的结构图。示例性的，该语义分割网络的训练装置可以设置于电子设备中，用于执行本公开上述任一实施例的语义分割网络的训练方法。

如图16所示，该语义分割网络的训练装置包括：获取模块710，特征提取模块720，空间转换模块730，特征融合模块740，预测模块750，损失确定模块760，监督模块770。其中：

获取模块710，用于获取多个样本图像，其中，多个样本图像为载具的多摄相机系统在同一时刻针对载具周围环境采集的不同视角的多个图像；

特征提取模块720，用于利用第一特征提取网络，对多个样本图像进行特征提取，确定多个图像特征；

空间转换模块730，用于将多个图像特征转换至鸟瞰视角BEV空间下，确定多个BEV图像特征，其中，多个BEV图像特征包括多个样本图像在BEV空间下各自对应的特征；

特征融合模块740，用于对多个BEV图像特征进行特征融合，确定BEV融合特征；

预测模块750，用于利用第一初始语义分割网络对BEV融合特征进行预测，得到预测BEV语义分割结果；

损失确定模块760，用于基于预设的损失函数，利用预测BEV语义分割结果与预设的基准BEV语义分割结果，确定第一初始语义分割网络预测的BEV语义分割结果的损失；

监督模块770，用于基于BEV语义分割结果的损失，监督第一初始语义分割网络，直至符合预设的训练结束条件，得到第一语义分割网络。

在一个实施例中，如图17所示，该语义分割网络的训练装置还包括：

真值生成模块780，用于生成基准BEV语义分割结果。

其中，真值生成模块780具体可以包括：

图像分割单元781，用于利用第二语义分割网络，对多个样本图像进行语义分割，确定多个基准语义分割结果，其中，多个基准语义分割结果包括多个样本图像在各自视角下对应的结果；

逆透视变换单元782，用于将多个基准语义分割结果转换至BEV空间下，确定多个BEV语义分割结果；

图像拼接单元783，用于基于多个BEV语义分割结果，进行图像拼接，确定基准BEV语义分割结果。

在一个实施例中，逆透视变换单元782具体包括：

转换矩阵确定子单元，用于基于载具参数和多摄相机系统参数，计算多摄相机系统中各相机的相机坐标系到BEV坐标系分别对应的转换矩阵；

逆透视变换子单元，用于基于各相机的相机坐标系到BEV坐标系分别对应的转换矩阵，将多个基准语义分割结果从相机空间转换至BEV空间下，确定多个BEV语义分割结果。

在一个实施例中，图像拼接单元783具体包括：

重叠区域确定子单元，用于确定基准BEV语义分割结果中的重叠区域，重叠区域为多个BEV语义分割结果在图像拼接后发生重叠的区域；

判断子单元，用于确定重叠区域中的所有BEV语义分割结果的语义类别是否相同；

图像合并子单元，用于如果重叠区域中的所有BEV语义分割结果的语义类别相同，将重叠区域中的所有BEV语义分割结果合并；

语义类别确定子单元，用于如果重叠区域中的所有BEV语义分割结果的语义类别不相同，确定重叠区域的语义类别为第一语义类别，第一语义类别是载具的不可行驶区域对应的语义类别。

示例性电子设备

下面，参考图18来描述根据本公开实施例的电子设备。

图18是本公开一示例性实施例提供的电子设备的结构框图。

如图18所示，电子设备10包括一个或多个处理器111和存储器112。

处理器111可以是中央处理单元(CPU)或者具有数据处理能力和/或指令执行能力的其他形式的处理单元，并且可以控制电子设备10中的其他组件以执行期望的功能。

存储器112可以包括一个或多个计算机程序产品，计算机程序产品可以包括各种形式的计算机可读存储介质，例如易失性存储器和/或非易失性存储器。易失性存储器例如可以包括随机存取存储器(RAM)和/或高速缓冲存储器(cache)等。非易失性存储器例如可以包括只读存储器(ROM)、硬盘、闪存等。在计算机可读存储介质上可以存储一个或多个计算机程序指令，处理器111可以运行程序指令，以实现上文的本公开的各个实施例的图像处理方法、语义分割网络的训练方法以及/或者其他期望的功能。在计算机可读存储介质中还可以存储诸如输入信号、信号分量、噪声分量等各种内容。

在一个示例中，电子设备10还可以包括：输入装置113和输出装置114，这些组件通过总线系统和/或其他形式的连接机构(未示出)互连。

此外，该输入设备113还可以包括例如键盘、鼠标等等。

该输出装置114可以向外部输出各种信息，包括确定出的距离信息、方向信息等。该输出装置114可以包括例如显示器、扬声器、打印机、以及通信网络及其所连接的远程输出设备等等。

当然，为了简化，图10中仅示出了该电子设备10中与本公开有关的组件中的一些，省略了诸如总线、输入/输出接口等等的组件。除此之外，根据具体应用情况，电子设备10还可以包括任何其他适当的组件。

示例性计算机程序产品和计算机可读存储介质

除了上述方法和设备以外，本公开的实施例还可以是计算机程序产品，其包括计算机程序指令，计算机程序指令在被处理器运行时使得处理器执行本说明书上述“示例性方法”部分中描述的根据本公开各种实施例的图像处理方法、语义分割网络的训练方法中的步骤。

计算机程序产品可以以一种或多种程序设计语言的任意组合来编写用于执行本公开实施例操作的程序代码，程序设计语言包括面向对象的程序设计语言，诸如Java、C++等，还包括常规的过程式程序设计语言，诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算设备上执行、部分地在用户设备上执行、作为一个独立的软件包执行、部分在用户计算设备上部分在远程计算设备上执行、或者完全在远程计算设备或服务器上执行。

此外，本公开的实施例还可以是计算机可读存储介质，其上存储有计算机程序指令，计算机程序指令在被处理器运行时使得处理器执行本说明书上述“示例性方法”部分中描述的根据本公开各种实施例的图像处理方法、语义分割网络的训练方法中的步骤。

计算机可读存储介质可以采用一个或多个可读介质的任意组合。可读介质可以是可读信号介质或者可读存储介质。可读存储介质例如可以包括但不限于电、磁、光、电磁、红外线、或半导体的系统、装置或器件，或者任意以上的组合。可读存储介质的更具体的例子(非穷举的列表)包括：具有一个或多个导线的电连接、便携式盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。

以上结合具体实施例描述了本公开的基本原理，但是，需要指出的是，在本公开中提及的优点、优势、效果等仅是示例而非限制，不能认为这些优点、优势、效果等是本公开的各个实施例必须具备的。另外，上述公开的具体细节仅是为了示例的作用和便于理解的作用，而非限制，上述细节并不限制本公开为必须采用上述具体的细节来实现。

本公开中涉及的器件、装置、设备、系统的方框图仅作为例示性的例子并且不意图要求或暗示必须按照方框图示出的方式进行连接、布置、配置。如本领域技术人员将认识到的，可以按任意方式连接、布置、配置这些器件、装置、设备、系统。诸如“包括”、“包含”、“具有”等等的词语是开放性词汇，指“包括但不限于”，且可与其互换使用。这里所使用的词汇“或”和“和”指词汇“和/或”，且可与其互换使用，除非上下文明确指示不是如此。这里所使用的词汇“诸如”指词组“诸如但不限于”，且可与其互换使用。

还需要指出的是，在本公开的装置、设备和方法中，各部件或各步骤是可以分解和/或重新组合的。这些分解和/或重新组合应视为本公开的等效方案。

提供所公开的方面的以上描述以使本领域的任何技术人员能够做出或者使用本公开。对这些方面的各种修改对于本领域技术人员而言是非常显而易见的，并且在此定义的一般原理可以应用于其他方面而不脱离本公开的范围。因此，本公开不意图被限制到在此示出的方面，而是按照与在此公开的原理和新颖的特征一致的最宽范围。

为了例示和描述的目的已经给出了以上描述。此外，此描述不意图将本公开的实施例限制到在此公开的形式。尽管以上已经讨论了多个示例方面和实施例，但是本领域技术人员将认识到其某些变型、修改、改变、添加和子组合。

Claims

1.一种图像处理方法，包括：

获取多个待处理图像，其中，多个所述待处理图像为载具的多摄相机系统在同一时刻针对载具周围环境采集的不同视角的多个图像；

利用第一特征提取网络，对多个所述待处理图像进行特征提取，确定多个图像特征；

将多个所述图像特征转换至鸟瞰视角BEV空间下，确定多个BEV图像特征，其中，多个所述BEV图像特征为多个所述待处理图像在BEV空间下各自对应的特征；

对多个所述BEV图像特征进行特征融合，确定BEV融合特征；

利用第一语义分割网络对所述BEV融合特征进行语义分割，确定BEV语义分割结果。

2.根据权利要求1所述的方法，其中，所述将多个所述图像特征转换至BEV空间下，确定多个BEV图像特征，包括：

基于预设的载具参数和多摄相机系统参数，确定所述多摄相机系统中各相机的相机坐标系到BEV坐标系分别对应的转换矩阵；

基于各所述相机的相机坐标系到BEV坐标系分别对应的所述转换矩阵，将多个所述图像特征从相机空间转换至BEV空间下，得到多个所述BEV图像特征。

3.根据权利要求2所述的方法，其中，所述基于预设的载具参数和多摄相机系统参数，确定所述多摄相机系统中各相机的相机坐标系到BEV坐标系分别对应的转换矩阵，包括：

基于所述多摄相机系统中各所述相机的相机坐标系到载具坐标系的转换矩阵、预设的相机内参、以及所述载具坐标系到BEV坐标系的转换矩阵，确定所述多摄相机系统中各所述相机的相机坐标系到BEV坐标系分别对应的转换矩阵。

4.根据权利要求1所述的方法，其中，所述利用第一特征提取网络，对多个所述待处理图像进行特征提取，确定多个图像特征，包括：

基于各所述待处理图像，分别提取不同尺度的图像数据；

利用所述第一特征提取网络对不同尺度的图像数据进行卷积计算，确定多个所述待处理图像分别对应的多个所述图像特征。

5.根据权利要求1-4任一项所述的方法，其中，所述利用第一语义分割网络对所述BEV融合特征进行语义分割，确定BEV语义分割结果，包括：

利用第二特征提取网络对所述BEV融合特征进行特征提取，确定BEV提取特征；

利用第一语义分割网络对所述BEV提取特征进行语义分割，确定所述BEV语义分割结果。

6.一种语义分割网络的训练方法，包括：

获取多个样本图像，其中，多个所述样本图像为载具的多摄相机系统在同一时刻针对载具周围环境采集的不同视角的多个图像；

利用第一特征提取网络，对多个所述样本图像进行特征提取，确定多个图像特征；

将多个所述图像特征转换至BEV空间下，确定多个BEV图像特征，其中，多个所述BEV图像特征包括多个所述样本图像在BEV空间下各自对应的特征；

对多个所述BEV图像特征进行特征融合，确定BEV融合特征；

利用第一初始语义分割网络对所述BEV融合特征进行预测，得到预测BEV语义分割结果；

基于预设的损失函数，利用所述预测BEV语义分割结果与预设的基准BEV语义分割结果，确定所述第一初始语义分割网络预测的BEV语义分割结果的损失；

基于所述BEV语义分割结果的损失，监督所述第一初始语义分割网络，直至符合预设的训练结束条件，得到第一语义分割网络。

7.根据权利要求6所述的方法，其中，所述基准BEV语义分割结果通过如下方式获得：

利用第二语义分割网络，对多个所述样本图像进行语义分割，确定多个基准语义分割结果，其中，多个所述基准语义分割结果包括多个所述样本图像在各自视角下对应的结果；

将多个所述基准语义分割结果转换至BEV空间下，确定多个BEV语义分割结果；

基于多个所述BEV语义分割结果，进行图像拼接，确定所述基准BEV语义分割结果。

8.根据权利要求7所述的方法，其中，所述将多个所述基准语义分割结果转换至BEV空间下，确定多个BEV语义分割结果，包括：

基于载具参数和多摄相机系统参数，计算所述多摄相机系统中各相机的相机坐标系到BEV坐标系分别对应的转换矩阵；

基于各所述相机的相机坐标系到BEV坐标系分别对应的所述转换矩阵，将多个所述基准语义分割结果从相机空间转换至BEV空间下，确定多个所述BEV语义分割结果。

9.根据权利要求7所述的方法，其中，所述基于多个所述BEV语义分割结果，进行图像拼接，确定所述基准BEV语义分割结果，还包括：

确定所述基准BEV语义分割结果中的重叠区域，所述重叠区域为多个所述BEV语义分割结果在图像拼接后发生重叠的区域；

确定所述重叠区域中的所有BEV语义分割结果的语义类别是否相同；

响应于所述重叠区域中的所有BEV语义分割结果的语义类别相同，将所述重叠区域中的所有BEV语义分割结果合并；

响应于所述重叠区域中的所有BEV语义分割结果的语义类别不相同，确定所述重叠区域的语义类别为第一语义类别，所述第一语义类别是所述载具的不可行驶区域对应的语义类别。

10.一种图像处理装置，包括：

获取模块，用于获取多个待处理图像，其中，多个所述待处理图像为载具的多摄相机系统在同一时刻针对载具周围环境采集的不同视角的多个图像；

特征提取模块，用于利用第一特征提取网络，对多个所述待处理图像进行特征提取，确定多个图像特征；

空间转换模块，用于将多个图像特征转换至BEV空间下，确定多个BEV图像特征，其中，所述多个BEV图像特征包括多个所述待处理图像在BEV空间下各自对应的特征；

特征融合模块，用于对所述多个BEV图像特征进行特征融合，确定BEV融合特征；

语义分割模块，用于利用第一语义分割网络对所述BEV融合特征进行语义分割，确定BEV语义分割结果。

11.一种语义分割网络的训练装置，包括：

获取模块，用于获取多个样本图像，其中，多个所述样本图像为载具的多摄相机系统在同一时刻针对载具周围环境采集的不同视角的多个图像；

特征提取模块，用于利用第一特征提取网络，对多个所述样本图像进行特征提取，确定多个图像特征；

空间转换模块，用于将多个所述图像特征转换至BEV空间下，确定多个BEV图像特征，其中，多个所述BEV图像特征包括多个所述样本图像在BEV空间下各自对应的特征；

特征融合模块，用于对多个所述BEV图像特征进行特征融合，确定BEV融合特征；

预测模块，用于利用第一初始语义分割网络对所述BEV融合特征进行预测，得到预测BEV语义分割结果；

损失确定模块，用于基于预设的损失函数，利用所述预测BEV语义分割结果与预设的基准BEV语义分割结果，确定所述第一始语义分割网络预测的BEV语义分割结果的损失；

监督模块，用于基于所述BEV语义分割结果的损失，监督所述第一初始语义分割网络，直至符合预设的训练结束条件，得到所述第一语义分割网络。

12.一种计算机可读存储介质，所述存储介质存储有计算机程序，所述计算机程序用于执行上述权利要求1-5任一所述的图像处理方法或权利要求6-9任一所述的语义分割网络的训练方法。

13.一种电子设备，所述电子设备包括：

处理器；

用于存储所述处理器可执行指令的存储器；

所述处理器，用于从所述存储器中读取所述可执行指令，并执行所述指令以实现上述权利要求1-5任一所述的图像处理方法或权利要求6-9任一所述的语义分割网络的训练方法。