CN114549542A

CN114549542A - 视觉语义分割方法、装置及设备

Info

Publication number: CN114549542A
Application number: CN202111604169.4A
Authority: CN
Inventors: 高丁力; 刘挺; 卿泉; 王刚
Original assignee: Alibaba Damo Institute Hangzhou Technology Co Ltd
Current assignee: Alibaba Damo Institute Hangzhou Technology Co Ltd
Priority date: 2021-12-24
Filing date: 2021-12-24
Publication date: 2022-05-27

Abstract

本申请公开了视觉语义分割方法和装置。其中，所述方法包括：获得传感器所处环境中的单帧图像数据和多帧时序点云数据；根据所述多帧时序点云数据，获得包含静态语义的稠密环境点云信息；获得所述单帧图像数据的第一特征数据，以及，所述包含静态语义的稠密环境点云信息的第二特征数据；将所述第一特征数据和所述第二特征数据输入前融合模型进行深度学习模型建模，获得融合后的视觉语义分割结果。采用这种处理方式，使得将多个单帧激光点云进行多帧点云信息时序拼接，并将其中的动态障碍物信息去除，获得稠密的静态环境语义信息，相比于单帧激光点云的稀疏性，去除动态障碍物的多帧稠密点云信息能更好地提升整体视觉语义分割的效果。

Description

视觉语义分割方法、装置及设备

技术领域

本申请涉及自动驾驶技术领域，具体涉及视觉语义分割方法和装置，视觉语义分割构建方法和装置，以及车辆。

背景技术

在自动驾驶领域,视觉语义分割是一项极其重要的任务，是自动驾驶领域丰富的环境语义信息的源头，对整体自动驾驶感知的效果起着至关重要的作用。因此，视觉语义分割的效果的提升就成了自动驾驶中非常关键的一个任务。

目前，一种典型的视觉语义分割方案是基于摄像头采集的图像数据进行视觉语义分割。例如，可利用摄像头采集的单帧图像信息训练端到端的深度学习语义分割模型，或者是利用多帧图像输入，结合时序图像信息训练端到端的深度学习语义模型。

然而，在实现本发明过程中，发明人发现上述视觉语义分割方案所采取的传感器仅仅包含摄像头，也就是仅仅用图像来提升整体视觉语义分割的效果，这使得通过视觉语义分割获得的行车环境信息受不同天气(如雨天)，不同镜头条件(如镜头模糊)，不同时间(如夜间)的成像影响较大，鲁棒性较差，无法确保复杂路况下自动驾驶的安全性。此外，发明人还发现基于单帧图像和单帧点云进行视觉语义分割时，由于单帧点云通常具有稀疏性，因此也无法较好地提升整体视觉语义分割的效果。进一步的，发明人还发现在基于单帧图像和多帧时序点云数据进行视觉语义分割时，行车环境中的动态障碍物会影响视觉语义分割效果。

发明内容

本申请提供视觉语义分割方法，以解决现有技术存在的在极端天气等情况下视觉语义分割效果较差的问题。本申请另外提供视觉语义分割装置及系统，视觉语义分割模型构建方法和装置，车辆，以及电子设备。

本申请提供一种视觉语义分割方法，包括：

获得传感器所处环境中的单帧图像数据和多帧时序点云数据；

根据所述多帧时序点云数据，获得包含静态语义的稠密环境点云信息；

获得所述单帧图像数据的第一特征数据，以及，所述包含静态语义的稠密环境点云信息的第二特征数据；

将所述第一特征数据和所述第二特征数据输入前融合模型进行深度学习模型建模，获得融合后的视觉语义分割结果。

可选的，所述根据所述多帧时序点云数据，获得包含静态语义的稠密环境点云信息，包括：

将采集周期内获得的多帧时序点云数据进行拼接；

在拼接后的数据中去除动态障碍物点云信息，得到包含静态语义的稠密环境点云信息。

可选的，所述多帧时序点云数据通过如下方法进行拼接：

在采集周期内传感器获得定位位姿以及多个单帧点云信息；

根据各帧点云对应的定位位姿，将多个单帧点云信息拼接为所述多帧时序点云数据。

可选的，所述方法还包括：

将所述包含静态语义的稠密环境点云信息与所述单帧图像数据进行投影标定映射，得到与所述包含静态语义的稠密环境点云信息一一对应的单帧图像信息；

相应的，所述获得所述单帧图像数据的第一特征数据，包括：

获得与所述包含静态语义的稠密环境点云信息一一对应的单帧图像信息的第一特征数据。

5、根据权利要求1所述的方法，其特征在于，所述将所述第一特征数据和所述第二特征数据输入前融合模型进行深度学习模型建模，获得融合后的视觉语义分割结果，包括：

根据所述第一特征数据和所述第二特征数据，获得融合后的第三特征数据；

根据所述第三特征数据，获得融合后的视觉语义分割结果。

可选的，所述第二特征数据采用如下方式获得：

对所述包含静态语义的稠密环境点云信息进行体素化处理；

获得各个体素的特征数据，作为所述第二特征数据。

本申请还提供一种视觉语义分割装置，包括：

数据采集单元，用于获得传感器所处环境中的单帧图像数据和多帧时序点云数据；

多帧点云处理单元，用于根据所述多帧时序点云数据，获得包含静态语义的稠密环境点云信息；

特征构造单元，用于获得所述单帧图像数据的第一特征数据，以及，所述包含静态语义的稠密环境点云信息的第二特征数据；

前融合视觉语义分割单元，用于将所述第一特征数据和所述第二特征数据输入前融合模型进行深度学习模型建模，获得融合后的视觉语义分割结果。

可选的，所述多帧点云处理单元包括：

多帧点云拼接单元，用于将采集周期内获得的多帧时序点云数据进行拼接；

动态障碍物点云去除单元，用于在拼接后的数据中去除动态障碍物点云信息，得到包含静态语义的稠密环境点云信息。

可选的，所述装置还包括：

数据对齐单元，用于将所述包含静态语义的稠密环境点云信息与所述单帧图像数据进行投影标定映射，得到与所述包含静态语义的稠密环境点云信息一一对应的单帧图像信息；

所述特征构造单元，具体用于获得与所述包含静态语义的稠密环境点云信息一一对应的单帧图像信息的第一特征数据。

可选的，所述前融合视觉语义分割单元包括：

特征融合单元，用于根据所述第一特征数据和所述第二特征数据，获得融合后的第三特征数据；

深度学习单元，用于根据所述第三特征数据，获得融合后的视觉语义分割结果。

本申请还提供一种视觉语义分割模型构建方法，包括：

获取传感器所处环境中的单帧图像数据和多帧时序点云数据之间的对应关系集；

构建视觉语义分割模型的网络结构；所述模型包括第一特征构造网络、第二构造网络、特征融合网络和深度学习网络；所述第一构造网络用于获得所述单帧图像数据的第一特征数据；所述第二构造网络用于获得所述包含静态语义的稠密环境点云信息的第二特征数据；所述特征融合网络用于根据所述第一特征数据和所述第二特征数据，获得融合后的第三特征数据；所述深度学习网络用于根据融合后的第三特征数据，获得融合后的视觉语义分割结果；

根据所述单帧图像数据和所述包含静态语义的稠密环境点云信息之间的对应关系集，训练所述模型的网络参数。

本申请还提供一种视觉语义分割模型构建装置，包括：

训练数据获取单元，用于获取传感器所处环境中的单帧图像数据和多帧时序点云数据之间的对应关系集；

网络构建单元，用于构建视觉语义分割模型的网络结构；所述模型包括第一特征构造网络、第二特征构造网络、特征融合网络和深度学习网络；所述第一特征构造网络用于获得所述单帧图像数据的第一特征数据；所述第二特征构造网络用于获得所述包含静态语义的稠密环境点云信息的第二特征数据；所述特征融合网络用于根据所述第一特征数据和所述第二特征数据，获得融合后的第三特征数据；所述深度学习网络用于根据融合后的第三特征数据，获得融合后的视觉语义分割结果；

网络训练单元，用于根据所述单帧图像数据和所述包含静态语义的稠密环境点云信息之间的对应关系集，训练所述模型的网络参数。

本申请还提供一种计算机可读存储介质，所述计算机可读存储介质中存储有指令，当其在计算机上运行时，使得计算机执行上述各种方法。

本申请还提供一种包括指令的计算机程序产品，当其在计算机上运行时，使得计算机执行上述各种方法。

与现有技术相比，本申请具有以下优点：

本申请实施例提供的视觉语义分割方法，在自动驾驶场景中，不仅使用图像来进行视觉语义分割，还充分利用自动驾驶场景多传感器的特点，利用诸如激光雷达等装置所特有的精准的结构信息，与图像所特有的丰富的语义信息进行相互融合，使得视觉语义分割的效果得到较大的提升，对不同环境气候条件下的镜头成像具有更强的鲁棒性，从而使得自动驾驶整体感知系统的效果得到提升。同时，该方法在利用激光雷达的点云信息时，将多个单帧激光点云进行多帧点云信息时序拼接，并将其中的动态障碍物信息去除，获得稠密的静态环境语义信息，相比于单帧激光点云的稀疏性，去除动态障碍物的多帧稠密点云信息能更好地提升整体视觉语义分割的效果，对自动驾驶的安全性具有更好的保障作用。

附图说明

图1是本申请提供的视觉语义分割方法的实施例的流程图；

图2a是本申请提供的视觉语义分割方法的实施例的雨天场景示意图；

图2b是本申请提供的视觉语义分割方法的实施例的夜间场景示意图；

图3是本申请提供的视觉语义分割方法的实施例的具体流程示意图；

图4是本申请提供的视觉语义分割方法的实施例的系统结构示意图；

图5是本申请提供的视觉语义分割方法的实施例的结构化特征提取示意图；

图6是本申请提供的视觉语义分割方法的实施例的图像特征提取示意图；

图7是本申请提供的视觉语义分割方法的实施例的前融合模型示意图；

图8是本申请提供的视觉语义分割方法的实施例的投影标定映射示意图；

图9是本申请提供的视觉语义分割方法的实施例的特征提取网络示意图。

具体实施方式

在下面的描述中阐述了很多具体细节以便于充分理解本申请。但是本申请能够以很多不同于在此描述的其它方式来实施，本领域技术人员可以在不违背本申请内涵的情况下做类似推广，因此本申请不受下面公开的具体实施的限制。

在本申请中，提供了视觉语义分割方法、装置及系统，视觉语义分割模型构建方法和装置，车辆，以及电子设备。在下面的实施例中逐一对各种方案进行详细说明。

第一实施例

请参考图1，其为本申请提供的一种视觉语义分割方法实施例的流程图。该方法的执行主体包括但不限于无人驾驶车辆，如智能物流车等等，可检测到的行车环境中的静态物体，包括建筑物、树木、停放的车辆、马路牙子、交通信号灯、斑马线等。本申请提供的一种视觉语义分割方法包括：

步骤S101：获得传感器所处环境中的单帧图像数据和多帧时序点云数据。

对于自动驾驶场景而言，与其他传统视觉领域不同，自动驾驶场景中所使用的传感器不仅限于二维图像采集装置(如摄像头、照相机)，往往还同时包括三维空间扫描装置(如激光雷达、深度相机)等其他传感器。本申请实施例提供的方法，在车辆行驶过程中，可通过安装在车辆上的三维空间扫描装置，获取车辆行驶道路的环境空间物体的结构化数据，同时可通过二维图像采集装置获取车辆行驶道路的环境空间物体的图像数据。基于图像数据和结构化数据，可识别出准确度更高的行车环境数据(即视觉语义分割结果)。如图2a和图2b所示，本申请提供的方法可应用在雨天、夜间等复杂行车环境中，所述方法获得的视觉语义分割结果不受天气(如雨天)，镜头条件(如镜头模糊)，时间(如夜间)的成像影响，鲁棒性较强，可确保复杂路况下自动驾驶的安全性。

所述二维图像采集装置，包括但不限于：摄像头、照相机等。所述三维空间扫描装置，可以是激光雷达(Light Detection And Ranging，Lidar)或者超声波雷达，也可以是三维激光扫描仪或照相式扫描仪(如深度相机)等设备。

在本实施例中，三维空间扫描装置为激光雷达，其通过激光扫描方式进行激光探测与测量，获得周围环境中障碍物信息，如建筑物、树木、人、车辆等等，其所测得的数据为数字表面模型(Digital Surface Model,DSM)的离散点表示。激光雷达可采集车辆行驶道路的环境空间物体表面每个采样点的空间坐标，得到点的集合，该海量点数据称为点云(Point Cloud)数据，点云数据为结构化数据。通过道路环境点云数据，使得扫描物体表面以点的形式记录，每一个点包含有三维坐标，有些可能含有颜色信息(RGB)或反射强度信息(Intensity)。凭借点云数据，可以在同一空间参考系下表达目标空间。具体实施时，可采用16线、32线、64线等多线激光雷达，不同激光束数量的雷达采集点云数据的帧频(FrameRate)不同，如16、32线每秒一般采集10帧点云数据。

从多帧时序点云数据的帧数而言，三维空间扫描装置可采用性能较高的能采集到稠密点云数据的激光雷达，这样得到的一帧点云数据可包括丰富的结构信息。在这种情况下，可获得较少帧数的多帧时序点云数据，根据较少帧数的多帧时序点云数据进行视觉语义分割。采用这种处理方式，可有效减少计算量，提升视觉语义分割速度，但设备成本较高。

在本实施例中，三维空间扫描装置可采用设备成本较低但性能一般的只能采集到稀疏点云数据的激光雷达，这样得到的1帧点云数据中结构信息较少，不足以获得精准的结构化数据。在这种情况下，可获得较多帧数的多帧时序点云数据，多帧稠密点云的信息能更好地提升整体视觉语义分割的效果。

从执行所述方法的时机而言，在一个示例中，每采集到一帧点云数据，就执行一次本申请实施例提供的方法。在这种情况下，所述多帧时序点云数据可包括当前时刻采集的点云数据(称为当前帧的点云数据)和此前采集的多帧点云数据(称为历史帧的点云数据)。

在另一个示例中，每个数据采集周期执行一次本申请实施例提供的方法。在这种情况下，所述多帧时序点云数据可包括该采集周期内采集到的多帧时序点云数据。例如，每秒为一个采集周期，激光束数量为16、32线的激光雷达每秒可采集10帧点云数据。

在又一个示例中，也可以是每采集到一帧图像数据，就执行一次本申请实施例提供的方法。在采集到一帧图像数据时，可同时采集到多帧时序点云数据。

步骤S103：根据所述多帧时序点云数据，获得包含静态语义的稠密环境点云信息。

所述静态语义的稠密环境点云信息，又称为稠密的静态环境语义信息，可以是不包括动态障碍物的稠密环境点云信息。所述动态障碍物，可以是在多帧时序结构化数据中发生移动的物体，如走动中的行人、行驶中的汽车、空中飞舞的塑料袋、路面上滚动的瓶子等。动态障碍物在进行多帧点云拼接时,会导致动态障碍物身后出现一条多帧动态点云形成的拖影,从而使得动态障碍物的尺寸与实际尺寸不符合,该类动态障碍物会对后续的整体模型性能产生影响，故本实施例将其去除。

请参考图3，其为本申请提供的一种视觉语义分割方法实施例的具体流程图。在一个示例中，步骤S103可包括如下子步骤：

步骤S1031：将采集周期内获得的多帧时序点云数据进行拼接。

具体实施时，所述将采集周期内获得的多帧时序点云数据进行拼接，可采用如下方式实现：在采集周期内传感器获得定位位姿以及多个单帧点云信息；根据各帧点云对应的定位位姿，将多个单帧点云信息拼接为所述多帧时序点云数据。采用这种处理方式，使得根据历史帧的定位数据，将历史帧的结构化数据转换至当前帧的坐标系，得到多帧时序拼接的结构化数据。

具体实施时，可通过惯性传感器IMU进行定位位姿跟踪，以确定各帧点云数据对应的定位位姿数据。通过惯性传感器IMU进行定位位姿跟踪属于较为成熟的现有技术，此处不再赘述。

步骤S1033：在拼接后的数据中去除动态障碍物点云信息，得到包含静态语义的稠密环境点云信息。

动态障碍物在进行多帧点云拼接时,会在动态障碍物身后出现一条多帧动态点云形成的拖影,从而使得动态障碍物的尺寸与实际尺寸不符合。具体实施时，可根据拖影特征识别出动态障碍物，将其去除。

步骤S105：获得所述单帧图像数据的第一特征数据，以及，所述包含静态语义的稠密环境点云信息的第二特征数据。

所述第一特征数据又称为图像特征数据或者环境语义特征数据，所述第二特征数据又称为结构化特征数据或者环境结构特征数据。

步骤S107：将所述第一特征数据和所述第二特征数据输入前融合模型进行深度学习模型建模，获得融合后的视觉语义分割结果。

所述融合后的视觉语义分割结果，可以是道路两侧停放的车辆、树、建筑物、交通信号灯、马路牙子等。本实施例提供的方法将第一特征数据和第二特征数据输入至前融合的视觉语义分割模型，通过基于神经网络构建的前融合模型进行深度学习建模，获得融合后的视觉语义分割结果。

在一个示例中，步骤S107可包括如下子步骤：

步骤S1071：根据所述第一特征数据和所述第二特征数据，获得融合后的第三特征数据。

所述第三特征数据，可包括行车环境语义信息和结构化信息。所述结构化信息，可包括环境中的物体大小及立体形状信息等。所述行车环境语义信息，可包括环境中的物体图像信息，如物体是树、行人，还是车辆等。

步骤S1073：根据所述第三特征数据，获得融合后的视觉语义分割结果。

所述前融合模型可包括第一特征构造网络、第二特征构造网络、特征融合网络和深度学习网络。所述第一特征构造网络，又称为图像特征构造模块或者语义特征构造模块，用于获得所述单帧图像数据的第一特征数据。所述第二特征构造网络，用于获得所述包含静态语义的稠密环境点云信息的第二特征数据。所述特征融合网络，用于根据所述第一特征数据和所述第二特征数据，获得融合后的第三特征数据。所述深度学习网络，用于根据融合后的第三特征数据，获得融合后的视觉语义分割结果。

如图4所示，在本实施例中，可将视觉语义分割系统划分为传感器信息处理单元和前融合模型。其中，传感器信息处理单元可通过激光雷达采集单帧点云信息，并通过定位算法确定单帧点云的定位位姿数据；然后，可拼接多个时刻采集的多帧点云数据；接下来，可滤除动态障碍物点云数据，将滤除后的点云数据作为结构化特征构造模块(第二特征构造网络)的输入数据，将滤除动态障碍物后的点云数据投影至二维图像上，得到图像与点云的对应关系，并将对齐的图像数据作为图像特征构造模块(第一特征构造网络)的输入数据；在构造出第一特征数据(图像特征数据)和第二特征数据(结构特征数据)后，通过特征融合模块将两类特征融合；最后，将融合特征数据作为主干深度学习网络的输入数据，通过主干深度学习网络输出融合后的视觉语义分割结果。

所述点云数据数据通常为离散、杂乱、不规则的数据，而所述第二特征数据(结构化特征数据)为相对规则的数据。所述第二特征构造模块可采用现有技术中从结构化信息提取结构化特征数据的方法。例如，首先，将点云数据表示的行车环境空间体素化，行车环境空间可包括多个体素(voxel)的点云数据；体素是体积元素(Volume Pixel)的简称，可用来在三维空间中表示一个显示基本点的单位，类似于二维平面下的像素(pixel)；然后，可提取各个体素的特征数据，如点云分布统计数据等，作为第二特征数据。

如下图5所示,本实施例对三维点云结构化数据进行体素化处理，通过系数3D卷积网络提取三维体素特征，作为第二特征数据。具体实施时，第二特征构造模块可采用三维稀疏卷积网络，以提升检测速度。其原因在于：结构化数据(如点云数据)的数据量较大,通过稀疏3D卷积的方式，可以在对点云进行卷积处理时，相比普通卷积，构建一个稀疏化处理的过程，避免了对每个点云数据都进行计算遍历的过程，从而提速。

所述第一特征构造网络也可采用现有技术中从图像数据中提取环境语义特征数据的方法，如采用卷积神经网络进行图像处理，得到图像特征数据。

所述第一特征构造网络可采用可变形网络，可变形卷积相比传统卷积，支持任意可变形的感受野，而不是规定的矩形大小的感受野,支持任意形状，对不同形状各异的障碍物效果更好。如图6所示,本实施例可通过特征金字塔网络和路径聚合网络从图像数据中提取出图像特征数据。

所述特征融合网络，用于结合图像语义特征和三维点云结构化特征，补齐图像语义特征所缺失的结构化特征,得到所述第三特征数据，从而提升图像语义分割效果。具体实施时，可通过将第一特征数据与第二特征数据进行拼接的方式，或者将第一特征数据与第二特征数据进行加权求和等方式，对两类特征进行融合处理。

所述深度学习网络，用于根据融合后的第三特征数据，获得所述视觉语义分割结果，如识别出停在道路两侧的车辆、树、建筑物等。

本申请实施例提供的所述深度学习网络与现有技术中基于图像数据的视觉语义分割模型中的决策模块不同之处至少包括：输入数据的性质不同。在本申请实施例提供的方法中，所述深度学习网络的输入数据为所述融合后的第三特征数据；在现有技术的基于图像数据的视觉语义分割模型中，决策模块的输入数据仅为图像特征。

如图7所示，具体实施时，所述深度学习网络可包括卷积网络和反卷积网络。其中，通过所述卷积网络，根据融合后的第三特征数据，获得行车环境的深度特征数据；通过所述反卷积网络，根据所述深度特征数据，获得融合后的视觉语义分割结果。

在一个示例中，所述方法还可包括如下步骤：将所述包含静态语义的稠密环境点云信息与所述单帧图像数据进行投影标定映射，得到与所述包含静态语义的稠密环境点云信息一一对应的单帧图像信息。如图8所示，左图为对齐的图像数据，右图为点云数据。采用这种处理方式，使得将多帧时序拼接的滤除动态障碍物的结构化数据投影至图像数据的平面，得到结构化信息和语义信息对齐的图像数据。也就是说，使得将三维数据投影至二维图像上，由此可确定图像数据与结构化数据间的对应关系。在这种情况下，步骤S103可采用如下方式实现：获得与所述包含静态语义的稠密环境点云信息一一对应的单帧图像信息的第一特征数据。这样，可根据对齐的图像数据，确定所述第一特征数据。

如图9所示，在本实施例中，通过摄像头采集的二维图像数据输入至基于卷积神经网络的语义特征构造模块(第一特征构造模块)，语义特征构造模块输出语义特征数据(又称为图像特征数据或者第一特征数据)。同时，通过激光雷达采集的多帧时序点云输入至结构特征构造模块(第二特征构造模块)，通过卷积网络的处理输出结构特征数据(第二特征数据)。具体实施时，可通过投影标定映射模块(特征对齐模块)，将第一特征数据与第二特征数据对齐。然后，再通过特征融合模块，对第一特征数据和第二特征数据进行融合处理，以补齐图像语义特征所缺失的结构化特征,得到所述第三特征数据(行车环境特征数据)。

从上述实施例可见，本申请实施例提供的视觉语义分割方法，在自动驾驶场景中，不仅使用图像来进行视觉语义分割，还充分利用自动驾驶场景多传感器的特点，利用诸如激光雷达等装置所特有的精准的结构信息，与图像所特有的丰富的语义信息进行相互融合，使得视觉语义分割的效果得到较大的提升，对不同环境气候条件下的镜头成像具有更强的鲁棒性，从而使得自动驾驶整体感知系统的效果得到提升。同时，该方法在利用激光雷达的点云信息时，将多个单帧激光点云进行多帧点云信息时序拼接，并将其中的动态障碍物信息去除，获得稠密的静态环境语义信息，相比于单帧激光点云的稀疏性，去除动态障碍物的多帧稠密点云信息能更好地提升整体视觉语义分割的效果，对自动驾驶的安全性具有更好的保障作用。

第二实施例

在上述的实施例中，提供了视觉语义分割方法，与之相对应的，本申请还提供一种视觉语义分割装置。该装置是与上述方法的实施例相对应。由于装置实施例基本相似于方法实施例，所以描述得比较简单，相关之处参见方法实施例的部分说明即可。下述描述的装置实施例仅仅是示意性的。

本申请另外提供一种视觉语义分割装置，包括：数据采集单元，多帧点云处理单元，特征构造单元，前融合视觉语义分割单元。

所述数据采集单元，用于获得传感器所处环境中的单帧图像数据和多帧时序点云数据；多帧点云处理单元，用于根据所述多帧时序点云数据，获得包含静态语义的稠密环境点云信息；特征构造单元，用于获得所述单帧图像数据的第一特征数据，以及，所述包含静态语义的稠密环境点云信息的第二特征数据；前融合视觉语义分割单元，用于将所述第一特征数据和所述第二特征数据输入前融合模型进行深度学习模型建模，获得融合后的视觉语义分割结果。

在一个示例中，所述多帧点云处理单元包括：多帧点云拼接单元和动态障碍物点云去除单元。所述多帧点云拼接单元，用于将采集周期内获得的多帧时序点云数据进行拼接；动态障碍物点云去除单元，用于在拼接后的数据中去除动态障碍物点云信息，得到包含静态语义的稠密环境点云信息。

在一个示例中，所述装置还包括：数据对齐单元，用于将所述包含静态语义的稠密环境点云信息与所述单帧图像数据进行投影标定映射，得到与所述包含静态语义的稠密环境点云信息一一对应的单帧图像信息；相应的，所述特征构造单元，具体用于获得与所述包含静态语义的稠密环境点云信息一一对应的单帧图像信息的第一特征数据。

在一个示例中，所述前融合视觉语义分割单元包括：特征融合单元和深度学习单元。所述特征融合单元，用于根据所述第一特征数据和所述第二特征数据，获得融合后的第三特征数据；深度学习单元，用于根据所述第三特征数据，获得融合后的视觉语义分割结果。

第三实施例

在上述的实施例中，提供了一种视觉语义分割方法，与之相对应的，本申请还提供一种视觉语义分割模型处理方法。该方法的执行主体包括但不限于服务器，也可以是无人驾驶车辆等其它设备。

本申请提供的一种视觉语义分割模型处理方法，可包括如下步骤：

步骤1：获取传感器所处环境中的单帧图像数据和多帧时序点云数据之间的对应关系集。

所述对应关系集又称为训练数据集。所述训练数据，包括但不限于：行车环境的单帧图像数据和结构化数据(多帧时序点云数据)、视觉语义分割标注信息。在采用多帧时序拼接的结构化数据时，还可包括历史帧的定位位姿数据，用于对齐结构化数据和图像数据。

步骤2：根据所述多帧时序点云数据，获得包含静态语义的稠密环境点云信息。

本步骤可针对各条训练数据，对其中的多帧时序点云数据进行处理，从中获得包含静态语义的稠密环境点云信息。

在一个示例中，步骤2可采用如下方式实现：将多帧时序点云数据进行拼接；在拼接后的数据中去除动态障碍物点云信息，得到包含静态语义的稠密环境点云信息。

具体实施时，所述多帧时序点云数据可通过如下方式进行拼接：根据各帧点云对应的定位位姿，将多个单帧点云信息拼接为所述多帧时序点云数据。

具体实施时，所述方法还可包括如下步骤：将所述包含静态语义的稠密环境点云信息与所述单帧图像数据进行投影标定映射，得到与所述包含静态语义的稠密环境点云信息一一对应的单帧图像信息。

步骤3：构建视觉语义分割模型的网络结构。

所述模型包括第一特征构造网络、第二构造网络、特征融合网络和深度学习网络；所述第一构造网络用于获得所述单帧图像数据的第一特征数据；所述第二构造网络用于获得所述包含静态语义的稠密环境点云信息的第二特征数据；所述特征融合网络用于根据所述第一特征数据和所述第二特征数据，获得融合后的第三特征数据；所述深度学习网络用于根据融合后的第三特征数据，获得融合后的视觉语义分割结果

具体实施时，所述模型的网络结构与实施例一相同，此处不再赘述。

步骤4：根据所述单帧图像数据和所述包含静态语义的稠密环境点云信息之间的对应关系集，训练所述模型的网络参数。

在准备好训练数据，并构建好模型结构后，就可以根据训练数据集，训练所述模型的网络参数。在模型训练好后，存储网络参数，用于对行车环境的视觉语义进行分割。

第四实施例

在上述的实施例中，提供了视觉语义分割模型构建方法，与之相对应的，本申请还提供一种视觉语义分割模型构建装置。该装置是与上述方法的实施例相对应。由于装置实施例基本相似于方法实施例，所以描述得比较简单，相关之处参见方法实施例的部分说明即可。下述描述的装置实施例仅仅是示意性的。

本申请另外提供一种视觉语义分割模型构建装置，包括：训练数据获取单元，多帧点云处理单元，网络构建单元，网络训练单元。

所述训练数据获取单元，用于获取传感器所处环境中的单帧图像数据和多帧时序点云数据之间的对应关系集；多帧点云处理单元，用于根据所述多帧时序点云数据，获得包含静态语义的稠密环境点云信息；网络构建单元，用于构建视觉语义分割模型的网络结构；所述模型包括第一特征构造网络、第二特征构造网络、特征融合网络和深度学习网络；所述第一特征构造网络用于获得所述单帧图像数据的第一特征数据；所述第二特征构造网络用于获得所述包含静态语义的稠密环境点云信息的第二特征数据；所述特征融合网络用于根据所述第一特征数据和所述第二特征数据，获得融合后的第三特征数据；所述深度学习网络用于根据融合后的第三特征数据，获得融合后的视觉语义分割结果；网络训练单元，用于根据所述单帧图像数据和所述包含静态语义的稠密环境点云信息之间的对应关系集，训练所述模型的网络参数。

第五实施例

在上述的实施例中，提供了一种视觉语义分割方法，与之相对应的，本申请还提供一种车辆。该设备的实施例是与上述方法的实施例相对应。由于设备实施例基本相似于方法实施例，所以描述得比较简单，相关之处参见方法实施例的部分说明即可。下述描述的设备实施例仅仅是示意性的。

本申请另外提供一种车辆，包括：二维图像采集装置，三维空间扫描装置，处理器，以及存储器。所述存储器，用于存储实现根据上述实施例提供的视觉语义分割方法的程序，该设备通电并通过所述处理器运行所述方法的程序。

本申请虽然以较佳实施例公开如上，但其并不是用来限定本申请，任何本领域技术人员在不脱离本申请的精神和范围内，都可以做出可能的变动和修改，因此本申请的保护范围应当以本申请权利要求所界定的范围为准。

在一个典型的配置中，计算设备包括一个或多个处理器(CPU)、输入/输出接口、网络接口和内存。

内存可能包括计算机可读介质中的非永久性存储器，随机存取存储器(RAM)和/或非易失性内存等形式，如只读存储器(ROM)或闪存(flash RAM)。内存是计算机可读介质的示例。

1、计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括，但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带，磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质，可用于存储可以被计算设备访问的信息。按照本文中的界定，计算机可读介质不包括非暂存电脑可读媒体(transitory media)，如调制的数据信号和载波。

2、本领域技术人员应明白，本申请的实施例可提供为方法、系统或计算机程序产品。因此，本申请可采用完全硬件实施例、完全软件实施例或结合软件和硬件方面的实施例的形式。而且，本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

Claims

1.一种视觉语义分割方法，其特征在于，包括：

2.根据权利要求1所述的方法，其特征在于，所述根据所述多帧时序点云数据，获得包含静态语义的稠密环境点云信息，包括：

将采集周期内获得的多帧时序点云数据进行拼接；

3.根据权利要求2所述的方法，其特征在于，所述多帧时序点云数据通过如下方法进行拼接：

在采集周期内传感器获得定位位姿以及多个单帧点云信息；

4.根据权利要求2所述的方法，其特征在于，所述方法还包括：

5.根据权利要求1所述的方法，其特征在于，所述将所述第一特征数据和所述第二特征数据输入前融合模型进行深度学习模型建模，获得融合后的视觉语义分割结果，包括：

根据所述第三特征数据，获得融合后的视觉语义分割结果。

6.根据权利要求1所述的方法，其特征在于，所述第二特征数据采用如下方式获得：

对所述包含静态语义的稠密环境点云信息进行体素化处理；

获得各个体素的特征数据，作为所述第二特征数据。

7.一种视觉语义分割装置，其特征在于，包括：

8.根据权利要求7所述的装置，其特征在于，所述多帧点云处理单元包括：

9.根据权利要求7所述的装置，其特征在于，所述装置还包括：

10.根据权利要求7所述的装置，其特征在于，所述前融合视觉语义分割单元包括：

11.一种视觉语义分割模型构建方法，其特征在于，包括：

12.一种视觉语义分割模型构建装置，其特征在于，包括：