CN113988172A

CN113988172A - 一种基于多模态融合的自主系统感知方法及系统

Info

Publication number: CN113988172A
Application number: CN202111248792.0A
Authority: CN
Inventors: 杨清海; 沈八中; 徐丽娟; 梅牧雨; 张媛
Original assignee: Guangzhou Institute of Technology of Xidian University
Current assignee: Guangzhou Institute of Technology of Xidian University
Priority date: 2021-10-26
Filing date: 2021-10-26
Publication date: 2022-01-28

Abstract

一种基于多模态融合的自主系统感知方法及系统，其方法包括：获取多个车辆的传感器采集的数据，利用训练好的多模态数据融合框架对传感器采集的数据进行处理，将处理的结果进行融合，得到一级融合结果，基于目标识别业务，对一级融合结果进行处理，保留感兴趣区域信息，利用已有的多视角融合算法构建协作级融合架构，对多个车辆上传的感兴趣区域信息进行二次融合，得到二次融合结果，将二级融合结果下发至车辆，以供车辆根据二级融合结果做控制决策；本申请通过构建车辆级联协作数据融合框架，可通过级联框架提高和扩展环境视野，解决单个自动驾驶车辆视野局限性，降低不确定性，提高感知算法的性能。

Description

一种基于多模态融合的自主系统感知方法及系统

技术领域

本发明涉及汽车自动驾驶技术领域，特别涉及一种基于多模态融合的自主系统感知方法和系统。

背景技术

随着传感器技术的飞速发展，自动驾驶汽车也越来越普及，在自动驾驶车辆感知周围环境过程中，在保障其实时性及感知准确性的需求下，还需要解决单个自动驾驶车辆视野局限性，自动驾驶汽车计算机视觉的基本挑战之一是在不同的道路、天气、照明和工作条件下实现高精度的各种应用，但是基于现有摄像头的二维计算机视觉受环境条件的影响较大，容易导致自动驾驶汽车的相关应用工作状态不稳定。

因此，如何提供一种工作状态稳定的感知方法，是本领域技术人员亟待解决的问题。

发明内容

本申请实施例提供了一种基于多模态融合的自主系统感知方法及系统，旨在解决现有感知系统工作状态不稳定的问题。

第一方面，本申请提供了一种基于多模态融合的自主系统感知方法，包括：

获取多个车辆的传感器采集的数据；

利用训练好的多模态数据融合框架对传感器采集的数据进行处理，将处理的结果进行融合，得到一级融合结果；

基于目标识别业务，对一级融合结果进行处理，保留感兴趣区域信息；

利用已有的多视角融合算法构建协作级联融合架构，对多个车辆上传的感兴趣区域信息进行二次融合，得到二次融合结果；

将二级融合结果下发至车辆，以供车辆根据二级融合结果做控制决策。

第二方面，本申请还提供了一种基于多模态融合的自主系统感知系统，包括：

感知数据获取模块，用于获取多个车辆的传感器采集的数据；

一级融合结果获取模块，用于利用训练好的多模态数据融合框架对传感器采集的数据进行处理，将处理的结果进行融合，得到一级融合结果；

感兴趣区域信息获取模块，用于基于目标识别业务，对一级融合结果进行处理，保留感兴趣区域信息；

二级融合结果获取模块，用于利用已有的多视角融合算法构建协作级联融合架构，对多个车辆上传的感兴趣区域信息进行二次融合，得到二次融合结果；

结果下发模块，用于将二级融合结果下发至车辆，以供车辆根据二级融合结果做控制决策。

第三方面，本申请还提供了一种计算机装置，包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序，其特征在于，所述处理器执行所述计算机程序时，实现如第一方面中任一项所述的基于多模态融合的自主系统感知方法。

第四方面，本申请还提供了一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时执行如第一方面中任一项所述的基于多模态融合的自主系统感知方法。

本申请提出的一种基于多模态融合的自主系统感知方法及系统，通过构建车辆级联协作数据融合框架，可通过级联框架提高和扩展环境视野，解决单个自动驾驶车辆视野局限性，降低不确定性，提高感知算法的性能。

附图说明

为了更清楚的说明本申请实施例技术方案，下面将对实施例描述中所需要使用的附图作简单的介绍，显而易见的，下面的描述中的附图是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他附图。

图1为本申请实施例提供的一种基于多模态融合的自主系统感知方法流程图；

图2为本申请实施例提供的一种多模态数据融合框架图；

图3为本申请实施例提供的一种自动编码器结构图。

具体实施方式

下面结合附图对本发明的具体实施方式作进一步说明。在此需要说明的是，对于这些实施方式的说明用于帮助理解本发明，但并不构成对本发明的限定。此外，下面所描述的本发明各个实施方式中所涉及的技术特征只要彼此之间未构成冲突就可以相互组合。

随着机器学习、深度学习等人工智能的发展，可以处理大量的数据，建立相对较高的精度模型，实际上，没有一个传感器能很好地反映现实世界的状况。因此，本申请将不同传感器或同一传感器的不同视图结合起来，重建真实情况，然后馈入深度学习模型。

参见图1实施例所示一种基于多模态融合的自主系统感知方法流程图，包括：

S101、获取多个车辆的传感器采集的数据。

在一实施例中，传感器数据包括：道路信息数据和车辆行驶数据。

具体来说，不同的车载传感器既可以提供对同一环境的感知信息，如对前方道路的RGB图像、热成像、深度图像、激光雷达点云和雷达点云等，也可以提供对汽车自身的感知信息，如车辆的行驶速度、路径等，为连续地感知环境提供重要的估计参数，因此，本申请将多台车辆的传感器数据进行融合，以解决单个自动驾驶车辆视觉的局限性。

S102、利用训练好的多模态数据融合框架对传感器采集的数据进行处理，将处理的结果进行融合，得到一级融合结果。

参见图2实施例所示一种多模态数据融合框架图；

首先，对通过自动编码器输入信号分别进行传感器网络处理，提取深层特征图，同时将不同感器的数据转换为通用格式，最后，将多模态传感器数据的深层特征融合到一个小的融合网络中。

参见图3实施例所示的一种自动编码器结构图，

自动编码器通过一个多层神经网络把高维数据编码成一个低维数据，从而重建这个高维数据，其中这个神经网络的中间层神经元数是较少的，自动编码器主要分两个部分，编码和解码，编码是降维的过程，它可以学习到输入数据的深层隐含特征，解码是将降维的结果升维，自动编码器希望升维的结果与原始数据尽可能一致，二者共同构成一个前馈的网络，训练完后的中间结果就是原始数据的降维特征学习结果。重构误差是衡量自动编码器学习效果的依据，重构误差越小说明编码器的特征学习效果越好。

自动编码器的编码过程可描述为：

Z＝α(W^e*x+b^e)

其中，α为激活函数,常用激活函数为Sigmoid和ReLU等；W^e和b^e为编码阶段神经网络的权重和偏置；*为卷积操作；X＝{x'，x，…，x^}为输人数据，其中x为M维矢量；Z为隐含层特征。

自编码器的解码过程可描述为：

Y＝α(W^d*Z+b^d)

其中W^d和b^d为解码阶段神经网络的权重和偏置；Y为自动编码器输出的重构数据。

重构损失函数定义为：

其中，W和b表示自动编码器神经网络中的所有参数，x_i∈X,y_i∈Y分别表示输入数据和重构数据，m表示数据的多少。

在反向传播中，使用随机梯度下降来优化网络。

η表示学习率，

表示损失函数对W的求导，

表示损失函数对b的求导。

基于神经网络的自动编码器经过训练后，去掉解码部分，编码层的输出，便可作为降维的数据，可表征原始高维数据的重要信息。

为了充分利用各个传感器的优势，传感器数据融合非常重要。相机数据密度高，却易受天气等因素影响；点云数据包含准确的空间信息，但很稀疏。因此，将处理后的多模态数据进行串联拼接，获得融合数据。特征融合网络由多个卷积层和全连接层操作组成。卷积层用来提取图像特征，全连接层用来预测图像位置和类别概率值。

在一实施例中，训练融合网络的标准方法可以从最大似然的角度来看待，我们学习一组网络权值W，使训练数据的观测似然最大化。通过设置损失函数使负对数似然最小化。

损失函数包括两部分：目标物体框标定的回归误差以及分类误差。具体而言，采用mAP(mean average precision)作为目标识别感知的评价指标。

S103、基于目标识别业务，对一级融合结果进行处理，保留感兴趣区域信息。

为了获得多车辆的全局目标识别结果，各个车辆需要上传其本地识别结果至中央处理系统(如基站)。为缓解传输过程中的带宽压力，减少交付时延，在发射端，采用对一级融合结果进行处理，保留感兴趣区域信息。

在一实施例中，基于目标识别业务，对一级融合结果进行处理，保留感兴趣区域信息，还包括：

对一级融合结果中的不感兴趣区域信息进行弱化处理。

一个有效的自动驾驶系统必然是架构复杂、任务繁多，不同的目标识别业务依赖的感知数据不尽相同：检测、追踪主要依赖图像和点云数据，即时定位则需要GPS和IMU等，自动驾驶要求对车道线、交通标识、可能的障碍物等驾驶环境有全面的认识，就不得不接收大量感知数据并执行多种感知任务.但这同时造成了感知任务种类多、任务量大的问题，由于不同的感知任务重点都不同，一个通用性的知识，自动驾驶的感知任务对于路测植被的信息要求低于交通指示牌和行人，那么就可以弱化该信息，在保证行驶安全的前提下降低传输时延。

现有的识别系统，在目标识别后，针对识别的物体都会给出一个图像框及其概率值，基于此，可以采用降低图像内所有框外的像素值，以此在保障目标识别任务性能的同时来降低要传输的图像数据的大小。具体方法可以采用Opencv的一些现有的函数来实现，像SetImageROI()函数设置ROI区域等常规方式。

S104、利用已有的多视角融合算法构建协作级联融合架构，对多个车辆上传的感兴趣区域信息进行二次融合，得到二次融合结果。

本申请除了通过利用VR/AR技术中常用的多视角框架(即从多个不同的视角观察一个事物)，同时还在单个车辆处考虑多传感器多模态的融合，与传统的多模态融合的方法相比，多考虑了多视角的车辆信息融合，其原理与多视角框架的原理相同，即，本申请不止从一个车辆的多个传感器上传的数据进行融合，还选择多个车辆来进行车辆信息融合，因此称为协作级联融合架构。

在一实施例中，对感兴趣区域信息进行二次融合，得到二次融合结果，包括：

将多个车辆上传的感兴趣区域信息映射到全局坐标系后进行拼接，得到二次融合结果。

单车辆在感知过程中，会出现有限视角、遮挡和低点云密度等问题，采用协同多个车辆感知以克服该问题。每个自动驾驶车辆通过无线环境将本地感知结果及位置方向等信息发送至中央融合系统(路侧基站等)。每个车辆都提供了相对于其自身坐标系的点，因此在处理之前需要将其转换为全局坐标系。通过旋转和平移操作，将点从车辆坐标系映射到一个全局坐标系。然后再将映射为全局坐标系的多个车辆感知信息进行拼接形成全局视角感知结果。

S105、将二级融合结果下发至车辆，以供车辆根据二级融合结果做控制决策。

将二级融合结果下发至所有与系统对接的车辆，进行融合信息分享，汽车控制系统可根据融合信息做控制决策。

以上结合附图对本发明的实施方式作了详细说明，但本发明不限于所描述的实施方式。对于本领域的技术人员而言，在不脱离本发明原理和精神的情况下，对这些实施方式进行多种变化、修改、替换和变型，仍落入本发明的保护范围内。

Claims

1.一种基于多模态融合的自主系统感知方法，其特征在于，包括：

获取多个车辆的传感器采集的数据；

2.如权利要求1所述的一种基于多模态融合的自主系统感知方法，其特征在于，所述传感器采集的数据包括：道路信息数据和车辆行驶数据。

3.如权利要求1所述的一种基于多模态融合的自主系统感知方法，其特征在于，所述训练好的多模态数据融合架构的获取方式包括：

人工构建一个轻量网络结构，或使用神经网络结构搜索自动搜索轻量网络结构。

4.如权利要求1所述的一种基于多模态融合的自主系统感知方法，其特征在于，所述感兴趣区域信息，包括以下信息中的一种或多种：地面物体的真实位置、方向、大小和目标类别信息。

5.如权利要求1所述的一种基于多模态融合的自主系统感知方法，其特征在于，所述对一级融合结果进行处理，保留感兴趣区域信息，包括：

对一级融合结果中的不感兴趣区域信息进行弱化处理，保留感兴趣区域信息。

6.如权利要求5所述的一种基于多模态融合的自主系统感知方法，其特征在于，所述对感兴趣区域信息进行二次融合，得到二次融合结果，包括：

将多个车辆不同视角上传的感兴趣区域信息映射到全局坐标系后进行拼接，得到二次融合结果。

7.一种基于多模态融合的自主系统感知系统，包括：

一级融合结果处理模块，用于基于目标识别业务，对一级融合结果进行处理，保留感兴趣区域信息；

8.一种计算机装置，包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序，其特征在于，所述处理器执行所述计算机程序时，实现如权利要求1-6中任一项所述的基于多模态融合的自主系统感知方法。

9.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时执行如权利要求1-6中任一项所述的基于多模态融合的自主系统感知方法。