CN117184105A

CN117184105A - 一种基于多模态数据融合的转向角速度预测方法及装置

Info

Publication number: CN117184105A
Application number: CN202310898967.5A
Authority: CN
Inventors: 黄毅; 刘文卓; 朱佳音; 杨磊; 李耀宇; 郭倩男; 蒋瀚祺
Original assignee: Tsinghua University
Current assignee: Tsinghua University
Priority date: 2023-07-20
Filing date: 2023-07-20
Publication date: 2023-12-08
Anticipated expiration: 2043-07-20
Also published as: CN117184105B

Abstract

本发明涉及智能驾驶技术领域，公开了一种基于多模态数据融合的转向角速度预测方法及装置，本发明通过多模态数据融合的转向角速度预测方法，方法包括：实时采集车辆的多模态数据，所述多模态数据包括：图像数据、转向角数据以及速度数据；对车辆的多模态数据进行预处理；将预处理后的多模态数据输入至预先设计好的端到端网络，输出预测的转向角和车速。通过预先设计好的端到端网络，有效地利用多模态提供的互补信息，从而提高了信息检测的准确性和稳健性。

Description

一种基于多模态数据融合的转向角速度预测方法及装置

技术领域

本发明涉及智能驾驶技术领域，具体涉及一种基于多模态数据融合的转向角速度预测方法及装置。

背景技术

在车辆的能量管理应用中，预测最优驾驶数据对于能源管理具有重要意义，在重型运载车上尤其明显，由于这类车辆自身重量大，载重量大，行驶距离长，因此相对于其他类型的车辆，它们对能源的消耗更大。因此，对这种车辆进行有效的能源管理就显得尤为重要，基于多模态融合的转向角、速度联合预测方法预作为一种重要技术，可以提高驾驶预测的准确性，从而促进更卓越的自动驾驶能源管理。

然而，当前基于车辆转向角和车速预测网络的能源管理工作存在以下局限性：(1)尽管已有一些端到端的自动驾驶模型进行训练和测试，但这些现有工作在预测范围方面存在局限，主要仅能预测未来五帧的车速或转向角度，导致实际应用中的局限性。(2)此外，现有技术未能充分分析不同输入帧和输出之间的复杂关系，这是实现全面预测效果的关键因素之一，现有模型往往依赖于简化的模态融合方法，忽略了多模态融合对于预测过程的重要性，从而影响了预测性能。(3)车辆转向角和车速预测过程依赖于模态融合方法，而目前的技术忽视了多模态融合，仅依赖于简化的模态融合方法，导致融合效果不佳，未考虑多个维度之间的复杂相互依赖关系，同时预测成本高，预测性能也不理想，导致成本和性能之间的不良平衡。针对上述问题，在进行多模态融合的转向角速度联合预测时存在准确率低的缺陷。

发明内容

有鉴于此，本发明提供了一种基于多模态数据融合的转向角速度预测方法及装置，以解决在进行多模态融合的转向角速度联合预测准确率低的问题。

第一方面，本发明提供了一种多模态数据融合的转向角速度预测方法，方法包括：

实时采集车辆的多模态数据，多模态数据包括：图像数据、转向角数据以及速度数据；

对车辆的多模态数据进行预处理；

将预处理后的多模态数据输入至预先设计好的端到端网络，输出预测的转向角和车速。

本发明提供的多模态数据融合的转向角速度预测方法，通过预先设计好的端到端网络，有效地利用多模态提供的互补信息，从而提高了信息检测的准确性和稳健性。

在一种可选的实施方式中，端到端网络包括：

提取预处理后多模态数据的图像流、速度流和转向流，图像流依次通过Resnet网络和LSTM网络处理后，生成待融合的图像特征向量，速度流和转向流分别依次通过LSTM网络和MLP网络处理后，生成待融合的车速特征向量和转向角特征向量；

对待融合的图像特征向量、车速特征向量和转向角特征向量进行处理，得到融合后的特征图；

融合后的特征图通过MLP模型，生成速度和转角的预测值。

本发明通过端到端的网络设计，充分挖掘图像、车速和转角特征间的关系，将来自三种模态的特征向量进行融合，使得转角和车速的预测更加准确、高效。

在一种可选的实施方式中，对待融合的图像特征向量、车速特征向量和转向角特征向量进行处理，得到融合后的特征图的步骤，包括：

对待融合的图像特征向量、车速特征向量和转向角特征向量进行拼接，得到拼接后的初始融合特征向量；

对拼接后的初始融合特征向量进行全局平均池化处理，得到拼接后初始融合特征向量的聚合特征；

拼接后初始融合特征向量的聚合特征通过一维卷积，捕获局部通道间的相互依赖性，得到对应通道的特征；

对对应通道的特征进行处理，得到相应的权重数据；

将权重数据与拼接后的初始融合特征向量进行处理，得到融合后的特征图。

本发明通过融合后的特征图，有效地利用了多模态提供的互补信息，从而提高了信息检测的准确性和稳健性。

在一种可选的实施方式中，融合后的特征图通过以下公式进行计算：

X＝Concat(f_image，f_speed，f_angle)

s＝σ(Conv1D(GAP(X)))

Y＝s⊙X

其中，f_image为图像特征向量，f_speed为车速特征向量，f_angle为转向角特征向量，Concat为拼接函数，X为拼接后的初始融合特征向量，Conv1D(·)为在通道域上具有形状为k的一维卷积核，GAP(X)为通道级全局平均池化函数，σ为Sigmoid函数，s为通道的权重，Y为融合后的特征图。

本发明通过上述公式，有效地利用了多模态提供的互补信息，从而提高了信息检测的准确性和稳健性。

在一种可选的实施方式中，一维卷积核k与信道维数C的映射关系通过以下公式表示：

C＝3^γ·k+b

其中，γ、b是超参数。

本发明通过上述的公式计算，通过一维卷积核k与信道维数C的映射关系，有效地利用了多模态提供的互补信息，从而提高了信息检测的准确性和稳健性。

在一种可选的实施方式中，MLP模型通过以下公式进行表示：

O＝HW_o+b_o

其中，H表示第一层的输出，表示激活函数，W_h为第一层权重向量，b_h为第一层偏置向量，O为第二层的输出，W_o为第二层权重向量，b_o为第二层偏置向量。

本发明通过MLP模型，在不同层之间传递信息和进行非线性变换来学习输入数据的复杂特征，分别得到第一层和第二层的预测结果，有效地利用了多模态提供的互补信息，从而提高了信息检测的准确性和稳健性。

第二方面，本发明提供了一种多模态数据融合的转向角速度预测装置，装置包括：

多模态数据采集模块，用于实时采集车辆的多模态数据，多模态数据包括：图像数据、转向角数据以及速度数据；

预处理模块，用于对车辆的多模态数据进行预处理；

预测模块，用于将预处理后的多模态数据输入至预先设计好的端到端网络，输出预测的转向角和车速。

在一种可选的实施方式中，预先设计好的端到端网络包括：

三流特征提取单元，用于提取预处理后多模态数据的图像流、速度流和转向流，图像流依次通过Resnet网络和LSTM网络处理后，生成待融合的图像特征图，速度流和转向流分别依次通过LSTM网络和MLP网络处理后，生成待融合的车速特征图和转向角特征图；

融合单元，用于对待融合的图像特征向量、车速特征向量和转向角特征向量进行处理，得到融合后的特征图；

预测单元，用于融合后的特征图通过MLP模型，生成速度和转角的预测值。

第三方面，本发明提供了一种计算机设备，包括：存储器和处理器，存储器和处理器之间互相通信连接，存储器中存储有计算机指令，处理器通过执行计算机指令，从而执行上述第一方面或其对应的任一实施方式的多模态数据融合的转向角速度预测方法。

第四方面，本发明提供了一种计算机可读存储介质，该计算机可读存储介质上存储有计算机指令，计算机指令用于使计算机执行上述第一方面或其对应的任一实施方式的多模态数据融合的转向角速度预测方法。

附图说明

为了更清楚地说明本发明具体实施方式或现有技术中的技术方案，下面将对具体实施方式或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施方式，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是根据本发明实施例的多模态数据融合的转向角速度预测方法的流程图；

图2是根据本发明实施例的端到端网络的示意图；

图3是根据本发明实施例的融合后特征图获取的示意图；

图4是根据本发明实施例的多模态数据融合的转向角速度预测装置的结构框图；

图5是本发明实施例的计算机设备的硬件结构示意图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

本发明实施例应用于车辆的能量管理，通过对多模态融合的转向角、速度进行联合预测，提高驾驶预测的准确性。

根据本发明实施例，提供了一种多模态数据融合的转向角速度预测方法实施例，需要说明的是，在附图的流程图示出的步骤可以在诸如一组计算机可执行指令的计算机系统中执行，并且，虽然在流程图中示出了逻辑顺序，但是在某些情况下，可以以不同于此处的顺序执行所示出或描述的步骤。

在本实施例中提供了一种多模态数据融合的转向角速度预测方法，可用于上述的计算机终端，图1是根据本发明实施例的多模态数据融合的转向角速度预测方法的流程图，如图1所示，该流程包括如下步骤：

步骤S101，实时采集车辆的多模态数据，多模态数据包括：图像数据、转向角数据以及速度数据。

在本发明实施例中实时采集车辆的图像数据、转向角数据以及速度数据，采集的方式可以选择在汽车挡风玻璃上安装摄像头捕捉到的图像中预测适当的转向角度。采集各种数据的方式在此不作限制，根据实际情况进行相应的选取，根据不同的数据选择将获取该数据的装置安装在不同的位置。

步骤S102，对车辆的多模态数据进行预处理。

在本发明实施例中，为了提高数据集的质量，通过对采集的数据进行预处理以确保数据集的质量和适用性。预处理的方式在此不作限制，根据实际情况进行相应的预处理操作。

步骤S103，将预处理后的多模态数据输入至预先设计好的端到端网络，输出预测的转向角和车速。

在本发明实施例中将预处理后的多模态数据输入至预先设计好的端到端网络，针对将具有时序信号的图像、转向角和车速数据进行数据融合并进行转向角和车速预测。

本实施例提供的多模态数据融合的转向角速度预测方法，通过预先设计好的端到端网络，有效地利用多模态提供的互补信息，从而提高了信息检测的准确性和稳健性。

在一些可选的实施方式中，端到端网络包括：

步骤a1，提取预处理后多模态数据的图像流、速度流和转向流，图像流依次通过Resnet网络和LSTM网络处理后，生成待融合的图像特征向量，速度流和转向流分别依次通过LSTM网络和MLP网络处理后，生成待融合的车速特征向量和转向角特征向量。

步骤a2，对待融合的图像特征向量、车速特征向量和转向角特征向量进行处理，得到融合后的特征图。

步骤a3，融合后的特征图通过MLP模型，生成速度和转角的预测值。

在本发明实施例中，如图2所示，图像流依次通过Resnet网络和LSTM1网络处理后，生成待融合的图像特征向量，速度流依次通过LSTM2网络和MLP1网络处理后，生成待融合的车速特征向量，转向流分别依次通过LSTM3网络和MLP2网络处理后，生成待融合的转向角特征向量。对待融合的图像特征向量、车速特征向量和转向角特征向量在LA-FFM中进行处理，得到融合后的特征图。融合后的特征图通过MLP3模型，生成速度和转角的预测值。

在一具体实施例中，图像流接收20张相机图像作为输入，这些图像经过ResNet构建块进行处理，此外，对主干分支应用了下采样的ResNet构建块，为了提取特征，引入了一个1x1卷积操作。随后，将其输入到LSTM门中，包括输入门、遗忘门、输出门和细胞状态，LSTM门在减少噪声干扰和提取有价值的特征信息方面起着关键作用。通过选择性地控制信息的流动，LSTM门有助于捕捉图像数据中的长期依赖性和相关模式。得到的图像特征流随后准备与速度信息进行融合。

对于速度流和转角流，采用了常用的LSTM和两个全连接层作为主要结构。输入数据被输入到包括输入门、遗忘门、输出门和细胞状态的LSTM门中。此过程有助于最小化速度和转向数据中的噪声干扰，并提取相关的特征信息。在经过LSTM层之后，输入数据通过两个全连接层。在第一个全连接层中，使用权重矩阵进行线性变换，并添加偏置以产生该层的输出。然后，通过激活函数对该输出进行非线性变换。随后，第一个全连接层的输出通过第二个全连接层中的权重矩阵和偏置进行另一次线性变换。第二个全连接层的输出随后传递到输出层进行相应的分类处理。权重矩阵和偏置根据损失函数使用反向传播算法进行更新，允许在训练过程中进行迭代优化。最后，速度和转向流的输出特征值与图像流进行融合。

本发明实施例通过端到端的网络设计，充分挖掘图像、车速和转角特征间的关系，将来自三种模态的特征向量进行融合，使得转角和车速的预测更加准确、高效。

在一些可选的实施方式中，如图3所示，上述步骤a2包括：

步骤b1，对待融合的图像特征向量、车速特征向量和转向角特征向量进行拼接，得到拼接后的初始融合特征向量。

步骤b2，对拼接后的初始融合特征向量进行全局平均池化处理，得到拼接后初始融合特征向量的聚合特征。

步骤b3，拼接后的初始融合特征向量的聚合特征通过一维卷积，捕获局部通道间的相互依赖性，得到对应通道的特征。

步骤b4，对对应通道的特征进行处理，得到相应的权重数据。

步骤b5，将权重数据与拼接后的初始融合特征向量进行处理，得到融合后的特征图。

在本发明实施例中，通过以下公式对待融合的图像特征向量、车速特征向量和转向角特征向量进行拼接：

X＝Concat(f_image，f_speed，f_angle)

其中，f_image为图像特征向量，f_speed为车速特征向量，f_angle为转向角特征向量，Concat为拼接函数，X为拼接后的初始融合特征向量。

对拼接后的初始融合特征向量进行全局平均池化(GAP)处理，得到拼接后初始融合特征向量的聚合特征。拼接后的初始融合特征向量的聚合特征通过一维卷积，捕获局部通道间的相互依赖性，得到对应通道的特征。

通过以下公式对对应通道的特征进行处理，得到相应的权重数据。

s＝σ(Conv1D(GAP(X)))

其中，Conv1D(·)为在通道域上具有形状为k的一维卷积核，GAP(X)为通道级全局平均池化函数，σ是Sigmoid函数，s为通道的权重。

一维卷积核k与信道维数C的映射关系通过以下公式表示：

C＝3^γ·k+b

其中，γ、b是超参数。其中，表示：/>的向上舍入最近奇数，例如，50除以2向上舍入最近奇数为25，51除以2向上舍入最近奇数为27，52除以2向上舍入最近奇数为27，60除以2向上舍入最近奇数为31。

将权重数据与拼接后的初始融合特征向量进行如下处理，得到融合后的特征图：

Y＝s⊙X

Y为融合后的特征图。

在本发明实施例中，将融合后的特征作为MLP模型的输入层，输入的每个融合特征与权重向量相乘，并通过一个激活函数进行非线性变换，将输入数据映射到下一层的神经元。输出层共包含两个神经元，分别表示速度和转角的预测值，得到最终的预测结果。

在一些可选的实施方式中，MLP模型通过以下公式进行表示：

O＝HW_o+b_o

其中，H表示第一层的输出，表示激活函数，XW_h为第一层权重向量，b_h为第一层偏置向量，O为第二层的输出，W_o为第二层权重向量，b_o为第二层偏置向量。

在本发明实施例中，第一层输出和第二层输出分别输出速度和转角的预测值

在本实施例中还提供了一种多模态数据融合的转向角速度预测装置，该装置用于实现上述实施例及优选实施方式，已经进行过说明的不再赘述。如以下所使用的，术语“模块”可以实现预定功能的软件和/或硬件的组合。尽管以下实施例所描述的装置较佳地以软件来实现，但是硬件，或者软件和硬件的组合的实现也是可能并被构想的。

本实施例提供一种多模态数据融合的转向角速度预测装置，如图4所示，包括：

预处理模块，用于对车辆的多模态数据进行预处理；

在一些可选的实施方式中，预测模块中预先设计好的端到端网络包括：

上述各个模块和单元的更进一步的功能描述与上述对应实施例相同，在此不再赘述。

本实施例中的多模态数据融合的转向角速度预测装置是以功能单元的形式来呈现，这里的单元是指ASIC(Application Specific Integrated Circuit，专用集成电路)电路，执行一个或多个软件或固定程序的处理器和存储器，和/或其他可以提供上述功能的器件。

本发明实施例还提供一种计算机设备，具有上述图4所示的多模态数据融合的转向角速度预测装置。

请参阅图5，图5是本发明可选实施例提供的一种计算机设备的结构示意图，如图5所示，该计算机设备包括：一个或多个处理器10、存储器20，以及用于连接各部件的接口，包括高速接口和低速接口。各个部件利用不同的总线互相通信连接，并且可以被安装在公共主板上或者根据需要以其它方式安装。处理器可以对在计算机设备内执行的指令进行处理，包括存储在存储器中或者存储器上以在外部输入/输出装置(诸如，耦合至接口的显示设备)上显示GUI的图形信息的指令。在一些可选的实施方式中，若需要，可以将多个处理器和/或多条总线与多个存储器和多个存储器一起使用。同样，可以连接多个计算机设备，各个设备提供部分必要的操作(例如，作为服务器阵列、一组刀片式服务器、或者多处理器系统)。图5中以一个处理器10为例。

处理器10可以是中央处理器，网络处理器或其组合。其中，处理器10还可以进一步包括硬件芯片。上述硬件芯片可以是专用集成电路，可编程逻辑器件或其组合。上述可编程逻辑器件可以是复杂可编程逻辑器件，现场可编程逻辑门阵列，通用阵列逻辑或其任意组合。

其中，所述存储器20存储有可由至少一个处理器10执行的指令，以使所述至少一个处理器10执行实现上述实施例示出的方法。

存储器20可以包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需要的应用程序；存储数据区可存储根据计算机设备的使用所创建的数据等。此外，存储器20可以包括高速随机存取存储器，还可以包括非瞬时存储器，例如至少一个磁盘存储器件、闪存器件、或其他非瞬时固态存储器件。在一些可选的实施方式中，存储器20可选包括相对于处理器10远程设置的存储器，这些远程存储器可以通过网络连接至该计算机设备。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。

存储器20可以包括易失性存储器，例如，随机存取存储器；存储器也可以包括非易失性存储器，例如，快闪存储器，硬盘或固态硬盘；存储器20还可以包括上述种类的存储器的组合。

该计算机设备还包括通信接口30，用于该计算机设备与其他设备或通信网络通信。

本发明实施例还提供了一种计算机可读存储介质，上述根据本发明实施例的方法可在硬件、固件中实现，或者被实现为可记录在存储介质，或者被实现通过网络下载的原始存储在远程存储介质或非暂时机器可读存储介质中并将被存储在本地存储介质中的计算机代码，从而在此描述的方法可被存储在使用通用计算机、专用处理器或者可编程或专用硬件的存储介质上的这样的软件处理。其中，存储介质可为磁碟、光盘、只读存储记忆体、随机存储记忆体、快闪存储器、硬盘或固态硬盘等；进一步地，存储介质还可以包括上述种类的存储器的组合。可以理解，计算机、处理器、微处理器控制器或可编程硬件包括可存储或接收软件或计算机代码的存储组件，当软件或计算机代码被计算机、处理器或硬件访问且执行时，实现上述实施例示出的方法。

虽然结合附图描述了本发明的实施例，但是本领域技术人员可以在不脱离本发明的精神和范围的情况下做出各种修改和变型，这样的修改和变型均落入由所附权利要求所限定的范围之内。

Claims

1.一种多模态数据融合的转向角速度预测方法，其特征在于，所述方法包括：

实时采集车辆的多模态数据，所述多模态数据包括：图像数据、转向角数据以及速度数据；

对车辆的多模态数据进行预处理；

2.根据权利要求1所述的方法，其特征在于，所述端到端网络包括：

融合后的特征图通过MLP模型，生成速度和转角的预测值。

3.根据权利要求2所述的方法，其特征在于，所述对待融合的图像特征向量、车速特征向量和转向角特征向量进行处理，得到融合后的特征图的步骤，包括：

对对应通道的特征进行处理，得到相应的权重数据；

4.根据权利要求3所述的方法，其特征在于，融合后的特征图通过以下公式进行计算：

X＝Concat(f_image，f_speed，f_angle)

s＝σ(Conv1D(GAP(X)))

Y＝s⊙X

其中，f_image为图像特征向量，f_speed为车速特征向量，f_angle为转向角特征向量，Concat为拼接函数，X为拼接后的初始融合特征向量，Conv1D(·)为在通道域上具有形状为k的一维卷积核，GAP(X)为通道级全局平均池化函数，σ是Sigmoid函数，s为通道的权重，Y为融合后的特征图。

5.根据权利要求4所述的方法，其特征在于，一维卷积核k与信道维数C的映射关系通过以下公式表示：

C＝3^γ·k+b

其中，γ、b是超参数。

6.根据权利要求5所述的方法，其特征在于，MLP模型通过以下公式进行表示：

O＝HW_o+b_o

7.一种多模态数据融合的转向角速度预测装置，其特征在于，所述装置包括：

多模态数据采集模块，用于实时采集车辆的多模态数据，所述多模态数据包括：图像数据、转向角数据以及速度数据；

预处理模块，用于对车辆的多模态数据进行预处理；

8.根据权利要求7所述的装置，其特征在于，预先设计好的端到端网络包括：

9.一种计算机设备，其特征在于，包括：

存储器和处理器，所述存储器和所述处理器之间互相通信连接，所述存储器中存储有计算机指令，所述处理器通过执行所述计算机指令，从而执行权利要求1至6中任一项所述的多模态数据融合的转向角速度预测方法。

10.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质上存储有计算机指令，所述计算机指令用于使计算机执行权利要求1至6中任一项所述的多模态数据融合的转向角速度预测方法。