CN116583805A

CN116583805A - 基于机器学习的车辆控制系统和方法

Info

Publication number: CN116583805A
Application number: CN202180080326.8A
Authority: CN
Inventors: A·安科拉; S·奥伯特; V·雷扎德; P·温格特纳
Original assignee: Renault SAS
Current assignee: Renault SAS
Priority date: 2020-12-04
Filing date: 2021-12-03
Publication date: 2023-08-11
Also published as: KR20230116907A; FR3117223A1; FR3117223B1; EP4256412A1; US20240028903A1; JP2023551126A; WO2022117875A1

Abstract

本发明涉及一种在车辆(1)中实施的控制设备(10)，该车辆包括使用一组传感器(200)的感知系统(2)，每个传感器提供数据，该感知系统包括用于估计变量的设备(100)，该变量包括与在该车辆的环境中检测到的一个或多个对象有关的至少一个特征，该估计设备包括使用神经网络(50)估计该变量的在线学习模块(5)，该神经网络与一组权重相关联。该学习模块(5)包括：‑前向传播模块(51)，该前向传播模块被配置为传播应用在该神经网络的输入处的来自一个或多个传感器(200)的数据，以便提供包括该变量的估计的预测输出；‑融合系统(3)，该融合系统被配置为通过基于这些预测值中的至少一些预测值实施至少一种传感器融合算法来确定融合输出，‑反向传播模块(32)，该反向传播模块被配置为通过执行梯度下降反向传播、通过确定表示在该融合输出的经改善的预测值与该预测输出之间的误差的损失函数来在线更新与该神经网络(50)相关联的权重。

Description

基于机器学习的车辆控制系统和方法

技术领域

本发明总体上涉及控制系统，更具体地涉及车辆控制系统和方法。

背景技术

自动或半自动车辆通常具有嵌入式控制系统，比如用于控制车辆驾驶和安全的驾驶辅助系统，例如用来调节车辆之间距离的ACC(“自适应巡航控制”)距离调节系统。

这样的驾驶辅助系统通常使用包括一组传感器(例如，相机、激光雷达或雷达)的感知系统，该组传感器布置在车辆上，以检测被控制设备用来控制车辆的环境信息。

该感知系统包括与传感器相关联的一组感知模块，以使用传感器提供的信息来检测对象和/或预测对象在车辆环境中的位置。

每个传感器提供与每个所检测对象相关联的信息。然后，该信息在感知模块的输出处被传递到融合系统。

传感器融合系统处理由感知模块传递的对象信息，以便确定所检测对象的改善和合并视图。

在现有的解决方案中，学习系统被感知系统(比如SSD、YOLO、SqueezeDet系统)用来预测对象的位置。这样的预测使用在先前时间窗口中确定或测得的数据的历史通过实施离线学习阶段来进行。在学习是“离线”的情况下，由感知系统和融合模块实时收集到的数据不会被用于学习，学习在驾驶辅助设备不工作的阶段中执行。

为了进行该离线学习阶段，传统上会使用学习图像数据库和包括真实数据信息的一组表。实施机器学习算法，以便根据图像数据库来初始化神经网络的权重。在现有的解决方案中，初始化权重的这个阶段是“离线”实施的，也就是说在车辆控制系统的使用阶段之外实施的。

然后，以这种方式固定了权重的神经网络可以用于所谓的泛化阶段，该泛化阶段在线实施，以估计车辆环境中的对象的特征，例如检测车辆环境中的对象或预测在驾驶辅助系统的在线运行期间检测到的对象的轨迹。

因此，在现有的解决方案中，离线执行使得能够设置神经网络的权重的学习阶段，然后再基于这些固定权重在线(也就是说在车辆控制系统的运行期间)执行对象特征的估计。

然而，这样的学习使得不能考虑在车辆的运行期间实时收集到的新图像，并且限于存储在静态数据库中的学习数据。在所检测对象根据定义不是先验已知的情况下，无法实时更新模型的参数(神经网络的权重)。因此，所做的新预测是在未更新模型参数(神经网络的权重)的情况下进行的，因而可能是不可靠的。

在驾驶辅助的背景下，已提出了各种学习解决方案。

例如，US 10 254 759 B1提出了一种使用离线增强学习技术的方法和系统。这样的学习技术被用来训练虚拟交互式代理。它们基于提取观测信息以在模拟系统中进行学习，这不适用于车辆中的驾驶辅助系统。特别地，这种方法无法提供使得能够基于融合系统提供的数据来连续改善预测的在线嵌入式解决方案。此外，该方法不适用于在车辆中进行对象轨迹预测或对象检测。

US 2018/0124423 A1描述了一种用于基于过去的轨迹来确定场景中的代理的预测样本的轨迹预测方法和系统。将预测样本与基于概率评分的得分相关联，该概率评分结合了代理与语义场景上下文之间的交互。使用回归函数迭代地细化预测样本，该回归函数跨迭代累积场景上下文与代理的交互。然而，这种方法也不适用于在车辆中进行轨迹预测和对象检测。

US 2019/0184561 A1已提出了一种基于神经网络的解决方案。该解决方案使用了编码器和解码器。然而，该解决方案使用的输入高度特定于激光雷达数据和离线学习。此外，这种解决方案涉及决策或规划辅助技术，并且也不适用于在车辆中进行轨迹预测或对象检测。

因此，现有的解决方案不能基于机器学习改进对车辆环境中检测到的对象的特征的估计。

因此，需要一种基于机器学习的车辆控制设备和方法，其能够提供对与在车辆环境中检测到的对象有关的特征的改进估计。

发明内容

本发明旨在通过提出一种在车辆中实施的控制设备来改善这一情况，该车辆包括使用一组传感器的感知系统，每个传感器提供数据，该感知系统包括用于估计变量的估计设备，该变量包括与在该车辆的环境中检测到的一个或多个对象有关的至少一个特征，该估计设备包括使用神经网络来估计该变量的在线学习模块，该神经网络与一组权重相关联。有利地，该学习模块可以包括：

-前向传播模块，该前向传播模块被配置为传播应用在该神经网络的输入处的来自一个或多个传感器的数据，以便提供包括该变量的估计的预测输出；

-融合系统，该融合系统被配置为通过基于这些预测值中的至少一些预测值实施至少一种传感器融合算法来确定融合输出，

-反向传播模块，该反向传播模块被配置为通过执行梯度下降反向传播、并通过确定表示在该融合输出的经改善的预测值与该预测输出之间的误差的损失函数来在线更新与该神经网络相关联的权重。

在一个实施例中，变量可以是状态向量，该状态向量包括与该感知系统所检测到的对象的位置和/或移动有关的信息。

有利地，该状态向量可以还包括与一个或多个所检测对象有关的信息。

该状态向量可以还包括目标对象的轨迹参数。

在一个实施例中，经改善的预测值可以通过应用卡尔曼滤波器来确定。

在一个实施例中，该设备可以包括回放缓冲区，该回放缓冲区被配置为存储由该估计设备预测的输出和/或由该融合系统传递的融合输出。

在一些实施例中，该设备可以包括：递归神经网络编码器，该递归神经网络编码器被配置为在将这些数据存储在该回放缓冲区中之前对这些数据进行编码和压缩；以及解码器，该解码器被配置为对从该回放缓冲区中提取的数据进行解码和解压缩。

特别地，该编码器可以是递归神经网络编码器，并且该解码器可以是对应的递归神经网络解码器。

在一些实施例中，回放缓冲区可以经过优先级排序。

该设备可以实施对应用在神经网络的输入处的输入数据进行测试的条件，如果针对该输入样本所预测的值与该融合输出之间的损失函数可以低于预定义阈值，则从该回放缓冲区中删除输入数据。

还提出了一种在车辆中实施的控制方法，该车辆包括使用一组传感器的感知系统，每个传感器提供数据，该控制方法包括估计变量，该变量包括与在该车辆的环境中检测到的一个或多个对象有关的至少一个特征，该估计使用神经网络实施在线学习步骤来估计该变量，该神经网络与一组权重相关联。有利地，该在线学习步骤可以包括以下步骤：

-传播应用在该神经网络的输入处的来自一个或多个传感器的数据，从而提供包括该变量的估计的预测输出；

-通过基于这些预测值中的至少一些预测值实施至少一种传感器融合算法来确定融合输出，

-通过执行梯度下降反向传播、通过确定表示在该融合输出的经改善的预测值与该预测输出之间的误差的损失函数来在线更新与该神经网络相关联的权重。

附图说明

本发明的其他特征、细节和优点在通过阅读参考附图给出的描述时将变得显而易见，这些附图分别通过示例给出，并且在附图中：

图1是示出了根据本发明的一些实施例的使用机器学习来估计所检测对象的特征的驾驶辅助系统的图；

图2是示出了根据本发明的一些实施例的估计设备的图；

图3是示出了根据一个示例性实施例的驾驶辅助系统10的简化图；

图4是示出了根据一些实施例的神经网络在线学习方法的流程图；

图5是示出了在本发明的一个轨迹预测应用中的根据一个示例性实施例的学习方法的流程图；

图6示出了控制系统的一个示例性实施方式，其中，感知系统将单个智能相机传感器用于对象轨迹预测应用；以及

图7示出了使用神经网络所预测的数据进行编码/解码的控制系统的另一示例性实施例。

具体实施方式

图1示出了嵌入移动装置1(比如车辆)中的控制系统10。其余的描述将通过非限制性示例、参考作为车辆的移动装置给出。

控制系统10(以下也被称为“驾驶辅助系统”)被配置为辅助驾驶员执行复杂的驾驶操作或操纵，检测和避免危险情况和/或限制这种情况对车辆1的影响。

控制系统10包括嵌入车辆中的感知系统2和融合系统3。

控制系统10可以还包括规划和决策辅助单元以及一个或多个控制器(未示出)。

感知系统2包括布置在车辆1中用于测量与车辆和/或车辆环境有关的变量的一个或多个传感器20。控制系统10使用由车辆1的感知系统2提供的信息来控制车辆1的操作。

驾驶辅助系统10包括估计设备100，该估计设备被配置为通过使用由车辆1的感知系统2提供的信息并通过使用神经网络50实施在线机器学习ML算法来估计与一个或多个对象特征有关的变量，该一个或多个对象特征表示在车辆1的环境中检测到的一个或多个对象的特征。

初始地，实施学习以从学习数据库12学习神经网络的权重，该学习数据库存储针对与传感器所捕获的数据相对应的变量观测的过去观测(真实数据)值。

有利地，还在车辆操作期间实施在线学习，以便通过使用基于感知系统2所预测的输出确定的由融合系统3传递的输出、并确定在从来自融合系统3的输出得到的经改善的预测值与由感知系统2传递的预测输出之间的误差来更新神经网络的权重。

神经网络50的权重形成由神经网络所表示的神经模型或感知模型的参数。

学习数据库12可以包括对象(例如，汽车)和道路的图像、以及与每个图像相关联的对应于真实数据的与对象特征有关的变量的期望值。

估计设备100被配置为在所谓的泛化阶段中，通过使用具有在线更新的最新模型参数(权重)的神经网络来估计(或预测)由传感器200捕获的图像的对象特征变量。有利地，该预测变量本身被用来基于在感知系统2所预测的变量与由融合系统3融合后获得的变量值之间的误差来更新神经网络50的权重。

在驾驶辅助系统10运行期间在线进行的这种学习使得能够不是使用根据现有技术的方法预先“离线”确定的固定权重，而是动态或准动态地更新由神经网络50的权重表示的模型参数。

在一些实施例中，在对象检测应用中，由估计设备100估计的变量可以包括与在车辆(比如另一车辆)的环境中检测到的对象有关的位置信息，或者在目标对象轨迹预测应用中，该变量可以包括目标对象轨迹数据。

控制系统10可以被配置为实施一个或多个控制应用程序14，比如能够调节车辆之间的距离的巡航控制应用程序ACC，该一个或多个控制应用程序被配置为基于由融合系统3传递的信息实施与控制车辆的驾驶或安全有关的控制方法。

感知系统2的传感器200可以包括各种类型的传感器，比如但不限于一个或多个激光雷达(激光检测和测距)传感器、一个或多个雷达、一个或多个相机(可以是在可见光下操作的相机和/或在红外线下操作的相机)、一个或多个超声波传感器、一个或多个方向盘角度传感器、一个或多个车轮速度传感器、一个或多个制动压力传感器、一个或多个横摆角速率和横向加速度传感器等。

能够被估计设备100检测到的车辆1的环境中的对象包括移动对象，比如在车辆环境中行进的车辆。

在感知系统2使用传感器(例如，激光雷达和/或雷达)来检测车辆1的环境中的对象的实施例中，由估计设备估计的对象特征变量可以是例如状态向量，该状态向量包括由雷达检测到的每个对象的一组对象参数，比如：

-所检测对象的类型；

-与所检测对象相关联的位置；以及

-由协方差矩阵表示的不确定度度量。

融合系统3被配置为将一种或多种处理算法(融合算法)应用于由感知系统2基于来自各种传感器200的信息所预测的变量，并针对每个所检测对象提供与经合并的预测变量相对应的融合输出，该合并预测变量根据基于来自各种传感器的信息针对该对象所预测的变量来确定。例如，对于所检测对象的由估计设备100基于传感器信息200所预测的位置信息，融合系统3会提供与所检测对象的改善视图相对应的更精确的位置信息。

感知系统2可以与感知参数相关联，这些感知参数可以通过基于嵌入式传感器200校准感知系统2的性能而被离线定义。

有利地，控制系统10可以被配置为：

-使用来自融合单元3的相对于当前时间的过去和/或未来的输出数据(融合数据)；

-处理这样的过去和/或未来的融合数据，以确定对当前时间的来自融合单元3的输出的更精确估计(从而从融合系统提供经改善的输出)；

-使用来自融合系统3的这种经改善的输出作为存储在学习数据库12中的真实数据的替代，以执行感知模型的监督式“在线”学习，并改进对象特征变量的估计(用于例如检测车辆环境中的对象和/或预测目标对象的轨迹)。

这样，在线学习可以基于来自估计设备100的延迟输出。

因此，本发明的实施例有利地使用来自融合系统3的输出来在线更新神经网络的权重。

特别地，估计设备100可以包括基于神经网络50的ML学习单元5，该学习单元实施：

-用于根据图像数据库12训练神经网络50的初始学习(或训练)阶段，

-用于基于当前权重来估计(或预测)所检测对象的特征变量(例如，所检测对象的位置或对象轨迹预测)的泛化阶段，

-用于基于来自融合系统的输出(其基于阶段B中的预测变量来确定)来更新神经网络50的权重的在线学习，以这种方式更新的权重被用于泛化阶段中新的估计。

ML(机器学习)学习算法使得能够在泛化阶段中例如从一个或多个传感器获取输入图像并返回估计变量(由感知系统2预测的输出)，该估计变量包括所检测到对象(例如，汽车)的数量和所检测到对象的位置。对该估计变量(由感知系统2预测的输出)的估计由融合系统3来改善，该融合系统提供与经合并的预测变量相对应的融合输出。

神经网络是模拟生物神经网络的运行的计算模型。神经网络包括通过突触互连的神经元，这些突触通常以数字存储器(例如，电阻部件)的形式实施。神经网络50可以包括多个连续层，该多个连续层包括承载输入信号的输入层和承载由神经网络所做的预测的结果的输出层、以及一个或多个中间层。神经网络的每一层都从前一层的输出中获取其输入。

在神经网络50的这些层的输入和输出处传播的信号可以是数字值(以信号值进行编码的信息)，或在脉冲编码的情况下是电脉冲。

神经网络50的神经元之间的每个连接(也被称为“突触”)都具有权重θ(神经模型的参数)。

神经网络50的训练(学习)阶段包括确定神经网络的用于泛化阶段的权重。

ML(机器学习)算法在学习阶段被应用，以优化这些权重。

通过利用大量数据(包括来自融合系统3的输出)在线训练由神经网络表示的模型，神经网络50能够更精确地学习一个权重相对于另一个权重的显著性。

在初始学习阶段(可以离线进行)，神经网络50首先随机初始化权重，并使用梯度下降算法通过检查使用损失函数来计算的在利用从训练库提取的输入样本而从神经网络50中获得的输出(预测输出)与来自神经网络的目标输出(期望输出)之间的误差是否减小来调整权重。可以对该阶段实施多次迭代，其中，在每次迭代中更新权重，直到误差达到特定值为止。

在在线学习阶段，神经网络50基于在以下项之间的误差来调整权重：

-响应于传感器200所提供的图像而获得的由神经网络50传递的输出(预测输出)，以及

-从基于估计设备所预测的这种输出的经合并的融合输出得到的值(经改善的预测输出)。

使用梯度下降算法，由损失函数L表示在感知系统的预测与融合输出之间的误差。可以对该阶段实施多次迭代，其中，在每次迭代中更新权重，直到误差达到特定值为止。

学习单元5可以包括前向传播模块51，该前向传播模块被配置为在在线学习阶段的每次迭代中将输入(样本)应用于神经网络50，该神经网络将响应于该输入产生被称为预测输出的输出。

学习单元5可以还包括反向传播模块52，该反向传播模块用于反向传播误差，以便通过应用梯度下降反向传播算法来确定神经网络的权重。

ML学习单元5有利地被配置为反向传播在从融合输出得到的经改善的预测输出与由感知系统2传递的预测输出之间的误差，并“在线”更新神经网络的权重。

因此，学习单元5使得能够针对预测来动态或准动态地“在线”(实时或非实时)训练神经网络50，从而获得更可靠的预测。

在估计设备100被配置为确定由感知系统2(例如，雷达)检测到的对象的特征的实施例中，估计设备100可以提供例如表示包括一组预测位置信息(感知输出)的对象状态向量的预测输出。感知系统2可以向融合系统3传输由估计设备100确定的与各种所检测对象相对应的对象状态向量(感知对象状态向量)。融合系统3可以应用融合算法针对每个所检测对象确定经合并的对象状态向量(融合输出)，该经合并的对象状态向量比基于感知系统2针对所检测对象而确定的状态向量的感知输出更精确。有利地，由融合系统3针对各种对象所确定的经合并的对象状态向量(以下也称为“经改善的对象状态向量”)可以由在线学习单元5的反向传播模块52用来基于在以下项之间的误差更新权重：

-从来自融合系统3的输出得到的经改善的预测输出(经改善的对象状态向量)，以及

-来自感知系统2的输出(感知对象状态向量)。

驾驶辅助系统10可以包括误差计算单元4，该误差计算单元用于计算在从融合系统3得到的经改善的预测输出(经改善的对象状态向量)与来自感知系统2的输出(感知对象状态向量)之间的误差。

这样计算出的误差由损失函数表示。然后，该损失函数被用来更新感知模型的参数。感知模型(也被称为“神经模型”)的参数对应于神经网络50的权重θ，这些权重会被由估计设备100使用。

反向传播算法可以有利地是基于损失函数的梯度(损失函数的梯度将在下文中表示为)的随机梯度下降算法。

反向传播模块52可以被配置为通过实施梯度下降反向传播算法来计算损失函数对于机器学习模型的参数(神经网络的权重)的偏导数(由误差计算单元4确定的误差度量)。

因此，神经网络的权重可以在融合系统3的输出处提供每次更新时、并且因此在误差计算单元4所计算的误差度量每次更新时更新(调整)。

融合系统3与感知系统2之间的这种接合有利地使得能够实施“在线”反向传播。

当车辆1配备有V2X通信装置(例如，自动驾驶车辆)时，可以使用例如V2X通信来本地或远程地更新权重。

以这种方式更新的权重对应于对用于对象检测或对象轨迹预测的权重的轻微修改，以生成用于在线学习的误差度量。然后，这些权重可以用于由传感器执行的新对象检测或轨迹预测，这又提供了与所检测对象有关的新信息，这些新信息将在反馈循环中迭代地用于再次在线更新权重。

感知模型或预测模型的权重的这种迭代在线更新使得能够增量且持续地改进感知模型或预测模型。

因此，对象状态向量的估计可以用于经由误差反向传播而确定适用于在线学习的误差度量。

因此，本发明的实施例允许更精确地预测所检测对象的特征(例如，对象检测和/或对象轨迹预测)，这可以并行使用，即使预测被延迟也如此。

图2是示出了根据一些实施例的估计设备100的图。

在这种实施例中，估计设备100可以包括编码器1001，该编码器被配置为对融合系统3和/或感知系统2返回的对象信息进行编码和压缩，以供学习单元5使用。在一个实施例中，编码器1001可以是用于递归神经网络(RNN)、例如LSTM(“长短期记忆”的缩写)RNN的编码器。这种实施例特别适用于对象信息需要较大存储器的情况，比如用于对象轨迹预测的对象轨迹信息的情况。其余的描述将通过非限制性示例主要参考RNN编码器1001给出。

估计设备100可以还包括经验回放缓冲区1002，该经验回放缓冲区被配置为存储经压缩的对象数据(例如，对象轨迹数据)。

在一个实施例中，估计设备100可以包括变换单元1003，该变换单元被配置为通过对回放缓冲区1002的数据进行滤波或延迟采样来将非“独立同分布”数据变换为“独立同分布”(“iid”)数据。

实际上，在一些实施例中，当估计设备100所实施的估计方法是例如基于轨迹预测算法时，由估计设备使用的数据优选地为独立同分布(“iid”)数据。

实际上，强相关的样本可能会歪曲数据独立同分布(iid)假设，该假设对于梯度下降算法执行的梯度估计来说是需要满足的。

回放缓冲区1002可以用于通过擦除先前存储在缓冲区1002中的数据来在数据到达时按顺序收集数据，从而使得能够增强学习。

为了在在线学习期间更新权重，可以从回放缓冲区1002中随机采样一批数据，并用来更新神经模型的权重。一些样本对权重参数更新的影响可能比其他样本更大。例如，损失函数的梯度越大可能会导致权重θ的更新越大。在一个实施例中，还可以对缓冲区1002中的存储进行优先级排序，和/或可以实施经过优先级排序的缓冲区回放。

在这种实施例中，估计设备100因此使得能够执行在线和增量机器学习，以便使用经压缩和编码并然后存储在缓冲区1002中的对象数据(例如，轨迹数据)来训练神经网络。

解码器1004可以用于对从回放缓冲区1002中提取的数据进行解码。解码器1004被配置为执行与编码器1001所实施的操作相反的操作。因此，在使用RNN编码器1001的实施例中，也会使用RNN解码器1004。

本发明的实施例有利地在来自融合系统3的输出与感知系统2之间提供了反馈循环。

因此，本发明的实施例使得能够合并由多个传感器200检测到的与每个对象相关联的信息，使得与由与单独的传感器200相关联的每个感知单元20提供的信息相比，融合系统3的输出处的信息的精确性得到提高。计算在来自感知系统2的输出与来自融合系统3的输出之间的误差，并用来指导感知模型的权重(神经网络50的权重)的“在线”学习和更新。然后将误差反向传播到神经网络模型50，并计算误差函数(也被称为“代价函数”)对于神经网络模型的每个参数(也就是说权重)的偏导数。

图3是示出了根据一个示例性实施例的驾驶辅助系统10的操作的简化图。

在图3的示例中，通过非限制性示例考虑有两个传感器200的流水线。还假设将基于卷积神经网络CNN的模型用于由相机传感器200和激光雷达传感器200执行的对象检测。然而，应当注意的是，本发明可以更一般地应用于能够在流水线中执行在线学习的任何神经网络模型，在该流水线中，感知系统2之后跟着融合系统3。

更一般地，考虑有M个传感器的流水线，假设M个传感器中的每个传感器200-i检测P个对象，则由估计设备100针对每个传感器和传感器200-i检测到的每个第k对象所估计的变量可以由状态向量表示，该状态向量包括：

-对象Obj_k在笛卡尔坐标系中的位置(x_ki,y_ki)，该笛卡尔坐标系具有选定的横坐标轴x和纵坐标轴y；

-与物体Obj_k相关联的协方差矩阵Cov_ki，该协方差矩阵捕获由传感器200-i进行的预测的不确定度度量。

在图3的示例中，考虑了例如两个传感器200-1和200-2，第一传感器200-1是相机，而第二传感器200-2是激光雷达，每个传感器检测两个相同的对象Obj₁和Obj₂。

然后，基于由第一相机(“C”)传感器200-1捕获的数据来预测的变量可以包括：

–针对对象Obj₁的如下状态向量：{x_1C,y_1C,Cov_1C}，其包括第一对象Obj₁的位置数据x_1C、y_1C和协方差矩阵Cov_1C；

–针对对象Obj₂的如下状态向量：{x_2L,y_2L,Cov_2L}，其包括第二对象Obj₂的位置数据x_2L、y_2L和协方差矩阵Cov_2L。

基于由第二激光雷达(“L”)传感器200-2捕获的数据来预测的变量可以包括：

–针对对象Obj1的如下状态向量：{x_1S,y_1S,Cov_1S}，其包括第一对象Obj₁的位置数据x_1S、y_1S和与第一对象和传感器200-1相关联的协方差矩阵Cov_1S；

–针对对象Obj2的如下状态向量：{x_2L,y_2L,Cov_2L}，其包括第二对象Obj₂的位置数据x_2L、y_2L和与第二对象和传感器200-2相关联的协方差矩阵Cov_2L。

然后，由感知系统提供的与所检测对象有关的信息可以由融合系统3合并(通过融合所述信息)，该融合系统基于经合并的传感器信息来确定经合并的预测变量(融合输出)，该经合并的预测变量包括针对每个所检测对象Obj_k的状态向量(x_kS,y_kS,CovkS)，该状态向量包括第一对象Obj₁的经合并的位置数据(x_kS,y_kS)和与第一对象相关联的经合并的协方差矩阵Cov_kS。

坐标(x_kS,y_kS)基于针对每个对象k和每个传感器200-i提供的信息(xik,yik)来确定。协方差矩阵Cov_kS基于针对每个对象k和每个传感器i提供的信息Cov_ki来确定。

在考虑了包括相机传感器和激光雷达传感器两个传感器的示例中，这两个传感器检测两个对象，由融合单元2合并的与所检测对象有关的信息包括：

–针对对象Obj₁的如下状态向量：{x_1S,y_1S,Cov_1S}，其包括针对第一对象Obj₁的基于信息x_1C、y_1C、x_1L、y_1L的经合并的位置数据和基于Cov_1C和Cov_1L的与第一对象相关联的经合并的协方差矩阵；

–针对对象Obj₂的如下状态向量：{x_2S,y_2S,Cov_2S}，其包括针对第二对象Obj₂的基于信息x_2C、y_2C、x_2L、y_2L的经合并的位置数据和基于Cov_2C和Cov_2L的与第二对象相关联的经合并的协方差矩阵。

融合单元2针对每个第k对象提供的定位信息x_kS、y_kS具有相关联的不确定度，其小于或等于由传感器200-i单独提供的与该定位信息相关联的不确定度。因此，来自感知系统2的输出与来自融合单元3的输出之间存在可测量误差。

随机梯度下降反向传播算法使用由损失函数表示的在来自感知系统2的输出与来自融合单元3的输出之间的误差来更新神经网络50的权重。

因此，在来自融合系统3的输出与感知系统2的输入之间的反馈循环使得能够使用误差度量来在线更新估计设备100所使用的由神经网络50表示的模型的权重。因此，误差度量被用作用于在线学习的学习模块5的输入，而来自在线学习的输出被用来更新由神经网络50表示的感知模型。因此，与“离线”执行权重的学习和更新的现有技术驾驶辅助系统相比，估计设备(检测或预测)的精确度会持续提高。

图4是示出了根据一些实施例的神经网络在线学习方法的流程图。

基于ML学习的学习方法使用一个或多个神经网络50，该一个或多个神经网络由一组参数θ(神经网络的权重)和以下项参数化：

-由神经网络响应于输入数据而预测的值这些输入数据也被称为“输入样本”，表示为x＝image_k。输出或预测值/>被定义为：/>

-代价函数，该代价函数也被称为损失函数定义了在以下项之间的误差：

·融合系统3的输出y_融合得到的经改善的预测值y_k，该融合输出基于感知系统2传递的预测输出从来计算，以及

·由神经网络响应于表示由一个或多个传感器200捕获的图像的输入数据而预测的值

(实时或非实时、延迟或非延迟的)融合系统3实际上提供了对象数据的更精确估计y_融合，该估计在应用了由融合系统3实施的一种或多种融合算法后获得。

在一些实施例中，从融合输出y_融合得到的经改善的预测值y_k(也表示为)可以通过执行由变换单元1003进行的处理操作(通过应用例如卡尔曼滤波器)来获得。在一个实施例中，经改善的预测值y_k可以是融合输出y_融合本身。

该学习方法还使用：

-损失函数的近似；

-通过网络参数的梯度下降来进行的权重θ更新，使得：

其中，/>表示损失函数的梯度。

更准确地说，在步骤400中，由感知系统2的传感器200捕获与一个或多个所检测对象相对应的图像x，并将其应用于神经网络50。

在步骤402中，根据下式，使用权重θ的当前值来确定神经网络50对输入x的响应(该响应表示神经网络50所预测的输出)：

响应于该输入x而预测的输出对应于由估计设备100估计的与在车辆环境中检测到的对象的特征有关的变量。例如，在对象检测的应用中——其中，由估计设备100估计的变量是包括所检测对象的位置数据和相关联的协方差矩阵的对象状态向量，针对传感器200所捕获的图像x的预测输出/>表示由神经网络基于检测到的图像x所预测的状态向量。

在步骤403中，可以将包括输入x和所获得的预测输出的一对值存储在存储器中。

对于与各种传感器200所进行的捕获相对应的图像x，反复迭代步骤402和步骤403。

在步骤404中，当检测到向融合系统3发送的条件(例如，给定时间或预定义时间到期)时，由感知系统2计算与各种预测值相对应的融合输出y_融合，从而提供对与所检测对象的特征有关的变量(例如，目标对象的位置数据或轨迹数据)的改进估计。该融合输出y_融合通过将至少一个融合算法应用于与各种传感器200相对应的各种预测值/>来确定。

在一个实施例中，可以将与在预定义时间段(例如，5秒)期间累积的观测结果相对应的样本存储在经验回放缓冲区1002中，该经验回放缓冲区可以进行也可以不进行优先级排序。在一个实施例中，可以在将样本存储到回放缓冲区1002中之前由编码器1001(例如，RNN编码器)预先对其进行压缩和编码。

在步骤406中，计算在从来自融合系统的融合输出_k中得到的经改善的预测输出与来自感知系统2的输出之间的误差。

经改善的预测输出y_k可以是通过应用处理操作(例如，由变换单元1003实施的卡尔曼滤波)从来自融合系统的输出中得到的输出(表示为)。在一个实施例中，融合输出可以直接被用作经改善的预测输出。该误差由损失函数/>表示。误差函数可以基于存储在缓冲区1002中的由解码器1004进行了可能的解码之后的数据和经改善的预测输出y_k来确定。

在步骤408中，通过应用随机梯度下降反向传播算法来更新神经网络的权重，以便确定损失函数的梯度。

权重可以通过用值替换每个权重θ来更新：

步骤404和步骤408可以重复进行，直到检测到收敛条件为止。

因此，驾驶辅助系统10使得能够使用由持续在线更新的一组权重θ参数化的神经网络来实施在线增量学习。

在一个实施例中，神经网络50所预测的输出y_k可以是神经网络50对输入值的响应，该输入值与来自融合系统3的先前输出相对应。在这种实施例中，经改善的预测输出是基于来自融合系统(3)的经过处理(例如，通过卡尔曼滤波)的输出而计算出的输出。在这种实施例中，误差函数是在从来自融合系统的输出中得到的经改善的预测输出与来自融合系统的输出之间确定的。

在一个实施例中，神经网络50所预测的输出y_k可以是神经网络50对输入值的响应，该输入值与传感器200所进行的实时捕获相对应。在这种实施例中，经改善的预测输出可以是基于来自融合系统(3)的经过处理(例如，通过卡尔曼滤波)的输出而计算出的输出，或是融合输出本身。在这种实施例中，误差函数是在从来自融合系统的输出中得到的经改善的预测输出与来自感知系统的输出之间确定的。

本领域技术人员将容易理解，本发明不限于由估计设备100估计的包括对象位置x、y和协方差矩阵的状态向量类型的变量。

例如，在本发明的一个对象检测应用中，神经网络50可以是例如YOLO神经网络(卷积神经网络在执行检测之前仅加载图像一次)。

在这种示例性实施例中，为了检测对象，可以由神经网络50预测围绕感兴趣对象的边界框。每个边界框具有相关联的向量，该向量包括针对每个对象的一组对象特征，该组对象特征构成了由估计设备100估计的变量，并且包括例如：

-对象存在概率p_c，

-在笛卡尔坐标系中定义边界框的位置的坐标(b_x,b_y,b_h,b_w)，以及

-对象属于比如汽车类、卡车类、行人类、摩托车类等一个或多个类(c₁，c₂，...，c_M)的概率。

在本发明的一个示例性对象检测应用中，可以使用卡尔曼滤波技术来确定从预测融合输出y_融合中得到的经改善的预测输出这种滤波处理操作可以由变换单元1003来实施。

因此，融合系统3可以使用卡尔曼滤波来提供对y_k的对象数据(经合并的检测对象数据或预测数据)的改进估计/>

对于k＝0到N，时间k的状态向量x_k考虑以下等式：

x_k+1＝A_kx_k+u_k+α_k(利用α_k表示高斯噪声的预测模型)

y_k＝C_kx_k+β_k(利用β_k表示高斯噪声的观测模型)

该状态向量是基于时间k'的最后一次测量处理操作的在时间k的随机变量，表示为其中，k'＝k或k-1。该随机变量由估计均值向量/>和相关联的预测误差的表示为Γ_k|k-1的协方差矩阵来表征。

卡尔曼滤波步骤包括两个主要步骤。

在被称为预测步骤的第一步骤中，进行预测，该预测包括确定以下项：

-预测均值：x_k+1＝A_kx_k+u_k

-预测协方差(表示不确定度的提高水平)：Γ_k|k+1＝A_kΓ_k|kA_k ^T+Γ_αk

在被称为“校正步骤”的第二步骤中，通过确定以下项来校正在卡尔曼滤波的预测步骤中所预测的值：

-从在神经网络50被用作测量系统的情况下的测量结果y_k中得到的“新息(innovation)”(测量值与预测值之差)：

-协方差“新息”：S_k＝C_kΓ_k|k-1C_k ^T+Γ_βk

-卡尔曼增益：

-校正均值：

-表示不确定度的降低水平的校正协方差：

Γ_k|k＝(I-K_kC_k)Γ_k|k-1

为了能够使用这样的卡尔曼滤波，可以有利地将由卡尔曼滤波器产生的数据(融合数据)存储在回放缓冲区1002中一段时间。

所存储的数据可以通过卡尔曼平滑进一步处理，以便提高卡尔曼估计的精确度。这种处理操作适用于在线学习，而根据本发明的增量在线学习可能延迟。

卡尔曼平滑包括对于K＝0到N实施以下处理操作：

被应用于存储在缓冲区1002中的传感器融合输出的平滑步骤提供了对神经网络50所预测的值y_k的更精确估计

在本发明第一示例性对象检测应用中，根据一些实施例，考虑了例如YOLO神经网络和3个类，在这种情况下，由估计设备估计的变量由下式给出：

y_k＝[p_c b_x b_y b_h b_w c₁ c₂ c₃]^T

还考虑了：

–与位置损失相关联的边界框的坐标，表示为(x_i,y_i,w_i,h_i)；

–表示模型的置信度水平的置信度得分c_i，将据此得出框包含对象；

–条件类概率，表示为Pr(Class_i|Object)。

损失函数可以例如基于参数x_i,y_i,w_i,h_i,c_i和Pr(Classi|Object)来定义。

在这样的第一示例中，学习方法如下所述地实施步骤402至步骤408：

在步骤402中，神经网络50预测输出：

-在步骤404中，预测值y_k被设置为由融合系统2确定的对应融合值

-在步骤406中，使用例如非极大值抑制算法针对每个所检测对象(例如，针对YOLO神经网络的示例中的每个边界框)计算损失函数

-在步骤408中，通过使用梯度下降算法针对每个所检测对象(针对在YOLO神经网络的示例中的每个边界框)实施更新神经网络的权重的步骤，每个权重θ被更新为值

在步骤404中更新的权重θ可以被调整，使得神经网络50的新预测尽可能地接近y_k的改进估计

在第二示例性应用中，估计方法可以被应用于轨迹预测。

在后文中，符号y⁽ⁱ⁾将被用来表示预测轨迹向量：

此外，符号将被用来表示融合轨迹向量：

在该第二示例中，考虑感知系统2不使用回放缓冲区1002类型的存储器1002来存储用于确定损失函数的数据。

此外，为了保证融合数据是“iid”数据，可以使用随机计时器，其值在每次更新权重后进行设置。

当为计时器设置的值到期时，可以迭代地执行新的权重更新。

损失函数L或损失函数可以是任何类型的损失函数，包括平方误差函数、负对数似然函数等。

在所考虑的第二示例中，假设使用了适用于二元高斯分布的损失函数L_nll。然而，本领域技术人员将容易理解，可以使用任何其他损失函数。函数L_nll由下式定义：

在这样的第二示例中，在线学习方法如下实施图4的步骤：

-在步骤400中，将与感知系统2的传感器200的捕获相对应的轨迹向量x⁽⁾应用在神经网络50的输入处。

-在步骤402中，基于应用在神经网络的输入处的轨迹向量x⁽⁾和神经网络的当前权重θ来确定T秒内的预测轨迹

-在步骤403中，将包括预测轨迹和输入轨迹向量x⁽ⁱ⁾的配对/>存储在存储器1002中。

-暂停方法，直到已经经过T秒(计时器)。

-在步骤404中，确定融合轨迹向量y_融合。

-在步骤406中，计算表示在来自融合系统的输出与来自感知系统2的输出之间的误差的损失函数。

-在步骤408中，将权重θ的值设置为

-然后可以删除所存储的配对，并且可以为计时器设置新值。

以上步骤可以反复迭代，直到满足收敛条件为止。

图5是示出了在本发明的一个轨迹预测应用中的根据第三示例的学习方法的流程图(通过用于估计与所检测对象有关的变量的方法估计的变量包括对象轨迹参数)。

在这种示例性实施例中，在线学习方法使用经过优先级排序的经验回放缓冲区1002。

在该实施例中，对于每个轨迹预测，使用来自延迟或非延迟融合系统的输出在线计算相关联的预测损失。

与该预测值相对应的真实数据可以通过对来自(延迟或非延迟)融合系统的输出执行更新来近似。

损失函数可以在从(延迟或非延迟)融合输出y_融合得到的经改善的预测输出与神经网络针对所考虑的每个传感器所预测的轨迹之间进行计算。此外，还可以根据阈值确定输入x⁽ⁱ⁾对在线学习是否有用。如果被确定为对学习有用，则可以将与该输入相关联的轨迹的紧凑表示(例如，通过RNN编码器1001确定)存储在回放缓冲区1002(经验回放缓冲区)中。

这种实施例使得能够优化与用于提供学习表12的输入相对应的经验并对该经验进行优先级排序。此外，可以对存储在回放缓冲区1002中的数据进行随机采样，以便保证数据是“iid”的(由变换单元1003进行)。该实施例使得能够优化所使用的样本，并重复使用样本。

RNN编码器的使用使得能够通过压缩轨迹信息来优化回放缓冲区1002。

在图5的示例中，还通过非限制性示例使用损失函数L_nll。

在步骤500中，提取轨迹向量x⁽ⁱ⁾的历史并由RNN编码器1001进行编码，从而提供压缩向量RNN_enc(x⁽ⁱ⁾)。

在步骤501中，将压缩向量RNN_enc(x⁽ⁱ⁾)(经编码的样本)存储在回放缓冲区1002中。

在步骤502中，基于应用在神经网络的输入处的轨迹向量x⁽ⁱ⁾和神经网络50的当前权重θ利用来确定预测轨迹/>/>

在步骤504中，提取由融合系统预先确定的融合轨迹向量y⁽ⁱ⁾(具有延迟的实施例)。

在步骤506中，在具有延迟的实施例中，基于融合输出y⁽ⁱ⁾和与感知输出相对应的预测值以及网络的当前权重θ来计算损失函数/>

在步骤507中，如果损失函数与阈值相比较小，则从缓冲区1002中删除样本值x⁽ⁱ⁾(无用)。

在步骤508中，对于缓冲区1002的每个压缩样本RNN_enc(x^(j))，基于压缩轨迹向量RNN_enc(x^(j))和神经网络的当前权重θ来确定预测轨迹

在步骤509中，基于在神经网络50的输出处提供的预测值对应的经改善的预测输出值(融合输出y^(j))和网络的当前权重θ，再次计算损失函数：/>

在步骤510中，将权重θ的值设置为

以上步骤可以迭代，直到检测到收敛条件为止。

图6示出了控制系统10的一个示例性实施方式，其中，感知系统2将单个智能相机传感器200用于本发明的一个对象轨迹预测应用。

在该示例中，相机传感器(200)观测在车辆的环境中检测到的目标对象的轨迹点(6001)。由传感器200捕获的数据被用来使用机器学习单元5基于神经网络50利用当前权重来预测(6002)目标对象的轨迹。

神经网络50提供预测输出(6003)，该预测输出表示由神经网络50基于应用在神经网络50的输入处的来自传感器200的数据进行预测的轨迹。

预测输出被传输到融合系统(3)，该融合系统计算与估计设备100所估计的变量相对应的经改善的预测输出(6004)。在该示例中，变量表示目标对象的预测轨迹并且包括轨迹参数。

估计设备向驾驶辅助系统10提供预测轨迹，以供控制应用程序14使用。

此外，融合系统3将经改善的预测输出传输到误差计算单元4。误差计算单元可以将预测输出(感知输出)存储(6008)在缓冲区1002中，其中，与观测相对应的输出(6005)在预定义时间段(例如，5s)内累积。

变换单元1003可以应用附加的处理操作(例如，通过应用如上所述的卡尔曼滤波器(6006))，以便进一步提高经改善的预测输出的精确度，从而提供经细化的预测输出(6007)。然后，误差计算单元4使用存储在缓冲区1002中的数据和经细化的预测输出来确定损失函数(6009)，该损失函数表示在来自感知系统2的输出与经细化的预测输出之间的误差。然后，通过应用梯度下降反向传播算法使用在经细化的预测输出(在卡尔曼滤波器6006的输出处传递)与来自感知系统的输出之间的损失函数来更新权重，并且可以由在线学习模块50使用具有以这种方式更新的权重的神经网络50来实施新的ML预测(6010)。

在图6的示例中，来自融合系统3的输出被用作用于学习的真实数据。

在图6的实施例中，损失函数对应于在由变换模块1003确定的经细化的预测输出6007与由感知系统传递的感知输出2之间的误差。

图7示出了使用神经网络50所预测的数据进行RNN编码/解码的控制系统10的另一示例性实施例。在该示例中，变量表示目标对象的预测轨迹并且包括轨迹参数。此外，来自融合系统的输出被用作真实数据(应用于神经网络50的用于在线学习的输入)。

在图7的实施例中，融合系统3的输出被直接用作应用于神经网络的输入，以确定损失函数。然后，损失函数对应于在来自融合系统3的输出与变换单元3传递的经细化的预测输出之间的误差。

在图7的实施例中，由融合系统3传递的融合输出(经改善的预测输出)被应用在神经网络50的输入(7000)处，以使用机器学习单元5基于神经网络50利用当前权重来预测(7002)目标对象的轨迹。

神经网络50提供预测输出(7003)，该预测输出表示由神经网络50基于应用在神经网络50的输入处的来自传感器200的数据进行预测的轨迹。

预测输出被传输到RNN编码器1001，该编码器对由神经网络50预测的输出进行编码和压缩(7004)。

此外，融合系统3将经改善的预测输出传输到误差计算单元4。误差计算单元可以将预测输出存储(7008)在缓冲区1002中，其中，与观测相对应的感知输出(7005)在预定义时间段(例如，5s)内累积。

变换单元1003可以应用附加的处理操作(例如，通过应用如上所述的卡尔曼滤波器(7006))，以便进一步提高经改善的预测输出的精确度，从而提供经细化的预测输出(7007)。然后，误差计算单元4使用存储在缓冲区1002中的由RNN解码器(7009)解码后的数据和经细化的预测输出7007来确定损失函数(7010)，该损失函数表示在来自感知系统2的输出与经细化的预测输出之间的误差。然后，通过应用梯度下降反向传播算法使用在经细化的预测输出(在卡尔曼滤波器6006的输出处传递)与来自感知系统的输出之间的损失函数来更新权重，并且可以由在线学习单元5使用具有以这种方式更新的权重的神经网络50来实施新的ML预测(7011)。

图7的实施例的一个变体可以在不使用RNN编码器/解码器(框7004和框7009)的情况下实施。在这种变体中，输出7003被直接存储在缓冲区(框7008)中，并且损失函数不进行RNN解码(框7009)而直接使用来自缓冲区1002的数据来确定。

因此，本发明的实施例允许通过实施在线学习来改进对与在车辆环境中检测到的对象有关的变量的估计。

根据本发明的实施例的学习使得能够考虑在车辆的运行期间实时收集到的新图像，并且不限于使用离线存储在数据库中的学习数据。可以在驾驶辅助系统的运行期间使用神经网络的在线更新的权重进行新的估计。

本领域技术人员还将理解，根据本发明的实施例的系统或子系统可以以各种的方式通过硬件、软件或硬件和软件的组合来实施，特别是以(能够以各种形式以程序产品的形式分发的)程序代码的形式来实施。特别地，程序代码可以使用计算机可读介质进行分发，这些计算机可读介质可以包括计算机可读存储介质和通信介质。特别地，本说明中描述的方法可以以能够由计算机设备中的一个或多个处理器执行的计算机程序指令来实施。这些计算机程序指令也可以存储在计算机可读介质中。

此外，本发明不限于以上通过非限制性示例描述的实施例。本发明涵盖了本领域技术人员可能想到的所有变体实施例。

特别地，本领域技术人员将理解本发明不限于感知系统2的特定类型的传感器，也不限于特定数量的传感器。

本发明不限于任何特定类型的车辆1，而是适用于任何类型的车辆(车辆示例包括但不限于轿车、卡车、公交车等)。本发明的实施例虽然不限于这种应用，但对于在通过由允许它们交换V2X消息的通信网络连接的自动驾驶车辆中实施时特别有利。

本发明也不限于在车辆环境中检测到的任何类型的对象，并且适用于能够通过感知系统2的传感器200检测到的任何对象(行人、卡车、摩托车等)。

此外，本领域技术人员将容易理解，使用的与对象检测有关的“车辆环境”的概念是相对于在车辆中实施的传感器的范围来定义的。

本发明不限于以上通过非限制性示例描述的由估计设备100估计的变量。本发明适用于与在车辆环境中检测到的对象有关的任何变量，可能包括与对象的位置和/或对象的移动(速度、轨迹等)和/或对象特征(对象的类型等)有关的变量。变量可以有各种格式。当估计变量是包括一组参数的状态向量时，参数的数量可以取决于本发明的应用和驾驶辅助系统的具体特征。

本发明也不限于在描述中通过示例引用的YOLO神经网络的示例，而是适用于任何类型的神经网络50，该神经网络用于基于机器学习来估计与在车辆环境中检测到的或能够检测到的对象有关的变量。

本领域技术人员将容易理解，本发明不限于在以上描述中通过示例引用的示例性损失函数。

Claims

1.一种在车辆(1)中实施的控制设备(10)，该车辆包括使用一组传感器(200)的感知系统(2)，每个传感器提供数据，该感知系统包括用于估计变量的估计设备(100)，该变量包括与在该车辆的环境中检测到的一个或多个对象有关的至少一个特征，该估计设备包括使用神经网络(50)估计所述变量的在线学习模块(5)，该神经网络与一组权重相关联，其特征在于，该学习模块(5)包括：

-前向传播模块(51)，该前向传播模块被配置为传播应用在该神经网络的输入处的来自一个或多个传感器(200)的数据，以便提供包括所述变量的估计的预测输出；

-融合系统(3)，该融合系统被配置为通过基于所述预测值中的至少一些预测值实施至少一种传感器融合算法来确定融合输出，

-反向传播模块(32)，该反向传播模块被配置为通过执行梯度下降反向传播、通过确定表示在所述融合输出的经改善的预测值与所述预测输出之间的误差的损失函数来在线更新与该神经网络(50)相关联的权重。

2.如权利要求1所述的设备，其特征在于，所述变量是状态向量，该状态向量包括与该感知系统检测到的对象的位置和/或移动有关的信息。

3.如权利要求2所述的设备，其特征在于，所述状态向量还包括与一个或多个所检测对象有关的信息。

4.如权利要求3所述的设备，其特征在于，所述状态向量还包括目标对象的轨迹参数。

5.如前述权利要求之一所述的设备，其特征在于，所述经改善的预测值通过应用卡尔曼滤波器来确定。

6.如前述权利要求之一所述的设备，其特征在于，该设备包括回放缓冲区(1002)，该回放缓冲区被配置为存储由该估计设备(100)预测的输出和/或由该融合系统(2)传递的融合输出。

7.如前述权利要求之一所述的设备，其特征在于，该设备包括：递归神经网络编码器(1002)，该递归神经网络编码器被配置为在将这些数据存储在该回放缓冲区中之前对这些数据进行编码和压缩；以及解码器，该解码器用于对从该回放缓冲区(1002)中提取的数据进行解码和解压缩。

8.如权利要求7所述的设备，其特征在于，该编码器是递归神经网络编码器，并且该解码器是递归神经网络解码器。

9.如前述权利要求6至权利要求8之一所述的设备，其特征在于，该回放缓冲区经过优先级排序。

10.如前述权利要求6至权利要求8之一所述的设备，其特征在于，该设备实施对应用在神经网络(50)的输入处的输入数据进行测试的条件，如果针对该输入样本所预测的值与该融合输出之间的损失函数低于预定义阈值，则从该回放缓冲区(1002)中删除输入数据。

11.一种在车辆(1)中实施的控制方法，该车辆包括使用一组传感器(200)的感知系统(2)，每个传感器提供数据，该控制方法包括估计变量，该变量包括与在该车辆的环境中检测到的一个或多个对象有关的至少一个特征，该估计使用神经网络(50)实施在线学习步骤(5)来估计所述变量，该神经网络与一组权重相关联，其特征在于，该在线学习步骤(5)包括以下步骤：

-传播应用在该神经网络的输入处的来自一个或多个传感器(200)的数据，以便提供包括所述变量的估计的预测输出；

-通过基于所述预测值中的至少一些预测值实施至少一种传感器融合算法来确定融合输出，

-通过执行梯度下降反向传播、通过确定表示在所述融合输出的经改善的预测值与所述预测输出之间的误差的损失函数来在线更新与该神经网络(50)相关联的权重。