CN111661045B

CN111661045B - 训练用于察觉碰撞的轨迹预测的生成器单元和鉴别器单元

Info

Publication number: CN111661045B
Application number: CN201911177929.0A
Authority: CN
Inventors: G·科恰; T·海登
Original assignee: Bayerische Motoren Werke AG
Current assignee: Bayerische Motoren Werke AG
Priority date: 2019-03-05
Filing date: 2019-11-27
Publication date: 2024-06-07
Anticipated expiration: 2039-11-27
Also published as: US11364934B2; EP3705367A1; CN111661045A; EP3705367B1; US20200283017A1

Abstract

本发明的一方面描述了一种用于同时训练生成器单元和鉴别器单元的系统，所述生成器单元配置为在考虑车辆的环境中的至少一个其他道路使用者的观察到的轨迹的情况下确定所述至少一个其他道路使用者的未来轨迹，所述鉴别器单元配置为确定所述其他道路使用者的所确定的未来轨迹是否是所述至少一个其他道路使用者的实际的未来轨迹，所述系统配置为利用梯度下降来同时训练所述生成器单元和所述鉴别器单元。

Description

训练用于察觉碰撞的轨迹预测的生成器单元和鉴别器单元

技术领域

本发明涉及一种用于训练用于察觉碰撞的轨迹预测的生成器单元和鉴别器单元的系统和方法。

背景技术

自动化车辆是具有自动化纵向引导和/或自动化横向引导的车辆。术语“自动化车辆”还包括自主车辆。术语“自动化车辆”包括特别是具有任意的自动化级别、例如标准SAEJ3016(SAE-汽车工程学会)中定义的自动化级别的车辆。

级别0：自动化系统发出警告，并且可以立即干预，但是没有持续的车辆控制。

级别1(“手扶(hands on)”)：驾驶者和自动化系统共享车辆的控制。示例是：自适应巡航控制(ACC)，其中，驾驶者控制转弯，而自动化系统控制速度；以及停车辅助，其中，转弯是自动化的，而速度受手动控制。驾驶者必须随时准备好恢复全部控制。车道保持辅助(LKA)类型II是级别1自驾驶的另一个的示例。

级别2(“无需手扶(hands off)”)：自动化系统承担车辆的全部控制(加速、刹车和转弯)。驾驶者必须监视驾驶，并且如果自动化系统未能适当地响应，则随时准备好立即干预。简写“无需手扶”不应从字面上来理解。事实上，手和车轮之间的接触在SAE 2驾驶期间通常是强制性的，以确认驾驶者准备好干预。

级别3(“无需眼看(eyes off)”)：驾驶者可以安全地将他们的注意力从驾驶任务转移开，例如驾驶者可以发短信或看电影。车辆将处理需要立即响应的情形、比如紧急刹车。当驾驶者被车辆要求干预时，驾驶者仍必须在制造商指定的某个有限的时间内准备好干预。

级别4(“无需在意(mind off)”)：如级别3那样，但是对于安全来说，从不需要驾驶者注意力，即，驾驶者可以安全地睡去或离开驾驶者的座位。自驾驶仅在有限的空间区域(地理围栏)中或者在特殊情况(比如交通堵塞)下受到支持。在这些区域或情况之外，如果驾驶者不恢复控制，则车辆必须能够安全地中止出行、即停车。

级别5(“方向盘为可选(steering wheel optional)”)：根本不需要人为干预。示例将是机器人出租车。

自动化车辆需要预测其他道路使用者的轨迹以确定它自己的未来轨迹。然而，难以准确地预测其他道路使用者的轨迹。

发明内容

因此，本发明的目的是改进对其他道路使用者预测的轨迹的准确度。

本发明的一个方面描述了一种用于同时训练生成器单元和鉴别器单元的系统。所述生成器单元配置为在考虑车辆(特别是自动化车辆)的环境中的至少一个其他道路使用者的观察到的轨迹的情况下确定所述至少一个其他道路使用者的未来轨迹。

确定所述至少一个其他道路使用者的未来轨迹特别是意味着基于所述至少一个其他道路使用者的观察到的轨迹来预测所述至少一个其他道路使用者的未来轨迹。

所述至少一个其他道路使用者的轨迹是所述至少一个其他道路使用者随着时间所经过空间的路径。

所述鉴别器单元配置为确定所述其他道路使用者的所确定的未来轨迹是否是所述至少一个其他道路使用者的实际的未来轨迹。所述至少一个其他道路使用者的实际的未来轨迹特别是训练数据的数据集的一部分。训练数据的数据集可以通过将道路使用者的实际的观察到的轨迹划分为两个部分而生成，所述两个部分中的第一部分被作为观察到的轨迹呈现给生成器单元。然后，要么由生成器单元所确定的未来轨迹、要么实际的观察到的轨迹的第二部分可以被呈现给鉴别器单元。

换句话说，鉴别器单元的目标是确定它作为输入而接收的轨迹是已经由生成器单元确定、还是训练数据的数据集的一部分。

所述系统配置为利用梯度下降来同时训练所述生成器单元和所述鉴别器单元。

梯度下降是用于找到函数的最小值的一阶迭代优化算法。为了使利用梯度下降找到函数的局部极小值，采取与该函数在当前点处的梯度(或大致梯度)的负值成比例的步数。如果相反，采取与梯度的正值成比例的步数，则接近该函数的局部极大值；所述过程于是被称为梯度上升。梯度下降也被称为最速下降。

具体地说，使用确定性策略梯度算法，因为这些算法胜过需要更多样本的随机策略梯度算法。然而，尽管如此，还是可以使用随机策略梯度。

同时训练生成器单元和鉴别器单元的方法是已知的生成式对抗网络(GAN)。

生成器单元生成候选(生成式的)，鉴别器单元对它们进行评估(鉴别性的)。通常，生成器单元学习从潜在空间映射到感兴趣的特定的数据分布，而鉴别器单元在来自真实的数据分布的实例和生成器单元产生的候选之间进行鉴别。生成器单元的训练目标是提高鉴别器单元的错误率(即，通过生成似乎来自于真实的数据分布的新颖的合成的实例来“愚弄”鉴别器单元)。

在实践中，已知的数据集用作鉴别器单元的初始训练数据。训练鉴别器涉及向它呈现来自所述数据集的样本，直到它达到某个级别的准确度为止。通常，用从预定义的潜在空间(例如，多元正态分布)采样的随机化输入作为生成器单元的种子。此后，鉴别器单元对生成器单元合成的样本进行评估。

具体地说，生成器单元用自动化车辆的驾驶辅助系统来确定该自动化车辆的环境中的至少一个其他道路使用者的未来轨迹，所述驾驶辅助系统配置为在考虑所述至少一个其他道路使用者的所确定的未来轨迹的情况下确定该自动化车辆本身的轨迹。

在本发明的优选实施例中，所述其他道路使用者是易受伤害的道路使用者，例如，行人、骑车人或动物。

所述易受伤害的道路使用者的轨迹比机动的道路使用者的轨迹更难预测，因为所述易受伤害者以更动态的方式移动。例如，易受伤害的道路使用者更可能无视交通规则。而且，易受伤害的道路使用者不太束缚于路面和交通车道。

在本发明的优选实施例中，所述系统包括权威单元，所述权威单元配置为在考虑所述至少一个其他道路使用者的所确定的未来轨迹是否无碰撞的情况下确定对于所述其他道路使用者的所确定的未来轨迹的奖励，所述系统配置为在考虑权威单元确定的奖励来训练所述生成器单元。

权威单元特别是配置为在考虑所确定的未来轨迹和物体(例如静态的和/或动态的物体)之间的碰撞的数量的情况下确定对于所确定的未来轨迹的奖励。

权威单元特别是用于逼近所确定的未来轨迹的奖励函数，并且使用强化学习来朝向不可微度量优化未来轨迹的确定。数据集和生成的样本是权威单元的输入，但是不同于鉴别器单元，所述权威单元向所述数据集和样本分配得分。(例如所确定的未来轨迹的碰撞的数量)。权威单元学习将奖励分配给每个所确定的未来轨迹以与外部软件提供的得分相匹配。然后以在来自真实的数据分布的实例于生成器单元产生的候选之间进行鉴别的目标来训练鉴别器单元，而生成器单元使用例如该目标的线性组合来提高鉴别器单元的错误率和由权威单元确定的奖励。

换句话说，权威单元用于影响生成器单元以使得生成器单元不仅确定相对于所述至少一个其他道路使用者的观察到的轨迹名义上准确的未来轨迹。

使碰撞最小化例如具有产生更准确的轨迹的额外益处，因为即使所述至少一个其他道路使用者的观察到的轨迹对于该行为没有给予任何证据，其他道路使用者也趋向于做同样的事情。

虽然生成器单元和鉴别器单元被训练确定貌似合理的未来轨迹，但是所确定的未来轨迹无需是安全的。特别是存在对未来轨迹预测的情境感兴趣的两种类型的碰撞。第一类型是不同的道路使用者本身之间的动态碰撞。第二类型是道路使用者和轨迹在物理上不可能通过的各种静态环境元素之间的静态碰撞。静态碰撞的示例是穿过树、停放的汽车或建筑物的行人的未来轨迹。权威单元负责使生成的未来轨迹中的静态碰撞和动态碰撞最小化。

权威单元的自然目标是使未来的动态碰撞和静态碰撞的数量最小化的监督式损失。不幸的是，将这样的目标集成到模型中并不简单。一方面，现有数据集中的非碰撞轨迹的数量压倒性地高于碰撞轨迹的数量。而且，即使有大量碰撞轨迹示例，预测的未来轨迹仍是来自生成式模型的随机样本：即使轨迹远离地面真实轨迹，也并不意味着轨迹是错误的。除了监督式学习之外的另一学习策略是需要的。

具体地说，脱离策略的行动者-评论者框架可以用于使未来轨迹中的碰撞最小化。

在脱离策略的设置中，代理学习与它正在执行的策略不同的一个策略或多个策略。脱离策略的方法具有范围更广泛的应用和学习可能性。不同于依照策略的方法，脱离策略的方法能够例如在执行探索性策略的同时学习最佳策略、从示范学习并且从与环境的单个感觉运动相互作用并行地学习多个任务。

在脱离策略的行动者-评论者框架中，我们需要行动者和评论者。在我们的模型中，行动者是将所确定的未来轨迹重组为动作样本的生成器单元。最大奖励于是例如由生成器单元在使生成的碰撞的数量最小化时得到。接着，在所提出的模型中，评论者是权威单元。最后，权威模块引导轨迹生成器生成具有高即时奖励(即例如少数量的轨迹碰撞)的新颖的轨迹。

在本发明的优选实施例中，所述生成器单元配置为在考虑所述至少一个其他道路使用者的环境中的至少一个静态物体的情况下确定所述其他道路使用者的未来轨迹。

为了确定新颖的、准确的且安全的未来轨迹，所述至少一个其他道路使用者的地点坐标是不够的。地点坐标单独不会给出关于与场景中的静态环境的相互作用的任何信息。在不向系统提供这样的场景信息的情况下，将不可能使任何模型避免与静态元素碰撞。特别是可以使用简单的方法。例如，可以使用场景的最近的边界点。

在本发明的优选实施例中，所述生成器单元配置为在考虑所述至少一个静态物体的相对地点的情况下确定所述至少一个其他道路使用者的未来轨迹。所述至少一个相对物体的相对地点具体地被编码在极角空间中的网格中，其中每一网格单元的编码值是到位于角度网格单元的圆锥体内的行人的最小距离。

与标准的2D网格相比，极角空间中的网格的分辨率仅线性地影响输入的维度，同时仍能够用连续的分辨率捕捉径向距离变化，而不是使网格单元离散化。另外，周围静态物体越靠近其他道路使用者，它们的角度位置变化的可观察性变得越精确。

在本发明的优选实施例中，所述生成器单元配置为在考虑所述其他道路使用者的环境中的至少一个动态物体的情况下确定所述其他道路使用者的未来轨迹。

为了产生新颖的、准确的且安全的未来轨迹，道路使用者的地点坐标是不够的。地点坐标单独不会给出关于与场景中的其他道路使用者的移动的方向性的相互作用的任何信息。在不向系统提供这样的道路使用者信息的情况下，将不可能使任何模型避免与动态元素碰撞。

在本发明的优选实施例中，生成器单元包括编码器单元，所述编码器单元配置为将所述其他道路使用者的观察到的轨迹映射到公共嵌入空间。

编码器单元的目的是聚合其他道路使用者的当前状态。特别是，编码器单元将来自其他道路使用者的过去的坐标联合地嵌入到固定长度矢量上。

该公共嵌入空间可以被解释为人工神经网络的隐藏层。

在本发明的优选实施例中，编码器单元包括长短期存储器单元。

长短期存储器单元是人工神经网络的单元。

所述人工神经网络是受构成动物大脑的生物神经网络模糊地启发的计算系统。这样的系统通过考虑一般不被编写有任何任务特定的规则的示例来“学习”执行任务。例如，在图像识别中，这些系统可以通过对已经被手动标记为“猫”或“没有猫”的示例图像进行分析并且使用结果标识其他图像中的猫来学习标识包含猫的图像。交互在没有关于猫的任何先验知识(例如它们有软毛、尾巴、胡须和类似猫的脸)的情况下这样做。相反，这些系统自动地从它们处理的学习材料产生标识性特性。

人工神经网络是基于连接的单元或节点的集合，这些单元或节点被称为对生物大脑中的神经元进行松散建模的人工神经元。每个连接(比如生物大脑中的突触)可以将信号从一个人工神经元发送到另一个人工神经元。接收信号的人工神经元可以对该信号进行处理，然后用信号通知连接到它的附加的人工神经元。

在常见的人工神经网络实现中，人工神经元之间的连接处的信号是实数，每个人工神经元的输出用其输入的总和的某个非线性函数计算。人工神经元之间的连接被称为“突触”。人工神经元和突触通常具有随着学习进行而调整的权重。权重提高或降低连接处的信号的强度。人工神经元可以具有这样的阈值，即，信号只有在聚合信号越过该阈值时才被发送。通常，人工神经元被聚合到各层中。不同的层可以对它们的输入执行不同种类的变换。信号从第一层(输入层)行进到最后一层(输出层)，可能在多次跨过所述层之后。

人工神经网络方法的最初目标是以人脑解决问题的方式相同的方式来解决问题。然而，随着时间的过去，关注移到执行特定的任务，导致偏离生物学。人工神经网络一直被用在各种任务上，包括计算机视觉、语音识别、机器翻译、社交网络过滤、玩棋类游戏和视频游戏、以及医学诊断。

常见的长短期存储器单元包括基元、输入门、输出门和忘记门。基元记忆任意的时间间隔期间的值，所述三个门调节进出基元的信息流动。即使长短期存储器单元的一些变型不具有这些门中的一个或多个，或者可以具有其他门。

直观地，基元负责记录输入序列中的元素之间的依赖性。输入门控制新的值流到基元中的程度，忘记门控制值在基元中保持的程度，输出门控制基元中的值用于计算LSTM单元的输出激活的程度。

存在进出长短期存储器门的连接，其中几个是反复出现的。需要在训练期间被学习的这些连接的权重来确定门如何操作。

在本发明的优选实施例中，生成器单元包括解码器单元，所述解码器单元配置为在考虑公共嵌入空间的情况下确定所述其他道路使用者的未来轨迹。

在本发明的优选实施例中，解码器单元包括长短期存储器单元。

本发明的优选实施例是一种由根据按照本发明的系统训练的生成器单元。

本发明的第二方面描述了一种用于同时训练生成器单元和鉴别器单元的计算机实现的方法，所述生成器单元配置为在考虑车辆的环境中的至少一个其他道路使用者的观察到的轨迹的情况下确定所述至少一个其他道路使用者的未来轨迹，所述鉴别器单元配置为确定所述其他道路使用者的所确定的未来轨迹是否是所述其他道路使用者的实际的未来轨迹，所述方法包括利用梯度下降来同时训练所述生成器单元和所述鉴别器单元。

附图说明

为了更好地理解本发明并且示出本发明可以如何付之实施，现在作为示例参照附图，图中：

图1示出用于训练人工智能单元的系统的示例性结构；以及

图2示出极角空间中的示例性网格。

具体实施方式

图1示出用于同时训练生成器单元GU和鉴别器单元DU的系统。所述生成器单元GU配置为在考虑车辆的环境中的至少一个其他道路使用者的观察到的轨迹OT的情况下确定所述至少一个其他道路使用者的未来轨迹FT。所述其他道路使用者特别是易受伤害的道路使用者、例如行人、骑车人或动物。

所述生成器单元GU被具体配置为在考虑所述至少一个其他道路使用者的环境中的至少一个静态物体SO(特别是在考虑所述至少一个静态物体SO的相对地点)的情况下确定所述其他道路使用者的未来FT。

而且，所述生成器单元GU特别是配置为在考虑所述其他道路使用者的环境中的至少一个动态物体DO的情况下确定所述其他道路使用者的未来轨迹FT。

生成器单元GU具体包括编码器单元EU，所述编码器单元EU配置为将所述其他道路使用者的观察到的轨迹OT映射到公共嵌入空间。编码器单元EU具体包括长短期存储器单元LSTM。

生成器单元GU具体包括解码器单元，所述解码器单元配置为在考虑公共嵌入空间的情况下确定所述其他道路使用者的未来轨迹FT。解码器单元具体包括长短期存储器单元LSTM。

所述鉴别器单元DU配置为确定所述其他道路使用者的所确定的未来轨迹FT是否是所述其他道路使用者的实际的未来轨迹。

所述系统具体包括权威单元OU，所述权威单元OU配置为在考虑所述至少一个其他道路使用者的所确定的未来轨迹FT是否无碰撞的情况下确定对于所述其他道路使用者的所确定的未来轨迹FT的奖励。

所述系统配置为利用梯度下降来同时训练所述生成器单元GU和所述鉴别器单元DU，其中所述系统特别是配置为在考虑权威单元OU确定的奖励来训练所述生成器单元GU。

图2示出了极角空间中的示例性网格。极角空间中的网格特别是以其他道路使用者为中心的，对于所述其他道路使用者来说，未来轨迹将由生成器单元GU确定，并且与其他道路使用者的前进方向对齐。每一网格单元的编码值特别是距位于角度网格单元的圆锥体内的(静态的或动态的)物体o1、o2、o3或o4的最小距离。

与标准的2D网格相比，极角空间中的网格的分辨率仅线性地影响输入的维度，同时仍能够以连续的分辨率捕捉径向距离变化，而不是使网格单元离散化。另外，周围行人越靠近查询代理，他们的角度位置变化的可观察性就变得越精确。

Claims

1.一种用于同时训练生成器单元(GU)和鉴别器单元(DU)的系统，

所述生成器单元(GU)配置为在考虑车辆的环境中的至少一个其他道路使用者的观察到的轨迹(OT)的情况下确定所述至少一个其他道路使用者的未来轨迹(FT)，

所述鉴别器单元(DU)配置为确定所述至少一个其他道路使用者的所确定的未来轨迹(FT)是否是所述至少一个其他道路使用者的实际的未来轨迹，并且

所述系统配置为利用梯度下降来同时训练所述生成器单元(GU)和所述鉴别器单元(DU)，

其特征在于，所述系统包括权威单元(OU)，

所述权威单元(OU)配置为在考虑所述至少一个其他道路使用者的所确定的未来轨迹(FT)是否无碰撞的情况下确定对于所述其他道路使用者的所确定的未来轨迹(FT)的奖励，并且

所述系统配置为在考虑由所述权威单元(OU)确定的奖励的情况下训练所述生成器单元(GU)。

2.根据权利要求1所述的系统，其中，所述其他道路使用者是易受伤害的道路使用者。

3.根据权利要求1所述的系统，其中，所述其他道路使用者是行人、骑车人或动物。

4.根据权利要求1至3中任一项所述的系统，其中，所述生成器单元(GU)配置为在考虑所述至少一个其他道路使用者的环境中的至少一个静态物体(SO)的情况下确定所述其他道路使用者的未来轨迹(FT)。

5.根据权利要求4所述的系统，其中，所述生成器单元(GU)配置为在考虑所述至少一个静态物体(SO)的相对地点的情况下确定所述其他道路使用者的未来轨迹(FT)。

6.根据权利要求1至3中任一项所述的系统，其中，所述生成器单元(GU)配置为在考虑所述其他道路使用者的环境中的至少一个动态物体(DO)的情况下确定所述其他道路使用者的未来轨迹(FT)。

7.根据权利要求1至3中任一项所述的系统，其中，所述生成器单元(GU)包括编码器单元(EU)，所述编码器单元(EU)配置为将所述其他道路使用者的观察到的轨迹(OT)映射到公共嵌入空间。

8.根据权利要求7所述的系统，其中，所述编码器单元(EU)包括长短期存储器单元(LSTM)。

9.根据权利要求7所述的系统，其中，所述生成器单元(GU)包括解码器单元，所述解码器单元配置为在考虑所述公共嵌入空间的情况下确定所述其他道路使用者的未来轨迹(FT)。

10.根据权利要求9所述的系统，其中，所述解码器单元包括长短期存储器单元(LSTM)。

11.一种由根据权利要求1至10中任一项所述的系统训练的生成器单元(GU)。

12.一种用于同时训练生成器单元(GU)和鉴别器单元(DU)的计算机实现的方法，

所述鉴别器单元(DU)配置为确定所述其他道路使用者的所确定的未来轨迹(FT)是否是所述其他道路使用者的实际的未来轨迹，并且

所述方法包括利用梯度下降来同时训练所述生成器单元(GU)和所述鉴别器单元(DU)，

其特征在于，

权威单元(OU)配置为在考虑所述至少一个其他道路使用者的所确定的未来轨迹(FT)是否无碰撞的情况下确定对于所述其他道路使用者的所确定的未来轨迹(FT)的奖励，并且

所述方法包括在考虑由所述权威单元(OU)确定的奖励的情况下训练所述生成器单元(GU)的步骤。