CN117227752A

CN117227752A - 利用规划模型和认知学习模型的车辆自动驾驶操作控制

Info

Publication number: CN117227752A
Application number: CN202211346443.7A
Authority: CN
Inventors: Z.布纳亚
Original assignee: GM Global Technology Operations LLC
Current assignee: GM Global Technology Operations LLC
Priority date: 2022-06-08
Filing date: 2022-10-31
Publication date: 2023-12-15
Also published as: US20230398997A1; DE102022127529A1

Abstract

一种用于控制自动驾驶操作的方法，包括建立用于在自动驾驶操作中执行规划和学习的相应的独立模型，该独立模型包括车辆规划模型和认知学习模型。生成语义层以充当认知学习模型与车辆规划模型之间的桥梁，语义层包括第一数据适配器和第二数据适配器。该方法包括经由第一数据适配器将真实交通数据转换为相应的等效抽象表示，使得认知学习模型可以使用它来生成人性化奖励模型。该方法包括经由车辆规划模型部分地基于人性化奖励模型来确定轨迹规划。车辆具有控制器，该控制器部分地基于轨迹规划来执行自动驾驶操作。

Description

利用规划模型和认知学习模型的车辆自动驾驶操作控制

技术领域

本公开总体上涉及一种用于控制车辆的自动驾驶操作的方法和系统。

背景技术

高级驾驶员辅助系统和自动驾驶车辆通常包含用于有效操作的各种系统，诸如盲点信息系统、车道偏离警告系统和自适应巡航控制系统。辅助这些辅助系统的人类驾驶数据的可用性被预期在量、多样性和丰富性上增加。然而，由于规划模型的复杂性，由规划者、驾驶员和其他因素使用的各种表示，使用该数据来控制车辆的自动驾驶操作是一个重要且具有挑战性的过程。

发明内容

本文公开了一种用于控制车辆的自动驾驶操作的方法，该车辆具有控制器，该控制器具有处理器和有形非暂时性存储器。该方法包括建立用于在自动驾驶操作中执行规划和学习的相应独立模型，该相应的独立模型包括车辆规划模型和认知学习模型。开发或生成语义层以充当认知学习模型和车辆规划模型之间的桥梁，语义层包括第一数据适配器和第二数据适配器。

该方法包括经由第一数据适配器将真实交通数据转换为相应的等效抽象表示，使得认知学习模型可以使用它来生成人性化奖励模型。该方法包括经由车辆规划模型部分地基于人性化奖励模型来确定轨迹规划。控制器部分地基于轨迹规划来执行自动驾驶操作。

在一些实施例中，在语义层中采用马尔可夫决策过程模型。该方法可以包括经由车辆规划模型获得车辆的状态和动作变量对。经由第二数据适配器将状态和动作变量对转换为语义层中的相应的等效抽象表示。相应的等效抽象表示被传输到人性化奖励模型。该方法可以包括在语义层中并入第三数据适配器，并且经由第三数据适配器将相应数据从人性化奖励模型发送到车辆规划模型。

在一些实施例中，双替代强制选择模型或多替代强制选择模型被并入认知学习模型中。在其他实施例中，逆向强化学习模型被并入认知学习模型中。认知学习模型和语义层可以被托管在非机载云计算服务中。

该方法可以包括在认知学习模型中采用分位数分箱来将预定状态组的状态特征离散化为动作变量。该方法可以包括将神经网络并入认知学习模型中，神经网络在输出层中具有激活函数，该激活函数预测多项式概率分布。

本文公开了一种用于控制车辆中的自动驾驶操作的系统。该系统包括可操作地连接到车辆的控制器，该控制器具有处理器和其上记录有指令的有形非暂时性存储器。计算单元与控制器通信，并且具有用于在自动驾驶操作中执行规划和学习的相应的独立模型，相应的独立模型包括车辆规划模型和认知学习模型。

计算单元包括适于充当认知学习模型和车辆规划模型之间的桥梁的语义层。语义层包括第一数据适配器和第二数据适配器。第一数据适配器被配置为将真实交通数据转换为相应的等效抽象表示，使得认知学习模型可以使用它来生成人性化奖励模型。车辆规划模型适于部分地基于人性化奖励模型来确定轨迹规划。控制器适于部分地基于轨迹规划来执行自动驾驶操作。

当结合附图时，本公开的上述特征和优点以及其他特征和优点从用于执行本公开的最佳说明书的以下详细实施例中是显而易见的。

附图说明

图1是用于控制车辆中的自动驾驶操作的系统的示意图；

图2是用于操作系统图1的系统的方法的流程图；以及

图3是示出图1的车辆所面临的示例场景的示意性局部图。

本公开的代表性实施例在附图中通过非限制性示例的方式示出，并且在下面进一步详细描述。然而，应理解，本发明的新颖方面不限于上文列举的图式中所说明的特定形式。相反，本公开将覆盖落入例如由所附权利要求所涵盖的本公开的范围内的修改、等同物、组合、子组合、排列、分组和替代方案。

具体实施方式

参考附图，其中相同的附图标记表示相同的部件，图1示意性地示出了用于控制车辆12中的自动驾驶操作D的系统10。车辆(交通工具)12可以包括但不限于客车、运动型多用途车、轻型卡车、重型车辆、小型货车、公共汽车、运输车辆、自行车、移动机器人、农具(例如拖拉机)、运动相关设备(例如高尔夫球车)、船、飞机和火车。车辆12可以是电动车辆，其可以是纯电动的或部分电动的。应当理解，车辆12可以采取许多不同的形式并且具有附加部件。

参考图1，车辆12包括控制器C，控制器C具有至少一个处理器P和至少一个存储器M(或非暂时性有形计算机可读存储介质)，在存储器M上可以记录指令。计算单元14与控制器C通信，并且包括学习阶段16和规划阶段18。

系统10采用用于在自动驾驶操作D中执行车辆规划和学习的独立模型。计算单元14包括学习阶段16中的基于认知的学习模型20和规划阶段18中的车辆规划模型22，两个模型彼此独立。基于认知的模型是出于理解和预测的目的对人类认知过程的估计。用于操作系统10的方法100的示例流程图在图2中示出并在下面描述。

当前方法针对学习过程和规划过程两者使用相同的问题表示或模型。系统10通过将用于学习的模型与用于规划的模型分离来实现基于人类驾驶数据的有效学习。车辆规划模型22在一般状态/动作空间中起作用，支持广泛的场景，并且在开发生命周期期间频繁改变。在一些实施例中，车辆规划模型22是非认知的。相反，基于认知的学习模型20(以下称为认知学习模型20)使用较少的状态和动作表示，并且更简单。保持学习过程和规划过程的两个独立表示允许车辆规划模型22和奖励学习开发生命周期并行进展。

系统10提供用于认知学习模型20和车辆规划模型22之间接口的框架，并且允许认知过程的离线学习。计算单元14包括适于充当认知学习模型20和车辆规划模型22之间的桥梁的语义层24。如下所述，语义层24包括第一数据适配器A1，其被配置为将真实交通/车辆数据(例如，来自数据库26)转换为相应的等效抽象表示，使得认知学习模型20可以使用它来生成人性化奖励模型30。

参考图1，语义层24包括第二数据适配器A2，用于将状态变量和动作变量对(成对的状态变量和动作变量)变换为语义层24中的相应等效抽象表示，其中相应抽象表示被传输到人性化奖励模型30。经由第三数据适配器A3，语义层24翻译由认知学习模型20学习的奖励函数，以传输到车辆规划模型22。

参考图1，车辆规划模型22适于部分地基于人性化奖励模型30来确定轨迹规划32。控制器C适于部分地基于轨迹规划32来执行自动驾驶操作D。轨迹规划32确定用于导航交通标志、交叉路口、预期和意外道路和交通状况的适当步骤。由系统10评估的场景包括环形交叉口、车道改变、无保护的左转、超车合并场景、行人周围的行为等。车辆12可以包括用于感知周围环境的多个传感器(未示出)。来自传感器的数据被传输到控制器C，以供车辆规划模型等使用。车辆传感器可以包括本领域技术人员可用的各种类型的技术，诸如雷达、相机、声波或激光雷达单元和惯性测量单元。

在一些实施例中，计算单元14作为非机载云计算服务的一部分远程定位，在本文中称为云单元34。云单元34可以包括托管在互联网上的一个或多个服务器，以存储、管理和处理数据，由诸如例如研究所或公司的组织维护。云单元34可以至少部分地由各个位置处的人员管理。云单元34可以是由诸如研究所、公司、大学和/或医院的组织维护的私有或公共信息源。

在其他实施例中，计算单元14可以在嵌入在属于车辆12的用户的智能设备中的移动应用程序36上运行。移动应用程序36可以链接到车辆12，例如作为车辆信息娱乐系统的一部分。可以采用本领域技术人员可用的移动应用程序36(“app”)的电路和组件。

参考图1，控制器C可以被配置为经由无线网络40与计算单元14通信。图1的无线网络40可以是短程网络或远程网络。无线网络40可以是通信总线(BUS)，其可以是串行控制器区域网络(CAN-BUS)的形式。无线网络40可以包括Bluetooth^TM连接、使用无线分布方法链接多个设备的无线局域网(LAN)、连接若干无线LAN的无线城域网(MAN)、或无线广域网(WAN)。还可以采用其他类型的连接。

现在参考图2，示出了用于控制自动驾驶操作的方法100的示例流程图。方法100可以体现为存储在图1的控制器C和/或计算单元14上并且至少部分地可由其执行的计算机可读代码或指令。方法100不需要以本文所述的特定顺序应用。此外，应当理解，可以消除一些框或步骤。方法100可以在车辆12的正常和正在进行的操作期间实时地、连续地、系统地、零星地和/或以规则间隔(例如，每10毫秒)来执行。

根据图2的框110，控制器C被编程为设置认知学习模型20。认知模型是出于理解和预测的目的对人类认知过程的估计。认知学习模型20使用状态和动作的小的表示，并且被设计用于捕获人类行为和影响它的问题。认知学习模型20可以采用分位数分箱(quantile-binning)来将状态特征(来自预定的状态组)离散化为动作变量。

认知学习模型20使用的模型的具体类型可以基于手边的应用而变化。在一个实施例中，认知学习模型20包含自动抽象方法。在另一个实施例中，认知学习模型20包括降维方法。认知学习模型20可以包含逆强化学习模型。在另一个实施例中，认知学习模型20可以包含双替代强制选择模型或多替代强制选择模型。

在又一个实施例中，认知学习模型20在输出层中并入具有激活函数的神经网络，该激活函数预测多项式概率分布。如本领域技术人员所理解的，神经网络被设计为从真实世界数据(例如，图像、声音、文本、时间序列等)中识别模式，将它们翻译或转换为数字形式并嵌入矢量或矩阵中。神经网络可以采用深度学习图来将输入向量x与输出向量y匹配。换言之，神经网络学习激活函数f，使得f(x)映射到y。训练过程使得神经网络能够将用于变换输入向量x的适当的激活函数f(x)关联到输出向量y。在简单线性回归模型的情况下，学习两个参数：偏差和斜率。偏差是当输入向量x为0时输出向量y的水平，并且斜率是针对输入向量x的每个单位增加的输出向量y的预测增加或减少的比率。

进行到图2的框120，控制器C被编程为建立语义层24，包括第一、第二和第三数据适配器A1、A2和A3。块120包括子块122、124和126。语义层24可以被配置为采用马尔可夫决策过程(Markov Decision Process)。如本领域技术人员所理解的，马尔可夫决策过程是提供用于决策建模的数学框架的离散时间随机控制过程。马尔可夫决策过程(MDP)模型用于从人类驾驶员学习奖励。语义层24将原始马尔可夫决策过程变量(例如，<S,A,T,R>)转换为抽象表示(例如，)。

根据子框122，方法100包括经由第一数据适配器A1将真实交通数据(例如，来自数据库26)转换为相应的等效抽象表示，使得认知学习模型20可以使用它来生成人性化奖励模型30。认知学习模型20创建任务、状态和动作的抽象概念，这有助于从可用数据中学习。第一适配器A1将人类行为的时间数据翻译成语义空间。真实数据可以是原始视觉或跟踪的，第一适配器A1基于为认知学习模型20选择的模型，将状态和人类行为的顺序数据转换为由认知语义空间定义的抽象概念。

根据子框124，方法100包括经由车辆规划模型22获得车辆12的状态和动作变量对。经由第二数据适配器A2，状态和动作变量对被转换为语义层24中的相应等效抽象表示。然后将相应的等效抽象表示发送到人性化奖励模型30。奖励函数R(s,a)＝∑βiFi(s,a)可以近似为其中s是状态向量，并且a是动作变量。语义MDP旨在简单且更有效地学习人类行为。奖励可以以每个潜在动作的数字分数的形式表示。

根据子框126，方法100包括经由第三数据适配器A3将相应数据从人性化奖励模型30发送到车辆规划模型22。换句话说，所学习的知识(例如，奖励函数、概率分布等)被发送到车辆规划模型22。

前进到图2的框130，控制器C被编程为部分地基于轨迹规划32来控制车辆12的自动驾驶操作D，基于车辆状态和动态、与相邻车辆和道路状况有关的数据、传感器数据和由认知学习模型20赋予的训练来生成优化轨迹规划。可以基于建模和实时数据来更新车辆12的推荐行进路径。

现在参考图3，示出了车辆12面临的车道合并场景。图3中的车辆12位于第二车道216附近的第一车道214中。第一车道214和第二车道216在合并轨迹位置220处合并成单个道路218。合并轨迹位置220可以出现在两条车道物理地合并成一条车道的情况下或在非结构化交通场景中。参考图3，车辆12在一个或多个相邻车辆224附近。相邻车辆224可在与车辆12相同的车道中或在相邻或附近车道中，诸如第一车道214中的汽车226和第二车道216中的汽车228、230、232和234。

合并轨迹位置220针对每个时间步长限定车辆对之间的间隙序列。默认间隙(t)是车辆12预期合并的一对车辆(超前/滞后)。由车辆传感器跟踪的特征可以包括相邻车辆224和车辆12之间的相应间隙长度、每个相邻车辆224之间的相应间隙长度的变化、间隙中的相邻车辆224的加速度、相应的碰撞时间以及相同车道中的领先车辆(例如，汽车226)的相对速度。在诸如恒定速度或加速度的一组假设下，动作空间可以用以下选项分类：减速、保持原状、加速。

在一个示例中，认知学习模型20包含softmax函数，其可以用作预测多项式概率分布的神经网络模型的输出层中的激活函数。softmax函数的输出是具有每个可能结果的概率的向量。第一适配器A1将真实记录的轨迹(例如，来自NGSIM i80数据)转换为间隙顺序和采用/跳过的动作序列。第二适配器A2将规划器场景状态表示变换为分类为间隙顺序和采用/跳过的序列。第三适配器A3将动作的归一化概率(take|state)的分布变换为单个奖励数，例如取平均值或分布的25％百分位数。

车辆12面临的另一示例场景是车道变换。这里，认知学习模型20可以包括使用最大熵算法的逆强化学习，如本领域技术人员所理解的。语义层24的第一适配器A1转换人类驾驶员改变车道的人类驾驶记录和状态表示(作为一组相对速度和距离序列)。第二适配器A2将规划器场景状态表示转换为状态编码以及是否进行了车道改变。第三适配器A3将(状态，动作)的近似奖励转换为规划者奖励。

由车辆传感器跟踪的第一特征包括领先车辆和潜在领先车辆的相对速度，第二特征可以包括车辆12和相邻车辆的相对速度。第三特征可以包括车辆12距潜在跟随车辆和潜在领先车辆的距离。第一可能的驾驶动作包括保持车道，并且第二可能的驾驶动作是改变车道(动作/空间)。这里，选择轨迹或可能的驾驶动作可以包括实现马尔可夫决策。奖励函数针对每个对应的驾驶动作输出对应的负奖励或正奖励，结合了从人类行为的学习。

总之，系统10(经由方法100的执行)将“人类因素”添加到车辆规划。当通过使用语义层24从人类数据学习奖励函数时，系统10将车辆规划表示与学习/训练表示分离。这允许独立地设计认知学习模型和规划模型。语义层24通过实现三个适配器来在两个表示之间进行转换/桥接，这三个适配器将来自交通数据或来自车辆规划数据的(状态、动作)对转换为等效抽象表示，使得它可以由认知学习模型20使用和评估。系统10使得能够利用认知模型的紧凑性和语义来从人类行为中学习，同时使得能够将学习的知识集成到由车辆规划模型22使用的通用模型中。

图1的控制器C可以是车辆12的其他控制器的集成部分，或者是可操作地连接到车辆12的其他控制器的单独模块。在一个示例中，控制器C可以是车辆12的电子控制单元(ECU)。存储器M可以存储控制器可执行指令集，并且处理器P可以执行存储在存储器M中的控制器可执行指令集。

图1的控制器C包括计算机可读介质(也称为处理器可读介质)，包括参与提供可以由计算机(例如，由计算机的处理器)读取的数据(例如，指令)的非暂时性(例如，有形)介质。这样的介质可以采取许多形式，包括但不限于非易失性介质和易失性介质。非易失性介质可以包括例如光盘或磁盘以及其他持久性存储器。易失性介质可以包括例如可以构成主存储器的动态随机存取存储器(DRAM)。这样的指令可以由一个或多个传输介质传输，包括同轴电缆、铜线和光纤，包括包含耦合到计算机的处理器的系统总线的导线。一些形式的计算机可读介质包括例如软盘、柔性盘、硬盘、磁带、其他磁介质、CD-ROM、DVD、其他光学介质、具有孔图案的物理介质、RAM、PROM、EPROM、FLASH-EEPROM、其他存储器芯片或盒式磁带、或计算机可以从中读取的其他介质。

这里描述的查找表、数据库、数据仓或其它数据存储器可以包括用于存储、访问和检索各种数据的各种机制，包括分层数据库、文件系统中的一组文件、专有格式的应用数据库、关系数据库能量管理系统(RDBMS)等。每个这样的数据存储器可以被包括在采用诸如上述计算机操作系统之一的计算机操作系统的计算设备内，并且可以通过网络以各种方式中的一种或多种来访问。文件系统可以从计算机操作系统访问，并且可以包括以各种格式存储的文件。除了用于创建、存储、编辑和执行存储过程的语言(诸如上述PL/SQL语言)之外，RDBMS还可以采用结构化查询语言(SQL)。

图2中的流程图示出了根据本公开的各种实施例的系统、方法和计算机程序产品的可能实现的架构、功能和操作。在这方面，流程图或框图中的每个框可以表示代码的模块、片段或部分，其包括用于实现指定的逻辑功能的一个或多个可执行指令。还应注意，框图和/或流程图图示的每个框以及框图和/或流程图图示中的框的组合可以由执行指定功能或动作的基于专用硬件的系统或专用硬件和计算机指令的组合来实现。这些计算机程序指令还可以存储在计算机可读介质中，该计算机可读介质可以指示控制器或其他可编程数据处理装置以特定方式起作用，使得存储在计算机可读介质中的指令产生包括用于实现流程图和/或框图框中指定的功能/动作的指令的制品。

本说明书(包括所附权利要求书)中的参数(例如，数量或条件)的数值应理解为在每个相应实例中由术语“约”修饰，无论“约”是否实际出现在数值之前。“约”表示所述数值允许一些轻微的不精确性(在该值中具有一些接近精确的程度；约或合理地接近该值；接近)。如果由“约”提供的不精确性在本领域中没有以这种普通含义另外理解，则如本文所用的“约”至少表示可能由测量和使用这些参数的普通方法引起的变化。此外，范围的公开包括在整个范围内的每个值和进一步划分的范围的公开。范围内的每个值和范围的端点在此作为单独的实施例公开。

详细的说明书和附图或图是对本公开的支持和描述，但是本公开的范围仅由权利要求限定。虽然已经详细描述了用于执行所要求保护的公开内容的一些最佳模式和其他实施例，但是存在用于实践所附权利要求中限定的公开内容的各种替代设计和实施例。此外，附图中所示的实施例或本说明书中提到的各种实施例的特征不一定被理解为彼此独立的实施例。相反，在实施例的一个示例中描述的每个特性可以与来自其他实施例的一个或多个其他期望特性组合，从而产生没有以文字或通过参考附图描述的其他实施例。因此，这样的其他实施例落入所附权利要求的范围的框架内。

Claims

1.一种用于控制车辆的自动驾驶操作的方法，所述车辆具有控制器，所述控制器具有处理器和有形非暂时性存储器，所述方法包括：

建立用于在所述自动驾驶操作中执行规划和学习的相应的独立模型，所述独立模型包括车辆规划模型和认知学习模型；

生成语义层以充当所述认知学习模型与所述车辆规划模型之间的桥梁，所述语义层包括第一数据适配器和第二数据适配器；

获取真实交通数据；

经由所述第一数据适配器，将所述真实交通数据转换为相应的等效抽象表示，使得所述认知学习模型可以使用所述等效抽象表示来生成人性化奖励模型；

经由所述车辆规划模型，部分地基于所述人性化奖励模型来确定轨迹规划；以及

经由所述控制器，部分地基于所述轨迹规划来执行所述自动驾驶操作。

2.根据权利要求1所述的方法，还包括：

经由所述车辆规划模型，获得所述车辆的状态变量和动作变量对；以及

经由所述第二数据适配器，在所述语义层中将所述状态变量和动作变量对转换为相应的等效抽象表示，所述相应的等效抽象表示被传输到所述人性化奖励模型。

3.根据权利要求2所述的方法，还包括：

将第三数据适配器并入所述语义层中；以及

经由所述第三数据适配器，将相应数据从所述人性化奖励模型传输到所述车辆规划模型。

4.根据权利要求2所述的方法，还包括：

在语义层中使用马尔可夫决策过程模型。

5.根据权利要求2所述的方法，还包括：

将双替代强制选择模型或多替代强制选择模型并入所述认知学习模型中。

6.根据权利要求2所述的方法，还包括：

将逆强化学习模型并入所述认知学习模型中。

7.根据权利要求2所述的方法，还包括：

在所述认知学习模型中采用分位数分箱以将预定状态组的状态特征离散化为动作变量。

8.根据权利要求2所述的方法，还包括：

将神经网络并入所述认知学习模型中，所述神经网络在输出层中具有激活函数，所述激活函数预测多项式概率分布。

9.根据权利要求2所述的方法，还包括：

将所述认知学习模型和所述语义层托管在非机载云计算服务中。

10.一种用于控制车辆中的自动驾驶操作的系统，所述系统包括：

控制器，其可操作地连接到所述车辆，所述控制器具有处理器和其上记录有指令的有形非暂时性存储器；

计算单元，所述计算单元与所述控制器通信并且具有用于在所述自动驾驶操作中执行规划和学习的相应的独立模型，所述独立模型包括车辆规划模型和认知学习模型；

其中，所述计算单元包括语义层，所述语义层适于充当所述认知学习模型与所述车辆规划模型之间的桥梁，所述语义层包括第一数据适配器和第二数据适配器；

其中，所述第一数据适配器被配置为将真实交通数据转换为相应的等效抽象表示，使得所述认知学习模型可以使用所述等效抽象表示来生成人性化奖励模型；

其中，所述车辆规划模型适于部分地基于所述人性化奖励模型来确定轨迹规划；以及

其中，所述控制器适于部分地基于所述轨迹规划来执行所述自动驾驶操作。