CN111754015A

CN111754015A - 在动态系统中训练和选择最优解决方案的系统和方法

Info

Publication number: CN111754015A
Application number: CN202010180401.5A
Authority: CN
Inventors: R.斯科西奥尼; R.巴特查里亚
Original assignee: GM Global Technology Operations LLC
Current assignee: GM Global Technology Operations LLC
Priority date: 2019-03-26
Filing date: 2020-03-16
Publication date: 2020-10-09
Also published as: US20200310420A1

Abstract

提供一种自主车辆、用于操作该自主车辆的系统和方法。该系统包括多个解决方案模块、状态模块、假设解析器和导航模块。多个解决方案模块各自为动因的未来状态提供解决方案。状态模块提供环境状态。假设解析器接收环境状态和多个解决方案，基于环境状态从多个解决方案中选择一解决方案，并确定解决方案的回报，该回报表明解决方案对于环境状态的置信度。导航模块基于所选择的解决方案来对自主车辆导航。

Description

在动态系统中训练和选择最优解决方案的系统和方法

技术领域

本发明涉及自主车辆，尤其涉及一种系统和方法，用于训练与自主车辆相关联的认知处理器，以在动态变化的场景和/或状况下为动因行为选择最优解决方案。

背景技术

自动驾驶车辆旨在将乘客从一个地方运送到另一个地方，而乘客没有或只有很少的输入。这种车辆需要获得关于环境中的动因(即其他车辆、行人、骑自行车者等)及其可能的运动的认知的能力，并基于该认知来计算自主车辆的轨迹。与自主车辆相关联的认知处理器包括多个假设器，其每一个预测环境中各种动因的可能未来轨迹。一般来说，每个假设器会对每个动因预测一条轨迹。因此，如果对于M个动因执行N个假设，那么每个动因将总共有N个潜在的未来轨迹。然后使用假设解析器从这些预测中的N个中选择一个作为每个动因的最优解决方案。例如，假设一个行人P处在交汇口，我们可以有3个假设器，其每一个假设预测一个不同(或相同)的结果：P停下来等待横穿，P直接走进交汇口，P继续走在人行道上。假设解析器的职责是根据当前和过去的信息，从三种可能的解决方案中选择最有可能的。然后使用选择的解决方案来确定自动车辆的行动路线。提交给假设解析器的每个假设对于一组状况可能是最优的，而对于另一组状况可能不是最优的。因此，需要基于过去的运动、当前的运动和其他环境状况能够选择最准确地描述动因(例如车辆、行人、动物、骑自行车者等)未来运动的预测。

发明内容

在一个示例性实施例中，公开了一种操作自主车辆的方法。在假设解析器处接收用于动因的未来状态的多个解决方案。假设解析器接收环境状态。基于环境状态和与每个解决方案相关联的回报，从多个解决方案中选择一解决方案，该回报表明针对该环境状态的解决方案的置信度水平。基于所选择的解决方案来对自主车辆导航。

除了本文描述的一个或多个特征之外，环境状态包括天气状况、交通模式、交通规则和道路状况中的至少一个。该方法还包括在训练模式期间训练假设解析器，以将回报与用于所选环境状态的每个解决方案相关联。该方法还包括在所述训练模式期间通过以下方式训练所述假设解析器：针对解决方案和所接收的环境状态，预测所述动因在所选择的未来时间的状态，测量所述动因在所选择的未来时间的实际状态，基于所预测的状态和所述实际状态确定用于所述解决方案的误差，以及基于所述误差将所述回报分配给所述解决方案。回报与误差成反比。该方法还包括调整解决方案的回报以避免解决方案与环境状态过拟合。误差由预测状态和实际状态之间的欧几里德距离确定。

在另一示例性实施例中，公开了一种用于操作自动车辆的系统。该系统包括多个解决方案模块、状态模块、假设解析器和导航模块。多个解决方案模块各自为动因的未来状态提供解决方案。状态模块提供环境状态。假设解析器接收环境状态和多个解决方案，基于环境状态从多个解决方案中选择一解决方案，并确定用于该解决方案的回报，该回报表明针对该环境状态的该解决方案的置信度水平。导航模块基于所选择的解决方案来对自主车辆导航。

除了本文描述的一个或多个特征之外，环境状态包括天气状况、交通模式、交通规则和道路状况中的至少一个。该系统还包括用于在训练模式期间训练假设解析器的神经网络，以将回报与用于所选择环境状态的多个解决方案中的每一个相关联。神经网络在所述训练模式期间通过以下方式训练所述假设解析器：针对解决方案和所接收的环境状态，预测所述动因在所选择的未来时间的状态，测量所述动因在所选择的未来时间的实际状态，基于所预测的状态和所述实际状态确定用于所述解决方案的误差，以及基于所述误差将所述回报分配给所述解决方案。回报与误差成反比。假设解析器调整解决方案的回报，以避免解决方案与环境状态过拟合。误差由预测状态和实际状态之间的欧几里德距离确定。

在另一个示例性实施例中，公开了一种自主车辆。自主车辆包括多个解算模块、状态模块、假设解算器和导航模块。多个解决方案模块各自为动因的未来状态提供解决方案。状态模块提供环境状态。假设解析器接收环境状态和多个解决方案，基于环境状态从多个解决方案中选择一解决方案，并确定用于该解决方案的回报，该回报表明针对该环境状态的该解决方案的置信度水平。导航模块基于所选择的解决方案来对自主车辆导航。

除了本文描述的一个或多个特征之外，环境状态包括天气状况、交通模式、交通规则和道路状况中的至少一个。该自主车辆还包括用于在训练模式期间训练假设解析器的神经网络，以将回报与所选环境状态的多个解决方案中的每一个相关联。神经网络在训练模式期间训练假设解析器，其方式是针对解决方案和所接收的环境状态，预测所述动因在所选择的未来时间的状态，测量动因在所选择的未来时间的实际状态，基于预测状态和实际状态确定用于解决方案的误差，并基于误差将回报分配给解决方案。回报与误差成反比。假设解析器调整解决方案的回报，以避免解决方案与环境状态过拟合。

当结合附图时，根据以下详细描述，本公开的上述特征和优点以及其他特征和优点将变得显而易见。

附图说明

其他特征、优点和细节仅作为示例出现在以下详细描述中，详细描述参考附图，其中:

图1示出了根据各种实施例描述的具有关联轨迹规划系统的自主车辆；

图2示出了包括与自主车辆或车辆模拟器集成的认知处理器的示例性控制系统；

图3示出了假设解析器的示意图，该假设解析器用于根据提供给假设解析器的多个假设对象或解决方案来预测动因状态；

图4示出了适用于训练假设解析器的示例性交通场景；

图5示出了说明假设解析器的训练模式的流程图；和

图6示出了说明假设解析器的操作模式的流程图。

具体实施方式

以下描述本质上仅是示例性的，并不旨在限制本公开、其应用或用途。应当理解，在所有附图中，相应的附图标记表示相似或相应的部件和特征。如这里所使用的，术语“模块”指的是处理电路，其可以包括专用集成电路(ASIC)、电子电路、执行一个或多个软件或固件程序的处理器(共享的、专用的或成组的)和存储器、组合逻辑电路和/或提供所述功能的其他合适的部件。

根据示例性实施例，图1示出了根据各种实施例的具有在100处显示的关联轨迹规划系统(trajectory planning system)的自主车辆10。通常，轨迹规划系统100确定自动驾驶车辆10的轨迹规划。自主车辆10通常包括底盘12、车身14、前轮16和后轮18。车身14布置在底盘12上，并且基本上封闭了自主车辆10的部件。车身14和底盘12可以共同形成框架。车轮16和18各自在车身14的相应拐角附近旋转地连接到底盘12。

在各种实施例中，轨迹规划系统100被结合到自主车辆10中。自主车辆10例如是被自动控制以将乘客从一个位置运送到另一个位置的车辆。在所示实施例中，自主车辆10被显示为客车，但是应当理解，任何其他车辆包括摩托车、卡车、运动型多功能车(SUV)、休闲车(RV)等，也可以使用。在各种层面上，自主车辆可以通过多种方法来帮助驾驶员，例如指示即将到来的危险情况的警告信号、通过预测用于警告潜在的碰撞等其他动因(agent)的运动来增强驾驶员的情况意识的指示器。自主车辆通过所联接的辅助车辆控制直至对所有车辆功能的完全控制而具有对车辆进行不同程度的干预或控制。在示例性实施例中，自主车辆10是所谓的四级或五级自动化系统。四级系统表示“高度自动化”，指的是自动驾驶系统针对动态驾驶任务的所有方面的特定驾驶模式执行(driving mode-specificperformance)，即使驾驶员没有适当地对要进行干预的请求做出响应。五级系统表示“完全自动化”，指的是自动驾驶系统在所有道路和环境状况下针对动态驾驶任务的所有方面的全职执行(full-time performance)，其可以由驾驶员管理。

如图所示，自主车辆10通常包括推进系统20、变速器系统22、转向系统24、制动系统26、传感器系统28、促动器系统30、认知处理器32、和至少一个控制器34。在各种实施例中，推进系统20可以包括内燃机、诸如牵引马达这样的电机和/或燃料电池推进系统。变速器系统22被配置成根据可选择的速比将动力从推进系统20传递到车轮16和18。根据各种实施例，变速器系统22可以包括多级比自动变速器(step-ratio automatic transmission)、无级变速器或其他合适的变速器。制动系统26被配置为向车轮16和18提供制动扭矩。在各种实施例中，制动系统26可以包括摩擦制动器、线控制动(brake by wire)、再生制动系统(如电机)和/或其他合适的制动系统。转向系统24影响车轮16和18的位置。尽管为了说明的目的而被描绘为包括方向盘，但是在本公开范围内设想的一些实施例中，转向系统24可以不包括方向盘。

传感器系统28包括一个或多个感测装置40a-40n，其感测自主车辆10的外部环境和/或内部环境的可观察状况。传感装置40a-40n可以包括但不限于雷达、激光雷达、全球定位系统、光学照相机、热照相机、超声波传感器和/或其他传感器。传感装置40a-40n获得与车辆环境内的各种对象或动因50相关的测量或数据。这种动因50可以是但不限于其他车辆、行人、自行车、摩托车等，以及不移动的对象。传感装置40a-40n还可以获得交通数据，例如关于交通信号和标志等的信息。

促动器系统30包括一个或多个促动器装置42a-42n，其控制一个或多个车辆特征，例如但不限于推进系统20、变速器系统22、转向系统24和制动系统26。在各种实施例中，车辆特征还可以包括内部和/或外部车辆特征，例如但不限于门、行李箱和车厢特征，例如通风、音乐、照明等。(未编号)。

控制器34包括至少一个处理器44和计算机可读存储装置或介质46。处理器44可以是任何定制的或市场上可买到的处理器、中央处理单元(CPU)、图形处理单元(GPU)、与控制器34相关联的几个处理器中的辅助处理器、基于半导体的微处理器(以微芯片或芯片组的形式)、宏处理器(macroprocessor)、它们的任何组合、或通常用于执行指令的任何装置。计算机可读存储装置或介质46可以包括例如只读存储器(ROM)、随机存取存储器(RAM)和保活存储器(KAM)中的易失性和非易失性存储。KAM是永久性或非易失性存储器，当处理器44断电时，其可用于存储各种操作变量。计算机可读存储装置或介质46可以使用多种已知存储装置中的任何一种来实现，例如PROM(可编程只读存储器)、EPROM(电可擦可编程只读存储器)、EEPROM(电可擦可擦可编程只读存储器)、闪存或能够存储数据的任何其他电、磁、光或组合存储装置，其中一些表示控制器34在控制自主车辆10时使用的可执行指令。

指令可以包括一个或多个单独的程序，每个程序包括用于实现逻辑功能的可执行指令的有序列表。当由处理器44执行时，这些指令接收并处理来自传感器系统28的信号，执行用于自动控制自主车辆10的部件的逻辑、计算、方法和/或算法，并向促动器系统30产生控制信号，以基于逻辑、计算、方法和/或算法自动控制自主车辆10的部件。

控制器34还与认知处理器32通信。认知处理器32从控制器34和传感器系统28的感测装置40a-40n接收各种数据，并执行各种计算，以便向控制器34提供轨迹，供控制器通过一个或多个促动器装置42a-42n在自主车辆10处实施。关于图2提供了认知处理器32的详细讨论。

图2示出了示例性控制系统200，其包括与自主车辆10集成的认知处理器32。在各种实施例中，自主车辆10可以是模拟自主车辆10的各种驾驶场景并模拟自主车辆10对场景的各种响应的车辆模拟器。

自主车辆10包括数据采集系统(data acquisition system)204(例如，图1的传感器40a-40n)。数据采集系统204获得用于确定自主车辆10和自主车辆的环境中的各种动因的状态的各种数据。这种数据包括但不限于运动学数据、位置或姿态数据等，以及关于其他动因的数据，包括距离、相对速度(多普勒效应)、高度、角位置等。自主车辆10还包括发送模块206，发送模块206将获取的数据打包，并将打包的数据发送到认知处理器32的通信接口208，如下所述。自主车辆10还包括接收模块202，接收模块202从认知处理器32接收操作命令，并在自主车辆处执行该命令，以对自主车辆导航。认知处理器32从自主车辆10接收数据，基于所提供的状态信息和本文公开的方法计算自主车辆的轨迹，并在接收模块202处将轨迹提供给自主车辆。自主车辆10然后实施由认知处理器32提供的轨迹。

认知处理器32包括用于与自主车辆10通信的各种模块，包括用于从自主车辆接收数据的接口模块208和用于向自主车辆10发送指令(例如轨迹)的轨迹发送器222。认知处理器32还包括工作存储器210，其存储从自主车辆10接收的各种数据以及认知处理器32的各种中间计算。认知处理器32的假设器模块(hypothesizer module)(一个或多个)212用于使用存储在工作存储器210中的多种可能的预测方法和状态数据来提出自主车辆10的环境中的一个或多个动因50的各种假设轨迹和运动。认知处理器32的假设解析器(hypothesisresolver)214接收环境中每个动因50的多个假设轨迹，并从多个假设轨迹中为每个动因确定最可能的轨迹。

认知处理器32还包括一个或多个决策器模块216和决策解析器(decisionresolver)218。决策器模块(一个或多个)216从假设解析器214接收环境中每个动因50的最可能轨迹，并基于最可能的动因轨迹计算自主车辆10的多个候选轨迹和行为。多个候选轨迹和行为中的每一个都被提供给决策解析器218。决策解析器218从候选轨迹和行为中选择或确定自主车辆10的最优或期望轨迹和行为。

认知处理器32还包括轨迹规划器220，其确定提供给自主车辆10的自主车辆轨迹。轨迹规划器220从决策解析器218接收车辆行为和轨迹，从假设解析器214接收用于每个动因50的最优假设，以及以“状态数据”形式的最新环境信息，以调整轨迹规划。轨迹规划器220处的这一附加步骤能确保，针对对照来自数据采集系统204的最近感测数据，检查动因假设的异步计算中的任何异常处理延迟。该附加步骤在轨迹规划器220中的最终轨迹计算中相应地更新最优假设。

从轨迹规划器220向轨迹发送器222提供所确定的车辆轨迹，其向自主车辆10(例如，在控制器34处)提供轨迹消息，用于在自主车辆处实现。

认知处理器32还包括调制器230，其控制假设器模块(一个或多个)212和决策器模块(一个或多个)216的各种限制和阈值。调制器230还可以将变化应用于假设解析器214的参数，以影响它如何为给定动因50、决策器和决策解析器选择最优假设对象。调制器230是使架构自适应的鉴别器(discriminator)。调制器230可以通过改变算法本身的参数来改变所执行的计算以及决定性计算的实际结果。

认知处理器32的评估器模块232计算并向认知处理器提供情境信息(contextualinformation)，包括误差测量、假设置信度测量、关于环境和自主车辆10状态的复杂性的测量、给定环境信息的自主车辆10的性能评估，包括动因假设和自主车辆轨迹(历史的或未来的)。调制器230从评估器232接收信息，以计算对假设器212、假设解析器214、决策器216的处理参数做出的变化，以及用于决策解析器218的阈值决策解析参数。虚拟控制器224实现轨迹消息，并响应于该轨迹确定各种动因50的前馈轨迹。

调制作为对评估模块232测量的不确定性的响应而发生。在一个实施例中，调制器230接收与假设对象相关联的置信度水平(confidence level)。这些置信度水平可以在单个时间点或在选择的时间窗内从假设对象中收集。时间窗口可以是可变的。评估器模块232确定这些置信度水平分布的熵。此外，假设对象上的历史误差度量也可以在评估器模块232中收集和评估。

这些类型的评估充当认知处理器32的内部情境和不确定性的度量。来自评估器模块232的这些情境信号用于假设解析器214、决策解析器218和调制器230，它们可以基于计算结果改变假设器模块212的参数。

认知处理器32的各种模块彼此独立地操作，并且以单独的更新速率更新(例如，由图2中的LCM-Hz、h-Hz、d-Hz、e-Hz、M-Hz、t-Hz指示)。

在操作中，认知处理器32的接口模块208在数据接收器208a处接收来自自主车辆10的发送模块206的打包数据，并在数据解析器(data parser)208b处解析接收的数据。数据解析器208b将数据放入数据格式中，这里称为属性包，其可以存储在工作存储器210中，并由认知处理器32的各种假设器模块212、决策器模块216等使用。这些数据格式的特定类结构(class structure)不应被认为是对本发明的限制。

工作存储器210在可配置的时间窗口期间从属性包集合中提取信息，以构建自主车辆和各种动因的快照。这些快照以固定的频率发布，并推送到订阅模块(subscribingmodule)。由工作存储器210从属性包创建的数据结构是包含根据时间戳来组织的信息的“状态”数据结构。因此，生成的快照序列包含另一车辆或动因的动态状态信息。所选状态数据结构中的属性包包含有关对象的信息，如其他动因、自主车辆、路线信息等。对象的属性包包含对象的详细信息，如对象的位置、速度、航向角等。这种状态数据结构流过认知处理器32的其余部分，以进行计算。状态数据可以指自主车辆状态以及动因状态等。

假设器模块(一个或多个)212从工作存储器210提取状态数据，以便计算在选择的时间范围或时间步长内动因在本地环境中的可能结果。或者，工作存储器210可以将状态数据推送到假设器模块(一个或多个)212。假设器模块(一个或多个)212可以包括多个假设器模块，其每一个都采用不同的方法或技术来确定动因(一个或多个)的可能结果。一个假设器模块可以使用运动学模型来确定可能的结果，该运动学模型将基本物理和力学应用于工作存储器210中的数据，以便预测每个动因50的后续状态。其他假设器模块可以通过例如对数据采用运动学回归树、对数据应用高斯混合模型/马尔可夫(Markovian)混合模型(GMM-HMM)、对数据应用递归神经网络(RNN)、其他机器学习过程、对数据执行基于逻辑的推理等来预测每个动因50的后续状态。假设器模块212是认知处理器32的模块化部件，并且可以根据需要从认知处理器32添加或移除。

每个假设器模块212包括用于预测动因行为的假设类(hypothesis class)。假设类包括假设对象的规范和一组算法。一旦被调用，就为假设类中的动因创建一个假设对象。假设对象遵循假设类的规范，并使用假设类的算法。多个假设对象可以彼此并行运行。每个假设器模块212基于工作当前数据为每个动因50创建其自己的预测，并将该预测发送回工作存储器210，以供存储和将来使用。当新数据被提供给工作存储器210时，每个假设器模块212更新其假设并将更新的假设推回到工作存储器210中。每个假设器模块212可以选择以其自己的更新速率(例如，速率h-Hz)更新其假设。每个假设器模块212可以单独充当订阅服务，从该订阅服务将其更新的假设推送到相关模块。

由假设器模块212产生的每个假设对象是针对定义的实体(例如位置、速度、方向等)的时间矢量的状态数据结构形式的预测。在一个实施例中，假设器模块(一个或多个)212可以包含碰撞检测模块，其可以改变与预测相关的前馈信息流。具体地，如果假设器模块212预测两个动因50存在冲突，则可以调用另一个假设器模块来对假设对象产生调整，以便考虑预期的冲突或者向其他模块发送警告标志，以试图减轻危险场景或者改变行为来避免危险场景。

对于每个动因50，假设解析器118接收相关的假设对象，并从假设对象中选择单个假设对象。在一个实施例中，假设解析器118调用简单的选择过程。可选地，假设解析器118可以对各种假设对象调用融合过程，以便生成混合假设对象。

由于认知处理器的体系结构是异步的，如果实现为假设对象的计算方法需要更长的时间来完成，那么假设解析器118和下游决策器模块216通过订阅推送过程在最早的可用时间从该特定假设器模块接收假设对象。与假设对象相关联的时间戳向下游模块通知用于假设对象的相关时间框架，允许与假设对象和/或来自其他模块的状态数据同步。假设对象的预测所应用的时间跨度因此在时间上跨模块对齐。

例如，当决策器模块216接收到假设对象时，决策器模块216将假设对象的时间戳与自动车辆10的最近数据(即，速度、位置、方向等)的时间戳进行比较。如果假设对象的时间戳被认为太旧(例如，按照选择的时间标准早于自主车辆数据)，则可以忽略假设对象，直到接收到更新的假设对象。基于最新信息的更新也由轨迹规划器220执行。

决策器模块(一个或多个)216包括以自主车辆10的轨迹和行为的形式产生各种候选决策的模块。决策器模块(一个或多个)216从假设解析器214接收每个动因50的假设，并使用这些假设和自主车辆10的标称目标轨迹作为约束。决策器模块(一个或多个)216可以包括多个决策器模块，多个决策器模块中的每一个使用不同的方法或技术来确定自主车辆10的可能轨迹或行为。每个决策器模块可以异步操作，并从工作存储器212接收各种输入状态，例如由假设解析器214产生的假设。决策器模块(一个或多个)216是模块化部件，并且可以根据需要从认知处理器32中添加或移除。每个决策器模块216可以以其自己的更新速率(例如，速率d-Hz)更新其决策。

类似于假设器模块212，决策器模块216包括用于预测自主车辆轨迹和/或行为的决策器类(decider class)。决策器类包括决策器对象的规范和一组算法。一旦被调用，就从决策器类为动因50创建决策器对象。决策器对象遵循决策器类的规范，并使用决策器类的算法。多个决策器对象可以彼此并行运行。

决策解析器218接收由一个或多个决策器模块生成的各种决策，并为自主车辆10产生单个轨迹和行为对象。决策解析器还可以从评估器模块232接收各种情境信息，其中情境信息被用于产生轨迹和行为对象。

轨迹规划器220从决策解析器218接收轨迹和行为对象以及自主车辆10的状态。轨迹规划器220然后生成用于提供给轨迹发送器222的轨迹消息。轨迹发送器222使用适于与自主车辆通信的格式，向自主车辆10提供轨迹消息，以在自主车辆上实现。

轨迹发送器222还向虚拟控制器224发送轨迹消息。虚拟控制器224在前馈回路中为认知处理器32提供数据。在随后的计算中发送到假设器模块(一个或多个)212的轨迹由虚拟控制器224细化，以模拟由试图跟随轨迹而产生的自主车辆10的一组未来状态。假设器模块(一个或多个)212使用这些未来状态来执行前馈预测。

认知处理器32的各个方面提供反馈回路。虚拟控制器224提供第一反馈回路。虚拟控制器224基于所提供的轨迹来模拟自主车辆10的操作，并响应于自主车辆10所采取的轨迹来确定或预测每个动因50所采取的未来状态。动因的这些未来状态可以作为第一反馈回路的一部分提供给假设器模块。

第二个反馈循环的出现是因为各种模块将在其计算中使用历史信息来学习和更新参数。假设器模块(一个或多个)212例如可以实现它们自己的缓冲器，以便存储历史状态数据，无论状态数据是来自观察还是来自预测(例如，来自虚拟控制器224)。例如，在采用运动学回归树的假设器模块212中，每个动因的历史观察数据被存储几秒钟，并用于状态预测的计算。

假设解析器214在其设计中也有反馈，因为它也利用历史信息进行计算。在这种情况下，关于观测值的历史信息被用于及时计算预测误差，并使用预测误差来调整假设解析参数。滑动窗口可用于选择用于计算预测误差和学习假设解析参数(learning hypothesisresolution parameter)的历史信息。对于短期学习，滑动窗口控制假设解析器214的参数的更新速率。在更大的时间尺度上，预测误差可以在选择的时间段(例如左转时间段)期间被总计，并用于在该时间段之后更新参数。

决策解析器218还使用历史信息进行反馈计算。关于自主车辆轨迹性能的历史信息用于计算最优决策，并相应地调整决策解析参数(decision resolution parameter)。这种学习可以在决策解析器218处以多个时间尺度发生。在最短的时间尺度内，使用评估器模块232连续计算关于性能的信息，并将其反馈给决策解析器218。例如，算法可以用于基于多个度量以及其他情境信息来提供关于由决策器模块提供的轨迹的性能的信息。该情境信息可用作强化学习过程中的回报信号，用于在各种时间尺度上操作决策解析器218。反馈可以与决策解析器218异步，并且决策解析器218可以在接收到反馈时进行调整。

图3示出了假设解析器302的示意图300，假设解析器302用于预测动因状态，例如来自提供给假设解析器302的多个假设对象或解决方案的位置和速度。假设解析器302从多个假设模块(在这种情况下，N个模块)接收多个解决方案(solution)304(例如，解决方案1、解决方案2、…、解决方案N)。每个解决方案都是使用专用于模块的预测机制来预测一个或多个动因的动作。例如，一个模块可以基于动因的当前位置和对象的当前速度来预测动因的轨迹。另一模块可以基于交通规则及其合规性，例如停车标志的存在，来预测动因的不同轨迹。通常，每个模块预测不同的解决方案或轨迹，并且多个轨迹被提供给假设解析器302，假设解析器302选择最优的、最可能的或期望的轨迹。

假设解析器302还从状态模块306接收自主车辆的环境状态或环境状况。在选择最优解决方案时，要考虑环境状态或状况。车辆的环境状态可以包括但不限于天气状况、交通模式、交通规则、道路状况、动因类型、道路类型、道路复杂性、当前动因的数量、过去的解决方案选择等。假设解析器302为给定的环境状态选择最优解决方案，并将该解决方案作为输出308提供给认知处理器200。认知处理器然后可以使用所选择的解决方案来确定自主车辆的轨迹。

假设解析器302经历训练过程，以便能够为不同的动因情况和不同的环境状况正确地选择最优解决方案。在一个实施例中，假设解析器302以离线或训练模式操作，以便在最优解选择中训练假设解析器302。

在离线模式下，可以通过在具有多个交互动因的多个场景的模拟下训练神经网络来执行训练。不同的场景可以包括不同的环境状态，例如不同的天气状况、不同的交通模式或状况等。该模拟在各种不同的环境状态下为假设解析器302提供多个解决方案。每个解决方案预测动因50在未来的选择时间的状态，假设解析器302在给定了所选择场景和/或环境状态的情况下确定每个解决方案的适用性。在各种实施例中，未来的选择时间通常为大约2秒，但是可以是在未来的大约1秒到大约10秒的任何时间。

一旦假设解析器302选择了解决方案，则模拟运行到所选择的未来时间，以生成实际或测量的状态。可以在车辆10的预测状态(来自假设解析器302)和车辆的实际或被测量状态(来自模拟)之间针对每个解决方案计算误差。然后，假设解析器302可以基于误差将回报(reward)或置信度(confidence)值分配给该解决方案。当所选的解决方案能够精确预测给定环境状况下动因的行为时，将分配一个高的回报或置信度。另一方面，当所选择的解决方案在给定的环境状况下很难预测动因的行为时，将分配一个低的回报或置信度水平。

在本实施例中，具有最小误差的解决方案被选择作为最优解决方案，并被分配正回报值(positive reward value)。确切的回报值可以在给定过去的训练的情况下手动选择，或者在运行时计算以避免过拟合(overfit)，或者总是选择相同的解决方案。在某些情况下，一个模块将提供大多数最优解决方案，而其他模块提供涵盖边缘案例的解决方案。对于这些情况，最常用模块的回报需要减少到0.1-0.5范围内的值，以便抵消神经网络的选择算法总是选择产生最多回报的模块的趋势。应当理解，回报或置信度水平是许多变量的函数，例如交通模式、道路状况、天气状况、道路配置等。例如，在一种路况下密切预测动因的未来状态的解决方案可能对另一种路况下动因的未来状态提供较差的预测。

一旦被训练，假设解析器302可以在真实情况场景的操作模式中使用。分配给解决方案的回报或置信度水平可用于在真实情况下选择期望的解决方案。

图4示出了适用于训练假设解析器的示例性交通场景400。示例性交通场景400包括第一路段402和第二路段404(例如，侧方街道)之间的交汇口，该第二路段垂直于第一路段402并且终止于第一路段402和第二路段404之间的交汇口406。第一路段402包括用于沿第一方向420(页面上方)通行的两条车道和用于沿与第一方向相反的第二方向422(页面下方)通行的至少一条车道。

在图4所示的交通场景下，第一动因410(即，自主车辆10)在第一路段402的最左侧沿第一方向行驶，第二动因412在第一路段402的最右侧沿第一方向行驶。第三动因414在第二方向上行驶。当第一动因410接近交汇口406时，第一动因410在交通允许的情况下执行左转。假设解析器302确定第一动因410在左转之前是否必须停止(例如，在位置405)以让位于进入的交通车辆，还是可以继续左转而不停止。

出于说明的目的，两个模块(例如，模块A和模块B)正在生成轨迹，该轨迹被提供给假设解析器302以选择最优轨迹。模块A基于运动学规则生成轨迹，该规则假设第一动因410将保持由当前状况提供的相同速度和前进方向。模块B生成基于规则的轨迹，该轨迹在以下规则下操作:当第一动因410接近交汇口时，如果第一动因410已经用左转信号示出了左转意图并且另一动因(即，第三动因414)正从相反方向接近，则第一动因410将在交汇口停止。相应地，如果左转信号被激活，但是没有动因从相反方向接近，则模块B将预测左转而不停止。

在接近交汇口406之前，第一动因410以恒定的速度和方向沿直线移动。在这些状况下，模块A产生最优轨迹。一旦第一动因410在状况不同时接近交汇口406，则模块B现在生成最优轨迹。假设解析器302被训练来选择最适合动因的交通状况的轨迹，从而在将来的某个时间最小化与动因相关联的误差。

在训练过程中，假设解析器首先在模块A的解决方案和模块b的解决方案之间随机选择。以选择的采样率重复该选择。典型的采样率约为20Hz。在每次选择之后的所选择时间(例如，大约两秒)，可以计算第一动因410遵循的预测轨迹和实际轨迹之间的误差。最简单的误差由预测轨迹和实际轨迹之间的欧几里德距离(Euclidean distance)决定。在各种实施例中，在不改变假设解析器302的结构的情况下，具有不同误差、回报和/或训练算法的扩展可以用更复杂或更简单的替代方案来替代。

在所选择的时间，假设解析器302确定先前的选择是否是最优的。如果选择是最优的，则计算回报信号并将其提供给神经网络算法以加强最优选择。如果选择不是最优的，则向神经网络算法提供负回报(nagtive reward)信号以纠正错误的决定。随着时间的推移，假设解析器将减少选择误差，并正确选择最优解决方案。

对于示例性场景，假设解析器为任何直线路段上的第一个动因选择模块A。当第一动因接近交汇口406时，其前进方向保持不变，同时其速度改变。由于大部分时间，第一动因410沿直线行驶，那么在没有交汇场景的先前经验的情况下，假设解析器302倾向于继续选择模块A，随着动因接近交汇口，导致更高的误差。随着时间的推移，假设解析器302能够正确地计算选择用于直线路段的模块A和选择用于意图左转接近交汇口的动因的模块B之间的转换点。

图5示出了说明一个实施例中假设解析器的训练模式的流程图500。在框502中，获得环境状态，例如交通状况、交通规则等。在框504中，为一个或多个动因生成解决方案，该解决方案基于环境状态预测一个或多个动因的状态或轨迹。在框506中，测量一个或多个动因的实际状态或轨迹。在框508中，在预测状态或轨迹和实际状态或轨迹之间分配误差。在框510中，针对特定环境状况，给解决方案分配置信度水平或回报。

图6示出了说明假设解析器的操作模式的流程图600。在框602，获得环境状态。在框604，选择出为环境状态提供最高回报或置信度水平的解决方案。在框606，使用所选择的解决方案来预测一个或多个动因的状态或轨迹。在框608，使用一个或多个动因的预测状态或轨迹来对自主车辆导航。

尽管已经参考示例性实施例描述了上述公开，但是本领域技术人员将理解，在不脱离其范围的情况下，可以进行各种改变，并且可以用等同物替代其元件。此外，在不脱离本公开的实质范围的情况下，可以进行许多修改以使特定的情况或材料适应本公开的教导。因此，意图是本公开不限于所公开的特定实施例，而是将包括落入其范围内的所有实施例。

Claims

1.一种操作自主车辆的方法，包括:

在假设解析器处接收用于动因的未来状态的多个解决方案；

在假设解析器处接收环境状态；

基于环境状态和与每个解决方案相关联的回报，从多个解决方案中选择一解决方案，该回报表明针对该环境状态的该解决方案的置信度水平；和

基于所选择的解决方案来对自主车辆导航。

2.根据权利要求1所述的方法，还包括在训练模式期间训练所述假设解析器，以针对所选择的环境状态将回报与每个解决方案相关联。

3.根据权利要求2所述的方法，还包括，在所述训练模式期间通过以下方式训练所述假设解析器：针对解决方案和所接收的环境状态，预测所述动因在一选择的未来时间的状态，测量所述动因在所选择的未来时间的实际状态，基于所预测的状态和所述实际状态确定用于所述解决方案的误差，以及基于所述误差将所述回报分配给所述解决方案。

4.根据权利要求3所述的方法，其中所述回报与所述误差成反比。

5.根据权利要求3所述的方法，还包括调整解决方案的回报以避免解决方案与环境状态过拟合。

6.一种用于操作自主车辆的系统，包括:

多个解决方案模块，其每一个为动因的未来状态提供解决方案；

状态模块，其提供环境状态；

假设解析器，其接收环境状态和多个解决方案，基于环境状态从多个解决方案中选择一解决方案，并确定用于该解决方案的回报，该回报表明针对该环境状态的该解决方案的置信度水平；和

导航模块，用于基于所选择的解决方案来对自主车辆导航。

7.根据权利要求6所述的系统，还包括神经网络，其用于在训练模式期间训练假设解析器，以将回报与用于所选择环境状态的多个解决方案中的每一个相关联。

8.根据权利要求7所述的系统，其中，所述神经网络在所述训练模式期间通过以下方式训练所述假设解析器：针对解决方案和所接收的环境状态，预测所述动因在一选择的未来时间的状态，测量所述动因在所选择的未来时间的实际状态，基于所预测的状态和所述实际状态确定用于所述解决方案的误差，以及基于所述误差将所述回报分配给所述解决方案。

9.根据权利要求8所述的系统，其中所述回报与所述误差成反比。

10.根据权利要求8所述的系统，其中所述假设解析器调整解决方案的回报，以避免解决方案与环境状态过拟合。