CN110861634B

CN110861634B - 交互感知决策

Info

Publication number: CN110861634B
Application number: CN201910734923.2A
Authority: CN
Inventors: 胡冶萍; 阿里拉扎·纳卡哈伊萨维达尼; 富冢正芳; 藤村希久雄
Original assignee: Honda Motor Co Ltd
Current assignee: Honda Motor Co Ltd
Priority date: 2018-08-14
Filing date: 2019-08-09
Publication date: 2023-01-17
Anticipated expiration: 2039-08-09
Also published as: DE102019121717A1; JP2020027656A; CN110861634A; JP6797254B2

Abstract

本发明题为“交互感知决策”。本公开提供了交互感知决策，该交互感知决策可以包括：使用马尔可夫决策过程在单代理环境中基于第一策略梯度而训练第一代理，基于第一损失函数而训练第一评价以学习目标；使用马尔可夫博弈在多代理环境中基于第一策略梯度而训练数量N个代理，基于第一损失函数和第二损失函数而训练第二策略梯度和第二评价以学习目标来将第二代理神经网络实例化；以及基于第一代理神经网络和第二代理神经网络而生成交互感知决策网络策略。数量N个代理可以与指示协同水平的驾驶员类型相关联。当发生碰撞时，可以基于相应代理的车道优先级级别将负奖励或惩罚分配给所涉及的每个代理。

Description

交互感知决策

相关申请的交叉引用

本申请要求于2018年9月14日提交的美国临时专利申请序列号62/731729的权益，是于2018年8月14日提交的美国专利申请序列号16/103847(代理人案卷号HRA-43303.01)的部分继续申请，该申请要求于2017年10月12日提交的美国临时专利申请序列号62/571717(代理人案卷号HRA-43303)的权益，并且是于2018年11月16日提交的美国专利申请序列号16/193291(代理人案卷号HRA-44391)的部分继续申请；上述申请的全文以引用方式并入本文。

背景技术

在强化学习上的有效探索可能在多代理设置中是困难的，在该多代理设置中，状态空间和联合行动空间随代理数量而呈指数地扩展。依赖于随机探索来同时地学习个体任务完成和协同行为两者可能是非常低效的。尚未学习来实现局部目标的代理可能很少遇到状态空间的需要协同的区域，以使任何探索行动对于学习协同行为都是无用的。在另一个极端情况下，在需要协同的情况下采取的探索行动可能导致失败，并且所产生的惩罚可能导致代理完全地避开协同问题并且无法学习它们的个体任务。

发明内容

根据一个方面，一种用于交互感知决策的方法可以包括使用马尔可夫决策过程在单代理环境中基于第一策略梯度而训练第一代理并且基于第一损失函数而训练第一评价以学习一个或多个目标，在该单代理环境中第一代理是唯一存在的代理。第一代理可以与第一代理神经网络相关联，并且第一评价可以与第一评价神经网络相关联。用于交互感知决策的方法可以包括使用马尔可夫博弈在包括第一代理和数量N个代理的多代理环境中基于第一策略梯度而训练数量N个代理并且基于第一损失函数和第二损失函数而训练第二策略梯度和第二评价以学习目标中的一个或多个来将第二代理神经网络实例化。数量N个代理中的每一个可以与指示相应代理的协同级别的驾驶员类型相关联。用于交互感知决策的方法可以包括基于第一代理神经网络和第二代理神经网络而生成多目标、多代理、多级交互感知决策网络策略。

驾驶员类型可以是协同的或竞争的。在多代理环境中训练数量N个代理期间，数量N个代理中的代理可以在训练中改变驾驶员类型。

第一代理和数量N个代理中的每一个可以基于相应代理的位置和多代理环境的布局而与车道优先级级别相关联。在训练数量N个代理期间，当在多代理环境的代理中的两个或更多个之间发生碰撞时，可以基于相应代理的车道优先级级别而将负奖励或惩罚分配给碰撞中涉及的相应代理。

用于交互感知决策的方法可以包括基于多代理环境的布局或第一代理和数量N个代理的定位而确定在时间间隔内应用于第一代理的一组可能行动的子集的掩码并且通过从一组可能行动排除一组被掩码的行动来基于一组剩余行动而训练第一代理。一组可能行动可以包括无操作行动、加速行动、减速行动、制动释放行动、向左位移一个子车道行动或向右位移一个子车道行动。

第一评价可以是分散评价，并且第二评价可以是集中评价。在单代理环境中训练第一代理可以在多代理环境中训练数量N个代理之前发生。用于交互感知决策的方法可以包括基于从第一策略梯度和第二策略梯度得到的组合策略梯度而训练数量N个代理。

根据一个方面，一种用于交互感知决策的系统可以包括：处理器；存储器；和模拟器，该模拟器经由处理器和存储器实现。模拟器可以执行使用马尔可夫决策过程在单代理环境中基于第一策略梯度而训练第一代理并且基于第一损失函数而训练第一评价以学习一个或多个目标，在该单代理环境中第一代理是唯一存在的代理。第一代理可以与第一代理神经网络相关联，并且第一评价可以与第一评价神经网络相关联。模拟器可以使用马尔可夫博弈在包括第一代理和数量N个代理的多代理环境中基于第一策略梯度而训练数量N个代理并且基于第一损失函数和第二损失函数而训练第二策略梯度和第二评价以学习目标中的一个或多个来将第二代理神经网络实例化。第一代理和数量N个代理中的每一个可以基于相应代理的位置和多代理环境的布局而与车道优先级级别相关联。在训练数量N个代理期间，当在多代理环境的代理中的两个或更多个之间发生碰撞时，可以由模拟器基于相应代理的车道优先级级别而将负奖励或惩罚分配给碰撞中涉及的相应代理。模拟器可以基于第一代理神经网络和第二代理神经网络而生成多目标、多代理、多级交互感知决策网络策略。

数量N个代理中的每一个可以与指示相应代理的协同级别的驾驶员类型相关联。驾驶员类型可以是协同的或竞争的。

用于交互感知决策的系统可以包括Q-掩码器，该Q-掩码器基于多代理环境的布局或第一代理和数量N个代理的定位而确定在时间间隔内应用于第一代理的一组可能行动的子集的掩码。模拟器可以通过从一组可能行动排除一组被掩码的行动来基于一组剩余行动而训练第一代理。一组可能行动可以包括无操作行动、加速行动、减速行动、制动释放行动、向左位移一个子车道行动或向右位移一个子车道行动。

第一评价可以是分散评价，并且第二评价可以是集中评价。模拟器可以使得在单代理环境中训练第一代理在多代理环境中训练数量N个代理之前发生。模拟器可以基于从第一策略梯度和第二策略梯度得到的组合策略梯度而训练数量N个代理。用于交互感知决策的系统可以包括通信接口，该通信接口将多目标、多代理、多级交互感知决策网络策略发送到服务器或车辆。

根据一个方面，一种用于交互感知决策的车辆可以包括：控制器；一个或多个车辆系统；和车辆通信接口。控制器可以包括处理器和存储器。车辆通信接口可以接收多目标、多代理、多级交互感知决策网络策略。控制器可以根据多目标、多代理、多级交互感知决策网络策略来操作车辆的车辆系统中的一个或多个。多目标、多代理、多级交互感知决策网络策略可以通过以下方式生成：在第一级处，使用马尔可夫决策过程在单代理环境中基于第一策略梯度而训练第一代理并且基于第一损失函数而训练第一评价以学习一个或多个目标，在该单代理环境中第一代理是唯一存在的代理；以及在第二级处，使用马尔可夫博弈在包括第一代理和数量N个代理的多代理环境中基于第一策略梯度而训练数量N个代理并且基于第一损失函数和第二损失函数而训练第二策略梯度和第二评价以学习目标中的一个或多个来将第二代理神经网络实例化。第一代理可以与第一代理神经网络相关联，并且第一评价可以与第一评价神经网络相关联。数量N个代理中的每一个可以与指示相应代理的协同级别的驾驶员类型相关联。可以基于第一代理神经网络和第二代理神经网络而生成多目标、多代理、多级交互感知决策网络策略。

附图说明

图1是根据一个方面的用于协同多目标、多代理、多级(CM3)强化学习的系统的示例性组件图。

图2是用于图1的协同多目标、多代理、多级强化学习的系统的模拟器的示例性组件图。

图3是根据一个方面的用于协同多目标、多代理、多级强化学习的方法的示例性流程图。

图4是根据一个方面的与用于协同多目标、多代理、多级强化学习的方法相关联的示例性数据流程图。

图5A至图5B是根据一个方面的用于协同多目标、多代理、多级强化学习的方法的示例性流程图。

图6是根据一个方面的与协同多目标、多代理、多级强化学习相关联的示例性模拟场景。

图7至图8是根据一个方面的与协同多目标、多代理、多级强化学习相关联的示例性性能结果。

图9是根据一个方面的与协同多目标、多代理、多级强化学习相关联的示例性模拟场景。

图10是根据一个方面的与协同多目标、多代理、多级强化学习相关联的示例性奖励与事件图。

图11是根据一个方面的自主车辆策略生成系统的组件图。

图12是根据一个方面的自主车辆策略生成方法的流程图。

图13A是根据一个方面的自主车辆策略生成方法的流程图。

图13B是根据一个方面的与自主车辆策略生成相关联的示例性模拟接口。

图14A至图14C是根据一个方面的可实现自主车辆策略生成的示例性场景。

图15是根据一个方面的用于交互感知决策的系统的示例性组件图。

图16是根据一个方面的用于交互感知决策的方法的示例性流程图。

图17是根据一个方面的其中策略网络生成根据用于交互感知决策的系统或方法发生的示例性场景。

图18A至图18B是根据一个方面的分别与用于交互感知决策的系统和方法的级一训练和级二训练相关联的示例性数据流程图。

图19A至图19D是根据一个方面的与根据用于交互感知决策的系统或方法训练代理相关联的示例性环境。

图20是根据一个方面的示例性计算机可读介质或计算机可读装置的图示，该计算机可读介质或计算机可读装置包括被配置为体现本文阐述的规定中的一个或多个的处理器可执行指令。

图21是根据一个方面的示例性计算环境的图示，本文阐述的规定中的一个或多个在该计算环境中实现。

具体实施方式

以下包括本文采用的选定术语的定义。定义包括落入某个术语的范围内的并可用于实施方式的各种组件示例和/或形式。这些示例不是限制性的。此外，本领域的普通技术人员将会知道，本文讨论的组件可以组合、省略或与其他组件组织或组织成不同架构。

如本文所用的“处理器”处理信号并且执行一般计算和算术功能。由处理器处理的信号可以包括数字信号、数据信号、计算机指令、处理器指令、消息、位、位流或可被接收、传输和/或检测的其他手段。一般来讲，处理器可以是多种处理器，包括多个单核和多核处理器和协处理器以及其他多个单核和多核处理器和协处理器架构。处理器可以包括各种模块以执行各种功能。

如本文所用的“存储器”可以包括易失性存储器和/或非易失性存储器。非易失性存储器可以包括例如ROM(只读存储器)、PROM(可编程只读存储器)、EPROM(可擦除PROM)和EEPROM(电可擦除PROM)。易失性存储器可以包括例如RAM(随机存取存储器)、同步RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双倍数据速率SDRAM(DDRSDRAM)和直接RAM总线RAM(DRRAM)。存储器可以存储控制或分配计算装置的资源的操作系统。

如本文所用的“盘”或“驱动器”可以是磁盘驱动器、固态磁盘驱动器、软盘驱动器、磁带驱动器、Zip驱动器、闪存存储器卡和/或存储棒。此外，盘可以是CD-ROM(压缩盘ROM)、CD可记录驱动器(CD-R驱动器)、CD可重写驱动器(CD-RW驱动器)和/或数字视频ROM驱动器(DVD-ROM)。盘可以存储控制或分配计算装置的资源的操作系统。

如本文所用的“总线”是指可互连的架构，其可操作地连接到在计算机内或在计算机之间的其他计算机组件。总线可以在计算机组件之间传输数据。总线可以是存储器总线、存储器控制器、外围总线、外部总线、纵横开关和/或本地总线等等。总线可还是使用诸如面向媒体的系统传送(MOST)、控制器局域网(CAN)、本地互连网络(LIN)等等协议来将在车辆内的组件互连的车辆总线。

如本文所用的“数据库”可以是指表、一组表和一组数据存储(例如，盘)和/或用于访问和/或操纵那些数据存储的方法。

“可操作的连接”或使实体“可操作地连接”的连接是可发送和/或接收信号、物理通信和/或逻辑通信的连接。可操作的连接可以包括无线接口、物理接口、数据接口和/或电接口。

如本文所用的“计算机通信”是指在两个或多个计算装置(例如，计算机、个人数字助理、蜂窝电话、网络装置)之间的通信，并且可以是例如网络传输、文件传输、小程序传输、电子邮件、超文本传输协议(HTTP)传输等。计算机通信可以跨例如无线系统(例如，IEEE802.11)、以太网系统(例如，IEEE 802.3)、令牌环系统(例如，IEEE 802.5)、局域网(LAN)、广域网(WAN)、点对点系统、电路交换系统、分组交换系统等等发生。

如本文所用，“车辆”可以是指能够运载一个或多个人类乘员并且由任何形式的能量提供动力的任何移动车辆。术语“车辆”包括汽车、卡车、货车、小型货车、SUV、摩托车、踏板车、船只、私人船艇和飞行器。在一些场景中，机动车辆包括一个或多个发动机。此外，术语“车辆”可以是指由完全地或部分地由电池供电的一个或多个电动马达供电的电动车辆(EV)。EV可包括电池动力电动车辆(BEV)和插电式混合动力电动车辆(PHEV)。另外，术语“车辆”可以是指由任何形式的能量提供动力的自主车辆和/或自行驾驶车辆。自主车辆可以运载或可以不运载一个或多个人类乘员。

如本文所用的“代理”可以指“车辆”，诸如在模拟内的车辆或模拟车辆。类似地，如本文所用的“行动者”可以与“代理”互换地使用。另外，如本文所用的“设置”可以与“环境”互换地使用。如本文所用的“特征”可以包括目标。

如本文所用的“车辆系统”可以是可用于加强车辆、驾驶和/或安全性的任何自动或手动系统。示例性车辆系统包括自主驾驶系统、电子稳定性控制系统、防抱死制动系统、制动辅助系统、自动预充制动系统、低速跟随系统、巡航控制系统、碰撞警告系统、碰撞缓解制动系统、自动巡航控制系统、车道偏离警告系统、盲点指示器系统、车道保持辅助系统(LKAS)、导航系统、变速器系统、制动踏板系统、电子动力转向系统、视觉装置(例如，相机系统、接近传感器系统)、气候控制系统、电子预紧系统、监测系统、乘客检测系统、车辆悬架系统、车辆座椅配置系统、车辆车厢照明系统、音频系统、感觉系统等等。

本文讨论的方面可以在存储计算机可执行指令的非暂时性计算机可读存储介质的上下文中描述和实现。非暂时性计算机可读存储介质包括计算机存储介质和通信介质。例如，闪存存储器驱动器、数字通用盘(DVD)、压缩盘(CD)、软盘和磁带盒。非暂态计算机可读存储介质可以包括在用于信息(诸如计算机可读指令、数据结构、模块或其他数据)的存储的任何方法或技术中实现的易失性或非易失性、可移动和不可移动介质。

如本文所用，“CM3”可以是指用于协同多目标、多代理、多级强化学习的方法或用于协同多目标、多代理、多级强化学习的系统(包括但不限于图1的系统、图3的方法、图5A至图5B的方法等)的使用。

代理可以从一组可能行动采取某些行动(其可以是模拟行动)。该组可能行动可以被称为行动集(A)。

环境可以是模拟环境或代理在其中到处移动的世界。

奖励函数(R)可以是估计所采取的(例如，模拟)行动的函数。

贴现因子(γ)可以与未来奖励相乘以使短期决策的权重大于长期奖励。

值(V)可以是包括贴现因子的影响的预期的长期回报。

Q-值(Q)可以是指示在状态(s)上的策略(π)下的行动(a)的长期回报的行动值。

轨迹可以是包括那些状态的状态和/或行动的序列。

策略(π)可以是用于基于当前状态而确定代理的下一行动的策略。

图1是根据一个方面的用于协同多目标、多代理、多级(CM3)强化学习的系统100的示例性组件图。用于CM3强化学习的系统100可以包括处理器102、存储器104、总线106和模拟器108。模拟器108可以经由处理器102和存储器104来实现。模拟器108可以在模拟环境126内模拟或执行与采取一个或多个行动124的一个或多个代理122相关联的模拟，其中一个或多个评价128解释或估计由代理122中的一个或多个采取的行动124中的一个或多个以确定从所采取的行动产生的一个或多个奖励132和一个或多个状态134。

模拟器108或处理器102可以生成CM3策略网络140，该CM3策略网络可以存储在系统100的存储器104上以用于CM3强化学习。该系统可还包括通信接口150，该通信接口使CM3策略网络140能够被传输到可包括CM3数据库162的其他装置，诸如服务器160。以此方式，由系统100生成的用于CM3强化学习的CM3策略网络140可以存储在服务器160的CM3数据库162上。

然后，服务器160可以将CM3策略网络140传播到一个或多个车辆，诸如第一车辆170和第二车辆180。第一车辆可以被配备有车辆通信接口172、存储装置174、控制器176和一个或多个车辆系统178。存储装置可以存储来自服务器160的CM3策略网络140，并且控制器可以基于CM3策略网络140以自主方式操作第一车辆。类似地，第二车辆180可以被配备有车辆通信接口182、存储装置184、控制器186和一个或多个车辆系统188，并且可以与第一车辆类似地操作。

在任何情况下，当CM3策略网络140存储在车辆的存储装置上时，这使控制器能够基于CM3策略网络140而自主地驾驶车辆，以及根据发生在模拟器108内的CM3强化学习来做出自主驾驶决策(因为CM3策略网络140可以指示基于训练或模拟而应当做出的一个或多个策略或决策)。例如，CM3网络策略可以接收与第一自主车辆或第二自主车辆相关联的观察的输入(例如，车辆状态或环境状态)并且输出建议行动。

图2是用于图1的协同多目标、多代理、多级强化学习的系统100的模拟器108的示例性组件图。在图2中，可以看到用于图1的CM3强化学习的系统100的模拟器108。这里，代理可以在环境中采取行动。该行动可以由评价解释为奖励或惩罚以及状态的表示，奖励或惩罚以及状态表示可以然后被反馈给代理。代理可以通过在离散时间步长采取行动来与环境交互。在每个时间步长，代理可以接收可包括奖励的观察。代理可以从一组可用行动选择一个行动，这产生在后续时间步长的新状态和新奖励。代理的目标一般是收集尽可能多的奖励。

级一/局部视图/单代理环境

根据一个方面，模拟器108可以执行级一训练，包括使用马尔可夫决策过程(MDP)在单代理环境中基于第一策略梯度而训练第一代理并且基于第一损失函数而训练第一评价以学习一个或多个特征。在第一级或级一期间，模拟器108可以在单代理设置或环境中(即，在环境内没有其他代理的情况下)训练代理以实现一个或多个个体任务或实现不同目标。这可能是静态环境。由级一中的模拟器108提供的单代理设置或环境使第一代理能够以有利的方式学习或训练一个或多个特征。换句话说，通过减少在第一级中的代理数量，可以更快速、更有效的方式训练第一代理。换句话说，在没有其他代理的情况下实现局部目标的代理可以更可靠地产生用于学习协同行为的所期望的状态配置。

模拟器108可以通过使第一代理能够从一组一个或多个行动选择某个行动来训练第一代理，该组一个或多个行动包括无操作行动、加速行动、减速行动、向左位移一个子车道行动和向右位移一个子车道行动。

可由第一代理在级一中学习的特征中的一个或多个的示例可以包括学习规则和公路规制、如何在速度限制内在公路上行驶或维持速度、如何维持车辆在车道内、如何改变车道或改变子车道位置、如何离开出口匝道、如何进入入口匝道等。

以此方式，第一策略网络具有分散评价，该分散评价可以在单代理设置或环境中学习不同特征。由于第一评价可以是分散评价，因此第一级或级一可以与第一代理的局部视图或个性化奖励、个性化学习等相关联。

级二/全局视图/多代理环境

根据一个方面，模拟器108可以执行级二训练，包括使用马尔可夫博弈在多代理环境中基于第一策略梯度和第二策略梯度而训练数量N个代理并且基于第一损失函数和第二损失函数而训练第二评价以学习在数量N个代理之间的第二组特征(诸如协同)来将第二代理神经网络实例化。在级二训练期间，可以用预训练的第一代理神经网络来将数量N个代理中的每一个实例化。以此方式，通过用来自预训练的第一代理神经网络的先验知识来将数量N个代理中的每一个实例化，可以经由用于CM3强化学习的系统100实现课程增益。就这一点而言，模拟器108可以在单代理环境中训练第一代理可以在多代理环境中训练数量N个代理之前发生。模拟器108可以基于从第一策略梯度和第二策略梯度得到的组合策略梯度而训练数量N个代理。数量N个代理可以包括第一代理。

对于马尔可夫博弈，每个代理可以因此学习完成在有限集内的一个或多个目标或特征，与其他代理协同以实现目标在数量N个代理之间或之中的集体成功，并且在模拟期间用有限局部信息独立地行动。模拟器108可以将环境(例如，单代理环境和多代理环境)制定为事件环境，其中每个代理可以在每个训练事件期间被分配随机采样的目标。在任何情况下，模拟器108可以将环境设置为多目标马尔可夫博弈，并且审查用于分散策略的集中训练的行动者-评价方法。

关于马尔可夫博弈，模拟器108可以将多目标马尔可夫博弈限定为元组<S,{Oⁿ},{Aⁿ},P,R,G,N,γ>，其中数量N个代理被标记为n＝[1...N]。每个代理可以在每个事件期间具有一个目标gⁿ∈G。在每个时间步长t，代理的配置可以完全地由状态s_t∈S指定，而每个代理n接收部分观察

并且选择行动

根据转移概率P(S_t+1|s_t,a):SxA¹x…xA^NxS→[0,1]，模拟器108可以因联合行动

而将环境设置为下一状态s_t+1。每个代理可以接收奖励R:

并且学习任务是找到仅对局部观察和目标设条件的随机策略πⁿ(aⁿ|oⁿ,gⁿ):OⁿxGxAⁿ→[0,1]，以最大化在时域T内的

其中γ是贴现因子。如本文所用，a^-n和g^-n可以分别表示所有代理的行动和目标的集合，代理n的除外；g可以表示所有代理的目标的集合；并且(π(a|o,g):＝∏_nπⁿ(aⁿ|oⁿ,gⁿ)可以表示联合策略。

可以代表

其中ρ^π被限定为在π下的贴现静态状态分布。

在级二中，模拟器108可以通过使用集中评价观察数量N个代理来结合其他未训练的个体或代理的学习。换句话说，第二评价可以是集中评价。模拟器108可以命令集中评价提供局部和/或联合奖励。以此方式，可以提供集中学习分散策略的集中评价。由于第二评价可以是集中评价，因此第二级或级二可以与所有数量N个代理的全局视图或协同型学习相关联。全局视图可以指示作为整体的数量N个代理的交通流量，而局部视图可以指示仅第一代理的移动、流量或效率。全局视图和/或局部视图可以从环境的鸟瞰视角或角度获取。因此，模拟器108的两个模拟级可以提供学习目标的两个视图，即，对应于代理针对其自身的目标的行动和对应于其他代理的成功协同。这两个级可以结合到由神经网络构造桥接的两级(例如，或附加的级，诸如三级、四级等)课程中。

再次解释，在级二中，基于双重评价配置，在多代理设置或环境中，在模拟期间由数量N个代理学习协同以实现不同特征。例如，第一代理可以在第一级中训练，并且第一分散评价可以促成在单代理设置或环境中学习多个特征。在第二级或级二中，数量N个代理可以被实例化到马尔可夫博弈中，并且被配备有预训练的π1(例如，来自级一第一代理的先前训练的参数)和Vπ(例如，来自级一第一分散评价的先前训练的参数)以及新集中评价Q(例如，第二评价)。

在第二级或级二期间，模拟器108可以在多代理设置或环境中训练数量N个代理以实现一个或多个协同任务或实现不同目标。这可能是动态环境。在级二中由模拟器108提供的多代理设置或环境可以使数量N个代理能够学习彼此交互，同时使数量N个代理中的每一个能够分别最终地实现其到达其目标位置的目标。

模拟器108可以通过使数量N个代理中的每一个能够从一组一个或多个行动选择某个行动来训练数量N个代理，该组一个或多个行动包括无操作行动、加速行动、减速行动、向左位移一个子车道行动或向右位移一个子车道行动，这类似于第一代理。

可在级二中由数量N个代理学习的特征中的一个或多个的示例可以包括学习避免与其他代理的碰撞、优化到目标位置的时间。然而，由于在级一中发生的学习(例如，学习如何在静态环境中驾驶)被延续或被实例化到级二的模拟中，因此学习可以比在模拟器108没有提供级一和级二的划分的情况下更快的速率实现。根据一个方面，在级一的单代理环境中学习的一个或多个特征可以与在级二的多代理环境中学习的特征不同。以此方式，模拟器108可以将从第一级学习的特征实例化到第二级的数量N个代理以促成课程学习。

如先前所讨论，在级二中，模拟器108可以通过使用集中评价观察数量N个代理来结合其他未训练的个体或代理的学习。由于数量N个代理中的每个可以用来自第一级或级一的教导(例如，网络策略)来被实例化，因此数量N个代理中的每一个可以就如何在静态环境中驾驶来进行预训练。此外，由于可能存在数量N个代理，因此数量N个代理中的每一个可以放置在多代理环境内的不同位置，并且被暴露于不同场景。通过让模拟器108和评价观察数量N个代理，针对不同场景的学习可以并行地发生。换句话说，可在级二中发生的学习可以通过将由第一代理学习的数据与第二代理共享来实现，反之亦然(例如，将由第二代理学习的数据与第一代理共享)。

例如，如果第一代理尝试进行左侧车道变更并且定位在尝试进行右侧车道变更的第二代理的前方，那么代理中的每一个都暴露于不同场景，并且网络策略可以针对两者进行更新，从而提升学习效率，以大幅地减少与训练CM3系统相关联的训练时间量。在该示例中，第一代理和第二代理具有不同目标(例如，执行左侧车道变更的第一目标和执行右侧车道变更的第二目标，可能是为了获得通向出口匝道的通路)。应当注意，协同学习可以由模拟器108实现。例如，如果第一代理拒绝允许第二代理执行右侧车道变更，并且如果第二代理拒绝允许第一代理执行左侧车道变更，那么可能出现僵持场景，从而使两个代理都不受益。

第二代理神经网络可以与数量N个代理中的每个的o_其他参数相关联，该参数指示对对应数量N个代理中的每个的局部观察。根据一个方面，o_其他参数可以指示第一代理的速度、在第一代理与数量N个代理中的一个之间的车道或子车道的数量、从第一代理到目标位置的距离或与第一代理相关联的车辆类型。o_其他参数可以指示与数量N个代理中的一个相关联的车辆占用状态、数量N个代理中的一个相对于第一代理的相对速度或与数量N个代理中的一个相关联的车辆类型。

虽然本文没有描述第三级或级三，但是设想的是，在第三级中，数量N个代理中的每一个可以由模拟器108用预训练的第一代理神经网络和预训练的第二代理神经网络来实例化，并且附加的学习可以发生，从而能够提供课程学习。

策略生成/分散策略的集中学习

处理器102或模拟器108可以基于第一代理神经网络和第二代理神经网络而生成CM3网络策略。模拟器108可以通过神经网络策略和值函数的模块化增强来桥接两个级(例如，级一和级二)。CM3网络策略可以指示可用于指引图1的自主车辆的控制器以自主的方式操作的数据。例如，CM3网络策略可以接收与第一自主车辆或第二自主车辆相关联的观察的输入(例如，车辆状态或环境状态)并且输出建议行动，该建议行动可以包括无操作行动、加速行动、减速行动、向左位移一个子车道行动和向右位移一个子车道行动，这类似于在模拟期间使用的并且由模拟器108提供的行动。

CM3网络策略可以指示组合视图，该组合视图表示与第一级和第二级相关联的局部视图和全局视图。根据一个方面，模拟器108可以基于局部视图和全局视图而优化CM3网络策略。以此方式，可以提供两级课程，包括用于学习完成个体任务的单代理级，接着是用于在存在其他代理的情况下学习协同的多代理级。模拟器108可以通过分别来自第一级和第二级的神经网络策略和值函数的模块化增强来桥接这两个级(例如，第一级和第二级)。换句话说，模拟器108可以使与第一级或级一相关联的神经网络策略和与第二级或级二相关联的神经网络策略模块化地增强。类似地，模拟器108可以使与第一级或级一相关联的一个或多个值函数和与第二级或级二相关联的一个或多个值函数模块化地增强。

如先前所讨论，经由包括分散值函数(例如，与第一分散评价相关联)和集中行动-值函数(例如，与第二集中评价相关联)的双重评价，CM3可以通过制定策略梯度的局部视图和全局视图并且进行学习来将行动者-评价或代理-评价框架实现于该课程。模拟器108可以因此模拟单代理设置和多代理设置，其中每个代理学习完成在有限集内的目标或特征并且与具有潜在不同的目标或特征的其他代理协同。就这一点而言，用于协同多目标、多代理、多级强化学习的方法或用于协同多目标、多代理、多级强化学习的系统100的CM3框架实现多代理课程以提供一个或多个益处或优点。

例如，多代理探索先前一直是难以解决的问题。通过在单代理设置中训练级一网络策略来实现不同目标，可以通过朝向在单代理设置中学习的个体目标行动来在代理被设置为可靠地生成冲突之后实现可用于寻找协同解决方案的探索行动。

作为另一个示例，可以提供用于多代理强化学习(MARL)的神经网络构造。具体地，可以通过将相关联的输入空间设置为足以在单代理环境中实现个体目标的部分(例如，这可以预限定为第一组目标或特征、预编程为第一组目标或特征、手动地设置为第一组目标或特征等)来简化代理或行动者和评价神经网络的级一训练。在级二神经网络构造中，可以在完整多代理环境中或基于级一训练(例如，级一变量、参数、神经网络等)来扩充、调整或修改架构以进一步学习。这使代理的观察能够分解成代理的自身状态的表示(例如，距目标位置的距离)、以及其他代理的表示。

另外，级一和级二组合。换句话说，使用双重评价(包括用于学习局部目标的分散值函数和用于学习协同的集中行动-值函数)训练分散策略，从而通过显示策略梯度的两个等效视图并且实施新行动者-评价或代理-评价自适应来允许考虑局部目标(objective)或目标(goal)，同时也考虑到在数量N个代理之间的协同。

CM3框架(例如，与CM3系统和CM3方法相关联)在级一中将这些特征组合在包括具有分散评价的简化策略网络的单个课程内以学习实现多个目标，而级二将策略的观察空间扩充到表示其他代理并且使用双重评价实施方式来学习多代理协同。根据一个方面，可以由模拟器108在代理中的一个或多个或全部之中提供参数共享。

接收完整的状态-行动信息的集中评价可以加速对仅接收局部信息的分散行动者或代理(例如，策略)的学习，并且仅行动者在训练之后可以被保留来执行。根据一个方面，在单代理设置中，策略π(具有参数θ)可以通过递增梯度来最大化目标

在方程(1)中，

是行动-值函数，并且b(s)是任何状态相关基线。

根据一个方面，反事实基线可以被限定为：

反事实基线可以解决多代理信用分配问题：Q(s,(a^-n,aⁿ))-b(s,a^-n)可以表示代理的选择行动的并且与所有可能反事实行动的平均值

相比的贡献，从而保持其他代理的行动不变。模拟器108可以采用在所有代理之中参数共享，这意味着所有代理执行相同策略，但是可以根据它们的个体观察有不同的表现。

策略梯度可以被限定为：

本文所述的CM3框架可以是基于反事实基线(例如，等式(3))，该反事实基线考虑个体目标以及局部奖励和联合奖励的混合。

图3是根据一个方面的用于协同多目标、多代理、多级强化学习的方法300的示例性流程图。方法300可以包括在单代理环境中训练302第一代理和第一评价以学习特征，在多代理环境中训练304数量N个代理以学习数量N个代理之间的协同，用预训练的第一代理神经网络将数量N个代理实例化，以及基于第一代理神经网络和第二代理神经网络而生成306协同多目标、多代理、多级(CM3)网络策略。因此，训练302和训练304的行动包括增量多级学习过程以构建306的网络策略。

根据一个方面，在单代理环境中训练302第一代理可以包括使用马尔可夫决策过程在单代理环境中基于第一策略梯度而训练第一代理并且基于第一损失函数而训练第一评价以学习一个或多个特征。第一代理可以与第一代理神经网络相关联，并且第一评价可以与第一评价神经网络相关联。第一评价可以是分散评价。

根据一个方面，在多代理环境中训练304数量N个代理可以包括使用马尔可夫博弈在多代理环境中基于第一策略梯度和第二策略梯度而训练数量N个代理并且基于第一损失函数和第二损失函数而训练第二评价来将第二代理神经网络实例化。可以预训练的方式用第一代理神经网络来将数量N个代理中的每个实例化。第二评价可以是集中评价。以此方式，可以提供双重评价方法。此外，在单代理环境中训练第一代理可以在多代理环境中训练数量N个代理之前发生，从而提高CM3强化学习的效率，如本文将描述。

图4是根据一个方面的与用于协同多目标、多代理、多级强化学习的方法相关联的示例性数据流程图。在图4的级一中，一对简化网络V₁和π₁可以在单代理环境中使用策略梯度

来学习实现多个目标。可以从经训练的π₁、新模块π₂和V的构造来构造新策略网络π。在图4的级二的完整多代理环境中，这些较大π和V连同新集中评价Q一起可以针对数量N个代理中的每个被实例化(在完全参数共享时)，并且使用插值策略梯度进行训练。

可以限定具有由所有个体πⁿ(aⁿ|oⁿ,gⁿ)共享的隐含参数θ的联合策略π(a|o,g)以最大化目标：

可以两种方式(例如，局部和全局)查看目标，从而产生分散评价和集中评价的行动者-评价对。

对于局部视图(例如，第一视图)，模拟器108可以从这些奖励学习分散评价，以便为代理提供策略梯度来实现局部目标，而不需要明确地考虑所有代理的联合成功。目标

可以被限定为对应于个体目标gⁿ。可以通过递增梯度来最大化J_局部：

每个

是对应于个体奖励R(s,aⁿ,gⁿ)的状态-行动值。

在方程(5)的第二行中，可以进行以下近似：

1)对于可伸缩性，通过具有附加的输入目标gⁿ的单个Q^π(s,a,gⁿ)来近似所有

而不是使用n个不同的函数逼近器；

2)在不改变预期的情况下，将Q^π(s,a,gⁿ)替换为有利函数A^π(s,a,gⁿ):＝Q^π(s,a,gⁿ)-Q^π(s,a,gⁿ)，并且使用TD误差

作为优势值的无偏估计；

3)通过用o_t来进行s_t的最终近似，计算分散评价V(o_t,gⁿ)。

在由θ_V参数化的情况下，通过最小化损失来更新评价：

其中θ′_V是目标网络的缓慢地更新到主θ_V的参数。

对于全局视图(例如，第二视图)，可以限定联合奖励

联合奖励可以用于学习集中评价以鼓励每个代理为其他代理的成功做贡献。J_全局可以被限定为：

是集中评价，并且b(s,a^-n,g)可以是具有多个目标的广义反事实基线：

在由θ_Q参数化的情况下，通过最小化损失来更新集中评价：

在方程(9)中，θ′_Q和π’分别表示缓慢更新的目标Q和目标策略网络。

对于组合视图(例如，第三视图)，可以由模拟器108执行使用∝∈(0,1)在两个视图之间的插值以确定联合奖励影响每个代理的策略的程度。

总体策略梯度被限定为：

策略梯度可以被视为双目标优化问题的加权和标量化，其帕累托最优可以通过使用凸性假设沿着方程(10)进行优化来找到。

在级一中，可以在单代理设置中训练行动者π和分散评价V^π以学习多个目标。该级可以是基于单代理马尔可夫决策过程(MDP)。模拟器108可以根据策略梯度

方程(5)和损失

方程(6)来分别训练行动者π(aⁿ|oⁿ,gⁿ)和评价V^π(oⁿ,gⁿ)。可以在每个训练事件中从G对目标均匀地采样，以便代理在训练过程中学习所有目标。模拟器108可以使用深度神经网络进行函数逼近，并且对行动者和评价网络的输入可以包括代理的观察矢量oⁿ和表示特定事件的目标的矢量gⁿ。

模拟器108可以简单地观察到多代理环境通常允许将代理的观察空间分解为

其中

包含关于代理自身的状态(例如，位置)的信息，而

是代理对周围代理的局部观察，并且在级一中处理o_其他的能力并不是必需的。以此方式，模拟器108可以将π和V的输入空间的大小减小为设置成

从而减少在级一中可训练的参数的数量并且提高训练速度。模拟器108可以训练这些减小的行动者和评价网络直到收敛为止，分别将它们标记为π1和V1。

在级二中，模拟器108可以将配备有预训练的π和V^π以及新集中评价Q的所有代理实例化到完全马尔可夫博弈中，并且针对协同行为进行进一步训练。可以用数量N个代理来将马尔可夫博弈实例化。模拟器108可以保留先前训练的π1参数，将代理的新神经网络π2实例化以处理其局部观察的o_其他参数，并且将来自π2的输出的隐藏连接引入选定π1层中。具体地，

可以限定在π1的L层神经网络表示中具有m_i个单元的层I≤L的隐藏激活，该层经由

(具有

和激活函数f)连接到层i-1。级二引入K层神经网络π2(o_其他)，其中输出层

选择π₁的特定层i^*，并且将隐藏激活

扩充为：

其中

可以使用新神经网络V2(o_其他)对评价V1做出等效或类似的扩充。模拟器108可以将集中评价Q^π(s；a；g)(其在级一期间是不需要的，并且因此就不存在)实例化，并且分别使用组合梯度

方程(10)、损失

方程(6)和损失L(θ_Q)方程(9)训练π；V；Q。与级一类似，模拟器108可以通过在每个训练事件期间从在G上的分布采样(例如，随机)来将目标分配给代理。该分布可以被构造为确保在需要协同的困难目标组合上以及在用于维持代理的朝向它们的目标行动的能力的更容易的组合上进行充分的训练。

与在完全多代理环境上的直接训练相比，具有课程学习的行动者-评价网络的这种两级构造提高学习速度。以此方式，与甚至强的基线相比，基于CM3框架的系统和方法学习起来显著地更快速并且发现更成功的策略。两级课程和分散评价促成这一成功，而策略梯度的全局视图在寻找协同解决方案方面有明显优势。

另外的隐藏层i<i^*(其在级一中被预训练以用于处理

)保留处理任务信息的能力，而新模块学习周围代理的影响。可在级一的单代理设置中生成目标指向行动的更高层i≥i^*由组合梯度微调以生成用于实现所有代理的联合成功的协同行动。

图5A至图5B是根据一个方面的用于协同多目标、多代理、多级强化学习的方法的示例性流程图。根据一个方面，图5A至图5B的方法示出用于实现CM3框架的伪代码。

图6是根据一个方面的与协同多目标、多代理、多级强化学习相关联的示例性模拟场景。在图6中，示出了模拟器108中的大型道路网络的一个区段。模拟器108可以包括始于水平位置x_i处的l个初始车道，l个初始车道中的两个遇到合并点，并且在终端位置x_f处具有1-1个目标车道。在每个事件中，在随机选择的初始车道上，数量N个代理从x_i处发出，并且每个代理n与其应当学习以到达位置x_f的随机选择的目标车道gⁿ相关联。代理可以接收具有有限视野的观察，从离散行动空间选择行动，并且根据终端和瞬时标准(例如，达到目标、超过速度限制)两者接收奖励。模拟器108可以定义以下环境：

E1：在本来空旷的道路上的单个代理学习从任何初始车道到达任何目标车道。这用于CM3的级一，其用目标J_局部训练初始网络π1和V1。

E2：随机将N＝4个代理初始化：在概率为0.8的情况下，设置初始和目标车道，使得发生双重合并；在概率为0.2的情况下，对初始和目标车道均匀地采样。CM3的完全级二架构在E2中进行训练。

E2+：用于测试一般化，其中交通模拟器控制的车辆以0.5/秒概率发出。

根据一个方面，模拟器108可以在E1中训练级一，接着是在E2上训练级二。根据另一个方面，可以在E2中直接地训练竞争者方法(例如，在车辆或代理可以进行竞争而不是协同的情况下)。

模拟器108可以被设置为模拟一定总长度的直行道路，包括一个或多个主车道和一个合并车道。在合并车道上的车辆能够合并到合并窗口内的主车道上，并且合并车道可以预先确定的长度终止。车道可以具有宽度，并且车辆可以横向间距沿着车道内的四个子车道中的任一个对准。速度限制可以被设置为预先确定的速度。在E2+中，根据Krauβ跟车模型行事的交通模拟器控制的乘用车和卡车(例如，拖车类型)可以每秒预先确定的概率发出到主车道上。可以将模拟时间分辨率设置为模拟步长时间。

根据一个方面，在E1中，单个代理的初始车道和目标车道可以从在起始车道和终止车道的数量上的均匀分布随机采样。在E2中，在概率为0:2的情况下，所有代理的初始和目标车道可以独立于在起始和终止车道的数量上的均匀分布来进行采样；在概率为0:8的情况下，用初始车道[2,2,3,3]和目标车道[4,4,0,0]来将代理[1,2,3,4]初始化。出发时间可以从正态分布得到，其中均值为[0；2；0；2]s并且标准偏差为0.2s。

局部观察

根据一个方面，每个代理车辆的局部观察可以包括两个参数。在所有训练级中使用的与自身相关的第一参数可以是包括以下的矢量：代理的归一化速度、代理的当前子车道与目标车道的中心子车道之间的子车道的归一化数量、距目标位置的归一化纵向距离、用于在合并车道上的二进制指示符、距沿着道路的下一区段的标准化距离(使用预先确定的区段边界)。

根据另一个方面，第二参数可以是以代理为中心的离散化观察网格，具有如下四个信道，包括：车辆占用的二进制指示符、其他车辆与代理之间的归一化相对速度、车辆类型是乘用车的二进制指示符、车辆类型是卡车的二进制指示符。

全局状态

全局状态矢量可以是所有代理的观察参数

的拼接

目标

每个目标矢量g_n可以是长度的单热矢量，其指示一旦代理n到达预先确定的位置x就应当到达的目标车道。在每个事件期间，可以为所有代理对目标随机采样。

行动

所有代理具有相同离散行动空间，包括五个选项：无操作行动(例如，维持当前速度和车道)、加速、减速和向左位移一个子车道、向右位移一个子车道。每个代理的行动g_n可以表示为预先确定的长度的单热矢量。

个体奖励

根据一个方面，具有目标g_n的代理n的奖励

gn)可以根据以下条件给出：

在碰撞时(接着事件终止)，-10

在超时时(在事件期间超过120个模拟步长)，-10

在到达道路的终点并且与目标车道的中心具有归一化子车道差异时，+10(1-Δ)，

在200m<x<400m期间从另一个车道进入合并车道中时，-5

在200m<x<400m期间在合并车道中时，-0.5

在当前速度超过35.7m/s的情况下，-0.1

共享全局奖励

根据一个方面，共享全局奖励R_g(s_t；a_t；g)可以通过以下确定：

在发生任何碰撞的情况下，-10；以及

在时间t到达道路的终点的代理的所有个体奖励的平均值。

架构

根据一个方面，在级一期间的策略网络π₁将每个输入o_自行和gⁿ馈送到具有32个单元的一个全连接层。拼接可以全连接到具有64个单元的层

并且全连接到具有5个单元的softmax输出层，每个单元对应于一个离散行动。在级二中，输入观察网格o_其他可以由具有大小为5×3且步幅为1×1的4个滤波器的卷积层处理、平坦化并且全连接到具有64个单元的层，然后全连接到π₁的层

ReLU非线性可以用于所有隐藏层。通过经由Pr(aⁿ＝i)＝(1-∈)softmax(i)+∈/|A|界定softmax输出下限来计算行动概率，其中∈是衰减探索参数并且|A|＝5。

在级一期间，分散评价V1可以将输入o_自行和gⁿ中的每个馈送到具有32个单元的一个全连接层。拼接可以全连接到具有单个单元的输出线性层hV1_。在级二中，输入观察网格o_其他可以由具有大小为5×3且步幅为1×1的4个滤波器的卷积层13处理、平坦化并且全连接到具有32个单元的层，然后全连接到V1的输出层

ReLU非线性可以用于所有隐藏层。

集中评价Q(s,a,g)可以接收输入(s,a^-n,gⁿ,g^-n,n)，该输入可以连接到具有128个单元和ReLU激活的两个全连接层，并且全连接到具有5个单元的线性输出层。每个输出节点i的值可以被解释为采取行动i的代理n和采取行动的所有其他代理a^-n的行动值Q(s,a^-n,aⁿ＝i,g)。代理标签矢量n是单热指示符矢量，用作区分不同代理的Q函数的估计的输入。

双重重放缓冲器B₁和B₂可以用作启发式方法，以提高在级二上的所有算法的训练稳定性。可以使用附加的事件缓冲器来存储在每个事件期间遇到的所有环境转变，而不是立即存储每个转变。在每个事件的结束时，可以将所有代理的累积奖励与阈值(例如，32)进行比较，以确定是否应当将在事件缓冲器中的转变存储到B₁或B₂对于训练，小批量的一半分别从B₁和B₂取样。

图7至图8是根据一个方面的与协同多目标、多代理、多级强化学习相关联的示例性性能结果。如图7所示，CM3比E2中的其他技术更早地会聚到超过45k事件的更高性能。在图8中，可以看出，由基于CM3框架的系统或方法学习的策略更好地一般化到E2+。

图9是根据一个方面的与协同多目标、多代理、多级强化学习相关联的示例性模拟场景。在图9中，与E2相关联的初始车道配置要求代理执行双重合并或双重车道变更以到达其目标车道。

图10是根据一个方面的单代理环境E1中的示例性奖励与事件图。

基于掩码的自主车辆策略生成

图11是根据一个方面的自主车辆策略生成系统1100的组件图。用于CM3强化学习的系统100可以包括图11的组件中的一个或多个或整个自主车辆策略生成系统1100。自主车辆策略生成系统1100可以包括处理器1102、存储器1104、存储驱动器1106、状态输入发生器1108、交通模拟器1112、Q-掩码器1114和行动发生器1116。状态输入发生器1108、交通模拟器1112、Q-掩码器1114和行动发生器1116可以经由处理器1102、存储器1104和/或存储驱动器1106实现。

自主车辆策略生成系统1100可以通过模拟和通过Q掩码来生成用于车辆170的自主车辆策略，例如，该车辆可以使用车辆170的控制器176来实现自主车辆策略。

状态输入发生器1108可以如模拟的那样确定或生成与自主车辆相关联的状态信息。换句话说，状态输入发生器1108负责确定网络的与自主车辆策略生成相关联的输入。这些输入的示例可以包括模拟的自主车辆的状态，包括模拟的自主车辆内部的状态信息(例如，与模拟的自主车辆相关联的速度或当前速度)和模拟的自主车辆外部的状态信息(例如，与模拟的自主车辆相关联的车道定位或车道位置，以及距目标(诸如期望的目的地)的距离)。例如，目标可能不一定是最终目的地，但是可以是沿着路线的路点目的地。交通模拟器1112可以模拟模拟环境，该模拟环境包括模拟的自主车辆和在模拟环境内的一个或多个其他车辆(例如，第一车辆、第二车辆、第三车辆等)。交通模拟器1112可以被配置为控制其他车辆以维持在一定范围内的速度。

根据一个方面，交通模拟器1112可以是用于图1的CM3强化的系统100的模拟器108。另外，处理器1102和存储器1104可以与来自图1的用于CM3强化的系统100的处理器102和存储器104相同。

由于距目标的距离可以被认为是交通模拟器1112的输入，因此当存在于诸如在交通中的多车道高速公路的驾驶场景中时，可以考虑关于在策略级上的长期决策的推理。

根据一个方面，交通模拟器1112可以控制在模拟环境内的其他车辆以避免彼此碰撞，而不是与模拟的自主车辆(例如，代理)的碰撞。Q-掩码器1114可以经由低级控制器实现，并且是深度Q-学习系统的一部分，该深度Q-学习系统学习使自主车辆能够在战术级上做出决策的策略。深度Q-学习系统可以学习在状态和与每个潜在行动相关联的Q值之间的映射。换句话说，在深度Q-学习系统并且不应用Q-掩码器1114的情况下，交通模拟器1112将继续模拟每个时间帧的所有可能行动，这可以利用处理器1102和存储器1104的大量计算能力进行。因此，学习完整策略(其中探索每个且每一个行动)在大型网络的情况下可能难以进行训练。

在Q-学习网络中，可以学习在状态和与每个行动相关联的Q值之间的映射。根据一个方面，呈在最大值(或柔性最大值)运算符之前应用在输出Q值上的掩码的形式的Q-掩码可以应用在Q值的输出层上以选取‘最佳’行动。就这一点而言，Q-掩码器1114的直接作用是当采取最大值运算来选择‘最佳’行动时，仅考虑与由较低级模块指示的行动子集相关联的Q值。

因此，Q-掩码器1114可以对将由交通模拟器1112模拟的输出Q值的子集进行掩码。因此，在模拟期间交通模拟器1112仅考虑与剩余行动子集相关联的Q值，从而减少在自主车辆策略生成中在自主车辆的模拟和训练期间利用的处理能力和/或计算资源的量。基于剩余行动子集(例如，一组可能行动的剩余行动子集，该行动子集排除被掩码的子集)，行动发生器1116可以探索剩余行动并且相应地确定自主车辆策略。这可以跨一个或多个时间间隔重复进行。Q-掩码器1114可以因此‘强制’模拟的自主车辆仅探索未掩码的状态，并且由此仅学习相关联的Q值(其指示在状态(s)上的策略(π)下的行动(a)的长期回报)的空间的子集。

更详细地，状态输入发生器1108可以生成与正在进行训练的自主车辆(例如，模拟的自主车辆)相关联的一组属性。例如，该组属性可以包括与自主车辆相关联的当前速度v、与自主车辆相关联的车道位置l、以及从自主车辆到目标(其可以是期望的目的地)的距离d2g。另外，该组属性或与车辆相关联的位置信息可以被表示为占用网格。该组属性可以是状态信息，其指示或表示与自主车辆相关联的状态(S)或场景。例如，可以基于自主车辆的位置或定位来确定诸如公示的速度限制或最小速度限制v_最小和最大速度限制v_最大的信息。

交通模拟器1112可以模拟模拟环境，该模拟环境包括自主车辆、与多个车道相关联的公路以及在模拟环境内的一个或多个其他车辆。交通模拟器1112可以一定交通密度生成交通，并且每个车道可以被分配有在起始位置处以一定时间间隔发出车辆的概率P_车道，其中另一个车辆可以与随机起始速度、随机目标速度以及保持在内的从随机目标速度起的范围相关联。交通模拟器1112可以使用控制其他车辆以避免彼此碰撞而不控制模拟的自主车辆的模型。根据一个方面，交通模拟器1112不控制模拟的自主车辆，而仅控制在模拟环境内的其他车辆以仅避免彼此碰撞(而不是与模拟的自主车辆的碰撞)。

交通模拟器1112可以是深度Q-学习系统，其基于模拟的自主车辆的状态输入生成属性和由交通模拟器1112提供的模拟环境来实现强化学习。在由交通模拟器1112管理的模拟环境内，模拟的自主车辆可以是代理，其可以采取来自一组可能行动的模拟行动。该组可能行动可以被称为行动集(A)。例如，用于自主车辆的一组可能行动包括在时间间隔期间维持与自主车辆相关联的当前速度、加速、减速、执行右侧车道变更或执行左侧车道变更的自主驾驶操纵。

模拟环境可以是模拟的自主车辆在其中到处移动的世界或环境。交通模拟器1112模拟模拟环境并且使用模拟的自主车辆的当前状态和行动(例如，在给定时间间隔内)作为输入，并且将模拟的自主车辆的奖励(下面描述)、以及下一状态作为输出返回。例如，交通模拟器1112可以采用车辆的当前状态(例如，50mph)和行动(例如，减速)，并且应用物理定律来确定模拟的自主车辆的下一状态(例如，45mph)。

交通模拟器1112可以利用奖励函数(R)，该奖励函数可以是估计所采取的(例如，模拟)行动的函数。换句话说，奖励函数可以用于衡量成功或失败。例如，如果模拟的自主车辆错过目标(例如，期望的目的地)或牵涉碰撞，那么奖励函数可以惩罚导致当前状态(例如，错过目标或碰撞)的模拟行动。相反地，奖励函数可以基于到目标的最快时间或最快路线而进行奖励。基于奖励函数，奖励可以立即提供，或可以延迟提供。由奖励函数提供的奖励使得基于给定目标(例如，到达出口匝道)而进行强化学习。

贴现因子(γ)可以与未来奖励相乘以使短期决策的权重大于长期奖励。换句话说，贴现因子可以用于使未来奖励的价值低于立即奖励。就这一点而言，值(V)可以是包括贴现影响的预期的长期回报。Q-值(Q)可以是指示在状态(s)上的策略(π)下的行动(a)的长期回报的行动值。轨迹可以是包括那些状态的状态和/或行动的序列。策略(π)或自主车辆策略可以是行动发生器1116基于当前状态(例如，如与自主车辆相关联的一组属性所指示)而使用或采用来确定自主车辆的下一行动的策略。

根据一个方面，奖励函数可以是：

其中l是模拟的自主车辆位于距起始位置的目标距离D处时所在车道。

因此，根据该奖励函数，对于成功(例如，到达目标)，给出正终端奖励，并且在模拟的自主车辆越远离与目标相关联的车道终止的情况下给出越来越负的终端奖励。贴现因子可以促使模拟的自主车辆以最短的时间量或数量最少的时间间隔(即，维持较高的平均速度)达到目标。此外，由于在训练期间从不允许碰撞，因此奖励函数不需要考虑碰撞，从而简化奖励函数。

例如，给定某个状态，Q-掩码器1114可以限制或以其他方式“掩盖”代理或模拟的自主车辆不需要探索或从它们的行动学习的任一组行动。换句话说，如果模拟的自主车辆定位在最左侧车道中，那么采取左侧车道变更行动将会导致驶离高速公路。因此，Q-掩码器1114可以在与左侧行动相关联的Q值上设下掩码，使得在这种状态下从不选择左侧车道变更行动。这使关于系统的先验知识(即，该示例中的高速公路路肩)能够直接地结合到学习过程中。继而，不需要设置对于驶离高速公路的负奖励，从而简化奖励函数。

另外，由于行动发生器1116不探索这些状态，因此学习本身变得更快速且更有效。行动发生器1116最终学习的是Q值的实际空间的子集，而不是整个集。在系统上的约束可也以类似的方式结合。例如，如果自主车辆以最大速度v_最大驾驶，那么可以对加速行动进行掩码(或如果是以最小速度v_最小，那么对减速行动进行掩码)。以此方式，行动发生器1116不需要花时间来学习高速公路或公路的速度限制。

Q-掩码器1114可以确定在一定时间间隔内要应用于自主车辆的一组可能行动的子集的掩码。行动发生器1116将不探索或考虑这些组行动掩码，从而减少用于自主车辆策略生成的系统所利用的计算资源(例如，处理能力、存储器、存储装置等)的量。

根据一个方面，Q-掩码器1114可以基于先验知识、一个或多个交通规则、来自低级控制器的约束或信息或者与自主车辆相关联的能力而确定要应用的掩码。先验知识可以指示自主车辆与模拟环境之间或自主车辆与模拟环境内的其他车辆之间的预限定的可允许的交互。换句话说，例如，Q-掩码器1114可以利用先验知识来对可能出现以下状况的行动进行掩码：导致模拟的自主车辆与其他车辆之间的碰撞、增加碰撞时间(TTC)、使模拟的自主车辆偏离公路、或落在期望的操作阈值或范围外。

交通规则可以基于车辆的定位或当前位置而指示可允许的驾驶操纵。例如，交通规则可以包括最大速度限制、最小速度限制、驾驶礼节(诸如不急转弯、不执行中间无停顿的双车道变更、不执行将会‘拦截’另一个驾驶员的驾驶操纵等)。换句话说，Q-掩码器1114可以基于交通规则而确定掩码的行动子集，其包括当与自主车辆相关联的当前速度大于与公路相关联的速度限制时加速和当与自主车辆相关联的当前速度小于与公路相关联的最小速度限制时减速。以此方式，将会破坏最小速度限制v_最小和最大速度限制v_最大的加速和减速行动将会由Q-掩码器1114进行掩码。

其他交通规则可以包括不经过双车道标记。例如，Q-掩码器1114可以基于交通规则而确定掩码的行动子集，其包括当自主车辆定位在公路的双车道标记的正好右侧时执行右侧车道变更的自主驾驶操纵和当自主车辆定位在公路的双车道标记的正好左侧时执行左侧车道变更的自主驾驶操纵。

另外，与自主车辆相关联的能力可以指示与自主车辆相关联的物理上可能的驾驶操纵。例如，如果自主车辆已经以最高速度行驶，那么可能无法加速，因此加速行动可能由Q-掩码器1114进行掩码。作为另一个示例，当车辆以操作速度操作时，可能不期望加速或施加硬制动行动，因为这将对乘坐的平稳性造成影响。该操作速度可以由Q-掩码器1114作为加速或减速阈值进行应用，使得由自主车辆采取的行动不超过该加速或减速阈值是大多数的场景。

然而，在一些场景中，诸如防止或减轻碰撞的场景，Q-掩码器1114可以允许超过加速或减速阈值。以此方式，Q-掩码器1114可以场景特定的方式实现阈值。换句话说，Q-掩码器1114可以利用一个或多个运动学规则来应用最大加速或减速的水平，以使乘坐起来感觉更舒适，同时考虑乘客的安全性(例如，该阈值可以被超驰以避免碰撞)。此外，可以基于车辆的当前速度、当前位置、当前加速等而实现不同的运动学规则。例如，加速阈值可以当车辆在运动中时比当车辆处于静止时大。

可以由Q-掩码器1114掩码的行动的其他示例包括将会导致自主车辆驶离公路的车道变更。换句话说，Q-掩码器1114可以基于先验知识而确定掩码的行动子集，其包括当自主车辆定位在公路的最右侧车道上时执行右侧车道变更的自主驾驶操纵和当自主车辆定位在公路的最左侧车道上时执行左侧车道变更的自主驾驶操纵。

类似地，Q-掩码器1114可以对与向另一个车辆加速或减速相关联的行动进行掩码。例如，Q-掩码器1114可以基于先验知识而确定掩码的行动子集，其包括在自主车辆和另一个车辆两者定位在同一车道中的情况下当自主车辆定位在另一个车辆后方的第一阈值距离处时加速的自主驾驶操纵和在自主车辆和另一个车辆两者定位在同一车道中的情况下当自主车辆定位在另一个车辆前方的第二阈值距离处时减速的自主驾驶操纵。

根据另一个方面，Q-掩码器1114可以基于其他阈值(例如，在一些场景中，基于车道变更阈值距离而没有车道变更或者没有与减少碰撞时间(TTC)估计相关联的行动)而对模拟的自主车辆的行动进行掩码。例如，Q-掩码器1114可以基于先验知识而确定掩码的行动子集，其包括当自主车辆定位到右侧并且在另一个车辆的车道变更阈值距离内时的左侧车道变更的自主驾驶操纵和当自主车辆定位到左侧并且在另一个车辆的车道变更阈值距离内时的右侧车道变更的自主驾驶操纵。Q-掩码器1114可以基于先验知识而确定掩码的行动子集，其包括当TTC估计低于阈值TTC值时与随自主车辆与另一个车辆之间的TTC估计的预期减小相关联的任何驾驶操纵。

以此方式，Q-掩码器1114提供许多益处和/或优点。例如，在使用Q掩码的情况下，可以简化奖励函数，从而使深-Q学习更快速且更有效。换句话说，可以通过将先验知识直接地结合到学习过程(例如，训练网络)中来简化奖励函数，如交通模拟器1112和行动发生器1116所实现。由于Q-掩码器1114基于先验知识而对行动进行掩码，因此不需要负奖励函数，从而简化奖励函数。通过使用Q-掩码，Q-掩码器1114可以在训练或测试期间减少或消除碰撞，从而使得能够直接地在真实系统上执行训练，而不一定是仅在那些模拟下进行训练。换句话说，Q-掩码器1114可以在实际自主车辆上实现对自主车辆的训练。因此，根据一个方面，交通模拟器1112可以替代地替换为检测一个或多个其他车辆(例如，第一车辆、第二车辆、第三车辆等，以及一个或多个相关联的属性，诸如速度、位置、车道定位、转向信号等)的传感器。

行动发生器1116可以从一组可能行动探索一组剩余行动，并且基于该组剩余行动(例如，排除被掩码的行动子集)和与自主车辆相关联的一组属性而确定在一定时间间隔内的自主车辆策略。行动发生器1116可以从一组可能行动探索一组剩余行动并且确定在一个或多个附加的时间间隔内的自主车辆策略，诸如直到自主车辆到达终端状态(例如，目标或期望的目的地)。这里，行动发生器1116可以将与一个或多个附加的时间间隔相关联的一组探索行动中的一个或多个存储为一个或多个对应轨迹。如先前所讨论，轨迹可以是包括那些状态的状态和/或行动的序列。

行动发生器1116可以基于奖励函数从一组可能行动探索一组剩余行动，并且基于奖励函数而确定自主车辆策略。奖励函数可以包括贴现因子。通过训练和/或模拟，行动发生器1116可以学习自主车辆策略，该自主车辆策略可以存储到存储驱动器1106、传达到车辆170，并且经由车辆ECU 176实现以便于自主驾驶。

在训练期间，可以epsilon-贪婪的方式采取行动，并且可以使E退火。行动发生器1116可以模拟完全轨迹直到终端状态为止，并且将轨迹分类为好的或坏的(即，好的缓冲器与模拟的自主车辆相关联，以使其达到目标而不牵涉碰撞、超过速度限制等)。换另一个方式解释，所有转变(即，来自成功轨迹的状态、行动和奖励元组)保存在好的缓冲器中，而来自失败轨迹的转变(即，没有使其到达目标)保存在坏的缓冲器中。

对于任何转变，可以从终端奖励反算预期奖励，其由以下给出：

可以使用从好的缓冲器和坏的缓冲器均等地采样的小批量转变使用以下损失函数优化网络：

L(θ)＝(y_t-Q(s_t,a_t,θ))²

当探索可能不断地导致失败轨迹时，两个单独的缓冲器有助于维持对成功执行的合宜的曝光，从而避免网络陷入局部最小值。

以此方式，自主驾驶汽车策略生成系统1100提供了利用深度强化学习的强度来进行高级战术决策的框架并且展示了就问题的端对端完整策略学习(其中高级策略可能难以使用传统基于优化或规则的方法定制，但是其中良好地设计的低级控制器(例如，实现Q-掩码器1114的控制器)可用)的更结构化和数据有效的替代方案。自主车辆策略生成系统1100使用深度强化学习来获得用于战术决策的高级策略，同时维持与低级控制器的紧密整合。

在将该框架应用于自行驾驶车辆(例如，自主车辆)的自主车道变更决策的情况下，网络可以学习高级战术决策策略。针对贪婪基线和人类驾驶员的实验结果已经证明，本文描述的自主车辆策略生成系统1100和方法比这两者更为优异，具有更高效率和低得多的碰撞率(例如，通过消除碰撞)。贪婪基线可以是这样的策略，其中自主车辆优先进行右侧车道变更，直到该自主车辆在正确车道中为止，然后在保持在速度限制内的同时尽可能快地行驶，并且不与其他车辆碰撞。

根据一个方面，状态输入发生器1108可以记录闭塞，并且交通模拟器1112可以提供概率占用网格。此外，作为单独的信道，交通模拟器1112可以接收来自先前时间间隔的占用网格的历史。

图12是根据一个方面的自主车辆策略生成方法200的流程图。在1202处，生成用于自主车辆的一组属性。该组属性可以包括与自主车辆相关联的当前速度、与自主车辆相关联的车道位置、以及从自主车辆到目标的距离，其中目标是期望的目的地。在1204处，执行交通模拟。例如，模拟环境可以包括自主车辆、与多个车道相关联的公路以及在模拟环境内的另一个车辆。

在1206处，确定行动子集的掩码。可以基于指示自主车辆与模拟环境之间或在自主车辆与模拟环境内的其他车辆之间的预限定的可允许的交互的先验知识、指示可允许的驾驶操纵的交通规则或指示与自主车辆相关联的物理上可能的驾驶操纵的与自主车辆相关联的能力来确定掩码。

在1208处，探索一组剩余未掩码的行动。换句话说，模拟可以探索与一组剩余行动相关联的所有可能结果，以将这些分为两类：好的和坏的，其中好的结果与模拟的自主车辆到达目标相关联，坏的结果与模拟的自主车辆没有达到目标相关联。在1210处，确定自主车辆策略，诸如基于奖励函数或贴现因子，其考虑到时间、未来奖励与当前奖励等。

图13A是根据一个方面的示例性自主车辆策略生成方法的流程图。具有历史的占用网格可以通过单个卷积层，被平坦化，并且与具有由状态输入发生器1108生成的标量输入的全连接层的输出拼接。拼接通过全连接层以给出与5个战术行动相关联的5个Q值的最终输出。如图13A所示，由Q-掩码器1114进行的Q-掩码被注入Q值与最大值运算之间，以由行动发生器1116确定行动，从而结合先前信息，因此通过探索从头开始学习就不需要进行。最大值运算可以是对Q值的最大值或柔性最大值运算以选择行动。

图13B是根据一个方面的与自主车辆策略生成相关联的示例性模拟接口。如先前所讨论，用于自主车辆的一组可能行动包括在时间间隔期间维持与自主车辆相关联的当前速度(例如，‘N’或无操作)、加速(A)、减速(D)、执行右侧车道变更(R)或执行左侧车道变更(L)的自主驾驶操纵。除了减速(D)之外，还可以设想其他行动，诸如制动释放行动。根据一个方面，当采取制动释放行动时可以不实现加速阈值。换句话说，根据该方面，释放制动可以始终是任选的，使得Q-掩码器1114从不对制动释放行动进行掩码。

图14A至图14C是根据一个方面的可实现自主车辆策略生成的示例性场景。根据一个示例性方面，模拟的自主车辆的任务是在考虑速度限制并且避免碰撞等的同时以最少的时间量到达在最右侧车道上的出口，如图14A所示。在图14A中，自主车辆从出口到目标的距离为d2g。如果模拟的自主车辆未能到达出口(例如，在该场景中的目标)，那么行动发生器1116或交通模拟器1112将其视为失败。由于距目标的距离连同信息(诸如来自低级控制器的约束信息的先验知识)一起被考虑，因此考虑高级考虑因素和低级考虑因素两者。

在图14B中，如果自主车辆或代理在位置1402处，那么可以由Q-掩码器1114对左侧车道变更行动进行掩码，因为自主车辆已经在公路的最左侧车道中。类似地，当自主车辆在位置1404处时，可以由Q-掩码器1114对加速行动进行掩码，而当自主车辆在位置1406处时，可以由Q-掩码器1114对减速行动进行掩码。可以分别基于距其他车辆的阈值距离来对这些加速和减速行动进行掩码。

在图14C中，示出了两个不同轨迹1410和1420。行动发生器可以选择与较高奖励(例如，更快时间)相关联的轨迹，因为Q-掩码器1114已经减轻相应轨迹所牵涉的任何决策中的风险的大部分。

图15是根据一个方面的用于交互感知决策的系统1500的示例性组件图。用于交互感知决策的系统1500可以利用协同多目标、多代理、多级(CM3)强化学习的特征，如上面参考图1至图10所讨论。另外，用于交互感知决策的系统1500可以利用自主车辆策略生成的特征，如上面参考图11至图14所讨论的。用于交互感知决策的系统1500可以包括处理器102、存储器104、模拟器108和通信接口150。这些组件可以经由总线106通信地耦接。用于交互感知决策的系统1500的模拟器108可以根据第一级和第二级来执行多级训练。

在第一级内，模拟器108可以执行以下操作：使用马尔可夫决策过程(MDP)在单代理环境中基于第一策略梯度而训练第一代理并且基于第一损失函数而训练第一评价以学习一个或多个特征。在单代理环境中，第一代理是唯一存在的代理。在环境内的特征可以包括通向公路的一个或多个岔道、一个或多个车道、一个或多个障碍物(例如，在级一训练期间可以是静止的)。在级一训练(例如，训练的第一级)中，模拟器108可以训练代理以实现一个或多个任务或目标。由于在单代理环境中没有其他代理，因此在级一中由模拟器108提供的单代理设置或环境使第一代理能够以适当、有效的方式学习单代理环境的一个或多个特征或就其进行训练，因为在不存在其他代理的情况下可以更可靠地产生与实现目标相关联的学习行为的期望的状态配置。以此方式，可能需要更少的模拟迭代就能达到一定驾驶或操作能力的水平。

模拟器108可以包括状态输入发生器1108、Q-掩码器1114、行动发生器1116、驾驶员类型管理器1502和优先级确定器1504。状态输入发生器1108可以确定或生成与作为模拟代理的第一代理相关联的状态信息。以此方式，状态输入发生器1108可以确定网络的与多目标、多代理、多级交互感知决策网络策略生成相关联的输入。由状态输入发生器1108生成的示例输入可以包括第一代理的状态，诸如当前速度、车道位置、距目标或期望的目的地的距离等。

Q-掩码器1114可以对将由模拟器108模拟的输出Q值的子集(例如，行动集)进行掩码。行动发生器1116可以通过从一组可能行动排除一组被掩码的行动来基于一组剩余行动而训练第一代理。因此，在模拟期间模拟器108仅考虑与剩余行动子集相关联的Q值，从而减少在自主车辆策略生成中在自主车辆的模拟和训练期间利用的处理能力和/或计算资源的量。

基于剩余行动子集(例如，一组可能行动的剩余行动子集，该行动子集排除被掩码的子集)，行动发生器1116可以探索剩余行动并且相应地确定自主车辆策略。这可以跨不同的时间间隔重复进行。Q-掩码器1114可以因此‘强制’模拟的自主车辆仅探索未掩码的状态，并且由此仅学习与相关联的Q值(指示在状态(s)上的策略(π)下的行动(a)的长期回报)的空间的子集相关联的行动。

在根据MDP在单代理环境内基于第一策略梯度而训练第一代理并且基于第一损失函数而训练第一评价期间，模拟器108可以通过使第一代理能够从一组一个或多个行动选择某个行动来训练第一代理。一组可能行动可以包括无操作行动、加速行动、减速行动、制动释放行动、向左位移一个子车道行动或向右位移一个子车道行动。

以此方式，第一策略网络具有分散评价，该分散评价可以在单代理设置或环境中学习不同特征。由于第一评价可以是分散评价，因此第一级或级一可以与第一代理的局部视图或个性化奖励、个性化学习等相关联。以此方式，模拟器108可以使用马尔可夫决策过程，在单代理环境中(在该单代理环境中第一代理是唯一存在的代理)基于第一策略梯度而训练第一代理并且基于第一损失函数而训练第一评价以学习一个或多个目标。第一代理可以与第一代理神经网络相关联，并且第一评价可以与第一评价神经网络相关联。

模拟器108可以执行级二训练，包括使用马尔可夫博弈在多代理环境中基于第一策略梯度和第二策略梯度而训练数量N个代理并且基于第一损失函数和第二损失函数而训练第二评价以学习在数量N个代理(例如，其可以包括第一代理)之间的第二组特征来将第二代理神经网络实例化。根据一个方面，多代理环境的数量N个代理中的一个或多个可以与指示相应代理的协同级别的驾驶员类型相关联。换句话说，在级二训练中，模拟器108可以教导第一代理当在周围有较少的协同驾驶员时如何驾驶或操作，如竞争驾驶员类型所模拟。

可以用来自级一训练的预训练的第一代理神经网络将数量N个代理中的一个或多个实例化或初始化。因此，数量N个代理中的每一个可以具有来自预训练的第一代理神经网络的先验知识，并且可以使用CM3强化学习来实现课程增益。模拟器108可以基于从第一策略梯度和第二策略梯度得到的组合策略梯度而训练数量N个代理。然而，基于驾驶员类型(例如，指示数量N个代理中的相应代理的协同级别)，数量N个代理中的一个或多个可能不一定在级二训练期间是协同的，从而使第一代理能够学习在其他代理(例如，车辆)不一定友好或协同的环境中如何操作或如何驾驶。此外，如先前所指示，根据一个方面，数量N个代理中的一个或多个的驾驶员类型可以在模拟或训练(例如，训练中)期间改变。根据其他方面，数量N个代理中的一个或多个的驾驶员类型可以在模拟或级二训练期间保持恒定。数学框架板可以用于生成具有不同的驾驶员类型的代理的不同类型的行为。根据一个方面，驾驶员类型可以是协同的或竞争的。根据另一个方面，驾驶员类型可以由数字表示(例如，在1至10的范围上或在从-2到+2的等范围上等)。

例如，在合并车道上，出于安全目的，在合并到交通中之前，确实协同的驾驶员(例如，+2)可以提前减速，而不太协同的驾驶员(例如，-2)可以加速并且争取合并空间。类似地，在主车道或公路上，协同的驾驶员可能退让合并车辆，而竞争的驾驶员可能加速并且首先尝试来通过合并点。

无论如何，模拟器108可以使用马尔可夫博弈在多代理环境中基于第一策略梯度而训练数量N个代理并且基于第一损失函数和第二损失函数而训练第二策略梯度和第二评价以学习一个或多个目标来将第二代理神经网络实例化。在级二训练中，当在两个车辆之间发生碰撞时，可以分配事故责任。数量N个代理中的每个可以基于相应代理的位置和多代理环境的布局而被分配车道优先级级别。

例如，如果第一车辆在公路内直行并且第二车辆在与直行道合并的车道中，那么第一车辆可以被分配比第二车辆更高的车道优先级级别。在这种情况下，优先级确定器1504可以基于第二车辆在合并车道中而在第一车辆与第二车辆之间发生碰撞的情况下将事故责任分配给第二车辆。然而，由于优先级确定器1504可以基于每个车辆的位置并且还基于多代理环境的布局(例如，公路的配置)而将车道优先级级别分配给每个车辆，因此可以存在其中可以为第一车辆分配比第二车辆更低的车道优先级级别的场景。

例如，如果处于与直行道合并的车道中的第二车辆在第一车辆前方的至少阈值距离处，那么优先级确定器1504可以基于第二车辆在第一车辆前方(例如，以及第一车辆追尾第二车辆)而在第一车辆与第二车辆之间发生碰撞的情况下将事故责任分配给第一车辆。此外，可以基于第一车辆与第二车辆之间的距离而分配事故责任百分比。优先级确定器1504可以利用该事故责任百分比来确定要分配给碰撞所牵涉的相应代理或车辆中的每一个的负奖励或惩罚。

具体地，优先级确定器1504可能不一定惩罚模拟事故或碰撞中牵涉的所有方或将负奖励分配给它们，因为事故责任可以与现实交通规则类似地分配。另外，还存在其他场景，其中优先级确定器1504可以确定两个或更多个车辆具有相等的车道优先级级别，并且如果在该场景中发生碰撞，那么可以为所牵涉的车辆分配相等量的事故责任。以此方式，模拟器108可以训练网络策略以使车辆或代理能够在其中代理与其他代理相比不具有任何更高的优先级的场景中操作，但是有些时候其他驾驶员可以先走，而其他时候，第一代理可能是先走的那者。将参考下面讨论的图19A至图19D进行优先级确定器1504的各方面的进一步讨论和示例。

返回关于由模拟器108进行的级二训练的讨论，可以使第一代理知道它具有比数量N个代理中的另一个更高的车道优先级，但是由于可由驾驶员类型管理器1502分配的不同的驾驶员类型，其他代理可能不一定根据其较低车道优先级级别来退让。换句话说，并且参考上面的示例，在第一车辆在直行道上并且第二车辆在与直行道合并的车道中的情况下，在级二训练期间，在第二车辆的位置的一些代理可能不一定退让(例如，第二车辆实际上可以进行加速或忽略第一车辆)第一车辆，而在第二车辆的位置的其他代理可以退让，如两个车辆或代理的不同的车道优先级级别所要求。

再次解释，由于现实生活中的驾驶员可以非协同或竞争的方式拦截其他驾驶员或操作他们自己的车辆，本文描述的用于交互感知决策的系统和方法通过在其中存在模拟非协同或竞争代理(例如，数量N个代理中的一些)从而导致模拟器108可训练网络策略和/或数量N个代理的各种冲撞或碰撞场景的多代理环境中训练第一代理来解决该问题。例如，驾驶员类型中的非协同驾驶员可以在其自己的合并操作期间或在其他代理的合并操作期间进行加速。相反，驾驶员类型的协同驾驶员可以在合并到交通中之前提前减速，或在另一个代理的合并操作期间退让该另一个代理。

此外，基于对多代理环境内的数量N个代理中的一个或多个所采取的行动的观察，模拟器108可注意到数量N个代理中的一个或多个的观察的驾驶员类型(例如，从第一代理的角度看)。换句话说，如果第一代理观察到第二代理以不符合该代理的车道优先级级别的方式行动，那么驾驶员类型管理器1502可以注意到第二代理是非协同驾驶员类型或基于观察而估计驾驶员类型。以此方式，模拟器108可以实现第一代理的训练以及多目标、多代理、多级交互感知决策网络策略的基于第一代理神经网络和第二代理神经网络的生成，从而结合CM3、道路优先级的概念、以及协同和非协同驾驶员的概念等。

此外，在使用多代理强化学习和CM3的单行动者、双重评价方面时，用于交互感知决策的系统和方法可以结合自适应行为(IDAB)并且在合并场景下被应用于自主车辆。由于第一代理与数量N个代理中的其他代理之间的交互可能不同(例如，取决于其他代理的驾驶员类型)，因此第一代理将在多代理环境中的训练期间学习不同的响应策略。具体地，所学习的网络策略一般相对于其他人的观察到的驾驶行为是自适应性的。另外，Q-掩码器1114可以被实现为采用掩码机制，该掩码机制促成更快速和更有效的学习过程。

关于马尔可夫博弈，模拟器108可以定义具有由n∈[1,N]标记的数量N个代理的多代理马尔可夫博弈。马尔可夫博弈可以由描述所有代理的可能配置的一组状态S、一组部分观察Oⁿ、以及每个代理的一组行动Aⁿ来限定。优先级确定器1504和驾驶员类型管理器1502可以分别确定或生成车道优先级和驾驶员类型信息，

车道优先级和驾驶员类型信息是可影响代理的行为的两个预先确定的参数。每个代理n可以经由模拟器108根据随机策略πⁿ:OⁿxBⁿxAⁿ→[0,1]来选择它自己的行动，并且N个代理的联合行动根据转变函数T：S×A¹×…×A^N→S来将多代理环境移动到下一状态。每个代理可以接收奖励rⁿ:

该奖励是状态、代理行为和代理行动的函数，以最大化其自己的总预期回报

其中γ∈[0,1)是贴现因子，并且T是时间范围。

在单代理环境和多代理环境两者内，行动者-评价方法可以用于不同强化学习任务。行动者可以是参数化策略，其限定了如何选择行动。评价可以是估计的状态-值函数，其评价了行动者所做行为。然后，模拟器108可以针对评价的估计而更新行动者的参数。

一般来说，在单代理环境中，π由θ参数化，通过采用在

的方向上的步长使目标

最大化，其中预期

相对于由π引发的状态-行动分布。策略的梯度可以写为：

其中

是策略π的行动-值函数，b(s_t)是引入的基线，并且它们的不同被称为优势函数A^π(s_t,a_t)

通过选择值函数V^π(s_t)作为基线并且使用时间差分(TD)误差作为优势函数的无偏估计，可以将优势函数重写为A^π(s_t，a_t)≈r(s_t，a_t)+γV^π(s_t+1)-V^π(s_t)。

在多代理环境中，评价可以由模拟器108用关于其他代理的策略的完全状态-行动信息扩充，在这种情况下，行动者只能访问局部信息或观察到的信息。根据一个方面，通过使用反事实基线在多代理环境中处理信用分配：

b(s，a^-n)＝∑_a，nπⁿ(a′ⁿ|oⁿ)Q(s，(a^-n，a′ⁿ))

它使代理n的行动a边缘化并且允许集中评价推断仅代理n的行动改变的反事实。

模拟器108可以训练单个行动者，诸如第一代理，以产生交互式和自适应驾驶行为、以及由所有数量N个代理共享的一对分散和集中评价。可以经由单代理环境和多代理环境提供两个学习目标，这两个学习目标对应于使代理在遵循规则的同时在不同场景中驾驶、以及与其他代理交互以在维持有效交通流动的同时进行更有效的合并。

由于每个代理可以被分配有不同的个体奖励，以便学习不同行为，因此难以从联合奖励提取各种学习信号，并且由此可以从具有共享参数的每一个代理利用分散评价。分散评价可以为代理提供策略梯度，以学习如何在具有不同行为时通过遵循规则来在不同场景(例如，合并场景)下进行驾驶。代理(例如，第一代理)初始不一定对其他代理做出反应，并且将学习如何执行理性行动以完成其自己的任务，该任务可以被称为第一目标J₁。相关联的策略梯度可以通过以下给出：

其中

是由φ₁参数化的分散评价并且通过最小化损失来更新：

其中i是被采样的批次的数量，并且

是目标网络，其中参数

缓慢地更新到φ₁。目标网络用于稳定训练过程。

在多代理环境中，严格地遵循交通或优先级规则就可能不导致合并场景发生事故，应当考虑宏观级因素，诸如交通流速。就这一点而言，集中评价经由模拟器108可以促使每个代理彼此交互以维持交通流动并且获得联合成功。第二目标可以是目标J₂。相关联的第二策略梯度可以通过以下给出：

其中可以利用本文讨论的反事实基线，并且通过考虑所有代理的联合奖励，集中评价可以被限定为：

。在由φ₂参数化的情况下，通过最小化损失来更新集中评价：

其中

表示目标策略网络，并且

表示目标集中评价网络的参数。

整体或组合策略梯度可以被限定为：

其中α∈[0,1]是两个目标J₁(θ)和J₂(θ)的加权因子。由于模拟器108利用两个单独的目标，因此可以利用课程学习。因此，模拟器108可以基于从第一策略梯度和第二策略梯度得到的组合或整体策略梯度而训练数量N个代理，该组合或整体策略梯度可以是基于第一代理神经网络和第二代理神经网络的多目标、多代理、多级交互感知决策网络策略。

参考交互感知决策的自适应行为方面，模拟器108可以训练多目标、多代理、多级交互感知决策网络策略，该网络策略可以能够根据一个或多个行为参数来生成不同驾驶行为。网络策略可以基于状态、行动对和奖励函数r(s,a,b)，该奖励函数包括考虑车道优先级级别b_优先级和驾驶员类型b_类型的变量。以此方式，当非协同驾驶员的车道优先级级别b_优先级小于碰撞中牵涉的另一个代理的车道优先级级别时，奖励函数可以向非协同驾驶员分配负奖励。此外，奖励函数可以包括两个或更多个子奖励函数，该子奖励函数可以与驾驶行为r_完成和r_碰撞相关。如果相应代理在多代理环境中安全地驾驶(例如，而不导致或牵涉任何碰撞并且到达目标或目的地)，那么模拟器108可以为每个代理分配一次性奖励。奖励值可以是r_完成＝f₁(b_类型)。例如，由于贴现因子γ，相比分配大的奖励，可以分配小的最终奖励以促使代理更快地完成任务或达到其目标，这引发了不太协同的驾驶员类型。

如果两个或更多个代理碰撞或牵涉碰撞，那么可以将负奖励或惩罚分配给碰撞中牵涉的代理中的一个或多个，并且这可以基于所牵涉的相应代理的车道优先级级别而完成。换句话说，r_碰撞＝f₂(b_优先级)。作为示例，如果第一车辆(例如，一个代理)正在左转而第二车辆(例如，另一个代理)正在直行，并且两个代理发生碰撞，那么可以为第一车辆分配比第二车辆更多的负奖励，因为根据交通规则、公路布局或多代理环境，并且基于相应代理的定位，第二车辆具有先行权。以此方式，优先级确定器1504可以在训练数量N个代理(例如，在多代理环境中的级二训练)期间，当多代理环境中的两个或更多个代理之间发生碰撞时，基于相应代理的车道优先级，为碰撞所牵涉的相应代理分配负奖励或惩罚。

如前所述，Q-掩码器1114可以被实现为策略网络的掩码机制，从而提高训练(例如，这可以在级一和级二训练中发生)的效率。以此方式，模拟器108不会探索已知会导致事故或破坏已知交通规则的行动，而是，模拟器108可以直接地进行关于如何在战术级上进行决策的代理、评价和策略训练，从而减少训练时间、计算在训练期间利用的资源、加强用于运行模拟器108的系统、计算机和/或处理器和存储器的操作。可以使用三种不同类型的掩码，包括车辆运动学(M_k)、交通规则(M_r)和安全系数(M_s)。在选择行动之前，模拟器108可以应用由Q-掩码器1114提供的掩码机制，使得通过从一组可能行动排除一组被掩码的行动来基于一组剩余行动而进行代理训练。一组被掩码的行动可以是M＝(M_k)∪(M_r)∪(M_s)的并集。以此方式，Q-掩码器1114可以基于多代理环境的布局或第一代理和N个代理的定位而确定在时间间隔内应用于第一代理的一组可能行动的子集的掩码M。因此，模拟器108可以通过从一组可能行动排除一组被掩码的行动来基于一组剩余行动而训练代理。如先前所讨论，一组可能行动可以包括无操作行动、加速行动、减速行动、制动释放行动、向左位移一个子车道行动或向右位移一个子车道行动。

用于交互感知决策的系统1500的通信接口150可以将多目标、多代理、多级交互感知决策网络策略传输到服务器160、或车辆170、180中的一个，从而传播网络策略并且相应地使相应自主车辆操作。自主车辆可以包括适于接收网络策略的车辆通信接口。另外，自主车辆可以包括一个或多个车辆系统，如上所述，该车辆系统可以包括自主驾驶系统、巡航控制系统、碰撞缓解制动系统、变速器系统、制动踏板系统、电子动力转向系统等。车辆的控制器可以根据多目标、多代理、多级交互感知决策网络策略来操作车辆的一个或多个车辆系统。

图16是根据一个方面的用于交互感知决策的方法1600的示例性流程图。根据一个方面，用于交互感知决策的方法1600可以包括使用马尔可夫决策过程在单代理环境1602中基于第一策略梯度而训练第一代理并且基于第一损失函数而训练第一评价以学习一个或多个目标。用于交互感知决策的方法1600可以包括使用马尔可夫博弈在具有不同的驾驶员类型1604的多代理环境中基于第一策略梯度而训练数量N个代理、基于第一损失函数和第二损失函数而训练第二策略梯度和第二评价以学习目标中的一个或多个来将第二代理神经网络实例化。数量N个代理中的每一个可以与指示相应代理的协同级别的驾驶员类型相关联。用于交互感知决策的方法1600可以包括基于相应代理的位置和多代理环境的布局而分配车道优先级级别1606。当在多代理环境的代理中的两个或更多个之间发生碰撞时，基于相应代理的车道优先级级别而向碰撞所牵涉的相应代理分配负奖励1608或惩罚。用于交互感知决策的方法1600可以包括基于第一代理神经网络和第二代理神经网络而生成网络策略1610。

图17是根据一个方面的其中策略网络生成根据用于交互感知决策的系统或方法发生的示例性场景。图17示出了包括使用优先级和驾驶员类型作为用于生成策略网络的输入的掩码机制的策略网络。在该示例中，利用在fc1、fc2、fc3等层(例如，全连接层)中的32个单元。开放和封闭观察由可包括两个尺寸为3×30、步幅为1×1的滤波器的卷积神经网络(CNN)处理；fc3、fc5、fc6可以具有神经元，并且ReLU可以用作层的非线性激活函数。

图18A至图18B是根据一个方面的分别与用于交互感知决策的系统和方法的级一训练和级二训练相关联的示例性数据流程图。图18A至图18B示出了所提出的两级课程学习结构。V是分散评价，其可能具有与策略网络相同的输入和网络结构。集中评价Q可以将所有代理的完整信息作为输入，并且可以连接到具有128个单元的两个FC层。

图19A至图19D是根据一个方面的与根据用于交互感知决策的系统或方法训练代理相关联的示例性环境。图19A至图19D可以被实现为单代理环境或多代理环境。模拟器108可知道的环境的方面可以包括道路几何形状、速度限制、以及道路优先级级别规则或交通规则。

在图19A中，公路或环境的第一道路是直行道1910，并且第二道路是包括合并车道1920的道路。因此，可以为在位置1902处的车辆分配比在1904或1906处的车辆更大的车道优先级级别。然而，可以为在另一个车辆足够前的地方的车辆(诸如在1904处的车辆)分配比在1906处的车辆更大的车道优先级级别。根据其他方面，在位置1906处的车辆可以具有比在1904处的车辆更大的车道优先级级别。

在图19B中，公路或环境的第一道路是直行道1930，并且第二道路是包括合并车道1940的道路。因此，可以为在位置1932处的车辆分配比在1934或1936处的车辆更大的车道优先级级别。类似地，在位置1936处的车辆可以具有比在1934处的车辆更大的车道优先级级别。

在图19C中，公路或环境的第一道路包括合并车道1950，并且第二道路是还包括合并车道1960的道路。可以为在位置1952和1954处的车辆分配相等的车道优先级级别，因为在这种场景下没有人拥有先行权。

在图19D中，公路或环境的第一道路包括在竖直方向1970上的道路和在水平方向1980上的第二道路。当在1972处的车辆进行左转时，可以为在1972处的车辆分配比在1974处的车辆更大的车道优先级级别。

又一方面涉及计算机可读介质，该计算机可读介质包括处理器可执行指令，该处理器可执行指令被配置为实现本文呈现的技术的一个方面。图20中示出了以这些方式设计的计算机可读介质或计算机可读装置的一个方面，其中实施方式2000包括计算机可读介质2008，诸如CD-R、DVD-R、闪存驱动器、硬盘驱动器盘片等，计算机可读数据2006在该计算机可读介质上进行编码。该编码的计算机可读数据2006，诸如包括如2006所示的多个零和一的二进制数据，又包括一组处理器可执行计算机指令2004，该组指令被配置为根据本文阐述的原理中的一个或多个操作。在该实施方式2000中，处理器可执行计算机指令2004可以被配置为执行方法2002，诸如图3的方法300、图5A至图5B的方法、图12的方法1200或图16的方法1600。在另一个方面，处理器可执行计算机指令2004可以被配置为实现系统，诸如图1的系统100、图11的系统1100或图15的系统1500。许多此类计算机可读介质可以由本领域的普通技术人员设计，其被配置为根据本文呈现的技术进行操作。

如本申请中所用，术语“组件”、“模块”、“系统”、“接口”等一般旨在是指计算机相关实体、硬件、硬件和软件的组合、软件或执行中的软件。例如，组件可以是但不限于是在处理器上运行的进程、处理单元、对象、可执行程序、执行线程、程序或计算机。作为说明，在控制器上运行的应用程序和控制器两者都可以是组件。驻留在进程或执行线程和组件内的一个或多个组件可以位于一台计算机上或分布在两台或更多台计算机之间。

此外，所要求保护的主题被实现为使用标准编程或工程技术以产生软件、固件、硬件或它们的任何组合来控制计算机实现所公开的主题的方法、设备或制品。如本文所用的术语“制品”旨在涵盖可从任何计算机可读装置、载体或介质访问的计算机程序。当然，在不脱离所要求保护的主题的范围或精神的情况下，可以对该配置做出许多修改。

图21和以下讨论提供了用于实现本文阐述的规定中的一个或多个的方面的合适的计算环境的描述。图21的操作环境仅是合适的操作环境的一个示例，并且并不旨在对操作环境的使用范围或功能性提出任何限制。示例性计算装置包括但不限于个人计算机、服务器计算机、手持式或膝上型装置、移动装置(诸如移动电话、个人数字助理(PDA)、媒体播放器等)、多处理器系统、消费者电子装置、小型计算机、大型计算机、包括上述系统或装置中的任一个的分布式计算环境等。

一般来说，在“计算机可读指令”可由一个或多个计算装置执行的一般上下文中描述各方面。计算机可读指令可以经由计算机可读介质分发，如下面将讨论。计算机可读指令可以被实现为执行一个或多个任务或实现一个或多个抽象数据类型的程序模块，诸如函数、对象、应用程序编程接口(API)、数据结构等。通常，计算机可读指令的功能性根据需要在各种环境中组合或分布。

图21示出了包括被配置为实现本文提供的一个方面的计算装置2112的系统2100。在一种配置中，计算装置2112包括至少一个处理单元2116和存储器2118。取决于计算装置的确切配置和类型，存储器2118可以是易失性的(诸如RAM)、非易失性的(诸如ROM、闪存存储器等)或这两者的组合。该配置在图21中由虚线2114示出。

在其他方面，计算装置2112包括附加特征或功能。例如，计算装置2112可以包括附加存储装置，诸如可移动存储装置或不可移动存储装置，包括但不限于磁性存储装置、光学存储装置等。这种附加存储装置在图21中由存储装置2120示出。在一方面，用于实现本文提供的一个方面的计算机可读指令在存储装置2120中。存储装置2120可以存储其他计算机可读指令以实现操作系统、应用程序等。例如，计算机可读指令可以加载到存储器2118中以供处理单元2116执行。

如本文所用的术语“计算机可读介质”包括计算机存储介质。计算机存储介质包括在用于存储信息(诸如计算机可读指令或其他数据)的任何方法或技术中实现的易失性和非易失性、可移动和不可移动介质。存储器2118和存储装置2120是计算机存储介质的示例。计算机存储介质包括但不限于RAM、ROM、EEPROM、闪存存储器或其他存储器技术、CD-ROM、数字通用盘(DVD)或其他光学存储装置、盒式磁带、磁带、磁盘存储装置或其他磁性存储装置，或可用于存储期望的信息并且可由计算装置2112访问的任何其他介质。任何此类计算机存储介质都是计算装置2112的一部分。

术语“计算机可读介质”包括通信介质。通信介质通常以“经调制的数据信号”(诸如载波或其他传输机制)来体现计算机可读指令或其他数据并且包括任何信息传递介质。术语“经调制的数据信号”包括以对信号中的信息进行编码的方式设置或改变其特性中的一个或多个的信号。

计算装置2112包括输入装置2124，诸如键盘、鼠标、笔、语音输入装置、触摸输入装置、红外相机、视频输入装置或任何其他输入装置。输出装置2122(诸如一个或多个显示器、扬声器、打印机或任何其他输出装置)可以包括在计算装置2112中。输入装置2124和输出装置2122可以经由有线连接、无线连接或它们的任何组合连接到计算装置2112。在一方面，来自另一个计算装置的输入装置或输出装置可以用作计算装置2112的输入装置2124或输出装置2122。例如，计算装置2112可以包括通信连接2126，以便于进行与一个或多个其他装置2130的通信，诸如通过网络2128。

尽管用特定于结构特征或方法动作的语言描述了本主题，但是应当理解，所附权利要求书的主题不一定限于上述具体特征或动作。相反，上述具体特征和动作是作为示例性方面被公开。

在本文提供了各方面的各种操作。描述操作中的一个或多个或全部的次序不应被解释为暗示这些操作必须是按次序的。将会基于该描述而知道替代排序。此外，并非所有操作都必须要存在于本文提供的每个方面中。

如本申请中所用，“或”旨在表示包括性“或”而非排他性“或”。此外，包含性“或”可以包括它们的任何组合(例如，A、B或它们的任何组合)。另外，除非另外指明或从上下文清楚指向单数形式，否则如本申请中所用的“一个”和“一种”一般被解释为表示“一个或多个”。另外，A和B中的至少一个和/或相似的表达一般表示A或B或A和B两者。此外，就“包括(includes)”、“具有(having)”、“具有(has)”、“带有”或它们的变体在详细描述或权利要求书中使用来说，此类术语旨在以与术语“包括(comprising)”类似的方式是包括性的。

此外，除非另有说明，否则“第一”、“第二”等并不表示暗示时间方面、空间方面、排序等。相反，此类术语仅用作特征、要素、项等的标识符、名称等。例如，第一信道和第二信道一般对应于信道A和信道B或两个不同或两个相同的信道、或同一信道。另外，“包括(comprising)”、“包括(comprises)”、“包括(including)”、“包括(includes)”等一般表示包括(comprising)或包括(including)但不限于。

将会理解，上面公开的特征和功能以及其他特征和功能中的各种特征和功能或它们的替代物或变体可以理想地组合成许多其他不同系统或应用。此外，本领域的技术人员可以之后做出本文的各种目前无法预料或无法预期的替代、修改、变化或改进，这些也旨在涵盖在所附权利要求书中。

Claims

1.一种用于交互感知决策的方法，包括：

使用马尔可夫决策过程，在单代理环境中基于第一策略梯度而训练第一代理并且基于第一损失函数而训练第一评价以学习一个或多个目标，在所述单代理环境中所述第一代理是唯一存在的代理，

其中所述第一代理与第一代理神经网络相关联，并且所述第一评价与第一评价神经网络相关联；

使用马尔可夫博弈在包括所述第一代理和数量N个代理的多代理环境中基于所述第一策略梯度而训练数量N个代理并且基于所述第一损失函数和第二损失函数而训练第二策略梯度和第二评价以学习所述目标中的一个或多个来将第二代理神经网络实例化，

其中所述数量N个代理中的每一个与指示相应代理的协同级别的驾驶员类型相关联；

基于所述第一代理神经网络和所述第二代理神经网络而生成多目标、多代理、多级交互感知决策网络策略。

2.根据权利要求1所述的用于交互感知决策的方法，

其中所述第一代理和所述数量N个代理中的每一个基于所述相应代理的位置和所述多代理环境的布局而与车道优先级级别相关联，并且

其中在训练所述数量N个代理期间，当在所述多代理环境的所述代理中的两个或更多个之间发生碰撞时，基于相应代理的所述车道优先级级别而将负奖励或惩罚分配给所述碰撞中涉及的所述相应代理。

3.根据权利要求1所述的用于交互感知决策的方法，其中所述驾驶员类型是协同的或竞争的。

4.根据权利要求1所述的用于交互感知决策的方法，其中在所述多代理环境中训练所述数量N个代理期间，所述数量N个代理中的代理在训练中改变驾驶员类型。

5.根据权利要求1所述的用于交互感知决策的方法，包括基于所述多代理环境的布局或所述第一代理和所述数量N个代理的定位而确定在时间间隔内应用于所述第一代理的一组可能行动的子集的掩码。

6.根据权利要求5所述的用于交互感知决策的方法，包括通过从所述一组可能行动排除一组被掩码的行动来基于一组剩余行动而训练所述第一代理。

7.根据权利要求5所述的用于交互感知决策的方法，其中所述一组可能行动包括无操作行动、加速行动、减速行动、制动释放行动、向左位移一个子车道行动或向右位移一个子车道行动。

8.根据权利要求1所述的用于交互感知决策的方法，其中所述第一评价是分散评价，并且所述第二评价是集中评价。

9.根据权利要求1所述的用于交互感知决策的方法，其中在所述单代理环境中训练所述第一代理在所述多代理环境中训练所述数量N个代理之前发生。

10.根据权利要求1所述的用于交互感知决策的方法，包括基于从所述第一策略梯度和所述第二策略梯度得到的组合策略梯度而训练所述数量N个代理。

11.一种用于交互感知决策的系统，包括：

处理器；

存储器；和

模拟器，所述模拟器经由所述处理器和所述存储器实现，以执行：

使用马尔可夫博弈在包括所述第一代理和数量N个代理的多代理环境中基于所述第一策略梯度而训练所述数量N个代理并且基于所述第一损失函数和第二损失函数而训练第二策略梯度和第二评价以学习所述目标中的一个或多个来将第二代理神经网络实例化，

其中所述第一代理和所述数量N个代理中的每一个基于相应代理的位置和所述多代理环境的布局而与车道优先级级别相关联，

其中在训练所述数量N个代理期间，当在所述多代理环境的所述代理中的两个或更多个之间发生碰撞时，由所述模拟器基于所述相应代理的车道优先级级别而将负奖励或惩罚分配给所述碰撞中涉及的所述相应代理；

12.根据权利要求11所述的用于交互感知决策的系统，其中所述数量N个代理中的每一个与指示所述相应代理的协同级别的驾驶员类型相关联，其中所述驾驶员类型是协同的或竞争的。

13.根据权利要求11所述的用于交互感知决策的系统，包括Q-掩码器，所述Q-掩码器基于所述多代理环境的布局或所述第一代理和所述数量N个代理的定位而确定在时间间隔内应用于所述第一代理的一组可能行动的子集的掩码。

14.根据权利要求13所述的用于交互感知决策的系统，其中所述模拟器通过从所述一组可能行动排除一组被掩码的行动来基于一组剩余行动而训练所述第一代理。

15.根据权利要求13所述的用于交互感知决策的系统，其中所述一组可能行动包括无操作行动、加速行动、减速行动、制动释放行动、向左位移一个子车道行动或向右位移一个子车道行动。

16.根据权利要求11所述的用于交互感知决策的系统，其中所述第一评价是分散评价，并且所述第二评价是集中评价。

17.根据权利要求11所述的用于交互感知决策的系统，其中所述模拟器在所述单代理环境中训练所述第一代理在所述多代理环境中训练所述数量N个代理之前发生。

18.根据权利要求11所述的用于交互感知决策的系统，其中所述模拟器基于从所述第一策略梯度和所述第二策略梯度得到的组合策略梯度而训练所述数量N个代理。

19.根据权利要求11所述的用于交互感知决策的系统，包括通信接口，所述通信接口将所述多目标、多代理、多级交互感知决策网络策略发送到服务器或车辆。

20.一种用于交互感知决策的车辆，包括：

控制器，所述控制器包括处理器和存储器；

一个或多个车辆系统；和

车辆通信接口，所述车辆通信接口接收多目标、多代理、多级交互感知决策网络策略，

其中所述控制器根据所述多目标、多代理、多级交互感知决策网络策略来操作所述车辆的所述车辆系统中的一个或多个，并且其中所述多目标、多代理、多级交互感知决策网络策略通过以下方式生成：

在第一级处使用马尔可夫决策过程，在单代理环境中基于第一策略梯度而训练第一代理并且基于第一损失函数而训练第一评价以学习一个或多个目标，在所述单代理环境中所述第一代理是唯一存在的代理，其中所述第一代理与第一代理神经网络相关联，并且所述第一评价与第一评价神经网络相关联；

在第二级处使用马尔可夫博弈，在包括所述第一代理和数量N个代理的多代理环境中基于所述第一策略梯度而训练所述数量N个代理并且基于所述第一损失函数和第二损失函数而训练第二策略梯度和第二评价以学习所述目标中的一个或多个来将第二代理神经网络实例化，其中所述数量N个代理中的每一个与指示相应代理的协同级别的驾驶员类型相关联；以及

基于所述第一代理神经网络和所述第二代理神经网络而生成所述多目标、多代理、多级交互感知决策网络策略。