CN115427966A - 通过具有不确定性估计的强化学习的战术决策制定 - Google Patents

通过具有不确定性估计的强化学习的战术决策制定 Download PDF

Info

Publication number
CN115427966A
CN115427966A CN202080099710.8A CN202080099710A CN115427966A CN 115427966 A CN115427966 A CN 115427966A CN 202080099710 A CN202080099710 A CN 202080099710A CN 115427966 A CN115427966 A CN 115427966A
Authority
CN
China
Prior art keywords
state
decision
action
uncertainty
tentative
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202080099710.8A
Other languages
English (en)
Inventor
卡尔-约翰·赫尔
里奥·莱恩
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Volvo Autonomous Solutions AB
Original Assignee
Volvo Autonomous Solutions AB
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Volvo Autonomous Solutions AB filed Critical Volvo Autonomous Solutions AB
Publication of CN115427966A publication Critical patent/CN115427966A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G05CONTROLLING; REGULATING
    • G05DSYSTEMS FOR CONTROLLING OR REGULATING NON-ELECTRIC VARIABLES
    • G05D1/00Control of position, course, altitude or attitude of land, water, air or space vehicles, e.g. using automatic pilots
    • G05D1/0088Control of position, course, altitude or attitude of land, water, air or space vehicles, e.g. using automatic pilots characterized by the autonomous decision making process, e.g. artificial intelligence, predefined behaviours
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/004Artificial life, i.e. computing arrangements simulating life
    • G06N3/006Artificial life, i.e. computing arrangements simulating life based on simulated virtual individual or collective life forms, e.g. social simulations or particle swarm optimisation [PSO]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/092Reinforcement learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N7/00Computing arrangements based on specific mathematical models
    • G06N7/01Probabilistic graphical models, e.g. probabilistic networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Health & Medical Sciences (AREA)
  • Computing Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Computational Linguistics (AREA)
  • Biomedical Technology (AREA)
  • General Health & Medical Sciences (AREA)
  • Biophysics (AREA)
  • Molecular Biology (AREA)
  • Game Theory and Decision Science (AREA)
  • Medical Informatics (AREA)
  • Automation & Control Theory (AREA)
  • Remote Sensing (AREA)
  • Radar, Positioning & Navigation (AREA)
  • Aviation & Aerospace Engineering (AREA)
  • Business, Economics & Management (AREA)
  • Mathematical Optimization (AREA)
  • Algebra (AREA)
  • Mathematical Analysis (AREA)
  • Computational Mathematics (AREA)
  • Pure & Applied Mathematics (AREA)
  • Probability & Statistics with Applications (AREA)
  • Feedback Control In General (AREA)

Abstract

一种使用强化学习RL代理控制自主车辆的方法(100),该方法包括:多个训练会话(110‑1,…,110‑K),其中,RL代理与包括自主车辆的环境交互,每个训练会话具有不同的初始值,并生成取决于状态和动作的状态‑动作值函数Qk(s,a);决策制定(112),其中,RL代理输出与自主车辆的控制相关的至少一个暂定决策;基于多个状态‑动作值函数的可变性度量的不确定性估计(114),该多个状态‑动作值函数针对与暂定决策中的每个相对应的状态‑动作对来评估;以及车辆控制(116),其中,依赖于所估计的不确定性来执行至少一个暂定决策。

Description

通过具有不确定性估计的强化学习的战术决策制定
技术领域
本发明涉及自主车辆领域,尤其涉及使用强化学习代理来控制自主车辆的方法。
背景技术
自主车辆的决策制定任务通常分为战略、战术和操作决策制定,也称为导航、制导和稳定。简言之,战术决策是指高层次决策,通常是离散的决策,例如何时在高速公路上变道,或者在十字路口是停还是走。本发明主要针对战术决策制定领域。
由于车辆要面对的环境的多样性、与其他道路使用者的交互以及与传感器信息相关联的不确定性,战术决策制定具有挑战性。人工地预测所有可能发生的情况并编码合适的行为并不可行。因此,考虑基于机器学习的方法来训练决策制定代理是具有吸引力的选择。
传统的决策制定方法基于预定规则并实现为手工制作的状态机。其他经典方法将决策制定任务视为运动规划问题。尽管这些方法在很多情况下是成功的,但是一个缺点为它们是针对特定驾驶情况来设计的,这使得很难将其扩展到实际驾驶的复杂性。
强化学习(RL)此前已经应用于模拟环境中自主驾驶的决策制定。例如参见C.J.Hoel、K.Wolff和L.Laine,“Automated speed and lane change decision makingusing deep reinforcement learning”,Proceedings of the 21st InternationalConference on Intelligent Transportation Systems(ITSC),4–7Nov.2018,pp.2148–2155[doi:10.1109/ITSC.2018.8569568]。然而,只有在接近训练分布的情况下,才能期望RL在以前的工作中训练的代理输出合理的决策。事实上,这些方法的基本问题是,无论代理面临什么情况,它们总是会输出一个决策,而不会对决策的不确定性或代理在训练期间是否经历过类似的情况提出任何建议或指示。例如,如果将受过单向公路驾驶训练的代理部署在迎面驶来的交通场景下,它仍然会输出决策,而不会对于这些决策的质量很可能低得多而发出任何警告。训练不足的更微妙情况是,暴露在标称或正常公路驾驶环境下的代理突然面临超速驾驶或造成交通停滞的事故。
鉴于这些缺点,已经采取的预防措施是,在密闭环境中进行全面的实际测试并结合连续的改进。反复测试和改进,直到发现决策制定代理实现所观察的错误的可以接受的低水平,并且因此适合在测试环境之外使用。这项工作繁重、耗时并且耗费在研发其他方面的资源。
发明内容
本发明的一个目的是提供可用的方法和装置,用于评估诸如RL代理的决策制定代理输出的不确定性。具体目的是提供决策制定代理不仅输出建议的决策而且估计该决策的不确定性的方法和装置。这些方法和装置优选包括安全标准,安全标准确定受训的决策制定代理对于具体决策是否有足够的信心,因此在消极情况下可以用安全导向的后备决策来否决代理。
根据独立权利要求,本发明实现了这些和其他目的。从属权利要求限定本发明的示例实施例。
在本发明的第一方面中,提供一种使用RL代理控制自主车辆的方法。该方法始于多个K个训练会话,其中,RL代理与包括自主车辆的环境交互,每个训练会话具有不同的初始值,并生成取决于状态s和动作a的状态-动作值函数Qk(s,a)(k=1,...,K)。训练会话可以按时间顺序执行,也可以相互并行执行。随后是决策制定阶段,其中,RL代理输出与自主车辆的控制相关的至少一个暂定决策。在状态
Figure BDA0003885171030000031
中执行动作
Figure BDA0003885171030000032
的暂定决策可以表示为状态-动作对
Figure BDA0003885171030000033
根据实施例,随后是基于针对状态-动作对
Figure BDA0003885171030000034
评估的K个状态-动作值函数的可变性度量执行的不确定性估计,也就是数量为K的
Figure BDA0003885171030000035
的可变性。然后,车辆控制基于该估计,也就是通过依赖于所估计的不确定性来执行至少一个暂定决策。
将此推广到RL代理输出与在状态
Figure BDA0003885171030000036
中要采取的可能动作
Figure BDA0003885171030000037
相对应的任意数量L≥1的暂定决策的情况,将针对每个对
Figure BDA0003885171030000038
来评估K个不同的状态-动作值函数,其中1≤l≤L。
因此,基于K个观察的统计可变性的度量来评估在状态
Figure BDA0003885171030000039
中采取动作
Figure BDA00038851710300000310
的暂定决策的不确定性,K个观察是针对该状态-动作对评估的K个状态-动作值函数:
Figure BDA00038851710300000311
基于可变性度量来评估不确定性,也就是说,或者通过在不进行处理的情况下考虑其值,或者通过考虑从可变性度量得出的数量,例如,在归一化、定标、与其他相关因素结合等之后。在存在多个暂定决策(L≥2)的情况下,计算可变性度量的多个值。然后,可以根据估计的不确定性来执行一个或多个暂定决策。当根据不确定性来进行暂定决策的执行时——可能的结果可以是不执行或者在附加安全导向限制下执行——可以维持期望的安全水平。
如本文所用,“RL代理”可以理解为实现从状态s到动作a的映射的软件指令。术语“环境”是指自主车辆或者在模拟环境下其模型/化身运行的模拟环境或现实环境。下面给出RL代理与这种意义上的“环境”交互的数学模型。“可变性度量”包括用于量化统计分散性的任何合适度量,例如方差、变异范围、偏差、变异系数、熵等。通常,除非本文另有明确限定,否则权利要求中使用的所有术语都应当根据它们在本技术领域的通常含义进行解释。除非另有明确说明,否则对“一/一个/元件、设备、组件、装置、步骤等”的所有引用都应当开放地解释为引用元件、设备、组件、装置、步骤等的至少一个实例。除非明确说明,否则本文公开的任何方法的步骤都无需按照所公开的确切顺序执行。
在一个实施例中,仅当估计的不确定性小于预定阈值时,执行暂定决策。本实施例可以施加这样的条件:为了执行暂定决策,要求不确定性低于可容忍阈值。这有助于抑制不确定的决策(往往是不安全的决策)的执行,并且因此符合道路安全的利益。
如前所述,虽然本实施例将估计的不确定性量化为二元变量,但是其他实施例可以将估计的不确定性视为连续变量,这可以指导实现期望安全标准所需的额外安全措施的数量,例如,暂定决策被认为可以安全执行的最大速度或交通密度。
在一个实施例中,在RL代理做出的多个暂定决策可用(L≥2)的情况下,按照顺序排列暂定决策并相对于其的所估计的不确定性来进行评估。该方法可以应用这样的规则:应当执行序列中被发现估计的不确定性低于预定阈值的第一暂定决策。虽然这可能意味着,即使其估计的不确定性低于预定阈值,位于序列后面的暂定决策也不会被执行,但是从权利要求的意义上来说,这仍然是可以“根据估计的不确定性执行”暂定决策的几种可能方式之一。本实施例的优点在于,可以找到可执行的暂定决策,无需针对不确定性评估所有可用的暂定决策。
在前述实施例的进一步发展中,如果顺序评估没有返回待执行的暂定决策,则执行后备决策。例如,如果发现序列中的最后一个暂定决策具有太大的不确定性,则执行后备决策。后备决策可以是安全导向的,这有利于道路安全。至少在战术决策制定中,后备决策可以包括不采取动作。举例来说,如果发现实现超越前方慢车的所有暂定决策都过于不确定,则后备决策可以是不超越慢车。
在各种实施例中,可通过至少一个神经网络来实现RL代理。具体而言,K个神经网络可用于执行K个训练会话。K个神经网络的每一个都可以用一组独立采样的权重进行初始化。
本发明不依赖于特定类型的RL代理,但是可以用基于策略或基于值的RL代理来实现。具体而言,RL代理可以包括策略网络和值网络。可以通过诸如参与者-评价者算法的策略梯度算法来获得RL代理。作为另一个示例,RL代理是诸如深度Q网络(DQN)的Q学习代理。
在本发明的第二方面中,提供一种用于控制自主车辆的装置。该装置可以对应于计算机或分布式计算系统的功能或物理组件,包括实现RL代理的处理电路和存储器,RL代理被配置为在多个训练会话中与包括自主车辆的环境交互,每个训练会话具有不同的初始值,并生成取决于状态和动作的状态-动作值函数Qk(s,a)。RL代理进一步被配置为输出与自主车辆的控制相关的至少一个暂定决策。处理电路和存储器进一步实现不确定性估计器,不确定性估计器被配置为基于多个状态-动作值函数的可变性度量来估计不确定性,多个状态-动作值函数由RL代理针对与暂定决策中的每个相对应的状态-动作对来评估。该装置进一步包括车辆控制接口,车辆控制接口被配置为通过依赖于所估计的不确定性执行至少一个暂定决策来控制自主车辆。
在第三方面中,本发明提供一种用于在具有这些特征的装置上执行车辆控制方法的计算机程序。计算机程序可以存储或分布在数据载体上。如本文所用,“数据载体”可以是诸如经过调制的电磁波或光波的暂时性数据载体,也可以是非暂时性数据载体。非暂时性数据载体包括易失性和非易失性存储器,例如磁学、光学或固态类型的永久和非永久存储器。仍然在“数据载体”的范围内,这些存储器可以固定安装,也可以是便携式。
根据本发明第二方面的装置和根据本发明第三方面的计算机程序与根据本发明第一方面的方法具有相同或类似的效果和优点。以上按照方法描述的实施例和进一步发展同样适用于第二和第三方面。
附图说明
参考附图以示例的方式来描述本发明的实施例,其中:
图1是根据本发明实施例的方法的流程图;
图2是根据本发明另一个实施例的用于控制自主车辆的装置的方框图;
图3示出RL代理的神经网络的架构;以及
图4是在示例中所选动作的平均不确定性相对于500万个训练步骤的曲线图。
具体实施方式
下面参考附图更全面地描述本发明的各个方面,附图示出本发明的某些实施例。然而,可以通过很多不同的形式来具体实施这些方面,并且所述实施例不应解释为限制性的;更准确而言,通过示例的方式来提供它们,从而使得本公开彻底和完整,并将本发明所有方面的范围完全传达给本领域技术人员。
强化学习是机器学习的子领域,其中,代理与一些环境交互,以学习将未来预期回报最大化的策略π(s)。参考教材R.S.Sutton和A.G.Barto,Reinforcement Learning:AnIntroduction,2nd ed.,MIT Press(2018)。
策略π(s)限定在每个状态s中要采取哪个动作a。当采取动作时,环境转换为新状态s′,且代理接收奖励r。可将强化学习问题建模为马尔可夫决策过程(MDP),该过程由元组
Figure BDA0003885171030000061
来限定,其中
Figure BDA0003885171030000062
是状态空间,
Figure BDA0003885171030000063
是动作空间,T是状态转换模型(或演化算子),R是奖励模型,γ是折扣因子。该模型也可以视为代表RL代理与训练环境的交互。在每个时间步长t,代理的目标是选择将折扣回报最大化的动作,
Figure BDA0003885171030000071
在Q学习中,代理试图学习最优动作-值函数Q*(s,a),其被限定为
Figure BDA0003885171030000072
根据最优动作-值函数,将策略推导如下
π(s)=argm ax Q*(s,a)。
由图1示出本发明的实施例,图1是通过RL代理来控制自主车辆的方法100的流程图。在所示实施例中,该方法始于多个训练会话110-1、110-2、…、110-K(K≥2),多个训练会话可以同时进行,也可以至少以时间重叠的方式进行。在每个训练会话中,RL代理与具有自己的初始值并包括自主车辆(或者,如果是模拟环境,则为车辆的模型)的环境进行交互。第k个训练会话返回状态-动作值函数Qk(s,a),对于任何1≤k≤K,可以通过上述方式从中导出决策制定策略。优选地,将所有K个状态-动作值函数组合成共同状态-动作值函数
Figure BDA0003885171030000073
它可以代表状态-动作值函数的中心趋势,例如K个状态-动作值的平均值:
Figure BDA0003885171030000074
发明人已经认识到,与状态-动作对
Figure BDA0003885171030000075
相对应的暂定决策的不确定性可以基于数字
Figure BDA0003885171030000076
的可变性来估计。可变性可以被测量为标准偏差、变异系数(即,通过平均值归一化的标准偏差)、方差、范围、平均绝对差值等。在本公开中,可变性度量用
Figure BDA0003885171030000077
表示,不管使用哪个定义。
因此,在所示方法100中,决策制定步骤112之后是第三步骤114,在决策制定步骤112中,与自主车辆的控制相关,RL代理输出至少一个暂定决策
Figure BDA0003885171030000081
1≤l≤L其中L≥1,第三步骤114是基于可变性度量
Figure BDA0003885171030000082
来估计一个或多个暂定决策的不确定性。
在第四步骤116中,为了控制自主车辆,根据其各自的估计不确定性,即,基于
Figure BDA0003885171030000083
(1≤l≤L)将L≥1暂定决策投入使用。可变性度量
Figure BDA0003885171030000084
的相对高值表明,RL代理远离训练分布,并且因此暂定决策
Figure BDA0003885171030000085
可能被视为相对不安全。例如,只有当可变性小于阈值Cv,也就是说,只有当
Figure BDA0003885171030000086
时,才可以选择执行第l个决策。
要找到状态
Figure BDA00038851710300000810
的单个可执行动作
Figure BDA0003885171030000087
可以遵守上述阈值条件将平均Q值最大化:
Figure BDA0003885171030000088
遵守
Figure BDA0003885171030000089
阈值Cv可以表示自主车辆运行时的期望安全水平。它可能已经通过交通测试加以确定或校准,并且可能是基于被视为错误的决策的频率、碰撞、近距离碰撞、道路偏离等。
应当注意,可变性度量不需要在方法100的第二步骤112和第四步骤116之间进行实际计算。可行的替代方法是预先计算所有可能的状态-动作对或者所有可能的状态-动作的子集的可变性,并将其存储起来。示例子集包括程序员预期在驾驶期间可能相关的状态-动作对,或者在模拟或实际测试驾驶期间记录的状态-动作对。当仅为可能的状态-动作值的子集预先计算了可变性度量时,可能需要通过允许在操作期间添加缺失的可变性度量值的处理能力来补充预先计算的值的集合。只要代理不变,就不需要更新预先计算的值的集合;只要代理不承担附加训练和/或被重新配置,就可能出现这种情况。
图2示出根据本发明另一个实施例的用于控制自主车辆299的装置200。自主车辆299可以是任何道路车辆或车辆组合,包括卡车、公共汽车、施工设备、采矿设备以及在公共或非公共交通中运行的其他重型设备。最终,可将装置200部分地设置在自主车辆299中。替代性地,可将装置200或其一部分作为与车辆299无线通信的固定或移动控制器(未示出)的一部分来设置。
装置200包括处理电路210、存储器212和车辆控制接口214。车辆控制接口214被配置为通过直接或经由中间组件向车辆中的致动器(未示出)传输有线或无线信号来控制自主车辆299。通过类似方式,车辆控制接口214可以接收来自车辆中物理传感器(未示出)的信号,从而检测驾驶环境的当前条件或车辆299中普遍存在的内部状态。处理电路210实现如下所述的RL代理220和不确定性估计器222。
RL代理220在多个训练会话中与包括自主车辆的环境交互,每个训练会话具有不同的初始值,并生成取决于状态和动作的状态-动作值函数。然后,RL代理220输出至少一个与自主车辆的控制相关的暂定决策。至少在训练阶段期间,RL代理220可以包括与训练会话数量相同的子代理,每个子代理与状态-动作值函数Qk(s,a)相对应。为了决策制定的目的,可将子代理组合成联合RL代理,其与共同状态-动作值函数
Figure BDA0003885171030000091
相对应。
不确定性估计器222被配置为基于多个状态-动作值函数的可变性度量来估计不确定性,多个状态-动作值函数由RL代理针对与每个暂定决策相对应的状态-动作对来评估。结果由车辆控制接口214使用,在本实施例中,车辆控制接口214被配置为通过依赖于估计的不确定性执行至少一个暂定决策来控制自主车辆299。
回到从数学角度对本发明的描述,实施例依赖于DQN算法。该算法使用具有加权θ的神经网络将最优动作-值函数近似为Q*(s,a)≈Q(s,a;θ);进一步参见V.Mnih等人,“Human-level control through deep reinforcement learning”,Nature,vol.518,pp.529–533(2015)[doi:10.1038/nature14236.]。因为动作-值函数遵守贝尔曼方程,所以能够通过最小化损失函数来优化权重
Figure BDA0003885171030000101
如Mnih中所述,针对小批量M计算损失,并重复更新目标网络的权重θ-
DQN算法返回Q值的最大似然估计,但是不给出有关估计不确定性的信息。动作的风险可以表示为采取该动作时回报的方差。RL研究的一条线路侧重于通过统计引导获得不确定性的估计;然后对于可用数据的不同子集训练模型的整体,并使用由整体给出的分布来近似不确定性。如果将随机先验函数(RPF)添加到每个整体成员,则获得有时候性能更好的贝叶斯后验;例如参见I.Osband、J.Aslanides和A.Cassirer,“Randomized priorfunctions for deep reinforcement learning,”in:S.Bengjo等人的(eds.),Adv.inNeural Inf.Process.Syst.31(2018),pp.8617–8629。当使用RPF时,每个单独的整体成员(此处以k为索引)将Q值估计为总和
Figure BDA0003885171030000102
其中f、p是神经网络,参数θk可以被训练且进一步的参数
Figure BDA0003885171030000103
保持不变。因子β可以用于调整先验函数的重要性。当加上先验时,以上限定的损失函数L(θ)变为
Figure BDA0003885171030000104
本实现方式中使用的完全整体RPF方法可以用伪代码表示为算法1:
Figure BDA0003885171030000111
在伪代码中,函数StepEnvironment对应于上述奖励模型R和状态转换模型T的组合。符号
Figure BDA0003885171030000112
表示在整数范围[1,K]上从均匀分布中对整数k进行采样,
Figure BDA0003885171030000113
表示在开区间(0,1)上从均匀分布中对实数进行采样。
这里,K个可训练神经网络和K个固定先验网络的整体首先被随机初始化。对于单独的整体成员,将重播存储器划分为K个并行缓存器mk(尽管在实践中,这可以通过节省存储器的方式来实现,与单个重播存储器相比,其使用多出的存储器数量几乎可以忽略不计)。为了进行研究,为每个训练片段选择随机的整体成员。然后通过贪婪地将所选择的整体成员的Q值最大化来采取动作,这对应于近似汤普森采样的形式。然后将新经验(si,ai,ri,si+1)以概率padd添加到每个整体缓存器。最后,从每个整体缓存器中对小批量M个经验进行采样,并使用以上给出的损失函数的第二定义,通过随机梯度下降(SGD)来更新对应的整体成员的可训练网络参数。
使用城市机动性仿真(SUMO)交通模拟器,在单向三车道公路驾驶场景中训练所提出的整体RPF算法。要控制的车辆(本我车辆)为16米长的卡车-拖车组合,最大速度为25m/s。在每个片段开始时,将25辆客车插入模拟,随机期望速度范围为15至35m/s。为了创造感兴趣的交通状况,将速度较慢的车辆放置在本我车辆前面,将速度较快的车辆放置在本我车辆后面。每个片段在N=100个时间步长后结束,或者在发生碰撞或本我车辆驶离道路时提前结束。模拟时间步长设置为Δt=1s。客车由标准SUMO驾驶员模型控制,该模型包括用于纵向运动的自适应巡航控制器以及用于做出战术决策以超越慢车的车道变更模型。在这里考虑的场景中,不需要任何战略决策,因此将车道变更模型的战略部分关闭。此外,为了让交通状况更加苛刻,将车道变更模型中的合作等级设置为零。在另一个车辆的左右两侧都允许超车,并且每次车道变更花费4秒钟来完成。该环境通过限定相应的状态空间
Figure BDA0003885171030000121
动作空间
Figure BDA0003885171030000122
状态转换模型T和奖励R进行建模。
图3示出本实施例中使用的神经网络的架构。该架构包括时间卷积神经网络(CNN)架构,它使得训练更快,并且至少在某些用例中,相比于标准的全连接(FC)架构给出更好的结果。通过将CNN层和最大池化层应用于输入的描述周围车辆的部分,网络的输出变得独立于输入向量中周围车辆的顺序,并且架构允许不同的输入向量大小。将校正线性单元(ReLU)用作所有层的激活函数,具有线性激活函数的最后一层除外。该架构还包括竞争结构,其将状态值V(s)与动作优势A(s,a)估计分开。
在示例中,在上述模拟环境中训练RL代理。在每增加50000个训练样本(以下称为训练步骤)之后,在100个不同的测试片段上对代理进行评估。这些测试片段按照与训练片段相同的方式随机生成,但是在训练期间不存在。对于所有测试阶段而言,测试片段也保持相同。安全标准cv(s,a)<Cv在测试片段中不起作用,但是在完全训练的代理暴露于未知场景时使用。
为了深入了解不确定性估计在训练过程期间怎样演化,并说明怎样设置不确定性阈值参数Cv,图4示出测试片段期间所选动作的变异系数Cv,作为训练步骤数量的函数(规模为百万级步骤)。每个标绘值为该测试阶段的100个测试片段的平均值。图4示出所选动作的不确定性,而未选动作的不确定性可以更高。在大约400万个训练步骤之后,变异系数稳定在0.01左右,数值有小幅扩展,这可以证明设置阈值Cv=0.02是合理的。
为了评估RPF整体代理处理未知状况的能力,将在500万个训练步骤之后获得的代理部署在并未包括在训练片段中的场景中。在涉及迎面驶来车辆的各种状况下,不确定性估计始终如一地高,cv≈0.2。这个值比阈值Cv=0.02的建议值高一个量级的事实连同其他几个示例,表明安全标准Cv(s,a)<Cv是一种可靠和安全的保护措施,避免了代理未经充分训练的决策制定。
以上主要参考几个实施例来描述本发明的多个方面。然而,正如本领域技术人员容易理解的那样,除以上公开的实施例外,在本发明的范围内其他实施例也同样可能,如所附权利要求所限定。具体而言,所公开的估计由RL代理作出决策的不确定性的方法更普遍地适用于机器学习,也适用于自主车辆领域之外的机器学习,并且在预期决策的可靠性会影响人身安全、材料价值、信息质量、用户体验等的情况下,这种方法可能是有利的。

Claims (15)

1.一种使用强化学习RL代理控制自主车辆的方法(100),所述方法包括:
多个训练会话(110-1,…,110-K),其中,所述RL代理与包括所述自主车辆的环境交互,每个训练会话具有不同的初始值,并生成取决于状态和动作的状态-动作值函数Qk(s,a);
决策制定(112),其中,所述RL代理输出与所述自主车辆的控制相关的至少一个暂定决策;
基于多个状态-动作值函数的可变性度量的不确定性估计(114),所述多个状态-动作值函数针对与所述暂定决策中的每个相对应的状态-动作对来评估;以及
车辆控制(116),其中,依赖于所估计的不确定性来执行所述至少一个暂定决策。
2.根据权利要求1所述的方法,其中,仅当所估计的不确定性小于预定阈值时,执行暂定决策。
3.根据权利要求2所述的方法,其中:
所述决策制定包括所述RL代理输出多个暂定决策;以及
所述车辆控制包括相对于其的所估计的不确定性对所述暂定决策的顺序评估。
4.根据权利要求3所述的方法,其中,如果所述顺序评估没有返回待执行的暂定决策,则执行后备决策。
5.根据前述权利要求中任一项所述的方法,其中,所述决策制定包括战术决策制定。
6.根据前述权利要求中任一项所述的方法,其中,所述RL代理包括至少一个神经网络。
7.根据权利要求6所述的方法,其中,通过诸如参与者-评价者算法的策略梯度算法来获得所述RL代理。
8.根据权利要求6所述的方法,其中,所述RL代理是诸如深度Q网络DQN的Q学习代理。
9.根据权利要求6至8中任一项所述的方法,其中,所述训练会话使用相同数量的神经网络。
10.根据权利要求6至9中任一项所述的方法,其中,所述初始值对应于随机先验函数(RPF)。
11.根据前述权利要求中任一项所述的方法,其中,所述决策制定基于所述多个状态-动作值函数的中心趋势。
12.根据前述权利要求中任一项所述的方法,其中,所述可变性度量是以下的一个或多个:方差、范围、偏差、变异系数、熵。
13.一种用于控制自主车辆(299)的装置(200),包括:处理电路(210)和存储器(212),所述处理电路和所述存储器实现强化学习RL代理(220),所述强化学习RL代理被配置为:
-在多个训练会话中与包括所述自主车辆的环境交互,每个训练会话具有不同的初始值,并生成取决于状态和动作的状态-动作值函数Qk(s,a),以及
-输出与所述自主车辆的控制相关的至少一个暂定决策,
所述处理电路和存储器进一步实现不确定性估计器(222),所述不确定性估计器(222)被配置为基于多个状态-动作值函数的可变性度量来估计不确定性,所述多个状态-动作值函数由所述RL代理针对与所述暂定决策中的每个相对应的状态-动作对来评估,
所述装置进一步包括:
车辆控制接口(214),所述车辆控制接口(214)被配置为通过依赖于所估计的不确定性执行所述至少一个暂定决策来控制所述自主车辆。
14.一种计算机程序,所述计算机程序包括使得根据权利要求13所述的装置执行根据权利要求1至12中任一项所述的方法的指令。
15.一种载有根据权利要求14所述的计算机程序的数据载体。
CN202080099710.8A 2020-04-20 2020-04-20 通过具有不确定性估计的强化学习的战术决策制定 Pending CN115427966A (zh)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/EP2020/061006 WO2021213616A1 (en) 2020-04-20 2020-04-20 Tactical decision-making through reinforcement learning with uncertainty estimation

Publications (1)

Publication Number Publication Date
CN115427966A true CN115427966A (zh) 2022-12-02

Family

ID=70391122

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202080099710.8A Pending CN115427966A (zh) 2020-04-20 2020-04-20 通过具有不确定性估计的强化学习的战术决策制定

Country Status (4)

Country Link
US (1) US20230142461A1 (zh)
EP (1) EP4139844A1 (zh)
CN (1) CN115427966A (zh)
WO (1) WO2021213616A1 (zh)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11273836B2 (en) * 2017-12-18 2022-03-15 Plusai, Inc. Method and system for human-like driving lane planning in autonomous driving vehicles
CN114707359A (zh) * 2022-05-06 2022-07-05 重庆大学 基于值分布强化学习的自动驾驶汽车决策规划方法

Also Published As

Publication number Publication date
US20230142461A1 (en) 2023-05-11
EP4139844A1 (en) 2023-03-01
WO2021213616A1 (en) 2021-10-28

Similar Documents

Publication Publication Date Title
Bhattacharyya et al. Multi-agent imitation learning for driving simulation
CN110956148B (zh) 无人车的自主避障方法及装置、电子设备、可读存储介质
Brechtel et al. Probabilistic MDP-behavior planning for cars
CN113561986B (zh) 自动驾驶汽车决策方法及装置
EP4086813A1 (en) Managing aleatoric and epistemic uncertainty in reinforcement learning, with applications to autonomous vehicle control
CN112464577B (zh) 车辆动力学模型的构建及车辆状态信息预测方法、装置
Ye et al. Meta reinforcement learning-based lane change strategy for autonomous vehicles
CN115427966A (zh) 通过具有不确定性估计的强化学习的战术决策制定
Liu et al. Benchmarking constraint inference in inverse reinforcement learning
Beard et al. Black-Box Safety Validation of Autonomous Systems: A Multi-Fidelity Reinforcement Learning Approach
CN115413344A (zh) 用于战术决策制定的强化学习代理的不确定性引导训练
US20230120256A1 (en) Training an artificial neural network, artificial neural network, use, computer program, storage medium and device
Schmidt et al. How to learn from risk: Explicit risk-utility reinforcement learning for efficient and safe driving strategies
EP3742344A1 (en) Computer-implemented method of and apparatus for training a neural network
US20230174084A1 (en) Monte Carlo Policy Tree Decision Making
CN114104005B (zh) 自动驾驶设备的决策方法、装置、设备及可读存储介质
CN115668215A (zh) 用于训练参数化策略的装置和方法
CN114616157A (zh) 用于通过强化学习检查自动化的行驶功能的方法和系统
Zhang et al. Stm-gail: Spatial-Temporal meta-gail for learning diverse human driving strategies
Kim et al. Action conditioned response prediction with uncertainty for automated vehicles
Lin et al. Car following modelling with constrained generative adversarial imitation learning
Dagdanov et al. Self-Improving Safety Performance of Reinforcement Learning Based Driving with Black-Box Verification Algorithms
US20230406327A1 (en) Apparatus and method for inferring driving characteristics of a vehicle
Minoarivelo Application of Markov Decision Processes to the Control of a Traffic Intersection
US20240132088A1 (en) Simulation based method and data center to obtain geo-fenced driving policy

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination