CN113297783A - 支持运输工具或机器人的机动动作规划的方法和设备 - Google Patents

支持运输工具或机器人的机动动作规划的方法和设备 Download PDF

Info

Publication number
CN113297783A
CN113297783A CN202110204659.9A CN202110204659A CN113297783A CN 113297783 A CN113297783 A CN 113297783A CN 202110204659 A CN202110204659 A CN 202110204659A CN 113297783 A CN113297783 A CN 113297783A
Authority
CN
China
Prior art keywords
state space
discrete
states
robot
mapping
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202110204659.9A
Other languages
English (en)
Inventor
M·黑尔比希
J·赫特
F·阿尔-哈费茨
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Volkswagen AG
Original Assignee
Volkswagen AG
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Volkswagen AG filed Critical Volkswagen AG
Publication of CN113297783A publication Critical patent/CN113297783A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G05CONTROLLING; REGULATING
    • G05DSYSTEMS FOR CONTROLLING OR REGULATING NON-ELECTRIC VARIABLES
    • G05D1/00Control of position, course or altitude of land, water, air, or space vehicles, e.g. automatic pilot
    • G05D1/02Control of position or course in two dimensions
    • G05D1/021Control of position or course in two dimensions specially adapted to land vehicles
    • G05D1/0212Control of position or course in two dimensions specially adapted to land vehicles with means for defining a desired trajectory
    • G05D1/0221Control of position or course in two dimensions specially adapted to land vehicles with means for defining a desired trajectory involving a learning process
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F30/00Computer-aided design [CAD]
    • G06F30/20Design optimisation, verification or simulation
    • G06F30/27Design optimisation, verification or simulation using machine learning, e.g. artificial intelligence, neural networks, support vector machines [SVM] or training a model
    • GPHYSICS
    • G05CONTROLLING; REGULATING
    • G05BCONTROL OR REGULATING SYSTEMS IN GENERAL; FUNCTIONAL ELEMENTS OF SUCH SYSTEMS; MONITORING OR TESTING ARRANGEMENTS FOR SUCH SYSTEMS OR ELEMENTS
    • G05B13/00Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion
    • G05B13/02Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion electric
    • G05B13/0265Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion electric the criterion being a learning criterion
    • G05B13/0285Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion electric the criterion being a learning criterion using neural networks and fuzzy logic
    • GPHYSICS
    • G05CONTROLLING; REGULATING
    • G05BCONTROL OR REGULATING SYSTEMS IN GENERAL; FUNCTIONAL ELEMENTS OF SUCH SYSTEMS; MONITORING OR TESTING ARRANGEMENTS FOR SUCH SYSTEMS OR ELEMENTS
    • G05B13/00Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion
    • G05B13/02Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion electric
    • G05B13/04Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion electric involving the use of models or simulators
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N7/00Computing arrangements based on specific mathematical models
    • G06N7/01Probabilistic graphical models, e.g. probabilistic networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F2111/00Details relating to CAD techniques
    • G06F2111/08Probabilistic or stochastic CAD

Abstract

本发明涉及支持自动驾驶运输工具(50)或机器人的机动动作规划(33)的方法,其中借助马尔可夫决策问题以离散形式描述运输工具(50)或机器人的环境的状态空间(10),借助动态编程从状态空间(10)中的离散状态(11)出发确定离散动作(At)的最佳动作值(Qx),借助强化学习方法学习具有状态空间(10)中的状态(11)作为输入值并具有状态空间(10)中的动作(At)的动作值(Qx)作为输出值的映射(20),基于借助动态编程确定的最佳动作值(Qx)初始化强化学习代理,并针对机动动作规划(33)提供学习的映射(20)。本发明还涉及支持自动驾驶运输工具(50)或机器人的机动动作规划(33)的设备(1)。

Description

支持运输工具或机器人的机动动作规划的方法和设备
技术领域
本发明涉及用于支持自动驾驶运输工具或机器人的机动动作规划的方法和设备。
背景技术
在自动驾驶运输工具中,除了轨迹规划、也就是提供在当前状况下要具体驶过的轨迹之外,在机动动作规划的范畴内需要进行战术性(taktisch)机动动作规划,以便实现上级的(übergeordnet)策略。对此的具体示例是具有多个车道和许多其他交通参与者的转弯状况。于是必须决定运输工具何时必须在哪个行车道上,以便例如对于乘客来说尽可能舒适地和/或尽可能时间优化地执行转弯过程,以及为此必须超越哪些其他交通参与者。对于自动操作的机器人来说,原则上也会产生相同的问题。
已知如下强化学习方法(Reinforcement-Learning-Verfahren),借助于所述强化学习方法可以学习(anlernen)其他交通参与者的行为并基于此做出最佳决策。在此,学习在状态和与此对应的关于目标设定方面的最佳动作之间的映射(英语:mapping),其中该目标设定通过奖励值(英语:reward)来表达。换句话说,强化学习代理必须全面尝试找到使得所述奖励值最大化的动作。为了找到最佳解决方案,强化学习代理必须彻底检查环境,以确保不会忽略最佳解决方案。另一方面,所述代理可以利用已经在较早时间点经历过的状况,在这些状况下,所述代理已经找到了具有相应高奖励值的良好解决方案。
此外,马尔可夫(Markow)决策问题和动态编程方法也是已知的。
发明内容
本发明所基于的任务是提供用于支持自动驾驶运输工具或机器人的机动动作规划的方法和设备。
根据本发明,该任务通过具有本发明的特征的方法和具有本发明的特征的设备来解决。本发明的有利的设计从下文中得出。
特别地,提供了一种用于支持自动驾驶运输工具或机器人的机动动作规划的方法,其中借助马尔可夫决策问题以离散形式描述所述运输工具或所述机器人的环境的状态空间,其中借助动态编程从所述状态空间中的离散状态出发确定针对离散动作的最佳动作值,其中借助强化学习方法来学习如下映射(Abbildung),所述映射具有所述状态空间中的状态作为输入值并具有所述状态空间中的针对动作的动作值作为输出值,其中在此情况下基于借助动态编程确定的最佳动作值对强化学习代理进行初始化,以及其中针对机动动作规划提供所学习的映射。
此外,特别是创建了一种用于支持自动驾驶运输工具或机器人的机动动作规划的设备,该设备包括数据处理装置,其中所述数据处理装置被设立用于,借助马尔可夫决策问题描述所述运输工具或所述机器人的环境的离散状态空间,借助动态编程从所述状态空间中的离散状态出发确定针对离散动作的最佳动作值,为了学习如下映射而使用强化学习方法,其中所述映射具有所述状态空间中的状态作为输入值并具有所述状态空间中的针对动作的动作值作为输出值,并且在此情况下基于借助动态编程确定的最佳动作值对强化学习代理进行初始化,以及针对机动动作规划提供所学习的映射。
所述方法和所述设备实现:所述强化学习代理不必从零开始学习,而是已经能够以至少鉴于在所述状态空间中的数个离散状态方面最佳的解决方案开始。这通过以下方式实现:在应用强化学习之前已经借助动态编程确定了针对所述状态空间中离散状态的各个动作的最佳动作值。借助于以这种方式确定的最佳动作值,初始化由所述强化学习代理学习的映射。由此,所述强化学习代理不必从零开始,而是可以建立在借助动态编程确定的动作值的基础上。
所述方法和所述设备的优点是:可以显著减少强化学习的学习时间。另一个优点是,此外由此也可以(必要时有针对性地)考虑在其他情况下原本罕见地或根本不会由所述强化学习代理访问的状态。由此特别是可以提高鉴于所考虑的所述状态空间中的罕见和/或不寻常的状态方面的安全性或质量(Güte)。
马尔可夫决策问题(英语:Markov decision process,MDP)是决策问题的一种模型。在此,代理的使用取决于决策序列,其中所述序列包括状态空间中离散状态之间的按顺序的状态转换。对于各个状态转换而言,在此适用马尔可夫假设,即从状态s到达状态s'的概率仅取决于s,而不取决于过去的历史,即不取决于s的前身(Vorgängern)。
所述动态编程是一种通过将复杂问题划分为更简单的子问题或部分问题来解决优化问题的方法。在此,一种解决方案以递归方式进行。特别地,所述动态编程是一种算法范式,其描述了一类优化方法,这些优化方法使用环境的完美模型作为马尔可夫决策问题来求解预给定问题。所述动态编程特别是应用于具有离散状态的状态空间中。特别是,所述动态编程作为结果提供最佳动作值,作为针对从所述状态空间中的离散状态出发的离散动作的奖励的度量。
强化学习(Reinforcement Learning)(也称为bestärkendes Lernen 或者verstärkendes Lernen)是一种机器学习方法,在该方法中,代理独立学习策略以便最大化所获得的奖励。在此,奖励既可以是正的也可以是负的。所述代理基于获得的奖励对奖励函数进行近似,其中所述奖励函数描述了状态或动作具有什么值。在动作的上下文中,这种值在本公开中被称为动作值(英语:action value)。强化学习的方法特别是考虑所述代理与所述代理的环境之间的交互,该交互以马尔可夫决策问题的形式来表达(formulieren)。从给定的、例如由至少一个传感器的所检测的传感器数据导出的状态出发,所述代理可以通过从多个动作中选择的动作而达到另外的状态。根据所做出的决策,即所执行的动作,所述代理获得奖励(英语:reward)。在此,所述代理具有如下任务:使得未来预期的增益最大化,其中该增益由折现的(diskontiert)奖励、即总奖励组成。在所述方法的最后,对于预给定的策略存在经近似的奖励函数,利用该奖励函数可以为每个动作提供或估计奖励值或动作值。
所述状态空间中的状态特别是可以包括多个参量或属性,即状态特别是多维的。在此特别是将状态定义为这些参量或属性的特定的表现形式(Ausprägung)。所述状态空间中的状态特别是以离散的方式被选择。所述状态空间特别是较高级别的状态空间,也就是说,状态并非通过传感器原始数据被映射,而是通过从传感器原始数据例如借助对象识别和/或模式识别所导出的更高价值的(höherwertiger)特征和属性被映射。状态可以包括例如环境中的障碍物位置和/或障碍物速度和/或障碍物的类型或类别。
对于运输工具而言,动作可以包括例如以下操作:利用激活的车距调节速度控制器(ACC)进行的直行驾驶(即停留在行车道上且不执行车道更换);直行驾驶(无加速);直行驾驶和制动;将行车道更换为左行车道或将行车道更换为右行车道。
针对所述状态空间中动作的奖励(英语:reward)或动作值特别是可以考虑以下影响:避免碰撞,路径符合度(Pfadtreue)(即与由导航装置预给定的路径没有偏差或仅有微小偏差),时间最优的行为和/或对于运输工具乘客而言的舒适性或适宜度。
可以规定,所述提供包括将特定的映射传送给至少一个控制设备。特别地,所述提供可以包括将特定映射加载到所述至少一个控制设备的存储器中。所述至少一个控制设备例如构造在运输工具或机器人中并且在那里用于机动动作规划。
所述设备的部件,特别是数据处理装置,可以单独或组合地构造为硬件和软件的组合,例如构造为在微控制器或微处理器上执行的程序代码。
运输工具特别是机动车。然而,原则上运输工具可以是另外的陆上、水上、空中、轨道或太空运输工具。原则上,机器人可以任意构造,例如构造为运输机器人、生产机器人或护理机器人等。
在一种实施方式中规定,所述映射具有表格形式。这是所述强化学习的一种简单形式,该简单形式也可以称为“表格式强化学习(Tabular Reinforcement Learning)”。在此,与动作对应的动作值以表格条目的形式与所述状态空间中的各个状态链接。然后,所述强化学习代理可以在学习的范畴内调用并更改所述表格中存储的各个动作值。为了初始化,借助动态编程针对相应状态所确定的动作值被存储在所述表格中。然后开始所述强化学习方法。
在一种实施方式中规定,借助神经网络提供所述映射,其中为了初始化,从所确定的最佳动作值出发通过受监视学习的方式训练所述神经网络。这具有如下优点:尽管使用离散状态进行初始化,但随后还可以针对所述状态空间的位于这些离散状态之间的状态提供动作值。如果以受监视学习的形式结束了所述初始化,则借助所述强化学习进一步训练所述神经网络。这特别是基于真实环境的状态来进行。所述神经网络特别是被构造为深度神经网络。
在一种实施方式中规定,所述状态空间中的所述离散状态是均匀分布的或以均匀分布的方式被选择。由此可以确保以均匀的方式映射所述状态空间。这是特别有利的,因为通过这种方式均匀地(gleichmäßig)考虑了状态的不同表现形式或对所述状态进行描述的参量的不同表现形式。
替代地或附加地,至少对于所述状态空间的这些维度的一部分可以规定,所述状态空间中的离散状态至少局部地以对数方式分布。由此,例如,与离运输工具更近的对象或其他运输工具相比,可以较小程度地考虑离所述运输工具距离更远的对象、例如其他运输工具。这例如通过如下方式实现,即,根据与运输工具的间距以对数方式选择所述状态空间的一个维度中各个状态之间的间距。然后,所述状态空间的分辨率随着与运输工具的间距增加而降低。
在一种实施方式中规定,所述状态是如此选择的或被如此选择,使得这些状态覆盖整个状态空间。由此可以确保以代表性的方式和方法映射整个状态空间。这是特别有利的,因为通过这种方式也可以考虑在实际中极其罕见地出现的状态,这在例如从检测到的传感器数据中导出的真实状态的情况下是不能确保的。
在一种实施方式中规定,所述状态空间中的离散状态至少部分地借助仿真(Simulation)产生。由此可以通过简单的方式为马尔可夫决策问题产生任意状态。特别地,可以借助仿真来产生对状态进行描述的参量的任意组合。特别地,在此也可以有针对性地产生和提供极其罕见地出现的状态。
在一种实施方式中规定,在强化学习时至少部分地借助仿真产生所述状态空间中的状态。由此在所述强化学习时也可以产生并考虑任意或有针对性的状态。通过这种方式,在所述强化学习时除了从检测到的传感器数据中导出的状态之外,即除了真实状态之外,还可以使用例如映射罕见状态或关键状态的仿真状态。
此外,提供了一种用于针对自动驾驶运输工具或机器人规划机动动作的方法,其中按照根据所描述的实施方式中的任意一个实施方式的方法所确定的映射在机动动作规划中被使用。
用于设计所述设备的其他特征从方法的设计方案的描述中得出。所述设备的优点在此分别与所述方法的设计方案中的优点相同。
附图说明
下面基于优选的实施例并参考附图对本发明进行更详细的解释。在此:
图1示出了用于支持自动驾驶运输工具或机器人的机动动作规划的设备的实施方式的示意图;
图2示出了在强化学习的范畴内神经网络的训练的示意图;
图3示出了用于运输工具的自动驾驶的调节结构的示意图,以用于说明借助在本公开中描述的方法所学习的映射的用途;
图4示出了用于支持自动驾驶运输工具或机器人的机动动作规划的方法的实施方式的示意流程图。
具体实施方式
在图1中示出了用于支持自动驾驶运输工具或机器人的机动动作规划的设备1的实施方式的示意图。设备1包括数据处理装置2。数据处理装置2包括计算装置3和存储装置4。计算装置3可以访问存储在存储装置4中的数据并且可以对所述数据执行计算操作。特别地,数据处理装置2执行本公开中描述的方法。
在该方法的第一部分中,数据处理装置2借助动态编程从状态空间10中的离散状态11出发确定针对离散动作的最佳动作值。状态空间10映射了运输工具或机器人的环境。为此,借助马尔可夫决策问题以离散的形式描述所述环境的状态空间10。特别地,分别在离散步中考虑定义状态11的所有物理参量和其他参量。
可以规定,状态空间10中的离散状态11是均匀分布的或以均匀分布的方式被选择。
此外可以规定,状态11是这样被选择的或被这样选择,使得这些状态覆盖整个状态空间10。
此外可以规定,状态空间10中的离散状态11至少部分地借助仿真产生。特别地,可以借助仿真产生极其罕见地出现的状态11。
在所述方法的第二部分中,借助强化学习方法学习映射20,其中所述映射具有状态空间10中的状态11作为输入值并具有状态空间10中的针对动作的动作值作为输出值。这借助数据处理装置2进行。在此规定,基于在所述方法的第一部分中借助动态编程确定的最佳动作值来初始化强化学习代理。因此,所述强化学习代理不是从零开始,而是已经具有至少对于在所述动态编程时可供使用的离散状态11而言最佳的解决方案。由此,可以改善、特别是加速所述初始化之后的学习过程。此外,由此还可以考虑极其罕见的但可能与安全相关的事件,其方式例如是:在仿真的范畴内有针对性地产生所述极其罕见但可能与安全相关的事件。
针对机动动作规划提供所学习的映射20。可以在所述提供的范畴内规定,将所学习的映射20加载到运输工具或机器人的控制设备51的存储器中。在那里将所学习的映射20用于战术性机动动作规划,也就是说:将来自状态空间10的当前状态作为输入值输送给映射20,并且所学习的映射20提供针对如下动作的动作值作为输出值,其中所述动作将当前状态转换为后续状态。所述动作值在此实现相应动作的评价并因此实现战术性机动动作规划,也就是是说,根据所述动作值来选择动作。
可以规定,映射20具有表格的形式。在此,所述动作值作为表格的条目(Eintrag)分别以与状态和动作相链接(verknüpfen)的方式被存储。在强化学习时,所述强化学习代理在开始时使用表格中存储的动作值,并且然后可以将所述动作值替换为在强化学习方法的范畴内所确定的新值。
替代地可以规定,借助神经网络提供映射20,其中所述神经网络为了初始化从特定的最佳动作值出发通过(im Wege des)受监视学习被训练。然后,所述神经网络还可以为状态空间10中的与离散状态11不同的其他状态估计动作值。这使得能够借助于有限数量的离散状态11来训练所述神经网络,但是随后还能够将所述神经网络应用于状态空间10中的任意状态。
图2示出了为了借助强化学习来学习映射20而进行的神经网络40的训练的示意图。借助强化学习进行的训练在该示例中借助于经仿真的环境41进行。在此以马尔可夫决策问题的形式描述了经仿真的环境41。然而,也可以考虑真实的传感器数据或从检测到的传感器数据导出的状态。
在借助强化学习方法进行训练之前,借助受监视的学习来训练神经网络40以进行初始化(未示出)。为此,神经网络40学习在所述方法的第一部分中借助动态编程确定的动作值。特别地,为此将离散状态分别输送给神经网络40,并且分别将针对离散动作的与此对应的动作值作为基本真理(Grundwahrheit)在受监视的学习中使用,其中所述动作值是借助动态编程确定的。如果神经网络40这样被初始化,则神经网络40能够从状态空间中的任意状态出发来估计针对动作的动作值。
如果所述初始化结束,则执行所述强化学习方法(图2)。在所述强化学习方法的范畴内,对神经网络40进行再训练(nachtrainieren),并由此更改所学习的映射20。特别是通过向神经网络40输送时间离散状态st来进行所述再训练。从该时间离散状态st出发,神经网络40估计针对从该状态st出发的不同可能动作的动作值Qx。从预给定的策略π(英语:policy)出发,为所考虑的时间步选择时间离散动作At。在经仿真的环境41中执行该动作At,从而将经仿真的环境41转换到状态st+1。同时,可以从经仿真的环境41中确定奖励值Rt+1(英语:reward),所述奖励值是针对动作At的益处(Nutzen)的度量。状态st+1重新被输送到神经网络40,并且重复上述过程。
在所示的示例中,各个状态st和奖励值Rt特别是不会立即用于再训练神经网络40,而是保存在缓冲存储器42中。如果在缓冲存储器42中收集了预给定的数量,则借助批处理(Stapelverarbeitung)43来再训练神经网络40。
图3示出了用于运输工具50的自动驾驶的调节结构30的示意图,以用于说明借助在本公开中描述的方法所学习的映射20的用途。调节结构30包括任务规划31,借助所述任务规划预给定策略性目标,例如:尽可能短的行驶路线、尽可能短的行驶时间和/或尽可能节能和/或舒适的行驶方式等。
在考虑上级任务目标32的情况下,在战术性机动动作规划33中在使用借助在本公开中描述的方法所学习的映射20的情况下确定行驶通路(Fahrschlauch)34。特别地,在此从用作调节参量y的当前状态出发,借助所学习的映射20确定针对将所述状态转换为后续状态的多个可能动作的动作值。借助以这种方式估计的动作值确定行驶通路34。
轨迹规划器35从所确定的行驶通路34和当前状态(调节参量y)出发确定针对运输工具50的具体轨迹,该具体轨迹作为引导参量w被传送给调节器36。调节器36特别是调节运输工具50的纵向和横向引导。为此,调节器36根据调节偏差e和引导参量w确定操纵参量u,并将所述操纵参量输送给运输工具50的执行器装置(Aktorik)。
在图4中示出了用于支持自动驾驶运输工具或机器人的机动动作规划的方法的实施方式的示意流程图表。
所述方法的第一部分100包括方法步骤101。在方法步骤101中,借助动态编程从所述状态空间中的离散状态出发确定针对离散动作的最佳动作值。为此,借助马尔可夫决策问题以离散的形式描述所述运输工具或所述机器人的环境的状态空间。
所述方法的第二部分200包括方法步骤201至202。
在方法步骤201中,基于在方法步骤101中借助动态编程确定的最佳动作值初始化强化学习代理。特别地,为此定义如下映射,所述映射具有状态空间中状态作为输入值并具有状态空间中针对动作的动作值作为输出值。动作值在此可以以表格的形式存储,其中各个表格条目分别包括对于各个离散状态和动作的动作值。替代地,可以使用神经网络。所述神经网络基于方法步骤101中确定的针对离散状态的最佳动作值来学习所述映射。在此,所述神经网络通过受监视学习被训练。
在方法步骤202中,执行强化学习方法,其中强化学习代理为此通过强化学习适配所述映射。
在方法步骤300中,针对机动动作规划提供所学习的映射。为此,特别是可以规定,将所学习的映射加载到运输工具或机器人的控制设备的存储器中。
然后,所学习的映射可以在用于为自动驾驶运输工具或机器人规划机动动作的方法中被使用。
附图标记列表
1 设备
2 数据处理装置
3 计算装置
4 存储装置
10 状态空间
11 状态
20 映射
30 调节结构
31 任务规划
32 任务目标
33 机动动作规划
34 行驶通路
35 轨迹规划器
36 调节器
40 神经网络
41 经仿真的环境
42 缓冲存储器
43 批处理
50 运输工具
st 时间步t中的状态
Qx 动作值
At 在时间步t中的动作
Rt 时间步t中的奖励
w 引导参量
e 调节偏差
u 操纵参量
y 调节参量
100 方法的第一部分
101 方法步骤
200 方法的第二部分
201-202 方法步骤
300 方法步骤

Claims (10)

1.一种用于支持自动驾驶运输工具(50)或机器人的机动动作规划(33)的方法,
其中借助马尔可夫决策问题以离散形式描述所述运输工具(50)或所述机器人的环境的状态空间(10),
其中借助动态编程从所述状态空间(10)中的离散状态(11)出发确定针对离散动作(At)的最佳动作值(Qx),
其中借助强化学习方法来学习映射(20),其中所述映射具有所述状态空间(10)中的状态(11)作为输入值并具有所述状态空间(10)中的针对动作(At)的动作值(Qx)作为输出值,
其中在此情况下基于借助动态编程确定的最佳动作值(Qx)对强化学习代理进行初始化,以及
其中针对机动动作规划(33)提供所学习的映射(20)。
2.根据权利要求1所述的方法,其特征在于,所述映射(20)具有表格形式。
3.根据权利要求1所述的方法,其特征在于,借助神经网络(40)提供所述映射(20),其中为了初始化,从所确定的最佳动作值(Qx)出发通过受监视学习的方式训练所述神经网络(40)。
4.根据前述权利要求中任一项所述的方法,其特征在于,所述状态空间(10)中的所述离散状态(11)是均匀分布的或以均匀分布的方式被选择。
5.根据前述权利要求中任一项所述的方法,其特征在于,所述状态(11)是如此选择的或被如此选择,使得所述状态覆盖整个状态空间(10)。
6.根据前述权利要求中任一项所述的方法,其特征在于,所述状态空间(10)中的所述离散状态(11)至少部分地借助仿真(41)产生。
7.根据前述权利要求中任一项所述的方法,其特征在于,在所述强化学习时,至少部分地借助仿真(41)产生所述状态空间(10)中的状态(11)。
8.一种用于针对自动驾驶运输工具(50)或机器人规划机动动作的方法,其中,按照根据权利要求1至7中任一项所述的方法所确定的映射(20)在机动动作规划(33)中被使用。
9.一种用于支持自动驾驶运输工具(50)或机器人的机动动作规划(33)的设备(1),所述设备包括:
数据处理装置(2),
其中所述数据处理装置(2)被设立用于,借助马尔可夫决策问题描述所述运输工具(50)或所述机器人的环境的离散状态空间(10),借助动态编程从所述状态空间(10)中的离散状态(11)出发确定针对离散动作(At)的最佳动作值(Qx),
为了学习映射(20)而使用强化学习方法,其中所述映射(20)具有所述状态空间(10)中的状态(11)作为输入值并具有所述状态空间(10)中的针对动作(At)的动作值(Qx)作为输出值,和
在此情况下基于借助动态编程确定的最佳动作值(Qx)对强化学习代理进行初始化,以及针对机动动作规划(33)提供所学习的映射(20)。
10.一种计算机程序,所述计算机程序包括指令,当由计算机执行所述计算机程序时,所述指令促使所述计算机执行根据权利要求1至8中任一项所述的方法的方法步骤,或者数据载体信号,所述数据载体信号传输这样的计算机程序。
CN202110204659.9A 2020-02-24 2021-02-24 支持运输工具或机器人的机动动作规划的方法和设备 Pending CN113297783A (zh)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
DE102020202350.6 2020-02-24
DE102020202350.6A DE102020202350A1 (de) 2020-02-24 2020-02-24 Verfahren und Vorrichtung zum Unterstützen einer Manöverplanung für ein automatisiert fahrendes Fahrzeug oder einen Roboter

Publications (1)

Publication Number Publication Date
CN113297783A true CN113297783A (zh) 2021-08-24

Family

ID=77176171

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110204659.9A Pending CN113297783A (zh) 2020-02-24 2021-02-24 支持运输工具或机器人的机动动作规划的方法和设备

Country Status (3)

Country Link
US (1) US20210263526A1 (zh)
CN (1) CN113297783A (zh)
DE (1) DE102020202350A1 (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114104005A (zh) * 2022-01-26 2022-03-01 苏州浪潮智能科技有限公司 自动驾驶设备的决策方法、装置、设备及可读存储介质

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2018083667A1 (en) * 2016-11-04 2018-05-11 Deepmind Technologies Limited Reinforcement learning systems
US11900244B1 (en) * 2019-09-30 2024-02-13 Amazon Technologies, Inc. Attention-based deep reinforcement learning for autonomous agents
CN114261400A (zh) * 2022-01-07 2022-04-01 京东鲲鹏(江苏)科技有限公司 一种自动驾驶决策方法、装置、设备和存储介质

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114104005A (zh) * 2022-01-26 2022-03-01 苏州浪潮智能科技有限公司 自动驾驶设备的决策方法、装置、设备及可读存储介质
CN114104005B (zh) * 2022-01-26 2022-04-19 苏州浪潮智能科技有限公司 自动驾驶设备的决策方法、装置、设备及可读存储介质

Also Published As

Publication number Publication date
DE102020202350A1 (de) 2021-08-26
US20210263526A1 (en) 2021-08-26

Similar Documents

Publication Publication Date Title
CN113297783A (zh) 支持运输工具或机器人的机动动作规划的方法和设备
Ye et al. Automated lane change strategy using proximal policy optimization-based deep reinforcement learning
Liang et al. Cirl: Controllable imitative reinforcement learning for vision-based self-driving
US11092965B2 (en) Method and device for driving dynamics control for a transportation vehicle
Li et al. Safe reinforcement learning: Learning with supervision using a constraint-admissible set
CN110969848A (zh) 一种对向双车道下基于强化学习的自动驾驶超车决策方法
CN111679660B (zh) 一种融合类人驾驶行为的无人驾驶深度强化学习方法
Lin et al. Longitudinal dynamic versus kinematic models for car-following control using deep reinforcement learning
Dubrawski et al. Learning locomotion reflexes: A self-supervised neural system for a mobile robot
CN113015981A (zh) 利用第一原则和约束进行有效、连续和安全学习的系统和方法
CN114020013A (zh) 一种基于深度强化学习的无人机编队避撞方法
JP2022545755A (ja) 混合自律車両隊列の直接および間接制御
Konstantinidis et al. Parameter sharing reinforcement learning for modeling multi-agent driving behavior in roundabout scenarios
Wang et al. Exploring multi-action relationship in reinforcement learning
US20210213977A1 (en) Nearby Driver Intent Determining Autonomous Driving System
CN114987511A (zh) 模拟人类驾驶行为以训练基于神经网络的运动控制器的方法
CN114153199A (zh) 用于支持运输工具或机器人的机动动作规划的方法和设备
CN114839992A (zh) 一种基于多智能体强化学习的自动驾驶协同决策方法
CN114359349A (zh) 一种用于车辆自适应路径跟踪的终身学习方法及系统
Wang et al. An End-to-End Deep Reinforcement Learning Model Based on Proximal Policy Optimization Algorithm for Autonomous Driving of Off-Road Vehicle
Samsani et al. Rapid Autonomous Vehicle Drifting with Deep Reinforcement Learning
CN111897213A (zh) 一种模型不确定下的汽车自适应巡航控制方法
EP4217811A1 (de) Verfahren und vorrichtung zum unterstützen einer manöverplanung für ein zumindest teilautomatisiert fahrendes fahrzeug oder einen roboter
CN115688861B (zh) 一种用于混合交通环境行为决策的模块化图强化学习系统
Reddy et al. Low-Cost Q-Learning-Based Approach for Continuous Space Problems in Robot Navigation using MATLAB

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination