CN114626505A - 一种移动机器人深度强化学习控制方法 - Google Patents
一种移动机器人深度强化学习控制方法 Download PDFInfo
- Publication number
- CN114626505A CN114626505A CN202210207885.7A CN202210207885A CN114626505A CN 114626505 A CN114626505 A CN 114626505A CN 202210207885 A CN202210207885 A CN 202210207885A CN 114626505 A CN114626505 A CN 114626505A
- Authority
- CN
- China
- Prior art keywords
- robot
- action
- function
- state
- strategy
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/047—Probabilistic or stochastic networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Evolutionary Computation (AREA)
- Molecular Biology (AREA)
- Artificial Intelligence (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Health & Medical Sciences (AREA)
- General Health & Medical Sciences (AREA)
- Life Sciences & Earth Sciences (AREA)
- Computing Systems (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Probability & Statistics with Applications (AREA)
- Feedback Control In General (AREA)
- Manipulator (AREA)
Abstract
本发明涉及一种移动机器人深度强化学习控制方法,属于机器人智能控制技术领域。在机器人学习行为策略阶段,本发明在最大熵强化学习框架下提出了一种具有历史行为重用的off‑policy似然比策略梯度模型学习算法,用于对移动机器人进行端对端的行为控制。该方法提高了机器人行为学习过程中数据的利用率,从而提高了学习速度和采样效率,节省了机器人与环境的交互成本。同时,在对机器人的行为策略模型进行评估阶段,本发明提出了一种统一的评价网络模型来同时逼近状态值函数和动作值函数,通过该评价网络可以直接给出一个状态和动作的优势函数。相对于使用两个网络分别逼近状态值函数和动作值函数,该评价网络具有学习速度快、能够减小参数累积误差的优势。
Description
技术领域
本发明涉及一种基于深度强化学习的机器人自主行为控制方法,属于机器人智能控制技术领域。
背景技术
移动机器人是指一类集成环境感知与识别、规划和决策、行为与控制等多功能于一体的综合系统,它既可接收设计者的控制信号,又可按照预先编程好的指令运行,也可按照人工智能技术制定的规则策略进行行动。目前,移动机器人发展的一个重要趋势是智能化,即,要求移动机器人实现自主控制而非被动接受指令。因此,需要移动机器人具有更强大、更灵活的感知、决策、控制能力。
随着移动机器人的广泛应用,其作业应用场景呈现多样性与复杂性。如何让移动机器人面临存有动态和静态障碍的复杂场景下稳定作业,以及提高其在生产作业中的效率和智能水平,成为了该领域的研究重点。
移动机器人要求具备稳定良好的作业能力,其控制方法的鲁棒性、可靠性是关键。因此,深度强化学习、模仿学习等各类人工智能方法被不断提出,并且逐步应用于实际工程领域。其中,深度强化学习是一种将深度学习的感知能力与强化学习的决策能力结合起来的通用学习框架能通过端对端的学习方式来实现原始感知输入到决策动作输出的直接控制。这种端对端的方式,对于解决自动控制系统、移动机器人控制、自动驾驶、游戏博弈等诸多技术问题,具有天然的适用性。
但是,现有的基于无模型的深度强化学习方法,因在学习过程中与环境交互产生数据的成本非常高,且机器人无法像分布式强化学习方法那样在现实领域中扩展多个线程与环境交互。因此,如何提高交互数据的利用率,并且在复杂环境下能够稳定学习各种行为技能,成为机器人强化学习控制领域亟待解决的关键技术问题。
发明内容
本发明的目的是为了解决在移动机器人深度强化学习控制中面临的数据利用率低、学习稳定性差的技术问题,创造性地提出一种移动机器人深度强化学习控制方法。
本发明的创新点在于:在机器人学习行为策略阶段,在最大熵强化学习框架下提出了一种具有历史行为重用的off-policy似然比策略梯度模型学习算法(AC-HBR),用于对移动机器人进行端对端的行为控制。该方法提高了机器人行为学习过程中数据的利用率,从而提高了学习速度和采样效率,节省了机器人与环境的交互成本。
同时,为了有效对机器人的控制策略进行评价,在对机器人的策略进行评估的阶段,提出一种统一的评价网络模型来同时逼近状态值函数和动作值函数。通过该评价网络模型可直接给出状态和动作的优势函数。相对于使用两个网络分别逼近状态值函数和动作值函数,该评价网络模型能够以较高的精度给出机器人动作的优势函数,具有速度快、能够减小参数累积误差等优势。
本发明采用以下技术方案实现。
一种移动机器人深度强化学习控制方法,包括以下步骤:
定义π表示智能体的策略,定义π(at|st)表示智能体在给定状态st下采取动作at的概率。
在深度强化学习中,定义φ为策略模型的参数,则πφ表示智能体的神经网络高斯策略模型,且由神经网络输出策略的均值和标准差;r表示智能体采取动作at后转移到状态st+1,定义rt表示智能体在状态st时采取动作at后环境返回给智能体的奖励信号,γ表示无限时间马尔科夫过程的折扣因子,γ∈[0,1]。
步骤1:构造机器人的状态空间、动作空间和奖励函数。
针对机器人所能感知的信息,设计状态向量s。根据机器人所具有的执行机构,设计动作空间a。根据相应的目标,设计机器人行为学习过程中的奖励函数r(st,at),st、at分别表示机器人在t时刻的状态和动作。机器人的状态空间s和动作空间a,由开发人员根据机器人的特性根据工程实践自主定义。
步骤2:机器人通过交互数据,学习行为策略模型。
采用off-policy似然比策略梯度机器人行为学习方法,根据采样状态,从当前策略模型和经验回放池中同时采样动作,以此优化机器人的行为策略。
其中,Eb表示经验回放池;BC(·)表示对输入变量进行Box-Cox数据分布转换,BC(logπφ(at|st))表示对和状态一起从经验回放池采集的动作在当前策略模型下的对数概率做Box-Cox数据分布转换。
步骤3:评估机器人行为策略模型,并预测采样动作的优势函数。
统一评价网络模型结构如图2所示,包括状态输入层、动作输入层、动作扩展层、隐藏层和值函数输出层。
在预测状态值函数Vπ(st)时,定义一个和动作at具有相同形状的元素全为零的向量ae。当检测到动作输入层的输入为零时,将动作扩展层的输出置为零,由统一的评价网络得到状态值函数:Vπ(st)=Q(st,ae)。
定义变量θ为统一的评价网络的模型参数。当使用这个统一的评价网络模型来同时逼近状态值函数和动作值函数时,模型的策略梯度损失函数如式3所示:
其中,表示由具有策略参数的目标评价网络预测的状态值函数,表示状态值函数Vπ的梯度损失函数,表示动作值函数Q的梯度损失函数;Qθ(st,at)、分别表示由参数θ表示的统一的评价网络所表示的动作值函数和状态值函数。
在机器人行为策略模型的学习过程中,当计算采样动作的优势函数时,根据下式由统一的评价网络模型直接预测采样动作的优势函数A(st,at):
步骤4:进行机器人训练。
将机器人与环境进行交互,并将交互数据保存在经验回访池中。每隔N个步数,重复步骤2和步骤3,然后将机器人再次与环境交互收集数据,从而完成移动机器人的自主学习控制。
其中,机器人与环境的交互的间隔步数N,根据实际情况自主设定。例如,可设置间隔步数N为300。
有益效果
本发明方法,对比现有技术,具有以下优点:
1.在机器人行为策略模型的学习过程中,本发明提出了一种具有历史行为重用的策略梯度算法,提高了学习速度和采样效率,加快了机器人行为技能的学习速度和学习的稳定性。
2.在对机器人的行为策略模型进行评估阶段,本发明提出了一种统一的评价网络模型来同时逼近状态值函数和动作值函数。通过该评价网络可以直接给出一个状态和动作的优势函数。相对于使用两个网络分别逼近状态值函数和动作值函数,该评价网络具有学习速度快、能够减小参数累积误差的优势。
附图说明
图1是“BipedalWalkerHardcore”机器人训练环境示意图;
图2是本发明所提出的一种统一的评价网络模型结构示意图;
图3是本发明所提出的机器人行为深度强化学习算法与SAC(soft actor-critic)在“BipedalWalkerHardcore”机器人训练环境下的回报曲线对比图。
图4是本发明所提出的机器人行为深度强化学习算法与SAC在Gym和PyBullet中其他一些列机器人控制基准环境下的累积回报曲线对比图。
图5是本发明中图3和图4实验中使用的所有超参数设置。
具体实施方式
下面结合附图并举实施例,对本发明进行详细描述。
实施例
如图1所示,以Gym环境下的“BipedalWalkerHardcore”机器人行为控制为例,进行说明。
步骤1:构造机器人的状态空间、动作空间和奖励函数。
具体地,“BipedalWalkerHardcore”机器人通过与环境的交互来学习在复杂路况下的跑步、跨坑、越障、下阶梯等一系列技能。机器人通过自身携带的传感器来感知环境信息,而策略模型则根据由这些感知信息构造的状态量来给出机器人在当前状态下所采取的动作。“BipedalWalkerHardcore”机器人的感知信息包括各部件角速度,水平速度,垂直速度,关节位置,腿与地面的接触以及10个激光雷达测距仪的测量值,将这些感知信息拼接成24维的状态向量s。且通过机器人胯下两个关节的转矩以及膝关节的转矩来构造机器人的4维动作空间a。由于这个环境是的动作空间是4维连续动作空间。“BipedalWalkerHardcore”机器人的目标是快速到达终点,并且控制四个关节的力矩最小、距离目标越近环境返回的奖励函数就越大,当机器人跌倒时环境返回的奖励为-100。该环境根据此规则设计并直接返回相应的奖励函数r(s,a)给机器人。
步骤2:机器人通过交互数据,学习行为策略模型。
具体地,机器人在行为策略的学习过程中根据下式来更新策略模型的参数:
其中,clip(logπφ(at|st))表示对logπφ(at|st)的下限进行剪切,本发明中设置logπφ(at|st)的值小于-30就让其等于-30。并且,由于clip(logπφ(at|st))可能为负值,在对其进行Box-Cox转换时需要对所有采样自经验回放池中的动作所对应的剪切对数概率clip(logπφ(at|st))减去这些对数概率中对应的最小的负值。而在对所有clip(logπφ(at|st))做完Box-Cox转换后,再将这些转换后的数据加上这些对数概率中对应的最小的负值。
在与环境的交互过程中,为了保证机器人关节可承受的动作幅度,借鉴SAC(softactor-critic)算法的技术,应用可逆的压缩函数tanh(·)对从高斯策略中采集的动作进行限幅,并通过下式计算压缩动作的对数概率密度函数:
当使用从经验回放池中采集的动作来计算当前策略的策略梯度的时候,通过下式将采集到的经过tanh(·)压缩的动作转换为对应的从高斯策略中采样的动作aG:
其中,atanh表示经过tanh(·)压缩的动作。
采用SAC算法中的自动熵系数调整方法,调整温度熵系数α:
步骤3:评估机器人行为策略模型,并预测采样动作的优势函数。
当使用本发明所提出的统一评价网络模型来同时逼近状态值函数和动作值函数时,模型的梯度损失函数如下所示:
其中,表示由具有策略参数的目标评价网络预测的状态值函数。并且,针对过估计的问题,采用“double q-learning”的技术。因此,采用两个统一的评价网络来同时学习状态值函数和动作值函数,并且在计算时,采用两个网络中相对小的动作值函数。
在机器人行为策略模型的学习过程中,当计算采样动作的优势函数时,根据下式由统一的评价网络模型直接预测采样动作的优势函数:
步骤4:机器人训练。
具体地,机器人与环境交互,并将交互的数据保存在经验回访池中。每隔一定步数(本发明的实验中设置为300步)重复步骤2和步骤3,然后机器人再次与环境交互收集数据。
在训练过程中,首先设置有关超参数。
具体地,本发明提出的用于机器人端到端行为控制的深度强化学习算法AC-HBR,和用于对比实验的SAC深度强化学习算法使用的所有通用的超参数,均列于图5中。如图5所示,在通用的超参数中,奖励缩放是指直接将环境奖励乘以一个常数,在不破坏奖励函数的情况下调整奖励值,从而间接地将Q值调整到合适的大小。为方便和提高可对比性,将AC-HBR和SAC两种算法在所有任务的测试中的奖励缩放值均设置为0.2。设置统一的评价网络扩展层中的神经网络单元数为84,给定超参数β=0.003。在对机器人行为学习的测试中,β具有很宽的调整范围,并且在调整范围内对算法的性能几乎没有影响。在对算法的性能测试中采用多个随机种子对算法进行测试。
图3展示了本发明所提出的算法和SAC在“BipedalWalkerHardcore”环境中的机器人行为控制的性能对比曲线。图4展示了本发明所提出的算法和SAC在Gym和PyBullet环境中的机器人行为控制的性能对比曲线。
Claims (2)
1.一种移动机器人深度强化学习控制方法,其特征在于,包括以下步骤:
定义π表示智能体的策略,定义π(at|st)表示智能体在给定状态st下采取动作at的概率;
在深度强化学习中,定义φ为策略模型的参数,则πφ表示智能体的神经网络高斯策略模型,且由神经网络输出策略的均值和标准差;r表示智能体采取动作at后转移到状态st+1,定义rt表示智能体在状态st时采取动作at后环境返回给智能体的奖励信号,γ表示无限时间马尔科夫过程的折扣因子,γ∈[0,1];
步骤1:构造机器人的状态空间、动作空间和奖励函数;
针对机器人所能感知的信息,设计状态向量s;根据机器人所具有的执行机构,设计动作空间a;设计机器人行为学习过程中的奖励函数r(st,at),st、at分别表示机器人在t时刻的状态和动作;机器人的状态空间s和动作空间a,由开发人员根据机器人的特性根据工程实践自主定义;
步骤2:机器人通过交互数据,学习行为策略模型;
采用off-policy似然比策略梯度机器人行为学习方法,根据采样状态,从当前策略模型和经验回放池中同时采样动作,优化机器人的行为策略;
其中,Eb表示经验回放池;BC(·)表示对输入变量进行Box-Cox数据分布转换,BC(logπφ(at|st))表示对和状态一起从经验回放池采集的动作在当前策略模型下的对数概率做Box-Cox数据分布转换;
步骤3:评估机器人行为策略模型,并预测采样动作的优势函数;
统一评价网络模型结构,包括状态输入层、动作输入层、动作扩展层、隐藏层和值函数输出层;
在预测状态值函数Vπ(st)时,定义一个和动作at具有相同形状的元素全为零的向量ae;当检测到动作输入层的输入为零时,将动作扩展层的输出置为零,由统一的评价网络得到状态值函数:Vπ(st)=Q(st,ae);
定义变量θ为统一的评价网络的模型参数;当使用这个统一的评价网络模型来同时逼近状态值函数和动作值函数时,模型的策略梯度损失函数如式3所示:
其中,表示由具有策略参数的目标评价网络预测的状态值函数,表示状态值函数Vπ的梯度损失函数,表示动作值函数Q的梯度损失函数;Qθ(st,at)、分别表示由参数θ表示的统一的评价网络所表示的动作值函数和状态值函数;
在机器人行为策略模型的学习过程中,当计算采样动作的优势函数时,根据下式由统一的评价网络模型直接预测采样动作的优势函数A(st,at):
步骤4:进行机器人训练;
将机器人与环境进行交互,并将交互数据保存在经验回访池中;每隔N个步数,重复步骤2和步骤3,然后将机器人再次与环境交互收集数据,从而完成移动机器人的自主学习控制;
其中,机器人与环境的交互的间隔步数N,根据实际情况自主设定。
2.如权利要求1所述的一种移动机器人深度强化学习控制方法,其特征在于,步骤2中,在机器人与环境的交互过程中,应用可逆的压缩函数tanh(·)对从高斯策略中采集的动作进行限幅,并通过下式计算压缩动作的对数概率密度函数:
当使用从经验回放池中采集的动作来计算当前策略的策略梯度时,通过下式将采集到的经过tanh(·)压缩的动作转换为对应的从高斯策略中采样的动作aG:
其中,atanh表示经过tanh(·)压缩的动作;
采用自动熵系数调整方法,调整温度熵系数α:
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210207885.7A CN114626505A (zh) | 2022-03-04 | 2022-03-04 | 一种移动机器人深度强化学习控制方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210207885.7A CN114626505A (zh) | 2022-03-04 | 2022-03-04 | 一种移动机器人深度强化学习控制方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN114626505A true CN114626505A (zh) | 2022-06-14 |
Family
ID=81899275
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210207885.7A Pending CN114626505A (zh) | 2022-03-04 | 2022-03-04 | 一种移动机器人深度强化学习控制方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114626505A (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115469663A (zh) * | 2022-09-15 | 2022-12-13 | 中国科学技术大学 | 面向自动驾驶的基于深度强化学习的端到端导航避障方法 |
CN115657477A (zh) * | 2022-10-13 | 2023-01-31 | 北京理工大学 | 一种基于离线强化学习的动态环境机器人自适应控制方法 |
-
2022
- 2022-03-04 CN CN202210207885.7A patent/CN114626505A/zh active Pending
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115469663A (zh) * | 2022-09-15 | 2022-12-13 | 中国科学技术大学 | 面向自动驾驶的基于深度强化学习的端到端导航避障方法 |
CN115469663B (zh) * | 2022-09-15 | 2024-06-14 | 中国科学技术大学 | 面向自动驾驶的基于深度强化学习的端到端导航避障方法 |
CN115657477A (zh) * | 2022-10-13 | 2023-01-31 | 北京理工大学 | 一种基于离线强化学习的动态环境机器人自适应控制方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Bruce et al. | One-shot reinforcement learning for robot navigation with interactive replay | |
Badgwell et al. | Reinforcement learning–overview of recent progress and implications for process control | |
CN114626505A (zh) | 一种移动机器人深度强化学习控制方法 | |
JP7419547B2 (ja) | 学習済み隠れ状態を使用するエージェント制御のためのプランニング | |
US20220366246A1 (en) | Controlling agents using causally correct environment models | |
Wang et al. | GOPS: A general optimal control problem solver for autonomous driving and industrial control applications | |
CN116848532A (zh) | 具有短期记忆单元的注意力神经网络 | |
WO2020172322A1 (en) | Controlling agents using latent plans | |
Hafez et al. | Efficient intrinsically motivated robotic grasping with learning-adaptive imagination in latent space | |
CN116824303B (zh) | 基于损伤驱动和多模态多任务学习的结构巡检智能体导航方法 | |
EP3788554B1 (en) | Imitation learning using a generative predecessor neural network | |
Ejaz et al. | Autonomous visual navigation using deep reinforcement learning: An overview | |
Klink et al. | On the benefit of optimal transport for curriculum reinforcement learning | |
CN114861368B (zh) | 一种基于近端策略的铁路纵断面设计学习模型的构建方法 | |
Yadav et al. | A survey on deep reinforcement learning-based approaches for adaptation and generalization | |
CN114911157A (zh) | 基于部分可观测强化学习的机器人导航控制方法及系统 | |
CN117730329A (zh) | 通过开放式学习来训练智能体神经网络 | |
US20230214649A1 (en) | Training an action selection system using relative entropy q-learning | |
Woodford et al. | Bootstrapped neuro-simulation for complex robots | |
Zhang et al. | Gliding control of underwater gliding snake-like robot based on reinforcement learning | |
CN115657477A (zh) | 一种基于离线强化学习的动态环境机器人自适应控制方法 | |
Ji et al. | Research on Path Planning of Mobile Robot Based on Reinforcement Learning | |
Wenwen | Application Research of end to end behavior decision based on deep reinforcement learning | |
CN114905505B (zh) | 一种移动机器人的导航控制方法、系统及存储介质 | |
CN117302204B (zh) | 依托强化学习的多风格车辆轨迹跟踪避撞控制方法及装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |