CN116803635B - 基于高斯核损失函数的近端策略优化训练加速方法 - Google Patents
基于高斯核损失函数的近端策略优化训练加速方法 Download PDFInfo
- Publication number
- CN116803635B CN116803635B CN202311048210.3A CN202311048210A CN116803635B CN 116803635 B CN116803635 B CN 116803635B CN 202311048210 A CN202311048210 A CN 202311048210A CN 116803635 B CN116803635 B CN 116803635B
- Authority
- CN
- China
- Prior art keywords
- strategy
- double
- loss function
- acceleration method
- joint robot
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 30
- 238000012549 training Methods 0.000 title claims abstract description 22
- 238000005457 optimization Methods 0.000 title claims abstract description 21
- 230000001133 acceleration Effects 0.000 title claims abstract description 17
- 230000006870 function Effects 0.000 claims abstract description 29
- 230000009471 action Effects 0.000 claims abstract description 11
- 230000002787 reinforcement Effects 0.000 claims abstract description 8
- 230000008569 process Effects 0.000 claims abstract description 5
- 230000033001 locomotion Effects 0.000 claims description 7
- 238000005070 sampling Methods 0.000 claims description 7
- 238000003062 neural network model Methods 0.000 claims description 4
- 230000001174 ascending effect Effects 0.000 claims 1
- 238000011217 control strategy Methods 0.000 abstract description 7
- 238000013528 artificial neural network Methods 0.000 abstract description 2
- 238000010586 diagram Methods 0.000 description 3
- 230000000630 rising effect Effects 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 238000007796 conventional method Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000012545 processing Methods 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
Classifications
-
- B—PERFORMING OPERATIONS; TRANSPORTING
- B25—HAND TOOLS; PORTABLE POWER-DRIVEN TOOLS; MANIPULATORS
- B25J—MANIPULATORS; CHAMBERS PROVIDED WITH MANIPULATION DEVICES
- B25J9/00—Programme-controlled manipulators
- B25J9/16—Programme controls
- B25J9/1628—Programme controls characterised by the control loop
- B25J9/163—Programme controls characterised by the control loop learning, adaptive, model based, rule based expert control
Landscapes
- Engineering & Computer Science (AREA)
- Robotics (AREA)
- Mechanical Engineering (AREA)
- Feedback Control In General (AREA)
- Manipulator (AREA)
Abstract
本发明提供了一种基于高斯核损失函数的近端策略优化训练加速方法,用于对双关节机器人自动化控制的训练过程进行加速,主要包括以下步骤:将工程问题建立成强化学习环境模型,利用姿态传感器获取双关节机器人当前的状态信息,将获得的状态信息作为神经网络的输入,输出可选动作的概率分布,利用基于高斯核损失函数的近端策略优化对网络进行训练,以逐步改善机器人的控制策略,通过连续的训练迭代,可以得到双关节机器人自动化控制的最优策略。与现有技术相比,本发明方法能够加快双关节机器人自动化控制的训练速度,更快学到最优控制策略。该优化策略还可以进一步应用于更复杂的欠驱动机器人系统中,为实现更高级别的自动化控制提供了有力的工具。
Description
技术领域
本发明涉及一种基于高斯核损失函数的近端策略优化训练加速方法,用于对双关节机器人自动化控制的训练过程进行加速,属于欠驱动机器人领域。
背景技术
欠驱动机器人系统是指具有自由度少于需要控制的维度的机器人系统。双关节机器人由两个旋转的机械臂组成。然而,控制机械臂的运动只能通过对驱动头施加力矩,而无法直接控制两个机械臂,这使得双关节机器人成为一个欠驱动系统。欠驱动机器人系统相对于完全驱动的系统更具挑战性,因为在欠驱动情况下,机器人必须学会有效地利用其自由度以实现所需的运动。通过强化学习,可以训练智能体学习欠驱动系统的控制策略,使得机第二机械臂的自由端达到目标高度。
本发明提供了一种新的双关节机器人控制算法,该算法能够更快地学习双关节机器人达到目标状态的最优行动策略。这对于开发更复杂的欠驱动机器人系统的控制算法和方法非常有价值。
发明内容
针对上述问题,本发明的目的在于提供一种基于高斯核损失函数的近端策略优化训练加速方法,用于对双关节机器人自动化控制的训练过程进行加速,能够更快学到最优控制策略,可以改善欠驱动系统的性能,并辅助欠驱动机器人实现目标。
为实现上述目的,本发明提供了一种基于高斯核损失函数的近端策略优化训练加速方法,用于加速双关节机器人自动化控制的训练过程,主要包括以下步骤:
步骤1、针对双关节机器人的作业要求建立强化学习环境模型,实例化已训练好的神经网络模型;
步骤2、利用姿态传感器获得双关节机器人当前的状态信息;
步骤3、将所述状态信息输入到所述神经网络模型中,得到当前状态下动作的概率分布,根据概率选择当前状态下的动作/>;
步骤4、执行所述动作,进入下一个状态/>,获得奖励/>,重复步骤2-4,得到在当前策略/>下的一条轨迹;
步骤5、对于一次采样得到数据,利用基于高斯核损失函数的近端策略优化对采集到的参数进行更新,从而优化当前策略;
步骤6、重复步骤2-5,直到策略收敛或达到最大训练轮次。
进一步的,所述步骤1中,所述强化学习环境模型中的环境是稀疏奖励环境,将智能体完成任务时的奖励设为0,未完成要求时每个时间步奖励为-1。
进一步的,所述步骤2具体为通过姿态传感器对当前第一机械臂相对于竖直方向的角度、所述第一机械臂的旋转方向/>、所述第一机械臂相对于第二机械臂的角度/>、所述第二机械臂的旋转方向、所述第一机械臂上端的角速度/>、所述第一机械臂和所述第二机械臂连接处的角速度/>获得/>、/>、/>、/>,经处理后生成t时刻状态信息/>。
进一步的,双关节机器人得到的当前状态下动作的概率分布为当前所有可选择的动作的概率分布。
进一步的,所述步骤4中,以0时刻为一次数据采集的开始时刻,以T时刻为结束时刻,通过重复步骤2-4,得到在当前策略下的一条轨迹/>。
进一步的,所述结束时刻是所述第二机械臂的自由端达到目标高度或该次采样达到最大步长的时刻,其中所述目标高度构造为。
进一步的,所述步骤5中,近端策略优化的actor网络目标函数构造为:
其中,,/>为优势函数,记
其中为状态/>和/>的高斯核损失函数,/>为该次采样轨迹的长度,,/>为折扣系数,因此critic网络的损失函数构造为,通过对目标函数进行梯度上升,损失函数进行梯度下降,以优化参数得到更优策略。
进一步的,所述步骤6中,计算,当KL散度小于预设的阈值时即可认为策略已经达到收敛。
相较于现有技术,本发明的有益效果如下:
本发明能够加速双关节机器人自动化控制的训练速度,更快学到最优控制策略,改善欠驱动系统的性能,并辅助欠驱动机器人实现目标。
附图说明
为了更详细地阐述本发明实施例的技术方案,以下将针对实施例的附图进行简要说明。显然,下文中所提到的附图仅包含本发明的一些实施例,并非对本发明的限制。
图1是符合本发明优选实施例的近端策略优化加速方法的算法示意图。
图2是本发明近端策略优化加速方法的具体环境示意图。
图3是本发明近端策略优化加速方法与传统方法的对比图。
具体实施方式
为了使本发明实施例的目标、技术方案和优势更为清晰,以下内容将借助于附图对本发明实施例的技术策略进行详尽、全面的阐述。显然,所描述的实施例是本发明的一部分实施例,而不是全部的实施例。根据本发明实施例的描述,本领域中具备一定技术水平的人员可得出的所有其他实施例,都应视为本发明的保护范围所涵盖。
具体实施例如图1和图2所示,包括以下步骤:
S1、根据实际作业要求搭建强化学习模型环境,考虑当前作业需求如下:一个由两个机械臂构成,且仅在连接处有一个驱动头的机器人需要驱动机械臂的自由端达到目标高度。由于两个机械臂仅由一个驱动头来驱动,满足欠驱动系统的定义,控制机械臂运动到目标高度是很困难的。强化学习环境搭建如图2所示,双关节机器人是我们需要训练的智能体,在驱动头处可以选择施加顺时针方向的扭矩、不施加扭矩、施加逆时针方向的扭矩三个动作;状态信息,包括第一机械臂相对于竖直方向的角度和所述第一机械臂相对于第二机械臂的角度/>、两个机械臂的旋转方向和角速度/>和/>;机器人每进行一步给予-1的奖励,机械臂自由端达到目标高度奖励为0。
S2、机器人利用姿态传感器获得状态信息,包括第一机械臂相对于竖直方向的角度/>和第一机械臂相对于第二机械臂的角度/>、两个机械臂的旋转方向和角速度和/>。
S3、将当前状态下观测到的状态信息输入训练好的神经网络,获取双关节机器人当前所有可选择的动作的概率分布,根据概率选择当前状态下的动作/>。具体的,对于概率分布应满足所有动作的可能性求和为1。
S4、机器人执行了动作,获取了即时奖励/>,进入了下一个状态/>,重复步骤2-4可以得到当前控制策略/>下的一条实际采样的轨迹/>,其中0时刻为一次数据采集的开始时刻,T时刻为结束时刻。具体的,其中结束时刻可以为第二机械臂的自由端达到目标高度或该次采样达到最大步长的时刻,目标高度构造为。
S5、构造近端策略优化的actor网络目标:
其中,,/>为优势函数,截断函数clip的/>设置为0.2,记
其中为状态/>和/>的高斯核损失函数,高斯函数的/>设置为/>,/>为该次采样轨迹的长度,/>,/>为折扣系数,设置为0.98,critic网络的损失函数构造为/>,/>设置为0.47,对目标函数进行梯度上升,损失函数进行梯度下降,以此优化参数得到更优策略。
S6、双关节机器人将会判断策略是否收敛或者策略训练是否达到最大训练迭代次数。优选的,最大训练迭代次数为500次。
如图3所示,将本文提出的方法与传统训练方法进行对比,本发明所提出的基于高斯核损失函数的近端策略优化训练加速方法(图3中用英文PPO_kernel_loss表示)收敛速度优于传统的近端策略优化算法(图3中用英文PPO表示),并且训练出的策略最终能达到一个更优的策略,在具体实例中体现为机械臂花费了更短的步长就达到了目标高度。
综上所述,本发明方法能够通过基于高斯核损失函数的近端策略优化提高双关节机器人自动化控制作业的训练速度,更快学到最优控制策略,可以改善欠驱动系统的性能,并辅助欠驱动机器人实现目标。
以上所述,仅为本发明中的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉该技术的人在本发明所揭露的技术范围内,可理解想到的变换或替换,都应涵盖在本发明的包含范围之内,因此,本发明的保护范围应该以权利要求书的保护范围为准。
Claims (7)
1.一种基于高斯核损失函数的近端策略优化加速方法,用于对双关节机器人自动化控制的训练过程进行加速,其特征在于,主要包括以下步骤:
步骤1、针对双关节机器人的作业要求建立强化学习环境模型,实例化已训练好的神经网络模型;
步骤2、利用姿态传感器获得双关节机器人当前的状态信息st;
步骤3、将所述状态信息st输入到所述神经网络模型中,得到当前状态下动作的概率分布,根据概率选择当前状态下的动作at;
步骤4、执行所述动作at,进入下一个状态st+1,获得奖励rt,重复步骤2-4,得到在当前策略π下的一条轨迹;
步骤5、对于一次采样得到数据,利用基于高斯核损失函数的近端策略优化对采集到的参数进行更新,从而优化当前策略,近端策略优化的actor网络目标函数构造为:
其中,At为优势函数,记
其中K(Si,Sj)为状态Si和Sj的高斯核损失函数,m为该次采样轨迹的长度,RπVθ(si)=ri+γVθ(s′i)-Vθ(si),γ为折扣系数,因此critic网络的损失函数构造为αLKV+(1-α)LKU(Vθ),通过对目标函数进行梯度上升,损失函数进行梯度下降,以优化参数得到更优策略;
步骤6、重复步骤2-5,直到策略收敛或达到最大训练轮次。
2.根据权利要求1所述的近端策略优化加速方法,其特征在于:所述步骤1中,所述强化学习环境模型中的环境是稀疏奖励环境,将智能体完成任务时的奖励设为0,未完成要求时每个时间步奖励为-1。
3.根据权利要求1所述的近端策略优化加速方法,其特征在于,利用姿态传感器获得双关节机器人当前的状态信息st包括:第一机械臂相对于竖直方向的角度θ1和第一机械臂相对于第二机械臂的角度θ2、两个机械臂的旋转方向和角速度ω1和ω2。
4.根据权利要求1所述的近端策略优化加速方法,其特征在于:所述步骤3中,双关节机器人得到的当前状态下动作的概率分布为当前所有可选择的动作的概率分布。
5.根据权利要求3所述的近端策略优化加速方法,其特征在于:所述步骤4中,以0时刻为一次数据采集的开始时刻,以T时刻为结束时刻,通过重复步骤2-4,得到在当前策略π下的一条轨迹(s0,a0,r0,s1,a1,r1,…,sT)。
6.根据权利要求5所述的近端策略优化加速方法,其特征在于:所述结束时刻是所述第二机械臂的自由端达到目标高度或该次采样达到最大步长的时刻,其中所述目标高度构造为-cos(θ1)-cos(θ1+θ2)>1。
7.根据权利要求1所述的近端策略优化加速方法,其特征在于:所述步骤6中,计算当KL散度小于预设的阈值δ时即可认为策略已经达到收敛。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311048210.3A CN116803635B (zh) | 2023-08-21 | 2023-08-21 | 基于高斯核损失函数的近端策略优化训练加速方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311048210.3A CN116803635B (zh) | 2023-08-21 | 2023-08-21 | 基于高斯核损失函数的近端策略优化训练加速方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN116803635A CN116803635A (zh) | 2023-09-26 |
CN116803635B true CN116803635B (zh) | 2023-12-22 |
Family
ID=88079631
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202311048210.3A Active CN116803635B (zh) | 2023-08-21 | 2023-08-21 | 基于高斯核损失函数的近端策略优化训练加速方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116803635B (zh) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117162102A (zh) * | 2023-10-30 | 2023-12-05 | 南京邮电大学 | 机器人联合行动的独立近端策略优化训练加速方法 |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105904461A (zh) * | 2016-05-16 | 2016-08-31 | 西北工业大学 | 一种基于径向基函数的神经网络自适应遥操作控制方法 |
CN113510704A (zh) * | 2021-06-25 | 2021-10-19 | 青岛博晟优控智能科技有限公司 | 一种基于强化学习算法的工业机械臂运动规划方法 |
KR20220065232A (ko) * | 2020-11-13 | 2022-05-20 | 주식회사 플라잎 | 강화학습 기반으로 로봇을 제어하는 장치 및 방법 |
CN114626277A (zh) * | 2022-04-02 | 2022-06-14 | 浙江大学 | 一种基于强化学习的主动流动控制方法 |
CN114800515A (zh) * | 2022-05-12 | 2022-07-29 | 四川大学 | 一种基于演示轨迹的机器人装配运动规划方法 |
CN114905510A (zh) * | 2022-04-29 | 2022-08-16 | 南京邮电大学 | 基于自适应近端优化的机器人动作方法 |
WO2022241808A1 (zh) * | 2021-05-19 | 2022-11-24 | 广州中国科学院先进技术研究所 | 一种多机器人轨迹规划方法 |
-
2023
- 2023-08-21 CN CN202311048210.3A patent/CN116803635B/zh active Active
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105904461A (zh) * | 2016-05-16 | 2016-08-31 | 西北工业大学 | 一种基于径向基函数的神经网络自适应遥操作控制方法 |
KR20220065232A (ko) * | 2020-11-13 | 2022-05-20 | 주식회사 플라잎 | 강화학습 기반으로 로봇을 제어하는 장치 및 방법 |
WO2022241808A1 (zh) * | 2021-05-19 | 2022-11-24 | 广州中国科学院先进技术研究所 | 一种多机器人轨迹规划方法 |
CN113510704A (zh) * | 2021-06-25 | 2021-10-19 | 青岛博晟优控智能科技有限公司 | 一种基于强化学习算法的工业机械臂运动规划方法 |
CN114626277A (zh) * | 2022-04-02 | 2022-06-14 | 浙江大学 | 一种基于强化学习的主动流动控制方法 |
CN114905510A (zh) * | 2022-04-29 | 2022-08-16 | 南京邮电大学 | 基于自适应近端优化的机器人动作方法 |
CN114800515A (zh) * | 2022-05-12 | 2022-07-29 | 四川大学 | 一种基于演示轨迹的机器人装配运动规划方法 |
Also Published As
Publication number | Publication date |
---|---|
CN116803635A (zh) | 2023-09-26 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US11772264B2 (en) | Neural network adaptive tracking control method for joint robots | |
CN107505947B (zh) | 一种空间机器人捕获目标后消旋及协调控制方法 | |
CN111881772B (zh) | 基于深度强化学习的多机械臂协同装配方法和系统 | |
CN116803635B (zh) | 基于高斯核损失函数的近端策略优化训练加速方法 | |
CN112757306A (zh) | 一种机械臂逆解多解选择和时间最优轨迹规划算法 | |
EP3978204A1 (en) | Techniques for force and torque-guided robotic assembly | |
CN114888801B (zh) | 一种基于离线策略强化学习的机械臂控制方法及系统 | |
CN115256395B (zh) | 基于控制障碍函数的模型不确定机器人安全控制方法 | |
CN115464659B (zh) | 一种基于视觉信息的深度强化学习ddpg算法的机械臂抓取控制方法 | |
Medina et al. | Learning stable task sequences from demonstration with linear parameter varying systems and hidden Markov models | |
CN116533249A (zh) | 基于深度强化学习的机械臂控制方法 | |
CN114211497A (zh) | 面向半导体晶圆传送机械臂的高速运动控制方法和系统 | |
CN115256401A (zh) | 一种基于强化学习的空间机械臂轴孔装配变阻抗控制方法 | |
CN113664829A (zh) | 一种空间机械臂避障路径规划系统、方法、计算机设备及存储介质 | |
CN110695994B (zh) | 一种面向双臂机械手协同重复运动的有限时间规划方法 | |
CN114310888B (zh) | 一种协作机器人可变刚度运动技能学习与调控方法及系统 | |
Du et al. | Learning to control a free-floating space robot using deep reinforcement learning | |
Ranjbar et al. | Residual feedback learning for contact-rich manipulation tasks with uncertainty | |
CN113967909B (zh) | 基于方向奖励的机械臂智能控制方法 | |
CN114800488B (zh) | 一种基于深度强化学习的冗余机械臂可操作度优化方法及装置 | |
Man et al. | Intelligent Motion Control Method Based on Directional Drive for 3-DOF Robotic Arm | |
Zhang et al. | Research on demonstration task segmentation method based on multi-mode information | |
Sunwoo et al. | Optimal Path Search for Robot Manipulator using Deep Reinforcement Learning | |
CN112163666B (zh) | 一种基于强化学习的仿生机器鼠行为交互方法及仿真系统 | |
CN116595869B (zh) | 一种允许碰撞的绳索牵引并联机器人的数据驱动控制策略 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |