CN116803635B

CN116803635B - 基于高斯核损失函数的近端策略优化训练加速方法

Info

Publication number: CN116803635B
Application number: CN202311048210.3A
Authority: CN
Inventors: 陈兴国; 罗镇宇; 巩宇
Original assignee: Nanjing University of Posts and Telecommunications
Current assignee: Nanjing University of Posts and Telecommunications
Priority date: 2023-08-21
Filing date: 2023-08-21
Publication date: 2023-12-22
Anticipated expiration: 2043-08-21
Also published as: CN116803635A

Abstract

本发明提供了一种基于高斯核损失函数的近端策略优化训练加速方法，用于对双关节机器人自动化控制的训练过程进行加速，主要包括以下步骤：将工程问题建立成强化学习环境模型，利用姿态传感器获取双关节机器人当前的状态信息，将获得的状态信息作为神经网络的输入，输出可选动作的概率分布，利用基于高斯核损失函数的近端策略优化对网络进行训练，以逐步改善机器人的控制策略，通过连续的训练迭代，可以得到双关节机器人自动化控制的最优策略。与现有技术相比，本发明方法能够加快双关节机器人自动化控制的训练速度，更快学到最优控制策略。该优化策略还可以进一步应用于更复杂的欠驱动机器人系统中，为实现更高级别的自动化控制提供了有力的工具。

Description

基于高斯核损失函数的近端策略优化训练加速方法

技术领域

本发明涉及一种基于高斯核损失函数的近端策略优化训练加速方法，用于对双关节机器人自动化控制的训练过程进行加速，属于欠驱动机器人领域。

背景技术

欠驱动机器人系统是指具有自由度少于需要控制的维度的机器人系统。双关节机器人由两个旋转的机械臂组成。然而，控制机械臂的运动只能通过对驱动头施加力矩，而无法直接控制两个机械臂，这使得双关节机器人成为一个欠驱动系统。欠驱动机器人系统相对于完全驱动的系统更具挑战性，因为在欠驱动情况下，机器人必须学会有效地利用其自由度以实现所需的运动。通过强化学习，可以训练智能体学习欠驱动系统的控制策略，使得机第二机械臂的自由端达到目标高度。

本发明提供了一种新的双关节机器人控制算法，该算法能够更快地学习双关节机器人达到目标状态的最优行动策略。这对于开发更复杂的欠驱动机器人系统的控制算法和方法非常有价值。

发明内容

针对上述问题，本发明的目的在于提供一种基于高斯核损失函数的近端策略优化训练加速方法，用于对双关节机器人自动化控制的训练过程进行加速，能够更快学到最优控制策略，可以改善欠驱动系统的性能，并辅助欠驱动机器人实现目标。

为实现上述目的，本发明提供了一种基于高斯核损失函数的近端策略优化训练加速方法，用于加速双关节机器人自动化控制的训练过程，主要包括以下步骤：

步骤1、针对双关节机器人的作业要求建立强化学习环境模型，实例化已训练好的神经网络模型；

步骤2、利用姿态传感器获得双关节机器人当前的状态信息；

步骤3、将所述状态信息输入到所述神经网络模型中，得到当前状态下动作的概率分布，根据概率选择当前状态下的动作/>；

步骤4、执行所述动作，进入下一个状态/>，获得奖励/>，重复步骤2-4，得到在当前策略/>下的一条轨迹；

步骤5、对于一次采样得到数据，利用基于高斯核损失函数的近端策略优化对采集到的参数进行更新，从而优化当前策略；

步骤6、重复步骤2-5，直到策略收敛或达到最大训练轮次。

进一步的，所述步骤1中，所述强化学习环境模型中的环境是稀疏奖励环境，将智能体完成任务时的奖励设为0，未完成要求时每个时间步奖励为-1。

进一步的，所述步骤2具体为通过姿态传感器对当前第一机械臂相对于竖直方向的角度、所述第一机械臂的旋转方向/>、所述第一机械臂相对于第二机械臂的角度/>、所述第二机械臂的旋转方向、所述第一机械臂上端的角速度/>、所述第一机械臂和所述第二机械臂连接处的角速度/>获得/>、/>、/>、/>，经处理后生成t时刻状态信息/>。

进一步的，双关节机器人得到的当前状态下动作的概率分布为当前所有可选择的动作的概率分布。

进一步的，所述步骤4中，以0时刻为一次数据采集的开始时刻，以T时刻为结束时刻，通过重复步骤2-4，得到在当前策略下的一条轨迹/>。

进一步的，所述结束时刻是所述第二机械臂的自由端达到目标高度或该次采样达到最大步长的时刻，其中所述目标高度构造为。

进一步的，所述步骤5中，近端策略优化的actor网络目标函数构造为：

其中,,/>为优势函数，记

其中为状态/>和/>的高斯核损失函数，/>为该次采样轨迹的长度，,/>为折扣系数，因此critic网络的损失函数构造为，通过对目标函数进行梯度上升，损失函数进行梯度下降，以优化参数得到更优策略。

进一步的，所述步骤6中，计算，当KL散度小于预设的阈值时即可认为策略已经达到收敛。

相较于现有技术，本发明的有益效果如下：

本发明能够加速双关节机器人自动化控制的训练速度，更快学到最优控制策略，改善欠驱动系统的性能，并辅助欠驱动机器人实现目标。

附图说明

为了更详细地阐述本发明实施例的技术方案，以下将针对实施例的附图进行简要说明。显然，下文中所提到的附图仅包含本发明的一些实施例，并非对本发明的限制。

图1是符合本发明优选实施例的近端策略优化加速方法的算法示意图。

图2是本发明近端策略优化加速方法的具体环境示意图。

图3是本发明近端策略优化加速方法与传统方法的对比图。

具体实施方式

为了使本发明实施例的目标、技术方案和优势更为清晰，以下内容将借助于附图对本发明实施例的技术策略进行详尽、全面的阐述。显然，所描述的实施例是本发明的一部分实施例，而不是全部的实施例。根据本发明实施例的描述，本领域中具备一定技术水平的人员可得出的所有其他实施例，都应视为本发明的保护范围所涵盖。

具体实施例如图1和图2所示，包括以下步骤：

S1、根据实际作业要求搭建强化学习模型环境，考虑当前作业需求如下：一个由两个机械臂构成，且仅在连接处有一个驱动头的机器人需要驱动机械臂的自由端达到目标高度。由于两个机械臂仅由一个驱动头来驱动，满足欠驱动系统的定义，控制机械臂运动到目标高度是很困难的。强化学习环境搭建如图2所示，双关节机器人是我们需要训练的智能体，在驱动头处可以选择施加顺时针方向的扭矩、不施加扭矩、施加逆时针方向的扭矩三个动作；状态信息，包括第一机械臂相对于竖直方向的角度和所述第一机械臂相对于第二机械臂的角度/>、两个机械臂的旋转方向和角速度/>和/>；机器人每进行一步给予-1的奖励，机械臂自由端达到目标高度奖励为0。

S2、机器人利用姿态传感器获得状态信息，包括第一机械臂相对于竖直方向的角度/>和第一机械臂相对于第二机械臂的角度/>、两个机械臂的旋转方向和角速度和/>。

S3、将当前状态下观测到的状态信息输入训练好的神经网络，获取双关节机器人当前所有可选择的动作的概率分布，根据概率选择当前状态下的动作/>。具体的，对于概率分布应满足所有动作的可能性求和为1。

S4、机器人执行了动作，获取了即时奖励/>，进入了下一个状态/>，重复步骤2-4可以得到当前控制策略/>下的一条实际采样的轨迹/>，其中0时刻为一次数据采集的开始时刻，T时刻为结束时刻。具体的，其中结束时刻可以为第二机械臂的自由端达到目标高度或该次采样达到最大步长的时刻，目标高度构造为。

S5、构造近端策略优化的actor网络目标：

其中,,/>为优势函数，截断函数clip的/>设置为0.2，记

其中为状态/>和/>的高斯核损失函数,高斯函数的/>设置为/>，/>为该次采样轨迹的长度，/>,/>为折扣系数,设置为0.98，critic网络的损失函数构造为/>，/>设置为0.47，对目标函数进行梯度上升，损失函数进行梯度下降，以此优化参数得到更优策略。

S6、双关节机器人将会判断策略是否收敛或者策略训练是否达到最大训练迭代次数。优选的，最大训练迭代次数为500次。

如图3所示，将本文提出的方法与传统训练方法进行对比，本发明所提出的基于高斯核损失函数的近端策略优化训练加速方法(图3中用英文PPO_kernel_loss表示)收敛速度优于传统的近端策略优化算法（图3中用英文PPO表示），并且训练出的策略最终能达到一个更优的策略，在具体实例中体现为机械臂花费了更短的步长就达到了目标高度。

综上所述，本发明方法能够通过基于高斯核损失函数的近端策略优化提高双关节机器人自动化控制作业的训练速度，更快学到最优控制策略，可以改善欠驱动系统的性能，并辅助欠驱动机器人实现目标。

以上所述，仅为本发明中的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉该技术的人在本发明所揭露的技术范围内，可理解想到的变换或替换，都应涵盖在本发明的包含范围之内，因此，本发明的保护范围应该以权利要求书的保护范围为准。

Claims

1.一种基于高斯核损失函数的近端策略优化加速方法，用于对双关节机器人自动化控制的训练过程进行加速，其特征在于，主要包括以下步骤：

步骤2、利用姿态传感器获得双关节机器人当前的状态信息s_t；

步骤3、将所述状态信息s_t输入到所述神经网络模型中，得到当前状态下动作的概率分布，根据概率选择当前状态下的动作a_t；

步骤4、执行所述动作a_t，进入下一个状态s_t+1，获得奖励r_t，重复步骤2-4，得到在当前策略π下的一条轨迹；

步骤5、对于一次采样得到数据，利用基于高斯核损失函数的近端策略优化对采集到的参数进行更新，从而优化当前策略，近端策略优化的actor网络目标函数构造为：

其中，A_t为优势函数，记

其中K(S_i，S_j)为状态S_i和S_j的高斯核损失函数，m为该次采样轨迹的长度，R_πV_θ(s_i)＝r_i+γV_θ(s′_i)-V_θ(s_i)，γ为折扣系数，因此critic网络的损失函数构造为αL_KV+(1-α)L_KU(V_θ)，通过对目标函数进行梯度上升，损失函数进行梯度下降，以优化参数得到更优策略；

步骤6、重复步骤2-5，直到策略收敛或达到最大训练轮次。

2.根据权利要求1所述的近端策略优化加速方法，其特征在于：所述步骤1中，所述强化学习环境模型中的环境是稀疏奖励环境，将智能体完成任务时的奖励设为0，未完成要求时每个时间步奖励为-1。

3.根据权利要求1所述的近端策略优化加速方法，其特征在于，利用姿态传感器获得双关节机器人当前的状态信息s_t包括：第一机械臂相对于竖直方向的角度θ₁和第一机械臂相对于第二机械臂的角度θ₂、两个机械臂的旋转方向和角速度ω₁和ω₂。

4.根据权利要求1所述的近端策略优化加速方法，其特征在于：所述步骤3中，双关节机器人得到的当前状态下动作的概率分布为当前所有可选择的动作的概率分布。

5.根据权利要求3所述的近端策略优化加速方法，其特征在于：所述步骤4中，以0时刻为一次数据采集的开始时刻，以T时刻为结束时刻，通过重复步骤2-4，得到在当前策略π下的一条轨迹(s₀，a₀，r₀，s₁，a₁，r₁，…，s_T)。

6.根据权利要求5所述的近端策略优化加速方法，其特征在于：所述结束时刻是所述第二机械臂的自由端达到目标高度或该次采样达到最大步长的时刻，其中所述目标高度构造为-cos(θ₁)-cos(θ₁+θ₂)＞1。

7.根据权利要求1所述的近端策略优化加速方法，其特征在于：所述步骤6中，计算当KL散度小于预设的阈值δ时即可认为策略已经达到收敛。