CN114918919B

CN114918919B - 一种机器人运动技能学习方法及系统

Info

Publication number: CN114918919B
Application number: CN202210587314.0A
Authority: CN
Inventors: 黄销; 胡佳辰; 蒋志宏; 李辉
Original assignee: Beijing Institute of Technology BIT
Current assignee: Beijing Institute of Technology BIT
Priority date: 2022-05-25
Filing date: 2022-05-25
Publication date: 2023-11-28
Anticipated expiration: 2042-05-25
Also published as: CN114918919A

Abstract

本发明涉及一种机器人运动技能学习方法及系统，涉及机器人学习领域，该方法包括：获取机器人的当前环境状态参数及所述机器人的当前动作；根据当前环境状态参数及当前动作，采用无模型强化学习方法确定全局价值函数和无模型强化学习策略；根据当前环境状态参数和所述无模型强化学习策略，采用环境动态模型预测所述机器人下一时刻的轨迹，记为初始轨迹；所述环境动态模型为采用K个相同结构的概率神经网络拟合确定的；基于所述全局价值函数，采用模型预测轨迹积分方法优化所述初始轨迹，获得优化后的轨迹；根据优化后的轨迹确定控制所述机器人的运动指令。本发明提高了机器人运动的学习效率。

Description

一种机器人运动技能学习方法及系统

技术领域

本发明涉及机器人技术领域，特别是涉及一种机器人运动技能学习方法及系统。

背景技术

随着机器人应用领域的扩展，在复杂的非结构化和动态变化环境中机器人的快速技能学习和自主适应的能力成为研究热点。受人类运动学习神经机制启发，相关技术人员提出采用强化学习框架训练机器人学习运动技能。然而目前相关算法面临学习效率低，精度和泛化性能差等关键问题，需要大量的仿真训练，且很难从仿真环境迁移到物理机器人上。

发明内容

本发明的目的是提供一种机器人运动技能学习方法及系统，提高了机器人运动的学习效率。

为实现上述目的，本发明提供了如下方案：

一种机器人运动技能学习方法，包括：

获取机器人的当前环境状态参数及所述机器人的当前动作；

根据当前环境状态参数及当前动作，采用无模型强化学习方法确定全局价值函数和无模型强化学习策略；

根据当前环境状态参数和所述无模型强化学习策略，采用环境动态模型预测所述机器人下一时刻的轨迹，记为初始轨迹；所述环境动态模型为采用K个相同结构的概率神经网络拟合确定的；

基于所述全局价值函数，采用模型预测轨迹积分方法优化所述初始轨迹，获得优化后的轨迹；

根据优化后的轨迹确定控制所述机器人的运动指令。

可选地，所述根据当前环境状态参数及当前动作，采用无模型强化学习方法确定全局价值函数和无模型强化学习策略，具体包括：

根据归一化优势函数算法构建状态动作值神经网络，所述状态动作值神经网络的输入为当前环境状态参数及当前动作，所述状态动作值神经网络的的输出为全局价值函数和无模型控制策略，通过最小化贝尔曼误差进行所述状态动作值神经网络的权值更新；

所述全局价值函数为：

其中，为状态动作价值函数，/>为优势函数；

其中，x表示当前环境状态参数，u表示当前动作，T表示转置，表示所述机器人动作分布的均值，/>表示所述机器人动作分布的方差。

可选地，还包括：根据建立K个概率神经网络来拟合所述环境动态模型；

其中，x_t为当前环境状态参数，x_t+1为下一时刻的环境状态参数，u_t为机器人当前动作，表示网络参数；

表示下一时刻环境状态参数分布的平均值，/>表示下一时刻环境状态参数分布的方差，m表示从当前环境状态参数分布中采样的数量。

可选地，所述基于所述全局价值函数，采用模型预测轨迹积分方法优化所述初始轨迹，获得优化后的轨迹，具体包括：

初始化拉格朗日乘数λ和惩罚参数ρ，通过最小化带有不等式约束的拉格朗日函数进行轨迹优化获得优化后的轨迹，并更新拉格朗日乘数λ和惩罚参数ρ；

所述带有不等式约束的拉格朗日函数表示为：

其中，τ为所述初始轨迹，c(x_t,u_t)＝κ-[u_t-π_θ(u_t|x_t)]²为不等式条件下的等式约束，γ为折扣因子，κ为邻域大小，为增广奖励函数，π_θ(u_t|x_t)表示所述无模型控制策略，H表示预测的步数，T表示转置，r_t表示预设奖励函数，c＝c(x_t,u_t)，V(x_H)表示环境参数为x_H时的全局价值函数。

可选地，所述环境状态参数包括所述机器人的关节角度值、关节角速度值以及预设关节的关节末端的笛卡尔空间位置。

本发明公开了一种机器人运动技能学习系统，包括：

机器人当前数据获取模块，用于获取机器人的当前环境状态参数及所述机器人的当前动作；

全局价值函数和无模型强化学习策略确定模块，用于根据当前环境状态参数及当前动作，采用无模型强化学习方法确定全局价值函数和无模型强化学习策略；

轨迹预测模块，用于根据当前环境状态参数和所述无模型强化学习策略，采用环境动态模型预测所述机器人下一时刻的轨迹，记为初始轨迹；所述环境动态模型为采用K个相同结构的概率神经网络拟合确定的；

轨迹优化模块，用于基于所述全局价值函数，采用模型预测轨迹积分方法优化所述初始轨迹，获得优化后的轨迹；

运动指令确定模块，用于根据优化后的轨迹确定控制所述机器人的运动指令。

可选地，所述全局价值函数和无模型强化学习策略确定模块，具体包括：

全局价值函数和无模型强化学习策略确定单元，用于根据归一化优势函数算法构建状态动作值神经网络，所述状态动作值神经网络的输入为当前环境状态参数及当前动作，所述状态动作值神经网络的的输出为全局价值函数和无模型控制策略，通过最小化贝尔曼误差进行所述状态动作值神经网络的权值更新；

所述全局价值函数为：

其中，为状态动作价值函数，/>为优势函数；

可选地，所述轨迹优化模块，具体包括：

轨迹优化单元，用于初始化拉格朗日乘数λ和惩罚参数ρ，通过最小化带有不等式约束的拉格朗日函数进行轨迹优化获得优化后的轨迹，并更新拉格朗日乘数λ和惩罚参数ρ；

所述带有不等式约束的拉格朗日函数表示为：

其中，τ为所述初始轨迹，c(x_t,u_t)＝k-[u_t-π_θ(u_t|x_t)]²为不等式条件下的等式约束，γ为折扣因子，κ为邻域大小，为增广奖励函数，π_θ(u_t|x_t)表示所述无模型控制策略，H表示预测的步数，T表示转置，r_t表示预设奖励函数，c＝c(x_t,u_t)，V(x_H)表示环境参数为x_H时的全局价值函数。

根据本发明提供的具体实施例，本发明公开了以下技术效果：

本发明公开了一种机器人运动技能学习方法及系统，根据当前环境状态参数和无模型强化学习策略，采用环境动态模型预测机器人下一时刻的轨迹，并采用模型预测轨迹积分方法优化初始轨迹，通过结合无模型强化学习和基于模型强化学习方法实现了训练机器人通过少量的试错实验自主学习运动技能，实现了机器人运动技能的快速学习，有效提高了物理机器人在实际运动技能学习任务中的学习效率。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明一种机器人运动技能学习方法流程示意图一；

图2为本发明一种机器人运动技能学习方法流程示意图二；

图3为本发明一种机器人运动技能学习系统结构示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

为使本发明的上述目的、特征和优点能够更加明显易懂，下面结合附图和具体实施方式对本发明作进一步详细的说明。

图1为本发明一种机器人运动技能学习方法流程示意图一，图2为本发明一种机器人运动技能学习方法流程示意图二，如图1-2所示，一种机器人运动技能学习方法包括以下步骤：

步骤101：获取机器人的当前环境状态参数及所述机器人的当前动作。

机器人的环境状态参数包括所述机器人的关节角度值、关节角速度值以及目标(预设关节的关节末端)的笛卡尔空间位置。

机器人具体为机械臂时，环境状态参数包括机械臂的关节角度值、关节角速度值以及机械臂末端的笛卡尔空间位置。

步骤102：根据当前环境状态参数及当前动作，采用无模型强化学习方法确定全局价值函数和无模型强化学习策略。

其中，步骤102具体包括：

根据归一化优势函数算法构建状态动作值神经网络Q，所述状态动作值神经网络的输入为当前环境状态参数x_t及当前动作u_t，所述状态动作值神经网络的的输出为全局价值函数和无模型控制策略π_θ，以最大化总体回报/>为训练目标，通过最小化贝尔曼误差进行所述状态动作值神经网络的权值更新；

所述全局价值函数为：

其中，为状态动作价值函数，/>为优势函数，p^x(x)为环境状态转移概率，π(u|x)表示广义的无模型策略，无模型控制策略为/> π_θ(u|x)表示采用神经网络模型来近似估计π(u|x)；

其中，x表示当前环境状态参数，u表示当前动作，T表示转置，表示所述机器人动作分布的均值，/>表示所述机器人动作分布的方差。[θ_μ,θ_σ,θ_V,θ_Q,θ_A]均为状态动作值神经网络Q的神经网络参数。

状态动作价值函数其中γ∈[0,1]为折扣系数(折扣因子)，r_t为预设奖励函数，

通过最小化贝尔曼误差进行训练更新，具体包括：

以所述最小化贝尔曼误差为目标，根据θ_Q'＝αθ_Q+(1-α)θ_Q'进行网络权值更新，其中θ_Q为主网络权值，θ_Q'为目标网络权值，N表示训练中每个批次的样本数量，n表示批次序号，即表示第n个批次，α表示滤波系数，表示目标网络，x'_n表示第n个批次下一时刻的环境状态参数，r_n表示第n个批次的预设奖励函数，x_n表示第n个批次的当前环境状态参数，u_n表示第n个批次的当前动作。

训练主网络的时候，为了稳定学习过程，一般会构造一个目标网络(主网络的一个副本)，这个目标网络的参数一般是主网络参数的滑动平均值(低通滤波)，这样可避免这一项剧烈波动。

步骤103：根据当前环境状态参数和所述无模型强化学习策略，采用环境动态模型预测所述机器人下一时刻的轨迹，记为初始轨迹；所述环境动态模型为采用K个相同结构的概率神经网络拟合确定的。

根据建立K个概率神经网络来拟合所述环境动态模型。

表示下一时刻环境状态参数分布的平均值，/>表示下一时刻环境状态参数分布的方差，m表示从当前环境状态参数分布P(X_t)中采样的数量。

以最小化负对数似然均值准则L_dyn为训练目标，更新所述概率神经网络参数，其中N为每次训练批量大小(样本数量)，k∈[1,2,…,K]，/>表示第k个概率神经网络下一时刻环境状态参数分布的平均值，/>表示第k个概率神经网络下一时刻环境状态参数分布的方差。

本发明根据无模型控制策略π_θ及环境动态模型生成初始轨迹τ，初始化拉格朗日乘数λ和惩罚参数ρ，以最大化有不等式约束的目标函数为目标建立无模型强化学习与基于模型强化学习之间的联系，通过最小化在所述约束下的拉格朗日函数L(τ,λ,ρ)进行轨迹优化并更新参数，通过最优轨迹输出机器人最优控制动作。

以最大化有不等式约束的目标函数为目标建立无模型强化学习与基于模型强化学习之间的联系，具体包括：

其中p^v(x)表示从学习的环境动态模型和基于模型控制策略/>中推导的状态分布，V(x_H)是环境状态参数x_H下的全局价值函数，约束不等式为/>以限制基于模型控制策略更新和防止学习过程中的信息损失，其中/>为基于模型控制策略，π_θ(u_t|x_t)为无模型控制策略，κ为邻域大小，r(x_t,u_t)为预设奖励函数。

步骤104：基于所述全局价值函数，采用模型预测轨迹积分方法优化所述初始轨迹，获得优化后的轨迹。

其中，步骤104具体包括：

所述带有不等式约束的拉格朗日函数表示为：

其中，τ为所述初始轨迹，c(x_t,u_t)＝κ-[u_t-π_θ(u_t|x_t)]²为不等式条件下的等式约束，γ为折扣因子，κ为邻域大小，为增广奖励函数，π_θ(u_t|x_t)]表示所述无模型控制策略，H表示预测的步数，T表示转置，r_t表示预设奖励函数，c＝c(x_t,u_t)，V(x_H)表示环境参数为x_H时的全局价值函数。

轨迹优化并更新参数，具体包括：

采用模型预测路径积分方法优化轨迹，并根据对拉格朗日乘数λ进行更新，根据ρ⁺＝βρ对惩罚参数ρ进行更新，/>表示更新后的环境状态参数，/>表示更新后的动作，其中β>1。

步骤105：根据优化后的轨迹确定控制所述机器人的运动指令。

本发明获取环境状态参数及机器人当前动作；根据所述环境状态参数及机器人当前动作，采用无模型强化学习方法获取全局价值函数及无模型强化学习策略；根据所述环境状态参数及无模型强化学习策略，采用集成神经网络建立环境动态模型预测机器人的状态轨迹；根据所述环境状态参数、环境动态模型、全局价值函数、无模型策略以及预设奖励函数，采用模型预测轨迹积分方法求解机器人最优控制动作，输出指令控制机器人到达目标位置。本发明一种机器人运动技能学习方法为一种机器人运动技能快速学习方法，有效地提高物理机器人在实际运动技能学习任务中的学习效率。

图3为本发明一种机器人运动技能学习系统结构示意图，如图3所示，一种机器人运动技能学习系统包括：

机器人当前数据获取模块201，用于获取机器人的当前环境状态参数及所述机器人的当前动作。

全局价值函数和无模型强化学习策略确定模块202，用于根据当前环境状态参数及当前动作，采用无模型强化学习方法确定全局价值函数和无模型强化学习策略。

轨迹预测模块203，用于根据当前环境状态参数和所述无模型强化学习策略，采用环境动态模型预测所述机器人下一时刻的轨迹，记为初始轨迹；所述环境动态模型为采用K个相同结构的概率神经网络拟合确定的。

轨迹优化模块204，用于基于所述全局价值函数，采用模型预测轨迹积分方法优化所述初始轨迹，获得优化后的轨迹。

运动指令确定模块205，用于根据优化后的轨迹确定控制所述机器人的运动指令。

所述全局价值函数和无模型强化学习策略确定模块202，具体包括：

全局价值函数和无模型强化学习策略确定单元，用于根据归一化优势函数算法构建状态动作值神经网络，所述状态动作值神经网络的输入为当前环境状态参数及当前动作，所述状态动作值神经网络的的输出为全局价值函数和无模型控制策略，通过最小化贝尔曼误差进行所述状态动作值神经网络的权值更新。

所述全局价值函数为：

其中，为状态动作价值函数，/>为优势函数；

根据建立K个概率神经网络来拟合所述环境动态模型。

其中，x_t为当前环境状态参数，x_t+1为下一时刻的环境状态参数，u_t为机器人当前动作，表示概率神经网络参数。

所述轨迹优化模块204，具体包括：

所述带有不等式约束的拉格朗日函数表示为：

所述环境状态参数包括所述机器人的关节角度值、关节角速度值以及预设关节的关节末端的笛卡尔空间位置。

本说明书中各个实施例采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似部分互相参见即可。对于实施例公开的系统而言，由于其与实施例公开的方法相对应，所以描述的比较简单，相关之处参见方法部分说明即可。

本文中应用了具体个例对本发明的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本发明的方法及其核心思想；同时，对于本领域的一般技术人员，依据本发明的思想，在具体实施方式及应用范围上均会有改变之处。综上所述，本说明书内容不应理解为对本发明的限制。

Claims

1.一种机器人运动技能学习方法，其特征在于，包括：

获取机器人的当前环境状态参数及所述机器人的当前动作；

根据优化后的轨迹确定控制所述机器人的运动指令；

所述根据当前环境状态参数及当前动作，采用无模型强化学习方法确定全局价值函数和无模型强化学习策略，具体包括：

根据归一化优势函数算法构建状态动作值神经网络，所述状态动作值神经网络的输入为当前环境状态参数及当前动作，所述状态动作值神经网络的输出为全局价值函数和无模型控制策略，通过最小化贝尔曼误差进行所述状态动作值神经网络的权值更新；

所述全局价值函数为：

其中，为状态动作价值函数，/>为优势函数；

其中，x表示当前环境状态参数，u表示当前动作，T表示转置，表示所述机器人动作分布的均值，/>表示所述机器人动作分布的方差；

所述的机器人运动技能学习方法，还包括：根据建立K个概率神经网络来拟合所述环境动态模型；

表示下一时刻环境状态参数分布的平均值，/>表示下一时刻环境状态参数分布的方差，m表示从当前环境状态参数分布中采样的数量；

所述基于所述全局价值函数，采用模型预测轨迹积分方法优化所述初始轨迹，获得优化后的轨迹，具体包括：

所述带有不等式约束的拉格朗日函数表示为：

其中，τ为所述初始轨迹，c(x_t，u_t)＝κ-[u_t-π_θ(u_t|x_t)]²为不等式条件下的等式约束，γ为折扣因子，κ为邻域大小，/>为增广奖励函数，π_θ(u_t|x_t)表示所述无模型控制策略，H表示预测的步数，T表示转置，r_t表示预设奖励函数，c＝c(x_t，u_t)，V(x_H)表示环境参数为x_H时的全局价值函数。

2.根据权利要求1所述的机器人运动技能学习方法，其特征在于，所述环境状态参数包括所述机器人的关节角度值、关节角速度值以及预设关节的关节末端的笛卡尔空间位置。

3.一种机器人运动技能学习系统，其特征在于，包括：

运动指令确定模块，用于根据优化后的轨迹确定控制所述机器人的运动指令；

所述全局价值函数和无模型强化学习策略确定模块，具体包括：

全局价值函数和无模型强化学习策略确定单元，用于根据归一化优势函数算法构建状态动作值神经网络，所述状态动作值神经网络的输入为当前环境状态参数及当前动作，所述状态动作值神经网络的输出为全局价值函数和无模型控制策略，通过最小化贝尔曼误差进行所述状态动作值神经网络的权值更新；

所述全局价值函数为：

其中，为状态动作价值函数，/>为优势函数；

所述的机器人运动技能学习系统，还包括：根据建立K个概率神经网络来拟合所述环境动态模型；

所述轨迹优化模块，具体包括：

所述带有不等式约束的拉格朗日函数表示为：

4.根据权利要求3所述的机器人运动技能学习系统，其特征在于，所述环境状态参数包括所述机器人的关节角度值、关节角速度值以及预设关节的关节末端的笛卡尔空间位置。