CN114918919B - 一种机器人运动技能学习方法及系统 - Google Patents
一种机器人运动技能学习方法及系统 Download PDFInfo
- Publication number
- CN114918919B CN114918919B CN202210587314.0A CN202210587314A CN114918919B CN 114918919 B CN114918919 B CN 114918919B CN 202210587314 A CN202210587314 A CN 202210587314A CN 114918919 B CN114918919 B CN 114918919B
- Authority
- CN
- China
- Prior art keywords
- robot
- track
- model
- representing
- current
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 52
- 230000006870 function Effects 0.000 claims abstract description 96
- 230000007613 environmental effect Effects 0.000 claims abstract description 82
- 230000009471 action Effects 0.000 claims abstract description 72
- 230000002787 reinforcement Effects 0.000 claims abstract description 45
- 238000013528 artificial neural network Methods 0.000 claims abstract description 44
- 230000010354 integration Effects 0.000 claims abstract description 11
- 238000011217 control strategy Methods 0.000 claims description 17
- 238000005457 optimization Methods 0.000 claims description 14
- 238000010586 diagram Methods 0.000 description 3
- 230000008569 process Effects 0.000 description 2
- 238000004088 simulation Methods 0.000 description 2
- 238000009795 derivation Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000002474 experimental method Methods 0.000 description 1
- 238000001914 filtration Methods 0.000 description 1
- 230000007230 neural mechanism Effects 0.000 description 1
- 238000003062 neural network model Methods 0.000 description 1
- 230000000750 progressive effect Effects 0.000 description 1
- 230000007704 transition Effects 0.000 description 1
Classifications
-
- B—PERFORMING OPERATIONS; TRANSPORTING
- B25—HAND TOOLS; PORTABLE POWER-DRIVEN TOOLS; MANIPULATORS
- B25J—MANIPULATORS; CHAMBERS PROVIDED WITH MANIPULATION DEVICES
- B25J9/00—Programme-controlled manipulators
- B25J9/16—Programme controls
- B25J9/1628—Programme controls characterised by the control loop
- B25J9/163—Programme controls characterised by the control loop learning, adaptive, model based, rule based expert control
-
- B—PERFORMING OPERATIONS; TRANSPORTING
- B25—HAND TOOLS; PORTABLE POWER-DRIVEN TOOLS; MANIPULATORS
- B25J—MANIPULATORS; CHAMBERS PROVIDED WITH MANIPULATION DEVICES
- B25J9/00—Programme-controlled manipulators
- B25J9/16—Programme controls
- B25J9/1602—Programme controls characterised by the control system, structure, architecture
-
- B—PERFORMING OPERATIONS; TRANSPORTING
- B25—HAND TOOLS; PORTABLE POWER-DRIVEN TOOLS; MANIPULATORS
- B25J—MANIPULATORS; CHAMBERS PROVIDED WITH MANIPULATION DEVICES
- B25J9/00—Programme-controlled manipulators
- B25J9/16—Programme controls
- B25J9/1656—Programme controls characterised by programming, planning systems for manipulators
- B25J9/1664—Programme controls characterised by programming, planning systems for manipulators characterised by motion, path, trajectory planning
Landscapes
- Engineering & Computer Science (AREA)
- Robotics (AREA)
- Mechanical Engineering (AREA)
- Automation & Control Theory (AREA)
- Feedback Control In General (AREA)
- Manipulator (AREA)
Abstract
本发明涉及一种机器人运动技能学习方法及系统,涉及机器人学习领域,该方法包括:获取机器人的当前环境状态参数及所述机器人的当前动作;根据当前环境状态参数及当前动作,采用无模型强化学习方法确定全局价值函数和无模型强化学习策略;根据当前环境状态参数和所述无模型强化学习策略,采用环境动态模型预测所述机器人下一时刻的轨迹,记为初始轨迹;所述环境动态模型为采用K个相同结构的概率神经网络拟合确定的;基于所述全局价值函数,采用模型预测轨迹积分方法优化所述初始轨迹,获得优化后的轨迹;根据优化后的轨迹确定控制所述机器人的运动指令。本发明提高了机器人运动的学习效率。
Description
技术领域
本发明涉及机器人技术领域,特别是涉及一种机器人运动技能学习方法及系统。
背景技术
随着机器人应用领域的扩展,在复杂的非结构化和动态变化环境中机器人的快速技能学习和自主适应的能力成为研究热点。受人类运动学习神经机制启发,相关技术人员提出采用强化学习框架训练机器人学习运动技能。然而目前相关算法面临学习效率低,精度和泛化性能差等关键问题,需要大量的仿真训练,且很难从仿真环境迁移到物理机器人上。
发明内容
本发明的目的是提供一种机器人运动技能学习方法及系统,提高了机器人运动的学习效率。
为实现上述目的,本发明提供了如下方案:
一种机器人运动技能学习方法,包括:
获取机器人的当前环境状态参数及所述机器人的当前动作;
根据当前环境状态参数及当前动作,采用无模型强化学习方法确定全局价值函数和无模型强化学习策略;
根据当前环境状态参数和所述无模型强化学习策略,采用环境动态模型预测所述机器人下一时刻的轨迹,记为初始轨迹;所述环境动态模型为采用K个相同结构的概率神经网络拟合确定的;
基于所述全局价值函数,采用模型预测轨迹积分方法优化所述初始轨迹,获得优化后的轨迹;
根据优化后的轨迹确定控制所述机器人的运动指令。
可选地,所述根据当前环境状态参数及当前动作,采用无模型强化学习方法确定全局价值函数和无模型强化学习策略,具体包括:
根据归一化优势函数算法构建状态动作值神经网络,所述状态动作值神经网络的输入为当前环境状态参数及当前动作,所述状态动作值神经网络的的输出为全局价值函数和无模型控制策略,通过最小化贝尔曼误差进行所述状态动作值神经网络的权值更新;
所述全局价值函数为:
其中,为状态动作价值函数,/>为优势函数;
其中,x表示当前环境状态参数,u表示当前动作,T表示转置,表示所述机器人动作分布的均值,/>表示所述机器人动作分布的方差。
可选地,还包括:根据 建立K个概率神经网络来拟合所述环境动态模型;
其中,xt为当前环境状态参数,xt+1为下一时刻的环境状态参数,ut为机器人当前动作,表示网络参数;
表示下一时刻环境状态参数分布的平均值,/>表示下一时刻环境状态参数分布的方差,m表示从当前环境状态参数分布中采样的数量。
可选地,所述基于所述全局价值函数,采用模型预测轨迹积分方法优化所述初始轨迹,获得优化后的轨迹,具体包括:
初始化拉格朗日乘数λ和惩罚参数ρ,通过最小化带有不等式约束的拉格朗日函数进行轨迹优化获得优化后的轨迹,并更新拉格朗日乘数λ和惩罚参数ρ;
所述带有不等式约束的拉格朗日函数表示为:
其中,τ为所述初始轨迹,c(xt,ut)=κ-[ut-πθ(ut|xt)]2为不等式条件下的等式约束,γ为折扣因子,κ为邻域大小,为增广奖励函数,πθ(ut|xt)表示所述无模型控制策略,H表示预测的步数,T表示转置,rt表示预设奖励函数,c=c(xt,ut),V(xH)表示环境参数为xH时的全局价值函数。
可选地,所述环境状态参数包括所述机器人的关节角度值、关节角速度值以及预设关节的关节末端的笛卡尔空间位置。
本发明公开了一种机器人运动技能学习系统,包括:
机器人当前数据获取模块,用于获取机器人的当前环境状态参数及所述机器人的当前动作;
全局价值函数和无模型强化学习策略确定模块,用于根据当前环境状态参数及当前动作,采用无模型强化学习方法确定全局价值函数和无模型强化学习策略;
轨迹预测模块,用于根据当前环境状态参数和所述无模型强化学习策略,采用环境动态模型预测所述机器人下一时刻的轨迹,记为初始轨迹;所述环境动态模型为采用K个相同结构的概率神经网络拟合确定的;
轨迹优化模块,用于基于所述全局价值函数,采用模型预测轨迹积分方法优化所述初始轨迹,获得优化后的轨迹;
运动指令确定模块,用于根据优化后的轨迹确定控制所述机器人的运动指令。
可选地,所述全局价值函数和无模型强化学习策略确定模块,具体包括:
全局价值函数和无模型强化学习策略确定单元,用于根据归一化优势函数算法构建状态动作值神经网络,所述状态动作值神经网络的输入为当前环境状态参数及当前动作,所述状态动作值神经网络的的输出为全局价值函数和无模型控制策略,通过最小化贝尔曼误差进行所述状态动作值神经网络的权值更新;
所述全局价值函数为:
其中,为状态动作价值函数,/>为优势函数;
其中,x表示当前环境状态参数,u表示当前动作,T表示转置,表示所述机器人动作分布的均值,/>表示所述机器人动作分布的方差。
可选地,还包括:根据 建立K个概率神经网络来拟合所述环境动态模型;
其中,xt为当前环境状态参数,xt+1为下一时刻的环境状态参数,ut为机器人当前动作,表示网络参数;
表示下一时刻环境状态参数分布的平均值,/>表示下一时刻环境状态参数分布的方差,m表示从当前环境状态参数分布中采样的数量。
可选地,所述轨迹优化模块,具体包括:
轨迹优化单元,用于初始化拉格朗日乘数λ和惩罚参数ρ,通过最小化带有不等式约束的拉格朗日函数进行轨迹优化获得优化后的轨迹,并更新拉格朗日乘数λ和惩罚参数ρ;
所述带有不等式约束的拉格朗日函数表示为:
其中,τ为所述初始轨迹,c(xt,ut)=k-[ut-πθ(ut|xt)]2为不等式条件下的等式约束,γ为折扣因子,κ为邻域大小,为增广奖励函数,πθ(ut|xt)表示所述无模型控制策略,H表示预测的步数,T表示转置,rt表示预设奖励函数,c=c(xt,ut),V(xH)表示环境参数为xH时的全局价值函数。
可选地,所述环境状态参数包括所述机器人的关节角度值、关节角速度值以及预设关节的关节末端的笛卡尔空间位置。
根据本发明提供的具体实施例,本发明公开了以下技术效果:
本发明公开了一种机器人运动技能学习方法及系统,根据当前环境状态参数和无模型强化学习策略,采用环境动态模型预测机器人下一时刻的轨迹,并采用模型预测轨迹积分方法优化初始轨迹,通过结合无模型强化学习和基于模型强化学习方法实现了训练机器人通过少量的试错实验自主学习运动技能,实现了机器人运动技能的快速学习,有效提高了物理机器人在实际运动技能学习任务中的学习效率。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明一种机器人运动技能学习方法流程示意图一;
图2为本发明一种机器人运动技能学习方法流程示意图二;
图3为本发明一种机器人运动技能学习系统结构示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本发明的目的是提供一种机器人运动技能学习方法及系统,提高了机器人运动的学习效率。
为使本发明的上述目的、特征和优点能够更加明显易懂,下面结合附图和具体实施方式对本发明作进一步详细的说明。
图1为本发明一种机器人运动技能学习方法流程示意图一,图2为本发明一种机器人运动技能学习方法流程示意图二,如图1-2所示,一种机器人运动技能学习方法包括以下步骤:
步骤101:获取机器人的当前环境状态参数及所述机器人的当前动作。
机器人的环境状态参数包括所述机器人的关节角度值、关节角速度值以及目标(预设关节的关节末端)的笛卡尔空间位置。
机器人具体为机械臂时,环境状态参数包括机械臂的关节角度值、关节角速度值以及机械臂末端的笛卡尔空间位置。
步骤102:根据当前环境状态参数及当前动作,采用无模型强化学习方法确定全局价值函数和无模型强化学习策略。
其中,步骤102具体包括:
根据归一化优势函数算法构建状态动作值神经网络Q,所述状态动作值神经网络的输入为当前环境状态参数xt及当前动作ut,所述状态动作值神经网络的的输出为全局价值函数和无模型控制策略πθ,以最大化总体回报/>为训练目标,通过最小化贝尔曼误差进行所述状态动作值神经网络的权值更新;
所述全局价值函数为:
其中,为状态动作价值函数,/>为优势函数,px(x)为环境状态转移概率,π(u|x)表示广义的无模型策略,无模型控制策略为/> πθ(u|x)表示采用神经网络模型来近似估计π(u|x);
其中,x表示当前环境状态参数,u表示当前动作,T表示转置,表示所述机器人动作分布的均值,/>表示所述机器人动作分布的方差。[θμ,θσ,θV,θQ,θA]均为状态动作值神经网络Q的神经网络参数。
状态动作价值函数其中γ∈[0,1]为折扣系数(折扣因子),rt为预设奖励函数,
通过最小化贝尔曼误差进行训练更新,具体包括:
以所述最小化贝尔曼误差为目标,根据θQ'=αθQ+(1-α)θQ'进行网络权值更新,其中θQ为主网络权值,θQ'为目标网络权值,N表示训练中每个批次的样本数量,n表示批次序号,即表示第n个批次,α表示滤波系数,表示目标网络,x'n表示第n个批次下一时刻的环境状态参数,rn表示第n个批次的预设奖励函数,xn表示第n个批次的当前环境状态参数,un表示第n个批次的当前动作。
训练主网络的时候,为了稳定学习过程,一般会构造一个目标网络(主网络的一个副本),这个目标网络的参数一般是主网络参数的滑动平均值(低通滤波),这样可避免这一项剧烈波动。
步骤103:根据当前环境状态参数和所述无模型强化学习策略,采用环境动态模型预测所述机器人下一时刻的轨迹,记为初始轨迹;所述环境动态模型为采用K个相同结构的概率神经网络拟合确定的。
根据建立K个概率神经网络来拟合所述环境动态模型。
其中,xt为当前环境状态参数,xt+1为下一时刻的环境状态参数,ut为机器人当前动作,表示网络参数;
表示下一时刻环境状态参数分布的平均值,/>表示下一时刻环境状态参数分布的方差,m表示从当前环境状态参数分布P(Xt)中采样的数量。
以最小化负对数似然均值准则Ldyn为训练目标,更新所述概率神经网络参数,其中N为每次训练批量大小(样本数量),k∈[1,2,…,K],/>表示第k个概率神经网络下一时刻环境状态参数分布的平均值,/>表示第k个概率神经网络下一时刻环境状态参数分布的方差。
本发明根据无模型控制策略πθ及环境动态模型生成初始轨迹τ,初始化拉格朗日乘数λ和惩罚参数ρ,以最大化有不等式约束的目标函数为目标建立无模型强化学习与基于模型强化学习之间的联系,通过最小化在所述约束下的拉格朗日函数L(τ,λ,ρ)进行轨迹优化并更新参数,通过最优轨迹输出机器人最优控制动作。
以最大化有不等式约束的目标函数为目标建立无模型强化学习与基于模型强化学习之间的联系,具体包括:
其中pv(x)表示从学习的环境动态模型和基于模型控制策略/>中推导的状态分布,V(xH)是环境状态参数xH下的全局价值函数,约束不等式为/>以限制基于模型控制策略更新和防止学习过程中的信息损失,其中/>为基于模型控制策略,πθ(ut|xt)为无模型控制策略,κ为邻域大小,r(xt,ut)为预设奖励函数。
步骤104:基于所述全局价值函数,采用模型预测轨迹积分方法优化所述初始轨迹,获得优化后的轨迹。
其中,步骤104具体包括:
初始化拉格朗日乘数λ和惩罚参数ρ,通过最小化带有不等式约束的拉格朗日函数进行轨迹优化获得优化后的轨迹,并更新拉格朗日乘数λ和惩罚参数ρ;
所述带有不等式约束的拉格朗日函数表示为:
其中,τ为所述初始轨迹,c(xt,ut)=κ-[ut-πθ(ut|xt)]2为不等式条件下的等式约束,γ为折扣因子,κ为邻域大小,为增广奖励函数,πθ(ut|xt)]表示所述无模型控制策略,H表示预测的步数,T表示转置,rt表示预设奖励函数,c=c(xt,ut),V(xH)表示环境参数为xH时的全局价值函数。
轨迹优化并更新参数,具体包括:
采用模型预测路径积分方法优化轨迹,并根据 对拉格朗日乘数λ进行更新,根据ρ+=βρ对惩罚参数ρ进行更新,/>表示更新后的环境状态参数,/>表示更新后的动作,其中β>1。
步骤105:根据优化后的轨迹确定控制所述机器人的运动指令。
本发明获取环境状态参数及机器人当前动作;根据所述环境状态参数及机器人当前动作,采用无模型强化学习方法获取全局价值函数及无模型强化学习策略;根据所述环境状态参数及无模型强化学习策略,采用集成神经网络建立环境动态模型预测机器人的状态轨迹;根据所述环境状态参数、环境动态模型、全局价值函数、无模型策略以及预设奖励函数,采用模型预测轨迹积分方法求解机器人最优控制动作,输出指令控制机器人到达目标位置。本发明一种机器人运动技能学习方法为一种机器人运动技能快速学习方法,有效地提高物理机器人在实际运动技能学习任务中的学习效率。
图3为本发明一种机器人运动技能学习系统结构示意图,如图3所示,一种机器人运动技能学习系统包括:
机器人当前数据获取模块201,用于获取机器人的当前环境状态参数及所述机器人的当前动作。
全局价值函数和无模型强化学习策略确定模块202,用于根据当前环境状态参数及当前动作,采用无模型强化学习方法确定全局价值函数和无模型强化学习策略。
轨迹预测模块203,用于根据当前环境状态参数和所述无模型强化学习策略,采用环境动态模型预测所述机器人下一时刻的轨迹,记为初始轨迹;所述环境动态模型为采用K个相同结构的概率神经网络拟合确定的。
轨迹优化模块204,用于基于所述全局价值函数,采用模型预测轨迹积分方法优化所述初始轨迹,获得优化后的轨迹。
运动指令确定模块205,用于根据优化后的轨迹确定控制所述机器人的运动指令。
所述全局价值函数和无模型强化学习策略确定模块202,具体包括:
全局价值函数和无模型强化学习策略确定单元,用于根据归一化优势函数算法构建状态动作值神经网络,所述状态动作值神经网络的输入为当前环境状态参数及当前动作,所述状态动作值神经网络的的输出为全局价值函数和无模型控制策略,通过最小化贝尔曼误差进行所述状态动作值神经网络的权值更新。
所述全局价值函数为:
其中,为状态动作价值函数,/>为优势函数;
其中,x表示当前环境状态参数,u表示当前动作,T表示转置,表示所述机器人动作分布的均值,/>表示所述机器人动作分布的方差。
根据建立K个概率神经网络来拟合所述环境动态模型。
其中,xt为当前环境状态参数,xt+1为下一时刻的环境状态参数,ut为机器人当前动作,表示概率神经网络参数。
表示下一时刻环境状态参数分布的平均值,/>表示下一时刻环境状态参数分布的方差,m表示从当前环境状态参数分布P(Xt)中采样的数量。
所述轨迹优化模块204,具体包括:
轨迹优化单元,用于初始化拉格朗日乘数λ和惩罚参数ρ,通过最小化带有不等式约束的拉格朗日函数进行轨迹优化获得优化后的轨迹,并更新拉格朗日乘数λ和惩罚参数ρ;
所述带有不等式约束的拉格朗日函数表示为:
其中,τ为所述初始轨迹,c(xt,ut)=κ-[ut-πθ(ut|xt)]2为不等式条件下的等式约束,γ为折扣因子,κ为邻域大小,为增广奖励函数,πθ(ut|xt)表示所述无模型控制策略,H表示预测的步数,T表示转置,rt表示预设奖励函数,c=c(xt,ut),V(xH)表示环境参数为xH时的全局价值函数。
所述环境状态参数包括所述机器人的关节角度值、关节角速度值以及预设关节的关节末端的笛卡尔空间位置。
本说明书中各个实施例采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似部分互相参见即可。对于实施例公开的系统而言,由于其与实施例公开的方法相对应,所以描述的比较简单,相关之处参见方法部分说明即可。
本文中应用了具体个例对本发明的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本发明的方法及其核心思想;同时,对于本领域的一般技术人员,依据本发明的思想,在具体实施方式及应用范围上均会有改变之处。综上所述,本说明书内容不应理解为对本发明的限制。
Claims (4)
1.一种机器人运动技能学习方法,其特征在于,包括:
获取机器人的当前环境状态参数及所述机器人的当前动作;
根据当前环境状态参数及当前动作,采用无模型强化学习方法确定全局价值函数和无模型强化学习策略;
根据当前环境状态参数和所述无模型强化学习策略,采用环境动态模型预测所述机器人下一时刻的轨迹,记为初始轨迹;所述环境动态模型为采用K个相同结构的概率神经网络拟合确定的;
基于所述全局价值函数,采用模型预测轨迹积分方法优化所述初始轨迹,获得优化后的轨迹;
根据优化后的轨迹确定控制所述机器人的运动指令;
所述根据当前环境状态参数及当前动作,采用无模型强化学习方法确定全局价值函数和无模型强化学习策略,具体包括:
根据归一化优势函数算法构建状态动作值神经网络,所述状态动作值神经网络的输入为当前环境状态参数及当前动作,所述状态动作值神经网络的输出为全局价值函数和无模型控制策略,通过最小化贝尔曼误差进行所述状态动作值神经网络的权值更新;
所述全局价值函数为:
其中,为状态动作价值函数,/>为优势函数;
其中,x表示当前环境状态参数,u表示当前动作,T表示转置,表示所述机器人动作分布的均值,/>表示所述机器人动作分布的方差;
所述的机器人运动技能学习方法,还包括:根据 建立K个概率神经网络来拟合所述环境动态模型;
其中,xt为当前环境状态参数,xt+1为下一时刻的环境状态参数,ut为机器人当前动作,表示网络参数;
表示下一时刻环境状态参数分布的平均值,/>表示下一时刻环境状态参数分布的方差,m表示从当前环境状态参数分布中采样的数量;
所述基于所述全局价值函数,采用模型预测轨迹积分方法优化所述初始轨迹,获得优化后的轨迹,具体包括:
初始化拉格朗日乘数λ和惩罚参数ρ,通过最小化带有不等式约束的拉格朗日函数进行轨迹优化获得优化后的轨迹,并更新拉格朗日乘数λ和惩罚参数ρ;
所述带有不等式约束的拉格朗日函数表示为:
其中,τ为所述初始轨迹,c(xt,ut)=κ-[ut-πθ(ut|xt)]2为不等式条件下的等式约束,γ为折扣因子,κ为邻域大小,/>为增广奖励函数,πθ(ut|xt)表示所述无模型控制策略,H表示预测的步数,T表示转置,rt表示预设奖励函数,c=c(xt,ut),V(xH)表示环境参数为xH时的全局价值函数。
2.根据权利要求1所述的机器人运动技能学习方法,其特征在于,所述环境状态参数包括所述机器人的关节角度值、关节角速度值以及预设关节的关节末端的笛卡尔空间位置。
3.一种机器人运动技能学习系统,其特征在于,包括:
机器人当前数据获取模块,用于获取机器人的当前环境状态参数及所述机器人的当前动作;
全局价值函数和无模型强化学习策略确定模块,用于根据当前环境状态参数及当前动作,采用无模型强化学习方法确定全局价值函数和无模型强化学习策略;
轨迹预测模块,用于根据当前环境状态参数和所述无模型强化学习策略,采用环境动态模型预测所述机器人下一时刻的轨迹,记为初始轨迹;所述环境动态模型为采用K个相同结构的概率神经网络拟合确定的;
轨迹优化模块,用于基于所述全局价值函数,采用模型预测轨迹积分方法优化所述初始轨迹,获得优化后的轨迹;
运动指令确定模块,用于根据优化后的轨迹确定控制所述机器人的运动指令;
所述全局价值函数和无模型强化学习策略确定模块,具体包括:
全局价值函数和无模型强化学习策略确定单元,用于根据归一化优势函数算法构建状态动作值神经网络,所述状态动作值神经网络的输入为当前环境状态参数及当前动作,所述状态动作值神经网络的输出为全局价值函数和无模型控制策略,通过最小化贝尔曼误差进行所述状态动作值神经网络的权值更新;
所述全局价值函数为:
其中,为状态动作价值函数,/>为优势函数;
其中,x表示当前环境状态参数,u表示当前动作,T表示转置,表示所述机器人动作分布的均值,/>表示所述机器人动作分布的方差;
所述的机器人运动技能学习系统,还包括:根据 建立K个概率神经网络来拟合所述环境动态模型;
其中,xt为当前环境状态参数,xt+1为下一时刻的环境状态参数,ut为机器人当前动作,表示网络参数;
表示下一时刻环境状态参数分布的平均值,/>表示下一时刻环境状态参数分布的方差,m表示从当前环境状态参数分布中采样的数量;
所述轨迹优化模块,具体包括:
轨迹优化单元,用于初始化拉格朗日乘数λ和惩罚参数ρ,通过最小化带有不等式约束的拉格朗日函数进行轨迹优化获得优化后的轨迹,并更新拉格朗日乘数λ和惩罚参数ρ;
所述带有不等式约束的拉格朗日函数表示为:
其中,τ为所述初始轨迹,c(xt,ut)=κ-[ut-πθ(ut|xt)]2为不等式条件下的等式约束,γ为折扣因子,κ为邻域大小,/>为增广奖励函数,πθ(ut|xt)表示所述无模型控制策略,H表示预测的步数,T表示转置,rt表示预设奖励函数,c=c(xt,ut),V(xH)表示环境参数为xH时的全局价值函数。
4.根据权利要求3所述的机器人运动技能学习系统,其特征在于,所述环境状态参数包括所述机器人的关节角度值、关节角速度值以及预设关节的关节末端的笛卡尔空间位置。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210587314.0A CN114918919B (zh) | 2022-05-25 | 2022-05-25 | 一种机器人运动技能学习方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210587314.0A CN114918919B (zh) | 2022-05-25 | 2022-05-25 | 一种机器人运动技能学习方法及系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN114918919A CN114918919A (zh) | 2022-08-19 |
CN114918919B true CN114918919B (zh) | 2023-11-28 |
Family
ID=82810886
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210587314.0A Active CN114918919B (zh) | 2022-05-25 | 2022-05-25 | 一种机器人运动技能学习方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114918919B (zh) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117575174B (zh) * | 2024-01-15 | 2024-04-02 | 山东环球软件股份有限公司 | 智能农业监测与管理系统 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109034044A (zh) * | 2018-06-14 | 2018-12-18 | 天津师范大学 | 一种基于融合卷积神经网络的行人再识别方法 |
CN111144124A (zh) * | 2018-11-02 | 2020-05-12 | 华为技术有限公司 | 机器学习模型的训练方法、意图识别方法及相关装置、设备 |
CN111310890A (zh) * | 2020-01-19 | 2020-06-19 | 深圳云天励飞技术有限公司 | 深度学习模型的优化方法、装置及终端设备 |
CN114037049A (zh) * | 2021-10-20 | 2022-02-11 | 鹏城实验室 | 基于值函数可信度的多智能体强化学习方法及相关装置 |
Family Cites Families (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US9772994B2 (en) * | 2013-07-25 | 2017-09-26 | Intel Corporation | Self-learning statistical natural language processing for automatic production of virtual personal assistants |
CA3032182A1 (en) * | 2018-01-31 | 2019-07-31 | Royal Bank Of Canada | Pre-training neural netwoks with human demonstrations for deep reinforcement learning |
-
2022
- 2022-05-25 CN CN202210587314.0A patent/CN114918919B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109034044A (zh) * | 2018-06-14 | 2018-12-18 | 天津师范大学 | 一种基于融合卷积神经网络的行人再识别方法 |
CN111144124A (zh) * | 2018-11-02 | 2020-05-12 | 华为技术有限公司 | 机器学习模型的训练方法、意图识别方法及相关装置、设备 |
CN111310890A (zh) * | 2020-01-19 | 2020-06-19 | 深圳云天励飞技术有限公司 | 深度学习模型的优化方法、装置及终端设备 |
CN114037049A (zh) * | 2021-10-20 | 2022-02-11 | 鹏城实验室 | 基于值函数可信度的多智能体强化学习方法及相关装置 |
Also Published As
Publication number | Publication date |
---|---|
CN114918919A (zh) | 2022-08-19 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN113485380B (zh) | 一种基于强化学习的agv路径规划方法及系统 | |
CN110806759B (zh) | 一种基于深度强化学习的飞行器航线跟踪方法 | |
CN110320809B (zh) | 一种基于模型预测控制的agv轨迹修正方法 | |
CN112256056B (zh) | 基于多智能体深度强化学习的无人机控制方法及系统 | |
WO2020207219A1 (zh) | 一种利用环境预测优化非模型机器人多轴孔装配控制方法 | |
CN111624992B (zh) | 一种基于神经网络的搬运机器人的路径跟踪控制方法 | |
CN110597061A (zh) | 一种多智能体完全分布式自抗扰时变编队控制方法 | |
CN114918919B (zh) | 一种机器人运动技能学习方法及系统 | |
CN112857385B (zh) | 一种基于非均匀栅格模型的快速无人车局部路径规划方法 | |
CN113821041B (zh) | 一种多机器人协同导航与避障的方法 | |
CN116848532A (zh) | 具有短期记忆单元的注意力神经网络 | |
CN115280322A (zh) | 使用学习的隐藏状态规划作用因素控制 | |
CN116460860B (zh) | 一种基于模型的机器人离线强化学习控制方法 | |
CN115256401A (zh) | 一种基于强化学习的空间机械臂轴孔装配变阻抗控制方法 | |
CN116147627A (zh) | 一种结合深度强化学习和内在动机的移动机器人自主导航方法 | |
CN110039537B (zh) | 一种基于神经网络的在线自学习多关节运动规划方法 | |
Elhaki et al. | Robust amplitude-limited interval type-3 neuro-fuzzy controller for robot manipulators with prescribed performance by output feedback | |
CN115374933A (zh) | 一种多节点探测器着陆行为智能规划及决策方法 | |
CN116300977B (zh) | 一种依托强化学习的铰接车轨迹跟踪控制方法及装置 | |
WO2024034204A1 (en) | System and method for controlling an operation of a device | |
CN116068900A (zh) | 面向多非完整约束移动机器人的强化学习行为控制方法 | |
CN114384931B (zh) | 一种基于策略梯度的无人机多目标最优控制方法和设备 | |
CN115453880A (zh) | 基于对抗神经网络的用于状态预测的生成模型的训练方法 | |
CN114610039A (zh) | 机器人的控制方法、装置、机器人和存储介质 | |
CN114967472A (zh) | 一种无人机轨迹跟踪状态补偿深度确定性策略梯度控制方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |