CN117283565A - 一种基于Actor-Critic网络全状态反馈的柔性关节机械臂控制方法 - Google Patents
一种基于Actor-Critic网络全状态反馈的柔性关节机械臂控制方法 Download PDFInfo
- Publication number
- CN117283565A CN117283565A CN202311477918.0A CN202311477918A CN117283565A CN 117283565 A CN117283565 A CN 117283565A CN 202311477918 A CN202311477918 A CN 202311477918A CN 117283565 A CN117283565 A CN 117283565A
- Authority
- CN
- China
- Prior art keywords
- actor
- mechanical arm
- neural network
- critic
- simulation
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 48
- 238000004088 simulation Methods 0.000 claims abstract description 61
- 238000013528 artificial neural network Methods 0.000 claims abstract description 51
- 238000012549 training Methods 0.000 claims abstract description 18
- 230000006870 function Effects 0.000 claims description 44
- 239000013598 vector Substances 0.000 claims description 21
- 239000011159 matrix material Substances 0.000 claims description 18
- 238000012360 testing method Methods 0.000 claims description 6
- 230000001133 acceleration Effects 0.000 claims description 5
- 230000017105 transposition Effects 0.000 claims description 2
- 238000012795 verification Methods 0.000 abstract description 2
- 238000005457 optimization Methods 0.000 description 7
- 238000004422 calculation algorithm Methods 0.000 description 5
- 230000033001 locomotion Effects 0.000 description 5
- 230000003044 adaptive effect Effects 0.000 description 4
- 238000004364 calculation method Methods 0.000 description 4
- 238000013461 design Methods 0.000 description 4
- 238000005452 bending Methods 0.000 description 3
- 230000008569 process Effects 0.000 description 3
- 230000005428 wave function Effects 0.000 description 3
- 230000004913 activation Effects 0.000 description 2
- 238000010276 construction Methods 0.000 description 2
- 238000011217 control strategy Methods 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000012545 processing Methods 0.000 description 2
- 230000009471 action Effects 0.000 description 1
- 230000006978 adaptation Effects 0.000 description 1
- 238000004458 analytical method Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000008901 benefit Effects 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 230000008878 coupling Effects 0.000 description 1
- 238000010168 coupling process Methods 0.000 description 1
- 238000005859 coupling reaction Methods 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 239000012636 effector Substances 0.000 description 1
- 230000005489 elastic deformation Effects 0.000 description 1
- 238000002474 experimental method Methods 0.000 description 1
- 210000002569 neuron Anatomy 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 238000010008 shearing Methods 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 230000009466 transformation Effects 0.000 description 1
Classifications
-
- B—PERFORMING OPERATIONS; TRANSPORTING
- B25—HAND TOOLS; PORTABLE POWER-DRIVEN TOOLS; MANIPULATORS
- B25J—MANIPULATORS; CHAMBERS PROVIDED WITH MANIPULATION DEVICES
- B25J9/00—Programme-controlled manipulators
- B25J9/16—Programme controls
-
- B—PERFORMING OPERATIONS; TRANSPORTING
- B25—HAND TOOLS; PORTABLE POWER-DRIVEN TOOLS; MANIPULATORS
- B25J—MANIPULATORS; CHAMBERS PROVIDED WITH MANIPULATION DEVICES
- B25J9/00—Programme-controlled manipulators
- B25J9/16—Programme controls
- B25J9/1602—Programme controls characterised by the control system, structure, architecture
-
- B—PERFORMING OPERATIONS; TRANSPORTING
- B25—HAND TOOLS; PORTABLE POWER-DRIVEN TOOLS; MANIPULATORS
- B25J—MANIPULATORS; CHAMBERS PROVIDED WITH MANIPULATION DEVICES
- B25J9/00—Programme-controlled manipulators
- B25J9/16—Programme controls
- B25J9/1602—Programme controls characterised by the control system, structure, architecture
- B25J9/161—Hardware, e.g. neural networks, fuzzy logic, interfaces, processor
-
- B—PERFORMING OPERATIONS; TRANSPORTING
- B25—HAND TOOLS; PORTABLE POWER-DRIVEN TOOLS; MANIPULATORS
- B25J—MANIPULATORS; CHAMBERS PROVIDED WITH MANIPULATION DEVICES
- B25J9/00—Programme-controlled manipulators
- B25J9/16—Programme controls
- B25J9/1656—Programme controls characterised by programming, planning systems for manipulators
- B25J9/1664—Programme controls characterised by programming, planning systems for manipulators characterised by motion, path, trajectory planning
-
- B—PERFORMING OPERATIONS; TRANSPORTING
- B25—HAND TOOLS; PORTABLE POWER-DRIVEN TOOLS; MANIPULATORS
- B25J—MANIPULATORS; CHAMBERS PROVIDED WITH MANIPULATION DEVICES
- B25J9/00—Programme-controlled manipulators
- B25J9/16—Programme controls
- B25J9/1656—Programme controls characterised by programming, planning systems for manipulators
- B25J9/1671—Programme controls characterised by programming, planning systems for manipulators characterised by simulation, either to verify existing program or to create and verify new program, CAD/CAM oriented, graphic oriented programming systems
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02P—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN THE PRODUCTION OR PROCESSING OF GOODS
- Y02P90/00—Enabling technologies with a potential contribution to greenhouse gas [GHG] emissions mitigation
- Y02P90/02—Total factory control, e.g. smart factories, flexible manufacturing systems [FMS] or integrated manufacturing systems [IMS]
Landscapes
- Engineering & Computer Science (AREA)
- Robotics (AREA)
- Mechanical Engineering (AREA)
- Automation & Control Theory (AREA)
- Physics & Mathematics (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Computation (AREA)
- Fuzzy Systems (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Feedback Control In General (AREA)
Abstract
本发明属于自动控制技术领域,具体涉及一种基于全状态反馈的Actor‑Critic网络控制方法,通过ROS平台对柔性关节机械臂进行仿真验证,选取拥有七自由度柔性关节机械臂的Baxter机器人模型作为柔性关节机械臂的动力学模型,并设定机械臂末端执行关节的期望轨迹、以及末端执行关节的约束力矩增益参数,预先构建Actor和Critic神经网络,在设定仿真循环的时间周期内,依据期望轨迹,通过仿真环境输出末端执行关节的仿真结果,将仿真结果输入Critic神经网络中,将输出结果输入Actor神经网络中进行训练,并实时输出基于Actor神经网络控制下的Baxter模型末端执行关节的实际轨迹,以此对机械臂进行有效控制与消除不确定因素,同时提高系统的精度和增强系统的鲁棒性,使其更易于控制更加安全。
Description
技术领域
本发明属于自动控制技术领域,具体涉及一种基于Actor-Critic网络全状态反馈的柔性关节机械臂控制方法。
背景技术
近年来,柔性关节机械臂的控制技术得到了突飞猛进的发展,且应用极为广泛,柔性机械臂的控制考虑机械臂关节柔性与弹性变形之间的耦合,因此它的运动方程是高度非线性的。同时,柔性机械臂是一个由柔性关节组成的集中式参数系统和由柔性杆组成的分布式参数系统组成的混合系统,其动态特性采用偏微分方程(PDE)来描述,这也增加了控制器设计的难度。
由于运动过程中关节和连杆的柔性效应增加,导致结构变形,降低了执行任务的精度。因此,必须考虑机器人机械臂的结构柔性特性。连杆为柔性时,早期研究学者通常采用假设模态法、有限元法、集总质量法、传递矩阵法等方法来描述柔性机械臂的柔性变形,然后根据需要进行截断。又因为柔性变形只考虑弯曲变形,而忽略轴向变形和剪切变形,因此,从动力角度来看,每个柔性构件都可以看作是一根欧拉伯努利梁,即考虑到机械手连杆的长度总是远远大于其横截面尺寸;与此同时,与振动控制有关的问题便随之产生。
目前,越来越多的研究者采用自适应方法来控制柔性关节机械臂,包括基于径向基函数神经网络的机械臂自适应滑模鲁棒控制,基于自适应模糊滑模控制的机器人轨迹跟踪研究基于模糊干扰观测器的机械手自适应反步滑模控制策略等等。但上述方法在更加复杂的环境下还是难以适应,产生较大的稳态误差,另外,柔性关节机械臂的位置控制精度一直是研究人员关注的问题。研究人员在控制器的设计上做了大量的努力,但控制精度和灵活性都没有达到预期的要求,因此如何设计一种高效可行的控制方法是本领域技术人员亟需解决的技术问题。
发明内容
本发明的目的就在于提供一种基于Actor-Critic网络全状态反馈的柔性关节机械臂控制方法,以解决背景技术中提出的问题。
本发明通过以下技术方案来实现上述目的:
一种基于Actor-Critic网络全状态反馈的柔性关节机械臂控制方法,步骤包括:
S1、搭建机器人仿真环境,选取Baxter模型作为柔性关节机械臂的动力学模型,并设定所述机械臂末端执行关节的期望轨迹、以及末端执行关节的约束力矩增益参数;
S2、预先构建Actor和Critic神经网络,在设定仿真循环的时间周期内,依据所述期望轨迹,通过仿真环境输出末端执行关节的仿真结果,将所述仿真结果输入所述Critic神经网络中,将输出结果输入所述Actor神经网络中进行训练,并实时输出基于所述Actor神经网络控制下的Baxter模型末端执行关节的实际轨迹;
S3、在所述仿真环境中,输出基于所述时间周期内期望轨迹和实际轨迹的轨迹误差,根据所述轨迹误差来验证所述机械臂控制方法。
作为本发明的进一步优化方案,步骤S1具体包括:
S1.1、基于ROS系统创建工作空间;
S1.2、在所述工作空间中安装与所述Baxter模型相关依赖;
S1.3、完成Baxter模型编译后执行IP连接,并创建仿真环境;
S1.4、基于所述仿真环境下启动Baxter模型机器人仿真测试;
S1.5、重复执行上述步骤直至仿真测试运行正常,启动仿真环境并运行Baxter模型机器人的设定仿真指令;
S1.6、生成Baxter模型机器人的执行控制例程。
作为本发明的进一步优化方案,步骤S2中,预先构建的Actor和Critic神经网络中包括自定义训练方法,其中包括设置Za函数,Za函数将设定构型机械臂所有关节的实际角度向量、实际速度向量、期望角度向量、期望速度向量与期望加速度向量连接为一组列向量。
作为本发明的进一步优化方案,所述Actor神经网络中还包括:Sa函数、权重Wa、学习率以及通过优化器输出的权重Wa的矩阵Q;其中,Sa函数用于将Za函数得到的列向量转化为一维数组并进行正弦运算。
作为本发明的进一步优化方案,所述Critic神经网络中还包括:奖励函数r、学习率以及通过优化器输出奖励函数r的奖励值;其中,将所有关节的跟踪误差和误差导数构成误差矩阵的转置、与新设定的权重矩阵Q、与误差矩阵做矩阵运算得到的负值作为所述奖励值。
作为本发明的进一步优化方案,步骤S2中,将所述仿真结果输入所述Critic神经网络中,将输出结果输入所述Actor神经网络中进行训练基于如下公式实施:
用V表示经过Critic神经网络训练过的Za函数与奖励函数,用T表示Critic神经网络的输出,最后得到的权重自适应率为:
再将权重输入至所述Actor神经网络进行训练。
作为本发明的进一步优化方案,步骤S2中,当所述机械臂末端执行关节具体为两个关节时,基于所述Actor神经网络控制下的Baxter模型机械臂两个关节的控制力矩公式分别为:
其中,L1和L2为所述约束力矩增益参数,Z1和Z2为跟踪误差,S1和S2为误差的导数,α1和α2为不确定项,为Actor神经网络的输出。
本发明的有益效果在于:
(1)本发明针对柔性关节机械臂系统,综合考虑系统不确定性、柔性结构的弯曲变形和残余振动等特点,提出一种基于全状态反馈的Actor-Critic网络控制方法,来抑制和消除柔性结构在运动过程中的弯曲变形、残余振动和不确定性,使柔性关节机械臂系统能够精确地跟踪期望轨迹,同时提高系统的精度和增强系统的鲁棒性,提高了机械臂的安全性。
(2)本发明运用ROS系统中的Baxter模型进行仿真,其仿真度高,建模难度小,克服了传统建模方法计算量大,推导过程繁琐、可扩展性差的问题,从而使仿真实验更加简单与易操作方便进行模型分析及控制策略验证。
(3)本发明使用离散化方法将PDE离散为常微分方程(ODE)系统来降低控制器设计的难度。当系统存在不确定性和复杂性时,ODE具有更明显的优势。
附图说明
图1是本发明的仿真环境搭建流程图;
图2是本发明中算法执行流程图;
图3是本发明中控制方法实施的框图;
图4-11是本发明具体实施方式中案例部分基于PI与PD控制机械臂的仿真结果图;
图12-15是本发明具体实施方式中案例部分基于模型控制机械臂的仿真结果图;
图16-19是本发明具体实施方式中案例部分基于Actor-Critic网络全状态反馈控制机械臂的仿真结果图。
具体实施方式
下面结合附图对本申请作进一步详细描述,有必要在此指出的是,以下具体实施方式只用于对本申请进行进一步的说明,不能理解为对本申请保护范围的限制,该领域的技术人员可以根据上述申请内容对本申请作出一些非本质的改进和调整。
实施例1
如图1-3所示,本实施方式提供了一种基于Actor-Critic网络全状态反馈的柔性关节机械臂控制方法,步骤包括:
S1、搭建机器人仿真环境,选取Baxter模型作为柔性关节机械臂的动力学模型,并设定机械臂末端执行关节的期望轨迹、以及末端执行关节的约束力矩增益参数;
S2、预先构建Actor和Critic神经网络,在设定仿真循环的时间周期内,依据期望轨迹,通过仿真环境输出末端执行关节的仿真结果,将仿真结果输入Critic神经网络中,将输出结果输入Actor神经网络中进行训练,并实时输出基于Actor神经网络控制下的Baxter模型末端执行关节的实际轨迹;
S3、在仿真环境中,输出基于时间周期内期望轨迹和实际轨迹的轨迹误差,根据轨迹误差来验证机械臂控制方法。
本实施例中,控制方法的实施基于Ubuntu20.04系统与ROS noetic版本下,运用官方的仿真模型进行控制算法实验。使用gazebo对Baxter机器人进行仿真,通过配置软件相关参数,载入机器人模型,运行控制节点,可以在gazebo中观察Baxter机器人的动作情况,同时可通过指令查看相关机器人运行相关信息,步骤S1仿真环境搭建具体包括:
S1.1、基于ROS系统创建工作空间;
S1.2、在工作空间中安装与Baxter模型相关依赖;
S1.3、完成Baxter模型编译后执行IP连接,并创建仿真环境;
S1.4、基于仿真环境下启动Baxter模型机器人仿真测试;
S1.5、重复执行上述步骤直至仿真测试运行正常,启动仿真环境并运行Baxter模型机器人的设定仿真指令;
S1.6、生成Baxter模型机器人的执行控制例程。
本实施例步骤S2中构建Actor和Critic神经网络前还包括两步:
第一步:导入所需要的模块与函数。
首先导入rospy使ROS系统中可以使用python,其次导入baxter_interface的limb库来使用baxter机器人的手臂,再导入PyTorch库,用于神经网络的构建和训练,除此之外导入必要的数学运算函数、绘图函数与NumPy库,用于处理数值计算。之后便可以开始进行仿真操作。
第二步:初始化机械臂与设定基本参数。
首先需要初始化ROS节点,选用两个关节与所对应的两个机械臂包括大臂和小臂,并创建仿真模型的机械臂实例(以下均以右臂为例),因为机械臂的关节控制需要力来实现,因此设置关节位置速度为0,以启用力矩控制模式,再使其以正弦波函数的方式进行摆动,并以每0.001秒一次记录此机械臂的运动情况,最终记录10秒。接着设置大臂与小臂的约束力矩阵增益的参数L1,L2、转动惯量Jm1,Jm2和径向基函数(RBF)神经网络的参数,其中RBF神经网络通过奖惩来快速逼近控制算法中的不确定项,其参数设置包括宽度参数α1,α2与中心参数β1,β2,
本实施例步骤S2中,预先创建的Actor神经网络具体包括:首先是定义结构体,包含输入层、两个隐藏层、输出层,层与层之间用激活函数relu()来实现计算。其次定义训练方法,设置Za()函数、Sa()函数、权重与学习率,其中Za()函数是将所有关节的实际角度向量、实际速度向量、期望角度向量、期望速度向量与期望加速度向量连接为一组列向量,Sa()函数是将Za()函数得到的列向量转化为一维数组并进行正弦运算。之后使用优化器(optimizer)来更新模型参数与权重,用损失函数(loss_function)来展示损失率,以方便做出进一步优化。最后得到权重/>的矩阵Q。
预先创建的Critic神经网络具体包括:首先也是定义结构体,包含输入层、两个隐藏层、输出层,层与层之间用激活函数relu()来实现计算。其次定义训练方法,设置Za()函数、奖励函数r与学习率,其中Za()函数作用同上,奖励函数r为所有关节的跟踪误差、误差导数构成的矩阵的转置与新设定的权重矩阵Q再与误差矩阵做矩阵运算得到的负值。之后使用optimizer来更新模型参数与权重,用loss_function来展示损失率,以方便做出进一步优化。最后得到奖励函数的奖励值。
作为优选的,步骤S2中,将仿真结果输入Critic神经网络中,将输出结果输入Actor神经网络中进行训练基于如下公式实施:
用V表示经过Critic神经网络训练过的Za函数与奖励函数,用T表示Critic神经网络的输出,最后得到的权重自适应率为:
再将权重输入至Actor神经网络进行训练。
作为优选的,步骤S2中,当机械臂末端执行关节具体为两个关节时,首先以0.001秒为单位进行循环,共进行10秒,即10000步长进行仿真,然后在循环中设置期望轨迹的关节期望的角度、期望速度、期望加速度,并注意第二个关节的所有输入均为第一关节输入的二倍。其次,用导入的baxter_interface的limb库来使用baxter机器人的手臂获取实际角度、实际速度。于是我们便得到跟踪误差z1,z2与误差的导数s1,s2,将其用Za()函数与Sa()函数进行矩阵转化,再带入Actor神经网络进行训练得到权值用/>表示Actor神经网络的输出。接着计算两个关节的RBF函数值,用来逼近不确定项α1,α2。最终我们可以得到机械臂的控制力矩公式分别为:
其中,L1和L2为约束力矩增益参数,Z1和Z2为跟踪误差,S1和S2为误差的导数,α1和α2为不确定项,为Actor神经网络的输出。
将得到的两个关节的力矩输入到Baxter的仿真机械臂中,便可以让其运行起来,同时让运行的数据存储到例表,以便后续作图。运行一次后,计算成本函数和奖励函数,训练Critic网络,并更新Actor-Critic网络的权重,再次进行循环,直到时间截止。
下面结合实际处理例程对上述方案进行进一步阐述:
本发明通过将提出的Actor-Critic算法与PI、PD和基于模型的算法进行了比较。同时,四种模拟的跟踪轨迹均采用正弦波函数。
q1d1=0.3sin(2t)
q1d2=0.6sin(2t)
仿真的初始值为q1(0)=[0.001,0.001]T,q2(0)=[0.001,0.001]T,/>
现有技术中基于PI与PD控制机械臂:
所提出的PI和PD控制器如下:
τPI=-KPe1-KI∫e1
其中KP为比例增益,KI为积分增益,KD为导数增益。并设置PI和PD方法的实验结果如图4-11所示。从图中可以直观、清晰地看到,q1和q2可以通过控制器跟踪期望的轨迹,但也存在较大的误差波动,PI控制两段机械臂的误差最终在0.0075和0.02左右,PD控制两段机械臂的误差最终在0.02和0.04左右,均难以实现非常精确的控制。
二、基于模型控制
在基于模型的仿真中,不确定项D的参数为e1=e3=2kgm2和e2=e3=e4=1kgm2。然后,对于不确定项D,如下所示:
基于模型的控制仿真结果如图12-15所示,可以看出q1和q2可以通过控制器跟踪所需的轨迹,但两个误差始终不能趋于0,最终均稳定在0.0085左右,不能很好的实现精确控制。
三、基于全状态反馈的Actor-Critic控制
对于基于全状态反馈的Actor-Critic控制,我们选择的控制增益为:第一关节为L1=60,第二关节为L2=40。这些增益用于约束转矩的计算。定义用于逼近不确定项的径向基函数(RBF)参数为α1=0.5,α2=0.5。Actor-Critic网络的隐藏层大小都是25个神经元。仿真的初始值设为q1(0)=[0.2,0.2]T,q2(0)=[0.25,0.25]T,
在每一个时间步,期望的关节角度,速度和加速度计算使用正弦波函数。实际关节角度和速度由Baxter机械臂获得。这些值用于计算跟踪误差,然后在交流网络中用于计算和发送联合扭矩命令。
在图16-19中可以看到基于Baxter机械臂模型的交流网络训练的两个关节的跟踪效果曲线与轨迹误差,即使在不同的初始条件下,实际的关节角和速度也可以很好地跟踪期望的轨迹,跟踪误差很快便收敛到零附近的一个小邻域,两个误差最终保持在0.005和0.007以内,实现精准的控制。
以上实施例仅用以说明本申请的技术方案,而非对其限制;尽管参照前述实施例对本申请进行了详细的说明,本领域的普通技术人员当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不驱使相应技术方案的本质脱离本申请各实施例技术方案的精神和范围。
Claims (7)
1.一种基于Actor-Critic网络全状态反馈的柔性关节机械臂控制方法,其特征在于,步骤包括:
S1、搭建机器人仿真环境,选取Baxter模型作为柔性关节机械臂的动力学模型,并设定所述机械臂末端执行关节的期望轨迹、以及末端执行关节的约束力矩增益参数;
S2、预先构建Actor和Critic神经网络,在设定仿真循环的时间周期内,依据所述期望轨迹,通过仿真环境输出末端执行关节的仿真结果,将所述仿真结果输入所述Critic神经网络中,将输出结果输入所述Actor神经网络中进行训练,并实时输出基于所述Actor神经网络控制下的Baxter模型末端执行关节的实际轨迹;
S3、在所述仿真环境中,输出基于所述时间周期内期望轨迹和实际轨迹的轨迹误差,根据所述轨迹误差来验证所述机械臂控制方法。
2.根据权利要求1所述的一种基于Actor-Critic网络全状态反馈的柔性关节机械臂控制方法,其特征在于:步骤S1具体包括:
S1.1、基于ROS系统创建工作空间;
S1.2、在所述工作空间中安装与所述Baxter模型相关依赖;
S1.3、完成Baxter模型编译后执行IP连接,并创建仿真环境;
S1.4、基于所述仿真环境下启动Baxter模型机器人仿真测试;
S1.5、重复执行上述步骤直至仿真测试运行正常,启动仿真环境并运行Baxter模型机器人的设定仿真指令;
S1.6、生成Baxter模型机器人的执行控制例程。
3.根据权利要求1所述的一种基于Actor-Critic网络全状态反馈的柔性关节机械臂控制方法,其特征在于:步骤S2中,预先构建的Actor和Critic神经网络中包括自定义训练方法,其中包括设置Za函数,Za函数将设定构型机械臂所有关节的实际角度向量、实际速度向量、期望角度向量、期望速度向量与期望加速度向量连接为一组列向量。
4.根据权利要求3所述的一种基于Actor-Critic网络全状态反馈的柔性关节机械臂控制方法,其特征在于:所述Actor神经网络中还包括:Sa函数、权重学习率以及通过优化器输出的权重/>的矩阵Q;其中,Sa函数用于将Za函数得到的列向量转化为一维数组并进行正弦运算。
5.根据权利要求4所述的一种基于Actor-Critic网络全状态反馈的柔性关节机械臂控制方法,其特征在于:所述Critic神经网络中还包括:奖励函数r、学习率以及通过优化器输出奖励函数r的奖励值;其中,将所有关节的跟踪误差和误差导数构成误差矩阵的转置、与新设定的权重矩阵Q、与误差矩阵做矩阵运算得到的负值作为所述奖励值。
6.根据权利要求5所述的一种基于Actor-Critic网络全状态反馈的柔性关节机械臂控制方法,其特征在于:步骤S2中,将所述仿真结果输入所述Critic神经网络中,将输出结果输入所述Actor神经网络中进行训练基于如下公式实施:
用V表示经过Critic神经网络训练过的Za函数与奖励函数,用T表示Critic神经网络的输出,最后得到的权重自适应率为:
再将权重输入至所述Actor神经网络进行训练。
7.根据权利要求6所述的一种基于Actor-Critic网络全状态反馈的柔性关节机械臂控制方法,其特征在于:步骤S2中,当所述机械臂末端执行关节具体为两个关节时,基于所述Actor神经网络控制下的Baxter模型机械臂两个关节的控制力矩公式分别为:
其中,L1和L2为所述约束力矩增益参数,Z1和Z2为跟踪误差,S1和S2为误差的导数,α1和α2为不确定项,为Actor神经网络的输出。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311477918.0A CN117283565B (zh) | 2023-11-03 | 2023-11-03 | 一种基于Actor-Critic网络全状态反馈的柔性关节机械臂控制方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311477918.0A CN117283565B (zh) | 2023-11-03 | 2023-11-03 | 一种基于Actor-Critic网络全状态反馈的柔性关节机械臂控制方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN117283565A true CN117283565A (zh) | 2023-12-26 |
CN117283565B CN117283565B (zh) | 2024-03-22 |
Family
ID=89244535
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202311477918.0A Active CN117283565B (zh) | 2023-11-03 | 2023-11-03 | 一种基于Actor-Critic网络全状态反馈的柔性关节机械臂控制方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN117283565B (zh) |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111496792A (zh) * | 2020-04-27 | 2020-08-07 | 北京科技大学 | 一种机械臂输入饱和固定时间轨迹跟踪控制方法及系统 |
CN113419424A (zh) * | 2021-07-05 | 2021-09-21 | 清华大学深圳国际研究生院 | 减少过估计的模型化强化学习机器人控制方法及系统 |
CN113510704A (zh) * | 2021-06-25 | 2021-10-19 | 青岛博晟优控智能科技有限公司 | 一种基于强化学习算法的工业机械臂运动规划方法 |
US20220040852A1 (en) * | 2020-07-31 | 2022-02-10 | Robert Bosch Gmbh | Method for controlling a robot device and robot device controller |
CN116533249A (zh) * | 2023-06-05 | 2023-08-04 | 贵州大学 | 基于深度强化学习的机械臂控制方法 |
-
2023
- 2023-11-03 CN CN202311477918.0A patent/CN117283565B/zh active Active
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111496792A (zh) * | 2020-04-27 | 2020-08-07 | 北京科技大学 | 一种机械臂输入饱和固定时间轨迹跟踪控制方法及系统 |
US20220040852A1 (en) * | 2020-07-31 | 2022-02-10 | Robert Bosch Gmbh | Method for controlling a robot device and robot device controller |
CN114063446A (zh) * | 2020-07-31 | 2022-02-18 | 罗伯特·博世有限公司 | 用于控制机器人设备的方法和机器人设备控制器 |
CN113510704A (zh) * | 2021-06-25 | 2021-10-19 | 青岛博晟优控智能科技有限公司 | 一种基于强化学习算法的工业机械臂运动规划方法 |
CN113419424A (zh) * | 2021-07-05 | 2021-09-21 | 清华大学深圳国际研究生院 | 减少过估计的模型化强化学习机器人控制方法及系统 |
CN116533249A (zh) * | 2023-06-05 | 2023-08-04 | 贵州大学 | 基于深度强化学习的机械臂控制方法 |
Non-Patent Citations (3)
Title |
---|
MÉLODIE HANI DANIEL ZAKARIA: "Robotic Control of the Deformation of Soft Linear Objects Using Deep Reinforcement Learning", 《2022 IEEE 18TH INTERNATIONAL CONFERENCE ON AUTOMATION SCIENCE AND ENGINEERING (CASE)》, 28 October 2022 (2022-10-28) * |
WEI HE: "Reinforcement Learning Control of a Flexible Two-Link Manipulator: An Experimental Investigation", 《 IEEE TRANSACTIONS ON SYSTEMS, MAN, AND CYBERNETICS: SYSTEMS 》, vol. 51, no. 12, 31 December 2021 (2021-12-31) * |
侯佳;高赫佳;贺威;孙长银;: "基于Quanser实验平台的带有输出约束单连杆柔性机械臂的神经网络控制", 南京信息工程大学学报(自然科学版), no. 06, 28 November 2018 (2018-11-28) * |
Also Published As
Publication number | Publication date |
---|---|
CN117283565B (zh) | 2024-03-22 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
WO2021103392A1 (zh) | 基于对抗结构化控制的仿生机器鱼运动控制方法、系统 | |
CN110238839B (zh) | 一种利用环境预测优化非模型机器人多轴孔装配控制方法 | |
Lin et al. | Evolutionary digital twin: A new approach for intelligent industrial product development | |
Koch et al. | Neuroflight: Next generation flight control firmware | |
CN115781685B (zh) | 一种基于强化学习的高精度机械臂控制方法及系统 | |
Li et al. | Multiple peg-in-hole compliant assembly based on a learning-accelerated deep deterministic policy gradient strategy | |
Liu et al. | Modeling and control of robotic manipulators based on artificial neural networks: a review | |
Kurtz et al. | Contact-implicit trajectory optimization with hydroelastic contact and ilqr | |
Mohamed et al. | Simulating LQR and PID controllers to stabilise a three-link robotic system | |
CN117215204B (zh) | 基于强化学习的机器人步态训练方法及系统 | |
Shintaku | Minimum energy trajectory for an underwater manipulator and its simple planning method by using a genetic algorithm | |
CN117283565B (zh) | 一种基于Actor-Critic网络全状态反馈的柔性关节机械臂控制方法 | |
CN107894709A (zh) | 基于自适应评价网络冗余机器人视觉伺服控制 | |
Kim et al. | Robust dynamic locomotion via reinforcement learning and novel whole body controller | |
Roveda et al. | Cartesian tasks oriented friction compensation through a reinforcement learning approach | |
Singh et al. | Adaptive control for non-linear systems using artificial neural network and its application applied on inverted pendulum | |
Lee et al. | Combining GRN modeling and demonstration-based programming for robot control | |
Chen et al. | QPSO-MPC based tracking algorithm for cable-driven continuum robots | |
Çatalbaş | Control and system identification of legged locomotion with recurrent neural networks | |
Zhou et al. | Intelligent Control of Manipulator Based on Deep Reinforcement Learning | |
Tao et al. | A Multiobjective Collaborative Deep Reinforcement Learning Algorithm for Jumping Optimization of Bipedal Robot | |
Li et al. | Manipulator Motion Planning based on Actor-Critic Reinforcement Learning | |
Krikochoritis et al. | Control of flexible joint robots using neural networks | |
Leguizamo et al. | Deep reinforcement learning for robotic control with multi-fidelity models | |
Ruud | Reinforcement learning with the TIAGo research robot: manipulator arm control with actor-critic reinforcement learning |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |