CN117103282B - 一种基于matd3算法的双臂机器人协同运动控制方法 - Google Patents
一种基于matd3算法的双臂机器人协同运动控制方法 Download PDFInfo
- Publication number
- CN117103282B CN117103282B CN202311363311.XA CN202311363311A CN117103282B CN 117103282 B CN117103282 B CN 117103282B CN 202311363311 A CN202311363311 A CN 202311363311A CN 117103282 B CN117103282 B CN 117103282B
- Authority
- CN
- China
- Prior art keywords
- network
- mechanical arm
- action
- arm
- robot
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000004422 calculation algorithm Methods 0.000 title claims abstract description 49
- 238000000034 method Methods 0.000 title claims abstract description 32
- 230000009471 action Effects 0.000 claims abstract description 52
- 238000012549 training Methods 0.000 claims abstract description 34
- 239000003795 chemical substances by application Substances 0.000 claims description 33
- 238000011156 evaluation Methods 0.000 claims description 28
- 239000012636 effector Substances 0.000 claims description 22
- 239000011159 matrix material Substances 0.000 claims description 10
- 230000003993 interaction Effects 0.000 claims description 7
- 238000013461 design Methods 0.000 claims description 6
- 238000004088 simulation Methods 0.000 claims description 6
- 230000008569 process Effects 0.000 claims description 5
- 230000001133 acceleration Effects 0.000 claims description 2
- 238000013528 artificial neural network Methods 0.000 claims description 2
- 239000000284 extract Substances 0.000 claims description 2
- 238000011478 gradient descent method Methods 0.000 claims description 2
- 230000005484 gravity Effects 0.000 claims description 2
- 238000012546 transfer Methods 0.000 claims description 2
- 230000006870 function Effects 0.000 description 8
- 238000012360 testing method Methods 0.000 description 6
- 238000004364 calculation method Methods 0.000 description 4
- 230000001276 controlling effect Effects 0.000 description 4
- 230000002787 reinforcement Effects 0.000 description 4
- 238000011217 control strategy Methods 0.000 description 2
- HMPUHXCGUHDVBI-UHFFFAOYSA-N 5-methyl-1,3,4-thiadiazol-2-amine Chemical compound CC1=NN=C(N)S1 HMPUHXCGUHDVBI-UHFFFAOYSA-N 0.000 description 1
- 230000002776 aggregation Effects 0.000 description 1
- 238000004220 aggregation Methods 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 230000000875 corresponding effect Effects 0.000 description 1
- 230000003111 delayed effect Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 230000002452 interceptive effect Effects 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 239000000203 mixture Substances 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000003062 neural network model Methods 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 230000009466 transformation Effects 0.000 description 1
Classifications
-
- B—PERFORMING OPERATIONS; TRANSPORTING
- B25—HAND TOOLS; PORTABLE POWER-DRIVEN TOOLS; MANIPULATORS
- B25J—MANIPULATORS; CHAMBERS PROVIDED WITH MANIPULATION DEVICES
- B25J9/00—Programme-controlled manipulators
- B25J9/16—Programme controls
- B25J9/1679—Programme controls characterised by the tasks executed
- B25J9/1682—Dual arm manipulator; Coordination of several manipulators
-
- B—PERFORMING OPERATIONS; TRANSPORTING
- B25—HAND TOOLS; PORTABLE POWER-DRIVEN TOOLS; MANIPULATORS
- B25J—MANIPULATORS; CHAMBERS PROVIDED WITH MANIPULATION DEVICES
- B25J9/00—Programme-controlled manipulators
- B25J9/16—Programme controls
- B25J9/1628—Programme controls characterised by the control loop
- B25J9/163—Programme controls characterised by the control loop learning, adaptive, model based, rule based expert control
-
- B—PERFORMING OPERATIONS; TRANSPORTING
- B25—HAND TOOLS; PORTABLE POWER-DRIVEN TOOLS; MANIPULATORS
- B25J—MANIPULATORS; CHAMBERS PROVIDED WITH MANIPULATION DEVICES
- B25J9/00—Programme-controlled manipulators
- B25J9/16—Programme controls
- B25J9/1656—Programme controls characterised by programming, planning systems for manipulators
- B25J9/1664—Programme controls characterised by programming, planning systems for manipulators characterised by motion, path, trajectory planning
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02P—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN THE PRODUCTION OR PROCESSING OF GOODS
- Y02P90/00—Enabling technologies with a potential contribution to greenhouse gas [GHG] emissions mitigation
- Y02P90/02—Total factory control, e.g. smart factories, flexible manufacturing systems [FMS] or integrated manufacturing systems [IMS]
Landscapes
- Engineering & Computer Science (AREA)
- Robotics (AREA)
- Mechanical Engineering (AREA)
- Feedback Control In General (AREA)
- Numerical Control (AREA)
Abstract
本发明公开了一种基于MATD3算法的双臂机器人协同运动控制方法,包括:步骤1,针对双臂机器人系统,建立机械臂模型,包括机器人运动学及动力学方程;步骤2,建立MATD3算法网络,设计网络结构及参数更新规则;步骤3,训练面向双臂机器人协同控制的MATD3网络模型,网络包括两个智能体,选择每个智能体的状态空间、动作空间和奖励函数,并给出网络训练流程;步骤4,基于MATD3的双臂机器人协同运动控制,基于已训练的算法模型进行双臂机器人协同运动控制。本发明的方法可以实现双臂机器人的协同运动控制,相比较传统算法,在大幅度降低计算复杂度的同时提高了控制效率和可靠性。
Description
技术领域
本发明涉及机器人动力学控制与强化学习领域,具体为一种基于MATD3算法的双臂机器人协同运动控制方法。
背景技术
随着机器人任务种类的多样化,双机械臂协同操作逐渐成为机器人领域的新发展趋势,也面临着众多研究难点和挑战。由于双臂机器人存在多个自由度,如何在多自由度空间中规划运动轨迹,使双臂能够实现高效、平滑地协同操作,是一个复杂且具有挑战性的问题。
目前已有的双臂协同控制方法主要分为基于运动学的控制方法和基于动力学的控制方法。基于运动学的控制方法主要针对双臂机器人运动中的各种约束条件、协同工作中的臂间干涉以及运动路径规划等问题进行深入分析。基于动力学的控制方法需要建立双臂机器人的动力学模型,通过控制机器人的关节力矩来实现协同运动。传统的基于运动学的方法不仅要求机器人能够准确地跟踪轨迹,还需要进行大量繁琐的逆运动学解算工作,其过程复杂且容易引起误差。基于动力学进行运动控制的方法往往对模型的精度要求较高,对模型误差和不确定性较为敏感。
发明内容
针对上述提出的技术问题,本发明提供一种基于MATD3算法的双臂机器人协同运动控制方法,基于MATD3(Multi-Agent Twin Delayed Deep Deterministic PolicyGradient)算法,通过控制机器人关节力矩,实现对双臂机器人的协同运动控制。该算法以“集中训练,分散执行”的思路为基础,充分利用双臂系统之间的状态信息交互,实现更加高效和稳定的双臂协同运动。
一种基于MATD3算法的双臂机器人协同运动控制方法,包括以下步骤:
步骤1,针对双臂机器人系统,建立机械臂模型,包括机器人运动学及动力学方程。
步骤2,设计了一个多智能体MATD3算法:建立MATD3算法网络,设计网络结构及参数更新规则,具体的,对一个智能体分别建立一组策略-评价网络,策略网络根据状态信息选择动作组成动作对,采用CEM算法对动作对进行搜索,选择价值最高的动作作为当前时刻智能体所执行的动作,评价网络根据智能体的状态信息评估动作价值,网络根据以上信息更新网络参数。
步骤3,将步骤2设计的算法用于双臂机器人协同运动控制,结合双臂机器人协同运动控制问题给出网络训练流程,具体的:训练面向双臂机器人协同控制的MATD3网络模型,网络包括两个智能体,选择每个智能体的状态空间、动作空间和奖励函数,并给出网络训练流程。
步骤4,基于MATD3的双臂机器人协同运动控制,基于已训练的模型进行双臂机器人协同运动控制。
有益效果
(1)本发明采用多智能体强化学习算法,每个机械臂分别设计一个控制器,可有效降低每个控制器计算时间,从而实现高效实时的双臂协同运动。
(2)本发明采用基于动力学的力矩控制策略有效地避免了繁琐的逆运动学解算过程,提高了控制效率和可靠性。
(3)本发明使用强化学习算法,机器人能够从与环境的互动中进行自主学习,从而优化关节力矩控制策略,降低模型不确定性的影响,提高控制精度。
附图说明
图1为本发明所提供的MATD3算法流程图;
图2为本发明所提供的MATD3算法与环境交互流程图;
图3为本发明一个实施例的训练时机械臂1的多组累积奖励值聚合图;
图4为本发明一个实施例的训练时机械臂2的多组累积奖励值聚合图;
图5为本发明一个实施例的测试时机械臂末端与目标位置距离的变化曲线;
图6为本发明一个实施例的测试时机械臂各关节角度变化曲线;
图7为本发明一个实施例的测试时机械臂1输出控制力矩曲线;
图8为本发明一个实施例的测试时机械臂2输出控制力矩曲线。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
如图1至图8所示,本发明公开了一种新的基于MATD3算法的双臂机器人协同运动控制方法,包括如下步骤:
步骤1,针对双臂机器人系统,建立机械臂模型,包括机器人运动学及动力学方程。
步骤1.1,首先建立双臂六自由度机器人关节坐标,将机器人左、右臂的坐标统一到基坐标系下,根据坐标变换关系建立机械臂1的运动学方程:
;
机械臂2的运动学方程:
。
其中,表示机械臂j从第i-1个连杆变换到第i个连杆所要经过的转移矩阵,表示第j个机械臂的第i个关节,i=1,…,6,j=1,2。
定义机械臂1末端执行器的位置坐标,末端执行器1运动的目标位置在基坐标系/>下的位置坐标/>,其中,/>分别为机械臂1末端执行器的x轴坐标、y轴坐标、z轴坐标,/>分别为机械臂1末端执行器目标位置的x轴坐标、y轴坐标、z轴坐标。同理,定义机械臂2末端执行器的位置坐标/>,末端执行器2运动的目标位置坐标/>,其中,/>分别为机械臂2末端执行器的x轴坐标、y轴坐标、z轴坐标,/>分别为机械臂2末端执行器目标运动位置的x轴坐标、y轴坐标、z轴坐标。
步骤1.2,建立双臂机器人动力学方程如下:
,
其中,分别为机械臂的关节角度、角速度、角加速度,分别代表机械臂的转动惯量矩阵、科氏力矩阵和重力矩阵,/>为机械臂各关节的控制力矩矩阵。
步骤2,MATD3算法网络设计与训练。MATD3算法框架如图1所示,共有M个智能体,对每一个智能体分别建立一组策略-评价(Actor-Critic)网络,对于第n个智能体, 每组策略-评价网络包括一个策略网络,网络参数为/>、一个目标策略网络,网络参数为/>、两个评价网络,网络参数分别为/>、两个目标评价网络,网络参数分别为/>,训练时算法的更新步骤如下:
步骤2.1,对于第n个智能体,其策略网络会根据自身采样观察到的状态信息制定策略,根据策略选择Y个动作组成动作对:/>。
步骤2.2,采用CEM(Cross-Entropy Method)算法对动作对进行搜索,通过评价网络评估动作价值,评价网络会根据所有智能体的状态计算动作的价值,即:、/>,/>。CEM算法会选择价值最高的动作作为当前时刻智能体所执行的动作,即。
步骤2.3,每个智能体执行当前动作并与环境交互后,得到下一状态,产生执行动作后的奖励值/>。
步骤2.4,智能体将经验样本存放到经验回放池D中,作为训练网络的数据。
步骤2.5,从经验回放池D中随机抽取N组经验样本,将其作为训练策略网络和评价网络的mini-batch数据,对mini-batch中第n个智能体的第i组样本记为。
步骤2.6,目标策略网络根据中的下一状态/>,结合目标策略网络参数/>产生下一动作/>,分别传入两个目标评价网络中,目标评价网络会根据所有智能体的状态信息评估动作/>的价值,/>、。智能体会选择较小的动作价值作为计算目标动作价值/>的参数,即:
,
其中为折扣因子。
步骤2.7,策略网络结合样本中的产生动作/>,传入两个评价网络中,分别计算相应的动作价值/>、/>,智能体会选择较小的动作价值作为计算评价网络 Loss 函数的参数,即:
。
步骤2.8,分别计算两个评价网络的Loss 函数对于网络参数的梯度:,并根据时序差分法优化更新评价网络的网络参数。
步骤2.8,通过函数J计算策略网络的优劣,即:
,
其中,为表示状态/>分布情况的函数。
步骤2.9:计算策略网络的J函数对于网络参数的梯度:,并根据确定性策略梯度法优化更新策略网络参数。
步骤2.10:分别对目标策略网络和目标评价网络的网络参数进行软更新,其中通常取值为0.001,
。
步骤3,基于MATD3的双臂机器人协同运动控制方法,包括状态空间选择、动作空间设计,奖励函数设计,MATD3算法网络训练。
步骤3.1,选择机械臂1的状态空间:
,
其中:分别为机械臂1的关节角度、关节角速度,/>为机械臂1末端执行器与目标位置1之间的距离。选择机械臂2的状态空间:
,
其中:分别为机械臂2的关节角度、关节角速度,/>为机械臂2末端执行器与目标位置2之间的距离。
设计机械臂1动作空间,其中分别为机械臂1的六个关节的控制力矩,设计机械臂2动作空间,其中/>分别为机械臂2的六个关节的控制力矩。
步骤3.2,建立控制目标,即双臂机器人末端执行机构协同到达空间中目标位置,基于此设计奖励值如下,机械臂1:
,
机械臂2:
,其中为权重系数,/>、/>表示控制输出量A各项的平方和,即机械臂各关节力矩的平方和,该项可以避免机械臂关节力矩过大。
步骤3.3,MATD3算法训练。在训练过程中,强化学习算法会使机械臂随机探索动作空间,为了避免探索时间过长,导致机械臂出现不稳定状态、奖励值无法收敛等情况,定义机械臂与环境的最大交互步数L,当机械臂与环境交互L次后,将初始化当前环境与机械臂状态,重新开始新一轮探索。同时定义训练的最大步数S,机械臂与环境交互S次后,训练结束。网络训练过程中算法与环境的交互流程如图2所示,步骤如下:
步骤3.3.1,初始化算法参数,随机生成神经网络参数,确定L与S的取值,其中L≤S。
步骤3.3.2,初始化仿真训练环境,设定机器人初始位置姿态,以及目标位置。
步骤3.3.3,每个机械臂获取当前状态信息,分别获取机械臂当前关节角度,关节角速度等信息,作为算法的状态空间。
步骤3.3.4,由MATD3算法的策略网络选择当前动作。
步骤3.3.5,由机器人系统执行当前动作,并与环境交互。根据步骤1.2中的机器人动力学模型计算下一时刻的关节角度,角速度值,得到机械臂新的状态。
步骤3.3.6,根据步骤1.1中的机器人运动学模型计算末端执行器的位置坐标,计算与目标位置的距离,,并计算奖励值函数/>的值。
步骤3.3.7,将当前状态信息、新的状态信息、奖励值、动作等信息参数组成状态对,储存到经验回放池中。
步骤3.3.8,智能体从经验池中随机抽取一定数量的样本,使用梯度下降等方法更新自身网络参数。
步骤3.3.9,判断当前步数是否小于L,如果是,则重复步骤3.3.3,继续获取机械臂的状态信息,执行动作;否则进入下一步骤。
步骤3.3.10,判断当前步数是否小于S,如果是,则重复步骤3.3.2,初始化当前环境和机械臂状态,开启新一轮探索;否则结束训练。
步骤4,基于MATD3的双臂机器人协同运动控制。在步骤3完成训练后,算法将会保存训练成功的神经网络模型。在应用中机械臂将会利用这一模型进行运动控制,步骤如下:
步骤4.1,初始化环境,设定机器人初始位置姿态,以及目标位置。
步骤4.2,每个机械臂获取当前状态信息,分别获取机械臂当前关节角度,关节角速度。
步骤4.3,由MATD3算法选择当前动作。
步骤4.4,由机器人系统执行当前动作,并与环境交互。根据步骤1.2中的机械臂动力学模型计算下一时刻的关节角度、角速度,得到机械臂新的状态。
步骤4.5,根据步骤1.1中的机器人运动学模型计算末端执行器的位置坐标,计算与目标位置的距离。
步骤4.6,判断机械臂末端执行器是否到达目标位置,如果是,结束控制,否则重复步骤4.2。
本发明实施例具体如下:使用Spinning Up框架设计算法,采用gym环境设计仿真场景,基于MuJoCo引擎建立双臂机器人仿真模型,程序使用Python3.6语言编写。选择UR5机器人作搭建双臂机器人仿真模型,两个机械臂的位置和初始构型是对称的,为方便控制,分别选取UR5机器人的前三个关节作为控制变量,固定UR5机器人的后三个关节角度为0。设置机器人1的初始关节角度,机器人2的初始关节角度,设置器人1目标位置坐标/>,机器人2目标位置坐标/>,由MuJoCo计算机械臂1与机械臂2末端执行器的位置坐标/>、/>,位置坐标的单位均为m。选择机械臂1的状态空间:/>,其中:分别为机械臂1的前三个关节角度、前三个关节角速度,/>为机械臂1末端执行器与目标位置1之间的距离。选择机械臂2的状态空间,其中:/>分别为机械臂2的前三个关节角度、前三个关节角速度,/>为机械臂2末端执行器与目标位置2之间的距离。初始化算法的各项参数如下:各个网络参数由随机数生成函数生成,折扣因子/>,机械臂与环境的最大交互步数/>,训练的最大步数/>。
根据步骤3对算法进行训练,设计训练目标为机械臂末端执行器快速到达指定位置,设计奖励值如下:
机械臂1:,
机械臂2:,
其中,
。
训练结果如图3与图4所示,可以看到累积奖励值成功收敛到了一个较小的值,说明训练成功。
根据步骤4对训练成功模型进行测试,不改变其他仿真环境,测试结果如下:
如图5所示,机械臂1与机械臂2末端执行器与目标位置之间的距离非常接近,基本到达目标位置,实现了预定控制目标。
如图6所示,机械臂运动平滑且简洁,且没有因路径代价的优化导致角度的剧烈变化。
如图7-图8所示,算法输出的控制力矩虽有波动,但变化范围较小,与机械臂控制需求相符。
最后应说明的是:以上各实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述各实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施,或者对其中部分或者全部技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的范围。
Claims (2)
1.一种基于MATD3算法的双臂机器人协同运动控制方法,其特征在于,包括以下步骤:
步骤1,针对双臂机器人系统,建立机械臂模型,包括机器人运动学及动力学方程;
步骤2,建立MATD3算法网络,并设计网络结构及参数更新规则,具体的,对一个智能体分别建立一组策略-评价网络,包括一个当前策略网络、一个目标策略网络、两个当前评价网络、两个目标评价网络,设计网络参数包括当前策略网络参数目标策略网络参数两个当前评价网络参数/>两个目标评价网络参数/>具体的,所述MATD3算法网络为:
步骤2.1.1,对于第n个智能体,其当前策略网络会根据自身采样观察到的状态信息sn,根据策略选择Y个动作组成动作对:/>
步骤2.1.2,智能体采用CEM算法对所述动作对进行搜索,通过当前评价网络根据所有智能体的状态计算动作的价值,并且输出价值最高的动作,表示为:其中,s1,...sn...,sM为状态信息,/>为动作对,/>为动作的价值,j为动作的个数;
步骤2.1.3,每个智能体执行当前动作并与环境交互后,得到下一状态产生执行动作后的奖励值rn;智能体将经验样本/>存放到经验回放池D中,作为训练网络的数据;
所述MATD3算法网络参数更新规则为:
步骤2.2.1,智能体从经验回放池D中选择若干样本进行训练,将其中第n个智能体的第i组样本记为:
步骤2.2.2,目标策略网络根据下一状态产生下一动作/>分别传入两个目标评价网络中,目标评价网络根据所有智能体的状态计算动作的价值智能体选择其中较小的动作价值计算目标动作价值/>步骤2.2.3,基于/>计算评价网络的Loss函数,更新当前评价网络的网络参数包括:
步骤2.2.3.1,基于计算当前评价网络的Loss函数的梯度/>其中参数L表示为/>步骤2.2.3.2,基于动作的价值构造函数J来计算当前策略网络的优劣,函数J表示为:式中/>表示状态/>分布情况的函数;
步骤2.2.3.3,计算当前策略网络的J函数对于网络参数的梯度根据确定性策略梯度法优化更新策略网络参数;
步骤2.2.4,使用更新后的评价网络对目标评价网络的网络参数进行软更新:τ为固定值;
步骤3,训练面向双臂机器人协同控制的MATD3网络模型,网络包括两个智能体,选择每个智能体的状态空间、动作空间和奖励函数,并给出网络训练流程,具体的,选择每个智能体的状态空间、动作空间和奖励函数具体为:选择机械臂1的状态空间s1,选择机械臂2的状态空间s2,设计机械臂1动作空间A1,设计机械臂2动作空间A2,设计奖励值:
其中为权重系数,norm(A1)、norm(A2)表示控制输出量A各项的平方和,即机械臂各关节力矩的平方和;
MATD3算法网络训练具体步骤为:
步骤3.3.1,初始化算法参数,随机生成神经网络参数,确定机械臂与环境的最大交互步数L与机械臂与环境交互次数S的取值,其中L≤S;
步骤3.3.2,初始化仿真训练环境,设定机器人初始位置姿态,以及目标位置;步骤3.3.3,每个机械臂获取当前状态信息,分别获取机械臂当前关节角度,关节角速度信息,作为算法的状态空间;
步骤3.3.4,由MATD3算法的策略网络选择当前动作;
步骤3.3.5,由机器人系统执行当前动作,并与环境交互;根据机器人动力学模型计算下一时刻的关节角度,角速度值,得到机械臂新的状态;
步骤3.3.6,根据机器人运动学模型计算末端执行器的位置坐标,计算与目标位置的距离 并计算奖励值函数r1、r2的值;步骤3.3.7,将当前状态信息、新的状态信息、奖励值、动作这些信息参数组成状态对,储存到经验回放池中;
步骤3.3.8,智能体从经验池中随机抽取一定数量的样本,使用梯度下降方法更新自身网络参数;
步骤3.3.9,判断当前步数是否小于L,如果是,则重复步骤3.3.3,继续获取机械臂的状态信息,执行动作;否则进入下一步骤;
步骤3.3.10,判断当前步数是否小于S,如果是,则重复步骤3.3.2,初始化当前环境和机械臂状态,开启新一轮探索;否则结束训练;
步骤4,基于MATD3的双臂机器人协同运动控制,基于已训练的模型进行双臂机器人协同运动控制,具体的,步骤4.1,初始化环境,设定机器人初始位置姿态,以及目标位置;
步骤4.2,每个机械臂获取当前状态信息,分别获取机械臂当前关节角度,关节角速度;
步骤4.3,由MATD3算法选择当前动作;
步骤4.4,由机器人系统执行当前动作,并与环境交互,根据机械臂动力学模型计算下一时刻的关节角度、角速度,得到机械臂新的状态;
步骤4.5,根据机器人运动学模型计算末端执行器的位置坐标,计算与目标位置的距离;
步骤4.6,判断机械臂末端执行器是否到达目标位置,如果是,结束控制,否则重复步骤4.2。
2.根据权利要求1所述的基于MATD3算法的双臂机器人协同运动控制方法,其特征在于,所述步骤1中的双臂机器人系统模型,包括机械臂1的运动学模型:机械臂2的运动学模型:其中,/>表示机械臂j从第i-1个连杆变换到第i个连杆所要经过的转移矩阵,/>表示第j个机械臂的第i个关节,i=1,...,6,j=1,2;
机器人系统的动力学模型:其中,q、/>分别为机械臂的关节角度、角速度、角加速度,M(q)、/>g(q)分别代表机械臂的转动惯量矩阵、科氏力矩阵和重力矩阵,τ为机械臂各关节的控制力矩矩阵。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311363311.XA CN117103282B (zh) | 2023-10-20 | 2023-10-20 | 一种基于matd3算法的双臂机器人协同运动控制方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311363311.XA CN117103282B (zh) | 2023-10-20 | 2023-10-20 | 一种基于matd3算法的双臂机器人协同运动控制方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN117103282A CN117103282A (zh) | 2023-11-24 |
CN117103282B true CN117103282B (zh) | 2024-02-13 |
Family
ID=88796870
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202311363311.XA Active CN117103282B (zh) | 2023-10-20 | 2023-10-20 | 一种基于matd3算法的双臂机器人协同运动控制方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN117103282B (zh) |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117697763A (zh) * | 2024-01-23 | 2024-03-15 | 北京智源人工智能研究院 | 一种基于大模型的双臂操作任务学习方法和系统 |
CN117644520B (zh) * | 2024-01-29 | 2024-05-10 | 北京市农林科学院智能装备技术研究中心 | 多臂机器人采摘任务规划方法、装置、电子设备及介质 |
Citations (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105034008A (zh) * | 2015-09-15 | 2015-11-11 | 南京航空航天大学 | 双机器人协同自动装配的智能化柔性生产线及其运行方法 |
CN113364495A (zh) * | 2021-05-25 | 2021-09-07 | 西安交通大学 | 一种多无人机轨迹和智能反射面相移联合优化方法及系统 |
CN113741449A (zh) * | 2021-08-30 | 2021-12-03 | 南京信息工程大学 | 一种面向海空协同观测任务的多智能体控制方法 |
CN116027807A (zh) * | 2023-02-01 | 2023-04-28 | 南京航空航天大学 | 一种异构无人机群协同电力巡检方法 |
CN116166030A (zh) * | 2023-03-06 | 2023-05-26 | 中国工商银行股份有限公司 | 路径规划方法、装置、存储介质及电子设备 |
CN116352715A (zh) * | 2023-04-12 | 2023-06-30 | 江苏大学 | 一种基于深度强化学习的双臂机器人协同运动控制方法 |
CN116362289A (zh) * | 2023-02-17 | 2023-06-30 | 大连海事大学 | 一种基于BiGRU结构的改进MATD3多机器人协同围捕方法 |
CN116430888A (zh) * | 2023-01-16 | 2023-07-14 | 中国人民解放军国防科技大学 | 多无人机空战策略生成方法、装置和计算机设备 |
CN116781788A (zh) * | 2023-08-24 | 2023-09-19 | 清华大学 | 服务决策方法以及服务决策装置 |
CN116820093A (zh) * | 2023-06-02 | 2023-09-29 | 北京理工大学 | 基于多智能体强化学习的多车协同侦测系统轨迹规划方法 |
-
2023
- 2023-10-20 CN CN202311363311.XA patent/CN117103282B/zh active Active
Patent Citations (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105034008A (zh) * | 2015-09-15 | 2015-11-11 | 南京航空航天大学 | 双机器人协同自动装配的智能化柔性生产线及其运行方法 |
CN113364495A (zh) * | 2021-05-25 | 2021-09-07 | 西安交通大学 | 一种多无人机轨迹和智能反射面相移联合优化方法及系统 |
CN113741449A (zh) * | 2021-08-30 | 2021-12-03 | 南京信息工程大学 | 一种面向海空协同观测任务的多智能体控制方法 |
CN116430888A (zh) * | 2023-01-16 | 2023-07-14 | 中国人民解放军国防科技大学 | 多无人机空战策略生成方法、装置和计算机设备 |
CN116027807A (zh) * | 2023-02-01 | 2023-04-28 | 南京航空航天大学 | 一种异构无人机群协同电力巡检方法 |
CN116362289A (zh) * | 2023-02-17 | 2023-06-30 | 大连海事大学 | 一种基于BiGRU结构的改进MATD3多机器人协同围捕方法 |
CN116166030A (zh) * | 2023-03-06 | 2023-05-26 | 中国工商银行股份有限公司 | 路径规划方法、装置、存储介质及电子设备 |
CN116352715A (zh) * | 2023-04-12 | 2023-06-30 | 江苏大学 | 一种基于深度强化学习的双臂机器人协同运动控制方法 |
CN116820093A (zh) * | 2023-06-02 | 2023-09-29 | 北京理工大学 | 基于多智能体强化学习的多车协同侦测系统轨迹规划方法 |
CN116781788A (zh) * | 2023-08-24 | 2023-09-19 | 清华大学 | 服务决策方法以及服务决策装置 |
Non-Patent Citations (5)
Title |
---|
Youssef, M.S. ; Adel hassan, N. ; El-badawy, A..《 2022 19th International Conference on Electrical Engineering, Computing Science and Automatic Control (CCE)》.2023,全文. * |
Zhou, Conghang etc..《APPLED SCIENCES-BASEL》.2023,全文. * |
于丹等.《 2022中国自动化大会论文集》.2022,全文. * |
于丹等.《哈尔滨工程大学学报》.2022,全文. * |
张栋等.《航空兵器》.2023,全文. * |
Also Published As
Publication number | Publication date |
---|---|
CN117103282A (zh) | 2023-11-24 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN117103282B (zh) | 一种基于matd3算法的双臂机器人协同运动控制方法 | |
CN107234617B (zh) | 一种避障任务无关人工势场引导的避障路径规划方法 | |
CN108241339B (zh) | 仿人机械臂的运动求解和构型控制方法 | |
WO2020207219A1 (zh) | 一种利用环境预测优化非模型机器人多轴孔装配控制方法 | |
CN105159096A (zh) | 一种基于粒子群算法的冗余度空间机械臂关节力矩优化方法 | |
JP2022061022A (ja) | 力及びトルク誘導ロボット組立のための技術 | |
CN115446867B (zh) | 一种基于数字孪生技术的工业机械臂控制方法及系统 | |
Laezza et al. | Reform: A robot learning sandbox for deformable linear object manipulation | |
CN110014428A (zh) | 一种基于强化学习的时序逻辑任务规划方法 | |
CN113043278B (zh) | 一种基于改进型鲸鱼搜索方法的机械臂轨迹规划方法 | |
CN112847235B (zh) | 基于深度强化学习的机器人分阶力引导装配方法及系统 | |
CN113524186A (zh) | 基于演示示例的深度强化学习双臂机器人控制方法及系统 | |
CN115464659A (zh) | 一种基于视觉信息的深度强化学习ddpg算法的机械臂抓取控制方法 | |
KR20240052808A (ko) | 그래프 신경망을 이용한 다중 로봇 조정 | |
Ying et al. | Trajectory generation for multiprocess robotic tasks based on nested dual-memory deep deterministic policy gradient | |
CN115366099A (zh) | 基于正向运动学的机械臂深度确定性策略梯度训练方法 | |
Yan et al. | Hierarchical policy learning with demonstration learning for robotic multiple peg-in-hole assembly tasks | |
Ying et al. | Extensively explored and evaluated actor-critic with expert-guided policy learning and fuzzy feedback reward for robotic trajectory generation | |
CN117601120A (zh) | 自适应变阻抗控制方法和装置、电子设备及存储介质 | |
CN109711527B (zh) | 一种基于粒子群优化算法的机器人操纵方法 | |
CN117086882A (zh) | 一种基于机械臂姿态活动自由度的强化学习方法 | |
CN117245666A (zh) | 基于深度强化学习的动态目标快速抓取规划方法及系统 | |
CN116834014A (zh) | 一种空间多臂机器人捕获非合作目标的智能协同控制方法和系统 | |
WO2019095108A1 (zh) | 机器人的模仿学习方法、装置、机器人及存储介质 | |
Horgan et al. | Evolving Neural Networks for Robotic Arm Control |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |