CN113910241A - 一种多人零和博弈可重构机器人最优控制方法及系统 - Google Patents
一种多人零和博弈可重构机器人最优控制方法及系统 Download PDFInfo
- Publication number
- CN113910241A CN113910241A CN202111331549.5A CN202111331549A CN113910241A CN 113910241 A CN113910241 A CN 113910241A CN 202111331549 A CN202111331549 A CN 202111331549A CN 113910241 A CN113910241 A CN 113910241A
- Authority
- CN
- China
- Prior art keywords
- control law
- equation
- hamilton
- dynamic model
- performance index
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 49
- 238000013528 artificial neural network Methods 0.000 claims abstract description 25
- 238000012545 processing Methods 0.000 claims abstract description 19
- 230000008878 coupling Effects 0.000 claims abstract description 18
- 238000010168 coupling process Methods 0.000 claims abstract description 18
- 238000005859 coupling reaction Methods 0.000 claims abstract description 18
- 238000005457 optimization Methods 0.000 claims abstract description 17
- 230000001133 acceleration Effects 0.000 claims abstract description 11
- 238000004132 cross linking Methods 0.000 claims abstract description 11
- 238000006243 chemical reaction Methods 0.000 claims description 3
- 238000010276 construction Methods 0.000 claims description 3
- 239000011159 matrix material Substances 0.000 description 5
- 230000008569 process Effects 0.000 description 4
- MFRCZYUUKMFJQJ-UHFFFAOYSA-N 1,4-dioxane-2,5-dione;1,3-dioxan-2-one Chemical compound O=C1OCCCO1.O=C1COC(=O)CO1 MFRCZYUUKMFJQJ-UHFFFAOYSA-N 0.000 description 2
- 230000004913 activation Effects 0.000 description 2
- 238000006880 cross-coupling reaction Methods 0.000 description 2
- 238000002474 experimental method Methods 0.000 description 2
- 230000009467 reduction Effects 0.000 description 2
- 230000002829 reductive effect Effects 0.000 description 2
- 230000003068 static effect Effects 0.000 description 2
- 238000012795 verification Methods 0.000 description 2
- 230000008859 change Effects 0.000 description 1
- 239000003638 chemical reducing agent Substances 0.000 description 1
- 239000003795 chemical substances by application Substances 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 230000001447 compensatory effect Effects 0.000 description 1
- 238000011217 control strategy Methods 0.000 description 1
- 230000001419 dependent effect Effects 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000011478 gradient descent method Methods 0.000 description 1
- 230000002452 interceptive effect Effects 0.000 description 1
- 230000000670 limiting effect Effects 0.000 description 1
- 230000036961 partial effect Effects 0.000 description 1
- 239000013641 positive control Substances 0.000 description 1
- 230000000750 progressive effect Effects 0.000 description 1
Images
Classifications
-
- B—PERFORMING OPERATIONS; TRANSPORTING
- B25—HAND TOOLS; PORTABLE POWER-DRIVEN TOOLS; MANIPULATORS
- B25J—MANIPULATORS; CHAMBERS PROVIDED WITH MANIPULATION DEVICES
- B25J9/00—Programme-controlled manipulators
- B25J9/16—Programme controls
- B25J9/1602—Programme controls characterised by the control system, structure, architecture
- B25J9/1607—Calculation of inertia, jacobian matrixes and inverses
-
- B—PERFORMING OPERATIONS; TRANSPORTING
- B25—HAND TOOLS; PORTABLE POWER-DRIVEN TOOLS; MANIPULATORS
- B25J—MANIPULATORS; CHAMBERS PROVIDED WITH MANIPULATION DEVICES
- B25J9/00—Programme-controlled manipulators
- B25J9/16—Programme controls
- B25J9/1628—Programme controls characterised by the control loop
-
- B—PERFORMING OPERATIONS; TRANSPORTING
- B25—HAND TOOLS; PORTABLE POWER-DRIVEN TOOLS; MANIPULATORS
- B25J—MANIPULATORS; CHAMBERS PROVIDED WITH MANIPULATION DEVICES
- B25J9/00—Programme-controlled manipulators
- B25J9/16—Programme controls
- B25J9/1628—Programme controls characterised by the control loop
- B25J9/163—Programme controls characterised by the control loop learning, adaptive, model based, rule based expert control
Landscapes
- Engineering & Computer Science (AREA)
- Robotics (AREA)
- Mechanical Engineering (AREA)
- Physics & Mathematics (AREA)
- Mathematical Physics (AREA)
- Automation & Control Theory (AREA)
- Feedback Control In General (AREA)
Abstract
本发明涉及一种多人零和博弈可重构机器人最优控制方法及系统,包括:根据可重构机器人的转动惯量、加速比、摩擦力和可重构机器人子系统之间的交联耦合项构建子系统的动力学模型;根据全局位置误差和动力学模型利用多人零和博弈方法构建性能指标函数;根据性能指标函数和动力学模型利用贝尔曼最优性原理得到哈密顿‑雅克比‑埃塞克方程;通过哈密顿‑雅克比‑埃塞克方程和动力学模型确定补偿控制律;利用神经网络对性能指标函数进行处理,得到近似权值;利用近似权值和哈密顿‑雅克比‑埃塞克方程得到优化控制律;根据补偿控制律和优化控制律确定可重构机器人的最优控制律。本发明能够提高机器人系统的准确性和稳定性。
Description
技术领域
本发明涉及机器人控制领域,特别是涉及一种多人零和博弈可重构机器人最优控制方法及系统。
背景技术
可重构机器人是一类具有标准模块与接口,可根据不同的任务需求对自身构形进行重新组合与配置的机器人。根据“模块化”与“可重构”的设计理念,可重构机器人的每个关节模块均包含了通讯、传感、驱动、控制等单元,通过对这些模块进行重新配置可以使机器人呈现多种装配构形来完成不同的工作任务,从而表现出传统机器人所不具有的优势。在可重构机器人的使用过程中,交联耦合项是其固有的性质,由于其高度复杂非线性所以难以对其进行精确建模,这样就会影响可重构机器人控制的准确性、最优性以及稳定性。因此,处理可重构机器人系统的交联耦合项是十分必要的。
博弈理论关注了多参与者交互系统中的动态决策过程,根据最优控制的观点,一个完整的博弈理论包含了三个要素:参与者(控制器或智能体)、控制策略以及代价函数。根据参与者之间的关系,博弈可以分为合作博弈与非合作博弈。在非合作博弈中,理想的是所有参与者同时采取最优的策略来获得纳什均衡,其中任何一个参与者的结果不能通过单边改变来改善,零和博弈是完全非合作博弈。目前,并未有将零和博弈应用到可重构机器人系统的控制上,解决可重构机器人的控制问题。
发明内容
本发明的目的是提供一种多人零和博弈可重构机器人最优控制方法及系统,以提高机器人系统的准确性和稳定性。
为实现上述目的,本发明提供了如下方案:
一种多人零和博弈可重构机器人最优控制方法,包括:
根据可重构机器人的转动惯量、加速比、摩擦力和所述可重构机器人子系统之间的交联耦合项构建子系统的动力学模型;
根据全局位置误差和所述动力学模型利用多人零和博弈方法构建性能指标函数;所述全局位置误差包括所述可重构机器人子系统的位置误差以及速度误差;
根据所述性能指标函数和所述动力学模型利用贝尔曼最优性原理得到哈密顿-雅克比-埃塞克方程;
通过所述哈密顿-雅克比-埃塞克方程和所述动力学模型确定补偿控制律;
利用神经网络对所述性能指标函数进行处理,得到近似权值;
利用所述近似权值和所述哈密顿-雅克比-埃塞克方程得到优化控制律;
根据所述补偿控制律和所述优化控制律确定所述可重构机器人的最优控制律。
可选地,所述根据全局位置误差和所述动力学模型利用多人零和博弈方法构建性能指标函数,具体包括:
根据所述动力学模型、可重构机器人子系统的位置分量及速度分量确定子系统的状态空间;
基于多人零和博弈方法利用漂移动力学对所述状态空间进行扩张,得到扩张函数;
根据所述扩张函数和所述全局位置误差构建性能指标函数。
可选地,所述根据所述性能指标函数和所述动力学模型利用贝尔曼最优性原理得到哈密顿-雅克比-埃塞克方程,具体包括:
将所述动力学模型进行转换,得到机器人速度动力学模型;
根据所述性能指标函数对所述机器人速度动力学模型进行最小化处理,得哈密顿函数;
根据所述哈密顿函数利用贝尔曼最优性原理得到哈密顿-雅克比-埃塞克方程。
可选地,所述通过所述哈密顿-雅克比-埃塞克方程和所述动力学模型确定补偿控制律,具体包括:
根据所述哈密顿-雅克比-埃塞克方程和可重构机器人子系统的鞍点确定子系统的第一控制律;
根据所述第一控制律和所述动力学模型中的子系统的设定模型确定补偿控制律。
可选地,所述利用所述近似权值和所述哈密顿-雅克比-埃塞克方程得到优化控制律,具体包括:
利用所述神经网络对所述性能指标函数的梯度进行处理,得到近似梯度;
根据所述近似权值和所述性能指标函数建立评判神经网络;
根据所述评判神经网络和所述第一控制律得到第二控制律;
根据所述第二控制律、所述哈密顿-雅克比-埃塞克方程、所述性能指标函数和所述近似梯度得到优化控制律。
可选地,所述根据所述补偿控制律和所述优化控制律确定所述可重构机器人的最优控制律,具体包括:
对所述补偿控制律和所述优化控制律进行求和,得到所述可重构机器人的最优控制律。
一种多人零和博弈可重构机器人最优控制系统,包括:
子系统的动力学模型构建模块,用于根据可重构机器人的转动惯量、加速比、摩擦力和所述可重构机器人子系统之间的交联耦合项构建子系统的动力学模型;
性能指标函数构建模块,用于根据全局位置误差和所述动力学模型利用多人零和博弈方法构建性能指标函数;所述全局位置误差包括所述可重构机器人子系统的位置误差以及速度误差;
哈密顿-雅克比-埃塞克方程构建模块,用于根据所述性能指标函数和所述动力学模型利用贝尔曼最优性原理得到哈密顿-雅克比-埃塞克方程;
补偿控制律确定模块,用于通过所述哈密顿-雅克比-埃塞克方程和所述动力学模型确定补偿控制律;
近似权值确定模块,用于利用神经网络对所述性能指标函数进行处理,得到近似权值;
优化控制律确定模块,用于利用所述近似权值和所述哈密顿-雅克比-埃塞克方程得到优化控制律;
最优控制律确定模块,用于根据所述补偿控制律和所述优化控制律确定所述可重构机器人的最优控制律。
可选地,所述性能指标函数构建模块,具体包括:
子系统的状态空间确定单元,用于根据所述动力学模型、可重构机器人子系统的位置分量及速度分量确定子系统的状态空间;
扩张单元,用于基于多人零和博弈方法利用漂移动力学对所述状态空间进行扩张,得到扩张函数;
性能指标函数构建单元,用于根据所述扩张函数和所述全局位置误差构建性能指标函数。
可选地,所述哈密顿-雅克比-埃塞克方程构建模块,具体包括:
转换单元,用于将所述动力学模型进行转换,得到机器人速度动力学模型;
最小化处理单元,用于根据所述性能指标函数对所述机器人速度动力学模型进行最小化处理,得哈密顿函数;
哈密顿-雅克比-埃塞克方程确定单元,用于根据所述哈密顿函数利用贝尔曼最优性原理得到哈密顿-雅克比-埃塞克方程。
可选地,所述补偿控制律确定模块,具体包括:
第一控制律确定单元,用于根据所述哈密顿-雅克比-埃塞克方程和可重构机器人子系统的鞍点确定子系统的第一控制律;
补偿控制律确定单元,用于根据所述第一控制律和所述动力学模型中的子系统的设定模型确定补偿控制律。
根据本发明提供的具体实施例,本发明公开了以下技术效果:
本发明提供的多人零和博弈可重构机器人最优控制方法和系统,根据可重构机器人的转动惯量、加速比、摩擦力和可重构机器人子系统之间的交联耦合项构建子系统的动力学模型;根据全局位置误差和动力学模型利用多人零和博弈方法构建性能指标函数;根据性能指标函数和动力学模型利用贝尔曼最优性原理得到哈密顿-雅克比-埃塞克方程;通过哈密顿-雅克比-埃塞克方程和动力学模型确定补偿控制律;利用神经网络对性能指标函数进行处理,得到近似权值;利用近似权值和哈密顿-雅克比-埃塞克方程得到优化控制律;根据补偿控制律和优化控制律确定可重构机器人的最优控制律。在位置跟踪方面,采用了多人零和博弈消除了交联耦合项的影响,改善了因为存在交联耦合项的可重构机器人系统跟踪性能低的情况,加快系统的跟踪速度,并且使关节位置的稳态误差减小,从而提高机器人系统的准确性和稳定性。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1为本发明提供的多人零和博弈可重构机器人最优控制方法流程图;
图2为本发明提供的多人零和博弈可重构机器人最优控制方法简化流程图;
图3为本发明提供的多人零和博弈可重构机器人最优控制系统示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本发明的目的是提供一种多人零和博弈可重构机器人最优控制方法及系统,以提高机器人系统的准确性和稳定性。
为使本发明的上述目的、特征和优点能够更加明显易懂,下面结合附图和具体实施方式对本发明作进一步详细的说明。
如图1所示,本发明提供的多人零和博弈可重构机器人最优控制方法,包括:
步骤101:根据可重构机器人的转动惯量、加速比、摩擦力和所述可重构机器人子系统之间的交联耦合项构建子系统的动力学模型。
步骤102:根据全局位置误差和所述动力学模型利用多人零和博弈方法构建性能指标函数;所述全局位置误差包括所述可重构机器人子系统的位置误差以及速度误差。
步骤103:根据所述性能指标函数和所述动力学模型利用贝尔曼最优性原理得到哈密顿-雅克比-埃塞克方程。
步骤104:通过所述哈密顿-雅克比-埃塞克方程和所述动力学模型确定补偿控制律。
步骤105:利用神经网络对所述性能指标函数进行处理,得到近似权值。
步骤106:利用所述近似权值和所述哈密顿-雅克比-埃塞克方程得到优化控制律。
步骤107:根据所述补偿控制律和所述优化控制律确定所述可重构机器人的最优控制律。
其中,所述步骤102根据全局位置误差和所述动力学模型利用多人零和博弈方法构建性能指标函数,具体包括:
根据所述动力学模型、可重构机器人子系统的位置分量及速度分量确定子系统的状态空间。
基于多人零和博弈方法利用漂移动力学对所述状态空间进行扩张,得到扩张函数。
根据所述扩张函数和所述全局位置误差构建性能指标函数。
其中,所述步骤103根据所述性能指标函数和所述动力学模型利用贝尔曼最优性原理得到哈密顿-雅克比-埃塞克方程,具体包括:
将所述动力学模型进行转换,得到机器人速度动力学模型。
根据所述性能指标函数对所述机器人速度动力学模型进行最小化处理,得哈密顿函数。
根据所述哈密顿函数利用贝尔曼最优性原理得到哈密顿-雅克比-埃塞克方程。
其中,所述步骤104通过所述哈密顿-雅克比-埃塞克方程和所述动力学模型确定补偿控制律,具体包括:
根据所述哈密顿-雅克比-埃塞克方程和可重构机器人子系统的鞍点确定子系统的第一控制律。
根据所述第一控制律和所述动力学模型中的子系统的设定模型确定补偿控制律。
其中,所述步骤106利用所述近似权值和所述哈密顿-雅克比-埃塞克方程得到优化控制律,具体包括:
利用所述神经网络对所述性能指标函数的梯度进行处理,得到近似梯度。
根据所述近似权值和所述性能指标函数建立评判神经网络。
根据所述评判神经网络和所述第一控制律得到第二控制律。
根据所述第二控制律、所述哈密顿-雅克比-埃塞克方程、所述性能指标函数和所述近似梯度得到优化控制律。
其中,所述步骤107根据所述补偿控制律和所述优化控制律确定所述可重构机器人的最优控制律,具体包括:
对所述补偿控制律和所述优化控制律进行求和,得到所述可重构机器人的最优控制律。
本发明还提供一种多人零和博弈可重构机器人最优控制方法在实际应用中的具体方式,如图2所示,具体过程如下:
该方法首先建立可重构机器人系统的动力学模型,其次构建多人零和博弈的性能指标函数,接下来求解哈密顿-雅克比-埃塞克方程,最后通过实验验证所提出控制方法的有效性。
1、可重构机器人动力学模型建立
建立可重构机器人第i个子系统的动力学模型:
其中,Imi为电机的转动惯量,γi为子系统的减速比,是第i个子系统的位置、速度以及加速度,为摩擦力矩项,为子系统之间的交联耦合项,τsi为与传感器有关的耦合力矩,τi为控制输出力矩。为整体机器人系统的位置、速度、加速度向量。
将公式(1)表示成与机器人速度有关的形式:
其中,公式(6)为机器人速度动力学模型。控制输入矩阵定义为Bi=(Imiγi)-1,定义系统的状态其中xi1,xi2分别为第i个子系统的位置以及速度分量,定义控制输入向量为ui,因此公式(1)可以转换为第i个子系统的状态空间:
为了建立多人零和博弈的性能指标以及求解哈密顿-雅克比-埃塞克方程,将上述函数扩张为矩阵的形式,f(x)=[f1(x1),...,fi(xi),...,fn(xn)]T为漂移动力学,Gi(xi)=[0,…,Bi,…,0]T为控制输入,Hj=[0,…,hj(x),…,0]T是模型不确定性,基于多人零和博弈框架,公式(7)可以改写为:
2、多人零和博弈的性能指标函数建立
首先,构建性能指标函数为:
其中,全局位置误差为e=[e1,…,ei,…,en]T,ei=xi1-xid,为第i个子系统的位置以及速度误差;为期望位置、速度和及速度,Q,Ri,Sj是正定矩阵,Ui=[0,…,ui,…,0]T为扩张控制输入,为效用函数。对公式(6)进行最小化可以得到哈密顿函数:
为了求得系统的鞍点可以通过两个固定条件求得:
根据(11)和(12),系统的最优控制律和最坏模型不确定项为:
公式(13)表示最优控制律为第一控制律,此时,不是最终要得到的最优控制律。T表示转置,Ri为第i个子系统的正定控制矩阵。
将(13)和(14)代入(10),可以得到系统的哈密顿-雅克比-埃塞克方程为:
改写最优控制律(13)为:
3、哈密顿-雅克比-埃塞克方程的求解
根据哈密顿方程(10)和性能指标函数(18)以及它的梯度(19),哈密顿方程可以进一步改写为:
将(20)代入(13)和(14),可以得到
将(22)、(23)代入(10),可以得到
令函数误差ec被评判神经网络所调节,可得
根据梯度下降法可以得到权值更新律为
结合(17)和(22),可以得到基于多人零和博弈的可重构机器人最优控制律:
4、实验验证
为了验证所提出的基于多人零和博弈的可重构机器人最优控制律方法的有效性,建立一个二自由度可重构机器人模型进行实验验证,其中包括增量式编码器、直流电机、谐波减速器、绝对式编码器以及关节力矩传感器。直流电机的型号是Maxon公司的218014、额定电压为48V、额定力矩为190mNm、减速比为100:1。电机侧的位置变量是由Maxon公司的500线增量式编码器测量的,连杆侧的位置变量是由Netzer公司的19位编码器测量的。关节力矩传感器的额定力矩为20Nm被嵌在关节模块末端。采用Quanser公司生产的线性功率放大器驱动关节模块的电动机和QPIDe数据采集卡采集各传感器的数据。
通过实验结果表明,所提出的基于多人零和博弈的可重构机器人最优控制律方法为可重构机器人提供稳定性和精确性,以满足各种任务的要求。
如图3所示,本发明提供的一种多人零和博弈可重构机器人最优控制系统,包括:
子系统的动力学模型构建模块301,用于根据可重构机器人的转动惯量、加速比、摩擦力和所述可重构机器人子系统之间的交联耦合项构建子系统的动力学模型。
性能指标函数构建模块302,用于根据全局位置误差和所述动力学模型利用多人零和博弈方法构建性能指标函数;所述全局位置误差包括所述可重构机器人子系统的位置误差以及速度误差。
哈密顿-雅克比-埃塞克方程构建模块303,用于根据所述性能指标函数和所述动力学模型利用贝尔曼最优性原理得到哈密顿-雅克比-埃塞克方程。
补偿控制律确定模块304,用于通过所述哈密顿-雅克比-埃塞克方程和所述动力学模型确定补偿控制律。
近似权值确定模块305,用于利用神经网络对所述性能指标函数进行处理,得到近似权值。
优化控制律确定模块306,用于利用所述近似权值和所述哈密顿-雅克比-埃塞克方程得到优化控制律。
最优控制律确定模块307,用于根据所述补偿控制律和所述优化控制律确定所述可重构机器人的最优控制律。
其中,所述性能指标函数构建模块,具体包括:
子系统的状态空间确定单元,用于根据所述动力学模型、可重构机器人子系统的位置分量及速度分量确定子系统的状态空间。
扩张单元,用于基于多人零和博弈方法利用漂移动力学对所述状态空间进行扩张,得到扩张函数。
性能指标函数构建单元,用于根据所述扩张函数和所述全局位置误差构建性能指标函数。
其中,所述哈密顿-雅克比-埃塞克方程构建模块,具体包括:
转换单元,用于将所述动力学模型进行转换,得到机器人速度动力学模型。
最小化处理单元,用于根据所述性能指标函数对所述机器人速度动力学模型进行最小化处理,得哈密顿函数。
哈密顿-雅克比-埃塞克方程确定单元,用于根据所述哈密顿函数利用贝尔曼最优性原理得到哈密顿-雅克比-埃塞克方程。
其中,所述补偿控制律确定模块,具体包括:
第一控制律确定单元,用于根据所述哈密顿-雅克比-埃塞克方程和可重构机器人子系统的鞍点确定子系统的第一控制律。
补偿控制律确定单元,用于根据所述第一控制律和所述动力学模型中的子系统的设定模型确定补偿控制律。
本发明首先建立可重构机器人系统的动力学模型,其次构建性能指标函数与哈密顿-雅克比-埃塞克方程,通过神经网络近似性能指标函数来求哈密顿-雅克比-埃塞克方程的解,最后通过实验验证所提出控制方法的有效性。借助了零和博弈的这种观点,把可重构机器人系统的控制器与其交联耦合项分别作为博弈系统的两个参与者进行博弈,能够使机器人系统达到准确性、最优性以及稳定性。解决了现有技术中对于存在交联耦合项的系统不能保证准确性、最优性以及稳定性的问题,并且可以满足各种任务的需求。
在位置跟踪方面,本发明改善了因为存在交联耦合项的可重构机器人系统跟踪性能低的情况,并且采用了多人零和博弈消除了交联耦合项的影响,加快系统的跟踪速度,并且使关节位置的稳态误差减小。
在控制力矩方面,本发明的控制力矩更加连续和平滑,不仅可以保持系统渐进稳定,而且可以降低每个关节的能量损耗。
本说明书中各个实施例采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似部分互相参见即可。对于实施例公开的系统而言,由于其与实施例公开的方法相对应,所以描述的比较简单,相关之处参见方法部分说明即可。
本文中应用了具体个例对本发明的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本发明的方法及其核心思想;同时,对于本领域的一般技术人员,依据本发明的思想,在具体实施方式及应用范围上均会有改变之处。综上所述,本说明书内容不应理解为对本发明的限制。
Claims (10)
1.一种多人零和博弈可重构机器人最优控制方法,其特征在于,包括:
根据可重构机器人的转动惯量、加速比、摩擦力和所述可重构机器人子系统之间的交联耦合项构建子系统的动力学模型;
根据全局位置误差和所述动力学模型利用多人零和博弈方法构建性能指标函数;所述全局位置误差包括所述可重构机器人子系统的位置误差以及速度误差;
根据所述性能指标函数和所述动力学模型利用贝尔曼最优性原理得到哈密顿-雅克比-埃塞克方程;
通过所述哈密顿-雅克比-埃塞克方程和所述动力学模型确定补偿控制律;
利用神经网络对所述性能指标函数进行处理,得到近似权值;
利用所述近似权值和所述哈密顿-雅克比-埃塞克方程得到优化控制律;
根据所述补偿控制律和所述优化控制律确定所述可重构机器人的最优控制律。
2.根据权利要求1所述的多人零和博弈可重构机器人最优控制方法,其特征在于,所述根据全局位置误差和所述动力学模型利用多人零和博弈方法构建性能指标函数,具体包括:
根据所述动力学模型、可重构机器人子系统的位置分量及速度分量确定子系统的状态空间;
基于多人零和博弈方法利用漂移动力学对所述状态空间进行扩张,得到扩张函数;
根据所述扩张函数和所述全局位置误差构建性能指标函数。
3.根据权利要求1所述的多人零和博弈可重构机器人最优控制方法,其特征在于,所述根据所述性能指标函数和所述动力学模型利用贝尔曼最优性原理得到哈密顿-雅克比-埃塞克方程,具体包括:
将所述动力学模型进行转换,得到机器人速度动力学模型;
根据所述性能指标函数对所述机器人速度动力学模型进行最小化处理,得哈密顿函数;
根据所述哈密顿函数利用贝尔曼最优性原理得到哈密顿-雅克比-埃塞克方程。
4.根据权利要求3所述的多人零和博弈可重构机器人最优控制方法,其特征在于,所述通过所述哈密顿-雅克比-埃塞克方程和所述动力学模型确定补偿控制律,具体包括:
根据所述哈密顿-雅克比-埃塞克方程和可重构机器人子系统的鞍点确定子系统的第一控制律;
根据所述第一控制律和所述动力学模型中的子系统的设定模型确定补偿控制律。
5.根据权利要求4所述的多人零和博弈可重构机器人最优控制方法,其特征在于,所述利用所述近似权值和所述哈密顿-雅克比-埃塞克方程得到优化控制律,具体包括:
利用所述神经网络对所述性能指标函数的梯度进行处理,得到近似梯度;
根据所述近似权值和所述性能指标函数建立评判神经网络;
根据所述评判神经网络和所述第一控制律得到第二控制律;
根据所述第二控制律、所述哈密顿-雅克比-埃塞克方程、所述性能指标函数和所述近似梯度得到优化控制律。
6.根据权利要求1所述的多人零和博弈可重构机器人最优控制方法,其特征在于,所述根据所述补偿控制律和所述优化控制律确定所述可重构机器人的最优控制律,具体包括:
对所述补偿控制律和所述优化控制律进行求和,得到所述可重构机器人的最优控制律。
7.一种多人零和博弈可重构机器人最优控制系统,其特征在于,包括:
子系统的动力学模型构建模块,用于根据可重构机器人的转动惯量、加速比、摩擦力和所述可重构机器人子系统之间的交联耦合项构建子系统的动力学模型;
性能指标函数构建模块,用于根据全局位置误差和所述动力学模型利用多人零和博弈方法构建性能指标函数;所述全局位置误差包括所述可重构机器人子系统的位置误差以及速度误差;
哈密顿-雅克比-埃塞克方程构建模块,用于根据所述性能指标函数和所述动力学模型利用贝尔曼最优性原理得到哈密顿-雅克比-埃塞克方程;
补偿控制律确定模块,用于通过所述哈密顿-雅克比-埃塞克方程和所述动力学模型确定补偿控制律;
近似权值确定模块,用于利用神经网络对所述性能指标函数进行处理,得到近似权值;
优化控制律确定模块,用于利用所述近似权值和所述哈密顿-雅克比-埃塞克方程得到优化控制律;
最优控制律确定模块,用于根据所述补偿控制律和所述优化控制律确定所述可重构机器人的最优控制律。
8.根据权利要求7所述的多人零和博弈可重构机器人最优控制系统,其特征在于,所述性能指标函数构建模块,具体包括:
子系统的状态空间确定单元,用于根据所述动力学模型、可重构机器人子系统的位置分量及速度分量确定子系统的状态空间;
扩张单元,用于基于多人零和博弈方法利用漂移动力学对所述状态空间进行扩张,得到扩张函数;
性能指标函数构建单元,用于根据所述扩张函数和所述全局位置误差构建性能指标函数。
9.根据权利要求7所述的多人零和博弈可重构机器人最优控制系统,其特征在于,所述哈密顿-雅克比-埃塞克方程构建模块,具体包括:
转换单元,用于将所述动力学模型进行转换,得到机器人速度动力学模型;
最小化处理单元,用于根据所述性能指标函数对所述机器人速度动力学模型进行最小化处理,得哈密顿函数;
哈密顿-雅克比-埃塞克方程确定单元,用于根据所述哈密顿函数利用贝尔曼最优性原理得到哈密顿-雅克比-埃塞克方程。
10.根据权利要求9所述的多人零和博弈可重构机器人最优控制系统,其特征在于,所述补偿控制律确定模块,具体包括:
第一控制律确定单元,用于根据所述哈密顿-雅克比-埃塞克方程和可重构机器人子系统的鞍点确定子系统的第一控制律;
补偿控制律确定单元,用于根据所述第一控制律和所述动力学模型中的子系统的设定模型确定补偿控制律。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111331549.5A CN113910241B (zh) | 2021-11-11 | 2021-11-11 | 一种多人零和博弈可重构机器人最优控制方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111331549.5A CN113910241B (zh) | 2021-11-11 | 2021-11-11 | 一种多人零和博弈可重构机器人最优控制方法及系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113910241A true CN113910241A (zh) | 2022-01-11 |
CN113910241B CN113910241B (zh) | 2023-09-22 |
Family
ID=79245973
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202111331549.5A Active CN113910241B (zh) | 2021-11-11 | 2021-11-11 | 一种多人零和博弈可重构机器人最优控制方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113910241B (zh) |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
EP2270679A1 (fr) * | 2009-07-01 | 2011-01-05 | Centre National D'etudes Spatiales | Procédé de contrôle optimal d'un système modélisable par des équations de Hamilton Jacobi Bellman |
CN111722531A (zh) * | 2020-05-12 | 2020-09-29 | 天津大学 | 一种切换线性系统在线无模型最优控制方法 |
CN112445131A (zh) * | 2019-08-30 | 2021-03-05 | 天津大学 | 一种线性系统自适应最优跟踪控制方法 |
CN113211446A (zh) * | 2021-05-20 | 2021-08-06 | 长春工业大学 | 一种事件触发-神经动态规划的机械臂分散跟踪控制方法 |
-
2021
- 2021-11-11 CN CN202111331549.5A patent/CN113910241B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
EP2270679A1 (fr) * | 2009-07-01 | 2011-01-05 | Centre National D'etudes Spatiales | Procédé de contrôle optimal d'un système modélisable par des équations de Hamilton Jacobi Bellman |
CN112445131A (zh) * | 2019-08-30 | 2021-03-05 | 天津大学 | 一种线性系统自适应最优跟踪控制方法 |
CN111722531A (zh) * | 2020-05-12 | 2020-09-29 | 天津大学 | 一种切换线性系统在线无模型最优控制方法 |
CN113211446A (zh) * | 2021-05-20 | 2021-08-06 | 长春工业大学 | 一种事件触发-神经动态规划的机械臂分散跟踪控制方法 |
Non-Patent Citations (1)
Title |
---|
安天骄: ""基于自适应动态规划的可重构机器人系统分散积分滑模最优控制研究"", 《中国优秀硕士学位论文全文数据库-信息科技辑》 * |
Also Published As
Publication number | Publication date |
---|---|
CN113910241B (zh) | 2023-09-22 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111136633B (zh) | 针对时变时延下柔性主-从机器人系统的全状态控制方法 | |
Zhang et al. | PDE modeling and control of a flexible two-link manipulator | |
de Queiroz et al. | Adaptive nonlinear boundary control of a flexible link robot arm | |
Moallem et al. | An integral manifold approach for tip-position tracking of flexible multi-link manipulators | |
Lu et al. | Adaptive robust control of linear motors with dynamic friction compensation using modified LuGre model | |
CN108803324A (zh) | 多关节工业机械臂反步有限时间滑模控制方法 | |
Moallem et al. | Nonlinear tip-position tracking control of a flexible-link manipulator: theory and experiments | |
Duchaine et al. | Computationally efficient predictive robot control | |
CN104723340A (zh) | 基于连接和阻尼配置的柔性关节机械臂的阻抗控制方法 | |
Morales et al. | Control of a DC motor using algebraic derivative estimation with real time experiments | |
CN112904728A (zh) | 一种基于改进型趋近律的机械臂滑模控制轨迹跟踪方法 | |
CN107351086B (zh) | 一种scara机器人关节力矩的卡尔曼估计方法 | |
CN110597051A (zh) | 基于RBF神经网络的Stewart稳定平台控制方法 | |
CN112782977B (zh) | 一种基于bp神经网络与扩张观测器的电机柔顺控制方法 | |
CN111730594A (zh) | 一种模块化机器人面向外部碰撞的分散控制方法及系统 | |
CN112549030A (zh) | 一种基于抗干扰滤波的空间机械臂柔性关节位姿估计方法 | |
CN113733117B (zh) | 一种可重构机器人人类意图辨识控制方法及装置 | |
CN114167734B (zh) | 一种强耦合非线性系统高精度控制方法及控制系统 | |
Liu et al. | High-precision dynamic torque control of high stiffness actuator for humanoids | |
Liu et al. | Model-based adaptive hybrid control for manipulators under multiple geometric constraints | |
CN113910241B (zh) | 一种多人零和博弈可重构机器人最优控制方法及系统 | |
CN113370208A (zh) | 一种可重构机械臂子系统的控制方法及系统 | |
CN114211478A (zh) | 一种模块化机械臂协调操作最优控制方法及系统 | |
Lebastard et al. | Observer-based control of a walking biped robot without orientation measurement | |
CN114147713B (zh) | 基于自适应神经网络高阶动态滑模的轨迹跟踪控制方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |