CN113910241A - 一种多人零和博弈可重构机器人最优控制方法及系统 - Google Patents

一种多人零和博弈可重构机器人最优控制方法及系统 Download PDF

Info

Publication number
CN113910241A
CN113910241A CN202111331549.5A CN202111331549A CN113910241A CN 113910241 A CN113910241 A CN 113910241A CN 202111331549 A CN202111331549 A CN 202111331549A CN 113910241 A CN113910241 A CN 113910241A
Authority
CN
China
Prior art keywords
control law
equation
hamilton
dynamic model
performance index
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202111331549.5A
Other languages
English (en)
Other versions
CN113910241B (zh
Inventor
朱新野
安天骄
董博
李元春
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Baicheng Normal University
Original Assignee
Baicheng Normal University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Baicheng Normal University filed Critical Baicheng Normal University
Priority to CN202111331549.5A priority Critical patent/CN113910241B/zh
Publication of CN113910241A publication Critical patent/CN113910241A/zh
Application granted granted Critical
Publication of CN113910241B publication Critical patent/CN113910241B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • BPERFORMING OPERATIONS; TRANSPORTING
    • B25HAND TOOLS; PORTABLE POWER-DRIVEN TOOLS; MANIPULATORS
    • B25JMANIPULATORS; CHAMBERS PROVIDED WITH MANIPULATION DEVICES
    • B25J9/00Programme-controlled manipulators
    • B25J9/16Programme controls
    • B25J9/1602Programme controls characterised by the control system, structure, architecture
    • B25J9/1607Calculation of inertia, jacobian matrixes and inverses
    • BPERFORMING OPERATIONS; TRANSPORTING
    • B25HAND TOOLS; PORTABLE POWER-DRIVEN TOOLS; MANIPULATORS
    • B25JMANIPULATORS; CHAMBERS PROVIDED WITH MANIPULATION DEVICES
    • B25J9/00Programme-controlled manipulators
    • B25J9/16Programme controls
    • B25J9/1628Programme controls characterised by the control loop
    • BPERFORMING OPERATIONS; TRANSPORTING
    • B25HAND TOOLS; PORTABLE POWER-DRIVEN TOOLS; MANIPULATORS
    • B25JMANIPULATORS; CHAMBERS PROVIDED WITH MANIPULATION DEVICES
    • B25J9/00Programme-controlled manipulators
    • B25J9/16Programme controls
    • B25J9/1628Programme controls characterised by the control loop
    • B25J9/163Programme controls characterised by the control loop learning, adaptive, model based, rule based expert control

Landscapes

  • Engineering & Computer Science (AREA)
  • Robotics (AREA)
  • Mechanical Engineering (AREA)
  • Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Automation & Control Theory (AREA)
  • Feedback Control In General (AREA)

Abstract

本发明涉及一种多人零和博弈可重构机器人最优控制方法及系统,包括:根据可重构机器人的转动惯量、加速比、摩擦力和可重构机器人子系统之间的交联耦合项构建子系统的动力学模型;根据全局位置误差和动力学模型利用多人零和博弈方法构建性能指标函数;根据性能指标函数和动力学模型利用贝尔曼最优性原理得到哈密顿‑雅克比‑埃塞克方程;通过哈密顿‑雅克比‑埃塞克方程和动力学模型确定补偿控制律;利用神经网络对性能指标函数进行处理,得到近似权值;利用近似权值和哈密顿‑雅克比‑埃塞克方程得到优化控制律;根据补偿控制律和优化控制律确定可重构机器人的最优控制律。本发明能够提高机器人系统的准确性和稳定性。

Description

一种多人零和博弈可重构机器人最优控制方法及系统
技术领域
本发明涉及机器人控制领域,特别是涉及一种多人零和博弈可重构机器人最优控制方法及系统。
背景技术
可重构机器人是一类具有标准模块与接口,可根据不同的任务需求对自身构形进行重新组合与配置的机器人。根据“模块化”与“可重构”的设计理念,可重构机器人的每个关节模块均包含了通讯、传感、驱动、控制等单元,通过对这些模块进行重新配置可以使机器人呈现多种装配构形来完成不同的工作任务,从而表现出传统机器人所不具有的优势。在可重构机器人的使用过程中,交联耦合项是其固有的性质,由于其高度复杂非线性所以难以对其进行精确建模,这样就会影响可重构机器人控制的准确性、最优性以及稳定性。因此,处理可重构机器人系统的交联耦合项是十分必要的。
博弈理论关注了多参与者交互系统中的动态决策过程,根据最优控制的观点,一个完整的博弈理论包含了三个要素:参与者(控制器或智能体)、控制策略以及代价函数。根据参与者之间的关系,博弈可以分为合作博弈与非合作博弈。在非合作博弈中,理想的是所有参与者同时采取最优的策略来获得纳什均衡,其中任何一个参与者的结果不能通过单边改变来改善,零和博弈是完全非合作博弈。目前,并未有将零和博弈应用到可重构机器人系统的控制上,解决可重构机器人的控制问题。
发明内容
本发明的目的是提供一种多人零和博弈可重构机器人最优控制方法及系统,以提高机器人系统的准确性和稳定性。
为实现上述目的,本发明提供了如下方案:
一种多人零和博弈可重构机器人最优控制方法,包括:
根据可重构机器人的转动惯量、加速比、摩擦力和所述可重构机器人子系统之间的交联耦合项构建子系统的动力学模型;
根据全局位置误差和所述动力学模型利用多人零和博弈方法构建性能指标函数;所述全局位置误差包括所述可重构机器人子系统的位置误差以及速度误差;
根据所述性能指标函数和所述动力学模型利用贝尔曼最优性原理得到哈密顿-雅克比-埃塞克方程;
通过所述哈密顿-雅克比-埃塞克方程和所述动力学模型确定补偿控制律;
利用神经网络对所述性能指标函数进行处理,得到近似权值;
利用所述近似权值和所述哈密顿-雅克比-埃塞克方程得到优化控制律;
根据所述补偿控制律和所述优化控制律确定所述可重构机器人的最优控制律。
可选地,所述根据全局位置误差和所述动力学模型利用多人零和博弈方法构建性能指标函数,具体包括:
根据所述动力学模型、可重构机器人子系统的位置分量及速度分量确定子系统的状态空间;
基于多人零和博弈方法利用漂移动力学对所述状态空间进行扩张,得到扩张函数;
根据所述扩张函数和所述全局位置误差构建性能指标函数。
可选地,所述根据所述性能指标函数和所述动力学模型利用贝尔曼最优性原理得到哈密顿-雅克比-埃塞克方程,具体包括:
将所述动力学模型进行转换,得到机器人速度动力学模型;
根据所述性能指标函数对所述机器人速度动力学模型进行最小化处理,得哈密顿函数;
根据所述哈密顿函数利用贝尔曼最优性原理得到哈密顿-雅克比-埃塞克方程。
可选地,所述通过所述哈密顿-雅克比-埃塞克方程和所述动力学模型确定补偿控制律,具体包括:
根据所述哈密顿-雅克比-埃塞克方程和可重构机器人子系统的鞍点确定子系统的第一控制律;
根据所述第一控制律和所述动力学模型中的子系统的设定模型确定补偿控制律。
可选地,所述利用所述近似权值和所述哈密顿-雅克比-埃塞克方程得到优化控制律,具体包括:
利用所述神经网络对所述性能指标函数的梯度进行处理,得到近似梯度;
根据所述近似权值和所述性能指标函数建立评判神经网络;
根据所述评判神经网络和所述第一控制律得到第二控制律;
根据所述第二控制律、所述哈密顿-雅克比-埃塞克方程、所述性能指标函数和所述近似梯度得到优化控制律。
可选地,所述根据所述补偿控制律和所述优化控制律确定所述可重构机器人的最优控制律,具体包括:
对所述补偿控制律和所述优化控制律进行求和,得到所述可重构机器人的最优控制律。
一种多人零和博弈可重构机器人最优控制系统,包括:
子系统的动力学模型构建模块,用于根据可重构机器人的转动惯量、加速比、摩擦力和所述可重构机器人子系统之间的交联耦合项构建子系统的动力学模型;
性能指标函数构建模块,用于根据全局位置误差和所述动力学模型利用多人零和博弈方法构建性能指标函数;所述全局位置误差包括所述可重构机器人子系统的位置误差以及速度误差;
哈密顿-雅克比-埃塞克方程构建模块,用于根据所述性能指标函数和所述动力学模型利用贝尔曼最优性原理得到哈密顿-雅克比-埃塞克方程;
补偿控制律确定模块,用于通过所述哈密顿-雅克比-埃塞克方程和所述动力学模型确定补偿控制律;
近似权值确定模块,用于利用神经网络对所述性能指标函数进行处理,得到近似权值;
优化控制律确定模块,用于利用所述近似权值和所述哈密顿-雅克比-埃塞克方程得到优化控制律;
最优控制律确定模块,用于根据所述补偿控制律和所述优化控制律确定所述可重构机器人的最优控制律。
可选地,所述性能指标函数构建模块,具体包括:
子系统的状态空间确定单元,用于根据所述动力学模型、可重构机器人子系统的位置分量及速度分量确定子系统的状态空间;
扩张单元,用于基于多人零和博弈方法利用漂移动力学对所述状态空间进行扩张,得到扩张函数;
性能指标函数构建单元,用于根据所述扩张函数和所述全局位置误差构建性能指标函数。
可选地,所述哈密顿-雅克比-埃塞克方程构建模块,具体包括:
转换单元,用于将所述动力学模型进行转换,得到机器人速度动力学模型;
最小化处理单元,用于根据所述性能指标函数对所述机器人速度动力学模型进行最小化处理,得哈密顿函数;
哈密顿-雅克比-埃塞克方程确定单元,用于根据所述哈密顿函数利用贝尔曼最优性原理得到哈密顿-雅克比-埃塞克方程。
可选地,所述补偿控制律确定模块,具体包括:
第一控制律确定单元,用于根据所述哈密顿-雅克比-埃塞克方程和可重构机器人子系统的鞍点确定子系统的第一控制律;
补偿控制律确定单元,用于根据所述第一控制律和所述动力学模型中的子系统的设定模型确定补偿控制律。
根据本发明提供的具体实施例,本发明公开了以下技术效果:
本发明提供的多人零和博弈可重构机器人最优控制方法和系统,根据可重构机器人的转动惯量、加速比、摩擦力和可重构机器人子系统之间的交联耦合项构建子系统的动力学模型;根据全局位置误差和动力学模型利用多人零和博弈方法构建性能指标函数;根据性能指标函数和动力学模型利用贝尔曼最优性原理得到哈密顿-雅克比-埃塞克方程;通过哈密顿-雅克比-埃塞克方程和动力学模型确定补偿控制律;利用神经网络对性能指标函数进行处理,得到近似权值;利用近似权值和哈密顿-雅克比-埃塞克方程得到优化控制律;根据补偿控制律和优化控制律确定可重构机器人的最优控制律。在位置跟踪方面,采用了多人零和博弈消除了交联耦合项的影响,改善了因为存在交联耦合项的可重构机器人系统跟踪性能低的情况,加快系统的跟踪速度,并且使关节位置的稳态误差减小,从而提高机器人系统的准确性和稳定性。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1为本发明提供的多人零和博弈可重构机器人最优控制方法流程图;
图2为本发明提供的多人零和博弈可重构机器人最优控制方法简化流程图;
图3为本发明提供的多人零和博弈可重构机器人最优控制系统示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本发明的目的是提供一种多人零和博弈可重构机器人最优控制方法及系统,以提高机器人系统的准确性和稳定性。
为使本发明的上述目的、特征和优点能够更加明显易懂,下面结合附图和具体实施方式对本发明作进一步详细的说明。
如图1所示,本发明提供的多人零和博弈可重构机器人最优控制方法,包括:
步骤101:根据可重构机器人的转动惯量、加速比、摩擦力和所述可重构机器人子系统之间的交联耦合项构建子系统的动力学模型。
步骤102:根据全局位置误差和所述动力学模型利用多人零和博弈方法构建性能指标函数;所述全局位置误差包括所述可重构机器人子系统的位置误差以及速度误差。
步骤103:根据所述性能指标函数和所述动力学模型利用贝尔曼最优性原理得到哈密顿-雅克比-埃塞克方程。
步骤104:通过所述哈密顿-雅克比-埃塞克方程和所述动力学模型确定补偿控制律。
步骤105:利用神经网络对所述性能指标函数进行处理,得到近似权值。
步骤106:利用所述近似权值和所述哈密顿-雅克比-埃塞克方程得到优化控制律。
步骤107:根据所述补偿控制律和所述优化控制律确定所述可重构机器人的最优控制律。
其中,所述步骤102根据全局位置误差和所述动力学模型利用多人零和博弈方法构建性能指标函数,具体包括:
根据所述动力学模型、可重构机器人子系统的位置分量及速度分量确定子系统的状态空间。
基于多人零和博弈方法利用漂移动力学对所述状态空间进行扩张,得到扩张函数。
根据所述扩张函数和所述全局位置误差构建性能指标函数。
其中,所述步骤103根据所述性能指标函数和所述动力学模型利用贝尔曼最优性原理得到哈密顿-雅克比-埃塞克方程,具体包括:
将所述动力学模型进行转换,得到机器人速度动力学模型。
根据所述性能指标函数对所述机器人速度动力学模型进行最小化处理,得哈密顿函数。
根据所述哈密顿函数利用贝尔曼最优性原理得到哈密顿-雅克比-埃塞克方程。
其中,所述步骤104通过所述哈密顿-雅克比-埃塞克方程和所述动力学模型确定补偿控制律,具体包括:
根据所述哈密顿-雅克比-埃塞克方程和可重构机器人子系统的鞍点确定子系统的第一控制律。
根据所述第一控制律和所述动力学模型中的子系统的设定模型确定补偿控制律。
其中,所述步骤106利用所述近似权值和所述哈密顿-雅克比-埃塞克方程得到优化控制律,具体包括:
利用所述神经网络对所述性能指标函数的梯度进行处理,得到近似梯度。
根据所述近似权值和所述性能指标函数建立评判神经网络。
根据所述评判神经网络和所述第一控制律得到第二控制律。
根据所述第二控制律、所述哈密顿-雅克比-埃塞克方程、所述性能指标函数和所述近似梯度得到优化控制律。
其中,所述步骤107根据所述补偿控制律和所述优化控制律确定所述可重构机器人的最优控制律,具体包括:
对所述补偿控制律和所述优化控制律进行求和,得到所述可重构机器人的最优控制律。
本发明还提供一种多人零和博弈可重构机器人最优控制方法在实际应用中的具体方式,如图2所示,具体过程如下:
该方法首先建立可重构机器人系统的动力学模型,其次构建多人零和博弈的性能指标函数,接下来求解哈密顿-雅克比-埃塞克方程,最后通过实验验证所提出控制方法的有效性。
1、可重构机器人动力学模型建立
建立可重构机器人第i个子系统的动力学模型:
Figure BDA0003349065610000081
其中,Imi为电机的转动惯量,γi为子系统的减速比,
Figure BDA0003349065610000082
是第i个子系统的位置、速度以及加速度,
Figure BDA0003349065610000083
为摩擦力矩项,
Figure BDA0003349065610000084
为子系统之间的交联耦合项,τsi为与传感器有关的耦合力矩,τi为控制输出力矩。
Figure BDA0003349065610000085
为整体机器人系统的位置、速度、加速度向量。
由于
Figure BDA0003349065610000086
摩擦力矩项是与关节位置和速度有关的函数,因此可以具体表示为:
Figure BDA0003349065610000087
其中,fbi,fsi,fτi,fci分别为第i个子系统的滑动摩擦、静摩擦、库伦摩擦以及边界摩擦;
Figure BDA0003349065610000088
为建模摩擦误差,基于线性化方法,公式(2)可以近似表示为:
Figure BDA0003349065610000089
其中,
Figure BDA00033490656100000810
分别为第i个子系统的滑动摩擦、静摩擦、库伦摩擦以及边界摩擦的估计值,
Figure BDA00033490656100000811
为不确定摩擦系数,
Figure BDA00033490656100000812
为速度误差矩阵。
子系统之间的交联耦合项
Figure BDA00033490656100000813
是一个复杂的高度非线性复杂函数,表示为:
Figure BDA0003349065610000091
其中,zmi,zlj和zlk是沿着第i个电机、第j个连杆以及第k个连杆轴旋转的单位向量,为了方便表示,定义常数向量
Figure BDA0003349065610000092
以及
Figure BDA0003349065610000093
改写公式(4),可以得到:
Figure BDA0003349065610000094
其中,Uzi,Vzi分别为交联耦合项的常分量以及变分量,
Figure BDA0003349065610000095
表示zmi与zlj的点乘积,
Figure BDA0003349065610000096
表示常分量建模误差,
Figure BDA0003349065610000097
表示zmi与zlk×zlj的点乘积,
Figure BDA0003349065610000098
表示变分量建模误差。
将公式(1)表示成与机器人速度有关的形式:
Figure BDA0003349065610000099
其中,公式(6)为机器人速度动力学模型。控制输入矩阵定义为Bi=(Imiγi)-1,定义系统的状态
Figure BDA00033490656100000910
其中xi1,xi2分别为第i个子系统的位置以及速度分量,定义控制输入向量为ui,因此公式(1)可以转换为第i个子系统的状态空间:
Figure BDA00033490656100000911
其中,
Figure BDA00033490656100000912
为可以精确测量的系统模型即系统漂移动力学模型,
Figure BDA0003349065610000101
为全局模型不确定性,yi表示系统的输出。
为了建立多人零和博弈的性能指标以及求解哈密顿-雅克比-埃塞克方程,将上述函数扩张为矩阵的形式,f(x)=[f1(x1),...,fi(xi),...,fn(xn)]T为漂移动力学,Gi(xi)=[0,…,Bi,…,0]T为控制输入,Hj=[0,…,hj(x),…,0]T是模型不确定性,基于多人零和博弈框架,公式(7)可以改写为:
Figure BDA0003349065610000102
其中,x是全局机器人向量,
Figure BDA0003349065610000103
为全局机器人的状态。
2、多人零和博弈的性能指标函数建立
首先,构建性能指标函数为:
Figure BDA0003349065610000104
其中,全局位置误差为e=[e1,…,ei,…,en]T,ei=xi1-xid
Figure BDA0003349065610000105
为第i个子系统的位置以及速度误差;
Figure BDA0003349065610000106
为期望位置、速度和及速度,Q,Ri,Sj是正定矩阵,Ui=[0,…,ui,…,0]T为扩张控制输入,
Figure BDA0003349065610000107
为效用函数。对公式(6)进行最小化可以得到哈密顿函数:
Figure BDA0003349065610000108
其中,
Figure BDA0003349065610000109
表示期望的全局加速度,
Figure BDA00033490656100001010
Figure BDA00033490656100001011
的偏导数,
Figure BDA00033490656100001012
Figure BDA00033490656100001013
的最优值。根据贝尔曼最优性原理,可以得到哈密顿-雅克比-埃塞克方程为:
Figure BDA00033490656100001014
为了求得系统的鞍点可以通过两个固定条件求得:
Figure BDA0003349065610000111
根据(11)和(12),系统的最优控制律和最坏模型不确定项为:
Figure BDA0003349065610000112
Figure BDA0003349065610000113
公式(13)表示最优控制律为第一控制律,此时,不是最终要得到的最优控制律。T表示转置,Ri为第i个子系统的正定控制矩阵。
将(13)和(14)代入(10),可以得到系统的哈密顿-雅克比-埃塞克方程为:
Figure BDA0003349065610000114
改写最优控制律(13)为:
Figure BDA0003349065610000115
其中,补偿控制律ui1去处理模型确定性fi(xi),优化控制律
Figure BDA0003349065610000116
去补偿模型不确定性hj(x)。因为xid和ei是已知的,根据公式(7)中的fi(xi)表达式,可确定补偿控制律ui1
Figure BDA0003349065610000117
3、哈密顿-雅克比-埃塞克方程的求解
利用神经网络来近似性能指标函数
Figure BDA0003349065610000118
其中,神经网络为三层前向神经网络,定义如下:
Figure BDA0003349065610000121
其中,Wc是理想的权值向量,
Figure BDA0003349065610000122
是激活函数,εc是神经网络的逼近误差,
Figure BDA0003349065610000123
的梯度通过神经网络近似为:
Figure BDA0003349065610000124
其中:
Figure BDA0003349065610000125
Figure BDA0003349065610000126
分别为激活函数的梯度和逼近误差。
由于理想权值向量Wc是未知的,所以用近似权值
Figure BDA0003349065610000127
建立一个评判神经网络来估计性能指标函数:
Figure BDA0003349065610000128
根据哈密顿方程(10)和性能指标函数(18)以及它的梯度(19),哈密顿方程可以进一步改写为:
Figure BDA0003349065610000129
其中,
Figure BDA00033490656100001210
为Ui,Hj的估计值。
将(20)代入(13)和(14),可以得到
Figure BDA00033490656100001211
Figure BDA00033490656100001212
将(22)、(23)代入(10),可以得到
Figure BDA00033490656100001213
令函数误差ec被评判神经网络所调节,可得
Figure BDA00033490656100001214
根据梯度下降法可以得到权值更新律为
Figure BDA0003349065610000131
优化控制律
Figure BDA0003349065610000132
是通过权值更新律进行更新的。
结合(17)和(22),可以得到基于多人零和博弈的可重构机器人最优控制律:
Figure BDA0003349065610000133
4、实验验证
为了验证所提出的基于多人零和博弈的可重构机器人最优控制律方法的有效性,建立一个二自由度可重构机器人模型进行实验验证,其中包括增量式编码器、直流电机、谐波减速器、绝对式编码器以及关节力矩传感器。直流电机的型号是Maxon公司的218014、额定电压为48V、额定力矩为190mNm、减速比为100:1。电机侧的位置变量是由Maxon公司的500线增量式编码器测量的,连杆侧的位置变量是由Netzer公司的19位编码器测量的。关节力矩传感器的额定力矩为20Nm被嵌在关节模块末端。采用Quanser公司生产的线性功率放大器驱动关节模块的电动机和QPIDe数据采集卡采集各传感器的数据。
通过实验结果表明,所提出的基于多人零和博弈的可重构机器人最优控制律方法为可重构机器人提供稳定性和精确性,以满足各种任务的要求。
如图3所示,本发明提供的一种多人零和博弈可重构机器人最优控制系统,包括:
子系统的动力学模型构建模块301,用于根据可重构机器人的转动惯量、加速比、摩擦力和所述可重构机器人子系统之间的交联耦合项构建子系统的动力学模型。
性能指标函数构建模块302,用于根据全局位置误差和所述动力学模型利用多人零和博弈方法构建性能指标函数;所述全局位置误差包括所述可重构机器人子系统的位置误差以及速度误差。
哈密顿-雅克比-埃塞克方程构建模块303,用于根据所述性能指标函数和所述动力学模型利用贝尔曼最优性原理得到哈密顿-雅克比-埃塞克方程。
补偿控制律确定模块304,用于通过所述哈密顿-雅克比-埃塞克方程和所述动力学模型确定补偿控制律。
近似权值确定模块305,用于利用神经网络对所述性能指标函数进行处理,得到近似权值。
优化控制律确定模块306,用于利用所述近似权值和所述哈密顿-雅克比-埃塞克方程得到优化控制律。
最优控制律确定模块307,用于根据所述补偿控制律和所述优化控制律确定所述可重构机器人的最优控制律。
其中,所述性能指标函数构建模块,具体包括:
子系统的状态空间确定单元,用于根据所述动力学模型、可重构机器人子系统的位置分量及速度分量确定子系统的状态空间。
扩张单元,用于基于多人零和博弈方法利用漂移动力学对所述状态空间进行扩张,得到扩张函数。
性能指标函数构建单元,用于根据所述扩张函数和所述全局位置误差构建性能指标函数。
其中,所述哈密顿-雅克比-埃塞克方程构建模块,具体包括:
转换单元,用于将所述动力学模型进行转换,得到机器人速度动力学模型。
最小化处理单元,用于根据所述性能指标函数对所述机器人速度动力学模型进行最小化处理,得哈密顿函数。
哈密顿-雅克比-埃塞克方程确定单元,用于根据所述哈密顿函数利用贝尔曼最优性原理得到哈密顿-雅克比-埃塞克方程。
其中,所述补偿控制律确定模块,具体包括:
第一控制律确定单元,用于根据所述哈密顿-雅克比-埃塞克方程和可重构机器人子系统的鞍点确定子系统的第一控制律。
补偿控制律确定单元,用于根据所述第一控制律和所述动力学模型中的子系统的设定模型确定补偿控制律。
本发明首先建立可重构机器人系统的动力学模型,其次构建性能指标函数与哈密顿-雅克比-埃塞克方程,通过神经网络近似性能指标函数来求哈密顿-雅克比-埃塞克方程的解,最后通过实验验证所提出控制方法的有效性。借助了零和博弈的这种观点,把可重构机器人系统的控制器与其交联耦合项分别作为博弈系统的两个参与者进行博弈,能够使机器人系统达到准确性、最优性以及稳定性。解决了现有技术中对于存在交联耦合项的系统不能保证准确性、最优性以及稳定性的问题,并且可以满足各种任务的需求。
在位置跟踪方面,本发明改善了因为存在交联耦合项的可重构机器人系统跟踪性能低的情况,并且采用了多人零和博弈消除了交联耦合项的影响,加快系统的跟踪速度,并且使关节位置的稳态误差减小。
在控制力矩方面,本发明的控制力矩更加连续和平滑,不仅可以保持系统渐进稳定,而且可以降低每个关节的能量损耗。
本说明书中各个实施例采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似部分互相参见即可。对于实施例公开的系统而言,由于其与实施例公开的方法相对应,所以描述的比较简单,相关之处参见方法部分说明即可。
本文中应用了具体个例对本发明的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本发明的方法及其核心思想;同时,对于本领域的一般技术人员,依据本发明的思想,在具体实施方式及应用范围上均会有改变之处。综上所述,本说明书内容不应理解为对本发明的限制。

Claims (10)

1.一种多人零和博弈可重构机器人最优控制方法,其特征在于,包括:
根据可重构机器人的转动惯量、加速比、摩擦力和所述可重构机器人子系统之间的交联耦合项构建子系统的动力学模型;
根据全局位置误差和所述动力学模型利用多人零和博弈方法构建性能指标函数;所述全局位置误差包括所述可重构机器人子系统的位置误差以及速度误差;
根据所述性能指标函数和所述动力学模型利用贝尔曼最优性原理得到哈密顿-雅克比-埃塞克方程;
通过所述哈密顿-雅克比-埃塞克方程和所述动力学模型确定补偿控制律;
利用神经网络对所述性能指标函数进行处理,得到近似权值;
利用所述近似权值和所述哈密顿-雅克比-埃塞克方程得到优化控制律;
根据所述补偿控制律和所述优化控制律确定所述可重构机器人的最优控制律。
2.根据权利要求1所述的多人零和博弈可重构机器人最优控制方法,其特征在于,所述根据全局位置误差和所述动力学模型利用多人零和博弈方法构建性能指标函数,具体包括:
根据所述动力学模型、可重构机器人子系统的位置分量及速度分量确定子系统的状态空间;
基于多人零和博弈方法利用漂移动力学对所述状态空间进行扩张,得到扩张函数;
根据所述扩张函数和所述全局位置误差构建性能指标函数。
3.根据权利要求1所述的多人零和博弈可重构机器人最优控制方法,其特征在于,所述根据所述性能指标函数和所述动力学模型利用贝尔曼最优性原理得到哈密顿-雅克比-埃塞克方程,具体包括:
将所述动力学模型进行转换,得到机器人速度动力学模型;
根据所述性能指标函数对所述机器人速度动力学模型进行最小化处理,得哈密顿函数;
根据所述哈密顿函数利用贝尔曼最优性原理得到哈密顿-雅克比-埃塞克方程。
4.根据权利要求3所述的多人零和博弈可重构机器人最优控制方法,其特征在于,所述通过所述哈密顿-雅克比-埃塞克方程和所述动力学模型确定补偿控制律,具体包括:
根据所述哈密顿-雅克比-埃塞克方程和可重构机器人子系统的鞍点确定子系统的第一控制律;
根据所述第一控制律和所述动力学模型中的子系统的设定模型确定补偿控制律。
5.根据权利要求4所述的多人零和博弈可重构机器人最优控制方法,其特征在于,所述利用所述近似权值和所述哈密顿-雅克比-埃塞克方程得到优化控制律,具体包括:
利用所述神经网络对所述性能指标函数的梯度进行处理,得到近似梯度;
根据所述近似权值和所述性能指标函数建立评判神经网络;
根据所述评判神经网络和所述第一控制律得到第二控制律;
根据所述第二控制律、所述哈密顿-雅克比-埃塞克方程、所述性能指标函数和所述近似梯度得到优化控制律。
6.根据权利要求1所述的多人零和博弈可重构机器人最优控制方法,其特征在于,所述根据所述补偿控制律和所述优化控制律确定所述可重构机器人的最优控制律,具体包括:
对所述补偿控制律和所述优化控制律进行求和,得到所述可重构机器人的最优控制律。
7.一种多人零和博弈可重构机器人最优控制系统,其特征在于,包括:
子系统的动力学模型构建模块,用于根据可重构机器人的转动惯量、加速比、摩擦力和所述可重构机器人子系统之间的交联耦合项构建子系统的动力学模型;
性能指标函数构建模块,用于根据全局位置误差和所述动力学模型利用多人零和博弈方法构建性能指标函数;所述全局位置误差包括所述可重构机器人子系统的位置误差以及速度误差;
哈密顿-雅克比-埃塞克方程构建模块,用于根据所述性能指标函数和所述动力学模型利用贝尔曼最优性原理得到哈密顿-雅克比-埃塞克方程;
补偿控制律确定模块,用于通过所述哈密顿-雅克比-埃塞克方程和所述动力学模型确定补偿控制律;
近似权值确定模块,用于利用神经网络对所述性能指标函数进行处理,得到近似权值;
优化控制律确定模块,用于利用所述近似权值和所述哈密顿-雅克比-埃塞克方程得到优化控制律;
最优控制律确定模块,用于根据所述补偿控制律和所述优化控制律确定所述可重构机器人的最优控制律。
8.根据权利要求7所述的多人零和博弈可重构机器人最优控制系统,其特征在于,所述性能指标函数构建模块,具体包括:
子系统的状态空间确定单元,用于根据所述动力学模型、可重构机器人子系统的位置分量及速度分量确定子系统的状态空间;
扩张单元,用于基于多人零和博弈方法利用漂移动力学对所述状态空间进行扩张,得到扩张函数;
性能指标函数构建单元,用于根据所述扩张函数和所述全局位置误差构建性能指标函数。
9.根据权利要求7所述的多人零和博弈可重构机器人最优控制系统,其特征在于,所述哈密顿-雅克比-埃塞克方程构建模块,具体包括:
转换单元,用于将所述动力学模型进行转换,得到机器人速度动力学模型;
最小化处理单元,用于根据所述性能指标函数对所述机器人速度动力学模型进行最小化处理,得哈密顿函数;
哈密顿-雅克比-埃塞克方程确定单元,用于根据所述哈密顿函数利用贝尔曼最优性原理得到哈密顿-雅克比-埃塞克方程。
10.根据权利要求9所述的多人零和博弈可重构机器人最优控制系统,其特征在于,所述补偿控制律确定模块,具体包括:
第一控制律确定单元,用于根据所述哈密顿-雅克比-埃塞克方程和可重构机器人子系统的鞍点确定子系统的第一控制律;
补偿控制律确定单元,用于根据所述第一控制律和所述动力学模型中的子系统的设定模型确定补偿控制律。
CN202111331549.5A 2021-11-11 2021-11-11 一种多人零和博弈可重构机器人最优控制方法及系统 Active CN113910241B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111331549.5A CN113910241B (zh) 2021-11-11 2021-11-11 一种多人零和博弈可重构机器人最优控制方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111331549.5A CN113910241B (zh) 2021-11-11 2021-11-11 一种多人零和博弈可重构机器人最优控制方法及系统

Publications (2)

Publication Number Publication Date
CN113910241A true CN113910241A (zh) 2022-01-11
CN113910241B CN113910241B (zh) 2023-09-22

Family

ID=79245973

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111331549.5A Active CN113910241B (zh) 2021-11-11 2021-11-11 一种多人零和博弈可重构机器人最优控制方法及系统

Country Status (1)

Country Link
CN (1) CN113910241B (zh)

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP2270679A1 (fr) * 2009-07-01 2011-01-05 Centre National D'etudes Spatiales Procédé de contrôle optimal d'un système modélisable par des équations de Hamilton Jacobi Bellman
CN111722531A (zh) * 2020-05-12 2020-09-29 天津大学 一种切换线性系统在线无模型最优控制方法
CN112445131A (zh) * 2019-08-30 2021-03-05 天津大学 一种线性系统自适应最优跟踪控制方法
CN113211446A (zh) * 2021-05-20 2021-08-06 长春工业大学 一种事件触发-神经动态规划的机械臂分散跟踪控制方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP2270679A1 (fr) * 2009-07-01 2011-01-05 Centre National D'etudes Spatiales Procédé de contrôle optimal d'un système modélisable par des équations de Hamilton Jacobi Bellman
CN112445131A (zh) * 2019-08-30 2021-03-05 天津大学 一种线性系统自适应最优跟踪控制方法
CN111722531A (zh) * 2020-05-12 2020-09-29 天津大学 一种切换线性系统在线无模型最优控制方法
CN113211446A (zh) * 2021-05-20 2021-08-06 长春工业大学 一种事件触发-神经动态规划的机械臂分散跟踪控制方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
安天骄: ""基于自适应动态规划的可重构机器人系统分散积分滑模最优控制研究"", 《中国优秀硕士学位论文全文数据库-信息科技辑》 *

Also Published As

Publication number Publication date
CN113910241B (zh) 2023-09-22

Similar Documents

Publication Publication Date Title
CN111136633B (zh) 针对时变时延下柔性主-从机器人系统的全状态控制方法
Zhang et al. PDE modeling and control of a flexible two-link manipulator
de Queiroz et al. Adaptive nonlinear boundary control of a flexible link robot arm
Moallem et al. An integral manifold approach for tip-position tracking of flexible multi-link manipulators
Lu et al. Adaptive robust control of linear motors with dynamic friction compensation using modified LuGre model
CN108803324A (zh) 多关节工业机械臂反步有限时间滑模控制方法
Moallem et al. Nonlinear tip-position tracking control of a flexible-link manipulator: theory and experiments
Duchaine et al. Computationally efficient predictive robot control
CN104723340A (zh) 基于连接和阻尼配置的柔性关节机械臂的阻抗控制方法
Morales et al. Control of a DC motor using algebraic derivative estimation with real time experiments
CN112904728A (zh) 一种基于改进型趋近律的机械臂滑模控制轨迹跟踪方法
CN107351086B (zh) 一种scara机器人关节力矩的卡尔曼估计方法
CN110597051A (zh) 基于RBF神经网络的Stewart稳定平台控制方法
CN112782977B (zh) 一种基于bp神经网络与扩张观测器的电机柔顺控制方法
CN111730594A (zh) 一种模块化机器人面向外部碰撞的分散控制方法及系统
CN112549030A (zh) 一种基于抗干扰滤波的空间机械臂柔性关节位姿估计方法
CN113733117B (zh) 一种可重构机器人人类意图辨识控制方法及装置
CN114167734B (zh) 一种强耦合非线性系统高精度控制方法及控制系统
Liu et al. High-precision dynamic torque control of high stiffness actuator for humanoids
Liu et al. Model-based adaptive hybrid control for manipulators under multiple geometric constraints
CN113910241B (zh) 一种多人零和博弈可重构机器人最优控制方法及系统
CN113370208A (zh) 一种可重构机械臂子系统的控制方法及系统
CN114211478A (zh) 一种模块化机械臂协调操作最优控制方法及系统
Lebastard et al. Observer-based control of a walking biped robot without orientation measurement
CN114147713B (zh) 基于自适应神经网络高阶动态滑模的轨迹跟踪控制方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant