CN113093538A - 一种模块化机器人系统的非零和博弈神经-最优控制方法 - Google Patents
一种模块化机器人系统的非零和博弈神经-最优控制方法 Download PDFInfo
- Publication number
- CN113093538A CN113093538A CN202110316833.9A CN202110316833A CN113093538A CN 113093538 A CN113093538 A CN 113093538A CN 202110316833 A CN202110316833 A CN 202110316833A CN 113093538 A CN113093538 A CN 113093538A
- Authority
- CN
- China
- Prior art keywords
- equation
- neural network
- joint
- optimal control
- follows
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G05—CONTROLLING; REGULATING
- G05B—CONTROL OR REGULATING SYSTEMS IN GENERAL; FUNCTIONAL ELEMENTS OF SUCH SYSTEMS; MONITORING OR TESTING ARRANGEMENTS FOR SUCH SYSTEMS OR ELEMENTS
- G05B13/00—Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion
- G05B13/02—Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion electric
- G05B13/04—Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion electric involving the use of models or simulators
- G05B13/042—Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion electric involving the use of models or simulators in which a parameter or coefficient is automatically adjusted to optimise the performance
Landscapes
- Engineering & Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Computation (AREA)
- Medical Informatics (AREA)
- Software Systems (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Automation & Control Theory (AREA)
- Feedback Control In General (AREA)
Abstract
本发明提出了一种模块化机器人系统的非零和博弈神经‑最优控制方法,首先基于力矩反馈技术建立了模块化机器人的动力学模型,并将动力学模型描述为一类存在交联耦合项的子系统整合的形式。基于局部动力学信息的鲁棒控制律补偿系统的摩擦项,将最优轨迹跟踪问题转化为n个参与者的非零和神经‑最优控制问题。采用自适应动态规划算法,对评判函数用单评判网络进行逼近,并解决了耦合的哈密顿‑雅可比方程。
Description
技术领域
本发明涉及不确定环境下补偿-评判结构的模块化机器人非零和博弈神经-最优控制方法,属于机器人控制算法领域。
背景技术
模块化机器人由电源、处理系统、执行器和传感器等模块组成。这些模块组合满足不同构形的标准机电接口来适应复杂工作环境的各种任务要求,基于上述优点,模块化机器人经常应用于不确定环境中,例如人机交互、外界碰撞等。此外,在不确定环境下,模块化机器人需要兼顾控制精度和功耗的合适控制系统。
最优控制作为控制理论的重要组成部分,其研究的核心问题是对于一个给定的被控系统,选择合适的控制策略使系统的某些性能指标达到最优。对于模块化机器人系统,获取其最优控制策略则需要求解耦合的哈密顿-雅克比方程,而该方程是一类非线性偏微分方程,难以用解析方法求得最优解。自适应动态规划方法是一种解决非线性系统最优控制问题的强有力工具,在自适应动态规划系统中,神经网络被设计用来近似性能指标函数并估计哈密顿-雅克比方程的解。
对于不确定环境下的非线性系统,尤其是模块化机器人系统,通过设计补偿-评判结构的非零和神经-最优控制,并结合通过求解耦合的哈密顿-雅克比方程得到非零和最优控制律,运用到动力学模型,获得关节位置变量。
发明内容
本发明为了解决传统的模块化机器人控制方法中存在不确定环境情况下,机器人关节的跟踪性能较低的问题,提出一种性能较好的非零和最优控制方法,以实现不确定环境下模块化机器人系统的高精度非零和最优控制。将模块化机器人系统的动力学模型描述为一个相互耦合的子系统的合成,通过求解耦合的HJ方程,结合补偿结构以及近似性能指标函数对位置和速度跟踪性能及各关节模块的控制力矩进行优化,并最终实现完备的非零和神经-最优控制。
本发明解决技术问题的方案是:
一种模块化机器人系统的非零和博弈神经-最优控制方法,其特征是,首先建立模块化机器人系统动力学模型,通过对模块化机器人关节子系统间的耦合交联项的分析,然后构建代价函数与耦合的HJ方程,接下来采用神经网络对代价函数进行近似,从而得到本发明所提出的补偿-评判结构的非零和博弈神经-最优控制律。
该方法包括如下步骤:
step1,建立模块化机器人系统动力学模型如下:
上式中,下标i代表第i个模块,Imi是转动轴的转动惯量,γi是齿轮传动比,θi,和分别是关节位置,速度和加速度,是关节摩擦项,是关节子系统间的关节子系统间的耦合交联项,τis是关节输出转矩,τi是电机输出转矩;
step2,构建代价函数为:
其中,s(e(τ))定义为为滤波误差,且e=x1-xd和分别代表关节的位置和速度跟踪误差,xd与分别是期望的位置和速度,αe为确定常数,Ui(s,u1,...,un)为效用函数,和是确定的正常数矩阵;
定义哈密顿方程如下:
定义如下最优代价函数:
已知在最优控制设计下,Ji *(s,u1,...,un)满足如下耦合的HJ方程:
定义鲁棒控制律ui1为:
ui1=ui1C+ui1F (16)
其中ui1C,ui1F分别为鲁棒常数与变量补偿的控制律,其中ui1C可以定义为:
其中上式控制律的参数可以由已经测量和已知项得到。
ui1F=ui1Fp+Yi(xi2)(ui1FYa+ui1FYb) (18)
其中ui1Fp,ui1FYa,ui1FYb可以定义为:
其中εiFp,εiFrc,ρiFrm,εiFvm代表为已知的函数阈值,并为正常数;
step3,通过神经网络来近似代价函数Ji(s),定义如下:
其中,Wic是理想的权值向量,φic(s)是激活函数,εic是神经网络的逼近误差,Ji(s)的梯度通过神经网络近似为:
定义激活函数φic(s)为:
根据哈密顿方程(12)和HJ方程(14),哈密顿方程可以进一步改写为:
其中,eicH是由神经网络逼近误差而得到的残差;
以同样的方式近似哈密顿方程,可得:
其中,αic>0表示评价神经网络的学习速率。为了推导出神经网络权值的动态误差,引入下式:
通过式(24),(25),得到评价神经网络的动态误差如下所示:
本发明的有益效果如下:
本发明所述的一种模块化机器人系统的非零和博弈神经-最优控制方法,可以在面向不确定环境的条件下,使机器人系统实现良好的稳定性与控制精度。
本发明所述一种模块化机器人系统的非零和博弈神经-最优控制方法,可以在提高模块化机器人控制精度的同时,降低系统执行器的能耗。
附图说明
图1为本发明一种模块化机器人系统的非零和博弈神经-最优控制方法原理图。
具体实施方式
下面结合附图对本发明做进一步详细说明。
如图1所示,本发明一种模块化机器人系统的非零和博弈神经-最优控制方法,其实现中关键处理方法及过程如下:
1、建立动力学模型
建立模块化机机器人系统的动力学模型如下:
其中,是关于Stribeck效应的位置参数,分别为给定的摩擦参数的估计值,是位置误差和其他摩擦模型误差。假设fis和fiτ的标称值和他们的实际值是相接近的,我们就可以通过标称参数值和来线性化忽略高阶项后,关节摩擦项可以近似等于:
其中,vmi是第i个转子旋转轴上的单位矢量,vlj是第i个关节旋转轴上的单位矢量,vlk是第k个转子旋转轴上的单位矢量。
耦合关节力矩τis是由关节力矩传感器测得,其中:
τis=τisf+τisc (8)
其中τisf为自由空间下关节力矩传感器测得、τisc是由于连续或者瞬时碰撞导致的环境接触。
性质1:根据摩擦力模型(2),如果参数fib,fic,fis,fiτ都是有界的,我们可以得出是有界的,且ρFil=[ρFi1,ρFi2,ρFi3,ρFi4]是一个已知的常数向量,ρFi1,ρFi2,ρFi3,ρFi4为已知的正常数上界。因此,摩擦力模型的上界可以定义为
性质3:vmi,vlk与vlj是沿着相应关节旋转方向的单位矢量,与得到的向量乘积是有界的。此外,当关节稳定时,它的加速度与速度一定是有界的,因此,根据在(6)与(7)中交联项的形式,可以得出这样的结论:如果关节j和关节k是稳定的(j,k<i),那么是有界的。由此可知,性质3说明了如果关节j和关节k是稳定的(j,k<i),那么是有界的,这意味着当我们设计第i个关节的控制器时,低阶关节i-1也已经是稳定的。
为了方便模块化机器人控制器的设计,将子系统扩张为n个参与者的状态空间形式:
其中,x=[x1,x2]T∈R2n代表子系统的全局状态,x1=[x11,...,xi1,...,xn1]T,x2=[x12,...,xi2,...,xn2]T代表位置与速度的全局向量,f(x)=[f1(x1),...,fi(xi),...,fn(xn)]T为系统的动力学向量,Ξ(x)=[Ξ1(x),...,Ξi(x),...,Ξn(x)]T为不确定项,Gj=[0,..,gj,...,0]T为输入矩阵,gj=(Ijmγj)-1是矩阵Gj的第j个元素。
2、构建代价函数与哈密顿函数
首先,构建代价函数为:
其中,s(e(τ))定义为为滤波误差,且e=x1-xd和分别代表关节的位置和速度跟踪误差,xd与分别是期望的位置和速度,αe为确定常数,Ui(s,u1,...,un)为效用函数,和是确定的正常数矩阵。
定义哈密顿方程如下:
定义如下最优代价函数:
已知在最优控制设计下,Ji *(s,u1,...,un)满足如下耦合的HJ方程:
定义鲁棒控制律ui1为:
ui1=ui1C+ui1F (16)
其中ui1C,ui1F分别为鲁棒常数与变量补偿的控制律。其中ui1C可以定义为:
其中可以由已经测量和已知项得到。
ui1F=ui1Fp+Yi(xi2)(ui1FYa+ui1FYb) (18)
其中ui1Fp,ui1FYa,ui1FYb可以定义为:
其中εiFp,εiFrc,ρiFrm,εiFvm为已知的正常数。
3、基于神经网络的代价函数近似实现
其中,Wic是理想的权值向量,φic(s)是激活函数,εic是神经网络的逼近误差,Ji(s)的梯度通过神经网络近似为:
定义激活函数Tic(s)为:
根据哈密顿方程(12)和HJ方程(14),哈密顿方程可以进一步改写为:
其中,eicH是由神经网络逼近误差而得到的残差。
以同样的方式近似哈密顿方程,可得:
其中,αic>0表示评价神经网络的学习速率。为了推导出神经网络权值的动态误差,引入下式:
通过式(24),(25),得到评价神经网络的动态误差如下所示
本发明所述的一种模块化机器人系统的非零和博弈神经-最优控制方法,可以使模块化机器人系统在面向不确定环境的条件下实现高性能的轨迹跟踪控制。本说明书中各个实施例采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似部分互相参见即可。对于实施例公开的系统而言,由于其与实施例公开的方法相对应,所以描述的比较简单,相关之处参见方法部分说明即可。同时,对于本领域的一般技术人员,依据本发明的思想,在具体实施方式及应用范围上均会有改变之处。综上所述,本说明书内容不应理解为对本发明的限制。
Claims (2)
1.一种模块化机器人系统的非零和博弈神经-最优控制方法,其特征是,首先建立模块化机器人系统动力学模型,通过对模块化机器人关节子系统间的耦合交联项的分析,然后构建代价函数与耦合的HJ方程,最后采用神经网络对代价函数进行近似,从而得到本发明所提出的补偿-评判结构的非零和博弈神经-最优控制律。
2.根据权利要求1所述的一种模块化机器人系统的非零和博弈神经-最优控制方法,该方法包括以下步骤:
Step1,建立模块化机器人系统动力学模型如下:
Step2,构建代价函数为:
其中,s(e(τ))定义为为滤波误差,且e=x1-xd和分别代表关节的位置和速度跟踪误差,xd与分别是期望的位置和速度,αe为确定常数,Ui(s,u1,...,un)为效用函数,和是确定的正常数矩阵;
定义哈密顿方程如下:
定义如下最优代价函数:
已知在最优控制设计下,Ji *(s,u1,...,un)满足如下耦合的HJ方程:
定义鲁棒控制律ui1为:
ui1=ui1C+ui1F (16)
其中ui1C,ui1F分别为鲁棒常数与变量补偿的控制律;其中ui1C可以定义为:
其中上式控制律的参数可以由已经测量和已知项得到;
ui1F=ui1Fp+Yi(xi2)(ui1FYa+ui1FYb) (18)
其中ui1Fp,ui1FYa,ui1FYb可以定义为:
其中εiFp,εiFrc,ρiFrm,εiFvm代表为已知的函数阈值,并为正常数;
Step3,通过神经网络来近似代价函数Ji(s),定义如下:
其中,Wic是理想的权值向量,φic(s)是激活函数,εic是神经网络的逼近误差,Ji(s)的梯度通过神经网络近似为:
定义激活函数φic(s)为:
根据哈密顿方程(12)和HJ方程(14),哈密顿方程可以进一步改写为:
其中,eicH是由神经网络逼近误差而得到的残差;
以同样的方式近似哈密顿方程,可得:
其中,αic>0表示评价神经网络的学习速率;为了推导出神经网络权值的动态误差,引入下式:
通过式(24),(25),得到评价神经网络的动态误差如下所示:
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110316833.9A CN113093538A (zh) | 2021-03-18 | 2021-03-18 | 一种模块化机器人系统的非零和博弈神经-最优控制方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110316833.9A CN113093538A (zh) | 2021-03-18 | 2021-03-18 | 一种模块化机器人系统的非零和博弈神经-最优控制方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN113093538A true CN113093538A (zh) | 2021-07-09 |
Family
ID=76669446
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110316833.9A Pending CN113093538A (zh) | 2021-03-18 | 2021-03-18 | 一种模块化机器人系统的非零和博弈神经-最优控制方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113093538A (zh) |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114211478A (zh) * | 2022-01-05 | 2022-03-22 | 长春工业大学 | 一种模块化机械臂协调操作最优控制方法及系统 |
CN114406996A (zh) * | 2021-12-30 | 2022-04-29 | 长春工业大学 | 一种输入受限机械臂的合作博弈最优跟踪控制方法及系统 |
CN115877871A (zh) * | 2023-03-03 | 2023-03-31 | 北京航空航天大学 | 一种基于强化学习的非零和博弈无人机编队控制方法 |
CN117031968A (zh) * | 2023-10-10 | 2023-11-10 | 山东科技大学 | 一种基于非合作博弈的带式输送机控制方法 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107544261A (zh) * | 2017-10-26 | 2018-01-05 | 长春工业大学 | 不确定环境接触下的可重构机器人分散学习最优控制方法 |
CN108789417A (zh) * | 2018-07-30 | 2018-11-13 | 长春工业大学 | 基于自适应动态规划的可重构机械臂保代价分散控制方法 |
CN109581868A (zh) * | 2018-09-21 | 2019-04-05 | 长春工业大学 | 基于评判辨识结构的可重构机器人分散神经最优控制方法 |
WO2019222597A1 (en) * | 2018-05-18 | 2019-11-21 | Google Llc | System and methods for pixel based model predictive control |
DE102019203634A1 (de) * | 2019-03-18 | 2020-09-24 | Robert Bosch Gmbh | Verfahren und Vorrichtung zum Ansteuern eines Roboters |
CN111880412A (zh) * | 2020-08-12 | 2020-11-03 | 长春工业大学 | 基于单评判网络的可重构机器人零和神经最优控制方法 |
-
2021
- 2021-03-18 CN CN202110316833.9A patent/CN113093538A/zh active Pending
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107544261A (zh) * | 2017-10-26 | 2018-01-05 | 长春工业大学 | 不确定环境接触下的可重构机器人分散学习最优控制方法 |
WO2019222597A1 (en) * | 2018-05-18 | 2019-11-21 | Google Llc | System and methods for pixel based model predictive control |
CN108789417A (zh) * | 2018-07-30 | 2018-11-13 | 长春工业大学 | 基于自适应动态规划的可重构机械臂保代价分散控制方法 |
CN109581868A (zh) * | 2018-09-21 | 2019-04-05 | 长春工业大学 | 基于评判辨识结构的可重构机器人分散神经最优控制方法 |
DE102019203634A1 (de) * | 2019-03-18 | 2020-09-24 | Robert Bosch Gmbh | Verfahren und Vorrichtung zum Ansteuern eines Roboters |
CN111880412A (zh) * | 2020-08-12 | 2020-11-03 | 长春工业大学 | 基于单评判网络的可重构机器人零和神经最优控制方法 |
Non-Patent Citations (3)
Title |
---|
BO DONG 等: "A neuro-optimal control method of modular robot manipulators based on nonzero-sum game strategy", 《2020 CHINESE AUTOMATION CONGRESS (CAC)》 * |
夏宏兵: "基于自适应动态规划的可重构机械臂容错控制方法研究", 《中国硕士学位论文全文数据库信息科技辑》 * |
董博: "面向动态约束的可重构模块机器人力矩估计与分散控制方法研究", 《中国博士学位论文全文数据库信息科技辑》 * |
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114406996A (zh) * | 2021-12-30 | 2022-04-29 | 长春工业大学 | 一种输入受限机械臂的合作博弈最优跟踪控制方法及系统 |
CN114211478A (zh) * | 2022-01-05 | 2022-03-22 | 长春工业大学 | 一种模块化机械臂协调操作最优控制方法及系统 |
CN114211478B (zh) * | 2022-01-05 | 2022-09-30 | 长春工业大学 | 一种模块化机械臂协调操作最优控制方法及系统 |
CN115877871A (zh) * | 2023-03-03 | 2023-03-31 | 北京航空航天大学 | 一种基于强化学习的非零和博弈无人机编队控制方法 |
CN117031968A (zh) * | 2023-10-10 | 2023-11-10 | 山东科技大学 | 一种基于非合作博弈的带式输送机控制方法 |
CN117031968B (zh) * | 2023-10-10 | 2024-02-09 | 山东科技大学 | 一种基于非合作博弈的带式输送机控制方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN113093538A (zh) | 一种模块化机器人系统的非零和博弈神经-最优控制方法 | |
CN107544261B (zh) | 不确定环境接触下的可重构机器人分散学习最优控制方法 | |
CN108789417B (zh) | 基于自适应动态规划的可重构机械臂保代价分散控制方法 | |
CN108942924B (zh) | 基于多层神经网络的模型不确定性机械臂运动控制方法 | |
CN107561935B (zh) | 基于多层神经网络的电机位置伺服系统摩擦补偿控制方法 | |
CN109465825A (zh) | 机械臂柔性关节的rbf神经网络自适应动态面控制方法 | |
CN109581868B (zh) | 基于评判辨识结构的可重构机器人分散神经最优控制方法 | |
CN112904728A (zh) | 一种基于改进型趋近律的机械臂滑模控制轨迹跟踪方法 | |
CN101369132B (zh) | 基于神经网络辨识器的永磁球形电动机力学解耦控制方法 | |
CN109683624A (zh) | 用于小型无人直升机姿态控制的非线性鲁棒控制方法 | |
CN111730594A (zh) | 一种模块化机器人面向外部碰撞的分散控制方法及系统 | |
Yang et al. | A CMAC-PD compound torque controller with fast learning capacity and improved output smoothness for electric load simulator | |
CN108762088B (zh) | 一种迟滞非线性伺服电机系统滑模控制方法 | |
Mohammadi et al. | PSO tuned FLC for full autopilot control of quadrotor to tackle wind disturbance using bond graph approach | |
Wu et al. | A study on tracking error based on mechatronics model of a 5-DOF hybrid spray-painting robot | |
CN113703319A (zh) | 基于强化学习的关节模组不等式约束最优鲁棒控制方法 | |
Ren et al. | Trajectory-tracking-based adaptive neural network sliding mode controller for robot manipulators | |
CN115990888A (zh) | 一种具有死区和时变约束功能的机械臂控制方法 | |
Zhang et al. | Robot peg-in-hole assembly based on contact force estimation compensated by convolutional neural network | |
Liu et al. | Full backstepping control in dynamic systems with air disturbances optimal estimation of a quadrotor | |
CN113733117B (zh) | 一种可重构机器人人类意图辨识控制方法及装置 | |
Salmasi et al. | A manoeuvre control strategy for flexible-joint manipulators with joint dry friction | |
CN112363538B (zh) | 一种速度信息不完备下的auv区域跟踪控制方法 | |
Zhang et al. | Adaptive backstepping control of dual-motor driving servo systems with friction | |
Guo et al. | Robust control of a serial variable stiffness actuator based on nonlinear disturbance observer (NDOB) |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
WD01 | Invention patent application deemed withdrawn after publication | ||
WD01 | Invention patent application deemed withdrawn after publication |
Application publication date: 20210709 |