CN111880412A - 基于单评判网络的可重构机器人零和神经最优控制方法 - Google Patents
基于单评判网络的可重构机器人零和神经最优控制方法 Download PDFInfo
- Publication number
- CN111880412A CN111880412A CN202010805559.7A CN202010805559A CN111880412A CN 111880412 A CN111880412 A CN 111880412A CN 202010805559 A CN202010805559 A CN 202010805559A CN 111880412 A CN111880412 A CN 111880412A
- Authority
- CN
- China
- Prior art keywords
- error
- joint
- neural network
- reconfigurable robot
- cost function
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Classifications
-
- G—PHYSICS
- G05—CONTROLLING; REGULATING
- G05B—CONTROL OR REGULATING SYSTEMS IN GENERAL; FUNCTIONAL ELEMENTS OF SUCH SYSTEMS; MONITORING OR TESTING ARRANGEMENTS FOR SUCH SYSTEMS OR ELEMENTS
- G05B13/00—Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion
- G05B13/02—Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion electric
- G05B13/04—Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion electric involving the use of models or simulators
- G05B13/042—Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion electric involving the use of models or simulators in which a parameter or coefficient is automatically adjusted to optimise the performance
Abstract
基于单评判辨网络的可重构机器人系统的零和神经最优控制方法,属于机器人控制算法领域,为了解决现有技术中存在不确定性干扰的问题,该方法首先建立可重构机器人系统的动力学模型,其次构建代价函数与HJI方程,通过基于策略迭代的学习算法,来求HJI方程的解,然后通过对可重构机器人关节子系统间的耦合交联项的观测,接下来采用神经网络对代价函数进行近似,最后通过仿真验证所提出控制方法的有效性。该方法改善了系统的跟踪性能,并且采用了单评判神经网络对未知非线性项的计算负担,关节位置的稳态误差减小;不仅可以保持系统渐进稳定,而且可以降低每个关节的能量损耗;为可重构机器人提供稳定性和精确性,并且可以满足各种任务的需求。
Description
技术领域
本发明涉及一种可重构机器人系统的单评判网络零和神经最优控制方法,属于机器人控 制算法领域。
背景技术
可重构机器人可以根据不同的任务需求对自身构形进行重新组合与配置,从而表现出许 多传统机器人所不具有的优势。“模块化”与“可重构”作为可重构机器人设计的两大基本 要求,其主要思想是将一个复杂的机器人系统分解为多个具有较高便携性与可维护性的子系 统,从而有效缩短机器人系统的设计与制造的周期。可重构机器人系统不可避免在未知环境 下完成工作,并且要综合考虑并确保系统的稳定性、鲁棒性、精确性、节能性等指标,因此 在环境信息不确定的条件下采用合适的控制策略是十分必要的。
最优控制作为现代控制理论的重要组成部分,其研究的核心问题是对于一个给定的被控 系统,选择合适的控制策略使系统的某些性能指标达到最优。对于可重构机器人系统,获取 其最优控制策略则需要求解哈密顿-雅克比-埃塞克方程,而该方程是一类非线性偏微分方程, 难以用解析方法求得最优解。自适应动态规划方法是一种解决非线性系统最优控制问题的强 有力工具,在自适应动态规划系统中,神经网络被设计用来近似性能指标函数并估计哈密顿- 雅克比-埃塞克方程的解。
对于复杂的相互关联的非线性系统,尤其是可重构机器人系统,交联项的性质和规模与 内部动力学有很大的不同。通过设计状态扩展观测器对耦合交联项进行观测,并结合通过求 解哈密顿-雅克比-埃塞克方程的零和最优控制律以及最坏干扰律,得到单评判网络的零和神 经最优控制律,运用到动力学模型,获得关节位置变量。
发明内容
本发明为了解决现有技术中存在不确定性干扰的问题,提出了一种基于单评判辨网络的 可重构机器人系统的零和神经最优控制方法。
本发明解决技术问题的方案是:
基于单评判网络的可重构机器人零和神经最优控制方法,其特征是,该方法首先建立可 重构机器人系统的动力学模型,其次构建代价函数与HJI方程,通过基于策略迭代的学习算 法,来求HJI方程的解,然后通过对可重构机器人关节子系统间的耦合交联项的观测,接下 来采用神经网络对代价函数进行近似,最后通过仿真验证所提出控制方法的有效性。
基于单评判网络结构的可重构机器人零和神经最优控制方法,包括如下步骤:
步骤一,建立可重构机器人系统动力学模型如下:
在实际应用中,诸如空间探索或灾难救援,可重构机器人有很多关节模块,集中控制会 带来沉重的计算负担和复杂的控制结构。为了解决这一缺陷,考虑可重构机器人的每一个子 系统,其中包含交联耦合项,第i个子系统的动力学模型可表示为:
其中,xi是第i个子系统的状态,hi(x)是交联耦合项,x代表整个机器人的状态向量,xi1,xi2是xi的第1,2个元素。
步骤二,构建代价函数如下:
定义哈密顿方程如下:
接下来,定义如下最优代价函数:
HJI方程可以改写成:
步骤三,交联项动力学的观测:
基于线性状态扩张观测器,状态空间可以扩张为:
其中lij,j=1,2,3为观测器选择的增益参数。其中,
其中ωi0为状态扩张观测器的带宽。
αij,j=1,2,3的选择是令Ai是符合赫尔维茨的。
根据哈密顿方程(7)和代价函数(18)以及它的梯度(19),哈密顿方程可以进一步改写为:
其中,eiJh是由评判网络逼近误差而得到的残差。
以同样的方式近似哈密顿方程,可得:
定义误差方程为:
权值估计误差定义为:
其中,αi表示评价神经网络的学习速率。
评价神经网络的动态误差如下所示:
其中,υi定义为:
结合(11)和(19),得到基于自适应动态规划的神经最优控制律以及最坏干扰律为:
本发明的有益效果如下:
在位置跟踪方面,本发明改善了系统的跟踪性能,并且采用了单评判神经网络对未知非 线性项的计算负担,关节位置的稳态误差减小。
在控制力矩方面,本发明的控制力矩更加连续和平滑,不仅可以保持系统渐进稳定,而 且可以降低每个关节的能量损耗。
在训练神经网络方面,本发明通过在线策略迭代的方法可以更快的训练神经网络。
因此,本发明解决了现有技术中存在不确定性干扰的最优控制精度低的问题,为可重构 机器人提供稳定性和精确性,并且可以满足各种任务的需求。
附图说明
图1为本发明基于单评判网络结构的可重构机器人零和神经最优控制原理图。
图2为本发明基于单评判网络结构的可重构机器人零和神经最优控制方法流程图。
具体实施方式
下面结合附图对本发明做进一步详细说明。
如图1所示,根据控制器参数与期望动力学信息,与期望位置变量作比较。通过确定神 经网络初值,得到神经网络权值更新率。交联项模型与其观测值相比较,得到观测误差函数, 获得交联项动力学的观测信息。通过近似代价函数与评判网络,得到基于单评判网络的自适 应动态规划的零和最优控制律以及最坏干扰律把交联项动力学观测信息、与相结 合,得到单评判网络的零和神经最优控制律,运用到动力学模型,获得关节位置变量。与期 望位置变量作差得到位置误差,再进而作用到神经网络权值更新率。
如图2所示,基于单评判网络的可重构机器人零和神经最优控制方法,该方法首先建立 可重构机器人系统动力学模型,其次构建代价函数与HJI方程,通过基于策略迭代的学习算 法,来求HJI方程的解,然后通过对可重构机器人关节子系统间的耦合力矩交联项的观测, 接下来采用神经网络对代价函数进行近似,最后通过仿真验证所提出控制方法的有效性。
1、动力学模型的建立
建立可重构机器人系统的动力学模型如下:
在实际应用中,诸如空间探索或灾难救援,可重构机器人有很多关节模块,集中控制会 带来沉重的计算负担和复杂的控制结构。为了解决这一缺陷,考虑可重构机器人的每一个子 系统,其中包含交联耦合项,第i个子系统的动力学模型可表示为:
其中,xi是第i个子系统的状态,
其中,hi(x)是交联耦合项,x代表整个机器人的状态向量,xi1,xi2是xi的第1,2个元素。
2、代价函数与哈密顿函数的构建
首先,构建代价函数为:
定义哈密顿方程如下:
HJI方程可以改写成:
3、交联项动力学的观测
采用状态扩张观测器来观测交联项动力学hi(x)。
根据状态空间(4),首先假设可重构机器人系统没有不确定性干扰,基于线性状态扩张观 测器,状态空间可以扩张为:
其中lij,j=1,2,3为观测器选择的增益参数。其中,
其中ωi0为状态扩张观测器的带宽。
αij,j=1,2,3的选择是令Ai是符合赫尔维茨的。
4、基于评判神经网络的代价函数近似实现
根据哈密顿方程(7)和代价函数(18)以及它的梯度(19),哈密顿方程可以进一步改写为:
其中,eiJh是由评判网络逼近误差而得到的残差。
以同样的方式近似哈密顿方程,可得:
定义误差方程为:
权值估计误差定义为:
其中,αi表示评价神经网络的学习速率。
评价神经网络的动态误差如下所示:
其中,υi定义为:
结合(11)和(19),得到基于自适应动态规划的神经最优控制律以及最坏干扰律为:
5、仿真验证
验证所提出的零和神经最优控制方法的有效性,对二自由度可重构机器人模型的两种不 同构形进行仿真验证,其中,动力学模型为:
构形A:
构形B:
两种构形的参考轨迹定义为:
通过Matlab仿真结果表明,所提出的零和神经最优控制方法能为可重构机器人提供稳定 性和精确性,以满足各种任务的要求。
Claims (2)
1.基于单评判网络结构的可重构机器人零和神经最优控制方法,其特征是,该方法首先建立可重构机器人系统动力学模型;其次构建代价函数与HJI方程,通过基于策略迭代的学习算法,来求HJI方程的解;然后通过对可重构机器人关节子系统间的耦合力矩交联项的观测;接下来采用神经网络对代价函数进行近似;最后通过仿真验证所提出控制方法的有效性。
2.根据权利要求1所述的基于单评判网络结构的可重构机器人零和神经最优控制方法,其特征在于,该方法包括如下步骤:
步骤一,建立可重构机器人系统动力学模型如下:
在实际应用中,诸如空间探索或灾难救援,可重构机器人有很多关节模块,集中控制会带来沉重的计算负担和复杂的控制结构。为了解决这一缺陷,考虑可重构机器人的每一个子系统,其中包含交联耦合项,第i个子系统的动力学模型可表示为:
其中,xi是第i个子系统的状态,hi(x)是交联耦合项,x代表整个机器人的状态向量,xi1,xi2是xi的第1,2个元素。
步骤二,构建代价函数如下:
定义哈密顿方程如下:
HJI方程可以改写成:
步骤三,交联项动力学的观测:
基于线性状态扩张观测器,状态空间可以扩张为:
其中lij,j=1,2,3为观测器选择的增益参数。其中,
其中ωi0为状态扩张观测器的带宽。
αij,j=1,2,3的选择是令Ai是符合赫尔维茨的。
根据哈密顿方程(7)和代价函数(18)以及它的梯度(19),哈密顿方程可以进一步改写为:
其中,eiJh是由评判网络逼近误差而得到的残差。
以同样的方式近似哈密顿方程,可得:
定义误差方程为:
权值估计误差定义为:
其中,αi表示评价神经网络的学习速率。
评价神经网络的动态误差如下所示:
其中,υi定义为:
结合(11)和(19),得到基于自适应动态规划的神经最优控制律以及最坏干扰律为:
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010805559.7A CN111880412B (zh) | 2020-08-12 | 2020-08-12 | 基于单评判网络的可重构机器人零和神经最优控制方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010805559.7A CN111880412B (zh) | 2020-08-12 | 2020-08-12 | 基于单评判网络的可重构机器人零和神经最优控制方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111880412A true CN111880412A (zh) | 2020-11-03 |
CN111880412B CN111880412B (zh) | 2021-07-16 |
Family
ID=73203916
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010805559.7A Active CN111880412B (zh) | 2020-08-12 | 2020-08-12 | 基于单评判网络的可重构机器人零和神经最优控制方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111880412B (zh) |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112947430A (zh) * | 2021-02-03 | 2021-06-11 | 浙江工业大学 | 一种移动机器人的智能轨迹跟踪控制方法 |
CN112965487A (zh) * | 2021-02-05 | 2021-06-15 | 浙江工业大学 | 基于策略迭代的移动机器人轨迹跟踪控制方法 |
CN113093538A (zh) * | 2021-03-18 | 2021-07-09 | 长春工业大学 | 一种模块化机器人系统的非零和博弈神经-最优控制方法 |
CN113189879A (zh) * | 2021-05-10 | 2021-07-30 | 中国科学技术大学 | 控制策略的确定方法及装置、存储介质及电子设备 |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2014047142A1 (en) * | 2012-09-20 | 2014-03-27 | Brain Corporation | Spiking neuron network adaptive control apparatus and methods |
CN105196294A (zh) * | 2015-10-29 | 2015-12-30 | 长春工业大学 | 采用位置测量的可重构机械臂分散控制系统及控制方法 |
CN108789417A (zh) * | 2018-07-30 | 2018-11-13 | 长春工业大学 | 基于自适应动态规划的可重构机械臂保代价分散控制方法 |
CN109581868A (zh) * | 2018-09-21 | 2019-04-05 | 长春工业大学 | 基于评判辨识结构的可重构机器人分散神经最优控制方法 |
CN110450156A (zh) * | 2019-07-30 | 2019-11-15 | 洛阳润信机械制造有限公司 | 多自由度机械臂系统自适应模糊控制器的优化设计方法 |
US20200023846A1 (en) * | 2018-07-23 | 2020-01-23 | SparkCognition, Inc. | Artificial intelligence-based systems and methods for vehicle operation |
CN107544261B (zh) * | 2017-10-26 | 2020-07-24 | 长春工业大学 | 不确定环境接触下的可重构机器人分散学习最优控制方法 |
-
2020
- 2020-08-12 CN CN202010805559.7A patent/CN111880412B/zh active Active
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2014047142A1 (en) * | 2012-09-20 | 2014-03-27 | Brain Corporation | Spiking neuron network adaptive control apparatus and methods |
CN105196294A (zh) * | 2015-10-29 | 2015-12-30 | 长春工业大学 | 采用位置测量的可重构机械臂分散控制系统及控制方法 |
CN107544261B (zh) * | 2017-10-26 | 2020-07-24 | 长春工业大学 | 不确定环境接触下的可重构机器人分散学习最优控制方法 |
US20200023846A1 (en) * | 2018-07-23 | 2020-01-23 | SparkCognition, Inc. | Artificial intelligence-based systems and methods for vehicle operation |
CN108789417A (zh) * | 2018-07-30 | 2018-11-13 | 长春工业大学 | 基于自适应动态规划的可重构机械臂保代价分散控制方法 |
CN109581868A (zh) * | 2018-09-21 | 2019-04-05 | 长春工业大学 | 基于评判辨识结构的可重构机器人分散神经最优控制方法 |
CN110450156A (zh) * | 2019-07-30 | 2019-11-15 | 洛阳润信机械制造有限公司 | 多自由度机械臂系统自适应模糊控制器的优化设计方法 |
Non-Patent Citations (3)
Title |
---|
TIANJIAO AN等: "Critic Only Policy Iteration-based Zero-sum Neuro-optimal Control of Modular and Reconfigurable Robots with uncertain disturbance via Adaptive Dynamic Programming", 《2020 12TH INTERNATIONAL CONFERENCE ON ADVANCED COMPUTATIONAL INTELLIGENCE (ICACI)》 * |
李元春等: "可重构机械臂分散自适应迭代学习控制", 《吉林大学学报(工学版)》 * |
董博等: "动态约束下可重构模块机器人分散强化学习最优控制", 《吉林大学学报(工学版)》 * |
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112947430A (zh) * | 2021-02-03 | 2021-06-11 | 浙江工业大学 | 一种移动机器人的智能轨迹跟踪控制方法 |
CN112947430B (zh) * | 2021-02-03 | 2022-07-15 | 浙江工业大学 | 一种移动机器人的智能轨迹跟踪控制方法 |
CN112965487A (zh) * | 2021-02-05 | 2021-06-15 | 浙江工业大学 | 基于策略迭代的移动机器人轨迹跟踪控制方法 |
CN112965487B (zh) * | 2021-02-05 | 2022-06-17 | 浙江工业大学 | 基于策略迭代的移动机器人轨迹跟踪控制方法 |
CN113093538A (zh) * | 2021-03-18 | 2021-07-09 | 长春工业大学 | 一种模块化机器人系统的非零和博弈神经-最优控制方法 |
CN113189879A (zh) * | 2021-05-10 | 2021-07-30 | 中国科学技术大学 | 控制策略的确定方法及装置、存储介质及电子设备 |
Also Published As
Publication number | Publication date |
---|---|
CN111880412B (zh) | 2021-07-16 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111880412B (zh) | 基于单评判网络的可重构机器人零和神经最优控制方法 | |
Djordjevic et al. | Data-driven control of hydraulic servo actuator based on adaptive dynamic programming. | |
Li et al. | A novel recurrent neural network for manipulator control with improved noise tolerance | |
Peng et al. | Neural-learning-based force sensorless admittance control for robots with input deadzone | |
EP3424650B1 (en) | A method and apparatus for performing control of a movement of a robot arm | |
CN110936382B (zh) | 一种数据驱动的工业机器人能耗优化方法 | |
CN101452258A (zh) | 一种与模型无关的自适应控制器及其控制方法 | |
Sushchenko et al. | Processing of redundant information in airborne electronic systems by means of neural networks | |
CN109514564A (zh) | 一种复合二次型多关节机械臂最优控制方法 | |
Heidari et al. | Design a PID controller for suspension system by back propagation neural network | |
CN106773688A (zh) | 一种直接自适应控制方法及装置 | |
Lu et al. | Friction coefficient estimation in servo systems using neural dynamic programming inspired particle swarm search | |
CN113276114B (zh) | 一种基于终端任务指派的可重构机械臂协同力/运动控制系统与方法 | |
CN113370208A (zh) | 一种可重构机械臂子系统的控制方法及系统 | |
CN113341696A (zh) | 一种运载火箭姿态控制参数智能整定方法 | |
Chen et al. | Adaptive fuzzy PD+ control for attitude maneuver of rigid spacecraft | |
CN108319146B (zh) | 一种径向基神经网络基于离散粒子群训练的方法 | |
Takatani et al. | Neural network-based construction of inverse kinematics model for serial redundant manipulators | |
CN113485099B (zh) | 一种非线性离散时间系统的在线学习控制方法 | |
Anditio et al. | Integrating PSO optimized LQR controller with virtual sensor for quadrotor position control | |
CN114186477A (zh) | 一种基于Elman神经网络的轨道预测算法 | |
Toropov | Modelling and approximation strategies in optimization—global and mid-range approximations, response surface methods, genetic programming, low/high fidelity models | |
Huang et al. | An adaptive neural sliding mode controller for MIMO systems | |
Xia et al. | The control of two-wheeled self-balancing vehicle based on reinforcement learning in a continuous domain | |
Lu et al. | A novel steering control for real autonomous vehicles via PI adaptive dynamic programming |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |