CN113733117B - 一种可重构机器人人类意图辨识控制方法及装置 - Google Patents
一种可重构机器人人类意图辨识控制方法及装置 Download PDFInfo
- Publication number
- CN113733117B CN113733117B CN202111055802.9A CN202111055802A CN113733117B CN 113733117 B CN113733117 B CN 113733117B CN 202111055802 A CN202111055802 A CN 202111055802A CN 113733117 B CN113733117 B CN 113733117B
- Authority
- CN
- China
- Prior art keywords
- human
- reconfigurable robot
- performance index
- neural network
- reconfigurable
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 241000282414 Homo sapiens Species 0.000 title claims abstract description 128
- 238000000034 method Methods 0.000 title claims abstract description 35
- 238000013528 artificial neural network Methods 0.000 claims abstract description 71
- 230000003993 interaction Effects 0.000 claims abstract description 43
- 210000001364 upper extremity Anatomy 0.000 claims abstract description 36
- 230000001537 neural effect Effects 0.000 claims abstract description 13
- 230000006870 function Effects 0.000 claims description 104
- 239000013598 vector Substances 0.000 claims description 40
- 239000011159 matrix material Substances 0.000 claims description 32
- 230000001133 acceleration Effects 0.000 claims description 13
- 230000005540 biological transmission Effects 0.000 claims description 10
- 230000003044 adaptive effect Effects 0.000 claims description 8
- 238000010276 construction Methods 0.000 claims description 7
- 230000008878 coupling Effects 0.000 claims description 6
- 238000010168 coupling process Methods 0.000 claims description 6
- 238000005859 coupling reaction Methods 0.000 claims description 6
- 230000004913 activation Effects 0.000 claims description 5
- 238000013016 damping Methods 0.000 claims description 5
- 239000012636 effector Substances 0.000 claims description 5
- 230000009467 reduction Effects 0.000 claims description 5
- 238000010521 absorption reaction Methods 0.000 claims description 4
- 238000012549 training Methods 0.000 claims description 4
- 238000004132 cross linking Methods 0.000 claims description 3
- 238000011478 gradient descent method Methods 0.000 claims description 3
- 230000002452 interceptive effect Effects 0.000 claims description 3
- 238000002474 experimental method Methods 0.000 abstract description 2
- 238000005265 energy consumption Methods 0.000 description 6
- 230000008901 benefit Effects 0.000 description 4
- 238000013461 design Methods 0.000 description 3
- 238000004134 energy conservation Methods 0.000 description 3
- 238000012986 modification Methods 0.000 description 3
- 230000004048 modification Effects 0.000 description 3
- MFRCZYUUKMFJQJ-UHFFFAOYSA-N 1,4-dioxane-2,5-dione;1,3-dioxan-2-one Chemical compound O=C1OCCCO1.O=C1COC(=O)CO1 MFRCZYUUKMFJQJ-UHFFFAOYSA-N 0.000 description 2
- 238000004458 analytical method Methods 0.000 description 2
- 238000004891 communication Methods 0.000 description 2
- 238000011217 control strategy Methods 0.000 description 2
- 238000011161 development Methods 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 238000004519 manufacturing process Methods 0.000 description 2
- 238000013507 mapping Methods 0.000 description 2
- 230000008569 process Effects 0.000 description 2
- 241000282412 Homo Species 0.000 description 1
- 229910000831 Steel Inorganic materials 0.000 description 1
- 230000015556 catabolic process Effects 0.000 description 1
- 239000003638 chemical reducing agent Substances 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 239000010959 steel Substances 0.000 description 1
- 230000009466 transformation Effects 0.000 description 1
- 238000012795 verification Methods 0.000 description 1
Classifications
-
- B—PERFORMING OPERATIONS; TRANSPORTING
- B25—HAND TOOLS; PORTABLE POWER-DRIVEN TOOLS; MANIPULATORS
- B25J—MANIPULATORS; CHAMBERS PROVIDED WITH MANIPULATION DEVICES
- B25J11/00—Manipulators not otherwise provided for
-
- B—PERFORMING OPERATIONS; TRANSPORTING
- B25—HAND TOOLS; PORTABLE POWER-DRIVEN TOOLS; MANIPULATORS
- B25J—MANIPULATORS; CHAMBERS PROVIDED WITH MANIPULATION DEVICES
- B25J17/00—Joints
- B25J17/02—Wrist joints
-
- B—PERFORMING OPERATIONS; TRANSPORTING
- B25—HAND TOOLS; PORTABLE POWER-DRIVEN TOOLS; MANIPULATORS
- B25J—MANIPULATORS; CHAMBERS PROVIDED WITH MANIPULATION DEVICES
- B25J9/00—Programme-controlled manipulators
- B25J9/02—Programme-controlled manipulators characterised by movement of the arms, e.g. cartesian coordinate type
- B25J9/023—Cartesian coordinate type
-
- B—PERFORMING OPERATIONS; TRANSPORTING
- B25—HAND TOOLS; PORTABLE POWER-DRIVEN TOOLS; MANIPULATORS
- B25J—MANIPULATORS; CHAMBERS PROVIDED WITH MANIPULATION DEVICES
- B25J9/00—Programme-controlled manipulators
- B25J9/16—Programme controls
- B25J9/1602—Programme controls characterised by the control system, structure, architecture
-
- B—PERFORMING OPERATIONS; TRANSPORTING
- B25—HAND TOOLS; PORTABLE POWER-DRIVEN TOOLS; MANIPULATORS
- B25J—MANIPULATORS; CHAMBERS PROVIDED WITH MANIPULATION DEVICES
- B25J9/00—Programme-controlled manipulators
- B25J9/16—Programme controls
- B25J9/1679—Programme controls characterised by the tasks executed
-
- B—PERFORMING OPERATIONS; TRANSPORTING
- B25—HAND TOOLS; PORTABLE POWER-DRIVEN TOOLS; MANIPULATORS
- B25J—MANIPULATORS; CHAMBERS PROVIDED WITH MANIPULATION DEVICES
- B25J9/00—Programme-controlled manipulators
- B25J9/16—Programme controls
- B25J9/1694—Programme controls characterised by use of sensors other than normal servo-feedback from position, speed or acceleration sensors, perception control, multi-sensor controlled systems, sensor fusion
- B25J9/1697—Vision controlled systems
Landscapes
- Engineering & Computer Science (AREA)
- Robotics (AREA)
- Mechanical Engineering (AREA)
- Automation & Control Theory (AREA)
- Feedback Control In General (AREA)
- Manipulator (AREA)
Abstract
本发明涉及一种可重构机器人人类意图辨识最优控制方法及装置,通过建立具有n个自由度的可重构机器人动力学模型,建立人类上肢与可重构机器人交互的动力学模型,建立人类意图辨识模型,建立基于人类意图的可重构机器人动力学模型,构建性能指标函数,构建哈密顿函数,并构建最优性能指标函数;最终利用三层前向神经网络近似所述最优性能指标函数,得到基于合作博弈的自适应动态规划的神经最优控制律。本发明仅采用了机器人本体的位置信息,没有使用其他传感器信息,可以降低实验成本并提高系统的跟踪精度。在控制力矩方面,本发明的控制力矩更加连续和平滑,不仅可以保持系统渐进稳定,而且可以降低每个关节的能量损耗。
Description
技术领域
本发明涉及机器人控制技术领域,特别是涉及一种基于合作博弈的可重构机器人人类意图辨识最优控制方法及装置。
背景技术
随着工业4.0进程的不断推进,机器人产业的发展与技术的提升已经成为我国制造业由“劳动密集型”向“技术密集型”转变的重要突破口,担负着国家高新科技实力“弯道超车”的重要使命,对我国经济体制转型与高精尖制造业的发展起到举足轻重的作用。近年来,让机器人来从事精度和重复性高的作业流程,人们在其辅助下进行创意性工作等的应用场合越来越多。可重构机器人是一类具有标准模块与接口,可根据不同的任务需求对自身构形进行重新组合与配置的机器人,由于这种特性,研究可重构机器人的人机交互任务显得更有必要。
根据可重构机器人的“模块化”与“可重构”的设计理念,可重构机器人的每个关节模块均包含了通讯、传感、驱动、控制等单元,通过对这些模块进行重新配置可以使机器人呈现多种装配构形来完成不同的工作任务,从而表现出传统机器人所不具有的优势。然而现有技术中对于多个模块的系统并不能保证整体的能耗最优。
因此,本领域亟需一种综合考虑其稳定性、精确性、鲁棒性及节能性等指标,确保整体的能耗最优的技术方案。
发明内容
本发明的目的是提供一种可重构机器人人类意图辨识最优控制方法及装置,解决现有技术中对于多个模块的系统并不能保证整体的能耗最优的问题。
为实现上述目的,本发明提供了如下方案:
一种可重构机器人人类意图辨识最优控制方法,所述方法包括:
建立具有n个自由度的可重构机器人动力学模型;所述可重构机器人动力学模型中每个模块均由谐波传动装置构成;
根据所述可重构机器人动力学模型建立人类上肢与可重构机器人交互的动力学模型;
根据所述人类上肢与可重构机器人交互的动力学模型建立人类意图辨识模型;
根据所述人类上肢与可重构机器人交互的动力学模型与所述人类意图辨识模型建立基于人类意图的可重构机器人动力学模型;
构建性能指标函数;
根据所述性能指标函数和所述基于人类意图的可重构机器人动力学模型构建哈密顿函数,并构建最优性能指标函数;
利用三层前向神经网络近似所述最优性能指标函数,得到基于合作博弈的自适应动态规划的神经最优控制律。
在一些实施例中,所述可重构机器人动力学模型为:
其中,Δθi表示扭转形变角度,τwi是波发生器的力矩,γi代表谐波传动装置的减速比,cwi,kwi0是波发生器的弹性以及刚度参数,cfi,kfi0是生产商决定的弹性以及刚度参数,τfi是柔轮的输出力矩。
在一些实施例中,所述人类上肢与可重构机器人交互的动力学模型为:
其中,CH,GH是人类的阻尼、弹簧矩阵,z,是可重构机器人在笛卡尔空间下的位置、速度,zHd表示人类的意图,Fe为人施加在机器人末端执行器上的交互力。
在一些实施例中,所述根据所述人类上肢与可重构机器人交互的动力学模型建立人类意图辨识模型,具体包括:
人类意图表示为:
利用RBF神经网络对所述人类意图进行逼近,RBF人类意图表示为:RBF人类意图估计值表示为:/>其中,ε是逼近误差,/>是对RBF神经网络理想权值Wx的估计值,S表示高斯基函数;
采用梯度下降法计算对RBF神经网络理想权值Wx的估计值得到/>的更新律为:其中,ω是微元算子,/>是神经网络逼近的权值向量,是神经网络逼近的权值向量的初值,S(ω)是在微元算子下的高斯基函数,/>为吸收矩阵,α′为正常数。
在一些实施例中,所述根据所述人类上肢与可重构机器人交互的动力学模型与所述人类意图辨识模型建立基于人类意图的可重构机器人动力学模型,具体包括:
根据所述人类上肢与可重构机器人交互的动力学模型与所述人类意图辨识模型,得到可重构机器人的第i个模块动力学模型为:
v=i
式中,Imi为转动惯量,为第i、j、k个关节的加速度,/> 为第i、j、k个关节的速度,/>是关节摩擦力,/>代表交联耦合项,zmi和zlk,zlj代表第m个电机旋转轴以及第k、j个连杆旋转轴的单位向量,[JTFe]v表示JTFe的第v个元素,τi为电机输出力矩;
将状态向量表示为:将控制器表示为:ui=τi∈R1×1,得到第i个模块的状态空间形式为:/>
其中是第i个模块的速度向量,/>是第i个模块的加速度向量,gi=(Imiγi)-1是控制输入矩阵,/>为系统的漂移动力学函数,fpi(xi1,xi2)是关节摩擦力的状态函数,/>为系统的耦合交联项,x表示机器人系统的全局向量;
将模块的状态空间形式扩张为:
其中,x1=[x11,...,xi1,...,xn1]T,x2=[x12,...,xi2,...,xn2]T,分别为关节位置和关节速度的扩张向量,f(x)=[f1(x1),...,fi(xi),...,fn(xn)]T,Gj=[0,...,0,gj,0,...,0]T,h(x)=[h1(x),...,hi(x),...,hn(x)]T分别为机器人系统漂移动力学、控制输入以及交联耦合的扩张状态,uj为第j个模块的控制输入,模块的状态空间形式扩张后的公式为基于人类意图的可重构机器人动力学模型。
在一些实施例中,所述性能指标函数为:
其中,t为时间,为E对时间的导数,E=[e1,...,ei,...,en]T为误差矩阵,ei=xi-xid和/>分别代表第i个关节的位置和速度跟踪误差,/>为期望的位置以及速度,U=[u1,u2,…,un]T为控制力矩矩阵,Qa,RM是正定矩阵,Γ为漂移动力学以及交联耦合的扩张状态f(x)+h(x)的上界,/>代表效用函数。
在一些实施例中,所述根据所述性能指标函数和所述基于人类意图的可重构机器人动力学模型构建哈密顿函数,并构建最优性能指标函数,具体包括:
根据所述性能指标函数和所述基于人类意图的可重构机器人动力学模型构建哈密顿方程:其中,/>是期望的加速度,/>为性能指标函数/>的梯度;
根据所述性能指标函数构建最优性能指标函数:
在一些实施例中,所述利用三层前向神经网络近似所述最优性能指标函数,具体包括:
利用三层前向神经网络近似所述最优性能指标函数,得到神经网络最优性能指标函数:其中,Wc是理想的权值向量,/>是激活函数,εc是神经网络的逼近误差;
利用理想的权重向量的近似权值建立评判神经网络估计所述神经网络最优性能指标函数:/>其中/>为性能指标函数的逼近值,/>为逼近的权值向量;
根据所述哈密顿方程和所述神经网络最优性能指标函数以及所述神经网络最优性能指标函数的梯度,将所述哈密顿方程改写为:
为修正的哈密顿函数,ecH是由评判神经网络逼近误差而得到的残差;
根据改写后的哈密顿方程近似哈密顿方程,得到近似哈密顿函数:其中/>为近似哈密顿函数,/>为近似的控制输入,/>为近似的权值向量,/>为总体系统的加速度;
根据改写后的哈密顿方程和所述近似哈密顿函数,建立误差方程:建立权值估计误差:/>
采用目标函数训练和调整评判神经网络的权值信息,通过更新评判神经网络的权值;其中,/>是神经网络的权值更新律,α表示评判神经网络的学习速率。
在一些实施例中,所述基于合作博弈的自适应动态规划的神经最优控制律为:
本发明还提供了一种可重构机器人人类意图辨识最优控制装置,其特征在于,包括:
可重构机器人动力学模型建立单元,用于建立具有n个自由度的可重构机器人动力学模型;所述可重构机器人动力学模型中每个模块均由谐波传动装置构成;
人类上肢与可重构机器人交互的动力学模型建立单元,用于根据所述可重构机器人动力学模型建立人类上肢与可重构机器人交互的动力学模型;
人类意图辨识模型建立单元,用于根据所述人类上肢与可重构机器人交互的动力学模型建立人类意图辨识模型;
基于人类意图的可重构机器人动力学模型建立单元,用于根据所述人类上肢与可重构机器人交互的动力学模型与所述人类意图辨识模型建立基于人类意图的可重构机器人动力学模型;
性能指标函数构建单元,用于构建性能指标函数;
哈密顿函数构建单元,用于根据所述性能指标函数和所述基于人类意图的可重构机器人动力学模型构建哈密顿函数,并构建最优性能指标函数;
神经网络近似单元,用于利用三层前向神经网络近似所述最优性能指标函数,得到基于合作博弈的自适应动态规划的神经最优控制律。
根据本发明提供的具体实施例,本发明公开了以下技术效果:
本发明提供的可重构机器人人类意图辨识最优控制方法及装置,通过建立具有n个自由度的可重构机器人动力学模型,建立人类上肢与可重构机器人交互的动力学模型,建立人类意图辨识模型,建立基于人类意图的可重构机器人动力学模型,构建性能指标函数,构建哈密顿函数,并构建最优性能指标函数;最终利用三层前向神经网络近似所述最优性能指标函数,得到基于合作博弈的自适应动态规划的神经最优控制律。利用神经网络结合最优性能指标函数解决了现有技术中对于多个模块的系统并不能保证整体的能耗最优的问题,综合考虑其稳定性、精确性、鲁棒性及节能性等指标,确保整体的能耗最优。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。以下附图并未刻意按实际尺寸等比例缩放绘制,重点在于示出本发明的主旨。
图1为本发明实施例提供的可重构机器人人类意图辨识最优控制方法流程图。
图2为本发明实施例提供的可重构机器人人类意图辨识最优控制装置的框图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例,都属于本发明保护的范围。
如本发明和权利要求书中所示,除非上下文明确提示例外情形,“一”、“一个”、“一种”和/或“该”等词并非特指单数,也可包括复数。一般说来,术语“包括”与“包含”仅提示包括已明确标识的步骤和元素,而这些步骤和元素不构成一个排它性的罗列,方法或者设备也可能包含其他的步骤或元素。
虽然本发明对根据本发明的实施例的系统中的某些模块做出了各种引用,然而,任何数量的不同模块可以被使用并运行在用户终端和/或服务器上。所述模块仅是说明性的,并且所述系统和方法的不同方面可以使用不同模块。
本发明中使用了流程图用来说明根据本发明的实施例的系统所执行的操作。应当理解的是,前面或下面操作不一定按照顺序来精确地执行。相反,根据需要,可以按照倒序或同时处理各种步骤。同时,也可以将其他操作添加到这些过程中,或从这些过程移除某一步或数步操作。
根据可重构机器人的“模块化”与“可重构”的设计理念,可重构机器人的每个关节模块均包含了通讯、传感、驱动、控制等单元,通过对这些模块进行重新配置可以使机器人呈现多种装配构形来完成不同的工作任务,从而表现出传统机器人所不具有的优势。在可重构机器人的使用过程中,不仅要考虑其稳定性、精确性、鲁棒性等指标,还需要考虑其节能性,因此,选取一个合适的控制策略是十分必要的。
最优控制由于不仅考虑了系统的准确性还考虑了节能性,因此被广泛应用于非线性系统。自适应动态规划理论作为一种有效解决最优控制问题的维数灾问题,在连续时间系统、离散时间系统、数据驱动系统等都有广泛的应用。对于可重构机器人系统,要获取其最优控制策略则需求解哈密顿-雅克比-贝尔曼方程,而该方程是一类偏微分方程,难以用解析方法求得最优解。因此,本发明根据神经网络的万能逼近定理,在自适应动态规划系统中,神经网络被设计用来近似性能指标函数并估计哈密顿-雅克比-贝尔曼方程的解,最终得到系统的最优控制律。
本发明的目的是提供一种可重构机器人人类意图辨识最优控制方法及装置,解决现有技术中对于多个模块的系统并不能保证整体的能耗最优的问题。
本发明首先建立谐波传动柔度模型模型,其次构建人类上肢模型以及人类意图辨识模型,接下来建立人类意图的可重构机器人动力学模型,然后性能指标函数与哈密顿函数的构建,采用神经网络对性能指标函数进行近似,最终得到系统的最优控制律。
为使本发明的上述目的、特征和优点能够更加明显易懂,下面结合附图和具体实施方式对本发明作进一步详细的说明。
实施例一:
如图1所示,本实施例提供了一种可重构机器人人类意图辨识最优控制方法,该方法包括:
S1、建立具有n个自由度的可重构机器人动力学模型;所述可重构机器人动力学模型中每个模块均由谐波传动装置构成;
建立具有n个自由度的可重构机器人动力学模型,其中每一个模块由一个谐波传动装置构成,包括波发生器、柔轮以及钢轮,γi代表谐波传动装置的减速比。在稳定状态下,波发生器与柔轮的角度关系为:
θwIi=-γiθfOi (1)
其中θwIi是波发生器的输入角度,θfOi是柔轮的输出角度。根据公式(1)中的柔轮输出角度,柔轮的形变Δθfi为:
Δθfi=θfOi-θfIi (2)
其中θfIi是柔轮的输入角度。同样,根据公式(1)中的波发生器输入角度,波发生器的形变Δθwi为:
Δθwi=θwOi-θwIi (3)
其中θwOi是波发生器的输出角度。在谐波传动装置装配中,公式(2)、(3)中的θwOi以及θfIi是不能直接测量的,所以定义扭转形变角度为:
Δθi=θfOi-θfIi (4)
由于柔轮的非线性特性,柔轮的形变表示为:
其中cfi,kfi0是生产商决定的弹性以及刚度参数,τfi是柔轮的输出力矩。
定义波发生器的扭转形变为:
其中τwi是波发生器的力矩,cwi,kwi0是波发生器的弹性以及刚度参数。
将公式(5),公式(6)代入公式(4),得到扭转形变角度,即可重构机器人动力学模型:
其中,Δθi表示扭转形变角度,τwi是波发生器的力矩,γi代表谐波传动装置的减速比,cwi,kwi0是波发生器的弹性以及刚度参数,cfi,kfi0是生产商决定的弹性以及刚度参数,τfi是柔轮的输出力矩。
S2、根据所述可重构机器人动力学模型建立人类上肢与可重构机器人交互的动力学模型;
在人机交互中,人类的外力考虑为施加在机器人的末端执行器上。根据步骤S1中建立的可重构机器人动力学模型,得到原始的人类上肢与可重构机器人交互的动力学模型为:
其中MH,CH,GH是人类的质量、阻尼、弹簧矩阵,是机器人系统在笛卡尔空间下的位置、速度以及加速度,可以计算为:/>其中θ=[θ1,…,θi,…,θn]T,是关节空间的位置与速度,ξ(·)是从关节空间映射到笛卡尔空间的映射矩阵,J(θ)是雅克比矩阵,J-T是雅克比矩阵逆的转置,zHd表示人类的意图,col[·]表示列向量。
因为在人机交互过程中,其关节力矩包含交互力矩τci以及自由空间的力矩τfiO,根据公式(5)和(7),可以得到柔轮的输出力矩的具体表达式为:
通过力与力矩的映射关系,可以计算出人施加在机器人末端执行器上的交互力:
Fe=J-Tτc=J-T(τf-τfO) (10)
其中τc=[τc1,…,τci,…,τcn]T,τf=[τf1,…,τfi,…,τfn]T,τfO=[τfO1,…,τfOi,…,τfOn]T为对系统总体的交互力矩τc、整个系统柔轮的输出力矩τf、整个系统自由空间力矩τfO的扩张的向量。
在公式(8)中,阻尼矩阵和弹簧矩阵通常占主导作用,可以得到如下的原始的人类上肢与可重构机器人交互的动力学模型的近似模型:
本实施例将该近似模型作为人类上肢与可重构机器人交互的动力学模型,其中,CH,GH是人类的阻尼、弹簧矩阵,是可重构机器人在笛卡尔空间下的位置、速度,zHd表示人类的意图,Fe为人施加在机器人末端执行器上的交互力。
S3、根据所述人类上肢与可重构机器人交互的动力学模型建立人类意图辨识模型;
人类的意图都是与公式(11)中的交互力Fe、笛卡尔空间下的位置、速度有关,人类意图表示为:
其中τci是第i个模块的交互力矩。
利用RBF神经网络对所述人类意图(公式(12))进行逼近,RBF人类意图和RBF人类意图估计值分别表示为:
其中,ε是逼近误差,是对RBF神经网络理想权值Wx的估计值,S表示高斯基函数;
为了使得神经网络的逼近误差最小,采用梯度下降法计算对RBF神经网络理想权值Wx的估计值定义如下误差代价函数:
将公式(14)对RBF神经网络理想权值Wx求偏导,因此可以得到权值更新律:
其中α′为正常数,αA=α′GH为吸收矩阵。权值更新律可以保证神经网络的更新从而达到逼近的效果。
根据公式(15)得到的更新律为:
其中,t是时间,ω是微元算子,是神经网络逼近的权值向量,/>是神经网络逼近的权值向量的初值,S(ω)是在微元算子下的高斯基函数,αA=α′GH为吸收矩阵,α′为正常数。
S4、根据所述人类上肢与可重构机器人交互的动力学模型与所述人类意图辨识模型建立基于人类意图的可重构机器人动力学模型;
根据所述人类上肢与可重构机器人交互的动力学模型与所述人类意图辨识模型,得到可重构机器人的第i个模块动力学模型为:
v=i
式中,Imi为转动惯量,为第i、j、k个关节的加速度,/> 为第i、j、k个关节的速度,/>是关节摩擦力,/>代表交联耦合项,zmi和zlk,zlj代表第m个电机旋转轴以及第k、j个连杆旋转轴的单位向量,[JTFe]v表示JTFe的第v个元素,τi为电机输出力矩。
根据公式(17),定义状态向量以及控制器ui=τi∈R1×1,可以得到第i个模块的状态空间形式为:
其中是第i个模块的速度向量,/>是第i个模块的加速度向量,gi=(Imiγi)-1是控制输入矩阵,/>为系统的漂移动力学函数,fpi(xi1,xi2)是关节摩擦力的状态函数,/>为系统的耦合交联项,x表示机器人系统的全局向量;
为了方便分析,将模块的状态空间形式(公式(18))扩张为:
其中,x1=[x11,...,xi1,...,xn1]T,x2=[x12,...,xi2,...,xn2]T,分别为关节位置和关节速度的扩张向量,f(x)=[f1(x1),...,fi(xi),...,fn(xn)]T,Gj=[0,...,0,gj,0,...,0]T,h(x)=[h1(x),...,hi(x),...,hn(x)]T分别为机器人系统漂移动力学、控制输入以及交联耦合的扩张状态,uj为第j个模块的控制输入,模块的状态空间形式扩张后的公式(19)为基于人类意图的可重构机器人动力学模型。
S5、构建性能指标函数;
构建性能指标函数Jp为:
其中,t为时间,τ为微元算子,为E对时间的导数,E=[e1,...,ei,...,en]T为误差矩阵,ei=xi-xid和/>分别代表第i个关节的位置和速度跟踪误差,/>为期望的位置以及速度,U=[u1,u2,…,un]T为控制力矩矩阵,Qa,RM是正定矩阵,Γ为漂移动力学以及交联耦合的扩张状态f(x)+h(x)的上界,/>代表效用函数。
S6、根据所述性能指标函数和所述基于人类意图的可重构机器人动力学模型构建哈密顿函数,并构建最优性能指标函数;
根据所述性能指标函数(公式(20))和所述基于人类意图的可重构机器人动力学模型(公式(19))构建哈密顿方程:
其中,是哈密顿函数,/>是期望的加速度,/>为性能指标函数Jp的梯度,f(x)为漂移动力学的扩张状态,G为全局控制输入矩阵;
根据所述性能指标函数(公式(20))构建最优性能指标函数:
基于非线性系统最优控制设计理论下,易知公式(22)中满足如下HJB方程:
若公式(22)中存在并且连续可微分,则可重构机器人的最优控制律为:
根据公式(24)可以得到每一个模块的最优控制律为:
其中Ri是第i个关节的正定矩阵,为矩阵Ri的逆,/>为激活函数,εc为逼近函数的残差,Wc为理想权值向量。
根据公式(25),将HJB方程可以改写成:
S7、利用三层前向神经网络近似所述最优性能指标函数,得到基于合作博弈的自适应动态规划的神经最优控制律。
利用三层前向神经网络近似所述最优性能指标函数得到神经网络最优性能指标函数:
其中,Wc是理想的权值向量,是激活函数;
对公式(27)中的求梯度可以得到:
其中:和/>分别代表激活函数的梯度和逼近误差。
由于理想权值向量Wc是未知的,利用理想的权重向量的近似权值建立评判神经网络估计所述神经网络最优性能指标函数:
其中,为性能指标函数的逼近值,/>为逼近的权值向量;/>
根据所述哈密顿方程和所述神经网络最优性能指标函数以及所述神经网络最优性能指标函数的梯度,将所述哈密顿方程改写为:
其中,为修正的哈密顿函数,ecH是由评判神经网络逼近误差而得到的残差;
根据改写后的哈密顿方程(公式(30))近似哈密顿方程,得到近似哈密顿函数:
其中为近似哈密顿函数,/>为近似的控制输入,/>为近似的权值向量,为总体系统的加速度;
根据改写后的哈密顿方程(公式(30))和所述近似哈密顿函数(公式(31)),建立误差方程:
建立权值估计误差:
训练和调整评判神经网络的权值信息,采用目标函数它可以被/>训练来取到最小值,且神经网络的权值可以通过下式进行更新:
其中,是神经网络的权值更新律,α表示评判神经网络的学习速率。
根据公式(34),可以得到评判神经网络的动态误差的如下表示:
其中是神经网络的动态误差。辅助变量υ定义为:
结合公式(25),(28),(34),(35)以及(36)得到基于合作博弈的自适应动态规划的神经最优控制律为:
其中Gi是第i个关节的控制输入矩阵;
如图2所示,本发明还提供了一种可重构机器人人类意图辨识最优控制装置,包括:
可重构机器人动力学模型建立单元M1,用于建立具有n个自由度的可重构机器人动力学模型;所述可重构机器人动力学模型中每个模块均由谐波传动装置构成;
人类上肢与可重构机器人交互的动力学模型建立单元M2,用于根据所述可重构机器人动力学模型建立人类上肢与可重构机器人交互的动力学模型;
人类意图辨识模型建立单元M3,用于根据所述人类上肢与可重构机器人交互的动力学模型建立人类意图辨识模型;
基于人类意图的可重构机器人动力学模型建立单元M4,用于根据所述人类上肢与可重构机器人交互的动力学模型与所述人类意图辨识模型建立基于人类意图的可重构机器人动力学模型;
性能指标函数构建单元M5,用于构建性能指标函数;
哈密顿函数构建单元M6,用于根据所述性能指标函数和所述基于人类意图的可重构机器人动力学模型构建哈密顿函数,并构建最优性能指标函数;
神经网络近似单元M7,用于利用三层前向神经网络近似所述最优性能指标函数,得到基于合作博弈的自适应动态规划的神经最优控制律。
为了验证所提出的基于合作博弈的可重构机器人近似神经最优控制方法的有效性,本实施例还建立了一个二自由度可重构机器人模型进行实验验证,其中包括增量式编码器、直流电机、谐波减速器、绝对式编码器以及关节力矩传感器。直流电机的型号是Maxon公司的218014、额定电压为48V、额定力矩为190mNm、减速比为100:1。电机侧的位置变量是由Maxon公司的500线增量式编码器测量的,连杆侧的位置变量是由Netzer公司的19位编码器测量的。关节力矩传感器的额定力矩为20Nm被嵌在关节模块末端。采用Quanser公司生产的线性功率放大器驱动关节模块的电动机和QPIDe数据采集卡采集各传感器的数据。
通过实验结果表明,所提出的合作博弈人类意图辨识最优控制方法为可重构机器人提供稳定性和精确性,以满足各种任务的要求。
在人类运动意图辨识方面,本发明仅采用了机器人本体的位置信息,没有使用其他传感器信息,可以降低实验成本并提高系统的跟踪精度。
在控制力矩方面,本发明的控制力矩更加连续和平滑,不仅可以保持系统渐进稳定,而且可以降低每个关节的能量损耗。
因此,本发明解决了现有技术中存在控制精度低以及跟踪速度慢的问题,为可重构机器人提供稳定性和精确性,并且可以满足各种任务的需求。
对于实施例公开的装置而言,由于其与实施例公开的方法相对应,所以描述的比较简单,相关之处参见方法部分说明即可。
本发明使用了特定词语来描述本发明的实施例。如“第一/第二实施例”、“一实施例”、和/或“一些实施例”意指与本发明至少一个实施例相关的某一特征、结构或特点。因此,应强调并注意的是,本说明书中在不同位置两次或多次提及的“一实施例”或“一个实施例”或“一替代性实施例”并不一定是指同一实施例。此外,本发明的一个或多个实施例中的某些特征、结构或特点可以进行适当的组合。
除非另有定义,这里使用的所有术语(包括技术和科学术语)具有与本发明所属领域的普通技术人员共同理解的相同含义。还应当理解,诸如在通常字典里定义的那些术语应当被解释为具有与它们在相关技术的上下文中的含义相一致的含义,而不应用理想化或极度形式化的意义来解释,除非这里明确地这样定义。
上面是对本发明的说明,而不应被认为是对其的限制。尽管描述了本发明的若干示例性实施例,但本领域技术人员将容易地理解,在不背离本发明的新颖教学和优点的前提下可以对示例性实施例进行许多修改。因此,所有这些修改都意图包含在权利要求书所限定的本发明范围内。应当理解,上面是对本发明的说明,而不应被认为是限于所公开的特定实施例,并且对所公开的实施例以及其他实施例的修改意图包含在所附权利要求书的范围内。本发明由权利要求书及其等效物限定。
Claims (9)
1.一种可重构机器人人类意图辨识控制方法,其特征在于,所述方法包括:
建立具有n个自由度的可重构机器人动力学模型;所述可重构机器人动力学模型中每个模块均由谐波传动装置构成;
根据所述可重构机器人动力学模型建立人类上肢与可重构机器人交互的动力学模型;
根据所述人类上肢与可重构机器人交互的动力学模型建立人类意图辨识模型;
根据所述人类上肢与可重构机器人交互的动力学模型与所述人类意图辨识模型建立基于人类意图的可重构机器人动力学模型;
构建性能指标函数;
根据所述性能指标函数和所述基于人类意图的可重构机器人动力学模型构建哈密顿函数,并构建最优性能指标函数;
利用三层前向神经网络近似所述最优性能指标函数,得到基于合作博弈的自适应动态规划的神经最优控制律;
所述可重构机器人动力学模型为:
其中,Δθi表示扭转形变角度,τwi是波发生器的力矩,γi代表谐波传动装置的减速比,cwi,kwi0是波发生器的弹性以及刚度参数,cfi,kfi0是生产商决定的弹性以及刚度参数,τfi是柔轮的输出力矩。
2.根据权利要求1所述的可重构机器人人类意图辨识控制方法,其特征在于,所述人类上肢与可重构机器人交互的动力学模型为:
其中,CH,GH是人类的阻尼、弹簧矩阵,z,是可重构机器人在笛卡尔空间下的位置、速度,zHd表示人类的意图,Fe为人施加在机器人末端执行器上的交互力。
3.根据权利要求2所述的可重构机器人人类意图辨识控制方法,其特征在于,所述根据所述人类上肢与可重构机器人交互的动力学模型建立人类意图辨识模型,具体包括:
人类意图表示为:其中θ=[θ1,…,θi,…,θn]T,是关节空间的位置与速度,τci是第i个模块的交互力矩;
利用RBF神经网络对所述人类意图进行逼近,RBF人类意图表示为:RBF人类意图估计值表示为:
其中,ε是逼近误差,/>是对RBF神经网络理想权值Wx的估计值,表示Wx的转置矩阵,/>表示/>的转置矩阵,S表示高斯基函数;
采用梯度下降法计算对RBF神经网络理想权值Wx的估计值得到/>的更新律为:其中,ω是微元算子,/>是神经网络逼近的权值向量,是神经网络逼近的权值向量的初值,S(ω)是在微元算子下的高斯基函数,αA=α′GH为吸收矩阵,α′为正常数。
4.根据权利要求3所述的可重构机器人人类意图辨识控制方法,其特征在于,所述根据所述人类上肢与可重构机器人交互的动力学模型与所述人类意图辨识模型建立基于人类意图的可重构机器人动力学模型,具体包括:
根据所述人类上肢与可重构机器人交互的动力学模型与所述人类意图辨识模型,得到可重构机器人的第i个模块动力学模型为:
v=i
式中,Imi为转动惯量,为第i、j、k个关节的加速度,/>为第i、j、k个关节的速度,/>是关节摩擦力,/>代表交联耦合项,zmi和zlk,zlj代表第m个电机旋转轴以及第k、j个连杆旋转轴的单位向量,[JTFe]v表示JTFe的第v个元素,τi为电机输出力矩;
将状态向量表示为:将控制器表示为:ui=τi∈R1×1,得到第i个模块的状态空间形式为:/>
其中是第i个模块的速度向量,/>是第i个模块的加速度向量,gi=(Imiγi)-1是控制输入矩阵,/>为系统的漂移动力学函数,fpi(xi1,xi2)是关节摩擦力的状态函数,/>为系统的耦合交联项,x表示机器人系统的全局向量;
将模块的状态空间形式扩张为:
其中,x1=[x11,...,xi1,...,xn1]T,x2=[x12,...,xi2,...,xn2]T,分别为关节位置和关节速度的扩张向量,f(x)=[f1(x1),...,fi(xi),...,fn(xn)]T,Gj=[0,...,0,gj,0,...,0]T,h(x)=[h1(x),...,hi(x),...,hn(x)]T分别为机器人系统漂移动力学、控制输入以及交联耦合的扩张状态,uj为第j个模块的控制输入,模块的状态空间形式扩张后的公式为基于人类意图的可重构机器人动力学模型。
5.根据权利要求4所述的可重构机器人人类意图辨识控制方法,其特征在于,所述性能指标函数为:
其中,t为时间,为E对时间的导数,E=[e1,...,ei,...,en]T为误差矩阵,ei=xi-xid和分别代表第i个关节的位置和速度跟踪误差,xid,/>为期望的位置以及速度,U=[u1,u2,…,un]T为控制力矩矩阵,Qa,RM是正定矩阵,Γ为漂移动力学以及交联耦合的扩张状态f(x)+h(x)的上界,/>代表效用函数。
6.根据权利要求5所述的可重构机器人人类意图辨识控制方法,其特征在于,所述根据所述性能指标函数和所述基于人类意图的可重构机器人动力学模型构建哈密顿函数,并构建最优性能指标函数,具体包括:
根据所述性能指标函数和所述基于人类意图的可重构机器人动力学模型构建哈密顿方程:
其中,/>是期望的加速度,为性能指标函数/>的梯度;G为全局控制输入矩阵;
根据所述性能指标函数构建最优性能指标函数:
7.根据权利要求6所述的可重构机器人人类意图辨识控制方法,其特征在于,所述利用三层前向神经网络近似所述最优性能指标函数,具体包括:
利用三层前向神经网络近似所述最优性能指标函数,得到神经网络最优性能指标函数:其中,Wc是理想的权值向量,/>是激活函数,εc是神经网络的逼近误差;
利用理想的权重向量的近似权值建立评判神经网络估计所述神经网络最优性能指标函数:/>其中/>为性能指标函数的逼近值,/>为逼近的权值向量;
根据所述哈密顿方程和所述神经网络最优性能指标函数以及所述神经网络最优性能指标函数的梯度,将所述哈密顿方程改写为:其中,为修正的哈密顿函数,ecH是由评判神经网络逼近误差而得到的残差;
根据改写后的哈密顿方程近似哈密顿方程,得到近似哈密顿函数:其中/>为近似哈密顿函数,/>为近似的控制输入,/>为近似的权值向量,/>为总体系统的加速度;
根据改写后的哈密顿方程和所述近似哈密顿函数,建立误差方程:建立权值估计误差:/>
采用目标函数训练和调整评判神经网络的权值信息,通过/>更新评判神经网络的权值;其中,/>是神经网络的权值更新律,α表示评判神经网络的学习速率。
8.根据权利要求7所述的可重构机器人人类意图辨识控制方法,其特征在于,所述基于合作博弈的自适应动态规划的神经最优控制律为:
其中,是激活函数,Gi是第i个关节的控制输入矩阵。
9.基于权利要求1所述的可重构机器人人类意图辨识最优控制方法的可重构机器人人类意图辨识控制装置,其特征在于,包括:
可重构机器人动力学模型建立单元,用于建立具有n个自由度的可重构机器人动力学模型;所述可重构机器人动力学模型中每个模块均由谐波传动装置构成;
人类上肢与可重构机器人交互的动力学模型建立单元,用于根据所述可重构机器人动力学模型建立人类上肢与可重构机器人交互的动力学模型;
人类意图辨识模型建立单元,用于根据所述人类上肢与可重构机器人交互的动力学模型建立人类意图辨识模型;
基于人类意图的可重构机器人动力学模型建立单元,用于根据所述人类上肢与可重构机器人交互的动力学模型与所述人类意图辨识模型建立基于人类意图的可重构机器人动力学模型;
性能指标函数构建单元,用于构建性能指标函数;
哈密顿函数构建单元,用于根据所述性能指标函数和所述基于人类意图的可重构机器人动力学模型构建哈密顿函数,并构建最优性能指标函数;
神经网络近似单元,用于利用三层前向神经网络近似所述最优性能指标函数,得到基于合作博弈的自适应动态规划的神经最优控制律。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111055802.9A CN113733117B (zh) | 2021-09-09 | 2021-09-09 | 一种可重构机器人人类意图辨识控制方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111055802.9A CN113733117B (zh) | 2021-09-09 | 2021-09-09 | 一种可重构机器人人类意图辨识控制方法及装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113733117A CN113733117A (zh) | 2021-12-03 |
CN113733117B true CN113733117B (zh) | 2023-09-08 |
Family
ID=78737716
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202111055802.9A Active CN113733117B (zh) | 2021-09-09 | 2021-09-09 | 一种可重构机器人人类意图辨识控制方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113733117B (zh) |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114406996B (zh) * | 2021-12-30 | 2023-05-26 | 长春工业大学 | 一种输入受限机械臂的合作博弈最优跟踪控制方法及系统 |
CN114211478B (zh) * | 2022-01-05 | 2022-09-30 | 长春工业大学 | 一种模块化机械臂协调操作最优控制方法及系统 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106227037A (zh) * | 2016-07-29 | 2016-12-14 | 宁波工程学院 | 一种基于fpga的类人机器人动作规划参数优化方法 |
CN106354010A (zh) * | 2016-09-29 | 2017-01-25 | 中国科学院自动化研究所 | 自适应最优控制方法及自适应最优控制系统 |
CN108789417A (zh) * | 2018-07-30 | 2018-11-13 | 长春工业大学 | 基于自适应动态规划的可重构机械臂保代价分散控制方法 |
CN109581868A (zh) * | 2018-09-21 | 2019-04-05 | 长春工业大学 | 基于评判辨识结构的可重构机器人分散神经最优控制方法 |
CN112247962A (zh) * | 2020-10-19 | 2021-01-22 | 中国科学技术大学 | 面向上肢穿戴机器人的人机博弈控制方法及系统 |
CN112445131A (zh) * | 2019-08-30 | 2021-03-05 | 天津大学 | 一种线性系统自适应最优跟踪控制方法 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
GB2567850B (en) * | 2017-10-26 | 2020-11-04 | Gb Gas Holdings Ltd | Determining operating state from complex sensor data |
-
2021
- 2021-09-09 CN CN202111055802.9A patent/CN113733117B/zh active Active
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106227037A (zh) * | 2016-07-29 | 2016-12-14 | 宁波工程学院 | 一种基于fpga的类人机器人动作规划参数优化方法 |
CN106354010A (zh) * | 2016-09-29 | 2017-01-25 | 中国科学院自动化研究所 | 自适应最优控制方法及自适应最优控制系统 |
CN108789417A (zh) * | 2018-07-30 | 2018-11-13 | 长春工业大学 | 基于自适应动态规划的可重构机械臂保代价分散控制方法 |
CN109581868A (zh) * | 2018-09-21 | 2019-04-05 | 长春工业大学 | 基于评判辨识结构的可重构机器人分散神经最优控制方法 |
CN112445131A (zh) * | 2019-08-30 | 2021-03-05 | 天津大学 | 一种线性系统自适应最优跟踪控制方法 |
CN112247962A (zh) * | 2020-10-19 | 2021-01-22 | 中国科学技术大学 | 面向上肢穿戴机器人的人机博弈控制方法及系统 |
Non-Patent Citations (1)
Title |
---|
动态约束下可重构模块机器人分散强化学习最优控制;董博;刘克平;李元春;吉林大学学报(工学版)(第005期);全文 * |
Also Published As
Publication number | Publication date |
---|---|
CN113733117A (zh) | 2021-12-03 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN104723340B (zh) | 基于连接和阻尼配置的柔性关节机械臂的阻抗控制方法 | |
CN108789417B (zh) | 基于自适应动态规划的可重构机械臂保代价分散控制方法 | |
CN113733117B (zh) | 一种可重构机器人人类意图辨识控制方法及装置 | |
Moallem et al. | An integral manifold approach for tip-position tracking of flexible multi-link manipulators | |
Zheng et al. | Robust control of a silicone soft robot using neural networks | |
CN112743541B (zh) | 一种无力/力矩传感器机械臂软浮动控制方法 | |
CN108555914B (zh) | 一种基于腱驱动灵巧手的dnn神经网络自适应控制方法 | |
Zhu et al. | Robust independent modal space control of a coupled nano-positioning piezo-stage | |
Tödtheide et al. | Antagonistic impedance control for pneumatically actuated robot joints | |
CN114169230A (zh) | 一种机器人动力学参数的辨识方法 | |
CN113093538A (zh) | 一种模块化机器人系统的非零和博弈神经-最优控制方法 | |
Zhan et al. | Extended-state-observer-based adaptive control of flexible-joint space manipulators with system uncertainties | |
CN115990888A (zh) | 一种具有死区和时变约束功能的机械臂控制方法 | |
Liang et al. | A novel impedance control method of rubber unstacking robot dealing with unpredictable and time-variable adhesion force | |
Wu et al. | A study on tracking error based on mechatronics model of a 5-DOF hybrid spray-painting robot | |
Zijie et al. | PID control of an omnidirectional mobile platform based on an RBF neural network controller | |
CN113370208A (zh) | 一种可重构机械臂子系统的控制方法及系统 | |
CN114211478B (zh) | 一种模块化机械臂协调操作最优控制方法及系统 | |
Neto et al. | Accumulative learning using multiple ANN for flexible link control | |
Dal Verme et al. | Lyapunov stability of cable-driven manipulators with synthetic fibre cables regulated by non-linear full-state feedback controller | |
Lebastard et al. | Observer-based control of a walking biped robot without orientation measurement | |
CN112000014B (zh) | 一种操控机械臂的模型预测与反演的控制方法 | |
Lee et al. | Adaptive perturbation control with feedforward compensation for robot manipulators | |
Hu et al. | Model-based contact detection and accommodation for soft bending actuators: An integrated direct/indirect adaptive robust approach | |
Qian et al. | Adaptive fuzzy sliding mode control for pneumatic muscle actuator |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |