CN110653801B

CN110653801B - 机器人操作臂的导引操纵系统及其柔顺操纵控制与示教学习方法

Info

Publication number: CN110653801B
Application number: CN201910940372.5A
Authority: CN
Inventors: 吴伟国
Original assignee: Harbin Institute of Technology
Current assignee: Harbin Institute of Technology
Priority date: 2019-09-30
Filing date: 2019-09-30
Publication date: 2022-06-17
Anticipated expiration: 2039-09-30
Also published as: CN110653801A

Abstract

机器人操作臂的导引操纵系统及其柔顺操纵控制与示教学习方法，涉及人机协同作业系统开发领域。为了解决现有人机协同作业系统中操纵手柄固定不能实现全方位操纵的问题，以及缺乏柔顺操纵控制方法和缺乏智能示教学习方法的问题。导引操纵系统包含两个机械接口、一个可转位的操纵手柄以及力传感器、陀螺仪、加速度计等传感器；柔顺控制中以虚拟的弹簧阻尼模型计算操纵的参考运动，并以力控制方法补偿操纵者与机器人之间的不协调量；将操纵过程的系统状态迁移作为训练数据，具有四层结构的深度学习系统用于学习人的操纵运动和力交互过程。人与机器人协同作业能够有机结合人与机器人二者优点，因此在自动装配、打磨等作业中能够在保证作业质量的前提下降低人的劳动强度、提高工作效率，具有广阔的应用前景。

Description

机器人操作臂的导引操纵系统及其柔顺操纵控制与示教学习方法

技术领域

本发明涉及一种人机协同作业的辅助装置和人机协同作业的控制与机器学习方法，涉及人机协同作业系统开发技术领域。

背景技术

工业机器人设计的初衷是为了模拟人臂运动来代替工人的重复劳动，对如码垛、搬运等简单的操作现在的机器人产品已经能够实现自动化作业，但对于例如装配、打磨这样的约束空间内力位混合控制任务，一般的工业机器人尚无法精确地完成这些任务，因此在大多数工厂中仍需工人手持沉重的设备进行装配和打磨作业，工人的劳动强度仍然较高。

对于上述需要在受限空间内与环境进行力交互且被操作物运动轨迹复杂的作业，一种能大大减少工人劳动强度的方式是人机协同作业，即由机器人把持沉重的被操作物，由人操纵导引机器人的运动方向和速度，二者协同完成作业任务。现有的人机协同作业系统可被分为以下三类：

1)指令式的协同作业系统，此类系统一般通过操纵人员在线输入指令来确定机器人接下来要进行的运动，最常见的操纵指令是工业机器人的示教盒发出的运动控制指令，此外还有使用语音接受装置、可穿戴运动采集装置、肌电/脑电装置得到的操纵指令，例如公开日为2019年6月28日，公开号为CN109947066A，申请号为CN201910312459.8的发明专利中公开了一种使用语音交互设备控制夹具开合、设定参数和进行运动控制的协同作业系统。

2)间接力交互的协同作业系统，此类系统操纵者与被操纵的机器人不在同一环境下作业，视觉反馈由操作者肉眼观察或由虚拟现实装置得到，操纵力给定和力觉反馈均由辅助装置实现，此辅助装置上装有力传感器用于采集操纵者的操纵力，作为机器人操作力的给定输入，此外此辅助装置上还装有驱动装置，用于把机器人的实际操作力反馈给操纵者。公开日为2018年9月11日，公开号为CN108519814A，申请号为CN201810234048.7的发明专利中公开了一种间接力交互的协同作业系统，其中的应用陀螺仪、双目相机、激光雷达等传感器构成视觉反馈的采集系统，应用串并联平动转动机构进行操作者和机器人之间的远程力觉交互。

3)直接力交互的协同作业系统，此类系统操纵者与被操纵的机器人处在同一工作环境下，操纵者的操纵力将直接由操纵的手柄经机械结构件传递至机器人夹持的被操作物，相当于操纵者“手把手”地引导机器人进行作业，操纵者可由机械结构件和操纵手柄传导的接触力直接获得操纵过程的力觉反馈。在公开日为2013年10月3日，公开号为WO2013144103，申请号为WO2013EP56321的国际专利中，公开了一种搭载有上述直接力交互系统的机器人操作臂，通过装有力传感器的操纵手柄，操纵人员可以通过固定的手柄对机器人进行导引操纵。

在现有的这三类人机协同作业系统中，指令式的协同操作系统只能实现断续的操纵，且操纵人员无法获得力信息反馈，因此只能完成运动的离线示教；间接力交互的系统能实现操纵力的闭环，但由于力信息在辅助装置中传递的过程受系统延时和控制误差的影响将产生较大失真，不利于需要精确操纵的作业任务；现有的直接力交互协同作业系统虽然可以消除间接力交互中的延迟和失真影响，但把持被操作物的机器人的控制误差仍会对人的操纵产生影响，现有公开的技术文件和学术论文中尚未涉及人直接操纵机器人情况下的柔顺控制方法。

除上述不足外，现有的三类人机协同作业系统还具有以下共性问题，即现有的人机协同作业系统均是以辅助作业为目的设计的，虽然能降低每次作业中操纵者的劳动强度，但仍需操纵者进行重复的操纵，现有协同作业系统的硬件构成和软件算法均未涉及从多次成功的操纵作业中学习经验的问题，因此无法将操纵者从这种循环重复的导引操纵中解放出来。

发明内容

本发明要解决的技术问题：

本发明的目的是给出一种能够进行机器人操作臂的运动和作业力示教的导引操纵系统，并且给出其导引过程中的柔顺控制方法和示教学习方法，来解决现有人机协同作业系统中操纵手柄固定不能实现全方位操纵的问题，以及缺乏柔顺操纵控制方法和缺乏智能示教学习方法的问题。

本发明解决上述技术问题采用的技术方案为：

一种机器人操作臂的导引操纵系统，所述导引操纵系统(导引操纵作业的整体系统)包括：机器人操作臂(1)、六维力/力矩传感器(2)、导引操纵装置(3)、被操作物(4)、作业对象(5)；导引操纵装置(3)的一端与六维力/力矩传感器(2)的工具侧接口连接，另一端与被操作物(4)连接；六维力/力矩传感器(2)的机器人侧接口与机器人操作臂(1)的末端机械接口相连，机器人操作臂(1)和作业对象(5)均用于固定于作业环境的地面上，操纵作业时操纵人员(6)站立于导引操纵装置(3)一旁对其进行操纵。

进一步地，所述导引操纵装置(3)主要包括左手柄(3-1)、右手柄(3-2)、手柄连接杆(3-3)、转向轴(3-4)、力传感器(3-5)、连接杆(3-6)、根部接口(3-7)、末端接口(3-8)，其中左手柄(3-1)和右手柄(3-2)连接在手柄连接杆(3-3)的两端，手柄连接杆(3-3)的中部与转向轴(3-4)的上端连接，转向轴(3-4)的下端与力传感器(3-5)相连，力传感器(3-5)与连接杆(3-6)的中部连接，根部接口(3-7)和末端接口(3-8)布置在连接杆(3-6)的两端；

转向轴(3-4)上装有转位开关，当转位开关打开时，手柄连接杆(3-3)可带动左手柄(3-1)和右手柄(3-2)一同在±90°的范围内进行转位运动，转至合适的位置后关闭转位开关，可将手柄连接杆(3-3)锁定到当前位置上，实现操纵人员(6)相对于导引操纵装置(3)和作业对象(5)的任意方位下的操纵作业。

进一步地，所述导引操纵装置(3)中的力传感器(3-5)为十字梁结构的六维力/力矩传感器或弹性铰链机构的六维力/力矩传感器。

进一步地，所述导引操纵装置(3)的力传感器(3-5)上还搭载有摄像头、陀螺仪、加速度计三种传感器。

进一步地，所述导引操纵系统的分布式的控制系统硬件包括：上位机、机器人操作臂(1)各轴的驱动器、六维力/力矩传感器(2)、以及导引操纵装置(3)内各传感器，上位机通过串行总线采集上述各传感器的反馈数据，并向机器人操作臂(1)中各轴的驱动器发送控制指令。

一种基于上述导引操纵系统的柔顺操纵控制方法，受力分析过程中首先取分离体，从导引操纵装置(3)和六维力/力矩传感器(2)的连接接口处断开，将形成两个分立体，即由机器人操作臂(1)和六维力/力矩传感器(2)构成的机器人侧分离体，以及由导引操纵装置(3)和被操作物(4)构成的末端分离体，以F_R、M_R分别表示机器人对导引操纵装置(3)的输出力矢量和输出力矩矢量，以F_H和M_H分别表示操纵人员(6)对导引操纵装置(3)施加的操纵力矢量和操作力矩矢量，以F_E和M_E分别表示被操作物(4)对作业对象(5)施加的作业力矢量和作业力矩矢量；对上述两个分离体按拉格朗日法进行动力学分析，机器人侧分离体和末端分离体的动力学方程分别如式(1)、(2)所示，式(1)中q是由关节位置变量组成的广义位置矢量，分别

分别是q的速度和加速度矢量，M_R、B_R分别是机器人操作臂的广义惯性阵和阻尼系数阵，C_R(·)和G_R(·)分别是机器人离心力/科氏力函数和重力函数，τ是机器人驱动力或驱动力矩构成的广义力矢量，

式(2)中P_R是六维力/力矩传感器(2)的测量中心在ΣO_D-xyz坐标系中的位置矢量，坐标系ΣO_D-xyz是力传感器(3-5)的测量坐标系，P_E是被操作物(4)与作业对象(5)之间作用力的作用点在ΣO_D-xyz坐标系中的位置矢量，a_D是O_D点的加速度矢量，ω_D是ΣO_D-xyz坐标系的角速度矢量；对式(2)进行整理，可得：

为获得柔顺的操纵运动，在导引操纵转置(3)与操纵人员(6)之间引入了一个假想的弹簧阻尼系统，K_H和B_H分别是上述假想的弹簧阻尼模型的等效刚度阵和等效阻尼阵，之后构建了导引操纵的力位混合控制系统，其中导引操纵装置(3)的参考运动位置、速度、加速度矢量分别以表示

按式(4)计算，

其中M_D是导引操纵装置3和被操作物4整体的广义惯性矩阵；

使用由式(3)算得的操作力F_E和力矩M_E，可计算出操纵人员(6)与机器人操作臂(1)由于未能100％协调而“内耗”的操纵力和力矩，即F_H-F_E和M_H-M_E，所述柔顺控制器对F_H-F_E和M_H-M_E进行补偿，将补偿量映射为机器人操作臂(1)带动下导引操纵装置(3)的位姿调整量，即ΔX_D、

为使此补偿运动柔顺，在被操作物(4)和作业对象(5)之间也引入了的假想弹簧阻尼系统，其刚度矩阵和阻尼矩阵分别表示为K_E和B_E，所示用的控制律为式(5)所示的刚度控制律、式(6)所示的阻尼控制律或式(7)所示的阻抗控制律；

将生成的参考运动

和补偿运动ΔX_D、

累加，作为机器人操作臂(1)的轨迹追踪控制器的输入，所述轨迹追踪控制器可从PID控制器、前馈+PD反馈控制器、计算力矩控制器、加速度分解控制器中选择。

一种基于上所述导引操纵系统的示教学习方法，将柔顺操纵控制过程得到的数据作为训练数据，使用智能学习方法进行学习；

导引操纵系统的状态量定义为：末端操作器的位置和姿态量X、操作力矢量F_E和力矩量矢量M_E、作业对象(5)的被操作变化量X_O，X_O包含作业对象(5)的几何尺寸、表面粗糙状态、几何形状量，还包括上述状态量的变化量即相应的“速度”、“加速度量”，所构成的状态空间S表示为：

∑表示所有可能的状态的集合；

导引操纵系统的行为量定义为：与作业人员使用导引操纵装置(3)进行导引的行为相关的变量，即操纵力矢量F_H和力矩矢量M_H、导引操纵装置(3)的位姿矢量X_D、速度

构成的行为空间为

用下标j表示“当前”这一时间点，用下标j+1表示下一时刻，导引操纵系统的映射关系定义为：在当前状态S_j下采取行为A_j，得到将要到来的下一时刻状态S_j+1的映射关系，即存在A_j∈A和S_j,S_j+1∈S，使

得到的状态S_j+1的与期望的目标状态S^*的接近程度的评价值为ΔS_j＝||S_j+1-S^*||，则有A_j∈A的一系列行为A_j1，A_j2，……，A_jk，A_jn，的即时评价

其中ΔS_jk＝||S_j(k+1)-S^*||，j＝1,2,3,……,m，k＝1,2,3,……,n，n,m皆为自然数；

学习的目的是使即时评价函数P_j的累加和最小，采用分层的深度学习系统进行学习，所述分层是指具有经验记忆层、技巧抽取层、行为泛化层、预测评价层四个层级；

上述深度学习系统中的第一层为经验记忆层，训练数据是由各时刻系统状态S_j、行为A_j和即时评价P_j构成的时间序列，j＝1,2,…,m，学习的结果是由当前状态S_j与当前行为A_j到价值函数Q_E(S_j,A_j)的经验价值映射；

第二层是技巧抽取层，其输入是经验记忆层的输入和输出，并使用与作业相关的技巧评价函数P_S进行技巧的抽取和评价，相当于在第一层所对应的经验价值空间中抽取评价值高的技巧，技巧抽取层的输出是技巧集合D_k和相对应的技巧价值Q_S(D_k)，k＝1,2,…,N_S，N_S为抽取得到的技巧集合数量，所述技巧集合D_k定义在系统的状态/行为空间内或定义在特别选出或定义的技巧特征变量所张成的空间内，在D_k内技巧抽取的结果可表示为状态/行为的散点分布、分布密度函数或边界条件函数的形式；

第三层是行为泛化层，对技巧抽取层得到的结果进行泛化，得到任意系统状态S_j下最优技巧所对应的行为输出A_j；

第四层是预测评价层，根据当前的系统状态S_j、行为A_j，预测下一时刻的系统状态，并对前三层智能体的表现生成相应的即时评价反馈。

本发明具有以下有益技术效果：

本发明所公开的导引操纵装置使用可转位的操纵手柄搭配六维力/力矩传感器测量操纵人员的操纵力，与已有的固定手柄的导引操纵装置相比，具有可适应全方位操纵的优点。使用机器人上的六维力/力矩传感器和导引操纵装置的力传感器感受到的力信息，将操纵人员输入的操纵力分为用于作业输出和被机器人的不协调运动抵消的两个部分，所公开的柔顺操纵控制方法不仅能生成柔顺的操纵运动，还能补偿人与机器人的不协调运动，提升操纵的效率和流畅性。此外，本发明还针对导引操纵中的运动示教与力交互问题，提出了一种可行的深度学习方法，与现有的协同作业控制方法相比，不但能减轻操纵人员的劳动强度，在训练足够充分之后，还能实现完全的自动化作业，将操纵人员从重复劳动中解放出来。

本发明给出了协同作业中的导引操纵装置以及应用所述协同作业中的导引操纵装置进行导引操纵的柔顺控制方法，以及作业过程中的运动示教与力示教学习方法。人与机器人协同作业能够有机结合人与机器人二者优点，因此在自动装配、打磨等作业中能够在保证作业质量的前提下降低人的劳动强度、提高工作效率，具有广阔的应用前景。所述导引操纵装置包含两个机械接口，一个可转位的操纵手柄，以及力传感器、陀螺仪、加速度计等传感器；柔顺控制中以虚拟的弹簧阻尼模型计算操纵的参考运动，并以力控制方法补偿操纵者与机器人之间的不协调量；将操纵过程的系统状态迁移作为训练数据，本发明公开的具有四层结构的深度学习系统，完全适于机器学习人的操纵运动和力交互过程。

附图说明

图1为导引操纵作业的整体系统构成图，图2为两种不同力传感器的导引操纵装置图，图3为导引操纵系统的硬件系统框图，图4为导引操纵系统的受力分析及等效力学模型图，图5为导引操纵柔顺控制的力位混合控制系统框图，图6为专为导引操纵作业的学习任务提出的深度学习系统流程框图。

具体实施方式

结合附图1至6，对本发明的实现进行如下阐述：

本发明公开的内容分为三个部分，即全方位导引操纵装置的本体设计方案、机器人操作臂的柔顺操纵控制方法、以及运动和力耦合的作业示教学习方法。

对于全方位导引操纵装置的本体设计问题，本发明采取的技术方案是：

如图1所示，导引操纵作业的整体系统包括：机器人操作臂1、六维力/力矩传感器2、导引操纵装置3、被操作物4、作业对象5、操纵人员6。导引操纵装置3的一端与六维力/力矩传感器2的工具侧接口连接，另一端与被操作物4连接，六维力/力矩传感器2的机器人侧接口与机器人操作臂1的末端机械接口相连，机器人操作臂1和作业对象5均固定于作业环境的地面上，操纵人员站立于导引操纵装置3一旁，用其双手进行操纵。

操纵作业中机器人操作臂1负责把持导引操纵装置3和被操作物4，操纵人员负责导引运动并进行被操作物4与作业对象5之间的力交互。

这里的机器人操作臂1是指具备运动能力的任意工业机器人，可以是但不限于六自由度关节型机械臂、三自由度极坐标机械臂、三自由度直角坐标机器人、SCARA机器人，等等。

这里的被操作物4可以是打磨作业、雕刻作业中使用的工具，也可以是中配作业中的机械手爪及其夹持的被装配件，还可以是与上述情况不同的任意末端执行器。

所述导引操纵装置3的结构如图2所示，主要包括左手柄3-1、右手柄3-2、手柄连接杆3-3、转向轴3-4、力传感器3-5、连接杆3-6、根部接口3-7、末端接口3-8。其中左手柄3-1和右手柄3-2连接在手柄连接杆3-3的两端，手柄连接杆3-3的中部与转向轴3-4的上端连接，转向轴3-4的下端与力传感器3-5相连，力传感器3-5与连接杆3-6的中部连接，根部接口3-7和末端接口3-8布置在连接杆3-6的两端。

转向轴3-4上装有转位开关(图2中未画出)，当转位开关打开时，手柄连接杆3-3可带动左手柄3-1和右手柄3-2一同在±90°的范围内进行转位运动，转至合适的位置后关闭转位开关，可将手柄连接杆3-3锁定到当前位置上。如此可以实现操纵人员6相对于导引操纵装置3和作业对象5任意方位下的操纵作业。

图2中的力传感器可以是十字梁结构的六维力/力矩传感器，也可以是弹性铰链机构的六维力/力矩传感器，还可以是任意其它结构原理的六维力/力矩传感器。坐标系ΣO_D-xyz是力传感器3-5的测量坐标系。

在本发明所公开的导引操纵装置3中，除力传感器3-5外，还搭载有摄像头、陀螺仪、加速度计三种传感器(额外搭载的传感器在图2中均未画出)，用于建立柔顺控制和示教学习过程中的多感知机能反馈。

图3给出了所述导引操纵系统的硬件组成及其间的信息流向，设机器人操作臂1有n个自由度，上位机通过串行总线与机器人操作臂1各轴的驱动器、六维力/力矩传感器2、以及导引操纵装置3内各传感器进行通讯，采集上述各传感器的反馈数据，并向机器人操作臂1中各轴的驱动器发送控制指令。所使用的串行总线可以是但不限于RS485、I²C、CAN、Ethernet中的一种。

对于机器人操作臂的柔顺操纵控制方法，本发明采取的技术方案是：

为给出导引操纵过程中的柔顺控制律，这里首先对机器人进行力学分析，从导引操纵装置3和六维力/力矩传感器2的连接接口处断开，将形成如图4所示的两个分立体，即由机器人操作臂1和六维力/力矩传感器构成的机器人侧分离体，以及由导引操纵装置3和被操作物4构成的末端分离体。为使操纵过程中机器人操作臂1和操纵人员5的运动尽可能协调一致，在柔顺操纵控制器设计过程中，我们在导引操纵转置3与机器人操作臂1之间引入了一个假想的弹簧阻尼系统。

图4中F_R、M_R分别为机器人对导引操纵装置3的输出力矢量和输出力矩矢量，F_H和M_H分别是操纵人员对导引操纵装置3施加的操纵力矢量和操作力矩矢量，F_E和M_E分别是被操作物4对作业对象5施加的作业力矢量和作业力矩矢量，K_H和B_H分别是操纵人员6与导引操纵装置3之间假想弹簧阻尼模型的等效刚度阵和等效阻尼阵，K_E和B_E分别是被操作物4与作业对象5之间假想弹簧阻尼模型的等效刚度阵和等效阻尼阵。

对上述两个分离体按拉格朗日法进行动力学分析，机器人侧分离体和末端分离体的动力学方程分别如式(1)、(2)所示。式(1)中q是由关节位置变量组成的广义位置矢量，分别

分别是q的速度和加速度矢量，M_R、B_R分别是机器人操作臂的广义惯性阵和阻尼系数阵，C_R(·)和G_R(·)分别是机器人离心力/科氏力函数和重力函数，τ是机器人驱动力或驱动力矩构成的广义力矢量。

式(2)中P_R是六维力/力矩传感器2的测量中心在ΣO_D-xyz坐标系中的位置矢量，P_E是被操作物4与作业对象5之间作用力的作用点在ΣO_D-xyz坐标系中的位置矢量，a_D是O_D点的加速度矢量，ω_D是ΣO_D-xyz坐标系的角速度矢量。对式(2)进行整理，可得：

式(3)中，F_R和M_R由六维力/力矩传感器2测得，F_H和M_H由导引操纵装置3中的力传感器3-5测得，a_D和w_D分别由导引操纵装置3中的加速度计和陀螺仪测得，因此式(3)等号右侧的表达式由可测量的变量和常数参数组成，即可由式(3)计算实际被操作物5对作业对象6的作业力F_E和作业力矩M_E。

在实际的柔顺控制过程中，操纵人员6对导引操纵装置3的操纵力F_H和操纵力矩M_H可被分为两部分，其中有效的部分用来输出操作力F_E和力矩M_E，而F_H-F_E和M_H-M_E的部分则对应着操纵人员6与机器人操作臂1由于未能100％协调而“内耗”的操纵力和力矩，操纵过程柔顺控制的目的就是使F_H-F_E和M_H-M_E尽可能小。按上述控制目的，构建了如图5所示的导引操纵力位混合控制系统，其中

分别表示导引操纵装置3参考运动位置、速度、加速度矢量，ΔX_D、

是根据操纵人员6与机器人操作臂1的运动不协调量计算得到的ΣO_D-xyz系位姿补偿量。

上述柔顺控制系统中，根据力传感器测得3-5的操纵力F_H和M_H，导引操纵的参考运动由操纵人员6与导引操纵装置3之间的弹簧阻尼系统生成，即

由式(4)中的2阶微分方程求解得到。

其中M_D是导引操纵装置3和被操作物4整体的广义惯性矩阵。

除生成导引操纵控制的参考运动外，所述柔顺控制器还需补偿F_H-F_E和M_H-M_E对应的人与机器人内耗的部分操纵力和力矩，这里将补偿量映射为机器人操作臂1带动下导引操纵装置3的位姿调整量，即ΔX_D、

此补偿运动使用被操作物4和作业对象5之间的假想弹簧阻尼系统中进行求解，所示用的控制律可以是式(5)所示的刚度控制律，也可以是式(6)所示的阻尼控制律，还可以是式(7)所示的阻抗控制律。

将生成的参考运动

和补偿运动ΔX_D、

累加，作为机器人操作臂1的轨迹追踪控制器的输入，所述轨迹追踪控制器为具有轨迹追踪控制功能的任意位置伺服控制器，可以是但不限于PID控制器、前馈+PD反馈控制器、计算力矩控制器、加速度分解控制器。

对于运动和力相耦合的作业示教学习方法，本发明采取的技术方案是：

首先定义机器学习的三要素，即状态空间、行为空间、状态/行为映射关系。

导引操纵系统的状态量定义为：末端操作器的位置和姿态量X(位姿矩阵或矢量)、操作力矢量F_E和力矩量矢量M_E、作业对象5的被操作变化量X_O(如几何尺寸、表面粗糙状态、几何形状量等)，此外还包括上述状态量的变化量即相应的“速度”、“加速度量”。所构成的状态空间S可表示为：

(这里∑号只表示所有可能的状态的集合之意，而非求和)。

导引操纵系统的行为量定义为：与作业人员使用导引操纵装置3进行导引的行为相关的变量，即操纵力矢量F_H和力矩矢量M_H、导引操纵装置3的位姿矢量X_D、速度

等。

构成的行为空间为

导引操纵系统的映射关系定义为：在当前(用下标j表示“当前”这一时间点)状态S_j下采取行为A_j，得到将要到来的下一时刻(用下标j+1表示)状态S_j+1的映射关系，即存在A_j∈A和S_j,S_j+1∈S，使

得到的状态S_j+1的与期望的目标状态S^*的接近程度的评价值为ΔS_j＝||S_j+1-S^*||。则：A_j∈A的一系列行为A_j1，A_j2，……，A_jk，A_jn，(j＝1,2,3,……,m；k＝1,2,3,……,n；n,m皆为自然数)的即时评价P_j为：

ΔS_jk＝||S_j(k+1)-S^*||。以即时评价函数P_j的累加和最小为学习的目的。

按上述定义，这里提出了如图6所示的深度学习系统，与一般的单层学习系统相比，所述深度学习系统具有经验记忆层、技巧抽取层、行为泛化层、预测评价层四个层级，能够更好地完成导引操纵作业中的运动示教和力示教学习任务。其中Q_E、Q_S分别是状态行为对和抽取得到的技巧的价值函数，P_S是技巧抽取的即时回报函数。

上述深度学习系统中的第一层为经验记忆层，训练数据是由各时刻系统状态S_j、行为A_j和即时评价P_j(j＝1,2,3,……,m)构成的时间序列，学习的结果是由当前状态S_j与当前行为A_j到价值函数Q_E(S_j,A_j)的经验价值映射。

第二层是技巧抽取层，其输入是经验记忆层的输入和输出，并使用与作业相关的技巧评价函数P_S进行技巧的抽取和评价，相当于在第一层所对应的经验价值空间中抽取评价值高的技巧，技巧抽取层的输出是技巧集合D_k和相对应的技巧价值Q_S(D_k)，k＝1,2,…,N_S，N_S为抽取得到的技巧集合数量。所述技巧集合D_k可定义在系统的状态/行为空间内，也可定义在特别选出或定义的技巧特征变量所张成的空间内。在D_k内，技巧抽取的结果可表示为状态/行为的散点分布、分布密度函数、边界条件函数等不同的形式。

第三层是行为泛化层，对技巧抽取层得到的结果进行泛化，得到任意系统状态S_j下最优技巧所对应的行为输出A_j。

在具体实施方面，每层智能体的学习算法可选择小脑神经网络(CMAC)、前馈神经网络(FFN)、模糊算法(FA)、强化学习算法(RL)等不同的学习算法，也可使用学习算法的结合来获得更强的学习能力，例如可以使用强化学习算法对CMAC进行训练来达成学习的目的，也可以使用模糊神经网络进行抽取操纵人员的技巧性、经验性模糊知识并得到模糊行为逻辑关系和模糊输出，再通过解模糊获得输出，将输出作为导引操纵机构自学习系统的输出。

为减少所述学习系统的内存和外存空间占用，在获得大量的作业技术熟练导引操纵者操纵&作业教师数据的基础上，可采用基于状态、行为空间的特征选择和评价的方法来设计技巧特征抽取算法。

Claims

1.一种机器人操作臂的导引操纵系统的柔顺操纵控制方法，所述导引操纵系统包括：机器人操作臂(1)、六维力/力矩传感器(2)、导引操纵装置(3)、被操作物(4)、作业对象(5)；导引操纵装置(3)的一端与六维力/力矩传感器(2)的工具侧接口连接，另一端与被操作物(4)连接；六维力/力矩传感器(2)的机器人侧接口与机器人操作臂(1)的末端机械接口相连，机器人操作臂(1)和作业对象(5)均用于固定于作业环境的地面上，操纵作业时操纵人员(6)站立于导引操纵装置(3)一旁对其进行操纵；

所述导引操纵装置(3)包括左手柄(3-1)、右手柄(3-2)、手柄连接杆(3-3)、转向轴(3-4)、力传感器(3-5)、连接杆(3-6)、根部接口(3-7)、末端接口(3-8)，其中左手柄(3-1)和右手柄(3-2)连接在手柄连接杆(3-3)的两端，手柄连接杆(3-3)的中部与转向轴(3-4)的上端连接，转向轴(3-4)的下端与力传感器(3-5)相连，力传感器(3-5)与连接杆(3-6)的中部连接，根部接口(3-7)和末端接口(3-8)布置在连接杆(3-6)的两端；

转向轴(3-4)上装有转位开关，当转位开关打开时，手柄连接杆(3-3)可带动左手柄(3-1)和右手柄(3-2)一同在±90°的范围内进行转位运动，转至合适的位置后关闭转位开关，可将手柄连接杆(3-3)锁定到当前位置上，实现操纵人员(6)相对于导引操纵装置(3)和作业对象(5)的任意方位下的操纵作业；

所述导引操纵装置(3)中的力传感器(3-5)为十字梁结构的六维力/力矩传感器或弹性铰链机构的六维力/力矩传感器；

所述导引操纵装置(3)的力传感器(3-5)上还搭载有摄像头、陀螺仪、加速度计三种传感器；

所述导引操纵系统的分布式的控制系统硬件包括：上位机、机器人操作臂(1)各轴的驱动器、六维力/力矩传感器(2)、以及导引操纵装置(3)内各传感器，上位机通过串行总线采集上述各传感器的反馈数据，并向机器人操作臂(1)中各轴的驱动器发送控制指令；

其特征在于，受力分析过程中首先取分离体，从导引操纵装置(3)和六维力/力矩传感器(2)的连接接口处断开，将形成两个分离体，即由机器人操作臂(1)和六维力/力矩传感器(2)构成的机器人侧分离体，以及由导引操纵装置(3)和被操作物(4)构成的末端分离体，以F_R、M_R分别表示机器人对导引操纵装置(3)的输出力矢量和输出力矩矢量，以F_H和M_H分别表示操纵人员(6)对导引操纵装置(3)施加的操纵力矢量和操作力矩矢量，以F_E和M_E分别表示被操作物(4)对作业对象(5)施加的作业力矢量和作业力矩矢量；对上述两个分离体按拉格朗日法进行动力学分析，机器人侧分离体和末端分离体的动力学方程分别如式(1)、(2)所示，式(1)中q是由关节位置变量组成的广义位置矢量，分别

按式(4)计算，

其中M_D是导引操纵装置(3)和被操作物(4)整体的广义惯性矩阵；

使用由式(3)算得的操作力F_E和力矩M_E，可计算出操纵人员(6)与机器人操作臂(1)由于未能100％协调而“内耗”的操纵力和力矩，即F_H-F_E和M_H-M_E，柔顺控制器对F_H-F_E和M_H-M_E进行补偿，将补偿量映射为机器人操作臂(1)带动下导引操纵装置(3)的ΔX_D、

将生成的参考运动

和补偿运动ΔX_D、

2.一种机器人操作臂的导引操纵系统的示教学习方法，所述导引操纵系统包括：机器人操作臂(1)、六维力/力矩传感器(2)、导引操纵装置(3)、被操作物(4)、作业对象(5)；导引操纵装置(3)的一端与六维力/力矩传感器(2)的工具侧接口连接，另一端与被操作物(4)连接；六维力/力矩传感器(2)的机器人侧接口与机器人操作臂(1)的末端机械接口相连，机器人操作臂(1)和作业对象(5)均用于固定于作业环境的地面上，操纵作业时操纵人员(6)站立于导引操纵装置(3)一旁对其进行操纵；

所述导引操纵装置(3)主要包括左手柄(3-1)、右手柄(3-2)、手柄连接杆(3-3)、转向轴(3-4)、力传感器(3-5)、连接杆(3-6)、根部接口(3-7)、末端接口(3-8)，其中左手柄(3-1)和右手柄(3-2)连接在手柄连接杆(3-3)的两端，手柄连接杆(3-3)的中部与转向轴(3-4)的上端连接，转向轴(3-4)的下端与力传感器(3-5)相连，力传感器(3-5)与连接杆(3-6)的中部连接，根部接口(3-7)和末端接口(3-8)布置在连接杆(3-6)的两端；

其特征在于，将柔顺操纵控制过程得到的数据作为训练数据，使用智能学习方法进行学习；

导引操纵系统的状态量定义为：末端操作器的位置和姿态量X、操作力矢量F_E和力矩量矢量M_E、作业对象(5)的被操作变化量X_O，X_O包含作业对象(5)的几何尺寸、表面粗糙状态、几何形状量，还包括相应的“速度”、“加速度量”，所构成的状态空间S表示为：

∑表示所有可能的状态的集合；

导引操纵系统的行为量定义为：操纵力矢量F_H和力矩矢量M_H、导引操纵装置(3)的位姿矢量X_D、速度

构成的行为空间为

第二层是技巧抽取层，其输入是经验记忆层的输入和输出，并在第一层所对应的经验价值空间中抽取评价值高的技巧，技巧抽取层的输出是技巧集合D_k和相对应的技巧价值Q_S(D_k)，k＝1,2,…,N_S，N_S为抽取得到的技巧集合数量，所述技巧集合D_k定义在系统的状态/行为空间内或定义在选出或定义的技巧特征变量所张成的空间内，在D_k内技巧抽取的结果可表示为状态/行为的散点分布、分布密度函数或边界条件函数的形式；