CN115488881A - 基于多运动技能先验的人机共享自治遥操作方法及系统 - Google Patents

基于多运动技能先验的人机共享自治遥操作方法及系统 Download PDF

Info

Publication number
CN115488881A
CN115488881A CN202211048193.9A CN202211048193A CN115488881A CN 115488881 A CN115488881 A CN 115488881A CN 202211048193 A CN202211048193 A CN 202211048193A CN 115488881 A CN115488881 A CN 115488881A
Authority
CN
China
Prior art keywords
robot
track
human
control
teleoperation
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202211048193.9A
Other languages
English (en)
Inventor
赵欢
郭吉阳
汪一苇
丁汉
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Huazhong University of Science and Technology
Original Assignee
Huazhong University of Science and Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Huazhong University of Science and Technology filed Critical Huazhong University of Science and Technology
Priority to CN202211048193.9A priority Critical patent/CN115488881A/zh
Publication of CN115488881A publication Critical patent/CN115488881A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • BPERFORMING OPERATIONS; TRANSPORTING
    • B25HAND TOOLS; PORTABLE POWER-DRIVEN TOOLS; MANIPULATORS
    • B25JMANIPULATORS; CHAMBERS PROVIDED WITH MANIPULATION DEVICES
    • B25J9/00Programme-controlled manipulators
    • B25J9/16Programme controls
    • B25J9/1628Programme controls characterised by the control loop
    • B25J9/163Programme controls characterised by the control loop learning, adaptive, model based, rule based expert control
    • BPERFORMING OPERATIONS; TRANSPORTING
    • B25HAND TOOLS; PORTABLE POWER-DRIVEN TOOLS; MANIPULATORS
    • B25JMANIPULATORS; CHAMBERS PROVIDED WITH MANIPULATION DEVICES
    • B25J13/00Controls for manipulators
    • B25J13/02Hand grip control means
    • BPERFORMING OPERATIONS; TRANSPORTING
    • B25HAND TOOLS; PORTABLE POWER-DRIVEN TOOLS; MANIPULATORS
    • B25JMANIPULATORS; CHAMBERS PROVIDED WITH MANIPULATION DEVICES
    • B25J9/00Programme-controlled manipulators
    • B25J9/16Programme controls
    • B25J9/1602Programme controls characterised by the control system, structure, architecture
    • B25J9/161Hardware, e.g. neural networks, fuzzy logic, interfaces, processor
    • BPERFORMING OPERATIONS; TRANSPORTING
    • B25HAND TOOLS; PORTABLE POWER-DRIVEN TOOLS; MANIPULATORS
    • B25JMANIPULATORS; CHAMBERS PROVIDED WITH MANIPULATION DEVICES
    • B25J9/00Programme-controlled manipulators
    • B25J9/16Programme controls
    • B25J9/1612Programme controls characterised by the hand, wrist, grip control
    • BPERFORMING OPERATIONS; TRANSPORTING
    • B25HAND TOOLS; PORTABLE POWER-DRIVEN TOOLS; MANIPULATORS
    • B25JMANIPULATORS; CHAMBERS PROVIDED WITH MANIPULATION DEVICES
    • B25J9/00Programme-controlled manipulators
    • B25J9/16Programme controls
    • B25J9/1656Programme controls characterised by programming, planning systems for manipulators
    • B25J9/1661Programme controls characterised by programming, planning systems for manipulators characterised by task planning, object-oriented languages

Landscapes

  • Engineering & Computer Science (AREA)
  • Robotics (AREA)
  • Mechanical Engineering (AREA)
  • Automation & Control Theory (AREA)
  • Physics & Mathematics (AREA)
  • Orthopedic Medicine & Surgery (AREA)
  • General Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Health & Medical Sciences (AREA)
  • Evolutionary Computation (AREA)
  • Fuzzy Systems (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Feedback Control In General (AREA)

Abstract

本发明公开了一种基于多运动技能先验的人机共享自治遥操作方法及系统,包括以下步骤:基于动态运动基元的方法,通过对不同任务轨迹进行示教学习,构建运动技能库;获取实时轨迹在运行技能库中的最优分类;构建人类和机器人共享控制的导纳控制模型;基于人类和机器人的置信度获取共享控制权重,进行共享控制率仲裁。将人和机器人各自的规划控制统一在导纳控制框架下,并通过二者的置信度度量设计仲裁函数,分配共享控制权值,在线调整机器人自治水平,实现共享控制遥操作;相比于机器人主导的离线轨迹生成方法,本方法增加了人类介入操作的灵活性,可以实现避障、轨迹修调等功能,提升了复现精度,降低人类功耗和任务完成时间。

Description

基于多运动技能先验的人机共享自治遥操作方法及系统
技术领域
本发明属于机器人控制技术领域,更具体地,涉及一种基于多运动技能先验的人机共享自治遥操作方法及系统。
背景技术
医疗手术机器人凭借精度高、灵活性强、医生操作不易疲劳且能去除手部抖动等优势,成为机器人领域的新兴研究热点。由于手术环境的复杂多变,目前的人工智能技术尚不足以支撑机器人实现完全自主的操作,而机器人离线编程技术又增加了风险并丧失了其灵活性。因此,人机交互中的共享控制——结合人类决策意图与机器人自主规划的控制策略,在医疗手术机器人中存在巨大应用前景。如何兼顾多变的环境和复杂的任务,将人类意图与机器人自主的决策规划相融合是该技术的一大难点。
为了解决上述问题,专利文献CN201811159046.2公开了一种自主遥控水下机器人人机共享控制方法,其包括行为管理、基本行为和行为综合三个单元,分别负责机器人作业模式的切换、基本行为输出的速度矢量计算和对各个基本行为的输出进行混合,提高了自主遥控水下机器人的任务表现并降低了操作人员的工作负担。另外,专利文献CN201410056953.X公开了一种基于力融合的机器人手控器共享控制方法,以目标对象为导向,通过操作者自身的智能决策实现人手操纵手控器控制机器人运动;同时以目标对象为导向构建使机器人自主接近目标的虚拟引导力,以此虚拟力引导手控器控制机器人运动,并将操作者的操纵力与目标对象的虚拟引导力进行融合,通过融合力对手控器和机器人的运动进行控制,实现机器智能与人类智能共同作用下控制机器人接近目标对象,完成作业过程。
但专利文献CN201811159046.2和专利文献CN201410056953.X的方法,均局限于单一的运动技能,虽然这两种方法都通过不同的原理实现了机器人与人类操作者控制权的融合,但均未考虑到实际手术环境中切除、缝合和穿刺等不同的任务类型,在人机共享控制过程中,机器人自身的控制策略无法针对不同任务实现特定的轨迹,进而无法针对多变的场景进行有效的自主规划和共享管制权的仲裁。
发明内容
针对现有技术的以上缺陷或改进需求,本发明提供一种基于多运动技能先验的人机共享自治遥操作方法及系统,将人和机器人各自的规划控制统一在导纳控制框架下,并通过二者的置信度度量设计仲裁函数,分配共享控制权值,在线调整机器人自治水平,实现共享控制遥操作;相比于机器人主导的离线轨迹生成方法,本申请的方法增加了人类介入操作的灵活性,可以实现避障、轨迹修调等功能,提升了复现精度,降低人类功耗和任务完成时间。
为实现上述目的,按照本发明的一方面,提供一种基于多运动技能先验的人机共享自治遥操作方法,包括以下步骤:
S100基于动态运动基元的方法,通过对不同任务轨迹进行示教学习,构建运动技能库;
S200获取实时轨迹在运行技能库中的最优分类;
S300构建人类和机器人共享控制的导纳控制模型;
S400基于人类和机器人的置信度获取共享控制权重,进行共享控制率仲裁。
进一步地,所述S200包括:S210对实时轨迹进行分类汇总:
Figure BDA0003822814080000021
其中,x0→T表示从开始到当前时刻的轨迹;N为运动技能库包含的动态运动基元的总个数;g代表给定的目标点;P为概率;T为总时间;
S220获取实时生成的轨迹与运动技能库中的期望轨迹的相似度关系:
Figure BDA0003822814080000031
lρ(i,j)=d(i,j)+ρ·min{l(i-1,j-1),l(i-1,j),l(i,j-1)}
l(i,j)=d(i,j)+min{l(i-1,j-1),l(i-1,j),l(i,j-1)}
其中,i=1,2,…m,j=1,2,…n,m,n分别代表轨迹xA和xB的路径数据点总数;N为规整路径的长度;
S230对实时生成的轨迹与运动技能库中的期望轨迹逐一对比,获得已知轨迹相对于各个运动技能库技能的相似性度量
Figure BDA0003822814080000032
S240基于相似性度量,以最大熵原则为准则,获得最优分类:
Figure BDA0003822814080000033
其中,β为可调参数,最优的参数值为
Figure BDA0003822814080000034
其中的ε为一个正的常数,取ε=0.001;
进一步地,所述S220包括:
S221定义A,B两路径之间的相似度为:
Figure BDA0003822814080000035
其中D表示距离函数;使用路径的积分长度评价当前轨迹与技能库中标准路径距离,有如下约束:
Figure BDA0003822814080000036
其中,m,n分别代表轨迹xA和xB的路径数据点总数;s为弧长,S0和Sm分别代表轨迹起始点0到m的各段弧长,S0和Sn分别代表轨迹起始点0到n的各段弧长;
S222采用动态时间归整计算距离:
Figure BDA0003822814080000041
其中,xA和xB为轨迹;
S223以路径点
Figure BDA0003822814080000042
Figure BDA0003822814080000043
之间的欧式距离作为第i行j列构造距离矩阵Dm×n,求解动态规划,并引入遗忘因子修正:
lρ(i,j)=d(i,j)+ρ·min{l(i-1,j-1),l(i-1,j),l(i,j-1)}
l(i,j)=d(i,j)+min{l(i-1,j-1),l(i-1,j),l(i,j-1)}
其中,i=1,2,…m,j=1,2,…n,m,n分别代表轨迹xA和xB的路径数据点总数;ρ为遗忘因子;
S224距离的度量在l(i,j)的基础上取平均,得到轨迹xA和xB的距离,即为实时生成的轨迹与运动技能库中的期望轨迹的相似度关系:
Figure BDA0003822814080000044
其中,N为规整路径的长度。
进一步地,所述S100具体包括:
S101在DMP运动规划框架中确定运动轨迹特征,获取任一运动技能表示:
p=[τ,w1,w2,...wN]T
其中,τ为任务执行的速度因子;{wi}为从人类示教数据中学习到的权值;N为高斯基函数个数,由人工调参设定;T为向量转置;
S102通过对不同的任务轨迹进行示教学习,获得若干组pi,构建一簇动态运动基元库,即运动技能库:
DMPs={p1,p2,...,pl}。
进一步地,所述S300具体包括:
S301获取外环的零刚度条件下笛卡尔空间的导纳控制模型:
Figure BDA0003822814080000051
其中,Md和Cd分别为设计的惯性和阻尼参数;xr(t)表示笛卡尔空间的期望轨迹;ur(t)和fh(t)分别代表机器人和人类操作者所施加的力的输入,α和β则分别为机器人和人类操作者的控制权重;
S302基于动态运动基元的方法,构造无刚度的导纳控制,获得阻尼参数和机器人所施加的力的输入:
Figure BDA0003822814080000052
Figure BDA0003822814080000053
其中,Md为惯性矩阵;τ为任务执行的速度因子;D为阻尼系数矩阵,K为刚度系数,g为目标点,x为当前位置,x0为起始位置,s为相变量,隐式的表示时间;f(s)为强迫项;
S303惯性矩阵Md设置为对角矩阵:
Md=mdI
其中I为单位矩阵,md为期望的惯性幅值,可根据机器人的力拖动灵敏度表现人为调整。
进一步地,所述机器人和人类操作者的控制权重α和β满足:
α+β=1。
进一步地,所述S400具体包括:
S401获取机器人对自身最优轨迹DMP*的置信度:
Cr=P(DMP*|x0→T,g)-P(DMP#|x0→T,g)
其中,P(DMP*|x0→T,g)为最优分类的概率;P(DMP#|x0→T,g)为次优分类的概率;g为目标点;
S402获取人类对自身的置信度:
Figure BDA0003822814080000061
其中,λ和δ为超参数,分别决定了S曲线的横向分布缩放尺度和对称轴,|fh(t)|为施加于主手端机器人末端的力的大小;
S403构造仲裁函数:
Figure BDA0003822814080000062
其中,ξ,γ,ε,η为超参数,Cr为机器人的置信度;Ch为人类对自身的置信度。
按照本发明的第二方面,提供一种基于多运动技能先验的人机共享自治遥操作系统,其特征在于,包括:
示教学习模块,用于基于动态运动基元的方法,通过对不同任务轨迹进行示教学习,构建运动技能库;
分类汇总模块,用于获取实时轨迹在运行技能库中的最优分类;
控制系统构建模块,用于构建人类和机器人共享控制的导纳控制模型;
共享仲裁模块,用于基于人类和机器人的置信度获取共享控制权重,进行共享控制率仲裁。
按照本发明的第三方面,提供一种电子设备,包括:
至少一个处理器、至少一个存储器和通信接口;其中,
所述处理器、存储器和通信接口相互间进行通信;
所述存储器存储有可被所述处理器执行的程序指令,所述处理器调用所述程序指令,以执行所述的方法。
按照本发明的第四方面,提供一种非暂态计算机可读存储介质,所述非暂态计算机可读存储介质存储计算机指令,所述计算机指令使所述计算机执行所述的方法。
总体而言,通过本发明所构思的以上技术方案与现有技术相比,能够取得下列有益效果:
1.本发明的人机共享自治遥操作方法,将人和机器人各自的规划控制统一在导纳控制框架下,并通过二者的置信度度量设计仲裁函数,分配共享控制权值,在线调整机器人自治水平,实现共享控制遥操作;相比于机器人主导的离线轨迹生成方法;
2.本申请的人机共享自治遥操作方法增加了人类介入操作的灵活性,可以实现避障、轨迹修调等功能,提升了复现精度,降低人类功耗和任务完成时间。
附图说明
图1为本发明的遥操作共享控制框架图;
图2为本发明的规整路径的搜索约束示意图;
图3为本发明的机器人导纳控制框图;
图4为本发明的Fm=10时的人类置信度曲线图;
图5为本发明的共享控制仲裁因子变化率图;
图6为本发明的基于多运动技能先验的人机共享自治遥操作方法流程图。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅用以解释本发明,并不用于限定本发明。此外,下面所描述的本发明各个实施方式中所涉及到的技术特征只要彼此之间未构成冲突就可以相互组合。
如图1和图6所示,本发明提供一种基于多运动技能先验的人机共享自治遥操作方法,包括以下步骤:
S100基于动态运动基元的方法,通过对不同任务轨迹进行示教学习,构建运动技能库;
S200获取实时轨迹在运行技能库中的最优分类;
S300构建人类和机器人共享控制的导纳控制模型;
S400基于人类和机器人的置信度获取共享控制权重,进行共享控制率仲裁。
本申请的方法,将人和机器人各自的规划控制统一在导纳控制框架下,并通过二者的置信度度量设计仲裁函数,分配共享控制权值,在线调整机器人自治水平,实现共享控制遥操作;相比于机器人主导的离线轨迹生成方法,本申请的方法增加了人类介入操作的灵活性,可以实现避障、轨迹修调等功能,提升了复现精度,降低人类功耗和任务完成时间。
基于上述实施例,作为一个可选的实施例,本发明提供一种基于多运动技能先验的人机共享自治遥操作方法,所述S100包括:
S101在DMP运动规划框架中确定运动轨迹特征,获取任一运动技能表示:
p=[τ,w1,w2,...wN]T
其中,τ为任务执行的速度因子;{wi}为从人类示教数据中学习到的权值;N为高斯基函数个数,由人工调参设定;T为;
S102通过对不同的任务轨迹进行示教学习,获得若干组pi,构建一簇动态运动基元库,即运动技能库:
DMPs={p1,p2,...,pl}。
动态运动基元(DMP)是一种极具代表性的方法,DMP方法如下:
Figure BDA0003822814080000091
使用DMP作为机器人自主控制的模型,通过人类示教,学习手术场景中不同任务应当具有的轨迹,并进行编码。在动态运动基元(DMP),任务执行的速度因子τ和从人类示教数据中学习到的权值{wi}是决定运动轨迹特征的因素,即可以认为一组参数p=[τ,w1,w2,...wN]T代表了一种运动基元的特征向量,也就是表征为一种特定的运动技能。通过对不同的任务轨迹进行示教学习,获得若干组,便可构建一簇动态运动基元库,即运动技能库
DMPs={p1,p2,...,pl} (2)。
由于运动技能多种多样,因此必须在线的对已知的轨迹进行分类,所用方法是在任务的目标位置已知的前提下开展。
基于上述实施例,作为一个可选的实施例,本发明提供一种基于多运动技能先验的人机共享自治遥操作方法,所述S200包括:
S210对实时轨迹进行分类汇总:
Figure BDA0003822814080000092
其中,x0→T表示从开始到当前时刻的轨迹;N为运动技能库包含的动态运动基元的总个数;g代表给定的目标点;
S220获取实时生成的轨迹与运动技能库中的期望轨迹的相似度关系:
Figure BDA0003822814080000101
lρ(i,j)=d(i,j)+ρ·min{l(i-1,j-1),l(i-1,j),l(i,j-1)}
l(i,j)=d(i,j)+min{l(i-1,j-1),l(i-1,j),l(i,j-1)}
其中,i=1,2,…m,j=1,2,…n,m,n分别代表轨迹xA和xB的路径数据点总数;N为规整路径的长度;
S230对实时生成的轨迹与运动技能库中的期望轨迹逐一对比,获得实时轨迹相对于各个运动技能库技能的相似性度量
Figure BDA0003822814080000102
S240基于相似性度量,以最大熵原则为准则,获得最优分类:
Figure BDA0003822814080000103
其中,N为规整路径的长度;
Figure BDA0003822814080000104
为相似性度量。
基于上述实施例,作为一个可选的实施例,所述S220包括:
S221定义A,B两路径之间的相似度为:
Figure BDA0003822814080000105
其中D表示距离函数;使用路径的积分长度评价当前轨迹与技能库中标准路径距离,有如下约束:
Figure BDA0003822814080000106
其中,m,n分别代表轨迹xA和xB的路径数据点总数;s为;
S222采用动态时间归整计算距离:
Figure BDA0003822814080000107
S223以路径点
Figure BDA0003822814080000111
Figure BDA0003822814080000112
之间的欧式距离作为第i行j列构造距离矩阵Dm×n,求解动态规划,并引入遗忘因子修正:
lρ(i,j)=d(i,j)+ρ·min{l(i-1,j-1),l(i-1,j),l(i,j-1)}
l(i,j)=d(i,j)+min{l(i-1,j-1),l(i-1,j),l(i,j-1)}
其中,i=1,2,…m,j=1,2,…n,m,n分别代表轨迹xA和xB的路径数据点总数;ρ为遗忘因子;
S224距离的度量在l(i,j)的基础上取平均,得到轨迹xA和xB的距离,即为实时生成的轨迹与运动技能库中的期望轨迹的相似度关系:
Figure BDA0003822814080000113
其中,N为规整路径的长度。
在线轨迹识别与分类,可表示为:
Figure BDA0003822814080000114
获取使用历史路径和动态运动基元库中的标准路径的距离作为评价式(3)的指标,历史路径是根据共享控制实时生成的,而标准路径则可以通过运动技能库中的各个模型离线生成。定义A,B两路径之间的相似度为:
Figure BDA0003822814080000115
其中D表示距离函数。
若用来表示历史路径和标准路径的距离,由于历史路径是在线生成的,其必然存在一些抖动和速度不均衡的现象;而DMPs生成的路径也隐式依赖于时间,直接以运动开始到结束的时间作为评价的范围有失准确性,因此使用路径的积分长度作为评价当前轨迹与技能库中标准路径距离的范畴,即在(4)中,有如下约束:
Figure BDA0003822814080000121
其中,m,n分别代表轨迹xA和xB的路径数据点总数。
由于两条轨迹的速度不同,绝大多数情况有m≠n,即两条路径的数据点个数不同,无法在时间序列上对齐,二者的距离也就无法直接采用对应时刻相减再积分的方式来衡量。因此,借助于语音识别领域衡量两不同时间序列相似度的方法,采用动态时间归整(Dynamic Time Warping,DTW)来计算二者距离。即:
Figure BDA0003822814080000122
具体的,记轨迹xA和xB为:
Figure BDA0003822814080000123
其路径点
Figure BDA0003822814080000124
Figure BDA0003822814080000125
之间的欧式距离记为
Figure BDA0003822814080000126
以d(i,j)作为第i行j列构造距离矩阵Dm×n。DTW则转化为寻找一条从Dm×n的左下角走到右上角的路径,使其满足累积距离l(m,n)最小的问题。其中路径的搜索需要满足如图2所示的规则,即:路径点(i,j)必须经过(i-1,j-1)、(i-1,j)或(i,j-1)中的一点。易知,该问题为经典的动态规划(Dynamic Programming,DP)问题,其时间复杂度为Ο(m+n),递推式如下:
l(i,j)=d(i,j)+min{l(i-1,j-1),l(i-1,j),l(i,j-1)} (9)
在式(9)所示的原始DTW递推式中,各个点的权值均为1,也就意味着在DTW路径中各个点对分类的影响是相同的,不利于在线的轨迹更改或修正。因此,引入遗忘因子对其进行修正:
lρ(i,j)=d(i,j)+ρ·min{l(i-1,j-1),l(i-1,j),l(i,j-1)} (10)
遗忘因子ρ优选为0.99。
另外,由于运动技能库会同时生成多条期望轨迹,经过DTW后的路径点个数不一定相同,因此,距离的度量在l(i,j)的基础上取平均,即式(6)可写作:
Figure BDA0003822814080000131
其中,N为规整路径的长度。
对实时生成的轨迹与运动技能库中的期望轨迹逐一对比计算,即可获得已知轨迹相对于各个先验技能的相似性度量
Figure BDA0003822814080000132
通过相似性度量,以最大熵原则为准则,计算最优分类:
Figure BDA0003822814080000133
其中,β为可调参数,最优的参数值为
Figure BDA0003822814080000134
其中的ε为一个小的为正的常数,这里取ε=0.001。最终的DMP*即为当前轨迹在运行技能库中的最佳分类。
基于上述实施例,作为一个可选的实施例,本发明提供一种基于多运动技能先验的人机共享自治遥操作方法,所述S300包括:
S301获取外环的零刚度条件下笛卡尔空间的导纳控制模型:
Figure BDA0003822814080000135
其中,Md和Cd分别为设计的惯性和阻尼参数;xr(t)表示笛卡尔空间的期望轨迹;ur(t)和fh(t)分别代表机器人和人类操作者所施加的力的输入,α和β则分别为二者的控制权重;
如图3所示,令机器人处于导纳控制之下,导纳控制通过两个回路实现:内部位置控制回路和外部力控制回路。由于市场中商用机器人已经提供了具有非常精确的关节位置控制的控制器,因此可以假设系统已经拥有了完美的内部位置控制回路。即q(t)=qr(t),其中qr(t)是期望的关节角度。qr(t)借由外环的零刚度条件下笛卡尔空间的导纳控制模型生成:
Figure BDA0003822814080000141
其中,Md和Cd分别为设计的惯性和阻尼参数;xr(t)表示笛卡尔空间的期望轨迹;ur(t)和fh(t)分别代表机器人和人类操作者所施加的力的输入,α和β则分别为二者的控制权重。
在关节空间的期望轨迹则有:
Figure BDA0003822814080000142
S302基于动态运动基元的方法,构造无刚度的导纳控制,获得阻尼参数和机器人所施加的力的输入:
Figure BDA0003822814080000143
Figure BDA0003822814080000144
u(t)则应由DMP*生成,考虑式(1),将模型变量均用位置x及其微分表示:
Figure BDA0003822814080000145
将上式移项,并将两边同时左乘期望的惯性矩阵Md,从而构造成如式(13)所示的无刚度的导纳控制形式,有:
Figure BDA0003822814080000151
由此,推导出式(13)中的阻尼项和机器人的输入:
Figure BDA0003822814080000152
Figure BDA0003822814080000153
式中的f*(s)代表其为DMP*中的高斯强迫项。
至此,式(13)中需要人为调整的参数仅剩下惯性矩阵Md和控制权重α、β。其中,惯性矩阵Md可作为遥操作过程中灵敏度的参数,为进一步降低人工参数调整的复杂度,设置Md为对角矩阵:Md=mdI,其中I为单位矩阵,md为期望的惯性幅值,可根据机器人的力拖动灵敏度表现人为调整。
S303惯性矩阵Md设置为对角矩阵:
Md=mdI
其中I为单位矩阵,md为期望的惯性幅值,可根据机器人的力拖动灵敏度表现人为调整。
此时,观察式(13)可知当控制权重α=0时,控制率变为标准的导纳控制,即:
Figure BDA0003822814080000154
而当α=1时,控制率退化为(15)所示的DMP*运动技能。
在模型架构和相关参数构建完成后,需要根据遥操作过程中,机器人对自身最优轨迹DMP*的置信度和人类操作者的置信度对共享控制权重α和β进行仲裁。本文将二者的共享控制过程看做二者的博弈过程,因此有约束α+β=1,故仅需设计α的变化率即可。
基于上述实施例,作为一个可选的实施例,本发明提供一种基于多运动技能先验的人机共享自治遥操作方法,所述S400包括:
S401获取机器人对自身最优轨迹DMP*的置信度:
Cr=P(DMP*|x0→T,g)-P(DMP#|x0→T,g)
其中,P(DMP*|x0→T,g)为最优分类的概率;P(DMP#|x0→T,g)为次优分类的概率;
机器人对自身的置信度Cr体现在最优分类DMP*与次优分类的交叉熵差别,其值应为介于0~1的小数。记除DMP*之外的次优解DMP#为:
Figure BDA0003822814080000161
则机器人的置信度为:
Cr=P(DMP*|x0→T,g)-P(DMP#|x0→T,g) (21)
直观的说,分类结果越模糊,Cr就越小,分类结果越清晰,Cr越大。
S402获取人类对自身的置信度:
Figure BDA0003822814080000162
其中,λ和δ为超参数,分别决定了S曲线的横向分布缩放尺度和对称轴,|fh(t)|为施加于主手端机器人末端的力的大小;
人类对自身的置信度Ch体现在施加于主手端机器人末端的力的大小,即:|fh(t)|。由于希望Ch也介于0~1之间,因此需要以|fh(t)|为自变量进行函数的映射,这里选择Sigmoid函数:
Figure BDA0003822814080000163
其中λ和δ为超参数,分别决定了S曲线的横向分布缩放尺度和对称轴,从而调节S曲线的形状和分布。设置最大阈值Fm=|fh(t)|max,则对称轴为
Figure BDA0003822814080000171
同时,当|fh(t)|=0时,Ch应接近于0,这里设置为0.01,即,Ch(0)=0.01,可解得
Figure BDA0003822814080000172
图4所示为Fm=10时的函数图像。
S403构造仲裁函数:
Figure BDA0003822814080000173
其中,ξ,γ,ε,η为超参数,Cr为机器人的置信度;Ch为人类对自身的置信度。
获取了机器人和人类操作者各自的置信度,即可构造仲裁函数,采用二维S函数框架进行仲裁:
Figure BDA0003822814080000174
其中,ξ,γ,ε,η为超参数。
为防止出现分母为0引发的奇异,令ε=0.01;由于希望在二者置信度相同时,人类的决策影响力更大,因此令γ=2,η=1,δ=0.2;α的最大值应该为1,即当Ch=0,Cr=1时,α=1,因此,调整ξ保证α(0,1)=1,解得ξ=1.5466。如图5所示,为按照上述参数设置后,α(Ch,Cr)的三维网格图。
本发明各个实施例的实现基础是通过具有中央处理器功能的设备进行程序化的处理实现的。因此在工程实际中,可以将本发明各个实施例的技术方案及其功能封装成各种模块。基于这种现实情况,在上述各实施例的基础上,本发明的实施例提供了一种基于多运动技能先验的人机共享自治遥操作系统,用于执行上述方法实施例中的基于多运动技能先验的人机共享自治遥操作方法。包括:
示教学习模块,用于基于动态运动基元的方法,通过对不同任务轨迹进行示教学习,构建运动技能库;
分类汇总模块,用于获取实时轨迹在运行技能库中的最优分类;
控制系统构建模块,用于构建人类和机器人共享控制的导纳控制模型;
共享仲裁模块,用于基于人类和机器人的置信度获取共享控制权重,进行共享控制率仲裁。
需要说明的是,本发明提供的装置实施例中的装置,除了可以用于实现上述方法实施例中的方法外,还可以用于实现本发明提供的其他方法实施例中的方法,区别仅仅在于设置相应的功能模块,其原理与本发明提供的上述装置实施例的原理基本相同,只要本领域技术人员在上述装置实施例的基础上,参考其他方法实施例中的具体技术方案,通过组合技术特征获得相应的技术手段,以及由这些技术手段构成的技术方案,在保证技术方案具备实用性的前提下,就可以对上述装置实施例中的装置进行改进,从而得到相应的装置类实施例,用于实现其他方法类实施例中的方法。
本发明实施例的方法是依托电子设备实现的,因此对相关的电子设备有必要做一下介绍。基于此目的,本发明的实施例提供了一种电子设备,该电子设备包括:至少一个中央处理器(Central processor)、通信接口(Communications Interface)、至少一个存储器(Memory)和通信总线,其中,至少一个中央处理器,通信接口,至少一个存储器通过通信总线完成相互间的通信。至少一个中央处理器可以调用至少一个存储器中的逻辑指令,以执行前述各个方法实施例提供的方法的全部或部分步骤。
此外,上述的至少一个存储器中的逻辑指令可以通过软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个方法实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
以上所描述的装置实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下,即可以理解并实施。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件实现。基于这样的理解,上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在计算机可读存储介质中,如ROM/RAM、磁碟、光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。
附图中的流程图和框图显示了根据本发明的多个实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。基于这种认识,流程图或框图中的每个方框可以代表一个模块、程序段或代码的一部分,所述模块、程序段或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意,在有些作为替换的实现方式中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个连续的方框实际上可以基本并行地执行,有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合,可以用执行规定的功能或动作的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。
在本申请中,术语“包括”、“包含”或者其任何其它变体意在涵盖非排它性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其它要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
本领域的技术人员容易理解,以上所述仅为本发明的较佳实施例而已,并不用于限制本发明,凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明的保护范围之内。

Claims (10)

1.一种基于多运动技能先验的人机共享自治遥操作方法,其特征在于,包括以下步骤:
S100基于动态运动基元的方法,通过对不同任务轨迹进行示教学习,构建运动技能库;
S200获取实时轨迹在运行技能库中的最优分类;
S300构建人类和机器人共享控制的导纳控制模型;
S400基于人类和机器人的置信度获取共享控制权重,进行共享控制率仲裁。
2.根据权利要求1所述的一种基于多运动技能先验的人机共享自治遥操作方法,其特征在于,所述S200包括:S210对实时轨迹进行分类汇总:
Figure FDA0003822814070000011
其中,x0→T表示从开始到当前时刻的轨迹;N为运动技能库包含的动态运动基元的总个数;g代表给定的目标点;P为概率;T为总时间;
S220获取实时生成的轨迹与运动技能库中的期望轨迹的相似度关系:
Figure FDA0003822814070000012
lρ(i,j)=d(i,j)+ρ·min{l(i-1,j-1),l(i-1,j),l(i,j-1)}
l(i,j)=d(i,j)+min{l(i-1,j-1),l(i-1,j),l(i,j-1)}
其中,i=1,2,…m,j=1,2,…n,m,n分别代表轨迹xA和xB的路径数据点总数;N为规整路径的长度;
S230对实时生成的轨迹与运动技能库中的期望轨迹逐一对比,获得已知轨迹相对于各个运动技能库技能的相似性度量
Figure FDA0003822814070000013
S240基于相似性度量,以最大熵原则为准则,获得最优分类:
Figure FDA0003822814070000021
其中,β为可调参数,最优的参数值为
Figure FDA0003822814070000022
其中的ε为一个正的常数,取ε=0.001。
3.根据权利要求2所述的一种基于多运动技能先验的人机共享自治遥操作方法,其特征在于,所述S220包括:
S221定义A,B两路径之间的相似度为:
Figure FDA0003822814070000023
其中D表示距离函数;使用路径的积分长度评价当前轨迹与技能库中标准路径距离,有如下约束:
Figure FDA0003822814070000024
其中,m,n分别代表轨迹xA和xB的路径数据点总数;s为弧长,S0和Sm分别代表轨迹起始点0到m的各段弧长,S0和Sn分别代表轨迹起始点0到n的各段弧长;
S222采用动态时间归整计算距离:
Figure FDA0003822814070000025
其中,xA和xB为轨迹;
S223以路径点
Figure FDA0003822814070000026
Figure FDA0003822814070000027
之间的欧式距离作为第i行j列构造距离矩阵Dm×n,求解动态规划,并引入遗忘因子修正:
lρ(i,j)=d(i,j)+ρ·min{l(i-1,j-1),l(i-1,j),l(i,j-1)}
l(i,j)=d(i,j)+min{l(i-1,j-1),l(i-1,j),l(i,j-1)}
其中,i=1,2,…m,j=1,2,…n,…n,m,n分别代表轨迹xA和xB的路径数据点总数;ρ为遗忘因子;
S224距离的度量在l(i,j)的基础上取平均,得到轨迹xA和xB的距离,即为实时生成的轨迹与运动技能库中的期望轨迹的相似度关系:
Figure FDA0003822814070000031
其中,N为规整路径的长度。
4.根据权利要求1所述的一种基于多运动技能先验的人机共享自治遥操作方法,其特征在于,所述S100具体包括:
S101在DMP运动规划框架中确定运动轨迹特征,获取任一运动技能表示:
p=[τ,w1,w2,...wN]T
其中,τ为任务执行的速度因子;{wi}为从人类示教数据中学习到的权值;N为高斯基函数个数,由人工调参设定;T为向量转置;
S102通过对不同的任务轨迹进行示教学习,获得若干组pi,构建一簇动态运动基元库,即运动技能库:
DMPs={p1,p2,...,pl}。
5.根据权利要求1所述的一种基于多运动技能先验的人机共享自治遥操作方法,其特征在于,所述S300具体包括:
S301获取外环的零刚度条件下笛卡尔空间的导纳控制模型:
Figure FDA0003822814070000032
其中,Md和Cd分别为设计的惯性和阻尼参数;xr(t)表示笛卡尔空间的期望轨迹;ur(t)和fh(t)分别代表机器人和人类操作者所施加的力的输入,α和β则分别为机器人和人类操作者的控制权重;
S302基于动态运动基元的方法,构造无刚度的导纳控制,获得阻尼参数和机器人所施加的力的输入:
Figure FDA0003822814070000041
Figure FDA0003822814070000042
其中,Md为惯性矩阵;τ为任务执行的速度因子;D为阻尼系数矩阵,K为刚度系数,g为目标点,x为当前位置,x0为起始位置,s为相变量,隐式的表示时间;f(s)为强迫项;
S303惯性矩阵Md设置为对角矩阵:
Md=mdI
其中I为单位矩阵,md为期望的惯性幅值,可根据机器人的力拖动灵敏度表现人为调整。
6.根据权利要求5所述的一种基于多运动技能先验的人机共享自治遥操作方法,其特征在于,所述机器人和人类操作者的控制权重α和β满足:
α+β=1。
7.根据权利要求1所述的一种基于多运动技能先验的人机共享自治遥操作方法,其特征在于,所述S400具体包括:
S401获取机器人对自身最优轨迹DMP*的置信度:
Cr=P(DMP*|x0→T,g)-P(DMP#|x0→T,g)
其中,P(DMP*|x0→T,g)为最优分类的概率;P(DMP#|x0→T,g)为次优分类的概率;g为目标点;
S402获取人类对自身的置信度:
Figure FDA0003822814070000051
其中,λ和δ为超参数,分别决定了S曲线的横向分布缩放尺度和对称轴,|fh(t)|为施加于主手端机器人末端的力的大小;
S403构造仲裁函数:
Figure FDA0003822814070000052
其中,ξ,γ,ε,η为超参数,Cr为机器人的置信度;Ch为人类对自身的置信度。
8.一种基于多运动技能先验的人机共享自治遥操作系统,其特征在于,包括:
示教学习模块,用于基于动态运动基元的方法,通过对不同任务轨迹进行示教学习,构建运动技能库;
分类汇总模块,用于获取实时轨迹在运行技能库中的最优分类;
控制系统构建模块,用于构建人类和机器人共享控制的导纳控制模型;
共享仲裁模块,用于基于人类和机器人的置信度获取共享控制权重,进行共享控制率仲裁。
9.一种电子设备,其特征在于,包括:
至少一个处理器、至少一个存储器和通信接口;其中,
所述处理器、存储器和通信接口相互间进行通信;
所述存储器存储有可被所述处理器执行的程序指令,所述处理器调用所述程序指令,以执行权利要求1至7任一项所述的方法。
10.一种非暂态计算机可读存储介质,其特征在于,所述非暂态计算机可读存储介质存储计算机指令,所述计算机指令使所述计算机执行权利要求1至7中任一项所述的方法。
CN202211048193.9A 2022-08-30 2022-08-30 基于多运动技能先验的人机共享自治遥操作方法及系统 Pending CN115488881A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202211048193.9A CN115488881A (zh) 2022-08-30 2022-08-30 基于多运动技能先验的人机共享自治遥操作方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202211048193.9A CN115488881A (zh) 2022-08-30 2022-08-30 基于多运动技能先验的人机共享自治遥操作方法及系统

Publications (1)

Publication Number Publication Date
CN115488881A true CN115488881A (zh) 2022-12-20

Family

ID=84466355

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202211048193.9A Pending CN115488881A (zh) 2022-08-30 2022-08-30 基于多运动技能先验的人机共享自治遥操作方法及系统

Country Status (1)

Country Link
CN (1) CN115488881A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115946128A (zh) * 2023-03-09 2023-04-11 珞石(北京)科技有限公司 一种基于层级状态机的人机协作策略的实现方法

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115946128A (zh) * 2023-03-09 2023-04-11 珞石(北京)科技有限公司 一种基于层级状态机的人机协作策略的实现方法

Similar Documents

Publication Publication Date Title
Huang et al. Efficient deep reinforcement learning with imitative expert priors for autonomous driving
CN111890350A (zh) 机器人及其控制方法、计算机可读存储介质
Peters et al. Robot learning
JP2009288934A (ja) データ処理装置、データ処理方法、及びプログラム
Frank et al. Constrained probabilistic movement primitives for robot trajectory adaptation
Stevšić et al. Sample efficient learning of path following and obstacle avoidance behavior for quadrotors
CN111890351A (zh) 机器人及其控制方法、计算机可读存储介质
Qiu et al. Model predictive control for uncalibrated and constrained image-based visual servoing without joint velocity measurements
CN115488881A (zh) 基于多运动技能先验的人机共享自治遥操作方法及系统
Woodford et al. Concurrent controller and simulator neural network development for a differentially-steered robot in evolutionary robotics
Liu et al. Learning to play trajectory games against opponents with unknown objectives
CN113485323B (zh) 一种级联多移动机器人灵活编队方法
JP7180696B2 (ja) 制御装置、制御方法およびプログラム
Wang et al. Data-driven path-following control of underactuated ships based on antenna mutation beetle swarm predictive reinforcement learning
Sala et al. Adaptive polyhedral meshing for approximate dynamic programming in control
Jiang et al. Generative adversarial interactive imitation learning for path following of autonomous underwater vehicle
Hamad et al. Path Planning of Mobile Robot Based on Modification of Vector Field Histogram using Neuro-Fuzzy Algorithm.
CN114239974A (zh) 多智能体的位置预测方法、装置、电子设备及存储介质
CN117270393A (zh) 智能机器人集群协同控制系统
CN116834014A (zh) 一种空间多臂机器人捕获非合作目标的智能协同控制方法和系统
Joukov et al. Gaussian process based model predictive controller for imitation learning
CN115356991A (zh) 基于运动状态优化的多目标运动融合控制方法和系统
Hua et al. A Novel Learning-Based Trajectory Generation Strategy for a Quadrotor
CN113110516B (zh) 一种深度强化学习的受限空间机器人作业规划方法
Sun et al. Unmanned aerial vehicles control study using deep deterministic policy gradient

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination