CN114939861A - 一种基于tms-ppo算法的肌肉骨骼机器人控制方法 - Google Patents

一种基于tms-ppo算法的肌肉骨骼机器人控制方法 Download PDF

Info

Publication number
CN114939861A
CN114939861A CN202210380168.4A CN202210380168A CN114939861A CN 114939861 A CN114939861 A CN 114939861A CN 202210380168 A CN202210380168 A CN 202210380168A CN 114939861 A CN114939861 A CN 114939861A
Authority
CN
China
Prior art keywords
tms
muscle
ppo
algorithm
value
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202210380168.4A
Other languages
English (en)
Other versions
CN114939861B (zh
Inventor
刘蓉
王家兴
陈亚茹
王永轩
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Dalian University of Technology
Original Assignee
Dalian University of Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Dalian University of Technology filed Critical Dalian University of Technology
Priority to CN202210380168.4A priority Critical patent/CN114939861B/zh
Publication of CN114939861A publication Critical patent/CN114939861A/zh
Application granted granted Critical
Publication of CN114939861B publication Critical patent/CN114939861B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • BPERFORMING OPERATIONS; TRANSPORTING
    • B25HAND TOOLS; PORTABLE POWER-DRIVEN TOOLS; MANIPULATORS
    • B25JMANIPULATORS; CHAMBERS PROVIDED WITH MANIPULATION DEVICES
    • B25J9/00Programme-controlled manipulators
    • B25J9/0006Exoskeletons, i.e. resembling a human figure
    • BPERFORMING OPERATIONS; TRANSPORTING
    • B25HAND TOOLS; PORTABLE POWER-DRIVEN TOOLS; MANIPULATORS
    • B25JMANIPULATORS; CHAMBERS PROVIDED WITH MANIPULATION DEVICES
    • B25J17/00Joints
    • B25J17/02Wrist joints
    • B25J17/0258Two-dimensional joints
    • B25J17/0266Two-dimensional joints comprising more than two actuating or connecting rods

Landscapes

  • Engineering & Computer Science (AREA)
  • Robotics (AREA)
  • Mechanical Engineering (AREA)
  • Manipulator (AREA)
  • Feedback Control In General (AREA)

Abstract

一种基于TMS‑PPO算法的肌肉骨骼机器人控制方法,包括如下步骤:设计人体手臂在矢状面上的运动实验以提取相应的表面肌电,然后经过肌电信号预处理得到肌肉激活;基于时变肌肉协同元TMS的时域特性约束利用梯度下降的分解算法对真实人体运动的肌电激活信号进行分解得到TMS;基于近端策略优化算法PPO对TMS进行尺度和相位上的调制,完成对肌肉骨骼机器人的运动控制。为了验证本发明方法的有效性,将TMS‑PPO与PPO算法对于肌肉骨骼机器人的运动控制进行对比。结果表明,本发明降低了PPO算法的学习难度,充分发挥TMS作为肌肉骨骼机器人的运动原语在运动方向以及速度方面的相关作用。

Description

一种基于TMS-PPO算法的肌肉骨骼机器人控制方法
技术领域
本发明属于机器人控制领域,具体涉及一种基于TMS-PPO算法的肌肉骨骼机器人控制方法。
背景技术
随着机器人研究的逐渐深入,其在国防安全、工业制造、智能决策等领域的重要性日益凸显。目前,关节连杆机器人应用最为广泛,但其存在着对附加设备精度依赖较大、人机交互安全性低和鲁棒性较差等问题。相较而言,人类具有灵活的身体并能完成高精度的运动和控制任务,因而具有类人骨骼、关节和肌肉的肌肉骨骼机器人成为目前人机交互研究热点。由于关节和肌肉之间的冗余关系,人体肌肉骨骼系统可以更为灵活地实现运动,因此关于中枢神经系统是如何实现上述控制过程的研究成为类人肌肉骨骼机器人研究领域的热点。
多项研究表明,人体高度复杂的肌肉骨骼系统是通过调整多组精确且相对简单的肌肉群信号的尺度和相位参数而实现,即肌肉协同(Muscle Synergy,MS),进而生成肌肉激活信号驱动肌肉骨骼系统运动。相关学者提出了一种基于遗传算法和时变肌肉协同(TimeVarying Muscle Synergy,TMS)的神经肌肉控制方法,实现了肌肉骨骼机器人的运动控制,然而其TMS是由神经网络通过遗传算法人工生成,而非真实的肌肉激活分解得到,生理解释性较差。另外有研究利用循环神经网络模拟人体运动皮质直接生成肌肉激活信号,并结合深度强化学习进行肌肉骨骼机器人的控制,但是该方法没有考虑肌肉协同作用,增大了强化学习的学习难度,学习效率不高。此外,相关研究团队将非时变肌肉协同元也称空间肌肉协同元(Spatial Muscle Synergy,SMS)引入至柔性工程机器人的控制过程中,使机器人在学习周期和精度方面都取得了更好的结果。然而已有研究表明,相比于SMS,TMS与运动方向以及速度具有更好的相关性。
发明内容
为了解决上述存在的问题,本发明提出:一种基于TMS-PPO算法的肌肉骨骼机器人控制方法,包括如下步骤:
S1、设计人体手臂在矢状面上的运动实验以提取相应的表面肌电,然后经过肌电信号预处理得到肌肉激活;
S2、基于时变肌肉协同元的时域特性约束利用梯度下降的分解算法对真实人体运动的肌电激活信号进行分解得到TMS;
S3、基于近端策略优化算法对TMS进行尺度和相位上的调制,完成对肌肉骨骼机器人的运动控制。
进一步地,所述的步骤S1中,
按照表面肌电采集的标准流程,采用Noraxon无线表面肌电装置,采样频率为2kHz,提取常见的上肢后摆运动、前摆运动和屈肘运动相应的TMS,采集肱二头肌长头、肱二头肌短头、肱肌、肱桡肌、肱三头肌长头、肱三头肌外侧头、肱三头肌内侧头、三角肌前束、三角肌后束共9个通道的表面肌电信号并进行预处理得到相应的肌肉激活,利用梯度下降算法从三种运动的肌肉激活信号中提取相应的TMS。
进一步地,所述的步骤S2中,
假设肌肉激活信号m(t)由N个TMS通过在尺度和相移上的调制叠加得到,则肌肉激活信号表示为:
Figure BDA0003592526660000021
其中ci为第i(i=1,2,....N)个时变肌肉协同元的尺度调制系数,t代表时间,ti为第i个TMS的相移,每个时变肌肉协同TMS表示为wi(t),由一组具有类高斯时域特性的肌肉激活信号wij(t)构成,j(j=1,2,....M)为肌肉激活通道序号,wij(t)表示为:
Figure BDA0003592526660000022
其中aij、μij
Figure BDA0003592526660000023
分别为wij(t)的幅值尺度、期望和方差,给定一个运动时间T上的肌肉激活信号m(t),则其重构误差E2为:
Figure BDA0003592526660000024
在时变肌肉协同TMS的时域特性约束下,利用梯度下降算法优化得到ci,ti以及aij,使重构误差E2最小,最终得到满足迭代条件的一组时变肌肉协同TMS,具体实现如下:
(1)在给定的时变协同元wi(t)中将ci
Figure BDA0003592526660000025
μij,aij以及ti初始化为随机正值,并分别定义ci
Figure BDA0003592526660000026
μij的学习率的值;
(2)令μij+ti=tmax,j,其中tmax,j∈T,为mj(t)在一段时间T上取最大值的点;
(3)利用梯度下降算法更新ci,aij
Figure BDA0003592526660000027
的值:
Figure BDA0003592526660000028
Figure BDA0003592526660000031
Figure BDA0003592526660000032
其中,Δ是指这三个变量在每个迭代过程中的变化,即实现ci=Δci+ci;aij=Δaij+aij
Figure BDA0003592526660000033
Figure BDA0003592526660000034
为求导运算,mj(t)为m(t)中第j个通道的肌肉激活值,μcaσ分别为ci,aij
Figure BDA0003592526660000035
的学习率;
(4)在原始肌肉激活信号中移除第i个时变肌肉协同TMS,生成新的m(t);
(5)重复(1)-(4)并保存每次生成的wi(t),直到拟合优度R2>0.9,其计算公式如下:
Figure BDA0003592526660000036
其中SST为离差平方和,SSE为残差平方和,
Figure BDA0003592526660000037
为时变肌肉协同元重构的第j个通道的肌肉激活值,mj(t)为原始肌肉激活在第j个通道的激活值,
Figure BDA0003592526660000038
为j个通道的肌肉激活的均值。
进一步地,所述的步骤S3中,
PPO算法通过策略网络和值函数网络,经过一个蒙特卡洛过程生成相应的累积奖励J(θ),进而得到相应的策略网络损失即L1以及值函数网络损失L2
Figure BDA0003592526660000039
Figure BDA00035925266600000310
其中πθ'为在策略网络参数为θ'的条件下,肌肉骨骼机器人在
Figure BDA00035925266600000311
状态下选择动作
Figure BDA00035925266600000312
的相应策略,pθ(at n|st n)为上述事件发生的概率,pθ'(at n|st n)为在策略网络参数为θ'的条件下,肌肉骨骼机器人在
Figure BDA00035925266600000313
状态下选择动作
Figure BDA00035925266600000314
的概率,n为蒙特卡罗过程的序号,ω为当前值函数网络参数,
Figure BDA00035925266600000315
即表示在值函数网络参数为ω的条件下,
Figure BDA00035925266600000316
为输入时,值函数网络的输出大小,
Figure BDA00035925266600000317
Figure BDA00035925266600000318
输入值函数网络时,输出的大小,rt为当前智能体与环境交互的奖励,γ为值函数网络在下一个状态输出值的先验学习率,
Figure BDA00035925266600000319
是在策略网络参数为θ'的条件下,对含有
Figure BDA00035925266600000320
的相关变量进行取期望运算;
最终得到总损失L=α1L12L2,再通过梯度下降实现整体的网络参数更新;
其次,对
Figure BDA00035925266600000321
加以限制,以满足新旧策略不能差距过大的条件,其中α1,α2,ε为超参数;
Figure BDA0003592526660000041
TMS-PPO将TMS引至PPO算法的学习中,通过策略网络生成N个TMS的尺度调制系数ci和相移调制系数ti,进而对TMS进行调制,最终生成适当的肌肉激活模式m(t);
在TMS-PPO方法下的学习奖励值rM
rM=rgcrc+ro
其中rg为当前状态与目标状态差距值的奖励值即表征欧式距离产生的连续奖励;rc为肌肉能量效率奖励值,βc为rc的折扣因子,是肌肉激活信号m(t)的F范数;ro为添加的稀疏奖励以实现快速收敛以及避免手臂的非人体运动状态,上述参数具体计算方法如下:
Figure BDA0003592526660000042
rc=-||m(t)||F
Figure BDA0003592526660000043
其中,θ1,t表示在肌肉骨骼机器人步数为t时的肩关节角度,θ2,t为表示在肌肉骨骼机器人步数为t时的提携角角度,θ1,goal为肩关节学习的目标角度,θ2,goal为提携角学习的目标角度,st为当前时刻手臂的状态,sgoal为目标状态,st=Nan即当肌肉骨骼机器人产生人体不能实现的功能时给与一个极小奖励,当st=sgoal时即完成目标时给予一个极大奖励。
本发明的有益效果为:本发明方法通过对TMS在尺度和相移上的调制,可以生成适当的肌肉激活模式驱动肌肉骨骼机器人。每组动作的肩关节活动角度与提携角的平均误差均在0.05rad以下,对比于PPO方法直接生成肌肉激活进行肌肉骨骼机器人的运动控制,本发明方法的学习周期由104数量级降至103,实现了对未知动作的学习与泛化,具有更好的生理解释性和学习能力。
与现有技术相比,本发明方法的优势在于引入了真实的TMS信号,具有更好的生理解释意义,并结合深度强化学习PPO算法赋予了肌肉骨骼机器人运动学习的能力,TMS的引入降低了深度强化学习PPO算法的学习难度,充分发挥TMS作为肌肉骨骼机器人的运动原语在运动方向以及速度方面的相关作用。
附图说明
图1为本发明的肌肉骨骼机器人控制方法架构图;
图2为本发明表面肌电信号提取实验中肩肘关节的基本动作示意图;(a)后摆运动;(b)前摆运动;(c)屈肘运动;
图3为本发明的表面肌电信号提取实验中每种动作的TMS图;(a)后摆运动;(b)前摆运动;(c)屈肘运动;
图4为本发明的上肢动作肌肉激活重构拟合优度R2的变化条形图;
图5为本发明的肌肉骨骼机器人的组成结构示意图;
图6为本发明的奖惩曲线图;(a)PPO算法;(b)TMS-PPO算法;
图7为本发明的运动学习结果曲线图中的肌肉骨骼机器人运动过程;
图8为本发明的运动中各角度及误差变化曲线图。
具体实施方式
一种基于时变肌肉协同与PPO算法的肌肉骨骼机器人控制方法,包括如下步骤:
S1、设计人体手臂在矢状面上的运动实验以提取相应的表面肌电,然后经过肌电信号预处理得到肌肉激活;
S2、基于时变肌肉协同元(Time-varying Muscle Synergy,TMS)的时域特性约束利用梯度下降的分解算法对真实人体运动的肌电激活信号进行分解得到TMS;
S3、基于近端策略优化算法(Proximal Policy Optimization,PPO)对TMS进行尺度和相位上的调制,完成对肌肉骨骼机器人的运动控制。
控制方法实现过程如图1,具体包括三个主要部分:人体真实手臂在矢状面上的运动实验,TMS的提取以及PPO算法对TMS进行调制完成运动控制。
其中,所述的步骤S1中,
本发明针对肩、肘关节运动设计了常见的上肢运动任务以提取相应的TMS,如图2所示,从左至右依次分别为后摆运动、前摆运动、屈肘运动的基本动作,左上角为初始状态,完成动作回到初始状态为一个完整动作,三种动作完成为一组。实验中,受试者需要保持直立完成动作。
实验规定完成每种动作的时间应大于1s小于1.5s,在初始位置以及动作完成位置的维持时间小于0.5s,目标动作位置的误差应小于1.5cm。受试者在要求下完成动作,则认为试验成功,否则重新测试,重复5组,两组实验间隔1min休息时间。
按照表面肌电采集的标准流程,采用Noraxon无线表面肌电装置,采样频率为2kHz,采集肱二头肌长头、肱二头肌短头、肱肌、肱桡肌、肱三头肌长头、肱三头肌外侧头、肱三头肌内侧头、三角肌前束、三角肌后束共9个通道的表面肌电信号并进行预处理得到相应的肌肉激活;
其中,所述的步骤S2中,
对于步骤S1中得到的肌肉激活信号m(t),本发明方法根据肌肉协同理论,假设m(t)由N个时变肌肉协同通过对肌肉激活信号在尺度和相移上的调制叠加得到,则肌肉激活表示为:
Figure BDA0003592526660000061
其中ci为第i(i=1,2,....N)个时变肌肉协同元的尺度调制系数,t代表时间,ti为第i个TMS的相移。每个TMS表示为wi(t),由一组具有类高斯时域特性的肌肉激活信号wij(t)构成,j(j=1,2,....M)为肌肉激活通道序号,wij(t)表示为:
Figure BDA0003592526660000062
其中aij、μij
Figure BDA0003592526660000063
分别为wij(t)的幅值尺度、期望和方差,给定一个运动时间T上的肌肉激活信号m(t),则肌肉激活信号的重构误差E2为:
Figure BDA0003592526660000064
为提高计算效率,本发明方法提出了在TMS的时域特性约束下的梯度下降算法,进而优化得到ci,ti以及aij使其重构误差E2最小,最终得到满足迭代条件的一组TMS,具体实现如下:
(1)在给定的时变协同元wi(t)中将ci
Figure BDA0003592526660000065
μij,aij以及ti初始化为随机正值,并分别定义其学习率的值;
(2)令μij+ti=tmax,j,其中tmax,j∈T,为mj(t)在一段时间T上取最大值的点;
(3)利用梯度下降算法更新ci,aij
Figure BDA0003592526660000066
的值:
Figure BDA0003592526660000067
Figure BDA0003592526660000068
Figure BDA0003592526660000069
其中,Δ是指这三个变量在每个迭代过程中的变化,即实现ci=Δci+ci;aij=Δaij+aij
Figure BDA00035925266600000610
Figure BDA00035925266600000611
为求导运算,mj(t)为m(t)中第j个通道的肌肉激活值,μcaσ分别为ci,aij
Figure BDA00035925266600000612
的学习率;
(4)在原始肌肉激活信号中移除第i个TMS,生成新的m(t);
(5)重复(1)-(4)并保存每次生成的wi(t),直到拟合优度R2>0.9,其计算公式如下:
Figure BDA0003592526660000071
其中SST为离差平方和,SSE为残差平方和,
Figure BDA0003592526660000072
为时变肌肉协同元重构的第j个通道的肌肉激活值,mj(t)为原始肌肉激活在第j个通道的激活值,
Figure BDA0003592526660000073
为j个通道的肌肉激活的均值。
其中,所述的步骤S3中,
为了更好地模拟人体的多巴胺机制,本发明方法选取PPO算法用以驱动一组TMS,其基本思想是将旧策略与新策略进行比较,进行网络参数更新,而传统的策略梯度算法利用重要性采样对全局奖励值进行修正,限制了策略网络的探索能力。将新旧两种策略的变化限制在一定范围,不仅解决了策略梯度算法的收敛性差的问题,而且实现了PPO算法的离线学习。另外,为了实现单步更新,PPO在策略梯度算法中引入优势函数Aθ'(st n,at n),以代替蒙特卡洛过程的累计奖励。
传统PPO算法通过策略网络和值函数网络,经过一个蒙特卡洛过程即可生成相应的累积奖励J(θ),进而可以得到相应的策略网络损失即L1以及值函数网络损失L2
Figure BDA0003592526660000074
Figure BDA0003592526660000075
其中πθ'为在策略网络参数为θ'的条件下,肌肉骨骼机器人在
Figure BDA0003592526660000076
状态下选择动作
Figure BDA0003592526660000077
的相应策略,pθ(at n|st n)为上述事件发生的概率,pθ'(at n|st n)为在策略网络参数为θ'的条件下,肌肉骨骼机器人在
Figure BDA0003592526660000078
状态下选择动作
Figure BDA0003592526660000079
的概率,n为蒙特卡罗过程的序号,ω为当前值函数网络参数,
Figure BDA00035925266600000710
即表示在值函数网络参数为ω的条件下,
Figure BDA00035925266600000711
为输入时,值函数网络的输出大小,
Figure BDA00035925266600000712
Figure BDA00035925266600000713
输入值函数网络时,输出的大小,rt为当前智能体与环境交互的奖励,γ为值函数网络在下一个状态输出值的先验学习率,
Figure BDA00035925266600000714
是在策略网络参数为θ'的条件下,对含有
Figure BDA00035925266600000715
的相关变量进行取期望运算。最终得到总损失L=α1L12L2,再通过梯度下降实现整体的网络参数更新。
其次,需要对
Figure BDA00035925266600000716
加以限制,以满足新旧策略不能差距过大的条件,其中α1,α2,ε为超参数;
Figure BDA0003592526660000081
TMS-PPO将TMS引至PPO算法的学习中,通过策略网络生成N个TMS的尺度调制系数ci和相移调制系数ti,进而对TMS进行调制,最终生成适当的肌肉激活模式
Figure BDA0003592526660000082
对比与直接利用PPO算法的策略网络生成肌肉激活信号,TMS-PPO优化了肌肉骨骼机器人在运动学习速度上的不足,并赋予PPO算法更好的生理解释性。
至此,为了更好地实现智能体与环境交互,本发明方法基于传统强化学习在肌肉骨骼机器人控制中的奖惩机制,设计了TMS-PPO方法的学习奖励值rM
rM=rgcrc+ro
其中rg为当前状态与目标状态差距值的奖励值即表征欧式距离产生的连续奖励;rc为肌肉能量效率奖励值,βc为rc的折扣因子,是肌肉激活信号m(t)的F范数;ro为添加的稀疏奖励以实现快速收敛以及避免手臂的非人体运动状态,上述参数具体计算方法如下:
Figure BDA0003592526660000083
rc=-||m(t)||F
Figure BDA0003592526660000084
其中,θ1,t表示在肌肉骨骼机器人步数为t时的肩关节角度,θ2,t为表示在肌肉骨骼机器人步数为t时的提携角角度,θ1,goal为肩关节学习的目标角度,θ2,goal为提携角学习的目标角度,st为当前时刻手臂的状态,sgoal为目标状态,st=Nan即当肌肉骨骼机器人产生人体不能实现的功能时给与一个极小奖励,当st=sgoal时即完成目标时给予一个极大奖励。
针对步骤S1中受试者上肢运动中得到的5组表面肌电信号,我们对其进行预处理得到5组肌肉激活信号,为了更准确的表征每个动作的实际肌肉激活,本发明对5组信号的每种动作的肌肉激活进行算数平均,将得到的均值信号作为每种动作的肌肉激活并提取相应的时变肌肉协同,其基本结构如图3所示:
图3分别展示了每种动作的3个TMS。每种动作的TMS拟合优度R2值随TMS数量的变化如图4所示,表明随着TMS数量的增加,R2越大,当TMS数为3时,三种动作的R2均大于0.9;
为了验证提出本发明方法的有效性,我们基于肌肉骨骼的动力学特性和Hill肌肉模型,在OpenSim的开源平台上构建了具有肩关节的屈/伸和肘关节的屈/伸功能的肌肉骨骼机器人如图5所示:
图5中展示了用以验证本发明方法有效性的肌肉骨骼机器人,其肩关节的取值范围分别为-1.57rad至3.14rad,提携角的取值范围为0至2.27rad。
基于上述实验结果,本发明利用分解得到的9个TMS作为控制肌肉骨骼机器人的运动原语实现肌肉骨骼机器人对矢状面上未知动作的学习。对比传统PPO算法与本发明方法的奖励值变化曲线如图6所示,具体运动效果如图7所示:
图6分别展示了TMS-PPO与PPO算法对于目标动作(θ1,goal,θ2,goal)分别为(0.4,1.2),(0.4,1.4),(0.4,1.6),(0.4,1.8)的学习过程,可以看出加入TMS-PPO算法与传统PPO算法相比在对肌肉骨骼机器人在控制学习的收敛速度方面有了明显提升。本发明方法基本于103量级完成收敛,而传统PPO算法需要至少104个数量级;
图7-图8展示了以目标动作(θ1,goal,θ2,goal)为(0.2,2.0),初始位置坐标(θ1,t=0,θ2,t=0)为(0,0)为例,展示了肌肉骨骼机器人经过TMS-PPO控制方法学习后的运动效果,具体表现了该运动过程中具体的肩关节角度,提携角及动作误差变化。结果表明,肌肉骨骼机器人在运动过程中,动作误差随时间逐渐降低,逐步完成了肩关节角度与提携角向目标动作角度的逼近。
对比研究,本发明方法的优势在于引入了真实的TMS信号,具有更好的生理解释意义,并结合PPO算法赋予了肌肉骨骼机器人运动学习的能力,TMS的引入降低了PPO的学习难度,充分发挥TMS作为肌肉骨骼机器人的运动原语在运动方向以及速度方面的相关作用。通过图7和图8的实验结果,TMS的引入使学习周期成功由104量级降至103量级。
本发明提出了一种基于TMS-PPO算法的肌肉骨骼机器人控制方法,该方法将实测分解得到的TMS与深度强化学习算法PPO相结合以实现对未知动作的学习与泛化。通过对仿真实验中肌肉骨骼机器人在矢状面上的未知动作的学习,证明了本发明方法对未知动作具有更强的学习能力,也具有更好的生理解释性。
以上所述,仅为本发明较佳的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明披露的技术范围内,根据本发明的技术方案及其构思加以等同替换或改变,都应涵盖在本发明的保护范围之内。

Claims (4)

1.一种基于TMS-PPO算法的肌肉骨骼机器人控制方法,其特征在于,包括如下步骤:
S1、设计人体手臂在矢状面上的运动实验以提取相应的表面肌电,然后经过肌电信号预处理得到肌肉激活;
S2、基于时变肌肉协同元的时域特性约束利用梯度下降的分解算法对真实人体运动的肌电激活信号进行分解得到TMS;
S3、基于近端策略优化算法对TMS进行尺度和相位上的调制,完成对肌肉骨骼机器人的运动控制。
2.如权利要求1所述的基于TMS-PPO算法的肌肉骨骼机器人控制方法,其特征在于,所述的步骤S1中,
按照表面肌电采集的标准流程,采用Noraxon无线表面肌电装置,采样频率为2kHz,提取常见的上肢后摆运动、前摆运动和屈肘运动相应的TMS,采集肱二头肌长头、肱二头肌短头、肱肌、肱桡肌、肱三头肌长头、肱三头肌外侧头、肱三头肌内侧头、三角肌前束、三角肌后束共9个通道的表面肌电信号并进行预处理得到相应的肌肉激活,利用梯度下降算法从三种运动的肌肉激活信号中提取相应的TMS。
3.如权利要求1所述的基于TMS-PPO算法的肌肉骨骼机器人控制方法,其特征在于,所述的步骤S2中,
假设肌肉激活信号m(t)由N个TMS通过在尺度和相移上的调制叠加得到,则肌肉激活信号表示为:
Figure FDA0003592526650000011
其中ci为第i(i=1,2,....N)个时变肌肉协同元的尺度调制系数,t代表时间,ti为第i个TMS的相移,每个时变肌肉协同TMS表示为wi(t),由一组具有类高斯时域特性的肌肉激活信号wij(t)构成,j(j=1,2,....M)为肌肉激活通道序号,wij(t)表示为:
Figure FDA0003592526650000012
其中aij、μij
Figure FDA0003592526650000013
分别为wij(t)的幅值尺度、期望和方差,给定一个运动时间T上的肌肉激活信号m(t),则其重构误差E2为:
Figure FDA0003592526650000014
在时变肌肉协同TMS的时域特性约束下,利用梯度下降算法优化得到ci,ti以及aij,使重构误差E2最小,最终得到满足迭代条件的一组时变肌肉协同TMS,具体实现如下:
(1)在给定的时变协同元wi(t)中将ci
Figure FDA0003592526650000015
μij,aij以及ti初始化为随机正值,并分别定义ci
Figure FDA0003592526650000021
μij的学习率的值;
(2)令μij+ti=tmax,j,其中tmax,j∈T,为mj(t)在一段时间T上取最大值的点;
(3)利用梯度下降算法更新ci,aij
Figure FDA0003592526650000022
的值:
Figure FDA0003592526650000023
Figure FDA0003592526650000024
Figure FDA0003592526650000025
其中,Δ是指这三个变量在每个迭代过程中的变化,即实现ci=Δci+ci;aij=Δaij+aij
Figure FDA0003592526650000026
Figure FDA0003592526650000027
为求导运算,mj(t)为m(t)中第j个通道的肌肉激活值,μcaσ分别为ci,aij
Figure FDA0003592526650000028
的学习率;
(4)在原始肌肉激活信号中移除第i个时变肌肉协同TMS,生成新的m(t);
(5)重复(1)-(4)并保存每次生成的wi(t),直到拟合优度R2>0.9,其计算公式如下:
Figure FDA0003592526650000029
其中SST为离差平方和,SSE为残差平方和,
Figure FDA00035925266500000210
为时变肌肉协同元重构的第j个通道的肌肉激活值,mj(t)为原始肌肉激活在第j个通道的激活值,
Figure FDA00035925266500000211
为j个通道的肌肉激活的均值。
4.如权利要求1所述的基于TMS-PPO算法的肌肉骨骼机器人控制方法,其特征在于,所述的步骤S3中,
PPO算法通过策略网络和值函数网络,经过一个蒙特卡洛过程生成相应的累积奖励J(θ),进而得到相应的策略网络损失即L1以及值函数网络损失L2
Figure FDA00035925266500000212
Figure FDA00035925266500000213
其中πθ'为在策略网络参数为θ'的条件下,肌肉骨骼机器人在
Figure FDA00035925266500000214
状态下选择动作
Figure FDA00035925266500000215
的相应策略,pθ(at n|st n)为上述事件发生的概率,pθ'(at n|st n)为在策略网络参数为θ'的条件下,肌肉骨骼机器人在
Figure FDA00035925266500000216
状态下选择动作
Figure FDA00035925266500000217
的概率,n为蒙特卡罗过程的序号,ω为当前值函数网络参数,
Figure FDA00035925266500000218
即表示在值函数网络参数为ω的条件下,
Figure FDA00035925266500000219
为输入时,值函数网络的输出大小,
Figure FDA0003592526650000031
Figure FDA0003592526650000032
输入值函数网络时,输出的大小,rt为当前智能体与环境交互的奖励,γ为值函数网络在下一个状态输出值的先验学习率,
Figure FDA0003592526650000033
是在策略网络参数为θ'的条件下,对含有
Figure FDA0003592526650000034
的相关变量进行取期望运算;
最终得到总损失L=α1L12L2,再通过梯度下降实现整体的网络参数更新;
其次,对
Figure FDA0003592526650000035
加以限制,以满足新旧策略不能差距过大的条件,其中α1,α2,ε为超参数;
Figure FDA0003592526650000036
TMS-PPO将TMS引至PPO算法的学习中,通过策略网络生成N个TMS的尺度调制系数ci和相移调制系数ti,进而对TMS进行调制,最终生成适当的肌肉激活模式m(t);
在TMS-PPO方法下的学习奖励值rM
rM=rgcrc+ro
其中rg为当前状态与目标状态差距值的奖励值即表征欧式距离产生的连续奖励;rc为肌肉能量效率奖励值,βc为rc的折扣因子,是肌肉激活信号m(t)的F范数;ro为添加的稀疏奖励以实现快速收敛以及避免手臂的非人体运动状态,上述参数具体计算方法如下:
Figure FDA0003592526650000037
rc=-||m(t)||F
Figure FDA0003592526650000038
其中,θ1,t表示在肌肉骨骼机器人步数为t时的肩关节角度,θ2,t为表示在肌肉骨骼机器人步数为t时的提携角角度,θ1,goal为肩关节学习的目标角度,θ2,goal为提携角学习的目标角度,st为当前时刻手臂的状态,sgoal为目标状态,st=Nan即当肌肉骨骼机器人产生人体不能实现的功能时给与一个极小奖励,当st=sgoal时即完成目标时给予一个极大奖励。
CN202210380168.4A 2022-04-12 2022-04-12 一种基于tms-ppo算法的肌肉骨骼机器人控制方法 Active CN114939861B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210380168.4A CN114939861B (zh) 2022-04-12 2022-04-12 一种基于tms-ppo算法的肌肉骨骼机器人控制方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210380168.4A CN114939861B (zh) 2022-04-12 2022-04-12 一种基于tms-ppo算法的肌肉骨骼机器人控制方法

Publications (2)

Publication Number Publication Date
CN114939861A true CN114939861A (zh) 2022-08-26
CN114939861B CN114939861B (zh) 2023-09-15

Family

ID=82907225

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210380168.4A Active CN114939861B (zh) 2022-04-12 2022-04-12 一种基于tms-ppo算法的肌肉骨骼机器人控制方法

Country Status (1)

Country Link
CN (1) CN114939861B (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116892932A (zh) * 2023-05-31 2023-10-17 三峡大学 一种结合好奇心机制与自模仿学习的导航决策方法

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102488515A (zh) * 2011-12-09 2012-06-13 天津大学 基于自主动作、想象动作下脑肌电信号联合分析方法
CN107263474A (zh) * 2017-06-20 2017-10-20 深圳市迈步机器人科技有限公司 一种控制机械臂移动的方法和装置
CN111760208A (zh) * 2020-07-21 2020-10-13 上海交通大学 基于机械臂的人体经颅超声刺激自动定位系统和方法
US10906169B1 (en) * 2016-10-26 2021-02-02 Board Of Trustees Of The University Of Illinois Muscle-powered biological machines
US20210158141A1 (en) * 2019-11-22 2021-05-27 Sony Interactive Entertainment Inc. Control input scheme for machine learning in motion control and physics based animation
CN114131608A (zh) * 2021-12-13 2022-03-04 南京金栖梧科技有限公司 一种高强度温敏型柔性驱动器的机械臂控制方法

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102488515A (zh) * 2011-12-09 2012-06-13 天津大学 基于自主动作、想象动作下脑肌电信号联合分析方法
US10906169B1 (en) * 2016-10-26 2021-02-02 Board Of Trustees Of The University Of Illinois Muscle-powered biological machines
CN107263474A (zh) * 2017-06-20 2017-10-20 深圳市迈步机器人科技有限公司 一种控制机械臂移动的方法和装置
US20210158141A1 (en) * 2019-11-22 2021-05-27 Sony Interactive Entertainment Inc. Control input scheme for machine learning in motion control and physics based animation
CN111760208A (zh) * 2020-07-21 2020-10-13 上海交通大学 基于机械臂的人体经颅超声刺激自动定位系统和方法
CN114131608A (zh) * 2021-12-13 2022-03-04 南京金栖梧科技有限公司 一种高强度温敏型柔性驱动器的机械臂控制方法

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116892932A (zh) * 2023-05-31 2023-10-17 三峡大学 一种结合好奇心机制与自模仿学习的导航决策方法
CN116892932B (zh) * 2023-05-31 2024-04-30 三峡大学 一种结合好奇心机制与自模仿学习的导航决策方法

Also Published As

Publication number Publication date
CN114939861B (zh) 2023-09-15

Similar Documents

Publication Publication Date Title
Gui et al. A practical and adaptive method to achieve EMG-based torque estimation for a robotic exoskeleton
Liu et al. EMG-based real-time linear-nonlinear cascade regression decoding of shoulder, elbow, and wrist movements in able-bodied persons and stroke survivors
Cheron et al. A dynamic neural network identification of electromyography and arm trajectory relationship during complex movements
Farina et al. Human? Machine interfacing by decoding the surface electromyogram [life sciences]
DeWolf et al. The neural optimal control hierarchy for motor control
CN102698411B (zh) 坐卧式下肢康复机器人
CN114939861A (zh) 一种基于tms-ppo算法的肌肉骨骼机器人控制方法
CN102764167B (zh) 基于相关系数的肌电假肢控制源导联优化方法
Tang et al. Continuous estimation of human upper limb joint angles by using PSO-LSTM model
Hu et al. EEG-based classification of upper-limb ADL using SNN for active robotic rehabilitation
Lv et al. Model reference adaptive impedance control in lower limbs rehabilitation robot
Kibleur et al. Spatiotemporal maps of proprioceptive inputs to the cervical spinal cord during three-dimensional reaching and grasping
Zhuang et al. A neuromuscular electrical stimulation strategy based on muscle synergy for stroke rehabilitation
CN115177864A (zh) 基于肌肉激活度与lstm的功能性电刺激闭环调控方法
Liu et al. Proximal policy optimization with time-varying muscle synergy for the control of an upper limb musculoskeletal system
CN111326252A (zh) 一种基于肌间协同和肌间耦合运动功能分析方法
Day et al. A comparative evaluation of time-delay, deep learning and echo state neural networks when used as simulated transhumeral prosthesis controllers
CN102521508B (zh) 一种功能性电刺激下的自适应神经模糊肌肉建模方法
Kocejko et al. The role of EMG module in hybrid interface of prosthetic arm
Khoshdel et al. Application of statistical techniques and artificial neural network to estimate force from sEMG signals
Hayashi et al. A feasible study of EEG-driven assistive robotic system for stroke rehabilitation
Crowder et al. Improving the learning rate, accuracy, and workspace of reinforcement learning controllers for a musculoskeletal model of the human arm
Antuvan et al. Muscle synergies for reliable classification of arm motions using myoelectric interface
Ferrante et al. Functional electrical stimulation controlled by artificial neural networks: pilot experiments with simple movements are promising for rehabilitation applications
Ando et al. Visual EMG biofeedback system in a virtual reality space for relearning internal models: case studies focusing on equilibrium point velocity

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant