CN114939861A

CN114939861A - 一种基于tms-ppo算法的肌肉骨骼机器人控制方法

Info

Publication number: CN114939861A
Application number: CN202210380168.4A
Authority: CN
Inventors: 刘蓉; 王家兴; 陈亚茹; 王永轩
Original assignee: Dalian University of Technology
Current assignee: Dalian University of Technology
Priority date: 2022-04-12
Filing date: 2022-04-12
Publication date: 2022-08-26
Anticipated expiration: 2042-04-12
Also published as: CN114939861B

Abstract

一种基于TMS‑PPO算法的肌肉骨骼机器人控制方法，包括如下步骤：设计人体手臂在矢状面上的运动实验以提取相应的表面肌电，然后经过肌电信号预处理得到肌肉激活；基于时变肌肉协同元TMS的时域特性约束利用梯度下降的分解算法对真实人体运动的肌电激活信号进行分解得到TMS；基于近端策略优化算法PPO对TMS进行尺度和相位上的调制，完成对肌肉骨骼机器人的运动控制。为了验证本发明方法的有效性，将TMS‑PPO与PPO算法对于肌肉骨骼机器人的运动控制进行对比。结果表明，本发明降低了PPO算法的学习难度，充分发挥TMS作为肌肉骨骼机器人的运动原语在运动方向以及速度方面的相关作用。

Description

一种基于TMS-PPO算法的肌肉骨骼机器人控制方法

技术领域

本发明属于机器人控制领域，具体涉及一种基于TMS-PPO算法的肌肉骨骼机器人控制方法。

背景技术

随着机器人研究的逐渐深入，其在国防安全、工业制造、智能决策等领域的重要性日益凸显。目前，关节连杆机器人应用最为广泛，但其存在着对附加设备精度依赖较大、人机交互安全性低和鲁棒性较差等问题。相较而言，人类具有灵活的身体并能完成高精度的运动和控制任务，因而具有类人骨骼、关节和肌肉的肌肉骨骼机器人成为目前人机交互研究热点。由于关节和肌肉之间的冗余关系，人体肌肉骨骼系统可以更为灵活地实现运动，因此关于中枢神经系统是如何实现上述控制过程的研究成为类人肌肉骨骼机器人研究领域的热点。

多项研究表明，人体高度复杂的肌肉骨骼系统是通过调整多组精确且相对简单的肌肉群信号的尺度和相位参数而实现，即肌肉协同(Muscle Synergy,MS)，进而生成肌肉激活信号驱动肌肉骨骼系统运动。相关学者提出了一种基于遗传算法和时变肌肉协同(TimeVarying Muscle Synergy，TMS)的神经肌肉控制方法，实现了肌肉骨骼机器人的运动控制，然而其TMS是由神经网络通过遗传算法人工生成，而非真实的肌肉激活分解得到，生理解释性较差。另外有研究利用循环神经网络模拟人体运动皮质直接生成肌肉激活信号，并结合深度强化学习进行肌肉骨骼机器人的控制，但是该方法没有考虑肌肉协同作用，增大了强化学习的学习难度，学习效率不高。此外，相关研究团队将非时变肌肉协同元也称空间肌肉协同元(Spatial Muscle Synergy,SMS)引入至柔性工程机器人的控制过程中，使机器人在学习周期和精度方面都取得了更好的结果。然而已有研究表明，相比于SMS，TMS与运动方向以及速度具有更好的相关性。

发明内容

为了解决上述存在的问题，本发明提出：一种基于TMS-PPO算法的肌肉骨骼机器人控制方法，包括如下步骤：

S1、设计人体手臂在矢状面上的运动实验以提取相应的表面肌电，然后经过肌电信号预处理得到肌肉激活；

S2、基于时变肌肉协同元的时域特性约束利用梯度下降的分解算法对真实人体运动的肌电激活信号进行分解得到TMS；

S3、基于近端策略优化算法对TMS进行尺度和相位上的调制，完成对肌肉骨骼机器人的运动控制。

进一步地，所述的步骤S1中，

按照表面肌电采集的标准流程，采用Noraxon无线表面肌电装置，采样频率为2kHz，提取常见的上肢后摆运动、前摆运动和屈肘运动相应的TMS，采集肱二头肌长头、肱二头肌短头、肱肌、肱桡肌、肱三头肌长头、肱三头肌外侧头、肱三头肌内侧头、三角肌前束、三角肌后束共9个通道的表面肌电信号并进行预处理得到相应的肌肉激活，利用梯度下降算法从三种运动的肌肉激活信号中提取相应的TMS。

进一步地，所述的步骤S2中，

假设肌肉激活信号m(t)由N个TMS通过在尺度和相移上的调制叠加得到，则肌肉激活信号表示为：

其中c_i为第i(i＝1,2,....N)个时变肌肉协同元的尺度调制系数，t代表时间，t_i为第i个TMS的相移，每个时变肌肉协同TMS表示为w_i(t)，由一组具有类高斯时域特性的肌肉激活信号w_ij(t)构成，j(j＝1,2,....M)为肌肉激活通道序号，w_ij(t)表示为：

其中a_ij、μ_ij和

分别为w_ij(t)的幅值尺度、期望和方差，给定一个运动时间T上的肌肉激活信号m(t)，则其重构误差E²为：

在时变肌肉协同TMS的时域特性约束下，利用梯度下降算法优化得到c_i,t_i以及a_ij，使重构误差E²最小，最终得到满足迭代条件的一组时变肌肉协同TMS，具体实现如下：

(1)在给定的时变协同元w_i(t)中将c_i，

μ_ij，a_ij以及t_i初始化为随机正值，并分别定义c_i，

μ_ij的学习率的值；

(2)令μ_ij+t_i＝t_max,j，其中t_max,j∈T，为m_j(t)在一段时间T上取最大值的点；

(3)利用梯度下降算法更新c_i，a_ij，

的值：

其中，Δ是指这三个变量在每个迭代过程中的变化，即实现c_i＝Δc_i+c_i；a_ij＝Δa_ij+a_ij；

为求导运算，m_j(t)为m(t)中第j个通道的肌肉激活值，μ_c,μ_a,μ_σ分别为c_i，a_ij，

的学习率；

(4)在原始肌肉激活信号中移除第i个时变肌肉协同TMS，生成新的m(t)；

(5)重复(1)-(4)并保存每次生成的w_i(t)，直到拟合优度R2＞0.9，其计算公式如下：

其中SST为离差平方和，SSE为残差平方和，

为时变肌肉协同元重构的第j个通道的肌肉激活值，m_j(t)为原始肌肉激活在第j个通道的激活值，

为j个通道的肌肉激活的均值。

进一步地，所述的步骤S3中，

PPO算法通过策略网络和值函数网络，经过一个蒙特卡洛过程生成相应的累积奖励J(θ)，进而得到相应的策略网络损失即L₁以及值函数网络损失L₂：

其中π_θ'为在策略网络参数为θ'的条件下，肌肉骨骼机器人在

状态下选择动作

的相应策略，p_θ(a_t ⁿ|s_t ⁿ)为上述事件发生的概率，p_θ'(a_t ⁿ|s_t ⁿ)为在策略网络参数为θ'的条件下，肌肉骨骼机器人在

状态下选择动作

的概率，n为蒙特卡罗过程的序号，ω为当前值函数网络参数，

即表示在值函数网络参数为ω的条件下，

为输入时，值函数网络的输出大小，

为

输入值函数网络时，输出的大小，r_t为当前智能体与环境交互的奖励，γ为值函数网络在下一个状态输出值的先验学习率，

是在策略网络参数为θ'的条件下，对含有

的相关变量进行取期望运算；

最终得到总损失L＝α₁L₁+α₂L₂，再通过梯度下降实现整体的网络参数更新；

其次，对

加以限制，以满足新旧策略不能差距过大的条件，其中α₁，α₂，ε为超参数；

TMS-PPO将TMS引至PPO算法的学习中，通过策略网络生成N个TMS的尺度调制系数c_i和相移调制系数t_i，进而对TMS进行调制，最终生成适当的肌肉激活模式m(t)；

在TMS-PPO方法下的学习奖励值r_M：

r_M＝r_g+β_cr_c+r_o

其中r_g为当前状态与目标状态差距值的奖励值即表征欧式距离产生的连续奖励；r_c为肌肉能量效率奖励值，β_c为r_c的折扣因子，是肌肉激活信号m(t)的F范数；r_o为添加的稀疏奖励以实现快速收敛以及避免手臂的非人体运动状态，上述参数具体计算方法如下：

r_c＝-||m(t)||_F

其中，θ_1,t表示在肌肉骨骼机器人步数为t时的肩关节角度，θ_2,t为表示在肌肉骨骼机器人步数为t时的提携角角度，θ_1,goal为肩关节学习的目标角度，θ_2,goal为提携角学习的目标角度，s_t为当前时刻手臂的状态，s_goal为目标状态，s_t＝Nan即当肌肉骨骼机器人产生人体不能实现的功能时给与一个极小奖励，当s_t＝s_goal时即完成目标时给予一个极大奖励。

本发明的有益效果为：本发明方法通过对TMS在尺度和相移上的调制，可以生成适当的肌肉激活模式驱动肌肉骨骼机器人。每组动作的肩关节活动角度与提携角的平均误差均在0.05rad以下，对比于PPO方法直接生成肌肉激活进行肌肉骨骼机器人的运动控制,本发明方法的学习周期由10⁴数量级降至10³，实现了对未知动作的学习与泛化，具有更好的生理解释性和学习能力。

与现有技术相比，本发明方法的优势在于引入了真实的TMS信号，具有更好的生理解释意义，并结合深度强化学习PPO算法赋予了肌肉骨骼机器人运动学习的能力，TMS的引入降低了深度强化学习PPO算法的学习难度，充分发挥TMS作为肌肉骨骼机器人的运动原语在运动方向以及速度方面的相关作用。

附图说明

图1为本发明的肌肉骨骼机器人控制方法架构图；

图2为本发明表面肌电信号提取实验中肩肘关节的基本动作示意图；(a)后摆运动；(b)前摆运动；(c)屈肘运动；

图3为本发明的表面肌电信号提取实验中每种动作的TMS图；(a)后摆运动；(b)前摆运动；(c)屈肘运动；

图4为本发明的上肢动作肌肉激活重构拟合优度R²的变化条形图；

图5为本发明的肌肉骨骼机器人的组成结构示意图；

图6为本发明的奖惩曲线图；(a)PPO算法；(b)TMS-PPO算法；

图7为本发明的运动学习结果曲线图中的肌肉骨骼机器人运动过程；

图8为本发明的运动中各角度及误差变化曲线图。

具体实施方式

一种基于时变肌肉协同与PPO算法的肌肉骨骼机器人控制方法，包括如下步骤：

S2、基于时变肌肉协同元(Time-varying Muscle Synergy，TMS)的时域特性约束利用梯度下降的分解算法对真实人体运动的肌电激活信号进行分解得到TMS；

S3、基于近端策略优化算法(Proximal Policy Optimization,PPO)对TMS进行尺度和相位上的调制，完成对肌肉骨骼机器人的运动控制。

控制方法实现过程如图1，具体包括三个主要部分：人体真实手臂在矢状面上的运动实验，TMS的提取以及PPO算法对TMS进行调制完成运动控制。

其中，所述的步骤S1中，

本发明针对肩、肘关节运动设计了常见的上肢运动任务以提取相应的TMS，如图2所示，从左至右依次分别为后摆运动、前摆运动、屈肘运动的基本动作，左上角为初始状态，完成动作回到初始状态为一个完整动作，三种动作完成为一组。实验中，受试者需要保持直立完成动作。

实验规定完成每种动作的时间应大于1s小于1.5s,在初始位置以及动作完成位置的维持时间小于0.5s,目标动作位置的误差应小于1.5cm。受试者在要求下完成动作，则认为试验成功，否则重新测试，重复5组，两组实验间隔1min休息时间。

按照表面肌电采集的标准流程，采用Noraxon无线表面肌电装置，采样频率为2kHz，采集肱二头肌长头、肱二头肌短头、肱肌、肱桡肌、肱三头肌长头、肱三头肌外侧头、肱三头肌内侧头、三角肌前束、三角肌后束共9个通道的表面肌电信号并进行预处理得到相应的肌肉激活；

其中，所述的步骤S2中，

对于步骤S1中得到的肌肉激活信号m(t)，本发明方法根据肌肉协同理论，假设m(t)由N个时变肌肉协同通过对肌肉激活信号在尺度和相移上的调制叠加得到，则肌肉激活表示为：

其中c_i为第i(i＝1,2,....N)个时变肌肉协同元的尺度调制系数，t代表时间，t_i为第i个TMS的相移。每个TMS表示为w_i(t)，由一组具有类高斯时域特性的肌肉激活信号w_ij(t)构成，j(j＝1,2,....M)为肌肉激活通道序号，w_ij(t)表示为：

其中a_ij、μ_ij和

分别为w_ij(t)的幅值尺度、期望和方差，给定一个运动时间T上的肌肉激活信号m(t)，则肌肉激活信号的重构误差E²为：

为提高计算效率，本发明方法提出了在TMS的时域特性约束下的梯度下降算法，进而优化得到c_i,t_i以及a_ij使其重构误差E²最小，最终得到满足迭代条件的一组TMS，具体实现如下：

(1)在给定的时变协同元w_i(t)中将c_i，

μ_ij，a_ij以及t_i初始化为随机正值，并分别定义其学习率的值；

(3)利用梯度下降算法更新c_i，a_ij，

的值：

的学习率；

(4)在原始肌肉激活信号中移除第i个TMS，生成新的m(t)；

(5)重复(1)-(4)并保存每次生成的w_i(t)，直到拟合优度R²＞0.9，其计算公式如下：

其中SST为离差平方和，SSE为残差平方和，

为j个通道的肌肉激活的均值。

其中，所述的步骤S3中，

为了更好地模拟人体的多巴胺机制，本发明方法选取PPO算法用以驱动一组TMS，其基本思想是将旧策略与新策略进行比较，进行网络参数更新，而传统的策略梯度算法利用重要性采样对全局奖励值进行修正，限制了策略网络的探索能力。将新旧两种策略的变化限制在一定范围，不仅解决了策略梯度算法的收敛性差的问题，而且实现了PPO算法的离线学习。另外，为了实现单步更新，PPO在策略梯度算法中引入优势函数A^θ'(s_t ⁿ,a_t ⁿ)，以代替蒙特卡洛过程的累计奖励。

传统PPO算法通过策略网络和值函数网络，经过一个蒙特卡洛过程即可生成相应的累积奖励J(θ)，进而可以得到相应的策略网络损失即L₁以及值函数网络损失L₂：

状态下选择动作

状态下选择动作

即表示在值函数网络参数为ω的条件下，

为输入时，值函数网络的输出大小，

为

是在策略网络参数为θ'的条件下，对含有

的相关变量进行取期望运算。最终得到总损失L＝α₁L₁+α₂L₂，再通过梯度下降实现整体的网络参数更新。

其次，需要对

TMS-PPO将TMS引至PPO算法的学习中，通过策略网络生成N个TMS的尺度调制系数c_i和相移调制系数t_i，进而对TMS进行调制，最终生成适当的肌肉激活模式

对比与直接利用PPO算法的策略网络生成肌肉激活信号，TMS-PPO优化了肌肉骨骼机器人在运动学习速度上的不足，并赋予PPO算法更好的生理解释性。

至此，为了更好地实现智能体与环境交互，本发明方法基于传统强化学习在肌肉骨骼机器人控制中的奖惩机制，设计了TMS-PPO方法的学习奖励值r_M：

r_M＝r_g+β_cr_c+r_o

r_c＝-||m(t)||_F

针对步骤S1中受试者上肢运动中得到的5组表面肌电信号，我们对其进行预处理得到5组肌肉激活信号，为了更准确的表征每个动作的实际肌肉激活，本发明对5组信号的每种动作的肌肉激活进行算数平均，将得到的均值信号作为每种动作的肌肉激活并提取相应的时变肌肉协同，其基本结构如图3所示：

图3分别展示了每种动作的3个TMS。每种动作的TMS拟合优度R²值随TMS数量的变化如图4所示，表明随着TMS数量的增加，R²越大，当TMS数为3时，三种动作的R²均大于0.9；

为了验证提出本发明方法的有效性，我们基于肌肉骨骼的动力学特性和Hill肌肉模型，在OpenSim的开源平台上构建了具有肩关节的屈/伸和肘关节的屈/伸功能的肌肉骨骼机器人如图5所示：

图5中展示了用以验证本发明方法有效性的肌肉骨骼机器人，其肩关节的取值范围分别为-1.57rad至3.14rad，提携角的取值范围为0至2.27rad。

基于上述实验结果，本发明利用分解得到的9个TMS作为控制肌肉骨骼机器人的运动原语实现肌肉骨骼机器人对矢状面上未知动作的学习。对比传统PPO算法与本发明方法的奖励值变化曲线如图6所示，具体运动效果如图7所示：

图6分别展示了TMS-PPO与PPO算法对于目标动作(θ_1,goal，θ_2,goal)分别为(0.4,1.2)，(0.4,1.4)，(0.4,1.6)，(0.4,1.8)的学习过程，可以看出加入TMS-PPO算法与传统PPO算法相比在对肌肉骨骼机器人在控制学习的收敛速度方面有了明显提升。本发明方法基本于10³量级完成收敛，而传统PPO算法需要至少10⁴个数量级；

图7-图8展示了以目标动作(θ_1,goal，θ_2,goal)为(0.2,2.0)，初始位置坐标(θ_1,t＝0，θ_2,t＝0)为(0,0)为例，展示了肌肉骨骼机器人经过TMS-PPO控制方法学习后的运动效果，具体表现了该运动过程中具体的肩关节角度，提携角及动作误差变化。结果表明，肌肉骨骼机器人在运动过程中，动作误差随时间逐渐降低，逐步完成了肩关节角度与提携角向目标动作角度的逼近。

对比研究，本发明方法的优势在于引入了真实的TMS信号，具有更好的生理解释意义，并结合PPO算法赋予了肌肉骨骼机器人运动学习的能力，TMS的引入降低了PPO的学习难度，充分发挥TMS作为肌肉骨骼机器人的运动原语在运动方向以及速度方面的相关作用。通过图7和图8的实验结果，TMS的引入使学习周期成功由10⁴量级降至10³量级。

本发明提出了一种基于TMS-PPO算法的肌肉骨骼机器人控制方法，该方法将实测分解得到的TMS与深度强化学习算法PPO相结合以实现对未知动作的学习与泛化。通过对仿真实验中肌肉骨骼机器人在矢状面上的未知动作的学习，证明了本发明方法对未知动作具有更强的学习能力，也具有更好的生理解释性。

以上所述，仅为本发明较佳的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明披露的技术范围内，根据本发明的技术方案及其构思加以等同替换或改变，都应涵盖在本发明的保护范围之内。