CN117688276A

CN117688276A - 一种基于td3算法的下肢康复机器人控制方法

Info

Publication number: CN117688276A
Application number: CN202311733300.6A
Authority: CN
Inventors: 黄丽敏; 贺敏; 张敏; 郭毅锋; 胡涛; 童旭斌
Original assignee: Chengdu University; Hezhou University
Current assignee: Chengdu University; Hezhou University
Priority date: 2023-12-14
Filing date: 2023-12-14
Publication date: 2024-03-12

Abstract

本发明公开了一种基于TD3算法的下肢康复机器人控制方法，主要解决机器人与患者之间的个体差异适配问题以及机器人在不同环境下的适应性挑战。该方法包括以下步骤：S1，采用TD3算法规划出脚跟质点的运动轨迹；S2，采用三次样条插值法将脚跟质点的运动轨迹进行顺滑处理；S3，根据顺滑处理后脚跟质点的运动轨迹推导出膝关节及髋关节角度，得到关节运动目标曲线；S4，使用TD3算法控制下肢外骨骼关节电机，跟踪目标角度曲线，实现下肢康复机器人的控制。与传统方法相比，本发明方法有效地应对了因频繁数据采集而引起的数据库臃肿问题，降低了工作量，且更精准地适应患者和环境的差异。

Description

一种基于TD3算法的下肢康复机器人控制方法

技术领域

本发明涉及一种，具体地说，是涉及一种基于TD3算法的下肢康复机器人控制方法。

背景技术

脑损伤、脊髓损伤的老年患者呈现出增长趋势，而患病的绝大多数患者都会出现下肢运动障碍问题，严重影响其生活自理能力。医学临床上已经证明，患者可以通过康复训练、重新塑造运动神经通路，可缓解下肢运动功能障碍进一步恶化，甚至是逐步恢复下肢运动功能。传统的康复治疗模式显现出医生体力负担大、医护成本高等弊端，造成医疗资源紧缺。在此背景下，康复机器人以灵活稳定、降低理疗师工作强度、提供科学与精准的训练方式等优势，顺势登上时代的舞台。

目前国内下肢外骨骼康复机器人的代表性成果有北京大艾机器人科技有限公司的艾动(AiLegs)机器人和艾康(Aiwalker)机器人,该机器人采用双足型结构，可为骨关节术后运动恢复、脊髓损伤、脑损伤、瘫痪、脑卒中、肌无力等患者的个性化需求，辅助患者恢复自然步态。上海傅利叶智能科技有限公司推出了Fourier X2可穿戴下肢外骨骼机器人，主要用于辅助行走、康复训练、强化运动功能等方面。其具有多传感融合技术、运动控制系统及动力单元，可以智能分析使用者意图，根据运动轨迹和速度等外部力学环境动态调整动力输出。程天科技悠行UGO康复外骨骼，适用于脊髓损伤、脑卒中、下肢肌无力或其他神经系统疾病导致下肢运动功能障碍患者。主要应用于医院康复科室和康复医疗机构，帮助能够下床活动的康复患者进行步行训练。

前市面上多数下肢外骨骼存在以下不足：1、帮助患者在平地上进行步行训练，恢复下肢运功功能，但患者的日常环境中不只有平地环境，还有楼梯、上下坡等环境；2、下肢外骨骼的运动轨迹来自于正常人的步态数据，人和人之间因身高体重等因素，步态轨迹不尽相同，而且患者日常环境具有多样性，若针对不同环境分别采集正常人的步态数据，则数据库则会表现的臃肿和繁琐。本专利这对上述不足，提出了一种基于TD3算法的下肢康复机器人控制方法，能够较好的解决上述的问题。

发明内容

本发明的目的在于提供一种基于TD3算法的下肢康复机器人控制方法，主要解决机器人与患者之间的个体差异适配问题以及机器人在不同环境下的适应性挑战。

为实现上述目的，本发明采用的技术方案如下：

一种基于TD3算法的下肢康复机器人控制方法，包括以下步骤：

S1，采用TD3算法规划出脚跟质点的运动轨迹；

S2，采用三次样条插值法将脚跟质点的运动轨迹进行顺滑处理；

S3，根据顺滑处理后的脚跟质点的运动轨迹推导出膝关节及髋关节角度，得到关节运动目标曲线；

S4，使用TD3算法控制下肢外骨骼关节电机，跟踪目标角度曲线，实现下肢康复机器人的控制。

进一步地，在所述步骤S1中，规划脚跟质点的运动轨迹的步骤如下：

S11，建立脚跟质点的栅格地图；

S12，在栅格地图中采用TD3算法对脚跟质点进行运动轨迹规划；

S13，定义TD3算法的前提条件；

S14，在定义的前提条件下进行价值网络和策略网络训练。

进一步地，在所述步骤S13中，所述前提条件包括：

S131，在格栅地图中的任意位置定义脚跟质点的运动空间；

S132，定义脚跟质点的动作空间集合；

S133，定义脚跟质点单步运动获得奖励回报规则R_t(S_t,a_t)：

其中，R_t为单步运动获得的奖励回报；S_t为脚跟质点在t时刻坐标；a_t为脚跟质点的动作；

S134，定义脚跟质点的累计奖励回报规则Rn：

其中，Rn为累计奖励；γ为打折系数；

S135，定义4个价值神经网络：第一价值网络、第二价值网络、第三价值网络、第四价值网络；共有4个网络层；输入层：输入信号为脚跟质点的坐标和动作；第一隐藏层：共取128个神经元，激活函数为Relu函数；第二隐藏层：取128个神经元，激活函数为Relu函数；输出层：输出值为对脚跟质点的坐标和动作的评价值；

S136，定义2个策略神经网络：第一策略网络、第二策略网络；共有4个网络层；输入层：输入信号为脚跟质点的坐标；第一隐藏层：取128个神经元，激活函数为Relu函数；第二隐藏层：取128个神经元，激活函数为Relu函数；输出层：输出值为脚跟质点的动作；

S137，定义数据池。

进一步地，在所述步骤S14中，进行价值网络和策略网络训练的步骤如下：

S141，在运动空间中执行第一策略网络，产生N条数据，每条数据包含4个部分：当前坐标S_t、当前动作a_t、单步奖励R_t、下一步坐标S_t+1，并更新数据池；

S142，从数据池中随机采样k条数据；

S143，训练价值网络：将k条数据的所有信息，即当前坐标S_t、当前动作a_t、单步奖励R_t、下一步坐标S_t+1分别输入第一价值网络和第三价值网络，结果记为v₁和v₂；将k条数据的下一步坐标S_t+1输入第二策略网络得到下一步动作a_t+1；将k条数据中的下一步坐标S_t+1输和下一步动作a_t+1分别输入第二价值网络和第四价值网络，结果记为target1和target2；TD目标y_t为：

y_t＝f₁·target1+(1-f₁)·target2

其中，f₁为加权系数；

根据公式：

δ_it＝v_i(S_t,a_t,w)-y_t

＝v_i(S_t,a_t,w)-[R_t+γv_i(S_t+1,a_t,w)](i＝1,2)

计算TD误差；式中δ_it为TD误差，y_t为TD目标；v_i(S_t+1,a_t,w)是价值网络计算值，w为价值网络参数；

再根据公式：

完成第一价值网络和第三价值网络的训练；其中，式中α为学习率；

S144，取步骤143中较小的TD误差为δ_t，根据公式：

完成第一策略网络的训练；式中，λ是策略网络的参数，π为策略网络，β为学习率；

S145，跳转至步骤142，循环执行64次；

S146，采用软更新方法更新第二价值网络、第四价值网络、第二策略网络的参数；

S147，跳转至步骤141，循环执行64次；

S148，在运动空间中执行第一策略网络产生最终运动规划轨迹。

进一步地，在所述步骤S2中，对脚跟质点的运动轨迹进行顺滑处理后的运动轨迹表示为：

进一步地，在所述步骤S3中，所述关节运动目标曲线由顺滑处理后的运动轨迹及公式：

和公式：

得到；其中，θ_i表示膝关节及髋关节角度。

进一步地，在所述步骤S4中，跟踪目标角度曲线的方法如下：

S41，定义TD3算法需要的前提条件；

S42，按照步骤S14的方式训练价值网络和策略网络；

S43，在运动空间中执行第一策略网络，产生下肢外骨骼关节实际运动曲线。

进一步地，在所述步骤S41中，定义前提条件的具体步骤为：

S411，定义4个关节的运动空间集合：{-90°～90°}；

S412，定义4个关节驱动力矩空间集合：{-200N·m～200N·m}；

S413，定义4个关节单步运动获得奖励回报R′：

其中，θ_aim为关节的期望角度；

S414，定义累计奖励回报R_n′：

S415，定义4个价值神经网络，第一价值网络、第二价值网络、第三价值网络、第四价值网络；共有4个网络层，输入层：输入信号为关节角度和关节驱动力矩；第一隐藏层：取128个神经元，激活函数为Relu函数；第二隐藏层：取128个神经元，激活函数为Relu函数；输出层：输出值为对关节角度和关节驱动力矩的评价值；

S416，定义2个策略神经网络，第一策略网络、第二策略网络；其神经共有4个网络层，输入层：输入信号为关节角度；第一隐藏层：取128个神经元，激活函数为Relu函数；第二隐藏层：取128个神经元，激活函数为Relu函数；输出层，激活函数采用200×tanh函数，输出值为关节驱动力矩；

S417，定义数据池。

与现有技术相比，本发明具有以下有益效果：

(1)本发明采用运动轨迹规划方式得到下肢外骨骼康复机器人的目标跟踪曲线，与传统方法相比，有效地应对了因频繁数据采集而引起的数据库臃肿问题，降低了工作量，且更精准地适应患者和环境的差异。

(2)本发明采用深度强化学习算法TD3作为下肢外骨骼机器人控制算法，能够较好的跟踪上目标曲线。

附图说明

图1为本发明-实施例中下肢康复机器人控制方法框图。

图2为本发明-实施例中建立格栅地图示意图。

图3为本发明-实施例中价值(策略)神经网络的示意图。

图4为本发明-实施例中执行第一策略网络产生的最终运动规划轨迹示意图。

图5本发明-实施例中运动轨迹顺滑后的效果图。

图6本发明-实施例中关节角度定义示意图。

图7本发明-实施例中关节运动目标角度曲线图。

图8本发明-实施例中关节实际运动曲线图。

具体实施方式

下面结合附图说明和实施例对本发明作进一步说明，本发明的方式包括但不仅限于以下实施例。

实施例

如图1所示，本发明公开的一种基于TD3算法的下肢康复机器人控制方法，能够在楼梯环境下，规划出匹配患者体型和环境的步态轨迹，同时完成机器人对目标轨迹跟踪，逐步恢复患者下肢肌肉力量，达到康复效果。

该方法采用TD3算法规划出脚跟质点的运动轨迹。其中，在本实施例中，将右腿脚跟看成质点B，建立栅格地图，如图2所示；在栅格地图中采用TD3算法对脚跟质点进行运动轨迹规划。

定义TD3算法的前提条件，包括：

在格栅地图中的任意位置定义脚跟质点的运动空间；定义脚跟质点的动作空间集合：{向上、右上、向右、右下、向下、左下、向左、左上}；

定义脚跟质点单步运动获得奖励回报规则R_t(S_t,a_t)：

定义脚跟质点的累计奖励回报规则Rn：

其中，Rn为累计奖励；γ为打折系数；

定义4个价值神经网络：第一价值网络、第二价值网络、第三价值网络、第四价值网络，其网络结构如图3所示；共有4个网络层；输入层：输入信号为脚跟质点的坐标和动作；第一隐藏层：共取128个神经元，激活函数为Relu函数；第二隐藏层：取128个神经元，激活函数为Relu函数；输出层：输出值为对脚跟质点的坐标和动作的评价值。

定义2个策略神经网络：第一策略网络、第二策略网络；共有4个网络层；输入层：输入信号为脚跟质点的坐标；第一隐藏层：取128个神经元，激活函数为Relu函数；第二隐藏层：取128个神经元，激活函数为Relu函数；输出层：输出值为脚跟质点的动作。

最后定义数据池，其容量大小为8192条。

然后在上述定义的前提条件下进行价值网络和策略网络训练：

(1)在运动空间中执行第一策略网络，产生256条数据，每条数据包含4个部分：当前坐标S_t、当前动作a_t、单步奖励R_t、下一步坐标S_t+1，并更新数据池；

(2)从数据池中随机采样32条数据；

(3)训练价值网络：将32条数据的所有信息，即当前坐标S_t、当前动作a_t、单步奖励R_t、下一步坐标S_t+1分别输入第一价值网络和第三价值网络，结果记为v₁和v₂；将32条数据的下一步坐标S_t+1输入第二策略网络得到下一步动作a_t+1；将32条数据中的下一步坐标S_t+1输和下一步动作a_t+1分别输入第二价值网络和第四价值网络，结果记为target1和target2；TD目标y_t为：

y_t＝f₁·target1+(1-f₁)·target2

其中，f₁为加权系数；

根据公式：

δ_it＝v_i(S_t,a_t,w)-y_t

＝v_i(S_t,a_t,w)-[R_t+γv_i(S_t+1,a_t,w)](i＝1,2)

再根据公式：

(4)取步骤(3)中较小的TD误差为δ_t，根据公式：

(5)跳转至步骤(2)，循环执行64次；

(6)采用软更新方法更新第二价值网络、第四价值网络、第二策略网络的参数；

(7)跳转至步骤(1)，循环执行64次；

(8)在运动空间中执行第一策略网络产生最终运动规划轨迹，如图4所示。

S2，采用三次样条插值法将脚跟质点的运动轨迹进行顺滑处理；其效果图见图4，函数表达见公式：

由顺滑处理后的运动轨迹及公式：

和公式：

得到关节运动目标角度曲线，见图7；其中，θ_i表示膝关节及髋关节角度，用θ₁表示左膝关节角度、用θ₂表示左髋关节角度、用θ₃表示右髋关节角度、用θ₄表示右膝关节角度。关节角度定义见图6。

使用TD3算法控制下肢外骨骼关节电机，跟踪目标角度曲线，实现下肢康复机器人的控制。

首先，定义TD3算法需要的前提条件：

(1)定义4个关节的运动空间集合：{-90°～90°}；

(2)定义4个关节驱动力矩空间集合：{-200N·m～200N·m}；

(3)定义4个关节单步运动获得奖励回报R′：

其中，θ_aim为关节的期望角度；

(4)定义累计奖励回报R_n′：

(5)定义4个价值神经网络，第一价值网络、第二价值网络、第三价值网络、第四价值网络；共有4个网络层，输入层：输入信号为关节角度和关节驱动力矩；第一隐藏层：取128个神经元，激活函数为Relu函数；第二隐藏层：取128个神经元，激活函数为Relu函数；输出层：输出值为对关节角度和关节驱动力矩的评价值；

(6)定义2个策略神经网络，第一策略网络、第二策略网络；其神经共有4个网络层，输入层：输入信号为关节角度；第一隐藏层：取128个神经元，激活函数为Relu函数；第二隐藏层：取128个神经元，激活函数为Relu函数；输出层，激活函数采用200×tanh函数，输出值为关节驱动力矩；

(7)定义数据池。

随后，按照前文的训练方式训练价值网络和策略网络。

最后，在运动空间中执行第一策略网络，产生下肢外骨骼关节实际运动曲线。如图8所示，基于TD3算法所控制下肢外骨骼实际运动曲线能够较好的跟踪上目标曲线。

上述实施例仅为本发明的优选实施方式之一，不应当用于限制本发明的保护范围，但凡在本发明的主体设计思想和精神上作出的毫无实质意义的改动或润色，其所解决的技术问题仍然与本发明一致的，均应当包含在本发明的保护范围之内。

Claims

1.一种基于TD3算法的下肢康复机器人控制方法，其特征在于，包括以下步骤：

S1，采用TD3算法规划出脚跟质点的运动轨迹；

2.根据权利要求1所述的一种基于TD3算法的下肢康复机器人控制方法，其特征在于，在所述步骤S1中，规划脚跟的运动轨迹的步骤如下：

S11，建立脚跟质点的栅格地图；

S13，定义TD3算法的前提条件；

S14，在定义的前提条件下进行价值网络和策略网络训练。

3.根据权利要求2所述的一种基于TD3算法的下肢康复机器人控制方法，其特征在于，在所述步骤S13中，所述前提条件包括：

S131，在格栅地图中的任意位置定义脚跟质点的运动空间；

S132，定义脚跟质点的动作空间集合；

S133，定义脚跟质点单步运动获得奖励回报规则R_t(S_t,a_t)：

S134，定义脚跟质点的累计奖励回报规则Rn：

其中，Rn为累计奖励；γ为打折系数；

S137，定义数据池。

4.根据权利要求3所述的一种基于TD3算法的下肢康复机器人控制方法，其特征在于，在所述步骤S14中，进行价值网络和策略网络训练的步骤如下：

S142，从数据池中随机采样k条数据；

S143，训练价值网络：将k条数据的所有信息，即当前坐标S_t、当前动作a_t、单步奖励R_t、下一步坐标S_t+1分别输入第一价值网络和第三价值网络，结果记为v₁和v₂；将k条数据的下一步坐标S_t+1输入第二策略网络得到下一步动作a_t+1；将k条数据中的下一步坐标S_t+1输和下一步动作a_t+1分别输入第二价值网络和第四价值网络，结果记为target1和target2，TD目标y_t为：

y_t＝f₁·target1+(1-f₁)·target2

其中，f₁为加权系数；

根据公式：

δ_it＝v_i(S_t,a_t,w)-y_t

＝v_i(S_t,a_t,w)-[R_t+γv_i(S_t+1,a_t,w)] (i＝1,2)

再根据公式：

S144，取步骤S143中较小的TD误差为δ_t，根据公式：

S145，跳转至步骤S142，循环执行64次；

S147，跳转至步骤S141，循环执行64次；

5.根据权利要求4所述的一种基于TD3算法的下肢康复机器人控制方法，其特征在于，在所述步骤S2中，对脚跟质点的运动轨迹进行顺滑处理后的运动轨迹表示为：

6.根据权利要求5所述的一种基于TD3算法的下肢康复机器人控制方法，其特征在于，在所述步骤S3中，所述关节运动目标曲线由顺滑处理后的运动轨迹及公式：

和公式：

得到；其中，θ_i表示膝关节及髋关节角度。

7.根据权利要求6所述的一种基于TD3算法的下肢康复机器人控制方法，其特征在于，在所述步骤S4中，跟踪目标角度曲线的方法如下：

S41，定义TD3算法需要的前提条件；

S42，按照步骤S14的方式训练价值网络和策略网络；

8.根据权利要求7所述的一种基于TD3算法的下肢康复机器人控制方法，其特征在于，在所述步骤S41中，定义前提条件的具体步骤为：

S411，定义4个关节的运动空间集合：{-90°～90°}；

S412，定义4个关节驱动力矩空间集合：{-200N·m～200N·m}；

S413，定义4个关节单步运动获得奖励回报R′：

其中，θ_aim为关节的期望角度；

S414，定义累计奖励回报R_n′：

S417，定义数据池。