CN115157247A

CN115157247A - 一种具有平衡辅助功能的下肢外骨骼康复机器人控制方法

Info

Publication number: CN115157247A
Application number: CN202210802825.XA
Authority: CN
Inventors: 秦利; 姬厚召; 陈明豪
Original assignee: Yanshan University
Current assignee: Yanshan University
Priority date: 2022-07-07
Filing date: 2022-07-07
Publication date: 2022-10-11

Abstract

本发明提供一种具有平衡辅助功能的下肢外骨骼康复机器人控制方法，属于下肢外骨骼康复机器人控制领域。该方法包括：使用任意的物理引擎建立人与机器人交互的仿真环境；通过强化学习算法，在仿真环境中完成所设计的平衡编码模型和动作生成模型的训练，其中，奖励函数包含平衡项；利用动作生成模型生成数据集；建立平衡预测模型，与动作生成模型组成步态生成网络，使用上述数据集，通过模仿学习算法训练步态生成网络；训练完毕的步态生成网络用于输出机器人各关节电机的速度期望值，结合电机伺服驱动控制器实现机器人的控制。步态生成网络可以在无附加传感器的条件下预测机器人的状态，使控制器能及时校正系统的不平衡倾向。

Description

一种具有平衡辅助功能的下肢外骨骼康复机器人控制方法

技术领域

本发明涉及下肢外骨骼康复机器人控制领域，具体涉及一种具有平衡辅助功能的下肢外骨骼康复机器人控制方法。

背景技术

近年来机器人技术的发展达到了前所未有的繁荣，尤其是下肢外骨骼机器人，在医疗、军事、工业等领域都表现出广泛的应用前景。

在下肢外骨骼康复机器人控制领域中，传统控制是给定外骨骼机器人预定不变的目标轨迹，这种控制方法在脑卒中、脑瘫患者的下肢康复治疗方面有一定的辅助作用，但是下肢外骨骼康复机器人机械的执行目标轨迹会引起患者姿势受限和柔顺欠缺等平衡问题，影响治疗效果。为解决上述问题，研究学者基于人工智能算法创建控制器，控制器实时生成下肢外骨骼康复机器人的运动轨迹，可以对不平衡情况做出应对措施。人工神经网络具有强大的非线性映射能力和自适应能力，常作为人工智能算法模型的载体，但是现有方法中神经网络模型的训练需要与真实世界中外骨骼康复机器人不断的进行实时数据交互，这种训练方法训练时间长、训练成本大。现有基于人工智能算法的下肢外骨骼康复机器人控制方法仅用单个时间点的外骨骼康复机器人状态信息判断此时间点的平衡状态，这种方法需要较多除电机编码器以外的传感器，并且仅能判断该时间点的平衡状态，不能及时、有效预测不平衡事件。

发明内容

针对现有技术存在的问题，本发明提供一种具有平衡辅助功能的下肢外骨骼康复机器人控制方法。

为实现上述目的，采用的技术方案如下：

一种具有平衡辅助功能的下肢外骨骼康复机器人控制方法，包括如下步骤：

使用任意的物理引擎建立人与机器人交互的仿真环境；

通过强化学习算法，在仿真环境中完成所设计的平衡编码模型和动作生成模型的训练，其中，奖励函数包含平衡项；

利用动作生成模型生成数据集；

建立平衡预测模型，与动作生成模型组成步态生成网络，使用上述数据集，通过模仿学习算法训练步态生成网络；

训练完毕的步态生成网络用于输出机器人各关节电机的速度期望值，结合电机伺服驱动控制器实现机器人的控制。

本方法的进一步改进在于：使用任意的物理引擎建立人与机器人交互的仿真环境具体为：

所述仿真环境包含下肢外骨骼康复机器人模型和下肢外骨骼康复机器人外部环境。

所述仿真环境可提供实时的所述机器人模型的双腿膝、髋关节状态值和平衡状态相关信息，包括：质心的位置、速度、加速度、重心的位置和速度。

本方法的进一步改进在于：通过强化学习算法，在仿真环境中完成所设计的平衡编码模型和动作生成模型的训练，其中，奖励函数包含平衡项具体为：

所述平衡项奖励函数为任意一种可定量判断下肢外骨骼康复机器人平衡程度的数学模型；

所述强化学习算法的状态空间包括平衡状态空间和关节状态空间，所述强化学习算法的动作空间为所述仿真环境中机器人模型各关节电机的速度期望值。

所述仿真环境中机器人模型的输入是所述动作生成模型的输出，即强化学习算法的动作空间值；所述平衡编码模型的输入是所述平衡状态空间值，所述动作生成模型的输入是所述平衡编码模型的输出和所述关节状态空间值；

所述平衡编码模型和所述动作生成模型的权重和偏置参数根据其获得的奖励值更新。

本方法的进一步改进在于：所述强化学习算法的状态空间包括平衡状态空间和关节状态空间，所述强化学习算法的动作空间为所述仿真环境中机器人模型各关节电机的速度期望值具体为：

所述平衡状态空间包括来自所述机器人模型多个平衡相关的状态信息，包括：质心位置、速度、加速度，重心的位置、速度；所述关节状态空间包括机器人模型的双腿膝、髋关节的实时位置、速度、加速度信息。

本方法的进一步改进在于：利用动作生成模型生成数据集具体为：

所述数据集由动作生成模型的输入和输出组成，动作生成模型的输入为所述关节状态空间值和该关节状态空间值对应时刻的平衡编码模型的输出，动作生成模型的输出为该关节状态空间值对应的动作空间值。

本方法的进一步改进在于：建立平衡预测模型，与动作生成模型组成步态生成网络，使用上述数据集，通过模仿学习算法训练步态生成网络具体为：

所述平衡预测模型为时间卷积网络；

所述数据集的特征为数据集内关节状态空间值，特征的标签为该关节状态空间值对应的平衡编码模型的输出值和动作空间值；

所述步态生成网络中平衡预测模型与动作生成模型通过全连接层连接，通过模仿学习算法更新所述平衡预测模型的权重和偏置参数，实现所述步态生成网络中平衡预测模型的输出值模仿所述数据集中平衡编码模型输出值，所述步态生成网络中动作生成模型的输出值模仿所述数据集中动作生成模型的输出值。

本方法的进一步改进在于：所述步态生成网络中平衡预测模型与动作生成模型通过全连接层连接，利用模仿学习算法更新所述平衡预测模型的权重和偏置参数，实现所述步态生成网络中平衡预测模型的输出值模仿所述数据集中平衡编码模型输出值，所述步态生成网络中动作生成模型的输出值模仿所述数据集中动作生成模型的输出值具体为：

所述平衡预测模型第t个输入特征为t之后N个时间连续关节状态空间值，其中N为预设的时间卷积网络输入的历史特征个数，所述动作生成模型第t个输入特征为第(t+N-1)个关节状态空间值和平衡预测模型的输出值；

所述平衡预测模型的权重和偏置参数用随机梯度下降算法更新，参数更新的步长和方向由随机梯度下降算法的损失函数确定。

本方法的进一步改进在于：所述平衡预测模型的权重和偏置参数用随机梯度下降算法更新，更新的步长和方向由随机梯度下降算法的损失函数确定具体为：

所述损失函数如下：

L＝(a_u(t+29)-a_lt)²+(b_u(t+29)-b_lt)²

其中，t表示数据集中特征值对应的序号，a_u(t+29)和b_u(t+29)是第t个特征值对应的标签：数据集中的动作生成模型的输出值和平衡编码模型的输出值，a_lt和b_lt是以第t个特征值为输入时步态生成网络中的动作生成模型输出值和平衡预测模型的输出值。

本方法的进一步改进在于：训练完毕的步态生成网络用于输出机器人各关节电机的速度期望值，结合电机伺服驱动控制器实现机器人的控制具体为：

训练完毕的步态生成网络与真实下肢外骨骼康复机器人系统交互，形成步态闭环循环，所述步态闭环循环包括将下肢外骨骼康复机器人关节状态空间值输入到步态生成网络，步态生成网络输出下肢外骨骼康复机器人各关节电机的速度期望值，电机伺服驱动控制器执行速度期望值，下肢外骨骼康复机器人的关节状态空间值更新，该步态闭环循环使下肢外骨骼康复机器人平衡、稳定的行走。

与现有技术相比，有益效果如下：

(1)在强化学习算法的奖励函数中加入平衡奖励项，使得训练完成的步态生成网络输出的关节电机速度期望值具有平衡辅助功能，及时、有效的校正不平衡倾向，实现下肢外骨骼康复机器人端到端的控制；

(2)以时间卷积网络为基体搭建平衡预测模型，建立历史关节状态信息和下肢外骨骼康复机器人平衡状态之间的关系网络，使得训练的步态生成网络实现无需额外传感器预测下肢外骨骼康复机器人平衡状态；

(3)步态生成网络的整个训练过程均是离线进行，避免复杂的数据采样和处理过程，训练速度快，训练成本低。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明步态生成网络的训练流程图；

图2为本发明的平衡编码模型和动作生成模型的训练结构图；

图3为本发明的步态生成网络模仿学习训练结构图；

图4为本发明的步态生成网络的应用结构图。

具体实施方式

下面将通过具体实施方式对本发明的技术方案进行清楚、完整地描述。显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

本实施例结合附图对本发明进行详细说明：

实施例：

为了便于理解，本实施例中，以下肢外骨骼康复机器人为例。

本发明提出了一种具有平衡辅助功能的下肢外骨骼康复机器人控制方法，包括以下步骤：

其中，步态生成网络的训练流程如图1所示。

S1、使用任意的物理引擎建立人与机器人交互的仿真环境；包括以下步骤：

S1.1、根据实际患者-外骨骼机器人系统交互环境，基于MuJoCo或PyBullet物理引擎设计下肢外骨骼康复机器人模型，所述下肢外骨骼康复机器人模型尽可能接近真实患者-外骨骼系统的运动特性，下肢外骨骼康复机器人模型中应包括传感器模型，用于获取对应的传感器信息，为强化学习算法的状态空间值提供原始数据，包括：质心的位置、速度、加速度，重心的位置、速度。

S1.2、基于Gym设计下肢外骨骼康复机器人的外部环境，为下肢外骨骼康复机器人模型提供运动的虚拟场景。创建环境初始化文件，注册新创建的环境；

S1.3、通过参数随机化方法处理下肢外骨骼康复机器人模型的参数和机器人模型与外部环境的交互系数，用于提供丰富的训练场景样本，增加所训练模型的适应度；

本实施例中，可能影响输出的下肢外骨骼康复机器人模型的参数包括关节自由度、关节摩擦系数、关节摩擦力矩参数、人机交互力和人体重量等；可能影响输出的交互系数包括地面刚度、地面摩擦系数、重力加速度等。

S2、通过强化学习算法，在仿真环境中完成所设计的平衡编码模型和动作生成模型的训练，其中，奖励函数包含平衡项。平衡编码模型和动作生成模型的训练结构如图2所示，包括以下步骤：

S2.1、选择强化学习算法，设计强化学习算法的奖励函数，其中，奖励函数的平衡项为任意一种可定量判断下肢外骨骼康复机器人平衡程度的数学模型，例如零力矩点(ZMP)平衡判据、质心力矩枢轴(CMP)平衡判据和外推质心(XcoM)平衡判据等；

本实施例中，采用置信域策略优化(TRPO)强化学习算法，强化学习的奖励函数由平衡奖励项、柔顺奖励项和速度奖励项组成。平衡奖励项的设计基于零力矩点平衡判据，具体奖励函数如下：

R＝0.4r_b+0.3r_s+0.3r_v

其中，r_b是平衡奖励项，r_s是柔顺奖励项，r_v是速度奖励项。

具体的，平衡奖励项r_b表达如下：

其中，(x_ZMP,y_ZMP)是零力矩点ZMP在水平面上的投影坐标，(x_CoR,y_CoR)是支撑域的中心点坐标；

柔顺奖励项r_s表达如下：

其中，f是训练过程中采集自下肢外骨骼康复机器人模型的交互力，单位是N，交互力阈值设置为500N；

速度奖励项r_v表达如下：

其中，v_a是训练过程中下肢外骨骼康复机器人模型质心的实时速度，单位为m/s，1m/s是设置的目标人体速度值。

S2.2、创建强化学习算法的状态空间和动作空间。

强化学习算法的状态空间包括平衡状态空间和关节状态空间，平衡状态空间包括来自下肢外骨骼康复机器人模型多个平衡相关的状态信息，包括：质心位置、速度、加速度，重心的位置、速度；关节状态空间包括下肢外骨骼康复机器人模型双腿膝、髋关节的实时位置、速度、加速度信息。强化学习算法的动作空间为所述仿真环境中机器人模型各关节电机的速度期望值。

本实施例中，状态空间S如下：

S＝{S_b,S_j}

S_b是平衡状态空间，S_j关节状态空间。

平衡状态空间S_b构成如下：

其中，(x_ZMP,y_ZMP)是下肢外骨骼康复机器人模型的零力矩点在水平面上投影的坐标，

是下肢外骨骼康复机器人模型的支撑域在水平面上等效为四边形后四个顶点P₁,P₂,P₃,P₄的坐标，(x_CoP,y_CoP)是下肢外骨骼康复机器人模型的质心CoP在水平面上投影的坐标。

关节状态空间S_j构成如下：

S_j＝{v_i,a_i,p_i}

v_i,a_i,p_i，其中i＝{1,2,3,4}，分别表示下肢外骨骼康复机器人模型双腿膝、髋关节四个驱动电机的实时速度、加速度和位置值。

本实施例中，动作空间A具体构成如下：

A＝{v₁,v₂,v₃,v₄}

v₁,v₂,v₃,v₄分别表示下肢外骨骼康复机器人模型双腿膝、髋关节四个关节电机的速度期望值。

S2.3、根据状态空间和动作空间确定基于多层感知机的平衡编码模型和动作生成模型的结构，包括网络深度、每层神经元个数和激活函数类型；

本实施例中，设定平衡编码模型是2层隐藏层的多层感知机，每层神经元个数分别是128、128，激活函数均用tanh。设定动作生成模型是3层中间层的神经网络，每层神经元个数分别是128、128和16，激活函数均用tanh。平衡编码模型和动作生成模型之间通过concatenate全连接层连接。

S2.4、初始化平衡编码模型和动作生成模型的权重和偏置参数，初始化下肢外骨骼康复机器人模型的关节位置。

为了方便起见，本实施例使用随机初始化法对平衡编码模型和动作生成模型的权重和偏置参数进行初始化，使用添加随机噪音的方式初始化下肢外骨骼康复机器人模型的关节位置。

S2.5、调整强化学习算法超参数，通过强化学习算法训练平衡编码模型和动作生成模型。

在本实施例中，强化学习算法与仿真环境交互形成闭环循环，该闭环循环包括如下步骤：从仿真环境中获取下肢外骨骼康复机器人模型的状态空间原始数据；原始数据经过处理得到平衡状态空间值和关节状态空间值；平衡编码模型接收平衡状态空间值并输出平衡编码值，动作生成模型接收到关节状态空间值和平衡编码值并输出下肢外骨骼康复机器人模型的关节电机的速度期望值；机器人模型执行该期望值并更新状态。其中，该闭环循环内每一个状态空间值和动作空间值均添加随机噪音成分，TRPO算法的经验池收集每一个循环步中的动作空间值、执行该动作空间值后的状态空间值和该动作空间值对应的奖励值，并计算当前策略的累积奖励值，根据累计奖励值更新平衡编码模型和动作生成模型的权重和偏置参数，直到下肢外骨骼康复机器人模型走出预期平衡、稳定的步态。

在本实施例中，强化学习算法的超参数设置如下：使用Adam优化器更新平衡编码模型和动作生成模型权重和偏置参数，学习率设置为0.001，单幕最大步长数为800,折扣系数为0.995。

S3、利用动作生成模型生成数据集；包括以下步骤：

S3.1、训练完毕的平衡编码模型和动作生成模型作为策略，为仿真环境中下肢外骨骼康复机器人模型提供关节电机速度期望值。使用该策略控制下肢外骨骼康复机器人模型行走。

S3.2、在S3.1所述行走过程中，采集100000个动作生成模型连续时间的输入输出数据对，所述动作生成模型的输入由下肢外骨骼康复机器人模型的双腿髋、膝关节的位置、速度和加速度值和该时刻对应的平衡编码模型的输出组成，所述动作生成模型的输出为下肢外骨骼康复机器人模型的关节电机速度期望值。

S4、建立平衡预测模型，与动作生成模型组成步态生成网络，使用上述数据集，通过模仿学习算法训练步态生成网络；步态生成网络模仿学习训练结构如图3所示，包括以下步骤：

S4.1、确定基于时间卷积网络的平衡预测模型的结构，包括输入的历史关节信息个数、卷积形式、卷积深度、过滤器尺寸和激活函数；

在本实施例中平衡预测模型输入的历史特征个数为N＝30，时间卷积网络的深度为4，卷积形式是膨胀卷积和跨步卷积交错的卷积网络，过滤器的尺寸固定为3，前三层每一个卷积层后有一个relu激活函数，第四层激活函数为tanh。

S4.2、使用concatenate全连接层连接平衡预测模型与动作生成模型作为步态生成网络。

S4.3、确定模仿学习算法的损失函数。

在实施例中，模仿学习的损失函数具体如下：

L＝(a_u(t+29)-a_lt)²+(b_u(t+29)-b_lt)²

该损失函数最小化可以实现步态生成网络中平衡预测模型的输出值模仿数据集中平衡编码模型输出值，步态生成网络中动作生成模型的输出值模仿数据集中动作生成模型的输出值。

S4.4、基于收集得到的数据集，使用模仿学习算法训练平衡预测模型，根据模仿学习损失函数更新平衡预测模型的权重和偏置参数。

在本实施例中，数据集中，第t(1<＝t<＝99971)个特征值f_t具体为：t之后N个时间连续下肢外骨骼康复机器人模型的关节状态空间值{S_j(t)，……，S_j(t+29)}；第t个特征值对应的标签值具体为：第(t+29)个关节状态空间值对应时刻的平衡编码模型的输出b_u(t+29)和动作生成模型的输出a_u(t+29)。将第t个特征值输入到平衡预测模型中，然后平衡预测模型的输出和第(t+29)个下肢外骨骼康复机器人模型的关节状态空间值输入到动作生成模型，动作生成模型输出下肢外骨骼康复机器人模型的关节电机速度期望值。使用标签值对两个模型的输出进行模仿监督，模仿学习算法根据损失函数更新平衡预测模型的权重和偏置参数，直到损失函数低于设定阈值，平衡预测模型训练完毕，步态生成网络训练完毕。

S5、训练完毕的步态生成网络用于输出机器人各关节电机的速度期望值，结合电机伺服驱动控制器实现机器人的控制；步态生成网络的应用结构如图4所示，包括以下步骤：

S5.1、搭建下肢外骨骼康复机器人硬件平台，包括硬件通信设备的连接和电机的调试，在Matlab上建立步态生成网络与下肢外骨骼康复机器人平台的数据通信。

S5.2、步态生成网络获取下肢外骨骼康复机器人的关节信息，并输出在该关节信息下采取的动作决策值，关节电机执行动作决策值，下肢外骨骼康复机器人产生状态变化并将关节信息发送给步态生成网络。

S5.3步骤S5.2形成闭环步态循环，重复该循环使下肢外骨骼康复机器人辅助患者平衡、稳定的行走。

Claims

1.一种具有平衡辅助功能的下肢外骨骼康复机器人控制方法，其特征在于，包括如下步骤：

使用任意的物理引擎建立人与机器人交互的仿真环境；

利用动作生成模型生成数据集；

2.根据权利要求1所述的一种具有平衡辅助功能的下肢外骨骼康复机器人控制方法，其特征在于：所述使用任意的物理引擎建立人与机器人交互的仿真环境具体为：

所述仿真环境包含下肢外骨骼康复机器人模型和下肢外骨骼康复机器人外部环境；

3.根据权利要求1所述的一种具有平衡辅助功能的下肢外骨骼康复机器人控制方法，其特征在于：所述通过强化学习算法，在仿真环境中完成所设计的平衡编码模型和动作生成模型的训练，其中，奖励函数包含平衡项具体为：

所述平衡项奖励函数为任意一种可判断下肢外骨骼康复机器人平衡程度的数学模型；

所述强化学习算法的状态空间包括平衡状态空间和关节状态空间，所述强化学习算法的动作空间为所述仿真环境中机器人模型各关节电机的速度期望值；

4.根据权利要求3所述的一种具有平衡辅助功能的下肢外骨骼康复机器人控制方法，其特征在于：所述强化学习算法的状态空间包括平衡状态空间和关节状态空间，所述强化学习算法的动作空间为所述仿真环境中机器人模型各关节电机的速度期望值具体为：

5.根据权利要求1所述的一种具有平衡辅助功能的下肢外骨骼康复机器人控制方法，其特征在于：所述利用动作生成模型生成数据集具体为：

6.根据权利要求1所述的一种具有平衡辅助功能的下肢外骨骼康复机器人控制方法，其特征在于：所述建立平衡预测模型，与动作生成模型组成步态生成网络，使用上述数据集，通过模仿学习算法训练步态生成网络具体为：

所述平衡预测模型为时间卷积网络；

7.根据权利要求6所述的一种具有平衡辅助功能的下肢外骨骼康复机器人控制方法，其特征在于：所述步态生成网络中平衡预测模型与动作生成模型通过全连接层连接，利用模仿学习算法更新所述平衡预测模型的权重和偏置参数，实现所述步态生成网络中平衡预测模型的输出值模仿所述数据集中平衡编码模型输出值，所述步态生成网络中动作生成模型的输出值模仿所述数据集中动作生成模型的输出值具体为：

8.根据权利要求7所述的一种具有平衡辅助功能的下肢外骨骼康复机器人控制方法，其特征在于：所述平衡预测模型的权重和偏置参数用随机梯度下降算法更新，参数更新的步长和方向由随机梯度下降算法的损失函数确定具体为：

所述损失函数如下：

L＝(a_u(t+29)-a_lt)²+(b_u(t+29)-b_lt)²

9.根据权利要求1所述的一种具有平衡辅助功能的下肢外骨骼康复机器人控制方法，其特征在于：所述训练完毕的步态生成网络用于输出机器人各关节电机的速度期望值，结合电机伺服驱动控制器实现机器人的控制具体为：