CN114028156B

CN114028156B - 康复训练方法、装置及康复机器人

Info

Publication number: CN114028156B
Application number: CN202111268479.3A
Authority: CN
Inventors: 孙维; 黄冠
Original assignee: Shenzhen Huaquejing Medical Technology Co ltd
Current assignee: Shenzhen Huaquejing Medical Technology Co ltd
Priority date: 2021-10-28
Filing date: 2021-10-28
Publication date: 2024-07-05
Anticipated expiration: 2041-10-28
Also published as: CN114028156A

Abstract

本发明提供了康复训练方法、装置及康复机器人；其中，该方法包括：获取待训练手臂的手臂末端当前位置和手臂末端目标位置；将手臂末端当前位置和手臂末端目标位置输入至预先训练好的深度强化学习模型，以使深度强化学习模型根据手臂末端当前位置和手臂末端目标位置输出电流指令集；其中，电流指令集包括上肢外骨骼中多个关节分别对应的电流指令；将电流指令集发送至上肢外骨骼，以使上肢外骨骼根据电流指令集带动待训练手臂进行康复训练。该方式中，通过深度强化学习模型，可以快速获得电流指令集，与现有方式相比，简化了流程，且，避免了人为设置导致的误差，从而提高了康复训练的效率和精度，具有较好的实用价值。

Description

康复训练方法、装置及康复机器人

技术领域

本发明涉及康复机器人技术领域，尤其是涉及康复训练方法、装置及康复机器人。

背景技术

脑卒中俗称中风，是由于脑血管堵塞或破裂而造成的急性脑血管循环障碍疾病，具有高发病率、高死亡率、高致残率、高复发率等特点。在中风患者中只有少数轻微患者可以自然恢复，大部分中风患者都会遗留下残疾问题，因此，康复训练对中风患者至关重要。

现有的康复训练中，主要通过上肢康复机器人带动患者肢体运动进行训练，具体地，预先设置一个目标位置，并进行运动规划，得到一组平滑的运动轨迹；然后对机器人进行运动学建模，通过运动学逆解将目标位置换算成机器人各个关节的角度，并通过中层控制方法如PID(Proportion Integral Differential)控制或阻抗控制等将关节角度换算成关节电流；最后将关节电流指令发送给关节电机控制器完成运动。这种方法虽然可以实现患者的康复训练，但存在以下缺点：(1)上述过程比较复杂，每一步均需人为设置相关参数，例如PID控制的比例系数，积分系数，微分系数等，比较依赖操作人员经验；(2)该方法要求对机器人精确建模，而机器人的精确模型往往是未知的；(3)运动学逆解通常采用数值迭代的方式求解，对初始值敏感，运算量大且存在无法求解的情况，从而降低了康复训练的效率和效果，不能满足实际应用。

发明内容

有鉴于此，本发明的目的在于提供康复训练方法、装置及康复机器人，以缓解上述问题，提高了康复训练的效率和精度，具有较好的实用价值。

第一方面，本发明实施例提供了一种康复训练方法，应用于康复机器人的控制器，其中，康复机器人还包括与控制器通信连接的上肢外骨骼；该方法包括：获取待训练手臂的手臂末端当前位置和手臂末端目标位置；将手臂末端当前位置和手臂末端目标位置输入至预先训练好的深度强化学习模型，以使深度强化学习模型根据手臂末端当前位置和手臂末端目标位置输出电流指令集；其中，电流指令集包括上肢外骨骼中多个关节分别对应的电流指令；将电流指令集发送至上肢外骨骼，以使上肢外骨骼根据电流指令集带动待训练手臂进行康复训练。

可选地，本发明实施例提供了第一方面的第一种可能的实施方式，其中，深度强化学习模型包括策略网络、价值网络和关节网络，上述深度强化学习模型根据手臂末端当前位置和手臂末端目标位置输出电流指令集的步骤，包括：将手臂末端当前位置和手臂末端目标位置输入至策略网络，以使策略网络生成目标动作集；以及，将手臂末端当前位置和手臂末端目标位置输入至价值网络，以使价值网络对目标动作集进行评估；其中，目标动作集包括多个目标动作，每个目标动作用于表征上肢外骨骼中每个关节对应的目标角度；将目标动作集输入至关节网络，以使关节网络根据目标动作集输出电流指令集。

可选地，本发明实施例提供了第一方面的第二种可能的实施方式，其中，深度强化学习模型是根据神经网络训练得到，该方法还包括：获取训练样本集；其中，训练样本集包括多个训练样本，以及每个训练样本的状态，状态用于表征训练样本在环境空间的位置信息；将训练样本集输入至神经网络进行训练，以得到深度强化学习模型。

可选地，本发明实施例提供了第一方面的第三种可能的实施方式，其中，神经网络包括原始策略网络、原始价值网络和原始关节网络；上述将训练样本集输入至神经网络进行训练的步骤，包括：将训练样本的上一时刻状态输入至原始策略网络，以使原始策略网络根据上一时刻状态输出动作策略；其中，动作策略用于表征从状态到动作的选择概率之间的映射；基于动作策略中每个动作的选择概率，确定训练动作集；其中，训练动作集包括上肢外骨骼中多个关节分别对应的训练动作；将训练动作集输入至原始关节网络，以使原始关节网络根据训练动作集输出训练电流指令集；将训练电流指令集发送至上肢外骨骼，以使上肢外骨骼根据训练电流指令集执行相应的训练动作，并得到训练奖励和当前时刻状态；将上一时刻状态和当前时刻状态输入至原始价值网络，以使原始价值网络根据上一时刻状态得到上一时刻状态价值函数，以及根据当前时刻状态得到当前时刻状态价值函数；基于动作策略、训练奖励、上一时刻状态价值函数和当前时刻状态价值函数分别对原始策略网络和原始价值网络的网络参数进行调整，直至得到策略网络和价值网络。

可选地，本发明实施例提供了第一方面的第四种可能的实施方式，其中，基于动作策略、训练奖励、上一时刻状态价值函数和当前时刻状态价值函数对原始策略网络的网络参数进行调整的步骤，包括：根据动作策略、训练奖励、上一时刻状态价值函数和当前时刻状态价值函数，计算得到策略梯度函数；根据策略梯度函数对原始策略网络的网络参数进行调整，直至得到策略网络。

可选地，本发明实施例提供了第一方面的第五种可能的实施方式，其中，基于动作策略、训练奖励、上一时刻状态价值函数和当前时刻状态价值函数对原始价值网络的网络参数进行调整的步骤，包括：根据训练奖励、上一时刻状态价值函数和当前时刻状态价值函数，计算得到时序差分误差；基于时序差分误差对原始价值网络的网络参数进行调整，直至得到价值网络。

第二方面，本发明实施例还提供一种康复训练装置，应用于康复机器人的控制器，其中，康复机器人还包括与控制器通信连接的上肢外骨骼；该装置包括：获取模块，用于获取待训练手臂的手臂末端当前位置和手臂末端目标位置；计算模块，用于将手臂末端当前位置和手臂末端目标位置输入至预先训练好的深度强化学习模型，以使深度强化学习模型根据手臂末端当前位置和手臂末端目标位置输出电流指令集；其中，电流指令集包括上肢外骨骼中多个关节分别对应的电流指令；执行模块，用于将电流指令集发送至上肢外骨骼，以使上肢外骨骼根据电流指令集带动待训练手臂进行康复训练。

第三方面，本发明实施例还提供一种康复机器人，包括控制器，以及与控制器通信连接的上肢外骨骼；其中，控制器用于实现上述第一方面的康复训练方法的步骤。

可选地，本发明实施例提供了第三方面的第一种可能的实施方式，其中，上述上肢外骨骼还配置有关节自由度；其中，所述关节自由度包括以下至少之一：肩关节外摆/内收自由度、前屈/后伸自由度、旋内/旋外自由度、肘关节屈曲/伸展自由度、前臂旋前/旋后自由度、腕关节背屈/掌屈，以及尺曲/桡曲自由度。

第四方面，本发明实施例还提供一种计算机可读存储介质，计算机可读存储介质上存储有计算机程序，计算机程序被处理器运行时执行上述第一方面的康复训练方法的步骤。

本发明实施例带来了以下有益效果：

本发明实施例提供了康复训练方法、装置及康复机器人，首先获取待训练手臂的手臂末端当前位置和手臂末端目标位置，并输入至深度强化学习模型，即可快速获得电流指令集，与现有方式相比，省略了运动规划、运动学逆解和中层控制等流程，从而极大地简化了流程，且，避免了计算过程中人为设置导致的误差，从而提高了康复训练的效率和精度；以及，在训练过程中，还结合虚拟现实场景进行训练，从而增强了康复训练的趣味性，提高了用户的训练体验度，具有较好的实用价值。

本发明的其他特征和优点将在随后的说明书中阐述，并且，部分地从说明书中变得显而易见，或者通过实施本发明而了解。本发明的目的和其他优点在说明书以及附图中所特别指出的结构来实现和获得。

为使本发明的上述目的、特征和优点能更明显易懂，下文特举较佳实施例，并配合所附附图，作详细说明如下。

附图说明

为了更清楚地说明本发明具体实施方式或现有技术中的技术方案，下面将对具体实施方式或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施方式，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例提供的一种康复机器人的结构示意图；

图2为本发明实施例提供的另一种康复机器人的结构示意图；

图3为本发明实施例提供的一种虚拟现实场景的示意图；

图4为本发明实施例提供的一种康复训练方法的流程图；

图5为本发明实施例提供的一种深度强化学习模型的训练原理图；

图6为本发明实施例提供的一种关节网络的结构示意图；

图7为本发明实施例提供的一种康复机器人的工作原理图；

图8为本发明实施例提供的一种康复训练装置的示意图；

图9为本发明实施例提供的一种电子设备的结构示意图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合附图对本发明的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

针对现有康复训练的效率和效果，不能满足实际应用的问题，本发明实施例提供了康复训练方法、装置及康复机器人，通过深度强化学习模型，可以快速获得电流指令集，与现有方式相比，简化了流程，且，避免了人为设置导致的误差，从而提高了康复训练的效率和精度，具有较好的实用价值。

为便于对本实施例进行理解，下面首先对本发明实施例提供的一种康复机器人进行详细介绍。如图1所示的一种康复机器人的结构示意图，康复机器人1包括：控制器10，以及与控制器10通信连接的上肢外骨骼20、视觉传感器30和虚拟现实装置40；具体地，视觉传感器30具有深度感知功能，用于采集待训练手臂的手臂末端当前位置，并将手臂末端当前位置发送至控制器10；虚拟现实装置40用于生成手臂末端目标位置，并将手臂末端目标位置发送至控制器10，以使控制器10根据手臂末端当前位置和手臂末端目标位置生成控制指令，并将控制指令发送至上肢外骨骼20，以便上肢外骨骼20根据控制指令带动患者的待训练手臂完成康复训练。

在实际应用中，如图2所示，控制器10可以设置在与上肢外骨骼20连接的底座中，该底座上可以安装有移动装置如可移动滑轮，从而操作人员可以通过移动装置对上肢外骨骼20进行移动，如患者坐下后，将上肢外骨骼20移动至目标位置，便于上肢外骨骼20与患者待训练手臂固定。此外，虚拟现实装置40可以设置在患者的正前方，视觉传感器30则设置在虚拟现实装置40下方的底座中，该底座同样安装有移动装置，以便调节视觉传感器30和虚拟现实装置40的位置，且，调节方式比较简单，易于实现。

其中，上述上肢外骨骼20还配置有关节自由度；其中，关节自由度包括以下至少之一：肩关节外摆/内收自由度、前屈/后伸自由度、旋内/旋外自由度、肘关节屈曲/伸展自由度、前臂旋前/旋后自由度、腕关节背屈/掌屈，以及尺曲/桡曲自由度；这里上述上肢外骨骼20按照肩关节外摆/内收自由度、前屈/后伸自由度、旋内/旋外自由度、肘关节屈曲/伸展自由度、前臂旋前/旋后自由度、腕关节背屈/掌屈，以及尺曲/桡曲自由度共七个自由度依次串联设置，此外，也可以根据患者的康复情况自由设置自由度，如单个自由度或者自由度组合等，具体可以根据实际情况进行设置。

上述虚拟现实装置40还用于生成并显示虚拟现实场景，如可以在虚拟现实装置40中预先存储多个虚拟现实场景(或者称为复训练场景)，这里虚拟现实场景优选为日常生活场景对应的虚拟场景，如整理衣柜和搬运物品等；以及，上述虚拟现实装置40还配置有显示装置如显示屏等，且，显示装置可以配置有带触摸功能，也可以配置有悬浮触控功能，或者为同时配置触摸功能和悬浮触控功能，或者连接其它输入设备如鼠标和键盘等，以便在康复训练前，操作人员或医生等从预存的多个虚拟现实场景中确定目标虚拟现实场景，并进行显示，以使患者根据显示的目标虚拟现实场景进行对应的康复训练，提高康复训练的趣味性，提高患者的体验度。

此外，上述虚拟现实场景还携带有训练提示和虚拟手臂；其中，训练提示用于指示患者当前训练任务，通常包括多个步骤或多个训练子任务；如图3所示，训练提示41包括多个训练子任务，以及每个训练子任务对应的起始位置和结束位置，并在完成当前训练子任务后，按序进行下一个训练子任务或者随机进入下一个训练子任务，直至完成所有训练子任务；如首先从当前位置O移动至位置A，然后，从位置A移动至位置B，或者移动至位置C，或者移动至其他位置等，直至完成训练任务或者达到训练时间。以及，在患者的待训练手臂进行康复训练中，虚拟手臂也与待训练手臂保持同样的训练动作，即如待训练手臂执行从当前位置O移动至位置A，此时虚拟手臂在虚拟现实场景中也从当前位置O移动至位置A，即根据训练过程，同时更新虚拟手臂的位置信息，以使虚拟手臂和待训练手臂的运动轨迹保证一致，从而便于患者直观的掌握训练任务完成情况，并当训练动作与对应的训练子任务出现误差时，通过调整虚拟手臂的最新位置，如最新位置偏离位置A，待训练手臂及时进行调整，直至虚拟手臂的最新位置达到位置A，即在对待训练手臂进行康复训练的同时，对患者的脑部也进行了训练。

以及，上述虚拟现实装置40按照预设形式显示训练提示；其中，预设形式包括以下至少之一：文字形式、图片形式和语音形式，如可以将多个训练子任务通过文字形式进行显示，也可以通过图片的形式进行显示，或者通过语音播报的方式进行显示等，也可以将上述方式结合进行显示，具体可以根据实际情况进行设置。

需要说明的是，为了锻炼患者的认知能力，上述训练子任务可以预先设置，也可以随机生成，以便在康复训练中患者的大脑主动参与，即实现对患者的脑部和待训练手臂的同时训练，提高了患者的认知能力和训练的趣味性，从而提高了患者的训练效果。

基于上述康复机器人，本发明实施例提供了一种康复训练方法，执行主体为康复机器人的控制器，其中，该控制器中还存储有预先训练好的深度强化学习模型，如图4所示，该方法包括以下步骤：

步骤S402，获取待训练手臂的手臂末端当前位置和手臂末端目标位置；

具体地，视觉传感器采集待训练手臂的手臂末端当前位置，并将手臂末端当前位置发送至控制器；虚拟现实装置用于生成手臂末端目标位置，如根据生成的虚拟现实场景对应的训练任务，将当前训练任务或当前训练子任务对应的结束位置作为手臂末端目标位置，并将手臂末端目标位置发送至控制器，这里手臂末端目标位置为基于手臂末端当前位置对应的训练任务或训练子任务的目标位置，具体的手臂末端当前位置和手臂末端目标位置可以根据对应的训练任务(或训练子任务)进行设置。

步骤S404，将手臂末端当前位置和手臂末端目标位置输入至预先训练好的深度强化学习模型，以使深度强化学习模型根据手臂末端当前位置和手臂末端目标位置输出电流指令集；其中，电流指令集包括上肢外骨骼中多个关节分别对应的电流指令；

其中，深度强化学习模型包括策略网络(也可称为行动器Actor)、价值网络(也可称为评价器Critic)和关节网络，即在原有Actor-Critic框架上增加了一个关节网络，该关节网络的输入为动作，输出为该动作对应的电流指令。在实际应用中，策略网络用于实时与环境交互学习，输入为状态，输出为对应的动作策略即目标动作；价值网络用于对动作策略进行评估。

具体地，将手臂末端当前位置输入至策略网络，以使策略网络生成目标动作集；以及，将手臂末端当前位置和手臂末端目标位置输入至价值网络，以使价值网络对目标动作集进行评估；其中，目标动作集包括多个目标动作，每个目标动作用于表征上肢外骨骼中每个关节对应的目标角度；将目标动作集输入至关节网络，以使关节网络根据目标动作集输出电流指令集，即包括每个关节对应的电流指令。

步骤S406，将电流指令集发送至上肢外骨骼，以使上肢外骨骼根据电流指令集带动待训练手臂进行康复训练。

具体地，由于控制器还具有实现关节电流环控制的功能，如采用FOC(Field-Oriented Controller，磁场导向控制)将电流指令转换成施加到电机上的三相电压，从而可以在关节上可以产生一个力矩，因此，控制器根据电流指令集，可以得到上肢外骨骼中每个关节对应的电机上的三相电压，从而上肢外骨骼中每个关节按照施加的对应的力矩运动，从而带动待训练手臂进行康复训练。

本发明实施例提供的康复训练方法，通过深度强化学习模型，可以快速获得电流指令集，与现有方式相比，简化了流程，且，避免了人为设置导致的误差，从而提高了康复训练的效率和精度，具有较好的实用价值。

在实际应用中，上述康复训练方法分为两个阶段：预训练阶段和部署使用阶段；其中，预训练阶段在虚拟环境中进行仿真，目标是对深度强化学习模型进行训练，直至其满足使用要求；部署使用阶段则是将虚拟环境中训练好的深度强化学习算法迁移到康复机器人上使用，以实现康复训练。

其中，在预训练阶段中，上述深度强化学习模型是根据神经网络训练得到，该方法还包括：获取训练样本集；其中，训练样本集包括多个训练样本，以及每个训练样本的状态，状态用于表征训练样本在环境空间的位置信息；将训练样本集输入至神经网络进行训练，以得到深度强化学习模型。

具体地，神经网络包括原始策略网络、原始价值网络和原始关节网络；上述将训练样本集输入至神经网络进行训练的过程如下：将训练样本的上一时刻状态输入至原始策略网络，以使原始策略网络根据上一时刻状态输出动作策略；其中，动作策略用于表征从状态到动作的选择概率之间的映射；基于动作策略中每个动作的选择概率，确定训练动作集；其中，训练动作集包括上肢外骨骼中多个关节分别对应的训练动作；将训练动作集输入至原始关节网络，以使原始关节网络根据训练动作集输出训练电流指令集；将训练电流指令集发送至上肢外骨骼，以使上肢外骨骼根据训练电流指令集执行相应的训练动作，并得到训练奖励和当前时刻状态；将上一时刻状态和当前时刻状态输入至原始价值网络，以使原始价值网络根据上一时刻状态得到上一时刻状态价值函数，以及根据当前时刻状态得到当前时刻状态价值函数；基于动作策略、训练奖励、上一时刻状态价值函数和当前时刻状态价值函数分别对原始策略网络和原始价值网络的网络参数进行调整，直至得到策略网络和价值网络。

为了便于理解，这里举例说明。状态s指训练样本如手臂末端在环境空间的位置信息，如设置上一时刻状态s_t-1为[x_s,y_s,z_s]，当前时刻状态s_t为[x_e,y_e,z_e]，动作集a表示机器人的上肢外骨骼中每个关节对应的角度，策略π(a|s)表示从状态到动作集中每个动作的选择概率之间的映射，状态价值函数v_π(s)表示从状态s按照策略π(a|s)表进行决策所获得回报的期望值，奖励R表示采取动作集获得的回报。

具体地，如图5所示，原始策略网络的输入为上一时刻状态s_t-1，输出为动作策略π(a_t|s_t-1)；控制器基于动作策略中每个动作的选择概率，确定训练动作集，即当前时刻的a_t；并将训练动作集输入至原始关节网络，以使原始关节网络根据训练动作集输出训练电流指令集I_t；将训练电流指令集I_t；发送至上肢外骨骼，以使上肢外骨骼根据训练电流指令集I_t；执行相应的训练动作，并导致末端位置坐标改变，即状态由上一时刻状态s_t-1更新为当前时刻状态s_t，并得到训练奖励R_t和当前时刻状态s_t，以及，将上一时刻状态s_t-1和当前时刻状态s_t输入至原始价值网络，以使原始价值网络根据上一时刻状态s_t-1得到上一时刻状态价值函数v_π(s_t-1)，以及根据当前时刻状态s_t得到当前时刻状态价值函数v_π(s_t)；最后，基于动作策略π(a_t|s_t-1)；、训练奖励R_t、上一时刻状态价值函数v_π(s_t-1)和当前时刻状态价值函数v_π(s_t)分别对原始策略网络和原始价值网络的网络参数进行调整，直至得到策略网络和价值网络。

其中，基于动作策略、训练奖励、上一时刻状态价值函数和当前时刻状态价值函数对原始策略网络的网络参数进行调整的过程如下：根据动作策略、训练奖励、上一时刻状态价值函数和当前时刻状态价值函数，计算得到策略梯度函数；根据策略梯度函数对原始策略网络的网络参数进行调整，直至得到策略网络。具体地，根据下式计算策略梯度函数：

PG＝(R_t+γv_π(s_t)-v_π(s_t-1))log(π(a_t|s_t-1))

其中，π(a_t|s_t-1)表示动作策略，R_t表示训练奖励，v_π(s_t-1)表示上一时刻状态价值函数，v_π(s_t)表示当前时刻状态价值函数，γ表示折扣率系数。

根据上述策略梯度函数PG进行梯度反向传播，以更新原始策略网络的网络参数如权重和梯度等，从而使得训练得到的策略网络可以根据状态选择动作集，且选择的动作集可以获得最大的状态价值。

以及，基于动作策略、训练奖励、上一时刻状态价值函数和当前时刻状态价值函数对原始价值网络的网络参数进行调整的过程如下：根据训练奖励、上一时刻状态价值函数和当前时刻状态价值函数，计算得到时序差分误差；基于时序差分误差对原始价值网络的网络参数进行调整，直至得到价值网络。具体地，根据下式计算时序差分误差：

TD-error＝R_t+γv_π(s_t)-v_π(s_t-1)

其中，R_t表示训练奖励，v_π(s_t-1)表示上一时刻状态价值函数，v_π(s_t)表示当前时刻状态价值函数，γ表示折扣率系数。

根据上述时序差分误差TD-error进行梯度反向传播，以更新原始价值网络的网络参数如权重和梯度等，从而使得训练得到的价值网络的时序差分误差TD-error最小。

进一步的，强化学习算法大多采用稀疏奖励进行训练，即大部分任务的state-action空间中，奖励信号都为0。稀疏的奖励导致算法大部分时间都在进行无效的随机探索，收敛缓慢。为解决这一问题，上述预训练过程中，还采用奖励塑性(reward shaping)和课程学习(curriculum learning)对奖励R进行设计。

具体地，奖励R取决于状态s和电流I，如设置奖励其中，表示上一时刻状态和当前时刻状态之间的几何距离，K_t＝(K_t-1)^β，t表示当前时刻，t-1表示上一时刻，K₀∈(0,1)表示K_t的初始值，β∈(0,1)为固定的调节指数，i＝1,…，n；表示机器人中上肢外骨骼的n个关节，I_i表示第i个关节的电流。

因此，奖励中包含两项，一是包括任务本身的描述(即上一时刻状态和当前时刻状态之间的距离)，同时考虑到实际系统中的机器人各个关节对于最大输出力矩和功耗都有一定的要求，因此奖励还包括功率消耗(即电流平方和)。如果一开始就强调功耗惩罚，则训练得到的控制器很可能会让机器人出于静止不动的局部极小值点处。为了克服这种情况，使用课程学习的方法(即系数K_t)，先让机器人在较小的功耗惩罚下学习到一个能够达到目标任务的策略，然后再慢慢增大功率惩罚以获得能效较高的策略。系数K_t的初始值较小，功率惩罚项的作用较小，随着时间推进，K_t不断增大，功率惩罚项的作用也越来越明显。

可选地，如图6所示的一种关节网络的结构示意图，为了简化计算，在实际应用中，关节网络采用了最简单的浅层前馈神经网络，包括：输入层、隐藏层(图中虚线部分)和输出层；其中，输入层用于输入动作集(即决策网络输出的目标动作集)，包括上肢外骨骼中每个关节对应的目标角度，输出层为输出电流指令集，即包括每个关节对应的电流指令；隐藏层由三层全连接层串联而成，各个全连接层后连接有softsign层；这里softsign层使用softsign函数作为激活函数。需要说明的是，上述根据原始关节网络训练得到关节网络，可以参考现有关节神经网络的训练过程，本发明实施例在此不再详细赘述。

需要说明的是，在实际应用中，上述策略网络和价值网络的具体结构，可以根据实际情况进行设置，本发明实施例在此不作限制说明。

综上所述，本发明实施例提供的康复机器人上部署预训练好的深度强化学习模型，并在虚拟现实环境中进行康复训练。如图7所示，康复机器人的具体工作原理如下：

(1)视觉传感器读取待训练手臂的手臂末端当前位置和虚拟现实装置生成的手臂末端目标位置一起发送给控制器，虚拟现实装置中同步更新虚拟手臂位置坐标；

(2)控制器中深度强化学习模型根据手臂末端当前位置和手臂末端目标位置输出电流指令集，并发送给上肢外骨骼；

(3)控制器根据电流指令集在上肢外骨骼上产生辅助力矩，患者的待训练手臂在上肢外骨骼的带动下移动到指定位置。

例如，对于整理衣柜的训练任务，要求患者从起始位置取得衣物并将衣物移动到衣柜中的指定位置，视觉传感器读取患者上肢的实际位置并同步更新虚拟现实装置中的虚拟手臂位置，深度强化学习模型根据手臂实际位置以及指定的目标位置计算上肢外骨骼各个关节所需电流指令，控制器根据电流指令控制上肢外骨骼带动患者的手臂移动到指定位置。与现有方式相比，通过深度强化学习模型快速得到上肢外骨骼对应的电流指令集，省略了运动规划、运动学逆解和中层控制等流程，从而极大地简化了流程，且，避免了计算过程中人为设置导致的误差，从而提高了康复训练的效率和精度；以及，在训练过程中，还结合虚拟现实场景进行训练，从而增强了康复训练的趣味性，提高了用户的训练体验度，具有较好的实用价值。

对应于上述方法实施例，本发明实施例还提供了一种康复训练装置，应用于康复机器人的控制器，其中，康复机器人还包括与控制器通信连接的上肢外骨骼；如图8所示，该装置包括：获取模块81、计算模块82和执行模块83；其中，各个模块的功能如下：

获取模块81，用于获取待训练手臂的手臂末端当前位置和手臂末端目标位置；

计算模块82，用于将手臂末端当前位置和手臂末端目标位置输入至预先训练好的深度强化学习模型，以使深度强化学习模型根据手臂末端当前位置和手臂末端目标位置输出电流指令集；其中，电流指令集包括上肢外骨骼中多个关节分别对应的电流指令；

执行模块83，用于将电流指令集发送至上肢外骨骼，以使上肢外骨骼根据电流指令集带动待训练手臂进行康复训练。

本发明实施例提供了康复训练装置，通过深度强化学习模型，可以快速获得电流指令集，与现有方式相比，简化了流程，且，避免了人为设置导致的误差，从而提高了康复训练的效率和精度，具有较好的实用价值。

在其中一种可能的实施例中，其中，深度强化学习模型包括策略网络、价值网络和关节网络，上述深度强化学习模型根据手臂末端当前位置和手臂末端目标位置输出电流指令集，包括：将手臂末端当前位置和手臂末端目标位置输入至策略网络，以使策略网络生成目标动作集；以及，将手臂末端当前位置和手臂末端目标位置输入至价值网络，以使价值网络对目标动作集进行评估；其中，目标动作集包括多个目标动作，每个目标动作用于表征上肢外骨骼中每个关节对应的目标角度；将目标动作集输入至关节网络，以使关节网络根据目标动作集输出电流指令集。

在另一种可能的实施例中，深度强化学习模型是根据神经网络训练得到，该装置还包括：获取训练样本集；其中，训练样本集包括多个训练样本，以及每个训练样本的状态，状态用于表征训练样本在环境空间的位置信息；将训练样本集输入至神经网络进行训练，以得到深度强化学习模型。

在另一种可能的实施例中，神经网络包括原始策略网络、原始价值网络和原始关节网络；上述将训练样本集输入至神经网络进行训练，包括：将训练样本的上一时刻状态输入至原始策略网络，以使原始策略网络根据上一时刻状态输出动作策略；其中，动作策略用于表征从状态到动作的选择概率之间的映射；基于动作策略中每个动作的选择概率，确定训练动作集；其中，训练动作集包括上肢外骨骼中多个关节分别对应的训练动作；将训练动作集输入至原始关节网络，以使原始关节网络根据训练动作集输出训练电流指令集；将训练电流指令集发送至上肢外骨骼，以使上肢外骨骼根据训练电流指令集执行相应的训练动作，并得到训练奖励和当前时刻状态；将上一时刻状态和当前时刻状态输入至原始价值网络，以使原始价值网络根据上一时刻状态得到上一时刻状态价值函数，以及根据当前时刻状态得到当前时刻状态价值函数；基于动作策略、训练奖励、上一时刻状态价值函数和当前时刻状态价值函数分别对原始策略网络和原始价值网络的网络参数进行调整，直至得到策略网络和价值网络。

在另一种可能的实施例中，基于动作策略、训练奖励、上一时刻状态价值函数和当前时刻状态价值函数对原始策略网络的网络参数进行调整，包括：根据动作策略、训练奖励、上一时刻状态价值函数和当前时刻状态价值函数，计算得到策略梯度函数；根据策略梯度函数对原始策略网络的网络参数进行调整，直至得到策略网络。

在另一种可能的实施例中，基于动作策略、训练奖励、上一时刻状态价值函数和当前时刻状态价值函数对原始价值网络的网络参数进行调整，包括：根据训练奖励、上一时刻状态价值函数和当前时刻状态价值函数，计算得到时序差分误差；基于时序差分误差对原始价值网络的网络参数进行调整，直至得到价值网络。

本发明实施例提供的康复训练装置，与上述实施例提供的康复训练方法具有相同的技术特征，所以也能解决相同的技术问题，达到相同的技术效果。

本发明实施例还提供一种电子设备，包括处理器和存储器，存储器存储有能够被处理器执行的机器可执行指令，处理器执行机器可执行指令以实现上述康复训练方法。

参见图9所示，该电子设备包括处理器90和存储器91，该存储器91存储有能够被处理器90执行的机器可执行指令，该处理器90执行机器可执行指令以实现上述康复训练方法。

进一步地，图9所示的电子设备还包括总线92和通信接口93，处理器90、通信接口93和存储器91通过总线92连接。

其中，存储器91可能包含高速随机存取存储器(RAM，Random Access Memory)，也可能还包括非不稳定的存储器(non-volatile memory)，例如至少一个磁盘存储器。通过至少一个通信接口93(可以是有线或者无线)实现该系统网元与至少一个其他网元之间的通信连接，可以使用互联网，广域网，本地网，城域网等。总线92可以是ISA(IndustrialStandard Architecture，工业标准结构总线)总线、PCI(Peripheral ComponentInterconnect，外设部件互连标准)总线或EISA(Enhanced Industry StandardArchitecture，扩展工业标准结构)总线等。上述总线可以分为地址总线、数据总线、控制总线等。为便于表示，图9中仅用一个双向箭头表示，但并不表示仅有一根总线或一种类型的总线。

处理器90可能是一种集成电路芯片，具有信号的处理能力。在实现过程中，上述方法的各步骤可以通过处理器90中的硬件的集成逻辑电路或者软件形式的指令完成。上述的处理器90可以是通用处理器，包括中央处理器(Central Processing Unit，简称CPU)、网络处理器(Network Processor，简称NP)等；还可以是数字信号处理器(Digital SignalProcessor，简称DSP)、专用集成电路(Application Specific Integrated Circuit，简称ASIC)、现场可编程门阵列(Field-Programmable Gate Array，简称FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。可以实现或者执行本发明实施例中的公开的各方法、步骤及逻辑框图。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。结合本发明实施例所公开的方法的步骤可以直接体现为硬件译码处理器执行完成，或者用译码处理器中的硬件及软件模块组合执行完成。软件模块可以位于随机存储器，闪存、只读存储器，可编程只读存储器或者电可擦写可编程存储器、寄存器等本领域成熟的存储介质中。该存储介质位于存储器91，处理器90读取存储器91中的信息，结合其硬件完成前述实施例的方法的步骤。

本实施例还提供一种机器可读存储介质，机器可读存储介质存储有机器可执行指令，机器可执行指令在被处理器调用和执行时，机器可执行指令促使处理器实现上述康复训练方法。

本发明实施例所提供的康复训练方法、装置和康复机器人的计算机程序产品，包括存储了程序代码的计算机可读存储介质，所述程序代码包括的指令可用于执行前面方法实施例中所述的方法，具体实现可参见方法实施例，在此不再赘述。

所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的系统和装置的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

另外，在本发明实施例的描述中，除非另有明确的规定和限定，术语“安装”、“相连”、“连接”应做广义理解，例如，可以是固定连接，也可以是可拆卸连接，或一体地连接；可以是机械连接，也可以是电连接；可以是直接相连，也可以通过中间媒介间接相连，可以是两个元件内部的连通。对于本领域的普通技术人员而言，可以具体情况理解上述术语在本发明中的具体含义。

所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个处理器可执行的非易失的计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

在本发明的描述中，需要说明的是，术语“中心”、“上”、“下”、“左”、“右”、“竖直”、“水平”、“内”、“外”等指示的方位或位置关系为基于附图所示的方位或位置关系，仅是为了便于描述本发明和简化描述，而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作，因此不能理解为对本发明的限制。此外，术语“第一”、“第二”、“第三”仅用于描述目的，而不能理解为指示或暗示相对重要性。

最后应说明的是：以上所述实施例，仅为本发明的具体实施方式，用以说明本发明的技术方案，而非对其限制，本发明的保护范围并不局限于此，尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，其依然可以对前述实施例所记载的技术方案进行修改或可轻易想到变化，或者对其中部分技术特征进行等同替换；而这些修改、变化或者替换，并不使相应技术方案的本质脱离本发明实施例技术方案的精神和范围，都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应所述以权利要求的保护范围为准。

Claims

1.一种康复机器人的控制方法，其特征在于，应用于康复机器人的控制器，其中，所述康复机器人还包括与所述控制器通信连接的上肢外骨骼；所述方法包括：

获取待训练手臂的手臂末端当前位置和手臂末端目标位置；

将所述手臂末端当前位置和所述手臂末端目标位置输入至预先训练好的深度强化学习模型，以使所述深度强化学习模型根据所述手臂末端当前位置和所述手臂末端目标位置输出电流指令集；其中，所述电流指令集包括所述上肢外骨骼中多个关节分别对应的电流指令；

所述电流指令集用于发送至所述上肢外骨骼，以使所述上肢外骨骼中每个所述关节按照对应的所述电流指令运动；

其中，所述深度强化学习模型包括策略网络、价值网络和关节网络，所述深度强化学习模型根据所述手臂末端当前位置和所述手臂末端目标位置输出电流指令集的步骤，包括：将所述手臂末端当前位置和所述手臂末端目标位置输入至所述策略网络，以使所述策略网络生成目标动作集；以及，将所述手臂末端当前位置和所述手臂末端目标位置输入至所述价值网络，以使所述价值网络对所述目标动作集进行评估；其中，所述目标动作集包括多个目标动作，每个所述目标动作用于表征所述上肢外骨骼中每个所述关节对应的目标角度；将所述目标动作集输入至所述关节网络，以使所述关节网络根据所述目标动作集输出所述电流指令集；

所述深度强化学习模型是根据神经网络训练得到，所述方法还包括：获取训练样本集；其中，所述训练样本集包括多个训练样本，以及每个所述训练样本的状态，所述状态用于表征所述训练样本在环境空间的位置信息；将所述训练样本集输入至所述神经网络进行训练，以得到所述深度强化学习模型；

所述神经网络包括原始策略网络、原始价值网络和原始关节网络；所述将所述训练样本集输入至所述神经网络进行训练的步骤，包括：

将所述训练样本的上一时刻状态输入至所述原始策略网络，以使所述原始策略网络根据所述上一时刻状态输出动作策略；其中，所述动作策略用于表征从状态到动作的选择概率之间的映射；

基于所述动作策略中每个动作的选择概率，确定训练动作集；其中，所述训练动作集包括所述上肢外骨骼中多个关节分别对应的训练动作；

将所述训练动作集输入至所述原始关节网络，以使所述原始关节网络根据所述训练动作集输出训练电流指令集；

将所述训练电流指令集发送至所述上肢外骨骼，以使所述上肢外骨骼根据所述训练电流指令集执行相应的训练动作，并得到训练奖励和当前时刻状态；

将所述上一时刻状态和所述当前时刻状态输入至所述原始价值网络，以使所述原始价值网络根据所述上一时刻状态得到上一时刻状态价值函数，以及根据所述当前时刻状态得到当前时刻状态价值函数；

基于所述动作策略、所述训练奖励、所述上一时刻状态价值函数和所述当前时刻状态价值函数分别对所述原始策略网络和所述原始价值网络的网络参数进行调整，直至得到所述策略网络和所述价值网络；

其中，根据所述动作策略、所述训练奖励、所述上一时刻状态价值函数和所述当前时刻状态价值函数，计算得到策略梯度函数；根据所述策略梯度函数对所述原始策略网络的网络参数进行调整，直至得到所述策略网络；其中，根据下式计算所述策略梯度函数：，表示所述动作策略，表示所述训练奖励，表示所述上一时刻状态价值函数，表示所述当前时刻状态价值函数，表示折扣率系数；

根据所述训练奖励、所述上一时刻状态价值函数和所述当前时刻状态价值函数，计算得到时序差分误差；基于所述时序差分误差对所述原始价值网络的网络参数进行调整，直至得到所述价值网络；其中，根据下式计算所述时序差分误差：，表示所述训练奖励，表示所述上一时刻状态价值函数，表示所述当前时刻状态价值函数，表示所述折扣率系数。

2.一种康复训练装置，其特征在于，应用于康复机器人的控制器，其中，所述康复机器人还包括与所述控制器通信连接的上肢外骨骼；所述装置包括：

获取模块，用于获取待训练手臂的手臂末端当前位置和手臂末端目标位置；

计算模块，用于将所述手臂末端当前位置和所述手臂末端目标位置输入至预先训练好的深度强化学习模型，以使所述深度强化学习模型根据所述手臂末端当前位置和所述手臂末端目标位置输出电流指令集；其中，所述电流指令集包括所述上肢外骨骼中多个关节分别对应的电流指令；

执行模块，用于将所述电流指令集发送至所述上肢外骨骼，并控制所述上肢外骨骼中每个所述关节按照对应的所述电流指令运动；

其中，所述深度强化学习模型包括策略网络、价值网络和关节网络，所述深度强化学习模型根据所述手臂末端当前位置和所述手臂末端目标位置输出电流指令集，包括：将所述手臂末端当前位置和所述手臂末端目标位置输入至所述策略网络，以使所述策略网络生成目标动作集；以及，将所述手臂末端当前位置和所述手臂末端目标位置输入至所述价值网络，以使所述价值网络对所述目标动作集进行评估；其中，所述目标动作集包括多个目标动作，每个所述目标动作用于表征所述上肢外骨骼中每个所述关节对应的目标角度；将所述目标动作集输入至所述关节网络，以使所述关节网络根据所述目标动作集输出所述电流指令集；

所述深度强化学习模型是根据神经网络训练得到，所述装置还包括：获取训练样本集；其中，所述训练样本集包括多个训练样本，以及每个所述训练样本的状态，所述状态用于表征所述训练样本在环境空间的位置信息；将所述训练样本集输入至所述神经网络进行训练，以得到所述深度强化学习模型；

所述神经网络包括原始策略网络、原始价值网络和原始关节网络；所述将所述训练样本集输入至所述神经网络进行训练，包括：

3.一种康复机器人，其特征在于，包括控制器，以及与所述控制器通信连接的上肢外骨骼；其中，所述控制器用于实现上述权利要求1所述的康复机器人的控制方法的步骤。

4.根据权利要求3所述的康复机器人，其特征在于，所述上肢外骨骼还配置有关节自由度；其中，所述关节自由度包括以下至少之一：肩关节外摆／内收自由度、前屈／后伸自由度、旋内／旋外自由度、肘关节屈曲／伸展自由度、前臂旋前／旋后自由度、腕关节背屈／掌屈，以及尺曲/桡曲自由度。

5.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质上存储有计算机程序，所述计算机程序被处理器运行时执行上述权利要求1所述的康复机器人的控制方法的步骤。