CN114872040B

CN114872040B - 基于小脑预测与修正的肌肉骨骼机器人控制方法及装置

Info

Publication number: CN114872040B
Application number: CN202210418991.XA
Authority: CN
Inventors: 张金涵; 陈嘉浩; 吴伟; 乔红
Original assignee: Institute of Automation of Chinese Academy of Science
Current assignee: Institute of Automation of Chinese Academy of Science
Priority date: 2022-04-20
Filing date: 2022-04-20
Publication date: 2024-04-16
Anticipated expiration: 2042-04-20
Also published as: CN114872040A

Abstract

本发明提供一种基于小脑预测与修正的肌肉骨骼机器人控制方法及装置，所述方法包括：基于循环神经网络，得到肌肉骨骼机器人的输入信号对应的初始控制信号；基于小脑预测网络，对初始控制信号进行位置预测，得到初始控制信号对应的预测位置；基于小脑修正网络，根据预测位置、运动预测误差及初始控制信号确定初始控制信号对应的修正信号；基于初始控制信号以及修正信号，确定肌肉骨骼机器人的控制信号，并基于控制信号控制肌肉骨骼机器人移动至目标位置。本发明能够准确控制肌肉骨骼机器人到达目标位置。

Description

基于小脑预测与修正的肌肉骨骼机器人控制方法及装置

技术领域

本发明涉及机器人控制技术领域，尤其涉及一种基于小脑预测与修正的肌肉骨骼机器人控制方法及装置。

背景技术

肌肉骨骼机器人包括肌肉、骨骼、关节等模块，它使用肌肉模块作为动力源，模拟生物肌肉收缩与舒张的特性来驱动关节和连杆。肌肉骨骼机器人能够进行柔顺操作，实现灵活自由的运动，并且具有较高的可靠性。

然而，多肌肉的高度冗余、肌肉与关节之间的高度耦合、肌肉骨骼系统动力学的高度非线性，给肌肉骨骼机器人的控制增加了难度。目前，多通过小脑模型关节控制器对肌肉骨骼机器人进行控制，但是它只模拟了小脑颗粒层的结构，无法准确控制肌肉骨骼机器人准确到达目标位置。

发明内容

本发明提供一种基于小脑预测与修正的肌肉骨骼机器人控制方法及装置，用以解决现有技术中肌肉骨骼机器人控制精度较低的缺陷。

本发明提供一种基于小脑预测与修正的肌肉骨骼机器人控制方法，包括：

基于循环神经网络，得到肌肉骨骼机器人的输入信号对应的初始控制信号；

基于小脑预测网络，对所述初始控制信号进行位置预测，得到所述初始控制信号对应的预测位置；

基于小脑修正网络，根据所述预测位置、运动预测误差及所述初始控制信号确定所述初始控制信号对应的修正信号；

基于所述初始控制信号以及所述修正信号，确定所述肌肉骨骼机器人的控制信号，并基于所述控制信号控制所述肌肉骨骼机器人移动至目标位置；

所述循环神经网络基于样本输入信号、样本初始控制信号以及所述样本初始控制信号对应的奖励值训练得到，所述奖励值基于所述样本初始控制信号对应的样本实际位置与对应的样本目标位置之间的误差确定；所述小脑预测网络基于所述样本初始控制信号以及所述样本初始控制信号对应的样本实际位置训练得到；所述小脑修正网络基于所述样本初始控制信号对应的样本控制信号、所述样本控制信号对应的样本实际位置以及所述奖励值训练得到。

根据本发明提供的一种基于小脑预测与修正的肌肉骨骼机器人控制方法，所述初始控制信号基于如下公式确定：

其中，表示所述初始控制信号，z⁰表示所述输入信号，r_t ^r表示所述循环神经网络的隐含层神经元的膜电位，/>表示所述循环神经网络的隐含层神经元的放电率，U^r、W^r、V^r以及b^r分别表示所述循环神经网络的输入权重、循环权重、输出权重以及偏置，α^r表示所述循环神经网络的神经元泄漏率，取值范围为(0,1]。

根据本发明提供的一种基于小脑预测与修正的肌肉骨骼机器人控制方法，所述初始控制信号对应的预测位置基于如下公式确定：

其中，z^e表示所述初始控制信号对应的预测位置，表示第T个时间步所述小脑预测网络的隐含层神经元的放电率，r_t ^e表示第t个时间步所述小脑预测网络的隐含层神经元的放电率，/>表示第t-1个时间步所述小脑预测网络的隐含层神经元的放电率，t≤T；/>表示所述初始控制信号，/>表示所述小脑预测网络的隐含层神经元的膜电位，U^e、W^e、V^e以及b^e分别表示所述小脑预测网络的输入权重、循环权重、输出权重以及偏置，α^e表示所述小脑预测网络的神经元泄漏率，取值范围为(0,1]。

根据本发明提供的一种基于小脑预测与修正的肌肉骨骼机器人控制方法，所述小脑预测网络的循环权重基于如下公式确定：

其中，ρ⁰表示期望谱半径，表示初始化循环权重矩阵，/>表示具有单位谱半径的矩阵；

所述小脑预测网络的输出权重基于如下公式确定：

其中，N_ve表示所述小脑预测网络输出的维度，表示/>的第i个元素，/>表示z^e的第i个元素，β表示岭参数，V_i ^e表示V^e的第i行。

根据本发明提供的一种基于小脑预测与修正的肌肉骨骼机器人控制方法，所述根据所述预测位置、运动预测误差及所述初始控制信号确定所述初始控制信号对应的修正信号，包括：

基于所述目标位置以及所述运动预测误差，确定修正时长；所述运动预测误差指所述预测位置与所述目标位置之差；

在所述修正时长内，基于所述预测位置、所述运动预测误差以及所述初始控制信号，确定所述修正信号。

根据本发明提供的一种基于小脑预测与修正的肌肉骨骼机器人控制方法，所述修正时长基于如下公式确定：

其中，t_tot表示所述修正时长，t_base表示弹道运动阶段的基本时长，t_dynamic表示弹道运动阶段的动态时长，表示所述预测位置与所述目标位置之差，δ表示运动期望精度，η₁表示运动难度指标的因子，η₂表示运动精度指标的因子，D表示运动距离。

根据本发明提供的一种基于小脑预测与修正的肌肉骨骼机器人控制方法，所述确定所述肌肉骨骼机器人的控制信号，之后还包括：

基于所述肌肉骨骼机器人的控制信号以及所述实际位置，更新所述小脑预测网络。

根据本发明提供的一种基于小脑预测与修正的肌肉骨骼机器人控制方法，所述小脑修正网络的超参数基于如下公式更新：

其中，α_n，ltp_n以及ltd_n表示所述小脑修正网络的超参数，c_α，c_p以及c_d分别表示α_n，ltp_n以及ltd_n的初始化值，x_n表示小脑修正网络神经元的放电率，表示所述肌肉骨骼机器人的控制信号，/>表示所述初始控制信号。

本发明还提供一种基于小脑预测与修正的肌肉骨骼机器人控制装置，包括：

初始信号确定单元，用于基于循环神经网络，得到肌肉骨骼机器人的输入信号对应的初始控制信号；

预测位置确定单元，用于基于小脑预测网络，对所述初始控制信号进行位置预测，得到所述初始控制信号对应的预测位置；

控制信号确定单元，用于基于小脑修正网络，根据所述预测位置、运动预测误差及所述初始控制信号确定所述初始控制信号对应的修正信号；

运动控制单元，基于所述初始控制信号以及所述修正信号，确定所述肌肉骨骼机器人的控制信号，并基于所述控制信号控制所述肌肉骨骼机器人移动至目标位置；

所述循环神经网络基于样本输入信号、样本初始控制信号以及所述样本初始控制信号对应的奖励值训练得到，所述奖励值基于所述样本初始控制信号对应的样本实际位置与对应的样本目标位置之间的误差确定；所述小脑预测网络基于所述样本初始控制信号以及所述样本初始控制信号对应的样本实际位置训练得到；所述小脑修正网络基于所述样本初始控制信号对应的样本控制信号、所述样本控制信号对应的样本实际位置以及所述样本控制信号对应的奖励值训练得到，奖励值是控制信号对应的实际位置与对应的目标位置之间的误差。

本发明还提供一种肌肉骨骼机器人，包括：如上所述的肌肉骨骼机器人控制装置。

本发明还提供一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现如上述任一种所述肌肉骨骼机器人控制方法。

本发明还提供一种非暂态计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现如上述任一种所述肌肉骨骼机器人控制方法。

本发明还提供一种计算机程序产品，包括计算机程序，所述计算机程序被处理器执行时实现如上述任一种所述肌肉骨骼机器人控制方法。

本发明提供的基于小脑预测与修正的肌肉骨骼机器人控制方法及装置，基于小脑预测网络，对初始控制信号进行位置预测，得到初始控制信号对应的预测位置，从而可以基于小脑修正网络，对初始控制信号进行修正信号，进而使得得到的控制信号能够准确控制肌肉骨骼机器人到达目标位置。

附图说明

为了更清楚地说明本发明或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本发明提供的基于小脑预测与修正的肌肉骨骼机器人控制方法的流程示意图；

图2是本发明提供的基于小脑预测与修正的肌肉骨骼机器人控制装置的结构示意图；

图3是本发明提供的电子设备的结构示意图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚，下面将结合本发明中的附图，对本发明中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

目前，多通过小脑模型关节控制器对肌肉骨骼机器人进行控制，但是它只模拟了小脑颗粒层的结构，没有借鉴整个小脑通路去增强控制器的功能，并且它本质上是一种非线性查表系统，能够处理的大都是映射和分类的任务，无法准确控制肌肉骨骼机器人准确到达目标位置。

对此，本发明提供一种基于小脑预测与修正的肌肉骨骼机器人控制方法。图1是本发明提供的基于小脑预测与修正的肌肉骨骼机器人控制方法的流程示意图，如图1所示，该方法包括如下步骤：

步骤110、基于循环神经网络，得到肌肉骨骼机器人的输入信号对应的初始控制信号；循环神经网络基于样本输入信号、样本初始控制信号以及样本初始控制信号对应的奖励值训练得到，奖励值基于样本初始控制信号对应的样本实际位置与对应的样本目标位置之间的误差确定。

此处，输入信号可以理解为肌肉骨骼机器人的目标位置，初始控制信号指用于控制肌肉骨骼机器人运动的信号，即可以理解为肌肉骨骼机器人的原始肌肉信号，以控制肌肉骨骼机器人移动至目标位置。本发明实施例使用循环神经网络模拟大脑皮层将肌肉骨骼机器人的输入信号输入至循环神经网络，由循环神经网络得到初始控制信号。其中，循环神经网络样本输入信号、样本初始控制信号以及样本初始控制信号对应的奖励值训练得到，奖励值基于样本初始控制信号对应的样本实际位置与对应的样本目标位置之间的误差确定。

步骤120、基于小脑预测网络，对初始控制信号进行位置预测，得到初始控制信号对应的预测位置。小脑预测网络基于样本初始控制信号以及样本初始控制信号对应的样本实际位置训练得到。

具体地，小脑预测网络用于根据循环神经网络输出的初始控制信号进行位置预测，以确定肌肉骨骼机器人在初始控制信号的作用下的预测位置。

需要说明的是，循环神经网络输出的初始控制信号可能无法保证肌肉骨骼机器人精确到达目标位置，即肌肉骨骼机器人所到达的实际位置可能与目标位置存在偏差。

步骤130、基于小脑修正网络，根据预测位置、运动预测误差及初始控制信号确定初始控制信号对应的修正信号。小脑修正网络基于样本初始控制信号对应的样本控制信号、样本控制信号对应的样本实际位置以及所述样本控制信号对应的奖励值训练得到，奖励值是控制信号对应的实际位置与对应的目标位置之间的误差。

步骤140、基于初始控制信号以及修正信号，确定肌肉骨骼机器人的控制信号，并基于控制信号控制肌肉骨骼机器人移动至目标位置。

具体地，考虑到肌肉骨骼机器人所能到达实际位置与目标位置存在偏差，本发明实施例可以基于目标位置以及预测位置确定运动预测误差，小脑修正网络根据预测位置、运动预测误差、初始控制信号来确定修正信号，并将初始控制信号与修正信号叠加得到最终的控制信号，能够控制肌肉骨骼机器人准确到达目标位置。

需要说明的是，小脑预测网络可以与小脑修正网络级联，得到运动控制模型，将此运动控制模型应用于肌肉骨骼机器人系统，有效提高肌肉骨骼机器人的运动精度，并且增强了机器人的运动泛化能力与系统鲁棒性。

本发明实施例提供的基于小脑预测与修正的肌肉骨骼机器人控制方法，基于小脑预测网络，对初始控制信号进行位置预测，得到初始控制信号对应的预测位置，从而可以基于小脑修正网络，对初始控制信号进行修正信号，进而使得得到的控制信号能够准确控制肌肉骨骼机器人到达目标位置。

基于上述实施例，肌肉骨骼机器人运动过程每个回合有T个时间步，在第t个时间步时对应的初始控制信号基于如下公式确定：

其中，表示初始控制信号，z⁰表示输入信号，r_t ^r表示循环神经网络的隐含层神经元的膜电位，/>表示循环神经网络的隐含层神经元的放电率，U^r、W^r、V^r以及b^r分别表示循环神经网络的输入权重、循环权重、输出权重以及偏置，α^r表示循环神经网络的神经元泄漏率，取值范围为(0,1]。

此外，在循环神经网络的隐含层添加随机噪声扰动，能够提高循环神经网络学习的探索能力，具体隐含层模型表示如下：

其中，ζ_t～N(0,σ²I)是在t时刻添加到神经元的噪声扰动信号，σ²是扰动方差，I是单位矩阵。

每个回合结束之后，循环神经网络使用强化算法更新网络权重，具体如下：

其中，η是学习率，R是每个回合结束后用于评价网络性能的奖励值，是预测的网络奖励。/>的计算方法是/>其中α_R∈(0,1]是一常数。f可以是任意超线性函数，这里使用符号平方函数f(x)＝x|x|。

为了使循环神经网络的所有神经元放电率(即集群响应)具有一致性，令集群响应的变化率收敛到0，因此W^r应满足此时‖W^r‖_F不能过大。其中，ρ(·)表示矩阵的谱半径，/>表示W^r中所有元素取绝对值，||·||_F表示矩阵的Frobenius范数，为了增强网络的表征能力，可以适当增大b^r。同时，每个回合后ΔW^r可以被限制在一个小邻域内变化，使得循环神经网络保持期望的集群响应特性，其中ΔW^r计算如下：

其中，Ω为常数且Ω＞0。

此外，为了提高循环神经网络学习的收敛速率，在每个回合后使用奖励熵Φ更新循环神经网络的超参数：

其中，χ_n表示网络超参数η、α_R、σ²在第n个回合的值，χ_init表示网络超参数η、α_R、σ²的初始值，Φ_n表示第n个回合的奖励熵，τ表示常数。

在训练完成循环神经网络后，固定循环神经网络的权重，用于基于输入信号得到初始控制信号。

基于上述任一实施例，小脑预测网络能够预测肌肉骨骼机器人在已有初始控制信号的作用下将会产生的运动结果，即预测位置。小脑颗粒层是小脑处理时空信息的第一阶段，能够编码并整合输入信号。借鉴小脑颗粒层的储备池计算机制，使用回声状态网络建立小脑预测网络。与循环神经网络类似，每个回合中回声状态网络有T个时间步。初始控制信号对应的预测位置基于如下公式确定：

其中，z^e表示初始控制信号对应的预测位置，表示第T个时间步小脑预测网络的隐含层神经元的放电率，r_t ^e表示第t个时间步小脑预测网络的隐含层神经元的放电率，/>表示第t-1个时间步小脑预测网络的隐含层神经元的放电率，t≤T；/>表示初始控制信号，表示小脑预测网络的隐含层神经元的膜电位，U^e、W^e、V^e以及b^e分别表示小脑预测网络的输入权重、循环权重、输出权重以及偏置，α^e表示小脑预测网络的神经元泄漏率，取值范围为(0,1]。

基于上述任一实施例，小脑预测网络的隐含层也被称为储备池。搭建小脑预测网络的关键超参数是储备池连接矩阵W^e(即循环权重)的谱半径ρ(W^e)。谱半径决定了输入信号在储备池中的衰减程度。一般而言，如果当前输出更多地取决于最近历史的输入，谱半径通常取较小的值；如果当前输出需要更长的历史输入，谱半径通常取较大的值。但如果储备池的谱半径过大，可能会导致储备池的状态存在多个固定点、产生周期性甚至混沌性。大多数情况下，令ρ(W^e)＜1是较好的选择。设计具有期望谱半径ρ⁰的储备池权重矩阵W^e的方法如下：随机初始化产生一个循环权重矩阵计算出其谱半径/>则小脑预测网络的循环权重基于如下公式确定：

U^e、W^e和b^e在小脑预测网络初始化阶段随机生成后固定不变，训练阶段只需要更新V^e。由于网络状态和输出z^e是线性关系，为了使网络的实际输出z^e逼近期望输出/>使用岭回归方法求解最优输出权重V^e，具体计算公式如下：

其中，N_ve表示小脑预测网络输出的维度，表示/>的第i个元素，/>表示z^e的第i个元素，β表示岭参数，V_i ^e表示V^e的第i行，||·||₂是矩阵的欧几里得范数。求解上述最小化问题，结果如下：

此外，小脑预测网络原始的训练集可表示如下：

其中，u^r和z^r分别是循环神经网络产生的初始控制信号及其控制肌肉骨骼机器人所到达的实际位置，下标(i)表示第i组数据。

基于上述任一实施例，根据预测位置、运动预测误差及初始控制信号确定初始控制信号对应的修正信号，包括：

基于目标位置以及运动预测误差，确定修正时长；运动预测误差指预测位置与目标位置之差；

在修正时长内，基于预测位置、运动预测误差以及初始控制信号，确定修正信号。

具体地，小脑修正网络受小脑神经通路启发而构建。该网络主要由三条通路组成：平行纤维(PF)→浦肯野细胞(PC)→小脑深部核团(DCN)，苔藓纤维(MF)→小脑深部核团(DCN)，下橄榄核(IO)→小脑深部核团(DCN)。网络表示如下：

x^PC＝W^PF-PC*x^PF

x^PC-DCN＝W^PC-DCN*x^PC

x^MF-DCN＝W^MF-DCN*x^MF

x^IO-DCN＝W^IO-DCN*x^IO

x^DCN＝Δu^c＝h[-h(∑_jx^PC-DCN,j)+h(∑_jx^MF-DCN,j)+h(∑_jx^IO-DCN,j)]

其中，x^PF、x^PC、x^MF、x^IO分别是PF、PC、MF、IO的放电率，分别代表了预测位置、编码的预测位置、当前控制指令、预测位置误差，W^PF-PC、W^PC-DCN、W^MF-DCN、W^IO-DCN分别是神经通路PF→PC、PC→DCN、MF→DCN、IO→DCN的连接权重，j表示位置坐标中的第j轴，符号*表示矩阵对应元素相乘。其中，PC→DCN通路是抑制性连接，这种连接方式一方面是模拟小脑中浦肯野细胞到深部核团的抑制性连接机制，另一方面防止了DCN的输入信号过饱和。

小脑修正网络借鉴小脑在肢体弹道运动阶段的调节作用，基于目标位置以及预测运动误差，确定每个回合的修正时长，然后在修正时长内，基于预测位置、运动预测误差以及初始控制信号，确定修正信号，从而可以基于修正信号对初始控制信号进行修正，得到控制信号。其中，控制信号基于如下公式确定：

u^tot＝u^r+Δu^c

式中，u^tot表示控制信号，u^r表示初始控制信号，Δu^c表示修正信号。

基于上述任一实施例，修正时长基于如下公式确定：

其中，t_tot表示修正时长，t_base表示弹道运动阶段的基本时长，t_dynamic表示弹道运动阶段的动态时长，表示预测位置与目标位置之差，δ表示运动期望精度，η₁表示运动难度指标的因子，η₂表示运动精度指标的因子，D表示运动距离，/>是向上取整函数。ID_max＝log₂(2D_max/δ)，其中D_max为肌肉骨骼机器人能够到达的最远距离。

基于上述任一实施例，确定肌肉骨骼机器人的控制信号，之后还包括：

基于肌肉骨骼机器人的控制信号以及实际位置，更新小脑预测网络。

具体地，经过小脑修正网络调控后得到的控制信号，其数据分布形式与循环神经网络产生的初始控制信号差别较大，此时初始的小脑预测网络预测结果误差较大，需要继续训练更新小脑预测网络。

小脑网络修正后的数据集表示如下：

其中，u^tot和z分别是控制信号及其控制肌肉骨骼机器人所到达的实际位置。每一个回合训练结束之后，S_T都会增添一组新的数据对。

因此，可以使用修正数据集S_T更新小脑预测网络，同时还保证不遗忘原始数据集S_R的知识，使用持续学习理论中的重放方法，从S_R和S_T中抽取部分数据组成新的训练集：

S＝Choice(S_R,γ_R％)∪Choice(S_T,γ_T％)

其中，Choice(S,γ％)表示从集合S中选取比例为γ％的元素组成的集合。可选地，为了最大程度上利用原有知识，Choice(S_R,γ_R％)将特意选取一些典型运动位置所对应的数据；同时，γ_T％＞γ_R％，保证了网络学习新知识的能力。

基于上述任一实施例，小脑修正网络权重更新方式模拟小脑突触可塑性中的长时程增强(LTP)和长时程抑制(LTD)规则，这种学习规则参与了运动学习与记忆的过程。网络权重更新规则如下：

其中，LTP_max和LTD_max分别是LTP和LTD的最大值，α是LTP的衰减因子，上标PF-PC、PC-DCN、MF-DCN、IO-DCN表示了变量对应的神经通路，ε＝(z-z⁰)/D_max是机器人实际位置与目标位置的归一化误差，i表示第i条肌肉，j表示位置坐标中的第j轴，T_c表示小脑网络最后一个修正时刻。在IO→DCN通路中，没有明显的LTP和LTD现象，借鉴小脑突触可塑性思想，使用调制项MTP和MTD构造

为了更好地分析上述权重更新公式，可以抽象如下：

其中，ω、x、α、ltp、ltd分别是ΔW^loop、x^loop(或ε)、α^loop、(或/>)、(或/>)的简化。对ω(x,α,ltp,ltd)具体分析如下。

ω对x求偏导数如下：

显然，对于所有的x∈[0,1]，因此ω是关于x的减函数。当x较小时，ltp项是表达式的主导项，此时ω的最大值趋近于ltp；反之，当x较大时，ltd项占主导，此时ω的最小值趋近于ltd。因此，权重更新公式能够反映出LTP和LTD过程。同时也表明，ltp和ltd决定了ω的上下界。

ω对α求偏导数如下：

显然，对于所有的α＞0，因此ω是关于α的减函数。当ltp和ltd固定时，α决定了ω(x)的斜率与零点的大小。为了使LTP和LTD作用更明显，α应取较大的值，但α不能太大，否则(x+1)^α易趋近于无穷。因此应当选择大小适中的α值。

进一步地，为了加快学习效率，并增强LTP和LTD作用，第n个回合之后小脑修正网络的超参数基于如下公式更新：

其中，α_n，ltp_n以及ltd_n表示小脑修正网络的超参数，c_α，c_p以及c_d分别表示α_n，ltp_n以及ltd_n的初始化值，x_n表示小脑修正网络神经元的放电率，表示肌肉骨骼机器人的控制信号，/>表示初始控制信号，x₀是ω(x)的零点。sgn(·)是符号函数。当α较小时，ω能够较均匀地随x变化，不会产生急剧的增大或减小，因此令α＝1，此时x₀可计算为：

在α_n的计算公式中，当x_n较小时，α_n较小，则ω_n也就较大，能够起到较强的LTP作用，反之能够起到较强的LTD作用。在ltp_n和ltd_n的计算公式中，当时，说明曾经发生过LTP现象使得控制信号增强，则进一步增大ltp从而增强LTP作用，同时进一步减小ltd从而减弱LTD作用；反之，当/>时，则增强LTD作用而减弱LTP作用。通过这些超参数更新过程，能够有效提高小脑修正网络的学习效率。此外，/>和不能直接抽象成ω(x,α,ltp,ltd)的形式，但是它们的分析过程类似，同时也采用上述超参数更新规则。

下面对本发明提供的肌肉骨骼机器人控制装置进行描述，下文描述的肌肉骨骼机器人控制装置与上文描述的肌肉骨骼机器人控制方法可相互对应参照。

基于上述任一实施例，本发明还提供一种基于小脑预测与修正的肌肉骨骼机器人控制装置，如图2所示，该装置包括：

运动控制单元，基于所述初始控制信号以及所述修正信号，确定所述肌肉骨骼机器人的控制信号，用于基于所述控制信号控制所述肌肉骨骼机器人移动至目标位置；

基于上述任一实施例，本发明还提供一种肌肉骨骼机器人，包括：如上所述的基于小脑预测与修正的肌肉骨骼机器人控制装置。基于小脑预测网络，对初始控制信号进行位置预测，得到初始控制信号对应的预测位置，从而可以基于小脑修正网络，对初始控制信号进行修正信号，进而使得得到的控制信号能够准确控制肌肉骨骼机器人到达目标位置。

图3是本发明提供的电子设备的结构示意图，如图3所示，该电子设备可以包括：处理器(processor)310、存储器(memory)320、通信接口(Communications Interface)330和通信总线340，其中，处理器310，存储器320，通信接口330通过通信总线340完成相互间的通信。处理器310可以调用存储器320中的逻辑指令，以执行基于小脑预测与修正的肌肉骨骼机器人控制方法，该方法包括：基于循环神经网络，得到肌肉骨骼机器人的输入信号对应的初始控制信号；基于小脑预测网络，对所述初始控制信号进行位置预测，得到所述初始控制信号对应的预测位置；基于小脑修正网络，根据所述预测位置、运动预测误差及所述初始控制信号确定所述初始控制信号对应的修正信号；基于所述初始控制信号以及所述修正信号，确定所述肌肉骨骼机器人的控制信号，并基于所述控制信号控制所述肌肉骨骼机器人移动至所述目标位置；所述循环神经网络基于样本输入信号、样本初始控制信号以及所述样本初始控制信号对应的奖励值训练得到，所述奖励值基于所述样本初始控制信号对应的样本实际位置与对应的样本目标位置之间的误差确定；所述小脑预测网络基于所述样本初始控制信号以及所述样本初始控制信号对应的样本实际位置训练得到；所述小脑修正网络基于所述样本初始控制信号对应的样本控制信号、所述样本控制信号对应的样本实际位置以及所述奖励值训练得到。

此外，上述的存储器320中的逻辑指令可以通过软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

另一方面，本发明还提供一种计算机程序产品，所述计算机程序产品包括存储在非暂态计算机可读存储介质上的计算机程序，所述计算机程序包括程序指令，当所述程序指令被计算机执行时，计算机能够执行上述各方法所提供的基于小脑预测与修正的肌肉骨骼机器人控制方法，该方法包括：基于循环神经网络，得到肌肉骨骼机器人的输入信号对应的初始控制信号；基于小脑预测网络，对所述初始控制信号进行位置预测，得到所述初始控制信号对应的预测位置；基于小脑修正网络，根据所述预测位置、运动预测误差及所述初始控制信号确定所述初始控制信号对应的修正信号；基于所述初始控制信号以及所述修正信号，确定所述肌肉骨骼机器人的控制信号，并基于所述控制信号控制所述肌肉骨骼机器人移动至所述目标位置；所述循环神经网络基于样本输入信号、样本初始控制信号以及所述样本初始控制信号对应的奖励值训练得到，所述奖励值基于所述样本初始控制信号对应的样本实际位置与对应的样本目标位置之间的误差确定；所述小脑预测网络基于所述样本初始控制信号以及所述样本初始控制信号对应的样本实际位置训练得到；所述小脑修正网络基于所述样本初始控制信号对应的样本控制信号、所述样本控制信号对应的样本实际位置以及所述奖励值训练得到。

又一方面，本发明还提供一种非暂态计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现以执行上述各提供的基于小脑预测与修正的肌肉骨骼机器人控制方法，该方法包括：基于循环神经网络，得到肌肉骨骼机器人的输入信号对应的初始控制信号；基于小脑预测网络，对所述初始控制信号进行位置预测，得到所述初始控制信号对应的预测位置；基于小脑修正网络，根据所述预测位置、运动预测误差及所述初始控制信号确定所述初始控制信号对应的修正信号；基于所述初始控制信号以及所述修正信号，确定所述肌肉骨骼机器人的控制信号，并基于所述控制信号控制所述肌肉骨骼机器人移动至所述目标位置；所述循环神经网络基于样本输入信号、样本初始控制信号以及所述样本初始控制信号对应的奖励值训练得到，所述奖励值基于所述样本初始控制信号对应的样本实际位置与对应的样本目标位置之间的误差确定；所述小脑预测网络基于所述样本初始控制信号以及所述样本初始控制信号对应的样本实际位置训练得到；所述小脑修正网络基于所述样本初始控制信号对应的样本控制信号、所述样本控制信号对应的样本实际位置以及所述奖励值训练得到。

以上所描述的装置实施例仅仅是示意性的，其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下，即可以理解并实施。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件。基于这样的理解，上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在计算机可读存储介质中，如ROM/RAM、磁碟、光盘等，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。

最后应说明的是：以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims

1.一种基于小脑预测与修正的肌肉骨骼机器人控制方法，其特征在于，包括：

基于小脑修正网络，根据所述预测位置、运动预测误差及所述初始控制信号确定所述初始控制信号对应的修正信号；所述运动预测误差指所述预测位置与所述目标位置之差；

将所述初始控制信号与所述修正信号叠加得到所述肌肉骨骼机器人的控制信号，并基于所述控制信号控制所述肌肉骨骼机器人移动至目标位置；

2.根据权利要求1所述的基于小脑预测与修正的肌肉骨骼机器人控制方法，其特征在于，所述初始控制信号基于如下公式确定：

3.根据权利要求1所述的基于小脑预测与修正的肌肉骨骼机器人控制方法，其特征在于，所述初始控制信号对应的预测位置基于如下公式确定：

4.根据权利要求3所述的基于小脑预测与修正的肌肉骨骼机器人控制方法，其特征在于，所述小脑预测网络的循环权重基于如下公式确定：

所述小脑预测网络的输出权重基于如下公式确定：

5.根据权利要求1所述的基于小脑预测与修正的肌肉骨骼机器人控制方法，其特征在于，所述根据所述预测位置、运动预测误差及所述初始控制信号确定所述初始控制信号对应的修正信号，包括：

6.根据权利要求5所述的基于小脑预测与修正的肌肉骨骼机器人控制方法，其特征在于，所述修正时长基于如下公式确定：

7.根据权利要求1至6任一项所述的基于小脑预测与修正的肌肉骨骼机器人控制方法，其特征在于，所述确定所述肌肉骨骼机器人的控制信号，之后还包括：

8.根据权利要求1至6任一项所述的基于小脑预测与修正的肌肉骨骼机器人控制方法，其特征在于，所述小脑修正网络的超参数基于如下公式更新：

9.一种基于小脑预测与修正的肌肉骨骼机器人控制装置，其特征在于，包括：

控制信号确定单元，用于基于小脑修正网络，根据所述预测位置、运动预测误差及所述初始控制信号确定所述初始控制信号对应的修正信号；所述运动预测误差指所述预测位置与所述目标位置之差；

运动控制单元，将所述初始控制信号与所述修正信号叠加得到所述肌肉骨骼机器人的控制信号，并基于所述控制信号控制所述肌肉骨骼机器人移动至目标位置；

10.一种电子设备，包括存储器、处理器及存储在所述存储器上并在所述处理器上运行的计算机程序，其特征在于，所述处理器执行所述计算机程序时实现如权利要求1至8任一项所述基于小脑预测与修正的肌肉骨骼机器人控制方法。