CN114872042A

CN114872042A - 基于临界状态循环网络的肌肉骨骼机器人控制方法及装置

Info

Publication number: CN114872042A
Application number: CN202210476308.8A
Authority: CN
Inventors: 陈嘉浩; 王萧娜; 乔红
Original assignee: Institute of Automation of Chinese Academy of Science
Current assignee: Institute of Automation of Chinese Academy of Science
Priority date: 2022-04-29
Filing date: 2022-04-29
Publication date: 2022-08-09

Abstract

本发明提供一种基于临界状态循环网络的肌肉骨骼机器人控制方法及装置，方法包括：基于循环网络，得到输入信号对应的控制信号，并基于控制信号控制肌肉骨骼机器人移动至目标位置；循环网络训练步骤包括：基于临界状态权重条件，对初始模型的循环权重和偏置向量进行调整，得到临界网络；将终点时刻的样本目标位置、作为样本反馈信号的样本位置误差以及当前时刻的样本实际位置输入至临界网络，得到样本控制信号；基于样本控制信号对应的样本实际位置、样本控制信号对应的样本目标位置以及循环网络的谱半径，确定样本奖励信号；基于样本奖励信号，更新临界网络的权重，得到循环网络。本发明能够精确控制肌肉骨骼机器人运动至目标位置。

Description

基于临界状态循环网络的肌肉骨骼机器人控制方法及装置

技术领域

本发明涉及机器人控制技术领域，尤其涉及一种基于临界状态循环网络的肌肉骨骼机器人控制方法及装置。

背景技术

与传统的关节连杆机器人相比，仿生肌肉骨骼式机器人具有柔顺性、灵活性、鲁棒性和安全性等优点。然而，肌肉骨骼机器人的复杂结构也给控制带来了许多挑战和困难。具体来说，肌肉骨骼机器人的肌肉数目多于关节自由度，具有强冗余性，这使得肌肉控制信号具有庞大的解空间。此外，肌肉之间的强耦合性使得无法控制单个肌肉。复杂的肌肉模块和关节的强非线性使得难以建立肌肉骨骼机器人的精确模型。

目前，肌肉骨骼机器人的控制方法主要分为基于模型的方法和无模型的方法。在基于模型的方法中，需要建立肌肉骨骼机器人的任务空间、关节空间和肌肉空间之间关系的显式数学模型。其中，基于建立的模型设计了任务空间反馈控制器、迭代学习控制器、自适应控制器、神经模糊控制器、滑模控制器等来计算肌肉的控制信号，但其中大多数基于模型的方法都只在一些简单的肌肉骨骼系统或复杂肌肉骨骼式机器人的部分关节和肌肉中进行验证，不适用于复杂的肌肉骨骼式机器人完成复杂任务。此外，也有基于无模型的方法来控制肌肉骨骼机器人，即无需建立机器人系统的显式数学模型，其主要通过监督学习和强化学习来实现对肌肉骨骼机器人的控制，但由于肌肉控制信号解空间庞大，基于监督学习的方法需要大量样本，很难在现实世界中应用，而基于深度强化学习的无模型方法虽然不需要监督样本，并在仿真的肌肉骨骼机器人系统上取得了良好的性能，但这些基于深度强化学习的方法需要高维反馈状态，而由于传感器类型和精度的限制，在肌肉骨骼机器人的实际应用中只能观察或利用部分反馈状态，进而可能会显著影响肌肉骨骼机器人的控制精度。

发明内容

本发明提供一种基于临界状态循环网络的肌肉骨骼机器人控制方法及装置，用以解决现有技术中肌肉骨骼机器人控制精度较低的缺陷。

本发明提供一种基于临界状态循环网络的肌肉骨骼机器人控制方法，包括：

确定肌肉骨骼机器人的输入信号；

将所述输入信号输入至循环网络，得到所述循环网络输出的控制信号；

基于所述控制信号，控制所述肌肉骨骼机器人移动至目标位置；

其中，所述循环网络基于如下步骤训练得到：

基于临界状态权重条件，对初始模型的循环权重和偏置向量进行调整，得到临界网络；

将终点时刻的样本目标位置、作为样本反馈信号的样本位置误差以及当前时刻的样本实际位置输入至所述临界网络，得到所述临界网络输出的样本控制信号，所述样本位置误差基于当前时刻的样本实际位置以及当前时刻的样本目标位置确定；

基于所述样本控制信号对应的样本实际位置、所述样本控制信号对应的样本目标位置以及所述循环网络的谱半径，确定样本奖励信号；

基于所述样本奖励信号，更新所述临界网络的权重，直至所述临界网络达到收敛条件，得到所述循环网络。

根据本发明提供的一种基于临界状态循环网络的肌肉骨骼机器人控制方法，所述临界状态权重条件基于如下公式确定：

r_t＝(1-α)r_t-1+α(W_ix_t+W_hh_t-1+b)

h_t＝tanh(r_t)

其中，

表示施加到r_t上的瞬时噪声向量，

为网络在t时刻的输入信号，

和

分别为循环网络隐藏层神经元在t时刻的膜电位和激活频率，

为所述偏置向量，

为连接循环网络输入层神经元和隐藏层神经元的输入权重，

为循环网络隐藏层神经元之间相互连接的循环权重，

为循环网络输出权重的矩阵。

根据本发明提供的一种基于临界状态循环网络的肌肉骨骼机器人控制方法，所述当前时刻的样本目标位置基于如下公式确定：

其中，

表示所述当前时刻的样本目标位置，O表示起始时刻的样本位置，t_F表示肌肉骨骼机器人的运动持续时间，P表示所述终点时刻的样本目标位置。

根据本发明提供的一种基于临界状态循环网络的肌肉骨骼机器人控制方法，所述基于所述样本控制信号对应的样本实际位置、所述样本控制信号对应的样本目标位置以及所述循环网络的谱半径，确定样本奖励信号，包括：

基于所述样本控制信号对应的样本实际位置以及所述样本控制信号对应的样本目标位置，确定所述样本控制信号对应的位置误差；

基于终点时刻的样本目标位置以及终点时刻的样本实际位置，确定终点时刻对应的位置误差；

基于所述样本控制信号对应的位置误差、所述终点时刻对应的位置误差以及当前循环网络的谱半径，确定所述样本奖励信号。

根据本发明提供的一种基于临界状态循环网络的肌肉骨骼机器人控制方法，所述样本奖励信号基于如下公式确定：

其中，R表示持续了S个时刻的样本奖励信号，e_t表示所述样本控制信号对应的位置误差，e_end表示所述终点时刻对应的位置误差，ρ(W_h)表示循环权重W_h的谱半径，γ₁，γ₂，γ₃和γ₄表示加权系数常数。

根据本发明提供的一种基于临界状态循环网络的肌肉骨骼机器人控制方法，所述基于所述样本奖励信号，更新所述临界网络的权重，包括：

基于所述样本奖励信号，确定所述样本奖励信号的期望；

基于所述样本奖励信号、所述样本奖励信号的期望以及随机噪声，更新所述临界网络的权重。

本发明还提供一种基于临界状态循环网络的肌肉骨骼机器人控制装置，包括：

确定单元，用于确定肌肉骨骼机器人的输入信号；

输出单元，用于将所述输入信号输入至循环网络，得到所述循环网络输出的控制信号；

控制单元，用于基于所述控制信号，控制所述肌肉骨骼机器人移动至目标位置；

其中，所述循环网络基于如下步骤训练得到：

本发明还提供一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现如上述任一种所述基于临界状态循环网络的肌肉骨骼机器人控制方法。

本发明还提供一种非暂态计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现如上述任一种所述基于临界状态循环网络的肌肉骨骼机器人控制方法。

本发明还提供一种计算机程序产品，包括计算机程序，所述计算机程序被处理器执行时实现如上述任一种所述基于临界状态循环网络的肌肉骨骼机器人控制方法。

本发明提供的基于临界状态循环网络的肌肉骨骼机器人控制方法及装置，基于临界状态条件，对初始模型的循环权重和偏置向量进行调整，使得最终得到的循环网络可同时具有稳定的神经流形、噪声鲁棒性和期望的表征能力。同时，利用循环网络自身工作记忆的能力，从终点时刻的样本目标位置、作为样本反馈信号的样本位置误差以及当前时刻的样本实际位置中隐式地推断出更全面的状态，从而获得更好的性能，进而能够精确控制肌肉骨骼机器人运动至目标位置。再有，本发明基于谱半径约束，确定样本奖励信号，使循环网络在运动学习期间能够始终保持在临界状态附近并具有最佳性能。

附图说明

为了更清楚地说明本发明或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本发明提供的基于临界状态循环网络的肌肉骨骼机器人控制的流程示意图；

图2是本发明提供的循环网络训练的流程示意图；

图3是本发明提供的基于临界状态循环网络的肌肉骨骼机器人控制装置的结构示意图；

图4是本发明提供的电子设备的结构示意图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚，下面将结合本发明中的附图，对本发明中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

对此，本发明提供一种基于临界状态循环网络的肌肉骨骼机器人控制方法。图1是本发明提供的基于临界状态循环网络的肌肉骨骼机器人控制方法的流程示意图，如图1所示，该方法包括如下步骤：

步骤110、确定肌肉骨骼机器人的输入信号；

步骤120、将输入信号输入至循环网络，得到循环网络输出的控制信号；

步骤130、基于控制信号，控制肌肉骨骼机器人移动至目标位置；

其中，循环网络基于如下步骤训练得到：

将终点时刻的样本目标位置、作为样本反馈信号的样本位置误差以及当前时刻的样本实际位置输入至临界网络，得到临界网络输出的样本控制信号，样本位置误差基于当前时刻的样本实际位置以及当前时刻的样本目标位置确定；

基于样本控制信号对应的样本实际位置、样本控制信号对应的样本目标位置以及循环网络的谱半径，确定样本奖励信号；

基于样本奖励信号，更新临界网络的权重，直至临界网络达到收敛条件，得到循环网络。

具体地，循环网络是一种基于泄露(leaky)神经元的循环神经网络，用于模拟运动皮层动态神经编码和控制信号的生成，该循环网络动力学具体如下：

r_t＝(1-α)r_t-1+α(W_ix_t+W_hh_t-1+b)

h_t＝tanh(r_t)

o_t＝Relu(W_oh_t)

其中，

为网络在t时刻的输入信号，

和

分别为循环网络隐藏层神经元在t时刻的膜电位和激活频率，

为网络的偏置向量。

为连接输入层神经元和隐藏层神经元的输入权重，

为隐藏层神经元之间相互连接的循环权重，

为输出权重的矩阵，o_t为循环网络生成的控制信号。

通过增强循环网络中神经元活动之间的相关性可以生成循环网络神经元活动的低维神经流形，从而可以通过神经流形中一些基本神经模式的灵活组合产生丰富的输出，简化冗余神经元的控制。此外，当使用节点扰动法训练循环网络产生期望的肌肉控制，并对隐藏层神经元施加探索性噪声时，循环网络的噪声鲁棒性有助于保持神经元活动和控制指令不发散。然而，增强循环网络中神经元活动的相关性和噪声鲁棒性将减少循环网络的神经模式数和表征能力。因此，本发明实施例全面分析和推导了具有低维神经流形、噪声鲁棒性和足够表征能力的循环网络的最佳临界状态权重条件。

本发明实施例基于临界状态权重条件，对初始模型的循环权重和偏置向量进行调整，得到临界网络，使得得到的临界网络能够实现稳定的神经流形、噪声鲁棒性和期望的表征能力。

接着，以部分观测状态(终点时刻的样本目标位置、作为样本反馈信号的样本位置误差以及当前时刻的样本实际位置)作为输入，利用循环网络的工作记忆能力，从部分观测到的状态中隐式地推断出更充分的状态，产生时变样本控制信号，驱动肌肉骨骼式机器人产生运动，并进一步将部分观测状态反馈给循环网络。其中，样本位置误差基于当前时刻的样本实际位置以及当前时刻的样本目标位置确定。

针对肌肉骨骼机器人的点到点到达任务，循环网络接收部分可观测反馈状态。相比于全观测条件，部分观测条件下无法观测到肌肉骨骼机器人在每个时刻的关节角和关节角速度。在部分可观测条件下，设计循环网络在时刻t的输入为：

x_t＝[P,e_t,p_t]

其中，P是终点时刻的样本目标位置，p_t是末端执行器在时刻t的样本实际位置，

是末端执行器在时刻t的样本目标位置，

是对应的位置误差。

进一步，由循环网络根据输入信号产生肌肉骨骼机器人的控制信号，肌肉骨骼机器人将产生运动：

o_t＝ReLU(W_oh_t)

其中，

为输出权重的矩阵，ReLU(o)＝max(0,o)是输出神经元的激活函数。

在得到样本控制信号后，基于样本控制信号对应的样本实际位置、样本控制信号对应的样本目标位置以及循环网络的谱半径，确定样本奖励信号，从而可以基于样本奖励信号，更新临界网络的权重，使得临界网络能够沿着产生更高样本奖励信号的神经元活动的方向进行更新，直至临界网络达到收敛条件，得到循环网络。其中，样本奖励信号可以通过谱半径约束确定。

如图2所示，本发明实施例基于临界状态条件，对初始模型的循环权重和偏置向量进行调整，使得最终得到的循环网络可同时具有稳定的神经流形、噪声鲁棒性和期望的表征能力。同时，利用循环网络自身工作记忆的能力，从部分观测状态(终点时刻的样本目标位置、作为样本反馈信号的样本位置误差以及当前时刻的样本实际位置)中隐式地推断出更全面的状态，从而获得更好的性能。此外，通过谱半径约束，确定样本奖励信号，使循环网络在运动学习期间能够始终保持在临界状态附近并具有最佳性能。其中，本发明实施例所提出的方法在一个复杂的肌肉骨骼系统仿真平台上进行了验证，能够在部分观测状态下实现良好的运动学习，为新型肌肉骨骼机器人系统的控制和发展提供了理论基础和技术支撑。

本发明实施例提供的基于临界状态循环网络的肌肉骨骼机器人控制方法，基于临界状态条件，对初始模型的循环权重和偏置向量进行调整，使得最终得到的循环网络可同时具有稳定的神经流形、噪声鲁棒性和期望的表征能力。同时，利用循环网络自身工作记忆的能力，从终点时刻的样本目标位置、作为样本反馈信号的样本位置误差以及当前时刻的样本实际位置中隐式地推断出更全面的状态，从而获得更好的性能，进而能够精确控制肌肉骨骼机器人运动至目标位置。再有，本发明实施例基于谱半径约束，确定样本奖励信号，使循环网络在运动学习期间能够始终保持在临界状态附近并具有最佳性能。

基于上述实施例，临界状态权重条件基于如下公式确定：

r_t＝(1-α)r_t-1+α(W_ix_t+W_hh_t-1+b)

h_t＝tanh(r_t)

其中，

表示施加到r_t上的瞬时噪声向量，

为网络在t时刻的输入信号，

和

分别为循环网络隐藏层神经元在t时刻的膜电位和激活频率，

为偏置向量，

为连接循环网络输入层神经元和隐藏层神经元的输入权重，

为循环网络隐藏层神经元之间相互连接的循环权重，

为循环网络输出权重的矩阵。

在此条件下，分析令上述临界状态权重条件成立的前提：

首先，对隐藏层神经元施加的扰动在下一刻的影响

可被扩展为如下：

因tanh(·)是连续可微函数，基于拉格朗日中值定理可得，

其中，r_i和ε_i分别是r和ε的第i个元素。tanh′(·)是tanh(·)的导数，

是Φ的第i个元素，

表示元素相乘。

所以，对隐藏层神经元施加的扰动在下一刻的影响

可进一步推导如下：

其中，ρ(W_h)是矩阵W_h的谱半径。

又tanh′(Φ_i)＜1，当ρ(W_h)＜1时，可得：

因此，可得出ρ(W_h)＜1是

成立的充分条件，在此条件下，对循环网络隐藏层神经元施加的扰动造成的影响随时间逐渐变小。基于以上分析和证明，矩阵需满足较小的||W_h||_F,从而保持神经元活动的强相关性、稳定的神经流形以及噪声鲁棒性。然而，较小的||W_h||_F会使得循环网络具有较少的神经模式和较弱的表征能力。

为了使得循环网络能够处于临界状态，从而在噪声鲁棒性和表征能力之前实现权衡，考虑到除了ρ(W_h)，tanh′(Φ)也会影响

的上限。又0＜tanh′(Φ_i)＜1，且tanh′(Φ_i)随||Φ_i||₂的增加而减小，因此

且

随||Φ||₂的增加而减小。||Φ||₂是由神经元活动||r||₂决定的，并可由权重||b||₂来直接调节，因此，适当的加大||b||₂会导致||Φ||₂的加大，并减小

的上限，使得在ρ(W_h)在略大于1时，

依旧能够成立。

因此，在本发明实施例中，通过联合调节W和b，可实现循环网络稳定的神经流形、噪声鲁棒性和期望的表征能力，使得循环网络处于临界状态。其中，W_h可首先依据条件ρ(W_h)＜1进行设计，进一步，可逐渐增大||W_h||_F使得循环网络具有足够的表征能力，并增大b来补偿由于||W_h||_F的加大所造成的的循环网络的不稳定性。

基于上述任一实施例，当前时刻的样本目标位置基于如下公式确定：

其中，

表示当前时刻的样本目标位置，O表示起始时刻的样本位置，t_F表示肌肉骨骼机器人的运动持续时间，P表示终点时刻的样本目标位置。

基于上述任一实施例，基于样本控制信号对应的样本实际位置、样本控制信号对应的样本目标位置以及循环网络的谱半径，确定样本奖励信号，包括：

基于样本控制信号对应的样本实际位置以及样本控制信号对应的样本目标位置，确定样本控制信号对应的位置误差；

基于样本控制信号对应的位置误差、终点时刻对应的位置误差以及当前循环网络的谱半径，确定样本奖励信号。

具体地，当谱半径ρ(W_h)略微大于1且||b||_F具有适当的值时，循环网络处于临界态，具有更好的表现。在该条件下，循环网络能实现性能和鲁棒性的权衡，它不仅可以描述复杂的神经和肌肉模式，而且对扰动具有鲁棒性，可以产生肌肉骨骼式机器人的肌肉协同作用。

对本发明实施例中的循环网络的隐藏层权重矩阵，有

且σ_i是权重W的奇异值，||W_h||_F能体现神经元活动放电率的平均水平以及网络表征神经模式的能力。为了实现肌肉骨骼机器人的控制，在运动学习训练期间，神经元活动的变化可能会增加，以表征更复杂的神经和肌肉模式。

因此，||W_h||_F会相应地增加，这可能导致|λ_i|的增加而将循环网络推离临界状态。因为ρ(W_h)＝max{λ_i|,i＝1,2,...,n}，其中λ_i是W_h的特征值，所以ρ(W_h)能近似表示神经元活动的最大变化率。而对于一个有着固定的||W_h||_F的循环网络隐藏层权重矩阵W_h,可以有着不同的ρ(W_h)。因此，对谱半径施加约束不会影响||W_h||_F和循环网络产生复杂神经模式的能力。

为了在运动学习的训练期间，防止循环网络的ρ(W_h)过度增长并保持循环网络能始终在临界状态附近，本发明实施例基于样本控制信号对应的样本实际位置以及样本控制信号对应的样本目标位置，确定样本控制信号对应的位置误差，以及基于终点时刻的样本目标位置以及终点时刻的样本实际位置，确定终点时刻对应的位置误差，从而可以基于样本控制信号对应的位置误差、终点时刻对应的位置误差以及当前循环网络的谱半径，确定样本奖励信号，使循环网络在运动学习期间能够始终保持在临界状态附近并具有最佳性能。。

在训练过程中，每一次运动结束后，基于样本奖励信号，调整临界态循环网络(即临界网络)的权重，通过多次权重调节后，循环网络可以生成适当的控制信号，从而驱动肌肉骨骼机器人完成期望运动，以达到目标位置。

基于上述任一实施例，样本奖励信号基于如下公式确定：

其中，R表示持续了S个时刻的样本奖励信号，

表示样本控制信号对应的位置误差，

表示终点时刻对应的位置误差，ρ(W_h)表示循环权重W_h的谱半径，γ₁，γ₂，γ₃和γ₄表示用来平衡奖励信号中各项的加权系数常数，

是末端执行器在终点时刻的速度。

基于上述任一实施例，基于样本奖励信号，更新临界网络的权重，包括：

基于样本奖励信号，确定样本奖励信号的期望；

基于样本奖励信号、样本奖励信号的期望以及随机噪声，更新临界网络的权重。

具体地，

是R的期望，通过平滑滤波器近似计算如下：

其中，n表示第n^th次运动，η是滤波系数。

为了充分地探索相应运动的神经活动，在运动学习训练期间将随机噪声应用于循环网络。具体来说，将随机噪声在每个时刻施加于隐藏神经元的膜电位，如下所示：

其中，ε_t～N(0,∑)是在时刻t施加的服从正态分布的随机噪声向量，∑＝diag(σ²,...,σ²)是正态分布的协方差矩阵，σ²是噪声的方差，

是在学习期间隐藏层神经元的实际膜电位。

进一步，根据REINFOCE算法，循环网络沿着能够产生更高奖励信号的神经元活动的方向进行更新，在每一次运动后，循环网络权重如下更新：

其中，ΔW_h，ΔW_i，ΔW_o，Δb分别是权重W_h，W_i，W_o，b的增量，β是学习率。

下面对本发明提供的基于临界状态循环网络的肌肉骨骼机器人控制装置进行描述，下文描述的基于临界状态循环网络的肌肉骨骼机器人控制装置与上文描述的基于临界状态循环网络的肌肉骨骼机器人控制方法可相互对应参照。

基于上述任一实施例，本发明还提供一种基于临界状态循环网络的肌肉骨骼机器人控制装置，如图3所示，该装置包括：

确定单元310，用于确定肌肉骨骼机器人的输入信号；

输出单元320，用于将所述输入信号输入至循环网络，得到所述循环网络输出的控制信号；

控制单元330，用于基于所述控制信号，控制所述肌肉骨骼机器人移动至目标位置；

其中，所述循环网络基于如下步骤训练得到：

图4是本发明提供的电子设备的结构示意图，如图4所示，该电子设备可以包括：处理器(processor)410、存储器(memory)420、通信接口(Communications Interface)430和通信总线440，其中，处理器410，存储器420，通信接口430通过通信总线440完成相互间的通信。处理器410可以调用存储器420中的逻辑指令，以执行基于临界状态循环网络的肌肉骨骼机器人控制方法，该方法包括：确定肌肉骨骼机器人的输入信号；将所述输入信号输入至循环网络，得到所述循环网络输出的控制信号；基于所述控制信号，控制所述肌肉骨骼机器人移动至目标位置；其中，所述循环网络基于如下步骤训练得到：基于临界状态权重条件，对初始模型的循环权重和偏置向量进行调整，得到临界网络；将终点时刻的样本目标位置、作为样本反馈信号的样本位置误差以及当前时刻的样本实际位置输入至所述临界网络，得到所述临界网络输出的样本控制信号，所述样本位置误差基于当前时刻的样本实际位置以及当前时刻的样本目标位置确定；基于所述样本控制信号对应的样本实际位置、所述样本控制信号对应的样本目标位置以及所述循环网络的谱半径，确定样本奖励信号；基于所述样本奖励信号，更新所述临界网络的权重，直至所述临界网络达到收敛条件，得到所述循环网络。

此外，上述的存储器420中的逻辑指令可以通过软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

另一方面，本发明还提供一种计算机程序产品，所述计算机程序产品包括存储在非暂态计算机可读存储介质上的计算机程序，所述计算机程序包括程序指令，当所述程序指令被计算机执行时，计算机能够执行上述各方法所提供的基于临界状态循环网络的肌肉骨骼机器人控制方法，该方法包括：确定肌肉骨骼机器人的输入信号；将所述输入信号输入至循环网络，得到所述循环网络输出的控制信号；基于所述控制信号，控制所述肌肉骨骼机器人移动至目标位置；其中，所述循环网络基于如下步骤训练得到：基于临界状态权重条件，对初始模型的循环权重和偏置向量进行调整，得到临界网络；将终点时刻的样本目标位置、作为样本反馈信号的样本位置误差以及当前时刻的样本实际位置输入至所述临界网络，得到所述临界网络输出的样本控制信号，所述样本位置误差基于当前时刻的样本实际位置以及当前时刻的样本目标位置确定；基于所述样本控制信号对应的样本实际位置、所述样本控制信号对应的样本目标位置以及所述循环网络的谱半径，确定样本奖励信号；基于所述样本奖励信号，更新所述临界网络的权重，直至所述临界网络达到收敛条件，得到所述循环网络。

又一方面，本发明还提供一种非暂态计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现以执行上述各提供的基于临界状态循环网络的肌肉骨骼机器人控制方法，该方法包括：确定肌肉骨骼机器人的输入信号；将所述输入信号输入至循环网络，得到所述循环网络输出的控制信号；基于所述控制信号，控制所述肌肉骨骼机器人移动至目标位置；其中，所述循环网络基于如下步骤训练得到：基于临界状态权重条件，对初始模型的循环权重和偏置向量进行调整，得到临界网络；将终点时刻的样本目标位置、作为样本反馈信号的样本位置误差以及当前时刻的样本实际位置输入至所述临界网络，得到所述临界网络输出的样本控制信号，所述样本位置误差基于当前时刻的样本实际位置以及当前时刻的样本目标位置确定；基于所述样本控制信号对应的样本实际位置、所述样本控制信号对应的样本目标位置以及所述循环网络的谱半径，确定样本奖励信号；基于所述样本奖励信号，更新所述临界网络的权重，直至所述临界网络达到收敛条件，得到所述循环网络。

以上所描述的装置实施例仅仅是示意性的，其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下，即可以理解并实施。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件。基于这样的理解，上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在计算机可读存储介质中，如ROM/RAM、磁碟、光盘等，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。

最后应说明的是：以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。