CN114872042A - 基于临界状态循环网络的肌肉骨骼机器人控制方法及装置 - Google Patents

基于临界状态循环网络的肌肉骨骼机器人控制方法及装置 Download PDF

Info

Publication number
CN114872042A
CN114872042A CN202210476308.8A CN202210476308A CN114872042A CN 114872042 A CN114872042 A CN 114872042A CN 202210476308 A CN202210476308 A CN 202210476308A CN 114872042 A CN114872042 A CN 114872042A
Authority
CN
China
Prior art keywords
sample
network
critical
control signal
signal
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202210476308.8A
Other languages
English (en)
Inventor
陈嘉浩
王萧娜
乔红
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Institute of Automation of Chinese Academy of Science
Original Assignee
Institute of Automation of Chinese Academy of Science
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Institute of Automation of Chinese Academy of Science filed Critical Institute of Automation of Chinese Academy of Science
Priority to CN202210476308.8A priority Critical patent/CN114872042A/zh
Publication of CN114872042A publication Critical patent/CN114872042A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • BPERFORMING OPERATIONS; TRANSPORTING
    • B25HAND TOOLS; PORTABLE POWER-DRIVEN TOOLS; MANIPULATORS
    • B25JMANIPULATORS; CHAMBERS PROVIDED WITH MANIPULATION DEVICES
    • B25J9/00Programme-controlled manipulators
    • B25J9/16Programme controls
    • B25J9/1602Programme controls characterised by the control system, structure, architecture
    • B25J9/161Hardware, e.g. neural networks, fuzzy logic, interfaces, processor
    • BPERFORMING OPERATIONS; TRANSPORTING
    • B25HAND TOOLS; PORTABLE POWER-DRIVEN TOOLS; MANIPULATORS
    • B25JMANIPULATORS; CHAMBERS PROVIDED WITH MANIPULATION DEVICES
    • B25J9/00Programme-controlled manipulators
    • B25J9/16Programme controls
    • B25J9/1628Programme controls characterised by the control loop
    • B25J9/163Programme controls characterised by the control loop learning, adaptive, model based, rule based expert control
    • BPERFORMING OPERATIONS; TRANSPORTING
    • B25HAND TOOLS; PORTABLE POWER-DRIVEN TOOLS; MANIPULATORS
    • B25JMANIPULATORS; CHAMBERS PROVIDED WITH MANIPULATION DEVICES
    • B25J9/00Programme-controlled manipulators
    • B25J9/16Programme controls
    • B25J9/1656Programme controls characterised by programming, planning systems for manipulators
    • B25J9/1661Programme controls characterised by programming, planning systems for manipulators characterised by task planning, object-oriented languages

Abstract

本发明提供一种基于临界状态循环网络的肌肉骨骼机器人控制方法及装置,方法包括:基于循环网络,得到输入信号对应的控制信号,并基于控制信号控制肌肉骨骼机器人移动至目标位置;循环网络训练步骤包括:基于临界状态权重条件,对初始模型的循环权重和偏置向量进行调整,得到临界网络;将终点时刻的样本目标位置、作为样本反馈信号的样本位置误差以及当前时刻的样本实际位置输入至临界网络,得到样本控制信号;基于样本控制信号对应的样本实际位置、样本控制信号对应的样本目标位置以及循环网络的谱半径,确定样本奖励信号;基于样本奖励信号,更新临界网络的权重,得到循环网络。本发明能够精确控制肌肉骨骼机器人运动至目标位置。

Description

基于临界状态循环网络的肌肉骨骼机器人控制方法及装置
技术领域
本发明涉及机器人控制技术领域,尤其涉及一种基于临界状态循环网络的肌肉骨骼机器人控制方法及装置。
背景技术
与传统的关节连杆机器人相比,仿生肌肉骨骼式机器人具有柔顺性、灵活性、鲁棒性和安全性等优点。然而,肌肉骨骼机器人的复杂结构也给控制带来了许多挑战和困难。具体来说,肌肉骨骼机器人的肌肉数目多于关节自由度,具有强冗余性,这使得肌肉控制信号具有庞大的解空间。此外,肌肉之间的强耦合性使得无法控制单个肌肉。复杂的肌肉模块和关节的强非线性使得难以建立肌肉骨骼机器人的精确模型。
目前,肌肉骨骼机器人的控制方法主要分为基于模型的方法和无模型的方法。在基于模型的方法中,需要建立肌肉骨骼机器人的任务空间、关节空间和肌肉空间之间关系的显式数学模型。其中,基于建立的模型设计了任务空间反馈控制器、迭代学习控制器、自适应控制器、神经模糊控制器、滑模控制器等来计算肌肉的控制信号,但其中大多数基于模型的方法都只在一些简单的肌肉骨骼系统或复杂肌肉骨骼式机器人的部分关节和肌肉中进行验证,不适用于复杂的肌肉骨骼式机器人完成复杂任务。此外,也有基于无模型的方法来控制肌肉骨骼机器人,即无需建立机器人系统的显式数学模型,其主要通过监督学习和强化学习来实现对肌肉骨骼机器人的控制,但由于肌肉控制信号解空间庞大,基于监督学习的方法需要大量样本,很难在现实世界中应用,而基于深度强化学习的无模型方法虽然不需要监督样本,并在仿真的肌肉骨骼机器人系统上取得了良好的性能,但这些基于深度强化学习的方法需要高维反馈状态,而由于传感器类型和精度的限制,在肌肉骨骼机器人的实际应用中只能观察或利用部分反馈状态,进而可能会显著影响肌肉骨骼机器人的控制精度。
发明内容
本发明提供一种基于临界状态循环网络的肌肉骨骼机器人控制方法及装置,用以解决现有技术中肌肉骨骼机器人控制精度较低的缺陷。
本发明提供一种基于临界状态循环网络的肌肉骨骼机器人控制方法,包括:
确定肌肉骨骼机器人的输入信号;
将所述输入信号输入至循环网络,得到所述循环网络输出的控制信号;
基于所述控制信号,控制所述肌肉骨骼机器人移动至目标位置;
其中,所述循环网络基于如下步骤训练得到:
基于临界状态权重条件,对初始模型的循环权重和偏置向量进行调整,得到临界网络;
将终点时刻的样本目标位置、作为样本反馈信号的样本位置误差以及当前时刻的样本实际位置输入至所述临界网络,得到所述临界网络输出的样本控制信号,所述样本位置误差基于当前时刻的样本实际位置以及当前时刻的样本目标位置确定;
基于所述样本控制信号对应的样本实际位置、所述样本控制信号对应的样本目标位置以及所述循环网络的谱半径,确定样本奖励信号;
基于所述样本奖励信号,更新所述临界网络的权重,直至所述临界网络达到收敛条件,得到所述循环网络。
根据本发明提供的一种基于临界状态循环网络的肌肉骨骼机器人控制方法,所述临界状态权重条件基于如下公式确定:
Figure BDA0003625712210000031
Figure BDA0003625712210000032
rt=(1-α)rt-1+α(Wixt+Whht-1+b)
ht=tanh(rt)
其中,
Figure BDA0003625712210000033
表示施加到rt上的瞬时噪声向量,
Figure BDA0003625712210000034
为网络在t时刻的输入信号,
Figure BDA0003625712210000035
Figure BDA0003625712210000036
分别为循环网络隐藏层神经元在t时刻的膜电位和激活频率,
Figure BDA0003625712210000037
为所述偏置向量,
Figure BDA0003625712210000038
为连接循环网络输入层神经元和隐藏层神经元的输入权重,
Figure BDA0003625712210000039
为循环网络隐藏层神经元之间相互连接的循环权重,
Figure BDA00036257122100000310
为循环网络输出权重的矩阵。
根据本发明提供的一种基于临界状态循环网络的肌肉骨骼机器人控制方法,所述当前时刻的样本目标位置基于如下公式确定:
Figure BDA00036257122100000311
其中,
Figure BDA00036257122100000312
表示所述当前时刻的样本目标位置,O表示起始时刻的样本位置,tF表示肌肉骨骼机器人的运动持续时间,P表示所述终点时刻的样本目标位置。
根据本发明提供的一种基于临界状态循环网络的肌肉骨骼机器人控制方法,所述基于所述样本控制信号对应的样本实际位置、所述样本控制信号对应的样本目标位置以及所述循环网络的谱半径,确定样本奖励信号,包括:
基于所述样本控制信号对应的样本实际位置以及所述样本控制信号对应的样本目标位置,确定所述样本控制信号对应的位置误差;
基于终点时刻的样本目标位置以及终点时刻的样本实际位置,确定终点时刻对应的位置误差;
基于所述样本控制信号对应的位置误差、所述终点时刻对应的位置误差以及当前循环网络的谱半径,确定所述样本奖励信号。
根据本发明提供的一种基于临界状态循环网络的肌肉骨骼机器人控制方法,所述样本奖励信号基于如下公式确定:
Figure BDA0003625712210000041
其中,R表示持续了S个时刻的样本奖励信号,et表示所述样本控制信号对应的位置误差,eend表示所述终点时刻对应的位置误差,ρ(Wh)表示循环权重Wh的谱半径,γ1,γ2,γ3和γ4表示加权系数常数。
根据本发明提供的一种基于临界状态循环网络的肌肉骨骼机器人控制方法,所述基于所述样本奖励信号,更新所述临界网络的权重,包括:
基于所述样本奖励信号,确定所述样本奖励信号的期望;
基于所述样本奖励信号、所述样本奖励信号的期望以及随机噪声,更新所述临界网络的权重。
本发明还提供一种基于临界状态循环网络的肌肉骨骼机器人控制装置,包括:
确定单元,用于确定肌肉骨骼机器人的输入信号;
输出单元,用于将所述输入信号输入至循环网络,得到所述循环网络输出的控制信号;
控制单元,用于基于所述控制信号,控制所述肌肉骨骼机器人移动至目标位置;
其中,所述循环网络基于如下步骤训练得到:
基于临界状态权重条件,对初始模型的循环权重和偏置向量进行调整,得到临界网络;
将终点时刻的样本目标位置、作为样本反馈信号的样本位置误差以及当前时刻的样本实际位置输入至所述临界网络,得到所述临界网络输出的样本控制信号,所述样本位置误差基于当前时刻的样本实际位置以及当前时刻的样本目标位置确定;
基于所述样本控制信号对应的样本实际位置、所述样本控制信号对应的样本目标位置以及所述循环网络的谱半径,确定样本奖励信号;
基于所述样本奖励信号,更新所述临界网络的权重,直至所述临界网络达到收敛条件,得到所述循环网络。
本发明还提供一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现如上述任一种所述基于临界状态循环网络的肌肉骨骼机器人控制方法。
本发明还提供一种非暂态计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现如上述任一种所述基于临界状态循环网络的肌肉骨骼机器人控制方法。
本发明还提供一种计算机程序产品,包括计算机程序,所述计算机程序被处理器执行时实现如上述任一种所述基于临界状态循环网络的肌肉骨骼机器人控制方法。
本发明提供的基于临界状态循环网络的肌肉骨骼机器人控制方法及装置,基于临界状态条件,对初始模型的循环权重和偏置向量进行调整,使得最终得到的循环网络可同时具有稳定的神经流形、噪声鲁棒性和期望的表征能力。同时,利用循环网络自身工作记忆的能力,从终点时刻的样本目标位置、作为样本反馈信号的样本位置误差以及当前时刻的样本实际位置中隐式地推断出更全面的状态,从而获得更好的性能,进而能够精确控制肌肉骨骼机器人运动至目标位置。再有,本发明基于谱半径约束,确定样本奖励信号,使循环网络在运动学习期间能够始终保持在临界状态附近并具有最佳性能。
附图说明
为了更清楚地说明本发明或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本发明提供的基于临界状态循环网络的肌肉骨骼机器人控制的流程示意图;
图2是本发明提供的循环网络训练的流程示意图;
图3是本发明提供的基于临界状态循环网络的肌肉骨骼机器人控制装置的结构示意图;
图4是本发明提供的电子设备的结构示意图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚,下面将结合本发明中的附图,对本发明中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
目前,肌肉骨骼机器人的控制方法主要分为基于模型的方法和无模型的方法。在基于模型的方法中,需要建立肌肉骨骼机器人的任务空间、关节空间和肌肉空间之间关系的显式数学模型。其中,基于建立的模型设计了任务空间反馈控制器、迭代学习控制器、自适应控制器、神经模糊控制器、滑模控制器等来计算肌肉的控制信号,但其中大多数基于模型的方法都只在一些简单的肌肉骨骼系统或复杂肌肉骨骼式机器人的部分关节和肌肉中进行验证,不适用于复杂的肌肉骨骼式机器人完成复杂任务。此外,也有基于无模型的方法来控制肌肉骨骼机器人,即无需建立机器人系统的显式数学模型,其主要通过监督学习和强化学习来实现对肌肉骨骼机器人的控制,但由于肌肉控制信号解空间庞大,基于监督学习的方法需要大量样本,很难在现实世界中应用,而基于深度强化学习的无模型方法虽然不需要监督样本,并在仿真的肌肉骨骼机器人系统上取得了良好的性能,但这些基于深度强化学习的方法需要高维反馈状态,而由于传感器类型和精度的限制,在肌肉骨骼机器人的实际应用中只能观察或利用部分反馈状态,进而可能会显著影响肌肉骨骼机器人的控制精度。
对此,本发明提供一种基于临界状态循环网络的肌肉骨骼机器人控制方法。图1是本发明提供的基于临界状态循环网络的肌肉骨骼机器人控制方法的流程示意图,如图1所示,该方法包括如下步骤:
步骤110、确定肌肉骨骼机器人的输入信号;
步骤120、将输入信号输入至循环网络,得到循环网络输出的控制信号;
步骤130、基于控制信号,控制肌肉骨骼机器人移动至目标位置;
其中,循环网络基于如下步骤训练得到:
基于临界状态权重条件,对初始模型的循环权重和偏置向量进行调整,得到临界网络;
将终点时刻的样本目标位置、作为样本反馈信号的样本位置误差以及当前时刻的样本实际位置输入至临界网络,得到临界网络输出的样本控制信号,样本位置误差基于当前时刻的样本实际位置以及当前时刻的样本目标位置确定;
基于样本控制信号对应的样本实际位置、样本控制信号对应的样本目标位置以及循环网络的谱半径,确定样本奖励信号;
基于样本奖励信号,更新临界网络的权重,直至临界网络达到收敛条件,得到循环网络。
具体地,循环网络是一种基于泄露(leaky)神经元的循环神经网络,用于模拟运动皮层动态神经编码和控制信号的生成,该循环网络动力学具体如下:
rt=(1-α)rt-1+α(Wixt+Whht-1+b)
ht=tanh(rt)
ot=Relu(Woht)
其中,
Figure BDA0003625712210000081
为网络在t时刻的输入信号,
Figure BDA0003625712210000082
Figure BDA0003625712210000083
分别为循环网络隐藏层神经元在t时刻的膜电位和激活频率,
Figure BDA0003625712210000084
为网络的偏置向量。
Figure BDA0003625712210000085
为连接输入层神经元和隐藏层神经元的输入权重,
Figure BDA0003625712210000086
为隐藏层神经元之间相互连接的循环权重,
Figure BDA0003625712210000087
为输出权重的矩阵,ot为循环网络生成的控制信号。
通过增强循环网络中神经元活动之间的相关性可以生成循环网络神经元活动的低维神经流形,从而可以通过神经流形中一些基本神经模式的灵活组合产生丰富的输出,简化冗余神经元的控制。此外,当使用节点扰动法训练循环网络产生期望的肌肉控制,并对隐藏层神经元施加探索性噪声时,循环网络的噪声鲁棒性有助于保持神经元活动和控制指令不发散。然而,增强循环网络中神经元活动的相关性和噪声鲁棒性将减少循环网络的神经模式数和表征能力。因此,本发明实施例全面分析和推导了具有低维神经流形、噪声鲁棒性和足够表征能力的循环网络的最佳临界状态权重条件。
本发明实施例基于临界状态权重条件,对初始模型的循环权重和偏置向量进行调整,得到临界网络,使得得到的临界网络能够实现稳定的神经流形、噪声鲁棒性和期望的表征能力。
接着,以部分观测状态(终点时刻的样本目标位置、作为样本反馈信号的样本位置误差以及当前时刻的样本实际位置)作为输入,利用循环网络的工作记忆能力,从部分观测到的状态中隐式地推断出更充分的状态,产生时变样本控制信号,驱动肌肉骨骼式机器人产生运动,并进一步将部分观测状态反馈给循环网络。其中,样本位置误差基于当前时刻的样本实际位置以及当前时刻的样本目标位置确定。
针对肌肉骨骼机器人的点到点到达任务,循环网络接收部分可观测反馈状态。相比于全观测条件,部分观测条件下无法观测到肌肉骨骼机器人在每个时刻的关节角和关节角速度。在部分可观测条件下,设计循环网络在时刻t的输入为:
xt=[P,et,pt]
其中,P是终点时刻的样本目标位置,pt是末端执行器在时刻t的样本实际位置,
Figure BDA0003625712210000091
是末端执行器在时刻t的样本目标位置,
Figure BDA0003625712210000092
是对应的位置误差。
进一步,由循环网络根据输入信号产生肌肉骨骼机器人的控制信号,肌肉骨骼机器人将产生运动:
ot=ReLU(Woht)
其中,
Figure BDA0003625712210000093
为输出权重的矩阵,ReLU(o)=max(0,o)是输出神经元的激活函数。
在得到样本控制信号后,基于样本控制信号对应的样本实际位置、样本控制信号对应的样本目标位置以及循环网络的谱半径,确定样本奖励信号,从而可以基于样本奖励信号,更新临界网络的权重,使得临界网络能够沿着产生更高样本奖励信号的神经元活动的方向进行更新,直至临界网络达到收敛条件,得到循环网络。其中,样本奖励信号可以通过谱半径约束确定。
如图2所示,本发明实施例基于临界状态条件,对初始模型的循环权重和偏置向量进行调整,使得最终得到的循环网络可同时具有稳定的神经流形、噪声鲁棒性和期望的表征能力。同时,利用循环网络自身工作记忆的能力,从部分观测状态(终点时刻的样本目标位置、作为样本反馈信号的样本位置误差以及当前时刻的样本实际位置)中隐式地推断出更全面的状态,从而获得更好的性能。此外,通过谱半径约束,确定样本奖励信号,使循环网络在运动学习期间能够始终保持在临界状态附近并具有最佳性能。其中,本发明实施例所提出的方法在一个复杂的肌肉骨骼系统仿真平台上进行了验证,能够在部分观测状态下实现良好的运动学习,为新型肌肉骨骼机器人系统的控制和发展提供了理论基础和技术支撑。
本发明实施例提供的基于临界状态循环网络的肌肉骨骼机器人控制方法,基于临界状态条件,对初始模型的循环权重和偏置向量进行调整,使得最终得到的循环网络可同时具有稳定的神经流形、噪声鲁棒性和期望的表征能力。同时,利用循环网络自身工作记忆的能力,从终点时刻的样本目标位置、作为样本反馈信号的样本位置误差以及当前时刻的样本实际位置中隐式地推断出更全面的状态,从而获得更好的性能,进而能够精确控制肌肉骨骼机器人运动至目标位置。再有,本发明实施例基于谱半径约束,确定样本奖励信号,使循环网络在运动学习期间能够始终保持在临界状态附近并具有最佳性能。
基于上述实施例,临界状态权重条件基于如下公式确定:
Figure BDA0003625712210000101
Figure BDA0003625712210000102
rt=(1-α)rt-1+α(Wixt+Whht-1+b)
ht=tanh(rt)
其中,
Figure BDA0003625712210000103
表示施加到rt上的瞬时噪声向量,
Figure BDA0003625712210000104
为网络在t时刻的输入信号,
Figure BDA0003625712210000105
Figure BDA0003625712210000106
分别为循环网络隐藏层神经元在t时刻的膜电位和激活频率,
Figure BDA0003625712210000111
为偏置向量,
Figure BDA0003625712210000112
为连接循环网络输入层神经元和隐藏层神经元的输入权重,
Figure BDA0003625712210000113
为循环网络隐藏层神经元之间相互连接的循环权重,
Figure BDA0003625712210000114
为循环网络输出权重的矩阵。
在此条件下,分析令上述临界状态权重条件成立的前提:
首先,对隐藏层神经元施加的扰动在下一刻的影响
Figure BDA0003625712210000115
可被扩展为如下:
Figure BDA0003625712210000116
因tanh(·)是连续可微函数,基于拉格朗日中值定理可得,
Figure BDA0003625712210000117
其中,ri和εi分别是r和ε的第i个元素。tanh′(·)是tanh(·)的导数,
Figure BDA0003625712210000118
是Φ的第i个元素,
Figure BDA0003625712210000119
表示元素相乘。
所以,对隐藏层神经元施加的扰动在下一刻的影响
Figure BDA0003625712210000121
可进一步推导如下:
Figure BDA0003625712210000122
其中,ρ(Wh)是矩阵Wh的谱半径。
又tanh′(Φi)<1,当ρ(Wh)<1时,可得:
Figure BDA0003625712210000123
因此,可得出ρ(Wh)<1是
Figure BDA0003625712210000124
成立的充分条件,在此条件下,对循环网络隐藏层神经元施加的扰动造成的影响随时间逐渐变小。基于以上分析和证明,矩阵需满足较小的||Wh||F,从而保持神经元活动的强相关性、稳定的神经流形以及噪声鲁棒性。然而,较小的||Wh||F会使得循环网络具有较少的神经模式和较弱的表征能力。
为了使得循环网络能够处于临界状态,从而在噪声鲁棒性和表征能力之前实现权衡,考虑到除了ρ(Wh),tanh′(Φ)也会影响
Figure BDA0003625712210000125
的上限。又0<tanh′(Φi)<1,且tanh′(Φi)随||Φi||2的增加而减小,因此
Figure BDA0003625712210000131
Figure BDA0003625712210000132
随||Φ||2的增加而减小。||Φ||2是由神经元活动||r||2决定的,并可由权重||b||2来直接调节,因此,适当的加大||b||2会导致||Φ||2的加大,并减小
Figure BDA0003625712210000133
的上限,使得在ρ(Wh)在略大于1时,
Figure BDA0003625712210000134
依旧能够成立。
因此,在本发明实施例中,通过联合调节W和b,可实现循环网络稳定的神经流形、噪声鲁棒性和期望的表征能力,使得循环网络处于临界状态。其中,Wh可首先依据条件ρ(Wh)<1进行设计,进一步,可逐渐增大||Wh||F使得循环网络具有足够的表征能力,并增大b来补偿由于||Wh||F的加大所造成的的循环网络的不稳定性。
基于上述任一实施例,当前时刻的样本目标位置基于如下公式确定:
Figure BDA0003625712210000135
其中,
Figure BDA0003625712210000136
表示当前时刻的样本目标位置,O表示起始时刻的样本位置,tF表示肌肉骨骼机器人的运动持续时间,P表示终点时刻的样本目标位置。
基于上述任一实施例,基于样本控制信号对应的样本实际位置、样本控制信号对应的样本目标位置以及循环网络的谱半径,确定样本奖励信号,包括:
基于样本控制信号对应的样本实际位置以及样本控制信号对应的样本目标位置,确定样本控制信号对应的位置误差;
基于终点时刻的样本目标位置以及终点时刻的样本实际位置,确定终点时刻对应的位置误差;
基于样本控制信号对应的位置误差、终点时刻对应的位置误差以及当前循环网络的谱半径,确定样本奖励信号。
具体地,当谱半径ρ(Wh)略微大于1且||b||F具有适当的值时,循环网络处于临界态,具有更好的表现。在该条件下,循环网络能实现性能和鲁棒性的权衡,它不仅可以描述复杂的神经和肌肉模式,而且对扰动具有鲁棒性,可以产生肌肉骨骼式机器人的肌肉协同作用。
对本发明实施例中的循环网络的隐藏层权重矩阵,有
Figure BDA0003625712210000141
且σi是权重W的奇异值,||Wh||F能体现神经元活动放电率的平均水平以及网络表征神经模式的能力。为了实现肌肉骨骼机器人的控制,在运动学习训练期间,神经元活动的变化可能会增加,以表征更复杂的神经和肌肉模式。
因此,||Wh||F会相应地增加,这可能导致|λi|的增加而将循环网络推离临界状态。因为ρ(Wh)=max{λi|,i=1,2,...,n},其中λi是Wh的特征值,所以ρ(Wh)能近似表示神经元活动的最大变化率。而对于一个有着固定的||Wh||F的循环网络隐藏层权重矩阵Wh,可以有着不同的ρ(Wh)。因此,对谱半径施加约束不会影响||Wh||F和循环网络产生复杂神经模式的能力。
为了在运动学习的训练期间,防止循环网络的ρ(Wh)过度增长并保持循环网络能始终在临界状态附近,本发明实施例基于样本控制信号对应的样本实际位置以及样本控制信号对应的样本目标位置,确定样本控制信号对应的位置误差,以及基于终点时刻的样本目标位置以及终点时刻的样本实际位置,确定终点时刻对应的位置误差,从而可以基于样本控制信号对应的位置误差、终点时刻对应的位置误差以及当前循环网络的谱半径,确定样本奖励信号,使循环网络在运动学习期间能够始终保持在临界状态附近并具有最佳性能。。
在训练过程中,每一次运动结束后,基于样本奖励信号,调整临界态循环网络(即临界网络)的权重,通过多次权重调节后,循环网络可以生成适当的控制信号,从而驱动肌肉骨骼机器人完成期望运动,以达到目标位置。
基于上述任一实施例,样本奖励信号基于如下公式确定:
Figure BDA0003625712210000151
其中,R表示持续了S个时刻的样本奖励信号,
Figure BDA0003625712210000152
表示样本控制信号对应的位置误差,
Figure BDA0003625712210000153
表示终点时刻对应的位置误差,ρ(Wh)表示循环权重Wh的谱半径,γ1,γ2,γ3和γ4表示用来平衡奖励信号中各项的加权系数常数,
Figure BDA0003625712210000154
是末端执行器在终点时刻的速度。
基于上述任一实施例,基于样本奖励信号,更新临界网络的权重,包括:
基于样本奖励信号,确定样本奖励信号的期望;
基于样本奖励信号、样本奖励信号的期望以及随机噪声,更新临界网络的权重。
具体地,
Figure BDA0003625712210000155
是R的期望,通过平滑滤波器近似计算如下:
Figure BDA0003625712210000156
其中,n表示第nth次运动,η是滤波系数。
为了充分地探索相应运动的神经活动,在运动学习训练期间将随机噪声应用于循环网络。具体来说,将随机噪声在每个时刻施加于隐藏神经元的膜电位,如下所示:
Figure BDA0003625712210000161
其中,εt~N(0,∑)是在时刻t施加的服从正态分布的随机噪声向量,∑=diag(σ2,...,σ2)是正态分布的协方差矩阵,σ2是噪声的方差,
Figure BDA0003625712210000162
是在学习期间隐藏层神经元的实际膜电位。
进一步,根据REINFOCE算法,循环网络沿着能够产生更高奖励信号的神经元活动的方向进行更新,在每一次运动后,循环网络权重如下更新:
Figure BDA0003625712210000163
Figure BDA0003625712210000164
Figure BDA0003625712210000165
Figure BDA0003625712210000166
其中,ΔWh,ΔWi,ΔWo,Δb分别是权重Wh,Wi,Wo,b的增量,β是学习率。
下面对本发明提供的基于临界状态循环网络的肌肉骨骼机器人控制装置进行描述,下文描述的基于临界状态循环网络的肌肉骨骼机器人控制装置与上文描述的基于临界状态循环网络的肌肉骨骼机器人控制方法可相互对应参照。
基于上述任一实施例,本发明还提供一种基于临界状态循环网络的肌肉骨骼机器人控制装置,如图3所示,该装置包括:
确定单元310,用于确定肌肉骨骼机器人的输入信号;
输出单元320,用于将所述输入信号输入至循环网络,得到所述循环网络输出的控制信号;
控制单元330,用于基于所述控制信号,控制所述肌肉骨骼机器人移动至目标位置;
其中,所述循环网络基于如下步骤训练得到:
基于临界状态权重条件,对初始模型的循环权重和偏置向量进行调整,得到临界网络;
将终点时刻的样本目标位置、作为样本反馈信号的样本位置误差以及当前时刻的样本实际位置输入至所述临界网络,得到所述临界网络输出的样本控制信号,所述样本位置误差基于当前时刻的样本实际位置以及当前时刻的样本目标位置确定;
基于所述样本控制信号对应的样本实际位置、所述样本控制信号对应的样本目标位置以及所述循环网络的谱半径,确定样本奖励信号;
基于所述样本奖励信号,更新所述临界网络的权重,直至所述临界网络达到收敛条件,得到所述循环网络。
图4是本发明提供的电子设备的结构示意图,如图4所示,该电子设备可以包括:处理器(processor)410、存储器(memory)420、通信接口(Communications Interface)430和通信总线440,其中,处理器410,存储器420,通信接口430通过通信总线440完成相互间的通信。处理器410可以调用存储器420中的逻辑指令,以执行基于临界状态循环网络的肌肉骨骼机器人控制方法,该方法包括:确定肌肉骨骼机器人的输入信号;将所述输入信号输入至循环网络,得到所述循环网络输出的控制信号;基于所述控制信号,控制所述肌肉骨骼机器人移动至目标位置;其中,所述循环网络基于如下步骤训练得到:基于临界状态权重条件,对初始模型的循环权重和偏置向量进行调整,得到临界网络;将终点时刻的样本目标位置、作为样本反馈信号的样本位置误差以及当前时刻的样本实际位置输入至所述临界网络,得到所述临界网络输出的样本控制信号,所述样本位置误差基于当前时刻的样本实际位置以及当前时刻的样本目标位置确定;基于所述样本控制信号对应的样本实际位置、所述样本控制信号对应的样本目标位置以及所述循环网络的谱半径,确定样本奖励信号;基于所述样本奖励信号,更新所述临界网络的权重,直至所述临界网络达到收敛条件,得到所述循环网络。
此外,上述的存储器420中的逻辑指令可以通过软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
另一方面,本发明还提供一种计算机程序产品,所述计算机程序产品包括存储在非暂态计算机可读存储介质上的计算机程序,所述计算机程序包括程序指令,当所述程序指令被计算机执行时,计算机能够执行上述各方法所提供的基于临界状态循环网络的肌肉骨骼机器人控制方法,该方法包括:确定肌肉骨骼机器人的输入信号;将所述输入信号输入至循环网络,得到所述循环网络输出的控制信号;基于所述控制信号,控制所述肌肉骨骼机器人移动至目标位置;其中,所述循环网络基于如下步骤训练得到:基于临界状态权重条件,对初始模型的循环权重和偏置向量进行调整,得到临界网络;将终点时刻的样本目标位置、作为样本反馈信号的样本位置误差以及当前时刻的样本实际位置输入至所述临界网络,得到所述临界网络输出的样本控制信号,所述样本位置误差基于当前时刻的样本实际位置以及当前时刻的样本目标位置确定;基于所述样本控制信号对应的样本实际位置、所述样本控制信号对应的样本目标位置以及所述循环网络的谱半径,确定样本奖励信号;基于所述样本奖励信号,更新所述临界网络的权重,直至所述临界网络达到收敛条件,得到所述循环网络。
又一方面,本发明还提供一种非暂态计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现以执行上述各提供的基于临界状态循环网络的肌肉骨骼机器人控制方法,该方法包括:确定肌肉骨骼机器人的输入信号;将所述输入信号输入至循环网络,得到所述循环网络输出的控制信号;基于所述控制信号,控制所述肌肉骨骼机器人移动至目标位置;其中,所述循环网络基于如下步骤训练得到:基于临界状态权重条件,对初始模型的循环权重和偏置向量进行调整,得到临界网络;将终点时刻的样本目标位置、作为样本反馈信号的样本位置误差以及当前时刻的样本实际位置输入至所述临界网络,得到所述临界网络输出的样本控制信号,所述样本位置误差基于当前时刻的样本实际位置以及当前时刻的样本目标位置确定;基于所述样本控制信号对应的样本实际位置、所述样本控制信号对应的样本目标位置以及所述循环网络的谱半径,确定样本奖励信号;基于所述样本奖励信号,更新所述临界网络的权重,直至所述临界网络达到收敛条件,得到所述循环网络。
以上所描述的装置实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下,即可以理解并实施。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件。基于这样的理解,上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在计算机可读存储介质中,如ROM/RAM、磁碟、光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。
最后应说明的是:以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims (10)

1.一种基于临界状态循环网络的肌肉骨骼机器人控制方法,其特征在于,包括:
确定肌肉骨骼机器人的输入信号;
将所述输入信号输入至循环网络,得到所述循环网络输出的控制信号;
基于所述控制信号,控制所述肌肉骨骼机器人移动至目标位置;
其中,所述循环网络基于如下步骤训练得到:
基于临界状态权重条件,对初始模型的循环权重和偏置向量进行调整,得到临界网络;
将终点时刻的样本目标位置、作为样本反馈信号的样本位置误差以及当前时刻的样本实际位置输入至所述临界网络,得到所述临界网络输出的样本控制信号,所述样本位置误差基于当前时刻的样本实际位置以及当前时刻的样本目标位置确定;
基于所述样本控制信号对应的样本实际位置、所述样本控制信号对应的样本目标位置以及所述循环网络的谱半径,确定样本奖励信号;
基于所述样本奖励信号,更新所述临界网络的权重,直至所述临界网络达到收敛条件,得到所述循环网络。
2.根据权利要求1所述的基于临界状态循环网络的肌肉骨骼机器人控制方法,其特征在于,所述临界状态权重条件基于如下公式确定:
Figure FDA0003625712200000011
Figure FDA0003625712200000012
rt=(1-α)rt-1+α(Wixt+Whht-1+b)
ht=tanh(rt)
其中,
Figure FDA0003625712200000013
表示施加到rt上的瞬时噪声向量,
Figure FDA0003625712200000014
为网络在t时刻的输入信号,
Figure FDA0003625712200000021
Figure FDA0003625712200000022
分别为循环网络隐藏层神经元在t时刻的膜电位和激活频率,
Figure FDA0003625712200000023
为所述偏置向量,
Figure FDA0003625712200000024
为连接循环网络输入层神经元和隐藏层神经元的输入权重,
Figure FDA0003625712200000025
为循环网络隐藏层神经元之间相互连接的循环权重,
Figure FDA0003625712200000026
为循环网络输出权重的矩阵。
3.根据权利要求1所述的基于临界状态循环网络的肌肉骨骼机器人控制方法,其特征在于,所述当前时刻的样本目标位置基于如下公式确定:
Figure FDA0003625712200000027
其中,
Figure FDA0003625712200000028
表示所述当前时刻的样本目标位置,O表示起始时刻的样本位置,tF表示肌肉骨骼机器人的运动持续时间,P表示所述终点时刻的样本目标位置。
4.根据权利要求1至3任一项所述的基于临界状态循环网络的肌肉骨骼机器人控制方法,其特征在于,所述基于所述样本控制信号对应的样本实际位置、所述样本控制信号对应的样本目标位置以及所述循环网络的谱半径,确定样本奖励信号,包括:
基于所述样本控制信号对应的样本实际位置以及所述样本控制信号对应的样本目标位置,确定所述样本控制信号对应的位置误差;
基于终点时刻的样本目标位置以及终点时刻的样本实际位置,确定终点时刻对应的位置误差;
基于所述样本控制信号对应的位置误差、所述终点时刻对应的位置误差以及当前循环网络的谱半径,确定所述样本奖励信号。
5.根据权利要求4所述的基于临界状态循环网络的肌肉骨骼机器人控制方法,其特征在于,所述样本奖励信号基于如下公式确定:
Figure FDA0003625712200000029
其中,R表示持续了S个时刻的样本奖励信号,et表示所述样本控制信号对应的位置误差,eend表示所述终点时刻对应的位置误差,ρ(Wh)表示循环权重Wh的谱半径,γ1,γ2,γ3和γ4表示加权系数常数。
6.根据权利要求1至3任一项所述的基于临界状态循环网络的肌肉骨骼机器人控制方法,其特征在于,所述基于所述样本奖励信号,更新所述临界网络的权重,包括:
基于所述样本奖励信号,确定所述样本奖励信号的期望;
基于所述样本奖励信号、所述样本奖励信号的期望以及随机噪声,更新所述临界网络的权重。
7.一种基于临界状态循环网络的肌肉骨骼机器人控制装置,其特征在于,包括:
确定单元,用于确定肌肉骨骼机器人的输入信号;
输出单元,用于将所述输入信号输入至循环网络,得到所述循环网络输出的控制信号;
控制单元,用于基于所述控制信号,控制所述肌肉骨骼机器人移动至目标位置;
其中,所述循环网络基于如下步骤训练得到:
基于临界状态权重条件,对初始模型的循环权重和偏置向量进行调整,得到临界网络;
将终点时刻的样本目标位置、作为样本反馈信号的样本位置误差以及当前时刻的样本实际位置输入至所述临界网络,得到所述临界网络输出的样本控制信号,所述样本位置误差基于当前时刻的样本实际位置以及当前时刻的样本目标位置确定;
基于所述样本控制信号对应的样本实际位置、所述样本控制信号对应的样本目标位置以及所述循环网络的谱半径,确定样本奖励信号;
基于所述样本奖励信号,更新所述临界网络的权重,直至所述临界网络达到收敛条件,得到所述循环网络。
8.一种电子设备,包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现如权利要求1至6任一项所述基于临界状态循环网络的肌肉骨骼机器人控制方法。
9.一种非暂态计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1至6任一项所述基于临界状态循环网络的肌肉骨骼机器人控制方法。
10.一种计算机程序产品,包括计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1至6任一项所述基于临界状态循环网络的肌肉骨骼机器人控制方法。
CN202210476308.8A 2022-04-29 2022-04-29 基于临界状态循环网络的肌肉骨骼机器人控制方法及装置 Pending CN114872042A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210476308.8A CN114872042A (zh) 2022-04-29 2022-04-29 基于临界状态循环网络的肌肉骨骼机器人控制方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210476308.8A CN114872042A (zh) 2022-04-29 2022-04-29 基于临界状态循环网络的肌肉骨骼机器人控制方法及装置

Publications (1)

Publication Number Publication Date
CN114872042A true CN114872042A (zh) 2022-08-09

Family

ID=82674340

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210476308.8A Pending CN114872042A (zh) 2022-04-29 2022-04-29 基于临界状态循环网络的肌肉骨骼机器人控制方法及装置

Country Status (1)

Country Link
CN (1) CN114872042A (zh)

Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20130054021A1 (en) * 2011-08-26 2013-02-28 Disney Enterprises, Inc. Robotic controller that realizes human-like responses to unexpected disturbances
US20190248007A1 (en) * 2018-02-12 2019-08-15 Brain Corporation Autonomous multi-tasking modular robotic system
CN112405542A (zh) * 2020-11-17 2021-02-26 中国科学院自动化研究所 基于脑启发多任务学习的肌肉骨骼机器人控制方法及系统
CN112621760A (zh) * 2020-12-29 2021-04-09 中国科学院自动化研究所 基于神经元增益基元组合优化的机器人运动控制方法
US20210170579A1 (en) * 2019-12-09 2021-06-10 Canon Kabushiki Kaisha Robot controller that controls robot, learned model, method of controlling robot, and storage medium
US20210213605A1 (en) * 2020-01-09 2021-07-15 Robert Bosch Gmbh Robot control unit and method for controlling a robot
US11132598B1 (en) * 2021-02-23 2021-09-28 Neuraville, Llc System and method for humanoid robot control and cognitive self-improvement without programming
CN113618736A (zh) * 2021-08-19 2021-11-09 上海智逍遥机器人有限公司 一种机器人基于多维感知构建执行决策的方法、系统、设备及存储介质
WO2022023386A1 (en) * 2020-07-28 2022-02-03 Deepmind Technologies Limited Off-line learning for robot control using a reward prediction model

Patent Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20130054021A1 (en) * 2011-08-26 2013-02-28 Disney Enterprises, Inc. Robotic controller that realizes human-like responses to unexpected disturbances
US20190248007A1 (en) * 2018-02-12 2019-08-15 Brain Corporation Autonomous multi-tasking modular robotic system
US20210170579A1 (en) * 2019-12-09 2021-06-10 Canon Kabushiki Kaisha Robot controller that controls robot, learned model, method of controlling robot, and storage medium
US20210213605A1 (en) * 2020-01-09 2021-07-15 Robert Bosch Gmbh Robot control unit and method for controlling a robot
WO2022023386A1 (en) * 2020-07-28 2022-02-03 Deepmind Technologies Limited Off-line learning for robot control using a reward prediction model
CN112405542A (zh) * 2020-11-17 2021-02-26 中国科学院自动化研究所 基于脑启发多任务学习的肌肉骨骼机器人控制方法及系统
CN112621760A (zh) * 2020-12-29 2021-04-09 中国科学院自动化研究所 基于神经元增益基元组合优化的机器人运动控制方法
US11132598B1 (en) * 2021-02-23 2021-09-28 Neuraville, Llc System and method for humanoid robot control and cognitive self-improvement without programming
CN113618736A (zh) * 2021-08-19 2021-11-09 上海智逍遥机器人有限公司 一种机器人基于多维感知构建执行决策的方法、系统、设备及存储介质

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
A. KARAKASOGLU;M.K. SUNDARESHAN: "A recurrent neural network-based adaptive variable structure model following control of multijointed robotic manipulators", 《[1992] PROCEEDINGS OF THE 31ST IEEE CONFERENCE ON DECISION AND CONTROL》 *
YAXIONG WU: "Anti-interference analysis of bio-inspired musculoskeletal robotic system", 《NEUROCOMPUTING》 *

Similar Documents

Publication Publication Date Title
CN108284442B (zh) 一种基于模糊神经网络的机械臂柔性关节控制方法
CN112405542B (zh) 基于脑启发多任务学习的肌肉骨骼机器人控制方法及系统
Tamosiunaite et al. Learning to pour with a robot arm combining goal and shape learning for dynamic movement primitives
Wawrzyński et al. Autonomous reinforcement learning with experience replay
CN112445131A (zh) 一种线性系统自适应最优跟踪控制方法
Lonini et al. Robust active binocular vision through intrinsically motivated learning
Bittner et al. Interrogating theoretical models of neural computation with emergent property inference
CN109227550A (zh) 一种基于rbf神经网络的机械臂控制方法
Salimi-Badr et al. Fuzzy neuronal model of motor control inspired by cerebellar pathways to online and gradually learn inverse biomechanical functions in the presence of delay
CN110712201B (zh) 基于感知器模型的机器人多关节自适应补偿方法和稳定器
CN113419424B (zh) 减少过估计的模型化强化学习机器人控制方法及系统
CN111273677A (zh) 一种基于强化学习技术的自主水下机器人速度和艏向控制方法
CN114800500A (zh) 一种用于打磨机器人的柔性恒力控制方法及系统
Brumand-Poor et al. Control of a Hydromechanical Pendulum with a Reinforcement Learning Agent
CN114872042A (zh) 基于临界状态循环网络的肌肉骨骼机器人控制方法及装置
Milovanović et al. Adaptive control of nonlinear MIMO system with orthogonal endocrine intelligent controller
Burms et al. Reward-modulated Hebbian plasticity as leverage for partially embodied control in compliant robotics
Du et al. Reinforcement learning
CN114952791A (zh) 肌肉骨骼机器人控制方法及装置
CN115903901A (zh) 内部状态未知的无人集群系统输出同步优化控制方法
Varsha et al. A stochastic optimal control model with internal feedback and velocity tracking for saccadic eye movements
Mayer et al. Echo state networks and self-prediction
Song et al. Neural network models for spinal implementation of muscle synergies
Dadios et al. Application of neural networks to the flexible pole-cart balancing problem
CN110515297B (zh) 基于冗余肌肉骨骼系统的阶段式运动控制方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination