CN114872040B - 基于小脑预测与修正的肌肉骨骼机器人控制方法及装置 - Google Patents

基于小脑预测与修正的肌肉骨骼机器人控制方法及装置 Download PDF

Info

Publication number
CN114872040B
CN114872040B CN202210418991.XA CN202210418991A CN114872040B CN 114872040 B CN114872040 B CN 114872040B CN 202210418991 A CN202210418991 A CN 202210418991A CN 114872040 B CN114872040 B CN 114872040B
Authority
CN
China
Prior art keywords
control signal
cerebellum
prediction
initial control
correction
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202210418991.XA
Other languages
English (en)
Other versions
CN114872040A (zh
Inventor
张金涵
陈嘉浩
吴伟
乔红
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Institute of Automation of Chinese Academy of Science
Original Assignee
Institute of Automation of Chinese Academy of Science
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Institute of Automation of Chinese Academy of Science filed Critical Institute of Automation of Chinese Academy of Science
Priority to CN202210418991.XA priority Critical patent/CN114872040B/zh
Publication of CN114872040A publication Critical patent/CN114872040A/zh
Application granted granted Critical
Publication of CN114872040B publication Critical patent/CN114872040B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • BPERFORMING OPERATIONS; TRANSPORTING
    • B25HAND TOOLS; PORTABLE POWER-DRIVEN TOOLS; MANIPULATORS
    • B25JMANIPULATORS; CHAMBERS PROVIDED WITH MANIPULATION DEVICES
    • B25J9/00Programme-controlled manipulators
    • B25J9/16Programme controls
    • B25J9/1602Programme controls characterised by the control system, structure, architecture
    • BPERFORMING OPERATIONS; TRANSPORTING
    • B25HAND TOOLS; PORTABLE POWER-DRIVEN TOOLS; MANIPULATORS
    • B25JMANIPULATORS; CHAMBERS PROVIDED WITH MANIPULATION DEVICES
    • B25J9/00Programme-controlled manipulators
    • B25J9/0006Exoskeletons, i.e. resembling a human figure
    • BPERFORMING OPERATIONS; TRANSPORTING
    • B25HAND TOOLS; PORTABLE POWER-DRIVEN TOOLS; MANIPULATORS
    • B25JMANIPULATORS; CHAMBERS PROVIDED WITH MANIPULATION DEVICES
    • B25J9/00Programme-controlled manipulators
    • B25J9/16Programme controls
    • B25J9/1602Programme controls characterised by the control system, structure, architecture
    • B25J9/161Hardware, e.g. neural networks, fuzzy logic, interfaces, processor
    • BPERFORMING OPERATIONS; TRANSPORTING
    • B25HAND TOOLS; PORTABLE POWER-DRIVEN TOOLS; MANIPULATORS
    • B25JMANIPULATORS; CHAMBERS PROVIDED WITH MANIPULATION DEVICES
    • B25J9/00Programme-controlled manipulators
    • B25J9/16Programme controls
    • B25J9/1656Programme controls characterised by programming, planning systems for manipulators
    • B25J9/1664Programme controls characterised by programming, planning systems for manipulators characterised by motion, path, trajectory planning

Abstract

本发明提供一种基于小脑预测与修正的肌肉骨骼机器人控制方法及装置,所述方法包括:基于循环神经网络,得到肌肉骨骼机器人的输入信号对应的初始控制信号;基于小脑预测网络,对初始控制信号进行位置预测,得到初始控制信号对应的预测位置;基于小脑修正网络,根据预测位置、运动预测误差及初始控制信号确定初始控制信号对应的修正信号;基于初始控制信号以及修正信号,确定肌肉骨骼机器人的控制信号,并基于控制信号控制肌肉骨骼机器人移动至目标位置。本发明能够准确控制肌肉骨骼机器人到达目标位置。

Description

基于小脑预测与修正的肌肉骨骼机器人控制方法及装置
技术领域
本发明涉及机器人控制技术领域,尤其涉及一种基于小脑预测与修正的肌肉骨骼机器人控制方法及装置。
背景技术
肌肉骨骼机器人包括肌肉、骨骼、关节等模块,它使用肌肉模块作为动力源,模拟生物肌肉收缩与舒张的特性来驱动关节和连杆。肌肉骨骼机器人能够进行柔顺操作,实现灵活自由的运动,并且具有较高的可靠性。
然而,多肌肉的高度冗余、肌肉与关节之间的高度耦合、肌肉骨骼系统动力学的高度非线性,给肌肉骨骼机器人的控制增加了难度。目前,多通过小脑模型关节控制器对肌肉骨骼机器人进行控制,但是它只模拟了小脑颗粒层的结构,无法准确控制肌肉骨骼机器人准确到达目标位置。
发明内容
本发明提供一种基于小脑预测与修正的肌肉骨骼机器人控制方法及装置,用以解决现有技术中肌肉骨骼机器人控制精度较低的缺陷。
本发明提供一种基于小脑预测与修正的肌肉骨骼机器人控制方法,包括:
基于循环神经网络,得到肌肉骨骼机器人的输入信号对应的初始控制信号;
基于小脑预测网络,对所述初始控制信号进行位置预测,得到所述初始控制信号对应的预测位置;
基于小脑修正网络,根据所述预测位置、运动预测误差及所述初始控制信号确定所述初始控制信号对应的修正信号;
基于所述初始控制信号以及所述修正信号,确定所述肌肉骨骼机器人的控制信号,并基于所述控制信号控制所述肌肉骨骼机器人移动至目标位置;
所述循环神经网络基于样本输入信号、样本初始控制信号以及所述样本初始控制信号对应的奖励值训练得到,所述奖励值基于所述样本初始控制信号对应的样本实际位置与对应的样本目标位置之间的误差确定;所述小脑预测网络基于所述样本初始控制信号以及所述样本初始控制信号对应的样本实际位置训练得到;所述小脑修正网络基于所述样本初始控制信号对应的样本控制信号、所述样本控制信号对应的样本实际位置以及所述奖励值训练得到。
根据本发明提供的一种基于小脑预测与修正的肌肉骨骼机器人控制方法,所述初始控制信号基于如下公式确定:
其中,表示所述初始控制信号,z0表示所述输入信号,rt r表示所述循环神经网络的隐含层神经元的膜电位,/>表示所述循环神经网络的隐含层神经元的放电率,Ur、Wr、Vr以及br分别表示所述循环神经网络的输入权重、循环权重、输出权重以及偏置,αr表示所述循环神经网络的神经元泄漏率,取值范围为(0,1]。
根据本发明提供的一种基于小脑预测与修正的肌肉骨骼机器人控制方法,所述初始控制信号对应的预测位置基于如下公式确定:
其中,ze表示所述初始控制信号对应的预测位置,表示第T个时间步所述小脑预测网络的隐含层神经元的放电率,rt e表示第t个时间步所述小脑预测网络的隐含层神经元的放电率,/>表示第t-1个时间步所述小脑预测网络的隐含层神经元的放电率,t≤T;/>表示所述初始控制信号,/>表示所述小脑预测网络的隐含层神经元的膜电位,Ue、We、Ve以及be分别表示所述小脑预测网络的输入权重、循环权重、输出权重以及偏置,αe表示所述小脑预测网络的神经元泄漏率,取值范围为(0,1]。
根据本发明提供的一种基于小脑预测与修正的肌肉骨骼机器人控制方法,所述小脑预测网络的循环权重基于如下公式确定:
其中,ρ0表示期望谱半径,表示初始化循环权重矩阵,/>表示具有单位谱半径的矩阵;
所述小脑预测网络的输出权重基于如下公式确定:
其中,Nve表示所述小脑预测网络输出的维度,表示/>的第i个元素,/>表示ze的第i个元素,β表示岭参数,Vi e表示Ve的第i行。
根据本发明提供的一种基于小脑预测与修正的肌肉骨骼机器人控制方法,所述根据所述预测位置、运动预测误差及所述初始控制信号确定所述初始控制信号对应的修正信号,包括:
基于所述目标位置以及所述运动预测误差,确定修正时长;所述运动预测误差指所述预测位置与所述目标位置之差;
在所述修正时长内,基于所述预测位置、所述运动预测误差以及所述初始控制信号,确定所述修正信号。
根据本发明提供的一种基于小脑预测与修正的肌肉骨骼机器人控制方法,所述修正时长基于如下公式确定:
其中,ttot表示所述修正时长,tbase表示弹道运动阶段的基本时长,tdynamic表示弹道运动阶段的动态时长,表示所述预测位置与所述目标位置之差,δ表示运动期望精度,η1表示运动难度指标的因子,η2表示运动精度指标的因子,D表示运动距离。
根据本发明提供的一种基于小脑预测与修正的肌肉骨骼机器人控制方法,所述确定所述肌肉骨骼机器人的控制信号,之后还包括:
基于所述肌肉骨骼机器人的控制信号以及所述实际位置,更新所述小脑预测网络。
根据本发明提供的一种基于小脑预测与修正的肌肉骨骼机器人控制方法,所述小脑修正网络的超参数基于如下公式更新:
其中,αn,ltpn以及ltdn表示所述小脑修正网络的超参数,cα,cp以及cd分别表示αn,ltpn以及ltdn的初始化值,xn表示小脑修正网络神经元的放电率,表示所述肌肉骨骼机器人的控制信号,/>表示所述初始控制信号。
本发明还提供一种基于小脑预测与修正的肌肉骨骼机器人控制装置,包括:
初始信号确定单元,用于基于循环神经网络,得到肌肉骨骼机器人的输入信号对应的初始控制信号;
预测位置确定单元,用于基于小脑预测网络,对所述初始控制信号进行位置预测,得到所述初始控制信号对应的预测位置;
控制信号确定单元,用于基于小脑修正网络,根据所述预测位置、运动预测误差及所述初始控制信号确定所述初始控制信号对应的修正信号;
运动控制单元,基于所述初始控制信号以及所述修正信号,确定所述肌肉骨骼机器人的控制信号,并基于所述控制信号控制所述肌肉骨骼机器人移动至目标位置;
所述循环神经网络基于样本输入信号、样本初始控制信号以及所述样本初始控制信号对应的奖励值训练得到,所述奖励值基于所述样本初始控制信号对应的样本实际位置与对应的样本目标位置之间的误差确定;所述小脑预测网络基于所述样本初始控制信号以及所述样本初始控制信号对应的样本实际位置训练得到;所述小脑修正网络基于所述样本初始控制信号对应的样本控制信号、所述样本控制信号对应的样本实际位置以及所述样本控制信号对应的奖励值训练得到,奖励值是控制信号对应的实际位置与对应的目标位置之间的误差。
本发明还提供一种肌肉骨骼机器人,包括:如上所述的肌肉骨骼机器人控制装置。
本发明还提供一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现如上述任一种所述肌肉骨骼机器人控制方法。
本发明还提供一种非暂态计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现如上述任一种所述肌肉骨骼机器人控制方法。
本发明还提供一种计算机程序产品,包括计算机程序,所述计算机程序被处理器执行时实现如上述任一种所述肌肉骨骼机器人控制方法。
本发明提供的基于小脑预测与修正的肌肉骨骼机器人控制方法及装置,基于小脑预测网络,对初始控制信号进行位置预测,得到初始控制信号对应的预测位置,从而可以基于小脑修正网络,对初始控制信号进行修正信号,进而使得得到的控制信号能够准确控制肌肉骨骼机器人到达目标位置。
附图说明
为了更清楚地说明本发明或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本发明提供的基于小脑预测与修正的肌肉骨骼机器人控制方法的流程示意图;
图2是本发明提供的基于小脑预测与修正的肌肉骨骼机器人控制装置的结构示意图;
图3是本发明提供的电子设备的结构示意图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚,下面将结合本发明中的附图,对本发明中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
目前,多通过小脑模型关节控制器对肌肉骨骼机器人进行控制,但是它只模拟了小脑颗粒层的结构,没有借鉴整个小脑通路去增强控制器的功能,并且它本质上是一种非线性查表系统,能够处理的大都是映射和分类的任务,无法准确控制肌肉骨骼机器人准确到达目标位置。
对此,本发明提供一种基于小脑预测与修正的肌肉骨骼机器人控制方法。图1是本发明提供的基于小脑预测与修正的肌肉骨骼机器人控制方法的流程示意图,如图1所示,该方法包括如下步骤:
步骤110、基于循环神经网络,得到肌肉骨骼机器人的输入信号对应的初始控制信号;循环神经网络基于样本输入信号、样本初始控制信号以及样本初始控制信号对应的奖励值训练得到,奖励值基于样本初始控制信号对应的样本实际位置与对应的样本目标位置之间的误差确定。
此处,输入信号可以理解为肌肉骨骼机器人的目标位置,初始控制信号指用于控制肌肉骨骼机器人运动的信号,即可以理解为肌肉骨骼机器人的原始肌肉信号,以控制肌肉骨骼机器人移动至目标位置。本发明实施例使用循环神经网络模拟大脑皮层将肌肉骨骼机器人的输入信号输入至循环神经网络,由循环神经网络得到初始控制信号。其中,循环神经网络样本输入信号、样本初始控制信号以及样本初始控制信号对应的奖励值训练得到,奖励值基于样本初始控制信号对应的样本实际位置与对应的样本目标位置之间的误差确定。
步骤120、基于小脑预测网络,对初始控制信号进行位置预测,得到初始控制信号对应的预测位置。小脑预测网络基于样本初始控制信号以及样本初始控制信号对应的样本实际位置训练得到。
具体地,小脑预测网络用于根据循环神经网络输出的初始控制信号进行位置预测,以确定肌肉骨骼机器人在初始控制信号的作用下的预测位置。
需要说明的是,循环神经网络输出的初始控制信号可能无法保证肌肉骨骼机器人精确到达目标位置,即肌肉骨骼机器人所到达的实际位置可能与目标位置存在偏差。
步骤130、基于小脑修正网络,根据预测位置、运动预测误差及初始控制信号确定初始控制信号对应的修正信号。小脑修正网络基于样本初始控制信号对应的样本控制信号、样本控制信号对应的样本实际位置以及所述样本控制信号对应的奖励值训练得到,奖励值是控制信号对应的实际位置与对应的目标位置之间的误差。
步骤140、基于初始控制信号以及修正信号,确定肌肉骨骼机器人的控制信号,并基于控制信号控制肌肉骨骼机器人移动至目标位置。
具体地,考虑到肌肉骨骼机器人所能到达实际位置与目标位置存在偏差,本发明实施例可以基于目标位置以及预测位置确定运动预测误差,小脑修正网络根据预测位置、运动预测误差、初始控制信号来确定修正信号,并将初始控制信号与修正信号叠加得到最终的控制信号,能够控制肌肉骨骼机器人准确到达目标位置。
需要说明的是,小脑预测网络可以与小脑修正网络级联,得到运动控制模型,将此运动控制模型应用于肌肉骨骼机器人系统,有效提高肌肉骨骼机器人的运动精度,并且增强了机器人的运动泛化能力与系统鲁棒性。
本发明实施例提供的基于小脑预测与修正的肌肉骨骼机器人控制方法,基于小脑预测网络,对初始控制信号进行位置预测,得到初始控制信号对应的预测位置,从而可以基于小脑修正网络,对初始控制信号进行修正信号,进而使得得到的控制信号能够准确控制肌肉骨骼机器人到达目标位置。
基于上述实施例,肌肉骨骼机器人运动过程每个回合有T个时间步,在第t个时间步时对应的初始控制信号基于如下公式确定:
其中,表示初始控制信号,z0表示输入信号,rt r表示循环神经网络的隐含层神经元的膜电位,/>表示循环神经网络的隐含层神经元的放电率,Ur、Wr、Vr以及br分别表示循环神经网络的输入权重、循环权重、输出权重以及偏置,αr表示循环神经网络的神经元泄漏率,取值范围为(0,1]。
此外,在循环神经网络的隐含层添加随机噪声扰动,能够提高循环神经网络学习的探索能力,具体隐含层模型表示如下:
其中,ζt~N(0,σ2I)是在t时刻添加到神经元的噪声扰动信号,σ2是扰动方差,I是单位矩阵。
每个回合结束之后,循环神经网络使用强化算法更新网络权重,具体如下:
其中,η是学习率,R是每个回合结束后用于评价网络性能的奖励值,是预测的网络奖励。/>的计算方法是/>其中αR∈(0,1]是一常数。f可以是任意超线性函数,这里使用符号平方函数f(x)=x|x|。
为了使循环神经网络的所有神经元放电率(即集群响应)具有一致性,令集群响应的变化率收敛到0,因此Wr应满足此时‖WrF不能过大。其中,ρ(·)表示矩阵的谱半径,/>表示Wr中所有元素取绝对值,||·||F表示矩阵的Frobenius范数,为了增强网络的表征能力,可以适当增大br。同时,每个回合后ΔWr可以被限制在一个小邻域内变化,使得循环神经网络保持期望的集群响应特性,其中ΔWr计算如下:
其中,Ω为常数且Ω>0。
此外,为了提高循环神经网络学习的收敛速率,在每个回合后使用奖励熵Φ更新循环神经网络的超参数:
其中,χn表示网络超参数η、αR、σ2在第n个回合的值,χinit表示网络超参数η、αR、σ2的初始值,Φn表示第n个回合的奖励熵,τ表示常数。
在训练完成循环神经网络后,固定循环神经网络的权重,用于基于输入信号得到初始控制信号。
基于上述任一实施例,小脑预测网络能够预测肌肉骨骼机器人在已有初始控制信号的作用下将会产生的运动结果,即预测位置。小脑颗粒层是小脑处理时空信息的第一阶段,能够编码并整合输入信号。借鉴小脑颗粒层的储备池计算机制,使用回声状态网络建立小脑预测网络。与循环神经网络类似,每个回合中回声状态网络有T个时间步。初始控制信号对应的预测位置基于如下公式确定:
其中,ze表示初始控制信号对应的预测位置,表示第T个时间步小脑预测网络的隐含层神经元的放电率,rt e表示第t个时间步小脑预测网络的隐含层神经元的放电率,/>表示第t-1个时间步小脑预测网络的隐含层神经元的放电率,t≤T;/>表示初始控制信号,表示小脑预测网络的隐含层神经元的膜电位,Ue、We、Ve以及be分别表示小脑预测网络的输入权重、循环权重、输出权重以及偏置,αe表示小脑预测网络的神经元泄漏率,取值范围为(0,1]。
基于上述任一实施例,小脑预测网络的隐含层也被称为储备池。搭建小脑预测网络的关键超参数是储备池连接矩阵We(即循环权重)的谱半径ρ(We)。谱半径决定了输入信号在储备池中的衰减程度。一般而言,如果当前输出更多地取决于最近历史的输入,谱半径通常取较小的值;如果当前输出需要更长的历史输入,谱半径通常取较大的值。但如果储备池的谱半径过大,可能会导致储备池的状态存在多个固定点、产生周期性甚至混沌性。大多数情况下,令ρ(We)<1是较好的选择。设计具有期望谱半径ρ0的储备池权重矩阵We的方法如下:随机初始化产生一个循环权重矩阵计算出其谱半径/>则小脑预测网络的循环权重基于如下公式确定:
其中,ρ0表示期望谱半径,表示初始化循环权重矩阵,/>表示具有单位谱半径的矩阵;
Ue、We和be在小脑预测网络初始化阶段随机生成后固定不变,训练阶段只需要更新Ve。由于网络状态和输出ze是线性关系,为了使网络的实际输出ze逼近期望输出/>使用岭回归方法求解最优输出权重Ve,具体计算公式如下:
其中,Nve表示小脑预测网络输出的维度,表示/>的第i个元素,/>表示ze的第i个元素,β表示岭参数,Vi e表示Ve的第i行,||·||2是矩阵的欧几里得范数。求解上述最小化问题,结果如下:
此外,小脑预测网络原始的训练集可表示如下:
其中,ur和zr分别是循环神经网络产生的初始控制信号及其控制肌肉骨骼机器人所到达的实际位置,下标(i)表示第i组数据。
基于上述任一实施例,根据预测位置、运动预测误差及初始控制信号确定初始控制信号对应的修正信号,包括:
基于目标位置以及运动预测误差,确定修正时长;运动预测误差指预测位置与目标位置之差;
在修正时长内,基于预测位置、运动预测误差以及初始控制信号,确定修正信号。
具体地,小脑修正网络受小脑神经通路启发而构建。该网络主要由三条通路组成:平行纤维(PF)→浦肯野细胞(PC)→小脑深部核团(DCN),苔藓纤维(MF)→小脑深部核团(DCN),下橄榄核(IO)→小脑深部核团(DCN)。网络表示如下:
xPC=WPF-PC*xPF
xPC-DCN=WPC-DCN*xPC
xMF-DCN=WMF-DCN*xMF
xIO-DCN=WIO-DCN*xIO
xDCN=Δuc=h[-h(∑jxPC-DCN,j)+h(∑jxMF-DCN,j)+h(∑jxIO-DCN,j)]
其中,xPF、xPC、xMF、xIO分别是PF、PC、MF、IO的放电率,分别代表了预测位置、编码的预测位置、当前控制指令、预测位置误差,WPF-PC、WPC-DCN、WMF-DCN、WIO-DCN分别是神经通路PF→PC、PC→DCN、MF→DCN、IO→DCN的连接权重,j表示位置坐标中的第j轴,符号*表示矩阵对应元素相乘。其中,PC→DCN通路是抑制性连接,这种连接方式一方面是模拟小脑中浦肯野细胞到深部核团的抑制性连接机制,另一方面防止了DCN的输入信号过饱和。
小脑修正网络借鉴小脑在肢体弹道运动阶段的调节作用,基于目标位置以及预测运动误差,确定每个回合的修正时长,然后在修正时长内,基于预测位置、运动预测误差以及初始控制信号,确定修正信号,从而可以基于修正信号对初始控制信号进行修正,得到控制信号。其中,控制信号基于如下公式确定:
utot=ur+Δuc
式中,utot表示控制信号,ur表示初始控制信号,Δuc表示修正信号。
基于上述任一实施例,修正时长基于如下公式确定:
其中,ttot表示修正时长,tbase表示弹道运动阶段的基本时长,tdynamic表示弹道运动阶段的动态时长,表示预测位置与目标位置之差,δ表示运动期望精度,η1表示运动难度指标的因子,η2表示运动精度指标的因子,D表示运动距离,/>是向上取整函数。IDmax=log2(2Dmax/δ),其中Dmax为肌肉骨骼机器人能够到达的最远距离。
基于上述任一实施例,确定肌肉骨骼机器人的控制信号,之后还包括:
基于肌肉骨骼机器人的控制信号以及实际位置,更新小脑预测网络。
具体地,经过小脑修正网络调控后得到的控制信号,其数据分布形式与循环神经网络产生的初始控制信号差别较大,此时初始的小脑预测网络预测结果误差较大,需要继续训练更新小脑预测网络。
小脑网络修正后的数据集表示如下:
其中,utot和z分别是控制信号及其控制肌肉骨骼机器人所到达的实际位置。每一个回合训练结束之后,ST都会增添一组新的数据对。
因此,可以使用修正数据集ST更新小脑预测网络,同时还保证不遗忘原始数据集SR的知识,使用持续学习理论中的重放方法,从SR和ST中抽取部分数据组成新的训练集:
S=Choice(SRR%)∪Choice(STT%)
其中,Choice(S,γ%)表示从集合S中选取比例为γ%的元素组成的集合。可选地,为了最大程度上利用原有知识,Choice(SRR%)将特意选取一些典型运动位置所对应的数据;同时,γT%>γR%,保证了网络学习新知识的能力。
基于上述任一实施例,小脑修正网络权重更新方式模拟小脑突触可塑性中的长时程增强(LTP)和长时程抑制(LTD)规则,这种学习规则参与了运动学习与记忆的过程。网络权重更新规则如下:
其中,LTPmax和LTDmax分别是LTP和LTD的最大值,α是LTP的衰减因子,上标PF-PC、PC-DCN、MF-DCN、IO-DCN表示了变量对应的神经通路,ε=(z-z0)/Dmax是机器人实际位置与目标位置的归一化误差,i表示第i条肌肉,j表示位置坐标中的第j轴,Tc表示小脑网络最后一个修正时刻。在IO→DCN通路中,没有明显的LTP和LTD现象,借鉴小脑突触可塑性思想,使用调制项MTP和MTD构造
为了更好地分析上述权重更新公式,可以抽象如下:
其中,ω、x、α、ltp、ltd分别是ΔWloop、xloop(或ε)、αloop(或/>)、(或/>)的简化。对ω(x,α,ltp,ltd)具体分析如下。
ω对x求偏导数如下:
显然,对于所有的x∈[0,1],因此ω是关于x的减函数。当x较小时,ltp项是表达式的主导项,此时ω的最大值趋近于ltp;反之,当x较大时,ltd项占主导,此时ω的最小值趋近于ltd。因此,权重更新公式能够反映出LTP和LTD过程。同时也表明,ltp和ltd决定了ω的上下界。
ω对α求偏导数如下:
显然,对于所有的α>0,因此ω是关于α的减函数。当ltp和ltd固定时,α决定了ω(x)的斜率与零点的大小。为了使LTP和LTD作用更明显,α应取较大的值,但α不能太大,否则(x+1)α易趋近于无穷。因此应当选择大小适中的α值。
进一步地,为了加快学习效率,并增强LTP和LTD作用,第n个回合之后小脑修正网络的超参数基于如下公式更新:
其中,αn,ltpn以及ltdn表示小脑修正网络的超参数,cα,cp以及cd分别表示αn,ltpn以及ltdn的初始化值,xn表示小脑修正网络神经元的放电率,表示肌肉骨骼机器人的控制信号,/>表示初始控制信号,x0是ω(x)的零点。sgn(·)是符号函数。当α较小时,ω能够较均匀地随x变化,不会产生急剧的增大或减小,因此令α=1,此时x0可计算为:
在αn的计算公式中,当xn较小时,αn较小,则ωn也就较大,能够起到较强的LTP作用,反之能够起到较强的LTD作用。在ltpn和ltdn的计算公式中,当时,说明曾经发生过LTP现象使得控制信号增强,则进一步增大ltp从而增强LTP作用,同时进一步减小ltd从而减弱LTD作用;反之,当/>时,则增强LTD作用而减弱LTP作用。通过这些超参数更新过程,能够有效提高小脑修正网络的学习效率。此外,/>不能直接抽象成ω(x,α,ltp,ltd)的形式,但是它们的分析过程类似,同时也采用上述超参数更新规则。
下面对本发明提供的肌肉骨骼机器人控制装置进行描述,下文描述的肌肉骨骼机器人控制装置与上文描述的肌肉骨骼机器人控制方法可相互对应参照。
基于上述任一实施例,本发明还提供一种基于小脑预测与修正的肌肉骨骼机器人控制装置,如图2所示,该装置包括:
初始信号确定单元,用于基于循环神经网络,得到肌肉骨骼机器人的输入信号对应的初始控制信号;
预测位置确定单元,用于基于小脑预测网络,对所述初始控制信号进行位置预测,得到所述初始控制信号对应的预测位置;
控制信号确定单元,用于基于小脑修正网络,根据所述预测位置、运动预测误差及所述初始控制信号确定所述初始控制信号对应的修正信号;
运动控制单元,基于所述初始控制信号以及所述修正信号,确定所述肌肉骨骼机器人的控制信号,用于基于所述控制信号控制所述肌肉骨骼机器人移动至目标位置;
所述循环神经网络基于样本输入信号、样本初始控制信号以及所述样本初始控制信号对应的奖励值训练得到,所述奖励值基于所述样本初始控制信号对应的样本实际位置与对应的样本目标位置之间的误差确定;所述小脑预测网络基于所述样本初始控制信号以及所述样本初始控制信号对应的样本实际位置训练得到;所述小脑修正网络基于所述样本初始控制信号对应的样本控制信号、所述样本控制信号对应的样本实际位置以及所述奖励值训练得到。
基于上述任一实施例,本发明还提供一种肌肉骨骼机器人,包括:如上所述的基于小脑预测与修正的肌肉骨骼机器人控制装置。基于小脑预测网络,对初始控制信号进行位置预测,得到初始控制信号对应的预测位置,从而可以基于小脑修正网络,对初始控制信号进行修正信号,进而使得得到的控制信号能够准确控制肌肉骨骼机器人到达目标位置。
图3是本发明提供的电子设备的结构示意图,如图3所示,该电子设备可以包括:处理器(processor)310、存储器(memory)320、通信接口(Communications Interface)330和通信总线340,其中,处理器310,存储器320,通信接口330通过通信总线340完成相互间的通信。处理器310可以调用存储器320中的逻辑指令,以执行基于小脑预测与修正的肌肉骨骼机器人控制方法,该方法包括:基于循环神经网络,得到肌肉骨骼机器人的输入信号对应的初始控制信号;基于小脑预测网络,对所述初始控制信号进行位置预测,得到所述初始控制信号对应的预测位置;基于小脑修正网络,根据所述预测位置、运动预测误差及所述初始控制信号确定所述初始控制信号对应的修正信号;基于所述初始控制信号以及所述修正信号,确定所述肌肉骨骼机器人的控制信号,并基于所述控制信号控制所述肌肉骨骼机器人移动至所述目标位置;所述循环神经网络基于样本输入信号、样本初始控制信号以及所述样本初始控制信号对应的奖励值训练得到,所述奖励值基于所述样本初始控制信号对应的样本实际位置与对应的样本目标位置之间的误差确定;所述小脑预测网络基于所述样本初始控制信号以及所述样本初始控制信号对应的样本实际位置训练得到;所述小脑修正网络基于所述样本初始控制信号对应的样本控制信号、所述样本控制信号对应的样本实际位置以及所述奖励值训练得到。
此外,上述的存储器320中的逻辑指令可以通过软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
另一方面,本发明还提供一种计算机程序产品,所述计算机程序产品包括存储在非暂态计算机可读存储介质上的计算机程序,所述计算机程序包括程序指令,当所述程序指令被计算机执行时,计算机能够执行上述各方法所提供的基于小脑预测与修正的肌肉骨骼机器人控制方法,该方法包括:基于循环神经网络,得到肌肉骨骼机器人的输入信号对应的初始控制信号;基于小脑预测网络,对所述初始控制信号进行位置预测,得到所述初始控制信号对应的预测位置;基于小脑修正网络,根据所述预测位置、运动预测误差及所述初始控制信号确定所述初始控制信号对应的修正信号;基于所述初始控制信号以及所述修正信号,确定所述肌肉骨骼机器人的控制信号,并基于所述控制信号控制所述肌肉骨骼机器人移动至所述目标位置;所述循环神经网络基于样本输入信号、样本初始控制信号以及所述样本初始控制信号对应的奖励值训练得到,所述奖励值基于所述样本初始控制信号对应的样本实际位置与对应的样本目标位置之间的误差确定;所述小脑预测网络基于所述样本初始控制信号以及所述样本初始控制信号对应的样本实际位置训练得到;所述小脑修正网络基于所述样本初始控制信号对应的样本控制信号、所述样本控制信号对应的样本实际位置以及所述奖励值训练得到。
又一方面,本发明还提供一种非暂态计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现以执行上述各提供的基于小脑预测与修正的肌肉骨骼机器人控制方法,该方法包括:基于循环神经网络,得到肌肉骨骼机器人的输入信号对应的初始控制信号;基于小脑预测网络,对所述初始控制信号进行位置预测,得到所述初始控制信号对应的预测位置;基于小脑修正网络,根据所述预测位置、运动预测误差及所述初始控制信号确定所述初始控制信号对应的修正信号;基于所述初始控制信号以及所述修正信号,确定所述肌肉骨骼机器人的控制信号,并基于所述控制信号控制所述肌肉骨骼机器人移动至所述目标位置;所述循环神经网络基于样本输入信号、样本初始控制信号以及所述样本初始控制信号对应的奖励值训练得到,所述奖励值基于所述样本初始控制信号对应的样本实际位置与对应的样本目标位置之间的误差确定;所述小脑预测网络基于所述样本初始控制信号以及所述样本初始控制信号对应的样本实际位置训练得到;所述小脑修正网络基于所述样本初始控制信号对应的样本控制信号、所述样本控制信号对应的样本实际位置以及所述奖励值训练得到。
以上所描述的装置实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下,即可以理解并实施。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件。基于这样的理解,上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在计算机可读存储介质中,如ROM/RAM、磁碟、光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。
最后应说明的是:以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims (10)

1.一种基于小脑预测与修正的肌肉骨骼机器人控制方法,其特征在于,包括:
基于循环神经网络,得到肌肉骨骼机器人的输入信号对应的初始控制信号;
基于小脑预测网络,对所述初始控制信号进行位置预测,得到所述初始控制信号对应的预测位置;
基于小脑修正网络,根据所述预测位置、运动预测误差及所述初始控制信号确定所述初始控制信号对应的修正信号;所述运动预测误差指所述预测位置与所述目标位置之差;
将所述初始控制信号与所述修正信号叠加得到所述肌肉骨骼机器人的控制信号,并基于所述控制信号控制所述肌肉骨骼机器人移动至目标位置;
所述循环神经网络基于样本输入信号、样本初始控制信号以及所述样本初始控制信号对应的奖励值训练得到,所述奖励值基于所述样本初始控制信号对应的样本实际位置与对应的样本目标位置之间的误差确定;所述小脑预测网络基于所述样本初始控制信号以及所述样本初始控制信号对应的样本实际位置训练得到;所述小脑修正网络基于所述样本初始控制信号对应的样本控制信号、所述样本控制信号对应的样本实际位置以及所述奖励值训练得到。
2.根据权利要求1所述的基于小脑预测与修正的肌肉骨骼机器人控制方法,其特征在于,所述初始控制信号基于如下公式确定:
其中,表示所述初始控制信号,z0表示所述输入信号,rt r表示所述循环神经网络的隐含层神经元的膜电位,/>表示所述循环神经网络的隐含层神经元的放电率,Ur、Wr、Vr以及br分别表示所述循环神经网络的输入权重、循环权重、输出权重以及偏置,αr表示所述循环神经网络的神经元泄漏率,取值范围为(0,1]。
3.根据权利要求1所述的基于小脑预测与修正的肌肉骨骼机器人控制方法,其特征在于,所述初始控制信号对应的预测位置基于如下公式确定:
其中,ze表示所述初始控制信号对应的预测位置,表示第T个时间步所述小脑预测网络的隐含层神经元的放电率,rt e表示第t个时间步所述小脑预测网络的隐含层神经元的放电率,/>表示第t-1个时间步所述小脑预测网络的隐含层神经元的放电率,t≤T;/>表示所述初始控制信号,/>表示所述小脑预测网络的隐含层神经元的膜电位,Ue、We、Ve以及be分别表示所述小脑预测网络的输入权重、循环权重、输出权重以及偏置,αe表示所述小脑预测网络的神经元泄漏率,取值范围为(0,1]。
4.根据权利要求3所述的基于小脑预测与修正的肌肉骨骼机器人控制方法,其特征在于,所述小脑预测网络的循环权重基于如下公式确定:
其中,ρ0表示期望谱半径,表示初始化循环权重矩阵,/>表示具有单位谱半径的矩阵;
所述小脑预测网络的输出权重基于如下公式确定:
其中,Nve表示所述小脑预测网络输出的维度,表示/>的第i个元素,/>表示ze的第i个元素,β表示岭参数,Vi e表示Ve的第i行。
5.根据权利要求1所述的基于小脑预测与修正的肌肉骨骼机器人控制方法,其特征在于,所述根据所述预测位置、运动预测误差及所述初始控制信号确定所述初始控制信号对应的修正信号,包括:
基于所述目标位置以及所述运动预测误差,确定修正时长;所述运动预测误差指所述预测位置与所述目标位置之差;
在所述修正时长内,基于所述预测位置、所述运动预测误差以及所述初始控制信号,确定所述修正信号。
6.根据权利要求5所述的基于小脑预测与修正的肌肉骨骼机器人控制方法,其特征在于,所述修正时长基于如下公式确定:
其中,ttot表示所述修正时长,tbase表示弹道运动阶段的基本时长,tdynamic表示弹道运动阶段的动态时长,表示所述预测位置与所述目标位置之差,δ表示运动期望精度,η1表示运动难度指标的因子,η2表示运动精度指标的因子,D表示运动距离。
7.根据权利要求1至6任一项所述的基于小脑预测与修正的肌肉骨骼机器人控制方法,其特征在于,所述确定所述肌肉骨骼机器人的控制信号,之后还包括:
基于所述肌肉骨骼机器人的控制信号以及所述实际位置,更新所述小脑预测网络。
8.根据权利要求1至6任一项所述的基于小脑预测与修正的肌肉骨骼机器人控制方法,其特征在于,所述小脑修正网络的超参数基于如下公式更新:
其中,αn,ltpn以及ltdn表示所述小脑修正网络的超参数,cα,cp以及cd分别表示αn,ltpn以及ltdn的初始化值,xn表示小脑修正网络神经元的放电率,表示所述肌肉骨骼机器人的控制信号,/>表示所述初始控制信号。
9.一种基于小脑预测与修正的肌肉骨骼机器人控制装置,其特征在于,包括:
初始信号确定单元,用于基于循环神经网络,得到肌肉骨骼机器人的输入信号对应的初始控制信号;
预测位置确定单元,用于基于小脑预测网络,对所述初始控制信号进行位置预测,得到所述初始控制信号对应的预测位置;
控制信号确定单元,用于基于小脑修正网络,根据所述预测位置、运动预测误差及所述初始控制信号确定所述初始控制信号对应的修正信号;所述运动预测误差指所述预测位置与所述目标位置之差;
运动控制单元,将所述初始控制信号与所述修正信号叠加得到所述肌肉骨骼机器人的控制信号,并基于所述控制信号控制所述肌肉骨骼机器人移动至目标位置;
所述循环神经网络基于样本输入信号、样本初始控制信号以及所述样本初始控制信号对应的奖励值训练得到,所述奖励值基于所述样本初始控制信号对应的样本实际位置与对应的样本目标位置之间的误差确定;所述小脑预测网络基于所述样本初始控制信号以及所述样本初始控制信号对应的样本实际位置训练得到;所述小脑修正网络基于所述样本初始控制信号对应的样本控制信号、所述样本控制信号对应的样本实际位置以及所述奖励值训练得到。
10.一种电子设备,包括存储器、处理器及存储在所述存储器上并在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现如权利要求1至8任一项所述基于小脑预测与修正的肌肉骨骼机器人控制方法。
CN202210418991.XA 2022-04-20 2022-04-20 基于小脑预测与修正的肌肉骨骼机器人控制方法及装置 Active CN114872040B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210418991.XA CN114872040B (zh) 2022-04-20 2022-04-20 基于小脑预测与修正的肌肉骨骼机器人控制方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210418991.XA CN114872040B (zh) 2022-04-20 2022-04-20 基于小脑预测与修正的肌肉骨骼机器人控制方法及装置

Publications (2)

Publication Number Publication Date
CN114872040A CN114872040A (zh) 2022-08-09
CN114872040B true CN114872040B (zh) 2024-04-16

Family

ID=82671405

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210418991.XA Active CN114872040B (zh) 2022-04-20 2022-04-20 基于小脑预测与修正的肌肉骨骼机器人控制方法及装置

Country Status (1)

Country Link
CN (1) CN114872040B (zh)

Citations (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4852018A (en) * 1987-01-07 1989-07-25 Trustees Of Boston University Massively parellel real-time network architectures for robots capable of self-calibrating their operating parameters through associative learning
CA2495405A1 (en) * 2002-08-21 2004-03-04 New York University Neuro-mimetic control systems and methods
EP1510446A2 (en) * 2003-08-25 2005-03-02 Sony Corporation Robot and attitude control method of robot
WO2007076516A2 (en) * 2005-12-28 2007-07-05 Neurosciences Research Foundation, Inc. Brain-based device having a cerebellar model for predictive motor control
US8868221B1 (en) * 2008-08-22 2014-10-21 Marvell International Ltd. Adaptive neural net feed forward system and method for adaptive control of mechanical systems
WO2018175698A1 (en) * 2017-03-22 2018-09-27 Larsx Continuously learning and optimizing artificial intelligence (ai) adaptive neural network (ann) computer modeling methods and systems
CN108710285A (zh) * 2018-03-28 2018-10-26 珠海格力智能装备有限公司 工业机器人模型仿真控制方法及装置
CN110537922A (zh) * 2019-09-09 2019-12-06 北京航空航天大学 基于深度学习的人体行走过程下肢运动识别方法及系统
CN110826437A (zh) * 2019-10-23 2020-02-21 中国科学院自动化研究所 基于生物神经网络的智能机器人控制方法、系统、装置
US10576323B1 (en) * 2015-08-19 2020-03-03 Frank A. Latella, Jr. Neuromuscular training system and method of training using same
CN112405542A (zh) * 2020-11-17 2021-02-26 中国科学院自动化研究所 基于脑启发多任务学习的肌肉骨骼机器人控制方法及系统
CN112621760A (zh) * 2020-12-29 2021-04-09 中国科学院自动化研究所 基于神经元增益基元组合优化的机器人运动控制方法
CN112731812A (zh) * 2020-12-29 2021-04-30 中国科学院自动化研究所 基于神经元增益调制的机器人运动控制方法、系统、装置
CN113084814A (zh) * 2021-04-13 2021-07-09 中国科学院自动化研究所 基于分布位置优化实现肌肉骨骼机器人运动控制的方法

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20040138780A1 (en) * 2002-11-15 2004-07-15 Lewis Murray Anthony Certain principles of biomorphic robots
CN101590323B (zh) * 2009-07-08 2012-10-31 北京工业大学 独轮机器人系统及其控制方法
US20130054021A1 (en) * 2011-08-26 2013-02-28 Disney Enterprises, Inc. Robotic controller that realizes human-like responses to unexpected disturbances
US9753959B2 (en) * 2013-10-16 2017-09-05 University Of Tennessee Research Foundation Method and apparatus for constructing a neuroscience-inspired artificial neural network with visualization of neural pathways
US20180357545A1 (en) * 2017-06-08 2018-12-13 PROME, Inc. Artificial connectomes

Patent Citations (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4852018A (en) * 1987-01-07 1989-07-25 Trustees Of Boston University Massively parellel real-time network architectures for robots capable of self-calibrating their operating parameters through associative learning
CA2495405A1 (en) * 2002-08-21 2004-03-04 New York University Neuro-mimetic control systems and methods
EP1510446A2 (en) * 2003-08-25 2005-03-02 Sony Corporation Robot and attitude control method of robot
WO2007076516A2 (en) * 2005-12-28 2007-07-05 Neurosciences Research Foundation, Inc. Brain-based device having a cerebellar model for predictive motor control
US8868221B1 (en) * 2008-08-22 2014-10-21 Marvell International Ltd. Adaptive neural net feed forward system and method for adaptive control of mechanical systems
US10576323B1 (en) * 2015-08-19 2020-03-03 Frank A. Latella, Jr. Neuromuscular training system and method of training using same
WO2018175698A1 (en) * 2017-03-22 2018-09-27 Larsx Continuously learning and optimizing artificial intelligence (ai) adaptive neural network (ann) computer modeling methods and systems
CN108710285A (zh) * 2018-03-28 2018-10-26 珠海格力智能装备有限公司 工业机器人模型仿真控制方法及装置
CN110537922A (zh) * 2019-09-09 2019-12-06 北京航空航天大学 基于深度学习的人体行走过程下肢运动识别方法及系统
CN110826437A (zh) * 2019-10-23 2020-02-21 中国科学院自动化研究所 基于生物神经网络的智能机器人控制方法、系统、装置
CN112405542A (zh) * 2020-11-17 2021-02-26 中国科学院自动化研究所 基于脑启发多任务学习的肌肉骨骼机器人控制方法及系统
CN112621760A (zh) * 2020-12-29 2021-04-09 中国科学院自动化研究所 基于神经元增益基元组合优化的机器人运动控制方法
CN112731812A (zh) * 2020-12-29 2021-04-30 中国科学院自动化研究所 基于神经元增益调制的机器人运动控制方法、系统、装置
CN113084814A (zh) * 2021-04-13 2021-07-09 中国科学院自动化研究所 基于分布位置优化实现肌肉骨骼机器人运动控制的方法

Non-Patent Citations (9)

* Cited by examiner, † Cited by third party
Title
A Cerebellum-Inspired Prediction and Correction Model for Motion Control of a Musculoskeletal Robot;Jinhan Zhang;Jiahao Chen;Wei Wu;Hong Qiao;;IEEE TRANSACTIONS ON COGNITIVE AND DEVELOPMENTAL SYSTEMS;第15卷(第03期);全文 *
Anti-interference analysis of bio-inspired musculoskeletal robotic system;Yaxiong Wu等;;Neurocomputing(18);全文 *
Dynamic Balance Optimization and Control of Quadruped Robot Systems With Flexible Joints;Zhijun Li等;;IEEE Transactions on Systems;第46卷(第10期);全文 *
Real-time control of a wheeled inverted pendulum based on an intelligent model free controller;Chih-Hui Chiu等;;Mechatronics;全文 *
仿生机械臂的小脑控制模型和仿真;阮晓钢;张少白;李欣源;;电子学报(05);全文 *
基于CMAC神经网络的康复机器人的智能控制技术;吕广明;孙立宁;沈刚;;哈尔滨工程大学学报(05);全文 *
基于模糊逻辑的手臂运动控制小脑模型与仿真;张少白;诸明倩;;计算机技术与发展(07);全文 *
机器人与神经科学交叉的意义――关于智能机器人未来发展的思考;乔红等;;中国科学院院刊(06);全文 *
由气动人工肌肉驱动的柔性关节的智能控制算法研究;姜恩宇;中国优秀硕士学位论文全文数据库;全文 *

Also Published As

Publication number Publication date
CN114872040A (zh) 2022-08-09

Similar Documents

Publication Publication Date Title
Mohajerin et al. Multistep prediction of dynamic systems with recurrent neural networks
CN110119844B (zh) 引入情绪调控机制的机器人运动决策方法、系统、装置
Jeerige et al. Comparison of deep reinforcement learning approaches for intelligent game playing
Romoff et al. Reward estimation for variance reduction in deep reinforcement learning
Qiao et al. An incremental neuronal-activity-based RBF neural network for nonlinear system modeling
Yao et al. Prediction and identification of discrete-time dynamic nonlinear systems based on adaptive echo state network
CN112052948B (zh) 一种网络模型压缩方法、装置、存储介质和电子设备
Chen et al. Active deep Q-learning with demonstration
KR102577188B1 (ko) 목표 시스템에 대한 제어 시스템 생성
Huang et al. Computational modeling of emotion-motivated decisions for continuous control of mobile robots
CN112405542B (zh) 基于脑启发多任务学习的肌肉骨骼机器人控制方法及系统
Zhang et al. Overview of deep reinforcement learning improvements and applications
Jiang et al. Generative adversarial interactive imitation learning for path following of autonomous underwater vehicle
CN112621760B (zh) 基于神经元增益基元组合优化的机器人运动控制方法
Malcom et al. A comprehensive review of spiking neural networks: Interpretation, optimization, efficiency, and best practices
Wang et al. Consciousness‐driven reinforcement learning: An online learning control framework
CN113419424A (zh) 减少过估计的模型化强化学习机器人控制方法及系统
CN114872040B (zh) 基于小脑预测与修正的肌肉骨骼机器人控制方法及装置
WO2023171102A1 (en) Sample-efficient reinforcement learning
CN112766317B (zh) 基于记忆回放的神经网络权重训练方法以及计算机设备
Wickramasinghe et al. Continual learning: A review of techniques, challenges and future directions
Li et al. Temperature modeling of wave rotor refrigeration process based on elastic net variable selection and deep belief network
Scholz et al. Improving model-based reinforcement learning with internal state representations through self-supervision
Xu et al. Discounted sampling policy gradient for robot multi-objective visual control
Panagiotopoulos et al. A heuristically enhanced gradient approximation (HEGA) algorithm for training neural networks

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant