CN112405542B - 基于脑启发多任务学习的肌肉骨骼机器人控制方法及系统 - Google Patents
基于脑启发多任务学习的肌肉骨骼机器人控制方法及系统 Download PDFInfo
- Publication number
- CN112405542B CN112405542B CN202011286626.5A CN202011286626A CN112405542B CN 112405542 B CN112405542 B CN 112405542B CN 202011286626 A CN202011286626 A CN 202011286626A CN 112405542 B CN112405542 B CN 112405542B
- Authority
- CN
- China
- Prior art keywords
- robot
- robot control
- model
- learning
- control model
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 74
- 210000004556 brain Anatomy 0.000 title claims abstract description 29
- 125000004122 cyclic group Chemical group 0.000 claims abstract description 86
- 230000033001 locomotion Effects 0.000 claims abstract description 75
- 230000004044 response Effects 0.000 claims abstract description 39
- 238000013528 artificial neural network Methods 0.000 claims abstract description 27
- 210000003205 muscle Anatomy 0.000 claims abstract description 26
- 238000012937 correction Methods 0.000 claims abstract description 15
- 210000002569 neuron Anatomy 0.000 claims description 45
- 239000011159 matrix material Substances 0.000 claims description 40
- 239000012528 membrane Substances 0.000 claims description 23
- 230000000306 recurrent effect Effects 0.000 claims description 23
- 238000012549 training Methods 0.000 claims description 21
- 230000006870 function Effects 0.000 claims description 19
- 230000008859 change Effects 0.000 claims description 17
- 238000010276 construction Methods 0.000 claims description 7
- 230000004913 activation Effects 0.000 claims description 6
- 238000001514 detection method Methods 0.000 claims description 6
- 230000009467 reduction Effects 0.000 claims description 5
- 230000017105 transposition Effects 0.000 claims description 5
- 238000000354 decomposition reaction Methods 0.000 claims description 4
- 230000007274 generation of a signal involved in cell-cell signaling Effects 0.000 claims description 3
- XLYOFNOQVPJJNP-UHFFFAOYSA-N water Substances O XLYOFNOQVPJJNP-UHFFFAOYSA-N 0.000 claims description 3
- 230000008569 process Effects 0.000 description 10
- 238000012512 characterization method Methods 0.000 description 5
- 230000000694 effects Effects 0.000 description 4
- 210000002346 musculoskeletal system Anatomy 0.000 description 4
- 230000001537 neural effect Effects 0.000 description 4
- 241000282414 Homo sapiens Species 0.000 description 3
- 238000013461 design Methods 0.000 description 3
- 238000005457 optimization Methods 0.000 description 3
- 230000002787 reinforcement Effects 0.000 description 3
- 238000004364 calculation method Methods 0.000 description 2
- 238000013178 mathematical model Methods 0.000 description 2
- 210000000337 motor cortex Anatomy 0.000 description 2
- 238000012545 processing Methods 0.000 description 2
- 238000006467 substitution reaction Methods 0.000 description 2
- 238000004458 analytical method Methods 0.000 description 1
- 238000013473 artificial intelligence Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000003592 biomimetic effect Effects 0.000 description 1
- 210000000988 bone and bone Anatomy 0.000 description 1
- 230000001149 cognitive effect Effects 0.000 description 1
- 230000008878 coupling Effects 0.000 description 1
- 238000010168 coupling process Methods 0.000 description 1
- 238000005859 coupling reaction Methods 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 230000008451 emotion Effects 0.000 description 1
- 238000011156 evaluation Methods 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 210000005036 nerve Anatomy 0.000 description 1
- 238000010606 normalization Methods 0.000 description 1
- 238000004088 simulation Methods 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
Images
Classifications
-
- B—PERFORMING OPERATIONS; TRANSPORTING
- B25—HAND TOOLS; PORTABLE POWER-DRIVEN TOOLS; MANIPULATORS
- B25J—MANIPULATORS; CHAMBERS PROVIDED WITH MANIPULATION DEVICES
- B25J9/00—Programme-controlled manipulators
- B25J9/16—Programme controls
- B25J9/1615—Programme controls characterised by special kind of manipulator, e.g. planar, scara, gantry, cantilever, space, closed chain, passive/active joints and tendon driven manipulators
-
- B—PERFORMING OPERATIONS; TRANSPORTING
- B25—HAND TOOLS; PORTABLE POWER-DRIVEN TOOLS; MANIPULATORS
- B25J—MANIPULATORS; CHAMBERS PROVIDED WITH MANIPULATION DEVICES
- B25J9/00—Programme-controlled manipulators
- B25J9/16—Programme controls
- B25J9/1628—Programme controls characterised by the control loop
- B25J9/163—Programme controls characterised by the control loop learning, adaptive, model based, rule based expert control
Landscapes
- Engineering & Computer Science (AREA)
- Robotics (AREA)
- Mechanical Engineering (AREA)
- Health & Medical Sciences (AREA)
- General Health & Medical Sciences (AREA)
- Orthopedic Medicine & Surgery (AREA)
- Manipulator (AREA)
Abstract
本发明属于机器人控制技术领域,具体涉及了一种基于脑启发多任务学习的肌肉骨骼机器人控制方法及系统,旨在解决多任务场景下肌肉骨骼式机器人无法连续学习且控制精准度较低的问题。本发明包括:构建循环神经网络作为初始机器人控制模型;设计模型的一致集群响应模式,分析模型的权重条件;针对单个任务,通过基于奖励的学习方法实现模型的自主学习,进行模型权重修正;针对多个任务,结合基于奖励调控的学习方法和低维输入空间的正交权重修正算法,实现多个运动任务的可持续学习,进行模型循环权重修正,获得多任务学习的机器人控制模型;通过模型生成机器人的肌肉控制信号。本发明建模简单、高效,模型连续学习和泛化能力强,对噪声的鲁棒性好。
Description
技术领域
本发明属于机器人控制技术领域,具体涉及了一种基于脑启发多任务学习的肌肉骨骼机器人控制方法及系统。
背景技术
近年来,通过模拟人体的关节、骨骼和肌肉结构,研究人员们研发了一系列肌肉骨骼式机器人。相比于传统的关节连杆机器人,肌肉骨骼式机器人有更好的灵活性,鲁棒性和柔顺性。肌肉骨骼式机器人有着大量仿人的冗余关节和肌肉驱动器,可以令其更加灵活精细地完成运动和操作。同时,这种冗余特性可以令机器人更好地应对部分驱动器的故障,更鲁棒地完成任务。另外,通过对多组肌肉的协同调控可以令机器人针对不同环境和任务要求展现出所需的柔顺性或高刚度。然而,肌肉骨骼系统的强冗余性,耦合性,非线性导致其控制信号的解空间过于庞大,针对肌肉骨骼式机器人系统的数学建模也非常复杂,给其控制带来了巨大挑战。
现有的针对肌肉骨骼式机器人的控制研究大体分为基于模型的方法和不基于模型的方法两类:基于模型的方法需要先建立关节空间和肌肉空间之间的显式数学关系,然后基于所建立的模型,研究人员可以设计迭代学习控制器、自适应控制器、神经模糊控制器和静态优化控制器等实现对肌肉骨骼系统的控制。然而,复杂的肌肉骨骼式机器人的肌肉和关节之间的关系非常复杂,很难建立显式的数学模型。因此,基于模型的方法很难用于复杂肌肉骨骼式机器人的精准控制。此外,研究人员们也提出了许多不基于模型的运动学习方法,可以直接根据运动目标计算肌肉控制信号。其中,有部分研究人员通过监督学习的方式训练深层神经网络(DNN)来控制肌肉骨骼系统[1]。研究人员们也尝试通过强化学习的方法来训练网络并实现肌肉骨骼式机器人的控制,具体方法如基于奖励的赫伯学习、深度确定性策略梯度、最近点策略优化和信赖域策略优化等[2,3]。虽然这些无模型学习方法不需要建立显式模型就可以应用于复杂的肌肉骨骼式机器人的控制,但其运动泛化性能有限,且无法实现面向多运动任务的持续学习。
总的来说,现有无模型的肌肉骨骼式机器人控制方法的运动泛化能力有限,并且无法实现面向多运动任务的持续学习,而有模型的肌肉骨骼式机器人控制方法,由于肌肉和关节之间的关系非常复杂,很难建立显式的数学模型,因此机器人控制的精准度较低。
以下文献是与本发明相关的技术背景资料:
[1]Nakada M,Zhou T,Chen H,et al.Deep learning of biomimeticsensorimotor control for biomechanical human animation[J].ACM Transactions onGraphics(TOG),2018,37(4):1-15.
[2]Huang X,Wu W,Qiao H,et al.Brain-inspired motion learning inrecurrent neural network with emotion modulation[J].IEEE Transactions onCognitive and Developmental Systems,2018,10(4):1153-1164.
发明内容
为了解决现有技术中的上述问题,即多任务场景下肌肉骨骼式机器人无法连续学习且控制精准度较低的问题,本发明提供了一种基于脑启发多任务学习的肌肉骨骼机器人控制方法,该控制方法包括:
步骤S10,获取机器人预设的运动目标;
步骤S20,基于所述机器人预设运动轨迹,通过多任务学习的机器人控制模型生成机器人的肌肉控制信号;
步骤S30,基于所述肌肉控制信号控制机器人运动;
其中,所述多任务学习的机器人控制模型,其构建和训练方法为:
步骤B10,基于泄露神经元构建循环神经网络作为初始机器人控制模型,并构建模型隐藏层神经元膜电位的变化率的李雅诺夫函数,求解函数获得一致集群响应模式的模型循环权重条件;
步骤B20,基于所述循环权重条件获取模型的循环权重并赋予所述初始机器人控制模型,获得一致集群响应模式的机器人控制模型;
步骤B30,获取机器人点到点的单任务对应的奖励信号,并基于随机噪声和奖励信号进行所述一致集群响应模式的机器人控制模型的循环权重、输入权重和偏置向量的修正,获得单任务学习的机器人控制模型;
步骤B40,获取机器人的v个运动任务,构建针对所述单任务学习的机器人控制模型的循环权重的低维输入空间;
步骤B50,获取机器人的v+1个运动任务,在所述低维输入空间的正交方向上进行所述单任务学习的机器人控制模型的循环权重修正,获得多任务学习的机器人控制模型。
在一些优选的实施例中,所述初始机器人控制模型,其公式表示为:
h=tanh(r)
o=Relu(Vh)
其中,为循环神经网络隐藏层神经元的膜电位,为r的导数,表示膜电位的变化率,为循环神经网络隐藏层神经元的激活频率,为循环神经网络的输入,为网络的偏置向量,为循环神经网络的输出,为连接输入层神经元和隐藏层神经元的输入权重,为隐藏层神经元相互连接的循环权重,为连接隐藏层神经元和输出层神经元的输出权重,代表实域空间,N、M、d、N×d、N×N、M×N分别为对应的实域空间的维度,τ代表时间常数。
在一些优选的实施例中,所述模型隐藏层神经元膜电位的变化率的李雅诺夫函数,其公式表示为:
在一些优选的实施例中,所述一致集群响应模式的模型循环权重条件,其公式表示为:
在一些优选的实施例中,步骤B30包括:
步骤B31,获取机器人点到点的单任务对应的奖励信号:
步骤B32,在每一时刻的循环神经网络隐藏层神经元的膜电位上添加随机噪声:
步骤B33,基于随机噪声和奖励信号进行所述一致集群响应模式的机器人控制模型的循环权重、输入权重和偏置向量的修正:
步骤B34,将修正后的循环权重、输入权重和偏置向量赋予一致集群响应模式的机器人控制模型,获得单任务学习的机器人控制模型。
在一些优选的实施例中,所述平均奖励信号为:
在一些优选的实施例中,所述循环权重,其修正过程中引入幅度限制常数进行循环权重更新幅度的限制:
其中,g>0为设定的进行循环权重更新幅度限制的幅度限制常数,||·||F代表矩阵的F范数。
在一些优选的实施例中,步骤B40包括:
步骤B41,获取机器人的v个运动任务,构建针对所述单任务学习的机器人控制模型的循环权重的输入空间:
步骤B42,基于所述循环权重的输入空间,获取针对所述单任务学习的机器人控制模型的循环权重的低维输入空间:
在一些优选的实施例中,步骤B50包括:
步骤B51,基于所述低维输入空间,构建机器人的v+1个运动任务的正交投影矩阵:
其中,I代表单位矩阵,αP代表低于设定阈值的常数;
步骤B52,在所述低维输入空间的正交方向上进行所述单任务学习的机器人控制模型的循环权重修正:
ΔWC=ΔWPW
步骤B53,将修正后的循环权重赋予单任务学习的机器人控制模型,获得多任务学习的机器人控制模型。
本发明的另一方面,提出了一种基于脑启发多任务学习的肌肉骨骼机器人控制系统,基于上述的基于脑启发多任务学习的肌肉骨骼机器人控制方法,该控制系统包括以下模块:
运动目标获取模块,用于获取机器人预设的运动目标;
控制信号生成模块,用于基于所述机器人预设运动轨迹,通过多任务学习的机器人控制模型生成机器人的肌肉控制信号;
机器人控制模块,用于基于所述肌肉控制信号控制机器人运动;
其中,所述多任务学习的机器人控制模型,其构建和训练方法为:
步骤B10,基于泄露神经元构建循环神经网络作为初始机器人控制模型,并构建模型隐藏层神经元膜电位的变化率的李雅诺夫函数,求解函数获得一致集群响应模式的模型循环权重条件;
步骤B20,基于所述循环权重条件获取模型的循环权重并赋予所述初始机器人控制模型,获得一致集群响应模式的机器人控制模型;
步骤B30,获取机器人点到点的单任务对应的奖励信号,并基于随机噪声和奖励信号进行所述一致集群响应模式的机器人控制模型的循环权重、输入权重和偏置向量的修正,获得单任务学习的机器人控制模型;
步骤B40,获取机器人的v个运动任务,构建针对所述单任务学习的机器人控制模型的循环权重的低维输入空间;
步骤B50,获取机器人的v+1个运动任务,在所述低维输入空间的正交方向上进行所述单任务学习的机器人控制模型的循环权重修正,获得多任务学习的机器人控制模型。
本发明的有益效果:
(1)本发明基于脑启发多任务学习的肌肉骨骼机器人控制方法,受运动皮层神经编码方式的启发,将基于泄露神经元构建的循环神经网络作为初始机器人控制模型,并获取一致集群响应模式下模型的权重,将运动目标转换为肌肉控制信号,模型的数学建模简单、效率高,并降低了模型求解的难度,进一步提升后续机器人控制的精度和效率。
(2)本发明基于脑启发多任务学习的肌肉骨骼机器人控制方法,针对单个任务,采用基于奖励调控的强化学习方法进行RNN的自主训练,针对多个任务,将基于奖励调控的强化学习方法和基于降维输入空间的正交权重修正方法结合,实现RNN针对多个任务的连续学习,最终获取的机器人控制模型具有多任务的连续学习能力、较强的泛化能力和对噪声的鲁棒性,从而进一步提升机器人控制的精度和效率。
附图说明
通过阅读参照以下附图所作的对非限制性实施例所作的详细描述,本申请的其它特征、目的和优点将会变得更明显:
图1是本发明基于脑启发多任务学习的肌肉骨骼机器人控制方法一种实施例的模型训练流程示意图;
图2是本发明基于脑启发多任务学习的肌肉骨骼机器人控制方法一种实施例的肌肉骨骼式机器人平台。
具体实施方式
下面结合附图和实施例对本申请作进一步的详细说明。可以理解的是,此处所描述的具体实施例仅用于解释相关发明,而非对该发明的限定。另外还需要说明的是,为了便于描述,附图中仅示出了与有关发明相关的部分。
需要说明的是,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本申请。
本发明提供一种基于脑启发多任务学习的肌肉骨骼机器人控制方法,能够实现肌肉骨骼式机器人在多任务场景下的可连续学习。考虑到现有的针对肌肉骨骼式机器人的运动学习方法泛化能力有限,且缺乏持续学习能力,本发明的肌肉骨骼机器人控制方法为脑启发式多任务可持续学习方法。首先,本发明提出了一种循环神经网络(RNN)的一致集群响应模式,并利用李雅普诺夫稳定性分析得出产生该模式的条件。在该条件下,针对不同的运动目标,RNN的神经元激活在集群层面仍具有一致的响应模式,这为网络的可持续学习奠定了基础。其次,本发明提出了一种针对具有一致集群响应的RNN的持续学习方法。基于该学习方法,RNN能够自主地通过奖励信号习得运动任务,并且能够在学习新任务的时候避免灾难性地遗忘已习得的知识,实现对多运动任务的可持续学习。本发明所提出的可持续运动学习方法在肌肉骨骼系统的仿真平台上进行了验证,实现了针对多运动任务的可持续学习,为新型肌肉骨骼式机器人系统的控制和发展提供了理论基础和技术支撑。
本发明的一种基于脑启发多任务学习的肌肉骨骼机器人控制方法,该控制方法包括:
步骤S10,获取机器人预设的运动目标;
步骤S20,基于所述机器人预设运动轨迹,通过多任务学习的机器人控制模型生成机器人的肌肉控制信号;
步骤S30,基于所述肌肉控制信号控制机器人运动;
其中,所述多任务学习的机器人控制模型,其构建和训练方法为:
步骤B10,基于泄露神经元构建循环神经网络作为初始机器人控制模型,并构建模型隐藏层神经元膜电位的变化率的李雅诺夫函数,求解函数获得一致集群响应模式的模型循环权重条件;
步骤B20,基于所述循环权重条件获取模型的循环权重并赋予所述初始机器人控制模型,获得一致集群响应模式的机器人控制模型;
步骤B30,获取机器人点到点的单任务对应的奖励信号,并基于随机噪声和奖励信号进行所述一致集群响应模式的机器人控制模型的循环权重、输入权重和偏置向量的修正,获得单任务学习的机器人控制模型;
步骤B40,获取机器人的v个运动任务,构建针对所述单任务学习的机器人控制模型的循环权重的低维输入空间;
步骤B50,获取机器人的v+1个运动任务,在所述低维输入空间的正交方向上进行所述单任务学习的机器人控制模型的循环权重修正,获得多任务学习的机器人控制模型。
为了更清晰地对本发明基于脑启发多任务学习的肌肉骨骼机器人控制方法进行说明,下面结合图1对本发明实施例中各步骤展开详述。
本发明第一实施例的基于脑启发多任务学习的肌肉骨骼机器人控制方法,各步骤详细描述如下:
步骤S10,获取机器人预设的运动目标;
步骤S20,基于所述机器人预设运动轨迹,通过多任务学习的机器人控制模型生成机器人的肌肉控制信号;
步骤S30,基于所述肌肉控制信号控制机器人运动;
其中,所述多任务学习的机器人控制模型,其构建和训练方法为:
步骤B10,基于泄露神经元构建循环神经网络作为初始机器人控制模型,并构建模型隐藏层神经元膜电位的变化率的李雅诺夫函数,求解函数获得一致集群响应模式的模型循环权重条件。
初始机器人控制模型,其公式表示如式(1)、式(2)和式(3)所示:
h=tanh(r) (2)
o=Relu(Vh) (3)
其中,为循环神经网络隐藏层神经元的膜电位,为r的导数,表示膜电位的变化率,为循环神经网络隐藏层神经元的激活频率,为循环神经网络的输入,为网络的偏置向量,为循环神经网络的输出,为连接输入层神经元和隐藏层神经元的输入权重,为隐藏层神经元相互连接的循环权重,为连接隐藏层神经元和输出层神经元的输出权重,代表实域空间,N、M、d、N×d、N×N、M×N分别为对应的实域空间的维度,τ代表时间常数。
模型隐藏层神经元膜电位的变化率的李雅诺夫函数,其公式表示如式(4)所示:
由于P是正交矩阵,其中各行各列为单位向量,且相互正交,可得式(9)和式(10):
从而,一致集群响应模式的模型循环权重条件,其公式表示如式(11):
基于上式,可得,当λ*≤2时,对于成立。当λ*≤2的限制条件能够被严格满足时,在不同的外部输入下,RNN都具备一致集群响应,即RNN的都将收敛至0。然而,在λ*≤2的条件下,||W||F的值很小,对应的RNN的表征能力较弱,无法表征运动目标和肌肉信号之间的关系。因此,RNN的一致集群响应模式和表征能力之间存在一定的矛盾。然而,当λj<2对于大部分(但并非所有)j都成立时,对于大部分也成立。因此,可合理设计RNN的循环权重W,令λ*稍大于2(将λ*取值比2稍大即可,例如在[2,3]之间选择一个数值),使得RNN在给定的任务下,具有较好表征能力的同时,令对于给定任务场景下的都成立,令RNN同时具备一致集群响应和足够的表征能力。
步骤B20,基于所述循环权重条件获取模型的循环权重并赋予所述初始机器人控制模型,获得一致集群响应模式的机器人控制模型。
步骤B30,获取机器人点到点的单任务对应的奖励信号,并基于随机噪声和奖励信号进行所述一致集群响应模式的机器人控制模型的循环权重、输入权重和偏置向量的修正,获得单任务学习的机器人控制模型。
在肌肉骨骼式机器人的点到点到达任务中,RNN将根据输入的运动目标位置,输出时变的肌肉信号。基于得到的时变肌肉信号,肌肉骨骼式机器人将产生运动。通过将肌肉骨骼式机器人实际运动和期望运动的对比可以得到奖励信号。在训练过程中,每一次运动结束后,基于奖励信号可以对RNN的权重进行自主调节,不断改进RNN的控制效果,使得肌肉骨骼式机器人能够学会到达给定的运动目标点。
步骤B31,获取机器人点到点的单任务对应的奖励信号,如式(12)所示:
在训练过程中,将执行多次运动,每次运动都将获得一个奖励信号,因此有平均奖励信号,如式(13)所示
步骤B32,在每一时刻的循环神经网络隐藏层神经元的膜电位上添加随机噪声,如式(14)所示:
步骤B33,基于随机噪声和奖励信号进行所述一致集群响应模式的机器人控制模型的循环权重、输入权重和偏置向量的修正。
在每次运动结束后,基于对运动效果的评估得到奖励信号,针对RNN网络的权重进行调整。具体地,权重V保持不变,权重W,U,b的修正分别如式(15)、式(16)和式(17)所示:
为了防止权重W的||W||F过快增长,将权重W的更新幅度限制在一定的范围内,如式(18)所示:
其中,g>0为设定的进行循环权重更新幅度限制的幅度限制常数,||·||F代表矩阵的F范数。
为了提高运动学习的效率,3个主要的超参数将随着运动情况进行动态调整,如式(19)、式(20)和式(21)所示:
其中,n表示训练过程中的第n次运动,τp是一个时间常数,γn,分别为η,αR,σ2在训练阶段的初始值,是一个衡量n次运动的学习情况的值,将随着运动效果的提升而增加,如式(22)、式(23)、式(24)和式(25)所示:
Hn=ln(ζn)+0.Sln(2πe) (25)
步骤B34,将修正后的循环权重、输入权重和偏置向量赋予一致集群响应模式的机器人控制模型,获得单任务学习的机器人控制模型。
步骤B40,获取机器人的v个运动任务,构建针对所述单任务学习的机器人控制模型的循环权重的低维输入空间。
在本发明中,将连续学习多个运动任务,从第2个运动任务开始,将仅针对RNN的循环权重W进行修正,其他权重将保持不变。
步骤B41,获取机器人的v个运动任务,构建针对所述单任务学习的机器人控制模型的循环权重的输入空间。
基于RNN的动力学方程可得,RNN循环权重W的输入为隐层神经元在每一时刻的激活频率ht。因此,W的输入空间由训练中所有运动目标x所对应的隐藏层神经元的激活频率所构成。因此权重W在第v个任务中的输入空间如式(26)所示:
其中,代表循环权重W在第v个任务中第i个运动目标点所对应的所有输入,即N个隐藏层神经元在T个时间步的放电频率,K为第v个任务中的运动目标点数量,收集了循环权重W在第v个任务中总共K个运动目标点所对应的所有输入。相应地,中的各列一起张成了权重W在第v个任务中的输入空间。
步骤B42,基于所述循环权重的输入空间,获取针对所述单任务学习的机器人控制模型的循环权重的低维输入空间,如式(27)所示:
步骤B50,获取机器人的v+1个运动任务,在所述低维输入空间的正交方向上进行所述单任务学习的机器人控制模型的循环权重修正,获得多任务学习的机器人控制模型。
步骤B51,基于所述低维输入空间,构建机器人的v+1个运动任务的正交投影矩阵,如式(28)所示:
其中,I代表单位矩阵,αP代表低于设定阈值的常数;
步骤B52,在所述低维输入空间的正交方向上进行所述单任务学习的机器人控制模型的循环权重修正,如式(29)所示:
ΔWC=ΔWPW (29)
其中,ΔW是针对单个任务的权重更新向量,ΔWC是经过正交修正后的权重更新向量。
步骤B53,将修正后的循环权重赋予单任务学习的机器人控制模型,获得多任务学习的机器人控制模型。
如图2所示,为本发明基于脑启发多任务学习的肌肉骨骼机器人控制方法一种实施例的肌肉骨骼式机器人平台,将本发明方法应用到该平台的时候,可以实现肌肉骨骼式机器人的精准度高、实时性强的运动控制。
本发明第二实施例的基于脑启发多任务学习的肌肉骨骼机器人控制系统,基于上述的基于脑启发多任务学习的肌肉骨骼机器人控制方法,该控制系统包括以下模块:
运动目标获取模块,用于获取机器人预设的运动目标;
控制信号生成模块,用于基于所述机器人预设运动轨迹,通过多任务学习的机器人控制模型生成机器人的肌肉控制信号;
机器人控制模块,用于基于所述肌肉控制信号控制机器人运动;
其中,所述多任务学习的机器人控制模型,其构建和训练方法为:
步骤B10,基于泄露神经元构建循环神经网络作为初始机器人控制模型,并构建模型隐藏层神经元膜电位的变化率的李雅诺夫函数,求解函数获得一致集群响应模式的模型循环权重条件;
步骤B20,基于所述循环权重条件获取模型的循环权重并赋予所述初始机器人控制模型,获得一致集群响应模式的机器人控制模型;
步骤B30,获取机器人点到点的单任务对应的奖励信号,并基于随机噪声和奖励信号进行所述一致集群响应模式的机器人控制模型的循环权重、输入权重和偏置向量的修正,获得单任务学习的机器人控制模型;
步骤B40,获取机器人的v个运动任务,构建针对所述单任务学习的机器人控制模型的循环权重的低维输入空间;
步骤B50,获取机器人的v+1个运动任务,在所述低维输入空间的正交方向上进行所述单任务学习的机器人控制模型的循环权重修正,获得多任务学习的机器人控制模型。
所属技术领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的系统的具体工作过程及有关说明,可以参考前述方法实施例中的对应过程,在此不再赘述。
需要说明的是,上述实施例提供的基于脑启发多任务学习的肌肉骨骼机器人控制系统,仅以上述各功能模块的划分进行举例说明,在实际应用中,可以根据需要而将上述功能分配由不同的功能模块来完成,即将本发明实施例中的模块或者步骤再分解或者组合,例如,上述实施例的模块可以合并为一个模块,也可以进一步拆分成多个子模块,以完成以上描述的全部或者部分功能。对于本发明实施例中涉及的模块、步骤的名称,仅仅是为了区分各个模块或者步骤,不视为对本发明的不当限定。
本发明第三实施例的一种存储装置,其中存储有多条程序,所述程序适于由处理器加载并执行以实现上述的基于脑启发多任务学习的肌肉骨骼机器人控制方法。
本发明第四实施例的一种处理装置,包括处理器、存储装置;处理器,适于执行各条程序;存储装置,适于存储多条程序;所述程序适于由处理器加载并执行以实现上述的基于脑启发多任务学习的肌肉骨骼机器人控制方法。
所属技术领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的存储装置、处理装置的具体工作过程及有关说明,可以参考前述方法实施例中的对应过程,在此不再赘述。
本领域技术人员应该能够意识到,结合本文中所公开的实施例描述的各示例的模块、方法步骤,能够以电子硬件、计算机软件或者二者的结合来实现,软件模块、方法步骤对应的程序可以置于随机存储器(RAM)、内存、只读存储器(ROM)、电可编程ROM、电可擦除可编程ROM、寄存器、硬盘、可移动磁盘、CD-ROM、或技术领域内所公知的任意其它形式的存储介质中。为了清楚地说明电子硬件和软件的可互换性,在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以电子硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。本领域技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本发明的范围。
术语“第一”、“第二”等是用于区别类似的对象,而不是用于描述或表示特定的顺序或先后次序。
术语“包括”或者任何其它类似用语旨在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备/装置不仅包括那些要素,而且还包括没有明确列出的其它要素,或者还包括这些过程、方法、物品或者设备/装置所固有的要素。
至此,已经结合附图所示的优选实施方式描述了本发明的技术方案,但是,本领域技术人员容易理解的是,本发明的保护范围显然不局限于这些具体实施方式。在不偏离本发明的原理的前提下,本领域技术人员可以对相关技术特征做出等同的更改或替换,这些更改或替换之后的技术方案都将落入本发明的保护范围之内。
Claims (10)
1.一种基于脑启发多任务学习的肌肉骨骼机器人控制方法,其特征在于,该控制方法包括:
步骤S10,获取机器人预设的运动目标;
步骤S20,基于所述机器人预设运动轨迹,通过多任务学习的机器人控制模型生成机器人的肌肉控制信号;
步骤S30,基于所述肌肉控制信号控制机器人运动;
其中,所述多任务学习的机器人控制模型,其构建和训练方法为:
步骤B10,基于泄露神经元构建循环神经网络作为初始机器人控制模型,并构建模型隐藏层神经元膜电位的变化率的李雅诺夫函数,求解函数获得一致集群响应模式的模型循环权重条件;
步骤B20,基于所述循环权重条件获取模型的循环权重并赋予所述初始机器人控制模型,获得一致集群响应模式的机器人控制模型;
步骤B30,获取机器人点到点的单任务对应的奖励信号,并基于随机噪声和奖励信号进行所述一致集群响应模式的机器人控制模型的循环权重、输入权重和偏置向量的修正,获得单任务学习的机器人控制模型;
步骤B40,获取机器人的v个运动任务,构建针对所述单任务学习的机器人控制模型的循环权重的低维输入空间;
步骤B50,获取机器人的v+1个运动任务,在所述低维输入空间的正交方向上进行所述单任务学习的机器人控制模型的循环权重修正,获得多任务学习的机器人控制模型。
5.根据权利要求2所述的基于脑启发多任务学习的肌肉骨骼机器人控制方法,其特征在于,步骤B30包括:
步骤B31,获取机器人点到点的单任务对应的奖励信号:
步骤B32,在每一时刻的循环神经网络隐藏层神经元的膜电位上添加随机噪声:
步骤B33,基于随机噪声和奖励信号进行所述一致集群响应模式的机器人控制模型的循环权重、输入权重和偏置向量的修正:
步骤B34,将修正后的循环权重、输入权重和偏置向量赋予一致集群响应模式的机器人控制模型,获得单任务学习的机器人控制模型。
10.一种基于脑启发多任务学习的肌肉骨骼机器人控制系统,其特征在于,基于权利要求1-9任一项所述的基于脑启发多任务学习的肌肉骨骼机器人控制方法,该控制系统包括以下模块:
运动目标获取模块,用于获取机器人预设的运动目标;
控制信号生成模块,用于基于所述机器人预设运动轨迹,通过多任务学习的机器人控制模型生成机器人的肌肉控制信号;
机器人控制模块,用于基于所述肌肉控制信号控制机器人运动;
其中,所述多任务学习的机器人控制模型,其构建和训练方法为:
步骤B10,基于泄露神经元构建循环神经网络作为初始机器人控制模型,并构建模型隐藏层神经元膜电位的变化率的李雅诺夫函数,求解函数获得一致集群响应模式的模型循环权重条件;
步骤B20,基于所述循环权重条件获取模型的循环权重并赋予所述初始机器人控制模型,获得一致集群响应模式的机器人控制模型;
步骤B30,获取机器人点到点的单任务对应的奖励信号,并基于随机噪声和奖励信号进行所述一致集群响应模式的机器人控制模型的循环权重、输入权重和偏置向量的修正,获得单任务学习的机器人控制模型;
步骤B40,获取机器人的v个运动任务,构建针对所述单任务学习的机器人控制模型的循环权重的低维输入空间;
步骤B50,获取机器人的v+1个运动任务,在所述低维输入空间的正交方向上进行所述单任务学习的机器人控制模型的循环权重修正,获得多任务学习的机器人控制模型。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011286626.5A CN112405542B (zh) | 2020-11-17 | 2020-11-17 | 基于脑启发多任务学习的肌肉骨骼机器人控制方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011286626.5A CN112405542B (zh) | 2020-11-17 | 2020-11-17 | 基于脑启发多任务学习的肌肉骨骼机器人控制方法及系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112405542A CN112405542A (zh) | 2021-02-26 |
CN112405542B true CN112405542B (zh) | 2021-09-14 |
Family
ID=74831472
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202011286626.5A Active CN112405542B (zh) | 2020-11-17 | 2020-11-17 | 基于脑启发多任务学习的肌肉骨骼机器人控制方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112405542B (zh) |
Families Citing this family (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113298242B (zh) * | 2021-06-08 | 2022-08-05 | 浙江大学 | 一种基于脉冲神经网络的脑机接口解码方法 |
CN114872040B (zh) * | 2022-04-20 | 2024-04-16 | 中国科学院自动化研究所 | 基于小脑预测与修正的肌肉骨骼机器人控制方法及装置 |
CN114872042B (zh) * | 2022-04-29 | 2024-05-24 | 中国科学院自动化研究所 | 基于临界状态循环网络的肌肉骨骼机器人控制方法及装置 |
Family Cites Families (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107272885B (zh) * | 2017-05-09 | 2020-06-26 | 北京光年无限科技有限公司 | 一种用于智能机器人的人机交互方法及装置 |
CN108717492A (zh) * | 2018-05-18 | 2018-10-30 | 浙江工业大学 | 基于改进的人工蜂群算法的机械臂动力学模型辨识方法 |
CN110059144B (zh) * | 2019-04-03 | 2021-12-10 | 电子科技大学 | 一种基于卷积神经网络的轨迹属主预测方法 |
CN110781262B (zh) * | 2019-10-21 | 2023-06-02 | 中国科学院计算技术研究所 | 基于视觉slam的语义地图的构建方法 |
CN110795522B (zh) * | 2019-11-06 | 2023-01-06 | 中国人民解放军战略支援部队信息工程大学 | 一种移动用户轨迹位置的预测方法及装置 |
CN111775145B (zh) * | 2020-06-01 | 2023-05-16 | 上海大学 | 一种串并联机器人的控制系统 |
-
2020
- 2020-11-17 CN CN202011286626.5A patent/CN112405542B/zh active Active
Also Published As
Publication number | Publication date |
---|---|
CN112405542A (zh) | 2021-02-26 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN112405542B (zh) | 基于脑启发多任务学习的肌肉骨骼机器人控制方法及系统 | |
CN110909859B (zh) | 基于对抗结构化控制的仿生机器鱼运动控制方法、系统 | |
US10962976B1 (en) | Motion control method and system for biomimetic robotic fish based on adversarial structured control | |
CN108115681A (zh) | 机器人的模仿学习方法、装置、机器人及存储介质 | |
Juang et al. | Evolving gaits of a hexapod robot by recurrent neural networks with symbiotic species-based particle swarm optimization | |
Hu et al. | Monitor-based spiking recurrent network for the representation of complex dynamic patterns | |
CN112621760B (zh) | 基于神经元增益基元组合优化的机器人运动控制方法 | |
Wang et al. | Model-based meta reinforcement learning using graph structured surrogate models and amortized policy search | |
KR20180047391A (ko) | 학습 로봇, 그리고 이를 이용한 작업 솜씨 학습 방법 | |
CN113093779A (zh) | 基于深度强化学习的机器人运动控制方法及系统 | |
Jiang et al. | Generative adversarial interactive imitation learning for path following of autonomous underwater vehicle | |
Ghouri et al. | Attitude control of quad-copter using deterministic policy gradient algorithms (DPGA) | |
Li et al. | EU FP7 | |
Milovanović et al. | Adaptive control of nonlinear MIMO system with orthogonal endocrine intelligent controller | |
Gawali et al. | Development of improved coyote optimization with deep neural network for intelligent skill knowledge transfer for human to robot interaction | |
Wang et al. | Dob-net: Actively rejecting unknown excessive time-varying disturbances | |
Wang et al. | Multitask policy adversarial learning for human-level control with large state spaces | |
Xing et al. | A brain-inspired approach for probabilistic estimation and efficient planning in precision physical interaction | |
CN114952791A (zh) | 肌肉骨骼机器人控制方法及装置 | |
CN110515297B (zh) | 基于冗余肌肉骨骼系统的阶段式运动控制方法 | |
Caamaño et al. | Introducing synaptic delays in the NEAT algorithm to improve modelling in cognitive robotics | |
Hachiya et al. | Efficient sample reuse in EM-based policy search | |
CN114872042B (zh) | 基于临界状态循环网络的肌肉骨骼机器人控制方法及装置 | |
Pretorius et al. | Towards an artificial neural network-based simulator for behavioural evolution in evolutionary robotics | |
Wei et al. | Closed-loop Diffusion Control of Complex Physical Systems |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |