CN114952791A - 肌肉骨骼机器人控制方法及装置 - Google Patents
肌肉骨骼机器人控制方法及装置 Download PDFInfo
- Publication number
- CN114952791A CN114952791A CN202210558121.2A CN202210558121A CN114952791A CN 114952791 A CN114952791 A CN 114952791A CN 202210558121 A CN202210558121 A CN 202210558121A CN 114952791 A CN114952791 A CN 114952791A
- Authority
- CN
- China
- Prior art keywords
- control model
- muscle control
- neural
- muscle
- manifold
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 77
- 230000033001 locomotion Effects 0.000 claims abstract description 187
- 210000003205 muscle Anatomy 0.000 claims abstract description 182
- 230000001537 neural effect Effects 0.000 claims abstract description 101
- 238000012549 training Methods 0.000 claims abstract description 25
- 210000002569 neuron Anatomy 0.000 claims description 45
- 230000000694 effects Effects 0.000 claims description 31
- 230000008569 process Effects 0.000 claims description 29
- 238000004590 computer program Methods 0.000 claims description 13
- 239000013643 reference control Substances 0.000 claims description 9
- 230000004913 activation Effects 0.000 claims description 8
- 238000003860 storage Methods 0.000 claims description 8
- 210000005036 nerve Anatomy 0.000 abstract description 5
- 230000000875 corresponding effect Effects 0.000 description 18
- 239000011159 matrix material Substances 0.000 description 15
- 230000007246 mechanism Effects 0.000 description 10
- 230000002787 reinforcement Effects 0.000 description 9
- 230000009471 action Effects 0.000 description 6
- 239000000126 substance Substances 0.000 description 6
- 238000004891 communication Methods 0.000 description 4
- 238000010586 diagram Methods 0.000 description 4
- 230000008901 benefit Effects 0.000 description 3
- 210000000988 bone and bone Anatomy 0.000 description 3
- 230000006870 function Effects 0.000 description 3
- 238000012545 processing Methods 0.000 description 3
- 230000000295 complement effect Effects 0.000 description 2
- 230000008878 coupling Effects 0.000 description 2
- 238000010168 coupling process Methods 0.000 description 2
- 238000005859 coupling reaction Methods 0.000 description 2
- 238000011161 development Methods 0.000 description 2
- 238000009826 distribution Methods 0.000 description 2
- 239000012528 membrane Substances 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 238000005457 optimization Methods 0.000 description 2
- 230000001105 regulatory effect Effects 0.000 description 2
- 210000002435 tendon Anatomy 0.000 description 2
- 230000002776 aggregation Effects 0.000 description 1
- 238000004220 aggregation Methods 0.000 description 1
- 238000004458 analytical method Methods 0.000 description 1
- 238000013528 artificial neural network Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 238000012512 characterization method Methods 0.000 description 1
- 230000001276 controlling effect Effects 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 230000007123 defense Effects 0.000 description 1
- 230000001419 dependent effect Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000000465 moulding Methods 0.000 description 1
- 238000003062 neural network model Methods 0.000 description 1
- 230000000306 recurrent effect Effects 0.000 description 1
- 230000003252 repetitive effect Effects 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 238000001228 spectrum Methods 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 230000004083 survival effect Effects 0.000 description 1
Images
Classifications
-
- B—PERFORMING OPERATIONS; TRANSPORTING
- B25—HAND TOOLS; PORTABLE POWER-DRIVEN TOOLS; MANIPULATORS
- B25J—MANIPULATORS; CHAMBERS PROVIDED WITH MANIPULATION DEVICES
- B25J9/00—Programme-controlled manipulators
- B25J9/0006—Exoskeletons, i.e. resembling a human figure
-
- B—PERFORMING OPERATIONS; TRANSPORTING
- B25—HAND TOOLS; PORTABLE POWER-DRIVEN TOOLS; MANIPULATORS
- B25J—MANIPULATORS; CHAMBERS PROVIDED WITH MANIPULATION DEVICES
- B25J9/00—Programme-controlled manipulators
- B25J9/16—Programme controls
- B25J9/1602—Programme controls characterised by the control system, structure, architecture
- B25J9/161—Hardware, e.g. neural networks, fuzzy logic, interfaces, processor
-
- B—PERFORMING OPERATIONS; TRANSPORTING
- B25—HAND TOOLS; PORTABLE POWER-DRIVEN TOOLS; MANIPULATORS
- B25J—MANIPULATORS; CHAMBERS PROVIDED WITH MANIPULATION DEVICES
- B25J9/00—Programme-controlled manipulators
- B25J9/16—Programme controls
- B25J9/1628—Programme controls characterised by the control loop
- B25J9/163—Programme controls characterised by the control loop learning, adaptive, model based, rule based expert control
-
- B—PERFORMING OPERATIONS; TRANSPORTING
- B25—HAND TOOLS; PORTABLE POWER-DRIVEN TOOLS; MANIPULATORS
- B25J—MANIPULATORS; CHAMBERS PROVIDED WITH MANIPULATION DEVICES
- B25J9/00—Programme-controlled manipulators
- B25J9/16—Programme controls
- B25J9/1656—Programme controls characterised by programming, planning systems for manipulators
Landscapes
- Engineering & Computer Science (AREA)
- Robotics (AREA)
- Mechanical Engineering (AREA)
- Automation & Control Theory (AREA)
- Physics & Mathematics (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Computation (AREA)
- Fuzzy Systems (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Manipulator (AREA)
Abstract
本发明提供一种肌肉骨骼机器人控制方法及装置,该方法包括:获取目标运动参数;将目标运动参数输入至肌肉控制模型中,得到肌肉控制模型输出的肌肉控制信号;其中,肌肉控制模型为基于运动反馈结果和神经流形投影算子训练得到的,运动反馈结果为基于输入至肌肉控制模型的当前运动参数样本确定的,神经流形投影算子为基于输入至肌肉控制模型的当前运动参数样本的前一运动参数样本确定的。本发明的肌肉骨骼机器人控制方法及装置,通过将神经流形投影算子与运动反馈结果结合起来训练肌肉控制模型,得到了精度高一级抗遗忘能力强的肌肉控制模型,产生的肌肉控制信号准确率高,探索能力和抗遗忘能力强,能够满足多任务场景下的控制需求。
Description
技术领域
本发明涉及控制技术领域,尤其涉及一种肌肉骨骼机器人控制方法及装置。
背景技术
随着机器人技术的迅猛发展,机器人凭借其高速度、高精度和高稳定性的优势,能够代替人完成许多危险的、繁重的和重复性的任务,在国防工业和国民经济中发挥了重要的作用。随着社会需求的不断增加,人们希望机器人能够在更多领域发挥更重要的作用,例如能够代替或辅助人完成精密零件装配和外科手术等,能够与人在同一个工作空间内进行安全的交互,能够适应动态和非结构化的工作环境。肌肉骨骼机器人通过模拟人体的骨骼、关节和肌肉结构,以及肌肉和关节之间的驱动方式,具有更好的灵活性、可靠性、柔顺性、安全性和适应性等潜在优势。因此,针对肌肉骨骼机器人的研究有利于构建新一代机器人系统,提高机器人性能,更好地满足社会需求,具有重要意义。
目前的肌肉骨骼机器人,在控制过程中产生肌肉控制信号的速度较慢,控制难度较高,控制准确率较低,探索能力和抗遗忘能力较弱,难以满足多任务场景下的控制需求。
发明内容
本发明提供一种肌肉骨骼机器人控制方法及装置,用以解决现有技术中肌肉骨骼机器人,在控制过程中产生肌肉控制信号的速度较慢,控制难度较高,控制准确率较低,探索能力和抗遗忘能力较弱,难以满足多任务场景下的控制需求的缺陷,实现产生的肌肉控制信号准确率高,探索能力和抗遗忘能力强,能够满足多任务场景下的控制需求。
本发明提供一种肌肉骨骼机器人控制方法,该肌肉骨骼机器人控制方法包括:获取目标运动参数;将所述目标运动参数输入至肌肉控制模型中,得到所述肌肉控制模型输出的肌肉控制信号;其中,所述肌肉控制模型为基于运动反馈结果和神经流形投影算子训练得到的,所述运动反馈结果为基于输入至所述肌肉控制模型的当前运动参数样本确定的,所述神经流形投影算子为基于输入至所述肌肉控制模型的所述当前运动参数样本的前一运动参数样本确定的。
根据本发明所述的肌肉骨骼机器人控制方法,所述肌肉控制模型的训练过程包括:将所述前一运动参数样本输入至所述肌肉控制模型,得到所述神经流形投影算子;将所述当前运动参数样本输入至所述肌肉控制模型,确定所述运动反馈结果;基于所述神经流形投影算子和所述运动反馈结果,更新所述肌肉控制模型的权重参数。
根据本发明所述的肌肉骨骼机器人控制方法,所述将所述当前运动参数样本输入至所述肌肉控制模型,确定所述运动反馈结果,包括:将所述当前运动参数样本输入至所述肌肉控制模型,得到所述肌肉控制模型输出的参考控制信号;获取所述肌肉骨骼机器人基于所述参考控制信号生成的所述运动状态信息;基于所述运动状态信息和所述当前运动参数样本,确定所述运动反馈结果。
根据本发明所述的肌肉骨骼机器人控制方法,所述将所述当前运动参数样本输入至所述肌肉控制模型,确定所述运动反馈结果,包括:将所述当前运动参数样本输入至所述肌肉控制模型,更新所述神经流形投影算子,得到神经流形更新算子;基于所述神经流形更新算子,确定所述运动反馈结果。
根据本发明所述的肌肉骨骼机器人控制方法,所述将所述当前运动参数样本输入至所述肌肉控制模型,更新所述神经流形投影算子,得到神经流形更新算子,包括:将所述当前运动参数样本输入至所述肌肉控制模型,并基于随机生成的探索噪声向量,更新所述神经流形投影算子,得到神经流形更新算子。
根据本发明所述的肌肉骨骼机器人控制方法,所述将所述当前运动参数样本输入至所述肌肉控制模型,更新所述神经流形投影算子,得到神经流形更新算子,包括:将所述当前运动参数样本输入至所述肌肉控制模型,得到当前任务神经元活动参数;将所述当前任务神经元活动参数与所述神经流形投影算子取并集,确定所述神经流形更新算子。
根据本发明所述的肌肉骨骼机器人控制方法,所述神经流形投影算子为所述肌肉控制模型基于所述前一运动参数样本,调整隐层神经元激活、神经元个数以及神经元活动的样本数量确定的。
本发明还提供一种肌肉骨骼机器人控制装置,该肌肉骨骼机器人控制装置包括:获取模块,用于获取目标运动参数;输出模块,用于将所述目标运动参数输入至肌肉控制模型中,得到所述肌肉控制模型输出的肌肉控制信号;其中,所述肌肉控制模型为基于运动反馈结果和神经流形投影算子训练得到的,所述运动反馈结果为基于输入至所述肌肉控制模型的当前运动参数样本确定的,所述神经流形投影算子为基于输入至所述肌肉控制模型的所述当前运动参数样本的前一运动参数样本确定的。
本发明还提供一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现如上述任一种所述肌肉骨骼机器人控制方法。
本发明还提供一种非暂态计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现如上述任一种所述肌肉骨骼机器人控制方法。
本发明还提供一种计算机程序产品,包括计算机程序,所述计算机程序被处理器执行时实现如上述任一种所述肌肉骨骼机器人控制方法。
本发明提供的肌肉骨骼机器人控制方法及装置,通过将前一运动参数样本所对应的神经流形投影算子与当前运动参数样本所对应的运动反馈结果结合起来训练肌肉控制模型,得到了精度高一级抗遗忘能力强的肌肉控制模型,应用肌肉控制模型产生的肌肉控制信号准确率高,探索能力和抗遗忘能力强,能够满足多任务场景下的控制需求。
附图说明
为了更清楚地说明本发明或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本发明提供的肌肉骨骼机器人控制方法的流程示意图;
图2是本发明提供的肌肉骨骼机器人控制方法的程序框图;
图3是本发明提供的肌肉骨骼机器人控制装置的结构示意图;
图4是本发明提供的电子设备的结构示意图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚,下面将结合本发明中的附图,对本发明中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
下面结合图1至图4描述本发明的肌肉骨骼机器人控制方法及装置。
本发明提供一种肌肉骨骼机器人控制方法,该肌肉骨骼机器人控制方法应用于肌肉骨骼机器人的处理器中,该处理器也可被称为肌肉骨骼机器人控制装置,该处理器与肌肉骨骼机器人的执行机构相连,执行机构可以包括仿真肌肉和仿真骨骼,处理器可以给执行机构发送肌肉控制信号,从而控制执行机构的动作状态,实现肌肉骨骼机器人的自主运动。
如图1所示,该肌肉骨骼机器人控制方法包括如下步骤110至步骤120。
其中,步骤110、获取目标运动参数。
可以理解的是,目标运动参数为期望肌肉骨骼机器人执行的目标动作、形成的目标姿态或者到达的目标位置,目标运动参数可以包括:目标路径、目标角度或者目标位置坐标,目标路径指的是期望肌肉骨骼机器人沿着特定的轨迹执行动作,目标角度指的是期望肌肉骨骼机器人在进行一定动作之后与参照物形成的角度姿态,目标位置坐标指的是期望肌肉骨骼机器人在进行一定动作之后到达的位置坐标。
换言之,目标运动参数是一个期望值,也可以被称为理论值,也就是控制肌肉骨骼机器人所要达到的目标状态。
步骤120、将目标运动参数输入至肌肉控制模型中,得到肌肉控制模型输出的肌肉控制信号。
可以理解的是,肌肉控制模型为机器学习模型,具体可以为神经网络模型,比如为基于泄漏(leaky)神经元的循环神经网络(RNN)。肌肉控制模型可以经过训练来提升精度,在训练完成后可以用于基于目标运动参数得到肌肉控制信号。
在肌肉控制模型的应用过程中,可以将目标运动参数输入到肌肉控制模型中,肌肉控制模型能够输出肌肉控制信号,处理器可以将肌肉控制信号发送给肌肉骨骼机器人的执行机构,执行机构在接收到肌肉控制信号后,可以响应于肌肉控制信号,完成相应的目标动作。
其中,肌肉控制模型为基于运动反馈结果和神经流形投影算子训练得到的,运动反馈结果为基于输入至肌肉控制模型的当前运动参数样本确定的,神经流形投影算子为基于输入至肌肉控制模型的当前运动参数样本的前一运动参数样本确定的。
可以理解的是,在肌肉控制模型的训练过程中,可以通过大量的运动参数样本对肌肉控制模型进行无监督学习的训练过程,无监督学习指的是给予肌肉控制模型训练的样本并无相应的样本标签,也就是给出的运动参数样本没有对应的肌肉控制信号标签。
在描述肌肉控制模型的训练过程时,将运动参数样本分为当前运动参数样本和前一运动参数样本,前一运动参数样本是当前输入给肌肉控制模型前一个输入的运动参数样本,前一运动参数样本和当前运动参数样本是相邻的。
按照对肌肉控制模型训练的先后顺序,可以先将前一运动参数样本输入到肌肉控制模型中,肌肉控制模型可以对前一运动参数样本进行处理,产生神经元活动,此处的神经流形投影算子就是对该神经元活动的近似表征,可以对前一运动参数样本对应的神经流形投影算子进行保存。
可以再将当前运动参数样本输入到肌肉控制模型中,肌肉控制模型可以对当前运动参数样本进行处理,产生神经元活动,并能够产生对应的运动反馈结果,运动反馈结果用于表征执行机构在处理器的控制下的实际运动状态与目标运动参数的差距,运动反馈结果也可以被称为奖励信号。
此处可以将神经流形投影算子和运动反馈结果结合起来,共同训练肌肉控制模型,这样在每一次训练肌肉控制模型的任务过程中,利用了上一次训练肌肉控制模型的任务过程中产生的神经元活动,这样就能够在进行多种类型的任务训练过程中,不遗忘前一次任务的处理逻辑,保留与前一次任务相关的处理逻辑,可以在实现对新任务的习得学习的过程中提升对旧任务的抗遗忘能力。
值得一提的是,在控制方面,肌肉骨骼机器人的高冗余、强耦合和强非线性给控制带来了巨大挑战。由于其高度冗余特性,肌肉骨骼机器人的控制需要根据低维的运动目标求解高维的肌肉控制信号。因此,特定运动的肌肉控制信号具有无穷解,这给肌肉控制信号的快速求解和优化带来了困难。而且,肌肉骨骼机器人存在强耦合特性,即一个关节的运动会受到多个肌肉影响,每个肌肉的输出力也会影响多个关节的运动。无法将整个机器人的运动控制分解成对各肌肉的单独控制,这进一步增加了控制的难度。此外,受人体肌肉排布和肌肉动力学特性的启发,部分肌肉骨骼机器人的肌腱分布和动力传导线路较为复杂,肌腱与骨骼和其他接触物之间存在大量摩擦,部分肌肉模块具有较强的非线性。因此,很难针对此类肌肉骨骼机器人建立准确的几何模型和动力学模型。
针对肌肉骨骼机器人的以上控制难点,发明人在研发过程中发现,可以采用基于模型的方法和无模型方法来实现对肌肉骨骼机器人的控制。前者可基于肌肉骨骼机器人的显式模型实现控制。但是,该类方法非常依赖所建模型的准确性,不适用于结构复杂的肌肉骨骼机器人的精准控制。后者可通过监督学习或者强化学习等方式直接训练针对肌肉骨骼机器人的控制器,可避免建立肌肉骨骼机器人的显式模型。但是此类方法仍无法实现肌肉骨骼机器人的多任务持续强化。前期工作可实现肌肉骨骼机器人的持续强化学习,但该工作仅可实现对不同运动范围内的相同任务的持续强化学习,其对新任务的探索能力和对旧任务的抗遗忘能力有限。
本发明提供的肌肉骨骼机器人控制方法,通过将前一运动参数样本所对应的神经流形投影算子与当前运动参数样本所对应的运动反馈结果结合起来训练肌肉控制模型,得到了精度高一级抗遗忘能力强的肌肉控制模型,应用肌肉控制模型产生的肌肉控制信号准确率高,探索能力和抗遗忘能力强,能够满足多任务场景下的控制需求。
如图2所示,在一些实施例中,肌肉控制模型的训练过程包括:将前一运动参数样本输入至肌肉控制模型,得到神经流形投影算子;将当前运动参数样本输入至肌肉控制模型,确定运动反馈结果;基于神经流形投影算子和运动反馈结果,更新肌肉控制模型的权重参数。
可以理解的是,在训练肌肉控制模型的过程中,先将前一运动参数样本输入到肌肉控制模型当中,肌肉控制模型产生相应的神经活动,根据神经活动的相关特征,可以确定出神经流形投影算子,并将神经流形投影算子进行保存;再将当前运动参数样本输入到肌肉控制模型中,确定肌肉骨骼机器人的运动反馈结果,将神经流形投影算子与运动反馈结果结合起来更新肌肉控制模型的权重参数。
也就是说,权重参数在进行更新时,受到了至少两个因素的影响,一个是前一运动参数样本所对应的神经流形投影算子,另一个是当前运动参数样本所对应的运动反馈结果。
在一些实施例中,神经流形投影算子为肌肉控制模型基于前一运动参数样本,调整隐层神经元激活、神经元个数以及神经元活动的样本数量确定的。
肌肉控制模型的动力学方程如下:
其中,xt,rt,ht,ot分别是肌肉控制模型的输入、隐层神经元膜电位、隐层神经元激活以及肌肉控制模型的输出;U,W,V分别是肌肉控制模型的输入层权重、肌肉控制模型的循环层权重以及肌肉控制模型的输出层权重;ReLu(a)=max(0,a)分别是隐层神经元的激活函数和输出层神经元的激活函数。
当肌肉控制模型的谱半径满足ρ(W)<1时,或者ρ(W)略大于1时,肌肉控制模型的神经元活动将聚集于与任务相关的低维流形,可产生具有协同激活模式的肌肉控制信号,并以此实现对肌肉骨骼机器人的运动控制和学习。
因此,针对已习得的任务,可以利用神经流形投影算子构建与任务相关的神经元活动的线性子空间,实现对肌肉控制模型的神经元活动所聚集的低维流形的近似估计。
其中,神经流形投影算子C的定义如下:
其中,表示与任务相关的肌肉控制模型的隐层神经元激活,N为神经元个数,L为神经元活动的样本数目,hl表示H的第l列向量,C为与任务相关的神经元活动所对应流形的一个近似投影算子,α∈(0,+∞)是一个调节系数。
针对以上优化问题,C存在闭式解如下:
其中,是单位矩阵,是实对称的半正定矩阵,可以对进行SVD分解得到是对角矩阵,σ1,...,σN对应着的N个奇异值,U是正交矩阵,其中各列为的特征向量。因为是半正定矩阵,σ1,...,σN也是D的特征值,U中各列也是的特征向量,对应着H中神经元活动的主成分方向。
进一步,可对C进行如下展开:
C=U∑UT(U∑UT+α-2I)-1
=U∑UT[U(∑+α-2I)UT]-1
=U∑UT(UT)-1(∑+α-2I)-1U-1;
=U∑(∑+α-2I)-1UT
=USUT
可以确定的是,神经流形投影算子C也表征了H中神经元活动的主成分方向,同时通过可调节系数α调节了各主成分方向的特征值,对神经元活动的流形进行了近似估计和表征。
如图2所示,在一些实施例中,将当前运动参数样本输入至肌肉控制模型,确定运动反馈结果,包括:将当前运动参数样本输入至肌肉控制模型,得到肌肉控制模型输出的参考控制信号;获取肌肉骨骼机器人基于参考控制信号生成的运动状态信息;基于运动状态信息和当前运动参数样本,确定运动反馈结果。
可以理解的是,在将当前运动参数样本输入到肌肉控制模型中,肌肉控制模型会对当前运动参数样本进行处理,预测得到参考控制信号,并将参考控制信号输出给肌肉骨骼机器人的执行机构,执行机构可以按照参考控制信号执行相应的动作,处理器可以记录执行机构的运动状态信息,并将运动状态信息与当前运动参数样本进行对比,得到运动反馈结果,也就是将实际值与理论值进行对比,得到实际值与理论值的差距。
如图2所示,在一些实施例中,将当前运动参数样本输入至肌肉控制模型,确定运动反馈结果,包括:将当前运动参数样本输入至肌肉控制模型,更新神经流形投影算子,得到神经流形更新算子;基于神经流形更新算子,确定运动反馈结果。
可以理解的是,肌肉控制模型在训练过程中,随着输入的运动参数样本数量的增加,会逐渐更新神经流形投影算子,在将当前运动参数样本输入到肌肉控制模型当中时,会在前一运动参数样本对应的神经流形投影算子的基础上进行更新,得到神经流形更新算子,在得到了神经流形更新算子之后,可以根据神经流形更新算子,得到当前运动参数样本所对应的运动反馈结果。
如图2所示,在一些实施例中,将当前运动参数样本输入至肌肉控制模型,更新神经流形投影算子,得到神经流形更新算子,包括:将当前运动参数样本输入至肌肉控制模型,并基于随机生成的探索噪声向量,更新神经流形投影算子,得到神经流形更新算子。
可以理解的是,在神经流形投影算子的更新过程中,可以随机产生探索噪声向量,在将当前运动参数样本输入到肌肉控制模型中时,肌肉控制模型可以结合随机生成的探索噪声向量,来更新神经流形投影算子,得到神经流形更新算子,相当于肌肉控制模型具有自我试错的功能,能够通过自由尝试来学习到更多处理逻辑。
在强化学习过程中,为增强对更优解的探索能力,本实施例对神经元活动施加探索噪声向量如下:
rt ε=rt+εt=(1-α)rt-1+α(Uxt+Wht-1+b)+εt;
其中,rt ε是受干扰的神经元膜电位,εt~N(0,∑)是服从高斯分布的噪声向量,∑=diag(σ2,...,σ2)是对角协方差矩阵,σ2是噪声的方差。
在多任务的持续强化学习过程中,为了调高对新任务的探索效率,本实施例将根据新任务与已习得任务的相似性,利用已习得任务的神经流形调控神经元活动的探索方向。具体地,针对与已有任务相近的新任务,本实施例在学习过程中更倾向于对已有神经流形的利用,将对新任务的探索噪声向量进行调控如下:
其中,是用于近似描述在已习得的j-1个任务中神经元活动r所聚集的神经流形投影算子,||·||2是L2模。投影至已有神经流形的附近。基于投影特性,εt首先被投影至包含神经流形的线性子空间内得到然后通过对的尺度缩放得到令其保持和εt一样的模值。由于r和都落在包含神经流形的线性子空间内,探索噪声向量也落在包含神经流形的线性子空间内。因此,与未经调控的探索噪声向量rt+εt相比,经过调控的探索噪声向量有更高的概率距离已有神经流形更近。
针对与已有任务差别大的新任务,本实施例在学习过程中更倾向于形成新的神经流形和神经元活动模式,将对新任务的探索噪声向量进行调控如下:
其中,是用于近似描述在已习得的j-1个任务中神经元活动r所聚集的神经流形的互补子空间的概念算子。与上述分析类似地,与未经调控的探索噪声向量rt+εt相比,经过调控的探索噪声向量有更高的概率距离已有神经流形更远。
在一些实施例中,将当前运动参数样本输入至肌肉控制模型,更新神经流形投影算子,得到神经流形更新算子,包括:将当前运动参数样本输入至肌肉控制模型,得到当前任务神经元活动参数;将当前任务神经元活动参数与神经流形投影算子取并集,确定神经流形更新算子。
可以理解的是,在多任务的持续强化学习过程中,本实施例在习得一个新任务之后,利用与该任务相关的神经元活动,对神经流形投影算子进行在线更新。神经流形投影算子可以为概念算子矩阵的形式,概念算子矩阵的更新仅需要利用到之前习得的概念算子矩阵,以及新任务中的神经元活动,不再需要记录与之前任务相关的神经元活动,因此可对概念算子矩阵实现增量式的更新如下:
Cj=Cj-1∨Ctask-j
=(I+(Cj-1(I-Cj-1)-1+Ctask-j(I-Ctask-j)-1)-1)-1;
其中,Cj=Cj(H,1),Cj-1=Cj-1(H,1),Ctask-j=Ctask-j(H,1)分别为j个任务的总概念算子矩阵、j-1个任务的总概念算子矩阵以及第j个任务的概念算子矩阵,且调节系数α=1,∨表示并运算,表示对两个神经元活动所涉及的线性空间求并集。
再进一步地,根据可知,可通过系数α调节各主成分方向上的特征值。当α较大时,神经流形投影算子尽可能保持各主成分方向的特征值,所刻画的神经元活动流形越接近真实的神经元活动流形,所占有的神经元状态空间也越大,可视为占有的记忆空间越大;当α较小时,神经流形投影算子会削弱部分特征值较小的主成分方向,以减小所占有的记忆空间。因此,可实时地调节α来平衡存储相关记忆所需要的容量和维持神经元活动流形准确性的要求,实现对神经流形投影算子的更新:
如图2所示,在一些实施例中,针对单个任务的学习过程,也就是针对每一个输入进肌肉控制模型的运动参数样本,根据REINFORCE强化学习方法,将基于每一次运动参数样本输入后的肌肉控制模型的权重更新如下:
其中,ΔU,ΔW,ΔV,Δb是权重U,W,V,b的更新值,Tt是每一次任务的固定控制次数,R是任务结束时的运动反馈结果,是运动反馈结果的估计值,可通过计算之前训练过程中的平均运动反馈结果进行估计如下:
其中,n指第n轮训练,0<αR<1是滤波系数。
在多任务的持续强化学习中,为了防止已习得任务的知识和技能在学习新任务时发生灾难性遗忘,本实施例将利用已习得任务的神经流形投影算子来调控肌肉控制模型的权重参数:
其中,ΔW0,ΔV0是基于REINFORCE算法计算的权重参数W,V的更新值,是用于近似描述在已习得的j-1个任务中神经元活动h所聚集的神经流形投影算子,是的互补算子。基于投影特性,ΔW0,ΔV0首先被投影至与已有神经流形正交的方向得到然后通过对进行尺度缩放得到ΔW,ΔV,令其保持和ΔW0,ΔV0一样的模值。
下面对本发明提供的肌肉骨骼机器人控制装置进行描述,下文描述的肌肉骨骼机器人控制装置与上文描述的肌肉骨骼机器人控制方法可相互对应参照。
本发明还提供一种肌肉骨骼机器人控制装置,该肌肉骨骼机器人控制装置包括:获取模块310和输出模块320。
获取模块310,用于获取目标运动参数。
输出模块320,用于将目标运动参数输入至肌肉控制模型中,得到肌肉控制模型输出的肌肉控制信号。
其中,肌肉控制模型为基于运动反馈结果和神经流形投影算子训练得到的,运动反馈结果为基于输入至肌肉控制模型的当前运动参数样本确定的,神经流形投影算子为基于输入至肌肉控制模型的当前运动参数样本的前一运动参数样本确定的。
图4示例了一种电子设备的实体结构示意图,如图4所示,该电子设备可以包括:处理器(processor)410、通信接口(Communications Interface)420、存储器(memory)430和通信总线440,其中,处理器410,通信接口420,存储器430通过通信总线440完成相互间的通信。处理器410可以调用存储器430中的逻辑指令,以执行肌肉骨骼机器人控制方法,该方法包括:获取目标运动参数;将所述目标运动参数输入至肌肉控制模型中,得到所述肌肉控制模型输出的肌肉控制信号;其中,所述肌肉控制模型为基于运动反馈结果和神经流形投影算子训练得到的,所述运动反馈结果为基于输入至所述肌肉控制模型的当前运动参数样本确定的,所述神经流形投影算子为基于输入至所述肌肉控制模型的所述当前运动参数样本的前一运动参数样本确定的。
此外,上述的存储器430中的逻辑指令可以通过软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
另一方面,本发明还提供一种计算机程序产品,所述计算机程序产品包括计算机程序,计算机程序可存储在非暂态计算机可读存储介质上,所述计算机程序被处理器执行时,计算机能够执行上述各方法所提供的肌肉骨骼机器人控制方法,该方法包括:获取目标运动参数;将所述目标运动参数输入至肌肉控制模型中,得到所述肌肉控制模型输出的肌肉控制信号;其中,所述肌肉控制模型为基于运动反馈结果和神经流形投影算子训练得到的,所述运动反馈结果为基于输入至所述肌肉控制模型的当前运动参数样本确定的,所述神经流形投影算子为基于输入至所述肌肉控制模型的所述当前运动参数样本的前一运动参数样本确定的。
又一方面,本发明还提供一种非暂态计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现以执行上述各方法提供的肌肉骨骼机器人控制方法,该方法包括:获取目标运动参数;将所述目标运动参数输入至肌肉控制模型中,得到所述肌肉控制模型输出的肌肉控制信号;其中,所述肌肉控制模型为基于运动反馈结果和神经流形投影算子训练得到的,所述运动反馈结果为基于输入至所述肌肉控制模型的当前运动参数样本确定的,所述神经流形投影算子为基于输入至所述肌肉控制模型的所述当前运动参数样本的前一运动参数样本确定的。
以上所描述的装置实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下,即可以理解并实施。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件。基于这样的理解,上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在计算机可读存储介质中,如ROM/RAM、磁碟、光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。
最后应说明的是:以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。
Claims (10)
1.一种肌肉骨骼机器人控制方法,其特征在于,包括:
获取目标运动参数;
将所述目标运动参数输入至肌肉控制模型中,得到所述肌肉控制模型输出的肌肉控制信号;
其中,所述肌肉控制模型为基于运动反馈结果和神经流形投影算子训练得到的,所述运动反馈结果为基于输入至所述肌肉控制模型的当前运动参数样本确定的,所述神经流形投影算子为基于输入至所述肌肉控制模型的所述当前运动参数样本的前一运动参数样本确定的。
2.根据权利要求1所述的肌肉骨骼机器人控制方法,其特征在于,所述肌肉控制模型的训练过程包括:
将所述前一运动参数样本输入至所述肌肉控制模型,得到所述神经流形投影算子;
将所述当前运动参数样本输入至所述肌肉控制模型,确定所述运动反馈结果;
基于所述神经流形投影算子和所述运动反馈结果,更新所述肌肉控制模型的权重参数。
3.根据权利要求2所述的肌肉骨骼机器人控制方法,其特征在于,所述将所述当前运动参数样本输入至所述肌肉控制模型,确定所述运动反馈结果,包括:
将所述当前运动参数样本输入至所述肌肉控制模型,得到所述肌肉控制模型输出的参考控制信号;
获取所述肌肉骨骼机器人基于所述参考控制信号生成的所述运动状态信息;
基于所述运动状态信息和所述当前运动参数样本,确定所述运动反馈结果。
4.根据权利要求2所述的肌肉骨骼机器人控制方法,其特征在于,所述将所述当前运动参数样本输入至所述肌肉控制模型,确定所述运动反馈结果,包括:
将所述当前运动参数样本输入至所述肌肉控制模型,更新所述神经流形投影算子,得到神经流形更新算子;
基于所述神经流形更新算子,确定所述运动反馈结果。
5.根据权利要求4所述的肌肉骨骼机器人控制方法,其特征在于,所述将所述当前运动参数样本输入至所述肌肉控制模型,更新所述神经流形投影算子,得到神经流形更新算子,包括:
将所述当前运动参数样本输入至所述肌肉控制模型,并基于随机生成的探索噪声向量,更新所述神经流形投影算子,得到神经流形更新算子。
6.根据权利要求4所述的肌肉骨骼机器人控制方法,其特征在于,所述将所述当前运动参数样本输入至所述肌肉控制模型,更新所述神经流形投影算子,得到神经流形更新算子,包括:
将所述当前运动参数样本输入至所述肌肉控制模型,得到当前任务神经元活动参数;
将所述当前任务神经元活动参数与所述神经流形投影算子取并集,确定所述神经流形更新算子。
7.根据权利要求1至6中任一项所述的肌肉骨骼机器人控制方法,其特征在于,所述神经流形投影算子为所述肌肉控制模型基于所述前一运动参数样本,调整隐层神经元激活、神经元个数以及神经元活动的样本数量确定的。
8.一种肌肉骨骼机器人控制装置,其特征在于,包括:
获取模块,用于获取目标运动参数;
输出模块,用于将所述目标运动参数输入至肌肉控制模型中,得到所述肌肉控制模型输出的肌肉控制信号;
其中,所述肌肉控制模型为基于运动反馈结果和神经流形投影算子训练得到的,所述运动反馈结果为基于输入至所述肌肉控制模型的当前运动参数样本确定的,所述神经流形投影算子为基于输入至所述肌肉控制模型的所述当前运动参数样本的前一运动参数样本确定的。
9.一种电子设备,包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现如权利要求1至7任一项所述肌肉骨骼机器人控制方法。
10.一种非暂态计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1至7任一项所述肌肉骨骼机器人控制方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210558121.2A CN114952791A (zh) | 2022-05-19 | 2022-05-19 | 肌肉骨骼机器人控制方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210558121.2A CN114952791A (zh) | 2022-05-19 | 2022-05-19 | 肌肉骨骼机器人控制方法及装置 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN114952791A true CN114952791A (zh) | 2022-08-30 |
Family
ID=82986020
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210558121.2A Pending CN114952791A (zh) | 2022-05-19 | 2022-05-19 | 肌肉骨骼机器人控制方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114952791A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116126151A (zh) * | 2023-04-14 | 2023-05-16 | 广州市第一人民医院(广州消化疾病中心、广州医科大学附属市一人民医院、华南理工大学附属第二医院) | 舌骨上肌群运动皮质区绘制方法、系统、存储介质及设备 |
-
2022
- 2022-05-19 CN CN202210558121.2A patent/CN114952791A/zh active Pending
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116126151A (zh) * | 2023-04-14 | 2023-05-16 | 广州市第一人民医院(广州消化疾病中心、广州医科大学附属市一人民医院、华南理工大学附属第二医院) | 舌骨上肌群运动皮质区绘制方法、系统、存储介质及设备 |
CN116126151B (zh) * | 2023-04-14 | 2023-08-08 | 广州市第一人民医院(广州消化疾病中心、广州医科大学附属市一人民医院、华南理工大学附属第二医院) | 舌骨上肌群运动皮质区绘制方法、系统、存储介质及设备 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Qi et al. | Intelligent human-computer interaction based on surface EMG gesture recognition | |
Köker et al. | A study of neural network based inverse kinematics solution for a three-joint robot | |
Bouganis et al. | Training a spiking neural network to control a 4-dof robotic arm based on spike timing-dependent plasticity | |
Bianchi et al. | Transferring knowledge as heuristics in reinforcement learning: A case-based approach | |
Tamosiunaite et al. | Learning to pour with a robot arm combining goal and shape learning for dynamic movement primitives | |
Peters et al. | Reinforcement learning by reward-weighted regression for operational space control | |
Billard et al. | Discriminative and adaptive imitation in uni-manual and bi-manual tasks | |
Schaal et al. | Learning control in robotics | |
CN109702740B (zh) | 机器人柔顺性控制方法、装置、设备及存储介质 | |
Rueckert et al. | Extracting low-dimensional control variables for movement primitives | |
KR101577711B1 (ko) | 시간 및 공간적 관계를 이용한 작업 솜씨 학습 방법 | |
Colomé et al. | Dimensionality reduction and motion coordination in learning trajectories with dynamic movement primitives | |
Zhao et al. | Model accelerated reinforcement learning for high precision robotic assembly | |
CN114952791A (zh) | 肌肉骨骼机器人控制方法及装置 | |
Jiang et al. | Generative adversarial interactive imitation learning for path following of autonomous underwater vehicle | |
CN112405542B (zh) | 基于脑启发多任务学习的肌肉骨骼机器人控制方法及系统 | |
Yoneda et al. | To the noise and back: Diffusion for shared autonomy | |
Li et al. | Enhanced task parameterized dynamic movement primitives by GMM to solve manipulation tasks | |
Tieck et al. | Generating pointing motions for a humanoid robot by combining motor primitives | |
Oikonomou et al. | Reproduction of human demonstrations with a soft-robotic arm based on a library of learned probabilistic movement primitives | |
Minatohara et al. | The self-organizing adaptive controller | |
Yavaş et al. | Hierarchical behavior categorization using correlation based adaptive resonance theory | |
Parsapoor | Brain emotional learning-based prediction model (for long-term chaotic prediction applications) | |
CN115091467A (zh) | 一种基于模糊Petri网的意图预测与消歧方法及系统 | |
Wu et al. | A framework of improving human demonstration efficiency for goal-directed robot skill learning |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |