CN112621760B - 基于神经元增益基元组合优化的机器人运动控制方法 - Google Patents
基于神经元增益基元组合优化的机器人运动控制方法 Download PDFInfo
- Publication number
- CN112621760B CN112621760B CN202011591657.1A CN202011591657A CN112621760B CN 112621760 B CN112621760 B CN 112621760B CN 202011591657 A CN202011591657 A CN 202011591657A CN 112621760 B CN112621760 B CN 112621760B
- Authority
- CN
- China
- Prior art keywords
- neuron
- gain
- neural network
- frequency
- neurons
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 210000002569 neuron Anatomy 0.000 title claims abstract description 235
- 230000033001 locomotion Effects 0.000 title claims abstract description 82
- 238000000034 method Methods 0.000 title claims abstract description 72
- 238000005457 optimization Methods 0.000 title claims abstract description 38
- 238000013528 artificial neural network Methods 0.000 claims abstract description 110
- 230000000306 recurrent effect Effects 0.000 claims abstract description 71
- 230000036982 action potential Effects 0.000 claims description 75
- 239000011159 matrix material Substances 0.000 claims description 62
- 238000012549 training Methods 0.000 claims description 52
- 210000004027 cell Anatomy 0.000 claims description 31
- 125000004122 cyclic group Chemical group 0.000 claims description 27
- 239000000523 sample Substances 0.000 claims description 25
- 239000012528 membrane Substances 0.000 claims description 24
- 238000010304 firing Methods 0.000 claims description 20
- 238000005070 sampling Methods 0.000 claims description 18
- 239000013598 vector Substances 0.000 claims description 18
- 238000004422 calculation algorithm Methods 0.000 claims description 16
- 230000000694 effects Effects 0.000 claims description 16
- 239000012488 sample solution Substances 0.000 claims description 16
- 238000004364 calculation method Methods 0.000 claims description 15
- 238000009826 distribution Methods 0.000 claims description 15
- 239000000126 substance Substances 0.000 claims description 14
- 238000009795 derivation Methods 0.000 claims description 7
- 230000009191 jumping Effects 0.000 claims description 7
- 230000017105 transposition Effects 0.000 claims description 5
- 238000012545 processing Methods 0.000 claims description 4
- 238000013519 translation Methods 0.000 claims description 4
- 230000002964 excitative effect Effects 0.000 claims description 3
- 230000002401 inhibitory effect Effects 0.000 claims description 3
- 230000035945 sensitivity Effects 0.000 claims description 3
- 238000011161 development Methods 0.000 claims 1
- BULVZWIRKLYCBC-UHFFFAOYSA-N phorate Chemical compound CCOP(=S)(OCC)SCSCC BULVZWIRKLYCBC-UHFFFAOYSA-N 0.000 claims 1
- 230000006870 function Effects 0.000 description 48
- 230000008569 process Effects 0.000 description 11
- 230000001276 controlling effect Effects 0.000 description 6
- 238000010586 diagram Methods 0.000 description 5
- VYFYYTLLBUKUHU-UHFFFAOYSA-N dopamine Chemical compound NCCC1=CC=C(O)C(O)=C1 VYFYYTLLBUKUHU-UHFFFAOYSA-N 0.000 description 4
- QZAYGJVTTNCVMB-UHFFFAOYSA-N serotonin Chemical compound C1=C(O)C=C2C(CCN)=CNC2=C1 QZAYGJVTTNCVMB-UHFFFAOYSA-N 0.000 description 4
- 238000013459 approach Methods 0.000 description 3
- 229940088597 hormone Drugs 0.000 description 3
- 239000005556 hormone Substances 0.000 description 3
- 230000003287 optical effect Effects 0.000 description 3
- 238000006467 substitution reaction Methods 0.000 description 3
- SFLSHLFXELFNJZ-QMMMGPOBSA-N (-)-norepinephrine Chemical compound NC[C@H](O)C1=CC=C(O)C(O)=C1 SFLSHLFXELFNJZ-QMMMGPOBSA-N 0.000 description 2
- 238000003491 array Methods 0.000 description 2
- 210000004556 brain Anatomy 0.000 description 2
- 210000000170 cell membrane Anatomy 0.000 description 2
- 238000004590 computer program Methods 0.000 description 2
- 229960003638 dopamine Drugs 0.000 description 2
- 238000001914 filtration Methods 0.000 description 2
- 150000002500 ions Chemical class 0.000 description 2
- 230000000670 limiting effect Effects 0.000 description 2
- 229960002748 norepinephrine Drugs 0.000 description 2
- SFLSHLFXELFNJZ-UHFFFAOYSA-N norepinephrine Natural products NCC(O)C1=CC=C(O)C(O)=C1 SFLSHLFXELFNJZ-UHFFFAOYSA-N 0.000 description 2
- 230000000644 propagated effect Effects 0.000 description 2
- 230000001105 regulatory effect Effects 0.000 description 2
- 230000004044 response Effects 0.000 description 2
- 229940076279 serotonin Drugs 0.000 description 2
- 241000282412 Homo Species 0.000 description 1
- 102000004310 Ion Channels Human genes 0.000 description 1
- 238000007476 Maximum Likelihood Methods 0.000 description 1
- 230000009471 action Effects 0.000 description 1
- 230000003044 adaptive effect Effects 0.000 description 1
- 230000006399 behavior Effects 0.000 description 1
- 230000003542 behavioural effect Effects 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 210000003710 cerebral cortex Anatomy 0.000 description 1
- 230000002490 cerebral effect Effects 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 230000009977 dual effect Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 230000000763 evoking effect Effects 0.000 description 1
- 239000000835 fiber Substances 0.000 description 1
- 230000007774 longterm Effects 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 210000000337 motor cortex Anatomy 0.000 description 1
- 210000002346 musculoskeletal system Anatomy 0.000 description 1
- 210000005036 nerve Anatomy 0.000 description 1
- 210000000653 nervous system Anatomy 0.000 description 1
- 230000001537 neural effect Effects 0.000 description 1
- 239000013307 optical fiber Substances 0.000 description 1
- 230000002829 reductive effect Effects 0.000 description 1
- 230000008844 regulatory mechanism Effects 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 230000002441 reversible effect Effects 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
- 238000004088 simulation Methods 0.000 description 1
- 210000000278 spinal cord Anatomy 0.000 description 1
- 238000011105 stabilization Methods 0.000 description 1
- 230000001052 transient effect Effects 0.000 description 1
Images
Classifications
-
- B—PERFORMING OPERATIONS; TRANSPORTING
- B25—HAND TOOLS; PORTABLE POWER-DRIVEN TOOLS; MANIPULATORS
- B25J—MANIPULATORS; CHAMBERS PROVIDED WITH MANIPULATION DEVICES
- B25J9/00—Programme-controlled manipulators
- B25J9/16—Programme controls
-
- B—PERFORMING OPERATIONS; TRANSPORTING
- B25—HAND TOOLS; PORTABLE POWER-DRIVEN TOOLS; MANIPULATORS
- B25J—MANIPULATORS; CHAMBERS PROVIDED WITH MANIPULATION DEVICES
- B25J9/00—Programme-controlled manipulators
- B25J9/16—Programme controls
- B25J9/1628—Programme controls characterised by the control loop
Abstract
本发明属于机器人技术领域,具体涉及一种基于神经元增益基元组合优化的机器人运动控制方法、系统、装置,旨在现有的机器人运动控制方法在复杂动态环境中控制鲁棒性、自适应性较差的问题。本方法包括获取机器人待运动的目标位置及运动方向,作为输入数据;基于输入数据,通过预构建的循环神经网络动力学模型得到对应的控制信号,并控制机器人移动。本发明提高了机器人运动控制的鲁棒性、自适应性。
Description
技术领域
本发明属于机器人技术领域,具体涉及一种基于神经元增益基元组合优化的机器人运动控制方法、系统、装置。
背景技术
能够快速、鲁棒、自适应地执行灵巧的运动是机器人广泛应用的重要前提。但是,现有的机器人技术在通用性方面依然差强人意。具有刚性结构的机器人系统通常工作在结构化环境中,与人类工作人员保持安全距离,难以真正实现与人的协同合作。而相比而言,人类的运动结构经过长期进化,拥有完备的肌肉骨骼系统以及发达的运动神经系统,使其能够实现极其柔顺、灵巧、精准的高效运动。其中大脑运动皮层能够在保持结构不变的情况下,通过激素的调节作用,使神经网络产生丰富的瞬态响应,从而支持生物完成轨迹、速度、力量不同的运动任务。这一特点赋予了人类在复杂动态环境中灵活、鲁棒、自适应的运动能力。而这一特性正是当前机器人控制领域的关键瓶颈问题,因此,通过深入研究人类躯体运动结构和神经控制机理,将有望为设计响应更快、鲁棒性更好的机器人智能控制算法带来重要启发。基于此,本发明提出了一种基于神经元增益基元组合优化的机器人运动控制方法。
发明内容
为了解决现有技术中的上述问题,即为了解决现有的机器人运动控制方法在复杂动态环境中控制鲁棒性、自适应性较差的问题,本发明第一方面,提出了一种基于神经元增益基元组合优化的机器人运动控制方法,该方法包括:
步骤S10,获取机器人待运动的目标位置及运动方向,作为输入数据;
步骤S20,基于所述输入数据,通过预构建的循环神经网络动力学模型得到对应的控制信号,并控制机器人移动;
其中,所述循环神经网络动力学模型其构建及训练方法为:
步骤A10,初始化循环神经网络的连接矩阵;
步骤A20,基于所述连接矩阵、设定的松弛变量和网络初始状态,构建循环神经网络的能量函数;结合所述连接矩阵中特征值的最大实部、所述能量函数,对所述连接矩阵进行求导优化;
步骤A30,初始化循环神经网络的神经元集群编码层;
步骤A40,采用双曲正切函数构建循环神经网络神经元动作电位阈值与频率-电流增益之间的计算关系,作为第一关系;
步骤A50,基于所述第一关系、优化的连接矩阵,结合神经元膜电位幅值,构建受增益调控的循环神经网络动力学模型;并利用最小二乘法拟合循环神经网络神经元到输出层的连接权重和偏置常量;
步骤A60,获取ND组训练样本;结合神经元的电活动强度,通过所述神经元集群编码层神经元的发放频率对给定的目标运动方向进行编码;编码后,结合所述优化的连接矩阵,计算神经元膜电位幅值,并通过所述受增益调控的循环神经网络动力学模型,得到控制信号,作为预测信号;所述训练样本包括目标位置、目标运动方向及对应的控制信号标签;
步骤A70,计算所述预测信号与控制信号标签的误差,并通过预构建的奖励函数,更新神经元的动作电位阈值以及频率-电流增益;
步骤A100,以所述权重向量为均值计算方差,并通过交叉熵算法从所述均值、方差的采样分布采样ns个候选解;将ns个候选解代入预构建的损失函数中计算损失,并将损失最小的ne个候选解构建精英样本解集;
步骤A110,基于所述精英样本解集中的候选解更新所述均值、方差;更新后跳转步骤A100,直至达到设定的迭代次数或损失小于设定的阈值,并将损失最小对应的候选解作为最优解;
步骤A120,将所述最优解分别与所述增益基元库中的各频率-电流增益、电位阈值基元库中的各神经元动作电位阈值进行乘积求和,作为最终的频率-电流增益、神经元动作电位阈值,并代入所述受增益调控的循环神经网络动力学模型,作为最终训练好的循环神经网络动力学模型。
其中,N表示神经网络循环层所包含的神经元数量,PW表示神经元的连接概率,φ、ρ为设定的常量。
在一些优选的实施方式中,所述能量函数为:
其中,ε()表示能量函数,a表示设定的网络初始状态,s表示松弛变量,T表示转置,τ表示循环神经网络中设定的时间尺度常量,t表示时间,I为单位矩阵,Q(W,s)表示矩阵积分项。
在一些优选的实施方式中,步骤A40中“采用双曲正切函数构建循环神经网络神经元动作电位阈值与频率-电流增益之间的计算关系”,其方法为:
μC=0.5(GU-GL)
其中,表示t时刻神经元频率-电流增益,表示t时刻神经元动作电位阈值,表示正常情况下神经元的增益幅度,是神经元动作电位阈值的下界,对应于神经元频率-电流增益上界GU,是神经元动作电位阈值的上界,对应于神经元频率-电流增益下界GL,ζ表示引起神经元产生神经元信号值的频率强度。
在一些优选的实施方式中,所述受增益调控的循环神经网络动力学模型为:
其中,xi(t)表示t时刻的神经元膜电位幅值,表示xi(t)的一阶导数,Wik∈W,i和k为行列号,为受增益调控的神经元发放率函数,为平移量,rmax为神经元的最大发放频率, xk(t)为,γ表示形状因子。
在一些优选的实施方式中,“结合神经元的电活动强度,通过所述神经元集群编码层神经元的发放频率对给定的目标运动方向进行编码;编码后,结合所述优化的连接矩阵,计算神经元膜电位幅值”,其方法为:
xi(t)=τ·Wfi(θT)
fi(θT)=rmax·exp(K(cos(θT-θi)-1))
其中,K表示神经元对方向偏差敏感度常数,θT表示目标运动方向,θi表示神经元的电活动强度。
在一些优选的实施方式中,步骤A70中“更新神经元的动作电位阈值”,其方法为:
Irhe(t)=Irhe(t-1)+ΔIrhe(t)
本发明的第二方面,提出了一种基于神经元增益基元组合优化的机器人运动控制系统,该系统包括:获取模块、识别模块;
所述获取模块,配置为获取机器人待运动的目标位置及运动方向,作为输入数据;
所述控制模块,配置为基于所述输入数据,通过预构建的循环神经网络动力学模型得到对应的控制信号,并控制机器人移动;
其中,所述循环神经网络动力学模型其构建及训练方法为:
步骤A10,初始化循环神经网络的连接矩阵;
步骤A20,基于所述连接矩阵、设定的松弛变量和网络初始状态,构建循环神经网络的能量函数;结合所述连接矩阵中特征值的最大实部、所述能量函数,对所述连接矩阵进行求导优化;
步骤A30,初始化循环神经网络的神经元集群编码层;
步骤A40,采用双曲正切函数构建循环神经网络神经元动作电位阈值与频率-电流增益之间的计算关系,作为第一关系;
步骤A50,基于所述第一关系、优化的连接矩阵,结合神经元膜电位幅值,构建受增益调控的循环神经网络动力学模型;并利用最小二乘法拟合循环神经网络神经元到输出层的连接权重和偏置常量;
步骤A60,获取ND组训练样本;结合神经元的电活动强度,通过所述神经元集群编码层神经元的发放频率对给定的目标运动方向进行编码;编码后,结合所述优化的连接矩阵,计算神经元膜电位幅值,并通过所述受增益调控的循环神经网络动力学模型,得到控制信号,作为预测信号;所述训练样本包括目标位置、目标运动方向及对应的控制信号标签;
步骤A70,计算所述预测信号与控制信号标签的误差,并通过预构建的奖励函数,更新神经元的动作电位阈值以及频率-电流增益;
步骤A100,以所述权重向量为均值计算方差,并通过交叉熵算法从所述均值、方差的采样分布采样ns个候选解;将ns个候选解代入预构建的损失函数中计算损失,并将损失最小的ne个候选解构建精英样本解集;
步骤A110,基于所述精英样本解集中的候选解更新所述均值、方差;更新后跳转步骤A100,直至达到设定的迭代次数或损失小于设定的阈值,并将损失最小对应的候选解作为最优解;
步骤A120,将所述最优解分别与所述增益基元库中的各频率-电流增益、电位阈值基元库中的各神经元动作电位阈值进行乘积求和,作为最终的频率-电流增益、神经元动作电位阈值,并代入所述受增益调控的循环神经网络动力学模型,作为最终训练好的循环神经网络动力学模型。
本发明的第三方面,提出了一种存储装置,其中存储有多条程序,所述程序适用于由处理器加载并执行以实现上述的基于神经元增益基元组合优化的机器人运动控制方法。
本发明的第四方面,提出了一种处理装置,包括处理器、存储装置;处理器,适用于执行各条程序;存储装置,适用于存储多条程序;所述程序适用于由处理器加载并执行以实现上述的基于神经元增益基元组合优化的机器人运动控制方法。
本发明的有益效果:
本发明提高了机器人运动控制的鲁棒性、自适应性。
本发明基于神经科学中生物能够在保持大脑结构相对稳定的情况下可通过激素调制神经元增益而快速产生丰富的运动模式这一实验观察,利用神经集群编码理论,将机器人运动目标编码为循环神经网络中神经元的初始状态,通过调节网络循环层神经元的增益系数调节网络输出控制信号,使其逐渐逼近演示样本的控制信号,实现机器人对给定复杂运动的自主学习。提高了机器人运动控制的鲁棒性、自适应性。
另外,本发明可以在保持神经网络连接权重不变的情况下,通过调节增益系数实现对演示运动的学习,可实现包括轮式机器人、关节型机器人、类人肌肉骨骼型机器人等多种不同类型的机器人系统对复杂运动的学习。
附图说明
通过阅读参照以下附图所做的对非限制性实施例所做的详细描述,本申请的其他特征、目的和优点将会变得更明显。
图1是本发明一种实施例的基于神经元增益基元组合优化的机器人运动控制方法的流程示意图;
图2是本发明一种实施例的基于神经元增益基元组合优化的机器人运动控制系统的框架示意图;
图3是本发明一种实施例的循环神经网络动力学模型的构建过程的流程示意图;
图4是本发明一种实施例的循环神经网络动力学模型的训练过程的流程示意图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚,下面将结合附图对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
下面结合附图和实施例对本申请作进一步的详细说明。可以理解的是,此处所描述的具体实施例仅用于解释相关发明,而非对该发明的限定。另外还需要说明的是,为了便于描述,附图中仅示出了与有关发明相关的部分。
需要说明的是,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互组合。
本发明的一种基于神经元增益基元组合优化的机器人运动控制方法,如图1所示,该方法包括:
步骤S10,获取机器人待运动的目标位置及运动方向,作为输入数据;
步骤S20,基于所述输入数据,通过预构建的循环神经网络动力学模型得到对应的控制信号,并控制机器人移动;
其中,所述循环神经网络动力学模型其构建及训练方法为:
步骤A10,初始化循环神经网络的连接矩阵;
步骤A20,基于所述连接矩阵、设定的松弛变量和网络初始状态,构建循环神经网络的能量函数;结合所述连接矩阵中特征值的最大实部、所述能量函数,对所述连接矩阵进行求导优化;
步骤A30,初始化循环神经网络的神经元集群编码层;
步骤A40,采用双曲正切函数构建循环神经网络神经元动作电位阈值与频率-电流增益之间的计算关系,作为第一关系;
步骤A50,基于所述第一关系、优化的连接矩阵,结合神经元膜电位幅值,构建受增益调控的循环神经网络动力学模型;并利用最小二乘法拟合循环神经网络神经元到输出层的连接权重和偏置常量;
步骤A60,获取ND组训练样本;结合神经元的电活动强度,通过所述神经元集群编码层神经元的发放频率对给定的目标运动方向进行编码;编码后,结合所述优化的连接矩阵,计算神经元膜电位幅值,并通过所述受增益调控的循环神经网络动力学模型,得到控制信号,作为预测信号;所述训练样本包括目标位置、目标运动方向及对应的控制信号标签;
步骤A70,计算所述预测信号与控制信号标签的误差,并通过预构建的奖励函数,更新神经元的动作电位阈值以及频率-电流增益;
步骤A100,以所述权重向量为均值计算方差,并通过交叉熵算法从所述均值、方差的采样分布采样ns个候选解;将ns个候选解代入预构建的损失函数中计算损失,并将损失最小的ne个候选解构建精英样本解集;
步骤A110,基于所述精英样本解集中的候选解更新所述均值、方差;更新后跳转步骤A100,直至达到设定的迭代次数或损失小于设定的阈值,并将损失最小对应的候选解作为最优解;
步骤A120,将所述最优解分别与所述增益基元库中的各频率-电流增益、电位阈值基元库中的各神经元动作电位阈值进行乘积求和,作为最终的频率-电流增益、神经元动作电位阈值,并代入所述受增益调控的循环神经网络动力学模型,作为最终训练好的循环神经网络动力学模型。
为了更清晰地对本发明基于神经元增益基元组合优化的机器人运动控制方法进行说明,下面结合附图对本发明方法一种实施例中各步骤进行展开详述。
在下述的实施例中,先对循环神经网络动力学模型的构建以及训练过程进行详述,再对基于神经元增益基元组合优化的机器人运动控制方法获取控制信号的过程进行详述。
1、循环神经网络动力学模型的构建及训练过程,如图3、图4所示
步骤A10,初始化循环神经网络的连接矩阵;
在本实施例中,循环神经网络的连接矩阵W为一个N×N矩阵,其中N为神经网络循环层所包含的神经元数量。矩阵W初始化为一个ER随机图,每个神经元之间产生连接的概率为:
矩阵W中包含N/2个正数列和N/2个负数列。对于正数列,即兴奋性神经元,按照概率PW决定每个元素的取值为0或对于负数列,即抑制性神经元,按照概率PW决定每个元素的取值为0或其中,ω0的计算方法如公式(2)所示:
其中,φ和ρ表示设定常量,为设置值。
步骤A20,基于所述连接矩阵、设定的松弛变量和网络初始状态,构建循环神经网络的能量函数;结合所述连接矩阵中特征值的最大实部、所述能量函数,对所述连接矩阵进行求导优化;
在本实施例中,定义循环神经网络的能量函数为:
其中,a为网络初始状态,为设定值,T表示转置,τ为循环神经网络的时间常数,t表示时间,s为松弛变量,I为单位矩阵,Q(W,s)表示矩阵积分项。
通过下式对W矩阵进行优化:
Q(W,s)和R(W,s)满足原始对偶拉普拉斯方程组:
(W-sI)TQ(W,s)+Q(W,s)(W-sI)=-2·I (6)
(W-sI)R(W,s)+R(W,s)(W-sI)T=-2·I (7)
因此,可以通过下式更新矩阵W的以实现循环层的动态自稳定:
其中,η为学习率常数。
步骤A30,初始化循环神经网络的神经元集群编码层;
在本实施例中,神经元集群编码层B包含N个神经元。设第 i个神经元的偏好方向为θi,θi的值在区间[-π,π]之间通过均匀采样获得。所述神经元的偏好方向这一概念依据神经科学相关研究,即神经元电活动强度,取决于该神经元的偏好方向与生物体意图运动方向间的偏差相关,当意图运动方向与偏好方向一致,该神经元的活动最强。
步骤A40,采用双曲正切函数构建循环神经网络神经元动作电位阈值与频率-电流增益之间的计算关系,作为第一关系;
在本实施例中,神经元动作电位阈值是指引起神经元产生动作电位的最小输入电流值,在本发明中定义为引起神经元产生频率强度为ζ的神经元信号值,其中ζ为一个非常小的正数。
当神经元动作电位阈值降低时,神经元对于弱输入电流也能够产生较强的动作电位输出频率,但受到神经元细胞膜中离子通道数量有限的约束,因此增强幅度存在上限,在本发明中可建模为频率-电流增益增强并逐渐趋近于上界;反之,当神经元动作电位阈值升高时,神经元对于强输入电流也只能够产生较弱的动作电位输出频率,但受到神经元细胞膜两侧存在离子浓度差使离子沿浓度梯度流动,因此减弱幅度存在下限,在本发明中可建模为频率-电流增益减弱并逐渐趋近于下界。综上所述,本发明采用双曲正切函数来建模神经元动作电位阈值与频率-电流增益之间的计算关系,如式(9)所示:
其中,为t时刻神经元动作电位阈值,为频率-电流增益,为正常情况下神经元的增益幅度, 是神经元动作电位阈值的下界,对应于神经元增益上界GU,是神经元动作电位阈值的上界,对应于神经元增益下界GL,μC=0.5(GU-GL),为了简洁表达,下文中将简写为Gk。
步骤A50,基于所述第一关系、优化的连接矩阵,结合神经元膜电位幅值,构建受增益调控的循环神经网络动力学模型;并利用最小二乘法拟合循环神经网络神经元到输出层的连接权重和偏置常量;
在本实施例中,循环神经网络动力学方程由下列一阶微分方程所定义:
受增益调控的神经元发放率函数具体如式(11)所示:
其中,γ为形状因子,其计算公式如下:
另外,网络的输出层将循环层产生的神经元发放频率映射为机器人系统的控制信号ol(t),计算公式如下:
其中,Jli是神经元i到输出单元l的连接权重,bl是输出单元l的偏置常量,L是输出层的维度。xi(t)E和分别表示兴奋性神经元的神经元膜电位幅值和频率-电流增益。给定一个以θf为运动方向、为控制信号的机器人运动控制演示样本,即训练样本,其中Nc=L为机器人系统的控制维度,NT为控制时长,计算步骤得到网络输出的控制量of。利用最小二乘法计算输出层神经元连接权重向量J和b,使网络输出of拟合演示样本df。
步骤A60,获取ND组训练样本;结合神经元的电活动强度,通过所述神经元集群编码层神经元的发放频率对给定的目标运动方向进行编码;编码后,结合所述优化的连接矩阵,计算神经元膜电位幅值,并通过所述受增益调控的循环神经网络动力学模型,得到控制信号,作为预测信号;所述训练样本包括目标位置、目标运动方向及对应的控制信号标签;
在本实施例中,获取包含ND组演示样本的演示样本集,即训练样本。样本集中第i个样本,θi为该样本自运动起始点到运动终点的运动方向,即目标运动方向,yi∈Y为第i个样本运动结束时机器人末端参考点所在位置坐标。即目标位置,di为控制信号标签。
将训练样本输入循环神经网络,结合神经元的电活动强度,通过神经元集群编码层神经元的发放频率对给定的目标运动方向进行编码:
fi(θT)=rmax·pi(θT)=rmax·exp(K(cos(θT-θi)-1)) (15)
其中,rmax为神经元的最大发放频率,K是神经元对方向偏差敏感度常数。循环神经网络神经元的初始状态x(t0)=τ·Wf(θT),因此, t时刻的神经元膜电位幅值xi(t),依据下式计算:
xi(t)=τ·Wfi(θT)
将神经元膜电位幅值输入受增益调控的循环神经网络动力学模型,得到控制信号,作为预测信号ol(t)。
步骤A70,计算所述预测信号与控制信号标签的误差,并通过预构建的奖励函数,更新神经元的动作电位阈值以及频率-电流增益;
在本实施例中,计算所预测信号与控制信号标签的误差εi,具体如式(16)所示:
定义奖励熵来描述系统的训练进度。假设网络每次训练获得的奖励信号为R(t),在一段时间周期内的奖励服从高斯分布,设时间窗口尺度为则奖励序列可以表示为其中,参数均值和参数方差可以利用极大似然估计根据奖励序列计算得到。则奖励熵(即奖励函数)可以通过下式计算:
其中,Et表示奖励函数值。
为了防止参数剧烈变化造成学习发散,利用神经网络时间常数对奖励熵进行一阶滤波:
多巴胺激素在大脑中可以通过调节奖励预测误差基线促进生物体的学习能力。因此,本发明中,利用自适应一阶滤波系数模拟多巴胺的作用,建模为奖励熵的函数:
去甲肾上腺素具有平衡专注行为与探索行为权重的能力。本发明通过对节点噪声的调制模拟去甲肾上腺素的调制作用:
血清素对大脑皮层和脊髓神经元增益都有重要的调节作用。本发明将血清素的调节机理建模为奖励信号的近似二元函数:
综上所述,神经元动作电位阈值可以根据下式进行更新:
Irhe(t)=Irhe(t-1)+ΔIrhe(t) (25)
神经元的增益系数,即频率-电流增益,可以根据神经元动作电位阈值与频率-电流增益的关系式进行求解,即:
其中,权重μi根据下式计算:
步骤A100,以所述权重向量为均值计算方差,并通过交叉熵算法从所述均值、方差的采样分布采样ns个候选解;将ns个候选解代入预构建的损失函数中计算损失,并将损失最小的ne个候选解构建精英样本解集;
在本实施例中,以权重向量为初始均值,将方差初始化为一个随机常数,设交叉熵算法的优化目标为:
设f(·;v)为优化目标解空间的概率密度函数,v为概率参数向量。本发明采用但不限于高斯分布来描述解空间概率密度,因此参数向量主要包含均值μ和方差σ2。在交叉熵优化的第t次迭代中,算法从均值为μt方差为的采样分布中采样ns个候选解,代入函数计算损失,其中损失最小的ne个候选解构成精英样本解集Ω。则算法的采样分布的参数可利用精英样本解集Ω更新实现迭代优化,采样分布均值的统计估计和采样分布方差的统计估计计算如下:
其中,αc为滤波常数。
步骤A110,基于所述精英样本解集中的候选解更新所述均值、方差;更新后跳转步骤A100,直至达到设定的迭代次数或损失小于设定的阈值,并将损失最小对应的候选解作为最优解;
在本实施例中,重复迭代步骤A100,直到损失函数结果小于预设阈值,或迭代次数达到预设上限,输出损失函数最小对应的最优解h*。
步骤A120,将所述最优解分别与所述增益基元库中的各频率-电流增益、电位阈值基元库中的各神经元动作电位阈值进行乘积求和,作为最终的频率-电流增益、神经元动作电位阈值,并代入所述受增益调控的循环神经网络动力学模型,作为最终训练好的循环神经网络动力学模型。
在本实施例中,在将所述最优解分别与所述增益基元库中的各频率-电流增益、电位阈值基元库中的各神经元动作电位阈值进行乘积求和,作为最终的频率-电流增益、神经元动作电位阈值,具体如下:
最终的增益模式Gnew依据下式计算:
最终的神经元动作电位阈值Inew依据下式计算:
将最终的频率-电流增益、神经元动作电位阈值代入受增益调控的循环神经网络动力学模型,作为最终训练好的循环神经网络动力学模型。
2、基于神经元增益基元组合优化的机器人运动控制方法
步骤S10,获取机器人待运动的目标位置及运动方向,作为输入数据;
在本实施例中,获取机器人待运动的目标位置及运动方向。
步骤S20,基于所述输入数据,通过预构建的循环神经网络动力学模型得到对应的控制信号,并控制机器人移动。
在本实施例中,通过上述训练好的循环神经网络动力学模型得到机器人的控制信号,控制机器人移动。
本发明第二实施例的一种基于神经元增益基元组合优化的机器人运动控制系统,如图2所示,具体包括以:获取模块100、识别模块200;
所述获取模块100,配置为获取机器人待运动的目标位置及运动方向,作为输入数据;
所述控制模块200,配置为基于所述输入数据,通过预构建的循环神经网络动力学模型得到对应的控制信号,并控制机器人移动;
其中,所述循环神经网络动力学模型其构建及训练方法为:
步骤A10,初始化循环神经网络的连接矩阵;
步骤A20,基于所述连接矩阵、设定的松弛变量和网络初始状态,构建循环神经网络的能量函数;结合所述连接矩阵中特征值的最大实部、所述能量函数,对所述连接矩阵进行求导优化;
步骤A30,初始化循环神经网络的神经元集群编码层;
步骤A40,采用双曲正切函数构建循环神经网络神经元动作电位阈值与频率-电流增益之间的计算关系,作为第一关系;
步骤A50,基于所述第一关系、优化的连接矩阵,结合神经元膜电位幅值,构建受增益调控的循环神经网络动力学模型;并利用最小二乘法拟合循环神经网络神经元到输出层的连接权重和偏置常量;
步骤A60,获取ND组训练样本;结合神经元的电活动强度,通过所述神经元集群编码层神经元的发放频率对给定的目标运动方向进行编码;编码后,结合所述优化的连接矩阵,计算神经元膜电位幅值,并通过所述受增益调控的循环神经网络动力学模型,得到控制信号,作为预测信号;所述训练样本包括目标位置、目标运动方向及对应的控制信号标签;
步骤A70,计算所述预测信号与控制信号标签的误差,并通过预构建的奖励函数,更新神经元的动作电位阈值以及频率-电流增益;
步骤A100,以所述权重向量为均值计算方差,并通过交叉熵算法从所述均值、方差的采样分布采样ns个候选解;将ns个候选解代入预构建的损失函数中计算损失,并将损失最小的ne个候选解构建精英样本解集;
步骤A110,基于所述精英样本解集中的候选解更新所述均值、方差;更新后跳转步骤A100,直至达到设定的迭代次数或损失小于设定的阈值,并将损失最小对应的候选解作为最优解;
步骤A120,将所述最优解分别与所述增益基元库中的各频率-电流增益、电位阈值基元库中的各神经元动作电位阈值进行乘积求和,作为最终的频率-电流增益、神经元动作电位阈值,并代入所述受增益调控的循环神经网络动力学模型,作为最终训练好的循环神经网络动力学模型。
所述技术领域的技术人员可以清楚的了解到,为描述的方便和简洁,上述描述的系统具体的工作过程及有关说明,可以参考前述方法实施例中的对应过程,在此不再赘述。
需要说明的是,上述实施例提供的基于神经元增益基元组合优化的机器人运动控制系统,仅以上述各功能模块的划分进行举例说明,在实际应用中,可以根据需要而将上述功能分配由不同的功能模块来完成,即将本发明实施例中的模块或者步骤再分解或者组合,例如,上述实施例的模块可以合并为一个模块,也可以进一步拆分成多个子模块,以完成以上描述的全部或者部分功能。对于本发明实施例中涉及的模块、步骤的名称,仅仅是为了区分各个模块或者步骤,不视为对本发明的不当限定。
本发明第三实施例的一种存储装置,其中存储有多条程序,所述程序适用于由处理器加载并实现上述的基于神经元增益基元组合优化的机器人运动控制方法。
本发明第四实施例的一种处理装置,包括处理器、存储装置;处理器,适于执行各条程序;存储装置,适于存储多条程序;所述程序适用于由处理器加载并执行以实现上述的基于神经元增益基元组合优化的机器人运动控制方法。
所述技术领域的技术人员可以清楚的了解到,未描述的方便和简洁,上述描述的存储装置、处理装置的具体工作过程及有关说明,可以参考前述方法实例中的对应过程,在此不再赘述。
需要说明的是,本申请上述的计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质或者是上述两者的任意组合。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。计算机可读存储介质的更具体的例子可以包括但不限于:具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机访问存储器(RAM)、只读存储器 (ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本申请中,计算机可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。而在本申请中,计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号,其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式,包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读介质,该计算机可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。计算机可读介质上包含的程序代码可以用任何适当的介质传输,包括但不限于:无线、电线、光缆、RF等等,或者上述的任意合适的组合。
可以以一种或多种程序设计语言或其组合来编写用于执行本申请的操作的计算机程序代码,上述程序设计语言包括面向对象的程序设计语言-诸如Java、Smalltalk、C++,还包括常规的过程式程序设计语言-诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中,远程计算机可以通过任意种类的网络——包括局域网(LAN)或广域网(WAN)—连接到用户计算机,或者,可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。
附图中的流程图和框图,图示了按照本申请各种实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分,该模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意,在有些作为替换的实现中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个接连地表示的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合,可以用执行规定的功能或操作的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。
术语“第一”、“第二”等是用于区别类似的对象,而不是用于描述或表示特定的顺序或先后次序。
术语“包括”或者任何其它类似用语旨在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备/装置不仅包括那些要素,而且还包括没有明确列出的其它要素,或者还包括这些过程、方法、物品或者设备/装置所固有的要素。
至此,已经结合附图所示的优选实施方式描述了本发明的技术方案,但是,本领域技术人员容易理解的是,本发明的保护范围显然不局限于这些具体实施方式。在不偏离本发明的原理的前提下,本领域技术人员可以对相关技术特征作出等同的更改或替换,这些更改或替换之后的技术方案都将落入本发明的保护范围之内。
Claims (9)
1.一种基于神经元增益基元组合优化的机器人运动控制方法,其特征在于,该方法包括以下步骤:
步骤S10,获取机器人待运动的目标位置及运动方向,作为输入数据;
步骤S20,基于所述输入数据,通过预构建的循环神经网络动力学模型得到对应的控制信号,并控制机器人移动;
其中,所述循环神经网络动力学模型其构建及训练方法为:
步骤A10,初始化循环神经网络的连接矩阵;
步骤A20,基于所述连接矩阵、设定的松弛变量和网络初始状态,构建循环神经网络的能量函数;结合所述连接矩阵中特征值的最大实部、所述能量函数,对所述连接矩阵进行求导优化;
步骤A30,初始化循环神经网络的神经元集群编码层;
步骤A40,采用双曲正切函数构建循环神经网络神经元动作电位阈值与频率-电流增益之间的计算关系,作为第一关系;
步骤A50,基于所述第一关系、优化的连接矩阵,结合神经元膜电位幅值,构建受增益调控的循环神经网络动力学模型;并利用最小二乘法拟合循环神经网络神经元到输出层的连接权重和偏置常量;
其中,所述受增益调控的循环神经网络动力学模型为:
其中,xi(t)表示t时刻的神经元膜电位幅值,表示xi(t)的一阶导数,Wik∈W,i和k为行列号,f(xk(t),为受增益调控的神经元发放率函数,为平移量,rmax为神经元的最大发放频率,xk(t)为第k个神经元在时刻t的神经元膜电位幅值,γ表示形状因子,τ表示循环神经网络中设定的时间尺度常量,N表示神经网络循环层所包含的神经元数量,W表示连接矩阵,表示t时刻神经元频率-电流增益,表示t时刻神经元动作电位阈值,t表示时间,T表示转置;
步骤A60,获取ND组训练样本;结合神经元的电活动强度,通过所述神经元集群编码层神经元的发放频率对给定的目标运动方向进行编码;编码后,结合所述优化的连接矩阵,计算神经元膜电位幅值,并通过所述受增益调控的循环神经网络动力学模型,得到控制信号,作为预测信号;所述训练样本包括目标位置、目标运动方向及对应的控制信号标签;
步骤A70,计算所述预测信号与控制信号标签的误差,并通过预构建的奖励函数,更新神经元的动作电位阈值以及频率-电流增益;
步骤A100,以所述权重向量为均值计算方差,并通过交叉熵算法从所述均值、方差的采样分布采样ns个候选解;将ns个候选解代入预构建的损失函数中计算损失,并将损失最小的ne个候选解构建精英样本解集;
步骤A110,基于所述精英样本解集中的候选解更新所述均值、方差;更新后跳转步骤A100,直至达到设定的迭代次数或损失小于设定的阈值,并将损失最小对应的候选解作为最优解;
步骤A120,将所述最优解分别与所述增益基元库中的各频率-电流增益、电位阈值基元库中的各神经元动作电位阈值进行乘积求和,作为最终的频率-电流增益、神经元动作电位阈值,并代入所述受增益调控的循环神经网络动力学模型,作为最终训练好的循环神经网络动力学模型。
5.根据权利要求4中所述的基于神经元增益基元组合优化的机器人运动控制方法,其特征在于,“结合神经元的电活动强度,通过所述神经元集群编码层神经元的发放频率对给定的目标运动方向进行编码;编码后,结合所述优化的连接矩阵,计算神经元膜电位幅值”,其方法为:
xi(t)=τ·Wfi(θT)
fi(θT)=rmax·exp(K(cos(θT-θi)-1))
其中,K表示神经元对方向偏差敏感度常数,θT表示目标运动方向,θi表示神经元的电活动强度。
7.一种基于神经元增益基元组合优化的机器人运动控制系统,其特征在于,该系统包括:获取模块、控制模块;
所述获取模块,配置为获取机器人待运动的目标位置及运动方向,作为输入数据;
所述控制模块,配置为基于所述输入数据,通过预构建的循环神经网络动力学模型得到对应的控制信号,并控制机器人移动;
其中,所述循环神经网络动力学模型其构建及训练方法为:
步骤A10,初始化循环神经网络的连接矩阵;
步骤A20,基于所述连接矩阵、设定的松弛变量和网络初始状态,构建循环神经网络的能量函数;结合所述连接矩阵中特征值的最大实部、所述能量函数,对所述连接矩阵进行求导优化;
步骤A30,初始化循环神经网络的神经元集群编码层;
步骤A40,采用双曲正切函数构建循环神经网络神经元动作电位阈值与频率-电流增益之间的计算关系,作为第一关系;
步骤A50,基于所述第一关系、优化的连接矩阵,结合神经元膜电位幅值,构建受增益调控的循环神经网络动力学模型;并利用最小二乘法拟合循环神经网络神经元到输出层的连接权重和偏置常量;
其中,所述受增益调控的循环神经网络动力学模型为:
其中,xi(t)表示t时刻的神经元膜电位幅值,表示xi(t)的一阶导数,Wik∈W,i和k为行列号,f(xk(t),为受增益调控的神经元发放率函数,为平移量,rmax为神经元的最大发放频率,xk(t)为第k个神经元在时刻t的神经元膜电位幅值,γ表示形状因子,τ表示循环神经网络中设定的时间尺度常量,N表示神经网络循环层所包含的神经元数量,W表示连接矩阵,表示t时刻神经元频率-电流增益,表示t时刻神经元动作电位阈值,t表示时间,T表示转置;
步骤A60,获取ND组训练样本;结合神经元的电活动强度,通过所述神经元集群编码层神经元的发放频率对给定的目标运动方向进行编码;编码后,结合所述优化的连接矩阵,计算神经元膜电位幅值,并通过所述受增益调控的循环神经网络动力学模型,得到控制信号,作为预测信号;所述训练样本包括目标位置、目标运动方向及对应的控制信号标签;
步骤A70,计算所述预测信号与控制信号标签的误差,并通过预构建的奖励函数,更新神经元的动作电位阈值以及频率-电流增益;
步骤A100,以所述权重向量为均值计算方差,并通过交叉熵算法从所述均值、方差的采样分布采样ns个候选解;将ns个候选解代入预构建的损失函数中计算损失,并将损失最小的ne个候选解构建精英样本解集;
步骤A110,基于所述精英样本解集中的候选解更新所述均值、方差;更新后跳转步骤A100,直至达到设定的迭代次数或损失小于设定的阈值,并将损失最小对应的候选解作为最优解;
步骤A120,将所述最优解分别与所述增益基元库中的各频率-电流增益、电位阈值基元库中的各神经元动作电位阈值进行乘积求和,作为最终的频率-电流增益、神经元动作电位阈值,并代入所述受增益调控的循环神经网络动力学模型,作为最终训练好的循环神经网络动力学模型。
8.一种存储装置,其中存储有多条程序,其特征在于,所述程序适用于由处理器加载并执行以实现权利要求1-6任一项所述的基于神经元增益基元组合优化的机器人运动控制方法。
9.一种处理装置,包括处理器、存储装置;处理器,适用于执行各条程序;存储装置,适用于存储多条程序;其特征在于,所述程序适用于由处理器加载并执行以实现权利要求1-6任一项所述的基于神经元增益基元组合优化的机器人运动控制方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011591657.1A CN112621760B (zh) | 2020-12-29 | 2020-12-29 | 基于神经元增益基元组合优化的机器人运动控制方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011591657.1A CN112621760B (zh) | 2020-12-29 | 2020-12-29 | 基于神经元增益基元组合优化的机器人运动控制方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112621760A CN112621760A (zh) | 2021-04-09 |
CN112621760B true CN112621760B (zh) | 2022-02-25 |
Family
ID=75286042
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202011591657.1A Active CN112621760B (zh) | 2020-12-29 | 2020-12-29 | 基于神经元增益基元组合优化的机器人运动控制方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112621760B (zh) |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114872040B (zh) * | 2022-04-20 | 2024-04-16 | 中国科学院自动化研究所 | 基于小脑预测与修正的肌肉骨骼机器人控制方法及装置 |
CN114872042A (zh) * | 2022-04-29 | 2022-08-09 | 中国科学院自动化研究所 | 基于临界状态循环网络的肌肉骨骼机器人控制方法及装置 |
Family Cites Families (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2002059384A (ja) * | 2000-08-22 | 2002-02-26 | Sony Corp | ロボットのための学習システム及び学習方法 |
US9002760B2 (en) * | 2012-08-23 | 2015-04-07 | Qualcomm Incorporated | Neural system of adaptive behavior |
CN106650922B (zh) * | 2016-09-29 | 2019-05-03 | 清华大学 | 硬件神经网络转换方法、计算装置、软硬件协作系统 |
CN109284406B (zh) * | 2018-09-03 | 2021-12-03 | 四川长虹电器股份有限公司 | 基于差异循环神经网络的意图识别方法 |
CN110941183B (zh) * | 2019-11-30 | 2021-09-21 | 华南理工大学 | 一种基于神经网络的工业机器人动力学辨识方法 |
-
2020
- 2020-12-29 CN CN202011591657.1A patent/CN112621760B/zh active Active
Also Published As
Publication number | Publication date |
---|---|
CN112621760A (zh) | 2021-04-09 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Kahn et al. | Plato: Policy learning using adaptive trajectory optimization | |
Rueckert et al. | Recurrent spiking networks solve planning tasks | |
CN110909859A (zh) | 基于对抗结构化控制的仿生机器鱼运动控制方法、系统 | |
CN112621760B (zh) | 基于神经元增益基元组合优化的机器人运动控制方法 | |
Higuera et al. | Synthesizing neural network controllers with probabilistic model-based reinforcement learning | |
CN110956148A (zh) | 无人车的自主避障方法及装置、电子设备、可读存储介质 | |
CN112405542B (zh) | 基于脑启发多任务学习的肌肉骨骼机器人控制方法及系统 | |
Corneil et al. | Attractor network dynamics enable preplay and rapid path planning in maze–like environments | |
Woodford et al. | Concurrent controller and simulator neural network development for a differentially-steered robot in evolutionary robotics | |
CN112731812B (zh) | 基于神经元增益调制的机器人运动控制方法、系统、装置 | |
Tanwani | Generative models for learning robot manipulation skills from humans | |
Oliveira et al. | Learning to race through coordinate descent bayesian optimisation | |
Jiang et al. | Generative adversarial interactive imitation learning for path following of autonomous underwater vehicle | |
Burms et al. | Reward-modulated Hebbian plasticity as leverage for partially embodied control in compliant robotics | |
Zeng et al. | A basal ganglia network centric reinforcement learning model and its application in unmanned aerial vehicle | |
CN111531543B (zh) | 基于生物启发式神经网络的机器人自适应阻抗控制方法 | |
Waegeman et al. | MACOP modular architecture with control primitives | |
Wang et al. | Multitask policy adversarial learning for human-level control with large state spaces | |
Nygaard et al. | Evolving robots on easy mode: Towards a variable complexity controller for quadrupeds | |
Monfort et al. | Asynchronous data aggregation for training end to end visual control networks | |
Caamaño et al. | Introducing synaptic delays in the NEAT algorithm to improve modelling in cognitive robotics | |
Mori et al. | Probabilistic generative modeling and reinforcement learning extract the intrinsic features of animal behavior | |
Schmidgall et al. | Synaptic motor adaptation: A three-factor learning rule for adaptive robotic control in spiking neural networks | |
Ganesh et al. | Deep reinforcement learning for simulated autonomous driving | |
Galashov et al. | Importance weighted policy learning and adaptation |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |