CN112731812A - 基于神经元增益调制的机器人运动控制方法、系统、装置 - Google Patents

基于神经元增益调制的机器人运动控制方法、系统、装置 Download PDF

Info

Publication number
CN112731812A
CN112731812A CN202011589016.2A CN202011589016A CN112731812A CN 112731812 A CN112731812 A CN 112731812A CN 202011589016 A CN202011589016 A CN 202011589016A CN 112731812 A CN112731812 A CN 112731812A
Authority
CN
China
Prior art keywords
neuron
neural network
gain
recurrent neural
neurons
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202011589016.2A
Other languages
English (en)
Other versions
CN112731812B (zh
Inventor
钟汕林
周俊杰
乔红
吴伟
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Institute of Automation of Chinese Academy of Science
Original Assignee
Institute of Automation of Chinese Academy of Science
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Institute of Automation of Chinese Academy of Science filed Critical Institute of Automation of Chinese Academy of Science
Priority to CN202011589016.2A priority Critical patent/CN112731812B/zh
Publication of CN112731812A publication Critical patent/CN112731812A/zh
Application granted granted Critical
Publication of CN112731812B publication Critical patent/CN112731812B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G05CONTROLLING; REGULATING
    • G05BCONTROL OR REGULATING SYSTEMS IN GENERAL; FUNCTIONAL ELEMENTS OF SUCH SYSTEMS; MONITORING OR TESTING ARRANGEMENTS FOR SUCH SYSTEMS OR ELEMENTS
    • G05B13/00Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion
    • G05B13/02Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion electric
    • G05B13/04Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion electric involving the use of models or simulators
    • G05B13/042Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion electric involving the use of models or simulators in which a parameter or coefficient is automatically adjusted to optimise the performance

Landscapes

  • Engineering & Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Computation (AREA)
  • Medical Informatics (AREA)
  • Software Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Automation & Control Theory (AREA)
  • Feedback Control In General (AREA)
  • Manipulator (AREA)

Abstract

本发明属于机器人技术领域,具体涉及一种基于神经元增益基元组合优化的机器人运动控制方法、系统、装置,旨在现有的机器人运动控制方法在复杂动态环境中控制鲁棒性、自适应性较差的问题。本方法包括获取机器人待运动的目标位置及运动方向,作为输入数据;基于输入数据,通过预构建的循环神经网络动力学模型得到对应的控制信号,并控制机器人移动。本发明提高了机器人运动控制的鲁棒性、自适应性。

Description

基于神经元增益调制的机器人运动控制方法、系统、装置
技术领域
本发明属于机器人技术领域,具体涉及一种基于神经元增益调制的机器人运动控制方法、系统、装置。
背景技术
能够快速、鲁棒、自适应地执行灵巧的运动是机器人广泛应用的重要前提。但是,现有的机器人技术在通用性方面依然差强人意。具有刚性结构的机器人系统通常工作在结构化环境中,与人类工作人员保持安全距离,难以真正实现与人的协同合作。而相比而言,人类的运动结构经过长期进化,拥有完备的肌肉骨骼系统以及发达的运动神经系统,使其能够实现极其柔顺、灵巧、精准的高效运动。其中大脑运动皮层能够在保持结构不变的情况下,通过激素的调节作用,使神经网络产生丰富的瞬态响应,从而支持生物完成轨迹、速度、力量不同的运动任务。这一特点赋予了人类在复杂动态环境中灵活、鲁棒、自适应的运动能力。而这一特性正是当前机器人控制领域的关键瓶颈问题,因此,通过深入研究人类躯体运动结构和神经控制机理,将有望为设计响应更快、鲁棒性更好的机器人智能控制算法带来重要启发。基于此,本发明提出了一种基于神经元增益调制的机器人运动控制方法。
发明内容
为了解决现有技术中的上述问题,即为了解决现有的机器人运动控制方法在复杂动态环境中控制鲁棒性、自适应性较差的问题,本发明第一方面,提出了一种基于神经元增益调制的机器人运动控制方法,该方法包括:
步骤S10,获取机器人待运动的目标位置及运动方向,作为输入数据;
步骤S20,基于所述输入数据,通过预构建的循环神经网络动力学模型得到对应的控制信号,并控制机器人移动;
其中,所述循环神经网络动力学模型其构建及训练方法为:
步骤A10,初始化循环神经网络的连接矩阵;
步骤A20,基于所述连接矩阵、设定的松弛变量和网络初始状态,构建循环神经网络的能量函数;结合所述连接矩阵中特征值的最大实部、所述能量函数,对所述连接矩阵进行求导优化;
步骤A30,初始化循环神经网络的神经元集群编码层;
步骤A40,采用双曲正切函数构建循环神经网络神经元动作电位阈值与频率-电流增益之间的计算关系,作为第一关系;
步骤A50,基于所述第一关系、优化的连接矩阵,结合神经元膜电位幅值,构建受增益调控的循环神经网络动力学模型;并利用最小二乘法拟合循环神经网络神经元到输出层的连接权重和偏置常量;
步骤A60,获取ND组训练样本;结合神经元的电活动强度,通过所述神经元集群编码层神经元的发放频率对给定的目标运动方向进行编码;编码后,结合所述优化的连接矩阵,计算神经元膜电位幅值,并通过所述受增益调控的循环神经网络动力学模型,得到控制信号,作为预测信号;所述训练样本包括目标位置、目标运动方向及对应的控制信号标签;
步骤A70,计算所述预测信号与控制信号标签的误差,并通过预构建的奖励函数,更新神经元的动作电位阈值以及频率-电流增益;
步骤A80,循环执行步骤A60、A70,直至得到最终训练好的循环神经网络动力学模型。
在一些优选的实施方式中,所述连接矩阵W包含N/2个正数列和N/2个负数列,正数列表示兴奋性神经元,负数列表示抑制性神经元;所述正数列的取值为0或
Figure BDA0002868044240000031
所述负数列的取值为0或
Figure BDA0002868044240000032
Figure BDA0002868044240000033
其中,N表示神经网络循环层所包含的神经元数量,PW表示神经元的连接概率,φ、ρ为设定的常量。
在一些优选的实施方式中,所述能量函数为:
Figure BDA0002868044240000034
其中,ε()表示能量函数,a表示设定的网络初始状态,s表示松弛变量,T表示转置,τ表示循环神经网络中设定的时间尺度常量,t表示时间,I为单位矩阵,Q(W,s)表示矩阵积分项。
在一些优选的实施方式中,步骤A40中“采用双曲正切函数构建循环神经网络神经元动作电位阈值与频率-电流增益之间的计算关系”,其方法为::
Figure BDA0002868044240000035
Figure BDA0002868044240000036
Figure BDA0002868044240000037
μC=0.5(GU-GL)
Figure BDA0002868044240000038
其中,
Figure BDA0002868044240000039
表示t时刻神经元频率-电流增益,
Figure BDA00028680442400000310
表示t时刻神经元动作电位阈值,
Figure BDA00028680442400000311
表示正常情况下神经元的增益幅度,
Figure BDA00028680442400000312
是神经元动作电位阈值的下界,对应于神经元频率-电流增益上界GU
Figure BDA00028680442400000313
是神经元动作电位阈值的上界,对应于神经元频率-电流增益下界GL,ζ表示引起神经元产生神经元信号值的频率强度。
在一些优选的实施方式中,所述受增益调控的循环神经网络动力学模型为:
Figure BDA0002868044240000041
Figure BDA0002868044240000042
Figure BDA0002868044240000043
其中,xi(t)表示t时刻的神经元膜电位幅值,
Figure BDA0002868044240000044
表示xi(t)的一阶导数,Wik∈W,i和k为行列号,f(xk(t),
Figure BDA0002868044240000045
为受增益调控的神经元发放率函数,
Figure BDA0002868044240000046
为平移量,rmax为神经元的最大发放频率,xk(t)为,γ表示形状因子。
在一些优选的实施方式中,“结合神经元的电活动强度,通过所述神经元集群编码层神经元的发放频率对给定的目标运动方向进行编码;编码后,结合所述优化的连接矩阵,计算神经元膜电位幅值”,其方法为:
xi(t)=τ·WfiT)
fiT)=rmax·exp(K(cos(θTi)-1))
其中,K表示神经元对方向偏差敏感度常数,θT表示目标运动方向,θi表示神经元的电活动强度。
在一些优选的实施方式中,步骤A70中“更新神经元的动作电位阈值”,其方法为:
Figure BDA0002868044240000047
Irhe(t)=Irhe(t-1)+ΔIrhe(t)
Figure BDA0002868044240000048
其中,
Figure BDA0002868044240000051
表示t-1时刻、t时刻更新后的神经元动作电位阈值,
Figure BDA0002868044240000052
表示奖励函数值,
Figure BDA0002868044240000053
表示t-1时刻的奖励信号值,ξ(t)为一个随机数。
本发明的第二方面,提出了一种基于神经元增益调制的机器人运动控制系统,该系统包括:获取模块、控制模块;
所述获取模块,配置为获取机器人待运动的目标位置及运动方向,作为输入数据;
所述控制模块,配置为基于所述输入数据,通过预构建的循环神经网络动力学模型得到对应的控制信号,并控制机器人移动;
其中,所述循环神经网络动力学模型其构建及训练方法为:
步骤A10,初始化循环神经网络的连接矩阵;
步骤A20,基于所述连接矩阵、设定的松弛变量和网络初始状态,构建循环神经网络的能量函数;结合所述连接矩阵中特征值的最大实部、所述能量函数,对所述连接矩阵进行求导优化;
步骤A30,初始化循环神经网络的神经元集群编码层;
步骤A40,采用双曲正切函数构建循环神经网络神经元动作电位阈值与频率-电流增益之间的计算关系,作为第一关系;
步骤A50,基于所述第一关系、优化的连接矩阵,结合神经元膜电位幅值,构建受增益调控的循环神经网络动力学模型;并利用最小二乘法拟合循环神经网络神经元到输出层的连接权重和偏置常量;
步骤A60,获取ND组训练样本;结合神经元的电活动强度,通过所述神经元集群编码层神经元的发放频率对给定的目标运动方向进行编码;编码后,结合所述优化的连接矩阵,计算神经元膜电位幅值,并通过所述受增益调控的循环神经网络动力学模型,得到控制信号,作为预测信号;所述训练样本包括目标位置、目标运动方向及对应的控制信号标签;
步骤A70,计算所述预测信号与控制信号标签的误差,并通过预构建的奖励函数,更新神经元的动作电位阈值以及频率-电流增益;
步骤A80,循环执行步骤A60、A70,直至得到最终训练好的循环神经网络动力学模型。
本发明的第三方面,提出了一种存储装置,其中存储有多条程序,所述程序适用于由处理器加载并执行以实现上述的基于神经元增益调制的机器人运动控制方法。
本发明的第四方面,提出了一种处理装置,包括处理器、存储装置;处理器,适用于执行各条程序;存储装置,适用于存储多条程序;所述程序适用于由处理器加载并执行以实现上述的基于神经元增益调制的机器人运动控制方法。
本发明的有益效果:
本发明提高了机器人运动控制的鲁棒性、自适应性。
本发明基于神经科学中生物能够在保持大脑结构相对稳定的情况下可通过激素调制神经元增益而快速产生丰富的运动模式这一实验观察,利用神经集群编码理论,将机器人运动目标编码为循环神经网络中神经元的初始状态,通过调节网络循环层神经元的增益系数调节网络输出控制信号,实现机器人对给定复杂运动的自主学习。提高了机器人运动控制的鲁棒性、自适应性。
另外,本发明可以在保持神经网络连接权重不变的情况下,通过调节增益系数实现对演示运动的学习,可实现包括轮式机器人、关节型机器人、类人肌肉骨骼型机器人等多种不同类型的机器人系统对复杂运动的学习。
附图说明
通过阅读参照以下附图所做的对非限制性实施例所做的详细描述,本申请的其他特征、目的和优点将会变得更明显。
图1是本发明一种实施例的基于神经元增益调制的机器人运动控制方法的流程示意图;
图2是本发明一种实施例的基于神经元增益调制的机器人运动控制系统的框架示意图;
图3是本发明一种实施例的循环神经网络动力学模型的构建过程的流程示意图;
图4是本发明一种实施例的循环神经网络动力学模型的训练过程的流程示意图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚,下面将结合附图对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
下面结合附图和实施例对本申请作进一步的详细说明。可以理解的是,此处所描述的具体实施例仅用于解释相关发明,而非对该发明的限定。另外还需要说明的是,为了便于描述,附图中仅示出了与有关发明相关的部分。
需要说明的是,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互组合。
本发明的一种基于神经元增益调制的机器人运动控制方法,如图1所示,该方法包括:
步骤S10,获取机器人待运动的目标位置及运动方向,作为输入数据;
步骤S20,基于所述输入数据,通过预构建的循环神经网络动力学模型得到对应的控制信号,并控制机器人移动;
其中,所述循环神经网络动力学模型其构建及训练方法为:
步骤A10,初始化循环神经网络的连接矩阵;
步骤A20,基于所述连接矩阵、设定的松弛变量和网络初始状态,构建循环神经网络的能量函数;结合所述连接矩阵中特征值的最大实部、所述能量函数,对所述连接矩阵进行求导优化;
步骤A30,初始化循环神经网络的神经元集群编码层;
步骤A40,采用双曲正切函数构建循环神经网络神经元动作电位阈值与频率-电流增益之间的计算关系,作为第一关系;
步骤A50,基于所述第一关系、优化的连接矩阵,结合神经元膜电位幅值,构建受增益调控的循环神经网络动力学模型;并利用最小二乘法拟合循环神经网络神经元到输出层的连接权重和偏置常量;
步骤A60,获取ND组训练样本;结合神经元的电活动强度,通过所述神经元集群编码层神经元的发放频率对给定的目标运动方向进行编码;编码后,结合所述优化的连接矩阵,计算神经元膜电位幅值,并通过所述受增益调控的循环神经网络动力学模型,得到控制信号,作为预测信号;所述训练样本包括目标位置、目标运动方向及对应的控制信号标签;
步骤A70,计算所述预测信号与控制信号标签的误差,并通过预构建的奖励函数,更新神经元的动作电位阈值以及频率-电流增益;
步骤A80,循环执行步骤A60、A70,直至得到最终训练好的循环神经网络动力学模型。
为了更清晰地对本发明基于神经元增益调制的机器人运动控制方法进行说明,下面结合附图对本发明方法一种实施例中各步骤进行展开详述。
在下述的实施例中,先对循环神经网络动力学模型的构建以及训练过程进行详述,再对基于神经元增益基元组合优化的机器人运动控制方法获取控制信号的过程进行详述。
1、循环神经网络动力学模型的构建及训练过程,如图3、图4所示
步骤A10,初始化循环神经网络的连接矩阵;
在本实施例中,循环神经网络的连接矩阵W为一个N×N矩阵,其中N为神经网络循环层所包含的神经元数量。矩阵W初始化为一个ER随机图,每个神经元之间产生连接的概率为:
Figure BDA0002868044240000091
其中,Na、Nb表示随机图中两个连接层的节点数量,由于循环层的连接特性,因此,Na=Nb=N,参数
Figure BDA0002868044240000095
表示控制循环神经网络连接的稀疏程度,其值的选择应使得PW>ln N/N以保证网络中没有孤立节点存在。
矩阵W中包含N/2个正数列和N/2个负数列。对于正数列,即兴奋性神经元,按照概率PW决定每个元素的取值为0或
Figure BDA0002868044240000092
对于负数列,即抑制性神经元,按照概率PW决定每个元素的取值为0或
Figure BDA0002868044240000093
其中,ω0的计算方法如公式(2)所示:
Figure BDA0002868044240000094
其中,φ和ρ表示设定常量,为设置值。
步骤A20,基于所述连接矩阵、设定的松弛变量和网络初始状态,构建循环神经网络的能量函数;结合所述连接矩阵中特征值的最大实部、所述能量函数,对所述连接矩阵进行求导优化;
在本实施例中,定义循环神经网络的能量函数为:
Figure BDA0002868044240000101
其中,a为网络初始状态,为设定值,T表示转置,τ为循环神经网络的时间常数,t表示时间,s为松弛变量,I为单位矩阵,Q(W,s)表示矩阵积分项。
定义α(W)为W的特征值的最大实部,将松弛变量定义为
Figure BDA0002868044240000102
以对矩阵W进行稳定优化,可利用二分搜索寻根算法对式(4)进行求解:
Figure BDA0002868044240000103
其中,参数∈初始化为使求解得到的
Figure BDA0002868044240000107
大于α(W)的2倍以上以利于算法优化。
通过下式对W矩阵进行优化:
Figure BDA0002868044240000104
其中,
Figure BDA0002868044240000105
trace[·]表示矩阵的迹。
Q(W,s)和R(W,s)满足原始对偶拉普拉斯方程组:
(W-sI)TQ(W,s)+Q(W,s)(W-sI)=-2·I (6)
(W-sI)R(W,s)+R(W,s)(W-sI)T=-2·I (7)
因此,可以通过下式更新矩阵W的以实现循环层的动态自稳定:
Figure BDA0002868044240000106
其中,η为学习率常数。
步骤A30,初始化循环神经网络的神经元集群编码层;
在本实施例中,神经元集群编码层B包含N个神经元。设第i个神经元的偏好方向为θi,θi的值在区间[-π,π]之间通过均匀采样获得。所述神经元的偏好方向这一概念依据神经科学相关研究,即神经元电活动强度,取决于该神经元的偏好方向与生物体意图运动方向间的偏差相关,当意图运动方向与偏好方向一致,该神经元的活动最强。
步骤A40,采用双曲正切函数构建循环神经网络神经元动作电位阈值与频率-电流增益之间的计算关系,作为第一关系;
在本实施例中,神经元动作电位阈值是指引起神经元产生动作电位的最小输入电流值,在本发明中定义为引起神经元产生频率强度为ζ的神经元信号值,其中ζ为一个非常小的正数。
当神经元动作电位阈值降低时,神经元对于弱输入电流也能够产生较强的动作电位输出频率,但受到神经元细胞膜中离子通道数量有限的约束,因此增强幅度存在上限,在本发明中可建模为频率-电流增益增强并逐渐趋近于上界;反之,当神经元动作电位阈值升高时,神经元对于强输入电流也只能够产生较弱的动作电位输出频率,但受到神经元细胞膜两侧存在离子浓度差使离子沿浓度梯度流动,因此减弱幅度存在下限,在本发明中可建模为频率-电流增益减弱并逐渐趋近于下界。综上所述,本发明采用双曲正切函数来建模神经元动作电位阈值与频率-电流增益之间的计算关系,如式(9)所示:
Figure BDA0002868044240000111
其中,
Figure BDA0002868044240000112
为t时刻神经元动作电位阈值,
Figure BDA0002868044240000113
为频率-电流增益,
Figure BDA0002868044240000114
为正常情况下神经元的增益幅度,
Figure BDA0002868044240000115
是神经元动作电位阈值的下界,对应于神经元增益上界GU
Figure BDA0002868044240000116
是神经元动作电位阈值的上界,对应于神经元增益下界GL
Figure BDA0002868044240000121
μC=0.5(GU-GL),
Figure BDA0002868044240000122
为了简洁表达,下文中将
Figure BDA0002868044240000123
简写为Gk
步骤A50,基于所述第一关系、优化的连接矩阵,结合神经元膜电位幅值,构建受增益调控的循环神经网络动力学模型;并利用最小二乘法拟合循环神经网络神经元到输出层的连接权重和偏置常量;
在本实施例中,循环神经网络动力学方程由下列一阶微分方程所定义:
Figure BDA0002868044240000124
其中,xi(t)是时刻t神经元膜电位幅值,
Figure BDA0002868044240000125
表示xi(t)的一阶导数;Wik∈W,i和k为行列号;f(xk(t),
Figure BDA0002868044240000126
为受增益调控的神经元发放率函数。
受增益调控的神经元发放率函数具体如式(11)所示:
Figure BDA0002868044240000127
Figure BDA0002868044240000128
其中,
Figure BDA0002868044240000129
为平移量,其计算公式如下:
Figure BDA00028680442400001210
其中,γ为形状因子,其计算公式如下:
Figure BDA00028680442400001211
其中,
Figure BDA00028680442400001212
Figure BDA00028680442400001213
分别为正常情况下神经元动作电位阈值和饱和发放率阈值(即神经元达到最大发放频率rmax时的输入电流阈值)。
另外,网络的输出层将循环层产生的神经元发放频率映射为机器人系统的控制信号ol(t),计算公式如下:
Figure BDA00028680442400001214
其中,Jli是神经元i到输出单元l的连接权重,bl是输出单元l的偏置常量,L是输出层的维度。xi(t)E
Figure BDA0002868044240000131
分别表示兴奋性神经元的神经元膜电位幅值和频率-电流增益。给定一个以θf为运动方向、
Figure BDA0002868044240000132
为控制信号的机器人运动控制演示样本,即训练样本,其中Nc=L为机器人系统的控制维度,NT为控制时长,计算步骤得到网络输出的控制量of。利用最小二乘法计算输出层神经元连接权重向量J和b,使网络输出of拟合演示样本df
步骤A60,获取ND组训练样本;结合神经元的电活动强度,通过所述神经元集群编码层神经元的发放频率对给定的目标运动方向进行编码;编码后,结合所述优化的连接矩阵,计算神经元膜电位幅值,并通过所述受增益调控的循环神经网络动力学模型,得到控制信号,作为预测信号;所述训练样本包括目标位置、目标运动方向及对应的控制信号标签;
在本实施例中,获取包含ND组演示样本的演示样本集,即训练样本。样本集中第i个样本,θi为该样本自运动起始点到运动终点的运动方向,即目标运动方向,yi∈Y为第i个样本运动结束时机器人末端参考点所在位置坐标。即目标位置,di为控制信号标签。
将训练样本输入循环神经网络,结合神经元的电活动强度,通过神经元集群编码层神经元的发放频率对给定的目标运动方向进行编码:
fiT)=rmax·piT)=rmax·exp(K(cos(θTi)-1)) (15)
其中,rmax为神经元的最大发放频率,K是神经元对方向偏差敏感度常数。循环神经网络神经元的初始状态x(t0)=τ·Wf(θT),因此,t时刻的神经元膜电位幅值xi(t),依据下式计算:
xi(t)=τ·WfiT)
将神经元膜电位幅值输入受增益调控的循环神经网络动力学模型,得到控制信号,作为预测信号ol(t)。
步骤A70,计算所述预测信号与控制信号标签的误差,并通过预构建的奖励函数,更新神经元的动作电位阈值以及频率-电流增益;
在本实施例中,计算所预测信号与控制信号标签的误差εi,具体如式(16)所示:
Figure BDA0002868044240000141
其中,
Figure BDA0002868044240000142
NT表示控制周期内控制器l的平均控制。
定义奖励熵来描述系统的训练进度。假设网络每次训练获得的奖励信号为R(t),在一段时间周期内的奖励服从高斯分布,设时间窗口尺度为
Figure BDA0002868044240000143
则奖励序列可以表示为
Figure BDA0002868044240000144
其中,参数均值
Figure BDA0002868044240000145
和参数方差
Figure BDA0002868044240000146
可以利用极大似然估计根据奖励序列
Figure BDA00028680442400001411
计算得到。则奖励熵(即奖励函数)可以通过下式计算:
Figure BDA0002868044240000147
其中,Et表示奖励函数值。
为了防止参数剧烈变化造成学习发散,利用神经网络时间常数对奖励熵进行一阶滤波:
Figure BDA0002868044240000148
其中,
Figure BDA0002868044240000149
表示滤波后的奖励值。
多巴胺激素在大脑中可以通过调节奖励预测误差基线促进生物体的学习能力。因此,本发明中,利用自适应一阶滤波系数模拟多巴胺的作用,建模为奖励熵的函数:
Figure BDA00028680442400001410
其中,αr()是函数符号,βα为常数,
Figure BDA0002868044240000151
计算过程如上述的Et。定义外部奖励函数为:
Figure BDA0002868044240000152
其中,R(t)为外部奖励值,
Figure BDA0002868044240000153
为预测学习误差,初始化为0,计算如下:
Figure BDA0002868044240000154
去甲肾上腺素具有平衡专注行为与探索行为权重的能力。本发明通过对节点噪声的调制模拟去甲肾上腺素的调制作用:
Figure BDA0002868044240000155
其中,
Figure BDA0002868044240000156
为噪声采样的高斯分布方差,βσ为常数,则添加到阈值调节的噪声信号满足
Figure BDA0002868044240000157
ξ(t)是一个随机数。
血清素对大脑皮层和脊髓神经元增益都有重要的调节作用。本发明将血清素的调节机理建模为奖励信号的近似二元函数:
Figure BDA0002868044240000158
其中,
Figure BDA0002868044240000159
表示奖励信号值,βs为一个比较大的常数,使
Figure BDA00028680442400001510
在算法收敛到较小值是能够解决参数饱和的问题。
综上所述,神经元动作电位阈值可以根据下式进行更新:
Figure BDA00028680442400001511
Irhe(t)=Irhe(t-1)+ΔIrhe(t) (25)
Figure BDA00028680442400001512
其中,
Figure BDA00028680442400001513
表示更新后的神经元动作电位阈值。
神经元的增益系数,即频率-电流增益,可以根据神经元动作电位阈值与频率-电流增益的关系式进行求解,即:
Figure BDA00028680442400001514
步骤A80,循环执行步骤A60、A70,直至得到最终训练好的循环神经网络动力学模型。
本发明第二实施例的一种基于神经元增益调制的机器人运动控制系统,如图2所示,具体包括以:获取模块100、控制模块200;
所述获取模块100,配置为获取机器人待运动的目标位置及运动方向,作为输入数据;
所述控制模块200,配置为基于所述输入数据,通过预构建的循环神经网络动力学模型得到对应的控制信号,并控制机器人移动;
其中,所述循环神经网络动力学模型其构建及训练方法为:
步骤A10,初始化循环神经网络的连接矩阵;
步骤A20,基于所述连接矩阵、设定的松弛变量和网络初始状态,构建循环神经网络的能量函数;结合所述连接矩阵中特征值的最大实部、所述能量函数,对所述连接矩阵进行求导优化;
步骤A30,初始化循环神经网络的神经元集群编码层;
步骤A40,采用双曲正切函数构建循环神经网络神经元动作电位阈值与频率-电流增益之间的计算关系,作为第一关系;
步骤A50,基于所述第一关系、优化的连接矩阵,结合神经元膜电位幅值,构建受增益调控的循环神经网络动力学模型;并利用最小二乘法拟合循环神经网络神经元到输出层的连接权重和偏置常量;
步骤A60,获取ND组训练样本;结合神经元的电活动强度,通过所述神经元集群编码层神经元的发放频率对给定的目标运动方向进行编码;编码后,结合所述优化的连接矩阵,计算神经元膜电位幅值,并通过所述受增益调控的循环神经网络动力学模型,得到控制信号,作为预测信号;所述训练样本包括目标位置、目标运动方向及对应的控制信号标签;
步骤A70,计算所述预测信号与控制信号标签的误差,并通过预构建的奖励函数,更新神经元的动作电位阈值以及频率-电流增益;
步骤A80,循环执行步骤A60、A70,直至得到最终训练好的循环神经网络动力学模型。
所述技术领域的技术人员可以清楚的了解到,为描述的方便和简洁,上述描述的系统具体的工作过程及有关说明,可以参考前述方法实施例中的对应过程,在此不再赘述。
需要说明的是,上述实施例提供的基于神经元增益调制的机器人运动控制系统,仅以上述各功能模块的划分进行举例说明,在实际应用中,可以根据需要而将上述功能分配由不同的功能模块来完成,即将本发明实施例中的模块或者步骤再分解或者组合,例如,上述实施例的模块可以合并为一个模块,也可以进一步拆分成多个子模块,以完成以上描述的全部或者部分功能。对于本发明实施例中涉及的模块、步骤的名称,仅仅是为了区分各个模块或者步骤,不视为对本发明的不当限定。
本发明第三实施例的一种存储装置,其中存储有多条程序,所述程序适用于由处理器加载并实现上述的基于神经元增益调制的机器人运动控制方法。
本发明第四实施例的一种处理装置,包括处理器、存储装置;处理器,适于执行各条程序;存储装置,适于存储多条程序;所述程序适用于由处理器加载并执行以实现上述的基于神经元增益调制的机器人运动控制方法。
所述技术领域的技术人员可以清楚的了解到,未描述的方便和简洁,上述描述的存储装置、处理装置的具体工作过程及有关说明,可以参考前述方法实例中的对应过程,在此不再赘述。
需要说明的是,本申请上述的计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质或者是上述两者的任意组合。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。计算机可读存储介质的更具体的例子可以包括但不限于:具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机访问存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本申请中,计算机可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。而在本申请中,计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号,其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式,包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读介质,该计算机可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。计算机可读介质上包含的程序代码可以用任何适当的介质传输,包括但不限于:无线、电线、光缆、RF等等,或者上述的任意合适的组合。
可以以一种或多种程序设计语言或其组合来编写用于执行本申请的操作的计算机程序代码,上述程序设计语言包括面向对象的程序设计语言—诸如Java、Smalltalk、C++,还包括常规的过程式程序设计语言—诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中,远程计算机可以通过任意种类的网络——包括局域网(LAN)或广域网(WAN)—连接到用户计算机,或者,可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。
附图中的流程图和框图,图示了按照本申请各种实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分,该模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意,在有些作为替换的实现中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个接连地表示的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合,可以用执行规定的功能或操作的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。
术语“第一”、“第二”等是用于区别类似的对象,而不是用于描述或表示特定的顺序或先后次序。
术语“包括”或者任何其它类似用语旨在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备/装置不仅包括那些要素,而且还包括没有明确列出的其它要素,或者还包括这些过程、方法、物品或者设备/装置所固有的要素。
至此,已经结合附图所示的优选实施方式描述了本发明的技术方案,但是,本领域技术人员容易理解的是,本发明的保护范围显然不局限于这些具体实施方式。在不偏离本发明的原理的前提下,本领域技术人员可以对相关技术特征作出等同的更改或替换,这些更改或替换之后的技术方案都将落入本发明的保护范围之内。

Claims (10)

1.一种基于神经元增益调制的机器人运动控制方法,其特征在于,该方法包括以下步骤:
步骤S10,获取机器人待运动的目标位置及运动方向,作为输入数据;
步骤S20,基于所述输入数据,通过预构建的循环神经网络动力学模型得到对应的控制信号,并控制机器人移动;
其中,所述循环神经网络动力学模型其构建及训练方法为:
步骤A10,初始化循环神经网络的连接矩阵;
步骤A20,基于所述连接矩阵、设定的松弛变量和网络初始状态,构建循环神经网络的能量函数;结合所述连接矩阵中特征值的最大实部、所述能量函数,对所述连接矩阵进行求导优化;
步骤A30,初始化循环神经网络的神经元集群编码层;
步骤A40,采用双曲正切函数构建循环神经网络神经元动作电位阈值与频率-电流增益之间的计算关系,作为第一关系;
步骤A50,基于所述第一关系、优化的连接矩阵,结合神经元膜电位幅值,构建受增益调控的循环神经网络动力学模型;并利用最小二乘法拟合循环神经网络神经元到输出层的连接权重和偏置常量;
步骤A60,获取ND组训练样本;结合神经元的电活动强度,通过所述神经元集群编码层神经元的发放频率对给定的目标运动方向进行编码;编码后,结合所述优化的连接矩阵,计算神经元膜电位幅值,并通过所述受增益调控的循环神经网络动力学模型,得到控制信号,作为预测信号;所述训练样本包括目标位置、目标运动方向及对应的控制信号标签;
步骤A70,计算所述预测信号与控制信号标签的误差,并通过预构建的奖励函数,更新神经元的动作电位阈值以及频率-电流增益;
步骤A80,循环执行步骤A60、A70,直至得到最终训练好的循环神经网络动力学模型。
2.根据权利要求1所述的基于神经元增益调制的机器人运动控制方法,其特征在于,所述连接矩阵W包含N/2个正数列和N/2个负数列,正数列表示兴奋性神经元,负数列表示抑制性神经元;所述正数列的取值为0或
Figure FDA0002868044230000021
所述负数列的取值为0或
Figure FDA0002868044230000022
Figure FDA0002868044230000023
其中,N表示神经网络循环层所包含的神经元数量,PW表示神经元的连接概率,φ、ρ为设定的常量。
3.根据权利要求2所述的基于神经元增益调制的机器人运动控制方法,其特征在于,所述能量函数为:
Figure FDA0002868044230000024
其中,ε()表示能量函数,a表示设定的网络初始状态,s表示松弛变量,T表示转置,τ表示循环神经网络中设定的时间尺度常量,t表示时间,I为单位矩阵,Q(W,s)表示矩阵积分项。
4.根据权利要求1所述的基于神经元增益调制的机器人运动控制方法,其特征在于,步骤A40中“采用双曲正切函数构建循环神经网络神经元动作电位阈值与频率-电流增益之间的计算关系”,其方法为:
Figure FDA0002868044230000025
Figure FDA0002868044230000026
Figure FDA0002868044230000027
μC=0.5(GU-GL)
Figure FDA0002868044230000028
其中,
Figure FDA0002868044230000031
表示t时刻神经元频率-电流增益,
Figure FDA0002868044230000032
表示t时刻神经元动作电位阈值,
Figure FDA0002868044230000033
表示正常情况下神经元的增益幅度,
Figure FDA0002868044230000034
是神经元动作电位阈值的下界,对应于神经元频率-电流增益上界GU
Figure FDA0002868044230000035
是神经元动作电位阈值的上界,对应于神经元频率-电流增益下界GL,ζ表示引起神经元产生神经元信号值的频率强度。
5.根据权利要求4所述的基于神经元增益调制的机器人运动控制方法,其特征在于,所述受增益调控的循环神经网络动力学模型为:
Figure FDA0002868044230000036
Figure FDA0002868044230000037
其中,xi(t)表示t时刻的神经元膜电位幅值,
Figure FDA0002868044230000038
表示xi(t)的一阶导数,Wik∈W,i和k为行列号,
Figure FDA0002868044230000039
为受增益调控的神经元发放率函数,
Figure FDA00028680442300000310
为平移量,rmax为神经元的最大发放频率,xk(t)为第k个神经元在时刻t的神经元膜电位幅值,γ表示形状因子。
6.根据权利要求5中所述的基于神经元增益基元组合优化的机器人运动控制方法,其特征在于,“结合神经元的电活动强度,通过所述神经元集群编码层神经元的发放频率对给定的目标运动方向进行编码;编码后,结合所述优化的连接矩阵,计算神经元膜电位幅值”,其方法为:
xi(t)=τ·WfiT)
fiT)=rmax·exp(K(cos(θTi)-1))
其中,K表示神经元对方向偏差敏感度常数,θT表示目标运动方向,θi表示神经元的电活动强度。
7.根据权利要求6中所述的基于神经元增益基元组合优化的机器人运动控制方法,其特征在于,步骤A70中“更新神经元的动作电位阈值”,其方法为:
Figure FDA0002868044230000041
Irhe(t)=Irhe(t-1)+ΔIrhe(t)
Figure FDA0002868044230000042
其中,
Figure FDA0002868044230000043
表示t-1时刻、t时刻更新后的神经元动作电位阈值,
Figure FDA0002868044230000044
表示奖励函数值,
Figure FDA0002868044230000045
表示t-1时刻的奖励信号值,ξ(t)为一个随机数
8.一种基于神经元增益调制的机器人运动控制系统,其特征在于,该系统包括:获取模块、控制模块;
所述获取模块,配置为获取机器人待运动的目标位置及运动方向,作为输入数据;
所述控制模块,配置为基于所述输入数据,通过预构建的循环神经网络动力学模型得到对应的控制信号,并控制机器人移动;
其中,所述循环神经网络动力学模型其构建及训练方法为:
步骤A10,初始化循环神经网络的连接矩阵;
步骤A20,基于所述连接矩阵、设定的松弛变量和网络初始状态,构建循环神经网络的能量函数;结合所述连接矩阵中特征值的最大实部、所述能量函数,对所述连接矩阵进行求导优化;
步骤A30,初始化循环神经网络的神经元集群编码层;
步骤A40,采用双曲正切函数构建循环神经网络神经元动作电位阈值与频率-电流增益之间的计算关系,作为第一关系;
步骤A50,基于所述第一关系、优化的连接矩阵,结合神经元膜电位幅值,构建受增益调控的循环神经网络动力学模型;并利用最小二乘法拟合循环神经网络神经元到输出层的连接权重和偏置常量;
步骤A60,获取ND组训练样本;结合神经元的电活动强度,通过所述神经元集群编码层神经元的发放频率对给定的目标运动方向进行编码;编码后,结合所述优化的连接矩阵,计算神经元膜电位幅值,并通过所述受增益调控的循环神经网络动力学模型,得到控制信号,作为预测信号;所述训练样本包括目标位置、目标运动方向及对应的控制信号标签;
步骤A70,计算所述预测信号与控制信号标签的误差,并通过预构建的奖励函数,更新神经元的动作电位阈值以及频率-电流增益;
步骤A80,循环执行步骤A60、A70,直至得到最终训练好的循环神经网络动力学模型。
9.一种存储装置,其中存储有多条程序,其特征在于,所述程序适用于由处理器加载并执行以实现权利要求1-7所述的基于神经元增益调制的机器人运动控制方法。
10.一种处理装置,包括处理器、存储装置;处理器,适用于执行各条程序;存储装置,适用于存储多条程序;其特征在于,所述程序适用于由处理器加载并执行以实现权利要求1-7所述的基于神经元增益调制的机器人运动控制方法。
CN202011589016.2A 2020-12-29 2020-12-29 基于神经元增益调制的机器人运动控制方法、系统、装置 Active CN112731812B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011589016.2A CN112731812B (zh) 2020-12-29 2020-12-29 基于神经元增益调制的机器人运动控制方法、系统、装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011589016.2A CN112731812B (zh) 2020-12-29 2020-12-29 基于神经元增益调制的机器人运动控制方法、系统、装置

Publications (2)

Publication Number Publication Date
CN112731812A true CN112731812A (zh) 2021-04-30
CN112731812B CN112731812B (zh) 2022-01-28

Family

ID=75607086

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011589016.2A Active CN112731812B (zh) 2020-12-29 2020-12-29 基于神经元增益调制的机器人运动控制方法、系统、装置

Country Status (1)

Country Link
CN (1) CN112731812B (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114872040A (zh) * 2022-04-20 2022-08-09 中国科学院自动化研究所 基于小脑预测与修正的肌肉骨骼机器人控制方法及装置

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2002059384A (ja) * 2000-08-22 2002-02-26 Sony Corp ロボットのための学習システム及び学習方法
CN104584037A (zh) * 2012-08-23 2015-04-29 高通股份有限公司 自适应行为的神经系统
CN106650922A (zh) * 2016-09-29 2017-05-10 清华大学 硬件神经网络转换方法、计算装置、编译方法和神经网络软硬件协作系统
CN109284406A (zh) * 2018-09-03 2019-01-29 四川长虹电器股份有限公司 基于差异循环神经网络的意图识别方法
CN110941183A (zh) * 2019-11-30 2020-03-31 华南理工大学 一种基于神经网络的工业机器人动力学辨识方法

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2002059384A (ja) * 2000-08-22 2002-02-26 Sony Corp ロボットのための学習システム及び学習方法
CN104584037A (zh) * 2012-08-23 2015-04-29 高通股份有限公司 自适应行为的神经系统
CN106650922A (zh) * 2016-09-29 2017-05-10 清华大学 硬件神经网络转换方法、计算装置、编译方法和神经网络软硬件协作系统
CN109284406A (zh) * 2018-09-03 2019-01-29 四川长虹电器股份有限公司 基于差异循环神经网络的意图识别方法
CN110941183A (zh) * 2019-11-30 2020-03-31 华南理工大学 一种基于神经网络的工业机器人动力学辨识方法

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
A. KARAKASOGLU;M.K. SUNDARESHAN: "A recurrent neural network-based adaptive variable structure model following control of multijointed robotic manipulators", 《[1992] PROCEEDINGS OF THE 31ST IEEE CONFERENCE ON DECISION AND CONTROL》 *
YIN PEIJIE,ET AL.: "A Novel Biologically Inspired Visual Cognition Model: Automatic Extraction of Semantics, Formation of Integrated Concepts, and Reselection Features for Ambiguity", 《IEEE TRANSACTIONS ON COGNITIVE AND DEVELOPMENTAL SYSTEMS》 *
彭济根 等: "柔性关节机操手的神经网络控制", 《自动化学报》 *
马璐 等: "基于AM-RPPO 的双足机器人适应性行走控制算法", 《机器人》 *

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114872040A (zh) * 2022-04-20 2022-08-09 中国科学院自动化研究所 基于小脑预测与修正的肌肉骨骼机器人控制方法及装置
CN114872040B (zh) * 2022-04-20 2024-04-16 中国科学院自动化研究所 基于小脑预测与修正的肌肉骨骼机器人控制方法及装置

Also Published As

Publication number Publication date
CN112731812B (zh) 2022-01-28

Similar Documents

Publication Publication Date Title
Kahn et al. Plato: Policy learning using adaptive trajectory optimization
Rueckert et al. Recurrent spiking networks solve planning tasks
Legenstein et al. Reinforcement learning on slow features of high-dimensional input streams
Murata et al. Learning to reproduce fluctuating time series by inferring their time-dependent stochastic properties: Application in robot learning via tutoring
CN110909859A (zh) 基于对抗结构化控制的仿生机器鱼运动控制方法、系统
CN110956148B (zh) 无人车的自主避障方法及装置、电子设备、可读存储介质
CN112621760B (zh) 基于神经元增益基元组合优化的机器人运动控制方法
Henaff et al. Model-based planning with discrete and continuous actions
Dasgupta et al. Information dynamics based self-adaptive reservoir for delay temporal memory tasks
Sanchez-Fibla et al. Allostatic control for robot behavior regulation: a comparative rodent-robot study
Massi et al. Combining evolutionary and adaptive control strategies for quadruped robotic locomotion
CN112405542B (zh) 基于脑启发多任务学习的肌肉骨骼机器人控制方法及系统
Kaiser et al. Learning to reproduce visually similar movements by minimizing event-based prediction error
CN112731812B (zh) 基于神经元增益调制的机器人运动控制方法、系统、装置
Datteri et al. Robotic simulations, simulations of robots
Schmidgall et al. Spikepropamine: Differentiable plasticity in spiking neural networks
Burms et al. Reward-modulated Hebbian plasticity as leverage for partially embodied control in compliant robotics
Rañó et al. A drift diffusion model of biological source seeking for mobile robots
Mori et al. Probabilistic generative modeling and reinforcement learning extract the intrinsic features of animal behavior
Waegeman et al. MACOP modular architecture with control primitives
Priandana et al. Development of self-organizing maps neural networks based control system for a boat model
Monfort et al. Asynchronous data aggregation for training end to end visual control networks
Caamaño et al. Introducing synaptic delays in the NEAT algorithm to improve modelling in cognitive robotics
Wang et al. Evolving decomposed plasticity rules for information-bottlenecked meta-learning
Galashov et al. Importance weighted policy learning and adaptation

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant