CN112621760B - 基于神经元增益基元组合优化的机器人运动控制方法 - Google Patents

基于神经元增益基元组合优化的机器人运动控制方法 Download PDF

Info

Publication number
CN112621760B
CN112621760B CN202011591657.1A CN202011591657A CN112621760B CN 112621760 B CN112621760 B CN 112621760B CN 202011591657 A CN202011591657 A CN 202011591657A CN 112621760 B CN112621760 B CN 112621760B
Authority
CN
China
Prior art keywords
neuron
gain
neural network
frequency
neurons
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202011591657.1A
Other languages
English (en)
Other versions
CN112621760A (zh
Inventor
钟汕林
周俊杰
乔红
吴伟
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Institute of Automation of Chinese Academy of Science
Original Assignee
Institute of Automation of Chinese Academy of Science
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Institute of Automation of Chinese Academy of Science filed Critical Institute of Automation of Chinese Academy of Science
Priority to CN202011591657.1A priority Critical patent/CN112621760B/zh
Publication of CN112621760A publication Critical patent/CN112621760A/zh
Application granted granted Critical
Publication of CN112621760B publication Critical patent/CN112621760B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • BPERFORMING OPERATIONS; TRANSPORTING
    • B25HAND TOOLS; PORTABLE POWER-DRIVEN TOOLS; MANIPULATORS
    • B25JMANIPULATORS; CHAMBERS PROVIDED WITH MANIPULATION DEVICES
    • B25J9/00Programme-controlled manipulators
    • B25J9/16Programme controls
    • BPERFORMING OPERATIONS; TRANSPORTING
    • B25HAND TOOLS; PORTABLE POWER-DRIVEN TOOLS; MANIPULATORS
    • B25JMANIPULATORS; CHAMBERS PROVIDED WITH MANIPULATION DEVICES
    • B25J9/00Programme-controlled manipulators
    • B25J9/16Programme controls
    • B25J9/1628Programme controls characterised by the control loop

Abstract

本发明属于机器人技术领域,具体涉及一种基于神经元增益基元组合优化的机器人运动控制方法、系统、装置,旨在现有的机器人运动控制方法在复杂动态环境中控制鲁棒性、自适应性较差的问题。本方法包括获取机器人待运动的目标位置及运动方向,作为输入数据;基于输入数据,通过预构建的循环神经网络动力学模型得到对应的控制信号,并控制机器人移动。本发明提高了机器人运动控制的鲁棒性、自适应性。

Description

基于神经元增益基元组合优化的机器人运动控制方法
技术领域
本发明属于机器人技术领域,具体涉及一种基于神经元增益基元组合优化的机器人运动控制方法、系统、装置。
背景技术
能够快速、鲁棒、自适应地执行灵巧的运动是机器人广泛应用的重要前提。但是,现有的机器人技术在通用性方面依然差强人意。具有刚性结构的机器人系统通常工作在结构化环境中,与人类工作人员保持安全距离,难以真正实现与人的协同合作。而相比而言,人类的运动结构经过长期进化,拥有完备的肌肉骨骼系统以及发达的运动神经系统,使其能够实现极其柔顺、灵巧、精准的高效运动。其中大脑运动皮层能够在保持结构不变的情况下,通过激素的调节作用,使神经网络产生丰富的瞬态响应,从而支持生物完成轨迹、速度、力量不同的运动任务。这一特点赋予了人类在复杂动态环境中灵活、鲁棒、自适应的运动能力。而这一特性正是当前机器人控制领域的关键瓶颈问题,因此,通过深入研究人类躯体运动结构和神经控制机理,将有望为设计响应更快、鲁棒性更好的机器人智能控制算法带来重要启发。基于此,本发明提出了一种基于神经元增益基元组合优化的机器人运动控制方法。
发明内容
为了解决现有技术中的上述问题,即为了解决现有的机器人运动控制方法在复杂动态环境中控制鲁棒性、自适应性较差的问题,本发明第一方面,提出了一种基于神经元增益基元组合优化的机器人运动控制方法,该方法包括:
步骤S10,获取机器人待运动的目标位置及运动方向,作为输入数据;
步骤S20,基于所述输入数据,通过预构建的循环神经网络动力学模型得到对应的控制信号,并控制机器人移动;
其中,所述循环神经网络动力学模型其构建及训练方法为:
步骤A10,初始化循环神经网络的连接矩阵;
步骤A20,基于所述连接矩阵、设定的松弛变量和网络初始状态,构建循环神经网络的能量函数;结合所述连接矩阵中特征值的最大实部、所述能量函数,对所述连接矩阵进行求导优化;
步骤A30,初始化循环神经网络的神经元集群编码层;
步骤A40,采用双曲正切函数构建循环神经网络神经元动作电位阈值与频率-电流增益之间的计算关系,作为第一关系;
步骤A50,基于所述第一关系、优化的连接矩阵,结合神经元膜电位幅值,构建受增益调控的循环神经网络动力学模型;并利用最小二乘法拟合循环神经网络神经元到输出层的连接权重和偏置常量;
步骤A60,获取ND组训练样本;结合神经元的电活动强度,通过所述神经元集群编码层神经元的发放频率对给定的目标运动方向进行编码;编码后,结合所述优化的连接矩阵,计算神经元膜电位幅值,并通过所述受增益调控的循环神经网络动力学模型,得到控制信号,作为预测信号;所述训练样本包括目标位置、目标运动方向及对应的控制信号标签;
步骤A70,计算所述预测信号与控制信号标签的误差,并通过预构建的奖励函数,更新神经元的动作电位阈值以及频率-电流增益;
步骤A80,循环执行步骤A60、A70,并将各组训练样本在训练过程中使误差最小的频率-电流增益
Figure BDA0002869345140000031
和神经元动作电位阈值
Figure BDA0002869345140000032
分别存储增益基元库GL和电位阈值基元库IL中;
步骤A90,获取机器人新运动的目标位置ynew,并选取ND组训练样本中目标位置距离ynew最近的k个点组成点集
Figure BDA0002869345140000036
计算所述点集
Figure BDA0002869345140000037
各点与ynew之间的欧式距离,将该距离与所有欧氏距离的和的比值作为权重向量;
步骤A100,以所述权重向量为均值计算方差,并通过交叉熵算法从所述均值、方差的采样分布采样ns个候选解;将ns个候选解代入预构建的损失函数中计算损失,并将损失最小的ne个候选解构建精英样本解集;
步骤A110,基于所述精英样本解集中的候选解更新所述均值、方差;更新后跳转步骤A100,直至达到设定的迭代次数或损失小于设定的阈值,并将损失最小对应的候选解作为最优解;
步骤A120,将所述最优解分别与所述增益基元库中的各频率-电流增益、电位阈值基元库中的各神经元动作电位阈值进行乘积求和,作为最终的频率-电流增益、神经元动作电位阈值,并代入所述受增益调控的循环神经网络动力学模型,作为最终训练好的循环神经网络动力学模型。
在一些优选的实施方式中,所述连接矩阵W包含N/2个正数列和N/2个负数列,正数列表示兴奋性神经元,负数列表示抑制性神经元;所述正数列的取值为0或
Figure BDA0002869345140000033
所述负数列的取值为0或
Figure BDA0002869345140000034
Figure BDA0002869345140000035
其中,N表示神经网络循环层所包含的神经元数量,PW表示神经元的连接概率,φ、ρ为设定的常量。
在一些优选的实施方式中,所述能量函数为:
Figure BDA0002869345140000041
其中,ε()表示能量函数,a表示设定的网络初始状态,s表示松弛变量,T表示转置,τ表示循环神经网络中设定的时间尺度常量,t表示时间,I为单位矩阵,Q(W,s)表示矩阵积分项。
在一些优选的实施方式中,步骤A40中“采用双曲正切函数构建循环神经网络神经元动作电位阈值与频率-电流增益之间的计算关系”,其方法为:
Figure BDA0002869345140000042
Figure BDA0002869345140000043
Figure BDA0002869345140000044
μC=0.5(GU-GL)
Figure BDA0002869345140000045
其中,
Figure BDA0002869345140000046
表示t时刻神经元频率-电流增益,
Figure BDA0002869345140000047
表示t时刻神经元动作电位阈值,
Figure BDA0002869345140000048
表示正常情况下神经元的增益幅度,
Figure BDA0002869345140000049
是神经元动作电位阈值的下界,对应于神经元频率-电流增益上界GU,
Figure BDA00028693451400000410
是神经元动作电位阈值的上界,对应于神经元频率-电流增益下界GL,ζ表示引起神经元产生神经元信号值的频率强度。
在一些优选的实施方式中,所述受增益调控的循环神经网络动力学模型为:
Figure BDA00028693451400000411
Figure BDA00028693451400000412
其中,xi(t)表示t时刻的神经元膜电位幅值,
Figure BDA0002869345140000051
表示xi(t)的一阶导数,Wik∈W,i和k为行列号,
Figure BDA0002869345140000052
为受增益调控的神经元发放率函数,
Figure BDA0002869345140000053
为平移量,rmax为神经元的最大发放频率, xk(t)为,γ表示形状因子。
在一些优选的实施方式中,“结合神经元的电活动强度,通过所述神经元集群编码层神经元的发放频率对给定的目标运动方向进行编码;编码后,结合所述优化的连接矩阵,计算神经元膜电位幅值”,其方法为:
xi(t)=τ·WfiT)
fiT)=rmax·exp(K(cos(θTi)-1))
其中,K表示神经元对方向偏差敏感度常数,θT表示目标运动方向,θi表示神经元的电活动强度。
在一些优选的实施方式中,步骤A70中“更新神经元的动作电位阈值”,其方法为:
Figure BDA0002869345140000054
Irhe(t)=Irhe(t-1)+ΔIrhe(t)
Figure BDA0002869345140000055
其中,
Figure BDA0002869345140000056
表示t-1时刻、t时刻更新后的神经元动作电位阈值,
Figure BDA0002869345140000057
表示奖励函数值,
Figure BDA0002869345140000058
表示t-1时刻的奖励信号值,ξ(t)为一个随机数。
本发明的第二方面,提出了一种基于神经元增益基元组合优化的机器人运动控制系统,该系统包括:获取模块、识别模块;
所述获取模块,配置为获取机器人待运动的目标位置及运动方向,作为输入数据;
所述控制模块,配置为基于所述输入数据,通过预构建的循环神经网络动力学模型得到对应的控制信号,并控制机器人移动;
其中,所述循环神经网络动力学模型其构建及训练方法为:
步骤A10,初始化循环神经网络的连接矩阵;
步骤A20,基于所述连接矩阵、设定的松弛变量和网络初始状态,构建循环神经网络的能量函数;结合所述连接矩阵中特征值的最大实部、所述能量函数,对所述连接矩阵进行求导优化;
步骤A30,初始化循环神经网络的神经元集群编码层;
步骤A40,采用双曲正切函数构建循环神经网络神经元动作电位阈值与频率-电流增益之间的计算关系,作为第一关系;
步骤A50,基于所述第一关系、优化的连接矩阵,结合神经元膜电位幅值,构建受增益调控的循环神经网络动力学模型;并利用最小二乘法拟合循环神经网络神经元到输出层的连接权重和偏置常量;
步骤A60,获取ND组训练样本;结合神经元的电活动强度,通过所述神经元集群编码层神经元的发放频率对给定的目标运动方向进行编码;编码后,结合所述优化的连接矩阵,计算神经元膜电位幅值,并通过所述受增益调控的循环神经网络动力学模型,得到控制信号,作为预测信号;所述训练样本包括目标位置、目标运动方向及对应的控制信号标签;
步骤A70,计算所述预测信号与控制信号标签的误差,并通过预构建的奖励函数,更新神经元的动作电位阈值以及频率-电流增益;
步骤A80,循环执行步骤A60、A70,并将各组训练样本在训练过程中使误差最小的频率-电流增益
Figure BDA0002869345140000061
和神经元动作电位阈值
Figure BDA0002869345140000062
分别存储增益基元库GL和电位阈值基元库IL中;
步骤A90,获取机器人新运动的目标位置ynew,并选取ND组训练样本中目标位置距离ynew最近的k个点组成点集
Figure BDA0002869345140000063
计算所述点集
Figure BDA0002869345140000064
各点与ynew之间的欧式距离,将该距离与所有欧氏距离的和的比值作为权重向量;
步骤A100,以所述权重向量为均值计算方差,并通过交叉熵算法从所述均值、方差的采样分布采样ns个候选解;将ns个候选解代入预构建的损失函数中计算损失,并将损失最小的ne个候选解构建精英样本解集;
步骤A110,基于所述精英样本解集中的候选解更新所述均值、方差;更新后跳转步骤A100,直至达到设定的迭代次数或损失小于设定的阈值,并将损失最小对应的候选解作为最优解;
步骤A120,将所述最优解分别与所述增益基元库中的各频率-电流增益、电位阈值基元库中的各神经元动作电位阈值进行乘积求和,作为最终的频率-电流增益、神经元动作电位阈值,并代入所述受增益调控的循环神经网络动力学模型,作为最终训练好的循环神经网络动力学模型。
本发明的第三方面,提出了一种存储装置,其中存储有多条程序,所述程序适用于由处理器加载并执行以实现上述的基于神经元增益基元组合优化的机器人运动控制方法。
本发明的第四方面,提出了一种处理装置,包括处理器、存储装置;处理器,适用于执行各条程序;存储装置,适用于存储多条程序;所述程序适用于由处理器加载并执行以实现上述的基于神经元增益基元组合优化的机器人运动控制方法。
本发明的有益效果:
本发明提高了机器人运动控制的鲁棒性、自适应性。
本发明基于神经科学中生物能够在保持大脑结构相对稳定的情况下可通过激素调制神经元增益而快速产生丰富的运动模式这一实验观察,利用神经集群编码理论,将机器人运动目标编码为循环神经网络中神经元的初始状态,通过调节网络循环层神经元的增益系数调节网络输出控制信号,使其逐渐逼近演示样本的控制信号,实现机器人对给定复杂运动的自主学习。提高了机器人运动控制的鲁棒性、自适应性。
另外,本发明可以在保持神经网络连接权重不变的情况下,通过调节增益系数实现对演示运动的学习,可实现包括轮式机器人、关节型机器人、类人肌肉骨骼型机器人等多种不同类型的机器人系统对复杂运动的学习。
附图说明
通过阅读参照以下附图所做的对非限制性实施例所做的详细描述,本申请的其他特征、目的和优点将会变得更明显。
图1是本发明一种实施例的基于神经元增益基元组合优化的机器人运动控制方法的流程示意图;
图2是本发明一种实施例的基于神经元增益基元组合优化的机器人运动控制系统的框架示意图;
图3是本发明一种实施例的循环神经网络动力学模型的构建过程的流程示意图;
图4是本发明一种实施例的循环神经网络动力学模型的训练过程的流程示意图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚,下面将结合附图对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
下面结合附图和实施例对本申请作进一步的详细说明。可以理解的是,此处所描述的具体实施例仅用于解释相关发明,而非对该发明的限定。另外还需要说明的是,为了便于描述,附图中仅示出了与有关发明相关的部分。
需要说明的是,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互组合。
本发明的一种基于神经元增益基元组合优化的机器人运动控制方法,如图1所示,该方法包括:
步骤S10,获取机器人待运动的目标位置及运动方向,作为输入数据;
步骤S20,基于所述输入数据,通过预构建的循环神经网络动力学模型得到对应的控制信号,并控制机器人移动;
其中,所述循环神经网络动力学模型其构建及训练方法为:
步骤A10,初始化循环神经网络的连接矩阵;
步骤A20,基于所述连接矩阵、设定的松弛变量和网络初始状态,构建循环神经网络的能量函数;结合所述连接矩阵中特征值的最大实部、所述能量函数,对所述连接矩阵进行求导优化;
步骤A30,初始化循环神经网络的神经元集群编码层;
步骤A40,采用双曲正切函数构建循环神经网络神经元动作电位阈值与频率-电流增益之间的计算关系,作为第一关系;
步骤A50,基于所述第一关系、优化的连接矩阵,结合神经元膜电位幅值,构建受增益调控的循环神经网络动力学模型;并利用最小二乘法拟合循环神经网络神经元到输出层的连接权重和偏置常量;
步骤A60,获取ND组训练样本;结合神经元的电活动强度,通过所述神经元集群编码层神经元的发放频率对给定的目标运动方向进行编码;编码后,结合所述优化的连接矩阵,计算神经元膜电位幅值,并通过所述受增益调控的循环神经网络动力学模型,得到控制信号,作为预测信号;所述训练样本包括目标位置、目标运动方向及对应的控制信号标签;
步骤A70,计算所述预测信号与控制信号标签的误差,并通过预构建的奖励函数,更新神经元的动作电位阈值以及频率-电流增益;
步骤Ag0,循环执行步骤A60、A70,并将各组训练样本在训练过程中使误差最小的频率-电流增益
Figure BDA0002869345140000101
和神经元动作电位阈值
Figure BDA0002869345140000102
分别存储增益基元库GL和电位阈值基元库IL中;
步骤A90,获取机器人新运动的目标位置ynew,并选取ND组训练样本中目标位置距离ynew最近的k个点组成点集
Figure BDA0002869345140000103
计算所述点集
Figure BDA0002869345140000104
各点与ynew之间的欧式距离,将该距离与所有欧氏距离的和的比值作为权重向量;
步骤A100,以所述权重向量为均值计算方差,并通过交叉熵算法从所述均值、方差的采样分布采样ns个候选解;将ns个候选解代入预构建的损失函数中计算损失,并将损失最小的ne个候选解构建精英样本解集;
步骤A110,基于所述精英样本解集中的候选解更新所述均值、方差;更新后跳转步骤A100,直至达到设定的迭代次数或损失小于设定的阈值,并将损失最小对应的候选解作为最优解;
步骤A120,将所述最优解分别与所述增益基元库中的各频率-电流增益、电位阈值基元库中的各神经元动作电位阈值进行乘积求和,作为最终的频率-电流增益、神经元动作电位阈值,并代入所述受增益调控的循环神经网络动力学模型,作为最终训练好的循环神经网络动力学模型。
为了更清晰地对本发明基于神经元增益基元组合优化的机器人运动控制方法进行说明,下面结合附图对本发明方法一种实施例中各步骤进行展开详述。
在下述的实施例中,先对循环神经网络动力学模型的构建以及训练过程进行详述,再对基于神经元增益基元组合优化的机器人运动控制方法获取控制信号的过程进行详述。
1、循环神经网络动力学模型的构建及训练过程,如图3、图4所示
步骤A10,初始化循环神经网络的连接矩阵;
在本实施例中,循环神经网络的连接矩阵W为一个N×N矩阵,其中N为神经网络循环层所包含的神经元数量。矩阵W初始化为一个ER随机图,每个神经元之间产生连接的概率为:
Figure BDA0002869345140000111
其中,Na、Nb表示随机图中两个连接层的节点数量,由于循环层的连接特性,因此,Na=Nb=N,参数
Figure BDA0002869345140000115
表示控制循环神经网络连接的稀疏程度,其值的选择应使得PW>ln N/N以保证网络中没有孤立节点存在。
矩阵W中包含N/2个正数列和N/2个负数列。对于正数列,即兴奋性神经元,按照概率PW决定每个元素的取值为0或
Figure BDA0002869345140000112
对于负数列,即抑制性神经元,按照概率PW决定每个元素的取值为0或
Figure BDA0002869345140000113
其中,ω0的计算方法如公式(2)所示:
Figure BDA0002869345140000114
其中,φ和ρ表示设定常量,为设置值。
步骤A20,基于所述连接矩阵、设定的松弛变量和网络初始状态,构建循环神经网络的能量函数;结合所述连接矩阵中特征值的最大实部、所述能量函数,对所述连接矩阵进行求导优化;
在本实施例中,定义循环神经网络的能量函数为:
Figure BDA0002869345140000121
其中,a为网络初始状态,为设定值,T表示转置,τ为循环神经网络的时间常数,t表示时间,s为松弛变量,I为单位矩阵,Q(W,s)表示矩阵积分项。
定义α(W)为W的特征值的最大实部,将松弛变量定义为
Figure BDA0002869345140000122
以对矩阵W进行稳定优化,可利用二分搜索寻根算法对式(4) 进行求解:
Figure BDA0002869345140000123
其中,参数∈初始化为使求解得到的
Figure BDA0002869345140000124
大于α(W)的2倍以上以利于算法优化。
通过下式对W矩阵进行优化:
Figure BDA0002869345140000125
其中,
Figure BDA0002869345140000126
trace[·]表示矩阵的迹。
Q(W,s)和R(W,s)满足原始对偶拉普拉斯方程组:
(W-sI)TQ(W,s)+Q(W,s)(W-sI)=-2·I (6)
(W-sI)R(W,s)+R(W,s)(W-sI)T=-2·I (7)
因此,可以通过下式更新矩阵W的以实现循环层的动态自稳定:
Figure BDA0002869345140000127
其中,η为学习率常数。
步骤A30,初始化循环神经网络的神经元集群编码层;
在本实施例中,神经元集群编码层B包含N个神经元。设第 i个神经元的偏好方向为θi,θi的值在区间[-π,π]之间通过均匀采样获得。所述神经元的偏好方向这一概念依据神经科学相关研究,即神经元电活动强度,取决于该神经元的偏好方向与生物体意图运动方向间的偏差相关,当意图运动方向与偏好方向一致,该神经元的活动最强。
步骤A40,采用双曲正切函数构建循环神经网络神经元动作电位阈值与频率-电流增益之间的计算关系,作为第一关系;
在本实施例中,神经元动作电位阈值是指引起神经元产生动作电位的最小输入电流值,在本发明中定义为引起神经元产生频率强度为ζ的神经元信号值,其中ζ为一个非常小的正数。
当神经元动作电位阈值降低时,神经元对于弱输入电流也能够产生较强的动作电位输出频率,但受到神经元细胞膜中离子通道数量有限的约束,因此增强幅度存在上限,在本发明中可建模为频率-电流增益增强并逐渐趋近于上界;反之,当神经元动作电位阈值升高时,神经元对于强输入电流也只能够产生较弱的动作电位输出频率,但受到神经元细胞膜两侧存在离子浓度差使离子沿浓度梯度流动,因此减弱幅度存在下限,在本发明中可建模为频率-电流增益减弱并逐渐趋近于下界。综上所述,本发明采用双曲正切函数来建模神经元动作电位阈值与频率-电流增益之间的计算关系,如式(9)所示:
Figure BDA0002869345140000131
其中,
Figure BDA0002869345140000132
为t时刻神经元动作电位阈值,
Figure BDA0002869345140000133
为频率-电流增益,
Figure BDA0002869345140000134
为正常情况下神经元的增益幅度,
Figure BDA0002869345140000135
Figure BDA0002869345140000136
是神经元动作电位阈值的下界,对应于神经元增益上界GU
Figure BDA0002869345140000137
是神经元动作电位阈值的上界,对应于神经元增益下界GL
Figure BDA0002869345140000141
μC=0.5(GU-GL),
Figure BDA0002869345140000142
为了简洁表达,下文中将
Figure BDA0002869345140000143
简写为Gk。
步骤A50,基于所述第一关系、优化的连接矩阵,结合神经元膜电位幅值,构建受增益调控的循环神经网络动力学模型;并利用最小二乘法拟合循环神经网络神经元到输出层的连接权重和偏置常量;
在本实施例中,循环神经网络动力学方程由下列一阶微分方程所定义:
Figure BDA0002869345140000144
其中,xi(t)是时刻t神经元膜电位幅值,
Figure BDA0002869345140000145
表示xi(t)的一阶导数;Wik∈W,i和k为行列号;
Figure BDA0002869345140000146
为受增益调控的神经元发放率函数。
受增益调控的神经元发放率函数具体如式(11)所示:
Figure BDA0002869345140000147
Figure BDA0002869345140000148
其中,
Figure BDA0002869345140000149
为平移量,其计算公式如下:
Figure BDA00028693451400001410
其中,γ为形状因子,其计算公式如下:
Figure BDA00028693451400001411
其中,
Figure BDA00028693451400001412
Figure BDA00028693451400001413
分别为正常情况下神经元动作电位阈值和饱和发放率阈值(即神经元达到最大发放频率rmax时的输入电流阈值)。
另外,网络的输出层将循环层产生的神经元发放频率映射为机器人系统的控制信号ol(t),计算公式如下:
Figure BDA00028693451400001414
其中,Jli是神经元i到输出单元l的连接权重,bl是输出单元l的偏置常量,L是输出层的维度。xi(t)E
Figure BDA0002869345140000151
分别表示兴奋性神经元的神经元膜电位幅值和频率-电流增益。给定一个以θf为运动方向、
Figure BDA0002869345140000152
为控制信号的机器人运动控制演示样本,即训练样本,其中Nc=L为机器人系统的控制维度,NT为控制时长,计算步骤得到网络输出的控制量of。利用最小二乘法计算输出层神经元连接权重向量J和b,使网络输出of拟合演示样本df
步骤A60,获取ND组训练样本;结合神经元的电活动强度,通过所述神经元集群编码层神经元的发放频率对给定的目标运动方向进行编码;编码后,结合所述优化的连接矩阵,计算神经元膜电位幅值,并通过所述受增益调控的循环神经网络动力学模型,得到控制信号,作为预测信号;所述训练样本包括目标位置、目标运动方向及对应的控制信号标签;
在本实施例中,获取包含ND组演示样本的演示样本集,即训练样本。样本集中第i个样本,θi为该样本自运动起始点到运动终点的运动方向,即目标运动方向,yi∈Y为第i个样本运动结束时机器人末端参考点所在位置坐标。即目标位置,di为控制信号标签。
将训练样本输入循环神经网络,结合神经元的电活动强度,通过神经元集群编码层神经元的发放频率对给定的目标运动方向进行编码:
fiT)=rmax·piT)=rmax·exp(K(cos(θTi)-1)) (15)
其中,rmax为神经元的最大发放频率,K是神经元对方向偏差敏感度常数。循环神经网络神经元的初始状态x(t0)=τ·Wf(θT),因此, t时刻的神经元膜电位幅值xi(t),依据下式计算:
xi(t)=τ·WfiT)
将神经元膜电位幅值输入受增益调控的循环神经网络动力学模型,得到控制信号,作为预测信号ol(t)。
步骤A70,计算所述预测信号与控制信号标签的误差,并通过预构建的奖励函数,更新神经元的动作电位阈值以及频率-电流增益;
在本实施例中,计算所预测信号与控制信号标签的误差εi,具体如式(16)所示:
Figure BDA0002869345140000161
其中,
Figure BDA0002869345140000162
NT表示控制周期内控制器l的平均控制。
定义奖励熵来描述系统的训练进度。假设网络每次训练获得的奖励信号为R(t),在一段时间周期内的奖励服从高斯分布,设时间窗口尺度为
Figure BDA00028693451400001610
则奖励序列可以表示为
Figure BDA0002869345140000163
其中,参数均值
Figure BDA0002869345140000164
和参数方差
Figure BDA0002869345140000165
可以利用极大似然估计根据奖励序列
Figure BDA00028693451400001611
计算得到。则奖励熵(即奖励函数)可以通过下式计算:
Figure BDA0002869345140000166
其中,Et表示奖励函数值。
为了防止参数剧烈变化造成学习发散,利用神经网络时间常数对奖励熵进行一阶滤波:
Figure BDA0002869345140000167
其中,
Figure BDA0002869345140000168
表示滤波后的奖励值。
多巴胺激素在大脑中可以通过调节奖励预测误差基线促进生物体的学习能力。因此,本发明中,利用自适应一阶滤波系数模拟多巴胺的作用,建模为奖励熵的函数:
Figure BDA0002869345140000169
其中,αr()是函数符号,βα为常数,
Figure BDA0002869345140000171
计算过程如上述的Ex。定义外部奖励函数为:
Figure BDA0002869345140000172
其中,R(t)为外部奖励值,
Figure BDA0002869345140000173
为预测学习误差,初始化为0,计算如下:
Figure BDA0002869345140000174
去甲肾上腺素具有平衡专注行为与探索行为权重的能力。本发明通过对节点噪声的调制模拟去甲肾上腺素的调制作用:
Figure BDA0002869345140000175
其中,
Figure BDA0002869345140000176
为噪声采样的高斯分布方差,βσ为常数,则添加到阈值调节的噪声信号满足
Figure BDA0002869345140000177
ξ(t)是一个随机数。
血清素对大脑皮层和脊髓神经元增益都有重要的调节作用。本发明将血清素的调节机理建模为奖励信号的近似二元函数:
Figure BDA0002869345140000178
其中,
Figure BDA0002869345140000179
表示奖励信号值,βs为一个比较大的常数,使
Figure BDA00028693451400001710
在算法收敛到较小值是能够解决参数饱和的问题。
综上所述,神经元动作电位阈值可以根据下式进行更新:
Figure BDA00028693451400001711
Irhe(t)=Irhe(t-1)+ΔIrhe(t) (25)
Figure BDA00028693451400001712
其中,
Figure BDA00028693451400001713
表示更新后的神经元动作电位阈值。
神经元的增益系数,即频率-电流增益,可以根据神经元动作电位阈值与频率-电流增益的关系式进行求解,即:
Figure BDA00028693451400001714
步骤A80,循环执行步骤A60、A70,并将训练过程中使误差最小的频率-电流增益
Figure BDA0002869345140000181
和神经元动作电位阈值
Figure BDA0002869345140000182
分别存储增益基元库 GL和电位阈值基元库IL中;
在本实施例中,循环执行步骤A60、A70,当训练达到最大迭代次数或学习误差εi收敛到设定阈值以下时,停止训练,并将训练过程中使学习误差εi最小的频率-电流增益
Figure BDA0002869345140000183
和神经元动作电位阈值
Figure BDA0002869345140000184
存储。
步骤A90,获取机器人新运动的目标位置ynew,并选取ND组训练样本中目标位置距离ynew最近的k个点组成点集
Figure BDA0002869345140000185
计算所述点集
Figure BDA0002869345140000186
各点与ynew之间的欧式距离,将该距离与所有欧氏距离的和的比值作为权重向量;
在本实施例中,设新运动的目标坐标(即目标位置)为ynew,根据训练样本末端参考点(即目标位置)集Y中,选取距离ynew最近的前 k个点组成点集
Figure BDA0002869345140000187
基于点集
Figure BDA0002869345140000188
中各点与新运动目标之间的距离关系,可以根据下式线性表征新运动目标点ynew
Figure BDA0002869345140000189
其中,权重μi根据下式计算:
Figure BDA00028693451400001810
其中,Δyi表示
Figure BDA00028693451400001811
中第i个点yi与ynew之间的欧氏距离。
步骤A100,以所述权重向量为均值计算方差,并通过交叉熵算法从所述均值、方差的采样分布采样ns个候选解;将ns个候选解代入预构建的损失函数中计算损失,并将损失最小的ne个候选解构建精英样本解集;
在本实施例中,以权重向量为初始均值,将方差初始化为一个随机常数,设交叉熵算法的优化目标为:
Figure BDA0002869345140000191
其中,h是通过交叉熵算法采样得到的候选解,
Figure BDA0002869345140000192
为优化目标解空间,
Figure BDA0002869345140000193
为机器人运动控制代价函数,依据控制任务需求设定。
设f(·;v)为优化目标解空间
Figure BDA0002869345140000194
的概率密度函数,v为概率参数向量。本发明采用但不限于高斯分布来描述解空间概率密度,因此参数向量主要包含均值μ和方差σ2。在交叉熵优化的第t次迭代中,算法从均值为μt方差为
Figure BDA0002869345140000195
的采样分布中采样ns个候选解,代入
Figure BDA0002869345140000196
函数计算损失,其中损失最小的ne个候选解构成精英样本解集Ω。则算法的采样分布的参数可利用精英样本解集Ω更新实现迭代优化,采样分布均值的统计估计
Figure BDA0002869345140000197
和采样分布方差的统计估计
Figure BDA0002869345140000198
计算如下:
Figure BDA0002869345140000199
Figure BDA00028693451400001910
其中,
Figure BDA00028693451400001911
是噪声扰动项,用于提升算法探索最优解的能力,其中ξc是初始噪声常量,
Figure BDA00028693451400001912
为衰减系数。第t+1次迭代中使用的采样分布均值μt+1和方差σt+1,利用一阶惯性滤波计算:
Figure BDA00028693451400001913
Figure BDA00028693451400001914
其中,αc为滤波常数。
步骤A110,基于所述精英样本解集中的候选解更新所述均值、方差;更新后跳转步骤A100,直至达到设定的迭代次数或损失小于设定的阈值,并将损失最小对应的候选解作为最优解;
在本实施例中,重复迭代步骤A100,直到损失函数结果小于预设阈值,或迭代次数达到预设上限,输出损失函数最小对应的最优解h*
步骤A120,将所述最优解分别与所述增益基元库中的各频率-电流增益、电位阈值基元库中的各神经元动作电位阈值进行乘积求和,作为最终的频率-电流增益、神经元动作电位阈值,并代入所述受增益调控的循环神经网络动力学模型,作为最终训练好的循环神经网络动力学模型。
在本实施例中,在将所述最优解分别与所述增益基元库中的各频率-电流增益、电位阈值基元库中的各神经元动作电位阈值进行乘积求和,作为最终的频率-电流增益、神经元动作电位阈值,具体如下:
最终的增益模式Gnew依据下式计算:
Figure BDA0002869345140000201
最终的神经元动作电位阈值Inew依据下式计算:
Figure BDA0002869345140000202
将最终的频率-电流增益、神经元动作电位阈值代入受增益调控的循环神经网络动力学模型,作为最终训练好的循环神经网络动力学模型。
2、基于神经元增益基元组合优化的机器人运动控制方法
步骤S10,获取机器人待运动的目标位置及运动方向,作为输入数据;
在本实施例中,获取机器人待运动的目标位置及运动方向。
步骤S20,基于所述输入数据,通过预构建的循环神经网络动力学模型得到对应的控制信号,并控制机器人移动。
在本实施例中,通过上述训练好的循环神经网络动力学模型得到机器人的控制信号,控制机器人移动。
本发明第二实施例的一种基于神经元增益基元组合优化的机器人运动控制系统,如图2所示,具体包括以:获取模块100、识别模块200;
所述获取模块100,配置为获取机器人待运动的目标位置及运动方向,作为输入数据;
所述控制模块200,配置为基于所述输入数据,通过预构建的循环神经网络动力学模型得到对应的控制信号,并控制机器人移动;
其中,所述循环神经网络动力学模型其构建及训练方法为:
步骤A10,初始化循环神经网络的连接矩阵;
步骤A20,基于所述连接矩阵、设定的松弛变量和网络初始状态,构建循环神经网络的能量函数;结合所述连接矩阵中特征值的最大实部、所述能量函数,对所述连接矩阵进行求导优化;
步骤A30,初始化循环神经网络的神经元集群编码层;
步骤A40,采用双曲正切函数构建循环神经网络神经元动作电位阈值与频率-电流增益之间的计算关系,作为第一关系;
步骤A50,基于所述第一关系、优化的连接矩阵,结合神经元膜电位幅值,构建受增益调控的循环神经网络动力学模型;并利用最小二乘法拟合循环神经网络神经元到输出层的连接权重和偏置常量;
步骤A60,获取ND组训练样本;结合神经元的电活动强度,通过所述神经元集群编码层神经元的发放频率对给定的目标运动方向进行编码;编码后,结合所述优化的连接矩阵,计算神经元膜电位幅值,并通过所述受增益调控的循环神经网络动力学模型,得到控制信号,作为预测信号;所述训练样本包括目标位置、目标运动方向及对应的控制信号标签;
步骤A70,计算所述预测信号与控制信号标签的误差,并通过预构建的奖励函数,更新神经元的动作电位阈值以及频率-电流增益;
步骤Ag0,循环执行步骤A60、A70,并将各组训练样本在训练过程中使误差最小的频率-电流增益
Figure BDA0002869345140000211
和神经元动作电位阈值
Figure BDA0002869345140000212
分别存储增益基元库GL和电位阈值基元库IL中;
步骤A90,获取机器人新运动的目标位置ynew,并选取ND组训练样本中目标位置距离ynew最近的k个点组成点集
Figure BDA0002869345140000213
计算所述点集
Figure BDA0002869345140000214
各点与ynew之间的欧式距离,将该距离与所有欧氏距离的和的比值作为权重向量;
步骤A100,以所述权重向量为均值计算方差,并通过交叉熵算法从所述均值、方差的采样分布采样ns个候选解;将ns个候选解代入预构建的损失函数中计算损失,并将损失最小的ne个候选解构建精英样本解集;
步骤A110,基于所述精英样本解集中的候选解更新所述均值、方差;更新后跳转步骤A100,直至达到设定的迭代次数或损失小于设定的阈值,并将损失最小对应的候选解作为最优解;
步骤A120,将所述最优解分别与所述增益基元库中的各频率-电流增益、电位阈值基元库中的各神经元动作电位阈值进行乘积求和,作为最终的频率-电流增益、神经元动作电位阈值,并代入所述受增益调控的循环神经网络动力学模型,作为最终训练好的循环神经网络动力学模型。
所述技术领域的技术人员可以清楚的了解到,为描述的方便和简洁,上述描述的系统具体的工作过程及有关说明,可以参考前述方法实施例中的对应过程,在此不再赘述。
需要说明的是,上述实施例提供的基于神经元增益基元组合优化的机器人运动控制系统,仅以上述各功能模块的划分进行举例说明,在实际应用中,可以根据需要而将上述功能分配由不同的功能模块来完成,即将本发明实施例中的模块或者步骤再分解或者组合,例如,上述实施例的模块可以合并为一个模块,也可以进一步拆分成多个子模块,以完成以上描述的全部或者部分功能。对于本发明实施例中涉及的模块、步骤的名称,仅仅是为了区分各个模块或者步骤,不视为对本发明的不当限定。
本发明第三实施例的一种存储装置,其中存储有多条程序,所述程序适用于由处理器加载并实现上述的基于神经元增益基元组合优化的机器人运动控制方法。
本发明第四实施例的一种处理装置,包括处理器、存储装置;处理器,适于执行各条程序;存储装置,适于存储多条程序;所述程序适用于由处理器加载并执行以实现上述的基于神经元增益基元组合优化的机器人运动控制方法。
所述技术领域的技术人员可以清楚的了解到,未描述的方便和简洁,上述描述的存储装置、处理装置的具体工作过程及有关说明,可以参考前述方法实例中的对应过程,在此不再赘述。
需要说明的是,本申请上述的计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质或者是上述两者的任意组合。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。计算机可读存储介质的更具体的例子可以包括但不限于:具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机访问存储器(RAM)、只读存储器 (ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本申请中,计算机可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。而在本申请中,计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号,其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式,包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读介质,该计算机可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。计算机可读介质上包含的程序代码可以用任何适当的介质传输,包括但不限于:无线、电线、光缆、RF等等,或者上述的任意合适的组合。
可以以一种或多种程序设计语言或其组合来编写用于执行本申请的操作的计算机程序代码,上述程序设计语言包括面向对象的程序设计语言-诸如Java、Smalltalk、C++,还包括常规的过程式程序设计语言-诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中,远程计算机可以通过任意种类的网络——包括局域网(LAN)或广域网(WAN)—连接到用户计算机,或者,可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。
附图中的流程图和框图,图示了按照本申请各种实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分,该模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意,在有些作为替换的实现中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个接连地表示的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合,可以用执行规定的功能或操作的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。
术语“第一”、“第二”等是用于区别类似的对象,而不是用于描述或表示特定的顺序或先后次序。
术语“包括”或者任何其它类似用语旨在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备/装置不仅包括那些要素,而且还包括没有明确列出的其它要素,或者还包括这些过程、方法、物品或者设备/装置所固有的要素。
至此,已经结合附图所示的优选实施方式描述了本发明的技术方案,但是,本领域技术人员容易理解的是,本发明的保护范围显然不局限于这些具体实施方式。在不偏离本发明的原理的前提下,本领域技术人员可以对相关技术特征作出等同的更改或替换,这些更改或替换之后的技术方案都将落入本发明的保护范围之内。

Claims (9)

1.一种基于神经元增益基元组合优化的机器人运动控制方法,其特征在于,该方法包括以下步骤:
步骤S10,获取机器人待运动的目标位置及运动方向,作为输入数据;
步骤S20,基于所述输入数据,通过预构建的循环神经网络动力学模型得到对应的控制信号,并控制机器人移动;
其中,所述循环神经网络动力学模型其构建及训练方法为:
步骤A10,初始化循环神经网络的连接矩阵;
步骤A20,基于所述连接矩阵、设定的松弛变量和网络初始状态,构建循环神经网络的能量函数;结合所述连接矩阵中特征值的最大实部、所述能量函数,对所述连接矩阵进行求导优化;
步骤A30,初始化循环神经网络的神经元集群编码层;
步骤A40,采用双曲正切函数构建循环神经网络神经元动作电位阈值与频率-电流增益之间的计算关系,作为第一关系;
步骤A50,基于所述第一关系、优化的连接矩阵,结合神经元膜电位幅值,构建受增益调控的循环神经网络动力学模型;并利用最小二乘法拟合循环神经网络神经元到输出层的连接权重和偏置常量;
其中,所述受增益调控的循环神经网络动力学模型为:
Figure FDA0003404620110000011
Figure FDA0003404620110000012
其中,xi(t)表示t时刻的神经元膜电位幅值,
Figure FDA0003404620110000013
表示xi(t)的一阶导数,Wik∈W,i和k为行列号,f(xk(t),
Figure FDA0003404620110000014
为受增益调控的神经元发放率函数,
Figure FDA0003404620110000015
为平移量,rmax为神经元的最大发放频率,xk(t)为第k个神经元在时刻t的神经元膜电位幅值,γ表示形状因子,τ表示循环神经网络中设定的时间尺度常量,N表示神经网络循环层所包含的神经元数量,W表示连接矩阵,
Figure FDA0003404620110000021
表示t时刻神经元频率-电流增益,
Figure FDA0003404620110000022
表示t时刻神经元动作电位阈值,t表示时间,T表示转置;
步骤A60,获取ND组训练样本;结合神经元的电活动强度,通过所述神经元集群编码层神经元的发放频率对给定的目标运动方向进行编码;编码后,结合所述优化的连接矩阵,计算神经元膜电位幅值,并通过所述受增益调控的循环神经网络动力学模型,得到控制信号,作为预测信号;所述训练样本包括目标位置、目标运动方向及对应的控制信号标签;
步骤A70,计算所述预测信号与控制信号标签的误差,并通过预构建的奖励函数,更新神经元的动作电位阈值以及频率-电流增益;
步骤A80,循环执行步骤A60、A70,并将各组训练样本在训练过程中使误差最小的频率-电流增益
Figure FDA0003404620110000023
和神经元动作电位阈值
Figure FDA0003404620110000024
分别存储增益基元库GL和电位阈值基元库IL中;
步骤A90,获取机器人新运动的目标位置ynew,并选取ND组训练样本中目标位置距离ynew最近的k个点组成点集
Figure FDA0003404620110000025
计算所述点集
Figure FDA0003404620110000026
各点与ynew之间的欧式距离,将该距离与所有欧氏距离的和的比值作为权重向量;
步骤A100,以所述权重向量为均值计算方差,并通过交叉熵算法从所述均值、方差的采样分布采样ns个候选解;将ns个候选解代入预构建的损失函数中计算损失,并将损失最小的ne个候选解构建精英样本解集;
步骤A110,基于所述精英样本解集中的候选解更新所述均值、方差;更新后跳转步骤A100,直至达到设定的迭代次数或损失小于设定的阈值,并将损失最小对应的候选解作为最优解;
步骤A120,将所述最优解分别与所述增益基元库中的各频率-电流增益、电位阈值基元库中的各神经元动作电位阈值进行乘积求和,作为最终的频率-电流增益、神经元动作电位阈值,并代入所述受增益调控的循环神经网络动力学模型,作为最终训练好的循环神经网络动力学模型。
2.根据权利要求1所述的基于神经元增益基元组合优化的机器人运动控制方法,其特征在于,所述连接矩阵W包含N/2个正数列和N/2个负数列,正数列表示兴奋性神经元,负数列表示抑制性神经元;所述正数列的取值为0或
Figure FDA0003404620110000031
所述负数列的取值为0或
Figure FDA0003404620110000032
Figure FDA0003404620110000033
其中,N表示神经网络循环层所包含的神经元数量,PW表示神经元的连接概率,φ、ρ为设定的常量。
3.根据权利要求2所述的基于神经元增益基元组合优化的机器人运动控制方法,其特征在于,所述能量函数为:
Figure FDA0003404620110000034
其中,ε()表示能量函数,a表示设定的网络初始状态,s表示松弛变量,T表示转置,τ表示循环神经网络中设定的时间尺度常量,t表示时间,I为单位矩阵,Q(W,s)表示矩阵积分项。
4.根据权利要求3所述的基于神经元增益基元组合优化的机器人运动控制方法,其特征在于,步骤A40中“采用双曲正切函数构建循环神经网络神经元动作电位阈值与频率-电流增益之间的计算关系”,其方法为:
Figure FDA0003404620110000035
Figure FDA0003404620110000036
Figure FDA0003404620110000037
μC=0.5(GU-GL)
Figure FDA0003404620110000041
其中,
Figure FDA0003404620110000042
表示t时刻神经元频率-电流增益,
Figure FDA0003404620110000043
表示t时刻神经元动作电位阈值,
Figure FDA0003404620110000044
表示正常情况下神经元的增益幅度,
Figure FDA0003404620110000045
是神经元动作电位阈值的下界,对应于神经元频率-电流增益上界GU
Figure FDA0003404620110000046
是神经元动作电位阈值的上界,对应于神经元频率-电流增益下界GL,ζ表示引起神经元产生神经元信号值的频率强度。
5.根据权利要求4中所述的基于神经元增益基元组合优化的机器人运动控制方法,其特征在于,“结合神经元的电活动强度,通过所述神经元集群编码层神经元的发放频率对给定的目标运动方向进行编码;编码后,结合所述优化的连接矩阵,计算神经元膜电位幅值”,其方法为:
xi(t)=τ·WfiT)
fiT)=rmax·exp(K(cos(θTi)-1))
其中,K表示神经元对方向偏差敏感度常数,θT表示目标运动方向,θi表示神经元的电活动强度。
6.根据权利要求5中所述的基于神经元增益基元组合优化的机器人运动控制方法,其特征在于,步骤A70中“更新神经元的动作电位阈值”,其方法为:
Figure FDA0003404620110000047
Irhe(t)=Irhe(t-1)+ΔIrhe(t)
Figure FDA0003404620110000048
其中,
Figure FDA0003404620110000049
表示t-1时刻、t时刻更新后的神经元动作电位阈值,
Figure FDA00034046201100000410
表示奖励函数值,
Figure FDA00034046201100000411
表示t-1时刻的奖励信号值,ξ(t)为一个随机数。
7.一种基于神经元增益基元组合优化的机器人运动控制系统,其特征在于,该系统包括:获取模块、控制模块;
所述获取模块,配置为获取机器人待运动的目标位置及运动方向,作为输入数据;
所述控制模块,配置为基于所述输入数据,通过预构建的循环神经网络动力学模型得到对应的控制信号,并控制机器人移动;
其中,所述循环神经网络动力学模型其构建及训练方法为:
步骤A10,初始化循环神经网络的连接矩阵;
步骤A20,基于所述连接矩阵、设定的松弛变量和网络初始状态,构建循环神经网络的能量函数;结合所述连接矩阵中特征值的最大实部、所述能量函数,对所述连接矩阵进行求导优化;
步骤A30,初始化循环神经网络的神经元集群编码层;
步骤A40,采用双曲正切函数构建循环神经网络神经元动作电位阈值与频率-电流增益之间的计算关系,作为第一关系;
步骤A50,基于所述第一关系、优化的连接矩阵,结合神经元膜电位幅值,构建受增益调控的循环神经网络动力学模型;并利用最小二乘法拟合循环神经网络神经元到输出层的连接权重和偏置常量;
其中,所述受增益调控的循环神经网络动力学模型为:
Figure FDA0003404620110000051
Figure FDA0003404620110000052
其中,xi(t)表示t时刻的神经元膜电位幅值,
Figure FDA0003404620110000053
表示xi(t)的一阶导数,Wik∈W,i和k为行列号,f(xk(t),
Figure FDA0003404620110000054
为受增益调控的神经元发放率函数,
Figure FDA0003404620110000055
为平移量,rmax为神经元的最大发放频率,xk(t)为第k个神经元在时刻t的神经元膜电位幅值,γ表示形状因子,τ表示循环神经网络中设定的时间尺度常量,N表示神经网络循环层所包含的神经元数量,W表示连接矩阵,
Figure FDA0003404620110000061
表示t时刻神经元频率-电流增益,
Figure FDA0003404620110000062
表示t时刻神经元动作电位阈值,t表示时间,T表示转置;
步骤A60,获取ND组训练样本;结合神经元的电活动强度,通过所述神经元集群编码层神经元的发放频率对给定的目标运动方向进行编码;编码后,结合所述优化的连接矩阵,计算神经元膜电位幅值,并通过所述受增益调控的循环神经网络动力学模型,得到控制信号,作为预测信号;所述训练样本包括目标位置、目标运动方向及对应的控制信号标签;
步骤A70,计算所述预测信号与控制信号标签的误差,并通过预构建的奖励函数,更新神经元的动作电位阈值以及频率-电流增益;
步骤A80,循环执行步骤A60、A70,并将各组训练样本在训练过程中使误差最小的频率-电流增益
Figure FDA0003404620110000063
和神经元动作电位阈值
Figure FDA0003404620110000064
分别存储增益基元库GL和电位阈值基元库IL中;
步骤A90,获取机器人新运动的目标位置ynew,并选取ND组训练样本中目标位置距离ynew最近的k个点组成点集
Figure FDA0003404620110000065
计算所述点集
Figure FDA0003404620110000066
各点与ynew之间的欧式距离,将该距离与所有欧氏距离的和的比值作为权重向量;
步骤A100,以所述权重向量为均值计算方差,并通过交叉熵算法从所述均值、方差的采样分布采样ns个候选解;将ns个候选解代入预构建的损失函数中计算损失,并将损失最小的ne个候选解构建精英样本解集;
步骤A110,基于所述精英样本解集中的候选解更新所述均值、方差;更新后跳转步骤A100,直至达到设定的迭代次数或损失小于设定的阈值,并将损失最小对应的候选解作为最优解;
步骤A120,将所述最优解分别与所述增益基元库中的各频率-电流增益、电位阈值基元库中的各神经元动作电位阈值进行乘积求和,作为最终的频率-电流增益、神经元动作电位阈值,并代入所述受增益调控的循环神经网络动力学模型,作为最终训练好的循环神经网络动力学模型。
8.一种存储装置,其中存储有多条程序,其特征在于,所述程序适用于由处理器加载并执行以实现权利要求1-6任一项所述的基于神经元增益基元组合优化的机器人运动控制方法。
9.一种处理装置,包括处理器、存储装置;处理器,适用于执行各条程序;存储装置,适用于存储多条程序;其特征在于,所述程序适用于由处理器加载并执行以实现权利要求1-6任一项所述的基于神经元增益基元组合优化的机器人运动控制方法。
CN202011591657.1A 2020-12-29 2020-12-29 基于神经元增益基元组合优化的机器人运动控制方法 Active CN112621760B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011591657.1A CN112621760B (zh) 2020-12-29 2020-12-29 基于神经元增益基元组合优化的机器人运动控制方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011591657.1A CN112621760B (zh) 2020-12-29 2020-12-29 基于神经元增益基元组合优化的机器人运动控制方法

Publications (2)

Publication Number Publication Date
CN112621760A CN112621760A (zh) 2021-04-09
CN112621760B true CN112621760B (zh) 2022-02-25

Family

ID=75286042

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011591657.1A Active CN112621760B (zh) 2020-12-29 2020-12-29 基于神经元增益基元组合优化的机器人运动控制方法

Country Status (1)

Country Link
CN (1) CN112621760B (zh)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114872040B (zh) * 2022-04-20 2024-04-16 中国科学院自动化研究所 基于小脑预测与修正的肌肉骨骼机器人控制方法及装置
CN114872042A (zh) * 2022-04-29 2022-08-09 中国科学院自动化研究所 基于临界状态循环网络的肌肉骨骼机器人控制方法及装置

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2002059384A (ja) * 2000-08-22 2002-02-26 Sony Corp ロボットのための学習システム及び学習方法
US9002760B2 (en) * 2012-08-23 2015-04-07 Qualcomm Incorporated Neural system of adaptive behavior
CN106650922B (zh) * 2016-09-29 2019-05-03 清华大学 硬件神经网络转换方法、计算装置、软硬件协作系统
CN109284406B (zh) * 2018-09-03 2021-12-03 四川长虹电器股份有限公司 基于差异循环神经网络的意图识别方法
CN110941183B (zh) * 2019-11-30 2021-09-21 华南理工大学 一种基于神经网络的工业机器人动力学辨识方法

Also Published As

Publication number Publication date
CN112621760A (zh) 2021-04-09

Similar Documents

Publication Publication Date Title
Kahn et al. Plato: Policy learning using adaptive trajectory optimization
Rueckert et al. Recurrent spiking networks solve planning tasks
CN110909859A (zh) 基于对抗结构化控制的仿生机器鱼运动控制方法、系统
CN112621760B (zh) 基于神经元增益基元组合优化的机器人运动控制方法
Higuera et al. Synthesizing neural network controllers with probabilistic model-based reinforcement learning
CN110956148A (zh) 无人车的自主避障方法及装置、电子设备、可读存储介质
CN112405542B (zh) 基于脑启发多任务学习的肌肉骨骼机器人控制方法及系统
Corneil et al. Attractor network dynamics enable preplay and rapid path planning in maze–like environments
Woodford et al. Concurrent controller and simulator neural network development for a differentially-steered robot in evolutionary robotics
CN112731812B (zh) 基于神经元增益调制的机器人运动控制方法、系统、装置
Tanwani Generative models for learning robot manipulation skills from humans
Oliveira et al. Learning to race through coordinate descent bayesian optimisation
Jiang et al. Generative adversarial interactive imitation learning for path following of autonomous underwater vehicle
Burms et al. Reward-modulated Hebbian plasticity as leverage for partially embodied control in compliant robotics
Zeng et al. A basal ganglia network centric reinforcement learning model and its application in unmanned aerial vehicle
CN111531543B (zh) 基于生物启发式神经网络的机器人自适应阻抗控制方法
Waegeman et al. MACOP modular architecture with control primitives
Wang et al. Multitask policy adversarial learning for human-level control with large state spaces
Nygaard et al. Evolving robots on easy mode: Towards a variable complexity controller for quadrupeds
Monfort et al. Asynchronous data aggregation for training end to end visual control networks
Caamaño et al. Introducing synaptic delays in the NEAT algorithm to improve modelling in cognitive robotics
Mori et al. Probabilistic generative modeling and reinforcement learning extract the intrinsic features of animal behavior
Schmidgall et al. Synaptic motor adaptation: A three-factor learning rule for adaptive robotic control in spiking neural networks
Ganesh et al. Deep reinforcement learning for simulated autonomous driving
Galashov et al. Importance weighted policy learning and adaptation

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant