CN107341543B - 一种基于强化学习的小脑模型建模方法 - Google Patents
一种基于强化学习的小脑模型建模方法 Download PDFInfo
- Publication number
- CN107341543B CN107341543B CN201710461371.3A CN201710461371A CN107341543B CN 107341543 B CN107341543 B CN 107341543B CN 201710461371 A CN201710461371 A CN 201710461371A CN 107341543 B CN107341543 B CN 107341543B
- Authority
- CN
- China
- Prior art keywords
- state
- sub
- cerebellum
- basic unit
- formula
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 210000001638 cerebellum Anatomy 0.000 title claims abstract description 92
- 238000000034 method Methods 0.000 title claims abstract description 38
- 230000002787 reinforcement Effects 0.000 title claims abstract description 13
- 239000000835 fiber Substances 0.000 claims abstract description 56
- 239000012636 effector Substances 0.000 claims abstract description 38
- 230000006870 function Effects 0.000 claims abstract description 21
- 230000009194 climbing Effects 0.000 claims abstract description 13
- 230000008569 process Effects 0.000 claims abstract description 12
- 230000007246 mechanism Effects 0.000 claims abstract description 7
- 210000000449 purkinje cell Anatomy 0.000 claims description 42
- 230000006399 behavior Effects 0.000 claims description 18
- 210000001130 astrocyte Anatomy 0.000 claims description 12
- 210000001084 basket cell Anatomy 0.000 claims description 12
- 210000000225 synapse Anatomy 0.000 claims description 12
- 230000002490 cerebral effect Effects 0.000 claims description 9
- 230000033001 locomotion Effects 0.000 claims description 9
- 230000000946 synaptic effect Effects 0.000 claims description 9
- 230000002401 inhibitory effect Effects 0.000 claims description 6
- 239000012528 membrane Substances 0.000 claims description 6
- NAWXUBYGYWOOIX-SFHVURJKSA-N (2s)-2-[[4-[2-(2,4-diaminoquinazolin-6-yl)ethyl]benzoyl]amino]-4-methylidenepentanedioic acid Chemical compound C1=CC2=NC(N)=NC(N)=C2C=C1CCC1=CC=C(C(=O)N[C@@H](CC(=C)C(O)=O)C(O)=O)C=C1 NAWXUBYGYWOOIX-SFHVURJKSA-N 0.000 claims description 3
- 230000004913 activation Effects 0.000 claims description 3
- 210000004027 cell Anatomy 0.000 claims description 3
- 230000007613 environmental effect Effects 0.000 claims description 3
- 238000013507 mapping Methods 0.000 claims description 3
- 230000028161 membrane depolarization Effects 0.000 claims description 3
- 210000000118 neural pathway Anatomy 0.000 claims description 3
- 230000010004 neural pathway Effects 0.000 claims description 3
- 238000012797 qualification Methods 0.000 claims description 3
- 230000002336 repolarization Effects 0.000 claims description 3
- 230000008054 signal transmission Effects 0.000 claims description 3
- 210000003198 cerebellar cortex Anatomy 0.000 claims description 2
- 230000009466 transformation Effects 0.000 claims description 2
- 230000008859 change Effects 0.000 claims 1
- 230000000694 effects Effects 0.000 abstract description 4
- 210000002569 neuron Anatomy 0.000 abstract description 4
- 210000000653 nervous system Anatomy 0.000 abstract description 3
- 238000005094 computer simulation Methods 0.000 abstract description 2
- 230000001537 neural effect Effects 0.000 abstract description 2
- 238000010586 diagram Methods 0.000 description 3
- 206010008025 Cerebellar ataxia Diseases 0.000 description 2
- 238000013459 approach Methods 0.000 description 2
- 210000001767 medulla oblongata Anatomy 0.000 description 2
- 241000124008 Mammalia Species 0.000 description 1
- 210000003484 anatomy Anatomy 0.000 description 1
- 238000013528 artificial neural network Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 210000003710 cerebral cortex Anatomy 0.000 description 1
- 210000004720 cerebrum Anatomy 0.000 description 1
- 238000012512 characterization method Methods 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 238000003745 diagnosis Methods 0.000 description 1
- 239000003814 drug Substances 0.000 description 1
- 230000003902 lesion Effects 0.000 description 1
- 210000001259 mesencephalon Anatomy 0.000 description 1
- 230000003387 muscular Effects 0.000 description 1
- 210000000056 organ Anatomy 0.000 description 1
- 230000035479 physiological effects, processes and functions Effects 0.000 description 1
- 108091008706 proprioceptors Proteins 0.000 description 1
- 230000004044 response Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/06—Physical realisation, i.e. hardware implementation of neural networks, neurons or parts of neurons
- G06N3/063—Physical realisation, i.e. hardware implementation of neural networks, neurons or parts of neurons using electronic means
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/044—Recurrent networks, e.g. Hopfield networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Life Sciences & Earth Sciences (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- General Health & Medical Sciences (AREA)
- General Physics & Mathematics (AREA)
- Evolutionary Computation (AREA)
- Computational Linguistics (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- General Engineering & Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Artificial Intelligence (AREA)
- Neurology (AREA)
- Manipulator (AREA)
- Complex Calculations (AREA)
Abstract
本发明属于神经工程与生物信息系统建模技术领域,一种基于强化学习的小脑模型建模方法,包括以下步骤:(1)建立小脑模型的基本结构,(2)根据效应器的状态信息,计算各个基本单元中的平行纤维状态,(3)计算各个基本单元的输出,从而得到小脑模块输出命令,(4)执行小脑模块学习功能。本发明以小脑自身的解剖学与生理学特性为出发点,在神经元水平上模拟、复制小脑的神经系统的结构与功能,解决了现有的许多小脑建模方法追求控制效果而忽略小脑本身特性的弊端。同时,将强化学习方法作为小脑学习过程所采取的机制能够很好地体现小脑学习过程中攀爬纤维放电的“全”或“无”的特点,使建立的小脑模型更具有生物的合理性。
Description
技术领域
本发明渉及一种基于强化学习的小脑模型建模方法,属于神经工程与生物信息系统建模技术领域。
背景技术
人的小脑位于大脑半球后方,覆盖在脑桥及延髓之上,横跨在中脑和延髓之间,具有协调运动的功能。在协调运动过程中,小脑不仅会接收大脑皮层的运动命令并传递给脊髓肌肉系统,同时也会接收本体感受器的反馈信息,对部分运动命令进行实时的调整。凭借这种功能机理,哺乳动物能够实现对躯体以及四肢快速、稳定、准确地控制,其理想的控制效果一直是各种控制方法所追求的目标。因此,对于控制学领域而言,深入了解小脑的解剖学和生理学特性,探索其功能机理,并以此为基础建立小脑模型,无疑会为控制理论的发展提供新的思路。另一方面,小脑性共济失调因其病变部位和诱因的不同而种类繁多,对其的诊断与治疗一直是临床上的一大难题。建立小脑模型,在模型的基础上建立小脑性共济失调的表征,可以为临床提供新的参考,所得的结果也具有普适性和可移植性,在医学领域具有重大的价值。
基于以上目的,多年来医学与控制学相关领域的众多学者进行了相关的探索,建立了多种小脑模型,如Albus依据小脑皮层不同分区具有不同功能的特性及小脑所具有的学习功能,提出了小脑关联控制器模型;Kawato将小脑比作一种可模拟运动器官输入输出特性的系统,提出了小脑内部模型等。现有的建模方法主要集中在对健康小脑的功能表达方面,通常用以实现机器人系统或简单手臂的协调运动控制。这样的建模方法主要关心的是系统的可行性,实现的复杂程度和控制的效果等因素,因而在建模时会对小脑内部结构进行大量的简化甚至会忽略其内部生理学信息。此外,现有小脑模型的学习过程通常采用监督学习方式,认为攀爬纤维传递具有指导性的误差信号,与其放电的“全”或“无”特性不符。针对以上问题,需要从小脑解剖学和生理学角度出发,利用控制学相关原理,从微观结构与机制的角度,模拟和复制其功能,建立能够表达其自身特性的小脑模型。
发明内容
为了克服现有技术存在的不足,本发明目的是提供一种基于强化学习的小脑模型建模方法。本发明利用神经网络等相关控制方法,在神经元层次上对小脑的结构以及功能等进行表达以体现小脑的自身特性,同时,采用基于强化学习机制的学习过程比较符合攀爬纤维的放电特性,从而使建立的小脑模型更具有生物合理性。
为了实现上述发明目的,解决已有技术中所存在的问题,本发明采取的技术方案是:一种基于强化学习的小脑模型建模方法,包括以下步骤:
步骤A、建立小脑模型的基本结构,基于小脑皮层的匀质结构特性,使用具有相同结构的p个基本单元的阵列来建立小脑模型的总体结构,p表示基本单元的数量,每个基本单元接收相同的输入信息,随后进入步骤B;
步骤B、根据效应器的状态信息,计算各个基本单元中平行纤维的状态,具体包括以下子步骤:
子步骤B1、将效应器的状态空间进行均匀划分,划分的数量与每个基本单元中平行纤维的数量m相同,每条平行纤维对应一个状态空间区域;
子步骤B2、根据效应器所处的状态,确定第k个基本单元中的平行纤维的状态值xki,其值具有二值性,用“0”表示抑制状态,“1”表示激活状态,当效应器的状态位于第i条平行纤维对应的状态空间区域时,则xki赋值为1,其中,k=1,2,…p,i=1,2,…m,i表示第i条平行纤维,然后进入步骤C;
步骤C、计算各个基本单元的输出命令,从而得到小脑模块输出命令,具体包括以下子步骤:
子步骤C1、计算第k个基本单元的网状结构输出,此基本单元中各个浦肯野细胞的状态值为ykj,其值随时间改变,j=1,2,…n,n表示浦肯野细胞数目,具体包括以下子步骤:
子步骤C11、利用公式(1)计算第k个基本单元中第j个浦肯野细胞在t时刻的膜电位值qkj(t),
式中,wkij表示第i条平行纤维与第j个浦肯野细胞形成的突触的记忆权值,由于该类突触为小脑学习记忆的载体,因此wkij设为可调,其初始值设为1,小脑模块的输出通过调整其值大小来改变;表示篮细胞与第j个浦肯野细胞形成的突触的权值,表示星形细胞与第j个浦肯野细胞形成的突触的权值,由于篮细胞和星形细胞对浦肯野细胞产生抑制作用,其值皆为负值,以上两权值均为固定值,都设为-0.1,bkj表示与第j个浦肯野细胞相连的篮细胞的状态值,sk表示星形细胞的状态,篮细胞与星形细胞在执行过程中始终保持激活状态,因此其值皆恒定为1;
子步骤C12、浦肯野细胞的状态具有二值性,用“0”表示抑制状态,“1”表示激活状态,结合子步骤C11计算得到的qkj(t),利用公式(2)、(3)计算在t时刻时第k个基本单元中第j个浦肯野细胞的状态值,
对于初始时刻,t=1时,
当t>1时,ykj(t)还与上一时刻ykj(t-1)的值相关,赋值方法为,
式中,φ、η分别为浦肯野细胞膜电位的去极化和复极化的阈值,为固定常数,且φ>η,设定φ=1,η=0.8;
子步骤C2、根据反馈环路loop状态与基本单元中的浦肯野细胞的状态,计算各个基本单元输出,loop具有两种状态,即on与off状态,二者转化的条件为:当小脑模块开始执行命令输出时,loop由off转变为on状态;而当基本单元中的所有的PC都处于激活状态时,loop由on转变为off状态,根据loop不同状态,利用公式(4)计算第k个基本单元的输出命令Ok(t),
式中,γ表示命令调整系数,设为常数,则在t时刻小脑模块的输出命令为O(t)=[O1(t),O2(t),…Op(t)],若O(t)为零向量,则执行步骤D,即完成一次小脑模块命令的输出,否则执行子步骤C3;
子步骤C3、根据权值调整公式,计算当前小脑模块记忆信息对应的控制命令输出,具体包括以下子步骤:
子步骤C31、根据权值调整公式(5),调整第k个基本单元在t+1时刻的平行纤维和浦肯野细胞形成的突触记忆权值wkij(t+1)的大小,
式中,λ为调整系数,设为常数,Δwkij(t)为在t时刻时平行纤维和浦肯野细胞形成的突触记忆权值的变化量,wkij(t)表示在t时刻平行纤维和浦肯野细胞形成的突触记忆权值;
子步骤C32、根据t时刻的小脑模块输出命令O(t)和小脑命令到效应器运动控制命令的映射关系F,利用公式(6)计算t+1时刻效应器的状态,
式中,ΔM(t)表示t时刻小脑命令控制效应器运动而产生的状态的调整值,M(t)表示t时刻效应器的状态,M(t+1)表示t+1时刻效应器的状态,随后再次执行子步骤B2;
步骤D、执行小脑模块学习功能,通过调整小脑模块的记忆权值,进而改变小脑模块的命令输出,若小脑模块首次进入学习过程,则执行子步骤D1,否则,执行子步骤D2;
子步骤D1、设定基于强化学习机制的小脑模型的相关要素的初始值,具体包括以下子步骤:
子步骤D11、设定所有平行纤维的状态值函数V的初始值均为1,其中,当平行纤维所处的状态为S时,其值函数可表示为VS;
子步骤D12、制定初始条件下,行为选择的策略为π(a),其具体内容为:在不同状态下,选择各个行为a的概率相同;其中,行为a表示选择一个基本单元激活,同时,每个基本单元激活都产生一个模值相同的基本单元输出命令Ok';
子步骤D2、计算效应器的状态与期望值的误差,若在预先设定的允许范围之内,则建模完成,否则执行子步骤D3;
子步骤D3、判定对应基本单元的攀爬纤维的状态,具体包括以下子步骤:
子步骤D31、根据步骤B,确定在t时刻各个基本单元中平行纤维的状态S(t),并计算状态值函数VS(t);
子步骤D32、根据当前策略π(a),选择t时刻的行为a(t),并得到小脑模块的输出命令O',其中,O'=[0,0,…,Ok',0,…],根据公式(6),可得到效应器的状态信息,再次根据步骤B,确定在t+1时刻各个基本单元中平行纤维的状态S(t+1),并计算状态值函数VS(t+1);同时,根据公式(7)计算环境反馈的奖惩值,
式中,r(t+1)表示在t+1时刻的奖惩值;
子步骤D33、根据公式(8)计算在t时刻的TD误差δ(t),
δ(t)=r(t+1)+VS(t)-VS(t+1) (8)
子步骤D34、根据公式(9)修改行为选择策略,
式中,pr(S,a)表示在状态S下,选择行为a的倾向性,β为常值系数;
子步骤D35、根据公式(10)确定对应基本单元的攀爬纤维的状态,
式中,ck表示激活对应基本单元的攀爬纤维状态值;
子步骤D4、根据公式(11),对小脑模块第k个基本单元中的每个PF-PC初始权值wkij(1)进行调整,
wkij(1)=wkij(1)-σ·ck·xkj·ekj(τ) (11)
式中,σ表示学习系数,τ为信号在神经通路上传导的时延,ekj(t)为第k个基本单元中的第j个PF所对应的资格迹,可通过下式进行描述,
子步骤D5、若VS(t+1)≥VS(t),则执行子步骤D2,否则,将效应器恢复到初始状态,将t重置为1,执行子步骤B2。
本发明有益效果是:一种基于强化学习的小脑模型建模方法,包括以下步骤:(1)建立小脑模型的基本结构,(2)根据效应器的状态信息,计算各个基本单元中的平行纤维状态,(3)计算各个基本单元的输出,从而得到小脑模块输出命令,(4)执行小脑模块学习功能。与已有技术相比,本发明以小脑自身的解剖学与生理学特性为出发点,在神经元水平上模拟、复制小脑的神经系统的结构与功能,解决了现有的许多小脑建模方法追求控制效果而忽略小脑本身特性的弊端。同时,将强化学习方法作为小脑学习过程所采取的机制能够很好地体现小脑学习过程中攀爬纤维放电的“全”或“无”的特点,使建立的小脑模型更具有生物的合理性。
附图说明
图1是本发明方法步骤流程图。
图2是本发明方法的小脑模型结构框图。
图3是本发明方法的小脑模型中的基本单元结构图。
图4是本发明方法的小脑模型控制效应器运动总体框图。
具体实施方式
下面结合附图对本发明作进一步说明。
如图1所示,一种基于强化学习的小脑模型建模方法,包括以下步骤:
步骤A、建立小脑模型的基本结构,如图2所示,基于小脑皮层的匀质结构特性,使用具有相同结构的p个基本单元的阵列来建立小脑模型的总体结构,p表示基本单元的数量,每个基本单元接收相同的输入信息,如图3所示,随后进入步骤B;
步骤B、根据效应器的状态信息,计算各个基本单元中平行纤维的状态,具体包括以下子步骤:
子步骤B1、将效应器的状态空间进行均匀划分,划分的数量与每个基本单元中平行纤维的数量m相同,每条平行纤维对应一个状态空间区域;
子步骤B2、根据效应器所处的状态,确定第k个基本单元中的平行纤维的状态值xki,其值具有二值性,用“0”表示抑制状态,“1”表示激活状态,当效应器的状态位于第i条平行纤维对应的状态空间区域时,则xki赋值为1,其中,k=1,2,…p,i=1,2,…m,i表示第i条平行纤维,然后进入步骤C;
步骤C、计算各个基本单元的输出命令,从而得到小脑模块输出命令,具体包括以下子步骤:
子步骤C1、计算第k个基本单元的网状结构输出,此基本单元中各个浦肯野细胞的状态值为ykj,其值随时间改变,j=1,2,…n,n表示浦肯野细胞数目,具体包括以下子步骤:
子步骤C11、利用公式(1)计算第k个基本单元中第j个浦肯野细胞在t时刻的膜电位值qkj(t),
式中,wkij表示第i条平行纤维与第j个浦肯野细胞形成的突触的记忆权值,由于该类突触为小脑学习记忆的载体,因此wkij设为可调,其初始值设为1,小脑模块的输出通过调整其值大小来改变;表示表示篮细胞与第j个浦肯野细胞形成的突触的权值,表示星形细胞与第j个浦肯野细胞形成的突触的权值,由于篮细胞和星形细胞对浦肯野细胞产生抑制作用,其值皆为负值,以上两权值均为固定值,都设为-0.1,bkj表示与第j个浦肯野细胞相连的篮细胞的状态值,sk表示星形细胞的状态,篮细胞与星形细胞在执行过程中始终保持激活状态,因此其值皆恒定为1;
子步骤C12、浦肯野细胞的状态具有二值性,用“0”表示抑制状态,“1”表示激活状态,结合子步骤C11计算得到的qkj(t),利用公式(2)、(3)计算在t时刻时第k个基本单元中第j个浦肯野细胞的状态值,
对于初始时刻,t=1时,
当t>1时,ykj(t)还与上一时刻ykj(t-1)的值相关,赋值方法为,
式中,φ、η分别为浦肯野细胞膜电位的去极化和复极化的阈值,为固定常数,且φ>η,设定φ=1,η=0.8;
子步骤C2、根据反馈环路(loop)状态与基本单元中的浦肯野细胞的状态,计算各个基本单元输出,loop具有两种状态,即on与off状态,二者转化的条件为:当小脑模块开始执行命令输出时,loop由off转变为on状态;而当基本单元中的所有的PC都处于激活状态时,loop由on转变为off状态,根据loop不同状态,利用公式(4)计算第k个基本单元的输出命令Ok(t),
式中,γ表示命令调整系数,设为常数,则在t时刻小脑模块的输出命令为O(t)=[O1(t),O2(t),…Op(t)],若O(t)为零向量,则执行步骤D,即完成一次小脑模块命令的输出,否则执行子步骤C3;
子步骤C3、根据权值调整公式,计算当前小脑模块记忆信息对应的控制命令输出,具体包括以下子步骤:
子步骤C31、根据权值调整公式(5),调整第k个基本单元在t+1时刻的平行纤维和浦肯野细胞形成的突触记忆权值wkij(t+1)的大小,
式中,λ为调整系数,设为常数,Δwkij(t)为在t时刻时平行纤维和浦肯野细胞形成的突触记忆权值的变化量,wkij(t)表示在t时刻平行纤维和浦肯野细胞形成的突触记忆权值;
子步骤C32、根据t时刻的小脑模块输出命令O(t)和小脑命令到效应器运动控制命令的映射关系F,利用公式(6)计算t+1时刻效应器的状态,
式中,ΔM(t)表示t时刻小脑命令控制效应器运动而产生的状态的调整值,M(t)表示t时刻效应器得状态,M(t+1)表示t+1时刻效应器的状态,随后再次执行子步骤B2;
步骤D、执行小脑模块学习功能,通过调整小脑模块的记忆权值,进而改变小脑模块的命令输出,若小脑模块首次进入学习过程,则执行子步骤D1,否则,执行子步骤D2;
子步骤D1、设定基于强化学习机制的小脑模型的相关要素的初始值,具体包括以下子步骤:
子步骤D11、设定所有平行纤维的状态值函数V的初始值均为1,其中,当平行纤维所处的状态为S时,其值函数可表示为VS;
子步骤D12、制定初始条件下,行为选择的策略为π(a),其具体内容为:在不同状态下,选择各个行为a的概率相同;其中,行为a表示选择一个基本单元激活,同时,每个基本单元激活都产生一个模值相同的基本单元输出命令Ok';
子步骤D2、计算效应器的状态与期望值的误差,若在预先设定的允许范围之内,则建模完成,否则执行子步骤D3;
子步骤D3、判定对应基本单元的攀爬纤维的状态,具体包括以下子步骤:
子步骤D31、根据步骤B,确定在t时刻各个基本单元中平行纤维的状态S(t),并计算状态值函数VS(t);
子步骤D32、根据当前策略π(a),选择t时刻的行为a(t),并得到小脑模块的输出命令O',其中,O'=[0,0,…,Ok',0,…],根据公式(6),可得到效应器的状态信息,再次根据步骤B,确定在t+1时刻各个基本单元中平行纤维的状态S(t+1),并计算状态值函数VS(t+1);同时,根据公式(7)计算环境反馈的奖惩值,
式中,r(t+1)表示在t+1时刻的奖惩值;
子步骤D33、根据公式(8)计算在t时刻的TD误差δ(t),
δ(t)=r(t+1)+VS(t)-VS(t+1) (19)
子步骤D34、根据公式(9)修改行为选择策略,
式中,pr(S,a)表示在状态S下,选择行为a的倾向性,β为常值系数;
子步骤D35、根据公式(10)确定对应基本单元的攀爬纤维的状态,
式中,ck表示激活对应基本单元的攀爬纤维状态值;
子步骤D4、根据公式(11),对小脑模块第k个基本单元中的每个PF-PC初始权值wkij(1)进行调整,
wkij(1)=wkij(1)-σ·ck·xkj·ekj(τ) (22)
式中,σ表示学习系数,τ为信号在神经通路上传导的时延,ekj(t)为第k个基本单元中的第j个PF所对应的资格迹,
子步骤D5、若VS(t+1)≥VS(t),则执行子步骤D2,否则,将效应器恢复到初始状态,将t重置为1,执行子步骤B2。
本发明优点在于:一种基于强化学习的小脑模型建模方法,是以小脑自身的解剖学与生理学特性为出发点,在神经元水平上模拟、复制小脑的神经系统的结构与功能,解决了现有的许多小脑建模方法追求控制效果而忽略小脑本身特性的弊端。同时,将强化学习方法作为小脑学习过程所采取的机制能够很好地体现小脑学习过程中攀爬纤维放电的“全”或“无”的特点,使建立的小脑模型更具有生物的合理性。
Claims (1)
1.一种基于强化学习的小脑模型建模方法,其特征在于包括以下步骤:
步骤A、建立小脑模型的基本结构,基于小脑皮层的匀质结构特性,使用具有相同结构的p个基本单元的阵列来建立小脑模型的总体结构,p表示基本单元的数量,每个基本单元接收相同的输入信息,随后进入步骤B;
步骤B、根据效应器的状态信息,计算各个基本单元中平行纤维的状态,具体包括以下子步骤:
子步骤B1、将效应器的状态空间进行均匀划分,划分的数量与每个基本单元中平行纤维的数量m相同,每条平行纤维对应一个状态空间区域;
子步骤B2、根据效应器所处的状态,确定第k个基本单元中的平行纤维的状态值xki,其值具有二值性,用“0”表示抑制状态,“1”表示激活状态,当效应器的状态位于第i条平行纤维对应的状态空间区域时,则xki赋值为1,其中,k=1,2,…p,i=1,2,…m,i表示第i条平行纤维,然后进入步骤C;
步骤C、计算各个基本单元的输出命令,从而得到小脑模块输出命令,具体包括以下子步骤:
子步骤C1、计算第k个基本单元的网状结构输出,此基本单元中各个浦肯野细胞的状态值为ykj,其值随时间改变,j=1,2,…n,n表示浦肯野细胞数目,具体包括以下子步骤:
子步骤C11、利用公式(1)计算第k个基本单元中第j个浦肯野细胞在t时刻的膜电位值qkj(t),
式中,wkij表示第i条平行纤维与第j个浦肯野细胞形成的突触的记忆权值,由于该类突触为小脑学习记忆的载体,因此wkij设为可调,其初始值设为1,小脑模块的输出通过调整其值大小来改变;θkj表示篮细胞与第j个浦肯野细胞形成的突触的权值,表示星形细胞与第j个浦肯野细胞形成的突触的权值,由于篮细胞和星形细胞对浦肯野细胞产生抑制作用,其值皆为负值,以上两权值均为固定值,都设为-0.1,bkj表示与第j个浦肯野细胞相连的篮细胞的状态值,sk表示星形细胞的状态,篮细胞与星形细胞在执行过程中始终保持激活状态,因此其值皆恒定为1;
子步骤C12、浦肯野细胞的状态具有二值性,用“0”表示抑制状态,“1”表示激活状态,结合子步骤C11计算得到的qkj(t),利用公式(2)、(3)计算在t时刻时第k个基本单元中第j个浦肯野细胞的状态值,
对于初始时刻,t=1时,
当t>1时,ykj(t)还与上一时刻ykj(t-1)的值相关,赋值方法为,
式中,φ、η分别为浦肯野细胞膜电位的去极化和复极化的阈值,为固定常数,且φ>η,设定φ=1,η=0.8;
子步骤C2、根据反馈环路loop状态与基本单元中的浦肯野细胞的状态,计算各个基本单元输出,loop具有两种状态,即on与off状态,二者转化的条件为:当小脑模块开始执行命令输出时,loop由off转变为on状态;而当基本单元中的所有的PC都处于激活状态时,loop由on转变为off状态,根据loop不同状态,利用公式(4)计算第k个基本单元的输出命令Ok(t),
式中,γ表示命令调整系数,设为常数,则在t时刻小脑模块的输出命令为O(t)=[O1(t),O2(t),…Op(t)],若O(t)为零向量,则执行步骤D,即完成一次小脑模块命令的输出,否则执行子步骤C3;
子步骤C3、根据权值调整公式,计算当前小脑模块记忆信息对应的控制命令输出,具体包括以下子步骤:
子步骤C31、根据权值调整公式(5),调整第k个基本单元在t+1时刻的平行纤维和浦肯野细胞形成的突触记忆权值wkij(t+1)的大小,
式中,λ为调整系数,设为常数,Δwkij(t)为在t时刻时平行纤维和浦肯野细胞形成的突触记忆权值的变化量,wkij(t)表示在t时刻平行纤维和浦肯野细胞形成的突触记忆权值;
子步骤C32、根据t时刻的小脑模块输出命令O(t)和小脑命令到效应器运动控制命令的映射关系F,利用公式(6)计算t+1时刻效应器的状态,
式中,ΔM(t)表示t时刻小脑命令控制效应器运动而产生的状态的调整值,M(t)表示t时刻效应器的状态,M(t+1)表示t+1时刻效应器的状态,随后再次执行子步骤B2;
步骤D、执行小脑模块学习功能,通过调整小脑模块的记忆权值,进而改变小脑模块的命令输出,若小脑模块首次进入学习过程,则执行子步骤D1,否则,执行子步骤D2;
子步骤D1、设定基于强化学习机制的小脑模型的相关要素的初始值,具体包括以下子步骤:
子步骤D11、设定所有平行纤维的状态值函数V的初始值均为1,其中,当平行纤维所处的状态为S时,其值函数可表示为VS;
子步骤D12、制定初始条件下,行为选择的策略为π(a),其具体内容为:在不同状态下,选择各个行为a的概率相同;其中,行为a表示选择一个基本单元激活,同时,每个基本单元激活都产生一个模值相同的基本单元输出命令Ok';
子步骤D2、计算效应器的状态与期望值的误差,若在预先设定的允许范围之内,则建模完成,否则执行子步骤D3;
子步骤D3、判定对应基本单元的攀爬纤维的状态,具体包括以下子步骤:
子步骤D31、根据步骤B,确定在t时刻各个基本单元中平行纤维的状态S(t),并计算状态值函数VS(t);
子步骤D32、根据当前策略π(a),选择t时刻的行为a(t),并得到小脑模块的输出命令O',其中,O'=[0,0,…,Ok',0,…],根据公式(6),可得到效应器的状态信息,再次根据步骤B,确定在t+1时刻各个基本单元中平行纤维的状态S(t+1),并计算状态值函数VS(t+1);同时,根据公式(7)计算环境反馈的奖惩值,
式中,r(t+1)表示在t+1时刻的奖惩值;
子步骤D33、根据公式(8)计算在t时刻的TD误差δ(t),
δ(t)=r(t+1)+VS(t)-VS(t+1) (8)
子步骤D34、根据公式(9)修改行为选择策略,
pr(S,a)=pr(S,a)+βδ(t)
式中,pr(S,a)表示在状态S下,选择行为a的倾向性,β为常值系数;
子步骤D35、根据公式(10)确定对应基本单元的攀爬纤维的状态,
式中,ck表示激活对应基本单元的攀爬纤维状态值;
子步骤D4、根据公式(11),对小脑模块第k个基本单元中的每个PF-PC初始权值wkij(1)进行调整,
wkij(1)=wkij(1)-σ·ck·xkj·ekj(τ) (11)
式中,σ表示学习系数,τ为信号在神经通路上传导的时延,ekj(t)为第k个基本单元中的第j个PF所对应的资格迹,可通过下式进行描述,
子步骤D5、若VS(t+1)≥VS(t),则执行子步骤D2,否则,将效应器恢复到初始状态,将t重置为1,执行子步骤B2。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710461371.3A CN107341543B (zh) | 2017-06-18 | 2017-06-18 | 一种基于强化学习的小脑模型建模方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710461371.3A CN107341543B (zh) | 2017-06-18 | 2017-06-18 | 一种基于强化学习的小脑模型建模方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN107341543A CN107341543A (zh) | 2017-11-10 |
CN107341543B true CN107341543B (zh) | 2020-09-29 |
Family
ID=60219970
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201710461371.3A Active CN107341543B (zh) | 2017-06-18 | 2017-06-18 | 一种基于强化学习的小脑模型建模方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN107341543B (zh) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112060082B (zh) * | 2020-08-19 | 2021-10-15 | 大连理工大学 | 基于仿生强化学习型小脑模型的在线稳定控制仿人机器人 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101390100A (zh) * | 2005-12-28 | 2009-03-18 | 神经科学研究基金会 | 具有用于预示性运动神经控制的小脑模型的基于脑的设备 |
US7539549B1 (en) * | 1999-09-28 | 2009-05-26 | Rockwell Automation Technologies, Inc. | Motorized system integrated control and diagnostics using vibration, pressure, temperature, speed, and/or current analysis |
CN102525795A (zh) * | 2012-01-16 | 2012-07-04 | 沈阳理工大学 | 一种足部按摩机器人快速自动定位方法 |
US8868221B1 (en) * | 2008-08-22 | 2014-10-21 | Marvell International Ltd. | Adaptive neural net feed forward system and method for adaptive control of mechanical systems |
CN105690392A (zh) * | 2016-04-14 | 2016-06-22 | 苏州大学 | 基于行动者-评论家方法的机器人运动控制方法和装置 |
-
2017
- 2017-06-18 CN CN201710461371.3A patent/CN107341543B/zh active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US7539549B1 (en) * | 1999-09-28 | 2009-05-26 | Rockwell Automation Technologies, Inc. | Motorized system integrated control and diagnostics using vibration, pressure, temperature, speed, and/or current analysis |
CN101390100A (zh) * | 2005-12-28 | 2009-03-18 | 神经科学研究基金会 | 具有用于预示性运动神经控制的小脑模型的基于脑的设备 |
US8868221B1 (en) * | 2008-08-22 | 2014-10-21 | Marvell International Ltd. | Adaptive neural net feed forward system and method for adaptive control of mechanical systems |
CN102525795A (zh) * | 2012-01-16 | 2012-07-04 | 沈阳理工大学 | 一种足部按摩机器人快速自动定位方法 |
CN105690392A (zh) * | 2016-04-14 | 2016-06-22 | 苏州大学 | 基于行动者-评论家方法的机器人运动控制方法和装置 |
Also Published As
Publication number | Publication date |
---|---|
CN107341543A (zh) | 2017-11-10 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108284442B (zh) | 一种基于模糊神经网络的机械臂柔性关节控制方法 | |
Ashby et al. | A tutorial on computational cognitive neuroscience: Modeling the neurodynamics of cognition | |
CN106472332A (zh) | 基于动态智能算法的宠物喂养方法及系统 | |
CN111612125A (zh) | 一种面向在线学习的新型htm时间池方法及其系统 | |
CN107742151A (zh) | 一种中医脉象的神经网络模型训练方法 | |
CN107341543B (zh) | 一种基于强化学习的小脑模型建模方法 | |
CN108372506B (zh) | 一种基于cpg模型的人形机器人自适应行走框架实现方法 | |
Casanueva-Morato et al. | Spike-based computational models of bio-inspired memories in the hippocampal CA3 region on SpiNNaker | |
CN115494733A (zh) | 一种基于gazebo的水下机器人自适应控制方法 | |
CN109227550A (zh) | 一种基于rbf神经网络的机械臂控制方法 | |
CN108255059A (zh) | 一种基于模拟器训练的机器人控制方法 | |
JP3988121B2 (ja) | 学習装置、記憶方法及びロボット装置 | |
Alvado et al. | Hardware computation of conductance-based neuron models | |
CN105824250B (zh) | 基于小脑模型的仿生手臂控制系统及小脑模型建模方法 | |
CN110640731B (zh) | 基于多巴胺神经元仿生cpg系统的机械臂控制器 | |
CN117322890B (zh) | 一种基于神经元群模型的生成式多通道脑电建模方法 | |
CN118153644A (zh) | 一种基于脉冲神经网络的多尺度脑网络模型构建方法 | |
CN108538301A (zh) | 一种基于神经网络音频技术的智能数码乐器 | |
CN118335282A (zh) | 基于混合fes外骨骼系统融合控制的康复步态模式靶向生成方法及系统 | |
CN115352466A (zh) | 基于gru网络调控机制的自动驾驶纵向控制方法及系统 | |
Vaario et al. | Toward evolutionary design of autonomous systems | |
CN104992059A (zh) | 基于内在动机的运动平衡机器人自主认知系统及控制方法 | |
Cheslet et al. | Biomimetic snake locomotion using central pattern generators network and bio-hybrid robot perspective | |
CN114872042B (zh) | 基于临界状态循环网络的肌肉骨骼机器人控制方法及装置 | |
Lin et al. | A distributed cerebellar-inspired learning model for robotic arm control |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |