发明内容
为了克服上述现有技术的缺点,本发明的目的在于提供一种基于脉冲神经 网络的多智能体博弈的方法,结合脉冲神经网络的仿生型特性,不仅具备学习 推理能力,还大大降低了运算需求,适用于多种环境中的多智能体博弈,可使 所述智能体能够模仿人类操作。
为了实现上述目的,本发明采用的技术方案是:
一种基于脉冲神经网络的多智能体博弈的方法,包括如下步骤:
步骤1:将环境中的多智能体区分为本体和其他智能体,本体需要学习的 内容包括本体输入以及其他智能体对本体的影响;
步骤2:建立除本体外的其他智能体的输入层Layer1_other,对其他多智能 体的输入信息进行预处理,将输入信息转换为脉冲信号,生成并激发输入层 Layer1_other神经元;
步骤3:建立和输入层Layer1_other对应的规则层Layer2_other,获得其他 智能体满足的事件规则,将所有可能发生的事件划分为基本事件即样本点,每 一个样本点对应产生规则层Layer2_other的一个神经元,将所有能够激发样本 点的输入层Layer1_other神经元与该样本点对应的规则层Layer2_other神经元 全连接;
步骤4:建立本体的输入层Layer1,对环境中的本体输入信息进行预处理, 将输入信息转换为脉冲信号,生成并激发该输入层神经元;
步骤5:建立和Layer1对应的规则层layer2,获得本体满足的事件规则, 将所有可能发生的事件划分为基本事件即样本点,每一个样本点对应产生规则 层layer2的一个神经元,将所有可以激发样本点的输入层layer1神经元与该样 本点对应的规则层layer2神经元全连接;
步骤6:建立多智能体博弈的决策层Layer3,在决策层Layer3生成神经元, 决策层Layer3神经元个数和规则层layer2神经元个数相等,将规则层layer2神 经元和决策层Layer3神经元一一对应,同时layer2至layer3的信息传递还必须 受到规则层Layer2_other规则的约束,只有和规则层Layer2_other的激发规则 一致的规则层Layer2神经元才能允许输入至决策层Layer3,根据决策层 Layer3内神经元的激发情况生成决策层Layer3的层内突触连接;
步骤7:建立多智能体博弈的输出层Layer4,输出层Layer4生成的神经元 个数和决策层Layer3神经元个数相等,决策层Layer3神经元和输出层Layer4 神经元建立一对一的连接,通过调整决策层Layer3和输出层Layer4的连接权 值,得到最终的输出信号。
进一步地,所述步骤1具体包括以下步骤:
步骤1.1:确定训练对象,并将其定义为本体;
步骤1.2:将环境中的除本体之外的其他智能体定义为其他智能体。
进一步地,所述步骤2具体包括以下步骤:
步骤2.1:根据多智能体环境下的信息确定其他智能体的输入层信息;
步骤2.2:将输入信息进行数据的预处理,按照脉冲转换规则将输入信息 转换为脉冲发射时间t1,t2……tn;
步骤2.3:根据预处理后的信息确定输入层Layer1_other的神经元个数,每 一个神经元对应一种预处理后的数据,在输入层Layer1_other生成n个输入层 神经元;
步骤2.4:根据对应关系,设置输入层Layer1_other神经元的脉冲发射时间 分别为t1,t2,……,tn,脉冲发射时间不为0的神经元即是被激发的神经元。
进一步地,所述步骤4具体包括以下步骤:
步骤4.1:根据多智能体环境下的信息确定本体的输入层信息;
步骤4.2:将本体输入信息进行数据的预处理,按照脉冲转换规则将信息 转换为脉冲发射时间t1,t2……ta;
步骤4.3:根据预处理后的信息确定输入层Layer1的神经元个数,每一个 神经元对应一种预处理后的数据,在输入层Layer1生成a个输入层神经元;
步骤4.4:根据对应关系,设置输入层Layer1神经元的脉冲发射时间分别 为t1,t2,……,ta,脉冲发射时间不为0的神经元即是被激发的神经元。即, 脉冲发射时间又称脉冲激发时间。设置输入层Layer_other神经元的脉冲发射时 间后,发射时间又代表神经元的激发时间,也表明对应这些神经元被激发。
进一步地,所述步骤2.1具体包括以下步骤:
步骤2.1.1:根据具体的多智能体环境,确定环境中的输入信息;
步骤2.2.2:在所有的输入信息中,找出对其他智能体输出结果有影响的输 入信息,即是其他智能体的输入层信息;
所述步骤2.2和将输入信息进行数据的预处理,具体操作是:对原始的输 入信息进行数据转换,使原始输入信息转换成适合数据处理的形式;
所述步骤4.1具体包括以下步骤:
步骤4.1.1:根据具体的多智能体环境,确定环境中的输入信息;
步骤4.2.2:在所有的输入信息中,找出对本体输出结果有影响的输入信息, 即是本体的输入层信息;
所述步骤4.2将输入信息进行数据的预处理,具体操作是:对原始的本体 输入信息进行数据转换,使原始输入信息转换成适合数据处理的形式。
进一步地,所述步骤3具体包括以下步骤:
步骤3.1:将所有可能发生的事件划分为m个基本事件;
步骤3.2:在规则层Layer2_other生成m个神经元,将m个基本事件分别 对应规则层Layer2_other中的m个神经元;
步骤3.3:设置规则层Layer2_other中的m个神经元与输入层Layer1_other 神经元的连接关系,将所有能够激发某一基本事件的输入层Layer1_other神经 元与该基本事件对应的规则层Layer2_other神经元全连接,并设置权值保证规 则层Layer2_other神经元的正确激发,对应不同的输入,所述权值的设置能够 保证输入层Layer1_other到规则层Layer2_other的正确激发。
进一步地,所述步骤5具体包括以下步骤:
步骤5.1:将所有可能发生的事件划分为m个基本事件;
步骤5.2:在规则层Layer2中生成m个神经元,将m个基本事件分别对应 规则层Layer2中的m个神经元;
步骤5.3:设置规则层Layer2中的m个神经元与本体输入层Layer1神经元 的连接关系,将所有能够激发某一基本事件的输入层Layer1神经元与该基本事 件对应的规则层Layer2神经元全连接,并设置权值保证规则层Layer2神经元 的正确激发,对应不同的输入,所述权值的设置能够保证输入层Layer1到规则 层Layer2的正确激发;
其中,步骤3和步骤5中的m取值相同。
进一步地,所述步骤3.3和步骤步骤5.3中,权值设置满足以下三个权值调 整规则:a)以一个规则层Layer2_other神经元为基本规则进行权值调试,将基 本规则记为神经元A;b)保证与神经元A有连接关系的所有输入层 Layer1_other神经元能够激发神经元A,且不会对规则层Layer2_other的其他神 经元造成激发;c)保证与神经元A有连接关系的输入层Layer1_other的每一 个神经元都不能够单独激发神经元A。
进一步地,所述步骤6具体包括以下步骤:
步骤6.1:在决策层Layer3生成m个神经元;
步骤6.2:将规则层Layer2神经元和决策层Layer3神经元一对一连接;
步骤6.3:信息由规则层Layer2传输至决策层Layer3受到其他智能体规则 的限制;
步骤6.4:根据HEBB规则以及决策层Layer3神经元的所处的空间位置建 立层内连接。
进一步地,所述决策层Layer3设置为二维分布;所述步骤6.4中,HEBB 规则为:当两个独立神经元激发时间差值小于阈值时,两个神经元会建立连接; 在HEBB规则基础上加上空间位置的限制:只有两个空间距离小于某一距离阈 值的时候,HEBB才有效;从而在时间和空间的连接规则下,形成决策层的层 内连接。
进一步地,所述步骤7具体包括以下步骤:
步骤7.1:在输出层Layer4生成m个神经元;
步骤7.2:将决策层Layer3神经元和输出层Layer4神经元一对一连接;
步骤7.3:根据STDP规则调整决策层Layer3至输出层Layer4的连接权值;
步骤7.4:取输出层Layer4最先激发的神经元作为最终的输出结果。
进一步地,所述步骤7.3中的STDP规则为:通过调整引导神经元的激发 时间间接调整目标权值,将引导神经元的激活时间记为t3,将突触前端神经元 记为Npre,激活时间记为t1;突触后端神经元记为Npost,激活时间记为t2, 调整引导神经元的激活时间t3,改变神经元Npost的激活时间t2,突触权值的 变化幅度与突触连接前后神经元激活时间差有关,权值和时间关系如公式1和 公式2所示:
Δt=t2-t1 公式1
与现有技术相比,本发明的有益效果是:
1)、本发明的小样本学习能力突出,不涉及大量的数据运算,节约了算 力和时间。
2)、本发明智能化程度高,是依据仿生学特性提出的多智能体博弈,具 有动态学习和联想推理能力,通过训练可模仿人类操作。
3)、本发明设计的结构对环境中的多智能体博弈具有通用性。
具体实施方式
下面结合附图和实施例详细说明本发明的实施方式。
参考图1,本发明一种基于脉冲神经网络的多智能体博弈的方法,包括如 下步骤:
步骤1:将环境中的多智能体区分为本体和其他智能体,本体需要学习的 内容包括本体输入以及其他智能体对本体的影响。具体包括以下步骤:
步骤1.1:确定训练对象,并将其定义为本体;
步骤1.2:将环境中的除本体之外的其他智能体定义为其他智能体。
步骤2:建立除本体外的其他智能体的输入层Layer1_other(每一个智能体 均需构建一个Layer1_other网络,例如,其他多智能体包含4个智能体,则按 照步骤2生成4个Layer_other层),对其他多智能体的输入信息进行预处理, 将输入信息转换为脉冲信号,生成并激发输入层Layer1_other神经元。具体包 括以下步骤:
步骤2.1:根据多智能体环境下的信息确定其他智能体的输入层信息;
步骤2.1.1:根据具体的多智能体环境,确定环境中的输入信息;
步骤2.2.2:在所有的输入信息中,找出对其他智能体输出结果有影响的输 入信息,即是其他智能体的输入层信息;
步骤2.2:将输入信息进行数据的预处理,按照脉冲转换规则将输入信息 转换为脉冲发射时间t1,t2……tn,其中预处理的具体操作是:对原始的输入 信息进行数据转换,使原始输入信息转换成适合数据处理的形式;其中支持数 据转换的策略有:特征构造、规范化、离散化等多种策略,具体场景具体分析;
步骤2.3:根据预处理后的信息确定输入层Layer1_other的神经元个数,每 一个神经元对应一种预处理后的数据,在输入层Layer1_other生成n个输入层 神经元;
步骤2.4:根据对应关系,设置输入层Layer1_other神经元的脉冲发射时间 分别为t1,t2,……,tn,脉冲发射时间不为0的神经元即是被激发的神经元。
步骤3:建立和输入层Layer1_other对应的规则层Layer2_other,获得其他 智能体满足的事件规则,将所有可能发生的事件划分为基本事件即样本点,每 一个样本点对应产生规则层Layer2_other的一个神经元,将所有能够激发样本 点的输入层Layer1_other神经元与该样本点对应的规则层Layer2_other神经元 全连接。具体包括以下步骤:
步骤3.1:将所有可能发生的事件划分为m个基本事件;
步骤3.2:在规则层Layer2_other生成m个神经元,将m个基本事件分别 对应规则层Layer2_other中的m个神经元;
步骤3.3:设置规则层Layer2_other中的m个神经元与输入层Layer1_other 神经元的连接关系,将所有能够激发某一基本事件的输入层Layer1_other神经 元与该基本事件对应的规则层Layer2_other神经元全连接,并设置权值保证规 则层Layer2_other神经元的正确激发,对应不同的输入(事件),所述权值的 设置能够保证输入层Layer1_other到规则层Layer2_other的正确激发,即满足 以下三个权值调整规则:a)以一个规则层Layer2_other神经元为基本规则进行 权值调试,将基本规则记为神经元A;b)保证与神经元A有连接关系的所有 输入层Layer1_other神经元能够激发神经元A,且不会对规则层Layer2_other 的其他神经元造成激发;c)保证与神经元A有连接关系的输入层Layer1_other 的每一个神经元都不能够单独激发神经元A。
步骤4:建立本体的输入层Layer1,对环境中的本体输入信息进行预处理, 将输入信息转换为脉冲信号,生成并激发该输入层神经元。具体包括以下步骤:
步骤4.1:根据多智能体环境下的信息确定本体的输入层信息;
步骤4.1.1:根据具体的多智能体环境,确定环境中的输入信息;
步骤4.2.2:在所有的输入信息中,找出对本体输出结果有影响的输入信息, 即是本体的输入层信息;
步骤4.2:将本体输入信息进行数据的预处理,按照脉冲转换规则将信息 转换为脉冲发射时间t1,t2……ta,其中预处理的具体操作是:对原始的本体 输入信息进行数据转换,使原始输入信息转换成适合数据处理的形式。同样地, 支持数据转换的策略有:特征构造、规范化、离散化等多种策略,具体场景具 体分析;
步骤4.3:根据预处理后的信息确定输入层Layer1的神经元个数,每一个 神经元对应一种预处理后的数据,在输入层Layer1生成a个输入层神经元;
步骤4.4:根据对应关系,设置输入层Layer1神经元的脉冲发射时间分别 为t1,t2,……,ta,脉冲发射时间不为0的神经元即是被激发的神经元。即, 脉冲发射时间又称脉冲激发时间。设置输入层Layer_other神经元的脉冲发射时 间后,发射时间又代表神经元的激发时间,也表明对应这些神经元被激发。
步骤5:建立和Layer1对应的规则层layer2,获得本体满足的事件规则, 将所有可能发生的事件划分为基本事件即样本点,每一个样本点对应产生规则 层layer2的一个神经元,将所有可以激发样本点的输入层layer1神经元与该样 本点对应的规则层layer2神经元全连接。具体包括以下步骤:
步骤5.1:将所有可能发生的事件划分为m个基本事件;
步骤5.2:在规则层Layer2中生成m个神经元,将m个基本事件分别对应 规则层Layer2中的m个神经元;
步骤5.3:设置规则层Layer2中的m个神经元与本体输入层Layer1神经元 的连接关系,将所有能够激发某一基本事件的输入层Layer1神经元与该基本事 件对应的规则层Layer2神经元全连接,并设置权值保证规则层Layer2神经元 的正确激发,对应不同的输入,所述权值的设置能够保证输入层Layer1到规则 层Layer2的正确激发,具体要求参考步骤3.3。
步骤6:建立多智能体博弈的决策层Layer3,在决策层Layer3生成神经元, 决策层Layer3神经元个数和规则层layer2神经元个数相等,将规则层layer2神 经元和决策层Layer3神经元一一对应,同时layer2至layer3的信息传递还必须 受到规则层Layer2_other规则的约束,只有和规则层Layer2_other的激发规则 一致的规则层Layer2神经元才能允许输入至决策层Layer3,根据决策层 Layer3内神经元的激发情况生成决策层Layer3的层内突触连接。具体包括以下 步骤:
步骤6.1:在决策层Layer3生成m个神经元,为了体现空间信息对决策的 作用,同时简化决策的复杂度,该层设置为二维分布;
步骤6.2:将规则层Layer2神经元和决策层Layer3神经元一对一连接;
步骤6.3:信息由规则层Layer2传输至决策层Layer3受到其他智能体规则 的限制;具体表现为:假设此环境中激发的其他智能体规则有rule1、rule2…… 等规则神经元,那么只有和rule1、rule2……等规则保持一致的本体规则层神经 元才允许被传输至决策层。
步骤6.4:根据HEBB规则以及决策层Layer3神经元的所处的空间位置建 立层内连接,HEBB规则为:当两个独立神经元激发时间差值小于阈值时,两 个神经元会建立连接;在HEBB规则基础上加上空间位置的限制:只有两个空 间距离小于某一距离阈值的时候,HEBB才有效;从而在时间和空间的连接规 则下,形成决策层的层内连接。以N1,N2为例进行说明,N1,N2代表两个 神经元。根据神经元的连接状态,激活状态的及神经元空间位置,可建立N1, N2的连接关系。如表1所示。
表1
步骤7:建立多智能体博弈的输出层Layer4,输出层Layer4生成的神经元 个数和决策层Layer3神经元个数相等,决策层Layer3神经元和输出层Layer4 神经元建立一对一的连接,通过调整决策层Layer3和输出层Layer4的连接权 值,得到最终的输出信号。具体包括以下步骤:
步骤7.1:在输出层Layer4生成m个神经元;
步骤7.2:将决策层Layer3神经元和输出层Layer4神经元一对一连接;
步骤7.3:根据STDP规则调整决策层Layer3至输出层Layer4的连接权值, STDP规则为:通过调整引导神经元的激发时间间接调整目标权值,如图2所 示,将“引导”神经元的激活时间记为t3,将突触前端神经元记为Npre,激活时 间记为t1;突触后端神经元记为Npost,激活时间记为t2。调整“引导”神经元 的激活时间t3,可以改变“Npost”神经元的激活时间t2,突触权值的变化幅度与 突触连接前后神经元激活时间差有关,权值和时间关系如公式1和公式2所示:
Δt=t2-t1 公式1
步骤7.4:取输出层Layer4最先激发的神经元作为最终的输出结果。
本发明中,智能体博弈指的是智能体与智能体之间的交流对抗过程,例如 卡牌游戏、即时战略游戏等三方或者以上玩家参与的游戏或者战略,都属于多 智能体博弈。其原理是通过学习人类在应用(比如游戏、自动驾驶、武器突防 等)当中的数据样本,达到训练数据的效果,从而使这个智能体能够模仿人类 应用的操作。博弈的水平全部由智能体从人类样本学习模仿而来。
以下是本发明的在棋牌游戏中的两个具体应用实施例。
实施例1
以基于脉冲神经网络的在非完美信息条件下多智能体博弈——斗地主出牌 为例,具体说明本发明的步骤与效果。
在该例中,共有三名玩家,用一副牌(共54张)进行博弈的游戏。在一 局游戏中分为两方,一个玩家是“地主”,为一方,剩余两个玩家为农民,为另 一方。游戏规定率先出完所有手中卡牌的一方获胜。玩家出牌时,所出的牌必 须是玩家拥有的手牌,且必须和上家出牌的牌型规则保持一致,牌值大小大于 上家。
一轮游戏中,根据学习的对象,将要训练的一个玩家视为本体,剩余两个 玩家视为其他智能体。
斗地主游戏共计54张牌,每一个神经元对应一种牌,所以设定输入层 (Layer1_other)神经元个数54个。输入其他智能体的出牌信息,并对所出的 卡牌进行数据处理,按照脉冲转换规则将每一种牌转换为所对应的脉冲发射时 间,在获取其他智能体的出牌信息后,在神经网络的输入层找到对应的神经元, 并设置其脉冲发射时间。
根据斗地主出牌过程中所有可能的斗地主规则:单张、双王、炸弹、对子、 三张、三带一、三带二、四带一、四带二、三连对、四连对、五连对、六连对、 七连对、八连对、九连对、十连对、五张顺子、六张顺子、七张顺子、八张顺 子、九张顺子、十张顺子、十一张顺子、十二张顺子、二连飞机、飞机带翅膀、 三连飞机、飞机带两对、四连飞机、三连飞机带翅膀、五连飞机、三连飞机带 三对、四连飞机带翅膀、六连飞机、四连飞机带四对、五连飞机带翅膀,划分 为276个基本事件。在其他智能体的规则层(Layer2_other)生成276个神经元, 分别对应276种斗地主规则。将Layer2_other中的276个神经元分别与 Layer1_other神经元连接,并设置合适权值。以三连对334455为例,需要将 Layer1_other中代表33,44,55的神经元与Layer2_other中代表334455神经元 全连接。连接关系如图3,并设置权值为400,保证神经元的正确激发,只有 输入层代表33,44,55的神经元全部被激发的时候,代表334455的规则层神 经元才会被激发,且不会造成规则层的其他神经元被激发。
然后是本体的信息处理,与其他智能体的输入层处理一致,设定本体输入 层神经元个数为54,每一个神经元对应一种牌。输入本体的出牌信息,并对所 出的卡牌进行数据处理,按照脉冲转换规则将每一种牌转换为所对应的脉冲发 射时间,在获取玩家手牌信息后,在神经网络的输入层找到对应的神经元,并 设置其脉冲发射时间。
根据斗地主出牌过程中所有可能的斗地主规则,在本体的规则层(Layer2) 生成276个神经元,分别对应276种斗地主规则。将Layer2中的276个神经元 分别与Layer1神经元连接,并设置合适权值。权值设置方法和其他智能体规则 层权值设置方法相同。
在决策层中生成276个神经元,并以二维空间分布。神经元在空间位置分 布上按照从优先级分布,优先级是对斗地主规则牌型大小的排序等级。将 Layer2中的神经元和Layer3中的神经元采用one-to-one的形式连接并设置权值, 并且加入在Layer2至Layer3的突触连接中加入使能信号,当使能信号为1时, 突触连接有效,信息才能由Layer2传递至Layer3,保证Layer2到Layer3的正确 激发。假设此环境中激发的其他智能体规则有rule1、rule2……等规则神经元, 那么只有和rule1、rule2……等规则保持一致的本体规则层的突触使能信号才为 1,否则为0。再根据HEBB规则形成决策层的内部突触连接:当两个独立神经 元激发时间差值小于阈值时,两个神经元会建立连接。在HEBB基础上在加上 空间的限制:只有两个空间距离小于某一距离阈值的时候,HEBB才有效。在 时间和空间的连接规则下,形成了layer3的层内连接。
在输出层中生成276个神经元,决策层神经元与输出层神经元采用一对一 的连接关系,设置初始的连接权值为0,利用监督性STDP规则调整连接权值。 取输出层最先激发的神经元作为最终的输出结果。
其中决策层至输出层权值调整步骤如表2:
表2
实施例2
以基于脉冲神经网络的在非完美信息条件下多智能体博弈——德州扑克为 例,具体说明本发明的步骤与效果。
在该例中,共有2-10名玩家,用一副去掉大小王后的52张牌进行博弈的 游戏。牌局开始时,会给每位玩家发2张“底牌”(只有个人看到),桌面上 分三次陆续发出3张,1张,1张的公共牌,在经过四轮的跟注,加注,弃牌等 押注圈操作后,进入摊牌阶段,在自己的2张底牌和5张公共牌中挑选出最大 的5张组合,按照牌型大小规则分出胜负,赢家拿下所有筹码。
一轮游戏中,根据学习的对象,将要训练的一个玩家视为本体,剩余其他 玩家视为其他智能体。
德州扑克游戏共计52张牌,每一个神经元对应一种牌,所以设定输入层 (Layer1_other)神经元个数52个。输入其他智能体的出牌信息,并对所出的 卡牌进行数据处理,按照脉冲转换规则将每一种牌转换为所对应的脉冲发射时 间,在获取其他智能体的出牌信息后,在神经网络的输入层找到对应的神经元, 并设置其脉冲发射时间。
根据德州扑克游戏过程中所有可能的规则:皇家同花顺,同花顺,四条, 葫芦,同花,顺子,三条,两对,一对,高牌,划分为1326个基本事件。在 其他智能体的规则层(Layer2_other)生成1326个神经元,分别对应1326种德 州扑克规则。将Layer2_other中的1326个神经元分别与Layer1_other神经元连 接,并设置合适权值。以同花顺为例,需要5张同花色的连续牌,例如黑桃 45678的组合就是同花顺,需要将Layer1_other中代表黑桃4,5,6,7,8的 神经元与Layer2_other中代表黑桃45678(一种同花顺)的神经元全连接,并 设置连接权值为400,保证神经元的正确激发,只有输入层代表黑桃4,5,6, 7,8的神经元全部被激发的时候,代表黑桃45678(一种同花顺)的规则层神 经元才会被激发,且不会造成规则层的其他神经元被激发。
然后是本体的信息处理,与其他智能体的输入层处理一致,设定本体输入 层神经元个数为54,每一个神经元对应一种牌。输入本体的出牌信息,并对所 出的卡牌进行数据处理,按照脉冲转换规则将每一种牌转换为所对应的脉冲发 射时间,在获取玩家手牌信息后,在神经网络的输入层找到对应的神经元,并 设置其脉冲发射时间。
根据德州扑克出牌过程中所有可能的德州扑克规则,在本体的规则层 (Layer2)生成1326个神经元,分别对应1326种德州扑克规则。将Layer2中 的1326个神经元分别与Layer1神经元连接,并设置合适权值。权值设置方法 和其他智能体规则层权值设置方法相同。
在决策层中生成1326个神经元,并以二维空间分布。神经元在空间位置 分布上按照从优先级分布,优先级是对德州扑克规则牌型大小的排序等级。将 Layer2中的神经元和Layer3中的神经元采用one-to-one的形式连接并设置权值, 并且加入在Layer2至Layer3的突触连接中加入使能信号,当使能信号为1时, 突触连接有效,信息才能由Layer2传递至Layer3,保证Layer2到Layer3的正确 激发。假设此环境中激发的其他智能体规则有rule1、rule2……等规则神经元, 那么只有规则大于rule1、rule2……等规则的本体规则层的突触使能信号才为1, 否则为0。再根据HEBB规则形成决策层的内部突触连接:当两个独立神经元 激发时间差值小于阈值时,两个神经元会建立连接。在HEBB基础上在加上空 间的限制:只有两个空间距离小于某一距离阈值的时候,HEBB才有效。在时 间和空间的连接规则下,形成了layer3的层内连接。
在输出层中生成1326个神经元,决策层神经元与输出层神经元采用一对 一的连接关系,设置初始的连接权值为0,利用监督性STDP规则调整连接权 值。取输出层最先激发的神经元作为最终的输出结果。
其中决策层至输出层权值调整步骤如表3:
表3
本发明还可应用到仿人眼认知中,例如行人、其他车辆与自己车辆的路面 博弈,实现自动驾驶等智慧交通技术。