CN114154614A

CN114154614A - 一种基于脉冲神经网络的多智能体博弈的方法

Info

Publication number: CN114154614A
Application number: CN202010932812.5A
Authority: CN
Inventors: 董丽亚; 杨旭; 晏子华; 林深; 吉梦瑶; 郑文浩; 赵晋锋; 张志松; 王麒淋
Original assignee: Individual
Current assignee: Shenzhen Youzhi Chuangxin Technology Co ltd
Priority date: 2020-09-08
Filing date: 2020-09-08
Publication date: 2022-03-08
Anticipated expiration: 2040-09-08
Also published as: CN114154614B

Abstract

一种基于脉冲神经网络的多智能体博弈的方法，将环境中的多智能体区分为本体和其他智能体，建立除本体外的其他智能体的输入层，生成并激发输入层神经元；建立和其他智能体输入层对应的规则层，建立本体的输入层，生成并激发该输入层神经元；建立和本体输入层对应的规则层，建立多智能体博弈的决策层，根据决策层内神经元的激发情况生成决策层的层内突触连接；建立多智能体博弈的输出层，决策层神经元和输出层神经元建立一对一的连接，通过调整决策层和输出层的连接权值，得到最终的输出信号。本发明不仅具备学习推理能力，还大大降低了运算需求，适用于多种环境中的多智能体博弈。

Description

一种基于脉冲神经网络的多智能体博弈的方法

技术领域

本发明属于人工智能、神经网络技术领域，特别涉及一种基于脉冲神经网络的多智能体博弈的方法。

背景技术

现实社会中，存在大量复杂的动态决策问题，例如，路面交通系统，经济预测，军事决策等。这些实际的问题对仿生型智能体的需求越来越强烈，一群智能体是否能够在动态、不确定的环境中像人一样的工作，是解决这些问题的关键，但当前的多智能体技术还难以应对复杂情况下的挑战。深度学习和深度强化学习利用自身强大的信息处理能力，在多智能体博弈中表现出优势，但仍面临着挑战，主要表现为无法进行网络的自生长和自组织，所以面对不确定性因素时无法进行实时决策，不具备学习推理能力。

发明内容

为了克服上述现有技术的缺点，本发明的目的在于提供一种基于脉冲神经网络的多智能体博弈的方法，结合脉冲神经网络的仿生型特性，不仅具备学习推理能力，还大大降低了运算需求，适用于多种环境中的多智能体博弈，可使所述智能体能够模仿人类操作。

为了实现上述目的，本发明采用的技术方案是：

一种基于脉冲神经网络的多智能体博弈的方法，包括如下步骤：

步骤1：将环境中的多智能体区分为本体和其他智能体，本体需要学习的内容包括本体输入以及其他智能体对本体的影响；

步骤2：建立除本体外的其他智能体的输入层Layer1_other，对其他多智能体的输入信息进行预处理，将输入信息转换为脉冲信号，生成并激发输入层 Layer1_other神经元；

步骤3：建立和输入层Layer1_other对应的规则层Layer2_other，获得其他智能体满足的事件规则，将所有可能发生的事件划分为基本事件即样本点，每一个样本点对应产生规则层Layer2_other的一个神经元，将所有能够激发样本点的输入层Layer1_other神经元与该样本点对应的规则层Layer2_other神经元全连接；

步骤4：建立本体的输入层Layer1，对环境中的本体输入信息进行预处理，将输入信息转换为脉冲信号，生成并激发该输入层神经元；

步骤5：建立和Layer1对应的规则层layer2，获得本体满足的事件规则，将所有可能发生的事件划分为基本事件即样本点，每一个样本点对应产生规则层layer2的一个神经元，将所有可以激发样本点的输入层layer1神经元与该样本点对应的规则层layer2神经元全连接；

步骤6：建立多智能体博弈的决策层Layer3，在决策层Layer3生成神经元，决策层Layer3神经元个数和规则层layer2神经元个数相等，将规则层layer2神经元和决策层Layer3神经元一一对应，同时layer2至layer3的信息传递还必须受到规则层Layer2_other规则的约束，只有和规则层Layer2_other的激发规则一致的规则层Layer2神经元才能允许输入至决策层Layer3，根据决策层 Layer3内神经元的激发情况生成决策层Layer3的层内突触连接；

步骤7：建立多智能体博弈的输出层Layer4，输出层Layer4生成的神经元个数和决策层Layer3神经元个数相等，决策层Layer3神经元和输出层Layer4 神经元建立一对一的连接，通过调整决策层Layer3和输出层Layer4的连接权值，得到最终的输出信号。

进一步地，所述步骤1具体包括以下步骤：

步骤1.1：确定训练对象，并将其定义为本体；

步骤1.2：将环境中的除本体之外的其他智能体定义为其他智能体。

进一步地，所述步骤2具体包括以下步骤：

步骤2.1：根据多智能体环境下的信息确定其他智能体的输入层信息；

步骤2.2：将输入信息进行数据的预处理，按照脉冲转换规则将输入信息转换为脉冲发射时间t1，t2……tn；

步骤2.3：根据预处理后的信息确定输入层Layer1_other的神经元个数，每一个神经元对应一种预处理后的数据，在输入层Layer1_other生成n个输入层神经元；

步骤2.4：根据对应关系，设置输入层Layer1_other神经元的脉冲发射时间分别为t1，t2，……，tn，脉冲发射时间不为0的神经元即是被激发的神经元。

进一步地，所述步骤4具体包括以下步骤：

步骤4.1：根据多智能体环境下的信息确定本体的输入层信息；

步骤4.2：将本体输入信息进行数据的预处理，按照脉冲转换规则将信息转换为脉冲发射时间t1，t2……ta；

步骤4.3：根据预处理后的信息确定输入层Layer1的神经元个数，每一个神经元对应一种预处理后的数据，在输入层Layer1生成a个输入层神经元；

步骤4.4：根据对应关系，设置输入层Layer1神经元的脉冲发射时间分别为t1，t2，……，ta，脉冲发射时间不为0的神经元即是被激发的神经元。即，脉冲发射时间又称脉冲激发时间。设置输入层Layer_other神经元的脉冲发射时间后，发射时间又代表神经元的激发时间，也表明对应这些神经元被激发。

进一步地，所述步骤2.1具体包括以下步骤：

步骤2.1.1：根据具体的多智能体环境，确定环境中的输入信息；

步骤2.2.2：在所有的输入信息中，找出对其他智能体输出结果有影响的输入信息，即是其他智能体的输入层信息；

所述步骤2.2和将输入信息进行数据的预处理，具体操作是：对原始的输入信息进行数据转换，使原始输入信息转换成适合数据处理的形式；

所述步骤4.1具体包括以下步骤：

步骤4.1.1：根据具体的多智能体环境，确定环境中的输入信息；

步骤4.2.2：在所有的输入信息中，找出对本体输出结果有影响的输入信息，即是本体的输入层信息；

所述步骤4.2将输入信息进行数据的预处理，具体操作是：对原始的本体输入信息进行数据转换，使原始输入信息转换成适合数据处理的形式。

进一步地，所述步骤3具体包括以下步骤：

步骤3.1：将所有可能发生的事件划分为m个基本事件；

步骤3.2：在规则层Layer2_other生成m个神经元，将m个基本事件分别对应规则层Layer2_other中的m个神经元；

步骤3.3：设置规则层Layer2_other中的m个神经元与输入层Layer1_other 神经元的连接关系，将所有能够激发某一基本事件的输入层Layer1_other神经元与该基本事件对应的规则层Layer2_other神经元全连接，并设置权值保证规则层Layer2_other神经元的正确激发，对应不同的输入，所述权值的设置能够保证输入层Layer1_other到规则层Layer2_other的正确激发。

进一步地，所述步骤5具体包括以下步骤：

步骤5.1：将所有可能发生的事件划分为m个基本事件；

步骤5.2：在规则层Layer2中生成m个神经元，将m个基本事件分别对应规则层Layer2中的m个神经元；

步骤5.3：设置规则层Layer2中的m个神经元与本体输入层Layer1神经元的连接关系，将所有能够激发某一基本事件的输入层Layer1神经元与该基本事件对应的规则层Layer2神经元全连接，并设置权值保证规则层Layer2神经元的正确激发，对应不同的输入，所述权值的设置能够保证输入层Layer1到规则层Layer2的正确激发；

其中，步骤3和步骤5中的m取值相同。

进一步地，所述步骤3.3和步骤步骤5.3中，权值设置满足以下三个权值调整规则：a)以一个规则层Layer2_other神经元为基本规则进行权值调试，将基本规则记为神经元A；b)保证与神经元A有连接关系的所有输入层 Layer1_other神经元能够激发神经元A，且不会对规则层Layer2_other的其他神经元造成激发；c)保证与神经元A有连接关系的输入层Layer1_other的每一个神经元都不能够单独激发神经元A。

进一步地，所述步骤6具体包括以下步骤：

步骤6.1：在决策层Layer3生成m个神经元；

步骤6.2：将规则层Layer2神经元和决策层Layer3神经元一对一连接；

步骤6.3：信息由规则层Layer2传输至决策层Layer3受到其他智能体规则的限制；

步骤6.4：根据HEBB规则以及决策层Layer3神经元的所处的空间位置建立层内连接。

进一步地，所述决策层Layer3设置为二维分布；所述步骤6.4中，HEBB 规则为：当两个独立神经元激发时间差值小于阈值时，两个神经元会建立连接；在HEBB规则基础上加上空间位置的限制：只有两个空间距离小于某一距离阈值的时候，HEBB才有效；从而在时间和空间的连接规则下，形成决策层的层内连接。

进一步地，所述步骤7具体包括以下步骤：

步骤7.1：在输出层Layer4生成m个神经元；

步骤7.2：将决策层Layer3神经元和输出层Layer4神经元一对一连接；

步骤7.3：根据STDP规则调整决策层Layer3至输出层Layer4的连接权值；

步骤7.4：取输出层Layer4最先激发的神经元作为最终的输出结果。

进一步地，所述步骤7.3中的STDP规则为：通过调整引导神经元的激发时间间接调整目标权值，将引导神经元的激活时间记为t3，将突触前端神经元记为Npre，激活时间记为t1；突触后端神经元记为Npost，激活时间记为t2，调整引导神经元的激活时间t3，改变神经元Npost的激活时间t2，突触权值的变化幅度与突触连接前后神经元激活时间差有关，权值和时间关系如公式1和公式2所示：

Δt＝t₂-t₁ 公式1

。

与现有技术相比，本发明的有益效果是：

1)、本发明的小样本学习能力突出，不涉及大量的数据运算，节约了算力和时间。

2)、本发明智能化程度高，是依据仿生学特性提出的多智能体博弈，具有动态学习和联想推理能力，通过训练可模仿人类操作。

3)、本发明设计的结构对环境中的多智能体博弈具有通用性。

附图说明

图1是本发明整体框图。

图2是STDP规则示意图

图3是实施例1中输入层和规则层的连接示意图。

具体实施方式

下面结合附图和实施例详细说明本发明的实施方式。

参考图1，本发明一种基于脉冲神经网络的多智能体博弈的方法，包括如下步骤：

步骤1：将环境中的多智能体区分为本体和其他智能体，本体需要学习的内容包括本体输入以及其他智能体对本体的影响。具体包括以下步骤：

步骤1.1：确定训练对象，并将其定义为本体；

步骤2：建立除本体外的其他智能体的输入层Layer1_other(每一个智能体均需构建一个Layer1_other网络，例如，其他多智能体包含4个智能体，则按照步骤2生成4个Layer_other层)，对其他多智能体的输入信息进行预处理，将输入信息转换为脉冲信号，生成并激发输入层Layer1_other神经元。具体包括以下步骤：

步骤2.2：将输入信息进行数据的预处理，按照脉冲转换规则将输入信息转换为脉冲发射时间t1，t2……tn，其中预处理的具体操作是：对原始的输入信息进行数据转换，使原始输入信息转换成适合数据处理的形式；其中支持数据转换的策略有：特征构造、规范化、离散化等多种策略，具体场景具体分析；

步骤3：建立和输入层Layer1_other对应的规则层Layer2_other，获得其他智能体满足的事件规则，将所有可能发生的事件划分为基本事件即样本点，每一个样本点对应产生规则层Layer2_other的一个神经元，将所有能够激发样本点的输入层Layer1_other神经元与该样本点对应的规则层Layer2_other神经元全连接。具体包括以下步骤：

步骤3.1：将所有可能发生的事件划分为m个基本事件；

步骤3.3：设置规则层Layer2_other中的m个神经元与输入层Layer1_other 神经元的连接关系，将所有能够激发某一基本事件的输入层Layer1_other神经元与该基本事件对应的规则层Layer2_other神经元全连接，并设置权值保证规则层Layer2_other神经元的正确激发，对应不同的输入(事件)，所述权值的设置能够保证输入层Layer1_other到规则层Layer2_other的正确激发，即满足以下三个权值调整规则：a)以一个规则层Layer2_other神经元为基本规则进行权值调试，将基本规则记为神经元A；b)保证与神经元A有连接关系的所有输入层Layer1_other神经元能够激发神经元A，且不会对规则层Layer2_other 的其他神经元造成激发；c)保证与神经元A有连接关系的输入层Layer1_other 的每一个神经元都不能够单独激发神经元A。

步骤4：建立本体的输入层Layer1，对环境中的本体输入信息进行预处理，将输入信息转换为脉冲信号，生成并激发该输入层神经元。具体包括以下步骤：

步骤4.2：将本体输入信息进行数据的预处理，按照脉冲转换规则将信息转换为脉冲发射时间t1，t2……ta，其中预处理的具体操作是：对原始的本体输入信息进行数据转换，使原始输入信息转换成适合数据处理的形式。同样地，支持数据转换的策略有：特征构造、规范化、离散化等多种策略，具体场景具体分析；

步骤5：建立和Layer1对应的规则层layer2，获得本体满足的事件规则，将所有可能发生的事件划分为基本事件即样本点，每一个样本点对应产生规则层layer2的一个神经元，将所有可以激发样本点的输入层layer1神经元与该样本点对应的规则层layer2神经元全连接。具体包括以下步骤：

步骤5.1：将所有可能发生的事件划分为m个基本事件；

步骤5.3：设置规则层Layer2中的m个神经元与本体输入层Layer1神经元的连接关系，将所有能够激发某一基本事件的输入层Layer1神经元与该基本事件对应的规则层Layer2神经元全连接，并设置权值保证规则层Layer2神经元的正确激发，对应不同的输入，所述权值的设置能够保证输入层Layer1到规则层Layer2的正确激发，具体要求参考步骤3.3。

步骤6：建立多智能体博弈的决策层Layer3，在决策层Layer3生成神经元，决策层Layer3神经元个数和规则层layer2神经元个数相等，将规则层layer2神经元和决策层Layer3神经元一一对应，同时layer2至layer3的信息传递还必须受到规则层Layer2_other规则的约束，只有和规则层Layer2_other的激发规则一致的规则层Layer2神经元才能允许输入至决策层Layer3，根据决策层 Layer3内神经元的激发情况生成决策层Layer3的层内突触连接。具体包括以下步骤：

步骤6.1：在决策层Layer3生成m个神经元，为了体现空间信息对决策的作用，同时简化决策的复杂度，该层设置为二维分布；

步骤6.3：信息由规则层Layer2传输至决策层Layer3受到其他智能体规则的限制；具体表现为：假设此环境中激发的其他智能体规则有rule1、rule2…… 等规则神经元，那么只有和rule1、rule2……等规则保持一致的本体规则层神经元才允许被传输至决策层。

步骤6.4：根据HEBB规则以及决策层Layer3神经元的所处的空间位置建立层内连接，HEBB规则为：当两个独立神经元激发时间差值小于阈值时，两个神经元会建立连接；在HEBB规则基础上加上空间位置的限制：只有两个空间距离小于某一距离阈值的时候，HEBB才有效；从而在时间和空间的连接规则下，形成决策层的层内连接。以N1，N2为例进行说明，N1，N2代表两个神经元。根据神经元的连接状态，激活状态的及神经元空间位置，可建立N1， N2的连接关系。如表1所示。

表1

步骤7：建立多智能体博弈的输出层Layer4，输出层Layer4生成的神经元个数和决策层Layer3神经元个数相等，决策层Layer3神经元和输出层Layer4 神经元建立一对一的连接，通过调整决策层Layer3和输出层Layer4的连接权值，得到最终的输出信号。具体包括以下步骤：

步骤7.1：在输出层Layer4生成m个神经元；

步骤7.3：根据STDP规则调整决策层Layer3至输出层Layer4的连接权值， STDP规则为：通过调整引导神经元的激发时间间接调整目标权值，如图2所示，将“引导”神经元的激活时间记为t3，将突触前端神经元记为Npre，激活时间记为t1；突触后端神经元记为Npost，激活时间记为t2。调整“引导”神经元的激活时间t3，可以改变“Npost”神经元的激活时间t2，突触权值的变化幅度与突触连接前后神经元激活时间差有关，权值和时间关系如公式1和公式2所示：

Δt＝t₂-t₁ 公式1

。

本发明中，智能体博弈指的是智能体与智能体之间的交流对抗过程，例如卡牌游戏、即时战略游戏等三方或者以上玩家参与的游戏或者战略，都属于多智能体博弈。其原理是通过学习人类在应用(比如游戏、自动驾驶、武器突防等)当中的数据样本，达到训练数据的效果，从而使这个智能体能够模仿人类应用的操作。博弈的水平全部由智能体从人类样本学习模仿而来。

以下是本发明的在棋牌游戏中的两个具体应用实施例。

实施例1

以基于脉冲神经网络的在非完美信息条件下多智能体博弈——斗地主出牌为例，具体说明本发明的步骤与效果。

在该例中，共有三名玩家，用一副牌(共54张)进行博弈的游戏。在一局游戏中分为两方，一个玩家是“地主”，为一方，剩余两个玩家为农民，为另一方。游戏规定率先出完所有手中卡牌的一方获胜。玩家出牌时，所出的牌必须是玩家拥有的手牌，且必须和上家出牌的牌型规则保持一致，牌值大小大于上家。

一轮游戏中，根据学习的对象，将要训练的一个玩家视为本体，剩余两个玩家视为其他智能体。

斗地主游戏共计54张牌，每一个神经元对应一种牌，所以设定输入层 (Layer1_other)神经元个数54个。输入其他智能体的出牌信息，并对所出的卡牌进行数据处理，按照脉冲转换规则将每一种牌转换为所对应的脉冲发射时间，在获取其他智能体的出牌信息后，在神经网络的输入层找到对应的神经元，并设置其脉冲发射时间。

根据斗地主出牌过程中所有可能的斗地主规则：单张、双王、炸弹、对子、三张、三带一、三带二、四带一、四带二、三连对、四连对、五连对、六连对、七连对、八连对、九连对、十连对、五张顺子、六张顺子、七张顺子、八张顺子、九张顺子、十张顺子、十一张顺子、十二张顺子、二连飞机、飞机带翅膀、三连飞机、飞机带两对、四连飞机、三连飞机带翅膀、五连飞机、三连飞机带三对、四连飞机带翅膀、六连飞机、四连飞机带四对、五连飞机带翅膀，划分为276个基本事件。在其他智能体的规则层(Layer2_other)生成276个神经元，分别对应276种斗地主规则。将Layer2_other中的276个神经元分别与 Layer1_other神经元连接，并设置合适权值。以三连对334455为例，需要将 Layer1_other中代表33，44，55的神经元与Layer2_other中代表334455神经元全连接。连接关系如图3，并设置权值为400，保证神经元的正确激发，只有输入层代表33，44，55的神经元全部被激发的时候，代表334455的规则层神经元才会被激发，且不会造成规则层的其他神经元被激发。

然后是本体的信息处理，与其他智能体的输入层处理一致，设定本体输入层神经元个数为54，每一个神经元对应一种牌。输入本体的出牌信息，并对所出的卡牌进行数据处理，按照脉冲转换规则将每一种牌转换为所对应的脉冲发射时间，在获取玩家手牌信息后，在神经网络的输入层找到对应的神经元，并设置其脉冲发射时间。

根据斗地主出牌过程中所有可能的斗地主规则，在本体的规则层(Layer2) 生成276个神经元，分别对应276种斗地主规则。将Layer2中的276个神经元分别与Layer1神经元连接，并设置合适权值。权值设置方法和其他智能体规则层权值设置方法相同。

在决策层中生成276个神经元，并以二维空间分布。神经元在空间位置分布上按照从优先级分布，优先级是对斗地主规则牌型大小的排序等级。将 Layer2中的神经元和Layer3中的神经元采用one-to-one的形式连接并设置权值，并且加入在Layer2至Layer3的突触连接中加入使能信号，当使能信号为1时，突触连接有效，信息才能由Layer2传递至Layer3,保证Layer2到Layer3的正确激发。假设此环境中激发的其他智能体规则有rule1、rule2……等规则神经元，那么只有和rule1、rule2……等规则保持一致的本体规则层的突触使能信号才为 1，否则为0。再根据HEBB规则形成决策层的内部突触连接：当两个独立神经元激发时间差值小于阈值时，两个神经元会建立连接。在HEBB基础上在加上空间的限制：只有两个空间距离小于某一距离阈值的时候，HEBB才有效。在时间和空间的连接规则下，形成了layer3的层内连接。

在输出层中生成276个神经元，决策层神经元与输出层神经元采用一对一的连接关系，设置初始的连接权值为0，利用监督性STDP规则调整连接权值。取输出层最先激发的神经元作为最终的输出结果。

其中决策层至输出层权值调整步骤如表2：

表2

实施例2

以基于脉冲神经网络的在非完美信息条件下多智能体博弈——德州扑克为例，具体说明本发明的步骤与效果。

在该例中，共有2-10名玩家，用一副去掉大小王后的52张牌进行博弈的游戏。牌局开始时，会给每位玩家发2张“底牌”(只有个人看到)，桌面上分三次陆续发出3张，1张，1张的公共牌，在经过四轮的跟注，加注，弃牌等押注圈操作后，进入摊牌阶段，在自己的2张底牌和5张公共牌中挑选出最大的5张组合，按照牌型大小规则分出胜负，赢家拿下所有筹码。

一轮游戏中，根据学习的对象，将要训练的一个玩家视为本体，剩余其他玩家视为其他智能体。

德州扑克游戏共计52张牌，每一个神经元对应一种牌，所以设定输入层 (Layer1_other)神经元个数52个。输入其他智能体的出牌信息，并对所出的卡牌进行数据处理，按照脉冲转换规则将每一种牌转换为所对应的脉冲发射时间，在获取其他智能体的出牌信息后，在神经网络的输入层找到对应的神经元，并设置其脉冲发射时间。

根据德州扑克游戏过程中所有可能的规则：皇家同花顺，同花顺，四条，葫芦，同花，顺子，三条，两对，一对，高牌，划分为1326个基本事件。在其他智能体的规则层(Layer2_other)生成1326个神经元，分别对应1326种德州扑克规则。将Layer2_other中的1326个神经元分别与Layer1_other神经元连接，并设置合适权值。以同花顺为例，需要5张同花色的连续牌，例如黑桃 45678的组合就是同花顺，需要将Layer1_other中代表黑桃4，5，6，7，8的神经元与Layer2_other中代表黑桃45678(一种同花顺)的神经元全连接，并设置连接权值为400，保证神经元的正确激发，只有输入层代表黑桃4，5，6， 7，8的神经元全部被激发的时候，代表黑桃45678(一种同花顺)的规则层神经元才会被激发，且不会造成规则层的其他神经元被激发。

根据德州扑克出牌过程中所有可能的德州扑克规则，在本体的规则层 (Layer2)生成1326个神经元，分别对应1326种德州扑克规则。将Layer2中的1326个神经元分别与Layer1神经元连接，并设置合适权值。权值设置方法和其他智能体规则层权值设置方法相同。

在决策层中生成1326个神经元，并以二维空间分布。神经元在空间位置分布上按照从优先级分布，优先级是对德州扑克规则牌型大小的排序等级。将 Layer2中的神经元和Layer3中的神经元采用one-to-one的形式连接并设置权值，并且加入在Layer2至Layer3的突触连接中加入使能信号，当使能信号为1时，突触连接有效，信息才能由Layer2传递至Layer3,保证Layer2到Layer3的正确激发。假设此环境中激发的其他智能体规则有rule1、rule2……等规则神经元，那么只有规则大于rule1、rule2……等规则的本体规则层的突触使能信号才为1，否则为0。再根据HEBB规则形成决策层的内部突触连接：当两个独立神经元激发时间差值小于阈值时，两个神经元会建立连接。在HEBB基础上在加上空间的限制：只有两个空间距离小于某一距离阈值的时候，HEBB才有效。在时间和空间的连接规则下，形成了layer3的层内连接。

在输出层中生成1326个神经元，决策层神经元与输出层神经元采用一对一的连接关系，设置初始的连接权值为0，利用监督性STDP规则调整连接权值。取输出层最先激发的神经元作为最终的输出结果。

其中决策层至输出层权值调整步骤如表3：

表3

本发明还可应用到仿人眼认知中，例如行人、其他车辆与自己车辆的路面博弈，实现自动驾驶等智慧交通技术。

Claims

1.一种基于脉冲神经网络的多智能体博弈的方法，其特征在于，包括如下步骤：

步骤2：建立除本体外的其他智能体的输入层Layer1_other，对其他多智能体的输入信息进行预处理，将输入信息转换为脉冲信号，生成并激发输入层Layer1_other神经元；

步骤6：建立多智能体博弈的决策层Layer3，在决策层Layer3生成神经元，决策层Layer3神经元个数和规则层layer2神经元个数相等，将规则层layer2神经元和决策层Layer3神经元一一对应，同时layer2至layer3的信息传递还必须受到规则层Layer2_other规则的约束，只有和规则层Layer2_other的激发规则一致的规则层Layer2神经元才能允许输入至决策层Layer3，根据决策层Layer3内神经元的激发情况生成决策层Layer3的层内突触连接；

步骤7：建立多智能体博弈的输出层Layer4，输出层Layer4生成的神经元个数和决策层Layer3神经元个数相等，决策层Layer3神经元和输出层Layer4神经元建立一对一的连接，通过调整决策层Layer3和输出层Layer4的连接权值，得到最终的输出信号。

2.根据权利要求1所述基于脉冲神经网络的多智能体博弈的方法，其特征在于，所述步骤1具体包括以下步骤：

步骤1.1：确定训练对象，并将其定义为本体；

3.根据权利要求1所述基于脉冲神经网络的多智能体博弈的方法，其特征在于，所述步骤2具体包括以下步骤：

步骤2.4：根据对应关系，设置输入层Layer1_other神经元的脉冲发射时间分别为t1，t2，……，tn，脉冲发射时间不为0的神经元即是被激发的神经元；

所述步骤4具体包括以下步骤：

步骤4.4：根据对应关系，设置输入层Layer1神经元的脉冲发射时间分别为t1，t2，……，ta，脉冲发射时间不为0的神经元即是被激发的神经元。

4.根据权利要求3所述基于脉冲神经网络的多智能体博弈的方法，其特征在于，所述步骤2.1具体包括以下步骤：

所述步骤4.1具体包括以下步骤：

5.根据权利要求1或3或4所述基于脉冲神经网络的多智能体博弈的方法，其特征在于，所述步骤3具体包括以下步骤：

步骤3.1：将所有可能发生的事件划分为m个基本事件；

步骤3.3：设置规则层Layer2_other中的m个神经元与输入层Layer1_other神经元的连接关系，将所有能够激发某一基本事件的输入层Layer1_other神经元与该基本事件对应的规则层Layer2_other神经元全连接，并设置权值保证规则层Layer2_other神经元的正确激发，对应不同的输入，所述权值的设置能够保证输入层Layer1_other到规则层Layer2_other的正确激发；

所述步骤5具体包括以下步骤：

步骤5.1：将所有可能发生的事件划分为m个基本事件；

其中，步骤3和步骤5中的m取值相同。

6.根据权利要求5所述基于脉冲神经网络的多智能体博弈的方法，其特征在于，所述步骤3.3和步骤步骤5.3中，权值设置满足以下三个权值调整规则：a)以一个规则层Layer2_other神经元为基本规则进行权值调试，将基本规则记为神经元A；b)保证与神经元A有连接关系的所有输入层Layer1_other神经元能够激发神经元A，且不会对规则层Layer2_other的其他神经元造成激发；c)保证与神经元A有连接关系的输入层Layer1_other的每一个神经元都不能够单独激发神经元A。

7.根据权利要求1所述基于脉冲神经网络的多智能体博弈的方法，其特征在于，所述步骤6具体包括以下步骤：

步骤6.1：在决策层Layer3生成m个神经元；

8.根据权利要求6所述基于脉冲神经网络的多智能体博弈的方法，其特征在于，所述决策层Layer3设置为二维分布；所述步骤6.4中，HEBB规则为：当两个独立神经元激发时间差值小于阈值时，两个神经元会建立连接；在HEBB规则基础上加上空间位置的限制：只有两个空间距离小于某一距离阈值的时候，HEBB才有效；从而在时间和空间的连接规则下，形成决策层的层内连接。

9.根据权利要求1所述基于脉冲神经网络的多智能体博弈的方法，其特征在于，所述步骤7具体包括以下步骤：

步骤7.1：在输出层Layer4生成m个神经元；

10.根据权利要求9所述基于脉冲神经网络的多智能体博弈的方法，其特征在于，所述步骤7.3中的STDP规则为：通过调整引导神经元的激发时间间接调整目标权值，将引导神经元的激活时间记为t3，将突触前端神经元记为Npre，激活时间记为t1；突触后端神经元记为Npost，激活时间记为t2，调整引导神经元的激活时间t3，改变神经元Npost的激活时间t2，突触权值的变化幅度与突触连接前后神经元激活时间差有关，权值和时间关系如公式1和公式2所示：

△t＝t₂-t₁ 公式1

。