CN114154614A - 一种基于脉冲神经网络的多智能体博弈的方法 - Google Patents

一种基于脉冲神经网络的多智能体博弈的方法 Download PDF

Info

Publication number
CN114154614A
CN114154614A CN202010932812.5A CN202010932812A CN114154614A CN 114154614 A CN114154614 A CN 114154614A CN 202010932812 A CN202010932812 A CN 202010932812A CN 114154614 A CN114154614 A CN 114154614A
Authority
CN
China
Prior art keywords
neurons
input
rule
layer2
neuron
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202010932812.5A
Other languages
English (en)
Other versions
CN114154614B (zh
Inventor
董丽亚
杨旭
晏子华
林深
吉梦瑶
郑文浩
赵晋锋
张志松
王麒淋
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shenzhen Youzhi Chuangxin Technology Co ltd
Original Assignee
Individual
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Individual filed Critical Individual
Priority to CN202010932812.5A priority Critical patent/CN114154614B/zh
Publication of CN114154614A publication Critical patent/CN114154614A/zh
Application granted granted Critical
Publication of CN114154614B publication Critical patent/CN114154614B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/06Physical realisation, i.e. hardware implementation of neural networks, neurons or parts of neurons
    • G06N3/061Physical realisation, i.e. hardware implementation of neural networks, neurons or parts of neurons using biological neurons, e.g. biological neurons connected to an integrated circuit
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Molecular Biology (AREA)
  • General Health & Medical Sciences (AREA)
  • Evolutionary Computation (AREA)
  • Data Mining & Analysis (AREA)
  • Computational Linguistics (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Artificial Intelligence (AREA)
  • Neurology (AREA)
  • Microelectronics & Electronic Packaging (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

一种基于脉冲神经网络的多智能体博弈的方法,将环境中的多智能体区分为本体和其他智能体,建立除本体外的其他智能体的输入层,生成并激发输入层神经元;建立和其他智能体输入层对应的规则层,建立本体的输入层,生成并激发该输入层神经元;建立和本体输入层对应的规则层,建立多智能体博弈的决策层,根据决策层内神经元的激发情况生成决策层的层内突触连接;建立多智能体博弈的输出层,决策层神经元和输出层神经元建立一对一的连接,通过调整决策层和输出层的连接权值,得到最终的输出信号。本发明不仅具备学习推理能力,还大大降低了运算需求,适用于多种环境中的多智能体博弈。

Description

一种基于脉冲神经网络的多智能体博弈的方法
技术领域
本发明属于人工智能、神经网络技术领域,特别涉及一种基于脉冲神经网 络的多智能体博弈的方法。
背景技术
现实社会中,存在大量复杂的动态决策问题,例如,路面交通系统,经济 预测,军事决策等。这些实际的问题对仿生型智能体的需求越来越强烈,一群 智能体是否能够在动态、不确定的环境中像人一样的工作,是解决这些问题的 关键,但当前的多智能体技术还难以应对复杂情况下的挑战。深度学习和深度 强化学习利用自身强大的信息处理能力,在多智能体博弈中表现出优势,但仍 面临着挑战,主要表现为无法进行网络的自生长和自组织,所以面对不确定性 因素时无法进行实时决策,不具备学习推理能力。
发明内容
为了克服上述现有技术的缺点,本发明的目的在于提供一种基于脉冲神经 网络的多智能体博弈的方法,结合脉冲神经网络的仿生型特性,不仅具备学习 推理能力,还大大降低了运算需求,适用于多种环境中的多智能体博弈,可使 所述智能体能够模仿人类操作。
为了实现上述目的,本发明采用的技术方案是:
一种基于脉冲神经网络的多智能体博弈的方法,包括如下步骤:
步骤1:将环境中的多智能体区分为本体和其他智能体,本体需要学习的 内容包括本体输入以及其他智能体对本体的影响;
步骤2:建立除本体外的其他智能体的输入层Layer1_other,对其他多智能 体的输入信息进行预处理,将输入信息转换为脉冲信号,生成并激发输入层 Layer1_other神经元;
步骤3:建立和输入层Layer1_other对应的规则层Layer2_other,获得其他 智能体满足的事件规则,将所有可能发生的事件划分为基本事件即样本点,每 一个样本点对应产生规则层Layer2_other的一个神经元,将所有能够激发样本 点的输入层Layer1_other神经元与该样本点对应的规则层Layer2_other神经元 全连接;
步骤4:建立本体的输入层Layer1,对环境中的本体输入信息进行预处理, 将输入信息转换为脉冲信号,生成并激发该输入层神经元;
步骤5:建立和Layer1对应的规则层layer2,获得本体满足的事件规则, 将所有可能发生的事件划分为基本事件即样本点,每一个样本点对应产生规则 层layer2的一个神经元,将所有可以激发样本点的输入层layer1神经元与该样 本点对应的规则层layer2神经元全连接;
步骤6:建立多智能体博弈的决策层Layer3,在决策层Layer3生成神经元, 决策层Layer3神经元个数和规则层layer2神经元个数相等,将规则层layer2神 经元和决策层Layer3神经元一一对应,同时layer2至layer3的信息传递还必须 受到规则层Layer2_other规则的约束,只有和规则层Layer2_other的激发规则 一致的规则层Layer2神经元才能允许输入至决策层Layer3,根据决策层 Layer3内神经元的激发情况生成决策层Layer3的层内突触连接;
步骤7:建立多智能体博弈的输出层Layer4,输出层Layer4生成的神经元 个数和决策层Layer3神经元个数相等,决策层Layer3神经元和输出层Layer4 神经元建立一对一的连接,通过调整决策层Layer3和输出层Layer4的连接权 值,得到最终的输出信号。
进一步地,所述步骤1具体包括以下步骤:
步骤1.1:确定训练对象,并将其定义为本体;
步骤1.2:将环境中的除本体之外的其他智能体定义为其他智能体。
进一步地,所述步骤2具体包括以下步骤:
步骤2.1:根据多智能体环境下的信息确定其他智能体的输入层信息;
步骤2.2:将输入信息进行数据的预处理,按照脉冲转换规则将输入信息 转换为脉冲发射时间t1,t2……tn;
步骤2.3:根据预处理后的信息确定输入层Layer1_other的神经元个数,每 一个神经元对应一种预处理后的数据,在输入层Layer1_other生成n个输入层 神经元;
步骤2.4:根据对应关系,设置输入层Layer1_other神经元的脉冲发射时间 分别为t1,t2,……,tn,脉冲发射时间不为0的神经元即是被激发的神经元。
进一步地,所述步骤4具体包括以下步骤:
步骤4.1:根据多智能体环境下的信息确定本体的输入层信息;
步骤4.2:将本体输入信息进行数据的预处理,按照脉冲转换规则将信息 转换为脉冲发射时间t1,t2……ta;
步骤4.3:根据预处理后的信息确定输入层Layer1的神经元个数,每一个 神经元对应一种预处理后的数据,在输入层Layer1生成a个输入层神经元;
步骤4.4:根据对应关系,设置输入层Layer1神经元的脉冲发射时间分别 为t1,t2,……,ta,脉冲发射时间不为0的神经元即是被激发的神经元。即, 脉冲发射时间又称脉冲激发时间。设置输入层Layer_other神经元的脉冲发射时 间后,发射时间又代表神经元的激发时间,也表明对应这些神经元被激发。
进一步地,所述步骤2.1具体包括以下步骤:
步骤2.1.1:根据具体的多智能体环境,确定环境中的输入信息;
步骤2.2.2:在所有的输入信息中,找出对其他智能体输出结果有影响的输 入信息,即是其他智能体的输入层信息;
所述步骤2.2和将输入信息进行数据的预处理,具体操作是:对原始的输 入信息进行数据转换,使原始输入信息转换成适合数据处理的形式;
所述步骤4.1具体包括以下步骤:
步骤4.1.1:根据具体的多智能体环境,确定环境中的输入信息;
步骤4.2.2:在所有的输入信息中,找出对本体输出结果有影响的输入信息, 即是本体的输入层信息;
所述步骤4.2将输入信息进行数据的预处理,具体操作是:对原始的本体 输入信息进行数据转换,使原始输入信息转换成适合数据处理的形式。
进一步地,所述步骤3具体包括以下步骤:
步骤3.1:将所有可能发生的事件划分为m个基本事件;
步骤3.2:在规则层Layer2_other生成m个神经元,将m个基本事件分别 对应规则层Layer2_other中的m个神经元;
步骤3.3:设置规则层Layer2_other中的m个神经元与输入层Layer1_other 神经元的连接关系,将所有能够激发某一基本事件的输入层Layer1_other神经 元与该基本事件对应的规则层Layer2_other神经元全连接,并设置权值保证规 则层Layer2_other神经元的正确激发,对应不同的输入,所述权值的设置能够 保证输入层Layer1_other到规则层Layer2_other的正确激发。
进一步地,所述步骤5具体包括以下步骤:
步骤5.1:将所有可能发生的事件划分为m个基本事件;
步骤5.2:在规则层Layer2中生成m个神经元,将m个基本事件分别对应 规则层Layer2中的m个神经元;
步骤5.3:设置规则层Layer2中的m个神经元与本体输入层Layer1神经元 的连接关系,将所有能够激发某一基本事件的输入层Layer1神经元与该基本事 件对应的规则层Layer2神经元全连接,并设置权值保证规则层Layer2神经元 的正确激发,对应不同的输入,所述权值的设置能够保证输入层Layer1到规则 层Layer2的正确激发;
其中,步骤3和步骤5中的m取值相同。
进一步地,所述步骤3.3和步骤步骤5.3中,权值设置满足以下三个权值调 整规则:a)以一个规则层Layer2_other神经元为基本规则进行权值调试,将基 本规则记为神经元A;b)保证与神经元A有连接关系的所有输入层 Layer1_other神经元能够激发神经元A,且不会对规则层Layer2_other的其他神 经元造成激发;c)保证与神经元A有连接关系的输入层Layer1_other的每一 个神经元都不能够单独激发神经元A。
进一步地,所述步骤6具体包括以下步骤:
步骤6.1:在决策层Layer3生成m个神经元;
步骤6.2:将规则层Layer2神经元和决策层Layer3神经元一对一连接;
步骤6.3:信息由规则层Layer2传输至决策层Layer3受到其他智能体规则 的限制;
步骤6.4:根据HEBB规则以及决策层Layer3神经元的所处的空间位置建 立层内连接。
进一步地,所述决策层Layer3设置为二维分布;所述步骤6.4中,HEBB 规则为:当两个独立神经元激发时间差值小于阈值时,两个神经元会建立连接; 在HEBB规则基础上加上空间位置的限制:只有两个空间距离小于某一距离阈 值的时候,HEBB才有效;从而在时间和空间的连接规则下,形成决策层的层 内连接。
进一步地,所述步骤7具体包括以下步骤:
步骤7.1:在输出层Layer4生成m个神经元;
步骤7.2:将决策层Layer3神经元和输出层Layer4神经元一对一连接;
步骤7.3:根据STDP规则调整决策层Layer3至输出层Layer4的连接权值;
步骤7.4:取输出层Layer4最先激发的神经元作为最终的输出结果。
进一步地,所述步骤7.3中的STDP规则为:通过调整引导神经元的激发 时间间接调整目标权值,将引导神经元的激活时间记为t3,将突触前端神经元 记为Npre,激活时间记为t1;突触后端神经元记为Npost,激活时间记为t2, 调整引导神经元的激活时间t3,改变神经元Npost的激活时间t2,突触权值的 变化幅度与突触连接前后神经元激活时间差有关,权值和时间关系如公式1和 公式2所示:
Δt=t2-t1 公式1
Figure BDA0002670843080000061
与现有技术相比,本发明的有益效果是:
1)、本发明的小样本学习能力突出,不涉及大量的数据运算,节约了算 力和时间。
2)、本发明智能化程度高,是依据仿生学特性提出的多智能体博弈,具 有动态学习和联想推理能力,通过训练可模仿人类操作。
3)、本发明设计的结构对环境中的多智能体博弈具有通用性。
附图说明
图1是本发明整体框图。
图2是STDP规则示意图
图3是实施例1中输入层和规则层的连接示意图。
具体实施方式
下面结合附图和实施例详细说明本发明的实施方式。
参考图1,本发明一种基于脉冲神经网络的多智能体博弈的方法,包括如 下步骤:
步骤1:将环境中的多智能体区分为本体和其他智能体,本体需要学习的 内容包括本体输入以及其他智能体对本体的影响。具体包括以下步骤:
步骤1.1:确定训练对象,并将其定义为本体;
步骤1.2:将环境中的除本体之外的其他智能体定义为其他智能体。
步骤2:建立除本体外的其他智能体的输入层Layer1_other(每一个智能体 均需构建一个Layer1_other网络,例如,其他多智能体包含4个智能体,则按 照步骤2生成4个Layer_other层),对其他多智能体的输入信息进行预处理, 将输入信息转换为脉冲信号,生成并激发输入层Layer1_other神经元。具体包 括以下步骤:
步骤2.1:根据多智能体环境下的信息确定其他智能体的输入层信息;
步骤2.1.1:根据具体的多智能体环境,确定环境中的输入信息;
步骤2.2.2:在所有的输入信息中,找出对其他智能体输出结果有影响的输 入信息,即是其他智能体的输入层信息;
步骤2.2:将输入信息进行数据的预处理,按照脉冲转换规则将输入信息 转换为脉冲发射时间t1,t2……tn,其中预处理的具体操作是:对原始的输入 信息进行数据转换,使原始输入信息转换成适合数据处理的形式;其中支持数 据转换的策略有:特征构造、规范化、离散化等多种策略,具体场景具体分析;
步骤2.3:根据预处理后的信息确定输入层Layer1_other的神经元个数,每 一个神经元对应一种预处理后的数据,在输入层Layer1_other生成n个输入层 神经元;
步骤2.4:根据对应关系,设置输入层Layer1_other神经元的脉冲发射时间 分别为t1,t2,……,tn,脉冲发射时间不为0的神经元即是被激发的神经元。
步骤3:建立和输入层Layer1_other对应的规则层Layer2_other,获得其他 智能体满足的事件规则,将所有可能发生的事件划分为基本事件即样本点,每 一个样本点对应产生规则层Layer2_other的一个神经元,将所有能够激发样本 点的输入层Layer1_other神经元与该样本点对应的规则层Layer2_other神经元 全连接。具体包括以下步骤:
步骤3.1:将所有可能发生的事件划分为m个基本事件;
步骤3.2:在规则层Layer2_other生成m个神经元,将m个基本事件分别 对应规则层Layer2_other中的m个神经元;
步骤3.3:设置规则层Layer2_other中的m个神经元与输入层Layer1_other 神经元的连接关系,将所有能够激发某一基本事件的输入层Layer1_other神经 元与该基本事件对应的规则层Layer2_other神经元全连接,并设置权值保证规 则层Layer2_other神经元的正确激发,对应不同的输入(事件),所述权值的 设置能够保证输入层Layer1_other到规则层Layer2_other的正确激发,即满足 以下三个权值调整规则:a)以一个规则层Layer2_other神经元为基本规则进行 权值调试,将基本规则记为神经元A;b)保证与神经元A有连接关系的所有 输入层Layer1_other神经元能够激发神经元A,且不会对规则层Layer2_other 的其他神经元造成激发;c)保证与神经元A有连接关系的输入层Layer1_other 的每一个神经元都不能够单独激发神经元A。
步骤4:建立本体的输入层Layer1,对环境中的本体输入信息进行预处理, 将输入信息转换为脉冲信号,生成并激发该输入层神经元。具体包括以下步骤:
步骤4.1:根据多智能体环境下的信息确定本体的输入层信息;
步骤4.1.1:根据具体的多智能体环境,确定环境中的输入信息;
步骤4.2.2:在所有的输入信息中,找出对本体输出结果有影响的输入信息, 即是本体的输入层信息;
步骤4.2:将本体输入信息进行数据的预处理,按照脉冲转换规则将信息 转换为脉冲发射时间t1,t2……ta,其中预处理的具体操作是:对原始的本体 输入信息进行数据转换,使原始输入信息转换成适合数据处理的形式。同样地, 支持数据转换的策略有:特征构造、规范化、离散化等多种策略,具体场景具 体分析;
步骤4.3:根据预处理后的信息确定输入层Layer1的神经元个数,每一个 神经元对应一种预处理后的数据,在输入层Layer1生成a个输入层神经元;
步骤4.4:根据对应关系,设置输入层Layer1神经元的脉冲发射时间分别 为t1,t2,……,ta,脉冲发射时间不为0的神经元即是被激发的神经元。即, 脉冲发射时间又称脉冲激发时间。设置输入层Layer_other神经元的脉冲发射时 间后,发射时间又代表神经元的激发时间,也表明对应这些神经元被激发。
步骤5:建立和Layer1对应的规则层layer2,获得本体满足的事件规则, 将所有可能发生的事件划分为基本事件即样本点,每一个样本点对应产生规则 层layer2的一个神经元,将所有可以激发样本点的输入层layer1神经元与该样 本点对应的规则层layer2神经元全连接。具体包括以下步骤:
步骤5.1:将所有可能发生的事件划分为m个基本事件;
步骤5.2:在规则层Layer2中生成m个神经元,将m个基本事件分别对应 规则层Layer2中的m个神经元;
步骤5.3:设置规则层Layer2中的m个神经元与本体输入层Layer1神经元 的连接关系,将所有能够激发某一基本事件的输入层Layer1神经元与该基本事 件对应的规则层Layer2神经元全连接,并设置权值保证规则层Layer2神经元 的正确激发,对应不同的输入,所述权值的设置能够保证输入层Layer1到规则 层Layer2的正确激发,具体要求参考步骤3.3。
步骤6:建立多智能体博弈的决策层Layer3,在决策层Layer3生成神经元, 决策层Layer3神经元个数和规则层layer2神经元个数相等,将规则层layer2神 经元和决策层Layer3神经元一一对应,同时layer2至layer3的信息传递还必须 受到规则层Layer2_other规则的约束,只有和规则层Layer2_other的激发规则 一致的规则层Layer2神经元才能允许输入至决策层Layer3,根据决策层 Layer3内神经元的激发情况生成决策层Layer3的层内突触连接。具体包括以下 步骤:
步骤6.1:在决策层Layer3生成m个神经元,为了体现空间信息对决策的 作用,同时简化决策的复杂度,该层设置为二维分布;
步骤6.2:将规则层Layer2神经元和决策层Layer3神经元一对一连接;
步骤6.3:信息由规则层Layer2传输至决策层Layer3受到其他智能体规则 的限制;具体表现为:假设此环境中激发的其他智能体规则有rule1、rule2…… 等规则神经元,那么只有和rule1、rule2……等规则保持一致的本体规则层神经 元才允许被传输至决策层。
步骤6.4:根据HEBB规则以及决策层Layer3神经元的所处的空间位置建 立层内连接,HEBB规则为:当两个独立神经元激发时间差值小于阈值时,两 个神经元会建立连接;在HEBB规则基础上加上空间位置的限制:只有两个空 间距离小于某一距离阈值的时候,HEBB才有效;从而在时间和空间的连接规 则下,形成决策层的层内连接。以N1,N2为例进行说明,N1,N2代表两个 神经元。根据神经元的连接状态,激活状态的及神经元空间位置,可建立N1, N2的连接关系。如表1所示。
表1
Figure BDA0002670843080000101
步骤7:建立多智能体博弈的输出层Layer4,输出层Layer4生成的神经元 个数和决策层Layer3神经元个数相等,决策层Layer3神经元和输出层Layer4 神经元建立一对一的连接,通过调整决策层Layer3和输出层Layer4的连接权 值,得到最终的输出信号。具体包括以下步骤:
步骤7.1:在输出层Layer4生成m个神经元;
步骤7.2:将决策层Layer3神经元和输出层Layer4神经元一对一连接;
步骤7.3:根据STDP规则调整决策层Layer3至输出层Layer4的连接权值, STDP规则为:通过调整引导神经元的激发时间间接调整目标权值,如图2所 示,将“引导”神经元的激活时间记为t3,将突触前端神经元记为Npre,激活时 间记为t1;突触后端神经元记为Npost,激活时间记为t2。调整“引导”神经元 的激活时间t3,可以改变“Npost”神经元的激活时间t2,突触权值的变化幅度与 突触连接前后神经元激活时间差有关,权值和时间关系如公式1和公式2所示:
Δt=t2-t1 公式1
Figure BDA0002670843080000111
步骤7.4:取输出层Layer4最先激发的神经元作为最终的输出结果。
本发明中,智能体博弈指的是智能体与智能体之间的交流对抗过程,例如 卡牌游戏、即时战略游戏等三方或者以上玩家参与的游戏或者战略,都属于多 智能体博弈。其原理是通过学习人类在应用(比如游戏、自动驾驶、武器突防 等)当中的数据样本,达到训练数据的效果,从而使这个智能体能够模仿人类 应用的操作。博弈的水平全部由智能体从人类样本学习模仿而来。
以下是本发明的在棋牌游戏中的两个具体应用实施例。
实施例1
以基于脉冲神经网络的在非完美信息条件下多智能体博弈——斗地主出牌 为例,具体说明本发明的步骤与效果。
在该例中,共有三名玩家,用一副牌(共54张)进行博弈的游戏。在一 局游戏中分为两方,一个玩家是“地主”,为一方,剩余两个玩家为农民,为另 一方。游戏规定率先出完所有手中卡牌的一方获胜。玩家出牌时,所出的牌必 须是玩家拥有的手牌,且必须和上家出牌的牌型规则保持一致,牌值大小大于 上家。
一轮游戏中,根据学习的对象,将要训练的一个玩家视为本体,剩余两个 玩家视为其他智能体。
斗地主游戏共计54张牌,每一个神经元对应一种牌,所以设定输入层 (Layer1_other)神经元个数54个。输入其他智能体的出牌信息,并对所出的 卡牌进行数据处理,按照脉冲转换规则将每一种牌转换为所对应的脉冲发射时 间,在获取其他智能体的出牌信息后,在神经网络的输入层找到对应的神经元, 并设置其脉冲发射时间。
根据斗地主出牌过程中所有可能的斗地主规则:单张、双王、炸弹、对子、 三张、三带一、三带二、四带一、四带二、三连对、四连对、五连对、六连对、 七连对、八连对、九连对、十连对、五张顺子、六张顺子、七张顺子、八张顺 子、九张顺子、十张顺子、十一张顺子、十二张顺子、二连飞机、飞机带翅膀、 三连飞机、飞机带两对、四连飞机、三连飞机带翅膀、五连飞机、三连飞机带 三对、四连飞机带翅膀、六连飞机、四连飞机带四对、五连飞机带翅膀,划分 为276个基本事件。在其他智能体的规则层(Layer2_other)生成276个神经元, 分别对应276种斗地主规则。将Layer2_other中的276个神经元分别与 Layer1_other神经元连接,并设置合适权值。以三连对334455为例,需要将 Layer1_other中代表33,44,55的神经元与Layer2_other中代表334455神经元 全连接。连接关系如图3,并设置权值为400,保证神经元的正确激发,只有 输入层代表33,44,55的神经元全部被激发的时候,代表334455的规则层神 经元才会被激发,且不会造成规则层的其他神经元被激发。
然后是本体的信息处理,与其他智能体的输入层处理一致,设定本体输入 层神经元个数为54,每一个神经元对应一种牌。输入本体的出牌信息,并对所 出的卡牌进行数据处理,按照脉冲转换规则将每一种牌转换为所对应的脉冲发 射时间,在获取玩家手牌信息后,在神经网络的输入层找到对应的神经元,并 设置其脉冲发射时间。
根据斗地主出牌过程中所有可能的斗地主规则,在本体的规则层(Layer2) 生成276个神经元,分别对应276种斗地主规则。将Layer2中的276个神经元 分别与Layer1神经元连接,并设置合适权值。权值设置方法和其他智能体规则 层权值设置方法相同。
在决策层中生成276个神经元,并以二维空间分布。神经元在空间位置分 布上按照从优先级分布,优先级是对斗地主规则牌型大小的排序等级。将 Layer2中的神经元和Layer3中的神经元采用one-to-one的形式连接并设置权值, 并且加入在Layer2至Layer3的突触连接中加入使能信号,当使能信号为1时, 突触连接有效,信息才能由Layer2传递至Layer3,保证Layer2到Layer3的正确 激发。假设此环境中激发的其他智能体规则有rule1、rule2……等规则神经元, 那么只有和rule1、rule2……等规则保持一致的本体规则层的突触使能信号才为 1,否则为0。再根据HEBB规则形成决策层的内部突触连接:当两个独立神经 元激发时间差值小于阈值时,两个神经元会建立连接。在HEBB基础上在加上 空间的限制:只有两个空间距离小于某一距离阈值的时候,HEBB才有效。在 时间和空间的连接规则下,形成了layer3的层内连接。
在输出层中生成276个神经元,决策层神经元与输出层神经元采用一对一 的连接关系,设置初始的连接权值为0,利用监督性STDP规则调整连接权值。 取输出层最先激发的神经元作为最终的输出结果。
其中决策层至输出层权值调整步骤如表2:
表2
Figure BDA0002670843080000131
Figure BDA0002670843080000141
实施例2
以基于脉冲神经网络的在非完美信息条件下多智能体博弈——德州扑克为 例,具体说明本发明的步骤与效果。
在该例中,共有2-10名玩家,用一副去掉大小王后的52张牌进行博弈的 游戏。牌局开始时,会给每位玩家发2张“底牌”(只有个人看到),桌面上 分三次陆续发出3张,1张,1张的公共牌,在经过四轮的跟注,加注,弃牌等 押注圈操作后,进入摊牌阶段,在自己的2张底牌和5张公共牌中挑选出最大 的5张组合,按照牌型大小规则分出胜负,赢家拿下所有筹码。
一轮游戏中,根据学习的对象,将要训练的一个玩家视为本体,剩余其他 玩家视为其他智能体。
德州扑克游戏共计52张牌,每一个神经元对应一种牌,所以设定输入层 (Layer1_other)神经元个数52个。输入其他智能体的出牌信息,并对所出的 卡牌进行数据处理,按照脉冲转换规则将每一种牌转换为所对应的脉冲发射时 间,在获取其他智能体的出牌信息后,在神经网络的输入层找到对应的神经元, 并设置其脉冲发射时间。
根据德州扑克游戏过程中所有可能的规则:皇家同花顺,同花顺,四条, 葫芦,同花,顺子,三条,两对,一对,高牌,划分为1326个基本事件。在 其他智能体的规则层(Layer2_other)生成1326个神经元,分别对应1326种德 州扑克规则。将Layer2_other中的1326个神经元分别与Layer1_other神经元连 接,并设置合适权值。以同花顺为例,需要5张同花色的连续牌,例如黑桃 45678的组合就是同花顺,需要将Layer1_other中代表黑桃4,5,6,7,8的 神经元与Layer2_other中代表黑桃45678(一种同花顺)的神经元全连接,并 设置连接权值为400,保证神经元的正确激发,只有输入层代表黑桃4,5,6, 7,8的神经元全部被激发的时候,代表黑桃45678(一种同花顺)的规则层神 经元才会被激发,且不会造成规则层的其他神经元被激发。
然后是本体的信息处理,与其他智能体的输入层处理一致,设定本体输入 层神经元个数为54,每一个神经元对应一种牌。输入本体的出牌信息,并对所 出的卡牌进行数据处理,按照脉冲转换规则将每一种牌转换为所对应的脉冲发 射时间,在获取玩家手牌信息后,在神经网络的输入层找到对应的神经元,并 设置其脉冲发射时间。
根据德州扑克出牌过程中所有可能的德州扑克规则,在本体的规则层 (Layer2)生成1326个神经元,分别对应1326种德州扑克规则。将Layer2中 的1326个神经元分别与Layer1神经元连接,并设置合适权值。权值设置方法 和其他智能体规则层权值设置方法相同。
在决策层中生成1326个神经元,并以二维空间分布。神经元在空间位置 分布上按照从优先级分布,优先级是对德州扑克规则牌型大小的排序等级。将 Layer2中的神经元和Layer3中的神经元采用one-to-one的形式连接并设置权值, 并且加入在Layer2至Layer3的突触连接中加入使能信号,当使能信号为1时, 突触连接有效,信息才能由Layer2传递至Layer3,保证Layer2到Layer3的正确 激发。假设此环境中激发的其他智能体规则有rule1、rule2……等规则神经元, 那么只有规则大于rule1、rule2……等规则的本体规则层的突触使能信号才为1, 否则为0。再根据HEBB规则形成决策层的内部突触连接:当两个独立神经元 激发时间差值小于阈值时,两个神经元会建立连接。在HEBB基础上在加上空 间的限制:只有两个空间距离小于某一距离阈值的时候,HEBB才有效。在时 间和空间的连接规则下,形成了layer3的层内连接。
在输出层中生成1326个神经元,决策层神经元与输出层神经元采用一对 一的连接关系,设置初始的连接权值为0,利用监督性STDP规则调整连接权 值。取输出层最先激发的神经元作为最终的输出结果。
其中决策层至输出层权值调整步骤如表3:
表3
Figure BDA0002670843080000161
Figure BDA0002670843080000171
本发明还可应用到仿人眼认知中,例如行人、其他车辆与自己车辆的路面 博弈,实现自动驾驶等智慧交通技术。

Claims (10)

1.一种基于脉冲神经网络的多智能体博弈的方法,其特征在于,包括如下步骤:
步骤1:将环境中的多智能体区分为本体和其他智能体,本体需要学习的内容包括本体输入以及其他智能体对本体的影响;
步骤2:建立除本体外的其他智能体的输入层Layer1_other,对其他多智能体的输入信息进行预处理,将输入信息转换为脉冲信号,生成并激发输入层Layer1_other神经元;
步骤3:建立和输入层Layer1_other对应的规则层Layer2_other,获得其他智能体满足的事件规则,将所有可能发生的事件划分为基本事件即样本点,每一个样本点对应产生规则层Layer2_other的一个神经元,将所有能够激发样本点的输入层Layer1_other神经元与该样本点对应的规则层Layer2_other神经元全连接;
步骤4:建立本体的输入层Layer1,对环境中的本体输入信息进行预处理,将输入信息转换为脉冲信号,生成并激发该输入层神经元;
步骤5:建立和Layer1对应的规则层layer2,获得本体满足的事件规则,将所有可能发生的事件划分为基本事件即样本点,每一个样本点对应产生规则层layer2的一个神经元,将所有可以激发样本点的输入层layer1神经元与该样本点对应的规则层layer2神经元全连接;
步骤6:建立多智能体博弈的决策层Layer3,在决策层Layer3生成神经元,决策层Layer3神经元个数和规则层layer2神经元个数相等,将规则层layer2神经元和决策层Layer3神经元一一对应,同时layer2至layer3的信息传递还必须受到规则层Layer2_other规则的约束,只有和规则层Layer2_other的激发规则一致的规则层Layer2神经元才能允许输入至决策层Layer3,根据决策层Layer3内神经元的激发情况生成决策层Layer3的层内突触连接;
步骤7:建立多智能体博弈的输出层Layer4,输出层Layer4生成的神经元个数和决策层Layer3神经元个数相等,决策层Layer3神经元和输出层Layer4神经元建立一对一的连接,通过调整决策层Layer3和输出层Layer4的连接权值,得到最终的输出信号。
2.根据权利要求1所述基于脉冲神经网络的多智能体博弈的方法,其特征在于,所述步骤1具体包括以下步骤:
步骤1.1:确定训练对象,并将其定义为本体;
步骤1.2:将环境中的除本体之外的其他智能体定义为其他智能体。
3.根据权利要求1所述基于脉冲神经网络的多智能体博弈的方法,其特征在于,所述步骤2具体包括以下步骤:
步骤2.1:根据多智能体环境下的信息确定其他智能体的输入层信息;
步骤2.2:将输入信息进行数据的预处理,按照脉冲转换规则将输入信息转换为脉冲发射时间t1,t2……tn;
步骤2.3:根据预处理后的信息确定输入层Layer1_other的神经元个数,每一个神经元对应一种预处理后的数据,在输入层Layer1_other生成n个输入层神经元;
步骤2.4:根据对应关系,设置输入层Layer1_other神经元的脉冲发射时间分别为t1,t2,……,tn,脉冲发射时间不为0的神经元即是被激发的神经元;
所述步骤4具体包括以下步骤:
步骤4.1:根据多智能体环境下的信息确定本体的输入层信息;
步骤4.2:将本体输入信息进行数据的预处理,按照脉冲转换规则将信息转换为脉冲发射时间t1,t2……ta;
步骤4.3:根据预处理后的信息确定输入层Layer1的神经元个数,每一个神经元对应一种预处理后的数据,在输入层Layer1生成a个输入层神经元;
步骤4.4:根据对应关系,设置输入层Layer1神经元的脉冲发射时间分别为t1,t2,……,ta,脉冲发射时间不为0的神经元即是被激发的神经元。
4.根据权利要求3所述基于脉冲神经网络的多智能体博弈的方法,其特征在于,所述步骤2.1具体包括以下步骤:
步骤2.1.1:根据具体的多智能体环境,确定环境中的输入信息;
步骤2.2.2:在所有的输入信息中,找出对其他智能体输出结果有影响的输入信息,即是其他智能体的输入层信息;
所述步骤2.2和将输入信息进行数据的预处理,具体操作是:对原始的输入信息进行数据转换,使原始输入信息转换成适合数据处理的形式;
所述步骤4.1具体包括以下步骤:
步骤4.1.1:根据具体的多智能体环境,确定环境中的输入信息;
步骤4.2.2:在所有的输入信息中,找出对本体输出结果有影响的输入信息,即是本体的输入层信息;
所述步骤4.2将输入信息进行数据的预处理,具体操作是:对原始的本体输入信息进行数据转换,使原始输入信息转换成适合数据处理的形式。
5.根据权利要求1或3或4所述基于脉冲神经网络的多智能体博弈的方法,其特征在于,所述步骤3具体包括以下步骤:
步骤3.1:将所有可能发生的事件划分为m个基本事件;
步骤3.2:在规则层Layer2_other生成m个神经元,将m个基本事件分别对应规则层Layer2_other中的m个神经元;
步骤3.3:设置规则层Layer2_other中的m个神经元与输入层Layer1_other神经元的连接关系,将所有能够激发某一基本事件的输入层Layer1_other神经元与该基本事件对应的规则层Layer2_other神经元全连接,并设置权值保证规则层Layer2_other神经元的正确激发,对应不同的输入,所述权值的设置能够保证输入层Layer1_other到规则层Layer2_other的正确激发;
所述步骤5具体包括以下步骤:
步骤5.1:将所有可能发生的事件划分为m个基本事件;
步骤5.2:在规则层Layer2中生成m个神经元,将m个基本事件分别对应规则层Layer2中的m个神经元;
步骤5.3:设置规则层Layer2中的m个神经元与本体输入层Layer1神经元的连接关系,将所有能够激发某一基本事件的输入层Layer1神经元与该基本事件对应的规则层Layer2神经元全连接,并设置权值保证规则层Layer2神经元的正确激发,对应不同的输入,所述权值的设置能够保证输入层Layer1到规则层Layer2的正确激发;
其中,步骤3和步骤5中的m取值相同。
6.根据权利要求5所述基于脉冲神经网络的多智能体博弈的方法,其特征在于,所述步骤3.3和步骤步骤5.3中,权值设置满足以下三个权值调整规则:a)以一个规则层Layer2_other神经元为基本规则进行权值调试,将基本规则记为神经元A;b)保证与神经元A有连接关系的所有输入层Layer1_other神经元能够激发神经元A,且不会对规则层Layer2_other的其他神经元造成激发;c)保证与神经元A有连接关系的输入层Layer1_other的每一个神经元都不能够单独激发神经元A。
7.根据权利要求1所述基于脉冲神经网络的多智能体博弈的方法,其特征在于,所述步骤6具体包括以下步骤:
步骤6.1:在决策层Layer3生成m个神经元;
步骤6.2:将规则层Layer2神经元和决策层Layer3神经元一对一连接;
步骤6.3:信息由规则层Layer2传输至决策层Layer3受到其他智能体规则的限制;
步骤6.4:根据HEBB规则以及决策层Layer3神经元的所处的空间位置建立层内连接。
8.根据权利要求6所述基于脉冲神经网络的多智能体博弈的方法,其特征在于,所述决策层Layer3设置为二维分布;所述步骤6.4中,HEBB规则为:当两个独立神经元激发时间差值小于阈值时,两个神经元会建立连接;在HEBB规则基础上加上空间位置的限制:只有两个空间距离小于某一距离阈值的时候,HEBB才有效;从而在时间和空间的连接规则下,形成决策层的层内连接。
9.根据权利要求1所述基于脉冲神经网络的多智能体博弈的方法,其特征在于,所述步骤7具体包括以下步骤:
步骤7.1:在输出层Layer4生成m个神经元;
步骤7.2:将决策层Layer3神经元和输出层Layer4神经元一对一连接;
步骤7.3:根据STDP规则调整决策层Layer3至输出层Layer4的连接权值;
步骤7.4:取输出层Layer4最先激发的神经元作为最终的输出结果。
10.根据权利要求9所述基于脉冲神经网络的多智能体博弈的方法,其特征在于,所述步骤7.3中的STDP规则为:通过调整引导神经元的激发时间间接调整目标权值,将引导神经元的激活时间记为t3,将突触前端神经元记为Npre,激活时间记为t1;突触后端神经元记为Npost,激活时间记为t2,调整引导神经元的激活时间t3,改变神经元Npost的激活时间t2,突触权值的变化幅度与突触连接前后神经元激活时间差有关,权值和时间关系如公式1和公式2所示:
△t=t2-t1 公式1
Figure FDA0002670843070000051
CN202010932812.5A 2020-09-08 2020-09-08 一种基于脉冲神经网络的多智能体博弈的方法 Active CN114154614B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010932812.5A CN114154614B (zh) 2020-09-08 2020-09-08 一种基于脉冲神经网络的多智能体博弈的方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010932812.5A CN114154614B (zh) 2020-09-08 2020-09-08 一种基于脉冲神经网络的多智能体博弈的方法

Publications (2)

Publication Number Publication Date
CN114154614A true CN114154614A (zh) 2022-03-08
CN114154614B CN114154614B (zh) 2024-06-11

Family

ID=80460532

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010932812.5A Active CN114154614B (zh) 2020-09-08 2020-09-08 一种基于脉冲神经网络的多智能体博弈的方法

Country Status (1)

Country Link
CN (1) CN114154614B (zh)

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107341539A (zh) * 2017-05-11 2017-11-10 财团法人交大思源基金会 神经网络处理系统
CN108764453A (zh) * 2018-06-08 2018-11-06 中国科学技术大学 面向多智能体同步博弈的建模方法及动作预测系统
CN109496318A (zh) * 2018-07-30 2019-03-19 东莞理工学院 基于深度强化学习的自适应博弈算法
CN109871940A (zh) * 2019-01-31 2019-06-11 清华大学 一种脉冲神经网络的多层训练算法
US20200103514A1 (en) * 2018-09-27 2020-04-02 Hankookin, Inc. Dynamical Object Oriented Information System For Sustaining Vitality Of A Target System

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107341539A (zh) * 2017-05-11 2017-11-10 财团法人交大思源基金会 神经网络处理系统
CN108764453A (zh) * 2018-06-08 2018-11-06 中国科学技术大学 面向多智能体同步博弈的建模方法及动作预测系统
CN109496318A (zh) * 2018-07-30 2019-03-19 东莞理工学院 基于深度强化学习的自适应博弈算法
US20200103514A1 (en) * 2018-09-27 2020-04-02 Hankookin, Inc. Dynamical Object Oriented Information System For Sustaining Vitality Of A Target System
CN109871940A (zh) * 2019-01-31 2019-06-11 清华大学 一种脉冲神经网络的多层训练算法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
丁盼: "基于神经网络的挖掘机智能化控制研究", 《中国优秀硕士学位论文全文数据库工程科技Ⅱ辑》, 30 April 2019 (2019-04-30), pages 029 - 239 *

Also Published As

Publication number Publication date
CN114154614B (zh) 2024-06-11

Similar Documents

Publication Publication Date Title
Shao et al. Starcraft micromanagement with reinforcement learning and curriculum transfer learning
CN113467508B (zh) 面向围捕任务的多无人机智能协同决策方法
Tesauro et al. A parallel network that learns to play backgammon
CN111282267B (zh) 信息处理方法、装置、介质及电子设备
CN111569429B (zh) 模型训练方法、模型使用方法、计算机设备及存储介质
CN109598342B (zh) 一种决策网络模型自博弈训练方法及系统
CN114415735B (zh) 面向动态环境的多无人机分布式智能任务分配方法
CN114358141A (zh) 一种面向多作战单元协同决策的多智能体增强学习方法
CN114330651A (zh) 面向多要素联合指控的分层多智能体增强学习方法
CN117010476A (zh) 一种基于深度强化学习的多智能体自主决策方法
Cao et al. Autonomous maneuver decision of UCAV air combat based on double deep Q network algorithm and stochastic game theory
CN116205298A (zh) 一种基于深度强化学习的对手行为策略建模方法及系统
Holdaway et al. Risk-taking in adversarial games: What can 1 billion online chess games tell us?
CN114154614A (zh) 一种基于脉冲神经网络的多智能体博弈的方法
Charles et al. Biologically inspired artificial intelligence for computer games
Olson Learning to play games from experience: An application of artificial neural networks and temporal difference learning
CN116596343A (zh) 一种基于深度强化学习的智能兵棋推演决策方法
CN116340737A (zh) 基于多智能体强化学习的异构集群零通信目标分配方法
Showalter et al. Multiobjective neuromodulated controllers for efficient autonomous vehicles with mass and drag in the pursuit-evasion game
Stoppels Predicting race results using artificial neural networks
CN111185010B (zh) 一种用脉冲神经网络构建斗地主出牌程序的系统与方法
CN114202175A (zh) 一种基于人工智能的作战任务规划方法及系统
CN112446465A (zh) 一种基于脉冲神经网络在非完美信息条件下决策的方法
Dong et al. The algorithm of spiking neural network and application in Poker games
Zhang et al. A Bionic Spiking Recurrent Neural Network with Sparse Connections and Dale's Principle

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
TA01 Transfer of patent application right
TA01 Transfer of patent application right

Effective date of registration: 20240513

Address after: 518066 2116d, main tower of shipping center, No. 59, Linhai Avenue, Nanshan street, Qianhai Shenzhen Hong Kong cooperation zone, Shenzhen, Guangdong

Applicant after: Shenzhen Youzhi Chuangxin Technology Co.,Ltd.

Country or region after: China

Address before: 100086 room 9b, unit 3, block C, Yingdu building, Zhichun Road, Haidian District, Beijing

Applicant before: Yang Xu

Country or region before: China

GR01 Patent grant
GR01 Patent grant