CN107479380A - 基于演化博弈理论的多智能体协调控制方法 - Google Patents
基于演化博弈理论的多智能体协调控制方法 Download PDFInfo
- Publication number
- CN107479380A CN107479380A CN201710741105.6A CN201710741105A CN107479380A CN 107479380 A CN107479380 A CN 107479380A CN 201710741105 A CN201710741105 A CN 201710741105A CN 107479380 A CN107479380 A CN 107479380A
- Authority
- CN
- China
- Prior art keywords
- agent
- fitness
- agents
- intelligent
- game
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Classifications
-
- G—PHYSICS
- G05—CONTROLLING; REGULATING
- G05B—CONTROL OR REGULATING SYSTEMS IN GENERAL; FUNCTIONAL ELEMENTS OF SUCH SYSTEMS; MONITORING OR TESTING ARRANGEMENTS FOR SUCH SYSTEMS OR ELEMENTS
- G05B13/00—Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion
- G05B13/02—Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion electric
- G05B13/04—Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion electric involving the use of models or simulators
- G05B13/042—Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion electric involving the use of models or simulators in which a parameter or coefficient is automatically adjusted to optimise the performance
-
- G—PHYSICS
- G05—CONTROLLING; REGULATING
- G05B—CONTROL OR REGULATING SYSTEMS IN GENERAL; FUNCTIONAL ELEMENTS OF SUCH SYSTEMS; MONITORING OR TESTING ARRANGEMENTS FOR SUCH SYSTEMS OR ELEMENTS
- G05B13/00—Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion
- G05B13/02—Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion electric
- G05B13/0265—Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion electric the criterion being a learning criterion
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N20/00—Machine learning
Landscapes
- Engineering & Computer Science (AREA)
- Software Systems (AREA)
- Artificial Intelligence (AREA)
- General Physics & Mathematics (AREA)
- Evolutionary Computation (AREA)
- Medical Informatics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- Automation & Control Theory (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Computing Systems (AREA)
- General Engineering & Computer Science (AREA)
- Mathematical Physics (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本发明公开了一种基于演化博弈理论的多智能体协调控制方法。通过构建一个具有自然选择属性的演化系统,考虑智能体之间的博弈冲突,实现多智能体的协调控制。所提出的方法包括以下步骤:S1:建立多智能体理论框架;S2:通过通讯拓扑图建立智能体之间的拓扑关系:设通讯拓扑图;S3:根据被控制的目标确定博弈类型;S4:根据智能体之间的博弈关系计算收益,基于博弈矩阵定义多智能体系统的状态,系统中每一组分量的变化采用复制动力学方程表示,分析复制动力学方程的平衡点,确定系统的演化稳定策略;S5:评估智能体的适应度;S6:在系统演化过程中智能体评估其收益并进行策略更新。
Description
技术领域
本发明涉及多智能体系统的智能控制方法,尤其涉及基于演化博弈理论的多智能体协调控制方法。
背景技术
多智能体的协调控制问题,是被广泛关注的热点课题,它具有广阔的实际应用背景,例如群体目标的移动、追踪、队形控制,灾害的救援,多卫星簇系统等等,多智能体的交互行为是复杂系统中的普遍现象。系统中的众多简单的智能体通过适应、通讯、分工、合作、时空组织和学习,紧密联系在一起,实现整体系统的功能,并完成一定的任务。研究多智能体的协调控制方法,是诸多不同领域、特别是自动控制领域所关注的重要问题。特别是最近十几年来,关于多机器人群体的研究受到了广泛的关注。出于系统鲁棒性、容错能力和成本的考虑,在实际中,人们往往更倾向于用大量简单的智能体群体来代替单个复杂个体等效地完成相同的任务。在这其中,复杂人工系统的设计者,所面临的一大挑战就是,如何协调系统中所有智能体的行为,使得他们可以有机地组织在一起,实现系统的整体目标。
在众多实际的工程项目和人工复杂系统中,所设计的智能体往往应该具有“智能”。他们不仅仅被动地接受预设指令;相反,他们追求自身的利益,并依此调整智能体的行为。这种反映智能体理性的行为方式,是符合自然选择机制的。当然,理性智能体的决策可能导致群体利益在系统总效用最优上的偏离,因为每个智能体的自私行为在提高其自身收益的同时,可能产生与其他智能体的竞争,从而影响到整体系统目标的实现。
在现有的多智能体协调控制方法中,智能体间在各自优化方向上可能存在的竞争和冲突,并未得到充分考虑,控制系统模型中忽视了智能体在追求自身利益时对整体系统的影响。然而,对于一个真正有“智能”的系统,组成该系统的智能体应具有一定的思考能力。智能体需要在与其他智能体的交互中,考虑其自身的能量、损耗、成本、行为代价等因素,进而更理性地做出决策。
发明内容
根据现有多智能体控制技术中未能充分考虑智能体之间的利益冲突,导致系统无法进行更优的自适应演化的技术缺陷,本发明公开了一种基于演化博弈理论的多智能体协调控制方法。基于自然选择的思想,本方法构建一个演化系统用于实现多智能体的协调控制。在系统中,智能体扮演着博弈环境中参与者的角色。由多个智能体构成的系统,在宏观层面上具有一个共同的目标或任务。系统整体的性能,由所有智能体所采取的行动而决定。智能体通过选取不同的可选行为方式,确定他们的状态。智能体在每一时刻,通过与其他对手进行信息交互,根据其自身及对手的状态,获得一定的收益。具有理性特征的智能体,通过评估其收益,以自身利益为目标调整其行为和状态。经过更新过程,系统不断进化。在此过程中,智能体在无监督指导下自主调整其行为,该自适应进化过程使得系统最终达到目标状态。为使系统最终达到预想的状态,需要施加必要的控制,包括以下步骤:
S1:建立多智能体理论框架:设置一个由n个智能体构成的系统,系统中的智能体由集合N={1,2,…,n}确定,对每个智能体i∈N进行“状态”“行为”“通讯”“适应度”的多项定义;
S2:通过通讯拓扑图建立智能体之间的拓扑关系:设通讯拓扑图为G=(N,ε),其中结点集为N={1,2,…,n},边集为
S3:根据被控制的目标确定博弈类型:所述控制的目标是使得由相互竞争的智能体所构成的整体系统实现预定的性能指标;
S4:根据智能体之间的博弈关系计算收益:基于博弈矩阵定义智能体系统的状态,系统中每一组分量的变化采用复制动力学方程表示,分析复制动力学方程的平衡点,确定系统的演化稳定策略;
S5:评估智能体的适应度:所述适应度通过智能体之间的博弈决定,在演化的每一时间步t∈{0,1,…},智能体i依照所设计的适应度函数分别获得其适应度值Fitnessi(t),该值由智能体依据自身及其邻居的信息,经适应度函数Fi计算而得;
S6:在系统演化过程中智能体评估其收益并进行策略更新:智能体的策略进化采用随机学习的方法,智能体比较其适应度与邻居平均适应度的差异,依概率更新其策略,多种不同的更新规则可用于刻画种群的进化。
所述S5中评估智能体的适应度时:
定义智能体Agenti的邻居集合为Ci={j∈N|aij>0},其中aij是邻接矩阵A=[aij]∈Rn×n中的元素。当aij>0时,智能体Agenti获取智能体Agentj(j∈Ci)的信息,否则,aij=0。设智能体Agenti的邻居个数为ki,Agenti在与其邻居Agentj博弈过程中所获得收益为πij,则其适应度表示如下:
智能体依概率更新其状态时:智能体Agenti在状态空间{A,B}中切换其状态Si的概率为:
其中,为智能体Agenti的邻居的平均适应度,ω为选择强度,表征博弈所产生适应度的差异对智能体决策的影响程度,系统演化过程中,采用同步更新规则,即所有智能体同时更新其状态。
所述智能体的更新规则包括模仿和自评估学习。
由于采用了上述技术方案,本发明提供的基于演化博弈理论的多智能体协调控制方法,赋予智能体根据其自身的利益,通过局部交互,在竞争中学习,自主调整其行为的能力。智能体在调整行为的过程中,表现出其理性特点,不再像传统控制方法中那样一味执行固定的预设动力学行为,而是以最大化自身收益为目的调整策略。通过选择合适的博弈类型,设计适宜的收益计算方法、更新进化规则等,可以实现对于多智能体系统整体性能的有效控制。在系统演化过程中,并不需要指定某一特定智能体如何行动,因此不需要确定每一个智能体的具体动力学行为。只需要通过系统的自适应进化来实现整体目标。在演化过程中,智能体之间不仅交互信息,而且通过博弈相互作用。这类似于在自然选择中对于有限资源的相互竞争关系。这种邻近智能体间的连接关系,并非简单的相互参考,而是在交互过程中,为了自身利益的竞争和博弈关系。整个系统控制过程是一个可控、智能、自主决策的自适应调整过程。
附图说明
为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请中记载的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明多智能体协调控制方法的流程图。
具体实施方式
为使本发明的技术方案和优点更加清楚,下面结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚完整的描述:
多智能体系统的很多应用涉及高度复杂的任务,需要具有不同类型能力的智能体相互合作完成,这种针对复杂任务的分工合作非常常见,这类似于人类社会的劳动分工。人们时常会面临需要具有不同特长和技能的个体集体工作的局面,如捕鲸、企业中的大型项目、团队体育运动、国际关系和宏观经济等等。在复杂的人造系统,特别是群体机器人系统中,对于分工合作也提出了很高的要求。例如,目标追踪(类似捕猎行为)、机器人足球竞赛、具有多个步骤的机械组件的维修、灾害探测和营救等任务都是不同类型机器人分工合作的实例。
对于一项需要两种类型智能体协同完成的任务,该任务所呈现的特点是对于给一组智能体所分配的任务,需要通过两种不同角色的智能体分工合作才能完成,任一种角色的智能体都无法独立完成该任务。这就要求系统中的智能体自发地形成两个采取不同行动的子种群,相互协作,只有产生专业化的劳动分工,才能完成系统需求。在处理这样的协调控制问题时,一个重要的任务在于,在复杂的拓扑网络上,如何划分种群,才能实现有效地策略分布,使不同策略的智能体更高效地相互联结在一起。例如,用一个多智能体系统完成两步骤的机器组装任务,则有必要使得互补的智能体分布在尽可能近的位置上,这样有助于提高整体效率,使得相邻的智能体可以相互补充尽快完成组装任务。
如图1所示的基于演化博弈理论的多智能体协调控制方法,可以实现控制多智能体系统的演化过程,使之形成专业分工,即不同类型的智能体尽可能均匀地分布在其互补智能体的周围。
实施例:
步骤一:建立多智能体理论框架。
建立一个种群规模为n(N={1,2,…,n})的多智能体系统,其中智能体表示为{Agenti|i∈N},定义智能体如下Agenti=(Si,Bi,Ci,Fi)。其中,状态(State),Si,代表智能体所采取的行动,状态空间由两种不同的行为组成,Si∈{A,B},智能体可以根据其利益选择策略A或B。其行为(Behavior),Bi,依照其收益与邻居平均收益的差异进行决策切换。
步骤二:建立智能体之间的拓扑关系。
本例只考虑智能体的行为选择,不关注智能体间交互关系的变化,于是智能体的连接关系由预设的静态拓扑表示。通讯(Communication),Ci,表示智能体Agenti的邻居集合,即Ci={j∈N|aij>0},其中aij是邻接矩阵A=[aij]∈Rn×n中的元素。当aij>0时,智能体Agenti可以获取智能体Agentj的信息,否则,aij=0。特别地,对于邻接矩阵中aij>0的项均简化地设定为aij=1。
步骤三:根据控制目标,确定博弈类型。
在分工问题中,控制目标是尽可能使得相邻位置的智能体处于不同的“状态”,以便更高效地完成合作任务。因此,在智能体与其邻居博弈时,当他们持相同策略时所获得的收益应低于分别持不同策略。于是,在控制系统进化方向时,博弈类型的选取思路为,在该类型的2×2博弈中,纳什均衡应为每个参与者采取与对手相反的策略,此时整个种群方能获得更高的收益。雪堆博弈(或鹰鸽博弈、懦夫博弈)属于刻画该情景的典型博弈类型。当系统中的智能体之间展开一场雪堆博弈时,他们的演化稳定策略为:采取与对手相反的策略。采用此类博弈,系统可以向预想的方向演化。
步骤四:根据博弈关系计算收益。
根据控制目标,要求智能体在Si和Sj(j∈Ci)不同时收益更高,于是,在收益矩阵中,设定a<c且b>d。一个最简单的例子为:
步骤五:评估智能体的适应度。
定义智能体Agenti在与其邻居Agentj(j∈Ci)(其邻居个数为ki)博弈过程中所获得收益为πij,于是,其适应度表示如下:
步骤六:设计策略更新规则。
智能体的策略进化采用随机学习(Fermi过程)的方法。智能体比较其适应度与邻居平均适应度的差异,依概率更新其策略。假设种群的初始状态是随机分配的,不考虑策略的变异。于是,智能体Agenti在状态空间{A,B}中切换其状态Si的概率为:
其中,ω为选择强度,表征博弈所产生适应度的差异对智能体决策的影响程度。系统演化过程中,采用同步更新规则,即所有智能体同时更新其策略。
根据本发明公开的基于演化博弈理论的多智能体协调控制方法,所设计的系统最终可以进化到一个优化的状态,不同策略的智能体分布在系统拓扑图上,每个智能体都与其相邻智能体尽可能持不同的策略,可以有效实现多智能体分布式协调控制的目标。
以上所述,仅为本发明较佳的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,根据本发明的技术方案及其发明构思加以等同替换或改变,都应涵盖在本发明的保护范围之内。
Claims (4)
1.一种基于演化博弈理论的多智能体协调控制方法,其特征在于:包括以下步骤:
S1:建立多智能体理论框架:设置一个由n个智能体构成的系统,系统中的智能体由集合N={1,2,…,n}确定,对每个智能体i∈N进行“状态”“行为”“通讯”“适应度”的多项定义;
S2:通过通讯拓扑图建立智能体之间的拓扑关系:设通讯拓扑图为G=(N,ε),其中结点集为N={1,2,…,n},边集为
S3:根据被控制的目标确定博弈类型:所述控制的目标是使得由相互竞争的智能体所构成的整体系统实现预定的性能指标;
S4:根据智能体之间的博弈关系计算收益:基于博弈矩阵定义智能体系统的状态,系统中每一组分量的变化采用复制动力学方程表示,分析复制动力学方程的平衡点,确定系统的演化稳定策略;
S5:评估智能体的适应度:所述适应度通过智能体之间的博弈决定,在演化的每一时间步t∈{0,1,…},智能体i依照所设计的适应度函数分别获得其适应度值Fitnessi(t),该值由智能体依据自身及其邻居的信息,经适应度函数Fi计算而得;
S6:在系统演化过程中智能体评估其收益并进行策略更新:智能体的策略进化采用随机学习的方法,智能体比较其适应度与邻居平均适应度的差异,依概率更新其策略,多种不同的更新规则用于刻画种群的进化。
2.根据权利要求1所述的基于演化博弈理论的多智能体协调控制方法,其特征还在于:所述S5中评估智能体的适应度时:
定义智能体Agenti的邻居集合为Ci={j∈N|aij>0},其中aij是邻接矩阵A=[aij]∈Rn×n中的元素,当aij>0时,智能体Agenti获取智能体Agentj(j∈Ci)的信息,否则,aij=0;智能体Agenti的邻居个数为ki,Agenti在与其邻居Agentj博弈过程中所获得收益为πij,则其适应度表示如下:
<mrow>
<msub>
<mi>F</mi>
<mi>i</mi>
</msub>
<mo>=</mo>
<mfrac>
<mrow>
<msub>
<mi>&Sigma;</mi>
<mrow>
<mi>j</mi>
<mo>&Element;</mo>
<msub>
<mi>C</mi>
<mi>i</mi>
</msub>
</mrow>
</msub>
<mrow>
<mo>(</mo>
<msub>
<mi>a</mi>
<mrow>
<mi>i</mi>
<mi>j</mi>
</mrow>
</msub>
<msub>
<mi>&pi;</mi>
<mrow>
<mi>i</mi>
<mi>j</mi>
</mrow>
</msub>
<mo>)</mo>
</mrow>
</mrow>
<msub>
<mi>k</mi>
<mi>i</mi>
</msub>
</mfrac>
<mo>.</mo>
</mrow>
3.根据权利要求1所述的基于演化博弈理论的多智能体协调控制方法,其特征还在于:
智能体依概率更新其状态时:智能体Agenti在状态空间{A,B}中切换其状态Si的概率为:
<mrow>
<mfrac>
<mn>1</mn>
<mrow>
<mn>1</mn>
<mo>+</mo>
<msup>
<mi>e</mi>
<mrow>
<mo>-</mo>
<mi>&omega;</mi>
<mrow>
<mo>(</mo>
<mrow>
<mover>
<msub>
<mi>F</mi>
<mi>j</mi>
</msub>
<mo>&OverBar;</mo>
</mover>
<mo>-</mo>
<msub>
<mi>F</mi>
<mi>i</mi>
</msub>
</mrow>
<mo>)</mo>
</mrow>
</mrow>
</msup>
</mrow>
</mfrac>
<mo>,</mo>
<mi>j</mi>
<mo>&Element;</mo>
<msub>
<mi>C</mi>
<mi>i</mi>
</msub>
<mo>.</mo>
</mrow>
其中,为智能体Agenti的邻居的平均适应度,ω为选择强度,表征博弈所产生适应度的差异对智能体决策的影响程度,系统演化过程中,采用同步更新规则,即所有智能体同时更新其状态。
4.根据权利要求1所述的基于演化博弈理论的多智能体协调控制方法,其特征还在于:所述智能体的更新规则包括模仿和自评估学习。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710741105.6A CN107479380A (zh) | 2017-08-25 | 2017-08-25 | 基于演化博弈理论的多智能体协调控制方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710741105.6A CN107479380A (zh) | 2017-08-25 | 2017-08-25 | 基于演化博弈理论的多智能体协调控制方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN107479380A true CN107479380A (zh) | 2017-12-15 |
Family
ID=60601651
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201710741105.6A Pending CN107479380A (zh) | 2017-08-25 | 2017-08-25 | 基于演化博弈理论的多智能体协调控制方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN107479380A (zh) |
Cited By (15)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108268053A (zh) * | 2018-01-11 | 2018-07-10 | 北京航空航天大学 | 仿候鸟进化雪堆博弈的无人机自主集群编队轮换控制方法 |
CN108764453A (zh) * | 2018-06-08 | 2018-11-06 | 中国科学技术大学 | 面向多智能体同步博弈的建模方法及动作预测系统 |
CN109146052A (zh) * | 2018-07-19 | 2019-01-04 | 中国航空工业集团公司沈阳飞机设计研究所 | 一种gft算法的自搏弈策略提升方法 |
CN109658742A (zh) * | 2018-12-28 | 2019-04-19 | 北京信息科技大学 | 基于前序飞行信息的密集飞行自主冲突解脱方法 |
CN110174843A (zh) * | 2019-05-30 | 2019-08-27 | 中国水利水电科学研究院 | 一种灌区用水智能调控方法 |
CN110708814A (zh) * | 2019-11-17 | 2020-01-17 | 浙江传媒学院 | 一种基于智能体模型的led自演化图形产生方法 |
WO2020024097A1 (zh) * | 2018-07-30 | 2020-02-06 | 东莞理工学院 | 基于深度强化学习的自适应博弈算法 |
CN110909465A (zh) * | 2019-11-20 | 2020-03-24 | 北京航空航天大学 | 一种基于智能体学习的合作博弈集群视情维修方法 |
CN111639756A (zh) * | 2020-06-12 | 2020-09-08 | 南京大学 | 一种基于博弈约简的多智能体强化学习方法 |
CN112221160A (zh) * | 2020-10-22 | 2021-01-15 | 厦门渊亭信息科技有限公司 | 一种基于随机博弈的角色分配系统 |
CN112247962A (zh) * | 2020-10-19 | 2021-01-22 | 中国科学技术大学 | 面向上肢穿戴机器人的人机博弈控制方法及系统 |
CN112269396A (zh) * | 2020-10-14 | 2021-01-26 | 北京航空航天大学 | 一种仿鹰鸽智能博弈的无人机集群协同对抗控制方法 |
CN113398593A (zh) * | 2021-07-16 | 2021-09-17 | 网易(杭州)网络有限公司 | 多智能体分层控制方法、装置、存储介质及电子设备 |
CN116339955A (zh) * | 2023-05-25 | 2023-06-27 | 中国人民解放军国防科技大学 | 计算换通信框架的局部优化方法、装置和计算机设备 |
CN118051780A (zh) * | 2024-04-12 | 2024-05-17 | 中国科学院自动化研究所 | 智能体的训练方法、交互方法及相应系统 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103401922A (zh) * | 2013-07-31 | 2013-11-20 | 东北大学 | 无线传感器网络中基于博弈方法的分布式定位装置与方法 |
CN104392269A (zh) * | 2014-11-19 | 2015-03-04 | 天津大学 | 一种基于人工免疫的微电网分布式电源竞价方法 |
CN104408306A (zh) * | 2014-11-24 | 2015-03-11 | 大连理工大学 | Vanet中利用演化博弈来激励停靠车辆合作转发进行分析建模的方法 |
CN104881992A (zh) * | 2015-06-12 | 2015-09-02 | 天津大学 | 基于多智能体仿真的城市公共交通政策分析平台 |
CN105120468A (zh) * | 2015-07-13 | 2015-12-02 | 华中科技大学 | 一种基于演化博弈论的动态无线网络选择方法 |
CN106960246A (zh) * | 2017-03-17 | 2017-07-18 | 重庆邮电大学 | 一种基于演化博弈的车辆诱导方法 |
-
2017
- 2017-08-25 CN CN201710741105.6A patent/CN107479380A/zh active Pending
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103401922A (zh) * | 2013-07-31 | 2013-11-20 | 东北大学 | 无线传感器网络中基于博弈方法的分布式定位装置与方法 |
CN104392269A (zh) * | 2014-11-19 | 2015-03-04 | 天津大学 | 一种基于人工免疫的微电网分布式电源竞价方法 |
CN104408306A (zh) * | 2014-11-24 | 2015-03-11 | 大连理工大学 | Vanet中利用演化博弈来激励停靠车辆合作转发进行分析建模的方法 |
CN104881992A (zh) * | 2015-06-12 | 2015-09-02 | 天津大学 | 基于多智能体仿真的城市公共交通政策分析平台 |
CN105120468A (zh) * | 2015-07-13 | 2015-12-02 | 华中科技大学 | 一种基于演化博弈论的动态无线网络选择方法 |
CN106960246A (zh) * | 2017-03-17 | 2017-07-18 | 重庆邮电大学 | 一种基于演化博弈的车辆诱导方法 |
Non-Patent Citations (1)
Title |
---|
王龙 等: "多智能体协调控制的演化博弈方法", 《系统科学与数学》 * |
Cited By (22)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108268053B (zh) * | 2018-01-11 | 2020-01-17 | 北京航空航天大学 | 仿候鸟进化雪堆博弈的无人机自主集群编队轮换控制方法 |
CN108268053A (zh) * | 2018-01-11 | 2018-07-10 | 北京航空航天大学 | 仿候鸟进化雪堆博弈的无人机自主集群编队轮换控制方法 |
CN108764453A (zh) * | 2018-06-08 | 2018-11-06 | 中国科学技术大学 | 面向多智能体同步博弈的建模方法及动作预测系统 |
CN108764453B (zh) * | 2018-06-08 | 2021-10-01 | 中国科学技术大学 | 面向多智能体同步博弈的建模方法及动作预测系统 |
CN109146052A (zh) * | 2018-07-19 | 2019-01-04 | 中国航空工业集团公司沈阳飞机设计研究所 | 一种gft算法的自搏弈策略提升方法 |
CN109146052B (zh) * | 2018-07-19 | 2022-04-01 | 中国航空工业集团公司沈阳飞机设计研究所 | 一种gft算法的自搏弈策略提升方法 |
WO2020024097A1 (zh) * | 2018-07-30 | 2020-02-06 | 东莞理工学院 | 基于深度强化学习的自适应博弈算法 |
CN109658742B (zh) * | 2018-12-28 | 2020-07-10 | 北京信息科技大学 | 基于前序飞行信息的密集飞行自主冲突解脱方法 |
CN109658742A (zh) * | 2018-12-28 | 2019-04-19 | 北京信息科技大学 | 基于前序飞行信息的密集飞行自主冲突解脱方法 |
CN110174843A (zh) * | 2019-05-30 | 2019-08-27 | 中国水利水电科学研究院 | 一种灌区用水智能调控方法 |
CN110708814A (zh) * | 2019-11-17 | 2020-01-17 | 浙江传媒学院 | 一种基于智能体模型的led自演化图形产生方法 |
CN110909465A (zh) * | 2019-11-20 | 2020-03-24 | 北京航空航天大学 | 一种基于智能体学习的合作博弈集群视情维修方法 |
CN110909465B (zh) * | 2019-11-20 | 2021-08-31 | 北京航空航天大学 | 一种基于智能体学习的合作博弈集群视情维修方法 |
CN111639756A (zh) * | 2020-06-12 | 2020-09-08 | 南京大学 | 一种基于博弈约简的多智能体强化学习方法 |
CN112269396A (zh) * | 2020-10-14 | 2021-01-26 | 北京航空航天大学 | 一种仿鹰鸽智能博弈的无人机集群协同对抗控制方法 |
CN112247962A (zh) * | 2020-10-19 | 2021-01-22 | 中国科学技术大学 | 面向上肢穿戴机器人的人机博弈控制方法及系统 |
CN112221160A (zh) * | 2020-10-22 | 2021-01-15 | 厦门渊亭信息科技有限公司 | 一种基于随机博弈的角色分配系统 |
CN112221160B (zh) * | 2020-10-22 | 2022-05-17 | 厦门渊亭信息科技有限公司 | 一种基于随机博弈的角色分配系统 |
CN113398593A (zh) * | 2021-07-16 | 2021-09-17 | 网易(杭州)网络有限公司 | 多智能体分层控制方法、装置、存储介质及电子设备 |
CN116339955A (zh) * | 2023-05-25 | 2023-06-27 | 中国人民解放军国防科技大学 | 计算换通信框架的局部优化方法、装置和计算机设备 |
CN116339955B (zh) * | 2023-05-25 | 2023-08-11 | 中国人民解放军国防科技大学 | 计算换通信框架的局部优化方法、装置和计算机设备 |
CN118051780A (zh) * | 2024-04-12 | 2024-05-17 | 中国科学院自动化研究所 | 智能体的训练方法、交互方法及相应系统 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN107479380A (zh) | 基于演化博弈理论的多智能体协调控制方法 | |
Zhang et al. | Weighted double Q-learning. | |
CN111552314B (zh) | 多无人机自适应编队跟踪控制方法 | |
CN110109358B (zh) | 一种基于反馈的混合多智能体协同控制方法 | |
CN109325580A (zh) | 一种用于服务组合全局优化的自适应布谷鸟搜索方法 | |
CN109407644A (zh) | 一种用于制造企业多Agent协同控制方法及系统 | |
Bloembergen et al. | Influencing social networks: An optimal control study | |
CN116702633B (zh) | 一种基于多目标动态优化的异构弹群任务可靠性规划方法 | |
CN110083748A (zh) | 一种基于自适应动态规划与蒙特卡罗树搜索的搜索方法 | |
CN111898770A (zh) | 一种多智能体强化学习方法、电子设备及存储介质 | |
Shi et al. | A multitier reinforcement learning model for a cooperative multiagent system | |
Du | An evolutionary game coordinated control approach to division of labor in multi-agent systems | |
Iima et al. | Swarm reinforcement learning method for a multi-robot formation problem | |
Jin et al. | The convergence analysis of evolutionary dynamics for continuous action iterated dilemma in information loss networks | |
Yu et al. | An approach to coordinated control of structured unmanned swarm based on evolutionary game | |
Li et al. | Two-level Q-learning: learning from conflict demonstrations | |
CN116167415A (zh) | 一种多智能体协同及对抗中的策略决策方法 | |
CN114200960A (zh) | 基于禁忌表改进麻雀算法的无人机集群搜索控制优化方法 | |
CN114995157A (zh) | 多智能体系统在合作竞争关系下的反同步优化控制方法 | |
Araghi et al. | A novel modular Q-learning architecture to improve performance under incomplete learning in a grid soccer game | |
Yu et al. | A novel automated guided vehicle (AGV) remote path planning based on RLACA algorithm in 5G environment | |
Yu et al. | Adaptive dynamic reconfiguration mechanism of unmanned swarm topology based on an evolutionary game | |
Liu et al. | Multi-Agent Reinforcement Learning Based on K-Means Clustering in Multi-Robot Cooperative Systems | |
Niu et al. | Design of TS fuzzy model based on PSODE algorithm | |
Mguni et al. | Inducing efficient equilibria in multi-agent systems |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20171215 |