CN116167415A

CN116167415A - 一种多智能体协同及对抗中的策略决策方法

Info

Publication number: CN116167415A
Application number: CN202310178924.XA
Authority: CN
Inventors: 常永哲; 商宏志; 王学谦; 梁斌
Original assignee: Shenzhen International Graduate School of Tsinghua University
Current assignee: Shenzhen International Graduate School of Tsinghua University
Priority date: 2023-02-27
Filing date: 2023-02-27
Publication date: 2023-05-26

Abstract

本发明公开了一种多智能体协同及对抗中的策略决策方法，包括如下步骤：S1、利用不同的强化学习策略训练单个智能体完成对单个智能体策略的分治，得到最适应单一场景的分治决策策略；S2、根据不同场景下每种决策算法的优劣，基于不同的强化学习策略的融合算法完成对单个智能体策略的融合，动态选择在实时变化的场景下最适应当前场景的在步骤S1的分治中得到的融合决策策略；S3、利用不同的强化学习策略将多智能体协作或对抗的任务智能分解，分配完成对多智能体协作或对抗的分治融合，得到多智能体协同或对抗的最优决策策略。本发明得到多智能体协同或对抗的最优决策策略，在多智能体协作或对抗中实现多类算法动态融合与多种模型柔性切换。

Description

一种多智能体协同及对抗中的策略决策方法

技术领域

本发明涉及人工智能的技术领域，特别是涉及一种多智能体协同及对抗中的策略决策方法。

背景技术

近年来，随着科学技术的不断发展，智能机器人已应用于多个领域，包括工业生产、军事、灾难救援等方面，其中涉及了环境感知、动态决策与规划、自动控制等多种技术。同时，近年来也出现了各种社会问题，如劳动力数量下降、生产成本上升、自动化生产效率较低，产业转型未完成、社会老龄化程度日益严重等问题。智能体在市场中的应用能够有效缓解上述问题，因此，深入研究智能体技术的相关难点并进一步开拓智能体应用市场是十分必要的。并且，智能体应用技术更是衡量国家科技水平和工业自动化水平的重要指标。西方一些发达国家陆续将机器人产业提升为国家战略；2017年，我国科技部发布了“智能机器人”重点专项指南，将进一步落实《国家中长期科学和技术发展规划纲要(2006-2020年)》、《中国制造2025》等规划要求。

对于多智能体强化学习问题，一种直接的解决思路：将单智能体强化学习方法直接套用在多智能体系统中，即每个智能体把其他智能体都当做环境中的因素，仍然按照单智能体学习的方式、通过与环境的交互来更新策略。这种学习方式固然简单也很容易实现，但忽略了其他智能体也具备决策的能力、所有个体的动作共同影响环境的状态，使得它很难稳定地学习并达到良好的效果。

在一般情况下，智能体之间可能存在的是竞争关系(非合作关系)、半竞争半合作关系(混合式)或者是完全合作关系，在这些关系模式下，个体需要考虑其他智能体决策行为的影响也是不一样的。正因为有了这些影响，多智能体的协同与对抗问题变得异常复杂，而在具体的算法中需要克服以下四个问题：

1)环境的不稳定性：智能体在做决策的同时，其他智能体也在采取动作；环境状态的变化与所有智能体的联合动作相关；

2)智能体获取信息的局限性：不一定能够获得全局的信息，智能体仅能获取局部的观测信息，但无法得知其他智能体的观测信息、动作和奖励等信息；

3)个体的目标一致性：各智能体的目标可能是最优的全局回报；也可能是各自局部回报的最优；

4)可拓展性：在大规模的多智能体系统中，就会涉及高维度的状态空间和动作空间，对于模型表达能力和真实场景中的硬件算力有一定的要求。

多智能体强化学习是结合了强化学习和多智能体学习这两个领域的重要研究方向，关注的是多个智能体的序贯决策问题。在未来，对MARL(多智能体强化学习)方面的研究(包括理论层面和应用层面)仍然需要解决较多的问题，包括理论体系的补充和完善、方法的可复现性、模型参数的训练和计算量、模型的安全性和鲁棒性等。

需要说明的是，在上述背景技术部分公开的信息仅用于对本申请的背景的理解，因此可以包括不构成对本领域普通技术人员已知的现有技术的信息。

发明内容

为了解决现有将单智能体强化学习方法直接套用在多智能体系统中忽略了其他智能体也具备决策的能力、所有个体的动作共同影响环境的状态，使得它很难稳定地学习并达到良好的效果的技术问题，本发明的目的在于提供一种多智能体协同及对抗中的策略决策方法。

本发明通过如下技术方案加以实现：

一种多智能体协同及对抗中的策略决策方法，包括如下步骤：

S1、利用不同的强化学习策略训练单个智能体完成对单个智能体策略的分治，得到最适应单一场景的分治决策策略；

S2、根据不同场景下每种决策算法的优劣，基于不同的强化学习策略的融合算法完成对单个智能体策略的融合，动态选择在实时变化的场景下最适应当前场景的在步骤S1的分治中得到的融合决策策略；

S3、利用不同的强化学习策略将多智能体协作或对抗的任务智能分解，分配已经配备好步骤S1的分治决策策略以及步骤S2的融合决策策略的单个智能体完成对多智能体协作或对抗的分治融合，得到多智能体协同或对抗的最优决策策略。

在一些实施例中，步骤S1、S2和S3中，所述不同的强化学习策略包括对抗规则价值估计策略、神经网络价值估计策略以及蒙特卡洛树搜索策略。

在一些实施例中，步骤S2包括如下步骤：

S2-1、单个智能体决策产生一个动作，然后将其作用在环境上，环境返回一个决策状态和奖励给智能体；

S2-2、在智能体分别训练好不同的强化学习策略之后，对于同一个决策状态，不同的强化学习策略的神经网络会返回对当前决策状态的价值估计；

S2-3、利用价值估计的价值协方差对子算法的价值估计进行融合后，输出最优的融合决策策略。

在一些实施例中，步骤S2-3包括如下步骤：

S2-3-1、利用当前的决策状态和奖励δR设计一个神经网络来计算协方差阈值c_T；

S2-3-2、根据对抗规则价值估计V_rule和神经网络价值估计V_net这两组分别产生的学习策略返回的价值，计算出当前两组策略的价值协方差；

S2-3-3、根据步骤S2-3-1的协方差阈值C_T和步骤S2-3-2的价值协方差，决定融合因子λ的取值，将两组策略的价值完成融合；

S2-3-4、根据步骤S2-3-3得到完成融合的价值，再结合已经训练好的蒙特卡洛树搜索策略，输出最优的决策策略。

在一些实施例中，步骤S2-3-1中，所述协方差阈值c_T是基于策略梯度的强化学习算法得到的，具体为：在每一个时间步下，策略网络μ(S；θ)产生动作a，智能体执行动作后获取奖励R，输出端输出一个协方差阈值c_T；其中，S是状态，θ是动作网络的参数。

在一些实施例中，步骤S2-3-1中，所述奖励δR是由分治融合控制器的子策略所用奖励R乘上一个转化因子δ得到；所述转化因子δ的函数：

其中μ为训练前期的转化因子，t_s为子策略控制器训练基本完成的时间；

所述奖励δR使用DQN进行学习，其状态动作值网络的优化目标如下：

其中Q_θ(s,a_in)为状态动作值网络，

为目标状态动作值函数，θ和/>

分别为网络参数，γ为折扣因子，s和s′分别对应当前状态和下一个状态，a_in是当前采取的动作，R为在状态s上采取动作a后得到的奖励。

在一些实施例中，步骤S2-3-2中，所述对抗规则价值估计V_rule，设其在输入状态向量为S时的估计值为V_rule(S)；

所述对抗规则定义为：

其中，

表示对抗规则等效的函数集合，/>

表示状态空间/>

的子集，是/>

中所有元素的定义域并集，/>

是一维实数空间。

在一些实施例中，步骤S3中，所述多智能体协作或对抗的融合采用基于纳什均衡的融合方法，表达为：

其中Agents为所有的智能体，i、k分别表示第i个、第k个智能体，π表示策略，*表示纳什均衡策略，

表示在纳什均衡处，仅更改第i个智能体策略的价值函数，/>

为纳什均衡策略下第i个智能体的价值函数；当将每一个状态的阶段博弈的纳什均衡策略组合起来成为一个智能体在动态环境中的策略，并不断与环境交互来更新每一个状态的阶段博弈中的Q值函数；在这种特殊情况下，所述采用基于纳什均衡的融合方法的纳什策略为：

其中，A_i(i＝1,…,n)表示第i个智能体的动作空间，a_i(i＝1,…,n)表示第i个智能体的动作，

为纳什均衡下，第i个智能体在状态s下采取动作a_i的概率。

在一些实施例中，所述采用基于纳什均衡的融合方法包括硬替换法和软替换法；

其中，所述硬替换法的执行流程为：1)对于某个固定时刻t，如果t>T_max，新的策略必须依照此刻的最优策略执行，并且将t重新置0，cnt也置0，归到一个新的周期里；2)否则，判断π_*和π_x是否相等，如果不相等，则计算cnt＝cnt+1(π_*≠π_x)；如果相等，则返回1)；如果计算cnt＝cnt+1(π_*≠π_x)得到cnt>C_max，马上执行此刻的最优策略π_*，且将t重新置0，cnt也置0，归到一个新的周期里；如果cnt≤C_max，则返回1)；

其中，采样时间为T；当下执行策略为π_x；该策略开始被执行的时间计为t＝0，且为这个的最优策略，其被执行的最长时间为T_max(满足T_max％T＝0)；在这个执行周期内，每个时刻的最优策略π_*与当下实际执行策略π_x不同的总次数计为cnt，且计数的上界为C_max。

在一些实施例中，所述软替换法的执行流程为：在t时刻，对于某个策略π取值概率与当下取这个策略的概率p_t以及前1/(1-τ)个时刻采取该策略的概率有关；

对于策略π_i(i＝1,2)而言，具体表达式为：

从而在t时刻，

此刻的策略的最优策略为

其中，p′_i(t)表示在第i时刻，手动计算的策略π_i的取值，采取对p′₁(t)，p′₂(t)归一化的形式，得到

和/>

本发明与现有技术对比的有益效果包括：

本发明通过采用不同的强化学习策略对单个智能体进行训练，即“分治”，在此基础之上，类比“集成学习(Ensemble learning)”中的融合方法，根据不同场景下每种决策算法的优劣，基于不同的强化学习策略的融合算法完成对单个智能体策略的融合，动态选择在实时变化的场景下最适应当前场景的分治中得到的决策策略，然后再利用不同的强化学习策略将多智能体协作或对抗的任务智能分解，分配已经配备好分治融合决策策略的单个智能体完成对多智能体协作或对抗的分治融合，得到多智能体协同或对抗的最优决策策略，在多智能体协作或对抗中可以实现多类算法动态融合与多种模型柔性切换。

附图说明

图1是本发明实施例提出的一种多智能体协同及对抗中的策略决策方法的流程图；

图2是本发明实施例中单智能体分治决策策略示意图；

图3是本发明实施例中单智能体融合决策策略示意图；

图4是本发明实施例中单智能体分治融合决策策略示意图；

图5是本发明实施例中多智能体协同或对抗分治融合决策策略示意图；

图6是本发明实施例中基于策略梯度的强化学习算法的阈值估计模块流程图；

图7是本发明实施例中转化因子随时间变化示意图；

图8是本发明实施例中基于纳什均衡的融合方法的硬替换流程示意图；

图9是本发明实施例中t时刻对于某策略取值概率的示意图；

图10是本发明实施例中基于纳什均衡的融合方法的软替换流程示意图；

图11是本发明实施例中模型应用模块中的主要流程图；

图12a是本发明实施例中单一智能体全程使用最优对抗策略对抗5k局的平均奖励示意图；

图12b是本发明实施例中单一智能体全程使用最优对抗策略对抗另一个5k局的平均奖励示意图；

图12c是本发明实施例中单一智能体全程使用最优对抗策略对抗另一个10k局的平均奖励示意图；

图12d是本发明实施例中单一智能体全程使用最优对抗策略对抗的胜率示意图；

图13a是本发明实施例中单一智能体在不同状态下的多种对抗策略融合后5k局的负率示意图；

图13b是本发明实施例中单一智能体在不同状态下的多种对抗策略融合后5k局的平率示意图；

图13c是本发明实施例中单一智能体在不同状态下的多种对抗策略融合后5k局的胜率示意图；

图13d是本发明实施例中单一智能体在不同状态下的多种对抗策略融合后5k局的每局奖励示意图；

图14a是本发明实施例中多个智能体协同基于分治融合算法对每一时刻所执行策略进行动态最优选择后3k局的负率示意图；

图14b是本发明实施例中多个智能体协同基于分治融合算法对每一时刻所执行策略进行动态最优选择后3k局的平率示意图；

图14c是本发明实施例中多个智能体协同基于分治融合算法对每一时刻所执行策略进行动态最优选择后3k局的胜率示意图；

图14d是本发明实施例中多个智能体协同基于分治融合算法对每一时刻所执行策略进行动态最优选择后3k局的平均奖励示意图。

具体实施方式

下面对照附图并结合优选的实施方式对本发明作进一步说明。需要说明的是，在不冲突的情况下，本申请中的实施例及实施例中的特征可以相互组合。

需要说明的是，本实施例中的左、右、上、下、顶、底等方位用语，仅是互为相对概念，或是以产品的正常使用状态为参考的，而不应该认为是具有限制性的。

本发明实施例提出了在复杂场景下智能决策的分治和融合，其中分治用来训练得到最适应单一场景的决策策略，融合是在实时变化的场景下动态选择最适应当前场景的在分治中得到的决策策略。还提出了基于强化学习的分治融合方法解决现阶段应用于多智能体协同及对抗中的智能决策问题。并设计了基于策略梯度的强化学习算法的阈值估计。

本发明实施例还提出分治融合算法解决单一智能体在复杂对抗场景下的决策问题。并且在利用分治融合方法对单一智能体最大限度优化智能决策的基础之上将算法系统延伸到多智能体协同及对抗中的智能决策。

本发明实施例涉及到多智能体在协同工作以及协同对抗时的智能决策问题。在多智能体协同工作及对抗时，遇到的情况较为复杂：在这个过程中，需要根据对方与我方智能体的自身状态来调整使用何种协同或对抗策略；还需要根据我方或对方的策略风格与型号来调整协同或对抗的策略。因此在利用各类算法进行训练的时候，不同的算法必然在不同的态势下表现能力不一样，希望能够在不同的模型中充分发挥每一种策略的优点，从而使得在一场协同或对抗中不仅仅是某种单一的策略能够发挥作用。

要达到上述效果，本发明实施例利用强化学习算法对单一智能体训练了多种策略，即“分治”，在此基础之上，类比“集成学习(Ensemble learning)”中的融合方法，根据不同场景下每种决策算法的优劣，本发明实施例又训练了基于强化学习的融合算法，使得融合之后的算法可以能够根据场景及态势动态的在某种态势下应使用哪一种策略以达到最好的效果。

为了达到最好的融合效果，使得每个算法的性能都能得到最好的发挥，各个算法能够达到最大程度的优势互补，需要在不同层面把问题分解为多个部分，分别进行控制决策，最终形成一个完备的决策系统，从而达到最终目标，在协作或对抗中使用的智能决策模型可以达到多类算法动态融合与多种模型柔性切换。

实施例：

如图1所示，本实施例提出的一种多智能体协同及对抗中的策略决策方法，包括以下步骤：

更具体的操作描述如下：

1)完成对单一智能体策略的分治融合。

如图2所示，S1、利用不同的强化学习策略训练单个智能体完成对单个智能体策略的分治，其中通过每个智能体策略与仿真环境的交互以及仿真环境对于该策略的结果反馈得到最适应单一场景的分治决策策略；其中分治体现在利用不同的强化学习策略训练单个智能体实现任务；

如图3所示，S2、根据不同场景下每种决策算法的优劣，基于不同的强化学习策略的融合算法完成对单个智能体策略的融合，动态选择在实时变化的场景下最适应当前场景的在步骤S1的分治中得到的融合决策策略；其中融合即根据不同场景下每种决策算法的优劣，基于强化学习的融合算法可以自主判断在当前态势下应使用哪一种策略以达到最好的效果。从而达到各个算法优势互补的目的。

如图3所示，决策状态指当前在做出决策时智能体自身以及所处环境中的状态，例如智能体运行速率、自身重量、与环境中其他智能体的相对位置等；策略估计是指智能体在当前状态下所能使用的多种强化学习策略集合；价值指每一种策略所能带来的反馈，包括正反馈和负反馈；策略抉择是根据价值反馈对策略估计中多个策略择优，最终获得最优策略。

如图4所示，在子算法价值估计模块中，基于攻击规则的价值估计方案可利用的数据样本丰富，但存在估计模糊、精确度不足的局限，基于神经网络的价值估计方案估计效果精确，但容易遇到路径依赖及维度灾难等挑战。融合策略方案的目标是寻求一种可将这两个子算法的长处融合、使得综合方案的表现能突破二者的效果极限。因此，融合策略方案加入了协方差计算模块，采用协方差对基于对抗规则的价值估计V_rule和基于神经网络的价值估计V_net之间的差异进行量化，并希望在二者差异较小(即协方差较小)的情况下采用更精确的V_net作为对当前状态价值的估计(即估计价值向量V)，而在二者差异较大(即协方差较大)的情况下采用更值得信任的V_rule作为当前价值估计(即估计价值向量V)。

为了得到较好的用于衡量协方差大小的阈值，本实施例采用神经网络与强化学习PG算法结合的方法，通过神经网络拟合协方差阈值模块对这一阈值进行学习与估计并将这一阈值与协方差计算模块的输出方差通过融合因子计算模块进行融合。

进一步地，本实施例根据所采用的价值估计V^*(即子算法分治融合价值估计模块的输出)，利用蒙特卡洛树搜索(MCTS)方法进行决策(即选择动作)，得到该时刻智能战机应采取的动作，并根据该时刻我方攻击策略与敌我攻击先后情况(即协同对抗环境)对奖励进行阶梯设置。最后，由MCTS产生的动作与环境互动产生下一时刻状态输入，而阶梯奖励则用于更新方案中的神经网络参数。

关于步骤S2还包括以下步骤：

S2-1、单个智能体决策产生一个动作，然后将其作用在环境上，环境会返回一个决策状态和奖励给智能体。

其中存在三种学习策略：对抗规则价值估计策略、神经网络价值估计策略以及蒙特卡洛树搜索策略。

S2-2、在智能体分别训练好不同的强化学习策略之后，对于同一个状态，不同的强化学习策略的神经网络会返回对当前决策状态的价值估计。

其中不同的强化学习策略包括步骤S2-1中的三种学习策略。

如图4所示，本发明实施例设计了一种融合方案，关于步骤S2-3-1还包括以下步骤：

S2-3-1、利用当前的状态和奖励设计一个神经网络来计算协方差阈值；

S2-3-3、根据步骤S2-3-1的协方差阈值C_T和步骤S2-3-2的价值协方差，决定融合因子λ(0≤λ≤1)的取值，从而将两组策略的价值完成融合；

2)完成对多智能体协同或对抗的分治融合。

如图5所示，S3、在仿真环境中，利用不同的强化学习策略将多智能体协作或对抗的任务智能分解，分配已经配备好步骤S1的分治决策策略以及步骤S2的融合决策策略的单个智能体完成对多智能体协作或对抗的分治融合，得到多智能体协同或对抗的最优决策策略。关于步骤S3的具体操作描述如下：

分治体现在利用不同的强化学习策略将当前的任务智能分解，分配已经配备好1)中策略的单个智能体去完成对应的子任务；融合则体现在整体框架下，从不同层面把问题分解为多个部分，分别进行控制决策，最终形成一个完备的决策系统，从而达到最终目标，在协作或对抗中使用的智能决策模型可以达到多类算法动态融合与多种模型柔性切换。

步骤S2-3-1中的协方差阈值c_T是基于策略梯度的强化学习算法得到的，具体描述如下：

基于策略梯度的强化学习算法的阈值估计

对于协方差阈值c_T的估计本发明实施例采用一个使用神经网络的强化学习算法来完成，即是上一部分中提及的是确定性策略梯度(Deterministic Policy Gradient，DPG)算法和深度神经网络的结合算法：深度确定性策略梯度算法DDPG。

如图6所示，深度确定性策略梯度算法DDPG为在每一个时间步下，策略网络p(S；θ)(其中S是状态，0是动作网络的参数)产生动作a，智能体执行动作后获取奖励R。其中奖励R为终局奖励，终局奖励是由奖励机制中的基础奖励和附加奖励组成。基于终局奖励的基础奖励分配方式相对较为简单，本实施例采用一种比较直观的分摊方式，即将总值均匀地分配给每一时间步。

而附加奖励采用阶梯式设计，可以是线性的，也可以是二焦点函数，如sigmoid函数。附加奖励是对我方攻击在对抗过程中处于先发制人地位的鼓励，即我方攻击时间优先于对方。

这里的不同之处为输出端不再是价值网络，而是输出一个协方差阈值c_T，该协方差阈值的大小与空战中每隔5个采样时间段t得到的一组数据输入状态S和终局奖励分配到每一时间步下的分摊奖励大小有关，其中分摊奖励是终局奖励分配到每一时间步下的奖励。

因此将整个神经网络的拟合和输出情况流程图给出，如图6所示，其中状态-动作价值Q值的计算中的奖励值则是在上一部分将终局奖励分配到之前决策每一时间步下的奖励值，然后使用梯度下降算法最小化损失函数，进而求出最终的输出结果协方差阈值c_T。

本发明实施例还包括两种融合方法，分别是智能体1对1对抗时对抗策略的融合和多智能体协作与对抗中的分治融合。具体说明如下：

(1)智能体1对1对抗时对抗策略的融合方法：

本发明实施例中的智能体1对1对抗时对抗策略的融合，其是利用价值估计的协方差对子算法的价值估计进行融合，需要聚焦三个问题：两子算法价值估计V值的获取、协方差的计算与V值的融合与分治选择。

为讨论方便，设基于对抗规则的价值估计模块产生的对抗规则价值估计为V_rule，基于神经网络的价值估计模块产生的神经网络价值估计为V_net，V_rule和V_net的协方差为C，基于PG(policy gradient)算法估计得到的协方差阈值为C_T(其中，对于同一个状态，PG算法输出的决策是随机的，而DPG算法是固定的)。

关于步骤S2-3-2中对抗规则价值估计的描述如下：

对基于攻击规则获取的对抗规则价值估计V_rule，设其在输入状态向量为S时的估计值为V_rule(S)。

对抗规则是通过人类实际对抗经验或模拟对抗记录人工总结、提炼的用于指导智能决策的参考，在数学上等效于一系列确定或模糊函数，将状态空间中的某点或点集映射到一个确定的价值估计值，所以这些函数的定义域是状态空间的某些子集，值域是实数域，即对抗规则可以定义为：

其中，

表示对抗规则等效的函数集合，/>

表示状态空间/>

的子集，是/>

中所有元素的定义域并集，/>

是一维实数空间。

关于步骤S2-3-2中奖励δR的描述如下：

分治融合控制器的所用奖励是由子策略所用奖励R乘上一个转化因子δ得到，由于前期需要给予各子策略控制器一定的容错空间和足够的训练时长，分治融合训练控制器的训练前期的转化因子δ应该是较小的，即不因为探索时期的成败而完全否定某一子策略控制器。其中转化因子随时间变化示意图如图7所示。

但当来到分治融合控制器的训练后期，应认为各子策略控制器已经获得了充足的训练，其决策能力短时间内不会再有较大的提高，此时若某一个子策略控制器表现不佳，应立即切换为另一个子策略控制器进行尝试，综上转化因子可以选择双曲正切函数δ＝tanht表示。

原始的双曲正切函数如图7中的虚线所示，在t＝0前值为δ＝-1，这与本发明实施例的想法是不符的，具体说明如下：

首先本发明实施例并不希望在训练前期，子策略控制器的所获奖励对分治融合控制器完全没有影响，因为即使是从给予充分训练时长的角度，当某一个子策略控制器经过一段时间的训练仍然无法获得正奖励时，本发明实施例希望给予另一个子策略控制器一些训练的机会，从而避免只有一个子策略控制器得到训练的情况，因此训练前期的转化因子应该较小但不等于零，以实现两个子策略较为缓慢的切换，从而使两个控制器都得到一定的训练。

同时前期转化因子显然也不应为负数，否则分治融合控制器将会切换表现较差的子策略来进行决策，这背离了分治融合所期望实现的目标。

其次，原始双曲正切函数在t＝0进行了切换，这也和实际情况不符。

因此本发明实施例对原始的双曲正切函数进行一些变换得到转化因子实际使用的函数：

其中μ为训练前期的转化因子，t_s为子策略控制器训练基本完成的时间。

实际使用的δ函数如图7中的实线所示，其在训练前期保持δ＝μ，然后在子策略控制器基本完成训练后，即t＝t_s附近，逐渐增大转化因子来提高子策略切换频率，最终转化因子将会达到δ＝1，分治融合控制器所使用的奖励和子策略控制器所使用的奖励完全相同。

如图7所示，其中选择的μ＝0.2和t_s＝10仅作为示例，具体超参数μ和t_s的选择要根据实际训练情况调整。

分治融合控制器将使用所得到的奖励δR使用DQN(Deep Q Network，一种融合了神经网络和Q-learning的算法)进行学习，其状态动作值网络的优化目标如下：

其中Q_θ(s,a_in)为状态动作值网络，

为目标状态动作值函数，θ和/>

分别为网络参数，γ为折扣因子，s和s′分别对应当前状态和下一个状态，a_in是当前采取的动作，R为在状态s上采取动作a后得到的奖励。/>

(2)多智能体协作与对抗中的分治融合方法：

多智能体系统(Multi-agent system，MAS)由具备一定自主能力的一群智能体组成，用于解决现实中具有较大规模的分布式交互决策问题。多智能体系统中的每个智能体具备感知、认知、决策、执行能力，由此而构成的多智能体系统往往具有自主性、分布性、协调性等特征，并且具有自组织能力和学习推理能力。

按照智能体自身是否具有合作意图，多智能体系统通常可以划分为两大类：合作式多智能体系统和非合作式多智能体系统。

在多智能体场景中，本发明实施例设计了基于纳什均衡的融合方法，具体说明如下：

在博弈论中，纳什均衡(英语：Nash equilibrium，或称纳什均衡点)是指在包含两个或以上参与者的非合作博弈(Non-cooperative game)中，假设在每个参与者都知道其他参与者的均衡策略的情况下，没有参与者可以通过改变自身策略使自身受益时的一个概念解。

无论对方的策略选择如何，当事人一方都会选择某个确定的策略，则该策略被称作支配性策略。如果任意一位参与者在其他所有参与者的策略确定的情况下，其选择的策略是最优的，那么这个组合就被定义为纳什均衡。纳什均衡是以约翰·福布斯·纳什命名。

在博弈论中，如果每个参与者都选择了自己的策略，并且没有玩家可以通过改变策略而其他参与者保持不变而获益，那么当前的策略选择的集合及其相应的结果构成了纳什均衡。即若

则称s为纳什均衡点，其中p_i为参与者的收获(payoff)，r_i代表参与者i的一种可能策略，(s；r_i)指参与者i单方面改变策略为r_i。

一个策略组合被称为纳什均衡，当每个博弈者的均衡策略都是为了达到自己期望收益的最大值，与此同时，其他所有博弈者也遵循这样的策略。

纳什均衡(Nash equilibrium)是强化学习博弈中一个很重要的概念，它指的是在多个智能体中达成的一个不动点。总体来说，纳什均衡就是一个所有智能体的联结策略。

在纳什均衡处，对于所有智能体而言都不能在仅改变自身策略的情况下，来获得更大的奖励。对于其中任意一个智能体来说，无法通过采取其他的策略来获得更高的累积回报。

关于本发明实施例中步骤S3的多智能体协作或对抗的融合采用基于纳什均衡的融合方法，在数学形式上可以表达为：

表示在纳什均衡处，仅更改第i个智能体策略的价值函数，/>

为纳什均衡策略下第i个智能体的价值函数。

值得注意的是，纳什均衡不一定是全局最优，但它是在概率上最容易产生的结果，是在学习时较容易收敛到的状态，特别是如果当前智能体无法知道其他智能体将会采取怎样的策略。

多智能体强化学习就是一个随机博弈，将每一个状态的阶段博弈的纳什策略组合起来成为一个智能体在动态环境中的策略。并不断与环境交互来更新每一个状态的阶段博弈中的Q值函数(博弈奖励)。在这种特殊情况下，基于纳什均衡的融合方法的纳什策略可以改写为：

为纳什均衡下，第i个智能体在状态s下采取动作a_i的概率。

根据每个智能体的奖励函数可以对随机博弈进行分类。若智能体的奖励函数相同，则称为完全合作博弈或团队博弈。若智能体的奖励函数逆号，则称为完全竞争博弈或零和博弈。

在基于纳什均衡的融合方法中，本发明实施例设计了两种方法，即硬替换法和软替换法。

(1)硬替换法

前提：算法同时并行两个策略。

假定条件：采样时间为T；当下执行策略为π_x；该策略开始被执行的时间计为t＝0，且为这个的最优策略，其被执行的最长时间为T_max(满足T_max％T＝0)；在这个执行周期内，每个时刻的最优策略π_*与当下实际执行策略π_x不同的总次数计为cnt，且计数的上界为C_max。

硬替换法执行过程如图8所示，具体描述如下：

1)对于某个固定时刻t，如果t>T_max，新的策略必须依照此刻的最优策略执行，并且将t重新置0，cnt也置0，归到一个新的周期里；

2)否则，在该时刻t基础上向前推荐时长T，即在t＝t+T时刻判断π_*和π_x是否相等，如果不相等，则计算cnt＝cnt+1(π_*≠π_x)；如果相等，则判断现在时刻的t是否t>T_max并重复上述操作。

3)当计算cnt＝cnt+1(π_*≠π_x)得到cnt>C_max，马上执行此刻的最优策略π_*，且将t重新置0，cnt也置0，归到一个新的周期里；

如果cnt≤C_max，则判断现在时刻的t是否t>T_max并重复上述操作。

(2)软替换法

前提：算法同时并行两个策略。

假定条件：存在一个衰减系数τ，用来衰减前一个时刻采取某个策略π_i(i＝1,2)概率p_i的影响。如图9所示显而易见的，在1/(1-τ)时刻之前，策略π_i的概率p_i将不会产生作用。

软替换法执行过程如图10所示，具体描述如下：

在t时刻，对于某个策略π取值概率与当下取这个策略的概率p_t以及前1/(1-τ)个时刻采取该策略的概率有关，具体描述如下：

其中*＝int(1/(1-τ))，int表示取整，p_i表示该策略第i时刻被选择的概率。

更进一步地，对于策略π_i(i＝1,2)而言，如图10所示，其具体表达式如下：

/>

从而在t时刻，

此刻的策略的最优策略为

其中，p′_i(t)表示在第i时刻采用手动计算的策略π_i的取值，由于该取值并未进行归一化，本发明实施例采取对p′₁(t)，p′₂(t)归一化的形式，得到

和/>

由于最终的决策并不是仅由t时刻的概率所决定，从而，在某种程度上能缓解来回切换的不稳定性。

如图10所示的是t时刻应该选取的最优策略。某个策略被选择的概率并不是简单的由t时刻的瞬时概率所决定，它由前面所有的概率的累计和叠加得到。由于最后得到的数字并非概率，需要进一步归一化，转化为概率。其中τ为衰减系数，τ^t-1,τ^t-2,…,τ⁰为相应时刻的衰减系数，p_ij代表策略π_i在时刻j时被使用的概率。最后取概率较大的值得到策略为当前最优策略。

模型应用模块中的主要流程图11：本发明实施例中基于强化学习的分治融合算法对于多智能体协同以及对抗的作用流程以及其效果的阶梯式提升过程。

首先，多个单一强化学习算法与极端复杂环境下的交互以及效率和对抗胜率的提升；其次，单一智能体中单项功能模块的多算法融合，并最终较单个算法对抗胜率提升5％-10％；之后，单一智能体中多项功能模块的多算法协同融合，并且较融合前有明显的效果提升；最后，多智能体协同作业中的多算法层级融合，并且较融合前有明显的效果提升。

如图12a-d所示，单一智能体全程使用最优对抗策略对抗的结果，胜率50％左右，平均奖励为-0.9；

如图13a-d所示，对单一智能体在不同状态下的多种对抗策略进行了融合，使其在综合对抗中胜率提升了5％以上；

如图14a-d所示，将多个智能体协同在一起基于分治融合算法对每一时刻所执行策略进行动态最优选择，胜率再次提升5％以上。实验数据表明分治融合算法的有效性。

以上内容是结合具体的优选实施方式对本发明所作的进一步详细说明，不能认定本发明的具体实施只局限于这些说明。对于本发明所属技术领域的技术人员来说，在不脱离本发明构思的前提下，还可以做出若干等同替代或明显变型，而且性能或用途相同，都应当视为属于本发明的保护范围。

Claims

1.一种多智能体协同及对抗中的策略决策方法，其特征在于，包括如下步骤：

2.如权利要求1所述的多智能体协同及对抗中的策略决策方法，其特征在于，步骤S1、S2和S3中，所述不同的强化学习策略包括对抗规则价值估计策略、神经网络价值估计策略以及蒙特卡洛树搜索策略。

3.如权利要求1或2所述的多智能体协同及对抗中的策略决策方法，其特征在于，步骤S2包括如下步骤：

4.如权利要求3所述的多智能体协同及对抗中的策略决策方法，其特征在于，步骤S2-3包括如下步骤：

5.如权利要求4所述的多智能体协同及对抗中的策略决策方法，其特征在于，步骤S2-3-1中，所述协方差阈值c_T是基于策略梯度的强化学习算法得到的，具体为：在每一个时间步下，策略网络μS；θ产生动作a，智能体执行动作后获取奖励R，输出端输出一个协方差阈值c_T；其中，S是状态，θ是动作网络的参数。

6.如权利要求5所述的多智能体协同及对抗中的策略决策方法，其特征在于，步骤S2-3-1中，所述奖励δR是由分治融合控制器的子策略所用奖励R乘上一个转化因子δ得到；所述转化因子δ的函数：

其中Q_θs,a_in为状态动作值网络，

为目标状态动作值函数，θ和/>

7.如权利要求4所述的多智能体协同及对抗中的策略决策方法，其特征在于，步骤S2-3-2中，所述对抗规则价值估计V_rule，设其在输入状态向量为S时的估计值为V_ruleS；

所述对抗规则定义为：

其中，

表示对抗规则等效的函数集合，/>

表示状态空间/>

的子集，是/>

中所有元素的定义域并集，/>

是一维实数空间。

8.如权利要求1所述的多智能体协同及对抗中的策略决策方法，其特征在于，步骤S3中，所述多智能体协作或对抗的融合采用基于纳什均衡的融合方法，表达为：

表示在纳什均衡处，仅更改第i个智能体策略的价值函数，/>

其中，A_ii＝1,…,n表示第i个智能体的动作空间，a_ii＝1,…,n表示第i个智能体的动作，

为纳什均衡下，第i个智能体在状态s下采取动作a_i的概率。

9.如权利要求8所述的多智能体协同及对抗中的策略决策方法，其特征在于，所述采用基于纳什均衡的融合方法包括硬替换法和软替换法；

其中，所述硬替换法的执行流程为：1)对于某个固定时刻t，如果t>T_max，新的策略必须依照此刻的最优策略执行，并且将t重新置0，cnt也置0，归到一个新的周期里；2)否则，判断π_*和π_x是否相等，如果不相等，则计算cnt＝cnt+1π_*≠π_x；如果相等，则返回1)；如果计算cnt＝cnt+1π_*≠π_x得到cnt>C_max，马上执行此刻的最优策略π_*，且将t重新置0，cnt也置0，归到一个新的周期里；如果cnt≤C_max，则返回1)；

10.如权利要求9所述的多智能体协同及对抗中的策略决策方法，其特征在于，所述软替换法的执行流程为：在t时刻，对于某个策略π取值概率与当下取这个策略的概率p_t以及前1/1-τ个时刻采取该策略的概率有关；

对于策略π_ii＝1,2而言，具体表达式为：

从而在t时刻，

此刻的策略的最优策略为

其中，p′_it表示在第i时刻，手动计算的策略π_i的取值，采取对p′₁(t)，p′₂(t)归一化的形式，得到

和/>

/>