CN110109358B

CN110109358B - 一种基于反馈的混合多智能体协同控制方法

Info

Publication number: CN110109358B
Application number: CN201910410370.5A
Authority: CN
Inventors: 黄利伟; 涂铮铮; 柏晓祉; 屈鸿; 舒杨
Original assignee: University of Electronic Science and Technology of China
Current assignee: University of Electronic Science and Technology of China
Priority date: 2019-05-17
Filing date: 2019-05-17
Publication date: 2020-06-23
Anticipated expiration: 2039-05-17
Also published as: CN110109358A

Abstract

本发明公开了一种基于反馈的混合多智能体协同控制方法，属于多智能体协同控制领域，首先针对智能体系统中的各个智能体，均构建结合遗传算法和神经网络的策略选择网络；接着对所述策略选择网络中的遗传因子进行优化，将遗传因子作为强化学习模块的参数，利用所述强化学习模块对智能体进行训练，重复以上步骤，直到满足预设条件；本发明将遗传算法和强化学习通过神经网络结合到一起，解决了传统单一多智能体协同控制算法方法存在的“早熟”现象以及训练学习时间过长的问题。

Description

一种基于反馈的混合多智能体协同控制方法

技术领域

本发明涉及多智能体协同控制领域，具体涉及一种基于反馈的混合多智能体协同控制方法。

背景技术

多智能体系统(Multi-Agent System，简称MAS)是由多个智能体组成的系统，每个智能体拥有独立的意识，拥有独立完成任务的能力，同时为了解决更复杂的问题，要学会与其他智能体相协作。由于单个智能体自身能力的限制以及自身资源的不足，在面对多目标多任务问题时往往表现的不尽如人意。近20年来，很多研究机构和学者都加大了对多智能体系统研究的力度，多智能体协同控制研究是一大热点。

在多智能体领域中，基于行为的方法是一个受到广泛认可的智能体协同控制算法。基于行为的方法不需要根据不同的环境去建立不同的数学模型，也可称之为免模型算法，具有不错的鲁棒性。但是智能体的行为选择策略往往是预先人工设定好的，多智能体系统是一个复杂的动态系统，该方法面对复杂多变的环境，缺乏自适应能力。为了更好的解决上述问题，必须使多智能体系统具有自适应，自学习能力。同时在多智能体协同问题上，如何提高智能体的协同能力也是一个主要的研究方向。

受到生物学和社会学的启发，基于MAS的特点，研究者们逐渐开始将不同类型的机器学习方法与传统的基于行为的方法相融合，试图寻找更好的方式。在近些年的研究中，遗传算法和强化学习算法受到了广泛的关注。两种算法都是上述提到的免模型算法，同时也是智能化算法，通过不断与外界环境进行交互，综合考虑多智能体之间的协调控制以及运动特性，使得智能体通过学习拥有更好的自适应自学习能力。

发明内容

本发明的目的在于：提供一种基于反馈的混合多智能体协同控制方法，解决了传统单一多智能体协同控制算法存在“早熟”现象以及训练学习时间过长的技术问题。

本发明采用的技术方案如下：

一种基于反馈的混合多智能体协同控制方法，包括以下步骤

步骤1：针对智能体系统中的各个智能体，均构建结合遗传算法和神经网络的策略选择网络；

步骤2：对所述策略选择网络中的遗传因子进行优化，判断是否满足预设条件A；

所述预设条件A为：达到优化的预设上限或整体适应度值达到预设值；

所述步骤2具体为：

步骤21：设定所述遗传算法参数，初始化种群集，所述种群集中种群个数为智能体系统中智能体个数，每个种群均包含若干个体；

步骤22：将所述个体观测到的环境信息输入所述策略选择网络，输出该个体应对该环境信息产生的动作；

步骤23：根据所述动作，计算各个个体的适应度，根据所述适应度选出各个种群的种群代表；

步骤24：计算种群代表的整体适应度，判断所述整体适应度是否达到标准，若达到，结束遗传因子的优化,跳转至步骤3，否则跳转至步骤25；

步骤25：分别计算各个种群代表的贡献值，对贡献值最小的k个代表所在的种群，重新选取代表，并计算整体适应度，判断所述整体适应度是否达到标准，若达到，结束遗传因子的优化,跳转至步骤3，否则跳转至步骤26；

步骤26：判断进化次数是否到达上限，若到达，则结束遗传因子的优化，跳转至步骤3；否则根据所述整体适应度更新种群代表，并对贡献值最小的k个代表所在的种群，跳转至步骤23进行进化；

步骤3：将遗传因子作为强化学习模块的参数，利用所述强化学习模块对智能体进行训练，判断是否满足预设条件B；

所述预设条件B为：计算整体适应度值达到预设值或达到最大迭代次数；

所述步骤3具体为：

步骤31：初始化所述强化学习模块参数，每个智能体均包括自身Q网络和目标Q网络；

步骤32：利用遗传因子初始化自身Q网络Qi(s，a；θ_i)中的θ_i，利用所述自身Q网络初始化目标Q网络，利用最优个体的遗传因子初始化交流Q网络Q_c(s，a；θ_c)中的θ_c，其中s表示智能体的状态，a表示智能体的动作；

步骤33：对每个智能体，以1-ε的概率使用所述交流Q网络Q_c(s，a；θ_c)作为决策网络，否则使用自身Q网络Q_i(s，a；θ_i)作为决策Q网络；

步骤34：从所述决策Q网络中选择一个动作a，实现动作与环境的交互，根据回报函数得到回报r和从环境中得到的新状态s'，并将与环境交互得到的任务目标信息传递至所述交流Q网络；

步骤35：将(s，a，r，s')作为经验储存至经验池中，当经验池的容量达到阈值，从所述经验池中随机抽取经验作为样本，进行随机梯度下降得到残差值，利用损失函数将残差值与目标Q网络结合，进行最小化迭代，得到新的Q值；

步骤36：利用所述Q值优化所述自身Q网络的参数，利用优化后的自身Q网络间隔C步长后更新所述目标Q网络；

步骤37：将所述交流Q网络中的任务目标信息下发至各个智能体；

步骤38：判断是否满足预设条件B，若满足，则跳转至步骤4，否则更新遗传因子并跳转至步骤33；

步骤4：判断步骤2-3的迭代次数是否到达上限，若达到上限，则结束流程，否则更新遗传因子并跳转至步骤2。

进一步的，所述步骤1中，所述策略选择网络为：将遗传算法的遗传因子作为所述神经网络的权值；

所述策略选择网络的输入为智能体观测到的环境信息；

所述策略选择网络的输出为该智能体应对该环境信息产生的动作。

综上所述，由于采用了上述技术方案，本发明的有益效果是：

与现有多智能体协同控制算法相比，本发明具有以下优点：

1.本发明将遗传算法与强化学习相结合，将两种算法取长补短，通过神经网络模型结合到一起，在复杂的多智能体协同控制问题中有良好的表现；

2.本发明将协同进化思想应用到MAS中，改进了传统的多智能体协同控制算法，使智能体在学习进化的过程中，能够更有效的学习到智能体之间的协同合作；

3.本发明利用神经网络模型，将遗传算法的编码形式进行了优化，提高了遗传算法的泛化性，面对不同的环境能够有效的处理问题；

4.本发明利用了强化学习强大的局部探索能力，当智能体陷入局部最优，策略无法得到有效改善时，有效跳出这一陷阱，使得智能体能够更好的完成任务。同时利用遗传算法的进化作为强化学习的经验池，一定程度上解决了单纯强化学习算法应用在多智能体协同控制问题的效率低下的问题。

5.本发明所述的基于反馈的混合多智能体协同控制算法适用于复杂的多智能体协同控制问题中。这种学科间综合，多方法融合的思路，对于提高智能体的智能化策略具有积极的效果。

附图说明

为了更清楚地说明本发明实施例的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，应当理解，以下附图仅示出了本发明的某些实施例，因此不应被看作是对范围的限定，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他相关的附图。

图1是本发明整体的流程图；

图2是本发明实施例中多智能体对抗环境示意图；

图3是本发明在多智能体对抗问题中的分数对比结果图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅用以解释本发明，并不用于限定本发明，即所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。通常在此处附图中描述和示出的本发明实施例的组件可以以各种不同的配置来布置和设计。

因此，以下对在附图中提供的本发明的实施例的详细描述并非旨在限制要求保护的本发明的范围，而是仅仅表示本发明的选定实施例。基于本发明的实施例，本领域技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例，都属于本发明保护的范围。

需要说明的是，术语“第一”和“第二”等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

以下结合实施例对本发明的特征和性能作进一步的详细描述。

实施例1

一种基于反馈的混合多智能体协同控制方法，包括以下步骤

步骤1：针对智能体系统包含n个智能体，对各个智能体，均构建结合遗传算法和神经网络的策略选择网络；

所述策略选择网络为：将遗传算法的遗传因子作为所述神经网络的权值；

遗传因子指的是在遗传算法中,每个智能体拥有一个属于自己的染色体,将这个染色体成为遗传因子.可以是一串数字的序列也可以是其他形式,当接收到了外界的刺激,每个智能体会根据自身不同的序列执行不同的反应，因此遗传因子是将神经网络的权值线性化,每个智能体拥有一个属于自己的神经网络,其中的权值即为遗传因子。

所述策略选择网络的输入为智能体观测到的环境信息；所述策略选择网络的输出为该智能体应对该环境信息产生的动作；

设定所述策略选择网络的输入输出规模及网络的层数；对策略选择网络进行随机初始化。

步骤21：设定所述遗传算法参数，所述参数包括交叉概率p_m，变异概率p_c，进化次数上限step，最小贡献数目k；

初始化种群集，所述种群集中种群个数n为智能体系统中智能体个数，每个种群均包含若干个体；

步骤23：根据所述动作，计算各个个体的适应度，按照适应度从大到小的排序，通过内部遗传操作，选出各个种群的种群代表，

步骤24：计算种群代表的整体适应度，判断所述整体适应度是否达到标准，该标准根据使用场景预先设定，若达到，结束遗传因子的优化,跳转至步骤3，否则跳转至步骤25；

步骤25：分别计算各个种群代表的贡献值，对贡献值进行由大到小的排序，贡献值最小的k个代表所在的种群，对应重新选取一位新的代表，再计算整体适应度，判断所述整体适应度是否达到标准，若达到，结束遗传因子的优化,跳转至步骤3，否则跳转至步骤26；

步骤26：判断进化次数是否到达上限，若到达，则结束遗传因子的优化，跳转至步骤3；否则根据所述整体适应度更新种群代表，并对贡献值最小的k个代表所在的种群，跳转至步骤23进行进化。

其中适应度的计算为本领域公知的计算方法。

步骤31：初始化所述强化学习模块参数，所述参数包括：经验池的容量，目标Q网络的更新频率C，交流Q网络的更新频率K，每个智能体均包括自身Q网络和目标Q网络；

由于智能体在不断的学习，智能体自身的网络为自身Q网络，自身Q网络为强化学习模块中智能体采用的神经网络，策略选择网络为遗传算法中智能体采用的神经网络；目标Q网络为自身Q网络学习前的神经网络；

步骤32：利用策略选择网络的遗传因子初始化自身Q网络Q_i(s，a；θ_i)中的θ_i，利用所述自身Q网络初始化目标Q网络，利用最优个体的遗传因子初始化交流Q网络Q_c(s，a；θ_c)中的θ_c，其中s表示智能体的状态，a表示智能体的动作，所述交流Q网络用于智能体系统进行信息共享；

步骤34：从所述决策Q网络中选择一个动作a，选择动作a的策略可采用贪心策略，实现动作与环境的交互，根据回报函数得到回报r和从环境中得到的新状态s'，并将与环境交互得到的任务目标信息传递至所述交流Q网络，从而更新交流Q网络参数；

步骤38：判断是否满足预设条件B，当智能体在强化学习模块中训练预设次数后，计算整体适应度值，若满足标准，说明跳出了局部最优陷阱，跳转至步骤4，否则更新遗传因子并跳转至步骤33；

实施例2

本实施例用于将本发明应用于多智能体协同对抗问题，多智能体协同对抗问题往往会面对小规模甚至大规模的团队作战，需要智能体之间能够进行协同合作，而各个智能体如何拥有良好的合作策略是解决问题的关键，是多智能体协同控制问题的核心所在。

在图2所示的对抗环境中，灰黑色的智能体由人工编写策略，而灰白色的智能体使用本发明进行训练学习，每个智能体从外界环境接收到一定信息，根据自身的策略选择网络通过一定的方式进行动作选择，执行动作后与外界进行交互，得到环境的反馈。通过遗传算法模块或者强化学习模块进行学习，学习后继续与外界进行交互，完成对抗任务。

一种基于反馈的混合多智能体协同控制方法，包括以下步骤

步骤1：该智能体系统包含15个智能体，对各个智能体，均构建结合遗传算法和神经网络的策略选择网络；

所述策略选择网络的输入为智能体观测到的环境信息；

智能体观测到的环境如下：

1.自身的射击方向到目标敌人的cos值；

2.目标敌人到自身的距离；

3.目标敌人是否在射程内；

4.目标敌人的生命值；

5.自身武器是否在处于冷却中；

6.自身的生命值；

7.自身的子弹数量；

8.目标敌人射击方向到自己的cos值；

9.最近的同伴智能体到自身的cos值；

10.最近的同伴智能体到自身的距离。

11.最近的同伴智能体的武器是否在处于冷却中；

12.最近的同伴智能体的生命值；

13.最近的同伴智能体的子弹数量；

参数1和参数2可以得到目标敌人的位置，参数3到参数8用来判断射程内的敌人与自身的强弱关系，参数9到参数13可以获取到最近的同伴智能体的当前状态，将13个参数作为一个向量输入所述策略选择网络；

所述策略选择网络的输出为该智能体应对该环境信息产生的动作；

动作包括：

1.转动方向，该数值的正负确定转向的方向，即智能体左转或者右转；

2.移动速度，该数值的正负确定行驶的方向，即智能体前进或者后退；

3.是否射击，该数值的正负控制是否进行射击。

设定所述策略选择网络的输入输出规模及网络的层数；设定该策略选择网络为三层神经网络；对策略选择网络进行随机初始化。

步骤21：设定所述遗传算法参数，所述参数包括交叉概率p_m＝0.85，变异概率p_c＝0.15，进化次数上限step＝100，最小贡献数目k＝3；

初始化种群集，所述种群集中种群个数为15，每个种群均包含10个个体；

步骤23：根据所述动作，计算各个个体的适应度，按照适应度从大到小的排序，通过内部遗传操作，选出各个种群的种群代表，一共15个种群代表，

步骤24：所述15个种群代表作为联合小队与灰黑色智能体进行对抗，对抗结果得分作为整体适应度，进行30次对抗，将30次对抗的所有数据进行平均处理，得到偏差较低的数据作为整体适应度；

判断所述整体适应度是否达到120分，若达到，结束遗传因子的优化,跳转至步骤3，否则跳转至步骤25；

步骤25：分别计算各个种群代表的贡献值，对贡献值进行由大到小的排序，贡献值最小的3个代表所在的种群，对应重新选取一位新的代表，再计算整体适应度，判断所述整体适应度是否达到120分，若达到，结束遗传因子的优化,跳转至步骤3，否则跳转至步骤26；

步骤26：判断进化次数是否到达上限，若到达，则结束遗传因子的优化，跳转至步骤3；否则根据所述整体适应度更新种群代表，并对贡献值最小的3个代表所在的种群，跳转至步骤23进行进化。

步骤3：提取出15个种群代表，将15个种群代表的策略选择网络作为各个智能体自身Q网络，即初始化自身Q网络，交流Q网络的初始化为贡献最大的智能体的策略选择网络；利用所述强化学习模块对智能体进行训练，判断是否满足预设条件B；所述预设条件B为：计算整体适应度值达到预设值或达到最大迭代次数；

步骤31：初始化所述强化学习模块参数，所述参数包括：经验池的容量D＝1000，目标Q网络的更新频率C＝200，交流Q网络的更新频率K＝200，学习率α＝0.1，动作选择ε＝0.3，训练时长N＝5000；

步骤32：利用策略选择网络的遗传因子初始化自身Q网络Q_i(s，a；θ_i)中的θ_i，利用所述自身Q网络初始化目标Q网络，利用最优个体的遗传因子初始化交流Q网络Q_c(s，a；θ_c)中的θ_c，其中s表示智能体的状态，a表示智能体的动作；所述交流Q网络用于智能体系统进行信息共享；

步骤33：对每个智能体，以0.7的概率使用所述交流Q网络Q_c(s，a；θ_c)作为决策网络，否则使用自身Q网络Q_i(s，a；θ_i)作为决策Q网络；

回报函数为：

步骤35：将(s，a，r，s')作为经验储存至经验池中，当经验池的容量达到1000，从所述经验池中随机抽取经验作为样本，进行随机梯度下降得到残差值，利用损失函数将残差值与目标Q网络结合，进行最小化迭代，得到新的Q值；

步骤4：判断步骤2-3的迭代次数是否到达650，若达到上限，则结束流程，否则更新遗传因子并跳转至步骤2。

本发明在多智能体对抗任务中取得了良好的效果，如图3所示，横坐标表示迭代次数，纵坐标表示整体适应度值，1号曲线(带三角形标识)的变化趋势即为本发明在多智能体对抗任务中的分数变化，其中2号曲线(带菱形标识)为传统遗传算法，而3曲线(带矩形标识)为传统强化学习算法。

如图3所示，1号曲线代表的本发明算法在多智能体对抗任务中获得了最优的260分,2号曲线在125分上下不断波动。观察2个曲线的变化趋势，在120次迭代后，两者的分数开始趋于稳定，在200轮实验时，本发明开始执行强化学习模块，利用其强大的探索能力，分数在不断波动，整体呈现上升趋势。在大约400次迭代后，逐渐趋于平稳，最后到达了最优的260分。而2号曲线由于存在变异现象，分数不断波动，但由于陷入了局部最优，始终无明显提升。对比两者，本发明相比较传统遗传算法，在多智能体对抗任务中，提升了108％的分数，跳出了局部最优，获得了很大的进步。

3号曲线代表的是传统强化学习算法，初始阶段需要大量的采样进行学习。在本发明取得最优分数时，3号曲线仅仅获得了205分。观察2个曲线的变化趋势，3号曲线在迭代过程中分数波动较大，不断更新自身的策略，整体呈现上升趋势，但上升速度缓慢不稳定。最终达到了205分。对比两者，本发明相比较传统强化学习算法，在多智能体对抗任务中，提升了26％的分数，并且收敛速度更快更稳定。

如图3所示，3号曲线相比其余两条对比曲线取得了更好的效果。说明本发明在一定程度上解决了传统单一多智能体协同控制算法方法存在的“早熟”现象以及训练学习时间过长的问题。

以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等，均应包含在本发明的保护范围之内。

Claims

1.一种基于反馈的混合多智能体协同控制方法，其特征在于：包括以下步骤

所述步骤2具体为：

步骤24：计算种群代表的整体适应度，判断所述整体适应度是否达到标准，若达到，结束遗传因子的优化，跳转至步骤3，否则跳转至步骤25；

步骤25：分别计算各个种群代表的贡献值，对贡献值最小的k个代表所在的种群，重新选取代表，并计算整体适应度，判断所述整体适应度是否达到标准，若达到，结束遗传因子的优化，跳转至步骤3，否则跳转至步骤26；

所述步骤3具体为：

步骤32：利用遗传因子初始化自身Q网络Q_i(s，a；θ_i)中的θ_i，利用所述自身Q网络初始化目标Q网络，利用最优个体的遗传因子初始化交流Q网络Q_c(s，a；θ_c)中的θ_c，其中s表示智能体的状态，a表示智能体的动作；

步骤34：从所述决策Q网络中选择一个动作a，实现动作与环境的交互，根据回报函数得到回报r和从环境中得到的新状态s′，并将与环境交互得到的任务目标信息传递至所述交流Q网络；

步骤35：将(s，a，r，s′)作为经验储存至经验池中，当经验池的容量达到阈值，从所述经验池中随机抽取经验作为样本，进行随机梯度下降得到残差值，利用损失函数将残差值与目标Q网络结合，进行最小化迭代，得到新的Q值；

2.根据权利要求1所述的一种基于反馈的混合多智能体协同控制方法，其特征在于：所述步骤1中，所述策略选择网络为：将遗传算法的遗传因子作为所述神经网络的权值；

所述策略选择网络的输入为智能体观测到的环境信息；