CN111814988B

CN111814988B - 一种多智能体协作环境强化学习算法的测试方法

Info

Publication number: CN111814988B
Application number: CN202010648233.8A
Authority: CN
Inventors: 殷永峰; 谢静; 李秋儒; 王轶辰
Original assignee: Beihang University
Current assignee: Beihang University
Priority date: 2020-07-07
Filing date: 2020-07-07
Publication date: 2023-06-30
Anticipated expiration: 2040-07-07
Also published as: CN111814988A

Abstract

本发明属于智能体深度强化学习的测试领域，为多智能体协作环境强化学习算法的测试方法。所述多智能体协作环境深度强化学习算法中的智能体为两大类，一类是空间动作相对固定化的智能体，一类是动作和状态空间复杂的智能体，第一类智能体采用求最大置信回报值的算法(UCB算法)，第二类智能体采用求取最优联合动作和状态的全局函数(QMIX算法)。本发明针对两种算法的特点，分析多智能体训练模型输出的回报值和收益值，得收敛速度和效果的影响因子，通过分析影响因子得出测试多智能体协作环境出算法深度强化学习的测试技术要点，为多智能体协作环境下深度学习算法的验证提供了有效依据。

Description

一种多智能体协作环境强化学习算法的测试方法

技术领域

本发明属于智能体深度强化学习的测试技术领域，尤其涉及一种多智能体协作环境强化学习算法的测试方法。

背景技术

自然界存在大量的多智能体系统，如鱼群、蚁群等，小小的个体通过种群间相互学习获得强大的生存能力，人工多智能体系统如果也赋予这种群智能，进而获得最优个体和群体的收益，最直接的思路既是将智能学习算法用于多智能体。

多智能体强化学习需要解决很多难题，首先，在单个智能体做决策时，需要考虑对其他智能体行为的影响，在智能体数量较多且特性不一时，系统复杂度增大，不能保证学习算法在所有情况下都能收敛。其次，智能体之间必须协作有效，才能使得对环境的联合回报达到最优。

近年来，多智能体深度强化学习得到了比较快速的发展，应用场景涵盖了很多领域，尤其在军事领域的应用也越发广泛，例如DeepMind提出更复杂的即时战略游戏，在这种环境中对抗双方都是复杂多智能体系统，且具有连续动作空间，大大增加了学习难度，同时也对算法稳定性提出严峻的挑战。

智能算法中解决多臂赌博机问题的UCB算法，在军事领域中可用来训练动作和状态空间固化或较小类的智能体，从而解决部署问题，对于动作连续性较强类的智能体，可采用DDPG、MADDPG或QMIX算法。智能体学习采用的算法效果如何，就需要对算法进行评估，传统的测试方法和标准已不能满足多智能体系统的需求，研究多智能体强化学习软件的测试技术也显得尤为重要。如何设计有效的测试策略(输入和预期效果)，对验证软件的质量起着关键作用。

发明内容

为了解决上述问题，本发明提出一种多智能体协作环境强化学习算法的测试方法，为多智能体协作环境下深度学习算法(UCB和QMIX)的验证提供了评估依据。

一种多智能体协作环境强化学习算法的测试方法，包括以下步骤：

在测试前期，分析各个智能体训练算法特性，得出智能体训练算法影响因子；

根据智能体训练算法影响因子，得出验证智能体训练效果的测试策略；

测试最后阶段，分析各个智能体训练算法协作训练的测试策略，得出智能体训练算法协作影响因子；

根据智能体训练算法协作影响因子验证智能体训练效果，得出多智能体协作环境下深度学习算法测试方法。

优选的，所述智能体训练算法包含UCB算法和QMIX算法，其中UCB算法用于训练动作和状态空间固化或较小的智能体(Ⅰ类)，QMIX算法用于训练动作和状态空间大且复杂的智能体(Ⅱ类)。

优选的，所述验证智能体训练效果的测试策略，包括UCB算法训练效果的验证和QMIX算法训练效果的验证。

优选的，所述UCB算法训练效果的验证，具体过程为：

1)根据UCB算法得出训练影响因子：空间位置奖惩值、智能体数量、空间位置样本量；

2)输入调整后的空间位置奖惩值，则空间位置奖惩值较高的位置回报值高且被选次数较多，收敛速度加快；

3)修改智能体数量后开始训练，在智能体数量增多时算法收敛速度减慢，减小后收敛速度加快，输出的回报值始终被归一化；

4)修改空间位置样本量后开始训练，位置空间增多则收敛速度减慢，位置空间减少时收敛速度加快，被选中位置的回报值最高；

满足上述过程，则算法训练效果较好，反之较差。

优选的，所述QMIX算法训练效果的验证，具体过程为：

1)根据QMIX算法得出训练影响因子：智能体动作空间属性、对抗样本规则或样本量、智能体数量；

2)修改动作空间属性，则智能体动作能力增强后收益值增且收敛速度加快，能力减弱后收益值减小且收敛速度减缓；

3)修改样本规则后开始训练，对抗样本能力增强后胜率降低，减弱后胜率提升；修改样本量后开始训练，样本量增多训练速度加快，模型胜率提升；

4)修改智能体数量后开始训练，数量增加时收益值上升且速度减缓，收敛速度减慢但算法依然收敛，满足胜率要求；

满足上述过程，则算法训练效果较好，反之较差。

优选的，所述根据智能体训练算法协作影响因子验证智能体训练效果，具体为：

1)分析各个智能体训练算法协作训练的测试策略，得出智能体训练算法协作影响因子：协作训练规则、对抗样本的训练和测试样本、协作智能体数量；

2)修改智能体特性后开始训练，则智能体动作能力增强后胜率提升，能力减弱后胜率降低；修改对抗样本规则，样本能力增强训练速度减慢，胜率降低，样本能力减弱则相反；

3)修改样本量后开始训练，样本量增多训练速度减慢，减小后训练速度加快，组合算法依然收敛；

4)改变训练和测试样本的比例，增大比例训练速度减缓，测试胜率不稳定，减小比例训练速度提升胜率稳定但胜率偏低；

5)修改智能体数量后开始训练，数量增加时收敛速度减缓，胜率提高，数量减少后胜率降低，算法依然收敛，满足胜率要求；

满足上述过程，则算法训练效果较好，反之较差。

本发明的有益效果：本发明针对两种算法的特点，分析多智能体训练模型输出的回报值和收益值，得收敛速度和效果的影响因子，通过分析影响因子得出测试多智能体协作环境出算法深度强化学习的测试技术要点，为多智能体协作环境下深度学习算法的验证提供了有效依据。

附图说明

图1为本发明多智能体协作环境强化学习算法的测试技术原理图；

图2为智能体(动作和状态空间固定类)采用UCB学习算法训练智能体时的测试流程图；

图3为智能体(动作和状态空间复杂类)采用QMIX学习算法训练智能体时的测试流程图；

图4为多智能体协作环境下深度强化学习的测试方法测试流程图。

具体实施方式

现结合附图对本发明作进一步详细说明：

本发明提供一种多智能体协作环境强化学习算法的测试方法，包括以下步骤：

本实施例的智能体训练采用的算法包含UCB算法和QMIX算法，其中UCB算法用于训练动作和状态空间固化或较小的智能体(Ⅰ类如大型舰船)，QMIX算法用于训练动作和状态空间大且复杂的智能体(Ⅱ类如飞行器)。

如图1所示，多智能体协作环境强化学习算法的测试方法包括以下步骤：

步骤1：分析智能体采用的训练算法，本实例采用的是UCB算法训练模型，UCB算法中最关键的思想为寻找最高回报值进行选择；

步骤2：分析得出影响算法模型训练效果的因子为智能体位置空间的奖惩值设置、智能体的数量和部署的位置空间样本量；

步骤3：验证测试因子有效性，通过调整位置空间的奖惩值，产生算法的预期回报值和收敛速度；通过改变智能体的数量，查看智能体训练的速度和归一化程度，通过增加或减少位置空间样本量，查看智能体训练的预期回报值输出和收敛速度；

步骤4：利用因子得出智能体学习UCB算法的测试策略；

步骤5：分析智能体采用的训练算法，本实例采用的是QMIX算法训练模型，QMIX算法本质是值函数逼近算法，联合动作值函数与单个智能体的局部值函数的单调性相同，使联合动作值函数最大；

步骤6：结合算法特性，得出影响QMIX算法模型训练效果的因子为单个智能体的动作空间属性、对抗样本规则、智能体的数量和样本量；

步骤7：验证测试因子有效性，通过修改智能体的动作空间属性，产生算法的预期总收益值和收敛速度；通过改变样本规则或训练样本量，得出智能体训练的胜率或速度，通过增加或减少智能体数量，得出智能体训练的预期总收益值和收敛效果；

步骤8：利用因子得出智能体学习QMI算法的测试策略；

步骤9：分析智能体学习UCB和QMIX智能算法的影响因子和测试策略；

步骤10：得出多智能体协作环境强化学习算法的测试方法。

如图2所示，验证智能体采用UCB学习算法训练智能体效果的测试流程如下：

2)输入调整后的奖惩值，则奖励值较高的位置回报值高且被选次数较多，收敛速度加快；

4)修改空间位置样本空间后开始训练，位置空间增多则收敛速度减慢，脚线时收敛速度加快，被选中位置的回报值最高。

如图3所示，验证QMIX算法训练效果的测试流程如下：

1)根据QMIX算法得出训练影响因子：智能体动作空间、训练样本规则或样本量、智能体数量；

3)修改样本规则后开始训练，样本能力增强后胜率降低，减弱后胜率提升；修改样本量后开始训练，样本量增多训练速度加快，模型胜率提升；

4)修改智能体数量后开始训练，数量增加时收益值上升且速度减缓，收敛速度减慢但算法依然收敛，满足胜率要求。

如图4所示，验证多智能体协作训练算法训练效果的处理过程，其中具体包括：

1)根据UCB和QMIX训练算法测试方法得出协作训练影响因子：协作训练规则、智能体训练和测试样本、协作智能体数量；

5)修改智能体数量后开始训练，数量增加时收敛速度减缓，胜率提高，数量减少后胜率降低，算法依然收敛，满足胜率要求。

以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种多智能体协作环境强化学习算法的测试方法，其特征在于,包括以下步骤：

在测试前期，分析智能体UCB算法训练算法阶段特性，得出影响UCB算法模型训练效果的智能体训练算法阶段影响因子为智能体位置空间的奖惩值设置、智能体的数量和部署的位置空间样本量；

根据智能体训练算法训练影响因子，通过调整位置空间的奖惩值，产生算法的预期回报值和收敛速度；通过改变智能体的数量，查看智能体训练的速度和归一化程度，通过增加或减少位置空间样本量，查看智能体训练的预期回报值输出和收敛速度，验证测试影响因子有效性，得出验证智能体学习UCB算法的测试策略；

分析QMIX算法，联合动作值函数与单个智能体的局部值函数的单调性相同，使联合动作值函数最大，结合算法特性，得出影响QMIX算法模型训练效果的因子为单个智能体的动作空间属性、对抗样本规则、智能体的数量和样本量；

通过修改智能体的动作空间属性，产生算法的预期总收益值和收敛速度；通过改变样本规则或训练样本量，得出智能体训练的胜率或速度，通过增加或减少智能体数量，得出智能体训练的预期总收益值和收敛效果，验证测试影响因子有效性，得出验证智能体学习QMI算法的测试策略；

测试最后阶段，根据智能体UCB算法和QMIX算法的测试策略，分析协作训练的测试策略，得出智能体训练算法协作影响因子包括协作训练规则、智能体训练和测试样本、协作智能体数量；

根据智能体训练算法协作影响因子验证智能体训练效果，完成对多智能体协作环境下深度学习算法的测试。

2.根据权利要求1所述的一种多智能体协作环境强化学习算法的测试方法，其特征在于,UCB算法用于训练动作和状态空间固化或较小的Ⅰ类智能体，QMIX算法用于训练动作和状态空间大且复杂的Ⅱ类智能体。

3.根据权利要求1所述的一种多智能体协作环境强化学习算法的测试方法，其特征在于,所述验证智能体训练效果的测试策略，包括UCB算法训练效果的验证和QMIX算法训练效果的验证。

4.根据权利要求3所述的一种多智能体协作环境强化学习算法的测试方法，其特征在于,所述UCB算法训练效果的验证，具体过程为：

满足上述过程，则算法训练效果较好，反之较差。

5.根据权利要求3所述的一种多智能体协作环境强化学习算法的测试方法，其特征在于,所述QMIX算法训练效果的验证，具体过程为：

满足上述过程，则算法训练效果较好，反之较差。

6.根据权利要求1所述的一种多智能体协作环境强化学习算法的测试方法，其特征在于,所述根据智能体训练算法协作影响因子验证智能体训练效果，完成对多智能体协作环境下深度学习算法的测试，具体为：

满足上述过程，则算法训练效果较好，反之较差。