CN111814988B - 一种多智能体协作环境强化学习算法的测试方法 - Google Patents
一种多智能体协作环境强化学习算法的测试方法 Download PDFInfo
- Publication number
- CN111814988B CN111814988B CN202010648233.8A CN202010648233A CN111814988B CN 111814988 B CN111814988 B CN 111814988B CN 202010648233 A CN202010648233 A CN 202010648233A CN 111814988 B CN111814988 B CN 111814988B
- Authority
- CN
- China
- Prior art keywords
- training
- algorithm
- agent
- intelligent
- reduced
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N20/00—Machine learning
-
- A—HUMAN NECESSITIES
- A63—SPORTS; GAMES; AMUSEMENTS
- A63F—CARD, BOARD, OR ROULETTE GAMES; INDOOR GAMES USING SMALL MOVING PLAYING BODIES; VIDEO GAMES; GAMES NOT OTHERWISE PROVIDED FOR
- A63F13/00—Video games, i.e. games using an electronically generated display having two or more dimensions
- A63F13/80—Special adaptations for executing a specific game genre or game mode
- A63F13/822—Strategy games; Role-playing games
Landscapes
- Engineering & Computer Science (AREA)
- Software Systems (AREA)
- Multimedia (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Medical Informatics (AREA)
- Evolutionary Computation (AREA)
- Physics & Mathematics (AREA)
- Computing Systems (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Mathematical Physics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Artificial Intelligence (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本发明属于智能体深度强化学习的测试领域,为多智能体协作环境强化学习算法的测试方法。所述多智能体协作环境深度强化学习算法中的智能体为两大类,一类是空间动作相对固定化的智能体,一类是动作和状态空间复杂的智能体,第一类智能体采用求最大置信回报值的算法(UCB算法),第二类智能体采用求取最优联合动作和状态的全局函数(QMIX算法)。本发明针对两种算法的特点,分析多智能体训练模型输出的回报值和收益值,得收敛速度和效果的影响因子,通过分析影响因子得出测试多智能体协作环境出算法深度强化学习的测试技术要点,为多智能体协作环境下深度学习算法的验证提供了有效依据。
Description
技术领域
本发明属于智能体深度强化学习的测试技术领域,尤其涉及一种多智能体协作环境强化学习算法的测试方法。
背景技术
自然界存在大量的多智能体系统,如鱼群、蚁群等,小小的个体通过种群间相互学习获得强大的生存能力,人工多智能体系统如果也赋予这种群智能,进而获得最优个体和群体的收益,最直接的思路既是将智能学习算法用于多智能体。
多智能体强化学习需要解决很多难题,首先,在单个智能体做决策时,需要考虑对其他智能体行为的影响,在智能体数量较多且特性不一时,系统复杂度增大,不能保证学习算法在所有情况下都能收敛。其次,智能体之间必须协作有效,才能使得对环境的联合回报达到最优。
近年来,多智能体深度强化学习得到了比较快速的发展,应用场景涵盖了很多领域,尤其在军事领域的应用也越发广泛,例如DeepMind提出更复杂的即时战略游戏,在这种环境中对抗双方都是复杂多智能体系统,且具有连续动作空间,大大增加了学习难度,同时也对算法稳定性提出严峻的挑战。
智能算法中解决多臂赌博机问题的UCB算法,在军事领域中可用来训练动作和状态空间固化或较小类的智能体,从而解决部署问题,对于动作连续性较强类的智能体,可采用DDPG、MADDPG或QMIX算法。智能体学习采用的算法效果如何,就需要对算法进行评估,传统的测试方法和标准已不能满足多智能体系统的需求,研究多智能体强化学习软件的测试技术也显得尤为重要。如何设计有效的测试策略(输入和预期效果),对验证软件的质量起着关键作用。
发明内容
为了解决上述问题,本发明提出一种多智能体协作环境强化学习算法的测试方法,为多智能体协作环境下深度学习算法(UCB和QMIX)的验证提供了评估依据。
一种多智能体协作环境强化学习算法的测试方法,包括以下步骤:
在测试前期,分析各个智能体训练算法特性,得出智能体训练算法影响因子;
根据智能体训练算法影响因子,得出验证智能体训练效果的测试策略;
测试最后阶段,分析各个智能体训练算法协作训练的测试策略,得出智能体训练算法协作影响因子;
根据智能体训练算法协作影响因子验证智能体训练效果,得出多智能体协作环境下深度学习算法测试方法。
优选的,所述智能体训练算法包含UCB算法和QMIX算法,其中UCB算法用于训练动作和状态空间固化或较小的智能体(Ⅰ类),QMIX算法用于训练动作和状态空间大且复杂的智能体(Ⅱ类)。
优选的,所述验证智能体训练效果的测试策略,包括UCB算法训练效果的验证和QMIX算法训练效果的验证。
优选的,所述UCB算法训练效果的验证,具体过程为:
1)根据UCB算法得出训练影响因子:空间位置奖惩值、智能体数量、空间位置样本量;
2)输入调整后的空间位置奖惩值,则空间位置奖惩值较高的位置回报值高且被选次数较多,收敛速度加快;
3)修改智能体数量后开始训练,在智能体数量增多时算法收敛速度减慢,减小后收敛速度加快,输出的回报值始终被归一化;
4)修改空间位置样本量后开始训练,位置空间增多则收敛速度减慢,位置空间减少时收敛速度加快,被选中位置的回报值最高;
满足上述过程,则算法训练效果较好,反之较差。
优选的,所述QMIX算法训练效果的验证,具体过程为:
1)根据QMIX算法得出训练影响因子:智能体动作空间属性、对抗样本规则或样本量、智能体数量;
2)修改动作空间属性,则智能体动作能力增强后收益值增且收敛速度加快,能力减弱后收益值减小且收敛速度减缓;
3)修改样本规则后开始训练,对抗样本能力增强后胜率降低,减弱后胜率提升;修改样本量后开始训练,样本量增多训练速度加快,模型胜率提升;
4)修改智能体数量后开始训练,数量增加时收益值上升且速度减缓,收敛速度减慢但算法依然收敛,满足胜率要求;
满足上述过程,则算法训练效果较好,反之较差。
优选的,所述根据智能体训练算法协作影响因子验证智能体训练效果,具体为:
1)分析各个智能体训练算法协作训练的测试策略,得出智能体训练算法协作影响因子:协作训练规则、对抗样本的训练和测试样本、协作智能体数量;
2)修改智能体特性后开始训练,则智能体动作能力增强后胜率提升,能力减弱后胜率降低;修改对抗样本规则,样本能力增强训练速度减慢,胜率降低,样本能力减弱则相反;
3)修改样本量后开始训练,样本量增多训练速度减慢,减小后训练速度加快,组合算法依然收敛;
4)改变训练和测试样本的比例,增大比例训练速度减缓,测试胜率不稳定,减小比例训练速度提升胜率稳定但胜率偏低;
5)修改智能体数量后开始训练,数量增加时收敛速度减缓,胜率提高,数量减少后胜率降低,算法依然收敛,满足胜率要求;
满足上述过程,则算法训练效果较好,反之较差。
本发明的有益效果:本发明针对两种算法的特点,分析多智能体训练模型输出的回报值和收益值,得收敛速度和效果的影响因子,通过分析影响因子得出测试多智能体协作环境出算法深度强化学习的测试技术要点,为多智能体协作环境下深度学习算法的验证提供了有效依据。
附图说明
图1为本发明多智能体协作环境强化学习算法的测试技术原理图;
图2为智能体(动作和状态空间固定类)采用UCB学习算法训练智能体时的测试流程图;
图3为智能体(动作和状态空间复杂类)采用QMIX学习算法训练智能体时的测试流程图;
图4为多智能体协作环境下深度强化学习的测试方法测试流程图。
具体实施方式
现结合附图对本发明作进一步详细说明:
本发明提供一种多智能体协作环境强化学习算法的测试方法,包括以下步骤:
在测试前期,分析各个智能体训练算法特性,得出智能体训练算法影响因子;
根据智能体训练算法影响因子,得出验证智能体训练效果的测试策略;
测试最后阶段,分析各个智能体训练算法协作训练的测试策略,得出智能体训练算法协作影响因子;
根据智能体训练算法协作影响因子验证智能体训练效果,得出多智能体协作环境下深度学习算法测试方法。
本实施例的智能体训练采用的算法包含UCB算法和QMIX算法,其中UCB算法用于训练动作和状态空间固化或较小的智能体(Ⅰ类如大型舰船),QMIX算法用于训练动作和状态空间大且复杂的智能体(Ⅱ类如飞行器)。
如图1所示,多智能体协作环境强化学习算法的测试方法包括以下步骤:
步骤1:分析智能体采用的训练算法,本实例采用的是UCB算法训练模型,UCB算法中最关键的思想为寻找最高回报值进行选择;
步骤2:分析得出影响算法模型训练效果的因子为智能体位置空间的奖惩值设置、智能体的数量和部署的位置空间样本量;
步骤3:验证测试因子有效性,通过调整位置空间的奖惩值,产生算法的预期回报值和收敛速度;通过改变智能体的数量,查看智能体训练的速度和归一化程度,通过增加或减少位置空间样本量,查看智能体训练的预期回报值输出和收敛速度;
步骤4:利用因子得出智能体学习UCB算法的测试策略;
步骤5:分析智能体采用的训练算法,本实例采用的是QMIX算法训练模型,QMIX算法本质是值函数逼近算法,联合动作值函数与单个智能体的局部值函数的单调性相同,使联合动作值函数最大;
步骤6:结合算法特性,得出影响QMIX算法模型训练效果的因子为单个智能体的动作空间属性、对抗样本规则、智能体的数量和样本量;
步骤7:验证测试因子有效性,通过修改智能体的动作空间属性,产生算法的预期总收益值和收敛速度;通过改变样本规则或训练样本量,得出智能体训练的胜率或速度,通过增加或减少智能体数量,得出智能体训练的预期总收益值和收敛效果;
步骤8:利用因子得出智能体学习QMI算法的测试策略;
步骤9:分析智能体学习UCB和QMIX智能算法的影响因子和测试策略;
步骤10:得出多智能体协作环境强化学习算法的测试方法。
如图2所示,验证智能体采用UCB学习算法训练智能体效果的测试流程如下:
1)根据UCB算法得出训练影响因子:空间位置奖惩值、智能体数量、空间位置样本量;
2)输入调整后的奖惩值,则奖励值较高的位置回报值高且被选次数较多,收敛速度加快;
3)修改智能体数量后开始训练,在智能体数量增多时算法收敛速度减慢,减小后收敛速度加快,输出的回报值始终被归一化;
4)修改空间位置样本空间后开始训练,位置空间增多则收敛速度减慢,脚线时收敛速度加快,被选中位置的回报值最高。
如图3所示,验证QMIX算法训练效果的测试流程如下:
1)根据QMIX算法得出训练影响因子:智能体动作空间、训练样本规则或样本量、智能体数量;
2)修改动作空间属性,则智能体动作能力增强后收益值增且收敛速度加快,能力减弱后收益值减小且收敛速度减缓;
3)修改样本规则后开始训练,样本能力增强后胜率降低,减弱后胜率提升;修改样本量后开始训练,样本量增多训练速度加快,模型胜率提升;
4)修改智能体数量后开始训练,数量增加时收益值上升且速度减缓,收敛速度减慢但算法依然收敛,满足胜率要求。
如图4所示,验证多智能体协作训练算法训练效果的处理过程,其中具体包括:
1)根据UCB和QMIX训练算法测试方法得出协作训练影响因子:协作训练规则、智能体训练和测试样本、协作智能体数量;
2)修改智能体特性后开始训练,则智能体动作能力增强后胜率提升,能力减弱后胜率降低;修改对抗样本规则,样本能力增强训练速度减慢,胜率降低,样本能力减弱则相反;
3)修改样本量后开始训练,样本量增多训练速度减慢,减小后训练速度加快,组合算法依然收敛;
4)改变训练和测试样本的比例,增大比例训练速度减缓,测试胜率不稳定,减小比例训练速度提升胜率稳定但胜率偏低;
5)修改智能体数量后开始训练,数量增加时收敛速度减缓,胜率提高,数量减少后胜率降低,算法依然收敛,满足胜率要求。
以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
Claims (6)
1.一种多智能体协作环境强化学习算法的测试方法,其特征在于,包括以下步骤:
在测试前期,分析智能体UCB算法训练算法阶段特性,得出影响UCB算法模型训练效果的智能体训练算法阶段影响因子为智能体位置空间的奖惩值设置、智能体的数量和部署的位置空间样本量;
根据智能体训练算法训练影响因子,通过调整位置空间的奖惩值,产生算法的预期回报值和收敛速度;通过改变智能体的数量,查看智能体训练的速度和归一化程度,通过增加或减少位置空间样本量,查看智能体训练的预期回报值输出和收敛速度,验证测试影响因子有效性,得出验证智能体学习UCB算法的测试策略;
分析QMIX算法,联合动作值函数与单个智能体的局部值函数的单调性相同,使联合动作值函数最大,结合算法特性,得出影响QMIX算法模型训练效果的因子为单个智能体的动作空间属性、对抗样本规则、智能体的数量和样本量;
通过修改智能体的动作空间属性,产生算法的预期总收益值和收敛速度;通过改变样本规则或训练样本量,得出智能体训练的胜率或速度,通过增加或减少智能体数量,得出智能体训练的预期总收益值和收敛效果,验证测试影响因子有效性,得出验证智能体学习QMI算法的测试策略;
测试最后阶段,根据智能体UCB算法和QMIX算法的测试策略,分析协作训练的测试策略,得出智能体训练算法协作影响因子包括协作训练规则、智能体训练和测试样本、协作智能体数量;
根据智能体训练算法协作影响因子验证智能体训练效果,完成对多智能体协作环境下深度学习算法的测试。
2.根据权利要求1所述的一种多智能体协作环境强化学习算法的测试方法,其特征在于,UCB算法用于训练动作和状态空间固化或较小的Ⅰ类智能体,QMIX算法用于训练动作和状态空间大且复杂的Ⅱ类智能体。
3.根据权利要求1所述的一种多智能体协作环境强化学习算法的测试方法,其特征在于,所述验证智能体训练效果的测试策略,包括UCB算法训练效果的验证和QMIX算法训练效果的验证。
4.根据权利要求3所述的一种多智能体协作环境强化学习算法的测试方法,其特征在于,所述UCB算法训练效果的验证,具体过程为:
1)根据UCB算法得出训练影响因子:空间位置奖惩值、智能体数量、空间位置样本量;
2)输入调整后的空间位置奖惩值,则空间位置奖惩值较高的位置回报值高且被选次数较多,收敛速度加快;
3)修改智能体数量后开始训练,在智能体数量增多时算法收敛速度减慢,减小后收敛速度加快,输出的回报值始终被归一化;
4)修改空间位置样本量后开始训练,位置空间增多则收敛速度减慢,位置空间减少时收敛速度加快,被选中位置的回报值最高;
满足上述过程,则算法训练效果较好,反之较差。
5.根据权利要求3所述的一种多智能体协作环境强化学习算法的测试方法,其特征在于,所述QMIX算法训练效果的验证,具体过程为:
1)根据QMIX算法得出训练影响因子:智能体动作空间属性、对抗样本规则或样本量、智能体数量;
2)修改动作空间属性,则智能体动作能力增强后收益值增且收敛速度加快,能力减弱后收益值减小且收敛速度减缓;
3)修改样本规则后开始训练,对抗样本能力增强后胜率降低,减弱后胜率提升;修改样本量后开始训练,样本量增多训练速度加快,模型胜率提升;
4)修改智能体数量后开始训练,数量增加时收益值上升且速度减缓,收敛速度减慢但算法依然收敛,满足胜率要求;
满足上述过程,则算法训练效果较好,反之较差。
6.根据权利要求1所述的一种多智能体协作环境强化学习算法的测试方法,其特征在于,所述根据智能体训练算法协作影响因子验证智能体训练效果,完成对多智能体协作环境下深度学习算法的测试,具体为:
1)分析各个智能体训练算法协作训练的测试策略,得出智能体训练算法协作影响因子:协作训练规则、对抗样本的训练和测试样本、协作智能体数量;
2)修改智能体特性后开始训练,则智能体动作能力增强后胜率提升,能力减弱后胜率降低;修改对抗样本规则,样本能力增强训练速度减慢,胜率降低,样本能力减弱则相反;
3)修改样本量后开始训练,样本量增多训练速度减慢,减小后训练速度加快,组合算法依然收敛;
4)改变训练和测试样本的比例,增大比例训练速度减缓,测试胜率不稳定,减小比例训练速度提升胜率稳定但胜率偏低;
5)修改智能体数量后开始训练,数量增加时收敛速度减缓,胜率提高,数量减少后胜率降低,算法依然收敛,满足胜率要求;
满足上述过程,则算法训练效果较好,反之较差。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010648233.8A CN111814988B (zh) | 2020-07-07 | 2020-07-07 | 一种多智能体协作环境强化学习算法的测试方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010648233.8A CN111814988B (zh) | 2020-07-07 | 2020-07-07 | 一种多智能体协作环境强化学习算法的测试方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111814988A CN111814988A (zh) | 2020-10-23 |
CN111814988B true CN111814988B (zh) | 2023-06-30 |
Family
ID=72843130
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010648233.8A Active CN111814988B (zh) | 2020-07-07 | 2020-07-07 | 一种多智能体协作环境强化学习算法的测试方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111814988B (zh) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117111640B (zh) * | 2023-10-24 | 2024-01-16 | 中国人民解放军国防科技大学 | 基于风险态度自调整的多机避障策略学习方法及装置 |
Family Cites Families (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106598849B (zh) * | 2016-12-03 | 2019-06-04 | 浙江理工大学 | 一种基于ap-pso算法的组合测试用例生成方法 |
CN108304974B (zh) * | 2018-02-26 | 2022-02-08 | 中国民航信息网络股份有限公司 | 一种基于优化C5.0和Apriori的民航NOSHOW预测及强因子分析方法 |
CN109635917B (zh) * | 2018-10-17 | 2020-08-25 | 北京大学 | 一种多智能体合作决策及训练方法 |
US11574148B2 (en) * | 2018-11-05 | 2023-02-07 | Royal Bank Of Canada | System and method for deep reinforcement learning |
CN110958135B (zh) * | 2019-11-05 | 2021-07-13 | 东华大学 | 一种特征自适应强化学习DDoS攻击消除方法及系统 |
CN111079305A (zh) * | 2019-12-27 | 2020-04-28 | 南京航空航天大学 | 一种基于λ-回报的异策略多智能体强化学习协作方法 |
-
2020
- 2020-07-07 CN CN202010648233.8A patent/CN111814988B/zh active Active
Also Published As
Publication number | Publication date |
---|---|
CN111814988A (zh) | 2020-10-23 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Loiacono et al. | The 2009 simulated car racing championship | |
CN111111220B (zh) | 多人对战游戏的自对弈模型训练方法、装置和计算机设备 | |
CN110968866B (zh) | 一种面向深度强化学习模型对抗攻击的防御方法 | |
CN111841018B (zh) | 模型训练方法、模型使用方法、计算机设备及存储介质 | |
Kok et al. | A formal argumentation framework for deliberation dialogues | |
CN111814988B (zh) | 一种多智能体协作环境强化学习算法的测试方法 | |
CN109598342A (zh) | 一种决策网络模型自博弈训练方法及系统 | |
CN114048834B (zh) | 基于事后回顾和渐进式扩展的持续强化学习非完全信息博弈方法及装置 | |
CN111589120A (zh) | 目标物控制方法、计算机设备及计算机可读存储介质 | |
CN111639756A (zh) | 一种基于博弈约简的多智能体强化学习方法 | |
Fingar | Introduction: The Quest for Independence | |
CN112464549B (zh) | 对抗单位的动态分配方法 | |
CN112862108B (zh) | 组件化的强化学习模型处理方法、系统、设备和存储介质 | |
Findley | Agents and conflict: Adaptation and the dynamics of war | |
CN113255883A (zh) | 一种基于幂律分布的权重初始化方法 | |
CN112347699A (zh) | 多智能体对抗神经网络训练方法及装置 | |
CN112115509A (zh) | 一种数据生成方法及装置 | |
Xiaoping et al. | A new deep learning method for underwater target recognition based on one-dimensional time-domain signals | |
Mozgovoy et al. | Behavior capture with acting graph: a knowledgebase for a game ai system | |
CN112819144B (zh) | 一种具有多智能体的神经网络提升收敛和训练速度的方法 | |
US20240086776A1 (en) | Closed-loop online self-learning framework applied to autonomous vehicle | |
CN114005009B (zh) | 一种基于RS loss的目标检测模型的训练方法及装置 | |
Dai et al. | Injecting affective computing into online virtual training through fps games | |
Da | Research on Multi-Agent Communication and Collaborative Decision-Making Based on Deep Reinforcement Learning | |
CN117473992A (zh) | 剧本中故事线的提取方法、装置、电子设备及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |