CN116090549A

CN116090549A - 一种基于知识驱动的多智能体强化学习决策方法、系统及存储介质

Info

Publication number: CN116090549A
Application number: CN202310089073.1A
Authority: CN
Inventors: 殷昌盛; 杨若鹏; 杨远涛; 鲁义威; 韦文夏; 石永琪; 卢稳新; 何渤
Original assignee: National University of Defense Technology
Current assignee: National University of Defense Technology
Priority date: 2023-02-03
Filing date: 2023-02-03
Publication date: 2023-05-09

Abstract

本发明公开了一种基于知识驱动的多智能体强化学习决策方法，该方法包括：将基于知识重构的策略初始优化引入智能体初始化步骤中，构成强化学习的初始阶段；将基于知识导向的奖励函数塑形引入强化学习过程中；获取样本数据集，训练并更新神经网络，产生输出策略；收集输出策略，利用输出策略构建基于虚拟自博弈的联盟训练，将联盟训练结果用于更新智能体策略和对手池；停止训练后输出最终策略。本发明针对复杂策略空间下智能决策模型训练效率问题等现实问题，围绕奖励稀疏延时、探索盲目性和不稳定性三个问题分别采取上述方法，可以有效提升了多智能体强化学习的效率和智能决策模型水平，实现了一种基于知识驱动的多智能体强化学习决策方法。

Description

一种基于知识驱动的多智能体强化学习决策方法、系统及存储介质

技术领域

本发明涉及人工智能技术领域，更具体地，涉及一种基于知识驱动的多智能体强化学习决策方法、系统及存储介质。

背景技术

近年来，以深度学习(deep learning，DU)为核心的智能技术取得了长足的进步，特别是以深度强化学习(deep reinforcement learning，DRL)为代表的智能方法在解决雅达利游戏、棋类博弈对抗、即时策略游戏(real-time strategy，RTS)等决策问题上取得了众多超越人类水平的成果，使得面向自主认知的智能决策有望得到进一步发展，并取得关键性突破。强化学习(reinforcement learning，RL)作为解决序贯决策问题的重要方法，其通过与环境的交互试错来学习策略，恰好契合了人类的经验学习和决策思维方式，可以有效解决样本数据获取难等问题。

虽然强化学习网络可以拟合表征较为复杂的策略模型，但是随着网络层数的增加和网络参数的增加，网络训练的计算量会呈指数级增长。特别是对于即时策略游戏中大规模联合作战指挥决策问题，巨大的策略空间会带来一系列连锁问题，严重影响模型的训练效率，主要体现在三个方面：

一是奖励稀疏延时导致学习效率低下。强化学习的学习目标能否与作战任务目标统一，奖励函数的设计起着决定性作用。战争游戏作为典型复杂问题，以自然语言形式表征的作战目标却很难直接转换成准确的奖励函数，同时由于作战影响因素的复杂性，对于单个动作行为很难给出即时准确的反馈，即奖励函数存在反馈稀疏、延迟和不准确的问题，严重影响强化学习的效率。

二是探索盲目性导致训练难以收敛。强化学习的“试错”机制虽然可以有效解决作战样本数据缺乏问题，但这种盲目性也带来学习效率低的问题。特别是在复杂大规模作战背景下，决策空间巨大，在训练初始阶段盲目试错机制的效率低问题就更为明显，甚至根本无法得到有效的样本数据。

三是不稳定性导致策略鲁棒性不够。强化学习是通过自博弈形式得到样本数据，所以其抽样得到的训练样本质量完全取决于自博弈阶段智能体水平。而智能体的策略学习是通过在策略空间中不断地探索与利用实现，而复杂策略空间下如果探索有限则会使得智能体策略具有片面局限性，即模型性能的不稳定性，反之大量的探索又会导致模型难以收敛，即模型训练的不稳定性，最终都会降低智能体策略的鲁棒性。

发明内容

针对现有技术的至少一个缺陷或改进需求，本发明提供了一种基于知识驱动的多智能体强化学习决策方法、系统及存储介质，用以解决上述问题中的至少一个。

为实现上述目的，按照本发明的第一个方面，提供了一种基于知识驱动的多智能体强化学习决策方法，该方法包括：

S1.将基于知识重构的策略初始优化引入智能体初始化步骤中，构成强化学习的初始阶段；

S2.将基于知识导向的奖励函数塑形引入强化学习过程中；

S3.获取所述S2步骤的样本数据集，训练并更新神经网络，产生输出策略；

S4.收集所述S3步骤的所述输出策略，利用所述输出策略构建基于虚拟自博弈的联盟训练，将所述联盟训练结果用于更新智能体策略和对手池；

S5.停止训练后，输出最终策略。

进一步地，上述基于知识驱动的多智能体强化学习决策方法还包括：

其步骤S1具体包括在强化学习初始阶段引入模仿学习，构建基于先验知识的智能体作为智能体博弈对抗训练的对手。

所述模仿学习是引入生成对抗网络，采用基于生成对抗网络的模仿学习方法，从专家策略中学习，实现面向经验知识的模仿学习；

和/或引入生成对抗网络，采用基于生成对抗网络的模仿学习方法，使用重采样方法从各类失败样本中挖掘失败经验，实现面向教训知识的模仿学习。

其步骤S2具体包括在强化学习过程中通过引入奖励函数塑形方法，利用相应知识引导强化学习和加速学习过程。

所述奖励函数塑形方法包括利用历史经验知识，将作战经验进行形式化建模，并量化成经验统计量，基于所述经验统计量对奖励函数进行塑形；

和/或利用强化学习过程中不断产生的样本数据，使用监督学习方法从所述样本数据中挖掘对抗过程成功经验，基于所述成功经验对奖励函数进行塑形。

其步骤S4具体包括收集所述S3步骤的所述输出策略，利用所述输出策略构建所述对手池，让所述对手池内部的策略个体之间相互对抗训练，重复上述构建对手池-对抗步骤，提升所述对手池内所述策略个体的水平，并利用所述策略个体更新所述智能体策略。

所述对手池内部的所述策略个体至少分为主策略、联盟针对者、主策略针对者三类，其中所述主策略是正在训练的策略及其历史策略，所述联盟针对者是能打败所述对手池里所有所述策略个体的策略，所述主策略针对者是能打败所述主策略的策略；

所述基于先验知识的智能体通过所述模仿学习的方式生成所述联盟针对者策略的初始化策略个体和所述主策略针对者的初始化策略个体，并将上述的初始化策略个体加入所述对手池中；

在任何时刻所述主策略至多有1个正在进行所述相互对抗训练，在任何时刻所述联盟针对者策略至多有2个正在进行所述相互对抗训练，在任何时刻所述主策略针对者至多有1个正在进行所述相互对抗训练。

所述主策略的所述相互对抗训练方式是以第一概率直接与自己对战，以第二概率从所述对手池中所有所述策略个体中挑选策略个体，以第三概率从所述联盟针对者策略、所述主策略针对者策略或历史主策略中挑选策略个体；所述第一概率、第二概率、第三概率之和为1；所述主策略每隔 T个时间步进后存档；

所述从所述对手池中所有所述策略个体中挑选策略个体的具体挑选规则是按照有优先级的虚拟自博弈提供的最强对手概率分布挑选所述策略个体作为对手；所述从所述联盟针对者策略、所述主策略针对者策略或历史主策略中挑选策略个体的具体规则是按照有优先级的虚拟自博弈提供的最强对手概率分布挑选所述联盟针对者策略、所述主策略针对者策略或历史主策略作为对手，且被选中的策略对战主策略的胜率不低于第一胜率；所述有优先级的虚拟自博弈提供的最强对手概率分布在所述主策略的所述相互对抗训练开始后不再更新；

和/或所述联盟针对者策略的所述相互对抗训练方式是选取所述联盟针对者策略的初始化策略个体，该策略个体按照有优先级的虚拟自博弈提供的概率分布与所述对手池中所有所述策略个体对战训练；上述策略个体在胜率超过第二胜率和/或间隔 T个时间步进时存档为联盟针对者策略；上述存档联盟针对者策略时设置第四概率将所述联盟针对者策略重设为所述联盟针对者策略的初始化策略个体；

和/或所述主策略针对者策略的所述相互对抗训练方式是选取所述主策略针对者策略的初始化策略个体，如果该策略个体与所述主策略对战的胜率高于第三胜率则选取所述主策略作为对手对战训练，否则按照有优先级的虚拟自博弈提供的概率分布挑选历史主策略作为对手对战训练；上述策略个体在胜率超过第四胜率和/或间隔 T个时间步进时存档为主策略针对者策略；上述存档主策略针对者策略后将所述主策略针对者策略重设为所述主策略针对者策略的初始化策略个体；

所述有优先级的虚拟自博弈是指胜率越高的对手被挑选的概率越高的一种虚拟自博弈，其中挑选概率计算公式如下：

其中，为加权函数，所述加权函数至少分为最强对手的加权函数、和自己旗鼓相当的对手的加权函数，表示加权后当前策略 A击败对手策略 B概率的函数，表示当前策略 A遍历对抗对手池中所有策略，获胜概率的函数之和。

进一步地，所述第一概率优选35%，所述第二概率优选50%，所述第三概率优选15%，所述第四概率优选25%；所述第一胜率优选70%，所述第二胜率优选70%，所述第三胜率优选10%，所述第四胜率优选70%。

按照本发明的第二个方面，还提供了一种基于知识驱动的多智能体强化学习决策系统，其包括至少一个处理单元、以及至少一个存储单元，其中，所述存储单元存储有计算机程序，当所述计算机程序被所述处理单元执行时，使得所述处理单元执行上述任一项所述方法的步骤。

按照本发明的第三个方面，还提供了一种计算机可读存储介质，其存储有可由访问认证设备执行的计算机程序，当所述计算机程序在访问认证设备上运行时，使得所述访问认证设备执行上述任一项所述方法的步骤。

总体而言，通过本发明所构思的以上技术方案与现有技术相比，能够取得下列有益效果：

（1）本发明提供的基于知识驱动的多智能体强化学习决策方法，将基于知识重构的策略初始优化引入智能体初始化步骤中，解决探索盲目性问题；将基于知识导向的奖励函数塑形引入强化学习过程中，解决奖励函数的反馈稀疏和延迟问题；构建基于虚拟自博弈的联盟训练，提高策略体的训练效率，有利于提高训练模型的稳定性。本发明针对复杂策略空间下智能决策模型训练效率问题等现实问题，围绕奖励稀疏延时、探索盲目性和不稳定性三个问题分别采取上述方法，可以有效提升了多智能体强化学习的效率和智能决策模型水平，实现了一种基于知识驱动的多智能体强化学习决策方法。

（2）本发明提供的基于知识驱动的多智能体强化学习决策方法，将模仿学习引入强化学习，借鉴传统军事运筹学方法，以状态机、决策树等形式将现有的指挥员经验数据化，形成一些基于先验知识的智能体，并将其作为智能体博弈对抗训练时的一部分对手，从而有效提升智能体对抗训练初始阶段的效率和效果；其中采用基于生成对抗网络的模仿学习方法，从专家策略中学习，实现面向经验知识的模仿学习，可以解决复杂的大规划决策问题；采用基于生成对抗网络的模仿学习方法，使用重采样方法从各类失败样本中挖掘失败经验，实现面向教训知识的模仿学习，通过充分利用各类失败样本的教训知识来增加策略学习的搜索效率，同时在一定程度上也减轻依赖部分专家经验知识产生的局限性，提高策略的多样性和鲁棒性。

（3）本发明提供的基于知识驱动的多智能体强化学习决策方法，在强化学习过程中通过引入奖励函数塑形方法，利用相应知识引导强化学习和加速学习过程，可以引导智能体可以较快学到一些较为成熟的战法。其中奖励函数塑形方法包括利用历史经验知识，将指挥员的作战经验进行形式化建模，并量化成指挥员经验统计量，基于经验统计量对奖励函数进行塑形，可以有效解决奖励稀疏问题；利用强化学习过程中不断产生的样本数据，使用监督学习方法从样本数据中挖掘对抗过程成功经验，基于成功经验对奖励函数进行塑形，可以提升智能体访问相对较优状态的概率。

（4）本发明提供的基于知识驱动的多智能体强化学习决策方法，在构建基于虚拟自博弈的联盟训练时，通过构建一个包含多个多类型策略模型的对手池，使用基于多智能体强化学习不断提升整个策略集合的水平来构建强大对手，从而提升最终输出策略的水平；本发明在传统的虚拟自博弈基础上，引入有优先级的虚拟自博弈，按照胜率确定从对手池中挑选对手的概率，既可以平衡提升模型训练水平和训练效率之间的问题，又可以避免训练对手单一带来的鲁棒性问题，进而解决算法的收敛和模型水平提升问题。

附图说明

为了更清楚地说明本发明实施例中的技术方案，下面将对实施例中所需使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例提供的一种基于知识驱动的多智能体强化学习决策方法的流程示意图；

图2为本发明实施例提供的一种基于知识驱动的多智能体强化学习决策方法总体策略示意图；

图3为本发明实施例提供的面向经验知识的模仿学习策略示意图；

图4为本发明实施例提供的面向教训知识的模仿学习策略示意图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。此外，下面所描述的本发明各个实施方式中所涉及到的技术特征只要彼此之间未构成冲突就可以相互组合。

本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”、“第三”等是用于区别不同对象，而不是用于描述特定顺序。此外，术语“包括”和“具有”以及它们任何变形，意图在于覆盖不排他的包含。例如包含了一系列步骤或单元的过程、方法、系统、产品或设备没有限定于已列出的步骤或单元，而是可选地还包括没有列出的步骤或单元，或可选地还包括对于这些过程、方法、产品或设备固有的其他步骤或单元。

如图1-2所示，本发明提供了一种基于知识驱动的多智能体强化学习决策方法，该方法包括：

S2.将基于知识导向的奖励函数塑形引入强化学习过程中；

S4.收集所述S3步骤的所述输出策略，利用所述输出策略构建基于虚拟自博弈的联盟训练，将所述联盟训练结果用于更新智能体策略和对手池。

强化学习(reinforcement learning，RL)在解决雅达利游戏、棋类博弈对抗、即时策略游戏(real-time strategy，RTS)等决策问题上取得了众多超越人类水平的成果，但是随着网络层数的增加和网络参数的增加，网络训练的计算量会呈指数级增长。特别是对于即时策略游戏中大规模联合作战指挥决策问题，巨大的策略空间会带来一系列连锁问题，严重影响模型的训练效率。主要的问题存在于三个方面，一是奖励稀疏延时导致学习效率低下，二是探索盲目性导致训练难以收敛，三是不稳定性导致策略鲁棒性不够。本发明中分别采用将基于知识重构的策略初始优化引入智能体初始化步骤中，解决探索盲目性问题，将基于知识导向的奖励函数塑形引入强化学习过程中，解决奖励函数的反馈稀疏和延迟问题，采用构建基于虚拟自博弈的联盟训练，提高策略体的训练效率，有利于提高训练模型的稳定性。

进一步地，本发明还包括：

在强化学习初始阶段引入模仿学习，构建基于先验知识的智能体作为智能体博弈对抗训练的对手。

针对探索盲目性问题，基于典型作战场景和样式，将模仿学习引入强化学习，借鉴传统军事运筹学方法，以状态机、决策树等形式将现有的指挥员经验数据化，形成一些基于先验知识的智能体，并将其作为智能体博弈对抗训练时的一部分对手，从而有效提升智能体对抗训练初始阶段的效率和效果。

在强化学习初始阶段引入模仿学习，构建一批基于先验知识的智能体作为智能体博弈对抗训练的对手，提升智能体对抗训练初始阶段的效率和效果。具体包括两部分：一是将生成对抗网络和模仿学习相结合，从有限的专家样本中学习知识，实现面向经验知识的模仿学习；二是为减少对专家样本的盲从性，使用重采样方法从各类失败样本中挖掘失败经验，实现面向教训知识的模仿学习。

目前模仿学习的实现方法主要有行为克隆法和逆向强化学习（ImitationLearning via Inverse Reinforcement Learning，IRL-IL）的方法。行为克隆法泛化性较差，需要大量的专家策略示教数据，这对于作战问题显然不太现实；而逆强化学习需要不断地迭代强化，在计算效率上不太理性。为此本发明引入生成对抗网络（GenerativeAdversarial Nets,GANs），设计了一种基于生成对抗网络的模仿学习方法（ImitationLearning Based on Generative Adversarial Nets, GANs-IL），通过两个神经网络来表示IRL-IL中的奖励函数和策略，并使用基于策略梯度的强化学习方法来优化整个网络的参数。由于策略和奖励函数都可用非线性的神经网络进行拟合，所以其可以表征更为复杂的策略，并且直接以策略作为学习目标从专家样本中提取特征，可以解决复杂的大规划决策问题。

基于生成对抗网络的模仿学习算法框架可用图3表示。基于生成对抗网络的模仿学习的目标函数可以表示为：

其中，为判别器，为状态-动作对，为判别器判别该状态-动作对由专家策略产生的概率，和分别为专家策略和最终需要学习输出的策略。

在实际作战过程中，不仅有成功经验的累计，也存在很多失败的教训，这些失败的教训也可以转换成为知识来指导策略的学习。同时智能体本身在强化学习探索过程中也会产生很多失败经历，传统的强化学习中这些失败样本并没有利用起来，也在很大程度上降低了学习效率。为此，本发明设计了一种面向教训知识的生成对抗模仿学习（GenerativeAdversarial Imitation Learning with Lesson, GAIL-L），通过充分利用各类失败样本的教训知识来增加策略学习的搜索效率，同时在一定程度上也减轻依赖部分专家经验知识产生的局限性，提高策略的多样性和鲁棒性，GAIL-L算法框架如图4所示。

其中，和分别为由神经网络表示的策略和奖励函数。标注者将策略生成的状态动作对与专家示例进行比对，认定为成功的则给予奖励更新，否则将其缓存于教训样本池中。然后从教训样本中采样获取失败的经验样本对奖励函数进行更新，令=，可得到更新方法如下：

进一步地，本发明还包括：

在强化学习过程中通过引入奖励函数塑形方法，利用相应知识引导强化学习和加速学习过程。

所述奖励函数塑形方法包括利用历史经验知识，将指挥员的作战经验进行形式化建模，并量化成指挥员经验统计量，基于所述经验统计量对奖励函数进行塑形；

针对奖励稀疏延时问题，将指挥员的作战经验进行形式化建模，并量化成一些指挥员经验统计量。从而在设计强化学习奖励函数的时候，除了基本的作战目标、敌我毁伤等奖励量之外，将指挥员经验统计量和强化学习过程样本中蕴藏的知识耦合到奖励函数中，从而引导智能体可以较快学到一些较为成熟的战法。

在强化学习过程中通过引入奖励函数塑形方法，利用指挥员经验、军事规则等知识引导强化学习和加速学习过程。具体包括两部分：一是利用历史经验知识，主要是将指挥员的作战经验进行形式化建模，并量化成一些指挥员经验统计量，然后基于历史知识统计量对奖励函数进行塑形和离线优化；二是利用训练过程样本知识，主要是利用强化学习过程中不断产生的样本数据，使用监督学习方法从其中挖掘优势状态、策略等对抗过程成功经验，实现奖励函数的在线优化。

基本原理是将经验知识转换成额外的奖励，从而引导探索方向和加速学习过程，经过奖励函数塑形之后，奖励函数可以表示为：

其中为塑形之前的原始奖励函数，为塑形函数，原始奖励函数与塑形函数相加得到塑形之后的奖励函数。

直接将指挥员的作战经验进行形式化建模，并量化成一些指挥员经验统计量作为智能指挥决策的奖励函数的一部分，可以有效解决奖励稀疏问题。本发明以兵棋仿真平台为例，在设计强化学习奖励函数的时候，除了基本的作战目标、敌我毁伤等奖励量之外，将指挥员经验统计量耦合到奖励函数中，从而引导智能体可以较快学到一些较为成熟的战法，如表1示例所示。

表1 基于历史知识统计量的奖励函数离线优化示例

表中上半部分展示的是传统作战过程中常用的作战效果量化指标，其在以兵棋为代表的作战模拟仿真推演中一般以分值进行量化。其中传统分值一般分为小分和大分，分别用于衡量和表示作战过程中实时奖励和训练评估模型的胜率和智能水平。在较大规模的复杂对抗场景中，仅仅依靠这种传统的奖励机制会带来奖励稀疏、难以收敛等问题。表中下半部分为基于历史知识统计量的奖励，主要通过衡量智能体行为和专家行为是否一致来计算奖励，从而达到模仿人类指挥员行为和加速模型收敛。根据统计量类型，一般采用编辑距离、汉明距离等方式来计算和量化智能体行为和专家行为的差距。

利用强化学习对抗过程中试错经历，使用监督学习和奖励函数塑形提升智能体访问相对较优状态的概率，具体实现包括两个步骤：首先是基于监督学习的后验概率学习，主要用于从样本中分析各个状态的好坏；然后是基于后验概率的奖励函数塑形，主要是基于状态分析的基础上设计奖励函数。

后验概率学习主要是基于强化学习对抗过程中产生的指挥决策样本，通过监督学习获取不同状态（态势）的历史选择概率，从而为后续奖励函数设计中鼓励智能体更频繁地访问那些概率高的状态（有利战场态势）。主要包括两个步骤：一是决策树构造，主要基于强化学习过程中产生的指挥决策样本数据，采用递归的方式生成T棵完全随机决策树，用于表征不同状态的好坏；二是基于决策树的状态预测，主要是基于上述步骤产生的决策树对待评估状态进行预测，这里为避免单棵决策树的不稳定性，采用T棵完全随机决策树的统计平均进行预测，输出后验概率可以表示为：

其中，表示状态s对应的第t棵树的叶子节点。

为提高模型训练效率，首先对于后验概率较高的状态，应当鼓励智能体尽可能多去访问，然而过于精确的访问高后验概率状态不仅会影响其对噪声的鲁棒性，还容易产生过拟合，所以为尽可能访问高后验概率以及其邻近状态，本发明基于上述的后验概率模型采用了一种基于势函数的奖励函数塑形方法，具体奖励塑形函数如下：

其中为动作，为最优动作集合，为势函数，且对于所有从状态s采取动作到达状态的情况，均满足。

进一步地，本发明还包括：

收集所述S3步骤的所述输出策略，利用所述输出策略构建所述对手池，让所述对手池内部的策略个体之间相互对抗训练，重复上述构建对手池-对抗步骤，提升所述对手池内所述策略个体的水平，并利用所述策略个体更新所述智能体策略。

针对模型训练不稳定问题，采用构建一个称之为策略集的对手池，其由训练过程中产生的所有历史策略组成，然后不断让策略集内部的个体之间相互对抗来进行强化训练，通过提升策略集内所有个体的水平，最终使得所训练策略的水平和稳定性得到有效提升。

通过引入策略集和联盟训练概念，从提升对手构建、对手选择和策略训练三方面开展研究和优化，具体包括：一是采用虚拟自博弈的方式，通过统计概率尽可能选择水平较高的作战对手来提升模型训练水平；二是采用对手池的形式构建策略集，通过策略集内部不断地相互对抗提升对手水平；三是采用联盟训练机制，通过不同的对手选择和策略更新规则来提升模型的水平和稳定性。

基于强化学习的指挥决策是通过与环境不断地进行交互试错来学习策略，作战对手的水平在很大程度上也决定了学习模型的水平和效率。因此，本发明采用基于策略集的对手池构建方法，通过构建一个包含多个多类型策略模型的对手池，使用基于多智能体强化学习不断提升整个策略集合的水平来构建强大对手，从而提升最终输出策略的水平。策略集具体构成如表2所示。

表2 基于策略集的对手池

传统的学习训练中只需训练一个策略模型，即最终需要输出和使用的策略。本文中训练的是一个包含有很多策略模型的策略集合，其中集合里的策略至少分为三种：主策略、联盟针对者、主策略针对者。在训练这些策略的时候，其对手也是从该策略集中挑选，通过策略集中的所有个体之间进行相互对抗和学习，最终使得整个策略集中每一个个体的水平都得到提升。

基于强化学习的作战样本生成是通过在虚拟环境中进行自博弈产生对抗样本数据，对手的水平在很大程度上决定了学习模型的水平。对手过弱情况下智能体胜率总是100%，会阻碍智能体对未知策略的探索和水平的提升，对手过强情况下智能体胜率总是0%，又会影响训练效率。同时如果对手策略过于单一，训练模型的鲁棒性得不到保证，甚至出现策略循环的问题，最终导致算法难以收敛和模型水平难以提升。因此，如何挑选自博弈对手成为提升模型训练水平和稳定性的关键。

虚拟自博弈（Fictitious Self-Play，FSP）则是在训练过程中每隔一段时间给策略模型存档，得到一个种群，然后均匀的从种群中选出对手与正在训练的模型对战。本文在此基础上，引入有优先级的虚拟自博弈（Prioritized Fictitious Self-Play，PFSP），按照胜率确定从对手池中挑选对手的概率，即胜率越高的对手被挑选的概率越高，挑选概率计算公式如下：

其中，表示加权后当前策略 A击败对手策略 B概率的函数，表示当前策略 A遍历对抗对手池中所有策略，获胜概率的函数之和。为加权函数，不同类型智能体选取不同的加权函数。根据训练需要又可以分别选择最强对手、和自己旗鼓相当的对手，其加权函数分别如下：

，

按照对手池中三种策略类型，采用虚拟自博弈的方式对策略集合中所有策略模型进行联盟训练，具体包括对战对象选取、策略存档规则、策略初始化规则三方面内容。

主策略是指正在训练的智能体及其所有祖先，是整个训练的核心目标，任何时刻正在训练的主策略至多有1个，也是最终用于决策的策略模型。其对战对象包括三部分：以第一概率直接与自己对战，以第二概率从策略集合中所有模型中挑选，以第三概率与能打败该主策略的联盟针对者或者历史主策略对战，具体选取规则如表3所示。

表3 主智能体对战对象选取规则

其中PFSP加权函数均采用最强对手函数：，且主策略自训练开始初始化后，不再重设，之后每隔T个时间步进行存档。上述第一概率优选35%，第二概率优选50%，第三概率优选15%，第一胜率优选70%。

联盟针对者的功能定位是能打败策略集里的所有策略及其历史策略，主要用于发现全局盲点和提升策略集的整体水平，任何时刻正在训练的联盟针对者至多有2个。其具体训练规则如表4所示。

表4 联盟针对者训练规则

上述第二胜率优选70%，第四概率优选25%。

主策略针对者的功能定位能打败正在训练的主策略及其历史主策略，主要用于发现当前主策略的弱点和提升当前主策略的水平，任何时刻正在训练的主策略针对者至多有1个。其具体训练规则如表5所示。

表5 主策略针对者训练规则

上述第三胜率优选10%，第四胜率优选70%。

本发明还提供一种基于知识驱动的多智能体强化学习决策系统，其包括至少一个处理单元、以及至少一个存储单元，其中，所述存储单元存储有计算机程序，当所述计算机程序被所述处理单元执行时，使得所述处理单元执行上述方法的步骤。

本发明还提供一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现上述方法的步骤。其中，计算机可读存储介质可以包括但不限于任何类型的盘，包括软盘、光盘、DVD、CD-ROM、微型驱动器以及磁光盘、ROM、RAM、EPROM、EEPROM、DRAM、VRAM、闪速存储器设备、磁卡或光卡、纳米系统（包括分子存储器IC），或适合于存储指令和/或数据的任何类型的媒介或设备。

本领域的技术人员容易理解，以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等，均应包含在本发明的保护范围之内。

Claims

1.一种基于知识驱动的多智能体强化学习决策方法，其特征在于，包括：

S2.将基于知识导向的奖励函数塑形引入强化学习过程中；

S5.停止训练后，输出最终策略。

2.如权利要求1所述的基于知识驱动的多智能体强化学习决策方法，其特征在于，步骤S1具体包括：

3.如权利要求2所述的基于知识驱动的多智能体强化学习决策方法，其特征在于，还包括：

4.如权利要求1所述的基于知识驱动的多智能体强化学习决策方法，其特征在于，步骤S2具体包括：

5.如权利要求4所述的基于知识驱动的多智能体强化学习决策方法，其特征在于，还包括：

6.如权利要求3所述的基于知识驱动的多智能体强化学习决策方法，其特征在于，步骤S4具体包括：

7.如权利要求6所述的基于知识驱动的多智能体强化学习决策方法，其特征在于，还包括：

8.如权利要求7所述的基于知识驱动的多智能体强化学习决策方法，其特征在于，还包括：

所述主策略的所述相互对抗训练方式是以第一概率直接与自己对战，以第二概率从所述对手池中所有所述策略个体中挑选策略个体，以第三概率从所述联盟针对者策略、所述主策略针对者策略或历史主策略中挑选策略个体；所述第一概率、第二概率、第三概率之和为1；所述主策略每隔T个时间步进后存档；

和/或所述联盟针对者策略的所述相互对抗训练方式是选取所述联盟针对者策略的初始化策略个体，该策略个体按照有优先级的虚拟自博弈提供的概率分布与所述对手池中所有所述策略个体对战训练；上述策略个体在胜率超过第二胜率和/或间隔T个时间步进时存档为联盟针对者策略；上述存档联盟针对者策略时设置第四概率将所述联盟针对者策略重设为所述联盟针对者策略的初始化策略个体；

和/或所述主策略针对者策略的所述相互对抗训练方式是选取所述主策略针对者策略的初始化策略个体，如果该策略个体与所述主策略对战的胜率高于第三胜率则选取所述主策略作为对手对战训练，否则按照有优先级的虚拟自博弈提供的概率分布挑选历史主策略作为对手对战训练；上述策略个体在胜率超过第四胜率和/或间隔T个时间步进时存档为主策略针对者策略；上述存档主策略针对者策略后将所述主策略针对者策略重设为所述主策略针对者策略的初始化策略个体；

其中，为加权函数，所述加权函数至少分为最强对手的加权函数、和自己旗鼓相当的对手的加权函数，表示加权后当前策略A击败对手策略B概率的函数，表示当前策略A遍历对抗对手池中所有策略，获胜概率的函数之和。

9.一种基于知识驱动的多智能体强化学习决策系统，其特征在于，包括至少一个处理单元、以及至少一个存储单元，其中，所述存储单元存储有计算机程序，当所述计算机程序被所述处理单元执行时，使得所述处理单元执行权利要求1～8任一项所述方法的步骤。

10.一种计算机可读存储介质，其特征在于，其存储有可由访问认证设备执行的计算机程序，当所述计算机程序在访问认证设备上运行时，使得所述访问认证设备执行权利要求1～8任一项所述方法的步骤。