CN114662655A - 一种基于注意力机制的兵棋推演ai分层决策方法及装置 - Google Patents
一种基于注意力机制的兵棋推演ai分层决策方法及装置 Download PDFInfo
- Publication number
- CN114662655A CN114662655A CN202210192161.XA CN202210192161A CN114662655A CN 114662655 A CN114662655 A CN 114662655A CN 202210192161 A CN202210192161 A CN 202210192161A CN 114662655 A CN114662655 A CN 114662655A
- Authority
- CN
- China
- Prior art keywords
- situation
- current
- agents
- decision
- network
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 45
- 230000007246 mechanism Effects 0.000 title claims abstract description 35
- 230000002787 reinforcement Effects 0.000 claims abstract description 46
- 238000007781 pre-processing Methods 0.000 claims abstract description 23
- 238000012549 training Methods 0.000 claims abstract description 18
- 238000012216 screening Methods 0.000 claims abstract description 14
- 230000009471 action Effects 0.000 claims description 46
- 238000011156 evaluation Methods 0.000 claims description 31
- 230000006870 function Effects 0.000 claims description 19
- 238000013528 artificial neural network Methods 0.000 claims description 6
- 230000003993 interaction Effects 0.000 claims description 4
- 238000004364 calculation method Methods 0.000 claims description 3
- 238000004590 computer program Methods 0.000 claims description 3
- 238000011478 gradient descent method Methods 0.000 claims description 2
- 239000003795 chemical substances by application Substances 0.000 description 136
- 239000010410 layer Substances 0.000 description 72
- 238000013473 artificial intelligence Methods 0.000 description 19
- 238000004422 calculation algorithm Methods 0.000 description 17
- 238000010586 diagram Methods 0.000 description 5
- 238000004891 communication Methods 0.000 description 4
- 238000013461 design Methods 0.000 description 4
- 230000008569 process Effects 0.000 description 4
- 238000012545 processing Methods 0.000 description 4
- 238000002474 experimental method Methods 0.000 description 3
- 238000013507 mapping Methods 0.000 description 3
- 238000012986 modification Methods 0.000 description 3
- 230000004048 modification Effects 0.000 description 3
- 238000011161 development Methods 0.000 description 2
- 239000011159 matrix material Substances 0.000 description 2
- 238000012544 monitoring process Methods 0.000 description 2
- 239000002356 single layer Substances 0.000 description 2
- 238000013459 approach Methods 0.000 description 1
- 230000006399 behavior Effects 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 239000008280 blood Substances 0.000 description 1
- 210000004369 blood Anatomy 0.000 description 1
- 230000000052 comparative effect Effects 0.000 description 1
- 238000001816 cooling Methods 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 230000007123 defense Effects 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 230000007613 environmental effect Effects 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 238000003825 pressing Methods 0.000 description 1
- 238000011160 research Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/048—Activation functions
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/24—Querying
- G06F16/245—Query processing
- G06F16/2458—Special types of queries, e.g. statistical queries, fuzzy queries or distributed queries
- G06F16/2471—Distributed queries
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Software Systems (AREA)
- Mathematical Physics (AREA)
- General Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Biomedical Technology (AREA)
- General Health & Medical Sciences (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Evolutionary Computation (AREA)
- Biophysics (AREA)
- Artificial Intelligence (AREA)
- Life Sciences & Earth Sciences (AREA)
- Health & Medical Sciences (AREA)
- Fuzzy Systems (AREA)
- Probability & Statistics with Applications (AREA)
- Databases & Information Systems (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本发明公开了一种基于注意力机制的兵棋推演AI分层决策方法及装置,包括进行分层网络建模与强化学习智能体建模,获取到态势推演初始数据进行预处理;获通过智能体局部观察数据,输出当前所有智能体的总体目标;通过智能体局部观察数据和当前所有智能体的总体目标,输出当前所有智能体的当前应采取的决策;通过当前所有智能体的总体目标,筛选并预处理得到此刻的目标态势;利用注意力机制筛选出与目标态势关联最大的智能体局部信息,并进行态势评估;将当前所有智能体的当前应采取的决策输入到兵棋推演环境中,得到更新之后的新态势,通过所述新旧态势之间的差别计算奖励并训练网络,本发明能够有效的解决兵棋推演环境的动态性问题以及稀疏奖励问题,使AI能够实现自主决策,对不同的想定具有一定的适应能力与较高的胜率。
Description
技术领域
本发明涉及一种基于注意力机制的兵棋推演AI分层决策方法及装置,属于兵棋推演AI技术领域。
背景技术
兵棋作为一种用于战争研究的工具,有着近200年的发展历史。随着计算机与信息技术的发展,早期的手工兵棋逐渐演化为现代的计算机兵棋。兵棋推演是一种基于兵棋平台的演算机制,推演者可充分运用统计学、概率论、博弈论等科学方法,对战争全过程进行仿真、模拟与推演,可以在实际战争中起到优化战争方案、评估战争效能等作用。随着人工智能的发展,基于兵棋推演的AI出现,通过对有限样本数据的不断深度学习、强化学习,实现识别态势、评估态势、自主决策、监控行动、调整任务等功能,使军事应用人员可以更加聚焦于对抗推演本身,兵棋推演过程和实际作战指挥结合得更密切。基于规则的兵棋推演AI决策方法运用十分广泛,然而,基于规则的兵棋推演算法缺少针对与不同想定以及不同对手的适应能力,所以机器学习方法开始逐渐替代规则,成为智能体智能决策的首选方法。
由于兵棋推演的想定中通常存在较多智能体,且若干智能体存在着不同的类别,这种现象在强化学习算法中被称为多智能体环境。多智能体强化学习近年来成为强化学习领域的一个热门方向,在RTS游戏、棋牌类博弈等领域中都得到了广泛的应用。多智能体强化学习往往涉及两个问题:当智能体的数量增加时,输入和控制空间的维度也会增加,基于单智能体的强化学习方法不能很好地进行扩展,且在多智能体系统中智能体之间可能涉及到合作与竞争等关系,外部环境存在着动态性的问题;兵棋推演环境通常无法提供具体的奖励,例如只有胜利与失败两个标志。这使得智能体探索的过程中难以获得正奖励,导致学习缓慢甚至无法进行学习。并且,许多智能体的动作建模复杂,完成动作所获取的奖励难以体现。这个问题被称为稀疏奖励问题。
由于兵棋推演中的超长时间的复杂决策和稀疏奖励问题,使得层次化强化学习在兵棋推演中的实现成为可能。将动作行为从最原始的动作,抽象到多层的动作,是分层强化学习的主要特征。同时,集中式训练分布式执行的强化学习框架首次将通信学习引入到深度多智能体强化学习中。所有智能体共享一个全局评判网络,使算法在评判状态优劣时能够综合考虑所有智能体的信息。且每个智能体有自己的决策网络,只使用自身的局部观察信息来决策。
发明内容
本发明的目的在于克服现有技术中的不足,提供一种基于注意力机制的兵棋推演AI分层决策方法及装置,分层强化学习能够将复杂的决策动作分解为简单动作,同时解决兵棋推演环境的稀疏奖励问题;含注意力机制的多智能体强化学习框架能够充分的利用智能体的局部观察信息与目标态势信息,有效的进行态势评判与分布式决策执行,克服多智能体环境下不稳定的特点,加强智能体之间的通信。
为达到上述目的,本发明是采用下述技术方案实现的:
第一方面,本发明提供了一种基于注意力机制的兵棋推演AI分层决策方法,包括:
进行分层网络建模与强化学习智能体建模,基于强化学习智能体模型对从兵棋推演平台获取到态势推演初始数据进行预处理;
通过预先获取的智能体局部态势数据输出当前所有智能体的总体目标;
通过智能体局部态势数据和当前所有智能体的总体目标,输出当前所有智能体的当前应采取的决策;
通过当前所有智能体的总体目标,筛选并预处理得到此刻的目标态势;
通过当前的目标态势,利用注意力机制筛选出与目标态势关联最大的智能体局部信息,并进行态势评估;
将当前所有智能体的当前应采取的决策输入到兵棋推演环境中,得到更新之后的新态势,通过所述新旧态势之间的差别计算奖励并训练网络。
进一步的,所述进行分层网络建模与强化学习智能体建模,基于强化学习智能体模型对从兵棋推演平台获取到态势推演初始数据进行预处理,包括:
将传统的强化学习网络分为两层,管理层网络为所有智能体决策当前的整体目标,决策层网络为所有智能体决策当前应执行的动作;
设计智能体的状态空间,即强化学习网络的输入数据形式;
设计智能体的决策空间,即智能体所能采取的所有动作;
设计智能体的奖励函数,采取某项决策后能够获取的奖励;根据状态空间可以对兵棋推演环境提供的原始态势信息进行筛选与预处理。
进一步的,所述通过预先获取的智能体局部态势数据输出当前所有智能体的总体目标,包括:
进一步的,所述通过智能体的局部态势数据和当前所有智能体的总体目标,输出当前所有智能体的当前应采取的决策,包括:
进一步的,所述通过当前所有智能体的总体目标,筛选并预处理得到此刻的目标态势,包括:
针对于当前目标gt对当前战场态势信息进行筛选与预处理,得到基于目标的目标态势信息St。
进一步的,所述通过当前的目标态势,利用注意力机制筛选出与目标态势关联最大的智能体局部信息,并进行态势评估,其中包含管理层与执行层两个部分:
所述管理层的评估部分包括将当前的目标态势St输入到管理层的评估神经网络中,输出当前的总体态势评分;
所述执行层的评估部分,包括:
③因为智能体数量较多,并不是所有智能体都与当前目标相关,所以要对智能体信息进行筛选,通过注意力机制计算权重,获取与当前目标态势最为相关的智能体信息,公式为:
将权重与智能体的本地评分Vt i加权求和,得到此刻执行层的总体态势评分Vtot,公式为:
进一步的,还包括:通过策略梯度下降法训练管理层与执行层的评判网络与决策网络,其中执行层依靠整体价值Vtot进行训练,其优势函数公式如下:
δt=rt(Ot,ut)+γVtot(Ot+1,St+1)-Vtot(Ot,St) (3)
其中Ot+1与St+1为与环境进行交互之后,环境提供的新态势,该等式基于贝尔曼期望,是对不同时间状态估计的差异,利用优势函数δt即可对执行层评估网络与决策网络进行训练。
第二方面,本发明提供一种基于注意力机制的兵棋推演AI决策装置,包括:
预处理单元,用于进行强化学习智能体建模,基于强化学习智能体模型对从兵棋推演平台获取到态势推演初始数据进行预处理;
总体目标输出单元,用于获取智能体态势数据,通过所述智能体态势数据输出当前所有智能体的总体目标;
决策输出单元,用于通过预处理过的态势推演初始数据和当前所有智能体的总体目标,输出当前所有智能体的当前应采取的决策;
目标态势获取单元,用于通过当前所有智能体的总体目标,筛选并预处理得到此刻的目标态势;
计算单元,用于将当前所有智能体的当前应采取的决策输入到兵棋推演环境中,得到更新之后的新态势,通过所述目标态势与新态势之间的差别计算奖励。
第三方面,本发明提供一种基于注意力机制的兵棋推演AI决策装置,包括处理器及存储介质;
所述存储介质用于存储指令;
所述处理器用于根据所述指令进行操作以执行根据前述任一项所述方法的步骤。
第四方面,本发明提供一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现前述任一项所述方法的步骤。
与现有技术相比,本发明所达到的有益效果:
本发明提供一种基于注意力机制的兵棋推演AI决策方法及装置,分层强化学习能够将复杂的决策动作分解为简单动作,同时解决兵棋推演环境的稀疏奖励问题;含注意力机制的多智能体强化学习框架能够充分的利用智能体的局部观察信息与目标态势信息,有效的进行态势评判与分布式决策执行,克服多智能体环境下不稳定的特点,加强智能体之间的通信,使AI能够实现自主决策,对不同的想定具有一定的适应能力与较高的胜率。
附图说明
图1为本发明的系统流程图;
图2为本发明的网络模型交互图;
图3为本发明的网络细节架构图;
图4为本发明的双层决策网络图;
图5为不同方法双层评估网络图;
图6比较的奖励函数随训练轮数比较图。
具体实施方式
下面结合附图对本发明作进一步描述。以下实施例仅用于更加清楚地说明本发明的技术方案,而不能以此来限制本发明的保护范围。
实施例1
本实施例介绍一种基于注意力机制的兵棋推演AI决策方法,包括:
进行分层网络建模与强化学习智能体建模,基于强化学习智能体模型对从兵棋推演平台获取到态势推演初始数据进行预处理;
通过预先获取的智能体局部态势数据输出当前所有智能体的总体目标;
通过智能体局部态势数据和当前所有智能体的总体目标,输出当前所有智能体的当前应采取的决策;
通过当前所有智能体的总体目标,筛选并预处理得到此刻的目标态势;
通过当前的目标态势,利用注意力机制筛选出与目标态势关联最大的智能体局部信息,并进行态势评估;
将当前所有智能体的当前应采取的决策输入到兵棋推演环境中,得到更新之后的新态势,通过所述目标态势与新态势之间的差别计算奖励并训练网络。
本实施例以Python为实现软件平台,如图1所示,本实施例提供的基于注意力机制的兵棋推演AI决策方法及装置,其应用过程具体涉及如下步骤:
步骤1:对兵棋推演环境进行多智能体建模与分层网络建模,其具体步骤包括:
①分层强化学习网络的设计。因为环境存在着稀疏奖励的特点,智能体复杂的动作往往很难获得正向奖励。所以本发明将整体强化学习网络分解为管理层(Manager)与执行层(Worker)。管理层相当于我方的首脑,目标是给执行层的所有智能体制定一个目标(Goal),目标可以视为一系列简单动作的集合。而执行层即为环境中的所有智能体,目的是通过简单动作达到管理层所指定的目标。管理层网络与执行层网络有着不同的参数且是独立进行学习的。
②智能体的状态空间设计。战场态势的表示是智能体决策生成的前提。在基于兵棋推演的强化学习方法的状态空间的设计上,应尽可能的接近人类玩家进行兵棋推演时的游戏体验。因为兵棋推演存在着战争迷雾问题,每个智能体仅能够获取到自身周围一定范围内的态势,被称为局部观察态势信息N为智能体的总个数。主要由智能体属性、地图属性等几个部分组成,如智能体当前的位置、血量、压制状态、冷却状态等。
③智能体的决策空间设计。因为属于分层强化学习,所以要对双层的动作空间都进行设计。为了使强化学习的动作空间与兵棋推演平台自身的动作空间相符合,执行层的基本动作在本发明中称为其设计为移动(至附近的六角格)、攻击、掩蔽、停止等。管理层的基本动作在本发明中称为其设计则需顾全大局。在兵棋推演的环境中,若要在比赛中取得胜利,一种有效的方法为占领夺控点,并在夺控点附近的优势地形中进行放下士兵、打击敌人等防守操作。所以管理层的基本动作可设置为进攻某个夺控点或防守某个夺控点,用于指挥全体智能体的进攻防守方向。其次,由于多智能体动作结算时间有差异,管理层需要在固定周期内为全体智能体决定当前目标,且此周期需长于执行层动作的一般结算时间。在本方法中,管理层每隔200帧决定一次目标点策略。
④智能体的奖励函数设计。因为属于分层强化学习,所以要双层设计不同的奖励函数。管理层因为每200帧决定一次策略,新旧状态之间的差别很大,所以其网络可以使用推演环境提供的奖励,即我方净胜分。对于执行层网络来说,智能体的一次简单动作交互仅需几帧就可以完成。如果采用外在奖励,就会带来稀疏奖励问题。所以其奖励需要详细设计(reward shaping),主要用于衡量是否完成管理层网络给出的目标。对于不同的目标g,有不同的测算方法。如目标g为进攻主要夺控点,则衡量目标完成程度的公式为:
其中flag为主要夺控点是否占领的标志。dist为智能体当前与主要夺控点之间的距离,最后,dis0为游戏初期的距离。此外,为了体现多智能体的特点,执行层的奖励函数可以是基于事件(包括单个智能体和整个队伍)和加权重的方式实现的,如reward的类型分为“solo”和“team”,solo类型的只分配给做出对出动作的智能体,而team类型则分配给全队。其权重可表示为:
步骤2:智能体决策阶段。由于离线强化学习算法具有不稳定的特点,不适用于分层强化学习中。所以在本发明中,决策层与执行层的强化学习算法都采用在线进行学习的Actor-Critic方法,两层的网络的关系如附图2所示,两层网络的结构如附图3所示。在进行决策前,环境会给算法提供每一个智能体的态势信息。在含有战争迷雾(智能体仅能获取周围一定范围内的态势信息)的兵棋推演环境中,该信息即为局部观察信息两层网络的决策网络结构图如图4所示。进行决策的具体步骤包括:
①管理层进行决策。在分队级兵棋推演环境中,通常有三到四个智能体,这些智能体公用一个管理层网络。而在群队级的兵棋推演环境中,通常有多倍与分队级的智能体单位。在群队级环境中,一只智能体队伍公用一个管理层网络。管理层网络应每隔固定帧数就为场上所有智能体选取一个目标。由于兵棋推演环境无法提供全局态势信息,管理层网络输入智能体的局部观察信息并将其进行数据的预处理,拼接为网络输入输出得到管理层动作空间的概率分布,根据概率得到总体目标 即当前应该进攻或防守哪个夺控点。如当前想定上存在着x个夺控点,管理层网络的动作空间维度即为2x。
②执行层进行决策。执行层同样使用智能体的局部观察进行决策。但为了加强执行层与管理层之间的通信,输入时需要嵌入此刻的总体目标用于告知算法此智能体此刻在什么目标下进行决策。因为兵棋推演战场上存在着许多智能体,在多智能体的集中式训练分布式执行框架下,每个智能体应各自使用一个决策网络,所以每个智能体的执行层的决策网络输入形式为输出为动作空间的概率分布,然后可以根据概率来选择当前动作。当前动作记为
步骤3:态势评估阶段,其包含两个部分,即管理层态势评估与执行层态势评估。管理层评估的是当前的总体态势,所以所有智能体公用一个管理层的评估网络。在步骤2中通过管理层决策可以得到的目标首先需要筛选出总体态势St。如此刻的目标为进攻夺控点A,则总体态势St可包含以下信息:夺控点A周围我方智能体数量;夺控点A周围敌方智能体数量;夺控点A占领标志等等。然后在进行态势评估时,管理层评估网络输入St,输出得到此刻的态势评分。管理层网络的具体网络结构如图5所示。
执行层进行态势评估时,由于采用了集中式评判分布式执行的框架,所有智能体公用一个执行层评判网络,其为全部智能体评判总体态势得分。这一步骤是本发明的重点,具体根据附图5,分为以下几个步骤:
③注意力模型可以宏观上理解为一个查询(query)到一系列(键key-值value)对的映射,本质上可以表示对元素的value值进行加权求和,而query和key用来计算对应value的权重系数。对应到本发明的模型中,可以通过注意力机制计算目标态势与各智能体局部信息之间的关联性,以赋予不同的权重值。将作为查询向量,将作为键向量,将本地评分Vt i作为值向量,通过双线性映射获取智能体的信息权重公式以式5形式进行表示。其中Wk与Wq为映射矩阵,是随机初始化的矩阵,dk为输入向量的维度。
④此外,本发明使用多头注意力机制的形式,目的是将模型分为多个头,形成多个子空间,可以让模型去关注不同方面的信息。每个头使用单独的参数集(Wq,Wk),将多头进行合并,并且将局部态势评分与注意力机制得到的权重进行点乘并求和,可获得当前的总体态势得分Vtot如公式6所示。式中H为多头注意力机制的头数,一般定为4。N为智能体的总数量。
步骤4:网络训练阶段。因为本发明中的管理层与执行层都是基于Actor-Critic算法进行设计的,所以本发明的网络训练遵从Actor-Critic算法的梯度下降式训练方法。但在多智能体的分布式执行与集中式训练的框架中,网络训练与普通的Actor-Critic算法的训练具有一定的区别。在普通的Actor-Critic算法中,Actor网络,即决策网络使用策略梯度函数生成动作决策并与环境交互,其网络输出为:
πθ(u|Ot)=P(u|Ot,θ)≈π(u|Ot) (7)
其中θ为决策网络的内置参数,Ot为当前的态势输入,网络的输出πθ(u|Ot)为当前动作空间的概率分布,通过概率选择到动作u。其后,算法执行动作u并反馈给环境后产生了新的战场态势Ot+1,以及环境给予奖励rt。Critic网络,即本发明中的评估网络,负责判断策略的有效性。其输出v(st)为状态Ot下所有动作价值函数基于策略π的期望。基于贝尔曼期望,可用时间函数进行估计,则评价动作u优劣性可以使用优势函数δ,公式在式8中进行表示。其中γ为奖励期望的折旧率,在本发明中定为0.9。
δ=rt(Ot,ut)+γV(Ot+1)-V(Ot) (8)
但在基于多智能体的兵棋推演环境下,执行层评估出的总体得分Vtot是每个智能体本地评分Vt i的加权求和,所以在计算优势函数时,需要将公式8中的V替换为Vtot。其次,执行层网络嵌入了管理层网络得出的目标信息gt,所以需要将公式8修改为:
δt=rt(Ot,ut)+γVtot(Ot+1,St+1)-Vtot(Ot,St) (9)
公式9中,若在状态Ot中的动作u为优秀动作,则希望动作u的动作价值函数高于其期望。评估网络的作用是最小化δt,使网络的输出能够准确预测动作评分,所以执行层评估网络的损失函数可表示为:
此外,本发明中采用梯度下降的方式来进行决策网络的训练。若决策网络采取了策略πθ(Ot,u),且在状态Ot中的动作u为优秀动作,决策网络的目标为增大πθ(Ot,u),使在状态st下选择动作u的概率升高。则执行层决策网络的损失函数为:
管理层的评估网络与决策网络训练方式均遵从普通的Actor-Critic算法。最后,我们设置对比实验来验证强化学习算法的有效性。实验中,本文算法与普通的强化学习算法Actor-Critic相比较,比较单局游戏中所获取的奖励。实验结果如附图6所示。
综上,本发明提出的一种基于注意力机制与多智能体分层强化学习的AI决策方法,有效的解决了兵棋推演环境动态性与稀疏奖励的问题,可以实现AI的高效决策,取得较高的胜率。
实施例2
本实施例提供一种基于注意力机制的兵棋推演AI决策装置,包括:
预处理单元,用于进行强化学习智能体建模,基于强化学习智能体模型对从兵棋推演平台获取到态势推演初始数据进行预处理;
总体目标输出单元,用于获取智能体态势数据,通过所述智能体态势数据输出当前所有智能体的总体目标;
决策输出单元,用于通过预处理过的态势推演初始数据和当前所有智能体的总体目标,输出当前所有智能体的当前应采取的决策;
目标态势获取单元,用于通过当前所有智能体的总体目标,筛选并预处理得到此刻的目标态势;
计算单元,用于将当前所有智能体的当前应采取的决策输入到兵棋推演环境中,得到更新之后的新态势,通过所述目标态势与新态势之间的差别计算奖励。
实施例3
本实施例提供一种基于注意力机制的兵棋推演AI决策装置,包括处理器及存储介质;
所述存储介质用于存储指令;
所述处理器用于根据所述指令进行操作以执行根据实施例1中任一项所述方法的步骤。
实施例4
本实施例提供一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现实施例1中任一项所述方法的步骤。
以上所述仅是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明技术原理的前提下,还可以做出若干改进和变形,这些改进和变形也应视为本发明的保护范围。
Claims (10)
1.一种基于注意力机制的兵棋推演AI分层决策方法,其特征在于,包括:
进行分层网络建模与强化学习智能体建模,基于强化学习智能体模型对从兵棋推演平台获取到态势推演初始数据进行预处理;
通过预先获取的智能体局部态势数据输出当前所有智能体的总体目标;
通过智能体局部态势数据和当前所有智能体的总体目标,输出当前所有智能体的当前应采取的决策;
通过当前所有智能体的总体目标,筛选并预处理得到此刻的目标态势;
通过当前的目标态势,利用注意力机制筛选出与目标态势关联最大的智能体局部信息,并进行态势评估;
将当前所有智能体的当前应采取的决策输入到兵棋推演环境中,得到更新之后的新态势,通过所述新旧态势之间的差别计算奖励并训练网络。
2.根据权利要求1所述的基于注意力机制的兵棋推演AI决策方法,其特征在于,所述进行分层网络建模与强化学习智能体建模,基于强化学习智能体模型对从兵棋推演平台获取到态势推演初始数据进行预处理,包括:
将传统的强化学习网络分为两层,管理层网络为所有智能体决策当前的整体目标,决策层网络为所有智能体决策当前应执行的动作;
设计智能体的状态空间,即强化学习网络的输入数据形式;
设计智能体的决策空间,即智能体所能采取的所有动作;
设计智能体的奖励函数,采取某项决策后能够获取的奖励;根据状态空间可以对兵棋推演环境提供的原始态势信息进行筛选与预处理。
5.根据权利要求1所述的基于注意力机制的兵棋推演AI决策方法,其特征在于,所述通过当前所有智能体的总体目标,筛选并预处理得到此刻的目标态势,包括:针对于当前目标gt对当前战场态势信息进行筛选与预处理,得到基于目标的目标态势信息St。
6.根据权利要求1所述的基于注意力机制的兵棋推演AI决策方法,其特征在于,所述通过当前的目标态势,利用注意力机制筛选出与目标态势关联最大的智能体局部信息,并进行态势评估,其中包含管理层与执行层两个部分:
所述管理层的评估部分包括将当前的目标态势St输入到管理层的评估神经网络中,输出当前的总体态势评分;
所述执行层的评估部分,包括:
③因为智能体数量较多,并不是所有智能体都与当前目标相关,所以要对智能体信息进行筛选,通过注意力机制计算权重,获取与当前目标态势最为相关的智能体信息,公式为:
将权重与智能体的本地评分Vt i加权求和,得到此刻执行层的总体态势评分Vtot,公式为:
7.根据权利要求1所述的基于注意力机制的兵棋推演AI决策方法,其特征在于,还包括:通过策略梯度下降法训练管理层与执行层的评判网络与决策网络,其中执行层依靠整体价值Vtot进行训练,其优势函数公式如下:
δt=rt(Ot,ut)+γVtot(Ot+1,St+1)-Vtot(Ot,St) (3)
其中Ot+1与St+1为与环境进行交互之后,环境提供的新态势,该等式基于贝尔曼期望,是对不同时间状态估计的差异,利用优势函数δt即可对执行层的评估网络与决策网络进行训练。
8.一种基于注意力机制的兵棋推演AI决策装置,其特征在于,包括:
预处理单元,用于进行强化学习智能体建模,基于强化学习智能体模型对从兵棋推演平台获取到态势推演初始数据进行预处理;
总体目标输出单元,用于获取智能体态势数据,通过所述智能体态势数据输出当前所有智能体的总体目标;
决策输出单元,用于通过预处理过的态势推演初始数据和当前所有智能体的总体目标,输出当前所有智能体的当前应采取的决策;
目标态势获取单元,用于通过当前所有智能体的总体目标,筛选并预处理得到此刻的目标态势;
计算单元,用于将当前所有智能体的当前应采取的决策输入到兵棋推演环境中,得到更新之后的新态势,通过所述目标态势与新态势之间的差别计算奖励。
9.一种基于注意力机制的兵棋推演AI决策装置,其特征在于:包括处理器及存储介质;
所述存储介质用于存储指令;
所述处理器用于根据所述指令进行操作以执行根据权利要求1~7任一项所述方法的步骤。
10.一种计算机可读存储介质,其上存储有计算机程序,其特征在于:该程序被处理器执行时实现权利要求1~7任一项所述方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210192161.XA CN114662655B (zh) | 2022-02-28 | 2022-02-28 | 一种基于注意力机制的兵棋推演ai分层决策方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210192161.XA CN114662655B (zh) | 2022-02-28 | 2022-02-28 | 一种基于注意力机制的兵棋推演ai分层决策方法及装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN114662655A true CN114662655A (zh) | 2022-06-24 |
CN114662655B CN114662655B (zh) | 2024-07-16 |
Family
ID=82028318
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210192161.XA Active CN114662655B (zh) | 2022-02-28 | 2022-02-28 | 一种基于注意力机制的兵棋推演ai分层决策方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114662655B (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114880955A (zh) * | 2022-07-05 | 2022-08-09 | 中国人民解放军国防科技大学 | 基于强化学习的兵棋多实体异步协同决策方法和装置 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112245756A (zh) * | 2020-10-16 | 2021-01-22 | 郑州大学 | 一种基于单通道脑电的注意力训练方法 |
WO2021147217A1 (zh) * | 2020-01-20 | 2021-07-29 | 平安科技(深圳)有限公司 | 医疗影像分类方法、装置、介质及电子设备 |
CN113222106A (zh) * | 2021-02-10 | 2021-08-06 | 西北工业大学 | 一种基于分布式强化学习的智能兵棋推演方法 |
CN113723013A (zh) * | 2021-09-10 | 2021-11-30 | 中国人民解放军国防科技大学 | 一种用于连续空间兵棋推演的多智能体决策方法 |
-
2022
- 2022-02-28 CN CN202210192161.XA patent/CN114662655B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2021147217A1 (zh) * | 2020-01-20 | 2021-07-29 | 平安科技(深圳)有限公司 | 医疗影像分类方法、装置、介质及电子设备 |
CN112245756A (zh) * | 2020-10-16 | 2021-01-22 | 郑州大学 | 一种基于单通道脑电的注意力训练方法 |
CN113222106A (zh) * | 2021-02-10 | 2021-08-06 | 西北工业大学 | 一种基于分布式强化学习的智能兵棋推演方法 |
CN113723013A (zh) * | 2021-09-10 | 2021-11-30 | 中国人民解放军国防科技大学 | 一种用于连续空间兵棋推演的多智能体决策方法 |
Non-Patent Citations (1)
Title |
---|
崔文华;李东;唐宇波;柳少军;: "基于深度强化学习的兵棋推演决策方法框架", 国防科技, no. 02, 20 April 2020 (2020-04-20), pages 118 - 126 * |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114880955A (zh) * | 2022-07-05 | 2022-08-09 | 中国人民解放军国防科技大学 | 基于强化学习的兵棋多实体异步协同决策方法和装置 |
CN114880955B (zh) * | 2022-07-05 | 2022-09-20 | 中国人民解放军国防科技大学 | 基于强化学习的兵棋多实体异步协同决策方法和装置 |
Also Published As
Publication number | Publication date |
---|---|
CN114662655B (zh) | 2024-07-16 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN112329348B (zh) | 一种面向非完全信息条件下军事对抗博弈的智能决策方法 | |
CN111291890B (zh) | 一种博弈策略优化方法、系统及存储介质 | |
CN112861442B (zh) | 基于深度强化学习的多机协同空战规划方法及系统 | |
CN114358141A (zh) | 一种面向多作战单元协同决策的多智能体增强学习方法 | |
CN101964019A (zh) | 基于Agent技术的对抗行为建模仿真平台及仿真方法 | |
CN113222106B (zh) | 一种基于分布式强化学习的智能兵棋推演方法 | |
CN112221149B (zh) | 一种基于深度强化学习的炮兵连智能作战演练系统 | |
CN112742028B (zh) | 一种对抗博弈的编队决策方法、系统、介质及设备 | |
CN114330651A (zh) | 面向多要素联合指控的分层多智能体增强学习方法 | |
CN114880955B (zh) | 基于强化学习的兵棋多实体异步协同决策方法和装置 | |
CN112364972A (zh) | 基于深度强化学习的无人战车分队火力分配方法 | |
Liu et al. | Using CIGAR for finding effective group behaviors in RTS game | |
CN114722998B (zh) | 一种基于cnn-ppo的兵棋推演智能体构建方法 | |
Zakharenkov et al. | Deep reinforcement learning with dqn vs. ppo in vizdoom | |
CN114662655B (zh) | 一种基于注意力机制的兵棋推演ai分层决策方法及装置 | |
CN115933717A (zh) | 基于深度强化学习的无人机智能空战机动决策训练系统及方法 | |
CN116090549A (zh) | 一种基于知识驱动的多智能体强化学习决策方法、系统及存储介质 | |
CN112561032B (zh) | 一种基于种群训练的多智能体强化学习方法及系统 | |
CN114404975A (zh) | 决策模型的训练方法、装置、设备、存储介质及程序产品 | |
Zhang et al. | Monte Carlo neural fictitious self-play: approach to approximate Nash equilibrium of imperfect-information games | |
Hou et al. | Advances in memetic automaton: Toward human-like autonomous agents in complex multi-agent learning problems | |
CN113509726A (zh) | 交互模型训练方法、装置、计算机设备和存储介质 | |
CN116306204A (zh) | 融入先验知识的智能指挥决策模型、系统及方法 | |
CN114757092A (zh) | 基于队友感知的多智能体协作通信策略的训练系统和方法 | |
Liu et al. | Soft-actor-attention-critic based on unknown agent action prediction for multi-agent collaborative confrontation |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |