CN115222304A - 兵棋博弈策略的生成方法、装置及存储介质 - Google Patents
兵棋博弈策略的生成方法、装置及存储介质 Download PDFInfo
- Publication number
- CN115222304A CN115222304A CN202211146544.XA CN202211146544A CN115222304A CN 115222304 A CN115222304 A CN 115222304A CN 202211146544 A CN202211146544 A CN 202211146544A CN 115222304 A CN115222304 A CN 115222304A
- Authority
- CN
- China
- Prior art keywords
- chess
- game
- node
- chess game
- reward
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 56
- 238000003860 storage Methods 0.000 title claims abstract description 17
- 230000009471 action Effects 0.000 claims abstract description 81
- 230000008569 process Effects 0.000 claims abstract description 17
- 241000209202 Bromus secalinus Species 0.000 claims abstract description 12
- 230000006870 function Effects 0.000 claims description 146
- 238000011156 evaluation Methods 0.000 claims description 40
- 238000004088 simulation Methods 0.000 claims description 17
- 230000004083 survival effect Effects 0.000 claims description 8
- 230000009467 reduction Effects 0.000 claims description 5
- 230000003247 decreasing effect Effects 0.000 claims description 4
- 238000013473 artificial intelligence Methods 0.000 abstract description 2
- 238000010586 diagram Methods 0.000 description 11
- 238000004590 computer program Methods 0.000 description 7
- 230000008901 benefit Effects 0.000 description 5
- 230000006399 behavior Effects 0.000 description 4
- 238000012545 processing Methods 0.000 description 4
- 238000004458 analytical method Methods 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 241001236644 Lavinia Species 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 230000015572 biosynthetic process Effects 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000009826 distribution Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 239000011159 matrix material Substances 0.000 description 1
- 238000005295 random walk Methods 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q10/00—Administration; Management
- G06Q10/06—Resources, workflows, human or project management; Enterprise or organisation planning; Enterprise or organisation modelling
- G06Q10/063—Operations research, analysis or management
- G06Q10/0637—Strategic management or analysis, e.g. setting a goal or target of an organisation; Planning actions based on goals; Analysis or evaluation of effectiveness of goals
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q50/00—Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
- G06Q50/10—Services
- G06Q50/26—Government or public services
-
- G—PHYSICS
- G09—EDUCATION; CRYPTOGRAPHY; DISPLAY; ADVERTISING; SEALS
- G09B—EDUCATIONAL OR DEMONSTRATION APPLIANCES; APPLIANCES FOR TEACHING, OR COMMUNICATING WITH, THE BLIND, DEAF OR MUTE; MODELS; PLANETARIA; GLOBES; MAPS; DIAGRAMS
- G09B9/00—Simulators for teaching or training purposes
- G09B9/003—Simulators for teaching or training purposes for military purposes and tactics
Landscapes
- Business, Economics & Management (AREA)
- Engineering & Computer Science (AREA)
- Human Resources & Organizations (AREA)
- Theoretical Computer Science (AREA)
- Educational Administration (AREA)
- Strategic Management (AREA)
- General Physics & Mathematics (AREA)
- Tourism & Hospitality (AREA)
- Economics (AREA)
- Physics & Mathematics (AREA)
- Development Economics (AREA)
- Entrepreneurship & Innovation (AREA)
- General Business, Economics & Management (AREA)
- Marketing (AREA)
- Primary Health Care (AREA)
- Educational Technology (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Game Theory and Decision Science (AREA)
- Operations Research (AREA)
- Quality & Reliability (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本公开的实施例提供一种兵棋博弈策略的生成方法、装置及存储介质,涉及人工智能技术领域,解决了现有技术中兵棋博弈策略缺乏智能性的问题。方法包括:获取兵棋棋局中我方棋子与敌方棋子在每一个回合开始时刻的棋局态势;根据所述棋局态势以及预设奖励函数,在所述每一个回合重复执行预设搜索次数的蒙特卡洛树搜索,得到所述每一个回合的所述我方棋子的目标动作,并根据所述目标动作执行对弈操作;在所述兵棋棋局结束时,将所述每一个回合的所述我方棋子的目标动作、所述兵棋棋局结束时的棋局态势以及所述兵棋棋局的结果,记录为所述兵棋棋局的兵棋博弈策略。本公开实施例适用于兵棋棋局的博弈策略获取过程。
Description
技术领域
本公开的实施例涉及人工智能技术领域,具体地涉及一种兵棋博弈策略的生成方法、装置及存储介质。
背景技术
计算机兵棋始于20世纪60年代,在20世纪80年代后期才随着计算机的普及被广泛应用。计算机兵棋的对抗推演是通过模拟多种作战装备、武器和作战场景,各方根据棋局态势不断地进行判断并做出决策,推进整个兵棋的走势,从而模拟出实际的作战流程及作战效果,其可用于兵棋博弈策略的生成,是研究战争和认识战争的有效工具。
现有技术中的计算机兵棋博弈策略的生成方法包括:对弈双方采用随机策略选择回合内执行的动作以生成兵棋博弈策略、对弈双方直接通过人工操纵以生成兵棋博弈策略等等。
但是,由于计算机兵棋推演的关键在于模拟“人”的行为,而现有技术中的随机策略虽然能够有效减少生成策略的时间消耗成本、保证生成过程的高效性,但最终生成得到的兵棋博弈策略缺乏智能性、不能很好地模拟反映“人”的行为特点。另外,对于对弈双方直接通过人工操纵生成兵棋博弈策略的方法,虽然能够较好地反映操纵者的思维模式及行为选择倾向、较好地体现兵棋博弈策略的智能性,但由人工操纵生成兵棋博弈策略不仅增加了人力成本和需要思考所耗费的时间成本,而且由同一人操纵会使智能性单一固化,无法保证智能性的多样化。
发明内容
本公开的实施例的目的是提供一种兵棋博弈策略的生成方法、装置及存储介质,解决了现有技术中兵棋博弈策略缺乏智能性的问题,利用预设奖励函数以及蒙特卡洛树搜索生成智能化的兵棋博弈策略。
为了实现上述目的,本公开实施例的第一方面提供一种兵棋博弈策略的生成方法,包括:获取兵棋棋局中我方棋子与敌方棋子在每一个回合开始时刻的棋局态势;根据所述棋局态势以及预设奖励函数,在所述每一个回合重复执行预设搜索次数的蒙特卡洛树搜索,得到所述每一个回合的所述我方棋子的目标动作,并根据所述目标动作执行对弈操作;在所述兵棋棋局结束时,将所述每一个回合的所述我方棋子的目标动作、所述兵棋棋局结束时的棋局态势以及所述兵棋棋局的结果,记录为所述兵棋棋局的兵棋博弈策略。
在本公开的一些实施例中,在所述获取兵棋棋局中我方棋子与敌方棋子在每一个回合开始时刻的棋局态势之前,所述方法还包括:获取所述兵棋棋局中我方棋子与敌方棋子的基础属性、预设棋盘规则以及预设奖励函数,其中,所述预设奖励函数包括单次行动奖励函数、棋局结束奖励函数以及节点评估奖励函数,其中,所述单次行动奖励函数是用于计算一个回合内棋子行动的奖励值,所述单次行动奖励函数包括移动奖励函数和攻击奖励函数,所述棋局结束奖励函数是用于计算所述兵棋棋局结束后产生的奖励值,所述节点评估奖励函数为在执行蒙特卡洛树搜索中选择节点的依据。
在本公开的一些实施例中,在一个回合内我方棋子移动的所述移动奖励函数通过下述方式获得:
在本公开的一些实施例中,在一个回合内我方棋子攻击敌方棋子的所述攻击奖励函数通过下述方式获得:
根据 ,得到所述攻击奖励函数 ,表示受本次攻击后敌方棋子的生命值减少量, 表示受本次攻击后生命值减少的所述敌方棋子的棋子价值, 表示在本次攻击中所述我方棋子的攻击力, 表示本次攻击后所述我方棋子的剩余攻击次数。
在本公开的一些实施例中,所述棋局结束奖励函数通过下述方式获得:
其中, 表示所述兵棋棋局结束时我方获胜的获胜奖励值, 表示所述兵棋棋局结束时我方失败的失败奖励值, 表示所述兵棋棋局结束时平局奖励值,表示所述兵棋棋局结束时我方存活的棋子, 表示所述兵棋棋局结束时敌方存活的棋子, 表示棋子生命值, 表示棋子价值。
在本公开的一些实施例中,所述节点评估奖励函数通过下述方式获得:
根据 ,得到所述节点评估奖励函数,其中, 表示当前节点的棋局奖励值,所述棋局奖励值为所述当前节点的所有单次行动奖励函数值之和与棋局结束奖励函数值的累加, 表示所述当前节点的总访问次数,表示所述当前节点的父节点的总访问次数, 表示平衡棋局奖励和访问次数的常系数。
在本公开的一些实施例中,所述根据所述棋局态势以及预设奖励函数,在所述每一个回合重复执行预设搜索次数的蒙特卡洛树搜索,得到所述每一个回合的所述我方棋子的目标动作包括:
步骤1:根据当前回合开始时刻的所述棋局态势初始化蒙特卡洛树的一个根节点;
步骤2:执行所述蒙特卡洛树搜索,并根据所述节点评估奖励函数,选择所述节点评估奖励函数值最大的叶节点;
步骤3:判断所述叶节点是否为终止节点,若不是终止节点,执行步骤4,若是终止节点,则执行步骤5;
步骤4:根据所述我方棋子与敌方棋子的基础属性以及预设棋盘规则,创建所述叶节点的一个或多个子节点,并从所述一个或多个子节点中随机选择一个子节点作为模拟起始节点,从所述模拟起始节点开始,按照随机走子策略模拟所述兵棋棋局至棋局结束,并执行步骤5;
步骤5:获取所述节点以及其所有祖先节点的单次行动奖励函数值和棋局结束奖励函数值,并执行步骤6;
步骤6:将所述步骤5中获得的所述单次行动奖励函数值和棋局结束奖励函数值反向传播,回溯更新所述节点以及其所有祖先节点的节点评估奖励函数值,且搜索次数自增;
步骤7:判断当前搜索次数是否达到所述预设搜索次数,若未达到,则返回步骤2,否则执行步骤8;
步骤8:停止所述蒙特卡洛树搜索,从所述蒙特卡洛树的第二层节点中选择节点评估奖励函数值最大的一个节点,将该节点对应的动作作为所述目标动作。
在本公开的一些实施例中,在所述将所述每一个回合的所述我方棋子的目标动作、所述兵棋棋局结束时的棋局态势以及所述兵棋棋局的结果,记录为所述兵棋棋局的兵棋博弈策略之后,所述方法还包括:
记录多个兵棋棋局的兵棋博弈策略,并将多个兵棋博弈策略作为兵棋博弈策略数据样本,以便利用所述兵棋博弈策略数据样本训练兵棋博弈策略模型。
本公开实施例的第二方面提供一种兵棋博弈策略的生成装置,包括:获取模块,用于获取兵棋棋局中我方棋子与敌方棋子在每一个回合开始时刻的棋局态势;目标动作确定模块,用于根据所述棋局态势以及预设奖励函数,在所述每一个回合重复执行预设搜索次数的蒙特卡洛树搜索,得到所述每一个回合的所述我方棋子的目标动作,并根据所述目标动作执行对弈操作;策略生成模块,用于在所述兵棋棋局结束时,将所述每一个回合的所述我方棋子的目标动作、所述兵棋棋局结束时的棋局态势以及所述兵棋棋局的结果,记录为所述兵棋棋局的兵棋博弈策略。
本公开实施例的第三方面提供一种机器可读存储介质,该机器可读存储介质上存储有指令,该指令用于使得机器执行如上所述的兵棋博弈策略的生成方法。
通过上述技术方案,利用蒙特卡洛树搜索方法进行大样本的推演,进行成百上千次模拟,就能囊括可能存在的大部分情况,进行有意义的概率分析,最终生成更富有智能性的兵棋博弈策略。
本公开的实施例的其它特征和优点将在随后的具体实施方式部分予以详细说明。
附图说明
附图是用来提供对本公开的实施例的进一步理解,并且构成说明书的一部分,与下面的具体实施方式一起用于解释本公开的实施例,但并不构成对本公开的实施例的限制。在附图中:
图1是根据本公开实施例提供的一种兵棋博弈策略的生成方法的流程示意图;
图2是根据本公开的实施例提供的蒙特卡洛树搜索的过程流程示意图;
图3是根据本公开实施例提供的一种兵棋博弈策略的生成装置的结构示意图。
具体实施方式
为了使本公开的实施例的目的、技术方案和优点更加清楚,下面将结合附图,对本公开的实施例的技术方案进行清楚、完整的描述。显然,所描述的实施例是本公开的一部分实施例,而不是全部的实施例。基于所描述的本公开的实施例,本领域技术人员在无需创造性劳动的前提下所获得的所有其它实施例,也都属于本公开保护的范围。
除非另外定义,否则在此使用的所有术语(包括技术和科学术语)具有与本公开主题所属领域的技术人员所通常理解的相同含义。进一步将理解的是,诸如在通常使用的词典中定义的那些的术语应解释为具有与说明书上下文和相关技术中它们的含义一致的含义,并且将不以理想化或过于正式的形式来解释,除非在此另外明确定义。
图1是根据本公开实施例提供的一种兵棋博弈策略的生成方法的流程示意图。如图1所示,所述方法包括如下步骤:
步骤101,获取兵棋棋局中我方棋子与敌方棋子在每一个回合开始时刻的棋局态势;
步骤102,根据所述棋局态势以及预设奖励函数,在所述每一个回合重复执行预设搜索次数的蒙特卡洛树搜索,得到所述每一个回合的所述我方棋子的目标动作,并根据所述目标动作执行对弈操作;
步骤103,在所述兵棋棋局结束时,将所述每一个回合的所述我方棋子的目标动作、所述兵棋棋局结束时的棋局态势以及所述兵棋棋局的结果,记录为所述兵棋棋局的兵棋博弈策略。
其中,在兵棋棋局开始之前,需要先获取所述兵棋棋局中我方棋子与敌方棋子的基础属性、预设棋盘规则以及预设奖励函数。所述基础属性和预设棋盘规则可通过人机交互,由用户输入至计算机中,或者预先存储在计算机设备中,在兵棋棋局开始之前直接调用预存的所述基础属性和预设棋盘规则。
其中,棋子指代的是对弈双方操纵的作战平台,它们可以在棋盘上进行自身约束条件(例如,棋子的移动速度、可移动方向、剩余攻击次数)允许内的移动和攻击行为。棋盘指代的是双方棋子移动的地图,具体信息包含地图大小、形状、障碍物等。棋局指代的是兵棋博弈过程。
其中,棋子的基础属性包括棋子编号、棋子类型、棋子阵营、棋子速度区间、棋子可移动方向、棋子位置、棋子生命值、棋子价值、棋子攻击力、棋子剩余攻击次数、棋子攻击范围圆半径、棋子攻击目标类型集等,具体内容如下表1所示:
表1
另外,对于预设棋盘规则可根据用户需求进行设置,例如,在本公开实施例中设定的棋盘大小为300*300的方形网格地图,所述预设棋盘规则如下所示:
(1)兵棋棋局开始前,由对弈双方部署棋子的初始位置;
(2)对弈双方轮流对棋子进行操作;
(3)每一个回合内对弈双方均只能对一个棋子进行操作;
(4)棋子只能进行移动操作或攻击操作;
(5)不允许同时进行移动和攻击操作;
(6)不允许在单个回合内不对棋子进行操作;
(7)移动操作由棋子的速度区间与可移动方向共同约束;
(8)移动操作中,棋子落点不得存在其他棋子;
(9)攻击操作由棋子的剩余攻击次数约束,若剩余攻击次数为0,则无法执行攻击操作;
(10)攻击操作的攻击目标为攻击范围内最近的,且属于棋子攻击目标类型集中的敌方棋子,敌方棋子生命值减少量等同于我方棋子的攻击力;
(11)若攻击范围内无棋子攻击目标类型集中的敌方棋子,本次攻击视为未命中,敌方棋子生命值不变,我方操作棋子的剩余攻击次数仍减少一次;
(12)当一方所有棋子的生命值均降至0以下(包括0)时,游戏结束(存在胜负关系);
(13)当游戏回合数超过300回合时,游戏结束(视为流局)。
其中,所述预设奖励函数是根据棋子的基础属性和预设棋盘规则生成的。所述预设奖励函数包括单次行动奖励函数、棋局结束奖励函数以及节点评估奖励函数。
其中,所述单次行动奖励函数是用于计算一个回合内棋子行动的奖励值,所述单次行动奖励函数包括移动奖励函数和攻击奖励函数。其中,移动奖励函数是用于计算棋子进行位置移动所获得的奖励,攻击奖励函数是用于计算棋子进行攻击动作所获得的奖励。其中,可根据我方棋子移动的效率高低、我方棋子是否逼近敌方棋子等多重影响因素,生成移动奖励函数。另外,可根据攻击是否命中、命中时敌方棋子的价值高低等多重影响因素,生成攻击奖励函数。
对于棋局结束奖励函数是用于计算所述兵棋棋局结束后产生的奖励值,一般棋局结束奖励则分为获胜奖励、失败奖励、流局奖励。其中,获胜奖励是指我方棋子获胜所获得的奖励,奖励值一般为正值;失败奖励是指我方棋子失败所获得的奖励,奖励值一般为负值;流局奖励是指平局或棋局回合数超过上限(例如,棋局最大回合数)导致的棋局结束,奖励值可以为0,也可以根据结束时刻敌我战损比进行计算。棋局结束奖励函数可根据棋局结束时对弈双方剩余棋子的生命值、价值等多重影响因素,设计获胜奖励函数值、失败奖励函数值、流局奖励函数值。
其中, 表示所述兵棋棋局结束时我方获胜的获胜奖励值, 表示所述兵棋棋局结束时我方失败的失败奖励值, 表示所述兵棋棋局结束时平局奖励值,表示所述兵棋棋局结束时我方存活的棋子, 表示所述兵棋棋局结束时敌方存活的棋子, 表示棋子生命值, 表示棋子价值。
其中,所述节点评估奖励函数为在执行蒙特卡洛树搜索中选择节点的依据。蒙特卡洛树搜索时的节点评估奖励函数需要平衡节点的访问次数以及节点的棋局奖励,来保障最大胜率和新节点探索上的平衡,对已知收益的利用和鼓励接触那些相对未曾访问的节点的探索进行平衡。在本公开实施例中,可采用如下公式(4),得到所述节点评估奖励函数 :
其中, 表示当前节点的棋局奖励值,所述棋局奖励值为所述当前节点的所有单次行动奖励函数值之和与棋局结束奖励函数值的累加, 表示所述当前节点的总访问次数, 表示所述当前节点的父节点的总访问次数, 表示平衡棋局奖励和访问次数的常系数。
在执行蒙特卡洛树搜索中,对于每个节点(除根节点以外)都需要计算节点评估奖励函数值,其中,父节点的访问次数等于其子节点的访问次数之和。对于常系数可根据用户需求进行调整,以便平衡节点的访问次数以及节点的棋局奖励。
在步骤101中,所述棋局态势包括向量形式的棋子信息以及矩阵形式的棋盘信息。其中,棋子信息包括我方棋子与敌方棋子的基础属性的参数。棋盘信息包括作战区域(例如,当前回合攻击或被命中的棋子位置)、敌我棋子分布情况、我方棋子的可移动区域。
在步骤102中,根据所述棋局态势以及预设奖励函数,在所述每一个回合重复执行预设搜索次数的蒙特卡洛树搜索,得到所述每一个回合的所述我方棋子的目标动作,也就是说,在每一个回合均要执行预设搜索次数的蒙特卡洛树搜索,从而得到当前回合的最优动作作为我方棋子的目标动作,并执行对弈操作。在本公开实施例中,每一个回合中敌方棋子的走子策略为随机走子策略,即从其动作空间中随机选择一个动作加以执行。
其中,蒙特卡洛树搜索的过程包括:选择、扩展、模拟、反向传播。
具体的,选择是指以当前回合开始时刻的棋局态势作为根节点构建蒙特卡洛树,递归选择最优的子节点直到达到一个叶节点,节点选择的依据为蒙特卡洛树搜索时的节点评估奖励函数值。
扩展是指如果当前选择的叶节点不是一个终止节点,即不会导致整盘棋局终止,那么就创建一个或者更多的子节点,也就是我方棋子接下来更多的走法,并从这些新创建的节点中选择一个节点。
模拟是指从选择的节点开始模拟棋局对弈的进行过程,直至整个棋局结束。另外,为了提高模拟运行的速度,在本公开实施例中模拟过程中的对弈策略采用随机走子策略。
反向传播是指计算该节点的单次行动奖励函数值和棋局结束奖励函数值,并根据上述函数值回溯更新整棵蒙特卡洛树结构中的该节点及其所有祖先节点的节点评估奖励函数值。
具体的,如图2所示,每一个回合重复执行预设搜索次数的蒙特卡洛树搜索的过程包括如下步骤:
步骤1:根据当前回合开始时刻的所述棋局态势初始化蒙特卡洛树的一个根节点。
其中,之后的搜索过程可以视作该根节点生长为一整棵蒙特卡洛树的过程。如果当前回合是棋局最开始,即当前回合为第一回合,则当前回合开始时刻的棋局态势就是初始棋盘的态势。如果当前回合不是棋局最开始,即当前回合为第二回合及之后的各个回合,那么棋子的位置、生命值和其他信息可能会有变化,那么当前回合开始时刻的棋局态势为经过之前所有回合动作改变后的棋局态势。
步骤2:执行所述蒙特卡洛树搜索,并根据所述节点评估奖励函数,选择所述节点评估奖励函数值最大的叶节点。
其中,在选择所述节点评估奖励函数值最大的叶节点时,若是选择的节点不是叶节点,从当前选择节点的所有子节点中,选择节点评估奖励函数值最大的子节点,直到选择的节点为叶节点,若是叶节点则直接执行步骤3。步骤2的目的是为了找到一个叶节点,也就是说要搜索到这棵树的底层,而不会停留在树的中间部分。
步骤3:判断所述叶节点是否为终止节点(即会导致整盘棋局终止的节点),若不是终止节点,执行步骤4,若是终止节点,则执行步骤5。
步骤4:根据所述我方棋子与敌方棋子的基础属性以及预设棋盘规则,创建所述叶节点的一个或多个子节点,并从所述一个或多个子节点中随机选择一个子节点作为模拟起始节点,从所述模拟起始节点开始,按照随机走子策略模拟所述兵棋棋局至棋局结束,并执行步骤5。
其中,由于节点在刚创建出来的时候,节点评估奖励函数值是相同的,因此,可以从根据所述我方棋子与敌方棋子的基础属性以及预设棋盘规则,新创建的节点中随机选择一个节点。
步骤5:获取所述节点以及其所有祖先节点的单次行动奖励函数值和棋局结束奖励函数值,并执行步骤6。
另外,当步骤3中判断所述叶节点是终止节点时,则直接执行步骤5,将该叶节点作为模拟起始节点,从所述模拟起始节点开始,按照随机走子策略模拟所述兵棋棋局至棋局结束,并获取该节点以及其所有祖先节点的单次行动奖励函数值和棋局结束奖励函数值。若是所述叶节点不是终止节点,则需要执行步骤4,之后再执行步骤5。
步骤6:将所述步骤5中获得的所述单次行动奖励函数值和棋局结束奖励函数值反向传播,回溯更新所述节点以及其所有祖先节点的节点评估奖励函数值,且搜索次数自增。
步骤7:判断当前搜索次数是否达到所述预设搜索次数,若未达到,则返回步骤2,否则执行步骤8。
步骤8:停止所述蒙特卡洛树搜索,从所述蒙特卡洛树的第二层节点中选择节点评估奖励函数值最大的一个节点,将该节点对应的动作作为所述目标动作。
其中,所述蒙特卡洛树中的每一个节点代表着选择一个动作后相应发生改变的棋局态势,也就是说,每一个节点代表着一个动作。选择节点相当于对不同分支进行探索,看哪个动作(节点/分支)能够得到的节点评估奖励函数值最大。
在执行到步骤10的时候,蒙特卡洛树搜索过程结束,需要根据节点评估奖励函数值做出最终选择了。即,在蒙特卡洛树生长到一定程度后,也就是达到预设搜索次数后,从第二层节点中选择节点评估奖励函数值最大的一个节点,这个节点所代表的动作即为当前回合的最优动作,也就是目标动作。
在得到每一个回合的目标动作之后,直至所述兵棋棋局结束时,也就得到了该棋局的兵棋博弈策略,其中,所述兵棋博弈策略包括所述每一个回合的所述我方棋子的目标动作、所述兵棋棋局结束时的棋局态势以及所述兵棋棋局的结果。另外,记录最终生成的兵棋博弈策略以供复盘。
另外,在本公开实施例的一种实施方式中,在将所述每一个回合的所述我方棋子的目标动作、所述兵棋棋局结束时的棋局态势以及所述兵棋棋局的结果,记录为所述兵棋棋局的兵棋博弈策略之后,可记录多个兵棋棋局的兵棋博弈策略,并将多个兵棋博弈策略作为兵棋博弈策略数据样本,以便利用所述兵棋博弈策略数据样本训练兵棋博弈策略模型。也就是说,通过本公开实施例可获取到大量拥有一定智能性的兵棋博弈策略数据样本,以满足当前兵棋推演系统对智能性策略样本的需求。
通过本公开实施例,解决了现有技术中兵棋博弈策略缺乏智能性的问题,本公开实施例提出了一种基于蒙特卡洛树搜索的兵棋博弈策略的生成方法。通过蒙特卡洛树搜索,不需要人为操纵博弈方的棋子,而是自主去模拟可能会发生的情况并从中选择获益最大的动作以执行。单一的模拟难以囊括各种可能性,但是通过蒙特卡洛树搜索方法进行大样本的推演,进行成百上千次模拟,就能囊括可能存在的大部分情况,进行有意义的概率分析,最终生成更富有智能性的兵棋博弈策略。
图3是根据本公开实施例提供的一种兵棋博弈策略的生成装置的结构示意图。如图3所示,所述装置30包括:获取模块31、目标动作确定模块32和策略生成模块33。
其中,获取模块31,用于获取兵棋棋局中我方棋子与敌方棋子在每一个回合开始时刻的棋局态势;目标动作确定模块32,用于根据所述棋局态势以及预设奖励函数,在所述每一个回合重复执行预设搜索次数的蒙特卡洛树搜索,得到所述每一个回合的所述我方棋子的目标动作,并根据所述目标动作执行对弈操作;策略生成模块33,用于在所述兵棋棋局结束时,将所述每一个回合的所述我方棋子的目标动作、所述兵棋棋局结束时的棋局态势以及所述兵棋棋局的结果,记录为所述兵棋棋局的兵棋博弈策略。
进一步地,所述获取模块31还用于获取所述兵棋棋局中我方棋子与敌方棋子的基础属性、预设棋盘规则以及预设奖励函数,其中,所述预设奖励函数包括单次行动奖励函数、棋局结束奖励函数以及节点评估奖励函数,其中,所述单次行动奖励函数是用于计算一个回合内棋子行动的奖励值,所述单次行动奖励函数包括移动奖励函数和攻击奖励函数,所述棋局结束奖励函数是用于计算所述兵棋棋局结束后产生的奖励值,所述节点评估奖励函数为在执行蒙特卡洛树搜索中选择节点的依据。
进一步地,在一个回合内我方棋子移动的所述移动奖励函数通过下述方式获得:
进一步地,在一个回合内我方棋子攻击敌方棋子的所述攻击奖励函数通过下述方式获得:
根据 ,得到所述攻击奖励函数 ,表示受本次攻击后敌方棋子的生命值减少量, 表示受本次攻击后生命值减少的所述敌方棋子的棋子价值, 表示在本次攻击中所述我方棋子的攻击力, 表示本次攻击后所述我方棋子的剩余攻击次数。
进一步地,所述棋局结束奖励函数通过下述方式获得:
其中, 表示所述兵棋棋局结束时我方获胜的获胜奖励值, 表示所述兵棋棋局结束时我方失败的失败奖励值, 表示所述兵棋棋局结束时平局奖励值,表示所述兵棋棋局结束时我方存活的棋子, 表示所述兵棋棋局结束时敌方存活的棋子, 表示棋子生命值, 表示棋子价值。
进一步地,所述节点评估奖励函数通过下述方式获得:
根据 ,得到所述节点评估奖励函数 ,其中, 表示当前节点的棋局奖励值,所述棋局奖励值为所述当前节点的所有单次行动奖励函数值之和与棋局结束奖励函数值的累加, 表示所述当前节点的总访问次数,表示所述当前节点的父节点的总访问次数, 表示平衡棋局奖励和访问次数的常系数。
进一步地,所述目标动作确定模块32具体用于执行如下步骤:
步骤1:根据当前回合开始时刻的所述棋局态势初始化蒙特卡洛树的一个根节点;
步骤2:执行所述蒙特卡洛树搜索,并根据所述节点评估奖励函数,选择所述节点评估奖励函数值最大的叶节点;
步骤3:判断所述叶节点是否为终止节点,若不是终止节点,执行步骤4,若是终止节点,则执行步骤5;
步骤4:根据所述我方棋子与敌方棋子的基础属性以及预设棋盘规则,创建所述叶节点的一个或多个子节点,并从所述一个或多个子节点中随机选择一个子节点作为模拟起始节点,从所述模拟起始节点开始,按照随机走子策略模拟所述兵棋棋局至棋局结束,并执行步骤5;
步骤5:获取所述节点以及其所有祖先节点的单次行动奖励函数值和棋局结束奖励函数值,并执行步骤6;
步骤6:将所述步骤5中获得的所述单次行动奖励函数值和棋局结束奖励函数值反向传播,回溯更新所述节点以及其所有祖先节点的节点评估奖励函数值,且搜索次数自增;
步骤7:判断当前搜索次数是否达到所述预设搜索次数,若未达到,则返回步骤2,否则执行步骤8;
步骤8:停止所述蒙特卡洛树搜索,从所述蒙特卡洛树的第二层节点中选择节点评估奖励函数值最大的一个节点,将该节点对应的动作作为所述目标动作。
进一步地,所述装置30还包括样本记录模块34,用于记录多个兵棋棋局的兵棋博弈策略,并将多个兵棋博弈策略作为兵棋博弈策略数据样本,以便利用所述兵棋博弈策略数据样本训练兵棋博弈策略模型。
本公开实施例提供的兵棋博弈策略的生成装置的具体工作原理及益处与本公开实施例提供的兵棋博弈策略的生成方法的具体工作原理及益处相似,这里将不再赘述。
此外,本公开实施例的另一方面还提供一种机器可读存储介质,该机器可读存储介质上存储有指令,该指令用于使得机器执行上述实施例所述的兵棋博弈策略的生成方法。
本领域内的技术人员应明白,本申请的实施例可提供为方法、系统、或计算机程序产品。因此,本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本申请是参照根据本申请实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
在一个典型的配置中,计算设备包括一个或多个处理器 (CPU)、输入/输出接口、网络接口和内存。
存储器可能包括计算机可读介质中的非永久性存储器,随机存取存储器(RAM)和/或非易失性内存等形式,如只读存储器(ROM)或闪存(flash RAM)。存储器是计算机可读介质的示例。
计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括,但不限于相变内存 (PRAM)、静态随机存取存储器 (SRAM)、动态随机存取存储器 (DRAM)、其他类型的随机存取存储器 (RAM)、只读存储器 (ROM)、电可擦除可编程只读存储器 (EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘 (DVD) 或其他光学存储、磁盒式磁带,磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质,可用于存储可以被计算设备访问的信息。按照本文中的界定,计算机可读介质不包括暂存电脑可读媒体 (transitory media),如调制的数据信号和载波。
还需要说明的是,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、商品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、商品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括要素的过程、方法、商品或者设备中还存在另外的相同要素。
以上仅为本申请的实施例而已,并不用于限制本申请。对于本领域技术人员来说,本申请可以有各种更改和变化。凡在本申请的精神和原理之内所作的任何修改、等同替换、改进等,均应包含在本申请的权利要求范围之内。
Claims (10)
1.一种兵棋博弈策略的生成方法,其特征在于,包括:
获取兵棋棋局中我方棋子与敌方棋子在每一个回合开始时刻的棋局态势;
根据所述棋局态势以及预设奖励函数,在所述每一个回合重复执行预设搜索次数的蒙特卡洛树搜索,得到所述每一个回合的所述我方棋子的目标动作,并根据所述目标动作执行对弈操作;
在所述兵棋棋局结束时,将所述每一个回合的所述我方棋子的目标动作、所述兵棋棋局结束时的棋局态势以及所述兵棋棋局的结果,记录为所述兵棋棋局的兵棋博弈策略。
2.根据权利要求1所述的兵棋博弈策略的生成方法,其特征在于,在所述获取兵棋棋局中我方棋子与敌方棋子在每一个回合开始时刻的棋局态势之前,所述方法还包括:
获取所述兵棋棋局中我方棋子与敌方棋子的基础属性、预设棋盘规则以及预设奖励函数,
其中,所述预设奖励函数包括单次行动奖励函数、棋局结束奖励函数以及节点评估奖励函数,其中,所述单次行动奖励函数是用于计算一个回合内棋子行动的奖励值,所述单次行动奖励函数包括移动奖励函数和攻击奖励函数,所述棋局结束奖励函数是用于计算所述兵棋棋局结束后产生的奖励值,所述节点评估奖励函数为在执行蒙特卡洛树搜索中选择节点的依据。
7.根据权利要求2所述的兵棋博弈策略的生成方法,其特征在于,所述根据所述棋局态势以及预设奖励函数,在所述每一个回合重复执行预设搜索次数的蒙特卡洛树搜索,得到所述每一个回合的所述我方棋子的目标动作包括:
步骤1:根据当前回合开始时刻的所述棋局态势初始化蒙特卡洛树的一个根节点;
步骤2:执行所述蒙特卡洛树搜索,并根据所述节点评估奖励函数,选择所述节点评估奖励函数值最大的叶节点;
步骤3:判断所述叶节点是否为终止节点,若不是终止节点,执行步骤4,若是终止节点,则执行步骤5;
步骤4:根据所述我方棋子与敌方棋子的基础属性以及预设棋盘规则,创建所述叶节点的一个或多个子节点,并从所述一个或多个子节点中随机选择一个子节点作为模拟起始节点,从所述模拟起始节点开始,按照随机走子策略模拟所述兵棋棋局至棋局结束,并执行步骤5;
步骤5:获取所述节点以及其所有祖先节点的单次行动奖励函数值和棋局结束奖励函数值,并执行步骤6;
步骤6:将所述步骤5中获得的所述单次行动奖励函数值和棋局结束奖励函数值反向传播,回溯更新所述节点以及其所有祖先节点的节点评估奖励函数值,且搜索次数自增;
步骤7:判断当前搜索次数是否达到所述预设搜索次数,若未达到,则返回步骤2,否则执行步骤8;
步骤8:停止所述蒙特卡洛树搜索,从所述蒙特卡洛树的第二层节点中选择节点评估奖励函数值最大的一个节点,将该节点对应的动作作为所述目标动作。
8.根据权利要求2所述的兵棋博弈策略的生成方法,其特征在于,在所述将所述每一个回合的所述我方棋子的目标动作、所述兵棋棋局结束时的棋局态势以及所述兵棋棋局的结果,记录为所述兵棋棋局的兵棋博弈策略之后,所述方法还包括:
记录多个兵棋棋局的兵棋博弈策略,并将多个兵棋博弈策略作为兵棋博弈策略数据样本,以便利用所述兵棋博弈策略数据样本训练兵棋博弈策略模型。
9.一种兵棋博弈策略的生成装置,其特征在于,包括:
获取模块,用于获取兵棋棋局中我方棋子与敌方棋子在每一个回合开始时刻的棋局态势;
目标动作确定模块,用于根据所述棋局态势以及预设奖励函数,在所述每一个回合重复执行预设搜索次数的蒙特卡洛树搜索,得到所述每一个回合的所述我方棋子的目标动作,并根据所述目标动作执行对弈操作;
策略生成模块,用于在所述兵棋棋局结束时,将所述每一个回合的所述我方棋子的目标动作、所述兵棋棋局结束时的棋局态势以及所述兵棋棋局的结果,记录为所述兵棋棋局的兵棋博弈策略。
10.一种机器可读存储介质,其特征在于,该机器可读存储介质上存储有指令,该指令用于使得机器执行权利要求1-8中任意一项所述的兵棋博弈策略的生成方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211146544.XA CN115222304A (zh) | 2022-09-20 | 2022-09-20 | 兵棋博弈策略的生成方法、装置及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211146544.XA CN115222304A (zh) | 2022-09-20 | 2022-09-20 | 兵棋博弈策略的生成方法、装置及存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN115222304A true CN115222304A (zh) | 2022-10-21 |
Family
ID=83617478
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202211146544.XA Pending CN115222304A (zh) | 2022-09-20 | 2022-09-20 | 兵棋博弈策略的生成方法、装置及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN115222304A (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116542333A (zh) * | 2023-03-13 | 2023-08-04 | 中国科学院自动化研究所 | 博弈环境系统、博弈智能体以及兵棋智能体的训练方法 |
CN118762312A (zh) * | 2024-09-06 | 2024-10-11 | 少年纵横(江苏)科技发展有限公司 | 一种基于视频图像分析的围棋复盘方法 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112651508A (zh) * | 2020-01-10 | 2021-04-13 | 腾讯科技(深圳)有限公司 | 绝热演化路径的预测方法、装置、设备及存储介质 |
CN114997054A (zh) * | 2022-05-31 | 2022-09-02 | 清华大学 | 一种兵棋对弈模拟方法及装置 |
-
2022
- 2022-09-20 CN CN202211146544.XA patent/CN115222304A/zh active Pending
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112651508A (zh) * | 2020-01-10 | 2021-04-13 | 腾讯科技(深圳)有限公司 | 绝热演化路径的预测方法、装置、设备及存储介质 |
CN114997054A (zh) * | 2022-05-31 | 2022-09-02 | 清华大学 | 一种兵棋对弈模拟方法及装置 |
Non-Patent Citations (2)
Title |
---|
彭希璐 等: "面向智能决策的兵棋推演技术", 《第七届中国指挥控制大会论文集》 * |
李大舟等: "一种自学习的智能五子棋算法的设计与实现", 《小型微型计算机系统》 * |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116542333A (zh) * | 2023-03-13 | 2023-08-04 | 中国科学院自动化研究所 | 博弈环境系统、博弈智能体以及兵棋智能体的训练方法 |
CN118762312A (zh) * | 2024-09-06 | 2024-10-11 | 少年纵横(江苏)科技发展有限公司 | 一种基于视频图像分析的围棋复盘方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN115222304A (zh) | 兵棋博弈策略的生成方法、装置及存储介质 | |
Laird | Research in human-level AI using computer games | |
Louis et al. | Playing to learn: Case-injected genetic algorithms for learning to play computer games | |
Barriga et al. | Game tree search based on nondeterministic action scripts in real-time strategy games | |
CN113688977A (zh) | 面向对抗任务的人机共生强化学习方法、装置、计算设备及存储介质 | |
Churchill et al. | Incorporating search algorithms into RTS game agents | |
Knegt et al. | Opponent modelling in the game of Tron using reinforcement learning | |
Zhang et al. | AlphaZero | |
Kraner et al. | Procedural content generation of custom tower defense game using genetic algorithms | |
US20120115605A1 (en) | Systems and methods for inverse franchising of virtual characters | |
Stiegler et al. | Symbolic reasoning for hearthstone | |
Francisco-Valencia et al. | A comparison between UCB and UCB-Tuned as selection policies in GGP | |
CN116090549A (zh) | 一种基于知识驱动的多智能体强化学习决策方法、系统及存储介质 | |
CN111701246A (zh) | 一种游戏ai的决策配置方法和装置 | |
Adams | Automatic generation of dungeons for computer games | |
CN109999497B (zh) | 虚拟对象的控制方法和装置、存储介质和电子装置 | |
CN108304929A (zh) | 一种点格棋最佳招法的确定方法及系统 | |
CN116966591A (zh) | 模型训练方法、装置、计算机设备及存储介质 | |
Kalles et al. | Interactive verification of game design and playing strategies | |
Ross | General video game playing with goal orientation | |
da Silva et al. | Playing the original game boy tetris using a real coded genetic algorithm | |
Heng | Tree Search Algorithms For Chinese Chess | |
Chen et al. | Research on turn-based war chess game based on reinforcement learning | |
CN114357882B (zh) | 一种基于离散空间的对抗性群集体系的阵型模拟优化系统 | |
Meng et al. | Battle Prediction System in StarCraft Combined with Topographic Considerations |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20221021 |