CN117883788B - 智能体训练方法、游戏对战方法、装置及电子设备 - Google Patents
智能体训练方法、游戏对战方法、装置及电子设备 Download PDFInfo
- Publication number
- CN117883788B CN117883788B CN202410293574.6A CN202410293574A CN117883788B CN 117883788 B CN117883788 B CN 117883788B CN 202410293574 A CN202410293574 A CN 202410293574A CN 117883788 B CN117883788 B CN 117883788B
- Authority
- CN
- China
- Prior art keywords
- game
- event
- target
- agent
- control operation
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 134
- 238000012549 training Methods 0.000 title claims abstract description 98
- 230000009471 action Effects 0.000 claims abstract description 198
- 230000001105 regulatory effect Effects 0.000 claims abstract description 26
- 230000001276 controlling effect Effects 0.000 claims description 43
- 230000008569 process Effects 0.000 claims description 30
- 238000004590 computer program Methods 0.000 claims description 21
- 239000011159 matrix material Substances 0.000 claims description 16
- 230000015654 memory Effects 0.000 claims description 16
- 238000005070 sampling Methods 0.000 claims description 13
- 238000005457 optimization Methods 0.000 claims description 7
- 238000000605 extraction Methods 0.000 claims 2
- 238000013473 artificial intelligence Methods 0.000 abstract description 21
- 230000000875 corresponding effect Effects 0.000 description 163
- 238000005516 engineering process Methods 0.000 description 25
- 230000033228 biological regulation Effects 0.000 description 16
- 238000010586 diagram Methods 0.000 description 13
- 238000004422 calculation algorithm Methods 0.000 description 11
- 230000002787 reinforcement Effects 0.000 description 11
- 230000006399 behavior Effects 0.000 description 10
- 238000011161 development Methods 0.000 description 9
- 238000012545 processing Methods 0.000 description 9
- 230000004927 fusion Effects 0.000 description 8
- 230000008901 benefit Effects 0.000 description 7
- 238000010801 machine learning Methods 0.000 description 6
- 238000012360 testing method Methods 0.000 description 5
- 230000006870 function Effects 0.000 description 4
- 238000011160 research Methods 0.000 description 4
- 238000013135 deep learning Methods 0.000 description 3
- 230000007123 defense Effects 0.000 description 3
- 230000000694 effects Effects 0.000 description 3
- 230000003993 interaction Effects 0.000 description 3
- 230000007774 longterm Effects 0.000 description 3
- 230000003287 optical effect Effects 0.000 description 3
- 230000008485 antagonism Effects 0.000 description 2
- 238000013459 approach Methods 0.000 description 2
- 230000005540 biological transmission Effects 0.000 description 2
- 238000004364 calculation method Methods 0.000 description 2
- 230000008859 change Effects 0.000 description 2
- 238000004891 communication Methods 0.000 description 2
- 239000013078 crystal Substances 0.000 description 2
- 238000002474 experimental method Methods 0.000 description 2
- 230000033001 locomotion Effects 0.000 description 2
- 238000003062 neural network model Methods 0.000 description 2
- 230000002093 peripheral effect Effects 0.000 description 2
- 230000003068 static effect Effects 0.000 description 2
- 208000015041 syndromic microphthalmia 10 Diseases 0.000 description 2
- 238000012546 transfer Methods 0.000 description 2
- 206010015150 Erythema Diseases 0.000 description 1
- 238000004458 analytical method Methods 0.000 description 1
- 238000013528 artificial neural network Methods 0.000 description 1
- 230000003190 augmentative effect Effects 0.000 description 1
- 238000013475 authorization Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000001680 brushing effect Effects 0.000 description 1
- 238000012512 characterization method Methods 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000001514 detection method Methods 0.000 description 1
- 238000011156 evaluation Methods 0.000 description 1
- 230000006698 induction Effects 0.000 description 1
- 230000002452 interceptive effect Effects 0.000 description 1
- 230000009545 invasion Effects 0.000 description 1
- 239000000463 material Substances 0.000 description 1
- 238000005259 measurement Methods 0.000 description 1
- 238000003058 natural language processing Methods 0.000 description 1
- 238000010079 rubber tapping Methods 0.000 description 1
- 238000012216 screening Methods 0.000 description 1
- 230000006403 short-term memory Effects 0.000 description 1
- 230000001360 synchronised effect Effects 0.000 description 1
- 238000013526 transfer learning Methods 0.000 description 1
- 230000009466 transformation Effects 0.000 description 1
Classifications
-
- A—HUMAN NECESSITIES
- A63—SPORTS; GAMES; AMUSEMENTS
- A63F—CARD, BOARD, OR ROULETTE GAMES; INDOOR GAMES USING SMALL MOVING PLAYING BODIES; VIDEO GAMES; GAMES NOT OTHERWISE PROVIDED FOR
- A63F13/00—Video games, i.e. games using an electronically generated display having two or more dimensions
- A63F13/55—Controlling game characters or game objects based on the game progress
- A63F13/57—Simulating properties, behaviour or motion of objects in the game world, e.g. computing tyre load in a car race game
Landscapes
- Engineering & Computer Science (AREA)
- Multimedia (AREA)
- Theoretical Computer Science (AREA)
- Human Computer Interaction (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本申请提供一种智能体训练方法、游戏对战方法、装置及电子设备,涉及人工智能、网络游戏技术领域。通过初始智能体,在目标游戏的至少一局游戏中针对游戏角色执行至少一次控制操作,每次控制操用于调控初始智能体基于样本游戏事件控制游戏角色进行游戏;每次控制操作时,可通过初始智能体,获取游戏角色在该次控制操作对应的目标事件的事件元组特征,并基于该事件元组特征以及游戏角色的游戏状态特征,预测动作概率分布和状态价值,基于动作概率分布控制游戏角色执行游戏动作;并基于各次控制操作对应的执行结果和状态价值对该初始智能体进行迭代训练,得到智能体。使得智能体持续优化学习游戏竞技能力和完成事件的能力,提高智能体的可控性。
Description
技术领域
本申请涉及人工智能、网络游戏技术领域,本申请涉及一种智能体训练方法、游戏对战方法、装置及电子设备。
背景技术
随着互联网技术的发展,网络游戏的类型越来越多,例如,MOBA(MultiplayerOnline Battle Arena,多人在线战术竞技游戏)中,玩家通常被分为两个或多个阵营,在分散的游戏地图中互相竞争,每个玩家控制所选的游戏角色与对方进行对战。本领域中,游戏中的游戏角色不仅可以由玩家控制,还可以由人工智能(Artificial Intelligence,AI)模型(如智能体)控制游戏角色进行游戏。
相关技术中,采用强化学习算法,采用自对弈方式让智能体在训练过程中不断探索和优化,从而学习到智能体认为的最优策略。
然而,智能体通常以端到端方式设计的,该方式使得使用者无法介入对智能体的调控,即使智能体在游戏对战中做出不合理行为,使用者也难以控制其行为,因而导致缺乏对智能体的可控性。
发明内容
本申请提供了一种智能体训练方法、游戏对战方法、装置及电子设备。所述技术方案如下:
一方面,本申请实施例提供了一种智能体训练方法,所述方法包括:
通过初始智能体,在目标游戏的至少一局游戏中针对游戏角色执行至少一次控制操作,每次控制操作用于调控初始智能体基于样本游戏事件控制游戏角色进行游戏对战;
基于各次控制操作对应的执行结果和状态价值,对所述初始智能体进行迭代训练,得到针对所述目标游戏的智能体;
其中,所述每次控制操作的执行过程,包括:
通过所述初始智能体,获取所述游戏角色在所述控制操作对应的目标事件的事件元组特征,所述目标事件是用于调控初始智能体的样本游戏事件;
基于所述目标事件的事件元组特征、以及所述游戏角色在所述控制操作对应的游戏状态特征,预测所述游戏角色的动作概率分布和状态价值,所述状态价值表征游戏角色的当前游戏状态对应的奖励期望;
基于所述动作概率分布控制所述游戏角色执行游戏动作,得到所述游戏角色的执行结果,所述执行结果包括对所述目标事件的完成程度和对应获得的游戏奖励。
另一方面,本申请实施例提供了一种游戏对战方法,所述方法包括:
在采用智能体控制目标游戏角色进行游戏对战过程中,当接收到针对所述目标游戏角色的游戏控制事件,获取所述游戏控制事件的事件元组特征;
基于所述游戏控制事件的事件元组特征和目标游戏角色的状态特征,通过所述智能体预测得到所述目标游戏角色的动作概率分布,所述智能体是采用上述的智能体训练方法进行训练得到的;
基于所述目标游戏角色的动作概率分布获取待执行动作,并控制所述目标游戏角色执行所述待执行动作。
另一方面,本申请实施例提供了一种智能体训练装置,所述装置包括:
第一训练模块,用于通过初始智能体,在目标游戏的至少一局游戏中针对游戏角色执行至少一次控制操作,每次控制操作用于调控初始智能体基于样本游戏事件控制游戏角色进行游戏对战;
第二训练模块,用于基于各次控制操作对应的执行结果和状态价值,对所述初始智能体进行迭代训练,得到针对所述目标游戏的智能体;
其中,所述第一训练模块,在用于执行每次控制操作时,包括:
获取单元,用于通过所述初始智能体,获取所述游戏角色在所述控制操作对应的目标事件的事件元组特征,所述目标事件是用于调控初始智能体的样本游戏事件;
预测单元,用于基于所述目标事件的事件元组特征、以及所述游戏角色在所述控制操作对应的游戏状态特征,预测所述游戏角色的动作概率分布和状态价值,所述状态价值表征游戏角色的当前游戏状态对应的奖励期望;
动作执行单元,用于基于所述动作概率分布控制所述游戏角色执行游戏动作,得到所述游戏角色的执行结果,所述执行结果包括对所述目标事件的完成程度和对应获得的游戏奖励。
在一个可能实现方式中,所述获取单元,在获取所述游戏角色在所述控制操作对应的目标事件的事件元组特征时,包括:
获取子单元,获取所述游戏角色在所述控制操作对应的目标事件;
拆解子单元,用于对所述目标事件进行拆解,得到所述目标事件的事件风格和事件资源;
生成子单元,用于基于所述目标事件的事件风格和事件资源,生成所述目标事件的事件元组特征。
在一个可能实现方式中,所述生成子单元,在基于所述目标事件的事件风格和事件资源,生成所述目标事件的事件元组特征时,用于:
将所述事件风格转换为所述目标事件的风格特征;
对所述事件资源进行拆解,并基于拆解得到的所述目标事件的事件位置、事件目标和事件任务,生成所述目标事件的资源特征;
对所述风格特征和资源特征进行拼接,得到所述事件元组特征。
在一个可能实现方式中,所述游戏奖励至少包括与所述目标事件的完成程度对应的事件奖励;
所述动作执行单元,在基于所述动作概率分布控制所述游戏角色执行游戏动作,得到所述游戏角色的执行结果时,用于:
基于所述动作概率分布采样得到所述游戏动作,并控制所述游戏角色执行所述游戏动作;
当对所述游戏动作执行结束时,基于所述游戏角色对所述目标事件的完成程度,向所述游戏角色发放事件奖励。
在一个可能实现方式中,所述执行结果还包括执行所述游戏动作前后的状态差异,所述游戏奖励还包括与所述状态差异对应的状态奖励;
所述动作执行单元,在基于所述动作概率分布控制所述游戏角色执行游戏动作,得到所述游戏角色的执行结果时,还用于:
当对所述游戏动作执行结束时,获取所述游戏角色执行所述游戏动作前后的游戏状态的状态差异,并基于所述状态差异向所述游戏角色发放状态奖励。
在一个可能实现方式中,所述每次控制操作的执行过程,还包括:
轨迹获取单元,用于获取针对所述游戏角色的游戏轨迹,所述游戏轨迹包括按照执行顺序排列的多个样本游戏事件;
所述获取单元,在获取所述游戏角色在所述控制操作对应的目标事件的事件元组特征时,用于:
按照所述游戏轨迹中各个样本游戏事件的执行顺序,从所述游戏轨迹中获取在所述控制操作对应的目标事件,并获取所述目标事件的事件元组特征。
在一个可能实现方式中,所述轨迹获取单元,在获取针对所述游戏角色的游戏轨迹时,用于以下至少一项:
在执行每次控制操作时,基于所述游戏角色在每次控制操作对应的游戏状态,通过事件预测模型,预测所述游戏角色对应的事件置信度矩阵,并基于所述事件置信度矩阵采样得到游戏事件,将采样得到的游戏事件按照执行顺序添加至所述游戏轨迹中;
若所述游戏角色的阵容属于目标阵容集合,从所述目标阵容集合对应的配置轨迹集合中,获取针对所述游戏角色的阵容的已配置游戏轨迹;
从预先构建的事件库中采样得到多个样本游戏事件,基于所采样的多个样本游戏事件生成针对所述游戏角色的游戏轨迹。
在一个可能实现方式中,所述第二训练模块,在基于各次控制操作对应的执行结果和状态价值,对所述初始智能体进行迭代训练,得到针对所述目标游戏的智能体时,包括:
确定单元,用于基于各次控制操作对应的游戏奖励和状态价值,确定各次控制操作对应的游戏动作的优势值;
差异获取单元,用于获取初始智能体与参考智能体在各次控制操作对应的动作预测差异;
损失计算单元,基于各次控制操作对应的游戏动作的优势值、以及动作预测差异,计算各次控制操作对应的损失值;
训练单元,用于基于各次控制操作对应的损失值对所述初始智能体进行迭代训练,得到所述智能体。
在一个可能实现方式中,所述初始智能体中包括原子层网络,每次控制操作对应的动作概率分布和状态价值是采用所述原子层网络基于事件元组特征和游戏状态特征进行预测得到的;
所述第二训练模块,在基于各次控制操作对应的执行结果和状态价值,对所述初始智能体进行迭代训练,得到针对所述目标游戏的智能体时,用于:
基于各次控制操作对应的执行结果和状态价值,对所述原子层网络的网络参数进行迭代优化,直至符合目标条件时停止迭代,得到所述智能体;
其中,所述目标条件包括以下至少之一:
所述初始智能体在各次控制操作对应的样本游戏事件的事件达成率符合第一收敛条件;
所述初始智能体控制游戏角色进行各局游戏对战的胜负率符合第二收敛条件。
另一方面,本申请实施例提供了一种游戏对战装置,所述装置包括:
获取模块,用于在采用智能体控制目标游戏角色进行游戏对战过程中,当接收到针对所述目标游戏角色的游戏控制事件,获取所述游戏控制事件的事件元组特征;
预测模块,用于基于所述游戏控制事件的事件元组特征和目标游戏角色的状态特征,通过所述智能体预测得到所述目标游戏角色的动作概率分布,所述智能体是采用上述任一项所述的智能体训练方法进行训练得到的;
执行模块,用于基于所述目标游戏角色的动作概率分布获取待执行动作,并控制所述目标游戏角色执行所述待执行动作。
另一方面,提供了一种电子设备,包括存储器、处理器及存储在存储器上的计算机程序,所述处理器执行所述计算机程序以实现上述的智能体训练方法或游戏对战方法。
另一方面,提供了一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现上述的智能体训练方法或游戏对战方法。
另一方面,提供了一种计算机程序产品,包括计算机程序,所述计算机程序被处理器执行时实现上述的智能体训练方法或游戏对战方法。
本申请实施例提供的技术方案带来的有益效果是:
本申请实施例提供的智能体训练方法,通过初始智能体,在目标游戏的至少一局游戏中针对游戏角色执行至少一次控制操作,每次控制操用于调控初始智能体基于样本游戏事件控制游戏角色;具体在每次控制操作时,可通过初始智能体,获取游戏角色在该次控制操作对应的目标事件的事件元组特征,并基于该目标事件的事件元组特征以及游戏角色的游戏状态特征,预测动作概率分布和状态价值,基于该动作概率分布控制该游戏角色执行游戏动作;并且,基于各次控制操作对应的执行结果和状态价值,对该初始智能体进行迭代训练,得到智能体。基于此,可在训练阶段,使得智能体能在样本游戏事件的调控下,不断优化学习到游戏竞技能力和完成目标事件的能力,使得训练后的智能体能基于使用者输入事件,控制游戏角色进行高水平的游戏对战,有效提高了智能体的可控性。
本申请实施例提供的游戏对战方法,在接收到针对该目标游戏角色的游戏控制事件时,通过智能体获取该游戏控制事件的事件元组特征;并基于该事件元组特征和目标游戏角色的状态特征,通过该智能体预测得到动作概率分布;以便基于该动作概率分布控制该目标游戏角色执行对应的待执行动作。由于该智能体是通过执行多次控制操作、并基于多次控制操作对应的执行结果和状态价值进行训练得到的,每次控制操作时可被调控基于样本游戏事件控制游戏角色执行游戏动作;使得该智能体能在多次样本游戏事件的调控下学习到游戏竞技能力和完成目标事件的能力。在使用该智能体进行游戏对战过程中,方便使用者随时输入事件对智能体进行调控,进而提高了使用该智能体进行游戏对战的灵活性和可控性。
附图说明
为了更清楚地说明本申请实施例中的技术方案,下面将对本申请实施例描述中所需要使用的附图作简单地介绍。
图1为本申请实施例提供的一种实现智能体训练方法或游戏对战方法的实施环境示意图;
图2为本申请实施例提供的一种智能体训练方法的流程示意图;
图3为本申请实施例提供的一种事件定义示意图;
图4为本申请实施例提供的一种游戏轨迹示意图;
图5为本申请实施例提供的一种游戏事件的框架结构示意图;
图6为本申请实施例提供的一种战术层的结构示意图;
图7为本申请实施例提供的一种操作能力建模的原子层结构示意图;
图8为本申请实施例提供的一种可控能力建模的原子层结构示意图;
图9为本申请实施例提供的一种智能体的系统架构示意图;
图10为本申请实施例提供的一种游戏对战方法的流程示意图;
图11为本申请实施例提供的一种智能体训练装置的结构示意图;
图12为本申请实施例提供的一种游戏对战装置的结构示意图;
图13为本申请实施例提供的一种电子设备的结构示意图。
具体实施方式
下面结合本申请中的附图描述本申请的实施例。应理解,下面结合附图所阐述的实施方式,是用于解释本申请实施例的技术方案的示例性描述,对本申请实施例的技术方案不构成限制。
本技术领域技术人员可以理解,除非特意声明,这里使用的单数形式 “一”、“一个”、“所述”和“该”也可包括复数形式。本申请实施例所使用的术语“包括”以及“包含”是指相应特征可以实现为所呈现的特征、信息、数据、步骤、操作,但不排除实现为本技术领域所支持其他特征、信息、数据、步骤、操作等。
可以理解的是,在本申请的具体实施方式中,涉及到用户的游戏角色、智能体对游戏角色的控制、执行结果、状态价值、游戏事件等任何与用户相关的数据,当本申请以上实施例运用到具体产品或技术中时,需要获得用户许可或者同意,且相关数据的收集、使用和处理需要遵守相关国家和地区的相关法律法规和标准。也就是说,本申请实施例中如果涉及到上术任何与用户相关的数据,这些数据需要经由用户授权同意、且符合国家和地区的相关法律法规和标准的情况下获取的。
下面对本申请中涉及的相关名词进行介绍:
智能体:是用于控制游戏角色的AI模型;本申请中,智能体可以是训练好的、用于控制某款游戏中任意游戏角色的AI模型。例如,可采用智能体,基于游戏角色的游戏状态来预测游戏角色的游戏动作,以使游戏角色基于预测的情况进行游戏对战。本申请中,智能体还可基于游戏事件以及游戏状态,共同进行游戏动作的预测;基于此,可使得智能体能被来自用户的游戏事件进行调控。
目标游戏:支持采用智能体控制游戏角色的任一款游戏。例如,目标游戏包括但不限于:MOBA(Multiplayer Online Battle Arena,多人在线战术竞技游戏)类游戏、射击类游戏(如FPS游戏(第一人称射击游戏)、第三人称射击游戏等)、棋类游戏(如自走棋游戏)、球类游戏、角色扮演类游戏(Roleplaying Game,RPG)以及动作游戏等。
样本游戏事件:用于调控智能体的游戏事件,具体可采用该样本游戏事件、针对智能体控制游戏角色进行游戏对战的游戏控制过程进行调控。
事件元组特征:表征对应的一个样本游戏事件的事件特征,本申请中,对游戏事件建模成“风格”+“资源”的形式,基于此,该事件元组特征可反映了游戏事件在事件风格、事件资源两方面的特征。
动作概率分布:表征控制操作对应的各个候选的游戏动作的概率规律;动作概率分布可包括至少一个候选动作以及每个候选动作对应的概率。
状态价值:表征游戏角色的当前游戏状态对应的奖励期望。
图1为本申请提供的一种智能体训练方法、游戏对战方法的实施环境示意图。如图1所示,该实施环境包括:电子设备101,该电子设备101可以是服务器或终端。
本申请实施例中,可通过电子设备101执行本申请的智能体训练方法,在训练阶段,使得智能体能在样本游戏事件的调控下,不断优化学习到游戏竞技能力和完成目标事件的能力,训练得到具有高竞技能力且高可控性的智能体;进而使得训练后的智能体能基于使用者输入事件,控制游戏角色进行高水平的游戏对战,有效提高了智能体的可控性。
本申请实施例中,还可通过电子设备101执行本申请的游戏对战方法,在使用训练后的智能体来控制游戏角色进行游戏对战过程中,方便使用者随时输入事件对智能体进行调控,进而提高了使用该智能体进行游戏对战的灵活性和可控性。
一可能场景中,可使用已训练好的智能体来对目标游戏进行实验、或测试等。例如,在目标游戏的实验或测试阶段,可使用训练好的各个智能体分别控制各个游戏角色进行游戏对战。并且,在游戏对战过程中,智能体可在配置的游戏事件的调控下、结合游戏角色的游戏状态来进行游戏对战,以更真实、有效的模拟真实玩家的实际游戏对战过程;从而在实验户或测试阶段,提前发现并修复目标游戏中可能存在的漏洞、bug和平衡性等问题,以确保游戏质量,确保游戏发布前的稳定性和可玩性。
又一可能场景中,例如,在一些球类游戏中,游戏玩家可使用已训练好的智能体辅助或代替自己进行游戏。例如,游戏玩家可在使用智能体进行游戏对战过程中,随时按照自己的游戏意图来输入游戏事件,以调控智能体结合玩家的意图进行游戏对战,提高智能体使用的灵活性和可控性。
其中,该服务器可以是独立的物理服务器,或是多个物理服务器构成的服务器集群或者分布式系统,或是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、以及大数据和人工智能平台等基础云计算服务的云服务器或服务器集群。终端可以是智能手机、平板电脑、笔记本电脑、数字广播接收器、台式计算机、车载终端(例如车载导航终端、车载电脑等)、智能音箱、智能手表等。终端以及服务器可以通过有线或无线通信方式进行直接或间接地连接,也可基于实际应用场景需求确定,在此不作限定。
图2为本申请实施例提供的一种智能体训练方法的流程示意图。该方法的执行主体可以为电子设备,例如该电子设备可以是服务器。如图2所示,该方法包括以下步骤201-202。
步骤201、电子设备通过初始智能体,在目标游戏的至少一局游戏中针对游戏角色执行至少一次控制操作。
其中,每次控制操作用于调控初始智能体基于样本游戏事件控制游戏角色进行游戏对战。也即是,样本游戏事件是用于调控初始智能体对游戏角色的控制过程的调控事件。
本申请中的样本游戏事件,可以是该目标游戏的游戏规则下,支持的任意游戏事件。例如,在MOBA类的多人在线战术竞技游戏中,其玩法是将十个玩家分成两个敌对阵营,在同一个地图中进行线上对抗、团队配合、资源争夺,通过竞争最终摧毁敌方的水晶来赢得比赛。在游戏对战过程中,玩家可进行清兵、推塔,相应的,该样本游戏事件可以是清兵、推塔等各种游戏事件。
其中,该每次控制操作的执行过程,包括以下步骤2011-2013:
步骤2011、该电子设备通过该初始智能体,获取该游戏角色在该控制操作对应的目标事件的事件元组特征。
其中,该目标事件是用于调控初始智能体的样本游戏事件;该目标事件用于调控初始智能体在本次控制操作对游戏角色的控制过程。也即是,每次控制操作时,初始智能体需基于该次控制操作对应的样本游戏事件,来控制游戏角色进行游戏对战。
示例性的,该目标事件可以是预先配置好的、用于对初始智能体的游戏角色控制过程进行干预的事件。本申请中,在智能体的训练阶段,通过预配置的样本游戏事件干预智能体的游戏决策,来模拟对智能体的调控过程。
在一种可能的实现方式中,步骤2011的实现方式,可包括以下步骤2011-1至步骤2011-3:
步骤2011-1、电子设备获取该游戏角色在该控制操作对应的目标事件;
一可能方式中,该电子设备可预先配置该游戏角色的游戏轨迹,该游戏轨迹包括按照执行顺序排列的多个样本游戏事件,基于已配置的游戏轨迹来获取每次控制操作所对应的目标事件。
又一可能方式中,该电子设备还可实时从事件库中实时采样得到本次控制操作对应的目标事件。
步骤2011-2、电子设备对该目标事件进行拆解,得到该目标事件的事件风格和事件资源;
本申请中,可预先对游戏事件定义为“风格+资源”的形式。事件风格是指采用该游戏事件的游戏打法的风格,如保守型、激进型等;事件资源指示该游戏事件所针对的游戏中的存活的任意形式的单元。
示例性的,如图3所示,本申请中对于游戏事件的定义,游戏中的事件可建模成“风格”+“资源”的形式。其中,风格表示智能体控制游戏角色完成任务的形式,如图3所示,风格可包括但不限于:激进的、保守的等等。其中,资源表示地图上存活的单元,智能体控制游戏角色将会围绕该单位完成执行游戏动作。资源可包括但不限于:英雄、小兵、野怪、防御塔等。
步骤2011-3、电子设备基于该目标事件的事件风格和事件资源,生成该目标事件的事件元组特征。
一可能实现方式中,步骤2011-3的实现方式可包括:
将该事件风格转换为该目标事件的风格特征;
对该事件资源进行拆解,并基于拆解得到的该目标事件的事件位置、事件目标和事件任务,生成该目标事件的资源特征;
对该风格特征和资源特征进行拼接,得到该事件元组特征。
本步骤中,该可对资源进一步拆解,拆解出游戏事件对应的位置、目标、任务等三个方面,并基于拆解结果来转换得到资源特征。
其中,游戏事件中的资源可表示为“位置”+“目标”+“任务”的形式。其中,位置可以为游戏事件所针对的单元的位置坐标;目标可以是游戏事件所针对的单元的名称、标识信息等;任务可以是游戏事件所针对的单元所要执行的动作名称。基于此,“位置”+“目标”+“任务”可以分别从“去哪里”、“找谁”、“做什么”这三个方面来描述一个游戏事件。
如图3所示,若用户输入事件为入侵对面红buff,则可以转换成为“风格=激进,位置=敌方红区,目标:敌方红buff,任务:击杀”。该事件建模方式不仅适用于MOBA类游戏,还适用于FPS游戏(第一人称射击游戏,如和平精英)和自走棋游戏(如金铲铲)。在FPS游戏中,“收集物资”=“保守+房子+获取”;在自走棋游戏里,“升级棋子”=“无风格+棋盘+某个棋子+购买”。遵循此策略,可在一些游戏中构建游戏事件库,包括但不限于“激进”、“保守”、“温暖”等风格,“优先清兵”,“优先支援”,“入侵野区”等资源事件。
一可能实现方式中,该电子设备可获取初始事件元组特征,该初始事件元组特征中包括初始风格特征和初始资源特征。该电子设备可基于该目标事件的事件风格,在初始风格特征配置对应的风格标志位;以及,基于该目标事件的事件资源,在初始资源特征中配置对应的资源标志位;再将配置后的风格特征和资源特征拼接得到事件元组特征。
例如,当接收到<风格;资源>格式的目标事件为<激进;抢龙>,首先会将其转化为风格特征(激进标志位起效)和资源特征([目标特征:龙;位置特征:龙的坐标;任务特征:击杀龙]),再将风格特征+资源特征拼接成为事件元组。
在一种可能的实现方式中,该每次控制操作的执行过程,在执行步骤2011之前,还可通过以下步骤S1来获得游戏轨迹:
步骤S1、该电子设备获取针对该游戏角色的游戏轨迹,该游戏轨迹包括按照执行顺序排列的多个样本游戏事件;
相应的,步骤2011的实现方式可包括以下步骤:
该电子设备按照该游戏轨迹中各个样本游戏事件的执行顺序,从该游戏轨迹中获取在该控制操作对应的目标事件,并获取该目标事件的事件元组特征。
其中,各次控制操作可按照执行顺序的先后,来获取每次控制操作所对应的样本游戏事件。例如,在第1次控制操作,对应的样本游戏事件为执行顺序排列在首位的事件1;在第2次控制操作,对应的样本游戏事件为执行顺序排列在第2位的事件2;以此类推。
其中,可采用上述步骤2011-1至步骤2011-3的方式,来获取该目标事件的事件元组特征,此处不再一一赘述。
示例性的,游戏轨迹的执行顺序,可以是按照时间顺序来执行,或者也可以是按照事件的完成情况来执行。
如图4所示,若按照时间顺序来执行,则如图4中第一条轨迹所示,在第0分钟执行激进入侵、在第1分钟执行保守发育、在第2分钟执行保守支援中路、在第4分钟执行……、在第18分钟执行激进打龙等。
若按照事件的完成情况来执行,则如图4中第二条轨迹所示,先执行事件1,如激进入侵;在事件1完成之后,再执行事件2,如保守发育;在事件2完成之后,再执行事件3,如保守支援中路;在事件3完成之后,再执行事件4……,直至事件N完成之后,再执行事件N+1,如激进打龙。
示例性的,该电子设备可基于游戏专家的配置的方式、或者从人类经验中提取的方式、或者对于特殊阵容进行单独配置等方式,来生成游戏轨迹。相应的,该获取针对该游戏角色的游戏轨迹的实现方式,可包括以下方式1至方式3中的至少一项:
方式1、在执行每次控制操作时,基于该游戏角色在每次控制操作对应的游戏状态,通过事件预测模型,预测该游戏角色对应的事件置信度矩阵,并基于该事件置信度矩阵采样得到游戏事件,将采样得到的游戏事件按照执行顺序添加至该游戏轨迹中;
示例性的,在方式1中,可采用从人类经验中提取的方式获得游戏轨迹,可以一边控制游戏角色进行游戏、一边从人类经验值中提取得到游戏轨迹。
其中,该事件预测模型用于预测出符合当前游戏状态的游戏事件。该事件预测模型是已基于大量的游戏数据训练好的神经网络模型,基于此得到的事件预测模型,已从大量的游戏数据中学习到了打法、游戏经验、游戏技巧等人类经验。本步骤中,可以认为基于该事件预测模型所输出得到的预测事件即为本次控制操作所需的样式游戏事件。
本步骤中,在本次控制操作时,可获取游戏角色当前游戏状态,并将该当前游戏状态输入事件预测模型进行预测;通过该事件预测模型输出事件置信度矩阵。该事件置信度矩阵中包括对事件库中各个事件的置信度,置信度表征了事件对应于当前游戏状态的可靠程度;一个事件的置信度越大,代表当前游戏状态与该事件越匹配。
该电子设备可基于该事件置信度矩阵,从事件库中采样得到游戏事件,并将采样得到的游戏事件,作为本次控制操作所对应的目标事件添加至游戏轨迹中。其中,一个事件的置信度越高,被采样的几率越大。
其中,基于事件置信度矩阵进行采样的方式可包括:可通过初始智能体的战术层中所包括的事件选择器,来基于事件置信度矩阵对各个事件的合理程度进行评估,并基于各个事件的评估结果来选择一个游戏事件。
需要说明的是,游戏角色的游戏状态,可包括但不限于:该游戏角色自身的状态、该游戏角色所在阵容中的各个己方队友的状态、对方阵容中各个游戏角色的状态、与该游戏角色的视野对应的游戏技能范围与效果等等。其中,一个游戏角色或队友的状态,可包括用于表征该游戏角色或队友的游戏情况或游戏能力的任意状态属性,例如,可包括但不限于:游戏属性值、游戏防御值、游戏道具、游戏位置坐标、游戏阶段、游戏时间、剩余时间等等。
方式2、若该游戏角色的阵容属于目标阵容集合,从该目标阵容集合对应的配置轨迹集合中,获取针对该游戏角色的阵容的已配置游戏轨迹;
示例性的,对于一些特殊的阵容,可配置适用于该特殊阵容的多种游戏轨迹,作为与该特殊阵容匹配的轨迹。其中,目标阵容集合中包括多种特定阵容,配置轨迹集合中包括与每种特定阵容相匹配的一种或多种已配置游戏轨迹。若该游戏角色属于任一特定阵容,则可从配置轨迹集合中获取与该特定阵容匹配的已配置游戏轨迹。
例如,四个辅助一个射手的阵容(养猪流阵容),可配置该阵容所对应的挖法中包括与之配置的“四个辅助围绕保护射手,射手刷多路兵线与野怪迅速发育”的玩法;当然也可配置该阵容对应包括一些普通玩法。本申请对此不做限定。
需要说明的是,对于一些特殊的阵容,可通过为其配置对应玩法的游戏轨迹,对于特殊阵容有哪些、对应匹配的玩法游戏轨迹有哪几种,可基于需要进行配置,本申请对此不做限定。
方式3、从预先构建的事件库中采样得到多个样本游戏事件,基于所采样的多个样本游戏事件生成针对该游戏角色的游戏轨迹。
示例性的,该电子设备还可预先构建包括目标游戏中所有可能游戏事件的事件库。则该电子设备可从该事件库中选择出多个样本游戏事件生成游戏轨迹。例如,可基于游戏专家的经验来进行选择,或者随机选择,又或者按照一定的概率进行采样等多种方式,选出多个样本游戏事件。
如图5所示,该初始智能体可包括作为上层的策略层、作为中层的战术层和作为下层的原子层。其中,各层对应的作用如下:
策略层:面向长期的游戏对战的多样性,可提供一系列的多样化的游戏轨迹,以提供多样化的游戏玩法;策略层可用于基于游戏轨迹向战术层下发目标事件。
战术层:面向短期的目标事件,用于将策略层下发的目标事件解析成下层可理解并执行的事件元组特征。对于基于事件预测模块得到的事件置信度矩阵,可通过事件选择器对各个事件的合理程度进行评估,以选择其一下发给下层。
原子层:面向微操作能力,负责提供操作能力强、可控程度高的智能体。具体可用于基于游戏状态特征和事件元组特征,预测动作概率分布和价值估计,并执行对应的游戏动作,以得到游戏奖励。
其中,如图5所示,上层提供事件,经中层事件选择器选择得到目标事件,基于游戏事件的<风格;资源>的定义形式,在中层分别进行风格转义和资源转移,得到对应的风格特征和资源特征。例如,如图6所示,策略层下发了<风格;资源>格式的目标事件,具体为<激进;打龙>,在战术层,首先会按照<风格;资源>的形式,将其转化为风格特征(激进标志位起效),和资源特征([目标特征:龙;位置特征:龙的坐标;任务特征:击杀龙]);再将风格特征+资源特征拼接成为事件元组特征;然后,将事件元组特征下发给原子层,原子层则会对游戏状态特征和下发的事件元组特征进行融合,基于融合特征进行预测并执行对应动作;通过风格奖励+资源奖励的训练方式,来引导初始智能体在迭代训练过程中更好的完成目标事件,以训练得到可控的智能体。
需要说明的是,本申请中,可采用上述3种方式中任一种或多种,来生成多条游戏轨迹,以便初始智能体在多次控制操作中进行使用;通过多种方式生成的游戏轨迹中,即可以包含人类游戏经验得到的游戏轨迹玩法,也可包括游戏专家配置的游戏轨迹,还可包括针对一些特殊的阵容专门为其配置对应玩法的游戏轨迹,基于此,极大的丰富了游戏轨迹的多样性,丰富了游戏玩法,以避免由于智能体进行自对弈探索奖励最大化而导致的在多局游戏中表现出“重复性极高的行为策略、较少受到阵容/打法的影响”等情况,解决了缺乏多样性的问题。
步骤2012、该电子设备基于该目标事件的事件元组特征、以及该游戏角色在该控制操作对应的游戏状态特征,预测该游戏角色的动作概率分布和状态价值。
其中,该状态价值表征游戏角色的当前游戏状态对应的奖励期望。
该游戏状态特征是基于该游戏角色的当前游戏状态进行特征提取得到的。该电子设备可对事件元组特征和游戏状态特征进行特征融合,得到融合特征;该电子设备基于融合特征进行动作预测以及价值估计,得到该游戏角色对应的动作概率分布和状态价值。
其中,该动作概率分布中包括至少一个候选动作以及每个候选动作对应的概率。该状态价值是预估的当前游戏状态所能达到的最大奖励的期望值。其中,所能达到的最大奖励可包括游戏动作执行前后的游戏状态的差异对应的奖励、以及针对目标事件的完成情况所对应的风格奖励和资源奖励。基于此,本步骤中,该电子设备可分别对该游戏动作执行前后的游戏状态的差异进行价值预估、对该目标事件对应的风格价值进行预估、以及对应的资源价值进行预估,得到该状态价值。也即是,该状态价值可包括与游戏动作执行前后的游戏状态的状态差异对应的价值、以及风格价值和资源价值。
其中,该初始智能体中,可分别针对个人价值、团队价值、对方价值进行了建模,使训练后的智能体能够准确估计当前游戏状态的状态价值,以及学会为团队做出牺牲等策略。
需要说明的是,该初始智能体中可包括原子层,可通过原子层中体中的特征模块,来提取得到该游戏状态特征。其中,该特征模块中,可基于操作能力进行建模,该模块基于多分支FC-LSTM(Fully Connected Long Short Term Memory,全连接长短时记忆)网络结构,可提供能力达到顶级业余玩家水平的智能体。
如图7所示,例如,以某款游戏为例,在特征模块中,根据先验知识将特征分为:主英雄、友方英雄、敌方英雄、友方防御塔、敌方防御塔等多种类型的单元,每种单元使用独立的全连接层进行编码。该特征模块中还包括用于针对图像进行编码的单元,也即是当前游戏状态中还增加了图像信息,以描述游戏角色在当前视野里的技能范围与效果,并采用图像编码单元的卷积层,对图像信息进行编码。
然后,将所有单元编码的特征输入至长短期时序模块(LSTM)中建模历史信息,基于此预测模型的动作概率分布。
另外,如图8所示,原子层中还对初始智能体进行可控能力建模,此时可对基于FC-LSTM的特征模块进行改进,主要提供能力达到顶级业余水平且可控程度高的智能体。如图8所示,该模块借鉴了分层强化学习的思想,将的建模方式修改为/>。相比于图7中的建模方式,在图8中,本申请同时基于当前游戏状态的游戏状态特征/>与目标事件的事件元组特征/>输入融合模块进行表征融合,并将融合特征输入时序模块中。在时序模块中,可建模历史信息,也即是,利用在此次控制操作之前的多次历史控制操作时学习到的经验知识,在历史经验知识的基础上,基于融合特征进行预测,具体进行动作概率分布预测和价值估计,以得到本次控制操作对应的动作概率分布和状态价值。
需要说明的是,该电子设备在获取目标事件时,还可能获取到一个空事件,例如,游戏轨迹中配置的在第10min对应执行的事件为空,则在第10min对应的控制操作时,该目标事件为空;又或者,该电子设备在基于事件置信度矩阵进行选择游戏事件时,若事件置信度矩阵中的各个置信度的数值均较小、不符合筛选条件,则可能选择失败,也可能导致目标事件为空;此时,事件元组特征可以为0,则在步骤2012中,该电子设备可通过初始智能体,基于游戏状态特征,预测该游戏角色的动作概率分布和状态价值。
步骤2013、该电子设备基于该动作概率分布控制该游戏角色执行游戏动作,得到该游戏角色的执行结果。
该执行结果包括对该目标事件的完成程度和对应获得的游戏奖励。
本步骤中,该电子设备可基于该动作概率分布,从多个候选动作中采样得到待执行的游戏动作,并控制该游戏角色执行该游戏动作,基于执行的情况向该游戏角色发放游戏奖励。
例如,若目标事件为推塔,该动作概率分布中包括:推1号塔、对应概率0.5;推2号塔、对应概率0.4;推3号塔、对应概率0.04;推4号塔、对应概率0.06。则该电子设备可基于动作概率采样执行推1号塔的动作;当然,也可采样执行推1号塔和推2号塔的动作。
在一种可能的实现方式中,该游戏奖励至少包括与该目标事件的完成程度对应的事件奖励;相应的,步骤2013可包括以下步骤:
基于该动作概率分布采样得到该游戏动作,并控制该游戏角色执行该游戏动作;
当对该游戏动作执行结束时,基于该游戏角色对该目标事件的完成程度,向该游戏角色发放事件奖励。
示例性的,该事件奖励可包括风格奖励和资源奖励,游戏事件可采用“风格+资源”的形式定义,相应的,对于一个游戏事件的完成情况的奖励,也可对应拆解为风格奖励和资源奖励。该电子设备可按照预配置的奖励规则,基于该目标事件的完成程序,计算本次控制操作对应的风格奖励和资源奖励,并向该游戏角色发放对应奖励。
其中,事件奖励可以认为是智能体的使用者给予智能体的主观奖励,如根据智能体完成目标事件的程度,决定赋予多少奖励,可按照预先配置的奖励规则来决定;事件奖励也可称为内部奖励,事件奖励包括风格奖励和资源奖励。
例如,目标事件为推塔,对目标事件的完成程度可以是推搭的数量。则在对游戏动作执行结束后,若推倒塔的数量为3,则可按照每推倒1个塔对应的风格奖励值为1、资源奖励值为2的奖励规则,向游戏角色发放的风格奖励值为3、资源奖励值为6。
一可能方式中,该执行结果还包括执行该游戏动作前后的状态差异,该游戏奖励还包括与该状态差异对应的状态奖励;
相应的,步骤2013还可包括以下步骤:
当对该游戏动作执行结束时,获取该游戏角色执行该游戏动作前后的游戏状态的状态差异,并基于该状态差异向该游戏角色发放状态奖励。
例如,若游戏角色执行游戏动作之后,防御值增加、或者获得了某个辅助类的道具、或者离通关越来越近等游戏状态有了提升,则也可对其发放对应的状态奖励。其中,状态奖励可以认为是游戏客户端给予智能体的客观奖励,也可称为外部奖励。
如图8所示的高可控智能体的模型结构,在原子层中,可根据目标事件的完成情况,发放完成目标事件的内部奖励,以鼓励智能体完成目标事件,实现使用者对智能体的调控。其中,训练阶段可使用两种不同类型的奖励体系:外部奖励与内部奖励。外部奖励:游戏客户端给予智能体的客观奖励;内部奖励:使用者给予智能体的主观奖励,如根据智能体完成目标事件的程度,决定赋予多少奖励。此外,该框架支持用户同时存输入多个目标事件,即建模方式扩展为/>,对应有M个事件,其对应的多个内部奖励也会同时起效。此时智能体会根据过往的经验与目标奖励权重的大小,决定执行多个目标事件的执行顺序。
步骤202、该电子设备基于各次控制操作对应的执行结果和状态价值,对该初始智能体进行迭代训练,得到针对该目标游戏的智能体。
本步骤中,该电子设备可基于各次控制操作对应的游戏奖励、动作分布概率和状态价值,采用强化学习算法对行为初始智能体的网络参数进行更新,得到适用于目标游戏的智能体。
在一种可能的实现方式中,该初始智能体中包括原子层网络,每次控制操作对应的动作概率分布和状态价值是采用该原子层网络基于事件元组特征和游戏状态特征进行预测得到的;本步骤中,可针对该原子层网络进行迭代优化;相应的,步骤202可包括:该电子设备基于各次控制操作对应的执行结果和状态价值,对该原子层网络的网络参数进行迭代优化,直至符合目标条件时停止迭代,得到该智能体;
其中,该目标条件包括以下至少之一:
该初始智能体在各次控制操作对应的样本游戏事件的事件达成率符合第一收敛条件;
该初始智能体控制游戏角色进行各局游戏对战的胜负率符合第二收敛条件。
示例性的,第一收敛条件可包括但不限于:多次控制操作对应的事件达成率超过指定达成率阈值且趋于稳定。例如,该事件达成率可以是对样本游戏事件的完成程度,例如,样本游戏事件为推塔,若推搭数不少于1个即为达成,则在训练过程中,可每个小时可评估初始智能体完成的样本系事件的达成率,如完成的推搭数,判断是否超过1个,若连续多次均达成100%(也即是均不少于1个),则达成率趋于稳定,表明智能体的控制能力已收敛。
第二收敛条件可包括但不限于:各局游戏对战的胜负率趋于稳定。例如,可每隔两小时,可采用最新训练的初始智能体、两小时之前的初始智能体分别控制不同阵容的游戏角色进行对战,记录最新训练的初始智能体的胜率变化,若胜率保持在一定数值不变化,则确定初始智能体的能力收敛,达到第二收敛条件。
示例性的,可采用强化学习算法,对原子层网络的网络参数进行迭代优化。例如,强化学习算法可基于需要进行配置,例如,强化学习算法包括但不限于:PPO(ProximalPolicy Optimization,近端策略优化)算法、DDPG(Deep Deterministic PolicyGradient,深度确定性策略梯度)算法和A3C(Asynchronous Advantage Actor-Critic,异步的优势行动者评论家)算法等等。
在一种可能的实现方式中,该电子设备可通过执行以下步骤,以训练得到适用于目标游戏的智能体:
该电子设备基于各次控制操作对应的游戏奖励和状态价值,确定各次控制操作对应的游戏动作的优势值;
该电子设备获取初始智能体与参考智能体在各次控制操作对应的动作预测差异;
该电子设备基于各次控制操作对应的游戏动作的优势值、以及动作预测差异,计算各次控制操作对应的损失值,并基于各次控制操作对应的损失值对该初始智能体进行迭代训练,得到该智能体。
示例性的,每次控制操作对应的游戏动作的优势值,表示该游戏动作相对于动作概率分布中各个候选动作的优劣;例如,优势值可采用GAE(Generalized AdvantageEstimation,广义优势估计)算法来获得。
示例性的,参考智能体可以是训练进度最新的最新智能体。一可能场景中,可由初始智能体控制游戏角色进行各次控制操作,每隔一段时间后,可基于过去一段时间的训练数据来对初始智能体进行迭代优化。例如,该初始智能体可以是在当前时刻之前的5分钟的智能体(可称为旧智能体),也即是5分钟之前训练得到的智能体;参考智能体可以是在当前时刻最新训练得到的智能体。对于该初始智能体执行的每次控制操作,可采用最新智能体对该次控制操作重新进行预测,也即是,将该次控制操作对应的事件元组特征和游戏状态特征输入该最新智能体,得到该最新智能体预测的参考动作概率分布。对于在该次控制操作时对应执行的游戏动作,可计算初始智能体所预测的该游戏动作的概率、与参考动作概率分布中该游戏动作的参考概率之间的差异,作为该次控制操作对应的动作预测差异。
本步骤中,该电子设备可基于各次控制操作对应的预测差异与优势值之间的乘积,得到各次控制操作对应的损失值。并基于各次控制操作对应的损失值对原子层的网络参数进行迭代优化,以朝着最大化外部奖励与内部奖励的方向,使得初始智能体在各次控制操作过程中越来越收敛。
示例性的,该电子设备可基于各次控制操作对应的游戏奖励和状态价值,通过以下公式1,确定各次控制操作对应的游戏动作的优势值:
公式1:;
其中,表示优势值;/>表示游戏奖励,也即是执行动作后获得的总奖励,包括事件奖励(包括风格奖励和资源奖励)和状态奖励。/>表示在t+l+1时刻预测的状态价值,包括与游戏状态的外部奖励对应的预估价值、与风格奖励对应的预估价值、与资源奖励对应的预估价值。/>为超参数,用于控制数据的半衰期和方差。表示在t+l时刻预测的状态价值,包括与游戏状态的外部奖励对应的预估价值、与风格奖励对应的预估价值、与资源奖励对应的预估价值。
需要说明的是,一条游戏轨迹中可包括在多次控制操作对应的多个游戏事件;一个时刻可对应一个游戏事件(也即是一次游戏操作),可表示第t个游戏事件的游戏奖励,、/>分别表示在第t个游戏事件之后的第t+l+1时刻、t+l时刻对应的状态价值。也即是,对于一个游戏事件,可考虑从该游戏事件对应的时刻开始的未来各个时刻的相对价值。例如,对于t时刻的游戏事件,优势值包括l=0时第t+1时刻与t时刻之间的相对价值(也即是二者各自的状态价值的差值)、以及l=1、l=2……等未来各个时刻对应的相对价值;以此来衡量第t个游戏事件对应的优势值。
示例性的,该电子设备可基于各次控制操作对应的游戏动作的优势值、以及动作预测差异,通过以下公式2,计算各次控制操作对应的损失值:
公式2:;
其中,;/>表示动作预测差异,为参考智能体(如最新智能体)与初始智能体(如旧智能体)的游戏动作的概率的比值。其中,以一个时刻对应一次控制操作为例,/>表示在t时刻(也即是第t次控制操作)游戏角色的游戏状态特征,/>表示在t时刻事件元组特征,/>表示在t时刻在动作概率分布中选择执行的游戏动作;表示参考智能体(如最新训练得到的智能体)基于/>和/>预测的游戏动作的概率。/>代表旧智能体,/>表示旧智能体基于/>和/>预测的游戏动作/>的概率。
其中,表示对各次控制操作对应的预测差异与优势值之间的乘积求期望值。/>表示GAE值,是根据状态价值与奖励,利用公式1计算出来的优势值,/>为超参数。其中,用于使得/>的范围在[/>]之内,超出则置为/>或者/>,例如,/>可以取值0.1、或0.2等。
需要说明的是,在“”这一项中,通过/>对/>进行双向截断,以使得/>不会过大或过小,这样使得/>更加稳定可靠,进而以保证基于该损失值进行训练的稳定性。
如图9所示,本申请实施例中,设计了基于层级强化学习的技术构思,构建多层目标拆分的高可控性游戏智能体框架。其中,本申请将智能体可构建为包括策略层、战术层和原子层的上、中、下三层的框架结构。上层用于拆分长期策略,以解决游戏对局缺乏多样性的问题;中层用于拆分短期目标事件,将其解析成模型可理解的表征;底层用于执行目标,以解决游戏智能体缺乏可控性的问题。支持如图9所示的保守打法、激进打法、常规打法等任意打法;适用于推塔流、野核流、养猪流等任意阵容;用户可指定打法。其中,在策略层,可提供一系列的多样化的游戏轨迹,如在第0min激进入侵、在第1min保守发育、在第2min保守支援中路、在第4min激进打龙的游戏轨迹;从而提供多样化的游戏玩法。
如图9所示,在策略层将基于游戏轨迹向战术层下发目标事件后,如保守发育,在战术层,可将策略层下发的目标事件,按照<风格;资源>的形式进行拆解,如拆解为<位置,小兵,击杀>,<位置,野怪,击杀>等;并进一步转换生成原子层可理解并执行的事件元组特征,以下发至原子层。在原子层,可面向微操作能力,负责提供操作能力强、可控程度高的智能体。具体可针对移动、普攻、技能、位置、方向、目标等特征进行编码,并融合事件元组特征,预测动作概率分布和价值估计,并执行对应的游戏动作,以得到游戏奖励。
需要说明的是,相关技术中,主要采用强化学习算法,通过自对弈方法产生大量数据,让智能体不断探索并学习使得自身激励最大化的行为,从而学习到智能体认为的最优策略。然而,相关技术中由于端到端训练模型,使用者或者用户无法根据自身意图来改变智能体的策略,即使智能体的行为是不合理的。例如,在某些MOBA类游戏中,若选出了四个辅助一个射手的阵容(养猪流阵容),玩家将会采用“四个辅助围绕保护射手,射手刷多路兵线与野怪迅速发育”的玩法;而智能体将仍然采用探索到的最优策略“如分路对线发育”,最终因智能体无法根据阵容自动调整策略、或使用者无法介入调控智能体而输掉比赛。
相关技术中,由于会采用强化学习的训练方式,让智能体进行自对弈探索奖励最大化的最优策略;然而,在应用场景中,智能体收敛到最优策略后,多局游戏中表现出重复性极高的行为策略,较少受到阵容/打法的影响,不同局之间打法非常雷同,缺乏打法的多样性。例如,在MOBA类游戏中,将多个玩家分成两个敌对阵营,在同一个地图中进行线上对抗、团队配合和资源争夺,通过竞争最终摧毁敌方的“水晶(即,基地)”来赢得比赛。MOBA类游戏的阵容多样,装备组合丰富,玩家战术多样。若想将智能体的调整到更加激进、或更加保守,则需要花费大量的成本来进行重新训练或微调,成本极高。
而本申请中,设计了层级强化学习的技术构思,构建多层目标拆分的高可控性游戏智能体框架。上层(策略层)用于拆分长期策略,以解决游戏对局缺乏多样性的问题;中层(战术层)用于拆分短期目标事件,将其解析成模型可理解的表征;底层(原子层)用于执行目标,以解决游戏智能体缺乏可控性的问题;
本申请实施例提供的智能体训练方法,通过初始智能体,在目标游戏的至少一局游戏中针对游戏角色执行至少一次控制操作,每次控制操用于调控初始智能体基于样本游戏事件控制游戏角色;具体在每次控制操作时,可通过初始智能体,获取游戏角色在该次控制操作对应的目标事件的事件元组特征,并基于该目标事件的事件元组特征以及游戏角色的游戏状态特征,预测动作概率分布和状态价值,基于该动作概率分布控制该游戏角色执行游戏动作;并且,基于各次控制操作对应的执行结果和状态价值,对该初始智能体进行迭代训练,得到智能体。基于此,可在训练阶段,使得智能体能在样本游戏事件的调控下,不断优化学习到游戏竞技能力和完成目标事件的能力,使得训练后的智能体能基于使用者输入事件,控制游戏角色进行高水平的游戏对战,有效提高了智能体的可控性。
并且,在训练阶段,本申请提供了多种方式来生成多条游戏轨迹,以便初始智能体在多次控制操作中进行使用;既包括人类游戏经验得到的游戏轨迹玩法,又可包括游戏专家配置的游戏轨迹,还可包括针对一些特殊的阵容专门配置玩法的游戏轨迹,基于此,极大的丰富了游戏轨迹的多样性,丰富了游戏玩法,以避免由于智能体进行自对弈探索奖励最大化而导致的在多局游戏中表现出“重复性极高的行为策略、较少受到阵容/打法的影响”等情况,解决了缺乏多样性的问题。
并且,本申请仅需在策略层提供丰富玩法的游戏轨迹进行训练即可,无需使用高成本的重新训练或微调等方式,本申请的智能体训练方法的实用性较高。
图10为本申请实施例提供的一种游戏对战方法的流程示意图。该方法的执行主体可以为电子设备,例如该电子设备可以是服务器。如图10所示,该方法包括以下步骤1001-步骤1003。
步骤1001、电子设备在采用智能体控制目标游戏角色进行游戏对战过程中,当接收到针对该目标游戏角色的游戏控制事件,获取该游戏控制事件的事件元组特征;
其中,该游戏控制事件可以是训练后的智能体中的策略层下发的游戏事件,该电子设备可训练后的智能体中的战术层,对该游戏控制事件进行拆解,并进一步获取对应的事件元组特征。需要说明的是,该过程可以参照上述步骤2011的实现方式,此处不再一一赘述。
其中,该游戏控制事件,可以是策略层基于游戏轨迹获得的,或者,也可以是用户实时输入的、用于控制智能体的事件。
一可能场景中,在对目标游戏进行实验或测试场景中,用户可通过智能体来控制游戏角色进行游戏对战,以实验或测试该目标游戏的游戏逻辑、游戏规则等。相应的,则可预先在策略层配置可能的多种游戏轨迹,并通过训练后的智能体基于游戏轨迹向战术层下发对应的游戏控制事件,以使得智能体结合游戏控制事件以及游戏状态,来控制游戏角色的对战过程。
又一可能场景中,在一些球类游戏中,游戏玩家也可使用已训练好的智能体进行游戏。在使用阶段,在使用智能体协助玩家控制游戏角色进行对战过程中,游戏玩家也可实时输入干预智能体行为的游戏事件。相应的,可将游戏玩家实时输入的游戏事件作为该游戏控制事件。
步骤1002、电子设备基于该游戏控制事件的事件元组特征和目标游戏角色的状态特征,通过该智能体预测得到该目标游戏角色的动作概率分布。
其中,该智能体是采用上述步骤201-202的智能体训练方法进行训练得到的;需要说明的是,电子设备可将事件元组特征和状态特征输入训练后的智能体的原子层,通过原子层进行游戏动作预测,得到动作概率分布。
步骤1003、电子设备基于该目标游戏角色的动作概率分布获取待执行动作,并控制该目标游戏角色执行该待执行动作。
本步骤中,该电子设备可基于该动作概率分布,直接获取概率最大的游戏动作,作为该待执行动作;并控制该目标游戏角色执行该概率最大的待执行动作。
本申请实施例提供的游戏对战方法,在接收到针对该目标游戏角色的游戏控制事件时,通过智能体获取该游戏控制事件的事件元组特征;并基于该事件元组特征和目标游戏角色的状态特征,通过该智能体预测得到动作概率分布;以便基于该动作概率分布控制该目标游戏角色执行对应的待执行动作。由于该智能体是通过执行多次控制操作、并基于多次控制操作对应的执行结果和状态价值进行训练得到的,每次控制操作时可被调控基于样本游戏事件控制游戏角色执行游戏动作;使得该智能体能在多次样本游戏事件的调控下学习到游戏竞技能力和完成目标事件的能力,在使用该智能体进行游戏对战过程中,方便使用者随时输入事件对智能体进行调控,进而提高了使用该智能体进行游戏对战的灵活性和可控性。
本申请提供的智能体训练方法、游戏对战方法,涉及人工智能技术、机器学习技术、计算机视觉技术等。
可以理解的是,人工智能(Artificial Intelligence,AI)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能,感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说,人工智能是计算机科学的一个综合技术,它企图了解智能的实质,并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法,使机器具有感知、推理与决策的功能。
人工智能技术是一门综合学科,涉及领域广泛,既有硬件层面的技术也有软件层面的技术。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、预训练模型技术、操作/交互系统、机电一体化等。其中,预训练模型又称大模型、基础模型,经过微调后可以广泛应用于人工智能各大方向下游任务。人工智能软件技术主要包括计算机视觉技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。
随着人工智能技术研究和进步,人工智能技术在多个领域展开研究和应用,例如常见的智能家居、智能穿戴设备、虚拟助理、智能音箱、智能营销、无人驾驶、自动驾驶、无人机、数字孪生、虚拟人、机器人、人工智能生成内容(AIGC)、对话式交互、智能医疗、智能客服、游戏AI等,相信随着技术的发展,人工智能技术将在更多的领域得到应用,并发挥越来越重要的价值。
机器学习(Machine Learning,ML)是一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为,以获取新的知识或技能,重新组织已有的知识结构使之不断改善自身的性能。机器学习是人工智能的核心,是使计算机具有智能的根本途径,其应用遍及人工智能的各个领域。机器学习和深度学习通常包括人工神经网络、置信网络、强化学习、迁移学习、归纳学习、式教学习等技术。预训练模型是深度学习的最新发展成果,融合了以上技术。
计算机视觉技术(Computer Vision,CV)计算机视觉是一门研究如何使机器“看”的科学,更进一步的说,就是指用摄影机和电脑代替人眼对目标进行识别、和测量等机器视觉,并进一步做图形处理,使电脑处理成为更适合人眼观察或传送给仪器检测的图像。作为一个科学学科,计算机视觉研究相关的理论和技术,试图建立能够从图像或者多维数据中获取信息的人工智能系统。大模型技术为计算机视觉技术发展带来重要变革,swin-transformer,ViT,V-MOE,MAE等视觉领域的预训练模型经过微调(fine tune)可以快速、广泛适用于下游具体任务。计算机视觉技术通常包括图像处理、图像识别、图像语义理解、图像检索、OCR、视频处理、视频语义理解、视频内容/行为识别、三维物体重建、3D技术、虚拟现实、增强现实、同步定位与地图构建等技术,还包括常见的人脸识别、指纹识别等生物特征识别技术。
图11为本申请实施例提供的一种智能体训练装置的结构示意图。如图11所示,该装置包括:
第一训练模块1101,用于通过初始智能体,在目标游戏的至少一局游戏中针对游戏角色执行至少一次控制操作,每次控制操作用于调控初始智能体基于样本游戏事件控制游戏角色进行游戏对战;
第二训练模块1102,用于基于各次控制操作对应的执行结果和状态价值,对该初始智能体进行迭代训练,得到针对该目标游戏的智能体;
其中,该第一训练模块1101,在用于执行每次控制操作时,包括:
获取单元11011,用于通过该初始智能体,获取该游戏角色在该控制操作对应的目标事件的事件元组特征,该目标事件是用于调控初始智能体的样本游戏事件;
预测单元11012,用于基于该目标事件的事件元组特征、以及该游戏角色在该控制操作对应的游戏状态特征,预测该游戏角色的动作概率分布和状态价值,该状态价值表征游戏角色的当前游戏状态对应的奖励期望;
动作执行单元11013,用于基于该动作概率分布控制该游戏角色执行游戏动作,得到该游戏角色的执行结果,该执行结果包括对该目标事件的完成程度和对应获得的游戏奖励。
在一个可能实现方式中,该获取单元11011,在获取该游戏角色在该控制操作对应的目标事件的事件元组特征时,包括:
获取子单元,获取该游戏角色在该控制操作对应的目标事件;
拆解子单元,用于对该目标事件进行拆解,得到该目标事件的事件风格和事件资源;
生成子单元,用于基于该目标事件的事件风格和事件资源,生成该目标事件的事件元组特征。
在一个可能实现方式中,该生成子单元,在基于该目标事件的事件风格和事件资源,生成该目标事件的事件元组特征时,用于:
将该事件风格转换为该目标事件的风格特征;
对该事件资源进行拆解,并基于拆解得到的该目标事件的事件位置、事件目标和事件任务,生成该目标事件的资源特征;
对该风格特征和资源特征进行拼接,得到该事件元组特征。
在一个可能实现方式中,该游戏奖励至少包括与该目标事件的完成程度对应的事件奖励;
该动作执行单元11013,在基于该动作概率分布控制该游戏角色执行游戏动作,得到该游戏角色的执行结果时,用于:
基于该动作概率分布采样得到该游戏动作,并控制该游戏角色执行该游戏动作;
当对该游戏动作执行结束时,基于该游戏角色对该目标事件的完成程度,向该游戏角色发放事件奖励。
在一个可能实现方式中,该执行结果还包括执行该游戏动作前后的状态差异,该游戏奖励还包括与该状态差异对应的状态奖励;
该动作执行单元11013,在基于该动作概率分布控制该游戏角色执行游戏动作,得到该游戏角色的执行结果时,还用于:
当对该游戏动作执行结束时,获取该游戏角色执行该游戏动作前后的游戏状态的状态差异,并基于该状态差异向该游戏角色发放状态奖励。
在一个可能实现方式中,该每次控制操作的执行过程,还包括:
轨迹获取单元11011,用于获取针对该游戏角色的游戏轨迹,该游戏轨迹包括按照执行顺序排列的多个样本游戏事件;
该获取单元11011,在获取该游戏角色在该控制操作对应的目标事件的事件元组特征时,用于:
按照该游戏轨迹中各个样本游戏事件的执行顺序,从该游戏轨迹中获取在该控制操作对应的目标事件,并获取该目标事件的事件元组特征。
在一个可能实现方式中,该轨迹获取单元11011,在获取针对该游戏角色的游戏轨迹时,用于以下至少一项:
在执行每次控制操作时,基于该游戏角色在每次控制操作对应的游戏状态,通过事件预测模型,预测该游戏角色对应的事件置信度矩阵,并基于该事件置信度矩阵采样得到游戏事件,将采样得到的游戏事件按照执行顺序添加至该游戏轨迹中;
若该游戏角色的阵容属于目标阵容集合,从该目标阵容集合对应的配置轨迹集合中,获取针对该游戏角色的阵容的已配置游戏轨迹;
从预先构建的事件库中采样得到多个样本游戏事件,基于所采样的多个样本游戏事件生成针对该游戏角色的游戏轨迹。
在一个可能实现方式中,该第二训练模块1102,在基于各次控制操作对应的执行结果和状态价值,对该初始智能体进行迭代训练,得到针对该目标游戏的智能体时,包括:
确定单元,用于基于各次控制操作对应的游戏奖励和状态价值,确定各次控制操作对应的游戏动作的优势值;
差异获取单元11011,用于获取初始智能体与参考智能体在各次控制操作对应的动作预测差异;
损失计算单元,基于各次控制操作对应的游戏动作的优势值、以及动作预测差异,计算各次控制操作对应的损失值;
训练单元,用于基于各次控制操作对应的损失值对该初始智能体进行迭代训练,得到该智能体。
在一个可能实现方式中,该初始智能体中包括原子层网络,每次控制操作对应的动作概率分布和状态价值是采用该原子层网络基于事件元组特征和游戏状态特征进行预测得到的;
该第二训练模块1102,在基于各次控制操作对应的执行结果和状态价值,对该初始智能体进行迭代训练,得到针对该目标游戏的智能体时,用于:
基于各次控制操作对应的执行结果和状态价值,对该原子层网络的网络参数进行迭代优化,直至符合目标条件时停止迭代,得到该智能体;
其中,该目标条件包括以下至少之一:
该初始智能体在各次控制操作对应的样本游戏事件的事件达成率符合第一收敛条件;
该初始智能体控制游戏角色进行各局游戏对战的胜负率符合第二收敛条件。
本申请实施例提供的智能体训练方法,通过初始智能体,在目标游戏的至少一局游戏中针对游戏角色执行至少一次控制操作,每次控制操用于调控初始智能体基于样本游戏事件控制游戏角色;具体在每次控制操作时,可通过初始智能体,获取游戏角色在该次控制操作对应的目标事件的事件元组特征,并基于该目标事件的事件元组特征以及游戏角色的游戏状态特征,预测动作概率分布和状态价值,基于该动作概率分布控制该游戏角色执行游戏动作;并且,基于各次控制操作对应的执行结果和状态价值,对该初始智能体进行迭代训练,得到智能体。基于此,可在训练阶段,使得智能体能在样本游戏事件的调控下,不断优化学习到游戏竞技能力和完成目标事件的能力,使得训练后的智能体能基于使用者输入事件,控制游戏角色进行高水平的游戏对战,有效提高了智能体的可控性。
图12为本申请实施例提供的一种游戏对战装置的结构示意图。如图12所示,该装置包括:
获取模块1201,用于在采用智能体控制目标游戏角色进行游戏对战过程中,当接收到针对该目标游戏角色的游戏控制事件,获取该游戏控制事件的事件元组特征;
预测模块1202,用于基于该游戏控制事件的事件元组特征和目标游戏角色的状态特征,通过该智能体预测得到该目标游戏角色的动作概率分布,该智能体是采用上述任一项该的智能体训练方法进行训练得到的;
执行模块1203,用于基于该目标游戏角色的动作概率分布获取待执行动作,并控制该目标游戏角色执行该待执行动作。
本申请实施例提供的游戏对战方法,在接收到针对该目标游戏角色的游戏控制事件时,通过智能体获取该游戏控制事件的事件元组特征;并基于该事件元组特征和目标游戏角色的状态特征,通过该智能体预测得到动作概率分布;以便基于该动作概率分布控制该目标游戏角色执行对应的待执行动作。由于该智能体是通过执行多次控制操作、并基于多次控制操作对应的执行结果和状态价值进行训练得到的,每次控制操作时可被调控基于样本游戏事件控制游戏角色执行游戏动作;使得该智能体能在多次样本游戏事件的调控下学习到游戏竞技能力和完成目标事件的能力,在使用该智能体进行游戏对战过程中,方便使用者随时输入事件对智能体进行调控,进而提高了使用该智能体进行游戏对战的灵活性和可控性。
本申请实施例的装置可执行本申请实施例所提供的方法,其实现原理相类似,本申请各实施例的装置中的各模块所执行的动作是与本申请各实施例的方法中的步骤相对应的,对于装置的各模块的详细功能描述具体可以参见前文中所示的对应方法中的描述,此处不再赘述。
图13是本申请实施例中提供了一种电子设备的结构示意图。如图13所示,该电子设备包括:存储器、处理器及存储在存储器上的计算机程序,该处理器执行上述计算机程序以实现智能体训练方法、游戏对战方法的步骤,与相关技术相比可实现:
本申请实施例提供的智能体训练方法,通过初始智能体,在目标游戏的至少一局游戏中针对游戏角色执行至少一次控制操作,每次控制操用于调控初始智能体基于样本游戏事件控制游戏角色;具体在每次控制操作时,可通过初始智能体,获取游戏角色在该次控制操作对应的目标事件的事件元组特征,并基于该目标事件的事件元组特征以及游戏角色的游戏状态特征,预测动作概率分布和状态价值,基于该动作概率分布控制该游戏角色执行游戏动作;并且,基于各次控制操作对应的执行结果和状态价值,对该初始智能体进行迭代训练,得到智能体。基于此,可在训练阶段,使得智能体能在样本游戏事件的调控下,不断优化学习到游戏竞技能力和完成目标事件的能力,使得训练后的智能体能基于使用者输入事件,控制游戏角色进行高水平的游戏对战,有效提高了智能体的可控性。
本申请实施例提供的游戏对战方法,在接收到针对该目标游戏角色的游戏控制事件时,通过智能体获取该游戏控制事件的事件元组特征;并基于该事件元组特征和目标游戏角色的状态特征,通过该智能体预测得到动作概率分布;以便基于该动作概率分布控制该目标游戏角色执行对应的待执行动作。由于该智能体是通过执行多次控制操作、并基于多次控制操作对应的执行结果和状态价值进行训练得到的,每次控制操作时可被调控基于样本游戏事件控制游戏角色执行游戏动作;使得该智能体能在多次样本游戏事件的调控下学习到游戏竞技能力和完成目标事件的能力,在使用该智能体进行游戏对战过程中,方便使用者随时输入事件对智能体进行调控,进而提高了使用该智能体进行游戏对战的灵活性和可控性。
在一个可选实施例中提供了一种电子设备,如图13所示,图13所示的电子设备1300包括:处理器1301和存储器1303。其中,处理器1301和存储器1303相连,如通过总线1302相连。可选地,电子设备1300还可以包括收发器1304,收发器1304可以用于该电子设备与其他电子设备之间的数据交互,如数据的发送和/或数据的接收等。需要说明的是,实际应用中收发器1304不限于一个,该电子设备1300的结构并不构成对本申请实施例的限定。
处理器1301可以是CPU(Central Processing Unit,中央处理器),通用处理器,DSP(Digital Signal Processor,数据信号处理器),ASIC(Application SpecificIntegrated Circuit,专用集成电路),FPGA(Field Programmable Gate Array,现场可编程门阵列)或者其他可编程逻辑器件、晶体管逻辑器件、硬件部件或者其任意组合。其可以实现或执行结合本申请公开内容所描述的各种示例性的逻辑方框,模块和电路。处理器1301也可以是实现计算功能的组合,例如包含一个或多个微处理器组合,DSP和微处理器的组合等。
总线1302可包括一通路,在上述组件之间传送信息。总线1302可以是PCI(Peripheral Component Interconnect,外设部件互连标准)总线或EISA(ExtendedIndustry Standard Architecture,扩展工业标准结构)总线等。总线1302可以分为地址总线、数据总线、控制总线等。为便于表示,图13中仅用一条粗线表示,但并不表示仅有一根总线或一种类型的总线。
存储器1303可以是ROM(Read Only Memory,只读存储器)或可存储静态信息和指令的其他类型的静态存储设备,RAM(Random Access Memory,随机存取存储器)或者可存储信息和指令的其他类型的动态存储设备,也可以是EEPROM(Electrically ErasableProgrammable Read Only Memory,电可擦可编程只读存储器)、CD-ROM(Compact DiscRead Only Memory,只读光盘)或其他光盘存储、光碟存储(包括压缩光碟、激光碟、光碟、数字通用光碟、蓝光光碟等)、磁盘存储介质\其他磁存储设备、或者能够用于携带或存储计算机程序并能够由计算机读取的任何其他介质,在此不做限定。
存储器1303用于存储执行本申请实施例的计算机程序,并由处理器1301来控制执行。处理器1301用于执行存储器1303中存储的计算机程序,以实现前述方法实施例所示的步骤。
其中,电子设备包括但不限于:服务器、终端或云计算中心设备等。
本申请实施例提供了一种计算机可读存储介质,该计算机可读存储介质上存储有计算机程序,计算机程序被处理器执行时可实现前述方法实施例的步骤及相应内容。
本申请实施例还提供了一种计算机程序产品,包括计算机程序,计算机程序被处理器执行时可实现前述方法实施例的步骤及相应内容。
本申请实施例中,术语“模块”或“单元”是指有预定功能的计算机程序或计算机程序的一部分,并与其他相关部分一起工作以实现预定目标,并且可以通过使用软件、硬件(如处理电路或存储器)或其组合来全部或部分实现。同样的,一个处理器(或多个处理器或存储器)可以用来实现一个或多个模块或单元。此外,每个模块或单元都可以是包含该模块或单元功能的整体模块或单元的一部分。
本技术领域技术人员可以理解,除非特意声明,这里使用的单数形式 “一”、“一个”、“该”和“该”也可包括复数形式。本申请实施例所使用的术语“包括”以及“包含”是指相应特征可以实现为所呈现的特征、信息、数据、步骤、操作,但不排除实现为本技术领域所支持其他特征、信息、数据、步骤、操作等。
本申请的说明书和权利要求书及上述附图中的术语“第一”、“第二”、“第三”、“第四”、“1”、“2”等(如果存在)是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本申请的实施例能够以除图示或文字描述以外的顺序实施。
应该理解的是,虽然本申请实施例的流程图中通过箭头指示各个操作步骤,但是这些步骤的实施顺序并不受限于箭头所指示的顺序。除非本文中有明确的说明,否则在本申请实施例的一些实施场景中,各流程图中的实施步骤可以按照需求以其他的顺序执行。此外,各流程图中的部分或全部步骤基于实际的实施场景,可以包括多个子步骤或者多个阶段。这些子步骤或者阶段中的部分或全部可以在同一时刻被执行,这些子步骤或者阶段中的每个子步骤或者阶段也可以分别在不同的时刻被执行。在执行时刻不同的场景下,这些子步骤或者阶段的执行顺序可以根据需求灵活配置,本申请实施例对此不限制。
以上该仅是本申请部分实施场景的可选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本申请的方案技术构思的前提下,采用基于本申请技术思想的其他类似实施手段,同样属于本申请实施例的保护范畴。
Claims (15)
1.一种智能体训练方法,其特征在于,所述方法包括:
通过初始智能体,在目标游戏的至少一局游戏中针对游戏角色执行至少一次控制操作,每次控制操作用于调控初始智能体基于样本游戏事件控制游戏角色进行游戏对战;
基于各次控制操作对应的执行结果和状态价值,对所述初始智能体进行迭代训练,得到针对所述目标游戏的智能体;
其中,所述每次控制操作的执行过程,包括:
通过所述初始智能体,获取所述游戏角色在所述控制操作对应的目标事件的事件元组特征,所述目标事件是用于调控初始智能体的样本游戏事件;所述事件元组特征表征目标事件在事件风格和事件资源的维度对应的特征;
基于所述目标事件的事件元组特征、以及所述游戏角色在所述控制操作对应的游戏状态特征,预测所述游戏角色的动作概率分布和状态价值,所述状态价值表征游戏角色的当前游戏状态对应的奖励期望;所述游戏状态特征是基于所述游戏角色的当前游戏状态进行特征提取得到的;
基于所述动作概率分布控制所述游戏角色执行游戏动作,得到所述游戏角色的执行结果,所述执行结果包括对所述目标事件的完成程度和对应获得的游戏奖励。
2.根据权利要求1所述的方法,其特征在于,所述获取所述游戏角色在所述控制操作对应的目标事件的事件元组特征,包括:
获取所述游戏角色在所述控制操作对应的目标事件;
对所述目标事件进行拆解,得到所述目标事件的事件风格和事件资源;
基于所述目标事件的事件风格和事件资源,生成所述目标事件的事件元组特征。
3.根据权利要求2所述的方法,其特征在于,所述基于所述目标事件的事件风格和事件资源,生成所述目标事件的事件元组特征,包括:
将所述事件风格转换为所述目标事件的风格特征;
对所述事件资源进行拆解,并基于拆解得到的所述目标事件的事件位置、事件目标和事件任务,生成所述目标事件的资源特征;
对所述风格特征和资源特征进行拼接,得到所述事件元组特征。
4.根据权利要求2所述的方法,其特征在于,所述游戏奖励至少包括与所述目标事件的完成程度对应的事件奖励;
所述基于所述动作概率分布控制所述游戏角色执行游戏动作,得到所述游戏角色的执行结果,包括:
基于所述动作概率分布采样得到所述游戏动作,并控制所述游戏角色执行所述游戏动作;
当对所述游戏动作执行结束时,基于所述游戏角色对所述目标事件的完成程度,向所述游戏角色发放事件奖励。
5.根据权利要求4所述的方法,其特征在于,所述执行结果还包括执行所述游戏动作前后的状态差异,所述游戏奖励还包括与所述状态差异对应的状态奖励;
所述方法还包括:
当对所述游戏动作执行结束时,获取所述游戏角色执行所述游戏动作前后的游戏状态的状态差异,并基于所述状态差异向所述游戏角色发放状态奖励。
6.根据权利要求1所述的方法,其特征在于,所述每次控制操作的执行过程,还包括:
获取针对所述游戏角色的游戏轨迹,所述游戏轨迹包括按照执行顺序排列的多个样本游戏事件;
所述获取所述游戏角色在所述控制操作对应的目标事件的事件元组特征,包括:
按照所述游戏轨迹中各个样本游戏事件的执行顺序,从所述游戏轨迹中获取在所述控制操作对应的目标事件,并获取所述目标事件的事件元组特征。
7.根据权利要求6所述的方法,其特征在于,所述获取针对所述游戏角色的游戏轨迹,包括以下至少一项:
在执行每次控制操作时,基于所述游戏角色在每次控制操作对应的游戏状态,通过事件预测模型,预测所述游戏角色对应的事件置信度矩阵,并基于所述事件置信度矩阵采样得到游戏事件,将采样得到的游戏事件按照执行顺序添加至所述游戏轨迹中;
若所述游戏角色的阵容属于目标阵容集合,从所述目标阵容集合对应的配置轨迹集合中,获取针对所述游戏角色的阵容的已配置游戏轨迹;
从预先构建的事件库中采样得到多个样本游戏事件,基于所采样的多个样本游戏事件生成针对所述游戏角色的游戏轨迹。
8.根据权利要求1-7中任一项所述的方法,其特征在于,所述基于各次控制操作对应的执行结果和状态价值,对所述初始智能体进行迭代训练,得到针对所述目标游戏的智能体,包括:
基于各次控制操作对应的游戏奖励和状态价值,确定各次控制操作对应的游戏动作的优势值;
获取初始智能体与参考智能体在各次控制操作对应的动作预测差异;
基于各次控制操作对应的游戏动作的优势值、以及动作预测差异,计算各次控制操作对应的损失值,并基于各次控制操作对应的损失值对所述初始智能体进行迭代训练,得到所述智能体。
9.根据权利要求1-7中任一项所述的方法,其特征在于,所述初始智能体中包括原子层网络,每次控制操作对应的动作概率分布和状态价值是采用所述原子层网络基于事件元组特征和游戏状态特征进行预测得到的;
所述基于各次控制操作对应的执行结果和状态价值,对所述初始智能体进行迭代训练,得到针对所述目标游戏的智能体,包括:
基于各次控制操作对应的执行结果和状态价值,对所述原子层网络的网络参数进行迭代优化,直至符合目标条件时停止迭代,得到所述智能体;
其中,所述目标条件包括以下至少之一:
所述初始智能体在各次控制操作对应的样本游戏事件的事件达成率符合第一收敛条件;
所述初始智能体控制游戏角色进行各局游戏对战的胜负率符合第二收敛条件。
10.一种游戏对战方法,其特征在于,所述方法包括:
在采用智能体控制目标游戏角色进行游戏对战过程中,当接收到针对所述目标游戏角色的游戏控制事件,获取所述游戏控制事件的事件元组特征;
基于所述游戏控制事件的事件元组特征和目标游戏角色的状态特征,通过所述智能体预测得到所述目标游戏角色的动作概率分布,所述智能体是采用权利要求1-9中任一项所述的智能体训练方法进行训练得到的;
基于所述目标游戏角色的动作概率分布获取待执行动作,并控制所述目标游戏角色执行所述待执行动作。
11.一种智能体训练装置,其特征在于,所述装置包括:
第一训练模块,用于通过初始智能体,在目标游戏的至少一局游戏中针对游戏角色执行至少一次控制操作,每次控制操作用于调控初始智能体基于样本游戏事件控制游戏角色进行游戏对战;
第二训练模块,用于基于各次控制操作对应的执行结果和状态价值,对所述初始智能体进行迭代训练,得到针对所述目标游戏的智能体;
其中,所述第一训练模块,在用于执行每次控制操作时,包括:
获取单元,用于通过所述初始智能体,获取所述游戏角色在所述控制操作对应的目标事件的事件元组特征,所述目标事件是用于调控初始智能体的样本游戏事件;所述事件元组特征表征目标事件在事件风格和事件资源的维度对应的特征;
预测单元,用于基于所述目标事件的事件元组特征、以及所述游戏角色在所述控制操作对应的游戏状态特征,预测所述游戏角色的动作概率分布和状态价值,所述状态价值表征游戏角色的当前游戏状态对应的奖励期望;所述游戏状态特征是基于所述游戏角色的当前游戏状态进行特征提取得到的;
动作执行单元,用于基于所述动作概率分布控制所述游戏角色执行游戏动作,得到所述游戏角色的执行结果,所述执行结果包括对所述目标事件的完成程度和对应获得的游戏奖励。
12.一种游戏对战装置,其特征在于,所述装置包括:
获取模块,用于在采用智能体控制目标游戏角色进行游戏对战过程中,当接收到针对所述目标游戏角色的游戏控制事件,获取所述游戏控制事件的事件元组特征;
预测模块,用于基于所述游戏控制事件的事件元组特征和目标游戏角色的状态特征,通过所述智能体预测得到所述目标游戏角色的动作概率分布,所述智能体是采用权利要求1-9中任一项所述的智能体训练方法进行训练得到的;
执行模块,用于基于所述目标游戏角色的动作概率分布获取待执行动作,并控制所述目标游戏角色执行所述待执行动作。
13.一种电子设备,包括存储器、处理器及存储在存储器上的计算机程序,其特征在于,所述处理器执行所述计算机程序以实现权利要求1至10中任一项所述的方法。
14.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1至10中任一项所述的方法。
15.一种计算机程序产品,包括计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1至10中任一项所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202410293574.6A CN117883788B (zh) | 2024-03-14 | 2024-03-14 | 智能体训练方法、游戏对战方法、装置及电子设备 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202410293574.6A CN117883788B (zh) | 2024-03-14 | 2024-03-14 | 智能体训练方法、游戏对战方法、装置及电子设备 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN117883788A CN117883788A (zh) | 2024-04-16 |
CN117883788B true CN117883788B (zh) | 2024-06-04 |
Family
ID=90639751
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202410293574.6A Active CN117883788B (zh) | 2024-03-14 | 2024-03-14 | 智能体训练方法、游戏对战方法、装置及电子设备 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN117883788B (zh) |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112221152A (zh) * | 2020-10-27 | 2021-01-15 | 腾讯科技(深圳)有限公司 | 人工智能ai模型的训练方法、装置、设备及介质 |
CN113996063A (zh) * | 2021-10-29 | 2022-02-01 | 北京市商汤科技开发有限公司 | 游戏中虚拟角色的控制方法、装置及计算机设备 |
CN116747521A (zh) * | 2023-08-17 | 2023-09-15 | 腾讯科技(深圳)有限公司 | 控制智能体进行对局的方法、装置、设备及存储介质 |
CN116943220A (zh) * | 2023-04-14 | 2023-10-27 | 深圳市腾讯网络信息技术有限公司 | 一种游戏人工智能控制方法、装置、设备及存储介质 |
CN117555683A (zh) * | 2023-11-20 | 2024-02-13 | 陕西师范大学 | 基于深度强化学习的云集群资源调度方法 |
Family Cites Families (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2022072921A1 (en) * | 2020-10-04 | 2022-04-07 | Strong Force Iot Portfolio 2016, Llc | Industrial digital twin systems and methods with echelons of executive, advisory and operations messaging and visualization |
CN114917586A (zh) * | 2022-06-01 | 2022-08-19 | 北京字跳网络技术有限公司 | 模型的训练方法、对象的控制方法、装置、介质及设备 |
-
2024
- 2024-03-14 CN CN202410293574.6A patent/CN117883788B/zh active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112221152A (zh) * | 2020-10-27 | 2021-01-15 | 腾讯科技(深圳)有限公司 | 人工智能ai模型的训练方法、装置、设备及介质 |
CN113996063A (zh) * | 2021-10-29 | 2022-02-01 | 北京市商汤科技开发有限公司 | 游戏中虚拟角色的控制方法、装置及计算机设备 |
CN116943220A (zh) * | 2023-04-14 | 2023-10-27 | 深圳市腾讯网络信息技术有限公司 | 一种游戏人工智能控制方法、装置、设备及存储介质 |
CN116747521A (zh) * | 2023-08-17 | 2023-09-15 | 腾讯科技(深圳)有限公司 | 控制智能体进行对局的方法、装置、设备及存储介质 |
CN117555683A (zh) * | 2023-11-20 | 2024-02-13 | 陕西师范大学 | 基于深度强化学习的云集群资源调度方法 |
Also Published As
Publication number | Publication date |
---|---|
CN117883788A (zh) | 2024-04-16 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Ye et al. | Towards playing full moba games with deep reinforcement learning | |
CN111282267B (zh) | 信息处理方法、装置、介质及电子设备 | |
Torrado et al. | Deep reinforcement learning for general video game ai | |
CN110404264B (zh) | 一种基于虚拟自我对局的多人非完备信息博弈策略求解方法、装置、系统及存储介质 | |
CN111111220B (zh) | 多人对战游戏的自对弈模型训练方法、装置和计算机设备 | |
CN111111204B (zh) | 交互模型训练方法、装置、计算机设备和存储介质 | |
CN112791394B (zh) | 游戏模型训练方法、装置、电子设备及存储介质 | |
CN109847367A (zh) | 一种游戏胜率的预测方法、模型生成方法和装置 | |
US20200324206A1 (en) | Method and system for assisting game-play of a user using artificial intelligence (ai) | |
CN111738294B (zh) | Ai模型的训练方法、使用方法、计算机设备及存储介质 | |
Chen et al. | Which heroes to pick? learning to draft in moba games with neural networks and tree search | |
Yang et al. | Perfectdou: Dominating doudizhu with perfect information distillation | |
CN111589120B (zh) | 目标物控制方法、计算机设备及计算机可读存储介质 | |
CN112402986B (zh) | 一种对战游戏中强化学习模型的训练方法及装置 | |
CN116747521B (zh) | 控制智能体进行对局的方法、装置、设备及存储介质 | |
CN111701240B (zh) | 虚拟物品的提示方法、装置、存储介质和电子装置 | |
Tang et al. | A review of computational intelligence for StarCraft AI | |
CN116956007A (zh) | 人工智能模型的预训练方法、装置、设备及存储介质 | |
CN116943220A (zh) | 一种游戏人工智能控制方法、装置、设备及存储介质 | |
Dockhorn et al. | A decision heuristic for Monte Carlo tree search doppelkopf agents | |
CN117883788B (zh) | 智能体训练方法、游戏对战方法、装置及电子设备 | |
CN114404976B (zh) | 决策模型的训练方法、装置、计算机设备及存储介质 | |
Ouessai et al. | Online Adversarial Planning in μRTS: A Survey | |
CN117018635A (zh) | 数据处理方法、装置、电子设备以及存储介质 | |
Goulart et al. | Learning how to play bomberman with deep reinforcement and imitation learning |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |