CN116747521B

CN116747521B - 控制智能体进行对局的方法、装置、设备及存储介质

Info

Publication number: CN116747521B
Application number: CN202311039495.4A
Authority: CN
Inventors: 文荟俨; 徐增壮; 刘戈; 杨阳; 刘一锋; 林上奥; 邱福浩; 付强
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2023-08-17
Filing date: 2023-08-17
Publication date: 2023-11-03
Anticipated expiration: 2043-08-17
Also published as: CN116747521A

Abstract

本申请公开了一种控制智能体进行对局的方法、装置、设备及存储介质，涉及AI技术领域，该方法根据每个目标智能体的对局风格来针对性的进行控制，且在对局过程中，采用了分层控制的方式，周期性的基于每个目标智能体的对局风格以及实时游戏状态，来确定下一周期的阶段性任务，并基于该阶段性任务来控制目标智能体的对局动作，从而智能体能够不断的根据对局情况来调整当前的对战策略以及行为，避免了单一策略应对整局所带来的无法满足游戏需求的问题，同时实时策略的调整，使得目标智能体在虚拟对局时的性能更佳，更好的适应真实玩家的不同风格，为真实玩家提供了更加丰富和具有挑战性的游戏对局体验，避免浪费游戏运行资源。

Description

控制智能体进行对局的方法、装置、设备及存储介质

技术领域

本申请涉及计算机技术领域，尤其涉及人工智能（Artificial Intelligence，AI）领域，提供一种控制智能体进行对局的方法、装置、设备及存储介质。

背景技术

随着网络技术的发展，游戏逐渐成为了日常娱乐的常见方式，且目前涉及到的游戏种类众多，例如，第一人称射击（First-person shooting，FPS）类游戏、第三人称射击游戏（Third-Personal Shooting，TPS）或者多人在线战斗竞技场游戏（Multiplayer OnlineBattle Arena，MOBA）等，给日常生活带来更多的趣味性。

目前，在很多游戏中经常添加一些智能体，或称之为AI角色，用于陪伴玩家角色完成游戏对局。通常而言，为了使得智能体能够顺利的完成游戏对局，需要通过机器学习的方式使得智能体具备完成游戏对局的能力。

相关技术下，通常采用强化学习方式，对游戏中的智能体进行能力训练。

然而，目前的强化学习框架下，训练后的智能体倾向于采用单一的对局策略，这样，在实际对战中，当面对不同实战风格的真实玩家时，智能体难以适应，很容易被真实玩家采用极端策略进行应对。

显然，采用上述方式训练的智能体，不能满足各游戏玩家真实的游戏需求，对于低端玩家，智能体的低能力无法达到基础训练的目的，而对于高端玩家，智能体更是远远无法满足其进行实战训练的需求，因而目前的智能体在游戏中的存在既无法满足真实玩家的需求，又占用了游戏运行资源。

因此，如何提升智能体的性能，已成为亟待解决的问题。

发明内容

本申请实施例提供一种控制智能体进行对局的方法、装置、设备及存储介质，用于提升游戏中智能体的性能，从而满足游戏玩家的真实游戏需求。

一方面，提供一种控制智能体进行对局的方法，该方法包括：

在虚拟对局场景中加载至少一个目标智能体，每个目标智能体关联有相应的对局风格，每个所述对局风格表征：相应目标智能体完成所述虚拟对局场景的对局任务时的策略倾向；

调用所述至少一个目标智能体进行对局，直到对局完毕为止；其中，在对局过程中，分别针对所述至少一个目标智能体，周期性执行以下操作：

基于一个目标智能体的对局风格、实时对局状态信息和在所述虚拟对局场景中的实时位置信息，获得所述目标智能体为完成所述对局任务，在下一周期中的阶段性任务；

针对所述下一周期中的各个游戏帧，分别基于所述阶段性任务，确定所述目标智能体在所述各个游戏帧中的对局动作，并控制所述目标智能体完成所述对局动作。

一方面，提供一种控制智能体进行对局的装置，所述装置包括：

对局加载单元，用于在虚拟对局场景中加载至少一个目标智能体，每个目标智能体关联有相应的对局风格，每个所述对局风格表征：相应目标智能体完成所述虚拟对局场景的对局任务时的策略倾向；

对局控制单元，用于调用所述至少一个目标智能体进行对局，直到对局完毕为止；其中，在对局过程中，分别针对所述至少一个目标智能体，通过如下子单元周期性执行以下操作：

上层策略子单元，用于基于一个目标智能体的对局风格、实时对局状态信息和在所述虚拟对局场景中的实时位置信息，获得所述目标智能体为完成所述对局任务，在下一周期中的阶段性任务；

下层微操子单元，用于针对所述下一周期中的各个游戏帧，分别基于所述阶段性任务，确定所述目标智能体在所述各个游戏帧中的对局动作，并控制所述目标智能体完成所述对局动作。

一方面，提供一种计算机设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现上述任一种方法的步骤。

一方面，提供一种计算机存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现上述任一种方法的步骤。

一方面，提供一种计算机程序产品，该计算机程序产品包括计算机程序，该计算机程序存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机程序，处理器执行该计算机程序，使得该计算机设备执行上述任一种方法的步骤。

本申请实施例中，在虚拟对局场景中加载的每个目标智能体，都会关联有自身对应的对局风格，不同的对局风格表征了目标智能体在完成对局任务时的策略倾向，进而，后续在进行对局的过程中，需要根据每个目标智能体的对局风格结合其他信息来针对性的进行控制，这样一来，对于每个目标智能体而言，都具备类似于真实玩家的打法风格，从而在实际对局中能够提供更多的策略可能性。

此外，在对局过程中，本申请实施例针对目标智能体的控制采用了分层控制的方式，具体而言，会周期性的基于每个目标智能体的对局风格以及实时游戏状态，来确定下一周期的阶段性目标，并基于该阶段性目标来控制目标智能体的对局动作，从而智能体能够不断的根据对局情况来调整当前的对战策略以及行为，避免了相关技术中单一策略应对整局所带来的无法满足游戏需求的问题，同时实时策略的调整，使得目标智能体在虚拟对局时的性能更佳，更好的适应真实玩家的不同风格，为真实玩家提供了更加丰富和具有挑战性的游戏对局体验，以满足真实玩家进行实战训练的需求，避免浪费游戏运行资源。

附图说明

为了更清楚地说明本申请实施例或相关技术中的技术方案，下面将对实施例或相关技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据提供的附图获得其他的附图。

图1为本申请实施例提供的应用场景示意图；

图2为本申请实施例提供的目标策略模型的训练流程示意图；

图3A和图3B为本申请实施例提供的任务执行结果的逻辑示意图；

图4为本申请实施例提供的分层强化学习的架构示意图；

图5为本申请实施例提供的目标策略模型的另一训练流程示意图；

图6为本申请实施例提供的样本对局数据包括的数据示例图；

图7为本申请实施例提供的目标策略模型的又一训练流程示意图；

图8为本申请实施例提供的训练流程示例图；

图9A为本申请实施例提供的地图graph生成过程的流程示意图；

图9B为本申请实施例提供的生成的路径结构mesh的局部放大示意图；

图9C为本申请实施例提供的最终生成的地图graph的局部放大图

图10为本申请实施例提供的控制智能体进行对局的方法的流程示意图；

图11为本申请实施例提供的智能体开局轨迹序列的示意图；

图12为本申请实施例提供的策略生成器的网络结构示意图；

图13为本申请实施例提供的下层网络结构示意图；

图14为本申请实施例提供的控制智能体进行对局的装置的一种结构示意图；

图15为本申请实施例提供的计算机设备的组成结构示意图；

图16为应用本申请实施例的另一种计算机设备的组成结构示意图。

实施方式

为使本申请的目的、技术方案和优点更加清楚明白，下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。在不冲突的情况下，本申请中的实施例及实施例中的特征可以相互任意组合。并且，虽然在流程图中示出了逻辑顺序，但是在某些情况下，可以以不同于此处的顺序执行所示出或描述的步骤。

可以理解的是，在本申请的下述具体实施方式中，涉及到游戏玩家相关的数据，当本申请的各实施例运用到具体产品或技术中时，需要获得相关许可或者同意，且相关数据的收集、使用和处理需要遵守相关国家和地区的相关法律法规和标准。

为便于理解本申请实施例提供的技术方案，这里先对本申请实施例使用的一些关键名词进行解释：

强化学习：又称再励学习、评价学习或增强学习，是机器学习的范式和方法论之一，用于描述和解决智能体（agent）在与环境的交互过程中通过学习策略以达成回报最大化或实现特定目标的问题。不同于监督学习和非监督学习，强化学习不要求预先给定任何数据，而是通过接收环境对动作的奖励（反馈）获得学习信息并更新模型参数。

具体来讲，强化学习是智能体以“试错”的方式进行学习，通过与环境进行交互获得的奖赏指导行为，目标是使智能体获得最大的奖赏，强化学习不同于连接主义学习中的监督学习，主要表现在强化信号上，强化学习中由环境提供的强化信号是对产生动作的好坏作一种评价，由于外部环境提供的信息很少，RLS必须靠自身的经历进行学习。通过这种方式，RLS在行动-评价的环境中获得知识，改进行动方案以适应环境。其基本原理是：

如果Agent的某个行为策略导致环境正的奖赏（强化信号），那么Agent以后产生这个行为策略的趋势便会加强，Agent的目标是在每个离散状态发现最优策略以使期望的折扣奖赏和最大。强化学习的目标是动态地调整参数，以达到强化信号最大。

虚拟角色：是指虚拟对局场景中可被控制用于完成虚拟对局场景相关过程的角色，以虚拟对局场景为游戏对应的游戏场景为例，则虚拟角色是指可唯一确定一个游戏对象的对象，一个游戏账号下可以创建多个虚拟角色，当然，除了正式玩家账号中创建的虚拟角色之外，本申请实施例还涉及到辅助完成游戏对局的AI角色。在一些游戏客户端中，需要创建虚拟角色在虚拟对局场景中进行游戏对局，则该虚拟角色可以是指在虚拟对局场景中的可活动对象。该可活动对象可以是虚拟人物、虚拟动物、动漫人物中的至少一种。可选地，当虚拟对局场景为三维虚拟对局场景时，虚拟角色可以是基于动画骨骼技术创建的三维立体模型。每个虚拟角色在三维虚拟对局场景中具有自身的形状和体积，占据三维虚拟对局场景中的一部分空间。而在一些游戏客户端中，游戏玩家可创建虚拟角色，该虚拟角色并不存在可视的实体对象，而是可以通过在游戏对局中选择可操作的游戏英雄作为在虚拟对局场景中的可活动对象完成本次游戏对局，则该虚拟角色也可作为本申请实施例的虚拟角色。

智能体：或称为AI角色，AI是开发用于模拟和扩展人的智能和方法，在游戏中实现角色模拟真实玩家的技术，即AI角色除了不由真实玩家控制之外，其在虚拟对局场景中的行为是模拟真实玩家的虚拟角色来实现的。

虚拟对局：或称虚拟对战，例如游戏中的游戏对局，是指在虚拟对局场景中，至少两个虚拟角色进行对战的游戏模式，可选地，该游戏对局是至少两个虚拟角色进行对战的单局对战模式。

在一种可能的实施方式中，每次游戏对局可以对应一个对战时长/对战人数，当游戏对局对应对战时长时，存活时长达到该对战时长的虚拟角色获得胜利；当虚拟道具对战对应对战人数时，最后一个或一组存活的虚拟角色获得胜利。可选地，该虚拟对战可以是单人匹配模式的游戏对局（即虚拟对战中的虚拟角色都是单人作战）、双人匹配模式的游戏对局（即虚拟对战中的虚拟角色可以是两人组队作战也可以是单人作战）或者四人匹配模式（即虚拟对战中最多可以由四个虚拟角色进行组队进行作战）的游戏对局，其中，当匹配模式为双人匹配模式或四人匹配模式时，第一虚拟角色可以与具有好友关系的第二虚拟角色进行匹配，也可以与不具有好友关系的第三虚拟角色进行匹配。

在一种可能的实施方式中，每局游戏对局对应至少两个阵营，不同阵营的虚拟角色之间相互为敌对关系，每个阵营对应各自的阵营场地，当各阵营的阵营场地被全部占领（如阵营的水晶被攻破）则该阵营的虚拟角色在本次游戏对局中失败。在虚拟对局场景中，被分配到不同阵营或者不同团队的虚拟角色，例如针对一个虚拟角色A（可以为真实玩家的虚拟角色，也可以是AI角色），其属于团队1，而另一个虚拟角色B属于团队2，则虚拟角色A和B互为二者的敌对角色。

虚拟对局场景：是虚拟角色所处于的虚拟对局场景，同样以游戏为例，则虚拟对局场景是一种提供游戏对局所需的虚拟环境，即游戏客户端在终端设备上运行时显示（或提供）的虚拟环境，该虚拟环境可以是对真实世界的仿真环境，也可以是半仿真半虚构的三维环境，还可以是纯虚构的三维环境，例如可以是二维虚拟对局场景、2.5维虚拟对局场景和三维虚拟对局场景中的任意一种，下述实施例以虚拟环境是三维虚拟对局场景来举例说明，但对此不加以限定。可选地，该虚拟环境还用于至少两个虚拟角色之间的虚拟对局场景对战。可选地，该虚拟环境还用于至少两个虚拟角色之间使用游戏道具进行对战。可选地，该虚拟环境还用于在目标区域范围内，至少两个虚拟角色之间使用游戏道具进行对战，该目标区域范围会随虚拟环境中的时间推移而不断变小。

对局风格：是指在进行虚拟对局时呈现出的策略风格，表达了当需要进行决策时，针对所需决策的可选项的倾向性，对应于游戏中，则呈现出对于游戏打法的一种风格表现。示例的，对于游戏中存在多种分路选择时，则一个游戏角色的对局风格的表现即为该游戏角色倾向走哪个分路，或者，当游戏中需要从出生点前往目标点执行任务时，则游戏角色的对局风格的表现即为该游戏角色的开局路径选择，当然，除了这些表现之外，还可以包含其他游戏中的倾向性决策，例如在一局游戏中是倾向于击败敌对角色还是完成游戏中的任务等等。

对局任务：是指虚拟对局场景中对局需要完成的任务，来决定本场对局的对局结果，例如对于游戏而言，通常存在决定游戏胜负的方式，则对局任务则是指完成游戏胜出需要达成的条件。在不同的游戏以及不同的游戏场景中，则对局任务可以是不同的，例如在一些场景中对局任务可以为攻破敌方阵营的水晶，在另一些场景中对局任务可以为模拟安装爆破道具并成功爆破等，在此不再一一例举。

爆破模式：是一种游戏模式，爆破模式中的玩法是将虚拟角色分为两个对立的团队，虚拟警察和虚拟匪徒，虚拟匪徒一方的对局任务是在规定时间内将炸弹安放在指定地点并引爆，而虚拟警察一方则需要阻止匪徒完成任务。在这一过程中，为了完成对局任务，玩家需要充分发挥各自角色的特点，与团队成员紧密配合，共同制定战术和策略。

本申请实施例涉及人工智能和机器学习（Machine Learning，ML）技术，主要基于人工智能中的机器学习而设计。

人工智能（Artificial Intelligence，AI）是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能，感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说，人工智能是计算机科学的一个综合技术，它企图了解智能的实质，并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法，使机器具有感知、推理与决策的功能。

人工智能技术是一门综合学科，涉及领域广泛，既有硬件层面的技术也有软件层面的技术。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、预训练模型技术、操作/交互系统、机电一体化等。其中，预训练模型又称大模型、基础模型，经过微调后可以广泛应用于人工智能各大方向下游任务。人工智能软件技术主要包括计算机视觉技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。

机器学习（Machine Learning，ML）是一门多领域交叉学科，涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为，以获取新的知识或技能，重新组织已有的知识结构使之不断改善自身的性能。机器学习是人工智能的核心，是使计算机具有智能的根本途径，其应用遍及人工智能的各个领域。机器学习和深度学习通常包括人工神经网络、置信网络、强化学习、迁移学习、归纳学习、式教学习等技术。预训练模型是深度学习的最新发展成果，融合了以上技术。

人工神经网络（Artificial Neural Network，ANN），从信息处理角度对人脑神经元网络进行抽象，建立某种简单模型，按不同的连接方式组成不同的网络。神经网络是一种运算模型，由大量的节点（或称神经元）之间相互联接构成，每个节点代表一种特定的输出函数，称为激励函数（activation function），每两个节点间的连接都代表一个对于通过该连接信号的加权值，称之为权重，这相当于人工神经网络的记忆，网络的输出则依网络的连接方式，权重值和激励函数的不同而不同，而网络自身通常都是对自然界某种算法或者函数的逼近，也可能是对一种逻辑策略的表达。

随着人工智能技术研究和进步，人工智能技术在多个领域展开研究和应用，例如常见的智能家居、智能穿戴设备、虚拟助理、智能音箱、智能营销、无人驾驶、自动驾驶、无人机、数字孪生、虚拟人、机器人、人工智能生成内容（AIGC）、对话式交互、智能医疗、智能客服、游戏AI等，相信随着技术的发展，人工智能技术将在更多的领域得到应用，并发挥越来越重要的价值。

本申请实施例提供的方案涉及采用机器学习的方式来训练用于智能体控制的目标策略模型，进而在实际对局场景中，采用该目标策略模型来控制智能体进行对局。其中，目标策略模型为基于强化学习的人工神经网络模型，即本申请实施例采用机器学习的方法获得具备控制智能体完成对局的能力的目标策略模型，目标策略模型基于机器学习实现处理和控制智能体在虚拟对局场景中的动向以及对局动作的能力，例如基于智能体的实时位置信息、实时对局状态信息以及待智能体的对局风格，来确定智能体在下一周期中的阶段性任务，且为了控制该智能体完成该阶段性任务，还需基于智能体的实时位置信息、实时对局状态信息、团队感知信息、环境感知信息以及阶段性任务等等信息，综合决定该智能体在下一周期中每个游戏帧的对局动作，并控制完成该对局动作，以逐渐完成阶段性任务，最终逐步实现整局的对局任务。

具体而言，在本申请实施例中的智能体对局控制可分为两部分，包括训练部分和应用部分。其中，训练部分就涉及到机器学习这一技术领域，在训练部分中，通过机器学习这一技术训练人工神经网络模型（即后续提及的目标策略模型），使得基于采用样本智能体进行自对弈的方式进行样本对局数据的采集，并基于本对局数据结合优化算法不断调整模型参数，直至模型能够满足性能需求为止；应用部分用于使用在训练部分训练得到的人工神经网络模型来对实际使用过程中的智能体进行对局控制。另外，还需要说明的是，本申请实施例中人工神经网络模型可以是在线训练也可以是离线训练，在此不做具体限定。在本文中是以离线训练为例进行举例说明的。

下面，针对本申请实施例的技术方案的技术思想进行简述。

相关技术中，强化学习是一种游戏智能体训练常用的方式，但是目前的强化学习所得到的智能体的策略风格相对单一，面对不同风格的玩家，难以采取针对性策略，大大限制了玩家体验的丰富性，同时，游戏智能体水平的上限也不高，容易被玩家采用极端策略针对，无法满足实际对局的需求。

例如，对于目前的FPS游戏而言，爆破模式是一种欢迎度较高的游戏玩法，在此模式中，不同阵营的玩家为了获取游戏胜利，会不断变换自己的进攻（如开局分路、探点转移等）和防守方式（蹲点、绕后），而对于单一策略的智能体而言，往往是无法类似与真实玩家一样，不断进行打法变换的，即无法根据玩家的偏好实时调整策略，限制了游戏体验的丰富性和挑战性。此外，目前进行强化学习时，智能体的行为主要依赖于个人奖励，如击杀敌人和装拆包等，这种收益机制使得在强化学习时通常依赖稠密（dense reward）的奖励信号来指导智能体的学习，容易导致调参过程繁琐且依赖人工专家经验，会带来极大的资源开销，训练过程较为繁琐。

基于此，本申请实施例提供了一种控制智能体进行对局的方法，在该方法中，在虚拟对局场景中加载的每个目标智能体，都会关联有自身对应的对局风格，不同的对局风格表征了目标智能体在完成对局任务时的策略倾向，进而，后续在进行对局的过程中，需要根据每个目标智能体的对局风格结合其他信息来针对性的进行控制，这样一来，对于每个目标智能体而言，都具备类似于真实玩家的打法风格，从而在实际对局中能够提供更多的策略可能性。

本申请实施例中，在对目标策略模型进行强化学习训练时，采用了一种新颖的训练激励机制，该机制基于虚拟对局场景中对于对局任务的完成质量进行构建，其思想在于不断的最大化对局任务的完成质量，因而相较与其他的激励机制而言，本申请实施例中通过关注对局中团队对于对局任务的完成质量即可，避免了繁琐的调参过程，大大的减少模型调参工作量，提升了训练效率，降低了模型训练的复杂度，且该机制鼓励智能体关注团队利益，而非单纯追求个人利益，从而提高了团队协作和配合水平，能够天然地与游戏玩法相契合，提升最终得到的目标策略模型的性能。

此外，为了避免忽略针对单个目标智能体的激励机制，本申请实施例中在上述整体团队激励的基础上，将智能体的不同策略嵌入到特征中，使用分层强化学习算法，训练其在不同策略下的行为。具体而言，上层负责策略调度，实时调整智能体的阶段性目标，下层决定是否响应上层的阶段性目标，以及基本微操能力的执行，根据响应情况得到奖惩，这样智能体就可以根据先验做出不同风格化的配合，实现玩法可控，从而能够更好地适应不同玩家的需求和风格，提高游戏体验的丰富度和挑战性。

下面对本申请实施例的技术方案能够适用的应用场景做一些简单介绍，需要说明的是，以下介绍的应用场景仅用于说明本申请实施例而非限定。在具体实施过程中，可以根据实际需要灵活地应用本申请实施例提供的技术方案。

本申请实施例提供的方案可以适用于大多数虚拟场景应用中，比如适用于包含智能体在内的多个虚拟角色参与对局的游戏应用场景中。如图1所示，为本申请实施例提供的一种应用场景示意图，在该场景中，可以包括多个终端设备101和服务器102，每个终端设备101可以安装有与服务器102对应的客户端，比如支持三维虚拟场景的游戏应用程序。该游戏应用程序可以是虚拟现实（Virtual Reality，VR）游戏程序、第三人称射击游戏（Third-Personal Shooting Game，TPS）、第一人称射击游戏（First-person shooting game，FPS）、多人在线战术竞技游戏（Multiplayer Online Battle Arena，MOBA）、大型多人在线角色扮演游戏（Massive Multiplayer Online Role-playing game，MMORPG）、多人枪战类生存游戏中的任意一种。可选地，该应用程序可以是单机版的应用程序，比如单机版的3D游戏程序，也可以是网络联机版的应用程序。本申请实施例涉及的客户端可以是软件客户端，也可以是网页、小程序等客户端，服务器102则是与软件或是网页、小程序等相对应的服务器，不限制客户端的具体类型。

终端设备101可以为任意具备虚拟景应用（例如游戏应用）运行功能的设备，例如可以为手机、膝上型便携计算机、平板电脑（PAD）、笔记本电脑、台式电脑、智能电视、智能车载设备、智能可穿戴设备、电子书阅读器等。服务器102为用于为该客户端提供后台服务，例如可以是独立的物理服务器，也可以是多个物理服务器构成的服务器集群或者分布式系统，还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、即内容分发网络（Content Delivery Network，CDN）、以及大数据和人工智能平台等基础云计算服务的云端服务器，但并不局限于此。

需要说明的是，本申请实施例中控制智能体进行对局的方法可以由终端设备101或者服务器102单独执行，也可以由服务器102和终端设备101共同执行。换句话说，各终端设备101上运行游戏客户端的过程中，服务器102承担主要计算工作，各终端设备101承担次要计算工作；或者，服务器102承担次要计算工作，各终端设备101承担主要计算工作；或者，服务器102与各终端设备101之间采用分布式计算架构进行协同计算。

服务器102和终端设备101均可以包括一个或多个处理器、存储器以及与用于进行交互的I/O接口等。此外，服务器102还可以配置数据库，可以用于存储虚拟对局场景中涉及到的数据，如模型数据、对局数据等。其中，服务器102和终端设备101的存储器中还可以存储本申请实施例提供的控制智能体进行对局的方法中各自所需执行的程序指令，这些程序指令被处理器执行时能够用以实现本申请实施例提供的控制智能体进行对局的过程。

当虚拟场景为游戏场景时，在实际应用过程中，不同的游戏玩家可以通过各自的终端设备101运行游戏客户端，其中，不同终端设备101上运行的应用程序可以是相同的，或者为不同操作系统平台的同一类型应用程序。当终端设备101运行游戏客户端时，呈现包含虚拟角色的游戏界面。此外，本申请实施例中针对的智能体是不存在真实玩家的，因而其不存在相应的游戏界面，但从智能体的角度，也可以包含对应的假想游戏画面，这里以一个玩家角色和智能体为例，当玩家角色和智能体处于同一游戏对局时，终端设备中呈现包含玩家角色的游戏界面，该玩家角色的附近可以包含智能体，且二者处于不同队伍、不同组织、或具有敌对性的两个团体中。对于智能体，其可以通过已经训练的目标策略模型进行控制，即可以通过目标策略模型的上层决策层，根据智能体的对局风格以及实时对局状态，生成在下一周期中的阶段性任务，再通过下层执行层，在下一周期中，基于该阶段性目标实现智能体的精细对局动作控制。

在一种可能的实施方式中，终端设备101本地安装有游戏客户端并用于呈现游戏画面。终端设备101用于通过图形用户界面与玩家进行交互，即，通过终端设备101下载安装游戏客户端并运行，当然，游戏客户端的成功运行也需要服务器102提供后台服务。该终端设备101将图形用户界面提供给玩家的方式可以包括多种，例如，可以渲染显示在终端的显示屏上，或者，通过全息投影提供给玩家。

在一种可能的实施方式中，本申请实施例中的游戏应用还可以基于云交互系统来实现，云交互系统下可以运行各种云应用，例如：云游戏。以云游戏为例，云游戏是指以云计算为基础的游戏方式。在云游戏的运行模式下，游戏客户端的运行主体和游戏画面呈现主体是分离的，虚拟场景中的AI角色控制方法的储存与运行是在云服务器上完成的，终端设备101的作用为用于数据的接收、发送以及游戏画面的呈现，举例而言，终端设备101可以是靠近用户侧的具有数据传输功能的显示设备，但是进行虚拟场景中的AI角色控制方法的为云端的云服务器。在进行游戏时，玩家操作客户端设备向云服务器发送操作指令，云服务器根据操作指令运行游戏，将游戏画面等数据进行编码压缩，通过网络返回客户端设备，最后，通过客户端设备进行解码并输出游戏画面。

本申请实施例中，各终端设备101和服务器102之间可以通过一个或者多个网络103进行直接或间接的通信连接。该网络103可以是有线网络，也可以是无线网络，例如无线网络可以是移动蜂窝网络，或者可以是无线保真（Wireless-Fidelity，WIFI）网络，当然还可以是其他可能的网络，本申请实施例对此不做限制。

需要说明的是，图1所示只是举例说明，实际上终端设备和服务器的数量不受限制，在本申请实施例中不做具体限定。

下面结合上述描述的应用场景，参考附图来描述本申请示例性实施方式提供的控制智能体进行对局的方法，需要注意的是，上述应用场景仅是为了便于理解本申请的精神和原理而示出，本申请的实施方式在此方面不受任何限制。

由于本申请实施例中智能体的控制是基于目标策略模型来实现的，本申请实施例中采用了一种基于分层强化学习的方法来对该目标策略模型进行训练，使其具备能够用户实际对局中的智能体控制，因此，这里先针对目标策略模型的训练过程进行介绍。但需要强调的是，在某种层面上，智能体也可以理解为智能体和目标策略模型的一种结合，即一个智能体除了智能体建模本身之外，还应包括控制该智能体对局动作的目标策略模型，因此对于目标策略模型的训练也可以理解为智能体的训练。

本申请实施例中，采用了分层强化学习的方式来对目标策略模型进行训练，强化学习的过程是智能体基于目标策略模型不断的体验对局过程，并基于对局过程来对目标策略模型不断进行参数更新，以使得智能体在对局过程中的对局收益达到最大化。即对于强化学习而言，需要配置相应的收益体系，来衡量智能体在对局过程中的对局收益，本申请实施例中以实际对局中对局任务的完成质量作为对局收益，来不断对智能体进行强化学习，使其能够达到收益最大化。

参见图2所示，为本申请实施例提供的目标策略模型的训练流程示意图，其包含如下步骤：

步骤20：基于多个样本智能体的对局过程，对待训练的目标策略模型进行多轮迭代训练，在满足迭代终止条件时，获得已训练的目标策略模型。

需要说明的是，本申请实施例中涉及到的样本智能体和目标智能体仅用于区分训练阶段和实际应用阶段中的智能体，而并不限定智能体的不同。

具体的，本申请实施例中基于多个样本智能体的对局过程，来对待训练的目标策略模型进行多轮迭代训练，直至满足迭代终止条件为止，最终获得已训练的目标策略模型。由于每一轮迭代训练的过程是类似的，因此下面主要以一轮迭代训练为例，来对本申请实施例的训练过程进行介绍，在每一轮迭代训练，包括如下过程：

步骤201：基于本轮使用的目标策略模型，控制各场对局中的样本智能体进行对局，获得各场对局各自对应的样本对局数据，样本对局数据包括：表征对局任务完成质量的整体对局收益。

本申请实施例中，当本轮为初次迭代时，则本轮使用的目标策略模型为原始的目标策略模型，其中包括的网络参数可以通过随机初始化的方式进行赋值；当本轮为非初次迭代时，则本轮使用的目标策略模型为上一次调参之后的目标策略模型。

考虑到传统的收益体系依赖于智能体的个人奖励，例如击败敌人数量等，这种机制的参数较为稠密，调参过程较为复杂，因此本申请实施例提供了一种新的基于强化学习的收益体系，该收益体系是基于游戏场景的启发，即对于一局游戏而言，最终的目的即是获得游戏的胜利，因此在游戏中的目标通常是一致的，游戏的胜利通常需要达成游戏中的对局任务，因而对于对局任务的完成质量是可以统一的，因此可以基于智能体在对局过程中对局任务的完成质量来衡量模型控制性能的好坏，这也是更加与游戏玩法的思想更为契合。

具体的，整体对局收益是用于衡量对局任务完成质量的一种参数，强化学习的过程在于通过一定的奖励机制来激励智能体不断的趋于想要的效果，当智能体距离想要的效果更近时，则给予其更多的奖励，则整体对局收益则是本申请实施例中用于作为强化学习的奖励，整体对局收益越大，表征当前智能体越能够达到想要的效果，因而对于本申请实施例而言，强化学习的目的即在于使得整体对局收益达到最大化。

在实际应用时，可以依据不同的虚拟对局场景以及不同的对局任务进行具体设置，本申请实施例对此不做限制。

在一种可能的实施方式中，可以采用达成对局任务的速度、消耗的时长等作为完成质量的衡量指标，则达成对局任务的速度越快，消耗的时长越短，则完成质量更好，则整体对局收益更大。

在一种可能的实施方式中，还可以根据达成对局任务的速度、消耗的时长等所能给予的奖励作为完成质量的衡量指标，例如，消耗的时长越短，则给予的奖励更高，表征完成质量更好，则整体对局收益更大。

在一种可能的实施方式中，在一些游戏场景，对局任务完成的时长与完成质量息息相关，因此可以基于对局任务完成的时长来确定整体对局收益。

具体的，在虚拟场景对局中，通常存在至少一个团队，每个团队包括至少一个样本智能体，例如对于对立（versus，VS）场景，通常存在相互对抗的多个团队，多个团队之间互为敌对；又例如，当为副本场景时，则存在一个团队与副本中的非玩家角色（non-playercharacter，NPC）进行对抗。

以VS场景中的爆破模式为例，即存在两个对立的团队，一个团队为虚拟警察，另一个团队为虚拟匪徒，虚拟匪徒一方的对局任务是在规定时间内将炸弹安放在指定地点并引爆，而虚拟警察一方则需要阻止虚拟匪徒完成任务，在该游戏模式下，总计包含两个大的游戏阶段，第一阶段中，游戏匪徒一方需要在规定时间内将炸弹包道具安放在虚拟场景中的指定地点，在此过程中虚拟警察一方则需要阻止匪徒安放炸弹包道具；在第二阶段中，虚拟警察需要对已经安放的炸弹包道具进行拆弹，而游戏匪徒一方则需要组织虚拟警察进行拆弹，使得炸弹包道具被引爆。

针对各场对局而言，都可以基于本轮使用的目标策略模型分别执行如下操作：

针对任意一场对局A，控制对局A内各个样本智能体执行自身所在团队的对局任务，进而可以在对局完成时，获得一场对局A内各个团队各自对应的任务数据，即当为如上的爆破模式时，则虚拟警察和虚拟匪徒双方的智能体都可以按照自身的对局任务进行游戏对局，直至游戏对局结束。其中，任务数据包括如下数据中的至少一种：

（1）任务执行结果，表征本场虚拟对局为胜利还是失败。例如上述的爆破模式，对于虚拟警察一方，则任务执行结果可以为炸弹包道具是否被阻止安放，或者炸弹包道具是否被拆除，当炸弹包道具被阻止安放，或者炸弹包道具被拆除，则虚拟警察获得胜利，反之，若是炸弹包道具成功安放且被引爆，则虚拟匪徒获得胜利。

具体的，参见图3A和图3B所示，为爆破模式的任务执行结果的逻辑示意图，其中，如图3A所示，对于虚拟匪徒一方而言，在安包前阶段，其对局任务是在120s内发起进攻，安放炸弹包道具，若是该任务失败，即120s超时后未能安放炸弹包道具或者虚拟匪徒一方被团灭，则虚拟匪徒的任务执行结果为失败，若是该任务成功，且虚拟匪徒一方成功团灭虚拟警察一方，则虚拟匪徒的任务执行结果为胜利；若是安包前阶段任务成功，且虚拟警察一方未能被团灭，则进入到第二阶段，即安包后阶段，在这个阶段虚拟匪徒的对局任务为防守45s不能让虚拟警察成功拆包，若该任务失败，即虚拟警察成功拆包，则虚拟匪徒的任务执行结果为失败，若是该任务成功，即炸弹包爆炸或者虚拟警察一方被团灭，则虚拟匪徒的任务执行结果为胜利。

与虚拟匪徒相对立的，如图3B所示，对于虚拟警察一方而言，在安包前阶段，其对局任务是在120s内进行防守，阻止虚拟匪徒安放炸弹包道具，若是该任务成功，即120s超时后未能安放炸弹包道具或者虚拟匪徒一方被团灭，则虚拟警察的任务执行结果为胜利，若是该任务失败，且虚拟警察一方被团灭，则虚拟警察的任务执行结果为失败；若是安包前阶段任务失败，且虚拟警察一方未能被团灭，则进入到第二阶段，即安包后阶段，在这个阶段虚拟警察的对局任务为发起进攻，在45s内成功拆包，若该任务成功，即虚拟警察成功拆包，则虚拟警察的任务执行结果为胜利，若是该任务失败，即炸弹包爆炸或者虚拟警察一方被团灭，则虚拟警察的任务执行结果为失败。

（2）任务执行时长，表征对局任务完成所耗费的时长，或者采用对局任务完成时距离规定时限的时长，即倒计时进行表征。

沿用上述的爆破模式的例子，可以分阶段进行任务执行时长的计算，即任务执行时长包含了安包前阶段和安包后阶段对应的时长，例如，则在安包前阶段，其固定时限为120s，则对于虚拟匪徒一方而言，成功安包还剩余的时长可以表征任务执行时长的长短，倒计时越长，表征任务执行时长越短。或者，还可以基于整局进行任务执行时长的计算。

（3）本团队内样本智能体最终的角色状态，角色状态表征最终任务完成或者结束时相应样本智能体的状态参数，包括但不限于角色血量值、装备情况等。

进而，可以基于获得的各个任务数据，分别获得各个团队各自完成相应对局任务的整体对局收益。对于存在多个不同团队的虚拟对局场景而言，不同团队之间的数据是分别采集的互不相干，从而整体对局收益也是分别进行计算的，例如上述虚拟警察和虚拟匪徒一方分别进行整体对局收益的计算，互不干涉。

具体的，针对任一团队，可以基于任务数据包含的任务执行结果、任务执行时长以及各个样本智能体最终的角色状态来计算整体对局收益，任务执行结果为胜利，则整体对局收益越高，任务执行时长越短，则整体对局收益越高，最终的角色状态越好，则整体对局收益越高。

沿用上述爆破模式的例子，本申请实施例提出了一种倒计时收益（Count DownTime，CDT）机制，也可以称为倒计时奖励机制，该收益机制主要基于爆破游戏的核心玩法而设计，即在规定时间内完成进攻或阻止对方进攻，倒计时收益机制的核心思想是将胜负奖励与时间联系起来，具体如图3A和图3B所示。对于进攻方，目标是尽快安放炸弹；对于防守方，目标是尽量延长炸弹安放时间，击败敌人只是为了更好地实现这一目标的副产品。

具体来说，进攻方的倒计时收益（即整体对局收益）是最小化炸弹安放时间，而防守方的倒计时收益是最大化炸弹被安放的时间，时间即为衡量任务完成质量的指标参数。当炸弹包道具成功安放后，攻防双方的角色互换。采用倒计时收益机制后，训练过程更符合人类的认知，智能体首先学会安放炸弹包道具，然后学会拆除炸弹包道具，最后在争夺炸弹安放点的过程中学会与敌方交战以协助攻防。整个训练过程以炸弹包道具为核心，与真实玩家的游戏策略类似，倒计时奖励机制通过将胜负奖励与时间联系起来，使得智能体能够更好地适应爆破游戏的核心玩法。当然，除了爆破模式之外，其他的游戏模式或者游戏场景均是类似的，在爆破模式中可以通过时间的长短衡量任务完成质量，则推及到其他场景中，也可以采用这些场景中适应性的任务质量指标作为任务完成质量的衡量指标。

通过CDT机制，则可以将对局中各个团队的收益都统一起来，使得奖励更加简明、直观且符合团队收益。与相关技术中智能体的收益机制相比，避免了繁琐的调参过程，降低了模型训练的难度和复杂性，倒计时收益机制鼓励智能体关注团队利益，而非单纯追求个人利益，从而提高了涉及团队对局的游戏场景中的团队协作和配合水平，例如针对上述的FPS爆破模式，提升了其团队协作和配合水平，更能天然地理解爆破模式的玩法，与其玩法核心更为契合。

在一种可能的实施方式中，可以采用如下公式进行整体对局收益的计算：

其中，R _cdt表征整体对局收益，Ratio _hp表征每个智能体的角色状态，团队内的角色状态越好，地方团队的角色状态越差，则整体对局收益越高，Ratio _leftTime表征基于任务执行时长的收益因子，其与安包前阶段的收益子因子Ratio _{timeToTimeOver}和安包后阶段的收益子因子Ratio _timeToDefuse有关，即耗时越短，则这两个收益子因子越大，则Ratio _leftTime越大。

在实际应用中，还可以基于任务执行结果来进行整体对局收益的计算，例如可以在上述计算的基础上，若是胜利则增加一定的收益，例如收益+5，若是失败则减少一定的收益，例如收益-5。当然，也可以采用其他可能的方式，本申请实施例对此不做限制。

本申请实施例中，在获得各个团队的整体对局收益之后，则可以基于各个团队各自对应的整体对局收益，生成相应团队的样本对局数据。

对于副本场景而言，则仅存在一个团队，则最终一场对局可以生成一个样本对局数据，即包含本场对局中该团队的任务数据以及相应的整体对局收益；对于对抗场景而言，可能存在多个团队，则每个团队都可以生成相应的样本对局数据，从而一场对局可以获得多个样本对局数据，以上述的爆破模式的游戏场景为例，则针对虚拟警察一方可以生成一个样本对局数据，包括虚拟警察一方在游戏过程中的相关对局数据以及虚拟警察团队的整体对局收益，同理，针对虚拟匪徒一方也可以生成一个样本对局数据，包括虚拟匪徒一方在游戏过程中的相关对局数据以及虚拟警察团队的整体对局收益。

需要说明的是，上述涉及到的样本对局数据，除了上述整体对局收益之外，还可以包含其他可能的对局数据，例如游戏进程过程中各个游戏帧对应的游戏数据序列等，本申请实施例对此不做限制。

步骤202：判断当前是否达到迭代终止条件。

在实际应用时，可以基于本次获得样本对局数据，来判断是否达到迭代终止条件，即评估目标策略模型的能力是否达标，若目标策略模型的能力达标，停止训练保存最终模型，而若是未能达标，则需要继续调整模型，继续进行训练。其中，迭代终止条件可以包括如下条件的至少一种：

（1）计算得到的整体对局收益达到最大上限，包括但不限于整体对局收益连续多次不再增长，或者整体对局收益大于设定的阈值。需要说明的是，在一轮训练过程中，样本对局数据的数量是大量的，因此这里的整体对局收益可以是指这些样本对局数据的综合整体对局收益，而非单个样本对局数据的整体对局收益，综合整体对局收益可以为所有样本对局数据的均值或者中位值，或者采用一定的计算方式基于所有样本对局数据计算得到。

（2）迭代次数达到最大迭代次数。

步骤203：若步骤202为否，则基于获得的各个样本对局数据，采用强化学习方法，对本轮使用的目标策略模型进行调参。若步骤202为是，则训练结束。

本申请实施例中，调参后的目标策略模型则可以进入下一轮迭代训练，即跳转执行上述的步骤201继续执行。

需要说明的是，步骤202和步骤203并不存在实质上的先后顺序，在实际应用时，可以先进行模型评估再进行调参，也可以调参后再进行模型评估，本申请实施例对此并不进行限制。

在实际应用时，可以采用任意可能的强化学习（Reinforcement Learning，RL）算法来对网络参数进行调参，例如采用近似策略优化（Proximal Policy Optimization，PPO）算法、异步优势演员-评论员算法（Asynchronous Advantage Actor-Critic，A3C）或者深度确定性的策略梯度（Deep Deterministic Policy Gradient，DDPG）等算法来对网络参数进行调参，当然也可以采用其他可能的算法或者基于PPO算法的变形算法进行调参，本申请实施例对此不做限制。

此外，除了上述的强化学习算法之外，还可以采用多目标强化学习（Multi-Objective Reinforcement Learning，MORL）来实现多策略学习，在实际场景中可以根据需求进行选择，本申请实施例对此不做限制。

本申请实施例中，为了提升训练效率，可以采用中央处理器（Central ProcessingUnit，CPU）和图像处理器（Graphics Processing Unit，GPU）相结合的方式来实现训练过程。具体而言，在每轮对局时，基于多机器的CPU单元基于自对弈脚本来实现游戏对局的自对弈，自对弈的意思在于游戏对局的双方皆为智能体，而非真实玩家，进而每一对局获得的样本对局数据发送到GPU中，由GPU实现模型调参的过程。

考虑到在相关技术的强化学习框架下，智能体倾向于采用单一策略进行对局，限制了玩家体验的丰富性和挑战性。因此，本申请实施例中，除了采用上述倒计时收益机制，将智能体的不同策略嵌入到特征中，还为了实现智能体在对局过程中的策略多样性，采用了一种风格化的学习方法，即为每个智能体赋予了相应的对局风格，且还使用了分层强化学习算法，训练其在不同策略下的行为，从而在对局过程中，通过分层控制的方式实现智能体在对局中的动作控制。

参见图4所示，为本申请实施例提供的一种系统架构示意图，其中，该架构包括分层强化学习模块以及倒计时收益和风格化学习模块两部分。

其中，分层强化学习模块负责智能体的策略生成，每隔一段时间会根据当前的状态输出智能体的阶段性任务，例如智能体未来的要去的目标点，并根据阶段性任务完成情况给予奖励来引导下层学习策略，这样可以帮助智能体更关注调度策略，提高打法鲁棒性，同时帮助下层模型完成能力提升。倒计时收益和风格化学习模块负责智能体策略和风格化的学习，将智能体策略嵌入到特征中，根据执行情况给予奖惩，以帮助智能体学习和响应不同风格的策略，其包含倒计时收益机制和风格化学习两部分，将在其他部分中分别进行介绍，这里不多赘述。

分层强化学习模块中，将目标策略模型整体分为上层和下层两层。

其中，上层为一个策略生成器（Strategy generator），用于负责宏观策略调度和学习，提供在每个周期内的阶段性目标，直接影响智能体的玩法风格。例如，可以提供当前状态下的未来目标点，即告诉下层需要去哪儿，并将到目标点的路径信息和特征传递给下层。

下层负责执行上层给定的目标，包括决定是否响应上层，以及基本微操能力的执行，并根据奖励信号调整行为以遵循上层的指导，根据响应情况得到相应的奖惩，这样最终训练得到的智能体就可以根据先验做出不同风格化的配合，实现玩法可控，智能体可以与真实玩家类似的，根据其对应的对局风格和游戏状态，实时调整策略和行为，能够更好地适应不同玩家的需求和风格，以提供更加丰富和具有挑战性的游戏体验。其中，下层在进行微操能力的执行时，通过对3D游戏环境感知的射线化和局面场景的图像化和向量化处理，同时建模游戏的多分类动作空间，来确定智能体将要执行的对局动作，即根据上层指定的目标点，确定做些什么才能到达。

因此，为了实现分层强化学习，本申请实施例引入了阶段性指导收益（Guidingreward），用于衡量下层对于上层的阶段性任务的完成质量，从而引导下层按照上层的策略进行动作控制。则参见图5所示，可以通过如下过程来进行目标策略模型的训练：

步骤501：在基于本轮使用的目标策略模型进行对局的过程中，分别针对各个样本智能体，周期性获得对应的阶段性指导收益。

由于针对每个团队中每个样本智能体而言，阶段性指导收益的确定过程是类似的，因此这里具体以一个样本智能体为例进行介绍。其可以通过如下的步骤来进行确定：

步骤5011：基于一个样本智能体的对局风格、实时对局状态信息以及实时位置信息，获得目标智能体为完成对局任务，在下一周期中的阶段性任务。

该步骤可以通过上层的策略生成器来实现，其可以基于样本智能体的对局风格、实时对局状态信息以及实时位置信息，获得目标智能体为完成对局任务，在下一周期中的阶段性任务。

其中，本申请实施例中涉及到的周期性，可以是指预先设定的固定周期，例如每间隔几秒或者几个游戏帧；也可以是指动态的周期性，例如可以根据游戏进程实时调整周期包括的时长或者游戏帧数量。

在一种可能的实施方式中，策略生成器针对单个样本智能体进行阶段性任务的生成，即其可以以单个样本智能体所感知到的当前实时对局状态信息、样本智能体的对局风格以及实时位置信息作为输入，输出该样本智能体对应的阶段性任务。

在一种可能的实施方式中，考虑到在存在团队对局的情况下，在进行策略决策时通常还需要考虑其他团队成员，因此，策略生成器可以针对一个团队进行阶段性任务的生成，即其可以以统一团队内各个样本智能体所感知到的当前实时对局状态信息、样本智能体的对局风格以及实时位置信息作为输入，输出该团队内各个样本智能体对应的阶段性任务，每个样本智能体都可以对应一个阶段性任务。

本申请实施例中，阶段性任务是指在下一周期中所要实现的目标，其可以通过位置来进行表征，即阶段性任务可以包括在下一周期中，样本智能体需要到达指定位置，这样一来，上层可以提供当前状态下的未来目标点，并将到目标点的路径信息和特征传递给下层，以引导下层的动作执行，由于该阶段性任务是根据当前对局状态实时性综合决策的，能够使得智能体在对局过程中不会始终按照单一策略执行对局动作，及时调整在下一周期的策略，提升了智能体的对局灵活性。

在一种可能的实施方式中，策略生成器在进行策略生成时，可以结合当前虚拟对局场景的目标路径结构图来进行，目标路径结构图包含了虚拟对局场景中的关键位置以及关键位置之间的行走路径，关键位置是指危险度较高（比如高于一定阈值）的位置，在这些位置，遇见敌方的概率或者被敌方埋伏的概率更高，不同的虚拟对局场景由于场景环境和布置不同，因而不同的虚拟对局场景对应了不同的目标路径结构图，目标路径结构图可以依据当前虚拟对局场景的地图来得到，将在后续进行详细的介绍，在此不再进行过多赘述。

具体的，对于一个样本智能体而言，可以基于实时位置信息，从目标路径结构图中，获得该样本智能体的候选位置集合，即从当前位置能够到达的侯选位置，例如可以是在目标路径结构图中与当前位置临近的关键位置，临近可以是指与当前位置距离一个路径单位或者两个路径单位，目标路径结构图中两个关键点之间的连边为一个路径单位。

进而，则可以基于样本智能体的对局风格以及实时对局状态信息，获得该样本智能体的概率集合，概率集合包括了该样本智能体对候选位置集合中各个候选位置的倾向概率，进而基于概率集合，从候选位置集合中确定一个目标智能体的目标位置，并基于目标位置，生成阶段性任务。

步骤5012：在下一周期结束时，基于该周期对应的阶段性任务的完成度，生成样本智能体的阶段性指导收益，阶段性指导收益表征相应样本智能体针对每一阶段性任务的完成质量。

其中，下一周期结束可以是指下一周期在时间上的结束，即下一周期完整结束时，也可以是指下下个周期的阶段性任务生成时，则结束下一周期。

本申请实施例中，阶段性任务的完成度可以通过阶段性任务的预期值与下一周期的实际值之间的差距来进行表征，差距越大时，则表征完成度越低。

在一种可能的实施方式中，当阶段性任务包括样本智能体到达指定位置时，则可以样本智能体在下一周期中的结束位置与指定位置之间的距离，获得阶段性指导收益，距离越大，则阶段性指导收益越低。

例如，可以通过如下公式计算得到阶段性指导收益：

其中，pos_当前表征样本智能体的当前位置，在下一周期结束时，则当前位置即为下一周期的结束位置，pos_目标表征样本智能体在阶段性任务中需要到达的指定位置，m为参考距离阈值，其可以依据当前的虚拟对局场景进行配置，不同大小的虚拟对局场景可以配置不同的m值。

在一种可能的实施方式中，为了提高策略调度命令的质量，可鼓励上层策略探索，减少不匹配样本（mismatch）的干扰，本申请实施例中还引入了置信度w，该置信度表征的是阶段性任务的调度质量，或者说表征了阶段性任务的可靠程度，当上层调度的位置样本智能体在一个周期内显然无法到达时，则显然这种调度是不可靠的，则引入置信度则可以约束这样的情况的出现。

因此，对于置信度的一种可能的表征方式则是，基于周期开始时的实际值与预期值之间的差距来进行表征，那么，对于阶段性任务包括样本智能体到达指定位置时，则可以基于样本智能体在下一周期中的起始位置，与指定位置之间的距离，与虚拟对局场景对应的参考距离阈值，来获得阶段性任务的置信度，其可以表征如下：

其中，pos_当前表征样本智能体的当前位置，在下一周期开始时，则当前位置即为下一周期的开始位置。

进而，基于置信度，以及样本智能体在下一周期中的结束位置与指定位置之间的距离，来获得阶段性指导收益，其可以表征如下：

需要声明的是，上述的各个计算公式仅为示例，而不用于限定实际的计算方式。且上述步骤5011和步骤5012的过程是周期性执行的，上述过程仅以一个周期为例进行示出。

步骤502：在对局结束时，获得各个团队对应的整体对局收益。该过程可以参考前述过程中整体对局收益的计算过程，在此不再进行赘述。

步骤503：基于各个团队各自对应的整体对局收益以及团队内各个样本智能体各自对应的阶段性指导收益，生成相应团队的样本对局数据。

其中，每个团队可以采集到一个样本对局数据，包括了该团队的整体对局收益，以及团队内各个样本智能体各自对应的阶段性指导收益，阶段性指导收益对于样本智能体而言为一个时间序列，即按照时间先后得到的阶段性指导收益，以及还可以包括每个团队内各个样本智能体对局过程中产生的对局数据。

参见图6所示，即为一个样本对局数据包括的数据示例图，其中，以5V5的场景为例，则每个团队包含5个样本智能体，如图6所示的团队A包含样本智能体1~5，则该团队A对应的样本对局数据，其可以包括如下几部分：

（1）团队内各个样本智能体的对局数据，每个样本智能体的对局数据可以表示为一个时间序列，时间序列中的每个值表征每个样本智能体在每个游戏帧或者每个游戏时段中的状态数据，如图6所示的样本智能体1对应的对局数据序列为[X11，X12，……，X1n]，X11可以为样本智能体1在第一个游戏帧或者第一个游戏时段的状态数据，X12可以为样本智能体1在第二个游戏帧或者第二个游戏时段的状态数据，以此类推。

其中，每个状态数据可以通过<角色状态，目标，动作>进行表征，目标即为样本智能体当前对应的阶段性目标。

（2）团队的整体对局收益，即上述计算得到的R _cdt。

（3）团队内各个样本智能体的阶段性指导收益，如图6所示的样本智能体1对应的阶段性指导收益为[R11，R12，……，R1n]，R11表征样本智能体1针对第一个周期的阶段性指导收益，R12表征样本智能体1针对第二个周期的阶段性指导收益，以此类推。

当然，在实际应用时，还可以包含其他可能的数据，本申请实施例对此不做限制。

步骤504：判断当前是否达到迭代终止条件。

这里除了根据整体对局收益进行判断之外，还需要结合样本智能体的阶段性指导收益进行判断是否达到迭代终止条件。

步骤505：若步骤504为否，则基于获得的各个样本对局数据，采用强化学习方法，对本轮使用的目标策略模型进行调参。若步骤504为是，则训练结束。

本申请实施例中，调参后的目标策略模型则可以进入下一轮迭代训练，即跳转执行上述的步骤501继续执行。

在一种可能的实施方式中，参见图4所示，目标策略模型可以包括上层和下层两部分网络，则在进行调参时则可以分别进行调整。

具体的，策略生成器主要负责宏观策略的生成，因此通过对局任务的完成质量来约束即可，因而在进行调参时，可以通过整体对局收益对其进行调整，如图4所示，策略生成器通过CDT机制进行约束和学习。

其中，策略生成器包含策略决策网络（strategy policy net）和策略价值网络（strategy value net），strategy policy net用于生成阶段性任务目标（goal），strategyvalue net用于评估每一阶段性任务对于对局任务的期望价值，则在进行调整时，可以结合strategy value net评估的期望价值，来对策略生成器的网络参数进行调整。

下层的网络主要基于阶段性任务确定样本智能体的对局动作，因此需要结合对局任务的完成质量和阶段性任务的完成质量进行约束，因而在进行调参时，可以通过整体对局收益和阶段性指导收益对其进行调整，如图4所示，策略生成器通过CDT机制和guidingreaward进行约束和学习。

其中，下层的网络包含决策网络（policy net）和价值网络（value net），policynet用于生成对局动作，即指示当前样本智能体需要执行哪些动作，value net用于评估每一对局动作对于阶段性任务和/或对局任务的期望价值，则在进行调整时，可以结合valuenet评估的期望价值，来对下层的网络的网络参数进行调整。

在上述的训练过程中，当上层的策略生成器生成一个目标点后，下层模型需要遵循上层的指导，因此每次在生成新的目标点时，需要判断上一个目标点的完成情况，并给以奖惩，即上述的阶段性指导收益来表征奖惩，结合整体对局收益不断的调整目标策略模型，最终得到的目标策略模型不仅可以以较好的质量完成对局任务，还能够在对局过程中，以自身的对局风格为导向，实时的调整对局策略，以适应不同的真实玩家的打法，提升智能体陪玩过程中真实玩家的体验和挑战性。

本申请实施例中，对局风格表征的是智能体完成对局任务的策略倾向性，对于游戏场景而言，即表现为在游戏中的打法风格。本申请实施例通过进行风格化学习，使得智能体能够具有策略多样性，风格化学习是一种在强化学习中引入策略多样性的方法。

在一种可能的实施方式中，对局风格可以包含多个策略维度，则每一种对局风格可以通过在这些策略维度上的取值来进行表征。其中，多个策略维度可以包括：

（1）开局分路选择维度

开局分路选择维度表征的是智能体在初始对局时倾向于走的分路，即当为了完成对局任务存在多条路径时，该智能体倾向于走哪条路径。其中，开具分路选择维度可以通过开局轨迹序列来进行表达，即在一种对局风格确定后，智能体对应的开局轨迹序列相应确定，则该智能体在初始对局时则会按照这个开局轨迹序列进行行走。

（2）战略点倾向性维度

当虚拟场景存在多个战略点时，则战略点倾向性维度表征了该智能体对各个战略点的倾向性。例如，当存在A和B两个战略点时，则战略点倾向性维度值越大可以表征对于A点的倾向性更大，相反的对于B点的倾向性更小。

（3）对战倾向性维度

对战倾向性维度表征了智能体在完成对局任务时是否倾向于击败敌人，当对战倾向性维度值越大可以表征更倾向于击败敌人。

因此，本申请实施例采用了一种风格化学习的训练方法，在进行训练的过程中，还需要考虑到对局风格。

参见图7所示，为本申请实施例提供的又一训练流程示意图。

步骤701：获得各个团队对应的整体对局收益。

步骤702：基于各个团队内各个样本智能体各自对应的对局风格，获得各个团队的对局风格权重。

本申请实施例中，在每一场对局进行之前，都会为每一个样本智能体确定其对应的对局风格，例如可以采用随机的方式为每个样本智能体赋予对局风格，或者针对每一轮中的样本智能体预先配置各种对局风格的比率，进而按照比率进行分配。

则针对各个样本智能体而言，在进入对局时，都会分别确定各个样本智能体在多个策略维度的取值，并基于多个策略维度的取值，生成相应样本智能体的风格隐向量，该风化隐向量用于表征相应样本智能体的对局风格，进而基于各个样本智能体各自对应的风格隐向量，生成团队的对局风格权重。

具体的，团队的对局风格权重例如可以通过其包括的样本智能体的对局风格的均值进行确定，或者根据各个样本智能体在对局过程中的重要性为每个样本智能体赋予权重，进而通过加权的方式获得团队的对局风格权重。

步骤703：基于对局风格权重以及各个团队对应的整体对局收益，获得各个团队的加权对局收益。

步骤704：基于各个团队加权对局收益，生成相应的样本对局数据。

需要说明的是，这里未对阶段性指导收益进行说明，但是在实际应用时是可以结合阶段性指导收益进行样本对局数据的生成的。

步骤705：判断当前是否达到迭代终止条件。

步骤706：若步骤705为否，则基于获得的各个样本对局数据，采用强化学习方法，对本轮使用的目标策略模型进行调参。若步骤705为是，则训练结束。

本申请实施例中，调参后的目标策略模型则可以进入下一轮迭代训练，即跳转执行上述的步骤701继续执行。

在一种可能的实施方式中，除了上述采用加权的方式进行团队的整体对局收益的计算之外，还可以采用团队内各个样本智能体独立的整体对局收益的计算方式，即可以基于各个样本智能体自身的风格隐向量生成其对应的对局风格权重，进而基于对局风格权重与其所在团队的整体对局收益，生成关于该样本智能体个人的整体对局收益，用于作为样本对局数据参与调参过程。

下面，以FPS游戏的爆破模式为例，对上述训练过程进行介绍。参见图8所示，为针对爆破模式的训练流程示意图。

步骤801：根据地图资源文件提取目标路径结构图，即通过分析游戏地图，提取地图中的关键信息，构建离线图结构，用于后续智能体的路径规划和策略学习。

其中，目标路径结构图也可以称为地图graph，地图graph生成过程是将游戏地图转化为图结构的过程，以便于智能体更好地理解和操作游戏环境。参见图9A所示，为本申请实施例提供的地图graph生成过程的流程示意图，其主要步骤包含如下：

（1）获取地图资源文件，该过程从相应游戏中获取训练所需的虚拟对局场景的地图资源文件。

（2）筛选地图可达区域，即基于虚拟对局场景对应的地图资源文件，筛选出虚拟对局场景中目标智能体的可达区域集合，可达区域集合包含了智能体可达的区域，如图9A中所示提取出来的即为地图中智能体的可达区域。通常而言，在地图进行设计时，已经预先给定了哪些为可达区域，从而根据地图资源文件中的描述即可确定哪些为可达区域。通常而言，这些区域通常包括地面、楼梯、平台等可以行走的表面。

（3）构建行走路径，即基于可达区域集合，生成虚拟对局场景的初始路径结构图，初始路径结构图也可以称为路径结构mesh，其包括多个可达位置以及可达位置之间的行走路径，其是在可达区域的基础上所生成的一种网格结构，用于表示智能体在地图上可以行走的路径，其可以使用导航网格（NavMesh）生成算法来创建路径结构mesh。参见图9B所示，为生成的路径结构mesh的局部放大图，其中，该图中的白色圆点为一个顶点，代表一个可达位置，圆点之间的白边即为行走路径。

（4）图裁剪和剪枝，即对初始路径结构图进行关键位置提取，并基于提取的关键位置对初始路径结构图进行裁剪操作，最终获得目标路径结构图。对生成的路径结构mesh进行裁剪和剪枝操作，从而简化地图表示并减少计算复杂度，这样就得到了最终的地图graph，参见图9C所示，为最终生成的地图graph的局部放大图，在该地图graph中，顶点表示地图上的关键位置，通常为地图中的拐角、交叉点等，顶点之间的连边表示智能体可以沿着行走的路径，可以看到，经过剪枝之后，相较于路径结构mesh中的路径明显减少了，仅保留了一些关键位置的路径，从而大大减少了后续的计算复杂度。

步骤802：加载目标策略模型，随机初始化网络模型参数。该步骤用于准备待训练的神经网络模型，即待训练的目标策略模型，为后续的训练过程做好准备。

步骤803：加载游戏环境，在多机器并行启动自对弈脚本，得到<状态，目标，动作>样本数据，并计算得到对应的整体对局收益。其中，这里的目标是指每隔一段时间，将游戏局面消息输入给上层的策略生成器所得到的输出，即上述的阶段性任务。

示例性的，以FPS游戏中的爆破模式为例，本申请实施例通过基于倒计时收益机制结合风格化学习的方式使得该模式下的智能体更为关注团队的利益，符合游戏的核心玩法，且在对局过程中拥有自身的打法风格，实时变换策略。

倒计时收益机制的主要思想在于在不同阶段面临不同的对局任务时，基于任务完成质量来赋予智能体相应的奖励。例如，在虚拟匪徒一方的进攻阶段（即安包前阶段），虚拟匪徒的目标是尽快装包，而虚拟警察一方则需要尽量阻止匪方安放炸弹包道具。因此，倒计时收益机制会根据虚拟匪徒一方装包的速度和虚拟警察一方阻止安放包裹的效果来分配奖励；在虚拟警察一方的进攻阶段（即安包后阶段），虚拟警察一方需要尽快拆除已安放的炸弹包道具，而虚拟匪徒一方则要阻止虚拟警察一方拆除炸弹包道具，倒计时收益机制会根据虚拟警察一方拆包的速度和虚拟匪徒一方阻止拆包的效果来分配奖励。由此可以得到各方最终的整体对局收益。

风格化学习主要关注开局的分路选择和智能体对于结局的偏好性。为了实现这一目标，引入了风格隐向量z，它包含三个维度，即开局轨迹序列、AB包点倾向（AB点是指炸弹包道具的安放地点）和对战倾向，通过这三个维度，则可以概括整个策略空间。

其中，为了学习不同的开局轨迹序列，可以结合利用之前构造的地图graph从智能体的出生点出发，向前延伸，遍历所有可能的路径，遍历的深度表示策略部署的深度，遍历得到的轨迹序列作为可选的开局轨迹序列，例如可以选取两个关键点作为遍历的深度，但在实际场景中也可以选择其他的深度，本申请实施例中对此不做限制。有了这些不同的开局轨迹序列后，则可以利用上层网络引入额外的奖励塑造（reward shaping），鼓励生成与目标序列一致的目标点，使得智能体可以按照其对局风格包括的开局轨迹序列进行行走。且强制性的控制智能体在走完规定的开局轨迹序列后，则不再进行轨迹约束，而是根据后续的实时情况进行目标点的确定，以保证后续策略的灵活性。

对于结局的倾向性，其AB包点倾向和对战倾向，为了学习不同的结局倾向性，可以对之前的整体对局收益乘以对局风格权重，以表达不同的倾向性，具体如下公式所示：

其中，表征对局风格权重，z_A表征AB包点倾向，z_Kill表征对战倾向，/>可以基于z_A和z_Kill得到，例如，z_A和z_Kill可以作为/>的两个维度。

这里，在具体实施时，可以采用不同的实施方式，对于一个团队而言，当存在多个样本智能体时，可以基于该团队内的样本智能体的对局风格来确定整个团队的对局风格权重，进而基于对局风格权重和整体对局收益得到整个团队的加权对局收益，作为后续调参的依据；或者，还可以基于该团队内容各个样本智能体各自的对局风格与团队的整体对局收益，来得到各个样本智能体各自的整体对局收益，作为后续调参的依据；或者，还可以基于该团队内容各个样本智能体各自的对局风格与团队的整体对局收益，来得到各个样本智能体各自的整体对局收益，并基于这些整体对局收益进行处理，例如均值处理，来得到团队最终的整体对局收益，作为后续调参的依据。

但需要声明的是，如果最终结果是对局任务失败，则仍然给予相同的惩罚，即不给与任何的风格权重加成，以保证整体的竞技性，以更加符合对局场景的核心玩法思想。

步骤804：在游戏对局过程中，针对各个智能体的阶段性任务，判断相应智能体是否到达阶段性任务指定的目标点附近，如果到达则给一个到达奖励guiding-reward。

该步骤在对局过程中周期性进行，根据智能体在周期结束时的实时位置和阶段性任务指定的目标点，计算相应智能体是否到达目标点附近，若到达则给予相应的奖励。

本申请实施例中，风格化学习的关键还在于，通过模型的上层和下层达成爆破模式中的对局任务策略配合的目标，来获取倒计时奖励，智能体的不同策略被嵌入到了特征中，且根据下层对于上层的执行情况来获得不同的guiding-reward，以适应不同玩家的风格和偏好。这样，智能体在爆破模式中对局中就能有明显风格变化，具有和玩家风格类似且可控的开局分路和装包策略。

步骤805：结合步骤803和步骤804得到的<状态，目标，动作>、整体对局收益和guiding-reward，根据PPO算法对目标策略模型进行参数更新，以优化智能体的策略。

步骤806：评估模型能力，即判断是否满足迭代停止条件。

步骤807：如果满足迭代停止条件，即模型达到能力上限或最大迭代次数，则停止训练，获得并保存已训练的目标策略模型。如果不满足迭代停止条件，则回到步骤803继续训练，直至满足迭代停止条件。

通过上述各个实施方式训练得到的目标策略模型，则可以应用于实际的对局过程中智能体的控制了，则参见图10所示，为本申请实施例提供的控制智能体进行对局的方法的流程示意图，该流程可以通过服务器或者终端设备来实现，例如对于游戏而言，当玩家参与包含智能体的在线游戏对局时，则可以通过服务器实现智能体的对局控制，当玩家参与包含智能体的离线游戏对局时，则可以通过终端设备实现智能体的对局控制。该方法可以包括如下步骤：

步骤1001：在虚拟对局场景中加载至少一个目标智能体，每个目标智能体关联有相应的对局风格，每个对局风格表征：相应目标智能体完成虚拟对局场景的对局任务时的策略倾向。

本申请实施例中，在实际应用过程中，虚拟对局场景中可以为任意的虚拟场景，如1V1游戏场景、2V2游戏场景或者5V5游戏场景等，当需要智能体参与虚拟对局时，例如目前游戏中参与的真实玩家数量过少，长时间无法匹配到合适的对局，或者真实玩家选择了人机对战模式，或则启动了游戏测试模式时，则会在虚拟对局场景中加载这些参与对局的至少一个目标智能体，这些智能体则可以由上述训练得到的目标策略模型来进行控制。

为了保障智能体更大程度的拟人化，本申请实施例中在智能体进入游戏对局时即会为其赋予一定的对局风格，针对每个智能体而言，其对局风格可以是随机赋予的，也可以是根据游戏模式、游戏难度、真实玩家的对局水平以及对局习惯等参数的至少一种综合决定的。

步骤1002：调用至少一个目标智能体进行对局，即通过控制目标智能体参与虚拟对局，当存在真实玩家时，则通过目标智能体与真实玩家共同完成对局，当为游戏测试模式，则可以采用目标智能体与目标智能体完成自对弈对局的方式进行对局，直到对局完毕为止；其中，在对局过程中，分别针对至少一个目标智能体，周期性执行以下操作：

步骤10021：基于目标智能体的对局风格、实时对局状态信息和在虚拟对局场景中的实时位置信息，获得目标智能体为完成对局任务，在下一周期中的阶段性任务。

本申请实施例中，采用了一种基于分层机制的目标策略模型，目标策略模型可以包括上层和下层两部分，步骤10021的过程则可以通过上层的策略生成器来实现，其可以根据每个目标智能体的对局风格以及实时的对局情况来生成相应目标智能体在下一周期中的阶段性任务，例如目标智能体需要到达的未来目标点，阶段性任务从宏观上控制目标智能体的策略动向，且其反映的是在短时间内目标智能体的策略动向，而在实际应用时，不断的在目标智能体的对局风格的基础上，基于实时对局情况来调整策略动向，使得目标智能体在对局中具有风格可变性，不再单一的策略走到底，提升智能体的对局性能。

对于每个目标智能体而言，其对局风格可以包括开局轨迹序列，在对局开始时，需要依据其对局风格中的开局轨迹序列来对其进行开局分路约束。因此，针对参与对局的各个目标智能体，分别执行如下操作来实现开局分路约束：

基于目标智能体的对局风格中所包括的开局轨迹序列，从虚拟对局场景对应的目标路径结构图中，获得该目标智能体的开局任务，进而针对开局后的预设数量的游戏帧，分别基于阶段性任务，确定该目标智能体在各个游戏帧中的对局动作，并控制一个目标智能体完成对局动作。也就是说，在开局后的一定时间段内，上层的策略生成器都会按照开局轨迹序列来说生成相应的开局任务，指导目标智能体在此时间段内，按照开局轨迹序列指定的方向进行行进。对于开局对应的时间段的长度，在实际应用时可以基于需求进行设定，本申请实施例对此不进行限制。

示例性的，参见图11所示，为智能体开局轨迹序列的示意图，其中，智能体的出生点为点1，假设开局约束两个轨迹点，则其可能的开局轨迹序列可以为“1→2”和“1→3”两种，分别代表了右和左两种行走方向，因此在一个智能体的对局风格确定之后，则其开局轨迹序列也是确定的，例如开局轨迹序列为“1→2”时，则在开局的一段时间内，会控制智能体按照“1→2”的方向进行行进，相反的，开局轨迹序列为“1→3”时，则在开局的一段时间内，会控制智能体按照“1→3”的方向进行行进。

在经历完开局阶段之后，则上层的策略生成器不会被开局轨迹序列所约束，而是按照实施情况来制定策略，由于，策略生成器在每一周期中所生成阶段性任务的过程是类似的，因此这里以一个周期为例进行介绍。

在一种可能的实施方式中，策略生成器可以以每个目标智能体的对局风格、实时对局状态信息和在虚拟对局场景中的实时位置信息等信息作为输入，输出该目标智能体对应的阶段性任务。

在一种可能的实施方式中，当参与对局的每个团队包含多个虚拟角色（可以为智能体也可以为真实玩家角色）时，则考虑到团队内的关联性，还可以将团队内各个虚拟角色的相关信息一并输入，综合预测各个虚拟角色的阶段性任务。

具体的，对于一个目标智能体而言，可以基于其实时位置信息，从目标路径结构图中，获得该目标智能体的候选位置集合，即从当前位置能够到达的侯选位置，例如可以是在目标路径结构图中与当前位置临近的关键位置，临近可以是指与当前位置距离一个路径单位或者两个路径单位，目标路径结构图中两个关键点之间的连边为一个路径单位。进而，则可以基于目标智能体的对局风格以及实时对局状态信息，获得该目标智能体的概率集合，概率集合包括了该目标智能体对候选位置集合中各个候选位置的倾向概率，进而基于概率集合，从候选位置集合中确定一个目标智能体的目标位置，例如选取概率最大对应的候选位置为目标位置，并基于目标位置，生成其对应的阶段性任务。

参见图12所示，为本申请实施例提供的上层的策略生成器的网络结构示意图。其中，策略生成器的输入层用于输入一个团队内各个虚拟角色的相关信息，如图12所示的当团队包括5个角色时，则输出5个角色的相关信息，对于每个角色而言，其可以包括但不限于如下的信息：

（1）全局信息（global info），该信息适用于训练阶段，用于辅助评估每一次获得的策略其对应的期望价值，在模型的应用阶段无需输入该信息。全局信息可以包含本次对局中的所有信息，凌驾于所有角色之上，能够统观整场对局的所有信息。

（2）地图网格信息（minimap image info），该信息用于从一定粒度上来描述角色的位置信息，即将当前的虚拟对局场景按照一定的网格大小进行划分，通过网格来描述角色位置信息，也就是前述得到的地图graph中的网格结构，能够降低后续的计算的复杂度。当然，在实际应用时也可以基于需求采用坐标等方式来描述位置信息。

（3）环境感知信息，是指通过角色模型的感知系统所感知到的环境信息，包括但不限于深度（depth）信息、光线投射（raycast）信息以及高度（height map）信息等信息。

（4）团队感知信息，是指与团队相关的感知信息，包括但不限于自身主角色（mainplayer）信息、队友（mate players）相关信息以及敌对角色（enemy players）相关信息等信息。

当然，在实际场景中，输入层还可以包含其他可能的信息，例如对局风格等，本申请实施例对此不做限制。

以待团队内个虚拟角色的输入信息输入到输入层后，策略生成器的特征提取层分别对各项信息进行特征提取，来获得各项信息各自的特征，组合得到各个角色的初始特征向量。以一个智能体的特征提取为例，参见图12所示，可以通过卷积层对地图网格信息进行特征提取，以及通过卷积层对环境感知信息进行特征提取，针对团队感知信息，采用了基于注意力机制的门控多层感知机（gating-Multilayer Perceptron，gMLP）进行特征提取后，将各项提取得到的特征进行拼接（concat）操作，得到各个角色的初始特征向量。

进而，将各个角色的初始特征向量进行concat，得到一个拼接特征向量，并通过一个全连接层（FC）进行全连接映射处理，获得相应的映射特征向量，本申请实施例中这里进行了分片（slice）处理，即从映射特征向量中抽取部分特征向量，如前64维信息，并对抽取的部分特征向量通过信息交流（communication）层进行处理，以模拟真实场景中团队成员之间相互沟通交流的过程，这里以communication层采用池化的方式为例，则抽取的部分特征向量进行池化处理，获得池化特征向量，最终将池化特征向量，与映射特征向量中的剩余特征向量进行拼接处理，获得团队特征向量。

由于上述的处理过程所针对的是一个游戏帧或者一个周期内的实况信息，则可以将当前获得的团队特征向量与历史多次得到的团队特征向量进行组合，得到一个团队特征向量序列，以通过循环神经网络（Recurrent Neural Network，RNN）进行序列化特征提取，以预测各个目标智能体的阶段性任务，即图12所示的policy。其中，RNN可以采用任意可能的网络结构，例如长短期记忆网络（Long Short-Term Memory，LSTM）等，当然，也可以采用其他可能的结构，本申请实施例对此不做限制。

且参见图12所示，对于全局信息，可以通过FC层进行处理后，与LSTM的输出进行拼接，以预测各个policy对应的期望价值value，该value可以用于在训练阶段辅助进行调参，但在应用阶段，全局信息这一条分支可不进行处理。

如前所述，当阶段性任务为指定目标智能体到达某个目标位置时，则策略生成器对于每个目标智能体而言，则是预测其到达其可能的各个候选位置的概率，进而根据概率选择最终的目标位置。

进而，上层的策略生成器得到的阶段性任务从宏观角度给定了一定时间段内的目标，并输出给下层进行对局动作控制。在实际应用中，上层可以将阶段性任务指示的目标点和路径进行向量化（embedding）后，将特征向量输出给下层。

步骤10022：针对下一周期中的各个游戏帧，分别基于阶段性任务，确定目标智能体在各个游戏帧中的对局动作，并控制目标智能体完成对局动作。

在上层给定阶段性任务之后，则在下一个周期中，则会按照该阶段性任务的指导，控制目标智能体在对局中的精细对局动作，并控制目标智能体完成对局动作，朝着完成阶段性任务的方向持续进行对局。

对于下一个周期而言，需要对其包括的每个游戏帧进行对局动作的控制，且每个游戏帧的过程是类似的，因此这里以一个游戏帧为例进行介绍。针对各个游戏帧，分别通过如下方式获得各个目标智能体的对局动作。

在一种可能的实施方式中，可以以每个目标智能体的对局风格、实时对局状态信息和在虚拟对局场景中的实时位置信息、以及阶段性任务等信息作为输入，输出该目标智能体对应的对局动作。

在一种可能的实施方式中，当参与对局的每个团队包含多个虚拟角色时，这里以包含多个目标智能体为例，则考虑到团队内的关联性，还可以将团队内各个目标智能体的相关信息一并输入，综合预测各个目标智能体的对局动作。

具体的，针对一个游戏帧而言，可以对目标智能体的实时环境感知信息、团队感知信息以及阶段性任务进行特征提取，获得该目标智能体的初始特征向量，进而对目标智能体所在团队内，各个目标智能体各自的初始特征向量进行拼接融合处理，来获得相应团队的团队特征向量，最终基于团队特征向量以及历史游戏帧获得的团队特征向量，确定各个目标智能体各自的对局动作。

其中，在拼接融合处理时，可以基于各个目标智能体各自的初始特征向量进行拼接处理，获得相应的拼接特征向量，并对拼接特征相连进行全连接映射处理，获得相应的映射特征向量，进而从映射特征向量中抽取部分特征向量，并对部分特征向量进行池化处理，获得池化特征向量，最终将池化特征向量，与映射特征向量中的剩余特征向量进行拼接处理，以获得团队特征向量。

参见图13所示，为本申请实施例提供的下层网络结构示意图，下层的神经网络的输入来自于环境和玩家信息的特征提取，包括图像化、向量化等处理，这里的模型采用了多智能体架构（muiti-agent）来处理环境和玩家信息，它可以更好地适应复杂的游戏环境，提高智能体之间的协同能力。其中，下层网络的输入层用于输入一个团队内各个目标智能体的相关信息，其与策略生成器的输入信息可以是类似的，包含但不限于如下信息：

（1）全局信息

（2）地图网格信息

（3）环境感知信息

（4）团队感知信息

（5）阶段性任务

待团队内各个目标智能体的输入信息输入到输入层后，策略生成器的特征提取层分别对各项信息进行特征提取，来获得各项信息各自的特征，组合得到各个目标智能体的初始特征向量。以一个目标智能体的特征提取为例，参见图13所示，可以通过卷积层对地图网格信息进行特征提取，以及通过卷积层对环境感知信息进行特征提取，针对团队感知信息，采用了基于注意力机制的gMLP进行特征提取后，将各项提取得到的特征进行拼接（concat）操作，得到各个目标智能体的初始特征向量。

进而，将各个目标智能体的初始特征向量进行concat处理，得到一个拼接特征向量，并通过一个全连接层进行全连接映射处理，获得相应的映射特征向量，本申请实施例中这里进行了分片（slice）处理，即从映射特征向量中抽取部分特征向量，如前64维信息，并对抽取的部分特征向量通过communication层进行处理，以模拟真实场景中团队成员之间相互沟通交流的过程，这里以communication层采用池化的方式为例，则抽取的部分特征向量进行池化处理，获得池化特征向量，最终将池化特征向量，与映射特征向量中的剩余特征向量（如64~256位信息）进行拼接处理，获得团队特征向量。其中，池化例如可以采用最大池化（Max Pooling）或者平均池化（Average Pooling）等池化方式来进行，本申请实施例对此不做限制。

由于上述的处理过程所针对的是一个游戏帧的实况信息，则可以将当前获得的团队特征向量与历史多次得到的团队特征向量进行组合，得到一个团队特征向量序列，以通过循环神经网络（Recurrent Neural Network，RNN）进行序列化特征提取，以预测各个目标智能体的对局动作，即图13所示的policy。

本申请实施例中，对局动作可以通过多个动作维度来进行描述，每个动作维度上对应有多个候选对局子动作，则下层网络的输出为各个动作维度上候选对局子动作的概率，进而基于概率值生成一个游戏帧的对局动作。

示例性的，以FPS游戏为例，多个动作维度可以包含开枪、转向、移动、蹲跳、技能使用等动作维度，如开枪维度可以包含是和否两种可选项，当为是则表征需要执行开枪动作，当为否则表征不进行开枪动作。

本申请实施例中，下层网络基于PPO算法进行调参，额外引入v-mix算法来进行价值分配，以提高多智能体之间的协同能力。参见图13所示，对于全局信息，可以通过FC层进行处理后，与LSTM的输出进行拼接，以预测各个policy对应的期望价值value，该value可以用于在训练阶段辅助进行调参，但在应用阶段，全局信息这一条分支可不进行处理。

综上所述，本申请实施例中提供了一种基于分层强化学习的智能体多样性策略学习方法，旨在提高游戏智能体的策略多样性。该方法基于分层强化学习，上层是一个策略生成器，负责宏观策略学习，提供当前状态下的未来目标点，并将到目标点的路径信息和特征传递给下层。下层通过对3D游戏环境感知的射线化和局面场景的图像化和向量化处理，同时建模游戏的多分类动作空间。下层负责执行上层给定的目标，并根据奖励信号调整行为以遵循上层的指导。风格化学习时，上下层通过达成爆破任务策略配合的目标，来获取倒计时奖励，智能体的不同策略被嵌入到了特征中，根据执行情况得到收益，以适应不同玩家的风格和偏好。这样，最终控制的智能体在对局中就能有明显风格变化，具有和玩家风格类似且可控的开局分路和装包策略。

具体而言，该方法提出了一种新的强化学习奖励设计方法，即倒计时收益机制，该机制使得智能体能够更好地适应爆破游戏的核心玩法，提高在游戏中的团队表现，减少人工干预和调参工作，以及采用过风格化学习的方法，即针对传统智能体策略单一的问题，本申请实施例引入了风格隐向量，包括开局轨迹序列、AB包点倾向和对战倾向等维度，使智能体能够学会多样性的策略，有助于丰富智能体在游戏中的玩法表现，使得智能体在对局中有明显风格变化，具有和玩家风格类似的开局分路和装包策略，且方便了策略人工控制，后续可在此基础上实现对智能体更多维度的可控性。

本申请实施例通过上述流程对智能体的玩法进行扩充和丰富，使其具有明显的风格变化，提升了对不同风格和水平玩家的适应性，增加了游戏的乐趣和挑战性。

请参见图14，基于同一发明构思，本申请实施例还提供了一种控制智能体进行对局的装置140，该装置包括：

对局加载单元1401，用于在虚拟对局场景中加载至少一个目标智能体，每个目标智能体关联有相应的对局风格，每个所述对局风格表征：相应目标智能体完成所述虚拟对局场景的对局任务时的策略倾向；

对局控制单元1402，用于调用所述至少一个目标智能体进行对局，直到对局完毕为止；其中，在对局过程中，分别针对所述至少一个目标智能体，通过如下子单元周期性执行以下操作：

上层策略子单元14021，用于基于一个目标智能体的对局风格、实时对局状态信息和在所述虚拟对局场景中的实时位置信息，获得所述目标智能体为完成所述对局任务，在下一周期中的阶段性任务；

下层微操子单元14022，用于针对所述下一周期中的各个游戏帧，分别基于所述阶段性任务，确定所述目标智能体在所述各个游戏帧中的对局动作，并控制所述目标智能体完成所述对局动作。

在一种可能的实施方式中，各目标智能体基于目标策略模型执行对局，则该装置还包括模型训练单元1403，用于通过如下方式训练得到目标策略模型：

基于多个样本智能体的对局过程，对待训练的目标策略模型进行多轮迭代训练，在满足迭代终止条件时，获得已训练的目标策略模型，其中，在一轮迭代训练中，执行以下操作：

基于本轮使用的目标策略模型，控制各场对局中的样本智能体进行对局，获得各场对局各自对应的样本对局数据，样本对局数据包括：表征对局任务完成质量的整体对局收益；

基于获得的各个样本对局数据，采用强化学习方法，对本轮使用的目标策略模型进行调参，并基于调参后的目标策略模型进入下一轮迭代训练。

在一种可能的实施方式中，每场对局包括至少一个团队，每个团队包括至少一个样本智能体；则所述模型训练单元1403，具体用于：

针对各场对局，基于本轮使用的目标策略模型分别执行如下操作：

针对一场对局，控制一场对局内各个样本智能体执行自身所在团队的对局任务，获得一场对局内各个团队各自对应的任务数据，任务数据包括：任务执行结果、任务执行时长以及本团队内样本智能体最终的角色状态；

基于获得的各个任务数据，分别获得各个团队各自完成相应对局任务的整体对局收益；

基于各个团队各自对应的整体对局收益，生成相应团队的样本对局数据。

在一种可能的实施方式中，所述模型训练单元1403，具体用于：

分别针对各个样本智能体，周期性执行如下操作：

基于一个样本智能体的对局风格、实时对局状态信息以及实时位置信息，获得目标智能体为完成对局任务，在下一周期中的阶段性任务；

在下一周期结束时，基于阶段性任务的完成度，生成样本智能体的阶段性指导收益，阶段性指导收益表征相应样本智能体针对每一阶段性任务的完成质量；

基于各个团队各自对应的整体对局收益以及团队内各个样本智能体各自对应的阶段性指导收益，生成相应团队的样本对局数据。

在一种可能的实施方式中，阶段性任务包括：样本智能体到达指定位置；则所述模型训练单元1403，具体用于：

基于样本智能体在下一周期中的起始位置，与指定位置之间的距离，与虚拟对局场景对应的参考距离阈值，获得阶段性任务的置信度，置信度表征：阶段性任务的调度质量；

基于置信度，以及样本智能体在下一周期中的结束位置与指定位置之间的距离，获得阶段性指导收益。

针对各个团队，分别执行如下操作：

针对一个团队，基于一个团队内各个样本智能体各自对应的对局风格，获得一个团队的对局风格权重；

基于对局风格权重以及一个团队对应的整体对局收益，获得一个团队的加权对局收益；

基于一个团队的加权对局收益，生成相应的样本对局数据。

在一种可能的实施方式中，对局风格包括多个策略维度；则所述模型训练单元1403，具体用于：

针对各个样本智能体，分别执行如下操作：

针对一个样本智能体，在进入对局时，确定一个样本智能体在多个策略维度的取值，并基于多个策略维度的取值，生成一个样本智能体的风格隐向量，风格隐向量用于表征一个样本智能体的对局风格；

基于各个样本智能体各自对应的风格隐向量，生成对局风格权重。

在一种可能的实施方式中，上层策略子单元14021，还用于：

针对各个目标智能体，分别执行如下操作：

针对一个目标智能体，基于对局风格包括的开局轨迹序列，从虚拟对局场景对应的目标路径结构图中，获得一个目标智能体的开局任务；其中，目标路径结构图包含：虚拟对局场景中的关键位置以及关键位置之间的行走路径；

针对开局后的预设数量的游戏帧，分别基于阶段性任务，确定一个目标智能体在各个游戏帧中的对局动作，并控制一个目标智能体完成对局动作。

在一种可能的实施方式中，上层策略子单元14021，具体用于：

基于实时位置信息，从目标路径结构图中，获得一个目标智能体的候选位置集合；

基于一个目标智能体的对局风格以及实时对局状态信息，获得一个目标智能体的概率集合；其中，概率集合包括：一个目标智能体针对候选位置集合中各个候选位置的倾向概率；

基于概率集合，从候选位置集合中确定一个目标智能体的目标位置，并基于目标位置，生成阶段性任务。

在一种可能的实施方式中，该装置还包括图构建单元1404，用于：

基于虚拟对局场景对应的地图资源文件，筛选出虚拟对局场景中目标智能体的可达区域集合；

基于可达区域集合，生成虚拟对局场景的初始路径结构图，初始路径结构图包括多个可达位置以及可达位置之间的行走路径；

对初始路径结构图进行关键位置提取，并基于提取的关键位置对初始路径结构图进行裁剪操作，获得目标路径结构图。

在一种可能的实施方式中，下层微操子单元14022，具体用于：

针对各个游戏帧，分别执行如下操作：

针对一个游戏帧，对一个目标智能体的实时环境感知信息、团队感知信息以及阶段性任务进行特征提取，获得一个目标智能体的初始特征向量；

对一个目标智能体所在团队内，各个目标智能体各自的初始特征向量进行拼接融合处理，获得一个团队的团队特征向量；

基于团队特征向量以及历史游戏帧获得的团队特征向量，确定各个目标智能体各自的对局动作。

基于各个目标智能体各自的初始特征向量进行拼接处理，获得相应的拼接特征向量；

对拼接特征相连进行全连接映射处理，获得相应的映射特征向量；

从映射特征向量中抽取部分特征向量，并对部分特征向量进行池化处理，获得池化特征向量；

将池化特征向量，与映射特征向量中的剩余特征向量进行拼接处理，获得团队特征向量。

通过上述装置，提高在游戏对局中的团队表现，减少人工干预和调参工作，以及使智能体能够学会多样性的策略，有助于丰富智能体在游戏中的玩法表现，使得智能体具有和玩家风格类似的开局分路和装包策略，且方便了策略人工控制，后续可在此基础上实现对智能体更多维度的可控性。

该装置可以用于执行本申请各实施例中所示的方法，因此，对于该装置的各功能模块所能够实现的功能等可参考前述实施例的描述，不多赘述。

请参见图15，基于同一技术构思，本申请实施例还提供了一种计算机设备。在一种实施例中，该计算机设备可以为图1所示的服务器，该计算机设备如图15所示，包括存储器1501，通讯模块1503以及一个或多个处理器1502。

存储器1501，用于存储处理器1502执行的计算机程序。存储器1501可主要包括存储程序区和存储数据区，其中，存储程序区可存储操作系统，以及运行本申请实施例的功能所需的程序等；存储数据区可存储各种即时通讯信息和操作指令集等。

存储器1501可以是易失性存储器（volatile memory），例如随机存取存储器（random-access memory，RAM）；存储器1501也可以是非易失性存储器（non-volatilememory），例如只读存储器，快闪存储器（flash memory），硬盘（hard disk drive，HDD）或固态硬盘（solid-state drive，SSD）；或者存储器1501是能够用于携带或存储具有指令或数据结构形式的期望的程序代码并能够由计算机存取的任何其他介质，但不限于此。存储器1501可以是上述存储器的组合。

处理器1502，可以包括一个或多个中央处理单元（central processing unit，CPU）或者为数字处理单元等等。处理器1502，用于调用存储器1501中存储的计算机程序时实现上述控制智能体进行对局的方法。

通讯模块1503用于与终端设备和其他服务器进行通信。

本申请实施例中不限定上述存储器1501、通讯模块1503和处理器1502之间的具体连接介质。本申请实施例在图15中以存储器1501和处理器1502之间通过总线1504连接，总线1504在图15中以粗线描述，其它部件之间的连接方式，仅是进行示意性说明，并不引以为限。总线1504可以分为地址总线、数据总线、控制总线等。为便于描述，图15中仅用一条粗线描述，但并不描述仅有一根总线或一种类型的总线。

存储器1501中存储有计算机存储介质，计算机存储介质中存储有计算机可执行指令，计算机可执行指令用于实现本申请实施例的控制智能体进行对局的方法，处理器1502用于执行上述各实施例的控制智能体进行对局的方法。

在另一种实施例中，计算机设备也可以是终端设备，如图1所示的终端设备。在该实施例中，计算机设备的结构可以如图16所示，包括：通信组件1610、存储器1620、显示单元1630、摄像头1640、传感器1650、音频电路1660、蓝牙模块1670、处理器1680等部件。

通信组件1610用于与服务器进行通信。在一些实施例中，可以包括电路无线保真（Wireless Fidelity，WiFi）模块，WiFi模块属于短距离无线传输技术，计算机设备通过WiFi模块可以帮助用户收发信息。

存储器1620可用于存储软件程序及数据。处理器1680通过运行存储在存储器1620的软件程序或数据，从而执行终端设备的各种功能以及数据处理。存储器1620可以包括高速随机存取存储器，还可以包括非易失性存储器，例如至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。存储器1620存储有使得终端设备能运行的操作系统。本申请中存储器1620可以存储操作系统及各种应用程序，还可以存储执行本申请实施例控制智能体进行对局的方法的代码。

显示单元1630还可用于显示由用户输入的信息或提供给用户的信息以及终端设备的各种菜单的图形用户界面（graphical user interface，GUI）。具体地，显示单元1630可以包括设置在终端设备正面的显示屏1632。其中，显示屏1632可以采用液晶显示器、发光二极管等形式来配置。显示单元1630可以用于显示本申请实施例中的虚拟对局场景界面。

显示单元1630还可用于接收输入的数字或字符信息，产生与终端设备的用户设置以及功能控制有关的信号输入，具体地，显示单元1630可以包括设置在终端设备正面的触摸屏1631，可收集用户在其上或附近的触摸操作，例如点击按钮，拖动滚动框等。

其中，触摸屏1631可以覆盖在显示屏1632之上，也可以将触摸屏1631与显示屏1632集成而实现终端设备的输入和输出功能，集成后可以简称触摸显示屏。本申请中显示单元1630可以显示应用程序以及对应的操作步骤。

摄像头1640可用于捕获静态图像，用户可以将摄像头1640拍摄的图像通过应用发布评论。摄像头1640可以是一个，也可以是多个。物体通过镜头生成光学图像投射到感光元件。感光元件可以是电荷耦合器件（charge coupled device，CCD）或互补金属氧化物半导体（complementary metal-oxide-semiconductor，CMOS）光电晶体管。感光元件把光信号转换成电信号，之后将电信号传递给处理器1680转换成数字图像信号。

终端设备还可以包括至少一种传感器1650，比如加速度传感器1651、距离传感器1652、指纹传感器1653、温度传感器1654。终端设备还可配置有陀螺仪、气压计、湿度计、温度计、红外线传感器、光传感器、运动传感器等其他传感器。

音频电路1660、扬声器1661、传声器1662可提供用户与终端设备之间的音频接口。音频电路1660可将接收到的音频数据转换后的电信号，传输到扬声器1661，由扬声器1661转换为声音信号输出。终端设备还可配置音量按钮，用于调节声音信号的音量。另一方面，传声器1662将收集的声音信号转换为电信号，由音频电路1660接收后转换为音频数据，再将音频数据输出至通信组件1610以发送给比如另一终端设备，或者将音频数据输出至存储器1620以便进一步处理。

蓝牙模块1670用于通过蓝牙协议来与其他具有蓝牙模块的蓝牙设备进行信息交互。例如，终端设备可以通过蓝牙模块1670与同样具备蓝牙模块的可穿戴计算机设备（例如智能手表）建立蓝牙连接，从而进行数据交互。

处理器1680是终端设备的控制中心，利用各种接口和线路连接整个终端的各个部分，通过运行或执行存储在存储器1620内的软件程序，以及调用存储在存储器1620内的数据，执行终端设备的各种功能和处理数据。在一些实施例中，处理器1680可包括一个或多个处理单元；处理器1680还可以集成应用处理器和基带处理器，其中，应用处理器主要处理操作系统、用户界面和应用程序等，基带处理器主要处理无线通信。可以理解的是，上述基带处理器也可以不集成到处理器1680中。本申请中处理器1680可以运行操作系统、应用程序、用户界面显示及触控响应，以及本申请实施例的控制智能体进行对局的方法。另外，处理器1680与显示单元1630耦接。

基于同一发明构思，本申请实施例还提供一种存储介质，该存储介质存储有计算机程序，当该计算机程序在计算机上运行时，使得计算机执行本说明书上述描述的根据本申请各种示例性实施方式的控制智能体进行对局的方法中的步骤。

在一些可能的实施方式中，本申请提供的控制智能体进行对局的方法的各个方面还可以实现为一种计算机程序产品的形式，其包括计算机程序，当程序产品在计算机设备上运行时，计算机程序用于使计算机设备执行本说明书上述描述的根据本申请各种示例性实施方式的控制智能体进行对局的方法中的步骤，例如，计算机设备可以执行各实施例的步骤。

程序产品可以采用一个或多个可读介质的任意组合。可读介质可以是可读信号介质或者可读存储介质。可读存储介质例如可以是但不限于电、磁、光、电磁、红外线、或半导体的系统、装置或器件，或者任意以上的组合。可读存储介质的更具体的例子（非穷举的列表）包括：具有一个或多个导线的电连接、便携式盘、硬盘、随机存取存储器（RAM）、只读存储器（ROM）、可擦式可编程只读存储器（EPROM或闪存）、光纤、便携式紧凑盘只读存储器（CD-ROM）、光存储器件、磁存储器件、或者上述的任意合适的组合。

本申请的实施方式的程序产品可以采用便携式紧凑盘只读存储器（CD-ROM）并包括计算机程序，并可以在计算机设备上运行。然而，本申请的程序产品不限于此，在本申请件中，可读存储介质可以是任何包含或存储程序的有形介质，其包括的计算机程序可以被命令执行系统、装置或者器件使用或者与其结合使用。

可读信号介质可以包括在基带中或者作为载波一部分传播的数据信号，其中承载了可读计算机程序。这种传播的数据信号可以采用多种形式，包括但不限于电磁信号、光信号或上述的任意合适的组合。可读信号介质还可以是可读存储介质以外的任何可读介质，该可读介质可以发送、传播或者传输用于由命令执行系统、装置或者器件使用或者与其结合使用的程序。

可读介质上包含的计算机程序可以用任何适当的介质传输，包括但不限于无线、有线、光缆、RF等等，或者上述的任意合适的组合。

可以以一种或多种程序设计语言的任意组合来编写用于执行本申请操作的计算机程序，程序设计语言包括面向对象的程序设计语言，诸如Java、C++等，还包括常规的过程式程序设计语言，诸如“C”语言或类似的程序设计语言。

应当注意，尽管在上文详细描述中提及了装置的若干单元或子单元，但是这种划分仅仅是示例性的并非强制性的。实际上，根据本申请的实施方式，上文描述的两个或更多单元的特征和功能可以在一个单元中具体化。反之，上文描述的一个单元的特征和功能可以进一步划分为由多个单元来具体化。

此外，尽管在附图中以特定顺序描述了本申请方法的操作，但是，这并非要求或者暗示必须按照该特定顺序来执行这些操作，或是必须执行全部所示的操作才能实现期望的结果。附加地或备选地，可以省略某些步骤，将多个步骤合并为一个步骤执行，和/或将一个步骤分解为多个步骤执行。

本领域内的技术人员应明白，本申请的实施例可提供为方法、系统、或计算机程序产品。因此，本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质（包括但不限于磁盘存储器、CD-ROM、光学存储器等）上实施的计算机程序产品的形式。

尽管已描述了本申请的优选实施例，但本领域内的技术人员一旦得知了基本创造性概念，则可对这些实施例做出另外的变更和修改。所以，所附权利要求意欲解释为包括优选实施例以及落入本申请范围的所有变更和修改。

显然，本领域的技术人员可以对本申请进行各种改动和变型而不脱离本申请的精神和范围。这样，倘若本申请的这些修改和变型属于本申请权利要求及其等同技术的范围之内，则本申请也意图包含这些改动和变型在内。

Claims

1.一种控制智能体进行对局的方法，其特征在于，所述方法包括：

调用所述至少一个目标智能体进行对局，直到对局完毕为止；其中，在对局开始时，分别针对所述至少一个目标智能体，执行如下操作：

针对一个目标智能体，基于对局风格包括的开局轨迹序列，从所述虚拟对局场景对应的目标路径结构图中，获得所述一个目标智能体的开局任务；其中，所述目标路径结构图包含：所述虚拟对局场景中的关键位置以及关键位置之间的行走路径；

针对开局后的预设数量的游戏帧，分别基于所述开局任务，确定所述一个目标智能体在各个游戏帧中的对局动作，并控制所述一个目标智能体完成所述对局动作；

以及，在对局过程中，分别针对所述至少一个目标智能体，周期性执行以下操作：

基于一个目标智能体的对局风格、实时对局状态信息和在所述虚拟对局场景中的实时位置信息，获得所述一个目标智能体为完成所述对局任务，在下一周期中的阶段性任务；

针对所述下一周期中的各个游戏帧，分别基于所述阶段性任务，确定所述一个目标智能体在所述各个游戏帧中的对局动作，并控制所述一个目标智能体完成所述对局动作。

2.如权利要求1所述的方法，其特征在于，各所述目标智能体基于目标策略模型执行对局，所述目标策略模型是通过如下方式训练得到的：

基于本轮使用的目标策略模型，控制各场对局中的样本智能体进行对局，获得所述各场对局各自对应的样本对局数据，所述样本对局数据包括：表征对局任务完成质量的整体对局收益；

基于获得的各个样本对局数据，采用强化学习方法，对所述本轮使用的目标策略模型进行调参，并基于调参后的目标策略模型进入下一轮迭代训练。

3.如权利要求2所述的方法，其特征在于，每场对局包括至少一个团队，每个团队包括至少一个样本智能体；则所述基于本轮使用的目标策略模型，控制各场对局中的样本智能体进行对局，获得所述各场对局各自对应的样本对局数据，包括：

针对一场对局，控制所述一场对局内各个样本智能体执行自身所在团队的对局任务，获得所述一场对局内各个团队各自对应的任务数据，所述任务数据包括：任务执行结果、任务执行时长以及本团队内样本智能体最终的角色状态；

基于获得的各个任务数据，分别获得所述各个团队各自完成相应对局任务的整体对局收益；

基于所述各个团队各自对应的整体对局收益，生成相应团队的样本对局数据。

4.如权利要求3所述的方法，其特征在于，所述方法还包括：

分别针对所述各个样本智能体，周期性执行如下操作：

基于一个样本智能体的对局风格、实时对局状态信息以及实时位置信息，获得所述一个样本智能体为完成所述对局任务，在下一周期中的阶段性任务；

在所述下一周期结束时，基于所述阶段性任务的完成度，生成所述一个样本智能体的阶段性指导收益，所述阶段性指导收益表征相应样本智能体针对每一阶段性任务的完成质量；

则所述基于所述各个团队各自对应的整体对局收益，生成相应团队的样本对局数据，包括：

基于所述各个团队各自对应的整体对局收益以及团队内各个样本智能体各自对应的阶段性指导收益，生成相应团队的样本对局数据。

5.如权利要求4所述的方法，其特征在于，所述阶段性任务包括：所述一个样本智能体到达指定位置；则所述基于所述阶段性任务的完成度，生成所述一个样本智能体的阶段性指导收益，包括：

基于所述一个样本智能体在所述下一周期中的起始位置，与所述指定位置之间的距离，与所述虚拟对局场景对应的参考距离阈值，获得所述阶段性任务的置信度，所述置信度表征：所述阶段性任务的调度质量；

基于所述置信度，以及所述一个样本智能体在所述下一周期中的结束位置与所述指定位置之间的距离，获得所述阶段性指导收益。

6.如权利要求3所述的方法，其特征在于，基于所述各个团队各自对应的任务数据以及整体对局收益，生成相应团队的样本对局数据，包括：

针对所述各个团队，分别执行如下操作：

针对一个团队，基于所述一个团队内各个样本智能体各自对应的对局风格，获得所述一个团队的对局风格权重；

基于所述对局风格权重以及所述一个团队对应的整体对局收益，获得所述一个团队的加权对局收益；

基于所述一个团队的所述加权对局收益，生成相应的样本对局数据。

7.如权利要求6所述的方法，其特征在于，所述对局风格包括多个策略维度；则在基于所述一个团队内各个样本智能体各自对应的对局风格，获得所述一个团队的对局风格权重之前，所述方法还包括：

针对所述各个样本智能体，分别执行如下操作：

针对一个样本智能体，在进入对局时，确定所述一个样本智能体在所述多个策略维度的取值，并基于所述多个策略维度的取值，生成所述一个样本智能体的风格隐向量，所述风格隐向量用于表征所述一个样本智能体的对局风格；

则基于所述一个团队内各个样本智能体各自对应的对局风格，获得所述一个团队的对局风格权重，包括：

基于所述各个样本智能体各自对应的风格隐向量，生成所述对局风格权重。

8.如权利要求1~7任一所述的方法，其特征在于，所述基于一个目标智能体的对局风格、实时对局状态信息和在所述虚拟对局场景中的实时位置信息，获得所述一个目标智能体为完成所述对局任务，在下一周期中的阶段性任务，包括：

基于所述实时位置信息，从所述目标路径结构图中，获得所述一个目标智能体的候选位置集合；

基于所述一个目标智能体的对局风格以及所述实时对局状态信息，获得所述一个目标智能体的概率集合；其中，所述概率集合包括：所述一个目标智能体针对候选位置集合中各个候选位置的倾向概率；

基于所述概率集合，从所述候选位置集合中确定所述一个目标智能体的目标位置，并基于所述目标位置，生成所述阶段性任务。

9.如权利要求1~7任一所述的方法，其特征在于，在所述针对一个目标智能体，基于对局风格包括的开局轨迹序列，从所述虚拟对局场景对应的目标路径结构图中，获得所述一个目标智能体的开局任务之前，所述方法还包括：

基于所述虚拟对局场景对应的地图资源文件，筛选出所述虚拟对局场景中目标智能体的可达区域集合；

基于所述可达区域集合，生成所述虚拟对局场景的初始路径结构图，所述初始路径结构图包括多个可达位置以及可达位置之间的行走路径；

对所述初始路径结构图进行关键位置提取，并基于提取的关键位置对所述初始路径结构图进行裁剪操作，获得所述目标路径结构图。

10.如权利要求1~7任一所述的方法，其特征在于，针对所述下一周期中的各个游戏帧，分别基于所述阶段性任务，确定所述一个目标智能体在所述各个游戏帧中的对局动作，并控制所述一个目标智能体完成所述对局动作，包括：

针对所述各个游戏帧，分别执行如下操作：

针对一个游戏帧，对所述一个目标智能体的实时环境感知信息、团队感知信息以及所述阶段性任务进行特征提取，获得所述一个目标智能体的初始特征向量；

对所述一个目标智能体所在团队内，各个目标智能体各自的初始特征向量进行拼接融合处理，获得所述团队的团队特征向量；

基于所述团队特征向量以及历史游戏帧获得的团队特征向量，确定所述各个目标智能体各自的对局动作。

11.如权利要求10所述的方法，其特征在于，对所述一个目标智能体所在团队内，各个目标智能体各自的初始特征向量进行拼接融合处理，获得所述团队的团队特征向量，包括：

基于所述各个目标智能体各自的初始特征向量进行拼接处理，获得相应的拼接特征向量；

对所述拼接特征相连进行全连接映射处理，获得相应的映射特征向量；

从所述映射特征向量中抽取部分特征向量，并对所述部分特征向量进行池化处理，获得池化特征向量；

将所述池化特征向量，与所述映射特征向量中的剩余特征向量进行拼接处理，获得所述团队特征向量。

12.一种控制智能体进行对局的装置，其特征在于，所述装置包括：

对局控制单元，用于调用所述至少一个目标智能体进行对局，直到对局完毕为止；其中，在对局开始时，分别针对所述至少一个目标智能体，通过如下子单元执行如下操作：

上层策略子单元，用于针对一个目标智能体，基于对局风格包括的开局轨迹序列，从所述虚拟对局场景对应的目标路径结构图中，获得所述一个目标智能体的开局任务；其中，所述目标路径结构图包含：所述虚拟对局场景中的关键位置以及关键位置之间的行走路径；

下层微操子单元，用于针对开局后的预设数量的游戏帧，分别基于所述开局任务，确定所述一个目标智能体在各个游戏帧中的对局动作，并控制所述一个目标智能体完成所述对局动作；

以及，在对局过程中，分别针对所述至少一个目标智能体，还通过各子单元周期性执行以下操作：

上层策略子单元，还用于基于一个目标智能体的对局风格、实时对局状态信息和在所述虚拟对局场景中的实时位置信息，获得所述一个目标智能体为完成所述对局任务，在下一周期中的阶段性任务；

下层微操子单元，还用于针对所述下一周期中的各个游戏帧，分别基于所述阶段性任务，确定所述一个目标智能体在所述各个游戏帧中的对局动作，并控制所述一个目标智能体完成所述对局动作。

13.一种计算机设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其特征在于，

所述处理器执行所述计算机程序时实现权利要求1至11任一项所述方法的步骤。

14.一种计算机存储介质，其上存储有计算机程序，其特征在于，

该计算机程序被处理器执行时实现权利要求1至11任一项所述方法的步骤。