CN117899487B

CN117899487B - 一种数据处理方法、装置、设备、存储介质及程序产品

Info

Publication number: CN117899487B
Application number: CN202410296529.6A
Authority: CN
Inventors: 刘一锋; 文荟俨; 徐增壮; 林上奥; 刘戈; 杨阳; 邱福浩; 付强
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2024-03-15
Filing date: 2024-03-15
Publication date: 2024-05-31
Anticipated expiration: 2044-03-15
Also published as: CN117899487A

Abstract

本申请提供了一种数据处理方法、装置、设备、存储介质及程序产品，应用于云技术、人工智能、智慧交通和游戏等各种控制智能体的虚拟场景；该数据处理方法包括：响应于对局开始请求，获取待对局地图的初始位置拓扑；对初始位置拓扑和位置转移关系进行融合，得到目标位置拓扑，位置转移关系表示待操作虚拟角色在待对局地图上进行虚拟对局所转移的位置；结合目标位置拓扑和当前对局信息，预测待对局智能体的待转移信息，待转移信息包括待转移位置；基于待对局智能体的当前观测信息，预测待对局智能体在待转移位置的待执行动作；控制待对局智能体在待对局地图上执行待执行动作。通过本申请，能够提升智能体的控制效果。

Description

一种数据处理方法、装置、设备、存储介质及程序产品

技术领域

本申请涉及人工智能领域中的数据处理技术，尤其涉及一种数据处理方法、装置、设备、存储介质及程序产品。

背景技术

在虚拟场景中，常常采用智能体进行虚拟对局，以提升虚拟场景中待操作虚拟角色的虚拟对局效果。在相关技术中，为了控制智能体在虚拟场景中进行虚拟对局，通常采用固定的对局方式控制智能体，如此，影响了智能体与待操作虚拟角色的适配度，从而，影响了智能体的控制效果。

发明内容

本申请实施例提供一种数据处理方法、装置、电子设备、计算机可读存储介质及计算机程序产品，能够提升智能体的控制效果。

本申请实施例的技术方案是这样实现的：

本申请实施例提供一种数据处理方法，所述数据处理方法包括：

响应于对局开始请求，获取待对局地图的初始位置拓扑；

对所述初始位置拓扑和位置转移关系进行融合，得到目标位置拓扑，所述位置转移关系表示待操作虚拟角色在所述待对局地图上进行虚拟对局所转移的位置；

结合所述目标位置拓扑和当前对局信息，预测待对局智能体的待转移信息，所述待转移信息包括待转移位置；

基于所述待对局智能体的当前观测信息，预测所述待对局智能体在所述待转移位置的待执行动作；

控制所述待对局智能体在所述待对局地图上执行所述待执行动作。

本申请实施例提供一种数据处理装置，所述数据处理装置包括：

拓扑获取模块，用于响应于对局开始请求，获取待对局地图的初始位置拓扑；

拓扑融合模块，用于对所述初始位置拓扑和位置转移关系进行融合，得到目标位置拓扑，所述位置转移关系表示待操作虚拟角色在所述待对局地图上进行虚拟对局所转移的位置；

转移预测模块，用于结合所述目标位置拓扑和当前对局信息，预测待对局智能体的待转移信息，所述待转移信息包括待转移位置；

动作预测模块，用于基于所述待对局智能体的当前观测信息，预测所述待对局智能体在所述待转移位置的待执行动作；

信息控制模块，用于控制所述待对局智能体在所述待对局地图上执行所述待执行动作。

在本申请实施例中，所述拓扑获取模块，还用于对所述待操作虚拟角色在所述待对局地图上进行虚拟对局的信息进行采集，得到待处理对局信息；从所述待处理对局信息中，确定发生虚拟对局事件的各个虚拟对局位置之间的转移关系；基于各个所述虚拟对局位置之间的所述转移关系，确定所述位置转移关系。

在本申请实施例中，所述拓扑获取模块，还用于获取待执行转移策略，所述待执行转移策略为执行频率大于频率阈值的虚拟对局指示；基于所述待执行转移策略，控制所述待操作虚拟角色在所述待对局地图上进行虚拟对局。

在本申请实施例中，所述拓扑获取模块，还用于由每个所述待操作虚拟角色的各个所述虚拟对局位置之间的所述转移关系，得到与多个所述待操作虚拟角色对应的多个所述转移关系；对多个所述转移关系进行整合，得到初始转移关系；基于多个所述转移关系，计算所述初始转移关系中每个所述虚拟对局位置的转移次数；结合所述转移次数和所述初始转移关系，得到所述位置转移关系。

在本申请实施例中，所述拓扑获取模块，还用于获取待对局虚拟角色，所述待对局虚拟角色为待与所述待对局智能体进行虚拟对局的所述待操作虚拟角色；获取所述待对局虚拟角色在所述待对局地图上进行虚拟对局的所述位置转移关系。

在本申请实施例中，所述拓扑获取模块，还用于获取所述待对局虚拟角色的目标角色属性，所述目标角色属性包括角色等级、角色装配信息和角色时长中的至少一种；对所述目标角色属性进行特征提取，得到目标角色特征；基于所述目标角色特征，预测所述待对局虚拟角色在所述待对局地图上进行虚拟对局的所述位置转移关系。

在本申请实施例中，所述拓扑获取模块，还用于获取所述对局开始请求所请求的虚拟对局对应的阶段关联信息，所述阶段关联信息包括以下中的至少一种：已对局时长，对局状态角色数量，虚拟资源剩余量，对局任务完成度；基于所述阶段关联信息确定当前对局阶段；基于对局阶段与阶段转移关系之间的第一对应关系，确定与所述当前对局阶段对应的目标阶段转移关系，所述阶段转移关系表示在对应的所述对局阶段，所述待操作虚拟角色在所述待对局地图上进行虚拟对局所转移的位置；将所述目标阶段转移关系确定为所述位置转移关系。

在本申请实施例中，所述拓扑融合模块，还用于针对所述位置转移关系中的每个位置转移路径，在所述初始位置拓扑中确定与所述位置转移路径对应的转移位置序列；在所述初始位置拓扑中标记每个所述位置转移路径的所述转移位置序列，得到所述目标位置拓扑。

在本申请实施例中，所述转移预测模块，还用于基于待对局虚拟角色的对局胜负序列，确定对局胜负比例；结合所述目标位置拓扑和所述当前对局信息，预测待对局智能体的多个候选转移位置对应的多个转移概率；从多个所述转移概率中，确定与所述对局胜负比例对应的目标转移概率；将所述目标转移概率对应的所述候选转移位置，确定为所述待转移位置，基于所述待转移位置，得到所述待转移信息。

在本申请实施例中，所述转移信息还包括在所述待转移位置的待对局方式，所述待对局方式包括以下信息中的至少一种：虚拟进攻，虚拟防守，分路对局，虚拟支援，虚拟埋伏；所述位置转移关系还包括每个所转移的位置对应的历史对局信息。

在本申请实施例中，所述动作预测模块，用于基于所述待对局智能体的所述当前观测信息和所述待对局方式，预测所述待对局智能体在所述待转移位置的所述待执行动作。

在本申请实施例中，所述拓扑获取模块，还用于对虚拟地图的网格地图模型进行通行检测，得到可通行位置拓扑；获取所述可通行位置拓扑中每个可通行位置的几何特征；基于所述几何特征，从所述可通行位置拓扑中确定转移位置拓扑；基于所述虚拟地图与所述转移位置拓扑，得到所述虚拟地图与所述转移位置拓扑之间的第二对应关系。

在本申请实施例中，所述拓扑获取模块，还用于响应于所述对局开始请求，得到所述待对局地图；基于所述第二对应关系，得到与所述待对局地图对应的目标转移位置拓扑，将所述目标转移位置拓扑确定为所述初始位置拓扑。

在本申请实施例中，所述待转移信息和所述待执行动作的预测通过对局预测模型实现，所述数据处理装置还包括模型训练模块，用于采用第一待训练模型对地图样本的初始位置拓扑样本和位置转移关系样本、以及对局信息样本进行预测，得到预估转移信息，获取所述预估转移信息对应的转移奖励值；采用第二待训练模型对所述预估转移信息和智能体样本的观测信息样本进行预测，得到预估动作，获取所述预估动作的动作奖励值；基于所述转移奖励值训练所述第一待训练模型，并基于所述动作奖励值训练所述第二待训练模型，得到与所述第一待训练模型对应的第一目标模型、以及与所述第二待训练模型对应的第二目标模型；将所述第一目标模型和所述第二目标模型确定为所述对局预测模型。

本申请实施例提供一种用于数据处理的电子设备，所述电子设备包括：

存储器，用于存储计算机可执行指令或者计算机程序；

处理器，用于执行所述存储器中存储的计算机可执行指令或者计算机程序时，实现本申请实施例提供的数据处理方法。

本申请实施例提供一种计算机可读存储介质，存储有计算机可执行指令或者计算机程序，所述计算机可执行指令或者计算机程序用于被处理器执行时，实现本申请实施例提供的数据处理方法。

本申请实施例提供一种计算机程序产品，包括计算机可执行指令或者计算机程序，所述计算机可执行指令或者计算机程序被处理器执行时，实现本申请实施例提供的数据处理方法。

本申请实施例至少具有以下有益效果：在响应于对局开始请求控制智能体在虚拟场景进行虚拟对局时，结合待操作虚拟角色进行虚拟对局所转移的位置和待对局地图的初始位置拓扑，预测智能体的待转移位置，并预测智能体转移至该带转移位置的待执行动作；使得智能体执行该待执行动作所转移的位置与待操作虚拟角色所转移的位置相关，进而能够提升智能体与待操作虚拟角色的适配度，提升智能体的控制效果。

附图说明

图1是本申请实施例提供的数据处理系统的架构示意图；

图2是本申请实施例提供的一种图1中的终端的结构示意图；

图3是本申请实施例提供的数据处理方法的流程示意图一；

图4是本申请实施例提供的数据处理方法的流程示意图二；

图5是本申请实施例提供的数据处理方法的流程示意图三；

图6是本申请实施例提供的数据处理方法的流程示意图四；

图7是本申请实施例提供的一种示例性的虚拟转移策略预测示意图；

图8是本申请实施例提供的一种示例性的预测应用流程图；

图9是本申请实施例提供的一种示例性的网格地图资源文件的示意图；

图10是本申请实施例提供的一种示例性的路径网格图的示意图；

图11是本申请实施例提供的一种示例性的战术点拓扑示意图；

图12是本申请实施例提供的一种示例性的虚拟转移策略的获取示意图；

图13是本申请实施例提供的一种示例的可转移战术点的下发示意图；

图14是本申请实施例提供的一种示例性的模型结构示意图；

图15是本申请实施例提供的一种示例性的执行目标动作的示意图；

图16是本申请实施例提供的一种示例性的智能体的控制示意图。

具体实施方式

为了使本申请的目的、技术方案和优点更加清楚，下面将结合附图对本申请作进一步地详细描述，所描述的实施例不应视为对本申请的限制，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例，都属于本申请保护的范围。

在以下的描述中，涉及到“一些实施例”，其描述了所有可能实施例的子集，但是可以理解，“一些实施例”可以是所有可能实施例的相同子集或不同子集，并且可以在不冲突的情况下相互结合。

在以下的描述中，所涉及的术语“第一\第二”用于区别类似的对象，不代表针对对象的特定排序，可以理解地，“第一\第二”在允许的情况下可以互换特定的顺序或先后次序，以使这里描述的本申请实施例能够以除了在这里图示或描述的以外的顺序实施。

本申请实施例中，术语“模块”或“单元”是指有预定功能的计算机程序或计算机程序的一部分，并与其他相关部分一起工作以实现预定目标，并且可以通过使用软件、硬件（如处理电路或存储器）或其组合来全部或部分实现。同样的，一个处理器（或多个处理器或存储器）可以用来实现一个或多个模块或单元。此外，每个模块或单元都可以是包含该模块或单元功能的整体模块或单元的一部分。

除非另有定义，本申请实施例所使用的所有的技术和科学术语与所属技术领域的技术人员通常理解的含义相同。本申请实施例中所使用的术语只是为了描述本申请实施例的目的，不是旨在限制本申请。

本申请实施例中相关数据收集处理在实例应用时应该严格根据相关国家法律法规的要求，获取个人信息主体的知情同意或单独同意，并在法律法规及个人信息主体的授权范围内，开展后续数据使用及处理。

对本申请实施例进行进一步详细说明之前，对本申请实施例中涉及的名词和术语进行说明，本申请实施例中涉及的名词和术语适用于如下的解释。

1）人工智能（Artificial Intelligence，AI），是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能，感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。也就是说，人工智能是计算机科学的一个综合技术，用于了解智能的实质，并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能通过研究各种智能机器的设计原理与实现方法，使机器具有感知、推理与决策的功能。其中，本申请实施例所涉及的智能体为人工智能的智能机器。

需要说明的是，人工智能技术涉及领域广泛，既有硬件层面的技术也有软件层面的技术。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、预训练模型技术、操作/交互系统、机电一体化等。其中，人工智能软件技术包括计算机视觉技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。在本申请实施例中，待转移信息和待执行动作的预测可基于AI实现。

2）机器学习（Machine Learning，ML），是一门多领域交叉学科，涉及概率论、统计学、逼近论、凸分析和算法复杂度理论等多门学科。用于研究计算机模拟或实现人类的学习特征，以获取新的知识或技能；重新组织已有的知识结构使之不断改善自身的性能。机器学习是人工智能的核心，是使计算机具有智能的根本途径，机器学习应用遍及人工智能的各个领域。机器学习/深度学习通常包括人工神经网络、置信网络、强化学习、迁移学习和归纳学习等技术，大模型是机器学习/深度学习的最新发展成果，融合了以上技术；其中，大模型又称为预训练模型，基础模型，大模型可以直接或经过微调后应用于人工智能各方向的下游任务。在本申请实施例中，可以通过机器学习中的强化学习技术训练出对局预测模型。

3）强化学习（Reinforcement Learning，RL），又称为再励学习，评价学习，增强学习，用于描述和解决智能体（Agent）在与环境的交互过程中通过学习策略以达成回报最大化或实现特定目标的问题。其中，强化学习包括分层强化学习（HierarchicalReinforcement Learning，HRL），在本申请实施例中，可通过HRL训练出对局预测模型。

4）响应于，用于表示所执行的操作所依赖的条件或者状态，当满足所依赖的条件或状态时，所执行的一个或多个操作可以是实时的，也可以具有设定的延迟；在没有特别说明的情况下，所执行的多个操作不存在执行先后顺序的限制。

5）虚拟场景，可以是对真实世界的仿真环境，也可以是半仿真半虚构的虚拟环境，还可以是纯虚构的虚拟环境。虚拟场景可以是二维虚拟场景、2.5维虚拟场景或者三维虚拟场景中的任意一种，本申请实施例对虚拟场景的维度不加以限定。例如，虚拟场景可以包括虚拟天空、虚拟陆地、虚拟海洋等，该虚拟陆地可以包括虚拟沙漠、虚拟城市等环境元素，用户可以控制虚拟对象在该虚拟场景中进行移动。

6）虚拟对象，虚拟场景中可以进行交互的各种人和物的形象，或在虚拟场景中的可移动对象。其中，该可活动对象可以是虚拟人物、虚拟动物、动漫人物、以及虚拟道具等，例如在虚拟场景中显示的人物和动物等；该虚拟对象还可以是虚拟场景中的一个虚拟的用于代表用户的虚拟形象。虚拟场景中可以包括多个虚拟对象，每个虚拟对象在虚拟场景中具有自身的形状和体积，占据虚拟场景中的一部分空间。在本申请实施例中，虚拟对象可以为虚拟场景中的虚拟角色，比如，游戏角色；另外，待操作虚拟角色为由用户控制的虚拟角色，在控制方式上区别于智能体。

需要说明的是，在相关技术中，为了控制智能体在虚拟场景中进行虚拟对局，通常采用固定的虚拟对局方式控制智能体，而不同虚拟角色的虚拟对局方式不同，因此，影响了智能体与虚拟角色在虚拟对局方式上的适配度，从而，影响了智能体的控制效果。

其中，虚拟场景可以为游戏场景等，游戏场景是指用于进行游戏对局（称为虚拟对局）的虚拟场景，比如，的第一人称视角射击类游戏（First-Person Shooting game，FPS）中的场景，第三人称射击游戏（Third-Personal Shooting game，TPS）中的场景，多人在线战斗竞技场游戏（Multiplayer Online Battle Arena，MOBA）中的场景等。这里，以虚拟场景为游戏场景进行虚拟对局的说明。在游戏场景中，多个对立的游戏团队之间通过各种游戏模式（比如，团队竞技模式，虚拟爆破模式等）进行游戏对局；在游戏对局中，游戏团队中的各个游戏队员通过虚拟道具与对立的游戏团队进行竞技，以执行游戏设定的获胜任务；而智能体在游戏对局中用于与游戏角色进行虚拟对抗。然而，不同游戏角色的游戏对局方式不同，而智能体的虚拟对局方式是固定不变的，因此，影响了智能体与游戏角色在虚拟对局方式上的适配度，从而，影响了智能体的控制效果。

基于此，本申请实施例提供一种数据处理方法、装置、电子设备、计算机可读存储介质及计算机程序产品，能够提升智能体的控制效果。下面说明本申请实施例提供的用于数据处理的电子设备（以下简称为数据处理设备）的示例性应用，本申请实施例提供的数据处理设备可以实施为机器人、智能手机、智能手表、笔记本电脑、平板电脑、台式计算机、智能家电、机顶盒、智能车载设备、便携式音乐播放器、个人数字助理、专用消息设备、智能语音交互设备、便携式游戏设备和智能音箱等各种类型的终端，也可以实施为服务器，又可以实施为两者的结合。下面，将说明数据处理设备实施为终端时的示例性应用。

参见图1，图1是本申请实施例提供的数据处理系统的架构示意图；如图1所示，为支撑一个数据处理应用，在数据处理系统100中，终端400（示例性示出了终端400-1和终端400-2）通过网络300连接服务器200，网络300可以是广域网或者局域网，又或者是二者的组合。另外，该数据处理系统100中还包括数据库500，用于向服务器200提供数据支持；并且，图1中示出的为数据库500独立于服务器200的一种情况，此外，数据库500还可以集成在服务器200中，本申请实施例对此不作限定。

终端400，用于响应于对局开始请求，通过网络300从服务器200获取待对局地图的初始位置拓扑和位置转移关系；对初始位置拓扑和位置转移关系进行融合，得到目标位置拓扑，位置转移关系表示待操作虚拟角色在待对局地图上进行虚拟对局所转移的位置；结合目标位置拓扑和当前对局信息，预测待对局智能体的待转移信息，待转移信息包括待转移位置；基于待对局智能体的当前观测信息，预测待对局智能体在待转移位置的待执行动作；控制待对局智能体在待对局地图上执行待执行动作（示例性示出了图形界面410-1和图形界面410-2）。

服务器200，用于通过网络300向终端400发送初始位置拓扑和位置转移关系。

在一些实施例中，服务器200可以是独立的物理服务器，也可以是多个物理服务器构成的服务器集群或者分布式系统，还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、内容分发网络（Content DeliveryNetwork，CDN）、以及大数据和人工智能平台等基础云计算服务的云服务器。终端以及服务器可以通过有线或无线通信方式进行直接或间接地连接，本申请实施例中不作限制。

参见图2，图2是本申请实施例提供的一种图1中的终端的结构示意图；如图2所示，终端400包括：至少一个处理器410、存储器450、至少一个网络接口420和用户接口430。终端400中的各个组件通过总线系统440耦合在一起。可理解，总线系统440用于实现这些组件之间的连接通信。总线系统440除包括数据总线之外，还包括电源总线、控制总线和状态信号总线。但是为了清楚说明起见，在图2中将各种总线都标为总线系统440。

处理器410可以是一种集成电路芯片，具有信号的处理能力，例如通用处理器、数字信号处理器（Digital Signal Processor，DSP），或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等，其中，通用处理器可以是微处理器或者任何常规的处理器等。

用户接口430包括使得能够呈现媒体内容的一个或多个输出装置431，包括一个或多个扬声器和/或一个或多个视觉显示屏。用户接口430还包括一个或多个输入装置432，包括有助于用户输入的用户接口部件，比如键盘、鼠标、麦克风、触屏显示屏、摄像头、其他输入按钮和控件。

存储器450可以是可移除的，不可移除的或其组合。示例性的硬件设备包括固态存储器，硬盘驱动器，光盘驱动器等。存储器450可选地包括在物理位置上远离处理器410的一个或多个存储设备。

存储器450包括易失性存储器或非易失性存储器，也可包括易失性和非易失性存储器两者。非易失性存储器可以是只读存储器（Read Only Memory，ROM），易失性存储器可以是随机存取存储器（Random Access Memory，RAM）。本申请实施例描述的存储器450旨在包括任意适合类型的存储器。

在一些实施例中，存储器450能够存储数据以支持各种操作，这些数据的示例包括程序、模块和数据结构或者其子集或超集，下面示例性说明。

操作系统451，包括用于处理各种基本系统服务和执行硬件相关任务的系统程序，例如框架层、核心库层、驱动层等，用于实现各种基础业务以及处理基于硬件的任务；

网络通信模块452，用于经由一个或多个（有线或无线）网络接口420到达其他电子设备，示例性的网络接口420包括：蓝牙、无线相容性认证（Wi-Fi）、和通用串行总线（Universal Serial Bus，USB）等；

呈现模块453，用于经由一个或多个与用户接口430相关联的输出装置431（例如，显示屏、扬声器等）使得能够呈现信息（例如，用于操作外围设备和显示内容和信息的用户接口）；

输入处理模块454，用于对来自一个或多个输入装置432之一的一个或多个用户输入或互动进行检测以及翻译所检测的输入或互动。

在一些实施例中，本申请实施例提供的数据处理装置可以采用软件方式实现，图2示出了存储在存储器450中的数据处理装置455，其可以是程序和插件等形式的软件，包括以下软件模块：拓扑获取模块4551、拓扑融合模块4552、转移预测模块4553、动作预测模块4554、信息控制模块4555和模型训练模块4556，这些模块是逻辑上的，因此根据所实现的功能可以进行任意的组合或进一步拆分。将在下文中说明各个模块的功能。

在一些实施例中，本申请实施例提供的数据处理装置可以采用硬件方式实现，作为示例，本申请实施例提供的数据处理装置可以是采用硬件译码处理器形式的处理器，其被编程以执行本申请实施例提供的数据处理方法，例如，硬件译码处理器形式的处理器可以采用一个或多个应用专用集成电路（Application Specific Integrated Circuit，ASIC）、DSP、可编程逻辑器件（Programmable Logic Device，PLD）、复杂可编程逻辑器件（Complex Programmable Logic Device，CPLD）、现场可编程门阵列（Field-ProgrammableGate Array，FPGA）或其他电子元件。

在一些实施例中，终端或服务器可以通过运行各种计算机可执行指令或者计算机程序来实现本申请实施例提供的数据处理方法。举例来说，计算机可执行指令可以是微程序级的命令、机器指令或软件指令。计算机程序可以是操作系统中的原生程序或软件模块；可以是本地（Native）应用程序（APPlication，APP），即需要在操作系统中安装才能运行的程序，如游戏APP；也可以是能够嵌入至任意APP中的小程序，即只需要下载到浏览器环境中就可以运行的程序。总而言之，上述的计算机可执行指令可以是任意形式的指令，上述计算机程序可以是任意形式的应用程序、模块或插件。

下面，将结合本申请实施例提供的数据处设备的示例性应用和实施，说明本申请实施例提供的数据处理方法。另外，本申请实施例提供的数据处理方法应用于云技术、人工智能、智慧交通和游戏等各种控制智能体的虚拟场景。

参见图3，图3是本申请实施例提供的数据处理方法的流程示意图一，其中，图3中各步骤的执行主体是数据处理设备；下面将结合图3示出的步骤进行说明。

步骤101、响应于对局开始请求，获取待对局地图的初始位置拓扑。

在本申请实施例中，当开始进行虚拟对局时，比如，当触发了开始虚拟对局按钮时，当接收到发送的对局开始指令时，数据处理设备也就接收到了对局开始请求；此时，数据处理设备响应于对局开始请求，获取请求进行虚拟对局的虚拟地图，也就获得了待对局地图；接着，数据处理设备获取待对局地图上用于在虚拟对局过程中进行转移的各个位置、以及各个位置之间的转移路径，也就获得了初始位置拓扑。

需要说明的是，对局开始请求用于请求在待对局地图上进行虚拟对局。待对局地图是指待进行虚拟对局的虚拟地图，用于渲染待进行虚拟对局的虚拟场景，比如，虚拟沙漠地图，虚拟城市地图等，虚拟太空地图等；由于虚拟对局可以在不同的虚拟地图上进行，故待对局地图为与对局开始请求所请求的虚拟对局对应。初始位置拓扑中的每个节点表示一个用于进行虚拟交互（比如，虚拟攻击，虚拟埋伏，虚拟枢纽等）的位置，可以简化为一个点，也可以表征为一个区域（比如，指定半径对应的圆形区域），本申请实施例对此不作限定；另外，在初始位置拓扑中，还包括各个位置之间的连通关系，表示各个位置之间是否可转移，其中，存在连通关系的两个位置之间可转移，不存在连通关系的两个位置之间无法转移。

参见图4，图4是本申请实施例提供的数据处理方法的流程示意图二，其中，图4中各步骤的执行主体是数据处理设备；如图4所示，在本申请实施例中，步骤101可通过步骤1011和步骤1012实现；也就是说，响应于对局开始请求，获取待对局地图的初始位置拓扑，包括步骤1011和步骤1012，下面对各步骤分别进行说明。

步骤1011、响应于对局开始请求，得到待对局地图。

需要说明的是，由于对局开启请求中包括所请求开始的虚拟对局所在的虚拟地图标识，从而，数据处理设备响应于对局开始请求，能够获得该虚拟地图标识，进而能够基于该虚拟地图标识确定出对应的虚拟地图，也就获得了待对局地图。

步骤1012、基于第二对应关系，得到与待对局地图对应的目标转移位置拓扑，将目标转移位置拓扑确定为初始位置拓扑。

在本申请实施例中，数据处理设备中存储有第二对应关系，或者能够从其他设备（比如，数据库等存储设备，服务器等服务支持设备等）获得第二对应关系，该第二对应关系表示虚拟地图与转移位置拓扑之间的对应关系；其中，转位置拓扑表示虚拟地图中用于虚拟交互的各个位置、以及各个位置之间是否可转移，每个虚拟地图对应一个转移位置拓扑。这里，数据处理设备将待对局地图与第二对应关系中的各个虚拟地图进行匹配，并将从第二对应关系中匹配出的与待对局地图匹配的虚拟地图所对应的转移位置拓扑，称为目标转移位置拓扑；而该目标转移位置拓扑，即为初始位置拓扑。

需要说明的是，初始位置拓扑可以是在响应于对局开始请求之后实时构建的，还可以是在响应于对局开始请求之前预先构建好的，本申请实施例对此不作限定。

可以理解的是，针对每个虚拟地图，预先构建出对应的转移位置拓扑，并获得虚拟地图与转移位置拓扑之间的第二对应关系；使得在响应于对局开始请求时，能够基于第二对应关系获得预先构建好的初始位置拓扑，从而能够提升初始位置拓扑的获取效率，进而能够提升智能体的控制效率。

步骤102、对初始位置拓扑和位置转移关系进行融合，得到目标位置拓扑。

在本申请实施例中，数据处理设备能够获得截止到响应对局开始请求之前，待操作虚拟角色在待对局地图上进行虚拟对局所转移的位置，即为位置转移关系；这里，数据处理设备将初始位置拓扑和位置转移关系融合，所获得的融合结果即为目标位置拓扑。

需要说明的是，目标位置拓扑既包括了待对局地图的初始位置拓扑，也包括了待操作虚拟角色在待对局地图上进行虚拟对局的位置转移关系；这里，待操作虚拟角色是指通过接收操作实现控制的虚拟角色，即为待通过输入的操作实现控制的虚拟角色，比如，游戏中的玩家账号所控制的游戏角色，仿真场景中用户账号所控制的仿真角色等。

在本申请实施例中，数据处理设备对初始位置拓扑和位置转移关系进行融合，得到目标位置拓扑，包括：数据处理设备针对位置转移关系中的每个位置转移路径，在初始位置拓扑中确定与位置转移路径对应的转移位置序列；并在初始位置拓扑中标记每个位置转移路径的转移位置序列，得到目标位置拓扑。

需要说明的是，位置转移关系中的每个位置可以在初始位置拓扑中确定出对应的位置；这里的对应可以是通过位置坐标的准确对应，还可以是基于在初始位置拓扑中确定出的距离最近的位置的对应，本申请实施例对此不作限定。其中，位置转移路径是指位置转移关系中任意多个可转移的位置，转移位置序列为初始位置拓扑中虚拟角色的转移位置序列；从而，数据处理设备通过在初始位置拓扑中标记每个位置转移路径的转移位置序列来获得目标位置拓扑，使得目标位置拓扑中包括了待操作虚拟角色的位置转移信息。

步骤103、结合目标位置拓扑和当前对局信息，预测待对局智能体的待转移信息，待转移信息包括待转移位置。

在本申请实施例中，数据处理设备获取对局开始请求所请求的虚拟对局的对局信息，也就获得了当前对局信息；接着，数据处理设备对目标位置拓扑和当前对局信息进行特征提取，并基于提取到的特征预测待对局智能体的待转移信息；这里，待转移信息至少包括待转移位置。

需要说明的是，当前对局信息是指预测时刻虚拟对局中的以下信息之一：虚拟对局状态，待对局智能体的状态。其中，虚拟对局状态表示虚拟对局中的对局状态，包括以下中的至少一种：虚拟对局任务执行状态（比如，虚拟任务标识的携带信息等），对局群体的相对信息。待转移信息为待对局智能体进行位置转移的相关信息，可以包括待转移位置，还可以包括在待转移位置的待对局方式；待转移位置可以为一个位置点，也可以为一个位置区域，待对局方式包括以下信息中的至少一种：虚拟进攻，虚拟防守，分路对局，虚拟支援，虚拟埋伏。

在本申请实施例中，当待转移信息还包括在待转移位置的待对局方式时，位置转移关系还包括每个所转移的位置对应的历史对局信息；其中，历史对局信息与当前对局信息的信息类型相同，虚拟对局时间不同，本申请实施例在此不再重复描述。

可以理解的是，由于位置转移关系还包括每个所转移的位置对应的历史对局信息，因此，在结合位置转移关系和初始位置拓扑预测待转移信息时，使得所获得的待转移信息中的待对局方式符合待操作虚拟角色的对局方式；从而，能够提升预测的合理性和逼真性。

继续参见图4，在本申请实施例中，步骤103可通过步骤1031至步骤1034实现；也就是说，数据处理设备结合目标位置拓扑和当前对局信息，预测待对局智能体的待转移信息，包括步骤1031至步骤1034，下面对各步骤分别进行说明。

步骤1031、基于待对局虚拟角色的对局胜负序列，确定对局胜负比例。

需要说明的是，待对局虚拟角色为待与待对局智能体进行虚拟对局的待操作虚拟角色；这里，数据处理设备获取响应对局开始请求之前待对局虚拟角色最近的历史虚拟对局的胜负序列，也就获得了对局胜负序列；比如，最近5次的虚拟对局胜负序列为“0，1，1，0，0”（0表示虚拟对局获胜，1表示虚拟对局失败）；接着，数据处理设备基于对局胜负序列，获取待对局虚拟角色最近的对局胜负比例，可以为对局胜负序列中获胜的虚拟对局次数与失败的虚拟对局次数的比值。

步骤1032、结合目标位置拓扑和当前对局信息，预测待对局智能体的多个候选转移位置对应的多个转移概率。

需要说明的是，数据处理设备在结合目标位置拓扑和当前对局信息进行转移信息的预测时，能够预测出多个候选转移位置、以及与多个候选转移位置一一对应的多个转移概率；其中，候选转移位置表示待对局智能体待选择转移的位置，转移概率表示选择该转移位置进行位置转换的获胜概率。

步骤1033、从多个转移概率中，确定与对局胜负比例对应的目标转移概率。

在本申请实施例中，若对局胜负比例越高，则选择转移概率越低的候选转移位置；而若对局胜负比例越低，则选择转换概率越高的候选转移位置；从而，数据处理设备将多个转移概率中与对局胜负比例负相关的转移概率，确定为目标转移概率，故与对局胜负比例对应的目标转移概率，即为与对局胜负比例负相关的转移概率。

步骤1034、将目标转移概率对应的候选转移位置，确定为待转移位置，基于待转移位置，得到待转移信息。

在本申请实施例中，数据处理设备从多个候选转移位置中获取与目标转移概率对应的候选转移位置，并将获取的与目标转移概率对应的候选转移位置确定为待转移位置，也就获得了包括待转移位置的待转移信息。

需要说明的是，数据处理设备还可以采用基于对局胜负序列获取待转移位置的方式，获取待对局方式，从而，将获得的待转移位置和待对局方式确定为待转移信息。

可以理解的是，通过待对局虚拟角色最近的对局胜负序列，准确地确定出与待对局虚拟角色适配的待转移信息；使得待对局智能体基于待转移信息进行转移时，能够与待对局虚拟角色的对局方式适配，提升虚拟对局效果。

步骤104、基于待对局智能体的当前观测信息，预测待对局智能体在待转移位置的待执行动作。

在本申请实施例中，数据处理设备获取待对局智能体视角下的对局信息，也就获得了当前观测信息；接着，数据处理设备基于当前观测信息对待对局智能体在待转移位置处待执行的动作进行预测，所预测出的结果即为待执行动作。

需要说明的是，当前观测信息为待对局智能体视角下的对局信息；待执行动作表示待对局智能体在待转移位置处待执行的动作。

在本申请实施例中，当待转移信息还包括待对局方式时，数据处理设备基于待对局智能体的当前观测信息，预测待对局智能体在待转移位置的待执行动作，包括：数据处理设备基于待对局智能体的当前观测信息和待对局方式，预测待对局智能体在待转移位置的待执行动作。

需要说明的是，数据处理设备基于当前观测信息和待对局方式对待对局智能体在待转移位置执行的动作进行预测，所预测出的结果即为待执行动作。

步骤105、控制待对局智能体在待对局地图上执行待执行动作。

在本申请实施例中，数据处理设备控制待对局智能体在待转移位置处执行待执行动作，以在待对局地图上与待对局的待操作虚拟角色进行虚拟对局。

可以理解的是，在响应于对局开始请求控制智能体在虚拟场景进行虚拟对局时，结合待操作虚拟角色进行虚拟对局所转移的位置和待对局地图的初始位置拓扑，预测智能体的待转移位置，并预测智能体转移至该带转移位置的待执行动作；使得智能体执行该待执行动作所转移的位置与待操作虚拟角色所转移的位置相关，进而能够提升智能体与待操作虚拟角色的适配度，提升智能体的控制效果。

参见图5，图5是本申请实施例提供的数据处理方法的流程示意图三，其中，图5中各步骤的执行主体是数据处理设备；如图5所示，在本申请实施例中，步骤102之前还包括步骤106至步骤108；也就是说，数据处理设备对初始位置拓扑和位置转移关系进行融合，得到目标位置拓扑之前，该数据处理方法还包括步骤106至步骤108，下面对各步骤分别进行说明。

步骤106、对待操作虚拟角色在待对局地图上进行虚拟对局的信息进行采集，得到待处理对局信息。

在本申请实施例中，数据处理设备针对待对局地图，采集每个待操作虚拟角色在该待对局地图上进行虚拟对局的信息，也就获得了待处理对局信息；从而，待处理对局信息表示待操作虚拟角色在待对局地图上进行虚拟对局的信息。

步骤107、从待处理对局信息中，确定发生虚拟对局事件的各个虚拟对局位置之间的转移关系。

需要说明的是，虚拟对局事件是指待操作虚拟角色执行虚拟交互的事件，比如，虚拟道具使用事件，虚拟移动方式改变事件，虚拟状态值改变事件，虚拟路径改变事件等；数据处理设备从待处理对局信息中获取待对局地图上发生虚拟对局事件的各个位置，也就获得了各个虚拟对局位置；并将待操作虚拟角色在各个虚拟对局位置之间的转移路径确定为各个虚拟对局位置之间的转移关系。

步骤108、基于各个虚拟对局位置之间的转移关系，确定位置转移关系。

需要说明的是，数据处理设备可以将各个虚拟对局位置之间的转移关系直接确定为位置转移关系，也可以将多个待操作虚拟角色对应的多个转移关系整合为位置转移关系，本申请实施例对此不作限定。

可以理解的是，通过对待操作虚拟角色在待对局地图上进行虚拟对局的信息进行采集，并基于采集到的待处理对局信息获取位置转移关系，实现对待操作虚拟角色的转移策略的采集，为智能体转移信息的准确预测提供了数据支持。

在本申请实施例中，数据处理设备对待操作虚拟角色在待对局地图上进行虚拟对局的信息进行采集，得到待处理对局信息之前，该数据处理方法还包括：数据处理设备先获取待执行转移策略；再基于待执行转移策略，控制待操作虚拟角色在待对局地图上进行虚拟对局。

需要说明的是，待操作虚拟角色在待对局地图上所进行的虚拟对局，可以为待操作虚拟角色基于自身虚拟对局策略执行的，还可以为基于预先设定的待执行转移策略（比如，人工制订的位置路径等）执行的，本申请实施例对此不作限定。

可以理解的是，当待处理对局信息基于预设的待执行转移策略采集时，由于待执行转移策略为执行频率大于频率阈值的虚拟对局指示，表示一种偏好转移策略，从而，能够提升位置转移关系的针对性；而当待处理对局信息基于自身虚拟对局策略采集时，由于自身虚拟对局策略存在随机性，从而，能够提升位置转移关系的全面性。

在本申请实施例中，数据处理设备基于各个虚拟对局位置之间的转移关系，确定位置转移关系，包括：数据处理设备由每个待操作虚拟角色的各个虚拟对局位置之间的转移关系，得到与多个待操作虚拟角色对应的多个转移关系；接着，对多个转移关系进行整合，得到初始转移关系；然后，基于多个转移关系，计算初始转移关系中每个虚拟对局位置的转移次数；最后，结合转移次数和初始转移关系，得到位置转移关系。

需要说明的是，当数据处理设备将多个待操作虚拟角色的多个转移关系整合为位置转移关系时，可以为位置的整合，也可以为位置与该位置的转移次数的整合，还可以为两者的结合，等等，本申请实施例对此不作限定。其中，转移次数表示了虚拟对局位置的热度，从而，在通过从位置和转移次数整合多个转移关系时，可以采用热度图表示位置转移关系。

参见图6，图6是本申请实施例提供的数据处理方法的流程示意图四，其中，图6中各步骤的执行主体是数据处理设备；如图6所示，在本申请实施例中，步骤102之前还包括步骤109和步骤110；也就是说，数据处理设备对初始位置拓扑和位置转移关系进行融合，得到目标位置拓扑之前，该数据处理方法还包括步骤109至步骤110，下面对各步骤分别进行说明。

步骤109、获取待对局虚拟角色。

在本申请实施例中，用于获取位置转移关系的待操作虚拟角色，可以为待与待对局智能体进行虚拟对局的待操作虚拟角色；此时，数据处理设备响应于对局开始请求，获取所请求开始的虚拟对局中与待对局智能体进行虚拟对局的待操作虚拟角色，也就得到了待对局虚拟角色。

步骤110、获取待对局虚拟角色在待对局地图上进行虚拟对局的位置转移关系。

需要说明的是，数据处理设备获取待对局虚拟角色在待对局地图上进行虚拟对局的位置转移关系的过程，与获取待操作虚拟角色在待对局地图上进行虚拟对局的位置转移关系的过程类似，本申请实施例在此不再重复描述。

可以理解的是，通过待对局虚拟角色的历史虚拟对局信息确定位置转移关系，使得基于位置转移关系预测智能体的待转移信息时，能够提升待转移信息与待对局虚拟角色进行虚拟对局的方式适配度。

在本申请实施例中，数据处理设备获取待对局虚拟角色之后，该数据处理方法还包括：数据处理设备先获取待对局虚拟角色的目标角色属性；再对目标角色属性进行特征提取，得到目标角色特征；最后，基于目标角色特征，预测待对局虚拟角色在待对局地图上进行虚拟对局的位置转移关系。

需要说明的是，目标角色属性是指待对局虚拟角色的角色属性，包括角色等级、角色装配信息和角色时长中的至少一种；其中，角色等级是指待对局虚拟角色在虚拟对局中的等级，角色装配信息是指待对局虚拟角色的装配信息，角色时长是指待对局虚拟角色的创建时长。

可以理解的是，通过基于待对局虚拟角色的目标角色属性预测位置转移关系，使得基于该位置转移关系控制待对局智能体时，能够提升待对局智能体的对局方式在角色属性上与待对局虚拟角色的一致性，进而能够提升控制质量和效果。

在本申请实施例中，数据处理设备对初始位置拓扑和位置转移关系进行融合，得到目标位置拓扑之前，该数据处理方法还包括：数据处理设备先获取对局开始请求所请求的虚拟对局对应的阶段关联信息；再基于阶段关联信息确定当前对局阶段；然后，基于对局阶段与阶段转移关系之间的第一对应关系，确定与当前对局阶段对应的目标阶段转移关系；最后，将目标阶段转移关系确定为位置转移关系。

需要说明的是，阶段关联信息包括以下中的至少一种：已对局时长，对局状态角色数量，虚拟资源剩余量，对局任务完成度；阶段转移关系表示在对应的对局阶段，待操作虚拟角色在待对局地图上进行虚拟对局所转移的位置。

可以理解的是，通过分阶段的将待操作虚拟角色的位置转移关系与初始位置拓扑结合，在时间上实现对待对局智能体的分阶段控制，提升了智能体控制的精度，进而能够提升控制质量和效果。

在本申请实施例中，数据处理设备响应于对局开始请求，获取待对局地图的初始位置拓扑之前，该数据处理方法还包括：数据处理设备先对虚拟地图的网格地图模型进行通行检测，得到可通行位置拓扑；再获取可通行位置拓扑中每个可通行位置的几何特征；接着，基于几何特征，从可通行位置拓扑中确定转移位置拓扑；最后，基于虚拟地图与转移位置拓扑，得到虚拟地图与转移位置拓扑之间的第二对应关系。

需要说明的是，数据处理设备针对每个虚拟地图均预先获得了对应的转移位置拓扑，该转移位置拓扑通过提取虚拟地图的可通行区域中的候选交互位置获得，候选交互位置为发生虚拟交互的概率大于指定概率的位置；这里，数据处理设备可通过获取虚拟对地图的导航网格实现。

在本申请实施例中，待转移信息和待执行动作的预测通过对局预测模型实现，对局预测模型通过以下步骤训练获得：数据处理设备先采用第一待训练模型对地图样本的初始位置拓扑样本和位置转移关系样本、以及对局信息样本进行预测，得到预估转移信息，获取预估转移信息对应的转移奖励值；再采用第二待训练模型对预估转移信息和智能体样本的观测信息样本进行预测，得到预估动作，获取预估动作的动作奖励值；接着，基于转移奖励值训练第一待训练模型，并基于动作奖励值训练第二待训练模型，得到与第一待训练模型对应的第一目标模型、以及与第二待训练模型对应的第二目标模型；最后，将第一目标模型和第二目标模型确定为对局预测模型。

需要说明的是，数据处理设备预测预估转移信息的过程与预测待转移信息的过程类似，预测预估动作的过程与预测待执行动作的过程类似，本申请实施例在此不再重复描述。第一待训练模型为待训练的强化学习模型，且用于预测智能体的转移信息；第二待训练模型也为待训练的强化学习模型，且用于预测智能体与转移信息对应的动作。转移奖励值可基于虚拟对局的任务执行效率预估；动作奖励值可以基于以下中的至少一种预估：虚拟对局的任务贡献量，虚拟对局的任务执行效率，预估转移信息的完成度。第一待训练模型的训练过程和第二待训练模型的训练过程可以是迭代的，当满足迭代结束条件时结束模型训练，得到第一目标模型和第二目标模型；其中，第一目标模型用于预测待对局智能体的待转移信息，第二目标模型用于预测待对局智能体对应于待转移信息的待执行动作。另外，迭代结束条件可以是达到准确度指标阈值，也可以是达到迭代次数阈值，还可以是达到迭代时长阈值，又可以是以上的结合，等等，本申请实施例对此不作限定。

可以理解的是，通过分层强化学习训练包括第一目标模型和第二目标模型的对局预测模型，先预测待对局智能体的待转移信息，再预测与待转移信息对应的动作，能够提升智能体的控制效率和逼真度。

下面，将说明本申请实施例在一个实际的应用场景中的示例性应用。该示例性应用描述了在游戏场景中控制智能体进行虚拟对局的过程。易知，本申请实施例提供的数据处理方法适用于任意虚拟场景中，本申请实施例以游戏场景为例说明控制智能体进行虚拟对局的过程。

需要说明的是，本申请实施例采用神经网络模型预测智能体的虚拟对局信息，并采用分层强化学习进行模型训练。在模型训练过程中，当获得了战术点拓扑样本（称为初始位置拓扑样本）之后，通过分层强化学习中的上层网络从战术点拓扑样本中确定智能体的可转移战术点（称为预估转移信息）和对局方式（在应用过程中称为待对局方式），通过分层强化学习中的下层网络确定在可转移战术点的目标动作（比如，虚拟移动、虚拟跳跃、虚拟蹲点、虚拟转向、虚拟开火等，称为预估动作），以使智能体在上层网络和下层网络的结合下学习到多样的且与玩家控制的游戏角色（以下简称为玩家游戏角色）适配的局内转移、开局分路等策略。

参见图7，图7是本申请实施例提供的一种示例性的虚拟转移策略预测示意图；如图7所示，对玩家游戏角色在游戏地图上进行虚拟对局的虚拟移动、虚拟攻击和虚拟朝向信息等虚拟对局数据7-11进行处理，以提取出玩家游戏角色在虚拟对局中随时间移动的位置信息7-12（包括位置与位置的关系、以及位置与游戏地图的关系）；上层网络7-51（称为第一待训练网络）结合位置信息7-12、由网格（Mesh）地图资源文件7-21获得的战术点拓扑样本7-22、游戏状态7-31和智能体状态7-32（称为对局信息样本），预测智能体的可转移战术点7-41、对局方式7-42（称为预估转移信息）和奖励值7-43（称为转移奖励值）；而下层网络7-52（称为第二待训练网络）结合可转移战术点7-41、对局方式7-42和智能体观测信息7-33（称为观测信息样本），预测智能体在可转移战术点7-41处的目标动作7-61（称为预估动作）和奖励值7-62（称为动作奖励值）。这里，采用奖励值7-43对上层网络7-51进行模型训练，采用奖励值7-62对下层网络7-52进行模型训练。

需要说明的是，游戏状态可以包括虚拟敌我态势，比如，虚拟敌我人数，虚拟敌我血量，虚拟敌人防守/进攻点位的人数分布，我方虚拟进攻点；还可以包括任务标识状态（虚拟被携带、虚拟掉落、虚拟已安装等）。智能体状态包括智能体的所处位置、虚拟状态值、虚拟道具、虚拟发射道具数量、虚拟朝向等信息。智能体观测信息是指智能体视角下的信息，比如，智能体的状态值、虚拟道具携带信息、虚拟对手暴露信息，虚拟队员位置分布等。

还需要说明的是，上层网络用于结合玩家游戏角色在虚拟对局中随时间移动的位置信息，确定智能体在战术点样本拓扑上的可转移战术点和对局方式，即为选择目标战术区域、制定虚拟进攻或虚拟防守计划等。上层网络可以使用基于值函数或策略梯度的强化学习算法（比如，演员-评论家算法（Actor-Critic），近端策略优化（Proximal PolicyOptimization，PPO）等）。通过对上层网络进行模型训练，使得智能体能够在不同游戏状态下执行不同的虚拟对局决策，比如，虚拟战场转移，寻找虚拟攻击位置等。

下层网络用于学习智能体在战术区域内基于对局方式进行虚拟对局的动作信息，比如，虚拟移动，虚拟转向，虚拟操作等。通过对下层网络进行模型训练，使得智能体可以在执行上层网络指定的虚拟战术计划（即为在战术区域内的对局方式）时，能够提升虚拟对局的顺畅度和逼真度；比如，智能体可以在虚拟进攻时利用虚拟掩体避开虚拟对方的虚拟攻击，或者在虚拟防守时准确地选择虚拟埋伏位置。

参见图8，图8是本申请实施例提供的一种示例性的预测应用流程图；如图8所示，该示例性的预测应用流程8-1包括步骤201和步骤204，下面对各步骤分别进行说明。

步骤201、获取战术点拓扑（称为初始位置拓扑）。

需要说明的是，通过对网格地图资源文件（称为网格地图模型）进行可行区域检测，可以获得地图战术可达点的拓扑，称为战术点拓扑。在战术点拓扑中，每个节点为一个战术点，对应一个战术区域；其中，战术点是指虚拟对局中可能发生虚拟交互（比如，虚拟攻击）的位置。

这里，为了获取战术点拓扑，首先，基于射线碰撞检测技术从网格地图资源文件中筛选可达区域，以获得路径网格图。其中，网格地图资源文件为一个由多边形组成的三维模型，用于表示游戏场景中的虚拟地形和虚拟建筑等。这里，在基于射线碰撞检测技术进行可达区域筛选时，若网格地图资源文件中的网格顶点位于障碍物区域内，则表明该网格顶点不可达；若网格地图资源文件中的网格顶点位于障碍物区域外，则表明该网格顶点可达；接着，计算可达网格顶点的邻接顶点，基于可达网格顶点和可达网格顶点的邻接顶点获得路径网格图，邻接顶点是指在可达网格顶点的一定距离范围内的可达网格顶点。

示例性地，参见图9，图9是本申请实施例提供的一种示例性的网格地图资源文件的示意图；如图9所示，网格地图资源文件9-1为虚拟场景对应的虚拟地图的三维模型。

示例性地，参见图10，图10是本申请实施例提供的一种示例性的路径网格图的示意图；如图10所示，路径网格图10-1为从图9中的网格地图资源文件9-1中获得的路径网格图。

然后，对路径网格图进行网格划分，得到连通区域集合。这里，将路径网格图划分为一系列规则的网格单元，每个网格单元表示一个相对于地图的局部区域。这里，根据地图的尺寸，将地图划分为U*V（U和V均为大于1的正整数）个网格单元。针对每个网格单元，基于路径网格图计算所包括的可达网格顶点的数量，若可达网格顶点的数量大于数量阈值，表明该网格单元为连通区域；如此，能够获得路径网格图的连通区域集合。其中，数量阈值可以根据实际实施情况进行调整，以达到精度和效率之间的平衡。

最后，基于连通区域集合，确定战术点拓扑。

需要说明的是，战术可达点是指在地图上包括虚拟战术意义的关键位置，比如，虚拟拐角、虚拟交叉点、虚拟掩体位置等。这里，先提取每个联通区域的几何特征，比如，中心点、边界；再基于几何特征确定战术可达点的初始位置；最后，基于根据战术可达点的初始位置之间的空间关系，从战术可达点的度数和战术可达点之间的距离进行战术点简化，得到战术点拓扑。

示例性地，参见图11，图11是本申请实施例提供的一种示例性的战术点拓扑示意图；如图11所示，战术点拓扑11-1中包括34个战术点。

步骤202、获取玩家游戏角色的虚拟转移策略（称为位置转移关系）。

需要说明的是，玩家游戏角色的虚拟转移策略，是指玩家游戏角色在虚拟对局中随时间移动的位置信息，可以采用热力图表示多个玩家游戏角色的转移策略；其中，热力图中节点的热度与玩家游戏角色在对应战术点的转移次数正相关。

示例性地，参见图12，图12是本申请实施例提供的一种示例性的虚拟转移策略的获取示意图；如图12所示，虚拟转移策略生成器12-1采用三种方式获得虚拟转移策略12-2，三种方式分别为生成模型12-11、数据分析12-12和人工方式12-13；其中，生成模型12-11用于基于玩家游戏角色的个性化特征（比如，段位等级）确定待推荐的虚拟转移策略，数据分析12-12用于对玩家游戏角色的历史虚拟对局数据进行分析，以获得虚拟转移策略，人工方式是指人工确定的虚拟转移策略。虚拟转移策略12-2可以为分阶段的，包括虚拟对局开局阶段的策略12-21（比如，开局分路策略）、虚拟对局中阶段的策略12-22（比如，转移支援策略）和虚拟对局尾局阶段的策略12-23（比如，加速转移策略）。

步骤203、基于玩家游戏角色的转移策略，采用分层强化学习模型从战术点拓扑中确定可转移战术点的目标动作。

参见图13，图13是本申请实施例提供的一种示例的可转移战术点的下发示意图；如图13所示，分层强化学习模型13-1中的上层网络13-11用于预测可转移战术点（示例性的示出了可转移战术点13-21至可转移战术点13-24）；分层强化学习模型13-1中的下层网络13-12用于基于上层网络13-11下发的可转移战术点预测对应帧时刻的目标动作（示例性地示出了与可转移战术点13-21至可转移战术点13-24分别对应的目标动作13-31至目标动作13-34）；其中，上层网络13-11间隔多帧进行可转移战术点的预测，而下层网络13-12每帧进行一次目标动作的预测；这里，示例性示出了目标动作13-31和目标动作13-32之间的目标动作序列13-4。

参见图14，图14是本申请实施例提供的一种示例性的模型结构示意图；如图14所示，分层强化学习模型的上层网络为决策生成器14-11，包括用于确定可转移战术点14-21的决策网络14-111，还包括用于预估奖励值14-22的预估网络14-112。这里，分层强化学习模型的下层网络14-12结合可转移战术点14-21的编码结果14-23和智能体观测信息14-24，预测在可转移战术点14-21的目标动作14-31，并预估奖励值14-32。

步骤204、控制智能体（称为待对局智能体）在可转移战术点（称为待转移位置）处执行目标动作（称为待执行动作）。

示例性地，参见图15，图15是本申请实施例提供的一种示例性的执行目标动作的示意图；如图15所示，由分层强化学习模型15-2基于玩家游戏角色的历史对局信息15-1获得了目标动作15-3之后，控制智能体15-4在可转移战术点处执行目标动作15-3，以与玩家游戏角色15-5进行虚拟对局。

需要说明的是，本申请实施例结合玩家游戏角色的转移策略和分层强化学习模型，对智能体进行控制，提升了虚拟对局效果。

示例性地，参见图16，图16是本申请实施例提供的一种示例性的智能体的控制示意图；如图16所示，基于玩家游戏角色的历史对局信息16-1，确定出玩家游戏角色的虚拟转移策略16-2；分层强化学习模型16-3基于虚拟转移策略16-2控制智能体；如效果16-4所示，提升了智能体进行虚拟对局的方式多样性，提升了游戏留存率。

可以理解的是，通过获取玩家游戏角色在游戏中的转移策略，基于该转移策略通过分层强化学习模型控制游戏中的智能体的动作，使得智能体在游戏过程中的对局方式与玩家游戏角色的对局方式相似，减少了智能体进行虚拟对局的方式随机性，提升了智能体与玩家游戏角色在虚拟对局的适配度，进而能够提升智能体的控制效果和游戏体验。

下面继续说明本申请实施例提供的数据处理装置455的实施为软件模块的示例性结构，在一些实施例中，如图2所示，存储在存储器450的数据处理装置455中的软件模块可以包括：

拓扑获取模块4551，用于响应于对局开始请求，获取待对局地图的初始位置拓扑；

拓扑融合模块4552，用于对所述初始位置拓扑和位置转移关系进行融合，得到目标位置拓扑，所述位置转移关系表示待操作虚拟角色在所述待对局地图上进行虚拟对局所转移的位置；

转移预测模块4553，用于结合所述目标位置拓扑和当前对局信息，预测待对局智能体的待转移信息，所述待转移信息包括待转移位置；

动作预测模块4554，用于基于所述待对局智能体的当前观测信息，预测所述待对局智能体在所述待转移位置的待执行动作；

信息控制模块4555，用于控制所述待对局智能体在所述待对局地图上执行所述待执行动作。

在本申请实施例中，所述拓扑获取模块4551，还用于对所述待操作虚拟角色在所述待对局地图上进行虚拟对局的信息进行采集，得到待处理对局信息；从所述待处理对局信息中，确定发生虚拟对局事件的各个虚拟对局位置之间的转移关系；基于各个所述虚拟对局位置之间的所述转移关系，确定所述位置转移关系。

在本申请实施例中，所述拓扑获取模块4551，还用于获取待执行转移策略，所述待执行转移策略为执行频率大于频率阈值的虚拟对局指示；基于所述待执行转移策略，控制所述待操作虚拟角色在所述待对局地图上进行虚拟对局。

在本申请实施例中，所述拓扑获取模块4551，还用于由每个所述待操作虚拟角色的各个所述虚拟对局位置之间的所述转移关系，得到与多个所述待操作虚拟角色对应的多个所述转移关系；对多个所述转移关系进行整合，得到初始转移关系；基于多个所述转移关系，计算所述初始转移关系中每个所述虚拟对局位置的转移次数；结合所述转移次数和所述初始转移关系，得到所述位置转移关系。

在本申请实施例中，所述拓扑获取模块4551，还用于获取待对局虚拟角色，所述待对局虚拟角色为待与所述待对局智能体进行虚拟对局的所述待操作虚拟角色；获取所述待对局虚拟角色在所述待对局地图上进行虚拟对局的所述位置转移关系。

在本申请实施例中，所述拓扑获取模块4551，还用于获取所述待对局虚拟角色的目标角色属性，所述目标角色属性包括角色等级、角色装配信息和角色时长中的至少一种；对所述目标角色属性进行特征提取，得到目标角色特征；基于所述目标角色特征，预测所述待对局虚拟角色在所述待对局地图上进行虚拟对局的所述位置转移关系。

在本申请实施例中，所述拓扑获取模块4551，还用于获取所述对局开始请求所请求的虚拟对局对应的阶段关联信息，所述阶段关联信息包括以下中的至少一种：已对局时长，对局状态角色数量，虚拟资源剩余量，对局任务完成度；基于所述阶段关联信息确定当前对局阶段；基于对局阶段与阶段转移关系之间的第一对应关系，确定与所述当前对局阶段对应的目标阶段转移关系，所述阶段转移关系表示在对应的所述对局阶段，所述待操作虚拟角色在所述待对局地图上进行虚拟对局所转移的位置；将所述目标阶段转移关系确定为所述位置转移关系。

在本申请实施例中，所述拓扑融合模块4552，还用于针对所述位置转移关系中的每个位置转移路径，在所述初始位置拓扑中确定与所述位置转移路径对应的转移位置序列；在所述初始位置拓扑中标记每个所述位置转移路径的所述转移位置序列，得到所述目标位置拓扑。

在本申请实施例中，所述转移预测模块4553，还用于基于待对局虚拟角色的对局胜负序列，确定对局胜负比例；结合所述目标位置拓扑和所述当前对局信息，预测待对局智能体的多个候选转移位置对应的多个转移概率；从多个所述转移概率中，确定与所述对局胜负比例对应的目标转移概率；将所述目标转移概率对应的所述候选转移位置，确定为所述待转移位置，基于所述待转移位置，得到所述待转移信息。

在本申请实施例中，所述动作预测模块4554，用于基于所述待对局智能体的所述当前观测信息和所述待对局方式，预测所述待对局智能体在所述待转移位置的所述待执行动作。

在本申请实施例中，所述拓扑获取模块4551，还用于对虚拟地图的网格地图模型进行通行检测，得到可通行位置拓扑；获取所述可通行位置拓扑中每个可通行位置的几何特征；基于所述几何特征，从所述可通行位置拓扑中确定转移位置拓扑；基于所述虚拟地图与所述转移位置拓扑，得到所述虚拟地图与所述转移位置拓扑之间的第二对应关系。

在本申请实施例中，所述拓扑获取模块4551，还用于响应于所述对局开始请求，得到所述待对局地图；基于所述第二对应关系，得到与所述待对局地图对应的目标转移位置拓扑，将所述目标转移位置拓扑确定为所述初始位置拓扑。

在本申请实施例中，所述待转移信息和所述待执行动作的预测通过对局预测模型实现，所述数据处理装置455还包括模型训练模块4556，用于采用第一待训练模型对地图样本的初始位置拓扑样本和位置转移关系样本、以及对局信息样本进行预测，得到预估转移信息，获取所述预估转移信息对应的转移奖励值；采用第二待训练模型对所述预估转移信息和智能体样本的观测信息样本进行预测，得到预估动作，获取所述预估动作的动作奖励值；基于所述转移奖励值训练所述第一待训练模型，并基于所述动作奖励值训练所述第二待训练模型，得到与所述第一待训练模型对应的第一目标模型、以及与所述第二待训练模型对应的第二目标模型；将所述第一目标模型和所述第二目标模型确定为所述对局预测模型。

本申请实施例提供了一种计算机程序产品，该计算机程序产品包括计算机可执行指令或者计算机程序，该计算机可执行指令或者计算机程序存储在计算机可读存储介质中。数据处理设备的处理器从计算机可读存储介质读取该计算机可执行指令或者计算机程序，处理器执行该计算机可执行指令或者计算机程序，使得该数据处理设备执行本申请实施例上述的数据处理方法。

本申请实施例提供一种计算机可读存储介质，其中存储有计算机可执行指令或者计算机程序，当计算机可执行指令或者计算机程序被处理器执行时，将引起处理器执行本申请实施例提供的数据处理方法，例如，如图3示出的数据处理方法。

在一些实施例中，计算机可读存储介质可以是FRAM、ROM、闪存、磁表面存储器、光盘、或CD-ROM等存储器；也可以是包括上述存储器之一或任意组合的各种设备。

在一些实施例中，计算机可执行指令可以采用程序、软件、软件模块、脚本或代码的形式，按任意形式的编程语言（包括编译或解释语言，或者声明性或过程性语言）来编写，并且其可按任意形式部署，包括被部署为独立的程序或者被部署为模块、组件、子例程或者适合在计算环境中使用的其它单元。

作为示例，计算机可执行指令可以但不一定对应于文件系统中的文件，可以可被存储在保存其它程序或数据的文件的一部分，例如，存储在超文本标记语言（Hyper TextMarkup Language，HTML）文档中的一个或多个脚本中，存储在专用于所讨论的程序的单个文件中，或者，存储在多个协同文件（例如，存储一个或多个模块、子程序或代码部分的文件）中。

作为示例，计算机可执行指令可被部署为在一个电子设备上执行（此时，这一个电子设备即为数据处理设备），或者在位于一个地点的多个电子设备上执行（此时，位于一个地点的多个电子设备即为数据处理设备），又或者，在分布在多个地点且通过通信网络互连的多个电子设备上执行（此时，分布在多个地点且通过通信网络互连的多个电子设备即为数据处理设备）。

可以理解的是，在本申请实施例中，涉及到位置转移关系和样本等相关的数据，当本申请实施例运用到具体产品或技术中时，需要获得用户许可或者同意，且相关数据的收集、使用和处理需要遵守相关国家和地区的相关法律法规和标准。

在本申请中，涉及到的数据抓取技术方案实施，在本申请以上实施例运用到具体产品或技术中时，相关数据收集、使用和处理过程应该遵守国家法律法规要求，符合合法、正当、必要的原则，不涉及获取法律法规禁止或限制的数据类型，不会妨碍目标网站的正常运行。

综上所述，本申请实施例在响应于对局开始请求控制智能体在虚拟场景进行虚拟对局时，结合待操作虚拟角色进行虚拟对局所转移的位置和待对局地图的初始位置拓扑，预测智能体的待转移位置，并预测智能体转移至该带转移位置的待执行动作；使得智能体执行该待执行动作所转移的位置与待操作虚拟角色所转移的位置相关，进而能够提升智能体与待操作虚拟角色的对局适配度，提升智能体的控制效果和质量。

以上所述，仅为本申请的实施例而已，并非用于限定本申请的保护范围。凡在本申请的精神和范围之内所作的任何修改、等同替换和改进等，均包含在本申请的保护范围之内。

Claims

1.一种数据处理方法，其特征在于，所述方法包括：

响应于对局开始请求，获取待对局地图的初始位置拓扑，所述初始位置拓扑是指所述待对局地图上用于在虚拟对局过程中进行转移的各个位置、以及各个位置之间的转移路径；

结合所述目标位置拓扑和当前对局信息，预测待对局智能体的待转移信息，所述待转移信息包括待转移位置，所述当前对局信息是指预测时刻虚拟对局中的以下信息之一：虚拟对局状态、待对局智能体的状态；

基于所述待对局智能体的当前观测信息，预测所述待对局智能体在所述待转移位置的待执行动作，所述当前观测信息是指待对局智能体视角下的对局信息；

控制所述待对局智能体在所述待对局地图上执行所述待执行动作，以在所述待对局地图上与待对局的所述待操作虚拟角色进行虚拟对局。

2.根据权利要求1所述的方法，其特征在于，所述对所述初始位置拓扑和位置转移关系进行融合，得到目标位置拓扑之前，所述方法还包括：

对所述待操作虚拟角色在所述待对局地图上进行虚拟对局的信息进行采集，得到待处理对局信息；

从所述待处理对局信息中，确定发生虚拟对局事件的各个虚拟对局位置之间的转移关系；

基于各个所述虚拟对局位置之间的所述转移关系，确定所述位置转移关系。

3.根据权利要求2所述的方法，其特征在于，所述对所述待操作虚拟角色在所述待对局地图上进行虚拟对局的信息进行采集，得到待处理对局信息之前，所述方法还包括：

获取待执行转移策略，所述待执行转移策略为执行频率大于频率阈值的虚拟对局指示；

基于所述待执行转移策略，控制所述待操作虚拟角色在所述待对局地图上进行虚拟对局。

4.根据权利要求2或3所述的方法，其特征在于，所述基于各个所述虚拟对局位置之间的所述转移关系，确定所述位置转移关系，包括：

由每个所述待操作虚拟角色的各个所述虚拟对局位置之间的所述转移关系，得到与多个所述待操作虚拟角色对应的多个所述转移关系；

对多个所述转移关系进行整合，得到初始转移关系；

基于多个所述转移关系，计算所述初始转移关系中每个所述虚拟对局位置的转移次数；

结合所述转移次数和所述初始转移关系，得到所述位置转移关系。

5.根据权利要求1所述的方法，其特征在于，所述对所述初始位置拓扑和位置转移关系进行融合，得到目标位置拓扑之前，所述方法还包括：

获取待对局虚拟角色，所述待对局虚拟角色为待与所述待对局智能体进行虚拟对局的所述待操作虚拟角色；

获取所述待对局虚拟角色在所述待对局地图上进行虚拟对局的所述位置转移关系。

6.根据权利要求5所述的方法，其特征在于，所述获取待对局虚拟角色之后，所述方法还包括：

获取所述待对局虚拟角色的目标角色属性，所述目标角色属性包括角色等级、角色装配信息和角色时长中的至少一种；

对所述目标角色属性进行特征提取，得到目标角色特征；

基于所述目标角色特征，预测所述待对局虚拟角色在所述待对局地图上进行虚拟对局的所述位置转移关系。

7.根据权利要求1所述的方法，其特征在于，所述对所述初始位置拓扑和位置转移关系进行融合，得到目标位置拓扑之前，所述方法还包括：

获取所述对局开始请求所请求的虚拟对局对应的阶段关联信息，所述阶段关联信息包括以下中的至少一种：已对局时长，对局状态角色数量，虚拟资源剩余量，对局任务完成度；

基于所述阶段关联信息确定当前对局阶段；

基于对局阶段与阶段转移关系之间的第一对应关系，确定与所述当前对局阶段对应的目标阶段转移关系，所述阶段转移关系表示在对应的所述对局阶段，所述待操作虚拟角色在所述待对局地图上进行虚拟对局所转移的位置；

将所述目标阶段转移关系确定为所述位置转移关系。

8.根据权利要求1至3、5至7任一项所述的方法，其特征在于，所述对所述初始位置拓扑和位置转移关系进行融合，得到目标位置拓扑，包括：

针对所述位置转移关系中的每个位置转移路径，在所述初始位置拓扑中确定与所述位置转移路径对应的转移位置序列；

在所述初始位置拓扑中标记每个所述位置转移路径的所述转移位置序列，得到所述目标位置拓扑。

9.根据权利要求1至3、5至7任一项所述的方法，其特征在于，所述结合所述目标位置拓扑和当前对局信息，预测待对局智能体的待转移信息，包括：

基于待对局虚拟角色的对局胜负序列，确定对局胜负比例；

结合所述目标位置拓扑和所述当前对局信息，预测待对局智能体的多个候选转移位置对应的多个转移概率；

从多个所述转移概率中，确定与所述对局胜负比例对应的目标转移概率；

将所述目标转移概率对应的所述候选转移位置，确定为所述待转移位置，基于所述待转移位置，得到所述待转移信息。

10.根据权利要求1至3、5至7任一项所述的方法，其特征在于，所述待转移信息还包括在所述待转移位置的待对局方式，所述待对局方式包括以下信息中的至少一种：虚拟进攻，虚拟防守，分路对局，虚拟支援，虚拟埋伏；

所述位置转移关系还包括每个所转移的位置对应的历史对局信息；

所述基于所述待对局智能体的当前观测信息，预测所述待对局智能体在所述待转移位置的待执行动作，包括：

基于所述待对局智能体的所述当前观测信息和所述待对局方式，预测所述待对局智能体在所述待转移位置的所述待执行动作。

11.根据权利要求1至3、5至7任一项所述的方法，其特征在于，所述响应于对局开始请求，获取待对局地图的初始位置拓扑之前，所述方法还包括：

对虚拟地图的网格地图模型进行通行检测，得到可通行位置拓扑；

获取所述可通行位置拓扑中每个可通行位置的几何特征；

基于所述几何特征，从所述可通行位置拓扑中确定转移位置拓扑；

基于所述虚拟地图与所述转移位置拓扑，得到所述虚拟地图与所述转移位置拓扑之间的第二对应关系；

所述响应于对局开始请求，获取待对局地图的初始位置拓扑，包括：

响应于所述对局开始请求，得到所述待对局地图；

基于所述第二对应关系，得到与所述待对局地图对应的目标转移位置拓扑，将所述目标转移位置拓扑确定为所述初始位置拓扑。

12.根据权利要求1至3、5至7任一项所述的方法，其特征在于，所述待转移信息和所述待执行动作的预测通过对局预测模型实现，所述对局预测模型通过以下步骤训练获得：

采用第一待训练模型对地图样本的初始位置拓扑样本和位置转移关系样本、以及对局信息样本进行预测，得到预估转移信息，获取所述预估转移信息对应的转移奖励值；

采用第二待训练模型对所述预估转移信息和智能体样本的观测信息样本进行预测，得到预估动作，获取所述预估动作的动作奖励值；

基于所述转移奖励值训练所述第一待训练模型，并基于所述动作奖励值训练所述第二待训练模型，得到与所述第一待训练模型对应的第一目标模型、以及与所述第二待训练模型对应的第二目标模型；

将所述第一目标模型和所述第二目标模型确定为所述对局预测模型。

13.一种数据处理装置，其特征在于，所述数据处理装置包括：

拓扑获取模块，用于响应于对局开始请求，获取待对局地图的初始位置拓扑，所述初始位置拓扑是指所述待对局地图上用于在虚拟对局过程中进行转移的各个位置、以及各个位置之间的转移路径；

转移预测模块，用于结合所述目标位置拓扑和当前对局信息，预测待对局智能体的待转移信息，所述待转移信息包括待转移位置，所述当前对局信息是指预测时刻虚拟对局中的以下信息之一：虚拟对局状态、待对局智能体的状态；

动作预测模块，用于基于所述待对局智能体的当前观测信息，预测所述待对局智能体在所述待转移位置的待执行动作，所述当前观测信息是指待对局智能体视角下的对局信息；

信息控制模块，用于控制所述待对局智能体在所述待对局地图上执行所述待执行动作，以在所述待对局地图上与待对局的所述待操作虚拟角色进行虚拟对局。

14.一种用于数据处理电子设备，其特征在于，所述电子设备包括：

存储器，用于存储计算机可执行指令或者计算机程序；

处理器，用于执行所述存储器中存储的计算机可执行指令或者计算机程序时，实现权利要求1至12任一项所述的数据处理方法。

15.一种计算机可读存储介质，存储有计算机可执行指令或者计算机程序，其特征在于，所述计算机可执行指令或者计算机程序被处理器执行时，实现权利要求1至12任一项所述的数据处理方法。

16.一种计算机程序产品，包括计算机可执行指令或者计算机程序，其特征在于，所述计算机可执行指令或者计算机程序被处理器执行时，实现权利要求1至12任一项所述的数据处理方法。