CN109471712B

CN109471712B - 虚拟环境中的虚拟对象的调度方法、装置及设备

Info

Publication number: CN109471712B
Application number: CN201811393388.0A
Authority: CN
Inventors: 邱福浩; 吴斌; 屈鹏; 李晓倩; 梁静
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2018-11-21
Filing date: 2018-11-21
Publication date: 2023-03-10
Anticipated expiration: 2038-11-21
Also published as: WO2020103723A1; US20210178271A1; CN109471712A; SG11202102754YA; US20230029460A1; JP2022502112A; US11491400B2; JP7159458B2; KR20210028728A; KR102523888B1; US11779837B2

Abstract

本申请公开了一种虚拟环境中的虚拟对象的调度方法、装置及设备，属于计算机技术领域。所述方法包括：获取虚拟环境的应用程序在运行时产生的帧数据；对帧数据进行特征提取得到目标虚拟对象的状态特征；对状态特征进行推演，得到N种后续状态特征；调用价值网络预测模型对N种后续状态特征进行处理，得到执行N种调度策略的预期回报收益；控制目标虚拟对象执行预期回报收益最高的调度策略。本申请通过提取得到当前局面状态的状态特征，实现了对虚拟环境中的局面状态的离散化和抽样化处理，从而在状态特征的基础上结合N种调度策略得到N种后续状态特征，进而评估后续状态特征，实现了对虚拟环境的局面状态的推演，提高了AI确定调度策略的准确度。

Description

虚拟环境中的虚拟对象的调度方法、装置及设备

技术领域

本申请涉及计算机技术领域，特别涉及一种虚拟环境中的虚拟对象的调度方法、装置及设备。

背景技术

人工智能(Artificial Intelligence，AI)是一种以人类思考方式做出反应，执行相应行为的计算机程序系统，其广泛应用于图像识别、语音识别、自然语言处理以及专家系统等领域。其中，专家系统是一种模拟人类专家解决领域问题的AI，例如，模拟围棋棋手下围棋的AI阿尔法围棋(Alphago)。

推演法是Alphago的核心算法，其根据所有可执行的后续落子行为对围棋的当前局面状态进行模拟推演直至一局结束，从而得到每种后续落子行为最终的胜负概率，进而准确地确定最优的落子策略。由于围棋可以采用19×19的二维空间来进行表示，因此围棋的局面状态是一种离散有限状态，同时一局围棋平均约150个回合，局面状态之间的转化可以根据落子行为唯一确定，因此基于离散的状态空间和行为空间，以及有限的回合数能够实现对围棋的局面状态的推演。

在诸如智能手机、平板电脑之类的终端上，存在很多具有二维或三维虚拟环境的应用程序，如：多人在线战术竞技游戏(Multiplayer Online Battle Arena Games，MOBA)、模拟策略游戏(Simulation Game，SLG)等。在上述应用程序中，用户可通过控制虚拟对象(例如：虚拟人物)执行调度策略以期获得胜利，当用户因故无法控制虚拟对象时，需要依赖AI辅助用户执行相应的调度策略。在AI执行调度策略之前，需要对当前局面状态进行推演，从而确定最优的调度策略。

虚拟环境中的局面状态空间远大于围棋，且虚拟对象的可执行行为具有连续性和多样性，比如MOBA游戏中地图大小约50000×50000像素，包括60多种不同类型的可操作单位，每个可操作单位具有连续性和多样性，因此AI难以对虚拟环境的局面状态进行推演，从而导致AI确定调度策略的准确度较低。

发明内容

本申请实施例提供了一种虚拟环境中的虚拟对象的调度方法、装置及设备，用以解决相关技术中由于AI难以对虚拟环境的局面状态进行推演，从而导致AI确定调度策略的准确度较低问题。所述技术方案如下：

一方面，本申请实施例提供了一种虚拟环境中的虚拟对象的调度方法，所述虚拟环境中包括至少两个虚拟对象以及供所述虚拟对象使用的虚拟资源，所述方法包括：

获取所述虚拟环境的应用程序在运行时产生的帧数据；

对所述帧数据进行特征提取得到目标虚拟对象在当前局面状态的状态特征，所述状态特征包括关联虚拟对象和所述虚拟资源的状态，所述关联虚拟对象包括所述目标虚拟对象以及与所述目标虚拟对象具有利益关系的虚拟对象；

根据对所述状态特征进行推演，得到N种后续状态特征，N为正整数，N≥2；

调用价值网络预测模型对所述N种后续状态特征进行处理，得到所述目标虚拟对象执行所述N种调度策略的预期回报收益；

控制所述目标虚拟对象执行所述N种调度策略中预期回报收益最高的调度策略。

一方面，本申请实施例提供了一种虚拟环境中的虚拟对象的调度装置，所述虚拟环境中包括至少两个虚拟对象以及供所述虚拟对象使用的虚拟资源，所述装置包括：

数据获取模块，用于获取所述虚拟环境的应用程序在运行时产生的帧数据；

特征提取模块，用于对所述帧数据进行特征提取得到目标虚拟对象在当前局面状态的状态特征，所述状态特征包括关联虚拟对象和所述虚拟资源的状态，所述关联虚拟对象包括所述目标虚拟对象以及与所述目标虚拟对象具有利益关系的虚拟对象；

状态推演模块，用于根据对所述状态特征进行推演，得到N种后续状态特征，N为正整数，N≥2；

价值评估模块，用于调用价值网络预测模型对所述N种后续状态特征进行处理，得到所述目标虚拟对象执行所述N种调度策略的预期回报收益；

控制模块，用于控制所述目标虚拟对象执行所述N种调度策略中预期回报收益最高的调度策略。

一方面，本申请实施例提供了一种计算机设备，所述计算机设备包括处理器和存储器，所述存储器中存储有至少一条指令，所述指令由所述处理器加载并执行以实现如上所述的虚拟环境中的虚拟对象的调度方法。

一方面，本申请实施例提供了一种计算机可读存储介质，其特征在于，所述存储介质中存储有至少一条指令，所述指令由处理器加载并执行以实现如上所述的虚拟环境中的虚拟对象的调度方法。

本申请实施例提供的技术方案带来的有益效果至少包括：

通过获取得到虚拟环境当前局面下的状态特征，由于该状态特征被抽样为关联虚拟对象的状态和虚拟资源的状态，从而实现了将虚拟环境中的当前局面的抽样化，由于关联虚拟对象和虚拟资源是有限个数，从而实现了将虚拟环境中的当前局面的离散化，从而能够在有限的离散化的状态特征的基础上结合N种调度策略得到N种后续状态特征，进而通过调用价值网络预测模型对N种后续状态特征进行处理，得到目标虚拟对象执行每种调度策略的预期回报收益，由于不需要对当前局面状态的状态特征进行推演至达成胜负条件的最后一个状态特征，从而简化了推演步骤，实现了对虚拟环境的局面状态的推演，进而提高了AI控制虚拟对象执行调度策略的准确度。

附图说明

为了更清楚地说明本申请实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本申请一个示例性实施例提供的计算机系统的结构框图；

图2是本申请一个示例性实施例提供的虚拟环境中的虚拟对象的调度方法的流程图；

图3是本申请一个示例性实施例提供的价值网络预测模型的训练方法的流程图；

图4是本申请一个示例性实施例提供的虚拟环境的地图示意图；

图5是本申请一个示例性实施例提供的虚拟环境中的虚拟对象的调度方法的流程图；

图6是本申请一个示例性实施例提供的状态特征推演效果图；

图7是本申请一个示例性实施例提供的虚拟装置的整体架构图；

图8是本申请一个示例性实施例提供的训练模块的工作流程图；

图9是本申请一个示例性实施例提供的预测模块的工作流程图；

图10是本申请一个示例性实施例提供的预测模块的工作示意图；

图11是本申请一个示例性实施例提供的虚拟环境中的虚拟对象的调度装置的框图；

图12是本申请一个示例性实施例提供的计算机设备的结构框图。

具体实施方式

为使本申请的目的、技术方案和优点更加清楚，下面将结合附图对本申请实施方式作进一步地详细描述。

首先，对本申请实施例中涉及的名词进行介绍：

虚拟环境：是应用程序在终端上运行时显示(或提供)的虚拟环境。该虚拟环境可以是对真实世界的仿真环境，也可以是半仿真半虚构的三维环境，还可以是纯虚构的三维环境。虚拟环境可以是二维虚拟环境、2.5维虚拟环境和三维虚拟环境中的任意一种。可选地，该虚拟环境还用于至少两个虚拟角色之间的虚拟环境对战，在该虚拟环境中具有可供至少两个虚拟角色使用的虚拟资源。可选的，该虚拟环境的地图为正方形或矩形，该正方形或矩形包括对称的左下对角区域以及右上对角区域；在虚拟环境中对战的胜利条件包括占据或摧毁敌对阵营的目标据点，该目标据点可以是敌对阵营的所有据点，也可以是敌对阵营的部分据点(例如主基地和防守塔)。

虚拟对象：是指在虚拟环境中的可活动对象。该可活动对象可以是虚拟人物、虚拟动物、动漫人物中的至少一种。可选地，当虚拟环境为三维虚拟环境时，虚拟对象是三维立体模型，每个虚拟对象在三维虚拟环境中具有自身的形状和体积，占据三维虚拟环境中的一部分空间。可选的，虚拟对象可选的，虚拟对象可以是MOBA游戏中的英雄人物、士兵或中立生物，本申请实施例中以目标虚拟对象为英雄人物来举例说明。

MOBA游戏：是一种在虚拟环境中提供若干个据点，用户控制属于不同阵营的虚拟对象在虚拟环境中对战，占领据点或摧毁敌对阵营据点的游戏。例如，MOBA游戏可将虚拟对象分成两个敌对阵营，分散在虚拟环境中互相竞争，以摧毁或占领敌方的全部据点作为胜利条件。MOBA游戏以局为单位，一局MOBA游戏的持续时间从游戏开始的时刻至达成胜利条件的时刻。

调度策略：确定虚拟对象移动至目标区域，并在目标区域执行相应任务的行为。例如，将在A区域防守的虚拟对象进行大范围的转移调动至B区域与敌方阵营的虚拟对象进行局部作战，以期获得更好的收益。通常，调度策略对用户的大局观要求较高。

帧数据：是虚拟环境的应用程序在运行时产生的数据，由于虚拟环境的用户界面是以帧为单位进行显示，因此应用程序在运行时产生的数据也是以帧为单位，故被称为帧数据。其中，帧数据中包含虚拟环境中每个虚拟对象对应的帧数据，虚拟对象对应的帧数据是用于生成虚拟对象对应的用户界面的数据。以应用程序为MOBA游戏为例，操控虚拟对象A的A终端在运行MOBA游戏时，每隔一定时间间隔显示一帧虚拟对象A对应的游戏画面(即用户界面)，每帧游戏画面对应的数据即为虚拟对象A对应的帧数据。

收益(Reward)：是虚拟对象的调度策略和/或行为对胜利条件的整体贡献。虚拟对象的行为对胜利条件的贡献为即时收益，虚拟对象的调度策略对胜利条件的贡献为回报收益。例如，虚拟对象在A区域防守，虚拟对象的行为为对虚拟动物进行攻击，攻击虚拟动物所造成的经验值增加对胜利条件的贡献为虚拟对象A的即时收益；用户控制虚拟对象由A区域进行大范围的转移调动至B区域与敌方阵营的虚拟对象进行局部作战，虚拟对象击杀地方阵营虚拟对象对胜利条件的贡献即为回报收益。

价值网络模型(Value network)：是一种根据虚拟环境的应用程序的每一个局面状态下的状态特征和对战结果，计算得到每个状态特征对胜利条件的贡献从而得到该状态特征的回报收益，得到大量的状态特征-回报收益样本对数据集，利用状态特征-回报收益样本数据集，通过有监督的深度学习模型，得到一个对状态特征进行预测回报收益的机器学习模型。

机器学习模型：是一种运算模型，由大量的节点(或称神经元)之间相互联接构成，每个节点对应一个策略函数，每两个节点间的连接代表一个对于通过该连接信号的加权值，称之为权重。样本输入机器学习模型的节点后，通过每个节点输出一个输出结果，该输出结果作为下一个节点的输入样本，机器学习模型通过样本最终输出结果对每个节点的策略函数和权重进行调整，该过程被称为训练。

图1，示出了本申请一个示例性实施例提供的计算机系统的结构框图。该计算机系统100包括：第一终端110、第二终端130以及服务器120。

第一终端110安装和运行有支持虚拟环境的应用程序，当第一终端运行应用程序时，第一终端的屏幕上显示应用程序的用户界面111。该应用程序可以是MOBA游戏、SLG游戏中的任意一种。第一终端110是第一用户101使用的终端，第一用户101使用第一终端110控制位于虚拟环境中的第一虚拟对象进行活动，该活动包括但不限于：调整身体姿态、爬行、步行、奔跑、骑行、跳跃、驾驶、拾取、射击、攻击、投掷中的至少一种。示意性的，第一虚拟对象是第一虚拟人物，比如仿真人物角色或动漫人物角色。

第二终端130安装和运行有支持虚拟环境的应用程序。该应用程序可以是MOBA游戏、SLG游戏中的任意一种，当第二终端运行应用程序时，第一终端的屏幕上显示应用程序的用户界面531。第二终端130是第二用户102使用的终端，第二用户102使用第二终端130控制位于虚拟环境中的第二虚拟对象进行活动。示意性的，第二虚拟对象是第二虚拟人物，比如仿真人物角色或动漫人物角色。

可选地，第一虚拟人物和第二虚拟人物处于同一虚拟环境中。可选地，第一虚拟人物和第二虚拟人物可以属于同一个阵营、同一个队伍、同一个组织、具有好友关系或具有临时性的通讯权限。可选的，第一虚拟人物和第二虚拟人物可以属于不同的阵营、不同的队伍、不同的组织或具有敌对关系。

可选地，第一终端110和第二终端130上安装的应用程序是相同的，或两个终端上安装的应用程序是不同控制系统平台的同一类型应用程序。第一终端110可以泛指多个终端中的一个，第二终端130可以泛指多个终端中的一个，本实施例仅以第一终端110和第二终端130来举例说明。第一终端110和第二终端130的设备类型相同或不同，该设备类型包括：智能手机、平板电脑、电子书阅读器、MP3播放器、MP4播放器、膝上型便携计算机和台式计算机中的至少一种。

其它终端140可以是开发者对应的终端，在终端140上安装有虚拟环境的应用程序的开发和编辑平台，开发者可在终端140上对应用程序进行编辑，并将编辑后的应用程序文件通过有线或无线网络传输至服务器120，第一终端110和第二终端130可从服务器120下载应用程序对应的更新包实现对应用程序的更新。

第一终端110、第二终端130以及其它终端140通过无线网络或有线网络与服务器120相连。

服务器120包括一台服务器、多台服务器、云计算平台和虚拟化中心中的至少一种。服务器120用于为支持三维虚拟环境的应用程序提供后台服务。可选地，服务器120承担主要计算工作，终端承担次要计算工作；或者，服务器120承担次要计算工作，终端承担主要计算工作；或者，服务器120和终端之间采用分布式计算架构进行协同计算。

服务器120包括至少一个服务器模组121，服务器模组121包括处理器122、用户数据库123、应用程序数据库124、面向用户的输入/输出接口(Input/Output Interface，I/O接口)125以及面向开发者的输出/输出接口126。其中，处理器122用于加载服务器模组121中存储的指令，处理用户数据库123和应用程序数据库124中的数据；用户数据库123用于存储第一终端110和/或第二终端130通过无线网络或有线网络上传的用户数据；应用程序数据库124用于存储虚拟环境的应用程序中的数据；面向用户的I/O接口125用于通过无线网络或有线网络和第一终端110和/或第二终端130建立通信交换数据；面向开发者的I/O接口126用于通过无线网络或有线网络和其它终端140建立通信交换数据。

在AI辅助用户控制目标虚拟对象进行调度的场景中，第一用户101使用第一终端110控制位于虚拟环境中的第一虚拟对象进行活动。当用户不便控制第一虚拟对象时，可在应用程序中开启AI辅助控制功能，服务器120在接收到AI辅助功能开启的信号后，对第一虚拟对象进行调度。

在AI控制目标虚拟对象与用户进行对战的场景中，服务器120控制位于虚拟环境中的第一虚拟对象进行活动，第二用户102使用第二终端130控制位于同一虚拟环境中的第二虚拟对象进行活动。

在AI控制至少一个虚拟对象在虚拟环境中对战的场景中，服务器120控制位于虚拟环境中的多个虚拟对象进行对战。在该应用场景中，第一终端110和第二终端130为可选的设备。

上述应用场景中，服务器120通过以下方式对调度策略进行评估：获取虚拟环境的应用程序在运行时产生的帧数据；提取帧数据中与目标虚拟对象对应的目标帧数据；对目标帧数据进行特征提取，得到目标虚拟对象在当前局面状态下的状态特征；调用价值网络预测模型对状态特征进行处理，得到目标虚拟对象在当前局面状态中执行N种调度策略的预期回报收益，N为正整数，N≥2。其中，目标虚拟对象可以是第一虚拟对象，也可以是第二虚拟对象，或，其它终端控制的其它虚拟对象。

本领域技术人员可以知晓，上述终端的数量可以更多或更少。比如上述终端可以仅为一个，或者上述终端为几十个或几百个，或者更多数量。本申请实施例对终端的数量和设备类型不加以限定。

图2，示出了本申请一个示例性实施例提供的虚拟环境中的虚拟对象的调度方法的流程图。该方法可应用于如图1所示的计算机系统100中，该方法包括：

步骤201，获取虚拟环境的应用程序在运行时产生的帧数据。

帧数据是虚拟环境的应用程序在运行时产生的数据，帧数据包括虚拟环境中每个虚拟对象的数据以及每个虚拟资源的数据，由于虚拟环境的用户界面是以帧为单位进行显示，因此应用程序在运行时产生的数据也是以帧为单位，故被称为帧数据。服务器每隔预定时间获取帧数据，或，每当新的帧数据生成时，服务器获取得到新生成的帧数据。

示例性的，虚拟对象的数据包括虚拟对象的位置(坐标)、属性(经验值、经济值、体力值、击杀数量、死亡数量、资源值以及能力值等)、行为(移动类型的行为、拾取类型的行为以及攻击类型的行为等)等；虚拟资源包括建筑、中立生物、军队、交通工具、武器以及弹药等，虚拟资源的数据包括虚拟资源的位置(坐标)、属性(耐久值、体力值、能力值、归属等)以及行为(移动行为、攻击行为等)等。

步骤202，对帧数据进行特征提取得到目标虚拟对象在当前局面状态中的状态特征。

服务器对帧数据进行特征提取，得到至少两个虚拟对象中的目标虚拟对象在当前局面状态中的状态特征，该状态特征包括关联虚拟对象的状态和虚拟资源的状态。

其中，关联虚拟对象是目标虚拟对象以及与目标虚拟对象具有利益关系的虚拟对象。例如，与目标虚拟对象属于同一阵营的虚拟对象，以及出现在目标虚拟对象或目标虚拟对象同一阵营的虚拟对象的视野范围中的敌方虚拟对象。

示例性的，目标虚拟对象的状态特征包括关联虚拟对象的状态和虚拟资源的状态。例如，虚拟对象A、虚拟对象B以及虚拟对象C属于阵营1，虚拟对象D、虚拟对象E以及虚拟对象F属于阵营2，虚拟对象A为服务器控制的目标虚拟对象。其中，虚拟对象D在虚拟对象B的视野范围中，虚拟对象E在虚拟对象A的视野范围中，与虚拟对象A处于对战状态，与虚拟对象A具有利益关系，虚拟对象F不在虚拟对象A、虚拟对象B以及虚拟对象C的视野中，因此，关联虚拟对象包括虚拟对象A、虚拟对象B、虚拟对象C、虚拟对象D以及虚拟对象E为关联虚拟对象。

服务器读取帧数据中关联虚拟对象的数据以及虚拟资源的数据，进行特征提取，得到状态特征。例如，服务器提取得到的状态特征为S(S₁ ^h,S₂ ^h,……,S₀₁ ^t,S₀₂ ^t,……,S₀₁ ^m,S₀₂ ^m,……)。其中，S表示目标虚拟对象在当前局面状态中的状态特征，S_* ^h表示第*个虚拟对象的状态，S_* ^t表示第*个建筑物的状态，S_* ^m表示第*个中立生物的状态。

由于状态特征被抽样为关联虚拟对象的状态和虚拟资源的状态，从而实现了将虚拟环境中的当前局面的抽样化，由于关联虚拟对象和虚拟资源是有限个数，从而实现了对虚拟环境中的当前局面的离散化。

示例性的，MOBA游戏中包括两个阵营，每个阵营包括5个虚拟对象，MOBA游戏地图中包括144个可争夺、占据或摧毁的虚拟资源位置，因此提取得到的状态特征中包括5-10个虚拟对象的状态，以及144个虚拟资源的状态，从而实现了将虚拟环境中当前局面的抽样化和离散化。

步骤203，对状态特征进行推演，得到N种后续状态特征，N为正整数，N≥2。

示例性的，以调度策略为移动至n个可移动的移动区域执行m种行为为例。目标虚拟对象对应有m种可执行的行为(包括拾取类型的行为和攻击类型的行为，其中拾取类型的行为包括拾取物品、装备物品、摧毁物品、改造物品等，攻击类型的行为又包括射击、物理攻击、法术攻击、投掷弹药等)，以及n个可移动的移动区域，由m种行为和n个可移动的位置构成了目标虚拟对象的N种调度策略，m、n为正整数，m≥1，n≥2，m*n＝N。服务器计算目标虚拟对象在执行N种调度策略后，当前局面状态转变为N种后续局面状态所导致的当前局面状态下的状态特征转化为N种后续状态特征。例如，当前状态特征中，位于移动区域1的建筑1的状态为中立，目标虚拟对象的N种调度策略中第i种调度策略为移动至移动区域1，当目标虚拟对象移动至移动区域1后，移动区域1中的建筑1的状态将会由中立转化为控制状态。

步骤204，调用价值网络预测模型对N种后续状态特征进行处理，得到目标虚拟对象执行N种调度策略的预期回报收益。

其中，预期回报收益用于表征每种调度策略对在虚拟环境中对战的胜利条件的贡献。服务器将N种后续状态特征输入价值网络预测模型，得到价值网络模型。

示例性的，以调度策略为移动至n个移动区域为例，目标虚拟对象可移动的区域为移动区域1、移动区域2以及移动区域3，通过读取状态特征得到移动区域1的状态具有中立状态的建筑物，移动区域2的状态为同阵营的虚拟对象与敌方阵营的虚拟对象对战，移动区域3的状态为具有中立状态的中立生物，价值网络预测模型预测目标虚拟对象移动至移动区域1的预期回报收益为1，预测目标虚拟对象移动至移动区域2对占据具有有益的效果，其预期回报收益为3，预测目标虚拟对象移动至移动区域3会杀死中立生物获得经验值，其预期回报收益为2。

步骤205，控制目标虚拟对象执行N种调度策略中预期回报收益最高的调度策略。

服务器对N中调度策略的预期回报收益中预期回报收益最高的调度策略作为目标调度策略，控制目标虚拟对象执行目标调度策略。示例性的，如步骤204中所述，服务器计算得到将目标虚拟对象移动至移动区域1的预期回报收益为1，将目标虚拟对象移动至移动区域2的预期回报收益为3，目标虚拟对象移动至移动区域3的预期回报收益为2，则确定预期回报收益最高的调度策略，即移动至移动区域3为目标调度策略，控制目标虚拟对象移动至移动区域3。

综上所述，本申请实施例中，通过获取得到虚拟环境当前局面下的状态特征，由于该状态特征被抽样为关联虚拟对象的状态和虚拟资源的状态，从而实现了将虚拟环境中的当前局面的抽样化，由于关联虚拟对象和虚拟资源是有限个数，从而实现了将虚拟环境中的当前局面的离散化，从而能够在有限的离散化的状态特征的基础上结合N种调度策略得到N种后续状态特征，进而通过调用价值网络预测模型对N种后续状态特征进行处理，得到目标虚拟对象执行每种调度策略的预期回报收益，由于不需要对当前局面状态的状态特征进行推演至达成胜负条件的最后一个状态特征，从而简化了推演步骤，实现了对虚拟环境的局面状态的推演，进而提高了AI控制虚拟对象执行调度策略的准确度。

同时，本申请实施例中，虚拟对象执行的调度策略是基于当前局面的状态特征以及N种调度策略推演得到N种后续状态特征，通过价值网络模型对N种调度特征进行处理得到的，因此不依赖于虚拟环境的应用程序的逻辑，提高了AI控制虚拟对象进行调度的适应性。

服务器在调用价值网络预测模型对状态特征进行处理之前，需要对价值网络预测模型进行训练，价值网络预测模型的训练数据基于用户运行虚拟环境的应用程序的历史数据。以下实施例将对价值网络预测模型的训练过程进行说明。

图3，示出了本申请一个示例性实施例提供的价值网络预测模型的训练方法的流程图。该方法可应用于如图1所示的计算机系统100中，该方法可以是图2实施例中步骤202之前的方法，该方法包括：

步骤301，获取得到p个样本帧数据，p为正整数，p≥2。

可选的，服务器获取得到p个样本帧数据的方法包括但不限于以下步骤：

步骤301a，获取l个历史帧数据，l为正整数，l≥p。

服务器获取得到虚拟环境的应用程序在运行过程中产生的历史帧数据，得到l个历史目标帧数据。

示例性的，运行一局达到胜利条件的MOBA游戏会产生20000帧左右的历史帧数据，服务器以局为单位，获取得到运行至少一局MOBA游戏产生的历史帧数据，从而得到历史帧数据。

步骤301b，按照预设时间步长抽取l个历史帧数据得到q个候选帧数据，q为正整数，p≤q≤l。

服务器按照预设时间步长为单位，对m个历史帧数据进行抽取，从而得到q个候选帧数据。示例性的，历史帧数据之间的时间间隔为0.05秒，服务器按照预设时间步长1秒为单位，对历史帧数据进行抽取从而得到候选帧数据，从而将需要处理的帧数据的数量降低了95％。

步骤301c，对q个候选帧数据进行读取，将候选帧数据中包含攻击行为的确定为样本帧数据，得到p个样本帧数据，n≤q。

服务器对候选帧数据进行读取，将候选帧数据中包括攻击行为的确定为样本帧数据，从而得到p个样本帧数据。

步骤302，对每个样本帧数据进行特征提取，得到p个样本帧数据的样本状态特征。

服务器对样本帧数据进行特征提取，得到p个样本帧数据的状态特征，该状态特征包括关联虚拟对象的状态和虚拟资源的状态。

可选的，虚拟资源包括建筑、中立生物、军队、交通工具、武器以及弹药中的至少一种；关联虚拟对象的状态包括关联虚拟对象的位置、体力值、攻击力值、防御力值、经验值、击杀数量、死亡数量以及经济值中的至少一种；虚拟资源的状态包括虚拟资源的位置、体力值、攻击力值、防御力值、耐久值以及占据状态中的至少一种。

虚拟资源的占据状态包括中立状态、控制状态、占有状态或争夺状态。

中立状态用于表征虚拟资源不能被归属于任一阵营。例如，中立生物和中立建筑的占据状态为中立状态，任一阵营的虚拟对象可以攻击中立生物，使中立生物处于被控制状态。

控制状态用于表征虚拟资源所在的移动区域内具有同一阵营的至少一个虚拟对象。例如，中立建筑1位于移动区域1中，移动区域1中具有属于阵营1的虚拟对象A，则中立建筑1的占据状态为被阵营1控制。

占有状态用于表征所述虚拟资源归属于任一阵营。例如，防御塔1是归属于阵营1的建筑，其它阵营无法控制防御塔1，其它阵营的虚拟对象在移动中只能绕过该防御塔1或将其摧毁。

争夺状态用于表征所述虚拟资源所在的移动区域内具有至少两个属于不同阵营的虚拟对象。例如，中立生物或中立建筑所在的移动区域内存在分别属于阵营1和阵营2的虚拟对象，则该中立生物或中立建筑的占据状态为争夺状态。

本申请实施例中，虚拟环境的地图以虚拟资源所在位置被划分为n个移动区域，n为正整数，n≥2。示例性的，如图4所示，虚拟环境的地图400以虚拟资源(图4中三角形为虚拟建筑的标识，五角星形为中立生物的标识)所在的位置被划分为10个移动区域411-420，该地图400上显示有目标虚拟对象401，以及与目标虚拟对象401属于同一阵营的虚拟对象402，在目标虚拟对象401的视野范围内且属于敌对阵营的虚拟对象404，在虚拟对象402的视野范围内且属于敌对阵营的虚拟对象403。如图4中箭头所示，目标虚拟对象可移动的移动区域为10个移动区域(包括目标虚拟对象所在的移动区域411)。

步骤303，计算得到p个样本状态特征中每个样本状态特征的即时收益。

示例性的，服务器读取样本状态特征中虚拟对象的行为和状态，计算得到虚拟对象执行该行为导致状态的变化，从而计算得到基于状态变化对胜利条件的贡献，得到即时收益。例如，样本状态特征1中虚拟对象的经验值为2，虚拟对象的行为为正在攻击中立生物，虚拟对象击杀中立生物后可获取得到3的经验值，即，虚拟对象击杀中立生物后的经验值为5，服务器计算虚拟对象经验值由2增加至5对胜利条件的贡献得到样本状态特征1的即时收益。

步骤304，对于p个样本状态特征中的第i个样本状态特征，根据第i个样本状态特征的即时收益和第i+1个样本状态特征的即时收益，计算得到第i个样本状态特征的实际回报收益，i为正整数，i≤p。

每个状态特征的实际回报收益为累计结果，例如，p个样本状态特征中第x个样本状态特征至第y个样本状态特征为同一局对战中的最初的状态特征至最末的状态特征，第i个样本状态特征为第x个样本状态特征至第y个样本状态特征中的任一样本状态特征，第i个样本状态特征的实际回报收益为第i+1个样本状态特征的即时收益至第y个样本状态特征的即时收益的累加值。

示例性的，可通过以下公式计算得到第i个样本状态特征的实际回报收益：

其中，G_i表示第i个样本状态特征的实际回报收益，R_*表示第*个样本状态特征的即时收益，λ^*-i-1表示第*个样本状态特征的即时收益对第i个样本状态特征的影响因子，第*个样本状态特征距离第i个样本状态特征时间越长，影响因子越小。

第i个样本状态特征在执行调度策略θ的实际回报收益可通过以下公式计算：

V_θ(s)＝E[G_i|S_i＝s]

＝E[R_i+1+λR_i+2+λ²R_i+3+...|S_i＝s]

＝E[R_i+1+λv(S_i+1)|S_i＝s]；

其中，V_θ(s)表示样本状态特征S执行调度策略θ的实际回报收益，E[s]表示状态特征s下的预期回报收益，v表示通过迭代计算后得到的参数。

服务器可重复执行步骤301至步骤304，以一局为单位，不断获取得到样本帧数据，从而提取得到多组样本状态特征-收益(即时收益、实际回报收益)的样本数据组。

步骤305，调用原始价值网络预测模型对每个样本状态特征进行处理，得到每个样本状态特征的训练结果。

服务器将每个样本状态特征输入原始价值网络预测模型，得到每个样本状态特征的训练结果。其中，原始价值网络预测模型是未经训练过的机器学习模型，每个样本状态特征的训练结果是原始价值网络模型预测在样本状态特征下执行每个调度策略的预期回报收益。

步骤306，对于每组样本数据组，将训练结果与实际收益进行比较，得到计算损失，该计算损失用于指示训练结果与样本状态特征的实际收益之间的误差。

示例性的，以样本状态特征S₁为例，执行θ₁的调度策略的实际回报收益为2，执行θ₂的调度策略的实际回报收益为-1，执行θ₃的调度策略的实际回报收益为3，样本状态特征S₁的训练结果为，执行θ₁的调度策略的预期回报收益为1.5，执行θ₂的调度策略的预期回报收益为-1，执行θ₃的调度策略的预期回报收益为2，则计算损失为(0.5,0,1)。

步骤307，根据至少一组样本数据组各自对应的计算损失，采用误差反向传播算法训练得到价值网络预测模型。

服务器根据至少一组样本数据组各自对应的计算损失，采用误差反向传播算法训练得到价值网络预测模型。其中，该价值网络预测模型用于根据状态特征预测在该状态特征下执行每种调度策略的预期回报收益。

综上所述，本申请实施例中，通过读取样本帧数据中的数据，提取得到样本帧数据的状态特征，该状态特征包括关联虚拟对象的状态和虚拟资源的状态，由于服务器不需要将虚拟环境中的所有参数作为状态特征表征样本帧数据的状态，因此简化了对状态特征的确定，从而降低了服务器的计算量，提高了服务器的处理速度。

可选的，本申请实施例中，通过按照预设时间步长抽取历史帧数据获取得到候选帧数据，将候选帧数据中包含攻击行为的确定为样本帧数据，由于不需要对所有历史目标帧数据进行处理，从而提高了服务器的处理效率。

可选的，本申请实施例中，通过计算得到每一帧样本帧数据的即时收益，根据每一帧样本帧数据的即时收益和该样本帧数据下一帧样本帧数据的即时收益，计算得到该样本帧数据的实际回报收益，由于不需要累积计算该样本帧数据之后每一帧样本帧数据对实际回报收益的影响，从而降低了服务器的计算量，因此提高了服务器的处理速度。

图5，示出了本申请一个示例性实施例提供的虚拟环境中的虚拟对象的调度方法的流程图。该方法可应用于如图1所示的计算机系统100中，该方法包括：

步骤501，获取虚拟环境的应用程序在运行时产生的帧数据。

服务器获取得到帧数据的方法可参考图2实施例中的步骤201，在此不做赘述。

步骤502，对帧数据进行特征提取，得到目标虚拟对象在当前局面状态中的状态特征。

服务器对帧数据进行特征提取，得到目标虚拟对象在当前局面状态中的状态特征，该状态特征包括关联虚拟对象的状态和虚拟资源的状态。

可选的，虚拟资源包括建筑、中立生物、军队、交通工具、武器以及弹药中的至少一种；关联虚拟对象的状态包括关联虚拟对象的位置、体力值、攻击力值、防御力值、经验值、击杀数量、死亡数量以及经济值中的至少一种；虚拟资源的状态包括虚拟资源的位置、体力值、攻击力值、防御力值、耐久值以及占据状态中的至少一种；虚拟资源的占据状态包括中立状态、控制状态、占有状态或争夺状态。

服务器对帧数据进行特征提取，得到目标虚拟对象在当前局面状态下的状态特征的方法可参考图2实施例中的步骤201以及图3实施例中的步骤。

步骤503，获取得到所述目标虚拟对象对应的m种行为，m为正整数，m≥1。

服务器读取帧数据中目标虚拟对象的数据，获取得到目标虚拟对象可执行的m种行为，该行为包括拾取类型的行为，以及攻击类型的行为。可选的，拾取类型的行为包括拾取物品、装备物品、摧毁物品、改造物品中的至少一种；攻击类型的行为包括射击、物理攻击、法术攻击、投掷弹药等。

步骤504，根据所述目标虚拟对象对应的m种行为以及所述n个移动区域，得到所述N种调度策略，所述调度策略包括移动至所述n个移动区域中的第i个移动区域执行所述m种行为中的第j种行为，i、j为正整数，1≤i≤n，1≤j≤m。

示例性的，服务器根据m种行为和n个移动区域，构成调度策略空间，该空间为m行n列的矩阵，或，该空间为n行m列的矩阵。该调度策略空间包括N种调度策略。

步骤505，将N种调度策略作用于状态特征，根据预设的状态转移关系得到N种后续状态特征。

其中，状态转移关系用于表征状态特征被所述调度策略作用后的状态变化。

示例性的，状态转移关系的一种表现形式为状态转移矩阵，状态转移矩阵中包含虚拟对象、虚拟资源的状态和行为之间的映射关系，服务器通过将策略调度空间乘以状态转移矩阵，得到N中后续状态特征。

例如，调度策略中虚拟对象的行为为物理攻击，该物理攻击的攻击力为5，状态特征S中被攻击的建筑物1的耐久值为6，则在后续状态特征S’中建筑物1的耐久值为1。

步骤506，调用价值网络预测模型对N种后续状态特征进行处理，得到目标虚拟对象执行N种调度策略的预期回报收益。

示例性的，如图6所示，在状态特征S中，目标虚拟对象401位于移动区域411中，目标虚拟对象401执行N种调度策略使状态特征转化为后续状态特征S’。在后续状态特征S’的状态特征空间中，目标虚拟对象401可位于移动区域411-420中执行可执行的多种行为。服务器调用价值网络预测模型对候选状态S’进行处理，得到候选状态S’中每一个子空间的预期回报收益。

步骤507，控制目标虚拟对象执行N种调度策略中预期回报收益最高的调度策略。

服务器对N中调度策略的预期回报收益中预期回报收益最高的调度策略作为目标调度策略，向终端发送控制指令，该控制指令用于指示终端控制目标虚拟对象执行目标调度策略。

综上所述，本申请实施例中，通过提取得到当前局面状态的状态特征，由于该状态特征仅包括关联虚拟对象的状态和虚拟资源的状态，因此实现了将虚拟环境中的当前局面的离散化和抽样化处理，从而能够在当前局面状态的状态特征的基础上结合N种调度策略得到当前局面状态特征的N种后续状态特征，进而通过调用价值网络预测模型对N种后续状态特征进行处理，得到目标虚拟对象执行每种调度策略的预期回报收益，由于不需要对当前局面状态的状态特征进行推演至达成胜负条件的最后一个状态特征，从而简化了推演步骤，实现了对虚拟环境的局面状态的推演，进而提高了AI控制虚拟对象执行调度策略的准确度。

在一个示例性的实施例中，如图7所示，本申请实施例中的服务器包括数据获取模块710、训练模块720、价值评估模块730以及控制模块740。其中，价值网络训练模块720包括状态抽样模块721、特征提取模块722、收益提取模块723以及机器学习训练模块724；价值评估模块730包括特征提取模块722、状态推演模块731以及预测模块732。以下对每个模块进行说明：

一、训练模块：

状态抽样模块721：通常一局MOBA游戏的持续时长约数十分钟以上，转换为游戏的帧数据则有几万帧以上。但在实际游戏过程中，宏观局面变化相对较慢，帧数据与帧数据之间的局面状态具有较大的相关性。由于虚拟对象的攻击行为是局面状态变化的主要因素，在状态抽样模块721中，以虚拟对象的攻击行为为核心，辅以预设时间步长，对MOBA游戏的历史帧数据进行抽样，得到样本数据，从而得到以攻击行为为基础的样本数据，在减少了样本数据的同时，保留了局面状态相关性较小的帧数据。

如图8所示，数据获取模块710获取得到一局MOBA游戏产生的历史帧数据801，将历史帧数据801发送至状态抽样模块721；状态抽样模块721以预设时间步长抽取历史目标帧数据801得到候选帧数据802，读取候选帧数据802中包含攻击行为的帧数据，从而得到样本帧数据803。

特征提取模块722：提取样本帧数据803中关联虚拟对象的状态8041以及虚拟资源的状态8042，得到样本状态特征804。

收益提取模块723：价值网络模型预测的预期回报收益表示某个时刻t的局面状态在执行某调度策略将获取得到的回报收益，即对接下来所有时刻的即时收益的累加。实际中除非一局游戏结束，否则无法显式地获取所有的即时收益来计算出每个局面状态的回报收益。因此可以引入贝尔曼(Bellman)方程，使得计算当前局面状态的回报收益仅和下一局面状态的回报收益，以及当前局面状态的即时收益相关。即时收益的参考因素包括但不限于虚拟对象的经验值、经济值、虚拟对象的体力值(血量)、击杀数量、死亡数量以及建筑物的耐久值。本申请实施例中，如图7所示，收益提取模块723计算得到每个样本状态特征804的即时收益，根据多个样本状态特征804中每个样本状态特征的即时收益和下一帧样本状态特征的即时收益，计算得到每个样本状态特征的实际回报收益805。

机器学习训练模块724：利用用户在MOBA游戏中的历史对战帧数据得到的局面状态特征和实际回报收益组成的样本数据组，通过机器学习模型，例如多层卷积神经网络进行大量的迭代训练，训练得到价值网络预测模型。本申请实施例中，服务器将每个样本状态特征804输入至原始价值网络预测模型中，得到训练结果806，根据训练结果806和实际回报收益805的差值得到计算损失对原始价值网络预测模型进行训练，得到价值网络预测模型。

二、价值评估模块：

特征提取模块722：对MOBA游戏中产生的帧数据进行状态提取，得到每一个帧数据的状态特征。

示例性的，如图9所示，数据获取模块710获取得到当前状态下的帧数据901，将帧数据901发送至特征提取模块722；特征提取模块722读取帧数据901中的关联虚拟对象的状态9031以及虚拟资源的状态9032，从而得到状态特征903，将状态特征903发送至状态推演模块731。

状态推演模块731：对状态特征903进行推演，得到目标虚拟对象执行N种调度策略使状态特征903转化为后续状态特征9041、9042以及9043，将后续状态特征发送至预测模块732。

预测模块732：利用训练好的价值网络模型对状态特征9041、9042以及9043进行预测，输出状态特征9041、9042以及9043各自对应的预期回报收益9051、9052以及9053。

三、控制模块

控制模块740根据预测模块732输出的预期回报收益9051、9052以及9053，将预期回报收益最高的调度策略作为目标调度策略，控制目标虚拟对象执行目标调度策略。

在一个示例性的实施例中，如图10所示，其示出了本申请一个示例性的调度流程图，该流程包括：

在步骤S1001中，数据获取模块获取得到帧数据，该帧数据可以是步骤S1001中的全局地图所对应的数据；在步骤S1002中，特征提取模块读取帧数据中关联虚拟对象的状态(即本方阵营英雄人物的状态以及本方阵营英雄人物视野范围内地方阵营英雄人物的状态)以及虚拟资源的状态(包括双方据点的状态和中立生物的状态)，提取得到当前局面状态的状态特征S；在步骤S1003中，状态推演模块对状态特征S进行推演得到多种后续状态特征构成的状态特征空间S’；在步骤S1004中，在预测模块确定预期回报收益最高的调度策略后，控制模块控制目标虚拟对象执行回报收益最高的调度策略(目标虚拟对象可以是本方阵营的任一英雄人物，图10步骤S1004中的箭头方向即为确定的调度策略)。

请参考图11，其示出了本申请一个示例性实施例提供的虚拟环境中的虚拟对象的调度装置的结构框图。该装置可以通过软件、硬件或者两者的结合实现成为图1实施例中的服务器120。该装置包括数据获取模块1110、特征提取模块1120、状态推演模块1130、预测模块1140、控制模块1150、收益提取模块1160、机器学习训练模块1170以及状态抽样模块1180。其中，收益提取模块1160、机器学习训练模块1170以及状态抽样模块1180为可选的模块。

数据获取模块1110，用于获取虚拟环境的应用程序在运行时产生的帧数据。

特征提取模块1120，用于对帧数据进行特征提取得到至少两个虚拟对象中的目标虚拟对象在当前局面状态的状态特征，该状态特征包括关联虚拟对象的状态和虚拟资源的状态。

状态推演模块1130，用于对状态特征进行推演，得到N种后续状态特征，N为正整数，N≥2。

预测模块1140，用于调用价值网络预测模型对N种后续状态特征进行处理，得到目标虚拟对象执行N种调度策略的预期回报收益。

控制模块1150，用于控制目标虚拟对象执行N种调度策略中预期回报收益最高的调度策略。

在一个可选的实施例中，虚拟环境的地图被划分为n个移动区域，n小于地图的像素值，n为正整数，n≥2；

状态推演模块1130，还用于获取得到目标虚拟对象对应的m种行为，m为正整数，m≥1；根据目标虚拟对象对应的m种行为以及n个移动区域，得到N种调度策略，调度策略包括移动至n个移动区域中的第i个移动区域执行m种行为中的第j种行为，i、j为正整数，1≤i≤n，1≤j≤m；将N种调度策略作用于状态特征，根据预设的状态转移关系得到N种后续状态特征。

在一个可选的实施例中，虚拟环境的地图被均匀划分为n个移动区域的阵列；或，该地图按照虚拟资源的所在位置被划分为n个移动区域。

在一个可选的实施例中，特征提取模块1120，还用于读取帧数据中关联虚拟对象的状态以及虚拟资源的状态，提取得到状态特征；关联虚拟对象的状态包括关联虚拟对象的位置、体力值、攻击力值、防御力值、经验值、击杀数量、死亡数量以及经济值中的至少一种；虚拟资源的状态包括虚拟资源的位置、体力值、攻击力值、防御力值、耐久值以及占据状态中的至少一种。

在一个可选的实施例中，至少两个虚拟对象分别属于至少两个相互敌对的阵营；虚拟资源包括建筑、中立生物、军队、交通工具、武器以及弹药中的至少一种；占据状态包括中立状态、控制状态、占有状态或争夺状态；中立状态用于表征虚拟资源不能被归属于任一阵营；控制状态用于表征虚拟资源所在的移动区域内具有同一阵营的至少一个虚拟对象；占有状态用于表征虚拟资源归属的阵营；争夺状态用于表征虚拟资源所在的移动区域内具有至少两个属于不同阵营的虚拟对象。

在一个可选的实施例中，价值网络预测模型是用于表示基于样本数据组训练得到的预期回报收益规律，该样本数据组包括：样本状态特征和样本状态特征对应的实际回报收益；

数据获取模块1110，还用于获取得到p个样本帧数据，p为正整数，p≥2。

特征提取模块1120，还用于对p个样本帧数据进行特征提取得到每个样本帧数据的样本状态特征，该样本状态特征包括关联虚拟对象的状态和虚拟资源的状态。

收益提取模块1160，用于计算得到p个样本状态特征中每个样本状态特征的实际回报收益。

机器学习训练模块1170，用于将p个样本状态特征输入原始价值网络预测模型，得到每个样本状态特征的训练结果；对于每组样本数据组，将训练结果与样本状态特征的实际回报收益进行比较，得到计算损失，该计算损失用于指示训练结果与样本状态特征的实际回报收益之间的误差；根据至少一组样本数据组各自对应的计算损失，采用误差反向传播算法训练得到价值网络预测模型。

在一个可选的实施例中，数据获取模块1110，还用于获取虚拟环境的应用程序在运行时产生的l个历史帧数据，l为正整数，l≥p。

状态抽样模块1180，用于按照预设时间步长抽取l个历史帧数据得到q个候选帧数据，q为正整数，p≤q≤l；对q个候选帧数据进行读取，将q个候选帧数据中包含攻击行为的确定为样本帧数据，得到p个样本帧数据。

收益提取模块1160，还用于根据样本状态特征中目标虚拟对象的行为和状态，计算得到每个样本状态特征的即时收益；对于p个样本帧数据中的第i个样本帧数据，根据第i个样本帧数据的即时收益和第i+1个样本帧数据的即时收益，计算得到第i个样本帧数据的实际回报收益，i为正整数，i≤p。

图12，其示出了本申请一个示例性实施例提供的计算机设备的结构示意图。该计算机设备可以是图1实施例中的服务器120。具体来讲：所述计算机设备1200包括中央处理单元(CPU)1201、包括随机存取存储器(RAM)1202和只读存储器(ROM)1203的系统存储器1204，以及连接系统存储器1204和中央处理单元1201的系统总线1205。所述计算机设备1200还包括帮助计算机内的各个器件之间传输信息的基本输入/输出系统(I/O系统)1206，和用于存储操作系统1213、应用程序1214和其他程序模块1215的大容量存储设备1207。

所述基本输入/输出系统1206包括有用于显示信息的显示器1208和用于用户输入信息的诸如鼠标、键盘之类的输入设备1209。其中所述显示器1208和输入设备1209都通过连接到系统总线1205的输入输出控制器1210连接到中央处理单元1201。所述基本输入/输出系统1206还可以包括输入输出控制器1210以用于接收和处理来自键盘、鼠标、或电子触控笔等多个其他设备的输入。类似地，输入输出控制器1210还提供输出到显示屏、打印机或其他类型的输出设备。

所述大容量存储设备1207通过连接到系统总线1205的大容量存储控制器(未示出)连接到中央处理单元1201。所述大容量存储设备1207及其相关联的计算机可读存储介质为计算机设备1200提供非易失性存储。也就是说，所述大容量存储设备1207可以包括诸如硬盘或者CD-ROI驱动器之类的计算机可读存储介质(未示出)。

不失一般性，所述计算机可读存储介质可以包括计算机存储介质和通信介质。计算机存储介质包括以用于存储诸如计算机可读指令、数据结构、程序模块或其他数据等信息的任何方法或技术实现的易失性和非易失性、可移动和不可移动介质。计算机存储介质包括RAM、ROM、EPROM、EEPROM、闪存或其他固态存储其技术，CD-ROM、DVD或其他光学存储、磁带盒、磁带、磁盘存储或其他磁性存储设备。当然，本领域技术人员可知所述计算机存储介质不局限于上述几种。上述的系统存储器1204和大容量存储设备1207可以统称为存储器。

存储器存储有一个或多个程序，一个或多个程序被配置成由一个或多个中央处理单元1201执行，一个或多个程序包含用于实现上述虚拟环境中的虚拟对象的调度方法的指令，中央处理单元1201执行该一个或多个程序实现上述各个方法实施例提供的虚拟环境中的虚拟对象的调度方法。

根据本申请的各种实施例，所述计算机设备1200还可以通过诸如因特网等网络连接到网络上的远程计算机运行。也即计算机设备1200可以通过连接在所述系统总线1205上的网络接口单元1211连接到网络1212，或者说，也可以使用网络接口单元1211来连接到其他类型的网络或远程计算机系统(未示出)。

所述存储器还包括一个或者一个以上的程序，所述一个或者一个以上程序存储于存储器中，所述一个或者一个以上程序包含用于进行本发明实施例提供的虚拟环境中的虚拟对象的调度方法中由计算机设备所执行的步骤。

本申请实施例还提供一种计算机可读存储介质，该存储介质中存储有至少一条指令、至少一段程序、代码集或指令集，所述至少一条指令、所述至少一段程序、所述代码集或指令集由所述处理器加载并执行以实现如上述任一实施例所述的虚拟环境中的虚拟对象的调度方法。

本申请还提供了一种计算机程序产品，当计算机程序产品在计算机上运行时，使得计算机执行上述各个方法实施例提供的虚拟环境中的虚拟对象的调度方法。

应当理解的是，在本文中提及的“多个”是指两个或两个以上。“和/或”，描述关联对象的关联关系，表示可以存在三种关系，例如，A和/或B，可以表示：单独存在A，同时存在A和B，单独存在B这三种情况。字符“/”一般表示前后关联对象是一种“或”的关系。

上述本申请实施例序号仅仅为了描述，不代表实施例的优劣。

本领域普通技术人员可以理解实现上述实施例的全部或部分步骤可以通过硬件来完成，也可以通过程序来指令相关的硬件完成，所述的程序可以存储于一种计算机可读存储介质中，上述提到的存储介质可以是只读存储器，磁盘或光盘等。

以上所述仅为本申请的较佳实施例，并不用以限制本申请，凡在本申请的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本申请的保护范围之内。

Claims

1.一种虚拟环境中的虚拟对象的调度方法，其特征在于，所述虚拟环境中包括至少两个虚拟对象以及供所述虚拟对象使用的虚拟资源，所述方法包括：

获取所述虚拟环境的应用程序在运行时产生的帧数据；

根据对所述状态特征进行推演，得到N种后续状态特征，N为正整数，N≥2，所述N种后续状态特征是所述目标虚拟对象在执行N种调度策略后转化得到的特征，所述调度策略包括移动所述目标虚拟对象和所述目标虚拟对象执行行为；

调用价值网络预测模型对所述N种后续状态特征进行处理，得到所述目标虚拟对象执行N种调度策略的预期回报收益；

2.根据权利要求1所述的方法，其特征在于，所述虚拟环境的地图被划分为n个移动区域，所述n小于所述地图的像素值，n为正整数，n≥2；

所述对所述状态特征进行推演，得到N种后续状态特征，包括：

获取得到所述目标虚拟对象对应的m种行为，m为正整数，m≥1；

根据所述目标虚拟对象对应的m种行为以及所述n个移动区域，得到所述N种调度策略，所述调度策略包括移动至所述n个移动区域中的第i个移动区域执行所述m种行为中的第j种行为，i、j为正整数，1≤i≤n，1≤j≤m；

将所述N种调度策略作用于所述状态特征，根据预设的状态转移关系得到所述N种后续状态特征，所述状态转移关系用于表征状态特征被所述调度策略作用后的状态变化。

3.根据权利要求2所述的方法，其特征在于，所述地图被均匀划分为所述n个移动区域的阵列；或，所述地图按照所述虚拟资源的所在位置被划分为所述n个移动区域。

4.根据权利要求3所述的方法，其特征在于，所述对所述帧数据进行特征提取得到所述目标虚拟对象在当前局面状态中的状态特征，包括：

读取所述帧数据中所述关联虚拟对象的状态以及所述虚拟资源的状态，提取得到所述状态特征；

所述关联虚拟对象的状态包括所述关联虚拟对象的位置、体力值、攻击力值、防御力值、经验值、击杀数量、死亡数量以及经济值中的至少一种；

所述虚拟资源的状态包括所述虚拟资源的位置、体力值、攻击力值、防御力值、耐久值以及占据状态中的至少一种。

5.根据权利要求4所述的方法，其特征在于，所述至少两个虚拟对象分别属于至少两个相互敌对的阵营；

所述虚拟资源包括建筑、中立生物、军队、交通工具、武器以及弹药中的至少一种；

所述占据状态包括中立状态、控制状态、占有状态或争夺状态；

所述中立状态用于表征所述虚拟资源不能被归属于任一阵营；

所述控制状态用于表征所述虚拟资源所在的移动区域内具有同一阵营的至少一个所述虚拟对象；

所述占有状态用于表征所述虚拟资源归属的阵营；

所述争夺状态用于表征所述虚拟资源所在的移动区域内具有至少两个属于不同阵营的虚拟对象。

6.根据权利要求1至5任一所述的方法，其特征在于，所述价值网络预测模型是用于表示基于样本数据组训练得到的预期回报收益规律，所述样本数据组包括：样本状态特征和所述样本状态特征对应的实际回报收益；

所述调用价值网络预测模型对所述N种后续状态特征进行处理之前，还包括：

获取得到p个样本帧数据，p为正整数，p≥2；

对所述p个样本帧数据进行特征提取得到每个样本帧数据的样本状态特征，所述样本状态特征包括所述关联虚拟对象的状态，或所述关联虚拟对象和所述虚拟资源的状态；

计算得到所述p个样本状态特征中每个样本状态特征的实际回报收益；

将所述p个样本状态特征输入原始价值网络预测模型，得到所述每个样本状态特征的训练结果；

对于每组所述样本数据组，将所述训练结果与所述样本状态特征的实际回报收益进行比较，得到计算损失，所述计算损失用于指示所述训练结果与所述样本状态特征的实际回报收益之间的误差；

根据至少一组样本数据组各自对应的计算损失，采用误差反向传播算法训练得到所述价值网络预测模型。

7.根据权利要求6所述的方法，所述获取得到p个所述样本帧数据，包括：

获取所述虚拟环境的应用程序在运行时产生的l个历史帧数据，l为正整数，l≥p；

按照预设时间步长抽取所述l个历史帧数据得到q个候选帧数据，q为正整数，p≤q≤l；

对所述q个候选帧数据进行读取，将所述q个候选帧数据中包含攻击行为的确定为所述样本帧数据，得到所述p个样本帧数据。

8.根据权利要求6所述的方法，其特征在于，所述计算得到所述p个样本状态特征中每个样本状态特征的实际回报收益，包括：

根据所述样本状态特征中所述目标虚拟对象的行为和状态，计算得到所述每个样本状态特征的即时收益，所述即时收益是所述行为导致所述状态的变化对胜利条件的贡献，所述胜利条件包括占据或摧毁敌对的阵营的目标据点；

对于所述p个样本帧数据中的第i个样本帧数据，根据所述第i个样本帧数据的即时收益和第i+1个样本帧数据的即时收益，计算得到所述第i个样本帧数据的实际回报收益，i为正整数，i≤p。

9.一种虚拟环境中的虚拟对象的调度装置，其特征在于，所述虚拟环境中包括至少两个虚拟对象以及供所述虚拟对象使用的虚拟资源，所述装置包括：

特征提取模块，用于对所述帧数据进行特征提取得到目标虚拟对象在当前局面状态的状态特征，所述状态特征包括关联虚拟对象的状态和所述虚拟资源的状态，所述关联虚拟对象包括所述目标虚拟对象以及与所述目标虚拟对象具有利益关系的虚拟对象；

状态推演模块，用于对所述状态特征进行推演，得到N种后续状态特征，N为正整数，N≥2，所述N种后续状态特征是所述目标虚拟对象在执行N种调度策略后转化得到的特征，所述调度策略包括移动所述目标虚拟对象和所述目标虚拟对象执行行为；

价值评估模块，用于调用价值网络预测模型对所述N种后续状态特征进行处理，得到所述目标虚拟对象执行N种调度策略的预期回报收益；

10.根据权利要求9所述的装置，其特征在于，所述虚拟环境的地图被划分为n个移动区域，所述n小于所述地图的像素值，n为正整数，n≥2；

所述状态推演模块，还用于获取得到所述目标虚拟对象对应的m种行为，m为正整数，m≥1；根据所述目标虚拟对象对应的m种行为以及所述n个移动区域，得到所述N种调度策略，所述调度策略包括移动至所述n个移动区域中的第i个移动区域执行所述m种行为中的第j种行为，i、j为正整数，1≤i≤n，1≤j≤m；将所述N种调度策略作用于所述状态特征，根据预设的状态转移关系得到所述N种后续状态特征，所述状态转移关系用于表征状态特征被所述调度策略作用后的状态变化。

11.根据权利要求10所述的装置，其特征在于，所述地图被均匀划分为所述n个移动区域的阵列；或，所述地图按照所述虚拟资源的所在位置被划分为所述n个移动区域。

12.根据权利要求11所述的装置，其特征在于，特征提取模块，还用于读取所述帧数据中所述关联虚拟对象的状态以及所述虚拟资源的状态，提取得到所述状态特征；

13.根据权利要求12所述的装置，其特征在于，所述至少两个虚拟对象分别属于至少两个相互敌对的阵营；

所述占有状态用于表征所述虚拟资源归属的阵营；

14.一种计算机设备，其特征在于，所述计算机设备包括处理器和存储器，所述存储器中存储有至少一条指令，所述指令由所述处理器加载并执行以实现如权利要求1至8任一所述的虚拟环境中的虚拟对象的调度方法。

15.一种计算机可读存储介质，其特征在于，所述存储介质中存储有至少一条指令，所述指令由处理器加载并执行以实现如权利要求1至8任一所述的虚拟环境中的虚拟对象的调度方法。