CN111589120A

CN111589120A - 目标物控制方法、计算机设备及计算机可读存储介质

Info

Publication number: CN111589120A
Application number: CN202010408930.6A
Authority: CN
Inventors: 朱晓龙; 纪晓龙; 季兴; 汤善敏; 周正; 李宏亮; 张正生; 刘永升
Original assignee: Shenzhen Haipu Parameter Technology Co ltd
Current assignee: Shenzhen Haipu Parameter Technology Co ltd
Priority date: 2020-05-14
Filing date: 2020-05-14
Publication date: 2020-08-28
Anticipated expiration: 2040-05-14
Also published as: CN111589120B

Abstract

本申请实施例公开了一种目标物控制方法、计算机设备及计算机可读存储介质，本申请实施例获取运行环境中的每一帧数据集；从所述每一帧数据集中提取单位信息、资源信息、以及全局信息；根据所述单位信息、所述资源信息、以及所述全局信息，确定目标物的运行方向和动作类型；控制所述目标物按照所述运行方向运行，以及执行所述动作类型对应的动作。该方案可以综合单位信息、资源信息、以及全局信息等确定目标物的运行方向和动作类型，以便准确控制目标物执行对应的动作，提高了对目标物控制的准确性和可靠性。

Description

目标物控制方法、计算机设备及计算机可读存储介质

技术领域

本申请涉及数据处理技术领域，具体涉及一种目标物控制方法、计算机设备及计算机可读存储介质。

背景技术

随着人工智能(Artificial Intelligence，AI)技术的快速发展，人工智能技术被广泛的应用于各个领域，例如，在游戏娱乐领域，通过人工智能技术可以实现各类游戏中虚拟用户与真人之间的对局。现有技术中，对于双方对抗的游戏，主要基于模型将每个玩家的游戏状态分别提取成特征向量，然后经模型前向传导及汇总交换后，计算得出每个玩家的动作。而对于对抗方数量的增加导致信息及请求量剧增，以及针对固定的地图设计，不能灵活的应对对抗方数量增加及地图变化需求等，使得计算结果的准确性较低，降低了玩家执行动作的准确性。

发明内容

本申请实施例提供一种目标物控制方法、计算机设备及计算机可读存储介质，可以提高对目标物控制的准确性。

第一方面，本申请实施例提供了一种目标物控制方法，包括：

获取运行环境中的每一帧数据集；

从所述每一帧数据集中提取单位信息、资源信息、以及全局信息；

根据所述单位信息、所述资源信息、以及所述全局信息，确定目标物的运行方向和动作类型；

控制所述目标物按照所述运行方向运行，以及执行所述动作类型对应的动作。

第二方面，本申请实施例还提供了一种计算机设备，包括存储器和处理器，所述存储器中存储有计算机程序，所述处理器调用所述存储器中的计算机程序时执行本申请实施例提供的任一种目标物控制方法。

第三方面，本申请实施例还提供了一种计算机可读存储介质，所述计算机可读存储介质用于存储计算机程序，所述计算机程序被处理器加载，以执行本申请实施例提供的任一种目标物控制方法。

本申请实施例可以获取运行环境中的每一帧数据集，从每一帧数据集中提取单位信息、资源信息、以及全局信息；根据单位信息、资源信息、以及全局信息，确定目标物的运行方向和动作类型，控制目标物按照运行方向运行，以及执行动作类型对应的动作。该方案可以综合单位信息、资源信息、以及全局信息等确定目标物的运行方向和动作类型，可以灵活应对信息量增加及运行环境变化需求等，以便准确控制目标物执行对应的动作，提高了对目标物控制的准确性和可靠性。

附图说明

为了更清楚地说明本申请实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本申请实施例提供的目标物控制方法的流程示意图；

图2是本申请实施例提供的游戏场景的示意图；

图3是本申请实施例提供的空间图像特征生成的示意图；

图4是本申请实施例提供的动作类型和运动方向确定的示意图；

图5是本申请实施例提供的目标物控制方法的另一流程示意图；

图6是本申请实施例提供的模型应用部署的示意图；

图7是本申请实施例提供的计算机设备的结构示意图。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

附图中所示的流程图仅是示例说明，不是必须包括所有的内容和操作/步骤，也不是必须按所描述的顺序执行。例如，有的操作/步骤还可以分解、组合或部分合并，因此实际执行的顺序有可能根据实际情况改变。

本申请的实施例提供了一种目标物控制方法、计算机设备及计算机可读存储介质。其中，该目标物控制方法可以应用于计算机设备中，该计算机设备可以包括智能手机、平板电脑、掌上电脑、笔记本电脑或者台式电脑等终端，该计算机设备还可以是服务器。

本申请实施例提供的目标物控制方法涉及人工智能中的机器学习技术等技术，下面先对人工智能技术和机器学习技术进行说明。

人工智能是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能，感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说，人工智能是计算机科学的一个综合技术，它企图了解智能的实质，并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法，使机器具有感知、推理与决策的功能。

人工智能技术是一门综合学科，涉及领域广泛，既有硬件层面的技术也有软件层面的技术。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、以及机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。

机器学习(Machine Learning，ML)是一门多领域交叉学科，涉及概率论、统计学、逼近论、凸分析、以及算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为，以获取新的知识或技能，重新组织已有的知识结构使之不断改善自身的性能。机器学习是人工智能的核心，是使计算机具有智能的根本途径，其应用遍及人工智能的各个领域。机器学习和深度学习通常包括人工神经网络、置信网络、强化学习、迁移学习、归纳学习、以及式教学习等技术。

请参阅图1，图1是本申请一实施例提供的目标物控制方法的流程示意图。该目标物控制方法可以包括步骤S101至步骤S104等，具体可以如下：

S101、获取运行环境中的每一帧数据集。

其中，运行环境及其对应的数据集可以根据实际应用场景进行灵活设置，具体内容在此处不作限定。例如，在球球大作战的游戏、王者荣耀的游戏、或Agar.io游戏中，可以获取游戏运行环境中的每一帧数据集，由于游戏运行的过程中，可以录制形成视频数据，因此，可以每间隔预设时间获取视频数据的数据帧，得到多帧数据集，该预设时间可以根据实际需要进行灵活设置，例如，该预设时间可以设置为1秒或0.1秒等。以IO类游戏中的Agar.io游戏为例，该数据集可以包括环境地图、自己的位置、自己移动的速度、队友的位置、队友移动的速度、敌人的位置、敌人移动的速度、孢子的位置、孢子的重量、粮食的位置、粮食的重量、游戏时间、以及排名信息等。

以下将以IO类游戏中的Agar.io游戏为例，玩家可以自由控制自己的球，类似大鱼吃小鱼，可以控制自己的大球吞并比自己小的球、粮食或者刺球等。同时，玩家还可以采用分裂和吐孢子等操作，和队友配合，将多个小球合并成大球；或者通过分裂操作，吃掉比自己的球小的敌人的球，游戏目的是尽可能的通过吃资源和吞噬敌人的球让自己队伍的球的面积变大。其游戏场景可以如2图所示，包括：玩家可以通过摇杆控制多个球，例如玩家1可以控制图2中标号为1的3个球，标号为1的3个球即为玩家1的控制单位；玩家的视野不固定，可以随玩家球的大小、数目和位置变化而改变；每个玩家只能看到自己视野内的游戏场景，例如玩家4的视野小于玩家1的视野，且玩家4看不到玩家1、玩家2、玩家5和6；不同玩家可以组成多个队伍，每局游戏至少有2个队伍，例如玩家1和玩家2组成队伍A，玩家3和玩家4组成队B，玩家5和玩家6组成队伍C；游戏有不同类型的资源，如粮食、以及刺球等，玩家可以控制自己的球吃资源从而会获得面积的增长；游戏时长固定在10分钟或12分钟，最终总面积最大的队伍获得胜利。

其中，IO游戏有如下特点：多人即时对战，需要跟其他玩家产生竞技关系以获取乐趣；即开即玩，没有永久的成长系统，每局都是重新开始；越成长越受限，等级越高，则在某一方面越会存在缺陷，比如体积越大移动速度越缓慢；简单的成长系统：获取资源以及击杀对手。

与棋牌或者扑克类游戏相比，IO游戏具有以下特点：(1)IO游戏的输入侧环境感知更复杂，棋牌或者扑克可以用简单的数字组合来表示，而IO游戏的游戏元素更多，一个场景下包含成百上千的游戏单位，不同单位的属性和位置均可能对当前智能体(例如球体)的动作产生影响。(2)IO游戏的输出侧动作组合更多，与传统棋牌单一出牌落子不同，需要去学习动作的组合最优效果。(3)IO游戏的游戏体验时实时性要求高。游戏时，玩家要在很短时间内(通常在80ms)作出动作，因此传统高精度的树状动作空间搜索的方式无法适用在IO游戏，需要一个更高效的近似方法来完成动作的预测。同时，在多人对战中，传统回合制的游戏推进形式变成了基于帧同步的游戏推进形式。一方面弱化了同一回合(帧)内不同玩家的动作顺序依赖性，另一方面也强化了不同帧间动作的时间顺序依赖性。(4)IO游戏在玩法上注重多人配合，队友配合是游戏心流中核心元素之一，与单纯的对弈不同，队友配合需要在建模中显式处理。(5)IO游戏难度上状态空间长，更重要的是，与棋牌游戏最多100合的游戏决策时长不同，一局IO游戏往往需要10分钟左右，以人类1秒5个动作为例，需要3000帧的决策，决策空间呈指数增长，技术上更加具有挑战性。

S102、从每一帧数据集中提取单位信息、资源信息、以及全局信息。

其中，单位信息、资源信息、以及全局信息等可以根据实际应用场景进行灵活设置，具体内容在此处不作限定。

在一些实施方式中，从每一帧数据集中提取单位信息、资源信息、以及全局信息包括：从每一帧数据集中提取目标物、配合物以及对抗物各自对应的单位的位置、重量、以及速度，得到单位信息；以及，从每一帧数据集中提取分裂体的位置、分裂体的重量、能量的位置、以及能量的重量，得到资源信息；以及，从每一帧数据集中提取目标位置、目标物的视野、游戏时间、配合位置、以及排名信息，得到全局信息。

以IO类游戏中的Agar.io游戏为例，单位信息可以包括目标物、配合物以及对抗物各自对应的单位的位置、重量、以及速度，该目标物即为本端玩家自己控制的球(该球也可以称为单位)、配合物即为本端玩家的队友控制的球、对抗物即为敌人控制的球，即单位信息可以包括本端玩家自己控制的单位的位置、单位的重量、以及单位移动的速度，以及包括队友控制的单位的位置、单位的重量、以及单位移动的速度，以及包括敌人控制的单位的位置、单位的重量、以及单位移动的速度。

资源信息可以包括分裂体的位置、分裂体的重量、能量的位置、以及能量的重量，该分裂体即为孢子，能量即为粮食，即资源信息可以包括孢子的位置、孢子的重量、粮食的位置、以及粮食的重量。

全局信息可以包括目标位置、目标物的视野、游戏时间、配合位置、以及排名信息，该目标位置即为本端玩家的位置，目标物的视野即为本端玩家的视野，配合位置即为队友位置，排名信息即为各个队伍排行榜，即全局信息可以包括本端玩家的位置、本端玩家的视野、游戏时间、队友位置以及各个队伍排行榜等。

需要说明的是，由于Agar.io游戏中各个玩家组合的队伍的数量可能较多，因此为了便于区分不同队伍的玩家，可以采用辅助编码的形式进行对每个玩家进行编码，例如，当有6个队伍，且每个队伍均有3个玩家时，可以对队伍1中的3个玩家进行编码为a-1、a-2和a-3，对队伍2中的3个玩家进行编码为b-1、b-2和b-3，对队伍3中的3个玩家进行编码为c-1、c-2和c-3，依次类推，对队伍6中的3个玩家进行编码为f-1、f-2和f-3等，这样可以通过主编码a、b、c以及f等区分不同的队伍，然后通过辅编码1、2以及3等区分同一队伍中的不同队员。从而在获取单位信息、资源信息、以及全局信息等信息时，可以根据各个玩家的编码获取各个玩家对应的信息。

S103、根据单位信息、资源信息、以及全局信息，确定目标物的运行方向和动作类型。

其中，目标物为本端玩家所控制的单元(例如球)，本端玩家为本申请目标物控制方法应用在计算机设备对应的玩家，运行方向可以包括向前、向后、向左或向右等方向运行，动作类型可以包括吃孢子、吃粮食、分裂(例如将一个球分裂为两个球)、吐孢子或移动等动作。

在一些实施方式中，根据单位信息、资源信息、以及全局信息，确定目标物的运行方向和动作类型可以包括：根据单位信息生成向量嵌入特征，根据全局信息生成全局标量特征，以及根据单位信息、资源信息、以及全局信息，生成空间图像特征；通过训练后的模型对向量嵌入特征、全局标量特征以及空间图像特征进行处理，得到目标物的运行方向和动作类型。

具体地，可以对目标物、配合物以及对抗物各自对应的单位的位置、重量、以及速度等单位信息进行特征提取，生成向量嵌入特征，该向量嵌入特征可以是单位的向量嵌入表示。可以对分裂体的位置、分裂体的重量、能量的位置、以及能量的重量等全局信息进行特征提取，生成全局标量特征，该全局标量特征可以是全局信息表示。

可以对目标位置、目标物的视野、游戏时间、配合位置、以及排名信息等全局信息，以及单位信息和资源信息进行特征提取，生成空间图像特征，该空间图像特征可以是同单位之间的相互位置关系形成的空间信息表示。例如，如图3所示，以Agar.io游戏为例，由于玩家视野通常随着所控制单元自身属性(如体积)大小变化而变化，在视野的处理上，可以采用高效的归一化方法生成空间图像特征，图3中由于单位稀疏，可以采用先仿射变换，再近似画圆的方式，高效地生成空间图像信息，从而可以得到本端玩家的自己队伍在地图上的位置所对应的空间图像特征、敌人队伍1在地图上的位置所对应的空间图像特征、敌人队伍2在地图上的位置所对应的空间图像特征、队友在地图上的位置所对应的空间图像特征、孢子和粮食等资源在地图上的位置所对应的空间图像特征；等等。

为了提高目标物的运行方向和动作类型确定的准确性，在得到向量嵌入特征、全局标量特征以及空间图像特征后，可以通过训练后的模型对向量嵌入特征、全局标量特征以及空间图像特征进行处理，得到目标物的运行方向和动作类型。其中，训练后的模型可以根据实际需要进行灵活设置，具体内容在此处不作限定。例如，如图4所示，该训练后的模型可以包括多层感知机(Multilayer Perceptron，MLP)、卷积神经网络(ConvolutionalNeural Network，CNN)、深度神经网络(Deep Neural Network，DNN)以及循环神经网络(Recurrent Neural Network，RNN)等，可以通过DNN对向量嵌入特征进行处理、通过CNN对空间图像特征进行处理、以及通过MLP对全局标量特征进行处理等，并将DNN、CNN以及MLP的处理结果进行合并后输入RNN，通过RNN确定目标物的运行方向和动作类型。

在一些实施方式中，训练后的模型包括第一网络、第二网络、第三网络和第四网络，通过训练后的模型对向量嵌入特征、全局标量特征以及空间图像特征进行处理，得到目标物的运行方向和动作类型可以包括：通过第一网络对向量嵌入特征进行降维操作，得到第一特征信息；通过第二网络对空间图像特征进行卷积操作，得到第二特征信息；通过第三网络对全局标量特征进行非线性操作，得到第三特征信息；将第一特征信息、第二特征信息、以及第三特征信息进行合并，得到目标特征信息；通过第四网络对目标特征信息进行处理，得到目标物的运行方向和动作类型。

为了提高目标物的运行方向和动作类型确定的精准性，训练后的模型设置多个网络，例如训练后的模型可以包括第一网络、第二网络、第三网络和第四网络等，其中，为了提高模型的稳定性和可靠性，在一些实施方式中，第一网络可以为深度神经网络DNN或多层感知机MLP，第二网络可以为卷积神经网络CNN或残差网络ResNet，第三网络可以为深度神经网络DNN或多层感知机MLP，第四网络可以为循环神经网络RNN或长短期记忆网络(LongShort-Term Memory，LSTM)。

具体地，如图5所示，在从数据集中提取单位信息、资源信息、以及全局信息后，首先通过第一网络(例如CNN)对向量嵌入特征进行非线性变换的降维操作，得到第一特征信息；以及通过第二网络(例如CNN)对空间图像特征进行卷积操作，得到第二特征信息；以及通过第三网络(例如MLP)对全局标量特征进行非线性的全连接操作，得到第三特征信息。然后可以将第一特征信息、第二特征信息、以及第三特征信息进行合并，得到目标特征信息，通过第四网络(例如RNN)对目标特征信息进行处理，得到目标物的运行方向和动作类型等，以便后续可以将运行方向和动作类型等反馈至目标物对应的本端(例如图5中的客户端)，由本端控制目标物按照运行方向运行，以及执行动作类型对应的动作。

在一些实施方式中，通过训练后的模型对向量嵌入特征、全局标量特征以及空间图像特征进行处理，得到目标物的运行方向和动作类型之前，目标物控制方法还可以包括：获取样本视频，从样本视频中筛选出有效帧数据，以及从有效帧数据中确定样本物；通过预设的模型基于有效帧数据确定样本物的预测运行方向和预测动作类型；通过预设的损失函数对预测运行方向和预测动作类型进行收敛，以调整模型的参数至目标值，得到训练后的模型。

为了提高模型训练的可靠性，可以获取样本视频，该样本视频可以包括多个视频，每个视频可以是对一局完整游戏录制的视频，例如，每个视频可以是一局Agar.io游戏对应的10分钟视频。然后可以从样本视频中筛选出有效帧数据，有效帧数据的筛选可以是自动筛选或人工筛选等。

在一些实施方式中，从样本视频中筛选出有效帧数据可以包括：获取样本视频中的分析指标；根据分析指标从样本视频中筛选出有效帧数据。

为了提高有效帧数据筛选的便捷性，可以基于分析指标自动筛选有效帧数据，其中，分析指标可以根据实际需要进行灵活设置，例如，分析指标可以包括参团率以及不合作率等，参团率是指玩家与队友协作的概率，不合作率是指玩家与队友不合作的概率。具体地，可以对样本视频中的各项分析指标进行统计，然后根据统计得到的分析指标从样本视频中筛选出有效帧数据，例如，可以筛选出参团率较高的数据帧作为有效帧数据，将不合作率较高的数据帧剔除。

在得到有效帧数据后，可以从有效帧数据中确定样本物，例如，可以将需要学习的玩家对控制的单位(例如球)设置为样本物。此时，可以通过预设的模型基于有效帧数据确定样本物的预测运行方向和预测动作类型。

在一些实施方式中，通过预设的模型基于有效帧数据确定样本物的预测运行方向和预测动作类型可以包括：从有效帧数据中提取目标单位信息、目标资源信息、以及目标全局信息；通过预设的模型对目标单位信息、目标资源信息、以及目标全局信息进行处理，得到样本物的预测运行方向和预测动作类型。

具体地，可以从有效帧数据中提取目标单位信息、目标资源信息、以及目标全局信息，其中，目标单位信息、目标资源信息、以及目标全局信息，与上述单位信息、资源信息、以及全局信息类似，具体定义在此处不作赘述。此时可以通过预设的模型对目标单位信息、目标资源信息、以及目标全局信息进行处理，得到样本物的预测运行方向和预测动作类型。例如，可以根据目标单位信息生成目标向量嵌入特征，根据目标全局信息生成目标全局标量特征，以及根据目标单位信息、目标资源信息、以及目标全局信息，生成目标空间图像特征，通过预设的模型对目标向量嵌入特征、目标全局标量特征以及目标空间图像特征进行处理，得到样本物的预测运行方向和预测动作类型。

其中，该预设的模型可以包括第一网络、第二网络、第三网络和第四网络等，第一网络可以为DNN网络或MLP网络，第二网络可以为CNN网络或ResNet网络，第三网络可以为DNN网络或MLP网络，第四网络可以为RNN网络或LSTM网络。例如，可以通过CNN网络对目标向量嵌入特征进行非线性变换的降维操作，得到第一目标特征信息；以及通过CNN网络对目标空间图像特征进行卷积操作，得到第二目标特征信息；以及通过MLP目标对全局标量特征进行非线性的全连接操作，得到第三特目标征信息。然后可以将第一目标特征信息、第二目标特征信息、以及第三目标特征信息进行合并，得到合并后的特征信息，通过RNN网络对合并后的特征信息进行处理，得到样本物的预测运行方向和预测动作类型等。

需要说明的是，当存在多帧有效帧数据时，可以分别从每帧有效帧数据中提取目标单位信息、目标资源信息、以及目标全局信息等，以便分别对每帧有效帧数据对应的样本物的预测运行方向和预测动作类型进行预测。

在得到样本物的预测运行方向和预测动作类型后，可以通过预设的损失函数对预测运行方向和预测动作类型进行收敛，以调整模型的参数至合适的目标值，得到训练后的模型。该预设的损失函数可以根据实际需要进行灵活设置，具体内容在此处不作限定。

在一些实施方式中，通过预设的损失函数对预测运行方向和预测动作类型进行收敛，以调整模型的参数至目标值，得到训练后的模型可以包括：获取有效帧数据对应的真实运行方向和真实动作类型；通过预设的损失函数基于真实运行方向和真实动作类型，对预测运行方向和预测动作类型进行收敛，以调整模型的参数至目标值，得到训练后的模型。

为了提高模型训练的准确性，可以利用监督学习(Supervised Learning，SL)对模型进行训练，例如，可以获取有效帧数据对应的真实运行方向和真实动作类型，该真实运行方向和真实动作类型可以是有效帧数据对应的真实值，此时可以通过交叉熵损失函数或其他损失函数基于真实运行方向和真实动作类型，对预测运行方向和预测动作类型进行收敛，使得真实运行方向与预测运行方向之间的误差最小，真实动作类型与预测动作类型之间的误差最小，从而可以调整预设的模型的各个参数至合适的目标值，得到训练后的模型。

需要说明的是，可以采用多任务学习的方式来设计损失函数，即对动作类型和运行方向等标签独立优化并求和。

在一些实施方式中，通过预设的损失函数对预测运行方向和预测动作类型进行收敛，以调整模型的参数至目标值，得到训练后的模型可以包括：通过预设的损失函数获取预测运行方向和预测动作类型对应的惩罚值和奖励值；根据惩罚值和奖励值调整模型的参数至目标值，得到训练后的模型。

为了提高模型训练的灵活性和可靠性，可以利用强化学习(ReinforcementLearning，RL)对模型进行训练，例如，通过预设的损失函数获取预测运行方向和预测动作类型对应的惩罚值和奖励值，根据惩罚值和奖励值调整预设的模型的各个参数至适合的目标值，得到训练后的模型。

需要说明的是，为了提高模型的可靠性，在部署训练后的模型之前，可以对训练得到的模型进行测评，例如，可以从两方面进行评测：一方面，拟人水平：可以利用训练后的模型与人类对战，然后可以在测评数据集中统计得到训练后的模型预测的准确率，用于描述该训练后的模型的拟人水平。当准确率大于或等于第一预设阈值时，说明训练后的模型的性能比较可靠，该第一预设阈值可以根据实际需要进行灵活设置，当准确率小于第一预设阈值时，说明训练后的模型的性能较差，需要重新对训练后的模型进行训练，直至训练后的模型预测的准确率大于或等于第一预设阈值。另一方面，难度水平：可以利用训练后的模型与人类对战，然后可以在测评结果中统计训练后的模型对战的胜率，当胜率大于或等于第二预设阈值时，说明训练后的模型的性能较好，该第二预设阈值可以根据实际需要进行灵活设置，当胜率小于第二预设阈值时，说明训练后的模型的性能较差，需要重新对训练后的模型进行训练，直至训练后的模型的胜率大于或等于第二预设阈值。

在得到训练后的模型后，可以根据策略部署训练后的模型到合适玩家的对局中，其应用场景可以包括：1.新手教学：指导新手玩家如何将自己控制的单位发挥到最大的价值，以赢取收益。2.掉线托管：在玩家掉线的情况下帮助玩家执行合理动作以最大化本局对弈的收益或最小化本局对弈的损失，并且避免影响其他玩家的体验。3.人机挑战：对于高水平的玩家，接入高水平训练后的模型让玩家挑战得分，增加活跃度。实现了对复杂游戏环境中进行单位和空间的建模，以及决策多任务学习，对动作进行组合优化，并且预测通过前馈网络方式近似，不需要复杂的动作空间搜索，此外对队友信息进行显式建模，在线有助动态调整策略。

S104、控制目标物按照运行方向运行，以及执行动作类型对应的动作。

在得到目标物的运行方向和动作类型后，可以控制目标物按照运行方向运行(例如移动)，以及执行动作类型对应的动作，其中，该运行方向可以为空，或者行动作类型可以为空，即可以控制目标物仅按照运行方向运行，而不需要执行动作；或者，可以控制目标物仅执行动作类型对应的动作，而不需要运行；或者，可以既控制目标物按照运行方向运行，又控制目标物执行动作类型对应的动作；或者，控制目标物既不运行，又不执行动作；等等。

本实施例实现了针对IO类游戏，可以进行实时、轻量、以及海量部署的智能体建模方式，包括：1.适合IO游戏的输入输出：有效应对多队伍、变化视野、队友配合、以及多单位等场景。2.实时性强：单样本单次预测在1毫秒以内，满足实时性处理要求。3.部署便捷：协议测和游戏玩家相同，游戏开发接入简单，适合生产环境海量部署。

需要说明的是，可以每完成一次动作就获取下一帧数据集，例如，当游戏开始时，可以获取游戏运行环境中的第一帧数据集，从第一帧数据集中提取单位信息1、资源信息1、以及全局信息1等，根据单位信息1、资源信息1、以及全局信息1等，确定目标物的运行方向1和动作类型1，控制目标物按照运行方向1运行，以及执行动作类型1对应的动作；然后在动作执行完成后，获取游戏运行环境中的第二帧数据集，从第二帧数据集中提取单位信息2、资源信息2、以及全局信息2等，根据单位信息2、资源信息2、以及全局信息2等，确定目标物的运行方向2和动作类型2，控制目标物按照运行方向2运行，以及执行动作类型2对应的动作；依次类推，直至游戏结束。

或者，可以每间隔1秒钟获取下一帧数据集，例如，当游戏计时开始时，可以获取游戏运行环境中的第一帧数据集，从第一帧数据集中提取单位信息1、资源信息1、以及全局信息1等，根据单位信息1、资源信息1、以及全局信息1等，确定目标物的运行方向1和动作类型1，控制目标物按照运行方向1运行，以及执行动作类型1对应的动作；然后在游戏开始1秒钟时，获取游戏运行环境中的第二帧数据集，从第二帧数据集中提取单位信息2、资源信息2、以及全局信息2等，根据单位信息2、资源信息2、以及全局信息2等，确定目标物的运行方向2和动作类型2，控制目标物按照运行方向2运行，以及执行动作类型2对应的动作；在游戏开始2秒钟时，获取游戏运行环境中的第三帧数据集，从第三帧数据集中提取单位信息3、资源信息3、以及全局信息3等，根据单位信息3、资源信息3、以及全局信息3等，确定目标物的运行方向3和动作类型3，控制目标物按照运行方向3运行，以及执行动作类型3对应的动作；依次类推，直至游戏结束。

需要说明的是，可以实现对训练后的模型进行在线部署，例如，如图6所示，可以将训练后的模型部署在AI玩家接入服务，在线上环境中，无论是玩家客户端还是AI智能体(即玩家)，均以一样的协议接入游戏服务器。游戏服务器往往以帧同步的方式，发送场景信息到客户端和玩家接入服务集群，各端得到动作指令后，反传回游戏服务器。游戏服务器最终以固定方式去合并客户端玩家和AI玩家发到服务器的动作指令，并进行游戏进程迭代。本实施中训练后的模型，可以对IO游戏的单智能体感知和动作建模，采用基于图像和单位的建模方式，决策粒度细，适用场景丰富；以及适合IO类游戏多人组队场景，实际体验对队伍数不敏感；并且适合玩家视野变化的情况，对游戏视野变化场景可以灵活处理，适用于不同地图大小，具有可迁移性；此外在线接入方案，在线与玩家以相同协议接入的方式，使得接入灵活，可以有效应用于各种IO类游戏的掉线托管、人机对战、以及人机混合等应用场景。

请参阅图7，图7是本申请实施例提供的一种计算机设备的结构示意性框图。

如图7所示，该计算机设备300可以包括通过系统总线301连接的处理器302、存储器303和通信接口304，其中，存储器303可以包括非易失性计算机可读存储介质和内存储器。

非易失性计算机可读存储介质可存储计算机程序。该计算机程序包括程序指令，该程序指令被执行时，可使得处理器执行任意一种目标物控制方法。

处理器302用于提供计算和控制能力，支撑整个计算机设备的运行。

存储器303为非易失性计算机可读存储介质中的计算机程序的运行提供环境，该计算机程序被处理器302执行时，可使得处理器302执行任意一种目标物控制方法。

该通信接口304用于通信。本领域技术人员可以理解，图7中示出的结构，仅仅是与本申请方案相关的部分结构的框图，并不构成对本申请方案所应用于其上的计算机设备300的限定，具体的计算机设备300可以包括比图中所示更多或更少的部件，或者组合某些部件，或者具有不同的部件布置。

应当理解的是，该总线301比如为I2C(Inter-integrated Circuit)总线，存储器303可以是Flash芯片、只读存储器(ROM，Read-Only Memory)磁盘、光盘、U盘或移动硬盘等，处理器302可以是中央处理单元(Central Processing Unit，CPU)，该处理器302还可以是其他通用处理器、数字信号处理器(Digital Signal Processor，DSP)、专用集成电路(Application Specific Integrated Circuit，ASIC)、现场可编程门阵列(Field-Programmable Gate Array，FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。其中，通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。

其中，在一些实施例中，处理器302用于运行存储在存储器303中的计算机程序，以执行如下步骤：

获取运行环境中的每一帧数据集，从每一帧数据集中提取单位信息、资源信息、以及全局信息；根据单位信息、资源信息、以及全局信息，确定目标物的运行方向和动作类型，控制目标物按照运行方向运行，以及执行动作类型对应的动作。

在一些实施方式中，根据单位信息、资源信息、以及全局信息，确定目标物的运行方向和动作类型包括：根据单位信息生成向量嵌入特征，根据全局信息生成全局标量特征，以及根据单位信息、资源信息、以及全局信息，生成空间图像特征；通过训练后的模型对向量嵌入特征、全局标量特征以及空间图像特征进行处理，得到目标物的运行方向和动作类型。

在一些实施方式中，训练后的模型包括第一网络、第二网络、第三网络和第四网络，通过训练后的模型对向量嵌入特征、全局标量特征以及空间图像特征进行处理，得到目标物的运行方向和动作类型包括：通过第一网络对向量嵌入特征进行降维操作，得到第一特征信息；通过第二网络对空间图像特征进行卷积操作，得到第二特征信息；通过第三网络对全局标量特征进行非线性操作，得到第三特征信息；将第一特征信息、第二特征信息、以及第三特征信息进行合并，得到目标特征信息；通过第四网络对目标特征信息进行处理，得到目标物的运行方向和动作类型。

在一些实施方式中，第一网络为深度神经网络或多层感知机，第二网络为卷积神经网络或残差网络，第三网络为深度神经网络或多层感知机，第四网络为循环神经网络或长短期记忆网络。

在一些实施方式中，通过训练后的模型对向量嵌入特征、全局标量特征以及空间图像特征进行处理，得到目标物的运行方向和动作类型之前，目标物控制方法还包括：获取样本视频，从样本视频中筛选出有效帧数据，以及从有效帧数据中确定样本物；通过预设的模型基于有效帧数据确定样本物的预测运行方向和预测动作类型；通过预设的损失函数对预测运行方向和预测动作类型进行收敛，以调整模型的参数至目标值，得到训练后的模型。

在一些实施方式中，从样本视频中筛选出有效帧数据包括：获取样本视频中的分析指标；根据分析指标从样本视频中筛选出有效帧数据。

在一些实施方式中，通过预设的模型基于有效帧数据确定样本物的预测运行方向和预测动作类型包括：从有效帧数据中提取目标单位信息、目标资源信息、以及目标全局信息；通过预设的模型对目标单位信息、目标资源信息、以及目标全局信息进行处理，得到样本物的预测运行方向和预测动作类型。

在一些实施方式中，通过预设的损失函数对预测运行方向和预测动作类型进行收敛，以调整模型的参数至目标值，得到训练后的模型包括：获取有效帧数据对应的真实运行方向和真实动作类型；通过预设的损失函数基于真实运行方向和真实动作类型，对预测运行方向和预测动作类型进行收敛，以调整模型的参数至目标值，得到训练后的模型；或者，通过预设的损失函数获取预测运行方向和预测动作类型对应的惩罚值和奖励值；根据惩罚值和奖励值调整模型的参数至目标值，得到训练后的模型。

在上述实施例中，对各个实施例的描述都各有侧重，某个实施例中没有详述的部分，可以参见上文针对目标物控制方法的详细描述，此处不再赘述。

本申请实施例计算机设备可以获取运行环境中的每一帧数据集，从每一帧数据集中提取单位信息、资源信息、以及全局信息；根据单位信息、资源信息、以及全局信息，确定目标物的运行方向和动作类型，控制目标物按照运行方向运行，以及执行动作类型对应的动作。该方案可以综合单位信息、资源信息、以及全局信息等确定目标物的运行方向和动作类型，可以灵活应对信息量增加及运行环境变化需求等，以便准确控制目标物执行对应的动作，提高了对目标物控制的准确性和可靠性。

本申请的实施例中还提供一种计算机可读存储介质，计算机可读存储介质存储有计算机程序，该计算机程序中包括程序指令，处理器执行程序指令，实现本申请实施例提供的任一项目标物控制方法。例如，该计算机程序被处理器加载，可以执行如下步骤：

以上各个操作的具体实施可参见前面的实施例，在此不再赘述。

其中，计算机可读存储介质可以是前述实施例的计算机设备的内部存储单元，例如计算机设备的硬盘或内存。计算机可读存储介质也可以是计算机设备的外部存储设备，例如计算机设备上配备的插接式硬盘，智能存储卡(SmartMedia Card，SMC)，安全数字(Secure Digital，SD)卡，闪存卡(Flash Card)等。

由于该计算机可读存储介质中所存储的计算机程序，可以执行本申请实施例所提供的任一种目标物控制方法，因此，可以实现本申请实施例所提供的任一种目标物控制方法所能实现的有益效果，详见前面的实施例，在此不再赘述。

应当理解，在此本申请说明书中所使用的术语仅仅是出于描述特定实施例的目的而并不意在限制本申请。如在本申请说明书和所附权利要求书中所使用的那样，除非上下文清楚地指明其它情况，否则单数形式的“一”、“一个”及“该”意在包括复数形式。

还应当理解，在本申请说明书和所附权利要求书中使用的术语“和/或”是指相关联列出的项中的一个或多个的任何组合以及所有可能组合，并且包括这些组合。需要说明的是，在本文中，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者系统不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者系统所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括该要素的过程、方法、物品或者系统中还存在另外的相同要素。

上述本申请实施例序号仅仅为了描述，不代表实施例的优劣。以上所述，仅是本申请的具体实施方式，但本申请的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本申请揭露的技术范围内，可轻易想到各种等效的修改或替换，这些修改或替换都应涵盖在本申请的保护范围之内。因此，本申请的保护范围应以权利要求的保护范围为准。

Claims

1.一种目标物控制方法，其特征在于，包括：

获取运行环境中的每一帧数据集；

2.根据权利要求1所述的目标物控制方法，其特征在于，所述根据所述单位信息、所述资源信息、以及所述全局信息，确定目标物的运行方向和动作类型包括：

根据所述单位信息生成向量嵌入特征，根据所述全局信息生成全局标量特征，以及根据所述单位信息、所述资源信息、以及所述全局信息，生成空间图像特征；

通过训练后的模型对所述向量嵌入特征、所述全局标量特征以及所述空间图像特征进行处理，得到目标物的运行方向和动作类型。

3.根据权利要求2所述的目标物控制方法，其特征在于，所述训练后的模型包括第一网络、第二网络、第三网络和第四网络，所述通过训练后的模型对所述向量嵌入特征、所述全局标量特征以及所述空间图像特征进行处理，得到目标物的运行方向和动作类型包括：

通过所述第一网络对所述向量嵌入特征进行降维操作，得到第一特征信息；

通过所述第二网络对所述空间图像特征进行卷积操作，得到第二特征信息；

通过所述第三网络对所述全局标量特征进行非线性操作，得到第三特征信息；

将所述第一特征信息、所述第二特征信息、以及所述第三特征信息进行合并，得到目标特征信息；

通过所述第四网络对所述目标特征信息进行处理，得到目标物的运行方向和动作类型。

4.根据权利要求3所述的目标物控制方法，其特征在于，所述第一网络为深度神经网络或多层感知机，所述第二网络为卷积神经网络或残差网络，所述第三网络为深度神经网络或多层感知机，所述第四网络为循环神经网络或长短期记忆网络。

5.根据权利要求2所述的目标物控制方法，其特征在于，所述通过训练后的模型对所述向量嵌入特征、所述全局标量特征以及所述空间图像特征进行处理，得到目标物的运行方向和动作类型之前，所述目标物控制方法还包括：

获取样本视频，从所述样本视频中筛选出有效帧数据，以及从所述有效帧数据中确定样本物；

通过预设的模型基于所述有效帧数据确定所述样本物的预测运行方向和预测动作类型；

通过预设的损失函数对所述预测运行方向和所述预测动作类型进行收敛，以调整所述模型的参数至目标值，得到训练后的模型。

6.根据权利要求5所述的目标物控制方法，其特征在于，所述从所述样本视频中筛选出有效帧数据包括：

获取所述样本视频中的分析指标；

根据所述分析指标从所述样本视频中筛选出有效帧数据。

7.根据权利要求5所述的目标物控制方法，其特征在于，所述通过预设的模型基于所述有效帧数据确定所述样本物的预测运行方向和预测动作类型包括：

从所述有效帧数据中提取目标单位信息、目标资源信息、以及目标全局信息；

通过预设的模型对所述目标单位信息、所述目标资源信息、以及所述目标全局信息进行处理，得到样本物的预测运行方向和预测动作类型。

8.根据权利要求5所述的目标物控制方法，其特征在于，所述通过预设的损失函数对所述预测运行方向和所述预测动作类型进行收敛，以调整所述模型的参数至目标值，得到训练后的模型包括：

获取所述有效帧数据对应的真实运行方向和真实动作类型；

通过预设的损失函数基于所述真实运行方向和真实动作类型，对所述预测运行方向和所述预测动作类型进行收敛，以调整所述模型的参数至目标值，得到训练后的模型；或者，

通过预设的损失函数获取所述预测运行方向和所述预测动作类型对应的惩罚值和奖励值；

根据所述惩罚值和奖励值调整所述模型的参数至目标值，得到训练后的模型。

9.根据权利要求1至8任一项所述的目标物控制方法，其特征在于，所述从所述每一帧数据集中提取单位信息、资源信息、以及全局信息包括：

从所述每一帧数据集中提取所述目标物、配合物以及对抗物各自对应的单位的位置、重量、以及速度，得到单位信息；以及，

从所述每一帧数据集中提取分裂体的位置、分裂体的重量、能量的位置、以及能量的重量，得到资源信息；以及，

从所述每一帧数据集中提取目标位置、目标物的视野、游戏时间、配合位置、以及排名信息，得到全局信息。

10.一种计算机设备，其特征在于，包括处理器和存储器，所述存储器中存储有计算机程序，所述处理器调用所述存储器中的计算机程序时执行如权利要求1至9任一项所述的目标物控制方法。

11.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质用于存储计算机程序，所述计算机程序被处理器加载以执行权利要求1至9任一项所述的目标物控制方法。