CN108434740A

CN108434740A - 一种策略信息确定的方法及装置

Info

Publication number: CN108434740A
Application number: CN201810246290.6A
Authority: CN
Inventors: 周大军; 张力柯; 荆彦青
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2018-03-23
Filing date: 2018-03-23
Publication date: 2018-08-24
Anticipated expiration: 2038-03-23
Also published as: CN108434740B

Abstract

本发明公开了一种策略信息确定的方法，包括：获取待处理数据，其中，待处理数据包括第一图像和第二图像，第一图像包含交互式应用的场景缩略数据，第二图像包含交互式应用的场景交互数据；通过策略信息模型对第一图像进行处理，得到目标行动数据，其中，策略信息模型为标签样本数据与样本行动数据之间的关系；根据第二图像确定目标对象的目标状态数据；根据目标行动数据以及目标状态数据确定目标对象所对应的策略信息，其中，策略信息用于控制目标对象行动。本发明还公开了一种策略信息确定装置。本发明可以实现游戏操作的自动化，对于复杂的游戏场景而言，利用策略信息模型得到的策略信息更接近真实玩家的行为，从而提升方案的灵活性。

Description

一种策略信息确定的方法及装置

技术领域

本发明涉及人工智能领域，尤其涉及一种策略信息确定的方法及装置。

背景技术

目前，交互式应用中通常具有人机互动的模式，或者机器模拟用户操作的模式，比如，在交互式应用中，可以采用行为树进行动作策略的判断与输出。终端设备在判断动作策略时，需要通过一些条件自顶向下地搜索行为树，最终确定要执行的策略信息。

然而，虽然可以通过判断行为树中的指定条件来输出策略信息，但是，由于行为树中指定条件是有限的，所以对于复杂的交互式应用场景而言，没有指定的情况而言则不能很好地进行处理，因此，采用行为树的灵活性较低。

发明内容

本发明实施例提供了一种策略信息确定的方法及装置，可以实现游戏操作的自动化，对于复杂的游戏场景而言，利用策略信息模型得到的策略信息更接近真实玩家的行为，从而提升方案的灵活性。

本发明的第一方面提供了一种策略信息确定的方法，包括：

获取待处理数据，其中，所述待处理数据包括第一图像和第二图像，所述第一图像包含交互式应用的场景缩略数据，所述第二图像包含所述交互式应用的场景交互数据；

通过策略信息模型对所述第一图像进行处理，得到目标行动数据，其中，所述策略信息模型为标签样本数据与样本行动数据之间的关系；

根据所述第二图像确定目标对象的目标状态数据；

根据所述目标行动数据以及所述目标状态数据确定所述目标对象所对应的策略信息，其中，所述策略信息用于控制所述目标对象行动。

本发明的第二方面提供了一种策略信息确定装置，包括：

获取模块，用于获取待处理数据，其中，所述待处理数据包括第一图像和第二图像，所述第一图像包含交互式应用的场景缩略数据，所述第二图像包含所述交互式应用的场景交互数据；

处理模块，用于通过策略信息模型对所述获取模块获取的所述第一图像进行处理，得到目标行动数据，其中，所述策略信息模型为标签样本数据与样本行动数据之间的关系；

确定模块，用于根据所述获取模块获取的所述第二图像确定目标对象的目标状态数据；

所述确定模块，用于根据所述处理模块处理得到的所述目标行动数据以及所述目标状态数据确定所述目标对象所对应的策略信息，其中，所述策略信息用于控制所述目标对象行动。

本发明的第三方面提供了一种策略信息确定装置，所述策略信息确定装置包括：存储器、收发器、处理器以及总线系统；

其中，所述存储器用于存储程序；

所述处理器用于执行所述存储器中的程序，包括如下步骤：

根据所述第二图像确定目标对象的目标状态数据；

根据所述目标行动数据以及所述目标状态数据确定所述目标对象所对应的策略信息，其中，所述策略信息用于控制所述目标对象行动；

所述总线系统用于连接所述存储器以及所述处理器，以使所述存储器以及所述处理器进行通信。

本发明的第四方面提供了一种计算机可读存储介质，所述计算机可读存储介质中存储有指令，当其在计算机上运行时，使得计算机执行上述各方面所述的方法。

本发明的第五方面提供了一种包含指令的计算机程序产品，当其在计算机上运行时，使得计算机执行上述各方面所述的方法。

从以上技术方案可以看出，本发明实施例具有以下优点：

本发明实施例中，提供了一种策略信息确定的方法，首先，由策略信息确定装置获取待处理数据，其中，该待处理数据包括第一图像和第二图像，第一图像包含交互式应用的场景缩略数据，第二图像包含交互式应用的场景交互数据，然后通过策略信息模型对第一图像进行处理，得到目标行动数据，再根据第二图像确定目标对象的目标状态数据，最后策略信息确定装置根据目标行动数据以及目标状态数据确定目标对象所对应的策略信息。通过上述方式，可以实现游戏操作的自动化，对于复杂的游戏场景而言，利用策略信息模型可以输出目标行动数据，再结合目标状态数据可以得到策略信息，该策略信息更接近真实玩家的行为，从而提升方案的灵活性。

附图说明

图1为本发明实施例中输出策略信息的一个流程示意图；

图2为本发明实施例中策略信息确定的方法一个实施例示意图；

图3为本发明实施例中第一图像的一个实施例示意图；

图4为本发明实施例中第二图像的一个实施例示意图；

图5为本发明实施例中策略信息模型的一个实施例示意图；

图6为本发明实施例中利用行为树确定策略信息的一个流程示意图；

图7为本发明实施例中策略信息确定装置一个实施例示意图；

图8为本发明实施例中策略信息确定装置另一个实施例示意图；

图9为本发明实施例中策略信息确定装置另一个实施例示意图；

图10为本发明实施例中策略信息确定装置另一个实施例示意图；

图11为本发明实施例中策略信息确定装置一个结构示意图。

具体实施方式

本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”、“第三”、“第四”等(如果存在)是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本发明的实施例例如能够以除了在这里图示或描述的那些以外的顺序实施。此外，术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

应理解，本发明主要应用于交互式应用程序，具体可以应用于MOBA游戏，这类MOBA游戏的玩法是，在战斗中玩家通常被分为两队，两队在分散的游戏地图中互相竞争，每个玩家都通过一个即时策略(real-time strategy，RTS)风格的界面控制所选的角色，玩家只控制自己所选的角色，该角色即为“英雄”。具体地，本发明还可以采用人工智能(ArtificialIntelligence，AI)来模拟游戏测试的场景，或者人机对战的场景，又或者是智能移动的场景等，此处不做限定。

游戏发布往往只是一个开端，随后还需要不断地给游戏增加新的内容。而每一次的更新都需要进行大量的游戏测试，玩家数越多的游戏所需要的测试量也越大，因此，如何进行自动化测试成为了一个亟待解决的问题。本发明所提供的策略信息确定方法能够灵活高效地完成自动化测试。

为了便于理解，请参阅图1，图1为本发明实施例中输出策略信息的一个流程示意图，如图所示，具体地：

在步骤S1中，通过终端设备(如手机)对MOBA游戏的界面进行截屏处理，从而得到游戏过程中的截屏图像；

在步骤S2中，截屏图像中包括第一图像和第二图像，其中，第一图像即为小地图图像；

在步骤S3中，将小地图图像输入至策略信息模型，并输出相应的目标行动数据。其中，策略信息模型具体可以是深度增强学习(Deep Reinforcement Learning，DQN)网络模型，DQN是将深度学习与增强学习结合起来，实现从感知到动作的端对端学习的一种全新的算法；

在步骤S4中，截屏图像中包括第一图像和第二图像，其中，第二图像即为游戏场景图像；

在步骤S5中，采用识别算法对游戏场景图像内的数据进行识别，并得到目标状态数据；

在步骤S6中，将步骤S3输出的目标行动数据和步骤S5输出的目标状态数据共同输入至行为树中；

在步骤S7中，通过行为树输出目标对象的行动策略。

下面将从策略信息确定装置的角度，对本发明中策略信息确定的方法进行介绍，请参阅图2，本发明实施例中策略信息确定的方法一个实施例包括：

101、获取待处理数据，其中，待处理数据包括第一图像和第二图像，第一图像包含交互式应用的场景缩略数据，第二图像包含交互式应用的场景交互数据；

本实施例中，首先由策略信息确定装置获取待处理数据，其中，策略信息确定装置可以为终端设备，如手机、平板电脑、个人电脑或者掌上电脑等，也可以是服务器，此处不做限定。

待处理数据具体为终端设备对交互式应用截屏后得到的图像，该待处理数据包括第一图像和第二图像，为了便于理解，请参阅图3，图3为本发明实施例中第一图像的一个实施例示意图，如图所示，第一图像包含了交互式应用的场景缩略数据，场景缩略图又可以称为“小地图”，“小地图”的元素一般因游戏类型而异，玩家角色、周围地形、盟军单位或结构、敌人、重要地点或道具都是一般显示的要素。因为“小地图”负责指示当前屏幕在整个游戏世界的位置，所以在即时战略游戏中非常常见，大多第一人称射击游戏也通常显示实时的敌人。

请参阅图4，图4为本发明实施例中第二图像的一个实施例示意图，如图所示，第二图像包含交互式应用的场景交互数据，可以包括以玩家所在的场景地图，通常可以在第二图像上显示技能类型、英雄角色、敌人和非玩家角色等，玩家根据第二图像能够了解当前的游戏状态。

102、通过策略信息模型对第一图像进行处理，得到目标行动数据，其中，策略信息模型为标签样本数据与样本行动数据之间的关系；

本实施例中，策略信息确定装置采用策略信息模型对第一图像进行处理，即可得到目标行动数据，其中，策略信息模型为标签样本数据与样本行动数据之间的关系。而目标行动数据用于表示目标对象的行动内容，目标行动数据包含但不仅限于输出战斗(一对一)、打野、团战、逃跑、加血、回城、推塔、守塔、伏击、打小兵以及不作动作。

103、根据第二图像确定目标对象的目标状态数据；

本实施例中，策略信息确定装置对第二图像进行识别，从而得到目标对象的目标状态数据，目标对象可以是MOBA游戏中的英雄人物，如“王者荣耀”中的英雄“李元芳”、“杨戬”以及“鲁班”等。

目标状态数据用于表示目标对象的对战状态，目标状态数据包含但不仅限于英雄的等级，英雄的金币数量，英雄的血量，英雄的魔量，回血键的状态以及回城键的状态等。

104、根据目标行动数据以及目标状态数据确定目标对象所对应的策略信息，其中，策略信息用于控制目标对象行动。

本实施例中，策略信息确定装置根据目标行动数据以及目标状态数据确定目标对象所对应的策略信息，策略信息除了可以包含输出战斗(一对一)、打野、团战、逃跑、加血、回城、推塔、守塔、伏击、打小兵以及不作动作以外，还可以包括装备升级以及技能升级等。

策略信息确定装置根据策略信息控制目标对象进行相应的行动。

本发明实施例中，提供了一种策略信息确定的方法，首先，由策略信息确定装置获取待处理数据，其中，该待处理数据包括第一图像和第二图像，第一图像包含交互式应用的场景缩略数据，第二图像包含交互式应用的场景交互数据，然后通过策略信息模型对第一图像进行处理，得到目标行动数据，再根据第二图像确定目标对象的目标状态数据，最后策略信息确定装置根据目标行动数据以及目标状态数据确定目标对象所对应的策略信息。通过上述方式，可以实现游戏操作的自动化，对于复杂的游戏场景而言，利用策略信息模型可以输出目标行动数据，再结合目标状态数据可以得到策略信息，从而提升方案的灵活性。

可选地，在上述图2对应的实施例的基础上，本发明实施例提供的策略信息确定的方法第一个可选实施例中，通过策略信息模型对第一图像进行处理，得到目标行动数据之前，还可以包括：

获取样本行动数据以及标签样本数据，其中，样本行动数据用于表示不同的行动策略，标签样本数据用于对不同的行动策略进行分类；

对样本行动数据以及标签样本数据进行训练，以得到策略信息模型。

本实施例中，策略信息确定装置在通过策略信息模型对第一图像进行处理，得到目标行动数据之前，还需要先训练得到一个策略信息模型。其中，策略信息模型的训练要采用样本行动数据以及标签样本数据，样本行动数据主要表示不同的行动策略，例如攻击、移动或者加血量等行动。而标签样本数据主要是对不同的行动策略进行分类，比如，攻击可以分为“团战”类型、“一对一战斗”类型或者“推塔”类型。对大量的样本行动数据以及标签样本数据进行训练，即可得到策略信息模型。

具体地，获取标签样本数据的过程可以分为三个步骤，首先进行图形图像数据识别，此阶段主要是根据已有的视频数据，识别出需要使用的数据信息，提供给后续的算法使用。识别主要为两部分，一部分为游戏内第一图像(小地图)识别，一部分为游戏内第二图像(场景地图)识别。然后按事先设定好的分类(例如团战、推塔、守塔、打野、伏击、打小兵、回城以及逃路等标签)，将视频数据进行分段，比如从小地图信息可以知道英雄在野怪区，等了一段时间之后，若此野怪区的怪没有了(小地图信息可以提供此野怪是否存在)，则表明当前这段时间此英雄是在打怪，可以将此段视频数据标签为打野。同时，我们可以根据当前英雄的血量数据，计算此打野标签的激励数据，激励数据即为标签样本数据。至此完成一次数据标签及激励计算的过程。

以团战为例，当我方和对方的英雄在二人以上时(不含二人)，并在同屏距离比较近时，可以将此标签样本数据标签为团战，并在团战结束后(例如英雄头标在小地图消失，或者英雄之间距离较远)，根据当前英雄的位置数据(如果英雄头标在小地图消失，则此英雄死亡)，计算此团战标签的激励数据。

再以守塔为例，守塔是指当前英雄与我们塔距离一定的范围，保护我们的塔不被对方英雄推掉。激励数据是根据我方的塔是否被推掉和当前英雄的血量变化来计算，塔被推掉，并且当前英雄的血量变少，则表示负激励。若塔没被推掉，并且英雄血量为零(英雄死亡)，则表示正激励。

再以推塔为例，推塔是指当前英雄主动去推对方的塔，激励数据是根据对方的塔是否被推掉和当前英雄的血量变化来计算。如果塔被推掉，且英雄血量不为零，则表示正激励。如果塔没被推掉，且英雄血量为零(英雄死亡)，则表示负激励。

再以伏击为例，伏击是指当前英雄提前埋伏在草丛中，等待对方英雄出现是打伏击战。根据当前英雄的血量数据(如果英雄头标在小地图消失和对方英雄的血量数据，计算标签的激励数据。

最后，按照计算得到的标签和该标签对应的激励数据，可以直接使用此激励数据进行训练了。

其次，本发明实施例中，在训练策略信息模型时，需要先获取获取样本行动数据以及标签样本数据，样本行动数据用于表示不同的行动策略，而标签样本数据用于对不同的行动策略进行分类，然后通过对样本行动数据以及标签样本数据进行训练，就可以得到策略信息模型。通过上述方式，能够对样本进行标签化处理，为机器学习提供更多的学习样本，从而提升机器学习的效率和学习的有效性。

可选地，在上述图2对应的实施例的基础上，本发明实施例提供的策略信息确定的方法第二个可选实施例中，通过策略信息模型对第一图像进行处理，得到目标行动数据，可以包括：

将第一图像输入至策略信息模型，并通过策略信息模型输出至少一个行动数据的概率；

根据至少一个行动数据的概率确定目标行动数据，其中，目标行动数据属于至少一个行动数据。

本实施例中，将第一图像输入至策略信息模型后，可以通过策略信息模型输出至少一个行动数据的概率，比如，输出行动数据为“逃跑”的概率是50％，行动数据为“战斗”的概率是80％，行动数据为“不移动”的概率是10％，于是按照概率从大到小的顺序，确定行动数据为“战斗”的概率最大，因此，将“战斗”作为目标行动数据。

为了便于介绍，下面将一个具体的例子介绍策略信息模型，请参阅图5，图5为本发明实施例中策略信息模型的一个实施例示意图，策略信息模型可以为DQN网络模型，在DQN网络模型中包括卷积神经网络(Convolutional Neural Network，CNN)和两个全连接层，CNN中包括三个卷积层和一个池化层，第一个卷积层大小为8×8的像素大小，步长为4个像素点，通道有32个。第二个卷积层大小为5×5的像素大小，步长为3个像素点，通道有64个。第三个卷积层大小为3×3的像素大小，步长为1个像素点，通道有64个。第一个全连接层为2304×1的像素大小，第二个全连接层为512×1的像素大小，可以理解的是，CNN中的卷积层和池化层等网络结构可以调节，且DQN中的像素大小、步长和通道数都是可以根据情况进行调节的，此处仅为一个示意。

将第一图像(小地图图像)的灰度图输入到一个DQN网络中，通过DQN网络，输出战斗(一对一)、打野、团战、逃跑、加血、回城、推塔、守塔、伏击、打小兵和不作动作等具体动作的概率。

其次，本发明实施例中，介绍了一种通过策略信息模型获取目标行动数据的方式，即先将第一图像输入至策略信息模型，并通过策略信息模型输出至少一个行动数据的概率，然后根据至少一个行动数据的概率确定目标行动数据，其中，目标行动数据属于至少一个行动数据。通过上述方式，能够利用策略信息模型输出目标行动数据，从而提升方案的实用性，同时，策略信息模型还具有较好的可靠性，输出的目标行动数据也具有较好的可靠性。

可选地，在上述图2对应的实施例的基础上，本发明实施例提供的策略信息确定的方法第三个可选实施例中，根据第二图像确定目标对象的目标状态数据，可以包括：

获取第二图像中的特征数据；

采用识别算法对第二图像中的特征数据进行处理，得到目标对象的目标状态数据。

本实施例中，可以通过识别算法对第二图像中的特征数据进行处理，并得到目标状态数据。

具体地，先获取第二图像，然后对第二图像中的数据进行预处理，数据预处理可以加强有用的信息，改善图像质量，便于对图像进行分析和处理。然后提取第二图像的特征数据，特征数据的提取是采用映射(或变换)的方法将高维空间的原始特征变换为低维空间的特征，从而有利于分类。最后根据特征数据对图像进行分类。

其中，特征数据的提取一般可以分为两个层次，一层是底层的特征提取，另一层是高层次的特征提取。底层的特征提取是图像分析的基础，常用的有颜色特征、形状特征和纹理特，具有计算简单和性能稳定的特征。而高层的特征提取一般是基于语义层的高度，如人物识别和行为分析等，这些都需要根据底层的提取结果，通过识别算法才能得到。

识别算法包含但不仅限于贝叶斯分类算法、模板匹配法、核方法、集成学习方法和人工神经网络法。其中，贝叶斯分类算法是通过提取图像的特征数据并计算后验概率来对图像进行分类。模板匹配法是将样本与模板进行比较，判断是否匹配，如果要检测某个目标，需要对其形状有一定的先验知识来构造合适的模板。核方法是基于核函数实现的方法，如支持向量机。集成学习方法是用一系列学习器进行学习，并通过某个准则把各个学习的结构进行整合，从而获取比单一学习器更好的学习效果。人工神经网络法主要分为学习阶段和分类阶段，在被识别图像信息的引导下，网络通过学习，修改相关参数，从而提高图像的分类准确度和速度。

其次，本发明实施例中，介绍如何根据第二图像确定目标对象的目标状态数据的方式，即先获取第二图像中的特征数据，然后采用识别算法对第二图像中的特征数据进行处理，得到目标对象的目标状态数据。通过上述方式，能够采用识别算法确定目标状态数据，从而提升方案的可靠性。

可选地，在上述图2以及图2对应的第一至第三个实施例中任一项的基础上，本发明实施例提供的策略信息确定的方法第四个可选实施例中，根据目标行动数据以及目标状态数据确定目标对象所对应的策略信息，可以包括：

判断目标状态数据是否满足第一数据处理条件；

若目标状态数据满足第一数据处理条件，则判断目标状态数据是否满足第二数据处理条件，若目标状态数据满足第二数据处理条件，则将第一行动数据确定为目标对象所对应的策略信息；

若目标状态数据不满足第一数据处理条件，则将目标行动数据确定为目标对象所对应的策略信息。

本实施例中，在策略信息模型输出目标行动数据，以及识别得到目标状态数据之后，还可以采用行为树来确定目标对象的策略信息。下面将结合一个具体的应用场景来说明如何利用行为树来确定策略信息。

请参阅图6，图6为本发明实施例中利用行为树确定策略信息的一个流程示意图，以交互式应用为MOBA游戏为例，具体地，在步骤201中通过DQN网络输出目标行动数据，并在步骤202中通过识别第二图像中得到目标状态数据，其中，目标状态数据包含但不仅限于英雄的血量和按钮状态。

在步骤203中判断目标状态数据满足第一数据处理条件，假设第一数据处理条件可以是判断英雄血量是否低于设定的阈值，如果判断得到英雄的血量不低于设定的阈值，则进入步骤204，即将DQN输出的目标行动数据作为目标对象所对应的策略信息。如果判断得到英雄的血量低于设定的阈值，则在步骤205中判断目标状态数据满足第二数据处理条件，其中，第二数据处理条件可以是判断加血按钮是否可用，如果加血按钮可用，则将第一行动数据确定为目标对象所对应的策略信息，第一行动数据可以为“加血”，策略信息即为选择加血动作作为此次输出。

再次，本发明实施例中，在使用策略信息模型的基础上，还可以进一步加入行为树的辅助和判断，根据不同的数据处理条件输出相应的策略信息。通过上述方式，除了可以对策略信息模型进行设计和训练以外，还可以对行为树进行设计，从而适用于更多复杂的游戏场景，以此提升方案的实用性和可行性，有利于达到更好的模拟效果。

可选地，在上述图2对应的第四个实施例的基础上，本发明实施例提供的策略信息确定的方法第五个可选实施例中，判断目标状态数据是否满足第二数据处理条件，可以包括：

若目标状态数据不满足第二数据处理条件，则将第二行动数据确定为目标对象所对应的策略信息。

本实施例中，请继续参阅图6，图6为本发明实施例中利用行为树确定策略信息的一个流程示意图，以交互式应用为MOBA游戏为例，上述图2对应的第四个实施例已经介绍了行为树的部分内容，此处不作赘述。在步骤205中判断目标状态数据满足第二数据处理条件，其中，第二数据处理条件可以是判断加血按钮是否可用，如果加血按钮不可用，则将第二行动数据确定为目标对象所对应的策略信息，第二行动数据可以为“回城”，策略信息即为选择回程动作作为此次输出。其中，行为树是对DQN网络一个辅助判断，在行为树实现中，主要对英雄的血量做了特定的判断，并把英雄的装备和升技能的操作放在行为树中进行了处理。

可以理解的是，第一数据处理条件和第二数据处理条件还可以是其他的条件，这些条件与游戏类型和游戏内容相关，此处仅为一个示意，并不应构成对本方案的限定。

进一步地，本发明实施例中，若目标状态数据不满足第二数据处理条件，则将第二行动数据确定为目标对象所对应的策略信息。通过上述方式，还可以针对不同的情况来确定对应的策略信息，从而提升策略信息的选择多样性和准确性。

可选地，在上述图2对应的第四个实施例的基础上，本发明实施例提供的策略信息确定的方法第六个可选实施例中，还可以包括：

若根据目标行动数据以及目标状态数据满足第三数据处理条件，则执行第三行动数据对应的策略信息；

若根据目标行动数据以及目标状态数据满足第四数据处理条件，则执行第四行动数据对应的策略信息。

本实施例中，根据目标行动数据以及目标状态数据，除了可以判断与“英雄”生命值相关的目标状态数据是否满足数据处理条件以外，还可以判断与“英雄”经济值相关的目标状态数据是否满足数据处理条件。

为了便于理解，请继续参阅图6，图6为本发明实施例中利用行为树确定策略信息的一个流程示意图，以交互式应用为MOBA游戏为例，具体地，在步骤201中通过DQN网络输出目标行动数据，并在步骤202中通过识别第二图像中得到目标状态数据，其中，目标状态数据包含但不仅限于英雄的血量和按钮状态。步骤203中，需要判断英雄血量是否低于设定的阀值，如果是，则进入步骤205，反之，若不是，则转至步骤204。

步骤204中可以选择DQN网络输出动作策略，而步骤205中需要判断加血按钮是否可以使用，如果可以，则进入步骤207，即选择加血动作作为此次输出，反之，则进入步骤206，即选择回程作为此次输出。这些输出的动作策略可以体现在步骤212中，动作策略包含但不仅限于战斗、打野、团战、逃跑、加血、回城、推塔、守塔、伏击和打小兵等操作。

在步骤208中判断目标状态数据满足第三数据处理条件，其中，第三数据处理条件为判断“英雄”是否有足够的金币来购买装备，若达到了购买装备所需金币的条件，则在步骤209中输出购买装备的动作。类似地，在步骤210中判断目标状态数据满足第四数据处理条件，其中，第四数据处理条件为判断“英雄”是否有足够的经验来升级技能，若达到了升级技能所需经验的条件，则在步骤211中输出升级技能的动作，可以理解的是，升级技能的顺序可以根据实际情况进行设置。

最后，在步骤213中可以由行为树输出策略信息，策略信息包含但不仅限于动作策略，装备购买策略和升级策略。

进一步地，本发明实施例中，若根据目标行动数据以及目标状态数据满足第三数据处理条件，则执行第三行动数据对应的策略信息，若根据目标行动数据以及目标状态数据满足第四数据处理条件，则执行第四行动数据对应的策略信息。通过上述方式，能够应对更多的游戏场景，从而提升方案的灵活性和多样性。

可选地，在上述图2对应的实施例的基础上，本发明实施例提供的策略信息确定的方法第七个可选实施例中，根据目标行动数据以及目标状态数据确定目标对象所对应的策略信息之后，还可以包括：

根据策略信息控制目标对象执行策略信息所对应的行动。

本实施例中，在策略信息确定装置确定目标对象的策略信息之后，还可以采用该策略信息控制目标对象执行相应的行动。

具体地，以一款名为“王者荣耀”的MOBA游戏为例，假设目标对象为英雄“虞姬”，若输出的策略信息为“逃跑”，则控制“虞姬”往与敌人不同的方向运动，且可以选择开启“加速逃跑”的模式。若输出的策略信息为“守塔”，则控制“虞姬”移动到塔下的位置，对敌人进行攻击。

可以理解的是，上述的策略信息以及策略信息所对应的目标对象的行动仅为一个示意，在不同的游戏场景中可以根据不同的策略信息赋予不同的行动方式，此处仅为一个示意，并不应理解为对本发明的限定。

更进一步地，本发明实施例中，在策略信息确定装置根据目标行动数据以及目标状态数据确定目标对象所对应的策略信息之后，可以根据策略信息控制目标对象执行策略信息所对应的行动。通过上述方式，还可以利用策略信息控制目标对象在游戏中执行相应的行动，从而达到模拟玩家的目的，由此提升方案的可操作性。

下面对本发明中的策略信息确定装置进行详细描述，请参阅图7，图7为本发明实施例中策略信息确定装置一个实施例示意图，策略信息确定装置30包括：

获取模块301，用于获取待处理数据，其中，所述待处理数据包括第一图像和第二图像，所述第一图像包含交互式应用的场景缩略数据，所述第二图像包含所述交互式应用的场景交互数据；

处理模块302，用于通过策略信息模型对所述获取模块301获取的所述第一图像进行处理，得到目标行动数据，其中，所述策略信息模型为标签样本数据与样本行动数据之间的关系；

确定模块303，用于根据所述获取模块301获取的所述第二图像确定目标对象的目标状态数据；

所述确定模块303，用于根据所述处理模块302处理得到的所述目标行动数据以及所述目标状态数据确定所述目标对象所对应的策略信息，其中，所述策略信息用于控制所述目标对象行动。

本实施例中，获取模块301获取待处理数据，其中，所述待处理数据包括第一图像和第二图像，所述第一图像包含交互式应用的场景缩略数据，所述第二图像包含所述交互式应用的场景交互数据，处理模块302通过策略信息模型对所述获取模块301获取的所述第一图像进行处理，得到目标行动数据，其中，所述策略信息模型为标签样本数据与样本行动数据之间的关系，确定模块303根据所述获取模块301获取的所述第二图像确定目标对象的目标状态数据，所述确定模块303根据所述处理模块302处理得到的所述目标行动数据以及所述目标状态数据确定所述目标对象所对应的策略信息，其中，所述策略信息用于控制所述目标对象行动。

本发明实施例中，提供了一种策略信息确定装置，首先，由策略信息确定装置获取待处理数据，其中，该待处理数据包括第一图像和第二图像，第一图像包含交互式应用的场景缩略数据，第二图像包含交互式应用的场景交互数据，然后通过策略信息模型对第一图像进行处理，得到目标行动数据，再根据第二图像确定目标对象的目标状态数据，最后策略信息确定装置根据目标行动数据以及目标状态数据确定目标对象所对应的策略信息。通过上述方式，可以实现游戏操作的自动化，对于复杂的游戏场景而言，利用策略信息模型可以输出目标行动数据，再结合目标状态数据可以得到策略信息，该策略信息更接近真实玩家的行为，从而提升方案的灵活性。

可选地，在上述图7所对应的实施例的基础上，请参阅图8，本发明实施例提供的策略信息确定装置30的另一实施例中，所述策略信息确定装置30还包括训练模块304；

所述获取模块301，还应用于在所述处理模块302通过策略信息模型对所述第一图像进行处理，得到目标行动数据之前，获取所述样本行动数据以及所述标签样本数据，其中，所述样本行动数据用于表示不同的行动策略，所述标签样本数据用于对所述不同的行动策略进行分类；

所述训练模块304，用于对所述获取模块301获取的所述样本行动数据以及所述标签样本数据进行训练，以得到所述策略信息模型。

可选地，在上述图7所对应的实施例的基础上，本发明实施例提供的策略信息确定装置30的另一实施例中，

所述处理模块302，具体用于将所述第一图像输入至所述策略信息模型，并通过所述策略信息模型输出至少一个行动数据的概率；

根据所述至少一个行动数据的概率确定所述目标行动数据，其中，所述目标行动数据属于所述至少一个行动数据。

所述确定模块303，具体用于获取所述第二图像中的特征数据；

对所述第二图像中的特征数据进行处理，得到所述目标对象的目标状态数据。

可选地，在上述图7或图8所对应的实施例的基础上，本发明实施例提供的策略信息确定装置30的另一实施例中，

所述确定模块303，具体用于判断所述目标状态数据是否满足第一数据处理条件；

若所述目标状态数据满足所述第一数据处理条件，则判断所述目标状态数据是否满足第二数据处理条件，若所述目标状态数据满足所述第二数据处理条件，则将第一行动数据确定为所述目标对象所对应的策略信息；

若所述目标状态数据不满足所述第一数据处理条件，则将所述目标行动数据确定为所述目标对象所对应的策略信息。

所述确定模块303，具体用于若所述目标状态数据不满足所述第二数据处理条件，则将第二行动数据确定为所述目标对象所对应的策略信息。

可选地，在上述图7或图8所对应的实施例的基础上，请参阅图9，本发明实施例提供的策略信息确定装置30的另一实施例中，所述策略信息确定装置30还包括执行模块305；

所述执行模块305，用于若根据所述目标行动数据以及所述目标状态数据满足第三数据处理条件，则执行第三行动数据对应的策略信息；

所述执行模块，用于若根据所述目标行动数据以及所述目标状态数据满足第四数据处理条件，则执行第四行动数据对应的策略信息。

可选地，在上述图7所对应的实施例的基础上，请参阅图10，本发明实施例提供的策略信息确定装置30的另一实施例中，所述策略信息确定装置30还包括控制模块306；

所述控制模块，用于在所述确定模块根据所述目标行动数据以及所述目标状态数据确定所述目标对象所对应的策略信息之后，根据所述策略信息控制所述目标对象执行所述策略信息所对应的行动。

本发明实施例还提供了另一种策略信息确定装置，如图11所示，为了便于说明，仅示出了与本发明实施例相关的部分，具体技术细节未揭示的，请参照本发明实施例方法部分。该策略信息确定装置可以为包括手机、平板电脑、个人数字助理(Personal DigitalAssistant，PDA)、销售终端(Point of Sales，POS)、车载电脑等任意终端设备，以策略信息确定装置为手机为例：

图11示出的是与本发明实施例提供的终端相关的手机的部分结构的框图。参考图11，手机包括：射频(Radio Frequency，RF)电路410、存储器420、输入单元430、显示单元440、传感器450、音频电路460、无线保真(wireless fidelity，WiFi)模块470、处理器480、以及电源490等部件。本领域技术人员可以理解，图11中示出的手机结构并不构成对手机的限定，可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件布置。

下面结合图11对手机的各个构成部件进行具体的介绍：

RF电路410可用于收发信息或通话过程中，信号的接收和发送，特别地，将基站的下行信息接收后，给处理器480处理；另外，将设计上行的数据发送给基站。通常，RF电路410包括但不限于天线、至少一个放大器、收发信机、耦合器、低噪声放大器(Low NoiseAmplifier，LNA)、双工器等。此外，RF电路410还可以通过无线通信与网络和其他设备通信。上述无线通信可以使用任一通信标准或协议，包括但不限于全球移动通讯系统(GlobalSystem of Mobile communication，GSM)、通用分组无线服务(General Packet RadioService，GPRS)、码分多址(Code Division Multiple Access，CDMA)、宽带码分多址(Wideband Code Division Multiple Access,WCDMA)、长期演进(Long Term Evolution，LTE)、电子邮件、短消息服务(Short Messaging Service，SMS)等。

存储器420可用于存储软件程序以及模块，处理器480通过运行存储在存储器420的软件程序以及模块，从而执行手机的各种功能应用以及数据处理。存储器420可主要包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需的应用程序(比如声音播放功能、图像播放功能等)等；存储数据区可存储根据手机的使用所创建的数据(比如音频数据、电话本等)等。此外，存储器420可以包括高速随机存取存储器，还可以包括非易失性存储器，例如至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。

输入单元430可用于接收输入的数字或字符信息，以及产生与手机的用户设置以及功能控制有关的键信号输入。具体地，输入单元430可包括触控面板431以及其他输入设备432。触控面板431，也称为触摸屏，可收集用户在其上或附近的触摸操作(比如用户使用手指、触笔等任何适合的物体或附件在触控面板431上或在触控面板431附近的操作)，并根据预先设定的程式驱动相应的连接装置。可选的，触控面板431可包括触摸检测装置和触摸控制器两个部分。其中，触摸检测装置检测用户的触摸方位，并检测触摸操作带来的信号，将信号传送给触摸控制器；触摸控制器从触摸检测装置上接收触摸信息，并将它转换成触点坐标，再送给处理器480，并能接收处理器480发来的命令并加以执行。此外，可以采用电阻式、电容式、红外线以及表面声波等多种类型实现触控面板431。除了触控面板431，输入单元430还可以包括其他输入设备432。具体地，其他输入设备432可以包括但不限于物理键盘、功能键(比如音量控制按键、开关按键等)、轨迹球、鼠标、操作杆等中的一种或多种。

显示单元440可用于显示由用户输入的信息或提供给用户的信息以及手机的各种菜单。显示单元440可包括显示面板441，可选的，可以采用液晶显示器(Liquid CrystalDisplay，LCD)、有机发光二极管(Organic Light-Emitting Diode，OLED)等形式来配置显示面板441。进一步的，触控面板431可覆盖显示面板441，当触控面板431检测到在其上或附近的触摸操作后，传送给处理器480以确定触摸事件的类型，随后处理器480根据触摸事件的类型在显示面板441上提供相应的视觉输出。虽然在图11中，触控面板431与显示面板441是作为两个独立的部件来实现手机的输入和输入功能，但是在某些实施例中，可以将触控面板431与显示面板441集成而实现手机的输入和输出功能。

手机还可包括至少一种传感器450，比如光传感器、运动传感器以及其他传感器。具体地，光传感器可包括环境光传感器及接近传感器，其中，环境光传感器可根据环境光线的明暗来调节显示面板441的亮度，接近传感器可在手机移动到耳边时，关闭显示面板441和/或背光。作为运动传感器的一种，加速计传感器可检测各个方向上(一般为三轴)加速度的大小，静止时可检测出重力的大小及方向，可用于识别手机姿态的应用(比如横竖屏切换、相关游戏、磁力计姿态校准)、振动识别相关功能(比如计步器、敲击)等；至于手机还可配置的陀螺仪、气压计、湿度计、温度计、红外线传感器等其他传感器，在此不再赘述。

音频电路460、扬声器461，传声器462可提供用户与手机之间的音频接口。音频电路460可将接收到的音频数据转换后的电信号，传输到扬声器461，由扬声器461转换为声音信号输出；另一方面，传声器462将收集的声音信号转换为电信号，由音频电路460接收后转换为音频数据，再将音频数据输出处理器480处理后，经RF电路410以发送给比如另一手机，或者将音频数据输出至存储器420以便进一步处理。

WiFi属于短距离无线传输技术，手机通过WiFi模块470可以帮助用户收发电子邮件、浏览网页和访问流式媒体等，它为用户提供了无线的宽带互联网访问。虽然图11示出了WiFi模块470，但是可以理解的是，其并不属于手机的必须构成，完全可以根据需要在不改变发明的本质的范围内而省略。

处理器480是手机的控制中心，利用各种接口和线路连接整个手机的各个部分，通过运行或执行存储在存储器420内的软件程序和/或模块，以及调用存储在存储器420内的数据，执行手机的各种功能和处理数据，从而对手机进行整体监控。可选的，处理器480可包括一个或多个处理单元；可选的，处理器480可集成应用处理器和调制解调处理器，其中，应用处理器主要处理操作系统、用户界面和应用程序等，调制解调处理器主要处理无线通信。可以理解的是，上述调制解调处理器也可以不集成到处理器480中。

手机还包括给各个部件供电的电源490(比如电池)，可选的，电源可以通过电源管理系统与处理器480逻辑相连，从而通过电源管理系统实现管理充电、放电、以及功耗管理等功能。

尽管未示出，手机还可以包括摄像头、蓝牙模块等，在此不再赘述。

在本发明实施例中，该终端所包括的处理器480还具有以下功能：

根据所述第二图像确定目标对象的目标状态数据；

可选地，处理器480还用于执行如下功能：

获取所述样本行动数据以及所述标签样本数据，其中，所述样本行动数据用于表示不同的行动策略，所述标签样本数据用于对所述不同的行动策略进行分类；

对所述样本行动数据以及所述标签样本数据进行训练，以得到所述策略信息模型。

可选地，处理器480具体用于执行如下功能：

将所述第一图像输入至所述策略信息模型，并通过所述策略信息模型输出至少一个行动数据的概率；

可选地，处理器480具体用于执行如下功能：

获取所述第二图像中的特征数据；

可选地，处理器480具体用于执行如下功能：

判断所述目标状态数据是否满足第一数据处理条件；

可选地，处理器480具体用于执行如下功能：

若所述目标状态数据不满足所述第二数据处理条件，则将第二行动数据确定为所述目标对象所对应的策略信息。

可选地，处理器480还用于执行如下功能：

若根据所述目标行动数据以及所述目标状态数据满足第三数据处理条件，则执行第三行动数据对应的策略信息；

若根据所述目标行动数据以及所述目标状态数据满足第四数据处理条件，则执行第四行动数据对应的策略信息。

可选地，处理器480还用于执行如下功能：

根据所述策略信息控制所述目标对象执行所述策略信息所对应的行动。

所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的系统，装置和单元的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

在本发明所提供的几个实施例中，应该理解到，所揭露的系统，装置和方法，可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如，所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或单元的间接耦合或通信连接，可以是电性，机械或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本发明各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(read-only memory，ROM)、随机存取存储器(random access memory，RAM)、磁碟或者光盘等各种可以存储程序代码的介质。

以上所述，以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims

1.一种策略信息确定的方法，其特征在于，包括：

根据所述第二图像确定目标对象的目标状态数据；

根据所述目标行动数据以及所述目标状态数据，确定所述目标对象所对应的策略信息，其中，所述策略信息用于控制所述目标对象行动。

2.根据权利要求1所述的方法，其特征在于，所述通过策略信息模型对所述第一图像进行处理，得到目标行动数据之前，所述方法还包括：

3.根据权利要求1所述的方法，其特征在于，所述通过策略信息模型对所述第一图像进行处理，得到目标行动数据，包括：

4.根据权利要求1所述的方法，其特征在于，所述根据所述第二图像确定目标对象的目标状态数据，包括：

获取所述第二图像中的特征数据；

5.根据权利要求1至4中任一项所述的方法，其特征在于，所述根据所述目标行动数据以及所述目标状态数据确定所述目标对象所对应的策略信息，包括：

判断所述目标状态数据是否满足第一数据处理条件；

6.根据权利要求5所述的方法，其特征在于，所述判断所述目标状态数据是否满足第二数据处理条件，包括：

7.根据权利要求5所述的方法，其特征在于，所述方法还包括：

8.根据权利要求1所述的方法，其特征在于，所述根据所述目标行动数据以及所述目标状态数据确定所述目标对象所对应的策略信息之后，所述方法还包括：

9.一种策略信息确定装置，其特征在于，包括：

所述确定模块，还用于根据所述处理模块处理得到的所述目标行动数据以及所述目标状态数据确定所述目标对象所对应的策略信息，其中，所述策略信息用于控制所述目标对象行动。

10.根据权利要求9所述的策略信息确定装置，其特征在于，所述策略信息确定装置还包括训练模块；

所述获取模块，还用于在所述处理模块通过策略信息模型对所述第一图像进行处理，得到目标行动数据之前，获取所述样本行动数据以及所述标签样本数据，其中，所述样本行动数据用于表示不同的行动策略，所述标签样本数据用于对所述不同的行动策略进行分类；

所述训练模块，用于对所述获取模块获取的所述样本行动数据以及所述标签样本数据进行训练，以得到所述策略信息模型。

11.一种策略信息确定装置，其特征在于，所述策略信息确定装置包括：存储器、收发器、处理器以及总线系统；

其中，所述存储器用于存储程序；

所述处理器用于执行所述存储器中的程序，包括如下步骤：

根据所述第二图像确定目标对象的目标状态数据；

12.一种计算机可读存储介质，包括指令，当其在计算机上运行时，使得计算机执行如权利要求1至8中任一项所述的方法。

13.一种包含指令的计算机程序产品，当其在计算机上运行时，使得所述计算机执行如权利要求1至8中任一项所述的方法。