CN112905013A

CN112905013A - 智能体控制方法、装置、计算机设备和存储介质

Info

Publication number: CN112905013A
Application number: CN202110200907.2A
Authority: CN
Inventors: 朱晓龙; 纪晓龙; 季兴; 李赐兴; 许壮; 汤善敏; 张正生; 刘永升
Original assignee: Super Parameter Technology Shenzhen Co ltd
Current assignee: Super Parameter Technology Shenzhen Co ltd
Priority date: 2021-02-23
Filing date: 2021-02-23
Publication date: 2021-06-04
Anticipated expiration: 2041-02-23
Also published as: CN112905013B

Abstract

本申请涉及一种智能体控制方法、装置、计算机设备和存储介质。所述方法包括：获取当前游戏场景中的环境场景数据；确定为所述当前游戏场景中的智能体匹配的风格属性信息；所述智能体为不需要用户操控的虚拟角色；根据所述环境场景数据和所述风格属性信息，确定所述智能体在所述当前游戏场景中对应的待执行动作信息；其中，所述待执行动作信息，用于使所述智能体在所述当前游戏场景中，执行与所述待执行动作信息相应的、且符合所述风格属性信息所表征风格的动作。采用本方法能够提高智能体的行动策略的灵活性。

Description

智能体控制方法、装置、计算机设备和存储介质

技术领域

本申请涉及计算机技术和人工智能技术领域，特别是涉及一种智能体控制方法、装置、计算机设备和存储介质。

背景技术

随着科学技术的发展，出现了越来越多的游戏，比如：竞技类游戏，极大地丰富了人们的生活。然而，游戏过程中容易出现玩家匹配时间过长或者玩家掉线等问题，采用AI智能体(即，采用人工智能技术实现的智能体)代替游戏中空缺的人类玩家，对游戏中其他的人类玩家进行陪玩，成为了最直接的解决这类问题的方案。

传统方法中，在游戏中陪玩的AI智能体一般具有比较高的强度，即具有与人类玩家一样的战术能力。但是AI智能体在游戏过程中，行动策略往往比较固定，而无法根据所面对的外在情形的不同进行灵活调整，比如：面对不同的玩家或者不同的游戏局面等，都是采用相同的行动策略，因而，比较局限，缺乏灵活性。

发明内容

基于此，有必要针对上述技术问题，提供一种能够提高智能体行动策略的灵活性的智能体控制方法、装置、计算机设备和存储介质。

一种智能体控制方法，所述方法包括：

获取当前游戏场景中的环境场景数据；

确定为所述当前游戏场景中的智能体匹配的风格属性信息；所述智能体为不需要用户操控的虚拟角色；

根据所述环境场景数据和所述风格属性信息，确定所述智能体在所述当前游戏场景中对应的待执行动作信息；

其中，所述待执行动作信息，用于使所述智能体在所述当前游戏场景中，执行与所述待执行动作信息相应的、且符合所述风格属性信息所表征风格的动作。

在其中一个实施例中，所述环境场景数据包括场景元素对应的状态向量、空间关系图和全局标量特征；

所述获取当前游戏场景中的环境场景数据包括：

根据所述当前游戏场景中的各个场景元素的各维度的状态信息，分别生成各个场景元素对应的状态向量；

根据所述当前游戏场景中的每种场景元素中各个场景元素之间的位置关系，生成各种场景元素分别对应的空间关系图；

根据所述当前游戏场景中的游戏全局信息，生成全局标量特征。

在其中一个实施例中，所述风格属性信息包括风格属性标识；所述确定为所述当前游戏场景中的智能体匹配的风格属性信息包括：

获取为所述当前游戏场景中的智能体匹配的风格属性标识；

其中，所述匹配的风格属性标识，是根据所述当前游戏场景中操控虚拟角色的用户的用户画像确定的；或，

所述匹配的风格属性标识，是根据所述当前游戏场景中与风格相关的动态指标确定的。

在其中一个实施例中，所述风格属性标识是多维的风格属性标识；所述多维的风格属性标识，用于表征所述当前游戏场景中的智能体在各个风格分类维度下的风格；

所述根据所述环境场景数据和所述风格属性信息，确定所述智能体在所述当前游戏场景中对应的待执行动作信息包括：

将所述环境场景数据和所述多维的风格属性标识输入预先训练的动作预测模型中，输出所述智能体在所述当前游戏场景中对应的待执行动作信息；

其中，所述待执行动作信息，用于使所述智能体在所述当前游戏场景中，执行与所述待执行动作信息相应的、且符合所述多维的风格属性标识所表征的各个风格分类维度下的风格的动作。

在其中一个实施例中，所述多维的风格属性标识所表征的风格包括策略分类维度下的风格、团队意识分类维度下的风格、以及反应速度分类维度下的风格中的至少一种。

在其中一个实施例中，所述动作预测模型的训练步骤包括：

获取包括多组样本数据的训练样本集；所述训练样本集中的每组样本数据包括历史游戏场景下的样本环境场景数据和相应的样本动作信息；

根据所述训练样本集中各组样本数据所对应的用户的风格，为各组样本数据划分相应的样本风格属性标识；

将所述训练样本集中各组样本数据和相应的样本风格属性标识，输入至待训练的动作预测模型中，预测所述智能体的动作信息；

根据预测的动作信息与样本动作信息的差异，迭代地调整所述动作预测模型的模型参数，直至满足迭代停止条件，得到训练完毕的动作预测模型。

在其中一个实施例中，所述方法还包括：

以与游戏客户端所使用的网络协议相同的网络协议接入游戏服务器；

所述获取当前游戏场景中的环境场景数据包括：

从所述游戏服务器发送的当前帧的游戏场景中提取环境场景数据；

在所述根据所述环境场景数据中的样本环境场景数据和所述风格属性信息，确定所述智能体在所述当前游戏场景中对应的待执行动作信息之后，所述方法还包括：

将所述待执行动作信息发送至所述游戏服务器，以使所述游戏服务器根据所述待执行动作信息，控制所述智能体在所述当前帧的游戏场景中，执行与所述待执行动作信息相应的、且符合所述风格属性信息所表征风格的动作，并生成下一帧的游戏场景。

一种智能体控制装置，所述装置包括：

环境场景数据获取模块，用于获取当前游戏场景中的环境场景数据；

风格属性获取模块，用于确定为所述当前游戏场景中的智能体匹配的风格属性信息；所述智能体为不需要用户操控的虚拟角色；

动作确定模块，用于根据所述环境场景数据和所述风格属性信息，确定所述智能体在所述当前游戏场景中对应的待执行动作信息；

一种计算机设备，包括存储器和处理器，所述存储器中存储有计算机程序，所述计算机程序被所述处理器执行时，使得所述处理器执行本申请各实施例所述的智能体控制方法中的步骤。

一种计算机可读存储介质，所述计算机可读存储介质上存储有计算机程序，所述计算机程序被处理器执行时，使得所述处理器执行本申请各实施例所述的智能体控制方法中的步骤。

上述智能体控制方法、装置、计算机设备和存储介质，获取当前游戏场景中的环境场景数据，并确定为当前游戏场景中的智能体匹配的风格属性信息，然后根据环境场景数据和风格属性信息，确定智能体在当前游戏场景中对应的待执行动作信息，以使智能体在当前游戏场景中，执行与待执行动作信息相应的、且符合风格属性信息所表征风格的动作，使得智能体所执行的动作能够符合一定的风格，避免了智能体的行动策略固定的问题，从而提高了智能体的行动策略的灵活性。

附图说明

图1为一个实施例中智能体控制方法的应用环境图；

图2为一个实施例中智能体控制方法的流程示意图；

图3为一个实施例中动作预测模型的架构和模型输入数据的组成示意图；

图4为一个实施例中动作预测模型的训练方法示意图；

图5为一个实施例中应用环境架构图；

图6为一个实施例中智能体控制装置的结构框图；

图7为另一个实施例中智能体控制装置的结构框图；

图8为一个实施例中计算机设备的内部结构图。

具体实施方式

为了使本申请的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本申请进行进一步详细说明。应当理解，此处描述的具体实施例仅仅用以解释本申请，并不用于限定本申请。

本申请提供的智能体控制方法，可以应用于如图1所示的应用环境中。其中，游戏客户端102与游戏服务器104之间通过网络进行通信，智能体服务器106与游戏服务器104之间通过网络进行通信。其中，游戏客户端102是用户在玩游戏时使用的客户端，游戏客户端102可以是但不限于是各种个人计算机、笔记本电脑、智能手机、平板电脑和便携式可穿戴设备。游戏服务器104可以用独立的服务器或者是多个服务器组成的服务器集群来实现。智能体服务器106可以用独立的服务器或者是多个服务器组成的服务器集群来实现。

具体地，游戏客户端102和智能体服务器106可以接入游戏服务器104，游戏服务器104可以将当前游戏场景发送至游戏客户端102和智能体服务器106。游戏客户端102可以展示当前游戏场景，并响应于用户针对当前游戏场景的操作，确定待执行动作信息，并将待执行动作信息发送至游戏服务器104，游戏服务器104可以根据游戏客户端102发送至的待执行动作信息，使该用户所操控的游戏场景中的虚拟角色执行与游戏客户端102发送至的待执行动作信息相应的动作。智能体服务器106可以获取当前游戏场景中的环境场景数据，并确定为当前游戏场景中的智能体匹配的风格属性信息，然后根据环境场景数据和风格属性信息，确定智能体在当前游戏场景中对应的待执行动作信息，再将所确定的待执行动作信息发送至游戏服务器104，游戏服务器104可以使智能体服务器所控制的智能体在当前游戏场景中，执行与智能体服务器106发送至的待执行动作信息相应的、且符合风格属性信息所表征风格的动作。

在其他实施例中，游戏服务器104和智能体服务器106也可以由同一个服务器或服务器集群来实现。

在一个实施例中，如图2所示，提供了一种智能体控制方法，以该方法应用于图1中的智能体服务器106为例进行说明，包括以下步骤：

S202，获取当前游戏场景中的环境场景数据。

其中，游戏，是指电子游戏，是依托于电子设备而运行的游戏。游戏场景，是游戏中显示出来的画面。当前游戏场景，是当前的游戏场景。环境场景数据，用于表征当前游戏场景中的环境场景的具体情况。

在一个实施例中，游戏可以包括主机游戏、掌机游戏、街机游戏、电脑游戏和手机游戏等中的至少一种。

在一个实施例中，游戏类型不做限定，比如可以是竞技类游戏，或休闲类游戏，还可以是其他类型的游戏。

在一个实施例中，若游戏场景是一帧一帧生成的，则当前游戏场景可以是当前帧的游戏场景。

具体地，游戏服务器可以将当前游戏场景发送至智能体服务器，智能体服务器可以从当前游戏场景中提取环境场景数据。

在一个实施例中，游戏服务器可以将当前帧的游戏场景发送至智能体服务器，智能体服务器可以从当前帧的游戏场景中提取当前帧的环境场景数据。

在一个实施例中，环境场景数据，可以包括场景元素的状态信息、场景元素之间的位置关系信息、以及当前游戏场景的游戏全局信息等中的至少一种。其中，场景元素，是游戏场景中包含的元素。比如：场景元素可以包括游戏场景中的建筑和虚拟角色等中的至少一种。

S204，确定为当前游戏场景中的智能体匹配的风格属性信息；智能体为不需要用户操控的虚拟角色。

其中，智能体，是游戏场景中通过人工智能算法控制的虚拟角色。虚拟角色，是指游戏中能够进行行动和交互的对象。比如：竞技类游戏中的英雄和小兵等对象均为游戏中的虚拟角色。风格属性信息，用于表征智能体在游戏中所采取的行动策略的风格。

可以理解，游戏场景中可以包含很多虚拟角色，可以由用户通过游戏客户端来操控虚拟角色在游戏场景中进行交互，也可以通过人工智能算法控制虚拟角色在游戏场景中进行交互，这些通过人工智能算法控制的、且不需要用户操控的虚拟角色即为智能体。

智能体可以在游戏中代替空缺的用户(即人类玩家)所操控的虚拟角色，陪伴游戏中的其他用户进行游戏，具体可以包括很多种情形，比如：在为用户匹配其他队友共同进行游戏时，若长时间未匹配到，则可以由智能体作为队友来与用户共同进行游戏。再比如：在游戏过程中，若其中一个用户突然掉线(即离线)，则智能体可以代替掉线的用户所操控的虚拟角色，继续进行游戏。再比如：在游戏练习模式下，智能体可以作为练习模式下的游戏中的虚拟角色，陪伴用户进行游戏的练习，用户无需与真实用户共同进行游戏即可练习游戏技能。

具体地，游戏服务器可以为当前游戏场景中的智能体匹配风格属性信息，然后将所匹配的风格属性信息发送至智能体服务器，智能体服务器可以接收到游戏服务器发送至的风格属性信息。

在一个实施例中，风格属性信息可以包括风格属性标识。游戏服务器可以为当前游戏场景中的智能体匹配风格属性标识，然后将所匹配的风格属性标识发送至智能体服务器，智能体服务器可以接收到游戏服务器发送至的风格属性标识。其中，风格属性标识，是用于表征风格属性信息的标识。

在一个实施例中，在同一局游戏中，所匹配的风格属性信息可以是固定的，也可以是动态变化的。

在一个实施例中，所匹配的风格属性信息可以是根据当前游戏场景中操控虚拟角色的用户的用户画像、以及与风格相关的动态指标等信息中的至少一种确定的。

S206，根据环境场景数据和风格属性信息，确定智能体在当前游戏场景中对应的待执行动作信息。

其中，待执行动作信息，用于使智能体在当前游戏场景中，执行与待执行动作信息相应的、且符合风格属性信息所表征风格的动作。

具体地，智能体服务器可以根据环境场景数据和风格属性信息，确定智能体在当前游戏场景中对应的待执行动作信息，并将待执行动作信息发送至游戏服务器。游戏服务器可以根据待执行动作信息，控制智能体在当前游戏场景中，执行与待执行动作信息相应的、且符合风格属性信息所表征风格的动作。

可以理解，智能体服务器所确定的待执行动作信息对应的动作，本身就符合风格属性信息所表征的风格，游戏服务器只需根据待执行动作信息，控制智能体执行相应动作，即可执行出符合风格属性信息所表征风格的动作。

在一个实施例中，待执行动作信息，可以包括待执行动作的动作方向和动作类型等中的至少一种。

在一个实施例中，智能体服务器可以将环境场景数据和风格属性信息输入至预先训练的动作预测模型中，输出智能体在当前游戏场景中对应的待执行动作信息。

在一个实施例中，动作预测模型可以是机器学习模型。在一个实施例中，动作预测模型可以是深度学习模型。

在一个实施例中，动作预测模型可以包括感知模块、记忆模块和策略模块等中的至少一种。具体地，智能体服务器可以先通过感知模块，对环境场景数据和风格属性信息进行汇总和重要信息的提取，然后通过记忆模块将感知模块输出的当前帧的数据、与之前帧的数据结合起来进行前向传导，再通过策略模块根据记忆模块输出的数据得到待执行动作信息。

在其他一个实施例中，动作预测模型还可以包括ResNet(残差网络)模块和LSTM(长短期记忆网络)模块等中的至少一种。

在一个实施例中，可以通过有监督学习或者强化学习等方式对动作预测模型进行训练。

上述智能体控制方法中，获取当前游戏场景中的环境场景数据，并确定为当前游戏场景中的智能体匹配的风格属性信息，然后根据环境场景数据和风格属性信息，确定智能体在当前游戏场景中对应的待执行动作信息，以使智能体在当前游戏场景中，执行与待执行动作信息相应的、且符合风格属性信息所表征风格的动作，使得智能体所执行的动作能够符合一定的风格，避免了智能体的行动策略固定的问题，从而提高了智能体的行动策略的灵活性。

在一个实施例中，环境场景数据包括场景元素对应的状态向量、空间关系图和全局标量特征。获取当前游戏场景中的环境场景数据包括：根据当前游戏场景中的各个场景元素的各维度的状态信息，分别生成各个场景元素对应的状态向量；根据当前游戏场景中的每种场景元素中各个场景元素之间的位置关系，生成各种场景元素分别对应的空间关系图；根据当前游戏场景中的游戏全局信息，生成全局标量特征。

其中，状态向量，是用于表征场景元素的状态信息的向量。空间关系图，是用于表征场景元素之间的位置关系的图像。全局标量特征，是用于表征当前游戏场景中的游戏全局信息的标量。状态信息，是场景元素本身的信息。游戏全局信息，是游戏整体角度的信息。

在一个实施例中，智能体服务器可以根据当前游戏场景，确定当前游戏场景中的各个场景元素的各维度的状态信息，然后分别根据各个场景元素对应的各维度状态信息，生成场景元素相应的状态向量。

在一个实施例中，各维度的状态信息可以包括位置、重量和速度等信息中的至少一种。

可以理解，场景元素与相应的状态向量一一对应。状态向量中的每一位元素为相应的场景元素在一个维度下的状态信息。如图3所示，英雄、小兵和建筑分别对应各自的状态向量。

在一个实施例中，智能体服务器可以根据当前游戏场景，确定当前游戏场景中的每种场景元素中各个场景元素之间的位置关系，然后根据当前游戏场景中的每种场景元素中各个场景元素之间的位置关系，生成各种场景元素分别对应的空间关系图。

在一个实施例中，当前游戏场景中可以包括多种场景元素，比如，多种场景元素可以包括建筑、小兵、敌方英雄和我方英雄等中的至少一种。智能体服务器可以生成各种场景元素分别对应的空间关系图，比如：空间关系图可以包括建筑的空间关系图、小兵的空间关系图、敌方英雄的空间关系图和我方英雄的空间关系图等中的至少一种。如图3中的6幅空间关系图即分别对应一种场景元素，比如，第一幅对应建筑的空间关系图，第二幅对应小兵的空间关系图。各幅空间关系图中可以按照图3所示，以点的形式表示场景元素的分布情况，以体现各个场景元素之间的位置关系。

在一个实施例中，空间关系图，可以用于表征在全局地图和局部地图等中的至少一种地图中场景元素之间的位置关系。比如：空间关系图可以用于表征在全局地图中建筑之间的位置关系，再比如：空间关系图可以用于表征在局部地图中小兵之间的位置关系。其中，全局地图，是指整个游戏场景的地图。局部地图，是指游戏场景中的一部分的地图。

在一个实施例中，智能体服务器可以根据当前游戏场景，确定游戏全局信息，然后根据游戏全局信息，生成全局标量特征。

在一个实施例中，游戏全局信息可以包括游戏时长、游戏中各个虚拟角色的视野和游戏排行榜等中的至少一种。

在一个实施例中，也可以将全局标量特征表示成向量的形式。比如，将各种游戏全局信息组合起来，生成如图3所示的一维的向量。

在一个实施例中，动作预测模型可以包括全连接层、感知模块、记忆模块和策略模块等中的至少一种。智能体服务器可以先通过全连接层，将场景元素对应的状态向量、空间关系图和全局标量特征、以及风格属性标识进行降维，然后通过感知模块通过非线性变换和多层卷积对降维后的数据进行汇总、以及重要信息的提取，再先后通过记忆模块和策略模块进行后续处理。其中，降维是指减少向量的维度，比如：可以通过全连接层将场景元素对应的状态向量、空间关系图和全局标量特征、以及风格属性标识降维为10维的向量。比如：通过感知模块将降维后的数据进行汇总、以及重要信息的提取后也实现了降维，比如：进行汇总、以及重要信息的提取后生成一维的向量。

在另一个实施例中，也可以通过感知模块将场景元素对应的状态向量、空间关系图和全局标量特征、以及风格属性标识进行降维，再对降维后的数据进行汇总、以及重要信息的提取。如图3所示，即为将场景元素对应的状态向量、空间关系图和全局标量特征、以及风格属性标识输入感知模块，再将感知模块输出的数据输入至记忆模块，再将记忆模块输出的数据输入至策略模块，由策略模块输出待执行动作信息。

上述实施例中，智能体服务器可以生成场景元素对应的状态向量、空间关系图和全局标量特征，从而能够准确地感知当前游戏场景中的环境场景的具体情况，提高了动作预测的准确性，从而确保了智能体在游戏过程中的高强度，即具有与人类玩家一样的战术能力。

在一个实施例中，风格属性信息包括风格属性标识；确定为当前游戏场景中的智能体匹配的风格属性信息包括：获取为当前游戏场景中的智能体匹配的风格属性标识；其中，匹配的风格属性标识，是根据当前游戏场景中操控虚拟角色的用户的用户画像确定的；或，匹配的风格属性标识，是根据当前游戏场景中与风格相关的动态指标确定的。

其中，用户画像，用于表征用户在各种维度下的特点。动态指标，是指游戏中会发生变化的指标。与风格相关的动态指标，是指会对为当前游戏场景中的智能体匹配风格属性信息的匹配结果造成影响的动态指标。

在一个实施例中，游戏服务器可以根据当前游戏场景中操控虚拟角色的用户的用户画像，为当前游戏场景中的智能体匹配风格属性标识，然后将所匹配的风格属性标识发送至智能体服务器。

在一个实施例中，游戏服务器可以根据当前游戏场景中操控虚拟角色的用户的用户画像，确定用户在游戏中的行动策略的风格，然后根据用户的风格，为当前游戏场景中的智能体匹配风格属性标识。

可以理解，当前游戏场景中操控虚拟角色的用户是固定的，因此，游戏服务器可以在游戏开始前为当前游戏场景中的智能体匹配风格属性标识。

在另一个实施例中，游戏服务器可以根据当前游戏场景中与风格相关的动态指标，为当前游戏场景中的智能体匹配风格属性标识，然后将所匹配的风格属性标识发送至智能体服务器。

在一个实施例中，与风格相关的动态指标可以包括当前游戏场景中的用户的聊天内容、用户在当前游戏中的行动策略的风格、当前游戏形势等中的至少一种。

可以理解，游戏中的动态指标是可以在游戏进行过程中发生变化的，因此，在同一局游戏中，所匹配的风格属性标识也可以随着动态指标的变化而变化。即，同一局游戏中为智能体匹配的风格属性标识可以是动态变化的。

在其他实施例中，游戏服务器可以在游戏开始前，先根据该局游戏中操控虚拟角色的用户的用户画像，为游戏场景中的智能体匹配风格属性标识。然后在游戏进行过程中，根据当前游戏场景中与风格相关的动态指标，动态地调整为当前游戏场景中的智能体匹配的风格属性标识。

在一个实施例中，智能体服务器可以提供不同的服务接口，以实现不同的匹配风格属性标识的决策方式。游戏运营人员可以调用不同的服务接口，实现不同的匹配风格属性标识的决策方式。

在一个实施例中，服务接口可以包括固定风格属性标识的决策方式(比如：根据用户画像匹配风格属性标识)的服务接口、以及动态调整风格属性标识的决策方式(比如：根据动态指标匹配风格属性标识)的服务接口等中的至少一种。

上述实施例中，智能体服务器所获取的为当前游戏场景中的智能体匹配的风格属性标识，可以是根据当前游戏场景中操控虚拟角色的用户的用户画像确定的固定的风格属性标识，也可以是根据当前游戏场景中与风格相关的动态指标确定的动态变化的风格属性标识，一方面，通过为智能体匹配风格属性标识，提高了智能体的行动策略的灵活性，另一方面，提供了多种匹配风格属性标识的方式，进一步提高了智能体的行动策略的灵活性。

在一个实施例中，风格属性标识是多维的风格属性标识。多维的风格属性标识，用于表征当前游戏场景中的智能体在各个风格分类维度下的风格。本实施例中，根据环境场景数据和风格属性信息，确定智能体在当前游戏场景中对应的待执行动作信息包括：将环境场景数据和多维的风格属性标识输入预先训练的动作预测模型中，输出智能体在当前游戏场景中对应的待执行动作信息。

其中，待执行动作信息，用于使智能体在当前游戏场景中，执行与待执行动作信息相应的、且符合多维的风格属性标识所表征的各个风格分类维度下的风格的动作。

风格分类维度，是指对智能体的风格进行分类的分类维度。

可以理解，风格属性标识中每一维的标识，用于表征当前游戏场景中的智能体在一个风格分类维度下的风格。如图3所示，风格属性标识中的“激进”和“重配合”分别用于表征智能体在一个风格分类维度下的风格，“激进”是策略分类维度下的风格，“重配合”是团队意识分类维度下的风格。还可以包括其他的分类维度，不做限定。

具体地，智能体服务器可以将环境场景数据和多维的风格属性标识输入预先训练的动作预测模型中，输出智能体在当前游戏场景中对应的待执行动作信息，并将待执行动作信息发送至游戏服务器。游戏服务器可以根据待执行动作信息，控制智能体在当前游戏场景中，执行与待执行动作信息相应的、且符合多维的风格属性标识所表征风格的动作。

上述实施例中，智能体服务器可以将环境场景数据和多维的风格属性标识一起输入预先训练的动作预测模型中，输出智能体在当前游戏场景中对应的待执行动作信息，从而使得智能体能够具有多种维度的风格，提高了智能体的行动策略的灵活性。此外，通过动作预测模型输出待执行动作信息，能够提高所预测的待执行动作信息的准确性，从而确保智能体的高强度，即具有与人类玩家一样的战术能力，还能够提高动作预测的效率，从而提高了动作预测的实时性，确保了游戏画面进程的流畅感。另外，对游戏中的单个虚拟角色进行建模，使得决策粒度细，使用的场景更加丰富。并且，只需一个模型，即可实现多种风格，使得在线资源利用率高。

在一个实施例中，多维的风格属性标识所表征的风格包括策略分类维度下的风格、团队意识分类维度下的风格、以及反应速度分类维度下的风格中的至少一种。

其中，策略分类维度下的风格，是指智能体的行动策略是激进还是保守。团队意识分类维度下的风格，是指智能体是否具有团队意识。反应速度分类维度下的风格，是指智能体行动时的反应快慢。

在一个实施例中，每一维的风格属性标识所表征的风格可以是离散取值的。在一个实施例中，策略分类维度下的风格包括激进和保守等中的至少一种。在一个实施例中，团队意识分类维度下的风格可以包括重配合和单打独斗等中的至少一种。在一个实施例中，反应速度分类维度下的风格可以包括反应快和反应慢等中的至少一种。

在另一个实施例中，每一维的风格属性标识所表征的风格可以是连续取值的。在一个实施例中，每一维的风格属性标识所表征的风格可以是风格属性与风格系数的乘积。其中，风格系数，用于表征风格属于该风格属性的程度。

在一个实施例中，策略分类维度下的风格是激进与激进系数的乘积。其中，激进系数，用于表征风格的激进程度。比如：激进系数可以在[0,1]范围内取值。比如：当激进系数为1时，智能体的风格非常激进；当激进系数为0时，智能体的风格非常保守；当激进系数为0.5时，智能体的风格介于非常激进与非常保守之间。

在一个实施例中，团队意识分类维度下的风格可以是重配合与配合系数的乘积。其中，配合系数，用于表征风格的重配合的程度。比如：配合系数可以在[0,1]范围内取值。比如：当配合系数为1时，智能体的风格非常重配合；当配合系数为0时，智能体的风格非常趋向于单打独斗；当配合系数为0.5时，智能体的风格介于非常重配合与非常趋向于单打独斗之间。

在一个实施例中，反应速度分类维度下的风格可以是反应快与反应系数的乘积。其中，反应系数，用于表征风格对应的反应快慢的程度。比如：反应系数可以在[0,1]范围内取值。比如：当反应系数为1时，智能体的风格对应的反应速度非常快；当反应系数为0时，智能体的风格对应的反应速度非常慢；当反应系数为0.5时，智能体的风格对应的反应速度中等。

上述实施例中，多维的风格属性标识所表征的风格包括策略分类维度下的风格、团队意识分类维度下的风格、以及反应速度分类维度下的风格等中的至少一种，使得智能体能够具有多种维度的风格，提高了智能体的行动策略的灵活性。此外，每一维的风格属性标识所表征的风格可以是离散取值，也可以是连续取值的，使得智能体的风格取值更加灵活，能够拥有更多的风格，进一步提高了智能体的行动策略的灵活性。

在一个实施例中，动作预测模型的训练步骤包括：获取包括多组样本数据的训练样本集；训练样本集中的每组样本数据包括历史游戏场景下的样本环境场景数据和相应的样本动作信息；根据训练样本集中各组样本数据所对应的用户的风格，为各组样本数据划分相应的样本风格属性标识；将训练样本集中各组样本数据中的样本环境场景数据和相应的样本风格属性标识，输入至待训练的动作预测模型中，预测智能体的动作信息；根据预测的动作信息与样本动作信息的差异，迭代地调整动作预测模型的模型参数，直至满足迭代停止条件，得到训练完毕的动作预测模型。

在一个实施例中，训练样本集中的每组样本数据包括历史游戏场景中一帧的样本环境场景数据和相应的样本动作信息。

在一个实施例中，可以从历史游戏的游戏录像中提取训练样本集。所提取的训练样本集中包括游戏录像中每一帧对应的样本环境场景数据和相应的样本动作信息。其中，样本环境场景数据，是历史游戏的游戏录像中相应帧的游戏场景中的环境场景数据。样本动作信息，是在历史游戏的游戏录像中相应帧的游戏场景下，用户操控虚拟角色执行的动作。

在一个实施例中，样本环境场景数据可以包括场景元素的状态信息、场景元素之间的位置关系信息、以及当前游戏场景的游戏全局信息等中的至少一种。

在一个实施例中，样本动作信息可以包括动作方向和动作类型等中的至少一种。

可以理解，因为训练样本集是从历史游戏的游戏录像中提取的，而游戏录像是由真实用户操控游戏中的虚拟角色进行游戏产生的，所以训练样本集中的各组样本数据均有对应的用户。比如：从用户A所参与的历史游戏的游戏录像中提取的用户A所操控的虚拟角色对应的各组样本数据，所对应的用户均为用户A。从用户B所参与的历史游戏的游戏录像中提取的用户B所操控的虚拟角色对应的各组样本数据，所对应的用户均为用户B。可以根据训练样本集中各组样本数据所对应的用户的风格，为各组样本数据划分相应的样本风格属性标识。

如图4所示，分别为训练样本集中的样本数据1、2和3划分了不同的样本风格属性标识，图中的风格属性标识中用实心的黑框表示选中相应的风格，并用空心的框表示未选中相应的风格，比如，为样本数据1划分的样本风格属性标识中选中了激进这一风格、且未选中重配合这一风格，由此可以看出，为样本数据1划分的样本风格属性标识是激进且不重配合(即单打独斗)，同理可以看出，为样本数据2划分的样本风格属性标识是不激进(即保守)且重配合，为样本数据3划分的样本风格属性标识是不激进(即保守)且不重配合(即单打独斗)。可以理解，省略号表示还可以有其他分类维度的样本风格属性标识，这里没有列出。如图4所示，在划分完毕后，可以根据训练样本集中各组样本数据和相应的样本风格属性标识，对动作预测模型进行训练。

在一个实施例中，可以根据用户的用户画像，确定用户的风格。

在一个实施例中，动作预测模型的训练步骤可以由智能体服务器执行，也可以由其他的服务器执行，不做限定。

在一个实施例中，服务器可以获取动作方向的损失函数和动作类型的损失函数，并将训练样本集中各组样本数据中的样本环境场景数据和相应的样本风格属性标识，输入至待训练的动作预测模型中，预测智能体的动作信息。然后根据预测的动作信息与样本动作信息的差异，分别确定动作方向的损失函数和动作类型的损失函数的值，并根据动作方向的损失函数和动作类型的损失函数的值，迭代地调整动作预测模型的模型参数，直至动作方向的损失函数和动作类型的损失函数的值小于或等于预设阈值，得到训练完毕的动作预测模型。

可以理解，动作方向的损失函数和动作类型的损失函数，是采用多任务学习的方式，同时进行优化。

上述实施例中，通过为训练样本集中的各组样本数据划分相应的样本风格属性标识，然后采用有监督学习的方式对动作预测模型进行训练，使得训练完毕的动作预测模型能够预测出符合输入的风格属性标识所表征的风格的待执行动作信息，从而提高了智能体的行动策略的灵活性。另外，对游戏中的单个虚拟角色进行建模，使得决策粒度细，使用的场景更加丰富。

在另一个实施例中，动作预测模型的训练步骤包括：在模型训练过程中，获取智能体所处的当前帧的游戏场景中的样本环境场景数据、以及当前为智能体分配的样本风格属性标识；将样本环境场景数据和样本风格属性标识，输入至待训练的动作预测模型中，以根据历史累积的奖励情况，预测当前帧的游戏场景中智能体的待执行动作信息；控制智能体执行与待执行动作信息相应的动作；在执行完动作后，根据执行完的结果信息和预设的与样本风格属性标识相应的奖励机制，对动作预测模型进行奖励；返回执行获取智能体所处的当前帧的游戏场景中的样本环境场景数据、以及当前为智能体分配的样本风格属性标识及后续步骤，以优化动作预测模型。

上述实施例中，是通过强化学习方式对动作预测模型进行训练。在通过强化学习方式训练过程中，在为智能体分配不同的样本风格属性标识时，对应分配与该样本风格属性标识相应的奖励机制，以在不同的样本风格属性标识下通过不同的奖励机制对动作预测模型进行训练，使得训练出的动作预测模型能够根据不同的风格属性标识，预测出不同的符合相应的风格属性标识所表征风格的待执行动作，从而提高了智能体的行动策略的灵活性。

在一个实施例中，可以对训练完毕的动作预测模型进行评测。

在一个实施例中，可以对训练完毕的动作预测模型进行拟人水平或准确率的评测。具体地，服务器可以获取包括多组评测数据的评测数据集，评测数据集中的每组评测数据包括历史游戏场景下的评测环境场景数据和相应的评测动作信息，并根据各组样本数据所对应的用户的风格，为各组样本数据划分相应的评测风格属性标识。服务器可以将各组评测数据中的评测环境场景数据、以及相应的评测风格属性标识输入至训练完毕的动作预测模型中，输出预测的动作信息，然后根据各组样本数据对应的预测的动作信息与相应的评测动作信息之间的差异，确定训练完毕的动作预测模型的准确率。准确率越高，则表明动作预测模型的拟人水平越高。

在一个实施例中，可以对训练完毕的动作预测模型进行难度水平的评测。具体地，游戏运营商可以部署游戏测试服，使训练完毕的动作预测模型进行动作预测，以控制智能体与真实用户共同进行游戏，然后根据各局游戏的输赢情况，统计动作预测模型所控制的智能体的胜率，以确定训练完毕的动作预测模型的难度水平(即强度水平)。

在一个实施例中，游戏服务器可以根据游戏中的用户的用户画像，确定所需的难度水平，并将难度水平发送至智能体服务器。智能体服务器可以根据难度水平，选择相应的动作预测模型进行动作预测。

在一个实施例中，可以对训练完毕的动作预测模型进行风格准确性的测评。具体地，服务器可以为动作预测模型分配风格属性标识，然后使动作预测模型通过进行动作预测，以控制智能体进行游戏，然后根据智能体在游戏中表现出的行动策略的风格与风格属性标识所表征的风格之间的差异，确定动作预测模型的风格准确性。

在一个实施例中，该方法还包括：以与游戏客户端所使用的网络协议相同的网络协议接入游戏服务器。本实施例中，获取当前游戏场景中的环境场景数据包括：从游戏服务器发送的当前帧的游戏场景中提取环境场景数据。本实施例中，在根据环境场景数据中的样本环境场景数据和风格属性信息，确定智能体在当前游戏场景中对应的待执行动作信息之后，方法还包括：将待执行动作信息发送至游戏服务器，以使游戏服务器根据待执行动作信息，控制智能体在当前帧的游戏场景中，执行与待执行动作信息相应的、且符合风格属性信息所表征风格的动作，并生成下一帧的游戏场景。

具体地，在实际游戏过程中，智能体服务器以与游戏客户端所使用的网络协议相同的网络协议接入游戏服务器。如图5所示，游戏服务器可以将当前帧的游戏场景分别发送至用户对应的游戏客户端、以及智能体服务器。

用户对应的游戏客户端可以展示当前帧的游戏场景，并根据用户在当前帧的游戏场景下对虚拟角色的操控，确定用户所操控的虚拟角色的待执行动作信息，并将用户所操控的虚拟角色的待执行动作信息发送至游戏服务器(如图5所示，游戏客户端将用户操控的待执行动作信息发送至游戏服务器)。

智能体服务器可以从游戏服务器发送的当前帧的游戏场景中提取环境场景数据，并确定游戏服务器发送的风格属性信息，然后根据环境场景数据和风格属性信息，确定智能体在当前帧的游戏场景中对应的待执行动作信息，并将智能体的待执行动作信息发送至游戏服务器(如图5所示，智能体服务器将待执行动作信息发送至游戏服务器)。

游戏服务器可以根据用户所操控的虚拟角色的待执行动作信息，控制用户所操控的虚拟角色在当前帧的游戏场景中执行相应的动作，并根据智能体的待执行动作信息，控制智能体在当前帧的游戏场景中，执行与待执行动作信息相应的、且符合风格属性信息所表征风格的动作，然后根据动作执行结果，生成下一帧的游戏场景，将下一帧的游戏场景作为当前帧的游戏场景，并返回执行游戏服务器可以将当前帧的游戏场景分别发送至用户对应的游戏客户端、以及智能体服务器及后续步骤，以实现游戏进程的迭代。

上述实施例中，智能体服务器以与游戏客户端所使用的网络协议相同的网络协议接入游戏服务器，实现灵活的接入，从而拓宽了智能体的应用场景，能够有效应用于掉线托管、人机对战、人机混合等多种应用场景。

应该理解的是，虽然各流程图中的各个步骤按照箭头的指示依次显示，但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明，这些步骤的执行并没有严格的顺序限制，这些步骤可以以其它的顺序执行。而且，各流程图中的至少一部分步骤可以包括多个步骤或者多个阶段，这些步骤或者阶段并不必然是在同一时刻执行完成，而是可以在不同的时刻执行，这些步骤或者阶段的执行顺序也不必然是依次进行，而是可以与其它步骤或者其它步骤中的步骤或者阶段的至少一部分轮流或者交替地执行。

在一个实施例中，如图6所示，提供了一种智能体控制装置600，包括：环境场景数据获取模块602、风格属性获取模块604和动作确定模块606，其中：

环境场景数据获取模块602，用于获取当前游戏场景中的环境场景数据。

风格属性获取模块604，用于确定为当前游戏场景中的智能体匹配的风格属性信息；智能体为不需要用户操控的虚拟角色。

动作确定模块606，用于根据环境场景数据和风格属性信息，确定智能体在当前游戏场景中对应的待执行动作信息。

在一个实施例中，环境场景数据包括场景元素对应的状态向量、空间关系图和全局标量特征。环境场景数据获取模块602还用于根据当前游戏场景中的各个场景元素的各维度的状态信息，分别生成各个场景元素对应的状态向量；根据当前游戏场景中的每种场景元素中各个场景元素之间的位置关系，生成各种场景元素分别对应的空间关系图；根据当前游戏场景中的游戏全局信息，生成全局标量特征。

在一个实施例中，风格属性信息包括风格属性标识。风格属性获取模块604还用于获取为当前游戏场景中的智能体匹配的风格属性标识。其中，匹配的风格属性标识，是根据当前游戏场景中操控虚拟角色的用户的用户画像确定的；或，匹配的风格属性标识，是根据当前游戏场景中与风格相关的动态指标确定的。

在一个实施例中，风格属性标识是多维的风格属性标识。多维的风格属性标识，用于表征当前游戏场景中的智能体在各个风格分类维度下的风格。动作确定模块606还用于将环境场景数据和多维的风格属性标识输入预先训练的动作预测模型中，输出智能体在当前游戏场景中对应的待执行动作信息；其中，待执行动作信息，用于使智能体在当前游戏场景中，执行与待执行动作信息相应的、且符合多维的风格属性标识所表征的各个风格分类维度下的风格的动作。

在一个实施例中，智能体控制装置600还包括：

模型训练模块608，用于获取包括多组样本数据的训练样本集；训练样本集中的每组样本数据包括历史游戏场景下的样本环境场景数据和相应的样本动作信息；根据训练样本集中各组样本数据所对应的用户的风格，为各组样本数据划分相应的样本风格属性标识；将训练样本集中各组样本数据中的样本环境场景数据和相应的样本风格属性标识，输入至待训练的动作预测模型中，预测智能体的动作信息；根据预测的动作信息与样本动作信息的差异，迭代地调整动作预测模型的模型参数，直至满足迭代停止条件，得到训练完毕的动作预测模型。

在一个实施例中，如图7所示，智能体控制装置600还包括：

接入模块610，用于以与游戏客户端所使用的网络协议相同的网络协议接入游戏服务器。环境场景数据获取模块602还用于从游戏服务器发送的当前帧的游戏场景中提取环境场景数据。接入模块610还用于将待执行动作信息发送至游戏服务器，以使游戏服务器根据待执行动作信息，控制智能体在当前帧的游戏场景中，执行与待执行动作信息相应的、且符合风格属性信息所表征风格的动作，并生成下一帧的游戏场景。

上述智能体控制装置中，获取当前游戏场景中的环境场景数据，并确定为当前游戏场景中的智能体匹配的风格属性信息，然后根据环境场景数据和风格属性信息，确定智能体在当前游戏场景中对应的待执行动作信息，以使智能体在当前游戏场景中，执行与待执行动作信息相应的、且符合风格属性信息所表征风格的动作，使得智能体所执行的动作能够符合一定的风格，避免了智能体的行动策略固定的问题，从而提高了智能体的行动策略的灵活性。

关于智能体控制装置的具体限定可以参见上文中对于智能体控制方法的限定，在此不再赘述。上述智能体控制装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中，也可以以软件形式存储于计算机设备中的存储器中，以便于处理器调用执行以上各个模块对应的操作。

在一个实施例中，提供了一种计算机设备，该计算机设备可以是服务器，其内部结构图可以如图8所示。该计算机设备包括通过系统总线连接的处理器、存储器和网络接口。其中，该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统、计算机程序和数据库。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的数据库用于存储动作预测模型的数据。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种智能体控制方法。

本领域技术人员可以理解，图8中示出的结构，仅仅是与本申请方案相关的部分结构的框图，并不构成对本申请方案所应用于其上的计算机设备的限定，具体的计算机设备可以包括比图中所示更多或更少的部件，或者组合某些部件，或者具有不同的部件布置。

在一个实施例中，还提供了一种计算机设备，包括存储器和处理器，存储器中存储有计算机程序，该处理器执行计算机程序时实现上述各方法实施例中的步骤。

在一个实施例中，提供了一种计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现上述各方法实施例中的步骤。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的计算机程序可存储于一非易失性计算机可读取存储介质中，该计算机程序在执行时，可包括如上述各方法的实施例的流程。其中，本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用，均可包括非易失性和易失性存储器中的至少一种。非易失性存储器可包括只读存储器(Read-Only Memory，ROM)、磁带、软盘、闪存或光存储器等。易失性存储器可包括随机存取存储器(Random Access Memory，RAM)或外部高速缓冲存储器。作为说明而非局限，RAM可以是多种形式，比如静态随机存取存储器(Static Random Access Memory，SRAM)或动态随机存取存储器(Dynamic Random Access Memory，DRAM)等。

以上实施例的各技术特征可以进行任意的组合，为使描述简洁，未对上述实施例中的各个技术特征所有可能的组合都进行描述，然而，只要这些技术特征的组合不存在矛盾，都应当认为是本说明书记载的范围。

以上所述实施例仅表达了本申请的几种实施方式，其描述较为具体和详细，但并不能因此而理解为对发明专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本申请构思的前提下，还可以做出若干变形和改进，这些都属于本申请的保护范围。因此，本申请专利的保护范围应以所附权利要求为准。

Claims

1.一种智能体控制方法，其特征在于，所述方法包括：

获取当前游戏场景中的环境场景数据；

2.根据权利要求1所述的方法，其特征在于，所述环境场景数据包括场景元素对应的状态向量、空间关系图和全局标量特征；

所述获取当前游戏场景中的环境场景数据包括：

3.根据权利要求1所述的方法，其特征在于，所述风格属性信息包括风格属性标识；所述确定为所述当前游戏场景中的智能体匹配的风格属性信息包括：

获取为所述当前游戏场景中的智能体匹配的风格属性标识；

4.根据权利要求3所述的方法，其特征在于，所述风格属性标识是多维的风格属性标识；所述多维的风格属性标识，用于表征所述当前游戏场景中的智能体在各个风格分类维度下的风格；

5.根据权利要求4所述的方法，其特征在于，所述多维的风格属性标识所表征的风格包括策略分类维度下的风格、团队意识分类维度下的风格、以及反应速度分类维度下的风格中的至少一种。

6.根据权利要求4所述的方法，其特征在于，所述动作预测模型的训练步骤包括：

将所述训练样本集中各组样本数据中的样本环境场景数据和相应的样本风格属性标识，输入至待训练的动作预测模型中，预测所述智能体的动作信息；

7.根据权利要求1至6任意一项所述的方法，其特征在于，所述方法还包括：

所述获取当前游戏场景中的环境场景数据包括：

在所述根据所述环境场景数据和所述风格属性信息，确定所述智能体在所述当前游戏场景中对应的待执行动作信息之后，所述方法还包括：

8.一种智能体控制装置，其特征在于，所述装置包括：

9.一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，其特征在于，所述处理器执行所述计算机程序时实现权利要求1至7中任一项所述的方法的步骤。

10.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现权利要求1至7中任一项所述的方法的步骤。