CN111760291B

CN111760291B - 游戏互动行为模型生成方法、装置、服务器和存储介质

Info

Publication number: CN111760291B
Application number: CN202010641841.6A
Authority: CN
Inventors: 邱炜彬
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2020-07-06
Filing date: 2020-07-06
Publication date: 2022-03-08
Anticipated expiration: 2040-07-06
Also published as: CN111760291A

Abstract

本发明实施例公开了一种游戏互动行为模型生成方法、装置、服务器和存储介质；本发明实施例可获取N种角色分组以及每种角色分组对应的历史模型集合，每种角色分组中包括M个不同的游戏角色；在历史模型集合中确定角色分组对应的当前时刻候选模型；采用对应的当前时刻候选模型得到每个游戏角色的互动行为；基于N种角色分组中每个游戏角色的互动行为，对角色分组对应的当前时刻候选模型进行更新训练，得到角色分组的更新后候选模型；将角色分组的更新后候选模型加入历史模型集合中；返回并执行步骤在历史模型集合中确定角色分组对应的当前时刻候选模型，直至候选模型收敛，得到角色分组对应的互动行为模型。本方案可提升游戏互动行为模型的质量。

Description

游戏互动行为模型生成方法、装置、服务器和存储介质

技术领域

本发明涉及计算机领域，具体涉及一种游戏互动行为模型生成方法、装置、服务器和存储介质。

背景技术

游戏互动行为(Action)是指电子游戏中，游戏角色与游戏场景进行互动的行为，游戏互动行为可以影响游戏场景中其他游戏角色，比如，游戏互动行为可以是游戏技能的施放、游戏装备的使用、游戏道具的放置，等等；例如，游戏技能可以由一个游戏角色向游戏场景中的另一游戏角色施放，使得另一游戏角色的血量降低，直至该游戏角色胜利。

目前的电子游戏中，需要技术人员对于非玩家操控的游戏角色制定一套游戏互动行为，来与玩家操控的游戏角色互动，例如，怪物角色可以拥有技能决策树，技能决策树中的每一个节点可以代表该节点所有的技能出招策略，该怪物可以根据自身或玩家角色的状态来确定当前所在的节点，从而实现与玩家进行较为智能化的交互。

然而，该方法需要手动地构建技能决策树，在需要大量生成游戏角色的游戏互动行为的情况下，游戏互动行为生成的效率低下。

发明内容

本发明实施例提供一种游戏互动行为模型生成方法、装置、服务器和存储介质，可以提升游戏互动行为生成的效率。

本发明实施例提供一种游戏互动行为模型生成方法，包括：

获取N种角色分组，以及每种角色分组对应的历史模型集合，每种角色分组中包括M个不同的游戏角色，所述N和M均为大于或者等于1的正整数；

在所述角色分组对应的历史模型集合中确定所述角色分组对应的当前时刻候选模型；

采用所述角色分组对应的当前时刻候选模型进行行为预测，得到所述角色分组中每个游戏角色的互动行为；

基于N种角色分组中每个游戏角色的互动行为，对所述角色分组对应的当前时刻候选模型进行更新训练，得到所述角色分组对应的当前时刻更新后候选模型；

将所述角色分组对应的当前时刻更新后候选模型加入所述角色分组对应的历史模型集合中；

返回并执行步骤在所述角色分组对应的历史模型集合中确定所述角色分组对应的当前时刻候选模型，直至所述候选模型收敛，得到所述角色分组对应的互动行为模型。

本发明实施例还提供一种游戏互动行为模型生成装置，包括：

获取单元，用于获取N种角色分组，以及每种角色分组对应的历史模型集合，每种角色分组中包括M个不同的游戏角色，所述N和M均为大于或者等于1的正整数；

候选单元，用于在所述角色分组对应的历史模型集合中确定所述角色分组对应的当前时刻候选模型；

行为单元，用于采用所述角色分组对应的当前时刻候选模型进行行为预测，得到所述角色分组中每个游戏角色的互动行为；

更新单元，用于基于N种角色分组中每个游戏角色的互动行为，对所述角色分组对应的当前时刻候选模型进行更新训练，得到所述角色分组对应的当前时刻更新后候选模型；

集合单元，用于将所述角色分组对应的当前时刻更新后候选模型加入所述角色分组对应的历史模型集合中；

训练单元，用于返回并执行步骤在所述角色分组对应的历史模型集合中确定所述角色分组对应的当前时刻候选模型，直至所述候选模型收敛，得到所述角色分组对应的互动行为模型。

在一些实施例中，所述角色分组中包括目标角色分组和除所述目标角色分组以外的其它角色分组，所述训练单元，还用于：

在游戏环境中进行目标角色分组与其它角色分组之间的角色互动时，在所述N种角色分组对应的互动行为模型中确定所述目标角色分组对应的目标互动行为模型；

采用所述目标互动行为模型预测所述目标角色分组中每个游戏角色的目标游戏互动行为；

使所述目标角色分组中的游戏角色采用所述目标游戏互动行为与游戏环境中其它角色分组的游戏角色互动。

在一些实施例中，所述候选单元，包括：

模型子单元，用于确定所述角色分组对应的上一时刻候选模型、当前时刻历史模型，以及其他角色分组对应的当前时刻历史模型；

组外对比子单元，用于通过对所述角色分组对应的当前时刻历史模型和其他角色分组对应的当前时刻历史模型进行对比，得到所述角色分组对应的当前时刻历史模型的组外得分，所述其他角色分组为N种角色分组中包括所述角色分组在内的所有角色分组；

组内对比子单元，用于通过对所述角色分组对应的当前时刻历史模型和所述角色分组对应的上一时刻候选模型进行对比，得到所述角色分组当前时刻历史模型的组内得分；

确定子单元，用于基于所述组内得分和所述组外得分，将所述角色分组对应的上一时刻候选模型或者所述角色分组对应的当前时刻历史模型确定为所述角色分组当前时刻对应的候选模型。

在一些实施例中，所述模型子单元，包括：

概率分布子模块，用于获取所述其他角色分组预设概率分布，以及，确定所述其他角色分组对应的上一时刻多个待筛选模型；

确定子模块，用于根据所述其他角色分组预设概率分布，在所述其他角色分组对应的上一时刻多个待筛选模型中确定其他角色分组对应的当前时刻历史模型。

在一些实施例中，所述确定子模块，用于：

确定所述其他角色分组对应的历史模型集合中每个历史模型集合的组内得分和组外得分；

基于所述组内得分和组外得分，计算所述其他角色分组对应的历史模型集合中每个历史模型的模型分数；

按照所述模型分数对所述其他角色分组对应的历史模型集合中每个历史模型进行排序，将排序第一的历史模型确定为最优历史模型，将排序第二、第三、第四的历史模型确定为次优历史模型；

将所述次优历史模型确定为所述其他角色分组对应的上一时刻待筛选模型。

在一些实施例中，所述组外对比子单元用于：

确定所述角色分组对应的当前时刻历史模型的等级分，以及其他的角色分组对应的当前时刻历史模型的等级分；

根据所述角色分组对应的当前时刻历史模型的等级分和其他的角色分组对应的当前时刻历史模型的等级分，确定所述角色分组对应的当前时刻历史模型和其他的角色分组对应的当前时刻历史模型的等级分差异；

基于所述等级分差异，确定所述角色分组的等级分期望；

采用所述角色分组对应的当前时刻历史模型进行行为预测，得到所述角色分组当前时刻的互动行为集合；

确定所述角色分组在采用所述角色分组当前时刻的互动行为集合与其它角色分组进行互动时，游戏测试环境反馈的所述角色分组的胜负信息；

基于所述角色分组的等级分期望和所述胜负信息，确定所述角色分组对应的当前时刻历史模型的组外得分。

在一些实施例中，所述组外对比子单元用于：

采用所述其他角色分组对应的当前时刻历史模型进行行为预测，得到所述其他角色分组当前时刻的互动行为集合；

确定所述角色分组在采用所述角色分组当前时刻的互动行为集合与其它角色分组在采用所述其他角色分组当前时刻的互动行为集合进行互动时，游戏测试环境反馈的所述角色分组的互动行为的胜率；

基于所述游戏测试环境反馈的所述角色分组的互动行为的胜率确定所述角色分组对应的当前时刻历史模型的组外得分。

在一些实施例中，所述组内对比子单元用于：

采用所述角色分组对应的当前时刻历史模型，得到所述角色分组当前的历史互动行为集合；

确定所述角色分组在采用所述角色分组当前的历史互动行为集合与其它角色分组进行互动时，游戏测试环境反馈的所述角色分组的当前互动行为胜率；

采用所述角色分组对应的上一时刻候选模型，得到所述角色分组上一时刻的历史互动行为集合；

确定所述角色分组在采用所述角色分组上一时刻的历史互动行为集合与其它角色分组进行互动时，游戏测试环境反馈的所述角色分组的上一时刻互动行为胜率；

基于所述角色分组的当前互动行为胜率和上一时刻互动行为胜率，确定所述角色分组对应的当前时刻历史模型的组内得分。

在一些实施例中，所述候选模型包括评估网络和M个行动网络，每个行动网络均与所述角色分组中的一个游戏角色对应，所述行为单元，包括：

对应子单元，用于确定所述游戏角色在所述角色分组对应的当前时刻候选模型中对应的行动网络；

预测子单元，用于采用所述游戏角色在所述角色分组对应的当前时刻候选模型中对应的行动网络，预测所述游戏角色的互动行为。

在一些实施例中，所述预测子单元，用于：

采用所述游戏角色在所述角色分组对应的当前时刻候选模型中对应的行动网络，获得所述游戏角色的行为概率分布；

生成随机概率分布，并基于所述随机概率分布对所述行为概率分布进行加强，得到所述游戏角色加强后的概率分布；

对所述游戏角色加强后的概率分布进行多项式分布采样，得到所述游戏角色采样概率；

基于所述游戏角色采样概率确定所述游戏角色的当前互动行为。

在一些实施例中，所述更新单元，用于：

采用所述角色分组对应的当前时刻候选模型中的评估网络，根据所述角色分组中所述游戏角色的互动行为对所述游戏角色对应的行动网络进行评估，得到所述评估网络对于所述游戏角色对应的行动网络的评分；

确定所述角色分组中所述游戏角色在采用所述游戏角色的互动行为时，虚拟游戏环对所述游戏角色产生的反馈；

基于所述评估网络对于所述游戏角色对应的行动网络的评分更新所述角色分组对应的当前时刻候选模型中所述游戏角色对应的行动网络，以及基于所述虚拟游戏环对所述游戏角色产生的反馈更新所述角色分组对应的当前时刻候选模型中的评估网络，得到所述角色分组对应的当前时刻更新后候选模型。

本发明实施例还提供一种服务器，包括存储器存储有多条指令；所述处理器从所述存储器中加载指令，以执行本发明实施例所提供的任一种游戏互动行为模型生成方法中的步骤。

本发明实施例还提供一种计算机可读存储介质，所述计算机可读存储介质存储有多条指令，所述指令适于处理器进行加载，以执行本发明实施例所提供的任一种游戏互动行为模型生成方法中的步骤。

本发明实施例可以获取N种角色分组，以及每种角色分组对应的历史模型集合，每种角色分组中包括M个不同的游戏角色，N和M均为大于或者等于1的正整数；在角色分组对应的历史模型集合中确定角色分组对应的当前时刻候选模型；采用角色分组对应的当前时刻候选模型进行行为预测，得到角色分组中每个游戏角色的互动行为；基于N种角色分组中每个游戏角色的互动行为，对角色分组对应的当前时刻候选模型进行更新训练，得到角色分组对应的当前时刻更新后候选模型；将角色分组对应的当前时刻更新后候选模型加入角色分组对应的历史模型集合中；返回并执行步骤在角色分组对应的历史模型集合中确定角色分组对应的当前时刻候选模型，直至候选模型收敛，得到角色分组对应的互动行为模型。

在本发明中，游戏角色可以组成角色分组来进行互动，每个角色分组中游戏角色的数量相同，但游戏角色不同，比如，不同的角色分组之间可以进行两两互动，例如，某游戏包括游戏角色a、游戏角色b、游戏角色c、游戏角色d，则该游戏可以具有4种角色分组，分别为分组[a，b，c]、分组[a，b，d]、分组[a，c，d]、分组[b，c，d]，分组[a，b，c]可以分别与分组[a，b，d]、分组[a，c，d]、分组[b，c，d]进行两两对战。

本发明可以生成某一角色分组对应的游戏互动行为模型，使得该游戏互动行为模型在生成该角色分组中每个游戏角色的互动行为更加准确，从而使得采用该互动行为模型预测得到的行为可供其对应的角色分组中多个游戏角色在游戏环境中序列化交互时在最大化其自身的效益。本方案适用于各种自动化地生成游戏互动行为模型的场景，由此，提升了生成的游戏互动行为模型的质量。

附图说明

为了更清楚地说明本发明实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1a是本发明实施例提供的游戏互动行为模型生成方法的场景示意图；

图1b是本发明实施例提供的游戏互动行为模型生成方法的流程示意图；

图1c是本发明实施例提供的游戏互动行为模型生成方法的游戏场景示意图；

图1d是本发明实施例提供的游戏互动行为模型生成方法的强化学习示意图；

图1e是本发明实施例提供的游戏互动行为模型生成方法的多游戏角色的分阶段更新示意图；

图1f是本发明实施例提供的游戏互动行为模型生成方法的行为网络结构示意图；

图1g是本发明实施例提供的游戏互动行为模型生成方法的评估网络结构示意图；

图2是本发明实施例提供的游戏互动行为模型生成方法应用在游戏对战场景中的流程示意图；

图3是本发明实施例提供的游戏互动行为模型生成装置的结构示意图；

图4是本发明实施例提供的服务器的结构示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

本发明实施例提供一种游戏互动行为模型生成方法、装置、服务器和存储介质。

其中，该游戏互动行为模型生成装置具体可以集成在电子设备中，该电子设备可以为终端、服务器等设备。其中，终端可以为手机、平板电脑、智能蓝牙设备、笔记本电脑、或者个人电脑(Personal Computer，PC)等设备；服务器可以是单一服务器，也可以是由多个服务器组成的服务器集群。

在一些实施例中，该游戏互动行为模型生成装置还可以集成在多个电子设备中，比如，游戏互动行为模型生成装置可以集成在多个服务器中，由多个服务器来实现本发明的游戏互动行为模型生成方法。

在一些实施例中，服务器也可以以终端的形式来实现。

例如，参考图1a，该游戏互动行为模型生成装置可以集成在服务器中，该服务器可以获取N种角色分组，以及每种角色分组对应的历史模型集合，每种角色分组中包括M个不同的游戏角色，N和M均为大于或者等于1的正整数；在角色分组对应的历史模型集合中确定角色分组对应的当前时刻候选模型；采用角色分组对应的当前时刻候选模型进行行为预测，得到角色分组中每个游戏角色的互动行为；基于N种角色分组中每个游戏角色的互动行为，对角色分组对应的当前时刻候选模型进行更新训练，得到角色分组对应的当前时刻更新后候选模型；将角色分组对应的当前时刻更新后候选模型加入角色分组对应的历史模型集合中；返回并执行步骤在角色分组对应的历史模型集合中确定角色分组对应的当前时刻候选模型，直至候选模型收敛，得到角色分组对应的互动行为模型。

当需要进行应用时，该服务器可以将该互动行为模型发送给游戏服务器，以便游戏服务器与玩家终端通信，使得玩家终端在游戏环境中进行目标角色分组与其它角色分组之间的角色互动时将互动数据发送给游戏服务器，该游戏服务器根据互动数据在N种角色分组对应的互动行为模型中确定目标角色分组对应的目标互动行为模型；采用目标互动行为模型预测目标角色分组中每个游戏角色的目标游戏互动行为；使目标角色分组中的游戏角色采用目标游戏互动行为与游戏环境中其它角色分组的游戏角色互动。

相比于现有技术中采用决策树或者监督学习进行游戏互动行为生成的方案，本方案可以使得所生成的互动行为更加智能、灵活，且解决监督学习采用真实游戏数据进行训练所导致的过拟合现象，降低了真实游戏场景下产生匪夷所思的互动行为的几率，提高了泛化性。

以下分别进行详细说明。需说明的是，以下实施例的序号不作为对实施例优选顺序的限定。

人工智能(Artificial Intelligence，AI)是一种利用数字计算机来模拟人类感知环境、获取知识并使用知识的技术，该技术可以使机器具有类似于人类的感知、推理与决策的功能。人工智能技术主要包括计算机视觉技术、语音处理技术、自然语言处理技术以及机器学习、深度学习等几大方向。

其中，机器学习(Machine learning，ML)是利用计算机代替人脑对目标进行理解、学习并进一步进行处理，从而使得计算机实现智能的技术。机器学习技术通常包括深度学习、强化学习、迁移学习、示教学习、归纳学习、转导推理、类比学习、演绎学习与博弈论等技术，比如，深度学习技术又可以包括人工神经网络、注意学习、知识表征等技术领域。

其中，强化学习(Reinforcement Learning，RL)是机器学习的范式和方法论之一，用于描述和解决智能体(Agent)在与环境的交互过程中通过学习策略(Police)以达成回报(Reward)最大化或实现特定目标的问题。

在本实施例中，提供了一种基于强化学习的游戏互动行为模型生成方法，如图1b所示，该游戏互动行为模型生成方法的具体流程可以如下：

101、获取N种角色分组，以及每种角色分组对应的历史模型集合，每种角色分组中包括M个不同的游戏角色，N和M均为大于或者等于1的正整数。

其中，角色分组是指由M个不同的游戏角色组成的小组，每个角色分组都可以具有相同的游戏角色数量，组成该角色分组的游戏角色可以相同也可以不同。

比如，1V1是指两个角色分组互动，每个角色分组都具有1个游戏角色；3V3是指两个角色分组互动，每个角色分组都具有3个游戏角色。

例如，参考图1c所示的多角色回合制角色扮演类游戏，该游戏中玩家可以操控玩家小队与电脑操控的电脑小队进行5V5对战，该游戏提供了10种游戏角色，则这些游戏角色进行组合后可形成252(C⁵ ₁₀)种不同阵容的角色分组，比如，玩家可以组织玩家小队的阵容：[坦克t、战士w、术士s、射手a、医生d]，电脑小队可以组织电脑小队的阵容：[战士x、战士y、战士z、射手a、射手a]。需要注意的是，在一些实施例中，当两个角色分组中的游戏角色相同，但排序不同时，则判定这两个角色分组为不同的角色分组，比如，角色分组[游戏角色a，游戏角色b]和角色分组[游戏角色b，游戏角色a]是两个不同的角色分组；而在一些实施例中，当两个角色分组中的游戏角色相同，但排序不同时，则判定这两个角色分组为相同的的角色分组，比如，角色分组[游戏角色a，游戏角色b]和角色分组[游戏角色b，游戏角色a]是同一个的角色分组。

102、在角色分组对应的历史模型集合中确定角色分组当前时刻对应的候选模型。

在本方案中，为每个角色分组都开启一个训练任务，该训练任务是将预设模型训练为该角色分组对应的互动行为模型；其中，所有的角色分组都可以通过对相同的预设模型进行更新，最后得到内部具有不同参数的互动行为模型。

由于模型训练的过程可以看作为对模型内部参数的迭代更新，则在某一角色分组训练任务中，对预设模型的内部参数进行一次更新后，可以得到对应的历史模型，则经过多轮迭代更新，该角色分组可以得到多个历史模型，直至最新一次迭代得到的历史模型收敛，从而将该收敛的历史模型确定为最终的互动行为模型。

其中，每次迭代，都可以在历史模型集合中选定一个历史模型作为候选模型，通过对该候选模型内部参数进行更新，得到此次迭代得到的历史模型，并将此次迭代得到的历史模型置入历史模型集合中。

例如，参考图1c，对于N个角色组合，每个角色组合迭代更新k次，从而使得每个角色组合对应K个历史模型；在第K+1次迭代过程中，在该角色组合对应的K个历史模型中选取一个候选模型，通过对该候选模型进行内部参数的更新，最终可以得到该角色组合对应的第K+1个历史模型。

其中，预设模型可以是任意一种可用于强化学习的神经网络模型，其中，预设模型可以采用行动-评估法(Actor-Critic)进行训练，该方法包括行动网络(Actor)和评估网络(Critic)，其中，行动网络用于预测互动行为，评估网络用于评估行动网络的质量，在训练阶段，行动网络和评估网络可以进行博弈，直至收敛，采用收敛后的行动网络可以准确地预测游戏角色的互动行为。

比如，预设模型可以采用深度确定性策略梯度法(Deep Deterministic PolicyGradient，DDPG)、异步优势行动-评估法(Asynchronous Advantage Actor-Critic，A3C)和近端策略优化法(Proximal Policy Optimization，PPO)等行动-评估法进行训练。

其中，互动行为可以包括任意的交互行为，例如，施放技能行为、使用道具行为，等等。

其中，游戏环境可以指用于仿真、实验、模拟真实游戏环境的虚拟环境，该虚拟游戏环境可以是游戏开发团队制作的互动反馈模块，该虚拟游戏环境可以模拟互动行为对真实游戏环境的影响，以及对真实游戏环境种某些角色状态的影响，等等。

参考图1d，采用强化学习的方式训练该预设模型可以通过预设模型预测智能体(Agent)的互动行为(Action)，并使其与游戏环境(Environment)交互，从而最大化游戏环境反馈的奖励信息(Reward)，其中，奖励信息可以包括杀伤的敌对角色、复活的友方角色、战斗胜利，等等。

在本方案中，角色分组可以看作一个大的智能体，该智能体由多个游戏角色组成，角色分组的状态S可以由该角色分组中游戏角色的状态s组成，例如，角色分组的状态S为[s₁，s₂，s₃]。

其中，游戏角色的状态s可以是该游戏角色的角色类型、属性特征和互动行为状态等，此外，状态s还可以包括敌方游戏角色的角色类型、属性特征和互动行为状态，以及双方游戏角色的团队类信息，等等。

其中，角色类型、属性特征、互动行为状态等均可以采用数字0/1的标签形式来表征，例如，角色血量特征可以基于该血量数值的当前数值以及最大数值进行归一化处理；例如，互动行为状态等可用0/1表示是否可用等。

本发明可根据环境反馈的奖励的多寡来逐步调整行动网络，例如，每一回合两个角色分组的互动行为作用完毕之后，可从虚拟游戏环境中获取角色分组新的状态信息，基于这些信息来构造奖励。

例如，可以根据敌我双方血量的变动情况、敌我双方角色阵亡或角色复活事件、局末输赢等来构造奖励。在一些实施例中，在构造奖励时，凡有利于该游戏角色的互动行为，其奖励值为正数，反之为负，其具体数值幅度可根据实际情况调配设计。

在本实施例中，可以通过对历史模型集合中的历史模型进行对比，来在角色分组对应的历史模型集合中确定角色分组对应的当前时刻候选模型。

在一些实施例中，为了保证每次迭代后的模型都比之前迭代得到的模型质量更好，可以通过对同一角色分组对应的历史模型集合中的历史模型进行对比，来在角色分组对应的历史模型集合中确定角色分组对应的当前时刻候选模型。

在一些实施例中，为了保证每次迭代后的模型都比其他角色分组迭代得到的模型质量更好，可以通过对不同角色分组对应的历史模型集合中的历史模型进行对比，来在角色分组对应的历史模型集合中确定角色分组对应的当前时刻候选模型。

在一些实施例中，为了同时保证每次迭代后的模型都比之前迭代得到的模型以及其他角色分组迭代得到的模型质量更好，可以同时通过对同一角色分组对应的历史模型集合中的历史模型进行对比，以及对不同角色分组对应的历史模型集合中的历史模型进行对比，来在角色分组对应的历史模型集合中确定角色分组对应的当前时刻候选模型。

例如，在一些实施例中，通过计算候选模型的组内得分来判断角色分组对应的上一时刻候选模型是否比该角色分组上一时刻前迭代得到的模型质量更好，以及通过组外得分计算候选模型的组内得分来判断角色分组对应的上一时刻候选模型是否比其他角色分组迭代得到的模型质量更好，步骤101如下：

(1)确定角色分组对应的上一时刻候选模型、当前时刻历史模型，以及其他角色分组对应的当前时刻历史模型；

(2)通过对角色分组对应的当前时刻历史模型和其他角色分组对应的当前时刻历史模型进行对比，得到角色分组对应的当前时刻历史模型的组外得分，其他角色分组为N种角色分组中包括角色分组在内的所有角色分组，其他角色分组为N种角色分组中包括角色分组在内的所有角色分组；

(3)通过对角色分组对应的当前时刻历史模型和角色分组对应的上一时刻候选模型进行对比，得到角色分组当前时刻历史模型的组内得分；

(4)基于组内得分和组外得分，将角色分组对应的上一时刻候选模型或者角色分组对应的当前时刻历史模型确定为角色分组当前时刻对应的候选模型。

其中，组外得分是指通过对比不同角色分组相同时刻的历史模型，来确定的某角色分组的历史模型的得分，该组外得分可以由Elo等级分、组外胜率等确定。

其中，组内得分是指通过对比相同角色分组不同时刻的历史模型，来确定的某角色分组的历史模型的得分，该组内得分可以由组内胜率等确定。

其中，胜率可通过虚拟游戏环境反馈得到，比如，可以在虚拟游戏环境中进行多次对战，并统计得到胜负记录从而确定胜率。

比如，参考图1e，对于N个角色分组，每个角色分组对应K个历史模型，K为迭代训练的次数。通过评估每个角色分组在不同训练轮次的组内得分和组外得分，来在每个角色分组对应的K个历史模型中确定其对应的候选模型。

例如，在完成第7轮更新后，通过将角色分组3的第7个历史模型

与角色分组3对应的上一时刻候选模型

进行对比得到组内得分，以及通过将角色分组3的第7个历史模型

和角色分组5的第7个历史模型

进行对比得到组外得分，通过统计这些组内得分和组外得分即可在角色分组3的第7个历史模型

与角色分组3对应的上一时刻候选模型

中确定当前的候选模型。

以下将分别介绍由Elo等级分、组外胜率确定组外得分的方法，以及由组内胜率确定组内得分的方法。

在一些实施例中，通过等级分计算组外得分的方法如下：

确定角色分组对应的当前时刻历史模型的等级分，以及其他的角色分组对应的当前时刻历史模型的等级分；

根据角色分组对应的当前时刻历史模型的等级分和其他的角色分组对应的当前时刻历史模型的等级分，确定角色分组对应的当前时刻历史模型和其他的角色分组对应的当前时刻历史模型的等级分差异；

基于等级分差异，确定角色分组的等级分期望；

采用角色分组对应的当前时刻历史模型进行行为预测，得到角色分组当前时刻的互动行为集合；

确定角色分组在采用角色分组当前时刻的互动行为集合与其它角色分组进行互动时，游戏测试环境反馈的角色分组的胜负信息；

基于角色分组的等级分期望和胜负信息，确定角色分组对应的当前时刻历史模型的组外得分。

其中，Elo等级分是一种衡量各类对弈活动水平的评价方法，该方法可以假设角色分组对应的当前时刻历史模型的等级分为R_A，其他的角色分组对应的当前时刻历史模型的等级分为R_B，等级分差异为R_A-R_B，定义角色分组的等级分期望E_A如下：

角色分组对应的当前时刻历史模型的等级分可以被更新为R’_A，即角色分组对应的当前时刻历史模型的组外得分R’_A可以被定义为：

R’_A＝R_A+K(S_A-E_A)

其中，胜负信息S_A是角色分组与其他角色分组对战一次得到胜负分数，胜计1分，平计0，5分，负计0分，同理B的等级分也做相应的更新。

本实施例可以初始设置所有角色分组的等级分为1000分，设置K＝16或32，根据上述公式可计算每个角色分组对应的当前时刻历史模型的Elo等级分。

在一些实施例中，通过胜率计算组外得分的方法如下：

采用其他角色分组对应的当前时刻历史模型进行行为预测，得到其他角色分组当前时刻的互动行为集合；

确定角色分组在采用角色分组当前时刻的互动行为集合与其它角色分组在采用其他角色分组当前时刻的互动行为集合进行互动时，游戏测试环境反馈的角色分组的互动行为的胜率；

基于游戏测试环境反馈的角色分组的互动行为的胜率确定角色分组对应的当前时刻历史模型的组外得分。

在一些实施例中，可以通过以Elo等级分为主，胜率为辅的组外得分评估手段，形成对所有角色分组所有策略模型的战力排序。

类似地，在一些实施例中，通过胜率计算组内得分的方法如下：

采用角色分组对应的当前时刻历史模型，得到角色分组当前的历史互动行为集合；

确定角色分组在采用角色分组当前的历史互动行为集合与其它角色分组进行互动时，游戏测试环境反馈的角色分组的当前互动行为胜率；

采用角色分组对应的上一时刻候选模型，得到角色分组上一时刻的历史互动行为集合；

确定角色分组在采用角色分组上一时刻的历史互动行为集合与其它角色分组进行互动时，游戏测试环境反馈的角色分组的上一时刻互动行为胜率；

基于角色分组的当前互动行为胜率和上一时刻互动行为胜率，确定角色分组对应的当前时刻历史模型的组内得分。

通过上述组外得分与组内得分的评判标准，可以对历史模型进行科学合理的评估，以决定下一次迭代从哪一历史模型开始进一步地优化，从而解决角色分组在自博弈过程中难以始终朝着提升战力的方向优化的问题。

由于在某一阶段的迭代更新过程中，某些角色分组对应的当前时刻候选模型可能会过度依赖于其他角色分组对应的候选模型，虽然这些角色分组对应的当前时刻候选模型可能在模型质量上优于其他角色分组对应的候选模型，但却往往无法进一步提升其相较于其他角色分组对应的候选模型的优势，因此，在一些实施例中，步骤”(1)确定其他角色分组对应的当前时刻历史模型”可以包括如下步骤：

获取其他角色分组预设概率分布，以及，确定其他角色分组对应的上一时刻多个待筛选模型；

根据其他角色分组预设概率分布，在其他角色分组对应的上一时刻多个待筛选模型中确定其他角色分组对应的当前时刻历史模型。

其中，每一个其他角色分组都可以具有其对应的预设概率分布，这些预设概率分布可以相同也可以不同。

例如，其他角色分组A的概率分布为P[60％，30％，10％]，其他角色分组A对应的上一时刻多个待筛选模型分别为待筛选模型A2、A3、A5，则可以按照60％的概率将A2确定为其他角色分组对应的当前时刻历史模型、按照30％的概率将A3确定为其他角色分组对应的当前时刻历史模型、按照10％的概率将A4确定为其他角色分组对应的当前时刻历史模型。

在一些实施例中，步骤”确定其他角色分组对应的上一时刻多个待筛选模型的方法类似于确定角色分组对应的上一时刻候选模型的方法”的具体步骤如下：

确定其他角色分组对应的历史模型集合中每个历史模型集合的组内得分和组外得分；

基于组内得分和组外得分，计算其他角色分组对应的历史模型集合中每个历史模型的模型分数；

按照模型分数对其他角色分组对应的历史模型集合中每个历史模型进行排序，将排序第一的历史模型确定为最优历史模型，将排序第二、第三、第四的历史模型确定为次优历史模型；

将次优历史模型确定为其他角色分组对应的上一时刻待筛选模型。

其中，确定其他角色分组对应的历史模型集合中每个历史模型集合的组内得分和组外得分的方法上述计算组内得分和组外得分的方法相同，在此不做赘述。

其中，模型分数可以由组内得分和组外得分加权求和得到，其权值可以由本领域技术人员按照实际需求设定。

例如，其他角色分组A的概率分布为P[60％，30％，10％]，根据组内得分和组外得分对其他角色分组A对应每个历史模型进行由高到低的排序后，得到序列[A4、A2、A3、A5、A7...]，则可以将A4确定为最优历史模型，将A2、A3、A5确定为待筛选模型。

103、采用角色分组当前时刻对应的候选模型进行行为预测，得到角色分组中每个游戏角色的互动行为。

由于在本方案中，角色分组被看作一个大的智能体，该智能体由多个游戏角色组成，则在采用角色分组当前时刻对应的候选模型对角色分组中每个游戏角色的互动行为进行预测时，可以构造一种预设模型，该预设模型具有1个评估网络和M个行动网络，，每个行动网络均与角色分组中的一个游戏角色对应。

比如，在一些实施例中，候选模型包括评估网络和M个行动网络，每个行动网络均与角色分组中的一个游戏角色对应，步骤103可以包括如下步骤：

(1)确定游戏角色在角色分组当前时刻对应的候选模型中对应的行动网络；

(2)采用游戏角色在角色分组当前时刻对应的候选模型中对应的行动网络，预测游戏角色的互动行为。

比如，参考图1e，对于游戏角色N1，可以确定其对应的角色分组为角色分组N，该角色分组N对应的历史模型集合为历史模型集合N，游戏角色N1在该历史模型集合N中对应的行动网络为候选模型N的行动网络N1，采用行动网络N1可以预测游戏角色N1的互动行为N1。

在一些实施例中，行动网络可以包括多层感知层，该多层感知层可以由多层感知机(MLP，Multilayer Perceptron)组成，其中，MLP除了最下层的输入层和最上层的输出层，其中可以包括多个隐层，步骤”(2)采用游戏角色在角色分组当前时刻对应的候选模型中对应的行动网络，预测游戏角色的互动行为”可以包括如下步骤：

确定游戏角色在虚拟游戏环境中的上一状态；

在行动网络的多层感知层中根据上一状态预测游戏角色的当前互动行为的概率分布；

基于概率分布的大小确定游戏角色的当前互动行为，得到多个游戏角色的当前互动行为集合。

由于互动行为模型输出的是多个互动行为发生的概率，目前直接的选择是将概率值最高者对应的互动行为作为目标互动行为，但由于在真实的游戏环境中最优解可能并非为预测概率值最高的互动行为，故在一些实施例中，步骤”采用游戏角色在角色分组当前时刻对应的候选模型中对应的行动网络，预测游戏角色的互动行为”可以包括如下具体步骤：

采用游戏角色在角色分组当前时刻对应的候选模型中对应的行动网络，获得游戏角色的行为概率分布；

生成随机概率分布，并基于随机概率分布对行为概率分布进行加强，得到游戏角色加强后的概率分布；

对游戏角色加强后的概率分布进行多项式分布采样，得到游戏角色采样概率；

基于游戏角色采样概率确定游戏角色的当前互动行为。

本实施例通过在多项式分布采样之前，对概率分布进行随机加强来实现对行为概率分布进行概率空间的探索，从而有效解决虚拟游戏环境中最优解可能并非为预测概率值最高的互动行为的问题，即相比于传统方法，本实施例可以解决传统方法在实践中存在的空间探索不足的问题。

其中，概率分布p₁+p₂+p₃...+p_n＝1，即，概率pi可看作区间[0，1]中的某一子区间，概率pi的数值大小为该子区间的长度；在传统的预测过程中，常常采用多项式分布采样法来在概率分布中采集一个概率，并将该概率对应的互动行为确定为当前互动行为，比如，随机生成一个0～1之间的值，该数值落入[0，1]区间中的哪一子区间，则采集该子区间对应的概率，并将该概率对应的互动行为确定为当前互动行为。

生成随机分布的方法具有多种，比如，使用狄利克雷分布(Dirichletdistribution)产生一份随机概率分布，将该随机概率分布分布按预设比例加到行动网络输出的概率分布上，可以形成一个具有更强探索倾向的新概率分布，最后在该新概率分布上进行多项式分布采样，产生策略迭代过程中的互动行为预测。

其中，Dirichlet分布是一类在实数域以正单纯形(Standard Simplex)为支撑集(Support)的高维连续概率分布，Dirichlet分布定义如下：

其中，正直向量α为Dirichlet分布的参数。

由于本方案的行为概率分布是一种多项概率分布，而Dirichlet分布与多项分布是共轭先验的，则将行为概率分布作为基分布H可以通过狄利克雷过程(一种随机过程)生成随机的多项分布DP(α，H)。

其中，基于随机概率分对行为概率分布进行加强的方式具有多种，比如，将随机概率分布的每一个随机概率与行为概率分布的每一个行为概率进行两两相加，并根据技术人员按照实际需求设定的预设比例进行调整。

需要注意的是，在行动网络最终应用时，由于真实的游戏环境中最优解就是预测概率值最高的互动行为，故在训练时通过加入随机概率分布来进行空间探索之后，在真实游戏环境中应用时应去除空间探索的影响，故在一些实施例中，步骤103可以包括如下步骤：

采用互动行为模型中游戏角色对应的行动网络预测游戏角色的互动行为的概率分布；

将游戏角色的互动行为的概率分布中的随机概率分布剔除，得到去影响后的概率分布；

基于去影响后的概率分布确定游戏角色的当前互动行为。

即，通过与上述空间探索方法相反的步骤，可以有效去除采用空间探索进行训练后，随机概率分布对最优解的影响。

104、基于N种角色分组中每个游戏角色的互动行为，对角色分组当前时刻对应的候选模型进行更新训练，得到角色分组当前时刻对应的更新后候选模型。

其中，对候选模型进行更新训练时，候选模型中的行动网络可以分别和多个评估网络进行博弈，从而实现该行动网络和多个评估网络的更新。

其中，更新方法如下：

采用角色分组当前时刻对应的候选模型中的评估网络，根据角色分组中游戏角色的互动行为对游戏角色对应的行动网络进行评估，得到评估网络对于游戏角色对应的行动网络的评分；

确定角色分组中游戏角色在采用游戏角色的互动行为时，虚拟游戏环对游戏角色产生的反馈；

基于评估网络对于游戏角色对应的行动网络的评分更新角色分组当前时刻对应的候选模型中游戏角色对应的行动网络，以及基于虚拟游戏环对游戏角色产生的反馈更新角色分组当前时刻对应的候选模型中的评估网络，得到角色分组当前时刻对应的更新后候选模型。

其中，参考图1f，在一些实施例中，行动网络可以采用多层感知网络结构，从而使得该行动网络可以对角色分组状态的特征进行细致、深层的感知，比如，该行动网络可以具有3层全连接层，分别为具有1024个神经元的全连接层、512个神经元的全连接层和256个神经元的全连接层；根据目标角色的数量，可在最后一个全连接层后接入该数量的独立的线性输出单元，例如，对于以5为小队进行两两小队对战的游戏，可以在最后一个全连接层后接入5个线性输出单元，其中，每个输出单元可输出离散的概率分布，其维度取决于互动行为空间的设置。

而评估网络可以与行动网络类似，在一些实施例中，评估网络可以包括与行动网络参数相同的多层感知层，例如，参考图1g，在一些实施例中，评估网络可以采用与行动网络相同参数与结构的多层感知网络结构，与行动网络不同的是，该评估网络可以在最后一个全连接层后接入一个维度为1的全连接层。

其中，行动网络的网络参数可以被称为行动策略θ，该行动策略θ是游戏角色的当前状态s到互动行为a的映射关系参数，即θ＝(a|s)，对于当前时刻t与当前时刻的下一时刻t+1、游戏环境可以对游戏角色的互动行为a进行反馈，该反馈可以包括该游戏角色下一时刻状态s_t+1以及当前的奖励γ_t。

在一些实施例中，可以采用PPO法训练行动网络和评估网络，如下：

首先，在进行迭代之前，需要初始化状态序列S中所有状态s对应的价值和所有互动行为a对应的价值。

在迭代过程中，需要确定状态s的特征向量Φ(s)；将Φ(s)作为行动网络的输入，得到行动网络输出的动作a，并将动作a输入游戏环境，从而得到游戏环境反馈的新状态s’和奖励R；将Φ(s)和Φ(s')输入评估网络后，可以得到评估网络输出的状态价值v(s)、v(s’)；通过状态价值v(s)、v(s’)可以确定损失loss，从而采用loss来更新评估网络的网络参数w；最后更新得到行动网络新的网络参数θ’。

其中：

loss～(R,γ,v(s'),v(s))

其中，t为迭代轮数，α为步长，γ为衰减因子。

需要注意的是，在一些实施例中，由于电子游戏特性，一些游戏的互动行为除了可以包括技能的选择，还可以包括该技能作用的对象，因此，预设的互动行为空间可以是技能数目与作用对象数目的乘积，例如对于20种技能与5个可作用对象，其预设的互动行为空间可以为100维。

而在状态s和互动行为a的种类都比较大的情况下，难以精确地确定策略的价值π(a|s)、状态的价值v_π(s)以及互动行为的价值q_π(s,a)，其中，价值是一种反映集合中元素间序关系的函数。

故在一些实施例中，可以确定策略价值的近似函数π_θ(s,a)、状态价值的近似函数

以及互动行为价值的近似函数

并采用这些近似函数替代上述价值来进行网络参数的更新，如下：

π_θ(s,a)＝P(a|s,θ)≈π(a|s)

比如，在一些实施例中，行动网络的对应的损失函数P_loss如下：

P_loss＝-J^θ′(θ)

比如，在一些实施例中，评估网络的对应的损失函数v_loss如下：

v_loss＝(v(s)-r_acc)²

其中，r_acc为累积的所有的奖励R。

当行动网络收敛，即训练完成最终得到了互动行为模型，此时互动行为模型中行动网络的行动策略θ可以被称为最优策略θ*。

目标函数是在约束条件下最小化的损失函数，由于损失函数越小表明模型拟合地越好，故目标函数是一种最终要优化得到的损失函数，通过训练行动网络中的行动策略参数θ，最终可以得到最优策略θ*的目标函数J^θ′(θ)：

其中，∈为探索率。

由于在状态s和互动行为a的种类都比较大的情况下，难以精确地得到J^θ′(θ)，在一些实施例中，故为了降低大量的状态s和互动行为a的种类对J^θ′(θ)的影响，从而实现寻找最优策略θ*的目的，可以采用J^θ′(θ)的似然函数来代替原有的J^θ′(θ)，该J^θ′(θ)的似然函数如下：

其中，p_θ(τ)的计算方法如下：

为了防止迭代结果相差过大，使得最终训练得到的互动行为模型并没有达到最优的质量，在一些实施例中，需要使得θ与θ′对应的互动行为概率分布p不相差太远，即游戏角色在前一时刻与当前时刻具有相似的状态s，设重要权值w^θθ′如下：

故加入设重要权值范围约束的最终的最优策略θ*目标函数的似然函数为：

因此，采用该似然函数对行动网络的参数θ进行优化，得到的最优参数θ*如下：

在本发明中，可以采用如步骤102所述的多段迭代方式确定每个角色分组对应的上一个候选模型，并更新该上一个候选模型，其中，更新方法可以采用步骤104所述的PPO算法。

例如，参考图1e，在一些实施例中，可以采取分阶段多个角色分组独立并行优化的方式进行训练，初始时，N个角色分组均采用预设模型进行互动行为的生成，每个角色分组都可以与所有角色分组进行博弈。

在博弈过程中时，可以先单独地更新该角色分组对应的候选模型，而不更新所有角色分组对应的候选模型，从而避免了多训练任务之间行动网络的更新和同步的问题。于是，N个训练任务可以实现并行训练，待训练收敛结束任务后，将得到第一轮的自博弈迭代训练后的N个角色分组对应的历史模型分别记为

然后，在获得的所有历史模型中将最优的历史模型作为当前的候选网络，以候选网络为起点，继续进行下一轮的训练任务，反复迭代直至训练完成。

105、将角色分组当前时刻对应的更新后候选模型加入角色分组对应的历史模型集合中。

106、返回并执行步骤102，直至候选模型收敛，得到角色分组对应的互动行为模型。

在一些实施例中，判断候选模型收敛的方式可以是通过J^θ′(θ)是否小于预设值来确定。

在一些实施例中，在得到角色分组对应的互动行为模型之后，还可以采用这些训练得到互动行为模型进行应用，如下：

在游戏环境中进行目标角色分组与其它角色分组之间的角色互动时，在N种角色分组对应的互动行为模型中确定目标角色分组对应的目标互动行为模型；

采用目标互动行为模型预测目标角色分组中每个游戏角色的目标游戏互动行为；

使目标角色分组中的游戏角色采用目标游戏互动行为与游戏环境中其它角色分组的游戏角色互动。通过该互动行为模型可以对目标游戏环境中的目标游戏角色进行互动行为生成，例如，该互动行为模型中目标游戏角色X对应的行为网络x可以生成互动行为1，目标游戏角色Y对应的行为网络y可以生成互动行为y，目标游戏角色X可以采用互动行为1与目标游戏环境互动，目标角色Y可以采用目标互动行为y与目标游戏环境互动。

由上可知，本发明实施例可以获取N种角色分组以及每种角色分组对应的历史模型集合，每种角色分组中包括M个不同的游戏角色；在历史模型集合中确定角色分组对应的当前时刻候选模型；采用对应的当前时刻候选模型得到每个游戏角色的互动行为；基于N种角色分组中每个游戏角色的互动行为，对角色分组对应的当前时刻候选模型进行更新训练，得到角色分组的更新后候选模型；将角色分组的更新后候选模型加入历史模型集合中；返回并执行步骤在历史模型集合中确定角色分组对应的当前时刻候选模型，直至候选模型收敛，得到角色分组对应的互动行为模型。

由此本方案可以通过强化学习的方法训练互动行为模型，通过该互动行为模型可以自动地为角色分组中特定的游戏角色生成对应的目标互动行为，从而提升游戏互动行为生成的效率。

特别对于多个角色分组在游戏中序列化地进行行为交互时，本方案可以对每个角色分组中游戏角色的互动行为进行分析，使得生成的互动行为可以使每个角色分组的自身效益最大化，无需人工调整，保证了游戏互动行为生成的效率。

根据上述实施例所描述的方法，以下将作进一步详细说明。

在本实施例中，将以采用本方案训练得到的互动行为模型来对目标游戏环境中的目标游戏角色进行互动行为生成，从而使目标角色采用目标互动行为与目标游戏环境互动为例，对本发明实施例的方法进行详细说明。

如图2所示，一种游戏互动行为模型生成方法具体流程如下：

201、基于强化学习进行训练互动行为模型。

在本实施例中，需要采用虚拟游戏场景来基于强化学习进行训练互动行为模型，该虚拟游戏场景可以为游戏开发人员搭建的游戏战斗场景仿真模块，该仿真模块需具备在开局时设置战斗角色，在战斗过程中提供当前战场状态信息，在角色做出互动行为指令后结算角色的伤害效果并在局末提供胜负信息等在内的功能。

通过采取该虚拟游戏场景基于强化学习进行训练互动行为模型，无需技术人员采集训练数据，从而节省了训练时间，提高了游戏互动行为生成的效率。

需要注意的是，通过该游戏互动行为生成的效率获得的反馈数据是一种完美信息，故在多个游戏角色交互时，每个角色的目标是最大化自身的效益。

202、采用互动行为模型对目标游戏环境中的目标游戏角色进行互动行为生成，得到目标游戏角色的目标互动行为。

在一些实施例中，为了使自博弈具备可行性，游戏中的敌我角色之间应当具备相同的逻辑架构，即敌我双方均派生自同一大类的游戏角色，这些游戏角色均具备相同的职业类别范围、属性范围和行为模式。同时这些角色对于战场双方都是可使用的，战场双方的角色个数亦应相同。

其中，角色的互动行为是离散且有限的。

比如，参考图1c，当电脑与玩家对抗时，电脑可以根据游戏中电脑自身的阵容搭配选取合适的互动行为模型，再采用该模型生成电脑自身阵容中每个电脑角色的技能，来与玩家阵容中每个玩家角色进行交战。

203、控制目标角色采用目标互动行为与目标游戏环境互动。

本方案适用于任一种分为敌我两阵营的NvN游戏战斗场景，也适用于更简易的1v1游戏战斗场景。根据场景不同，只需相应调整战场状态信息的构造方式、互动行为空间的表示形式和相应的策略神经网络输出模块。

比如，对于的战斗关卡是5v5的游戏形式，将单个阵营全部5个角色视作一个大阵营内的游戏角色，该游戏角色在互动行为的输出阶段具有独立的5个输出通道，分别敌对阵营队伍内的5个角色各自的互动行为。

在本方案中，同阵营的5个角色在状态输入阶段共享相同的游戏状态信息，在互动行为输出阶段具备独立的5个子网络。值得注意的是，如果应用于1v1战斗场景，只需相应减少状态信息和互动行为输出网络的个数。本方案的重点是基于自博弈强化学习的训练和评估方案的总体框架设计，故不过多着墨于状态、互动行为、奖励的设置及神经网络的构建等。

本发明提出了一种基于自博弈强化学习的RPG游戏角色AI训练与评估方案，能够为游戏项目提供一套通用的智能化战斗角色生成方案，从而提高游戏的可玩性。本方法有如下几点技术要点。首先本方案概述了RPG游戏战斗场景下智能角色生成问题，这一问题在大多数情况下可转化为强化学习经典问题，这一转化包括了状态、互动行为、奖励函数和行动网络结构的构建。其次，本方案在上述的强化学习通用问题上，提出了基于分阶段自博弈的训练方案和基于Elo等级分的策略水平评估方案，评估方案与训练方案的融合，使得自博弈训练能够有效地持续提高游戏角色的策略水平。再次，我们在策略迭代期间使用了包括对手历史较优策略采样方法和策略互动行为空间探索增强方法等在内的多种技术以保证策略迭代的可靠性。最后，我们的方案具有较强的普适性，能够对其他类似的问题提供值得借鉴的解决思路。

由上可知，本发明可以基于强化学习进行训练互动行为模型；采用互动行为模型对目标游戏环境中的目标游戏角色进行互动行为生成，得到目标游戏角色的目标互动行为；控制目标角色采用目标互动行为与目标游戏环境互动。，故本发明实施例可以提升游戏互动行为生成的效率。

为了更好地实施以上方法，本发明实施例还提供一种游戏互动行为模型生成装置，该游戏互动行为模型生成装置具体可以集成在电子设备中，该电子设备可以为终端、服务器等设备。其中，终端可以为手机、平板电脑、智能蓝牙设备、笔记本电脑、个人电脑等设备；服务器可以是单一服务器，也可以是由多个服务器组成的服务器集群。

比如，在本实施例中，将以游戏互动行为模型生成装置具体集成在服务器中为例，对本发明实施例的方法进行详细说明。

例如，如图3所示，该游戏互动行为模型生成装置可以包括获取单元301、候选单元302、行为单元303、更新单元304、集合单元305以及训练单元306，如下：

(一)获取单元301：

获取单元301可以用于获取N种角色分组，以及每种角色分组对应的历史模型集合，每种角色分组中可以包括M个不同的游戏角色，N和M均为大于或者等于1的正整数。

(二)候选单元302：

候选单元302可以用于在角色分组对应的历史模型集合中确定角色分组当前时刻对应的候选模型。

在一些实施例中，候选单元302，可以包括模型子单元、组外对比子单元、组内对比子单元和确定子单元，其中：

(1)模型子单元：

模型子单元可以用于确定角色分组对应的上一时刻候选模型、当前时刻历史模型，以及其他角色分组对应的当前时刻历史模型。

在一些实施例中，模型子单元，可以包括概率分布子模块和确定子模块，其中：

概率分布子模块可以用于获取其他角色分组预设概率分布，以及，确定其他角色分组对应的上一时刻多个待筛选模型；

确定子模块可以用于根据其他角色分组预设概率分布，在其他角色分组对应的上一时刻多个待筛选模型中确定其他角色分组对应的当前时刻历史模型。

在一些实施例中，确定子模块可以用于：

(2)组外对比子单元：

组外对比子单元可以用于通过对角色分组对应的当前时刻历史模型和其他角色分组对应的当前时刻历史模型进行对比，得到角色分组对应的当前时刻历史模型的组外得分，其他角色分组为N种角色分组中可以包括角色分组在内的所有角色分组。

(3)组内对比子单元：

组内对比子单元可以用于通过对角色分组对应的当前时刻历史模型和角色分组对应的上一时刻候选模型进行对比，得到角色分组当前时刻历史模型的组内得分。

(4)确定子单元：

确定子单元可以用于基于组内得分和组外得分，将角色分组对应的上一时刻候选模型或者角色分组对应的当前时刻历史模型确定为角色分组当前时刻对应的候选模型。

在一些实施例中，组外对比子单元用于：

基于等级分差异，确定角色分组的等级分期望；

在一些实施例中，组外对比子单元用于：

在一些实施例中，组内对比子单元用于：

(三)行为单元303：

行为单元303可以用于采用角色分组当前时刻对应的候选模型进行行为预测，得到角色分组中每个游戏角色的互动行为。

在一些实施例中，候选模型可以包括评估网络和M个行动网络，每个行动网络均与角色搭配分组中的一个游戏角色对应，行为单元303，可以包括对应子单元和预测子单元，其中：

(1)对应子单元可以用于确定游戏角色在角色分组当前时刻对应的候选模型中对应的行动网络；

(2)预测子单元可以用于采用游戏角色在角色分组当前时刻对应的候选模型中对应的行动网络，预测游戏角色的互动行为。

在一些实施例中，预测子单元可以用于：

采用游戏角色在角色分组当前时刻对应的候选模型中对应的行动网络，计算游戏角色的行为概率分布；

基于游戏角色采样概率确定游戏角色的当前互动行为。

(四)更新单元304：

更新单元304可以用于基于N种角色分组中每个游戏角色的互动行为，对角色分组当前时刻对应的候选模型进行更新训练，得到角色分组当前时刻对应的更新后候选模型。

在一些实施例中，更新单元304可以用于：

(五)集合单元305：

集合单元305可以用于将角色分组当前时刻对应的更新后候选模型加入角色分组对应的历史模型集合中。

(六)训练单元306：

训练单元306可以用于返回并执行步骤在角色分组对应的历史模型集合中确定角色分组当前时刻对应的候选模型，直至候选模型收敛，得到角色分组对应的互动行为模型。

具体实施时，以上各个单元可以作为独立的实体来实现，也可以进行任意组合，作为同一或若干个实体来实现，以上各个单元的具体实施可参见前面的方法实施例，在此不再赘述。

由上可知，本实施例的游戏互动行为模型生成装置由获取单元获取N种角色分组，以及每种角色分组对应的历史模型集合，每种角色分组中包括M个不同的游戏角色，N和M均为大于或者等于1的正整数；由候选单元在角色分组对应的历史模型集合中确定角色分组当前时刻对应的候选模型；由行为单元采用角色分组当前时刻对应的候选模型进行行为预测，得到角色分组中每个游戏角色的互动行为；由更新单元基于N种角色分组中每个游戏角色的互动行为，对角色分组当前时刻对应的候选模型进行更新训练，得到角色分组当前时刻对应的更新后候选模型；由集合单元将角色分组当前时刻对应的更新后候选模型加入角色分组对应的历史模型集合中；由训练单元返回并执行步骤在角色分组对应的历史模型集合中确定角色分组当前时刻对应的候选模型，直至候选模型收敛，得到角色分组对应的互动行为模型。

由此，本发明实施例可以提升游戏互动行为生成的效率。

本发明实施例还提供一种电子设备，该电子设备可以为终端、服务器等设备。其中，终端可以为手机、平板电脑、智能蓝牙设备、笔记本电脑、个人电脑，等等；服务器可以是单一服务器，也可以是由多个服务器组成的服务器集群，等等。

在本实施例中，将以本实施例的电子设备是服务器为例进行详细描述，比如，如图4所示，其示出了本发明实施例所涉及的服务器的结构示意图，具体来讲：

该服务器可以包括一个或者一个以上处理核心的处理器401、一个或一个以上计算机可读存储介质的存储器402、电源403、输入模块404以及通信模块405等部件。本领域技术人员可以理解，图4中示出的服务器结构并不构成对服务器的限定，可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件布置。其中：

处理器401是该服务器的控制中心，利用各种接口和线路连接整个服务器的各个部分，通过运行或执行存储在存储器402内的软件程序和/或模块，以及调用存储在存储器402内的数据，执行服务器的各种功能和处理数据，从而对服务器进行整体监控。在一些实施例中，处理器401可包括一个或多个处理核心；在一些实施例中，处理器401可集成应用处理器和调制解调处理器，其中，应用处理器主要处理操作系统、用户界面和应用程序等，调制解调处理器主要处理无线通信。可以理解的是，上述调制解调处理器也可以不集成到处理器401中。

存储器402可用于存储软件程序以及模块，处理器401通过运行存储在存储器402的软件程序以及模块，从而执行各种功能应用以及数据处理。存储器402可主要包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需的应用程序(比如声音播放功能、图像播放功能等)等；存储数据区可存储根据服务器的使用所创建的数据等。此外，存储器402可以包括高速随机存取存储器，还可以包括非易失性存储器，例如至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。相应地，存储器402还可以包括存储器控制器，以提供处理器401对存储器402的访问。

服务器还包括给各个部件供电的电源403，在一些实施例中，电源403可以通过电源管理系统与处理器401逻辑相连，从而通过电源管理系统实现管理充电、放电、以及功耗管理等功能。电源403还可以包括一个或一个以上的直流或交流电源、再充电系统、电源故障检测电路、电源转换器或者逆变器、电源状态指示器等任意组件。

该服务器还可包括输入模块404，该输入模块404可用于接收输入的数字或字符信息，以及产生与用户设置以及功能控制有关的键盘、鼠标、操作杆、光学或者轨迹球信号输入。

该服务器还可包括通信模块405，在一些实施例中通信模块405可以包括无线模块，服务器可以通过该通信模块405的无线模块进行短距离无线传输，从而为用户提供了无线的宽带互联网访问。比如，该通信模块405可以用于帮助用户收发电子邮件、浏览网页和访问流式媒体等。

尽管未示出，服务器还可以包括显示单元等，在此不再赘述。具体在本实施例中，服务器中的处理器401会按照如下的指令，将一个或一个以上的应用程序的进程对应的可执行文件加载到存储器402中，并由处理器401来运行存储在存储器402中的应用程序，从而实现各种功能，如下：

获取N种角色分组，以及每种角色分组对应的历史模型集合，每种角色分组中包括M个不同的游戏角色，N和M均为大于或者等于1的正整数；

在角色分组对应的历史模型集合中确定角色分组对应的当前时刻候选模型；

采用角色分组对应的当前时刻候选模型进行行为预测，得到角色分组中每个游戏角色的互动行为；

基于N种角色分组中每个游戏角色的互动行为，对角色分组对应的当前时刻候选模型进行更新训练，得到角色分组对应的当前时刻更新后候选模型；

将角色分组对应的当前时刻更新后候选模型加入角色分组对应的历史模型集合中；

返回并执行步骤在角色分组对应的历史模型集合中确定角色分组对应的当前时刻候选模型，直至候选模型收敛，得到角色分组对应的互动行为模型。

以上各个操作的具体实施可参见前面的实施例，在此不再赘述。

由上可知，本方案可以提升游戏互动行为生成的效率。

本领域普通技术人员可以理解，上述实施例的各种方法中的全部或部分步骤可以通过指令来完成，或通过指令控制相关的硬件来完成，该指令可以存储于一计算机可读存储介质中，并由处理器进行加载和执行。

为此，本发明实施例提供一种计算机可读存储介质，其中存储有多条指令，该指令能够被处理器进行加载，以执行本发明实施例所提供的任一种游戏互动行为模型生成方法中的步骤。例如，该指令可以执行如下步骤：

其中，该存储介质可以包括：只读存储器(ROM，Read Only Memory)、随机存取记忆体(RAM，Random Access Memory)、磁盘或光盘等。

由于该存储介质中所存储的指令，可以执行本发明实施例所提供的任一种游戏互动行为模型生成方法中的步骤，因此，可以实现本发明实施例所提供的任一种游戏互动行为模型生成方法所能实现的有益效果，详见前面的实施例，在此不再赘述。

以上对本发明实施例所提供的一种游戏互动行为模型生成方法、装置、服务器和计算机可读存储介质进行了详细介绍，本文中应用了具体个例对本发明的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本发明的方法及其核心思想；同时，对于本领域的技术人员，依据本发明的思想，在具体实施方式及应用范围上均会有改变之处，综上所述，本说明书内容不应理解为对本发明的限制。

Claims

1.一种游戏互动行为模型生成方法，其特征在于，包括：

在所述角色分组对应的历史模型集合中确定所述角色分组对应的当前时刻候选模型，包括：确定所述角色分组对应的上一时刻候选模型、当前时刻历史模型，以及其他角色分组对应的当前时刻历史模型；通过对所述角色分组对应的当前时刻历史模型和其他角色分组对应的当前时刻历史模型进行对比，得到所述角色分组对应的当前时刻历史模型的组外得分，所述其他角色分组为N种角色分组中包括所述角色分组在内的所有角色分组；通过对所述角色分组对应的当前时刻历史模型和所述角色分组对应的上一时刻候选模型进行对比，得到所述角色分组当前时刻历史模型的组内得分；基于所述组内得分和所述组外得分，将所述角色分组对应的上一时刻候选模型或者所述角色分组对应的当前时刻历史模型确定为所述角色分组当前时刻对应的候选模型；

2.如权利要求1所述的游戏互动行为模型生成方法，其特征在于，所述角色分组中包括目标角色分组和除所述目标角色分组以外的其它角色分组，所述得到所述角色分组对应的互动行为模型之后，还包括：

3.如权利要求1所述的游戏互动行为模型生成方法，其特征在于，所述确定其他角色分组对应的当前时刻历史模型，包括：

获取所述其他角色分组预设概率分布，以及，确定所述其他角色分组对应的上一时刻多个待筛选模型；

根据所述其他角色分组预设概率分布，在所述其他角色分组对应的上一时刻多个待筛选模型中确定其他角色分组对应的当前时刻历史模型。

4.如权利要求3所述的游戏互动行为模型生成方法，其特征在于，所述确定所述其他角色分组对应的上一时刻多个待筛选模型，包括：

5.如权利要求1所述的游戏互动行为模型生成方法，其特征在于，所述通过对所述角色分组对应的当前时刻历史模型和其他角色分组对应的当前时刻历史模型进行对比，得到所述角色分组对应的当前时刻历史模型的组外得分，包括：

基于所述等级分差异，确定所述角色分组的等级分期望；

6.如权利要求1所述的游戏互动行为模型生成方法，其特征在于，所述通过对所述角色分组对应的当前时刻历史模型和其他角色分组对应的当前时刻历史模型进行对比，得到所述角色分组对应的当前时刻历史模型的组外得分，包括：

7.如权利要求1所述的游戏互动行为模型生成方法，其特征在于，所述通过对所述角色分组对应的当前时刻历史模型和所述角色分组对应的上一时刻候选模型进行对比，得到所述角色分组当前时刻历史模型的组内得分，包括：

8.如权利要求1所述的游戏互动行为模型生成方法，其特征在于，所述候选模型包括评估网络和M个行动网络，每个行动网络均与所述角色分组中的一个游戏角色对应，

所述采用所述角色分组对应的当前时刻候选模型进行行为预测，得到所述角色分组中每个游戏角色的互动行为，包括：确定所述游戏角色在所述角色分组对应的当前时刻候选模型中对应的行动网络；

采用所述游戏角色在所述角色分组对应的当前时刻候选模型中对应的行动网络，预测所述游戏角色的互动行为。

9.如权利要求8所述的游戏互动行为模型生成方法，其特征在于，所述采用所述游戏角色在所述角色分组对应的当前时刻候选模型中对应的行动网络，预测所述游戏角色的互动行为，包括：

生成随机概率分布，并将基于所述随机概率分布对所述行为概率分布进行加强，得到所述游戏角色加强后的概率分布；

10.如权利要求1所述的游戏互动行为模型生成方法，其特征在于，基于N种角色分组中每个游戏角色的互动行为，对所述角色分组对应的当前时刻候选模型进行更新训练，得到所述角色分组对应的当前时刻更新后候选模型，包括：

11.一种游戏互动行为模型生成装置，其特征在于，包括：

候选单元，用于在所述角色分组对应的历史模型集合中确定所述角色分组对应的当前时刻候选模型，包括：确定所述角色分组对应的上一时刻候选模型、当前时刻历史模型，以及其他角色分组对应的当前时刻历史模型；通过对所述角色分组对应的当前时刻历史模型和其他角色分组对应的当前时刻历史模型进行对比，得到所述角色分组对应的当前时刻历史模型的组外得分，所述其他角色分组为N种角色分组中包括所述角色分组在内的所有角色分组；通过对所述角色分组对应的当前时刻历史模型和所述角色分组对应的上一时刻候选模型进行对比，得到所述角色分组当前时刻历史模型的组内得分；基于所述组内得分和所述组外得分，将所述角色分组对应的上一时刻候选模型或者所述角色分组对应的当前时刻历史模型确定为所述角色分组当前时刻对应的候选模型；

12.如权利要求11所述的游戏互动行为模型生成装置，其特征在于，所述角色分组中包括目标角色分组和除所述目标角色分组以外的其它角色分组，所述训练单元，还用于：

13.一种服务器，其特征在于，包括处理器和存储器，所述存储器存储有多条指令；所述处理器从所述存储器中加载指令，以执行如权利要求1～10任一项所述的游戏互动行为模型生成方法中的步骤。

14.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质存储有多条指令，所述指令适于处理器进行加载，以执行权利要求1～10任一项所述的游戏互动行为模型生成方法中的步骤。