CN113134238A

CN113134238A - 关卡设置方法、装置、计算机设备和存储介质

Info

Publication number: CN113134238A
Application number: CN202110323902.9A
Authority: CN
Inventors: 周正; 朱展图; 朱晓龙; 刘永升
Original assignee: Super Parameter Technology Shenzhen Co ltd
Current assignee: Super Parameter Technology Shenzhen Co ltd
Priority date: 2021-03-26
Filing date: 2021-03-26
Publication date: 2021-07-20

Abstract

本申请涉及一种关卡设置方法、装置、计算机设备和存储介质。所述方法包括：获取关卡风格参数；通过关卡生成模型生成与所述风格参数对应的多个关卡；通过闯关模型对所述关卡进行闯关测试，得到与所述关卡对应的闯关数据；将所述闯关数据输入评估模型进行预测，得到所述关卡对应的预测通关率；将所述关卡以及所述预测通关率发送至终端，以使所述终端根据所述预测通关率将所述关卡设置于闯关应用。采用本方法能够提高设置关卡的效率。

Description

关卡设置方法、装置、计算机设备和存储介质

技术领域

本申请涉及人工智能技术领域，特别是涉及一种关卡设置方法、装置、计算机设备和存储介质。

背景技术

随着计算机技术的发展，在智能终端上操作的关卡广为流行。为了满足不同关卡玩家的交互体验，需要设计各种不同风格和难度的关卡，而现有技术通过人力去设计关卡，需要大量有经验的关卡策划去做设计并通过人力对设计出的关卡进行评估，根据评估结果将有效关卡设置在闯关应用中，设置关卡的效率较低。

发明内容

基于此，有必要针对上述技术问题，提供一种能够提高效率的关卡设置方法、装置、计算机设备和存储介质。

一种关卡设置方法，所述方法包括：

获取关卡风格参数；

通过关卡生成模型生成与所述风格参数对应的多个关卡；

通过闯关模型对所述关卡进行闯关测试，得到与所述关卡对应的闯关数据；

将所述闯关数据输入评估模型进行预测，得到所述关卡对应的预测通关率；

将所述关卡以及所述预测通关率发送至终端，以使所述终端根据所述预测通关率将所述关卡设置于闯关应用。

在一个实施例中，所述关卡生成模型是对生成器和判别器进行训练所得，所述对生成器和判别器进行训练包括：

获取关卡风格参数样本；

通过所述生成器生成与所述关卡风格参数样本对应的关卡特征图；

将所述关卡特征图、真实关卡数据以及所述关卡风格参数样本输入所述判别器进行损失计算，得到损失值；

根据所述损失值分别对所述生成器和所述判别器中的参数进行优化；

基于参数优化后的所述生成器和所述判别器组成所述关卡生成模型。

在一个实施例中，所述闯关模型是对神经网络模型进行训练所得，所述对神经网络模型进行训练包括：

根据所述神经网络模型预测的交互指令对关卡样本进行闯关，获得闯关所产生的交互数据；

将所述交互数据作为训练样本输入至所述神经网络模型进行训练；

当训练后的所述神经网络模型不满足评估条件时，则根据训练后的所述神经网络模型预测的交互指令对关卡样本进行闯关，获得新的交互数据，并根据所述新的交互数据继续对训练后的所述神经网络模型进行训练，直至得到满足所述评估条件的神经网络模型；

将满足所述评估条件的神经网络模型作为所述闯关模型。

在一个实施例中，所述根据所述神经网络模型预测的交互指令对关卡样本进行闯关之前，所述方法还包括：

根据选择概率计算式计算关卡列表中每个关卡对应的选择概率；所述选择概率计算式为：

其中，i为大于或者等于1的正整数，P(i)为所述关卡列表中第i个关卡对应的选择概率，W(i)为所述关卡列表中第i个关卡对应的评估通关率；

从所述关卡列表中，根据所述选择概率选取目标关卡作为所述关卡样本。

在一个实施例中，所述根据所述神经网络模型预测的交互指令对关卡样本进行闯关，获得闯关所产生的交互数据，包括：

将所述关卡样本的当前状态输入所述神经网络模型进行预测，得到交互行为以及奖励值；

根据所述交互行为生成的交互指令对关卡样本进行闯关，并根据闯关的结果对所述关卡样本的当前状态进行更新，返回执行所述将所述关卡样本的当前状态输入所述神经网络模型进行预测的步骤，直至闯关所述关卡样本的过程中达到闯关结束条件；

基于每个当前状态对应的关卡特征、交互行为和奖励值，生成与每个当前状态对应的交互数据；所述关卡特征是从每个当前状态中提取的特征。

在一个实施例中，所述神经网络模型包括残差网络模块、第一全连接模块和第二全连接模块；所述将所述关卡样本的当前状态输入所述神经网络模型进行预测，得到交互行为以及奖励值，包括：

从所述关卡样本的当前状态提取所述关卡特征；所述关卡特征包括类图像特征和向量特征；

通过所述残差网络模块对所述类图像特征进行处理，得到处理后类图像特征；以及，通过所述第一全连接模块对所述向量特征进行处理，得到处理后向量特征；

将所述处理后类图像特征和所述处理后向量特征进行合并，得到合并特征；

通过所述第二全连接模块对所述合并特征进行特征处理，根据特征处理的结果获得所述交互行为以及所述奖励值。

在一个实施例中，所述方法还包括：

获取关卡列表中关卡样本的标签和统计特征；

根据所述标签和所述统计特征对预训练评估模型进行训练，得到所述评估模型。

一种关卡设置装置，所述装置包括：

获取模块，用于获取关卡风格参数；

生成模块，用于通过关卡生成模型生成与所述风格参数对应的多个关卡；

测试模块，用于通过闯关模型对所述关卡进行闯关测试，得到与所述关卡对应的闯关数据；

评估预测模块，用于将所述闯关数据输入评估模型进行预测，得到所述关卡对应的预测通关率；

设置模块，用于将所述关卡以及所述预测通关率发送至终端，以使所述终端根据所述预测通关率将所述关卡设置于闯关应用。

在一个实施例中，所述关卡生成模型是对生成器和判别器进行训练所得，所述装置还包括：

所述获取模块，还用于获取关卡风格参数样本；

所述生成模块，还用于通过所述生成器生成与所述关卡风格参数样本对应的关卡特征图；

计算模块，用于将所述关卡特征图、真实关卡数据以及所述关卡风格参数样本输入所述判别器进行损失计算，得到损失值；

优化模块，用于根据所述损失值分别对所述生成器和所述判别器中的参数进行优化；

组成模块，用于基于参数优化后的所述生成器和所述判别器组成所述关卡生成模型。

在一个实施例中，所述闯关模型是对神经网络模型进行训练所得，所述装置还包括：

闯关模块，用于根据所述神经网络模型预测的交互指令对关卡样本进行闯关，获得闯关所产生的交互数据；

训练模块，用于将所述交互数据作为训练样本输入至所述神经网络模型进行训练；

所述闯关模块，还用于当训练后的所述神经网络模型不满足评估条件时，则根据训练后的所述神经网络模型预测的交互指令对关卡样本进行闯关，获得新的交互数据，并根据所述新的交互数据继续对训练后的所述神经网络模型进行训练，直至得到满足所述评估条件的神经网络模型；

作为模块，用于将满足所述评估条件的神经网络模型作为所述闯关模型。

在一个实施例中，所述装置还包括：

所述计算模块，还用于根据选择概率计算式计算关卡列表中每个关卡对应的选择概率；所述选择概率计算式为：

选取模块，用于从所述关卡列表中，根据所述选择概率选取目标关卡作为所述关卡样本。

在一个实施例中，所述闯关模块，还用于：

在一个实施例中，所述神经网络模型包括残差网络模块、第一全连接模块和第二全连接模块；所述闯关模块，还用于：

在一个实施例中，所述装置还包括：

所述获取模块，还用于获取关卡列表中关卡样本的标签和统计特征；

所述训练模块，还用于根据所述标签和所述统计特征对预训练评估模型进行训练，得到所述评估模型。

一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，其特征在于，所述处理器执行所述计算机程序时实现所述关卡设置方法的步骤。

一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现所述关卡设置方法的步骤。

上述实施例中，服务器获取关卡风格参数，并通过关卡生成模型生成与风格参数对应的多个关卡。然后，服务器通过闯关模型对关卡进行闯关测试，得到与关卡对应的闯关数据，并将闯关数据输入评估模型进行预测，得到关卡对应的预测通关率。最后服务器根据预测通关率将关卡设置于闯关应用。所以，服务器通过模型设计不同风格参数的关卡并对关卡进行评估，缩短了生成关卡以及对关卡进行评估的时间，提高了设置关卡的效率。

附图说明

图1为一个实施例中关卡设置方法的应用环境图；

图2为一个实施例中关卡设置方法的流程示意图；

图3为一个实施例中生成关卡生成模型步骤的流程示意图；

图4为一个实施例中关卡生成模型的原理示意图；

图5为一个实施例中训练闯关模型的原理示意图；

图6为一个实施例中根据交互指令对关卡中元素进行移动的示意图；

图7为一个实施例中对特征进行处理的流程示意图；

图8为一个实施例中类图像特征的示意图；

图9为一个实施例中向量特征的示意图；

图10为一个实施例中设置关卡的框架结构图；

图11为一个实施例中关卡设置装置的结构框图；

图12为另一个实施例中关卡设置装置的结构框图；

图13为一个实施例中计算机设备的内部结构图。

具体实施方式

为了使本申请的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本申请进行进一步详细说明。应当理解，此处描述的具体实施例仅仅用以解释本申请，并不用于限定本申请。

本申请提供的关卡设置方法，可以应用于如图1所示的应用环境中。其中，服务器102通过网络与终端104进行通信，从终端104获取关卡风格参数，并通过关卡生成模型生成与风格参数对应的多个关卡。然后，服务器102通过闯关模型对关卡进行闯关测试，得到与关卡对应的闯关数据，并将闯关数据输入评估模型进行预测，得到关卡对应的预测通关率。最后，服务器102将关卡以及预测通关率发送至终端104，以使终端104根据预测通关率将关卡设置于闯关应用。其中，服务器102可以用独立的服务器或者是多个服务器组成的服务器集群来实现。终端104可以但不限于是各种个人计算机、笔记本电脑、智能手机、平板电脑和便携式可穿戴设备，

在一个实施例中，如图2所示，提供了一种关卡设置方法，以该方法应用于图1中的服务器为例进行说明，包括以下步骤：

S202，服务器获取关卡风格参数。

其中，关卡风格参数是用于表示关卡风格的参数。关卡风格包括平稳风格、推进风格和激进风格等。例如，用关卡风格参数001表示平稳风格关卡；用关卡风格参数002表示推进风格关卡。服务器可以通过终端获取关卡风格参数，当终端想要获取平稳风格的关卡时，向服务器输入代表平稳风格关卡的关卡风格参数，例如001。

其中，每个关卡风格参数具有唯一对应的关卡风格向量。关卡风格向量是多维独热码向量，例如，关卡风格向量[1,0,0]与关卡风格参数001相对应，表示平稳风格关卡；关卡风格向量[0,1,0]与关卡风格参数002相对应，表示推进风格关卡；关卡风格向量[0,0,1]与关卡风格参数003相对应，表示激进风格关卡。服务器获取关卡风格参数后，可以根据关卡风格参数获取对应的关卡风格向量。

S204，服务器通过关卡生成模型生成与风格参数对应的多个关卡。

其中，关卡生成模型是用于生成关卡的深度学习模型，例如可以是生成式对抗网络模型。生成式对抗网络模型包括生成器和判别器。生成器和判别器可以是深度神经网络。其中，关卡是闯关应用中的关卡，每个关卡具有不同的虚拟场景、目标和任务。其中闯关应用可以是闯关游戏，例如，消除类游戏。为了增加关卡的趣味性，关卡可以有多种不同的风格，例如平稳风格、推进风格或者激进风格。

服务器将风格参数转换为对应的风格向量之后，将风格向量和随机噪声输入关卡生成模型，通过关卡生成模型得到多个与风格参数对应的关卡特征图。其中，关卡特征图是用于描述关卡中元素的抽象图。服务器可以通过关卡特征图与关卡中各种元素的映射关系生成关卡配置文件，然后通过关卡配置文件生成实际的关卡。

S206，服务器通过闯关模型对关卡进行闯关测试，得到与关卡对应的闯关数据。

其中，闯关模型是通过产生交互指令对关卡进行闯关的强化学习模型。服务器通过闯关模型对每个关卡均进行多次闯关，然后记录每次的闯关结果。闯关结果包括是否闯关成功、闯关所用时间、消灭目标数等。例如，对于消除类闯关应用，闯关结果包括是否通关、通关时的剩余步数、消除目标的数量、未消除目标的数量等。其中，闯关数据是对闯关模型每次的闯关结果进行统计得到的数据，包括平均通关率、平均剩余步数、平均消除目标数等。例如，服务器通过闯关模型对关卡进行10000次闯关，对10000次闯关的结果进行统计，得到闯关数据。

S208，服务器将闯关数据输入评估模型进行预测，得到关卡对应的预测通关率。

其中，评估模型是根据闯关数据预测关卡对应的预测通关率的神经网络模型。评估模型例如可以是DNN(Deep Neural Networks，深度神经网络)模型、LightGBM(LightGradient Boosting Machine，梯度提升机)模型或者Xgboost(Extreme GradientBoosting，极限梯度提升)模型等。

其中，预测通关率是对真实游戏玩家的闯关通关率的预测值。在一个实施例中，服务器训练多个评估模型，然后通过多个评估模型分别进行预测，得到多个预测结果，然后对多个预测结果进行加权平均，得到最终的预测通关率。其中，这多个评估模型可以分别是DNN模型、LightGBM模型或者Xgboost模型中的一种或多种。

S210，服务器将关卡以及预测通关率发送至终端，以使终端根据所述预测通关率将所述关卡设置于闯关应用。

其中，终端是对闯关应用进行设计策划的终端。终端在需要关卡时，向服务器发送关卡风格参数，并从服务器获取与关卡风格参数对应的关卡以及关卡的预测通关率，然后根据关卡和对应的预测通关率对闯关应用进行设计策划。其中，闯关应用是由多个关卡组成的、设置有闯关任务的应用软件。闯关应用可以是闯关游戏，例如，可以是消除类游戏应用。

在一个实施例中，终端可以按照预测通关率的大小在闯关应用中设置关卡。例如，设置关卡的级别和预测通关率的大小成反比，也即关卡的级别越高，设置的关卡的预测通关率越小，玩家的通关难度越大。

在一个实施例中，关卡为消除类游戏的关卡，服务器对消除类游戏关卡中的游戏元素进行抽象分类，例如，分为C个类别，包括普通三消元素、特殊触发元素等，并用1-C的数值表示每个游戏元素的类别。服务器用M×N的矩阵表示消除类游戏关卡中的游戏元素，矩阵中的每个矩阵元素表示关卡中该位置的游戏元素的类别。例如，矩阵中第i行、第j列的矩阵元素a_ij表示关卡中第i行、第j列游戏元素的类别。关卡特征图是根据M×N的矩阵生成的抽象图，关卡特征图中像素的像素值与矩阵中的元素值相对应。

在一个实施例中，如图3所示，关卡生成模型是对生成器和判别器进行训练所得，服务器对生成器和判别器进行训练包括如下步骤：

S302，服务器获取关卡风格参数样本。

S304，服务器通过生成器生成与关卡风格参数样本对应的关卡特征图。

S306，服务器将关卡特征图、真实关卡数据以及关卡风格参数样本输入判别器进行损失计算，得到损失值。

S308，服务器根据损失值分别对生成器和判别器中的参数进行优化。

S310，服务器基于参数优化后的生成器和判别器组成关卡生成模型。

其中，生成器是关卡生成模型中用于生成关卡特征图的模块。判别器是关卡生成模型中用于判别生成器所生成的关卡特征图以及真实关卡数据的真假的模块。其中，关卡风格参数样本是由关卡风格参数组成的样本。其中，真实关卡数据是已经实际应用的关卡的数据，可以是真实关卡的关卡特征图。

其中，损失计算是根据损失函数计算损失值，损失函数可以是交叉熵损失函数。在一个实施例中，服务器将关卡风格参数样本分别拼接在关卡特征图和真实关卡数据之后。损失计算的过程包括根据损失函数计算拼接了关卡风格参数样本的关卡特征图与0的损失值、计算拼接了关卡风格参数样本的关卡特征图与1的损失值、计算拼接了关卡风格参数样本的真实关卡数据与1的损失值。

在一个实施例中，如图4所示，生成器对随机噪声和风格向量样本进行一系列反卷积，生成关卡特征图。然后服务器将关卡特征图、真实关卡数据和风格向量样本输入判别器。判别器分别将关卡特征图、真实关卡数据与风格向量样本进行拼接，经过反卷积和压平后进行损失计算。在损失计算时，服务器通过交叉熵损失函数计算了三个损失值，分别是拼接了关卡风格向量样本的关卡特征图与0的损失值、拼接了关卡风格向量样本的关卡特征图与1的损失值、拼接了关卡风格向量样本的真实关卡数据与1的损失值。对于真实关卡数据，服务器可以将其转换为M×N的矩阵，矩阵中的每个矩阵元素的元素值表示真实关卡中该位置的关卡元素的类别。

在一个实施例中，闯关模型是对神经网络模型进行训练所得，对神经网络模型进行训练包括：根据神经网络模型预测的交互指令对关卡样本进行闯关，获得闯关所产生的交互数据；将交互数据作为训练样本输入至神经网络模型进行训练；当训练后的神经网络模型不满足评估条件时，则根据训练后的神经网络模型预测的交互指令对关卡样本进行闯关，获得新的交互数据，并根据新的交互数据继续对训练后的神经网络模型进行训练，直至得到满足评估条件的神经网络模型；将满足评估条件的神经网络模型作为闯关模型。

其中，神经网络模型是是由大量的、简单的处理单元(神经元)广泛地互相连接而形成的复杂网络系统。其中，交互指令是与关卡进行交互的指令。例如，对于消除类游戏关卡，交互指令可以是左右滑动关卡元素的指令。其中，交互数据是闯关过程中产生的、对神经网络模型进行训练的样本，包括关卡的每个状态的特征、神经网络模型预测的交互行为、关卡反馈的奖励值(Reward)、奖励期望值(Value)、通过GAE(Generalized AdvantageEstimation，泛化优势估计)算法调整后的奖励值等。

其中，评估条件是判断训练后的神经网络模型是否能够完成既定的闯关任务的条件。例如，评估条件是在根据神经网络模型预测的交互指令对关卡样本进行闯关时，闯关成功率达到80％；例如，评估条件是在根据神经网络模型预测的交互指令对关卡样本进行闯关时，闯关剩余步数达到10步。

在一个实施例中，闯关模型的训练架构包括如图5中所示的角色模块、存储模块和学习模块，以及评估模块。角色模块用于选择关卡样本，并对关卡样本进行闯关，以产生训练样本。存储模块通过Redis(Remote Dictionary Server，远程字典服务器)存储训练样本。学习模块通过训练样本对神经网络模型进行训练。评估模型对训练后的神经网络模型进行评估。

角色模块从关卡列表中选择关卡样本。当关卡样本为棋类游戏关卡样本时，获取关卡样本的棋盘状态，从棋盘状态中提取特征，并将特征输入神经网络模型进行预测，得到交互行为。然后服务器根据交互行为生成交互指令，通过交互指令进行闯关，使关卡样本的棋盘状态进行更新。如图6所示，交互指令可以为上下移动棋盘中元素的指令，服务器根据该交互指令使棋盘中元素上下移动，棋盘的状态发生改变。

图5中所示的学习模块消费角色模块产生的训练样本，并通过PPO(ProximalPolicy Optimization，近端策略优化)算法对神经网络模型进行强化训练。PPO算法通过关卡的交互环境产生的奖励信号(Reward)对神经网络模型的价值函数以及策略进行迭代优化。学习模块通过均方误差损失函数计算神经网络模型预测输出的期望价值(value)与通过GAE算法调整后的奖励值(Reward)的L2损失值，通过L2损失值优化价值函数。并且，学习模块通过代理损失函数和熵损失函数对神经网络模型输出的策略进行优化。学习模型分别对价值函数和策略进行优化后，将优化得到的神经网络模型存入历史模型库。角色模块每隔一段时间即从历史模型库中拉取神经网络模型，并通过神经网络模型进行闯关得到新的交互数据。

在一个实施例中，角色模块运行大量的镜像实例同时产生训练样本，学习模块也会产生多个副本同时异步的进行模型训练，以加快模型的训练速度以及收敛速度。评估模块对学习模块训练得到的神经网络模型进行10000局的闯关评估，统计得到平均通关率，根据平均通关率判断神经网络模型是否满足评估条件。

在一个实施例中，根据所述神经网络模型预测的交互指令对关卡样本进行闯关，获得闯关所产生的交互数据，包括：将关卡样本的当前状态输入神经网络模型进行预测，得到交互行为以及奖励值；根据交互行为生成的交互指令对关卡样本进行闯关，并根据闯关的结果对关卡样本的当前状态进行更新，返回执行将关卡样本的当前状态输入神经网络模型进行预测的步骤，直至闯关关卡样本的过程中达到闯关结束条件；基于每个当前状态对应的关卡特征、交互行为和奖励值，生成与每个当前状态对应的交互数据；关卡特征是从每个当前状态中提取的特征。

其中，交互行为是对关卡进行操作的行为。例如，在关卡为消除类游戏关卡时，交互行为可以是左右移动关卡元素，上下移动关卡元素等。奖励值是用于表示交互行为对实现关卡所设置的任务目标的贡献的数值，包括短期奖励值和长期奖励值。其中，关卡样本的当前状态是关卡样本在当前时刻表现出的形态。例如，在关卡为消除类游戏关卡时，关卡样本的当前状态可以是关卡样本在当前时刻棋盘上各元素的分布状态以及游戏进行状态。棋盘上各元素的分布状态包括棋盘上的元素数量、元素的类别、元素的位置。游戏进行状态包括游戏进行时间、已消耗步数、剩余步数等。其中，闯关结束条件是判断闯关是否结束的条件。例如，闯关结束条件可以是闯关所用时间达到预设时间。闯关结束条件还可以是闯关所消灭目标数达到预设目标数。

在一个实施例中，服务器在获取奖励值之后，针对消除类游戏关卡对环境反馈的奖励值(Reward)进行调整，然后将调整后的奖励值作为训练样本对神经网络模型进行训练。服务器可以通过公式(1)对环境反馈的奖励值进行调整。

其中，V_t表示调整后的奖励值；R表示环境反馈的奖励值，在服务器通过神经网络模型闯关成功时为1，未闯关成功时为-1；S_l表示闯关成功时的剩余步数；S_a表示当前关卡设置的总步数；T_l，1表示未闯关成功时，关卡中的第一个目标的剩余数量，T_a，1表示第一个目标的总数量；T_l，2表示未闯关成功时第二个目标的剩余数量；T_a，2表示未闯关成功时第二个目标的总数量。

在一个实施例中，服务器还可以通过公式(2)对环境反馈的奖励值进行调整。

公式(1)和公式(2)中在未闯关成功的条件下，计算得到的V_t相同，R＝-1表示给予神经网络模型基础的-1的惩罚。如果神经网络模型能够消除的目标数越多，则V_t越大，否则反之。公式(1)和公式(2)在闯关成功时(R＝1)都在剩余步数越多的情况下V_t越大。区别在于公式(1)将额外的奖励归一化在0-1的范围内，公式(2)则未做归一化。公式(2)未归一化的原因是考虑每一个关卡的总步数不一样，以相同的尺度归一化不一定能够正确地反应策略的收益。服务器根据基于公式(1)和公式(2)调整后的奖励值所训练出来的神经网络模型在策略选择上会有一些区别。服务器根据基于公式(1)调整后的奖励值所训练出来的神经网络模型对剩余步数的感知不够强，做出的决策通常是以通关为主。而服务器根据基于公式(2)调整后的奖励值所训练出来的神经网络模型会平衡闯关结果和所用步数，在考虑怎样闯关成功的同时更能够以更少的步数闯关成功。

服务器将通关时的剩余步数以及未通关时的剩余目标数作为考虑的因素对奖励值进行调整，使根据调整后的奖励值训练得到的神经网络模型具有更高的精度，更符合人的思维逻辑。

在一个实施例中，服务器根据神经网络模型预测的交互指令对关卡样本进行闯关之前，还包括：根据选择概率计算式计算关卡列表中每个关卡对应的选择概率；选择概率计算式为：

其中，i为大于或者等于1的正整数，P(i)为关卡列表中第i个关卡对应的选择概率，W(i)为关卡列表中第i个关卡对应的评估通关率；从关卡列表中，根据选择概率选取目标关卡作为关卡样本。

其中，选择概率是关卡列表中关卡被选择作为关卡样本的概率。其中，W(i)是评估模块计算得到，并反馈至角色模块的。选择概率计算式表示的选择概率和评估通关率有关，当评估通关率越小时，选择概率相对越大，也即通过选择概率计算式使服务器选择较难的关卡进行闯关，以训练闯关模型，减少对简单关卡进行闯关训练。

服务器使角色模块根据选择概率计算式选择较难的关卡进行闯关，由闯关较难关卡过程中产生的训练样本训练得到的闯关模型具有更强的闯关能力。

在一个实施例中，如图7所示，神经网络模型包括残差网络模块、第一全连接模块和第二全连接模块；将关卡样本的当前状态输入神经网络模型进行预测，得到交互行为以及奖励值，包括：从关卡样本的当前状态提取关卡特征；关卡特征包括类图像特征和向量特征通过残差网络模块对类图像特征进行处理，得到处理后类图像特征；以及，通过第一全连接模块对向量特征进行处理，得到处理后向量特征；将处理后类图像特征和处理后向量特征进行合并，得到合并特征；通过第二全连接模块对合并特征进行特征处理，根据特征处理的结果获得交互行为以及奖励值。

其中，残差网络模块是由残差神经网络组成的模块，用于对类图像特征进行处理。第一全连接模块是由多个全连接层组成的模块，用于对向量特征进行处理。第二全连接模块是由多个全连接层组成的模块，用于根据处理后的类图像特征和处理后的向量特征预测得到各交互行为对应的概率值，从而可以使服务器根据概率值选择交互行为。

其中，类图像特征是表示关卡中元素的分布、数量以及元素间关联的特征。例如，如图8所示，在关卡为棋类游戏关卡时，可以将类图像特征的维度为H×W×N，其中N表示类图像特征有N个通道，每个通道分别代表棋盘上的一种元素。H×W为棋盘大小，可以根据游戏设计的不同而变化，H可以为棋盘中元素的行数，W可以为棋盘中元素的列数。例如，用通道1表示元素A，该通道中在第1行第三列的数字“1”表示棋盘上在第1行第3列有元素A。

其中，向量特征是描述关卡所对应的不能直接反应在图像中的特征。例如，对于对战类关卡，向量特征可以是虚拟角色的剩余血量、子弹数等。例如，对于棋类关卡，向量特征可以表示剩余步数、剩余目标数、地图数量和目前状态的地图索引等。例如，如图9所示，向量特征用独热码来表示，用第一位表示剩余步数，最后一位表示剩余目标数。

第二全连接模块对合并特征进行特征处理，得到交互行为对应的标签的概率值。其中，每个交互行为对应一个标签，标签包括左右互换标签、右左互换标签、上下互换标签、下上互换标签、点击标签等，并可以用数字来表示。例如，如图6所示，160：((5,3)，(5,2))表示第160个标签，交互指令对应的交互行为是棋盘中5列3行的元素和5列2行的元素上下移动互换。

服务器将特征分为向量特征和类图像特征，通过类图像特征描述可以直观反映在图像中的特征，通过向量特征描述其他特征，神经网络通过对这些特征的理解提取出闯关的信息，并预测出交互行为对应的标签的概率值，从而对闯关的策略进行优化，训练出精度更高的闯关模型。

在一个实施例中，服务器获取关卡列表中关卡样本的标签和统计特征；根据标签和统计特征对预训练评估模型进行训练，得到评估模型。

其中，关卡样本的标签是对关卡样本的实际通关率进行统计得到的。统计特征是用闯关模型对关卡样本进行闯关，根据闯关的结果统计得到的特征，包括平均通关率、平均剩余步数、平均消除目标等。其中，预训练评估模型可以是CNN模型、XGBoost模型和LightGBM模型。

在一个实施例中，服务器分别训练一个CNN评估模型、一个XGBoost评估模型和一个LightGBM评估模型，然后将这三个评估模型的预测结果的进行加权平均和作为最终的预测通关率。

服务器通过标签和统计特征训练得到评估模型，然后通过评估模型即可得到预测通关率，而不需要通过人工评估预测通关率，减少了关卡设置过程中的工作量，提高了关卡设置的的效率。

在一个实施例中，如图10所示，AI模块中包括关卡生成模型、闯关模型以及评估模型。终端将风格参数发送至AI服务器，AI服务器调用AI模块中的关卡生成模型生成N个关卡，每个关卡用关卡文件进行记录。在生成关卡后，AI服务器通过闯关模型对生成的关卡进行闯关，得到闯关数据，然后将闯关数据输入评估模型进行评估，得到各关卡对应的预测通关率和评估指标。AI服务器通过调用在线部署模块将关卡文件、预测通关率以及评估指标发送至终端。

应该理解的是，虽然图2-3的流程图中的各个步骤按照箭头的指示依次显示，但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明，这些步骤的执行并没有严格的顺序限制，这些步骤可以以其它的顺序执行。而且，图2-3中的至少一部分步骤可以包括多个步骤或者多个阶段，这些步骤或者阶段并不必然是在同一时刻执行完成，而是可以在不同的时刻执行，这些步骤或者阶段的执行顺序也不必然是依次进行，而是可以与其它步骤或者其它步骤中的步骤或者阶段的至少一部分轮流或者交替地执行。

在一个实施例中，如图11所示，提供了一种关卡设置装置，包括：获取模块1102、生成模块1104、测试模块1106、评估预测模块1108和设置模块1110，其中：

获取模块1102，用于获取关卡风格参数；

生成模块1104，用于通过关卡生成模型生成与风格参数对应的多个关卡；

测试模块1106，用于通过闯关模型对关卡进行闯关测试，得到与关卡对应的闯关数据；

评估预测模块1108，用于将闯关数据输入评估模型进行预测，得到关卡对应的预测通关率；

设置模块1110，用于将关卡以及预测通关率发送至终端，以使终端根据预测通关率将关卡设置于闯关应用。

在一个实施例中，如图12所示，关卡生成模型是对生成器和判别器进行训练所得，装置还包括：

获取模块1102，还用于获取关卡风格参数样本；

生成模块1104，还用于通过生成器生成与关卡风格参数样本对应的关卡特征图；

计算模块1112，用于将关卡特征图、真实关卡数据以及关卡风格参数样本输入判别器进行损失计算，得到损失值；

优化模块1114，用于根据损失值分别对生成器和判别器中的参数进行优化；

组成模块1116，用于基于参数优化后的生成器和判别器组成关卡生成模型。

在一个实施例中，闯关模型是对神经网络模型进行训练所得，装置还包括：

闯关模块1118，用于根据神经网络模型预测的交互指令对关卡样本进行闯关，获得闯关所产生的交互数据；

训练模块1120，用于将交互数据作为训练样本输入至神经网络模型进行训练；

闯关模块1118，还用于当训练后的神经网络模型不满足评估条件时，则根据训练后的神经网络模型预测的交互指令对关卡样本进行闯关，获得新的交互数据，并根据新的交互数据继续对训练后的神经网络模型进行训练，直至得到满足评估条件的神经网络模型；

作为模块1122，用于将满足评估条件的神经网络模型作为闯关模型。

在一个实施例中，装置还包括：

计算模块1112，还用于根据选择概率计算式计算关卡列表中每个关卡对应的选择概率；选择概率计算式为：

其中，i为大于或者等于1的正整数，P(i)为关卡列表中第i个关卡对应的选择概率，W(i)为关卡列表中第i个关卡对应的评估通关率；

选取模块1124，用于从关卡列表中，根据选择概率选取目标关卡作为关卡样本。

在一个实施例中，闯关模块1118，还用于：

将关卡样本的当前状态输入神经网络模型进行预测，得到交互行为以及奖励值；

根据交互行为生成的交互指令对关卡样本进行闯关，并根据闯关的结果对关卡样本的当前状态进行更新，返回执行将关卡样本的当前状态输入神经网络模型进行预测的步骤，直至闯关关卡样本的过程中达到闯关结束条件；

基于每个当前状态对应的关卡特征、交互行为和奖励值，生成与每个当前状态对应的交互数据；关卡特征是从每个当前状态中提取的特征。

在一个实施例中，神经网络模型包括残差网络模块、第一全连接模块和第二全连接模块；闯关模块1118，还用于：

从关卡样本的当前状态提取关卡特征；关卡特征包括类图像特征和向量特征；

通过残差网络模块对类图像特征进行处理，得到处理后类图像特征；以及，通过第一全连接模块对向量特征进行处理，得到处理后向量特征；

将处理后类图像特征和处理后向量特征进行合并，得到合并特征；

通过第二全连接模块对合并特征进行特征处理，根据特征处理的结果获得交互行为以及奖励值。

在一个实施例中，装置还包括：

获取模块1102，还用于获取关卡列表中关卡样本的标签和统计特征；

训练模块1120，还用于根据标签和统计特征对预训练评估模型进行训练，得到评估模型。

关于关卡设置装置的具体限定可以参见上文中对于关卡设置方法的限定，在此不再赘述。上述关卡设置装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中，也可以以软件形式存储于计算机设备中的存储器中，以便于处理器调用执行以上各个模块对应的操作。

在一个实施例中，提供了一种计算机设备，该计算机设备可以是服务器，其内部结构图可以如图13所示。该计算机设备包括通过系统总线连接的处理器、存储器和网络接口。其中，该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统、计算机程序和数据库。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的数据库用于存储关卡设置数据。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种关卡设置方法。

本领域技术人员可以理解，图13中示出的结构，仅仅是与本申请方案相关的部分结构的框图，并不构成对本申请方案所应用于其上的计算机设备的限定，具体的计算机设备可以包括比图中所示更多或更少的部件，或者组合某些部件，或者具有不同的部件布置。

在一个实施例中，提供了一种计算机设备，包括存储器和处理器，存储器中存储有计算机程序，该处理器执行计算机程序时实现以下步骤：获取关卡风格参数；通过关卡生成模型生成与风格参数对应的多个关卡；通过闯关模型对关卡进行闯关测试，得到与关卡对应的闯关数据；将闯关数据输入评估模型进行预测，得到关卡对应的预测通关率；将关卡以及预测通关率发送至终端，以使终端根据预测通关率将关卡设置于闯关应用。

在一个实施例中，处理器执行计算机程序时还实现以下步骤：获取关卡风格参数样本；通过生成器生成与关卡风格参数样本对应的关卡特征图；将关卡特征图、真实关卡数据以及关卡风格参数样本输入判别器进行损失计算，得到损失值；根据损失值分别对生成器和判别器中的参数进行优化；基于参数优化后的生成器和判别器组成关卡生成模型。

在一个实施例中，处理器执行计算机程序时还实现以下步骤：根据神经网络模型预测的交互指令对关卡样本进行闯关，获得闯关所产生的交互数据；将交互数据作为训练样本输入至神经网络模型进行训练；当训练后的神经网络模型不满足评估条件时，则根据训练后的神经网络模型预测的交互指令对关卡样本进行闯关，获得新的交互数据，并根据新的交互数据继续对训练后的神经网络模型进行训练，直至得到满足评估条件的神经网络模型；将满足评估条件的神经网络模型作为闯关模型。

在一个实施例中，处理器执行计算机程序时还实现以下步骤：根据选择概率计算式计算关卡列表中每个关卡对应的选择概率；选择概率计算式为：

在一个实施例中，处理器执行计算机程序时还实现以下步骤：将关卡样本的当前状态输入神经网络模型进行预测，得到交互行为以及奖励值；根据交互行为生成的交互指令对关卡样本进行闯关，并根据闯关的结果对关卡样本的当前状态进行更新，返回执行将关卡样本的当前状态输入神经网络模型进行预测的步骤，直至闯关关卡样本的过程中达到闯关结束条件；基于每个当前状态对应的关卡特征、交互行为和奖励值，生成与每个当前状态对应的交互数据；关卡特征是从每个当前状态中提取的特征。

在一个实施例中，神经网络模型包括残差网络模块、第一全连接模块和第二全连接模块；处理器执行计算机程序时还实现以下步骤：从关卡样本的当前状态提取关卡特征；关卡特征包括类图像特征和向量特征；通过残差网络模块对类图像特征进行处理，得到处理后类图像特征；以及，通过第一全连接模块对向量特征进行处理，得到处理后向量特征；将处理后类图像特征和处理后向量特征进行合并，得到合并特征；通过第二全连接模块对合并特征进行特征处理，根据特征处理的结果获得交互行为以及奖励值。

在一个实施例中，处理器执行计算机程序时还实现以下步骤：获取关卡列表中关卡样本的标签和统计特征；根据标签和统计特征对预训练评估模型进行训练，得到评估模型。

在一个实施例中，提供了一种计算机可读存储介质，其上存储有计算机程序，计算机程序被处理器执行时实现以下步骤：获取关卡风格参数；通过关卡生成模型生成与风格参数对应的多个关卡；通过闯关模型对关卡进行闯关测试，得到与关卡对应的闯关数据；将闯关数据输入评估模型进行预测，得到关卡对应的预测通关率；将关卡以及预测通关率发送至终端，以使终端根据预测通关率将关卡设置于闯关应用。

在一个实施例中，计算机程序被处理器执行时还实现以下步骤：获取关卡风格参数样本；通过生成器生成与关卡风格参数样本对应的关卡特征图；将关卡特征图、真实关卡数据以及关卡风格参数样本输入判别器进行损失计算，得到损失值；根据损失值分别对生成器和判别器中的参数进行优化；基于参数优化后的生成器和判别器组成关卡生成模型。

在一个实施例中，计算机程序被处理器执行时还实现以下步骤：根据神经网络模型预测的交互指令对关卡样本进行闯关，获得闯关所产生的交互数据；将交互数据作为训练样本输入至神经网络模型进行训练；当训练后的神经网络模型不满足评估条件时，则根据训练后的神经网络模型预测的交互指令对关卡样本进行闯关，获得新的交互数据，并根据新的交互数据继续对训练后的神经网络模型进行训练，直至得到满足评估条件的神经网络模型；将满足评估条件的神经网络模型作为闯关模型。

在一个实施例中，计算机程序被处理器执行时还实现以下步骤：根据选择概率计算式计算关卡列表中每个关卡对应的选择概率；选择概率计算式为：

在一个实施例中，计算机程序被处理器执行时还实现以下步骤：将关卡样本的当前状态输入神经网络模型进行预测，得到交互行为以及奖励值；根据交互行为生成的交互指令对关卡样本进行闯关，并根据闯关的结果对关卡样本的当前状态进行更新，返回执行将关卡样本的当前状态输入神经网络模型进行预测的步骤，直至闯关关卡样本的过程中达到闯关结束条件；基于每个当前状态对应的关卡特征、交互行为和奖励值，生成与每个当前状态对应的交互数据；关卡特征是从每个当前状态中提取的特征。

在一个实施例中，神经网络模型包括残差网络模块、第一全连接模块和第二全连接模块；计算机程序被处理器执行时还实现以下步骤：从关卡样本的当前状态提取关卡特征；关卡特征包括类图像特征和向量特征；通过残差网络模块对类图像特征进行处理，得到处理后类图像特征；以及，通过第一全连接模块对向量特征进行处理，得到处理后向量特征；将处理后类图像特征和处理后向量特征进行合并，得到合并特征；通过第二全连接模块对合并特征进行特征处理，根据特征处理的结果获得交互行为以及奖励值。

在一个实施例中，计算机程序被处理器执行时还实现以下步骤：获取关卡列表中关卡样本的标签和统计特征；根据标签和统计特征对预训练评估模型进行训练，得到评估模型。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的计算机程序可存储于一非易失性计算机可读取存储介质中，该计算机程序在执行时，可包括如上述各方法的实施例的流程。其中，本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用，均可包括非易失性和易失性存储器中的至少一种。非易失性存储器可包括只读存储器(Read-Only Memory，ROM)、磁带、软盘、闪存或光存储器等。易失性存储器可包括随机存取存储器(Random Access Memory，RAM)或外部高速缓冲存储器。作为说明而非局限，RAM可以是多种形式，比如静态随机存取存储器(Static Random Access Memory，SRAM)或动态随机存取存储器(Dynamic Random Access Memory，DRAM)等。

以上实施例的各技术特征可以进行任意的组合，为使描述简洁，未对上述实施例中的各个技术特征所有可能的组合都进行描述，然而，只要这些技术特征的组合不存在矛盾，都应当认为是本说明书记载的范围。

以上所述实施例仅表达了本申请的几种实施方式，其描述较为具体和详细，但并不能因此而理解为对发明专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本申请构思的前提下，还可以做出若干变形和改进，这些都属于本申请的保护范围。因此，本申请专利的保护范围应以所附权利要求为准。

Claims

1.一种关卡设置方法，其特征在于，所述方法包括：

获取关卡风格参数；

通过关卡生成模型生成与所述风格参数对应的多个关卡；

2.根据权利要求1所述的方法，其特征在于，所述关卡生成模型是对生成器和判别器进行训练所得，所述对生成器和判别器进行训练包括：

获取关卡风格参数样本；

3.根据权利要求1所述的方法，其特征在于，所述闯关模型是对神经网络模型进行训练所得，所述对神经网络模型进行训练包括：

将满足所述评估条件的神经网络模型作为所述闯关模型。

4.根据权利要求3所述的方法，其特征在于，所述根据所述神经网络模型预测的交互指令对关卡样本进行闯关之前，所述方法还包括：

5.根据权利要求3所述的方法，其特征在于，所述根据所述神经网络模型预测的交互指令对关卡样本进行闯关，获得闯关所产生的交互数据，包括：

6.根据权利要求5所述的方法，其特征在于，所述神经网络模型包括残差网络模块、第一全连接模块和第二全连接模块；所述将所述关卡样本的当前状态输入所述神经网络模型进行预测，得到交互行为以及奖励值，包括：

7.根据权利要求1所述的方法，其特征在于，所述方法还包括：

获取关卡列表中关卡样本的标签和统计特征；

8.一种关卡设置装置，其特征在于，所述装置包括：

获取模块，用于获取关卡风格参数；

9.一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，其特征在于，所述处理器执行所述计算机程序时实现权利要求1至7中任一项所述的方法的步骤。

10.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现权利要求1至7中任一项所述的方法的步骤。