CN108920221B

CN108920221B - 游戏难度调整的方法及装置、电子设备、存储介质

Info

Publication number: CN108920221B
Application number: CN201810711995.0A
Authority: CN
Inventors: 陈赢峰; 林磊; 范长杰
Original assignee: Netease Hangzhou Network Co Ltd
Current assignee: Netease Hangzhou Network Co Ltd
Priority date: 2018-06-29
Filing date: 2018-06-29
Publication date: 2023-01-10
Anticipated expiration: 2038-06-29
Also published as: CN108920221A

Abstract

本申请提供了游戏难度调整的方法及装置、电子设备、存储介质，所述方法包括：当检测到玩家角色处于目标游戏场景中时，确定所述目标游戏场景对应的游戏难度，并获取当前状态信息；将所述当前状态信息输入预置的目标网络模型，以生成与所述游戏难度适配的目标战斗策略；控制非玩家角色执行所述目标战斗策略。通过本申请，实现了对游戏难度的自动调整，提升了游戏难度调整的效率，保证了游戏难度调整的精确性。

Description

游戏难度调整的方法及装置、电子设备、存储介质

技术领域

本申请涉及游戏领域，特别是涉及游戏难度调整的方法及装置、电子设备、存储介质。

背景技术

目前，网络游戏中通常设置有不同的游戏难度的场景，如在新手阶段可以设置较低游戏难度的场景，而在成长阶段可以设置游戏难度与玩家水平相当或略高于玩家水平的场景，以使玩家获得不同的游戏体验。

在现有技术中，通过预先针对非玩家角色(Non-player character，NPC)定义大量的规则，然后采用规则来选择游戏的战斗策略，以满足不同的游戏难度，但这种方式依赖游戏开发人员的经验，且调节不够精准、效率较低。

发明内容

鉴于上述问题，提出了本申请以便提供克服上述问题或者至少部分地解决上述问题的游戏难度调整的方法及装置、电子设备、存储介质，包括：

游戏难度调整的方法，所述方法包括：

当检测到玩家角色处于目标游戏场景中时，确定所述目标游戏场景对应的游戏难度，并获取当前状态信息；

将所述当前状态信息输入预置的目标网络模型，以生成与所述游戏难度适配的目标战斗策略；

控制非玩家角色执行所述目标战斗策略。

可选地，所述将所述当前状态信息输入预置的目标网络模型，以生成与所述游戏难度适配的目标战斗策略的步骤包括：

确定所述游戏难度对应的期望总收益；

以所述期望总收益为目标，采用预置的目标网络模型对所述当前状态信息进行模型处理，得到目标战斗策略。

可选地，在所述确定所述游戏难度对应的期望总收益的步骤之前，还包括：

建立最优网络模型；

确定最优网络模型对应的最优总收益；

以所述最优总收益为基准，建立多个期望总收益与游戏难度的对应关系；其中，所述最优总收益对应最高的游戏难度。

可选地，所述以所述期望总收益为目标，采用预置的目标网络模型对所述当前状态信息进行模型处理，得到目标战斗策略的步骤包括：

确定当前总收益；

采用预置的目标网络模型，确定所述当前状态信息对应的一个或多个战斗策略，以及每个战斗策略对应的预测子收益；

基于所述当前总收益、所述预测子收益及所述期望总收益，从所述一个或多个战斗策略中选取目标战斗策略。

可选地，所述基于所述当前总收益、所述预测子收益及所述期望总收益，从所述一个或多个战斗策略中选取目标战斗策略的步骤包括：

分别计算所述一个或多个战斗策略对应的预测子收益与所述当前总收益之和，得到每个战斗策略对应的预测总收益；

选取所述预测总收益与所述期望总收益最接近的战斗策略，作为目标战斗策略。

从预置的多个候选网络模型中，选择与所述期望总收益对应的所述候选网络模型作为所述预置的目标网络模型；其中，每个候选网络模型具有对应的总收益；

采用所述预置的目标网络模型，确定所述当前状态信息对应的一个或多个战斗策略，以及每个战斗策略对应的选取概率；

按照所述选取概率，从所述一个或多个战斗策略中选取目标战斗策略。

可选地，当所述预置的目标网络模型为策略网络模型时，在所述确定最优网络模型对应的最优总收益的步骤之后，还包括：

确定多个总收益；

分别以所述多个总收益为目标，对所述最优网络模型进行训练，得到每个总收益对应的候选网络模型。

可选地，当所述预置的目标网络模型为策略网络模型时，所述方法还包括：

确定多个总收益；

分别以所述多个总收益为目标，得到每个总收益对应的候选网络模型。

可选地，当所述预置的目标网络模型为价值网络模型时，所述最优网络模型与所述预置的目标网络模型为同一模型。

游戏难度调整的装置，所述装置包括：

信息确定模块，用于当检测到玩家角色处于目标游戏场景中时，确定所述目标游戏场景对应的游戏难度，并获取当前状态信息；

目标战斗策略生成模块，用于将所述当前状态信息输入预置的目标网络模型，以生成与所述游戏难度适配的目标战斗策略；

控制执行模块，用于控制非玩家角色执行所述目标战斗策略。

电子设备，包括处理器、存储器及存储在所述存储器上并能够在所述处理器上运行的计算机程序，所述计算机程序被所述处理器执行时实现如上所述的游戏难度调整的方法的步骤。

计算机可读存储介质，所述计算机可读存储介质上存储计算机程序，所述计算机程序被处理器执行时实现如上所述的游戏难度调整的方法的步骤。

本申请具有以下优点：

在本申请中，通过在检测到玩家角色处于目标游戏场景中时，确定目标游戏场景对应的游戏难度，并获取当前状态信息，将当前状态信息输入预置的目标网络模型，以生成与游戏难度适配的目标战斗策略，然后控制非玩家角色执行目标战斗策略，实现了对游戏难度的自动调整，提升了游戏难度调整的效率，保证了游戏难度调整的精确性。

附图说明

为了更清楚地说明本申请的技术方案，下面将对本申请的描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1是本申请一实施例提供的游戏难度调整的方法的步骤流程图；

图2是本申请另一实施例提供的游戏难度调整的方法的步骤流程图；

图3是本申请另一实施例提供的游戏难度调整的方法的步骤流程图；

图4是本申请一实施例提供的游戏难度调整的装置的结构框图；

图5是本申请一实施例提供的电子设备的示意图；

图6是本申请一实施例提供的计算机可读存储介质的示意图。

具体实施方式

为使本申请的上述目的、特征和优点能够更加明显易懂，下面结合附图和具体实施方式对本申请作进一步详细的说明。显然，所描述的实施例是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

参照图1，示出了本申请一实施例提供的游戏难度调整的方法的步骤流程图，具体可以包括如下步骤：

步骤101，当检测到玩家角色处于目标游戏场景中时，确定目标游戏场景对应的游戏难度，并获取当前状态信息；

其中，当前状态信息可以为环境状态信息，其包括游戏场景的状态信息、玩家角色的状态信息，以及非玩家角色的状态信息。

作为一种示例，游戏场景的状态信息可以包括游戏比分、游戏剩余时长，玩家角色的状态信息可以包括玩家角色的位置、技能状态、剩余生命值，非玩家角色的状态信息可以包括非玩家角色的位置、技能属性、剩余生命值。

在实际应用中，网络游戏可以具有多个游戏场景，每个游戏场景可以具有对应的游戏难度，当检测到玩家角色处于目标游戏场景中时，可以确定预先针对目标游戏场景设置的游戏难度，并可以获取当前状态信息。

步骤102，将当前状态信息输入预置的目标网络模型，以生成与游戏难度适配的目标战斗策略；

其中，战斗策略可以由一个或多个动作组成。

目标网络模型为神经网络模型，该神经网络模型可以包括价值网络(ValueNetwork)模型、策略网络(PolicyNetwork)模型。

在获得当前状态信息后，可以将当前状态信息输入预置的目标网络模型，目标网络模型可以输出目标战斗策略，目标战斗策略可以为与游戏难度相适配的战斗策略，即执行目标战斗策略获得该游戏难度的可能性最大。

在本申请一实施例中，步骤102可以包括如下子步骤：

子步骤11，确定游戏难度对应的期望总收益；

在实际应用中，目标网络模型可以具有对应的收益函数，收益函数可以用于计算在执行网络模型生成的目标战斗策略后获得的子收益，游戏过程中执行的所有目标战斗策略获得的子收益之和，即为总收益。

应用于本申请中，可以预先为多个游戏难度设置对应的总收益，在确定目标游戏场景对应的游戏难度后，可以将对应的总收益作为期望总收益。

在本申请一实施例中，在子步骤11之前还可以包括如下步骤：

建立最优网络模型；确定最优网络模型对应的最优总收益；以最优总收益为基准，建立多个期望总收益与游戏难度的对应关系。

其中，最优总收益对应最高的游戏难度。

在具体实现中，可以建立一个游戏训练场景，在游戏训练场景中设置采用规则或人为控制的角色(BotA)，并设置网络模型控制的角色(BotB)。

在BotA与BotB不断地进行对抗过程中，获取样本数据，然后可以结合强化学习和神经网络对样本数据进行训练，即可得到最优网络模型。

例如，训练样本可以包括四元组<S，A，S’，R>，即BotB当前状态S、BotB在状态S下采用的策略A、BotB执行策略A后的下一状态S’，BotB执行策略A后的总收益R。

在一实施方式中，当预置的目标网络模型为价值网络模型时，最优网络模型可以与预置的目标网络模型为同一模型，价值网络模型可以通过每次都选取价值最高的战斗策略，获得的总收益即为最优总收益。

在另一实施方式中，当目标网络模型为策略网络模型时，最优网络模型可以与目标网络模型为不同模型，当采用最优网络模型生成的目标战斗策略，获得的总收益即为最优总收益。

在获得最优总收益后，可以设置最优总收益对应最高的游戏难度，并以最优总收益为基准，建立多个期望总收益与游戏难度的对应关系。

例如，最优总收益为10000，最优总收益10000对应最高的游戏难度100％，则当游戏难度为40％时，可以对应总收益为10000*40％＝4000。

在本申请一实施例中，由于同一的策略网络模型获得的总收益相近，为满足不同的总收益，当预置的目标网络模型为策略网络模型时，还可以在确定最优网络模型对应的最优总收益的步骤之后包括如下步骤：

确定多个总收益；分别以多个总收益为目标，对最优网络模型进行训练，得到每个总收益对应的候选网络模型。

在具体实现中，可以选定多个总收益，然后对最优网络模型进行训练，调整最优网络模型的模型参数，得到每个总收益对应的候选网络模型。

在本申请一实施例中，当预置的目标网络模型为策略网络模型时，还可以包括如下步骤：

确定多个总收益；分别以所述多个总收益为目标，得到每个总收益对应的候选网络模型。

在具体实现中，开发人员可以无需依赖最优网络模型，直接设定多个总收益，然后分别以每个总收益为目标进行模型训练，得到每个总收益对应的候选网络模型。

子步骤12，以期望总收益为目标，采用预置的目标网络模型对当前状态信息进行模型处理，得到目标战斗策略。

在确定期望总收益后，可以采用预置的目标网络模型，生成目标战斗策略，目标战斗策略为预测可以获得期望总收益的战斗策略。

步骤103，控制非玩家角色执行目标战斗策略。

在获得目标战斗策略后，可以控制目标游戏场景中的非玩家角色执行目标战斗策略，以调整为目标游戏场景对应的游戏难度。

参照图2，示出了本申请另一实施例提供的游戏难度调整的方法的步骤流程图，具体可以包括如下步骤：

步骤201，当检测到玩家角色处于目标游戏场景中时，确定目标游戏场景对应的游戏难度，并获取当前状态信息；

步骤202，确定游戏难度对应的期望总收益；

在确定游戏难度后，可以根据预先建立的多个期望总收益与游戏难度的对应关系，确定该游戏难度对应的期望总收益。

步骤203，确定当前总收益；

其中，初始化的当前总收益为空。

在每次执行目标战斗策略后，可以获得对应的子收益，将在当前时刻之前，所有已执行的目标战斗策略对应的子收益进行累加，得到当前总收益。

步骤204，采用预置的目标网络模型，确定当前状态信息对应的一个或多个战斗策略，以及每个战斗策略对应的预测子收益；

当目标网络模型为价值网络模型时，可以采用预先建立的目标网络模型，生成当前状态信息对应的一个或多个战斗策略，并可以预测每个战斗策略执行后可能获得的子收益，即预测子收益。

步骤205，基于当前总收益、预测子收益及期望总收益，从一个或多个战斗策略中选取目标战斗策略；

在确定各个收益后，可以根据各个战斗策略的收益预测情况，从中选取目标战斗策略，执行目标战斗策略获得期望总收益的可能性最大。

在本申请一实施例中，步骤205可以包括如下子步骤：

子步骤21，分别计算一个或多个战斗策略对应的预测子收益与当前总收益之和，得到每个战斗策略对应的预测总收益；

针对每个战斗策略，可以计算对应的预测子收益与当前总收益之和，得到该战斗策略对应的预测总收益，即该战斗策略执行后可能获得的总收益。

子步骤22，选取预测总收益与期望总收益最接近的战斗策略，作为目标战斗策略。

在获得预测总收益后，可以从一个或多个战斗策略中，选取预测总收益与期望总收益最接近的战斗策略，作为目标战斗策略。

步骤206，控制非玩家角色执行目标战斗策略。

在获得目标战斗策略后，可以控制目标游戏场景中的非玩家角色执行目标战斗策略，以将目标游戏场景调整为对应的游戏难度。

在本申请中，当采用价值网络时，可以生成一个或多个战斗策略，并计算每个战斗策略对应的预测总收益，然后选取预测总收益与游戏难度对应的期望总收益最接近的战斗策略，作为目标战斗策略，实现了采用价值网络，生成与游戏难度适配战斗策略，提升了游戏难度调整的精确性。

参照图3，示出了本申请另一实施例提供的游戏难度调整的方法的步骤流程图，具体可以包括如下步骤：

步骤301，当检测到玩家角色处于目标游戏场景中时，确定目标游戏场景对应的游戏难度，并获取当前状态信息；

步骤302，确定游戏难度对应的期望总收益；

步骤303，从预置的多个候选网络模型中，选择与期望总收益对应的候选网络模型作为预置的目标网络模型；其中，每个候选网络模型具有对应的总收益；

当目标网络模型为策略网络模型时，可以从预先建立多个候选网络模型中，选择与期望总收益对应的网络模型，作为目标网络模型。

步骤304，采用预置的目标网络模型，确定当前状态信息对应的一个或多个战斗策略，以及每个战斗策略对应的选取概率；

在确定目标网络模型后，可以采用目标网络模型，生成当前状态信息对应的一个或多个战斗策略，并可以采用概率分布函数，确定每个战斗策略对应的选取概率。

步骤305，按照选取概率，从一个或多个战斗策略中选取目标战斗策略；

在确定选取概率后，可以按照选取概率，随机从一个或多个战斗策略中选取目标战斗策略。

例如，当前状态信息s为“篮下无人防守”，确定的战斗策略为“投篮1”和“突破上篮2”，采用概率分布函数确定P(1|s)＝0.3、P(2|s)＝0.7，即采用0.3的概率选择“投篮1”，采用0.7的概率选择“突破上篮2”。

步骤306，控制非玩家角色执行目标战斗策略。

在本申请中，当采用策略网络时，可以选取游戏难度对应的目标网络模型，并生成一个或多个战斗策略，确定每个战斗策略对应的选取概率，然后按照选取概率从中选取目标战斗策略，实现了采用策略网络，生成与游戏难度适配战斗策略，提升了游戏难度调整的精确性。

需要说明的是，对于方法实施例，为了简单描述，故将其都表述为一系列的动作组合，但是本领域技术人员应该知悉，本申请实施例并不受所描述的动作顺序的限制，因为依据本申请实施例，某些步骤可以采用其他顺序或者同时进行。其次，本领域技术人员也应该知悉，说明书中所描述的实施例均属于优选实施例，所涉及的动作并不一定是本申请实施例所必须的。

参照图4，示出了本申请一实施例提供的游戏难度调整的装置的步骤流程图，具体可以包括如下模块：

信息确定模块401，用于当检测到玩家角色处于目标游戏场景中时，确定目标游戏场景对应的游戏难度，并获取当前状态信息；

目标战斗策略生成模块402，用于将当前状态信息输入预置的目标网络模型，以生成与游戏难度适配的目标战斗策略；

控制执行模块403，用于控制非玩家角色执行目标战斗策略。

在本申请一实施例中，目标战斗策略生成模块402包括：

期望总收益确定子模块，用于确定游戏难度对应的期望总收益；

目标战斗策略得到子模块，用于以期望总收益为目标，采用预置的目标网络模型对当前状态信息进行模型处理，得到目标战斗策略。

在本申请一实施例中，还包括：

最优网络模型建立模块，用于建立最优网络模型；

最优总收益确定模块，用于确定最优网络模型对应的最优总收益；

对应关系建立模块，用于以最优总收益为基准，建立多个期望总收益与游戏难度的对应关系；其中，最优总收益对应最高的游戏难度。

在本申请一实施例中，目标战斗策略得到子模块包括：

当前总收益确定单元，用于确定当前总收益；

预测子收益确定单元，用于采用预置的目标网络模型，确定当前状态信息对应的一个或多个战斗策略，以及每个战斗策略对应的预测子收益；

第一目标战斗策略选取单元，用于基于当前总收益、预测子收益及期望总收益，从一个或多个战斗策略中选取目标战斗策略。

在本申请一实施例中，目标战斗策略选取单元包括：

预测总收益得到子单元，用于分别计算一个或多个战斗策略对应的预测子收益与当前总收益之和，得到每个战斗策略对应的预测总收益；

目标战斗策略作为子单元，用于选取预测总收益与期望总收益最接近的战斗策略，作为目标战斗策略。

在本申请一实施例中，目标战斗策略得到子模块包括：

目标网络模型选择单元，用于从预置的多个候选网络模型中，选择与期望总收益对应的候选网络模型作为预置的目标网络模型；其中，每个候选网络模型具有对应的总收益；

选取概率确定单元，用于采用预置的目标网络模型，确定当前状态信息对应的一个或多个战斗策略，以及每个战斗策略对应的选取概率；

第二目标战斗策略选取单元，用于按照选取概率，从一个或多个战斗策略中选取目标战斗策略。

在本申请一实施例中，当预置的目标网络模型为策略网络模型时，还包括：

第一总收益确定模块，用于确定多个总收益；

第一候选网络模型得到模块，用于分别以多个总收益为目标，对最优网络模型进行训练，得到每个总收益对应的候选网络模型。

第二总收益确定模块，用于确定多个总收益；

第二候选网络模型得到模块，用于分别以所述多个总收益为目标，得到每个总收益对应的候选网络模型。

在本申请一实施例中，当预置的目标网络模型为价值网络模型时，最优网络模型与预置的目标网络模型为同一模型。

对于装置实施例而言，由于其与方法实施例基本相似，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。

如图5所示，本申请一实施例还提供了电子设备510，可以包括处理器511、存储器512及存储在存储器512上并能够在处理器511上运行的计算机程序，计算机程序被处理器执行时实现如下步骤：

控制非玩家角色执行所述目标战斗策略。

确定所述游戏难度对应的期望总收益；

建立最优网络模型；

确定最优网络模型对应的最优总收益；

确定当前总收益；

确定多个总收益；

如图6所示，本申请一实施例还提供了计算机可读存储介质610，计算机可读存储介质610上存储计算机程序，计算机程序被处理器执行时实现如下步骤：

控制非玩家角色执行所述目标战斗策略。

确定所述游戏难度对应的期望总收益；

建立最优网络模型；

确定最优网络模型对应的最优总收益；

确定当前总收益；

确定多个总收益；

本说明书中的各个实施例均采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似的部分互相参见即可。

本领域内的技术人员应明白，本申请实施例的实施例可提供为方法、装置、或计算机程序产品。因此，本申请实施例可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本申请实施例可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本申请实施例是参照根据本申请实施例的方法、终端设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理终端设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理终端设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理终端设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理终端设备上，使得在计算机或其他可编程终端设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程终端设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

尽管已描述了本申请实施例的优选实施例，但本领域内的技术人员一旦得知了基本创造性概念，则可对这些实施例做出另外的变更和修改。所以，所附权利要求意欲解释为包括优选实施例以及落入本申请实施例范围的所有变更和修改。

最后，还需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者终端设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者终端设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者终端设备中还存在另外的相同要素。

以上对本申请所提供的游戏难度调整的方法及装置、电子设备、存储介质，进行了详细介绍，本文中应用了具体个例对本申请的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本申请的方法及其核心思想；同时，对于本领域的一般技术人员，依据本申请的思想，在具体实施方式及应用范围上均会有改变之处，综上所述，本说明书内容不应理解为对本申请的限制。

Claims

1.游戏难度调整的方法，其特征在于，所述游戏具有多个游戏场景，每个游戏场景具有对应的游戏难度，所述方法包括：

将所述当前状态信息输入预置的目标网络模型，以生成与所述游戏难度适配的目标战斗策略，所述目标战斗策略为预测能够获得所述游戏难度对应的期望总收益的战斗策略；

控制非玩家角色执行所述目标战斗策略；

其中，还包括：

建立最优网络模型；

确定最优网络模型对应的最优总收益；

以所述最优总收益为基准，建立多个期望总收益与游戏难度的对应关系；其中，所述最优总收益对应最高的游戏难度；

其中，所述目标网络模型与所述最优网络模型为同一模型；或者，所述目标网络模型为从多个候选网络模型中选择的与所述期望总收益对应的候选网络模型，所述多个候选网络模型包括对所述最优网络模型训练得到的。

2.根据权利要求1所述的方法，其特征在于，所述将所述当前状态信息输入预置的目标网络模型，以生成与所述游戏难度适配的目标战斗策略的步骤包括：

确定所述游戏难度对应的期望总收益；

3.根据权利要求2所述的方法，其特征在于，所述以所述期望总收益为目标，采用预置的目标网络模型对所述当前状态信息进行模型处理，得到目标战斗策略的步骤包括：

确定当前总收益；

4.根据权利要求3所述的方法，其特征在于，所述基于所述当前总收益、所述预测子收益及所述期望总收益，从所述一个或多个战斗策略中选取目标战斗策略的步骤包括：

5.根据权利要求2所述的方法，其特征在于，所述以所述期望总收益为目标，采用预置的目标网络模型对所述当前状态信息进行模型处理，得到目标战斗策略的步骤包括：

6.根据权利要求2所述的方法，其特征在于，当所述预置的目标网络模型为策略网络模型时，在所述确定最优网络模型对应的最优总收益的步骤之后，还包括：

确定多个总收益；

7.根据权利要求2所述的方法，其特征在于，当所述预置的目标网络模型为策略网络模型时，所述方法还包括：

确定多个总收益；

8.根据权利要求2所述的方法，其特征在于，当所述预置的目标网络模型为价值网络模型时，所述最优网络模型与所述预置的目标网络模型为同一模型。

9.游戏难度调整的装置，其特征在于，所述游戏具有多个游戏场景，每个游戏场景具有对应的游戏难度，所述装置包括：

目标战斗策略生成模块，用于将所述当前状态信息输入预置的目标网络模型，以生成与所述游戏难度适配的目标战斗策略，所述目标战斗策略为预测能够获得所述游戏难度对应的期望总收益的战斗策略；

控制执行模块，用于控制非玩家角色执行所述目标战斗策略；

其中，所述装置还包括：

最优网络模型建立模块，用于建立最优网络模型；

对应关系建立模块，用于以最优总收益为基准，建立多个期望总收益与游戏难度的对应关系；其中，最优总收益对应最高的游戏难度；

10.电子设备，其特征在于，包括处理器、存储器及存储在所述存储器上并能够在所述处理器上运行的计算机程序，所述计算机程序被所述处理器执行时实现如权利要求1至8中任一项所述的游戏难度调整的方法的步骤。

11.计算机可读存储介质，其特征在于，所述计算机可读存储介质上存储计算机程序，所述计算机程序被处理器执行时实现如权利要求1至8中任一项所述的游戏难度调整的方法的步骤。