CN117217327A

CN117217327A - 一种模型训练方法和相关装置

Info

Publication number: CN117217327A
Application number: CN202310188700.7A
Authority: CN
Inventors: 张鹏; 魏学峰; 严明; 肖央; 邹越; 李是希
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2023-02-17
Filing date: 2023-02-17
Publication date: 2023-12-12

Abstract

本申请实施例公开了一种模型训练方法和相关装置，一方面，使初始对象测试模型基于待测对象的对象状态和测试场景的场景状态，对操作参数所标识的对象操作在测试场景中对应的操作价值进行预测，另一方面，通过基于操作参数在测试场景中进行实际操作来确定真实的操作价值。从而，基于真实的操作价值和预测的操作价值之间的差异对初始对象测试模型进行训练，可以得到能够用于较为准确的分析对象操作操作价值的对象测试模型，进而可以结合模型输出的在达成测试结束条件这一维度的操作价值，在测试对象能力的过程中选择较为合理的对象操作进行测试，给对象能力测试提供了一个统一、客观且合理的评判标准，提高了对象能力测试的准确度和效率。

Description

一种模型训练方法和相关装置

技术领域

本申请涉及机器学习技术领域，特别是涉及一种模型训练方法和相关装置。

背景技术

游戏已经成为当下主流的娱乐方式之一，随着软件技术的不断发展，游戏软件越来越复杂、精致，给游戏玩家带来了丰富多彩的游戏体验。在大多数游戏中存在丰富的、可供游戏玩家操控的游戏对象，不同的游戏对象通常在游戏中具有不同的对象能力，对象能力是指游戏对象在游戏中所具有的能力，例如移动能力、攻击能力等。

不同游戏对象在游戏中的对象能力之间的平衡性是影响玩家游戏体验的关键因素之一，若不同游戏对象的对象能力差异过大，可能会导致游戏缺乏平衡，从而出现使用不同游戏对象的玩家的游戏体验良莠不齐的问题，因此需要对游戏对象的对象能力进行较为准确的评估。在相关技术中，对于游戏对象的对象能力的评估只能通过游戏开发人员或游戏玩家人工进行，基于在游戏中实际操控该游戏对象获取的游戏体验来确定对对象能力的评估结果。

然而，不同人员在针对相同游戏对象进行体验时所感受到的游戏体验可能有较大差距，因此给出的评估结果过于主观，难以体现出游戏对象的真实对象能力，且需要消耗大量的游戏游玩时间，评估效率较低。

发明内容

为了解决上述技术问题，本申请提供了一种模型训练方法，通过该方式训练得到的对象测试模型可以用于高效、准确的分析待测对象的对象能力。

本申请实施例公开了如下技术方案：

第一方面，本申请实施例公开了一种模型训练方法，所述方法包括：

获取测试场景对应的测试场景信息和第一待测对象对应的目标对象状态信息，所述测试场景信息包括所述测试场景对应的目标场景状态信息和测试结束条件；

通过初始对象测试模型，根据所述目标场景状态信息和所述目标对象状态信息确定目标待定操作参数对应的目标待定操作反馈参数，操作参数用于标识控制待测对象在所述测试场景中执行对象操作的方式，操作反馈参数用于标识通过执行对象操作在达成所述测试结束条件这一价值衡量维度产生的操作价值；

获取所述目标待定操作参数对应的目标实际操作反馈参数，所述目标实际操作反馈参数是通过在所述测试场景中，根据所述目标待定操作参数控制所述第一待测对象执行目标对象操作生成的达成度参数和消耗参数确定的，所述达成度参数用于标识通过执行所述目标对象操作在达成所述测试结束条件这一维度上增加的达成度，所述消耗参数用于标识执行所述目标对象操作在达成所述测试结束条件这一维度上所需的消耗；

根据所述目标实际操作反馈参数和所述目标待定操作反馈参数之间的差异，调节所述初始对象测试模型的模型参数，得到对象测试模型，所述对象测试模型用于预测通过对象操作产生的操作反馈参数。

第二方面，本申请实施例公开了一种模型训练装置，所述装置包括第一获取单元、第一确定单元、第二获取单元和调节单元：

所述第一获取单元，用于获取测试场景对应的测试场景信息和第一待测对象对应的目标对象状态信息，所述测试场景信息包括所述测试场景对应的目标场景状态信息和测试结束条件；

所述第一确定单元，用于通过初始对象测试模型，根据所述目标场景状态信息和所述目标对象状态信息确定目标待定操作参数对应的目标待定操作反馈参数，操作参数用于标识控制待测对象在所述测试场景中执行对象操作的方式，操作反馈参数用于标识通过执行对象操作在达成所述测试结束条件这一价值衡量维度产生的操作价值；

所述第二获取单元，用于获取所述目标待定操作参数对应的目标实际操作反馈参数，所述目标实际操作反馈参数是通过在所述测试场景中，根据所述目标待定操作参数控制所述第一待测对象执行目标对象操作生成的达成度参数和消耗参数确定的，所述达成度参数用于标识通过执行所述目标对象操作在达成所述测试结束条件这一维度上增加的达成度，所述消耗参数用于标识执行所述目标对象操作在达成所述测试结束条件这一维度上所需的消耗；

所述调节单元，用于根据所述目标实际操作反馈参数和所述目标待定操作反馈参数之间的差异，调节所述初始对象测试模型的模型参数，得到对象测试模型，所述对象测试模型用于预测通过对象操作产生的操作反馈参数。

在一种可能的实现方式中，所述目标场景状态信息和所述目标对象状态信息为连续N次对象操作中第i次对象操作对应的场景状态信息和对象状态信息，所述目标对象操作为所述第i次对象操作，所述目标待定操作参数用于标识控制所述第一待测对象在所述测试场景中执行所述第i次对象操作的方式，所述连续N次对象操作用于使所述第一待测对象达成1次所述测试结束条件，所述第一确定单元具体用于：

通过所述初始对象测试模型，根据所述目标场景状态信息和所述目标对象状态信息，确定第i次对象操作对应的预期反馈参数，所述第i次对象操作对应的预期反馈参数用于标识第i次操作到第N次操作分别对应的待定操作反馈参数之和；

根据所述目标待定操作参数，在所述测试场景中控制所述第一待测对象执行所述第i次对象操作；

将执行完毕所述第i次对象操作后，所述测试场景对应的场景状态信息和所述第一待测对象对应的对象状态信息确定为所述连续N次对象操作中，第i+1次对象操作对应的场景状态信息和对象状态信息；

通过所述初始对象测试模型，根据所述第i+1次对象操作对应的场景状态信息和对象状态信息，确定所述第i+1次对象操作对应的预期反馈参数；

将所述第i次对象操作对应的预期反馈参数和所述第i+1次对象操作对应的预期反馈参数之差确定为所述目标待定操作反馈参数。

在一种可能的实现方式中，所述目标待定操作参数是通过所述初始对象测试模型，根据所述目标场景状态信息和所述目标对象状态信息确定的，所述装置还包括第三获取单元和第二确定单元：

所述第三获取单元，用于获取对象操作集合，所述对象操作集合中包括多次对象操作，所述多次对象操作分别具有对应的场景状态信息、对象状态信息、待定操作参数以及预期反馈参数；

所述第二确定单元，用于将同时对应所述目标场景状态信息和所述目标对象状态信息的多个对象操作中，所对应预期反馈参数最大的对象操作对应的待定操作参数确定为样本操作参数；

所述调节单元具体用于：

根据所述目标实际操作反馈参数和所述目标待定操作反馈参数之间的差异，以及所述样本操作参数与所述目标待定操作参数之间的差异，调节所述初始对象测试模型的模型参数，得到对象测试模型，所述对象测试模型还用于：

根据待测场景状态信息和待测对象状态信息，确定对应所述待测对象状态信息的待测对象在对应所述待测场景状态信息的测试场景中对应的操作参数。

在一种可能的实现方式中，所述连续N次对象操作是通过以下方式确定的：

获取所述测试场景对应的初始场景状态信息和所述第一待测对象对应的初始对象状态信息，所述初始场景信息用于标识未控制所述第一待测对象执行任意对象操作时所述测试场景对应的场景状态，所述初始对象状态信息用于标识未控制所述第一待测对象执行任意对象操作时所述第一待测对象对应的对象状态；

将所述初始场景状态信息和所述初始对象状态信息确定为第1次对象操作对应的场景状态信息和对象状态信息，针对第j次对象操作，通过所述初始对象测试模型，根据所述第j次对象操作对应的场景状态信息和对象状态信息，确定所述第j次对象操作对应的待定操作参数；

根据所述第j次对象操作对应的待定操作参数，在所述第j次对象操作对应的场景状态信息所对应的测试场景中，控制对应所述第j次对象操作对应的对象状态信息的第一待测对象执行所述第j次对象操作；

响应于执行完毕所述第j次对象操作后，所述第一待测对象达成所述测试结束条件，将前j次对象操作确定为所述连续N次对象操作；

响应于执行完毕所述第i次对象操作后，所述第一待测对象未达成所述测试结束条件，将执行完毕所述第j次对象操作后，所述测试场景对应的场景状态信息和所述第一待测对象对应的对象状态信息确定为第j+1次对象操作对应的场景状态信息和对象状态信息。

在一种可能的实现方式中，所述装置还包括第四获取单元、第三确定单元和第四确定单元：

所述第四获取单元，用于获取第二待测对象对应的初始对象状态；

所述第三确定单元，用于通过所述对象测试模型，根据所述第二待测对象对应的初始对象状态信息和所述测试场景对应的初始场景状态信息，确定所述第二待测对象对应的连续M次对象操作分别对应的操作参数，所述连续M次对象操作用于使所述第二待测对象达成1次所述测试结束条件；

所述第四确定单元，用于将所述连续M次对象操作分别对应的操作参数对应的实际操作反馈参数之和确定为所述第二待测对象在所述测试场景中对应的对象能力参数，所述对象能力参数用于标识所述第二待测对象在所述测试场景中达成所述测试结束条件的能力。

在一种可能的实现方式中，所述测试场景为追击场景，所述测试结束条件为所述第一待测对象移动至所述测试场景中被追击对象对应的对象位置，且将所述被追击对象对应的生命值参数削减预设数值；

所述目标场景状态信息用于标识所述测试场景中包括的对象在所述测试场景中对应的位置分布、除所述第一待测对象外的对象对应的对象状态和所述测试场景对应的时间信息，所述目标对象状态信息用于标识所述第一待测对象对应的对象状态，对象状态包括对象属性状态和/或对象技能状态；

所述达成度参数包括距离缩减参数和生命值削减参数，所述消耗参数包括时间消耗参数，所述第二获取单元具体用于：

确定目标对象操作对应的距离缩减参数、生命值削减参数和时间消耗参数，所述目标对象操作为在所述测试场景中，根据所述目标待定操作参数控制所述第一待测对象执行的对象操作，所述距离缩减参数用于标识通过所述目标对象操作缩减的所述第一待测对象与所述被追击对象之间的距离，所述生命值缩减参数用于标识通过所述目标对象操作削减的所述被追击对象的生命值参数，所述时间消耗参数用于标识执行所述目标对象操作消耗的时间；

根据所述距离缩减参数、所述生命值削减参数和所述时间消耗参数，确定所述目标待定操作参数对应的目标实际操作反馈参数。

在一种可能的实现方式中，所述第二获取单元具体用于：

确定所述追击场景对应的距离反馈参数、生命值反馈参数，以及确定所述时间消耗参数对应的时间反馈参数，所述时间反馈参数与所述时间消耗参数所标识的消耗时间的时长成正比；

将所述距离缩减参数与所述距离反馈参数的乘积、所述生命值削减参数和所述生命值反馈参数的乘积之和，与所述时间反馈参数的差值确定为所述目标实际操作反馈参数。

在一种可能的实现方式中，所述目标场景状态信息包括用于标识所述测试场景中包括的对象在所述测试场景中对应的位置分布的位图信息、用于标识除所述第一待测对象外的对象对应的对象状态的第一状态向量和用于标识所述测试场景对应的时间信息的全局向量，所述目标对象状态信息包括用于标识所述第一待测对象对应的对象状态的第二状态向量；

所述位图信息中包括多个默认场景标识和对应所述测试场景中所包括对象的对象标识，所述默认场景标识和所述对象标识在所述位图信息中的排列方式对应于所述测试场景中所包括对象在所述测试场景中的位置；

所述第一确定单元具体用于：

对所述位图信息进行最大值池化处理；

将经过最大值池化处理后的所述位图信息对应的位图向量与所述第一状态向量和所述第二状态向量进行拼接，得到特征向量；

根据所述特征向量确定目标待定操作参数对应的目标待定操作反馈参数。

在一种可能的实现方式中，所述目标待定操作参数是通过如下方式确定的：

根据所述目标场景状态信息、所述目标对象状态信息和操作限制信息，确定所述第i次对象操作对应的所述目标待定操作参数，所述操作限制信息用于标识在所述测试场景中，所述第一待测对象对应的无效对象操作，所述无效对象操作是指所述第一待测对象在所述目标对象状态信息标识的对象状态下，在对应所述目标场景状态信息的所述测试场景中无法执行的对象操作，所述第i次对象操作中不包括所述无效对象操作。

在一种可能的实现方式中，所述第一待测对象具有对应的对象技能，所述目标待定操作参数用于标识所述第一待测对象释放所述对象技能的方式，所述操作限制信息是通过以下方式确定的：

根据所述目标对象状态信息和所述场景状态信息，确定所述第一待测对象在所述目标对象状态信息标识的对象状态下对应的可释放对象技能，以及可释放对象技能对应的技能释放参数范围，所述可释放对象技能是指所述第一待测对象在所述目标对象状态信息标识的对象状态下可释放的对象技能，技能释放参数用于标识对象技能的释放方式，基于技能释放参数范围所包括的技能释放参数释放的可释放对象技能用于命中所述测试场景中的目标对象；

将所述可释放技能和所述可释放技能对应的技能释放参数范围确定为所述操作限制信息。

在一种可能的实现方式中，所述目标待定操作参数包括多个操作种类分别对应的待定子操作参数，所述初始对象测试模型包括所述多个操作种类分别对应的初始操作子模型，以及用于确定预期反馈参数的初始反馈子模型，所述调节单元具体用于：

确定所述样本操作参数在所述多个操作种类分别对应的样本子操作参数；

将所述多个操作种类分别作为目标操作种类，针对所述目标操作种类，根据对应所述目标操作种类的待定子操作参数和样本子操作参数之间的差异，调节所述目标操作种类对应的初始操作子模型的模型参数，得到所述目标操作种类对应的操作子模型，所述操作子模型用于确定对应所述目标操作种类的对象操作的子操作参数；

以及，根据所述目标实际操作反馈参数和所述目标待定操作反馈参数之间的差异，调节所述初始反馈子模型对应的模型参数，得到反馈子模型，所述反馈子模型用于确定预期反馈参数。

第三方面，本申请实施例公开了一种计算机设备，所述计算机设备包括处理器以及存储器：

所述存储器用于存储程序代码，并将所述程序代码传输给所述处理器；

所述处理器用于根据所述程序代码中的指令执行第一方面中任意一项所述的模型训练方法。

第四方面，本申请实施例公开了一种计算机可读存储介质，所述计算机可读存储介质用于存储计算机程序，所述计算机程序用于执行第一方面中任意一项所述的模型训练方法。

第五方面，本申请实施例公开了一种包括指令的计算机程序产品，当其在计算机上运行时，使得所述计算机执行第一方面中任意一项所述的模型训练方法。

由上述技术方案可以看出，在进行模型训练时，会先获取测试场景对应的测试场景信息和第一待测对象对应的目标对象状态信息，通过该测试场景信息和目标对象状态信息能够分别标识出此次执行对象操作时，测试场景对应的场景状态、第一待测对象对应的对象状态和测试场景对应的测试结束条件，初始对象测试模型用于结合对象状态和场景状态，分析操作参数对应的操作反馈参数，该操作反馈参数用于标识通过执行对象操作在达成所述测试结束条件这一价值衡量维度产生的操作价值。初始对象测试模型可以基于目标场景状态信息和目标对象状态信息，确定目标待定操作参数对应的目标待定操作反馈参数，该目标待定操作反馈参数即为该初始对象测试模型基于该目标场景状态信息标识的场景状态和目标对象状态信息标识的对象状态，预测出的目标待定操作参数所标识的对象操作在测试场景中产生的操作价值。为了使模型进行更加准确的操作价值预测，会通过在测试场景中根据该目标待定操作参数进行对象操作，获取该目标待定操作参数对应的目标实际操作反馈参数，该目标实际操作反馈参数能够体现出该对象操作在测试场景中实际产生的操作价值。从而，通过根据该目标实际操作反馈参数和目标待定操作反馈参数之间的差异调节初始对象测试模型的模型参数，可以使该初始对象测试模型学习到如何基于场景状态和对象状态，对对象操作的产生的操作价值进行准确预测，从而相关测试人员可以基于对象测试模型预测的操作价值，分析各个待测对象在达成测试结束条件时，执行的对象操作分别对应的操作价值，进而能够分析出各个待测对象在达成测试结束条件这一能力评判维度所对应的对象能力，使对于对象能力的分析具有准确、客观、统一的评判标准，提高对于对象能力分析的准确度和效率。

附图说明

为了更清楚地说明本申请实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本申请实施例提供的一种实际应用场景中模型训练方法的示意图；

图2为本申请实施例提供的一种模型训练方法的流程图；

图3为本申请实施例提供的一种模型训练方法的示意图；

图4为本申请实施例提供的一种模型训练方法的示意图；

图5为本申请实施例提供的一种模型训练方法的示意图；

图6为本申请实施例提供的一种模型训练方法的示意图；

图7为本申请实施例提供的一种实际应用场景中模型训练方法的示意图；

图8为本申请实施例提供的一种实际应用场景中模型的示意图；

图9为本申请实施例提供的一种实际应用场景中模型的示意图；

图10为本申请实施例提供的一种实际应用场景中模型训练方法的示意图；

图11为本申请实施例提供的一种实际应用场景中模型应用方法的流程图；

图12为本申请实施例提供的一种模型训练装置的结构框图；

图13为本申请实施例提供的一种终端的结构图；

图14为本申请实施例提供的一种服务器的结构图。

具体实施方式

下面结合附图，对本申请的实施例进行描述。

对于对象能力的平衡性把控是保障游戏玩家体验的关键环节之一，若不同游戏对象之间对象能力差异较大，大概率会导致游戏缺乏平衡性，使游戏玩家在游戏中的体验变差。例如，若游戏对象A的对象能力远大于游戏对象B，则在对抗类游戏中，操控游戏对象B的游戏玩家很容易被操控游戏对象A的玩家击败，且很难击败操控游戏对象A的游戏玩家，从而会造成不平衡的游戏体验。

在相关技术中，为了保障游戏平衡性，需要人工针对各个游戏对象在游戏中进行实际操作测试，以测试者的个人操作体验来评判游戏对象的对象能力。然而，由于每个人的主观感受不同，不同测试者对于同一游戏对象的评价结果可能存在很大差异，对于对象能力的分析缺乏客观性，难以作为衡量对象能力的标准。此外，相关技术中还可以将游戏对象上线到实际运行的游戏服务器中，让大量的游戏玩家来操控游戏对象在游戏中进行游玩，通过收集能够标识对象能力的相关数据来衡量对象能力。这种方式虽然在一定程度上能够体现出游戏对象的对象能力，但是需要大量游戏玩家长时间的游玩，对于对象能力分析相对滞后，效率较低，同时在游戏对象的对象能力不平衡时，会让游戏玩家经历一段不平衡的游戏体验。

为了解决上述技术问题，本申请提供了一种模型训练方法，通过该方法训练得到的对象测试模型可以用于准确分析对象操作在特定测试场景下对应的操作价值，从而能够引导测试者控制游戏对象在达成测试结束条件这一价值衡量维度上进行操作价值总和最高的系列操作，这一系列操作的操作价值总和就能够体现出游戏对象在该测试场景中的对象能力，进而，通过该模型训练方法可以给游戏对象能力测试这一领域提供一种较为客观、合理的能力评判标准，且针对一个新的游戏对象无需进行大量的人工测试，提高了对象能力分析的合理性和效率。

可以理解的是，该方法可以应用于处理设备上，该处理设备为能够进行模型训练的处理设备，例如可以为具有模型训练功能的终端设备或服务器。该方法可以通过终端设备或服务器独立执行，也可以应用于终端设备和服务器通信的网络场景，通过终端设备和服务器配合执行。其中，终端设备可以为计算机、手机等设备。服务器可以理解为是应用服务器，也可以为Web服务器，在实际部署时，该服务器可以为独立服务器，也可以为集群服务器。

本申请还涉及人工智能(Artificial Intelligence,AI)技术，人工智能是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能，感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说，人工智能是计算机科学的一个综合技术，它企图了解智能的实质，并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法，使机器具有感知、推理与决策的功能。

人工智能技术是一门综合学科，涉及领域广泛，既有硬件层面的技术也有软件层面的技术。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。本申请主要涉及其中的机器学习方向。

机器学习(Machine Learning,ML)是一门多领域交叉学科，涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为，以获取新的知识或技能，重新组织已有的知识结构使之不断改善自身的性能。机器学习是人工智能的核心，是使计算机具有智能的根本途径，其应用遍及人工智能的各个领域。机器学习和深度学习通常包括人工神经网络、置信网络、强化学习、迁移学习、归纳学习、式教学习等技术。本申请可以利用机器学习技术进行多样化的模型训练，例如对多任务模型进行训练、强化模型进行训练等，得到对象测试模型。

为了便于理解本申请实施例提供的技术方案，接下来，将结合一种实际应用场景，对本申请实施例提供的一种模型训练方法进行介绍。

参见图1，图1为本申请实施例提供的一种实际应用场景中模型训练方法的示意图，在该实际应用场景中，处理设备为可以进行模型训练的模型训练服务器101，测试场景为追击场景。

如图所示，模型训练服务器101首先可以获取追击场景对应的测试场景信息以及待测对象对应的目标对象状态信息，该测试场景信息中包括用于标识测试场景场景状态的目标场景状态信息，以及测试场景对应的测试结束条件，在追击场景中，该测试结束条件可以为待测对象移动至被追击对象对应的位置，以及将被追击对象的生命值参数降低一定参数值，测试结束条件用于衡量对象操作所产生的操作价值。

模型训练服务器101可以将目标场景状态信息和目标对象状态信息输入到初始对象测试模型中，确定目标待定操作参数对应的目标待定操作反馈参数，该目标待定操作参数即为此次需要初始对象操作模型分析操作价值的对象操作所对应的操作参数，该目标待定操作反馈参数用于标识初始对象测试模型所预测的，通过该对象操作在达成该测试结束条件这一价值衡量维度上产生的操作价值。

为了确定该目标待定操作参数所标识的对象操作在测试场景中对应的实际操作价值，模型训练服务器101可以根据该目标待定操作参数，在测试场景中执行该对象操作，从而基于实际产生的操作价值，确定该目标待定操作参数对应的目标实际操作反馈参数。该目标实际操作反馈参数是基于该对象操作在追击场景中对应的达成度参数和消耗参数确定的，达成度参数能够体现出通过执行该对象操作在达成上述测试结束条件这一维度上增加的达成度，即与被追击对象之间的距离缩减了多少、将被追击对象的生命值参数削减了多少等，该消耗参数用于标识执行该对象操作在达成所述测试结束条件这一维度上所需的消耗，追击场景中可以为时间消耗参数等。通常情况下，对象操作产生的达成度越高，所需的消耗越少，操作价值也就越高。

通过该目标实际操作反馈参数与该目标待定操作反馈参数之间的差异，能够体现出初始对象测试模型在分析对象操作的操作价值上的准确度，从而基于该差异调节模型参数可以使得到的对象测试模型具有能够基于场景状态和对象状态，对操作参数对应的操作反馈参数进行准确分析的能力，进而可以为待测对象的对象能力提供一种客观的分析标准，同时也无需多次的人工测试，提高对对象能力分析的准确度和效率。

接下来，将结合附图，对本申请实施例提供的一种模型训练方法进行介绍。

参见图2，图2为本申请实施例提供的一种模型训练方法的流程图，该方法包括：

S201：获取测试场景对应的测试场景信息和第一待测对象对应的目标对象状态信息。

其中，测试场景为用于测试待测对象的对象能力的场景，基于对不同维度对象能力的测试需求，该测试场景也可以包括多种，例如当需要测试的对象能力为在场景中的位移能力时，该测试场景可以为包括用于判断位移能力的相关对象的位移场景；当需要测试的对象能力为与其它游戏对象的战斗能力时，该测试场景可以为包括用于判断战斗能力的相关游戏对象的战斗场景，此处不作限定。游戏对象是指游戏中存在的对象，可以包括游戏玩家可以操控的游戏对象和不可操控的游戏对象等。游戏对象的对象能力是指游戏对象在游戏场景中达成某一条件的能力，不同维度的对象能力所对应的条件也有所不同，例如位移能力对应的条件为位移预设距离，战斗能力对应的条件为削减某一对象预设生命值参数等。需要强调的是，本申请中涉及“多个”或与“多个”相似的概念(例如“多种”等)，均指两个或两个以上。

相关技术中之所以无法客观评判游戏对象的对象能力，是因为在人工测试时，难以确定如何操控游戏对象执行达成特定条件的较为优选的操作，而游戏对象所对应的优选操作能够体现出该游戏对象达成该条件的能力。因此，为了解决该技术问题，本申请需要训练出一种能够引导确定待测对象达成条件的优选操作的模型。

可以理解的是，游戏对象在游戏中的优选操作大部分取决于游戏对象自身的对象状态，以及游戏对象所处的游戏场景的场景状态，在不同对象状态、不同场景状态下，游戏对象为了达成某一条件所能够作出的优选操作也会有所不同。因此，处理设备首先可以获取测试场景对应的测试场景信息和第一待测对象对应的目标对象状态信息，该第一待测对象可以为任意一个能够在该测试场景中进行测试的待测对象，测试场景信息包括测试场景对应的目标场景状态信息和测试结束条件，该目标场景状态信息用于标识该测试场景对应的场景状态，该目标对象状态信息用于标识该第一待测对象对应的对象状态。测试结束条件即为在该测试场景中，评判对象能力时所需达到的条件，即游戏对象达到该测试结束条件的能力越强，在该测试场景中对应的对象能力就越强。

需要强调的是，目标场景状态信息标识的场景状态和目标对象状态信息所标识的对象状态，都是在测试过程中，控制第一待测对象执行对象操作时对应的状态，即，基于该目标场景状态信息和目标对象状态信息所分析的优选操作，是控制处于该目标对象状态信息所标识的对象状态下，位于目标场景状态信息所标识场景状态下的测试场景中的第一待测对象的优选操作。

S202：通过初始对象测试模型，根据目标场景状态信息和目标对象状态信息确定目标待定操作参数对应的目标待定操作反馈参数。

其中，操作参数用于标识控制待测对象在测试场景中执行对象操作的方式，操作反馈参数用于标识通过执行对象操作在达成测试结束条件这一价值衡量维度产生的操作价值，该操作价值是衡量通过对象操作在达成测试结束条件上产生的达成度和对象操作所需的消耗得出的，即对象操作产生的达成度越多、所需的消耗越少，对于这1次对象操作而言，该对象操作能够帮助待测对象更加容易的达成该测试结束条件，操作价值也就越高。

模型在预测操作反馈参数时，会根据目标场景状态信息所标识的场景状态和目标对象状态信息所标识的对象状态，来分析在测试场景中根据目标待定操作参数执行的对象操作，在操作达成度的提高和操作所需消耗这两个维度都会产生怎样的参数反馈，从而预测出较为合理的操作反馈参数。该目标待定操作反馈参数即为模型预测出的，根据该目标待定操作参数执行的目标对象操作所对应的操作价值。

S203：获取目标待定操作参数对应的目标实际操作反馈参数。

该目标实际操作反馈参数用于体现根据目标待定操作参数执行的目标对象操作在该测试场景中对应的实际操作价值，上已述及，操作价值是结合操作产生的达成度和操作所需消耗来判断的，因此为了获取该目标对象操作对应的实际价值，处理设备需要先确定该目标对象操作在测试场景中对应的实际达成度和实际消耗。

因此，该目标实际操作反馈参数是通过在测试场景中，根据该目标待定操作参数控制第一待测对象执行目标对象操作生成的达成度参数和消耗参数确定的，达成度参数用于标识通过执行目标对象操作在达成所述测试结束条件这一维度上增加的达成度，消耗参数用于标识执行目标对象操作在达成所述测试结束条件这一维度上所需的消耗。由于需要测试的对象能力为待测对象在达成测试场景对应的测试结束条件这一维度上的能力，因此达成度参数和消耗参数都应该基于达成测试结束条件这一维度来进行分析。

可以理解的是，当测试结束条件不同，即对待测对象的能力测试需求不同时，达成度参数和消耗参数的确定方式也可以有所不同。例如，当测试结束条件为位移到被追击对象的位置，并削减被追击对象一定的生命值参数时，该达成度参数可以基于待测对象接近被追击对象的幅度和削减被追击对象的生命值参数来确定，消耗参数可以基于执行对象操作消耗的时间来确定；当测试结束条件为待测对象的生命值参数在规定时间内不清零时，达成度参数可以基于对象操作所消耗的时间来确定，消耗参数可以基于待测对象自身削减的生命值参数来确定等。

此外，需要强调的是，根据该目标待定操作参数在测试场景中执行对象操作这一动作可以是处理设备自身完成的，例如可以通过对游戏服务器的数据处理来完成该操作，从而获取对应的达成度参数和消耗参数，确定目标实际操作反馈参数；也可以是将该目标待定操作参数发送给相关测试人员或其他设备，使其基于该目标待定操作在测试场景中执行该目标对象操作，获取达成度参数和消耗参数后发送给处理设备进行分析，或直接确定好目标实际操作反馈参数发送给处理设备，这里不限定目标实际操作反馈参数的确定方式。

S204：根据目标实际操作反馈参数和目标待定操作反馈参数之间的差异，调节初始对象测试模型的模型参数，得到对象测试模型。

由于该目标待定操作反馈参数是模型所预测出的目标对象操作对应的操作价值，而目标实际操作反馈参数是基于该目标对象操作在测试场景中对应的实际达成度参数和实际消耗参数确定的，能够标识出该目标对象操作对应的实际操作价值，因此，根据该目标实际操作反馈参数和目标待定操作反馈参数之间的差异，能够体现出初始对象测试模型在分析操作参数对应的操作价值时的准确度，从而基于该差异调节模型参数能够使初始对象测试模型学习到如何分析更加准确的操作价值。

因此，通过该训练方法得到的对象测试模型可以用于预测通过对象操作产生的操作反馈参数，该操作反馈参数可以在对象测试时，在各种场景状态和对象状态下引导确定较为优选的对象操作，从而能够帮助分析待测对象在达成指定条件时的优选操作方式，进而能够分析出待测对象在达成该条件这一能力评判维度对应的对象能力。例如，由于测试人员可以通过该对象测试模型，确定出在各个对象状态和场景状态下，待测对象对应的操作价值较高的对象操来执行，直到达成测试结束条件，然后基于达成测试结束条件所需的一系列对象操作的操作价值总和来分析待测对象的对象能力。由此可见，通过该模型可以给对象能力的评判带来一种客观、统一的评判维度和评判参数，从而保障了对象能力测试的合理性。同时，本申请无需大量的测试人员进行长时间测试，提高了能力测试的效率。

可以理解的是，待测对象在测试场景中执行的每一个对象操作都可能会影响测试场景的场景状态以及待测对象自身的对象状态，而对象状态和场景状态在一定程度上决定了待测对象可执行的对象操作，以及待测对象执行的对象操作对应的操作价值，因此，待测对象在达成测试结束条件的过程中，所执行的每一个对象操作可能都会影响到后续对象操作的选择。

例如，在第1次对象操作时，控制待测对象释放了对象技能A，那么在后续对待测对象进行控制时，可能会因为该对象技能A还在冷却中，因此无法再次释放该对象技能A。可以理解的是，在达成1次测试结束条件的过程中，可能需要操控待测对象执行多次对象操作，而评价对象能力的衡量标准是达成该测试结束条件的难易度，因此在一种可能的实现方式中，为了提高对于对象能力分析的准确度，处理设备可以结合待测对象达成1次测试结束条件的过程中，所执行的所有对象操作来对对象能力进行分析。

可以理解的是，当达成1次测试结束条件的过程中，待测对象执行的多次对象操作的操作价值之和越大，说明待测对象在达成该测试结束条件时，相对来说获得同样达成度时所需的消耗越小，即待测对象更容易达成该测试结束条件，拥有更强的对象能力。基于此，处理设备可以使初始对象测试模型学习如何预测待测对象在达成1次测试结束条件时，所执行多次对象操作的整体操作价值。

在该实现方式中，目标场景状态信息和所述目标对象状态信息为连续N次对象操作中第i次对象操作对应的场景状态信息和对象状态信息，该目标对象操作为第i次对象操作，目标待定操作参数用于标识控制第一待测对象在该测试场景中执行第i次对象操作的方式，即，该第i次对象操作是控制对应目标对象状态信息所标识对象状态的第一待测对象，在对应目标场景状态信息所标识的场景状态中，根据该目标待定操作参数执行的对象操作。连续N次对象操作用于使该第一待测对象达成1次测试结束条件。

在通过初始对象测试模型，根据目标场景状态信息和目标对象状态信息确定目标待定操作参数对应的目标待定操作反馈参数时，可以设定初始对象测试模型预测的参数为用于体现为了打到测试结束条件，所需要执行的剩余对象操作的整体操作价值的参数。

处理设备可以通过该初始对象测试模型，根据目标场景状态信息和目标对象状态信息，确定第i次对象操作对应的预期反馈参数，第i次对象操作对应的预期反馈参数用于标识第i次操作到第N次操作分别对应的待定操作反馈参数之和，即在执行该第i次对象操作之前，为了达成该测试结束条件还需执行的多次对象操作对应的待定操作反馈参数之和。由于此时模型还未学习到如何准确的预测参数，因此这里的操作反馈参数都是模型预测的待定操作反馈参数，并不一定等同于实际操作反馈参数。

上已述及，对象操作可能会对对象状态和场景状态产生影响，因此为了模拟真实的对象操控情况，处理设备可以根据目标待定操作参数，在该测试场景(此时测试场景还对应目标场景状态信息所标识的场景状态)中控制第一待测对象执行第i次对象操作。

处理设备可以将执行完毕该第i次对象操作后，测试场景对应的场景状态信息和第一待测对象对应的对象状态信息确定为上述连续N次对象操作中，第i+1次对象操作对应的场景状态信息和对象状态信息，即第i+1次对象操作是在经过前i次对象操作的影响后，产生的对象状态和场景状态下进行的。同理，处理设备可以通过该初始对象测试模型，根据第i+1次对象操作对应的场景状态信息和对象状态信息，确定第i+1次对象操作对应的预期反馈参数，该预期反馈参数用于标识第i+1次操作到第N次操作分别对应的待定操作反馈参数之和，即在执行该第i+1次对象操作之前，为了达成该测试结束条件还需执行的多次对象操作对应的待定操作反馈参数之和。由此可见，第i次对象操作对应的预期反馈参数与第i+1次对象操作对应的预期反馈参数之差即为第i次对象操作对应的待定操作反馈参数，因此，处理设备可以将第i次对象操作对应的预期反馈参数和第i+1次对象操作对应的预期反馈参数之差确定为上述目标待定操作反馈参数，如图3所示。其中，i为小于等于N-1的正整数。

通过这种方式，可以使初始对象测试模型在调参过程中，学习到如何准确分析对象操作所对应的预期反馈参数，该预期反馈参数能够体现出执行该对象操作是否能够使待测对象更加容易的达成测试结束条件，预期反馈参数越大，说明在这一步执行该对象操作最为合理，基于该对象操作执行的后续一系列对象操作更能够体现出待测对象的对象能力。可以理解的是，预期反馈参数大的对象操作未必对应较大的操作反馈参数，因为预期反馈参数分析的是后续整个对象操作流程，而并非单次对象操作的操作价值。因此，通过该对象测试模型，可以帮助更加高效的确定出待测对象最为合理的操作流程，使对对象能力的分析更加高效、合理化。

在上述模型训练过程中，只介绍了如何使对象测试模型能够输出用于评判对象操作操作价值的相关参数，接下来，将进一步强化对象测试模型的测试能力，使其能够直接输出较为合理的操作参数。

在一种可能的实现方式中，为了进一步提高对象能力的测试效率，处理设备可以使对象测试模型学习到如何输出操作价值较高的对象操作所对应的操作参数。

在该实现方式中，该目标待定操作参数是通过初始对象测试模型，根据目标场景状态信息和目标对象状态信息确定的。初始对象测试模型可以基于目标场景状态信息所标识出的场景状态和目标对象状态信息所标识出的对象状态，来对较为合理的操作参数进行预测。

上已述及，对象操作所对应的预期反馈参数越大，说明基于在执行该对象操作的基础上，能够执行一系列更为合理的对象操作来达成测试结束条件，即包含该对象操作的一系列连续对象操作更贴合待测对象的真实对象能力。基于此，为了使对象测试模型输出的操作参数能够更加适用于对对象能力进行分析，处理设备可以基于预期反馈参数来选取样本操作参数进行模型训练。

处理设备可以获取对象操作集合，该对象操作集合中包括多次对象操作，该多次对象操作分别具有对应的场景状态信息、对象状态信息、待定操作参数以及预期反馈参数，这里多次对象操作分别对应的待定操作参数可以为模型所预测出的。上已述及，执行对象操作是否合理取决于执行操作时的场景状态和对象状态，因此，处理设备可以将同时对应目标场景状态信息和目标对象状态信息的多个对象操作中，所对应预期反馈参数最大的对象操作对应的待定操作参数确定为样本操作参数，该样本操作参数较大概率为在该场景状态、对象状态下，最能够体现出对象能力的对象操作所对应的操作参数。

在进行模型训练时，处理设备可以根据该目标实际操作反馈参数和目标待定操作反馈参数之间的差异，以及样本操作参数与目标待定操作参数之间的差异，调节该初始对象测试模型的模型参数，得到对象测试模型。通过目标实际操作反馈参数和目标待定操作反馈参数之间的差异进行参数调节，可以使模型学习到如何预测更加准确的预期反馈参数，预期反馈参数越准确，处理设备所确定的样本操作参数也就越合理。通过样本操作参数与目标待定操作参数之间的差异，可以使模型学习到如何在各种场景状态、对象状态下，确定出最能够体现对象能力的对象操作所对应的操作参数。从而，通过该方式训练得到的对象测试模型还可以用于根据待测场景状态信息和待测对象状态信息，确定对应该待测对象状态信息的待测对象在对应该待测场景状态信息的测试场景中对应的操作参数，在对象测试过程中，只需要一步步的将当前的场景状态信息和对象状态信息输入到对象测试模型中，即可获取达成测试结束条件的一系列操作参数，基于该操作参数所标识的一系列对象操作在达成测试结束条件这一能力衡量维度上，能够较为合理的体现出待测对象的对象能力。

需要强调的是，基于操作反馈参数差异的调节和基于操作参数差异的调节可以是同时进行的，也可以先后进行的。例如处理设备可以先基于操作反馈参数差异的调节，使模型首先具有对预期反馈参数的较为准确的预测能力，从而使样本操作参数的选择更为合理；同时进行时，处理设备可以结合两种差异的损失函数对模型进行调参，在一定程度上也能够节省训练时间，提高训练效率。

接下来，将详细介绍如何获取上述连续N次对象操作。在一种可能的实现方式中，连续N次对象操作是通过以下方式确定的：

处理设备可以先获取测试场景对应的初始场景状态信息和第一待测对象对应的初始对象状态信息，该初始场景信息用于标识未控制第一待测对象执行任意对象操作时该测试场景对应的场景状态，该初始对象状态信息用于标识未控制第一待测对象执行任意对象操作时第一待测对象对应的对象状态，即该初始场景状态信息和初始对象状态信息为开始进行对象测试，还未执行任何对象操作时，对应的场景状态和对象状态，也是达成测试结束条件的一系列对象操作的起点。

处理设备可以将初始场景状态信息和初始对象状态信息确定为第1次对象操作对应的场景状态信息和对象状态信息，针对第j次对象操作，通过该初始对象测试模型，根据该第j次对象操作对应的场景状态信息和对象状态信息，确定第j次对象操作对应的待定操作参数。

然后，处理设备可以根据第j次对象操作对应的待定操作参数，在第j次对象操作对应的场景状态信息所对应的测试场景中，控制对应第j次对象操作对应的对象状态信息的第一待测对象执行该第j次对象操作。

在执行完毕第j次对象操作后，处理设备可以判断该第一待测对象是否达到了测试结束条件。响应于执行完毕第j次对象操作后，该第一待测对象达成测试结束条件，说明已经产生了一系列完整的用于达成1次测试结束条件的对象操作，则处理设备可以将前j次对象操作确定为上述连续N次对象操作；

响应于执行完毕第i次对象操作后，该第一待测对象未达成测试结束条件，则说明还需要继续执行对象操作才能够达成该测试结束条件，此时，处理设备可以将执行完毕第j次对象操作后，该测试场景对应的场景状态信息和第一待测对象对应的对象状态信息确定为第j+1次对象操作对应的场景状态信息和对象状态信息，从而模拟真实对象操作过程中，场景状态和对象状态不断随对象操作而改变的情况。

如图4所示，图4为本申请实施例提供的一种模型训练方法的示意图，在该测试场景中，测试结束条件为将目标对象对应的生命值参数削减为0。首先，处理设备可以初始化测试场景和待测对象，然后获取测试场景对应的场景状态的对象状态进行特征提取，基于场景状态提取场景状态信息，基于对象状态提取对象状态信息进行模型预测，得到待定操作参数以及待定操作反馈参数。

然后，通过根据该待定操作参数在测试场景中执行对象操作，可以得到更新后的场景状态和对象状态，从而可以了解执行该对象操作产生的达成度参数和消耗参数，进而可以计算实际操作反馈参数。在目标对象的生命值参数归0后，可以判定得到了上述连续N次对象操作，以及分别对应的待定操作参数和实际操作反馈参数。

对应于上述模型训练方法，本申请将介绍如何应用该对象测试模型。

在一种可能的实现方式中，处理设备首先可以获取第二待测对象对应的初始对象状态，该第二待测对象可以为任意一个需要进行测试的对象。

处理设备可以通过该对象测试模型，根据第二待测对象对应的初始对象状态信息和测试场景对应的初始场景状态信息，确定该第二待测对象对应的连续M次对象操作分别对应的操作参数，与上述训练过程相似，该初始对象状态信息为未执行对象操作时，第二待测对象对应的对象状态信息。该连续M次对象操作用于使第二待测对象达成1次测试结束条件。

可以理解的是，通过上述训练过程可知，本申请在应用过程中，模型是基于对象状态和场景状态预测每一次对象操作对应的操作参数。即，在应用过程中，处理设备会基于当前测试场景对应的测试场景信息和当前第二待测对象对应的对象状态信息，预测出下一次对象操作对应的操作参数，在基于该操作参数在测试场景中执行完毕对象操作后，会获取更新后的场景状态信息和对象状态信息，进行对下一次对象操作对应的操作参数的预测，直到达成该测试结束条件，从而得到连续M次对象操作。

为了衡量第二待测对象的对象能力，处理设备可以将连续M次对象操作分别对应的操作参数对应的实际操作反馈参数之和确定为该第二待测对象在测试场景中对应的对象能力参数，该对象能力参数能够体现出该第二待测对象在达成测试结束条件的过程中，在较为优选的对象操作下，所产生的整体达成度与所需的整体消耗，从而，该对象能力参数用于标识第二待测对象在测试场景中达成测试结束条件的能力。由于该实际操作反馈参数是基于对象操作在测试场景中产生的实际达成度参数和消耗参数确定的，因此相较于模型预测的操作反馈参数更加真实、准确。测试需求方可以基于不同对象的对象能力参数之间的差异，来分析在达成测试结束条件这一维度上，不同对象之间的对象能力是否平衡。

上已述及，在不同的测试场景中，达成度参数、消耗参数和测试结束条件都可能有所不同，接下来将结合一种实际测试场景进行详细介绍。

在一种可能的实现方式中，该测试场景为追击场景，测试结束条件为第一待测对象移动至该测试场景中被追击对象对应的对象位置，且将该被追击对象对应的生命值参数削减预设数值，即需要操控第一待测对象通过执行对象操作，追上并击败该被追击对象。

为了使模型能够分析如何进行对象操作才能更好的对被追击对象进行追击，该目标场景状态信息可以用于标识测试场景中包括的对象在该测试场景中对应的位置分布、除该第一待测对象外的对象对应的对象状态和测试场景对应的时间信息，该目标对象状态信息用于标识第一待测对象对应的对象状态，对象状态包括对象属性状态和/或对象技能状态。通过上述信息，一方面可以使模型分析如何进行对象操作才能够与被追击对象缩短更多的距离，以及对被追击对象造成更多的生命值参数削减，另一方面可以结合时间信息，确定如何更加快速的达成该测试结束条件。

针对该测试场景，该达成度参数可以包括距离缩减参数和生命值削减参数，这两个参数可以从距离维度和生命值参数维度来衡量测试对象在达成该测试结束条件这一维度上的达成度。消耗参数可以包括时间消耗参数，待测对象达成该测试结束条件所需的时间越长，在一定程度上可以说明待测对象达成该测试结束条件的能力越弱。

在获取目标待定操作参数对应的目标实际操作反馈参数时，处理设备可以先确定目标对象操作对应的距离缩减参数、生命值削减参数和时间消耗参数，该目标对象操作即为在测试场景中，根据目标待定操作参数控制第一待测对象执行的对象操作，距离缩减参数用于标识通过所述目标对象操作缩减的第一待测对象与被追击对象之间的距离，生命值缩减参数用于标识通过目标对象操作削减的被追击对象的生命值参数，该时间消耗参数用于标识执行所述目标对象操作消耗的时间。

从而，处理设备可以根据距离缩减参数、生命值削减参数和时间消耗参数，确定该第一待测对象通过执行目标对象操作产生的达成度以及所需的消耗，进而可以确定目标待定操作参数对应的目标实际操作反馈参数。例如，距离缩减参数越大、生命值削减参数越大，达成度也就越高；时间消耗参数越大，所需的消耗也就越多。

具体的，在一种可能的实现方式中，为了更加准确的衡量实际操作反馈参数，可以针对该追击场景设定对应的距离反馈参数、生命值反馈参数和时间反馈参数，其中，距离反馈参数用于衡量对象操作在与被追击对象之间的距离这一维度上的达成度，生命值反馈参数用于衡量对象操作在削减被追击对象的生命值参数这一维度上的达成度，时间反馈参数用于衡量对象操作在时间这一维度上的消耗。

处理设备可以先确定追击场景对应的距离反馈参数、生命值反馈参数，以及确定该时间消耗参数对应的时间反馈参数，该时间反馈参数与时间消耗参数所标识的消耗时间的时长成正比。即，时间消耗参数所标识的消耗时间越长，该时间反馈参数越大。

处理设备可以将距离缩减参数与距离反馈参数的乘积、生命值削减参数和生命值反馈参数的乘积之和，与该时间反馈参数的差值确定为该目标实际操作反馈参数。从而，距离缩减参数越大、生命值削减参数越大、时间反馈参数越小，则得到的目标实际操作反馈参数越大，所体现的操作价值也就越大；距离缩减参数越小、生命值削减参数越小、时间反馈参数越大，则目标实际操作反馈参数越小，所体现的操作价值也就越小。

该时间反馈参数不仅可以与单次对象操作所对应的时间消耗相关，还可以与已经执行的对象操作次数相关，例如，在一种可能的实现方式中，该时间反馈参数也可以为定值，从而，次数越多，在确定整体实际操作反馈参数时削减该时间反馈参数的次数就越多，从而有助于确定出能够达成测试结束条件的最少操作步骤。

例如，为了寻找最优的操作序列(耗时最短)，在确定实际操作反馈参数时，减去一个额外的常量，该常量即为实际反馈参数，当达成测试结束条件所需的操作次数越多时，扣除常量的次数越多。该实际操作反馈参数R_i的计算表达式如下公式所示：

R_i＝(Dis_i-Dis_i-1)*Dis_ratio+(Hp_i-Hp_i-1)*Hp_Ratio-Constant

其中，R_i为第i次对象操作对应的实际操作反馈参数，Dis_i表示第i次对象操作后，待测对象与被追击对象之间的距离，Dis_i-1表示第i-1次对象操作后，待测对象与被追击对象之间的距离，Dis_i-Dis_i-1表示与目标距离的减少量，可以为负值，表示此时与目标距离增大，Hp_i表示第i次对象操作后被追击对象对应的生命值参数，Hp_i-1表示第i-1次对象操作后被追击对象对应的生命值参数，Hp_i-Hp_i-1表示被追击对象的生命值参数减少量。Constant为上述常量。

其中，场景状态信息和对象状态信息标识场景状态和对象状态的方式也可以包括多种。在一种可能的实现方式中，该目标场景状态信息可以包括用于标识测试场景中包括的对象在测试场景中对应的位置分布的位图信息、用于标识除第一待测对象外的对象对应的对象状态的第一状态向量和用于标识测试场景对应的时间信息的全局向量，该目标对象状态信息包括用于标识第一待测对象对应的对象状态的第二状态向量。

该位图信息中包括多个默认场景标识和对应测试场景中所包括对象的对象标识，该默认场景标识和对象标识在位图信息中的排列方式对应于测试场景中所包括对象在测试场景中的位置，即对象标识与默认场景标识之间的相对位置就是所对应的对象在测试场景中的位置。如图5所示，默认场景标识为“0”，对象标识为“1”，通过“0”与“1”在障碍物位图信息、草丛位图信息、被追击对象位图信息和待测对象位图信息中的排列方式，能够体现出该追击场景中的障碍物、操纵、被追击对象、待测对象等对象在测试场景中的位置。

在根据目标场景状态信息和目标对象状态信息确定目标待定操作参数对应的目标待定操作反馈参数时，为了在保留信息丰富度的前提下，降低需要模型处理的信息量，处理设备可以对位图信息进行最大值池化处理，该最大值池化处理能够在保留位图信息中对象标识和默认场景标识的相对位置关系的前提下，降低位图信息中所包含的标识数量，从而在保留位置信息的同时降低了信息量。处理设备可以将经过最大值池化处理后的位图信息对应的位图向量与第一状态向量和所述第二状态向量进行拼接，得到特征向量，该特征向量即为综合了场景状态和对象状态两个维度信息的向量。初始对象测试模型可以根据该特征向量确定目标待定操作参数对应的目标待定操作反馈参数。

在一种可能的实现方式中，为了使对象测试模型能够输出更加精确地操作参数和反馈参数，在建立初始对象测试模型时，可以针对每个种类的参数建立对应的子模型来进行预测。

例如，在该实现方式中，目标待定操作参数可以包括多个操作种类分别对应的待定子操作参数，待定子操作参数用于标识执行所对应操作种类下的对象操作的执行方式。该初始对象测试模型包括多个操作种类分别对应的初始操作子模型，以及用于确定预期反馈参数的初始反馈子模型。

在根据目标实际操作反馈参数和目标待定操作反馈参数之间的差异，以及样本操作参数与目标待定操作参数之间的差异，调节初始对象测试模型的模型参数时，处理设备可以确定样本操作参数在多个操作种类分别对应的样本子操作参数，然后将多个操作种类分别作为目标操作种类，针对该目标操作种类，处理设备可以根据对应该目标操作种类的待定子操作参数和样本子操作参数之间的差异，调节该目标操作种类对应的初始操作子模型的模型参数，得到该目标操作种类对应的操作子模型，在参数调节过程中，操作子模型可以学习到如何基于场景状态和对象状态，确定所对应操作种类下，在达成测试结束条件这一维度上较为合理的操作参数，从而，该操作子模型可以用于确定对应目标操作种类的对象操作的子操作参数。

以及，处理设备可以根据该目标实际操作反馈参数和目标待定操作反馈参数之间的差异，调节该初始反馈子模型对应的模型参数，得到反馈子模型，该反馈子模型用于确定预期反馈参数。通过将参数预测这个动作拆分给多个操作种类分别对应的多个子模型来执行，可以细化参数预测的粒度，从而进一步提高参数预测的精确度。

在模型训练的过程中，这些子模型可以共享权重，也可以基于不同的需求来对各个子模型的模型权重进行单独调节，此处不作限定。

此外，在某些场景状态、对象状态下，待测对象可能并不能够执行所有的对象操作，会受到自身状态或场景状态的限制。例如，对于“释放技能”这一对象操作而言，当对象技能处于冷却状态(即还未能释放下一次对象技能的状态)，或技能释放的目标对象不在该对象技能所对应的可释放范围内时，待测对象都无法执行“释放技能”这一对象操作。因此，在一种可能的实现方式中，为了提高模型训练效率和准确度，避免模型输出一些无法实现的对象操作所对应的操作参数，处理设备可以对模型输出的操作参数进行限制。

在该实现方式中，目标待定操作参数可以是通过如下方式确定的：

处理设备可以根据目标场景状态信息、目标对象状态信息和操作限制信息，确定该第i次对象操作对应的目标待定操作参数，该操作限制信息是基于对目标场景状态信息和目标对象状态信息所标识的场景状态和对象状态进行分析得到的，用于标识在该测试场景中，第一待测对象对应的无效对象操作，无效对象操作是指该第一待测对象在目标对象状态信息标识的对象状态下，在对应该目标场景状态信息的测试场景中无法执行的对象操作，因此，在操作限制信息的限制下，模型所确定出的操作参数标识的第i次对象操作中不包括该无效对象操作，从而使模型主要输出能够在测试场景中执行的对象操作，在提高了模型分析的合理性的同时，也避免输出无效操作参数干扰对于对象能力的测试，提高了测试效率。

其中，针对不同的测试场景，该操作限制参数也可以包括多种。具体的，在一种可能的实现方式中，该第一待测对象具有对应的对象技能，该目标待定操作参数用于标识第一待测对象释放对象技能的方式，此时，操作限制信息可以是通过以下方式确定的：

处理设备可以根据该目标对象状态信息和场景状态信息，确定该第一待测对象在该目标对象状态信息标识的对象状态下对应的可释放对象技能，以及可释放对象技能对应的技能释放参数范围，该可释放对象技能是指该第一待测对象在目标对象状态信息标识的对象状态下可释放的对象技能，例如为不处于冷却状态，且在技能可释放范围内，具有需要技能命中的目标对象的对象技能，即通过控制待测对象释放该对象技能可以命中该目标对象，因此属于在测试场景中的有效操作，可以判定为可释放对象技能。

技能释放参数用于标识对象技能的释放方式，基于技能释放参数范围所包括的技能释放参数释放的可释放对象技能用于命中测试场景中的目标对象，该目标对象为衡量释放技能是否为无效操作的对象，例如可以为追击尝尽中的被追击对象等。处理设备可以先通过分析待测对象的对象状态，确定待测对象具有的未处于冷却状态、可以释放的多个技能，然后通过分析场景状态和对象状态所标识出的对象位置，确定在各个技能的技能释放范围内是否具有该目标对象，从而能够确定出能够向目标对象释放的可释放技能，以及能够影响到目标对象的技能释放范围。

处理设备可以将该可释放技能和该可释放技能对应的技能释放参数范围确定为操作限制信息，从而在确定操作参数时，可以使操作参数所标识出的技能释放操作能够对目标对象产生影响。

如图6所示，对于技能释放的目标对象，限制目标必须是存活状态(生命值参数大于0)，并且与待测对象的距离不大于技能攻击距离。技能释放范围如图所示，即限制技能释放可选方向必须在待测对象与目标对象的一定夹角(90°)以内，技能释放位置必须在目标对象一定距离(距离D)以内，且释放的对象技能一定是未处于冷却状态的对象技能。

为了便于理解本申请实施例提供的技术方案，接下来，将结合一种实际应用场景，对本申请实施例提供的一种模型训练方法进行介绍。在该实际应用场景中，测试场景可以为追击场景，对象操作包括的操作种类如图7所示，可以包括移动、停止移动、技能释放、技能空放等，其中技能释放可以包括技能1、技能2的释放。停止移动这一对象操作主要用于避免出现技能释放不打断对象移动的情况。

参见图8，图8为本申请实施例提供的一种模型示意图，该模型的输入可以包括用于标识测试场景时间信息的全局向量、待测对象对象状态的待测对象状态向量、被追击对象对象状态的被追击对象状态向量以及用于标识被追击对象与待测对象之间相对关系状态(例如相对位置)的相对关系状态向量，全局向量能够用来表征当前时间片。

对象状态可以包括对象的血量、能量、攻击力、抗性等属性，以及对象技能的可用状态，技能的冷却时间(Cool Down Time，简称CD)倒计时，技能是否可用，技能的蓄力状态，技能释放是否成功等特征。为了能快速追上被追击对象和朝被追击对象释放技能，处理设备可以使用待测对象与被追击对象的位置距离，方向，偏移等信息作为相对关系，用于模型快速学习技能有效的释放方向和位置。此外，模型的输入还包括用于标识测试场景中各种对象的对象位置的位图信息。

在模型处理过程中，首先在位图信息之后增加了卷积层，用于对位图信息进行卷积处理，其表达式如下公式所示，k表示卷积核大小，增加卷积操作可以丰富位图信息的局部信息，同时也能起到一定程度的图像降维的作用。

在卷积层之后，增加了池化层，用于对卷积处理后的位图信息进行池化pooling操作，在该实际应用场景中，由于位图信息中有效信息(即对象标识)是1，无效信息(即默认场景标识)是0，因此可以采用最大值池化操作，表达式如下所示，在保留关键位置信息的同时，对位图信息进行进一步降维。

之后，将池化后的位图信息展开为向量特征,与上述向量特征进行拼接，并将拼接后的结果送入到全连接隐藏层，全连接隐藏层用于对特征进行进一步处理，模型调参过程中的一部分就是让全连接隐藏层学习到如何从输入的特征中提取到对输出准确参数有帮助的特征。

考虑到需要输出多个操作种类分别对应的操作参数，处理设备可以针对多个操作种类和预期反馈参数，在模型中设置对应的全连接层(Fully connected layer，简称FC)，每个全连接层用于输出对应的子操作参数或预期反馈参数。在该实际应用场景中，可以通过多任务学习(multi-task learning)来实现对多个全连接层的训练，多任务学习的网络示意图如图9所示，网络在底层共享节点共享权重，在网络高层独立输出，相较于单任务学习，有利于关联任务之间的样本共享和关联学习，即每个全连接层的模型参数在训练时可以相互影响，例如每个全连接层的参数训练都会影响到全连接隐藏层的特征提取，从而实现相互影响。通过该方式可以使模型充分学习到对于多种操作种类的参数确定方式，同时也可以使输出的预期反馈参数更加贴合对象操作的实际情况。图中，输入侧input为经过处理后的位图信息展开后的向量与其他向量的拼接向量，输出为各个全连接层的独立输出，输出参数中包括p1、p2、p3..pn，表示同一操作种类对应的n种操作方式分别对应对应的概率，基于操作方式的概率即可确定出最终的操作参数所标识的操作方式。

在计算多任务学习的损失函数时，可以默认各任务之间的损失权重相同，损失函数L的表达式如下公式所示。n为n个全连接层，Li为各个全连接层分别对应的损失函数。

在输出参数时，本实际应用场景加入了技能冷却限制(skill mask)和释放范围限制(param mask)，其中技能冷却限制用于限制可释放的技能，释放范围限制用于限制可释放技能的释放参数，使用技能冷却限制和释放范围限制可以有效限制无效的技能和技能参数选择，从而达到减少无效训练次数，加快模型收敛速度的目的。技能冷却限制的表达式如下公式所示，当前技能未在cd中，并且技能未被禁用时，mask为1，表示当前技能为可释放技能。

Mask_i＝1if action_i is usable and not in cd else 0

技能释放范围等参数的确定可以如上内容所述。

整体训练逻辑如图10所示，基于测试场景中各个对象(包括待测对象)的状态(存活状态/生命值参数信息/技能状态等)进行抽样特征化，提取场景状态和对象状态，生成场景状态信息和对象状态信息作为处理设备的模型输入，处理设备通过模型输出操作参数，用于标识在当前场景状态进行什么样的对象操作，例如释放什么技能，怎样释放等。基于操作参数在测试场景中控制待测对象进行对象操作，可以确定实际操作反馈参数。通过处理设备不断的与测试场景和待测对象进行交互迭代，产生大量的场景状态信息、对象状态信息、待定操作参数、待定预期反馈参数以及实际操作反馈参数的样本对，用于训练初始对象测试模型，使其收敛，达到对于每一次特性测试，都能稳定获得最优或者接近最优的对象能力测试结果。

在模型应用时，应用流程可以如图11所示，该流程包括：

S1101：测试场景选择。

S1102：待测对象选择。

测试人员可以挑选一个或多个待测对象进行测试。

S1103：任务队列分配任务。

任务队列用于管理多个待测对象的依次测试，在一个待测对象测试完毕后，分配下一个待测对象进行测试。

S1104：单一待测对象的对象能力参数分析。

处理设备可以通过上述对象测试模型，通过结合对象测试模型输出的操作参数所确定出的对象能力参数，来作为衡量对象能力的参数标准。

例如，处理设备可以将初始对象状态和初始场景状态作为第1次对象操作对应的状态，确定第1次对象操作对应最大预期反馈参数的操作参数，测试人员可以基于该操作参数在测试场景中进行对象操作，从而生成第2次对象操作对应的场景状态和对象状态，以此类推，直到达成测试结束条件。最终，一系列对象操作对应的实际操作反馈参数可以作为该待测对象对应的对象能力参数。

S1105：判断是否所有待测对象分析完成。

若完成，则跳转至步骤S1106，否则跳转至步骤S1103，从任务队列中获取下一个待测对象进行测试。

S1106：对象能力参数展示。

处理设备可以向测试人员展示各个待测对象对应的对象能力参数，以便测试人员评判多个待测对象之间的对象能力是否平衡。

基于上述实施例提供的一种模型训练方法，本申请实施例还提供了一种模型训练装置，参见图12，图12为本申请实施例提供的一种模型训练装置1200的结构框图，该装置包括第一获取单元1201、第一确定单元1202、第二获取单元1203和调节单元1204：

所述第一获取单元1201，用于获取测试场景对应的测试场景信息和第一待测对象对应的目标对象状态信息，所述测试场景信息包括所述测试场景对应的目标场景状态信息和测试结束条件；

所述第一确定单元1202，用于通过初始对象测试模型，根据所述目标场景状态信息和所述目标对象状态信息确定目标待定操作参数对应的目标待定操作反馈参数，操作参数用于标识控制待测对象在所述测试场景中执行对象操作的方式，操作反馈参数用于标识通过执行对象操作在达成所述测试结束条件这一价值衡量维度产生的操作价值；

所述第二获取单元1203，用于获取所述目标待定操作参数对应的目标实际操作反馈参数，所述目标实际操作反馈参数是通过在所述测试场景中，根据所述目标待定操作参数控制所述第一待测对象执行目标对象操作生成的达成度参数和消耗参数确定的，所述达成度参数用于标识通过执行所述目标对象操作在达成所述测试结束条件这一维度上增加的达成度，所述消耗参数用于标识执行所述目标对象操作在达成所述测试结束条件这一维度上所需的消耗；

所述调节单元1204，用于根据所述目标实际操作反馈参数和所述目标待定操作反馈参数之间的差异，调节所述初始对象测试模型的模型参数，得到对象测试模型，所述对象测试模型用于预测通过对象操作产生的操作反馈参数。

在一种可能的实现方式中，所述目标场景状态信息和所述目标对象状态信息为连续N次对象操作中第i次对象操作对应的场景状态信息和对象状态信息，所述目标对象操作为所述第i次对象操作，所述目标待定操作参数用于标识控制所述第一待测对象在所述测试场景中执行所述第i次对象操作的方式，所述连续N次对象操作用于使所述第一待测对象达成1次所述测试结束条件，所述第一确定单元1202具体用于：

所述调节单元1204具体用于：

所述达成度参数包括距离缩减参数和生命值削减参数，所述消耗参数包括时间消耗参数，所述第二获取单元1203具体用于：

在一种可能的实现方式中，所述第二获取单元1203具体用于：

所述第一确定单元1202具体用于：

对所述位图信息进行最大值池化处理；

在一种可能的实现方式中，所述目标待定操作参数包括多个操作种类分别对应的待定子操作参数，所述初始对象测试模型包括所述多个操作种类分别对应的初始操作子模型，以及用于确定预期反馈参数的初始反馈子模型，所述调节单元1204具体用于：

本申请实施例还提供了一种计算机设备，下面结合附图对该设备进行介绍。请参见图13所示，本申请实施例提供了一种设备，该设备还可以是终端设备，该终端设备可以为包括手机、平板电脑、个人数字助理(Personal Digital Assistant，简称PDA)、销售终端(Point of Sales，简称POS)、车载电脑等任意智能终端，以终端设备为手机为例：

图13示出的是与本申请实施例提供的终端设备相关的手机的部分结构的框图。参考图13，手机包括：射频(Radio Frequency，简称RF)电路710、存储器720、输入单元730、显示单元740、传感器750、音频电路760、无线保真(Wireless Fidelity，简称WiFi)模块770、处理器780、以及电源790等部件。本领域技术人员可以理解，图13中示出的手机结构并不构成对手机的限定，可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件布置。

下面结合图13对手机的各个构成部件进行具体的介绍：

RF电路710可用于收发信息或通话过程中，信号的接收和发送，特别地，将基站的下行信息接收后，给处理器780处理；另外，将设计上行的数据发送给基站。通常，RF电路710包括但不限于天线、至少一个放大器、收发信机、耦合器、低噪声放大器(Low NoiseAmplifier，简称LNA)、双工器等。此外，RF电路710还可以通过无线通信与网络和其他设备通信。上述无线通信可以使用任一通信标准或协议，包括但不限于全球移动通讯系统(Global System of Mobile communication，简称GSM)、通用分组无线服务(GeneralPacket Radio Service，简称GPRS)、码分多址(Code Division Multiple Access，简称CDMA)、宽带码分多址(Wideband Code Division Multiple Access，简称WCDMA)、长期演进(Long Term Evolution，简称LTE)、电子邮件、短消息服务(Short Messaging Service，简称SMS)等。

存储器720可用于存储软件程序以及模块，处理器780通过运行存储在存储器720的软件程序以及模块，从而执行手机的各种功能应用以及数据处理。存储器720可主要包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需的应用程序(比如声音播放功能、图像播放功能等)等；存储数据区可存储根据手机的使用所创建的数据(比如音频数据、电话本等)等。此外，存储器720可以包括高速随机存取存储器，还可以包括非易失性存储器，例如至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。

输入单元730可用于接收输入的数字或字符信息，以及产生与手机的用户设置以及功能控制有关的键信号输入。具体地，输入单元730可包括触控面板731以及其他输入设备732。触控面板731，也称为触摸屏，可收集用户在其上或附近的触摸操作(比如用户使用手指、触笔等任何适合的物体或附件在触控面板731上或在触控面板731附近的操作)，并根据预先设定的程式驱动相应的连接装置。可选的，触控面板731可包括触摸检测装置和触摸控制器两个部分。其中，触摸检测装置检测用户的触摸方位，并检测触摸操作带来的信号，将信号传送给触摸控制器；触摸控制器从触摸检测装置上接收触摸信息，并将它转换成触点坐标，再送给处理器780，并能接收处理器780发来的命令并加以执行。此外，可以采用电阻式、电容式、红外线以及表面声波等多种类型实现触控面板731。除了触控面板731，输入单元730还可以包括其他输入设备732。具体地，其他输入设备732可以包括但不限于物理键盘、功能键(比如音量控制按键、开关按键等)、轨迹球、鼠标、操作杆等中的一种或多种。

显示单元740可用于显示由用户输入的信息或提供给用户的信息以及手机的各种菜单。显示单元740可包括显示面板741，可选的，可以采用液晶显示器(Liquid CrystalDisplay，简称LCD)、有机发光二极管(Organic Light-Emitting Diode，简称OLED)等形式来配置显示面板741。进一步的，触控面板731可覆盖显示面板741，当触控面板731检测到在其上或附近的触摸操作后，传送给处理器780以确定触摸事件的类型，随后处理器780根据触摸事件的类型在显示面板741上提供相应的视觉输出。虽然在图13中，触控面板731与显示面板741是作为两个独立的部件来实现手机的输入和输入功能，但是在某些实施例中，可以将触控面板731与显示面板741集成而实现手机的输入和输出功能。

手机还可包括至少一种传感器750，比如光传感器、运动传感器以及其他传感器。具体地，光传感器可包括环境光传感器及接近传感器，其中，环境光传感器可根据环境光线的明暗来调节显示面板741的亮度，接近传感器可在手机移动到耳边时，关闭显示面板741和/或背光。作为运动传感器的一种，加速计传感器可检测各个方向上(一般为三轴)加速度的大小，静止时可检测出重力的大小及方向，可用于识别手机姿态的应用(比如横竖屏切换、相关游戏、磁力计姿态校准)、振动识别相关功能(比如计步器、敲击)等；至于手机还可配置的陀螺仪、气压计、湿度计、温度计、红外线传感器等其他传感器，在此不再赘述。

音频电路760、扬声器761，传声器762可提供用户与手机之间的音频接口。音频电路760可将接收到的音频数据转换后的电信号，传输到扬声器761，由扬声器761转换为声音信号输出；另一方面，传声器762将收集的声音信号转换为电信号，由音频电路760接收后转换为音频数据，再将音频数据输出处理器780处理后，经RF电路710以发送给比如另一手机，或者将音频数据输出至存储器720以便进一步处理。

WiFi属于短距离无线传输技术，手机通过WiFi模块770可以帮助用户收发电子邮件、浏览网页和访问流式媒体等，它为用户提供了无线的宽带互联网访问。虽然图13示出了WiFi模块770，但是可以理解的是，其并不属于手机的必须构成，完全可以根据需要在不改变发明的本质的范围内而省略。

处理器780是手机的控制中心，利用各种接口和线路连接整个手机的各个部分，通过运行或执行存储在存储器720内的软件程序和/或模块，以及调用存储在存储器720内的数据，执行手机的各种功能和处理数据，从而对手机进行整体检测。可选的，处理器780可包括一个或多个处理单元；优选的，处理器780可集成应用处理器和调制解调处理器，其中，应用处理器主要处理操作系统、用户界面和应用程序等，调制解调处理器主要处理无线通信。可以理解的是，上述调制解调处理器也可以不集成到处理器780中。

手机还包括给各个部件供电的电源790(比如电池)，优选的，电源可以通过电源管理系统与处理器780逻辑相连，从而通过电源管理系统实现管理充电、放电、以及功耗管理等功能。

尽管未示出，手机还可以包括摄像头、蓝牙模块等，在此不再赘述。

在本实施例中，该终端设备所包括的处理器780还具有以下功能：

本申请实施例还提供一种服务器，请参见图14所示，图14为本申请实施例提供的服务器800的结构图，服务器800可因配置或性能不同而产生比较大的差异，可以包括一个或一个以上中央处理器(Central Processing Units，简称CPU)822(例如，一个或一个以上处理器)和存储器832，一个或一个以上存储应用程序842或数据844的存储介质830(例如一个或一个以上海量存储设备)。其中，存储器832和存储介质830可以是短暂存储或持久存储。存储在存储介质830的程序可以包括一个或一个以上模块(图示没标出)，每个模块可以包括对服务器中的一系列指令操作。更进一步地，中央处理器822可以设置为与存储介质830通信，在服务器800上执行存储介质830中的一系列指令操作。

服务器800还可以包括一个或一个以上电源826，一个或一个以上有线或无线网络接口850，一个或一个以上输入输出接口858，和/或，一个或一个以上操作系统841，例如Windows Server^TM，Mac OS X^TM，Unix^TM,Linux^TM，FreeBSD^TM等等。

上述实施例中由服务器所执行的步骤可以基于图14所示的服务器结构。

本申请实施例还提供一种计算机可读存储介质，用于存储计算机程序，该计算机程序用于执行前述各个实施例所述的模型训练方法中的任意一种实施方式。

本申请实施例还提供了一种包括指令的计算机程序产品，当其在计算机上运行时，使得所述计算机执行上述实施例中任意一项所述的模型训练方法。

本领域普通技术人员可以理解：实现上述方法实施例的全部或部分步骤可以通过程序指令相关的硬件来完成，前述程序可以存储于一计算机可读取存储介质中，该程序在执行时，执行包括上述方法实施例的步骤；而前述的存储介质可以是下述介质中的至少一种：只读存储器(英文：read-only memory，缩写：ROM)、RAM、磁碟或者光盘等各种可以存储程序代码的介质。

需要说明的是，本说明书中的各个实施例均采用递进的方式描述，各个实施例之间相同相似的部分互相参见即可，每个实施例重点说明的都是与其他实施例的不同之处。尤其，对于设备及系统实施例而言，由于其基本相似于方法实施例，所以描述得比较简单，相关之处参见方法实施例的部分说明即可。以上所描述的设备及系统实施例仅仅是示意性的，其中作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性劳动的情况下，即可以理解并实施。

以上所述，仅为本申请的一种具体实施方式，但本申请的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本申请揭露的技术范围内，可轻易想到的变化或替换，都应涵盖在本申请的保护范围之内。因此，本申请的保护范围应该以权利要求的保护范围为准。

Claims

1.一种模型训练方法，其特征在于，所述方法包括：

2.根据权利要求1所述的方法，其特征在于，所述目标场景状态信息和所述目标对象状态信息为连续N次对象操作中第i次对象操作对应的场景状态信息和对象状态信息，所述目标对象操作为所述第i次对象操作，所述目标待定操作参数用于标识控制所述第一待测对象在所述测试场景中执行所述第i次对象操作的方式，所述连续N次对象操作用于使所述第一待测对象达成1次所述测试结束条件，所述通过初始对象测试模型，根据所述目标场景状态信息和所述目标对象状态信息确定目标待定操作参数对应的目标待定操作反馈参数，包括：

3.根据权利要求2所述的方法，其特征在于，所述目标待定操作参数是通过所述初始对象测试模型，根据所述目标场景状态信息和所述目标对象状态信息确定的，所述方法还包括：

获取对象操作集合，所述对象操作集合中包括多次对象操作，所述多次对象操作分别具有对应的场景状态信息、对象状态信息、待定操作参数以及预期反馈参数；

将同时对应所述目标场景状态信息和所述目标对象状态信息的多个对象操作中，所对应预期反馈参数最大的对象操作对应的待定操作参数确定为样本操作参数；

所述根据所述目标实际操作反馈参数和所述目标待定操作反馈参数之间的差异，调节所述初始对象测试模型的模型参数，得到对象测试模型，包括：

4.根据权利要求3所述的方法，其特征在于，所述连续N次对象操作是通过以下方式确定的：

5.根据权利要求4所述的方法，其特征在于，所述方法还包括：

获取第二待测对象对应的初始对象状态；

通过所述对象测试模型，根据所述第二待测对象对应的初始对象状态信息和所述测试场景对应的初始场景状态信息，确定所述第二待测对象对应的连续M次对象操作分别对应的操作参数，所述连续M次对象操作用于使所述第二待测对象达成1次所述测试结束条件；

将所述连续M次对象操作分别对应的操作参数对应的实际操作反馈参数之和确定为所述第二待测对象在所述测试场景中对应的对象能力参数，所述对象能力参数用于标识所述第二待测对象在所述测试场景中达成所述测试结束条件的能力。

6.根据权利要求1所述的方法，其特征在于，所述测试场景为追击场景，所述测试结束条件为所述第一待测对象移动至所述测试场景中被追击对象对应的对象位置，且将所述被追击对象对应的生命值参数削减预设数值；

所述达成度参数包括距离缩减参数和生命值削减参数，所述消耗参数包括时间消耗参数，所述获取所述目标待定操作参数对应的目标实际操作反馈参数，包括：

7.根据权利要求6所述的方法，其特征在于，所述根据所述距离缩减参数、所述生命值削减参数和所述时间消耗参数，确定所述目标待定操作参数对应的目标实际操作反馈参数，包括：

8.根据权利要求6所述的方法，其特征在于，所述目标场景状态信息包括用于标识所述测试场景中包括的对象在所述测试场景中对应的位置分布的位图信息、用于标识除所述第一待测对象外的对象对应的对象状态的第一状态向量和用于标识所述测试场景对应的时间信息的全局向量，所述目标对象状态信息包括用于标识所述第一待测对象对应的对象状态的第二状态向量；

所述根据所述目标场景状态信息和所述目标对象状态信息确定目标待定操作参数对应的目标待定操作反馈参数，包括：

对所述位图信息进行最大值池化处理；

9.根据权利要求3所述的方法，其特征在于，所述目标待定操作参数是通过如下方式确定的：

10.根据权利要求9所述的方法，其特征在于，所述第一待测对象具有对应的对象技能，所述目标待定操作参数用于标识所述第一待测对象释放所述对象技能的方式，所述操作限制信息是通过以下方式确定的：

11.根据权利要求3所述的方法，其特征在于，所述目标待定操作参数包括多个操作种类分别对应的待定子操作参数，所述初始对象测试模型包括所述多个操作种类分别对应的初始操作子模型，以及用于确定预期反馈参数的初始反馈子模型，所述根据所述目标实际操作反馈参数和所述目标待定操作反馈参数之间的差异，以及所述样本操作参数与所述目标待定操作参数之间的差异，调节所述初始对象测试模型的模型参数，得到对象测试模型，包括：

12.一种模型训练装置，其特征在于，所述装置包括第一获取单元、第一确定单元、第二获取单元和调节单元：

13.一种计算机设备，其特征在于，所述计算机设备包括处理器以及存储器：

所述处理器用于根据所述程序代码中的指令执行权利要求1-11中任意一项所述的模型训练方法。

14.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质用于存储计算机程序，所述计算机程序用于执行权利要求1-11中任意一项所述的模型训练方法。

15.一种包括指令的计算机程序产品，当其在计算机上运行时，使得所述计算机执行权利要求1-11任意一项所述的模型训练方法。