CN116983656A

CN116983656A - 决策模型的训练方法、装置、设备及存储介质

Info

Publication number: CN116983656A
Application number: CN202311266701.5A
Authority: CN
Inventors: 姚兴虎; 陈悉儿
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2023-09-28
Filing date: 2023-09-28
Publication date: 2023-11-03
Anticipated expiration: 2043-09-28
Also published as: CN116983656B

Abstract

本申请实施例公开了一种决策模型的训练方法、装置、设备及存储介质，属于人工智能技术领域。该方法包括：将第一样本对局状态信息以及第一样本任务输入任务网络，得到任务网络输出的第一样本任务参数；基于第一样本任务参数，通过强化学习方式对任务网络进行训练，得到训练后的任务网络；将第二样本对局状态信息输入决策模型，得到决策模型输出的第二样本任务参数，决策模型包括调度网络以及训练后的任务网络，调度网络用于基于第二样本对局状态信息向任务网络输出第二样本任务；基于第二样本任务以及第二样本任务参数，通过强化学习方式联合训练调度网络和任务网络；提高了决策模型的训练效率，且提高了决策模型输出任务参数的准确性。

Description

决策模型的训练方法、装置、设备及存储介质

技术领域

本申请实施例涉及人工智能技术领域，特别涉及一种决策模型的训练方法、装置、设备及存储介质。

背景技术

近年来游戏类人工智能技术获得了巨大的进展，但游戏中复杂的多智能体问题仍然面临很多挑战。

相关技术中，为了解决复杂多智能体决策问题，在对复杂多智能体进行训练的过程中，直接将复杂多智能体游戏中的最终任务奖励信号作为训练奖励信号，而复杂多智能体游戏的奖励信号通常较稀疏且带有延迟性，导致对多智能体决策能力的训练效果较差。

发明内容

本申请实施例提供了一种决策模型的训练方法、装置、设备及存储介质，能够提高决策模型的训练效率，并且提高决策模型输出任务参数的准确性。所述技术方案如下。

一方面，本申请实施例提供了一种决策模型的训练方法，所述方法包括：

将第一样本对局状态信息以及第一样本任务输入任务网络，得到所述任务网络输出的第一样本任务参数，所述第一样本任务参数是对局中虚拟对象执行所述第一样本任务所采用的参数；

基于所述第一样本任务参数，通过强化学习方式对所述任务网络进行训练，得到训练后的所述任务网络；

将第二样本对局状态信息输入决策模型，得到所述决策模型输出的第二样本任务参数，所述决策模型包括调度网络以及训练后的所述任务网络，所述调度网络用于基于所述第二样本对局状态信息向所述任务网络输出第二样本任务，所述第二样本任务参数是对局中虚拟对象执行所述第二样本任务所采用的参数；

基于所述第二样本任务以及所述第二样本任务参数，通过强化学习方式联合训练所述调度网络和所述任务网络。

另一方面，本申请实施例提供了一种决策模型的训练装置，所述装置包括：

第一输出模块，用于将第一样本对局状态信息以及第一样本任务输入任务网络，得到所述任务网络输出的第一样本任务参数，所述第一样本任务参数是对局中虚拟对象执行所述第一样本任务所采用的参数；

第一训练模块，用于基于所述第一样本任务参数，通过强化学习方式对所述任务网络进行训练，得到训练后的所述任务网络；

第二输出模块，用于将第二样本对局状态信息输入决策模型，得到所述决策模型输出的第二样本任务参数，所述决策模型包括调度网络以及训练后的所述任务网络，所述调度网络用于基于所述第二样本对局状态信息向所述任务网络输出第二样本任务，所述第二样本任务参数是对局中虚拟对象执行所述第二样本任务所采用的参数；

第二训练模块，用于基于所述第二样本任务以及所述第二样本任务参数，通过强化学习方式联合训练所述调度网络和所述任务网络。

另一方面，本申请实施例提供了一种计算机设备，所述计算机设备包括处理器和存储器，所述存储器中存储有至少一条指令，所述至少一条指令由所述处理器加载并执行以实现如上述方面所述的决策模型的训练方法。

另一方面，本申请实施例提供了一种计算机可读存储介质，所述可读存储介质中存储有至少一条指令，所述至少一条指令由处理器加载并执行以实现如上述方面所述的决策模型的训练方法。

另一方面，本申请实施例提供了一种计算机程序产品，该计算机程序产品包括计算机指令，该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令，处理器执行该计算机指令，使得该计算机设备执行上述方面提供的决策模型的训练方法。

本申请实施例中，在对决策模型进行训练的过程中，首先通过将第一样本对局状态信息以及第一样本任务输入任务网络，得到由任务网络输出的第一样本任务参数，并基于第一样本任务参数通过强化学习的方式对任务网络进行训练，从而得到训练后的任务网络，进而由调度网络以及训练后的任务网络构成决策模型，通过将第二样本对局状态信息输入决策模型，得到由调度网络输出的第二样本任务以及由任务网络输出的第二样本任务参数，并基于第二样本任务以及第二样本任务参数，通过强化学习的方式对调度网络和任务网络进行联合训练；通过先训练任务网络，再对调度网络和任务网络进行联合训练，提高了决策模型的训练效率，且提高了决策模型输出任务参数的准确性。

附图说明

为了更清楚地说明本申请实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1示出了本申请一个实施例提供的实施环境的示意图；

图2示出了本申请一个示例性实施例提供的决策模型的训练方法的流程图；

图3示出了本申请另一个示例性实施例提供的决策模型的训练方法的流程图；

图4示出了本申请一个示例性实施例提供的决策模型结构图；

图5示出了本申请又一个示例性实施例提供的决策模型的训练方法的流程图；

图6示出了本申请另一个示例性实施例提供的决策模型结构图；

图7示出了本申请一个示例性实施例提供的FuN算法、PPOC算法与MAPPO算法的有效性验证曲线图；

图8示出了本申请一个示例性实施例提供的不同算法网络结构下对战WeKick的性能曲线图；

图9示出了本申请一个示例性实施例提供的不同算法的ELO分数对比柱状图；

图10示出了本申请一个示例性实施例提供的加入动态打断机制后的训练曲线图；

图11示出了本申请一个示例性实施例提供的原子任务网络的使用率曲线图；

图12示出了本申请一个示例性实施例提供的决策模型的训练装置的结构框图；

图13示出了本申请一个示例性实施例提供的计算机设备的结构示意图。

具体实施方式

为使本申请的目的、技术方案和优点更加清楚，下面将结合附图对本申请实施方式作进一步地详细描述。

人工智能（Artificial Intelligence，AI）是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能，感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说，人工智能是计算机科学的一个综合技术，它企图了解智能的实质，并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法，使机器具有感知、推理与决策的功能。

人工智能技术是一门综合学科，涉及领域广泛，既有硬件层面的技术也有软件层面的技术。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。

机器学习（Machine Learning，ML）是一门多领域交叉学科，涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为，以获取新的知识或技能，重新组织已有的知识结构使之不断改善自身的性能。机器学习是人工智能的核心，是使计算机具有智能的根本途径，其应用遍及人工智能的各个领域。机器学习和深度学习通常包括人工神经网络、置信网络、强化学习、迁移学习、归纳学习、示教学习等技术。

随着人工智能技术研究和进步，人工智能技术在多个领域展开研究和应用，例如常见的智能家居、智能穿戴设备、虚拟助理、智能音箱、智能营销、无人驾驶、自动驾驶、无人机、机器人、智能医疗、智能客服等，相信随着技术的发展，人工智能技术将在更多的领域得到应用，并发挥越来越重要的价值。

本申请实施例提供的方案涉及人工智能的机器学习等技术，具体通过如下实施例进行说明。

请参考图1，其示出了本申请一个实施例提供的实施环境的示意图。该实施环境中包括终端120和服务器140。其中，终端120与服务器140之间通过通信网络进行数据通信，可选地，通信网络可以是有线网络也可以是无线网络，且该通信网络可以是局域网、城域网以及广域网中的至少一种。

终端120是安装有具有训练决策模型功能的应用程序的电子设备。其中，该训练决策模型功能可以为终端中原生应用的功能，或者，第三方应用的功能；该电子设备可以是智能手机、平板电脑、个人计算机、可穿戴式设备或车载终端等等，图1中，以终端120为个人计算机为例进行说明，但并不对此构成限定。

服务器140可以是独立的物理服务器，也可以是多个物理服务器构成的服务器集群或者分布式系统，还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、内容分发网络（Content Delivery Network，CDN）、以及大数据和人工智能平台等基础云计算服务的云服务器。本申请实施例中，服务器140可以为具有训练决策模型功能的应用的后台服务器。

在一种可能的实施方式下，如图1所示，服务器140和终端120之间存在数据交互。在终端120获取到第一样本对局状态信息以及第一样本任务的情况下，终端120将第一样本对局状态信息以及第一样本任务发送给服务器140，从而由服务器140通过任务网络输出第一样本任务参数，并基于第一样本任务参数对任务网络进行训练，得到训练后的任务网络；进一步的，终端120在获取到第二样本对局状态信息的情况下，将第二样本对局状态信息发送给服务器140，由服务器140通过决策模型，输出第二样本任务以及第二样本任务参数，并基于第二样本任务以及第二样本任务参数，对调度网络和任务网络进行联合训练。

请参考图2，其示出了本申请一个示例性实施例提供的决策模型的训练方法的流程图，本实施例以该方法用于计算机设备（包括终端120和/或服务器140）为例进行说明，该方法包括如下步骤。

步骤201，将第一样本对局状态信息以及第一样本任务输入任务网络，得到任务网络输出的第一样本任务参数，第一样本任务参数是对局中虚拟对象执行第一样本任务所采用的参数。

不同于相关技术中，直接将样本对局状态信息输入包含有调度网络和任务网络的决策模型，并根据决策模型输出的样本任务参数，对调度网络和任务网络进行整体训练，导致在奖励稀疏的情况下，训练效率较低，降低了决策模型输出的准确性，本申请实施例中，为了提高任务网络输出的任务参数的准确性，首先对任务网络进行单独训练。

在一些实施例中，计算机设备首先将第一样本对局状态信息以及第一样本任务输入任务网络，由任务网络输出第一样本任务对应的第一样本任务参数。

可选的，第一样本对局状态信息包括虚拟对局中的虚拟环境信息以及虚拟对象信息，其中，虚拟对象信息既包括负责基于任务参数执行任务的虚拟对象的对象状态信息，也包括虚拟环境中的其他虚拟对象状态信息。

可选的，虚拟对象状态信息可以包括虚拟对象的生命值信息、攻击值信息、拥有道具的道具信息等等，本申请实施例对此不作限定。

可选的，任务网络的网络结构中可以包括全连接层（Multilayer Perceptron，MLP）、长短期记忆递归神经网络（Long Short Term Memory，LSTM）、注意力模块（Transformer）、策略网络（Actor）以及价值网络（Critic），其中，Actor网络负责根据状态信息以及动作目标生成动作参数，Critic网络负责对Actor网络输出的动作参数进行评价。

可选的，任务网络可以输出不同任务类型的任务参数。比如，在虚拟对局为游戏对局的情况下，任务类型可以包括奔跑、跳跃、射击、攻击、使用虚拟道具等等，在任务类型为奔跑的情况下，任务参数可以包括奔跑速度、奔跑距离、奔跑时间、奔跑起点和终点等。再比如，在虚拟对局为足球比赛的情况下，任务类型可以包括移动、射门、传球、防守等，在任务类型为传球的情况下，任务参数可以包括传球对象、传球方向、传球距离等。

可选的，第一样本任务是指虚拟对局中控制虚拟对象执行的任务，第一样本任务参数是指虚拟对局中虚拟对象执行第一样本任务所采用的参数。

在一个示意性的例子中，在将决策模型应用于足球比赛中的各个智能体的情况下，第一样本任务可以是移动任务、射门任务、传球任务、防守任务、奔跑任务等，第一样本对局状态信息可以包括足球场内的双方比分情况、处于队友关系的虚拟对象之间的传球配合情况、处于对局状态的虚拟对象之间的拦球和截球情况等，从而在将传球任务以及球场对局信息输入任务网络的情况下，可以得到任务网络输出的传球任务参数，包括传球对象、传球方向、传球距离等。

步骤202，基于第一样本任务参数，通过强化学习方式对任务网络进行训练，得到训练后的任务网络。

不同于相关技术中，通过大量专家数据对任务网络进行训练，导致任务网络的训练质量取决于专家数据的质量，本申请实施例中，通过强化学习的方式，基于第一样本任务参数对任务网络进行训练。

在一种可能的实施方式中，在得到任务网络输出的第一样本任务参数之后，计算机设备即可以通过强化学习的方式，对任务网络进行训练，从而得到训练后的任务网络。

可选的，强化学习的方式可以通过近端策略优化（Proximal PolicyOptimization，PPO）算法实现，在利用决策模型处理多个智能体的决策问题的情况下，则可以通过多智能体近端策略优化（Multi-Agent Proximal Policy Optimization，MAPPO）算法实现，本申请实施例对强化学习方式并不作具体限定。

在一些实施例中，在经过第一轮次将第一样本对局状态信息以及第一样本任务输入任务网络之后，计算机设备则可以得到第一轮次对应的第一样本任务参数，从而基于第一轮次对应的第一样本任务参数，对任务网络进行训练之后，则可以得到经过第一轮次训练的任务网络，进而在进行第二轮次将第一样本对局状态信息以及第一样本任务输入任务网络的过程中，计算机设备即可以得到未经过训练的任务网络输出的第一样本任务参数，以及经过第一轮次训练的任务网络输出的第一样本任务参数，从而基于两种第一样本任务参数，确定用于任务网络第二轮次训练的任务损失，并对任务网络进行训练，进而以此类推，对任务网络进行更多轮次的训练，得到训练后的任务网络。

步骤203，将第二样本对局状态信息输入决策模型，得到决策模型输出的第二样本任务参数，决策模型包括调度网络以及训练后的任务网络，调度网络用于基于第二样本对局状态信息向任务网络输出第二样本任务，第二样本任务参数是对局中虚拟对象执行第二样本任务所采用的参数。

在一些实施例中，在基于第一样本任务参数对任务网络进行训练，得到训练后的任务网络之后，计算机设备即可以将训练后的任务网络和调度网络结合，得到决策模型。

与单独对任务网络进行训练时，直接将第一样本任务输入任务网络不同，在对决策模型进行整体训练的过程中，计算机设备只需要将第二样本对局状态信息输入决策模型，从而由决策模型中的调度网络根据第二样本对局状态信息向任务网络输出第二样本任务，进而任务网络根据第二样本对局状态信息以及第二样本任务输出第二样本任务参数。

可选的，第二样本任务参数是指对局中虚拟对象执行第二样本任务所采用的参数。

在一个示意性的例子中，在将决策模型应用于足球比赛中的各个智能体的情况下，第二样本对局状态信息可以包括足球场内的双方比分情况、处于队友关系的虚拟对象之间的传球配合情况、处于对局状态的虚拟对象之间的拦球和截球情况等，从而计算机设备将第二样本对局状态信息输入调度网络，由调度网络根据第二样本对局状态信息向任务网络输出第二样本任务，比如，第二样本任务为移动任务，从而任务网络根据第二样本对局状态信息以及移动任务输出第二样本任务参数，比如，第二样本任务参数可以包括移动速度、移动方向、移动距离等。

步骤204，基于第二样本任务以及第二样本任务参数，通过强化学习方式联合训练调度网络和任务网络。

在一些实施例中，在得到调度网络输出的第二样本任务以及任务网络输出的第二样本任务参数之后，计算机设备则可以根据第二样本任务以及第二样本任务参数，通过强化学习方式，对调度网络和任务网络进行联合训练。

在一些实施例中，在经过第一轮次将第二样本对局状态信息输入决策模型之后，计算机设备则可以得到第一轮次对应的第二样本任务以及第二样本任务参数，从而基于第一轮次对应的第二样本任务以及第二样本任务参数，对调度网络和任务网络进行联合训练之后，则可以得到经过第一轮次训练的决策模型，进而在进行第二轮次将第二样本对局状态信息输入决策模型的过程中，计算机设备则可以得到未经过训练的决策模型输出的第二样本任务以及第二样本任务参数，以及经过第一轮次训练的决策模型输出的第二样本任务以及第二样本任务参数，从而基于两种第二样本任务以及第二样本任务参数，对调度网络和任务网络进行联合训练，进而以此类推，对调度网络和任务网络进行更多轮次的联合训练，得到训练后的决策模型。

综上所述，本申请实施例中，在对决策模型进行训练的过程中，首先通过将第一样本对局状态信息以及第一样本任务输入任务网络，得到由任务网络输出的第一样本任务参数，并基于第一样本任务参数通过强化学习的方式对任务网络进行训练，从而得到训练后的任务网络，进而由调度网络以及训练后的任务网络构成决策模型，通过将第二样本对局状态信息输入决策模型，得到由调度网络输出的第二样本任务以及由任务网络输出的第二样本任务参数，并基于第二样本任务以及第二样本任务参数，通过强化学习的方式对调度网络和任务网络进行联合训练；通过先训练任务网络，再对调度网络和任务网络进行联合训练，提高了决策模型的训练效率，且提高了决策模型输出任务参数的准确性。

比如，对于长时间对局（比如足球比赛），一般只有在赢得比赛，或者进球的情况下，才可以获得长周期奖励，如果直接基于长周期奖励对任务网络和调度网络进行联合训练，可能会导致训练优化效果不明显，而通过先利用一系列短周期任务获取任务奖励，对任务网络进行训练，再加入调度网络进行联合训练，则可以有效解决长时间对局中奖励稀疏和延迟的问题，提高决策模型的整体训练效率。

在一些实施例中，考虑到决策模型中既包括调度网络，还包括任务网络，因此为了提高对调度网络和任务网络的联合训练效率，计算机设备还可以分别确定调度网络对应的调度损失以及任务网络对应的任务损失，从而对调度网络和任务网络进行联合训练。

请参考图3，其示出了本申请一个示例性实施例提供的决策模型的训练方法的流程图，本实施例以该方法用于计算机设备（包括终端120和/或服务器140）为例进行说明，该方法包括如下步骤。

步骤301，将第一样本对局状态信息以及第一样本任务输入任务网络，得到任务网络输出的第一样本任务参数，第一样本任务参数是对局中虚拟对象执行第一样本任务所采用的参数。

本步骤的具体实施方式可以参考步骤201，本实施例在此不作赘述。

步骤302，基于第一样本任务参数，通过强化学习方式确定任务网络的第三任务损失。

在一些实施例中，计算机设备可以采用基于近端策略优化算法的强化学习方式，确定任务网络的第三任务损失。

在一种可能的实施方式中，可以将第一样本对局状态信息表示为，第一样本任务表示为/>，从而在将第一样本对局状态信息/>以及第一样本任务/>输入任务网络，得到第一样本任务参数/>的过程可以表示为/>，从而在基于PPO算法，对任务网络进行训练的情况下，则可以通过相邻两个训练轮次对应的任务网络基于同一时刻的第一样本对局状态信息，输出/>以及/>，从而得到任务奖励为。

进一步的，为了在训练过程中，在提高对任务网络的训练效果同时，避免相邻训练轮次之间的任务参数输出差异过大，根据PPO算法，还可以根据任务奖励，确定任务网络对应的ratio截断函数，以及任务网络对应的优势函数/>。

可选的，任务网络对应的ratio截断函数可以表示为，其中，/>为超参数，表示进行截断操作的范围，一般取0.2。

可选的，任务网络对应的优势函数可以表示为。

其中，，/>。

进一步的，计算机设备即可以根据任务奖励、截断函数/>以及优势函数，确定出任务网络对应的第三任务损失/>，其中，。

步骤303，基于第三任务损失，对任务网络进行训练，得到训练后的任务网络。

在一些实施例中，在确定当前训练轮次对应的第三任务损失后，计算机设备即可以基于第三任务损失，对任务网络进行训练，从而以此类推，对任务网络进行多轮次训练后，即可以得到训练后的任务网络。

步骤304，将第二样本对局状态信息输入调度网络，得到调度网络输出的第二样本任务。

在一些实施例中，在得到训练后的任务网络之后，计算机设备即可以将训练后的任务网络和调度网络一起构成决策模型，并将第二样本对局状态信息输入调度网络，通过调度网络输出第二样本任务。

在一些实施例中，计算机设备获取t时刻的第二样本对局状态信息，并将其输入调度网络，从而得到t时刻的第二样本任务，并在t时刻虚拟对象执行完第二样本任务之后，继续获取t+1时刻的第二样本对局状态信息，将其输入调度网络，从而得到t+1时刻的第二样本任务。

步骤305，将第二样本任务以及第二样本对局状态信息输入任务网络，得到任务网络输出的第二样本任务参数。

在一些实施例中，在得到调度网络输出的第二样本任务之后，计算机设备则可以将第二样本任务以及第二样本对局状态信息输入任务网络，从而得到任务网络输出的第二样本任务参数。

在一些实施例中，在得到t时刻的第二样本任务之后，计算机设备则将t时刻的第二样本任务以及t时刻的第二样本对局状态信息输入任务网络，从而得到t时刻的第二样本任务参数，并控制虚拟对象基于t时刻的第二样本任务参数执行t时刻的第二样本任务，进一步的，计算机设备获取t+1时刻的第二样本对局状态信息，并通过调度网络得到t+1时刻的第二样本任务，进而基于任务网络，得到t+1时刻的第二样本任务参数，并控制虚拟对象基于t+1时刻的第二样本任务参数继续执行t+1时刻的第二样本任务。

在一些实施例中，考虑到任务执行过程具有连续性，即虚拟对象执行的样本任务并不是每时每刻都在发生变化的，可能同一样本任务需要连续多个时刻才会执行完成，比如，t时刻的第二样本任务为移动任务，t时刻的第二样本任务参数中移动时长为3秒，则计算机设备可以在得到任务网络输出的第二样本任务参数之后，基于第二样本任务参数中的任务执行时长，确定通过调度网络输出第二样本任务的时刻，比如，t时刻的第二样本任务参数中任务执行时长为3秒，则在t时刻到t+2时刻之间，调度网络则不需要向任务网络输出第二样本任务，任务网络可以根据 t+1时刻的第二样本对局状态信息以及t时刻的第二样本任务，继续输出t+1时刻的第二样本任务参数，根据t+2时刻的第二样本对局状态信息以及t时刻的第二样本任务，继续输出t+2时刻的第二样本任务参数，进而由调度网络根据t+3时刻的第二样本对局状态信息，向任务网络重新输出t+3时刻的第二样本任务。

在一些实施例中，为了进一步优化调度网络的样本任务输出准确性，并且考虑到虚拟对象在实际执行任务的过程中，也可能存在任务执行超时等问题，因此计算机设备还可以在任务网络中设置内部终止函数，用于决定是否终止当前正在执行的样本任务。

在一种可能的实施方式中，任务网络可以根据当前时刻的第二样本对局状态信息以及上一时刻的第二样本任务确定任务终止条件的满足情况，比如，上一时刻的第二样本任务存在执行超时的情况时，即可以确定满足任务终止条件。

在一种可能的实施方式中，当前时刻的第二样本对局状态信息可以表示为，上一时刻的第二样本任务可以表示为/>，从而任务终止函数可以表示为，在输出为0的情况下，表示不满足任务终止条件；在输出为1的情况下，表示满足任务终止条件。

可选的，在满足任务终止条件的情况下，计算机设备可以将当前时刻的第二样本对局状态信息输入调度网络，从而得到调度网络输出的当前时刻的第二样本任务，并由任务网络根据当前时刻的第二样本任务以及当前时刻的第二样本对局状态信息，输出当前时刻的第二样本任务参数。

可选的，在不满足任务终止条件的情况下，计算机设备即可以将上一时刻的第二样本任务确定为当前时刻的第二样本任务，并由任务网络根据当前时刻的第二样本对局状态信息以及上一时刻的第二样本任务，输出当前时刻的第二样本任务参数。

在一种可能的实施方式中，为了进一步提高调度网络的任务输出准确性，除了可以在任务网络中设置内部终止函数，由任务网络决定是否终止当前正在执行的样本任务，计算机设备还可以在调度网络中设置动态打断机制，由调度网络决定是否结束当前正在执行的样本任务。

在一种可能的实施方式中，调度网络可以根据当前时刻的第二样本对局状态信息和上一时刻的第二样本任务确定是否满足动态打断条件，其中，当前时刻的第二样本对局状态信息可以表示为，上一时刻的第二样本任务/>，从而判断动态打断条件的过程可以表示为/>，在/>的情况下，表示结束当前正在执行的样本任务；在/>的情况下，表示沿用当前正在执行的样本任务。

在一种可能的实施方式中，在调度网络基于当前时刻的第二样本对局状态信息和上一时刻的第二样本任务确定满足动态打断条件的情况下，可以向任务网络发送打断信号，同时输出当前时刻的第二样本任务，从而在任务网络接收到打断信号以及当前时刻的第二样本任务的情况下，则基于当前时刻的第二样本任务以及第二样本对局状态信息输出当前时刻的第二样本任务参数。

在一种可能的实施方式中，在调度网络基于当前时刻的第二样本对局状态信息和上一时刻的第二样本任务确定不满足动态打断条件的情况下，可以向任务网络发送沿用信号，同时将上一时刻的第二样本任务作为当前时刻的第二样本任务输出给任务网络，从而在任务网络接收到沿用信号，以及作为当前时刻的第二样本任务的上一时刻的第二样本任务的情况下，则可以根据上一时刻的第二样本任务以及当前时刻的第二样本对局状态信息输出当前时刻的第二样本任务参数。

在一种可能的实施方式中，在调度网络中设置有动态打断机制，同时任务网络中设置有内部终止函数的情况下，动态打断机制可以表示为，内部终止函数可以表示为/>，其中，/>则表示由第二样本任务/>和动态打断机制/>共同构成的调度网络的输出。

在一种可能的实施方式中，在调度网络中设置有动态打断机制，同时任务网络中设置有内部终止函数的情况下，调度网络的任务输出过程可以表示为。

其中，表示满足任务网络的内部任务终止条件，从而调度网络则需要重新输出第二样本任务；/>表示不满足任务网络的内部任务终止条件，从而则需要调度网络进一步判断是否满足动态打断条件，其中，/>表示不满足动态打断条件，则调度网络输出沿用信号，并将上一时刻的第二样本任务作为当前时刻的第二样本任务；/>表示满足动态打断条件，则调度网络输出打断信号，并重新确定当前时刻的第二样本任务。

示意性的，如图4所示，以将决策模型应用于足球比赛中的各个智能体为例，计算机设备基于虚拟对局环境获取样本对局状态信息，并将其输入调度网络401，从而由调度网络401输出样本任务给到任务网络402，其中，任务网络402中可以输出的任务参数包括移动任务参数、传球任务参数、防守任务参数以及射门任务参数，任务网络402的网络结构中包括全连接层、LSTM、注意力模块、策略网络π以及价值网络V，调度网络401中包括动态打断机制。

步骤306，基于第二样本任务，通过强化学习方式确定调度网络的第一调度损失。

在一些实施例中，在通过决策模型中的调度网络和任务网络，分别输出第二样本任务以及第二样本任务参数之后，计算机设备则需要分别确定第一调度损失以及第一任务损失。

在一种可能的实施方式中，计算机设备可以采用基于近端策略优化算法的强化学习方式，确定任务网络的第一任务损失以及调度网络的第一任务损失。而为了保证损失计算的准确性，在确定使用基于PPO算法的强化学习方式确定损失之前，计算机设备还需要基于第二样本任务以及第二样本任务参数，通过计算对应的策略梯度表达形式，判断应用PPO算法的强化学习方式确定损失的可行性。

在一种可能的实施方式中，在包含动态打断机制的情况下调度网络的策略输出可以表示为，任务网络的策略输出可以表示为/>，从而策略梯度表达式可以表示为/>。

其中，策略梯度表达式中要求任务网络中不同任务之间具有足够的差异性，并且能够被调度网络输出的样本任务所控制，而本申请实施例中任务网络中不同任务之间具有足够的差异性，并且能够被调度网络输出的样本任务所控制。

在一种可能的实施方式中，计算机设备基于PPO算法，基于第二样本任务，确定调度网络对应的第一调度损失。

可选的，计算机设备将第二样本对局状态信息表示为，从而在将第二样本对局状态信息/>输入调度网络，得到第二样本任务/>的过程可以表示为/>，从而在基于PPO算法，确定第一调度损失的情况下，则可以通过相邻两个训练轮次对应的调度网络基于同一时刻的第二样本对局状态信息，输出/>以及/>，从而得到任务奖励为/>。

进一步的，为了在训练过程中，在提高对调度网络的训练效果同时，避免相邻训练轮次之间的调度网络输出策略差异过大，根据PPO算法，还可以根据调度奖励，确定调度网络对应的ratio截断函数，以及调度网络对应的优势函数/>。

可选的，调度网络对应的ratio截断函数可以表示为，其中，/>为超参数，表示进行截断操作的范围，一般取0.2。

可选的，调度网络对应的优势函数可以表示为。

其中，，/>。

进一步的，计算机设备即可以根据调度奖励、截断函数/>以及优势函数，确定出调度网络对应的第一调度损失/>，其中，。

步骤307，基于第二样本任务参数，通过强化学习方式确定任务网络的第一任务损失。

在一种可能的实施方式中，计算机设备基于PPO算法，基于第二样本任务参数，确定任务网络对应的第一任务损失。

可选的，计算机设备可以将第二样本对局状态信息表示为，第二样本任务表示为/>，从而在将第二样本对局状态信息/>以及第二样本任务/>输入任务网络，得到第二样本任务参数/>的过程可以表示为/>，从而在基于PPO算法，对任务网络进行训练的情况下，则可以通过相邻两个训练轮次对应的任务网络基于同一时刻的第二样本对局状态信息，输出/>以及/>，从而得到任务奖励为。

可选的，任务网络对应的优势函数可以表示为。

其中，，/>。/>

进一步的，计算机设备即可以根据任务奖励、截断函数/>以及优势函数，确定出任务网络对应的第一任务损失/>，其中，。

步骤308，基于第一调度损失和第一任务损失联合训练调度网络和任务网络。

在一种可能的实施方式中，在得到第一调度损失和第一任务损失的情况下，计算机设备即可以基于第一调度损失和第一任务损失对调度网络和任务网络进行联合训练。

在一种可能的实施方式中，通过对第一调度损失和第一任务损失进行求和，可以得到决策模型的目标优化函数。可选的，目标优化函数/>可以表示为。

上述实施例中，在对调度网络和任务网络进行联合训练的过程中，通过基于PPO算法的强化学习方式分别确定调度网络对应的第一调度损失以及任务网络对应的第一任务损失，并基于第一调度损失和第一任务损失，对调度网络和任务网络进行联合训练，提高了对决策模型的训练效率。

并且，通过分别在任务网络中添加内部任务终止函数，在调度网络中添加动态打断机制，可以避免虚拟对象出现任务执行超时等情况，提高了任务输出策略的准确性，进而提高了任务参数输出策略的准确性。

在一些实施例中，考虑到如果虚拟对象仅能够根据调度网络输出的样本任务以及任务网络输出的任务参数执行任务，那么虚拟对象能够执行的任务类型则具有局限性，并不符合真实对象的任务执行过程，因此为了优化虚拟对象的任务执行类型，计算机设备还可以在决策模型中设置原子任务网络，由原子任务网络直接根据样本对局状态信息输出任务参数。

在一种可能的实施方式中，为了合理运用调度网络和任务网络，以及原子任务网络，计算机设备还可以在调度网络中设置原子任务调度器，由原子任务调度器确定对原子任务网络的调度情况。

请参考图5，其示出了本申请一个示例性实施例提供的决策模型的训练方法的流程图，本实施例以该方法用于计算机设备（包括终端120和/或服务器140）为例进行说明，该方法包括如下步骤。

步骤501，将第三样本对局状态信息输入原子任务调度器，得到原子任务调度器输出的样本调度信号。

在一种可能的实施方式中，计算机设备将第三样本对局状态信息输入原子任务调度器，由原子任务调度器根据第三样本对局状态信息输出样本调度信号，该样本调度信号用于指示是否调用原子任务网络。

可选的，第三样本对局状态信息可以表示为，原子任务调度器可以表示为，其中，在输出为0的情况下，则表示不调用原子任务网络；在输出为1的情况下，则表示调用原子任务网络。/>

示意性的，如图6所示，决策模型中除了包括调度网络601和任务网络602，还包括原子任务网络603，并且对应于原子任务网络603，调度网络601中还增加有原子任务调度器。

步骤502，在样本调度信号指示不调用原子任务网络的情况下，将第三样本对局状态信息输入调度网络，得到调度网络输出的第三样本任务。

在一种可能的实施方式中，在样本调度信号指示不调用原子任务网络的情况下，计算机设备即可以将第三样本对局状态信息输入调度网络，由调度网络根据第三样本对局状态信息输出第三样本任务。

步骤503，将第三样本任务以及第三样本对局状态信息输入任务网络，得到任务网络输出第三样本任务参数，第三样本任务参数是对局中虚拟对象执行第三样本任务所采用的参数。

进一步的，在得到调度网络输出的第三样本任务之后，计算机设备则可以将第三样本对局状态信息以及第三样本任务输入到任务网络，得到任务网络输出的第三样本任务参数。

可选的，第三样本任务参数是指对局中虚拟对象执行第三样本任务所采用的参数。

步骤504，在样本调度信号指示调用原子任务网络的情况下，将第三样本对局状态信息输入原子任务网络，得到原子任务网络输出的第四样本任务参数，第四样本任务参数是对局中虚拟对象执行原子任务所采用的参数。

在一种可能的实施方式中，在样本调度信号指示调用原子任务网络的情况下，计算机则不再需要通过调度网络确定第三样本任务，而是直接将第三样本对局状态信息输入原子任务网络，由原子任务网络根据第三样本对局状态信息直接输出第四样本任务参数。

可选的，通过原子任务网络根据第三样本对局状态信息输出第四样本任务参数的过程可以表示为/>。

可选的，第四样本任务参数是指对局中虚拟对象执行原子任务所采用的参数。可选的，原子任务可以是与通过调度网络输出的样本任务相同的任务，也可以是与通过调度网络输出的样本任务不同的任务。

在一个示意性的例子中，在将决策模型应用于足球比赛中的各个智能体的情况下，第三样本对局状态信息可以包括足球场内的双方比分情况、处于队友关系的虚拟对象之间的传球配合情况、处于对局状态的虚拟对象之间的拦球和截球情况等，通过调度网络输出的第三样本任务可以包括移动任务、传球任务、射门任务、防守任务，而如果由原子任务网络直接输出第四样本任务参数，则第四样本任务参数可能就是移动任务参数，也可能是除上述任务以外的，比如跳跃任务参数等。

步骤505，基于第三样本任务、第三样本任务参数、样本调度信号以及第四样本任务参数，通过强化学习方式联合训练调度网络、任务网络以及原子任务网络。

在一种可能的实施方式中，在加入原子任务网络之后，计算机设备则需要根据第三样本任务、第三样本任务参数、样本调度信号以及第四样本任务参数，通过强化学习方式对调度网络、任务网络以及原子任务网络进行联合训练。

在一种可能的实施方式中，计算机设备需要分别根据第三样本任务，通过强化学习方式确定调度网络的第二调度损失；根据第三样本任务参数，通过强化学习方式确定任务网络的第二任务损失，该过程与联合训练调度网络和任务网络的损失确定过程相同，本实施例在此不作赘述。

在一种可能的实施方式中，计算机设备还需要根据样本调度信号，通过强化学习方式确定调度网络的第三调度损失；根据第四样本任务参数，通过强化学习方式确定原子任务网络的原子任务损失，从而才可以根据第二调度损失、第二任务损失、第三调度损失以及原子任务损失对调度网络、任务网络以及原子任务网络进行联合训练。

在一种可能的实施方式中，调度网络的第三调度损失可以表示为，原子任务网络的原子任务损失可以表示为/>，从而原子任务网络对应的损失函数可以表示为。

进一步的，决策模型的整体损失函数即可以表示为，从而计算机设备基于整体损失函数，对调度网络、任务网络以及原子任务网络进行联合训练。

上述实施例中，通过在决策模型中加入原子任务网络以及原子任务调度器，由原子任务调度器根据对局状态信息确定是否调用原子任务网络，从而将任务参数的输出分为了两种不同的情况，使得任务参数的输出策略更加完整全面，避免了局限于任务网络得到的局部最优任务参数，提高了任务类型输出策略的准确性。

并且，在得到经过训练后的完整决策模型之前，本申请实施例中将训练过程主要分为三个部分，首先第一步是利用第一样本任务以及第一样本对局状态信息，通过短期任务参数奖励对任务网络进行单独训练，以提高任务网络的任务参数输出准确性，其次第二步是利用第二样本对局状态信息，通过长期任务调度奖励和短期任务参数奖励对调度网络和任务网络进行联合训练，进而第三步加入动态打断机制和原子任务网络，对完整决策模型进行训练，相较于直接对完整决策模型进行训练，分步骤对决策模型进行训练，更加有助于提高对决策模型的训练效率。

在一些实施例中，在得到经过训练后的决策模型之后，计算机设备即可以应用决策模型输出目标对局状态信息对应的目标任务参数。

在一些实施例中，计算机设备获取目标对局状态信息，并将目标对局状态信息输入决策模型中的调度网络，得到调度网络输出的目标任务，进而将目标任务以及目标对局状态信息输入决策模型中的任务网络，得到任务网络输出的目标任务参数，该目标任务参数是对局中虚拟对象执行目标任务所采用的参数，从而基于目标任务参数控制虚拟对象在虚拟对局中执行目标任务。

可选的，任务网络中设置有内部任务终止函数，从而计算机设备可以通过任务网络，根据当前时刻的目标对局状态信息以及上一时刻的目标任务确定任务终止条件的满足情况。

在一种可能的实施方式中，在任务网络确定满足任务终止条件的情况下，计算机设备将当前时刻的目标对局状态信息输入调度网络，并得到调度网络输出的当前时刻的目标任务，从而由任务网络根据当前时刻的目标任务以及当前时刻的目标对局状态信息输出目标任务参数。

在另一种可能的实施方式中，在不满足任务终止条件的情况下，计算机设备将上一时刻的目标任务确定为当前时刻的目标任务，并由任务网络根据上一时刻的目标任务以及当前时刻的目标对局状态信息输出当前时刻的目标任务。

可选的，为了进一步提高调度网络的任务输出策略准确性，在调度网络中增加动态打断机制，从而由调度网络根据当前时刻的目标对局状态信息和上一时刻的目标任务判断是否满足动态打断条件。

在一种可能的实施方式中，在调度网络基于当前时刻的目标对局状态信息和上一时刻的目标任务确定满足动态打断条件的情况下，调度网络向任务网络发送打断信号，以及当前时刻的目标任务，从而任务网络在接收到打断信号的情况下，可以根据当前时刻的目标任务以及当前时刻的目标对局状态信息，输出当前时刻的目标任务参数。

在另一种可能的实施方式中，在调度网络基于当前时刻的目标对局状态信息和上一时刻的目标任务确定不满足动态打断条件的情况下，调度网络向任务网络发送沿用信号，从而任务网络在接收到沿用信号的情况下，可以根据上一时刻的目标任务以及当前时刻的目标对局状态信息，输出当前时刻的目标任务参数。

在一种可能的实施方式中，计算机设备通过决策模型，根据一场对局中各个时刻的目标对局状态信息输出各个时刻的目标任务参数，从而得到一场对局下的虚拟对象任务执行轨迹，该执行轨迹可以表示为。

其中，表示一场对局中各个时刻的目标对局状态信息，/>包括调度网络在各个时刻输出的目标任务/>，以及打断信号或者沿用信号/>，/>表示/>对应的任务类型集合的类型数量，/>表示任务网络在各个时刻输出的目标任务参数。

在一些实施例中，为了避免虚拟对象仅能够执行调度网络输出的目标任务，造成任务执行的局限性，计算机设备还可以在决策模型中增加原子任务网络以及原子任务调度器，从而在获取到目标对局状态信息之后，计算机设备可以先将目标对局状态信息输入原子任务调度器，并得到原子任务调度器输出的目标调度信号。

在一种可能的实施方式中，在目标调度信息指示调用原子任务网络的情况下，计算机设备直接将目标对局状态信息输入原子任务网络，由原子任务网络根据目标对局状态信息输出原子任务参数，从而由虚拟对象基于原子任务参数执行相应的原子任务。

在另一种可能的实施方式中，在目标调度信号指示不调用原子任务网络的情况下，计算机设备则将目标对局状态信息输入调度网络，通过调度网络输出目标任务，并由任务网络根据目标任务以及目标对局状态信息输出目标任务参数。

请参考图7，其示出了本申请一个示例性实施例提供的FuN（Feudal Network，联邦网络）算法、PPOC（Proximal Policy Option-Critic，近端选项评论）算法与MAPPO算法的有效性验证曲线图。从图7中可知，通过应用FuN算法、PPOC算法与MAPPO算法分别与当前能力最强的AI是kaggle比赛的冠军WeKick进行对比，MAPPO算法相较于FuN算法、PPOC算法的应用胜率明显更高。

请参考图8，其示出了本申请一个示例性实施例提供的不同算法网络结构下对战WeKick的性能曲线图。从图8可知，将层次化结构引入MAPPO算法得到的HiMAPPO算法、在HiMAPPO算法引入动态打断机制（Dynamic Termination，DT）、在HiMAPPO算法引入原子任务网络（Atom Option，AO）、以及将包括各个子任务的任务网络与动态打断机制、原子任务网络相结合的完整决策模型，四种不同算法网络结构对应的胜率明显不同，完整决策模型的胜率相对更高。

请参考图9，其示出了本申请一个示例性实施例提供的不同算法的ELO分数对比柱状图。如图9所示，从图9中的901和902可知，动态打断机制（DT）和原子任务网络（AO）均能显著提高AI的表现。从图9中的903可知，在当前最强的AI WeKick、HiMAPPO算法以及本方案最终完整模型算法的ELO分数对比中，在足球11v11游戏场景下，本方案所提出的模型框架训练得到的AI具有当前最强的能力。

请参考图10，其示出了本申请一个示例性实施例提供的加入动态打断机制后的训练曲线图。如图10所示，图10中的1001表示移动任务、传球任务、防守任务以及射门任务分别被打断的概率值，图10中的1003表示移动任务、传球任务、防守任务以及射门任务四个任务的执行时长；图10中的1002表示移动拦截（catch）任务、传球catch任务以及射门catch任务分别被打断的概率值，图10中的1004表示移动catch任务、传球catch任务以及射门catch任务三个任务的执行时长。从图10可知，随着训练的进行，多数子任务被打断的概率呈现下降趋势，与之对应每个子任务的执行长度有着上升趋势，多数子任务在5帧以内被结束，这比设置的32帧长的任务默认结束时长要小得多，这意味着动态打断机制缺失在模型能力提升上起到了作用。

请参考图11，其示出了本申请一个示例性实施例提供的原子任务网络的使用率曲线图。从图11中的1101可知，随着训练的进行，原子任务网络使用率持续增加；并且从图11中的1102可知，在完整模型一起训练的过程中，原子任务网络的使用比例也能持续提升并最终保持高比例使用，这意味着原子任务网络能够和动态打断机制联合训练并获得更好的性能。

请参考图12，其示出了本申请一个示例性实施例提供的决策模型的训练装置的结构框图，该装置包括。

第一输出模块1201，用于将第一样本对局状态信息以及第一样本任务输入任务网络，得到所述任务网络输出的第一样本任务参数，所述第一样本任务参数是对局中虚拟对象执行所述第一样本任务所采用的参数；

第一训练模块1202，用于基于所述第一样本任务参数，通过强化学习方式对所述任务网络进行训练，得到训练后的所述任务网络；

第二输出模块1203，用于将第二样本对局状态信息输入决策模型，得到所述决策模型输出的第二样本任务参数，所述决策模型包括调度网络以及训练后的所述任务网络，所述调度网络用于基于所述第二样本对局状态信息向所述任务网络输出第二样本任务，所述第二样本任务参数是对局中虚拟对象执行所述第二样本任务所采用的参数；

第二训练模块1204，用于基于所述第二样本任务以及所述第二样本任务参数，通过强化学习方式联合训练所述调度网络和所述任务网络。

可选的，所述第二输出模块1203，包括：

任务输出单元，用于将所述第二样本对局状态信息输入所述调度网络，得到所述调度网络输出的所述第二样本任务；

参数输出单元，用于将所述第二样本任务以及所述第二样本对局状态信息输入所述任务网络，得到所述任务网络输出的所述第二样本任务参数。

可选的，所述任务输出单元，用于：

在满足任务终止条件的情况下，将当前时刻的所述第二样本对局状态信息输入所述调度网络，得到所述调度网络输出的当前时刻的所述第二样本任务，所述任务终止条件的满足情况由所述任务网络基于当前时刻的所述第二样本对局状态信息以及上一时刻的所述第二样本任务确定得到；

所述装置还包括：

第一确定模块，用于在不满足所述任务终止条件的情况下，将上一时刻的所述第二样本任务确定为当前时刻的所述第二样本任务。

可选的，所述装置还包括：

第一发送模块，用于在基于当前时刻的所述第二样本对局状态信息和上一时刻的所述第二样本任务确定满足动态打断条件的情况下，通过所述调度网络向所述任务网络发送打断信号，其中，在接收到所述打断信号的情况下，所述任务网络用于基于当前时刻的所述第二样本任务以及所述第二样本对局状态信息输出当前时刻的所述第二样本任务参数；

第二发送模块，用于在基于当前时刻的所述第二样本对局状态信息和上一时刻的所述第二样本任务确定不满足所述动态打断条件的情况下，通过所述调度网络向所述任务网络发送沿用信号，其中，在接收到所述沿用信号的情况下，所述任务网络用于基于上一时刻的所述第二样本任务以及当前时刻的所述第二样本对局状态信息输出当前时刻的所述第二样本任务参数。

可选的，所述第二训练模块1204，用于：

基于所述第二样本任务，通过强化学习方式确定所述调度网络的第一调度损失；

基于所述第二样本任务参数，通过强化学习方式确定所述任务网络的第一任务损失；

基于所述第一调度损失和所述第一任务损失联合训练所述调度网络和所述任务网络。

可选的，所述决策模型中还包括原子任务网络，所述调度网络中包括原子任务调度器，所述原子任务调度器用于确定对所述原子任务网络的调度情况；

所述装置还包括：

第三输出模块，用于将第三样本对局状态信息输入所述原子任务调度器，得到所述原子任务调度器输出的样本调度信号；

第四输出模块，用于在所述样本调度信号指示不调用所述原子任务网络的情况下，将所述第三样本对局状态信息输入所述调度网络，得到所述调度网络输出的所述第三样本任务；将所述第三样本任务以及所述第三样本对局状态信息输入所述任务网络，得到所述任务网络输出所述第三样本任务参数，所述第三样本任务参数是对局中虚拟对象执行所述第三样本任务所采用的参数；

第五输出模块，用于在所述样本调度信号指示调用所述原子任务网络的情况下，将所述第三样本对局状态信息输入所述原子任务网络，得到所述原子任务网络输出的第四样本任务参数，所述第四样本任务参数是对局中虚拟对象执行原子任务所采用的参数；

第三训练模块，用于基于所述第三样本任务、所述第三样本任务参数、所述样本调度信号以及所述第四样本任务参数，通过强化学习方式联合训练所述调度网络、所述任务网络以及所述原子任务网络。

可选的，所述第三训练模块，用于：

基于所述第三样本任务，通过强化学习方式确定所述调度网络的第二调度损失；

基于所述第三样本任务参数，通过强化学习方式确定所述任务网络的第二任务损失；

基于所述样本调度信号，通过强化学习方式确定所述调度网络的第三调度损失；

基于所述第四样本任务参数，通过强化学习方式确定所述原子任务网络的原子任务损失；

基于所述第二调度损失、所述第二任务损失、所述第三调度损失以及所述原子任务损失联合训练所述调度网络、所述任务网络以及所述原子任务网络。

可选的，所述第一训练模块1202，用于：

基于所述第一样本任务参数，通过强化学习方式确定所述任务网络的第三任务损失；

基于所述第三任务损失，对所述任务网络进行训练，得到训练后的所述任务网络。

可选的，所述强化学习方式为基于近端策略优化算法的强化学习方式。

可选的，所述装置还包括：

第六输出模块，用于将目标对局状态信息输入所述决策模型中的所述调度网络，得到所述调度网络输出的目标任务；

第七输出模块，用于将所述目标任务以及所述目标对局状态信息输入所述决策模型中的所述任务网络，得到所述任务网络输出的目标任务参数，所述目标任务参数是对局中虚拟对象执行所述目标任务所采用的参数。

可选的，所述第六输出模块，用于：

在满足任务终止条件的情况下，将当前时刻的所述目标对局状态信息输入所述调度网络，得到所述调度网络输出的当前时刻的所述目标任务，所述任务终止条件的满足情况由所述任务网络基于当前时刻的所述目标对局状态信息以及上一时刻的所述目标任务确定得到；

所述装置还包括：

第二确定模块，用于在不满足所述任务终止条件的情况下，将上一时刻的所述目标任务确定为当前时刻的所述目标任务。

可选的，所述装置还包括：

第三发送模块，用于在基于当前时刻的所述目标对局状态信息和上一时刻的所述目标任务确定满足动态打断条件的情况下，通过所述调度网络向所述任务网络发送打断信号，其中，在接收到所述打断信号的情况下，所述任务网络用于基于当前时刻的所述目标任务以及所述目标对局状态信息输出当前时刻的所述目标任务参数；

第四发送模块，用于在基于当前时刻的所述目标对局状态信息和上一时刻的所述目标任务确定不满足所述动态打断条件的情况下，通过所述调度网络向所述任务网络发送沿用信号，其中，在接收到所述沿用信号的情况下，所述任务网络用于基于上一时刻的所述目标任务以及当前时刻的所述目标对局状态信息输出当前时刻的所述目标任务参数。

所述将目标对局状态信息输入所述决策模型中的所述调度网络，得到所述调度网络输出的目标任务之前，所述装置还包括：

第八输出模块，用于将所述目标对局状态信息输入所述原子任务调度器，得到所述原子任务调度器输出的目标调度信号；

所述第六输出模块，用于：

在所述目标调度信号指示不调用所述原子任务网络的情况下，将所述目标对局状态信息输入所述调度网络，得到所述调度网络输出的所述目标任务；

所述装置还包括：

第九输出模块，用于在所述目标调度信号指示调用所述原子任务网络的情况下，将所述目标对局状态信息输入所述原子任务网络，得到所述原子任务网络输出的原子任务参数。

需要说明的是：上述实施例提供的装置，仅以上述各功能模块的划分进行举例说明，实际应用中，可以根据需要而将上述功能分配由不同的功能模块完成，即将装置的内部结构划分成不同的功能模块，以完成以上描述的全部或者部分功能。另外，上述实施例提供的装置与方法实施例属于同一构思，其实现过程详见方法实施例，这里不再赘述。

请参考图13，其示出了本申请一个示例性实施例提供的计算机设备的结构示意图。具体来讲：所述计算机设备1300包括中央处理单元（Central Processing Unit，CPU）1301、包括随机存取存储器1302和只读存储器1303的系统存储器1304，以及连接系统存储器1304和中央处理单元1301的系统总线1305。所述计算机设备1300还包括帮助计算机内的各个器件之间传输信息的基本输入/输出系统（Input/Output，I/O系统）1306，和用于存储操作系统1313、应用程序1314和其他程序模块1315的大容量存储设备1307。

所述基本输入/输出系统1306包括有用于显示信息的显示器1308和用于用户输入信息的诸如鼠标、键盘之类的输入设备1309。其中所述显示器1308和输入设备1309都通过连接到系统总线1305的输入输出控制器1310连接到中央处理单元1301。所述基本输入/输出系统1306还可以包括输入输出控制器1310以用于接收和处理来自键盘、鼠标、或电子触控笔等多个其他设备的输入。类似地，输入输出控制器1310还提供输出到显示屏、打印机或其他类型的输出设备。

所述大容量存储设备1307通过连接到系统总线1305的大容量存储控制器（未示出）连接到中央处理单元1301。所述大容量存储设备1307及其相关联的计算机可读介质为计算机设备1300提供非易失性存储。也就是说，所述大容量存储设备1307可以包括诸如硬盘或者驱动器之类的计算机可读介质（未示出）。

不失一般性，所述计算机可读介质可以包括计算机存储介质和通信介质。计算机存储介质包括以用于存储诸如计算机可读指令、数据结构、程序模块或其他数据等信息的任何方法或技术实现的易失性和非易失性、可移动和不可移动介质。计算机存储介质包括随机存取记忆体（RAM，Random Access Memory）、只读存储器（ROM，Read Only Memory）、闪存或其他固态存储其技术，只读光盘（Compact Disc Read-Only Memory，CD-ROM）、数字通用光盘（Digital Versatile Disc，DVD）或其他光学存储、磁带盒、磁带、磁盘存储或其他磁性存储设备。当然，本领域技术人员可知所述计算机存储介质不局限于上述几种。上述的系统存储器1304和大容量存储设备1307可以统称为存储器。

存储器存储有一个或多个程序，一个或多个程序被配置成由一个或多个中央处理单元1301执行，一个或多个程序包含用于实现上述方法的指令，中央处理单元1301执行该一个或多个程序实现上述各个方法实施例提供的方法。

根据本申请的各种实施例，所述计算机设备1300还可以通过诸如因特网等网络连接到网络上的远程计算机运行。也即计算机设备1300可以通过连接在所述系统总线1305上的网络接口单元1312连接到网络1311，或者说，也可以使用网络接口单元1312来连接到其他类型的网络或远程计算机系统（未示出）。

本申请实施例还提供一种计算机可读存储介质，该可读存储介质中存储有至少一条指令，至少一条指令由处理器加载并执行以实现上述实施例所述的决策模型的训练方法。

可选地，该计算机可读存储介质可以包括：ROM、RAM、固态硬盘（SSD，Solid StateDrives）或光盘等。其中，RAM可以包括电阻式随机存取记忆体（ReRAM，Resistance RandomAccess Memory）和动态随机存取存储器（DRAM，Dynamic Random Access Memory）。

本申请实施例提供了一种计算机程序产品，该计算机程序产品包括计算机指令，该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令，处理器执行该计算机指令，使得该计算机设备执行上述实施例所述的决策模型的训练方法。

本领域普通技术人员可以理解实现上述实施例的全部或部分步骤可以通过硬件来完成，也可以通过程序来指令相关的硬件完成，所述的程序可以存储于一种计算机可读存储介质中，上述提到的存储介质可以是只读存储器，磁盘或光盘等。

以上所述仅为本申请的可选的实施例，并不用以限制本申请，凡在本申请的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本申请的保护范围之内。

Claims

1.一种决策模型的训练方法，其特征在于，所述方法包括：

2.根据权利要求1所述的方法，其特征在于，所述将第二样本对局状态信息输入决策模型，得到所述决策模型输出的第二样本任务参数，包括：

将所述第二样本对局状态信息输入所述调度网络，得到所述调度网络输出的所述第二样本任务；

将所述第二样本任务以及所述第二样本对局状态信息输入所述任务网络，得到所述任务网络输出的所述第二样本任务参数。

3.根据权利要求2所述的方法，其特征在于，所述将所述第二样本对局状态信息输入所述调度网络，得到所述调度网络输出的所述第二样本任务，包括：

所述方法还包括：

在不满足所述任务终止条件的情况下，将上一时刻的所述第二样本任务确定为当前时刻的所述第二样本任务。

4.根据权利要求2所述的方法，其特征在于，所述方法还包括：

在基于当前时刻的所述第二样本对局状态信息和上一时刻的所述第二样本任务确定满足动态打断条件的情况下，通过所述调度网络向所述任务网络发送打断信号，其中，在接收到所述打断信号的情况下，所述任务网络用于基于当前时刻的所述第二样本任务以及所述第二样本对局状态信息输出当前时刻的所述第二样本任务参数；

在基于当前时刻的所述第二样本对局状态信息和上一时刻的所述第二样本任务确定不满足所述动态打断条件的情况下，通过所述调度网络向所述任务网络发送沿用信号，其中，在接收到所述沿用信号的情况下，所述任务网络用于基于上一时刻的所述第二样本任务以及当前时刻的所述第二样本对局状态信息输出当前时刻的所述第二样本任务参数。

5.根据权利要求1所述的方法，其特征在于，所述基于所述第二样本任务以及所述第二样本任务参数，通过强化学习方式联合训练所述调度网络和所述任务网络，包括：

6.根据权利要求1所述的方法，其特征在于，所述决策模型中还包括原子任务网络，所述调度网络中包括原子任务调度器，所述原子任务调度器用于确定对所述原子任务网络的调度情况；

所述方法还包括：

将第三样本对局状态信息输入所述原子任务调度器，得到所述原子任务调度器输出的样本调度信号；

在所述样本调度信号指示不调用所述原子任务网络的情况下，将所述第三样本对局状态信息输入所述调度网络，得到所述调度网络输出的所述第三样本任务；将所述第三样本任务以及所述第三样本对局状态信息输入所述任务网络，得到所述任务网络输出所述第三样本任务参数，所述第三样本任务参数是对局中虚拟对象执行所述第三样本任务所采用的参数；

在所述样本调度信号指示调用所述原子任务网络的情况下，将所述第三样本对局状态信息输入所述原子任务网络，得到所述原子任务网络输出的第四样本任务参数，所述第四样本任务参数是对局中虚拟对象执行原子任务所采用的参数；

基于所述第三样本任务、所述第三样本任务参数、所述样本调度信号以及所述第四样本任务参数，通过强化学习方式联合训练所述调度网络、所述任务网络以及所述原子任务网络。

7.根据权利要求6所述的方法，其特征在于，所述基于所述第三样本任务、所述第三样本任务参数、所述样本调度信号以及所述第四样本任务参数，通过强化学习方式联合训练所述调度网络、所述任务网络以及所述原子任务网络，包括：

8.根据权利要求1所述的方法，其特征在于，所述基于所述第一样本任务参数，通过强化学习方式对所述任务网络进行训练，得到训练后的所述任务网络，包括：

9.根据权利要求1至8任一所述的方法，其特征在于，所述强化学习方式为基于近端策略优化算法的强化学习方式。

10.根据权利要求1至8任一所述的方法，其特征在于，所述方法还包括：

将目标对局状态信息输入所述决策模型中的所述调度网络，得到所述调度网络输出的目标任务；

将所述目标任务以及所述目标对局状态信息输入所述决策模型中的所述任务网络，得到所述任务网络输出的目标任务参数，所述目标任务参数是对局中虚拟对象执行所述目标任务所采用的参数。

11.根据权利要求10所述的方法，其特征在于，所述将目标对局状态信息输入所述决策模型中的所述调度网络，得到所述调度网络输出的目标任务，包括：

所述方法还包括：

在不满足所述任务终止条件的情况下，将上一时刻的所述目标任务确定为当前时刻的所述目标任务。

12.根据权利要求10所述的方法，其特征在于，所述方法还包括：

在基于当前时刻的所述目标对局状态信息和上一时刻的所述目标任务确定满足动态打断条件的情况下，通过所述调度网络向所述任务网络发送打断信号，其中，在接收到所述打断信号的情况下，所述任务网络用于基于当前时刻的所述目标任务以及所述目标对局状态信息输出当前时刻的所述目标任务参数；

在基于当前时刻的所述目标对局状态信息和上一时刻的所述目标任务确定不满足所述动态打断条件的情况下，通过所述调度网络向所述任务网络发送沿用信号，其中，在接收到所述沿用信号的情况下，所述任务网络用于基于上一时刻的所述目标任务以及当前时刻的所述目标对局状态信息输出当前时刻的所述目标任务参数。

13.根据权利要求10所述的方法，其特征在于，所述决策模型中还包括原子任务网络，所述调度网络中包括原子任务调度器，所述原子任务调度器用于确定对所述原子任务网络的调度情况；

所述将目标对局状态信息输入所述决策模型中的所述调度网络，得到所述调度网络输出的目标任务之前，所述方法还包括：

将所述目标对局状态信息输入所述原子任务调度器，得到所述原子任务调度器输出的目标调度信号；

所述将目标对局状态信息输入所述决策模型中的所述调度网络，得到所述调度网络输出的目标任务，包括：

所述方法还包括：

在所述目标调度信号指示调用所述原子任务网络的情况下，将所述目标对局状态信息输入所述原子任务网络，得到所述原子任务网络输出的原子任务参数。

14.一种决策模型的训练装置，其特征在于，所述装置包括：

15.一种电子设备，其特征在于，所述电子设备包括处理器和存储器；所述存储器存储有至少一条指令，所述至少一条指令用于被所述处理器执行以实现如权利要求1至13任一所述的决策模型的训练方法。

16.一种计算机可读存储介质，其特征在于，所述存储介质存储有至少一条指令，所述至少一条指令用于被处理器执行以实现如权利要求1至13任一所述的决策模型的训练方法。