CN110032359B

CN110032359B - 用于3d应用的模型获取方法及装置、介质及计算设备

Info

Publication number: CN110032359B
Application number: CN201910108706.2A
Authority: CN
Inventors: 朱军; 宋世虹; 翁家翌; 苏航; 阎栋
Original assignee: Tsinghua University
Current assignee: Tsinghua University
Priority date: 2019-02-03
Filing date: 2019-02-03
Publication date: 2021-06-11
Anticipated expiration: 2039-02-03
Also published as: CN110032359A

Abstract

本发明的实施方式提供了一种用于3D应用的模型获取方法及装置、存储介质及计算设备。用于3D应用的模型获取方法包括：将3D应用的待处理任务划分为多个子任务，并构建分层强化学习模型，包括管理者决策模型和多个工作者决策子模型，在独立地训练每个工作者决策子模型后，再固定多个工作者决策子模型的模型参数，训练管理者模型。本发明的上述技术在管理者决策模型的输入中加入了环境信息，并在每个工作者决策子模型的输入中加入了对应的子环境信息，提供了能够普遍适用于FPS游戏等3D应用的AI学习方法，大大超过了现有的模型，并能提高探索的效率。

Description

用于3D应用的模型获取方法及装置、介质及计算设备

技术领域

本发明的实施方式涉及计算机技术领域，更具体地，本发明的实施方式涉及一种用于3D应用的模型获取方法及装置、介质及计算设备。

背景技术

目前，已有许多较为成熟的AI算法应用于围棋、Atari等游戏，但这些方法都有一个局限性：它们不能被应用于3D应用，特别是3D游戏。

3D应用(如3D游戏)与现实世界非常相似，所以这些应用对于人们的日常生活极为重要。

以FPS游戏为例，它要求玩家能快速地进行设计、躲避等操作，这就对快速行动提出了很高的要求。同时，FPS游戏通常需要快速地知道物资或者怪物的位置，这也对快速感知提出了要求。这些要求本身需要对环境的语义信息有一个较为深刻的理解。

发明内容

为此，非常需要一种改进的模型获取方法，以能够应用于3D应用，使得构建的模型能够处理复杂的3D任务。

在本上下文中，本发明的实施方式期望提供一种用于3D应用的模型获取方法及装置、介质及计算设备。

根据本发明的一个方面，提供了一种用于3D应用的模型获取方法，包括：将所述3D应用的待处理任务划分为多个子任务；构建分层强化学习模型，所述分层强化学习模型包括管理者决策模型和多个工作者决策子模型，其中，所述多个工作者决策子模型与所述多个子任务之间一一对应；分别独立地训练每个工作者决策子模型，确定每个工作者决策子模型的模型参数；以及在固定所述多个工作者决策子模型的模型参数的情况下，训练所述管理者模型，以确定所述管理者模型的模型参数；其中，所述管理者决策模型的输入中包括环境信息，每个工作者决策子模型的输入中包括对应的子环境信息。

进一步地，训练所述管理者模型的步骤包括：基于玩家眼前的观测图像、环境信息以及所述多个工作者决策子模型输出的子动作与所述管理者决策模型输出的动作之间的对应关系来训练所述管理者决策模型，以确定所述管理者决策模型的模型参数。

进一步地，在训练所述管理者决策模型时，针对玩家的每一步行为，将当前步对应的玩家眼前的观测图像、当前步所述多个工作者决策子模型输出的子动作、过去预定数目步对应的环境信息和过去预定数目步所述管理者决策模型的动作作为所述管理者决策模型当前一步的输入。

进一步地，分别独立地训练每个工作者决策子模型的步骤包括：针对每个工作者决策子模型，基于玩家眼前的观测图像以及该工作者决策子模型对应的子环境信息与该工作者决策子模型输出的子动作之间的对应关系来训练该工作者决策子模型。

进一步地，输入每个工作者决策子模型的对应的子环境信息由所述管理者决策模型从其对应的环境信息中分派。

进一步地，至少一个工作者决策子模型对应的子环境信息包括深度信息。

进一步地，所述至少一个工作者决策子模型对应的奖励函数是至少基于所述深度信息获得的。

进一步地，所述多个子任务包括导航子任务，所述多个工作者决策子模型包括与所述导航子任务对应的导航决策子模型。

进一步地，所述导航决策子模型采用注意力机制和时序卷积相结合的网络结构。

进一步地，所述导航决策子模型对应的子环境信息包括深度信息。

进一步地，将玩家眼前的观测图像作为输入、将玩家是否正困在墙中的状态作为输出，利用玩家眼前的观测图像与玩家是否正困在墙中的状态之间的对应关系训练二分类器，以将所述二分类器的输出作为深度信息的估计。

进一步地，所述玩家是否正困在墙中的状态根据玩家速度确定。

进一步地，在训练所述导航决策子模型时，针对玩家的每一步行为，若确定玩家困在墙中，令该玩家随机旋转第一角度。

进一步地，所述第一角度为90°～180°之间的任意角度。

进一步地，在训练所述导航决策子模型时，在所述导航决策子模型对应的奖励函数中考虑深度信息，使得：玩家眼前的观测图像对应的深度信息的值越大，对应的奖励越高。

进一步地，所述多个子任务包括射击子任务，所述多个工作者决策子模型包括与所述射击子任务对应的射击决策子模型。

进一步地，所述射击决策子模型对应的子环境信息包括玩家眼前的观测图像内的敌人位置。

进一步地，在训练所述射击决策子模型时，在所述射击决策子模型对应的奖励函数中使得：成功射击敌人的次数越多，奖励越高。

进一步地，所述多个子任务包括资源收集子任务，所述多个工作者决策子模型包括与所述资源收集子任务对应的资源收集决策子模型。

进一步地，所述资源收集决策子模型对应的子环境信息包括玩家眼前的观测图像内的资源位置。

进一步地，在训练所述资源收集决策子模型时，在所述资源收集决策子模型对应的奖励函数中使得：成功收集到的资源数量越多，奖励越高。

进一步地，所述管理者决策模型和多个工作者决策子模型的网络结构采用A2C算法获得。

进一步地，利用深度神经网络对环境进行感知，以检测环境元素来获得对应的环境信息。

进一步地，所述深度神经网络采用tiny-YOLO网络。

进一步地，在训练所述管理者决策模型时，在所述管理者决策模型对应的奖励函数中使得以下条件中的部分或全部成立：玩家眼前的观测图像对应的深度信息的值越大，对应的奖励越高；成功射击敌人的次数越多，奖励越高；以及成功收集到的资源数量越多，奖励越高。

进一步地，在训练所述多个工作者决策子模型中的每一个时：针对玩家的每一步行为，在该步的迭代计算结束后，根据该工作者决策子模型对应的损失函数来更新该工作者决策子模型；其中，该工作者决策子模型对应的损失函数至少基于对应的预设策略函数、价值函数以及奖励函数而构建。

进一步地，在训练所述管理者决策模型时：针对玩家的每一步行为，在该步的迭代计算结束后，根据所述管理者决策模型对应的损失函数来更新所述管理者决策模型；其中，所述管理者决策模型对应的损失函数至少基于对应的预设策略函数、价值函数以及奖励函数而构建。

进一步地，所述管理者决策模型的输出包括多个对应动作的估计。

进一步地，所述多个工作者决策子模型中的每个工作者决策子模型的输出包括多个对应子动作的估计。

进一步地，所述3D应用包括第一人称射击游戏。

根据本发明的另一方面，还提供了一种用于3D应用的模型获取装置，包括：任务划分单元，适于将所述3D应用的待处理任务划分为多个子任务；模型构建单元，适于构建分层强化学习模型，所述分层强化学习模型包括管理者决策模型和多个工作者决策子模型，其中，所述多个工作者决策子模型与所述多个子任务之间一一对应；子模型训练单元，适于分别独立地训练每个工作者决策子模型，确定每个工作者决策子模型的模型参数；以及管理者决策模型训练单元，适于在固定所述多个工作者决策子模型的模型参数的情况下，训练所述管理者模型，以确定所述管理者模型的模型参数；其中，所述管理者决策模型的输入中包括环境信息，每个工作者决策子模型的输入中包括对应的子环境信息。

进一步地，所述管理者决策模型训练单元适于基于玩家眼前的观测图像、环境信息以及所述多个工作者决策子模型输出的子动作与所述管理者决策模型输出的动作之间的对应关系来训练所述管理者决策模型，以确定所述管理者决策模型的模型参数。

进一步地，所述管理者决策模型训练单元适于在训练所述管理者决策模型时，针对玩家的每一步行为，将当前步对应的玩家眼前的观测图像、当前步所述多个工作者决策子模型输出的子动作、过去预定数目步对应的环境信息和过去预定数目步所述管理者决策模型的动作作为所述管理者决策模型当前一步的输入。

进一步地，所述子模型训练单元适于针对每个工作者决策子模型，基于玩家眼前的观测图像以及该工作者决策子模型对应的子环境信息与该工作者决策子模型输出的子动作之间的对应关系来训练该工作者决策子模型。

进一步地，所述至少一个工作者决策子模型对应的奖励函数是至少基于所述深度信息获得的；

进一步地，所述子模型训练单元适于将玩家眼前的观测图像作为输入、将玩家是否正困在墙中的状态作为输出，利用玩家眼前的观测图像与玩家是否正困在墙中的状态之间的对应关系训练二分类器，以将所述二分类器的输出作为深度信息的估计。

进一步地，还包括：第一信息获取单元，适于根据玩家速度来确定玩家是否正困在墙中的状态。

进一步地，所述子模型训练单元适于在训练所述导航决策子模型时，针对玩家的每一步行为，若确定玩家困在墙中，令该玩家随机旋转第一角度。

进一步地，所述第一角度为90°～180°之间的任意角度。

进一步地，所述子模型训练单元适于在训练所述导航决策子模型时，在所述导航决策子模型对应的奖励函数中考虑深度信息，使得：玩家眼前的观测图像对应的深度信息的值越大，对应的奖励越高。

进一步地，所述子模型训练单元适于在训练所述射击决策子模型时，在所述射击决策子模型对应的奖励函数中使得：成功射击敌人的次数越多，奖励越高。

进一步地，所述子模型训练单元适于在训练所述资源收集决策子模型时，在所述资源收集决策子模型对应的奖励函数中使得：成功收集到的资源数量越多，奖励越高。

进一步地，还包括：第二信息获取单元，适于利用深度神经网络对环境进行感知，以检测环境元素来获得对应的环境信息。

进一步地，所述深度神经网络采用tiny-YOLO网络。

进一步地，所述管理者决策模型训练单元适于在训练所述管理者决策模型时，在所述管理者决策模型对应的奖励函数中使得以下条件中的部分或全部成立：玩家眼前的观测图像对应的深度信息的值越大，对应的奖励越高；成功射击敌人的次数越多，奖励越高；以及成功收集到的资源数量越多，奖励越高。

进一步地，所述子模型训练单元适于在训练所述多个工作者决策子模型中的每一个时：针对玩家的每一步行为，在该步的迭代计算结束后，根据该工作者决策子模型对应的损失函数来更新该工作者决策子模型；其中，该工作者决策子模型对应的损失函数至少基于对应的预设策略函数、价值函数以及奖励函数而构建。

进一步地，所述管理者决策模型训练单元适于在训练所述管理者决策模型时：针对玩家的每一步行为，在该步的迭代计算结束后，根据所述管理者决策模型对应的损失函数来更新所述管理者决策模型；其中，所述管理者决策模型对应的损失函数至少基于对应的预设策略函数、价值函数以及奖励函数而构建。

进一步地，所述3D应用包括第一人称射击游戏。

根据本发明的又一方面，还提供了一种存储有程序的存储介质，所述程序被处理器执行时实现如上所述的用于3D应用的模型获取方法。

根据本发明的再一方面，还提供了一种计算设备，包括如上所述的存储介质。

根据本发明实施方式的用于3D应用的模型获取方法及装置、存储介质及计算设备，其将3D应用的待处理任务划分为多个子任务，并构建分层强化学习模型，包括管理者决策模型和多个工作者决策子模型，在独立地训练每个工作者决策子模型后，再固定多个工作者决策子模型的模型参数，训练管理者模型。本发明的上述方案在管理者决策模型的输入中加入了环境信息，并在每个工作者决策子模型的输入中加入了对应的子环境信息，提供了能够普遍适用于FPS游戏等3D应用的AI学习方法，大大超过了现有的模型，并能提高探索的效率。

附图说明

通过参考附图阅读下文的详细描述，本发明示例性实施方式的上述以及其他目的、特征和优点将变得易于理解。在附图中，以示例性而非限制性的方式示出了本发明的若干实施方式，其中：

图1是示意性地示出根据本发明实施方式的用于3D应用的模型获取方法的一个示例性处理的流程图；

图2是示意性地示出根据本发明实施方式的用于3D应用的模型获取装置的一个示例的结构框图；

图3是示意性地示出根据本发明一实施例的计算机的结构示意图；

图4是示意性地示出根据本发明一实施例的计算机可读存储介质的示意图。

在附图中，相同或对应的标号表示相同或对应的部分。

具体实施方式

下面将参考若干示例性实施方式来描述本发明的原理和精神。应当理解，给出这些实施方式仅仅是为了使本领域技术人员能够更好地理解进而实现本发明，而并非以任何方式限制本发明的范围。相反，提供这些实施方式是为了使本公开更加透彻和完整，并且能够将本公开的范围完整地传达给本领域的技术人员。

本领域技术人员知道，本发明的实施方式可以实现为一种系统、装置、设备、方法或计算机程序产品。因此，本公开可以具体实现为以下形式，即：完全的硬件、完全的软件(包括固件、驻留软件、微代码等)，或者硬件和软件结合的形式。

在本文中，需要理解的是，附图中的任何元素数量均用于示例而非限制，以及任何命名都仅用于区分，而不具有任何限制含义。

下面参考本发明的若干代表性实施方式，详细阐释本发明的原理和精神。

示例性方法

下面参考图1来描述根据本发明示例性实施方式的用于3D应用的模型获取方法。

本发明的实施例提供了一种用于3D应用的模型获取方法，包括：将所述3D应用的待处理任务划分为多个子任务；构建分层强化学习模型，所述分层强化学习模型包括管理者决策模型和多个工作者决策子模型，其中，所述多个工作者决策子模型与所述多个子任务之间一一对应；分别独立地训练每个工作者决策子模型，确定每个工作者决策子模型的模型参数；以及在固定所述多个工作者决策子模型的模型参数的情况下，训练所述管理者模型，以确定所述管理者模型的模型参数；其中，所述管理者决策模型的输入中包括环境信息，每个工作者决策子模型的输入中包括对应的子环境信息。

图1示意性地示出了根据本公开实施例的用于3D应用的模型获取方法的一种示例性的处理流程100。

如图1所示，处理流程100开始后，首先执行步骤S110。

在步骤S110中，将3D应用的待处理任务划分为多个子任务(大于或等于2个子任务)。

例如，可以将待处理任务划分为导航、资源收集、杀敌(或打怪)、开门等多个子任务(也可以只包括这些子任务中的部分，或者也可以包括其他子任务)。

应当说明的是，划分的方法并不限于此，例如也可以进行更细地划分，比如将资源收集又分为医疗资源收集、武器收集等等；或者，也可以将部分子任务放在一起处理，比如将资源收集和开门等放在一起处理；等等。

作为示例，3D应用等例如包括3D类型的第一人称射击(FPS，First-personshooting)游戏。

FPS游戏的任务通常可以划分出导航、资源收集、杀敌(或打怪)等子任务，然而，应当理解的是，本发明所提供的上述方法以及下文将要描述的装置等所能够适用的3D应用并不仅仅限于上述FPS游戏，也可以适用于其他类型的3D应用，比如一些仅仅可以划分出3D导航子任务和收集资源子任务的3D应用(如一些3D体育竞赛并带有资源收集功能的应用)，或者，又如一些可以仅仅划分出3D导航子任务和杀敌子任务的3D应用，又或者，可以划分出两个或更多个其他子任务(可选地，可以包括上文所述的一个或多个子任务)的3D应用。

然后，在步骤S120中，构建分层强化学习模型，分层强化学习模型包括管理者决策模型和多个工作者决策子模型，其中，多个工作者决策子模型与多个子任务之间一一对应。

例如，多个工作者决策子模型可以包括导航决策子模型、资源收集决策子模型、杀敌(或打怪)决策子模型、开门决策子模型等多个工作者决策子模型(也可以只包括这些决策子模型中的部分，或者也可以包括其他决策子模型)。此外，在其他例子中，也可以将开门决策子模型与资源收集决策子模型合并为一个子模型(例如统一称为资源收集决策子模型)，用于处理这两个任务。

应当理解的是，在划分好多个子任务、并建立对应的工作者决策子模型之后，各个子任务之间是相互解耦的。

接着，在步骤S130中，分别独立地训练每个工作者决策子模型，确定每个工作者决策子模型的模型参数。

训练好每个工作者决策子模型之后，在步骤S140中，在固定多个工作者决策子模型的模型参数的情况下，训练管理者模型，以确定管理者模型的模型参数。

其中，管理者决策模型的输入中包括环境信息，每个工作者决策子模型的输入中包括对应的子环境信息。

作为示例，可以利用深度神经网络对环境进行感知，以检测环境元素来获得对应的环境信息。

例如，为了对环境更好的进行建模，深度神经网络采用tiny-YOLO网络。为了快速进行物体检测，例如可以用resnet模块搭建23层的神经网络。举例来说，在Doom这个任务中，可以检测怪物、血包、药和门等能应用于决策的重要信息(例如这些检测到的物体的位置信息)，并将这些信息包装成一个环境向量Envt来作为决策使用的环境信息。

作为示例，训练管理者模型的步骤例如包括如下处理：基于玩家眼前的观测图像、环境信息以及多个工作者决策子模型输出的子动作与管理者决策模型输出的动作之间的对应关系来训练管理者决策模型，以确定管理者决策模型的模型参数。

需要说明的是，这里所说的玩家例如是由计算机控制的电脑玩家，或者也可以是用户控制的玩家进行托管后由计算机控制下的玩家。

作为示例，在训练管理者决策模型时，针对玩家的每一步行为，例如可以将当前步对应的玩家眼前的观测图像、当前步多个工作者决策子模型输出的子动作、过去预定数目步(例如过去30帧或40帧等)对应的环境信息和过去预定数目步管理者决策模型的动作作为管理者决策模型当前一步的输入。例如，当前要处理的是第100帧(或称第100步)，则当前一步的输入包括如下信息：第100帧的玩家眼前的观测图像；第100帧的各工作者决策子模型的动作；第71～100帧对应的环境信息；以及第71～100帧对应的该管理者决策模型输出的动作。

此外，作为示例，每个工作者决策子模型的输入包括当前步对应的玩家眼前的观测图像以及对应的子环境信息。

在一个例子中，每个工作者决策子模型当前一步的输入包括：当前步对应的玩家眼前的观测图像以及过去多步(例如过去30帧或40帧等，这个数量和上文所提到的“过去预定数目步”可以相同或不同)对应的子环境信息以及过去预定数目步该工作者决策子模型的动作。

在另一个例子中，每个工作者决策子模型当前一步的输入也可以包括：当前步对应的玩家眼前的观测图像以及当前步对应的子环境信息。

作为示例，输入每个工作者决策子模型的对应的子环境信息可以由管理者决策模型从其对应的环境信息中分派。

例如，通过环境感知模块计算出环境向量Envt后，根据每个工作者决策子模型需要的子环境信息，由管理者决策模型从这个环境向量中分配出对应的部分(子环境信息)给对应的工作者决策子模型。比如，可以通过向量相乘的方式实现：

D_j＝Envt*A_j。

其中，Envt表示管理者决策模型通过环境感知模块获得的环境向量(作为环境信息)，A_j表示上述多个工作者决策子模型中的第j个子模型需要的对应环境向量Envt中的对应位置(例如，需要Envt中的某个位置的元素，就令A_j中对应这个元素的位置的值为1，而不需要的那些元素对应的位置的值为0)，D_j表示第j个子模型得到的子环境信息，j＝1，2，...，n。

此外，下文将要描述的深度信息也可以作为子环境信息的一个示例。在一个例子中，可以将深度信息也包含在上述环境向量中；在另一个例子中，管理者决策模型可以将上述环境向量和深度信息作为环境信息，根据不同工作者决策子模型的需要将其对应的子环境信息分配给它。

作为示例，分别独立地训练每个工作者决策子模型的步骤例如包括：针对每个工作者决策子模型，基于玩家眼前的观测图像以及该工作者决策子模型对应的子环境信息与该工作者决策子模型输出的子动作之间的对应关系来训练该工作者决策子模型。

作为示例，至少一个工作者决策子模型对应的子环境信息包括深度信息。

其中，深度信息例如可以表示为二值化信息，比如，深度信息的值为0表示玩家正困在墙内，而深度信息的值为1则表示玩家目前距墙较远(或没有被困在墙内)。

作为示例，至少一个工作者决策子模型对应的奖励函数是至少基于深度信息获得的。

例如，深度信息的值越高，奖励函数的值越高；深度信息的值越小，奖励函数的值越低。比如，深度信息若为1，奖励较高；深度信息若为0，奖励较低。

作为示例，多个子任务包括导航子任务，多个工作者决策子模型包括与导航子任务对应的导航决策子模型。

作为示例，导航决策子模型采用注意力机制和时序卷积相结合的网络结构。

作为示例，导航决策子模型对应的子环境信息包括深度信息。

作为示例，将玩家眼前的观测图像作为输入、将玩家是否正困在墙中的状态作为输出，利用玩家眼前的观测图像与玩家是否正困在墙中的状态之间的对应关系训练二分类器，以将二分类器的输出作为深度信息的估计。

作为示例，玩家是否正困在墙中的状态例如可以根据玩家速度确定。玩家速度若小于预设速度，则判定其正困在墙内；若玩家速度高于预设速度，则判定其未被困在墙内。预设速度例如可以根据经验设定，或通过试验方法确定，比如设为0.1(单位例如根据经验设定，比如像素/秒)。

作为示例，在训练导航决策子模型时，针对玩家的每一步行为，若确定玩家困在墙中，令该玩家随机旋转第一角度。

作为示例，第一角度为90°～180°之间的任意角度。

作为示例，在训练导航决策子模型时，在导航决策子模型对应的奖励函数中考虑深度信息，使得：

玩家眼前的观测图像对应的深度信息的值越大，对应的奖励越高。

作为示例，多个子任务包括射击子任务，多个工作者决策子模型包括与射击子任务对应的射击决策子模型。

作为示例，射击决策子模型对应的子环境信息包括玩家眼前的观测图像内的敌人位置。

作为示例，在训练射击决策子模型时，在射击决策子模型对应的奖励函数中使得：成功射击敌人的次数越多，奖励越高。

作为示例，多个子任务包括资源收集子任务，多个工作者决策子模型包括与资源收集子任务对应的资源收集决策子模型。

作为示例，资源收集决策子模型对应的子环境信息包括玩家眼前的观测图像内的资源位置(可选地，还可以包括门的位置)。

作为示例，在训练资源收集决策子模型时，在资源收集决策子模型对应的奖励函数中使得：成功收集到的资源数量越多，奖励越高(可选地，还可以包括：开的门越多，奖励越高)。

作为示例，管理者决策模型和多个工作者决策子模型的网络结构例如可以采用A2C算法获得。

作为示例，在训练管理者决策模型时，在管理者决策模型对应的奖励函数中使得以下条件中的部分或全部成立：玩家眼前的观测图像对应的深度信息的值越大，对应的奖励越高；成功射击敌人的次数越多，奖励越高；以及成功收集到的资源数量越多，奖励越高(可选地，还可以包括：开的门越多，奖励越高)。

作为示例，在训练多个工作者决策子模型中的每一个时：针对玩家的每一步行为，在该步的迭代计算结束后，根据该工作者决策子模型对应的损失函数来更新该工作者决策子模型；其中，该工作者决策子模型对应的损失函数至少基于对应的预设策略函数、价值函数以及奖励函数而构建。

作为示例，在训练管理者决策模型时：

针对玩家的每一步行为，在该步的迭代计算结束后，根据管理者决策模型对应的损失函数来更新管理者决策模型；其中，管理者决策模型对应的损失函数至少基于对应的预设策略函数、价值函数以及奖励函数而构建。

作为示例，管理者决策模型的输出包括多个对应动作的估计。

作为示例，多个工作者决策子模型中的每个工作者决策子模型的输出包括多个对应子动作的估计。

下面，以管理者决策模型的算法为例，描述一个处理示例。

首先初始化策略，在接下来的每一轮迭代中，首先通过环境感知模块计算出环境向量Envt，并将这个向量传输给每个子模块。每个子模块根据计算出相应策略下选取的动作，最后管理者决策模型通过自己的策略选择出最后的动作a{final}～π(b₁，b₂，...，b_n，Envt，img，a_k，a_k+1，...，a_k+Q-1)，并执行这个动作，获得环境返回的奖励值。其中，a_{final}表示管理者决策模型的输出，π()是策略函数，其输入包括当前帧的玩家眼前的观测图像img、当前帧n个工作者决策子模型(n为大于1的整数)输出的子动作b₁、b₂、...、b_n、过去预定数目帧(预定数目为Q个，Q例如为30或50等正整数)的环境向量Envt以及过去预定数目帧的管理者决策模型的输出动作a_k，a_k+1，...，a_k+Q-1，其中，a_k，a_k+1，...，a_k+Q-1表示过去Q帧的管理者决策模型输出动作。换句话说，当前帧为第k+Q帧，第k帧～第k+Q-1帧是过去的Q帧。

一轮迭代结束后，根据以下损失函数来更新管理者决策模型：

L＝L_policy+L_value。

其中，L_policy表示与策略相关的损失项，而L_value表示与价值函数相关的损失项。

L_policy＝-log(π_final)*A(s)-β*H(π)，L_value＝∑(R-V(s))²。

这里，A()是优势函数，A(s)表示状态s下的优势，β是可调参数，H(π)表示策略π的熵，R表示奖励函数，V(s)是估计的状态s下的价值函数，π_final是管理者决策模型的决策分布，状态s指当前的玩家眼前的观测图像。

需要理解的是，虽然状态s是指当前玩家眼前的观测图像，但其对应表示的模型输入应当是b₁，...，bn，Envt，img，a_k，a_k+1，...，a_k+Q-1。也就是说，在计算π_θ(a_i|s_i)时对b₁，...，b_n，Envt，a_k，a_k+1，...，a_k+Q-1求导而更新参数。

此外，需要说明的是，子模型的输入与管理者决策模型的输入的不同在于，子模型的输入为(Envt，img，a_k，a_k+1，...，a_k+Q-1)，而没有b₁，b₂，...，b_n这一项。

例如，可以使用两个神经网络来近似策略的分布和价值函数的分布。在一个例子中，对于策略π_θ的梯度，可以用如下公式计算：

并更新。对于价值函数的梯度，可以用如下公式计算：

并更新。

其中，θ表示决策的参数，π_θ表示在θ这组参数下的决策分布(与上面的π_final是同一个分布)，a_i表示第i帧对应的动作，s_i表示第i帧对应的玩家眼前的观测图像，V_w(s_i)表示第i帧对应的价值函数。其中，i为小于当前帧数的正整数。

此外，对于每个工作者决策子模型来说，对应的损失函数也可以采用类似上文描述的管理者决策模型的损失函数，需要注意的是，当针对管理者决策模型处理时，a_i表示管理者决策模型的第i帧的动作；而当针对工作者决策子模型处理时，a_i表示该工作者决策子模型的第i帧的动作。

例如，管理者决策模型的网络结构可如下：首先通过一个CNN(ConvolutionalNeural Network，卷积神经网络)提出当前看到的图像的特征，然后将它通过一个LSTM(Long Short-Term Memory，长短期记忆网络)模块得到时序上的特征，然后将这个特征和环境向量连接起来得到一个新的向量，这里的环境向量例如定义为过去30帧的怪物信息、过去30帧的子动作信息(例如导航决策子模型过去30帧输出的子动作)以及过去30帧的资源信息。然后，将这个新的向量通过两个全连接层，得到需要的策略π和价值函数。

例如，管理者决策模型的策略使得不要缩到只做一个动作。这样，每次输出的是一个工作分布，其包括对各个动作的估计。

此外，在训练过程中也使用了奖励函数塑造的办法，来使得模型更好地收敛。例如，奖励函数定义为φ(s)＝|δRe|+|δEn|，其中，φ(s)作为上述奖励函数R的一个示例，8Re表示资源的收集数，8En表示打到怪的次数。

此外，工作者中的导航模块(即导航决策子模型)的网络结构结合了注意力机制和时序卷积相结合的方法，并且将深度信息也加入到决策过程中，实验结果表明，该方法大大提高了探索的效率。

此外，对于每一个像素，可以从游戏引擎中获得了能表示玩家眼前的深度信息。例如，训练一个可以判断玩家是否困在墙内的二分类网络。对于玩家的每一步行为，首先获得当前观测的图像和深度信息的估计，如果发现玩家困在墙内，则随机旋转90°到180°来走出这种状态，这大大提高了探索的效率。此外，还可以在奖励函数中加入深度信息，这使得玩家在游戏过程中更不容易走入死角。

通过以上描述可知，本发明的上述模型获取方法给出了一个在FPS游戏等3D应用中较为普适的AI学习方法，大大超过了现有的模型，并能提高探索的效率。

示例性装置

在介绍了本发明示例性实施方式的用于3D应用的模型获取方法之后，接下来，参考图2对本发明示例性实施方式的用于3D应用的模型获取装置进行说明。

参见图2，示意性地示出了根据本发明一实施例的用于3D应用的模型获取装置的结构示意图，该装置可以设置于终端设备中，例如，该装置可以设置于台式计算机、笔记型计算机、智能移动电话以及平板电脑等智能电子设备中；当然，本发明实施方式的装置也可以设置于服务器中。本发明实施方式的装置200可以包括下述组成单元：任务划分单元210、模型构建单元220、子模型训练单元230和管理者决策模型训练单元240。

如图2所示，任务划分单元210适于将3D应用的待处理任务划分为多个子任务。

模型构建单元220适于构建分层强化学习模型，分层强化学习模型包括管理者决策模型和多个工作者决策子模型，其中，多个工作者决策子模型与多个子任务之间一一对应。

子模型训练单元230适于分别独立地训练每个工作者决策子模型，确定每个工作者决策子模型的模型参数。

管理者决策模型训练单元240适于在固定多个工作者决策子模型的模型参数的情况下，训练管理者模型，以确定管理者模型的模型参数。

作为示例，管理者决策模型训练单元例如适于基于玩家眼前的观测图像、环境信息以及多个工作者决策子模型输出的子动作与管理者决策模型输出的动作之间的对应关系来训练管理者决策模型，以确定管理者决策模型的模型参数。

作为示例，管理者决策模型训练单元例如适于在训练管理者决策模型时，针对玩家的每一步行为，将当前步对应的玩家眼前的观测图像、当前步所述多个工作者决策子模型输出的子动作、过去预定数目步对应的环境信息和过去预定数目步所述管理者决策模型的动作作为管理者决策模型当前一步的输入。

作为示例，子模型训练单元例如适于针对每个工作者决策子模型，基于玩家眼前的观测图像以及该工作者决策子模型对应的子环境信息与该工作者决策子模型输出的子动作之间的对应关系来训练该工作者决策子模型。

作为示例，输入每个工作者决策子模型的对应的子环境信息例如由管理者决策模型从其对应的环境信息中分派。

作为示例，至少一个工作者决策子模型对应的子环境信息例如包括深度信息。

作为示例，至少一个工作者决策子模型对应的奖励函数例如是至少基于深度信息获得的；

作为示例，多个子任务例如包括导航子任务，多个工作者决策子模型例如包括与导航子任务对应的导航决策子模型。

作为示例，导航决策子模型例如采用注意力机制和时序卷积相结合的网络结构。

作为示例，导航决策子模型对应的子环境信息例如包括深度信息。

作为示例，子模型训练单元例如适于将玩家眼前的观测图像作为输入、将玩家是否正困在墙中的状态作为输出，利用玩家眼前的观测图像与玩家是否正困在墙中的状态之间的对应关系训练二分类器，以将二分类器的输出作为深度信息的估计。

作为示例，上述装置还可以包括：第一信息获取单元(图中未示出)，适于根据玩家速度来确定玩家是否正困在墙中的状态。

作为示例，子模型训练单元例如适于在训练导航决策子模型时，针对玩家的每一步行为，若确定玩家困在墙中，令该玩家随机旋转第一角度。

作为示例，第一角度例如为90°～180°之间的任意角度。

作为示例，子模型训练单元适于在训练导航决策子模型时，例如可以在导航决策子模型对应的奖励函数中考虑深度信息，使得：玩家眼前的观测图像对应的深度信息的值越大，对应的奖励越高。

作为示例，多个子任务例如包括射击子任务，多个工作者决策子模型例如包括与射击子任务对应的射击决策子模型。

作为示例，射击决策子模型对应的子环境信息例如包括玩家眼前的观测图像内的敌人位置。

作为示例，子模型训练单元例如适于在训练射击决策子模型时，在射击决策子模型对应的奖励函数中使得：成功射击敌人的次数越多，奖励越高。

作为示例，多个子任务例如包括资源收集子任务，多个工作者决策子模型例如包括与资源收集子任务对应的资源收集决策子模型。

作为示例，资源收集决策子模型对应的子环境信息例如包括玩家眼前的观测图像内的资源位置。

作为示例，子模型训练单元例如适于在训练资源收集决策子模型时，在资源收集决策子模型对应的奖励函数中使得：成功收集到的资源数量越多，奖励越高。

作为示例，管理者决策模型和多个工作者决策子模型的网络结构例如采用A2C算法获得。

作为示例，上述装置还可以包括：第二信息获取单元(图中未示出)，适于利用深度神经网络对环境进行感知，以检测环境元素来获得对应的环境信息。

作为示例，深度神经网络例如采用tiny-YOLO网络。

作为示例，管理者决策模型训练单元例如适于在训练管理者决策模型时，在管理者决策模型对应的奖励函数中使得以下条件中的部分或全部成立：玩家眼前的观测图像对应的深度信息的值越大，对应的奖励越高；成功射击敌人的次数越多，奖励越高；以及成功收集到的资源数量越多，奖励越高。

作为示例，子模型训练单元例如适于在训练多个工作者决策子模型中的每一个时：针对玩家的每一步行为，在该步的迭代计算结束后，根据该工作者决策子模型对应的损失函数来更新该工作者决策子模型；其中，该工作者决策子模型对应的损失函数至少基于对应的预设策略函数、价值函数以及奖励函数而构建。

作为示例，管理者决策模型训练单元例如适于在训练管理者决策模型时：针对玩家的每一步行为，在该步的迭代计算结束后，根据管理者决策模型对应的损失函数来更新管理者决策模型；其中，管理者决策模型对应的损失函数至少基于对应的预设策略函数、价值函数以及奖励函数而构建。

作为示例，管理者决策模型的输出例如包括多个对应动作的估计。

作为示例，多个工作者决策子模型中的每个工作者决策子模型的输出例如包括多个对应子动作的估计。

作为示例，所述3D应用例如包括第一人称射击游戏。

应当说明的是，本发明示例性实施方式的用于3D应用的模型获取装置中的组成单元或子单元能够分别执行上文结合上文所描述的本发明示例性实施方式的用于3D应用的模型获取方法中的对应步骤或子步骤中的处理，并能够达到相类似的功能和效果，这里不再赘述。

图3示出了适于用来实现本发明实施方式的示例性计算机系统/服务器30的框图。图3显示的计算机系统/服务器30仅仅是一个示例，不应对本发明实施例的功能和使用范围带来任何限制。

如图3所示，计算机系统/服务器30以通用计算设备的形式表现。计算机系统/服务器30的组件可以包括但不限于：一个或者多个处理器或者处理单元301，系统存储器302，连接不同系统组件(包括系统存储器302和处理单元301)的总线303。

计算机系统/服务器30典型地包括多种计算机系统可读介质。这些介质可以是任何能够被计算机系统/服务器30访问的可用介质，包括易失性和非易失性介质，可移动的和不可移动的介质。

系统存储器302可以包括易失性存储器形式的计算机系统可读介质，例如随机存取存储器(RAM)3021和/或高速缓存存储器3022。计算机系统/服务器30可以进一步包括其它可移动/不可移动的、易失性/非易失性计算机系统存储介质。仅作为举例，ROM3023可以用于读写不可移动的、非易失性磁介质(图3中未显示，通常称为“硬盘驱动器”)。尽管未在图3中示出，可以提供用于对可移动非易失性磁盘(例如“软盘”)读写的磁盘驱动器，以及对可移动非易失性光盘(例如CD-ROM，DVD-ROM或者其它光介质)读写的光盘驱动器。在这些情况下，每个驱动器可以通过一个或者多个数据介质接口与总线303相连。系统存储器302中可以包括至少一个程序产品，该程序产品具有一组(例如至少一个)程序模块，这些程序模块被配置以执行本发明各实施例的功能。

具有一组(至少一个)程序模块3024的程序/实用工具3025，可以存储在例如系统存储器302中，且这样的程序模块3024包括但不限于：操作系统、一个或者多个应用程序、其它程序模块以及程序数据，这些示例中的每一个或某种组合中可能包括网络环境的实现。程序模块3024通常执行本发明所描述的实施例中的功能和/或方法。

计算机系统/服务器30也可以与一个或多个外部设备304(如键盘、指向设备、显示器等)通信。这种通信可以通过输入/输出(I/O)接口305进行。并且，计算机系统/服务器30还可以通过网络适配器306与一个或者多个网络(例如局域网(LAN)，广域网(WAN)和/或公共网络，例如因特网)通信。如图3所示，网络适配器306通过总线303与计算机系统/服务器30的其它模块(如处理单元301等)通信。应当明白，尽管图3中未示出，可以结合计算机系统/服务器30使用其它硬件和/或软件模块。

处理单元(或处理器)301通过运行存储在系统存储器302中的程序，从而执行各种功能应用以及数据处理，例如，执行并实现用于3D应用的模型获取方法中的各步骤；例如，将所述3D应用的待处理任务划分为多个子任务；构建分层强化学习模型，所述分层强化学习模型包括管理者决策模型和多个工作者决策子模型，其中，所述多个工作者决策子模型与所述多个子任务之间一一对应；分别独立地训练每个工作者决策子模型，确定每个工作者决策子模型的模型参数；以及在固定所述多个工作者决策子模型的模型参数的情况下，训练所述管理者模型，以确定所述管理者模型的模型参数；其中，所述管理者决策模型的输入中包括环境信息，每个工作者决策子模型的输入中包括对应的子环境信息。

本发明实施方式的计算机可读存储介质一个具体例子如图4所示。

图4的计算机可读存储介质为光盘400，其上存储有计算机程序(即程序产品)，该程序被处理器执行时，会实现上述方法实施方式中所记载的各步骤，例如，将所述3D应用的待处理任务划分为多个子任务；构建分层强化学习模型，所述分层强化学习模型包括管理者决策模型和多个工作者决策子模型，其中，所述多个工作者决策子模型与所述多个子任务之间一一对应；分别独立地训练每个工作者决策子模型，确定每个工作者决策子模型的模型参数；以及在固定所述多个工作者决策子模型的模型参数的情况下，训练所述管理者模型，以确定所述管理者模型的模型参数；其中，所述管理者决策模型的输入中包括环境信息，每个工作者决策子模型的输入中包括对应的子环境信息；各步骤的具体实现方式在此不再重复说明。

应当注意，尽管在上文详细描述中提及了用于3D应用的模型获取装置的若干单元、模块或子模块，但是这种划分仅仅是示例性的并非强制性的。实际上，根据本发明的实施方式，上文描述的两个或更多模块的特征和功能可以在一个模块中具体化。反之，上文描述的一个模块的特征和功能可以进一步划分为由多个模块来具体化。

此外，尽管在附图中以特定顺序描述了本发明方法的操作，但是，这并非要求或者暗示必须按照该特定顺序来执行这些操作，或是必须执行全部所示的操作才能实现期望的结果。附加地或备选地，可以省略某些步骤，将多个步骤合并为一个步骤执行，和/或将一个步骤分解为多个步骤执行。

虽然已经参考若干具体实施方式描述了本发明的精神和原理，但是应该理解，本发明并不限于所公开的具体实施方式，对各方面的划分也不意味着这些方面中的特征不能组合以进行受益，这种划分仅是为了表述的方便。本发明旨在涵盖所附权利要求的精神和范围内所包括的各种修改和等同布置。

综上，在根据本公开的实施例中，本公开提供了如下方案，但不限于此：

方案1.一种用于3D应用的模型获取方法，其特征在于包括：

将所述3D应用的待处理任务划分为多个子任务；

构建分层强化学习模型，所述分层强化学习模型包括管理者决策模型和多个工作者决策子模型，其中，所述多个工作者决策子模型与所述多个子任务之间一一对应；

分别独立地训练每个工作者决策子模型，确定每个工作者决策子模型的模型参数；以及

在固定所述多个工作者决策子模型的模型参数的情况下，训练所述管理者模型，以确定所述管理者模型的模型参数；

其中，所述管理者决策模型的输入中包括环境信息，每个工作者决策子模型的输入中包括对应的子环境信息。

方案2.根据方案1所述的用于3D应用的模型获取方法，其特征在于，训练所述管理者模型的步骤包括：

基于玩家眼前的观测图像、环境信息以及所述多个工作者决策子模型输出的子动作与所述管理者决策模型输出的动作之间的对应关系来训练所述管理者决策模型，以确定所述管理者决策模型的模型参数。

方案3.根据方案1所述的用于3D应用的模型获取方法，其特征在于，在训练所述管理者决策模型时，针对玩家的每一步行为，将当前步对应的玩家眼前的观测图像、当前步所述多个工作者决策子模型输出的子动作、过去预定数目步对应的环境信息和过去预定数目步所述管理者决策模型的动作作为所述管理者决策模型当前一步的输入。

方案4.根据方案1所述的用于3D应用的模型获取方法，其特征在于，分别独立地训练每个工作者决策子模型的步骤包括：

针对每个工作者决策子模型，基于玩家眼前的观测图像以及该工作者决策子模型对应的子环境信息与该工作者决策子模型输出的子动作之间的对应关系来训练该工作者决策子模型。

方案5.根据方案1所述的用于3D应用的模型获取方法，其特征在于，输入每个工作者决策子模型的对应的子环境信息由所述管理者决策模型从其对应的环境信息中分派。

方案6.根据方案1所述的用于3D应用的模型获取方法，其特征在于，至少一个工作者决策子模型对应的子环境信息包括深度信息。

方案7.根据方案6所述的用于3D应用的模型获取方法，其特征在于，所述至少一个工作者决策子模型对应的奖励函数是至少基于所述深度信息获得的。

方案8.根据方案1-7中任一项所述的用于3D应用的模型获取方法，其特征在于，所述多个子任务包括导航子任务，所述多个工作者决策子模型包括与所述导航子任务对应的导航决策子模型。

方案9.根据方案8所述的用于3D应用的模型获取方法，其特征在于，所述导航决策子模型采用注意力机制和时序卷积相结合的网络结构。

方案10.根据方案8所述的用于3D应用的模型获取方法，其特征在于，所述导航决策子模型对应的子环境信息包括深度信息。

方案11.根据方案10所述的用于3D应用的模型获取方法，其特征在于，将玩家眼前的观测图像作为输入、将玩家是否正困在墙中的状态作为输出，利用玩家眼前的观测图像与玩家是否正困在墙中的状态之间的对应关系训练二分类器，以将所述二分类器的输出作为深度信息的估计。

方案12.根据方案11所述的用于3D应用的模型获取方法，其特征在于，所述玩家是否正困在墙中的状态根据玩家速度确定。

方案13.根据方案10所述的用于3D应用的模型获取方法，其特征在于，在训练所述导航决策子模型时，针对玩家的每一步行为，若确定玩家困在墙中，令该玩家随机旋转第一角度。

方案14.根据方案13所述的用于3D应用的模型获取方法，其特征在于，所述第一角度为90°～180°之间的任意角度。

方案15.根据方案10所述的用于3D应用的模型获取方法，其特征在于，在训练所述导航决策子模型时，在所述导航决策子模型对应的奖励函数中考虑深度信息，使得：

方案16.根据方案1-7中任一项所述的用于3D应用的模型获取方法，其特征在于，所述多个子任务包括射击子任务，所述多个工作者决策子模型包括与所述射击子任务对应的射击决策子模型。

方案17.根据方案16所述的用于3D应用的模型获取方法，其特征在于，所述射击决策子模型对应的子环境信息包括玩家眼前的观测图像内的敌人位置。

方案18.根据方案16所述的用于3D应用的模型获取方法，其特征在于，在训练所述射击决策子模型时，在所述射击决策子模型对应的奖励函数中使得：成功射击敌人的次数越多，奖励越高。

方案19.根据方案1-7中任一项所述的用于3D应用的模型获取方法，其特征在于，所述多个子任务包括资源收集子任务，所述多个工作者决策子模型包括与所述资源收集子任务对应的资源收集决策子模型。

方案20.根据方案19所述的用于3D应用的模型获取方法，其特征在于，所述资源收集决策子模型对应的子环境信息包括玩家眼前的观测图像内的资源位置。

方案21.根据方案19所述的用于3D应用的模型获取方法，其特征在于，在训练所述资源收集决策子模型时，在所述资源收集决策子模型对应的奖励函数中使得：成功收集到的资源数量越多，奖励越高。

方案22.根据方案1-7中任一项所述的用于3D应用的模型获取方法，其特征在于，所述管理者决策模型和多个工作者决策子模型的网络结构采用A2C算法获得。

方案23.根据方案1-7中任一项所述的用于3D应用的模型获取方法，其特征在于，利用深度神经网络对环境进行感知，以检测环境元素来获得对应的环境信息。

方案24.根据方案23所述的用于3D应用的模型获取方法，其特征在于，所述深度神经网络采用tiny-YOLO网络。

方案25.根据方案1-7中任一项所述的用于3D应用的模型获取方法，其特征在于，在训练所述管理者决策模型时，在所述管理者决策模型对应的奖励函数中使得以下条件中的部分或全部成立：

玩家眼前的观测图像对应的深度信息的值越大，对应的奖励越高；

成功射击敌人的次数越多，奖励越高；以及

成功收集到的资源数量越多，奖励越高。

方案26.根据方案1-7中任一项所述的用于3D应用的模型获取方法，其特征在于，在训练所述多个工作者决策子模型中的每一个时：

针对玩家的每一步行为，在该步的迭代计算结束后，根据该工作者决策子模型对应的损失函数来更新该工作者决策子模型；其中，该工作者决策子模型对应的损失函数至少基于对应的预设策略函数、价值函数以及奖励函数而构建。

方案27.根据方案1-7中任一项所述的用于3D应用的模型获取方法，其特征在于，在训练所述管理者决策模型时：

针对玩家的每一步行为，在该步的迭代计算结束后，根据所述管理者决策模型对应的损失函数来更新所述管理者决策模型；其中，所述管理者决策模型对应的损失函数至少基于对应的预设策略函数、价值函数以及奖励函数而构建。

方案28.根据方案1-7中任一项所述的用于3D应用的模型获取方法，其特征在于，所述管理者决策模型的输出包括多个对应动作的估计。

方案29.根据方案1-7中任一项所述的用于3D应用的模型获取方法，其特征在于：

所述多个工作者决策子模型中的每个工作者决策子模型的输出包括多个对应子动作的估计。

方案30.根据方案1-7中任一项所述的用于3D应用的模型获取方法，其特征在于，所述3D应用包括第一人称射击游戏。

方案31.一种用于3D应用的模型获取装置，其特征在于包括：

任务划分单元，适于将所述3D应用的待处理任务划分为多个子任务；

模型构建单元，适于构建分层强化学习模型，所述分层强化学习模型包括管理者决策模型和多个工作者决策子模型，其中，所述多个工作者决策子模型与所述多个子任务之间一一对应；

子模型训练单元，适于分别独立地训练每个工作者决策子模型，确定每个工作者决策子模型的模型参数；以及

管理者决策模型训练单元，适于在固定所述多个工作者决策子模型的模型参数的情况下，训练所述管理者模型，以确定所述管理者模型的模型参数；

方案32.根据方案31所述的用于3D应用的模型获取装置，其特征在于，所述管理者决策模型训练单元适于基于玩家眼前的观测图像、环境信息以及所述多个工作者决策子模型输出的子动作与所述管理者决策模型输出的动作之间的对应关系来训练所述管理者决策模型，以确定所述管理者决策模型的模型参数。

方案33.根据方案31所述的用于3D应用的模型获取装置，其特征在于，所述管理者决策模型训练单元适于在训练所述管理者决策模型时，针对玩家的每一步行为，将当前步对应的玩家眼前的观测图像、当前步所述多个工作者决策子模型输出的子动作、过去预定数目步对应的环境信息和过去预定数目步所述管理者决策模型的动作作为所述管理者决策模型当前一步的输入。

方案34.根据方案31所述的用于3D应用的模型获取装置，其特征在于，所述子模型训练单元适于针对每个工作者决策子模型，基于玩家眼前的观测图像以及该工作者决策子模型对应的子环境信息与该工作者决策子模型输出的子动作之间的对应关系来训练该工作者决策子模型。

方案35.根据方案31所述的用于3D应用的模型获取装置，其特征在于，输入每个工作者决策子模型的对应的子环境信息由所述管理者决策模型从其对应的环境信息中分派。

方案36.根据方案31所述的用于3D应用的模型获取装置，其特征在于，至少一个工作者决策子模型对应的子环境信息包括深度信息。

方案37.根据方案36所述的用于3D应用的模型获取装置，其特征在于，所述至少一个工作者决策子模型对应的奖励函数是至少基于所述深度信息获得的；

方案38.根据方案31-37中任一项所述的用于3D应用的模型获取装置，其特征在于，所述多个子任务包括导航子任务，所述多个工作者决策子模型包括与所述导航子任务对应的导航决策子模型。

方案39.根据方案38所述的用于3D应用的模型获取装置，其特征在于，所述导航决策子模型采用注意力机制和时序卷积相结合的网络结构。

方案40.根据方案38所述的用于3D应用的模型获取装置，其特征在于，所述导航决策子模型对应的子环境信息包括深度信息。

方案41.根据方案40所述的用于3D应用的模型获取装置，其特征在于，所述子模型训练单元适于将玩家眼前的观测图像作为输入、将玩家是否正困在墙中的状态作为输出，利用玩家眼前的观测图像与玩家是否正困在墙中的状态之间的对应关系训练二分类器，以将所述二分类器的输出作为深度信息的估计。

方案42.根据方案41所述的用于3D应用的模型获取装置，其特征在于还包括：

第一信息获取单元，适于根据玩家速度来确定玩家是否正困在墙中的状态。

方案43.根据方案40所述的用于3D应用的模型获取装置，其特征在于，所述子模型训练单元适于在训练所述导航决策子模型时，针对玩家的每一步行为，若确定玩家困在墙中，令该玩家随机旋转第一角度。

方案44.根据方案43所述的用于3D应用的模型获取装置，其特征在于，所述第一角度为90°～180°之间的任意角度。

方案45.根据方案40所述的用于3D应用的模型获取装置，其特征在于，所述子模型训练单元适于在训练所述导航决策子模型时，在所述导航决策子模型对应的奖励函数中考虑深度信息，使得：

方案46.根据方案31-37中任一项所述的用于3D应用的模型获取装置，其特征在于，所述多个子任务包括射击子任务，所述多个工作者决策子模型包括与所述射击子任务对应的射击决策子模型。

方案47.根据方案46所述的用于3D应用的模型获取装置，其特征在于，所述射击决策子模型对应的子环境信息包括玩家眼前的观测图像内的敌人位置。

方案48.根据方案46所述的用于3D应用的模型获取装置，其特征在于，所述子模型训练单元适于在训练所述射击决策子模型时，在所述射击决策子模型对应的奖励函数中使得：成功射击敌人的次数越多，奖励越高。

方案49.根据方案31-37中任一项所述的用于3D应用的模型获取装置，其特征在于，所述多个子任务包括资源收集子任务，所述多个工作者决策子模型包括与所述资源收集子任务对应的资源收集决策子模型。

方案50.根据方案49所述的用于3D应用的模型获取装置，其特征在于，所述资源收集决策子模型对应的子环境信息包括玩家眼前的观测图像内的资源位置。

方案51.根据方案49所述的用于3D应用的模型获取装置，其特征在于，所述子模型训练单元适于在训练所述资源收集决策子模型时，在所述资源收集决策子模型对应的奖励函数中使得：成功收集到的资源数量越多，奖励越高。

方案52.根据方案31-37中任一项所述的用于3D应用的模型获取装置，其特征在于，所述管理者决策模型和多个工作者决策子模型的网络结构采用A2C算法获得。

方案53.根据方案31-37中任一项所述的用于3D应用的模型获取装置，其特征在于还包括：

第二信息获取单元，适于利用深度神经网络对环境进行感知，以检测环境元素来获得对应的环境信息。

方案54.根据方案53所述的用于3D应用的模型获取装置，其特征在于，所述深度神经网络采用tiny-YOLO网络。

方案55.根据方案31-37中任一项所述的用于3D应用的模型获取装置，其特征在于，所述管理者决策模型训练单元适于在训练所述管理者决策模型时，在所述管理者决策模型对应的奖励函数中使得以下条件中的部分或全部成立：

成功射击敌人的次数越多，奖励越高；以及

成功收集到的资源数量越多，奖励越高。

方案56.根据方案31-37中任一项所述的用于3D应用的模型获取装置，其特征在于，所述子模型训练单元适于在训练所述多个工作者决策子模型中的每一个时：

方案57.根据方案31-37中任一项所述的用于3D应用的模型获取装置，其特征在于，所述管理者决策模型训练单元适于在训练所述管理者决策模型时：

方案58.根据方案31-37中任一项所述的用于3D应用的模型获取装置，其特征在于：

所述管理者决策模型的输出包括多个对应动作的估计。

方案59.根据方案31-37中任一项所述的用于3D应用的模型获取装置，其特征在于：

方案60.根据方案31-37中任一项所述的用于3D应用的模型获取装置，其特征在于，所述3D应用包括第一人称射击游戏。

方案61.一种存储有程序的存储介质，所述程序被处理器执行时实现如方案1到30中的任一项所述的用于3D应用的模型获取方法。

方案62.一种计算设备，包括如方案61所述的存储介质。

Claims

1.一种用于3D应用的模型获取方法，其特征在于包括：

将所述3D应用的待处理任务划分为多个子任务，其中，各个所述子任务之间是相互解耦的；

其中，所述管理者决策模型的输入中包括环境信息，每个工作者决策子模型的输入中包括对应的子环境信息；输入每个工作者决策子模型的对应的子环境信息由所述管理者决策模型从其对应的环境信息中分派；以及至少一个工作者决策子模型对应的子环境信息包括深度信息，以及至少一个工作者决策子模型对应的奖励函数是至少基于所述深度信息获得的，所述深度信息的值越高，所述奖励函数的值越高；所述深度信息的值越小，所述奖励函数的值越低；

其中，由所述管理者决策模型从对应的环境信息中分派对应的子环境信息给对应的工作者决策子模型的方式具体为：

通过环境感知模块计算出环境向量后，根据每个工作者决策子模型需要的子环境信息，由所述管理者决策模型从所述环境向量中分配出对应的子环境信息给对应的工作者决策子模型；

以及所述多个子任务包括导航子任务，所述多个工作者决策子模型包括与所述导航子任务对应的导航决策子模型；所述导航决策子模型采用注意力机制和时序卷积相结合的网络结构；所述导航决策子模型对应的子环境信息包括深度信息；

以及将玩家眼前的观测图像作为输入、将玩家是否正困在墙中的状态作为输出，利用玩家眼前的观测图像与玩家是否正困在墙中的状态之间的对应关系训练二分类器，以将所述二分类器的输出作为深度信息的估计；所述玩家是否正困在墙中的状态根据玩家速度确定；

以及在训练所述导航决策子模型时，针对玩家的每一步行为，若确定玩家困在墙中，令该玩家随机旋转第一角度；所述第一角度为90°～180°之间的任意角度。

2.根据权利要求1所述的用于3D应用的模型获取方法，其特征在于，训练所述管理者模型的步骤包括：

3.根据权利要求1所述的用于3D应用的模型获取方法，其特征在于，在训练所述管理者决策模型时，针对玩家的每一步行为，将当前步对应的玩家眼前的观测图像、当前步所述多个工作者决策子模型输出的子动作、过去预定数目步对应的环境信息和过去预定数目步所述管理者决策模型的动作作为所述管理者决策模型当前一步的输入。

4.根据权利要求1所述的用于3D应用的模型获取方法，其特征在于，分别独立地训练每个工作者决策子模型的步骤包括：

5.根据权利要求1所述的用于3D应用的模型获取方法，其特征在于，在训练所述导航决策子模型时，在所述导航决策子模型对应的奖励函数中考虑深度信息，使得：

6.根据权利要求1-4中任一项所述的用于3D应用的模型获取方法，其特征在于，所述多个子任务包括射击子任务，所述多个工作者决策子模型包括与所述射击子任务对应的射击决策子模型。

7.根据权利要求6所述的用于3D应用的模型获取方法，其特征在于，所述射击决策子模型对应的子环境信息包括玩家眼前的观测图像内的敌人位置。

8.根据权利要求7所述的用于3D应用的模型获取方法，其特征在于，在训练所述射击决策子模型时，在所述射击决策子模型对应的奖励函数中使得：成功射击敌人的次数越多，奖励越高。

9.根据权利要求1-4中任一项所述的用于3D应用的模型获取方法，其特征在于，所述多个子任务包括资源收集子任务，所述多个工作者决策子模型包括与所述资源收集子任务对应的资源收集决策子模型。

10.根据权利要求9所述的用于3D应用的模型获取方法，其特征在于，所述资源收集决策子模型对应的子环境信息包括玩家眼前的观测图像内的资源位置。

11.根据权利要求9所述的用于3D应用的模型获取方法，其特征在于，在训练所述资源收集决策子模型时，在所述资源收集决策子模型对应的奖励函数中使得：成功收集到的资源数量越多，奖励越高。

12.根据权利要求1-4中任一项所述的用于3D应用的模型获取方法，其特征在于，所述管理者决策模型和多个工作者决策子模型的网络结构采用A2C算法获得。

13.根据权利要求1-4中任一项所述的用于3D应用的模型获取方法，其特征在于，利用深度神经网络对环境进行感知，以检测环境元素来获得对应的环境信息。

14.根据权利要求13所述的用于3D应用的模型获取方法，其特征在于，所述深度神经网络采用tiny-YOLO网络。

15.根据权利要求1-4中任一项所述的用于3D应用的模型获取方法，其特征在于，在训练所述管理者决策模型时，在所述管理者决策模型对应的奖励函数中使得以下条件中的部分或全部成立：

成功射击敌人的次数越多，奖励越高；以及

成功收集到的资源数量越多，奖励越高。

16.根据权利要求1-4中任一项所述的用于3D应用的模型获取方法，其特征在于，在训练所述多个工作者决策子模型中的每一个时：

17.根据权利要求1-4中任一项所述的用于3D应用的模型获取方法，其特征在于，在训练所述管理者决策模型时：

18.根据权利要求1-4中任一项所述的用于3D应用的模型获取方法，其特征在于，所述管理者决策模型的输出包括多个对应动作的估计。

19.根据权利要求1-4中任一项所述的用于3D应用的模型获取方法，其特征在于：

20.根据权利要求1-4中任一项所述的用于3D应用的模型获取方法，其特征在于，所述3D应用包括第一人称射击游戏。

21.一种用于3D应用的模型获取装置，其特征在于包括：

任务划分单元，适于将所述3D应用的待处理任务划分为多个子任务，其中，各个所述子任务之间是相互解耦的；

以及所述子模型训练单元适于将玩家眼前的观测图像作为输入、将玩家是否正困在墙中的状态作为输出，利用玩家眼前的观测图像与玩家是否正困在墙中的状态之间的对应关系训练二分类器，以将所述二分类器的输出作为深度信息的估计；

第一信息获取单元，适于根据玩家速度来确定玩家是否正困在墙中的状态；

以及所述子模型训练单元适于在训练所述导航决策子模型时，针对玩家的每一步行为，若确定玩家困在墙中，令该玩家随机旋转第一角度；所述第一角度为90°～180°之间的任意角度。

22.根据权利要求21所述的用于3D应用的模型获取装置，其特征在于，所述管理者决策模型训练单元适于基于玩家眼前的观测图像、环境信息以及所述多个工作者决策子模型输出的子动作与所述管理者决策模型输出的动作之间的对应关系来训练所述管理者决策模型，以确定所述管理者决策模型的模型参数。

23.根据权利要求21所述的用于3D应用的模型获取装置，其特征在于，所述管理者决策模型训练单元适于在训练所述管理者决策模型时，针对玩家的每一步行为，将当前步对应的玩家眼前的观测图像、当前步所述多个工作者决策子模型输出的子动作、过去预定数目步对应的环境信息和过去预定数目步所述管理者决策模型的动作作为所述管理者决策模型当前一步的输入。

24.根据权利要求21所述的用于3D应用的模型获取装置，其特征在于，所述子模型训练单元适于针对每个工作者决策子模型，基于玩家眼前的观测图像以及该工作者决策子模型对应的子环境信息与该工作者决策子模型输出的子动作之间的对应关系来训练该工作者决策子模型。

25.根据权利要求21所述的用于3D应用的模型获取装置，其特征在于，所述子模型训练单元适于在训练所述导航决策子模型时，在所述导航决策子模型对应的奖励函数中考虑深度信息，使得：

26.根据权利要求21-24中任一项所述的用于3D应用的模型获取装置，其特征在于，所述多个子任务包括射击子任务，所述多个工作者决策子模型包括与所述射击子任务对应的射击决策子模型。

27.根据权利要求26所述的用于3D应用的模型获取装置，其特征在于，所述射击决策子模型对应的子环境信息包括玩家眼前的观测图像内的敌人位置。

28.根据权利要求26所述的用于3D应用的模型获取装置，其特征在于，所述子模型训练单元适于在训练所述射击决策子模型时，在所述射击决策子模型对应的奖励函数中使得：成功射击敌人的次数越多，奖励越高。

29.根据权利要求21-24中任一项所述的用于3D应用的模型获取装置，其特征在于，所述多个子任务包括资源收集子任务，所述多个工作者决策子模型包括与所述资源收集子任务对应的资源收集决策子模型。

30.根据权利要求29所述的用于3D应用的模型获取装置，其特征在于，所述资源收集决策子模型对应的子环境信息包括玩家眼前的观测图像内的资源位置。

31.根据权利要求29所述的用于3D应用的模型获取装置，其特征在于，所述子模型训练单元适于在训练所述资源收集决策子模型时，在所述资源收集决策子模型对应的奖励函数中使得：成功收集到的资源数量越多，奖励越高。

32.根据权利要求21-24中任一项所述的用于3D应用的模型获取装置，其特征在于，所述管理者决策模型和多个工作者决策子模型的网络结构采用A2C算法获得。

33.根据权利要求21-24中任一项所述的用于3D应用的模型获取装置，其特征在于还包括：

34.根据权利要求33所述的用于3D应用的模型获取装置，其特征在于，所述深度神经网络采用tiny-YOLO网络。

35.根据权利要求21-24中任一项所述的用于3D应用的模型获取装置，其特征在于，所述管理者决策模型训练单元适于在训练所述管理者决策模型时，在所述管理者决策模型对应的奖励函数中使得以下条件中的部分或全部成立：

成功射击敌人的次数越多，奖励越高；以及

成功收集到的资源数量越多，奖励越高。

36.根据权利要求21-24中任一项所述的用于3D应用的模型获取装置，其特征在于，所述子模型训练单元适于在训练所述多个工作者决策子模型中的每一个时：

37.根据权利要求21-24中任一项所述的用于3D应用的模型获取装置，其特征在于，所述管理者决策模型训练单元适于在训练所述管理者决策模型时：

38.根据权利要求21-24中任一项所述的用于3D应用的模型获取装置，其特征在于：

所述管理者决策模型的输出包括多个对应动作的估计。

39.根据权利要求21-24中任一项所述的用于3D应用的模型获取装置，其特征在于：

40.根据权利要求21-24中任一项所述的用于3D应用的模型获取装置，其特征在于，所述3D应用包括第一人称射击游戏。

41.一种存储有程序的存储介质，所述程序被处理器执行时实现如权利要求1到20中的任一项所述的用于3D应用的模型获取方法。

42.一种计算设备，包括如权利要求41所述的存储介质。