CN110032359A - 用于3d应用的模型获取方法及装置、介质及计算设备 - Google Patents
用于3d应用的模型获取方法及装置、介质及计算设备 Download PDFInfo
- Publication number
- CN110032359A CN110032359A CN201910108706.2A CN201910108706A CN110032359A CN 110032359 A CN110032359 A CN 110032359A CN 201910108706 A CN201910108706 A CN 201910108706A CN 110032359 A CN110032359 A CN 110032359A
- Authority
- CN
- China
- Prior art keywords
- decision
- model
- submodel
- worker
- manager
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Classifications
-
- A—HUMAN NECESSITIES
- A63—SPORTS; GAMES; AMUSEMENTS
- A63F—CARD, BOARD, OR ROULETTE GAMES; INDOOR GAMES USING SMALL MOVING PLAYING BODIES; VIDEO GAMES; GAMES NOT OTHERWISE PROVIDED FOR
- A63F13/00—Video games, i.e. games using an electronically generated display having two or more dimensions
- A63F13/60—Generating or modifying game content before or while executing the game program, e.g. authoring tools specially adapted for game development or game-integrated level editor
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F8/00—Arrangements for software engineering
- G06F8/20—Software design
Landscapes
- Engineering & Computer Science (AREA)
- Software Systems (AREA)
- General Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Multimedia (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Processing Or Creating Images (AREA)
Abstract
本发明的实施方式提供了一种用于3D应用的模型获取方法及装置、存储介质及计算设备。用于3D应用的模型获取方法包括:将3D应用的待处理任务划分为多个子任务,并构建分层强化学习模型,包括管理者决策模型和多个工作者决策子模型,在独立地训练每个工作者决策子模型后,再固定多个工作者决策子模型的模型参数,训练管理者模型。本发明的上述技术在管理者决策模型的输入中加入了环境信息,并在每个工作者决策子模型的输入中加入了对应的子环境信息,提供了能够普遍适用于FPS游戏等3D应用的AI学习方法,大大超过了现有的模型,并能提高探索的效率。
Description
技术领域
本发明的实施方式涉及计算机技术领域,更具体地,本发明的实施方式 涉及一种用于3D应用的模型获取方法及装置、介质及计算设备。
背景技术
目前,已有许多较为成熟的AI算法应用于围棋、Atari等游戏,但这些方 法都有一个局限性:它们不能被应用于3D应用,特别是3D游戏。
3D应用(如3D游戏)与现实世界非常相似,所以这些应用对于人们的 日常生活极为重要。
以FPS游戏为例,它要求玩家能快速地进行设计、躲避等操作,这就对 快速行动提出了很高的要求。同时,FPS游戏通常需要快速地知道物资或者 怪物的位置,这也对快速感知提出了要求。这些要求本身需要对环境的语义 信息有一个较为深刻的理解。
发明内容
为此,非常需要一种改进的模型获取方法,以能够应用于3D应用,使得 构建的模型能够处理复杂的3D任务。
在本上下文中,本发明的实施方式期望提供一种用于3D应用的模型获 取方法及装置、介质及计算设备。
根据本发明的一个方面,提供了一种用于3D应用的模型获取方法,包括: 将所述3D应用的待处理任务划分为多个子任务;构建分层强化学习模型,所 述分层强化学习模型包括管理者决策模型和多个工作者决策子模型,其中, 所述多个工作者决策子模型与所述多个子任务之间一一对应;分别独立地训 练每个工作者决策子模型,确定每个工作者决策子模型的模型参数;以及在 固定所述多个工作者决策子模型的模型参数的情况下,训练所述管理者模 型,以确定所述管理者模型的模型参数;其中,所述管理者决策模型的输入 中包括环境信息,每个工作者决策子模型的输入中包括对应的子环境信息。
进一步地,训练所述管理者模型的步骤包括:基于玩家眼前的观测图像、 环境信息以及所述多个工作者决策子模型输出的子动作与所述管理者决策 模型输出的动作之间的对应关系来训练所述管理者决策模型,以确定所述管 理者决策模型的模型参数。
进一步地,在训练所述管理者决策模型时,针对玩家的每一步行为,将 当前步对应的玩家眼前的观测图像、当前步所述多个工作者决策子模型输出 的子动作、过去预定数目步对应的环境信息和过去预定数目步所述管理者决 策模型的动作作为所述管理者决策模型当前一步的输入。
进一步地,分别独立地训练每个工作者决策子模型的步骤包括:针对每 个工作者决策子模型,基于玩家眼前的观测图像以及该工作者决策子模型对 应的子环境信息与该工作者决策子模型输出的子动作之间的对应关系来训 练该工作者决策子模型。
进一步地,输入每个工作者决策子模型的对应的子环境信息由所述管理 者决策模型从其对应的环境信息中分派。
进一步地,至少一个工作者决策子模型对应的子环境信息包括深度信 息。
进一步地,所述至少一个工作者决策子模型对应的奖励函数是至少基于 所述深度信息获得的。
进一步地,所述多个子任务包括导航子任务,所述多个工作者决策子模 型包括与所述导航子任务对应的导航决策子模型。
进一步地,所述导航决策子模型采用注意力机制和时序卷积相结合的网 络结构。
进一步地,所述导航决策子模型对应的子环境信息包括深度信息。
进一步地,将玩家眼前的观测图像作为输入、将玩家是否正困在墙中的 状态作为输出,利用玩家眼前的观测图像与玩家是否正困在墙中的状态之间 的对应关系训练二分类器,以将所述二分类器的输出作为深度信息的估计。
进一步地,所述玩家是否正困在墙中的状态根据玩家速度确定。
进一步地,在训练所述导航决策子模型时,针对玩家的每一步行为,若 确定玩家困在墙中,令该玩家随机旋转第一角度。
进一步地,所述第一角度为90°~180°之间的任意角度。
进一步地,在训练所述导航决策子模型时,在所述导航决策子模型对应 的奖励函数中考虑深度信息,使得:玩家眼前的观测图像对应的深度信息的 值越大,对应的奖励越高。
进一步地,所述多个子任务包括射击子任务,所述多个工作者决策子模 型包括与所述射击子任务对应的射击决策子模型。
进一步地,所述射击决策子模型对应的子环境信息包括玩家眼前的观测 图像内的敌人位置。
进一步地,在训练所述射击决策子模型时,在所述射击决策子模型对应 的奖励函数中使得:成功射击敌人的次数越多,奖励越高。
进一步地,所述多个子任务包括资源收集子任务,所述多个工作者决策 子模型包括与所述资源收集子任务对应的资源收集决策子模型。
进一步地,所述资源收集决策子模型对应的子环境信息包括玩家眼前的 观测图像内的资源位置。
进一步地,在训练所述资源收集决策子模型时,在所述资源收集决策子 模型对应的奖励函数中使得:成功收集到的资源数量越多,奖励越高。
进一步地,所述管理者决策模型和多个工作者决策子模型的网络结构采 用A2C算法获得。
进一步地,利用深度神经网络对环境进行感知,以检测环境元素来获得 对应的环境信息。
进一步地,所述深度神经网络采用tiny-YOLO网络。
进一步地,在训练所述管理者决策模型时,在所述管理者决策模型对应 的奖励函数中使得以下条件中的部分或全部成立:玩家眼前的观测图像对应 的深度信息的值越大,对应的奖励越高;成功射击敌人的次数越多,奖励越 高;以及成功收集到的资源数量越多,奖励越高。
进一步地,在训练所述多个工作者决策子模型中的每一个时:针对玩家 的每一步行为,在该步的迭代计算结束后,根据该工作者决策子模型对应的 损失函数来更新该工作者决策子模型;其中,该工作者决策子模型对应的损 失函数至少基于对应的预设策略函数、价值函数以及奖励函数而构建。
进一步地,在训练所述管理者决策模型时:针对玩家的每一步行为,在 该步的迭代计算结束后,根据所述管理者决策模型对应的损失函数来更新所 述管理者决策模型;其中,所述管理者决策模型对应的损失函数至少基于对 应的预设策略函数、价值函数以及奖励函数而构建。
进一步地,所述管理者决策模型的输出包括多个对应动作的估计。
进一步地,所述多个工作者决策子模型中的每个工作者决策子模型的输 出包括多个对应子动作的估计。
进一步地,所述3D应用包括第一人称射击游戏。
根据本发明的另一方面,还提供了一种用于3D应用的模型获取装置,包 括:任务划分单元,适于将所述3D应用的待处理任务划分为多个子任务;模 型构建单元,适于构建分层强化学习模型,所述分层强化学习模型包括管理 者决策模型和多个工作者决策子模型,其中,所述多个工作者决策子模型与 所述多个子任务之间一一对应;子模型训练单元,适于分别独立地训练每个 工作者决策子模型,确定每个工作者决策子模型的模型参数;以及管理者决 策模型训练单元,适于在固定所述多个工作者决策子模型的模型参数的情况下,训练所述管理者模型,以确定所述管理者模型的模型参数;其中,所述 管理者决策模型的输入中包括环境信息,每个工作者决策子模型的输入中包 括对应的子环境信息。
进一步地,所述管理者决策模型训练单元适于基于玩家眼前的观测图 像、环境信息以及所述多个工作者决策子模型输出的子动作与所述管理者决 策模型输出的动作之间的对应关系来训练所述管理者决策模型,以确定所述 管理者决策模型的模型参数。
进一步地,所述管理者决策模型训练单元适于在训练所述管理者决策模 型时,针对玩家的每一步行为,将当前步对应的玩家眼前的观测图像、当前 步所述多个工作者决策子模型输出的子动作、过去预定数目步对应的环境信 息和过去预定数目步所述管理者决策模型的动作作为所述管理者决策模型 当前一步的输入。
进一步地,所述子模型训练单元适于针对每个工作者决策子模型,基于 玩家眼前的观测图像以及该工作者决策子模型对应的子环境信息与该工作 者决策子模型输出的子动作之间的对应关系来训练该工作者决策子模型。
进一步地,输入每个工作者决策子模型的对应的子环境信息由所述管理 者决策模型从其对应的环境信息中分派。
进一步地,至少一个工作者决策子模型对应的子环境信息包括深度信 息。
进一步地,所述至少一个工作者决策子模型对应的奖励函数是至少基于 所述深度信息获得的;
进一步地,所述多个子任务包括导航子任务,所述多个工作者决策子模 型包括与所述导航子任务对应的导航决策子模型。
进一步地,所述导航决策子模型采用注意力机制和时序卷积相结合的网 络结构。
进一步地,所述导航决策子模型对应的子环境信息包括深度信息。
进一步地,所述子模型训练单元适于将玩家眼前的观测图像作为输入、 将玩家是否正困在墙中的状态作为输出,利用玩家眼前的观测图像与玩家是 否正困在墙中的状态之间的对应关系训练二分类器,以将所述二分类器的输 出作为深度信息的估计。
进一步地,还包括:第一信息获取单元,适于根据玩家速度来确定玩家 是否正困在墙中的状态。
进一步地,所述子模型训练单元适于在训练所述导航决策子模型时,针 对玩家的每一步行为,若确定玩家困在墙中,令该玩家随机旋转第一角度。
进一步地,所述第一角度为90°~180°之间的任意角度。
进一步地,所述子模型训练单元适于在训练所述导航决策子模型时,在 所述导航决策子模型对应的奖励函数中考虑深度信息,使得:玩家眼前的观 测图像对应的深度信息的值越大,对应的奖励越高。
进一步地,所述多个子任务包括射击子任务,所述多个工作者决策子模 型包括与所述射击子任务对应的射击决策子模型。
进一步地,所述射击决策子模型对应的子环境信息包括玩家眼前的观测 图像内的敌人位置。
进一步地,所述子模型训练单元适于在训练所述射击决策子模型时,在 所述射击决策子模型对应的奖励函数中使得:成功射击敌人的次数越多,奖 励越高。
进一步地,所述多个子任务包括资源收集子任务,所述多个工作者决策 子模型包括与所述资源收集子任务对应的资源收集决策子模型。
进一步地,所述资源收集决策子模型对应的子环境信息包括玩家眼前的 观测图像内的资源位置。
进一步地,所述子模型训练单元适于在训练所述资源收集决策子模型 时,在所述资源收集决策子模型对应的奖励函数中使得:成功收集到的资源 数量越多,奖励越高。
进一步地,所述管理者决策模型和多个工作者决策子模型的网络结构采 用A2C算法获得。
进一步地,还包括:第二信息获取单元,适于利用深度神经网络对环境 进行感知,以检测环境元素来获得对应的环境信息。
进一步地,所述深度神经网络采用tiny-YOLO网络。
进一步地,所述管理者决策模型训练单元适于在训练所述管理者决策模 型时,在所述管理者决策模型对应的奖励函数中使得以下条件中的部分或全 部成立:玩家眼前的观测图像对应的深度信息的值越大,对应的奖励越高; 成功射击敌人的次数越多,奖励越高;以及成功收集到的资源数量越多,奖 励越高。
进一步地,所述子模型训练单元适于在训练所述多个工作者决策子模型 中的每一个时:针对玩家的每一步行为,在该步的迭代计算结束后,根据该 工作者决策子模型对应的损失函数来更新该工作者决策子模型;其中,该工 作者决策子模型对应的损失函数至少基于对应的预设策略函数、价值函数以 及奖励函数而构建。
进一步地,所述管理者决策模型训练单元适于在训练所述管理者决策模 型时:针对玩家的每一步行为,在该步的迭代计算结束后,根据所述管理者 决策模型对应的损失函数来更新所述管理者决策模型;其中,所述管理者决 策模型对应的损失函数至少基于对应的预设策略函数、价值函数以及奖励函 数而构建。
进一步地,所述管理者决策模型的输出包括多个对应动作的估计。
进一步地,所述多个工作者决策子模型中的每个工作者决策子模型的输 出包括多个对应子动作的估计。
进一步地,所述3D应用包括第一人称射击游戏。
根据本发明的又一方面,还提供了一种存储有程序的存储介质,所述程 序被处理器执行时实现如上所述的用于3D应用的模型获取方法。
根据本发明的再一方面,还提供了一种计算设备,包括如上所述的存储 介质。
根据本发明实施方式的用于3D应用的模型获取方法及装置、存储介质及 计算设备,其将3D应用的待处理任务划分为多个子任务,并构建分层强化学 习模型,包括管理者决策模型和多个工作者决策子模型,在独立地训练每个 工作者决策子模型后,再固定多个工作者决策子模型的模型参数,训练管理 者模型。本发明的上述方案在管理者决策模型的输入中加入了环境信息,并 在每个工作者决策子模型的输入中加入了对应的子环境信息,提供了能够普 遍适用于FPS游戏等3D应用的AI学习方法,大大超过了现有的模型,并能提高探索的效率。
附图说明
通过参考附图阅读下文的详细描述,本发明示例性实施方式的上述 以及其他目的、特征和优点将变得易于理解。在附图中,以示例性而非 限制性的方式示出了本发明的若干实施方式,其中:
图1是示意性地示出根据本发明实施方式的用于3D应用的模型获取 方法的一个示例性处理的流程图;
图2是示意性地示出根据本发明实施方式的用于3D应用的模型获取 装置的一个示例的结构框图;
图3是示意性地示出根据本发明一实施例的计算机的结构示意图;
图4是示意性地示出根据本发明一实施例的计算机可读存储介质的 示意图。
在附图中,相同或对应的标号表示相同或对应的部分。
具体实施方式
下面将参考若干示例性实施方式来描述本发明的原理和精神。应当 理解,给出这些实施方式仅仅是为了使本领域技术人员能够更好地理解 进而实现本发明,而并非以任何方式限制本发明的范围。相反,提供这 些实施方式是为了使本公开更加透彻和完整,并且能够将本公开的范围 完整地传达给本领域的技术人员。
本领域技术人员知道,本发明的实施方式可以实现为一种系统、装 置、设备、方法或计算机程序产品。因此,本公开可以具体实现为以下 形式,即:完全的硬件、完全的软件(包括固件、驻留软件、微代码等), 或者硬件和软件结合的形式。
在本文中,需要理解的是,附图中的任何元素数量均用于示例而非 限制,以及任何命名都仅用于区分,而不具有任何限制含义。
下面参考本发明的若干代表性实施方式,详细阐释本发明的原理和 精神。
示例性方法
下面参考图1来描述根据本发明示例性实施方式的用于3D应用的模 型获取方法。
本发明的实施例提供了一种用于3D应用的模型获取方法,包括:将所 述3D应用的待处理任务划分为多个子任务;构建分层强化学习模型,所述分 层强化学习模型包括管理者决策模型和多个工作者决策子模型,其中,所述 多个工作者决策子模型与所述多个子任务之间一一对应;分别独立地训练每 个工作者决策子模型,确定每个工作者决策子模型的模型参数;以及在固定 所述多个工作者决策子模型的模型参数的情况下,训练所述管理者模型,以 确定所述管理者模型的模型参数;其中,所述管理者决策模型的输入中包括 环境信息,每个工作者决策子模型的输入中包括对应的子环境信息。
图1示意性地示出了根据本公开实施例的用于3D应用的模型获取方法的 一种示例性的处理流程100。
如图1所示,处理流程100开始后,首先执行步骤S110。
在步骤S110中,将3D应用的待处理任务划分为多个子任务(大于或等于 2个子任务)。
例如,可以将待处理任务划分为导航、资源收集、杀敌(或打怪)、开 门等多个子任务(也可以只包括这些子任务中的部分,或者也可以包括其他 子任务)。
应当说明的是,划分的方法并不限于此,例如也可以进行更细地划分, 比如将资源收集又分为医疗资源收集、武器收集等等;或者,也可以将部分 子任务放在一起处理,比如将资源收集和开门等放在一起处理;等等。
作为示例,3D应用等例如包括3D类型的第一人称射击(FPS,First-personshooting)游戏。
FPS游戏的任务通常可以划分出导航、资源收集、杀敌(或打怪)等子 任务,然而,应当理解的是,本发明所提供的上述方法以及下文将要描述的 装置等所能够适用的3D应用并不仅仅限于上述FPS游戏,也可以适用于其他 类型的3D应用,比如一些仅仅可以划分出3D导航子任务和收集资源子任务 的3D应用(如一些3D体育竞赛并带有资源收集功能的应用),或者,又如 一些可以仅仅划分出3D导航子任务和杀敌子任务的3D应用,又或者,可以 划分出两个或更多个其他子任务(可选地,可以包括上文所述的一个或多个 子任务)的3D应用。
然后,在步骤S120中,构建分层强化学习模型,分层强化学习模型包括 管理者决策模型和多个工作者决策子模型,其中,多个工作者决策子模型与 多个子任务之间一一对应。
例如,多个工作者决策子模型可以包括导航决策子模型、资源收集决策 子模型、杀敌(或打怪)决策子模型、开门决策子模型等多个工作者决策子 模型(也可以只包括这些决策子模型中的部分,或者也可以包括其他决策子 模型)。此外,在其他例子中,也可以将开门决策子模型与资源收集决策子 模型合并为一个子模型(例如统一称为资源收集决策子模型),用于处理这 两个任务。
应当理解的是,在划分好多个子任务、并建立对应的工作者决策子模型 之后,各个子任务之间是相互解耦的。
接着,在步骤S130中,分别独立地训练每个工作者决策子模型,确定每 个工作者决策子模型的模型参数。
训练好每个工作者决策子模型之后,在步骤S140中,在固定多个工作者 决策子模型的模型参数的情况下,训练管理者模型,以确定管理者模型的模 型参数。
其中,管理者决策模型的输入中包括环境信息,每个工作者决策子模型 的输入中包括对应的子环境信息。
作为示例,可以利用深度神经网络对环境进行感知,以检测环境元素来 获得对应的环境信息。
例如,为了对环境更好的进行建模,深度神经网络采用tiny-YOLO网络。 为了快速进行物体检测,例如可以用resnet模块搭建23层的神经网络。举例 来说,在Doom这个任务中,可以检测怪物、血包、药和门等能应用于决策 的重要信息(例如这些检测到的物体的位置信息),并将这些信息包装成一 个环境向量Envt来作为决策使用的环境信息。
作为示例,训练管理者模型的步骤例如包括如下处理:基于玩家眼前的 观测图像、环境信息以及多个工作者决策子模型输出的子动作与管理者决策 模型输出的动作之间的对应关系来训练管理者决策模型,以确定管理者决策 模型的模型参数。
需要说明的是,这里所说的玩家例如是由计算机控制的电脑玩家,或者 也可以是用户控制的玩家进行托管后由计算机控制下的玩家。
作为示例,在训练管理者决策模型时,针对玩家的每一步行为,例如可 以将当前步对应的玩家眼前的观测图像、当前步多个工作者决策子模型输出 的子动作、过去预定数目步(例如过去30帧或40帧等)对应的环境信息和过 去预定数目步管理者决策模型的动作作为管理者决策模型当前一步的输入。 例如,当前要处理的是第100帧(或称第100步),则当前一步的输入包括如 下信息:第100帧的玩家眼前的观测图像;第100帧的各工作者决策子模型的 动作;第71~100帧对应的环境信息;以及第71~100帧对应的该管理者决策模型输出的动作。
此外,作为示例,每个工作者决策子模型的输入包括当前步对应的玩家 眼前的观测图像以及对应的子环境信息。
在一个例子中,每个工作者决策子模型当前一步的输入包括:当前步对 应的玩家眼前的观测图像以及过去多步(例如过去30帧或40帧等,这个数量 和上文所提到的“过去预定数目步”可以相同或不同)对应的子环境信息以 及过去预定数目步该工作者决策子模型的动作。
在另一个例子中,每个工作者决策子模型当前一步的输入也可以包括: 当前步对应的玩家眼前的观测图像以及当前步对应的子环境信息。
作为示例,输入每个工作者决策子模型的对应的子环境信息可以由管理 者决策模型从其对应的环境信息中分派。
例如,通过环境感知模块计算出环境向量Envt后,根据每个工作者决策 子模型需要的子环境信息,由管理者决策模型从这个环境向量中分配出对应 的部分(子环境信息)给对应的工作者决策子模型。比如,可以通过向量相 乘的方式实现:
Dj=Envt*A*Aj。
其中,Envt表示管理者决策模型通过环境感知模块获得的环境向量(作 为环境信息),Aj表示上述多个工作者决策子模型中的第j个子模型需要的对 应环境向量Envt中的对应位置(例如,需要Envt中的某个位置的元素,就令 Aj中对应这个元素的位置的值为1,而不需要的那些元素对应的位置的值为 0),Dj表示第j个子模型得到的子环境信息,j=1,2,…,n。
此外,下文将要描述的深度信息也可以作为子环境信息的一个示例。在 一个例子中,可以将深度信息也包含在上述环境向量中;在另一个例子中, 管理者决策模型可以将上述环境向量和深度信息作为环境信息,根据不同工 作者决策子模型的需要将其对应的子环境信息分配给它。
作为示例,分别独立地训练每个工作者决策子模型的步骤例如包括:针 对每个工作者决策子模型,基于玩家眼前的观测图像以及该工作者决策子模 型对应的子环境信息与该工作者决策子模型输出的子动作之间的对应关系 来训练该工作者决策子模型。
作为示例,至少一个工作者决策子模型对应的子环境信息包括深度信 息。
其中,深度信息例如可以表示为二值化信息,比如,深度信息的值为0 表示玩家正困在墙内,而深度信息的值为1则表示玩家目前距墙较远(或没 有被困在墙内)。
作为示例,至少一个工作者决策子模型对应的奖励函数是至少基于深度 信息获得的。
例如,深度信息的值越高,奖励函数的值越高;深度信息的值越小,奖 励函数的值越低。比如,深度信息若为1,奖励较高;深度信息若为0,奖励 较低。
作为示例,多个子任务包括导航子任务,多个工作者决策子模型包括与 导航子任务对应的导航决策子模型。
作为示例,导航决策子模型采用注意力机制和时序卷积相结合的网络结 构。
作为示例,导航决策子模型对应的子环境信息包括深度信息。
作为示例,将玩家眼前的观测图像作为输入、将玩家是否正困在墙中的 状态作为输出,利用玩家眼前的观测图像与玩家是否正困在墙中的状态之间 的对应关系训练二分类器,以将二分类器的输出作为深度信息的估计。
作为示例,玩家是否正困在墙中的状态例如可以根据玩家速度确定。玩 家速度若小于预设速度,则判定其正困在墙内;若玩家速度高于预设速度, 则判定其未被困在墙内。预设速度例如可以根据经验设定,或通过试验方法 确定,比如设为0.1(单位例如根据经验设定,比如像素/秒)。
作为示例,在训练导航决策子模型时,针对玩家的每一步行为,若确定 玩家困在墙中,令该玩家随机旋转第一角度。
作为示例,第一角度为90°~180°之间的任意角度。
作为示例,在训练导航决策子模型时,在导航决策子模型对应的奖励函 数中考虑深度信息,使得:
玩家眼前的观测图像对应的深度信息的值越大,对应的奖励越高。
作为示例,多个子任务包括射击子任务,多个工作者决策子模型包括与 射击子任务对应的射击决策子模型。
作为示例,射击决策子模型对应的子环境信息包括玩家眼前的观测图像 内的敌人位置。
作为示例,在训练射击决策子模型时,在射击决策子模型对应的奖励函 数中使得:成功射击敌人的次数越多,奖励越高。
作为示例,多个子任务包括资源收集子任务,多个工作者决策子模型包 括与资源收集子任务对应的资源收集决策子模型。
作为示例,资源收集决策子模型对应的子环境信息包括玩家眼前的观测 图像内的资源位置(可选地,还可以包括门的位置)。
作为示例,在训练资源收集决策子模型时,在资源收集决策子模型对应 的奖励函数中使得:成功收集到的资源数量越多,奖励越高(可选地,还可 以包括:开的门越多,奖励越高)。
作为示例,管理者决策模型和多个工作者决策子模型的网络结构例如可 以采用A2C算法获得。
作为示例,在训练管理者决策模型时,在管理者决策模型对应的奖励函 数中使得以下条件中的部分或全部成立:玩家眼前的观测图像对应的深度信 息的值越大,对应的奖励越高;成功射击敌人的次数越多,奖励越高;以及 成功收集到的资源数量越多,奖励越高(可选地,还可以包括:开的门越多, 奖励越高)。
作为示例,在训练多个工作者决策子模型中的每一个时:针对玩家的每 一步行为,在该步的迭代计算结束后,根据该工作者决策子模型对应的损失 函数来更新该工作者决策子模型;其中,该工作者决策子模型对应的损失函 数至少基于对应的预设策略函数、价值函数以及奖励函数而构建。
作为示例,在训练管理者决策模型时:
针对玩家的每一步行为,在该步的迭代计算结束后,根据管理者决策模 型对应的损失函数来更新管理者决策模型;其中,管理者决策模型对应的损 失函数至少基于对应的预设策略函数、价值函数以及奖励函数而构建。
作为示例,管理者决策模型的输出包括多个对应动作的估计。
作为示例,多个工作者决策子模型中的每个工作者决策子模型的输出包 括多个对应子动作的估计。
下面,以管理者决策模型的算法为例,描述一个处理示例。
首先初始化策略,在接下来的每一轮迭代中,首先通过环境感知模块计 算出环境向量Envt,并将这个向量传输给每个子模块。每个子模块根据计算 出相应策略下选取的动作,最后管理者决策模型通过自己的策略选择出最后 的动作a{final}~π(b1,b2,…,bn,Envt,img,ak,ak+1,…,ak+Q-1),并执行这个动作,获 得环境返回的奖励值。其中,a{final}表示管理者决策模型的输出,π()是策 略函数,其输入包括当前帧的玩家眼前的观测图像img、当前帧n个工作者决 策子模型(n为大于1的整数)输出的子动作b1、b2、…、bn、过去预定数目帧(预定数目为Q个,Q例如为30或50等正整数)的环境向量Envt以及过去 预定数目帧的管理者决策模型的输出动作ak,ak+1,…,ak+Q-1,其中, ak,ak+1,…,ak+Q-1表示过去Q帧的管理者决策模型输出动作。换句话说,当前帧 为第k+Q帧,第k帧~第k+Q-1帧是过去的Q帧。
一轮迭代结束后,根据以下损失函数来更新管理者决策模型:
L=Lpolicy+Lvalue。
其中,Lpolicy表示与策略相关的损失项,而Lvalue表示与价值函数相关的 损失项。
Lpolicy=-1og(πfinal)*A(s)-β*H(π),Lvalue=∑(R-V(s))2。
这里,A()是优势函数,A(s)表示状态s下的优势,β是可调参数,H(π) 表示策略π的熵,R表示奖励函数,V(s)是估计的状态s下的价值函数,πfinal是管理者决策模型的决策分布,状态s指当前的玩家眼前的观测图像。
需要理解的是,虽然状态s是指当前玩家眼前的观测图像,但其对应表 示的模型输入应当是b1,…,bn,Envt,img,ak,ak+1,…,ak+Q-1。也就是说,在计算 πθ(ai|si)时对b1,…,bn,Envt,ak,ak+1,…,ak+Q-1求导而更新参数。
此外,需要说明的是,子模型的输入与管理者决策模型的输入的不同在 于,子模型的输入为(Envt,img,ak,ak+1,…,ak+Q-1),而没有b1,b2,…,bn这一项。
例如,可以使用两个神经网络来近似策略的分布和价值函数的分布。在 一个例子中,对于策略πθ的梯度,可以用如下公式计算: 并更新。对于价值函数的梯度,可以用如下公 式计算:并更新。
其中,θ表示决策的参数,πθ表示在θ这组参数下的决策分布(与上面的 πfinal是同一个分布),ai表示第i帧对应的动作,si表示第i帧对应的玩家眼 前的观测图像,Vw(si)表示第i帧对应的价值函数。其中,i为小于当前帧数的 正整数。
此外,对于每个工作者决策子模型来说,对应的损失函数也可以采用类 似上文描述的管理者决策模型的损失函数,需要注意的是,当针对管理者决 策模型处理时,ai表示管理者决策模型的第i帧的动作;而当针对工作者决策 子模型处理时,ai表示该工作者决策子模型的第i帧的动作。
例如,管理者决策模型的网络结构可如下:首先通过一个CNN (ConvolutionalNeural Network,卷积神经网络)提出当前看到的图像的特 征,然后将它通过一个LSTM(Long Short-Term Memory,长短期记忆网络) 模块得到时序上的特征,然后将这个特征和环境向量连接起来得到一个新的 向量,这里的环境向量例如定义为过去30帧的怪物信息、过去30帧的子动作 信息(例如导航决策子模型过去30帧输出的子动作)以及过去30帧的资源信 息。然后,将这个新的向量通过两个全连接层,得到需要的策略π和价值函 数。
例如,管理者决策模型的策略使得不要缩到只做一个动作。这样,每次 输出的是一个工作分布,其包括对各个动作的估计。
此外,在训练过程中也使用了奖励函数塑造的办法,来使得模型更好地 收敛。例如,奖励函数定义为φ(s)=|δRe|+|δEn|,其中,φ(s)作为上述奖 励函数R的一个示例,δRe表示资源的收集数,δEn表示打到怪的次数。
此外,工作者中的导航模块(即导航决策子模型)的网络结构结合了注 意力机制和时序卷积相结合的方法,并且将深度信息也加入到决策过程中, 实验结果表明,该方法大大提高了探索的效率。
此外,对于每一个像素,可以从游戏引擎中获得了能表示玩家眼前的深 度信息。例如,训练一个可以判断玩家是否困在墙内的二分类网络。对于玩 家的每一步行为,首先获得当前观测的图像和深度信息的估计,如果发现玩 家困在墙内,则随机旋转90°到180°来走出这种状态,这大大提高了探索 的效率。此外,还可以在奖励函数中加入深度信息,这使得玩家在游戏过程 中更不容易走入死角。
通过以上描述可知,本发明的上述模型获取方法给出了一个在FPS游戏 等3D应用中较为普适的AI学习方法,大大超过了现有的模型,并能提高探索 的效率。
示例性装置
在介绍了本发明示例性实施方式的用于3D应用的模型获取方法之后,接 下来,参考图2对本发明示例性实施方式的用于3D应用的模型获取装置进行 说明。
参见图2,示意性地示出了根据本发明一实施例的用于3D应用的模型获 取装置的结构示意图,该装置可以设置于终端设备中,例如,该装置可以设 置于台式计算机、笔记型计算机、智能移动电话以及平板电脑等智能电子设 备中;当然,本发明实施方式的装置也可以设置于服务器中。本发明实施方 式的装置200可以包括下述组成单元:任务划分单元210、模型构建单元220、 子模型训练单元230和管理者决策模型训练单元240。
如图2所示,任务划分单元210适于将3D应用的待处理任务划分为多个子 任务。
模型构建单元220适于构建分层强化学习模型,分层强化学习模型包括 管理者决策模型和多个工作者决策子模型,其中,多个工作者决策子模型与 多个子任务之间一一对应。
子模型训练单元230适于分别独立地训练每个工作者决策子模型,确定 每个工作者决策子模型的模型参数。
管理者决策模型训练单元240适于在固定多个工作者决策子模型的模型 参数的情况下,训练管理者模型,以确定管理者模型的模型参数。
其中,管理者决策模型的输入中包括环境信息,每个工作者决策子模型 的输入中包括对应的子环境信息。
作为示例,管理者决策模型训练单元例如适于基于玩家眼前的观测图 像、环境信息以及多个工作者决策子模型输出的子动作与管理者决策模型输 出的动作之间的对应关系来训练管理者决策模型,以确定管理者决策模型的 模型参数。
作为示例,管理者决策模型训练单元例如适于在训练管理者决策模型 时,针对玩家的每一步行为,将当前步对应的玩家眼前的观测图像、当前步 所述多个工作者决策子模型输出的子动作、过去预定数目步对应的环境信息 和过去预定数目步所述管理者决策模型的动作作为管理者决策模型当前一 步的输入。
作为示例,子模型训练单元例如适于针对每个工作者决策子模型,基于 玩家眼前的观测图像以及该工作者决策子模型对应的子环境信息与该工作 者决策子模型输出的子动作之间的对应关系来训练该工作者决策子模型。
作为示例,输入每个工作者决策子模型的对应的子环境信息例如由管理 者决策模型从其对应的环境信息中分派。
作为示例,至少一个工作者决策子模型对应的子环境信息例如包括深度 信息。
作为示例,至少一个工作者决策子模型对应的奖励函数例如是至少基于 深度信息获得的;
作为示例,多个子任务例如包括导航子任务,多个工作者决策子模型例 如包括与导航子任务对应的导航决策子模型。
作为示例,导航决策子模型例如采用注意力机制和时序卷积相结合的网 络结构。
作为示例,导航决策子模型对应的子环境信息例如包括深度信息。
作为示例,子模型训练单元例如适于将玩家眼前的观测图像作为输入、 将玩家是否正困在墙中的状态作为输出,利用玩家眼前的观测图像与玩家是 否正困在墙中的状态之间的对应关系训练二分类器,以将二分类器的输出作 为深度信息的估计。
作为示例,上述装置还可以包括:第一信息获取单元(图中未示出), 适于根据玩家速度来确定玩家是否正困在墙中的状态。
作为示例,子模型训练单元例如适于在训练导航决策子模型时,针对玩 家的每一步行为,若确定玩家困在墙中,令该玩家随机旋转第一角度。
作为示例,第一角度例如为90°~180°之间的任意角度。
作为示例,子模型训练单元适于在训练导航决策子模型时,例如可以在 导航决策子模型对应的奖励函数中考虑深度信息,使得:玩家眼前的观测图 像对应的深度信息的值越大,对应的奖励越高。
作为示例,多个子任务例如包括射击子任务,多个工作者决策子模型例 如包括与射击子任务对应的射击决策子模型。
作为示例,射击决策子模型对应的子环境信息例如包括玩家眼前的观测 图像内的敌人位置。
作为示例,子模型训练单元例如适于在训练射击决策子模型时,在射击 决策子模型对应的奖励函数中使得:成功射击敌人的次数越多,奖励越高。
作为示例,多个子任务例如包括资源收集子任务,多个工作者决策子模 型例如包括与资源收集子任务对应的资源收集决策子模型。
作为示例,资源收集决策子模型对应的子环境信息例如包括玩家眼前的 观测图像内的资源位置。
作为示例,子模型训练单元例如适于在训练资源收集决策子模型时,在 资源收集决策子模型对应的奖励函数中使得:成功收集到的资源数量越多, 奖励越高。
作为示例,管理者决策模型和多个工作者决策子模型的网络结构例如采 用A2C算法获得。
作为示例,上述装置还可以包括:第二信息获取单元(图中未示出), 适于利用深度神经网络对环境进行感知,以检测环境元素来获得对应的环境 信息。
作为示例,深度神经网络例如采用tiny-YOLO网络。
作为示例,管理者决策模型训练单元例如适于在训练管理者决策模型 时,在管理者决策模型对应的奖励函数中使得以下条件中的部分或全部成 立:玩家眼前的观测图像对应的深度信息的值越大,对应的奖励越高;成功 射击敌人的次数越多,奖励越高;以及成功收集到的资源数量越多,奖励越 高。
作为示例,子模型训练单元例如适于在训练多个工作者决策子模型中的 每一个时:针对玩家的每一步行为,在该步的迭代计算结束后,根据该工作 者决策子模型对应的损失函数来更新该工作者决策子模型;其中,该工作者 决策子模型对应的损失函数至少基于对应的预设策略函数、价值函数以及奖 励函数而构建。
作为示例,管理者决策模型训练单元例如适于在训练管理者决策模型 时:针对玩家的每一步行为,在该步的迭代计算结束后,根据管理者决策模 型对应的损失函数来更新管理者决策模型;其中,管理者决策模型对应的损 失函数至少基于对应的预设策略函数、价值函数以及奖励函数而构建。
作为示例,管理者决策模型的输出例如包括多个对应动作的估计。
作为示例,多个工作者决策子模型中的每个工作者决策子模型的输出例 如包括多个对应子动作的估计。
作为示例,所述3D应用例如包括第一人称射击游戏。
应当说明的是,本发明示例性实施方式的用于3D应用的模型获取装 置中的组成单元或子单元能够分别执行上文结合上文所描述的本发明示 例性实施方式的用于3D应用的模型获取方法中的对应步骤或子步骤中 的处理,并能够达到相类似的功能和效果,这里不再赘述。
图3示出了适于用来实现本发明实施方式的示例性计算机系统/服务器 30的框图。图3显示的计算机系统/服务器30仅仅是一个示例,不应对本发 明实施例的功能和使用范围带来任何限制。
如图3所示,计算机系统/服务器30以通用计算设备的形式表现。计算 机系统/服务器30的组件可以包括但不限于:一个或者多个处理器或者处理 单元301,系统存储器302,连接不同系统组件(包括系统存储器302和处 理单元301)的总线303。
计算机系统/服务器30典型地包括多种计算机系统可读介质。这些介质 可以是任何能够被计算机系统/服务器30访问的可用介质,包括易失性和非 易失性介质,可移动的和不可移动的介质。
系统存储器302可以包括易失性存储器形式的计算机系统可读介质,例 如随机存取存储器(RAM)3021和/或高速缓存存储器3022。计算机系统/ 服务器30可以进一步包括其它可移动/不可移动的、易失性/非易失性计算机 系统存储介质。仅作为举例,ROM3023可以用于读写不可移动的、非易失 性磁介质(图3中未显示,通常称为“硬盘驱动器”)。尽管未在图3中示出, 可以提供用于对可移动非易失性磁盘(例如“软盘”)读写的磁盘驱动器,以 及对可移动非易失性光盘(例如CD-ROM,DVD-ROM或者其它光介质)读 写的光盘驱动器。在这些情况下,每个驱动器可以通过一个或者多个数据介 质接口与总线303相连。系统存储器302中可以包括至少一个程序产品,该 程序产品具有一组(例如至少一个)程序模块,这些程序模块被配置以执行 本发明各实施例的功能。
具有一组(至少一个)程序模块3024的程序/实用工具3025,可以存储 在例如系统存储器302中,且这样的程序模块3024包括但不限于:操作系 统、一个或者多个应用程序、其它程序模块以及程序数据,这些示例中的每 一个或某种组合中可能包括网络环境的实现。程序模块3024通常执行本发 明所描述的实施例中的功能和/或方法。
计算机系统/服务器30也可以与一个或多个外部设备304(如键盘、指 向设备、显示器等)通信。这种通信可以通过输入/输出(I/O)接口305进 行。并且,计算机系统/服务器30还可以通过网络适配器306与一个或者多 个网络(例如局域网(LAN),广域网(WAN)和/或公共网络,例如因特 网)通信。如图3所示,网络适配器306通过总线303与计算机系统/服务器 30的其它模块(如处理单元301等)通信。应当明白,尽管图3中未示出, 可以结合计算机系统/服务器30使用其它硬件和/或软件模块。
处理单元(或处理器)301通过运行存储在系统存储器302中的程序, 从而执行各种功能应用以及数据处理,例如,执行并实现用于3D应用的模 型获取方法中的各步骤;例如,将所述3D应用的待处理任务划分为多个子 任务;构建分层强化学习模型,所述分层强化学习模型包括管理者决策模型 和多个工作者决策子模型,其中,所述多个工作者决策子模型与所述多个子 任务之间一一对应;分别独立地训练每个工作者决策子模型,确定每个工作 者决策子模型的模型参数;以及在固定所述多个工作者决策子模型的模型参 数的情况下,训练所述管理者模型,以确定所述管理者模型的模型参数;其 中,所述管理者决策模型的输入中包括环境信息,每个工作者决策子模型的 输入中包括对应的子环境信息。
本发明实施方式的计算机可读存储介质一个具体例子如图4所示。
图4的计算机可读存储介质为光盘400,其上存储有计算机程序(即程 序产品),该程序被处理器执行时,会实现上述方法实施方式中所记载的各 步骤,例如,将所述3D应用的待处理任务划分为多个子任务;构建分层强 化学习模型,所述分层强化学习模型包括管理者决策模型和多个工作者决策 子模型,其中,所述多个工作者决策子模型与所述多个子任务之间一一对应; 分别独立地训练每个工作者决策子模型,确定每个工作者决策子模型的模型 参数;以及在固定所述多个工作者决策子模型的模型参数的情况下,训练所 述管理者模型,以确定所述管理者模型的模型参数;其中,所述管理者决策 模型的输入中包括环境信息,每个工作者决策子模型的输入中包括对应的子 环境信息;各步骤的具体实现方式在此不再重复说明。
应当注意,尽管在上文详细描述中提及了用于3D应用的模型获取装置 的若干单元、模块或子模块,但是这种划分仅仅是示例性的并非强制性的。 实际上,根据本发明的实施方式,上文描述的两个或更多模块的特征和功能 可以在一个模块中具体化。反之,上文描述的一个模块的特征和功能可以进 一步划分为由多个模块来具体化。
此外,尽管在附图中以特定顺序描述了本发明方法的操作,但是,这并 非要求或者暗示必须按照该特定顺序来执行这些操作,或是必须执行全部所 示的操作才能实现期望的结果。附加地或备选地,可以省略某些步骤,将多 个步骤合并为一个步骤执行,和/或将一个步骤分解为多个步骤执行。
虽然已经参考若干具体实施方式描述了本发明的精神和原理,但是应该 理解,本发明并不限于所公开的具体实施方式,对各方面的划分也不意味着 这些方面中的特征不能组合以进行受益,这种划分仅是为了表述的方便。本 发明旨在涵盖所附权利要求的精神和范围内所包括的各种修改和等同布置。
综上,在根据本公开的实施例中,本公开提供了如下方案,但不限于此:
方案1.一种用于3D应用的模型获取方法,其特征在于包括:
将所述3D应用的待处理任务划分为多个子任务;
构建分层强化学习模型,所述分层强化学习模型包括管理者决策模型和 多个工作者决策子模型,其中,所述多个工作者决策子模型与所述多个子任 务之间一一对应;
分别独立地训练每个工作者决策子模型,确定每个工作者决策子模型的 模型参数;以及
在固定所述多个工作者决策子模型的模型参数的情况下,训练所述管理 者模型,以确定所述管理者模型的模型参数;
其中,所述管理者决策模型的输入中包括环境信息,每个工作者决策子 模型的输入中包括对应的子环境信息。
方案2.根据方案1所述的用于3D应用的模型获取方法,其特征在于,训 练所述管理者模型的步骤包括:
基于玩家眼前的观测图像、环境信息以及所述多个工作者决策子模型输 出的子动作与所述管理者决策模型输出的动作之间的对应关系来训练所述 管理者决策模型,以确定所述管理者决策模型的模型参数。
方案3.根据方案1所述的用于3D应用的模型获取方法,其特征在于,在 训练所述管理者决策模型时,针对玩家的每一步行为,将当前步对应的玩家 眼前的观测图像、当前步所述多个工作者决策子模型输出的子动作、过去预 定数目步对应的环境信息和过去预定数目步所述管理者决策模型的动作作 为所述管理者决策模型当前一步的输入。
方案4.根据方案1所述的用于3D应用的模型获取方法,其特征在于,分 别独立地训练每个工作者决策子模型的步骤包括:
针对每个工作者决策子模型,基于玩家眼前的观测图像以及该工作者决 策子模型对应的子环境信息与该工作者决策子模型输出的子动作之间的对 应关系来训练该工作者决策子模型。
方案5.根据方案1所述的用于3D应用的模型获取方法,其特征在于,输 入每个工作者决策子模型的对应的子环境信息由所述管理者决策模型从其 对应的环境信息中分派。
方案6.根据方案1所述的用于3D应用的模型获取方法,其特征在于,至 少一个工作者决策子模型对应的子环境信息包括深度信息。
方案7.根据方案6所述的用于3D应用的模型获取方法,其特征在于,所 述至少一个工作者决策子模型对应的奖励函数是至少基于所述深度信息获 得的。
方案8.根据方案1-7中任一项所述的用于3D应用的模型获取方法,其特 征在于,所述多个子任务包括导航子任务,所述多个工作者决策子模型包括 与所述导航子任务对应的导航决策子模型。
方案9.根据方案8所述的用于3D应用的模型获取方法,其特征在于,所 述导航决策子模型采用注意力机制和时序卷积相结合的网络结构。
方案10.根据方案8所述的用于3D应用的模型获取方法,其特征在于, 所述导航决策子模型对应的子环境信息包括深度信息。
方案11.根据方案10所述的用于3D应用的模型获取方法,其特征在于, 将玩家眼前的观测图像作为输入、将玩家是否正困在墙中的状态作为输出, 利用玩家眼前的观测图像与玩家是否正困在墙中的状态之间的对应关系训 练二分类器,以将所述二分类器的输出作为深度信息的估计。
方案12.根据方案11所述的用于3D应用的模型获取方法,其特征在于, 所述玩家是否正困在墙中的状态根据玩家速度确定。
方案13.根据方案10所述的用于3D应用的模型获取方法,其特征在于, 在训练所述导航决策子模型时,针对玩家的每一步行为,若确定玩家困在墙 中,令该玩家随机旋转第一角度。
方案14.根据方案13所述的用于3D应用的模型获取方法,其特征在于, 所述第一角度为90°~180°之间的任意角度。
方案15.根据方案10所述的用于3D应用的模型获取方法,其特征在于, 在训练所述导航决策子模型时,在所述导航决策子模型对应的奖励函数中考 虑深度信息,使得:
玩家眼前的观测图像对应的深度信息的值越大,对应的奖励越高。
方案16.根据方案1-7中任一项所述的用于3D应用的模型获取方法,其特 征在于,所述多个子任务包括射击子任务,所述多个工作者决策子模型包括 与所述射击子任务对应的射击决策子模型。
方案17.根据方案16所述的用于3D应用的模型获取方法,其特征在于, 所述射击决策子模型对应的子环境信息包括玩家眼前的观测图像内的敌人 位置。
方案18.根据方案16所述的用于3D应用的模型获取方法,其特征在于, 在训练所述射击决策子模型时,在所述射击决策子模型对应的奖励函数中使 得:成功射击敌人的次数越多,奖励越高。
方案19.根据方案1-7中任一项所述的用于3D应用的模型获取方法,其特 征在于,所述多个子任务包括资源收集子任务,所述多个工作者决策子模型 包括与所述资源收集子任务对应的资源收集决策子模型。
方案20.根据方案19所述的用于3D应用的模型获取方法,其特征在于, 所述资源收集决策子模型对应的子环境信息包括玩家眼前的观测图像内的 资源位置。
方案21.根据方案19所述的用于3D应用的模型获取方法,其特征在于, 在训练所述资源收集决策子模型时,在所述资源收集决策子模型对应的奖励 函数中使得:成功收集到的资源数量越多,奖励越高。
方案22.根据方案1-7中任一项所述的用于3D应用的模型获取方法,其特 征在于,所述管理者决策模型和多个工作者决策子模型的网络结构采用A2C 算法获得。
方案23.根据方案1-7中任一项所述的用于3D应用的模型获取方法,其特 征在于,利用深度神经网络对环境进行感知,以检测环境元素来获得对应的 环境信息。
方案24.根据方案23所述的用于3D应用的模型获取方法,其特征在于, 所述深度神经网络采用tiny-YOLO网络。
方案25.根据方案1-7中任一项所述的用于3D应用的模型获取方法,其特 征在于,在训练所述管理者决策模型时,在所述管理者决策模型对应的奖励 函数中使得以下条件中的部分或全部成立:
玩家眼前的观测图像对应的深度信息的值越大,对应的奖励越高;
成功射击敌人的次数越多,奖励越高;以及
成功收集到的资源数量越多,奖励越高。
方案26.根据方案1-7中任一项所述的用于3D应用的模型获取方法,其特 征在于,在训练所述多个工作者决策子模型中的每一个时:
针对玩家的每一步行为,在该步的迭代计算结束后,根据该工作者决策 子模型对应的损失函数来更新该工作者决策子模型;其中,该工作者决策子 模型对应的损失函数至少基于对应的预设策略函数、价值函数以及奖励函数 而构建。
方案27.根据方案1-7中任一项所述的用于3D应用的模型获取方法,其特 征在于,在训练所述管理者决策模型时:
针对玩家的每一步行为,在该步的迭代计算结束后,根据所述管理者决 策模型对应的损失函数来更新所述管理者决策模型;其中,所述管理者决策 模型对应的损失函数至少基于对应的预设策略函数、价值函数以及奖励函数 而构建。
方案28.根据方案1-7中任一项所述的用于3D应用的模型获取方法,其特 征在于,所述管理者决策模型的输出包括多个对应动作的估计。
方案29.根据方案1-7中任一项所述的用于3D应用的模型获取方法,其特 征在于:
所述多个工作者决策子模型中的每个工作者决策子模型的输出包括多 个对应子动作的估计。
方案30.根据方案1-7中任一项所述的用于3D应用的模型获取方法,其特 征在于,所述3D应用包括第一人称射击游戏。
方案31.一种用于3D应用的模型获取装置,其特征在于包括:
任务划分单元,适于将所述3D应用的待处理任务划分为多个子任务;
模型构建单元,适于构建分层强化学习模型,所述分层强化学习模型包 括管理者决策模型和多个工作者决策子模型,其中,所述多个工作者决策子 模型与所述多个子任务之间一一对应;
子模型训练单元,适于分别独立地训练每个工作者决策子模型,确定每 个工作者决策子模型的模型参数;以及
管理者决策模型训练单元,适于在固定所述多个工作者决策子模型的模 型参数的情况下,训练所述管理者模型,以确定所述管理者模型的模型参数;
其中,所述管理者决策模型的输入中包括环境信息,每个工作者决策子 模型的输入中包括对应的子环境信息。
方案32.根据方案31所述的用于3D应用的模型获取装置,其特征在于, 所述管理者决策模型训练单元适于基于玩家眼前的观测图像、环境信息以及 所述多个工作者决策子模型输出的子动作与所述管理者决策模型输出的动 作之间的对应关系来训练所述管理者决策模型,以确定所述管理者决策模型 的模型参数。
方案33.根据方案31所述的用于3D应用的模型获取装置,其特征在于, 所述管理者决策模型训练单元适于在训练所述管理者决策模型时,针对玩家 的每一步行为,将当前步对应的玩家眼前的观测图像、当前步所述多个工作 者决策子模型输出的子动作、过去预定数目步对应的环境信息和过去预定数 目步所述管理者决策模型的动作作为所述管理者决策模型当前一步的输入。
方案34.根据方案31所述的用于3D应用的模型获取装置,其特征在于, 所述子模型训练单元适于针对每个工作者决策子模型,基于玩家眼前的观测 图像以及该工作者决策子模型对应的子环境信息与该工作者决策子模型输 出的子动作之间的对应关系来训练该工作者决策子模型。
方案35.根据方案31所述的用于3D应用的模型获取装置,其特征在于, 输入每个工作者决策子模型的对应的子环境信息由所述管理者决策模型从 其对应的环境信息中分派。
方案36.根据方案31所述的用于3D应用的模型获取装置,其特征在于, 至少一个工作者决策子模型对应的子环境信息包括深度信息。
方案37.根据方案36所述的用于3D应用的模型获取装置,其特征在于, 所述至少一个工作者决策子模型对应的奖励函数是至少基于所述深度信息 获得的;
方案38.根据方案31-37中任一项所述的用于3D应用的模型获取装置,其 特征在于,所述多个子任务包括导航子任务,所述多个工作者决策子模型包 括与所述导航子任务对应的导航决策子模型。
方案39.根据方案38所述的用于3D应用的模型获取装置,其特征在于, 所述导航决策子模型采用注意力机制和时序卷积相结合的网络结构。
方案40.根据方案38所述的用于3D应用的模型获取装置,其特征在于, 所述导航决策子模型对应的子环境信息包括深度信息。
方案41.根据方案40所述的用于3D应用的模型获取装置,其特征在于, 所述子模型训练单元适于将玩家眼前的观测图像作为输入、将玩家是否正困 在墙中的状态作为输出,利用玩家眼前的观测图像与玩家是否正困在墙中的 状态之间的对应关系训练二分类器,以将所述二分类器的输出作为深度信息 的估计。
方案42.根据方案41所述的用于3D应用的模型获取装置,其特征在于还 包括:
第一信息获取单元,适于根据玩家速度来确定玩家是否正困在墙中的状 态。
方案43.根据方案40所述的用于3D应用的模型获取装置,其特征在于, 所述子模型训练单元适于在训练所述导航决策子模型时,针对玩家的每一步 行为,若确定玩家困在墙中,令该玩家随机旋转第一角度。
方案44.根据方案43所述的用于3D应用的模型获取装置,其特征在于, 所述第一角度为90°~180°之间的任意角度。
方案45.根据方案40所述的用于3D应用的模型获取装置,其特征在于, 所述子模型训练单元适于在训练所述导航决策子模型时,在所述导航决策子 模型对应的奖励函数中考虑深度信息,使得:
玩家眼前的观测图像对应的深度信息的值越大,对应的奖励越高。
方案46.根据方案31-37中任一项所述的用于3D应用的模型获取装置,其 特征在于,所述多个子任务包括射击子任务,所述多个工作者决策子模型包 括与所述射击子任务对应的射击决策子模型。
方案47.根据方案46所述的用于3D应用的模型获取装置,其特征在于, 所述射击决策子模型对应的子环境信息包括玩家眼前的观测图像内的敌人 位置。
方案48.根据方案46所述的用于3D应用的模型获取装置,其特征在于, 所述子模型训练单元适于在训练所述射击决策子模型时,在所述射击决策子 模型对应的奖励函数中使得:成功射击敌人的次数越多,奖励越高。
方案49.根据方案31-37中任一项所述的用于3D应用的模型获取装置,其 特征在于,所述多个子任务包括资源收集子任务,所述多个工作者决策子模 型包括与所述资源收集子任务对应的资源收集决策子模型。
方案50.根据方案49所述的用于3D应用的模型获取装置,其特征在于, 所述资源收集决策子模型对应的子环境信息包括玩家眼前的观测图像内的 资源位置。
方案51.根据方案49所述的用于3D应用的模型获取装置,其特征在于, 所述子模型训练单元适于在训练所述资源收集决策子模型时,在所述资源收 集决策子模型对应的奖励函数中使得:成功收集到的资源数量越多,奖励越 高。
方案52.根据方案31-37中任一项所述的用于3D应用的模型获取装置,其 特征在于,所述管理者决策模型和多个工作者决策子模型的网络结构采用 A2C算法获得。
方案53.根据方案31-37中任一项所述的用于3D应用的模型获取装置,其 特征在于还包括:
第二信息获取单元,适于利用深度神经网络对环境进行感知,以检测环 境元素来获得对应的环境信息。
方案54.根据方案53所述的用于3D应用的模型获取装置,其特征在于, 所述深度神经网络采用tiny-YOLO网络。
方案55.根据方案31-37中任一项所述的用于3D应用的模型获取装置,其 特征在于,所述管理者决策模型训练单元适于在训练所述管理者决策模型 时,在所述管理者决策模型对应的奖励函数中使得以下条件中的部分或全部 成立:
玩家眼前的观测图像对应的深度信息的值越大,对应的奖励越高;
成功射击敌人的次数越多,奖励越高;以及
成功收集到的资源数量越多,奖励越高。
方案56.根据方案31-37中任一项所述的用于3D应用的模型获取装置,其 特征在于,所述子模型训练单元适于在训练所述多个工作者决策子模型中的 每一个时:
针对玩家的每一步行为,在该步的迭代计算结束后,根据该工作者决策 子模型对应的损失函数来更新该工作者决策子模型;其中,该工作者决策子 模型对应的损失函数至少基于对应的预设策略函数、价值函数以及奖励函数 而构建。
方案57.根据方案31-37中任一项所述的用于3D应用的模型获取装置,其 特征在于,所述管理者决策模型训练单元适于在训练所述管理者决策模型 时:
针对玩家的每一步行为,在该步的迭代计算结束后,根据所述管理者决 策模型对应的损失函数来更新所述管理者决策模型;其中,所述管理者决策 模型对应的损失函数至少基于对应的预设策略函数、价值函数以及奖励函数 而构建。
方案58.根据方案31-37中任一项所述的用于3D应用的模型获取装置,其 特征在于:
所述管理者决策模型的输出包括多个对应动作的估计。
方案59.根据方案31-37中任一项所述的用于3D应用的模型获取装置,其 特征在于:
所述多个工作者决策子模型中的每个工作者决策子模型的输出包括多 个对应子动作的估计。
方案60.根据方案31-37中任一项所述的用于3D应用的模型获取装置,其 特征在于,所述3D应用包括第一人称射击游戏。
方案61.一种存储有程序的存储介质,所述程序被处理器执行时实现如 方案1到30中的任一项所述的用于3D应用的模型获取方法。
方案62.一种计算设备,包括如方案61所述的存储介质。
Claims (10)
1.一种用于3D应用的模型获取方法,其特征在于包括:
将所述3D应用的待处理任务划分为多个子任务;
构建分层强化学习模型,所述分层强化学习模型包括管理者决策模型和多个工作者决策子模型,其中,所述多个工作者决策子模型与所述多个子任务之间一一对应;
分别独立地训练每个工作者决策子模型,确定每个工作者决策子模型的模型参数;以及
在固定所述多个工作者决策子模型的模型参数的情况下,训练所述管理者模型,以确定所述管理者模型的模型参数;
其中,所述管理者决策模型的输入中包括环境信息,每个工作者决策子模型的输入中包括对应的子环境信息。
2.根据权利要求1所述的用于3D应用的模型获取方法,其特征在于,训练所述管理者模型的步骤包括:
基于玩家眼前的观测图像、环境信息以及所述多个工作者决策子模型输出的子动作与所述管理者决策模型输出的动作之间的对应关系来训练所述管理者决策模型,以确定所述管理者决策模型的模型参数。
3.根据权利要求1所述的用于3D应用的模型获取方法,其特征在于,输入每个工作者决策子模型的对应的子环境信息由所述管理者决策模型从其对应的环境信息中分派。
4.根据权利要求1-3中任一项所述的用于3D应用的模型获取方法,其特征在于,所述多个子任务包括导航子任务,所述多个工作者决策子模型包括与所述导航子任务对应的导航决策子模型。
5.根据权利要求4所述的用于3D应用的模型获取方法,其特征在于,所述导航决策子模型对应的子环境信息包括深度信息。
6.根据权利要求5所述的用于3D应用的模型获取方法,其特征在于,在训练所述导航决策子模型时,在所述导航决策子模型对应的奖励函数中考虑深度信息,使得:
玩家眼前的观测图像对应的深度信息的值越大,对应的奖励越高。
7.根据权利要求1-3中任一项所述的用于3D应用的模型获取方法,其特征在于,所述3D应用包括第一人称射击游戏。
8.一种用于3D应用的模型获取装置,其特征在于包括:
任务划分单元,适于将所述3D应用的待处理任务划分为多个子任务;
模型构建单元,适于构建分层强化学习模型,所述分层强化学习模型包括管理者决策模型和多个工作者决策子模型,其中,所述多个工作者决策子模型与所述多个子任务之间一一对应;
子模型训练单元,适于分别独立地训练每个工作者决策子模型,确定每个工作者决策子模型的模型参数;以及
管理者决策模型训练单元,适于在固定所述多个工作者决策子模型的模型参数的情况下,训练所述管理者模型,以确定所述管理者模型的模型参数;
其中,所述管理者决策模型的输入中包括环境信息,每个工作者决策子模型的输入中包括对应的子环境信息。
9.一种存储有程序的存储介质,所述程序被处理器执行时实现如权利要求1到7中的任一项所述的用于3D应用的模型获取方法。
10.一种计算设备,包括如权利要求9所述的存储介质。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910108706.2A CN110032359B (zh) | 2019-02-03 | 2019-02-03 | 用于3d应用的模型获取方法及装置、介质及计算设备 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910108706.2A CN110032359B (zh) | 2019-02-03 | 2019-02-03 | 用于3d应用的模型获取方法及装置、介质及计算设备 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN110032359A true CN110032359A (zh) | 2019-07-19 |
CN110032359B CN110032359B (zh) | 2021-06-11 |
Family
ID=67235647
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910108706.2A Active CN110032359B (zh) | 2019-02-03 | 2019-02-03 | 用于3d应用的模型获取方法及装置、介质及计算设备 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110032359B (zh) |
Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104537273A (zh) * | 2015-01-21 | 2015-04-22 | 苏州大学 | 一种溺水模式智能推理系统及方法 |
CN106503787A (zh) * | 2016-10-26 | 2017-03-15 | 腾讯科技(深圳)有限公司 | 一种获取游戏数据的方法及电子设备 |
CN106970615A (zh) * | 2017-03-21 | 2017-07-21 | 西北工业大学 | 一种深度强化学习的实时在线路径规划方法 |
CN108283809A (zh) * | 2018-02-11 | 2018-07-17 | 腾讯科技(深圳)有限公司 | 数据处理方法、装置、计算机设备和存储介质 |
CN108635861A (zh) * | 2018-05-18 | 2018-10-12 | 腾讯科技(深圳)有限公司 | 控制应用中车辆的方法、设备及存储介质 |
US10112113B2 (en) * | 2016-03-30 | 2018-10-30 | Sony Interactive Entertainment Inc. | Personalized data driven game training system |
US20180318719A1 (en) * | 2017-05-07 | 2018-11-08 | Intertake Research, LLC | Online learning simulator using machine learning |
CN109107161A (zh) * | 2018-08-17 | 2019-01-01 | 深圳市腾讯网络信息技术有限公司 | 一种游戏对象的控制方法、装置、介质以及设备 |
-
2019
- 2019-02-03 CN CN201910108706.2A patent/CN110032359B/zh active Active
Patent Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104537273A (zh) * | 2015-01-21 | 2015-04-22 | 苏州大学 | 一种溺水模式智能推理系统及方法 |
US10112113B2 (en) * | 2016-03-30 | 2018-10-30 | Sony Interactive Entertainment Inc. | Personalized data driven game training system |
CN106503787A (zh) * | 2016-10-26 | 2017-03-15 | 腾讯科技(深圳)有限公司 | 一种获取游戏数据的方法及电子设备 |
CN106970615A (zh) * | 2017-03-21 | 2017-07-21 | 西北工业大学 | 一种深度强化学习的实时在线路径规划方法 |
US20180318719A1 (en) * | 2017-05-07 | 2018-11-08 | Intertake Research, LLC | Online learning simulator using machine learning |
CN108283809A (zh) * | 2018-02-11 | 2018-07-17 | 腾讯科技(深圳)有限公司 | 数据处理方法、装置、计算机设备和存储介质 |
CN108635861A (zh) * | 2018-05-18 | 2018-10-12 | 腾讯科技(深圳)有限公司 | 控制应用中车辆的方法、设备及存储介质 |
CN109107161A (zh) * | 2018-08-17 | 2019-01-01 | 深圳市腾讯网络信息技术有限公司 | 一种游戏对象的控制方法、装置、介质以及设备 |
Non-Patent Citations (2)
Title |
---|
HYUNSOO PARK等: "Learning to play fighting game using massive play data", 《INSTITUTE OF ELECTRICAL AND ELECTRONIC ENGINEERS》 * |
倪梦珺: "基于众包的深度学习图像描述Unknown Unknowns消除研究", 《华东师范大学》 * |
Also Published As
Publication number | Publication date |
---|---|
CN110032359B (zh) | 2021-06-11 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US10679044B2 (en) | Human action data set generation in a machine learning system | |
US8046393B2 (en) | Apparatus and method of data organisation | |
CN111260762A (zh) | 一种动画实现方法、装置、电子设备和存储介质 | |
Beeching et al. | Deep reinforcement learning on a budget: 3d control and reasoning without a supercomputer | |
CN115244495A (zh) | 针对虚拟环境运动的实时式样 | |
WO2022140540A1 (en) | Simulated control for 3-dimensional human poses in virtual reality environments | |
Gedamu et al. | Spatio-temporal dual-attention network for view-invariant human action recognition | |
Liu et al. | Action recognition for sports video analysis using part-attention spatio-temporal graph convolutional network | |
Zhang et al. | Transforming sports training through the integration of internet technology and artificial intelligence | |
CN112905013A (zh) | 智能体控制方法、装置、计算机设备和存储介质 | |
WO2024012007A1 (zh) | 一种动画数据生成方法、装置及相关产品 | |
CN110516153B (zh) | 视频的智能推送方法和装置、存储介质及电子装置 | |
Hare et al. | Battlespace: using AI to understand friendly vs. hostile decision dynamics in MDO | |
CN110032359A (zh) | 用于3d应用的模型获取方法及装置、介质及计算设备 | |
Sharifi et al. | Marker-based human pose tracking using adaptive annealed particle swarm optimization with search space partitioning | |
Köse et al. | Intelligent Virtual Environments with Assessment of User Experiences | |
Benavent-Lledó et al. | Interaction estimation in egocentric videos via simultaneous hand-object recognition | |
Saha et al. | Gesture recognition from two-person interactions using ensemble decision tree | |
Leng et al. | An automated object detection method for the attention of classroom and conference participants | |
Zhao et al. | Simulation of sports training recognition system based on internet of things video behavior analysis | |
Wu et al. | Video driven adaptive grasp planning of virtual hand using deep reinforcement learning | |
Ando et al. | Level of interest in observed exhibits in metaverse museums | |
Wang et al. | The virtual infantry soldier: integrating physical and cognitive digital human simulation in a street battle scenario | |
Huang et al. | Active object estimation for human-robot collaborative tasks | |
CN110163460A (zh) | 一种确定应用分值的方法及设备 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |