CN110025959A

CN110025959A - 用于控制智能体的方法和设备

Info

Publication number: CN110025959A
Application number: CN201910078546.1A
Authority: CN
Inventors: 朱军; 黄世宇; 苏航
Original assignee: Tsinghua University
Current assignee: Tsinghua University
Priority date: 2019-01-25
Filing date: 2019-01-25
Publication date: 2019-07-19
Anticipated expiration: 2039-01-25
Also published as: CN110025959B

Abstract

本发明提供一种控制智能体的方法或设备。该方法包括：获取虚拟环境的状态信息；基于该状态信息，通过强化学习神经网络来从预定的动作类型中选取要由智能体在该虚拟环境中执行的动作类型；从该状态信息中提取动作属性；以及基于所选取的动作类型和该动作属性来控制该智能体在该虚拟环境中执行动作。本发明的有益效果为，智能体铜鼓深度强化学习网络进行更为高效的学习，最终取得更加强悍的性能。

Description

用于控制智能体的方法和设备

技术领域

本发明涉及人工智能领域，尤其涉及一种用于控制智能体的方法和设备及存储介质。

背景技术

作为21世纪的主力产业，电影、漫画、游戏等利用影像的文化产业蓬勃发展。其中，游戏产业作为高附加值的尖端知识型复合产业，需要创新和技术突破以达到健康有序的发展。

第一人称射击游戏(FPS，First-person Shooter)，是一类以玩家的主观视角来进行射击游戏，即玩家们不再像其他游戏一样操纵屏幕中的虚拟人物来进行游戏，而是身临其境的体验游戏带来的视觉冲击，由此增强了游戏的主动性和真实感。早期的第一人称射击游戏给玩家的一般都是屏幕光线的刺激和简单快捷的游戏节奏，而随着游戏硬件的逐步完善，以及各种游戏的不断结合，第一人称射击类游戏提供了更加丰富的剧情以及精美的画面和生动的音效。

深度强化学习被认为是设计人工智能系统的核心技术之一，被广泛应用到决策问题当中，如机器人控制，围棋，电子游戏当中。在很多应用中，基于强化学习的方法取得了超越人类玩家的水平。最近，深度强化学习也被应用到第一人称射击游戏当中。但是，由于在第一人称射击游戏中，玩家所处的环境更接近于真实现实环境，因此，强化学习方法应用于第一人称射击游戏中时，存在多任务难以协调，信息不完全，决策空间大不容易控制，视觉输入等难点。

目前，有人把深度强化学习应用到第一人称射击游戏当中，主要采用了端到端的学习方法，诸如A3C和深度DQN等。然而，这种基于端到端的强化学习算法，无法处理巨大的决策空间，也无法提取游戏中的高层语义物体，比如敌人位置和空间信息。亟需一种能够帮助强化学习网络进行更高效的学习，最终也能取得更加强悍性能的方法。

发明内容

在下文中给出了关于本发明的简要概述，以便提供关于本发明的某些方面的基本理解。应当理解，该概述并不是关于本发明的穷举性概述，它并非意图确定本发明的关键或重要部分，也不是意图限定本发明的范围。其目的仅仅是以简化的形式给出某些概念，以此作为后文的具体实施方式部分的铺垫。

鉴于以上提出的问题，本发明提出了一种控制智能体的方法，包括：获取虚拟环境的状态信息；基于该状态信息，通过强化学习神经网络来从预定的动作类型中选取要由智能体在该虚拟环境中执行的动作类型；从该状态信息中提取动作属性；以及基于所选取的动作类型和该动作属性来控制该智能体在该虚拟环境中执行动作。

本发明另一方面，提供了一种控制智能体的设备，包括：

获取装置，被配置成获取虚拟环境的状态信息；

选取装置，被配置成基于该状态信息，通过强化学习神经网络来从预定的动作类型中选取要由智能体在该虚拟环境中执行的动作类型；

提取装置，被配置成从该状态信息中提取动作属性；以及

控制装置，被配置成基于所选取的动作类型和该动作属性来控制该智能体在该虚拟环境中执行动作。

根据本发明的再一方面，还提供了一种计算机可读存储介质，其存储有能够由处理器运行来执行下述步骤的程序：获取虚拟环境的状态信息；基于该状态信息，通过强化学习神经网络来从预定的动作类型中选取要由智能体在该虚拟环境中执行的动作类型；从该状态信息中提取动作属性；以及基于所选取的动作类型和该动作属性来控制该智能体在该虚拟环境中执行动作。

根据本发明的再一方面，还提供了一种程序。所述程序包括机器可执行的指令，当在信息处理系统上执行所述指令时，所述指令使得所述信息处理系统执行根据本发明的上述方法。

本发明实施例提供的技术方案可以包括以下有益效果：(1)大大改善了原始动作空间，提高了训练效率和可探索性；(2)将先验知识和基本概念融入到循环学习中，从而减少训练难度并提高了被训练的智能体的性能；(3)通过为智能体定义合理的组合动作来缓解不和谐动作的问题。此外，通过以上技术，能够帮助深度强化学习网络进行更为高效的学习，最终取得更加强悍的性能，使得第一人称射击游戏决策空间大，训练强度增强。

通过以下结合附图对本发明的最佳实施例的详细说明，本发明的这些以及其他优点将更加明显。

附图说明

在附图中，除非另外规定，否则贯穿多个附图相同的附图标记表示相同或相似的部件或元素。这些附图不一定是按照比例绘制的。应该理解，这些附图仅描绘了根据本发明公开的一些实施方式，而不应将其视为是对本发明范围的限制。

图1是示出根据本发明实施方式的控制智能体的方法的流程图。

图2是示出根据本发明实施方式的控制智能体的流程的架构的示意图。

图3是示出DRQN网络的示例性结构的示意图。

图4是示出提取步骤的示例性处理的流程图。

图5是示出第一卷积神经网络的示例性结构的示意图。

图6是示出第二卷积神经网络的示例性结构的示意图。

图7是示出生成组合动作的示意图。

图8是示出控制步骤的处理的流程图。

图9是示出根据本发明实施方式的控制智能体的设备的结构框图。

图10是示出提取装置的示例性配置的示意图。

图11是示出控制装置的配置的示意图。

图12是示出用于实施根据本发明实施方式的方法和设备的计算机的示意性框图。

具体实施方式

现参照附图对本发明的实施方式进行详细描述。应注意，以下描述仅仅是示例性的，而并不旨在限制本发明。此外，在以下描述中，将采用相同的附图标记表示不同附图中的相同或相似的部件。在以下描述的不同实施方式中的不同特征，可彼此结合，以形成本发明范围内的其他实施方式。

图1为根据本发明实施方式的控制智能体的方法的流程图。图2是根据本发明实施方式的控制智能体的方法的流程架构的示意图。如图1所示，智能体控制方法100包括获取步骤S110、选取步骤S120、提取步骤S130 以及控制步骤S140。

在获取步骤S110中，获取虚拟环境的状态信息。虚拟环境提供了智能体活动的交互环境，包括诸如ViZDoom、Roboschool和Multi-Agent Particle Environment等环境。在本文中以ViZDoom为例来说明本发明的技术。ViZDoom是本领域技术人员惯常采用的强化学习训练环境，并且是一款基于经典第一人称射击游戏Doom开发的，可以在平台上训练和测试智能体。ViZDoom原始游戏为C++语言开发，为研究者提供Python等语言的接口。

状态信息包括描述该环境(ViZDoom)的图像，例如游戏画面。图像可以是以像素为单位的RGB图像，诸如高为60像素，宽度为108像素的 RGB图像。

在选取步骤S120中，基于状态信息，通过强化学习神经网络来从预定的动作类型中选取要由智能体在虚拟环境中执行的动作类型。在第一人称射击游戏为例，则该预定的动作类型可以包括：前进类型，表示智能体在虚拟环境中前进一定的步数的动作类型；转向类型，表示智能体旋转一定的角度的动作类型；以及旋转类型，表示智能体旋转一周的动作类型，等等。

强化学习是智能体以“试错”的方式进行学习，通过与环境进行交互获得的奖赏指导行为，目标是使智能体获得最大的奖赏，强化学习中由环境提供的强化信号是对产生动作的好坏作一种评价。由于外部环境提供的信息很少，智能体必须靠自身的经历进行学习。通过这种方式，智能体在行动-评价的环境中获得知识，改进行动方案以适应环境。如图2所示，若组合动作类型空间定义为C，预定动作类型空间定义为A，输入的状态记为s_t，则强化学习神经网络的输出为C_t＝f_θ(s_t)，其中C_t∈C，代表一种组合动作类型，θ是强化学习神经网络需要学习的参数。可以使用诸如 DRQN、PPO、TRPO或A3C等已知的强化学习神经网络来实现本发明的技术。优选地，在本文中，采用基于LSTM(Long Short-Term Memory) 的DRQN(deep recurrent Q-learning network)网络作为强化学习神经网络的示例来学习参数θ。在采用DRQN的情形下，状态信息还包括智能体的状态，诸如智能体的血量、弹药数量和/或武器数量等。

图3示出了DRQN网络的结构的示意图。在该DRQN网络中，通过 look-up table技术将两个游戏变量(诸如血量和弹药)映射为第一隐层特征，通过卷积神经网络将描述环境的图像映射为第二隐层特征。作为示例，该卷积神经网络可以包括接收描述环境的图像的输入层、两个卷积层，但卷积神经网络的结构不限于此，本领域技术人员可以根据实际需要来设计其他的结构。然后，将这两个隐层特征组合并输入到LSTM网络中；最终，由LSTM网络输出表征预定动作类型的得分的Q值矩阵。在图3中，第一隐层特征的大小为32，第二隐层特征的大小为4068，然而隐层特征的大小并不限于此，其会根据DRQN网络的内部结构的改变(诸如增加或减小卷积层、池化层等)而改变。

如图3所示，输入到卷积神经网络中的环境图像为高60像素、宽108 像素的RGB图像，该环境图像的大小仅是示意性的，还可以采用其他尺寸的RGB图像。

图3中的DRQN网络的目标函数为：

L(θ)＝E[(y-Q_θ(s，a))²]，

其中E[]表示期望值；y为值函数Q的目标值；Q_θ(s，a)为值函数Q的估计值且是该DRQN网络的输出。该DRQN网络基于预定的奖励函数，通过随机梯度下降法来学习。在第一人称射击游戏的示例中，该预定的奖励函数可以但不限于如下：当智能体发现敌人，得到+1的奖励；当智能体捡到血包，武器和弹药等时，得到+1的奖励；当智能体丢失血量(可能被敌人攻击或者走到了熔岩上)时，则得到-1的奖励；以及当智能体移动时，得到+1的奖励。DRQN的学习过程已为本领域技术人员所熟知，在此不再详细描述。

在选取动作类型之后，接着，在提取步骤S130中，从状态信息中提取动作属性。该状态信息是描述环境的图像。动作属性可以包括虚拟环境中的深度信息、敌人信息和武器信息等，然而动作属性不限于此，本领域技术人员可以根据实际应用来提取更多的其他信息。在此，采用卷积神经网络来从环境的图像中提取动作属性，然而本领域技术员也可以采用其他神经网络来进行提取。

图4示出了提取步骤S130的示例性处理的流程图。如图4所示，提取步骤S130包括：从环境图像中提取深度信息的步骤S131；从环境图像中提取敌人信息的步骤S132；以及从环境图像中提取武器信息的步骤 S133。图4中的关于提取步骤S130的处理仅是示例性的，本领域技术人员可以根据实际需要来提取深度信息、敌人信息和武器信息中的一个或更多个，或者从环境图像中提取更多其他的信息。

在步骤S131中，通过第一卷积神经网络来提取深度信息。图5示出了该第一卷积神经网络的示例性结构的示意图。如图5所示，第一卷积神经网络依次包括用于接收描述环境的图像的输入层、交替布置的3个卷积层和3个池化层以及2个全连接层。在图5中，环境的图像是高144像素、宽256像素的RGB图片，但不限于此，环境的图像可以是其他尺寸。为了减小预测的复杂度，可以将图像平均分成若干(例如18)个区域，预测每个区域的平均深度。在该情形下，第一卷积神经网络的目标函数为：

其中，N为批尺寸；为标注的目标深度；f_depth(·)代表第一卷积神经网络； S_i为从环境的图像；m为区域个数且为正整数。该第一卷积神经网络通过小批量梯度下降法来学习，其具体学习方法已为本领域技术人员所熟知，在此不再详细描述。

然而，第一卷积神经网络的结构不限于此图5中所示的结构，本领域技术人员可以根据需要来改变卷积层、池化层以及全连接层的数量和位置，从而得到不同的结构。

在步骤S132中，通过第二卷积神经网络从环境图像中提取敌人信息。图6示出了该第二卷积神经网络的示例性结构的示意图。如图6所示，第二卷积神经网络依次包括用于接收描述环境的图像的输入层、交替布置的 4个卷积层和4个池化层、卷积层、输出层。该输出层包括用于输出敌人的位置(即，边界框)的第一卷积层和用于输出敌人的概率的第二卷积层。在图6中，环境的图像为高576像素、宽1024像素的RGB图片，但不限于此，环境的图像可以是其他不同的尺寸。

该第二卷积神经网络的目标函数为：

其中，N为批尺寸，L_clas为根据所述第二卷积层的输出而计算的第二损失函数，L_loc为根据所述第一卷积层的输出而计算的第一损失函数，λ_loc为第一损失函数的权重。该第二卷积神经网络通过小批量梯度下降法来学习，其具体学习方法以为本领域技术人员所熟知，在此不再详细描述。

优选地，如图6所示，第二卷积神经网络的输出被输入到非极大值抑制NMS部，以去掉重复的边界框，留下目标边界框。

图6中所示的第二卷积神经网络的结构仅是示意性，本领技术人员可以根据实际应用来设计不同结构的卷积网络。

以上参照图5和图6描述了用于提取深度信息和敌人信息的卷积网络的结构，而用于在步骤S133中提取武器信息的卷积网络或用于从环境图像中提取其他信息的卷积神经网络可以根据实际应用来类似地进行设计，在此不再赘述。

在图3、图5和图6所示的示例中，DRQN网络、第一卷积神经网络和第二卷积神经网络接收的环境图像的像素均不相同。用于DRQN网络的图像(简称为第四图像)的像素小于用于第一卷积神经网络的图像(简称为第一图像)的像素和用于第二卷积神经网络的图像(简称为第二图像) 的像素，并且第一图像的像素小于第二图像的像素。然而，第一图像、第二图像和第四图像的像素并不限于此，也可以是相同的像素。

继续参考图1，在控制步骤S140中，基于所选取的动作类型和所提取的动作属性来控制智能体在虚拟环境中执行动作。

图7示出了控制步骤的处理的流程图。如图7所示，控制步骤S140 包括：步骤S141，基于所选取的动作类型和所提取的动作属性来生成智能体要在虚拟环境中执行的动作；以及步骤S142，将所得到的动作输入到虚拟环境中以控制智能体。

以下第一人称射击游戏为来说明书控制处理。在第一人称射击游戏中，无论在步骤S120中选取的动作类型如何，均将所选取的动作类型与射击类型相组合并且基于动作属性来生成包含射击动作的组合动作。具体地，在步骤S141中，基于从前进类型、转向类型和旋转类型中选取的动作类型以及射击类型，并且基于动作属性来控制该智能体在虚拟环境中执行动作。此处，射击类型表示智能体对敌人进行射击的动作类型。图8示出了生成组合动作的示意图。以下介绍生成各个动作的方法。

对于“前进”动作：其指示智能体在虚拟环境中前进一定的步数。前进的步数正比于环境图像的中心区域的平均深度，即step＝c×AvgDepth，其中 step为需要前进的步数，c为人为规定的系数，AvgDepth为环境图像的中心区域的平均深度并且可以通过第一卷积神经网络来获取。

对于“转向”动作：其指示智能体在虚拟环境中旋转一定的角度。该角度根据由第一卷积神经网络获取的环境图像的深度信息来得到。在此，深度图被分为成预定数量(例如，6)的列，选取深度最大的那列的深度作为需要旋转的角度。

对于“旋转”动作：其指示智能体在虚拟环境中旋转一周。该动作由四个90度的转向动作来实现。该动作主要是为了检测周围的敌人，可以帮助智能体发现隐藏在背后的敌人。

对于“射击”动作：其指示智能体在虚拟环境中对由第二卷积神经网络检测到的敌人进行射击。当敌人检测网络检测到敌人，便终止其他动作的执行，同时结算其他动作的奖励，通过检测出来的敌人的位置进行精确瞄准并且射击。

在基于所选取的动作类型(如，前进类型)和射击类型以及以上生成动作的方法而得到对应的组合动作(如，前进和射击)之后，在步骤S142 中将该组合动作输入到虚拟环境中以控制智能体。组合动作输入虚拟环境之后的控制操作已为本领技术人员所熟知，在此不再详细描述。

以上参考图1至图8描述根据本发明实施方式的用于控制智能体的方法。下面，参考图9至图12来描述根据本发明实施方式的用于控制智能体的设备。

图9示出了根据本发明实施方式的用于控制智能体的设备的结构框图。如图9所示，设备700包括：获取装置710，被配置成获取虚拟环境的状态信息；选取装置720，被配置成基于状态信息，通过强化学习神经网络来从预定的动作类型中选取要由智能体在虚拟环境中执行的动作类型；提取装置730，从状态信息中提取动作属性；以及控制装置740，被配置成基于所选取的动作类型和所提取的动作属性来控制智能体要在虚拟环境中执行动作。

优选地，虚拟环境为ViZDoom环境。

优选地，选取装置720通过DRQN网络来选取动作类型。在该情形下，状态信息还包括智能体的状态，诸如血量、弹药数量、和/或武器数量等。在该DRQN网络中，通过look-uptable技术将两个游戏变量(诸如血量和弹药)映射为第一隐层特征，通过卷积神经网络将描述环境的图像映射为第二隐层特征。作为示例，该卷积神经网络可以包括接收描述环境的图像的输入层、两个卷积层，但卷积神经网络的结构不限于此，本领域技术人员可以根据实际需要来设计其他的结构。然后，将这两个隐层特征组合并输入到LSTM网络中；最终，由LSTM网络输出表征预定动作类型的得分的Q值矩阵。

图10示出了提取装置730的示例性配置的示意图。如图10所示，提取装置730包括深度信息提取部731、敌人信息提取部732和武器信息提取部733。然而提取装置730的配置不限于此，提取装置730可以包含深度信息提取部731、敌人信息提取部732和武器信息提取部733中的一个或更多个，或者还可以包括用于提取其他动作属性的提取部。

深度信息提取部731包括用于从环境图像中提取深度信息的第一卷积神经网络。优选地，如图5所示，该第一卷积神经网络依次包括用于接收描述环境的图像的输入层、交替布置的3个卷积层和3个池化层以及2个全连接层。然而，第一卷积神经网络的结构不限于图5中所示的结构，本领域技术人员可以根据需要来改变卷积层、池化层以及全连接层的数量和位置，从而得到不同的结构。在提取过程中，为了减小预测的复杂度，可以将环境图像平均分成若干(例如18)个区域，预测每个区域的平均深度。

敌人信息提取部732包括用于从环境图像中提取敌人信息的第二卷积神经网络。优选地，如图6所示，第二卷积神经网络依次包括用于接收描述环境的图像的输入层、交替布置的4个卷积层和4个池化层、卷积层、输出层。并且，输出层包括用于输出敌人的位置(即，边界框)的第一卷积层和用于输出敌人的概率的第二卷积层。然而，图6中所示的第二卷积神经网络的结构仅是示意性，本领技术人员可以根据实际应用来设计不同结构的卷积网络。

优选地，第二卷积神经网络的输出被输入到非极大值抑制NMS部，以去掉重复的边界框，留下目标边界框。

武器信息提取部733包括用于从环境图像中提取武器信息的第三卷积神经网络。本领域技术人员可以根据实际应用参照第一和第二卷积神经网络来类似设计第三卷积神经网络的内部结构，在此不再详细探讨。

图11示出了控制装置740的结构的示意图。如图11所示，控制装置 740包括动作生成部741和控制部742。

动作生成部741基于由选取装置720所选取的动作类型和提取装置 720所提取的动作属性来生成要由智能体在虚拟环境中执行的动作。在第一人称射击游戏的示例中，基于从前进类型、转向类型和旋转类型中选取的动作类型以及射击类型，并且基于动作属性来生成包含射击动作的组合动作。

控制部742将所得到的动作(在一种示例中为动作组合)输入到虚拟环境中以控制智能体。该操作已为本领域技术人员所熟知，在此不再详细描述。

以上参考图9至图11简单描述了根据本发明实施方式的用于控制智能体的设备及其装置和部件的配置和操作。关于该设备及其装置和部件的详细操作可以参见以上关于图1至图8的介绍。

另外，这里尚需指出的是，上述系统中各个组成部件可以通过软件、固件、硬件或其组合的方式进行配置。配置可使用的具体手段或方式为本领域技术人员所熟知，在此不再赘述。在通过软件或固件实现的情况下，从存储介质或网络向具有专用硬件结构的计算机(例如图12所示的通用计算机1200)安装构成该软件的程序，该计算机在安装有各种程序时，能够执行各种功能等。

图12示出了可用于实施根据本发明实施例的方法和系统的计算机的示意性框图。

在图12中，中央处理单元(CPU)1201根据只读存储器(ROM)1202中存储的程序或从存储部分1208加载到随机存取存储器(RAM)1203的程序执行各种处理。在RAM 1203中，还根据需要存储当CPU 1201执行各种处理等等时所需的数据。CPU 1201、ROM 1202和RAM 1203经由总线1204 彼此连接。输入/输出接口1205也连接到总线1204。

下述部件连接到输入/输出接口1205：输入部分1206(包括键盘、鼠标等等)、输出部分1207(包括显示器，比如阴极射线管(CRT)、液晶显示器(LCD)等，和扬声器等)、存储部分1208(包括硬盘等)、通信部分1209 (包括网络接口卡比如LAN卡、调制解调器等)。通信部分1209经由网络比如因特网执行通信处理。根据需要，驱动器1210也可连接到输入/输出接口1205。可拆卸介质1211比如磁盘、光盘、磁光盘、半导体存储器等等可以根据需要被安装在驱动器1210上，使得从中读出的计算机程序根据需要被安装到存储部分1208中。

在通过软件实现上述系列处理的情况下，从网络比如因特网或存储介质比如可拆卸介质1211安装构成软件的程序。

本领域的技术人员应当理解，这种存储介质不局限于图12所示的其中存储有程序、与设备相分离地分发以向用户提供程序的可拆卸介质 1211。可拆卸介质1211的例子包含磁盘(包含软盘(注册商标))、光盘(包含光盘只读存储器(CD-ROM)和数字通用盘(DVD))、磁光盘(包含迷你盘 (MD)(注册商标))和半导体存储器。或者，存储介质可以是ROM 1202、存储部分1208中包含的硬盘等等，其中存有程序，并且与包含它们的设备一起被分发给用户。

本发明还提出一种存储有机器可读取的指令代码的程序产品。所述指令代码由机器读取并执行时，可执行上述根据本发明实施方式的方法。

相应地，用于承载上述存储有机器可读取的指令代码的程序产品的存储介质也包括在本发明的范围内。所述存储介质包括但不限于软盘、光盘、磁光盘、存储卡、存储棒等等。

应当注意，本发明的方法不限于按照说明书中描述的时间顺序来执行，也可以按照其他的次序顺序地、并行地或独立地执行。因此，本说明书中描述的方法的执行顺序不对本发明的技术范围构成限制。

以上对本发明各实施方式的描述是为了更好地理解本发明，其仅仅是示例性的，而非旨在对本发明进行限制。应注意，在以上描述中，针对一种实施方式描述和/或示出的特征可以以相同或类似的方式在一个或更多个其它实施方式中使用，与其它实施方式中的特征相组合，或替代其它实施方式中的特征。本领域技术人员可以理解，在不脱离本发明的发明构思的情况下，针对以上所描述的实施方式进行的各种变化和修改，均属于本发明的范围内。

综上，在根据本发明的实施例中，本发明提供了如下技术方案。

方案1.一种控制智能体的方法，包括：

获取虚拟环境的状态信息；

基于所述状态信息，通过强化学习神经网络来从预定的动作类型中选取要由智能体在所述虚拟环境中执行的动作类型；

从所述状态信息来提取动作属性；以及

基于所选取的动作类型和所提取的动作属性来控制所述智能体要在所述虚拟环境中执行动作。

方案2.根据方案1所述的方法，其中，所述状态信息包括描述所述环境的图像。

方案3.根据方案2所述的方法，其中，所述图像包括具有第一像素的第一图像、具有第二像素的第二图像和具有第三像素的第三图像，并且提取动作属性包括：

提取所述第一图像的深度信息；和/或

提取所述第二图像中的敌人信息；和/或

提取所述第三图像中的武器信息。

方案4.根据方案3所述的方法，其中，所述第一像素、所述第二像素和所述第三像素均不相同。

方案5.根据方案3所述的方法，其中，所述深度信息通过第一卷积神经网络来提取。

方案6.根据方案3所述的方法，其中，所述敌人信息通过第二卷积神经网络来提取。

方案7根据方案3所述的方法，其中，所述武器信息通过第三卷积神经网络来提取。

方案8.根据方案1至7中任一项所述的方法，其中，所述状态信息还包括智能体的状态。

方案9.根据方案8所述的方法，其中，所述智能体的状态包括血量、弹药数量、和/或武器数量。

方案10.根据方案9所述的方法，其中，所述强化学习神经网络是 DRQN网络。

方案11.根据方案10所述的方法，其中，所述图像还包括具有第四像素的第四图像，所述DRQN网络基于所述第四图像和所述智能体的状态来选取要由所述智能体执行的动作类型。

方案12.根据方案11所述的方法，其中，所述第四像素与所述第一像素、第二像素和第三像素均不同。

方案13.根据方案12所述的方法，其中，所述DRQN网络的目标函数为：

L(θ)＝E[(y-Q_θ(s，a))²]，

其中E[]表示期望值；y为值函数Q的目标值；Q_θ(s，a)为值函数Q的估计值且是所述DRQN网络的输出；其中所述DRQN网络基于预定的奖励函数，通过随机梯度下降法来学习。

方案14.根据方案5所述的方法，其中，将所述第一图像平均分成m 个区域，并获取每个区域的平均深度值。

方案15.根据方案14所述的方法，所述第一卷积神经网络的目标函数为：

其中，N为批尺寸；为标注的目标深度；f_depth(·)代表第一卷积神经网络；s_i为描述环境的图像；m为区域个数且为正整数；

其中，所述第一卷积神经网络通过小批量梯度下降法来学习。

方案16.根据方案6所述的方法，其中，所述第二卷积神经网络的输出层包括第一卷积层和第二卷积层，所述第一卷积层被配置成输出敌人的位置并且所述第二卷积层被配置成输出敌人的概率，所述第二卷积神经网络的目标函数为：

其中，N为批尺寸，L_class为根据所述第二卷积层的输出而计算的第二损失函数，L_loc为根据所述第一卷积层的输出而计算的第一损失函数，λ_loc为第一损失函数的权重；

其中，所述第二卷积神经网络通过小批量梯度下降法来学习。

方案17.根据方案16所述的方法，其中，所述第二卷积神经网络的输出层连接至非极大值抑制NMS部。

方案18.根据方案1至7所述的方法，其中，所述预定的动作类型包括前进类型，转向类型和旋转类型。

方案19.根据方案18所述的方法，其中，基于从所述前进类型、所述转向类型和所述旋转类型中选取的动作类型以及射击类型，并且基于动作属性来控制所述智能体执行动作。

方案20.根据方案1至7中任一项所述的方法，其中，所述虚拟环境为ViZDoom环境。

方案21.一种控制智能体的设备，包括：

获取装置，被配置成获取虚拟环境的状态信息；

选取装置，被配置成基于所述状态信息，通过强化学习神经网络来从预定的动作类型中选取要由智能体在所述虚拟环境中执行的动作类型；

提取装置，被配置成从所述状态信息来提取动作属性；以及

控制装置，被配置成基于所选取的动作类型和所提取的动作属性来控制所述智能体在所述虚拟环境中执行动作。

方案22.根据方案21所述的设备，其中，所述状态信息包括描述所述环境的图像。

方案23.根据方案22所述的设备，其中，所述图像包括具有第一像素的第一图像、具有第二像素的第二图像和具有第三像素的第三图像，并且所述提取装置还被配置成：

提取所述第一图像的深度信息；和/或

提取所述第二图像中的敌人信息；和/或

提取所述第三图像中的武器信息。

方案24.根据方案23所述的设备，其中，所述第一像素、所述第二像素和所述第三像素均不相同。

方案25.根据方案23所述的设备，其中，所述提取装置包括用于提取深度信息的第一卷积神经网络。

方案26.根据方案23所述的设备，其中，所述提取装置包括用于提取敌人信息的第二卷积神经网络。

方案27.根据方案23所述的设备，其中，所述提取装置包括用于提取武器信息的第三卷积神经网络。

方案28.根据方案21-27中任一项所述的设备，其中，所述状态信息还包括智能体的状态。

方案29.根据方案28所述的设备，其中，所述智能体的状态包括血量、弹药数量、和/或武器数量。

方案30.根据方案29所述的设备，其中，所述强化学习神经网络是 DRQN网络。

方案31.根据方案30所述的设备，其中，所述图像还包括具有第四像素的第四图像，所述DRQN网络基于所述第四图像和所述智能体的状态来选取要由所述智能体执行的动作类型。

方案32.根据方案31所述的设备，其中，所述第四像素与所述第一像素、第二像素和第三像素均不同。

方案33.根据方案32所述的设备，其中，所述DRQN网络的目标函数为：

L(θ)＝E[(y-Q_θ(s，a))²]，

方案34.根据方案25所述的设备，其中，将所述第一图像平均分成m 个区域，并获取每个区域的平均深度值。

方案35.根据方案34所述的设备，其中，所述第一卷积神经网络的目标函数为：

其中，N为批尺寸，为标注的目标深度，f_depth(·)为第一卷积神经网络，s_i为描述环境的图像，m为区域个数且为正整数；

方案36.根据方案26所述的设备，其中，所述第二卷积神经网络的输出层包括第一卷积层和第二卷积层，所述第一卷积层被配置成输出敌人的位置并且所述第二卷积层被配置成输出敌人的概率，所述第二卷积神经网络的目标函数为：

方案37.根据方案36所述的设备，其中，所述提取装置还包括连接至所述第二卷积神经网络的非极大抑制NMS部。

方案38.根据方案21至27中任一项所述的设备，其中，所述预定的动作类型包括前进类型，转向类型和旋转类型。

方案39.根据方案38所述的设备，其中，基于从所述前进、所述转向和所述旋转中选取的动作类型以及射击类型，并且基于动作属性来控制所述智能体执行动作。

方案40.根据方案21至27中任一项所述的设备，其中，所述虚拟环境为ViZDoom环境。

方案41.一种计算机可读存储介质，其上存储有计算机程序，该程序能够被处理器执行来实现如方案1-20中任一所述的方法。

Claims

1.一种控制智能体的方法，包括：

获取虚拟环境的状态信息；

从所述状态信息中提取动作属性；以及

2.根据权利要求1所述的方法，其中，所述状态信息包括描述所述环境的图像。

3.根据权利要求2所述的方法，其中，所述图像包括具有第一像素的第一图像、具有第二像素的第二图像和具有第三像素的第三图像，并且提取动作属性包括：

提取所述第一图像的深度信息；和/或

提取所述第二图像中的敌人信息；和/或

提取所述第三图像中的武器信息。

4.根据权利要求3所述的方法，其中，所述第一像素、所述第二像素和所述第三像素均不相同。

5.根据权利要求3所述的方法，其中，所述深度信息通过第一卷积神经网络来提取。

6.根据权利要求3所述的方法，其中，所述敌人信息通过第二卷积神经网络来提取。

7.根据权利要求3所述的方法，其中，所述武器信息通过第三卷积神经网络来提取。

8.根据权利要求1至7中任一项所述的方法，其中，所述状态信息还包括智能体的状态。

9.根据权利要求8所述的方法，其中，所述智能体的状态包括血量、弹药数量、和/或武器数量。

10.根据权利要求9所述的方法，其中，所述强化学习神经网络是DRQN网络。

11.根据权利要求10所述的方法，其中，所述图像还包括具有第四像素的第四图像，所述DRQN网络基于所述第四图像和所述智能体的状态来选取要由所述智能体执行的动作类型。

12.根据权利要求11所述的方法，其中，所述第四像素与所述第一像素、第二像素和第三像素均不同。

13.根据权利要求12所述的方法，其中，所述DRQN网络的目标函数为：

L(θ)＝E[(y-Q_θ(s，a))²]，

14.根据权利要求5所述的方法，将所述第一图像平均分成m个区域，并获取每个区域的平均深度值。

15.根据权利要求14所述的方法，其中，所述第一卷积神经网络的目标函数为：

16.根据权利要求6所述的方法，其中，所述第二卷积神经网络的输出层包括第一卷积层和第二卷积层，所述第一卷积层被配置成输出敌人的位置并且所述第二卷积层被配置成输出敌人的概率，所述第二卷积神经网络的目标函数为：

17.根据权利要求16所述的方法，其中，所述第二卷积神经网络的输出层连接至非极大值抑制NMS部。

18.根据权利要求1至7所述的方法，其中，所述预定的动作类型包括前进类型，转向类型和旋转类型。

19.根据权利要求18所述的方法，其中，基于从所述前进类型、所述转向类型和所述旋转类型中选取的动作类型以及射击类型，并且基于动作属性来控制所述智能体执行动作。

20.根据权利要求1至7中任一项所述的方法，其中，所述虚拟环境为ViZDoom环境。

21.一种控制智能体的设备，包括：

获取装置，被配置成获取虚拟环境的状态信息；

提取装置，被配置成从所述状态信息中提取动作属性；以及

22.根据权利要求21所述的设备，其中，所述状态信息包括描述所述环境的图像。

23.根据权利要求22所述的设备，其中，所述图像包括具有第一像素的第一图像、具有第二像素的第二图像和具有第三像素的第三图像，并且所述提取装置还被配置成：

提取所述第一图像的深度信息；和/或

提取所述第二图像中的敌人信息；和/或

提取所述第三图像中的武器信息。

24.根据权利要求23所述的设备，其中，所述第一像素、所述第二像素和所述第三像素均不相同。

25.根据权利要求23所述的设备，其中，所述提取装置包括用于提取深度信息的第一卷积神经网络。

26.根据权利要求23所述的设备，其中，所述提取装置包括用于提取敌人信息的第二卷积神经网络。

27.根据权利要求23所述的设备，其中，所述提取装置包括用于提取武器信息的第三卷积神经网络。

28.根据权利要求21-27中任一项所述的设备，其中，所述状态信息还包括智能体的状态。

29.根据权利要求28所述的设备，其中，所述智能体的状态包括血量、弹药数量、和/或武器数量。

30.根据权利要求29所述的设备，其中，所述强化学习神经网络是DRQN网络。

31.根据权利要求30所述的设备，其中，所述图像还包括具有第四像素的第四图像，所述DRQN网络基于所述第四图像和所述智能体的状态来选取要由所述智能体执行的动作类型。

32.根据权利要求31所述的设备，其中，所述第四像素与所述第一像素、第二像素和第三像素均不同。

33.根据权利要求32所述的设备，其中，所述DRQN网络的目标函数为：

L(θ)＝E[(y-Q_θ(s，a))²]，

34.根据权利要求25所述的设备，其中，将所述第一图像平均分成m个区域，并获取每个区域的平均深度值。

35.根据权利要求34所述的设备，其中，所述第一卷积神经网络的目标函数为：

36.根据权利要求26所述的设备，其中，所述第二卷积神经网络的输出层包括第一卷积层和第二卷积层，所述第一卷积层被配置成输出敌人的位置并且所述第二卷积层被配置成输出敌人的概率，所述第二卷积神经网络的目标函数为：

37.根据权利要求36所述的设备，其中，所述提取装置还包括连接至所述第二卷积神经网络的非极大抑制NMS部。

38.根据权利要求21至27中任一项所述的设备，其中，所述预定的动作类型包括前进类型，转向类型和旋转类型。

39.根据权利要求38所述的设备，其中，基于从所述前进、所述转向和所述旋转中选取的动作类型以及射击类型，并且基于动作属性来控制所述智能体执行动作。

40.根据权利要求21至27中任一项所述的设备，其中，所述虚拟环境为ViZDoom环境。

41.一种计算机可读存储介质，其上存储有计算机程序，该程序能够被处理器执行来实现如权利要求1-20中任一所述的方法。