CN109858630A

CN109858630A - 用于强化学习的方法和设备

Info

Publication number: CN109858630A
Application number: CN201910106245.5A
Authority: CN
Inventors: 朱军; 阎栋; 苏航; 黄世宇
Original assignee: Tsinghua University
Current assignee: Tsinghua University
Priority date: 2019-02-01
Filing date: 2019-02-01
Publication date: 2019-06-07

Abstract

本发明公开了一种用于强化学习的方法和设备。该方法包括：运行强化学习模型，获取第一训练数据集；通过对第一训练数据集进行统计来导出强化学习模型的状态转移函数和奖励函数；基于状态转移函数和奖励函数，通过关系强化学习算法来求解最优状态估值函数；利用最优状态估值函数来修改第一训练数据集中的奖励值；以及利用修改后的第一训练数据集来训练强化学习模型。根据该方法，能够提高对强化学习模型的训练所获得的最终效果，而且能够加快强化学习模型的训练速度，从而拓展强化学习在各个实际场景中的应用。

Description

用于强化学习的方法和设备

技术领域

本发明涉及机器学习领域，尤其涉及一种用于强化学习的方法、设备和存储介质。

背景技术

强化学习技术在很多应用领域都取得了良好的效果，基于神经网络的深度强化学习方法更是在Atari电子游戏，围棋、日本将棋和国际象棋上取得了超越人类顶尖水平的巨大的成功。但是深度强化学习的训练十分困难。有两个主要原因，一是由于强化学习的训练信号在整个训练过程中都是稀疏的，具体的即所有训练数据中只有很少一部分数据的奖励函数值不为零；二是奖励函数的作用效果通常是被延迟的，即应当被奖赏的动作往往在多个动作之后才能获得其对应的奖励信号。

传统的方法通常手动设置奖励函数来缓解奖励稀疏和奖励延迟这两个问题。这些方法的共同特点是不仅需要大量的人工，而且新设置的奖励函数由于来自人的知识，跟环境中原始的奖励函数并不完全等价，从而导致最终训练得到的策略与实际的最优策略存在偏差。

因此如何采用自动化的方式获得更加适合神经网络训练的奖励函数，是强化学习训练的一个重要问题。通过学习的方式所获得的奖励函数，不仅能够提高训练所获得的算法的最终效果，而且能够加快强化学习算法的训练速度，从而拓展强化学习在各个实际场景中的应用。

发明内容

在下文中给出了关于本发明的简要概述，以便提供关于本发明的某些方面的基本理解。应当理解，该概述并不是关于本发明的穷举性概述，它并非意图确定本发明的关键或重要部分，也不是意图限定本发明的范围。其目的仅仅是以简化的形式给出某些概念，以此作为后文的具体实施方式部分的铺垫。

鉴于以上提出的问题，本发明提出了一种用于强化学习的方法，包括：运行强化学习模型，获取第一训练数据集；通过对所述第一训练数据集进行统计来导出所述强化学习模型的状态转移函数和奖励函数；基于所述状态转移函数和所述奖励函数，通过关系强化学习算法来求解最优状态估值函数；利用最优状态估值函数来修改所述第一训练数据集中的奖励值；以及利用修改后的第一训练数据集来训练所述强化学习模型。

根据本发明的另一方面，提供了一种用于强化学习的设备，包括：获取装置，被配置成运行强化学习模型，获取第一训练数据集；导出装置，被配置成通过对所述第一训练数据集进行统计来导出所述强化学习模型的状态转移函数和奖励函数；求解装置，被配置成基于所述状态转移函数和所述奖励函数，通过关系强化学习算法来求解最优状态估值函数；修改装置，被配置成利用最优状态估值函数来修改所述第一训练数据集中的奖励值；以及训练装置，被配置成利用修改后的第一训练数据集来训练所述强化学习模型。

根据本发明的再一方面，还提供了一种计算机可读存储介质，其存储有能够由处理器运行来执行下述步骤的程序：运行强化学习模型，获取第一训练数据集；通过对所述第一训练数据集进行统计来导出所述强化学习模型的状态转移函数和奖励函数；基于所述状态转移函数和所述奖励函数，通过关系强化学习算法来求解最优状态估值函数；利用最优状态估值函数来修改所述第一训练数据集中的奖励值；以及利用修改后的第一训练数据集来训练所述强化学习模型。

根据本发明的再一方面，还提供了一种程序。所述程序包括机器可执行的指令，当在信息处理系统上执行所述指令时，所述指令使得所述信息处理系统执行根据本发明的上述方法。

根据本发明的方法和设备，能够提高对强化学习模型的训练所获得的最终效果，而且能够加快强化学习模型的训练速度，从而拓展强化学习在各个实际场景中的应用。

通过以下结合附图对本发明的最佳实施例的详细说明，本发明的这些以及其他优点将更加明显

附图说明

参照附图来阅读本发明的各实施方式，将更容易理解本发明的其它特征和优点，在此描述的附图只是为了对本发明的实施方式进行示意性说明的目的，而非全部可能的实施，并且不旨在限制本发明的范围。在附图中：

图1示出了根据本发明实施方式的用于强化学习的方法的流程示意图。

图2示出了根据本发明实施方式的用于强化学习的方法的流程图。

图3示出了强化学习模型的框架。

图4示出了用于强化学习的方法中的求解处理的流程图。

图5示出了对象检测网络的结构的示意图。

图6示出了根据本发明实施方式的用于强化学习的设备的结构框图。

图7示出了求解装置的结构框图。

图8示出了用于实施根据本发明实施方式的方法和设备的计算机的示意性框图。

具体实施方式

现参照附图对本发明的实施方式进行详细描述。应注意，以下描述仅仅是示例性的，而并不旨在限制本发明。此外，在以下描述中，将采用相同的附图标记表示不同附图中的相同或相似的部件。在以下描述的不同实施方式中的不同特征，可彼此结合，以形成本发明范围内的其他实施方式。

图1示出了根据本发明实施方式的用于强化学习的方法的流程示意图。如图1所示，本发明的方法将环境抽象为对象及对象间的关系，而后使用关系强化学习求解各个环境状态的最优状态估值函数，将估值函数的差值作为学习到的奖励分配，用以改善强化学习模式(例如，Actor-Critic)的原始奖励函数，从而提升对强化学习模型的训练效果。

下面，参照附图来详细描述本发明的方法。

图2示出了根据本发明实施方式的用于强化学习的方法的流程图。如图2所示，强化学习方法100包括：获取步骤S110、导出步骤S120、求解步骤S130、修改步骤S140以及训练步骤S150。

具体地，在获取步骤S110中，运行强化学习模型来获取第一训练数据集。

强化学习是一种无导师学习，智能体通过与外界进行相互作用产生动作，从而引起学习环境的状态的改变，并且从学习环境中接受强化信号。学习的目的就是寻找优化策略：即找到一个从状态到动作的映射，以求得到强化信号某种量化指标的最大。

图3示出了强化学习模型的结构框架。如图3所示，强化学习模型通常由以下几个基本部分组成：状态集S、动作集A、状态转移函数T：S×A→Π(S)，Π(S)的每个成员都是S的一个概率分布。用T(s，a，s′)表示在第一状态s下使用动作a转移到第二状态s′的概率。状态转移函数作为环境的当前状态(第一状态)和智能体采取的动作的函数指明了环境的后继状态(第二状态)。奖励函数作为环境当前状态和智能体所采取的动作的函数指明了期望瞬时奖励。

如图3所示，智能体和环境的相互作用是由智能体采取动作引起的，同时触发环境状态的转移，在实际问题中，状态的转移往往不是确定性的而是随机的。为了寻找从状态集合到动作集合的优化映射，一般的强化学习都不直接搜索这种映射，而是通过计算状态值函数进而获得优化策略，值函数的定义有很多种方法，通常使用长期期望回报。

优选地，强化学习模型为深度强化学习模型，诸如DQN、Actor-Critic等。

在此，第一训练数据集中的训练数据包括：第一状态s；动作a；在第一状态s下执行动作a而到达的第二状态s′；在第一状态s下执行动作a而到达第二状态s′的奖励值r；以及指示第二状态s′是否为终止状态的标示值t。换言之，训练数据为五元组(s，a，s′，r，t)。

在强化学习模型的每一个迭代步中，智能体基于当前的状态(第一状态)s根据当前策略选择一个动作a执行，然后感知执行动作a后所到达的状态(第二状态)s′以及即时奖励r，从而得到四元组(s，a，s′，r)。而t是可以预先知晓的。

优选地，在运行强化学习模型来获取第一训练数据集前，可以对强化学习模型进行初步训练。

接着，在导出步骤S120中，通过对第一训练数据集进行统计来导出强化学习模型的状态转移函数T(s，a，s′)和奖励函数R(s，a)，以便在步骤S130中计算以下最优状态估值函数：

如上所述，状态转移函数T(s，a，s′)表示第一状态s下执行动作a到达第二状态s′的概率，并且满足∑_s′T(s，a，s′)＝1。奖励函数R(s，a)作为环境当前状态s和智能体所采取的动作a的函数指明了期望瞬时奖励。

本领域技术人员可以通过现有的技术对第一训练数据集进行统计来导出状态转移函数和奖励函数，在此不再详细描述。

然后，在求解步骤S130中，基于状态转移函数和奖励函数，通过关系强化学习算法来求解以上等式(1)中的最优状态估值函数。

图4示出了求解步骤S130的具体处理的流程图。如图4所示，求解处理S130包括构建步骤S131、检测步骤S132、获取步骤S134和求解步骤S135。

在构建步骤S131中，基于学习环境中的对象及其之间的关系来构建谓词和条目库。关系强化学习使用条目E＝{e_i}，i＝1，...，N来表示可能出现的诸如智能体等各类对象，使用谓词P＝{p_i}，i＝1，...，M来描述对象之间的关系。在ViZDoom环境中，典型的谓词包括“hurt”、“shoot”、“see”、“aim”等以用于表示对象之间的关系，而典型的条目包括“agent”、“enemy”、“healthkit”、“weapon”、“ammo”等游戏中常见的对象。

接着，在检测步骤S132中，利用预先训练的对象检测网络，从表征学习环境的状态的图像中检测对象信息。作为示例，对象信息可以包括对象的位置和对象的类型。

图5是示出对象检测网络的示例性结构的示意图。如图5所示，对象检测网络通过卷积神经网络来实现，并且该卷积神经网络包括输入层、5个卷积层、插入到5个卷积层之间的4个池化层以及输出层。其中，输出层包括用于输出对象的位置的第一卷积层和用于输出对象的类型的第二卷积层。然而，卷积神经网络的结构不限于此，本领域技术人员可以根据实际需要来修改卷积层和池化层的数量和位置关系等，从而得到不同结构的卷积神经网络。

优选地，卷积神经网络的输出层连接至非极大值抑制NMS(Non-MaximumSuppression)部。NMS部用于抑制不是极大值的元素，可以理解为局部最大搜索。这个局部代表的是一个邻域，邻域有两个参数可变，一是邻域的维数，二是邻域的大小。在本文中，NMS部用于在目标检测中提取分数最高的边界框。卷积网络的输出层会输出具有分数的很多边界框并且边界框之间存在交叉，NM S部选取邻域中分数最高的边界框并且抑制分数较低的边界框。

在训练对象检测网络时，可以采集表征学习环境的状态的图像样本及其中的对象的标签信息，以监督学习的方式来进行训练。训练过程已为本领域技术人员所熟知，在此不再详细描述。

在训练完对象检测网络之后，即可利用该对象检测网络来检测图像中的对象信息。

接着，在获取步骤S134中，基于所构建的谓词和条目库和所检测到的对象信息来获取一阶逻辑命题。

具体地，在构建步骤S131中构建的谓词和条目库被预先输入到映射部的数据库中，当映射部接收到对象检测网络所检测的对象信息(优选地，从NMS部输出的对象信息)时，从数据库中调取合适的谓词和条目组成一阶逻辑命题的集合FOL＝{p_k(e_l)}来代表状态，其中k代表描述当前状态所需的第k个谓词，而1则代表谓词中的第1个条目。该调取操作是将对象信息中的条目与数据库中的谓词逐个匹配的过程，其操作已完本领域技术人员所熟知，不再详细描述。

然后，在求解步骤S135中，利用关系强化学习算法，基于所得到的一阶逻辑命题、所述状态转移函数和所述奖励函数来求解最优状态估值函数。

关系强化学习算法可以描述为，已知以下条件：

1)一个用于逻辑语言描述的可能状态集合S。其中，集合的每一个状态均由一组基本逻辑事实描述；状态的描述基于对封闭世界的假设，即所有的状态可通过有限个基本事实来完成描述；在关系强化学习算法中，状态随着智能体的动作一个一个依次输入，整个状态集合对智能体是预先不可见的。

2)一个用逻辑语言描述的可能动作集合A。对一个确定状态，并不是多有动作都可用：关系强化学习只能预见当前步状态的动作集。

3)状态转移函数T：S×A→S。一般情况下，关系强化学习中智能体并不依赖状态转移函数的知识，它只在执行动作并移动到新的状态时使用。

4)一个实值奖励函数r：S×A→R。

5)用于描述整个问题领域的背景知识。背景知识常用来描述状态、动作。其中包括用于描述状态的基本事实——谓词。

6)关系策略表述中描述偏差。描述偏差连同背景知识一起确定了用于策略描述的逻辑语言。

关系强化学习的目的是找到了一个策略π：S→A使得折扣的期望奖励最大化。

利用关系强化学习算法来求解最优状态估值函数的操作已为本领域技术人员所熟知，在此不再详细描述。

另外，在本发明中，学习环境可以是ViZDoom环境。在该情形下，求解处理S130还可以包括计算步骤S133，用于利用即时定位与地图构建SLAM(simultaneous localizationand mapping)算法，基于图像来计算对象与其周边环境的相对位置关系。

SLAM技术最早在机器人领域提出。利用SLAM技术，机器人从未知环境的未知地点出发，在运动过程中通过重复观测到的环境特征定位自身位置和姿态，再根据自身位置构建周围环境的增量式地图，从而达到同时定位和地图构建的目的。

在本文中，SLAM技术用于计算对象(诸如智能体)与周围学习环境的相对位置关系。该计算操作已为本领域技术人员所熟知，在此不再相似描述。在求解处理S130包括计算步骤S133的情形下，在步骤S134中，基于所构建的谓词和条目库、所检测到的对象信息和该相对位置关系来获取一阶逻辑命题。

继续参考图2，接着，在修改步骤S140中，利用最优状态估值函数来修改所述第一训练数据集中的奖励值。具体地，首先基于在第一状态和第二状态下的最优状态估值函数来计算偏差值，即d_bias＝V*(s′)-V*(s)。然后，通过对奖励值与偏差值求和来得到修改后的奖励值，即r′＝r+d_bias。

可证明，使用修改后的奖励部分训练强化学习模型而得到的最优策略等价于利用修改前的数据训练强化学习模型而得到的最优策略。

最后，在训练步骤S150中，利用修改后的第一训练数据集来训练所述强化学习模型。

在强化学习模型为DQN模型的情形下，在训练步骤S150中，对以下公式求梯度：

(y_j-Q(s_j，a_j；θ))²

其中，K表示训练数据的数量。优选地，使用Adam优化方法进行求解。

以上参考图1至图5描述了根据本发明实施方式的用于强化学习的方法。下面参考图6至图7来描述根据本发明实施方式的用于强化学习的设备。

图6示出了根据本发明实施方式的用于强化学习的设备的框图。如图6所示，强化学习设备500包括：获取装置510，被配置成运行强化学习模型，获取第一训练数据集；导出装置520，被配置成通过对第一训练数据集进行统计来导出强化学习模型的状态转移函数和奖励函数；求解装置530，被配置成基于状态转移函数和奖励函数，通过关系强化学习算法来求解最优状态估值函数；修改装置540，被配置成利用最优状态估值函数来修改第一训练数据集中的奖励值；以及训练装置550，被配置成利用修改后的第一训练数据集来训练强化学习模型。

优选地，第一训练数据集中的每个训练数据包括：第一状态；动作；在第一状态下执行动作而到达的第二状态；在第一状态下执行动作而到达第二状态的奖励值；以及指示第二状态是否为终止状态的标示值。

图7示出了求解装置530的示例性配置的示意图。如图7所示，求解装置530包括：构建部531，被配置成基于学习环境中的对象及其之间的关系来构建谓词和条目库；检测部532，被配置成利用预先训练的对象检测网络，从表征学习环境的状态的图像中检测对象信息；获取部534被配置成基于所构建的谓词和条目库和所检测到的对象信息来获得一阶逻辑命题；以及求解部535被配置成利用关系强化学习算法，基于所得到的一阶逻辑命题、状态转移函数和奖励函数来求解最优状态估值函数。

优选地，对象检测网络通过监督学习的方式来训练，并且可以是卷积神经网络，。对象信息包括状态图像中的对象的类型和位置，并且卷积神经网络的输出层包括用于输出对象的位置的第一卷积层和用于输出对象的类型的第二卷积层。卷积神经网络的输出层连接至非极大值抑制NMS部。

优选地，学习环境为ViZDoom环境。在该情形下，求解装置530还包括计算部533，被配置成利用即时定位与地图构建SLAM算法，基于状态来计算对象与其周边学习环境的相对位置关系。此时，获取部534基于所构建的谓词和条目库、所检测到的对象信息以及该相对位置关系来获得一阶逻辑命题。

参见图6，修改装置540可以包括：偏差计算部，被配置成基于在第一状态和第二状态下的最优状态估值函数来计算偏差值；以及修改部，被配置成通过对奖励值与偏差值求和来得到修改后的奖励值。

以上简要描述了用户强化学习的设备及其中各个装置、部件的组成和操作，关于设备、装置和部件的详细操作可以参见以上关于图1至5的描述，在此不再赘述。

另外，这里尚需指出的是，上述系统中各个组成部件可以通过软件、固件、硬件或其组合的方式进行配置。配置可使用的具体手段或方式为本领域技术人员所熟知，在此不再赘述。在通过软件或固件实现的情况下，从存储介质或网络向具有专用硬件结构的计算机(例如图8所示的通用计算机800)安装构成该软件的程序，该计算机在安装有各种程序时，能够执行各种功能等。

图8示出了可用于实施根据本发明实施例的方法和系统的计算机的示意性框图。

在图8中，中央处理单元(CPU)801根据只读存储器(ROM)802中存储的程序或从存储部分808加载到随机存取存储器(RAM)803的程序执行各种处理。在RAM 803中，还根据需要存储当CPU 801执行各种处理等等时所需的数据。CPU801、ROM802和RAM803经由总线804彼此连接。输入/输出接口805也连接到总线804。

下述部件连接到输入/输出接口805：输入部分806(包括键盘、鼠标等等)、输出部分807(包括显示器，比如阴极射线管(CRT)、液晶显示器(LCD)等，和扬声器等)、存储部分808(包括硬盘等)、通信部分809(包括网络接口卡比如LAN卡、调制解调器等)。通信部分809经由网络比如因特网执行通信处理。根据需要，驱动器810也可连接到输入/输出接口805。可拆卸介质811比如磁盘、光盘、磁光盘、半导体存储器等等可以根据需要被安装在驱动器810上，使得从中读出的计算机程序根据需要被安装到存储部分808中。

在通过软件实现上述系列处理的情况下，从网络比如因特网或存储介质比如可拆卸介质811安装构成软件的程序。

本领域的技术人员应当理解，这种存储介质不局限于图8所示的其中存储有程序、与设备相分离地分发以向用户提供程序的可拆卸介质811。可拆卸介质811的例子包含磁盘(包含软盘(注册商标))、光盘(包含光盘只读存储器(CD-ROM)和数字通用盘(DVD))、磁光盘(包含迷你盘(MD)(注册商标))和半导体存储器。或者，存储介质可以是ROM 802、存储部分808中包含的硬盘等等，其中存有程序，并且与包含它们的设备一起被分发给用户。

本发明还提出一种存储有机器可读取的指令代码的程序产品。所述指令代码由机器读取并执行时，可执行上述根据本发明实施方式的方法。

相应地，用于承载上述存储有机器可读取的指令代码的程序产品的存储介质也包括在本发明的范围内。所述存储介质包括但不限于软盘、光盘、磁光盘、存储卡、存储棒等等。

应当注意，本发明的方法不限于按照说明书中描述的时间顺序来执行，也可以按照其他的次序顺序地、并行地或独立地执行。因此，本说明书中描述的方法的执行顺序不对本发明的技术范围构成限制。

以上对本发明各实施方式的描述是为了更好地理解本发明，其仅仅是示例性的，而非旨在对本发明进行限制。应注意，在以上描述中，针对一种实施方式描述和/或示出的特征可以以相同或类似的方式在一个或更多个其它实施方式中使用，与其它实施方式中的特征相组合，或替代其它实施方式中的特征。本领域技术人员可以理解，在不脱离本发明的发明构思的情况下，针对以上所描述的实施方式进行的各种变化和修改，均属于本发明的范围内。

综上，在根据本发明的实施例中，本发明提供了如下技术方案。

方案1.一种用于强化学习的方法，包括：

运行强化学习模型，获取第一训练数据集；

通过对所述第一训练数据集进行统计来导出所述强化学习模型的状态转移函数和奖励函数；

基于所述状态转移函数和所述奖励函数，通过关系强化学习算法来求解最优状态估值函数；

利用最优状态估值函数来修改所述第一训练数据集中的奖励值；以及利用修改后的第一训练数据集来训练所述强化学习模型。

方案2.根据方案1所述的方法，其中，所述第一训练数据集中的每个训练数据包括：第一状态；动作；在所述第一状态下执行所述动作而到达的第二状态；在所述第一状态下执行所述动作而到达所述第二状态的奖励值；以及指示所述第二状态是否为终止状态的标示值。

方案3.根据方案2所述的方法，其中，修改所述第一训练数据集中的奖励值包括：

基于在第一状态和第二状态下的最优状态估值函数来计算偏差值；以及

通过对所述奖励值与所述偏差值求和来得到修改后的奖励值。

方案4.根据方案1至3中任一项所述的方法，其中，通过关系强化学习算法来求解最优状态估值函数包括：

基于学习环境中的对象及其之间的关系来构建谓词和条目库；

利用预先训练的对象检测网络，从表征所述学习环境的状态的图像中检测对象信息；

基于所构建的谓词和条目库和所检测到的对象信息来获取一阶逻辑命题；以及

利用关系强化学习算法，基于所得到的一阶逻辑命题、所述状态转移函数和所述奖励函数来求解最优状态估值函数。

方案5.根据方案4所述的方法，其中，所述对象检测网络为卷积神经网络。

方案6.根据方案5所述的方法，其中，所述对象信息包括所述图像中的对象的类型和位置，并且所述卷积神经网络的输出层包括用于输出对象的位置的第一卷积层和用于输出对象的类型的第二卷积层。

方案7.根据方案6所述的方法，其中，所述卷积神经网络的输出层连接至非极大值抑制NMS部。

方案8.根据方案7所述的方法，其中，所述学习环境为ViZD_oom环境。

方案9.根据方案8所述的方法，其中，求解最优状态估值函数还包括：利用即时定位与地图构建SLAM算法，基于所述图像来计算对象与其周边学习环境的相对位置关系，

其中，所述一阶逻辑命题还基于所述相对位置关系来获得。

方案10.根据方案5所述的方法，其中，所述对象检测网路通过监督学习的方式来训练。

方案11.根据方案1至3中任一项所述的方法，其中，所述强化学习模型为深度强化学习模型。

方案12.一种用于强化学习的设备，包括：

获取装置，被配置成运行强化学习模型，获取第一训练数据集；

导出装置，被配置成通过对所述第一训练数据集进行统计来导出所述强化学习模型的状态转移函数和奖励函数；

求解装置，被配置成基于所述状态转移函数和所述奖励函数，通过关系强化学习算法来求解最优状态估值函数；

修改装置，被配置成利用最优状态估值函数来修改所述第一训练数据集中的奖励值；以及

训练装置，被配置成利用修改后的第一训练数据集来训练所述强化学习模型。

方案13.根据方案12所述的设备，其中，所述第一训练数据集中的每个训练数据包括：第一状态；动作；在所述第一状态下执行所述动作而到达的第二状态；在所述第一状态下执行所述动作而到达所述第二状态的奖励值；以及指示所述第二状态是否为终止状态的标示值。

方案14.根据方案13所述的设备，其中，所述修改装置包括：

偏差计算部，被配置成基于在第一状态和第二状态下的最优状态估值函数来计算偏差值；以及

修改部，被配置成通过对所述奖励值与所述偏差值求和来得到修改后的奖励值。

方案15.根据方案12至14中任一项所述的设备，其中，所述求解装置包括：

构建部，被配置成基于学习环境中的对象及其之间的关系来构建谓词和条目库；

检测部，被配置成利用预先训练的对象检测网络，从表征所述学习环境的状态的图像中检测对象信息；

获取部，被配置成基于所构建的谓词和条目库和所检测到的对象信息来获得一阶逻辑命题；以及

求解部，被配置成利用关系强化学习算法，基于所得到的一阶逻辑命题、所述状态转移函数和所述奖励函数来求解最优状态估值函数。

方案16.根据方案15所述的设备，其中，所述对象检测网络为卷积神经网络。

方案17.根据方案16所述的设备，其中，所述对象信息包括所述图像中的对象的类型和位置，并且所述卷积神经网络的输出层包括用于输出对象的位置的第一卷积层和用于输出对象的类型的第二卷积层。

方案18.根据方案17所述的设备，其中，所述卷积神经网络的输出层连接至非极大值抑制NMS部。

方案19.根据方案18所述的设备，其中，所述学习环境为ViZDoom环境。

方案20.根据方案19所述的设备，其中，所述求解装置还包括：计算部，被配置成利用即时定位与地图构建SLAM算法，基于所述图像来计算对象与其周边学习环境的相对位置关系，

其中，所述获取部还基于所述相对位置关系来获取所述一阶逻辑命题。

方案21.根据方案16所述的设备，其中，所述对象检测网路通过监督学习的方式来训练。

方案22.一种计算可读存储介质，其存储有能够被处理器运行来执行方案1至11中任一项所述的方法的程序。

Claims

1.一种用于强化学习的方法，包括：

运行强化学习模型，获取第一训练数据集；

利用最优状态估值函数来修改所述第一训练数据集中的奖励值；以及

利用修改后的第一训练数据集来训练所述强化学习模型。

2.根据权利要求1所述的方法，其中，所述第一训练数据集中的每个训练数据包括：第一状态；动作；在所述第一状态下执行所述动作而到达的第二状态；在所述第一状态下执行所述动作而到达所述第二状态的奖励值；以及指示所述第二状态是否为终止状态的标示值。

3.根据权利要求2所述的方法，其中，修改所述第一训练数据集中的奖励值包括：

4.根据权利要求1至3中任一项所述的方法，其中，通过关系强化学习算法来求解最优状态估值函数包括：

基于所构建的谓词和条目库和所检测到的对象信息来获取一阶逻辑命题；以及。

5.根据权利要求4所述的方法，其中，所述对象检测网络为卷积神经网络。

6.根据权利要求5所述的方法，其中，所述学习环境为ViZDoom环境。

7.根据权利要求6所述的方法，其中，求解最优状态估值函数还包括：利用即时定位与地图构建SLAM算法，基于所述图像来计算对象与其周边学习环境的相对位置关系，

其中，所述一阶逻辑命题还基于所述相对位置关系来获得。

8.根据权利要求5所述的方法，其中，所述对象检测网路通过监督学习的方式来训练。

9.根据权利要求1至3中任一项所述的方法，其中，所述强化学习模型为深度强化学习模型。

10.一种用于强化学习的设备，包括：