CN108288094B

CN108288094B - 基于环境状态预测的深度强化学习方法及装置

Info

Publication number: CN108288094B
Application number: CN201810093845.8A
Authority: CN
Inventors: 陈�峰; 陈达贵; 闫琪
Original assignee: Tsinghua University
Current assignee: Tsinghua University
Priority date: 2018-01-31
Filing date: 2018-01-31
Publication date: 2021-06-29
Anticipated expiration: 2038-01-31
Also published as: CN108288094A

Abstract

本发明公开了一种基于环境状态预测的深度强化学习方法及装置，其中，方法包括：建立基于环境预测的深度强化学习网络，并根据任务的特点选择合适的策略决策方法；初始化网络参数，并建立满足存储条件的存储区作为经验回放区；根据策略决策网络的输出选择合适的策略来与环境进行交互，并将交互过程的交互信息连续存储到经验回放区；从经验回放区采样第一样本序列，并利用监督学习的方法对环境预测部分进行训练，并重复第一预设次数；从经验回放区采样第二样本序列，并固定环境预测部分的参数不动，利用强化学习的方法对策略决策部分进行训练，并重复第二预设次数；在网络收敛满足预设条件时，获取强化学习网络。该方法可以有效提高学习效率。

Description

基于环境状态预测的深度强化学习方法及装置

技术领域

本发明涉及人工智能技术领域，特别涉及一种基于环境状态预测的深度强化学习方法及装置。

背景技术

在和环境的交互过程中学习是人工智能领域中的一个研究热点，解决这类问题一个重要的数学和理论工具就是强化学习。通过对马尔可夫决策过程的求解，强化学习可以通过未知环境的交互学习出一个目标导向的行为策略。而且，由于强化学习不需要显式的监督信号，且其学习过程类似于动物的学习行为，因此强化学习也被认为是解决通用人工智能问题的趋势。

相关技术中的强化学习算法由于受到时间、空间和样本复杂度的限制，因此，只能被运用在低维状态空间和动作空间的问题。这一缺陷在深度神经网络的诞生后得到了一定程度的改善。深度神经网络利用了深层网络强大的表达能力，并结合反向传播的训练方法，可以自动地提取原始数据中的多层次抽象特征，获得高维数据的有效低维表达。通过利用深度神经网络进行特征提取，深度强化学习能够解决高维数据空间中的决策问题，因此在机器人控制、棋类游戏和无人驾驶等领域中有着广阔的应用前景。

然而，相关技术中的深度强化学习算法还存在着一些缺陷。一方面，强化学习的算法的基础是马尔可夫性，而满足马尔可夫性的一个必要条件是要求状态是全观测的，因此对于部分可观测的马尔可夫决策问题，目前的算法通常都不能得到一个很好的策略；另一方面，目前的强化学习算法大多只能解决环境中的一个任务，当任务发生切换时，往往需要对网络进行重新训练，不具备有很好的通用性和迁移性，亟待解决。

发明内容

本发明旨在至少在一定程度上解决相关技术中的技术问题之一。

为此，本发明的一个目的在于提出一种基于环境状态预测的深度强化学习方法，该方法可以有效提高学习效率，并且具有很好的迁移性。

本发明的另一个目的在于提出一种基于环境状态预测的深度强化学习装置。

为达到上述目的，本发明一方面实施例提出了一种基于环境状态预测的深度强化学习方法，包括以下步骤：建立基于环境预测的深度强化学习网络，并根据环境的复杂度设定环境预测部分的网络规模，根据任务的特点选择合适的策略决策方法；初始化网络参数，并建立满足存储条件的存储区作为经验回放区；根据策略决策网络的输出选择合适的策略来与环境进行交互，并将交互过程的交互信息连续存储到所述经验回放区；从所述经验回放区采样第一样本序列，并利用监督学习的方法对所述环境预测部分进行训练，并重复第一预设次数；从所述经验回放区采样第二样本序列，并固定所述环境预测部分的参数不动，利用强化学习的方法对策略决策部分进行训练，并重复第二预设次数；在网络收敛满足预设条件时，获取强化学习网络。

本发明实施例的基于环境状态预测的深度强化学习方法，能够驱动智能体建立对当前所在环境特性的理解，对环境和自身的当前和未来全局状态进行预测，并结合了监督学习和强化学习的训练方式，在一定程度上解决了部分可观测问题和通用性问题，并且可以快速的迁移，有效提高学习效率。

另外，根据本发明上述实施例的基于环境状态预测的深度强化学习方法还可以具有以下附加的技术特征：

进一步地，在本发明的一个实施例中，还包括：通过卷积神经网络对原始图像数据进行特征提取。

进一步地，在本发明的一个实施例中，还包括：获取传感数据，并根据所述传感数据生成一维向量，并通过全解网络提取特征，以将所述卷积神经网络的输出拉平成一维向量，并和所述全连接网络的输出相连接，得到所有数据的特征向量，以及利用全连接层，将所述特征向量进行融合。

进一步地，在本发明的一个实施例中，利用监督学习得到抽象环境特征，以通过所述抽象环境特征进行策略决策训练。

进一步地，在本发明的一个实施例中，所述抽象环境特征s_t为：

s_t＝g(f(o₀),f(o₁),f(o₂),…,f(o_t))，

其中，t为第t个时刻，s_t为t时刻的抽象环境特征，o₀为第0时刻的观测值，o₁为第1时刻的观测值，o₂为第2个时刻的观测值，o_t为第t个时刻的观测值，f(o_t)为对t时刻的观测值使用映射f进行特征提取后的输出，g(f(o₀),f(o₁),f(o₂),…,f(o_t))为对t时刻以及t之前的观测进行特征提取，并针对这些特征使用映射g进行特征融合得到t时刻的抽象环境特征。

为达到上述目的，本发明另一方面实施例提出了一种基于环境状态预测的深度强化学习装置，包括：建立模块，用于建立基于环境预测的深度强化学习网络，并根据环境的复杂度设定环境预测部分的网络规模，根据任务的特点选择合适的策略决策方法；初始化模块，用于初始化网络参数，并建立满足存储条件的存储区作为经验回放区；交互模块，用于根据策略决策网络的输出选择合适的策略来与环境进行交互，并将交互过程的交互信息连续存储到所述经验回放区；训练模块，用于从所述经验回放区采样第一样本序列，并利用监督学习的方法对所述环境预测部分进行训练，并重复第一预设次数；强化模块，用于从所述经验回放区采样第二样本序列，并固定所述环境预测部分的参数不动，利用强化学习的方法对策略决策部分进行训练，并重复第二预设次数；获取模块，用于在网络收敛满足预设条件时，获取强化学习网络。

本发明实施例的基于环境状态预测的深度强化学习装置，能够驱动智能体建立对当前所在环境特性的理解，对环境和自身的当前和未来全局状态进行预测，并结合了监督学习和强化学习的训练方式，在一定程度上解决了部分可观测问题和通用性问题，并且可以快速的迁移，有效提高学习效率。

另外，根据本发明上述实施例的基于环境状态预测的深度强化学习装置还可以具有以下附加的技术特征：

进一步地，在本发明的一个实施例中，还包括：提取模块，用于通过卷积神经网络对原始图像数据进行特征提取。

进一步地，在本发明的一个实施例中，还包括：融合模块，用于获取传感数据，并根据所述传感数据生成一维向量，并通过全解网络提取特征，以将所述卷积神经网络的输出拉平成一维向量，并和所述全连接网络的输出相连接，得到所有数据的特征向量，以及利用全连接层，将所述特征向量进行融合。

s_t＝g(f(o₀),f(o₁),f(o₂),…,f(o_t))，

本发明附加的方面和优点将在下面的描述中部分给出，部分将从下面的描述中变得明显，或通过本发明的实践了解到。

附图说明

本发明上述的和/或附加的方面和优点从下面结合附图对实施例的描述中将变得明显和容易理解，其中：

图1为根据本发明实施例的基于环境状态预测的深度强化学习方法的流程图；

图2为根据本发明一个实施例的基于环境状态预测的深度强化学习网络的整体结构示意图；

图3为根据本发明一个实施例的特征提取和融合模块示意图；

图4为根据本发明一个实施例的环境状态预测模块示意图；

图5为根据本发明实施例的基于环境状态预测的深度强化学习装置的结构示意图。

具体实施方式

下面详细描述本发明的实施例，所述实施例的示例在附图中示出，其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的，旨在用于解释本发明，而不能理解为对本发明的限制。

下面参照附图描述根据本发明实施例提出的基于环境状态预测的深度强化学习方法及装置，首先将参照附图描述根据本发明实施例提出的基于环境状态预测的深度强化学习方法。

图1是本发明实施例的基于环境状态预测的深度强化学习方法的流程图。

如图1所示，该基于环境状态预测的深度强化学习方法包括以下步骤：

在步骤S101中，建立基于环境预测的深度强化学习网络，并根据环境的复杂度设定环境预测部分的网络规模，根据任务的特点选择合适的策略决策方法。

可以理解的是，本发明实施例可以首先建立基于环境预测的深度强化学习网络，根据环境的复杂度设定环境预测部分的网络规模。并根据任务的特点选择合适的策略决策方法。

需要说明的是，选择合适的策略决策方法可以参考一般的深度强化学习，比如针对连续动作空间的任务可以采用DDPG(Deep Deterministic Policy Gradient，深度确定性策略梯度)等，唯一的不同是在本发明实施例中策略决策部分不需要进行特征提取，因此可以使用比较浅的网络结构。

在步骤S102中，初始化网络参数，并建立满足存储条件的存储区作为经验回放区。

在步骤S103中，根据策略决策网络的输出选择合适的策略来与环境进行交互，并将交互过程的交互信息连续存储到经验回放区。

可以理解的是，本发明实施例可以初始化网络参数，并建立一个足够大的存储区作为“经验回放”，用来存储智能体和环境进行交互时的信息，从而智能体根据策略决策网络的输出选择合适的策略来与环境进行交互，并将交互过程中的信息连续存储到“经验回放”区。

需要说明的是，为了鼓励智能体更多的探索，智能体所执行的均为带探索的策略，如ε-greedy等。

在步骤S104中，从经验回放区采样第一样本序列，并利用监督学习的方法对环境预测部分进行训练，并重复第一预设次数。

在步骤S105中，从经验回放区采样第二样本序列，并固定环境预测部分的参数不动，利用强化学习的方法对策略决策部分进行训练，并重复第二预设次数。

例如，从“经验回放”区采样充分的样本序列，利用监督学习的方法对环境预测部分进行训练，并重复N₁次；从“经验回放”区采样充分的样本序列，固定环境预测部分的参数不动，利用强化学习的方法对策略决策部分进行训练，并重复N₂次；其中，第一预设次数和第二预设次数具体值可以由本领域技术人员根据实际情况进行限制，在此不做具体限制。其中，样本序列指智能体在一定的连续时间内和环境进行交互的所有信息。

在步骤S106中，在网络收敛满足预设条件时，获取强化学习网络。

可以理解的是，在网络收敛满足预设条件时，即不断重复上述步骤S103至S105，直至网络收敛，以获取强化学习网络。

进一步地，在本发明的一个实施例中，本发明实施例的方法还包括：通过卷积神经网络对原始图像数据进行特征提取。

进一步地，在本发明的一个实施例中，本发明实施例的方法还包括：获取传感数据，并根据传感数据生成一维向量，并通过全解网络提取特征，以将卷积神经网络的输出拉平成一维向量，并和全连接网络的输出相连接，得到所有数据的特征向量，以及利用全连接层，将特征向量进行融合。

可以理解的是，结合图2和图3所示，图2中的高维原始数据指智能体的多个传感器收集到的原始数据流，最常见的即为由摄像头采集的原始图像数据，而特征提取与融合模块的示意图如图3所示。卷积神经网络充分利用了自然图像的局部统计信息的平移不变性，能提取到自然图像中具有空间位置关系的特征。因此本发明使用卷积神经网络对原始图像数据进行特征提取。另外，针对其他传感器的数据(比如红外线、奖励信号等)，这里将这些数据构造成一个一维向量，并利用全连接网络提取其特征，将卷积神经网络的输出拉平成一个一维向量，并和全连接网络的输出相连接就得到了所有数据的特征向量。最后再利用全连接层，将该特征向量进行融合。

另外，本发明实施例跟一般的深度强化学习网络不同，它并不是一个端到端的网络，而是将强化学习的决策分为了两个部分——环境预测和策略决策。环境预测是一个独立于任务的行为，智能体即使在没有指定任务的时候也会尝试建立对自身所在环境的理解，这一点和生物体的“本能”行为相似。

进一步地，在本发明的一个实施例中，利用监督学习得到抽象环境特征，以通过抽象环境特征进行策略决策训练。

进一步地，在本发明的一个实施例中，抽象环境特征s_t为：

s_t＝g(f(o₀),f(o₁),f(o₂),…,f(o_t))，

可以理解的是，本发明实施例可以利用这样的特征提取和融合模块自动地提取高维数据的低维特征表达，然而对于部分可观测马尔可夫决策问题，这里所提取到的特征只是智能体在某一个特定时刻的观测状态的抽象。只利用局部的观测无法对环境进行较高精度的预测，因此本发明将智能体的整个观测序列(图2中仅画了3个观测状态)视为状态值，并利用LSTM(Long Short-Term Memory，长短期记忆网络)对该序列进行编码，通过对整个观测历史进行建模，智能体可以对环境进行更加精准的预测。

记智能体在时刻t的观测(包含了图像和其他传感器的数据)为o_t，特征提取和融合模块的映射变换为f，LSTM的映射变换为g，那么经过LSTM编码后的输出为抽象环境特征s_t可以表示为，

s_t＝g(f(o₀),f(o₁),f(o₂),…,f(o_t))，

其中，s_t代表了当前时刻智能体所在环境的高度抽象特征。该特征一方面综合了智能体的所有历史观测，是对当前智能体状态的一种特殊的估计，因此满足马尔可夫性；另一方面，该特征的求解过程与任务无关，是对当前环境的一种通用的描述，因此在环境不发生改变时，可以很自然地切换到新的任务。

为了驱动网络自动学习出合理的抽象环境特征，智能体需要对环境的状态进行预测。其中环境状态预测模块的网络结构如图4所示，这里采用了跟特征提取和融合模块对称的结构——使用反卷积神经网络预测智能体在未来一段时间内的观测到的图像I_t′和状态值M_t′(包括其他传感器的数据和奖励信号)。使用智能体在未来这段时间内真实的观测图像和状态值作为监督信号，可以驱动整个环境预测部分的进行训练。

利用监督学习的方式得到抽象的环境特征后，即可以使用该特征进行策略决策部分的训练。策略决策部分的网络和一般的深度强化学习网络类似，既可以采用值函数的方法也可以使用策略梯度的方法，然而跟一般的深度强化学习网络不同的是，这里的策略决策部分不再需要特征提取过程，因此可以使用较浅的全连接网络加快训练过程。

根据本发明实施例提出的基于环境状态预测的深度强化学习方法，能够驱动智能体建立对当前所在环境特性的理解，对环境和自身的当前和未来全局状态进行预测，并结合了监督学习和强化学习的训练方式，在一定程度上解决了部分可观测问题和通用性问题，并且可以快速的迁移，有效提高学习效率。

其次参照附图描述根据本发明实施例提出的基于环境状态预测的深度强化学习装置。

图5是本发明实施例的基于环境状态预测的深度强化学习装置的流程图。

如图5所示，该基于环境状态预测的深度强化学习装置10包括：建立模块100、初始化模块200、交互模块300、训练模块400、强化模块500和获取模块600。

其中，建立模块100用于建立基于环境预测的深度强化学习网络，并根据环境的复杂度设定环境预测部分的网络规模，根据任务的特点选择合适的策略决策方法。初始化模块200用于初始化网络参数，并建立满足存储条件的存储区作为经验回放区。交互模块300用于根据策略决策网络的输出选择合适的策略来与环境进行交互，并将交互过程的交互信息连续存储到经验回放区。训练模块400用于从经验回放区采样第一样本序列，并利用监督学习的方法对环境预测部分进行训练，并重复第一预设次数。强化模块500用于从经验回放区采样第二样本序列，并固定环境预测部分的参数不动，利用强化学习的方法对策略决策部分进行训练，并重复第二预设次数。获取模块600用于在网络收敛满足预设条件时，获取强化学习网络。本发明实施例的装置10可以解决部分可观测问题和通用性问题，并且可以实现快速的迁移，有效提高学习效率。

进一步地，在本发明的一个实施例中，本发明实施例的装置10还包括：提取模块。其中，提取模块用于通过卷积神经网络对原始图像数据进行特征提取。

进一步地，在本发明的一个实施例中，本发明实施例的装置10还包括：融合模块。其中，融合模块用于获取传感数据，并根据传感数据生成一维向量，并通过全解网络提取特征，以将卷积神经网络的输出拉平成一维向量，并和全连接网络的输出相连接，得到所有数据的特征向量，以及利用全连接层，将特征向量进行融合。

进一步地，在本发明的一个实施例中，抽象环境特征s_t为：

s_t＝g(f(o₀),f(o₁),f(o₂),…,f(o_t))，

需要说明的是，前述对基于环境状态预测的深度强化学习方法实施例的解释说明也适用于该实施例的基于环境状态预测的深度强化学习装置，此处不再赘述。

根据本发明实施例提出的基于环境状态预测的深度强化学习装置，能够驱动智能体建立对当前所在环境特性的理解，对环境和自身的当前和未来全局状态进行预测，并结合了监督学习和强化学习的训练方式，在一定程度上解决了部分可观测问题和通用性问题，并且可以快速的迁移，有效提高学习效率。

在本发明的描述中，需要理解的是，术语“中心”、“纵向”、“横向”、“长度”、“宽度”、“厚度”、“上”、“下”、“前”、“后”、“左”、“右”、“竖直”、“水平”、“顶”、“底”“内”、“外”、“顺时针”、“逆时针”、“轴向”、“径向”、“周向”等指示的方位或位置关系为基于附图所示的方位或位置关系，仅是为了便于描述本发明和简化描述，而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作，因此不能理解为对本发明的限制。

此外，术语“第一”、“第二”仅用于描述目的，而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此，限定有“第一”、“第二”的特征可以明示或者隐含地包括至少一个该特征。在本发明的描述中，“多个”的含义是至少两个，例如两个，三个等，除非另有明确具体的限定。

在本发明中，除非另有明确的规定和限定，术语“安装”、“相连”、“连接”、“固定”等术语应做广义理解，例如，可以是固定连接，也可以是可拆卸连接，或成一体；可以是机械连接，也可以是电连接；可以是直接相连，也可以通过中间媒介间接相连，可以是两个元件内部的连通或两个元件的相互作用关系，除非另有明确的限定。对于本领域的普通技术人员而言，可以根据具体情况理解上述术语在本发明中的具体含义。

在本发明中，除非另有明确的规定和限定，第一特征在第二特征“上”或“下”可以是第一和第二特征直接接触，或第一和第二特征通过中间媒介间接接触。而且，第一特征在第二特征“之上”、“上方”和“上面”可是第一特征在第二特征正上方或斜上方，或仅仅表示第一特征水平高度高于第二特征。第一特征在第二特征“之下”、“下方”和“下面”可以是第一特征在第二特征正下方或斜下方，或仅仅表示第一特征水平高度小于第二特征。

在本说明书的描述中，参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中，对上述术语的示意性表述不必须针对的是相同的实施例或示例。而且，描述的具体特征、结构、材料或者特点可以在任一个或多个实施例或示例中以合适的方式结合。此外，在不相互矛盾的情况下，本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。

尽管上面已经示出和描述了本发明的实施例，可以理解的是，上述实施例是示例性的，不能理解为对本发明的限制，本领域的普通技术人员在本发明的范围内可以对上述实施例进行变化、修改、替换和变型。

Claims

1.一种基于环境状态预测的深度强化学习方法，其特征在于，包括以下步骤：

建立基于环境预测的深度强化学习网络，并根据环境的复杂度设定环境预测部分的网络规模，根据任务的特点选择合适的策略决策方法；

初始化网络参数，并建立满足存储条件的存储区作为经验回放区；

根据策略决策网络的输出选择合适的策略来与环境进行交互，并将交互过程的交互信息连续存储到所述经验回放区；

从所述经验回放区采样第一样本序列，并利用监督学习的方法对所述环境预测部分进行训练，并重复第一预设次数；

从所述经验回放区采样第二样本序列，并固定所述环境预测部分的参数不动，利用强化学习的方法对策略决策部分进行训练，并重复第二预设次数；

在网络收敛满足预设条件时，获取强化学习网络；

其中，通过卷积神经网络对原始图像数据进行特征提取；获取传感数据，并根据所述传感数据生成一维向量，并通过全连接网络提取特征，以将所述卷积神经网络的输出拉平成一维向量，并和所述全连接网络的输出相连接，得到所有数据的特征向量，以及利用全连接层，将所述特征向量进行融合；

其中，利用监督学习得到抽象环境特征，以通过所述抽象环境特征进行策略决策训练；

所述抽象环境特征s_t为：

s_t＝g(f(o₀)，f(o₁)，f(o₂)，...，f(o_t))，

其中，t为第t个时刻，s_t为t时刻的抽象环境特征，o₀为第0时刻的观测值，o₁为第1时刻的观测值，o₂为第2个时刻的观测值，o_t为第t个时刻的观测值，f(o_t)为对t时刻的观测值使用映射f进行特征提取后的输出，g(f(o₀)，f(o₁)，f(o₂)，...，f(o_t))为对t时刻以及t之前的观测进行特征提取，并针对这些特征使用映射g进行特征融合得到t时刻的抽象环境特征。

2.一种基于环境状态预测的深度强化学习装置，其特征在于，包括：

建立模块，用于建立基于环境预测的深度强化学习网络，并根据环境的复杂度设定环境预测部分的网络规模，根据任务的特点选择合适的策略决策方法；

初始化模块，用于初始化网络参数，并建立满足存储条件的存储区作为经验回放区；

交互模块，用于根据策略决策网络的输出选择合适的策略来与环境进行交互，并将交互过程的交互信息连续存储到所述经验回放区；

训练模块，用于从所述经验回放区采样第一样本序列，并利用监督学习的方法对所述环境预测部分进行训练，并重复第一预设次数；

强化模块，用于从所述经验回放区采样第二样本序列，并固定所述环境预测部分的参数不动，利用强化学习的方法对策略决策部分进行训练，并重复第二预设次数；以及

获取模块，用于在网络收敛满足预设条件时，获取强化学习网络；

提取模块，用于通过卷积神经网络对原始图像数据进行特征提取；

融合模块，用于获取传感数据，并根据所述传感数据生成一维向量，并通过全连接网络提取特征，以将所述卷积神经网络的输出拉平成一维向量，并和所述全连接网络的输出相连接，得到所有数据的特征向量，以及利用全连接层，将所述特征向量进行融合；

所述抽象环境特征s_t为：

s_t＝g(f(o₀)，f(o₁)，f(o₂)，...，f(o_t))，