CN111950690A

CN111950690A - 一种具有自适应能力的高效强化学习策略模型

Info

Publication number: CN111950690A
Application number: CN201910410197.9A
Authority: CN
Inventors: 赵婷婷; 韩雅杰; 杨巨成; 陈亚瑞; 任德华; 王嫄
Original assignee: Tianjin University of Science and Technology
Current assignee: Tianjin University of Science and Technology
Priority date: 2019-05-15
Filing date: 2019-05-15
Publication date: 2020-11-17

Abstract

在传统的策略搜索强化学习方法中，为了快速得到有效的策略，策略模型一般都是为特定任务专门设定的低维空间策略模型，而这种策略模型在实际应用表现力十分有限，泛化能力差，很难适应其他的任务。根据以上问题，本发明提出一种具有自适应能力的高效强化学习策略模型，所提出的策略模型以感知状态的低维表示及智能体对自身行动所引发的环境变化的预测作为策略的输入。这种策略所建立的策略模型具有较高的泛化能力，即使任务发生了细微变化，智能体仍然能够根据自身对未来的预测进行自适应地调整策略，从而得到泛化能力强的高效策略。

Description

一种具有自适应能力的高效强化学习策略模型

技术领域

本发明涉及机器学习领域，更具体说是涉及一种具有自适应能力的高效强化学习策略模型

背景技术

深度强化学习通过端对端的学习方式实现从输入到输出的直接控制，使强化学习能够扩展到以前难以处理的具有高维状态和动作空间的决策问题，它为整个社会实现真正智能化提供了有力技术支撑，成为当前备受关注的研究热点。现有深度强化学习方法面对给定的任务可以在训练环境中表现极好，但是往往不能泛化到环境中看似微小的变化。

原则上，一个鲁棒而高性能的学习系统原则上应该能处理任何任务，或是快速适应到新的环境或任务中去。强化学习的泛化能力与其他学习类型有所不同，主要区别在于要求学成的策略在无需额外学习的情况下能够迁移地应用到其他领域中。如，一个智能体经过训练能在平稳地段直立行走，如果它具有泛化能力或知识迁移能力，在崎岖不平的地形上，它依然能够平稳行走。当前认知传感技术已经变得更好，而深度强化学习的泛化能力还不足以处理多样的任务集合，难以实现通用人工智能的最终目标。所以，模型的泛化问题是深度强化学习领域亟待解决的另一个重要问题。

因此，本发明提出一种具有自适应能力的高效强化学习策略模型，该模型的建立，使得智能体在应对发生变化的任务时，可以根据自身对未来的预测，自适应性地对策略进行调整，从而较为有效地解决策略模型的泛化问题。

发明内容

本发明的目的在于克服现有技术的不足之处，提供一种具有自适应能力的高效强化学习策略模型。

本发明解决技术问题所采用的技术方案是：

为了能够在强化学习领域高效训练出可自适应到新的环境及任务上的策略模型，本发明拟在表达能力极强的环境模型及动作模型的基础上，提出以感知状态在潜在空间中的低维表示及智能体对自身行动所引发环境变化的预测作为策略的输入，在动作表示的潜在空间构建小规模的策略模型，从而可以快速高效得到更具泛化能力，更可解释的策略模型，如附图所示。具体地，执行策略所需的输入，即感知状态的低维表示及智能体对自身行动所引发环境变化的预测，策略的输出是执行动作的概率。对于状态的潜在表示，利用变分自编码器采用监督学习的方式进行离线训练。对于智能体对自身行动所引发的环境变化的预测，利用递归型神经网络采用无监督学习的方式预测网络在下一个时刻自身的隐状态。

在训练中，将状态表示、智能体对自身行动所引发环境变化的预测及策略模型分开训练，使得在智能体的多数复杂度置于状态表示中，通过利用状态的潜在表示，使策略学习聚焦于小搜索空间，只需要少量真实样本的在线学习就可以得到适应于当前环境及任务的策略，从而提高策略的学习效率。在环境预测信息的协助下，即使任务发生了细微变化，智能体能够根据自身对未来的预测进行自适应地调整策略，从而得到泛化能力强的高效策略。

附图说明

为了更清楚的说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单介绍，下面描述中的附图仅仅是本发明的实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据提供的附图获得其他的附图。

附图为本发明提供的一种具有自适应能力的高效强化学习策略模型的结构示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

本发明实施例公开了一种具有自适应能力的高效强化学习策略。具体地，以感知状态在潜在空间的低维表示及智能体对自身行动所引发环境变化的隐状态预测作为策略的输入，以此扩展出得到一个学习效率高、样本利用率高、具有自适应能力、泛化性能强的策略模型。

如附图所示，该模型首先将从环境模型中训练得到感知状态的低维表示z_t及智能体对自身行动所引发环境变化的预测h_t，将它们作为模型的输入，然后让输入经过一个神经网络进行处理，最后得到一个动作的输出a_t。

在本发明的实施过程中，将智能体与环境之间的交互过程建模成马尔科夫决策过程(MDP)，它可以用一个元组来表示(S，A，P_T，P_I，r，γ)：其中S表示连续的状态空间，A为连续的动作空间，P_T(s_t+1|s_t，a_t)表示在当前状态s_t下采取动作a_t后转移到下一个状态s_t+1的状态转移概率密度函数，P_I(s₁)为智能体的初始状态概率密度函数，r(s_t，a_t，s_t+1)表示智能体因采取动作而发生状态转移的立即回报，γ∈[0，1]为折损因子。具体过程为：智能体在当前感知的状态s_t下，根据策略函数π_θ选择动作a_t∈A，然后转移到状态s_t+1，并接收到一个立即回报r(s_t，a_t，s_t+1)。策略函数为在当前状态s_t和策略函数下采取动作a_t的概率密度函数。智能体通过与环境的反复交互来收集状态、动作和回报样本，得到一个路径h＝(s₁，a₁，r₁，s₂，a₂，r₂，…，s_T，a_T，r_T，其中T表示该路径的长度。该路径的累计回报表示为

环境在每一时间步上为智能体提供一个高维输入观测，这个观测状态可以是一个多模态的变量，表示为

假设实施例中面对的是机器人的只能控制问题，机器人的任务是控制虚拟环境中的倒立摆，这里通过多个传感器得到的原始状态信息为机器人的视觉观测o_t、各个关节的角度x_t、各个关节的角速度

对于视觉型变量o_t我们利用卷积神经网络来表示，而关于智能体内部状态的其他实数型的状态变量

则通过一般的多层网络构建，最终将多个网络整合为变分自编码器(VAE)中的编码器，VAE的任务就是学习每个观测状态的抽象表示，即编码器的输出就是该深度网络所表达的状态变量z_t。我们将描述状态的编码器网络记为VAE(s_t)。利用递归型神经网络建模预测模型，此模型可预测下一个时刻表示模型产生的向量z_t+1及表示预测模型的神经网络在下一个时刻自身的隐状态h_t+1，鉴于复杂环境的随机性及动态性，我们训练递归型神经网络(RNN)以输出一个概率密度函数p(z_t+1|a_t，h_t，z_t)，而不是一个确定性预测z_t+1。

对于整个网络，本研究拟采用无监督学习的方式进行离线训练。通过利用状态的潜在表示，使策略学习聚焦于小搜索空间，提高策略的学习效率。智能体能够根据自身对未来的预测，使得即使任务发生了细微变化，可以根据预测进行自适应地调整策略，从而提高策略的泛化能力。

Claims

1.一种具有自适应能力的高效强化学习策略模型，其模型将感知状态的低维表示及智能体对自身行动所引发的环境变化的预测作为策略的输入，将产生的动作作为策略的输出。其特征在于，感知状态的低维表示将策略学习聚焦于小搜索空间，只需要少量真实样本的在线学习就可以得到适应于当前环境及任务的策略；智能体对自身行动所引发的环境变化的预测使得即使任务及环境发生了细微变化，智能体仍然能够根据自身对未来的预测进行自适应地调整策略，从而得到一个学习效率高、样本利用率高、具有自适应能力、泛化性能强的策略模型。

2.根据权利要求1所述的高效策略模型，其特征在于，在状态的潜在空间建立模型，利用状态的潜在表示，使策略学习聚焦于小搜索空间；对于状态的潜在表示，利用变分自编码器采用监督学习的方式进行离线训练。

在此基础上，只需要少量真实样本的在线学习就可以得到适用于当前环境及任务的策略，从而达到提高策略的学习效率的目的。

3.根据权利要求1所述的策略模型，其特征在于，利用递归型神经网络预测网络在下一个时刻自身的隐状态作为智能体对自身行动所引发的环境变化的预测。

在自身状态预测信息的协助下，智能体在应对发生变化的任务时，可以根据自身对未来的预测，自适应性地对策略进行调整，从而得到泛化能力强的策略。