CN111950691A

CN111950691A - 一种基于潜在动作表示空间的强化学习策略学习方法

Info

Publication number: CN111950691A
Application number: CN201910410199.8A
Authority: CN
Inventors: 赵婷婷; 王雨芯; 陈亚瑞; 杨巨成; 王嫄; 任德华
Original assignee: Tianjin University of Science and Technology
Current assignee: Tianjin University of Science and Technology
Priority date: 2019-05-15
Filing date: 2019-05-15
Publication date: 2020-11-17

Abstract

样本利用率及学习效率是深度强化学习在实际应用中的一个重要瓶颈问题。面对真实世界，为了快速、准确地得到通用的策略，本发明提出一种基于潜在动作表示空间的强化学习策略学习方法，该方法在动作的潜在空间学习策略，再把动作表示映射到真实的动作空间：所述方法中的策略就是一个从状态到动作表示的映射，可减小策略学习的搜索空间，提高策略学习效率；所述方法中动作的表示可选择成熟的监督学习进行离线学习，可进一步提高学习速度、提高稳定性。此外，只要所采取动作的特征相似，即使面对与训练策略不同的任务，可以使学成的策略在少量学习样本的精调下泛化到当前执行任务的动作空间中，极大地提高了策略表达的泛化能力。

Description

一种基于潜在动作表示空间的强化学习策略学习方法

技术领域

本发明涉及机器学习领域，更具体说是涉及一种基于潜在动作表示空间的强化学习策略学习方法。

背景技术

深度强化学习通过端对端的学习方式实现从输入到输出的直接控制，使强化学习能够扩展到以前难以处理的具有高维状态和动作空间的决策问题，它为整个社会实现真正智能化提供了有力技术支撑，成为当前备受关注的研究热点。迄今为止，深度强化学习已被成功应用到诸多领域：如机器人、游戏、参数优化、视频预测、机器翻译、自动驾驶、智能交通系统、多智能体系统、航空航天系统及数字艺术智能系统等。

深度强化学习能够取得成功的重要前提是大量的学习样本及学习时间。面对视觉型的强化学习任务，为了让模型的感知能力及表达能力达到一定高度需要极为大量的训练样本及时间，如Deepmind团队所提出的在游戏Atari2600上表现最好的Rianbow模型需要1800万帧训练数据或大约83小时的训练时间才能达到一定水平；对于非视觉感知的任务，如模拟机器人MuJoCo，根据任务的不同需要10万以上的学习步数；Deepmind团队提出的学习酷跑的策略，需要64个GPU学习100个小时以上。上述任务是强化学习领域成功的典范，分析其任务本质发现它们具有确定的、静态的环境，其状态主要是静态的、完全可观察的，且比较容易生成训练数据。然而，对于实际应用中的复杂的智能系统来说，收集充分学习样本需要花费大量的时间与金钱，甚至还存在损坏智能系统的风险，如收集机器人在危险环境中执行任务的学习样本可能会造成机械损伤。可见，样本利用率及学习效率是深度强化学习在实际应用中的一个重要瓶颈问题

因此，本发明提出一种基于潜在动作表示空间的强化学习策略学习方法，通过引入潜在动作空间的动作表示来提高深度强化学习中的样本利用率及学习效率。

发明内容

为了快速、准确地得到强化学习中的动作选择策略，通常通过先验知识为特定任务设计小规模策略模型，从而将策略学习控制在小规模的搜索空间。为了高效进行策略学习，同时满足对泛化能力的要求，强化学习领域通常将希望寄托在状态表示这一阶段。面对离散动作空间问题，在状态表示的基础下，可快速得到具有泛化能力的策略；面向连续动作空间问题，采用基于深度网络的状态表示端到端的学习策略，往往需要大量的学习样本及训练时间。

面向大规模的连续动作空间，深度强化学习通常对大规模的深度神经网络进行端到端的训练，从而得到具有泛化能力的策略。然而，在强化学习领域训练大规模的神经网络通常需要大量的学习样本、训练时间，且结果不稳定。在传统强化学习领域，通常根据先验知识为特定任务设计小规模策略模型，从而将策略学习控制在小规模的搜索空间。

利用深度网络表示大规模状态是深度强化学习取得成功的关键。有鉴于此，本发明借助深度强化学习处理大规模状态空间的方法来解决大规模动作空间问题。面对真实世界，为了快速、准确地得到通用的策略，本发明提出一种基于潜在动作表示空间的强化学习策略学习方法，即在动作的潜在空间学习策略，再把动作表示映射到真实的动作空间，如附图所示。通过动作表示可将动作泛化到其他具有类似表示的动作，极大提高的动作选择的泛化性能。具体地，本发明引入一个表示动作的潜在空间，在该空间学习策略，即策略是状态到动作表示的映射：π(e_t|s_t)，这里e_t表示动作a_t在潜在空间的表示，然后再学习一个从动作表示到真实动作的映射函数f，即a_t＝f(e_t)。

本发明实施例公开了一种基于潜在动作表示空间的强化学习策略学习方法，具体包括：模型建模、优化目标构建单元、及优化问题求解单元。具体步骤如下：

1.初始化策略函数π(e_t|s_t)

2.对每一条路径进行如下操作：

对每一个时间步骤t＝1，2......，T，进行如下操作：

a.从策略函数中对动作的嵌入表示e_t进行采样：e_t～π(e_t|s_t)

b.计算从动作的嵌入表示到动作的映射：a_t＝f(e_t)

c.执行动作a_t，观察状态转移s_t+1及即时奖赏r_t

d.利用策略梯度算法更新策略函数π

e.利用监督学习更新动作表示到真实动作的映射函数f(e_t)

本发明采用监督学习对动作的表示进行离线学习，可进一步提高学习速度、提高稳定性。通过在动作表示的潜在空间的策略学习，只要所采取动作的特征相似，即使面对不同的任务，也可以在少量学习样本的精调下将学习策略泛化到当前执行任务的动作空间中，极大地提高了策略表达的泛化能力。

附图说明

为了更清楚的说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单介绍，下面描述中的附图仅仅是本发明的实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据提供的附图获得其他的附图。

附图为本发明提供的一种基于潜在动作表示空间的强化学习策略学习方法的结构示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

本发明实施例公开了一种基于潜在动作表示空间的强化学习策略学习方法，具体包括：模型建模、优化目标构建、及优化问题求解。在本发明的实施过程中，将智能体与环境之间的交互过程建模成马尔科夫决策过程(MDP)，它可以用一个元组来表示(S，A，P_T，P_I，r，γ)：其中S表示连续的状态空间，A为连续的动作空间，P_T(s_t+1|s_t，a_t)表示在当前状态s_t下采取动作a_t后转移到下一个状态s_t+1的状态转移概率密度函数，P_I(s₁)为智能体的初始状态概率密度函数，r(s_t，a_t，s_t+1)表示智能体因采取动作而发生状态转移的立即回报，γ∈[0，1]为折损因子。具体过程为：智能体在当前感知的状态s_t下，根据策略函数π_θ选择动作a_t∈A，然后转移到状态s_t+1，并接收到一个立即回报r(s_t，a_t，s_t+1)。策略函数为在当前状态s_t和策略函数下采取动作a_t的概率密度函数。智能体通过与环境的反复交互来收集状态、动作和回报样本，得到一个路径h＝(s₁，a₁，r₁，s₂，a₂，r₂，…，s_T，a_T，r_T)，其中T表示该路径的长度。该路径的累计回报表示为

对于任意策略π，其对应的状态-动作值函数为Q^π(s，a)＝E[R(h)|s，a，π]，状态值函数为V^π(s)＝E[R(h)|s，π]。整个任务最终学习的目标是学习一个最优的策略以最大化期望回报。

本发明以上述的数学模型及目标函数为基础上，引入表示动作的潜在空间，在该空间学习策略，即策略是状态到动作表示的映射：π(e_t|s_t，θ)，这里e_t表示动作a_t在潜在空间的表示，然后再学习一个从动作表示到真实动作的映射函数f，即a_t＝f(e_t)。基于本发明引入的动作潜在空间表示，状态值函数为：

状态值函数的期望为J(θ)＝∑_s∈Sd(s)V^π(s)，其中d(s)表示其实状态为s的概率。本实施过程拟通过策略梯度算法进行策略的优化，策略梯度为

其中Q^π(s，e)＝E[R(h)|s，e，π，f]。

L(f)＝D_KL(p(a_t|s_t，s_t+1)||p^(a_t|s_t，s_t+1))。

采用梯度下降方法，最小化L(f)，从而更新动作表示到真实动作的映射函数f(e_t)。

Claims

1.一种基于潜在动作表示空间的强化学习策略学习方法，其特征在于，引入一个表示动作的潜在空间，在动作的潜在空间学习策略，再把动作表示映射到真实的动作空间；所述策略为状态到动作表示的映射：π(e_t|s_t)，其中e_t表示动作a_t在潜在空间的表示，s_t表示当前状态；所述动作表示映射到真实的动作可表示为映射函数f：a_t＝f(e_t)。

2.根据权利要求1所述的潜在空间中的策略学习，其特征在于在动作的低维表示空间利用策略梯度算法学习策略函数，其中策略学习的目标函数为：J(θ)＝∑_s∈sd(s)V^π(s)，其中d(s)表示其实状态为s的概率，V^π(s)表示状态的值函数。通过策略梯度进行求解时，策略梯度为

其中Q^π(s，e)＝E[R(h)|s，e，π，f]表示动作潜在空间中的状态—动作值函数。

3.根据权利要求1所述的动作表示到真实动作的映射，其特点在于采用监督学习对该映射进行离线学习，可进一步提高学习速度、提高稳定性。其中学习时的目标函数为p(a_t|s_t，s_t+1)与其近似估计p^(a_t|s_t，s_t+1)之间的KL散度，定义为：

L(f)＝D_KL(p(a_t|s_t，s_t+1)||p^(a_t|s_t，s_t+1))。

利用收集的数据(s_t，a_t，s_t+1)，采用梯度下降方法优化目标，从而更新动作表示到真实动作的映射函数f(e_t)。