CN111950691A - 一种基于潜在动作表示空间的强化学习策略学习方法 - Google Patents

一种基于潜在动作表示空间的强化学习策略学习方法 Download PDF

Info

Publication number
CN111950691A
CN111950691A CN201910410199.8A CN201910410199A CN111950691A CN 111950691 A CN111950691 A CN 111950691A CN 201910410199 A CN201910410199 A CN 201910410199A CN 111950691 A CN111950691 A CN 111950691A
Authority
CN
China
Prior art keywords
learning
action
strategy
space
representation
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201910410199.8A
Other languages
English (en)
Inventor
赵婷婷
王雨芯
陈亚瑞
杨巨成
王嫄
任德华
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tianjin University of Science and Technology
Original Assignee
Tianjin University of Science and Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tianjin University of Science and Technology filed Critical Tianjin University of Science and Technology
Priority to CN201910410199.8A priority Critical patent/CN111950691A/zh
Publication of CN111950691A publication Critical patent/CN111950691A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Abstract

样本利用率及学习效率是深度强化学习在实际应用中的一个重要瓶颈问题。面对真实世界,为了快速、准确地得到通用的策略,本发明提出一种基于潜在动作表示空间的强化学习策略学习方法,该方法在动作的潜在空间学习策略,再把动作表示映射到真实的动作空间:所述方法中的策略就是一个从状态到动作表示的映射,可减小策略学习的搜索空间,提高策略学习效率;所述方法中动作的表示可选择成熟的监督学习进行离线学习,可进一步提高学习速度、提高稳定性。此外,只要所采取动作的特征相似,即使面对与训练策略不同的任务,可以使学成的策略在少量学习样本的精调下泛化到当前执行任务的动作空间中,极大地提高了策略表达的泛化能力。

Description

一种基于潜在动作表示空间的强化学习策略学习方法
技术领域
本发明涉及机器学习领域,更具体说是涉及一种基于潜在动作表示空间的强化学习策略学习方法。
背景技术
深度强化学习通过端对端的学习方式实现从输入到输出的直接控制,使强化学习能够扩展到以前难以处理的具有高维状态和动作空间的决策问题,它为整个社会实现真正智能化提供了有力技术支撑,成为当前备受关注的研究热点。迄今为止,深度强化学习已被成功应用到诸多领域:如机器人、游戏、参数优化、视频预测、机器翻译、自动驾驶、智能交通系统、多智能体系统、航空航天系统及数字艺术智能系统等。
深度强化学习能够取得成功的重要前提是大量的学习样本及学习时间。面对视觉型的强化学习任务,为了让模型的感知能力及表达能力达到一定高度需要极为大量的训练样本及时间,如Deepmind团队所提出的在游戏Atari2600上表现最好的Rianbow模型需要1800万帧训练数据或大约83小时的训练时间才能达到一定水平;对于非视觉感知的任务,如模拟机器人MuJoCo,根据任务的不同需要10万以上的学习步数;Deepmind团队提出的学习酷跑的策略,需要64个GPU学习100个小时以上。上述任务是强化学习领域成功的典范,分析其任务本质发现它们具有确定的、静态的环境,其状态主要是静态的、完全可观察的,且比较容易生成训练数据。然而,对于实际应用中的复杂的智能系统来说,收集充分学习样本需要花费大量的时间与金钱,甚至还存在损坏智能系统的风险,如收集机器人在危险环境中执行任务的学习样本可能会造成机械损伤。可见,样本利用率及学习效率是深度强化学习在实际应用中的一个重要瓶颈问题
因此,本发明提出一种基于潜在动作表示空间的强化学习策略学习方法,通过引入潜在动作空间的动作表示来提高深度强化学习中的样本利用率及学习效率。
发明内容
为了快速、准确地得到强化学习中的动作选择策略,通常通过先验知识为特定任务设计小规模策略模型,从而将策略学习控制在小规模的搜索空间。为了高效进行策略学习,同时满足对泛化能力的要求,强化学习领域通常将希望寄托在状态表示这一阶段。面对离散动作空间问题,在状态表示的基础下,可快速得到具有泛化能力的策略;面向连续动作空间问题,采用基于深度网络的状态表示端到端的学习策略,往往需要大量的学习样本及训练时间。
面向大规模的连续动作空间,深度强化学习通常对大规模的深度神经网络进行端到端的训练,从而得到具有泛化能力的策略。然而,在强化学习领域训练大规模的神经网络通常需要大量的学习样本、训练时间,且结果不稳定。在传统强化学习领域,通常根据先验知识为特定任务设计小规模策略模型,从而将策略学习控制在小规模的搜索空间。
利用深度网络表示大规模状态是深度强化学习取得成功的关键。有鉴于此,本发明借助深度强化学习处理大规模状态空间的方法来解决大规模动作空间问题。面对真实世界,为了快速、准确地得到通用的策略,本发明提出一种基于潜在动作表示空间的强化学习策略学习方法,即在动作的潜在空间学习策略,再把动作表示映射到真实的动作空间,如附图所示。通过动作表示可将动作泛化到其他具有类似表示的动作,极大提高的动作选择的泛化性能。具体地,本发明引入一个表示动作的潜在空间,在该空间学习策略,即策略是状态到动作表示的映射:π(et|st),这里et表示动作at在潜在空间的表示,然后再学习一个从动作表示到真实动作的映射函数f,即at=f(et)。
本发明实施例公开了一种基于潜在动作表示空间的强化学习策略学习方法,具体包括:模型建模、优化目标构建单元、及优化问题求解单元。具体步骤如下:
1.初始化策略函数π(et|st)
2.对每一条路径进行如下操作:
对每一个时间步骤t=1,2......,T,进行如下操作:
a.从策略函数中对动作的嵌入表示et进行采样:et~π(et|st)
b.计算从动作的嵌入表示到动作的映射:at=f(et)
c.执行动作at,观察状态转移st+1及即时奖赏rt
d.利用策略梯度算法更新策略函数π
e.利用监督学习更新动作表示到真实动作的映射函数f(et)
本发明采用监督学习对动作的表示进行离线学习,可进一步提高学习速度、提高稳定性。通过在动作表示的潜在空间的策略学习,只要所采取动作的特征相似,即使面对不同的任务,也可以在少量学习样本的精调下将学习策略泛化到当前执行任务的动作空间中,极大地提高了策略表达的泛化能力。
附图说明
为了更清楚的说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单介绍,下面描述中的附图仅仅是本发明的实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据提供的附图获得其他的附图。
附图为本发明提供的一种基于潜在动作表示空间的强化学习策略学习方法的结构示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本发明实施例公开了一种基于潜在动作表示空间的强化学习策略学习方法,具体包括:模型建模、优化目标构建、及优化问题求解。在本发明的实施过程中,将智能体与环境之间的交互过程建模成马尔科夫决策过程(MDP),它可以用一个元组来表示(S,A,PT,PI,r,γ):其中S表示连续的状态空间,A为连续的动作空间,PT(st+1|st,at)表示在当前状态st下采取动作at后转移到下一个状态st+1的状态转移概率密度函数,PI(s1)为智能体的初始状态概率密度函数,r(st,at,st+1)表示智能体因采取动作而发生状态转移的立即回报,γ∈[0,1]为折损因子。具体过程为:智能体在当前感知的状态st下,根据策略函数πθ选择动作at∈A,然后转移到状态st+1,并接收到一个立即回报r(st,at,st+1)。策略函数为在当前状态st和策略函数下采取动作at的概率密度函数。智能体通过与环境的反复交互来收集状态、动作和回报样本,得到一个路径h=(s1,a1,r1,s2,a2,r2,…,sT,aT,rT),其中T表示该路径的长度。该路径的累计回报表示为
Figure BSA0000183255010000053
对于任意策略π,其对应的状态-动作值函数为Qπ(s,a)=E[R(h)|s,a,π],状态值函数为Vπ(s)=E[R(h)|s,π]。整个任务最终学习的目标是学习一个最优的策略以最大化期望回报。
本发明以上述的数学模型及目标函数为基础上,引入表示动作的潜在空间,在该空间学习策略,即策略是状态到动作表示的映射:π(et|st,θ),这里et表示动作at在潜在空间的表示,然后再学习一个从动作表示到真实动作的映射函数f,即at=f(et)。基于本发明引入的动作潜在空间表示,状态值函数为:
Figure BSA0000183255010000051
状态值函数的期望为J(θ)=∑s∈Sd(s)Vπ(s),其中d(s)表示其实状态为s的概率。本实施过程拟通过策略梯度算法进行策略的优化,策略梯度为
Figure BSA0000183255010000052
其中Qπ(s,e)=E[R(h)|s,e,π,f]。
对于动作表示到真实动作的映射函数,本发明采用监督学习对动作的表示进行离线学习,可进一步提高学习速度、提高稳定性。根据收集的数据(st,at,st+1),通过最小化p(at|st,st+1)与其近似估计p^(at|st,st+1)之间的KL散度,其中p(at|st,st+1)为当前状态为st及下一状态为st+1下采取动作at的条件概率密度函数,p^(at|st,st+1)表示上述密度基于动作表示到真实动作的映射函数f的近似估计:p^(at|st,st+1)=∫ef(at|et)p(et|st,st+1)de。两者的KL散度为:
L(f)=DKL(p(at|st,st+1)||p^(at|st,st+1))。
采用梯度下降方法,最小化L(f),从而更新动作表示到真实动作的映射函数f(et)。

Claims (3)

1.一种基于潜在动作表示空间的强化学习策略学习方法,其特征在于,引入一个表示动作的潜在空间,在动作的潜在空间学习策略,再把动作表示映射到真实的动作空间;所述策略为状态到动作表示的映射:π(et|st),其中et表示动作at在潜在空间的表示,st表示当前状态;所述动作表示映射到真实的动作可表示为映射函数f:at=f(et)。
2.根据权利要求1所述的潜在空间中的策略学习,其特征在于在动作的低维表示空间利用策略梯度算法学习策略函数,其中策略学习的目标函数为:J(θ)=∑s∈sd(s)Vπ(s),其中d(s)表示其实状态为s的概率,Vπ(s)表示状态的值函数。通过策略梯度进行求解时,策略梯度为
Figure FSA0000183209000000011
其中Qπ(s,e)=E[R(h)|s,e,π,f]表示动作潜在空间中的状态—动作值函数。
3.根据权利要求1所述的动作表示到真实动作的映射,其特点在于采用监督学习对该映射进行离线学习,可进一步提高学习速度、提高稳定性。其中学习时的目标函数为p(at|st,st+1)与其近似估计p^(at|st,st+1)之间的KL散度,定义为:
L(f)=DKL(p(at|st,st+1)||p^(at|st,st+1))。
利用收集的数据(st,at,st+1),采用梯度下降方法优化目标,从而更新动作表示到真实动作的映射函数f(et)。
CN201910410199.8A 2019-05-15 2019-05-15 一种基于潜在动作表示空间的强化学习策略学习方法 Pending CN111950691A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910410199.8A CN111950691A (zh) 2019-05-15 2019-05-15 一种基于潜在动作表示空间的强化学习策略学习方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910410199.8A CN111950691A (zh) 2019-05-15 2019-05-15 一种基于潜在动作表示空间的强化学习策略学习方法

Publications (1)

Publication Number Publication Date
CN111950691A true CN111950691A (zh) 2020-11-17

Family

ID=73336660

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910410199.8A Pending CN111950691A (zh) 2019-05-15 2019-05-15 一种基于潜在动作表示空间的强化学习策略学习方法

Country Status (1)

Country Link
CN (1) CN111950691A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2023102962A1 (zh) * 2021-12-06 2023-06-15 深圳先进技术研究院 一种训练端到端的自动驾驶策略的方法

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2023102962A1 (zh) * 2021-12-06 2023-06-15 深圳先进技术研究院 一种训练端到端的自动驾驶策略的方法

Similar Documents

Publication Publication Date Title
Mousavi et al. Traffic light control using deep policy‐gradient and value‐function‐based reinforcement learning
CN111241952B (zh) 一种离散制造场景中的强化学习奖励自学习方法
Qiang et al. Reinforcement learning model, algorithms and its application
WO2022012265A1 (en) Robot learning from demonstration via meta-imitation learning
CN112699247A (zh) 一种基于多类交叉熵对比补全编码的知识表示学习框架
CN113821041B (zh) 一种多机器人协同导航与避障的方法
CN110288160A (zh) 一种基于平行仿真的态势动态预测方法
KR20220154785A (ko) 다중 태스크 강화 학습에서 메타-그래디언트를 사용한 액션 선택을 위한 학습 옵션
CN111198550A (zh) 基于案例推理的云端智能生产优化调度在线决策方法及系统
CN116848532A (zh) 具有短期记忆单元的注意力神经网络
CN111950722A (zh) 一种基于环境预测模型的强化学习方法
CN114815882A (zh) 一种基于强化学习的无人飞行器自主编队智能控制方法
CN112434813A (zh) 基于面向属性语言概念格的多重多维语言推理方法
CN113313209A (zh) 一种高样本效率的多智能体强化学习训练方法
CN111950691A (zh) 一种基于潜在动作表示空间的强化学习策略学习方法
CN112700099A (zh) 基于强化学习和运筹学的资源调度规划方法
CN111160170B (zh) 一种自学习的人体行为识别与异常检测方法
CN117252105A (zh) 一种在线类增量连续学习的对比多级回放方法及组件
CN114384931B (zh) 一种基于策略梯度的无人机多目标最优控制方法和设备
CN113821323B (zh) 一种面向混合部署数据中心场景的离线作业任务调度算法
CN114385601B (zh) 基于超算的云边协同高通量海洋数据智能处理方法及系统
CN111950690A (zh) 一种具有自适应能力的高效强化学习策略模型
Torabi et al. DEALIO: Data-efficient adversarial learning for imitation from observation
Byeon Advances in Value-based, Policy-based, and Deep Learning-based Reinforcement Learning
Shi et al. Efficient hierarchical policy network with fuzzy rules

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
WD01 Invention patent application deemed withdrawn after publication
WD01 Invention patent application deemed withdrawn after publication

Application publication date: 20201117