CN113313265A - 基于带噪声专家示范的强化学习方法 - Google Patents

基于带噪声专家示范的强化学习方法 Download PDF

Info

Publication number
CN113313265A
CN113313265A CN202110624399.0A CN202110624399A CN113313265A CN 113313265 A CN113313265 A CN 113313265A CN 202110624399 A CN202110624399 A CN 202110624399A CN 113313265 A CN113313265 A CN 113313265A
Authority
CN
China
Prior art keywords
expert
state
action
demonstration
environment
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202110624399.0A
Other languages
English (en)
Inventor
黄圣君
宁鲲鹏
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nanjing University of Aeronautics and Astronautics
Original Assignee
Nanjing University of Aeronautics and Astronautics
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nanjing University of Aeronautics and Astronautics filed Critical Nanjing University of Aeronautics and Astronautics
Priority to CN202110624399.0A priority Critical patent/CN113313265A/zh
Publication of CN113313265A publication Critical patent/CN113313265A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Software Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Medical Informatics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Physics & Mathematics (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Artificial Intelligence (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明公开了一种基于带噪声专家示范的强化学习方法。强化学习在各种应用中取得了巨大的成功。为了学习有效的策略,智能体通常需要与环境进行大量的交互次数来获取数据,这会耗费大量的计算成本以及时间开销。为了解决这一挑战,基于示范的强化学习通过利用专家的监督信息能够显著的降低学习的迭代次数。然而,这些方法通常假设专家所提供的专家轨迹是完美的,从而导致学到的模型在实际应用中会被噪声轨迹所误导。本发明通过估计每例示范的潜在价值,在强调更有用的示范的同时过滤掉有噪声的示范,并同时探索环境以及利用专家示范进行策略的学习,有效地学得了鲁棒的智能决策模型。

Description

基于带噪声专家示范的强化学习方法
技术领域
本发明属于强化学习技术领域,具体涉及到利用专家轨迹信息来加速强化学习的相关方法。
背景技术
近几年,强化学习(Reinforcement Leaming,简称RL)作为一种构建智能体进行决策的方法在多个领域上取得了显著的进展。其目标是,然而,强化学习在取得巨大成功的同时,也暴露出了样本利用率低、收敛速度慢等众多问题。为了解决这类问题,一些研究者尝试着使用专家示范来加速强化学习的训练,简称RLED框架。其核心思想是强化学习算法可以通过将各种形式的先验知识整合到学习过程中,从而节省大量的经验。这些方法通常分为两个步骤,首先通过监督学习的方式对专家示范进行模仿学习,接着通过与环境探索进行标注的强化学习。这些方法通常假设专家所提供的示范轨迹是完美的不含噪声的,并且它们的最终目标是从这些示范中获得合适的行为。然而,在大多数实际应用场景中,所提供的示范通常包含严重的噪声甚至误导信息,这会导致之前的方法在带有噪声的专家示范中学习到的策略与真实策略不一致,从而导致其在真实场景的表现很差。
发明内容
发明目的:为了克服现有技术中存在的不足,本发明考虑了一种更为实际的情况,即专家所提供的示范轨迹是包含噪声的,此外本发明还提供了一种基于带噪声专家示范的强化学习算法,
技术方案:为实现上述目的,本发明采用的技术方案为:
基于带噪声专家示范的强化学习方法,包括以下步骤:
步骤1:初始化环境ε,状态空间S,动作空间A,专家轨迹集合∑={σ1,σ2,...,σm};其中,m表示专家轨迹条数;
步骤2:初始化智能体策略πθ,随机初始化网络参数为θ,内存H;
步骤3:让智能体与环境ε进行交互,将交互得到的元组(st-1,at-1,rt,st)存放到内存H中,其中st-1,st∈S分别代表时刻t-1和时刻t的状态,at-1∈A代表时刻t-1的动作,rt表示当前动作可得到的瞬时奖赏;
步骤4:根据当前智能体策略πθ计算每个专家轨迹实例的权重
Figure BDA0003101566780000011
步骤5:根据与环境交互收集到的数据H以及专家所提供的示范进行梯度下降更新网络参数θ。
进一步的,所述步骤1对环境、状态空间、动作空间、专家轨迹集合初始化的具体方法为:
强化学习被形式化为一个马尔可夫决策过程M,即M=(S,A,γ,P,R),其中状态空间S是由状态构成的集合,动作空间A是由动作构成的集合,γ∈[0,1)为折扣因子,P是状态转移函数,R:(S×A)→R是奖赏函数;在每个时刻t,对于状态st∈S,智能体会根据其自身策略πθ执行动作at∈A作用于环境ε,环境会返回当前动作可得到的瞬时奖赏rt∈R以及下一个状态st+1;即环境ε由状态转移函数P以及奖赏函数R构成;
专家轨迹由状态s、动作a、奖赏序列r构成,每条轨迹σi由若干个(状态s,动作a,奖赏序列r)实例构成,即
Figure BDA0003101566780000021
其中
Figure BDA0003101566780000022
代表专家第i条轨迹的第j个动作,
Figure BDA0003101566780000023
代表终止状态;收集m条专家轨迹构成专家示范集合∑={σ1,σ2,...,σm}。
进一步的,所述步骤2初始化内存H,智能体策略πθ以及其网络参数θ的具体方法为:
初始化额外的存储空间H为空集,用来存放每次迭代智能体与环境交互的数据;智能体策略πθ由Actor和Critic两个网络构成,分别来预测当前状态所执行的动作以及当前状态的长远价值;两个网络均使用随机初始化的全连接网络,输入为环境所提供的状态st,输出分别为动作at以及长远价值Vθ(st)。
进一步的,所述步骤3智能体与环境ε交互的具体方法为:
首先,设当前时刻为t,智能体从环境ε获得状态st,并根据智能体策略πθ采样得到动作at~πθ(st);执行动作at,从环境中得到瞬时奖赏rt以及下一个状态st+1;接着,将交互得到的元组(st-1,at-1,rt,st)存放到内存H中,接着根据新的状态st+1反复重复这一过程直到到达终止状态sT。
进一步的,所述步骤4中计算每个专家轨迹实例的权重的具体方法为:
通过估计专家轨迹中的每个实例
Figure BDA0003101566780000024
的价值来有选择性的利用专家示范的信息进行更好的强化学习;对于给定的状态
Figure BDA0003101566780000025
如果专家给出的动作
Figure BDA0003101566780000026
相比于当前的策略能够得到更高的期望奖赏,则表示专家策略优于当前智能体的策略;由此,定义如下的权重形式:
Figure BDA0003101566780000031
其中
Figure BDA0003101566780000032
其中,δ是一个超参数;
Figure BDA0003101566780000033
代表专家计算得到的状态-动作价值函数,估计了在状态
Figure BDA0003101566780000034
下执行动作
Figure BDA0003101566780000035
的长远奖赏回报;
Figure BDA0003101566780000036
是来自策略π的状态价值函数,估计了状态
Figure BDA0003101566780000037
的长远奖赏价值。
进一步的,所述步骤5中更新网络参数的具体方法为:
为了联合训练智能体同步的在探索环境以及模仿专家示范中学习,定义如下的联合目标函数l:
l=ld+λle
其中,ld以及le分别代表模仿示范以及环境探索的损失函数,λ是一个权衡参数;
对于示范学习部分,目标为学得的策略π(·)能够最小化智能体的动作
Figure BDA0003101566780000038
和专家动作
Figure BDA0003101566780000039
的距离,使得智能体能够越来越和专家相似;因此,定义如下带权重的交叉熵损失函数:
Figure BDA00031015667800000310
通过最小化损失函数ld,策略π将会被优化到产生和专家策略一致的动作;与此同时,有负面影响的噪声示范会被权重
Figure BDA00031015667800000311
消除掉;
对于环境探索部分,采用基于信用域的TRPO方法来定义损失函数le如下所示:
Figure BDA00031015667800000312
Figure BDA00031015667800000313
其中,π(a|s)表示状态s下执行动作a的概率,πold是更新前的策略,
Figure BDA00031015667800000314
是一个优势函数的估计器,[]表示期望,KL[]表示KL散度函数,β是新策略和旧策略的最大信用域参数;
最后结合损失函数ld以及le,在次迭代的过程中对网络参数θ进行梯度下降法更新。有益效果:本发明提供的基于带噪声专家示范的强化学习方法,通过动态的估计不同学习阶段下专家示范实例对智能体本身的潜在价值,有助于本方法以一种更为有效以及更为鲁棒地结合环境探索以及专家示范模仿的方式进行策略的学习,从而显著的降低了智能体与环境交互的代价,同时显著地提升了模型学习的效率以及性能。具体来说,本发明定义了基于环境探索以及专家轨迹利用的联合损失来进行策略的学习。一方面,实施策略梯度算法,使期望收益最大化;另一方面,定义了交叉熵损失来最小化智能体动作与示范动作之间的距离,使得模型能够尽快的学到专家示范的监督信息。此外,为了更为有效的利用专家轨迹的信息,给每个专家示范实例赋予一个权重来估计其对智能体的潜在价值。该权重被形式化为由专家计算得到的状态动作价值和由智能体本身估计的状态价值的差值,这个差异可以被看作是一个特定实例的价值函数的预期收益,从而衡量其对策略学习的潜在贡献。换句话来说,本发明一方面通过设置小的权重来过滤掉噪声或误导性的示范,另一方面通过设置大的权重来强调有用的权重。最后,通过对所有示范实例中最小化加权损失函数,专家示范能被充分的利用作为监督信息来帮助智能体进行环境探索。
附图说明
图1是基于带噪声专家示范的强化学习具体工作流程图;
图2是利用带噪声专家示范更新模型的流程图;
图3是通过探索环境更新模型的流程图;
图4是整个基于带噪专家示范的强化学习框架流程图;
具体实施方式
下面结合附图对本发明作更进一步的说明。
如图1所示为基于带噪声专家示范的强化学习具体工作流程图。本方法的整个过程分为两部分,一是通过探索环境进行传统的强化学习,二是通过利用带噪专家示范来更新模型从而加速强化学习进程。首先,初始化环境ε以及待学习的智能体策略πθ。此外,还获得专家所提供的带噪声的示范轨迹集∑={σ1,σ2,...,σm}。一方面,通过估计每个专家示范实例的潜在价值,得到带权重的交叉熵损失,从而最小化该损失来使得智能体有选择性地模仿专家轨迹。另一方面,让智能体探索环境并基于策略梯度的方式来最大化长远奖赏收益。最后,将两者合并成联合损失进行策略优化。随着模型的更新,专家示范的潜在价值能够更为准确得估计,与此同时,合理的利用专家示范能够帮助模型训练的收敛,二者相辅相成。
图2所示为利用带噪声专家示范更新模型的流程图。为解决强化学习算法收敛速度慢、交互次数多等问题,通过模仿专家示范的行为来加速强化学习的过程。但专家所提供的示范里通常不是完美的或包含噪声的,因此希望通过估计专家轨迹中的每个实例
Figure BDA0003101566780000051
的潜在价值来有选择性的利用专家示范的信息进行更好的强化学习。直观地来看,对于给定的状态
Figure BDA0003101566780000052
如果专家给出的动作
Figure BDA0003101566780000053
相比于当前的策略能够得到更高的期望奖赏,这意味着专家策略很可能优于当前智能体的策略,因此这样的示范是应当利用来提升策略网络的性能的。由此,定义如下的权重形式:
Figure BDA0003101566780000054
其中
Figure BDA0003101566780000055
其中δ是一个超参数,例如
Figure BDA0003101566780000056
可以看作是专家计算得到的状态-动作价值函数,它估计了在状态
Figure BDA0003101566780000057
下执行动作
Figure BDA0003101566780000058
的长远奖赏回报。注意到这一项是一个准确值,因为每条轨迹σi是已知的。
Figure BDA0003101566780000059
是来自策略π的状态价值函数,其估计了状态
Figure BDA00031015667800000510
的长远奖赏价值。最终,噪声或误导性的示范通过设置小的权重来过滤掉,更有用的权重通过设置大的权重来强调。最后最小化如下带权重的交叉熵损失来拉近智能体策略与专家策略的距离:
Figure BDA00031015667800000511
显然,通过梯度下降方式对参数θ进行优化,策略π将会被优化到产生和专家策略一致的动作。与此同时,有负面影响的噪声示范会被权重
Figure BDA00031015667800000512
消除掉。
图3所示为通过探索环境更新模型的流程图。环境探索部分,本发明使用标准的强化学习流程来更新模型。具体来说,在每次迭代过程中,智能体会与环境交互得到一系列经验,接着计算带奖赏的最大似然函数并计算其梯度,使用梯度上升的方式来更新模型。核心思想是,如果探索过程中在某一状态下执行某一动作能够得到更高的长远奖赏,那么就应当增加该状态下执行这一动作的概率。随着迭代式的策略更新,智能体在环境中的性能表现也会逐渐收敛。
图4所示为基于带噪声专家示范的强化学习框架流程图。整体来说,环境ε,状态空间S,动作空间A,以及包含m条专家轨迹的集合∑={σ1,σ2,...,σm}均会给出。首先初始化策略πθ并与环境进行交互,在每个迭代过程中,我们使用交互采集得到的经验以及事先给予的专家轨迹进行模型更新,并且我们同时会使用当前的价值网络的价值增益来评估专家轨迹的价值从而帮助智能体能够自适应的模仿专家行为,直到智能体策略的收敛。

Claims (6)

1.基于带噪声专家示范的强化学习方法,其特征在于:包括以下步骤:
步骤1:初始化环境ε,状态空间S,动作空间Α,专家轨迹集合Σ={σ12,…,σm};其中,m表示专家轨迹条数;
步骤2:初始化智能体策略πθ,随机初始化网络参数为θ,内存H;
步骤3:让智能体与环境ε进行交互,将交互得到的元组(st-1,at-1,rt,st)存放到内存H中,其中st-1,st∈S分别代表时刻t-1和时刻t的状态,at-1∈A代表时刻t-1的动作,rt表示当前动作可得到的瞬时奖赏;
步骤4:根据当前智能体策略πθ计算每个专家轨迹实例的权重
Figure FDA0003101566770000011
步骤5:根据与环境交互收集到的数据H以及专家所提供的示范进行梯度下降更新网络参数θ。
2.根据权利要求1所述的基于带噪声专家示范的强化学习方法,其特征在于:所述步骤1对环境、状态空间、动作空间、专家轨迹集合初始化的具体方法为:
强化学习被形式化为一个马尔可夫决策过程M,即M=(S,A,γ,P,R),其中状态空间S是由状态构成的集合,动作空间A是由动作构成的集合,γ∈[0,1)为折扣因子,P是状态转移函数,R:(S×A)→R是奖赏函数;在每个时刻t,对于状态st∈S,智能体会根据其自身策略πθ执行动作at∈A作用于环境ε,环境会返回当前动作可得到的瞬时奖赏rt∈R以及下一个状态st+1;即环境ε由状态转移函数P以及奖赏函数R构成;
专家轨迹由状态s、动作a、奖赏序列r构成,每条轨迹σi由若干个(状态s,动作a,奖赏序列r)实例构成,即
Figure FDA0003101566770000012
其中
Figure FDA0003101566770000013
代表专家第i条轨迹的第j个动作,
Figure FDA0003101566770000014
代表终止状态;收集m条专家轨迹构成专家示范集合Σ={σ12,…,σm}。
3.根据权利要求2所述的基于带噪声专家示范的强化学习方法,其特征在于:所述步骤2初始化内存H,智能体策略πθ以及其网络参数θ的具体方法为:
初始化额外的存储空间H为空集,用来存放每次迭代智能体与环境交互的数据;智能体策略πθ由Actor和Critic两个网络构成,分别来预测当前状态所执行的动作以及当前状态的长远价值;两个网络均使用随机初始化的全连接网络,输入为环境所提供的状态st,输出分别为动作at以及长远价值Vθ(st)。
4.根据权利要求3所述的基于带噪声专家示范的强化学习方法,其特征在于:所述步骤3智能体与环境ε交互的具体方法为:
首先,设当前时刻为t,智能体从环境ε获得状态st,并根据智能体策略πθ采样得到动作at~πθ(st);执行动作at,从环境中得到瞬时奖赏rt以及下一个状态st+1;接着,将交互得到的元组(st-1,at-1,rt,st)存放到内存H中,接着根据新的状态st+1反复重复这一过程直到到达终止状态sT
5.根据权利要求4所述的基于带噪声专家示范的强化学习方法,其特征在于:所述步骤4中计算每个专家轨迹实例的权重的具体方法为:
通过估计专家轨迹中的每个实例
Figure FDA0003101566770000021
的价值来有选择性的利用专家示范的信息进行更好的强化学习;对于给定的状态
Figure FDA0003101566770000022
如果专家给出的动作
Figure FDA0003101566770000023
相比于当前的策略能够得到更高的期望奖赏,则表示专家策略优于当前智能体的策略;由此,定义如下的权重形式:
Figure FDA0003101566770000024
其中
Figure FDA0003101566770000025
其中,δ是一个超参数;
Figure FDA0003101566770000026
代表专家计算得到的状态-动作价值函数,估计了在状态
Figure FDA0003101566770000027
下执行动作
Figure FDA0003101566770000028
的长远奖赏回报;
Figure FDA0003101566770000029
是来自策略π的状态价值函数,估计了状态
Figure FDA00031015667700000210
的长远奖赏价值。
6.根据权利要求5所述的基于带噪声专家示范的强化学习方法,其特征在于:所述步骤5中更新网络参数的具体方法为:
为了联合训练智能体同步的在探索环境以及模仿专家示范中学习,定义如下的联合目标函数l:
l=ld+λle
其中,ld以及le分别代表模仿示范以及环境探索的损失函数,λ是一个权衡参数;
对于示范学习部分,目标为学得的策略π(·)能够最小化智能体的动作
Figure FDA00031015667700000211
和专家动作
Figure FDA00031015667700000212
的距离,使得智能体能够越来越和专家相似;因此,定义如下带权重的交叉熵损失函数:
Figure FDA0003101566770000031
通过最小化损失函数ld,策略π将会被优化到产生和专家策略一致的动作;与此同时,有负面影响的噪声示范会被权重
Figure FDA0003101566770000032
消除掉;
对于环境探索部分,采用基于信用域的TRPO方法来定义损失函数le如下所示:
Figure FDA0003101566770000033
s.t.E[KL[πold(·|s),π(·|s)]]≤β
其中,π(a|s)表示状态s下执行动作a的概率,πold是更新前的策略,
Figure FDA0003101566770000034
是一个优势函数的估计器,[]表示期望,KL[]表示KL散度函数,β是新策略和旧策略的最大信用域参数;
最后结合损失函数ld以及le,在次迭代的过程中对网络参数θ进行梯度下降法更新。
CN202110624399.0A 2021-06-04 2021-06-04 基于带噪声专家示范的强化学习方法 Pending CN113313265A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110624399.0A CN113313265A (zh) 2021-06-04 2021-06-04 基于带噪声专家示范的强化学习方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110624399.0A CN113313265A (zh) 2021-06-04 2021-06-04 基于带噪声专家示范的强化学习方法

Publications (1)

Publication Number Publication Date
CN113313265A true CN113313265A (zh) 2021-08-27

Family

ID=77377627

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110624399.0A Pending CN113313265A (zh) 2021-06-04 2021-06-04 基于带噪声专家示范的强化学习方法

Country Status (1)

Country Link
CN (1) CN113313265A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114986518A (zh) * 2022-07-19 2022-09-02 聊城一明五金科技有限公司 用于汽车拆解生产线的智能控制方法及系统
CN115457781A (zh) * 2022-09-13 2022-12-09 内蒙古工业大学 一种基于多代理深度强化学习的智能交通信号灯控制方法

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114986518A (zh) * 2022-07-19 2022-09-02 聊城一明五金科技有限公司 用于汽车拆解生产线的智能控制方法及系统
CN114986518B (zh) * 2022-07-19 2022-11-04 聊城一明五金科技有限公司 用于汽车拆解生产线的智能控制方法及系统
CN115457781A (zh) * 2022-09-13 2022-12-09 内蒙古工业大学 一种基于多代理深度强化学习的智能交通信号灯控制方法
CN115457781B (zh) * 2022-09-13 2023-07-11 内蒙古工业大学 一种基于多代理深度强化学习的智能交通信号灯控制方法

Similar Documents

Publication Publication Date Title
CN110262511B (zh) 基于深度强化学习的双足机器人自适应性行走控制方法
CN112668235B (zh) 基于离线模型预训练学习的ddpg算法的机器人控制方法
CN108724182B (zh) 基于多类别模仿学习的端到端游戏机器人生成方法及系统
CN109840595B (zh) 一种基于群体学习行为特征的知识追踪方法
CN107730003A (zh) 一种支持多电器类型高精度的nilm实现方法
CN110442129B (zh) 一种多智能体编队的控制方法和系统
CN113313265A (zh) 基于带噪声专家示范的强化学习方法
CN113467515B (zh) 基于虚拟环境模仿重构和强化学习的无人机飞行控制方法
CN111352419B (zh) 基于时序差分更新经验回放缓存的路径规划方法及系统
CN111339675A (zh) 基于机器学习构建模拟环境的智能营销策略的训练方法
CN113570039A (zh) 一种基于强化学习的优化共识的区块链系统
CN114415507B (zh) 基于深度神经网络的灵巧手抓持过程动力学模型搭建及训练方法
CN114290339A (zh) 基于强化学习和残差建模的机器人现实迁移系统和方法
CN113379027A (zh) 一种生成对抗交互模仿学习方法、系统、存储介质及应用
CN113276852A (zh) 一种基于最大熵强化学习框架的无人驾驶车道保持方法
CN116432539A (zh) 一种时间一致性协同制导方法、系统、设备及介质
CN116306947A (zh) 一种基于蒙特卡洛树探索的多智能体决策方法
CN115983320A (zh) 一种基于深度强化学习的联邦学习模型参数量化方法
CN113033653B (zh) 一种边-云协同的深度神经网络模型训练方法
CN112906868A (zh) 一种面向行为克隆的示范主动采样方法
CN114384931A (zh) 一种基于策略梯度的无人机多目标最优控制方法和设备
CN112633495A (zh) 一种用于小样本类增量学习的多粒度快慢学习方法
CN110501903B (zh) 机器人免逆解控制系统参数的自调节及优化方法
CN113469369A (zh) 一种面向多任务强化学习的缓解灾难性遗忘的方法
CN112884129B (zh) 一种基于示教数据的多步规则提取方法、设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination