CN111562740B - 基于利用梯度的多目标强化学习算法的自动控制方法 - Google Patents

基于利用梯度的多目标强化学习算法的自动控制方法 Download PDF

Info

Publication number
CN111562740B
CN111562740B CN202010371477.6A CN202010371477A CN111562740B CN 111562740 B CN111562740 B CN 111562740B CN 202010371477 A CN202010371477 A CN 202010371477A CN 111562740 B CN111562740 B CN 111562740B
Authority
CN
China
Prior art keywords
function
evaluated
actor
gradient
target
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202010371477.6A
Other languages
English (en)
Other versions
CN111562740A (zh
Inventor
李克强
王庭晗
罗禹贡
李升波
刘金鑫
王建强
许庆
高博麟
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tsinghua University
Original Assignee
Tsinghua University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tsinghua University filed Critical Tsinghua University
Priority to CN202010371477.6A priority Critical patent/CN111562740B/zh
Publication of CN111562740A publication Critical patent/CN111562740A/zh
Application granted granted Critical
Publication of CN111562740B publication Critical patent/CN111562740B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G05CONTROLLING; REGULATING
    • G05BCONTROL OR REGULATING SYSTEMS IN GENERAL; FUNCTIONAL ELEMENTS OF SUCH SYSTEMS; MONITORING OR TESTING ARRANGEMENTS FOR SUCH SYSTEMS OR ELEMENTS
    • G05B13/00Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion
    • G05B13/02Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion electric
    • G05B13/04Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion electric involving the use of models or simulators
    • G05B13/042Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion electric involving the use of models or simulators in which a parameter or coefficient is automatically adjusted to optimise the performance

Landscapes

  • Engineering & Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Computation (AREA)
  • Medical Informatics (AREA)
  • Software Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Automation & Control Theory (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)
  • Feedback Control In General (AREA)

Abstract

本发明涉及自动控制技术领域,特别涉及一种基于利用梯度的多目标强化学习算法的自动控制方法。本发明利用强化学习算法中已知的梯度信息更新函数参数,相比于单策略多目标强化学习算法,本算法能够求得帕雷托前沿解集,可以在实际控制时根据不同需要选择不同的控制策略;相比于多策略多目标强化学习算法中的凸包法,本算法不依赖于目标回报的线性加权,能够获得前沿解中非凸区域的控制策略;相比于多策略多目标强化学习算法中的多参数法,本算法能够一次性求解所有帕雷托前沿解,算法效率较高;相比于多策略多目标强化学习算法中的结合多目标优化算法的方法,本算法利用了梯度信息,加快了算法的收敛速度。

Description

基于利用梯度的多目标强化学习算法的自动控制方法
技术领域
本发明涉及自动控制技术领域,特别涉及一种基于利用梯度的多目标强化学习算法的自动控制方法。
背景技术
为了解决机器人自动控制这一连续时域决策问题,强化学习是一个有效的工具,而在实际过程中,很多自动控制问题是多目标问题,若仅依靠将多目标转化为单目标的方法,用单目标强化学习算法求解,则难以发现目标和状态之间的正确映射关系、学习到正确的值函数和策略,因此需要采用多目标强化学习。目前多目标强化学习主要分为两大类,一类是单策略方法,另一类是多策略方法。单策略方法仅能获得单一策略,不能获得多个帕雷托前沿策略;而多策略方法可以求得帕雷托前沿策略集,使用时可以根据需求调整策略。多策略方法又分为如下几类:凸包法、变参数法和结合多目标优化算法的强化学习算法,其中,凸包法由于利用了对梯度的加权求和,从而难以获得非凸区域的策略;变参数法则是重复执行但策略方法,算法效率较低;结合多目标优化算法的强化学习算法则未能利用强化学习算法中已知的梯度信息,收敛速度较慢。
发明内容
针对上述技术问题,本发明的目的是提供一种基于利用梯度的多目标强化学习算法的自动控制方法,其目的在于获得帕雷托前沿控制策略集的同时,具有较快的收敛速度。
为了实现上述目的,本发明提供了如下技术方案:
一种基于利用梯度的多目标强化学习算法的自动控制方法,包括如下步骤:
步骤1、构建多目标强化学习问题
根据实际的自动控制场景,构建相应的多目标强化学习问题,确定算法的输入和输出,所述输入为状态,输出为动作,并设计不同输入下的即时回报(确定即时回报和输入之间的函数关系);
步骤2、初始化算法参数
初始化多目标强化学习参数,所述多目标强化学习参数包括折扣因子γ、最大幕数Nepi、最大步数Nstep、待求解集中解的个数N、N个经验回放池D(i)={<s,a,r,s′>},i=1,2,…,N,每个经验回放池的每一个元素为一个四元组,包含当前状态s、当前动作a、即时回报r以及下一时刻状态s′;经验回放池D(i)包含最大数据数ND、训练批量Nbs和目标数M;
初始化近似函数参数,近似函数参数包括N个待评估Critic函数
Figure BDA0002478280790000021
的参数集合
Figure BDA0002478280790000022
学习率lrce;N个待评估Actor函数
Figure BDA0002478280790000023
的参数集合
Figure BDA0002478280790000024
学习率lrae;N个目标Critic函数
Figure BDA0002478280790000025
的参数集合
Figure BDA0002478280790000026
N个目标Actor函数
Figure BDA0002478280790000027
的参数集合
Figure BDA0002478280790000028
其中i=1,2,…,N,待评估Critic函数和目标Critic函数具有相同的函数结构;待评估Actor函数和目标Actor函数具有相同的函数结构;待评估Critic函数和目标Critic函数的输出均为一M维向量,为当前状态s对应的所有目标的Q值;解集
Figure BDA0002478280790000029
梯度更新因子α,目标函数更新因子β;
步骤3、与环境交互
在t时刻,解集S中的待评估Actor函数
Figure BDA0002478280790000031
根据从第i个环境获取的当前状态
Figure BDA0002478280790000032
计算当前动作
Figure BDA0002478280790000033
随后从环境获取即时回报
Figure BDA0002478280790000034
和下一时刻状态
Figure BDA0002478280790000035
步骤4、存储信息
将步骤3获得的四元组
Figure BDA0002478280790000036
存储至经验回放池D(i),若经验回放池D(i)中的数据数大于最大数据数ND,则删去最早的数据,使得经验回放池D(i)中的数据数等于最大数据数ND
步骤5、更新待评估Critic函数参数
随机从经验回放池D(i)中选取Nbs条数据,通过公式1计算待评估Critic函数
Figure BDA0002478280790000037
的损失函数
Figure BDA0002478280790000038
Figure BDA0002478280790000039
其中,‖·‖2为二范数,Nbs为训练批量,
Figure BDA00024782807900000310
为第j条选取的数据,
Figure BDA00024782807900000311
为第i个目标对应的目标Critic函数,
Figure BDA00024782807900000312
为待评估Critic函数,
Figure BDA00024782807900000313
Figure BDA00024782807900000314
中全体参数的集合,γ为折扣因子;
根据梯度下降法更新待评估Critic函数
Figure BDA00024782807900000315
的参数
Figure BDA00024782807900000316
Figure BDA00024782807900000317
式中,
Figure BDA00024782807900000318
为更新后的待评估Critic函数
Figure BDA00024782807900000319
中全体参数的集合,lrce为待评估Critic函数的学习率,
Figure BDA00024782807900000320
为求导符号,
Figure BDA00024782807900000321
为待评估Critic函数
Figure BDA00024782807900000322
的损失函数,
Figure BDA00024782807900000323
为待评估Critic函数,
Figure BDA00024782807900000324
为待评估Critic函数
Figure BDA00024782807900000325
的参数;
步骤6、计算基于最优Q值的待评估Actor函数梯度
通过公式2计算待评估Actor函数
Figure BDA0002478280790000041
的损失函数向量
Figure BDA0002478280790000042
Figure BDA0002478280790000043
式中,
Figure BDA0002478280790000044
为第j条数据中存储的动作,Nbs为训练批量,
Figure BDA0002478280790000045
为待评估Critic函数,
Figure BDA0002478280790000046
为第j条数据中存储的当前状态;
根据梯度上升法计算每一个目标对待评估Actor函数
Figure BDA0002478280790000047
的梯度向量:
Figure BDA0002478280790000048
式中,
Figure BDA0002478280790000049
为求导符号,
Figure BDA00024782807900000410
为待评估Actor函数
Figure BDA00024782807900000411
的损失函数向量,
Figure BDA00024782807900000412
为待评估Actor函数;该式表示待评估Actor函数
Figure BDA00024782807900000413
的损失函数向量
Figure BDA00024782807900000414
对待评估Actor函数
Figure BDA00024782807900000415
的梯度;
步骤7、计算基于Q值最大多样性距离的待评估Actor函数梯度
通过公式3计算待评估Critic函数
Figure BDA00024782807900000416
的输出到其他待评估Critic函数的输出的距离总和
Figure BDA00024782807900000417
Figure BDA00024782807900000418
式中,
Figure BDA00024782807900000419
为当前时刻t采取的动作,Nbs为训练批量,
Figure BDA00024782807900000420
Figure BDA00024782807900000421
为待评估Critic函数,
Figure BDA00024782807900000422
为当前时刻t的状态;
根据梯度上升法求解使该距离总和
Figure BDA00024782807900000423
增大的待评估Actor函数
Figure BDA00024782807900000424
的最大梯度方向:
Figure BDA00024782807900000425
式中,
Figure BDA00024782807900000426
为求导符号,
Figure BDA00024782807900000427
为待评估Actor函数,
Figure BDA00024782807900000428
为待评估Critic函数
Figure BDA0002478280790000051
的输出到其他待评估Critic函数的输出的距离总和;该式表示待评估Critic函数
Figure BDA0002478280790000052
的输出到其他待评估Critic函数的输出的距离总和
Figure BDA0002478280790000053
对待评估Actor函数
Figure BDA0002478280790000054
的梯度;
步骤8、更新待评估Actor函数参数
若每一个目标对待评估Actor函数
Figure BDA0002478280790000055
通过步骤6计算出的梯度符号相同,则基于最优Q值的待评估Actor函数
Figure BDA0002478280790000056
的参数
Figure BDA0002478280790000057
梯度
Figure BDA0002478280790000058
为:
Figure BDA0002478280790000059
其中,M为目标数,
Figure BDA00024782807900000510
为第j个目标对待评估Actor函数
Figure BDA00024782807900000511
的梯度,
Figure BDA00024782807900000512
为待评估Actor函数
Figure BDA00024782807900000513
对自身全体参数
Figure BDA00024782807900000514
的梯度;
否则,
Figure BDA00024782807900000515
基于Q值最大多样性距离的待评估Actor函数
Figure BDA00024782807900000516
的参数
Figure BDA00024782807900000517
梯度
Figure BDA00024782807900000518
为:
Figure BDA00024782807900000519
式中,
Figure BDA00024782807900000520
为待评估Critic函数
Figure BDA00024782807900000521
的输出到其他待评估Critic函数的输出的距离总和
Figure BDA00024782807900000522
对待评估Actor函数
Figure BDA00024782807900000523
的梯度,
Figure BDA00024782807900000524
为待评估Actor函数
Figure BDA00024782807900000525
对自身全体参数
Figure BDA00024782807900000526
的梯度;
根据基于最优Q值的待评估Actor函数
Figure BDA00024782807900000527
的参数
Figure BDA00024782807900000528
梯度
Figure BDA00024782807900000529
和基于Q值最大多样性距离的待评估Actor函数
Figure BDA00024782807900000530
的参数
Figure BDA00024782807900000531
梯度
Figure BDA00024782807900000532
通过公式4更新待评估Actor函数
Figure BDA00024782807900000533
的参数
Figure BDA00024782807900000534
Figure BDA0002478280790000061
式中,
Figure BDA0002478280790000062
为更新后的待评估Actor函数
Figure BDA0002478280790000063
的参数,lrae为待评估Actor函数的学习率,α为梯度更新因子,
Figure BDA0002478280790000064
为待评估Actor函数,
Figure BDA0002478280790000065
为待评估Actor函数
Figure BDA0002478280790000066
的参数;
步骤9、判断解的帕雷托占优关系
判断解集的每一个解
Figure BDA0002478280790000067
中的待评估Critic函数在当前时刻的输出
Figure BDA0002478280790000068
是否被其他解中的待评估Critic函数占优,若是,则从解集S中删去该解;
步骤10、生成新的解
随机生成四元组
Figure BDA0002478280790000069
补充至解集S中,直到解集S中元素的数量达到N;
步骤11、更新目标函数参数
通过公式5更新目标Critic函数
Figure BDA00024782807900000610
的参数
Figure BDA00024782807900000611
通过公式6更新目标Actor函数
Figure BDA00024782807900000612
的参数
Figure BDA00024782807900000613
Figure BDA00024782807900000614
Figure BDA00024782807900000615
式中,
Figure BDA00024782807900000616
为更新后的目标Critic函数
Figure BDA00024782807900000617
的参数,β为目标函数更新因子,
Figure BDA00024782807900000618
为更新后的待评估Critic函数
Figure BDA00024782807900000619
的参数,
Figure BDA00024782807900000620
为目标Critic函数
Figure BDA00024782807900000621
的参数,
Figure BDA00024782807900000622
为更新后的目标Actor函数
Figure BDA00024782807900000623
的参数,
Figure BDA00024782807900000624
为更新后的待评估Actor函数
Figure BDA00024782807900000625
的参数,
Figure BDA00024782807900000626
为目标Actor函数
Figure BDA00024782807900000627
的参数;
步骤12、若解集S中无解被删去且更新后的函数参数与更新前的函数参数相同,则停止循环,否则回到步骤3;算法停止循环后,得到的解集S中,N个待评估Actor函数
Figure BDA00024782807900000628
即为N个帕雷托前沿自动控制策略,根据实际需求从中选择一个进行目标场景的自动控制。
与现有技术相比,本发明的有益效果在于:
本发明利用强化学习算法中已知的梯度信息更新函数参数,相比于单策略多目标强化学习算法,本算法能够求得帕雷托前沿解集,可以在实际控制时根据不同需要选择不同的控制策略;相比于多策略多目标强化学习算法中的凸包法,本算法不依赖于目标回报的线性加权,能够获得前沿解中非凸区域的控制策略;相比于多策略多目标强化学习算法中的多参数法,本算法能够一次性求解所有帕雷托前沿解,算法效率较高;相比于多策略多目标强化学习算法中的结合多目标优化算法的方法,本算法利用了梯度信息,加快了算法的收敛速度。
附图说明
图1为本发明基于利用梯度的多目标强化学习算法的自动控制方法的流程框图。
具体实施方式
如图1所示,本发明的一种基于利用梯度的多目标强化学习算法的自动控制方法,该方法包括如下步骤:
(说明:本发明中字体加粗符号表示向量)
步骤1、构建多目标强化学习问题
根据实际的自动控制场景,构建相应的多目标强化学习问题,确定算法的输入和输出,所述输入为状态,输出为动作,并设计不同输入下的即时回报。
步骤2、初始化算法参数
初始化多目标强化学习参数,所述多目标强化学习参数包括折扣因子γ、最大幕数Nepi、最大步数Nstep、待求解集中解的个数N、N个经验回放池D(i)={<s,a,r,s′>},i=1,2,…,N,每个经验回放池的每一个元素为一个四元组,包含当前状态s、当前动作a、即时回报r以及下一时刻状态s′;经验回放池D(i)包含最大数据数ND、训练批量Nbs和目标数M。
初始化近似函数参数,近似函数参数包括N个待评估Critic函数
Figure BDA0002478280790000081
的参数集合
Figure BDA0002478280790000082
学习率lrce;N个待评估Actor函数
Figure BDA0002478280790000083
的参数集合
Figure BDA0002478280790000084
学习率lrae;N个目标Critic函数
Figure BDA0002478280790000085
的参数集合
Figure BDA0002478280790000086
N个目标Actor函数
Figure BDA0002478280790000087
的参数集合
Figure BDA0002478280790000088
其中i=1,2,…,N,待评估Critic函数和目标Critic函数具有相同的函数结构;待评估Actor函数和目标Actor函数具有相同的函数结构;待评估Critic函数和目标Critic函数的输出均为一M维向量,为当前状态s对应的所有目标的Q值;解集
Figure BDA0002478280790000089
梯度更新因子α,目标函数更新因子β。
步骤3、与环境交互
在t时刻,解集S中的待评估Actor函数
Figure BDA00024782807900000810
根据从第i个环境获取的当前状态
Figure BDA00024782807900000811
计算当前动作
Figure BDA00024782807900000812
随后从环境获取即时回报
Figure BDA00024782807900000813
和下一时刻状态
Figure BDA00024782807900000814
步骤4、存储信息
将步骤3获得的四元组
Figure BDA00024782807900000815
存储至经验回放池D(i),若经验回放池D(i)中的数据数大于最大数据数ND,则删去最早的数据,使得经验回放池D(i)中的数据数等于最大数据数ND
步骤5、更新待评估Critic函数参数
随机从经验回放池D(i)中选取Nbs条数据,通过公式1计算待评估Critic函数
Figure BDA00024782807900000816
的损失函数
Figure BDA00024782807900000817
Figure BDA0002478280790000091
其中,‖·‖2为二范数,Nbs为训练批量,
Figure BDA0002478280790000092
为第j条选取的数据,
Figure BDA0002478280790000093
为第i个目标对应的目标Critic函数,
Figure BDA0002478280790000094
为待评估Critic函数,
Figure BDA0002478280790000095
Figure BDA0002478280790000096
中全体参数的集合,γ为折扣因子。
根据梯度下降法更新待评估Critic函数
Figure BDA0002478280790000097
的参数
Figure BDA0002478280790000098
Figure BDA0002478280790000099
式中,
Figure BDA00024782807900000910
为更新后的待评估Critic函数
Figure BDA00024782807900000911
中全体参数的集合,lrce为待评估Critic函数的学习率,
Figure BDA00024782807900000912
为求导符号,
Figure BDA00024782807900000913
为待评估Critic函数
Figure BDA00024782807900000914
的损失函数,
Figure BDA00024782807900000915
为待评估Critic函数,
Figure BDA00024782807900000916
为待评估Critic函数
Figure BDA00024782807900000917
的参数。
步骤6、计算基于最优Q值的待评估Actor函数梯度
通过公式2计算待评估Actor函数
Figure BDA00024782807900000918
的损失函数向量
Figure BDA00024782807900000919
Figure BDA00024782807900000920
式中,
Figure BDA00024782807900000921
为第j条数据中存储的动作,Nbs为训练批量,
Figure BDA00024782807900000922
为待评估Critic函数,
Figure BDA00024782807900000923
为第j条数据中存储的当前状态。
根据梯度上升法计算每一个目标对待评估Actor函数
Figure BDA00024782807900000924
的梯度向量:
Figure BDA00024782807900000925
式中,
Figure BDA00024782807900000926
为求导符号,
Figure BDA00024782807900000927
为待评估Actor函数
Figure BDA00024782807900000928
的损失函数向量,
Figure BDA00024782807900000929
为待评估Actor函数。该式表示待评估Actor函数
Figure BDA00024782807900000930
的损失函数向量
Figure BDA0002478280790000101
对待评估Actor函数
Figure BDA0002478280790000102
的梯度。
步骤7、计算基于Q值最大多样性距离的待评估Actor函数梯度
通过公式3计算待评估Critic函数
Figure BDA0002478280790000103
的输出到其他待评估Critic函数的输出的距离总和
Figure BDA0002478280790000104
Figure BDA0002478280790000105
式中,
Figure BDA0002478280790000106
为当前时刻t采取的动作,Nbs为训练批量,
Figure BDA0002478280790000107
Figure BDA0002478280790000108
为待评估Critic函数,
Figure BDA0002478280790000109
为当前时刻t的状态。
根据梯度上升法求解使该距离总和
Figure BDA00024782807900001010
增大的待评估Actor函数
Figure BDA00024782807900001011
的最大梯度方向:
Figure BDA00024782807900001012
式中,
Figure BDA00024782807900001013
为求导符号,
Figure BDA00024782807900001014
为待评估Actor函数,
Figure BDA00024782807900001015
为待评估Critic函数
Figure BDA00024782807900001016
的输出到其他待评估Critic函数的输出的距离总和。该式表示待评估Critic函数
Figure BDA00024782807900001017
的输出到其他待评估Critic函数的输出的距离总和
Figure BDA00024782807900001018
对待评估Actor函数
Figure BDA00024782807900001019
的梯度。
步骤8、更新待评估Actor函数参数
若每一个目标对待评估Actor函数
Figure BDA00024782807900001020
通过步骤6计算出的梯度符号相同,则基于最优Q值的待评估Actor函数
Figure BDA00024782807900001021
的参数
Figure BDA00024782807900001022
梯度
Figure BDA00024782807900001023
为:
Figure BDA00024782807900001024
其中,M为目标数,
Figure BDA00024782807900001025
为第j个目标对待评估Actor函数
Figure BDA00024782807900001026
的梯度,
Figure BDA00024782807900001027
为待评估Actor函数
Figure BDA00024782807900001028
对自身全体参数
Figure BDA00024782807900001029
的梯度。
否则,
Figure BDA0002478280790000111
基于Q值最大多样性距离的待评估Actor函数
Figure BDA0002478280790000112
的参数
Figure BDA0002478280790000113
梯度
Figure BDA0002478280790000114
为:
Figure BDA0002478280790000115
式中,
Figure BDA0002478280790000116
为待评估Critic函数
Figure BDA0002478280790000117
的输出到其他待评估Critic函数的输出的距离总和
Figure BDA0002478280790000118
对待评估Actor函数
Figure BDA0002478280790000119
的梯度,
Figure BDA00024782807900001110
为待评估Actor函数
Figure BDA00024782807900001111
对自身全体参数
Figure BDA00024782807900001112
的梯度。
根据基于最优Q值的待评估Actor函数
Figure BDA00024782807900001113
的参数
Figure BDA00024782807900001114
梯度
Figure BDA00024782807900001115
和基于Q值最大多样性距离的待评估Actor函数
Figure BDA00024782807900001116
的参数
Figure BDA00024782807900001117
梯度
Figure BDA00024782807900001118
通过公式4更新待评估Actor函数
Figure BDA00024782807900001119
的参数
Figure BDA00024782807900001120
Figure BDA00024782807900001121
式中,
Figure BDA00024782807900001122
为更新后的待评估Actor函数
Figure BDA00024782807900001123
的参数,lrae为待评估Actor函数的学习率,α为梯度更新因子,
Figure BDA00024782807900001124
为待评估Actor函数,
Figure BDA00024782807900001125
为待评估Actor函数
Figure BDA00024782807900001126
的参数。
步骤9、判断解的帕雷托占优关系
判断解集的每一个解
Figure BDA00024782807900001127
中的待评估Critic函数在当前时刻的输出
Figure BDA00024782807900001128
是否被其他解中的待评估Critic函数占优,若是,则从解集S中删去该解。
步骤10、生成新的解
随机生成四元组
Figure BDA00024782807900001129
补充至解集S中,直到解集S中元素的数量达到N。
步骤11、更新目标函数参数
通过公式5更新目标Critic函数
Figure BDA0002478280790000121
的参数
Figure BDA0002478280790000122
通过公式6更新目标Actor函数
Figure BDA0002478280790000123
的参数
Figure BDA0002478280790000124
Figure BDA0002478280790000125
Figure BDA0002478280790000126
式中,
Figure BDA0002478280790000127
为更新后的目标Critic函数
Figure BDA0002478280790000128
的参数,β为目标函数更新因子,
Figure BDA0002478280790000129
为更新后的待评估Critic函数
Figure BDA00024782807900001210
的参数,
Figure BDA00024782807900001211
为目标Critic函数
Figure BDA00024782807900001212
的参数,
Figure BDA00024782807900001213
为更新后的目标Actor函数
Figure BDA00024782807900001214
的参数,
Figure BDA00024782807900001215
为更新后的待评估Actor函数
Figure BDA00024782807900001216
的参数,
Figure BDA00024782807900001217
为目标Actor函数
Figure BDA00024782807900001218
的参数。
步骤12、若解集S中无解被删去且更新后的函数参数与更新前的函数参数相同,则停止循环,否则回到步骤3;算法停止循环后,得到的解集S中,N个待评估Actor函数
Figure BDA00024782807900001219
即为N个帕雷托前沿自动控制策略,可根据实际需求从中选择一个进行目标场景的自动控制。
实施例
本发明的一种基于利用梯度多目标强化学习方法的自动控制方法,可应用于无人车、机器人、无人机等的自动控制。在实施例中,以自动驾驶中的端到端自适应巡航应用技术为例,采用深度神经网络模型和强化学习模型相结合的方法,进一步对本发明进行进一步说明。
该方法的实施包括如下步骤:
步骤1、构建多目标强化学习问题
由于目标为通过端到端自动控制方法实现车辆的自适应巡航功能,因此在本实施例中,确定算法的输入(即状态)为车载摄像头拍摄的前方道路图像和车速,算法的输出(即动作)为油门踏板开度和刹车踏板开度,需要考虑的目标包括车辆是否能和前车保持合理的距离以及能耗尽量降低。在不同的问题中可以根据实际需要自行定义输入、输出和目标。
步骤2、初始化算法参数
以前方道路图像和车速作为算法输入,油门踏板开度和刹车踏板开度为输出。
初始化多目标强化学习参数,包括折扣因子γ,最大幕数Nepi,最大步数Nstep,待求解集中解的个数为N,N个经验回放池D(i)={<s,a,r,s′>},i=1,2,…,N,经验回放池D(i)包含最大数据数ND、训练批量Nbs和目标数M。
采用神经网络对Actor函数和Critic函数进行拟合,故初始化神经网络参数,包括N个待评估Critic网络
Figure BDA0002478280790000131
的参数集合
Figure BDA0002478280790000132
学习率lrce;N个待评估Actor网络
Figure BDA0002478280790000133
的参数集合
Figure BDA0002478280790000134
学习率lrae,待评估Actor网络即为车辆的控制策略,其以前方道路图像和车速为输入,以油门踏板开度和刹车踏板开度为输出;N个目标Critic网络
Figure BDA0002478280790000135
的参数集合
Figure BDA0002478280790000136
N个目标Actor网络
Figure BDA0002478280790000137
的参数集合
Figure BDA0002478280790000138
其中i=1,2,…,N,待评估Critic网络和目标Critic网络具有相同的网络结构;待评估Actor网络和目标Actor网络具有相同的网络结构,待评估Critic网络和目标Critic网络的输出均为一M维向量,为当前状态对应的所有目标的Q值;解集
Figure BDA0002478280790000139
梯度更新因子α,目标网络更新因子β。
步骤3、与环境交互
在t时刻,解集S中的待评估Actor网络
Figure BDA00024782807900001310
根据从第i个环境获取的当前前方道路图像以及车速,构成状态
Figure BDA00024782807900001311
计算油门踏板开度和刹车踏板开度构成当前动作
Figure BDA00024782807900001312
随后从环境获取即时回报
Figure BDA00024782807900001313
和下一时刻的图像与速度
Figure BDA00024782807900001314
即时回报为二维向量,分别描述车辆的跟踪性能和能耗,若跟踪误差越小、瞬时能耗越低,则回报越高。
步骤4、存储信息
将步骤3获得的四元组
Figure BDA0002478280790000141
即当前前方道路图像和车速、当前油门踏板开度和刹车踏板开度、考虑跟踪性能和能耗的即时回报以及下一时刻前方道路图像和车速,存储至经验回放池D(i),若经验回放池D(i)中的数据数大于ND,则删去最早的数据,使得经验回放池D(i)中的数据数等于最大数据数ND
步骤5、更新待评估Critic网络参数;
随机从经验回放池D(i)中选取Nbs条数据,通过公式1计算待评估Critic网络
Figure BDA0002478280790000142
的损失函数
Figure BDA0002478280790000143
Figure BDA0002478280790000144
其中,‖·‖2为二范数,Nbs为训练批量,
Figure BDA0002478280790000145
为第j条选取的数据,
Figure BDA0002478280790000146
为第i个目标对应的目标Critic网络,
Figure BDA0002478280790000147
Figure BDA0002478280790000148
中全体参数的集合,γ为折扣因子。
根据梯度下降法更新待评估Critic网络
Figure BDA0002478280790000149
的参数
Figure BDA00024782807900001410
Figure BDA00024782807900001411
式中,
Figure BDA00024782807900001412
为更新后的待评估Critic网络
Figure BDA00024782807900001413
中全体参数的集合,lrce为待评估Critic网络的学习率,
Figure BDA00024782807900001414
为求导符号,
Figure BDA00024782807900001415
为待评估Critic网络
Figure BDA00024782807900001416
的损失函数。
步骤6、计算基于最优Q值的待评估Actor网络梯度
通过公式2计算待评估Actor网络
Figure BDA00024782807900001417
的损失网络
Figure BDA00024782807900001418
Figure BDA00024782807900001419
式中,
Figure BDA0002478280790000151
为第j条数据中存储的动作,即油门踏板开度和刹车踏板开度,Nbs为训练批量,
Figure BDA0002478280790000152
为待评估Critic网络,
Figure BDA0002478280790000153
为第j条数据中存储的当前状态,即前方道路图像和车速。
根据梯度上升法计算每一个目标对待评估Actor网络
Figure BDA0002478280790000154
的梯度
Figure BDA0002478280790000155
式中,
Figure BDA0002478280790000156
为求导符号,
Figure BDA0002478280790000157
为待评估Actor网络
Figure BDA0002478280790000158
的损失函数向量,该式表示待评估Actor网络
Figure BDA0002478280790000159
的损失函数向量
Figure BDA00024782807900001510
对待评估Actor网络
Figure BDA00024782807900001511
的梯度。
步骤7、计算基于Q值最大多样性距离的待评估Actor网络梯度
根据公式3计算待评估Critic网络
Figure BDA00024782807900001512
的输出到其他待评估Critic网络的输出的距离总和
Figure BDA00024782807900001513
Figure BDA00024782807900001514
式中,
Figure BDA00024782807900001515
为当前时刻t采取的动作,即即油门踏板开度和刹车踏板开度,Nbs为训练批量,
Figure BDA00024782807900001516
Figure BDA00024782807900001517
为待评估Critic函数,
Figure BDA00024782807900001518
为当前时刻t的状态,即前方道路图像和车速。
根据梯度上升法求解使该距离增大的待评估Actor网络
Figure BDA00024782807900001519
的最大梯度方向
Figure BDA00024782807900001520
式中,
Figure BDA00024782807900001521
为求导符号,该式表示待评估Critic函数
Figure BDA00024782807900001522
的输出到其他待评估Critic函数的输出的距离总和
Figure BDA00024782807900001523
对待评估Actor函数
Figure BDA00024782807900001524
的梯度。
步骤8、更新待评估Actor网络参数
若每一个目标对待评估Actor网络
Figure BDA0002478280790000161
通过步骤6计算出的梯度符号相同,则基于最优Q值的待评估Actor网络
Figure BDA0002478280790000162
的参数
Figure BDA0002478280790000163
梯度
Figure BDA0002478280790000164
为:
Figure BDA0002478280790000165
其中,M为目标数,
Figure BDA0002478280790000166
为第j个目标对待评估Actor网络
Figure BDA0002478280790000167
的梯度,
Figure BDA0002478280790000168
为待评估Actor网络
Figure BDA0002478280790000169
对自身全体参数
Figure BDA00024782807900001610
的梯度。
否则,
Figure BDA00024782807900001611
基于Q值网络最大距离的待评估Actor网络
Figure BDA00024782807900001612
的参数
Figure BDA00024782807900001613
梯度为:
Figure BDA00024782807900001614
式中,
Figure BDA00024782807900001615
为待评估Critic网络
Figure BDA00024782807900001616
的输出到其他待评估Critic网络的输出的距离总和
Figure BDA00024782807900001617
对待评估Actor网络
Figure BDA00024782807900001618
的梯度,
Figure BDA00024782807900001619
为待评估Actor网络
Figure BDA00024782807900001620
对自身全体参数
Figure BDA00024782807900001621
的梯度。
通过公式4更新待评估Actor网络
Figure BDA00024782807900001622
的参数
Figure BDA00024782807900001623
Figure BDA00024782807900001624
式中,
Figure BDA00024782807900001625
为更新后的待评估Actor网络
Figure BDA00024782807900001626
的参数,lrae为待评估Actor网络的学习率,α为梯度更新因子。更新后,即可获得新的驾驶策略。
步骤9、判断解的帕雷托占优关系
判断解集的每一个解
Figure BDA00024782807900001627
中的待评估Critic网络在当前时刻的输出
Figure BDA00024782807900001628
是否被其他解中的待评估Critic网络占优,若是,则表示该解一定不是帕雷托前沿驾驶策略,故从解集S中删去该解。
步骤10、生成新的解;
随机生成四元组
Figure BDA0002478280790000171
补充至解集S中,直到解集S中元素的数量达到N。
步骤11、更新目标网络参数;
根据公式5更新目标Critic网络
Figure BDA0002478280790000172
的参数
Figure BDA0002478280790000173
根据公式6更新目标Actor网络
Figure BDA0002478280790000174
的参数
Figure BDA0002478280790000175
Figure BDA0002478280790000176
Figure BDA0002478280790000177
式中,
Figure BDA0002478280790000178
为更新后的目标Critic网络
Figure BDA0002478280790000179
参数,β为目标函数更新因子,
Figure BDA00024782807900001710
为更新后的待评估Critic网络
Figure BDA00024782807900001711
参数,
Figure BDA00024782807900001712
为更新后的目标Actor网络
Figure BDA00024782807900001713
参数,
Figure BDA00024782807900001714
为更新后的待评估Actor网络
Figure BDA00024782807900001715
参数。
12.判断训练是否终止。
若解集S中无解被删去且更新后的网络参数与更新前的网络参数相同,则停止循环,否则回到步骤3;算法停止循环后,所得解集S中的N个待评估Actor网络
Figure BDA00024782807900001716
即为N个帕雷托前沿驾驶策略,可根据实际控制对各个目标的不同偏好,选择相应的控制策略,以摄像头采集的前方道路图片和车速为输入,以油门踏板开度和刹车踏板开度为输出,进行端到端自动驾驶。

Claims (1)

1.一种基于利用梯度的多目标强化学习算法的自动控制方法,其特征在于:该方法包括如下步骤:
步骤1、构建多目标强化学习问题
根据实际的自动控制场景,构建相应的多目标强化学习问题,确定算法的输入和输出,所述输入为状态,输出为动作,并设计不同输入下的即时回报;
步骤2、初始化算法参数
初始化多目标强化学习参数,所述多目标强化学习参数包括折扣因子γ、最大幕数Nepi、最大步数Nstep、待求解集中解的个数N、N个经验回放池D(i)={<s,a,r,s′>},i=1,2,...,N,每个经验回放池的每一个元素为一个四元组,包含当前状态s、当前动作a、即时回报r以及下一时刻状态s′;经验回放池D(i)包含最大数据数ND、训练批量Nbs和目标数M;
初始化近似函数参数,近似函数参数包括N个待评估Critic函数
Figure FDA0002955960410000011
的参数集合
Figure FDA0002955960410000012
学习率lrce;N个待评估Actor函数
Figure FDA0002955960410000013
的参数集合
Figure FDA0002955960410000014
学习率lrae;N个目标Critic函数
Figure FDA0002955960410000015
的参数集合
Figure FDA0002955960410000016
N个目标Actor函数
Figure FDA0002955960410000017
的参数集合
Figure FDA0002955960410000018
其中i=1,2,...,N,待评估Critic函数和目标Critic函数具有相同的函数结构;待评估Actor函数和目标Actor函数具有相同的函数结构;待评估Critic函数和目标Critic函数的输出均为一M维向量,为当前状态s对应的所有目标的Q值;解集
Figure FDA0002955960410000019
Figure FDA00029559604100000110
梯度更新因子α,目标函数更新因子β;
步骤3、与环境交互
在t时刻,解集S中的待评估Actor函数
Figure FDA0002955960410000021
根据从第i个环境获取的当前状态
Figure FDA0002955960410000022
计算当前动作
Figure FDA0002955960410000023
随后从环境获取即时回报
Figure FDA0002955960410000024
和下一时刻状态
Figure FDA0002955960410000025
步骤4、存储信息
将步骤3获得的四元组
Figure FDA0002955960410000026
存储至经验回放池D(i),若经验回放池D(i)中的数据数大于最大数据数ND,则删去最早的数据,使得经验回放池D(i)中的数据数等于最大数据数ND
步骤5、更新待评估Critic函数参数
随机从经验回放池D(i)中选取Nbs条数据,通过公式1计算待评估Critic函数
Figure FDA0002955960410000027
的损失函数
Figure FDA0002955960410000028
Figure FDA0002955960410000029
其中,||·||2为二范数,Nbs为训练批量,
Figure FDA00029559604100000210
为第j条选取的数据,
Figure FDA00029559604100000211
为第i个目标对应的目标Critic函数,
Figure FDA00029559604100000212
为待评估Critic函数,
Figure FDA00029559604100000213
Figure FDA00029559604100000214
中全体参数的集合,γ为折扣因子;
根据梯度下降法更新待评估Critic函数
Figure FDA00029559604100000215
的参数
Figure FDA00029559604100000216
Figure FDA00029559604100000217
式中,
Figure FDA00029559604100000218
为更新后的待评估Critic函数
Figure FDA00029559604100000219
中全体参数的集合,lrce为待评估Critic函数的学习率,
Figure FDA00029559604100000220
为求导符号,
Figure FDA00029559604100000221
为待评估Critic函数
Figure FDA00029559604100000222
的损失函数,
Figure FDA00029559604100000223
为待评估Critic函数,
Figure FDA00029559604100000224
为待评估Critic函数
Figure FDA00029559604100000225
的参数;
步骤6、计算基于最优Q值的待评估Actor函数梯度
通过公式2计算待评估Actor函数
Figure FDA0002955960410000031
的损失函数向量
Figure FDA0002955960410000032
Figure FDA0002955960410000033
式中,
Figure FDA0002955960410000034
为第j条数据中存储的动作,Nbs为训练批量,
Figure FDA0002955960410000035
为待评估Critic函数,
Figure FDA0002955960410000036
为第j条数据中存储的当前状态;
根据梯度上升法计算每一个目标对待评估Actor函数
Figure FDA0002955960410000037
的梯度向量:
Figure FDA0002955960410000038
式中,
Figure FDA0002955960410000039
为求导符号,
Figure FDA00029559604100000310
为待评估Actor函数
Figure FDA00029559604100000311
的损失函数向量,
Figure FDA00029559604100000312
为待评估Actor函数;
Figure FDA00029559604100000313
表示待评估Actor函数
Figure FDA00029559604100000314
的损失函数向量
Figure FDA00029559604100000315
对待评估Actor函数
Figure FDA00029559604100000316
的梯度;
步骤7、计算基于Q值最大多样性距离的待评估Actor函数梯度
通过公式3计算待评估Critic函数
Figure FDA00029559604100000317
的输出到其他待评估Critic函数的输出的距离总和
Figure FDA00029559604100000318
Figure FDA00029559604100000319
式中,
Figure FDA00029559604100000320
为当前时刻t采取的动作,Nbs为训练批量,
Figure FDA00029559604100000321
Figure FDA00029559604100000322
为待评估Critic函数,
Figure FDA00029559604100000323
为当前时刻t的状态;
根据梯度上升法求解使该距离总和
Figure FDA00029559604100000324
增大的待评估Actor函数
Figure FDA00029559604100000325
的最大梯度方向:
Figure FDA00029559604100000326
式中,
Figure FDA00029559604100000327
为求导符号,
Figure FDA00029559604100000328
为待评估Actor函数,
Figure FDA00029559604100000329
为待评估Critic函数
Figure FDA00029559604100000330
的输出到其他待评估Critic函数的输出的距离总和;
Figure FDA00029559604100000331
表示待评估Critic函数
Figure FDA0002955960410000041
的输出到其他待评估Critic函数的输出的距离总和
Figure FDA0002955960410000042
对待评估Actor函数
Figure FDA0002955960410000043
的梯度;
步骤8、更新待评估Actor函数参数
若每一个目标对待评估Actor函数
Figure FDA0002955960410000044
通过步骤6计算出的梯度符号相同,则基于最优Q值的待评估Actor函数
Figure FDA0002955960410000045
的参数
Figure FDA0002955960410000046
梯度
Figure FDA0002955960410000047
为:
Figure FDA0002955960410000048
其中,M为目标数,
Figure FDA0002955960410000049
为第j个目标对待评估Actor函数
Figure FDA00029559604100000410
的梯度,
Figure FDA00029559604100000411
为待评估Actor函数
Figure FDA00029559604100000412
对自身全体参数
Figure FDA00029559604100000413
的梯度;
否则,
Figure FDA00029559604100000414
基于Q值最大多样性距离的待评估Actor函数
Figure FDA00029559604100000415
的参数
Figure FDA00029559604100000416
梯度
Figure FDA00029559604100000417
为:
Figure FDA00029559604100000418
式中,
Figure FDA00029559604100000419
为待评估Critic函数
Figure FDA00029559604100000420
的输出到其他待评估Critic函数的输出的距离总和
Figure FDA00029559604100000421
对待评估Actor函数
Figure FDA00029559604100000422
的梯度,
Figure FDA00029559604100000423
为待评估Actor函数
Figure FDA00029559604100000424
对自身全体参数
Figure FDA00029559604100000425
的梯度;
根据基于最优Q值的待评估Actor函数
Figure FDA00029559604100000426
的参数
Figure FDA00029559604100000427
梯度
Figure FDA00029559604100000428
和基于Q值最大多样性距离的待评估Actor函数
Figure FDA00029559604100000429
的参数
Figure FDA00029559604100000430
梯度
Figure FDA00029559604100000431
通过公式4更新待评估Actor函数
Figure FDA00029559604100000432
的参数
Figure FDA00029559604100000433
Figure FDA00029559604100000434
式中,
Figure FDA0002955960410000051
为更新后的待评估Actor函数
Figure FDA0002955960410000052
的参数,lrae为待评估Actor函数的学习率,α为梯度更新因子,
Figure FDA0002955960410000053
为待评估Actor函数,
Figure FDA0002955960410000054
为待评估Actor函数
Figure FDA0002955960410000055
的参数;
步骤9、判断解的帕雷托占优关系
判断解集的每一个解
Figure FDA0002955960410000056
中的待评估Critic函数在当前时刻的输止
Figure FDA0002955960410000057
是否被其他解中的待评估Critic函数占优,若是,则从解集S中删去该解;
步骤10、生成新的解
随机生成四元组
Figure FDA0002955960410000058
补充至解集S中,直到解集S中元素的数量达到N;
步骤11、更新目标函数参数
通过公式5更新目标Critic函数
Figure FDA0002955960410000059
的参数
Figure FDA00029559604100000510
通过公式6更新目标Actor函数
Figure FDA00029559604100000511
的参数
Figure FDA00029559604100000512
Figure FDA00029559604100000513
Figure FDA00029559604100000514
式中,
Figure FDA00029559604100000515
为更新后的目标Critic函数
Figure FDA00029559604100000516
的参数,β为目标函数更新因子,
Figure FDA00029559604100000517
为更新后的待评估Critic函数
Figure FDA00029559604100000518
的参数,
Figure FDA00029559604100000519
为目标Critic函数
Figure FDA00029559604100000520
的参数,
Figure FDA00029559604100000521
为更新后的目标Actor函数
Figure FDA00029559604100000522
的参数,
Figure FDA00029559604100000523
为更新后的待评估Actor函数
Figure FDA00029559604100000524
的参数,
Figure FDA00029559604100000525
为目标Actor函数
Figure FDA00029559604100000526
的参数;
步骤12、若解集S中无解被删去且更新后的函数参数与更新前的函数参数相同,则停止循环,否则回到步骤3;算法停止循环后,得到的解集S中,N个待评估Actor函数
Figure FDA00029559604100000527
即为N个帕雷托前沿自动控制策略,根据实际需求从中选择一个进行目标场景的自动控制。
CN202010371477.6A 2020-05-06 2020-05-06 基于利用梯度的多目标强化学习算法的自动控制方法 Active CN111562740B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010371477.6A CN111562740B (zh) 2020-05-06 2020-05-06 基于利用梯度的多目标强化学习算法的自动控制方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010371477.6A CN111562740B (zh) 2020-05-06 2020-05-06 基于利用梯度的多目标强化学习算法的自动控制方法

Publications (2)

Publication Number Publication Date
CN111562740A CN111562740A (zh) 2020-08-21
CN111562740B true CN111562740B (zh) 2021-04-23

Family

ID=72074486

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010371477.6A Active CN111562740B (zh) 2020-05-06 2020-05-06 基于利用梯度的多目标强化学习算法的自动控制方法

Country Status (1)

Country Link
CN (1) CN111562740B (zh)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114970881B (zh) * 2022-04-27 2024-08-20 清华大学 一种基于凸包约束的离线强化学习方法和装置
CN116661294B (zh) * 2023-08-02 2023-11-07 南京航空航天大学 基于强化学习的阀控液压缸分数阶控制方法及控制系统

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108777872A (zh) * 2018-05-22 2018-11-09 中国人民解放军陆军工程大学 一种深度q神经网络抗干扰模型及智能抗干扰算法
CN109143870A (zh) * 2018-10-23 2019-01-04 宁波溪棠信息科技有限公司 一种多目标任务的控制方法
CN109204308A (zh) * 2017-07-03 2019-01-15 上海汽车集团股份有限公司 车道保持算法的确定方法、车道保持的控制方法及系统
CN109733415A (zh) * 2019-01-08 2019-05-10 同济大学 一种基于深度强化学习的拟人化自动驾驶跟驰模型
CN110147101A (zh) * 2019-05-13 2019-08-20 中山大学 一种基于深度强化学习的端到端分布式多机器人编队导航方法
CN110874578A (zh) * 2019-11-15 2020-03-10 北京航空航天大学青岛研究院 一种基于强化学习的无人机视角车辆识别追踪方法
CN111026127A (zh) * 2019-12-27 2020-04-17 南京大学 基于部分可观测迁移强化学习的自动驾驶决策方法及系统

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11106211B2 (en) * 2018-04-02 2021-08-31 Sony Group Corporation Vision-based sample-efficient reinforcement learning framework for autonomous driving
US11181921B2 (en) * 2018-09-14 2021-11-23 Huawei Technologies Co., Ltd. System and method for hierarchical planning in autonomous vehicles
US11568207B2 (en) * 2018-09-27 2023-01-31 Deepmind Technologies Limited Learning observation representations by predicting the future in latent space

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109204308A (zh) * 2017-07-03 2019-01-15 上海汽车集团股份有限公司 车道保持算法的确定方法、车道保持的控制方法及系统
CN108777872A (zh) * 2018-05-22 2018-11-09 中国人民解放军陆军工程大学 一种深度q神经网络抗干扰模型及智能抗干扰算法
CN109143870A (zh) * 2018-10-23 2019-01-04 宁波溪棠信息科技有限公司 一种多目标任务的控制方法
CN109733415A (zh) * 2019-01-08 2019-05-10 同济大学 一种基于深度强化学习的拟人化自动驾驶跟驰模型
CN110147101A (zh) * 2019-05-13 2019-08-20 中山大学 一种基于深度强化学习的端到端分布式多机器人编队导航方法
CN110874578A (zh) * 2019-11-15 2020-03-10 北京航空航天大学青岛研究院 一种基于强化学习的无人机视角车辆识别追踪方法
CN111026127A (zh) * 2019-12-27 2020-04-17 南京大学 基于部分可观测迁移强化学习的自动驾驶决策方法及系统

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
A Gradient-Based Reinforcement Learning Algorithm for Multiple Cooperative Agents;ZHEN ZHANG;《IEEE ACCESS》;20181218;1-13 *
Combining Deep Reinforcement Learning and Safety Based Control for Autonomous Driving;Xi Xiong;《ResearchGate》;20161231;1-10 *
极限工况下自动驾驶车辆的轨迹规划与运动控制;张放;《中国博士学位论文全文数据库工程科技Ⅱ辑》;20200415(第4期);C035-4 *

Also Published As

Publication number Publication date
CN111562740A (zh) 2020-08-21

Similar Documents

Publication Publication Date Title
CN111061277B (zh) 一种无人车全局路径规划方法和装置
CN111413966B (zh) 一种递进式模型预测无人驾驶规划跟踪协同控制方法
CN109992000B (zh) 一种基于分层强化学习的多无人机路径协同规划方法及装置
CN110874578B (zh) 一种基于强化学习的无人机视角车辆识别追踪方法
CN111667513A (zh) 一种基于ddpg迁移学习的无人机机动目标跟踪方法
CN110442129B (zh) 一种多智能体编队的控制方法和系统
CN108803321A (zh) 基于深度强化学习的自主水下航行器轨迹跟踪控制方法
CN111679660B (zh) 一种融合类人驾驶行为的无人驾驶深度强化学习方法
CN111562740B (zh) 基于利用梯度的多目标强化学习算法的自动控制方法
Botteghi et al. On reward shaping for mobile robot navigation: A reinforcement learning and SLAM based approach
Kuutti et al. End-to-end reinforcement learning for autonomous longitudinal control using advantage actor critic with temporal context
CN113110546B (zh) 一种基于离线强化学习的无人机自主飞行控制方法
CN113741533A (zh) 一种基于模仿学习与强化学习的无人机智能决策系统
CN116679719A (zh) 基于动态窗口法与近端策略的无人车自适应路径规划方法
CN115016534A (zh) 一种基于记忆增强学习的无人机自主避障导航方法
CN111882047A (zh) 一种基于强化学习与线性规划的快速空管防冲突方法
Xia et al. Research on collision avoidance algorithm of unmanned surface vehicle based on deep reinforcement learning
CN117289691A (zh) 用于导航场景下强化学习的路径规划智能体的训练方法
Li et al. Research on multi-UAV task decision-making based on improved MADDPG algorithm and transfer learning
CN116679711A (zh) 一种基于有模型与无模型强化学习的机器人避障方法
CN116301011A (zh) 一种多智能体高效编队避障方法
Lil et al. Autonomous exploration and mapping for mobile robots via cumulative curriculum reinforcement learning
CN110456790B (zh) 基于自适应权重的智能网联电动汽车队列优化控制方法
CN116679710A (zh) 一种基于多任务学习的机器人避障策略训练与部署方法
CN117055601A (zh) 一种无人机送餐路径规划方法、装置、设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant