CN112965380A - 一种基于强化学习策略操控智能设备的方法 - Google Patents

一种基于强化学习策略操控智能设备的方法 Download PDF

Info

Publication number
CN112965380A
CN112965380A CN202110175226.5A CN202110175226A CN112965380A CN 112965380 A CN112965380 A CN 112965380A CN 202110175226 A CN202110175226 A CN 202110175226A CN 112965380 A CN112965380 A CN 112965380A
Authority
CN
China
Prior art keywords
reinforcement learning
parameter set
learning strategy
environment
environment parameter
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202110175226.5A
Other languages
English (en)
Other versions
CN112965380B (zh
Inventor
辛苗
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Universal Cloud Data Analytics Technology Co ltd
Original Assignee
Beijing Universal Cloud Data Analytics Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Universal Cloud Data Analytics Technology Co ltd filed Critical Beijing Universal Cloud Data Analytics Technology Co ltd
Priority to CN202110175226.5A priority Critical patent/CN112965380B/zh
Publication of CN112965380A publication Critical patent/CN112965380A/zh
Application granted granted Critical
Publication of CN112965380B publication Critical patent/CN112965380B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G05CONTROLLING; REGULATING
    • G05BCONTROL OR REGULATING SYSTEMS IN GENERAL; FUNCTIONAL ELEMENTS OF SUCH SYSTEMS; MONITORING OR TESTING ARRANGEMENTS FOR SUCH SYSTEMS OR ELEMENTS
    • G05B13/00Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion
    • G05B13/02Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion electric
    • G05B13/04Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion electric involving the use of models or simulators
    • G05B13/042Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion electric involving the use of models or simulators in which a parameter or coefficient is automatically adjusted to optimise the performance

Abstract

本发明属于人工智能的操控和强化学习技术领域,具体地说,涉及一种基于强化学习策略操控智能设备的方法,该方法包括:获取当前扰动环境下的智能设备所处的环境参数集,作为智能设备所处的扰动环境,并对该环境参数集进行标记,得到带有标签的环境参数集;将带有标签的环境参数集输入至预先训练的对抗性生成网络,得到全新的环境参数集;根据全新的环境参数集,对当前强化学习策略进行更新,获得与全新的环境参数集相适应的更新后的强化学习策略,并将其输入至智能设备;智能设备根据该更新后的强化学习策略,执行对应于智能设备所处的当前状态的动作,完成在扰动环境下对智能设备的操控。

Description

一种基于强化学习策略操控智能设备的方法
技术领域
本发明属于人工智能的操控和强化学习技术领域,具体地说,涉及基于一种基于强化学习策略操控智能设备的方法。
背景技术
强化学习是人工智能的核心技术之一,通过不断与应用环境交互,进而学习到最优的策略,为机器人、无人驾驶车辆等智能设备提供智力的决策支持。公开材料显示,在公开比赛前,阿尔法围棋AlphaGo已经使用了强化学习进行训练。但是,训练环境与真实环境总是存在差异的,由于存在噪音而导致训练环境和真实环境不可能完全一致。因此,如何降低由于训练环境与真实环境之间的差异性而导致对训练的影响,以及如何提高强化学习的鲁棒性是一个重要的研究问题。
目前的传统方法中,主要是在训练过程中,对环境参数增加随机噪音扰动,使得强化学习训练过程包括更多的噪音,从而提高训练鲁棒性。但是,现有的方法不能有效控制噪音的扰动,过大的扰动会导致强化学习无法训练出最优策略,导致训练失败;而限制扰动又会导致训练的欠鲁棒性。
发明内容
为解决现有技术存在的上述缺陷,本发明提出了一种基于强化学习策略操控智能设备的方法,具体涉及基于循序渐进的鲁棒性强化学习策略操控机器人和无人驾驶车辆等智能设备的方法;该方法包括:
获取当前扰动环境下的智能设备所处的环境参数集,作为智能设备所处的扰动环境,并对该环境参数集进行标记,得到带有标签的环境参数集;
将带有标签的环境参数集输入至预先训练的对抗性生成网络,得到全新的环境参数集;
根据全新的环境参数集,对当前强化学习策略进行更新,获得与全新的环境参数集相适应的更新后的强化学习策略,并将其输入至智能设备;
智能设备根据该更新后的强化学习策略,执行对应于智能设备所处的当前状态的动作,完成在扰动环境下对智能设备的操控。
作为上述技术方案的改进之一,所述带有标签的环境参数集的获取过程为:
初始化强化学习策略
Figure BDA0002940481610000021
和当前扰动环境下的智能设备所处的环境参数集P0;其中,强化学习策略π是智能设备根据当前的状态,下一步所要执行的动作;将强化学习策略分为中等难度和非中等难度,并用对应的标签进行标记;
其中,标记为1,则表示该强化学习策略为中等难度;
标记为0,则表示该强化学习策略为非中等难度;其中,非中等难度包括低等难度和高等难度;
在智能设备所处的当前状态,获取第i轮的环境参数集Pi,为第i轮的环境参数集Pi中的每一个环境参数
Figure BDA0002940481610000022
生成对应的标签
Figure BDA0002940481610000023
该标签用于标记其对于当前的强化学习策略是否为中等难度,
判断在每个环境参数
Figure BDA0002940481610000024
下当前强化学习策略的期望奖励
Figure BDA0002940481610000025
是否在根据当前强化学习策略预先设定的中等难度阈值范围内;
如果
Figure BDA0002940481610000026
时,则
Figure BDA0002940481610000027
为中等难度的环境参数,并标记为1,标签
Figure BDA0002940481610000028
如果
Figure BDA0002940481610000029
Figure BDA00029404816100000210
时,则
Figure BDA00029404816100000211
为高等难度或低等难度的环境参数,并标记为0,标签
Figure BDA00029404816100000212
其中,
Figure BDA00029404816100000213
是第i轮的当前强化学习策略
Figure BDA00029404816100000214
在环境参数为
Figure BDA00029404816100000215
的扰动环境下的期望奖励;
Figure BDA00029404816100000216
为根据当前强化学习策略
Figure BDA00029404816100000217
预先设定的中等难度阈值的上界;
Figure BDA00029404816100000218
为根据当前强化学习策略
Figure BDA00029404816100000219
预先设定的中等难度阈值的下界;
因此,标签
Figure BDA00029404816100000220
的公式为:
Figure BDA00029404816100000221
根据上述判断过程,对第i轮的环境参数集Pi中的每一个环境参数
Figure BDA00029404816100000222
进行标记,得到带有标签的环境参数集,记为LPi
作为上述技术方案的改进之一,所述对抗性生成网络的训练过程为:
将带有标签的环境参数集LPi,输入至对抗性生成网络,训练对抗性生成网络,训练对抗性生成网络时的优化目标函数分别为:
Figure BDA0002940481610000031
Figure BDA0002940481610000032
其中,D(·)是GAN深度神经网络的判别器D的输出;G(·)是GAN深度神经网络的生成器G的输出;
Figure BDA0002940481610000033
是输入样本LPi的分布;pz(z)是噪音分布;k是来源于输入样本LPi的分布
Figure BDA0002940481610000034
的真实样本,z是来源于噪音分布pz(z)的噪音向量;G(z)为输入噪音向量z时,生成器G的输出,即生成样本;D(k)为输入真实样本k时,判别器D的输出,D(G(z))指的是输入生成样本G(z)时,判别器D的输出;
Figure BDA0002940481610000035
是关于服从输入分布
Figure BDA0002940481610000036
的随机变量k的函数
Figure BDA0002940481610000037
的期望值;
Figure BDA0002940481610000038
是关于服从噪音分布pz(z)的随机变量z的函数[(D(G(z))-a)2]的期望值;
Figure BDA0002940481610000039
是关于服从噪音分布pz(z)的随机变量z的函数[(D(G(z))-c)2]的期望值;
RANGE2(G(z))度量了生成样本G(z)之间的距离,w为控制生成样本G(z)多样性的权重参数;
Figure BDA00029404816100000310
是矩阵M每一列所有元素极差的平方和;
a为负样本以及生成样本的标签值;b为正样本的标签值;c为生成器G期望生成的样本的标签值;
max(M[:,i])为矩阵M第i列的最大值;min(M[:,i])为矩阵M第i列的最小值;
对抗性生成网络输出新一轮的环境参数集Pi+1←G(z),并将其作为全新的环境参数集Pi+1
其中,z是从噪音分布pz(z)采样的噪音向量;G(z)为输入噪音向量z时,生成器G的输出。
作为上述技术方案的改进之一,所述根据全新的环境参数集,对当前强化学习策略进行更新,获得与全新的环境参数集相适应的更新后的强化学习策略,并将其输入至智能设备;其具体过程为:
进行基于扰动环境的策略更新;基于全新的环境参数集Pi+1,生成新的扰动环境,根据全新的环境参数集Pi+1,收集当前强化学习策略
Figure BDA0002940481610000041
在全新的环境参数集Pi+1下的轨迹数据,并根据该轨迹数据,更新该当前强化学习策略
Figure BDA0002940481610000042
从而获得与全新的环境参数集Pi+1相适应的更新后的强化学习策略
Figure BDA0002940481610000043
判断该更新后的强化学习策略
Figure BDA0002940481610000044
在该轮生成的扰动环境下的期望奖励是否小于或等于预先设定的奖励阈值;
如果该更新后的强化学习策略在该轮生成的扰动环境下的期望奖励小于或等于预先设定的奖励阈值,则直接将其输入至智能设备;
如果该更新后的强化学习策略在该轮生成的扰动环境下的期望奖励大于预先设定的奖励阈值,则将该全新的环境参数集作为当前扰动环境下的智能设备所处的环境参数集,并重复获取当前扰动环境下的智能设备所处的环境参数集,并对其进行标记,得到带有标签的环境参数集;和将带有标签的环境参数集输入至预先训练的对抗性生成网络,得到全新的环境参数集的过程,直至该更新后的强化学习策略在该轮生成的扰动环境下的期望奖励小于或等于预先设定的奖励阈值,并将其输入至智能设备。
本发明与现有技术相比的有益效果是:
本发明的方法,可以自动地多次生成噪音扰动,且每次扰动是循序渐进式地施加难度,不仅可避免过分扰动带来的训练失败,还可避免限制扰动带来的训练欠鲁棒性,提升强化学习的鲁棒性,支持强化学习应用于机器人和无人驾驶车辆等智能设备。
附图说明
图1是本发明的一种基于强化学习策略操控智能设备的方法的流程图;
图2是本发明的一种基于强化学习策略操控智能设备的方法的如何进行更新策略的流程图。
具体实施方式
现结合附图对本发明作进一步的描述。
如图1所示,本发明提供了一种基于强化学习策略操控智能设备的方法,该方法包括:
获取当前扰动环境下的智能设备所处的环境参数集,作为智能设备所处的扰动环境,并对该环境参数集进行标记,得到带有标签的环境参数集;
其中,如图2所示,所述带有标签的环境参数集的获取过程为:
初始化强化学习策略
Figure BDA0002940481610000051
和当前扰动环境下的智能设备所处的环境参数集P0;其中,强化学习策略π是智能设备根据当前的状态,下一步所要执行的动作,θ是强化学习策略的参数集合;该集合包括强化学习策略深度神经网络模型中的各个连接层的权重参数;扰动环境是一个大的环境(比如,摩擦系数较小的雪天),而当前状态指的是某一时刻的智能设备所处的状态(比如,处在要拐弯的状态,处在遇见行人的状态)。对于一个智能设备,其所处的扰动环境可能不会变化,但其所处的状态是时时刻刻在变化的,因此强化学习策略会根据智能设备此刻所处的状态,指示智能设备应该执行的动作(动作比如,方向盘左转30度,踩刹车的力度等);即强化学习策略的输入为智能设备所处的当前状态,输出为对应智能设备所处的当前状态的动作;
环境参数集包括扰动环境下不同的多个环境参数;
将强化学习策略分为中等难度和非中等难度,并用对应的标签进行标记;
其中,标记为1,则表示该强化学习策略为中等难度;标记为0,则表示该强化学习策略为非中等难度;非中等难度包括低等难度和高等难度;
在智能设备所处的当前扰动环境下,获取第i轮的环境参数集Pi,为第i轮的环境参数集Pi中的每一个环境参数
Figure BDA0002940481610000052
生成对应的标签
Figure BDA0002940481610000053
该标签用于标记其对于当前的强化学习策略是否为中等难度,
判断在每个环境参数
Figure BDA0002940481610000054
下当前强化学习策略的期望奖励
Figure BDA0002940481610000055
是否在根据当前强化学习策略预先设定的中等难度阈值范围内;
如果
Figure BDA0002940481610000056
时,则
Figure BDA0002940481610000057
为中等难度的环境参数,并标记为1,标签
Figure BDA0002940481610000058
如果
Figure BDA0002940481610000061
Figure BDA0002940481610000062
时,则
Figure BDA0002940481610000063
为高等难度或低等难度的环境参数,并标记为0,标签
Figure BDA0002940481610000064
其中,
Figure BDA0002940481610000065
是第i轮的当前强化学习策略
Figure BDA0002940481610000066
在环境参数为
Figure BDA0002940481610000067
的扰动环境下的期望奖励;
Figure BDA0002940481610000068
为根据当前强化学习策略
Figure BDA0002940481610000069
预先设定的中等难度阈值的上界;
Figure BDA00029404816100000610
为根据当前强化学习策略
Figure BDA00029404816100000611
预先设定的中等难度阈值的下界;
因此,标签
Figure BDA00029404816100000612
的公式为:
Figure BDA00029404816100000613
根据上述判断过程,对第i轮的环境参数集Pi中的每一个环境参数
Figure BDA00029404816100000614
进行标记,得到带有标签的环境参数集,记为LPi
将带有标签的环境参数集输入至预先训练的对抗性生成网络,得到全新的环境参数集;
所述对抗性生成网络的训练过程为:
基于GAN(Generative Adversarial Network,对抗性生成网络)自动扰动生成;
将带有标签的环境参数集LPi,输入至对抗性生成网络,训练对抗性生成网络,训练对抗性生成网络时的优化目标函数分别为:
Figure BDA00029404816100000615
Figure BDA00029404816100000616
其中,D(·)是GAN深度神经网络的判别器D的输出;G(·)是GAN深度神经网络的生成器G的输出;
Figure BDA00029404816100000617
是输入样本LPi的分布;pz(z)是噪音分布;k是来源于输入样本LPi的分布
Figure BDA00029404816100000618
的真实样本,z是来源于噪音分布pz(z)的噪音向量;G(z)为输入噪音向量z时,生成器G的输出,即生成样本;D(k)为输入真实样本k时,判别器D的输出,D(G(z))指的是输入生成样本G(z)时,判别器D的输出;
Figure BDA0002940481610000071
是关于服从输入分布
Figure BDA0002940481610000072
的随机变量k的函数
Figure BDA0002940481610000073
的期望值;
Figure BDA0002940481610000074
是关于服从噪音分布pz(z)的随机变量z的函数[(D(G(z))-a)2]的期望值;
Figure BDA0002940481610000075
是关于服从噪音分布pz(z)的随机变量z的函数[(D(G(z))-c)2]的期望值;
RANGE2(G(z))度量了生成样本G(z)之间的距离,w为控制生成样本G(z)多样性的权重参数;
Figure BDA0002940481610000076
是矩阵M每一列所有元素极差的平方和;
a为负样本以及生成样本的标签值,b为正样本的标签值,c为生成器G期望生成的样本的标签值;
max(M[:,i])为矩阵M第i列的最大值;min(M[:,i])为矩阵M第i列的最小值;
对抗性生成网络输出新一轮的环境参数集Pi+1←G(z),并将其作为全新的环境参数集Pi+1
其中,z是从噪音分布pz(z)采样的噪音向量;G(z)为输入噪音向量z时,生成器G的输出。
根据全新的环境参数集,对当前强化学习策略进行更新,获得与全新的环境参数集相适应的更新后的强化学习策略,并将其输入至智能设备;
具体地,如图2所示,进行基于扰动环境的策略更新;基于全新的环境参数集Pi+1,生成新的扰动环境,根据全新的环境参数集Pi+1,收集当前强化学习策略
Figure BDA0002940481610000077
在全新的环境参数集Pi+1下的轨迹数据,并根据该轨迹数据,更新该当前强化学习策略
Figure BDA0002940481610000078
从而获得与全新的环境参数集Pi+1相适应的更新后的强化学习策略
Figure BDA0002940481610000079
判断该更新后的强化学习策略
Figure BDA00029404816100000710
在该轮生成的扰动环境下的期望奖励是否小于或等于预先设定的奖励阈值;
如果该更新后的强化学习策略在该轮生成的扰动环境下的期望奖励小于或等于预先设定的奖励阈值,则直接将其输入至智能设备;
如果该更新后的强化学习策略在该轮生成的扰动环境下的期望奖励大于预先设定的奖励阈值,则将该全新的环境参数集作为当前扰动环境下的智能设备所处的环境参数集,并重复获取当前扰动环境下的智能设备所处的环境参数集,并对其进行标记,得到带有标签的环境参数集;和将带有标签的环境参数集输入至预先训练的对抗性生成网络,得到全新的环境参数集的过程,直至该更新后的强化学习策略在该轮生成的扰动环境下的期望奖励小于或等于预先设定的奖励阈值,并将其输入至智能设备。
智能设备根据该更新后的强化学习策略,执行对应于当前状态的动作,完成在扰动环境下对智能设备的操控。
其中,在上述方法中,在重复获取当前扰动环境下的智能设备所处的环境参数集,并对其进行标记,得到带有标签的环境参数集;和将带有标签的环境参数集输入至预先训练的对抗性生成网络,得到全新的环境参数集的过程时,是基于智能设备的循序渐进的更新过程,自动地多次生成扰动参数,且每次扰动是循序渐进施加难度的,可以避免过分扰动带来的训练失败,也可以避免限制扰动带来的训练欠鲁棒性,提升强化学习的鲁棒性,支持强化学习应用于机器人和无人驾驶车辆等智能设备的训练。
本发明的方法解决训练环境与真实测试环境存在差异的问题,使得智能设备能够在各种真实环境中,获得更好地强化学习策略,提高强化学习的鲁棒性。现有的方法得到的强化学习策略只能在训练环境或者是与训练环境很相似的真实环境中运行,但并不能解决训练环境与真实测试环境之间存在差异性的问题,无法在真实环境与训练环境存在较大差异的情况下,让智能设备获得更合适的强化学习策略,导致对智能设备的操控失败,使得强化学习的鲁棒性大大降低。
实施例1.
该方法首次支持噪音扰动的难度逐渐增加;其过程是多次并且循序渐进实现的;基于对抗性生成网络实现其自动化,在OpenAI gym中Hopper机器人控制场景的实验结果,从鲁棒性得分方面初步表明该方法是可行的。
假设本发明的方法中所涉及的智能设备是无人驾驶车辆,且扰动环境参数为道路的摩擦系数,该方法包括:
获取当前扰动环境下的无人驾驶车辆所处的环境参数集P={0.95,0.90,0.88,0.85,0.76,0.72},并对其进行标记,得到带有标签的环境参数集LP={0.95:0,0.90:0,0.88:1,0.85:1,0.76:1,0.72:0}
将带有标签的环境参数集LP输入至预先训练的对抗性生成网络,得到全新的环境参数集P′={0.885,0.84,0.80,0.77,0.74,0.73};
根据全新的环境参数集,对当前强化学习策略进行更新,获得与全新的环境参数集相适应的更新后的强化学习策略,并将其输入至智能设备;
智能设备根据该更新后的强化学习策略,执行对应于当前状态的动作,完成在扰动环境下对智能设备的操控。
最后所应说明的是,以上实施例仅用以说明本发明的技术方案而非限制。尽管参照实施例对本发明进行了详细说明,本领域的普通技术人员应当理解,对本发明的技术方案进行修改或者等同替换,都不脱离本发明技术方案的精神和范围,其均应涵盖在本发明的权利要求范围当中。

Claims (4)

1.一种基于强化学习策略操控智能设备的方法,该方法包括:
获取当前扰动环境下的智能设备所处的环境参数集,作为智能设备所处的扰动环境,并对该环境参数集进行标记,得到带有标签的环境参数集;
将带有标签的环境参数集输入至预先训练的对抗性生成网络,得到全新的环境参数集;
根据全新的环境参数集,对当前强化学习策略进行更新,获得与全新的环境参数集相适应的更新后的强化学习策略,并将其输入至智能设备;
智能设备根据该更新后的强化学习策略,执行对应于智能设备所处的当前状态的动作,完成在扰动环境下对智能设备的操控。
2.根据权利要求1所述的基于强化学习策略操控智能设备的方法,其特征在于,所述带有标签的环境参数集的获取过程为:
初始化强化学习策略
Figure FDA0002940481600000011
和当前扰动环境下的智能设备所处的环境参数集P0;其中,强化学习策略π是智能设备根据当前的状态,下一步所要执行的动作;将强化学习策略分为中等难度和非中等难度,并用对应的标签进行标记;
其中,标记为1,则表示该强化学习策略为中等难度;
标记为0,则表示该强化学习策略为非中等难度;其中,非中等难度包括低等难度和高等难度;
在智能设备所处的当前状态,获取第i轮的环境参数集Pi,为第i轮的环境参数集Pi中的每一个环境参数
Figure FDA0002940481600000012
生成对应的标签
Figure FDA0002940481600000013
该标签用于标记其对于当前的强化学习策略是否为中等难度,
判断在每个环境参数
Figure FDA0002940481600000014
下当前强化学习策略的期望奖励
Figure FDA0002940481600000015
是否在根据当前强化学习策略预先设定的中等难度阈值范围内;
如果
Figure FDA0002940481600000016
时,则
Figure FDA0002940481600000017
为中等难度的环境参数,并标记为1,标签
Figure FDA0002940481600000018
如果
Figure FDA0002940481600000019
Figure FDA00029404816000000110
时,则
Figure FDA00029404816000000111
为高等难度或低等难度的环境参数,并标记为0,标签
Figure FDA00029404816000000112
其中,
Figure FDA00029404816000000113
是第i轮的当前强化学习策略
Figure FDA00029404816000000114
在环境参数为
Figure FDA00029404816000000115
的扰动环境下的期望奖励;
Figure FDA0002940481600000021
为根据当前强化学习策略
Figure FDA0002940481600000022
预先设定的中等难度阈值的上界;
Figure FDA0002940481600000023
为根据当前强化学习策略
Figure FDA0002940481600000024
预先设定的中等难度阈值的下界;
因此,标签
Figure FDA0002940481600000025
的公式为:
Figure FDA0002940481600000026
根据上述判断过程,对第i轮的环境参数集Pi中的每一个环境参数
Figure FDA0002940481600000027
进行标记,得到带有标签的环境参数集,记为LPi
3.根据权利要求2所述的基于强化学习策略操控智能设备的方法,其特征在于,所述对抗性生成网络的训练过程为:
将带有标签的环境参数集LPi,输入至对抗性生成网络,训练对抗性生成网络,训练对抗性生成网络时的优化目标函数分别为:
Figure FDA0002940481600000028
Figure FDA0002940481600000029
其中,D(·)是GAN深度神经网络的判别器D的输出;G(·)是GAN深度神经网络的生成器G的输出;
Figure FDA00029404816000000210
是输入样本LPi的分布;pz(z)是噪音分布;k是来源于输入样本LPi的分布
Figure FDA00029404816000000211
的真实样本,z是来源于噪音分布pz(z)的噪音向量;G(z)为输入噪音向量z时,生成器G的输出,即生成样本;D(k)为输入真实样本k时,判别器D的输出,D(G(z))指的是输入生成样本G(z)时,判别器D的输出;
Figure FDA00029404816000000212
是关于服从输入分布
Figure FDA00029404816000000213
的随机变量k的函数
Figure FDA00029404816000000214
的期望值;
Figure FDA00029404816000000215
是关于服从噪音分布pz(z)的随机变量z的函数[(D(G(z))-a)2]的期望值;
Figure FDA00029404816000000216
是关于服从噪音分布pz(z)的随机变量z的函数[(D(G(z))-c)2]的期望值;
RANGE2(G(z))度量了生成样本G(z)之间的距离,w为控制生成样本G(z)多样性的权重参数;
Figure FDA0002940481600000031
是矩阵M每一列所有元素极差的平方和;
a为负样本以及生成样本的标签值;b为正样本的标签值;c为生成器G期望生成的样本的标签值;
max(M[:,i])为矩阵M第i列的最大值;min(M[:,i])为矩阵M第i列的最小值;
对抗性生成网络输出新一轮的环境参数集Pi+1←G(z),并将其作为全新的环境参数集Pi +1
其中,z是从噪音分布pz(z)采样的噪音向量;G(z)为输入噪音向量z时,生成器G的输出。
4.根据权利要求3所述的基于强化学习策略操控智能设备的方法,其特征在于,所述根据全新的环境参数集,对当前强化学习策略进行更新,获得与全新的环境参数集相适应的更新后的强化学习策略,并将其输入至智能设备;其具体过程为:
进行基于扰动环境的策略更新;基于全新的环境参数集Pi+1,生成新的扰动环境,根据全新的环境参数集Pi+1,收集当前强化学习策略
Figure FDA0002940481600000032
在全新的环境参数集Pi+1下的轨迹数据,并根据该轨迹数据,更新该当前强化学习策略
Figure FDA0002940481600000033
从而获得与全新的环境参数集Pi+1相适应的更新后的强化学习策略
Figure FDA0002940481600000034
判断该更新后的强化学习策略
Figure FDA0002940481600000035
在该轮生成的扰动环境下的期望奖励是否小于或等于预先设定的奖励阈值;
如果该更新后的强化学习策略在该轮生成的扰动环境下的期望奖励小于或等于预先设定的奖励阈值,则直接将其输入至智能设备;
如果该更新后的强化学习策略在该轮生成的扰动环境下的期望奖励大于预先设定的奖励阈值,则将该全新的环境参数集作为当前扰动环境下的智能设备所处的环境参数集,并重复获取当前扰动环境下的智能设备所处的环境参数集,并对其进行标记,得到带有标签的环境参数集;和将带有标签的环境参数集输入至预先训练的对抗性生成网络,得到全新的环境参数集的过程,直至该更新后的强化学习策略在该轮生成的扰动环境下的期望奖励小于或等于预先设定的奖励阈值,并将其输入至智能设备。
CN202110175226.5A 2021-02-07 2021-02-07 一种基于强化学习策略操控智能设备的方法 Active CN112965380B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110175226.5A CN112965380B (zh) 2021-02-07 2021-02-07 一种基于强化学习策略操控智能设备的方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110175226.5A CN112965380B (zh) 2021-02-07 2021-02-07 一种基于强化学习策略操控智能设备的方法

Publications (2)

Publication Number Publication Date
CN112965380A true CN112965380A (zh) 2021-06-15
CN112965380B CN112965380B (zh) 2022-11-08

Family

ID=76284310

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110175226.5A Active CN112965380B (zh) 2021-02-07 2021-02-07 一种基于强化学习策略操控智能设备的方法

Country Status (1)

Country Link
CN (1) CN112965380B (zh)

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20190156197A1 (en) * 2017-11-22 2019-05-23 International Business Machines Corporation Method for adaptive exploration to accelerate deep reinforcement learning
CN110686906A (zh) * 2019-10-09 2020-01-14 清华大学 车辆自动驾驶测试方法及装置
CN110991027A (zh) * 2019-11-27 2020-04-10 华南理工大学 一种基于虚拟场景训练的机器人模仿学习方法
CN111553587A (zh) * 2020-04-26 2020-08-18 中国电力科学研究院有限公司 一种基于对抗学习模型的新能源场景生成方法及系统
CN112052456A (zh) * 2020-08-31 2020-12-08 浙江工业大学 基于多智能体的深度强化学习策略优化防御方法

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20190156197A1 (en) * 2017-11-22 2019-05-23 International Business Machines Corporation Method for adaptive exploration to accelerate deep reinforcement learning
CN110686906A (zh) * 2019-10-09 2020-01-14 清华大学 车辆自动驾驶测试方法及装置
CN110991027A (zh) * 2019-11-27 2020-04-10 华南理工大学 一种基于虚拟场景训练的机器人模仿学习方法
CN111553587A (zh) * 2020-04-26 2020-08-18 中国电力科学研究院有限公司 一种基于对抗学习模型的新能源场景生成方法及系统
CN112052456A (zh) * 2020-08-31 2020-12-08 浙江工业大学 基于多智能体的深度强化学习策略优化防御方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
孙嘉浩等: "基于强化学习的无人驾驶仿真研究", 《农业装备与车辆工程》 *

Also Published As

Publication number Publication date
CN112965380B (zh) 2022-11-08

Similar Documents

Publication Publication Date Title
CN110745136B (zh) 一种驾驶自适应控制方法
CN109131348B (zh) 一种基于生成式对抗网络的智能车驾驶决策方法
CN112116144B (zh) 一种区域配电网短期负荷预测方法
CN112150808B (zh) 一种基于深度学习的城市交通系统调度策略生成方法
CN106347359A (zh) 用于操作自动驾驶车辆的方法和装置
CN110490275B (zh) 一种基于迁移学习的驾驶行为预测方法
CN111783943B (zh) 一种基于lstm神经网络的驾驶员制动强度预测方法
CN102200787A (zh) 机器人行为多层次集成学习方法及系统
CN105487376A (zh) 一种基于数据驱动单网络结构的最优控制方法
CN111580526B (zh) 面向固定车辆编队场景的协同驾驶方法
CN116433957A (zh) 一种基于半监督学习的智能驾驶感知方法
DE102018130968A1 (de) Verfahren und vorrichtung zum einstellen einer aerodynamik an einem fahrenden fahrzeug
CN114074680A (zh) 基于深度强化学习的车辆换道行为决策方法及系统
CN115690568A (zh) 一种基于增量学习的无人艇目标检测方法
CN112965380B (zh) 一种基于强化学习策略操控智能设备的方法
CN112989702B (zh) 一种装备性能分析与预测的自学习方法
CN109611222A (zh) 一种基于脉冲神经网络的电子节气门控制方法
CN109002878A (zh) 一种ga优化bp神经网络
CN110705756B (zh) 一种基于输入凸神经网络的电力能耗优化控制方法
CN114148349B (zh) 一种基于生成对抗模仿学习的车辆个性化跟驰控制方法
CN113807005A (zh) 基于改进fpa-dbn的轴承剩余寿命预测方法
CN113255725B (zh) 基于两阶段lstm的汽车传感器攻击检测与修复方法
DE102019128223A1 (de) Verfahren, Vorrichtungen und Computerprogramme
CN116384439B (zh) 一种基于自蒸馏的目标检测方法
CN211043961U (zh) 一种用于学习算法的装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant