CN112965380A - 一种基于强化学习策略操控智能设备的方法 - Google Patents
一种基于强化学习策略操控智能设备的方法 Download PDFInfo
- Publication number
- CN112965380A CN112965380A CN202110175226.5A CN202110175226A CN112965380A CN 112965380 A CN112965380 A CN 112965380A CN 202110175226 A CN202110175226 A CN 202110175226A CN 112965380 A CN112965380 A CN 112965380A
- Authority
- CN
- China
- Prior art keywords
- reinforcement learning
- parameter set
- learning strategy
- environment
- environment parameter
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Classifications
-
- G—PHYSICS
- G05—CONTROLLING; REGULATING
- G05B—CONTROL OR REGULATING SYSTEMS IN GENERAL; FUNCTIONAL ELEMENTS OF SUCH SYSTEMS; MONITORING OR TESTING ARRANGEMENTS FOR SUCH SYSTEMS OR ELEMENTS
- G05B13/00—Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion
- G05B13/02—Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion electric
- G05B13/04—Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion electric involving the use of models or simulators
- G05B13/042—Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion electric involving the use of models or simulators in which a parameter or coefficient is automatically adjusted to optimise the performance
Abstract
本发明属于人工智能的操控和强化学习技术领域,具体地说,涉及一种基于强化学习策略操控智能设备的方法,该方法包括:获取当前扰动环境下的智能设备所处的环境参数集,作为智能设备所处的扰动环境,并对该环境参数集进行标记,得到带有标签的环境参数集;将带有标签的环境参数集输入至预先训练的对抗性生成网络,得到全新的环境参数集;根据全新的环境参数集,对当前强化学习策略进行更新,获得与全新的环境参数集相适应的更新后的强化学习策略,并将其输入至智能设备;智能设备根据该更新后的强化学习策略,执行对应于智能设备所处的当前状态的动作,完成在扰动环境下对智能设备的操控。
Description
技术领域
本发明属于人工智能的操控和强化学习技术领域,具体地说,涉及基于一种基于强化学习策略操控智能设备的方法。
背景技术
强化学习是人工智能的核心技术之一,通过不断与应用环境交互,进而学习到最优的策略,为机器人、无人驾驶车辆等智能设备提供智力的决策支持。公开材料显示,在公开比赛前,阿尔法围棋AlphaGo已经使用了强化学习进行训练。但是,训练环境与真实环境总是存在差异的,由于存在噪音而导致训练环境和真实环境不可能完全一致。因此,如何降低由于训练环境与真实环境之间的差异性而导致对训练的影响,以及如何提高强化学习的鲁棒性是一个重要的研究问题。
目前的传统方法中,主要是在训练过程中,对环境参数增加随机噪音扰动,使得强化学习训练过程包括更多的噪音,从而提高训练鲁棒性。但是,现有的方法不能有效控制噪音的扰动,过大的扰动会导致强化学习无法训练出最优策略,导致训练失败;而限制扰动又会导致训练的欠鲁棒性。
发明内容
为解决现有技术存在的上述缺陷,本发明提出了一种基于强化学习策略操控智能设备的方法,具体涉及基于循序渐进的鲁棒性强化学习策略操控机器人和无人驾驶车辆等智能设备的方法;该方法包括:
获取当前扰动环境下的智能设备所处的环境参数集,作为智能设备所处的扰动环境,并对该环境参数集进行标记,得到带有标签的环境参数集;
将带有标签的环境参数集输入至预先训练的对抗性生成网络,得到全新的环境参数集;
根据全新的环境参数集,对当前强化学习策略进行更新,获得与全新的环境参数集相适应的更新后的强化学习策略,并将其输入至智能设备;
智能设备根据该更新后的强化学习策略,执行对应于智能设备所处的当前状态的动作,完成在扰动环境下对智能设备的操控。
作为上述技术方案的改进之一,所述带有标签的环境参数集的获取过程为:
其中,标记为1,则表示该强化学习策略为中等难度;
标记为0,则表示该强化学习策略为非中等难度;其中,非中等难度包括低等难度和高等难度;
作为上述技术方案的改进之一,所述对抗性生成网络的训练过程为:
将带有标签的环境参数集LPi,输入至对抗性生成网络,训练对抗性生成网络,训练对抗性生成网络时的优化目标函数分别为:
其中,D(·)是GAN深度神经网络的判别器D的输出;G(·)是GAN深度神经网络的生成器G的输出;是输入样本LPi的分布;pz(z)是噪音分布;k是来源于输入样本LPi的分布的真实样本,z是来源于噪音分布pz(z)的噪音向量;G(z)为输入噪音向量z时,生成器G的输出,即生成样本;D(k)为输入真实样本k时,判别器D的输出,D(G(z))指的是输入生成样本G(z)时,判别器D的输出;
RANGE2(G(z))度量了生成样本G(z)之间的距离,w为控制生成样本G(z)多样性的权重参数;
a为负样本以及生成样本的标签值;b为正样本的标签值;c为生成器G期望生成的样本的标签值;
max(M[:,i])为矩阵M第i列的最大值;min(M[:,i])为矩阵M第i列的最小值;
对抗性生成网络输出新一轮的环境参数集Pi+1←G(z),并将其作为全新的环境参数集Pi+1;
其中,z是从噪音分布pz(z)采样的噪音向量;G(z)为输入噪音向量z时,生成器G的输出。
作为上述技术方案的改进之一,所述根据全新的环境参数集,对当前强化学习策略进行更新,获得与全新的环境参数集相适应的更新后的强化学习策略,并将其输入至智能设备;其具体过程为:
进行基于扰动环境的策略更新;基于全新的环境参数集Pi+1,生成新的扰动环境,根据全新的环境参数集Pi+1,收集当前强化学习策略在全新的环境参数集Pi+1下的轨迹数据,并根据该轨迹数据,更新该当前强化学习策略从而获得与全新的环境参数集Pi+1相适应的更新后的强化学习策略
如果该更新后的强化学习策略在该轮生成的扰动环境下的期望奖励小于或等于预先设定的奖励阈值,则直接将其输入至智能设备;
如果该更新后的强化学习策略在该轮生成的扰动环境下的期望奖励大于预先设定的奖励阈值,则将该全新的环境参数集作为当前扰动环境下的智能设备所处的环境参数集,并重复获取当前扰动环境下的智能设备所处的环境参数集,并对其进行标记,得到带有标签的环境参数集;和将带有标签的环境参数集输入至预先训练的对抗性生成网络,得到全新的环境参数集的过程,直至该更新后的强化学习策略在该轮生成的扰动环境下的期望奖励小于或等于预先设定的奖励阈值,并将其输入至智能设备。
本发明与现有技术相比的有益效果是:
本发明的方法,可以自动地多次生成噪音扰动,且每次扰动是循序渐进式地施加难度,不仅可避免过分扰动带来的训练失败,还可避免限制扰动带来的训练欠鲁棒性,提升强化学习的鲁棒性,支持强化学习应用于机器人和无人驾驶车辆等智能设备。
附图说明
图1是本发明的一种基于强化学习策略操控智能设备的方法的流程图;
图2是本发明的一种基于强化学习策略操控智能设备的方法的如何进行更新策略的流程图。
具体实施方式
现结合附图对本发明作进一步的描述。
如图1所示,本发明提供了一种基于强化学习策略操控智能设备的方法,该方法包括:
获取当前扰动环境下的智能设备所处的环境参数集,作为智能设备所处的扰动环境,并对该环境参数集进行标记,得到带有标签的环境参数集;
其中,如图2所示,所述带有标签的环境参数集的获取过程为:
初始化强化学习策略和当前扰动环境下的智能设备所处的环境参数集P0;其中,强化学习策略π是智能设备根据当前的状态,下一步所要执行的动作,θ是强化学习策略的参数集合;该集合包括强化学习策略深度神经网络模型中的各个连接层的权重参数;扰动环境是一个大的环境(比如,摩擦系数较小的雪天),而当前状态指的是某一时刻的智能设备所处的状态(比如,处在要拐弯的状态,处在遇见行人的状态)。对于一个智能设备,其所处的扰动环境可能不会变化,但其所处的状态是时时刻刻在变化的,因此强化学习策略会根据智能设备此刻所处的状态,指示智能设备应该执行的动作(动作比如,方向盘左转30度,踩刹车的力度等);即强化学习策略的输入为智能设备所处的当前状态,输出为对应智能设备所处的当前状态的动作;
环境参数集包括扰动环境下不同的多个环境参数;
将强化学习策略分为中等难度和非中等难度,并用对应的标签进行标记;
其中,标记为1,则表示该强化学习策略为中等难度;标记为0,则表示该强化学习策略为非中等难度;非中等难度包括低等难度和高等难度;
将带有标签的环境参数集输入至预先训练的对抗性生成网络,得到全新的环境参数集;
所述对抗性生成网络的训练过程为:
基于GAN(Generative Adversarial Network,对抗性生成网络)自动扰动生成;
将带有标签的环境参数集LPi,输入至对抗性生成网络,训练对抗性生成网络,训练对抗性生成网络时的优化目标函数分别为:
其中,D(·)是GAN深度神经网络的判别器D的输出;G(·)是GAN深度神经网络的生成器G的输出;是输入样本LPi的分布;pz(z)是噪音分布;k是来源于输入样本LPi的分布的真实样本,z是来源于噪音分布pz(z)的噪音向量;G(z)为输入噪音向量z时,生成器G的输出,即生成样本;D(k)为输入真实样本k时,判别器D的输出,D(G(z))指的是输入生成样本G(z)时,判别器D的输出;
RANGE2(G(z))度量了生成样本G(z)之间的距离,w为控制生成样本G(z)多样性的权重参数;
a为负样本以及生成样本的标签值,b为正样本的标签值,c为生成器G期望生成的样本的标签值;
max(M[:,i])为矩阵M第i列的最大值;min(M[:,i])为矩阵M第i列的最小值;
对抗性生成网络输出新一轮的环境参数集Pi+1←G(z),并将其作为全新的环境参数集Pi+1;
其中,z是从噪音分布pz(z)采样的噪音向量;G(z)为输入噪音向量z时,生成器G的输出。
根据全新的环境参数集,对当前强化学习策略进行更新,获得与全新的环境参数集相适应的更新后的强化学习策略,并将其输入至智能设备;
具体地,如图2所示,进行基于扰动环境的策略更新;基于全新的环境参数集Pi+1,生成新的扰动环境,根据全新的环境参数集Pi+1,收集当前强化学习策略在全新的环境参数集Pi+1下的轨迹数据,并根据该轨迹数据,更新该当前强化学习策略从而获得与全新的环境参数集Pi+1相适应的更新后的强化学习策略
如果该更新后的强化学习策略在该轮生成的扰动环境下的期望奖励小于或等于预先设定的奖励阈值,则直接将其输入至智能设备;
如果该更新后的强化学习策略在该轮生成的扰动环境下的期望奖励大于预先设定的奖励阈值,则将该全新的环境参数集作为当前扰动环境下的智能设备所处的环境参数集,并重复获取当前扰动环境下的智能设备所处的环境参数集,并对其进行标记,得到带有标签的环境参数集;和将带有标签的环境参数集输入至预先训练的对抗性生成网络,得到全新的环境参数集的过程,直至该更新后的强化学习策略在该轮生成的扰动环境下的期望奖励小于或等于预先设定的奖励阈值,并将其输入至智能设备。
智能设备根据该更新后的强化学习策略,执行对应于当前状态的动作,完成在扰动环境下对智能设备的操控。
其中,在上述方法中,在重复获取当前扰动环境下的智能设备所处的环境参数集,并对其进行标记,得到带有标签的环境参数集;和将带有标签的环境参数集输入至预先训练的对抗性生成网络,得到全新的环境参数集的过程时,是基于智能设备的循序渐进的更新过程,自动地多次生成扰动参数,且每次扰动是循序渐进施加难度的,可以避免过分扰动带来的训练失败,也可以避免限制扰动带来的训练欠鲁棒性,提升强化学习的鲁棒性,支持强化学习应用于机器人和无人驾驶车辆等智能设备的训练。
本发明的方法解决训练环境与真实测试环境存在差异的问题,使得智能设备能够在各种真实环境中,获得更好地强化学习策略,提高强化学习的鲁棒性。现有的方法得到的强化学习策略只能在训练环境或者是与训练环境很相似的真实环境中运行,但并不能解决训练环境与真实测试环境之间存在差异性的问题,无法在真实环境与训练环境存在较大差异的情况下,让智能设备获得更合适的强化学习策略,导致对智能设备的操控失败,使得强化学习的鲁棒性大大降低。
实施例1.
该方法首次支持噪音扰动的难度逐渐增加;其过程是多次并且循序渐进实现的;基于对抗性生成网络实现其自动化,在OpenAI gym中Hopper机器人控制场景的实验结果,从鲁棒性得分方面初步表明该方法是可行的。
假设本发明的方法中所涉及的智能设备是无人驾驶车辆,且扰动环境参数为道路的摩擦系数,该方法包括:
获取当前扰动环境下的无人驾驶车辆所处的环境参数集P={0.95,0.90,0.88,0.85,0.76,0.72},并对其进行标记,得到带有标签的环境参数集LP={0.95:0,0.90:0,0.88:1,0.85:1,0.76:1,0.72:0}
将带有标签的环境参数集LP输入至预先训练的对抗性生成网络,得到全新的环境参数集P′={0.885,0.84,0.80,0.77,0.74,0.73};
根据全新的环境参数集,对当前强化学习策略进行更新,获得与全新的环境参数集相适应的更新后的强化学习策略,并将其输入至智能设备;
智能设备根据该更新后的强化学习策略,执行对应于当前状态的动作,完成在扰动环境下对智能设备的操控。
最后所应说明的是,以上实施例仅用以说明本发明的技术方案而非限制。尽管参照实施例对本发明进行了详细说明,本领域的普通技术人员应当理解,对本发明的技术方案进行修改或者等同替换,都不脱离本发明技术方案的精神和范围,其均应涵盖在本发明的权利要求范围当中。
Claims (4)
1.一种基于强化学习策略操控智能设备的方法,该方法包括:
获取当前扰动环境下的智能设备所处的环境参数集,作为智能设备所处的扰动环境,并对该环境参数集进行标记,得到带有标签的环境参数集;
将带有标签的环境参数集输入至预先训练的对抗性生成网络,得到全新的环境参数集;
根据全新的环境参数集,对当前强化学习策略进行更新,获得与全新的环境参数集相适应的更新后的强化学习策略,并将其输入至智能设备;
智能设备根据该更新后的强化学习策略,执行对应于智能设备所处的当前状态的动作,完成在扰动环境下对智能设备的操控。
2.根据权利要求1所述的基于强化学习策略操控智能设备的方法,其特征在于,所述带有标签的环境参数集的获取过程为:
其中,标记为1,则表示该强化学习策略为中等难度;
标记为0,则表示该强化学习策略为非中等难度;其中,非中等难度包括低等难度和高等难度;
3.根据权利要求2所述的基于强化学习策略操控智能设备的方法,其特征在于,所述对抗性生成网络的训练过程为:
将带有标签的环境参数集LPi,输入至对抗性生成网络,训练对抗性生成网络,训练对抗性生成网络时的优化目标函数分别为:
其中,D(·)是GAN深度神经网络的判别器D的输出;G(·)是GAN深度神经网络的生成器G的输出;是输入样本LPi的分布;pz(z)是噪音分布;k是来源于输入样本LPi的分布的真实样本,z是来源于噪音分布pz(z)的噪音向量;G(z)为输入噪音向量z时,生成器G的输出,即生成样本;D(k)为输入真实样本k时,判别器D的输出,D(G(z))指的是输入生成样本G(z)时,判别器D的输出;
RANGE2(G(z))度量了生成样本G(z)之间的距离,w为控制生成样本G(z)多样性的权重参数;
a为负样本以及生成样本的标签值;b为正样本的标签值;c为生成器G期望生成的样本的标签值;
max(M[:,i])为矩阵M第i列的最大值;min(M[:,i])为矩阵M第i列的最小值;
对抗性生成网络输出新一轮的环境参数集Pi+1←G(z),并将其作为全新的环境参数集Pi +1;
其中,z是从噪音分布pz(z)采样的噪音向量;G(z)为输入噪音向量z时,生成器G的输出。
4.根据权利要求3所述的基于强化学习策略操控智能设备的方法,其特征在于,所述根据全新的环境参数集,对当前强化学习策略进行更新,获得与全新的环境参数集相适应的更新后的强化学习策略,并将其输入至智能设备;其具体过程为:
进行基于扰动环境的策略更新;基于全新的环境参数集Pi+1,生成新的扰动环境,根据全新的环境参数集Pi+1,收集当前强化学习策略在全新的环境参数集Pi+1下的轨迹数据,并根据该轨迹数据,更新该当前强化学习策略从而获得与全新的环境参数集Pi+1相适应的更新后的强化学习策略
如果该更新后的强化学习策略在该轮生成的扰动环境下的期望奖励小于或等于预先设定的奖励阈值,则直接将其输入至智能设备;
如果该更新后的强化学习策略在该轮生成的扰动环境下的期望奖励大于预先设定的奖励阈值,则将该全新的环境参数集作为当前扰动环境下的智能设备所处的环境参数集,并重复获取当前扰动环境下的智能设备所处的环境参数集,并对其进行标记,得到带有标签的环境参数集;和将带有标签的环境参数集输入至预先训练的对抗性生成网络,得到全新的环境参数集的过程,直至该更新后的强化学习策略在该轮生成的扰动环境下的期望奖励小于或等于预先设定的奖励阈值,并将其输入至智能设备。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110175226.5A CN112965380B (zh) | 2021-02-07 | 2021-02-07 | 一种基于强化学习策略操控智能设备的方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110175226.5A CN112965380B (zh) | 2021-02-07 | 2021-02-07 | 一种基于强化学习策略操控智能设备的方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112965380A true CN112965380A (zh) | 2021-06-15 |
CN112965380B CN112965380B (zh) | 2022-11-08 |
Family
ID=76284310
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110175226.5A Active CN112965380B (zh) | 2021-02-07 | 2021-02-07 | 一种基于强化学习策略操控智能设备的方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112965380B (zh) |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20190156197A1 (en) * | 2017-11-22 | 2019-05-23 | International Business Machines Corporation | Method for adaptive exploration to accelerate deep reinforcement learning |
CN110686906A (zh) * | 2019-10-09 | 2020-01-14 | 清华大学 | 车辆自动驾驶测试方法及装置 |
CN110991027A (zh) * | 2019-11-27 | 2020-04-10 | 华南理工大学 | 一种基于虚拟场景训练的机器人模仿学习方法 |
CN111553587A (zh) * | 2020-04-26 | 2020-08-18 | 中国电力科学研究院有限公司 | 一种基于对抗学习模型的新能源场景生成方法及系统 |
CN112052456A (zh) * | 2020-08-31 | 2020-12-08 | 浙江工业大学 | 基于多智能体的深度强化学习策略优化防御方法 |
-
2021
- 2021-02-07 CN CN202110175226.5A patent/CN112965380B/zh active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20190156197A1 (en) * | 2017-11-22 | 2019-05-23 | International Business Machines Corporation | Method for adaptive exploration to accelerate deep reinforcement learning |
CN110686906A (zh) * | 2019-10-09 | 2020-01-14 | 清华大学 | 车辆自动驾驶测试方法及装置 |
CN110991027A (zh) * | 2019-11-27 | 2020-04-10 | 华南理工大学 | 一种基于虚拟场景训练的机器人模仿学习方法 |
CN111553587A (zh) * | 2020-04-26 | 2020-08-18 | 中国电力科学研究院有限公司 | 一种基于对抗学习模型的新能源场景生成方法及系统 |
CN112052456A (zh) * | 2020-08-31 | 2020-12-08 | 浙江工业大学 | 基于多智能体的深度强化学习策略优化防御方法 |
Non-Patent Citations (1)
Title |
---|
孙嘉浩等: "基于强化学习的无人驾驶仿真研究", 《农业装备与车辆工程》 * |
Also Published As
Publication number | Publication date |
---|---|
CN112965380B (zh) | 2022-11-08 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110745136B (zh) | 一种驾驶自适应控制方法 | |
CN109131348B (zh) | 一种基于生成式对抗网络的智能车驾驶决策方法 | |
CN112116144B (zh) | 一种区域配电网短期负荷预测方法 | |
CN112150808B (zh) | 一种基于深度学习的城市交通系统调度策略生成方法 | |
CN106347359A (zh) | 用于操作自动驾驶车辆的方法和装置 | |
CN110490275B (zh) | 一种基于迁移学习的驾驶行为预测方法 | |
CN111783943B (zh) | 一种基于lstm神经网络的驾驶员制动强度预测方法 | |
CN102200787A (zh) | 机器人行为多层次集成学习方法及系统 | |
CN105487376A (zh) | 一种基于数据驱动单网络结构的最优控制方法 | |
CN111580526B (zh) | 面向固定车辆编队场景的协同驾驶方法 | |
CN116433957A (zh) | 一种基于半监督学习的智能驾驶感知方法 | |
DE102018130968A1 (de) | Verfahren und vorrichtung zum einstellen einer aerodynamik an einem fahrenden fahrzeug | |
CN114074680A (zh) | 基于深度强化学习的车辆换道行为决策方法及系统 | |
CN115690568A (zh) | 一种基于增量学习的无人艇目标检测方法 | |
CN112965380B (zh) | 一种基于强化学习策略操控智能设备的方法 | |
CN112989702B (zh) | 一种装备性能分析与预测的自学习方法 | |
CN109611222A (zh) | 一种基于脉冲神经网络的电子节气门控制方法 | |
CN109002878A (zh) | 一种ga优化bp神经网络 | |
CN110705756B (zh) | 一种基于输入凸神经网络的电力能耗优化控制方法 | |
CN114148349B (zh) | 一种基于生成对抗模仿学习的车辆个性化跟驰控制方法 | |
CN113807005A (zh) | 基于改进fpa-dbn的轴承剩余寿命预测方法 | |
CN113255725B (zh) | 基于两阶段lstm的汽车传感器攻击检测与修复方法 | |
DE102019128223A1 (de) | Verfahren, Vorrichtungen und Computerprogramme | |
CN116384439B (zh) | 一种基于自蒸馏的目标检测方法 | |
CN211043961U (zh) | 一种用于学习算法的装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |