CN112965380A

CN112965380A - 一种基于强化学习策略操控智能设备的方法

Info

Publication number: CN112965380A
Application number: CN202110175226.5A
Authority: CN
Inventors: 辛苗
Original assignee: Beijing Universal Cloud Data Analytics Technology Co ltd
Current assignee: Beijing Universal Cloud Data Analytics Technology Co ltd
Priority date: 2021-02-07
Filing date: 2021-02-07
Publication date: 2021-06-15
Anticipated expiration: 2041-02-07
Also published as: CN112965380B

Abstract

本发明属于人工智能的操控和强化学习技术领域，具体地说，涉及一种基于强化学习策略操控智能设备的方法，该方法包括：获取当前扰动环境下的智能设备所处的环境参数集，作为智能设备所处的扰动环境，并对该环境参数集进行标记，得到带有标签的环境参数集；将带有标签的环境参数集输入至预先训练的对抗性生成网络，得到全新的环境参数集；根据全新的环境参数集，对当前强化学习策略进行更新，获得与全新的环境参数集相适应的更新后的强化学习策略，并将其输入至智能设备；智能设备根据该更新后的强化学习策略，执行对应于智能设备所处的当前状态的动作，完成在扰动环境下对智能设备的操控。

Description

一种基于强化学习策略操控智能设备的方法

技术领域

本发明属于人工智能的操控和强化学习技术领域，具体地说，涉及基于一种基于强化学习策略操控智能设备的方法。

背景技术

强化学习是人工智能的核心技术之一，通过不断与应用环境交互，进而学习到最优的策略，为机器人、无人驾驶车辆等智能设备提供智力的决策支持。公开材料显示，在公开比赛前，阿尔法围棋AlphaGo已经使用了强化学习进行训练。但是，训练环境与真实环境总是存在差异的，由于存在噪音而导致训练环境和真实环境不可能完全一致。因此，如何降低由于训练环境与真实环境之间的差异性而导致对训练的影响，以及如何提高强化学习的鲁棒性是一个重要的研究问题。

目前的传统方法中，主要是在训练过程中，对环境参数增加随机噪音扰动，使得强化学习训练过程包括更多的噪音，从而提高训练鲁棒性。但是，现有的方法不能有效控制噪音的扰动，过大的扰动会导致强化学习无法训练出最优策略，导致训练失败；而限制扰动又会导致训练的欠鲁棒性。

发明内容

为解决现有技术存在的上述缺陷，本发明提出了一种基于强化学习策略操控智能设备的方法，具体涉及基于循序渐进的鲁棒性强化学习策略操控机器人和无人驾驶车辆等智能设备的方法；该方法包括：

获取当前扰动环境下的智能设备所处的环境参数集，作为智能设备所处的扰动环境，并对该环境参数集进行标记，得到带有标签的环境参数集；

将带有标签的环境参数集输入至预先训练的对抗性生成网络，得到全新的环境参数集；

根据全新的环境参数集，对当前强化学习策略进行更新，获得与全新的环境参数集相适应的更新后的强化学习策略，并将其输入至智能设备；

智能设备根据该更新后的强化学习策略，执行对应于智能设备所处的当前状态的动作，完成在扰动环境下对智能设备的操控。

作为上述技术方案的改进之一，所述带有标签的环境参数集的获取过程为：

初始化强化学习策略

和当前扰动环境下的智能设备所处的环境参数集P⁰；其中，强化学习策略π是智能设备根据当前的状态，下一步所要执行的动作；将强化学习策略分为中等难度和非中等难度，并用对应的标签进行标记；

其中，标记为1，则表示该强化学习策略为中等难度；

标记为0，则表示该强化学习策略为非中等难度；其中，非中等难度包括低等难度和高等难度；

在智能设备所处的当前状态，获取第i轮的环境参数集Pⁱ，为第i轮的环境参数集Pⁱ中的每一个环境参数

生成对应的标签

该标签用于标记其对于当前的强化学习策略是否为中等难度，

判断在每个环境参数

下当前强化学习策略的期望奖励

是否在根据当前强化学习策略预先设定的中等难度阈值范围内；

如果

时，则

为中等难度的环境参数，并标记为1，标签

如果

或

时，则

为高等难度或低等难度的环境参数，并标记为0，标签

其中，

是第i轮的当前强化学习策略

在环境参数为

的扰动环境下的期望奖励；

为根据当前强化学习策略

预先设定的中等难度阈值的上界；

为根据当前强化学习策略

预先设定的中等难度阈值的下界；

因此，标签

的公式为：

根据上述判断过程，对第i轮的环境参数集Pⁱ中的每一个环境参数

进行标记，得到带有标签的环境参数集，记为LPⁱ。

作为上述技术方案的改进之一，所述对抗性生成网络的训练过程为：

将带有标签的环境参数集LPⁱ，输入至对抗性生成网络，训练对抗性生成网络，训练对抗性生成网络时的优化目标函数分别为：

其中，D(·)是GAN深度神经网络的判别器D的输出；G(·)是GAN深度神经网络的生成器G的输出；

是输入样本LPⁱ的分布；p_z(z)是噪音分布；k是来源于输入样本LPⁱ的分布

的真实样本，z是来源于噪音分布p_z(z)的噪音向量；G(z)为输入噪音向量z时，生成器G的输出，即生成样本；D(k)为输入真实样本k时，判别器D的输出，D(G(z))指的是输入生成样本G(z)时，判别器D的输出；

是关于服从输入分布

的随机变量k的函数

的期望值；

是关于服从噪音分布p_z(z)的随机变量z的函数[(D(G(z))-a)²]的期望值；

是关于服从噪音分布p_z(z)的随机变量z的函数[(D(G(z))-c)²]的期望值；

RANGE²(G(z))度量了生成样本G(z)之间的距离，w为控制生成样本G(z)多样性的权重参数；

是矩阵M每一列所有元素极差的平方和；

a为负样本以及生成样本的标签值；b为正样本的标签值；c为生成器G期望生成的样本的标签值；

max(M[：，i])为矩阵M第i列的最大值；min(M[：，i])为矩阵M第i列的最小值；

对抗性生成网络输出新一轮的环境参数集Pⁱ⁺¹←G(z)，并将其作为全新的环境参数集Pⁱ⁺¹；

其中，z是从噪音分布p_z(z)采样的噪音向量；G(z)为输入噪音向量z时，生成器G的输出。

作为上述技术方案的改进之一，所述根据全新的环境参数集，对当前强化学习策略进行更新，获得与全新的环境参数集相适应的更新后的强化学习策略，并将其输入至智能设备；其具体过程为：

进行基于扰动环境的策略更新；基于全新的环境参数集Pⁱ⁺¹，生成新的扰动环境，根据全新的环境参数集Pⁱ⁺¹，收集当前强化学习策略

在全新的环境参数集Pⁱ⁺¹下的轨迹数据，并根据该轨迹数据，更新该当前强化学习策略

从而获得与全新的环境参数集Pⁱ⁺¹相适应的更新后的强化学习策略

判断该更新后的强化学习策略

在该轮生成的扰动环境下的期望奖励是否小于或等于预先设定的奖励阈值；

如果该更新后的强化学习策略在该轮生成的扰动环境下的期望奖励小于或等于预先设定的奖励阈值，则直接将其输入至智能设备；

如果该更新后的强化学习策略在该轮生成的扰动环境下的期望奖励大于预先设定的奖励阈值，则将该全新的环境参数集作为当前扰动环境下的智能设备所处的环境参数集，并重复获取当前扰动环境下的智能设备所处的环境参数集，并对其进行标记，得到带有标签的环境参数集；和将带有标签的环境参数集输入至预先训练的对抗性生成网络，得到全新的环境参数集的过程，直至该更新后的强化学习策略在该轮生成的扰动环境下的期望奖励小于或等于预先设定的奖励阈值，并将其输入至智能设备。

本发明与现有技术相比的有益效果是：

本发明的方法，可以自动地多次生成噪音扰动，且每次扰动是循序渐进式地施加难度，不仅可避免过分扰动带来的训练失败，还可避免限制扰动带来的训练欠鲁棒性，提升强化学习的鲁棒性，支持强化学习应用于机器人和无人驾驶车辆等智能设备。

附图说明

图1是本发明的一种基于强化学习策略操控智能设备的方法的流程图；

图2是本发明的一种基于强化学习策略操控智能设备的方法的如何进行更新策略的流程图。

具体实施方式

现结合附图对本发明作进一步的描述。

如图1所示，本发明提供了一种基于强化学习策略操控智能设备的方法，该方法包括：

其中，如图2所示，所述带有标签的环境参数集的获取过程为：

初始化强化学习策略

和当前扰动环境下的智能设备所处的环境参数集P⁰；其中，强化学习策略π是智能设备根据当前的状态，下一步所要执行的动作，θ是强化学习策略的参数集合；该集合包括强化学习策略深度神经网络模型中的各个连接层的权重参数；扰动环境是一个大的环境(比如，摩擦系数较小的雪天)，而当前状态指的是某一时刻的智能设备所处的状态(比如，处在要拐弯的状态，处在遇见行人的状态)。对于一个智能设备，其所处的扰动环境可能不会变化，但其所处的状态是时时刻刻在变化的，因此强化学习策略会根据智能设备此刻所处的状态，指示智能设备应该执行的动作(动作比如，方向盘左转30度，踩刹车的力度等)；即强化学习策略的输入为智能设备所处的当前状态，输出为对应智能设备所处的当前状态的动作；

环境参数集包括扰动环境下不同的多个环境参数；

将强化学习策略分为中等难度和非中等难度，并用对应的标签进行标记；

其中，标记为1，则表示该强化学习策略为中等难度；标记为0，则表示该强化学习策略为非中等难度；非中等难度包括低等难度和高等难度；

在智能设备所处的当前扰动环境下，获取第i轮的环境参数集Pⁱ，为第i轮的环境参数集Pⁱ中的每一个环境参数

生成对应的标签

判断在每个环境参数

下当前强化学习策略的期望奖励

如果

时，则

为中等难度的环境参数，并标记为1，标签

如果

或

时，则

为高等难度或低等难度的环境参数，并标记为0，标签

其中，

是第i轮的当前强化学习策略

在环境参数为

的扰动环境下的期望奖励；

为根据当前强化学习策略

预先设定的中等难度阈值的上界；

为根据当前强化学习策略

预先设定的中等难度阈值的下界；

因此，标签

的公式为：

进行标记，得到带有标签的环境参数集，记为LPⁱ。

所述对抗性生成网络的训练过程为：

基于GAN(Generative Adversarial Network,对抗性生成网络)自动扰动生成；

是关于服从输入分布

的随机变量k的函数

的期望值；

是矩阵M每一列所有元素极差的平方和；

a为负样本以及生成样本的标签值，b为正样本的标签值，c为生成器G期望生成的样本的标签值；

具体地，如图2所示，进行基于扰动环境的策略更新；基于全新的环境参数集Pⁱ⁺¹，生成新的扰动环境，根据全新的环境参数集Pⁱ⁺¹，收集当前强化学习策略

判断该更新后的强化学习策略

智能设备根据该更新后的强化学习策略，执行对应于当前状态的动作，完成在扰动环境下对智能设备的操控。

其中，在上述方法中，在重复获取当前扰动环境下的智能设备所处的环境参数集，并对其进行标记，得到带有标签的环境参数集；和将带有标签的环境参数集输入至预先训练的对抗性生成网络，得到全新的环境参数集的过程时，是基于智能设备的循序渐进的更新过程，自动地多次生成扰动参数，且每次扰动是循序渐进施加难度的，可以避免过分扰动带来的训练失败，也可以避免限制扰动带来的训练欠鲁棒性，提升强化学习的鲁棒性，支持强化学习应用于机器人和无人驾驶车辆等智能设备的训练。

本发明的方法解决训练环境与真实测试环境存在差异的问题，使得智能设备能够在各种真实环境中，获得更好地强化学习策略，提高强化学习的鲁棒性。现有的方法得到的强化学习策略只能在训练环境或者是与训练环境很相似的真实环境中运行，但并不能解决训练环境与真实测试环境之间存在差异性的问题，无法在真实环境与训练环境存在较大差异的情况下，让智能设备获得更合适的强化学习策略，导致对智能设备的操控失败，使得强化学习的鲁棒性大大降低。

实施例1.

该方法首次支持噪音扰动的难度逐渐增加；其过程是多次并且循序渐进实现的；基于对抗性生成网络实现其自动化，在OpenAI gym中Hopper机器人控制场景的实验结果，从鲁棒性得分方面初步表明该方法是可行的。

假设本发明的方法中所涉及的智能设备是无人驾驶车辆，且扰动环境参数为道路的摩擦系数，该方法包括：

获取当前扰动环境下的无人驾驶车辆所处的环境参数集P＝{0.95,0.90,0.88,0.85,0.76,0.72}，并对其进行标记，得到带有标签的环境参数集LP＝{0.95:0,0.90:0,0.88:1,0.85:1,0.76:1,0.72:0}

将带有标签的环境参数集LP输入至预先训练的对抗性生成网络，得到全新的环境参数集P′＝{0.885,0.84,0.80,0.77,0.74,0.73}；

最后所应说明的是，以上实施例仅用以说明本发明的技术方案而非限制。尽管参照实施例对本发明进行了详细说明，本领域的普通技术人员应当理解，对本发明的技术方案进行修改或者等同替换，都不脱离本发明技术方案的精神和范围，其均应涵盖在本发明的权利要求范围当中。