CN111582495A

CN111582495A - 基于优胜劣汰的深度强化学习策略网络存储方法及设备

Info

Publication number: CN111582495A
Application number: CN202010320186.4A
Authority: CN
Inventors: 赵江; 李明君; 蔡志浩; 王英勋
Original assignee: Beihang University
Current assignee: Beihang University
Priority date: 2020-04-22
Filing date: 2020-04-22
Publication date: 2020-08-25

Abstract

一种基于优胜劣汰的深度强化学习策略网络的存储方法，该方法包括：获取当前训练周期的结果和策略网络；判断所述当前训练周期的结果是否满足策略网络测试要求；在判断所述当前训练周期的结果满足所述策略网络测试要求的情况下，进行策略网络测试；获得该策略网络测试的结果；判断所述策略网络测试的结果是否满足保存要求；在判断所述策略网络测试的结果满足保存要求的情况下，保存所述策略网络以及所述策略网络测试的结果。

Description

基于优胜劣汰的深度强化学习策略网络存储方法及设备

技术领域

本发明涉及一种深度强化学习的策略网络的存储方法，更具体地涉及一种基于优胜劣汰的在深度强化学习训练时挑选训练过程中最优的策略网络并存储的方法和设备。

背景技术

深度强化学习是机器学习中的一个分支，融合了深度学习与强化学习，较好的解决了从低层次的感知到高层次的决策问题。深度强化学习的过程可以理解为通过深度学习的感知能力获取环境的信息，再通过强化学习使得智能体具有一定的决策能力。强化学习算法理论的形成可以追溯到上个世界七八十年代，几十年来强化学习算法一直在不断的更新迭代。与常见的监督学习、无监督学习不同，强化学习的本质是一种以环境反馈作为输入的、适应环境的机器学习方法。它模仿了自然界中人类或动物学习的基本途径，通过与环境不断交互和试错的过程，利用评价性的反馈信号来优化所采取的行为决策。

在深度强化学习中有两个主要的组成部，为智能体(Agent)和环境(Environment)。智能体是指采用深度强化学习进行学习的事物本身，可以通过学习而自动获取有价值信息的计算机(或者含有计算机的机器)，环境是指智能体所依赖并活动、交互的世界。在每一次智能体与环境相交互的过程中，智能体会观察当前时刻自身在环境中所呈现的状态(State)，或者部分状态，并以此为依据来决定自身在当前时刻所应该采取的行为(Action)。同时，在每一次智能体与环境交互的过程中，智能体会从环境中接受到一个反馈信息，这里称为奖励(Reward)。奖励是用一个具体的数值来表示，它会告诉智能体，当前时刻其在环境的状态表现是有多好或者有多糟糕。智能体的学习目标是为了获得最大的累计奖励，这里称为回报(Return)。深度强化学习就是一种在智能体与环境不断的信息交互中使得智能体学习如何采取行为来达到它目标的一种方法。深度强化学习的原理如图1所示。

深度强化学习算法的目标是使得智能体学习到最优的策略，从而最大化智能体在单次周期内获得的累计奖励，即回报。形象来说，策略相当于智能体的大脑，控制智能体的行为，充当智能体的控制器。策略本质上是一组带参数的可计算函数，最常用的是带有权重参数和偏置参数的神经网络。这里用符号π表示智能体的策略，用符号θ来表示策略中的参数，用符号π_θ整体表示带参数的智能体策略。策略的输出是智能体的行为，通过梯度下降算法来调整策略的参数，以此来改变智能体采取的行为。

智能体在单次周期内获得的回报为：

其中T表示单次周期内的总时刻数，t表示单次周期内智能体与环境进行交互的一段完整轨迹，可以用智能体的状态-行为序列来表示：

s₀,a₀,L,s_T-1,a_T-1,s_T

r_t表示在t时刻智能体获得的回报值。s_t表示智能体在t时刻的状态，a_t表示智能体在t时刻采取的行为。R(t)表示单次周期内，智能体经历交互的轨迹t获得的回报。

深度强化学习的目标用数学的形式表示可以为：

其中E[R(t)]代表R(t)的期望值，t:π_θ代表智能体与环境进行交互所得到的轨迹依赖于当前智能体的策略π_θ。J(π_θ)代表深度强化学习的目标函数，即依赖于π_θ的期望回报值。

深度强化学习算法解决的本质问题是训练一个策略网络π_θ，使得目标函数J(π_θ)最大化。该策略网络映射了智能体与环境交互模型的状态量与智能体行为量之间的关系，使得智能体凭借自身当前时刻测量的状态量，计算当前时刻自身的行为量。在使用任何深度强化学习方法完成训练之后都要面临策略网络保存的问题，因为之后需要反复使用训练好的策略网络对智能体进行行为量的计算。

目前在深度强化学习领域中，没有专门对深度强化学习网络保存的问题做出特别有效的方法研究。通常使用的方法有如下两种：

(1)设定深度强化学习的训练周期，等待训练结束时取最终策略网络进行保存。

(2)在深度强化学习训练过程中，每间隔一定周期数对策略网络进行一次保存。训练结束后对保存的所有网络进行比较，选择其中表现最优的策略网络进行保存。

目前常使用的两种深度强化学习网络保存方法均存在一些不足。众所周知，深度强化学习算法并不是一种特别稳定的学习算法。由于强化学习训练原理中必须包含一定的探索机制，导致训练过程并不是一直朝着最优的方向进行。纵然是当前所有深度强化学习算法中表现最好的深度增强学习算法(Proximal Policy Optimization算法，简称PPO算法)，在训练时也会存在随着训练时长的增加，网络表现结果越来越差的情况。因此若是使用第一种深度强化学习策略网络保存方法，等待训练结束后，最终得到的策略网络往往不是整个训练过程中最优的策略网络，更严重的情况可能得到完全不能使用的策略网络。

针对这一问题，提出了第二种深度强化学习策略网络保存方法。第二种方法不是只保存训练结束后最终的策略网络，而是在整个训练过程对策略网络进行周期性的保存，以防训练结果由好变坏。但是使用深度强化学习进行训练通常是一个非常漫长的过程，往往设定的训练周期数目会非常高，导致最终保存的网络数目也是相当的巨大，后期将要付出较大的工作量对所有保存的策略网络进行筛选。同时，由于策略网络的保存依然是间断性的，并不会保存训练过程中所有出现过的策略网络，这将导致最终筛选出来的策略网络可能依然不是整个训练过程中表现最优的策略网络。

针对以上两种当前常用的深度强化学习策略网络保存方法存在的问题，提出了基于优胜劣汰的深度强化学习策略网络存储方法。该机制将策略网络的筛选与训练过程融合在一起，在训练过程中及时对策略网络进行测试、评价、筛选，在训练结束后将会保存整个深度强化学习训练过程表现最优的策略网络。

发明内容

本发明针对深度强化学习中的策略网络选择并保存的问题，提出了基于优胜劣汰的策略网络存储方法。该方法将网络的筛选与网络的训练融合在一起，在训练过程中及时对策略网络进行测试、评价、筛选，在使用深度强化学习算法完成训练时，会直接得到整个训练过程中表现最优的网络。

根据本发明的一个实施方式提供了一种基于优胜劣汰的深度强化学习策略网络存储方法，该方法包括以下步骤：获取当前训练周期的结果和策略网络；判断所述当前训练周期的结果是否满足策略网络测试要求；在判断所述当前训练周期的结果满足所述策略网络测试要求的情况下，进行策略网络测试；获得该策略网络测试的结果；判断所述策略网络测试的结果是否满足保存要求；在判断所述策略网络测试的结果满足保存要求的情况下，保存所述策略网络以及所述策略网络测试的结果。

可选地，根据本发明的另一个实施方式，获取当前训练周期的结果的步骤可包括获取当前训练周期的累计奖励值。

可选地，根据本发明的另一个实施方式，判断当前训练周期的结果是否满足策略网络测试要求的步骤包括：预设可接受的单周期累计奖励阈值；比较所述当前训练周期的累计奖励值与该预设可接受的单周期累计奖励阈值；通过所述比较步骤确定当前训练周期的累计奖励值是否满足策略网络测试要求。

可选地，根据本发明的另一个实施方式，在判断所述当前训练周期的结果满足所述策略网络测试要求的情况下进行策略网络测试的步骤包括：设定周期数；以当前策略网络运行所设定的周期数；获得将当前策略网络运行所述设定周期数的累计奖励均值作为该策略网络测试的结果。

可选地，根据本发明的另一个实施方式，判断所述策略网络测试的结果是否满足保存要求的步骤包括：设定可保存测试累计奖励阈值；比较所述累计奖励均值与所述可保存测试累计奖励阈值；通过所述比较步骤确定所述策略网络测试的结果是否满足所述保存要求。

可选地，根据本发明的另一个实施方式，在判断所述策略网络测试的结果满足保存要求的情况下，保存所述策略网络以及所述策略网络测试的结果的步骤包括：获得所述策略网络测试的结果满足保存要求的信息；保存所述策略网络；保存所述累计奖励均值并以该所述累计奖励均值替代所述可保存测试累计奖励阈值。

可选地，根据本发明的另一个实施方式，在获取当前训练周期的结果和策略网络的步骤之前还可包括：设定训练过程循环周期数目与每周期环境模型交互次数；随机初始化策略网络；随机初始化智能体状态；以设定的交互次数进行智能体与环境交互；在训练循环所设定的周期数目之后，在满足策略网络更新条件的情况下对策略网络进行更新迭代，从而得到当前训练周期的结果和策略网络。

根据本发明的一个实施方式，提供了一种设备，包括：存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序，其特征在于，所述处理器运行所述计算机程序时执行根据本发明的实施方式的基于优胜劣汰的深度强化学习策略网络的存储方法。

本发明与现有技术相比所具有的有益效果：

(1)通过根据本发明的深度强化学习策略网络存储方法的实施方式可以得到整个深度强化学习训练过程中表现最优的策略网络。

(2)根据本发明的深度强化学习策略网络存储方法的实施方式完整的融入深度强化学习训练过程之中，在训练的同时对策略网络进行测试、评估、保存。在训练结束时直接得到所需的策略网络。

通过参考附图和以下说明，本发明的其它装置、设备、系统、方法、特征和优点将是明显的。包括在本说明书中的所有的另外的这种系统、方法、特征和优点都在本发明的范围内，且由所附权利要求保护。

附图说明

通过阅读下文优选实施方式的详细描述，各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的，而并不认为是对本发明的限制。而且在整个附图中，用相同的参考符号表示相同的部件。通过参考附图可更好地理解本发明。

图1示出了现有的深度强化学习学习原理示意图。

图2示出了根据本发明的融合策略网络保存方法的实施方式的深度强化学习方法流程图。

图3示出了根据本发明的基于优胜劣汰的深度强化学习策略网络存储方法的实施方式的流程图。

图4示出了Open Ai开源提供的GYM环境模型库中的立杆模型示意图。

图5(a)示出了在DDPG算法训练立杆问题的训练过程中采用根据本发明的基于优胜劣汰的深度强化学习网络存储方法的实施方式得到的策略网络的训练过程图。

图5(b)示出了在DDPG算法训练立杆问题的训练过程中采用现有技术的深度强化学习网络保存方法所保存最终的策略网络的训练过程图。

图6(a)示出了采用根据本发明的基于优胜劣汰的深度强化学习网络存储方法的实施方式得到的策略网络的性能效果测试结果图。

图6(b)示出了采用现有技术的深度强化学习网络保存方法所保存最终的策略网络的性能效果测试结果图。

图7(a1)示出了采用根据本发明的基于优胜劣汰的深度强化学习网络存储方法的实施方式得到的策略网络单次立杆测试立杆角度变化图。

图7(a2)示出了采用根据本发明的基于优胜劣汰的深度强化学习网络存储方法的实施方式得到的策略网络的行为控制变化图。

图7(b1)示出了采用现有技术的深度强化学习网络保存方法所保存最终的策略网络的单次立杆测试立杆角度变化图。

图7(b2)示出了采用现有技术的深度强化学习网络保存方法所保存最终的策略网络的行为控制变化图。

具体实施方式

下面将参照附图更详细地描述本公开的示例性实施方式。虽然附图中显示了本公开的示例性实施方式，然而应当理解，可以以各种形式实现本公开而不应被这里阐述的实施方式所限制。相反，提供这些实施方式是为了能够更透彻地理解本公开，并且能够将本公开的范围完整的传达给本领域的技术人员。

需要注意的是，除非另有说明，本发明使用的技术术语或者科学术语应当为本发明所属领域技术人员所理解的通常意义。

本发明的实施方式提供了一种深度强化学习策略网络存储方法及终端设备。下面结合附图对根据本发明的基于优胜劣汰的深度强化学习策略网络存储方法的实施例进行说明。

在使用深度强化学习算法进行训练时，会提前设定总的训练周期数目或者总的训练步长数目。不同深度强化学习算法有不同的策略网络更新机制，但是在原理上均是通过积累历史经验数据，采用梯度下降算法对策略网络的参数进行更新。在设定的总体训练过程中会依照算法的机制不停的对策略网络进行更新迭代，每一次对策略网络的更新均会改变策略网络。图2示出了根据本发明所提出的深度强化学习策略网络存储方法的一个实施方式在整个深度强化学习算法训练过程中的应用。

由图2中可以看出，将网络保存机制融入深度强化学习训练的过程当中，在每个训练周期结束之后会进去网络保存机制当中，对当前时刻策略网络的表现能力进行测试、评估，并选择性的保存，在训练结束后可以直接取出当前保存的策略网络。图3示出了根据本发明的基于优胜劣汰的深度强化学习策略网络存储方法的实施方式的流程图。

图3中包含了一些与根据本发明的深度强化学习策略网络存储方法的实施方式相关的参数，其符号表示与定义如表1所示。

深度强化学习的目标是通过学习算法获取智能体的策略网络，该策略网络使得智能体在单次任务(或者轨迹、周期)中获得最大的累计期望奖励。因此单周期的累计奖励是评价一个策略网络好坏的标准。在深度强化学习的训练过程中，每次更新均会改变策略网络，若是每次更新后均对策略网络进行测试是不明智的，会耗费巨大的计算资源和时长。在该实施方式中，设定可接受的单周期累计奖励阈值Reward_Episode_Accept参数，用来过滤不值得进行测试的策略网络。每当一个训练周期结束之后，可以通过经验数据计算当前周期的累计奖励，用该累计奖励来表示当前策略的优劣。当当前周期累计奖励Reward_Episode大于设定的可接受的单周期累计奖励阈值Reward_Episode_Accept时，说明该策略网络值得进行测试。

在该实施方式中，对策略网络进行测试的步骤包括：智能体采用当前策略网络进行M个独立的，不相关的周期，每个周期的初始状态随机，服从初始化状态分布。分别计算每个周期的累计奖励，并计算M个周期的累计奖励平均值Reward_Test_Mean。该累计奖励平均值Reward_Test_Mean表示了对该策略网络的测试结果。

在该实施方式中，接着，通过设定可保存测试累计奖励阈值Reward_Test_Accept对测试过的策略网络进行筛选，判断是否保存该策略网络。可保存测试累计奖励阈值Reward_Test_Accept的初值可根据经验提前设定。若当前策略网络的测试的累计奖励平均值Reward_Test_Mean大于可保存测试累计奖励阈值Reward_Test_Accept，说明当前策略网络可以保存，同时将该可保存测试累计奖励阈值Reward_Test_Accept值更新为当前保存策略网络相对应的测试结果值Reward_Test_Mean，提高下次保存策略网络的门槛。之后每当策略网络的测试值Reward_Test_Mean大于可保存测试累计奖励阈值Reward_Test_Accept时，则说明当前的策略网络优于之前保存的策略网络，可将新的策略网络保存，替换之前的策略网络，并同时更新可保存测试累计奖励阈值Reward_Test_Accept，直到训练结束。

上述所描述的根据本发明的深度强化学习策略网络保存方法的实施方式汲取了优胜劣汰的思想，通过可保存测试累计奖励阈值Reward_Test_Accept标定了当前已保存策略网络的表现优劣，若是新的策略网络表现优于当前保存的策略网络，则会将之前保存的策略网络淘汰，保存表现更好的策略网络。通过该保存机制，在完成整个训练过程后可以直接得到整个训练过程中表现最优的策略网络。

参考附图4至图7(b2)，下面通过一个具体的实例对本发明的实施方式进行详细的说明。

在这里，分别使用根据本发明的深度强化学习策略网络存储方法的一个实施方式与当前常用的深度强化学习策略网络保存方法，针对同一深度强化学习问题进行策略网络的保存工作。通过对比两种方法所保存的策略网络优劣来说明本发明所提出的策略网络保存机制的有效性。

作为验证的深度强化学习问题为：使用深度强化学习算法中较为典型的深度增强学习算法(Deep Deterministic Policy Gradient,简称DDPG算法)处理立杆问题，通过DDPG算法训练一个策略网络使得处于任意初始位置的立杆尽快旋转并保持直立状态。

采用的立杆模型来源于Open Ai开源提供的GYM环境模型库中的立杆模型。参考图4，示出了GYM环境模型库中的立杆模型示意图。该立杆模型代码为“Pendulum-v0”。使用的DDPG算法为Open Ai开源提供的baselines项目中的算法代码，具有一定的通用性和公平性。

在该示意性示例中，在使用DDPG算法时设置的训练周期为500个周期，每个周期的步长为200步，总训练步长为100000步。其余超参数为默认值。采用DDPG算法对相同的模型进行两次独立的训练过程。分别采用根据本发明的基于优胜劣汰的深度强化学习网络存储方法的实施方式和常用的深度强化学习网络保存方法(即：等待训练结束后保存最终的策略网络)对训练得到的策略网络进行保存。在使用本发明提出的策略网络保存机制时，特殊超参数设定如以下表2所示。

为了之后描述的方便起见，记采用本发明的基于优胜劣汰的深度强化学习网络存储方法的实施方式得到的策略网络为A网络，通过常用的网络保存方法得到的为B网络。

图5(a)示出了在DDPG算法训练立杆问题的训练过程中采用根据本发明的基于优胜劣汰的深度强化学习网络存储方法的实施方式得到的策略网络的训练过程图。图5(b)示出了在DDPG算法训练立杆问题的训练过程中采用现有技术的深度强化学习网络保存方法所保存最终的策略网络的训练过程图。从图5(a)和图5(b)中显示出，随着训练周期数目的增加，每周期获得的累计奖励逐渐增加并趋于稳定。因为两组仿真采用了相同的立杆模型，相同的深度强化学习算法，而策略网络的保存并不影响使用深度强化学习算法的训练过程，所以可以看出这两组训练过程基本相同。两组训练过程以及结果非常相近，恰好可以表现出策略网络保存方法的优劣。

参考图5(a)和图5(b)，在使用深度强化学习算法完成立杆问题的训练之后，采用两种策略网络保存机制分别得到了两个适用于立杆问题的策略网络。A网络对应的Reward_Test_Accept值为-108.98，表明该策略网络在保存机制中测试时的平均累计奖励为-108.98，采用现有的保存机制并未有该值。

接下来参照图6(a)和图6(b)，使用两个策略网络对立杆问题分别进行100次独立的仿真测试，每次测试随机初始化立杆的状态。每次测试记为1个周期，每个周期共200步长。

图6(a)示出了采用根据本发明的基于优胜劣汰的深度强化学习网络存储方法的实施方式得到的策略网络的性能效果测试结果图。图6(b)示出了采用现有技术的深度强化学习网络保存方法所保存最终的策略网络的性能效果测试结果图。

A网络的100组随机测试结果为：

平均每周期累计奖励为-152.14；

100次测试均成功的完成立杆任务。

B网络的100组随机测试结果为：

平均每周期累计奖励为-172.51；

100次测试中有两次未能很好的完成立杆任务，表现为只获得非常少的累计奖励。

接下来，参照图7(a1)至图7(b2)，使用A，B两个策略网络对立杆问题进行单次的仿真测试，测试时立杆的初始角度均为+90°。在策略网络的作用下使得立杆尽快恢复直立状态并保持，整个周期内立杆的角度变化与控制行为变化如图所示。图7(a1)示出了采用根据本发明的基于优胜劣汰的深度强化学习网络存储方法的实施方式得到的策略网络单次立杆测试立杆角度变化图。图7(a2)示出了采用根据本发明的基于优胜劣汰的深度强化学习网络存储方法的实施方式得到的策略网络的行为控制变化图。图7(b1)示出了采用现有技术的深度强化学习网络保存方法所保存最终的策略网络的单次立杆测试立杆角度变化图。图7(b2)示出了采用现有技术的深度强化学习网络保存方法所保存最终的策略网络的行为控制变化图。

图7(a1)中显示，在A网络的作用下，立杆恢复直立状态耗时约1秒，并且稳定在直立状态。图7(b1)显示，在B网络的作用下，立杆恢复直立状态耗时约1.4秒，并且稳定在直立状态。对比图7(a1)和图7(b1)，可以看出B网络下的立杆在稳定直立时的波动要较为明显。同样对比图7(a1)和图7(b1)所示的行为控制的变化曲线，也说明了A网络作用下的立杆更加稳定，同时耗能更少。

通过多次以及单次的仿真测试，均可以说明，在同样训练过程下，采用本发明所提出的基于优胜劣汰的深度强化学习策略网络存储方法所得到的策略网络具有更好的效果，可以得到整个训练过程中出现的最优的策略网络。

本发明的实施方式还提供了一种终端设备，包括：存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序，其特征在于，所述处理器运行所述计算机程序时执行根据本发明的实施方式的基于优胜劣汰的深度强化学习策略网络的存储方法。

需要说明的是，附图中的流程图和框图显示了根据本发明的多个实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上，流程图或框图中的每个方框可以代表一个模块、程序段或代码的一部分，所述模块、程序段或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意，在有些作为替换的实现中，方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如，两个连续的方框实际上可以基本并行地执行，它们有时也可以按相反的顺序执行，这依所涉及的功能而定。也要注意的是，框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合，可以用执行规定的功能或动作的专用的基于硬件的系统来实现，或者可以用专用硬件与计算机指令的组合来实现。

所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的系统、装置和单元的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

在本发明所提供的几个实施例中，应该理解到，所揭露的装置和方法，可以通过其它的方式实现。以上所描述的装置实施例仅仅是示意性的，例如，所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，又例如，多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些通信接口，装置或单元的间接耦合或通信连接，可以是电性，机械或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本发明各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。

所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

最后应说明的是：以上各实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述各实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分或者全部技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的范围，其均应涵盖在本发明的权利要求和说明书的范围当中。

Claims

1.一种基于优胜劣汰的深度强化学习策略网络的存储方法，该方法包括：

获取当前训练周期的结果和策略网络；

判断所述当前训练周期的结果是否满足策略网络测试要求；

在判断所述当前训练周期的结果满足所述策略网络测试要求的情况下，进行策略网络测试；

获得该策略网络测试的结果；

判断所述策略网络测试的结果是否满足保存要求；和

在判断所述策略网络测试的结果满足保存要求的情况下，保存所述策略网络以及所述策略网络测试的结果。

2.如权利要求1所述的方法，其中所述获取当前训练周期的结果的步骤包括获取当前训练周期的累计奖励值。

3.如权利要求2所述的方法，其中所述判断当前训练周期的结果是否满足策略网络测试要求的步骤包括：

预设可接受的单周期累计奖励阈值；

比较所述当前训练周期的累计奖励值与该预设可接受的单周期累计奖励阈值；和

通过所述比较步骤确定当前训练周期的累计奖励值是否满足策略网络测试要求。

4.如权利要求1所述的方法，其中所述在判断所述当前训练周期的结果满足所述策略网络测试要求的情况下进行策略网络测试的步骤包括：

设定周期数；

以当前策略网络运行所设定的周期数；和

获得将当前策略网络运行所述设定周期数的累计奖励均值作为该策略网络测试的结果。

5.如权利要求4所述的方法，其中所述判断所述策略网络测试的结果是否满足保存要求的步骤包括：

设定可保存测试累计奖励阈值；

比较所述累计奖励均值与所述可保存测试累计奖励阈值；和

通过所述比较步骤确定所述策略网络测试的结果是否满足所述保存要求。

6.如权利要求5所述的方法，其中所述在判断所述策略网络测试的结果满足保存要求的情况下，保存所述策略网络以及所述策略网络测试的结果的步骤包括：

获得所述策略网络测试的结果满足保存要求的信息；

保存所述策略网络；和

保存所述累计奖励均值并以该所述累计奖励均值替代所述可保存测试累计奖励阈值。

7.如权利要求1所述的方法，其中在所述获取当前训练周期的结果和策略网络的步骤之前还包括：

设定训练过程循环周期数目与每周期环境模型交互次数；

随机初始化策略网络；

随机初始化智能体状态；

以设定的交互次数进行智能体与环境交互；和

在训练循环所设定的周期数目之后，在满足策略网络更新条件的情况下对策略网络进行更新迭代，从而得到当前训练周期的结果和策略网络。

8.一种设备，包括：存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序，其特征在于，所述处理器运行所述计算机程序时执行权利要求1-7中任一项所述的基于优胜劣汰的深度强化学习策略网络的存储方法。