CN116681142A

CN116681142A - 基于迭代式策略约束的智能体强化学习方法和装置

Info

Publication number: CN116681142A
Application number: CN202310554313.0A
Authority: CN
Inventors: 詹仙园; 李健雄; 顾维灏; 艾锐
Original assignee: Tsinghua University; Haomo Zhixing Technology Co Ltd
Current assignee: Tsinghua University; Haomo Zhixing Technology Co Ltd
Priority date: 2023-05-16
Filing date: 2023-05-16
Publication date: 2023-09-01

Abstract

本发明提供一种基于迭代式策略约束的智能体强化学习方法和装置，包括：基于智能体在任一应用场景的状态，对智能体进行策略离线学习；以离线学习得到的优化策略为初始策略，构造迭代式策略约束项；在最大化奖励在线强化学习的基础上引入迭代式策略约束项，以生成智能体的优化目标；基于优化目标，对智能体进行策略在线强化学习。本发明通过迭代式地更新策略约束，既可以避免离线到在线强化学习早期在线微调阶段的策略性能下降，还可以在训练后期减弱策略约束，以获得最优策略。

Description

基于迭代式策略约束的智能体强化学习方法和装置

技术领域

本发明涉及机器学习技术领域，尤其涉及一种基于迭代式策略约束的智能体强化学习方法和装置。

背景技术

在线强化学习(Online Reinforcement Learning)作为一项日渐重要的AI技术，基本思想是智能体(Agent)在与环境不断交互的过程中会获得奖励的刺激，从而学习到获得最大累计奖励值的策略。然而智能体在训练初期与环境的交互探索过程通常为随机探索，其危险性大，成本高且效率低，难以应用在真实的决策优化场景(例如自动驾驶、数据中心节能优化、复杂工业设备的调优等)；离线强化学习(Offline Reinforcement Learning)和离线模仿学习(Offline Imitation Learning)方法建立在离线学习的前提下，模型训练过程完全基于预先收集好的离线数据集，不接触真实系统，无需引入额外的高精度仿真或与真实系统交互。然而，离线策略学习的方法受数据集质量影响较大，很难在质量较差的数据集中学习得到较优的策略。因此，一个直接的解决方案是采用离线强化学习或离线模仿学习方法预训练出一个次优策略，随后采用在线强化学习方法进行策略性能的微调。这样一方面可以消除离线策略学习受数据集质量的限制，另一方面可以为在线强化学习提供一个较优的初始策略，跳过早期的低效率、高成本、危险性大的随机探索阶段。因契合真实决策优化场景的现实需求，这种“离线预训练，在线微调”的范式受到了学术界和工业界的广泛关注，并已在机器人控制和自然语言处理领域(ChatGPT，GPT4)取得了重大突破，并在未来有望用于自动驾驶决策和工业场景优化中。

然而目前的离线到在线强化学习仍面临许多挑战，其中最大的挑战是分布漂移(distribution shift)现象。此现象主要集中在在线微调的初期。在微调初期，由于在线微调会收集很多离线数据集中从未出现过的新数据，对这些新引入的数据进行策略学习会因为数据分布较少的原因而出现较大的估计误差，这种估计误差会影响策略的优化过程从而造成严重的策略性能下降，破坏掉离线预训练得到的较优策略。

针对上述由于在线微调初期分布漂移导致智能体策略性能下降的问题，现有的离线到在线强化学习通常采用行为正则化方法或者价值函数正则化方法，将在线微调策略π严格地限制在离线预训练策略或离线数据集的分布内，从而防止在线微调策略出现严重的策略性能下降。其中，基于行为正则化方法的离线到在线强化学习方法通过限制在线微调策略到数据集分布之间的KL(Kullback-Leibler)散度实现策略约束，之后通过求解优化问题的KKT(Karush-Kuhn-Tucker)条件，可以实现隐式的策略约束。但是一味地限制在线微调策略和数据集分布间的偏差将导致像离线策略学习一样，微调策略的性能将同样受数据集质量限制严重，难以得到最优的策略。基于价值函数正则化的离线到在线强化学习方法通常采用保守Q学习的方式预训练策略。由于保守Q学习预训练得到的价值函数会将较低的价值估值分配给数据分布以外动作，同时因为价值函数的高低反映着策略性能的好坏，所以数据分布以外的动作会由于较低的价值估值而被判断为性能较差的动作。因此，在在线微调阶段，数据分布以外的动作不再参与到策略优化的过程中，减少了由分布漂移带来的误差累积。然而，为了较好地压低所有数据分布外动作的价值函数，通常需要采用价值函数聚合等方式训练多个保守价值函数，这无疑会消耗极大的计算资源，应用成本极高。因此，亟需提供一种新的离线到在线强化学习方法。

发明内容

为了解决上述问题，本发明提供一种基于迭代式策略约束的智能体强化学习方法和装置，通过迭代式地更新策略约束，既可以避免离线到在线强化学习早期在线微调阶段的策略性能下降，还可以在训练后期减弱策略约束，以获得最优策略。

第一方面，本发明提供一种基于迭代式策略约束的智能体强化学习方法，所述方法包括：

基于智能体在任一应用场景的状态，对所述智能体进行策略离线学习；

以离线学习得到的优化策略为初始策略，构造迭代式策略约束项；其中，所述迭代式策略约束项，用于将每一轮迭代的优化策略约束在上一轮迭代的优化策略的置信域内；

在最大化奖励在线强化学习的基础上引入所述迭代式策略约束项，以生成所述智能体的优化目标；

基于所述优化目标，对所述智能体进行策略在线强化学习。

根据本发明提供的一种基于迭代式策略约束的智能体强化学习方法，所述智能体的应用场景包括但不限于：机器人控制任务场景、自动驾驶任务场景以及工业发电控制任务场景。

根据本发明提供的一种基于迭代式策略约束的智能体强化学习方法，所述基于智能体在任一应用场景的状态，对所述智能体进行策略离线学习，包括：

基于智能体在任一应用场景的状态，对所述智能体进行策略离线强化学习；

或者

基于智能体在任一应用场景的状态，对所述智能体进行策略离线模仿学习。

根据本发明提供的一种基于迭代式策略约束的智能体强化学习方法，所述迭代式策略约束项为

根据本发明提供的一种基于迭代式策略约束的智能体强化学习方法，所述优化目标如下所示：

根据本发明提供的一种基于迭代式策略约束的智能体强化学习方法，所述基于所述优化目标，对所述智能体进行策略在线强化学习，包括：

确定所述优化目标在动作家-评论家框架下的等价式；

利用所述等价式，对所述智能体进行策略在线强化学习。

根据本发明提供的一种基于迭代式策略约束的智能体强化学习方法，所述等价式如下所示：

动作家：

评论家：

第二方面，本发明提供一种基于迭代式策略约束的智能体强化学习装置，所述装置包括：

离线学习模块，用于基于智能体在任一应用场景的状态，对所述智能体进行策略离线学习；

迭代式策略约束项构造模块，用于以离线学习得到的优化策略为初始策略，构造迭代式策略约束项；其中，所述迭代式策略约束项，用于将每一轮迭代的优化策略约束在上一轮迭代的优化策略的置信域内；

优化目标生成模块，用于在最大化奖励在线强化学习的基础上引入所述迭代式策略约束项，以生成所述智能体的优化目标；

在线强化学习模块，用于基于所述优化目标，对所述智能体进行策略在线强化学习。

第三方面，本发明还提供一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现如第一方面所述基于迭代式策略约束的智能体强化学习方法。

第四方面，本发明还提供一种非暂态计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现如第一方面所述基于迭代式策略约束的智能体强化学习方法。

本发明提供的基于迭代式策略约束的智能体强化学习方法和装置，包括：基于智能体在任一应用场景的状态，对智能体进行策略离线学习；以离线学习得到的优化策略为初始策略，构造迭代式策略约束项；在最大化奖励在线强化学习的基础上引入迭代式策略约束项，以生成智能体的优化目标；基于优化目标，对智能体进行策略在线强化学习。本发明通过迭代式地更新策略约束，既可以避免离线到在线强化学习早期在线微调阶段的策略性能下降，还可以在训练后期减弱策略约束，以获得最优策略。

附图说明

为了更清楚地说明本发明或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本发明提供的基于迭代式策略约束的智能体强化学习方法的流程示意图；

图2是本发明提供的基于迭代式策略约束的智能体强化学习装置的结构示意图；

图3是本发明提供的电子设备的结构示意图；

附图标记：

310：处理器；320：通信接口；330：存储器；340：通信总线。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚，下面将结合本发明中的附图，对本发明中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

对本发明涉及到的专业名词进行解释：

强化学习：相比于监督学习和非监督学习，强化学习(Reinforcement Learning)作为机器学习的研究热点之一，不需要带标签的样本输入输出，更倾向于学习得到完成任务的最优策略。其基本思想是智能体(Agent)在与环境不断交互的过程中获得奖励r的刺激，并基于此逐步形成对累积奖励的预期Q，可以基于当前的状态做出得到较高价值的动作a^*＝max_aQ，从而学习到可以获得最大奖励的策略其中γ是折旧因子，r_t为t时刻的奖励。

离线强化学习：离线强化学习(Offline Reinforcement Learning)和在线强化学习(Online Reinforcement learning)是强化学习的两大分支。相比于在线强化学习，离线强化学习是一种数据驱动的离线策略学习方法，完全不需要智能体与环境的在线交互，而是从一个记录着智能体“状态-动作-奖励-状态{s,a,r,s′}”转移信息的历史数据集中学习策略，使该策略可以获得最大的累积奖励/>然而，离线强化学习受数据集质量影响较大，当数据集质量较低时，很难学习得到性能较优的策略。

离线模仿学习：离线模仿学习(Imitation Learning)与离线强化学习相似，都是一种数据驱动的离线策略学习方法，但采用监督学习框架来学习策略。其基本思想是采用神经网络等方式建立历史数据集中状态s到动作a间的映射关系，从而当观测到状态s后智能体也可以做出与a类似的动作，实现对历史数据集的模仿，故称模仿学习。但由于模仿学习不能较数据做进一步的性能提升，导致策略性能的质量受到数据集质量的制约严重。

离线到在线强化学习：离线到在线强化学习(Offline-to-Online ReinforcementLearning)是一种结合离线强化/模仿学习和在线强化学习的策略训练方法。首先通过离线强化/模仿学习预训练得到一个较优的策略，再采用在线强化学习进一步提升离线预训练得到的策略。这样一方面可以减弱离线强化/模仿学习受数据集质量的影响，也可以为在线强化学习提供一个较优的初始策略，跳过了在线学习的早期随机探索阶段，提高学习效率。

下面结合图1-图3描述本发明提供的基于迭代式策略约束的智能体强化学习方法和装置。

第一方面，本发明提供一种基于迭代式策略约束的智能体强化学习方法，如图1所示，所述方法包括：

S11、基于智能体在任一应用场景的状态，对所述智能体进行策略离线学习；

S12、以离线学习得到的优化策略为初始策略，构造迭代式策略约束项；其中，所述迭代式策略约束项，用于将每一轮迭代的优化策略约束在上一轮迭代的优化策略的置信域内；

S13、在最大化奖励在线强化学习的基础上引入所述迭代式策略约束项，以生成所述智能体的优化目标；

S14、基于所述优化目标，对所述智能体进行策略在线强化学习。

本发明智能体强化学习方法为采用离线到在线的强化学习方法，即在离线阶段学习出一个次优策略，而后在在线强化学习阶段进行策略性能微调。

具体的，本发明在线强化学习阶段，设置了一个迭代式策略约束项，该约束项的存在使得第一轮在线迭代时优化策略将被约束在次优策略的置信域内，非第一轮在线迭代时优化策略将被约束上一轮迭代的优化策略的置信域内，以此保证策略性能的单调递增。

与现有方法最大的不同在于，本发明优化目标中用于约束本轮迭代策略的约束项为上一轮迭代的优化策略，而现有方法的约束项一直为次优策略。基于上式进行策略优化，既可以在微调初期限制迭代策略和次优策略的偏差，防止严重的性能下降出现，又可以允许策略约束项逐渐偏离次优策略，从而给予微调策略足够的自由度去寻找最优策略。

本发明提供的基于迭代式策略约束的智能体强化学习方法，通过迭代式地更新策略约束，既可以避免离线到在线强化学习早期在线微调阶段的策略性能下降，还可以在训练后期减弱策略约束，以获得最优策略。

具体的，所述S11中智能体的应用场景包括但不限于：机器人控制任务场景、自动驾驶任务场景以及工业发电控制任务场景，离线学习包括但不限于离线强化学习和离线模仿学习。

在机器人控制任务场景中，智能体状态s可以包括机器人各个传感器的感知数据，比如电机编码器数据，摄像头拍摄的图片，红外传感器、激光雷达等传感器的感知数据。智能体动作a可以包括电机扭矩指令，电机转速指令，以及电机编码器位置指令等可控制指令。r为人工根据机器人执行任务(例如机械臂搬运任务)所设计的奖励函数。

在自动驾驶任务场景中，智能体状态s可以包括高精地图信息、周围环境的语义分割信息、当前车辆的速度、位置、加速度、车头朝向信息以及各种传感器的感知数据等。智能体动作a可以包括车辆刹车的力度，油门的力度，转向的角度，下一个目标运动点的位置等运动决策可控制量。r为人工根据自动驾驶任务所设计的奖励函数。例如安全行驶距离越长r越大，行驶越平稳r越大，汽车更省油r越大等。

在工业发电控制任务场景中，智能体状态s可以包括各机组的传感器记录数据(例如燃烧室的温度和压力，管道内液体的流量、流速、压力等)以及排放废弃的化学成分比例等。智能体动作a可以包括发电机组的各控制量(例如各阀门是否开或关，阀门开启的幅度，管道流量的阈值等可控制量)。r为人工根据发电控制任务所设计的奖励函数，例如发电效率越高r越大。

具体的，所述S12中的所述迭代式策略约束项为

本发明最小化即可使π_k+1(a|s)与π_k(a|s)尽可能接近，进而将π_k+1(a|s)约束在π_k(a|s)附件(置信域)。

具体的，所述S13，在标准的最大化奖励的在线强化学习优化目标中引入了一个迭代式策略约束项，即可得到本发明在线强化学习优化目标，具体如下：

也即本发明优化目标要最大化奖励的同时使相邻两轮迭代的策略相距较近。

本发明在线强化学习优化目标的设计具有如下好处：

(1)仅额外引入了的计算，其引入的计算成本几乎可以忽略不记，因此具有较高的计算效率。

(2)仅需要离线学习得到的策略π₀，不需要其对应的价值函数，因此可以适用于所有离线学习方法。

(3)现有的离线到在线强化学习方法通常仅针对某种特定场景的在线强化学习而改进，无法推广应用到所有的离线到在线强化学习方法中，普适性差。而本发明无此限制，可可以灵巧简便地引入所有离线到在线强化学习方法，具有很高的普适性和应用价值。

具体的，所述S14包括：确定所述优化目标在动作家-评论家框架下的等价式；

利用所述等价式，对所述智能体进行策略在线强化学习。

进一步的，所述等价式如下所示：

动作家：

评论家：

本发明S14的实现仅需要在标准的动作家-评论家(Actor-Critic)框架中引入两项正则项的计算，因此可以灵巧简便地接入所有基于动作家-评论家框架的在线强化学习方法，具有极高的普适性。

综上，本发明具有如下优点：

(1)：既保证了稳定的在线微调，又能保证最优策略的获取。

(2)：实施引入的额外计算成本极低，可忽略不计。

(3)：可适用于所有的离线策略学习方法和几乎所有的在线强化学习方法，具有极高的普适性。

为更好的应用本发明强化学习方法，以机器人控制为例提供一个应用实例，具体如下：

在机器人控制任务场景中，状态s包括：机器人各个传感器的感知数据；动作a包括电机扭矩指令，电机转速指令以及电机编码器位置指令；机器人执行任务为机械臂搬运任务，r为奖励函数，根据现场需求而设定。

其中，所述机器人各个传感器的感知数据包括但不限于电机编码器数据，摄像头拍摄的图片，红外传感器感知数据和激光雷达感知数据。

基于强化学习方法的机器人控制决策方法包括：

S21：基于机器人当前状态，对所述机器人进行策略离线学习；

S22：以离线学习得到的优化策略为初始策略，构造迭代式策略约束项；其中，所述迭代式策略约束项，用于将每一轮迭代的优化策略约束在上一轮迭代的优化策略的置信域内；

S23：在最大化奖励在线强化学习的基础上引入所述迭代式策略约束项，以生成所述机器人的策略优化目标；

S24：基于所述策略优化目标，对所述机器人进行策略在线强化学习，以得到所述机器人的最优策略。

具体的，S21中离线学习包括离线强化学习和离线模拟学习两种。

当采用离线强化学习时，将机器人当前状态带入预先训练的第一离线训练模型中，即可学习到对应的优化策略；

其中，第一离线训练模型的训练过程，包括：

构建机器人的离线强化学习数据集；其中，离线强化学习数据集的样本中记录着转移信息“当前状态-动作-奖励-下一状态”；

基于所述离线强化学习数据集，以最大化奖励为策略优化目标，训练所述第一离线训练模型。

当采用离线模拟学习时，将机器人当前状态带入预先训练的第二离线训练模型中，即可学习到对应的优化策略；

其中，第二离线训练模型的训练过程，包括：

构建机器人的离线模拟学习数据集；其中，离线模拟学习数据集的样本中记录着“当前状态-当前动作”；

以当前状态为初始神经网络的输入，以当前动作初始神经网络的输出，训练能体现状态到动作间映射关系的第二离线训练模型。

S22中迭代式策略约束项为

S23中策略优化目标如下所示：

当k＝0时，上式等价于在优化策略π₀的置信域内最大化奖励函数。当k≥1时，上式将第k+1轮迭代的优化策略π_k+1限制在第k轮迭代的优化策略π_k的置信域内，保证策略性能的单调递增。

S24中利用策略优化目标在动作家-评论家框架下的等价式，对机器人进行策略在线强化学习；

其中，所述等价式如下所示：

动作家：

评论家：

当然，对机器人进行策略在线强化学习，是在机器人在线强化学习模型的基础上完成的；该机器人在线强化学习模型是采用上述在线强化学习方式对大量的样本数据学习而得到的。

第二方面，对本发明提供的基于迭代式策略约束的智能体强化学习装置进行描述，下文描述的基于迭代式策略约束的智能体强化学习装置与上文描述的基于迭代式策略约束的智能体强化学习方法可相互对应参照。图2示例了基于迭代式策略约束的智能体强化学习的结构示意图，如图2所示，所述装置包括：

离线学习模块21，用于基于智能体在任一应用场景的状态，对所述智能体进行策略离线学习；

迭代式策略约束项构造模块22，用于以离线学习得到的优化策略为初始策略，构造迭代式策略约束项；其中，所述迭代式策略约束项，用于将每一轮迭代的优化策略约束在上一轮迭代的优化策略的置信域内；

优化目标生成模块23，用于在最大化奖励在线强化学习的基础上引入所述迭代式策略约束项，以生成所述智能体的优化目标；

在线强化学习模块24，用于基于所述优化目标，对所述智能体进行策略在线强化学习。

在上述各实施例的基础上，作为一种可选的实施例，所述智能体的应用场景包括但不限于：机器人控制任务场景、自动驾驶任务场景以及工业发电控制任务场景。

在上述各实施例的基础上，作为一种可选的实施例，所述离线学习模块，用于：

或者

在上述各实施例的基础上，作为一种可选的实施例，所述迭代式策略约束项为

在上述各实施例的基础上，作为一种可选的实施例，所述优化目标如下所示：

在上述各实施例的基础上，作为一种可选的实施例，所述在线强化学习模块，包括：

确定单元，用于确定所述优化目标在动作家-评论家框架下的等价式；

学习单元，用于利用所述等价式，对所述智能体进行策略在线强化学习。

在上述各实施例的基础上，作为一种可选的实施例，所述等价式如下所示：

动作家：

评论家：

第三方面，图3示例了一种电子设备的实体结构示意图，如图3所示，该电子设备可以包括：处理器(processor)310、通信接口(Communications Interface)320、存储器(memory)330和通信总线340，其中，处理器310，通信接口320，存储器330通过通信总线340完成相互间的通信。处理器310可以调用存储器330中的逻辑指令，以执行一种基于迭代式策略约束的智能体强化学习方法，该方法包括：基于智能体在任一应用场景的状态，对所述智能体进行策略离线学习；以离线学习得到的优化策略为初始策略，构造迭代式策略约束项；其中，所述迭代式策略约束项，用于将每一轮迭代的优化策略约束在上一轮迭代的优化策略的置信域内；在最大化奖励在线强化学习的基础上引入所述迭代式策略约束项，以生成所述智能体的优化目标；基于所述优化目标，对所述智能体进行策略在线强化学习。

此外，上述的存储器330中的逻辑指令可以通过软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

第四方面，本发明还提供一种计算机程序产品，所述计算机程序产品包括计算机程序，计算机程序可存储在非暂态计算机可读存储介质上，所述计算机程序被处理器执行时，计算机能够执行上述各方法所提供的一种基于迭代式策略约束的智能体强化学习方法，该方法包括：基于智能体在任一应用场景的状态，对所述智能体进行策略离线学习；以离线学习得到的优化策略为初始策略，构造迭代式策略约束项；其中，所述迭代式策略约束项，用于将每一轮迭代的优化策略约束在上一轮迭代的优化策略的置信域内；在最大化奖励在线强化学习的基础上引入所述迭代式策略约束项，以生成所述智能体的优化目标；基于所述优化目标，对所述智能体进行策略在线强化学习。

第五方面，本发明还提供一种非暂态计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现以执行上述各方法提供的一种基于迭代式策略约束的智能体强化学习方法，该方法包括：基于智能体在任一应用场景的状态，对所述智能体进行策略离线学习；以离线学习得到的优化策略为初始策略，构造迭代式策略约束项；其中，所述迭代式策略约束项，用于将每一轮迭代的优化策略约束在上一轮迭代的优化策略的置信域内；在最大化奖励在线强化学习的基础上引入所述迭代式策略约束项，以生成所述智能体的优化目标；基于所述优化目标，对所述智能体进行策略在线强化学习。

以上所描述的装置实施例仅仅是示意性的，其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下，即可以理解并实施。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件。基于这样的理解，上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在计算机可读存储介质中，如ROM/RAM、磁碟、光盘等，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。

最后应说明的是：以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims

1.一种基于迭代式策略约束的智能体强化学习方法，其特征在于，所述方法包括：

基于所述优化目标，对所述智能体进行策略在线强化学习。

2.根据权利要求1所述的基于迭代式策略约束的智能体强化学习方法，其特征在于，所述智能体的应用场景包括但不限于：机器人控制任务场景、自动驾驶任务场景以及工业发电控制任务场景。

3.根据权利要求1所述的基于迭代式策略约束的智能体强化学习方法，其特征在于，所述基于智能体在任一应用场景的状态，对所述智能体进行策略离线学习，包括：

或者

4.根据权利要求1～3任一项所述的基于迭代式策略约束的智能体强化学习方法，其特征在于，所述迭代式策略约束项为

5.根据权利要求4所述的基于迭代式策略约束的智能体强化学习方法，其特征在于，所述优化目标如下所示：

6.根据权利要求5所述的基于迭代式策略约束的智能体强化学习方法，其特征在于，所述基于所述优化目标，对所述智能体进行策略在线强化学习，包括：

确定所述优化目标在动作家-评论家框架下的等价式；

利用所述等价式，对所述智能体进行策略在线强化学习。

7.根据权利要求6所述的基于迭代式策略约束的智能体强化学习方法，其特征在于，所述等价式如下所示：

动作家：

评论家：

8.一种基于迭代式策略约束的智能体强化学习装置，其特征在于，所述装置包括：

9.一种非暂态计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求1至7任一项所述基于迭代式策略约束的智能体强化学习方法。

10.一种计算机程序产品，包括计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求1至7任一项所述基于迭代式策略约束的智能体强化学习方法。