CN113112018B

CN113112018B - 一种批量限制强化学习方法

Info

Publication number: CN113112018B
Application number: CN202110457630.1A
Authority: CN
Inventors: 袁春; 李思楠
Original assignee: Shenzhen International Graduate School of Tsinghua University
Current assignee: Shenzhen International Graduate School of Tsinghua University
Priority date: 2021-04-27
Filing date: 2021-04-27
Publication date: 2023-10-31
Anticipated expiration: 2041-04-27
Also published as: CN113112018A

Abstract

本发明公开了一种批量限制强化学习方法，包括：获取日志系统，从所述日志系统中提取数据以组成序列集合，从所述序列集合中抽取若干个序列，分别输入到评估网络、监督性模型和目标网络，将所述评估网络输出的结果与所述监督性模型输出的结果同时输入到筛选整合模块以输出预估值，将所述目标网络输出的结果结合所抽取的若干个序列的采样结果得到目标值，计算所述预估值与所述目标值之间的误差值，并反向传播更新所述评估网络，并重复组成所述序列集合之后的步骤。本发明提出的批量限制强制学习方法，一方面降低了模型计算复杂度，另一方面提升了模型稳定输出的能力。

Description

一种批量限制强化学习方法

技术领域

本发明涉及强化学习技术领域，尤其涉及一种批量强化学习。

背景技术

传统的强化学习往往要基于马尔科夫决策过程，获得各个时刻的奖励和动作，更新策略，在利用更新后的策略与环境交互，而批量强化学习，也称离线强化学习，不同于传统的强化学习，往往不需要与环境进行交互，只是利用过去收集到的数据集进行模型训练，训练结束再部署到真实世界。

目前主流的强化学习训练流程如下：如图1a所示，同策略学习(on-policylearning)需要基于样本进行学习，即计算梯度时需要使用每次更新后的策略π_k+1与环境进行交互获取样例，之后通过单次收集到的样例对网络的梯度进行重新估计，当模型得到更新后，这些样例将被抛弃，需要采集新的样本；如图1b所示，异策略学习(off-policylearning)则采用经验池记录下过去与环境的交互序列并积攒成为集合{(s_i,a_i,s'_i,r_t)}，模型训练时所用的序列可能是之前存储在经验池中的，也可能是与环境实时交互的；而如图1c所示，批量强化学习(Batch RL)使用的数据集(经验池)/>由一些未知的行为策略π_β收集，数据集只收集一次，并且在训练过程中不改变，这样可以利用以前收集的大量数据集。训练过程与MDP根本不相互作用，策略只有在完全训练后才会被部署到真实世界。

其中批量强化学习需要被有效解决的一个问题就是实际收集数据与实际做估值的策略不同，但是他们一定要依赖于两个策略之间的互动，而只有离线数据，两个策略的交互往往会有很大的阻碍。而目前利用深度学习往往会使这个难题更难解决，因为深度学习引入高阶函数近似使得模型的分布容易产生偏移。这也就是推断误差问题，而目前业界中最著名的一个解决办法就是就是批量限制强化学习算法，具体的解决方案如下：在状态空间和动作空间较为复杂的情况下，采用模型的方式限制状态动作对(s,a)转移到的下一个状态s'所选择的动作a'。限定a'的选择即在经验池中存在状态动作对(s',a')。原因是如果(s',a')属于经验池，那么Q函数能够准确的估计Q(s',a')。目前的具体解决思路是根据经验池中的数据训练一个生成模型-变分自编码器(VAE)，训练结束后输入s'，VAE能够输出出现概率较大的a'。但是其中的批量限制强化学习算法由于引入了VAE生成模型，参数量增多，同时生成的误差也使得模型每次生成的动作分布不均匀，模型不稳定的问题，而这在具体的应用领域，有时要求稳定性极高的场景下无法适用。

以上背景技术内容的公开仅用于辅助理解本发明的构思及技术方案，其并不必然属于本专利申请的现有技术，在没有明确的证据表明上述内容在本专利申请的申请日已经公开的情况下，上述背景技术不应当用于评价本申请的新颖性和创造性。

发明内容

为解决上述技术问题，本发明提出一种批量限制强制学习方法，一方面降低了模型计算复杂度，另一方面提升了模型稳定输出的能力。

为了达到上述目的，本发明采用以下技术方案：

本发明公开了一种批量限制强化学习方法，包括：获取日志系统，从所述日志系统中提取数据以组成序列集合，从所述序列集合中抽取若干个序列，分别输入到评估网络、监督性模型和目标网络，将所述评估网络输出的结果与所述监督性模型输出的结果同时输入到筛选整合模块以输出预估值，将所述目标网络输出的结果结合所抽取的若干个序列的采样结果得到目标值，计算所述预估值与所述目标值之间的误差值，并反向传播更新所述评估网络，并重复组成所述序列集合之后的步骤。

优选地，获取日志系统，从所述日志系统中提取数据以组成序列集合具体包括：

S1：获取日志系统，从所述日志系统中提取数据，组成序列(s,a,s‘,r)放入经验回放池中，其中s表示当前状态，a表示动作，s‘表示状态s经过动作a后所到达的下一个状态，r表示执行动作a之后的奖励，重复从所述日志系统中提取数据多次，形成序列集合。

优选地，从所述序列集合中抽取若干个序列，分别输入到评估网络、监督性模型，将所述评估网络输出的结果与所述监督性模型输出的结果同时输入到筛选整合模块以输出预估值具体包括：

S2：从所述序列集合中抽取n个序列(s,a,s‘,r)，将n个s输入到评估网络，得到所抽取的n个序列(s,a,s‘,r)的所有动作a的Q值预估值；

S3：从步骤S2中所抽取的n个序列(s,a,s‘,r)中提取状态s，输入到训练好的监督性模型，输出过去的经验中最经常出现的m个动作a1、a2、……am；

S4：将步骤S2中的所有动作a的Q值预估值和m个动作a1、a2、……am输入到筛选整合模块，输出n个s对应的Q值的最大值以作为步骤S2中所抽取的n个序列(s,a,s‘,r)的Q值预估值q_eval。

优选地，从所述序列集合中抽取若干个序列，输入到目标网络，将所述目标网络输出的结果结合从所抽取的若干个序列中采样的结果得到目标值具体包括：

S5：从步骤S2中所抽取的n个序列(s,a,s‘,r)中采样下一个状态s‘，输入给目标网络，得到所抽取的n个序列(s,a,s‘,r)的所有动作a的Q值q_next，取q_next中最大的Q值并乘以系数gamma；再加上从步骤S2中所抽取的n个序列(s,a,s‘,r)中采样得到的奖励r，得到下一个状态的目标值q_target。

优选地，计算所述预估值与所述目标值之间的误差值，并反向传播更新所述评估网络具体包括：

S6：计算所述评估网络产生的q_eval与目标网络产生的q_target之间的MSE误差值，并根据该误差值反向传播更新所述评估网络。

优选地，重复组成所述序列集合之后的步骤具体包括：

S7：设定循环次数，重复步骤S2～S6，直至达到所设定的循环次数。

优选地，所述监督性模型是指对具有标签分类的训练样本进行学习，以对训练样本集外的数据进行标记分类的预测模型；且所述监督性模型采用基于决策树衍生的Bagging算法模型、基于决策树衍生的Boosting算法模型、或者深度学习模型。

优选地，所述目标网络与所述评估网络的结构相同。

优选地，所述批量限制强化学习方法还包括：每隔预设时间后，将所述评估网络的网络参数拷贝给所述目标网络。

本发明还公开了一种计算机可读存储介质，所述计算机可读存储介质存储有计算机可执行指令，所述计算机可执行指令在被处理器调用和执行时，所述计算机可执行指令促使处理器实现上述的批量限制强化学习方法。

本发明的有益效果在于：相比于传统的批量限制强化学习算法，本发明的批量限制强化学习方法参数量更少，计算速度会更快，同时模型会更稳定。其中VAE往往需要编码器和解码器两个神经网络要进行挑参，同时编码器通过两个隐氏变量，一个是均值向量，一个是标准差向量，来输入给解码器，所以这其中会涉及到大量的超参数；而本发明采用监督性模型只需利用一个深度神经网络或者其他可以预测的模型就可以进行调整，这种方法更适应于稳定性要求高的场景下，如广告、无人驾驶等。

附图说明

图1a～图1c是现有的三种强化学习训练流程示意图；

图2是本发明优选实施例的结合监督性模型的批量限制强化学习算法；

图3是雅达利2600游戏环境的输入视频示例；

图4a～图4g是本发明的改进模型与原始批量限制强化学习模型(含VAE)在Atari环境下的模型性能。

具体实施方式

为了使本发明实施例所要解决的技术问题、技术方案及有益效果更加清楚明白，以下结合附图及实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。

本发明优选实施例提出一种批量限制强化学习方法，包括：获取日志系统，从所述日志系统中提取数据以组成序列集合，从所述序列集合中抽取若干个序列，分别输入到评估网络、监督性模型和目标网络，将所述评估网络输出的结果与所述监督性模型输出的结果同时输入到筛选整合模块以输出预估值，将所述目标网络输出的结果结合所抽取的若干个序列的采样结果得到目标值，计算所述预估值与所述目标值之间的误差值，并反向传播更新所述评估网络。与传统的批量限制模型相比，本发明将其中的生成模型替换为监督模型，从而减小模型参数量，同时使得模型输出更稳定，并重复组成所述序列集合之后的步骤。

如图2所示，本发明具体实施例提出的基于监督性模型的批量限制强化学习方法，具体包括以下步骤：

S1：获取日志系统，从所述日志系统中提取数据，组成序列(s,a,s‘,r)放入经验回放池中，其中s表示当前状态，a表示动作(一共有m个选择)，s‘表示状态s经过动作a后所到达的下一个状态，r表示执行动作a之后的奖励，重复从所述日志系统中提取数据多次，直到存储了一定量的数据，形成序列集合；

S2：从序列集合中抽取n个序列(s,a,s‘,r)，将n个s作为一个批次输入到评估网络，得到这个批次的Q(s,a)的预估值，其中Q(s,a)的预估值包含所有动作的Q值预估值，即一共有n*m个Q(s,a)；

S4：将步骤S2中的所有Q(s,a)和a1、a2、……am输入到筛选整合模块，输出n个s对应的Q(s,a)的最大值且存在的值，作为这一批次的Q(s,a)的预估值q_eval；

S5：从步骤S2中所抽取的n个序列(s,a,s‘,r)中采样下一个状态s‘，输入给目标网络，其中的目标网络与评估网络的网络结构相同，得到这个批次动作a的Q值q_next，取q_next中最大的Q值并乘以系数gamma；然后再加上抽取的序列批次的奖励r，得到下一个状态的目标值q_target；

S6：计算评估网络产生的q_eval与目标网络产生的q_target之间的MSE误差值，并根据该误差值反向传播更新所述评估网络；

S7：重复步骤S2～S6，每隔一段时间，将评估网络中的网络参数拷贝给目标网络。其中可以设定循环次数，达到所设定的循环次数后结束循环。

本发明采用监督性模型替代原始批量限制强化学习算法中的VAE生成模型，一方面降低模型计算复杂度，一方面提升模型稳定输出的能力。这里的监督性模型是指对具有标签(分类)的训练样本进行学习，以尽可能对训练样本集外的数据进行标记(分类)预测。这里，所有的标记(分类)是已知的。目前常用的监督性模型有很多，包括目前比较流行的基于决策树衍生Bagging和Boosting算法，以及深度学习模型。也即，其中的监督性模型，可以使用神经网络来实现，也可以使用传统的监督性模型，包括目前业界比较好的LightGBM、ExtremeGradientBoosting、CatBoostClassifier这种以决策树为基础的Boosting提升树模型，而目前由于业界的很多场景都是直接利用深度学习提取特征，这样可以拟合更高阶的函数，找出人为不可见到，更细粒度的特征。因此，在更优选的实施例中，监督性模型采用深度学习模型。

结合监督性模型的批量限制强化学习算法的目的是使得智能体不断获取最大奖励的同时，最小化模型的输出与经验池中的对应的s状态下动作a的距离。基于状态的监督性模型会产生过去有过的高概率出现的动作，所以将监督性模型与Q网络结合使得每次模型输出都会选择与经验池类似，同时Q(s,a)最高的动作。这种算法有效降低了参数计算量，同时增加了动作的稳定性。

下述结合具体实验对比本发明的批量限制强化学习方法与现有的批量限制强化学习方法的效果进行比较。选取Atari2600(由雅达利2600型游戏构建的环境集)上面的一些任务观测改进的批量限制强化学习算法模型的效果，Atari2600环境集是一个具有挑战性的虚拟测试平台，该环境集下有如图4相同的给人类玩家的任务。图4a～图4g中的各个标题分别为Atari中具体每一个任务的名称(包括AirRaid、Alien、Amidar、Assault、Asterix、Atlantis、BankHeist)，纵坐标为游戏的得分，横坐标单位为一个回合，一个回合约为100000个时间步。观测多个环境中的实验结果有助于展示本发明的算法的泛化性能比较不错，均可以达到比较稳定的效果。实验结果显示，本发明的改进模型(BCQE)相比于批量限制强化学习模型(BCQ)波动会更少，模型的稳定性有所增加，而多次迭代之后，最终训练得到的Q值不会增大。同时由于本发明改进过的模型不需要像VAE生成模型那样需要不断超参数进行调整才能达到稳态，前期Q值也会较高的。同时经过测量，本发明的改进模型在多个实验环境下的运行时间会比原始批量限制强化学习模型时间快。因此，通过上述实验，可以看出本发明利用监督性模型替代原始的生成模型所带来的效果的提升。

本发明实施例还提供了一种计算机可读存储介质，该计算机可读存储介质存储有计算机可执行指令，该计算机可执行指令在被处理器调用和执行时，计算机可执行指令促使处理器实现上述的批量限制强化学习方法，具体实现可参见方法实施例，在此不再赘述。

强化学习主要应用于规划与控制方向，如围棋、游戏AI、无人驾驶、机器人控制等。之前AlphaGo在2016年3月与围棋职业选手李世石交手并获胜，之后战胜柯洁，让世界意识到深度强化学习正迅猛发展。而在2018年提出AlphaGo Zero更是无需过去的人类知识，完全依赖探索-利用(Exploration-Exploitation)的方式，在经过3天的训练之后，就可以战胜AlphaGo的原始版本。而之后在2019年用在星际争霸游戏中的由深度强化学习为基础的AlphaStar算法登上了Nature封面，证明了强化学习未来的应用价值极强。而批量强化学习更能应用于生活中，因为在现实生活中在线互动往往是非常难以实现的，因为数据收集很昂贵，也很危险(如在自动驾驶或医疗保健中)。比如：

(1)卫生保健方面的决策。例如，医疗保健场景可以制定一个马尔科夫决策过程来模拟诊断和治疗患者的过程，其中的动作对应于各种可用的干预措施(如诊断测试和治疗)，其中的观测对应于患者的症状和诊断测试的结果。在这种情况下，部分观测马尔科夫决策算法可能是更合适的。因为在这种情况下，传统的主动强化学习(边交互边生成新的策略)可能是非常危险的——即使使用一个经过充分训练的策略来治疗病人对临床医生来说也是比较困难的，而部署一个经过部分训练的策略则更加不可能。因此，批量强化学习可能是在这种环境中应用强化学习的唯一可行途径，其中离线数据将从真实患者的治疗历史中获取，并由医生选择“动作”。

(2)学习目标导向的对话策略。对话可以被视为交互式的顺序决策问题，也可以被建模为马尔科夫决策过程，特别是当对话是目标导向的(例如，电商平台上的聊天机器人供应关于产品的相关知识以说服用户购买)。然而，由于这些智能体的目标是成功地与真人互动，收集经验数据需要与真人互动，而培训有效的对话智能体所需的数据规模可能会非常昂贵。然而，离线数据可以直接从人类收集，这样训练出来的模型也是更加自然的。

(3)学习机器人多任务的操作技能。在基本的机器人操作设置中，主动强化学习实际上是可行的。然而，如果想要学习各种机器人技能的策略(例如，为家庭烹饪的机器人准备各种食物的所有步骤)，每个技能本身可能需要非常大量的交互，不仅需要收集足够的数据来学习技能，同时这样的技能还需要有效地推广到所有的情况下(例如所有不同的厨房布局)。但如果使用批量强化学习算法，可以将机器之前学习的所有人为技能收集的所有数据都放入经验回放池中，用于学习每一项新技能。这样，一些技能不需要新的数据就可以被学习(例如，煮洋葱和胡萝卜的汤，可以从经验池中找到煮洋葱和肉的汤，以及煮胡萝卜和黄瓜的汤的数据)，即批量强化学习可以有效地利用多任务数据进行策略学习。

以上内容是结合具体的优选实施方式对本发明所作的进一步详细说明，不能认定本发明的具体实施只局限于这些说明。对于本发明所属技术领域的技术人员来说，在不脱离本发明构思的前提下，还可以做出若干等同替代或明显变型，而且性能或用途相同，都应当视为属于本发明的保护范围。

Claims

1.一种批量限制强化学习方法，其特征在于，应用于无人驾驶场景，所述批量限制强化学习方法用于使得智能体不断获取最大奖励的同时，最小化模型的输出与经验池中的对应的s状态下动作a的距离，所述批量限制强化学习方法包括：获取日志系统，从所述日志系统中提取数据以组成序列集合，从所述序列集合中抽取若干个序列，分别输入到评估网络、监督性模型和目标网络，将所述评估网络输出的结果与所述监督性模型输出的结果同时输入到筛选整合模块以输出预估值，将所述目标网络输出的结果结合所抽取的若干个序列的采样结果得到目标值，计算所述预估值与所述目标值之间的误差值，并反向传播更新所述评估网络，并重复组成所述序列集合之后的步骤；

其中，所述监督性模型是指对具有标签分类的训练样本进行学习，以对训练样本集外的数据进行标记分类的预测模型，所述目标网络与所述评估网络的结构相同；

从所述序列集合中抽取若干个序列，分别输入到评估网络、监督性模型，将所述评估网络输出的结果与所述监督性模型输出的结果同时输入到筛选整合模块以输出预估值具体包括：

S2：从所述序列集合中抽取n个序列(s,a,s‘,r)，将n个s输入到评估网络，得到所抽取的n个序列(s,a,s‘,r)的所有动作a的Q值预估值，s表示当前状态，a表示动作，s‘表示状态s经过动作a后所到达的下一个状态，r表示执行动作a之后的奖励；

S4：将步骤S2中的所有动作a的Q值预估值和m个动作a1、a2、……am输入到筛选整合模块，输出n个s对应的Q值的最大值以作为步骤S2中所抽取的n个序列(s,a,s‘,r)的Q值预估值q_eval；

从所述序列集合中抽取若干个序列，输入到目标网络，将所述目标网络输出的结果结合从所抽取的若干个序列中采样的结果得到目标值具体包括：

2.根据权利要求1所述的批量限制强化学习方法，其特征在于，获取日志系统，从所述日志系统中提取数据以组成序列集合具体包括：

3.根据权利要求1所述的批量限制强化学习方法，其特征在于，计算所述预估值与所述目标值之间的误差值，并反向传播更新所述评估网络具体包括：

4.根据权利要求3所述的批量限制强化学习方法，其特征在于，重复组成所述序列集合之后的步骤具体包括：

5.根据权利要求1至4任一项所述的批量限制强化学习方法，其特征在于，所述监督性模型采用基于决策树衍生的Bagging算法模型、基于决策树衍生的Boosting算法模型、或者深度学习模型。

6.根据权利要求1所述的批量限制强化学习方法，其特征在于，还包括：每隔预设时间后，将所述评估网络的网络参数拷贝给所述目标网络。

7.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质存储有计算机可执行指令，所述计算机可执行指令在被处理器调用和执行时，所述计算机可执行指令促使处理器实现权利要求1至6任一项所述的批量限制强化学习方法。