CN114781248A

CN114781248A - 基于状态偏移矫正的离线强化学习方法及装置

Info

Publication number: CN114781248A
Application number: CN202210357609.9A
Authority: CN
Inventors: 季向阳; 张宏昌; 邵键准
Original assignee: Tsinghua University
Current assignee: Tsinghua University
Priority date: 2022-04-06
Filing date: 2022-04-06
Publication date: 2022-07-22

Abstract

本申请公开了一种基于状态偏移矫正的离线强化学习方法及装置，其中，方法包括：从离线强化学习的数据集中随机采样当前时间步的样本，根据最大似然估计训练环境模型和状态转移模型；基于预设噪声构建被扰动的状态，获取由训练后的环境模型基于动作得到的下一时刻的第一状态，及获取由训练后的状态转移模型基于当前状态得到的下一时刻的第二状态；利用第一状态和第二状态之间的距离更新策略网络，并通过保守动作值函数学习训练动作值网络，直至满足收敛条件，生成基于状态偏移矫正的离线强化学习模型。由此，解决了相关技术中采用限制策略的方法，忽略数据集覆盖状态的全面性，从而导致训练策略和数据集策略的状态分布不匹配的技术问题。

Description

基于状态偏移矫正的离线强化学习方法及装置

技术领域

本申请涉及离线强化学习技术领域，特别涉及一种基于状态偏移矫正的离线强化学习方法及装置。

背景技术

强化学习主要研究智能体如何获得最大回报，即给定任务下学习解决该问题最优的策略。因为其可以较为直观地建模序贯决策问题，强化学习受到了广泛的关注。近年来，随着深度学习和大规模数据集的兴起，由于深度神经网络作为函数近似子拥有很强的泛化能力，强化学习借助神经网络来应对更加复杂的场景。深度强化学习在视频游戏、围棋、推荐系统和机器人领域上取得了较快的发展。

与一般的强化学习相比，离线强化学习只提供了数据集而没有提供可以交互的环境，这在现实场景中有很多应用。首先，一般的强化学习即在线强化学习中的试错过程很容易产生危险的动作，比如造价昂贵的仿人机器人在学习行走过程中容易摔倒，这可能造成很大的损失；离线强化学习只使用数据集提供的样本进行学习，而不会在训练中试错，这为智能体提供了安全性保障。其次，在线强化学习需要数量庞大的样本，比如在线强化学习算法需要超过百万样本才能收敛，但很多场景中，生成大量的样本非常困难，比如一条机械臂生成一条轨迹可能需要超过10分钟，一个病人的诊断过程需要长达数月，因此，在线强化学习难以在这类场景下应用；相反，离线强化学习可以利用大量已有的数据，这些数据可以是通过强化学习生成的，可以是其他非强化学习方法生成的。由于更好的安全性和样本利用率，离线强化学习可以应用在医疗、自动驾驶、广告和推荐系统等领域。

虽然离线强化学习仅仅比在线强化学习少了可以交互的环境，但是离线强化学习仍然充满了挑战和问题。例如离线强化学习只被提供了离线的数据集，智能体没有机会进行探索进而获得数据集之外更优秀的动作，更重要的，离线强化学习有动作分布漂移的问题，而动作分布漂移导致了在离线数据集上训练获得的策略可能产生数据分布之外的动作，进而使得算法性能受到影响。

相关技术采用了基于限制策略的方法，即限制策略使得在某种度量下，被训练的策略和数据集的潜在策略距离相近。具体地，部分工作利用了变分自编码器来拟合数据集的策略分布，并且利用拟合的策略选择强化学习算法中的目标动作值函数的动作，或者限制训练策略和拟合策略的交叉熵。

然而，相关技术采用的限制策略的方法忽略了数据集可能无法覆盖全部的状态这一问题，在这种情况下，被训练的策略有可能无法在状态空间很好的进行泛化，尤其是在面对仅有一定数量的样本时会变得十分严重，因为此时数据集不能反映真实的状态空间和状态转移概率，导致相关技术在测试的时候，如果智能体的初始状态和数据集有轻微的偏移，限制策略的方法难以考虑到在下一个时间步的状态是否和数据集相近，因此当智能体遵循这些方法的时候，大概率会遇到陌生的状态，此时，如果智能体坚持选择逻辑下的正确动作，状态偏移会随着时间累积进而影响算法性能。

综上，相关技术采用的限制策略的方法，忽略了数据集无法覆盖全部状态的问题，导致数据集不能反映真实的状态空间和状态转移概率，从而导致智能体的初始状态和数据集存在轻微偏移，进而影响算法性能，且泛化性能较差，亟需改善。

发明内容

本申请提供一种基于状态偏移矫正的离线强化学习方法及装置，以解决相关技术中采用限制策略的方法，忽略数据集覆盖状态的全面性，从而导致训练策略和数据集策略的状态分布不匹配的技术问题。

本申请第一方面实施例提供一种基于状态偏移矫正的离线强化学习方法，包括以下步骤：从离线强化学习的数据集中随机采样当前时间步的样本，并利用所述样本根据最大似然估计训练环境模型和状态转移模型；基于预设噪声构建被扰动的状态，并获取由策略网络基于所述状态得到的对应动作，且获取由训练后的环境模型基于所述动作得到的下一时刻的第一状态，及获取由训练后的状态转移模型基于当前状态得到的下一时刻的第二状态；以及利用所述第一状态和所述第二状态之间的距离更新所述策略网络，并通过保守动作值函数学习训练所述动作值网络，直至满足收敛条件，生成基于状态偏移矫正的离线强化学习模型。

可选地，在本申请的一个实施例中，所述利用所述第一状态和所述第二状态之间的距离更新所述策略网络，包括：计算所述第一状态和所述第二状态的最大平均偏差，得到所述距离；以所述距离确定更新策略，按照所述更新策略优化所述策略网络。

可选地，在本申请的一个实施例中，所述按照所述更新策略优化所述策略网络，包括：基于所述策略网络的优化问题，使用拉格朗日乘子和通过对偶梯度更新，以由策略的损失函数得到优化后的策略网络。

可选地，在本申请的一个实施例中，所述通过保守动作值函数学习训练所述动作值网络，包括：基于所述保守动作值函数，最大化分布内的状态动作对的值；和/或，基于所述保守动作值函数，最小化分布外的状态动作对的值。

可选地，在本申请的一个实施例中，在随机采样所述当前时间步的样本之前，还包括：随机初始化所述环境模型、所述状态转移模型、所述动作值网络和所述策略网络。

本申请第二方面实施例提供一种基于状态偏移矫正的离线强化学习装置，包括：采样模块，用于从离线强化学习的数据集中随机采样当前时间步的样本，并利用所述样本根据最大似然估计训练环境模型和状态转移模型；计算模块，用于基于预设噪声构建被扰动的状态，并获取由策略网络基于所述状态得到的对应动作，且获取由训练后的环境模型基于所述动作得到的下一时刻的第一状态，及获取由训练后的状态转移模型基于当前状态得到的下一时刻的第二状态；以及生成模块，用于利用所述第一状态和所述第二状态之间的距离更新所述策略网络，并通过保守动作值函数学习训练所述动作值网络，直至满足收敛条件，生成基于状态偏移矫正的离线强化学习模型。

可选地，在本申请的一个实施例中，所述生成模块包括：计算单元，用于计算所述第一状态和所述第二状态的最大平均偏差，得到所述距离；优化单元，用于以所述距离确定更新策略，按照所述更新策略优化所述策略网络。

可选地，在本申请的一个实施例中，所述优化单元包括：更新子单元，用于基于所述策略网络的优化问题，使用拉格朗日乘子和通过对偶梯度更新，以由策略的损失函数得到优化后的策略网络。

可选地，在本申请的一个实施例中，所述生成模块进一步用于基于所述保守动作值函数，最大化分布内的状态动作对的值；和/或，基于所述保守动作值函数，最小化分布外的状态动作对的值。

可选地，在本申请的一个实施例中，还包括：随机初始化所述环境模型、所述状态转移模型、所述动作值网络和所述策略网络。

本申请第三方面实施例提供一种电子设备，包括：存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序，所述处理器执行所述程序，以实现如上述实施例所述的基于状态偏移矫正的离线强化学习方法。

本申请第四方面实施例提供一种计算机可读存储介质，所述计算机可读存储介质存储计算机指令，所述计算机指令用于使所述计算机执行如上述实施例所述的基于状态偏移矫正的离线强化学习方法。

本申请实施例基于扰动状态，可以通过训练环境模型，预测下一时刻的状态，通过训练状态转移模型，模拟数据集潜在的状态分布，为分布外的状态提供监督信号，并通过保守动作值函数学习训练动作值网络，进而生成基于状态偏移矫正的离线强化学习模型，预测执行训练策略的结果并且保证产生的状态处于数据集的支撑集上，实现对智能体的动作诱导，减少状态偏移，从而提升算法性能。由此，解决了相关技术中采用限制策略的方法，忽略数据集覆盖状态的全面性，从而导致训练策略和数据集策略的状态分布不匹配的技术问题。

本申请附加的方面和优点将在下面的描述中部分给出，部分将从下面的描述中变得明显，或通过本申请的实践了解到。

附图说明

本申请上述的和/或附加的方面和优点从下面结合附图对实施例的描述中将变得明显和容易理解，其中：

图1为根据本申请实施例提供的一种基于状态偏移矫正的离线强化学习方法的流程图；

图2为根据本申请一个实施例的基于状态偏移矫正的离线强化学习方法的流程图；

图3为根据本申请实施例提供的一种基于状态偏移矫正的离线强化学习装置的结构示意图；

图4为根据本申请实施例提供的电子设备的结构示意图。

具体实施方式

下面详细描述本申请的实施例，所述实施例的示例在附图中示出，其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的，旨在用于解释本申请，而不能理解为对本申请的限制。

下面参考附图描述本申请实施例的基于状态偏移矫正的离线强化学习方法及装置。针对上述背景技术中心提到的相关技术中采用限制策略的方法，忽略数据集覆盖状态的全面性，从而导致训练策略和数据集策略的状态分布不匹配的技术问题，本申请提供了一种基于状态偏移矫正的离线强化学习方法，在该方法中，基于扰动状态，可以通过训练环境模型，预测下一时刻的状态，通过训练状态转移模型，模拟数据集潜在的状态分布，为分布外的状态提供监督信号，并通过保守动作值函数学习训练动作值网络，进而生成基于状态偏移矫正的离线强化学习模型，预测执行训练策略的结果并且保证产生的状态处于数据集的支撑集上，实现对智能体的动作诱导，减少状态偏移，从而提升算法性能。由此，解决了相关技术中采用限制策略的方法，忽略数据集覆盖状态的全面性，从而导致训练策略和数据集策略的状态分布不匹配的技术问题。

具体而言，图1为本申请实施例所提供的一种基于状态偏移矫正的离线强化学习方法的流程示意图。

如图1所示，该基于状态偏移矫正的离线强化学习方法包括以下步骤：

在步骤S101中，从离线强化学习的数据集中随机采样当前时间步的样本，并利用样本根据最大似然估计训练环境模型和状态转移模型。

在实际执行过程中，本申请实施例可以从离线强化学习的数据集中，随机采样点前的时间步样本，并使用最大似然估计，根据时间步样本，对环境模型和状态转移模型进行训练，预测下一时刻的状态，并模拟数据集潜在的状态分布，为分布外的状态提供监督信号，进而有利于本申请实施例通过环境模型和状态转移模型预测执行训练策略的结果并且保证产生的状态处于数据集的支撑集上，实现对智能体的动作诱导，减少状态偏移，从而提升算法性能。

可选地，在本申请的一个实施例中，在随机采样当前时间步的样本之前，还包括：随机初始化环境模型、状态转移模型、动作值网络和策略网络。

具体地，本申请实施例可以给定离线强化学习数据集D，随机初始化环境模型M，状态转移模型U，动作值网络Q(s,a)和策略网络π(a|s)。

进一步地，本申请实施例可以设定时间步t＝0。

令t＝t+1，从数据集D中随机采样采出样本{s,a,r,s′}。

利用样本{s,a,r,s′}，根据最大似然估计训练环境模型M，并根据变分自编码器更新方式训练状态转移模型U。

需要说明的是，本申请实施例可以维持环境模型M和状态转移模型U，其中，环境模型M用来拟合环境的动力学模型，其输入为某一个时刻的状态s和动作a，输出为预测的下一个时刻状态s′和奖励函数r的分布。本申请实施例可以使用神经网络拟合的集群网络，集群的每一个个体是一个贝叶斯神经网络，其代表了一个高斯分布。该高斯分布的均值为μ(s,a)，协方差为Σ(s,a)。

其中，每一个贝叶斯神经网络代表了模拟的环境动力学的内在不确定性，集群总体代表了外在不确定性，贝叶斯神经网络同时捕捉内在不确定性和外在不确定性使得模型可以准确地预测环境动力学。

其中，状态转移模型可以通过条件变分自编码器进行拟合，该生成器可以用来根据当前的状态采样出下一个时间步的状态，进而模拟数据集潜在的状态分布，为分布外的状态提供监督信号。

在步骤S102中，基于预设噪声构建被扰动的状态，并获取由策略网络基于状态得到的对应动作，且获取由训练后的环境模型基于动作得到的下一时刻的第一状态，及获取由训练后的状态转移模型基于当前状态得到的下一时刻的第二状态。

可以理解的是，扰动的目的在于构建一个更广阔的状态空间，这个空间可以包含大量的分布外的状态，对于初始位置，扰动后的状态空间可能覆盖了真实环境的大多数初始状态。

具体地，本申请实施例可以添加一个小规模的噪声，进而构建一个被扰动的状态：

其中，∈从一个单位高斯分布N(0,1)采样获得，β为较小常数。

进一步地，本申请实施例可以通过把扰动后的状态

输入到策略网络π(a|s)中得到动作

环境模型将

和

作为输入，输出下一个时刻状态，即第一状态

该状态可以模拟一个智能体从一个分布外的状态出发并执行训练策略产生的结果。

进一步地，本申请实施例可以将s输入到状态转移模型中，产生下一个时刻状态，即第二状态

用来作为

的标签，从而代表了智能体位于状态s，并执行数据集中的默认策略将到达的位置。

综上，本申请实施例可以使得智能体移动到一个合理的距离数据集较近的位置从而减小状态偏差。

在步骤S103中，利用第一状态和第二状态之间的距离更新策略网络，并通过保守动作值函数学习训练动作值网络，直至满足收敛条件，生成基于状态偏移矫正的离线强化学习模型。

实际执行过程中，本申请实施例可以利用第一状态

和第二状态

间的距离，通过保守动作值函数学习训练动作值网络Q(s,a)，并重复上述步骤直至收敛，最终生成基于状态偏移矫正的离线强化学习模型，本申请实施例可以基于扰动状态，通过训练环境模型M和状态转移模型U，并利用保守动作值函数学习训练动作值网络，进而生成基于状态偏移矫正的离线强化学习模型，预测执行训练策略的结果并且保证产生的状态处于数据集的支撑集上，实现对智能体的动作诱导，减少状态偏移，从而提升算法性能。

可选地，在本申请的一个实施例中，利用第一状态和第二状态之间的距离更新策略网络，包括：计算第一状态和第二状态的最大平均偏差，得到距离；以距离确定更新策略，按照更新策略优化策略网络。

作为一种可能实现的方式，动作值网络Q(s,a)和策略网络π(a|s)，可以按照SAC(Soft Actor-Critic，软行动者-评论家算法)算法进行更新。

本申请实施例可以通过更新策略的参数，从而减小

到

的距离，具体地，本申请实施例可以使用高斯核函数，利用

和

的最大平均偏差标识距离：

其中，k(·,·)为一个核函数，x为由环境模型M产生的样本构建成的集合，y为状态转移模型U产生的样本构建成的集合，n和m分别是M产生的和U产生的样本数目，i,i′,j,j′为集合中样本的序号。

进一步地，本申请实施例可以根据获取的距离，确定更新策略，进而优化策略网络π(a|s)。

可选地，在本申请的一个实施例中，按照更新策略优化策略网络，包括：基于策略网络的优化问题，使用拉格朗日乘子和通过对偶梯度更新，以由策略的损失函数得到优化后的策略网络。

需要注意的是，使用

作为标签，梯度不会反传给转移模型，因此当最小化最大平均偏差的时候，环境模型M的参数是固定的，故而整体的优化问题可以被定义为：

其中，D为数据集，MMD(Maximum Mean Discrepancy，最大平均距离)，

为环境模型生成的状态分布，U(·|s)为状态转移模型生成的状态分布，η为容忍度用以控制最大平均偏差和策略提升目标的平衡。

在实际执行过程中，本申请实施例可以使用拉格朗日乘子α，并执行对偶梯度更新。

策略的损失函数可以转换成：

进而得到优化后的策略网络π(a|s)。

可选地，在本申请的一个实施例中，通过保守动作值函数学习训练动作值网络，包括：基于保守动作值函数，最大化分布内的状态动作对的值；和/或，基于保守动作值函数，最小化分布外的状态动作对的值。

实际执行过程中，本申请实施例可以通过保守动作值函数学习训练动作值网络Q(s,a)。具体地，本申请实施例可以最大化分布内的状态动作对的值，并且最小化分布外的状态动作对的值，实现通过保守动作值函数学习训练动作值网络的目的。

下面结合图2所示，以一个具体实施例对本申请实施例的基于状态偏移矫正的离线强化学习方法的工作原理进行详细阐述。

如图2所示，本申请实施例包括以下步骤：

步骤S201：从数据集中采样。具体地，本申请实施例可以给定离线强化学习数据集D，随机初始化环境模型M，状态转移模型U，动作值网络Q(s,a)和策略网络π(a|s)。进一步地，本申请实施例可以设定时间步t＝0。

步骤S202：训练环境模型。令t＝t+1，从数据集D中随机采样采出样本{s,a,r,s′}。

步骤S203：训练状态转移模型。利用样本{s,a,r,s′}，根据最大似然估计训练环境模型M。

步骤S204：扰动当前状态。利用样本{s,a,r,s′}，根据变分自编码器更新方式训练状态转移模型U。

步骤S205：根据策略和环境模型得到在扰动状态下执行当前策略的下一个时刻状态，即第一状态。可以理解的是，扰动的目的在于构建一个更广阔的状态空间，这个空间可以包含大量的分布外的状态，对于初始位置，扰动后的状态空间可能覆盖了真实环境的大多数初始状态。

步骤S206：根据状态转移模型得到在当前状态下执行数据集潜在策略的下一个时刻状态，即第二状态。进一步地，本申请实施例可以通过把扰动后的状态

输入到策略网络π(a|s)中得到动作

环境模型M将

和

作为输入，输出下一个时刻状态，即第一状态

步骤S207：减少状态偏差。进一步地，本申请实施例可以将s输入到状态转移模型U中，产生下一个时刻状态，即第二状态

用来作为

步骤S208：更新策略网络。作为一种可能实现的方式，动作值网络Q(s,a)和策略网络π(a|s)，可以按照SAC算法进行更新。

具体地，本申请实施例可以通过更新策略的参数，从而减小

到

的距离，具体地，本申请实施例可以使用高斯核函数，利用

和

的最大平均偏差标识距离：

需要注意的是，使用

其中，D为数据集，MMD为最大平均距离，

策略的损失函数可以转换成：

步骤S209：更新动作值网络。实际执行过程中，本申请实施例可以通过保守动作值函数学习训练动作值网络Q(s,a)。具体地，本申请实施例可以最大化分布内的状态动作对的值，并且最小化分布外的状态动作对的值，实现通过保守动作值函数学习训练动作值网络的目的。

本申请实施例可以通过重复步骤S202-步骤S209，直至满足收敛条件，生成基于状态偏移矫正的离线强化学习模型。

根据本申请实施例提出的基于状态偏移矫正的离线强化学习方法，基于扰动状态，可以通过训练环境模型，预测下一时刻的状态，通过训练状态转移模型，模拟数据集潜在的状态分布，为分布外的状态提供监督信号，并通过保守动作值函数学习训练动作值网络，进而生成基于状态偏移矫正的离线强化学习模型，预测执行训练策略的结果并且保证产生的状态处于数据集的支撑集上，实现对智能体的动作诱导，减少状态偏移，从而提升算法性能。由此，解决了相关技术中采用限制策略的方法，忽略数据集覆盖状态的全面性，从而导致训练策略和数据集策略的状态分布不匹配的技术问题。

其次参照附图描述根据本申请实施例提出的基于状态偏移矫正的离线强化学习装置。

图3是本申请实施例的基于状态偏移矫正的离线强化学习装置的方框示意图。

如图3所示，该基于状态偏移矫正的离线强化学习装置10包括：采样模块100、计算模块200和生成模块300。

具体地，采样模块100，用于从离线强化学习的数据集中随机采样当前时间步的样本，并利用样本根据最大似然估计训练环境模型和状态转移模型。

计算模块200，用于基于预设噪声构建被扰动的状态，并获取由策略网络基于状态得到的对应动作，且获取由训练后的环境模型基于动作得到的下一时刻的第一状态，及获取由训练后的状态转移模型基于当前状态得到的下一时刻的第二状态。

生成模块300，用于利用第一状态和第二状态之间的距离更新策略网络，并通过保守动作值函数学习训练动作值网络，直至满足收敛条件，生成基于状态偏移矫正的离线强化学习模型。

可选地，在本申请的一个实施例中，生成模块300包括：计算单元。

其中，计算单元，用于计算第一状态和第二状态的最大平均偏差，得到距离；优化单元，用于以距离确定更新策略，按照更新策略优化策略网络。

可选地，在本申请的一个实施例中，优化单元包括：更新子单元。

其中，更新子单元，用于基于策略网络的优化问题，使用拉格朗日乘子和通过对偶梯度更新，以由策略的损失函数得到优化后的策略网络。

可选地，在本申请的一个实施例中，生成模块300进一步用于基于保守动作值函数，最大化分布内的状态动作对的值；和/或，基于保守动作值函数，最小化分布外的状态动作对的值。

可选地，在本申请的一个实施例中，基于状态偏移矫正的离线强化学习装置10还包括：随机初始化环境模型、状态转移模型、动作值网络和策略网络。

需要说明的是，前述对基于状态偏移矫正的离线强化学习方法实施例的解释说明也适用于该实施例的基于状态偏移矫正的离线强化学习装置，此处不再赘述。

根据本申请实施例提出的基于状态偏移矫正的离线强化学习装置，基于扰动状态，可以通过训练环境模型，预测下一时刻的状态，通过训练状态转移模型，模拟数据集潜在的状态分布，为分布外的状态提供监督信号，并通过保守动作值函数学习训练动作值网络，进而生成基于状态偏移矫正的离线强化学习模型，预测执行训练策略的结果并且保证产生的状态处于数据集的支撑集上，实现对智能体的动作诱导，减少状态偏移，从而提升算法性能。由此，解决了相关技术中采用限制策略的方法，忽略数据集覆盖状态的全面性，从而导致训练策略和数据集策略的状态分布不匹配的技术问题。

图4为本申请实施例提供的电子设备的结构示意图。该电子设备可以包括：

存储器401、处理器402及存储在存储器401上并可在处理器402上运行的计算机程序。

处理器402执行程序时实现上述实施例中提供的基于状态偏移矫正的离线强化学习方法。

进一步地，电子设备还包括：

通信接口403，用于存储器401和处理器402之间的通信。

存储器401，用于存放可在处理器402上运行的计算机程序。

存储器401可能包含高速RAM存储器，也可能还包括非易失性存储器(non-volatile memory)，例如至少一个磁盘存储器。

如果存储器401、处理器402和通信接口403独立实现，则通信接口403、存储器401和处理器402可以通过总线相互连接并完成相互间的通信。总线可以是工业标准体系结构(Industry Standard Architecture，简称为ISA)总线、外部设备互连(PeripheralComponent，简称为PCI)总线或扩展工业标准体系结构(Extended Industry StandardArchitecture，简称为EISA)总线等。总线可以分为地址总线、数据总线、控制总线等。为便于表示，图4中仅用一条粗线表示，但并不表示仅有一根总线或一种类型的总线。

可选地，在具体实现上，如果存储器401、处理器402及通信接口403，集成在一块芯片上实现，则存储器401、处理器402及通信接口403可以通过内部接口完成相互间的通信。

处理器402可能是一个中央处理器(Central Processing Unit，简称为CPU)，或者是特定集成电路(Application Specific Integrated Circuit，简称为ASIC)，或者是被配置成实施本申请实施例的一个或多个集成电路。

本实施例还提供一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现如上的基于状态偏移矫正的离线强化学习方法。

在本说明书的描述中，参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本申请的至少一个实施例或示例中。在本说明书中，对上述术语的示意性表述不必须针对的是相同的实施例或示例。而且，描述的具体特征、结构、材料或者特点可以在任一个或N个实施例或示例中以合适的方式结合。此外，在不相互矛盾的情况下，本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。

此外，术语“第一”、“第二”仅用于描述目的，而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此，限定有“第一”、“第二”的特征可以明示或者隐含地包括至少一个该特征。在本申请的描述中，“N个”的含义是至少两个，例如两个，三个等，除非另有明确具体的限定。

流程图中或在此以其他方式描述的任何过程或方法描述可以被理解为，表示包括一个或更N个用于实现定制逻辑功能或过程的步骤的可执行指令的代码的模块、片段或部分，并且本申请的优选实施方式的范围包括另外的实现，其中可以不按所示出或讨论的顺序，包括根据所涉及的功能按基本同时的方式或按相反的顺序，来执行功能，这应被本申请的实施例所属技术领域的技术人员所理解。

在流程图中表示或在此以其他方式描述的逻辑和/或步骤，例如，可以被认为是用于实现逻辑功能的可执行指令的定序列表，可以具体实现在任何计算机可读介质中，以供指令执行系统、装置或设备(如基于计算机的系统、包括处理器的系统或其他可以从指令执行系统、装置或设备取指令并执行指令的系统)使用，或结合这些指令执行系统、装置或设备而使用。就本说明书而言，"计算机可读介质"可以是任何可以包含、存储、通信、传播或传输程序以供指令执行系统、装置或设备或结合这些指令执行系统、装置或设备而使用的装置。计算机可读介质的更具体的示例(非穷尽性列表)包括以下：具有一个或N个布线的电连接部(电子装置)，便携式计算机盘盒(磁装置)，随机存取存储器(RAM)，只读存储器(ROM)，可擦除可编辑只读存储器(EPROM或闪速存储器)，光纤装置，以及便携式光盘只读存储器(CDROM)。另外，计算机可读介质甚至可以是可在其上打印所述程序的纸或其他合适的介质，因为可以例如通过对纸或其他介质进行光学扫描，接着进行编辑、解译或必要时以其他合适方式进行处理来以电子方式获得所述程序，然后将其存储在计算机存储器中。

应当理解，本申请的各部分可以用硬件、软件、固件或它们的组合来实现。在上述实施方式中，N个步骤或方法可以用存储在存储器中且由合适的指令执行系统执行的软件或固件来实现。如，如果用硬件来实现和在另一实施方式中一样，可用本领域公知的下列技术中的任一项或他们的组合来实现：具有用于对数据信号实现逻辑功能的逻辑门电路的离散逻辑电路，具有合适的组合逻辑门电路的专用集成电路，可编程门阵列(PGA)，现场可编程门阵列(FPGA)等。

本技术领域的普通技术人员可以理解实现上述实施例方法携带的全部或部分步骤是可以通过程序来指令相关的硬件完成，所述的程序可以存储于一种计算机可读存储介质中，该程序在执行时，包括方法实施例的步骤之一或其组合。

此外，在本申请各个实施例中的各功能单元可以集成在一个处理模块中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个模块中。上述集成的模块既可以采用硬件的形式实现，也可以采用软件功能模块的形式实现。所述集成的模块如果以软件功能模块的形式实现并作为独立的产品销售或使用时，也可以存储在一个计算机可读取存储介质中。

上述提到的存储介质可以是只读存储器，磁盘或光盘等。尽管上面已经示出和描述了本申请的实施例，可以理解的是，上述实施例是示例性的，不能理解为对本申请的限制，本领域的普通技术人员在本申请的范围内可以对上述实施例进行变化、修改、替换和变型。

Claims

1.一种基于状态偏移矫正的离线强化学习方法，其特征在于，包括以下步骤：

从离线强化学习的数据集中随机采样当前时间步的样本，并利用所述样本根据最大似然估计训练环境模型和状态转移模型；

基于预设噪声构建被扰动的状态，并获取由策略网络基于所述状态得到的对应动作，且获取由训练后的环境模型基于所述动作得到的下一时刻的第一状态，及获取由训练后的状态转移模型基于当前状态得到的下一时刻的第二状态；以及

利用所述第一状态和所述第二状态之间的距离更新所述策略网络，并通过保守动作值函数学习训练所述动作值网络，直至满足收敛条件，生成基于状态偏移矫正的离线强化学习模型。

2.根据权利要求1所述的方法，其特征在于，所述利用所述第一状态和所述第二状态之间的距离更新所述策略网络，包括：

计算所述第一状态和所述第二状态的最大平均偏差，得到所述距离；

以所述距离确定更新策略，按照所述更新策略优化所述策略网络。

3.根据权利要求2所述的方法，其特征在于，所述按照所述更新策略优化所述策略网络，包括：

基于所述策略网络的优化问题，使用拉格朗日乘子和通过对偶梯度更新，以由策略的损失函数得到优化后的策略网络。

4.根据权利要求1所述的方法，其特征在于，所述通过保守动作值函数学习训练所述动作值网络，包括：

基于所述保守动作值函数，最大化分布内的状态动作对的值；

和/或，基于所述保守动作值函数，最小化分布外的状态动作对的值。

5.根据权利要求1-4任一项所述的方法，其特征在于，在随机采样所述当前时间步的样本之前，还包括：

随机初始化所述环境模型、所述状态转移模型、所述动作值网络和所述策略网络。

6.一种基于状态偏移矫正的离线强化学习装置，其特征在于，包括：

采样模块，用于从离线强化学习的数据集中随机采样当前时间步的样本，并利用所述样本根据最大似然估计训练环境模型和状态转移模型；

计算模块，用于基于预设噪声构建被扰动的状态，并获取由策略网络基于所述状态得到的对应动作，且获取由训练后的环境模型基于所述动作得到的下一时刻的第一状态，及获取由训练后的状态转移模型基于当前状态得到的下一时刻的第二状态；以及

生成模块，用于利用所述第一状态和所述第二状态之间的距离更新所述策略网络，并通过保守动作值函数学习训练所述动作值网络，直至满足收敛条件，生成基于状态偏移矫正的离线强化学习模型。

7.根据权利要求6所述的装置，其特征在于，所述生成模块包括：

计算单元，用于计算所述第一状态和所述第二状态的最大平均偏差，得到所述距离；

优化单元，用于以所述距离确定更新策略，按照所述更新策略优化所述策略网络。

8.根据权利要求7所述的装置，其特征在于，所述优化单元包括：

更新子单元，用于基于所述策略网络的优化问题，使用拉格朗日乘子和通过对偶梯度更新，以由策略的损失函数得到优化后的策略网络。

9.根据权利要求6所述的装置，其特征在于，所述生成模块进一步用于基于所述保守动作值函数，最大化分布内的状态动作对的值；和/或，基于所述保守动作值函数，最小化分布外的状态动作对的值。

10.根据权利要求6-9任一项所述的装置，其特征在于，还包括：

11.一种电子设备，其特征在于，包括：存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序，所述处理器执行所述程序，以实现如权利要求1-5任一项所述的基于状态偏移矫正的离线强化学习方法。

12.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，该程序被处理器执行，以用于实现如权利要求1-5任一项所述的基于状态偏移矫正的离线强化学习方法。