CN116362349A

CN116362349A - 一种基于环境动态模型的强化学习方法和装置

Info

Publication number: CN116362349A
Application number: CN202310344159.4A
Authority: CN
Inventors: 王振杰; 刘俊涛; 王元斌; 高子文
Original assignee: 709th Research Institute of CSSC
Current assignee: 709th Research Institute of CSSC
Priority date: 2023-03-31
Filing date: 2023-03-31
Publication date: 2023-06-30

Abstract

本发明涉及深度强化学习领域，特别是涉及一种基于环境动态模型的强化学习方法和装置。主要包括：初始化环境动态模型的参数，智能体与环境进行交互生成第一训练数据集，使用第一训练数据集对环境动态模型进行训练，获得所述环境动态模型的参数；行动策略模型与所述环境动态模型进行交互，将第一训练数据集更新为第二训练数据集，并使用第二训练数据集对行动策略模型进行训练，根据行动策略模型对环境动态模型的学习进度，对状态转移概率分布熵进行调整，使行动策略模型能够获得最高回报。本发明可以在训练初期能够提升探索效率，在训练中后期能够提升稳定性，提高了智能体对环境的探测效率。

Description

一种基于环境动态模型的强化学习方法和装置

技术领域

本发明涉及深度强化学习领域，特别是涉及一种基于环境动态模型的强化学习方法和装置。

背景技术

由人类或人工智能等智能体参与的游戏、棋牌等活动的开发和测试中，需要对智能体和环境的互动进行模拟，使智能体能够计算出当前环境下的最佳行动策略。为了简化模拟的流程，可以使用深度强化学习完成智能体在环境中的探索，智能体与环境的交互中收集相应的状态、动作、奖赏等样本进行试错学习，从而不断地改善自身策略来获取最大的累积奖赏。近年来，深度强化学习方法在游戏、棋牌等领域取得了突破性的进展，出现了AlphaGo等智能体，战胜了人类顶级选手。

但是，由于某些活动的环境或流程复杂，在智能体参与的强化学习中需要大量的与仿真环境交互来进行试错学习。智能体的每一次互动都会导致环境状态发生变化，智能体不同的策略会导致不同的环境状态变化，这些状态变化也进一步影响智能体下一次的行动策略选择。在进行训练时，需要足够的样本才能够覆盖足够大的环境状态空间，例如AlphaGo使用了3000万个样本进行初步的神经网络模型训练。但是，对于新开发的游戏等环境，无法像围棋这类传统游戏一样存在大量现有的对局可以作为样本使用，需要重新进行样本收集。而限于游戏开发周期等限制，无法确保收集到足够的样本，因此面临状态空间巨大导致的探索不完全和探索效率低下，难以适应真实的环境。

鉴于此，如何克服现有技术所存在的缺陷，解决环境状态空间巨大导致智能体探索不完全和探索效率低下的现象，是本技术领域待解决的问题。

发明内容

针对现有技术的以上缺陷或改进需求，本发明解决了环境状态空间巨大导致智能体探索不完全和探索效率低下的问题。

本发明实施例采用如下技术方案：

第一方面，本发明提供了一种基于环境动态模型的强化学习方法，具体为：初始化环境动态模型的参数，智能体与环境进行交互生成第一训练数据集，使用第一训练数据集对环境动态模型进行训练，获得所述环境动态模型的参数；行动策略模型与所述环境动态模型进行交互，将第一训练数据集更新为第二训练数据集，并使用第二训练数据集对行动策略模型进行训练，根据行动策略模型对环境动态模型的学习进度，对状态转移概率分布熵进行调整，使行动策略模型能够获得最高回报。

优选的，所述方法具体包括：所述环境动态模型的参数包括状态转移函数的参数，其中，状态转移函数表示当前状态下智能体执行某一行动后获得某一个下一时刻环境状态的概率；所述行动策略模型的参数包括行动策略的参数和状态价值函数的参数，其中，行动策略表示当前处于某一状态的智能体选择某一行动的概率，状态价值函数表示当前环境状态的价值。

优选的，所述智能体与环境进行交互生成第一训练数据集，具体包括：获取每一个时刻智能体的当前状态，根据当前行动策略产生一个行动；智能体在所述环境中执行所述行动，获得相应的回报和下一时刻环境状态，将当前状态、行动、回报和下一时刻环境状态构成的四元组加入第一训练数据集中，直至第一训练数据集中的四元组达到指定数量。

优选的，所述使用第一训练数据集对环境动态模型进行训练，获得所述环境动态模型的参数：使用第一训练数据集中的数据对环境动态模型进行训练，根据训练过程中损失函数的值更新环境动态模型中状态转移函数的参数，并记录相应的损失函数值。

优选的，所述行动策略模型与所述环境动态模型进行交互，将第一训练数据集更新为第二训练数据集，具体包括：对环境动态模型中的环境状态进行随机初始化；获得每一个时刻下智能体的当前状态，由行动策略模型产生的相应的行动策略；根据环境动态模型的状态转移函数进行计算，得到回报和下一时刻环境状态，将当前状态、行动、回报和下一时刻环境状态构成的四元组加入第一训练数据集中，将加入数据后的第一训练数据集作为第二训练数据集。

优选的，所述使用第二训练数据集对行动策略模型进行训练，训练时根据行动策略模型对环境动态模型的学习进度调整状态转移概率分布熵，使行动策略模型能够获得最高回报，具体包括：使用第二训练数据集中的数据对行动策略模型进行训练，根据每个行动的回报更新行动策略模型中状态价值函数的参数；状态价值函数的参数更新后，根据状态转移概率分布熵更新行动策略模型的参数，直到行动策略模型达到收敛或达到训练终止条件。

优选的，所述使用第二训练数据集中的数据对行动策略模型进行训练，具体包括：使用AC强化学习框架训练行动策略模型，使用AC强化学习框架和时序差分方法训练行动策略模型中的状态价值函数。

优选的，所述根据状态转移概率分布熵更新行动策略模型的参数，具体包括：根据环境动态模型的当前损失函数值和损失阈值，更新行动策略模型目标函数的自适应系数。

优选的，所述使行动策略模型能够获得最高回报，具体包括：对环境动态模型和行动策略交替进行训练，直到达到训练终止条件或行动策略模型收敛到所需的性能指标。

另一方面，本发明提供了一种基于环境动态模型的强化学习装置，具体为：包括至少一个处理器和存储器，至少一个处理器和存储器之间通过数据总线连接，存储器存储能被至少一个处理器执行的指令，指令在被处理器执行后，用于完成第一方面中的基于环境动态模型的强化学习方法。

与现有技术相比，本发明实施例的有益效果在于：先将环境的状态改变信息抽象为环境动态模型，通过智能体的行动策略模型与环境动态模型互动对行动策略模型进行训练，根据学习进度自适应的调整状态转移概率分布熵的系数在训练初期能够提升探索效率，在训练中后期能够提升稳定性，提高了智能体对环境的探测效率。

附图说明

为了更清楚地说明本发明实施例的技术方案，下面将对本发明实施例中所需要使用的附图作简单地介绍。显而易见地，下面所描述的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例提供的一种基于环境动态模型的强化学习的方法流程图；

图2为本发明实施例提供的另一种基于环境动态模型的强化学习的方法流程图；

图3为本发明实施例提供的另一种基于环境动态模型的强化学习的方法流程图；

图4为本发明实施例提供的另一种基于环境动态模型的强化学习的方法流程图；

图5为本发明实施例提供的一种基于环境动态模型的强化学习的装置结构示意图；

其中，附图标记如下：

11：处理器；12：存储器。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅用以解释本发明，并不用于限定本发明。

本发明是一种特定功能系统的体系结构，因此在具体实施例中主要说明各结构模组的功能逻辑关系，并不对具体软件和硬件实施方式做限定。

此外，下面所描述的本发明各个实施方式中所涉及到的技术特征只要彼此之间未构成冲突就可以相互组合。下面就参考附图和实施例结合来详细说明本发明。

实施例1：

现有的智能体参与的深度强化学习中，需要耗费较长时间获取足够的交互样本，导致了探索效率低下；若缩短样本获取时间，则获取到的智能体和环境互动的样本数量有限，无法覆盖巨大的环境状态空间，导致智能体探索不完全。为了解决上述问题，本实施例提供了一种基于环境动态模型的强化学习方法。

如图1所示，本发明实施例提供的方法具体步骤如下：

步骤101：初始化环境动态模型的参数，智能体与环境进行交互生成第一训练数据集，使用第一训练数据集对环境动态模型进行训练，获得所述环境动态模型的参数。

本实施例提供的方法中，为了使智能体的探索过程能够覆盖尽可能多的环境状态，需要学习环境动态模型，将真实环境抽象为环境动态模型，使用环境动态模型模拟智能体执行某一行动后的状态变化。首先初始化环境动态模型参数，并重置环境动态模型中神经网络的结构，智能体与环境交互产生第一训练数据集，在该训练集下使用监督学习方法对环境动态模型进行训练和参数调整，使其能够完全模拟出真实环境在智能体执行不同行动后的状态变化，获取到环境动态模型。通过环境动态模型，能够使智能体的训练无需依赖真实环境，提高了训练效率。

环境动态模型参数的包括状态转移函数p(s_t+1|(s_t,a_t),θ_E)的参数θ_E，其中，状态转移函数p(s_t+1|(s_t,a_t),θ_E)表示当前状态s_t下智能体执行某一行动a_t后获得某一个下一时刻环境状态s_t+1的概率。

步骤102：行动策略模型与所述环境动态模型进行交互，将第一训练数据集更新为第二训练数据集，并使用第二训练数据集对行动策略模型进行训练，根据行动策略模型对环境动态模型的学习进度，对状态转移概率分布熵进行调整，使行动策略模型能够获得最高回报。

获取到环境动态模型后，智能体的行动策略模型即可利用环境动态模型学习该环境中的行动策略。使用行动策略模型与环境动态模型交互，利用强化学习(Actor-Critic，简写为AC)框架训练行动策略模型的评价网络和行动策略网络。其中，评价网络使用时序差分(Temporal-Difference，简写为TD)方法训练，行动策略网络的目标函数增加了状态转移概率分布熵，根据环境动态模型的学习进度，自适应的调整状态转移概率分布熵的自适应系数。

行动策略模型的参数包括行动策略π_A(a|s,θ_A)的参数θ_A和状态价值函数V_π(s,θ_v)的参数θ_v，行动策略π_A(a|s,θ_A)表示当前处于某一状态s的智能体选择某一行动a的概率，状态价值函数V_π(s,θ_v)表示当前环境状态s的价值。

经过本实施例中提供的步骤101-步骤102后，即可使用环境动态模型完成对行动策略模型的训练，获得智能体在不同环境下的最佳策略选择。在训练过程中，状态转移概率分布熵是一个变量，会随着训练进程而改变；与此同时，自适应系数也会随着训练进程改变，例如自适应系数的正负号会发生变化。因此，可以通过自适应调整状态转移概率分布熵的系数，实现探索充分性和探索稳定性的平衡。

在实际实施过程中，步骤101和步骤102中对环境动态模型和行动策略交替进行训练，直到达到训练终止条件或行动策略模型收敛到所需的性能指标。理论上，训练次数越多，所获得的性能越好。但是，在实际实施中，超过一定训练次数后，性能提升的幅度会减缓，为了达到效率和性能的平衡，也可以根据需要设置最大训练次数，达到最大训练次数后结束训练。

如图2所示，可以通过以下过程完成步骤101中智能体与环境进行交互生成第一训练数据集的过程。

步骤201：获取每一个时刻智能体的当前状态，根据当前行动策略产生一个行动。

第一训练数据集主要体现真实环境对于智能体不同行动的反应，因此需要获取到智能体进行每个行动前后环境的不同状态。首先根据智能体的当前状态和行动策略获取当前环境状态下智能体会产生的行动，在每一个时刻t，智能体获得当前状态s_t，根据行动策略π_A产生行动a_t。

步骤202：智能体在所述环境中执行所述行动，获得相应的回报和下一时刻环境状态，将当前状态、行动、回报和下一时刻环境状态构成的四元组加入第一训练数据集中，直至第一训练数据集中的四元组达到指定数量。

获取到智能体的行动后a_t，在环境中执行行动a_t，得到回报r_t和下一时刻环境状态为s_t+1，将(s_t,a_t,r_t,s_t+1)四元组加入到第一训练数据集D中。

通过步骤201和步骤202，即可获取到能够反映环境动态变化的第一训练数据集D。

当第一训练数据集D中训练数据达到需要的数量M个后，停止智能体与环境交互。然后，采用监督学习方法，使用第一训练数据集D中的数据对环境动态模型进行训练，根据训练过程中损失函数的值更新环境动态模型中状态转移函数p(s_t+1|(s_t,a_t),θ_E)的参数θ_E，使得环境动态模型对智能体行动的反应更符合真实环境。并记录相应的损失函数值L，以便后续作为行动策略模型训练时的参考。进行训练时，可以反复获取第一训练数据集D，并反复使用新的第一训练数据集D对环境动态模型进行训练，直到行动策略学习达到收敛或达到训练终止条件。

获取到环境动态模型后，根据步骤102，通过行动策略模型与环境动态模型进行交互生成第二训练数据集。如图3所示，具体步骤如下。

步骤301：对环境动态模型中的环境状态进行随机初始化。

本实施例提供的方法中，使用环境动态模型代替真实环境以提高智能体的探索效率。首先，随机初始环境动态模型的环境状态s₀，作为进行探索时环境的初始状态。

步骤302：获得每一个时刻下智能体的当前状态，由行动策略模型产生的相应的行动策略。

环境状态模型由初始状态开始，由智能体的行动触发状态改变。在每一个时刻t，智能体获得当前状态s_t，根据行动策略π_A产生行动a_t。

步骤303：根据环境动态模型的状态转移函数进行计算，得到回报和下一时刻环境状态，将当前状态、行动、回报和下一时刻环境状态构成的四元组加入第二训练数据集中。

智能体每个行动触发的环境状态改变，对于智能体和环境都有不同的回报，可以基于包含状态变化和不同行动回报值的第二训练数据集对行动策略进行评价和调整，以获取到智能体最优的行动策略。本实施例中，当智能体执行相同的动作时，环境动态模型能够与真实环境产生相同的状态改变，因此智能体与环境动态模型互动产生的数据，以及智能体与真实环境互动产生的数据，可以视为等同的训练数据，因此，可以使用该训练数据作为真实互动数据的补充。具体的，根据状态转移函数p(s_t+1|(s_t,a_t),θ_E)计算下一时刻的状态，得到回报r_t和下一时刻环境状态为s_t+ ¹，将(s_t,a_t,r_t,s_t+1)四元组加入到第一训练数据集D中，生成第二训练数据集D'。

通过步骤301-步骤303，即可获得用于智能体行动策略模型训练的第二训练数据集。

获取到第二训练数据集后，即可使用如图4所示的步骤对行动策略模型进行训练，以获取最优的行动策略。

步骤401：使用第二训练数据集中的数据对行动策略模型进行训练，根据每个行动的回报更新行动策略模型中状态价值函数的参数。

用第二训练数据集D'，根据TD算法更新状态价值函数V_π(s,θ_v)的参数θ_v，通过时序差分的预测和控制进行策略优化。

步骤402：状态价值函数的参数更新后，根据状态转移概率分布熵更新行动策略模型的参数，直到行动策略模型达到收敛或达到训练终止条件。

状态价值函数V_π(s,θ_v)的参数θ_v更新后，使用目标函数更新行动策略π_A(a|s,θ_A)的参数θ_A。

通过步骤401和步骤402，即可完成智能体行动策略模型的优化。

在本实施例提供的方法中，通过调整自适应的调整状态转移概率分布熵的系数来确保探索度和探索效率的平衡。具体的，使用AC强化学习框架训练行动策略模型，使用AC强化学习框架和时序差分方法训练行动策略模型中的状态价值函数。

其中，根据状态转移概率分布熵更新行动策略模型的参数的具体方式为：根据环境动态模型的当前损失函数值和损失阈值，更新行动策略模型目标函数的自适应系数，目标函数可以使用以下公式表示。

其中，H(p(s_t+1|s_t,a_t)为状态转移概率分布熵。β为自适应系数。

具体的，概率分布熵可以使用以下方式进行计算：

H(p(s_t+1|s_t,a_t)＝-∑p(s_t+1|s_t,a_t)·log(p(s_t+1|s_t,a_t))。

在计算时，设定一个阈值α，根据公式β＝L-α更新β，其中L为环境动态模型的当前损失函数值。

进行训练时，可以反复更新第二训练数据集D'，并反复使用新的第二训练数据集D'对行动策略模型进行训练，直到行动策略学习达到收敛或达到训练终止条件。

本实施例提供的方法可以在典型的强化学习场景中使用，例如，在棋牌、RPG游戏、moba游戏等场景中对游戏AI进行训练，使其获得更优的行动策略，从而模拟真实玩家的行为，或提供比真实玩家更优的行动策略选择。也可以使用在环境测试的场景中，例如，对策略游戏的关卡难度进行测试，对RPG或Roguelike游戏中对地图的合理性进行测试，从而避免地图bug，提高场景和地图的可玩性。上述场景中使用本实施例提供的方法，在环境动态模型的学习阶段，智能体与游戏环境进行交互，产生训练样本，通过监督学习方法训练得到环境的动态模型；在学习行动策略阶段，使用AC强化学习框架训练得到行动策略，在此阶段行动策略与环境动态模型交互，而不需要与游戏环境交互。通过本发明的方法能够在训练初期提升探索效率，在训练后期提升稳定性。

本实施例提供的一种基于环境动态模型的强化学习方法现有技术相比，在行动策略训练的目标函数中增加了状态转移概率分布熵，根据环境动态模型的学习进度，自适应的调整状态转移概率分布熵的系数。在训练初期需要充分的探索，需要最大化状态熵，但是在训练后期，为了获得最大回报，并不需要最大化熵，相反，为了获得更一致和稳定的决策应该最小化熵。因此，本发明自适应的调整状态转移概率分布熵的系数在训练初期能够提升探索效率，在训练中后期能够提升稳定性。

实施例2：

在上述实施例1提供的一种基于环境动态模型的强化学习方法的基础上，本发明还提供了一种可用于实现上述方法的一种基于环境动态模型的强化学习装置，如图5所示，是本发明实施例的装置架构示意图。本实施例的一种基于环境动态模型的强化学习装置包括一个或多个处理器11以及存储器12。其中，图5中以一个处理器11为例。

处理器11和存储器12可以通过总线或者其他方式连接，图5中以通过总线连接为例。

存储器12作为一种一种基于环境动态模型的强化学习方法非易失性计算机可读存储介质，可用于存储非易失性软件程序、非易失性计算机可执行程序以及模块，如实施例1中的一种基于环境动态模型的强化学习方法。处理器11通过运行存储在存储器12中的非易失性软件程序、指令以及模块，从而执行一种基于环境动态模型的强化学习装置的各种功能应用以及数据处理，即实现实施例1的一种基于环境动态模型的强化学习的方法。

存储器12可以包括高速随机存取存储器，还可以包括非易失性存储器，例如至少一个磁盘存储器件、闪存器件、或其他非易失性固态存储器件。在一些实施例中，存储器12可选包括相对于处理器11远程设置的存储器，这些远程存储器可以通过网络连接至处理器11。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。

程序指令/模块存储在存储器12中，当被一个或者多个处理器11执行时，执行上述实施例1中的一种基于环境动态模型的强化学习的方法，例如，执行以上描述的图1-图5所示的各个步骤。

本领域普通技术人员可以理解实施例的各种方法中的全部或部分步骤是可以通过程序来指令相关的硬件来完成，该程序可以存储于一计算机可读存储介质中，存储介质可以包括：只读存储器(Read Only Memory，简写为：ROM)、随机存取存储器(Random AccessMemory，简写为：RAM)、磁盘或光盘等。

以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等，均应包含在本发明的保护范围之内。

Claims

1.一种基于环境动态模型的强化学习方法，其特征在于，具体包括：

初始化环境动态模型的参数，智能体与环境进行交互生成第一训练数据集，使用第一训练数据集对环境动态模型进行训练，获得所述环境动态模型的参数；

行动策略模型与所述环境动态模型进行交互，将第一训练数据集更新为第二训练数据集，并使用第二训练数据集对行动策略模型进行训练，根据行动策略模型对环境动态模型的学习进度，对状态转移概率分布熵进行调整，使行动策略模型能够获得最高回报。

2.根据权利要求1所述的基于环境动态模型的强化学习方法，其特征在于，所述方法具体包括：

所述环境动态模型的参数包括状态转移函数的参数，其中，状态转移函数表示当前状态下智能体执行某一行动后获得某一个下一时刻环境状态的概率；

所述行动策略模型的参数包括行动策略的参数和状态价值函数的参数，其中，行动策略表示当前处于某一状态的智能体选择某一行动的概率，状态价值函数表示当前环境状态的价值。

3.根据权利要求1所述的基于环境动态模型的强化学习方法，其特征在于，所述智能体与环境进行交互生成第一训练数据集，具体包括：

获取每一个时刻智能体的当前状态，根据当前行动策略产生一个行动；

智能体在所述环境中执行所述行动，获得相应的回报和下一时刻环境状态，将当前状态、行动、回报和下一时刻环境状态构成的四元组加入第一训练数据集中，直至第一训练数据集中的四元组达到指定数量。

4.根据权利要求1所述的基于环境动态模型的强化学习方法，其特征在于，所述使用第一训练数据集对环境动态模型进行训练，获得所述环境动态模型的参数：

使用第一训练数据集中的数据对环境动态模型进行训练，根据训练过程中损失函数的值更新环境动态模型中状态转移函数的参数，并记录相应的损失函数值。

5.根据权利要求1所述的基于环境动态模型的强化学习方法，其特征在于，所述行动策略模型与所述环境动态模型进行交互，将第一训练数据集更新为第二训练数据集，具体包括：

对环境动态模型中的环境状态进行随机初始化；

获得每一个时刻下智能体的当前状态，由行动策略模型产生的相应的行动策略；

根据环境动态模型的状态转移函数进行计算，得到回报和下一时刻环境状态，将当前状态、行动、回报和下一时刻环境状态构成的四元组加入第一训练数据集中，将加入数据后的第一训练数据集作为第二训练数据集。

6.根据权利要求1所述的基于环境动态模型的强化学习方法，其特征在于，所述使用第二训练数据集对行动策略模型进行训练，训练时根据行动策略模型对环境动态模型的学习进度调整状态转移概率分布熵，使行动策略模型能够获得最高回报，具体包括：

使用第二训练数据集中的数据对行动策略模型进行训练，根据每个行动的回报更新行动策略模型中状态价值函数的参数；

状态价值函数的参数更新后，根据状态转移概率分布熵更新行动策略模型的参数，直到行动策略模型达到收敛或达到训练终止条件。

7.根据权利要求6所述的基于环境动态模型的强化学习方法，其特征在于，所述使用第二训练数据集中的数据对行动策略模型进行训练，具体包括：

使用AC强化学习框架训练行动策略模型，使用AC强化学习框架和时序差分方法训练行动策略模型中的状态价值函数。

8.根据权利要求6所述的基于环境动态模型的强化学习方法，其特征在于，所述根据状态转移概率分布熵更新行动策略模型的参数，具体包括：

根据环境动态模型的当前损失函数值和损失阈值，更新行动策略模型目标函数的自适应系数。

9.根据权利要求1所述的基于环境动态模型的强化学习方法，其特征在于，所述使行动策略模型能够获得最高回报，具体包括：

对环境动态模型和行动策略交替进行训练，直到达到训练终止条件或行动策略模型收敛到所需的性能指标。

10.一种基于环境动态模型的强化学习装置，其特征在于，包括至少一个处理器和存储器，所述至少一个处理器和存储器之间通过数据总线连接，所述存储器存储能被所述至少一个处理器执行的指令，所述指令在被所述处理器执行后，用于完成权利要求1-9中任一项所述的基于环境动态模型的强化学习方法。