CN114692890B

CN114692890B - 基于模型的权值组合规划值扩展的方法

Info

Publication number: CN114692890B
Application number: CN202111598164.5A
Authority: CN
Inventors: 杨思明; 曹江; 高原; 郭洋; 王平; 王景; 王晓楠
Original assignee: Research Institute of War of PLA Academy of Military Science
Current assignee: Research Institute of War of PLA Academy of Military Science
Priority date: 2021-12-24
Filing date: 2021-12-24
Publication date: 2024-06-25
Anticipated expiration: 2041-12-24
Also published as: CN114692890A

Abstract

本发明公开了一种基于模型的权值组合规划值扩展的方法，包含如下步骤：创建并行的执行单元，创建策略网络，并行的执行单元使用策略网络的当前策略与模拟环境交互，采集一整幕经验数据；将一整幕经验数据存入策略网络的缓存组件中；策略网络从缓存组件中取出定量的经验数据；待策略网络对定量的经验数据都进行评估后，通过策略梯度的方法更新策略网络的当前策略，获得新策略；待并行的执行单元与模拟环境进行新一轮交互时，无需等待策略网络进行策略更新，直接同步新策略即可。我们的方法结合了Impala架构，引入内部奖励值，同时对展开值H进行权值组合。不仅提高了算法的样本效率，同时大幅提高了方法收集数据的效率，提升了学习速度。

Description

基于模型的权值组合规划值扩展的方法

技术领域

本发明涉及智能体与模拟环境的交互技术领域，特别涉及一种基于模型的权值组合规划值扩展的方法。

背景技术

前强化学习算法难以落地的一个重要问题在于样本效率过低，样本效率指的是智能体在一个任务上达到指定学习效果所需样本的大小，所需样本越多则样本效率越低，反之所需样本越少则，样本效率越高。当前，样本效率低下是阻碍强化学习在实际场景应用的一大障碍。样本效率的低下使得训练所需要的样本数量增加，但是与监督学习等范式不同，强化学习的数据源于智能体与环境的交互。所以所需样本的增加，使得智能体与环境交互的次数增加，当前强化学习在游戏、推荐系统的领域大放异彩的原因在于，这类任务的采样代价很低，游戏可以通过采集玩家对战数据，或使用智能体在游戏中反复试错收集经验数据。而推荐系统领域，每天有大量用户在为智能体提供交互数据，在这些采样代价较低的领域，强化学习样本效率低的问题被掩盖了。但是在许多实际场景中，如机器人控制、自动驾驶、智能城市等采样代价高的领域，无法接受智能体通过上万次的交互试错来收集数据，所以强化学习在上述领域并没有取得较好的成果。

当前为了提高算法样本效率，主要有以下几种方法：

1.基于价值函数类的算法中，会使用经验回放的方法提高样本效率。即将采集到的数据存入缓存，在训练过程中按照均匀采样或优先级采样的方式，抽取样本数据进行学习。这种方法可以重复利用之前采集的数据，从而降低采样成本，典型的利用就是DQN、APE-X等算法。但是缺陷在于，基于值函数的方法在连续动作空间任务上会出现维度灾难问题，并且收敛性较差。2.基于策略梯度类算法中，会使用off-policy方法提高样本效率。即利用行动策略加大探索力度，收集多样性样本，通过重要性采样的方法将行动策略采样得到的数据在目标策略中进行学习。典型的算法就是DDPG、TD3、Impala等方法。但是缺陷在于算法方差较大，学习过程波动性大，容易收敛到局部最优策略。

3.基于模型（model-based）的强化学习算法，除了会利用智能体采样得到的数据进行策略训练，同时还会利用其对模型的状态概率转移函数进行学习。得到了较为准确的状态转移函数之后，便可以通过规划的方法自己产生大量数据进行学习，或利用学到的状态转移概率函数得到对于价值函数更准确的估计，以此达到用小样本实现高效学习的效果。当前Model-based方法最大的挑战就是模型误差，数据量很少的情况下，学到的到的模型不准确，而使用不准确的模型预测就会产生更大的误差。

发明内容

根据本发明实施例，提供了一种基于模型的权值组合规划值扩展的方法，包含如下步骤：

创建并行的执行单元，创建策略网络，并行的执行单元使用策略网络的当前策略与模拟环境交互，采集一整幕经验数据；

将一整幕经验数据存入策略网络的缓存组件中；

策略网络从缓存组件中取出定量的经验数据；

使用目标网络对定量的经验数据进行评估，得到奖励值；

使用预测网络对预设个数的规划值进行预测，得到规划值的均值和方差；

根据规划值的均值和方差，通过逆方差权重法得到经验数据在加权后的预设步数规划值；

对经验数据的状态价值函数进行评估，得到总的预设步数后的状态价值函数；

利用V-trace方法对总的预设步数后的状态价值函数通过重要性采样的方式进行改写，得到可供策略网络学习的近似值状态价值函数；

对预设步数规划值和近似值状态价值函数求和得到最终价值函数；

待策略网络对定量的经验数据都进行评估后，通过策略梯度的方法更新策略网络的当前策略，获得新策略；

待并行的执行单元与模拟环境进行新一轮交互时，无需等待策略网络进行策略更新，直接同步新策略即可。

进一步，一整幕数据包含：若干个五元组数据。

进一步，五元组数据包含：动作初始观测到的状态、依照策略做出的动作、外部奖励值、环境转移到的下一个状态以及是否触发终止条件导致任务终止

进一步，使用目标网络对定量的经验数据的每个动作初始观测到的状态下的内部奖励进行评估，得到奖励值。

进一步，通过逆方差权重法得到经验数据在加权后的预设步数规划值的计算公式为：

其中，代表最终得到的加权后的预设步数规划值，H代表规划扩展的步数，/>代表/>，得到的规划值的方差的倒数，/>代表将对H取从0至H的值后，规划值的方差的倒数之和，/>H取i时，规划值的均值。

进一步，利用奖励值对经验数据的状态价值函数进行评估，得到预设步数后的状态价值函数。

进一步，待策略网络对定量的经验数据都进行评估后，利用目标网络与预测网络的预测均方误差作为损失函数，优化预测网络的参数。

进一步，待策略网络对定量的经验数据都进行评估后，利用最终价值函数与奖励值计算的时序差分结果之差作为损失函数，更新价值评估网络，以及规划模型用的奖励值估计网络、状态转移预测网络。

根据本发明实施例的基于模型的权值组合规划值扩展的方法，相比传统的基于模型的方法，我们的方法结合了Impala架构，引入内部奖励值，同时对展开值H进行权值组合。不仅提高了算法的样本效率，同时大幅提高了方法收集数据的效率，提升了学习速度。并且内在奖励的引入可以成功引导智能体对环境进行高效探索，避免了由于探索效能不够，导致价值函数估计不准确，进而收敛到局部最优策略的问题。且本方法相比其他基于模型的算法，有着更高的单位时隙吞吐率、更好的性能、更快的学习速度以及更高的鲁棒性。

要理解的是，前面的一般描述和下面的详细描述两者都是示例性的，并且意图在于提供要求保护的技术的进一步说明。

附图说明

图1为根据本发明实施例基于模型的权值组合规划值扩展的方法的流程图。

图2为根据本发明实施例基于模型的权值组合规划值扩展的方法的架构原理图。

图3为根据本发明实施例基于模型的权值组合规划值扩展的方法的性能对比图。

图4为根据本发明实施例基于模型的权值组合规划值扩展的方法的鲁棒性对比图。

具体实施方式

以下将结合附图，详细描述本发明的优选实施例，对本发明做进一步阐述。

首先，将结合图1~4描述根据本发明实施例的基于模型的权值组合规划值扩展的方法，用于智能体与模拟环境的交互实现数据的收集使用，其应用场景很广。

如图1~4所示，本发明实施例的基于模型的权值组合规划值扩展的方法，包含如下步骤：

在S1中，如图1所示，创建并行的执行单元（worker），创建策略网络（Learner），并行的执行单元使用策略网络的当前策略与模拟环境交互，采集一整幕经验数据。在本实施例中，一整幕数据包含：若干个五元组数据（st，at，，st+1，done），五元组数据包含：动作初始观测到的状态st、依照策略做出的动作at、外部奖励值/>、环境转移到的下一个状态st+1以及是否触发终止条件导致任务终止done，其中t代表个数。

在S2中，如图1所示，将一整幕经验数据存入策略网络的缓存组件中。

在S3中，如图1所示，策略网络从缓存组件中取出定量的经验数据。

在S4中，如图1所示，使用目标网络对定量的经验数据的每个动作初始观测到的状态st下的内部奖励进行评估，得到奖励值。

在S5中，如图1所示，使用预测网络对预设个数的规划值进行预测，得到规划值的均值和方差。在本实施例中，针对每个状态st，综合考量H+1个不同预测步长的MVE形式的TD目标值，来计算得到一个合适的TD目标值。设置H+1个候选的TD目标：，/>，……，，即考量从0步规划到H步规划的H+1种不同TD目标值。针对每个候选的TD目标/>的，其在规划中有三个重要参数，分别为Q函数预测参数/>，奖励函数预测参数/>，状态转换函数预测参数/>，它们共同作用组成一个H=i步的TD目标/>，为了增强算法的鲁棒性，设置一个候选的TD目标中有L个预测参数/>，N个奖励函数预测参数，M个状态转移预测参数/>。可知每个候选目标会有M×N×L个不同计算结果，对这些结果求均值和方差，得到候选目标/>的均值/>和方差/>。

在S6中，如图1所示，根据规划值的均值和方差，通过逆方差权重法得到经验数据在加权后的预设步数规划值T。在本实施例中，通过逆方差权重法得到经验数据在加权后的预设步数规划值的计算公式为：

在S7中，如图1所示，利用奖励值对经验数据的状态价值函数进行评估，得到总的预设步数后的状态价值函数/>。在本实施例中，总的预设步数后的状态价值函数分别为内部状态价值函数/>和外部状态价值函数/>，总的预设步数后的状态价值函数/>为内部状态价值函数/>与外部状态价值函数/>求和。

在S8中，如图1所示，利用V-trace方法对总的预设步数后的状态价值函数通过重要性采样的方式进行改写，得到可供策略网络学习的近似值状态价值函数/>。

在S9中，如图1所示，对预设步数规划值T和近似值状态价值函数求和得到最终价值函数/>。

在S10中，如图1所示，待策略网络对定量的经验数据都进行评估后，通过策略梯度的方法更新策略网络的当前策略，获得新策略。在本实施例中，利用策略梯度的方法计算新策略的公式为：

其中，Π为新策略，Π_w为当前策略，为时隙t中，行动策略（当前策略）与目标策略（新策略）的重要性采样系数。/>为时隙t中的状态，/>为时隙t中智能体的动作，/>为时隙t中智能体的奖励值，/>为折扣系数，/>为状态/>的状态价值函数，/>为预测的状态/>的状态价值函数。

在S11中，如图1所示，待并行的执行单元与模拟环境进行新一轮交互时，无需等待策略网络进行策略更新，直接同步新策略即可。

以上，参照图1~4描述了根据本发明实施例的基于模型的权值组合规划值扩展的方法，相比传统的基于模型的方法，我们的方法结合了Impala架构，引入内部奖励值，同时对展开值H进行权值组合。不仅提高了算法的样本效率，同时大幅提高了方法收集数据的效率，提升了学习速度。并且内在奖励的引入可以成功引导智能体对环境进行高效探索，避免了由于探索效能不够，导致价值函数估计不准确，进而收敛到局部最优策略的问题。且本方法相比其他基于模型的算法，有着更高的单位时隙吞吐率、更好的性能、更快的学习速度以及更高的鲁棒性。

需要说明的是，在本说明书中，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包含……”限定的要素，并不排除在包括要素的过程、方法、物品或者设备中还存在另外的相同要素。

尽管本发明的内容已经通过上述优选实施例作了详细介绍，但应当认识到上述的描述不应被认为是对本发明的限制。在本领域技术人员阅读了上述内容后，对于本发明的多种修改和替代都将是显而易见的。因此，本发明的保护范围应由所附的权利要求来限定。

Claims

1.一种基于模型的权值组合规划值扩展的方法，其特征在于，包含如下步骤：

创建并行的执行单元，创建策略网络，所述并行的执行单元使用所述策略网络的当前策略与模拟环境交互，采集一整幕经验数据；

将所述一整幕经验数据存入策略网络的缓存组件中；

所述策略网络从所述缓存组件中取出定量的所述经验数据；

使用目标网络对所述定量的经验数据进行评估，得到奖励值；

使用预测网络对所述预设个数的规划值进行预测，得到规划值的均值和方差；

根据所述规划值的均值和方差，通过逆方差权重法得到所述经验数据在加权后的预设步数规划值；

对所述经验数据的状态价值函数进行评估，得到总的预设步数后的状态价值函数；

利用V-trace方法对所述总的预设步数后的状态价值函数通过重要性采样的方式进行改写，得到可供所述策略网络学习的近似值状态价值函数；

对所述预设步数规划值和所述近似值状态价值函数求和得到最终价值函数；

待所述策略网络对所述定量的经验数据都进行评估后，通过策略梯度的方法更新所述策略网络的当前策略，获得新策略；

待所述并行的执行单元与所述模拟环境进行新一轮交互时，无需等待所述策略网络进行策略更新，直接同步所述新策略即可。

2.如权利要求1所述基于模型的权值组合规划值扩展的方法，其特征在于，所述一整幕数据包含：若干个五元组数据。

3.如权利要求2所述基于模型的权值组合规划值扩展的方法，其特征在于，所述五元组数据包含：动作初始观测到的状态、依照策略做出的动作、外部奖励值、环境转移到的下一个状态以及是否触发终止条件导致任务终止。

4.如权利要求3所述基于模型的权值组合规划值扩展的方法，其特征在于，所述使用目标网络对所述定量的经验数据的每个动作初始观测到的状态下的内部奖励进行评估，得到奖励值。

5.如权利要求3所述基于模型的权值组合规划值扩展的方法，其特征在于，所述通过逆方差权重法得到所述经验数据在加权后的预设步数规划值的计算公式为：

其中，代表最终得到的加权后的预设步数规划值，H代表规划扩展的步数，代表，得到的规划值的方差的倒数，代表将对H取从0至H的值后，规划值的方差的倒数之和，H取i时，规划值的均值。

6.如权利要求3所述基于模型的权值组合规划值扩展的方法，其特征在于，所述利用奖励值对所述经验数据的状态价值函数进行评估，得到预设步数后的状态价值函数。

7.如权利要求1所述基于模型的权值组合规划值扩展的方法，其特征在于，待所述策略网络对所述定量的经验数据都进行评估后，利用所述目标网络与所述预测网络的预测均方误差作为损失函数，优化预测网络的参数。

8.如权利要求1所述基于模型的权值组合规划值扩展的方法，其特征在于，待所述策略网络对所述定量的经验数据都进行评估后，利用最终价值函数与所述奖励值计算的时序差分结果之差作为损失函数，更新价值评估网络，以及规划模型用的奖励值估计网络、状态转移预测网络。