CN113947022A

CN113947022A - 一种基于模型的近端策略优化方法

Info

Publication number: CN113947022A
Application number: CN202111220714.XA
Authority: CN
Inventors: 漆舒汉; 董泽宇; 王轩; 张加佳; 刘洋; 唐琳琳; 夏文; 李君一; 蒋琳; 高翠芸
Original assignee: Shenzhen Graduate School Harbin Institute of Technology
Current assignee: Shenzhen Graduate School Harbin Institute of Technology
Priority date: 2021-10-20
Filing date: 2021-10-20
Publication date: 2022-01-18
Anticipated expiration: 2041-10-20
Also published as: CN113947022B

Abstract

本发明公开了一种基于模型的近端策略优化方法，包括步骤：获取模拟环境，并确定所述模拟环境对应的环境模型和策略网络；基于所述策略网络与所述模拟环境，确定状态数据；其中，所述状态数据包括所述模拟环境的视频序列帧；基于所述模拟环境的视频序列帧训练所述环境模型，得到已训练的环境模型输出的预测图像；基于所述预测图像，更新所述状态数据，得到更新的状态数据；基于所述更新的状态数据，更新所述策略网络，得到更新的策略网络。融合基于模型的深度强化学习算法，提出了基于模型的近端策略优化框架，较好的解决了非完全信息博弈环境下采样利用率低的问题，在提高采样率的同时提升训练速度。

Description

一种基于模型的近端策略优化方法

技术领域

本发明涉及深度强化学习技术领域，尤其涉及的是一种基于模型的近端策略优化方法。

背景技术

机器博弈是人工智能发展的试金石，从战胜国际象棋特级大师卡斯帕罗夫的超级电脑深蓝，到远超人类职业围棋选手水平的围棋智能体AlphaGo，再到在多智能体博弈中战胜职业队伍的星际争霸智能体AlphaStar，机器博弈见证了人工智能在科技发展的公路上建起的一座座里程碑。

按照博弈信息是否完全，博弈分为完全信息博弈和非完全信息博弈。完全信息博弈是指在博弈过程中，每一位参与人对其他参与人的特征、策略空间及收益函数有准确的信息，例如国际象棋、围棋，这些都属于完全信息博弈。相对的如果游戏玩家只能观测到部分游戏信息，即参与人对其他参与人的特征、策略空间及收益函数信息了解的不够准确、或者不是对所有参与人的特征、策略空间及收益函数都有准确信息，在这种情况下进行的博弈就是非完全信息博弈，如桥牌、军棋等。

强化学习(Reinforcement Learning，RL)是一种可以用来求解博弈环境下最优策略的技术，其中最优策略是指任意累积收益最大化的策略集合中的策略。强化学习中智能体所处的环境为博弈规则，智能体根据当前的博弈状态输出动作，博弈环境给予反馈，智能体利用这些反馈不断优化策略。在新一轮人工智能浪潮中，强化学习得到了巨大的发展，特别是强化学习在深度学习的加持下催生了深度强化学习这一新的方向，并在机器博弈领域产生了一系列令人瞩目的成果。例如DeepMind团队将强化学习中的Q-learning与神经网络结合，该算法可以直接从雅达利2600游戏视频图像中学习到高分策略，并利用训练获得的策略在某些游戏上达到了超越人类的水平；再者智能体AlphaStar，在没有任何游戏限制的情况下已经达到星际争霸II人类对战天梯的顶级水平。

现有技术中，近端策略优化算法(Proximal Policy Optimization，PPO)是一种无模型深度强化学习算法，训练效果好，算力要求低，是OpenAI深度强化学习默认算法，在MuJoCo和gym测试平台上取得了优于前代算法的智能体水平。作为一个无模型的深度强化学习算法也面临着采样利用率低导致训练效率低的问题。

因此，现有技术还有待于改进和发展。

发明内容

本发明要解决的技术问题在于，针对现有技术的上述缺陷，提供一种基于模型的近端策略优化方法，旨在解决现有技术中近端策略优化算法的采样利用率低导致训练效率低的问题。

本发明解决技术问题所采用的技术方案如下：

一种基于模型的近端策略优化方法，其中，包括步骤：

获取模拟环境，并确定所述模拟环境对应的环境模型和策略网络；

基于所述策略网络与所述模拟环境，确定状态数据；其中，所述状态数据包括所述模拟环境的视频序列帧；

基于所述模拟环境的视频序列帧训练所述环境模型，得到已训练的环境模型输出的预测图像；

基于所述预测图像，更新所述状态数据，得到更新的状态数据；

基于所述更新的状态数据，更新所述策略网络，得到更新的策略网络。

所述方法，其中，所述环境模型为多尺度生成对抗网络模型；

所述基于所述模拟环境的视频序列帧训练所述环境模型，得到已训练的环境模型输出的预测图像，包括：

将所述视频序列帧中若干帧连续图像分别下采样成若干不同尺度的输入图像，并将所述视频序列帧中若干帧连续图像的下一帧图像下采样成若干不同尺度的目标图像；

将所述输入图像输入所述环境模型，并通过所述环境模型输生成图像和判别结果；

根据所述目标图像、所述生成图像以及所述判别结果，对所述环境模型的模型参数进行修正，得到已训练的环境模型，并将所述生成图像作为已训练的环境模型输出的预测图像。

所述方法，其中，所述环境模型包括生成器网络和判别器网络；

所述将所述输入图像输入所述环境模型，并通过所述环境模型输生成图像和判别结果，包括：

将所述输入图像输入所述生成器网络，通过所述生成器网络得到生成图像；

将所述生成图像和所述目标图像输入所述判别器网络，通过所述判别器网络得到判别结果；

所述根据所述目标图像、所述生成图像以及所述判别结果，对所述环境模型的模型参数进行修正，得到已训练的环境模型，包括：

固定所述生成器网络，根据所述判别结果对所述判别器网络的模型参数进行修正；

固定所述判别器网络，根据所述目标图像和所述生成图像对所述生成器网络的模型参数进行修正，得到已训练的环境模型。

所述方法，其中，所述判别器网络的损失函数为：

其中，

表示判别器网络的损失函数值，D_k表示第k个尺度下的判别器网络，X_k表示第k个尺度下的输入图像，Y_k表示第k个尺度下的目标图像，G_k(X)表示第k个尺度下的生成图像，N表示尺度的数量，∑表示求和操作，L_bce(·)表示二值交叉熵损失：

其中，

是真实值，Y_i表示预测出的概率值；

所述生成器网络的损失函数为：

其中，

表示生成器网络的损失函数值，L_bce(·)表示二值交叉熵损失，D_k表示第k个尺度下的判别器网络，X_k表示第k个尺度下的输入图像，G_k(X)表示第k个尺度下的生成图像。

所述方法，其中，所述策略网络包括目标行动者网络、目标评论家网络；所述状态数据还包括奖励和结束信号；

基于所述策略网络与所述模拟环境，确定状态数据，包括：

在所述模拟环境的当前状态下，根据所述目标行动者网络得到P值，并根据所述目标评论家网络得到V值；

根据所述P值，确定动作信息；

根据所述动作信息和所述模拟环境，得到所述模拟环境的视频序列帧、奖励以及结束信号。

所述方法，其中，所述基于所述预测图像，更新所述状态数据，得到更新的状态数据，包括：

根据所述预测图像、所述视频序列帧，确定更新的视频序列帧；

根据所述更新的视频序列帧、所述结束信号、所述奖励、所述动作信息、所述P值以及所述V值，得到更新的状态数据。

所述方法，其中，所述策略网络还包括行动者网络和评论家网络；

所述基于所述更新的状态数据，更新所述策略网络，得到更新的策略网络，包括：

根据所述更新的状态数据中所述动作信息和所述行动者网络，得到p值，并根据所述更新的状态数据中所述动作信息和所述评论家网络，得到v值；

根据所述p值、所述v值以及所述更新的状态数据，确定所述策略网络的目标函数值；

根据所述目标函数值，分别对所述行动者网络的模型参数和所述评论家网络的模型参数进行修正，得到更新的行动者网络和更新的评论家网络；

当满足所述行动者网络的模型参数的修正次数满足预设阈值时，将所述更新的行动者网络作为目标行动者网络，并将所述更新的评论家网络作为目标评论家网络，以得到更新的策略网络。

所述方法，其中，所述策略网络的目标函数为：

其中，

表示策略网络的目标函数值，

表示t时刻采样的平均值，

表示近端策略优化算法的目标函数值，s₀表示视频序列帧，

表示叠加，s₁表示预测图像，c₁表示第一惩罚因子，

表示平方差损失函数，c₂表示第二惩罚因子，S[π_θ](·)表示熵奖励，π_θ表示随机策略，min(·)表示取最小值，r_t(θ)表示t时刻的重要性权重，

表示t时刻的优势函数，clip(·)表示裁剪函数，r_t(·)表示t时刻的重要性权重，θ表示网络参数，ε是用来限制r(θ)的超参数，

表示目标评论家网络获得的V值，V_θ表示当前评论家网络V值。

一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，其中，所述处理器执行所述计算机程序时实现上述任一项所述方法的步骤。

一种计算机可读存储介质，其上存储有计算机程序，其中，所述计算机程序被处理器执行时实现上述任一项所述方法的步骤。

有益效果：融合基于模型的深度强化学习算法，提出了基于模型的近端策略优化框架，较好的解决了非完全信息博弈环境下采样利用率低的问题，在提高采样率的同时提升训练速度。

附图说明

图1是本发明中基于模型的近端策略优化方法的整体流程图。

图2是本发明中基于模型的近端策略优化方法的多尺度生成对抗网络在收集的数据集上的效果图。

图3是本发明中基于模型的近端策略优化方法的简单帧预测图。

图4是本发明中基于模型的近端策略优化方法的多尺度生成器网络的结构图。

图5是本发明中基于模型的近端策略优化方法的算法整体架构图。

图6是本发明中基于模型的近端策略优化方法的多尺度生成对抗网络中判别器网络和生成器网络的损失变化曲线图。

图7是本发明中在实验环境下4种算法获得的平均奖励的变化对比图。

具体实施方式

为使本发明的目的、技术方案及优点更加清楚、明确，以下参照附图并举实施例对本发明进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。

请同时参阅图1-图7，本发明提供了一种基于模型的近端策略优化方法的一些实施例。

本发明以近端策略优化算法为基础，结合生成对抗网络等方法，解决传统近端策略优化算法采样利用率低的问题，从而提升训练速度和智能体性能。本发明提出了适用于不同类型环境的一种基于模型的策略优化算法，这是本发明的核心内容。

将该策略优化方法应用于游戏博弈环境中，实现智能体博弈：

将该策略优化方法应用于游戏博弈环境中的实现方式为：根据博弈场景特点构建环境模型，将环境模型的构建问题转化为一个视频帧预测问题，即通过长度为m的历史序列帧预测未来长度为n的视频序列帧。本发明中环境模型采用了多尺度生成对抗网络模型，这里的多尺度是指输入图像的尺度不相同。例如，多尺度生成对抗网络模型以4帧连续的32×32的图像X和真实的下一帧图像Y为输入，通过下采样将4帧连续的32×32的图像X转化为四种不同尺寸的图像，利用输入的两帧图像，以及一张对于Y的粗略预测图像来预测一个关于目标的偏移量。多尺度生成对抗网络模型中的判别器从数据集中采样(X,Y)，训练判别器将(X,Y)分类为1，将(X,G(X))分类到0；生成器从数据集中采样(X,Y)，固定判别器网络D的权重，用SGD优化生成器网络G。构建好环境模型，就可以进行基于模型的近端策略优化，将环境模型的输出的预测图像s′作为辅助信息连同当前环境的状态数据s叠加作为经验辅助智能体训练，用于近端策略优化的策略提升过程中。近端策略优化部分由行动者网络(即Actor网络)和评论家网络(Critic网络)组成，两个网络共享相同的结构，主体结构采用卷积神经网络结构。Actor网络基于概率分布选择动作，Critic网络基于Actor网络生成的行为评判得分。最终智能体将采取概率最大的动作。

本发明主要研究非完全信息博弈条件下近端策略优化算法的改进问题。针对近端策略优化算法采样利用率低的问题，本发明融合基于模型的深度强化学习算法，提出了MB-PPO(Model Based-Proximal Policy Optimization)框架，并设计了有效的环境模型构造方法。

如图1和图5所示，本发明的一种基于模型的近端策略优化方法，包括以下步骤：

步骤S100、获取模拟环境，并确定所述模拟环境对应的环境模型和策略网络。

具体地，近年来深度强化学习(DRL)从简单的单智能体场景慢慢扩展到多智能体，如无人蜂群协作，交通控制环境和复杂机器人控制场景等。本发明采用强化学习领域的经典实验场景作为测试平台，如图2所示。pacman是电子游戏历史上的经典街机游戏，pacman游戏发行后慢慢成为研究人工智能的经典实验场景。PPO、SimPLe、FuNs等强化学习算法都将pacman作为测试平台。pacman游戏如图2所示，其中右侧可张开开口的是智能体，其他带有眼睛和波浪形嘴巴的为幽灵。智能体触碰到幽灵意味着智能体挑战失败。游戏获胜的条件是智能体将散落在通道上的豆子(如虚线分布)全部吃完。pacman环境的输出的状态数据是210×190×3的图像信息，可以作为MB-PPO像素不敏感环境的测试平台。

对于环境模型的构建，本发明将其转化为一个视频帧预测问题来看待，不考虑动作输入，而是将所有物体(包括智能体和幽灵)的走向全部交给环境模型去预测。如图3所示，通过长度为m的历史序列帧X＝{X¹,...,X^m}预测未来长度为n的视频序列帧Y＝{Y¹,...,Yⁿ}。对于帧预测，一种直接的思路就是多层卷积堆叠，每个卷积层利用ReLU函数作为激活函数。然而受到卷积核尺寸的制约，直接用卷积堆叠的方法构建环境模型存在只能产生短程依赖的缺点，这种结构无法满足长距离预测的需求。另一方面视频游戏场景中有许多物体是移动的，一个物体向左还是向右移动都是可能的，因此存在两个可能的下一帧图像m₁、m₂，它们产生的概率为p₁、p₂。当卷积神经网络在预测下一帧时，大概率会预测为p₁m₁+p₂m₂的画面来使损失函数值最低，这会导致生成的图像模糊。

为了弥补以上两点不足(无法长距离预测和图像模糊)，本发明引入了多尺度生成对抗网络模型(Multi-scaleGenerativeAdversarialNetworks)，也就是说，环境模型采用多尺度生成对抗网络模型，生成器网络具体为多尺度生成器网络，如图4所示。

采用了多尺度的架构可以解决卷积层的短程依赖问题，但仍然没有解决卷积网络预测模糊的问题，为了解决这个问题本发明引入了对抗机制。之所以引入对抗网络是基于这样一个假设，当生成器网络生成的预测图像为这p₁m₁+p₂m₂种图像时，图像必然是模糊的，这与真实清晰的真实图像有着显著的不同，判别器就可以利用图像模糊程度来区分输入是生成的预测图像还是真实的图像。另一方面生成器网络为了欺骗过判别器需要把预测图像生成的越来越清晰。这里的判别器网络也是一个多尺度的架构，即对于每个尺度s_k的输入与其对应的判别器网络D_k。多尺度生成对抗网络中的判别器训练从数据集中采样(X,Y)，训练判别器使其将(X,Y)分类为1，将(X,G(X))分类到0。

策略网络预训练多个策略并分析其状态，制定多套不同的内部奖励机制，使得到的策略有不同的倾向性，从而更全面的收集经验。

本文策略优化部分利用的是近端策略优化算法，普通的策略梯度方法以收益的期望为目标函数，利用随机梯度上升算法来优化策略。最常用的网络更新梯度为等式(1)。

其中，

表示梯度；

▽_θ表示梯度算子；

π_θ为随机策略；

a_t为t时刻的动作信息；

s_t为t时刻的状态数据；

为t时刻的优势函数；

为t时刻采样求均值。

相应的策略梯度对应的目标函数为：

其中，L^PG表示损失函数值。

策略梯度的更新依赖于

其中，α是参数更新步长；

θ_old表示旧参数；

θ_new表示新参数。

当步长的选择不合适时，策略会向着更差的方向更新，如果使用变差的策略在环境中采样，那会导致经验池的数据变差，反过来使策略进一步变差，最终导致算法崩溃。因此，选择合适的步长对于强化学习非常关键。所谓合适的步长是指当策略更新后，回报函数的值不能更差。为了解决步长问题，信赖域策略优化(TRPO)提出了新的目标函数：

式中，a_t为t时刻的动作信息；

s_t为t时刻的状态数据；

π_θ为随机策略；

π_θold为旧策略；

为t时刻的优势函数；

为t时刻采样求均值；

δ为步长的限制；

KL(·)表示KL散度约束。

第二行的约束条件约束了策略的更新步长，同时整个目标函数保证了新旧策略相差不大的情况且整体收益上升。等式(4)中的π_θ(a_t|s_t)/π_θold(a_t|s_t)是重要性权重(ImportanceWeight)，重要性权重这个概念来自重要性采样这一概念，重要性采样是统计学中估计某一分布性质时使用的一种方法。该方法从与原分布不同的另一个分布中采样，而对原先分布的性质进行估计。在深度强化学习中用新策略π_θ(a_t|s_t)与π_θold(a_t|s_t)的比值r_t(θ)描述智能体的行动策略：

式中，r_t(θ)表示重要性权重；

a_t为t时刻的动作信息；

s_t为t时刻的状态数据；

π_θ为随机策略；

π_θold为旧策略。

利用重要性采样，可以使用旧的策略下的交互信息对新的策略进行估计，进而优化新策略将基于在线策略的策略梯度算法转化为基于离线策略的优化算法，降低采样数量，加速模型收敛。根据拉格朗日乘数法可以将公式(4)转化为：

式中，a_t为t时刻的动作信息；

s_t为t时刻的状态数据；

π_θ为随机策略；

π_θold为旧策略；

为t时刻的优势函数；

为t时刻采样求均值；

β为惩罚因子；

KL(·)表示KL散度约束。

事实上无论使用公式(4)还是使用公式(6)更新网络都存在计算复杂度过高的问题，求解过程中需要对散度约束KL进行存储和计算，严重影响了训练速度。另外公式(6)引入了新的惩罚因子β，在训练时很难为β找到一个合适的值。于是舍弃散度约束KL，利用公式(8)来更新网络，其中，超参数ε将r(θ)限制在(1-ε,1+ε)内：

其中，

表示近端策略优化算法的目标函数值；

表示t时刻采样的平均值；

min(·)表示取最小值；

r_t(·)表示t时刻的重要性权重；

为t时刻的优势函数；

clip(·)表示裁剪函数；

ε是用来限制r(θ)的超参数；

表示策略网络的目标函数值；

c₁为第一惩罚因子；

表示平方差损失函数；

c₂为第二惩罚因子；

S[π_θ]为熵奖励；

π_θ表示随机策略；

s_t为t时刻的状态数据；

为目标评论家网络(即target Critic网络)获得的V值；

V_θ表示当前评论家网络获得的v值。

公式(7)是近端策略优化算法的目标函数。当算法使用共享参数的行动者评论家网络时，算法的目标函数变为公式(8)，其中S[π_θ](s_t)为熵奖励，鼓励策略进行探索。近端策略优化算法通过引入行动策略概率比并限制其更新幅度，相较于传统的基于Actor-Critic框架的算法，改进后的策略优化算法在训练过程中更加稳定，不同训练过程中智能体的行动策略相对稳定。

步骤S200、基于所述策略网络与所述模拟环境，确定状态数据；其中，所述状态数据包括所述模拟环境的视频序列帧。

利用策略网络的策略与环境交互，收集状态数据；然后预处理收集到的状态数据，状态数据包括所述模拟环境的视频序列帧，例如，视频序列帧可以是五帧图像，对五帧图像进行下采样，转化为32×32维的图像，以前四帧图像为输入图像，最后一帧图像作为目标图像。

所述策略网络包括目标行动者网络、目标评论家网络；所述状态数据还包括奖励和结束信号。具体地，步骤S200具体包括：

步骤S210、在所述模拟环境的当前状态下，根据所述目标行动者网络得到P值，并根据所述目标评论家网络得到V值。

步骤S220、根据所述P值，确定动作信息。

步骤S230、根据所述动作信息和所述模拟环境，得到所述模拟环境的视频序列帧、奖励以及结束信号。

策略网络的策略与环境交互时，在模拟环境的当前状态(例如，当前的时刻为t)下，目标行动者网络得到P值(Prob)，目标评论家网络得到V值(value)。然后根据P值的类别分布采样获得动作信息a，模拟环境根据动作信息a(action)，得到视频序列帧s₀、奖励reward以及结束信号done。

步骤S300、基于所述模拟环境的视频序列帧训练所述环境模型，得到已训练的环境模型输出的预测图像。

具体地，基于视频帧序列形成数据集，环境模型可以基于该数据集进行训练得到已训练的环境模型，且通过已训练的环境模型输出预测图像。数据集包括输入图像和输入图像对应的目标图像。

具体地，所述环境模型为多尺度生成对抗网络模型。具体地，步骤S300具体包括：

步骤S310、将所述视频序列帧中若干帧连续图像分别下采样成不同尺度的输入图像，并将所述视频序列帧中若干帧连续图像的下一帧图像下采样成若干不同尺度的目标图像。

步骤S320、将所述输入图像输入所述环境模型，并通过所述环境模型输生成图像和判别结果。

步骤S330、根据所述目标图像、所述生成图像以及所述判别结果，对所述环境模型的模型参数进行修正，得到已训练的环境模型，并将所述生成图像作为已训练的环境模型输出的预测图像。

由于环境模型采用多尺度生成对抗网络，则输入图像具体为若干不同尺度的输入图像。视频序列帧的帧数可以根据需要设定，尺度的数量也可以根据需要设定。

举例说明，视频帧序列中每帧图像为210×190×3的图像(即长为210，宽为190，通道数为3)，在形成数据集时，需要将视频帧序列中5帧连续图像分别下采样成4种不同尺度的图像，具体为：尺度为s₁＝4×4、s₂＝8×8、s₃＝16×16、s₄＝32×324种不同尺度的图像，由于5帧图像中每帧图像都形成4张不同尺度的图像，则可以得到20张图像，前4帧连续图像下采样得到16张图像，这16张图像作为输入图像。第5帧图像下采样得到4张不同尺度的图像，这4张图像作为目标图像。也就是说，对于每个尺度而言，有4张输入图像和1张目标图像。

确定输入图像和目标图像后，可以对环境模型进行训练，将输入图像输入环境模型，并通过环境模型输出输入图像对应的生成图像，以及输入图像对应的判别结果。然后根据目标图像、生成图像以及判别结果，修正环境模型的模型参数，得到已训练的环境模型，并将生成图像作为已训练的环境模型输出的预测图像。

可以理解的是，由于在环境模型迭代训练过程中，当生成图像与目标图像相差较大时，判别结果为假(即输出0)。当生成图像与目标图像相差较小时，判别结果为真(即输出1)，那么此时，模型参数可以停止修正(即达到预设训练条件)，得到已训练的环境模型，判别结果为真时的生成图像为预测图像。此外，还可以将迭代次数、损失函数值作为预设训练条件，例如，迭代次数达到预设迭代次数(或者损失函数值达到预设损失函数值)时，停止迭代，得到已训练的环境模型，并将最后一次迭代得到的生成图像作为预测图像。

所述环境模型包括生成器网络D和判别器网络G。具体地，步骤S320具体包括：

步骤S321、将所述输入图像输入所述生成器网络，通过所述生成器网络得到生成图像。

步骤S322、将所述生成图像和所述目标图像输入所述判别器网络，通过所述判别器网络得到判别结果。

具体地，将输入图像输入生成器网络，通过生成器网络得到输入图像对应的生成图像。然后将生成图像和目标图像输入判别器网络，得到输入图像对应的判别结果。

由于环境模型采用多尺度生成对抗网络，则生成器网络D具体包括若干个不同尺度的生成器网络D_k，判别器网络G具体包括若干个不同尺度的判别器网络G_k。例如，尺度的数量为4时，有4个不同尺度的生成器网络，分别为G₁、G₂、G₃以及G₄；有4个不同尺度的判别器网络，分别为D₁、D₂、D₃以及D₄。

整个多尺度生成器网络可以被递归定义为公式(10)，即利用输入的两帧图像，以及一张对于目标图像Y_k的粗略的生成图像G_k(X_k)来预测一个关于目标的偏移量。

G_k(X_k)＝u_k(G_k-1(X_k-1))+G′_k(X_k,u_k(G_k-1(X_k-1))) (10)

其中，G_k(·)为对应尺度s_k下的生成器网络；k大于1；

G_k(X_k)对应尺度s_k下的生成器网络的生成图像；

G′_k(·)表示对应尺度s_k下的生成器结构；

u_k(·)是将图像上采样到s_k尺度的操作；

X_k表示对视频帧X进行下采样到尺度s_k下的输入图像。

根据递归公式(10)，公式(10)中G_k-1(X_k-1)通过如下公式得到：

G_k-1(X_k-1)＝u_k-1(G_k-2(X_k-2))+G′_k-1(X_k-1,u_k-1(G_k-2(X_k-2))) (11)

而对于最小尺度而言，k＝1时，有如下公式：

G₁(X₁)＝G′₁(X₁) (12)

也就是说，在最小尺度时，通过两帧输入图像

和

经过生成器结构G′₁得到G′₁(X₁)，即第1个尺度下的生成图像G₁(X₁)。然后将生成图像G₁(X₁)上采样得到u₂(G₁(X₁))，并根据两帧输入图像

和

以及u₂(G₁(X₁))经生成器结构G′₂得到G′₂(X₂,u₂(G₁(X₁)))，且根据u₂(G₁(X₁))和G′₂(X₂,u₂(G₁(X₁)))得到第2个尺度下的生成图像G₂(X₂)。依次类推，可以得到第4个尺度下的G₄(X₄)。从而得到各个尺度下的生成图像。

得到不同尺度下的生成图像后，针对每一个尺度，将该尺度下的生成图像和该尺度下的目标图像输入该尺度下的判别器网络，得到该尺度下的判别结果。具体地，针对第1个尺度，将第1个尺度下的生成图像G₁(X₁)和第1个尺度下的目标图像Y₁输入第1个尺度下的判别器网络D₁，得到第1个尺度下的判别结果；针对第2个尺度，将第2个尺度下的生成图像G₂(X₂)和第2个尺度下的目标图像Y₂输入第2个尺度下的判别器网络D₂，得到第2个尺度下的判别结果。从而可以得到各个尺度下的判别结果。

步骤S330具体包括：

步骤S331、固定所述生成器网络，根据所述判别结果对所述判别器网络的模型参数进行修正。

步骤S332、固定所述判别器网络，根据所述目标图像和所述生成图像对所述生成器网络的模型参数进行修正，得到已训练的环境模型。

具体地，在迭代训练过程中，首先固定生成器的模型参数，利用SGD优化器和损失函数(13)来更新判别器网络，之后固定判别器的模型参数，放开生成器的模型参数，利用SGD优化器和损失函数(13)来更新生成器网络。

所述判别器网络的损失函数为：

其中，

其中，

是真实值，Y_i表示预测出的概率值；

所述生成器网络的损失函数为：

其中，

表示生成器网络的损失函数值。

对第k个尺度，固定生成器网络G的权重，用随机梯度下降(SGD)优化该尺度下的判别器网络D_k，训练其区分(X_k,Y_k)和(X_k,G_k(X_k))。然后，固定判别器D的权重，用SGD优化该尺度下的生成器网络G_k。最小化这一损失意味着生成器网络G使判别器网络D尽可能判断失误，即D不能正确地区分(X_k,Y_k)和(X_k,G_k(X_k))。在实践中，仅将这一损失最小化就可能导致不稳定，所以仍然加入L损失函数：

式中，X为输入图像；

Y为目标图像；

G(X)为生成器网络的生成图像；

p为范数类别。

当训练完成，得到已训练的环境模型后，将生成图像G₄(X₄)作为已训练的环境模型输出的预测图像，预测图像记为s₁。

步骤S400、基于所述预测图像，更新所述状态数据，得到更新的状态数据。

具体地，得到预测图像后，对状态数据进行更新得到更新的状态数据。

具体地，步骤S400具体包括：

步骤S410、根据所述预测图像、所述视频序列帧，确定更新的视频序列帧。

步骤S420、根据所述更新的视频序列帧、所述结束信号、所述奖励、所述动作信息、所述P值以及所述V值，得到更新的状态数据。

具体地，根据预测图像s₁和视频序列帧s₀，得到更新的视频序列帧

也就是说，将预测图像s₁和视频序列帧s₀进行叠加，得到更新的视频序列帧

更新的视频序列帧记为state。然后根据更新的视频序列帧state、结束信号done、奖励reward、动作信息action、P值prob以及V值value，得到更新的状态数据(state,1-done,reward,action,prob,value)。

需要说明的是，在更新状态数据时，可以进行迭代数次，当迭代次数没有达到第一最大迭代次数max_step_1时，继续执行步骤S200，直至迭代次数达到第一最大迭代次数max_step_1时，完成更新的状态数据的迭代，并将每次迭代得到的更新的状态数据存储在经验(回放)池中。第一最大迭代次数max_step_1可以根据需要设定，例如，第一最大迭代次数max_step_1为128。

步骤S500、基于所述更新的状态数据，更新所述策略网络，得到更新的策略网络。

为了提升近端策略优化算法的采样利用率，本发明融合基于模型的强化学习算法和近端策略优化算法，提出了基于模型的近端策略优化(MB-PPO)算法，整体框架按照基于模型的I2A算法来构建，将环境模型的输出作为辅助信息连同当前环境状态用于近端策略优化的策略提升过程中，整体模型如图5所示。

具体地，根据经验池中的更新的状态数据，更新策略网络，得到更新的策略网络。根据经验回放池计算估计广义优势，收益序列returns,优势值序列adv，状态序列states以及动作序列actions。可以理解的是，状态序列states中有多个更新的状态数据，具体地，更新的状态数据的数量为第一最大迭代次数max_step_1。

具体地，所述策略网络还包括行动者网络和评论家网络。具体地，步骤S500具体包括：

步骤S510、根据所述更新的状态数据中所述动作信息和所述行动者网络，得到p值，并根据所述更新的状态数据中所述动作信息和所述评论家网络，得到v值。

步骤S520、根据所述p值、所述v值以及所述更新的状态数据，确定所述策略网络的目标函数值。

步骤S530、根据所述目标函数值，分别对所述行动者网络的模型参数和所述评论家网络的模型参数进行修正，得到更新的行动者网络和更新的评论家网络。

步骤S540、当满足所述行动者网络的模型参数的修正次数满足预设阈值时，将所述更新的行动者网络作为目标行动者网络，并将所述更新的评论家网络作为目标评论家网络，以得到更新的策略网络。

所述策略网络的目标函数为：

其中，

表示策略网络的目标函数值，

表示t时刻采样的平均值，

表示近端策略优化算法的目标函数值，s₀表示视频序列帧，

表示叠加，s₁表示预测图像，c₁表示第一惩罚因子，

表示目标网络获得的v值，V_θ表示当前网络获得的v值。

具体地，将动作序列states，分别送入行动者网络和评论家网络，得到p值和v值。计算策略网络的目标函数值，并根据策略网络的目标函数值分别对行动者网络的模型参数和评论家网络的模型参数进行修正，得到更新的行动者网络和更新的评论家网络，当满足行动者网络的模型参数的修正次数满足预设阈值时，将所述更新的行动者网络作为目标行动者网络，也就是说，将更新的行动者网络的模型参数复制到目标行动者网络，并将所述更新的评论家网络作为目标评论家网络，也就是说，将更新的评论者网络的模型参数复制到目标评论家网络，从而得到更新的策略网络。预设阈值可以设置为20。

需要说明的是，在更新策略网络时，可以进行迭代数次，当迭代次数没有达到第二最大迭代次数max_step_2时，继续执行步骤S200，直至迭代次数达到第二最大迭代次数max_step_2时，完成更新的策略网络的迭代。第二最大迭代次数max_step_2可以根据需要设定。

算法流程如下：

输入：模拟环境(如博弈场景env)，第一最大迭代次数max_step_1，第二最大迭代次数max_step_2。

输出：策略网络参数

1：初始化行动者网络和目标行动者网络，评论家网络和目标评论家网络，环境模型M，博弈场景env和经验回放池D；

2：当策略网络的迭代次数s∈[1,max_step_2]时，循环执行以下步骤：

3：当状态数据的迭代次数e∈[1,max_step_1]时，循环执行以下步骤：

4：在状态state下由目标行动者网络和目标评论家网络得到prob和value；

5：利用prob类别分布采样获得动作信息a；

6：执行动作信息a，获得下一状态s₀，奖励reward，结束信号done；

7：将s₀送入环境模型得到s₁；

8：将s₀和s₁叠加并存储六元组(state,1-done,reward,action,prob,value)；

9：更新状态数据；

10：结束循环；

11：根据经验回放池计算估计广义优势，收益序列returns，优势值序列adv，状态序列states以及动作序列actions；

12：将动作序列送入Actor网络和Critic网络得到p和v；

13：利用公式(17)计算负的loss；

14：更新行动者网络和评论家网络；

15：每20次复制行动者网络的模型参数到目标行动者网络，复制评论家网络的模型参数到目标评论家网络。

16：结束循环。

本发明的有益效果将通过如下实验进行说明：

1.实验设置

实验环境描述

2.实验参数

策略优化网络结构及模型参数

multi-Scale Gan生成器网络的模型参数

multi-Scale Gan判别器网络的模型参数

3.实验环境介绍

本发明以pacman作为测试平台。pacman游戏如图2所示，其中黄色的是智能体本身，其他颜色的为幽灵。智能体触碰到幽灵意味着智能体挑战失败。游戏获胜的条件是智能体将散落在通道上的豆子全部吃完。pacman环境的输出的状态是210×190×3的图片信息，可以作为MB-PPO像素不敏感环境的测试平台。

3.多尺度生成对抗模型实验

图6-a展示的是判别器的损失变化曲线，判别器损失函数越来越小，表示判别器能很好的区分图像是生成的未来帧还是实际的未来帧。图6-b的损失函数越来越低，表明尽管判别器判别能力提高，生成器生成的预测帧和实际的预测帧之间的差异逐渐减少，生成器的生成图像效果逐渐提升。图2展示了多尺度生成对抗网络在收集的数据集上的效果。其中第1行为输入帧，展示了实际的4帧图片，第二行展示了实际的未来4帧也就是第五到第八帧，第三行展现了对应多尺度生成网络预测的第五到第八帧。对比来说，除去第四帧数字8显示略有模糊，以及第八帧左下角幽灵与樱桃发生了重合外，其他的细节都生成器都预测到了。故本模型可以用来解决MB-PPO环境构建问题。

4.pacman环境下的对比实验与结果分析

图7展现了在pacman环境下4种算法在175万次迭代种获得平均奖励的变化，MB-PPO算法对比的对象包括近端策略优化算法(PPO)、演员评论家算法(A2C)、带经验回放的演员评论家算法(ACER)。整体上来看MB-PPO算法优于(PPO)算法，优于(ACER)算法，优于(A2C)算法，MB-PPO算法可以稳步地提升智能体性能，在130万步处达到峰值收益，相比之下(PPO)算法在40万步左右达到峰值后基本保持不变，甚至有变差的趋势，可以认为模型的加入使智能体更广泛的探索，最终获得好的性能。值得注意的是(A2C)算法有极大地波动性，而有经验回访机制地(ACER)算法更加稳定，且在迭代后期超过了(A2C)算法。与对环境建模类似，可以认为经验回放机制也是一种提高采样利用率地方法，采样利用率地提高可以大幅度提高算法性能。

基于上述任意一实施例的基于模型的近端策略优化方法，本发明还提供了一种计算机设备的较佳实施例：

计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，所述处理器执行所述计算机程序时实现如下步骤：

基于上述任意一实施例的基于模型的近端策略优化方法，本发明还提供了一种计算机可读存储介质的较佳实施例：

计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现如下步骤：

应当理解的是，本发明的应用不限于上述的举例，对本领域普通技术人员来说，可以根据上述说明加以改进或变换，所有这些改进和变换都应属于本发明所附权利要求的保护范围。