CN110399920A

CN110399920A - 一种基于深度强化学习的非完备信息博弈方法、装置、系统及存储介质

Info

Publication number: CN110399920A
Application number: CN201910676439.9A
Authority: CN
Inventors: 王轩; 漆舒汉; 蒋琳; 曹睿; 李明豪; 廖清; 李化乐; 张加佳; 刘洋; 夏文
Original assignee: Harbin Institute of Technology Shenzhen
Current assignee: Harbin Institute of Technology Shenzhen
Priority date: 2019-07-25
Filing date: 2019-07-25
Publication date: 2019-11-01
Anticipated expiration: 2039-07-25
Also published as: CN110399920B

Abstract

本发明提供了一种基于深度强化学习的非完备信息博弈方法、装置、系统及存储介质，该方法包括：探索利用机制改进策略梯度算法的步骤、深度强化学习网络中加入记忆单元的步骤、自我驱动机制对奖励值进行优化的步骤。本发明的有益效果是：本发明通过基线函数解决策略梯度算法经常出现的高方差问题，对于强化学习采样和优化过程时间复杂度高的问题，采取并行机制提高模型求解效率，通过自驱动机制，在弥补环境奖励值稀疏的同时，帮助智能体更有效地对环境进行探索。

Description

一种基于深度强化学习的非完备信息博弈方法、装置、系统及存储介质

技术领域

本发明涉及人工智能技术领域，尤其涉及一种基于深度强化学习的非完备信息博弈方法、装置、系统及存储介质。

背景技术

近年来，随着计算机算力水平的提高以及大数据技术的发展，人工智能再一次进入发展的黄金时期，而深度学习和强化学习是此次人工智能发展高峰中最瞩目的技术。众多科研工作者及企业加大对人工智能的研究力度，包括我国在内的世界各国都将人工智能研究列为当前重要的发展战略，人工智能甚至成为未来世界各国综合实力中的最重要的组成部分。

人工智能研究自诞生以来，衍生出众多发展方向，而机器博弈无疑是其中难度最高但是吸引力最大以及应用前景最光明的研究方向之一。也正因为如此，学界常常将机器博弈发展的水平作为丈量人工智能甚至是计算机学科发展程度的标杆。这些特点也吸引着无数的科研人员投身到机器博弈的研究中来，其中不乏引领世界计算机学科发展的里程碑式的人物，例如创造第一台计算机的冯·诺伊曼，世界公认的人工智能之父艾伦·图灵和深度学习奠基人Hinton等知名科学家。图灵测试是判断机器是否真正智能的公认方法，其发明者图灵早在1952年就尝试以国际象棋为载体，完成对应的机器博弈程序，但是受当时的客观条件的限制，尤其是计算机的处理速度和水平，该机器博弈程序并不能成功运行，但图灵作为人工智能研究的奠基者，开启了人工智能尤其是机器博弈的研究的新征程。

机器博弈中信息的完备与否的含义是博弈过程中的智能体是否可以通过直接获取或者间接计算的方式，掌握全部的博弈信息。因此，机器博弈根据机器智能体已掌握信息是否完全可以被划分成两大类：非完备信息机器博弈和完备信息机器博弈。例如以围棋和象棋等棋牌类为代表的机器博弈，以及以推箱子等游戏为代表的机器博弈，都属于完备信息机器博弈的范畴。近年来，以AlphaGo和AlphaGoZero为代表的围棋博弈智能体打败柯洁等人类顶级围棋选手，这些标志性事件反映了人工智能尤其是完备信息机器博弈出现了突破。非完备信息机器博弈是指智能体无法通过任何手段获取全部的博弈状态和信息，例如贴近现实世界场景的3D视频游戏中的机器博弈，智能体在环境中无法获得全部的游戏信息，比如敌人出现的位置和移动方向。智能体如果要顺利完成任务，就需要学会像人类一样在复杂未知场景下能够尽可能根据已经掌握的信息，尽可能地分析推测，进而做出科学决策，采取正确的策略。

在如今的自然语言处理领域，计算机视觉领域，语音识别领域等计算机传统研究领域，深度学习赋予其新的生命。深度神经网络为其提供了精准的非线性拟合函数。这些深度学习产生的工具也开始应用到深度学习领域并取得了引人注目的成就，例如机器玩Atari游戏超越人类，AlphaGo智能体打败最优秀的人类棋手。而针对状态维度巨大，任务复杂，奖励信号获取不及时的3D非完备信息视频游戏而言，还缺少切实有效的解决办法。

发明内容

本发明提供了一种基于深度强化学习的非完备信息博弈方法，包括如下步骤：

探索利用机制改进策略梯度算法的步骤：为了控制智能体使其在每个回合的前期和后期阶段利用已经更新计算的策略，在回合的中段使用探索的策略，使用m和n两个参数对切换策略的时机做出了限制，更新方式为m＝G×L，n＝R×G×(L-m)，其中L是根据历史经验计算的每个回合智能体平均采取的动作次数，并随着训练的进行不断更新，G是随机数，R是超参数，G和R的作用是限制智能体探索行为的数量，并保证探索行为发生在每回合的中段部分；

深度强化学习网络中加入记忆单元的步骤：在深度强化学习神经网络添加记忆单元，从而帮助智能体在考虑当前状态时，综合考虑记忆单元记录的历史信息，做出更合理的决策；

自我驱动机制对奖励值进行优化的步骤：定义智能体对环境的熟悉程度，让智能体处于自身比较熟悉的环境之下，熟悉环境的方法是让智能体去经历，使用经验回放机制为训练智能体对环境的熟悉程度；针对环境的熟悉程度，让智能体利用当前的动作和当前的状态预测下一时刻的环境，若预测的环境和智能体真实所处的环境经过比较之后，差距较小，则认为智能体对当前智能体的环境是熟悉的，在熟悉的环境下，智能体能做出更好地动作，得到更好地奖励；将智能体对环境的熟悉程度加以度量，使用一定的方法与环境反馈的原始奖励值结合，组成新的奖励值，然后利用重组的奖励值更新相关神经网络。

作为本发明的进一步改进，在所述探索利用机制改进策略梯度算法的步骤中，G是范围在0.4到0.6的随机数，R是超参数，通过网格搜索寻优。

作为本发明的进一步改进，在所述自我驱动机制对奖励值进行优化的步骤中，需要状态特征提取网络和状态预测网络，其中状态特征提取网络将各帧画面中转换成相应的状态特征，而状态预测网络利用状态和动作预测未来的状态。

作为本发明的进一步改进，在所述自我驱动机制对奖励值进行优化的步骤中，采用状态特征提取网络对当前时刻和下一时刻的状态进行特征提取，然后将两者提取的特征进行差异的计算；特征提取网络的训练采用有监督训练的方式，相邻状态之间智能体所采取的动作已经在在经验回放池子里记录，所以该动作可以当作训练神经网络的标签数据，把该神经网络成为动作预测网络；该神经网络利用相邻状态作为输入，预测两状态之间智能体所采取的动作，当前时刻采取的动作作为标签，从而进行网络参数的训练。

本发明还提供了一种基于深度强化学习的非完备信息博弈装置，包括：

探索利用机制改进策略梯度算法的模块：为了控制智能体使其在每个回合的前期和后期阶段利用已经更新计算的策略，在回合的中段使用探索的策略，使用m和n两个参数对切换策略的时机做出了限制，更新方式为m＝G×L，n＝R×G×(L-m)，其中L是根据历史经验计算的每个回合智能体平均采取的动作次数，并随着训练的进行不断更新，G是随机数，R是超参数，G和R的作用是限制智能体探索行为的数量，并保证探索行为发生在每回合的中段部分；

深度强化学习网络中加入记忆单元的模块：在深度强化学习神经网络添加记忆单元，从而帮助智能体在考虑当前状态时，综合考虑记忆单元记录的历史信息，做出更合理的决策；

自我驱动机制对奖励值进行优化的模块：定义智能体对环境的熟悉程度，让智能体处于自身比较熟悉的环境之下，熟悉环境的方法是让智能体去经历，使用经验回放机制为训练智能体对环境的熟悉程度；针对环境的熟悉程度，让智能体利用当前的动作和当前的状态预测下一时刻的环境，若预测的环境和智能体真实所处的环境经过比较之后，差距较小，则认为智能体对当前智能体的环境是熟悉的，在熟悉的环境下，智能体能做出更好地动作，得到更好地奖励；将智能体对环境的熟悉程度加以度量，使用一定的方法与环境反馈的原始奖励值结合，组成新的奖励值，然后利用重组的奖励值更新相关神经网络。

作为本发明的进一步改进，在所述探索利用机制改进策略梯度算法的模块中，G是范围在0.4到0.6的随机数，R是超参数，通过网格搜索寻优。

作为本发明的进一步改进，在所述自我驱动机制对奖励值进行优化的模块中，需要状态特征提取网络和状态预测网络，其中状态特征提取网络将各帧画面中转换成相应的状态特征，而状态预测网络利用状态和动作预测未来的状态。

作为本发明的进一步改进，在所述自我驱动机制对奖励值进行优化的模块中，采用状态特征提取网络对当前时刻和下一时刻的状态进行特征提取，然后将两者提取的特征进行差异的计算；特征提取网络的训练采用有监督训练的方式，相邻状态之间智能体所采取的动作已经在在经验回放池子里记录，所以该动作可以当作训练神经网络的标签数据，把该神经网络成为动作预测网络；该神经网络利用相邻状态作为输入，预测两状态之间智能体所采取的动作，当前时刻采取的动作作为标签，从而进行网络参数的训练。

本发明还提供了一种基于深度强化学习的非完备信息博弈系统，包括：存储器、处理器以及存储在所述存储器上的计算机程序，所述计算机程序配置为由所述处理器调用时实现本发明所述的方法的步骤。

本发明还提供了一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，所述计算机程序配置为由处理器调用时实现本发明所述的方法的步骤。

本发明的有益效果是：本发明通过基线函数解决策略梯度算法经常出现的高方差问题，对于强化学习采样和优化过程时间复杂度高的问题，采取并行机制提高模型求解效率，通过自驱动机制，在弥补环境奖励值稀疏的同时，帮助智能体更有效地对环境进行探索。

附图说明

图1是GRU内部结构图；

图2是差异来源示意图；

图3是改进的差异来源示意图；

图4是智能体框架图；

图5是对战游戏场景图；

图6是记忆单元对智能体水平的影响图。

具体实施方式

本发明公开了一种基于深度强化学习的非完备信息博弈方法，本发明通过对相关的深度强化学习算法的实验和改进，制定新的奖励信号补充机制，并结合目标检测技术，将其应用于3D非完备信息视频游戏智能体博弈算法中，从而使得机器像人类一样实现从感知到动作的决策过程和自我学习探索的能力。

本发明以机器博弈和深度强化学习算法为主要研究内容，采用毁灭战士非完备信息3D视频游戏作为智能体博弈水平测试平台，对强化学习中价值模型、策略梯度、适用范围、效率问题、记忆机制以及奖励值稀疏等问题进行分析，分析相关深度强化学习算法的局限性并加以改进，在利用这些改进和相关机制训练出具有更高博弈水平的机器博弈智能体的同时，提高训练的效率。本发明主要内容包括以下几方面：

(1)研究并实现利用策略梯度算法训练博弈智能体，分析策略梯度算法高方差缺点的问题来源，通过基准函数增加其稳定性。通过基准函数和价值模型之间的关系，引入状态价值函数，从而将策略模型和价值模型结合。针对强化学习任务时间复杂度较高的特性，引入多线程方法，设置全局神经网络和多个不同的强化学习环境，从而加速深度强化学习模型的训练过程。提出合理的探索利用机制用于改进策略梯度算法。

(2)分析深度强化学习应用在非完备信息机器博弈研究领域内的瓶颈：深度强化学习神经网络的输入仅限于有限的时刻，智能体无法利用历史信息做出更合理的决策和安排。而智能体通过综合分析历史经验和时时的信息，从而采取获取更高奖励的合理的行为方式。为解决上述问题，提出在深度强化学习网络中加入记忆单元的方法。

(3)强化学习任务中奖励值稀疏问题常常存在，由于视频游戏具有状态、动作空间维度高，场景及任务复杂的特点，导致奖励值稀疏问题极其突出。智能体常常由于得不到及时奖励信号而长时间无法提高博弈水平。本发明通过实验，根据机器博弈智能体的任务对奖励值进行合理设计。高水平的智能体常常立足于其对环境全面的把握，这需要智能体需要不停地对环境进行探索。将智能体对环境的探索和奖励值的获取过程进行结合，通过自驱动机制进一步对奖励值进行优化。

1.1策略梯度算法

在以Q-learning为代表的基于价值模型的强化学习方法试图去学习逼近一个估值准确的价值函数，然后凭借这个函数来推断出一个最优的策略。但基于价值模型的强化学习算法局限于离散动作空间的强化学习问题，最终只能学习到一个固定的策略。并且在复杂的问题中存在拟合效果差且求解速度慢等缺点。而策略梯度则是直接在策略空间中进行优化，从而得到一个最优的策略。基于策略梯度的深度强化学习方法使用神经网络来拟合所谓的最优策略，从而输出动作概率的模型。在智能体和环境互动的每个时间节点上，产生状态，动作，奖励，新状态的组合数据，通过训练神经网络的方法调整神经网络参数，使得带来更大收益的动作被智能体所采取的概率增加。重复这个过程直到神经网络参数更新得到一个最优的策略。

如公式(3-1)所示，强化学习的目标是求得最大化累积奖励的参数θ，其中p_θ(τ)表述某一条轨迹(即状态动作的记录)出现的概率，r(τ)是该条轨迹的累计奖励值。

用J(θ)表示强化学习任务的目标函数，如公式(3-2)所示，需要调整参数的值使其达到最大。求极值的方法采用对参数求导求梯度的方法，对参数θ求导如公式(3-3)所示。

由于积分不容易计算，利用对数函数求导的性质，如公式(3-4)所示，可以将对标函数参数求导的公式转化成更容易计算的形式，如公式(3-5)所示。在这里将p_θ(τ)改写成含义更加明确的π_θ(τ)，其含义是对策略π参数θ求导，并优化参数。

将公式(3-4)代入公式(3-5)，可以得到公式(3-6)，即策略梯度的计算。

至此，对策略梯度有了比较清晰的表示，但是其中含有的等部分依然不容易计算。于是需要对这些部分进行进一步的展开拆解。轨迹τ的计算方式如公式(3-7)所示，其中T表示有限的时间步数，初始状态和动作分别对应s₀和a₀。

然后对轨迹求导，如公式(3-8)所示。

然后采用蒙特卡洛方式，用采样的方式来估计某条轨迹的累积奖励值，如公式(3-9)所示。

替换之后得到最终的策略梯度的更新过程如公式(3-10)所示

有了策略梯度求解的公式，参数的更新方式如公式(3-11)所示使用公式计算策略梯度的算法成为REINFORCE算法。

由公式(3-10)可以看出，在一个完整的轨迹片段中，无论何时求解梯度都需要全部的累积奖励值，这就和真实情况产生了很大的出入。现实情况中，当前时刻的决策只能影响未来的轨迹走向，而对过往的状态及奖励值没有影响。如果按照公式(3-10)进行计算，则会产生当下改变历史这样错误的状况，需要将公式(3-10)更改为如公式(3-12)所示，累计未来将要获得的奖励值。

在实际使用训练过程中，使用这样的方法会出现高方差不稳定的现象。策略梯度算法旨在降低“不明智”的动作的使用几率，增大“明智”动作的使用几率。为了将策略梯度方法与其初衷及强化学习目标相契合，需要增大那些能够最大化累积回报的策略出现的概率，反之则减少该策略的出现概率。为此，需要引入基线函数。其数学表示如公式(3-13)所示。

引入基线是为了解决策略梯度得高方差问题，方差计算得基本方法如公式(3-14)所示，策略梯度公式如所示(3-15)，

Var[x]＝E[x²]-E[x]² (3-14)

计算策略梯度的方差如公式(3-16)所示，为了使得方差最小，将方差对基线b求导并使导数为零，求得极值，如公式(3-17)所示，

最终求得的基线表示如公式(3-18)所示。

而在实际的编码实现过程中，基线的计算方法是，在采样的所有轨迹中，选取那些有同样出发点的不同轨迹，计算这些轨迹各自的累积奖励值，求和取平均作为基准线，其公式如(3-19)

1.2融合价值模型的策略梯度算法

原始的基于策略求解的强化学习方法呈现出效率不高，具有较高的方差。采样轨迹质量的好坏直接影响使用策略梯度求解出的模型的优劣，若采样的轨迹不够完善全面，方差较高的问题则会比较突出。在真实的编程训练过程中，智能体和环境的交互次数毕竟有限，使用这些交互产生的状态动作价值对不能准确刻画真实的轨迹的价值。而状态价值模型可以直接评估轨迹的长期累积奖励值，并且使用深度神经网络拟合的价值模型更佳精确。于是考虑引入价值模型替代采样轨迹，从而求解长期累积奖励值。

在基于价值迭代的强化学习算法中，状态价值函数和状态-动作价值函数是最重要的两大定义。状态价值函数V^π(s)含义是当智能体采取策略π时，智能体处于状态s时能够获取的累积奖励值(直到结束状态)，用来评估环境中状态的优劣。状态-动作函数Q^π(s,a)描述了当智能体处于状态s并采取动作a之后，能够获得的累积奖励值，能够一定程度上衡量动作的优劣。

于是，可以发现状态-动作函数的定义和策略梯度中累计奖励值的期望的计算过程是相同的，如公式(3-20)所示。所以就可以将策略梯度方法和值迭代方法相结合。如果用状态价值函数替换累计奖励值，则基准b的计算可以采用状态价值函数。其中最重要的原因是累计价值的计算需要有正有负，而状态价值函数值恰好是状态-动作函数的期望值，这样一来，不同的动作的累计奖励值计算有正有负，符合策略梯度的需求，这一过程如公式(3-21)所示。

而在深度强化学习算法中，组合状态价值函数和状态-动作函数来计算累计奖励值这一过程需要分别用两个神经网络来拟合对应的函数值，即用两个神经网络来拟合累计奖励值。这样一来拟合不准的风险就会增大。于是考虑只用一个神经网络来拟合价值迭代的方法。而强化学习中状态价值函数和状态-动作价值函数之的转化方式，如公式(3-22)所示，其含义是状态-动作价值函数等于求当前动作带来的即时奖励值加上下一状态的状态价值的期望值。在实际操作中，直接用当前动作带来的奖励值和下一状态的状态价值来替代状态动作-价值函数值，而不求期望，这个过程如公式(3-23)所示。并且这个过程又引入一定的随机性，对降低累计价值的高方差问题又产生一定的帮助。

到此，组合策略梯度和价值迭代的算法模型已经清晰。公式(3-27)展示了本发明使用的利用状态价值函数计算优势函数的AC策略梯度算法。

算法流程如下：

1.3并行训练机制

由于AC算法中对累计奖励的拟合需要价值模型，累计收益的期望由采样轨迹近似代替，为了取得比较好的近似拟合效果，需要尽可能多地充分采样。此时AC采样要花费的时间会更多。为了提高采样的训练的速度，考虑向AC算法中引入并行化的方法。

算法3-2展示了本发明提出的利用探索利用机制改进的A3C算法。为了控制智能体使其在每个回合的前期和后期阶段利用已经更新计算的策略，在回合的中段使用探索的策略，算法中使用m和n两个参数对切换策略的时机做出了限制，更新方式为m＝G×L，n＝R×G×(L-m)，其中L是根据历史经验计算的每个回合智能体平均采取的动作次数，并随着训练的进行不断更新，G是范围在0.4到0.6的随机数，R是超参数(通过网格搜索寻优)，G和R的作用是限制智能体探索行为的数量，并保证探索行为发生在每回合的中段部分。

改进的A3C算法中单个进程和全局神经网络参数更新过程：

1.4融合记忆单元的深度强化学习算法

基于价值模型的传统记忆方法使用记忆池的技术，它的主要思想是存储强化学习智能体所经历过的状态和其所使用的策略即对应的回报值(也就是训练深度价值网络时所需的训练样本)，并且每次训练深度价值学习网络时采取都是随机抽取其中的一部分样本进行训练更新。传统的记忆方法受记忆池大小和计算机内存的影响，导致智能体的记忆数量有限，进而影响智能体在只能观测到部分游戏状态时所做出的决策。

为了充分利用历史信息，考虑为深度强化学习神经网络添加了记忆单元，从而帮助智能体在考虑当前状态时，综合考虑记忆单元记录的历史信息，做出更合理的决策。为此，本发明引入循环神经网络来对强化学习算法的后端神经网络进行改进。传统记忆方法和使用循环神经网络建模无穷历史轨迹序列的方法要解决的问题都是强化学习中的部分观测马尔可夫决策问题，即智能体无法获取全部的状态信息是如何更好地决策。

GRU使用更新门z_t和复位门r_t来控制网络中的信息传递。这两个门本质是两个用来控制哪些信息可以传递到最终的输出，并且可以保存历史信息，通过训练过滤掉和最终的预测不相关的信息。

z_t＝σ(W^(z)x_t+U^(z)h_t-1) (3-31)

公式(3-31)表示了更新门的计算过程，当前输入x_t和对应的权重W^(z)相乘，其中h_t-1是隐藏状态单元，U^(z)是对应的权重，两者相加之后通过激活函数映射到0到1。更新门的作用决定有多少历史信息可以传递到未来时刻，它可以通过完全复制历史信息从而消除了梯度弥散的风险。重置门的本质作用是决定有多少的历史信息需要遗忘，其计算如(3-32)所示。

r_t＝σ(W^(r)x_t+U^(r)h_t-1) (3-32)

用h′_t表示利用重置门来储存相关的历史信息，其计算方法如公式(3-33)所示。整个过程共包含两个步骤，第一步将x_t和h_t-1分别乘以对应的权重W和U。第二步用重置门和Uh_t-1做矩阵乘法，这一步决定了要从之前的时间节点信息中移除哪些信息。例如现在要解决的问题是通过一个人对某本书写的评价来判断他对这本的情感态度。若评价一开始写道“这是一本奇妙的书籍，讲述了…”，中间间隔了几段文字之后，评语的最后又继续写道“我不太喜欢这本书因为它描述了太多的细节”。决定这个人对这本书的情感倾向的评价集中在整个评语的最后部分，这就需要神经网络学习将r_t设置为接近0的数值。将这两步得到的结果相加再经过激活函数后输出。

h′_t＝tanh(Wx_t+r_t×Uh_t-1) (3-33)

当前时刻的最终记忆的计算如公式(3-34)所示，在重置门的作用下，利用上一时刻的记忆h_t-1和当前记忆内容h′_t，得到当前时刻的输出h_t。依然继续讨论书籍评价的例子，如果影响最终情感倾向的评论的集中在前面，则网络学习到z_t的值会趋近于1，(1-z_t)的值会趋近于0。这样就会很大程度上保留之前的信息而适当忽略后面的信息。整个GRU门控结构如图1所示。

h_t＝z_t×h_t-1+(1-z_t)×h′_t (3-34)

将基于价值模型的DQN算法与记忆单元结合后的深度强化学习算法流程：

1.5奖励值优化

在强化学习问题中，奖励值为智能体的动作决策过程提供了可计算的标准，可以视为环境对智能体行为优化提供的一种反馈。但是强化学习问题中奖励值通常非常稀疏，这对强化学习算法对问题的求解带来了很大的挑战。例如利用强化学习训练围棋智能体，奖励值仅仅在棋局结束的时候产生。对于即时战略而言，动作复杂度多，环境变化多样，智能体拥有复合目标的特点，使得奖励值获取难度更高。针对奖励值不易获取问题，本发明通过自驱动机制来解决即时战略游戏中奖励值稀疏的问题。

探索机制对于强化学习智能体了解环境(状态转移概率)，减少奖励值获取的不确定性起着关键性的作用。在传统的方法中，对于不确定性的度量，常常使用置信区间或先验的环境参数来表示，与状态和动作在表格中记录的次数相关(次数越高，不确定性越低)。这样的方法局限于表格形式的强化学习问题，对于环境、动作维度高的问题没有很好的效果。如何让智能体自身产生内在的动力去探索未知的环境，采取没有用过的状态和动作组合，是本发明所提出的自驱动机制的想法来源。

3D视频游戏由于动作维度、状态维度都比较高，引领策略更新的奖励值并不能持续从环境中得到反馈，常常呈现出回合持续时间长，导致环境长时间没有奖励值的产生。这就导致对只有极少数动作会产生即时的奖励回馈，而绝大部分的奖励值都为零。这样的状况对动作的优劣评价缺少客观的评判。结果导致，智能体在环境中呈现出“无所事事”的状况。针对3D视频游戏中奖励值稀疏的问题，本发明试图改进奖励值的评测方式。

联想到人类对面临自身熟悉的事物或者身处熟悉的环境时，处理事物往往游刃有余。本发明试图添加新的评测标准，试图让智能体能够对自身所处的环境有一定的判断。定义智能体对环境的熟悉程度，试图让智能体处于“自身”比较熟悉的环境之下。熟悉环境的方法就是让智能体去经历，而经验回放机制为训练智能体对环境的熟悉程度提供了可能。而对环境的熟悉程度，初步设想是让智能体利用当前的动作和当前的状态预测下一时刻的环境，若预测的环境和智能体真实所处的环境经过比较之后，差距较小，则认为智能体对当前智能体的环境是熟悉的。在熟悉的环境下，智能体有可能做出更好地动作，得到更好地奖励。将智能体对环境的熟悉程度加以度量，使用一定的方法与环境反馈的原始奖励值结合，组成新的奖励值，然后利用重组的奖励值更新相关神经网络。这样就解决了智能体长时间得不到相关回报而导致自身行为无法优化的问题。完成此机制需要状态特征提取网络和状态预测网络，其中前者将各帧画面中转换成相应的状态特征，而后者利用状态和动作预测未来的状态。

如图2所示，经验池中存储着当前动作a_t,当前状态s_t，下一时刻的状态s_t+1,可以利用当前的动作和状态预测下一时刻智能体所处的状态s_t+1。计算预测的下一时刻状态和真实的下一时刻状态之间的“差异”，可以将差异视为智能体对环境的熟悉程度：差异的数值越小，表明智能体对环境越熟悉，并将差异作为环境反馈的奖励值的补充。这样的做法能够鼓励智能体更好地进行探索，当智能体对当下的环境不熟悉时，“差异”的值就会比较大，对奖励值带来较大的补充，即鼓励智能体对环境进行探索。这种差异的度量是状态的预测和差异的度量均通过神经网络进行计算，训练数据来自智能体与环境之间的交互记录数据。

这样的设计存在一定的问题。设计“自我驱动”的奖励值很大程度上与强化学习要解决的任务相关，这里想要解决的问题发生在3D视频游戏中，那么获得的状态就是一张图片。如果直接预测在状态s下采取动作a后的下一状态s′,然后计算真实的状态s″与s′之前的差异的话，需要对图像的像素点进行准确的预测，这是一件费时费力且效果不太好的选择。其实游戏画面具有以下三类信息：第一种是智能体可以控制，比如移动或者开枪射击；第二种是智能体无法进行控制的，但是对智能体有真实的影响，比如怪物的移动或者医疗包的位置；第三种是本质上无效的信息，比如画面中的亮度或者墙壁颜色等。所以，智能体真正需要关注的是前两种信息，因为这两种信息才是本质上影响智能体进行决策的因素。

为了让智能体真正地捕捉到影响决策的环境变化，从而更好地感知环境，考虑将环境中“无关紧要”的变化因素去除。如图3所示，采用特征提取网络对当前时刻和下一时刻的状态进行特征提取，然后将两者提取的特征进行差异的计算。而特征提取网络的训练采用有监督训练的方式，相邻状态之间智能体所采取的动作已经在在经验回放池子里记录，所以该动作可以当作训练神经网络的标签数据，把该神经网络成为动作预测网络。该神经网络利用相邻状态作为输入，预测两状态之间智能体所采取的动作，当前时刻采取的动作作为标签，从而进行网络参数的训练。

1.6 3D视频游戏博弈智能体的设计与实现

如图4所示，本发明实现的包含改进的AC网络、自驱动机制和目标检测网络在内的训练智能体的网络结构，整个网络结构使用游戏画面作为神经网络输入，图像的大小为640×480×3。经过特征提取网络后分为两支：一支输出状态价值，另一支输出动作的概率分布。输出状态价值的分支通过全连接直接输出数值，而动作的概率分布通过softmax激活函数得到。而记忆单元的位置处于提取图像特征的全连接层和分支结构的中间，记忆单元的数量设置为512个构成GRU层。为了表示清晰，将深度强化学习神经网络结构的具体参数用以下表格来说明，价值模型和策略模型共用前面提取游戏画面特征的卷积神经网络，在第16层的全连接层不同，价值模型用对应的全连接层输出状态价值的数值。当采用记忆单元时，将记忆单元放置在表格中的15层和16层之间。

表3-1 AC网络结构

自驱动机制中包含动作预测网络和状态预测网络两个网络结构，两者通过特征预测连接(两者均需要对游戏画面进行特征提取)。动作预测网络通过特征提取输出3个动作对应的分值，具体的网络结构参数数值如表所示。经过4组相同的卷积层、BN层和激活函数之后，经过全连接层的作用输出动作分值。

表3-2动作预测(状态特征提取)网络结构

特征预测网络通过特征提取网络将当前游戏画面转化成特征向量之后，将此向量与当前做动作进行向量拼接，再经过全连接层作用，得到最终由当前状态和动作预测出来的下一时刻的游戏状态。具体的网络结构如表所示。

表3-3状态预测网络结构

实验分析

系统开发环境搭建在一台32G内存、操作系统为Ubuntu 16.04 LTS、GPU处理器是NVIDIA Titan X(12G显存)的服务器上，深度学习框架使用Tensorflow,编程语言主要使用Python。

2.1对战场景中强化学习算法性能对比

对战的游戏场景如图5所示，在此场景中智能体需要完成射击敌人、拾取补给和移动走位的任务。为了对比本发明涉及的基于策略模型和价值模型的改进的深度强化学习算法的性能，首先使用由OpenAI发文总结的VPG算法及TRPO算法在该场景中训练智能体并统计相关实验数据，这两种算法属于基于策略梯度的强化学习算法，并在相关游戏环境和实验中取得良好的表现。第三个智能体的训练基于改进的DQN算法，包括使用Double DQN和经验优先抽取等改进方法。第四个智能体基于本发明研究的融合价值模型的A3C算法。所有智能体都配合自驱动机制、记忆单元机制进行训练。

训练过程中，每300个回合测试智能体在此场景中射击敌人数量。改进的融合策略模型和价值模型的AC算法在通过充分的训练之后，达到最高的水平，能够消灭掉最多的敌人。基于策略梯度的VPG算法水平最低，一个最主要的原因是该游戏场景中智能体所能采取的动作数量比较少(一共6个)且动作选择非连续，这种情况就不能充分发挥策略梯度的优势。而AC算法由于融合了价值迭代模型和策略梯度两种模型，能够显著提高智能体博弈水平。基于Q值的价值迭代算法适用于动作数量不太多且动作选取不连续的强化学习任务，改进的DQN在此场景中的表现符合这条经验。

包含消灭敌人次数、拾取医疗包数量和智能体死亡次数具体的数据统计表4-1所示，消灭敌人数量和拾取医疗包数量是每种强化学习算法训练的智能体在此场景中达到的最高统计数据。而智能体死亡次数选取最低统计数据。

表4-1不同算法训练的智能体对战数据统计

2.2记忆单元的效果实验

如图6所示，展示了使用相同的强化学习算法而一个加入了记忆单元，另一个没有记忆单元的智能体在中央保卫场景中的消灭敌人数量对比。基本的强化学习算法和深度神经网络都采用DQN模型，加入了记忆单元的智能体消灭敌人数量有一定程度提高。每次消灭敌人的数量统计，是在训练时每经过100回合后，测试用相应算法得到的。由统计图表可以看出，记忆单元对智能体对战水平的提高有明显作用。

2.3自驱动机制的效果实验

为了显示自驱动机制在奖励值稀疏的环境下对强化学习算法的帮助，需要在奖励值明显稀疏的环境中对是否采用自驱动机制进行最终智能体博弈水平的对比试验。于是选用目标物品拾取模式作为游戏场景，并且仅仅设置两种奖励值：拾取物品的正奖励和超时的负奖励。由于地图区域广大且状态复杂，这样一来，智能体极不容易获取来自环境的奖励值。实验中采取以A3C作为基础强化学习算法的深度强化学习网络，对比无自驱动机制时智能体的水平的影响。采取自驱动机制的智能体每经过200回合训练后，用训练出来的模型进行水平测试后，比无自驱动机制智能体的拾取补给数量有相应增多。自驱动机制能够有效提升智能体在奖励值稀疏的环境中拾取补给的博弈对战能力。

本发明的有益效果：

1.本发明研究和改进深度强化学习算法，将其作为非完备信息3D视频游戏智能体的博弈决策算法。针对基于价值迭代的强化学习算法存在的高维度空间中的价值函数拟合困难和无法处理动作空间连续等问题，引入价值梯度方法加以解决。通过基线函数解决策略梯度算法经常出现的高方差问题。

2.本发明对策略梯度算法中基线函数的选择过程中，引入价值函数，从而将策略梯度模型和价值模型进行融合，采用优势函数替代采样估计。对于强化学习采样和优化过程时间复杂度高的问题，采取并行机制提高模型求解效率。

3.本发明针对3D视频游戏动作和状态空间维度较高，奖励值稀疏的问题，根据智能体要完成的任务，进行了合理的奖励值设计。通过自驱动机制，在弥补环境奖励值稀疏的同时，帮助智能体更有效地对环境进行探索。

以上内容是结合具体的优选实施方式对本发明所作的进一步详细说明，不能认定本发明的具体实施只局限于这些说明。对于本发明所属技术领域的普通技术人员来说，在不脱离本发明构思的前提下，还可以做出若干简单推演或替换，都应当视为属于本发明的保护范围。

Claims

1.一种基于深度强化学习的非完备信息博弈方法，其特征在于，包括如下步骤：

2.根据权利要求1所述的非完备信息博弈方法，其特征在于,在所述探索利用机制改进策略梯度算法的步骤中，G是范围在0.4到0.6的随机数，R是超参数，通过网格搜索寻优。

3.根据权利要求1所述的非完备信息博弈方法，其特征在于,在所述自我驱动机制对奖励值进行优化的步骤中，需要状态特征提取网络和状态预测网络，其中状态特征提取网络将各帧画面中转换成相应的状态特征，而状态预测网络利用状态和动作预测未来的状态。

4.根据权利要求3所述的非完备信息博弈方法，其特征在于,在所述自我驱动机制对奖励值进行优化的步骤中，采用状态特征提取网络对当前时刻和下一时刻的状态进行特征提取，然后将两者提取的特征进行差异的计算；特征提取网络的训练采用有监督训练的方式，相邻状态之间智能体所采取的动作已经在在经验回放池子里记录，所以该动作可以当作训练神经网络的标签数据，把该神经网络成为动作预测网络；该神经网络利用相邻状态作为输入，预测两状态之间智能体所采取的动作，当前时刻采取的动作作为标签，从而进行网络参数的训练。

5.一种基于深度强化学习的非完备信息博弈装置，其特征在于，包括：

6.根据权利要求5所述的非完备信息博弈装置，其特征在于,在所述探索利用机制改进策略梯度算法的模块中，G是范围在0.4到0.6的随机数，R是超参数，通过网格搜索寻优。

7.根据权利要求5所述的非完备信息博弈装置，其特征在于,在所述自我驱动机制对奖励值进行优化的模块中，需要状态特征提取网络和状态预测网络，其中状态特征提取网络将各帧画面中转换成相应的状态特征，而状态预测网络利用状态和动作预测未来的状态。

8.根据权利要求7所述的非完备信息博弈装置，其特征在于,在所述自我驱动机制对奖励值进行优化的模块中，采用状态特征提取网络对当前时刻和下一时刻的状态进行特征提取，然后将两者提取的特征进行差异的计算；特征提取网络的训练采用有监督训练的方式，相邻状态之间智能体所采取的动作已经在在经验回放池子里记录，所以该动作可以当作训练神经网络的标签数据，把该神经网络成为动作预测网络；该神经网络利用相邻状态作为输入，预测两状态之间智能体所采取的动作，当前时刻采取的动作作为标签，从而进行网络参数的训练。

9.一种基于深度强化学习的非完备信息博弈系统，其特征在于，包括：存储器、处理器以及存储在所述存储器上的计算机程序，所述计算机程序配置为由所述处理器调用时实现权利要求1－4中任一项所述的方法的步骤。

10.一种计算机可读存储介质，其特征在于：所述计算机可读存储介质存储有计算机程序，所述计算机程序配置为由处理器调用时实现权利要求1－4中任一项所述的方法的步骤。