CN115409158A

CN115409158A - 基于分层深度强化学习模型的机器人行为决策方法及设备

Info

Publication number: CN115409158A
Application number: CN202211052755.7A
Authority: CN
Inventors: 王子琦; 王亮; 寇启龙; 邵奇; 游丹; 刘智; 周磊月; 王伯恩; 曹冠男; 刘然
Original assignee: Luoyang Power Supply Co of State Grid Henan Electric Power Co Ltd
Current assignee: Luoyang Power Supply Co of State Grid Henan Electric Power Co Ltd
Priority date: 2022-08-31
Filing date: 2022-08-31
Publication date: 2022-11-29

Abstract

本申请提供一种基于分层深度强化学习模型的机器人行为决策方法及设备，本申请通过模拟人脑的分层组织机理，提出了一个解决机器人稀疏奖励问题的深度分层强化学习模型，该模型包括顶层模块和底层模块两部分。在机器人环境认知的过程中，当其处于稀疏奖励的环境中时，上层模块根据智能体与环境的交互情况，为底层模块设定子目标，同时，上层模块可以感知环境并预测智能体的状态转移。此外，预测奖励和奖励增益被添加到该深度分层强化学习模型中来加速底层模块的学习速度，在底层模块中，设计了一个降维网络来编码和映射状态信息，因此，该深度分层强化学习模型可以有效解决智能体的稀疏奖励问题。

Description

基于分层深度强化学习模型的机器人行为决策方法及设备

技术领域

本申请涉及计算机领域，尤其涉及一种基于分层深度强化学习模型的机器人行为决策方法及设备。

背景技术

现有技术中，随着科技的发展，移动机器人在人类的生产和生活中得到了越来越广泛的应用，如工业，农业，军事，医疗，家政服务，金融，太空探索，教育领域等。移动机器人要满足这些不同的任务要求，必须具备良好的行为决策性能。

在不同的机器人行为决策方法中，强化学习由于自学习和动态随机优化等优点而得到了广泛的应用，如自主车辆的自动驾驶，以及自动驾驶过程的超车决策，军事物流智能体的学习行为建模，机器人导航与避障，机器人的声音-视觉注视控制，多机器人路径规划，多机器人系统的任务分配，机器人装配任务等；有关研究指出，情景记忆中显著事件的提取能比普通事件有效缩短行为决策过程中的思考时间，表明存储在海马区的显著事件可以优先传播奖励信息，允许决策者更快地学习动作策略。

随着深度学习算法的发展，深度强化学习算法应运而生，并在移动机器人行为决策中获得越来越多的应用，如自主运动车辆的驾驶规划和车辆跟随，攻防对抗任务中多自主水下车辆的协同行为决策，小型无人机的避障，自主车辆的在线轨迹规划，多协作智能体的协调行为，自主水面车辆的路径跟随和避障，多智能体任务分配，自主水面水下车辆的目标跟踪，无人空中车辆群的多目标跟踪，双足机器人的鲁棒运动控制等。

随着机器人要处理的任务越来越复杂，分层强化学习思想在移动机器人自主行为决策领域逐步得到应用，如自主车辆的路线和调度决策，用于疾病诊断的知识注入式上下文驱动的对话智能体的行为决策，智能体连续导航过程中子目标的确定，智能体的遗忘经历回放，智能车辆的自主决策与运动规划,自主车辆的轨迹与行为规划等。

这些强化学习算法虽然在各自的研究对象上取得了一定的成功，但对移动机器人行为决策的研究仍然欠缺，已有的行为决策方法相对比较简单。若机器人在环境交互过程中没有得到奖励，样本对强化学习的贡献会非常小。直接使用稀疏奖励样本用于机器人学习将导致迭代过程变慢甚至导致强化学习算法难以收敛。

因此，研究如何解决稀疏奖励带来的负面影响，如学习率低，环境学习性能差等，对提高强化学习的学习速度和策略有重要作用。

发明内容

本申请的一个目的是提供一种基于分层深度强化学习模型的机器人行为决策方法及设备，以解决现有技术中移动机器人环境交互过程中存在的稀疏奖励带来的学习率低，环境学习性能差等问题。

根据本申请的一个方面，提供了一种基于分层深度强化学习模型的机器人行为决策方法，包括：

获取当前状态信息和目标任务；

构建分层深度强化学习模型，所述分层深度强化学习模型包括顶层模块和底层模块，顶层模块包括决策管理网络和目标导向管理机制；底层模块包括降维网络、奖励处理机制和深度Q网络；

基于目标任务将所述当前状态信息输入至所述底层模块中得到行为决策并执行；

获取所述下一时刻状态信息，并将所述当前状态信息以及下一时刻状态信息输入所述降维网络中后并与所述当前状态信息对应的行为决策拼接得到当前状态转移序列，所述顶层模块基于所述当前状态转移序列得到奖励预测值；

重复上述步骤直至机器人发生撞击，获取本回合得分以及完成本回合的目标任务之前的所有回合得分，将所有回合得分输入管理目标导向机制得到奖励增益值，利用所有所述奖励预测值和奖励增益值不断训练所述分层深度强化学习模型，得到优化学习后的所述分层深度强化学习模型。

进一步地，上述基于分层深度强化学习模型的机器人行为决策方法中，所述构建分层深度强化学习模型包括构建降维网络，所述降维网络包括三个子网，所述每个子网包括一个卷积层、一个激活函数和一个池化层；

所述三个子网顺序串联接入全连接神经网络中并引入Tanh激活函数。

进一步地，上述基于分层深度强化学习模型的机器人行为决策方法中，所述获取所述下一时刻状态信息，并将所述当前状态信息以及下一时刻状态信息输入所述降维网络中后并与所述当前状态信息对应的行为决策拼接得到当前状态转移序列，包括：

将所述当前状态信息输入所述降维网络中得到当前低维特征信息；

将所述下一时刻状态信息输入所述降维网络中得到下一时刻低维特征信息；

将所述当前状态信息对应的行为决策与当前低维特征信息和下一时刻低维特征信息拼接输出当前状态转移序列。

进一步地，上述基于分层深度强化学习模型的机器人行为决策方法中，所述重复上述步骤直至机器人发生撞击，获取本回合得分以及完成本回合的目标任务之前的所有回合得分，将所有回合得分输入管理目标导向机制得到奖励增益值，利用所有所述奖励预测值和奖励增益值不断训练所述分层深度强化学习模型，得到优化学习后的所述分层深度强化学习模型，包括：

将所述当前状态转移序列输入所述决策管理网络得到奖励预测值；

执行所述行为决策后获取环境奖励信号；

重复上述步骤直至机器人发生撞击，获取本回合得分以及完成本回合的目标任务之前的所有回合得分，将所有回合得分输入管理目标导向机制得到奖励增益值；

将得到的所有状态转移序列、奖励预测值、奖励增益值、环境奖励信号放入经验池中储存并更新；

利用经验池中的数据不断训练所述分层深度强化学习模型，得到优化学习后的所述分层深度强化学习模型。

进一步地，上述基于分层深度强化学习模型的机器人行为决策方法中，利用经验池中的数据不断训练所述分层深度强化学习模型，得到优化学习后的所述分层深度强化学习模型，包括：

利用所述经验池中的所有所述状态转移序列、奖励预测值以及环境奖励信号共同做损失函数，通过反向传播优化所述决策管理网络的参数；

从所述经验池中利用状态转移序列得到的奖励预测值、奖励增益值训练优化深度Q网络得到优化学习后的所述分层深度强化学习模型。

根据本申请的另一方面，还提供了一种计算机可读介质，其上存储有计算机可读指令，所述计算机可读指令可被处理器执行时，使所述处理器实现如上述任一项所述的方法。

根据本申请的另一方面，还提供了一种基于分层深度强化学习模型的机器人行为决策设备，该设备包括：

一个或多个处理器；

计算机可读介质，用于存储一个或多个计算机可读指令，

当所述一个或多个计算机可读指令被所述一个或多个处理器执行，使得所述一个或多个处理器实现如上述中任一项所述的方法。

与现有技术相比，本申请首先，获取当前状态信息和目标任务；然后，构建分层深度强化学习模型，所述分层深度强化学习模型包括顶层模块和底层模块，顶层模块包括决策管理网络和目标导向管理机制；底层模块包括降维网络、奖励处理机制和深度Q网络；接着，基于目标任务将所述当前状态信息输入至所述底层模块中得到行为决策并执行。然后，获取所述下一时刻状态信息，并将所述当前状态信息对应的行为决策、所述当前状态信息以及下一时刻状态信息输入所述降维网络中得到当前状态转移序列，所述顶层模块基于所述当前状态转移序列得到奖励预测值；最后，重复上述步骤直至机器人发生撞击，获取本回合得分以及完成本回合的目标任务之前的所有回合得分，将所有回合得分输入管理目标导向机制得到奖励增益值，利用所有所述奖励预测值和奖励增益值不断训练所述分层深度强化学习模型，得到优化学习后的所述分层深度强化学习模型。即通过模拟人脑的分层组织机理，提出了一个解决机器人稀疏奖励问题的深度分层强化学习模型，该模型包括顶层模块和底层模块两部分。在机器人环境认知的过程中，当其处于稀疏奖励的环境中时，上层模块根据智能体与环境的交互情况，为底层模块设定子目标，同时，上层模块可以感知环境并预测智能体的状态转移。此外，预测奖励和奖励增益被添加到该深度分层强化学习模型中来加速底层模块的学习速度，在底层模块中，设计了一个降维网络来编码和映射状态信息，因此，该深度分层强化学习模型可以有效解决智能体的稀疏奖励问题。

附图说明

通过阅读参照以下附图所作的对非限制性实施例所作的详细描述，本申请的其它特征、目的和优点将会变得更明显：

图1示出根据本申请一个方面的一种基于分层深度强化学习模型的机器人行为决策方法流程示意图；

图2示出根据本申请一个方面的一种基于分层深度强化学习模型的结构示意图；

图3示出根据本申请一个方面的一种基于分层深度强化学习模型中降维网络结构示意图；

图4示出根据本申请一个方面的一种基于分层深度强化学习模型的机器人行为决策方法的一应用场景的累计分数图；

图5示出根据本申请一个方面的一种基于分层深度强化学习模型的机器人行为决策方法的一应用场景的DQN平均网络训练误差变化图。

附图中相同或相似的附图标记代表相同或相似的部件。

具体实施方式

下面结合附图对本申请作进一步详细描述。

在本申请一个典型的配置中，终端、服务网络的设备和可信方均包括一个或多个处理器(例如中央处理器(Central Processing Unit，CPU)、输入/输出接口、网络接口和内存。

内存可能包括计算机可读介质中的非永久性存储器，随机存取存储器 (RandomAccess Memory，RAM)和/或非易失性内存等形式，如只读存储器(Read Only Memory，ROM)或闪存(flash RAM)。内存是计算机可读介质的示例。

计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括，但不限于相变内存(Phase-Change RAM，PRAM)、静态随机存取存储器(Static Random Access Memory，SRAM)、动态随机存取存储器(DynamicRandom Access Memory，DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(Electrically Erasable Programmable Read-Only Memory，EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(Compact Disc Read-OnlyMemory，CD-ROM)、数字多功能光盘(Digital Versatile Disk，DVD)或其他光学存储、磁盒式磁带，磁带磁盘存储或其他磁性存储设备或任何其他非传输介质，可用于存储可以被计算设备访问的信息。按照本文中的界定，计算机可读介质不包括非暂存电脑可读媒体(transitory media)，如调制的数据信号和载波。

图1示出根据本申请一个方面的一种基于分层深度强化学习模型的机器人行为决策方法流程示意图，该方法适用于移动机器人的各种运动场景，该方法包括步骤S11、步骤S12、步骤S13、步骤S14以及步骤S15，其中具体包括：

步骤S11，获取当前状态信息和目标任务；

步骤S12，构建分层深度强化学习模型，所述分层深度强化学习模型包括顶层模块和底层模块，顶层模块包括决策管理网络 (Decision-Managing Network,DMN)和目标导向管理机制(Goal-Directed Managing Mechanism,GDMM)；底层模块包括降维网络(Reduction Network,RN)、奖励处理机制和深度Q网络(Deep Q Network,DQN)；

步骤S13，基于目标任务将所述当前状态信息输入至所述底层模块中得到行为决策并执行。

步骤S14，获取所述下一时刻状态信息，并将所述当前状态信息以及下一时刻状态信息输入所述降维网络中后并与所述当前状态信息对应的行为决策拼接得到当前状态转移序列，所述顶层模块基于所述当前状态转移序列得到奖励预测值；

步骤S15，重复上述步骤直至机器人发生撞击，获取本回合得分以及完成本回合的目标任务之前的所有回合得分，将所有回合得分输入管理目标导向机制得到奖励增益值，利用所有所述奖励预测值和奖励增益值不断训练所述分层深度强化学习模型，得到优化学习后的所述分层深度强化学习模型。

上述步骤S11至步骤S15，首先，获取当前状态信息和目标任务；然后，构建分层深度强化学习模型，所述分层深度强化学习模型包括顶层模块和底层模块，顶层模块包括决策管理网络和目标导向管理机制；底层模块包括降维网络、奖励处理机制和深度Q网络，如图2所示；接着，基于目标任务将所述当前状态信息输入至所述底层模块中得到行为决策并执行。然后，获取所述下一时刻状态信息，并将所述当前状态信息对应的行为决策、所述当前状态信息以及下一时刻状态信息输入所述降维网络中得到当前状态转移序列，所述顶层模块基于所述当前状态转移序列得到奖励预测值；最后，重复上述步骤直至机器人发生撞击，获取本回合得分以及完成本回合的目标任务之前的所有回合得分，将所有回合得分输入管理目标导向机制得到奖励增益值，利用所有所述奖励预测值和奖励增益值不断训练所述分层深度强化学习模型，得到优化学习后的所述分层深度强化学习模型。即通过模拟人脑的分层组织机理，提出了一个解决机器人稀疏奖励问题的深度分层强化学习模型，该模型包括顶层模块和底层模块两部分。在机器人环境认知的过程中，当其处于稀疏奖励的环境中时，上层模块根据智能体与环境的交互情况，为底层模块设定子目标，同时，上层模块可以感知环境并预测智能体的状态转移。此外，预测奖励和奖励增益被添加到该深度分层强化学习模型中来加速底层模块的学习速度，在底层模块中，设计了一个降维网络来编码和映射状态信息，因此，该深度分层强化学习模型可以有效解决智能体的稀疏奖励问题。

例如，本发明的一应用场景，Atari里面的Skiing游戏。Skiing游戏的场景属于典型的稀疏奖励环境。这个游戏需要玩家控制虚拟人物(即机器人) 滑雪躲避树丛、石块等障碍物。得分由虚拟人物的滑雪时间决定，滑雪时间越长，说明虚拟人物避开障碍物的次数越多，此回合的得分就越高。首先，获取当前状态信息s_t和目标任务V；

然后，构建分层深度强化学习模型M，该发明通过模拟人脑的分层组织机理，提出了一个解决机器人稀疏奖励问题的深度分层强化学习模型，该模型包括顶层模块和底层模块两部分。在机器人环境认知的过程中，当其处于稀疏奖励的环境中时，上层模块根据智能体与环境的交互情况，为底层模块设定子目标，同时，上层模块可以感知环境并预测智能体的状态转移。所述分层深度强化学习模型M包括顶层模块和底层模块，顶层模块包括决策管理网络和目标导向管理机制；底层模块包括降维网络、奖励处理机制和深度Q网络，在此，在底层模块中设计了一个降维网络来编码和映射状态信息使得深度分层强化学习模型可以有效解决智能体的稀疏奖励问题。如图 2所示，DMN是一个具有记忆功能的模型，输入的是经过降维网络

处理后的当前状态信息

采取的动作a_t和经过降维网络

处理后的下一状态

即状态转移序列

输出的是顶层模块预测的奖励r_t ^*，这个值代表了顶层模块对底层模块状态转移的响应信号，也代表了顶层模块对底层模块当前时刻的状态转移的评价。顶层模块的另一个部分是GDMM，它受到人脑分层架构工作原理的启发，用来处理为底层模块制定子目标、评价底层模块子目标执行的情况等工作。GDMM的工作是收集、分析历次回合结束时的得分sc，当底层模块在当前回合结束的得分sc比之前的任何记录都高，顶层模块就给底层模块的RPM发出奖励增益r_ep ^buff，作用于训练过程和下一回合，从而间接地向底层模块的DQN参数更新提供目标导向。

接着，基于目标任务将所述当前状态信息输入至所述底层模块中得到行为决策a_t并执行。然后，底层模块获取所述下一时刻状态信息s_t+1，并将所述当前状态信息对应的行为决策a_t、所述当前状态信息s_t以及下一时刻状态信息s_t+1输入所述降维网络中得到当前状态转移序列

所述顶层模块基于所述当前状态转移序列

得到奖励预测值r_t ^*；最后，重复上述步骤直至机器人发生撞击，获取本回合得分以及完成本回合的目标任务之前的所有回合得分sc₁,sc₂,...,ssc_ep，将所有回合得分输入管理目标导向机制得到奖励增益值r_ep ^buff，利用所有所述奖励预测值{r_t ^*}(t＝1,2,3T)和奖励增益值r_ep ^buff不断训练所述分层深度强化学习模型，得到优化学习后的所述分层深度强化学习模型。即预测奖励和奖励增益被添加到该深度分层强化学习模型中来加速底层模块的学习速度。

进一步地，所述步骤S12构建分层深度强化学习模型中包括构建降维网络，所述降维网络包括三个子网，所述每个子网包括一个卷积层、一个激活函数和一个池化层；

例如，如图3所示，所述降维网络包括三个子网，所述每个子网包括一个卷积层、一个激活函数和一个池化层；卷积核的大小是20×20；激活函数选择ReLU激活函数；池化层选择最大值池化。三个子网顺序串联后接入全连接网络中。全连接神经网络的数量是2，随后使用Tanh激活函数。状态信息s_t经过RN输出一维210个元素的向量φ(st)。降维网络里面所有的权值参数都是由均值为0、方差为0.5的正态分布采样得到，每层网络独立采样。即使用一系列神经网络构造降维网络(Reduction Network,RN)，实现高维信息到低维信息的编码映射，从而使得深度分层强化学习模型可以有效解决智能体的稀疏奖励问题。

接着上述实施例，所述步骤S14中获取所述下一时刻状态信息，并将所述当前状态信息以及下一时刻状态信息输入所述降维网络中后并与所述当前状态信息对应的行为决策拼接得到当前状态转移序列，包括：

将所述当前状态信息输入所述降维网络中得到当前低维特征信息

将所述下一时刻状态信息输入所述降维网络中得到下一时刻低维特征信息

将所述当前状态信息对应的行为决策a_t与当前低维特征信息

和下一时刻低维特征信息

拼接输出当前状态转移序列

实现高维信息到低维信息的编码映射，有利于接下来的模型训练过程。

接着上述实施例，所述步骤S15中重复上述步骤直至机器人发生撞击，获取本回合得分以及完成本回合的目标任务之前的所有回合得分，将所有回合得分输入管理目标导向机制得到奖励增益值，利用所有所述奖励预测值和奖励增益值不断训练所述分层深度强化学习模型，得到优化学习后的所述分层深度强化学习模型，包括：

执行所述行为决策后获取环境奖励信号；在此，环境反馈的环境奖励信号不是最终的系统总奖励R。系统总奖励R是由来自环境的奖励信号r_t、顶层模块DMN的预测奖励r_t ^*和GDMM的奖励增益r_ep ^buff共同组成，且系统总奖励在RPM中合成。在当前时刻下系统总奖励Rt公式所示。最终的系统总奖励Rt参与深度Q网络的参数更新。

重复上述步骤直至机器人发生撞击，获取本回合得分以及完成本回合的目标任务之前的所有回合得分，将所有回合得分输入管理目标导向机制得到奖励增益值；在此，在GDMM中，初始化增益为0；超参数bufftime设定为0.2；

接着上述实施例，利用经验池中的数据不断训练所述分层深度强化学习模型，得到优化学习后的所述分层深度强化学习模型，包括：

利用所述经验池中的所有所述状态转移序列、奖励预测值以及环境奖励信号共同做损失函数，通过反向传播优化所述决策管理网络的参数；在此， DMN网络包含具有两层循环神经网络(Recurrent Neural Network,RNN)的 LSTM模型和全连接神经网络。全连接神经网络后连接ReLU激活函数。训练时，选择使用均方根计算损失函数；选择Adam算法做参数优化器，学习率设为0.01。

s_t+1＝env(s_t,a_t)

θ₁＝θ₁+optimizer(L(θ₁))

对于分层架构的人脑而言，更多地是先制定明确的目标，再通过不断地试错积累经验，逐步实现目标并得出最佳步骤。目标导向的试错过程，相比于非目标导向试错过程，在任务进行时，在保证随机性不改变的情况下，模型对环境的探索更具有主观能动性。

在此，底层模块的深度Q网络与其他深度强化学习类似，都是对当前状态采取动作进行值评估。本模型的深度Q网络也存在经验回放过程和目标网络两个特征。网络被分成两个子网，一部分是评估网络(Q Evaluate Network, QEN)，另一部分是目标网络(QTarget Network,QTN)，两个网络采用相同的结构，且记评估网络的模型参数为θ₂。在本模型中，动作输出a_t由如下公式表示，使用ε-greedy算法解决“探索-利用”平衡问题。

其中：probability—产生的随机数；

ε—在ε-greedy算法中的参数，具体范围在0.7～0.9之间。s_t表示智能体在 t时刻的状态，π表示智能体所用的动作策略。q_eval表示所评估的Q值。

深度Q网络训练时的损失函数表示如下，其中LossFunc表示损失函数的类型，loss表示在训练时产生的误差值。

loss＝LossFunc(q_target-q_eval)

其中q_target表示目标Q值，R表示奖励值，γ为折扣因子。

在深度Q网络中，QEN和QTN使用完全相同的全连接神经网络结构，中间层的神经元数量设为40。每层独立采用标准差为0.1的正态分布初始化权值。用于处理“探索-利用”平衡问题的ε设为0.7。经验池的大小设为2000；训练时从经验池随机抽取32条数据进行训练。QTN参数每隔100次从QEN 中更新一次。折扣因子γ设为0.9。训练时，选择使用均方根计算损失函数，选择Adam算法做参数优化器，学习率设为0.01。

另外，在训练时产生的误差值loss具有如下关系。

其中N_batch表示在一次训练中抽取的一批(batch)状态转移序列的条数， i表示这一批(batch)的第i条状态转移序列。

从如上公式不难看出，当环境处于稀疏环境中，智能体在回合中没有达到GDMM所设定的目标(最坏情况)时，由于r_t ^*仍然存在，因此还有“能力”去训练网络，从不等式中还可以看出，利用状态转移序列得到的两种增广奖励信号和网络最大值一步更新策略，可以适当提高网络训练误差值，提高稀疏环境下智能体的学习能力。RMP接受环境反馈奖励信号r_t、预测奖励 r_t ^*和奖励增益r_ep ^buff，输出系统总奖励Rt，并将状态转移序列

和奖励r_t送至经验池中存储并更新原有内容。在本回合结束后，经验池抽样信息被送至深度Q网络和DMN进行参数训练。训练结束后，本回合结束， GDMM收集本回合的得分sc并进行下一回合奖励增益计算。当回合数达到阈值时，本轮任务结束。

本发明的一实施例中，Skiing游戏的场景属于典型的稀疏奖励环境。这个游戏需要玩家控制虚拟人物(即智能体)滑雪躲避树丛、石块等障碍物。得分由虚拟人物的滑雪时间决定，滑雪时间越长，说明虚拟人物避开障碍物的次数越多，此回合的得分就越高。按照等时间间隔从游戏中抽取帧，将帧带入计算模型，并输出动作操纵虚拟人物。因此滑雪时间可以转化成控制虚拟人物滑雪动作的次数。滑雪时间越长，动作执行次数越多而没发生碰撞，游戏的得分就越高。在一轮多回合中，当玩家控制的虚拟人物发生碰撞时，游戏终止，此回合结束，虚拟人物保持模型参数回到起点并开始新的回合。

这个环境中，动作集的元素个数是3，即虚拟人物具有向左、向右和前进三个动作。状态空间就是这个游戏场景，状态st表示t时刻的游戏帧，每帧画面都是宽160像素、高210像素的RGB图片。当游戏帧输入到计算模型中，它是一个210*160*3的矩阵。

参数设置如下：

在降维网络里，一个卷积层、一个激活函数和一个池化层构成了一个子网。卷积核的大小是20*20；激活函数选择ReLU型函数；池化层选择最大值池化。三个子网顺序串联后接入2个全连接网络中。全连接神经网络的数量是2,2个全连接神经网络串联，每个全连接神经网路后面使用Tanh激活函数。状态信息st经过降维网络RN输出一维210个元素的向量φ(st)。降维网络里面所有的权值参数都是由均值为0、方差为0.5的正态分布采样得到。每层网络独立采样。

DMN网络包含具有两层循环神经网络(RNN)的LSTM和1层全连接神经网络。全连接神经网络后使用ReLU型激活函数。训练时，使用均方根计算损失函数；选择Adam算法做参数优化器，学习率设为0.01。

在GDMM中，初始化增益为0；超参数bufftime设定为0.2；

在深度Q网络中，QEN和QTN使用完全相同的全连接神经网络结构，中间层的神经元数量设为40。每层独立采用标准差为0.1的正态分布初始化权值。用于处理“探索-利用”平衡问题的ε设为0.7。经验池的大小设为2000；训练时从经验池中随机抽取32条数据进行训练。QTN参数每隔100次从QEN 中更新一次。折扣因子γ设为0.9。训练时，使用均方根计算损失函数，选择 Adam算法做参数优化器，学习率设为0.01。

每个实验以50回合为1轮，共执行10轮。模型运行时，使用的CPU是 Intel COREi5，使用的GPU是NVIDIA GeForce RTX 2080 Ti，使用Python语言实现。

将本申请的模型与原始DQN、Double DQN(DDQN)、Actor-Critic(AC) 和NoisyNet(NN)算法进行比较，在Skiing环境中运行10轮，每轮50回合，同样记录动作执行数量N_ep ^r和DQN网络训练误差值e_ep ^r。AC算法训练Actor时，选择使用均方根计算损失函数；选择Adam算法做参数优化器，学习率取0.01。NoisyNet采用为网络的每一层增加高斯噪声网络的方法。

图4展示了在10轮每轮50回合的游戏中Actor-Critic(AC)、Double DQN(DDQN)、DQN和NoisyNet(NN)四种算法的累计分数图。四种算法的SNep变化趋势分别用SNep-AC，SNep-DDQN，SNep-DQN和 SNep-NN表示在图4中，阴影表示每个回合累计成绩的分布，分布的上边界是各个模型的MaxNep变化趋势，而下边界则是MinNep变化趋势。为了增强对比性，我们将申请提出的模型的验证试验的SNep变化趋势也绘制在图中。从图4可以看出，四种算法在任务进行时SNep,，MaxNep和 MinNep都在逐步提升，且四种算法的增长趋势相似，其MaxNep和MinNep 曲线都比较接近即数值差距不大。但是与本申请提出的算法相比，这四种算法的增长速度均较慢，即达到累计分数超过10的5次方的数值条件下，四种算法所需要的回合数都比本文提出的算法多。

图5表示任务执行中四种算法和本文提出的算法的底层模块 DQN网络训练误差对比图。图中黑色虚线表示本申请提出算法的 Se_ep变化趋势图，其数值都与验证试验一致；而其余线条分别表示四种算法Se_ep变化趋势图(分别用Seep-AC，Seep-DDQN，Seep-DQN 和Seep-NN表示)。

从图5可以看出，Seep-NN和Seep-DQN在50回合内保持相对平稳，但是有若干次网络误差训练值较大(具体是NoisyNet：8次而DQN：6次)，这说明对这两算法而言网络误差在连续50回合内没有波动下降。对于 Double DQN算法，其Seep-DDQN从第41回合开始有逐步加大的趋势，说明在这样的任务下，该算法难以达到性能要求。对于AC算法而言，其 Seep-AC从第30回合开始呈现震荡式下降状态，说明该算法在任务进行中有能力将误差下降但是需要更多的回合。这四种算法跟黑色虚线代表的本发明提出算法相比，其网络训练能力均低于本发明提出的算法。

对于DQN模型，在稀疏环境下正值奖励数量少、分布稀疏，智能体获得正值奖励比较困难，导致状态价值和动作价值更新缓慢，因此智能体难以学习。即使DDQN改变了更新策略减少了DQN对动作值的高估，但是其性能仍然因为稀疏环境的特点而获得较差的表现。NoisyNet主要是通过对深度Q网络增加噪声网络增加对环境探索的程度。但是稀疏环境正值奖励数量本身较少，且Skiing游戏具有任务终止时状态不唯一的特点，因此增加NoisyNet后获得的有助于智能体学习的状态转移序列部分无较大变化，因此对智能体的学习影响增进不大。Actor-Critic在对比的四个模型内部具有最好的表现，但是这个模型的实验结果仍低于本文提出的模型。这是因为Actor-Critic模型中，Actor以Critic为参照而学习，而Critic以智能体在环境中的累计期望奖励为参照而学习。稀疏环境影响了累计期望奖励，从而影响了Critic，进而影响了以它为参照的Actor的学习。因此稀疏环境的特点造成了Actor和Critic的性能表现都较差。

上述数据和分析均表明，在Skiing游戏这类稀疏奖励环境中，本专利提出的算法的执行性能优于其他四种算法。

根据本申请的另一个方面，还提供了一种计算机可读介质，其上存储有计算机可读指令，所述计算机可读指令可被处理器执行时，使所述处理器实现如上述控制用户对垒方法。

根据本申请的另一个方面，还提供了一种机器人行为决策设备，其特征在于，该设备包括：

一个或多个处理器；

计算机可读介质，用于存储一个或多个计算机可读指令，

当所述一个或多个计算机可读指令被所述一个或多个处理器执行，使得所述一个或多个处理器实现如上述在设备上控制用户对垒方法。

在此，所述设备的各实施例的详细内容，具体可参见上述设备端的控制用户对垒方法实施例的对应部分，在此，不再赘述。

综上所述，通过模拟人脑的分层组织机理，提出了一个解决机器人稀疏奖励问题的深度分层强化学习模型，该模型包括顶层模块和底层模块两部分。在机器人环境认知的过程中，当其处于稀疏奖励的环境中时，上层模块根据智能体与环境的交互情况，为底层模块设定子目标，同时，上层模块可以感知环境并预测智能体的状态转移。此外，预测奖励和奖励增益被添加到该深度分层强化学习模型中来加速底层模块的学习速度，在底层模块中，设计了一个降维网络来编码和映射状态信息，因此，该深度分层强化学习模型可以有效解决智能体的稀疏奖励问题。

需要注意的是，本申请可在软件和/或软件与硬件的组合体中被实施，例如，可采用专用集成电路(ASIC)、通用目的计算机或任何其他类似硬件设备来实现。在一个实施例中，本申请的软件程序可以通过处理器执行以实现上文所述步骤或功能。同样地，本申请的软件程序(包括相关的数据结构) 可以被存储到计算机可读记录介质中，例如，RAM存储器，磁或光驱动器或软磁盘及类似设备。另外，本申请的一些步骤或功能可采用硬件来实现，例如，作为与处理器配合从而执行各个步骤或功能的电路。

另外，本申请的一部分可被应用为计算机程序产品，例如计算机程序指令，当其被计算机执行时，通过该计算机的操作，可以调用或提供根据本申请的方法和/或技术方案。而调用本申请的方法的程序指令，可能被存储在固定的或可移动的记录介质中，和/或通过广播或其他信号承载媒体中的数据流而被传输，和/或被存储在根据所述程序指令运行的计算机设备的工作存储器中。在此，根据本申请的一个实施例包括一个装置，该装置包括用于存储计算机程序指令的存储器和用于执行程序指令的处理器，其中，当该计算机程序指令被该处理器执行时，触发该装置运行基于前述根据本申请的多个实施例的方法和/或技术方案。

对于本领域技术人员而言，显然本申请不限于上述示范性实施例的细节，而且在不背离本申请的精神或基本特征的情况下，能够以其他的具体形式实现本申请。因此，无论从哪一点来看，均应将实施例看作是示范性的，而且是非限制性的，本申请的范围由所附权利要求而不是上述说明限定，因此旨在将落在权利要求的等同要件的含义和范围内的所有变化涵括在本申请内。不应将权利要求中的任何附图标记视为限制所涉及的权利要求。此外，显然“包括”一词不排除其他单元或步骤，单数不排除复数。装置权利要求中陈述的多个单元或装置也可以由一个单元或装置通过软件或者硬件来实现。第一，第二等词语用来表示名称，而并不表示任何特定的顺序。

Claims

1.基于分层深度强化学习模型的机器人行为决策方法，其特征在于，所述方法包括：

获取当前状态信息和目标任务；

2.根据权利要求1所述的方法，其特征在于，所述构建分层深度强化学习模型中包括构建降维网络，所述降维网络包括三个子网，所述每个子网包括一个卷积层、一个激活函数和一个池化层；

3.根据权利要求2所述的方法，其特征在于，所述获取所述下一时刻状态信息，并将所述当前状态信息以及下一时刻状态信息输入所述降维网络中后并与所述当前状态信息对应的行为决策拼接得到当前状态转移序列，包括：

4.根据权利要求1所述的方法，其特征在于，所述重复上述步骤直至机器人发生撞击，获取本回合得分以及完成本回合的目标任务之前的所有回合得分，将所有回合得分输入管理目标导向机制得到奖励增益值，利用所有所述奖励预测值和奖励增益值不断训练所述分层深度强化学习模型，得到优化学习后的所述分层深度强化学习模型，包括：

执行所述行为决策后获取环境奖励信号；

5.根据权利要求4所述的方法，其特征在于，所述利用经验池中的数据不断训练所述分层深度强化学习模型，得到优化学习后的所述分层深度强化学习模型，包括：

6.一种计算机可读介质，其上存储有计算机可读指令，所述计算机可读指令可被处理器执行时，使所述处理器实现如权利要求1至5中任一项所述的方法。

7.一种基于分层深度强化学习模型的机器人行为决策设备，其特征在于，该设备包括：

一个或多个处理器；

计算机可读介质，用于存储一个或多个计算机可读指令，

当所述一个或多个计算机可读指令被所述一个或多个处理器执行，使得所述一个或多个处理器实现如权利要求1至5中任一项所述的方法。