CN116643499A

CN116643499A - 一种基于模型强化学习的智能体路径规划方法及系统

Info

Publication number: CN116643499A
Application number: CN202310637164.4A
Authority: CN
Inventors: 兰旭光; 刘亚新; 王浩宇; 陈星宇; 田智强; 齐欧; 刘海进
Original assignee: Xian Jiaotong University; Lingdong Technology Beijing Co Ltd
Current assignee: Xian Jiaotong University; Lingdong Technology Beijing Co Ltd
Priority date: 2023-05-31
Filing date: 2023-05-31
Publication date: 2023-08-25

Abstract

本发明公开一种基于模型强化学习的智能体路径规划方法及系统，属于机器控制技术领域，包括：获取智能体与环境交互的轨迹图像；将轨迹图像中隐状态作为抽象状态，依照样本的回报大小划分正负样本，正负样本之间通过对比学习，使得正样本投影到同一隐状态，负样本投影到不同隐状态，得到投影后的样本；将抽象学习和模型学习相结合构建带约束的智能体路径规划优化目标模型；再基于KKT条件通过引入超参数构建联合损失函数；将投影后的样本输入联合损失函数中进行求解得到智能体路径规划；输出所述智能体路径规划用于智能体根据作出控制决策。该方法在机器人操作任务和自动驾驶任务等复杂任务表明，本发明在收敛后的性能上有着优异的性能。

Description

一种基于模型强化学习的智能体路径规划方法及系统

技术领域

本发明属于机器控制技术领域，具体涉及一种基于模型强化学习的智能体路径规划方法及系统。

背景技术

自动驾驶一直是人工智能的重要应用领域，在人工智能技术飞速发展的今天，如何将最新的机器学习技术应用到自动驾驶模型的训练当中，已经成为人工智能研究的前沿问题。随着人们对AI的要求从感知型逐渐深化到决策型，AI在自动驾驶任务中的应用能力也成为了衡量决策型AI技术发展的标准之一。强化学习目前存在的主要问题之一是采样效率的问题，为了训练出一个较好的策略，需要智能体与环境进行大量的交互、试错，然后用采集到的数据进行大量的训练，导致采样效率、训练效率比较低。

强化学习按照是否需要学习环境模型可以分为两类，一类是无模型的强化学习，一种是基于模型的强化学习。无模型的强化学习直接通过与环境交互采样来学习强化学习中的策略和值函数，无模型的强化学习算法只关注在给定状态下采取什么行动，放弃了构建环境的模型信息，一般来说采样效率较为低下。另一类是基于模型的强化学习算法，这一算法的基本思想是学习环境模型，预测采取动作以后会产生何种影响来帮助智能体进行决策，一般来说这类算法可以显著提高采样效率。基于模型的强化学习算法缺点是在一些复杂任务中如果仅从采集的样本中学习模型，学习到的模型与真实模型之间会存在偏差，这一偏差会导致智能体在真实环境中测试的时候性能较差。目前强化学习的一个研究领域是以图象作为输入的决策，图像作为输入的情况下状态空间维度达上万维，仅依靠无模型的强化学习对计算机的算力要求极高，甚至无法收敛，在这类任务中基于模型的强化学习算法有着较大的优势。

基于模型的强化学习(Model-Based Reinforcement Learning，MBRL)是机器学习中的一个重要的研究方向，可以用于解决机器人、自动驾驶等领域的决策问题。MBRL的主要思想是通过无监督学习对环境进行建模，依靠学习到的环境模型来学习策略。MBRL的主要流程是学习环境模型，然后再由环境模型预测的样本来学习策略。以图像作为强化学习的观测值，即依靠图像进行决策，会使得传统强化学习的训练效率下降。

目前的方法在用基于模型的强化学习解决类似决策问题的时候，通过对比学习或重构将高维的观测值压缩到低维隐空间中进行表征学习，重构对于无噪声背景的观测值的决策任务有着较好的表现。对于有噪声的观测值问题，为了避免在像素层次上重建观测值，通常采用对比学习的方法来学习。从信息论的角度，目前的方法仅按照无监督学习的方式训练模型，没有考虑到样本额外的强化学习结构信息。尤其是针对机器人操作任务和自动驾驶任务等复杂任务的路径规划及控制问题，现有技术中的算法复杂，训练难度大，控制精度不能满足实际需要。

发明内容

本发明的目的在于克服上述不足，提供一种基于模型强化学习的智能体路径规划方法及系统，该方法在机器人操作任务和自动驾驶任务等复杂任务表明，本发明在收敛后的性能上有着优异的性能。

为了达到上述目的，本发明采用如下技术方案：

一种基于模型强化学习的智能体路径规划方法，包括：

获取智能体与环境交互的轨迹图像；智能体为自动驾驶车辆或智能机器人；

将轨迹图像中隐状态作为抽象状态，依照样本的回报大小划分正负样本，正负样本之间通过对比学习，使得正样本投影到同一隐状态，负样本投影到不同隐状态，得到投影后的样本；

将抽象学习和模型学习相结合构建带约束的智能体路径规划优化目标模型；再基于KKT条件通过引入超参数构建联合损失函数；将投影后的样本输入联合损失函数中进行求解得到智能体路径规划；

输出所述智能体路径规划用于智能体根据所述智能体路径规划作出控制决策。

作为本发明进一步改进，所述获取智能体与环境交互的轨迹图像，包括：

给定一个局部可观测马尔可夫决策过程，包括离散的时间t∈N，t时刻的高维观测值o_t∈O，动作a_t∈A，奖励值r_t∈R以及隐状态z_t∈Z；

智能体与环境交互分别得到两段轨迹图像，分别是

和

分别表示第j个轨迹的时刻i的隐状态；

同一时刻的嵌入向量和隐状态组合为正样本；不同时刻的嵌入向量和隐状态为负样本；

定义一个集合φ_o＝{(o_i，o_j)|o_i，o_j∈O，o_i～p(o_j)，o_j～p(o_j)，其中，/>是将观测值映射到隐状态空间的编码器，p(o_t)＝p(o_t|o_＜t，a_＜t)表示根据t时刻之前的观测值和动作得到的t时刻的观测值的分布，O是观测值空间，φ_o表示观测值空间O中映射到同一个隐状态的观测值对的组合的全体集合，任意(o_i，o_j)∈φ_o，其对应的隐状态zi与z_j相同；给定一个t时刻的观测值o_t～p(o_t)及对应的隐状态z_t∈Z，定义一个集合ψ(z_t)＝{o_j|(o_i，o_j)∈φ_o}表示所有映射到z_t的观测值的集合。

作为本发明进一步改进，所述将轨迹图像中隐状态作为抽象状态，依照样本的回报大小划分正负样本，包括：

对于任意(o_i，o_j)∈φ_o，采取信息噪声对比估计学习方法使得符合条件的隐状态一致性；从抽象的角度得到如式所示的优化目标：

式中，ψ(z_t)表示所有映射到z_t的观测值的集合；f_θ(o_j，z_t)是一个非负函数，其作用是衡量隐状态z_t和观测值o_j的相似度；为常量。

作为本发明进一步改进，所述正负样本之间通过对比学习，使得正样本投影到同一隐状态，负样本投影到不同隐状态，得到投影后的样本，包括：

最大化任一个隐状态和其从抽象视角对应的多个观测值的概率之和，最小化该隐状态和其他观测值的概率之和，增加一个辅助任务作为对模型的约束，得到辅助任务如下式所示：

其中，∈≥0表示状态抽象对于DSCL模型学习的约束大小，∈越小表示约束程度越强，∈最小为0表示完全区分正负样本，代表双线性模型的非负函数；e_t是观测值o_t的嵌入向量，W_θ是要学习的参数矩阵；/>为常量。

作为本发明进一步改进，所述智能体路径规划优化目标模型包括四个子模型：

第一个是基于损失函数L_RR的重建奖励值模型p_θ(r_t|z_t)，该模型由隐状态解码出奖励值的概率分布；

第二个模型是基于损失函数L_SSCL的同一轨迹内的对比学习模型该模型主要是将同一时刻的观测值和隐状态作为正样本，不同时刻的观测值和隐状态作为负样本进行对比学习训练；

第三个模型是基于损失函数L_DSCL的不同轨迹内的对比学习模型该模型主要是从抽象的角度构建正负样本用于模型的学习；

第四个模型包括两个子模型，分别为先验模型p_ω和后验模型q_φ，两个子模型通过损失函数L_LD进行联合训练。

作为本发明进一步改进，所述将抽象学习和模型学习相结合构建带约束的智能体路径规划优化目标模型，包括：

构建不等式约束的优化问题，最大化采样的轨迹的对数似然函数，具体为：

max log p(o_0：H-1，r_0：H-1|a_0：H-1)

式中，a_0：H-1代表0：H-1的行为集合，r_0：H-1代表奖励集合，o_0：H-1代表观测值集合；∈代表约束的常量值，f_θ(o_j，z_t)是一个非负函数，其作用是衡量隐状态z_t和观测值o_j的相似度；为常量。

作为本发明进一步改进，所述再基于KKT条件通过引入超参数构建联合损失函数，包括：

基于KKT条件构建拉格朗日函数，其中β＞0是抽象目标的正则项系数，最大化L的优化目标转化为最大化其下界：

当其小于u时认为动力学转移模型已经符合要求，得到下界为：

式中，参数β＞0是抽象目标的正则项系数；p_θ(r_t|z_t)代表奖励值模型；代表常量(已知观测值O和行为轨迹a的情况下得到隐状态z的概率期望；f_θ(_ot，z_t)一个函数代表观测值o_t与隐状态z_t的相似度；/>代表下一状态轨迹的相似度求和。

本发明第二个目的是提供一种基于模型强化学习的智能体路径规划系统，包括：

获取模块，用于获取智能体与环境交互的轨迹图像；

对比学习模块，用于将轨迹图像中隐状态作为抽象状态，依照样本的回报大小划分正负样本，正负样本之间通过对比学习，使得正样本投影到同一隐状态，负样本投影到不同隐状态，得到投影后的样本；

构建求解模块，用于将抽象学习和模型学习相结合构建带约束的智能体路径规划优化目标模型；再基于KKT条件通过引入超参数构建联合损失函数；将投影后的样本输入联合损失函数中进行求解得到智能体路径规划；

输出模块，用于输出所述智能体路径规划用于智能体根据所述智能体路径规划作出控制决策。

本发明第三个目的是提供一种电子设备，包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现所述基于模型强化学习的智能体路径规划方法的步骤。

本发明第四个目的是提供一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，所述计算机程序被处理器执行时实现所述基于模型强化学习的智能体路径规划方法的步骤。

与现有技术相比，本发明具有如下优点：

该方法针对与环境交互的轨迹图像，将轨迹图像作为决策依据的深度强化学习任务，应用无监督学习和基于模型的方法进行决策，首先在目前已有算法上进行了创新提出了抽象约束的模型强化学习算法，该算法在公开的简单控制任务上实现了最优的性能；本发明提出的基于熵约束的模型强化学习算法在复杂的机器人操作仿真环境和自动驾驶仿真环境中表现优异，具有采样效率、训练效率高的优点。

附图说明

以下将结合附图对本发明的构思、具体结构及产生的技术效果作进一步说明，以充分地了解本发明的目的、特征和效果。

图1为机器人操作任务的三个不同的观测值及理想的隐状态分布图；

图2为本发明的ACRL算法流程图；

图3为本发明的ACRL算法图模型；

图4为噪声背景下5个环境中的实验结果以及无噪声背景下的5个环境中的实验结果；

图5为十个实验环境的结果直观展示；

图6为算法再自动驾驶任务以及panda reach任务上的测试示意图；

图7为本发明实施例给出的一种基于模型强化学习的智能体路径规划方法流程图；

图8为本发明实施例给出的一种基于模型强化学习的智能体路径规划系统框图。

具体实施方法

为了使本技术领域的人员更好地理解本发明中的技术方案，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅为本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例，都应当属于本发明保护的范围。

本发明第一个目的是提供一种基于模型强化学习的智能体路径规划方法，该方法基于信息约束的模型强化学习方法，旨在解决应用于自动驾驶任务中传统MBRL和机器人智能控制过程存在的问题。

针对在无监督学习中没有考虑样本中额外强化学习结构的信息，如图7所示，本发明提出抽象约束的模型强化学习(Abstraction-Constrained Model ReinforcementLearning，ACRL)算法。包括：

获取智能体与环境交互的轨迹图像；

本发明的方法首先，ACRL将隐状态作为抽象状态依照样本的回报大小划分正负样本，正负样本之间通过对比学习，正样本投影到同一隐状态，负样本投影到不同隐状态；其次，ACRL将抽象学习和模型学习相结合构建带约束的优化目标，优化目标是只对应的应用对象的控制目标；然后，ACRL基于Karush-Kuhn-Tucker(KKT)条件通过引入一个超参数构建联合损失函数，对目标进行优化。

近年来的关于抽象的研究大多都是基于块强化学习的框架来做的，即每一个观测值都决定了其隐状态，例如，在游戏任务中选择将多帧的图像拼接起来作为一个时刻的观测值，其不显式地学习一个模型，算法框架较为简单。本发明实施例将抽象引入较为复杂的模型中，如何将两者结合是一个难点。

模型的有效性是建立在优化变分下界的基础上来实现的，变分下界针对隐状态提出了多个任务，使得隐变量是满足多个要求的，在模型的基础上引入抽象需要额外增加任务。过多的任务会使得不同的任务起到的作用不同，在具体实现中算法对于各个任务比较敏感，甚至不同的环境对于优化目标函数中的不同任务的要求不同，这些都会导致算法的泛化性出现问题。

尽管近年来关于抽象的研究比较多，很多研究都是从理论层面证明了对应方法的有效性，但是在具体实验中将抽象理论在一定的误差范围内转换为一个可以表现优异的算法是抽象应用层面的难点。如图1所示是一个机器人任务中的三个不同的观测值和期望的隐空间分布，相似的观测值在隐空间的距离应当比较近，而差异比较大的观测值在隐空间的距离应当比较远，该任务中观测值的相似性在实际任务中是难以准确度量的。

自动驾驶任务的大致流程包括感知、决策、规划和控制。其中感知任务已经大量采用深度学习方法，取得了不错的效果。不同于监督学习，以强化学习为代表的决策AI方法将环境建模为马尔科夫决策过程(MDP)来得到优化方案。MDP本身的时序性和自动驾驶任务具有良好的结合能力，因此，在决策规划控制环节，应用强化学习方法成为了一个必然的方案。强化学习的优势是通过与环境的交互来优化策略。驾驶策略的输出会作用在运行的环境中，改变车辆的状态和未来的感知结果。强化学习并非直接通过学习数据提供的标签动作，而是通过环境反馈的reward来学习如何提高在指定任务上的性能，其优化目标是使得整个驾驶流程的折扣总回报(Discounted Reward)最大。在学习过程中，驾驶策略会选择一些动作并时不时的获得一些奖励，并朝着提高其生命周期内获得的累积奖励来进行迭代优化。随着时间的推移，驾驶策略通过建立起关于不同状态-动作对的预期收益的知识来增加其获取长期奖励的能力。

本发明通过十个公开的DeepMind Control Suite控制任务表明，ACRL算法在训练效率和收敛后的性能上有着优异的性能。

本发明将模型与强化学习中的抽象进行结合，将抽象的优化问题与模型的优化问题转化为一个带不等式约束的优化问题进行求解。在应用抽象的时候，设计了基于回报的算法划分正负样本，使得正样本在隐空间聚合在一起，负样本在隐空间中互相远离。本发明实施例提出的算法在10个主流的简单任务上优于目前已有算法。机器人操作任务和自动驾驶任务等复杂任务表明，本发明在收敛后的性能上有着优异的性能。

综上所述，本发明提供的ACRL算法明显由于目前已有算法，在自动驾驶任务中，可以有效解决传统强化学习存在的固有问题。

本发明提出ACRL算法的模型学习包括同一轨迹内的对比学习目标、重建奖励值目标、动力学转移目标、不同轨迹内的对比学习目标，在学习策略是主要采取了以模型为主同时结合无模型强化学习为辅的方式进行学习。本发明将对比学习的模型分为了两部分，分别是段内对比学习(Same-segment Contrastive Learning，SSCL)和段间对比学习(Different-segment Contrastive Learning，DSCL)。SSCL旨在观测值在样本序列中是可区分的，与对比学习模型类似，但是正负样本均在同一段轨迹进行选择；DSCL模型考虑到了不同轨迹的样本是否在隐状态空间加以区分或者聚合，这一模型是通过抽象实现的。其次，关于抽象算法的选择，本发明选择了依照Z^π无关性来设计抽象算法，本发明在相关研究的分段处理算法的基础上进行了改进，使得能在线地评估不同轨迹的样本在隐状态空间是否聚合。然后，本发明提出了一个带约束的优化问题，借鉴了β变分自编码器的优化原理，引入了一个超参数β来对算法进行优化。

ACRL算法的创新点主要有两点，第一点是将抽象的优化问题与模型的优化问题转化为一个带不等式约束的优化问题进行求解，然后将带约束的优化问题再进一步转化为一个能直接优化的目标；第二点是提出了在线的基于回报的抽象算法，该算法实时在线更新最大最小回报值，通过回报值来划分抽象的正负样本。ACRL应用了四个辅助任务来保证算法的有效性，第一个是应用RSSM结构来构建动力学转移模型，使得隐状态包括随机部分和确定部分；第二个是通过想象来学习策略，其思路是根据世界模型来预测多步的结果按照世界模型和策略的可导性质来更新策略，是一种基于模型的学习方法；第三个是模型引导的预测控制来进一步提高采样的策略性能，使得收敛更快；第四个是混合SAC算法通过应用无模型强化学习的方法来提高算法性能。

首先，旨在对提出的ACRL算法的原理进行推导和说明。给定一个局部可观测马尔可夫决策过程，其中包括离散的时间t∈N，t时刻的高维观测值o_t∈O，动作a_t∈A，奖励值r_t∈R以及隐状态z_t∈Z。

将自动驾驶车辆、智能机器人机械臂作为智能体，智能体与环境交互可以分别得到两段轨迹，分别是和本发明建立的ACRL算法图模型如图3所示，该图模型中省去了奖励值的部分，/>分别表示第j个轨迹的时刻i的嵌入向量隐状态。首先，图3中(a)表示的是一个轨迹中的样本，该轨迹主要用于学习SSCL的样本，该类样本主要是用于对比学习模型的训练，其中同一时刻的嵌入向量和隐状态组合为正样本，正样本有着相同的颜色；不同时刻的嵌入向量和隐状态为负样本，负样本的颜色不同；然后，综合考虑图3中(a)和(b)中的DSCL样本，其中/>样本组合从抽象的角度判定为正样本，用于抽象的模型训练。

定义一个集合φO＝{(o_i，o_j)|o_i，o_j∈O，o_i～p(o_j)，o_j～p(o_j)，其中，/>是将观测值映射到隐状态空间的编码器，由于算法要解决的问题是一个局部可观测马尔可夫过程，p(o_t)＝p(o_t|o_＜t，a_＜t)表示根据t时刻之前的观测值和动作得到的t时刻的观测值的分布，O是观测值空间，φ_O表示观测值空间O中所有通过某一抽象算法可以映射到同一个隐状态的观测值对的组合的全体集合，即对于任意(o_i，o_j)∈φ_O，其对应的隐状态z_i与z_j相同。给定一个t时刻的观测值o_t～p(o_t)及对应的隐状态z_t∈Z，本发明实施例定义一个集合ψ(z_t)＝{o_j|(o_i，o_j)∈φ_O}表示所有映射到z_t的观测值的集合。

本发明旨在对于任意(o_i，o_j)∈φ_O，其对应的隐状态是一致的，本发明采取信息噪声对比估计这一对比学习方法确保符合条件的隐状态一致性。InfoNCE通过选择一组正样本和多组负样本增大正样本的相似性，减小负样本的相似性。由于ψ(z_t)中可能有多组正样本，本发明针对InfoNCE算法将其拓展到多组正样本的情况，仅从抽象的角度可以得到如式所示的优化目标。

式中，ψ(z_t)表示所有映射到z_t的观测值的集合；f_θ(o_j，z_t)是一个非负函数，其作用是衡量隐状态z_t和观测值o_j的相似度；可以看作一个常量，代表已知观测o_＜t和行为轨迹a_＜t的情况下求得隐状态z_t的概率期望。

最大化式的直观意义是最大化某一个隐状态和其从抽象视角对应的多个观测值的概率之和，同时最小化该隐状态和其他观测值的概率之和，即最大化某一隐状态和多个符合抽象的观测值的相似度，最小化和不符合抽象的观测值的相似度，该式主要用于DSCL模型的学习。

在学习环境模型的基础上，本发明的方法的核心创新点为增加一个辅助任务作为对模型的约束，本发明的方法提出的辅助任务如式所示，加权求和总过程的约束为：

其中，∈≥0表示状态抽象对于DSCL模型学习的约束大小，∈越小表示约束程度越强，∈最小为0表示完全区分正负样本，在实际中由于不可能使得负样本的概率为0，因此实际问题中上式不等式左边的部分总是小于0的。直观来看，抽象可以划分出正样本和负样本，上式的意义是使得正样本的相似度与所有样本的相似度之比的期望大于-∈。/>代表已知观测o_＜t和行为轨迹a_＜t的情况下求得隐状态z_t的概率期望；ψ(z_t)是隐状态映射集合。

结合上述两式，可以得到如下式所示的带不等式约束的优化问题，直观来看，首先，该式需要最大化采样的轨迹的对数似然函数；其次，下式是作为一个优化问题的不等式约束。

max log p(o_0：H-1，r_0：H-1|a_0：H-1)

上式可以得到基于KKT条件的拉格朗日函数如下所示，其中β＞0是抽象目标的正则项系数，最大化L的优化目标可以转化为最大化其下界。

本发明的方法关于隐状态学习的模型包括四个子模型，第一个是基于损失函数L_RR的重建奖励值模型p_θ(r_t|z_t)，该模型由隐状态解码出奖励值的概率分布；第二个模型是基于损失函数L_SSCL的同一轨迹内的对比学习模型该模型主要是将同一时刻的观测值和隐状态作为正样本，不同时刻的观测值和隐状态作为负样本进行对比学习训练；第三个模型是基于损失函数L_DSCL的不同轨迹内的对比学习模型/>该模型主要是从抽象的角度构建正负样本用于模型的学习；第四个模型包括两个子模型，即先验模型p_ω和后验模型q_φ，这两个子模型通过损失函数L_LD进行联合训练，使得模型具有预测的作用。

结合第一式变分下界、第二式的下界和以上四个模型，同时为了避免动力学转移目标过拟合，当其小于u时即可认为动力学转移模型已经符合要求，可以推导出本发明的方法的下界如下所示：

式中，参数β＞0是抽象目标的正则项系数；p_θ(r_t|z_t)代表奖励值模型；代表常量(已知观测值O和行为轨迹a的情况下得到隐状态z的概率期望；f_θ(o_t，z_t)一个函数代表观测值o_t与隐状态z_t的相似度；/>代表下一状态轨迹的相似度求和。

目标函数中参数说明如下：

首先，在推导该目标函数的下界的时候，引入了两个参数∈和β，其中不同轨迹内的对比学习目标通过β赋予一个相应的权重，该值的大小主要影响到抽象在训练过程中对优化目标的约束大小，该值越大会使得具有相似的抽象属性的观测值在隐空间中接近。在KKT中，本发明实施例通过改变β的值来间接地优化参数∈，对于不同的任务，最优的∈是不同的，且β的大小依赖∈的值，因此实际算法中最优的β很难自动学习得到，本发明的方法针对这一问题，经验性地将β设为一个实验中的超参数，而非优化的参数，通过实验多种超参数的方案，选择最优方案。

其次，该目标函数包括了两个对比学习模型，分别是同一轨迹的对比学习目标SSCL和不同轨迹的对比学习目标DSCL，这两种对比学习理想的优化目标在某些样本中可能是冲突的。对于SSCL，最理想的优化目标是t时刻的隐状态z_t与t时刻的o_t的相似度为1，而z_t与其他时刻的观测值相似度为0；对于DSCL，其最理想的情况是t时刻的z_t与若干个时刻的观测值o_t的相似度之和为1，而z_t与其他的观测值o_t的相似度为0。由于从抽象来说，o_t和z_t也是一对正样本，因此SSCL本质上是状态抽象的一种特殊情况。实际中，由于建模相似度总是大于0的，因此很难实现理想的优化目标，为了缓解优化目标可能出现的冲突，本发明的方法将SSCL和DSCL分别建模为两个网络，即不共享参数，对应不同的优化目标。算法流程图如附图2所示。

为了验证ACRL算法的性能，本发明实施例首先介绍公开环境任务的相关参数，且在无噪声的环境基础上添加自然视频背景来增大任务的难度；其次，详细介绍实验平台、算法参数设计、网络结构、评价指标等；然后，对比算法为近两年机器学习顶级学术会议的两种算法，完成了ACRL算法和这两种算法的对比实验，在较为简单的公开任务上面，ACRL算法优于其他算法。最后，附图对ACRL算法的创新点通过实验加以分析，进一步证明了ACRL算法在公开任务环境中的优异性。

最后，附图4-6为本发明实验效果的展示。图4为噪声背景下5个环境中的实验结果以及无噪声背景下的5个环境中的实验结果；图5为十个实验环境的结果直观展示；图6为算法在自动驾驶任务以及panda reach任务上的测试示意图。

如图7所示，本发明提供一种基于模型强化学习的智能体路径规划系统，主要包括：

获取模块，用于获取智能体与环境交互的轨迹图像；

构建求解模块，用于将抽象学习和模型学习相结合构建带约束的智能体路径规划优化目标模型；再基于KKT条件通过引入超参数构建联合损失函数；将投影后的样本输入联合损失函数中进行求解得到智能体路径规划。

本发明第三方面是提供一种电子设备，包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现所述计及多互动功能时延特性的基于模型强化学习的智能体路径规划方法的步骤。

本发明第四方面是提供一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，所述计算机程序被处理器执行时实现所述计及多互动功能时延特性的基于模型强化学习的智能体路径规划方法的步骤。

本领域内的技术人员应明白，本发明的实施例可提供为方法、系统、或计算机程序产品。因此，本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

最后应当说明的是：以上实施例仅用以说明本发明的技术方案而非对其限制，尽管参照上述实施例对本发明进行了详细的说明，所属领域的普通技术人员应当理解：依然可以对本发明的具体实施方式进行修改或者等同替换，而未脱离本发明精神和范围的任何修改或者等同替换，其均应涵盖在本发明的权利要求保护范围之内。

Claims

1.一种基于模型强化学习的智能体路径规划方法，其特征在于，包括：

获取智能体与环境交互的轨迹图像；

2.根据权利要求1所述的基于模型强化学习的智能体路径规划方法，其特征在于，所述获取智能体与环境交互的轨迹图像，包括：

智能体与环境交互分别得到两段轨迹图像，分别是

和

分别表示第j个轨迹的时刻i的隐状态；

定义一个集合φ_o＝{(o_i，o_j)|o_i，o_j∈O，o_i～p(o_j)，o_j～p(o_j)，其中，/>是将观测值映射到隐状态空间的编码器，p(o_t)＝p(o_t|o＜t，a＜t)表示根据t时刻之前的观测值和动作得到的t时刻的观测值的分布，O是观测值空间，φ₀表示观测值空间O中映射到同一个隐状态的观测值对的组合的全体集合，任意(o_i，o_j)∈φ_o，其对应的隐状态z_i与z_j相同；给定一个t时刻的观测值o_t～p(o_t)及对应的隐状态z_t∈Z，定义一个集合ψ(z_t)＝{o_j|(o_i，o_j)∈φ_O}表示所有映射到z_t的观测值的集合。

3.根据权利要求1所述的基于模型强化学习的智能体路径规划方法，其特征在于，所述将轨迹图像中隐状态作为抽象状态，依照样本的回报大小划分正负样本，包括：

4.根据权利要求1所述的基于模型强化学习的智能体路径规划方法，其特征在于，所述正负样本之间通过对比学习，使得正样本投影到同一隐状态，负样本投影到不同隐状态，得到投影后的样本，包括：

5.根据权利要求1所述的基于模型强化学习的智能体路径规划方法，其特征在于，所述智能体路径规划优化目标模型包括四个子模型：

第一个是基于损失函数L_RR的重建奖励值模型p_θ(r_t|_t)，该模型由隐状态解码出奖励值的概率分布；

6.根据权利要求1所述的基于模型强化学习的智能体路径规划方法，其特征在于，所述将抽象学习和模型学习相结合构建带约束的智能体路径规划优化目标模型，包括：

max log p(o_0:H-1，r_0:H-1|a_0:H-1)

式中，a_0:H-1代表0:H-1的行为集合，r_0:H-1代表奖励集合，o_0:H-1代表观测值集合；∈代表约束的常量值，f_θ(o_j，z_t)是一个非负函数，其作用是衡量隐状态z_t和观测值o_j的相似度；为常量。

7.根据权利要求1所述的基于模型强化学习的智能体路径规划方法，其特征在于，所述再基于KKT条件通过引入超参数构建联合损失函数，包括：

基于KKT条件构建拉格朗日函数，其中β>0是抽象目标的正则项系数，最大化L的优化目标转化为最大化其下界：

式中，参数β>0是抽象目标的正则项系数；p_θ(r_t|z_t)代表奖励值模型；代表常量(已知观测值O和行为轨迹a的情况下得到隐状态z的概率期望；f_θ(o_t，z_t)一个函数代表观测值o_t与隐状态z_t的相似度；/>代表下一状态轨迹的相似度求和。

8.一种基于模型强化学习的智能体路径规划系统，其特征在于，包括：

获取模块，用于获取智能体与环境交互的轨迹图像；

9.一种电子设备，其特征在于，包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现权利要求1-7任一项所述基于模型强化学习的智能体路径规划方法的步骤。

10.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质存储有计算机程序，所述计算机程序被处理器执行时实现权利要求1-7任一项所述基于模型强化学习的智能体路径规划方法的步骤。