CN116353623A

CN116353623A - 一种基于自监督模仿学习的驾驶控制方法

Info

Publication number: CN116353623A
Application number: CN202211552569.XA
Authority: CN
Inventors: 礼欣; 臧宏宇; 刘晨; 袁燕; 黄杰
Original assignee: Beijing Institute of Technology BIT
Current assignee: Beijing Institute of Technology BIT
Priority date: 2022-12-05
Filing date: 2022-12-05
Publication date: 2023-06-30

Abstract

本发明涉及一种基于自监督模仿学习的驾驶控制方法，属于自动驾驶强化学习技术领域。包括：生成自动驾驶任务数据集；确定所述观测图像中锚节点的t时刻潜在表示，及与所述锚节点相关样本的潜在表示；将潜在空间中小于t时刻的潜在表示z_≤t进行整合，产生所述t时刻上下文潜在表示c_t；利用密度比器保留t+k时刻的观测图像s_t+k和所述c_t之间的有效信息；将不同自动驾驶场景观测图像经由训练好的编码器后计算代价函数，所述代价函数更新后传入到模仿学习目标公式中进行策略网络的更新。本发明能够通过降维映射来缓解高维数据学习策略中所面临的维度灾难，提取图像观测数据中与任务相关性更强的高密度信息，提升模型样本的采样效率。

Description

一种基于自监督模仿学习的驾驶控制方法

技术领域

本发明涉及一种基于自监督模仿学习的驾驶控制方法，属于自动驾驶强化学习技术领域。

背景技术

作为人工智能的一个重要组成部分，强化学习(Reinforcement Learning，RL)模拟人类处理现实生活中序列决策问题的一般思考方法，它采用让智能体不断与其所处的环境进行互动的学习方式，使智能体得到环境的反馈后做出一连串的动作，以实现最大化的整体收益。随着深度学习的发展，强化学习被广泛应用于许多学术问题和实际的商业决策任务中，并且取得了比监督学习等其他算法更好的效果。强化学习旨在通过设计一种计算范式，使得智能体具有与人类相似的学习过程和能力。强化学习不是简单地以函数输入输出的方式拟合训练数据的映射，而是建立一种可以帮助智能体通过执行动作完成其目标的方法。强化学习是一种目标导向的算法，学习如何完成一个复杂的目标或者如何最大化某个特定的度量。智能体感知环境，并通过强化学习算法处理数据，然后采取行动尝试完成预定义的目标，这与我们日常生活中的行为模式相似。

模仿学习是强化学习领域的一个重要的分支，也被称为示范学习，它通过相对简单的方法模仿示范行为做出反应，提取有用的知识，在类似演示的环境中重现行为，最终让智能体能够像“专家”一样进行决策。模仿学习在现实场景中表现出良好的策略训练效率，有助于人们研究自主控制系统和设计人工智能智能体。事实上，在20世纪80年代末，卡内基梅隆大学的Pomerleau教授已经利用人类专家示例成功地训练一个浅层神经网络控制无人车穿越北美洲。第一个打败人类顶尖选手的机器人AlphaGo，也用到模仿学习方法对人类棋谱进行学习。

模仿学习的一个重要应用场景为自动驾驶任务，在自动驾驶任务中，智能体的观测包含了丰富的环境信息(如天气情况、路旁建筑信息等)，智能体难以将观测图像内的复杂信息与决策控制直接关联。因此，强化学习智能体从观测中学习如何执行复杂控制任务的重要技术，需要使用深度神经网络提取关键信息。其中一种直观基本方法是使用卷积神经网络从原始像素学习。然而据经验观察，使用传统深度神经网络从高维观测中进行强化学习的样本效率较低。如果状态信息存在于像素数据中，那么原则上可以通过学习提取状态的表示来提取相关的信息。因此，结合表征学习的强化学习方法尤为重要。

现有的模仿学习方法可以被分为两类。一类是传统的含有动作信息模仿学习方法，例如行为克隆，GAIL等，其中专家轨迹由多个状态-动作对组成，它们通常是物理状态形式。这类方法的主要思路为最小化生成策略和专家策略的动作差异，不过这种方法缺少处理高维输入的模块，如果要在高维环境中使用GAIL方法，则需要对其鉴别器的结构进行重大更改，以便处理原始视觉数据，所以此类方法无法在基于像素的高维环境中学习。另一类是不含动作信息的模仿学习方法，例如从观测中的行为克隆，从观测中对抗生成模仿学习等，其中专家轨迹中只含观测信息，不含动作信息。此类方法处理高维输入的方式主要采用卷积神经网络或者生成模型，这样获取状态表征的方法就会面临样本效率较低的问题。

发明内容

本发明的目的在于提供一种基于自监督模仿学习的驾驶控制方法，以缓解高维数据学习策略中所面临的维度灾难，以及提取图像观测数据中与任务相关性强的上下文信息，进而提升模型样本的采样效率。

本发明提供了一种基于自监督模仿学习的驾驶控制方法，包括如下步骤：

生成自动驾驶任务专家策略数据集，所述数据集中包括智能体专家策略的观测图像；

将数据集中锚节点t时刻观测图像s_t经数据增强后输入到跨步卷积层的非线性编码器g_enc中，得到的所述锚节点潜在表示z_t=g_enc(s_t)；

将数据集中所述锚节点相关样本即t+k时刻的观测图像s_t+k，采用不同随机块，经过与所述锚节点同类型的数据增强方法得到的图像数据，输入到跨步卷积层的非线性编码器g_enc中，得到所述相关样本的潜在表示z_t+k＝g_enc(s_t+k)；

将潜在空间中小于t时刻的潜在表示z_≤t进行整合，产生所述t时刻上下文潜在表示c_t＝g_ar(z_≤t)，用所述c_t提取所述s_t相关上下文信息，其中，g_ar为自回归模型；

利用密度比器保留t+k时刻的观测图像s_t+k和所述c_t之间的有效信息，利用所述z_t+k的逆向量

采用基于对比学习的方法训练编码器，无监督地学习高维观测到低维特征的映射；

将不同自动驾驶场景观测图像经由训练好的编码器后计算代价函数，所述代价函数通过专家策略、策略网络及策略正则项更新后，传入到模仿学习目标公式中进行策略网络的更新，学习控制策略。

本发明还提供了一种基于模仿学习的驾驶控制系统，所述驾驶控制系统采用前述方法，包括如下模块：

环境建模模块，基于开源自动驾驶模拟器Carla平台进行驾驶控制应用与验证，所述平台的模拟器为仿真环境主体；

动作建模模块，用于对智能体决策动作进行建模；

模仿学习模块，给定由专家策略收集好的智能体与环境交互的驾驶数据，将驾驶观测数据输入非线性编码器g_enc，获取观测的锚节点及锚节点相关样本的潜在表示低维向量，利用密度比器保留t+k时刻的观测图像s_t+k和所述c_t之间的有效信息，将不同自动驾驶场景观测图像经由训练好的编码器后计算代价函数，所述代价函数通过专家策略、策略网络及策略正则项、更新后，传入到模仿学习目标公式中进行策略网络的更新，在测试过程中，将该智能体放入所述自动驾驶模拟器Carla平台中进行策略评估，将智能体观测图像输入到所述更新后的策略网络内，获取智能体得到的决策动作作为所述智能体输出；

环境响应模块，所述智能体根据当前时刻输入的驾驶场景观测，利用模仿学习模块及动作建模模块选择决策动作，并根据所述决策动作输出响应信息，根据得到的最终奖励函数值大小确定智能体有效性。

本发明还提供了一种电子设备，所述电子设备包括：

至少一个处理器；以及，

与所述至少一个处理器通信连接的存储器；其中，所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行前述的方法。

本发明还提供了一种非暂态计算机可读存储介质，所述非暂态计算机可读存储介质存储计算机指令，所述计算机指令用于使该计算机执行前述方法。

有益效果：

本发明通过基于自监督的对比学习模块将高维图像观测数据映射为低维矢量特征，首先对图像数据采用数据增强方式进行预处理，以此间接增强所得状态表征的鲁棒性，其次引入上下文编码表示提取该观测的上下文信息，并将密度比融入对比学习损失函数，进行状态表征编码器的训练。本发明采用的获取状态表征的方法，一方面能够通过降维映射来有效缓解高维数据学习策略中所面临的维度灾难，即维度上升导致在高维空间内样本数据过于稀疏，导致性能变差的问题，另一方面能够提取图像观测数据中与任务相关性更强的上下文信息，进而提升模型样本的采样效率。

附图说明

图1为本发明实施例的驾驶控制方法模型的整体框架图；

图2为本发明实施例驾驶控制方法流程示意图；

图3为本发明实施例编码器自监督训练示意图；

图4为本发明实施例代价函数更新示意图；

图5为本发明实施例自动驾驶控制任务模拟环境示例图。

具体实施方式

为了介绍本发明，先介绍需要使用的变量及其数学表示：

强化学习中的智能体是在马尔科夫决策过程的框架M中，使用6元组来表示其中的元素M＝{S,A,Z,T,c,γ},其中S和A分别表示该框架的状态空间和动作空间，s、a分别为S和A中的元素。Z表示状态空间经过编码器映射后的隐空间，z为Z中的元素。在本发明实施例中，部署三个相同传感器于智能体控制车辆中，每个传感器都具有60度的水平视野，分别可以观测到正前方、左前方、右前方的图像数据，因此该智能体能够接收到3幅图像作为其状态输入；智能体使用PID控制器(proportional-integral-derivative control,比例积分微分控制)实现驾驶决策动作，主要包括三种控制操作：即转向、油门和制动。T(s_i+1,∣s_i,)表示状态转移函数，表示智能体在状态s_i采取动作a后转移到状态s_i+1的概率，在自动驾驶场景下，表示智能体通过观测当前传感器输出，经由PID控制器实施驾驶动作后的转移概率分布。c是代价函数，表示智能体在给定状态下采取动作所能获得的即时反馈。γ是折扣因子，用来表明未来情况下的奖励对当前的影响系数。智能体的行为可以用一个策略函数来描述:π:S→A，表示智能体在特定状态下应该执行的动作，即动作上的分布。使用

表示一项策略产生的所有轨迹的期望。

本发明的目的是通过以下技术方案实现的：

将数据集中锚节点t时刻观测图像s_t经数据增强后输入到跨步卷积层的非线性编码器g_enc中，得到的所述锚节点潜在表示z_t＝g_enc(s_t)；

本发明的思想是使用辅助自监督任务来加速无模型强化学习方法的学习进度，基于自监督的表征学习方法，从高维驾驶环境的观测中学习驾驶中的图像信息的低维表示，其目标是在学习专家演示表示的同时，捕获专家轨迹中存在的潜在序列关系，为下游驾驶任务提供便利。首先采用对比预测编码的表征学习方法，利用现有的专家轨迹学习到可以提取高维观测特征的编码器，然后通过提取的表征得到尽可能接近真实的代价函数，最终用学习到的代价函数迭代得到高质量的策略网络，以学习控制策略，得到高鲁棒性的驾驶控制策略。

图1为驾驶控制方法模型的整体框架图，基于自监督学习的模仿学习方法先从专家轨迹中采样一批轨迹，然后使用编码器对其进行编码。编码得到表示传递给对比学习模块进行梯度更新，训练得到可以提取高维特征的编码器，最后将低维表征传递给策略网络学习控制策略。图2为本发明实施例驾驶控制方法流程示意图。

参考图1～图5，本发明一个优选实施例，包括以下步骤：

步骤一、保证覆盖大部分驾驶路线的情况下，定义良好的自动驾驶控制器能够保证车辆稳定性及面临各种复杂情形的鲁棒性。通过手动编码控制器保证智能体在避免与其他车辆碰撞的同时连续行驶，所述手动编码控制器由手工设计的通过硬编码方式模拟人类操纵车辆的控制器构成，将所述手动编码控制器定义为专家策略。

步骤二、利用所述专家策略对自动驾驶场景轨迹进行采集，生成情况复杂的自动驾驶任务数据集，所述专家策略根据当前场景下观测图像作为输入，获取采取控制动作，并将所收集到的轨迹标记为专家轨迹，加入到专家数据集D_E中，以便智能体进行训练；所述专家数据集D_E包括所述专家策略生成的智能体的观测图像序列，其中所述观测图像为大小为(48,48,3)的RGB图像，总数据集为10万条观测数据，所述观测图像的大小、类型及数量可根据具体场景进行调整，不作为本发明实施例的限制。

步骤三、确定自动驾驶所述观测图像中自监督学习的锚节点(即anchor，也称锚定节点)的潜在表示以及锚节点相关样本的潜在表示。在本方法中，首先采样锚节点t时刻的自动驾驶观测图像数据s_t，将数据集中锚节点t时刻观测图像s_t经数据增强后输入到跨步卷积层的非线性编码器g_enc中，得到的所述锚节点潜在表示z_t＝g_enc(s_t)；将数据集中所述锚节点相关样本即t时刻之后k时间段时刻的观测图像s_t+k，采用不同随机块，经过与所述锚节点同类型的数据增强方法得到的图像数据，输入到跨步卷积层的非线性编码器g_enc中，得到所述相关样本的潜在表示z_t+k＝g_enc(s_t+k)。就数据增强而言，一般有几种公认解决方案，如：翻转，即对整张图片进行水平和垂直翻转，或进行水平与垂直翻转进行组合；旋转，对整张图片进行角度旋转；裁剪，从图像中剪切出一部分；移位，沿水平或垂直方向对图像进行平移等。考虑到对于强化学习而言，图像中存在冗余信息与策略控制无关，因此对于本发明中样本涉及到的数据增强方式，采用随机裁剪的方法实现数据增强，即从原始图像观测中随机裁剪一固定大小的矩形子图作为数据增强后的图像数据，需注意虽然锚节点以及锚节点相关样本所涉及的两种数据增强方式均为随机裁剪，但由于随机裁剪块位置不同因而有所差异。

步骤四、如图3所示，在一条自动驾驶专家轨迹τ^*＝{s_0,s₁,…,s_t…,s_T}中，其中s_t代表t时刻智能体与环境交互得到的观测,t∈[0,T]。由于观测为图像数据，其包含了决策相关信息，同时包含了决策无关的环境信息，本发明考虑使用带Resnet块的跨步卷积层的非线性编码器g_enc将所述s_t经数据增强后的图像映射到潜在表示z_t＝g_enc(s_t)；考虑到图像时序信息往往对决策有重要影响，本模型使用基于PixelCNN模块的自回归模型g_ar将所有在潜在空间中小于t时刻的表示z_≤t进行整合，产生上下文潜在表示c_t＝g_ar(z_≤t)，以此提取驾驶图像内有效信息。该自回归模型将整个轨迹考虑为服从某一数据分布，因此建模为

并根据最大似然对自回归模型进行网络训练。其中，PixelCNN模块由7x7的掩码卷积层，后接多个由1x1卷积层、3x3掩码卷积层、1x1卷积层所构成的残差模块，再接2个1x1掩码卷积层，最后接一个采用1x1卷积层结合softmax激活层构成的预测层组成。

步骤五、现有技术方案在针对当前观测与上下文信息的关联关系建模时，往往忽略了当前观测的上下文与未来短期内观测所得状态特征的相关信息，本发明通过步骤四获得所述上下文潜在表示c_t后，考虑利用密度比器来保留t+k时刻的观测图像S_t+k和所述c_t之间的有效信息，以学习编码器网络。所述密度比建模为：

其中，符号“∝”表示成正比例，p(s_t+k|c_t)为所述c_t下观测到所述s_t+k的概率分布，p(s_t+k)为观测到所述s_t+k的先验概率分布，W_k是需要学习的编码器的权重，每k步使用不同的W_k来进行表示预测，

为所述z_t+k的逆向量。

步骤六、为了充分提取观测信息，将高维观测空间映射到更具语义信息的潜在表示空间，一般采用表征学习方法进行特征提取。常见的表征学习方法有基于聚类的方法，即将相似的高维观测通过聚类算法进行聚合，将不相似的高维观测进行拆散；基于重构的方法，即通过自编码器等结构将高维图像映射为低维表示，再用低维表示重构回高维图像；基于对比学习的方法，即通过数据增强方式将图像输入到InfoNCE等损失函数中，无监督地学习高维观测到低维特征的映射。考虑到基于聚类方法复杂度较高，基于重构的方法其应用效果往往较差，本发明的一个优选实施例考虑使用基于InfoNCE损失函数的对比学习方法进行训练。具体而言，给定t时刻时，X＝(s_1,s₂,…,s_N)，一组N个随机样本为一个批次。对于该批次样本而言，定义损失函数：

其中，E表示期望值，log函数内分子部分为所述上下文潜在表示c_t与所述t+k时刻的观测图像s_t+k所对应的密度比；log函数内分母部分为所述c_t与当前批次内所有样本s_j∈X所对应的密度比的和。

结合损失函数

对编码器进行梯度下降优化：

其中，α为梯度更新的学习率。

步骤七、上述步骤中，已经考虑到面向高维环境时，时序观测数据与上下文潜在表示之间的语义信息。考虑到面向高维环境观测时，不同自动驾驶场景观测之间的时序关系也蕴含丰富的语义信息，这种语义信息可以通过对当前观测与下一观测之间的潜在表示进行建模来提取。针对该问题，现有技术中往往考虑通过加入权重矩阵进行建模或者直接将二者潜在表示通过相加或拼接方式进行整合。与现有方案不同，本发明实施例中，定义代价函数c:Z×Z→R,所述代价函数c的更新公式为：

其中，π_E为收集轨迹中的专家策略，Π为智能体学习的策略网络的整个可行空间，π为当前智能体学习的策略网络，其输入为当前状态编码后的表示，输出为当前智能体所采取的动作，Ψ(c)为策略正则项，用于额外为代价函数提供约束条件，辅助代价函数训练。c(g_enc(s),g_enc(s^′))表示代价函数，参数化为一个神经网络。其输入为两个不同的观测图像数据s和s′经过编码器后得到的结果，输出表示代价函数值。E_π[c(g_enc(s),g_enc(s^′))]表示依据策略网络π构成轨迹数据，并从轨迹数据中采样两个不同的观测图像s和s′，将两个观测图像经由编码器编码后计算所述代价函数的期望，

表示依据专家策略π_E构成轨迹数据，并从轨迹数据中采样两个不同的观测图像s和s′，将两个观测图像经由编码器编码后计算所述代价函数的期望。

在本发明的一个优选实施例中，所述Ψ(c)为：

其中，

表示在专家策略π_E构成轨迹数据上采样两个不同的观测图像s和s′，将两个观测图像经由编码器编码后计算所述代价函数后，再经过公式g得到的结果。

根据上述步骤，进行模仿学习目标公式定义为：

其中，

为策略网络π下的状态访问频率，/>

为专家策略π_E下的状态访问频率。E_π[log(c(g_enc(s),g_enc(s^′)))]表示依据策略网络π构成轨迹数据，并从轨迹数据中采样两个不同的观测图像s和s′，经过编码器编码后输入到所述代价函数c中，计算其值对数期望。

表示依据专家策略π_E构成轨迹数据，并从轨迹数据中采样两个不同的观测图像s和s′，经过编码器编码后输入到所述代价函数c中，计算其与1之间差值的对数期望值。收集的专家数据集为D_E，更新过程中使用的专家轨迹为从数据集D_E中采样的结果，即/>

其中/>

表示专家轨迹，对所述目标公式进行计算与反向传播，更新策略网络。

如图4为本发明实施例代价函数更新示意图，专家策略与策略网络首先生成数据样本集合D_E与D，然后数据样本集合通过所述代价函数更新公式进行代价函数更新，并将更新后的所述代价函数结果传入到模仿学习目标公式中进行策略网络的更新。策略网络的输出即为智能体所得最终策略。

所述智能体策略网络的训练过程为：构建自动驾驶智能体虚拟控制器训练架构；所述自动驾驶智能体虚拟控制器训练架构包括专家策略数据集、智能体策略网络、编码器网络、数据处理模块。其中，所述专家策略数据集内存储有经专家策略运行采样出的驾驶观测图像；所述数据处理模块对所述驾驶观测图像进行预处理，所述预处理为对观测图像进行数据增强，本发明实施例优选随机裁剪的数据增强方式；所述编码器网络将高维图像观测映射为低维特征表示，并后续将该低维特征表示输入给智能体策略网络；所述智能体策略网络接收状态特征表示信息并给出具体动作，与编码器网络一同利用专家策略数据集进行迭代训练策略网络参数，得到高鲁棒性的最终策略。

在本发明的一个优选实施例中，采用上述方法，搭建了一种基于模仿学习的驾驶控制系统，包括如下组成：

环境建模模块，基于开源自动驾驶模拟器Carla平台进行驾驶控制应用与验证，该平台的模拟器为仿真环境主体，参考图5，在真实的汽车驾驶环境中的实体都与模拟器内实体具有对应关系，包括：车辆，行人，路桥，信号灯，指示牌，天气，建筑等等，模拟器目的是实现真实物理世界，该引擎提供不同传感器用以装配在车辆的各个位置，以此进行数据收集和智能体决策训练。确定车辆运动学模型，具体为利用车辆行驶及碰撞的动力学方程对车辆运行过程进行建模，得到其运动学模型。本仿真环境考虑测试场景为天气可能发生变化的高速公路上，因此雨天中车辆与地面的摩擦系数等也予以考量。

动作建模模块，用于对智能体决策动作进行建模，其中，我们使用PID控制器实现所述决策动作，主要包括三种控制操作：即转向、油门和制动；

环境响应模块，所述智能体根据当前时刻输入的驾驶场景观测，输入所述模仿学习模块得到的更新后的策略网络，利用模仿学习模块及动作建模模块选择决策动作；根据所述决策动作输出响应信息，其中，所述响应信息包括下一帧环境观测和当前决策动作的奖励值。考虑在高速公路驾驶场景下，将其奖励值定义为与速度及碰撞程度相关的公式，即为：

其中，V_ego为控制车辆的速度矢量，映射到高速公路的单位矢量

上，乘以离散化后的时间Δt=0.05来评估在高速公路上智能体的行驶速度。通过impulse，即碰撞指数，以牛顿·秒为单位，衡量碰撞程度。最后，该式增加了对车辆转向steer的惩罚，以保证车辆能尽可能避免转向。该式中λ_i与λ_s分别为对应项的权重系数，是用户指定的超参数。

根据所述车辆运动学模型和所述奖励函数组成运行仿真环境。在测试过程中，将该智能体放入自动驾驶引擎平台中进行策略评估，将架式引擎中智能体观测图像输入到深度模仿学习框架内，获取智能体得到的决策动作作为所述智能体输出，根据前述步骤进行智能体与决策环境交互，根据得到的最终奖励函数值大小确定智能体有效性，评估智能体的驾驶能力与表现。

总体而言，模仿学习模块利用训练数据进行智能体策略更新，完成更新后结合动作建模模块参与到智能体与环境交互过程中，每次在基于当前智能体对环境建模模块的观测后给出决策动作，并将该决策动作与环境观测输入到环境响应模块中，环境响应模块根据动力学模型及奖励函数构成的仿真环境反馈给智能体，评估智能体表现。

以上详细描述了本发明的较佳具体实施例。应当理解，本领域的普通技术无需创造性劳动就可以根据本发明的构思作出诸多修改和变化。因此，凡本技术领域中技术人员依本发明的构思在现有技术的基础上通过逻辑分析、推理或者有限的实验可以得到的技术方案，皆应在本发明所确定的保护范围内。

Claims

1.一种基于自监督模仿学习的驾驶控制方法，其特征在于，包括以下步骤：

将数据集中所述锚节点相关样本即t+k时刻的观测图像s_t+k，采用不同随机块，经过与所述锚节点同类型的数据增强方法得到的图像数据，输入到跨步卷积层的非线性编码器g_enc中，得到所述相关样本的潜在表示z_t+k＝g_ennc(s_t+k)；

2.如权利要求1所述的基于自监督模仿学习的驾驶控制方法，其特征在于，所述锚节点、锚节点相关样本均采用随机裁剪的方法实现数据增强，即从原始图像观测中随机裁剪一固定大小的矩形子图作为数据增强后的图像数据。

3.如权利要求1所述的基于自监督模仿学习的驾驶控制方法，其特征在于，所述密度比器建模为：

为所述z_t+k的逆向量。

4.如权利要求3所述的基于自监督模仿学习的驾驶控制方法，其特征在于，

给定t时刻时，X＝(s₁，s₂，...，s_N)，一组N个随机样本为一个批次，对于该批次样本而言，定义损失函数

其中，E表示期望值，log函数内分子部分为所述上下文潜在表示c_t与所述s_t+k所对应的密度比；log函数内分母部分为所述c_t与当前批次内所有样本s_j∈X所对应的密度比的和；

结合所述损失函数

对编码器进行梯度下降优化：

其中，α为梯度更新的学习率。

5.如权利要求1所述的基于自监督模仿学习的驾驶控制方法，其特征在于，

定义代价函数c：Z×Z→R，Z表示状态空间经过编码器映射后的隐空间，所述代价函数c的更新公式为：

其中，π_E为收集轨迹中的专家策略，Π为智能体学习的策略网络的整个可行空间，π为当前智能体学习的策略网络，其输入为当前状态编码后的表示，输出为当前智能体所采取的动作，Ψ(c)为策略正则项，用于额外为代价函数提供约束条件，辅助代价函数训练，c(g_enc(s)，g_enc(s′))表示代价函数，参数化为一个神经网络，其输入为两个不同的观测图像数据s和s′经过编码器后得到的结果，输出表示代价函数值，E_π[c(g_enc(s)，g_enc(s′))]表示依据策略网络π构成轨迹数据，并从轨迹数据中采样两个不同的观测图像s和s′，将两个观测图像经由编码器编码后计算所述代价函数的期望，

6.如权利要求5所述的基于自监督模仿学习的驾驶控制方法，其特征在于，所述策略正则项Ψ(c)表示为：

其中，

7.如权利要求6所述的基于自监督模仿学习的驾驶控制方法，其特征在于，所述模仿学习的目标公式定义为：

其中，

为策略网络π下的状态访问频率，/>

为专家策略π_E下的状态访问频率，E_π[log(c(g_enc(s)，g_enc(s′)))]表示依据策略网络π构成轨迹数据，并从轨迹数据中采样两个不同的观测图像s和s′，经过编码器编码后输入到所述代价函数c中，计算其对数期望值值，

表示依据专家策略π_E构成轨迹数据，并从轨迹数据中采样两个不同的观测图像s和s′，经过编码器编码后输入到所述代价函数c中，计算其与1之间差值的对数期望值值。

8.一种基于模仿学习的驾驶控制系统，其特征在于，包括如下模块：

动作建模模块，用于对智能体决策动作进行建模；

模仿学习模块，给定由专家策略收集好的智能体与环境交互的驾驶数据，将驾驶观测数据输入非线性编码器g_enc，获取观测的锚节点及锚节点相关样本的潜在表示低维向量，利用密度比器保留t+k时刻的观测图像s_t+k和所述c_t之间的有效信息，将不同自动驾驶场景观测图像经由训练好的编码器后计算代价函数，所述代价函数通过专家策略、策略网络及策略正则项更新后，传入到模仿学习目标公式中进行策略网络的更新，在测试过程中，将该智能体放入所述自动驾驶模拟器Carla平台中进行策略评估，将智能体观测图像输入到所述更新后的策略网络内，获取智能体得到的决策动作作为所述智能体输出；

9.一种电子设备，其特征在于，所述电子设备包括：

至少一个处理器；以及，

与所述至少一个处理器通信连接的存储器；其中，所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行前述任一权利要求1-7所述的方法。

10.一种非暂态计算机可读存储介质，其特征在于，所述非暂态计算机可读存储介质存储计算机指令，所述计算机指令用于使该计算机执行前述权利要求1-7任一项所述的方法。