CN112099496A

CN112099496A - 一种自动驾驶训练方法、装置、设备及介质

Info

Publication number: CN112099496A
Application number: CN202010934770.9A
Authority: CN
Inventors: 李仁刚; 赵雅倩; 李茹杨; 李雪雷; 金良
Original assignee: Suzhou Inspur Intelligent Technology Co Ltd
Current assignee: Suzhou Inspur Intelligent Technology Co Ltd
Priority date: 2020-09-08
Filing date: 2020-09-08
Publication date: 2020-12-18
Anticipated expiration: 2040-09-08
Also published as: WO2022052406A1; CN112099496B

Abstract

本申请公开了一种自动驾驶训练方法、装置、设备及介质，包括：获取当前时刻的交通环境状态以及对应的结构化噪声；所述结构化噪声为基于历史数据确定出的结构化噪声，所述历史数据为在对自动驾驶车辆进行预训练的过程中保存的数据，并且，所述历史数据包括历史动作信息以及历史交通环境状态信息；通过策略网络利用所述交通环境状态以及所述结构化噪声确定出对应的执行动作；控制所述自动驾驶车辆执行所述执行动作；通过评价网络根据所述执行动作对所述策略网络的策略进行评价，得到对应的回报；基于所述回报通过反向传播运算更新评价网络参数；利用策略梯度算法更新策略网络参数。能够提升自动驾驶训练的稳定性，从而降低危险事故的发生概率。

Description

一种自动驾驶训练方法、装置、设备及介质

技术领域

本申请涉及自动驾驶技术领域，特别涉及一种自动驾驶训练方法、装置、设备及介质。

背景技术

现代城市交通中，机动车数量日益增多，道路拥堵情况严重，且交通事故频发。有研究表明，每个人一生中因交通拥堵导致的时间浪费长达3年，而90％的交通事故由人为操作失误或错误造成。为最大程度降低人为因素造成的危害，人们将目光转向自动驾驶领域。根据驾驶员在车辆行驶过程中的参与度大小，将自动驾驶由低到高分为Level-0至Level-5共6个级别，即人类驾驶员驾驶、辅助驾驶、部分自动驾驶、条件自动驾驶、高度自动驾驶和完全自动驾驶。目前，主流自动驾驶企业或项目普遍达到Level-3级别。自动驾驶是一项十分复杂的集成性技术，涵盖车载传感器、数据处理器、控制器等硬件装置，并需要现代移动通信与网络技术作为支撑，以实现车辆、行人和非机动车等交通参与者之间的信息传递与共享，完成在复杂环境下的传感感知、决策规划和控制执行等功能，实现车辆的自动加速/减速、转向、超车、刹车等操作，保证行车安全。参见图1所示，本图1为本申请实施例提供的一种自动驾驶车辆控制架构示意图。

基于模拟器环境进行自动驾驶系统计算机仿真是自动驾驶车辆测试和试验的基础关键技术，能够有效保证上自动驾驶车辆的安全性，以及加速自动驾驶研究应用。现有的自动驾驶仿真主要分为两类，即模块化方法(Modular Pipeline)和端到端方法(End-to-End Pipeline)。参见图2所示，图2为本申请提供的现有技术中的一种模块化方法示意图，将自动驾驶系统分解成几个独立但互相关联的模块，如感知(Perception)、本地化(Localization)、规划(Planning)和控制(Control)模块，具有良好的可解释性，在系统发生故障时能快速定位到问题模块，是现阶段业界广泛使用的常规方法。然而，系统的模块化构建和维护困难大，在面对新的复杂场景时不易更新。参见图3所示，图3为本申请提供的现有技术中的一种端到端方法示意图，端到端方法将自动驾驶问题视为一个机器学习问题，直接优化“传感器数据处理-生成控制命令-执行命令”的整个流程。端到端的方法搭建简单，在自动驾驶领域获得快速发展，但方法本身也是一个“黑盒”，解释性差。端到端的方法也有2种形式，分别是Open-loop的模仿学习方法和Closed-loop的强化学习方法。参见图4所示，图4为本申请提供的现有技术中的一种Open-loop的模仿学习方法示意图。Open-loop的模仿学习方法通过模仿人类驾驶员的行为，以监督学习的方式学会自动驾驶，强调一种“预测能力”，图5为本申请提供的现有技术中的一种Closed-loop的强化学习方法示意图，Closed-loop的强化学习方法，借助马尔科夫决策过程(MDP，Markov Decision Process)从头开始探索和改进自动驾驶策略，强调一种“驾驶能力”。强化学习(RL，ReinforcementLearning)是近年来快速发展的一类机器学习方法，其中的智能体(Agent)-环境(Environment)交互作用机制和序列决策机制接近于人类学习的过程，因此也被称为实现“通用人工智能(AGI，Artificial General Intelligence)”的关键步骤。结合深度学习(DL，Deep Learning)的深度强化学习(DRL，Deep Reinforcement Learning)算法能够自动学习大规模输入数据的抽象表征，决策性能更加优秀，已经在电子游戏、机械控制、广告推荐、金融交易、城市交通等领域获得了广泛应用。

DRL应用于自动驾驶问题时不需要领域专家知识，也不需要建立模型，具有较为广泛的适应性，能够应对不断变化的复杂道路环境。然而，基于DRL的自动驾驶车辆从头开始学习自动驾驶，序列决策过程中选取较差动作的步骤会导致训练方差较大，体现为车辆行驶不平稳，甚至出现冲出车道、碰撞等事故。现有研究成果表明，相比模块化方法和Open-loop的模仿学习方法，基于DRL的自动驾驶训练的稳定性最差，并且对环境、天气变化十分敏感。

发明内容

有鉴于此，本申请的目的在于提供一种自动驾驶训练方法、装置、设备及介质，能够提升自动驾驶训练的稳定性，从而降低危险事故的发生概率。其具体方案如下：

第一方面，本申请公开了一种自动驾驶训练方法，包括：

获取当前时刻的交通环境状态以及对应的结构化噪声；其中，所述结构化噪声为基于历史数据确定出的结构化噪声，所述历史数据为在对自动驾驶车辆进行预训练的过程中保存的数据，并且，所述历史数据包括历史动作信息以及历史交通环境状态信息；

通过策略网络利用所述交通环境状态以及所述结构化噪声确定出对应的执行动作；

控制所述自动驾驶车辆执行所述执行动作；

通过评价网络根据所述执行动作对所述策略网络的策略进行评价，得到对应的回报；

基于所述回报通过反向传播运算更新评价网络参数；

利用策略梯度算法更新策略网络参数。

可选的，所述自动驾驶训练方法，还包括：

利用DQN算法对自动驾驶车辆进行预训练；

将对应的预训练数据存放至回放缓冲区，将所述回放缓冲区存放的数据作为所述历史数据。

可选的，所述基于所述回报通过反向传播运算更新评价网络参数，包括：

基于所述回报进行针对评价网络损失函数的反向传播运算，单步更新所述评价网络参数。

可选的，所述利用策略梯度算法更新策略网络参数，包括：

利用所述评价网络的价值函数以及所述策略网络的当前策略进行策略梯度运算，更新所述策略网络参数。

可选的，所述自动驾驶训练方法，还包括：

预先计算所述结构化噪声。

可选的，所述预先计算所述结构化噪声，包括：

从所述历史数据中随机抽取出预设条数的数据，得到对应的minibatch；

计算出所述minibatch中每条所述历史数据的高斯因子；

利用全部所述高斯因子计算出所述minibatch对应的所述结构化噪声。

可选的，所述预先计算所述结构化噪声，包括：

从所述历史数据中随机抽取数据，得到多个minibatch；

计算出每个所述minibatch中每条所述历史数据的高斯因子，然后利用每个所述minibatch对应的全部所述高斯因子计算出每个所述minibatch对应的所述结构化噪声。

第二方面，本申请公开了一种自动驾驶训练装置，包括：

数据获取模块，用于获取当前时刻的交通环境状态以及对应的结构化噪声；其中，所述结构化噪声为基于历史数据确定出的结构化噪声，所述历史数据为在对自动驾驶车辆进行预训练的过程中保存的数据，并且，所述历史数据包括历史动作信息以及历史交通环境状态信息；

动作确定模块，用于通过策略网络利用所述交通环境状态以及所述结构化噪声确定出对应的执行动作；

动作控制模块，用于控制所述自动驾驶车辆执行所述执行动作；

策略评价模块，用于通过评价网络根据所述执行动作对所述策略网络的策略进行评价，得到对应的回报；

评价网络更新模块，用于基于所述回报通过反向传播运算更新评价网络参数；

策略网络更新模块，用于利用策略梯度算法更新策略网络参数。

第三方面，本申请公开了一种自动驾驶训练设备，包括处理器和存储器；

其中，

所述存储器，用于保存计算机程序；

所述处理器，用于执行所述计算机程序以实现前述的自动驾驶训练方法。

第四方面，本申请公开了一种计算机可读存储介质，用于保存计算机程序，其中，所述计算机程序被处理器执行时实现前述的自动驾驶训练训练方法。

可见，本申请获取当前时刻的交通环境状态以及对应的结构化噪声；其中，所述结构化噪声为基于历史数据确定出的结构化噪声，所述历史数据为在对自动驾驶车辆进行预训练的过程中保存的数据，并且，所述历史数据包括历史动作信息以及历史交通环境状态信息，然后通过策略网络利用所述交通环境状态以及所述结构化噪声确定出对应的执行动作，之后控制所述自动驾驶车辆执行所述执行动作，并通过评价网络根据所述执行动作对所述策略网络的策略进行评价，得到对应的回报，然后基于所述回报通过反向传播运算更新评价网络参数以及利用策略梯度算法更新策略网络参数。这样，在自动驾驶的训练过程中，引入基于历史数据的结构化噪声，并且，历史数据包括历史动作信息以及历史交通环境状态信息，能够提升自动驾驶训练的稳定性，从而降低危险事故的发生概率。

附图说明

为了更清楚地说明本申请实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据提供的附图获得其他的附图。

图1为本申请提供的一种自动驾驶车辆控制架构示意图；

图2为现有技术中的一种模块化方法示意图；

图3为现有技术中的一种端到端方法示意图；

图4为现有技术中的一种Open-loop的模仿学习方法示意图；

图5为现有技术中的一种Closed-loop的强化学习方法示意图；

图6为本申请公开的一种自动驾驶训练方法流程图；

图7为本申请公开的一种自动驾驶训练示意图；

图8为本申请公开的一种具体的自动驾驶训练方法流程图；

图9为本申请公开的一种具体的自动驾驶训练方法流程图；

图10为本申请公开的一种自动驾驶训练装置结构示意图；

图11为本申请公开的一种自动驾驶训练设备结构图。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

DRL应用于自动驾驶问题时不需要领域专家知识，也不需要建立模型，具有较为广泛的适应性，能够应对不断变化的复杂道路环境。然而，基于DRL的自动驾驶车辆从头开始学习自动驾驶，序列决策过程中选取较差动作的步骤会导致训练方差较大，体现为车辆行驶不平稳，甚至出现冲出车道、碰撞等事故。现有研究成果表明，相比模块化方法和Open-loop的模仿学习方法，基于DRL的自动驾驶训练的稳定性最差，并且对环境、天气变化十分敏感。为此，本申请提供了一种自动驾驶训练方案，能够提升自动驾驶训练的稳定性，从而降低危险事故的发生概率。

参见图6所示，本申请实施例公开了一种自动驾驶训练方法，包括：

步骤S11：获取当前时刻的交通环境状态以及对应的结构化噪声；其中，所述结构化噪声为基于历史数据确定出的结构化噪声，所述历史数据为在对自动驾驶车辆进行预训练的过程中保存的数据，并且，所述历史数据包括历史动作信息以及历史交通环境状态信息。

获取当前时刻的交通环境状态S_t以及对应的结构化噪声z_t。

需要指出的是，基于DRL的自动驾驶系统序列决策过程为：自动驾驶车辆(即智能体)在t时刻观测到所处环境的状态S_t，如自身和其他交通参与者的位置、速度、加速度等动力学信息，交通信号灯以及道路拓扑特征等信息，利用非线性的神经网络(NN，NeuralNetwork)表示策略(Policy)π_θ，并选取车辆动作a_t,如加速/减速、转向、变道、刹车等。进入下一个时刻t+1，环境根据自动驾驶车辆采取的动作a_t，结合设定的基准，如自动驾驶车辆平均行驶速度、偏离车道中心距离、闯红灯、发生碰撞等因素，计算出回报r_t+1，并进入一个新的状态S_t+1。自动驾驶车辆根据获得的回报r_t+1对策略π_θ进行调整，并结合新的状态S_t+1进入下一个决策过程。通过自动驾驶车辆与环境之间的交互做出序列决策，学习到最优策略，自动驾驶车辆获得最大的累计回报，实现平稳、安全驾驶。现有的基于DRL的自动驾驶研究应用多采用能够应对连续动作空间的算法，如深度确定策略梯度算法(DDPG，DeepDeterministic Policy Gradient)、置信域策略优化算法(TRPO，Trust Region PolicyOptimization)和近端策略优化算法(PPO，Proximal Policy Optimization)。本实施例可以将DRL与结构化噪声融合，进行自动驾驶决策。考虑自动驾驶问题的状态空间和动作空间连续性，本实施例可以使用样本效率和计算效率较高的DDPG算法。在其他一些实施例中，还可以利用异步优势Actor-Critic算法A3C(Asynchronous Advantage Actor-Critic)、双延迟确定性策略梯度算法TD3(Twin Delayed Deep Deterministic policy gradient)、松弛Actor-Critic算法SAC(Soft Actor-Critic)。

在具体的实施方式中，本实施例可以获取车辆传感器采集到的交通环境状态数据。具体的，可以借助摄像头、GPS(即Global Positioning System，全球定位系统)、IMU(即Inertia Measurement Unit，惯性测量装置)、毫米波雷达、激光雷达等车载传感器装置，获取行车环境状态，如天气数据、交通信号灯、交通拓扑信息，自动驾驶车辆、其他交通参与者的位置、运行状态等信息，并且，本实施例的交通环境状态不仅包括摄像头获取的直接原始图像数据，还包括通过深度学习模型，如RefineNet等处理得到的深度图和语义分割图等。其中，针对自动驾驶车辆，可以直接获得的状态信息有：车辆的行驶速度和侧向速度v、u；方向盘的转向角δ；车辆中心与道路中心线的距离偏差ΔL；车辆与四个方向最近的交通参与者的距离Δxi，i＝1～4等。

步骤S12：通过策略网络利用所述交通环境状态以及所述结构化噪声确定出对应的执行动作。

在具体的实施方式中，ActorNet(策略网络)基于策略函数π_θ(as,z)选取动作a_t，自动驾驶车辆完成相应动作，如“向左变道”，其中θ为Actor Net的网络参数，s表示交通环境状态，z表示结构化噪声。

步骤S13：控制所述自动驾驶车辆执行所述执行动作。

步骤S14：通过评价网络根据所述执行动作对所述策略网络的策略进行评价，得到对应的回报。

在具体的实施方式中，CriticNet(评价网络)根据自动驾驶车辆执行的动作a_t，基于价值函数Q_ω(s,a,z)对ActorNet的策略进行评价，并得到交通环境给予的回报r_t+1，其中，ω为CriticNet的网络参数。

其中，价值函数Q_ω(s,a,z)为由预设的回报函数转化得到。

需要指出的是，本申请实施例还可以预先设计研究自动驾驶问题的回报函数r_t。考虑自动驾驶仿真的具体场景，以及自动驾驶车辆平均行驶速度，偏离车道中心距离，扰乱交通的时长，是否压线、闯红灯、发生碰撞等评估指标，可以将自动驾驶车辆的回报函数设计成不同形式。以车辆变道的仿真场景举例，根据自动驾驶车辆变道是否成功、是否扰乱交通，甚至发生碰撞等因素，可以将回报函数设计为：

其中，v为自动驾驶车辆的行驶速度，v_ref为根据道路限速设定的参考速度，λ是人为设定的系数。

并且，价值函数可通过回报函数计算得到，形式为：

其中，γ∈(0,1]为折扣因子。本实施例引入结构化噪声，相应的价值函数为Q_ω(s,a,z)，E表示求期望运算。

步骤S15：基于所述回报通过反向传播运算更新评价网络参数。

在具体的实施方式中，基于所述回报进行针对评价网络损失函数的反向传播运算，单步更新所述评价网络参数。具体的，通过反向传播传播运算，最小化评价网络损失函数，单步更新网络参数ω。其中，评价网络损失函数为：

式中，y_t＝r_t+1+γQ′_ω(s_t+1,a_t+1,z_t+1)。Q′_ω(s_t+1,a_t+1,z_t+1)和Q_ω(s_t,a_t,z_t)分别是目标网络和预测网络的价值函数。N为采集的样本数量，γ∈(0,1]为折扣因子。其中，所述目标网络和预测网络为基于DQN(即Deep-Q-Network，深度价值函数神经网络)算法设计的神经网络。

步骤S16：利用策略梯度算法更新策略网络参数。

在具体的实施方式中，本实施例可以利用所述评价网络的价值函数以及所述策略网络的当前策略进行策略梯度运算，更新所述策略网络参数。

具体的，本实施例通过如下策略梯度，更新Actor Net的网络参数θ：

其中，J(θ)为策略梯度方法的目标函数，通常使用回报的某种形式表示。

由Critic Net的价值函数关于动作a求导得到，

为当前步骤下Actor Net的策略求导得到。策略梯度方法的任务是使得目标函数最大化，通过梯度上升来实现。借助上式得到策略梯度后，通过θ←θ+α▽_θJ(θ)对网络参数θ进行更新，其中，α为固定的时间步参数。

重复上述步骤S11至步骤S15，直至自动驾驶结束。

例如，参见图7所示，图7为本申请公开的一种自动驾驶训练示意图。结合结构化噪声z，使用DDPG算法训练车辆自动驾驶。DDPG算法是一种典型的Actor-Critic的强化学习算法。其中，策略网络(Actor Net)根据评价网络(Critic Net)反馈的价值函数更新策略，而Critic Net训练价值函数，使用时间差分法(TD)进行单步更新。并且，Critic Net包括基于DQN算法设计的目标网络(Target Net)和预测网络(Pred Net)，网络参数更新时会使用两个网络的价值函数。Actor Net和Critic Net共同作用，使智能体选择的动作获得最大累计回报。

可见，本申请实施例获取当前时刻的交通环境状态以及对应的结构化噪声；其中，所述结构化噪声为基于历史数据确定出的结构化噪声，所述历史数据为在对自动驾驶车辆进行预训练的过程中保存的数据，并且，所述历史数据包括历史动作信息以及历史交通环境状态信息，然后通过策略网络利用所述交通环境状态以及所述结构化噪声确定出对应的执行动作，之后控制所述自动驾驶车辆执行所述执行动作，并通过评价网络根据所述执行动作对所述策略网络的策略进行评价，得到对应的回报，然后基于所述回报通过反向传播运算更新评价网络参数以及利用策略梯度算法更新策略网络参数。这样，在自动驾驶的训练过程中，引入基于历史数据的结构化噪声，并且，历史数据包括历史动作信息以及历史交通环境状态信息，能够提升自动驾驶训练的稳定性，从而降低危险事故的发生概率。

参见图8所示，本申请实施例公开了一种具体的自动驾驶训练方法，包括：

步骤S21：利用DQN算法对自动驾驶车辆进行预训练。

步骤S22：将对应的预训练数据存放至回放缓冲区，将所述回放缓冲区存放的数据作为所述历史数据。

在具体的实施方式中，利用经典的DQN算法对车辆自动驾驶进行预训练，积累回放缓冲区数据B。使用经典的DQN方法，构建2个结构相同但参数不同的神经网络，分别是间隔一定时间更新参数的目标网络(Target Net)和每步更新参数的预测网络(Pred Net)。以车辆变道的仿真场景举例，自动驾驶车辆在每个时刻t的动作空间为[a_t1,a_t2,a_t3]，分别表示“向左变道”、“向右变道”和“保持当前车道”。Target Net和Pred Net均使用简单的3层神经网络，中间仅包含一个隐藏层。输入车辆传感器装置采集到的交通环境状态S_t，计算输出目标价值Qtarget和预测价值Qpred，并选择最大的Qpred对应的动作a_t作为自动驾驶车辆的驾驶动作。依据设计的回报函数，获得回报r_t+1，进入新的交通环境状态S_t+1，并将学习经历c_t＝(s_t,a_t,r_t,s_t+1)存储到回放缓冲区中。使用RMSProP优化器更新网络参数以最小化损失函数，持续对自动驾驶车辆进行预训练，直至累计足够的回放缓冲区数据B。

步骤S23：计算所述结构化噪声。

在一种具体的实施方式中，本实施例可以从所述历史数据中随机抽取出预设条数的数据，得到对应的minibatch(即小批量数据)；计算出所述minibatch中每条所述历史数据的高斯因子；利用全部所述高斯因子计算出所述minibatch对应的所述结构化噪声。

在另一种具体的实施方式中，本实施例可以从所述历史数据中随机抽取数据，得到多个minibatch；计算出每个所述minibatch中每条所述历史数据的高斯因子，然后利用每个所述minibatch对应的全部所述高斯因子计算出每个所述minibatch对应的所述结构化噪声。

也即，可以利用多个minibatch计算出多个结构化噪声，这样，在进行自动驾驶训练时，可以利用不同的结构化噪声训练，以提升自动驾驶的鲁棒性。

具体的，可以从回放缓冲区B中随机取出minibatch bⁱ～B，minibatch bⁱ中包含N条历史数据c_1:N＝(s_n,a_n,r_n,s_n+1)，n＝1～N。计算得到每一条历史数据的高斯因子。采样的每一条历史数据c_n的高斯因子,即Ψ_φ(z|c_n)＝N(μ_n,σ_n)。其中，N表示高斯分布，则历史数据c_n的高斯因子表示为

使用神经网络NN(Neural Network)计算，其中，均值

方差

φ为神经网络f的参数。计算得到概率表示的潜在变量，即结构化噪声。采样的每一个minibatch bⁱ的结构化噪声，即z～q_φ(z|c_1:N)。其中，q_φ(z|c_1:N)由每一条历史数据c_n的高斯因子Ψ_φ(z|c_n)累乘得到，即

也即，本实施例可以预先计算所述结构化噪声，在另外一些实施例中，可以在获取当前时刻的交通环境状态时，从历史数据中抽取minibatch,计算出当前时刻对应的结构化噪声。

步骤S24：获取当前时刻的交通环境状态以及对应的结构化噪声；其中，所述结构化噪声为基于历史数据确定出的结构化噪声，所述历史数据为在对自动驾驶车辆进行预训练的过程中保存的数据，并且，所述历史数据包括历史动作信息以及历史交通环境状态信息。

在一种具体的实施方式中，本实施例可以获取当前时刻的交通环境状态以及对应的结构化噪声；其中，所述结构化噪声为预先计算出的固定值，每个时刻所采用的结构化噪声相同。

在另一种具体的实施方式中，本实施例可以获取当前时刻的交通状态以及对应的结构化噪声；其中，当前时刻获取的所述结构化噪声为从预先计算出的多个所述结构化噪声中获取的一个结构化噪声。具体的，可以循环从预先计算出的多个所述结构化噪声中获取当前时刻对应的结构化噪声。例如，预先计算出100个结构化噪声，可以循环从100个结构化噪声中获取当前时刻对应的结构化噪声。当然，在另外一些实施例中，获取当前时刻对应的结构化噪声的具体过程可以包括：实时从所述历史数据中随机抽取出预设条数的数据，得到对应的minibatch，然后计算出该minibatch中每条所述历史数据的高斯因子，利用全部所述高斯因子计算出该minibatch对应的所述结构化噪声。

可以理解的是，利用不同的结构化噪声进行训练，可以提升自动驾驶的鲁棒性。

步骤S25：通过策略网络利用所述交通环境状态以及所述结构化噪声确定出对应的执行动作。

步骤S26：控制所述自动驾驶车辆执行所述执行动作。

步骤S27：通过评价网络根据所述执行动作对所述策略网络的策略进行评价，得到对应的回报。

在具体的实施方式中，所述评价网络继承了预训练后的目标网络和神经网络，从而提升了自动驾驶训练的效率。

步骤S28：基于所述回报通过反向传播运算更新评价网络参数。

步骤S29：利用策略梯度算法更新策略网络参数。

也即，本申请提供了一种DRL与结构化噪声融合的自动驾驶决策方法，在自动驾驶模拟平台中，通过车辆传感器装置获取环境状态信息，从回放缓冲区(Replay Buffer)中采样历史数据，借助高斯因子算法在策略函数和价值函数中引入结构化噪声，解决基于DRL的自动驾驶序列决策的鲁棒性问题，避免自动驾驶车辆面对复杂环境时行驶不稳定、甚至引发事故的危险情况。例如，参见图9所示，本申请实施例公开了一种具体的自动驾驶训练方法，包括(1)获取车辆传感器装置采集到的交通环境状态S_t；(2)设计所研究自动驾驶问题的回报函数r_t；(3)使用经典的DQN算法对车辆自动驾驶进行预训练，积累回放缓冲区数据B；(4)从回放缓冲区B中取样历史数据c，利用高斯因子计算概率表示的潜在变量z，即结构化的噪声；(5)结合结构化噪声z，使用DDPG算法训练车辆自动驾驶。

参见图10所示，本申请实施例公开了一种自动驾驶训练装置，包括：

数据获取模块11，用于获取当前时刻的交通环境状态以及对应的结构化噪声；其中，所述结构化噪声为基于历史数据确定出的结构化噪声，所述历史数据为在对自动驾驶车辆进行预训练的过程中保存的数据，并且，所述历史数据包括历史动作信息以及历史交通环境状态信息；

动作确定模块12，用于通过策略网络利用所述交通环境状态以及所述结构化噪声确定出对应的执行动作；

动作控制模块13，用于控制所述自动驾驶车辆执行所述执行动作；

策略评价模块14，用于通过评价网络根据所述执行动作对所述策略网络的策略进行评价，得到对应的回报；

评价网络更新模块15，用于基于所述回报通过反向传播运算更新评价网络参数；

策略网络更新模块16，用于利用策略梯度算法更新策略网络参数。

所述装置还包括预训练模块，用于利用DQN算法对自动驾驶车辆进行预训练；将对应的预训练数据存放至回放缓冲区，将所述回放缓冲区存放的数据作为所述历史数据。

评价网络更新模块15，具体用于基于所述回报进行针对评价网络损失函数的反向传播运算，单步更新所述评价网络参数。

策略网络更新模块16，具体用于利用所述评价网络的价值函数以及所述策略网络的当前策略进行策略梯度运算，更新所述策略网络参数。

所述装置还包括结构化噪声计算模块，用于预先计算所述结构化噪声。

在一种具体的实施方式中，所述结构化噪声计算模块，具体用于从所述历史数据中随机抽取出预设条数的数据，得到对应的minibatch；计算出所述minibatch中每条所述历史数据的高斯因子；利用全部所述高斯因子计算出所述minibatch对应的所述结构化噪声。

在另一种具体的实施方式中，所述结构化噪声计算模块，具体用于从所述历史数据中随机抽取数据，得到多个minibatch；计算出每个所述minibatch中每条所述历史数据的高斯因子，然后利用每个所述minibatch对应的全部所述高斯因子计算出每个所述minibatch对应的所述结构化噪声。

参见图11所示，本申请实施例公开了一种自动驾驶训练设备，包括处理器21和存储器22；其中，所述存储器22，用于保存计算机程序；所述处理器21，用于执行所述计算机程序，以实现前述实施例公开的神经网络模型训练方法。

关于上述自动驾驶训练方法的具体过程可以参考前述实施例中公开的相应内容，在此不再进行赘述。

进一步的，本申请实施例还公开了一种计算机可读存储介质，用于保存计算机程序，其中，所述计算机程序被处理器执行时实现前述实施例公开的自动驾驶训练方法。

本说明书中各个实施例采用递进的方式描述，每个实施例重点说明的都是与其它实施例的不同之处，各个实施例之间相同或相似部分互相参见即可。对于实施例公开的装置而言，由于其与实施例公开的方法相对应，所以描述的比较简单，相关之处参见方法部分说明即可。

结合本文中所公开的实施例描述的方法或算法的步骤可以直接用硬件、处理器执行的软件模块，或者二者的结合来实施。软件模块可以置于随机存储器(RAM)、内存、只读存储器(ROM)、电可编程ROM、电可擦除可编程ROM、寄存器、硬盘、可移动磁盘、CD-ROM、或技术领域内所公知的任意其它形式的存储介质中。

以上对本申请所提供的一种自动驾驶训练方法、装置、设备及介质进行了详细介绍，本文中应用了具体个例对本申请的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本申请的方法及其核心思想；同时，对于本领域的一般技术人员，依据本申请的思想，在具体实施方式及应用范围上均会有改变之处，综上所述，本说明书内容不应理解为对本申请的限制。

Claims

1.一种自动驾驶训练方法，其特征在于，包括：

控制所述自动驾驶车辆执行所述执行动作；

基于所述回报通过反向传播运算更新评价网络参数；

利用策略梯度算法更新策略网络参数。

2.根据权利要求1所述的自动驾驶训练方法，其特征在于，还包括：

利用DQN算法对自动驾驶车辆进行预训练；

3.根据权利要求1所述的自动驾驶训练方法，其特征在于，所述基于所述回报通过反向传播运算更新评价网络参数，包括：

4.根据权利要求1所述的自动驾驶训练方法，其特征在于，所述利用策略梯度算法更新策略网络参数，包括：

5.根据权利要求1至4任一项所述的自动驾驶训练方法，其特征在于，还包括：

预先计算所述结构化噪声。

6.根据权利要求5所述的自动驾驶训练方法，其特征在于，所述预先计算所述结构化噪声，包括：

计算出所述minibatch中每条所述历史数据的高斯因子；

7.根据权利要求5所述的自动驾驶训练方法，其特征在于，所述预先计算所述结构化噪声，包括：

从所述历史数据中随机抽取数据，得到多个minibatch；

8.一种自动驾驶训练装置，其特征在于，包括：

9.一种自动驾驶训练设备，其特征在于，包括处理器和存储器；其中，

所述存储器，用于保存计算机程序；

所述处理器，用于执行所述计算机程序以实现如权利要求1至7任一项所述的自动驾驶训练方法。

10.一种计算机可读存储介质，其特征在于，用于保存计算机程序，其中，所述计算机程序被处理器执行时实现如权利要求1至7任一项所述的自动驾驶训练训练方法。