CN112249032A

CN112249032A - 一种自动驾驶决策方法、系统、设备及计算机存储介质

Info

Publication number: CN112249032A
Application number: CN202011181627.3A
Authority: CN
Inventors: 李茹杨; 李仁刚; 赵雅倩; 李雪雷; 魏辉; 徐哲; 张亚强
Original assignee: Inspur Beijing Electronic Information Industry Co Ltd
Current assignee: Inspur Beijing Electronic Information Industry Co Ltd
Priority date: 2020-10-29
Filing date: 2020-10-29
Publication date: 2021-01-22
Anticipated expiration: 2040-10-29
Also published as: WO2022088798A1; CN112249032B; US20230365163A1

Abstract

本申请公开了一种自动驾驶方法、系统、设备及计算机介质，获取当前时刻下，自动驾驶车辆在行驶过程中的实时交通环境信息；基于预设的映射关系对实时交通环境信息进行映射，得到映射交通环境信息；基于预先存储的已有深度强化学习模型及映射交通环境信息，对目标深度强化学习模型进行调整；判断是否结束自动驾驶，若否，则返回执行获取当前时刻下，自动驾驶车辆在行驶过程中的实时交通环境信息的步骤。本申请中，可以借助映射关系和已有深度强化学习模型来对目标深度强化学习模型进行调整，可以避免从头对目标深度强化学习模型进行调整，加快目标深度强化学习模型的决策效率，进行可以实现快速、稳定的自动驾驶。

Description

一种自动驾驶决策方法、系统、设备及计算机存储介质

技术领域

本申请涉及自动驾驶技术领域，更具体地说，涉及一种自动驾驶决策方法、系统、设备及计算机存储介质。

背景技术

现代城市交通中，机动车数量日益增多，道路拥堵情况严重，且交通事故频发。为最大程度降低人为因素造成的危害，人们将目光转向自动驾驶领域。结合深度学习的深度强化学习(DRL，Deep Reinforcement Learning)是近年来快速发展的一类机器学习方法，智能体-环境交互作用和序列决策机制接近人类学习的过程，因此也被称为实现“通用人工智能(AGI，Artificial General Intelligence)”的关键步骤，被应用于自动驾驶决策过程中。

虽然深度强化学习能够指导车辆从头开始学习自动驾驶，在面对全新交通场景时也能够通过不断“试错”的方式学会自动驾驶，具有广泛的应用性。但是，从头开始学习自动驾驶的过程中，车辆通常需要几步、甚至几十步的训练才能做出一个较好的决策，采样效率较低，这与自动驾驶场景的瞬时决策要求相悖。同时，选取较差动作的步骤会导致方差较大，体现为车辆行驶不平稳，甚至出现冲出车道、碰撞等事故。

综上所述，如何实现快速、稳定的自动驾驶是目前本领域技术人员亟待解决的问题。

发明内容

本申请的目的是提供一种自动驾驶方法，其能在一定程度上解决如何实现快速、稳定的自动驾驶的技术问题。本申请还提供了一种自动驾驶系统、设备及计算机可读存储介质。

为了实现上述目的，本申请提供如下技术方案：

一种自动驾驶方法，包括：

获取当前时刻下，自动驾驶车辆在行驶过程中的实时交通环境信息；

基于预设的映射关系对所述实时交通环境信息进行映射，得到映射交通环境信息；

基于预先存储的已有深度强化学习模型及所述映射交通环境信息，对目标深度强化学习模型进行调整；

判断是否结束自动驾驶，若否，则返回执行所述获取当前时刻下，自动驾驶车辆在行驶过程中的实时交通环境信息的步骤；

其中，所述映射关系包括所述实时交通环境信息与所述已有深度强化学习模型的已有交通环境信息间的映射关系。

优选的，所述基于预先存储的已有深度强化学习模型及所述映射交通环境信息，对目标深度强化学习模型进行调整，包括：

基于所述已有深度强化学习模型的已有策略网络的参数对所述映射交通环境信息进行处理，得到车辆动作；

基于所述目标深度强化学习模型的评价网络计算所述车辆动作的价值函数值；

获取所述车辆动作的回报值；

基于所述回报值、所述价值函数值更新所述评价网络的参数。

优选的，所述基于所述回报值、所述价值函数值更新所述评价网络的参数，包括：

通过损失函数计算公式，基于所述回报值、所述价值函数值计算损失值；

通过最小化所述损失值来更新所述评价网络的参数；

其中，所述损失函数计算公式包括：

其中，L表示所述损失值；N表示采集的样本数量；r_t表示t时刻下的回报值；γ表示折扣因子，0＜γ＜1；Q′_ω(s_t+1,a_t+1)表示所述评价网络中的目标网络在t+1时刻下计算得到的价值函数值；s_t+1表示t+1时刻下的交通环境信息；a_t+1表示t+1时刻下的车辆动作；Q_ω(s_t,a_t)表示所述评价网络中的预测网络在t时刻下计算得到的价值函数值；s_t表示t时刻下的交通环境信息；a_t表示t时刻下的车辆动作。

优选的，所述基于所述回报值、所述价值函数值更新所述评价网络的参数之后，还包括：

对所述目标深度强化学习模型的策略网络的参数进行更新。

优选的，所述基于预设的映射关系对所述实时交通环境信息进行映射，得到映射交通环境信息之前，还包括：

获取目标交通环境信息；

读取所述已有交通环境信息；

在再生核希尔伯特空间中，计算所述目标交通环境信息与所述已有交通环境信息间的距离值；

通过最小化所述距离值来确定所述映射关系。

优选的，所述在再生核希尔伯特空间中，计算所述目标交通环境信息与所述已有交通环境信息间的距离值，包括：

通过距离值计算公式，在再生核希尔伯特空间中，计算所述目标交通环境信息与所述已有交通环境信息间的所述距离值；

所述距离值计算公式包括：

其中，MMD_H(D_S,D_T)表示所述距离值；D_S表示所述已有交通环境信息；D_T表示所述目标交通环境信息；n表示所述已有交通环境信息中的样本数量；m表示所述目标交通环境信息中的样本数量；A表示所述映射关系；T表示转置；s_S表示所述已有交通环境信息中的交通环境信息；s_T表示所述目标交通环境信息中的交通环境信息；H表示所述再生核希尔伯特空间。

优选的，所述通过最小化所述距离值来确定所述映射关系，包括：

基于正则线性回归方法或支持向量机方法或主成分分析方法，通过最小化所述距离值来确定所述映射关系。

一种自动驾驶系统，包括：

第一获取模块，用于获取当前时刻下，自动驾驶车辆在行驶过程中的实时交通环境信息；

第一映射模块，用于基于预设的映射关系对所述实时交通环境信息进行映射，得到映射交通环境信息；

第一调整模块，用于基于预先存储的已有深度强化学习模型及所述映射交通环境信息，对目标深度强化学习模型进行调整；

第一判断模块，用于判断是否结束自动驾驶，若否，则返回执行所述获取当前时刻下，自动驾驶车辆在行驶过程中的实时交通环境信息的步骤；

一种自动驾驶设备，包括：

存储器，用于存储计算机程序；

处理器，用于执行所述计算机程序时实现如上任一所述自动驾驶方法的步骤。

一种计算机可读存储介质，所述计算机可读存储介质中存储有计算机程序，所述计算机程序被处理器执行时实现如上任一所述自动驾驶方法的步骤。

本申请提供的一种自动驾驶方法，获取当前时刻下，自动驾驶车辆在行驶过程中的实时交通环境信息；基于预设的映射关系对实时交通环境信息进行映射，得到映射交通环境信息；基于预先存储的已有深度强化学习模型及映射交通环境信息，对目标深度强化学习模型进行调整；判断是否结束自动驾驶，若否，则返回执行获取当前时刻下，自动驾驶车辆在行驶过程中的实时交通环境信息的步骤；其中，映射关系包括实时交通环境信息与已有深度强化学习模型的已有交通环境信息间的映射关系。本申请中，可以借助映射关系和已有深度强化学习模型来对目标深度强化学习模型进行调整，可以避免从头对目标深度强化学习模型进行调整，加快目标深度强化学习模型的决策效率，进行可以实现快速、稳定的自动驾驶。本申请提供的一种自动驾驶系统、设备及计算机可读存储介质也解决了相应技术问题。

附图说明

为了更清楚地说明本申请实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据提供的附图获得其他的附图。

图1为本申请实施例提供的一种自动驾驶方法的流程图；

图2为本申请中对目标深度强化学习模型的调整流程图；

图3为本申请实施例提供的一种自动驾驶系统的结构示意图；

图4为本申请实施例提供的一种自动驾驶设备的结构示意图；

图5为本申请实施例提供的一种自动驾驶设备的另一结构示意图。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

请参阅图1，图1为本申请实施例提供的一种自动驾驶方法的流程图。

本申请实施例提供的一种自动驾驶方法，可以包括以下步骤：

步骤S101：获取当前时刻下，自动驾驶车辆在行驶过程中的实时交通环境信息。

实际应用中，在自动驾驶过程中，需要根据当前的交通环境信息预测自动驾驶车辆的下一步驾驶动作，所以可以先获取当前时刻下，自动驾驶车辆在行驶过程中的实时交通环境信息，实时交通环境信息的类型可以根据实际需要确定，比如可以借助摄像头、全球定位系统、惯性测量单元、毫米波雷达、激光雷达等车载传感器装置，获取行车环境状态，如天气数据、交通信号灯、交通拓扑信息，自动驾驶车辆、其他交通参与者的位置、运行状态等信息，摄像头获取的直接原始图像数据等原始交通环境信息来直接作为实时交通环境信息，还可以通过RefineNet等模型对原始交通环境信息处理得到的深度图和语义分割图作为实时交通环境信息等。

步骤S102：基于预设的映射关系对实时交通环境信息进行映射，得到映射交通环境信息；映射关系包括实时交通环境信息与已有深度强化学习模型的已有交通环境信息间的映射关系。

实际应用中，因为本申请中需要借助已有深度强化学习模型来对目标深度强化学习模型进行调整，如果直接借助已有深度强化学习模型来对实时交通环境信息进行处理的话，可能存在处理结果无法与实时交通环境信息相匹配的情况，为了避免此种情况，可以先基于预设的映射关系来对实时交通环境信息进行映射，得到映射交通环境信息；因为映射关系包括实时交通环境信息与已有深度强化学习模型的已有交通环境信息间的映射关系，所以映射交通环境信息可以满足已有深度强化学习模型的处理要求且可以携带实时交通环境信息的相关信息，这样后续借助映射交通环境信息来对目标深度强化学习模型进行调整的话，可以保证目标深度强化学习模型的调整准确性。

应当指出，已有深度强化学习模型指的是已经训练的满足条件的深度强化学习模型，比如已有深度强化学习模型可以为按照已有交通环境信息进行预设时长训练后得到的深度强化学习模型，也可以为按照已有交通环境信息进行预设步长训练后得到的深度强化学习模型等，基于已有交通环境信息进行深度学习模型训练的过程可以参阅现有技术，本申请在此不做具体限定。

步骤S103：基于预先存储的已有深度强化学习模型及映射交通环境信息，对目标深度强化学习模型进行调整。

实际应用中，在基于预设的映射关系对实时交通环境信息进行映射，得到映射交通环境信息之后，便可以基于预先存储的已有深度强化学习模型及映射交通环境信息，对目标深度强化学习模型进行调整。

应当指出，对目标深度强化学习模型的调整过程可以根据实际需要及目标深度强化学习模型的具体结构来确定，且目标深度强化学习模型的结构可以根据所应用的深度强化学习算法，比如DQN(Deep-Q-Network，深度Q网络)算法、DDPG(Deep DeterministicPolicy Gradient，深度确定策略梯度算法)算法、A3C(Asynchronous Advantage Actor-Critic，异步优势Actor-Critic算法)算法、SAC(Soft Actor-Critic，松弛Actor-Critic算法)算法、TD3(Twin Delayed Deep Deterministic policy gradient，双延迟确定性策略梯度算法)算法等，来确定本申请在此不做具体限定。

步骤S104：判断是否结束自动驾驶，若否，则返回执行步骤S101；若是，则执行步骤S105：结束。

实际应用中，因为每次调整过程中只是应用了当前时刻下的实时交通环境信息，可能需要进行多次调整才能完善目标深度强化学习模型的参数，所以在基于预先存储的已有深度强化学习模型及映射交通环境信息，对目标深度强化学习模型进行调整之后，可以判断是否结束自动驾驶，若否，则返回执行获取当前时刻下，自动驾驶车辆在行驶过程中的实时交通环境信息的步骤；若是，则可以直接结束。

应当指出，判断是否结束自动驾驶的条件可以根据实际需要确定，比如结束自动驾驶的条件可以为调整次数达到预设次数，调整时长达到预设时长等，本申请在此不做具体限定。

本申请提供的一种自动驾驶方法，获取当前时刻下，自动驾驶车辆在行驶过程中的实时交通环境信息；基于预设的映射关系对实时交通环境信息进行映射，得到映射交通环境信息；基于预先存储的已有深度强化学习模型及映射交通环境信息，对目标深度强化学习模型进行调整；判断是否结束自动驾驶，若否，则返回执行获取当前时刻下，自动驾驶车辆在行驶过程中的实时交通环境信息的步骤；其中，映射关系包括实时交通环境信息与已有深度强化学习模型的已有交通环境信息间的映射关系。本申请中，可以借助映射关系和已有深度强化学习模型来对目标深度强化学习模型进行调整，可以避免从头对目标深度强化学习模型进行调整，加快目标深度强化学习模型的决策效率，进行可以实现快速、稳定的自动驾驶。

请参阅图2，图2为本申请中对目标深度强化学习模型的调整流程图。

本申请实施例提供的一种自动驾驶方法中，基于预先存储的已有深度强化学习模型及映射交通环境信息，对目标深度强化学习模型进行调整的过程中，可以包括以下步骤：

步骤S201：基于已有深度强化学习模型的已有策略网络的参数对映射交通环境信息进行处理，得到车辆动作。

实际应用中，在已有深度强化学习模型及目标深度强化学习模型中均包括策略网络和评价网络的情况下，可以先基于已有深度强化学习模型的已有策略网络的参数来对映射交通环境信息进行处理，得到车辆动作，如加速、减速、转向、变道、刹车等。

步骤S202：基于目标深度强化学习模型的评价网络计算车辆动作的价值函数值。

实际应用中，在基于已有深度强化学习模型的已有策略网络的参数对映射交通环境信息进行处理，得到车辆动作之后，便可以基于目标深度强化学习模型的评价网络计算车辆动作的价值函数值，以借助价值函数值对策略网络的决策能力进行评价。

步骤S203：获取车辆动作的回报值。

实际应用中，在基于目标深度强化学习模型的目标评价网络计算车辆动作的价值函数值之后，还可以获取车辆动作的回报值，具体的，可以根据自动驾驶车辆采取的车辆动作，结合设定的基准，如自动驾驶车辆平均行驶速度、偏离车道中心距离、闯红灯、发生碰撞等因素，给予自动驾驶车辆一个回报值。

步骤S204：基于回报值、价值函数值更新评价网络的参数。

实际应用中，在获取车辆动作的回报值之后，便可以基于回报值、价值函数值更新评价网络的参数。

具体应用场景中，在基于回报值、价值函数值更新评价网络的参数的过程中，可以通过损失函数计算公式，基于回报值、价值函数值计算损失值；通过最小化损失值来更新评价网络的参数；其中，损失函数计算公式包括：

其中，L表示损失值；N表示采集的样本数量；r_t表示t时刻下的回报值；γ表示折扣因子，0＜γ＜1；Q′_ω(s_t+1,a_t+1)表示评价网络中的目标网络在t+1时刻下计算得到的价值函数值；s_t+1表示t+1时刻下的交通环境信息；a_t+1表示t+1时刻下的车辆动作；Q_ω(s_t,a_t)表示评价网络中的预测网络在t时刻下计算得到的价值函数值；s_t表示t时刻下的交通环境信息；a_t表示t时刻下的车辆动作。

本申请实施例提供的一种自动驾驶方法中，在基于回报值、价值函数值更新评价网络的参数之后，为了进一步保证目标深度强化学习模型的准确性，还可以对目标深度强化学习模型的策略网络的参数进行更新。对策略网络的参数进行更新的过程可以根据实际需要确定，本申请在此不做具体限定。

本申请实施例提供的一种自动驾驶方法中，在基于预设的映射关系对实时交通环境信息进行映射，得到映射交通环境信息之前，还可以：获取目标交通环境信息；读取已有交通环境信息；在再生核希尔伯特空间中，计算目标交通环境信息与已有交通环境信息间的距离值；通过最小化距离值来确定映射关系。也即本申请可以通过目标交通环境信息、已有交通环境信息及再生核希尔伯特空间快速确定映射关系。

具体应用场景中，在再生核希尔伯特空间中，计算目标交通环境信息与已有交通环境信息间的距离值的过程中，可以通过距离值计算公式，在再生核希尔伯特空间中，计算目标交通环境信息与已有交通环境信息间的距离值；

距离值计算公式包括：

其中，MMD_H(D_S,D_T)表示距离值；D_S表示已有交通环境信息；D_T表示目标交通环境信息；n表示已有交通环境信息中的样本数量；m表示目标交通环境信息中的样本数量；A表示映射关系；T表示转置；s_S表示已有交通环境信息中的交通环境信息；s_T表示目标交通环境信息中的交通环境信息；H表示再生核希尔伯特空间。

具体应用场景中，在通过最小化距离值来确定映射关系的过程中，可以基于正则线性回归方法或支持向量机方法或主成分分析方法等，通过最小化距离值来确定映射关系。

具体应用场景中，在获取目标交通环境信息的过程中，可以使用简单的深度学习算法，如DQN算法对目标领域自动驾驶车辆进行预训练，比如构建2个结构相同但参数更新频率不同的神经网络，即间隔一定时间更新的目标网络(Target Net)和每步更新的预测网络(Pred Net)，目标网络和预测网络可以均使用简单的3层神经网络，中间仅包含1层隐藏层；此时输入车辆传感器装置采集到的交通环境状态，计算输出目标价值Q_target和预测价值Q_pred，并选择最大的价值对应的动作a_Tt作为自动驾驶车辆的驾驶动作。随后，获得回报r_Tt和新的交通环境状态s_Tt+1，并将学习经历c_Ti＝(s_Ti,a_Ti,r_Ti,s_Ti+1)存储到回放缓冲区D_T中，以此生成目标交通环境信息。

请参阅图3，图3为本申请实施例提供的一种自动驾驶系统的结构示意图。

本申请实施例提供的一种自动驾驶系统，可以包括：

第一获取模块101，用于获取当前时刻下，自动驾驶车辆在行驶过程中的实时交通环境信息；

第一映射模块102，用于基于预设的映射关系对实时交通环境信息进行映射，得到映射交通环境信息；

第一调整模块103，用于基于预先存储的已有深度强化学习模型及映射交通环境信息，对目标深度强化学习模型进行调整；

第一判断模块104，用于判断是否结束自动驾驶，若否，则返回执行获取当前时刻下，自动驾驶车辆在行驶过程中的实时交通环境信息的步骤；

其中，映射关系包括实时交通环境信息与已有深度强化学习模型的已有交通环境信息间的映射关系。

本申请实施例提供的一种自动驾驶系统，第一调整模块可以包括：

第一处理单元，用于基于已有深度强化学习模型的已有策略网络的参数对映射交通环境信息进行处理，得到车辆动作；

第一计算单元，用于基于目标深度强化学习模型的评价网络计算车辆动作的价值函数值；

第一获取单元，用于获取车辆动作的回报值；

第一更新单元，用于基于回报值、价值函数值更新评价网络的参数。

本申请实施例提供的一种自动驾驶系统，第一更新单元可以包括：

第二计算单元，用于通过损失函数计算公式，基于回报值、价值函数值计算损失值；

第二更新单元，用于通过最小化损失值来更新评价网络的参数；

其中，损失函数计算公式包括：

本申请实施例提供的一种自动驾驶系统，还可以包括：

第三更新单元，用于第一更新单元基于回报值、价值函数值更新目标评价网络的参数之后，对目标深度强化学习模型的策略网络的参数进行更新。

本申请实施例提供的一种自动驾驶系统，还可以包括：

第二获取模块，用于第一映射模块基于预设的映射关系对实时交通环境信息进行映射，得到映射交通环境信息之前，获取目标交通环境信息；

第一读取模块，用于读取已有交通环境信息；

第一计算模块，用于在再生核希尔伯特空间中，计算目标交通环境信息与已有交通环境信息间的距离值；

第一确定模块，用于通过最小化距离值来确定映射关系。

本申请实施例提供的一种自动驾驶系统，第一计算模块可以包括：

第三计算单元，用于通过距离值计算公式，在再生核希尔伯特空间中，计算目标交通环境信息与已有交通环境信息间的距离值；

距离值计算公式包括：

本申请实施例提供的一种自动驾驶系统，第一确定模块可以包括：

第一确定单元，用于基于正则线性回归方法或支持向量机方法或主成分分析方法，通过最小化距离值来确定映射关系。

本申请还提供了一种自动驾驶设备及计算机可读存储介质，其均具有本申请实施例提供的一种自动驾驶方法具有的对应效果。请参阅图4，图4为本申请实施例提供的一种自动驾驶设备的结构示意图。

本申请实施例提供的一种自动驾驶设备，包括存储器201和处理器202，存储器201中存储有计算机程序，处理器202执行计算机程序时实现如下步骤：

基于预设的映射关系对实时交通环境信息进行映射，得到映射交通环境信息；

基于预先存储的已有深度强化学习模型及映射交通环境信息，对目标深度强化学习模型进行调整；

判断是否结束自动驾驶，若否，则返回执行获取当前时刻下，自动驾驶车辆在行驶过程中的实时交通环境信息的步骤；

本申请实施例提供的一种自动驾驶设备，包括存储器201和处理器202，存储器201中存储有计算机程序，处理器202执行计算机程序时实现如下步骤：基于已有深度强化学习模型的已有策略网络的参数对映射交通环境信息进行处理，得到车辆动作；基于目标深度强化学习模型的评价网络计算车辆动作的价值函数值；获取车辆动作的回报值；基于回报值、价值函数值更新评价网络的参数。

本申请实施例提供的一种自动驾驶设备，包括存储器201和处理器202，存储器201中存储有计算机程序，处理器202执行计算机程序时实现如下步骤：通过损失函数计算公式，基于回报值、价值函数值计算损失值；通过最小化损失值来更新评价网络的参数；其中，损失函数计算公式包括：

本申请实施例提供的一种自动驾驶设备，包括存储器201和处理器202，存储器201中存储有计算机程序，处理器202执行计算机程序时实现如下步骤：基于回报值、价值函数值更新评价网络的参数之后，对目标深度强化学习模型的策略网络的参数进行更新。

本申请实施例提供的一种自动驾驶设备，包括存储器201和处理器202，存储器201中存储有计算机程序，处理器202执行计算机程序时实现如下步骤：基于预设的映射关系对实时交通环境信息进行映射，得到映射交通环境信息之前，获取目标交通环境信息；读取已有交通环境信息；在再生核希尔伯特空间中，计算目标交通环境信息与已有交通环境信息间的距离值；通过最小化距离值来确定映射关系。

本申请实施例提供的一种自动驾驶设备，包括存储器201和处理器202，存储器201中存储有计算机程序，处理器202执行计算机程序时实现如下步骤：通过距离值计算公式，在再生核希尔伯特空间中，计算目标交通环境信息与已有交通环境信息间的距离值；

距离值计算公式包括：

本申请实施例提供的一种自动驾驶设备，包括存储器201和处理器202，存储器201中存储有计算机程序，处理器202执行计算机程序时实现如下步骤：基于正则线性回归方法或支持向量机方法或主成分分析方法，通过最小化距离值来确定映射关系。

请参阅图5，本申请实施例提供的另一种自动驾驶设备中还可以包括：与处理器202连接的输入端口203，用于传输外界输入的命令至处理器202；与处理器202连接的显示单元204，用于显示处理器202的处理结果至外界；与处理器202连接的通信模块205，用于实现自动驾驶设备与外界的通信。显示单元204可以为显示面板、激光扫描使显示器等；通信模块205所采用的通信方式包括但不局限于移动高清链接技术(HML)、通用串行总线(USB)、高清多媒体接口(HDMI)、无线连接：无线保真技术(WiFi)、蓝牙通信技术、低功耗蓝牙通信技术、基于IEEE802.11s的通信技术。

本申请实施例提供的一种计算机可读存储介质，计算机可读存储介质中存储有计算机程序，计算机程序被处理器执行时实现如下步骤：

本申请实施例提供的一种计算机可读存储介质，计算机可读存储介质中存储有计算机程序，计算机程序被处理器执行时实现如下步骤：基于已有深度强化学习模型的已有策略网络的参数对映射交通环境信息进行处理，得到车辆动作；基于目标深度强化学习模型的评价网络计算车辆动作的价值函数值；获取车辆动作的回报值；基于回报值、价值函数值更新评价网络的参数。

本申请实施例提供的一种计算机可读存储介质，计算机可读存储介质中存储有计算机程序，计算机程序被处理器执行时实现如下步骤：通过损失函数计算公式，基于回报值、价值函数值计算损失值；通过最小化损失值来更新评价网络的参数；其中，损失函数计算公式包括：

本申请实施例提供的一种计算机可读存储介质，计算机可读存储介质中存储有计算机程序，计算机程序被处理器执行时实现如下步骤：基于回报值、价值函数值更新评价网络的参数之后，对目标深度强化学习模型的策略网络的参数进行更新。

本申请实施例提供的一种计算机可读存储介质，计算机可读存储介质中存储有计算机程序，计算机程序被处理器执行时实现如下步骤：基于预设的映射关系对实时交通环境信息进行映射，得到映射交通环境信息之前，获取目标交通环境信息；读取已有交通环境信息；在再生核希尔伯特空间中，计算目标交通环境信息与已有交通环境信息间的距离值；通过最小化距离值来确定映射关系。

本申请实施例提供的一种计算机可读存储介质，计算机可读存储介质中存储有计算机程序，计算机程序被处理器执行时实现如下步骤：通过距离值计算公式，在再生核希尔伯特空间中，计算目标交通环境信息与已有交通环境信息间的距离值；

距离值计算公式包括：

本申请实施例提供的一种计算机可读存储介质，计算机可读存储介质中存储有计算机程序，计算机程序被处理器执行时实现如下步骤：基于正则线性回归方法或支持向量机方法或主成分分析方法，通过最小化距离值来确定映射关系。

本申请所涉及的计算机可读存储介质包括随机存储器(RAM)、内存、只读存储器(ROM)、电可编程ROM、电可擦除可编程ROM、寄存器、硬盘、可移动磁盘、CD-ROM、或技术领域内所公知的任意其它形式的存储介质。

本申请实施例提供的自动驾驶系统、设备及计算机可读存储介质中相关部分的说明请参见本申请实施例提供的自动驾驶方法中对应部分的详细说明，在此不再赘述。另外，本申请实施例提供的上述技术方案中与现有技术中对应技术方案实现原理一致的部分并未详细说明，以免过多赘述。

还需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

对所公开的实施例的上述说明，使本领域技术人员能够实现或使用本申请。对这些实施例的多种修改对本领域技术人员来说将是显而易见的，本文中所定义的一般原理可以在不脱离本申请的精神或范围的情况下，在其它实施例中实现。因此，本申请将不会被限制于本文所示的这些实施例，而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

Claims

1.一种自动驾驶方法，其特征在于，包括：

2.根据权利要求1所述的方法，其特征在于，所述基于预先存储的已有深度强化学习模型及所述映射交通环境信息，对目标深度强化学习模型进行调整，包括：

获取所述车辆动作的回报值；

3.根据权利要求2所述的方法，其特征在于，所述基于所述回报值、所述价值函数值更新所述评价网络的参数，包括：

通过最小化所述损失值来更新所述评价网络的参数；

其中，所述损失函数计算公式包括：

4.根据权利要求2所述的方法，其特征在于，所述基于所述回报值、所述价值函数值更新所述评价网络的参数之后，还包括：

对所述目标深度强化学习模型的策略网络的参数进行更新。

5.根据权利要求1至4任一项所述的方法，其特征在于，所述基于预设的映射关系对所述实时交通环境信息进行映射，得到映射交通环境信息之前，还包括：

获取目标交通环境信息；

读取所述已有交通环境信息；

通过最小化所述距离值来确定所述映射关系。

6.根据权利要求5所述的方法，其特征在于，所述在再生核希尔伯特空间中，计算所述目标交通环境信息与所述已有交通环境信息间的距离值，包括：

所述距离值计算公式包括：

7.根据权利要求6所述的方法，其特征在于，所述通过最小化所述距离值来确定所述映射关系，包括：

8.一种自动驾驶系统，其特征在于，包括：

9.一种自动驾驶设备，其特征在于，包括：

存储器，用于存储计算机程序；

处理器，用于执行所述计算机程序时实现如权利要求1至7任一项所述自动驾驶方法的步骤。

10.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质中存储有计算机程序，所述计算机程序被处理器执行时实现如权利要求1至7任一项所述自动驾驶方法的步骤。