CN113264064B

CN113264064B - 用于交叉路口场景的自动驾驶方法及相关设备

Info

Publication number: CN113264064B
Application number: CN202110349339.2A
Authority: CN
Inventors: 吴思凡; 王志军; 郝天翔; 侯中生
Original assignee: Zhixing Qianli Beijing Technology Co ltd
Current assignee: Zhixing Qianli Beijing Technology Co ltd
Priority date: 2021-03-31
Filing date: 2021-03-31
Publication date: 2022-05-10
Anticipated expiration: 2041-03-31
Also published as: CN113264064A

Abstract

本公开提供一种用于交叉路口场景的自动驾驶方法及相关设备，具体的，首先获取无人驾驶车辆的行驶数据和交叉路口的环境数据，行驶数据包括车辆数据和轨迹数据，车辆数据反映了车辆的各项行驶参数，轨迹数据反映了通过交叉路口的车辆的运行轨迹。然后，根据采集到的数据生成状态空间并确定动作空间。进一步的，根据动作空间、状态空间，生成所述无人驾驶车辆的驾驶动作。最后根据驾驶动作控制所述无人驾驶车辆在所述交叉路口的行为。为无人驾驶车辆交叉路口的行为决策提供了一种新的解决方案，能够有效处理交叉路口的各类场景。

Description

用于交叉路口场景的自动驾驶方法及相关设备

技术领域

本公开涉及自动驾驶技术领域，尤其涉及一种用于交叉路口场景的自动驾驶方法及相关设备。

背景技术

近年来，随着社会经济的快速发展，机动车已经逐渐成为了民众日常出行的代步工具，但是，随着机动车持有量的增加，随之而来的是交通事故的增加，在驾驶车辆行驶过程中，机动车驾驶员会受到外界因素的影响导致发生事故的概率急剧上升。随着无人驾驶技术不断的发展，人们逐渐将减少交通事故发生的希望放到无人驾驶汽车上，相比于人类机动车驾驶员，无人驾驶汽车不会受到一些由机动车驾驶员所造成的主观因素的影响，因此在很大程度上会减少由人为因素导致的事故发生。

交叉路口是交通环境中一个典型的环境，同时，无论是对于人类驾驶员还是无人驾驶汽车来说，都是极其容易发生交通事故的场景。对于无人驾驶汽车来说，在面对交叉口时，需要预测路口两侧车辆或一侧车辆的行驶意图，并根据其他车辆的行为，做出有效的决策行为，采取有效的行为决策将会在很大程度上提高交通流量效率并对驶入的安全性有着很大的提高，目前，无人驾驶针对交叉路口场景并没有一个十分完善的解决办法，如何以更加安全和更加智能化的方法解决交叉路口场景一直都是有待研究的问题。

发明内容

有鉴于此，本公开的目的在于提出一种用于交叉路口场景的自动驾驶方法及相关设备。

基于上述目的，本公开提供了一种用于交叉路口场景的自动驾驶方法，包括：

获取无人驾驶车辆的行驶数据和交叉路口的环境数据；

根据所述行驶数据，构建动作空间；

根据所述行驶数据和所述环境数据，构建状态空间；

基于所述动作空间和所述状态空间，利用交叉路口行为模型预测所述无人驾驶车辆的驾驶动作；

基于所述驾驶动作，控制所述无人驾驶车辆在所述交叉路口的行为，

其中，所述交叉路口行为模型是按以下方式预先构建的：基于演员-评论家强化学习框架，在动作神经网络和评论神经网络中分别结合单步循环神经网络。

基于同一发明构思，本说明书一个或多个实施例还提供了一种用于交叉路口场景的自动驾驶装置，包括：

获取模块，用于获取无人驾驶车辆的行驶数据和交叉路口的环境数据；

动作空间构建模块，用于根据所述行驶数据，构建动作空间；

状态空间构建模块，用于根据所述行驶数据和所述环境数据，构建状态空间；

预测模块，用于基于所述动作空间和所述状态空间，利用交叉路口行为模型预测所述无人驾驶车辆的驾驶动作；

控制模块，用于基于所述驾驶动作，控制所述无人驾驶车辆在所述交叉路口的行为，

基于同一发明构思，本说明书一个或多个实施例还提供了一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现如上任意一项所述的方法。

基于同一发明构思，本说明书一个或多个实施例还提供了一种非暂态计算机可读存储介质，所述非暂态计算机可读存储介质存储计算机指令，所述计算机指令用于使所述计算机执行如上任一所述方法。

从上面所述可以看出，本公开提供的用于交叉路口场景的自动驾驶方法及相关设备，通过采集无人驾驶车辆的行驶数据和交叉路口的环境数据，根据采集到的数据生成动作空间、状态空间并利用交叉路口行为模型预测所述无人驾驶车辆的驾驶动作，最终基于驾驶动作，控制无人驾驶车辆在交叉路口的行为。从而为无人驾驶车辆交叉路口的行为决策提供了一种新的解决方案，能够有效处理交叉路口的各类场景。

附图说明

为了更清楚地说明本公开或相关技术中的技术方案，下面将对实施例或相关技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本公开的实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本公开实施例的用于交叉路口场景的自动驾驶方法流程图；

图2为本公开实施例的动作神经网络结构示意图；

图3为本公开实施例的评论神经网络结构示意图；

图4为本公开实施例的生成动作空间、状态空间和奖励函数的方法流程图；

图5为本公开实施例的交叉路口行为模型训练流程图；

图6为本公开实施例的交叉路口行为模型构建方法示意图；

图7为本公开实施例的用于交叉路口场景的自动驾驶装置结构示意图；

图8为本公开实施例的电子设备结构示意图。

具体实施方式

为使本公开的目的、技术方案和优点更加清楚明白，以下结合具体实施例，并参照附图，对本公开进一步详细说明。

需要说明的是，除非另外定义，本公开实施例使用的技术术语或者科学术语应当为本公开所属领域内具有一般技能的人士所理解的通常意义。“包括”或者“包含”等类似的词语意指出现该词前面的元件或者物件涵盖出现在该词后面列举的元件或者物件及其等同，而不排除其他元件或者物件。“连接”或者“相连”等类似的词语并非限定于物理的或者机械的连接，而是可以包括电性的连接，不管是直接的还是间接的。“上”、“下”、“左”、“右”等仅用于表示相对位置关系，当被描述对象的绝对位置改变后，则该相对位置关系也可能相应地改变。

如背景技术部分所述，现有的无人驾驶针对交叉路口场景并没有一个十分完善的解决办法。申请人在实现本公开的过程中发现，现有的无人驾驶针对交叉路口场景的方案主要有十字路口多车协作控制方法、基于有限状态机的十字路口行为预测与控制、深度Q网络的十字路口行为预测方法。然而采用多车协作控制方法虽然能达到高效的汇入效果，但很显然需要消耗大量的外界资源，不能自主学习适应外界多变的环境，而基于有限状态机的行为策略具有规则化，在任意时刻只能用一个状态描述行为决策，不具有并发性。深度Q网络利用离散的动作空间去描述动作，相对于十字路口复杂的环境，将动作状态利用有限的动作空间去描述显然是不合理的。

有鉴于此，本公开提供了一种用于交叉路口场景的自动驾驶方案，具体的，首先获取无人驾驶车辆的行驶数据和交叉路口的环境数据，行驶数据包括车辆数据和轨迹数据，车辆数据反映了车辆的各项行驶参数，轨迹数据反映了通过交叉路口的车辆的运行轨迹。然后，根据采集到的数据生成状态空间并确定动作空间。进一步的，根据动作空间、状态空间，确定所述无人驾驶车辆的驾驶动作。最后根据驾驶动作控制所述无人驾驶车辆在所述交叉路口的行为。

以下，通过具体的实施例来详细说明本说明书一个或多个实施例的技术方案。

参考图1，本说明书一个实施例的用于交叉路口场景的自动驾驶方法，包括以下步骤：

步骤S101、获取无人驾驶车辆的行驶数据和交叉路口的环境数据；

本步骤中，环境数据包括：环境中交叉路口车道的宽度d、环境中交叉路口车道数n、环境中交叉路口车道的长度L、道路类型、交通标志、车流量D和环境中道路限速v_limit。无人驾驶车辆的行驶数据包括车辆数据和轨迹数据，车辆数据包括：车辆的加速度a_c、车辆的速度v_c、车辆的初速度v_init、车辆的长度l_c、车辆的宽度w_c和车辆的动力学参数。轨迹数据包括：车辆的位置、车辆的行驶轨迹信息。采集设备可以是数码摄像头、多线激光雷达、毫米波雷达、组合导航等设备，采集频率默认为10HZ,可以根据实际情况改变，收集数据的时间由实际场景的交通情况决定。

步骤S102、根据所述行驶数据，构建动作空间；

步骤S103、根据所述行驶数据和所述环境数据，构建状态空间；

本实施例中，所构建的所述动作空间包括从所述无人驾驶车辆的加速度最小值至所述无人驾驶车辆的加速度最大值的范围。令a为强化学习的动作空间，采用实际收集的无人驾驶加速度数据的变化范围经过正态分布拟合后所获得，a＝[a_min,a_max]，其中，a_min表示实际加速度数据的最小值，a_max表示实际加速度数据的最大值。

s为强化学习的状态空间，根据环境中交叉路口车道数n所建立状态空间：

其中，

表示所述车辆经过交叉方向的第一条车道相邻最近前车的位置，

表示所述车辆所经过交叉方向的第一条车道相邻最近前车的速度，

表示所述车辆所经过交叉方向的第一条车道相邻最近后车的位置，

表示所述车辆所经过交叉方向的第一条车道相邻最近后车的速度，小角标从1，2，3……到n分别代表距离所述车辆从近到远所经过车道的编号，p_echo代表所述车辆的位置，v_echo代表所述车辆的速度。本实施例中，前车表示与自动驾驶的车辆处于同一行驶方向的车辆，后车表示与自动驾驶的车辆初一相反行驶方向的车辆。

步骤S104、基于所述动作空间和所述状态空间，利用交叉路口行为模型预测所述无人驾驶车辆的驾驶动作；

步骤S105、基于所述驾驶动作，控制所述无人驾驶车辆在所述交叉路口的行为，其中，所述交叉路口行为模型是按以下方式预先构建的：基于演员-评论家强化学习框架，在动作神经网络和评论神经网络中分别结合单步循环神经网络。

本步骤中，参考图2、3，交叉路口行为模型包括动作神经网络和评论神经网络，所述动作神经网络和评论神经网络分别有输入层、两层隐藏层和输出层，所述隐藏层的第一层为循环神经网络；所述循环神经网络步长为1，在每个时刻t结束后初始化所述循环神经网络的初始状态。

作为一个可选的实施例，参考图4，对于前述实施例中的步骤S102，其还可以包括以下步骤：

步骤S401、采用均值滤波算法对所述行驶数据进行滤波；

步骤S402、采用滑动窗口对经过滤波的所述行驶数据进行平滑处理；

步骤S403、提取经过平滑处理的所述行驶数据的概率密度分布曲线；

步骤S404、对所述概率密度分布曲线进行拟合处理；

步骤S405、基于经过拟合处理的所述概率密度分布曲线，构建所述动作空间。

作为一个可选的实施例，参考图5，对于前述实施例中交叉路口行为模型是通过以下操作来训练的：

步骤S501、初始化所述交叉路口行为模型的网络参数；

本步骤中，初始化动作神经网络、评论神经网络和循环神经网络的权重θ,φ，ω，初始化目标网络θ^-←θ,φ^-←φ。

在仿真场景中迭代执行下列循环操作，直到达到预设的循环步数或收敛条件：

步骤S502、根据当前时刻的状态，利用结合了所述单步循环神经网络的所述动作神经网络来预测当前动作；

步骤S503、执行所述当前动作，以得到当前时刻的奖励和当前时刻的下一时刻的状态；

本实施例中，r为强化学习的奖励函数，奖励函数分别考虑安全性和平滑性,具体为:通过对实际收集数据的分析，设计针对车辆行驶安全性的函数R_d:距离无人驾驶车交叉方向越近的车道同时距离车辆越近，所承受的惩罚越高，结合每个车道的情况，设置安全性的函数,采用对数函数进行描述：r_dn＝ω₁log_a(|d_p|-n)+ω₂log_a(|d_f|-n),(0＜a＜1)，d_p为在第n条车道相邻最近前车距离无人驾驶车辆的横向距离，d_f为在第n条车道相邻最近后车距离无人驾驶车辆的横向距离，最终r_d＝r_d1+r_d2+......+r_dn；通过对数据的聚类分析，设计针对车辆行驶平滑性的函数r_s：在无人驾驶车辆行驶过程中，加速度变化的绝对值越大，所承受的惩罚越高：r_s＝ω₃|a_c|。奖励函数中相关性系数ω₁,ω₂,ω₃根据实际情况进行设定，在后续训练过程中进行调整。由此得到最终的奖励函数r表达式r＝r_d+r_s。

根据所述车辆当前时刻状态s_t在所述交叉路口行为模型中预测动作a_t，执行动作a_t得到当前时刻的奖励函数的值r_t和下一时刻的状态s_t+1。在仿真场景中进行回合训练，为了符合真实场景的驾驶员反应时间，仿真场景每隔0.3s采取一次动作输出，在每个时间步t开始时，初始化循环神经网络的初始状态c_init1、c_init2、c_init3、c_init4、c_init5，根据当前时刻状态s_t通过结合单步循环神经网络的动作神经网络预测并选取所执行的动作a_t＝π_φ(s_t,c_init1)+ε，其中，ε为噪声，ε～N(0,σ)。执行动作a_t得到此时刻的奖励r_t和下一时刻的状态s_t+1。

步骤S504、将由所述当前时刻的状态、所述当前动作、所述下一时刻的状态和所述当前时刻的奖励构成的元组存入经验回放池；

步骤S505、从所述经验回放池随机抽取预设数量的经验元组；

本实施例中，将当前时刻的元组(s_t,a_t,s_t+1,r_t)存入经验回放池M，并从经验回放池随机抽取小批量N的经验(s_k,a_k,s_k+1,r_k)。

步骤S506、根据所抽取的经验元组，利用结合了所述单步循环神经网络的所述评论神经网络来预测目标状态-动作值和真实状态-动作值；

本步骤中，结合单步循环神经网络的预测能力利用目标评论神经网络对目标状态-动作值进行计算，具体计算如下:

式中，y_k代表折扣后的目标状态-动作值，

用于预测目标状态-动作值，γ为折扣因子，当本回合结束时，done置1，其余时刻done置0。

结合单步循环神经网络利用评论神经网络对真实状态-动作值进行预测并更新评论神经网络损失函数，具体如下所示：

式中，Q_θ(s_k,a_k,c_init4)用来预测真实的状态-动作值。

步骤S507、根据所预测的目标状态-动作值和真实状态-动作值，计算所述评论神经网络的损失函数和所述动作神经网络的损失函数；

本步骤中，动作神经网络损失函数表示为：

式中，π_φ(s_k,c_init5)用于预测在状态s_k下的动作值。

步骤S508、对所述评论神经网络的损失函数和所述动作神经网络的损失函数进行反向转递，以调整所述网络参数；

本步骤中，调整所述网络参数包括：根据成功率、鲁棒性、收敛性、稳定性中的至少一个。对评论神经网络和动作神经网络的损失函数进行反向传递并对评论神经网络和动作神经网络参数根据相应的学习率l_c、l_a进行优化，优化器可以采用Adam。

对动作目标网络φ^-和评论目标网络θ^-参数进行软更新。

θ^-←τθ+(1-τ)θ^-

φ^-←τφ+(1-τ)φ^-

式中，τ为软更新折扣系数。

步骤S509、将所述下一时刻作为当前时刻。

可见，在本实施例中，使用单步循环神经网络结合以动作-评论神经网络为框架的强化学习算法，在不破环强化学习独立同分布特性的基础上，最大程度上保留了原来的网络结构，同时结合了单步循环神经网络，提高了强化学习整体的预测能力，从而提高了算法的稳定性。从而为无人驾驶交叉路口的行为决策提供了一种新的解决方案，能够有效处理交叉路口的各类场景。

作为一个可选的实施例，参考图6，本说明书的交叉路口行为模型训练之后还可以进一步包括：将所述训练完成的模型和车辆数据加载到实际的无人驾驶车辆中，在实际场景中对模型进行测试。

本实施例中，将采集的总车流数据按照预设的比例分为训练数据与测试数据，将所述训练数据输入所述训练完成的模型得到训练结果，使用测试数据对训练结果进行对比验证，并根据性能指标对所述训练完成的模型进行评估。

将评估后的模型的参数保存后，将保存的模型的参数输入到无人驾驶车辆中，对所述评估后的模型进行测试，实现交叉路口的行为决策。

需要说明的是，本公开实施例的方法可以由单个设备执行，例如一台计算机或服务器等。本实施例的方法也可以应用于分布式场景下，由多台设备相互配合来完成。在这种分布式场景的情况下，这多台设备中的一台设备可以只执行本公开实施例的方法中的某一个或多个步骤，这多台设备相互之间会进行交互以完成所述的方法。

需要说明的是，上述对本公开的一些实施例进行了描述。其它实施例在所附权利要求书的范围内。在一些情况下，在权利要求书中记载的动作或步骤可以按照不同于上述实施例中的顺序来执行并且仍然可以实现期望的结果。另外，在附图中描绘的过程不一定要求示出的特定顺序或者连续顺序才能实现期望的结果。在某些实施方式中，多任务处理和并行处理也是可以的或者可能是有利的。

基于同一发明构思，与上述任意实施例方法相对应的，本公开还提供了一种用于交叉路口场景的自动驾驶装置，参考图7，所述交叉路口行为模型构建装置，包括：

获取模块701，用于获取无人驾驶车辆的行驶数据和交叉路口的环境数据；

动作空间构建模块702，用于根据所述行驶数据，构建动作空间；

状态空间构建模块703，用于根据所述行驶数据和所述环境数据，构建状态空间；

预测模块704，用于基于所述动作空间和所述状态空间，利用交叉路口行为模型预测所述无人驾驶车辆的驾驶动作；

控制模块705，用于基于所述驾驶动作，控制所述无人驾驶车辆在所述交叉路口的行为，

为了描述的方便，描述以上装置时以功能分为各种模块分别描述。当然，在实施本公开时可以把各模块的功能在同一个或多个软件和/或硬件中实现。

上述实施例的装置用于实现前述任一实施例中相应的交叉路口行为模型构建方法，并且具有相应的方法实施例的有益效果，在此不再赘述。

基于同一发明构思，与上述任意实施例方法相对应的，本公开还提供了一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现上任意一实施例所述的交叉路口行为模型构建方法。

图8示出了本实施例所提供的一种更为具体的电子设备硬件结构示意图，该设备可以包括：处理器1010、存储器1020、输入/输出接口1030、通信接口1040和总线1050。其中处理器1010、存储器1020、输入/输出接口1030和通信接口1040通过总线1050实现彼此之间在设备内部的通信连接。

处理器1010可以采用通用的CPU(Central Processing Unit，中央处理器)、微处理器、应用专用集成电路(Application Specific Integrated Circuit，ASIC)、或者一个或多个集成电路等方式实现，用于执行相关程序，以实现本说明书实施例所提供的技术方案。

存储器1020可以采用ROM(Read Only Memory，只读存储器)、RAM(Random AccessMemory，随机存取存储器)、静态存储设备，动态存储设备等形式实现。存储器1020可以存储操作系统和其他应用程序，在通过软件或者固件来实现本说明书实施例所提供的技术方案时，相关的程序代码保存在存储器1020中，并由处理器1010来调用执行。

输入/输出接口1030用于连接输入/输出模块，以实现信息输入及输出。输入输出/模块可以作为组件配置在设备中(图中未示出)，也可以外接于设备以提供相应功能。其中输入设备可以包括键盘、鼠标、触摸屏、麦克风、各类传感器等，输出设备可以包括显示器、扬声器、振动器、指示灯等。

通信接口1040用于连接通信模块(图中未示出)，以实现本设备与其他设备的通信交互。其中通信模块可以通过有线方式(例如USB、网线等)实现通信，也可以通过无线方式(例如移动网络、WIFI、蓝牙等)实现通信。

总线1050包括一通路，在设备的各个组件(例如处理器1010、存储器1020、输入/输出接口1030和通信接口1040)之间传输信息。

需要说明的是，尽管上述设备仅示出了处理器1010、存储器1020、输入/输出接口1030、通信接口1040以及总线1050，但是在具体实施过程中，该设备还可以包括实现正常运行所必需的其他组件。此外，本领域的技术人员可以理解的是，上述设备中也可以仅包含实现本说明书实施例方案所必需的组件，而不必包含图中所示的全部组件。

上述实施例的电子设备用于实现前述任一实施例中相应的交叉路口行为模型构建方法，并且具有相应的方法实施例的有益效果，在此不再赘述。

基于同一发明构思，与上述任意实施例方法相对应的，本说明书一个或多个实施例还提供了一种非暂态计算机可读存储介质，所述非暂态计算机可读存储介质存储计算机指令，所述计算机指令用于使所述计算机执行如上任一实施例所述的用于交叉路口场景的自动驾驶方法。

本实施例的计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括，但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带，磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质，可用于存储可以被计算设备访问的信息。

上述实施例的存储介质存储的计算机指令用于使所述计算机执行如上任一实施例所述的用于交叉路口场景的自动驾驶方法，并且具有相应的方法实施例的有益效果，在此不再赘述。

所属领域的普通技术人员应当理解：以上任何实施例的讨论仅为示例性的，并非旨在暗示本公开的范围(包括权利要求)被限于这些例子；在本公开的思路下，以上实施例或者不同实施例中的技术特征之间也可以进行组合，步骤可以以任意顺序实现，并存在如上所述的本公开实施例的不同方面的许多其它变化，为了简明它们没有在细节中提供。

本公开实施例旨在涵盖落入所附权利要求的宽泛范围之内的所有这样的替换、修改和变型。因此，凡在本公开实施例的精神和原则之内，所做的任何省略、修改、等同替换、改进等，均应包含在本公开的保护范围之内。

Claims

1.一种用于交叉路口场景的自动驾驶方法，包括：

获取无人驾驶车辆的行驶数据和交叉路口的环境数据；

根据所述行驶数据，构建动作空间；

根据所述行驶数据和所述环境数据，构建状态空间；

2.根据权利要求1所述的方法，其中，所述动作神经网络的第一层隐藏层和所述评论神经网络的第一层隐藏层分别被替换成所述单步循环神经网络。

3.根据权利要求1或2所述的方法，其中，根据所述行驶数据构建所述动作空间包括：

采用均值滤波算法对所述行驶数据进行滤波；

采用滑动窗口对经过滤波的所述行驶数据进行平滑处理；

提取经过平滑处理的所述行驶数据的概率密度分布曲线；

对所述概率密度分布曲线进行拟合处理；

基于经过拟合处理的所述概率密度分布曲线，构建所述动作空间。

4.根据权利要求3所述的方法，其中，所构建的所述动作空间包括从所述无人驾驶车辆的加速度最小值至所述无人驾驶车辆的加速度最大值的范围。

5.根据权利要求1或2所述的方法，其中，根据所述行驶数据和所述环境数据构建所述状态空间包括：

根据所述环境数据中指示的所述无人驾驶车辆要经过的各个交叉方向车道中与所述无人驾驶车辆相邻的车辆的位置和速度，以及所述行驶数据中指示的所述无人驾驶车辆的位置和速度，构建所述状态空间。

6.根据权利要求1或2所述的方法，其中，所述交叉路口行为模型是通过以下操作来训练的：

初始化所述交叉路口行为模型的网络参数；

根据当前时刻的状态，利用结合了所述单步循环神经网络的所述动作神经网络来预测当前动作；

执行所述当前动作，以得到当前时刻的奖励和当前时刻的下一时刻的状态；

将由所述当前时刻的状态、所述当前动作、所述下一时刻的状态和所述当前时刻的奖励构成的元组存入经验回放池；

从所述经验回放池随机抽取预设数量的经验元组；

根据所抽取的经验元组，利用结合了所述单步循环神经网络的所述评论神经网络来预测目标状态-动作值和真实状态-动作值；

根据所预测的目标状态-动作值和真实状态-动作值，计算所述评论神经网络的损失函数和所述动作神经网络的损失函数；

对所述评论神经网络的损失函数和所述动作神经网络的损失函数进行反向转递，以调整所述网络参数；

将所述下一时刻作为当前时刻。

7.根据权利要求6所述的方法，其中，调整所述网络参数包括：

根据成功率、鲁棒性、收敛性、稳定性中的至少一个，调整所述网络参数。

8.一种用于交叉路口场景的自动驾驶装置，包括：

9.一种电子设备，包括存储器、处理器及存储在所述存储器上并可由所述处理器执行的计算机程序，其中，所述处理器在执行所述计算机程序时实现根据权利要求1至7中任意一项所述的方法。

10.一种非暂态存储介质，所述非暂态存储介质上存储有计算机指令，所述计算机指令在由计算机执行时，使所述计算机实现根据权利要求1至7中任意一项所述的方法。