CN109726676B

CN109726676B - 自动驾驶系统的规划方法

Info

Publication number: CN109726676B
Application number: CN201811622988.XA
Authority: CN
Inventors: 陈子璇; 章宗长
Original assignee: Suzhou University
Current assignee: NANQI XIANCE (NANJING) TECHNOLOGY Co.,Ltd.
Priority date: 2018-12-28
Filing date: 2018-12-28
Publication date: 2020-07-07
Anticipated expiration: 2038-12-28
Also published as: CN109726676A

Abstract

本发明公开了一种自动驾驶系统的规划方法。本发明一种自动驾驶系统的规划方法，包括：S1、当所述系统获取了当前道路环境图像g后，利用卷积神经网络中的过滤器提取道路图像的结构及路况信息φ，φ经由映射函数f_R得到当前道路环境图像的奖赏信息R、经由映射函数f_P得到用于非规则图形卷积操作的核函数K_wp的初始化，并利用图像的邻接矩阵作为K_wp的激活参数得到初始的卷积操作子P。本发明的有益效果：本发明公开的基于广义异步值迭代网络模型的深度强化学习方法，能够很好地应对现有的自动驾驶系统在结构复杂、路况信息未知的道路环境中无法进行高成功率和高准确率的道路规划的问题。

Description

自动驾驶系统的规划方法

技术领域

本发明属于自动驾驶系统中道路规划的技术领域，具体涉及到多种非规则的道路环境，利用嵌入广义异步值迭代网络模型的深度强化学习方法及仿真自动驾驶系统在结构复杂且路况信息未知的道路环境中进行策略规划。

背景技术

目前，在自动驾驶的车辆领域中，根据道路结构及道路信息复杂程度来对道路规划策略进行调整的应用越来越普遍。例如，在包含多个弯道和岔路口的路况中，车辆不仅要适应每个弯道的难度并顺利通过每个不同弯度的弯道，还要能准确地选择出能通往目标处的岔路口且最终到达目标点。但在目前的仿真自动驾驶系统中，随着道路结构和路况信息复杂度的增加，系统还不能很好的在非规则的道路环境中进行高准确率的策略规划，这会导致系统在投入应用时，用户的驾驶体验大大下降，甚至还可能会增加驾驶的风险性。因此我们急切需要一种仿真自动驾驶系统，使得其在道路结构更复杂或路况信息有所缺失的情况下，仍能较快地获得一个或多个最优的行驶策略。

强化学习是智能体(Agent)以“试错”的方式进行学习，通过与环境进行交互获得的奖赏指导行为，目标是使智能体获得最大的奖赏。强化学习中由环境提供的强化信号是对产生动作的好坏作一种评价(通常为标量信号)，而不是直接告诉强化学习系统(Reinforcement learning system)如何去产生正确的动作。通过这种方式，强化学习系统在行动-评价的环境中获得知识，改进行动方案以适应环境。利用强化学习算法来进行策略规划并将其运用到自动驾驶系统的训练模块中，可以使得系统中的网络参数能够根据与环境的交互实时的得到更新，以训练出更好的道路规划策略。

卷积网是一种神经网络结构。近几年来，卷积神经网(Convolutional NeuralNetwork,CNN)在图像识别领域不断出现新的突破。现在，CNN已经成为众多科学领域的研究热点之一，特别是在模式分类领域，由于该网络避免了对图像的复杂前期预处理，可以直接输入原始图像，因而得到了更为广泛的应用。

发明内容

本发明要解决的技术问题是提供一种自动驾驶系统的规划方法，基于广义异步值迭代网络模型的，可在道路结构复杂、路况信息未知的环境中进行道路规划的深度强化学习方法，用于解决因道路结构太复杂、环境信息不足而导致现有的自动驾驶系统无法进行精准策略规划的难题。该方法具有准确性高、泛化能力强、处理时间短等优点，在自动驾驶车辆领域中有广泛的应用场景。

为了解决上述技术问题，本发明提供了一种自动驾驶系统的规划方法，包括：

S1、当所述系统获取了当前道路环境图像g后，利用卷积神经网络中的过滤器提取道路图像的结构及路况信息φ，φ经由映射函数f_R得到当前道路环境图像的奖赏信息R、经由映射函数f_P得到用于非规则图形卷积操作的核函数K_wp的初始化，并利用图像的邻接矩阵作为K_wp的激活参数得到初始的卷积操作子P；奖赏信息R为一个表示道路图像中各节点奖赏值的矩阵，其中目标节点处的奖赏值最大；卷积操作子P为一个表示道路图像中各相连节点之间边的权重的矩阵，其通道个数为图像中节点度的最大值；由奖赏信息R和卷积操作子P进行初始值迭代计算得到图中各节点的初始状态值函数V₀；

S2、广义异步规划模块的结构是一个类卷积神经网络，S1中获得的奖赏信息R以及初始状态值函数V₀的和作为广义异步规划模块的初始输入，卷积操作子P作为广义异步规划模块中的卷积核，三者进行异步的卷积操作以获得在每轮值迭代计算中，各个通道上对于整个图像中各节点的状态—动作值函数，再经由最大池化操作获得每轮值迭代计算的状态值函数。

S3、在广义异步规划模块中，模块会根据第一轮异步值迭代之后的贝尔曼误差|V₁-V₀|，利用两种优先级定义方法来初始化每个节点的优先级

I₀(s)，并根据各节点的优先级来定义初始阈值Th₀；从第二轮异步值迭代开始，在之后的每次异步值迭代开始之前，网络根据当前图像中节点优先级的阈值Th_m，选取需要进行值更新的节点集合

并得到这些节点集合对应的卷积操作子

将V_m与奖赏信息R的和、卷积操作子

输入至广义异步规划模块中，经过S2操作完成一次值更新。由于在值更新之后，部分节点的值函数发生了变化，因此这些节点的优先级也会进行更新；经过一定轮数的异步值迭代后，广义异步规划模块会输出图中各个节点值函数的最优值V^*的近似值以及当前网络的网络参数w_P；

S4、将获得的道路环境图像中所有节点的近似最优值函数以及网络参数输入训练模块中。训练模块中的网络参数训练方式为：在图像中随机选择一个起始节点s₀，根据与之相连的节点的值函数的最大值来获取下一个动作，直到到达目标节点s_g或当前时间步t到达最大值t_max时，一个训练情节结束；一个情节结束时，根据此条路径所获得的累积奖赏以及在S3中获得的节点值函数，利用情节式加权双Q学习算法来反向更新网络参数。直到训练过程结束，获得一个近似最优的网络参数w_P；

S5、所述系统会保存S1中输入至系统的道路图像信息以及S4中根据所输入道路图像训练得到的网络参数w_P，并当该系统接收到一张已有的路环境图像时，能迅速的获得用于该道路图像的策略；

S6、当所述系统接收到一张新的道路环境图像时，若接收到的道路环境图像在系统的服务器中没有与之对应的道路信息及策略规划信息可用，那么系统的广义异步值迭代网络可根据已训练好的网络参数w_P，根据S3操作较为迅速地在新的道路环境中获得一个或多个策略，并在系统与道路环境的交互过程中，利用S4操作来持续地训练w_P。；

S7、所述系统会持续的将新收到的道路环境图像存储在数据库中，并结合其之前已存储的道路环境图像信息，不断地修正由于已有的道路环境图像的信息不足而造成的规划误差，从而提高系统所获策略的精准度。

在其中一个实施例中，多张结构信息及路况信息已知的道路环境图像样本根据它们包含的节点数目以及边的数目被表示为相应大小的非规则无向图，利用全连接网络中的多个过滤器以及图中节点的连接性，为每张非规则图像产生一个可对所有节点进行卷积操作的卷积操作子。

在其中一个实施例中，当一张新的道路环境图像样本输入至系统时，经过卷积神经网络的过滤器提取之后的新图像的道路结构以及路况信息会进一步地对广义异步值迭代网络之前保存的已训练好的网络参数进行更新。

在其中一个实施例中，系统中广义异步值迭代模块采用类卷积神经网络的结构，其中的卷积操作相当于值迭代算法中的动作值函数更新步骤，最大池化操作相当于值迭代算法中的状态值函数更新步骤。

在其中一个实施例中，训练该系统需要道路环境图像数据作为样本，已存储的图像数据和新加入的图像数据以及实时规划数据可用于共同训练该系统，以使得系统能进行更为精准的规划。当一张新的道路信息图像被输入后，系统利用已训练好的网络参数和网络模型，经过一定次数的广义异步值迭代即可输出适用于该图像的道路规划策略。

一种计算机设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现任一项所述方法的步骤。

一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现任一项所述方法的步骤。

一种处理器，所述处理器用于运行程序，其中，所述程序运行时执行任一项所述的方法。

本发明首先将输入网络的原始道路环境图像通过卷积神经网络中的过滤器来提取输入图像信息中的道路结构及路况信息φ，再通过映射函数f_R、 f_P获得奖赏信息R及非规则图形卷积操作子P，并由R和P 进行第一轮值迭代计算得到图中各节点的初始状态值函数V₀。当车辆开始行驶时，利用网络中的广义异步规划模块执行各节点值函数的计算，最终广义异步规划模块会输出整张图像上所有节点的近似最优值函数V^*。通过训练模块在交互过程中不断地训练网络参数w_P，从而获得一个或多个能泛化至未知的道路环境的最优策略。本发明中的网络结构对传统的值迭代网络进行了多处改进：对每张输入的道路环境图像执行值迭代运算之前，网络会利用贝尔曼误差来定义图像中各节点的优先级，从而在每一轮值迭代中都可根据节点优先级来异步的执行值更新。除此之外，经过一定时间步，网络可自动地利用情节式加权双Q学习算法进行网络中权重参数的调整，不需要人为的干预，具有很好的泛化性质，所以具有很高的使用价值；网络可以通过不断训练来调整、优化网络权重，对于新输入的道路环境图像，只需将其加入到训练集中，再次重新训练网络，即可完成系统的升级，所以具有持续使用性；目前自动驾驶车辆中安装的计算机系统的计算能力完全能够满足本发明的需要，只需更新系统就可以应用，所以具有很强的可行性和推广性。

本发明的有益效果：(1)本发明公开的基于广义异步值迭代网络模型的深度强化学习方法，能够很好地应对现有的自动驾驶系统在结构复杂、路况信息未知的道路环境中无法进行高成功率和高准确率的道路规划的问题，广义异步值迭代网络首先通过卷积神经网络中的过滤器对输入的道路环境图像中的重要信息进行提取，后利用映射函数获取道路环境图像的奖赏信息以及用于执行图卷积操作的非规则图形卷积操作子，并利用网络中的广义异步规划模块及训练模块，对所输入的结构复杂、路况信息未知的道路环境图像规划出一个或多个最优策略，实现网络策略规划的目的。广义异步值迭代网络模型是一种将异步值函数更新方法和非规则图像卷积方法应用于传统的值迭代网络中的网络模型，以使得对于结构非规则分布的道路图像，策略规划过程也能成功的执行。除此之外，通过对图像中各节点设置优先级来进行节点值函数的异步更新，能够减少图像中的无关节点对策略规划过程的影响，提高算法的性能。(2)本发明所述的广义异步值迭代网络中的训练模块利用情节式加权双Q学习算法，根据系统与环境的实时交互信息来反向更新网络参数，使得系统获得的策略能够具有很好的泛化能力。(3)本发明所述的仿真自动驾驶系统所感知的道路图像上的各节点为具有马尔科夫性质的节点，具有马尔科夫性质的节点的未来状态只与当前状态有关，与之前的状态没有关系，因此无需保存过去的信息，只需专注于当前自身和前方道路的位置，节约了成本。(4)本发明所述的仿真自动驾驶系统能做到实时模拟当前策略，通过广义异步值迭代网络中的策略规划过程能对所输入的当前道路环境图像快速地模拟出多条成功的最优路径。(5)本发明所述的仿真自动驾驶系统在结构复杂、路况信息未知的道路环境中进行策略规划时，通过所获得的奖赏信息，可以有效区分目标节点、非目标节点以及障碍物，提高系统策略规划的速度，并且在一定程度上使得该系统的规划过程具有目标导向性。综上所述，此发明具有非常大的使用价值和实际意义。

附图说明

图1是本发明自动驾驶系统的规划方法用于无人驾驶车辆道路规划的一个实例。

图2是本发明自动驾驶系统的规划方法中的两个功能模块。

图3是本发明自动驾驶系统的规划方法中中的广义异步规划模块中每轮异步值更新(基于V值来更新每个节点的优先级)。

具体实施方式

下面结合附图和具体实施例对本发明作进一步说明，以使本领域的技术人员可以更好地理解本发明并能予以实施，但所举实施例不作为对本发明的限定。

本专利的创新点之一在于，传统自动驾驶系统的规划策略无法很好地泛化至道路结构更复杂、路况信息未知的道路环境中，这样会降低用户的驾驶体验，甚至增加驾驶的风险性，而本专利运用了值迭代网络的来执行规划功能，使得无人驾驶的车辆在行驶过程中所获得的规划策略即便在结构复杂且路况信息未知的道路环境中也具有很好的泛化能力。本专利的创新点之二在于，利用特殊的非规则图形卷积操作子来执行卷积过程，使得网络不仅能用于一般的规则道路环境的应用场景中，还能够很好地适用于结构非规则分布的道路环境的策略规划中，从而达到“广义”的目的。本专利的创新点之三在于，利用情节式加权双Q学习算法来训练系统内部的广义异步值迭代网络的参数，使得网络能在系统与环境交互的过程中不断地进行反向更新，从而使得获得更近似于真实环境的网络参数，使得策略能更好的泛化至更复杂且更具规划难度的道路环境中。本专利的创新点之四在于，利用网络结构保存已输入的道路图像数据，并随着输入的道路图像的不断增多，所规划得到的策略的精度也会越来越高。本专利的创新点之五在于，由于在传统的值迭代网络中，每次的值迭代过程都需要更新所有状态的值函数，因此执行完所有迭代过程会比较耗时，而在自动驾驶车辆的行驶过程中，车辆对于突发状况的反应和处理方式对用户的体验和安全性来讲是很重要的，所以本专利在值迭代网络中加入异步方法，即在每轮值迭代过程中，根据每个节点的优先级来有偏地选择重要的节点进行异步值更新，以减少迭代所耗费的时间，提升规划的效率。

本发明在借鉴经典的图像识别方法以及非规则图像卷积方法的同时，还融合了值迭代理论，对于现有的自动驾驶车辆领域中策略规划存在的不足，有针对性地进行创新、完成改进，最后完成本发明。该仿真自动驾驶系统需输入多张道路结构、路况信息已知的环境图像进行网络参数的训练，并根据已有的信息，系统能够将策略泛化到道路结构、路况信息未知的环境中。

综上所述，融合广义异步值迭代方法和卷积神经网络的深度强化学习方法及仿真自动驾驶系统，能够极大地提高道路规划的效率、成功率和准确率。

S1、当所述系统获取了当前道路环境图像g后，利用卷积神经网络中的过滤器提取道路图像的结构及路况信息φ，φ经由映射函数f_R得到当前道路环境图像的奖赏信息R、经由映射函数f_P得到用于非规则图形卷积操作的核函数K_wp的初始化，并利用图像的邻接矩阵作为K_wp的激活参数得到初始的卷积操作子P。奖赏信息R为一个表示道路图像中各节点奖赏值的矩阵，其中目标节点处的奖赏值最大；卷积操作子P为一个表示道路图像中各相连节点之间边的权重的矩阵，其通道个数为图像中节点度的最大值。由奖赏信息R和卷积操作子P进行初始值迭代计算得到图中各节点的初始状态值函数V₀。

I₀(s)，并根据各节点的优先级来定义初始阈值Th₀。从第二轮异步值迭代开始，在之后的每次异步值迭代开始之前，网络根据当前图像中节点优先级的阈值Th_m，选取需要进行值更新的节点集合

并得到这些节点集合对应的卷积操作子

将V_m与奖赏信息R的和、卷积操作子

输入至广义异步规划模块中，经过S2操作完成一次值更新。由于在值更新之后，部分节点的值函数发生了变化，因此这些节点的优先级也会进行更新。经过一定轮数的异步值迭代后，广义异步规划模块会输出图中各个节点值函数的最优值V^*的近似值以及当前网络的网络参数w_P。

S4、将获得的道路环境图像中所有节点的近似最优值函数以及网络参数输入训练模块中。训练模块中的网络参数训练方式为：在图像中随机选择一个起始节点s₀，根据与之相连的节点的值函数的最大值来获取下一个动作，直到到达目标节点s_g或当前时间步t到达最大值t_max时，一个训练情节结束。一个情节结束时，根据此条路径所获得的累积奖赏以及在S3中获得的节点值函数，利用情节式加权双Q学习算法来反向更新网络参数。直到训练过程结束，获得一个近似最优的网络参数w_P。

S5、所述系统会保存S1中输入至系统的道路图像信息以及S4中根据所输入道路图像训练得到的网络参数w_P，并当该系统接收到一张已有的路环境图像时，能迅速的获得用于该道路图像的策略。

S6、当所述系统接收到一张新的道路环境图像时，若接收到的道路环境图像在系统的服务器中没有与之对应的道路信息及策略规划信息可用，那么系统的广义异步值迭代网络可根据已训练好的网络参数w_P，根据S3操作较为迅速地在新的道路环境中获得一个或多个策略，并在系统与道路环境的交互过程中，利用S4操作来持续地训练w_P。

在结构复杂、路况信息未知的道路环境中，所述自动驾驶系统在初次选择并执行当前动作前要获取由原始道路信息g经过卷积网络中的过滤器提取的道路图像中道路结构以及路况信息φ、奖赏信息R、卷积操作子

、折扣率γ、以及初始化广义异步值迭代模块的结构和内部参数。在本实施例中，初始化后，映射函数f_R为一个特征函数、f_p为一个全连接神经网络，其利用所输入的环境图像的邻接矩阵作为图像中相连节点之间的激活因子。奖赏信息R作为广义异步值迭代网络的输入、卷积操作子P中的参数w_P为广义异步值迭代网络中的权重、广义异步值迭代网络中的迭代次数为30次。

在本发明中，卷积操作子是由一个三层的全连接网络生成的。其中第一层输出神经元个数为32，第二层输出神经元个数为64，第三层输出神经元个数为 1，每一层都使用ReLU(·)＝max(0，·)作为它们的激活函数。整个全连接网络采用期望为零和方差为0.01的正态分布进行初始化。卷积操作子的通道数为 10。卷积操作子的定义公式如下：

P＝f_P(φ；w_P)

经过邻接矩阵进行激活，其中每个元素的定义为：

其中，当i＝j时，指示函数I_i＝j＝1，否则为0；当i＝k时，指示函数I_i＝k＝1，否则为0。如果节点i和节点j相连接，则 A_i，j＝1；否则，A_i，j＝0。K_wP(X_i，X_j)是由三层的全连接网络获得的核函数，其中X_i，X_j表示节点的嵌入信息。

映射函数f_R为一个特征函数，在其处理道路图像中各节点特征信息之前，首先利用一个图信号g∈{0，1}^N来编码节点信息，随后利用特征函数 f_R将各节点上的图奖赏信号映射为真实值。奖赏信息的定义公式如下： R＝f_R(φ；g)

S4中的广义异步规划模块，其模块结构如图3所示。在本发明中，广义异步规划模块中池化层的作用是优化特征，以此来降低不必要特征的干扰。此处采用最大池化算法，在经过卷积后的特征图内选择最大的特征值进行输出，使抽取到的特征具有平移旋转不变性等泛化能力，从而提高识别准确度。该层的操作并不改变特征图的维数。

下面是S4中广义异步规划的具体操作过程：

该模块共分为三个操作步骤(Step0到Step2)。对原始输入的环境图像的预处理网络由两个卷积层和两个最大池化层构成，该网络最终输出的道路结构及路况信息特征图的尺寸与输入的道路环境图像中节点个数N有关。

以下为每一步骤的具体操作：

Step0：本块的输入为一个节点数目为N的原始道路环境图像。本块由一个特征函数和一个全连接网络构成。在特征函数中，环境图像利用一个图信号对每个节点进行编码，使每个节点都获得一个真实值，后根据映射函数将这些真实值映射为一个包含所有节点奖赏信息的N×1矩阵。在全连接网络中，首先对于所有节点之间都初始化一个权重，后根据图邻接矩阵上的信息，对那些相连的节点之间的权重进行激活，否则不激活，获得一个包含所有相连节点之间边权重和转移信息的N×N矩阵。

Step1：本块的输入为上一块的输出。本块的神经网络结构为一个卷积层。在卷积层中，每个卷积核大小为N×N，卷积核个数为图中节点度的最大值。根据每个节点的优先级及当前阈值，在每个通道中，选择重要性高的节点在卷积核上所对应权重与奖赏以及值函数的和R+γV进行矩阵乘法。阈值的定义为：

其中，I(s_n)表示图中每个节点的优先级，m表示异步值迭代的轮数。在每一轮异步值迭代中，优先级大于阈值Th_m的节点集合通过线性函数f_V被选择出来进行值更新，定义公式为：

由此可得，动作值函数的更新公式为：

其中

表示这一轮值更新后的第a个通道上的所有节点的动作值函数，

表示在这一轮值迭代中，根据优先级所选择的所要进行值更新的节点集合，

表示第a个通道上，重要节点之间所连接的边的权重。V_old表示执行值更新时输入卷积层的所有节点的状态值函数。

经过卷积层之后每个通道上都获得了所有节点的动作值函数，其中部分未选中的节点的动作值函数没有更新。将这每个通道上所有节点的动作值函数

Q输入最大池化层。

Step2：本块的输入为上一块的输出。本块的神经网络结构为一个最大池化层。在最大池化操作中，对所有通道上的动作值函数Q求最大值，获得所有节点的状态值函数V_new。这一步骤的更新公式为：

其中

表示在这一轮值迭代中，未被选中进行值更新的节点集合，

表示未被选择来进行值更新的节点的状态值函数。

根据输出的状态值函数V_new与输入卷积层的状态值函数V_old的差值的绝对值来更新图中每个节点的优先级。这一步骤的公式有两种定义，第一种为直接使用贝尔曼误差来定义当前节点的优先级：

I(s)＝|V_new(s)-V_old(s)|

第二种是使用贝尔曼误差和转移概率的乘积来定义当前节点的前继节点的优先级：

I(s′)＝|V_new(s)-V_old(s)|·P_s′，s

其中s′为图中与当前节点相连接的前继节点，即与当前节点相连且可以与当前节点之间发生动作转移的节点，P_s′，s表示从前继节点转移到当前节点的转移概率。

在每个节点的优先级被更新之后，网络会把所获得的状态值函数V_new作为下一次迭代的输入，或待广义异步值迭代结束之后，作为训练模块的输入。

S5、将S4获得的道路环境图像中所有节点的近似最优值函数以及网络参数输入所述系统的训练模块中。训练模块中的网络参数训练方式为：在图像中随机选择一个起始节点s₀，根据与之相连的节点的值函数的最大值来获得下一个动作，直到到达目标节点s_g或当前时间步t到达最大值t_max时，一个训练情节结束。一个情节结束时，根据此条路径所获得的累积奖赏以及在S4中获得的起始节点的值函数，利用情节式加权双Q学习算法来反向更新网络参数。在情节式加权双Q学习算法中，情节中的每个时间步所执行的动作基于∈-greedy算法，由目标网络和行动网络共同决定。该步骤中所依据的动作值函数的定义为：

其中，w_P为算法中定义的目标网络的网络参数，w′_P为算法中定义的行动网络的网络参数，

是根据w_P获得的动作值函数，

是根据w′_P获得的动作值函数。

当一个情节结束时，根据当前所获路径的情况，初始化期望回报：

其中，T为一个训练情节结束时的时间步，β是根据目标网络和行为网络的一个启发式函数，用于对初始的期望回报进行加权，其定义为：

其中，c为一个实数且c≥0，a^*为当前时间步下,根据行为网络

所获的最优动作，a_L为当前时间步下，根据行为网络

所获的最差动作。

根据一个情节结束时所获得的路径，进行网络参数的更新。用于更新网络参数的损失函数定义为：

其中，R_t是时间步t内的期望回报，定义为： R_t＝(r_t+1+γR_t+1)，r_t+1表示在训练过程中，情节中的每一时间步所执行的动作所获的立即奖赏。当一个情节结束之后，根据w′_P的更新值来更新广义异步值迭代网络的目标网络参数w_P。

直到整个训练过程结束，获得一个近似最优的网络参数w_P。

以上所述实施例仅是为充分说明本发明而所举的较佳的实施例，本发明的保护范围不限于此。本技术领域的技术人员在本发明基础上所作的等同替代或变换，均在本发明的保护范围之内。本发明的保护范围以权利要求书为准。

Claims

1.一种自动驾驶系统的规划方法，其特征在于，包括：

S2、广义异步规划模块的结构是一个类卷积神经网络，S1中获得的奖赏信息R以及初始状态值函数V₀的和作为广义异步规划模块的初始输入，卷积操作子P作为广义异步规划模块中的卷积核，三者进行异步的卷积操作以获得在每轮值迭代计算中，各个通道上对于整个图像中各节点的状态-动作值函数，再经由最大池化操作获得每轮值迭代计算的状态值函数；

S3、在广义异步规划模块中，模块会根据第一轮异步值迭代之后的贝尔曼误差|V₁-V₀|，利用两种优先级定义方法来初始化每个节点的优先级I₀(s)，并根据各节点的优先级来定义初始阈值Th₀；从第二轮异步值迭代开始，在之后的每次异步值迭代开始之前，网络根据当前图像中节点优先级的阈值Th_m，选取需要进行值更新的节点集合

并得到这些节点集合对应的卷积操作子

将V_m与奖赏信息R的和、卷积操作子

输入至广义异步规划模块中，经过S2操作完成一次值更新；由于在值更新之后，部分节点的值函数发生了变化，因此这些节点的优先级也会进行更新；经过一定轮数的异步值迭代后，广义异步规划模块会输出图中各个节点值函数的最优值V^*的近似值以及当前网络的网络参数w_P；

S4、将获得的道路环境图像中所有节点的近似最优值函数以及网络参数输入训练模块中；训练模块中的网络参数训练方式为：在图像中随机选择一个起始节点s₀，根据与之相连的节点的值函数的最大值来获取下一个动作，直到到达目标节点s_g或当前时间步t到达最大值t_max时，一个训练情节结束；一个情节结束时，根据此条路径所获得的累积奖赏以及在S3中获得的节点值函数，利用情节式加权双Q学习算法来反向更新网络参数；直到训练过程结束，获得一个近似最优的网络参数w_P；

S6、当所述系统接收到一张新的道路环境图像时，若接收到的道路环境图像在系统的服务器中没有与之对应的道路信息及策略规划信息可用，那么系统的广义异步值迭代网络可根据已训练好的网络参数w_P，根据S3操作较为迅速地在新的道路环境中获得一个或多个策略，并在系统与道路环境的交互过程中，利用S4操作来持续地训练w_P；

2.如权利要求1所述的自动驾驶系统的规划方法，其特征在于，多张结构信息及路况信息已知的道路环境图像样本根据它们包含的节点数目以及边的数目被表示为相应大小的非规则无向图，利用全连接网络中的多个过滤器以及图中节点的连接性，为每张非规则图像产生一个可对所有节点进行卷积操作的卷积操作子。

3.如权利要求1所述的自动驾驶系统的规划方法，其特征在于，当一张新的道路环境图像样本输入至系统时，经过卷积神经网络的过滤器提取之后的新图像的道路结构以及路况信息会进一步地对广义异步值迭代网络之前保存的已训练好的网络参数进行更新。

4.如权利要求1所述的自动驾驶系统的规划方法，其特征在于，系统中广义异步值迭代模块采用类卷积神经网络的结构，其中的卷积操作相当于值迭代算法中的动作值函数更新步骤，最大池化操作相当于值迭代算法中的状态值函数更新步骤。

5.如权利要求1所述的自动驾驶系统的规划方法，其特征在于，训练该系统需要道路环境图像数据作为样本，已存储的图像数据和新加入的图像数据以及实时规划数据可用于共同训练该系统，以使得系统能进行更为精准的规划；当一张新的道路信息图像被输入后，系统利用已训练好的网络参数和网络模型，经过一定次数的广义异步值迭代即可输出适用于该图像的道路规划策略。

6.一种计算机设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其特征在于，所述处理器执行所述程序时实现权利要求1到5任一项所述方法的步骤。

7.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，该程序被处理器执行时实现权利要求1到5任一项所述方法的步骤。

8.一种处理器，其特征在于，所述处理器用于运行程序，其中，所述程序运行时执行权利要求1到5任一项所述的方法。