CN109726676B - 自动驾驶系统的规划方法 - Google Patents

自动驾驶系统的规划方法 Download PDF

Info

Publication number
CN109726676B
CN109726676B CN201811622988.XA CN201811622988A CN109726676B CN 109726676 B CN109726676 B CN 109726676B CN 201811622988 A CN201811622988 A CN 201811622988A CN 109726676 B CN109726676 B CN 109726676B
Authority
CN
China
Prior art keywords
value
image
road
network
node
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201811622988.XA
Other languages
English (en)
Other versions
CN109726676A (zh
Inventor
陈子璇
章宗长
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NANQI XIANCE (NANJING) TECHNOLOGY Co.,Ltd.
Original Assignee
Suzhou University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Suzhou University filed Critical Suzhou University
Priority to CN201811622988.XA priority Critical patent/CN109726676B/zh
Publication of CN109726676A publication Critical patent/CN109726676A/zh
Application granted granted Critical
Publication of CN109726676B publication Critical patent/CN109726676B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Image Analysis (AREA)
  • Traffic Control Systems (AREA)

Abstract

本发明公开了一种自动驾驶系统的规划方法。本发明一种自动驾驶系统的规划方法,包括:S1、当所述系统获取了当前道路环境图像g后,利用卷积神经网络中的过滤器提取道路图像的结构及路况信息φ,φ经由映射函数fR得到当前道路环境图像的奖赏信息R、经由映射函数fP得到用于非规则图形卷积操作的核函数Kwp的初始化,并利用图像的邻接矩阵作为Kwp的激活参数得到初始的卷积操作子P。本发明的有益效果:本发明公开的基于广义异步值迭代网络模型的深度强化学习方法,能够很好地应对现有的自动驾驶系统在结构复杂、路况信息未知的道路环境中无法进行高成功率和高准确率的道路规划的问题。

Description

自动驾驶系统的规划方法
技术领域
本发明属于自动驾驶系统中道路规划的技术领域,具体涉及到多种非规则 的道路环境,利用嵌入广义异步值迭代网络模型的深度强化学习方法及仿真自 动驾驶系统在结构复杂且路况信息未知的道路环境中进行策略规划。
背景技术
目前,在自动驾驶的车辆领域中,根据道路结构及道路信息复杂程度来对 道路规划策略进行调整的应用越来越普遍。例如,在包含多个弯道和岔路口的 路况中,车辆不仅要适应每个弯道的难度并顺利通过每个不同弯度的弯道,还 要能准确地选择出能通往目标处的岔路口且最终到达目标点。但在目前的仿真 自动驾驶系统中,随着道路结构和路况信息复杂度的增加,系统还不能很好的 在非规则的道路环境中进行高准确率的策略规划,这会导致系统在投入应用时, 用户的驾驶体验大大下降,甚至还可能会增加驾驶的风险性。因此我们急切需 要一种仿真自动驾驶系统,使得其在道路结构更复杂或路况信息有所缺失的情 况下,仍能较快地获得一个或多个最优的行驶策略。
强化学习是智能体(Agent)以“试错”的方式进行学习,通过与环境进行交 互获得的奖赏指导行为,目标是使智能体获得最大的奖赏。强化学习中由环境 提供的强化信号是对产生动作的好坏作一种评价(通常为标量信号),而不是直 接告诉强化学习系统(Reinforcement learning system)如何去产生正确的动作。 通过这种方式,强化学习系统在行动-评价的环境中获得知识,改进行动方案以 适应环境。利用强化学习算法来进行策略规划并将其运用到自动驾驶系统的训 练模块中,可以使得系统中的网络参数能够根据与环境的交互实时的得到更新, 以训练出更好的道路规划策略。
卷积网是一种神经网络结构。近几年来,卷积神经网(Convolutional NeuralNetwork,CNN)在图像识别领域不断出现新的突破。现在,CNN已经成为众多 科学领域的研究热点之一,特别是在模式分类领域,由于该网络避免了对图像 的复杂前期预处理,可以直接输入原始图像,因而得到了更为广泛的应用。
发明内容
本发明要解决的技术问题是提供一种自动驾驶系统的规划方法,基于广义 异步值迭代网络模型的,可在道路结构复杂、路况信息未知的环境中进行道路 规划的深度强化学习方法,用于解决因道路结构太复杂、环境信息不足而导致 现有的自动驾驶系统无法进行精准策略规划的难题。该方法具有准确性高、泛 化能力强、处理时间短等优点,在自动驾驶车辆领域中有广泛的应用场景。
为了解决上述技术问题,本发明提供了一种自动驾驶系统的规划方法,包 括:
S1、当所述系统获取了当前道路环境图像g后,利用卷积神经网络中的 过滤器提取道路图像的结构及路况信息φ,φ经由映射函数fR得到 当前道路环境图像的奖赏信息R、经由映射函数fP得到用于非规则图 形卷积操作的核函数Kwp的初始化,并利用图像的邻接矩阵作为Kwp的 激活参数得到初始的卷积操作子P;奖赏信息R为一个表示道路图像中 各节点奖赏值的矩阵,其中目标节点处的奖赏值最大;卷积操作子P为一个 表示道路图像中各相连节点之间边的权重的矩阵,其通道个数为图像中节点度 的最大值;由奖赏信息R和卷积操作子P进行初始值迭代计算得到图中 各节点的初始状态值函数V0
S2、广义异步规划模块的结构是一个类卷积神经网络,S1中获得的奖赏信 息R以及初始状态值函数V0的和作为广义异步规划模块的初始输入, 卷积操作子P作为广义异步规划模块中的卷积核,三者进行异步的卷积操作 以获得在每轮值迭代计算中,各个通道上对于整个图像中各节点的状态—动作 值函数,再经由最大池化操作获得每轮值迭代计算的状态值函数。
S3、在广义异步规划模块中,模块会根据第一轮异步值迭代之后的贝尔曼 误差|V1-V0|,利用两种优先级定义方法来初始化每个节点的优先级
I0(s),并根据各节点的优先级来定义初始阈值Th0;从第二轮异步值 迭代开始,在之后的每次异步值迭代开始之前,网络根据当前图像中节点优先 级的阈值Thm,选取需要进行值更新的节点集合
Figure BDA0001927317910000031
并得到这些节点 集合对应的卷积操作子
Figure BDA0001927317910000032
将Vm与奖赏信息R的和、卷积操作 子
Figure BDA0001927317910000033
输入至广义异步规划模块中,经过S2操作完成一次值更新。由于 在值更新之后,部分节点的值函数发生了变化,因此这些节点的优先级也会进 行更新;经过一定轮数的异步值迭代后,广义异步规划模块会输出图中各个节 点值函数的最优值V*的近似值以及当前网络的网络参数wP
S4、将获得的道路环境图像中所有节点的近似最优值函数以及网络参数输 入训练模块中。训练模块中的网络参数训练方式为:在图像中随机选择一个起 始节点s0,根据与之相连的节点的值函数的最大值来获取下一个动作,直 到到达目标节点sg或当前时间步t到达最大值tmax时,一个训练情 节结束;一个情节结束时,根据此条路径所获得的累积奖赏以及在S3中获得的 节点值函数,利用情节式加权双Q学习算法来反向更新网络参数。直到训练过 程结束,获得一个近似最优的网络参数wP
S5、所述系统会保存S1中输入至系统的道路图像信息以及S4中根据所输 入道路图像训练得到的网络参数wP,并当该系统接收到一张已有的路环境 图像时,能迅速的获得用于该道路图像的策略;
S6、当所述系统接收到一张新的道路环境图像时,若接收到的道路环境图 像在系统的服务器中没有与之对应的道路信息及策略规划信息可用,那么系统 的广义异步值迭代网络可根据已训练好的网络参数wP,根据S3操作较为 迅速地在新的道路环境中获得一个或多个策略,并在系统与道路环境的交互过 程中,利用S4操作来持续地训练wP。;
S7、所述系统会持续的将新收到的道路环境图像存储在数据库中,并结合 其之前已存储的道路环境图像信息,不断地修正由于已有的道路环境图像的信 息不足而造成的规划误差,从而提高系统所获策略的精准度。
在其中一个实施例中,多张结构信息及路况信息已知的道路环境图像样本 根据它们包含的节点数目以及边的数目被表示为相应大小的非规则无向图,利 用全连接网络中的多个过滤器以及图中节点的连接性,为每张非规则图像产生 一个可对所有节点进行卷积操作的卷积操作子。
在其中一个实施例中,当一张新的道路环境图像样本输入至系统时,经过 卷积神经网络的过滤器提取之后的新图像的道路结构以及路况信息会进一步地 对广义异步值迭代网络之前保存的已训练好的网络参数进行更新。
在其中一个实施例中,系统中广义异步值迭代模块采用类卷积神经网络的 结构,其中的卷积操作相当于值迭代算法中的动作值函数更新步骤,最大池化 操作相当于值迭代算法中的状态值函数更新步骤。
在其中一个实施例中,训练该系统需要道路环境图像数据作为样本,已存 储的图像数据和新加入的图像数据以及实时规划数据可用于共同训练该系统, 以使得系统能进行更为精准的规划。当一张新的道路信息图像被输入后,系统 利用已训练好的网络参数和网络模型,经过一定次数的广义异步值迭代即可输 出适用于该图像的道路规划策略。
一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上 运行的计算机程序,所述处理器执行所述程序时实现任一项所述方法的步骤。
一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行 时实现任一项所述方法的步骤。
一种处理器,所述处理器用于运行程序,其中,所述程序运行时执行任一 项所述的方法。
本发明首先将输入网络的原始道路环境图像通过卷积神经网络中的过滤器 来提取输入图像信息中的道路结构及路况信息φ,再通过映射函数fR、 fP获得奖赏信息R及非规则图形卷积操作子P,并由R和P 进行第一轮值迭代计算得到图中各节点的初始状态值函数V0。当车辆开始 行驶时,利用网络中的广义异步规划模块执行各节点值函数的计算,最终广义 异步规划模块会输出整张图像上所有节点的近似最优值函数V*。通过训练 模块在交互过程中不断地训练网络参数wP,从而获得一个或多个能泛化至 未知的道路环境的最优策略。本发明中的网络结构对传统的值迭代网络进行了 多处改进:对每张输入的道路环境图像执行值迭代运算之前,网络会利用贝尔 曼误差来定义图像中各节点的优先级,从而在每一轮值迭代中都可根据节点优 先级来异步的执行值更新。除此之外,经过一定时间步,网络可自动地利用情 节式加权双Q学习算法进行网络中权重参数的调整,不需要人为的干预,具有 很好的泛化性质,所以具有很高的使用价值;网络可以通过不断训练来调整、 优化网络权重,对于新输入的道路环境图像,只需将其加入到训练集中,再次 重新训练网络,即可完成系统的升级,所以具有持续使用性;目前自动驾驶车 辆中安装的计算机系统的计算能力完全能够满足本发明的需要,只需更新系统 就可以应用,所以具有很强的可行性和推广性。
本发明的有益效果:(1)本发明公开的基于广义异步值迭代网络模型的深 度强化学习方法,能够很好地应对现有的自动驾驶系统在结构复杂、路况信息 未知的道路环境中无法进行高成功率和高准确率的道路规划的问题,广义异步 值迭代网络首先通过卷积神经网络中的过滤器对输入的道路环境图像中的重要 信息进行提取,后利用映射函数获取道路环境图像的奖赏信息以及用于执行图 卷积操作的非规则图形卷积操作子,并利用网络中的广义异步规划模块及训练 模块,对所输入的结构复杂、路况信息未知的道路环境图像规划出一个或多个 最优策略,实现网络策略规划的目的。广义异步值迭代网络模型是一种将异步 值函数更新方法和非规则图像卷积方法应用于传统的值迭代网络中的网络模型,以使得对于结构非规则分布的道路图像,策略规划过程也能成功的执行。 除此之外,通过对图像中各节点设置优先级来进行节点值函数的异步更新,能 够减少图像中的无关节点对策略规划过程的影响,提高算法的性能。(2)本发 明所述的广义异步值迭代网络中的训练模块利用情节式加权双Q学习算法,根 据系统与环境的实时交互信息来反向更新网络参数,使得系统获得的策略能够 具有很好的泛化能力。(3)本发明所述的仿真自动驾驶系统所感知的道路图像 上的各节点为具有马尔科夫性质的节点,具有马尔科夫性质的节点的未来状态 只与当前状态有关,与之前的状态没有关系,因此无需保存过去的信息,只需专注于当前自身和前方道路的位置,节约了成本。(4)本发明所述的仿真自动 驾驶系统能做到实时模拟当前策略,通过广义异步值迭代网络中的策略规划过 程能对所输入的当前道路环境图像快速地模拟出多条成功的最优路径。(5)本 发明所述的仿真自动驾驶系统在结构复杂、路况信息未知的道路环境中进行策 略规划时,通过所获得的奖赏信息,可以有效区分目标节点、非目标节点以及 障碍物,提高系统策略规划的速度,并且在一定程度上使得该系统的规划过程 具有目标导向性。综上所述,此发明具有非常大的使用价值和实际意义。
附图说明
图1是本发明自动驾驶系统的规划方法用于无人驾驶车辆道路规划的一个 实例。
图2是本发明自动驾驶系统的规划方法中的两个功能模块。
图3是本发明自动驾驶系统的规划方法中中的广义异步规划模块中每轮异 步值更新(基于V值来更新每个节点的优先级)。
具体实施方式
下面结合附图和具体实施例对本发明作进一步说明,以使本领域的技术人 员可以更好地理解本发明并能予以实施,但所举实施例不作为对本发明的限定。
本专利的创新点之一在于,传统自动驾驶系统的规划策略无法很好地泛化 至道路结构更复杂、路况信息未知的道路环境中,这样会降低用户的驾驶体验, 甚至增加驾驶的风险性,而本专利运用了值迭代网络的来执行规划功能,使得 无人驾驶的车辆在行驶过程中所获得的规划策略即便在结构复杂且路况信息未 知的道路环境中也具有很好的泛化能力。本专利的创新点之二在于,利用特殊 的非规则图形卷积操作子来执行卷积过程,使得网络不仅能用于一般的规则道 路环境的应用场景中,还能够很好地适用于结构非规则分布的道路环境的策略 规划中,从而达到“广义”的目的。本专利的创新点之三在于,利用情节式加 权双Q学习算法来训练系统内部的广义异步值迭代网络的参数,使得网络能在系统与环境交互的过程中不断地进行反向更新,从而使得获得更近似于真实环 境的网络参数,使得策略能更好的泛化至更复杂且更具规划难度的道路环境中。 本专利的创新点之四在于,利用网络结构保存已输入的道路图像数据,并随着 输入的道路图像的不断增多,所规划得到的策略的精度也会越来越高。本专利 的创新点之五在于,由于在传统的值迭代网络中,每次的值迭代过程都需要更 新所有状态的值函数,因此执行完所有迭代过程会比较耗时,而在自动驾驶车 辆的行驶过程中,车辆对于突发状况的反应和处理方式对用户的体验和安全性 来讲是很重要的,所以本专利在值迭代网络中加入异步方法,即在每轮值迭代 过程中,根据每个节点的优先级来有偏地选择重要的节点进行异步值更新,以 减少迭代所耗费的时间,提升规划的效率。
本发明在借鉴经典的图像识别方法以及非规则图像卷积方法的同时,还融 合了值迭代理论,对于现有的自动驾驶车辆领域中策略规划存在的不足,有针 对性地进行创新、完成改进,最后完成本发明。该仿真自动驾驶系统需输入多 张道路结构、路况信息已知的环境图像进行网络参数的训练,并根据已有的信 息,系统能够将策略泛化到道路结构、路况信息未知的环境中。
综上所述,融合广义异步值迭代方法和卷积神经网络的深度强化学习方法 及仿真自动驾驶系统,能够极大地提高道路规划的效率、成功率和准确率。
S1、当所述系统获取了当前道路环境图像g后,利用卷积神经网络中的 过滤器提取道路图像的结构及路况信息φ,φ经由映射函数fR得到 当前道路环境图像的奖赏信息R、经由映射函数fP得到用于非规则图 形卷积操作的核函数Kwp的初始化,并利用图像的邻接矩阵作为Kwp的 激活参数得到初始的卷积操作子P。奖赏信息R为一个表示道路图像中 各节点奖赏值的矩阵,其中目标节点处的奖赏值最大;卷积操作子P为一个 表示道路图像中各相连节点之间边的权重的矩阵,其通道个数为图像中节点度 的最大值。由奖赏信息R和卷积操作子P进行初始值迭代计算得到图中 各节点的初始状态值函数V0
S2、广义异步规划模块的结构是一个类卷积神经网络,S1中获得的奖赏信 息R以及初始状态值函数V0的和作为广义异步规划模块的初始输入, 卷积操作子P作为广义异步规划模块中的卷积核,三者进行异步的卷积操作 以获得在每轮值迭代计算中,各个通道上对于整个图像中各节点的状态—动作 值函数,再经由最大池化操作获得每轮值迭代计算的状态值函数。
S3、在广义异步规划模块中,模块会根据第一轮异步值迭代之后的贝尔曼 误差|V1-V0|,利用两种优先级定义方法来初始化每个节点的优先级
I0(s),并根据各节点的优先级来定义初始阈值Th0。从第二轮异步值 迭代开始,在之后的每次异步值迭代开始之前,网络根据当前图像中节点优先 级的阈值Thm,选取需要进行值更新的节点集合
Figure BDA0001927317910000091
并得到这些节点 集合对应的卷积操作子
Figure BDA0001927317910000092
将Vm与奖赏信息R的和、卷积操作 子
Figure BDA0001927317910000093
输入至广义异步规划模块中,经过S2操作完成一次值更新。由于 在值更新之后,部分节点的值函数发生了变化,因此这些节点的优先级也会进 行更新。经过一定轮数的异步值迭代后,广义异步规划模块会输出图中各个节 点值函数的最优值V*的近似值以及当前网络的网络参数wP
S4、将获得的道路环境图像中所有节点的近似最优值函数以及网络参数输 入训练模块中。训练模块中的网络参数训练方式为:在图像中随机选择一个起 始节点s0,根据与之相连的节点的值函数的最大值来获取下一个动作,直 到到达目标节点sg或当前时间步t到达最大值tmax时,一个训练情 节结束。一个情节结束时,根据此条路径所获得的累积奖赏以及在S3中获得的 节点值函数,利用情节式加权双Q学习算法来反向更新网络参数。直到训练过 程结束,获得一个近似最优的网络参数wP
S5、所述系统会保存S1中输入至系统的道路图像信息以及S4中根据所输 入道路图像训练得到的网络参数wP,并当该系统接收到一张已有的路环境 图像时,能迅速的获得用于该道路图像的策略。
S6、当所述系统接收到一张新的道路环境图像时,若接收到的道路环境图 像在系统的服务器中没有与之对应的道路信息及策略规划信息可用,那么系统 的广义异步值迭代网络可根据已训练好的网络参数wP,根据S3操作较为 迅速地在新的道路环境中获得一个或多个策略,并在系统与道路环境的交互过 程中,利用S4操作来持续地训练wP
S7、所述系统会持续的将新收到的道路环境图像存储在数据库中,并结合 其之前已存储的道路环境图像信息,不断地修正由于已有的道路环境图像的信 息不足而造成的规划误差,从而提高系统所获策略的精准度。
在结构复杂、路况信息未知的道路环境中,所述自动驾驶系统在初次选择 并执行当前动作前要获取由原始道路信息g经过卷积网络中的过滤器提取 的道路图像中道路结构以及路况信息φ、奖赏信息R、卷积操作子
、折扣率γ、以及初始化广义异步值迭代模块的结构和内部参数。在 本实施例中,初始化后,映射函数fR为一个特征函数、fp为一个全连 接神经网络,其利用所输入的环境图像的邻接矩阵作为图像中相连节点之间的 激活因子。奖赏信息R作为广义异步值迭代网络的输入、卷积操作子P中 的参数wP为广义异步值迭代网络中的权重、广义异步值迭代网络中的迭代 次数为30次。
在本发明中,卷积操作子是由一个三层的全连接网络生成的。其中第一层 输出神经元个数为32,第二层输出神经元个数为64,第三层输出神经元个数为 1,每一层都使用ReLU(·)=max(0,·)作为它们的激活函数。整个全连接网 络采用期望为零和方差为0.01的正态分布进行初始化。卷积操作子的通道数为 10。卷积操作子的定义公式如下:
P=fP(φ;wP)
经过邻接矩阵进行激活,其中每个元素的定义为:
Figure BDA0001927317910000111
其中,当i=j时,指示函数Ii=j=1,否则为0;当i=k时, 指示函数Ii=k=1,否则为0。如果节点i和节点j相连接,则 Ai,j=1;否则,Ai,j=0。KwP(Xi,Xj)是由三层的全连接网络获得的 核函数,其中Xi,Xj表示节点的嵌入信息。
映射函数fR为一个特征函数,在其处理道路图像中各节点特征信息之 前,首先利用一个图信号g∈{0,1}N来编码节点信息,随后利用特征函数 fR将各节点上的图奖赏信号映射为真实值。奖赏信息的定义公式如下: R=fR(φ;g)
S4中的广义异步规划模块,其模块结构如图3所示。在本发明中,广义异 步规划模块中池化层的作用是优化特征,以此来降低不必要特征的干扰。此处 采用最大池化算法,在经过卷积后的特征图内选择最大的特征值进行输出,使 抽取到的特征具有平移旋转不变性等泛化能力,从而提高识别准确度。该层的 操作并不改变特征图的维数。
下面是S4中广义异步规划的具体操作过程:
该模块共分为三个操作步骤(Step0到Step2)。对原始输入的环境图像的预 处理网络由两个卷积层和两个最大池化层构成,该网络最终输出的道路结构及 路况信息特征图的尺寸与输入的道路环境图像中节点个数N有关。
以下为每一步骤的具体操作:
Step0:本块的输入为一个节点数目为N的原始道路环境图像。本块由一个 特征函数和一个全连接网络构成。在特征函数中,环境图像利用一个图信号对 每个节点进行编码,使每个节点都获得一个真实值,后根据映射函数将这些真 实值映射为一个包含所有节点奖赏信息的N×1矩阵。在全连接网络中,首先对 于所有节点之间都初始化一个权重,后根据图邻接矩阵上的信息,对那些相连 的节点之间的权重进行激活,否则不激活,获得一个包含所有相连节点之间边 权重和转移信息的N×N矩阵。
Step1:本块的输入为上一块的输出。本块的神经网络结构为一个卷积层。 在卷积层中,每个卷积核大小为N×N,卷积核个数为图中节点度的最大值。根 据每个节点的优先级及当前阈值,在每个通道中,选择重要性高的节点在卷积 核上所对应权重与奖赏以及值函数的和R+γV进行矩阵乘法。阈值的定义 为:
Figure BDA0001927317910000121
其中,I(sn)表示图中每个节点的优先级,m表示异步值迭代的轮 数。在每一轮异步值迭代中,优先级大于阈值Thm的节点集合通过线性函 数fV被选择出来进行值更新,定义公式为:
Figure BDA0001927317910000122
由此可得,动作值函数的更新公式为:
Figure BDA0001927317910000123
其中
Figure BDA0001927317910000124
表示这一轮值更新后的第a个通道上的所有节点的动作 值函数,
Figure BDA0001927317910000125
表示在这一轮值迭代中,根据优先级所选择的所要进行值更新 的节点集合,
Figure BDA0001927317910000126
表示第a个通道上,重要节点之间所连接的边的 权重。Vold表示执行值更新时输入卷积层的所有节点的状态值函数。
经过卷积层之后每个通道上都获得了所有节点的动作值函数,其中部分未 选中的节点的动作值函数没有更新。将这每个通道上所有节点的动作值函数
Q输入最大池化层。
Step2:本块的输入为上一块的输出。本块的神经网络结构为一个最大池化 层。在最大池化操作中,对所有通道上的动作值函数Q求最大值,获得所 有节点的状态值函数Vnew。这一步骤的更新公式为:
Figure BDA0001927317910000131
其中
Figure BDA0001927317910000132
表示在这一轮值迭代中,未被选中进行值更新的节点集合,
Figure BDA0001927317910000133
表示未被选择来进行值更新的节点的状态值函数。
根据输出的状态值函数Vnew与输入卷积层的状态值函数Vold的差 值的绝对值来更新图中每个节点的优先级。这一步骤的公式有两种定义,第一 种为直接使用贝尔曼误差来定义当前节点的优先级:
I(s)=|Vnew(s)-Vold(s)|
第二种是使用贝尔曼误差和转移概率的乘积来定义当前节点的前继节点的 优先级:
I(s′)=|Vnew(s)-Vold(s)|·Ps′,s
其中s′为图中与当前节点相连接的前继节点,即与当前节点相连且可 以与当前节点之间发生动作转移的节点,Ps′,s表示从前继节点转移到当前 节点的转移概率。
在每个节点的优先级被更新之后,网络会把所获得的状态值函数Vnew作为下一次迭代的输入,或待广义异步值迭代结束之后,作为训练模块的输入。
S5、将S4获得的道路环境图像中所有节点的近似最优值函数以及网络参 数输入所述系统的训练模块中。训练模块中的网络参数训练方式为:在图像中 随机选择一个起始节点s0,根据与之相连的节点的值函数的最大值来获得 下一个动作,直到到达目标节点sg或当前时间步t到达最大值tmax时,一个训练情节结束。一个情节结束时,根据此条路径所获得的累积奖赏以 及在S4中获得的起始节点的值函数,利用情节式加权双Q学习算法来反向更 新网络参数。在情节式加权双Q学习算法中,情节中的每个时间步所执行的动 作基于∈-greedy算法,由目标网络和行动网络共同决定。该步骤中所依据 的动作值函数的定义为:
Figure BDA0001927317910000141
其中,wP为算法中定义的目标网络的网络参数,w′P为算法中定义 的行动网络的网络参数,
Figure BDA0001927317910000142
是根据wP获得的动作值函数,
Figure BDA0001927317910000143
是 根据w′P获得的动作值函数。
当一个情节结束时,根据当前所获路径的情况,初始化期望回报:
Figure RE-GDA0001992841370000144
其中,T为一个训练情节结束时的时间步,β是根据目标网络和行 为网络的一个启发式函数,用于对初始的期望回报进行加权,其定义为:
Figure BDA0001927317910000145
其中,c为一个实数且c≥0,a*为当前时间步下,根据行为网 络
Figure BDA0001927317910000146
所获的最优动作,aL为当前时间步下,根据行为网络
Figure BDA0001927317910000147
所 获的最差动作。
根据一个情节结束时所获得的路径,进行网络参数的更新。用于更新网络 参数的损失函数定义为:
Figure BDA0001927317910000151
其中,Rt是时间步t内的期望回报,定义为: Rt=(rt+1+γRt+1),rt+1表示在训练过程中,情节中的每一时间步所 执行的动作所获的立即奖赏。当一个情节结束之后,根据w′P的更新值来更 新广义异步值迭代网络的目标网络参数wP
直到整个训练过程结束,获得一个近似最优的网络参数wP
S6、当所述系统接收到一张新的道路环境图像时,若接收到的道路环境图 像在系统的服务器中没有与之对应的道路信息及策略规划信息可用,那么系统 的广义异步值迭代网络可根据已训练好的网络参数wP,根据S3操作较为 迅速地在新的道路环境中获得一个或多个策略,并在系统与道路环境的交互过 程中,利用S4操作来持续地训练wP
S7、所述系统会持续的将新收到的道路环境图像存储在数据库中,并结合 其之前已存储的道路环境图像信息,不断地修正由于已有的道路环境图像的信 息不足而造成的规划误差,从而提高系统所获策略的精准度。
以上所述实施例仅是为充分说明本发明而所举的较佳的实施例,本发明的 保护范围不限于此。本技术领域的技术人员在本发明基础上所作的等同替代或 变换,均在本发明的保护范围之内。本发明的保护范围以权利要求书为准。

Claims (8)

1.一种自动驾驶系统的规划方法,其特征在于,包括:
S1、当所述系统获取了当前道路环境图像g后,利用卷积神经网络中的过滤器提取道路图像的结构及路况信息φ,φ经由映射函数fR得到当前道路环境图像的奖赏信息R、经由映射函数fP得到用于非规则图形卷积操作的核函数Kwp的初始化,并利用图像的邻接矩阵作为Kwp的激活参数得到初始的卷积操作子P;奖赏信息R为一个表示道路图像中各节点奖赏值的矩阵,其中目标节点处的奖赏值最大;卷积操作子P为一个表示道路图像中各相连节点之间边的权重的矩阵,其通道个数为图像中节点度的最大值;由奖赏信息R和卷积操作子P进行初始值迭代计算得到图中各节点的初始状态值函数V0
S2、广义异步规划模块的结构是一个类卷积神经网络,S1中获得的奖赏信息R以及初始状态值函数V0的和作为广义异步规划模块的初始输入,卷积操作子P作为广义异步规划模块中的卷积核,三者进行异步的卷积操作以获得在每轮值迭代计算中,各个通道上对于整个图像中各节点的状态-动作值函数,再经由最大池化操作获得每轮值迭代计算的状态值函数;
S3、在广义异步规划模块中,模块会根据第一轮异步值迭代之后的贝尔曼误差|V1-V0|,利用两种优先级定义方法来初始化每个节点的优先级I0(s),并根据各节点的优先级来定义初始阈值Th0;从第二轮异步值迭代开始,在之后的每次异步值迭代开始之前,网络根据当前图像中节点优先级的阈值Thm,选取需要进行值更新的节点集合
Figure FDA0002494185950000011
并得到这些节点集合对应的卷积操作子
Figure FDA0002494185950000012
将Vm与奖赏信息R的和、卷积操作子
Figure FDA0002494185950000021
输入至广义异步规划模块中,经过S2操作完成一次值更新;由于在值更新之后,部分节点的值函数发生了变化,因此这些节点的优先级也会进行更新;经过一定轮数的异步值迭代后,广义异步规划模块会输出图中各个节点值函数的最优值V*的近似值以及当前网络的网络参数wP
S4、将获得的道路环境图像中所有节点的近似最优值函数以及网络参数输入训练模块中;训练模块中的网络参数训练方式为:在图像中随机选择一个起始节点s0,根据与之相连的节点的值函数的最大值来获取下一个动作,直到到达目标节点sg或当前时间步t到达最大值tmax时,一个训练情节结束;一个情节结束时,根据此条路径所获得的累积奖赏以及在S3中获得的节点值函数,利用情节式加权双Q学习算法来反向更新网络参数;直到训练过程结束,获得一个近似最优的网络参数wP
S5、所述系统会保存S1中输入至系统的道路图像信息以及S4中根据所输入道路图像训练得到的网络参数wP,并当该系统接收到一张已有的路环境图像时,能迅速的获得用于该道路图像的策略;
S6、当所述系统接收到一张新的道路环境图像时,若接收到的道路环境图像在系统的服务器中没有与之对应的道路信息及策略规划信息可用,那么系统的广义异步值迭代网络可根据已训练好的网络参数wP,根据S3操作较为迅速地在新的道路环境中获得一个或多个策略,并在系统与道路环境的交互过程中,利用S4操作来持续地训练wP
S7、所述系统会持续的将新收到的道路环境图像存储在数据库中,并结合其之前已存储的道路环境图像信息,不断地修正由于已有的道路环境图像的信息不足而造成的规划误差,从而提高系统所获策略的精准度。
2.如权利要求1所述的自动驾驶系统的规划方法,其特征在于,多张结构信息及路况信息已知的道路环境图像样本根据它们包含的节点数目以及边的数目被表示为相应大小的非规则无向图,利用全连接网络中的多个过滤器以及图中节点的连接性,为每张非规则图像产生一个可对所有节点进行卷积操作的卷积操作子。
3.如权利要求1所述的自动驾驶系统的规划方法,其特征在于,当一张新的道路环境图像样本输入至系统时,经过卷积神经网络的过滤器提取之后的新图像的道路结构以及路况信息会进一步地对广义异步值迭代网络之前保存的已训练好的网络参数进行更新。
4.如权利要求1所述的自动驾驶系统的规划方法,其特征在于,系统中广义异步值迭代模块采用类卷积神经网络的结构,其中的卷积操作相当于值迭代算法中的动作值函数更新步骤,最大池化操作相当于值迭代算法中的状态值函数更新步骤。
5.如权利要求1所述的自动驾驶系统的规划方法,其特征在于,训练该系统需要道路环境图像数据作为样本,已存储的图像数据和新加入的图像数据以及实时规划数据可用于共同训练该系统,以使得系统能进行更为精准的规划;当一张新的道路信息图像被输入后,系统利用已训练好的网络参数和网络模型,经过一定次数的广义异步值迭代即可输出适用于该图像的道路规划策略。
6.一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现权利要求1到5任一项所述方法的步骤。
7.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时实现权利要求1到5任一项所述方法的步骤。
8.一种处理器,其特征在于,所述处理器用于运行程序,其中,所述程序运行时执行权利要求1到5任一项所述的方法。
CN201811622988.XA 2018-12-28 2018-12-28 自动驾驶系统的规划方法 Active CN109726676B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201811622988.XA CN109726676B (zh) 2018-12-28 2018-12-28 自动驾驶系统的规划方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201811622988.XA CN109726676B (zh) 2018-12-28 2018-12-28 自动驾驶系统的规划方法

Publications (2)

Publication Number Publication Date
CN109726676A CN109726676A (zh) 2019-05-07
CN109726676B true CN109726676B (zh) 2020-07-07

Family

ID=66297510

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201811622988.XA Active CN109726676B (zh) 2018-12-28 2018-12-28 自动驾驶系统的规划方法

Country Status (1)

Country Link
CN (1) CN109726676B (zh)

Families Citing this family (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110231820B (zh) * 2019-05-31 2022-08-05 江苏亿科达科技发展有限公司 一种基于物联网的车辆行驶控制方法
CN112580795A (zh) * 2019-09-29 2021-03-30 华为技术有限公司 一种神经网络的获取方法以及相关设备
CN111026127B (zh) * 2019-12-27 2021-09-28 南京大学 基于部分可观测迁移强化学习的自动驾驶决策方法及系统
CN113255347B (zh) * 2020-02-10 2022-11-15 阿里巴巴集团控股有限公司 实现数据融合的方法和设备及实现无人驾驶设备的识别方法
CN111413974B (zh) * 2020-03-30 2021-03-30 清华大学 一种基于学习采样式的汽车自动驾驶运动规划方法及系统
CN112161630B (zh) * 2020-10-12 2022-07-15 北京化工大学 适用于大型仓储系统的agv在线无碰撞路径规划方法

Family Cites Families (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104571113B (zh) * 2015-01-20 2017-07-11 新智认知数据服务有限公司 移动机器人的路径规划方法
CN105137967B (zh) * 2015-07-16 2018-01-19 北京工业大学 一种深度自动编码器与q学习算法相结合的移动机器人路径规划方法
CN108375379A (zh) * 2018-02-01 2018-08-07 上海理工大学 基于变异的双重dqn的快速路径规划方法及移动机器人
CN108594803B (zh) * 2018-03-06 2020-06-12 吉林大学 基于q-学习算法的路径规划方法
CN108594804B (zh) * 2018-03-12 2021-06-18 苏州大学 基于深度q网络配送小车的自动行驶控制方法
CN108645420B (zh) * 2018-04-26 2022-06-14 北京联合大学 一种基于差分导航的自动驾驶车辆多路径地图的创建方法
CN108827331B (zh) * 2018-06-27 2021-05-18 西南交通大学 一种基于邻域系统的智能车辆轨迹规划方法
CN108924897A (zh) * 2018-06-30 2018-11-30 北京工业大学 一种基于深度强化学习算法的移动sink路径规划方法

Also Published As

Publication number Publication date
CN109726676A (zh) 2019-05-07

Similar Documents

Publication Publication Date Title
CN109726676B (zh) 自动驾驶系统的规划方法
JP6869562B2 (ja) トラッキングネットワークを含むcnnを使用して物体をトラッキングする方法、及びそれを利用した装置{method for tracking object by using convolutional neural network including tracking network and computing device using the same}
Zeng et al. A survey on visual navigation for artificial agents with deep reinforcement learning
CN110745136B (zh) 一种驾驶自适应控制方法
CN111098852B (zh) 一种基于强化学习的泊车路径规划方法
CN112356830B (zh) 一种基于模型强化学习的智能泊车方法
Zhu et al. Off-road autonomous vehicles traversability analysis and trajectory planning based on deep inverse reinforcement learning
CN114194211B (zh) 一种自动驾驶方法、装置及电子设备和存储介质
CN114162146B (zh) 行驶策略模型训练方法以及自动驾驶的控制方法
CN114139637A (zh) 多智能体信息融合方法、装置、电子设备及可读存储介质
Kardell et al. Autonomous vehicle control via deep reinforcement learning
Ahmed et al. Policy-based reinforcement learning for training autonomous driving agents in urban areas with affordance learning
CN114519433A (zh) 多智能体强化学习、策略执行方法及计算机设备
CN107292322A (zh) 一种图像分类方法、深度学习模型及计算机系统
Jang et al. AVAST: Attentive variational state tracker in a reinforced navigator
Lei et al. Kb-tree: Learnable and continuous monte-carlo tree search for autonomous driving planning
CN115016499A (zh) 一种基于sca-ql的路径规划方法
Reinhart Reservoir computing with output feedback
CN114905505B (zh) 一种移动机器人的导航控制方法、系统及存储介质
Goswami Decision Making for Autonomous Car Driving using Deep Reinforcement Learning (DRL)
CN116257065A (zh) 基于最大熵分层强化学习的自动驾驶决策方法及系统
Alkhashab Data-Efficient Learning using Modular Meta-Learning
CN115688557A (zh) 无人车辆智能跟踪控制方法、系统、设备和介质
CN116341662A (zh) 一种基于蒙特卡洛树搜索的自动驾驶纵向决策方法
Yang et al. Deep Reinforcement Learning Lane-Changing Decision Algorithm for Intelligent Vehicles Combining LSTM Trajectory Prediction

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
TR01 Transfer of patent right

Effective date of registration: 20210105

Address after: 210034 building C4, Hongfeng Science Park, Nanjing Economic and Technological Development Zone, Jiangsu Province

Patentee after: NANQI XIANCE (NANJING) TECHNOLOGY Co.,Ltd.

Address before: 215000 8 Ji Xue Road, Xiangcheng District, Suzhou, Jiangsu.

Patentee before: Suzhou University

TR01 Transfer of patent right