CN113160562B - 基于粒子注意力深度q学习的部分观测路口自主并道方法 - Google Patents

基于粒子注意力深度q学习的部分观测路口自主并道方法 Download PDF

Info

Publication number
CN113160562B
CN113160562B CN202110337809.3A CN202110337809A CN113160562B CN 113160562 B CN113160562 B CN 113160562B CN 202110337809 A CN202110337809 A CN 202110337809A CN 113160562 B CN113160562 B CN 113160562B
Authority
CN
China
Prior art keywords
particle
vehicle
particles
learning
social
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202110337809.3A
Other languages
English (en)
Other versions
CN113160562A (zh
Inventor
章宗长
廖沩健
俞扬
黎铭
周志华
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nanjing University
Original Assignee
Nanjing University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nanjing University filed Critical Nanjing University
Priority to CN202110337809.3A priority Critical patent/CN113160562B/zh
Publication of CN113160562A publication Critical patent/CN113160562A/zh
Application granted granted Critical
Publication of CN113160562B publication Critical patent/CN113160562B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G08SIGNALLING
    • G08GTRAFFIC CONTROL SYSTEMS
    • G08G1/00Traffic control systems for road vehicles
    • G08G1/01Detecting movement of traffic to be counted or controlled
    • G08G1/0104Measuring and analyzing of parameters relative to traffic conditions
    • G08G1/0125Traffic data processing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/004Artificial life, i.e. computing arrangements simulating life
    • G06N3/006Artificial life, i.e. computing arrangements simulating life based on simulated virtual individual or collective life forms, e.g. social simulations or particle swarm optimisation [PSO]
    • GPHYSICS
    • G08SIGNALLING
    • G08GTRAFFIC CONTROL SYSTEMS
    • G08G1/00Traffic control systems for road vehicles
    • G08G1/01Detecting movement of traffic to be counted or controlled
    • G08G1/0104Measuring and analyzing of parameters relative to traffic conditions
    • G08G1/0137Measuring and analyzing of parameters relative to traffic conditions for specific applications
    • GPHYSICS
    • G08SIGNALLING
    • G08GTRAFFIC CONTROL SYSTEMS
    • G08G1/00Traffic control systems for road vehicles
    • G08G1/09Arrangements for giving variable traffic instructions
    • G08G1/0962Arrangements for giving variable traffic instructions having an indicator mounted inside the vehicle, e.g. giving voice messages
    • G08G1/0967Systems involving transmission of highway information, e.g. weather, speed limits
    • G08G1/096708Systems involving transmission of highway information, e.g. weather, speed limits where the received information might be used to generate an automatic action on the vehicle control
    • G08G1/096725Systems involving transmission of highway information, e.g. weather, speed limits where the received information might be used to generate an automatic action on the vehicle control where the received information generates an automatic action on the vehicle control

Landscapes

  • Physics & Mathematics (AREA)
  • Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Software Systems (AREA)
  • Chemical & Material Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Analytical Chemistry (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Mathematical Physics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Health & Medical Sciences (AREA)
  • Medical Informatics (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Atmospheric Sciences (AREA)
  • Traffic Control Systems (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明公开了一种基于粒子注意力深度Q学习的部分观测路口自主并道方法,着眼于路口场景、车辆并道任务、观测视野被楼宇和其他车辆遮挡住的部分观测条件,使用强化学习中的深度Q学习算法对给定路线的并道车辆的驾驶行为进行优化。使用低维物理信息量作为车辆的观测表征;使用基于粒子的表示处理因遮挡造成的部分观测问题;通过引入注意力机制优化状态表示,使模型可以仅接受未被遮挡到的车辆信息同时具有输入排列不变性;使用深度Q学习算法根据获取到的社会车辆信息输出当前最优驾驶动作;通过在经验回放池中加入多种车流密度下的采样数据,结合优先经验回放技术,使自主并道行为可以适应真实环境下多变的车流密度。

Description

基于粒子注意力深度Q学习的部分观测路口自主并道方法
技术领域
本发明涉及一种基于粒子注意力深度Q学习的部分观测路口自主并道方法,使用基于粒子的表示来处理行车过程中因视野被遮挡造成的部分观测情况,使用基于注意力机制优化状态表示的深度Q学习算法优化驾驶行为,属于汽车自动驾驶技术领域。
背景技术
自动驾驶需要解决三个问题:定位、路径规划和驾驶行为的选择。第一类定位的问题可以使用多种传感器融合技术以及日渐成熟的计算机视觉技术来处理;第二类路径规划规划的问题可以使用Dijkstra、A*或者其他一些动态规划的方法来处理;本发明处理的是第三类问题,并且考虑了更加现实的因素,即在视野遮挡以及车流密度多变的情况下如何选择更好的驾驶行为。
我们把汽车的行驶过程建模成成一个部分可观测的马尔可夫决策过程(Partially Observable Markov Decision Process,POMDP)。那么在驾驶过程获得的关于周围环境的测量就视为一个观测,智能体(自车)将依据观测做成决策。至于这个观测是否能反应环境的真实状态,我们是不得而知的。这里面设计到了两个问题:一个是用什么作为观测,另一个是如何使真实的环境状态更好地从观测中还原出来或者说让自车意识到观测是不充分的,需要警惕可能存在的风险(视觉盲区)。
对于第一个观测表示的问题,我们希望它具备的性质有:输入大小可以变化;输入信息排列顺序不变性;尽可能减小仿真环境和真实环境下的输入差异;准确反映出自车和社会车辆当期时刻的行为同时又不会有很多冗余表达。使用计算机视觉技术处理观测表示问题,即使用图像作为观测输入模型,可以做到输入信息排列顺序不变性,但无法适应不同大小(尺寸)的输入数据。同时图像当中难免有很多冗余信息,即使能够做到精准的图像处理提取出想要的目标信息,对图像的清晰程度,地图的动态构建都有较高要求;并且在仿真环境中使用图像作为观测输入与现实环境中选择图像作为输入是存在差异的。
在强化学习算法中处理部分观测的问题往往有两种思路:一是帧堆叠,二是RNN及其变体。前者是将连续几帧的观测值同时输入网络,即扩增网络的输入,让网络不仅能够知道当前观测信息,同时还能结合历史信息,这样一定程度上弥补了由部分观测带来的信息丢失的问题。RNN因其对时序数据有强大的表达能力而闻名,这个结构能够把握数据在时间上的依赖关系,就像卷积网络能把握数据在空间上的依赖关系一样。那么将原来网络的部分隐藏层替换为RNN层,直觉上是解决部分观测的有效手段,因为通过其递归结构,可以编码多个历史帧的信息,为当前决策提供更丰富的特征。但这两种方法都有其固有缺陷。帧堆叠的方法由于只是简单地将过去几帧历史观测连接在一起,因此会丢失原有的时序信息,同时由于不知道到底要使用过去多少帧才能准确反映现在的真实状态,因此确定堆叠帧的数量也是一个问题。从实现角度考虑,过多的帧同时输入模型在存储上也是一个问题。基于RNN的方法的问题主要在其收敛性能的不稳定上,存在更多优化上的困难,并且隐状态的含义未知,缺乏解释性。
发明内容
发明目的:针对现有技术中存在的问题与不足,本发明提供一种基于粒子注意力深度Q学习的部分观测路口自主并道方法,本发明的自动驾驶算法使用低维物理量信息作为观测信息,使用深度Q学习算法作为控制车辆驾驶行为的控制算法,在因遮挡造成的部分观测条件下,使用基于粒子的表达和注意力机制提升了自车对可能存在的风险的感知能力,实现了更加安全可靠的自主并道驾驶行为。
技术方案:一种基于粒子注意力深度Q学习的部分观测路口自主并道方法,将使用该方法控制行驶的车辆称为自车,其余的车辆都被称为社会车,所有车辆在仿真环境下运行,运行机制由仿真环境预先设定,包括如下步骤:
S1、在时刻t收集来自周围未被遮挡的社会车的行驶信息和自车的行驶信息组成的低维物理量信息作为自车当前的实际观测数据ot,并做好归一化处理;
S2、维护一组粒子集合
Figure BDA0002998255620000021
标记时刻t道路上可能存在的社会车辆的位置和速度。其中,粒子
Figure BDA0002998255620000022
表示在坐标
Figure BDA0002998255620000023
上可能有一个速度
Figure BDA0002998255620000024
的社会车;粒子权重
Figure BDA0002998255620000025
表示该社会车真实存在的可能性大小。根据当前实际观测ot迭代式更新这组粒子集合;
S3、将实际观测数据和更新后的粒子集合整合到一起成为opt,输入到注意力模块,通过注意力机制计算得到对自车行驶影响更大的社会车辆(包括粒子代表的虚拟社会车辆)的特征信息φt
S4、特征信息φt输入到Q值网络,Q值网络输出驾驶动作ai的Q值Q(φt,ai;θ),其中i={1,2,…,n},θ为网络参数,选择最大Q值对应的动作输出;
S5、用跳帧技巧,将从Q值网络得到的动作at输出到仿真环境中,自车的行驶状态将根据此动作连续改变k帧;
S6、然后自车接受来自最后一帧的观测数据ot+1和这k帧累积起来的奖励rt,将经验元组(ot,at,rt,ot+1)储存到经验回放池中;
S7、从经验回放池中通过以情景学习误差大小构建的概率,使用优先经验重放技术随机抽取多段来自不同情景的部分经验元组序列
Figure BDA0002998255620000031
其中,M表示情景数,t0表示一个情景下序列开始的时间戳,T表示序列的长度,oi,t,ai,t,ri,t分别表示情景i下时刻t的观测、动作和奖励;其中,情景的学习误差大小为该情景内所有经验元组的时间差分误差的平均,即
Figure BDA0002998255620000032
其中,L代表的是该情景的完整轨迹(经验元组序列)长度,γ表示折扣因子,φi表示第i个经验元组对应的特征信息,a表示动作,Q(·,·;θ-)表示的目标Q值网络,θ-为其参数;
S8、针对每个情景下的经验元组序列随机初始化一组粒子集合,利用每个经验元组提供的实际观测数据使用迭代式更新的方式更新这些粒子,并和观测数据一起输入注意力模块和Q值网络;
S9、计算每个经验元组对应的目标函数yi,即
Figure BDA0002998255620000033
使用均方误差(Mean Square Error,MSE)损失函数的形式计算得到损失Loss;
Figure BDA0002998255620000034
其中,M是抽取的情景数,T是情景中的序列长度;
S10、使用损失Li作为对应经验元组的新的情景学习误差大小,以此更新经验回放池当中对应的情景的学习误差大小;更新情景的学习误差大小实际就是更新被选出的经验元组序列的时间差分误差,然后重新计算均值;
S11、使用随机梯度下降算法更新Q值网络;
Figure BDA0002998255620000035
其中,λ是学习率,需要人为根据实际情况调整,后面紧接着的项表示对损失Loss求关于θ的导数;
S12、动态调整仿真环境中的车流密度:当仿真环境运行的一个情景结束,开启新的情景前,以均匀分布在一定范围内随机选择一个新的车流密度。之后由此车流密度得到的经验元组将无差别地加入到经验回放池当中;
S13、重复S1——S12,直至到达终止状态Terimal。
本发明的核心控制算法是基于深度Q学习的,其中涉及到的观测、动作和奖励如下定义。作为实际观测数据的自车信息包括自车速度、自车坐标和自车行驶方向,其中第一个物理量会输入模型,后两个物理量仅用作中心化处理使用;社会车信息包括社会车速度、社会车坐标和社会车行驶方向,这里所有的物理量的值都使用的是相对于自车对应物理量的大小,即相对于自车的速度,坐标和行驶方向,这一处理过程被称为中心化处理;动作集合包含离散的三个动作要素:加速、减速和维持原速。同时会对由Q值网络选出的动作对应的实际加速度做截断处理,截断的上下限事先根据实际情况给定;奖励包括单步惩罚,碰撞惩罚和并道成功奖励。其中,碰撞惩罚非常大(例如设为-10),单步奖励较小(例如设为-0.01),从而激励自车又快又安全地通过路口。
粒子的迭代式更新有两种方式。一种是规则预先定义的粒子滤波,包含两个部分——粒子的转移和粒子权重的更新。粒子的转移分为坐标和速度的转移。用公式表达粒子的移动和权重的更新为:
Figure BDA0002998255620000041
其中f是一个代表粒子运动方程的函数。速度的转移是将速度直接设置为当前时刻该粒子到实际观测里最近的社会车的速度(即
Figure BDA0002998255620000042
),再加上一个服从标准正态分布的扰动项vε。粒子权重表示该粒子存在的可能性大小,由该粒子到最近的观测到的社会车的欧式距离决定,距离越近表明存在的可能性越大(使用σ控制可能性大小对距离变化的敏感程度);粒子的更新分为粒子的生成和粒子的删除。当粒子超出合法范围时,直接在集合中对其删除;当需要引入新的粒子时,在可能的范围内,比如因社会车或楼宇遮挡造成的视线盲区,随机生成一个粒子。这里不仅包括以均匀分布随机生成的位置坐标,同时包括以均匀分布在一定范围内随机生成的速度。
第二种方式是端到端可微分的粒子滤波。这种表示分为四个部分:分别是转移模型、观测似然模型、可微分重采样、新粒子生成。其中,(a)转移模型为
Figure BDA0002998255620000043
其中,ftrans是一个参数化的转移模型。
(b)观测似然模型为
Figure BDA0002998255620000044
其中,fobs是一个参数化的观测模型。
(c)可微分重采样:从由粒子权重构造出来的柔性提议分布(soften proposaldistribution)中采样得到新的一批粒子,每个粒子在这个分布中对应的概率为:
Figure BDA0002998255620000051
采样后得到的新粒子的权重重新设为:
Figure BDA0002998255620000052
其中,N是粒子总数,α是一个可人为设置的调节系数。
(d)新粒子生成:当有粒子超出合法范围时,直接在集合中将其删除;然后补充新的粒子:
Figure BDA0002998255620000053
其中,gβ是一个参数化的生成模型,δ是一个服从伯努利(Bernoulli)分布的随机变量,代表模型中的随机因素。
实际观测到的真实社会车和由粒子表示的虚拟社会车整合过程中,二者被放入到一个大小为A×B的矩阵中,称为整合信息矩阵。行数表示车的数量(无论是真实的还是虚拟的),列数表示使用的物理量数量。第一行存放的是自车物理量信息,紧接着的连续几行存放观测到的社会车的信息,最后几行存放粒子的信息。列从左到右表示的信息依次是速度、横坐标、纵坐标、行驶角度的余弦、行驶角度的正弦、权重、是否被遮挡的标识。其中,真实社会车的权重均为1.0(最大),虚拟社会车的权重就是对应的粒子权重;真实社会车是否被遮挡的标识按实际情况给出,被遮挡为1,没被遮挡为0,所有粒子表达的虚拟社会车都置为0,表示没有被遮挡。
注意力模块的输入一个查询向量和一系列键值对向量,输出是加权以后的值向量,运算如下:
Figure BDA0002998255620000054
其中,函数softmax(z)的定义为
Figure BDA0002998255620000055
这里z表示一个向量;U表示自车的嵌入向量经线性变换产生的查询向量,K表示所有车(自车加观测到的真实社会车加粒子表达的虚拟社会车)的嵌入向量经线性变换产生的键向量,V表示所有车(自车加观测到的真实社会车加粒子表达的虚拟社会车)的嵌入向量经线性变换产生的值向量,dk是键值向量的特征维度大小。上述所有的嵌入向量均由对应车原有的低维物理量信息经仿射变换得到。
注意力模块对遮挡问题有特殊的处理。之前的整合信息矩阵中的最后一列表示社会车的遮挡情况,其中所有置1的项对应的注意力机制里计算出来的权重直置零,那么被遮挡的车辆产生的值向量被强制变成零了,相当于在注意力机制下生成的特征空间里从来没有输入过模型。
最终由注意力模块得到的特征信息为φ。这个特征不仅完全包含了当前观测的所有信息,还融合了粒子表示对过去观测的编码信息,并且对自车行驶影响更大的车辆所产生的特征在其中占有更高的比重,这会更加有利于之后的决策过程。
有益效果:与现有技术相比,本发明提供的基于粒子注意力深度Q学习的部分观测路口自主并道方法,有如下优势:(1)使用低维物理量更加有利于仿真环境中训练得到的算法应用于实际,因为相比于图像作为观测输入,物理量在仿真环境和真实环境之间的差异更小;(2)使用基于粒子的表示处理部分观测问题,有几个好处:通过粒子更新过程中的随机性捕获了因遮挡造成的观测不确定性,增强了自车对风险的抵抗能力,驾驶策略更加安全;由于粒子具有清晰的语义信息,所以提高了模型的解释能力;由于新粒子的引入是“免费”的,所以可以在不显著提高观测成本的前提下,通过加入更多的粒子来保留更加充分的通车历史信息;粒子迭代式更新过程方便引入人类的先验知识,例如道路布局对观测视野的影响、物体运动的物理规律等;(3)使用注意力机制优化状态表示有几个好处:可以方便地处理真实观测到的社会车与粒子代表的虚拟社会车的整合信息,具有直观地语义解释,即促模型关注对自车行驶影响更大地社会车(无论是真实的还是虚拟的),通过为这些车辆生成的特征赋予更高的权重;可以输入任意数量的车辆,同时对输入信息具有排列不变性;无作弊现象,即从仿真环境中获得的观测不会泄露是否有车被遮挡的信息,因为通过注意力机制的运算,车辆被遮挡与车辆不存在两种情况对于模型来说是一模一样、无法分辨的了。这使得仿真环境下训练出来的驾驶策略可以在真实环境中使用;(4)S12中的操作,通过在经验回放池中加入多种车流密度下的采样数据,可使自主并道行为有效适应真实环境下多变的车流密度。
附图说明
图1为本发明方法的算法流程图;
图2为本发明可应用的一个仿真场景示意图;
图3为本发明中粒子合法运动范围示意图;
图4为本发明中注意力机制运算流程图。
具体实施方式
下面结合具体实施例,进一步阐明本发明,应理解这些实施例仅用于说明本发明而不用于限制本发明的范围,在阅读了本发明之后,本领域技术人员对本发明的各种等价形式的修改均落于本申请所附权利要求所限定的范围。
基于粒子注意力深度Q学习的部分观测路口自主并道方法,可应用于如图2所示的仿真场景中。这是一个T型路口,自车的任务是从竖直道的右车道出发,向左转,经过路口,穿过水平道的1,2号车道,到达0号车道的左半部分,只要车身完全进入,即算并道成功。其中,0号车道行驶方向从右至左,1,2号车道行驶方向从左至右,3号车道不通车,用于放置遮挡物,例如楼房等。
本发明的方法包含以下步骤:
S1、在时刻t收集来自周围未被遮挡的社会车的行驶信息和自车的行驶信息组成的低维物理量信息作为自车当前的实际观测数据ot,包括自车信息和社会车信息。自车信息包括自车速度、自车坐标和自车行驶方向,其中第一个物理量会输入模型,后两个物理量仅用作中心化处理使用;社会车信息包括社会车速度、社会车坐标和社会车行驶方向,这里所有的物理量的值都使用的是相对与自车对应物理量的大小,即相对于自车的速度,坐标和行驶方向,这一处理过程被称为中心化处理并做好归一化处理,最后做归一化处理;
S2、维护一组粒子集合
Figure BDA0002998255620000071
标记时刻t道路上可能存在的社会车辆的位置和速度。其中,粒子
Figure BDA0002998255620000072
表示在坐标
Figure BDA0002998255620000073
上可能有一个速度
Figure BDA0002998255620000074
的社会车;粒子权重
Figure BDA0002998255620000075
表示该社会车真实存在的可能性大小。根据当前实际观测ot迭代式更新这组粒子集合。更新有两种方式。
一种是规则预先定义的粒子滤波方式。包含两个部分——粒子的转移和粒子权重的更新。粒子的转移分为坐标和速度的转移。用公式表达粒子的转移和权重的更新为:
Figure BDA0002998255620000076
由于T型路口上的社会车只有东西方向的行驶方向,所以横纵坐标可以直接表达成这样简单的形式。速度的转移是将速度直接设置为当前时刻该粒子到实际观测里最近的社会车的速度,vε是一个服从标准正态分布的扰动项。粒子权重表示该粒子存在的可能性大小,由该粒子到最近的观测到的社会车的欧式距离决定,距离越近表明存在的可能性越大;粒子的更新分为粒子的生成和粒子的删除。当粒子超出合法范围时,直接在集合中删除之;当需要引入新的粒子时,在可能的范围内,比如因社会车或楼宇遮挡造成的视线盲区,随机生成一个粒子。这里不仅包括以均匀分布随机生成位置坐标同时包括以均匀分布在一定范围内随机生成速度,在图3中,蓝色框表示粒子存在的合法范围,超出的粒子将直接删除;新的粒子将在被观测到的社会车辆对应的黄色三角形区域随机生成,表示可能存在的被遮挡车辆;
第二种方式是端到端可微分的粒子滤波方式。这种表示分为四个部分:分别是转移模型、观测似然模型、可微分重采样、新粒子生成。其中,(a)转移模型为
Figure BDA0002998255620000081
其中,ftrans是一个参数化的转移模型,由RNN表达。具体来说,可以使用LSTM或GRU。这些RNN的变体将另外维护一个隐状态,与粒子无关。接受的输入不仅包含上一时刻的粒子,还包含本时刻的观测。
(b)观测似然模型为
Figure BDA0002998255620000082
其中,fobs是一个参数化的观测模型。可以使用一层全连接网络。
(c)可微分重采样:从由粒子权重构造出来的soften proposal distribution中采样得到新的一批粒子,每个粒子在这个分布中对应的概率为:
Figure BDA0002998255620000083
采样后得到的新粒子的权重重新设为:
Figure BDA0002998255620000084
其中,N是粒子总数,α是一个可人为设置的调节系数。
(d)新粒子生成:当有粒子超出合法范围时,直接在集合中将其删除之;然后补充新的粒子:
Figure BDA0002998255620000085
其中,gβ是一个参数化的生成模型,由多层全连接网络表示,其中会插入一层dropout层,δ就是该层的参数,表示神经元被保留的概率。这个参数服从伯努利(Bernoulli)分布。
S3、将实际观测数据和更新后的粒子集合整合到一起成为opt。实际观测到的真实社会车和由粒子表示的虚拟社会车整合过程中,二者被放入到一个大小为A×B的矩阵中,称为整合信息矩阵。行数表示车的数量(无论是真实的还是虚拟的),列数表示使用的物理量数量。第一行存放的是自车物理量信息,紧接着的连续几行存放观测到的社会车的信息,最后几行存放粒子的信息。列从左到右表示的信息依次是速度、横坐标、纵坐标、行驶角度的余弦,行驶角度的正弦、权重、是否被遮挡的标识。其中,真实社会车的权重均为1.0(最大),虚拟社会车的权重就是对应的粒子权重;真实社会车是否被遮挡的标识按实际情况给出,被遮挡为1,没被遮挡为0,所有粒子表达的虚拟社会车都置为0,表示没有被遮挡。
整合信息矩阵输入到注意力模块,通过注意力机制计算得到对自车行驶影响更大的社会车辆(包括粒子代表的虚拟社会车辆)的特征信息φt。具体来说,注意力模块的输入一个查询向量和一系列键值对向量,输出是加权以后的值向量,运算如下:
Figure BDA0002998255620000091
其中,函数softmax(z)的定义为
Figure BDA0002998255620000092
这里z表示一个向量;U表示自车的嵌入向量经线性变换产生的查询向量,K表示所有车(自车加观测到的真实社会车加粒子表达的虚拟社会车)的嵌入向量经线性变换产生的键向量,V表示所有车(自车加观测到的真实社会车加粒子表达的虚拟社会车)的嵌入向量经线性变换产生的值向量,dk是键值向量的特征维度大小。上述所有的嵌入向量均由对应车原有的低维物理量信息经仿射变换得到。
注意力模块对遮挡问题有特殊的处理。之前的整合信息矩阵中的最后一列表示社会车的遮挡情况,其中所有置1的项对应的注意力机制里计算出来的权重直置零,那么被遮挡的车辆产生的值向量被强制变成零了,相当于在注意力机制下生成的特征空间里从来没有输入过模型。
S4、特征信息φt输入到Q值网络。Q值网络多层全连接网络构成,每层输出会加一个ReLU激活函数,最后的输出所有驾驶动作ai的Q值Q(φt,ai;θ),其中i={1,2,…,n},选择最大Q值对应的动作输出。这里,动作集合包含的离散的三个动作要素,加速,减速和维持原速。同时会对由Q值网络选出的动作对应的实际加速度做截断处理,截断的上下限事先根据实际情况给定;
S5、用跳帧技巧,将从Q值网络得到的动作at输出到仿真环境中,自车的行驶状态将根据此动作连续改变k帧;
S6、然后自车接受来自最后一帧的观测数据ot+1和这k帧累积起来的奖励rt,将经验元组(ot,at,rt,ot+1)储存到经验回放池中。奖励包括单步惩罚(负数),碰撞惩罚(负数)和并道成功奖励(正数)。其中,碰撞惩罚非常大,单步奖励较小,并道成功奖励较大,从而激励自车又快又安全地通过路口。
S7、从经验回放池中通过以情景学习误差大小构建的概率,使用优先经验重放技术随机抽取多段来自不同情景的部分经验元组序列
Figure BDA0002998255620000093
其中,M表示情景数,t0表示一个情景下序列开始的时间戳,T表示序列的长度。其中,情景的学习误差大小为该情景内所有经验元组的TD误差的平均,即
Figure BDA0002998255620000094
其中,L代表的是该情景的完整轨迹(经验元组序列)长度,Q(·,·;θ-)表示的是目标Q值网络;
S8、针对每个情景下的经验元组序列随机初始化一组粒子集合,利用每个经验元组提供的实际观测数据使用迭代式更新的方式更新这些粒子,并和观测数据一些输入注意力模块和Q值网络;
S9、计算每个经验元组对应的目标函数yi,即
Figure BDA0002998255620000101
使用均方误差损失函数的形式计算得到损失L,即
Figure BDA0002998255620000102
其中,M是抽取的情景数,T是情景中的序列长度;
S10、使用损失Li作为对应经验元组的新的情景学习误差大小,以此更新经验回放池当中对应的情景的学习误差大小。更新情景的学习误差大小实际就是更新被选出的经验元组序列的时间差分误差,然后重新计算均值;
S11、使用随机梯度下降算法更新Q值网络,即
Figure BDA0002998255620000103
其中,λ是学习率,需要人为根据实际情况调整;
S12、动态调整仿真环境中的车流密度:当仿真环境运行的一个情景结束,开启新的情景前,以均匀分布在一定范围内随机选择一个新的车流密度。之后由此车流密度得到的经验元组将无差别地加入到经验回放池当中。这里的车流密度指的就是一个情景内水平道路上的平均通车量;
S13、重复S1——S12,直至算法收敛。

Claims (10)

1.一种基于粒子注意力深度Q学习的部分观测路口自主并道方法,将使用该方法控制行驶的车辆称为自车,其余的车辆都被称为社会车,其特征在于,包括如下步骤:
S1、在时刻t收集来自周围未被遮挡的社会车的行驶信息和自车的行驶信息组成的低维物理量信息作为自车当前的实际观测数据ot,并做归一化处理;
S2、维护一组粒子集合
Figure FDA0002998255610000011
标记时刻t道路上可能存在的社会车辆的位置和速度;根据当前实际观测ot迭代式更新这组粒子集合;
S3、将实际观测数据和更新后的粒子集合整合到一起成为opt,输入到注意力模块,通过注意力机制计算得到对自车行驶影响更大的社会车辆的特征信息φt
S4、特征信息φt输入到Q值网络,Q值网络输出驾驶动作ai的Q值Q(φt,ai;θ),其中i={1,2,…,n},选择最大Q值对应的动作输出;
S5、将从Q值网络得到的动作at输出到仿真环境中,自车的行驶状态将根据此动作连续改变k帧;
S6、然后自车接受来自最后一帧的观测数据ot+1和这k帧累积起来的奖励rt,将经验元组(ot,at,rt,ot+1)储存到经验回放池中;
S7、从经验回放池中通过以情景学习误差大小构建的概率,使用优先经验重放技术随机抽取多段来自不同情景的部分经验元组序列
Figure FDA0002998255610000012
其中,M表示情景数,t0表示一个情景下序列开始的时间戳,T表示序列的长度;
S8、针对每个情景下的经验元组序列随机初始化一组粒子集合,利用每个经验元组提供的实际观测数据使用迭代式更新的方式更新这些粒子,并和观测数据一起输入注意力模块和Q值网络;
S9、计算每个经验元组对应的目标函数yi,使用均方误差损失函数的形式计算得到损失Li
S10、使用损失Li作为对应经验元组的新的情景学习误差大小,以此更新经验回放池当中对应的情景的学习误差大小;
S11、使用随机梯度下降算法更新Q值网络;
S12、动态调整仿真环境中的车流密度:当仿真环境运行的一个情景结束,开启新的情景前,以均匀分布在一定范围内随机选择一个新的车流密度;之后由此车流密度得到的经验元组将无差别地加入到经验回放池当中;
S13、重复S1——S12,直至到达终止状态Terimal。
2.根据权利要求1所述的基于粒子注意力深度Q学习的部分观测路口自主并道方法,其特征在于,所述S1中,作为实际观测数据的自车信息包括自车速度、自车坐标和自车行驶方向,其中第一个物理量会输入Q值网络,后两个物理量仅用作中心化处理使用;社会车信息包括社会车速度、社会车坐标和社会车行驶方向,这里所有的物理量的值都使用的是相对于自车对应物理量的大小,即相对于自车的速度,坐标和行驶方向,这一处理过程被称为中心化处理。
3.根据权利要求1所述的基于粒子注意力深度Q学习的部分观测路口自主并道方法,其特征在于,动作集合包含离散的三个动作要素:加速、减速和维持原速;同时对由Q值网络选出的动作对应的实际加速度做截断处理。
4.根据权利要求1所述的基于粒子注意力深度Q学习的部分观测路口自主并道方法,其特征在于,所述S2中,粒子的迭代式更新方式为:规则预先定义的粒子滤波,包含两个部分——粒子的转移和粒子权重的更新;粒子的转移分为坐标和速度的转移;用公式表达粒子的移动和权重的更新为:
Figure FDA0002998255610000021
其中f是一个代表粒子运动方程的函数;速度的转移是将速度直接设置为当前时刻该粒子到实际观测里最近的社会车的速度,vε是一个服从标准正态分布的扰动项;粒子权重表示该粒子存在的可能性大小,由该粒子到最近的观测到的社会车的欧式距离决定,距离越近表明存在的可能性越大;粒子的更新分为粒子的生成和粒子的删除;当粒子超出合法范围时,直接在集合中对其删除;当需要引入新的粒子时,随机生成一个粒子;这里不仅包括以均匀分布随机生成的位置坐标,同时包括以均匀分布在一定范围内随机生成的速度。
5.根据权利要求1所述的基于粒子注意力深度Q学习的部分观测路口自主并道方法,其特征在于,所述S2中,粒子的迭代式更新方式为:端到端可微分的粒子滤波;这种表示分为四个部分:分别是转移模型、观测似然模型、可微分重采样、新粒子生成;其中,
(a)转移模型为
Figure FDA0002998255610000022
其中,ftrans是一个参数化的转移模型;
(b)观测似然模型为
Figure FDA0002998255610000023
其中,fobs是一个参数化的观测模型;
(c)可微分重采样:从由粒子权重构造出来的柔性提议分布中采样得到新的一批粒子,每个粒子在这个分布中对应的概率为:
Figure FDA0002998255610000031
采样后得到的新粒子的权重重新设为:
Figure FDA0002998255610000032
其中,N是粒子总数,α是一个可人为设置的调节系数;
(d)新粒子生成:当有粒子超出合法范围时,直接在集合中将其删除;然后补充新的粒子:
Figure FDA0002998255610000033
其中,gβ是一个参数化的生成模型,δ是一个服从伯努利分布的随机变量,代表模型中的随机因素。
6.根据权利要求1所述的基于粒子注意力深度Q学习的部分观测路口自主并道方法,其特征在于,所述S3中,在真实观测到的真实社会车和由粒子表示的虚拟社会车整合过程中,二者被放入到一个大小为A×B的矩阵中,称为整合信息矩阵;行数表示车的数量,列数表示使用的物理量数量;第一行存放的是自车物理量信息,紧接着的连续几行存放观测到的社会车的信息,最后几行存放粒子的信息;列从左到右表示的信息依次是速度、横坐标、纵坐标、行驶角度的余弦、行驶角度的正弦、权重、是否被遮挡的标识;其中,真实社会车的权重均为最大,虚拟社会车的权重就是对应的粒子权重;真实社会车是否被遮挡的标识按实际情况给出,被遮挡为1,没被遮挡为0,所有粒子表达的虚拟社会车都置为0,表示没有被遮挡。
7.根据权利要求1所述的基于粒子注意力深度Q学习的部分观测路口自主并道方法,其特征在于,所述S3中,注意力模块的输入一个查询向量和一系列键值对向量,输出是加权以后的值向量,运算如下:
Figure FDA0002998255610000034
其中,函数softmax(z)的定义为
Figure FDA0002998255610000035
这里z表示一个向量;U表示自车的嵌入向量经线性变换产生的查询向量,K表示所有车的嵌入向量经线性变换产生的键向量,V表示所有车的嵌入向量经线性变换产生的值向量,dk是键值向量的特征维度大小;上述所有的嵌入向量均由对应车原有的低维物理量信息经仿射变换得到。
8.根据权利要求1所述的基于粒子注意力深度Q学习的部分观测路口自主并道方法,其特征在于,所述S7中,情景的学习误差大小为该情景内所有经验元组的TD误差的平均,即
Figure FDA0002998255610000041
其中,L代表的是该情景的经验元组序列长度,Q(·,·;θ-)表示的是目标Q值网络;S10中的更新情景的学习误差大小实际就是更新被选出的经验元组序列的时间差分误差,然后重新计算均值。
9.根据权利要求1所述的基于粒子注意力深度Q学习的部分观测路口自主并道方法,其特征在于,所述S9中,目标函数为:
Figure FDA0002998255610000042
由此目标函数构建的训练损失为:
Figure FDA0002998255610000043
其中,M是抽取的情景数,T是情景中的序列长度。
10.根据权利要求1所述的基于粒子注意力深度Q学习的部分观测路口自主并道方法,其特征在于,所述S11中,使用以下公式更新Q值网络的参数:
Figure FDA0002998255610000044
其中,λ是学习率。
CN202110337809.3A 2021-03-30 2021-03-30 基于粒子注意力深度q学习的部分观测路口自主并道方法 Active CN113160562B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110337809.3A CN113160562B (zh) 2021-03-30 2021-03-30 基于粒子注意力深度q学习的部分观测路口自主并道方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110337809.3A CN113160562B (zh) 2021-03-30 2021-03-30 基于粒子注意力深度q学习的部分观测路口自主并道方法

Publications (2)

Publication Number Publication Date
CN113160562A CN113160562A (zh) 2021-07-23
CN113160562B true CN113160562B (zh) 2022-04-22

Family

ID=76885253

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110337809.3A Active CN113160562B (zh) 2021-03-30 2021-03-30 基于粒子注意力深度q学习的部分观测路口自主并道方法

Country Status (1)

Country Link
CN (1) CN113160562B (zh)

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110969848A (zh) * 2019-11-26 2020-04-07 武汉理工大学 一种对向双车道下基于强化学习的自动驾驶超车决策方法
CN111026127A (zh) * 2019-12-27 2020-04-17 南京大学 基于部分可观测迁移强化学习的自动驾驶决策方法及系统
CN111222630A (zh) * 2020-01-17 2020-06-02 北京工业大学 一种基于深度强化学习的自主驾驶规则学习方法
CN111311945A (zh) * 2020-02-20 2020-06-19 南京航空航天大学 一种融合视觉和传感器信息的驾驶决策系统及方法
CN112201069A (zh) * 2020-09-25 2021-01-08 厦门大学 基于深度强化学习的驾驶员纵向跟车行为模型构建方法

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110969848A (zh) * 2019-11-26 2020-04-07 武汉理工大学 一种对向双车道下基于强化学习的自动驾驶超车决策方法
CN111026127A (zh) * 2019-12-27 2020-04-17 南京大学 基于部分可观测迁移强化学习的自动驾驶决策方法及系统
CN111222630A (zh) * 2020-01-17 2020-06-02 北京工业大学 一种基于深度强化学习的自主驾驶规则学习方法
CN111311945A (zh) * 2020-02-20 2020-06-19 南京航空航天大学 一种融合视觉和传感器信息的驾驶决策系统及方法
CN112201069A (zh) * 2020-09-25 2021-01-08 厦门大学 基于深度强化学习的驾驶员纵向跟车行为模型构建方法

Also Published As

Publication number Publication date
CN113160562A (zh) 2021-07-23

Similar Documents

Publication Publication Date Title
CN111061277B (zh) 一种无人车全局路径规划方法和装置
CN110333714B (zh) 一种无人驾驶汽车路径规划方法和装置
CN114384920B (zh) 一种基于局部栅格地图实时构建的动态避障方法
US11682129B2 (en) Electronic device, system and method for determining a semantic grid of an environment of a vehicle
US20220343657A1 (en) Occupancy prediction neural networks
CN112650237B (zh) 基于聚类处理和人工势场的船舶路径规划方法和装置
US11472442B2 (en) Map consistency checker
CN115551758A (zh) 非结构化车辆路径规划器
CN113705636B (zh) 一种自动驾驶车辆轨迹预测方法、装置及电子设备
KR102424067B1 (ko) 정보 처리 방법, 장치 및 저장 매체
WO2023221348A1 (zh) 车辆轨迹预测方法、系统、计算机设备及存储介质
CN115257745A (zh) 一种基于规则融合强化学习的自动驾驶换道决策控制方法
CN114312830A (zh) 一种考虑危险驾驶工况的智能车耦合决策模型及方法
CN116540731B (zh) 融合堆叠lstm与sac算法的路径规划方法及系统
CN117093009B (zh) 一种基于机器视觉的物流agv小车导航控制方法及系统
CN114494329B (zh) 用于移动机器人在非平面环境自主探索的导引点选取方法
Friji et al. A dqn-based autonomous car-following framework using rgb-d frames
CN114488185A (zh) 基于多线激光雷达的机器人导航系统方法及系统
Masmoudi et al. Autonomous car-following approach based on real-time video frames processing
CN113160562B (zh) 基于粒子注意力深度q学习的部分观测路口自主并道方法
CN116203973B (zh) 轨道ai巡检机器人智能控制系统
US20230162539A1 (en) Driving decision-making method and apparatus and chip
CN111368465A (zh) 基于id3决策树的无人驾驶决策方法
CN114117944B (zh) 一种模型更新方法、装置、设备及可读存储介质
Zhang et al. Spatial attention for autonomous decision-making in highway scene

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant