CN115731690A - 一种基于图神经网络强化学习的无人公交集群决策方法 - Google Patents
一种基于图神经网络强化学习的无人公交集群决策方法 Download PDFInfo
- Publication number
- CN115731690A CN115731690A CN202211443954.0A CN202211443954A CN115731690A CN 115731690 A CN115731690 A CN 115731690A CN 202211443954 A CN202211443954 A CN 202211443954A CN 115731690 A CN115731690 A CN 115731690A
- Authority
- CN
- China
- Prior art keywords
- network
- reward
- function
- unmanned
- current
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000013528 artificial neural network Methods 0.000 title claims abstract description 35
- 238000000034 method Methods 0.000 title claims abstract description 33
- 230000002787 reinforcement Effects 0.000 title claims abstract description 27
- 230000006870 function Effects 0.000 claims abstract description 100
- 239000011159 matrix material Substances 0.000 claims abstract description 51
- 230000009471 action Effects 0.000 claims abstract description 18
- 238000005265 energy consumption Methods 0.000 claims abstract description 17
- 238000012549 training Methods 0.000 claims abstract description 8
- 238000001914 filtration Methods 0.000 claims abstract description 4
- 230000000875 corresponding effect Effects 0.000 claims description 15
- 230000005284 excitation Effects 0.000 claims description 14
- 230000001133 acceleration Effects 0.000 claims description 12
- 230000003993 interaction Effects 0.000 claims description 10
- 230000008569 process Effects 0.000 claims description 8
- 230000009194 climbing Effects 0.000 claims description 3
- 239000000126 substance Substances 0.000 claims description 3
- 230000007613 environmental effect Effects 0.000 claims 1
- 230000006872 improvement Effects 0.000 abstract description 3
- 230000002452 interceptive effect Effects 0.000 description 6
- 230000006399 behavior Effects 0.000 description 4
- 230000004913 activation Effects 0.000 description 3
- 230000000694 effects Effects 0.000 description 3
- 238000000605 extraction Methods 0.000 description 3
- 230000008447 perception Effects 0.000 description 3
- 230000002776 aggregation Effects 0.000 description 2
- 238000004220 aggregation Methods 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 238000004088 simulation Methods 0.000 description 2
- 238000000547 structure data Methods 0.000 description 2
- LFQSCWFLJHTTHZ-UHFFFAOYSA-N Ethanol Chemical compound CCO LFQSCWFLJHTTHZ-UHFFFAOYSA-N 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 238000013527 convolutional neural network Methods 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 230000007812 deficiency Effects 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 238000012545 processing Methods 0.000 description 1
- 230000009467 reduction Effects 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 230000000452 restraining effect Effects 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
Images
Landscapes
- Traffic Control Systems (AREA)
Abstract
本发明公开了一种基于图神经网络强化学习的无人公交集群决策方法,本发明属于无人驾驶汽车领域,包括:S1获取无人驾驶公交的当前场景,将场景编码为图结构,获得第一状态;S2基于第一状态得到特征矩阵、邻接矩阵和掩码矩阵;S3将特征矩阵与邻接矩阵输入当前网络,通过掩码矩阵过滤后输出每辆无人驾驶公交的动作,根据内部动态奖励函数和能量消耗模型得到当前网络奖励值,产生第二状态,得到一个四元组;S4基于第二状态,执行S2‑S3,输出第二状态对用动作,得到对应奖励值,再次获得新的状态,循环执行S2‑S3;S5基于四元组,利用反向传播训练网络,更新网络参数。本发明综合考虑多种任务的完成、效率的提升、能量的节约与乘客的舒适性。
Description
技术领域
本发明属于无人驾驶汽车领域,特别是涉及一种基于图神经网络强化学习的无人公交集群决策方法。
背景技术
强化学习是一种学习如何从状态映射到行为以使得获取的奖励最大的学习机制。这样的一个智能体不断地在环境中进行实验,通过环境给予的反馈来不断优化状态-行为的对应关系。深度强化学习利用深度神经网络拟合Q值函数,极大提高了强化学习算法处理高维度状态空间的决策能力,在机器人控制、无人驾驶等领域得到了广泛的应用。
图神经网络是近年来出现的一种利用深度学习直接对图结构数据进行学习的框架,其优异的性能引起了学者高度的关注和深入的探索。通过在图中的节点和边上制定一定的策略,图神经网络将图结构数据转化为规范而标准的表示,并输入到多种不同的神经网络中进行训练,在节点分类、边信息传播和图聚类等任务上取得优良的效果。
目前的无人驾驶场景多集中于单一的场景片段,对于连续交互的交通任务场景缺乏进一步的研究。在不确定的交互式交通场景中,特别是无人公交车集群,其驾驶环境具有严格的动态特征和高度的不确定性,不同交通参与者的驾驶行为的影响将不断传递。在交通的整体层面上,所有的交通参与者都需要有效地合作。在决策层次,无人公交车集群需要综合考虑多种任务的完成、效率的提升、能量的节约与乘客的舒适性等,因此迫切需要更为高效、准确的多智能体决策技术来处理无人公交集群在连续交互式多任务交通场景的决策问题。
发明内容
本发明的目的是提供一种基于图神经网络强化学习的无人公交集群决策方法,以解决上述现有技术存在的问题。
为实现上述目的,本发明提供了一种基于图神经网络强化学习的无人公交集群决策方法,包括以下步骤:
S1、获取无人驾驶公交的当前场景,将所述当前场景编码为图结构,获得第一状态;构建目标网络和当前网络,并对所述目标网络和当前网络分别进行初始化,其中,所述目标网络和所述当前网络均采用深度强化学习网络;
S2、基于所述第一状态获取第一状态矩阵;
S3、将所述第一状态矩阵输入所述当前网络,基于所述当前网络输出无人驾驶公交的动作,基于内部动态奖励函数和能量消耗模型得到当前网络奖励值,产生第二状态,基于所述第一状态、所述动作、所述当前网络奖励值和所述第二状态构成四元组;
S4、基于所述第二状态,执行S2-S3,输出所述第二状态对应动作,得到对应奖励值,再次获得新的状态,循环执行S2-S3,得到若干四元组;
S5、基于所述四元组,基于反向传播训练所述当前网络和所述目标网络,更新网络参数,得到最终网络,所述无人公交群基于所述最终网络进行决策。
可选的,基于所述图结构获得第一状态矩阵,所述第一状态矩阵包括:特征矩阵、邻接矩阵和掩码矩阵。
可选的,所述S3中,基于所述第一状态矩阵实现无人驾驶车辆与环境交互的过程包括:所述深度强化学习网络包括图卷积神经网络;
基于图卷积神经网络提取当前环境场景内车辆的拓扑结构特征,其中,将所述特征矩阵和所述邻接矩阵输入到所述图卷积神经网络,得到特征信息矩阵;
将所述特征信息矩阵输入所述当前网络,经所述掩码矩阵过滤,输出每辆无人价值公交的动作;
基于所述动作,无人驾驶车与当前环境进行交互,得到所述当前网络奖励值,产生第二状态。
可选的,基于无人驾驶车与当前环境进行交互,通过设计内部动态奖励函数,计算得到所述当前网络的奖励值;
所述奖励函数包括激励函数和惩罚函数;
将激励函数乘以激励系数获得激励值,将惩罚函数乘以惩罚系数获得惩罚值,将所述激励值和惩罚值相加得到所述奖励函数的奖励函数值;
其中,所述奖励函数包括:基于车辆能源消耗与驾驶任务的result奖励函数、基于无人驾驶公交车的速度与等待时间的efficiency奖励函数、基于所述当前环境场景中所有车辆的加速度与换道次数的comfort奖励函数和基于安全时间的safe奖励函数。
可选的,基于所述车辆能源消耗模型计算得到所述能源消耗的过程包括:
基于车辆速度构建电机转速函数;基于车辆速度、车辆加速度和爬坡角度构建电机转矩函数;基于所述电机转速函数和所述电机转矩函数构建电机功率损失函数,基于所述电机功率损失函数计算每辆无人驾驶公交的电机损失功率;
基于车辆电池的内部化学模型和所述电机损失功率,得到电池消耗功率;
基于所述电池消耗功率得到无人驾驶公交的能源消耗。
可选的,基于四个所述奖励函数值,进一步优化奖励函数得到所述当前网络的奖励值,获取所述当前网络的奖励值的过程包括:将其中一类奖励函数的所述激励系数和所述惩罚系数设定为其他三类奖励函数的泛函,形成内部动态奖励函数,分别得到result奖励函数、efficiency奖励函数、comfort奖励函数和safe奖励函数的系数;
基于所述奖励函数与所述系数得到所述当前网络的奖励值。
可选的,所述系数为:
所述result奖励函数的系数为0.3;所述efficiency奖励函数的系数为0.2;所述comfort奖励函数的系数为0.2;所述safe奖励函数的系数为0.3。
可选的,所述S5中,基于所述四元组,利用反向传播训练所述当前网络和所述目标网络,更新网络参数的过程包括:
抽取多个四元组,基于所述四元组,计算得到目标网络的奖励值,基于所述目标网络的奖励值与所述四元组中当前网络的奖励值计算得到损失值;
固定所述目标网络,针对所述当前网络,通过反向传播计算梯度,使所述损失值最小,更新当前网络参数;
基于所述当前网络参数多次更新后,利用软更新方式更新目标网络参数。
本发明的技术效果为:
本发明基于图卷积神经网络中的一层卷积神经网络进行特征提取,避免了复杂特征的提取过程,降低了网络模型的复杂度;
本发明从任务的完成、效率的提升、能量的节约与乘客的舒适性四个角度分别设计了奖励函数。将场景建模为图结构,车辆之间的交互、车辆与信号灯之间的交互被建模,通过多层全连接网络与图卷积网络可精确计算出合适的动作。随着模型不断地训练,碰撞数在不断地降低、节能效果在不断地优化、总消耗时间在不断减少,这说明本发明提出的方法可达到在保证无人公交群在节能的同时,有效提升交通效率与交通安全性。
附图说明
构成本申请的一部分的附图用来提供对本申请的进一步理解,本申请的示意性实施例及其说明用于解释本申请,并不构成对本申请的不当限定。在附图中:
图1为本发明实施例中的基于图神经网络强化学习的无人公交集群决策方法的流程图;
图2为本发明实施例中的基于图神经网络强化学习的无人公交集群决策方法的具体场景;
图3为本发明实施例中的一层图卷积神经网络结构图;
图4为本发明实施例中的基于图神经网络强化学习的无人公交车集群决策方法的仿真结果图。
具体实施方式
需要说明的是,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本申请。
需要说明的是,在附图的流程图示出的步骤可以在诸如一组计算机可执行指令的计算机系统中执行,并且,虽然在流程图中示出了逻辑顺序,但是在某些情况下,可以以不同于此处的顺序执行所示出或描述的步骤。
实施例一
如图1本实施例中提供一种基于图神经网络强化学习的无人公交集群决策方法,图2为一种基于图神经网络强化学习的无人公交集群决策方法的具体场景。在此连续交互场景中,无人公交车需要执行五个任务,分别是直行通过红绿灯控制的路口、在一号车站停靠、左转通过红绿灯B控制的路口、在二号车站停靠与右转通过最后的路口。图2的三个分段场景为一个连续的场景,为了直观表现任务,特此分为三个小场景说明。
场景中的无人公交车设置为每20S出现1辆,每回合出现6辆无人公交车。在与无人公交车执行任务路段有交互的其他人类驾驶车辆交通流密度设置为每小时1700辆。此设置时间既保证了无人公交车之间有交互行为,也保证了无人公交车与人类驾驶车辆的连续交互行为。
步骤S1,场景被建模为一个无向图。此场景中的每个车辆被视为图的节点,车辆之间的交互作用被视为图的边。将场景内车辆信息与交通信息合并表示为节点特征矩阵,将车辆之间、车辆与交通灯之间的交互作用表示为邻接矩阵。状态空间可以由三个矩阵表示:节点特征矩阵Xt、邻接矩阵At和一个掩码矩阵Mt,下面分别说明它们。
节点特征矩阵Xt将每辆车的速度、横向位置、纵向位置、无人公交车与当前道路的公交车站位置之差、车辆所在车道、车辆所在当前道路交通信号与车辆种类表示为:[Vi,Xi,Yi,ΔSi,Ri,Li,Ii]。其中Vi=vi-actual/vmax代表车辆实际纵向速度与最大允许速度比值;Xi=(xi-actual-x0)/xrad代表车辆实际横向坐标与出发点横坐标之差除以场景道路横向总距离;Yi=(yi-actual-y0)/yr ad代表车辆实际纵向坐标与出发点纵坐标之差除以场景道路纵向总距离;ΔSi=[ΔXi,ΔYi]代表无人公交车与当前道路的公交车站横纵向位置之差;Ri被表示为一个n维向量Ri=[r1,r2,....,rm],其中rm=1代表车辆此时位于第m个车道,否则对应位置为0;Li=1表示车辆所在道路的红绿灯此时处于允许车辆所在车道通行的状态,否则对应位置为0;Ii=1表示车辆为无人公交车,否则为人类驾驶车辆。最后将所有车辆的感知信息矩阵表示为:
邻接矩阵将车辆之间的相互作用表示为车辆之间的信息共享。邻接矩阵的计算基于五个假设:
所有无人公交车都可以在构造的场景中共享信息;
信息不能在人类驾驶车辆之间共享;
所有无人公交车都可以在其感知范围内与人类驾驶车辆共享信息;
所有无人公交车可以接收到所在车道红绿灯的共享信息;
车辆可以与自己共享信息,并表示为aii=1。
根据以上假设,领接矩阵可以表示为:
其中aij表示图中第i辆车与第j辆车连接的边,aij=1表示图中第i辆车与第j辆车在此时刻可以共享信息,aij=0表示图中第i辆车与第j辆车在此时刻无法共享信息。
掩码矩阵Mt被用于过滤掉人类驾驶车辆的动作输出,被表示为:
Mt=[m1,m2,…,mi,…mn] (3)
如果第i辆车为无人公交车,则mi=1,否则mi=0。
步骤S2,感知信息矩阵输入到特征提取神经网络,其中包含:全连接层、图卷积层、聚合层与激活层,具体网络层如图3所示。其中利用一层图卷积神经网络提取场景内车辆的拓扑结构特征。
其中是添加了自连接的无向图的邻接矩阵;IN为单位矩阵;与·W(l)是每层特定的可训练权重矩阵;σ(·)代表激活函数,例如:ReLU(·)=max(0,·);H(l)∈RN×D是第l层激活的函数,H(0)=X。
步骤S3,本发明采用集中决策、分布执行的训练方法,中心动作训练计算机根据输入的状态特征矩阵,输出所控制的每辆无人公交车需要执行的动作。空间表示为多个离散的动作,包括变道动作与输出的加速度,第i辆无人公交车可选的动作具体表示为:
ai={alane-change,aacceleration} (5)
式中alane-change表示为向左变道、不变道、向右变道;aacceleration表示为加速度区间[-5m·s-2,5m·s-2]以1m·s-2为间距的13个离散加速度。
将聚合层输出的特征信息矩阵输入到当前Q网络,在经过掩码矩阵的过滤后,根据贪婪算法输出对应动作。
中心训练计算机将每辆无人车所采取的动作传输到对应无人车,对应无人车的控制层根据决策的动作信息输出对应控制量进行行驶并与环境交互。
步骤S4,设计的奖励函数,包括:碰撞惩罚、速度奖励、舒适度奖励、等待时长惩罚等。
将奖励函数分为激励函数和惩罚函数。首先,根据能量的消耗与驾驶任务设计相应的激励函数和惩罚函数。激励函数是基于在无人公交车到达公交车站前和红绿灯等候区域处于对应车道,其目的是更快训练能够完成驾驶任务的决策;惩罚函数是基于能量消耗设计的,目的是减少能量的消耗。
rresult-I=10 (7)
rresult-P=-20×Energy (8)
为了准确计算无人公交的能源消耗,我们建立了车辆能源消耗模型。首先,电机功率损失函数可计算出每辆无人公交的电机损失功率PMotor,loss电机损失功率被建模为一个关于电机转速nMotor和电机转矩TMotor的函数。
PMotor,loss=f(nMotor(vt),TMotor(vt,at,αt)) (9)
式中电机转速nMotor是关于车辆速度vt的函数,并且电机转矩TMotor是关于车辆速度vt、车辆加速度at和爬坡角度a的函数。
根据电池模型的内部化学模型,最后的电池消耗功率被计算如下:
式中U0是电池的开路电压,其值为405V,Ri为电池的内阻,取0.1517Ω,PDevice其他设备的消耗功率,取360W。
因此,无人公交集群的能量消耗计算如下:
Energy=PEnergy×t (11)
为了训练提高交通效率的决策模型,根据无人公交车的速度区间与等待时间分为四部分。相应的奖惩功能针对这四部分,分别设计了遏制超速、鼓励高速行驶、惩罚低速堵车、减少等待时间的奖励函数。
为了提高该交通路段所有车辆的行驶平顺性,基于所有车辆的加速度和换道次数设计了相应的激励函数和惩罚函数。
rcomfort-I=5×nc1 (14)
rcomfort-P=-50×nc2-10×m (15)
式中nc1为加速度区间在[-2m·s-2,2m·s-2]内的无人公交车数量。nc2加速度在(-∞,-4.5m·s-2]内的场景内车辆总数.m为场景内当前时间前0.5s的变道总数。
本发明将安全时间引入到相应的奖励函数中。安全时间的定义如下:
式中yAV与xAV为无人公交车的纵坐标与横坐标;yleader,xleader与yfollower,xfollower分别为无人公交车当前车道前后车辆的纵坐标与横坐标。vleader,vfollower分别为无人公交车当前车道前后车辆的速度。
根据安全时间定义,将安全奖励函数定义如下:
式中RsP代表碰撞惩罚,此处取500,T代表安全时间界限值,此处取8s。
根据以上奖励设计,将四类奖励函数的激励函数与惩罚函数分别乘以激励系数与惩罚系数,最终表示如下:
式中,取krI=keI=kcI=ksI=0.6,krP=keP=kcP=ksP=0.4。
由于权重系数的变化会稀释一些必要的奖励或惩罚,本发明针对这一缺陷改进了奖励函数。进一步将激励系数与惩罚系数设定为其他奖励函数的泛函,形成内部动态奖励函数。具体公式如下:
式中,Rk=1500,为权重系数幂次数比例值。
最终的奖励由以下公式得出:
r=[rresult,refficiency,rcomfort,rsafe]·[kr,ke,kc,ks]T (22)
式中:kr=0.3,ke=0.2,kc=0.2,ks=0.3。
计算出交互后的时间步长奖励值,和状态信息一并记入一个四元组:(sj,aj,rj,sj+1)。并将所有四元组存入经验回放数组。
步骤S5,随机从经验回放数组中取出一个四元组,记作(st,at,rt,st+1)。设比例DQN的当前价值网络的参数为ωnow,下一次网络更新后的参数为ωnew;当前的目标网络参数为下一次网络更新后的参数为接下来对价值网络与目标网络进行前向传播:
使用时间差分算法更新当前网络,计算时间差分目标与时间差分误差如下,其中γ为折扣率。
ωnew ωnow α δt ωQ(st,at,ωnow) (27)
一种基于图神经网络强化学习的无人公交车集群决策方法的仿真结果如图4所示,可以得到此方法可在节能的同时,有效提升交通效率与交通安全性。
以上所述,仅为本申请较佳的具体实施方式,但本申请的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本申请揭露的技术范围内,可轻易想到的变化或替换,都应涵盖在本申请的保护范围之内。因此,本申请的保护范围应该以权利要求的保护范围为准。
Claims (8)
1.一种基于图神经网络强化学习的无人公交集群决策方法,其特征在于,包括以下步骤:S1、获取无人驾驶公交的当前场景,将所述当前场景编码为图结构,获得第一状态;构建目标网络和当前网络,并对所述目标网络和当前网络分别进行初始化,其中,所述目标网络和所述当前网络均采用深度强化学习网络;
S2、基于所述第一状态获取第一状态矩阵;
S3、将所述第一状态矩阵输入所述当前网络,基于所述当前网络输出无人驾驶公交的动作,基于内部动态奖励函数和能量消耗模型得到当前网络奖励值,产生第二状态,基于所述第一状态、所述动作、所述当前网络奖励值和所述第二状态构成四元组;
S4、基于所述第二状态,执行S2-S3,输出所述第二状态对应动作,得到对应奖励值,再次获得新的状态,循环执行S2-S3,得到若干四元组;
S5、基于所述四元组,基于反向传播训练所述当前网络和所述目标网络,更新网络参数,得到最终网络,所述无人公交群基于所述最终网络进行决策。
2.根据权利要求1所述的基于图神经网络强化学习的无人公交集群决策方法,其特征在于,基于所述图结构获得第一状态矩阵,所述第一状态矩阵包括:特征矩阵、邻接矩阵和掩码矩阵。
3.根据权利要求2所述的基于图神经网络强化学习的无人公交集群决策方法,其特征在于,所述S3中,基于所述第一状态矩阵实现无人驾驶车辆与环境交互的过程包括:所述深度强化学习网络包括图卷积神经网络;
基于图卷积神经网络提取当前环境场景内车辆的拓扑结构特征,其中,将所述特征矩阵和所述邻接矩阵输入到所述图卷积神经网络,得到特征信息矩阵;
将所述特征信息矩阵输入所述当前网络,经所述掩码矩阵过滤,输出每辆无人价值公交的动作;
基于所述动作,无人驾驶车与当前环境进行交互,得到所述当前网络奖励值,产生第二状态。
4.根据权利要求3所述的基于图神经网络强化学习的无人公交集群决策方法,其特征在于,基于无人驾驶车与当前环境进行交互,通过设计内部动态奖励函数,计算得到所述当前网络的奖励值;
所述奖励函数包括激励函数和惩罚函数;
将激励函数乘以激励系数获得激励值,将惩罚函数乘以惩罚系数获得惩罚值,将所述激励值和惩罚值相加得到所述奖励函数的奖励函数值;
其中,所述奖励函数包括:基于车辆能源消耗与驾驶任务的result奖励函数、基于无人驾驶公交车的速度与等待时间的efficiency奖励函数、基于所述当前环境场景中所有车辆的加速度与换道次数的comfort奖励函数和基于安全时间的safe奖励函数。
5.根据权利要求4所述的基于图神经网络强化学习的无人公交集群决策方法,其特征在于,基于所述车辆能源消耗模型计算得到所述能源消耗的过程包括:
基于车辆速度构建电机转速函数;基于车辆速度、车辆加速度和爬坡角度构建电机转矩函数;基于所述电机转速函数和所述电机转矩函数构建电机功率损失函数,基于所述电机功率损失函数计算每辆无人驾驶公交的电机损失功率;
基于车辆电池的内部化学模型和所述电机损失功率,得到电池消耗功率;
基于所述电池消耗功率得到无人驾驶公交的能源消耗。
6.根据权利要求4所述的基于图神经网络强化学习的无人公交集群决策方法,其特征在于,基于四个所述奖励函数值,进一步优化奖励函数得到所述当前网络的奖励值,获取所述当前网络的奖励值的过程包括:将其中一类奖励函数的所述激励系数和所述惩罚系数设定为其他三类奖励函数的泛函,形成内部动态奖励函数,分别得到result奖励函数、efficiency奖励函数、comfort奖励函数和safe奖励函数的系数;
基于所述奖励函数与所述系数得到所述当前网络的奖励值。
7.根据权利要求6所述的基于图神经网络强化学习的无人公交集群决策方法,其特征在于,所述系数为:
所述result奖励函数的系数为0.3;所述efficiency奖励函数的系数为0.2;所述comfort奖励函数的系数为0.2;所述safe奖励函数的系数为0.3。
8.根据权利要求1所述的基于图神经网络强化学习的无人公交集群决策方法,其特征在于,所述S5中,基于所述四元组,利用反向传播训练所述当前网络和所述目标网络,更新网络参数的过程包括:
抽取多个四元组,基于所述四元组,计算得到目标网络的奖励值,基于所述目标网络的奖励值与所述四元组中当前网络的奖励值计算得到损失值;
固定所述目标网络,针对所述当前网络,通过反向传播计算梯度,使所述损失值最小,更新当前网络参数;
基于所述当前网络参数多次更新后,利用软更新方式更新目标网络参数。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211443954.0A CN115731690B (zh) | 2022-11-18 | 2022-11-18 | 一种基于图神经网络强化学习的无人公交集群决策方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211443954.0A CN115731690B (zh) | 2022-11-18 | 2022-11-18 | 一种基于图神经网络强化学习的无人公交集群决策方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN115731690A true CN115731690A (zh) | 2023-03-03 |
CN115731690B CN115731690B (zh) | 2023-11-28 |
Family
ID=85296478
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202211443954.0A Active CN115731690B (zh) | 2022-11-18 | 2022-11-18 | 一种基于图神经网络强化学习的无人公交集群决策方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN115731690B (zh) |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112414401A (zh) * | 2020-11-06 | 2021-02-26 | 北京理工大学 | 基于图神经网络的无人机协同定位系统及方法 |
CN113879339A (zh) * | 2021-12-07 | 2022-01-04 | 阿里巴巴达摩院(杭州)科技有限公司 | 自动驾驶的决策规划方法、电子设备及计算机存储介质 |
US20220196414A1 (en) * | 2019-12-31 | 2022-06-23 | Goertek Inc. | Global path planning method and device for an unmanned vehicle |
CN114781072A (zh) * | 2022-06-17 | 2022-07-22 | 北京理工大学前沿技术研究院 | 一种无人驾驶车辆的决策方法和系统 |
CN114821537A (zh) * | 2022-05-16 | 2022-07-29 | 北京京东乾石科技有限公司 | 活动意图预测方法、装置及无人车 |
CN115257819A (zh) * | 2022-09-02 | 2022-11-01 | 东南大学 | 城市低速环境下的大型营运车辆安全驾驶决策方法 |
-
2022
- 2022-11-18 CN CN202211443954.0A patent/CN115731690B/zh active Active
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20220196414A1 (en) * | 2019-12-31 | 2022-06-23 | Goertek Inc. | Global path planning method and device for an unmanned vehicle |
CN112414401A (zh) * | 2020-11-06 | 2021-02-26 | 北京理工大学 | 基于图神经网络的无人机协同定位系统及方法 |
CN113879339A (zh) * | 2021-12-07 | 2022-01-04 | 阿里巴巴达摩院(杭州)科技有限公司 | 自动驾驶的决策规划方法、电子设备及计算机存储介质 |
CN114821537A (zh) * | 2022-05-16 | 2022-07-29 | 北京京东乾石科技有限公司 | 活动意图预测方法、装置及无人车 |
CN114781072A (zh) * | 2022-06-17 | 2022-07-22 | 北京理工大学前沿技术研究院 | 一种无人驾驶车辆的决策方法和系统 |
CN115257819A (zh) * | 2022-09-02 | 2022-11-01 | 东南大学 | 城市低速环境下的大型营运车辆安全驾驶决策方法 |
Also Published As
Publication number | Publication date |
---|---|
CN115731690B (zh) | 2023-11-28 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110750877B (zh) | 一种Apollo平台下的车辆跟驰行为预测方法 | |
Li et al. | A reinforcement learning-based vehicle platoon control strategy for reducing energy consumption in traffic oscillations | |
CN114407931B (zh) | 一种高度类人的自动驾驶营运车辆安全驾驶决策方法 | |
CN111061277B (zh) | 一种无人车全局路径规划方法和装置 | |
CN111222630B (zh) | 一种基于深度强化学习的自主驾驶规则学习方法 | |
CN111679660B (zh) | 一种融合类人驾驶行为的无人驾驶深度强化学习方法 | |
CN109726804B (zh) | 一种基于行车预测场和bp神经网络的智能车辆驾驶行为拟人化决策方法 | |
Shen et al. | Cooperative comfortable-driving at signalized intersections for connected and automated vehicles | |
CN109910909A (zh) | 一种多车运动状态的汽车轨迹网联交互式预测方法 | |
CN110956851B (zh) | 一种智能网联汽车协同调度换道方法 | |
CN113900449B (zh) | 多无人机轨迹规划方法、装置、无人机及存储介质 | |
Yu et al. | Autonomous overtaking decision making of driverless bus based on deep Q-learning method | |
CN113581182A (zh) | 基于强化学习的自动驾驶车辆换道轨迹规划方法及系统 | |
CN115100850A (zh) | 基于深度强化学习的混合交通流控制方法、介质及设备 | |
Wang et al. | Distributed MPC-based string stable platoon control of networked vehicle systems | |
CN111899509A (zh) | 一种基于车路信息耦合的智能网联汽车状态向量计算方法 | |
Duan et al. | Encoding distributional soft actor-critic for autonomous driving in multi-lane scenarios | |
CN116774735B (zh) | 一种基于边缘计算的无人机集群轨迹规划方法及系统 | |
CN112124310A (zh) | 一种车辆的路径变换方法和装置 | |
CN110456790B (zh) | 基于自适应权重的智能网联电动汽车队列优化控制方法 | |
CN115731690B (zh) | 一种基于图神经网络强化学习的无人公交集群决策方法 | |
CN116502703A (zh) | 一种基于混联式分层强化学习的自动驾驶集中决策方法 | |
Klingbeil et al. | Centralized model‐predictive cooperative and adaptive cruise control of automated vehicle platoons in urban traffic environments | |
CN114360290A (zh) | 一种基于强化学习的交叉口前车辆群体车道选择方法 | |
Liu et al. | Multi-agent collaborative adaptive cruise control based on reinforcement learning |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |