CN114360290B

CN114360290B - 一种基于强化学习的交叉口前车辆群体车道选择方法

Info

Publication number: CN114360290B
Application number: CN202111491851.7A
Authority: CN
Inventors: 李凯; 范庸; 杨果; 陈璟; 唐颜东; 陈孟; 贾浩伟; 杨达
Original assignee: Sichuan Wisdom High Speed Technology Co ltd
Current assignee: Sichuan Wisdom High Speed Technology Co ltd
Priority date: 2021-12-08
Filing date: 2021-12-08
Publication date: 2023-07-28
Anticipated expiration: 2041-12-08
Also published as: CN114360290A

Abstract

本发明公开了一种基于强化学习的交叉口前车辆群体车道选择方法，包括：S1、构建基于DQN的交叉口前车辆群体车道选择模型；其中，车辆群体车道选择模型包括每个车辆对应的动作模块及所有车辆共享的DQN模型；S2、将待进行车道选择车辆的状态信息作为所述DQN模型的输入，确定最优车道选择策略并通过对应动作模块输出，作为车辆的车道选择参考；关注车辆群体在信号交叉口前的车道选择问题，即每辆车在行驶过程中决定何时、何地应该去往哪个车道上行驶，通过让车辆在合适的时机选择合适的车道行驶，以使得车辆可以及时驶入到对应的转向车道，合理利用道路资源，实现车辆群体秩序行驶并且可以高效通过信号交叉口。

Description

一种基于强化学习的交叉口前车辆群体车道选择方法

技术领域

本发明属于车辆车道选择优化技术领域，具体涉及一种基于强化学习的交叉口前车辆车道选择方法。

背景技术

车辆在信号交叉口会有左转、直行或右转的需求，导致车辆需要在交叉口前可换道路段内换道至对应专用车道。这使得该路段上发生的换道行为比较多、交通状况较为复杂。人类驾驶车辆在此路段上往往难以在合适的时机做出合适的车道选择决策，使得车辆间存在大量冲突，大大降低了车辆在路段上的行驶速度和通过信号交叉口的效率。而智能物联网汽车具有丰富的感知设备和强大的计算能力，在智能网联汽车上部署车道选择算法有望改变这种情况。因此，信号交叉口前智能网联车辆群体车道选择算法研究是非常必要且具有挑战性的。

车道选择问题一直是智能网联车领域研究的重点和热点，国内外学者对于车道选择问题进行过大量研究，Tajeddin等设计了多车道自适应巡航控制器，计算每个车道的瞬时行驶成本，并选择成本最低的车道，考虑安全、能耗和速度的多目标优化，利用牛顿法和广义极小残差法结合来求解，通过硬件在环仿真表明可以显著减少能耗；Kumar等提出了一个车辆在密集交通中汇入的运动规划框架，车道选择层根据速度空间和时间计算碰撞风险概率来选择车道，通过遵循选定的车道，可以减少向其他车辆展示的意图中的混乱。基于规则的车道选择最早被用于智能车的行为系统，如DARPA自动驾驶挑战赛，卡内基梅隆大学的比赛车“Boss”，斯坦福大学的比赛车“Junior”和卡尔斯鲁厄大学的比赛车“AnnieWAY”等，Medanic等以减少公路上不必要的交叉为目标定义了一种基于OD矩阵的车道分配问题，车道分配策略根据出发地和目的地为每辆车分配一条车道，但没有给出对单个车辆的分布式控制策略；Kim等指出车道分配策略的目的是在有多个出入口点的多车道高速公路上，根据车辆的行程(入口点、出口点)和驾驶行为的影响，提高车流量，利用片段车道分配策略，将车道分配问题转化为在路线矩阵上寻找合适片段位置的最优问题，然后用遗传算法求解最优问题；Kanaris等将换道的最小安全间距作为车道选择的依据，以使得车辆有足够的时间和空间停车，防止碰撞的发生。以上算法仅适用于部分简单交通场景，当场景变化或交通环境复杂时，算法不再适用，因此该类算法缺乏灵活性和普适性。

近年来，深度强化学习算法在处理复杂决策问题时表现出较好的效果，因此越来越多的学者将强化学习运用于车辆换道问题研究中。Wang等将强化学习算法应用于连续状态和动作空间的自动驾驶车换道行为研究，设计了二次型Q函数逼近器，回报函数考虑了安全性、快速性和舒适性；Liu等将车辆真实行驶的数据和仿真获得的数据一起输入到DRL的神经网络进行训练，在更新网络参数时加入监督损失并让车辆更多的从真实数据中学习，用TORCS训练并验证了该方法的有效性；Chen等研究了一种基于注意力的分层强化学习算法，在密集交通流中通过端到端的训练学习车辆换道行为，该方法简化了换道操作的复杂性，并研究了注意力机制如何应用在强化学习驾驶任务中，实验证明可以取得较好的效果；方川从经验回放、数据利用率角度对DQN和DDPG算法进行了改进，并在CARLA中搭建场景仿真车辆的车道保持决策，通过对比试验得出两种改进算法都有较好的完成度。Oyler等研究的是车辆之间行为存在交互博弈的问题，车辆可以部分观察到附近交通状态，用分层推理、博弈论结合强化学习确定动作：保持当前速度、加速、减速、换道；Mirchevska等研究了任意车道数的公路上车道变更或车道保持的高级决策，在Q值计算后加入安全验证，以确保车辆只执行安全操作，设计状态变量为周围车辆的相对距离和速度，以及本车的速度，经过测试性能优于基于规则的方法；Wang等研究了多车之间的换道协同，用数组矩阵描述车辆和周围车辆的状态，考虑单车的行驶效率和路段全局的效率，设置安全约束，实现协同换道。在其他机器学习算法的研究中，Hou等开发了一种换道辅助系统，采用贝叶斯分类器和决策树方法对换道行为进行建模，使用NGSIM数据集的详细车辆轨迹数据训练和验证模型，并比较了几种模型的精度，表明该模型的精度较高；Liu等分析自动车辆变道的影响因素，建立了基于效益、安全性和容忍度的自动变道决策模型，采用贝叶斯参数优化的支持向量机(SVM)算法来解决决策过程的多参数和非线性，通过实车实验验证了该决策模型的有效性。

综上所述，现有车道选择研究有以下几点不足：第一，现有车道选择研究考虑的行驶环境较为单一且主要集中于车辆较少的普通路段场景，缺乏对复杂交通场景的研究。第二，现有车道选择研究多数集中于个体换道研究，且其决策考虑因素不够完善，决策过程缺乏对于周围车辆及交通设备状态的考虑。第三，基于强化学习的换道研究中，大部分研究集中在已知目标车道的换道决策，仅做是否换道决策，而目标车道的确定作为换道执行的上层规划，对车辆行驶效率也有非常大的影响。

发明内容

针对现有技术中的上述不足，本发明提供的基于强化学习的交叉口前车辆群体车道选择方法解决了上述背景技术中的问题。

为了达到上述发明目的，本发明采用的技术方案为：一种基于强化学习的交叉口前车辆群体车道选择方法，包括：

S1、构建基于DQN的交叉口前车辆群体车道选择模型；

其中，所述车辆群体车道选择模型包括每个车辆对应的动作模块及所有车辆共享的DQN模型；

S2、将待进行车道选择车辆的状态信息作为所述DQN模型的输入，确定最优车道选择策略并通过对应动作模块输出，作为车辆的车道选择参考；

在所述DQN模型中，将每个车辆作为一个智能体，基于不同车辆的车道选择经验构建经验池，并对所述DQN模型进行迭代优化。

本发明的有益效果为：

(1)本发明关注车辆群体在信号交叉口前的车道选择问题，即每辆车在行驶过程中决定何时、何地应该去往哪个车道上行驶，通过让车辆在合适的时机选择合适的车道行驶，以使得车辆可以及时驶入到对应的转向车道，合理利用道路资源，实现车辆群体秩序行驶并且可以高效通过信号交叉口。

(2)本发明提供了一种交叉口前车辆群体车道选择模型，以城市路网复杂交通环境为背景，针对智联网汽车在道路信号交叉口前的行驶冲突问题，考虑周围车辆状态及下游信号灯情况，以减少车辆在信号交叉口的排队长度、提高车辆群体在信号交叉口前的行驶效率为目标，能够在适应各种交通流量的场景下，有效减少信号交叉口的排队长度，降低车辆在交叉口的延误，提升车辆通过交叉口的效率，并且可以提高车辆在信号交叉口前的平均速度，提升车辆在路段的通行效率。

(3)本发明通过Python与交通仿真软件SUMO联合仿真搭建不同交通流量环境仿真平台进行方法验证，仿真结果表明：模型训练后达到收敛且收敛后稳定性良好。与单车决策方法相比，该模型可以减少信号交叉口前排队长度，提升路段平均速度，从而使全局路段的通行效率得到优化。在低中高流量测试场景中，与SUMO单车车道选择模型相比，路段平均速度上有所提高，交叉口排队长度分别减少9.6％、22.5％、24.8％。模型能适用于各种交通流量下的信号交叉口前场景，且在交通流量较高环境下也能表现出良好的决策能力。

附图说明

图1为本发明实施例中的交叉口前路段车辆群体行驶场景。

图2为本发明实施例中基于强化学习的交叉口前车辆群体车道选择方法流图。

图3为本发明实施例中的模型框架示意图。

图4为本发明实施例中的换道临界间隙示意图。

图5为本发明实施例中的仿真场景示意图。

图6为本发明实施例中的仿真信号配时图。

图7为本发明实施例中的模型采用的神经网络结构示意图。

图8为本发明实施例中的累积回报值示意图。

图9为本发明实施例中的场景一中的排队长度对比示意图。

图10为本发明实施例中的场景一中的路段平均速度对比示意图。

图11为本发明实施例中的场景二中的排队长度对比示意图。

图12为本发明实施例中的场景二中的路段平均速度对比示意图。

图13为本发明实施例中的场景三中的排队长度对比示意图。

图14为本发明实施例中的场景三中路段平均速度对比示意图。

具体实施方式

下面对本发明的具体实施方式进行描述，以便于本技术领域的技术人员理解本发明，但应该清楚，本发明不限于具体实施方式的范围，对本技术领域的普通技术人员来讲，只要各种变化在所附的权利要求限定和确定的本发明的精神和范围内，这些变化是显而易见的，一切利用本发明构思的发明创造均在保护之列。

实施例1：

本发明实施例主要解决的是信号交叉口前智能网联车群体的车道选择决策问题，如图1所示，车辆全体在交叉口A到交叉口B的路段上行驶，根据每辆车起讫点路线规划不一样，其在下游信号交叉口会有左转、直行或右转的需求。车顶标记r的车辆在交叉口的目标转向为右转，车顶标记s的车辆在交叉口的目标转向为直行，车顶标记l的车辆在交叉口的目标转向为左转。每辆车需要在进入交叉口不可换道区域之前行驶到对应的转向车道上去，以便可以及时、安全的通过下游交叉口。但多数车辆刚进入该路段时所在的车道并不是其对应的转向车道。因此，需要在此路段进行换道的车辆较多，车辆在路段上发生冲突的几率也较大。如果这些车辆交叉口前没有在合适的时机进行正确车道选择决策，则可能无法及时行驶到对应的转向车道或换道过程严重影响周围车辆行驶效率。

基于上述问题，本实施例提供了一种基于强化学习的交叉口前车辆群体车道选择方法，如图1所示，包括：

S1、构建基于DQN的交叉口前车辆群体车道选择模型；

在本发明实施例中，交叉口前车辆群体车道选择模型主要通过DQN强化学习算法实现，该算法是一种根据Agent与环境交互获得的反馈不断优化迭代的方法，本发明实施例中的辆群体车道选择模型的框架如图3所示。

在本发明实施例中将每一辆车抽象为智能体Agent，所有车辆共享一个DQN模型，并且所有车辆的经验都存入同一个经验池，用于共享DQN模型参数更新。假设控制路段上有n辆车，每一辆车都受到模型控制，其中任意一辆车m(m＝1,2,…n)在t时刻通过车联网技术收集交叉口信号灯信息、周围车辆信息及自身车辆信息组成状态信息根据车辆状态信息/>基于策略/>做出其车道选择/>并通过动作模块对其进行跟踪，在车辆执行车道选择决策/>后，更新下一时刻车辆状态信息/>并根据回报函数计算车辆的动作回报并将车辆的经验/>存入公用的经验池中。每一辆车在这一时刻都会得到一条经验，因此此时存入经验池经验为n条。经验池中存储一定量经验后，在经验池中进行随机抽样，根据抽样经验<s_i,a_i,r_i,s_i′>对DQN模型进行迭代优化，如此往复。

在本发明实施例中，所述动作模块用于输出对应车辆的最优车道选择策略，并对车辆进行动作跟踪；动作模块包括LC201换道模型和Krauss跟驰模型，当最优车道选择策略为保持换道时，通过Krauss跟驰模型进行动作跟踪，当最优车道选择策略为向左或向右换道时，通过LC201换道模型进行动作跟踪。

在本发明实施例的步骤S2中，在确定车辆的状态信息时，传统的人类驾驶汽车仅将本车转向需求、本车位置信息及是否有足够的间隙作为可进行换道作为换道决策依据，但这样的车道选择是没有充分考虑周围车辆及交叉口信息。因此，本实施例中通过构建状态空间确定待进行状态车辆的状态信息本实施例中的状态空间中的参数包括本车辆转向需求、本车辆所在车道、本车到交叉口距离、向右转换可行性、向左换道可行性、信号灯相位状态信息以及信号灯剩余时间；

在本发明实施例中，本车辆目标转向需求X_d是指车辆需要进入哪个转向专用车道即目标转向车道号。本车辆所在车道状态信息X_t为车辆在t时刻所在的车道编号。L_t为指本车车头在t时刻到下游交叉口停止线的纵向距离。下游信号灯当前相位状态信息P_t为在t时刻信号灯的相位编号，而相位剩余时间G_t为在t时刻信号灯转换到下一相位的剩余时间。

t时刻向右换道可行性信息和t时刻向左换道可行性信息/>需要根据车辆与周围车辆的相对位置和换道临界间隙判断得出，设d^L为车辆与相邻车道上前车的实时距离，d^F为车辆与相邻车道上后车的实时距离。如图4所示，用/>表示车辆与相邻车道上前车的换道临界间隙，/>表示车辆与相邻车道上后车的换道临界间隙，换道可行性判断如下：如果且/>则相邻车道满足换道可行性条件，可行性状态信息为1；否则，相邻车道不满足换道可行性条件，可行性状态信息为0。

在本发明实施例，车辆在行驶的过程中，每一步都需要进行车道选择的决策，为了使车辆学习策略的时候能够更快收敛，在决策的时候能够更高效，动作的设计应该简单、直接。车辆在每一步换道的时候最多只能换道到相邻车道，故车辆每次可选择的车道为当前车道的左侧车道、当前车道的右侧车道和保持当前车道不变。因此，在本发明实施例中，车道选择策略从动作空间中确定，所述动作空间中的车道选择策略包括向右换道、向左换道以及保持车道，即动作空间为A＝{0,1,2}，其中0代表选择右侧车道、1代表选择左侧车道、2代表保持当前车道行驶。

在本发明实施例中，设当前场景中，路段长度为l，车道数为x条，交叉口信号灯相位数为p，最长相位时长为g时，模型状态空间及动作空间设置如下表1。

表1：状态空间及动作空间

在本发明实施例的步骤S2中，对智能体设计奖励函数以提高智能体的学习效果，本发明实施例中每个智能体的奖励函数影响因素包括通过下游信号交叉口的效率、换道到目标转向车道的时机、换道协同以及换道是否成功；

其中，对于所述下游信号交叉口的效率，车辆到达下游信号交叉口停止线时，如果是红灯或黄灯，车辆就必须在停止线前停车，等待下一次的绿灯通行，这样会造成车辆的时间延误、增加停车次数，降低通行效率。优化的策略会让车辆在选择车道时选取那些能够让其尽量在绿灯期间通过交叉口的车道，为了让车辆根据该目标学习车道选择策略，因此，本实施例中根据车辆到达下游交叉口时的信号灯状态给出奖励R₁：

对于换道到目标转向车道的时机，由于车辆最终需要驶入到目标转向车道，故每次做出动作后，根据车辆所在新的车道和目标转向车道的间隔给出惩罚R₂：

R₂＝-2|X_d-X_t+1|×δ₁

式中，X_d为车辆目标转向需求，X_t+1为车辆在t+1时刻所在车道编号，；δ₁为车辆驶入到目标转向车道这一目标在决策步车道选择中的重要程度，当车辆距离下游交叉口较远的时候，可以在任意车道上行驶，其对驶入到目标转向车道的迫切性很低，给出的惩罚值就较小，当车辆越来越靠近下游交叉口时，可以换道的机会越来越少，其对驶入到目标转向车道的迫切性逐渐增大，给出的惩罚值就较大。

δ₁的大小可以用如下指数公式表示：

其中，c₁表示指数曲线的缓和程度，可以根据策略学习的好坏进行调整，一般取值范围为(1,2.5)。

对于换道协同，频繁的换道可能更会加大整个交通车流的行驶不稳定性，降低整体行驶效率，对其他车辆来说，这是不友好的行驶方法；因此，本实施例中根据车辆在决策步选择换道到其他车道的动作给出惩罚R₃：

式中，δ₂为车辆换道惩罚随着行驶距离的重要程度；随着车流越来越靠近下游交叉口，其越来越需要稳定的行驶环境；因此，δ₂的计算公式如下：

其中，c₂表示指数曲线的缓和程度，可以根据策略学习的好坏进行调整，一般取值范围为(1,2.5)。

对于是否换道成功，车辆学习的过程中，在某个决策步可能选择了换道到相邻车道，但由于周围车辆的位置不满足换道条件，执行换道的时候未能成功，那么就需要给出惩罚来优化车辆在该种状态下的车道选择方案，促进车辆换道的成功率，提升车辆的行驶效率，因此，本发明实施例中根据车辆在决策步执行换道时未成功给出惩罚R₄：

式中，δ₃为换道成功随着车辆行驶距离的重要程度变化，当车辆离下游交叉口较近时，换道成功的重要性对于车辆来说较大，因为随着与下游交叉口距离的减小，车辆可以寻求换道的机会越来越少。所以随着车辆行驶距离的增大，δ₃的值也越来越大，δ₃的计算公式如下：

其中，c₃表示指数曲线的缓和程度，可以根据策略学习的好坏进行调整，一般取值范围为(1,2.5)。

最终，综合以上四个方面的奖励函数确定每个智能体的奖励函数为：

R＝R₁+R₂+R₃+R₄

在本发明实施例中，步骤S2中，DQN模型的经验池中存有每个车辆的车道选择经验

其中，为车辆m在t时刻的状态信息，/>为根据状态信息/>基于车道选择策略π执行的车道选择决策，/>为根据t+1时刻车辆m的状态信息/>计算的车辆动作回报，m＝1,2,3,…,n,n为车辆总数。

在本发明实施例中，通过DQN模型确定最优车道选择策略的方法具体为：

基于动作空间中不同的车道选择策略，基于待进行车辆的状态信息，计算对应的动作状态值函数，将最优动作状态值函数对应的车道选择策略作为最优车道选择策略；其中，所述动作空间中的车道选择策略包括向右换道、向左换道以及保持车道；

在本发明实施例中，计算动作状态值函数的目的是为了让车辆通过学习算法找到最优策略，不同的策略有不同的值函数，最优值函数对应的就是最优策略，至少存在一个最优策略，该策略要优于或者等价于其他策略，将最优策略记为π^*，得到最优动作状态值函数Q^*(s,a)的表达式为：

式中，Eπ为策略为π时折扣函数的期望，为/>对应的动作状态值函数，γ为折扣因子，/>为策略为最优策略π^*时/>对应的最大动作状态值函数。

在本发明实施例车辆群体中任意一辆车m(m＝1,2,…n)从t时刻开始状态为根据策略π不断与环境交互可得到的累计折扣回报。模型参数迭代更新的主要目的主要任务就是为车辆找到一个最优策略，使得车辆按照该策略进行车道选择的累积回报最大化，从而使模型效果达到最优；本发明实施例的步骤S2中，通过对经验池中的车道选择经验<s_i,a_i,r_i,s_i’>进行随机抽样，根据其对所述DQN模型进行迭代优化，具体方法为：

计算基于当前抽样的车道选择经验<s_i,a_i,r_i,s_i’>中s_i’输入目标Critic网络中计算下一时刻的最大动作状态值函数最大值，并结合r_i得到的累计折扣回报的估计值y_i。将y_i作为所述DQN模型中的评估Critic网络的目标值并采用梯度下降法对评估Critic网络进行训练，进而更新评估Critic网络的参数。并在每次达到设定训练步数后更新所述DQN模型中的目标Critic网络的参数。最终，实现DQN模型的迭代优化；

其中，s_i为抽取的经验数据中本时刻车辆i的状态信息，a_i为抽取的经验数据中本时刻的车道选择决策，r_i根据下一时刻车辆i的状态信息s_i’计算的车辆动作回报，i＝1,2,3,…,n。

本发明实施例中，累计折扣回报的估计值y_i的计算公式为：

式中，为目标Critic网络输出的动作状态值函数，/>为目标Critic网络输出的动作状态值函数的最大值，γ为折扣因子，r_i为车辆i的车辆动作回报，s_i′为抽取的经验数据中下一时刻的车辆i的状态信息，a′为下一时刻选取的车道选择决策，/>为目标Critic网络的参数。

在本发明实施例中，Critic网络用于拟合最优车道选择策略的状态动作值函数，通过在经验池中随机取出经验<s_i,a_i,r_i,s_i′>用于参数迭代，评估Critic网络的损失函数L(ω)定义为目标值与预测值的均方差，因此，训练所述评估Critic网络时的损失函数L(ω)为：

式中，Q(·)为评估Critic网络的动作状态值函数，s_i为抽取的经验数据中本时刻车辆i的状态信息，a_i为抽取的经验数据中本时刻的车道选择决策，ω为评估Critic网络的参数。

本发明实施例中评估Critic网络的参数ω的更新公式为：

式中，α为学习率，为Q(s_i,a_i,w)的梯度。

实施例2：

本发明实施例中提供了基于上述车道选择方法的仿真实验过程：

本实施例中首先构建模型测试场景，对模型参数进行迭代更新直至模型收敛。然后，搭建不同交通流量下的模型测试环境，将本申请中的模型与传统车道选择模型进行仿真对比。最后，从交叉口前排队长度和路段平均速度两个方面分析仿真实验结果。

为实现本实施例所提出的方法并验证其有效性，利用SUMO交通仿真全局提供的TraCI接口与Python联合仿真，构建仿真环境，进行模型训练及测试。

交通场景主要包括道路属性、车辆属性、信号灯配置等，本仿真的场景包括训练场景和验证场景。由于本章研究的是仿真车辆在信号交叉口前的行为，所以只需要设计信号交叉口前的道路属性，如图5中的虚线框区域，在训练场景中，试验道路进口道为5条车道，在验证场景中，试验道路进口道为4条车道，道路长度1000m，车道宽度3.5m，左转专用道1条，直行专用道2条，右转专用道1条，道路最高限速16/(m/s)。车辆的定义主要是车辆的基本参数、驾驶行为和行驶路径等，为了模拟多种多样的交通场景，车辆的初始状态和行驶路径在每个仿真回合的开始都可以随机初始化，车辆最大加速度为2.6/(m/s2),最大减速度为4.5/(m/s2),车长5m，最大速度55.55/(m/s)，期望最小车头时距为1s。

同时，由于车辆在信号交叉口前的行为受交叉口转向规则和信号灯状态的影响，车辆的行驶应该包括通过信号交叉口的完整过程，所以需要设计交叉口场景和信号灯配置。如图5中的实线框区域，设计四进口道的十字信号交叉口，信号灯配时为三相位，东西右转和直行一个相位，东西左转一个相位，南北右转、直行和左转一个相位，具体配时如图6所示。

DQN训练回合数为1000回合，学习率为0.0001，折扣因子设置为0.99，经验池大小为20000。

根据仿真训练阶段的设计，多次进行训练尝试和参数调整，每次训练进行1000个回合，训练时间大概为36个小时，得到所有车辆的总体累积回报如图8。可以看出，累积回报逐渐在500回合附近处开始收敛，收敛后稳定性良好。

为了验证模型在不同的交通流量和状态下的适应性，本仿真采用了多个周期下的长时间仿真，分别设置三种场景，场景分别代表高中低交通流量场景，流量设置如下表：

表2：车流量设置

将训练好的模型放入验证环境中进行验证，用交叉口前排队长度和路段平均速度来评估模型的有效性并与SUMO的单车决策模型比较，仿真得到的结果和分析如下。

在场景一中，本文车辆群体决策模型和SUMO单车决策模型相比，如图9所示在四条车道总排队长度(图9(a))、右转车道排队长度图9(b)、直行车道总排队长度(图9(c))和左转车道排队长度图(9(d))上分别减少了16.7％、-8.5％、27.1％和3.0％。在四条车道平均速度上提高了3.0％。图9(a)是四条车道在每个时间步的总排队长度变化，如图10所示是四条车道在每个时间步的平均速度变化。

在场景二中，本文车辆群体决策模型和SUMO单车决策模型相比，如图11所示在四条车道总排队长度(图11(a))、右转车道排队长度(图11(b))、直行车道总排队长度(图11(c))和左转车道排队长度(图11(d))上分别减少了27.2％、2.6％、37.9％和22.3％。在四条车道平均速度上提高了4.1％。图11(a)是四条车道在每个时间步的总排队长度变化，如图12所示是四条车道在每个时间步的平均速度变化。

在场景三中，本文车辆群体决策模型和SUMO单车决策模型相比，如图13所示在四条车道总排队长度(图13(a))、右转车道排队长度(图13(b))、直行车道总排队长度(图13(c))和左转车道排队长度(图13(d))上分别减少了23.7％、27.6％、20.2％和27.8％。在四条车道平均速度上提高了2.3％。图13(a)是四条车道在每个时间步的总排队长度变化，如图14所示是四条车道在每个时间步的平均速度变化。

在三种测试场景中，仿真开始后的前60s内，所有车辆还未到达交叉口，故没有产生排队。车辆在60s后接近了下游交叉口并开始排队，在排队初期，由于到达的车辆较少，相互之间的影响较弱，车辆群体车道选择模型的排队长度和SUMO单车决策模型的排队长度大致相似。随着车辆的不断到达，排队长度增加，车辆群体车道选择模型的排队长度在大部分时间就一直小于单车决策模型的排队长度，在车流量比较大的中间周期，单车决策模型在三种场景下均出现了二次排队现象，而车辆群体车道选择模型仅在高流量场景中出现二次排队现象，且车辆群体车道选择模型的排队长度有较好的消散。随着车辆停止进入道路，排队长度减小，车辆群体车道选择模型的排队长度和单车决策模型的排队长度差距减小。

Claims

1.一种基于强化学习的交叉口前车辆群体车道选择方法，其特征在于，包括：

S1、构建基于DQN的交叉口前车辆群体车道选择模型；

在所述DQN模型中，将每个车辆作为一个智能体，基于不同车辆的车道选择经验构建经验池，并对所述DQN模型进行迭代优化；

每个智能体的奖励函数影响因素包括通过下游信号交叉口的效率、换道到目标转向车道的时机、换道协同以及换道是否成功；

其中，对于所述下游信号交叉口的效率，根据车辆到达下游交叉口时的信号灯状态给出奖励R₁：

对于换道到目标转向车道的时机，根据车辆所在新的车道和目标转向车道的间隔给出惩罚R₂：

R₂＝-2|X_d-X_t+1|×δ₁

式中，δ₁为车辆驶入到目标转向车道这一目标在决策步车道选择中的重要程度，X_d为车辆目标转向需求，X_t+1为车辆在t+1时刻所在车道编号；

对于换道协同，根据车辆在决策步选择换道到其他车道的动作给出惩罚R₃：

式中，δ₂为车辆换道惩罚随着行驶距离的重要程度；

对于是否换道成功，根据车辆在决策步执行换道时未成功给出惩罚R₄：

式中，δ₃为换道成功随着车辆行驶距离的重要程度变化。

2.根据权利要求1所述的基于强化学习的交叉口前车辆群体车道选择方法，其特征在于，所述动作模块用于输出对应车辆的最优车道选择策略，并对车辆进行动作跟踪；

所述动作模块包括LC201换道模型和Krauss跟驰模型，当最优车道选择策略为保持换道时，通过Krauss跟驰模型进行动作跟踪，当最优车道选择策略为向左或向右换道时，通过LC201换道模型进行动作跟踪。

3.根据权利要求1所述的基于强化学习的交叉口前车辆群体车道选择方法，其特征在于，所述步骤S2中，通过构建状态空间确定待进行状态车辆的状态信息

所述状态空间中的参数包括本车辆转向需求、本车辆所在车道、本车到交叉口距离、向右转换可行性、向左换道可行性、信号灯相位状态信息以及信号灯剩余时间；

所述步骤S2中，所述最优车道选择策略从动作空间中确定，所述动作空间中的车道选择策略包括向右换道、向左换道以及保持车道。

4.根据权利要求1所述的基于强化学习的交叉口前车辆群体车道选择方法，其特征在于，所述步骤S2中，所述DQN模型的经验池中存有每个车辆的车道选择经验

5.根据权利要求4所述的基于强化学习的交叉口前车辆群体车道选择方法，其特征在于，所述步骤S2中，通过DQN模型确定最优车道选择策略的方法具体为：

基于动作空间中不同的车道选择策略，基于待进行车辆的状态信息，计算对应的动作状态值函数，将最优动作状态值函数对应的车道选择策略作为最优车道选择策略；

其中，所述动作空间中的车道选择策略包括向右换道、向左换道以及保持车道；

其中，所述最优动作状态值函数Q^*(s,a)的表达式为：

式中，E_π为策略为π时折扣函数的期望，为/>对应的动作状态值函数，γ为折扣因子，/>为策略为最优策略π^*时/>对应的最大动作状态值函数。

6.根据权利要求4所述的基于强化学习的交叉口前车辆群体车道选择方法，其特征在于，通过对经验池中的车道选择经验<s_i,a_i,r_i,s_i’>进行随机抽样，根据其对所述DQN模型进行迭代优化，具体方法为：

计算基于当前抽样的车道选择经验<s_i,a_i,r_i,s_i’>中s’输入目标Critic网络中计算下一时刻的最大动作状态值函数最大值，并结合r_i得到的累计折扣回报的估计值y_i，将y_i作为所述DQN模型中的评估Critic网络的目标值并采用梯度下降法对评估Critic网络进行训练，进而更新评估Critic网络的参数，并在每次达到设定训练步数后更新所述DQN模型中的目标Critic网络的参数，最终，实现DQN模型的迭代优化；

其中，s_i为抽取的经验数据中本时刻车辆i的状态信息，a_i为抽取的经验数据中本时刻的车道选择决策，r_i为根据下一时刻车辆i的状态信息s_i’计算的车辆动作回报，i＝1,2,3,…,n。

7.根据权利要求6所述的基于强化学习的交叉口前车辆群体车道选择方法，其特征在于，所述估计值y_i的计算公式为：

式中，为目标Critic网络输出的动作状态值函数，max_a′为目标Critic网络输出的动作状态值函数的最大值，γ为折扣因子，r_i为车辆i的车辆动作回报，s′_i为抽取的经验数据中下一时刻的车辆i的状态信息，a′为下一时刻选取的车道选择决策，/>为目标Critic网络的参数；

训练所述评估Critic网络时的损失函数L(ω)为：

式中，Q(·)为评估Critic网络的动作状态值函数，s_i为抽取的经验数据中本时刻车辆i的状态信息，a_i为抽取的经验数据中本时刻的车道选择决策，ω为评估Critic网络的参数；

所述评估Critic网络的参数ω的更新公式为：

式中，α为学习率，为Q(s_i,a_i,w)的梯度。