CN113487857A

CN113487857A - 一种区域多路口可变车道协同控制决策方法

Info

Publication number: CN113487857A
Application number: CN202110677633.6A
Authority: CN
Inventors: 夏莹杰; 徐小高; 朱思雨; 张洁
Original assignee: Hangzhou Yuantiao Science And Technology Co ltd
Current assignee: Hangzhou Yuantiao Science And Technology Co ltd
Priority date: 2021-06-18
Filing date: 2021-06-18
Publication date: 2021-10-08
Anticipated expiration: 2041-06-18
Also published as: CN113487857B

Abstract

本发明涉及一种区域多路口可变车道协同控制决策方法，包括以下步骤：S1：主控台实时获取路网状态数据、每一路口的局部状态和上一时间步的决策动作；S2：根据绩效奖励分级评定机制构建全局奖励分解模块；S3：根据区域内可变车道的数量，确定深度学习网络训练过程的状态空间、动作空间和全局奖励，构建全局混合网络；S4：利用深度神经网络模型构建结构相同的训练网络和目标网络，并将两个神经网络的参数同步；S5：根据上述收敛后的神经网络模型计算备选控制动作的效用函数值，选取最优动作进行可变车道转向控制。本发明在决策时能够去中心化地执行自身的可变车道转向决策，降低了计算复杂度，保证区域多路口可变车道协同控制决策的实时性和有效性。

Description

一种区域多路口可变车道协同控制决策方法

技术领域

本发明属于深度学习技术领域，具体涉及一种区域多路口可变车道协同控制决策方法。

背景技术

随着我国机动车保有量的不断上升，道路交通供需矛盾日益加剧。为了缓解路口内各转向交通流分布不均衡造成道路资源浪费问题和道路拥堵情况，国内外开始广泛使用可变车道技术。

在专利公开号为CN109920244A的中国专利公开了一种可变车道实时控制系统及方法，通过设备监测子系统、车道状态子系统、方案研判子系统和方案决策子系统进行路网状态获取和可变车道转向控制决策。在该方法中，可变车道可以依据实时路网状态进行自适应变化，缓解交通拥堵，提升道路资源的利用率。

上述专利肃然能够缓解交通拥堵，提升道路资源的利用率，但随着可变车道数量的增多，仅通过规则决策方式难以覆盖巨大的路网状态空间，对道路资源的均衡优化问题所提升的性能是十分有限的。

在专利公开号为CN111915894A的中国专利公开了一种基于深度强化学习的可变车道及交通协同控制方法，通过采集交叉路口状态观测值，包括车辆数据、信号灯数据和可变车道数据进行预处理后输入神经网路进行训练，得到收敛模型用于计算后续可变车道的决策控制方案。该方法仅仅处理单个路口的可变车道转向决策问题，单点最优不一定能够保障全局最优。

若是将上述方法通过简单耦合实施在区域路网中，每个路口的决策网络可能会由于其他决策网络导致的外部环境动态性而无法快速收敛甚至无法收敛。

发明内容

为了解决上述问题，本发明提供了一种区域多路口可变车道协同控制决策方法，在强化学习算法的基础上采取集中式训练、分布式执行的策略，在决策时每一智能体能够去中心化地执行自身的可变车道转向决策，降低了计算复杂度，保证区域多路口可变车道协同控制决策的实时性和有效性。

本发明的技术方案如下所示：

一种区域多路口可变车道协同控制决策方法，包括以下步骤：

S1：由主控台实时获取路网状态数据，并获得每一路口的局部状态和上一时间步的决策动作；

S2：根据绩效奖励分级评定机制构建全局奖励分解模块，将全局奖励分解为基本奖励和绩效奖励，并分别计算每个可变车道获得的奖励总和；

S3：根据区域内可变车道的数量，确定深度学习网络训练过程的状态空间、动作空间和全局奖励，构建全局混合网络；

S4：根据单个路口智能体网络和全局混合网络模型构建两个结构相同的神经网络，分别作为训练网络和目标网络，当训练网络和目标网络的相似度达到更新阈值时将两个神经网络的参数同步，经过不断迭代训练直至网络收敛；

S5：根据上述收敛后的神经网络模型计算备选控制动作的效用函数值，选取最优动作进行可变车道转向控制。

优选的，所述路网状态数据包括车道组左转方向车道组的平均排队长度、左转方向车道组的平均等待时间和左转方向车道组的平均延误时间，车道组直行方向车道组的平均排队长度、直行方向车道组的平均等待时间、直行方向车道组的平均延误时间，以及车辆位置映射矩阵。

优选的，根据可变车道的贡献建立绩效奖励分级评定机制来确认每个可变车道的绩效奖励，具体为对可变车道组的路段拥挤程度进行分级，所述基本奖励通过混合网络进行特异性分配。

优选的，所述绩效奖励的具体计算过程为：

计算路口上一决策执行期间直行车道组平均排队长度比

和左转车道组平均长度比

，计算公式如下：

,

，其中，

为直行方向车道组的平均排队长度，

为左转方向车道组的平均排队长度，

为当前车道长度；

计算车道分级判定的阈值

，计算公式如下：

，其中，

为可变车道组绿灯期间可驶出最大的车流量，

为可变车道组可以容纳的最大车流量；

计算每一可变车道对应智能体获得的绩效奖励

，计算公式如下：

；

其中，

为第

个智能体获得的绩效奖励，

为上一决策执行期间直行车道组平均排队长度比，

为路口上一决策执行期间左转车道组平均长度比，

为车道分级判定的阈值，

为绩效奖励总和。

优选的，所述状态空间通过路网状态数据联合表征区域内每一路口局部状态来确定，所述可变车道为左直可变车道，所述动作空间的可选项为直行或左转。

优选的，将所述可变车道抽象为智能体，以路口局部状态和上一时间步的执行动作作为相应智能体的输入，每一可变车道智能体将输入经过独立的深度学习网络计算得到自身的效用函数，所述全局混合网络根据区域内可变车道数量构建，将多个路口智能体的效用函数值作为全局混合网络的联合输入。

优选的，所述全局奖励的计算过程为：

计算区域内所有车道上车辆的平均排队长度

，计算公式如下：

，其中，

为某一车道的排队长度，不再局限于直行或者左转车道组，

为车道总数量；

计算区域内所有车道上车辆的平均延误时间

，计算公式如下：

，其中，

为某一车道的延误时间，

为车道总数量；

计算区域内所有车辆的平均停车等待时间

，计算公式如下：

，其中，

为某一辆车的停车等待时间，当一辆车的速度小于

时，停车等待时间开始累积，

为车辆总数量；

计算区域内驶离相应车道的平均车辆数

，计算公式如下：

，其中，

是某一车道驶出的车辆数，

为车道总数量。

计算区域内驶离相应车道的车辆平均速度

，计算公式如下：

，其中，

表示某一车辆的驶出车道的平均速度，

为车辆总数量。

计算全局奖励值

，计算公式如下：

，其中

为权重值。

优选的，在所述步骤S4的模型训练中，使用优先级经验回放算法加快训练时算法收敛速度，并针对经验缓冲池中的样本采用TD误差衡量样本重要性，将误差较大的样本设为高优先级，优先抽取高优先级的样本进行训练。

优选的，所述训练网络和目标网络的相似度采用网络模型对应权重的欧几里得距离进行计算，计算公式为：

，其中，

为目标网络的网络权重，

为训练网络的网络权重。

优选的，在所述步骤S5中具体包括：单独计算每一可变车道智能体采取不同决策动作的效用函数，采用效用函数值高的决策动作作为相应智能体下一时间步的执行动作，联合所有智能体的最优控制动作作为区域协同控制决策。

本发明的技术效果为：

本发明利用训练深度神经网络进行区域多路口可变车道协同控制决策方法学习，能够在复杂的非线性环境中取得良好的学习性能，且提高决策了效率。

本发明还在强化学习算法的基础上采取集中式训练的策略，训练时利用优化全局奖励函数优化联合动作值函数，获得以区域决策最优为目标的决策模型，每一智能体通过神经网络反向传播的基本奖励和额外的绩效奖励的双重激励进行学习，从而得到自身的“最佳”策略。

本发明还在在强化学习算法的基础上采取分布式执行的策略，决策时每一智能体能够去中心化地执行自身的可变车道转向决策，降低了计算复杂度，且能够保证区域多路口可变车道协同控制决策的实时性和有效性。

附图说明

图1为本发明提供的方法的转向控制决策流程图。

图2为本发明提供的方法的训练流程图。

图3为本发明提供的方法的整体框架。

具体实施方式

下面将结合说明书附图对本发明的实施例进行详细说明。

S4：利用深度神经网络模型构建两个结构相同的神经网络，分别作为训练网络和目标网络，当训练网络和目标网络的相似度达到更新阈值时将两个神经网络的参数同步，经过不断迭代训练直至网络收敛；

在步骤S1中，主控台对路口状态的实时观测的路网状态数据如下：车道组左转方向车道组的平均排队长度

、左转方向车道组的平均等待时间

、左转方向车道组的平均延误时间

；车道组直行方向车道组的平均排队长度

、直行方向车道组的平均等待时间

、直行方向车道组的平均延误时间

；车辆位置映射矩阵

，并获取上一时间步的决策动作

。

在步骤2中，将全局奖励R分解为两个部分：基本奖励

和绩效奖励

。计算方式如下：

；

其中

为绩效奖励占全局奖励的比重。

作为本发明的一个具体的实施例，

，

，根据上面的计算公式可以得到绩效奖励

，

。

上述基本奖励通过混合网络进行特异性分配，每一个可变车道智能体获得的基本奖励记为

，在一个具体实施例中，假设可变车道数量

，

，

，

，

，

。

上述绩效奖励用于激励区域协同控制过程中贡献较大的可变车道智能体，根据可变车道智能体的贡献建立绩效奖励分级评定机制，由于对车流饱和道路的决策对整体路网状态的影响大于车流未饱和道路，所以对可变车道组的路段拥挤程度进行分级。

绩效奖励的具体计算过程为：

①、计算路口上一决策执行期间直行车道组平均排队长度比

和左转车道组平均长度比

，计算方式如下：

,

，其中，

为直行方向车道组的平均排队长度，

为左转方向车道组的平均排队长度，

为当前车道长度。

作为本发明的一个具体实施例，其中，

，

，

。根据上述计算公式可以得到

，

。

②、计算车道分级判定的阈值

，计算方式如下：

，其中，

为可变车道组绿灯期间可驶出最大的车流量，

为可变车道组可以容纳的最大车流量。

作为本发明的一个具体实施例，

，

，根据上面的计算公式可以得到

。

③、计算每一可变车道对应智能体获得的绩效奖励

，计算方式如下：

其中，

为第

个智能体获得的绩效奖励，

为上一决策执行期间直行车道组平均排队长度比，

为路口上一决策执行期间左转车道组平均长度比，

为车道分级判定的阈值，

为绩效奖励总和。

作为本发明的一个具体实施例，根据上述内容提到的数值，

，

，

，

。根据上面的计算公式可以得到

。

最终计算每个智能体获得的奖励总和

。计算方式如下：

。

在一个具体实施例中，根据上述内容提到的数值，计算其中一个可变车道智能体的奖励总和：

。

在步骤S3中，状态空间通过主控台观测路网状态得到的路网状态数据，联合表征路口局部状态来最终来确定，具体为：

，其中，

为信号周期数。

在本步骤中，将每一可变车道抽象为一个智能体，以路口局部状态

和上一时间步的执行动作

作为相应智能体的输入。

作为本发明的一个具体实施例，

=0，表示上一时间步执行动作为左转，

。

每一可变车道智能体将输入

经过独立的深度学习网络计算得到自身的效用函数

，在本实施例中，

。

根据区域内可变车道数量构建全局混合网络，将多个路口智能体的效用函数值作为混合网络的联合输入

，其中，

表示可变车道数量。

本实施例中，假设可变车道数量

，

，

，

5，

，

。

本实施例中，可变车道为左直可变车道，动作空间仅有两个可选项：直行或者左转，如下所示：

；

如图1所示，转向控制决策流程为：

1、获取路网状态数据；

2、计算下一状态中每一车道智能体的效用函数值；

3、计算全局效用函数值；

4、通过神经网络反向传播计算每一车道的基本奖励值；

5、通过全局奖励分解模块计算每一车道的绩效奖励值；

6、计算当前备选动作左转和直行的效用函数值；

7、判断左转的效用函数至是否大于直行的效用函数值，是则左转，否则直行。

而全局奖励需要综合考虑整个区域的交通状况，所选取的各个指标如下：

①、计算区域内所有车道上车辆的平均排队长度

，计算公式为：

，其中，

为某一车道的排队长度，不再局限于直行或者左转车道组，

为车道总数量。

②、计算区域内所有车道上车辆的平均延误时间

，计算公式为：

，其中，

为某一车道的延误时间，

为车道总数量。

③、计算区域内所有车辆的平均停车等待时间

，计算公式为：

，其中，

为某一辆车的停车等待时间，当一辆车的速度小于

时，停车等待时间开始累积，

为车辆总数量。

④、计算区域内驶离相应车道的平均车辆数

，计算公式为：

，其中，

是某一车道驶出的车辆数，

为车道总数量。

⑤、计算区域内驶离相应车道的车辆平均速度

，计算公式为：

，其中，

表示某一车辆的驶出车道的平均速度，

为车辆总数量。

综合上述指标，对其分配不同权重，计算得到全局奖励值

，计算公式为：

。本实施例对上述权重预设如下：

，

，

，

，

。

在一个具体的实例中：

，

，

，

，

。根据上面的计算公式可以得到

。

在步骤4中，对步骤3提出的深度网络模型，提出优先级经验回放算法加快训练时算法收敛速度。对于经验缓冲池中的样本采用TD误差衡量样本重要性，将误差较大的样本设为高优先级，优先抽取高优先级的样本进行训练。

模型的具体训练过程如图2所示，包括：

1、获取路网状态数据；

2、构建全局奖励分解模块；

3、确定状态空间、动作空间和全局奖励；

4、构建训练网络和目标网络；

5、优先级经验回放抽取训练样本；

6、判断模型是否收敛，是则结束步骤，否则继续判断是否达到更新阈值，是则同步目标网络和训练网络的参数并返回第5步，否则直接返回第5步。

在本实施例中，网络相似度采用网络模型对应权重的欧几里得距离进行计算，计算公式为：

。其中，

为目标网络的网络权重，

为训练网络的网络权重。记录过去时间每一时间的网络相似度，若当前时间步的网络相似度小于最大值的一半时，将两个神经网络的参数同步。

在一个具体实例中，网络相似度记录列表为

，则在当前时间步网络相似度为

时，将两个网络的参数同步。

本实施例中，采用经验回放机制提供深度网络的训练样本，首先将智能体与环境交互产生的经验放入缓冲池，神经网络训练过程中根据经验样本的优先级进行抽取。

由于误差较大的经验样本说明训练网络可优化的空间更大，采取目标网络损失

作为衡量训练样本优先级的指标之一；为防止

值较小的样本抽取概率过低甚至整个训练过程都无法抽取到的情况出现，引入抽取次数

作为衡量训练样本优先级的另一指标。

计算目标网络效用函数

，其中，

为当前联合状态，

为当前联合动作，

为可变车道数量。

计算训练网络效用函数

，其中，

为采取联合动作

之后的联合状态，

为下一联合动作，

为区域路网由联合状态

转移至联合状态

获得的全局奖励值，

为对于训练网络效用函数值的接纳程度，

为可变车道数量。

计算训练样本的

，计算方式如下：

，其中，

为目标网络效用函数值，

为训练网络效用函数值。

在一个具体的实例中，

，

，根据上述计算公式计算获得

。

计算训练样本的抽取次数

，由于不同经验的目标网络损失

数值差距较大，为了更好地整合两个指标，将其转变为无量纲的排序量。通过

获取损失

在递增序列中的位置；通过

获取抽取次数

在递减序列中的位置。

计算优先级

，计算公式为：

；

其中，

为两个指标整合之后的递增序列中的位置，

为缓冲池里训练样本数量，

为概率的偏移量用以防止

过小而样本被抽中的概率过低。

在一个具体的实例中，本发明中

预设值为0.0，

，假设缓冲池里的训练样本数量

，

，

，

，

=3，

，

，

，根据上述计算公式得出

。

经过不断迭代训练直至网络收敛。

在步骤S5中，为了降低计算时间复杂度，单独计算每一可变车道智能体采取不同决策动作的效用函数，效用函数值越高代表着该控制动作进行交通疏导的效果越好，采取该控制动作作为相应智能体下一时间步的执行动作，联合所有智能体的最优控制动作作为区域协同控制决策，其中为区域内可变车道总数量。

步骤S5中的效用函数值的计算公式为：

。

本发明提供的如上所述的方法，使用深度神经网络学习可变车道转向控制方法，针对区域多路口可变车道协同控制问题，使用基本奖励加绩效奖励的全局奖励分解策略，进行集中式训练获得以区域决策最优为目标的决策模型；每一智能体分布式执行自身的可变车道转向决策。该方法降低了计算复杂度，保证决策的实时性；有效减少道路资源浪费的问题，减少了交通拥堵。

本发明提供的方法的整体框架如图3所示。

最后应说明的是：以上所述实施例，仅为本发明的具体实施方式，用以说明本发明的技术方案，而非对其限制，本发明的保护范围并不局限于此，尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，其依然可以对前述实施例所记载的技术方案进行修改或可轻易想到变化，或者对其中部分技术特征进行等同替换；而这些修改、变化或者替换，并不使相应技术方案的本质脱离本发明实施例技术方案的精神和范围。都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应所述以权利要求的保护范围为准。

Claims

1.一种区域多路口可变车道协同控制决策方法，其特征在于，包括以下步骤：

2.根据权利要求1所述的一种区域多路口可变车道协同控制决策方法，其特征在于，所述路网状态数据包括车道组左转方向车道组的平均排队长度、左转方向车道组的平均等待时间和左转方向车道组的平均延误时间，车道组直行方向车道组的平均排队长度、直行方向车道组的平均等待时间、直行方向车道组的平均延误时间，以及车辆位置映射矩阵。

3.根据权利要求1所述的一种区域多路口可变车道协同控制决策方法，其特征在于，根据可变车道的贡献建立绩效奖励分级评定机制来确认每个可变车道的绩效奖励，具体为对可变车道组的路段拥挤程度进行分级，所述基本奖励通过混合网络进行特异性分配。

4.根据权利要求3所述的一种区域多路口可变车道协同控制决策方法，其特征在于，所述绩效奖励的具体计算过程为：

计算路口上一决策执行期间直行车道组平均排队长度比

和左转车道组平均长度比

，计算公式如下：

,

，其中，

为直行方向车道组的平均排队长度，

为左转方向车道组的平均排队长度，

为当前车道长度；

计算车道分级判定的阈值

，计算公式如下：

，其中，

为可变车道组绿灯期间可驶出最大的车流量，

为可变车道组可以容纳的最大车流量；

计算每一可变车道对应智能体获得的绩效奖励

，计算公式如下：

；

其中，

为第

个智能体获得的绩效奖励，

为上一决策执行期间直行车道组平均排队长度比，

为路口上一决策执行期间左转车道组平均长度比，

为车道分级判定的阈值，

为绩效奖励总和。

5.根据权利要求2所述的一种区域多路口可变车道协同控制决策方法，其特征在于，所述状态空间通过路网状态数据联合表征区域内每一路口局部状态来确定，所述可变车道为左直可变车道，所述动作空间的可选项为直行或左转。

6.根据权利要求5所述的一种区域多路口可变车道协同控制决策方法，其特征在于，将所述可变车道抽象为智能体，以路口局部状态和上一时间步的执行动作作为相应智能体的输入，每一可变车道智能体将输入经过独立的深度学习网络计算得到自身的效用函数，所述全局混合网络根据区域内可变车道数量构建，将多个路口智能体的效用函数值作为全局混合网络的联合输入。

7.根据权利要求5所述的一种区域多路口可变车道协同控制决策方法，其特征在于，所述全局奖励的计算过程为：

计算区域内所有车道上车辆的平均排队长度