CN114783178B

CN114783178B - 一种自适应停车场出口道闸控制方法、装置和存储介质

Info

Publication number: CN114783178B
Application number: CN202210328902.2A
Authority: CN
Inventors: 蒋盛川; 陈菁; 王金栋; 都州扬; 杜豫川
Original assignee: Tongji University
Current assignee: Tongji University
Priority date: 2022-03-30
Filing date: 2022-03-30
Publication date: 2023-08-08
Anticipated expiration: 2042-03-30
Also published as: CN114783178A

Abstract

本发明涉及一种自适应停车场出口道闸控制方法，包括：接收停车场出口下游和内部排队信息；预测单位时间内各出口驶离车辆数；计算不同出口道闸控制方式的禁行时间；以停车场出口下游和内部排队信息、允许最大排队长度作为输入参数，利用多智能体深度强化学习框架构建自适应停车场出口道闸控制模型，所述模型的构建方法为：基于多智能体深度确定性策略梯度网络，建立相应的评论家网络和表演者网络，输出期望效益，利用交互数据，迭代训练网络至奖励函数收敛，得到最大化期望效益；输入停车场出口下游和内部实时排队信息和允许最大排队长度，利用所述模型，输出停车场出口道闸控制。与现有技术相比，本发明具有同时考虑动静态交通、灵活性强等优点。

Description

一种自适应停车场出口道闸控制方法、装置和存储介质

技术领域

本发明涉及停车场出口道闸控制技术领域，尤其是涉及一种基于交通状态感知的自适应停车场出口道闸控制方法、装置和存储介质。

背景技术

随着汽车行业的发展，日益增加的机动车出行需求在给道路交通造成压力的同时，也造成了停车系统管控困难。现有停车场道闸控制的灵活度有限，难以根据动态交通状态进行调节，容易在一定时间内放行过多或过少车辆，导致地面交通或停车场内交通拥堵。同时，一个大型建筑的停车场往往有多个出口，而出口间的流量分配不均衡，常导致个别出口严重拥堵。

现有基于交通状态感知的停车场道闸控制中，还存在一些问题值得优化。例如，感应式道闸控制通常只在停车场出口下游道路排队长度低于规定数值且有车辆需要离开停车场时抬杆放行，虽然感应式道闸控制能够减少对停车场出口下游道路的影响，但是相比于固定式道闸控制，在高峰时期将产生较大的停车场内排队。实际上，动态交通和静态交通的状态是时刻发生变化的，难以用准确的周期时长和排队长度作为标准控制停车场道闸，同时也难以预知当前道闸控制方法会对动、静态交通演化产生的影响。

发明内容

本发明的目的就是为了提供一种基于交通状态感知的自适应停车场出口道闸控制方法、装置和存储介质。

本发明的目的可以通过以下技术方案来实现：

一种自适应停车场出口道闸控制方法，包括：

接收停车场出口下游路段和停车场内部路段的排队信息；

预测停车场单位时间内各出口的驶离车辆数；

根据所述出口单位时间驶离车辆数，计算不同出口道闸控制方式的禁行时间；

以停车场出口下游路段和停车场内部路段的排队信息、停车场出口下游路段允许最大排队长度、停车场内部路段允许最大排队长度作为输入参数，利用多智能体深度强化学习框架构建自适应停车场出口道闸控制模型，所述自适应停车场出口道闸控制模型的构建方法为：基于多智能体深度确定性策略梯度网络，建立相应的评论家网络和表演者网络，输出期望效益，利用交互数据，迭代训练网络至奖励函数收敛，得到最大化期望效益，完成所述模型构建；

输入停车场出口下游路段实时排队信息、停车场内部道路实时排队信息、停车场出口下游路段允许最大排队长度、停车场内部路段允许最大排队长度，利用停车场出口道闸控制模型，输出停车场出口道闸控制。

所述排队信息包含路段车辆行驶平均速度、排队长度。

所述出口道闸为固定式道闸或感应式道闸。

若所述停车场为拥有足够历史数据的停车场，停车场单位时间离场、进场车辆数采用机器学习算法确定；若所述停车场为缺乏历史数据的停车场，停车场单位时间离场、进场车辆数在四阶段法预测的基础上，参考周边类似建成停车场的历史数据，乘以经验系数确定。

针对某一需要控制的出口道闸，所述自适应停车场出口道闸控制模型以停车场出口下游路段和停车场内部路段的排队信息、停车场出口下游路段允许最大排队长度、停车场内部路段允许最大排队长度为状态，输入表演者网络，输出该出口的道闸控制方案为动作，再将所有出口的状态和动作输入到评论家网络，以停车场内部道路排队长度和所有停车场出口下游的排队长度为评价指标，输出智能体选择该动作的期望效益。

所述自适应停车场出口道闸控制模型不同智能体的表演者和评论家网络采用相同的结构。

所述自适应停车场出口道闸控制模型的奖励函数由预配置时间间隔内的停车场出口下游和停车场内部路段的平均排队长度表示。

所述停车场出口道闸控制模型的控制方法为：在道闸落杆之前，根据自适应停车场道闸控制模型输出的道闸控制方案实现下一时间间隔的道闸控制。

一种自适应停车场出口道闸控制装置，包括存储器、处理器，以及存储于所述存储器中的程序，所述处理器执行所述程序时实现如上所述的方法。

一种存储介质，其上存储有程序，其特征在于，所述程序被执行时实现如上所述的方法。

与现有技术相比，本发明具有以下有益效果：

(1)本发明同时考虑停车场出口下游路段和停车场内部路段排队信息，兼顾动静态交通，能提高区域交通通行效率。

(2)本发明基于“集中训练”的思路，同时考虑当前出口道闸控制和其他出口道闸控制对整体交通的影响，实现全局优化。

(3)本发明将排队长度设置为奖励函数，可以在模型训练时关注一段时间内的停车场出口下游、停车场内部路段平均排队长度，实时反馈和准确评价出口道闸控制的效果，有利于出口道闸控制策略的提升。

(4)本发明使用期望效益评价出口道闸控制方案，能够利用对将来排队长度的估计，寻找较优的出口道闸控制方案，减少出口道闸控制的突然改变对交通的影响，避免大面积交通拥堵的发生。

(5)不同智能体的表演者和评论家网络采用相同的结构能够降低网络训练的难度，提高训练效率。

附图说明

图1为本发明的流程图。

具体实施方式

下面结合附图和具体实施例对本发明进行详细说明。本实施例以本发明技术方案为前提进行实施，给出了详细的实施方式和具体的操作过程，但本发明的保护范围不限于下述的实施例。

参照图1所示，本实施例提供一种自适应停车场出口道闸控制方法，包括以下步骤：

在所控制的停车场出口的影响范围内，合理布设路侧视频摄像机、毫米波雷达等传感器，获取重点监测路段的车辆速度信息，进而与各车辆上传车路信息物理系统的数据进行融合，使得影响范围内所有道路的信息能够在系统中完整呈现。通过系统提供的各路段速度为零的车辆数量，获取停车场出口下游路段排队信息和停车场内部路段排队信息，即排队长度。

根据历史数据是否足够对停车场进行分类，预测停车场单位时间内各出口的驶离车辆数。

对于拥有足够历史数据的停车场，利用该停车场机动车驶出的历史数据，将其分成早高峰、晚高峰、平峰三个时期，并加上星期、天气、停车收费等信息，利用机器学习算法预测将来单位时间可能由停车场各出口驶离的车辆数。为了支持不同时段的单位时间离场、进场车辆数预测，所述足够历史数据为累计停车场机动车离场和进场数据至少涵盖一星期。

d_i＝f_i(T,W,w,F)

式中，d_i停车场出口道闸i的单位时间预测驶离的车辆数，f_i为针对道闸i采用机器学习算法，如神经网络、随机森林等拟合的预测函数，T为预测时期的编码，即1为早高峰、2为晚高峰、3为平峰，W为天气的编码，w为星期的编码，即星期一至星期天按照1至7编码，F为预测时段内的停车收费。

对于缺乏历史数据的停车场，采用四阶段法预测交通出行需求，在此基础上，参考周边类似建成停车场的历史数据，乘以经验系数，得到早高峰、晚高峰、平峰时段内单位时间可能由停车场各出口驶离的车辆数。所述缺乏历史数据指的是累计停车场机动车离场和进场数据少于一星期。对于新投入使用停车场来说，在数据连续积累一星期后，可以转换为机器学习算法预测单位时间离场、进场车辆数提高预测精度。

停车场出口道闸控制方式可分为固定式和感应式两种。无论是哪一种控制方式，都将出口道闸控制的时间范围单位划分为若干个时间段，每个时间段包括抬杠、通行、落杆、禁行时段；在落杆时段之前，根据自适应停车场道闸控制模型输出的策略控制下一时间段道闸的状态。

根据一辆车以正常车速通过道闸的状态设定道闸的抬杆和落杆速度，则道闸由开始抬杆到完全落杆的所需要的时间：

t_o＝t_u+t_v+t_d

式中，t_o为道闸放行一辆车所需要的时间，t_u为道闸抬杆时段长度，t_v为车辆从起步到车辆尾部通过道闸所需要的时间，即通行时段长度，t_d为道闸落杆时段长度。

固定式出口道闸控制方法为：基于交通出行需求预测，确定单位时间内每个出口需要放行的车辆数，根据每辆车通过道闸所需要的时间，计算单位时间内放行车辆的时间总长度，确定每次放行车辆的时间间隔，使得道闸的抬杠和落杆按照固定时间安排进行。其中，抬杠、落杆时段长度为道闸固定控制参数，通行时段长度为一个车辆由起步至尾部通过道闸的时间，禁行时段长度需要结合交通需求预测确定。

感应式出口道闸控制方法为：基于道路交通拥挤程度检测，停车场出口下游排队长度大于规定的最大排队长度时，道闸落杆不允许车辆驶出停车场，在其余时间停车场出口传感器检测到有车辆需要驶离停车场时，放行车辆。

利用预测的单位小时停车场各出口驶离的车辆数，设计满足出行需求的固定式停车场出口道闸控制策略，即计算相邻抬杠时间的间隔：

式中，t_e为理想道闸相邻抬杠时间的间隔，n为预测的由该出口驶离的车辆数。

在固定式停车场出口道闸控制策略中，当t_e≤t_o时可以认为道闸保持通行状态，不执行落杆动作，禁行时段长度为0；当t_e＞t_o时，禁行时段长度为t_e-t_o。

在感应式停车场出口道闸控制策略中，假设停车场出口下游最多可容纳的排队车辆数为L，则可规定允许最大排队长度为L-1。基于所述的道路交通排队信息检测，当停车场出口下游排队长度大于规定的允许最大排队长度时，道闸关闭不允许车辆驶出停车场，其余时间检测到有车辆靠近出口道闸且需要驶离停车场时，抬杠放行车辆并保持通行直到收到关闭指令，该通行时段的长度应至少保证一辆车辆正常通过道闸。

在交通仿真平台中，构建模拟路网和交通信号灯，搭建地下停车场及城市道路交通的仿真环境，通过布设传感器和停车场出入口道闸模拟车路信息物理系统中信息交互和控制，进而实时从系统中获取状态，并根据状态利用多智能体深度强化学习决策停车场出口道闸采用的控制方式。

其中，每一个停车场出口道闸都是一个可以单独根据状态进行控制方式决策的智能体。每个智能体的状态和控制方式可分别表示为：

o_i＝[q_ip,q_ir,m_ip,m_ir]

a_i(t)＝{0,1}

式中，o_i为观测到的停车场出口i的状态，q_ip为该出口停车场内排队长度，q_ir为该出口下游排队长度，m_ip为该出口停车场内允许最大排队长度，m_ir为该出口下游允许最大排队长度，a_i为出口道闸的控制方式，0为固定式道闸控制，1为感应式道闸控制。

对于一个停车场，总体的状态为x＝[o₁,...,o_N]，总体的控制方式为a＝[a₁,...,a_N]。对于该状态下所选择的控制方式，在后续评价时间段Δt内，交通仿真系统根据决策的控制方式控制道闸，改变道闸的通行时段和禁行时段长度，并采用系统内置的车辆跟驰模型、换道模型、实时路径规划模型不断演化。在经过Δt后，多智能体深度强化学习通过奖励函数评价自适应道闸控制的效果。

其中，奖励函数用来评价采用该控制方式对动静交通的影响，考虑到停车场的各出口间是协同关系，出口道闸控制的目标是实现整个停车场所有出口间的协调，以降低停车场内和周边道路排队长度，则总体的奖励函数可利用时间Δt内的道路平均排队长度表示：

r＝∑_ir_i

式中，为该出口在时间Δt内的停车场内平均排队长度，/>为该出口下游在时间Δt内的平均排队长度,w₁和w₂为权重，用于将奖励函数调整至范围[-1,0]，M为任一较大的正整数，作为对排队长度超过允许值的惩罚，可取为1。将排队长度设置为奖励函数，可以在模型训练时关注一段时间内的停车场出口下游路段、停车场内部路段平均排队长度，实时反馈和准确评价出口道闸控制的效果，有利于出口道闸控制策略的提升。

以多智能体深度确定性策略梯度网络(Multi-Agent Deep DeterministicPolicy Gradient，MADDPG)为例，随着仿真的不断进行，收集交通仿真平台实时传回的大量交互数据，并将其储存在经验池中，基于“集中训练”的思路，同时利用当前智能体和其他智能体的动作和状态，优化全局出口道闸控制策略。根据停车场出口道闸的数量，建立相应的评论家网络(Critic)和表演者网络(Actor)，每个评论家网络和表演者网络都由Evaluate网络和Target网络构成，评论家网络用于学习如何评价协同控制策略，表演者网络分别用于各个停车场出口道闸的控制。特别的是，每个停车场出口道闸都由一组表演者网络控制和一组评论家网络评价。具体地，每个表演者网络输入当前出口状态并输出动作，而评论家网络基于整个停车场的状态和所有动作，输出当前出口道闸的协同控制效果的期望效益。基于大量的交互数据和奖励函数设置，通过对MADDPG模型的迭代训练，评论家网络所输出的期望效益可以看作是在当前状态采用该动作能在未来获得效益的期望值。具体地，所述的期望效益可以看作是评论家网络利用对于未来停车场内道路和停车场出口下游排队长度的估计，以评价出口道闸控制。由于出口道闸控制的改变将对整个停车系统及周边道路产生较大的影响，使用期望效益评价出口道闸控制，能够利用对将来排队长度的估计，寻找较优的出口道闸控制方案，减少出口道闸控制的突然改变对交通的影响，避免大面积交通拥堵的发生。当奖励函数随着仿真的进行呈现出收敛趋势时，模型已完成训练。训练过程中，评论家网络的损失函数为：

式中，μ_i为停车场出口道闸i的表演者网络中的Evaluate网络代表的策略函数，S为从经验池中抽取的用于模型训练的总样本量，<x^j,a^j,r^j,x'^j>为从经验池抽取的样本，为与停车场出口道闸i和策略函数μ对应的评论家网络，/>为第j个样本中由停车场出口道闸k的表演者网络中的Evaluate网络输出的控制策略，N为该停车场出口道闸的总数，γ为折减率，o^j为仿真平台观测到的智能体状态，μ'_k为停车场出口道闸k的表演者网络中的Target网络代表的策略函数，a'_k为第j个抽样数据中由停车场出口道闸k的表演者网络中的Target网络输出的控制策略。

表演者网络更新时采用的策略梯度函数为：

式中，θ_i为停车场出口道闸i的评论家网络中Evaluate网络的参数。特别的是，停车场出口道闸的编号是唯一的，这里采用i和k区别Evaluate网络和Target网络。

对于停车场出口道闸i，其Target网络的更新方式为：

θ'_i←τθ_i+(1-τ)θ'_i

μ'_i←τμ_i+(1-τ)μ'_i

为了降低网络训练的难度，不同智能体的表演者和评论家网络可采用相同的结构。例如，对于一个停车场共有4个出口道闸，其表演者网络各层的神经元数量为4-10-1，评论家网络各层的神经元数量为20-30-1，神经网络中间层的激活采用relu。网络参数的设置如下表所示：

在落杆时段之前，根据自适应停车场道闸控制模型输出的策略控制下一时间段道闸的状态。将训练完成的自适应道闸控制模型用于真实停车系统中的出口道闸控制时，需要将原来由交通仿真平台获取的状态改为由车路信息物理系统获取，并将具体的感应式和固定式道闸控制策略与具体的道闸动作相结合。

在智能体选择固定式道闸控制时，道闸执行打开指令时完整的状态变化依次为抬杠、通行、落杆、禁行，道闸的抬杆、落杆的速度保持不变，通行时段长度根据车辆由起步至尾部通过道闸的平均时间确定，禁行时段长度结合所述的理想道闸相邻抬杠时间的间隔和道闸放行一辆车所需要的时间来确定。

在智能体选择感应式道闸控制时，当停车场出口下游的排队长度小于或等于允许最大长度且有车辆需要驶出该出口时，向道闸发送放行指令；当停车场出口下游的排队长度对于允许最大长度时，向道闸发送关闭指令。特别的是，为了保证道闸抬杆和落杆动作的完整性，当收到打开指令后，道闸完成该时间段的既定动作，在下一时间段完成抬杆并保持通行状态，直到收到关闭指令且两指令的时间差能够至少让一辆车以正常车速通过道闸时落杆。

上述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

Claims

1.一种自适应停车场出口道闸控制方法，其特征在于，包括：

接收停车场出口下游路段和停车场内部路段的排队信息；

预测停车场单位时间内各出口的驶离车辆数；

2.根据权利要求1所述的一种自适应停车场出口道闸控制方法，其特征在于，所述排队信息包含路段车辆行驶平均速度、排队长度。

3.根据权利要求1所述的一种自适应停车场出口道闸控制方法，其特征在于，所述出口道闸为固定式道闸或感应式道闸。

4.根据权利要求1所述的一种自适应停车场出口道闸控制方法，其特征在于，若所述停车场为拥有足够历史数据的停车场，停车场单位时间离场、进场车辆数采用机器学习算法确定；若所述停车场为缺乏历史数据的停车场，停车场单位时间离场、进场车辆数在四阶段法预测的基础上，参考周边类似建成停车场的历史数据，乘以经验系数确定。

5.根据权利要求1所述的一种自适应停车场出口道闸控制方法，其特征在于，针对某一需要控制的出口道闸，所述自适应停车场出口道闸控制模型以停车场出口下游路段和停车场内部路段的排队信息、停车场出口下游路段允许最大排队长度、停车场内部路段允许最大排队长度为状态，输入表演者网络，输出该出口的道闸控制方案为动作，再将所有出口的状态和动作输入到评论家网络，以停车场内部道路排队长度和所有停车场出口下游的排队长度为评价指标，输出智能体选择该动作的期望效益。

6.根据权利要求1所述的一种自适应停车场出口道闸控制方法，其特征在于，所述自适应停车场出口道闸控制模型不同智能体的表演者和评论家网络采用相同的结构。

7.根据权利要求1所述的一种自适应停车场出口道闸控制方法，其特征在于，所述自适应停车场出口道闸控制模型的奖励函数由预配置时间间隔内的停车场出口下游和停车场内部路段的平均排队长度表示。

8.根据权利要求1所述的一种自适应停车场出口道闸控制方法，其特征在于，所述停车场出口道闸控制模型的控制方法为：在道闸落杆之前，根据自适应停车场道闸控制模型输出的道闸控制方案实现下一时间间隔的道闸控制。

9.一种自适应停车场出口道闸控制装置，包括存储器、处理器，以及存储于所述存储器中的程序，其特征在于，所述处理器执行所述程序时实现如权利要求1-8中任一所述的方法。

10.一种存储介质，其上存储有程序，其特征在于，所述程序被执行时实现如权利要求1-8中任一所述的方法。