CN115830887A

CN115830887A - 一种自适应交通信号控制方法、系统及可读存储介质

Info

Publication number: CN115830887A
Application number: CN202310111736.5A
Authority: CN
Inventors: 曾科; 王聪; 丁乃侃
Original assignee: Wuhan Zhian Transportation Technology Co ltd
Current assignee: Wuhan Zhian Transportation Technology Co ltd
Priority date: 2023-02-14
Filing date: 2023-02-14
Publication date: 2023-03-21
Anticipated expiration: 2043-02-14
Also published as: CN115830887B

Abstract

本申请实施例提供的一种自适应交通信号控制方法、系统及可读存储介质，该方法包括获取预设时段内的交通流量数据，并根据交通流量数据确定道路现场中各交叉路口处的车道通行流量；采用Q学习算法预测各交叉路口的信号配时数据，并根据信号配时数据、车道通行流量，确定各交叉路口处的相对流量；基于各交叉路口处相对流量的比较结果，判断当前状态；根据绿、红灯相位时的相对流量之差，确定当前状态下的奖励；在确定当前状态下的奖励小于0时，生成按照预设的步长增加绿灯时间的第一动作，反之，生成按照预设的步长减少绿灯时间的第二动作；获取当前状态下动作的预估Q值，基于预估Q值收敛性的判断，输出最终预测的绿灯时间。

Description

一种自适应交通信号控制方法、系统及可读存储介质

技术领域

本申请涉及自动驾驶技术领域，具体而言，涉及一种自适应交通信号控制方法、系统及可读存储介质。

背景技术

随着V2X技术的发展，混合交通场景下的交通信号控制受到了广泛关注。然而，由于联网汽车的市场渗透率较低，提高现有算法的学习能力具有挑战性。为了增强自学习能力，强化学习算法被广泛应用于城市十字路口的交通信号控制中，以此进一步改善延迟、排队长度、等待时间和冲突风险。然而现有技术的研究只关注人为因素对混合交通流的影响，而忽略了其（人为因素）对交通控制的影响，存在交通控制精准度不高的问题。

发明内容

本申请实施例的目的在基于提供一种自适应交通信号控制方法、系统及可读存储介质，可以提高交通控制精准度。

本申请实施例还提供了一种自适应交通信号控制方法，包括以下步骤：

S1、获取预设时段内的交通流量数据，并根据所述交通流量数据确定道路现场中各交叉路口处的车道通行流量；

S2、采用Q学习算法预测各所述交叉路口的信号配时数据，并根据所述信号配时数据、所述车道通行流量，确定各所述交叉路口处的相对流量；

S3、基于各所述交叉路口处相对流量的比较结果，判断当前状态；

S4、根据绿灯相位时的相对流量和红灯相位时的相对流量之间的差值，确定当前状态下的奖励；

S5、在确定当前状态下的奖励小于0时，生成按照预设的步长增加绿灯时间的第一动作，反之，生成按照预设的步长减少绿灯时间的第二动作；

S6、获取当前状态下动作的预估Q值，在确定所述预估Q值未收敛时，返回到步骤2继续执行，并在确定达到预设的循环终止条件时，输出最终预测的绿灯时间。

第二方面，本申请实施例还提供了一种自适应交通信号控制系统，所述系统包括流量数据获取模块、相对流量计算模块、状态确定模块、奖励确定模块、动作生成模块以及迭代优化模块，其中：

所述流量数据获取模块，用于获取预设时段内的交通流量数据，并根据所述交通流量数据确定道路现场中各交叉路口处的车道通行流量；

所述相对流量计算模块，用于采用Q学习算法预测各所述交叉路口的信号配时数据，并根据所述信号配时数据、所述车道通行流量，确定各所述交叉路口处的相对流量；

所述状态确定模块，用于基于各所述交叉路口处相对流量的比较结果，判断当前状态；

所述奖励确定模块，用于根据绿灯相位时的相对流量和红灯相位时的相对流量之间的差值，确定当前状态下的奖励；

所述动作生成模块，用于在确定当前状态下的奖励小于0时，生成按照预设的步长增加绿灯时间的第一动作，反之，生成按照预设的步长减少绿灯时间的第二动作；

所述迭代优化模块，用于获取当前状态下动作的预估Q值，在确定所述预估Q值未收敛时，触发所述相对流量计算模块继续执行，并在确定达到预设的循环终止条件时，输出最终预测的绿灯时间。

第三方面，本申请实施例还提供了一种可读存储介质，所述可读存储介质中包括自适应交通信号控制方法程序，所述自适应交通信号控制方法程序被处理器执行时，实现如上述任一项所述的一种自适应交通信号控制方法的步骤。

由上可知，本申请实施例提供的一种自适应交通信号控制方法、系统及可读存储介质，由于联网汽车的市场渗透率较低，基于Q学习算法法能够根据每个路口的状态不断地执行动作获取奖励再到下一状态，实现对城市路网交通灯的智能化控制，提高交通控制精准度，进一步降低城市十字路口的交通信号控制过程中的延迟、排队长度过长、等待时间过长和驾驶员冲突等风险，便于城市交通管理，减少城市交通拥堵。

本申请的其他特征和优点将在随后的说明书阐述，并且，部分地从说明书中变得显而易见，或者通过实施本申请实施例了解。本申请的目的和其他优点可通过在所写的说明书、权利要求书、以及附图中所特别指出的结构来实现和获得。

附图说明

为了更清楚地说明本申请实施例的技术方案，下面将对本申请实施例中所需要使用的附图作简单地介绍，应当理解，以下附图仅示出了本申请的某些实施例，因此不应被看作是对范围的限定，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他相关的附图。

图1为本申请实施例提供的一种自适应交通信号控制方法的流程图；

图2为本申请实施例提供的一种自适应交通信号控制方法的整体实施流程示意图；

图3为基于敏感系数进行交通安全性能分析的对比示意图；

图4为本申请实施例提供的一种自适应交通信号控制系统的结构示意图。

具体实施方式

下面将结合本申请实施例中附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例。通常在此处附图中描述和示出的本申请实施例的组件可以以各种不同的配置来布置和设计。因此，以下对在附图中提供的本申请的实施例的详细描述并非旨在限制要求保护的本申请的范围，而是仅仅表示本申请的选定实施例。基于本申请的实施例，本领域技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例，都属于本申请保护的范围。

应注意到：相似的标号和字母在下面的附图中表示类似项，因此，一旦某一项在一个附图中被定义，则在随后的附图中不需要对其进行进一步定义和解释。同时，在本申请的描述中，术语“第一”、“第二”等仅用于区分描述，而不能理解为指示或暗示相对重要性。

请参照图1，图1是本申请一些实施例中的一种自适应交通信号控制方法的流程图，包括以下步骤：

步骤S1，获取预设时段内的交通流量数据，并根据所述交通流量数据确定道路现场中各交叉路口处的车道通行流量。

步骤S2，采用Q学习算法预测各所述交叉路口的信号配时数据，并根据所述信号配时数据、所述车道通行流量，确定各所述交叉路口处的相对流量。

需要说明的是，如图2所示，采用Q学习算法预测绿灯时间的过程中，涉及到五个主要因素包括：主体、环境、状态、行为和奖励。其中：

（1）在交通流环境中，主体会根据当前状态的奖励选择一个可以产生Q值的动作。而在此过程中，还需要同步进行Q值更新。

具体在实施的时候，可以通过下述公式进行Q值更新：

；

其中，

，

是当选择动作a _t并且状态为s _t时产生的Q值，α是学习率，

是回报值，γ是折扣率，

是动作集，

是下一步的Q值。

（2）状态指的是不同阶段的相对流量，它是由即将到来的流量和每个路口处的绿灯或红灯时间决定的。

（3）奖励定义为绿灯和红灯相位之间的相对流量差值，其中，奖励在每个循环中都是动态的，其取决于绿灯时长的比例。需要说明的是，若该值取正，则整个交叉口运行平稳，否则，将认为整个交叉口处于交通拥堵状态。

步骤S3，基于各所述交叉路口处相对流量的比较结果，判断当前状态。

假设当前共涉及到4个交叉路口，具体在实施的时候，可以通过下述表1确定当前状态：

其中，D _l1~D _l4表示第1个交叉路口~第4个交叉路口处产生的相对流量。具体在实施的时候，在计算出各交叉路口产生的相对流量之后，即可按降序设置状态。需要说明的是，当红色相位下的两个交叉路口的延误同时高于其他两个交叉路口的延误，或任意一个交叉路口的延误高于其车道长度时，将当前状态标记为终点状态，并退出循环。

步骤S4，根据绿灯相位时的相对流量和红灯相位时的相对流量之间的差值，确定当前状态下的奖励。

具体的，可以通过下述公式计算当前状态下的奖励：

；

其中，

表示绿灯相位时的相对流量;

表示红灯相位时的相对流量。

步骤S5，在确定当前状态下的奖励小于0时，生成按照预设的步长增加绿灯时间的第一动作，反之，生成按照预设的步长减少绿灯时间的第二动作。

需要说明的是，在不考虑通过CAV检测数据优化预测绿灯时间时，主体可以选择两种动作：增加或减少绿灯时间1s，即

，这意味着预测的绿灯时间将按1s的步长进行调整，以在每个循环中找到最优状态。其中，动作在初始循环中是随机选择的，然后会根据更新后的Q值表进行选择，直到红灯相位时的相对流量均高于绿色相位时的相对流量，找到最优奖励。

步骤S6，获取当前状态下动作的预估Q值，在确定所述预估Q值未收敛时，返回到步骤2继续执行，并在确定达到预设的循环终止条件时，输出最终预测的绿灯时间。

由上可知，本申请公开的一种自适应交通信号控制方法，由于联网汽车的市场渗透率较低，基于Q学习算法能够根据每个路口的状态不断地执行动作获取奖励再到下一状态，实现对城市路网交通灯的智能化控制，提高交通控制精准度，进一步降低城市十字路口的交通信号控制过程中的延迟、排队长度过长、等待时间过长和驾驶员冲突等风险，便于城市交通管理，减少城市交通拥堵。

在其中一个实施例中，步骤S1中，所述获取预设时段内的交通流量数据，包括：

步骤S11，获取经由地感线圈检测到的预设时段内的交通流量数据，所述地感线圈设置在道路现场的各个交叉路口处，用于检测道路现场的交通流量。

需要说明的是，地感线圈就是一个振荡电路。事前，需要在地面上先造出一个圆形的沟槽，直径大概1米，或是面积相当的矩形沟槽，再在这个沟槽中埋入两到三匝导线，这就构成了一个埋于地表的电感线圈，这个线圈是一个振荡电路的一部分，由它和电容组成振荡电路，其原则是振荡稳定可靠，这个振荡信号通过变换送到单片机组成的频率测量电路，单片机就可以测量这个振荡器的频率了。当有大的金属物如汽车经过时，由于空间介质发生变化引起了振荡频率的变化（有金属物体时振荡频率升高），这个变化就作为汽车经过“地感线圈”的证实信号，同时这个信号的开始和结束之间的时间间隔又可以用来测量汽车的移动速度。

在其中一个实施例中，步骤S2中，所述根据所述信号配时数据、所述车道通行流量，确定各所述交叉路口处的相对流量，包括：

步骤S21，通过下述公式计算各所述交叉路口处的相对流量：

；

其中，D _li表示第i个交叉路口处的相对流量，m _i表示第i个交叉路口处的车道通行流量，t _g表示绿灯相位的灯控时间，t _r表示红灯相位的灯控时间，λ(t _r)表示与车道占用率呈指数关系的惩罚函数。

需要说明的是，惩罚函数考虑了交通运营的成本，如时间，燃料，或司机的耐心等，以此保证相对流量的计算精准度。

在其中一个实施例中，步骤S21中，所述惩罚函数λ(t _r)的表达形式包括：

；

其中，l _m表示第i个交叉路口处涵盖的平均车辆长度，L _i表示第i个交叉路口的车道长度，n _i表示第i个交叉路口处涵盖的车道数量。

具体在实施的时候，当惩罚函数λ(t _r)与车道占用率呈指数关系的情况时，将存在以下关联计算关系：

；

其中，l _j是车辆j的长度。在对该公式进行简化后，进一步得到上述步骤S21中示意的近似公式。

在其中一个实施例中，步骤S5中，该方法还包括：

步骤S51，通过CAV检测技术，获取红灯相位时交叉路口附近各车辆的车辆速度以及车辆位置。

需要说明的是，基于CAV检测技术可以检测到交叉路口附近车辆的速度和位置数据，并将该信息共享给交通信号控制系统，其中，交通信号控制系统可视为图2中示意的主体。交通信号控制系统主体将基于接收到的信息，判断低速车辆是否受到了拥堵的影响（例如可以通过低速波的传播方向，在其向后传播的时候，可以认为当前受到了拥堵的影响），并以此为依据调整绿灯时间。

具体的，当前实施例中将利用检测到的拥塞空间动态调整绿灯时间，其中，拥塞空间具体定义为检测到的最大拥塞长度。具体在实施的时候，将假设距离停车线最远的目标低速车辆的检测位置为拥堵空间的尽头。

步骤S52，根据距离停车线最远的目标低速车辆的车辆位置、以及车道长度之间的商，确定红灯相位时交叉路口处的车辆密度。

具体的，上述车辆密度可以通过下述公式计算得到：

；

其中，d _i表示求得的车辆密度，p _j为检测到的低速车辆j的车辆位置，L _i表示第i个交叉路口的车道长度。

步骤S53，根据所述车辆密度调整预设的步长，并按照调整后的目标步长生成相应动作。

具体的，当d _i>1时，可以明确的是：红灯相位时的交叉路口i的队列长度将溢出。因此，此时可以将d _i看作是绿灯相位的惩罚，并考虑利用红灯相位的灯控时间t _r，来调整动作集

。

在其中一个实施例中，步骤S53中，所述根据所述车辆密度调整预设的步长，包括：

步骤S531，将所述车辆密度带入下述计算公式，基于所述计算公式调整预设的步长：

；

其中，Δt表示调整后的目标步长，

表示预设的敏感系数，λ(t _r)表示红灯相位下的惩罚函数。

需要说明的是，当前实施例中采用惩罚函数λ(t _r)来说明绿灯相位的惩罚趋势，可以认为整个交叉路口的代价随着红灯相位下红灯时间的增加而增加。此种情况下，则需要进一步减少绿灯时间。另外，为了提高安全性能，当前设定敏感系数通过下述公式进一步求得：

。

其中，请参考图3，与敏感系数固定取 1的情况相比，在10%、20%和30% 的MPRs（即市场渗透率）下，流量冲突率分别降低了19.6%、25.9%和22.1%。因此，可认为：通过上述公式定义敏感系数，能够优化整体交通安全性能。

在其中一个实施例中，为保证真实交通流的准确反映，该方法还包括：

步骤S7，确定驾驶员的跟车参数，所述跟车参数包括加速度、减速度、最大驾驶速度、车辆停驻时的最小安全距离、以及反应时间中的至少一种。

需要说明的是，为了进一步校准驾驶行为参数，实施过程中还会对上述各项跟车参数进行灵敏度分析，例如，先根据SUMO默认值和实际数据确定跟车参数的取值范围；之后，再进行例如77760(6^5×10个随机种子)次模拟运行，直到结果(速度和车头时距)通过Kolmogorov-Smirnov检验与真实数据无显著差异，校正后的和默认的参数汇总在下述表2中：

在其中一个实施例中，在执行步骤S8之前，为保证数据统计精准度，需要确定参数取值分布情况，并从中进行异常值的剔除（当前不对异常值的筛选方式进行限定，例如参数取值a相比于标准取值，明显偏大或偏小，则认为参数取值a为异常值）；然后，再依次从所确定的参数取值分布范围中掐头去尾、选定最大及最小之后，进行后续步骤S8的统计分析。

步骤S8，基于所述跟车参数进行统计范围的选定，并在所述统计范围内根据统计记录建立相应的直方图，基于所述直方图进行驾驶员的行为统计，并以此确定驾驶员风格，所述驾驶员风格包括激进型、一般型以及保守型。

具体的，当前步骤中将通过选定一个统计范围，并在该统计范围内根据统计记录，建立相应的直方图。之后，再根据直方图确定参数取值的具体走向，其中，该具体走向即反映了相应的驾驶员风格。

请参考图4，本申请提供的一种自适应交通信号控制系统400，包括流量数据获取模块401、相对流量计算模块402、状态确定模块403、奖励确定模块404、动作生成模块405以及迭代优化模块406，其中：

所述流量数据获取模块401，用于获取预设时段内的交通流量数据，并根据所述交通流量数据确定道路现场中各交叉路口处的车道通行流量。

所述相对流量计算模块402，用于采用Q学习算法预测各所述交叉路口的信号配时数据，并根据所述信号配时数据、所述车道通行流量，确定各所述交叉路口处的相对流量。

所述状态确定模块403，用于基于各所述交叉路口处相对流量的比较结果，判断当前状态。

所述奖励确定模块404，用于根据绿灯相位时的相对流量和红灯相位时的相对流量之间的差值，确定当前状态下的奖励。

所述动作生成模块405，用于在确定当前状态下的奖励小于0时，生成按照预设的步长增加绿灯时间的第一动作，反之，生成按照预设的步长减少绿灯时间的第二动作。

所述迭代优化模块406，用于获取当前状态下动作的预估Q值，在确定所述预估Q值未收敛时，触发所述相对流量计算模块继续执行，并在确定达到预设的循环终止条件时，输出最终预测的绿灯时间。

在其中一个实施例中，该系统中的各模块还用于执行上述实施例的任一可选的实现方式中的方法。

由上可知，本申请公开的一种自适应交通信号控制系统，由于联网汽车的市场渗透率较低，基于Q学习算法法能够根据每个路口的状态不断地执行动作获取奖励再到下一状态，实现对城市路网交通灯的智能化控制，提高交通控制精准度，进一步降低城市十字路口的交通信号控制过程中的延迟、排队长度过长、等待时间过长和驾驶员冲突等风险，便于城市交通管理，减少城市交通拥堵。

本申请实施例提供一种可读存储介质，所述计算机程序被处理器执行时，执行上述实施例的任一可选的实现方式中的方法。其中，存储介质可以由任何类型的易失性或非易失性存储设备或者它们的组合实现，如静态随机存取存储器（Static Random AccessMemory, 简称SRAM），电可擦除可编程只读存储器（Electrically Erasable ProgrammableRead-Only Memory, 简称EEPROM），可擦除可编程只读存储器（Erasable ProgrammableRead Only Memory, 简称EPROM），可编程只读存储器（Programmable Red-Only Memory,简称PROM），只读存储器（Read-Only Memory, 简称ROM），磁存储器，快闪存储器，磁盘或光盘。

上述可读存储介质，由于联网汽车的市场渗透率较低，基于Q学习算法法能够根据每个路口的状态不断地执行动作获取奖励再到下一状态，实现对城市路网交通灯的智能化控制，提高交通控制精准度，进一步降低城市十字路口的交通信号控制过程中的延迟、排队长度过长、等待时间过长和驾驶员冲突等风险，便于城市交通管理，减少城市交通拥堵。

在本申请所提供的实施例中，应该理解到，所揭露装置和方法，可以通过其它的方式实现。以上所描述的装置实施例仅仅是示意性的，例如，所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，又例如，多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些通信接口，装置或单元的间接耦合或通信连接，可以是电性，机械或其它的形式。

另外，作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

再者，在本申请各个实施例中的各功能模块可以集成在一起形成一个独立的部分，也可以是各个模块单独存在，也可以两个或两个以上模块集成形成一个独立的部分。

在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。

以上所述仅为本申请的实施例而已，并不用于限制本申请的保护范围，对于本领域的技术人员来说，本申请可以有各种更改和变化。凡在本申请的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本申请的保护范围之内。

Claims

1.一种自适应交通信号控制方法，其特征在于，包括以下步骤：

2.根据权利要求1所述的方法，其特征在于，步骤S1中，所述获取预设时段内的交通流量数据，包括：

S11、获取经由地感线圈检测到的预设时段内的交通流量数据，所述地感线圈设置在道路现场的各个交叉路口处，用于检测道路现场的交通流量。

3.根据权利要求1所述的方法，其特征在于，步骤S2中，所述根据所述信号配时数据、所述车道通行流量，确定各所述交叉路口处的相对流量，包括：

S21、通过下述公式计算各所述交叉路口处的相对流量：

；

4.根据权利要求3所述的方法，其特征在于，步骤S21中，所述惩罚函数λ(t _r)的表达形式包括：

；

5.根据权利要求1所述的方法，其特征在于，步骤S5中，所述方法还包括：

S51、通过CAV检测技术，获取红灯相位时交叉路口附近各车辆的车辆速度以及车辆位置；

S52、根据距离停车线最远的目标低速车辆的车辆位置、以及车道长度之间的商，确定红灯相位时交叉路口处的车辆密度；

S53、根据所述车辆密度调整预设的步长，并按照调整后的目标步长生成相应动作。

6.根据权利要求5所述的方法，其特征在于，步骤S53中，所述根据所述车辆密度调整预设的步长，包括：

S531、将所述车辆密度带入下述计算公式，基于所述计算公式调整预设的步长：

；

其中，Δt表示调整后的目标步长，

表示预设的敏感系数，λ(t _r)表示红灯相位下的惩罚函数。

7.根据权利要求1-6中任一项所述的方法，其特征在于，为保证真实交通流的准确反映，所述方法还包括：

S7、确定驾驶员的跟车参数，所述跟车参数包括加速度、减速度、最大驾驶速度、车辆停驻时的最小安全距离、以及反应时间中的至少一种；

S8、基于所述跟车参数进行统计范围的选定，并在所述统计范围内根据统计记录建立相应的直方图，基于所述直方图进行驾驶员的行为统计，并以此确定驾驶员风格，所述驾驶员风格包括激进型、一般型以及保守型。

8.一种自适应交通信号控制系统，其特征在于，所述系统包括流量数据获取模块、相对流量计算模块、状态确定模块、奖励确定模块、动作生成模块以及迭代优化模块，其中：

9.一种可读存储介质，其特征在于，所述可读存储介质中包括自适应交通信号控制方法程序，所述自适应交通信号控制方法程序被处理器执行时，实现如权利要求1至7中任一项所述的方法的步骤。