CN111564048A

CN111564048A - 一种交通信号灯的控制方法、装置、电子设备及存储介质

Info

Publication number: CN111564048A
Application number: CN202010350697.0A
Authority: CN
Inventors: 徐明亮; 朱睿杰; 李亚飞; 李璐璐; 李世华; 吕培; 姜晓恒; 王�华
Original assignee: Zhengzhou University
Current assignee: Zhengzhou University
Priority date: 2020-04-28
Filing date: 2020-04-28
Publication date: 2020-08-21

Abstract

本发明涉及智能交通控制技术领域，具体涉及一种交通信号灯的控制方法、装置、电子设备及存储介质。该方法包括在每个时间间隔，观察环境中的当前交通状态，根据当前交通状态预测是否切换交通信号灯相位；将所预测的具有最大估计奖励值的当前行动发送给环境，并观察采取当前行动后的环境，获得相应的回报；获取下一个交通状态，根据回报和下一个交通状态获得当前的奖励值，将当前交通状态、当前行动、奖励值和下一个交通状态根据交通信号灯的相位存储至存储器；根据下一个交通状态重复上述步骤。本发明实施例根据交通信号灯相位存储相应的数据，避免不同相位给出相同决策的情况，建立了环境与决策之间的相关性，能够动态的调整实时流量。

Description

一种交通信号灯的控制方法、装置、电子设备及存储介质

技术领域

本发明涉及智能交通控制技术领域，具体涉及一种交通信号灯的控制方法、装置、电子设备及存储介质。

背景技术

目前交通信号灯的控制方法有多种，常用的有：采用预先定义的固定时间计划进行控制，或者根据真实的交通数据预先定义交通信号灯的规则。

专利公布号为CN110032782A的发明专利公开了一种城市级智能交通信号控制系统及方法，该方法包括仿真平台搭建模块、仿真环境、信号智能控制模块和信号控制设备；所述的仿真平台搭建模块用于建立与实际路网一致的仿真模型；所述的仿真环境用于搭建完成可执行交通仿真的区域、路口环境；所述的信号智能控制模块包括离线训练部分和在线应用部分，所述离线训练部分选择深度强化学习算法进行最优控制方案生成训练，在线部分使用所述离线训练部分生成的模型和实时数据计算最优控制方案；所述的信号控制设备用于执行控制方案。

发明人在实践中，发现上述现有技术存在以下缺陷：

在实际应用中，对于两个交通环境特征一样的情况下，例如不同车道的数量和车辆的位置都一样，实际中最优的方案是改变其中一个环境的交通信号灯的灯信号，保持另一个环境的交通灯的灯信号；但是采用上述技术方案后，则会作出相同的决策，例如保持或改变当前交通信号灯的灯信号。

发明内容

为了解决上述技术问题，本发明的目的在于提供一种交通信号灯的控制方法、装置、电子设备及存储介质，所采用的技术方案具体如下：

第一方面，本发明实施例提供了一种交通信号灯的控制方法，该控制方法包括以下步骤：

在每个时间间隔，观察环境中的当前交通状态，根据所述当前交通状态预测是否切换交通信号灯相位；

将所预测的具有最大估计奖励值的当前行动发送给所述环境，并观察采取所述当前行动后的所述环境，获得所述环境的回报；

获取下一个交通状态，根据所述回报和所述下一个交通状态获得当前的奖励值，根据所述交通信号灯相位将所述当前交通状态、所述当前行动、所述奖励值和所述下一个交通状态存储至存储器；

根据所述下一个交通状态重复上述步骤。

进一步，所述根据所述当前交通状态预测是否切换交通信号灯相位的方法包括：

根据贪婪策略结合探索采取某一行动的随机行动和利用行动，所述某一行动是指是否切换光信号至下一阶段的动作，所述利用行动是指采取具有最大估计奖励值的行动。

进一步，所述获得所述环境的回报的方法是根据以下公式计算得到的：

其中，Reward表示回报，L表示所有接近车道的队列长度之和，D表示所述近车道上的延误之和，w表示所有邻近车道的更新等待时间的总和，C表示交通灯的灯信号是否切换的动作标志，T表示在执行当前行动后的时间间隔内通过路口的车辆总和。

进一步，所述存储器将不同的交通信号灯相位和动作组合进行分类存储。

第二方面，本发明实施例提供了一种交通信号灯的控制装置，该控制装置包括：

行动模块，用于在每个时间间隔，观察环境中的当前交通状态，根据所述当前交通状态预测是否切换交通信号灯相位；

回报模块，用于将所预测的具有最大估计奖励值的当前行动发送给所述环境，并观察采取所述当前行动后的所述环境，获得所述环境的回报；

存储模块，用于获取下一个交通状态，根据所述回报和所述下一个交通状态获得当前的奖励值，根据所述交通信号灯相位将所述当前交通状态、所述当前行动、所述奖励值和所述下一个交通状态存储至存储器；

循环模块，用于根据所述下一个交通状态，依次通过所述行动模块、回报模块和存储模块的相应处理得到下一个交通信号灯相位、回报和奖励值。

进一步，所述行动模块包括：

行动执行模块，用于根据贪婪策略结合探索采取某一行动的随机行动和利用行动，所述某一行动是指是否切换光信号至下一阶段的动作，所述利用行动是指采取具有最大估计奖励值的行动。

进一步，所述回报模块包括回报计算模块，所述回报计算模块用于根据以下公式计算得到所述环境的回报：

进一步，所述存储器用于将不同的交通信号灯相位和动作组合进行分类存储。

第三方面，本发明实施例提供了一种电子设备，包括：

处理器；

用于存储处理器可执行指令的存储器；

其中，所述处理器被配置为：执行上述任意一种交通信号灯的控制方法。

第四方面，本发明实施例提供了一种存储介质，该存储介质中存储有计算机可读的程序指令，所述程序指令被处理器执行时实现上述任意一种交通信号灯的控制方法。

本发明具有如下有益效果：

本发明实施例提供的交通信号灯的控制方法包括在每个时间间隔，观察环境中的当前交通状态，根据当前交通状态预测是否切换交通信号灯相位；将所预测的具有最大估计奖励值的当前行动发送给所述环境，并观察采取当前行动后的所述环境，获得相应的回报；获取下一个交通状态，根据回报和下一个交通状态获得当前的奖励值，根据交通信号灯相位将当前交通状态、当前行动、奖励值和下一个交通状态存储至存储器；根据所述下一个交通状态重复上述步骤。本发明实施例根据交通信号灯相位存储相应的数据，并且以交通信号灯相位和交通状况作为主要研究对象，避免不同相位给出相同决策的情况出现。本发明实施例不仅能够解决交通拥堵、改善交通状况，而且建立了环境与决策之间的相关性，能够动态的调整实时流量。

附图说明

图1为本发明一个实施例提供的一种交通信号灯的控制方法流程图；

图2为本发明一个实施例所提供的一种交通信号灯的控制方法的整体框架图；

图3为本发明一个实施例所提供的一种交通信号灯的控制方法的整体流程图；

图4为本发明一个实施例所提供的一种交通信号灯的控制方法的网络结构图；

图5为本发明一个实施例所提供的关于记忆宫殿模型；

图6为本发明一个实施例所提供的实验环境图；

图7为本发明另一个实施例提供的一种交通信号灯的控制装置的结构框图；

图8为本发明另一个实施例提供的一种电子设备的结构框图。

具体实施方式

为了更进一步阐述本发明为达成预定发明目的所采取的技术手段及功效，以下结合附图及较佳实施例，对依据本发明提出的一种交通信号灯的控制方法、装置、电子设备及存储介质，其具体实施方式、结构、特征及其功效，详细说明如下。在下述说明中，不同的“一个实施例”或“另一个实施例”指的不一定是同一实施例。此外，一或多个实施例中的特定特征、结构、或特点可由任何合适形式组合。

需要说明的是，当元件被称为“设置”或者“连接”另一个元件，它可以直接在另一个元件上或者也可以存在居中的元件。

除非另有定义，本文所使用的所有的技术和科学术语与属于本发明的技术领域的技术人员通常理解的含义相同。本文中在本发明的说明书中所使用的属于只是为了描述具体的实施例的目的，不是旨在于限制本发明。本文所使用的术语“和/或”包括一个或多个相关的所列项目的任意的和所有的组合。

下面结合附图具体的说明本发明所提供的一种交通信号灯的控制方法、装置、电子设备及存储介质的具体方案。

请参阅图1、图2和图3，其中，图1示出了本发明一个实施例提供的一种交通信号灯的控制方法流程图，图2为本发明一个实施例所提供的一种交通信号灯的控制方法的整体框架图；图3为本发明一个实施例所提供的一种交通信号灯的控制方法的整体流程图。本实施例所提供的方法是Agent通过获取环境(Environment)中的当前交通状态(State)，Agent学习一个模型来预测是保持当前相位还是更改当前相位；这个决定将会发给环境，Reward将会被反送回Agent，Agent会更新模型并根据下一个交通状态和更新后的模型预测下一个时间戳的交通信号灯相位。具体的，该控制方法包括以下步骤：

步骤S001，在每个时间间隔，观察环境中的当前交通状态，根据当前交通状态预测是否切换交通信号灯相位。

本发明实施例用环境描述交通信号灯相位和交通状态，其中交通状态(State)为每一个交叉路口交通状况的描述，对于交叉路口的每条车道，交通状态(State)包括排队长度、车辆数、更新的车辆等待时间、车辆位置、当前相位和下一相位的图像表示。

交通信号灯相位表示交通信号灯的灯信号的状态。用红、绿分别表示红灯和绿灯，用 N、S、W、E分别表示北、南、西、东。从一组交通信号灯的灯信号切换为另一组灯信号时，表示交通信号灯相位的改变。

动作是指用c＝1表示改变交通信号灯相位、用c＝0表示保持当前交通信号灯相位。

步骤S002，将采取所预测的具有最大估计奖励值的当前行动发送给环境，并观察采取所述当前行动后的环境，获得该环境的回报。

回报Reward的计算方式如下:

其中：

I∈(1,2,3,……,n)。

ω₁、ω₂、ω₃、ω₄、ω₅、ω₆分别为回报系数。

L表示由所有邻近车道的等待车辆总数构成的队列长度之和。在某一辆车的速度低于 0.1m/s被认为是等待状态。

D表示所有邻近车道的延误之和，其中车道延误D_i定义为：

其中，lane speed是车辆在车道i上的平均速度，speed limit是所有车道上的最大速度。

W表示所有邻近车道的更新等待时间的总和。车辆的更新时间t定义为：

其中，vehicle speed为车辆速度，t为当前时间，j表示车辆，W_j(t)表示在t时间处，车辆j的更新等待时间。

请注意，车辆每次移动时，更新的时间重置为0。例如，如果车速从0到15秒为0.01米/秒，从15到30秒为5米/秒，从30到60秒为0.01米/秒，则当t＝15秒、30秒和60 秒时，w_j分别为15秒、0秒和30秒。

C表示交通灯的灯信号是否切换的动作标志，其中C＝0表示保持当前交通信号灯相位， C＝1表示改变当前交通信号灯相位。

N表示在执行动作a后的时间间隔Δt内，通过路口的车辆数量总和。

T表示车辆在邻近道路上花费的总时间，具体是指在最后一个动作a后的时间间隔Δt 内，通过交叉口的车辆总行程时间。

步骤S003，获取下一个交通状态，根据回报和下一个交通状态获得当前的奖励值，根据交通信号灯相位将当前交通状态、当前行动、奖励值和下一个交通状态存储至存储器。

考虑到交通状况的当前交通状态，为了达到根据环境的交通状态动态的改变交通灯的目的，本发明实施例所采用的方法是根据行动奖励函数q(请参考以下公式4)找到可能有长期最大回报Reward的动作a，使得回报最大化，进而选择更适合长期奖励的动作，动态改变交通灯。在这种情况下，当前时间t的行动奖励函数q是下一个时间t+1的回报和通过奖励函数q预测的可能获得的最大未来回报的总和：

q(s_t,a,t)＝r_a,t+1+γmax q(s_a,t+1,a′,t+1) (4)

其中，s_t为时间t下的交通状态，a为采取的动作，t为当前时间，r_a,t+1为t+1时间下的a动作的回报，γ对未来reward的衰减值，s_a,t+1为t+1时间下采取动作a的交通状态， a′为下一次采取的动作。

请参阅图4，根据交通状态和行动来估计奖励Agent，需要学习DQN的动作价值函数Q(s，a)(s：state，表示交通状态，a：action，表示动作)。其中，将网络层定义为数据处理层、全连接层(FC layers)、相位选择层(selector)和输出层，具体的：

数据处理层用于对数据进行预处理。数据分为两部分，一部分为四个明确挖掘的环境特征：队列长度(Queue length)、更新的等待时间(Updated waiting time)、相位(Phase)、总车辆数(Numbers of vehicles)，另一部分为将观察环境(Envirionment)中提取出的图像特征(Image representation of positions of cars)馈入两个卷积层(Convolutional layers)处理后的特征数据。

全连接层用于将连接的特征:队列长度(Queue length)、更新的等待时间(Updated waiting time)、相位(Phase)、总车辆数(Numbers of vehicles)和卷积层处理后的特征数据，馈送到全连接层(FC Layers)，以学习来自交通状况的映射潜在的奖励。

相位选择层用于通过相位门选择相应的分支。对于每个阶段，设计一个单独的学习过程，从奖励到制定动作价值函数Q(s，a)。请结合图4，通过由相位门选择这些单独的过程，当阶段Phase＝0时，则左分支将被激活；而当阶段Phase＝1时，则右分支将被激活。这将区分不同阶段的决策过程，防止决策偏向某些行为，并增强网络的拟合能力。

输出层用于根据输出动作价值函数Q(s,a)的值，确定模型。

由于在实际的交通设置中，不同车道的交通可能是不平衡的。由于现有技术中是将所有交通状态-动作-奖励训练样本存储在一个存储器中，因此该存储器将由不平衡设置中最常出现的阶段和动作支配。然后，将学习Agent很好地估计这些频繁的相位-动作组合的奖励，但忽略其他不太频繁的相位-动作组合。这将导致学习的Agent对不频繁的阶段-动作组合做出错误的决定。因此，当不同车道上的交通显着不同时，这些不平衡的样本将导致在较不频繁的情况下表现较差。如图3所示，针对不同相位-动作组合的训练样本被存储到不同的存储器宫殿中，也即将不同的相位-动作存储在不同的位置。然后将从不同的宫殿中选择相同数量的样本。这些平衡样本将防止不同的相位-动作组合干扰彼此的训练过程，从而提高网络的拟合能力以准确地预测奖励，通过对不同的相位-动作组合使用不同的记忆宫殿(Memory)进行存储来解决上述的不平衡问题。

请再次参阅图5，将不同的阶段Phase和动作Action组合存储于不同的存储器中，不同的组合包括：Phase＝0和Action＝0、Phase＝0和Action＝1、Phase＝1和Action＝0、Phase＝1 和Action＝1，该四种组合方式分别对应四种不同的存储器。

步骤S004，根据下一个交通状态重复上述步骤。

更新模型，根据下一个交通状态和更新后的模型重复上述步骤预测下一个时间戳的交通信号灯相位。其中，模型是指由本实施例所提供的控制方法所涉及到的网络及相应的算法所构成的方法模型。

综上所述，本发明实施例提供了一种交通信号灯的控制方法，该控制方法包括在每个时间间隔，观察环境中的当前交通状态，根据当前交通状态预测交通信号灯的相位是否切换；将所预测的具有最大估计奖励值的当前行动发送给所述环境，并观察采取当前行动后的所述环境，获得相应的回报；获取下一个交通状态，根据回报和下一个交通状态获得当前的奖励值，将当前交通状态、当前行动、奖励值和下一个交通状态根据交通信号灯的相位存储至存储器；根据所述下一个交通状态重复上述步骤。本发明实施例通过将动作和相位作为一个组合，将不同的组合分布存储，并且以相位和交通状况作为主要研究对象，避免不同相位给出相同决策的情况出现。本发明实施例不仅能够解决交通拥堵、改善交通状况，而且建立了环境与决策之间的相关性，能够动态的调整实施流量。

作为本发明的一个优选实施例，本发明实施例还包括离线训练阶段，为交通信号灯设置固定的时间表，车流量通过系统收集数据样本。在使用此阶段记录的样本进行训练后，则进行实际的在线的交通信号灯的控制。

通过仿真软件进行仿真，实验流程如下：

利用行业中常用的交通仿真软件SUMO进行仿真，首先设置交通环境，采用四向交叉的交叉口，交叉口与四条150米长的路段相连，每条道路有三条进出车道。在该实验中的交通灯分为两个阶段，第一个相位是绿灯WE(绿灯WE，红灯SN)，第二个相位是红灯 WE(红灯WE，绿灯SN)。所设置的参数如表1和表2所示。动作时间间隔Δt在5秒到25 秒之间，动作时间间隔Δt对模型性能的影响最小，在本实验中采用的动作时间间隔为5秒。

表1基本参数设置

Model parameter	Value
		Action time intervalΔt	5seconds
γfor future reward	0.8
		εfor exploration	0.05
Sample size	300
		Memory length	1000
Model update interval	300seconds

表2回报系数

ω<sub>1</sub>	ω<sub>2</sub>	ω<sub>3</sub>	ω<sub>4</sub>	ω<sub>5</sub>	ω<sub>6</sub>
						-0.25	-0.25	-0.25	-5	1	1

采用不同的实验方法进行比较：

第一种方法，固定时间控制(FT)：固定时间控制方法使用预定的周期和阶段时间计划，并在交通流量稳定时广泛使用。

第二种方法，自组织交通灯控制(SOTL)：该方法根据当前交通状态控制交通信号灯，包括延误时间和在红灯处等待的车辆数量。当等待车辆的数量高于手动调节的阈值时，交通信号灯将改变。

第三种方法，交通灯控制(DRL)的深度强化学习：该方法应用DQN框架来为交通路口选择最佳的光配置。它仅依赖于原始交通信息作为图像。

第四种方法，IntelliLight(Base)：采用上述方法中所构建的网络结构和奖励功能。该方法不包括MemoryPalace和PhaseGate。

第五种方法，IntelliLight(Base+MP)：通过将MemoryPalace添加到IntelliLight(Base)，进而将来自不同阶段和时间的样本存储在不同的存储器中。

第六种方法，IntelliLight(Base+MP+PG)：该种方法是将MemoryPalace和PhaseGate添加到IntelliLight(Base)中所构成的模型。

实验结果及结论：

表3合成交通的配置数据

首先，对合成数据各种方法的表现如下表所示：

表4配置1下的表现

表5配置2下的表现

表6配置3下的表现

表7配置4下的表现

对表4～7进行分析如下：

第一，与目前常用的FT、SOTL以及DRL方法进行比较：将本发明实施例所提供的方法与不同合成流量设置下的其他三个基线(FT、SOTL以及DRL方法)进行比较。从表4～7 可以看出，本发明实施例所提供的方法比配置1～4中的所有其他基线方法表现更好。尽管某些基线在某些设置上表现良好，但它们在其他配置中表现不佳，相反，本发明实施例所提供的方法IntelliLight在不同配置下显示出更好的性能。

第二，与本发明实施例所提出的方法进行比较。表4～7显示了本发明实施例所提出的方法的性能。首先，添加MemoryPalace的Base+MP有助于在配置3和4下获得更高的奖励。对于简单的情况(配置1和2)，本发明实施例所提出的方法不会提高配置1和2下的奖励，而阶段是相对的长时间稳定(因为交通只来自一个方向或长时间保持不变)。因此，记忆宫殿无助于建立更好的模型来预测奖励。进一步添加PhaseGate的Base+MP+PG可以缩短队列长度并获得最高奖励，从而证明了这两种技术的有效性。

在实际应用中，某交叉路口的交通信号灯采用本发明实施例所提出的方法存在以下特点：

第一、高峰阶段与非高峰阶段：例如，周一两个方向(WE和SN)的平均交通流量。在这一天，大多数时间内，WE方向上的交通量比SN方向上的交通量大，在此期间，理想的交通灯控制方法将为方向提供更长的时间。在高峰时段(7:00、9:30和18:00左右)，本发明实施例所提供的方法中学习到的策略比非高峰时段提供更长的绿灯时间。清晨，SN上的车辆到达率大于WE上的车辆到达率，会自动为SN提供更长的时间。这表明此方法能够智能地适应不同的交通状况。

第二、周末与工作日：与平日不同，周末显示了不同的交通状况和交通灯控制策略模式。该策略在周末白天在WE方向所给的绿灯比在工作日所给的绿灯少，因为在本实施例中在周末白天SN方向上的车流量大于WE方向，而在工作日SN方向上的流量比WE方向少。

第三、主要干道与次要干道：主要干道是指一段时间内交通量较大，绿灯时间较长的道路。在不了解主干道的情况下，使用本发明实施例所提供的方法学习的交通灯控制策略更倾向于给主干道提供绿灯(包括保持主干道上已经有绿灯，并倾向于将主干道的红灯转换为绿灯)。

本发明实施例所提供的方法采用增强学习方法解决了交通灯的控制问题，并通过经验进行了扩展实验，证明了所提出的方法的优越性。

请参阅图7，其示出了本发明另一个实施例所提供的一种交通信号灯的控制装置，该控制装置包括行动模块701、回报模块702、存储模块703和循环模块704。其中，行动模块701用于在每个时间间隔，观察环境中的当前交通状态，根据当前交通状态预测是否切换交通信号灯相位；回报模块702用于将所预测的具有最大估计奖励值的当前行动发送给环境，并观察采取当前行动后的环境，获得环境的回报；存储模块703用于获取下一个交通状态，根据回报和下一个交通状态获得当前的奖励值，将当前交通状态、当前行动、奖励值和下一个交通状态根据交通信号灯相位存储至存储器；循环模块704用于根据所述下一个交通状态，依次通过所述行动模块、回报模块和存储模块的相应处理得到下一个交通信号灯相位、回报和奖励值。

进一步，行动模块701包括行动执行模块7011，该行动执行模块用于根据贪婪策略结合探索采取某一行动的随机行动和利用行动，某一行动是指是否切换光信号至下一阶段的动作，利用行动是指采取具有最大估计奖励值的行动。

进一步，回报模块702包括回报计算模块7021，回报计算模块用于根据以下公式计算得到环境的回报Reward＝w₁*∑_i∈IL_I+w₂*∑_i∈ID_I+w₃∑_i∈Iw_i+w₄*C+w₅*N+w₆* T。其中，Reward表示回报，L表示所有接近车道的队列长度之和，D表示近车道上的延误之和，w表示所有邻近车道的更新等待时间的总和，C表示交通灯的灯信号是否切换的动作标志，T表示在执行当前行动后的时间间隔内通过路口的车辆总和。

进一步，存储器用于将不同的交通信号灯相位和动作组合进行分类存储。

请参阅图8，其示出了本发明另一个实施例提供的一种电子设备，该电子设备包括处理器和存储器，本领域技术人员可以理解，在图8中所示出的终端设备的结构并不构成对终端设备的限定，可以包括比图示更多或者更少的部件，或者组合某些部件，或者不同的部件的布置。其中：

存储器801用于存储处理器802执行任务所需的指令。

处理器802被配置为执行存储器801存储的指令，在每个时间间隔，观察环境中的当前交通状态，根据所述当前交通状态预测是否切换交通信号灯相位；将所预测的具有最大估计奖励值的当前行动发送给所述环境，并观察采取所述当前行动后的所述环境，获得所述环境的回报；获取下一个交通状态，根据所述回报和所述下一个交通状态获得当前的奖励值，将所述当前交通状态、所述当前行动、所述奖励值和所述下一个交通状态根据所述交通信号灯相位存储至存储器；根据所述下一个交通状态重复上述步骤。

在其他实施例中，该电子设备还包括通过总线或其它方式与存储器801和处理器802 相连的通信接口803，用于执行主体与其他设备或通信网络通信。

优选的，处理器802用于执行存储器801存储的指令，在进行监测时，执行上述任意一个实施例中所提供的一种交通信号灯的控制方法。

本发明另一个实施例提供了一种存储介质，该存储介质中存储有计算机可读的程序指令，程序指令被处理器执行时实现上述任意一个实施例所提供的一种交通信号灯的控制方法。

最后应说明的是：以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims

1.一种交通信号灯的控制方法，其特征在于，该控制方法包括以下步骤：

将采取所预测的具有最大估计奖励值的当前行动发送给所述环境，并观察采取所述当前行动后的所述环境，获得所述环境的回报；

根据所述下一个交通状态重复上述步骤。

2.根据权利要求1所述的一种交通信号灯的控制方法，其特征在于，所述根据所述当前交通状态预测是否切换交通信号灯相位的方法包括：

3.根据权利要求1或者2所述的一种交通信号灯的控制方法，其特征在于，所述获得所述环境的回报的方法是根据以下公式计算得到的：

4.根据权利要求1所述的一种交通信号灯的控制方法，其特征在于，所述存储器根据不同的交通信号灯相位和动作组合进行分类存储。

5.一种交通信号灯的控制装置，其特征在于，该控制装置包括：

6.根据权利要求5所述的一种交通信号灯的控制方法，其特征在于，所述行动模块包括：

7.根据权利要求5或者6所述的一种交通信号灯的控制方法，其特征在于，所述回报模块包括回报计算模块，所述回报计算模块用于根据以下公式计算得到所述环境的回报：

8.根据权利要求5所述的一种交通信号灯的控制方法，其特征在于，所述存储器用于将不同的交通信号灯相位和动作组合进行分类存储。

9.一种电子设备，其特征在于，包括：

处理器；

用于存储处理器可执行指令的存储器；

其中，所述处理器被配置为：执行权利要求1至4中任意一项所述的方法。

10.一种存储介质，该存储介质中存储有计算机可读的程序指令，其特征在于，所述程序指令被处理器执行时实现权利要求1至4中任意一项所述的方法。