CN113299085A

CN113299085A - 一种交通信号灯控制方法、设备及存储介质

Info

Publication number: CN113299085A
Application number: CN202110659695.4A
Authority: CN
Inventors: 吴斌; 王迅
Original assignee: Zhaotong Liangfengtai Information Technology Co ltd
Current assignee: Zhaotong Liangfengtai Information Technology Co ltd
Priority date: 2021-06-11
Filing date: 2021-06-11
Publication date: 2021-08-24

Abstract

本发明提供了一种交通信号灯控制方法、设备及存储介质，涉及智能交通控制领域，包括以下：随机初始化DDPG模型中的Actor‑Critic网络、记忆库以及随机噪声；获取车流数据，采用智能体采集各个交叉口的路口状态信息，基于路口状态信息生成的初始策略；采集各个车道的总队列长度、总延迟、等待总时长以及吞吐量，计算用于初始动作的奖励；智能体执行初始动作更新路口状态信息，以生成样本数据；在记忆库中将样本数据以和树形式存储；从记忆库中随机抽取样本数据对Actor‑Critic网络进行强化学习训练，迭代优化，直至生成用于智能体的最优控制策略进行交通信号灯控制，用于解决现有缺乏一种可适用于多交叉口的交通信号控制方法的问题。

Description

一种交通信号灯控制方法、设备及存储介质

技术领域

本发明涉及智能交通控制领域，尤其涉及一种交通信号灯控制方法、设备及存储介质。

背景技术

随着全球汽车保有量的持续增长，交通拥堵问题已成为全球各大城市的难点和热点问题。交通拥堵影响城市经济发展，造成资源浪费，还会导致严重的环境污染。因此，交通信号最优控制系统被广泛地研究以减少拥塞。传统的交通信号控制通常是基于历史车流量预设的固定配时方案，或者基于当前车流状态调整交通信号时长，例如绿信比、周期、相位差优化技术。

现有的如Webster方法假设车辆均匀到达的情况下，通过数学模型计算最佳的单路口周期长度和相位配时占比，以最小化车辆通过路口的行驶时间。SCOOT自适应控制系统，根据交通流量的改变，周期性调整信号灯每个相位的绿灯时长，从而减少车辆在路口的平均等候时间。但是SCOOT系统中的配时方案基于数学模型，当交通条件复杂度增高时，交通模型的建立将变得困难。与SCOOT系统不同，澳大利亚的SCATS系统依据实际交通状况从事先制定好的配时方案中选择最佳配时，由于方案数量有限，系统的可靠性差。因此需要一种可适用于多交叉口的交通信号控制方法以应对日益严重的交通拥堵问题。

发明内容

为了克服上述技术缺陷，本发明的目的在于提供一种交通信号灯控制方法，用于解决现有缺乏一种可适用于多交叉口的交通信号控制方法的问题。

本发明公开了一种交通信号灯控制方法，包括以下：

随机初始化DDPG模型中的Actor-Critic网络、记忆库以及随机噪声；

获取车流数据，采用智能体采集各个交叉口的路口状态信息，其中，每一智能体对应所述交叉口下一车道，所述路口状态信息包括各个车道的队列长度和车头时距；

基于所述路口状态信息采用带随机噪声的Actor-Critic网络生成的初始策略；

采集各个车道的总队列长度、总延迟、等待总时长以及吞吐量，根据所述总队列长度、总延迟、等待总时长以及吞吐量计算用于所述初始动作的奖励；

所述智能体执行所述初始动作更新所述路口状态信息，根据所述路口状态信息、所述初始策略、所述奖励、更新后的路口状态信息生成样本数据；

在记忆库中将所述样本数据以和树形式存储；

从所述记忆库中随机抽取样本数据对Actor-Critic网络进行强化学习训练，迭代优化，直至生成用于智能体的最优控制策略进行交通信号灯控制。

优选地，所述在记忆库中将所述样本数据以和树形式存储，包括以下：

获取所述样本数据的时序差分误差，并将所述时序差分误差的绝对值作为和树中每个节点的存储值。

优选地，从所述记忆库中随机抽取样本数据，包括以下：

根据所述记忆库中的和树获取存储值总和；

根据所述存储值总和对样本数据抽取数量进行区间划分，获取多个区间；

在各个所述区间内随机抽取一存储值，并根据随机抽取的存储值进行节点遍历，获得与所述级抽取的存储值对应的样本数据。

优选地，从所述记忆库中随机抽取样本数据对Actor-Critic网络进行强化学习训练，迭代优化，直至生成用于智能体的最优控制策略进行交通信号灯控制，包括以下：

读取一样本数据，采用Actor网络输出确定控制策略，其中，所述控制策略包括下一周期的时长、相位顺序以及相位持续时间；

当智能体根据控制策略执行动作后，由Critic网络对动作进行评估，并对Actor网络更新；

读取下一样本数据进行迭代优化，直至生成用于智能体的最优控制策略进行交通信号灯控制。

优选地，所述迭代优化包括以下：

通过最小化L以更新Critic网络，使用策略梯度更新Actor网络；

其中，

y_l＝r_l+γQ′(s_l+1,μ′(s_l+1|θ^μ′)|θ^Q′，

S为路口状态信息，a为通过Actor-Critic网络生成的动作策略,μ’和Q’分别对应Actor-Critic网络中目标Actor网络和目标Critic网络，N为样本数；

更新Actor网络根据下述公式：

其中，DDPG模型中，用一个卷积神经网络对Q函数进行模拟，其参数为θ^Q；

在训练完每一样本数据之后，通过soft update算法更新Actor-Critic网络。

优选地，通过soft update算法更新Actor-Critic网络，包括以下：

根据下述公式更新Actor-Critic网络：

θ^Q′←τθ^Q+(1-τ)θ^Q′

θ^μ′←τθ^μ+(1-τ)θ^μ′其中，τ取值为0.001。

优选地，在基于所述路口状态信息采用带随机噪声的Actor-Critic网络生成的初始策略前，还包括：

对各个智能体到的路口状态信息进行拼接，生成全局这状态值作为Actor-Critic网络的输入。

优选地，所述控制方法包括：

设置采用均值为0，初始方差为1的高斯噪声作为随机噪声。

当记忆库存满后，在每一迭代结束时对方差进行0.995倍的缩放。

本发明还提供一种计算机设备，所述计算机设备包括存储器、处理器以及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现上述控制方法的步骤。

本发明还提供一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现上述控制方法的步骤。

采用了上述技术方案后，与现有技术相比，具有以下有益效果：

本方案提出了一种适用于多交叉口的交通信号控制算法，基于和树深度确定性策略梯度的智能交通信号控制算法，针对每个交叉口考虑整个路网状态信息，并由通过TSC-DDPG模型得出全局最优值，该方法可以通过估计来自其他交叉口的入流概率来帮助导出全局最优值，使得多个智能体能够获取彼此间的时空信息，根据不同相位不同车道的车流量信息，智能决策配时周期、相位顺序以及各相位持续时间，解决现有缺乏一种可适用于多交叉口的交通信号控制方法的问题。

附图说明

图1为本发明所述一种交通信号灯控制方法、设备及存储介质实施例一的流程图；

图2为本发明所述一种交通信号灯控制方法、设备及存储介质实施例一中从所述记忆库中随机抽取样本数据的流程图；

图3为本发明所述一种交通信号灯控制方法、设备及存储介质实施例一中从所述记忆库中随机抽取样本数据对Actor-Critic网络进行强化学习训练，迭代优化，直至生成用于智能体的最优控制策略进行交通信号灯控制的流程图；

图4为本发明所述一种交通信号灯控制方法、设备及存储介质实施例一中仿真实验的车辆数据图；

图5为本发明所述一种交通信号灯控制方法、设备及存储介质实施例一中仿真实验的回合数及奖励值变化图；

图6为本发明所述一种交通信号灯控制方法、设备及存储介质实施例一中仿真实验的排队长度性能对比图；

图7为本发明所述一种交通信号灯控制方法、设备及存储介质实施例一中仿真实验的等待时间性能对比图；

图8为本发明所述一种交通信号灯控制方法、设备及存储介质实施例一中仿真实验的道路平均速度性能对比图；

图9为本发明所述一种交通信号灯控制方法、设备及存储介质实施例二中设备示意图。

附图标记：

8-计算机设备；81-存储器；82-处理器。

具体实施方式

以下结合附图与具体实施例进一步阐述本发明的优点。

这里将详细地对示例性实施例进行说明，其示例表示在附图中。下面的描述涉及附图时，除非另有表示，不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本公开相一致的所有实施方式。相反，它们仅是与如所附权利要求书中所详述的、本公开的一些方面相一致的装置和方法的例子。

在本公开使用的术语是仅仅出于描述特定实施例的目的，而非旨在限制本公开。在本公开和所附权利要求书中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式，除非上下文清楚地表示其他含义。还应当理解，本文中使用的术语“和/或”是指并包含一个或多个相关联的列出项目的任何或所有可能组合。

应当理解，尽管在本公开可能采用术语第一、第二、第三等来描述各种信息，但这些信息不应限于这些术语。这些术语仅用来将同一类型的信息彼此区分开。例如，在不脱离本公开范围的情况下，第一信息也可以被称为第二信息，类似地，第二信息也可以被称为第一信息。取决于语境，如在此所使用的词语“如果”可以被解释成为“在……时”或“当……时”或“响应于确定”。

在本发明的描述中，需要理解的是，术语“纵向”、“横向”、“上”、“下”、“前”、“后”、“左”、“右”、“竖直”、“水平”、“顶”、“底”“内”、“外”等指示的方位或位置关系为基于附图所示的方位或位置关系，仅是为了便于描述本发明和简化描述，而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作，因此不能理解为对本发明的限制。

在本发明的描述中，除非另有规定和限定，需要说明的是，术语“安装”、“相连”、“连接”应做广义理解，例如，可以是机械连接或电连接，也可以是两个元件内部的连通，可以是直接相连，也可以通过中间媒介间接相连，对于本领域的普通技术人员而言，可以根据具体情况理解上述术语的具体含义。

在后续的描述中，使用用于表示元件的诸如“模块”、“部件”或“单元”的后缀仅为了有利于本发明的说明，其本身并没有特定的意义。因此，“模块”与“部件”可以混合地使用。

实施例一：本实施例公开了一种交通信号灯控制方法，本方案主要提供深度强化学习在智能交通系统中的应用，设计其状态，动作，奖励等信息，建立基于DDPG算法的TSC-DDPG(traffic signal control-DDPG)交通信号控制模型，强化学习能很好的解决例如交通信号控制这样的顺序决策问题。在智能体与环境的整个交互过程中，智能体得到环境状态s，基于策略π，即智能体从环境感知到的状态和所采取动作的映射，采取动作at来响应该状态，随后环境对状态进行更新，并将下一状态st+1及奖励值rt返回给智能体，智能体利用环境返回奖励对上一动作进行评估，并更新其策略，这一循环一直持续，直到环境发出终止信号。智能体与环境的交互构成一个具有马尔可夫特性的动态系统。具体的，参阅图1，所述交通信号灯控制方法包括以下：

S100：随机初始化DDPG模型中的Actor-Critic网络、记忆库以及随机噪声；

在上述步骤中，DDPG算法采用确定性策略μ来选取当前动作at，可表示为at＝μ(st|θμ)，其中θ^μ为产生确定性动作的Actor网络的网络参数，实现从状态到动作的映射，并通过Critic网络来拟合Q函数，将其参数化为Q(s,a|θQ)。通过目标函数J衡量策略μ的表现，因此Actor网络的训练目标即为找寻最优策略，具体的，Critic网络根据如下式(1)更新，Actor网络根据如下式(3)更新。因此随机初始化Actor网络μ(s|θ^μ)以及Critic网络Q(s,a|θ^Q)，初始化目标网络μ′和Q′，权重赋值为θ^Q′←θ^Q,θ^μ′←θ^μ，初始化记忆库R，高斯噪声N。

在本实施方式中所述控制方法包括：设置采用均值为0，初始方差为1的高斯噪声作为随机噪声。当记忆库存满后，在每一迭代结束时对方差进行0.995倍的缩放。

对于多路口的协同交通信号控制，本方案提出的TSC-DDPG模型针对每个交叉口考虑整个路网状态信息，实行状态共享模式，赋予路口智能体更为广阔的观测视野，并由此得出全局最优值。该方法可以通过估计来自其他交叉口的入流概率来帮助导出全局最优Q值，使得多个智能体能够根据全局状态获取彼此间的时空信息，合理调整自身策略，实现路口间的协同优化。首先随机初始化Actor网络及Critic网络Q，并初始化目标Actor网络及Critic网络Q(在DDPG算法中Actor网络及Critic网络均包括Online网络和Target网络)，记忆库以及用于平衡“利用与探索”的随机噪声N，在最初的训练阶段，由于策略远未达到最佳，需要不停探索各种动作以增加策略的可能性，随着算法的不断迭代，策略逐渐收敛，因此在后期阶段需要减少对动作的探索，以提高稳定性。在模型实现中，采用均值为0，初始方差为1的高斯噪声进行探索，当记忆库存满后，在每一时隙结束时(即每一迭代结束，或理解为每一时间步或每一周期)对方差进行0.995倍的缩放，直至最后收敛。

S200：获取车流数据，采用智能体采集各个交叉口的路口状态信息，其中，每一智能体对应所述交叉口下一车道，所述路口状态信息包括各个车道的队列长度和车头时距；

在上述步骤中，路口状态信息为每一个路口智能体对其所观测到的路网环境的定量表示，在每一时间步中，智能体都会通过路口部署的传感器接收到路口状态信息。车道的队列长度能够直观的反应出交叉口各方向的拥堵情况，在此基础上考虑车头时距的影响，车头时距定义为前后两车的前端通过交叉口停车线的时间差，将一周期内道路的平均车头时距作为一部分的路口状态信息。因此，路口状态信息表示为式(4)：

O_t＝{q₁,q₂,…,q_n,h₁,h₂,…,h_n} (4)

其中，qi为道路i的队列长度，hi为道路i的上一周期内平均车头时距，n为一个交叉口的车道总数。

在上述步骤中，Actor网络的输入设定为全局状态值，即对不同智能体观测值的拼接，可表示为s＝{o₁,o₂,...,o_l}，oi为智能体i的观测值，Critic网络输入依旧为自身的策略信息。每个智能体都有一个独立的记忆库，在对记忆库数据进行存储时，状态输入更新为全局状态，即每一条数据可由下式表示：e＝{o₁,...,o_l,a,r,o₁′,...,o_l′}，根据基于本方案的仿真结果显示基于全局状态的TSC-DDPG模型具有良好的稳定性和鲁棒性。

S300：基于所述路口状态信息采用带随机噪声的Actor-Critic网络生成的初始策略；

在上述步骤中，动作(即为上述初始策略)为路口智能体根据实时状态信息为每一个路口所制定的配时方案，动作的选取直接影响到配时方案效果，从实用性角度出发，将动作空间定义如下式(5)：

at＝{c,p1,…,d1,…,dm}(5)

其中：c为决定下一周期持续时间的时长因子，为避免出现周期过大或过小的情况，将周期时长限定在[C_minT,C_maxT]范围内，T为基准周期长度；P1，……，Pm为下一周期相位顺序；d1，……，dm为下一周期内各项为持续时长的比例因子，通过softmax函数进行归一化处理，考虑到5秒以下的相位持续时间过短，本方案中不进行5秒以下的相位，并将该时长按比例分配至其它相位。

S400：采集各个车道的总队列长度、总延迟、等待总时长以及吞吐量，根据所述总队列长度、总延迟、等待总时长以及吞吐量计算用于所述初始动作的奖励；

在上述步骤中，奖励是对执行该动作后所达到的配时效果的评判，引导智能体学习的方向，是决定模型是否收敛以及达到期望目标的关键。为了提高路口的通行效率，需综合考虑评价路口状况的评价指标，针对每个交叉口定义其奖励函数如下式(6)所示：

数据相对应，即可实现更为高效的经验回放。

r＝w₁W+w₂X+w₃Y+w₄Z (6)

其中：w1,...,w4为权重系数，W为该路口所有进口车道的车辆队列长度之和，X为所有进口车道的车辆延迟之和，Y为所有进口车道的车辆等待时间之和，其中进口车道包括进口直行道和进口左转道，Z为周期内该交叉口的吞吐量。

S500：所述智能体执行所述初始动作更新所述路口状态信息，根据所述路口状态信息、所述初始策略、所述奖励、更新后的路口状态信息生成样本数据；

每一回合开始，重新读入车流文件，以周期为更新频率进行信号配时。当上一周期结束后，通过Actor网络的输出确定下一周期的时长、相位顺序以及相位持续时间，如此循环直至达到最终仿真时长，当采取完每一步动作后，由Critic网络对动作进行评估，从而使策略得到不断优化。

S600：在记忆库中将所述样本数据以和树形式存储；

具体的，上述在记忆库中将所述样本数据以和树形式存储，包括以下：

在记忆库中，不同样本由于时序差分(TD，temporal-difference)误差的不同，在更新网络时对于反向传播的作用也是不一样的，TD误差越大，表明预测精度有更大的上升空间，对于反向传播的作用也越大，模型便能从中获得更多有用信息。因此为了进一步提高采样效率，加速算法收敛，采用Sumtree(和树)的形式对数据进行存储，将TD误差的绝对值作为Sumtree中每个叶子节点的存储值。

S700：从所述记忆库中随机抽取样本数据对Actor-Critic网络进行强化学习训练，迭代优化，直至生成用于智能体的最优控制策略进行交通信号灯控制。

具体的，上述步骤中所述从所述记忆库中随机抽取样本数据，参阅图2，包括以下：

S711：根据所述记忆库中的和树获取存储值总和；

需要说明的是，sumtree，树形结构只用于储存优先级，还有额外的一个数据块(transiton)用来存储需要的数据。

S712：根据所述存储值总和对样本数据抽取数量进行区间划分，获取多个区间；

S713：在各个所述区间内随机抽取一存储值，并根据随机抽取的存储值进行节点遍历，获得与所述级抽取的存储值对应的样本数据。

进行数据采样时，将优先级P(如上述即存储值)的总和除以抽样数，得到区间数，然后在每个区间里随机选取一个数，将此数从Sumtree的根节点开始按照一定规律向下搜索，最后将搜索得到的优先级P与样本数据相对应，即可实现更为高效的经验回放。

具体的，上述步骤从所述记忆库中随机抽取样本数据对Actor-Critic网络进行强化学习训练，迭代优化，直至生成用于智能体的最优控制策略进行交通信号灯控制，参阅图3，包括以下：

S721：读取一样本数据，采用Actor网络输出确定控制策略，其中，所述控制策略包括下一周期的时长、相位顺序以及相位持续时间；

S722：当智能体根据控制策略执行动作后，由Critic网络对动作进行评估，并对Actor网络更新；

S723：读取下一样本数据进行迭代优化，直至生成用于智能体的最优控制策略进行交通信号灯控制。

在上述步骤中，每一迭代开始，重新读入车流文件，以周期为更新频率进行信号配时。当上一周期结束后，通过Actor网络的输出确定下一周期的时长、相位顺序以及相位持续时间，如此循环直至达到最终仿真时长，当采取完每一步动作后，由Critic网络对动作进行评估，从而使策略得到不断优化。

强化学习的目标是使智能体学习一种最佳策略，以最大化从初始状态开始的累积预期奖励。值函数Q(s,a)定义为在状态S处采取动作a时所获得的未来累计奖励，可以用来对当前策略进行评估，可通过下式(7)

其中：γ为折扣因子，取值范围为[0,1]，表明了未来回报相对于当前回报的重要程度；E为数学期望。最优值函数

可由以下表示：

其中s＇与a＇分别为下一步的状态和采取动作。因此智能体通过不断更新自己的值函数直至逼近最优值函数，便可学习到最优策略π*。

因此，本方案中迭代优化包括以下：

Critic网络的更新使用类似于监督学习的方式，通过最小化L以更新Critic网络，使用策略梯度更新Actor网络；

其中，

y_l＝r_l+γQ′(s_l+1,μ′(s_l+1|θ^μ′)|θ^Q′ (2)，

如上述通过目标函数J衡量策略μ的表现，因此Actor网络的训练目标即为找寻最优策略，使得μ＝argmax J(μ)，通过链式规则，更新Actor网络根据下述公式：

此外DDPG算法在更新目标网络时采用了软更新的形式，使得目标网络参数变化小，训练更易于收敛，软更新形式如下：

θ^μ′<-τθ^μ+(1-τ)θ^μ′

θ^Q′<-τθ^Q+(1-τ)θ^Q′

soft update算法为DDPG算法中的更新算法，具体的，通过soft update算法更新Actor-Critic网络，包括以下：根据下述公式更新Actor-Critic网络：

θ^Q′←τθ^Q+(1-τ)θ^Q′

θ^μ′←τθ^μ+(1-τ)θ^μ′其中，τ取值为0.001(一般性取值，可根据实施场景预设)。

本方案提出了一种适用于多交叉口的TSC-DDPG交通信号控制算法，以应对日益严重的交通拥堵问题，相比于传统配时方案，所提方案具有更强的灵活性和自适应性，能够进行高维度的交通特征提取，并能在连续动作空间选取合适的动作，还采用奖励也充分考虑了路口的通行效率，同时采用仿真实验，其结果显示本实施方式所述TSC-DDPG模型具有良好的收敛性，并且在队列长度、等待时间、平均速度等指标方面都明显优于其他配时方案。

为了更加清晰明了地解释本方案，采用仿真实验进行进一步说明，本实施方式中仿真平台基于SUMO 0.19以及Tensorflow1.12实现，利用SUMO提供的Traci接口模块完成两者的在线交互，具体的交通路网仿真如下：

1)路口属性设置

针对三路口场景进行仿真分析。路口部署检测器的范围控制在150米以内，相邻路口间距设置为600米，每条道路设置为双向三车道，从内到外分别设置为左转车道、直行车道以及右转车道，车道限速为45km/h。

2)车流量设置

车辆到达遵循泊松分布，通过更改每个交叉口入口的车辆到达概率来控制不同路段上的车辆数量。仿真中将东西方向设置为主干道，在高峰时段，车辆主要为东西走向，南北向车辆产生的机率较低，其中又以直行车辆较左转车辆更多，在其余平峰或者低峰时段，各个方向上车辆产生的概率相应降低。仿真将一天的交通流量进行压缩至3个小时(10800秒)。

进行仿真实验。在仿真过程中，每隔1080秒对整个路网的车辆数进行统计，车辆数据如图4所示。

3)实验评估与结果分析

排队长度、等待时间、车道速度等指标能够很好的反映出交叉口的通行能力，就三路口在这几方面性能进行评估分析。对于三路口场景，对其进行400回合训练，每一回合的奖励值变化如图5所示。最开始智能体处于探索阶段时，奖励值大致在-35000至-25000之间，在120回合附近奖励值开始发生较为明显的改变，并在300回合后逐渐趋于稳定，最终稳定在-6500左右。接下来将训练好的TSC-DDPG模型与其余两种配时方案进行性能上的对比分析。

图6-图8所示分别为多路口场景下在仿真时间段内，三个路口平均队列长度、车辆等待时间和道路平均速度的变化情况，将10800秒按照1080秒为间隔分为10个时间段，针对每个时间段绘制其平均数据。从图中可以直观地看出不同时间段交通流量的变化情况，并且能够看到在队列长度、等待时间、道路速度等性能方面，所提出的TSC-DDPG模型都明显优于其他两种配时方案。

作为总结的，本方案中所采用的模型相较于固定配时排队长度缩短了35.63％，等待时间减少了40.73％，道路平均速度提升8.60％，相较于流量权重配比方案排队长度缩短了13.45％，等待时间减少了17.79％，平均速度提升6.31％。

实施例二：为实现上述目的，本发明还提供一种计算机设备8，参阅图9，该计算机设备可包括多个计算机设备，实现实施例一的交通信号灯控制方法的系统的组成部分可分散于不同的计算机设备8中，计算机设备8可以是执行程序的智能手机、平板电脑、笔记本电脑、台式计算机、机架式服务器、刀片式服务器、塔式服务器或机柜式服务器(包括独立的服务器，或者多个服务器所组成的服务器集群)等。本实施例的计算机设备至少包括但不限于：可通过系统总线相互通信连接的存储器81、处理器82以及缓存实施例一的交通信号灯控制方法，如图8所示。需要指出的是，图8仅示出了具有组件-的计算机设备，但是应理解的是，并不要求实施所有示出的组件，可以替代的实施更多或者更少的组件。

本实施例中，存储器81可以包括存储程序区和存储数据区，其中，存储程序区可存储搡作系统、至少一个功能所需要的应用程序；存储数据区可存储用户在计算机设备的皮肤数据信息。处理器82在一些实施例中可以是中央处理器(Central Processing Unit，CPU)、控制器、微控制器、微处理器、或其他数据处理芯片。该处理器92通常用于控制计算机设备的总体操作。本实施例中，处理器82用于运行存储器81中存储的程序代码或者处理数据，例如运行系统以实现实施例一的交通信号灯控制方法。

需要指出的是，图9仅示出了具有部件81-82的计算机设备8，但是应理解的是，并不要求实施所有示出的部件，可以替代的实施更多或者更少的部件。

在本实施例中，存储于存储器81的装置还可以被分割为一个或者多个程序模块，所述一个或者多个程序模块被存储于存储器81中，并由一个或多个处理器(本实施例为处理器82)所执行，以完成本发明。

实施例三：

为实现上述目的，本发明还提供一种计算机可读存储介质，其包括多个存储介质，如闪存、硬盘、多媒体卡、卡型存储器(例如，SD或DX存储器等)、随机访问存储器(RAM)、静态随机访问存储器(SRAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、可编程只读存储器(PROM)、磁性存储器、磁盘、光盘、服务器、App应用商城等等，其上存储有计算机程序，程序被处理器82执行时实现相应功能。本实施例的计算机可读存储介质用于存储TSC-DDPG模型算法，被处理器82执行时实现实施例一的交通信号灯控制方法。

应当注意的是，本发明的实施例有较佳的实施性，且并非对本发明作任何形式的限制，任何熟悉该领域的技术人员可能利用上述揭示的技术内容变更或修饰为等同的有效实施例，但凡未脱离本发明技术方案的内容，依据本发明的技术实质对以上实施例所作的任何修改或等同变化及修饰，均仍属于本发明技术方案的范围内。

Claims

1.一种交通信号灯控制方法，其特征在于，包括以下：

在记忆库中将所述样本数据以和树形式存储；

2.根据权利要求1所述的控制方法，其特征在于，所述在记忆库中将所述样本数据以和树形式存储，包括以下：

3.根据权利要求1所述的控制方法，其特征在于，从所述记忆库中随机抽取样本数据，包括以下：

根据所述记忆库中的和树获取存储值总和；

4.根据权利要求1所述的控制方法，其特征在于，从所述记忆库中随机抽取样本数据对Actor-Critic网络进行强化学习训练，迭代优化，直至生成用于智能体的最优控制策略进行交通信号灯控制，包括以下：

5.根据权利要求1所述的控制方法，其特征在于，所述迭代优化包括以下：

通过最小化L以更新Critic网络，使用策略梯度更新Actor网络；

其中，

y_l＝r_l+γQ′(s_l+1,μ′(s_l+1|θ^μ′)|θ^Q′，

更新Actor网络根据下述公式：

6.根据权利要求5所述的控制方法，其特征在于，通过soft update算法更新Actor-Critic网络，包括以下：

根据下述公式更新Actor-Critic网络：

θ^Q′←τθ^Q+(1-τ)θ^Q′

θ^μ′←τθ^μ+(1-τ)θ^μ′其中，τ取值为0.001。

7.根据权利要求1所述的控制方法，其特征在于，在基于所述路口状态信息采用带随机噪声的Actor-Critic网络生成的初始策略前，还包括：

8.根据权利要求1所述的控制方法，其特征在于，所述控制方法包括：

设置采用均值为0，初始方差为1的高斯噪声作为随机噪声。

9.一种计算机设备，其特征在于，所述计算机设备包括存储器、处理器以及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现权利要求1至8任一项所述控制方法的步骤。

10.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现上述权利要求1-8所述控制方法的步骤。