CN111833590B

CN111833590B - 交通信号灯的控制方法、装置及计算机可读存储介质

Info

Publication number: CN111833590B
Application number: CN201910299303.0A
Authority: CN
Inventors: 廖勇; 刘庆敏; 刘保鹏; 王远; 张博
Original assignee: Beijing Jingdong Century Trading Co Ltd; Beijing Jingdong Shangke Information Technology Co Ltd
Current assignee: Beijing Jingdong Century Trading Co Ltd; Beijing Jingdong Shangke Information Technology Co Ltd
Priority date: 2019-04-15
Filing date: 2019-04-15
Publication date: 2021-12-07
Anticipated expiration: 2039-04-15
Also published as: CN111833590A

Abstract

本公开提供了一种交通信号灯的控制方法、装置及计算机可读存储介质，涉及自动控制技术领域。其中的控制方法包括：采集路口的交通状态信息；利用行动者Actor网络对交通状态信息进行处理，得到路口的交通信号灯的控制动作；其中，Actor网络是利用行动者‑评论家Actor‑Critic算法训练得到的，控制动作包括保持或切换交通信号灯的状态；根据控制动作控制交通信号灯的状态。本公开能够根据路口的实际路况对交通信号灯进行实时控制，实现了对交通信号灯的动态配时，能够有效缓解路口的交通拥堵情况。

Description

交通信号灯的控制方法、装置及计算机可读存储介质

技术领域

本公开涉及自动控制技术领域，特别涉及一种交通信号灯的控制方法、装置及计算机可读存储介质。

背景技术

传统的交通信号灯所采用的控制方式通常为定时控制。所谓定时控制，是指固定交通信号灯在路口各个方向上的绿灯时长及红灯时长。

定时控制具体可分为单时段控制和多时段控制。在单时段控制方式下，交通信号灯在路口各个方向上的绿灯信号所占时间的比例是固定的。在多时段控制方式下，对于相同的时段而言，交通信号灯在路口各个方向上的绿灯信号所占时间的比例是相同的；对于不同的时段，交通信号灯在路口各个方向上的绿灯信号所占时间的比例是不同的。多时段控制方式可以在一定程度上缓解高峰时期路口的交通拥堵情况。

发明内容

发明人研究发现，传统的交通信号灯只能根据预设的策略对交通信号灯的状态进行控制，没有考虑交通路况随机性的特点，不能根据实际路况对交通信号灯的状态控制进行实时调整。因此，传统的交通信号灯难以适应交通流量波动的情况，会导致相对严重的交通拥堵。

本公开解决的一个技术问题是，如何实现对交通信号灯的动态配时，从而有效缓解路口的交通拥堵情况。

根据本公开实施例的一个方面，提供了一种交通信号灯的控制方法，包括：采集路口的交通状态信息；利用行动者Actor网络对交通状态信息进行处理，得到路口的交通信号灯的控制动作；其中，Actor网络是利用行动者-评论家Actor-Critic算法训练得到的，控制动作包括保持或切换交通信号灯的状态；根据控制动作控制交通信号灯的状态。

在一些实施例中，还包括：检测交通信号灯保持当前状态的时长；在交通信号灯保持当前状态的时长未超过预设最小时长的情况下，保持交通信号灯的当前状态；在交通信号灯保持当前状态的时长超过预设最小时长且未超过预设最大时长的情况下，重新执行权利要求1中的步骤；在交通信号灯保持当前状态的时长超过预设最大时长的情况下，切换交通信号灯的状态。

在一些实施例中，切换交通信号灯的状态包括：按照预设的状态切换顺序，将交通信号灯从当前状态切换至下一状态。

在一些实施例中，交通状态信息包括：交通信号灯的状态、交通信号灯保持当前状态的时长以及路口在各个方向上的最大排队长度。

在一些实施例中，还包括：初始化Actor网络的网络参数；利用Actor网络对上一周期的样本交通状态信息进行处理，得到交通信号灯基于上一周期的控制动作；根据交通信号灯基于上一周期的控制动作，确定交通信号灯在下一周期的状态；根据上一周期路口的最大排队长度及下一周期路口的最大排队长度，确定交通信号灯基于上一周期的控制动作的贡献值；利用Critic网络对上一周期的样本交通状态信息进行处理，并根据处理结果及贡献值更新Actor网络的网络参数。

在一些实施例中，Actor网络与Critic网络共享部分全连接层。

在一些实施例中，利用Critic网络对上一周期的样本交通状态信息进行处理，并根据处理结果及贡献值更新Actor网络的网络参数包括：在Critic网络资源池中选择业务负载最小的处理器及相应的Critic网络；将上一周期的样本交通状态信息发送至业务负载最小的处理器及相应的Critic网络，以便对上一周期的样本交通状态信息进行处理，并根据处理结果及贡献值异步更新Actor网络的网络参数。

根据本公开实施例的另一个方面，提供了一种交通信号灯的控制装置，包括：信息采集模块，被配置为采集路口的交通状态信息；信息处理模块，被配置为利用Actor网络对交通状态信息进行处理，得到路口的交通信号灯的控制动作；其中，Actor网络是利用Actor-Critic算法训练得到的，控制动作包括保持或切换交通信号灯的状态；状态控制模块，被配置为根据控制动作控制交通信号灯的状态。

根据本公开实施例的又一个方面，提供了另一种交通信号灯的控制装置，包括：存储器；以及耦接至存储器的处理器，处理器被配置为基于存储在存储器中的指令，执行前述的交通信号灯的控制方法。

根据本公开实施例的再一个方面，提供了一种计算机可读存储介质，其中，计算机可读存储介质存储有计算机指令，指令被处理器执行时实现前述的交通信号灯的控制方法。

本公开能够根据路口的交通状态信息对交通信号灯进行实时控制，实现了对交通信号灯的动态配时，能够有效缓解路口的交通拥堵情况。

通过以下参照附图对本公开的示例性实施例的详细描述，本公开的其它特征及其优点将会变得清楚。

附图说明

为了更清楚地说明本公开实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本公开的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1示出了对智能体中的Actor网络进行训练的原理示意图。

图2示出了交通信号灯的状态切换顺序。

图3示出了智能体与路口环境的交互流程示意图。

图4示出了本公开交通信号灯的控制方法的一些实施的流程示意图。

图5示出了本公开交通信号灯的控制方法的另一些实施例的流程示意图。

图6示出了本公开交通信号灯的控制装置的一些实施例的结构示意图。

图7示出了本公开交通信号灯的控制装置的另一些实施例的结构示意图。

具体实施方式

下面将结合本公开实施例中的附图，对本公开实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本公开一部分实施例，而不是全部的实施例。以下对至少一个示例性实施例的描述实际上仅仅是说明性的，决不作为对本公开及其应用或使用的任何限制。基于本公开中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其它实施例，都属于本公开保护的范围。

本公开以强化学习中的策略梯度理论为基础。强化学习算法以最大化累积奖赏为目标，在与环境的不断交互迭代过程中调整智能体(具体为深度学习神经网络)的参数，最终得出最优的策略。具体应用至交通信号灯的场景时，行动者-评论家Advantage Actor-Critic算法(强化学习算法中的一种)以最大化某时段路口累积等待时间或通行效率为目标，在交通信号灯切换或保持当前状态的过程中调整Actor网络的参数，最终得出交通信号灯的动态配时方案。

强化学习算法求解问题的过程通常可采用基于值(Value-based)的方法和基于策略(Policy-based)的方法。前者更适用于状态空间较小或离散型控制动作的问题，后者使用于较复杂的连续或离散控制问题。本公开采用基于策略的方法求解信号灯配时控制问题。

下面结合图1介绍如何对智能体中的Actor网络进行训练。

图1示出了对智能体中的Actor网络进行训练的原理示意图，主要包括路口环境和智能体两部分。训练时，路口环境将样本交通状态信息输入至智能体，该样本交通状态信息可以包括交通信号灯的状态、交通信号灯保持当前状态的时长以及路口在各个方向上的最大排队长度。以十字路口为例，交通信号灯的状态可以包括东西向直行、东西向左拐、南北向直行、南北向左拐四种状态。智能体根据路口环境提供的样本交通状态信息，能够向路口环境返回相应的控制动作，该控制动作包括保持或切换当前交通信号灯的状态。

训练时，路口环境可以采用真实的路口环境，也可以采用交通虚拟仿真工具。交通虚拟仿真工具利用现代计算机技术模拟交通系统，可实现交通场景建模、渲染、交通状况预测等等。常用的交通虚拟仿真工具包括SimTraffic、VisSim、Paramics、TransModeler和SUMO等等。本实施例优选采用开源软件SUMO完成交通路口环境建模，仿真单十字路口信号灯配时控制场景。外部程序可通过API实现与SUMO的双向动态交互，一方面将获取到的样本交通状态信息输入到智能体中，另一方面接收由智能体计算出的控制动作并控制路口的仿真。

智能体由两个深度学习神经网络构成，需要进行独立训练，具体包括Actor网络和Critic网络。Actor网络和Critic网络执行现有的Advantage Actor-Critic算法，下面进行简单介绍。

Actor网络基于特定样本交通状态信息确定控制动作，该控制动作为保持或切换当前交通信号灯状态的概率。Actor网络输出当前仿真步对应的交通信号灯控制动作后作用于SUMO，并计算对应控制动作的贡献值(Reward)。Critic网络用于评估路口环境在当前状态下所能获得贡献值的估计值。Critic网络评估当前仿真步及上一仿真步的价值函数，进一步计算优势函数，以评估当前状态下控制动作的好坏，并基于此进行策略梯度计算及策略参数更新。经过多轮次迭代训练，最终输出最优的交通信号灯控制策略。

Actor网络与Critic网络可以共享部分全连接层。使Actor网络与Critic网络共享部分全连接层，能够有效降低Actor-Critic网络的训练量。

对智能体中的Actor网络进行训练的过程包括步骤S102～步骤S106。

在步骤S102中，初始化Actor网络的网络参数。

Actor网络和Critic网络的本质是多层全连接神经网络，可以采用三层以上全连接神经网络网络编码实现。在初始化Actor网络的网络参数θ的同时，可以同时初始化Critic网络的网络参数

接下来的目标是确定网络参数θ，从而形成最优的控制策略π_θ(a|s)(表示在交通状态s下选择控制动作a的概率)使得多伦迭代过程中的平均累积贡献值J(θ)最大(可以直观的理解为多个累积时间内平均排队长度最短)。

在步骤S104中，利用Actor网络对上一周期的样本交通状态信息进行处理，得到交通信号灯基于上一周期的控制动作。

在步骤S106中，根据交通信号灯基于上一周期的控制动作，确定交通信号灯在下一周期的状态。

图2示出了交通信号灯的状态切换顺序，依次分别为东西方向直行绿灯、东西方向左拐绿灯、南北方向直行绿灯、南北方向左拐绿灯。

例如，交通信号灯基于上一周期的控制动作为切换交通信号灯的状态，那么交通信号灯在下一周期的状态由“东西方向直行绿灯”切换为“东西方向左拐绿灯”。

在步骤S108中，根据上一周期路口的最大排队长度及下一周期路口的最大排队长度，确定交通信号灯基于上一周期的控制动作的贡献值。

在步骤S110中，利用Critic网络对上一周期的样本交通状态信息进行处理，并根据处理结果及上述贡献值更新Actor网络的网络参数。

网络参数θ有多种求解方法，既包括无梯度算法中的爬山法、遗传算法、粒子群算法等，也包括梯度算法中的梯度下降、共轭梯度算法等等。由于梯度算法的计算效率相对较高，故利用策略梯度方法(Policy Gradient)来优化控制策略。策略梯度方法采用梯度上升方式，利用控制策略π_θ(a|s)下的期望总贡献值J(θ)关于策略参数θ的梯度来更新策略参数θ，使得θ每一步更新朝着J(θ)最大化方向更新，从而最终收敛于最优策略。J(θ)的计算方法如公式(1)所示：

J(θ)＝E[R|π_θ] (1)

其中，J(θ)是在控制策略π_θ(a|s)下，在一轮交互(即一个信号灯仿真时段)中智能体所获得的累积贡献值。由于π_θ(a|s)具有随机性，故采用期望值来评估策略π_θ(a|s)的好环。R表示一个虚拟仿真周期内的贡献值，计算方法见公式(2)：

其中，l_current表示下一仿真周期中路口在各个方向上的最大排队长度，l_previous表示上一仿真周期中路口在各个方向上的最大排队长度，ε为随机数，用于避免最大排队长度为0的情况下带来的数值问题。所谓贡献值，是指保持或切换当前交通信号灯状态的情况下，对应得到的奖赏。当下一仿真周期最大排队长度变短时给予正的奖赏，贡献值为正；当下一仿真周期最大排队长度变长时给予负的奖赏，贡献值为负。

将J(θ)对θ求梯度，得到公式(3)：

其中，R(s,a)表示在交通状态s下智能体执行动作a能够获取的瞬时贡献值。

以上为基本的策略梯度求解方法，为了解决上述方法实际运用中存在R(s,a)的方差较大的问题，因此可以引入优势函数A(s,a)来辅助求解J(θ)。优势函数A(s,a)如公式(4)所示：

A(s,a)＝R(s,a)+γV(s')-V(s) (4)

其中，V(s)表示智能体从交通状态s开始能够获取得总贡献值；s’为交通状态s的下一状态；A(s,a)为优势函数，表示在当前交通状态s下执行控制动作a，能多获得多少贡献值，γ为超参数，用于表征置信程度。进一步有公式(5)：

最后，采用

来更新θ，其中α为超参数，用于控制迭代过程的快慢程度。训练完成的Actor网络能够输出控制策略来控制交通信号灯的状态。

上述实施例基于强化学习中的策略梯度方法，采用Advantage Actor-Critic方法利用两个神经网络来分别逼近控制策略函数与贡献值估计函数，训练得到能够对交通信号灯配时控制的Actor网络。Actor网络能够直接以交通路口的状态信息为输入，得到交通信号灯接下来的控制动作。上述实施例以强化学习理论为依据，通过建立路口状态信息与控制策略之间的映射关系，能够实现对交通信号灯的实时控制。

另一方面，由于采集实际的样本交通数据耗时耗力，上述实施例充分利用虚拟仿真技术提供的高效手段，能够更高效地批量生成样本交通数据，无需手动建立复杂交通路口模型。

在一些实施例中，步骤S110中可以采用异步的方式更新Actor网络的网络参数。具体包括：在Critic网络资源池中选择业务负载最小的处理器及相应的Critic网络；将上一周期的样本交通状态信息发送至业务负载最小的处理器及相应的Critic网络，以便对上一周期的样本交通状态信息进行处理，并根据处理结果及贡献值异步更新Actor网络的网络参数。

在Actor网络的训练过程中，智能体与路口环境每次实时交互需要耗费较多内存和计算资源。本实施例采用异步方式执行策略更新，同时采用多个Critic网络与环境进行交互，各个Critic网络对应不同的CPU，能够显著提高计算效率。

图3示出了智能体与路口环境的交互流程示意图。如图3所示，将路口的交通状态信息S_t输入智能体后，智能体通过能够得到路口的交通信号灯的控制动作A_t。然后，根据路口的交通信号灯的控制动作对交通信号灯的状态进行控制，路口的交通状态信息会变为S_t+1。进一步将路口的交通状态信息S_t+1输入智能体，可以得到路口的交通信号灯的控制动作A_t+1。通过实时不断的将路口的交通状态信息输入智能体，就能够实时不断的得到交通信号灯的控制动作，从而形成最终的控制策略。

下面结合图4介绍本公开交通信号灯的控制方法的一些实施例。

图4示出了本公开交通信号灯的控制方法的一些实施的流程示意图。如图4所示，本实施例包括步骤S402～步骤S406。

在步骤S402中，采集路口的交通状态信息。

例如，交通状态信息可以包括：交通信号灯的状态、交通信号灯保持当前状态的时长以及路口在各个方向上的最大排队长度。路口的交通状态信息可以利用路口摄像头进行采集，相比在交通信号灯附近布置检测器而言成本较低且改造方便。

在步骤S404中，利用行动者Actor网络对交通状态信息进行处理，得到路口的交通信号灯的控制动作。其中，Actor网络是利用行动者-评论家Actor-Critic算法训练得到的，控制动作包括保持或切换交通信号灯的状态。

在步骤S406中，根据控制动作控制交通信号灯的状态。

例如，可以按照预设的状态切换顺序，将交通信号灯从当前状态切换至下一状态。

本实施例能够根据路口的交通状态信息对交通信号灯进行实时控制，实现了对交通信号灯的动态配时，能够有效缓解路口的交通拥堵情况。同时，由于本实施例中的行动者网络是采用虚拟仿真技术中大量样本数据训练得到的，能够充分应对路口环境出现的随机因素。

下面结合图5介绍本公开交通信号灯的控制方法的另一些实施例。

图5示出了本公开交通信号灯的控制方法的另一些实施例的流程示意图。如图5所示，本实施例包括步骤S500～步骤S506。

在步骤S501中，检测交通信号灯保持当前状态的时长。在检测交通信号灯保持当前状态的时长的同时，判断交通信号灯保持当前状态的时长与预设最大时长、预设最小时长之间的数量关系。

在交通信号灯保持当前状态的时长未超过预设最小时长的情况下，执行步骤S502。

在步骤S502中，保持交通信号灯的当前状态，并返回步骤S501。

在交通信号灯保持当前状态的时长超过预设最小时长且未超过预设最大时长的情况下，执行步骤S503。

在步骤S503中，采集路口的交通状态信息。

在步骤S504中，利用行动者Actor网络对交通状态信息进行处理，得到路口的交通信号灯的控制动作。

在步骤S505中，根据路口的交通信号灯的控制动作，控制交通信号灯的状态，然后返回步骤S501。

在交通信号灯保持当前状态的时长超过预设最大时长的情况下，执行步骤S506。

在步骤S506中，切换交通信号灯的状态，并返回步骤S501。

本实施例设置了保持当前状态的预设最大时长，交通信号灯保持当前状态的时长超过预设最大时长的情况下强制切换至下一状态，能够防止单方向交通车辆等待时间过长。本实施例还设置了保持当前状态的预设最小时长，在交通信号灯保持当前状态的时长未超过预设最小时长的情况下，保持交通信号灯的当前状态不变，保证车辆、行人能有足够的时间通过交通路口。由于本实施例中的控制动作根据实际路况而变化，因此该控制动作具有一定的随机性；同时，本实施例中的控制动作又受到预设最大时长、预设最小时长以及状态切换顺序的限制，因此在实现了对交通信号灯的动态配时的情况下，能够更加有效缓解路口的交通拥堵情况。

下面结合图6介绍本公开交通信号灯的控制装置的一些实施例。

图6示出了本公开交通信号灯的控制装置的一些实施例的结构示意图。如图6所示，本实施例包括信息采集模块602，被配置为采集路口的交通状态信息；信息处理模块604，被配置为利用Actor网络对交通状态信息进行处理，得到路口的交通信号灯的控制动作；其中，Actor网络是利用Actor-Critic算法训练得到的，控制动作包括保持或切换交通信号灯的状态；状态控制模块606，被配置为根据控制动作控制交通信号灯的状态。

下面结合图7描述本公开交通信号灯的控制装置的另一些实施例。

图7示出了本公开交通信号灯的控制装置的另一些实施例的结构示意图。如图7所示，该实施例的交通信号灯的控制装置70包括：存储器710以及耦接至该存储器710的处理器720，处理器720被配置为基于存储在存储器710中的指令，执行前述任意一些实施例中的交通信号灯的控制方法。

其中，存储器710例如可以包括系统存储器、固定非易失性存储介质等。系统存储器例如存储有操作系统、应用程序、引导装载程序(Boot Loader)以及其他程序等。

交通信号灯的控制装置70还可以包括输入输出接口730、网络接口740、存储接口750等。这些接口730、740、750以及存储器710和处理器720之间例如可以通过总线760连接。其中，输入输出接口730为显示器、鼠标、键盘、触摸屏等输入输出设备提供连接接口。网络接口740为各种联网设备提供连接接口。存储接口750为SD卡、U盘等外置存储设备提供连接接口。

本公开还包括一种计算机可读存储介质，其上存储有计算机指令，该指令被处理器执行时实现前述任意一些实施例中的交通信号灯的控制方法。

本领域内的技术人员应明白，本公开的实施例可提供为方法、系统、或计算机程序产品。因此，本公开可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本公开可采用在一个或多个其中包含有计算机可用程序代码的计算机可用非瞬时性存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本公开是参照根据本公开实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

以上所述仅为本公开的较佳实施例，并不用以限制本公开，凡在本公开的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本公开的保护范围之内。

Claims

1.一种交通信号灯的控制方法，包括：

采集路口的交通状态信息；

利用行动者Actor网络对所述交通状态信息进行处理，得到所述路口的交通信号灯的控制动作；其中，所述Actor网络是利用行动者-评论家Actor-Critic算法训练得到的，所述控制动作包括保持或切换所述交通信号灯的状态；

根据所述控制动作控制所述交通信号灯的状态；

所述控制方法还包括对所述Actor网络进行训练，包括：

初始化Actor网络的网络参数；

利用Actor网络对上一周期的样本交通状态信息进行处理，得到所述交通信号灯基于上一周期的状态的控制动作；

根据所述交通信号灯基于上一周期的控制动作，确定所述交通信号灯在下一周期的状态；

根据上一周期所述路口的最大排队长度及下一周期所述路口的最大排队长度，确定所述交通信号灯基于上一周期的控制动作的贡献值；

利用Critic网络对上一周期的样本交通状态信息进行处理，并根据处理结果及所述贡献值更新Actor网络的网络参数。

2.如权利要求1所述的控制方法，还包括：

检测所述交通信号灯保持当前状态的时长；

在所述交通信号灯保持当前状态的时长未超过预设最小时长的情况下，保持所述交通信号灯的当前状态；

在所述交通信号灯保持当前状态的时长超过预设最小时长且未超过预设最大时长的情况下，重新执行权利要求1中的步骤；

在所述交通信号灯保持当前状态的时长超过预设最大时长的情况下，切换所述交通信号灯的状态。

3.如权利要求1或2所述的控制方法，其中，所述切换所述交通信号灯的状态包括：

按照预设的状态切换顺序，将所述交通信号灯从当前状态切换至下一状态。

4.如权利要求1所述的控制方法，其中，所述交通状态信息包括：所述交通信号灯的状态、所述交通信号灯保持当前状态的时长以及所述路口在各个方向上的最大排队长度。

5.如权利要求1所述的控制方法，其中，所述Actor网络与所述Critic网络共享部分全连接层。

6.如权利要求1所述的控制方法，其中，所述利用Critic网络对上一周期的样本交通状态信息进行处理，并根据处理结果及所述贡献值更新Actor网络的网络参数包括：

在Critic网络资源池中选择业务负载最小的处理器及相应的Critic网络；

将上一周期的样本交通状态信息发送至所述业务负载最小的处理器及相应的Critic网络，以便对上一周期的样本交通状态信息进行处理，并根据处理结果及所述贡献值异步更新Actor网络的网络参数。

7.一种交通信号灯的控制装置，包括：

信息采集模块，被配置为采集路口的交通状态信息；

信息处理模块，被配置为利用Actor网络对所述交通状态信息进行处理，得到所述路口的交通信号灯的控制动作；其中，所述Actor网络是利用Actor-Critic算法训练得到的，所述控制动作包括保持或切换所述交通信号灯的状态；还被配置为所述Actor网络进行训练，其中初始化Actor网络的网络参数，利用Actor网络对上一周期的样本交通状态信息进行处理，得到所述交通信号灯基于上一周期的状态的控制动作，根据所述交通信号灯基于上一周期的控制动作，确定所述交通信号灯在下一周期的状态，根据上一周期所述路口的最大排队长度及下一周期所述路口的最大排队长度，确定所述交通信号灯基于上一周期的控制动作的贡献值，利用Critic网络对上一周期的样本交通状态信息进行处理，并根据处理结果及所述贡献值更新Actor网络的网络参数；

状态控制模块，被配置为根据所述控制动作控制所述交通信号灯的状态。

8.一种交通信号灯的控制装置，包括：

存储器；以及

耦接至所述存储器的处理器，所述处理器被配置为基于存储在所述存储器中的指令，执行如权利要求1至6中任一项所述的交通信号灯的控制方法。

9.一种计算机可读存储介质，其中，所述计算机可读存储介质存储有计算机指令，所述指令被处理器执行时实现如权利要求1至6中任一项所述的交通信号灯的控制方法。