CN114822037B

CN114822037B - 交通信号的控制方法和装置、存储介质及电子装置

Info

Publication number: CN114822037B
Application number: CN202210618570.1A
Authority: CN
Inventors: 刘丽娜; 程兴硕; 王泽�
Original assignee: Zhejiang Dahua Technology Co Ltd
Current assignee: Zhejiang Dahua Technology Co Ltd
Priority date: 2022-06-01
Filing date: 2022-06-01
Publication date: 2023-09-08
Anticipated expiration: 2042-06-01
Also published as: CN114822037A

Abstract

本申请公开了一种交通信号的控制方法和装置、存储介质及电子装置，其中，上述方法包括：确定目标路口在当前时间周期的第一时间段内的交通流状态参数，得到当前参数值，其中，目标路口的目标信号灯在第一时间段内所采用的信号配时参数为第一信号配时参数；根据预设的交通流状态参数的参数值和信号控制动作之间的对应关系，确定与当前参数值对应的目标信号控制动作；使用目标信号控制动作对第一信号配时参数执行调整操作，得到第二信号配时参数，其中，第二信号配时参数是在当前时间周期的下一个时间周期的第二时间段内，目标信号灯所采用的信号配时参数，第一时间段在当前时间周期中的位置与第二时间段在下一个时间周期中的位置相同。

Description

交通信号的控制方法和装置、存储介质及电子装置

技术领域

本申请涉及信号控制领域，具体而言，涉及一种交通信号的控制方法和装置、存储介质及电子装置。

背景技术

随着城市汽车数量的迅速增长，城市交通拥堵问题日渐严重，为了缓解交通拥堵问题，可以采用交通信号控制方法控制不同信号灯的时长，以优化不同方向车辆的通行时间，避免某一方向车辆由于长时间等待导致出现车辆拥堵的情况。目前，通常采用分时段定时的交通信号控制方法：利用历史交通流量数据计算信号周期时长、相位时长和绿信比等参数，生成信号配时方案并存储到信号控制机中，对不同的时段采用不同的周期方案。

然而，由于真实的交通场景会经常变化，根据历史流量生成的配时方案很难适应动态的交通场景。由此可见，相关技术中的交通信号的控制方法，存在由于无法适应动态的交通场景导致的交通信号配时的运行效率低的问题。

发明内容

本申请实施例提供了一种交通信号的控制方法和装置、存储介质及电子装置，以至少解决相关技术中的交通信号的控制方法存在由于无法适应动态的交通场景导致的交通信号配时的运行效率低的问题。

根据本申请实施例的一个方面，提供了一种交通信号的控制方法，包括：确定目标路口在当前时间周期的第一时间段内的交通流状态参数，得到当前参数值，其中，所述目标路口的目标信号灯在所述第一时间段内所采用的信号配时参数为第一信号配时参数；根据预设的所述交通流状态参数的参数值和信号控制动作之间的对应关系，确定与所述当前参数值对应的目标信号控制动作；使用所述目标信号控制动作对所述第一信号配时参数执行调整操作，得到第二信号配时参数，其中，所述第二信号配时参数是在所述当前时间周期的下一个时间周期的第二时间段内，所述目标信号灯所采用的信号配时参数，所述第一时间段在所述当前时间周期中的位置与所述第二时间段在所述下一个时间周期中的位置相同。

根据本申请实施例的另一方面，还提供了一种交通信号的控制装置，包括：第一确定单元，用于确定目标路口在当前时间周期的第一时间段内的交通流状态参数，得到当前参数值，其中，所述目标路口的目标信号灯在所述第一时间段内所采用的信号配时参数为第一信号配时参数；第二确定单元，用于根据预设的所述交通流状态参数的参数值和信号控制动作之间的对应关系，确定与所述当前参数值对应的目标信号控制动作；执行单元，用于使用所述目标信号控制动作对所述第一信号配时参数执行调整操作，得到第二信号配时参数，其中，所述第二信号配时参数是在所述当前时间周期的下一个时间周期的第二时间段内，所述目标信号灯所采用的信号配时参数，所述第一时间段在所述当前时间周期中的位置与所述第二时间段在所述下一个时间周期中的位置相同。

在一个示例性实施例中，所述第二确定单元包括：查找模块，用于使用所述当前参数值查找预设的目标状态动作列表，得到与所述当前参数值对应的所述目标信号控制动作，其中，所述目标状态动作列表用于记录在所述交通流状态参数的一组参数值中的每个参数值下，执行一组信号控制动作中的每个信号控制动作所获取到的期望回报值，所述目标信号控制动作为在所述当前参数值下，所述一组信号控制动作中对应的期望回报值最大的信号控制动作。

在一个示例性实施例中，所述装置还包括：获取单元，用于获取历史参数值序列，其中，所述历史参数值序列包含所述目标路口在一组历史时间段的历史参数值，所述一组历史时间段中的每个历史时间段的历史参数值为在所述每个历史时间段内所述交通流状态参数的参数值，所述一组历史时间段与所述当前时间周期之前的一组连续的历史时间周期一一对应，所述一组历史时间段中的每个历史时间段在对应的历史时间周期中的位置与所述第一时间段在所述当前时间周期中的位置相同；第三确定单元，用于根据所述每个历史时间段的信号配时参数，确定对所述每个历史时间段的信号配时参数所执行的信号控制动作，得到与所述每个历史时间段对应的历史信号控制动作，其中，所述每个历史时间段的信号配时参数为所述目标信号灯在所述每个历史时间段内所采用的信号配时参数；第四确定单元，用于根据所述每个历史时间段的历史参数值，确定与所述每个历史时间段对应的累计回报值，其中，所述累计回报值是对与所述每个历史时间段的信号配时参数执行与所述每个历史时间段对应的历史信号控制动作之后，在所述每个历史时间段之后的预设数量的历史时间段内所累计的回报值；更新单元，用于使用所述每个历史时间段的历史参数值、与所述每个历史时间段对应的历史信号控制动作以及与所述每个历史时间段对应的累计回报值对初始状态动作列表进行更新，得到所述目标状态动作列表。

在一个示例性实施例中，所述第四确定单元包括：第一确定模块，用于根据所述每个历史时间段的历史参数值、以及所述每个历史时间段的前一个历史时间段的历史参数值，确定与所述每个历史时间段对应的回报值；执行模块，用于对与所述每个历史时间段之后的预设数量的历史时间段对应的回报值执行加权累加操作，得到与所述每个历史时间段对应的累计回报值。

在一个示例性实施例中，所述目标路口包括多个目标相位；所述第一确定模块包括：第一确定子模块，用于根据所述每个历史时间段的历史参数值，确定所述多个目标相位中的每个目标相位与每个历史时间段对应的相位时延，得到所述每个目标相位的第一相位时延；第二确定子模块，用于根据所述每个历史时间段的前一个历史时间段的历史参数值，确定所述每个目标相位与所述每个历史时间段的前一个历史时间段对应的相位时延，得到所述每个目标相位的第二相位时延；第三确定子模块，用于将所述每个目标相位的第一相位时延的平方和与所述每个目标相位的第二相位时延的平方和之间的差值，确定为与所述每个历史时间段对应的回报值。

在一个示例性实施例中，所述目标路口包括多个目标相位；所述第一确定单元包括以下至少之一：第二确定模块，用于确定所述多个目标相位中的每个目标相位在所述第一时间段内的交通流量，得到所述每个目标相位的当前交通流量；第三确定模块，用于确定所述每个目标相位在所述第一时间段内的绿灯利用率，得到所述每个目标相位的当前绿灯利用率；第四确定模块，用于确定所述每个目标相位在所述第一时间段内的绿灯时长，得到所述每个目标相位的当前绿灯时长。

在一个示例性实施例中，所述第二确定模块包括：第四确定子模块，用于确定所述每个目标相位允许通行的多个目标车道中的每个目标车道在所述第一时间段内的车道流量，得到所述每个目标车道的当前车道流量；第五确定子模块，用于将所述每个目标车道的当前车道流量中的最大车道流量，确定为所述每个目标相位的当前交通流量。

在一个示例性实施例中，所述第三确定模块包括：第六确定子模块，用于确定所述每个目标相位允许通行的多个目标车道中的每个目标车道的车道绿灯时长；第七确定子模块，用于确定所述每个目标车道的车道空放时长，其中，所述每个目标车道的车道空放时长为在所述每个目标车道预设的最小绿灯时长之后，在先后通过所述每个目标车道的车道停车线的两辆车中，前一辆车通过所述车道停车线的时刻与后一辆车通过所述车道停车线的时刻之间的第一参考时长大于第二参考时长的情况下，所述第一参考时长与所述第二参考时长的差值，所述第二参考时长为预设系数、所述两辆车的车头时距以及所述后一辆车的车辆当量之间的乘积；第八确定子模块，用于将所述每个目标车道的车道绿灯时长与所述每个目标车道的车道空放时长的差值、与所述每个目标车道的车道绿灯时长的比值，确定为所述每个目标车道的当前绿灯利用率；第九确定子模块，用于将所述每个目标车道的当前绿灯利用率中的最大绿灯利用率，确定为所述每个目标相位的当前绿灯利用率。

在一个示例性实施例中，所述执行单元包括：第一执行模块，用于在所述目标信号控制动作包含用于调节信号配时周期的周期时长的第一调节动作的情况下，对所述第一信号配时参数中的周期时长参数执行所述第一调节动作，得到所述第二信号配时参数中的周期时长参数；第二执行模块，用于在所述目标信号控制动作包含用于调节所述目标路口的多个目标相位中的任一目标相位的相位绿灯时长的第二调节动作的情况下，对所述第一信号配时参数中所述任一目标相位的相位绿灯时长参数执行所述第二调节动作，得到所述第二信号配时参数中所述任一目标相位的相位绿灯时长参数。

在一个示例性实施例中，所述装置还包括：第一控制单元，用于在所述使用所述目标信号控制动作对所述第一信号配时参数执行调整操作，得到第二信号配时参数之后，在所述第二时间段内，按照所述第二信号配时参数所指示的信号配时周期对所述目标信号灯进行配时控制；第二控制单元，用于在所述第二时间段的最后一个完整的信号配时周期之后的剩余时长小于所述第二信号配时参数所指示的信号配时周期的周期时长的情况下，按照所述第二信号配时参数所指示的信号配时周期继续对所述目标信号灯进行一次信号配时控制；第三控制单元，用于按照第三信号配时参数所指示的信号配时周期对所述目标信号灯进行配时控制，其中，所述第三信号配时参数是与所述第二时间段的下一个时间段对应的信号配时参数。

根据本申请实施例的又一方面，还提供了一种计算机可读的存储介质，该计算机可读的存储介质中存储有计算机程序，其中，该计算机程序被设置为运行时执行上述交通信号的控制方法。

根据本申请实施例的又一方面，还提供了一种电子装置，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其中，上述处理器通过计算机程序执行上述的交通信号的控制方法。

在本申请实施例中，采用基于一个时间周期的一个时间段的交通流状态参数的参数值和信号配时参数生成下一个时间周期的同一时间段的信号配时参数的方式，确定目标路口在当前时间周期的第一时间段内的交通流状态参数，得到当前参数值，其中，目标路口的目标信号灯在第一时间段内所采用的信号配时参数为第一信号配时参数；根据预设的交通流状态参数的参数值和信号控制动作之间的对应关系，确定与当前参数值对应的目标信号控制动作；使用目标信号控制动作对第一信号配时参数执行调整操作，得到第二信号配时参数，其中，第二信号配时参数是在当前时间周期的下一个时间周期的第二时间段内，目标信号灯所采用的信号配时参数，第一时间段在当前时间周期中的位置与第二时间段在下一个时间周期中的位置相同，由于基于一个时间周期的一个时间段的交通流状态参数的参数值确定对于信号配置方案所执行的信号调节动作(或者说，信号配时调节动作)，基于确定的信号调节动作对该时间段的信号配时方案进行调节，从而生成下一个时间周期的同一时间段的信号配时方案，而基于交通流状态参数动态调节信号配置方案，可以实现适应动态的交通场景的目的，达到提高交通信号配时的运行效率的技术效果，进而解决了相关技术中的交通信号的控制方法存在由于无法适应动态的交通场景导致的交通信号配时的运行效率低的问题。

附图说明

此处的附图被并入说明书中并构成本说明书的一部分，示出了符合本申请的实施例，并与说明书一起用于解释本申请的原理。

为了更清楚地说明本申请实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，对于本领域普通技术人员而言，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1是根据本申请实施例的一种可选的交通信号的控制方法的硬件环境的示意图；

图2是根据本申请实施例的一种可选的交通信号的控制方法的流程示意图；

图3是根据本申请实施例的一种可选的路口车道的示意图；

图4是根据本申请实施例的另一种可选的交通信号的控制方法的流程示意图；

图5是根据本申请实施例的一种可选的交通信号的控制方法的示意图；

图6是根据本申请实施例的又一种可选的交通信号的控制方法的流程示意图；

图7是根据本申请实施例的一种可选的交通信号的控制装置的结构框图；

图8是根据本申请实施例的一种可选的电子装置的结构框图。

具体实施方式

根据本申请实施例的一个方面，提供了一种交通信号的控制方法。可选地，在本实施例中，上述交通信号的控制方法可以应用于如图1所示的由采集设备102和服务器104所构成的硬件环境中。如图1所示，服务器104通过网络与采集设备102进行连接，可用于为终端或终端上安装的客户端提供服务(如应用服务等)，可在服务器上或独立于服务器设置数据库，用于为服务器104提供数据存储服务。

上述网络可以包括但不限于以下至少之一：有线网络，无线网络。上述有线网络可以包括但不限于以下至少之一：广域网，城域网，局域网，上述无线网络可以包括但不限于以下至少之一：WIFI(Wireless Fidelity，无线保真)，蓝牙。采集设备102可以并不限定于为摄像头、红外传感器等具备图像采集功能的设备。

本申请实施例的交通信号的控制方法可以由服务器104来执行，也可以由采集设备102来执行，还可以是由服务器104和采集设备102共同执行。其中，采集设备102执行本申请实施例的交通信号的控制方法也可以是由安装在其上的客户端来执行。

以由服务器104来执行本实施例中的交通信号的控制方法为例，图2是根据本申请实施例的一种可选的交通信号的控制方法的流程示意图，如图2所示，该方法的流程可以包括以下步骤：

步骤S202，确定目标路口在当前时间周期的第一时间段内的交通流状态参数，得到当前参数值，其中，目标路口的目标信号灯在第一时间段内所采用的信号配时参数为第一信号配时参数。

本实施例中的交通信号的控制方法可以应用于对动态调整交通路口的交通信号灯的信号配时方案进行控制的场景。这里的交通信号灯可以是设置在交通路口的、用于按照预先设置的信号配时方案对交通路口的交通流的运行进行控制的信号灯。这里的交通信号灯可以是分时段控制的信号灯，这里的时段是将一个时间周期按照预设时长所划分的多个时间段，一个时间周期可以是一天、一周、一个月等，本实施例中以天为时间周期进行解释说明。

相关技术中，可以利用历史交通流量数据计算信号周期时长、相位时长和绿信比等参数，生成信号配时方案并存储到信号控制机中，对不同的时段可以采用不同的周期方案。上述交通信号灯的控制方式对于交通流运行稳定的场景中效果良好，但是，实际的交通场景会经常变化，根据历史流量生成的信号配时方案很难适应动态的交通场景。

为了避免出现交通拥堵的问题，还可以采用一种基于深度Q学习(一种强化学习算法)的交通信号控制方法，基于标准汽车和标准运行状态构建的规则的交通流场景，车辆转向概率也是指定的，并且在交通系统仿真软件的仿真环境中进行检验，这种基于多个理想假设条件的模型训练，所计算出的信号配时方案忽视了路网的随机性，很难验证对于复杂的真实交通流场景的控制效果，无法适应城市道路交通情况，导致车辆通行效率低，延误时间长的问题。

为了克服上述技术问题中的至少部分，基于一个时间周期的一个时间段的交通流状态参数的参数值和信号配时参数生成下一个时间周期的同一时间段的信号配时参数，可以基于一个时间周期的某一时段的交通流状态动态调节下一个时间周期的同一时段的信号配时参数，可以适应动态的交通场景，提高车辆的通信效率，降低车辆延误时间。

在本实施例中，对于目标路口，该目标路口可以为待优化路口Cross_A，其可以是交通流不稳定的十字、丁字等交叉路口，可以包含多个车道，例如，如图3所示的十字交叉路口，图3中的1、2、3、4用于标识不同的车道。为了对分时段信号控制方案进行优化，服务器可以获取目标路口在当前时间周期的第一时间段内的交通流状态参数，得到当前参数值。这里，当前时间周期可以是当前的预设时间周期，预设时间周期可以是预设的、分时段信号控制的时间周期，其可以为一天；第一时间段可以是预设时间周期按照预设时长所划分成的多个时段中的任一个时段。

例如，可以以1个小时或者2个小时为一个时段，将一天的时间划分成多个时段，例如，0点到1点为1个时段，1点到2点为一个时段，2点到3点为一个时段等等，又例如，0点到2点为1个时段，2点到4点为一个时段，4点到6点为一个时段等等。

这里，目标路口的交通信号灯为目标信号灯，其可以是道路交通信号灯，例如，其可以是由道路交通信号控制机控制的LED等灯，可以包括红灯、绿灯、黄灯。目标信号灯在第一时间段内所采用的信号配置参数为第一信号配时参数，第一信号配时参数可以是在第一时间段内，目标信号灯所采用的信号配时参数。

可选地，信号配时参数可以是在一个时间周期中的不同时间段内，目标信号灯中的多个灯各自的持续时间和循环周期等。可选地，信号配时参数可以是各个时段基础方案的周期时长、环信息(阶段信息)、栅栏信息、相位相序、绿信比、最小绿灯时间、黄灯时间、全红时间等；路口的进口道信息、车道信息、车道(车道组)与相位的对应关系。

交通流状态参数可以是用于标识交通流状态的参数，交通流状态参数可以包括但不限于以下至少之一的参数：时段交通流量，绿灯利用率，相位绿灯时长等。交通流状态参数可以是利用部署在路口的电警(智能交通中的电子警察)、卡口设备对通过停止线的车辆的数据进行采集得到的，数据覆盖面广、准确度高，应用广泛。可选地，当出现设备缺失、设备异常导致数据异常时，可以通过校验机制进行降级处理，例如，数据补充等。

在信号控制交叉口，其每一种控制状态(即，对各种进口道不同方向所显示的不同灯色的组合)，可以称为一个交通信号灯相位，即，相位。目标路口可以对应于多个目标相位。确定目标路口在第一时间段内的交通流状态参数可以是：确定目标路口的多个目标相位中的每个目标相位在第一时间段内的交通流状态参数，得到每个目标相位的当前参数值，目标路口的当前参数值可以包括每个目标相位的当前参数值。

在相位时间内，目标路口的多个车道中可以有一组车道的车流同时放行。每个目标相位在第一时间段内的交通流状态参数可以是根据与每个目标相位对应的一组目标车道中的每个目标车道在第一时间段内的交通流状态参数确定的，例如，目标相位的当前参数值可以是每个目标车道在第一时间段内的交通流状态参数的参数值中的最大值。

例如，在相位时间内，m个车道的车流同时放行，用这m个方向的流量Q_m的最大值作为相位流量Q_i。

可选地，在交通流状态参数包括时段交通流量的情况下，确定目标路口在当前时间周期的第一时间段内的交通流状态参数可以包括：确定目标路口在当前时间周期的第一时间段内的时段交通流量。在确定时段交通流量时，可以确定每个目标相位在第一时间段内的时段交通流量，得到每个目标相位的当前时段交通流量(或者说，当前流量值)。而在确定每个目标相位在第一时间段内的时段交通流量时，可以确定每个目标相位对应的一组目标车道中的每个目标车道在第一时间段内的时段交通流量，得到每个目标车道的当前时段交通流量；将每个目标车道的当前时段交通流量的最大值，确定为每个目标相位的当前时段交通流量，当目标路口的当前参数值可以包括每个目标相位的当前时段交通流量。

在确定任一目标车道的时段交通流量时，可以确定目标车道在第一时间段的多个时间片内的交通流量；根据目标车道在多个时间片内的交通流量，确定目标车道的时段交通流量，基本数量单位为辆，多个时间片的时长相同。在多个时间片的时长和等于第一时间段的时长的情况下，可以将多个时间片内的交通流量和，确定为目标车道的时段交通流量；在多个时间片的时长和小于第一时间段的时长的情况下，可以将第一时间段的时长与一个时间片的时长的商、与多个时间片内的交通流量的平均值的乘积，确定为目标车道的时段交通流量。

例如，第一时间段的时长为1个小时，每个时间片的时长为15分钟。在计算时段交通流量时，对于电警、卡口设备检测到的车道过车，可以根据规则筛选重复过车记录，按15分钟颗粒度(即，时间片)进行聚合，统计15分钟流量Q_l并剔除异常值，然后根据规则判断各类数据问题，包括设备缺失/离线、设备数据异常不可用等，从而得到每个时间片上的车道流量。连续四个时间片的车道流量取和，可以得到小时流量数值。如果时间片不足4个，则可以取各个车道的车道流量的平均值avg(Flow)*4，作为车道小时流量。车道小时流量最大值可以作为当前时段该相位的代表流量。

在交通流状态参数包括绿灯利用率的情况下，确定目标路口在当前时间周期的第一时间段内的交通流状态参数可以包括：确定目标路口在当前时间周期的第一时间段内的绿灯利用率，得到当前绿灯利用率。在确定绿灯利用率时，可以确定每个目标相位在第一时间段内的绿灯利用率，得到每个目标相位的当前绿灯利用率。而在确定每个目标相位的绿灯利用率时，可以确定每个目标相位对应的一组目标车道中的每个目标车道在第一时间段内的绿灯利用率，得到每个目标车道的当前绿灯利用率；将每个目标车道的当前绿灯利用率的最大值，确定为每个目标相位的当前绿灯利用率，目标相位的当前参数值可以包括每个目标相位的当前绿灯利用率。

在确定任一目标车道的绿灯利用率时，可以确定目标车道在第一时间段的绿灯有效利用时长以及目标车道在第一时间段的绿灯时长，或者，目标车道在目标车道所对应的相位时间内的绿灯有效利用时长以及在目标车道所对应的相位时间内的绿灯时长，得到车道绿灯有效利用时长和车道绿灯时长；将车道绿灯有效利用时长与车道绿灯时长的比值，确定为目标车道的绿灯有效利用率。

例如，在计算绿灯利用率时，可以根据信号灯实时状态和过车数据统计车道在绿灯状态下的绿灯有效利用时长。在得到车道的绿灯有效利用时长之后，车道绿灯有效利用率为绿灯有效利用时长/绿灯时长，相位的绿灯利用率是相位对应车道的绿灯利用率中的最大值。时段内最大相位绿灯利用率代表当前时段该相位绿灯利用率l_i。

可选地，交通流状态参数还可以包括信号周期时长(C，即，信号配置周期的周期时长)，其可以是多个目标相位完成一轮切换所需的时长；每个目标相位的相位绿灯时长，还可以包括其他用于表示交通流状态的参数，本实施例中对于交通流状态参数的参数类型不做限定。

例如，在四相位十字交叉口中，可以用二维路段属性流量Q_i(即，四个相位的时段交通流量)、绿灯利用率l_i(即，四个相位的绿灯利用率)和二维信号机状态属性周期时长C(即，信号周期时长)、相位绿灯时长g_i(即，四个相位的相位绿灯时长)表示时段的代表交通状态参数(即，交通流状态参数)，i的取值可以为1、2、3、4。路口的交通流状态参数(可以认为是状态空间)可以表示为S(l，Q，C，g)。则对于一个四相位的十字交叉口，t时段的交通流状态参数可以表示为以下形式：s_t(l_t，1，l_t，2，l_t，3，l_t，4，Q_t，1，Q_t，2，Q_t，3，Q_t，4，C，g_t，1，g_t，2，g_t，3，g_t，4)。上述二维路段属性分别为：时段交通流量和绿灯利用率。

步骤S204，根据预设的交通流状态参数的参数值和信号控制动作之间的对应关系，确定与当前参数值对应的目标信号控制动作。

为了优化分时段信号控制方案，可以预先设定交通流状态参数的参数值和信号控制动作之间的对应关系，其可以是根据经验值设定的，也可以是基于历史交通流状态参数确定的，交通流状态参数和信号控制动作之间的对应关系可以采用列表的方式进行存储，还可以采用其他方式进行存储，本实施例中对于交通流状态参数和信号控制动作之间的对应关系的设定方式和存储方式不做限定。

预设的交通流状态参数的参数值和信号控制动作之间的对应关系可以是对交通流状态参数不同的参数值预设与其对应的信号控制动作，还可以是对交通流状态参不同的参数值执行不同信号控制动作所得到的回报值，其可以表示在各个交通流状态参数下选择执行各个信号控制动作的概率(或者说，置信度)。交通流状态参数的数量可以为一个或多个，在交通流状态参数的为多个时，当前参数值可以是多个参数值的组合。

按照当前参数值查找交通流状态参数和信号控制动作之间的对应关系，得到与当前参数值匹配的信号控制动作，从而得到目标信号控制动作。这里，在交通流状态参数的参数值和信号控制动作之间是一一对应关系时，匹配到的信号控制动作即为目标信号控制动作；而在交通流状态参数的参数值和信号控制动作之间是一对多个的关系时，可以将当前参数值对应的多个信号控制动作中，对应地回报值最大的信号控制动作，确定为目标信号控制动作。

这里，信号控制动作可以是调节信号配时参数的参数，可以包括但不限于以下至少之一的操作：调节信号周期时长的操作，调节一个或多个目标相位的相位绿灯时长的操作。

步骤S206，使用目标信号控制动作对第一信号配时参数执行调整操作，得到第二信号配时参数，其中，第二信号配时参数是在当前时间周期的下一个时间周期的第二时间段内，目标信号灯所采用的信号配时参数，第一时间段在当前时间周期中的位置与第二时间段在下一个时间周期中的位置相同。

在得到目标信号控制动作之后，可以使用目标信号控制动作对第一信号配时参数执行调整操作，例如，调节第一信号配时参数中的信号周期时长、调节第一信号配时参数中的一个或多个目标相位的相位绿灯时长等，从而得到调整后的信号配时参数，即，第二信号配时参数。第二信号配时参数可以作为在第二时间段内目标信号灯所采用的信号配时参数。第二信号配时参数的参数类型可以与前述第一信号配时参数的参数类型相同，在此不在赘述。

第二时间段是当前时间周期的下一个时间周期内的时间段，其在下一个时间周期中的位置与第一时间段在当前时间周期中的位置相同，即，两者是属于不同时间周期的同一时段。例如，第一时间段是某一天的12:00至1:00，则第二时间段可以是下一天的12:00至1:00。

对于当前时间周期中的每个时间段，可以分别采用与前述类似的方式确定与下一个时间周期中的每个时间段匹配的信号配时参数，并采用与下一个时间周期中的每个时间段匹配的信号配时参数进行目标信号灯的控制，已经进行过说明的，在此不做赘述。

需要说明的是，上述服务器可以是信号控制系统的服务器，本实施例中的信号控制系统可以形成方案下发、运行效果反馈、控制方案调整和新方案下发的闭环，能够根据交通流运行状态和信号控制方案的相互协调，而不只是依靠于根据历史数据生成的背景方案，提高信号配时的运行效率。

通过上述步骤，确定目标路口在当前时间周期的第一时间段内的交通流状态参数，得到当前参数值，其中，目标路口的目标信号灯在第一时间段内所采用的信号配时参数为第一信号配时参数；根据预设的交通流状态参数的参数值和信号控制动作之间的对应关系，确定与当前参数值对应的目标信号控制动作；使用目标信号控制动作对第一信号配时参数执行调整操作，得到第二信号配时参数，其中，第二信号配时参数是在当前时间周期的下一个时间周期的第二时间段内，目标信号灯所采用的信号配时参数，第一时间段在当前时间周期中的位置与第二时间段在下一个时间周期中的位置相同，解决了相关技术中的交通信号的控制方法存在由于无法适应动态的交通场景导致的交通信号配时的运行效率低的问题，提高了交通信号配时的运行效率。

在一个示例性实施例中，根据预设的交通流状态参数的参数值和信号控制动作之间的对应关系，确定与当前参数值对应的目标信号控制动作，包括：

S11，使用当前参数值查找预设的目标状态动作列表，得到与当前参数值对应的目标信号控制动作，其中，目标状态动作列表用于记录在交通流状态参数的一组参数值中的每个参数值下，执行一组信号控制动作中的每个信号控制动作所获取到的期望回报值，目标信号控制动作为在当前参数值下，一组信号控制动作中对应的期望回报值最大的信号控制动作。

在本实施例中，交通流状态参数的参数值和信号控制动作之间的对应关系可以是通过目标状态动作列表进行记录的，目标状态动作列表可以用于记录在交通流状态参数的一组参数值中的每个参数值下，执行一组信号控制动作中的每个信号控制动作所获取到的期望回报值。在确定出当前参数值之后，可以使用当前参数值查找目标状态动作列表，例如，可以查找到当前参数值所对应的一组信号控制动作中的每个信号控制动作所对应的期望回报值，并将一组信号控制动作中对应的期望回报值最大的信号控制动作，确定为目标信号控制动作。

上述目标状态动作列表可以是基于Q学习(Q-Learning)模型所构建的Q值表。Q-Learning是强化学习算法中value-based(基于值)的算法，Q即为Q(s,a)，就是在某一个时刻的状态(state)下，采取动作a能够获得收益的期望。环境会根据Agent(代理)的动作反馈相应的奖赏(reward，即，回报)，该算法是将state和action构建成一张Q_table表来存储Q值，可以根据Q值来选取能够获得最大收益的动作。

可选地，本实施例中提供了一种基于Q学习的分时段信号控制的优化方案，可以将路口信号控制转换为一个Agent与交叉口运行状态交互的强化学习问题。基于日配时方案中各个时段的信号控制方案，以时段作为离散的时间步长，利用Q学习的决策能力，使得时段方案运行时Agent在观测到交通流运行状态后选择出下一日对应时段可能的最优控制策略并执行，并根据回报函数来更新下一日的状态，最终得到基于反馈机制的分时段信号配时方案，Q学习所得到的Q值表可以为上述目标状态动作列表。

对于目标状态动作列表，其可以用于指示状态空间中的状态和动作空间中的动作与期望回报值之间的对应关系。这里的状态空间可以是交通状态空间，交通状态空间中的交通状态可以选择交通流量(可以是利用电警、卡口检测到的)、绿灯利用率(可以是利用电警、卡口检测到的)以及信号配时方案中的周期时长、绿信比中的全部或者部分，而动作空间中的动作可以为相位绿灯时间(相位绿灯时长)的增减、周期长度的增减等动作。

例如，路口的状态空间可以表示为S(l，Q，C，g)，对于一个四相位的十字交叉口，t时段的状态空间为s_t(l_t，1，l_t，2，l_t，3，l_t，4，Q_t，1，Q_t，2，Q_t，3，Q_t，4，C，g_t，1，g_t，2，g_t，3，g_t，4)。对于动作空间，为了达到减小延误的目标，可以采用以下两个方式：优化相位绿灯时间，优化信号周期长度(即，信号配置周期的周期长度)。动作空间的动作用增加或者减少每个目标相位绿灯时间来表示，这里的控制单位取2秒。周期时长C固定时，第i个相位的绿灯时间由信号周期长度C和其他3个相位的绿灯时长决定。第i个相位的相位绿灯时长由信号周期长度C和其他3个相位的相位绿灯时长决定，第i个相位的相位绿灯时长的计算公式可以如公式(1)所示：

g_i＝C-∑A-(g₁+g₂+g₃) (1)

其中，∑A表示黄灯和全红时间，为了保证信号等控制的合理性，可以设置最大绿灯时长为60s，最小绿灯时长为15s。

假设最大波动三个控制单位，动作空间A(s)可以包括231个动作。示例性地，第i个相位的绿灯时间动作为+2秒时，为保证周期时长C固定，则其余三个相位总时长变化为-2秒，可选的动作为三个控制单位内变化，因此，动作可以为(相位1，相位2，相位3，相位4)＝(+2，+2，-2，-2)，(+2，0，0，0)等。所有可能的动作组合就是动作空间，共231个动作。

此外，当周期时长C可调节时，一个周期时长中各个相位的绿灯时间均可以独立地增加、减少一个控制单位或者保持不变，动作空间A(s)可以包括个动作。

按照上述状态空间和动作空间进行Q学习模型构建，可以得到Q值表，即为上述目标状态动作表。

通过本实施例，通过使用当前参数值查找预设的状态动作列表，从而得到与当前参数值对应的信号控制动作，可以提高信号控制动作确定的便捷性，提高信号控制的效率。

在一个示例性实施例中，上述方法还包括：

S21，获取历史参数值序列，其中，历史参数值序列包含目标路口在一组历史时间段的历史参数值，一组历史时间段中的每个历史时间段的历史参数值为在每个历史时间段内交通流状态参数的参数值，一组历史时间段与当前时间周期之前的一组连续的历史时间周期一一对应，一组历史时间段中的每个历史时间段在对应的历史时间周期中的位置与第一时间段在当前时间周期中的位置相同；

S22，根据每个历史时间段的信号配时参数，确定对每个历史时间段的信号配时参数所执行的信号控制动作，得到与每个历史时间段对应的历史信号控制动作，其中，每个历史时间段的信号配时参数为目标信号灯在每个历史时间段内所采用的信号配时参数；

S23，根据每个历史时间段的历史参数值，确定与每个历史时间段对应的累计回报值，其中，累计回报值是对与每个历史时间段的信号配时参数执行与每个历史时间段对应的历史信号控制动作之后，在每个历史时间段之后的预设数量的历史时间段内所累计的回报值；

S24，使用每个历史时间段的历史参数值、与每个历史时间段对应的历史信号控制动作以及与每个历史时间段对应的累计回报值对初始状态动作列表进行更新，得到目标状态动作列表。

为了得到目标状态动作表，可以是使用历史参数值序列对初始状态动作列表进行训练，得到目标状态动作列表，这里的历史参数值序列可以包含目标路口在一组历史时间段的历史参数值，而每个历史时间段的历史参数值为在每个历史时间段内交通流状态参数的参数值，一组历史时间段与当前时间周期之前的一组连续的历史时间周期一一对应，每个历史时间段在对应的历史时间周期中的位置与第一时间段在当前时间周期中的位置相同。

例如，第一时间段是12点至1点的时间段，可以获取过去半年内，每天的12点至1点的这个时间段内，待优化路口的交通流状态参数的参数值，从而得到上述历史参数值序列。

根据每个历史时间段的信号配时参数，可以确定对每个历史时间段的信号配时参数所执行的信号控制动作，得到与每个历史时间段对应的历史信号控制动作，这里，每个历史时间段的信号配时参数为目标信号灯在每个历史时间段内所采用的信号配时参数。例如，对于一个历史时间段，可以根据与后一个历史时间段的信号配时参数，确定对当前历史时间段的信号配时参数所执行的信号控制动作，从而得到与每个历史时间段对应的信号控制动作。

对于每个历史时间段，可以根据每个历史时间段的历史参数值，确定与每个历史时间段对应的期望回报值。为了确定当日执行信号控制动作(例如，信号周期和绿灯时长调节动作)之后，对于以后各天同一时段的交通运行状态的影响，可以通过反馈学习机制，希望尽可能少的累计消极回报，可以使用期望回报函数来量化累计消极回报值。对于信号控制系统来说，未来的延误是不确定的，可以采用期望值来表示累计消极回报值。对应地，每个历史时间段对应的期望回报值可以为与每个历史时间段对应的累计回报值，累计回报值可以是对与每个历史时间段的信号配时参数执行与每个历史时间段对应的历史信号控制动作之后，在每个历史时间段之后的预设数量的历史时间段内所累计的回报值。

示例性地，对于按日时段方案进行信号反馈优化，累计回报考虑信号方案下发后一个月的影响。累计期望回报值R_t可以如公式(2)所示：

其中，γ表示折扣系数，用于计算累计回报，体现了未来的回报值在当前时刻的价值比例，其取值范围为[0,1]，γ越接近于0则表明趋向于近期的回报，γ越接近于1则表明更偏重考虑远期的利益。对于信号优化的反馈，更加看重的是新方案下发之后最近的几个天内的效果，因此在实施过程中γ可以取0.99(也可以为其他值)。

在得到每个历史时间段的历史参数值、与每个历史时间段对应的历史信号控制动作以及与每个历史时间段对应的累计回报值之后，可以使用每个历史时间段的历史参数值、与每个历史时间段对应的历史信号控制动作以及与每个历史时间段对应的累计回报值对初始状态动作列表进行更新，这里的更新过程与Q值函数更新的过程类似，在此不做赘述。对初始状态动作列表进行更新所得到的状态动作列表为目标状态动作列表。

示例性地，以状态动作列表为Q值表为例，在将Q学习应用于交叉口单点信号控制时，为了构建Q学习模型，交叉口的路口渠化是环境，信号控制机为Agent，构造环境状态空间和动作空间(与前述实施例中类似)，设置回报函数、Q值表更新的运算和收敛判定。这里，Q值表更新的运算可以如公式(3)-(4)所示，即，可以使用公式(3)-(4)更新(s，a)的Q值函数：

Q_t+1(s_t，a_t)＝Q_t(s_t，a_t)+α[r_t+1+γmin_at+1Q_t(s_t+1，a_t+1)-Q_t(s_t，a_t)] (3)

Q_t+1(s_t，a_t)＝(1-α)Q_t(s_t，a_t)+α[r_t+1+γmin_at+1Q_t(s_t+1，a_t+1)] (4)

其中，Q_t(s_t，a_t)表示在t时段处于状态s_t下，选取动作a_t的Q值；α表示强化学习中的学习率；r_t表示执行动作a_t之后依据环境变化所得到的奖励值(即，回报值)；γ表示强化学习中的折扣系数；min_at+1Q_t+1(s_t+1，a_t+1)表示在下一日状态s_t+1下选择最优动作a_t+1的Q值。α是学习因子，取值如果太小，就不能充分利用以往的经验值，如果太大，学习就会变得不稳定。这里的值取0.8。

其中，对于动作选择策略π，为了获得最优的期望回报，需要依靠最优的动作选择策略π基于状态进行动作选择。可以使用函数π(S×A→[0，1])表示动作选择策略π，用π(s，a)表示状态s下选择动作a的概率。使用Q值函数表示基于期望回报函数的策略执行好坏程度评价，如公式(5)所示：

Q^π(s，a)＝E_π[R_t|s_t＝s，a_t＝a] (5)

其中，E_π[]表示在策略π的期望值，Q^π(s，a)是状态s下，按照策略π选择动作a后最终获得的期望回报。策略最终的期望回报通过如公式(6)所示的递归形式获取：

使得Q值最大的策略为π*，对应的最优Q值函数为Q*，则Q*可以如公式(7)所示：

通过列表的形式存储所有的(s，a)对应的Q值函数，可以通过查表的方式直接找到对于任意状态s，使得Q值最大的动作可以表示为公式(8)所示的形式

通过查表，可以得到对应的π*，如公式(9)所示：

在确定最佳Q值时，当各个状态对应的最佳Q值Q*(Q*＝min Q(s_t，a_t))值取得后，每一个状态下，采用使该状态的Q*值所对应的a_t就是最优动作。Q值的更新也是Q值的积累过程，所以，当Q值出现增大趋势时，说明当前的Q*(s，a)就是最佳。

基于动作选择策略π，Q值函数更新方式以及最佳Q值的确定方式，可以进行Q学习模型的构建，如图4所示，本示例中的Q学习模型的构建方法的流程可以包括以下步骤：

步骤S402，设置参数值α和γ；

步骤S404，T＝0，初始化Q值Q₀(s₀，a₀)，初始化r₀；

步骤S406，选取状态值s_t；

步骤S408，根据r_t从动作空间选择方案a_t+1；

步骤S410，计算状态值s_t+1；

步骤S412，计算回报值r_t+1；

步骤S414，按照对回报值γ折减；

步骤S416，计算累计回报值Rt；

步骤S418，更新Q函数Q_t+1；

步骤S420，判断Q_t+1是否大于Q_t，如果是，结束，否则，执行步骤S422；

步骤S422，重新获取数据，即，t＝t+1，s_t＝s_t+1，r_t＝r_t+1，并重新执行步骤S406。

对于分时段信号控制方案，通过采集日方案中各个时段对应的交通信号配时方案优化基本参数和路口交通流数据，输入到训练好的Q学习模型中，计算下一日对应时段周期时长和绿信比参数，得到新的全日交通信号控制方案，可以使得现行的分时段信号控制方案和交通运行状态之间相互协调。

通过本实施例，通过使用历史时间段的历史参数值、与历史时间段对应的历史信号控制动作以及与历史时间段对应的累计回报值构建目标状态动作列表，可以提高目标状态动作列表构建的准确性，提高信号灯控制的效率。

在一个示例性实施例中，根据每个历史时间段的历史参数值，确定与每个历史时间段对应的累计回报值，包括：

S31，根据每个历史时间段的历史参数值、以及每个历史时间段的前一个历史时间段的历史参数值，确定与每个历史时间段对应的回报值；

S32，对与每个历史时间段之后的预设数量的历史时间段对应的回报值执行加权累加操作，得到与每个历史时间段对应的累计回报值。

在本实施例中，可以根据每个历史时间段内的历史交通流状态参数、以及每个历史时间段的前一个历史时间段内的历史交通流状态参数，确定与每个历史时间段对应的回报值。可以采用回报函数计算与每个历史时间段对应的回报值，该回报函数的输入可以包括每个历史时间段内的历史交通流状态参数以及每个历史时间段的前一个历史时间段内的历史交通流状态参数，这里，回报函数用于表示当天时段交叉口的运行效果，不直接作用于决策过程。

在得到每个历史时间段对应的回报值之后，可以采用如公式(2)所示的计算累计回报值的方式对确定的每个历史时间段对应的回报值进行加权累加，从而得到与每个历史时间段对应的累计回报值，已经进行过说明的，在此不做赘述。

通过本实施例，通过对回报值进行加权累加，可以提高目标状态动作列表的准确性，提高路口信号控制的效率。

在一个示例性实施例中，目标路口可以包括多个目标相位，可以选用各相位延误平方和的差值来定义回报函数。对应地，根据每个历史时间段的历史参数值、以及每个历史时间段的前一个历史时间段的历史参数值，确定与每个历史时间段对应的回报值，包括：

S41，根据每个历史时间段的历史参数值，确定多个目标相位中的每个目标相位与每个历史时间段对应的相位时延，得到每个目标相位的第一相位时延；

S42，根据每个历史时间段的前一个历史时间段的历史参数值，确定每个目标相位与每个历史时间段的前一个历史时间段对应的相位时延，得到每个目标相位的第二相位时延；

S43，将每个目标相位的第一相位时延的平方和与每个目标相位的第二相位时延的平方和之间的差值，确定为与每个历史时间段对应的回报值。

为了确定与每个历史时间段对应的回报值，可以通过根据每个历史时间段的历史参数值、以及每个历史时间段的前一个历史时间段的历史参数值，来确定每个目标相位与相邻的两个历史时间段对应的相位时延，从而通过计算相位时延的平方和之间的差值来得到回报值。

本实施例中，可以根据每个历史时间段内的历史参数值，确定每个目标相位与每个历史时间段对应的相位时延，以及根据每个历史时间段的前一个历史时间段的历史参数值，确定每个目标相位与每个历史时间段的前一个历史时间段对应的相位时延，得到每个目标相位的第一相位时延和第二相位时延。

交叉口的相位时延可以根据如公式(10)所示的Webster(韦伯斯特)公式计算：

其中，i为第i个相位，表示相位平均延误，/>表示随机平均延误，C为周期时长，单位s，y_i为相位饱和度，其值为λ_i*x，λ_i为绿信比(即，相位绿灯时长)，x为饱和度，而V为交通流率。

可选地，可以将每个目标相位的第一相位时延的平方和与每个目标相位的第二相位时延的平方和之间的差值，确定为与每个历史时间段对应的回报值，例如，可以采用公式(11)计算回报值r_t+1：

其中，表示t+1时段(下一个工作日的相同时段)平均相位延误，/>表示t时段平均相位延误。这里，可以采用消极回报的策略，当时段内累计延误增大，得到的回报值越大r_t+1。

通过本实施例，基于相位平均时延确定回报值，可以提高回报确定的准确性，可以提高信号运行控制的准确性。

在一个示例性实施例中，目标路口包括多个目标相位，例如，十字交叉路口一般包含四个相位。对应地，确定目标路口在当前时间周期的第一时间段内的交通流状态参数，得到当前参数值，包括以下至少之一：

S51，确定多个目标相位中的每个目标相位在第一时间段内的交通流量，得到每个目标相位的当前交通流量；

S52，确定每个目标相位在第一时间段内的绿灯利用率，得到每个目标相位的当前绿灯利用率；

S53，确定每个目标相位在第一时间段内的绿灯时长，得到每个目标相位的当前绿灯时长。

在本实施例中，交通流状态参数可以包括一种或多种，可以包括但不限于以下至少之一：交通流量(即，时段交通流量)，绿灯利用率，绿灯时长，信号周期时长(即，前述信号周期时长C)。相应地，当前参数值可以包括不限于以下至少之一：当前交通流量(其可以是当前交通流量值)，当前绿灯利用率(其可以为绿灯利用率的数值)，绿灯时长(其可以为绿灯时长的数值)，信号周期时长(其可以是周期时长的数值)。

确定目标路口的多个目标相位在当前时间周期的第一时间段内的交通流状态参数可以包括：确定目标路口对应的多个目标相位中的每个目标相位在当前时间周期的第一时间段内的交通流状态参数，可以包括但不限于包括以下至少之一：

(1)确定多个目标相位中的每个目标相位在第一时间段内的交通流量，得到每个目标相位的当前交通流量(即，每个目标相位的当前时段交通流量)。计算每个目标相位在第一时间段内的交通流量的方式与前述实施例中类似，在此不做赘述。

(2)确定每个目标相位在第一时间段内的绿灯利用率，得到每个目标相位的当前绿灯利用率。计算每个目标相位在第一时间段内的绿灯利用率的方式与前述实施例中类似，在此不做赘述。

(3)确定每个目标相位在第一时间段内的绿灯时长，得到每个目标相位的当前绿灯时长。当前绿灯时长可以是多个目标相位中的每个目标相位在第一时间段内的绿灯时长，每个目标相位的相位绿灯时长可以由信号周期长度C和其他目标相位的相位绿灯时长决定。

通过本实施例，通过路口的多个目标相位的交通流量、绿灯利用率和绿灯时长确定交通流状态参数，可以提高获得的交通流状态的真实性。

在一个示例性实施例中，确定多个目标相位中的每个目标相位在第一时间段内的交通流量，得到每个目标相位的当前交通流量，包括：

S61，确定每个目标相位允许通行的多个目标车道中的每个目标车道在第一时间段内的车道流量，得到每个目标车道的当前车道流量；

S62，将每个目标车道的当前车道流量中的最大车道流量，确定为每个目标相位的当前交通流量。

在确定每个目标相位的当前交流流量时，可以基于该相位允许通行的多个车道中的每个车道在第一时间段内的车道流量，得到每个车道的车道流量(即，每个车道在第一时间段内的时段交通流量)，将多个车道的车道流量的最大值，确定为每个目标相位的当前交流流量。

在本实施例中，可以采用与前述实施例中相同或者类似的方式确定每个目标车道的当前车道流量，即，每个目标车道的当前时段交通流量；在得到每个目标车道的当前车道流量之后，可以将每个目标车道的当前车道流量中的最大车道流量，确定为每个目标相位的当前交通流量。确定每个目标车道的当前时段交通流量的方式、以及确定与每个目标相位的当前交通流量的方式前述实施例中类似，在此不做赘述。

通过本实施例，选择相位对应的车道流量中的最大值作为当前交通流量，可以确保提高交通信号控制的稳定性。

在一个示例性实施例中，确定每个目标相位在第一时间段内的绿灯利用率，得到每个目标相位的当前绿灯利用率，包括：

S71，确定每个目标相位允许通行的多个目标车道中的每个目标车道的车道绿灯时长；

S72，确定每个目标车道的车道空放时长，其中，每个目标车道的车道空放时长为在每个目标车辆预设的最小绿灯时长之后，在先后通过每个目标车道的车道停车线的两辆车中，前一辆车通过车道停车线的时刻与后一辆车通过车道停车线的时刻之间的第一参考时长大于第二参考时长的情况下，第一参考时长与第二参考时长的差值，第二参考时长为预设系数、两辆车的车头时距以及后一辆车的车辆当量之间的乘积；

S73，将每个目标车道的车道绿灯时长与每个目标车道的车道空放时长的差值、与每个目标车道的车道绿灯时长的比值，确定为每个目标车辆的当前绿灯利用率；

S74，将每个目标车辆的当前绿灯利用率中的最大绿灯利用率，确定为每个目标相位的当前绿灯利用率。

在确定每个目标相位的当前绿灯利用率时，可以基于该相位允许通行的多个车道中的每个车道在第一时间段内的绿灯利用率，得到每个车道的当前绿灯利用率，将多个车道的当前绿灯利用率的最大值，确定为每个目标相位的当前交流流量。

在本实施例中，可以采用与前述实施例中相同或者类似的方式确定每个目标车道的当前绿灯利用率；在得到每个目标车道的当前绿灯利用率之后，可以将每个目标车道的当前绿灯利用率中的最大车道流量，确定为每个目标相位的当前绿灯利用率。已经进行过描述的，在此不做赘述。

可选地，在每个目标车道的当前绿灯利用率，可以首先确定每个目标车道的车道绿灯时长以及每个目标车道的车道空放时长，每个目标车道的车道绿灯时长可以是对应的目标相位的相位绿灯时长；根据每个目标车道的车道绿灯时长以及每个目标车道的车道空放时长，可以计算出每个目标车道的当前绿灯利用率，其可以是：每个目标车道的绿灯有效利用时长/每个目标车道的车道绿灯时长，这里，每个目标车道的绿灯有效利用时长为目标相位的相位绿灯时长与每个目标车道的车道空放时长的差值。

每个目标车道的车道空放时长可以是在每个目标车辆预设的最小绿灯时长之后，在先后通过每个目标车道的车道停车线的两辆车中，前一辆车通过车道停车线的时刻与后一辆车通过车道停车线的时刻之间的第一参考时长大于第二参考时长的情况下，第一参考时长与第二参考时长的差值，第二参考时长为预设系数(例如，1.5)、两辆车的车头时距以及后一辆车的车辆当量之间的乘积。这里，最小绿灯时长是为了保证安全而设置，也成为最小绿时间、或者最小绿。

例如，如图5所示，在统计期间，最小绿之后，检测并记录车辆通过停车线时刻。若后车通过时刻距前车时刻小于1.5*headway_s*γ_pcu，认为绿灯有效利用，若大于1.5*headway_s*γ_pcu，则认为空放，首辆车与绿灯启亮时刻进行比较；尾车通过时刻至绿末认为空放。其中，headway_s表示车头时距，γ_pcu表示车辆当量值(小型车取1，中型车取2，大型车取3)。

通过本实施例，通过车道绿灯时长与车道空放时长来确定车道的绿灯利用率，并基于车道的绿灯利用率确定相位的绿灯利用率，可以提高交通流状态参数确定的准确性和合理性。

在一个示例性实施例中，使用目标信号控制动作对第一信号配时参数执行调整操作，得到第二信号配时参数，包括：

S81，在目标信号控制动作包含用于调节信号配时周期的周期时长的第一调节动作的情况下，对第一信号配时参数中的周期时长参数执行第一调节动作，得到第二信号配时参数中的周期时长参数；

S82，在目标信号控制动作包含用于调节目标路口中的目标相位的相位绿灯时长的第二调节动作的情况下，对第一信号配时参数中目标相位的相位绿灯时长参数执行第二调节动作，得到第二信号配时参数中目标相位的相位绿灯时长参数。

在本实施例中，信号控制动作可以包括以下至少之一的动作：优化相位绿灯时长的动作，优化信号周期长度的动作。这里，优化相位绿灯时间的动作是指优化目标路口的至少一个相位的相位绿灯时长的动作，而优化信号周期长度的动作可以是优化信号周期长度的动作。

作为一种可选的实施方式，如果目标信号控制动作包含用于调节信号配时周期的周期时长的第一调节动作，可以对第一信号配时参数中的周期时长参数执行第一调节动作，得到第二信号配时参数中的周期时长参数，这里，第一调节操作可以是增加信号周期长度的操作，也可以是减小信号周期长度的操作。

作为另一种可选的实施方式，如果目标信号控制动作包含用于调节目标路口中的目标相位的相位绿灯时长的第二调节动作，可以对第一信号配时参数中目标相位的相位绿灯时长参数执行第二调节动作，得到第二信号配时参数中目标相位的相位绿灯时长参数，第二调节操作可以是增加目标相位的相位绿灯时长的操作，也可以是减小目标相位的相位绿灯时长的操作。目标相位的数量可以是一个或多个，可以分别对第一信号配时参数中的各个目标相位的相位绿灯时长参数执行调节动作，对不同目标相位执行的调节操作可以是相同的，也可以是不同的，本实施例中对此不做限定。

可选地，如果目标信号控制动作包括第一调节动作和第二调节动作，则第一调节动作所调节的信号周期长度和第二调节动作所调节的目标相位的相位绿灯时长是匹配的。如果目标信号控制动作仅包括第二调节动作，则对不同的目标相位所执行的相位绿灯时长的调节动作是匹配的，即，执行第二调节操作之后信号周期长度保持不变。

通过本实施例，通过对信号周期长度和相位绿灯时长中的至少之一进行调节，可以提高信号配置方案调节的灵活性和便捷性。

在一个示例性实施例中，在使用目标信号控制动作对第一信号配时参数执行调整操作，得到第二信号配时参数之后，上述方法还包括：

S91，在第二时间段内，按照第二信号配时参数所指示的信号配时周期对目标信号灯进行配时控制；

S92，在第二时间段的最后一个完整的信号配时周期之后的剩余时长小于第二信号配时参数所指示的信号配时周期的周期时长的情况下，按照第二信号配时参数所指示的信号配时周期继续对目标信号灯进行一次信号配时控制；

S93，按照第三信号配时参数所指示的信号配时周期对目标信号灯进行配时控制，其中，第三信号配时参数是与第二时间段的下一个时间段对应的信号配时参数。

在得到第二信号配时参数之后，在第二时间段内，可以按照第二信号配时参数所指示的信号配时周期对目标信号灯进行配时控制。第二时间段的时间长度与第二信号配时参数所指示的信号配时周期的周期时长可以是整倍数关系，也可以是非整倍数关系。此外，考虑到信号灯控制的连续性，第二时间段的开始时刻不一定是一个信号配置周期的开始。因此，在第二时间段的最后一个完整的信号配置周期之后，第二时间段的剩余时长可能为零，也可以小于第二信号配时参数所指示的信号配时周期的周期时长。

如果第二时间段的最后一个完整的信号配时周期之后的剩余时长小于第二信号配时参数所指示的信号配时周期的周期时长，为了保证交通信号灯控制的连续性，可以按照第二信号配时参数所指示的信号配时周期继续对目标信号灯进行一次信号配时控制。

第二时间段之后的时间段为第三时间段，对于第三时间段，可以按照与确定第二时间段所采用的信号配时参数类似的方式确定第三时间段所采用的信号配时参数。在第三时间段的初始时刻，对目标信号灯进行信号控制所采用的是第二时间段所采用的信号配时参数，而在按照第二信号配时参数所指示的信号配时周期继续对目标信号灯进行一次信号配时控制之后，可以按照第三信号配时参数所指示的信号配时周期对目标信号灯进行配时控制。

可选地，在第二时间段的最后一个完整的信号配时周期之后的剩余时长小于第二信号配时参数所指示的信号配时周期的周期时长的情况下，也可以在第二时间段的最后一个完整的信号配时周期之后，直接按照第三信号配时参数所指示的信号配时周期对目标信号灯进行配时控制。按照第三信号配时参数所指示的信号配时周期对目标信号灯进行配时控制的方式与按照第二信号配时参数所指示的信号配时周期对目标信号灯进行配时控制的方式类似，在此不做赘述。

通过本实施例，在两个时间段的交替时间内采用其中一个时间段所采用的信号配时参数进行交通信号灯的信号配置控制，可以提高信号灯控制的连续性。

下面结合可选示例对本申请实施例中的交通信号的控制方法进行解释说明。本可选示例中提供了一种基于Q学习的分时段信号控制的优化方案，可以应用到城市交通信号控制技术领域，可以基于前后日期同一时段时间延误的平方和差值最小进行动作选择。

在本可选示例中，通过学习交通状态和信号控制动作之间的数据进行策略选择，能够以较低的成本对重点时段的信号控制方案进行按日调整优化，而以信号控制日方案中时段作为信号控制优化的时间步长并基于前后日期同一时段延误的平方和差值最小进行动作选择的优化策略，可以提高信号配时的鲁棒性。

如图6所示，本可选示例中的交通信号的控制方法的流程可以包括以下步骤：

步骤S602，基本参数和路口交通流数据获取，这里，基本参数可以是信号配时方案参数，例如，各个时段基础方案的周期时长、环信息、栅栏信息、相位相序、绿信比、最小绿灯时间、黄灯时间、全红时间等；路口的进口道信息、车道信息、车道(车道组)与相位的对应关系，路口交通流数据可以是利用部署在路口的电警、卡口设备采集通过停止线的车辆的数据；

步骤S604，待优化路口时段交通流状态评估，例如，计算时段交通流量、绿灯利用率等；

步骤S606，构建Q学习模型；

步骤S608，分时段信号控制方案更新。

通过本可选示例，通过充分利用交叉口原有的分时段信号控制方案参数和真实的交通流状态评价，生成下一日信号控制参数调节方案，完成交叉口的闭环控制。信号控制参数优化按照时段进行，不仅对于数据获取缺陷的容忍度较高，具有良好的鲁棒性；而且能够以较低的成本对重点时段的信号控制方案进行按日调整优化。

需要说明的是，对于前述的各方法实施例，为了简单描述，故将其都表述为一系列的动作组合，但是本领域技术人员应该知悉，本申请并不受所描述的动作顺序的限制，因为依据本申请，某些步骤可以采用其他顺序或者同时进行。其次，本领域技术人员也应该知悉，说明书中所描述的实施例均属于优选实施例，所涉及的动作和模块并不一定是本申请所必须的。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到根据上述实施例的方法可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件，但很多情况下前者是更佳的实施方式。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质(如ROM(Read-Only Memory，只读存储器)/RAM(Random Access Memory，随机存取存储器)、磁碟、光盘)中，包括若干指令用以使得一台终端设备(可以是手机，计算机，服务器，或者网络设备等)执行本申请各个实施例的方法。

根据本申请实施例的另一个方面，还提供了一种用于实施上述交通信号的控制方法的交通信号的控制装置。图7是根据本申请实施例的一种可选的交通信号的控制装置的结构框图，如图7所示，该装置可以包括：

第一确定单元702，用于确定目标路口在当前时间周期的第一时间段内的交通流状态参数，得到当前参数值，其中，目标路口的目标信号灯在第一时间段内所采用的信号配时参数为第一信号配时参数；

第二确定单元704，与第一确定单元702相连，用于根据预设的交通流状态参数的参数值和信号控制动作之间的对应关系，确定与当前参数值对应的目标信号控制动作；

执行单元706，与第二确定单元704相连，用于使用目标信号控制动作对第一信号配时参数执行调整操作，得到第二信号配时参数，其中，第二信号配时参数是在当前时间周期的下一个时间周期的第二时间段内，目标信号灯所采用的信号配时参数，第一时间段在当前时间周期中的位置与第二时间段在下一个时间周期中的位置相同。

需要说明的是，该实施例中的第一确定单元702可以用于执行上述步骤S202，该实施例中的第二确定单元704可以用于执行上述步骤S204，该实施例中的执行单元706可以用于执行上述步骤S206。

通过上述模块，确定确定目标路口在当前时间周期的第一时间段内的交通流状态参数，得到当前参数值，其中，目标路口的目标信号灯在第一时间段内所采用的信号配时参数为第一信号配时参数；根据预设的交通流状态参数的参数值和信号控制动作之间的对应关系，确定与当前参数值对应的目标信号控制动作；使用目标信号控制动作对第一信号配时参数执行调整操作，得到第二信号配时参数，其中，第二信号配时参数是在当前时间周期的下一个时间周期的第二时间段内，目标信号灯所采用的信号配时参数，第一时间段在当前时间周期中的位置与第二时间段在下一个时间周期中的位置相同，解决了相关技术中交通信号的控制方法存在由于无法适应动态的交通场景导致的交通信号配时的运行效率低的问题，提高了交通信号配时的运行效率。

在一个示例性实施例中，第二确定单元包括：

查找模块，用于使用当前参数值查找预设的目标状态动作列表，得到与当前参数值对应的目标信号控制动作，其中，目标状态动作列表用于记录在交通流状态参数的一组参数值中的每个参数值下，执行一组信号控制动作中的每个信号控制动作所获取到的期望回报值，目标信号控制动作为在当前参数值下，一组信号控制动作中对应的期望回报值最大的信号控制动作。

在一个示例性实施例中，上述装置还包括：

获取单元，用于获取历史参数值序列，其中，历史参数值序列包含目标路口在一组历史时间段的历史参数值，一组历史时间段中的每个历史时间段的历史参数值为在每个历史时间段内交通流状态参数的参数值，一组历史时间段与当前时间周期之前的一组连续的历史时间周期一一对应，一组历史时间段中的每个历史时间段在对应的历史时间周期中的位置与第一时间段在当前时间周期中的位置相同；

第三确定单元，用于根据每个历史时间段的信号配时参数，确定对每个历史时间段的信号配时参数所执行的信号控制动作，得到与每个历史时间段对应的历史信号控制动作，其中，每个历史时间段的信号配时参数为目标信号灯在每个历史时间段内所采用的信号配时参数；

第四确定单元，用于根据每个历史时间段的历史参数值，确定与每个历史时间段对应的累计回报值，其中，累计回报值是对与每个历史时间段的信号配时参数执行与每个历史时间段对应的历史信号控制动作之后，在每个历史时间段之后的预设数量的历史时间段内所累计的回报值；

更新单元，用于使用每个历史时间段的历史参数值、与每个历史时间段对应的历史信号控制动作以及与每个历史时间段对应的累计回报值对初始状态动作列表进行更新，得到目标状态动作列表。

在一个示例性实施例中，第四确定单元包括：

第一确定模块，用于根据每个历史时间段的历史参数值、以及每个历史时间段的前一个历史时间段的历史参数值，确定与每个历史时间段对应的回报值；

执行模块，用于对与每个历史时间段之后的预设数量的历史时间段对应的回报值执行加权累加操作，得到与每个历史时间段对应的累计回报值。

在一个示例性实施例中，目标路口包括多个目标相位；第一确定模块包括：

第一确定子模块，用于根据每个历史时间段的历史参数值，确定多个目标相位中的每个目标相位与每个历史时间段对应的相位时延，得到每个目标相位的第一相位时延；

第二确定子模块，用于根据每个历史时间段的前一个历史时间段的历史参数值，确定每个目标相位与每个历史时间段的前一个历史时间段对应的相位时延，得到每个目标相位的第二相位时延；

第三确定子模块，用于将每个目标相位的第一相位时延的平方和与每个目标相位的第二相位时延的平方和之间的差值，确定为与每个历史时间段对应的回报值。

在一个示例性实施例中，目标路口包括多个目标相位；第一确定单元包括以下至少之一：

第二确定模块，用于确定多个目标相位中的每个目标相位在第一时间段内的交通流量，得到每个目标相位的当前交通流量；

第三确定模块，用于确定每个目标相位在第一时间段内的绿灯利用率，得到每个目标相位的当前绿灯利用率；第四确定模块，用于确定每个目标相位在第一时间段内的绿灯时长，得到每个目标相位的当前绿灯时长。

在一个示例性实施例中，第二确定模块包括：

第四确定子模块，用于确定每个目标相位允许通行的多个目标车道中的每个目标车道在第一时间段内的车道流量，得到每个目标车道的当前车道流量；

第五确定子模块，用于将每个目标车道的当前车道流量中的最大车道流量，确定为每个目标相位的当前交通流量。

在一个示例性实施例中，第三确定模块包括：

第六确定子模块，用于确定每个目标相位允许通行的多个目标车道中的每个目标车道的车道绿灯时长；

第七确定子模块，用于确定每个目标车道的车道空放时长，其中，每个目标车道的车道空放时长为在每个目标车道预设的最小绿灯时长之后，在先后通过每个目标车道的车道停车线的两辆车中，前一辆车通过车道停车线的时刻与后一辆车通过车道停车线的时刻之间的第一参考时长大于第二参考时长的情况下，第一参考时长与第二参考时长的差值，第二参考时长为预设系数、两辆车的车头时距以及后一辆车的车辆当量之间的乘积；

第八确定子模块，用于将每个目标车道的车道绿灯时长与每个目标车道的车道空放时长的差值、与每个目标车道的车道绿灯时长的比值，确定为每个目标车道的当前绿灯利用率；

第九确定子模块，用于将每个目标车道的当前绿灯利用率中的最大绿灯利用率，确定为每个目标相位的当前绿灯利用率。

在一个示例性实施例中，执行单元包括：

第一执行模块，用于在目标信号控制动作包含用于调节信号配时周期的周期时长的第一调节动作的情况下，对第一信号配时参数中的周期时长参数执行第一调节动作，得到第二信号配时参数中的周期时长参数；

第二执行模块，用于在目标信号控制动作包含用于调节目标路口的多个目标相位中的任一目标相位的相位绿灯时长的第二调节动作的情况下，对第一信号配时参数中任一目标相位的相位绿灯时长参数执行第二调节动作，得到第二信号配时参数中任一目标相位的相位绿灯时长参数。

在一个示例性实施例中，上述装置还包括：

第一控制单元，用于在第二时间段内，按照第二信号配时参数所指示的信号配时周期对目标信号灯进行配时控制；

第二控制单元，用于在第二时间段的最后一个完整的信号配时周期之后的剩余时长小于第二信号配时参数所指示的信号配时周期的周期时长的情况下，按照第二信号配时参数所指示的信号配时周期继续对目标信号灯进行一次信号配时控制；

第三控制单元，用于按照第三信号配时参数所指示的信号配时周期对目标信号灯进行配时控制，其中，第三信号配时参数是与第二时间段的下一个时间段对应的信号配时参数。

此处需要说明的是，上述模块与对应的步骤所实现的示例和应用场景相同，但不限于上述实施例所公开的内容。需要说明的是，上述模块作为装置的一部分可以运行在如图1所示的硬件环境中，可以通过软件实现，也可以通过硬件实现，其中，硬件环境包括网络环境。

根据本申请实施例的又一个方面，还提供了一种存储介质。可选地，在本实施例中，上述存储介质可以用于执行本申请实施例中上述任一项交通信号的控制方法的程序代码。

可选地，在本实施例中，上述存储介质可以位于上述实施例所示的网络中的多个网络设备中的至少一个网络设备上。

可选地，在本实施例中，存储介质被设置为存储用于执行以下步骤的程序代码：

S1，确定目标路口在当前时间周期的第一时间段内的交通流状态参数，得到当前参数值，其中，目标路口的目标信号灯在第一时间段内所采用的信号配时参数为第一信号配时参数；

S2，根据预设的交通流状态参数的参数值和信号控制动作之间的对应关系，

确定与当前参数值对应的目标信号控制动作；

S3，使用目标信号控制动作对第一信号配时参数执行调整操作，得到第二信号配时参数，其中，第二信号配时参数是在当前时间周期的下一个时间周期的第二时间段内，目标信号灯所采用的信号配时参数，第一时间段在当前时间周期中的位置与第二时间段在下一个时间周期中的位置相同。

可选地，本实施例中的具体示例可以参考上述实施例中所描述的示例，本实施例中对此不再赘述。

可选地，在本实施例中，上述存储介质可以包括但不限于：U盘、ROM、RAM、移动硬盘、磁碟或者光盘等各种可以存储程序代码的介质。

根据本申请实施例的又一个方面，还提供了一种用于实施上述交通信号的控制方法的电子装置，该电子装置可以是服务器、终端、或者其组合。

图8是根据本申请实施例的一种可选的电子装置的结构框图，如图8所示，包括处理器802、通信接口804、存储器806和通信总线808，其中，处理器802、通信接口804和存储器806通过通信总线808完成相互间的通信，其中，

存储器806，用于存储计算机程序；

处理器806，用于执行存储器806上所存放的计算机程序时，实现如下步骤：

S2，根据预设的交通流状态参数的参数值和信号控制动作之间的对应关系，确定与当前参数值对应的目标信号控制动作；

可选地，在本实施例中，通信总线可以是PCI(Peripheral ComponentInterconnect，外设部件互连标准)总线、或EISA(Extended Industry StandardArchitecture，扩展工业标准结构)总线等。该通信总线可以分为地址总线、数据总线、控制总线等。为便于表示，图8中仅用一条粗线表示，但并不表示仅有一根总线或一种类型的总线。通信接口用于上述电子装置与其他设备之间的通信。

存储器可以包括RAM，也可以包括非易失性存储器(non-volatile memory)，例如，至少一个磁盘存储器。可选地，存储器还可以是至少一个位于远离前述处理器的存储装置。

作为一种示例，上述存储器806中可以但不限于包括上述交通信号的控制装置中的第一确定单元702、第二确定单元704以及执行单元706。此外，还可以包括但不限于上述交通信号的控制装置中的其他模块单元，本示例中不再赘述。

上述处理器可以是通用处理器，可以包含但不限于：CPU(Central ProcessingUnit，中央处理器)、NP(Network Processor，网络处理器)等；还可以是DSP(DigitalSignal Processing，数字信号处理器)、ASIC(Application Specific IntegratedCircuit，专用集成电路)、FPGA(Field-Programmable Gate Array，现场可编程门阵列)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。

可选地，本实施例中的具体示例可以参考上述实施例中所描述的示例，本实施例在此不再赘述。

本领域普通技术人员可以理解，图8所示的结构仅为示意，实施上述交通信号的控制方法的设备可以是终端设备，该终端设备可以是智能手机(如Android手机、iOS手机等)、平板电脑、掌上电脑以及移动互联网设备(Mobile Internet Devices，MID)、PAD等终端设备。图8其并不对上述电子装置的结构造成限定。例如，电子装置还可包括比图8中所示更多或者更少的组件(如网络接口、显示装置等)，或者具有与图8所示的不同的配置。

本领域普通技术人员可以理解上述实施例的各种方法中的全部或部分步骤是可以通过程序来指令终端设备相关的硬件来完成，该程序可以存储于一计算机可读存储介质中，存储介质可以包括：闪存盘、ROM、RAM、磁盘或光盘等。

上述本申请实施例序号仅仅为了描述，不代表实施例的优劣。

上述实施例中的集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在上述计算机可读取的存储介质中。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在存储介质中，包括若干指令用以使得一台或多台计算机设备(可为个人计算机、服务器或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。

在本申请的上述实施例中，对各个实施例的描述都各有侧重，某个实施例中没有详述的部分，可以参见其他实施例的相关描述。

在本申请所提供的几个实施例中，应该理解到，所揭露的客户端，可通过其它的方式实现。其中，以上所描述的装置实施例仅仅是示意性的，例如所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，单元或模块的间接耦合或通信连接，可以是电性或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例中所提供的方案的目的。

另外，在本申请各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以至少两个单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

以上所述仅是本申请的优选实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本申请原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也应视为本申请的保护范围。

Claims

1.一种交通信号的控制方法，其特征在于，包括：

确定目标路口在当前时间周期的第一时间段内的交通流状态参数，得到当前参数值，其中，所述目标路口的目标信号灯在所述第一时间段内所采用的信号配时参数为第一信号配时参数；

根据预设的所述交通流状态参数的参数值和信号控制动作之间的对应关系，确定与所述当前参数值对应的目标信号控制动作；

使用所述目标信号控制动作对所述第一信号配时参数执行调整操作，得到第二信号配时参数，其中，所述第二信号配时参数是在所述当前时间周期的下一个时间周期的第二时间段内，所述目标信号灯所采用的信号配时参数，所述第一时间段在所述当前时间周期中的位置与所述第二时间段在所述下一个时间周期中的位置相同；

其中，所述根据预设的所述交通流状态参数的参数值和信号控制动作之间的对应关系，确定与所述当前参数值对应的目标信号控制动作，包括：使用所述当前参数值查找预设的目标状态动作列表，得到与所述当前参数值对应的所述目标信号控制动作，其中，所述目标状态动作列表用于记录在所述交通流状态参数的一组参数值中的每个参数值下，执行一组信号控制动作中的每个信号控制动作所获取到的期望回报值，所述目标信号控制动作为在所述当前参数值下，所述一组信号控制动作中对应的期望回报值最大的信号控制动作；

所述方法还包括：获取历史参数值序列，其中，所述历史参数值序列包含所述目标路口在一组历史时间段的历史参数值，所述一组历史时间段中的每个历史时间段的历史参数值为在所述每个历史时间段内所述交通流状态参数的参数值，所述一组历史时间段与所述当前时间周期之前的一组连续的历史时间周期一一对应，所述一组历史时间段中的每个历史时间段在对应的历史时间周期中的位置与所述第一时间段在所述当前时间周期中的位置相同；根据所述每个历史时间段的信号配时参数，确定对所述每个历史时间段的信号配时参数所执行的信号控制动作，得到与所述每个历史时间段对应的历史信号控制动作，其中，所述每个历史时间段的信号配时参数为所述目标信号灯在所述每个历史时间段内所采用的信号配时参数；根据所述每个历史时间段的历史参数值，确定与所述每个历史时间段对应的累计回报值，其中，所述累计回报值是对与所述每个历史时间段的信号配时参数执行与所述每个历史时间段对应的历史信号控制动作之后，在所述每个历史时间段之后的预设数量的历史时间段内所累计的回报值；使用所述每个历史时间段的历史参数值、与所述每个历史时间段对应的历史信号控制动作以及与所述每个历史时间段对应的累计回报值对初始状态动作列表进行更新，得到所述目标状态动作列表。

2.根据权利要求1所述的方法，其特征在于，所述根据所述每个历史时间段的历史参数值，确定与所述每个历史时间段对应的累计回报值，包括：

根据所述每个历史时间段的历史参数值、以及所述每个历史时间段的前一个历史时间段的历史参数值，确定与所述每个历史时间段对应的回报值；

对与所述每个历史时间段之后的预设数量的历史时间段对应的回报值执行加权累加操作，得到与所述每个历史时间段对应的累计回报值。

3.根据权利要求2所述的方法，其特征在于，所述目标路口包括多个目标相位；所述根据所述每个历史时间段的历史参数值、以及所述每个历史时间段的前一个历史时间段的历史参数值，确定与所述每个历史时间段对应的回报值，包括：

根据所述每个历史时间段的历史参数值，确定所述多个目标相位中的每个目标相位与每个历史时间段对应的相位时延，得到所述每个目标相位的第一相位时延；

根据所述每个历史时间段的前一个历史时间段的历史参数值，确定所述每个目标相位与所述每个历史时间段的前一个历史时间段对应的相位时延，得到所述每个目标相位的第二相位时延；

将所述每个目标相位的第一相位时延的平方和与所述每个目标相位的第二相位时延的平方和之间的差值，确定为与所述每个历史时间段对应的回报值。

4.根据权利要求1所述的方法，其特征在于，所述目标路口包括多个目标相位；所述确定目标路口在当前时间周期的第一时间段内的交通流状态参数，得到当前参数值，包括以下至少之一：

确定所述多个目标相位中的每个目标相位在所述第一时间段内的交通流量，得到所述每个目标相位的当前交通流量；

确定所述每个目标相位在所述第一时间段内的绿灯利用率，得到所述每个目标相位的当前绿灯利用率；

确定所述每个目标相位在所述第一时间段内的绿灯时长，得到所述每个目标相位的当前绿灯时长。

5.根据权利要求4所述的方法，其特征在于，所述确定所述多个目标相位中的每个目标相位在所述第一时间段内的交通流量，得到所述每个目标相位的当前交通流量，包括：

确定所述每个目标相位允许通行的多个目标车道中的每个目标车道在所述第一时间段内的车道流量，得到所述每个目标车道的当前车道流量；

将所述每个目标车道的当前车道流量中的最大车道流量，确定为所述每个目标相位的当前交通流量。

6.根据权利要求4所述的方法，其特征在于，所述确定所述每个目标相位在所述第一时间段内的绿灯利用率，得到所述每个目标相位的当前绿灯利用率，包括：

确定所述每个目标相位允许通行的多个目标车道中的每个目标车道的车道绿灯时长；

确定所述每个目标车道的车道空放时长，其中，所述每个目标车道的车道空放时长为在所述每个目标车辆预设的最小绿灯时长之后，在先后通过所述每个目标车道的车道停车线的两辆车中，前一辆车通过所述车道停车线的时刻与后一辆车通过所述车道停车线的时刻之间的第一参考时长大于第二参考时长的情况下，所述第一参考时长与所述第二参考时长的差值，所述第二参考时长为预设系数、所述两辆车的车头时距以及所述后一辆车的车辆当量之间的乘积；

将所述每个目标车道的车道绿灯时长与所述每个目标车道的车道空放时长的差值、与所述每个目标车道的车道绿灯时长的比值，确定为所述每个目标车辆的当前绿灯利用率；

将所述每个目标车辆的当前绿灯利用率中的最大绿灯利用率，确定为所述每个目标相位的当前绿灯利用率。

7.根据权利要求1所述的方法，所述使用所述目标信号控制动作对所述第一信号配时参数执行调整操作，得到第二信号配时参数，包括：

在所述目标信号控制动作包含用于调节信号配时周期的周期时长的第一调节动作的情况下，对所述第一信号配时参数中的周期时长参数执行所述第一调节动作，得到所述第二信号配时参数中的周期时长参数；

在所述目标信号控制动作包含用于调节所述目标路口的多个目标相位中的任一目标相位的相位绿灯时长的第二调节动作的情况下，对所述第一信号配时参数中所述任一目标相位的相位绿灯时长参数执行所述第二调节动作，得到所述第二信号配时参数中所述任一目标相位的相位绿灯时长参数。

8.根据权利要求1至7中任一项所述的方法，在所述使用所述目标信号控制动作对所述第一信号配时参数执行调整操作，得到第二信号配时参数之后，所述方法还包括：

在所述第二时间段内，按照所述第二信号配时参数所指示的信号配时周期对所述目标信号灯进行配时控制；

在所述第二时间段的最后一个完整的信号配时周期之后的剩余时长小于所述第二信号配时参数所指示的信号配时周期的周期时长的情况下，按照所述第二信号配时参数所指示的信号配时周期继续对所述目标信号灯进行一次信号配时控制；

按照第三信号配时参数所指示的信号配时周期对所述目标信号灯进行配时控制，其中，所述第三信号配时参数是与所述第二时间段的下一个时间段对应的信号配时参数。

9.一种交通信号的控制装置，其特征在于，包括：

第一确定单元，用于确定目标路口在当前时间周期的第一时间段内的交通流状态参数，得到当前参数值，其中，所述目标路口的目标信号灯在所述第一时间段内所采用的信号配时参数为第一信号配时参数；

第二确定单元，用于根据预设的所述交通流状态参数的参数值和信号控制动作之间的对应关系，确定与所述当前参数值对应的目标信号控制动作；

执行单元，用于使用所述目标信号控制动作对所述第一信号配时参数执行调整操作，得到第二信号配时参数，其中，所述第二信号配时参数是在所述当前时间周期的下一个时间周期的第二时间段内，所述目标信号灯所采用的信号配时参数，所述第一时间段在所述当前时间周期中的位置与所述第二时间段在所述下一个时间周期中的位置相同；

其中，所述第二确定单元包括：查找模块，用于使用所述当前参数值查找预设的目标状态动作列表，得到与所述当前参数值对应的所述目标信号控制动作，其中，所述目标状态动作列表用于记录在所述交通流状态参数的一组参数值中的每个参数值下，执行一组信号控制动作中的每个信号控制动作所获取到的期望回报值，所述目标信号控制动作为在所述当前参数值下，所述一组信号控制动作中对应的期望回报值最大的信号控制动作；

所述装置还包括：获取单元，用于获取历史参数值序列，其中，所述历史参数值序列包含所述目标路口在一组历史时间段的历史参数值，所述一组历史时间段中的每个历史时间段的历史参数值为在所述每个历史时间段内所述交通流状态参数的参数值，所述一组历史时间段与所述当前时间周期之前的一组连续的历史时间周期一一对应，所述一组历史时间段中的每个历史时间段在对应的历史时间周期中的位置与所述第一时间段在所述当前时间周期中的位置相同；第三确定单元，用于根据所述每个历史时间段的信号配时参数，确定对所述每个历史时间段的信号配时参数所执行的信号控制动作，得到与所述每个历史时间段对应的历史信号控制动作，其中，所述每个历史时间段的信号配时参数为所述目标信号灯在所述每个历史时间段内所采用的信号配时参数；第四确定单元，用于根据所述每个历史时间段的历史参数值，确定与所述每个历史时间段对应的累计回报值，其中，所述累计回报值是对与所述每个历史时间段的信号配时参数执行与所述每个历史时间段对应的历史信号控制动作之后，在所述每个历史时间段之后的预设数量的历史时间段内所累计的回报值；更新单元，用于使用所述每个历史时间段的历史参数值、与所述每个历史时间段对应的历史信号控制动作以及与所述每个历史时间段对应的累计回报值对初始状态动作列表进行更新，得到所述目标状态动作列表。

10.一种计算机可读的存储介质，其特征在于，所述计算机可读的存储介质包括存储的程序，其中，所述程序运行时执行权利要求1至8中任一项所述的方法。

11.一种电子装置，包括存储器和处理器，其特征在于，所述存储器中存储有计算机程序，所述处理器被设置为通过所述计算机程序执行权利要求1至8中任一项所述的方法。