CN109035812A

CN109035812A - 交通信号灯的控制方法、装置、计算机设备及存储介质

Info

Publication number: CN109035812A
Application number: CN201811029041.8A
Authority: CN
Inventors: 吴壮伟
Original assignee: Ping An Technology Shenzhen Co Ltd
Current assignee: Ping An Technology Shenzhen Co Ltd
Priority date: 2018-09-05
Filing date: 2018-09-05
Publication date: 2018-12-18
Anticipated expiration: 2038-09-05
Also published as: CN109035812B

Abstract

本发明提供一种交通信号灯的控制方法、装置、计算机设备及存储介质，该方法包括：获取交通环境训练数据，基于Q‑Learning算法对所述交通环境训练数据进行深度学习以得到联合交通状态与联合路口行为对应的Q矩阵；若当前时间为第一预设时间，每预设周期获取所述若干预设路段的交通状态以得到当前的联合交通状态；基于所述当前的联合交通状态以及所述Q矩阵控制所述若干预设路段的交通信号灯的通行切换时间。通过训练Q‑Learning算法模型进行数据建模，得到交通状态对应交通信号灯通行切换时间的选择行为的Q矩阵，在交通拥堵的时段，利用强化学习的结果，即Q矩阵，实现对交通信号灯的控制，通过改变交通信号灯的通行切换时间来改善整体交通情况，缓解交通拥堵状态。

Description

交通信号灯的控制方法、装置、计算机设备及存储介质

技术领域

本发明涉及人工智能技术领域，尤其涉及一种交通信号灯的控制方法、装置、计算机设备及存储介质。

背景技术

随着经济的发展以及汽车行业的发展，交通问题越来越严峻，一方面影响人们的出行，另一方面其已成为制约经济发展的重要因素。要从根本上解决交通拥堵的问题，除了拓展城市道路、改造城市布局、增强人们交通意识之外，人工智能已然成为解决交通拥堵问题的重要手段之一。

现有的通过人工智能改善交通拥堵的方法一般是根据红绿灯路口的车流情况智能地控制红绿灯各个指示通行方向的通行时间，通过智能控制红绿灯来使路口前方道路的车辆能够以最大的通行效率通过该红绿灯路口。此方法指针对单独一个红绿灯信号的智能控制，仅通过每个路口红绿灯信号的智能控制智能改善对应道路的交通拥堵，然而，道路之间具有千丝万缕的关系，一条道路的通行效率的提高可能会导致另外一条道路通行效率降低，最终导致城市或某一区域内整体交通通行效率的改善结果不明显。

发明内容

本发明实施例提供了一种交通信号灯的控制方法、装置、计算机设备及存储介质，旨在提高城市道路的整体通行效率，改善交通环境。

第一方面，本发明实施例提供了一种交通信号灯的控制方法，该方法包括：获取交通环境训练数据，所述交通环境训练数据包括若干预设路段的联合路口行为以及在不同联合路口行为下所述若干预设路段的联合交通状态，所述联合路口行为包括每一预设路段的交通信号灯的通行切换时间；基于Q-Learning算法对所述交通环境训练数据进行深度学习以得到联合交通状态与联合路口行为对应的Q矩阵，其中，所述Q矩阵中的任一Q值表示在对应的联合交通状态下选择对应的联合路口行为所得的若干预设路段的联合交通状态改善的总收益；若当前时间为第一预设时间，每预设周期获取所述若干预设路段的交通状态以得到当前的联合交通状态；基于所述当前的联合交通状态以及所述Q矩阵控制所述若干预设路段的交通信号灯的通行切换时间。

第二方面，本发明实施例还提供了一种交通信号灯的控制装置，所述交通信号灯的控制装置包括用于实现第一方面所述的交通信号灯的控制方法的单元。

第三方面，本发明实施例还提供了一种计算机设备，包括存储器，以及与所述存储器相连的处理器；所述存储器用于存储实现交通信号灯的控制方法的计算机程序；所述处理器用于运行所述存储器中存储的计算机程序，以执行如上述第一方面所述的方法。

第四方面，本发明实施例提供了一种存储介质，所述存储介质存储有一个或者一个以上计算机程序，所述一个或者一个以上计算机程序可被一个或者一个以上的处理器执行，以实现上述第一方面所述的方法。

本发明实施例提供了一种交通信号灯的控制方法、装置、计算机设备及存储介质，通过训练Q-Learning算法模型得到交通状态对应交通信号灯通行切换时间的选择行为的Q矩阵，在交通拥堵的时段，利用强化学习的结果，即Q矩阵，实现对交通信号灯的控制，通过改变交通信号灯的通行切换时间来达到改善整体交通情况，缓解交通拥堵的状态。

附图说明

为了更清楚地说明本发明实施例技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本发明一实施例提供的一种交通信号灯的控制方法的流程示意图；

图2是本发明一实施例提供的一种交通信号灯的控制方法的子流程示意图；

图3是本发明另一实施例提供的一种交通信号灯的控制方法的子流程示意图；

图4是本发明另一实施例提供的一种交通信号灯的控制方法的流程示意图；

图5是本发明一实施例提供的一种交通信号灯的控制装置的示意性框图；

图6是本发明一实施例提供的一种交通信号灯的控制装置的子单元示意性框图；

图7是本发明另一实施例提供的一种交通信号灯的控制装置的子单元示意性框图；

图8是本发明另一实施例提供的一种交通信号灯的控制装置的示意性框图；

图9是本发明实施例提供的一种计算机设备的结构示意性框图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

应当理解，当在本说明书和所附权利要求书中使用时，术语“包括”和“包含”指示所描述特征、整体、步骤、操作、元素和/或组件的存在，但并不排除一个或多个其它特征、整体、步骤、操作、元素、组件和/或其集合的存在或添加。

还应当理解，在本发明说明书和所附权利要求书中使用的术语“和/或” 是指相关联列出的项中的一个或多个的任何组合以及所有可能组合，并且包括这些组合。

也应当理解，尽管术语第一、第二等可以在此用来描述各种元素，但这些元素不应该受限于这些术语，这些术语仅用来将这些元素彼此区分开。

图1为本发明实施例提供的一种交通信号灯的控制方法的流程示意图，该方法包括步骤S101～S104。

S101、获取交通环境训练数据，所述交通环境训练数据包括若干预设路段的联合路口行为以及在不同联合路口行为下所述若干预设路段的联合交通状态，所述联合路口行为包括每一预设路段的交通信号灯的通行切换时间。

路段指的是两个交通信号灯路口之间的一段道路，将驶离该路段对应的路口归为该路段对应的路口，该路口中的交通信号灯归为该路段的交通信号灯。

在本发明中，可将城市所有的路段都设置为预设路段，也可将某一区域中的路段设置为预设路段。

设置每个预设路段的交通信号灯，包括直行指示灯，右转指示灯、左转指示灯、以及掉头指示灯(掉头指示灯并非每个路口都有，具体根据实际情况而定)的通行切换时间，各个预设路段的交通信号灯的通行切换时间可独立设置，将每一预设路段的交通信号灯的一组通行切换时间(直行通行时间，右转通行时间、左转通行时间、以及掉头通行时间)组合起来即为上述一个联合路口行为，即一个联合路口行为包括了所有预设路段的交通信号灯的通行切换时间。

在设置好不同联合路口行为的条件下采集各预设路段的车流数据，通过车流数据可得到每个路段的交通状态，在一个联合路口行为的条件下得到的各预设路段的交通状态组合形成整体道路的交通状态，即联合交通状态。

任意路段的交通信号灯的通行切换时间具有一初始设置的初始切换时间，即直行指示灯，右转指示灯、左转指示灯、以及掉头指示灯的通行时间有一初始值，但根据路段的车流可以人为地在交通信号灯的初始值上增加或减少通行时间，我们通过人为地改动不同路段的交通信号灯的通行切换时间，例如一路段的左转方向通行时间增加30s，另一路段的直行方向通行时间增加30s等，同时在各个路口的交通信号灯的通行切换时间被改动后采集每个路段的车流，最终可得到在对应改动的交通信号灯的通行切换时间下各城市道路的交通状态。

为了简化联合路口行为的表达，我们可以将预设路段的交通信号灯中通行时间未改动(即初始值)对应的一个通行方向的通行切换时间省略掉，仅剩下被改动的部分。例如有三段预设路段，对应三个路口的交通信号灯，其中一预设路段的交通信号灯中的直行通行时间增加30s，另一预设路段交通信号灯中的左转通行时间增加30s，再另外一预设路段的交通信号灯的右转通行时间增加30s，则对应的联合路口行为可以表示为(x,y,z)，其中，x表示对应预设路段的直行指示灯增加30s通行时间，y表示对应预设路段的左转指示灯增加30s 通行时间，z表示对应预设路段的右转指示灯增加30s通行时间。

S102、基于Q-Learning算法对所述交通环境训练数据进行深度学习以得到联合交通状态与联合路口行为对应的Q矩阵，其中，所述Q矩阵中的任一Q 值表示在对应的联合交通状态下选择对应的联合路口行为所得的若干预设路段的联合交通状态改善的总收益。

假设具有三段预设路段，分别对应三个交通信号灯，任意预设路段对应的交通状态可包括6种交通状态，分别为通畅达1小时、通畅达2小时、通畅2 小时以上、拥堵达1小时、拥堵达2小时、拥堵达2小时以上。

假设任意路口交通信号灯的切换通行时间，即路口行为，包括以下4种情况：直行指示灯对应的通行时间增加30s，右转指示灯对应的通行时间增加30s，左转指示灯对应的通行时间增加30s，掉头指示灯对应的通行时间增加10s(若路段无掉头指示灯则不存在改动)。

用Si表示不同的联合交通状态，Aj表示不同的联合路口行为，Si中包括每一路段的交通状态s1、s2和s3，交通状态包括6中状态，则Si具有6³个组合；Aj中包括每一预设路段的路口行为a1、a2和a3，任意预设路段的路口行为包括4中情况，则Aj具有4³个组合，得到的Q矩阵如下表1：

表1：

Q值与所选择的联合路口行为对城市道路交通状态的改善情况成正向关系， Q值越大，所选择的联合路口行为对城市道路整体交通状态的改善情况越好。

在一实施例中，如图2所示，步骤S102包括步骤S1021-S1023。

S1021、设置Q-Learning算法的奖惩规则、折扣因子γ。

通过Q-Learning算法对采集到的交通环境训练数据进行机器学习，得到联合交通状态对应联合路口行为的Q矩阵。在机器学习之前，需要设置奖惩规则，通过奖惩规则强化学习，最终得到不同状态下选择的不同行为的收益。

本方案中的奖惩规则为：在一联合交通状态下选择一联合路口行为后，若某路段每拥堵1h扣1分，扣分上限为4，每通畅1h奖励1分，奖励上限为4 分。

S1022、基于所述奖惩规则，利用Q-Learning算法学习所述交通环境训练数据以得到联合交通状态与联合路口行为对应的Reward矩阵以及各联合交通状态之间的转换概率T矩阵，所述Reward矩阵包括不同的联合交通在不同的联合路口行为下对应的Reward值，所述转换概率T矩阵包括任一联合交通状态在任一联合路口行为下转化为另一联合交通状态的概率。

Q-Learning算法学习交通环境训练数据得到一联合交通状态S在一联合路口行为A下转化为下一个联合交通状态S’的次数，得到联合交通状态S在联合路口行为A下转移到联合交通状态S’的概率，通过统计不同联合交通状态在不同联合路口行为的作用下的转化概率，从而可得到转换概率T矩阵，概率T矩阵中的值用T(S,A,S’)，表示联合交通状态S在联合路口行为A下转化为联合交通状态S’的概率。

基于设置的奖惩规则，还通过Q-Learning算法学习交通环境训练数据统计出任一联合交通状态S下不同的联合动作A所带来的收益，即Reward值，从而得到Reward矩阵。Reward矩阵中的值用R(S,A)表示，R(S,A)表示联合交通状态S下选择联合路口行为A可得到的当前收益。

转换概率T矩阵、Reward矩阵的行数/列数均与所需的Q矩阵的行数/列数相同。

S1023、根据公式计算联合交通状态S在联合路口行为下的Q值，以得到联合交通状态与联合路口行为对应的Q矩阵，其中，T(S,A,S’)为联合交通状态S在联合路口行为A下转化为联合交通状态S’的概率，max[R(S’)]表示联合交通状态S’在不同的联合路口行为下所能得到的最大Reward值。

在联合交通状态S下选择联合路口行为A可能到达的任何一个联合交通状态为S’，可能到达的联合交通状态为S’未来可得到的最大收益为max[R(S’)]， max[R(S’)]可由R矩阵得到。因在联合交通状态S下选择联合路口行为A可能到达的任何一个联合交通状态为S’概率为T(S,A,S’)，因此对所有可能得到的联合交通状态S’的未来最大收益进行加权后求和可估算到未来收益，即其中all包括全部联合交通状态，联合交通状态S下选择联合路口行为A可得到的总收益Q(S,A)为当前收益和未来可能收益的总和。

折扣因子γ用于对未来收益重要性的考量，若需要着重考虑未来收益，则 γ可取值较大，接近于1，若重点关注当前收益，则γ可取值较小，接近于0。本方案优选γ＝0.5。

S103、若当前时间为第一预设时间，每预设周期获取所述若干预设路段的交通状态以得到当前的联合交通状态。

S104、基于所述当前的联合交通状态以及所述Q矩阵控制所述若干预设路段的交通信号灯的通行切换时间。

通常来说，某些重要的城市道路通常只会在固定的时间段内发生拥堵，例如上下班高峰期开始时间点(例如早上7:00-9:00和下午17:30-19:30)，因此，可设置第一预设时间为上下班高峰期，仅在第一预设时间内对交通信号灯进行智能调控，智能调控的周期为预设周期，例如为1h，即每1h调控一次，以便及时缓解该道路的交通拥堵，改善城市交通情况。

在一实施例中，如图3所示，步骤S104包括步骤S1041-S1043。

S1041、从所述Q矩阵中获取所述当前的联合交通状态下的最大Q值。

S1042、获取所述最大Q值对应的联合路口行为以得到每一预设路段的交通信号灯的通行切换时间。

S1043、控制所述若干预设路段的交通信号灯按对应的通行切换时间进行交通指示。

任一联合交通状态下的最大Q值对应的联合路口行为的意义在于：在当前的联合交通状态下，选择对应的联合路口行为所得到的收益最大。由于收益与道路的交通情况(拥堵或通畅)相关，收益越大，道路越通畅，城市交通情况越好，因此通过Q矩阵以及当前的联合交通状态控制交通信号灯的交通指示行为已达到改善城市整体交通环境的目的。

图4是本发明另一实施例提供的交通信号灯的控制方法的流程示意图，该方法包括步骤S201-S206。

S201、获取交通环境训练数据，所述交通环境训练数据包括若干预设路段的联合路口行为以及在不同联合路口行为下所述若干预设路段的联合交通状态，所述联合路口行为包括每一预设路段的交通信号灯的通行切换时间。

S202、基于Q-Learning算法对所述交通环境训练数据进行深度学习以得到联合交通状态与联合路口行为对应的Q矩阵，其中，所述Q矩阵中的任一Q 值表示在对应的联合交通状态下选择对应的联合路口行为所得的若干预设路段的联合交通状态改善的总收益。

S203、若当前时间为第一预设时间，每预设周期获取所述若干预设路段的交通状态以得到当前的联合交通状态。

S204、判断所述当前的联合交通状态是否满足预设状态。

预设状态指的是所有预设路段中至少有预设数量的预设路段发生了交通拥堵，且每一发生交通拥堵的预设路段的拥堵时间大于或等于一个时间阈值，该预设数量和时间阈值可被设置，例如预设数量为总预设路段的1/4，时间阈值为 0.5h。

S205、若所述当前的联合交通状态满足预设状态，基于所述当前的联合交通状态以及所述Q矩阵控制所述若干预设路段的交通信号灯的通行切换时间。

当预设路段不发生拥堵或拥堵情况尚不严重时，不需要智能控制交通信号灯，按照初始设置的条件进行交通指示即可。

S206、在当前时间达到第二预设时间时，恢复所述若干预设路段的交通信号灯初始的通行切换时间。

在一实施例中，设置第二预设时间为上下班高峰期结束的时间点，例如早上9：00以及下午19:30，在上、下班高峰期结束后，恢复交通信号灯初始的通行指示规则，实现交通信号灯的智能调控。

本发明实施例的步骤S201-S203、S205中的基于所述当前的联合交通状态以及所述Q矩阵控制所述若干预设路段的交通信号灯的通行切换时间的步骤，与上述方法实施例完全一致，因此本实施例不做赘述。

本发明的交通信号灯的控制方法，通过训练Q-Learning算法模型得到交通状态对应交通信号灯通行切换时间的选择行为的Q矩阵，在交通拥堵的时段，利用强化学习的结果，即Q矩阵，实现对交通信号灯的控制，通过改变交通信号灯的通行切换时间来达到改善整体交通情况，缓解交通拥堵的状态。

图5为本发明实施例提供的一种交通信号灯的控制装置100的示意性框图。该交通信号灯的控制装置100包括第一获取单元101、机器学习单元102、第二获取单元103以及控制单元104。

第一获取单元101用于获取交通环境训练数据，所述交通环境训练数据包括若干预设路段的联合路口行为以及在不同联合路口行为下所述若干预设路段的联合交通状态，所述联合路口行为包括每一预设路段的交通信号灯的通行切换时间。

机器学习单元102用于基于Q-Learning算法对所述交通环境训练数据进行深度学习以得到联合交通状态与联合路口行为对应的Q矩阵，其中，所述Q矩阵中的任一Q值表示在对应的联合交通状态下选择对应的联合路口行为所得的若干预设路段的联合交通状态改善的总收益。

第二获取单元103用于若当前时间为第一预设时间，每预设周期获取所述若干预设路段的交通状态以得到当前的联合交通状态。

控制单元104用于基于所述当前的联合交通状态以及所述Q矩阵控制所述若干预设路段的交通信号灯的通行切换时间。

在一实施例中，如图6所示，机器学习单元102包括以下子单元：

设置子单元1021，用于设置Q-Learning算法的奖惩规则、折扣因子γ；

学习子单元1022，用于基于所述奖惩规则，利用Q-Learning算法学习所述交通环境训练数据以得到联合交通状态与联合路口行为对应的Reward矩阵以及各联合交通状态之间的转换概率T矩阵，所述Reward矩阵包括不同的联合交通在不同的联合路口行为下对应的Reward值，所述转换概率T矩阵包括任一联合交通状态在任一联合路口行为下转化为另一联合交通状态的概率；以及

计算子单元1023，用于根据公式计算联合交通状态S在联合路口行为下的Q值，以得到联合交通状态与联合路口行为对应的Q矩阵，其中，T(S,A,S’)为联合交通状态S在联合路口行为A下转化为联合交通状态S’的概率，max[R(S’)]表示联合交通状态S’在不同的联合路口行为下所能得到的最大Reward值。

在一实施例中，如图7所示，控制单元104包括以下子单元：

第一获取子单元1041，用于从所述Q矩阵中获取所述当前的联合交通状态下的最大Q值；

第二获取子单元1042，用于获取所述最大Q值对应的联合路口行为以得到每一预设路段的交通信号灯的通行切换时间；以及

控制子单元，用于控制所述若干预设路段的交通信号灯按对应的通行切换时间进行交通指示。

图8为本发明实施例提供的一种交通信号灯的控制装置100的示意性框图。该交通信号灯的控制装置100包括第一获取单元201、机器学习单元202、第二获取单元203、判断单元204、控制单元205以及恢复单元206。

第一获取单元201用于获取交通环境训练数据，所述交通环境训练数据包括若干预设路段的联合路口行为以及在不同联合路口行为下所述若干预设路段的联合交通状态，所述联合路口行为包括每一预设路段的交通信号灯的通行切换时间。

机器学习单元202用于基于Q-Learning算法对所述交通环境训练数据进行深度学习以得到联合交通状态与联合路口行为对应的Q矩阵，其中，所述Q矩阵中的任一Q值表示在对应的联合交通状态下选择对应的联合路口行为所得的若干预设路段的联合交通状态改善的总收益。

第二获取单元203用于若当前时间为第一预设时间，每预设周期获取所述若干预设路段的交通状态以得到当前的联合交通状态。

判断单元204用于判断所述当前的联合交通状态是否满足预设状态。

控制单元205用于若所述当前的联合交通状态满足预设状态，基于所述当前的联合交通状态以及所述Q矩阵控制所述若干预设路段的交通信号灯的通行切换时间。

恢复单元206用于若当前时间达到第二预设时间，恢复所述若干预设路段的交通信号灯初始的通行切换时间。

上述交通信号灯的控制装置100与前述交通信号灯的控制方法对应，本实施例中对交通信号灯的控制装置100未详尽之处可参考前述方法实施例，此处不做赘述。

上述交通信号灯的控制装置100可以实现为一种计算机程序的形式，计算机程序可以在如图9所示的计算机设备上运行。

图9为本发明实施例提供的一种计算机设备300的结构示意性框图。该计算机设备300，该计算机设备300可以是终端，也可以是服务器，其中，终端可以是智能手机、平板电脑、笔记本电脑、台式电脑、个人数字助理和穿戴式设备等具有通信功能的电子设备。服务器可以是独立的服务器，也可以是多个服务器组成的服务器集群。

该计算机设备300，包括通过系统总线301连接的处理器302、存储器和网络接口305，其中，存储器可以包括非易失性存储介质303和内存储器304。

该计算机设备300的非易失性存储介质303可存储操作系统3031和计算机程序3032，该计算机程序3032被执行时，可使得处理器302执行一种交通信号灯的控制方法。该内存储器304为非易失性存储介质303中的计算机程序 3032的运行提供环境。该计算机设备300的处理器302用于提供计算和控制能力，支撑整个计算机设备300的运行。计算机设备300的网络接口305用于进行网络通信，如发送分配的任务、接收数据等。

本领域技术人员可以理解，图9中示出的计算机设备的实施例并不构成对计算机设备具体构成的限定，在其他实施例中，计算机设备可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件布置。例如，在一些实施例中，计算机设备可以仅包括存储器及处理器，在这样的实施例中，存储器及处理器的结构及功能与图9所示实施例一致，在此不再赘述。

处理器302运行非易失性存储介质303中的计算机程序3032时，处理器 302执行以下步骤：获取交通环境训练数据，所述交通环境训练数据包括若干预设路段的联合路口行为以及在不同联合路口行为下所述若干预设路段的联合交通状态，所述联合路口行为包括每一预设路段的交通信号灯的通行切换时间；基于Q-Learning算法对所述交通环境训练数据进行深度学习以得到联合交通状态与联合路口行为对应的Q矩阵，其中，所述Q矩阵中的任一Q值表示在对应的联合交通状态下选择对应的联合路口行为所得的若干预设路段的联合交通状态改善的总收益；若当前时间为第一预设时间，每预设周期获取所述若干预设路段的交通状态以得到当前的联合交通状态；基于所述当前的联合交通状态以及所述Q矩阵控制所述若干预设路段的交通信号灯的通行切换时间。

在一实施例中，所述处理器302在执行所述基于Q-Learning算法对所述交通环境训练数据进行深度学习以得到联合交通状态与联合路口行为对应的Q矩阵的步骤时，具体执行以下步骤：设置Q-Learning算法的奖惩规则、折扣因子 γ；基于所述奖惩规则，利用Q-Learning算法学习所述交通环境训练数据以得到联合交通状态与联合路口行为对应的Reward矩阵以及各联合交通状态之间的转换概率T矩阵，所述Reward矩阵包括不同的联合交通在不同的联合路口行为下对应的Reward值，所述转换概率T矩阵包括任一联合交通状态在任一联合路口行为下转化为另一联合交通状态的概率；根据公式计算联合交通状态S在联合路口行为下的Q值，以得到联合交通状态与联合路口行为对应的Q矩阵，其中，T(S,A,S’) 为联合交通状态S在联合路口行为A下转化为联合交通状态S’的概率， max[R(S’)]表示联合交通状态S’在不同的联合路口行为下所能得到的最大 Reward值。

在一实施例中，所述处理器302在执行所述基于所述当前的联合交通状态以及所述Q矩阵控制所述若干预设路段的交通信号灯的通行切换时间的步骤时，具体执行以下步骤：从所述Q矩阵中获取所述当前的联合交通状态下的最大Q 值；获取所述最大Q值对应的联合路口行为以得到每一预设路段的交通信号灯的通行切换时间；控制所述若干预设路段的交通信号灯按对应的通行切换时间进行交通指示。

在一实施例中，所述处理器302在执行所述基于所述当前的联合交通状态以及所述Q矩阵控制所述若干预设路段的交通信号灯的通行切换时间的步骤之前，还执行以下步骤：判断所述当前的联合交通状态是否满足预设状态；若所述当前的联合交通状态满足预设状态，执行所述基于所述当前的联合交通状态以及所述Q矩阵控制所述若干预设路段的交通信号灯的通行切换时间的步骤。

在一实施例中，所述处理器302在执行所述基于所述当前的联合交通状态以及所述Q矩阵控制所述若干预设路段的交通信号灯的通行切换时间的步骤之后，还执行以下步骤：若当前时间达到第二预设时间，恢复所述若干预设路段的交通信号灯初始的通行切换时间。

应当理解，在本申请实施例中，处理器302可以是中央处理单元(CentralProcessing Unit，CPU)，该处理器302还可以是其他通用处理器、数字信号处理器(Digital Signal Processor，DSP)、专用集成电路(Application Specific IntegratedCircuit，ASIC)、现成可编程门阵列(Field-Programmable Gate Array， FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。其中，通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。

本领域普通技术人员可以理解的是实现上述实施例的方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成。该计算机程序包括程序指令，计算机程序可存储于一存储介质中，该存储介质为计算机可读存储介质。该程序指令被该计算机系统中的至少一个处理器执行，以实现上述方法的实施例的流程步骤。

因此，本发明还提供一种存储介质，所述存储介质存储有一个或者一个以上计算机程序，所述一个或者一个以上计算机程序可被一个或者一个以上的处理器执行，可实现以下步骤：获取交通环境训练数据，所述交通环境训练数据包括若干预设路段的联合路口行为以及在不同联合路口行为下所述若干预设路段的联合交通状态，所述联合路口行为包括每一预设路段的交通信号灯的通行切换时间；基于Q-Learning算法对所述交通环境训练数据进行深度学习以得到联合交通状态与联合路口行为对应的Q矩阵，其中，所述Q矩阵中的任一Q 值表示在对应的联合交通状态下选择对应的联合路口行为所得的若干预设路段的联合交通状态改善的总收益；若当前时间为第一预设时间，每预设周期获取所述若干预设路段的交通状态以得到当前的联合交通状态；基于所述当前的联合交通状态以及所述Q矩阵控制所述若干预设路段的交通信号灯的通行切换时间。

在一实施例中，在实现所述基于Q-Learning算法对所述交通环境训练数据进行深度学习以得到联合交通状态与联合路口行为对应的Q矩阵的步骤时，具体实现以下步骤：设置Q-Learning算法的奖惩规则、折扣因子γ；基于所述奖惩规则，利用Q-Learning算法学习所述交通环境训练数据以得到联合交通状态与联合路口行为对应的Reward矩阵以及各联合交通状态之间的转换概率T矩阵，所述Reward矩阵包括不同的联合交通在不同的联合路口行为下对应的 Reward值，所述转换概率T矩阵包括任一联合交通状态在任一联合路口行为下转化为另一联合交通状态的概率；根据公式计算联合交通状态S在联合路口行为下的Q值，以得到联合交通状态与联合路口行为对应的Q矩阵，其中，T(S,A,S') 为联合交通状态S在联合路口行为A下转化为联合交通状态S'的概率， max[R(S')]表示联合交通状态S'在不同的联合路口行为下所能得到的最大 Reward值。

在一实施例中，在实现所述基于所述当前的联合交通状态以及所述Q矩阵控制所述若干预设路段的交通信号灯的通行切换时间的步骤时，具体实现以下步骤：从所述Q矩阵中获取所述当前的联合交通状态下的最大Q值；获取所述最大Q值对应的联合路口行为以得到每一预设路段的交通信号灯的通行切换时间；控制所述若干预设路段的交通信号灯按对应的通行切换时间进行交通指示。

在一实施例中，在实现所述基于所述当前的联合交通状态以及所述Q矩阵控制所述若干预设路段的交通信号灯的通行切换时间的步骤之前，还实现以下步骤：判断所述当前的联合交通状态是否满足预设状态；若所述当前的联合交通状态满足预设状态，实现所述基于所述当前的联合交通状态以及所述Q矩阵控制所述若干预设路段的交通信号灯的通行切换时间的步骤。

在一实施例中，在实现所述基于所述当前的联合交通状态以及所述Q矩阵控制所述若干预设路段的交通信号灯的通行切换时间的步骤之后，还实现以下步骤：若当前时间达到第二预设时间，恢复所述若干预设路段的交通信号灯初始的通行切换时间。

所述存储介质可以是U盘、移动硬盘、只读存储器(Read-Only Memory， ROM)、磁碟或者光盘等各种可以存储程序代码的计算机可读存储介质。

本领域普通技术人员可以意识到，结合本文中所公开的实施例描述的各示例的单元及算法步骤，能够以电子硬件、计算机软件或者二者的结合来实现，为了清楚地说明硬件和软件的可互换性，在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本发明的范围。

在本发明所提供的几个实施例中，应该理解到，所揭露的装置和方法，可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的。例如，各个单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式。例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。

本发明实施例方法中的步骤可以根据实际需要进行顺序调整、合并和删减。本发明实施例装置中的单元可以根据实际需要进行合并、划分和删减。另外，在本发明各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以是两个或两个以上单元集成在一个单元中。

该集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分，或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，终端，或者网络设备等) 执行本发明各个实施例所述方法的全部或部分步骤。

以上所述，仅为本发明的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到各种等效的修改或替换，这些修改或替换都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应以权利要求的保护范围为准。

Claims

1.一种交通信号灯的控制方法，其特征在于，包括：

获取交通环境训练数据，所述交通环境训练数据包括若干预设路段的联合路口行为以及在不同联合路口行为下所述若干预设路段的联合交通状态，所述联合路口行为包括每一预设路段的交通信号灯的通行切换时间；

基于Q-Learning算法对所述交通环境训练数据进行深度学习以得到联合交通状态与联合路口行为对应的Q矩阵，其中，所述Q矩阵中的任一Q值表示在对应的联合交通状态下选择对应的联合路口行为所得的若干预设路段的联合交通状态改善的总收益；

若当前时间为第一预设时间，每预设周期获取所述若干预设路段的交通状态以得到当前的联合交通状态；

基于所述当前的联合交通状态以及所述Q矩阵控制所述若干预设路段的交通信号灯的通行切换时间。

2.根据权利要求1所述的交通信号灯的控制方法，其特征在于，所述基于Q-Learning算法对所述交通环境训练数据进行深度学习以得到联合交通状态与联合路口行为对应的Q矩阵，包括：

设置Q-Learning算法的奖惩规则、折扣因子γ；

基于所述奖惩规则，利用Q-Learning算法学习所述交通环境训练数据以得到联合交通状态与联合路口行为对应的Reward矩阵以及各联合交通状态之间的转换概率T矩阵，所述Reward矩阵包括不同的联合交通在不同的联合路口行为下对应的Reward值，所述转换概率T矩阵包括任一联合交通状态在任一联合路口行为下转化为另一联合交通状态的概率；

根据公式计算联合交通状态S在联合路口行为下的Q值，以得到联合交通状态与联合路口行为对应的Q矩阵，其中，T(S,A,S’)为联合交通状态S在联合路口行为A下转化为联合交通状态S’的概率，max[R(S’)]表示联合交通状态S’在不同的联合路口行为下所能得到的最大Reward值。

3.根据权利要求1所述的交通信号灯的控制方法，其特征在于，所述基于所述当前的联合交通状态以及所述Q矩阵控制所述若干预设路段的交通信号灯的通行切换时间，包括：

从所述Q矩阵中获取所述当前的联合交通状态下的最大Q值；

获取所述最大Q值对应的联合路口行为以得到每一预设路段的交通信号灯的通行切换时间；

控制所述若干预设路段的交通信号灯按对应的通行切换时间进行交通指示。

4.根据权利要求1所述的交通信号灯的控制方法，其特征在于，所述基于所述当前的联合交通状态以及所述Q矩阵控制所述若干预设路段的交通信号灯的通行切换时间之前，还包括：

判断所述当前的联合交通状态是否满足预设状态；

若所述当前的联合交通状态满足预设状态，执行所述基于所述当前的联合交通状态以及所述Q矩阵控制所述若干预设路段的交通信号灯的通行切换时间的步骤。

5.根据权利要求1所述的交通信号灯的控制方法，其特征在于，所述基于所述当前的联合交通状态以及所述Q矩阵控制所述若干预设路段的交通信号灯的通行切换时间之后，还包括：

若当前时间达到第二预设时间，恢复所述若干预设路段的交通信号灯初始的通行切换时间。

6.一种交通信号灯的控制装置，其特征在于，包括：

第一获取单元，用于获取交通环境训练数据，所述交通环境训练数据包括若干预设路段的联合路口行为以及在不同联合路口行为下所述若干预设路段的联合交通状态，所述联合路口行为包括每一预设路段的交通信号灯的通行切换时间；

机器学习单元，用于基于Q-Learning算法对所述交通环境训练数据进行深度学习以得到联合交通状态与联合路口行为对应的Q矩阵，其中，所述Q矩阵中的任一Q值表示在对应的联合交通状态下选择对应的联合路口行为所得的若干预设路段的联合交通状态改善的总收益；

第二获取单元，用于若当前时间为第一预设时间，每预设周期获取所述若干预设路段的交通状态以得到当前的联合交通状态；

控制单元，用于基于所述当前的联合交通状态以及所述Q矩阵控制所述若干预设路段的交通信号灯的通行切换时间。

7.根据权利要求6所述的交通信号灯的控制装置，其特征在于，所述控制单元包括：

第一获取子单元，用于从所述Q矩阵中获取所述当前的联合交通状态下的最大Q值；

第二获取子单元，用于获取所述最大Q值对应的联合路口行为以得到每一预设路段的交通信号灯的通行切换时间；

8.根据权利要求6所述的交通信号灯的控制装置，其特征在于，还包括：

恢复单元，用于若当前时间达到第二预设时间，恢复所述若干预设路段的交通信号灯初始的通行切换时间。

9.一种计算机设备，其特征在于，包括存储器，以及与所述存储器相连的处理器；

所述存储器用于存储实现交通信号灯的控制方法的计算机程序；

所述处理器用于运行所述存储器中存储的计算机程序，以执行如权利要求1至5任一项所述的方法。

10.一种存储介质，其特征在于，所述存储介质存储有一个或者一个以上计算机程序，所述一个或者一个以上计算机程序可被一个或者一个以上的处理器执行，以实现如权利要求1至5任一项所述的方法。