CN112400192A

CN112400192A - 多模态深度交通信号控制的方法和系统

Info

Publication number: CN112400192A
Application number: CN201980038810.7A
Authority: CN
Inventors: B·阿卜杜拉伊; S·沙贝斯塔里
Original assignee: University of Toronto
Current assignee: University of Toronto
Priority date: 2018-04-20
Filing date: 2019-04-17
Publication date: 2021-02-23
Anticipated expiration: 2039-04-17
Also published as: CN112400192B; EP3782143A4; WO2019200477A1; EP3782143B1; CA3097771A1; EP3782143A1; US20210241616A1

Abstract

提供了一种用于交通网络的交叉路口的交通信号控制的系统和方法。该方法包括：接收传感器读数，该传感器读数包括与接近交叉路口的车辆相关联的多个物理特性；基于单元网格离散化所述传感器读数；为每个单元关联表示物理特性的值；产生与物理特性相关的矩阵；将与多个物理特性中的每一个相关联的每个矩阵作为单独的层组合在多层矩阵中；使用受交通控制训练集训练的机器学习模型，以多层矩阵作为输入来确定一个或多个交通动作，所述交通控制训练集包括针对交叉路口处的多个交通场景的先前确定的多层矩阵；并将所述一个或多个动作传达给交通网络。

Description

多模态深度交通信号控制的方法和系统

技术领域

以下总体上涉及交通信号控制，更具体地，涉及用于交通网络的交叉路口的交通信号控制的方法和系统。

背景技术

交通拥堵是一个主要的经济问题，每年给一些市政当局造成数十亿美元的损失。为了减轻这个问题，已经提出了与预定时和驱动的信号控制相反的各种自适应交通信号控制技术。

一些自适应交通信号控制系统依赖于专家调整，由于资源限制对于数据是有选择性的，或者严重依赖队列长度来确定交通信令响应。

发明内容

一方面，提供一种用于交通网络的交叉路口的交通信号控制的方法，所述交通网络包括一个或多个传感器，所述方法包括：从所述一个或多个传感器接收传感器读数，该传感器读数包括与接近交叉路口的车辆相关的多个物理特性；基于投射到接近交叉路口的一个或多个街道上的单元网格离散化所述传感器读数；对于所述多个物理特性中的每一个，针对所述单元网格中的每个单元，如果车辆至少部分地占据了该单元，则为单元网格中的该单元关联代表与所述车辆中的每一辆相关的物理特性的相应值，否则为该单元关联空值，并生成与该物理特性相关联的矩阵，该矩阵包括单元网格中每个单元的相应值；将与所述多个物理特性中的每一个相关联的每个矩阵作为单独的层组合在多层矩阵中；使用受交通控制训练集训练的机器学习模型，以所述多层矩阵作为输入来确定一个或多个交通动作，所述交通控制训练集包括针对交叉路口处的多个交通场景的先前确定的多层矩阵；和将所述一个或多个动作传达给交通网络。

在该方法的特定情况下，物理特性之一是车辆的速度，而另一物理特性是车辆的位置。

在另一种情况下，物理特性之一是车辆的乘客量。

在另一种情况下，使用每种车辆的平均乘客量来近似表示车辆的乘客量的数据。

在另一种情况下，车辆中的至少一辆是公共交通客运车辆，并且其中与车辆乘客量相关联的传感器包括与公共交通客运车辆相关联的自动乘客计数器。

在又一情况下，机器学习模型包括卷积神经网络和强化学习。

在另一种情况下，机器学习模型包括通过迭代更新Q值函数进行的Q学习，其中一个或多个交通行为的确定被确定为具有最高Q值的交通行为。

在又一情况下，机器学习模型用于通过使接近交叉路口的车辆的累积延迟最小化来优化奖励函数，该奖励函数包括先前迭代的累积延迟减去当前迭代的累积延迟。

在另一种情况下，累积延迟被确定为在交叉路口的每个进入路径中车辆的每种可能移动上的延迟的总和。

在又一情况下，如果车辆的速度低于预定速度阈值，则认为车辆被延迟。

在另一方面，提供了一种用于交通网络的交叉路口的交通信号控制的系统，所述交通网络包括一个或多个传感器，所述系统包括一个或多个处理器和数据存储器，所述一个或多个处理器可配置为执行：数据提取模块，用于：从所述一个或多个传感器接收传感器读数，该传感器读数包括与接近交叉路口的车辆相关的多个物理特性；基于投射到接近交叉路口的一个或多个街道上的单元网格离散化所述传感器读数；对于所述多个物理特性中的每一个，针对所述单元网格中的每个单元，如果车辆至少部分地占据该单元，则为单元网格中的该单元关联代表与每个车辆相关的物理特性的相应值，否则为该单元关联空值，并生成与该物理特性相关联的矩阵，该矩阵包括该单元网格中每个单元的相应值；机器学习模块，用于将与所述多个物理特性中的每一个相关联的每个矩阵作为的单独的层组合在多层矩阵中，并使用受交通控制训练集训练的机器学习模型，以多层矩阵作为输入来确定一个或多个交通动作，所述交通控制训练集包括针对交叉路口处的多个交通场景的先前确定的多层矩阵；和控制器模块，用于将一个或多个动作传达给交通网络。

在系统的特定情况下，物理特性之一是车辆的速度，而另一物理特性是车辆的位置。

在另一种情况下，物理特性之一是车辆的乘客量。

在又一情况下，使用每种车辆的平均乘客量来近似表示车辆乘客量的数据。

在另一种情况下，车辆中的至少一辆是公共交通客运车辆，并且其中与车辆的乘客量相关联的传感器包括与公共交通客运车辆相关联的自动乘客计数器。

在另一种情况下，机器学习模型包括卷积神经网络和强化学习。

在又一情况下，机器学习模型包括通过迭代更新Q值函数进行Q的学习，并且其中一个或多个交通动作的确定被确定为具有最高Q值的交通动作。

在又一情况下，机器学习模型用于通过最小化接近交叉路口的车辆的累积延迟来优化奖励函数，该奖励函数包括先前动作迭代的累积延迟减去当前迭代的累积延迟。

在本文中预期和描述了这些和其他实施例。将理解的是，前述概述阐述了系统和方法的代表性方面，以帮助熟练的读者理解以下详细描述。

附图说明

在下面的详细描述中，本发明的特征将变得更加明显，在这些详细描述中参考了附图，其中：

图1是根据一个实施例的用于交通网络的交叉路口的交通信号控制的系统的示意图；

图2是示出图1的系统以及示例性操作环境的示意图；

图3是根据一个实施例的用于交通网络的交叉路口的交通信号控制的方法的流程图；

图4是用于图1的系统的机器学习控制布置的图；

图5是用于图1的系统的另一机器学习控制布置的图；

图6是用于图5的系统的另一机器学习控制布置的图；

图7是交叉路口的俯视图的图示，其示出了接近交叉路口的车辆的示例性传感器读数；

图8示出了以网格状方式使接近交叉路口的街道离散化的示例；

图9示出了具有两个单向街道进入路径的示例性交叉路口；

图10示出感测正在接近图9的交叉路口的人；

图11示出了交通信号灯针对图9的交叉路口的进入路径之一变为绿色；

图12示出了整个交叉路口的离散化的图。

具体实施方式

现在将参考附图描述实施例。为了图示的简化和清楚起见，在认为适当的情况下，可以在附图之间重复附图标记以指示相应或相似的元件。另外，阐述了许多具体细节以便提供对本文描述的实施例的透彻理解。然而，本领域普通技术人员将理解，可以在没有这些具体细节的情况下实践本文描述的实施例。在其他情况下，未详细描述公知的方法，过程和组件，以免使本文所述的实施例不清楚。而且，该描述不应被认为是限制本文描述的实施例的范围。

除非上下文另外指出，否则贯穿本说明书使用的各种术语可以如下阅读和理解：贯穿使用的“或”是包括性的，就好像写为“和/或”；贯穿全文使用的单数冠词和代词包括其复数形式，反之亦然；类似地，性别代词包括其配对物代词，因此代词不应被理解为将本文所述的任何内容限制为经由单一性别的使用、实现、表现等。“示例性”应被理解为“说明性”或“示例用的”，而不一定被理解为“优于”其他实施例。术语的进一步定义可以在本文中阐述。如从阅读本说明书将理解的，这些定义可以应用于那些术语的先前和随后的实例。

在此示例的执行指令的任何模块，单元，组件，服务器，计算机，终端，引擎或设备可以包括或可以访问计算机可读介质，例如存储介质，计算机存储介质或数据存储设备(可移动和(或不可移动的)，例如磁盘，光盘或磁带。计算机存储介质可以包括以用于存储信息的任何方法或技术实现的易失性和非易失性，可移动和不可移动介质，例如计算机可读指令，数据结构，程序模块或其他数据。计算机存储介质的示例包括RAM，ROM，EEPROM，闪存或其他存储技术，CD-ROM，数字多功能磁盘(DVD)或其他光学存储，盒式磁带，磁带，磁盘存储或其他磁性存储设备，或可以用于存储所需信息并且可以由应用程序，模块或两者访问的任何其他介质。任何这样的计算机存储介质都可以是设备的一部分，或者可以访问或连接到设备。此外，除非上下文另外明确指出，否则本文阐述的任何处理器或控制器都可以被实现为单个处理器或多个处理器。可以排列或分布多个处理器，并且即使可能例示为单个处理器，本文所指的任何处理功能也可以由一个或多个处理器执行。可以使用计算机可读/可执行指令来实现本文描述的任何方法，应用或模块，该计算机可读/可执行指令可以由这种计算机可读介质存储或以其他方式保持并且由一个或多个处理器执行。

以下总体上涉及交通信号控制，并且更具体地，涉及用于交通网络的交叉路口的交通信号控制的方法和系统。

交通信号控制器通常用于最大化和/或优化通过具有交通信号灯(或用于可变交通控制的其他方法或设备)的交叉路口的交通流。通常基于对交叉路口的交通进行完美或接近完美检测的假设来设计交通信号控制器。这些类型的控制器在现场应用中经常遇到挑战。在许多情况下，控制器会评估队列长度信息，通常会假设此类信息由摄像机无缝且完美地提供。但是，实际上，这种队列检测可能具有有限的检测区域，不准确的检测以及与天气有关的检测问题。在某些情况下，来自加入队列的上游汽车的部分信息被包括在内，以便为交通信号控制器提供更多信息。通常，需要根据具体情况对此类信息进行大量预处理；因此，可能需要更改控制器的结构或可能会占用大量资源。

交通信号控制器通常还将每种交通类型视为相同的以进行交通优化；例如，将汽车等同于公共汽车，等同于摩托车，依此类推。因此，这种控制器将低乘客量的载客车辆有效地等同于高乘客量的公共交通客运车辆。将此类车辆视为不等同的车辆通常会出现问题；特别是：1)如果此类控制器要优先考虑公共交通客运，则这会导致正常交通中断，并且在大多数情况下，导致所有模式下的平均延误更高；2)引入新模式通常需要专家知识来为控制器提取有用的信息；3)对于控制器的已经高维度的状态空间，通常导致更复杂的状态空间。本文描述的实施例使用结合深度学习和强化学习方法的技术解决方案解决了至少一些以上技术问题。

本文所述的实施例有利地与来自传感器的高维度原始信息一起工作，所述传感器诸如雷达，联网车辆或摄像头。有利地，本文描述的实施例的交通信号控制器的结构可以是固定的，并且能够在不进行预处理的情况下以各种大小处理原始信息。本文所述的实施例还有利地具有针对常规车辆交通和公共交通客运两者同时优化在交叉路口的通行时间的能力。本文所述的实施例还有利地处理来自传感器的较大的输入信息，对于常规方法，这是由于维度和问题尺寸蠕变而引起的问题。

现在参考图1，示出了根据一个实施例的，用于交通网络的交叉路口的多模式深度交通信号控制的系统100。在该实施例中，系统100在本地计算设备(图2中的26)上运行，并且通过诸如因特网(图2中的24)的网络访问位于服务器(图2中的32)上的内容。在进一步的实施例中，系统100可以在任何合适的计算设备上运行；例如，服务器(图2中的32)。

在一些实施例中，系统100的组件由单个计算机系统存储并在单个计算机系统上执行。在其他实施例中，系统100的组件分布在可以本地或远程分布的两个或更多个计算机系统之间。

图1示出了系统100的实施例的各种物理和逻辑组件。如图所示，系统100具有多个物理和逻辑组件，包括中央处理单元(“CPU”)102(包括一个或多个处理器)，随机存取存储器(“RAM”)104，用户界面106，交通网络接口108，网络接口110，非易失性存储器112和使CPU102与其他组件进行通信的本地总线114。CPU 102执行操作系统和各种模块，如下文更详细地描述。RAM 104向CPU 102提供相对敏感的易失性存储。用户界面106使管理员或用户能够经由输入设备(例如，键盘和鼠标)提供输入。用户界面106还可以将信息输出到输出设备(例如显示器和/或扬声器)给用户。交通网络接口108与交通信号灯网络150通信，并从交通信号灯网络接收传感器读数，如本文所述。网络接口110允许与其他系统通信，例如对于典型的基于云的访问模型，与远离系统100的其他计算设备和服务器通信。非易失性存储器112存储操作系统和程序，包括用于实现操作系统和模块的计算机可执行指令，以及这些服务使用的任何数据。如下所述，可以将附加的存储数据存储在数据库116中。在系统100的操作过程中，可以从非易失性存储112中检索操作系统，模块和相关数据，并将其放置在RAM104中，便于执行。

在一个实施例中，系统100还包括分别在一个或多个处理器110上执行的控制器模块120，数据提取模块122，机器学习模块124和动作模块126。在某些情况下，控制器模块120，数据提取模块122，机器学习模块124和动作模块126的功能和/或操作可以在其他模块上组合或执行。

机器学习模块124包括一种或多种机器学习方法。在一个实施例中，机器学习模块124包括：一个或多个用于解释高维感官数据的卷积神经网络(CNN)，作为管理交通网络的连续功能的函数逼近器的一个或多个神经网络(NN)(例如全连接神经网络(FNN))，以及用于学习如何为交通网络的用户优化通行时间的强化学习(RL)。在该实施例中，整体上同时进行针对CNN，NN和RL的训练。换句话说，这些机器学习方法中的每一种都不会被处理或分配为实现单独的目标。系统100将CNN，NN和RL训练为一个单元，以实现优化交通信号的单个目标。在特定情况下，实例化时，每种方法都在不知道其特定角色的情况下学习其任务。在特定情况下，如图4所示，CNN和NN的组合被称为“深度神经网络”，而这三种方法一起被称为“深度学习”。

在一种特定的方法中，智能交通信号灯控制可以利用RL来学习最佳策略，以最大限度地减少驾驶员的通行时间，如图5所示。RL是一种适用于具有高度复杂动态特性的最优控制问题的技术。通常，这些控制问题或者很难建模，很难控制，或者两者兼而有之。在RL中，控制器(有时也称为“代理”)通常对应用环境不了解。在启动时，代理开始采取随机动作，称为探索。对于每个动作，代理都会通过传感器观察环境发生的变化。代理还收到数字信号，称为奖励，作为其动作成功的指标。在最佳控制方案中，代理的目标是优化累积奖励信号，而不只是优化收到的每个即时奖励。

对于诸如交通信号控制之类的问题，代理的动作可能会影响系统的未来状态，因此机器学习模块124通常必须考虑代理动作的未来后果，而不仅限于直接的影响。经过一段时间或多次探索迭代后，代理开始了解环境，并采取较少的随机动作。取而代之的是，它会根据自己的经验采取动作，从而带来更好的性能。在该实施例中，机器学习模块124使用Q学习，一种RL方法。Q学习使用Q值函数Q(s，a)来预测系统处于状态s之后采取行动a后收到的预期累积奖励。RL代理的目标是学习此功能并采取使将来获得的预期累积奖励最大化的动作。首先，Q值函数的值以零或随机数初始化。在这种方法中，使用以下方法更新Q值函数(其中Q^k是时间步长k的Q的估计值)：

初始化Q⁰(s，a)，S⁰

使用Q值导出的策略在s⁰处选择a⁰

对每个时间步重复：

采取动作a^k，观察r^k，s^k+1

Q^k(s^k，a^k)＝Q^k-1(s^k，a^k)+α[r^k+γmax_aQ^k-1(s^k+1，a^k+1)-Q^k-1(s^k，a^k)]

使用从Q值导出的策略在s^k+1处选择a^k+1，并进行一些探索

s^k＝s^k+1；a^k＝a^k+1

通常，RL最适合离散环境并以表格格式工作。由于这些特性，RL通常仅在状态空间较小的系统上工作。随着状态空间中每个额外特征的出现，Q表的大小呈指数增长，这可能导致所谓的维数灾难。另外，为了将RL应用于连续空间问题，通常必须离散状态值，这通常需要专家对问题的了解。离散化的另一个问题是，如果离散化过于粗糙，则代理可能无法正确执行，因为它无法感知状态的变化。如果离散化太精细，则Q表的维数会增加，并且通常会引起维数问题。另外，由于代理分别学习每个状态操作的值，因此它具有有限的概括能力，并且当面对未访问的状态(Q矩阵中的单元格为空或学习不足)时，其性能不佳。此外，随着Q表的大小增加，训练时间也会增加，因为代理必须访问每个状态-动作对足够的时间才能获得有意义的经验。

在系统100中，至少解决上述问题，除了RL算法之外，还包括神经网络(NN)作为函数逼近器，如图26所示。在特定情况下，NN和RL的结合可能会带来稳定性问题。NN和RL都是基于采样数据进行训练的。NN通常需要馈入非相关输入以收敛，而在RL中，每个输入数据都与其上一个和下一个数据样本(s^k-1，s^k，s^k+1)相关联。并且，在RL中，总的目标是在给定以下条件的情况下最小化Q值的时间差(TD)：

TD＝Q^k(s^k，a^k)-[r^k+γQ^k-1(s^k+1，a^k+1)]

其中s^k是交通环境的状态，由感官信息描述；a^k是控制器的动作，用指示在下一个时间步中将变为绿色的相位(如果a^k＝a^k-1，则当前的绿色相位会扩展)；r^k是控制器在将a^k应用于环境之后立即收到的累积延迟减少的奖励值。因此，在应用动作a^k之后，交叉路口的状态更改为新状态s^k+1。(s^k-1，s^k，s^k+1)的整个序列是系统100与交通环境的一次完整交互。在特定情况下，训练数据包括许多(例如，成千上万个)这样的序列，系统100使用这些序列来更新其从状态到最佳动作的映射(例如，通过Q函数)。在某些情况下，可以直接在现实生活中(即在现场)观察训练序列。在其他情况下，可以在模拟环境(真实交叉路口的虚拟副本)中观察训练序列。在某些情况下，在安全的模拟环境中训练模型至成熟，然后在现场部署系统100可能更合适。在某些情况下，当观察到新数据时，可以继续在现场对模型进行训练和完善。

就NN而言，最小化TD意味着NN的目标是r^k+γQ^k-1(s^k+1，a^k+1)。因此，NN的目标本身就是NN输出的函数，并且每次更新都会不断改变。这个不断变化的目标可能会为NN训练带来不稳定问题。为了解决这个问题，本实施例结合了两种技术：体验重播内存和目标网络的定期更新。在“体验重播内存”中，代理存储其与环境的交互，然后再从重播内存中抽取随机样本并对其进行训练。这样，输入样本既不是顺序的也不是相关的。在目标网络的定期更新中，有两个网络定义为Q值逼近器Q(s，a)和Q_target(s，a)。尽管Q(s，a)在每次迭代中都在更新，但是Q_target(s，a)在某个时期(称为目标更新时期)保持不变。新的TD表示为：

TD＝Q(s^k，a^k)-[r^k+γQ_target(s^k+1，a^k+1)]

机器学习模块124周期性地更新Q_target(s，a)目标网络，其速率远低于Q(s，a)网络。使用这种技术，NN的目标(r^k+γQ_target(s^k+1，a^k+1))不会频繁变化，因此训练更加稳定。在一些情况下，机器学习模块124通过用最新的Q(s，a)网络替换旧的Q_target(s，a)目标网络来更新Q_target(s，a)目标网络：

其中C是目标更新周期。

尽管与RL结合使用时，NN可提供更大的灵活性，但通常可能存在一些限制其应用的问题。通常，这样的方法可能需要预处理以从传感器收集信息(即，提取的特征)并组合这样的信息，使得它对于代理来说是紧凑且易于理解的。通常，这种预处理是必需的，因为具有RL的NN不能很好地处理非常大的输入，因此，它们很容易过度拟合。这种预处理通常由专家(例如在目前的情况下，在运输和控制方面都有知识的人)直接设计。此外，在对系统进行修改的情况下(例如，如本文所述添加公共交通客运或上游流信息)，可能需要重新设计预处理，并且可能会增加状态空间的大小。

通常，对交通信号控制问题的状态最常用的度量是接近交通路口的每条街道上的队列长度。但是，使用此度量可能会受到限制，因为它通常会忽略接近队列末端的正在行驶的车辆。另外，通常没有关于队列构成的标准定义；例如，速度阈值，基于该速度阈值车辆将被视为正在行驶或处于队列中，或者处于队列中且现在正在行驶但尚未通过交叉路口的车辆的条件。

在一个实施例中，系统100利用传感器的先进性作为数据源来解决交通控制中的技术问题，例如，使用雷达传感器，高保真计算机视觉和联网车辆。使用来自这样的传感器的数据，系统100可以提取更多详细的信息以在交通网络中实现更好的性能。

有利地，数据提取模块122能够在没有专门知识的情况下接收原始的高维感官输入数据，并使机器学习模块124直接从数据中提取有用的特征。在一个实施例中，机器学习模块124使用称为卷积NN(CNN)的特定类型的NN。此类NN通常用于其他不同的领域，尤其是在图像处理应用中。CNN有利地具有从大量输入(例如图像)中提取有用信息的能力。

在特定情况下，CNN的基本单位称为卷积滤波器。卷积滤波器是用于检查输入的一小部分(例如，图像的一个或多个像素)然后在整个输入上滑动的小区域。在特定情况下，第一层中的过滤器会提取基本信息(例如，输入中一小部分的颜色突然变化)，而随着添加的层数增加，将检测到更复杂的概念(例如，形状，面部和图案)。通常，在输入上滑动的每个滤波器都会产生与输入大小相同的输出。然而，机器学习模块124可以通过诸如跨步或合并的技术来减小输出的大小。例如，通过将过滤器向右移动一个像素，与最后一步相比，过滤器正在处理的输入的新部分仅发生了微小变化；因此，跨步地，机器学习模块124让过滤器在滑动输入时跳过一些像素。如果机器学习模块124一次仅跳过一个像素，它将把输出的大小减小到四分之一。因此，在每一层中，输入的大小可以减少4倍，而通常不会丢失有用的信息。

鉴于CNN通常专门用于图像处理，本发明人认识到将交通传感器输入数据重新配置为类似于图像结构的形式的优点。数据提取模块122将交通传感器数据配置为矩阵形式，其中矩阵的每个单元具有一个值，使得机器学习模块124能够利用CNN。在一个实施例中，从交通信号灯网络150接收交通传感器数据，该交通传感器数据包括从任何高保真感官源接收到的数据；以及例如，一个或多个交通摄像机，一个或多个雷达(例如Smartmicro^TM雷达传感器)，或来自一个或多个联网车辆将其位置和速度传递给交通信号灯网络150。联网车辆可以将此类数据传递给交通网络接口108，或通过例如专用短程通信(DSRC)等直接连接到交通网络接口108。无论使用哪种类型的传感器，系统100都可以访问接近交叉路口的每条街道上的每辆车的位置和速度。

为了以类似于CNN图像的形式呈现交通传感器数据，数据提取模块122可以将街道表面“像素化”为较小的分区或单元。在一个实施例中，每个分区的长度为d米，其宽度等于街道的一个车道。在某些情况下，d的合理值可以是车辆的平均长度。如果d太大，则状态空间将变得过于聚集，并且可能会丢失信息的精度。另一方面，较小的d可能会导致不必要的大状态空间，而不会提供更多信息。因此，每个单元都覆盖了接近交叉路口的街道的一部分。在本实施例中，如果街道上有车辆，则数据提取模块122为与该车辆所占据的街道的分区相对应的特定单元贡献“1”；否则，数据提取模块122贡献“0”。以此方式，数据提取模块122为接近交叉路口的每个街道分配具有整数({0∪N})的矩阵。通过将所有接近交叉路口的街道的矩阵汇总在一起，可以得出接近交叉路口的车辆位置的图像表示。在一个实施例中，数据提取模块122还生成用于车辆接近交叉路口的速度的矩阵。然而，代替数据提取模块122在车辆存在的情况下为单元分配1，而是数据提取模块122利用代表车辆的平均速度的值分配与车辆相关联的单元。因此，数据提取模块122生成相同大小的两个矩阵。数据提取模块122组合这两个矩阵以生成单个2层图像，然后可以将其提供给由机器学习模块124实现的CNN。有利的是，由于不必通过CNN分别运行每个矩阵，组合矩阵因此允许更大的计算资源管理。另外，具有由CNN检查的组合矩阵会更强大，因为它允许系统100捕获位置矩阵和速度矩阵之间的相关性。

图7示出了接近交叉路口的车辆的示例性传感器读数，用于确定车辆的速度和位置以提供给系统100。

在系统100的实施例中，数据提取模块122还生成用于与接近交叉路口的每辆车辆相关联的乘客量(或人数)的矩阵。因此，数据提取模块122向单元分配代表每个车辆中通行人数。在该实施例中，交通网络接口108接收表示每个车辆的乘客量的数据，这些数据来自例如具有用于确定车辆乘客量的重量传感器的联网车辆，具有乘车付费人数记录(例如，自动乘客计数单元)的公共交通客运车辆，具有代表付费乘客数量的数据的与车辆相关联的打车应用程序，交叉口处的可识别人员的红外传感器等。有利地，这允许系统100以人为基础而不是仅以车辆为基础来优化通过交叉路口的通行时间。因此，允许最大量的人以最有效的方式通过交叉路口。在另外的实施例中，系统100仅通过添加额外的矩阵层就能够处理来自各个传感器的甚至更高维度的感官输入，而无需对其结构进行修改。例如，考虑到接近交叉路口的车辆的目的地，以识别哪些车辆要向左转，向右转或直行。

除了车辆的位置和速度之外，在某些情况下，对于系统100而言，了解当前绿色阶段和当前阶段已经变成绿色的持续时间(称为经过时间)可能是有用的。这两个值以及CNN的输出可以连接到前馈神经网络(FNN)，该网络可以是机器学习模块124的一部分。

图8示出了由数据提取模块122以网格状方式离散化接近交叉路口的街道的示例。数据提取模块122将网格的每个单元组合成多层矩阵800。如在本文中所描述的，多层矩阵800可以包括两层，三层或更多层。在图8的示例中，第一层矩阵具有每个单元中车辆的累计乘客量，第二层矩阵具有每个单元中车辆的平均速度。在图8的示例中，街道的离散化发生在每d米(例如5米)的长度上。

通常，在定义交通信号控制的奖励功能时，存在两个主要问题。首先，尽管控制的目标是使所有车辆的总通行时间最小化，但是通常希望不要为了实现该目标而对交通量较低的街道施加不可接受的延误。其次，通常不存在作为交通控制基础的完善信息。因此，无论交通控制的逻辑多么复杂，检测都可以成为其克星。

系统100解决的示例性技术问题是减少接近交叉路口的车辆或在一些实施例中的人的交通信号延迟或通行时间。为了做到这一点，机器学习模块124可以开发和使用本发明人已经确定可以用来克服该技术问题的奖励功能。

如本文所述，每当车辆进入交叉路口进入路径时(即，进入通向交叉路口的街区)，在环境中对该车辆进行监视以记录其速度和延迟。因此，在每个时间步，系统100可以使用速度

和延迟

的汇编交叉路口中所有车辆的列表(VL^t＝{u|在时间步t车辆u在交叉路口中})。交叉路口的车辆可以根据其移动来分离

其中M表示交叉路口可能的移动集合。在普通交集中，M＝{N，NL，S，SL，W，WL，E，EL}。N、S、W和E分别代表北行、南行、西行和东行；L代表左转弯移动。系统100可以将时间步t(CD^t)时的交叉口的累积延迟确定为：

其中

是时间步t时移动m的累积延迟。

系统100然后可以确定每个车辆的延迟

在一个实施例中，当车辆在队列中(换句话说，由于交通信号而延迟)时，车辆被认为是延迟的。因此，变量

用于指示在时间步t时车辆是否在队列中。在该实施例中，仅当车辆的速度

低于预定义的队列速度阈值(sp_q)时，才将其视为处于队列中。

相应地：

因此，可以将累积延迟(CD^t)确定为各个车辆延迟

的总和。在一个实施例中，如果存在静止的车辆(速度低于阈值)，则该车辆增加累积延迟，并且如果车辆离开交叉路口，则其全部延迟从累积延迟的总和中去除。在该实施例中，当车辆经过停止线灯并离开交叉路口时，不再将其纳入在交叉路口中的车辆集合(VL^t)的考虑中。因此，移动和交叉路口的累计延迟突然减少了该车辆的延迟量。

对于考虑车辆乘客量的实施例，

变为：

其中

是车辆的乘客量。

对于考虑公共交通客运车辆信息的实施例，

变为：

在某些情况下，在确定是公共交通客运车辆在车站上下乘客时的延误时，可以将公共交通客运排除在考虑范围之外，因为交通控制不应因其行为造成的延误而受到处罚。

在一个实施例中，机器学习模块124努力使交叉路口的累积延迟((CD_t))的减小最大化，并且奖励函数变为：

r^k＝CD^k-1-CD^k

在某些情况下，可以从车载传感器和车辆2基础设施通信中提取各个车辆的延迟。在其他情况下，无需获取车辆的实际延误即可近似估算每个进入路径方法的延误。对于这种近似，可以使用队列长度

根据慢速车辆占用了矩阵的多少个单元格以及路口的输出流量

为了进行近似，可以使用辅助变量

该变量表示对移动的累积延迟(CD)有贡献的车辆。在这种情况下，m是移动的指标，t是时间步。

在这种情况下，当交通信号灯为红色时，系统100跟踪队列中的车辆数量。这样，由于队列中有这些车辆，可以将移动延迟视为增加。当信号变为绿色时，系统100可以将注意力集中在红灯时间期间在队列中的车辆上，并假设移动延迟在它们之间平均分配。如果移动中的

辆车辆离开交叉路口，则意味着现在仍存在在红色信号期间被延迟的

辆车辆。因此，进入路径的延迟随着留在交叉路口的车辆与最初导致移动延迟的所有车辆的比例降低而降低。因此，当其中一辆车辆离开交叉路口时，移动

的延迟减少了：

因此，机器学习模块124可以使用以上确定来近似每个移动的延迟。

在用于典型的4向交叉路口的车辆交通流的示例性实施例中，动作模块126可以具有八个可能的动作，每个动作代表交通信号的一个可能的相位。如果交通量分类为：北行，北行左转，南行，南行左转，东行，东行左转，西行，西行左转(N，NL，S，SL，E，EL，W(WL)，则每个阶段都是一个包含两个非冲突移动的集合。动作空间或相位集是A＝{((NL，SL)，(N，NL)，(S，SL)，(N，S)，(EL，WL)，(E，EL)，(W，WL)，(E，W)}。动作模块126可以在某些时间点选择动作。这些时间点应捕获黄色，全红色和最小绿色时间的实际限制，在此期间，预计交通信号不会发生变化。在示例中，当前阶段(信号为绿色的阶段)可以是(N，S)，并且在当前时刻，动作模块126必须选择动作。如果动作模块126选择的动作是(N，S)，则意味着将当前绿色信号延长Δt秒，则下一判定时间点将是Δt秒之后；例如，Δt可以等于1。但是，如果动作模块126选择除(N，S)以外的任何动作，则在动作模块126可以选择另一个动作之前，交通信号必须经过在下一阶段的3个时间段，即黄色，全红色和最小绿色时间段。在此期间，动作模块126处于保留状态，并且不允许选择动作。

当选择一个动作时，控制器模块126检查交叉路口的交通信号的状态，并且机器学习模块124确定所有八个可能动作的Q值(对于此示例)。机器学习模块124选择具有最高Q值(最高的预期未来回报)的动作，并通过经由交通网络接口108将所选动作传达给交通信号灯网络150来指示动作模块126应用所选动作。

本发明人使用从联网车辆接收到的数据的部分信息(不同的渗透率)并利用不同的离散长度，通过实验评估了系统100。进行的仿真表明，在渗透率低至40％并且离散长度最长50米的情况下，系统100优于传统的智能交通信号控制器，包括使用RL方法与使用队列长度作为状态空间的神经网络(NN)作为函数逼近器的那些方法。

假设数据从联网车辆接收进行了实验。在这种情况下，重要的因素是渗透率。本发明人针对所联网车辆的不同渗透率测试了系统100的性能。因此，如果渗透率为X％，则系统100在每100辆车中仅从X辆随机车接收信息。本发明人的仿真表明，如果渗透率低至40％，则系统100的运行效果将优于其他方法或与其它方法一样优秀。在另一个实验中，对最长100米的不同离散长度进行了测试，而最长50米的离散长度，变差并不明显。

有利地，系统100能够处理额外的信息，包括接近队尾的上游端的公共交通客运车辆和车辆，而无需进行结构改变或专家的知识。系统100在不同场景中优于实践状态的公交信号优先系统，包括低频，高频，高乘客量，低乘客量，CV的低渗透率以及具有40％高裕度的对象公交线路。

有利地，本文描述的系统100提供自学习交通信号控制，该自学习交通信号控制从与交通信号灯网络的环境的直接交互中学习最佳控制策略。在其他情况下，将未经训练的代理应用于实际交通信号是不切实际的。因此，可以使用交通微仿真软件(例如Quadstone^TMParamics)来训练系统100。使用交通微仿真软件允许系统100在安全仿真环境中训练，该安全仿真环境可以非常接近在实际应用中发现的环境。

图3示出了根据一个实施例的用于交通网络的交叉路口的多模式深度交通信号控制的方法300。在框302处，数据提取模块122经由交通网络接口108从交通信号灯网络150接收传感器读数数据。传感器读数数据包括接近交叉路口的车辆的第一物理特性和第二物理特性。在各种实施例中，第一或第二物理特性每个可以是车辆的速度，车辆的位置或车辆的乘客量中的一个。在框304，数据提取模块122将数据离散化到本文所述的网格图案中。对于每个单元，如果车辆至少部分地占据了该单元，则数据提取模块122为该单元关联代表每个车辆的第一物理特性的第一值，否则，将为该单元关联空值，从而生成包括每个单元的第一值的第一矩阵。对于每个单元，如果车辆至少部分地占据了该单元，则数据提取模块122还为该单元关联表示每个车辆的第二物理特性的第二值，否则，为该单元关联空值，从而生成包括第二值的第二矩阵。

在框306中，机器学习模块124将第一矩阵和第二矩阵组合为多层矩阵中的单独层，并使用本文所述的机器学习技术确定状态和奖励。

在方框308，如本文所述，控制器模块120使用确定的状态和奖励来评估和选择一个或多个动作，并相应地更新其参数，以便优化目标函数。在框310处，动作模块126通过经由交通网络接口108将动作输出到交通信号灯网络150，来应用控制器模块120所选择的动作。方法300可以周期性地重复以考虑随时间推移接近交叉路口的车辆的位置，速度和乘客量的变化；例如每秒重复一次。

因此，本公开的实施例有利地提供了智能交通信号控制，其可以同时考虑车辆流量和这种流量的乘客量以最小化所有接近交叉路口的人的总通行时间。在特定情况下，系统100赋予人们优先权，而与他们所乘坐的车辆的模式或类型无关。以这种方式，系统100能够直接从原始交通输入数据中提取有用的信息，并且近似每个移动的累积延迟，以便做出适当的动作(服务于所选择的移动)。可以在特定时间段(例如每秒)后重新访问决策。系统100可以通过与这样的交通的直接交互学习将交通状态映射到最佳动作。

有利地，本公开的实施例能够考虑乘坐公共交通客运车辆的人数的通行时间，以及考虑乘坐私人交通工具的人的通行时间。每个公共交通客运车辆的相对重要性通过考虑其车载乘客数量来确定。现代公共交通客运车辆通过例如自动乘客计数单元来记录车上乘客的数量。以这种方式，本公开的实施例能够处理占用信息并优化每个车辆的乘员通行时间，而不是仅仅优化车辆通行时间。另外，如果乘员信息不可用，则系统100可以使用从历史数据接收到的车辆类型的平均乘客量(或具有其他因素，例如一天中的时间)来有利地预测车辆上的人数。否则，如本文所述，如果没有足够的乘客量数据，则系统100还可以基于每个车辆优化交通。

有利地，本公开的实施例能够仅离散交叉路口的街道进入路径，如图6所示。其他方法，如图2的示意图中所例示出的，离散化整个交叉路口。因此，本实施例通过不必考虑交叉路口的无关区域(诸如其他方法所考虑的那些)，而节省了大量的计算和传感器。

尽管已经参考某些特定实施例描述了本发明，但是在不脱离如权利要求书所概述的本发明的精神和范围的情况下，其各种修改对于本领域技术人员将是显而易见的。以上引用的所有参考文献的全部公开内容通过引用并入本文。

Claims

1.一种用于交通网络的交叉路口的交通信号控制的方法，所述交通网络包括一个或多个传感器，所述方法包括：

从所述一个或多个传感器接收传感器读数，该传感器读数包括与接近交叉路口的车辆相关的多个物理特性；

基于投射到接近交叉路口的一个或多个街道上的单元网格离散化所述传感器读数；

对于所述多个物理特性中的每一个，针对所述单元网格中的每个单元，如果车辆至少部分地占据了该单元，则为单元网格中的该单元关联代表与所述车辆中的每一辆相关的物理特性的相应值，否则为该单元关联空值，并生成与该物理特性相关联的矩阵，该矩阵包括单元网格中每个单元的相应值；

将与所述多个物理特性中的每一个相关联的每个矩阵作为单独的层组合在多层矩阵中；

使用受交通控制训练集训练的机器学习模型，以所述多层矩阵作为输入来确定一个或多个交通动作，所述交通控制训练集包括针对交叉路口处的多个交通场景的先前确定的多层矩阵；和

将所述一个或多个动作传达给交通网络。

2.根据权利要求1所述的方法，其中，所述物理特性之一是车辆的速度，而所述物理特性中的另一个是车辆的位置。

3.根据权利要求1所述的方法，其中，所述物理特性之一是车辆的乘客量。

4.根据权利要求3所述的方法，其中，表示车辆的乘客量的数据使用每种车辆的平均乘客量来近似。

5.根据权利要求3所述的方法，其中，所述车辆中的至少一辆是公共交通客运车辆，并且其中，与所述车辆的乘客量相关联的所述传感器包括与所述公共交通客运车辆相关联的自动乘客计数器。

6.根据权利要求1所述的方法，其中，所述机器学习模型包括卷积神经网络和强化学习。

7.根据权利要求6所述的方法，其中，所述机器学习模型包括通过迭代更新Q值函数来进行的Q学习，并且其中，所述一个或多个交通动作的确定被确定为具有最高Q值的交通动作。

8.根据权利要求6所述的方法，其中，所述机器学习模型用于通过使接近交叉路口的车辆的累积延迟最小化来优化奖励函数，所述奖励函数包括先前迭代的累积延迟减去当前迭代的累积延迟。

9.根据权利要求8所述的方法，其中，所述累积延迟被确定为在交叉路口的每个进入路径中车辆的每种可能移动上的延迟的总和。

10.根据权利要求9所述的方法，其中，如果车辆的速度低于预定速度阈值，则认为所述车辆处于延迟状态。

11.一种用于交通网络的交叉路口的交通信号控制的系统，所述交通网络包括一个或多个传感器，所述系统包括一个或多个处理器和数据存储器，所述一个或多个处理器可配置为执行：

数据提取模块，用于：

对于所述多个物理特性中的每一个，针对所述单元网格中的每个单元，如果车辆至少部分地占据该单元，则为单元网格中的该单元关联代表与所述车辆中的每一辆相关的物理特性的相应值，否则为该单元关联空值，并生成与该物理特性相关联的矩阵，该矩阵包括单元网格中每个单元的相应值；

机器学习模块，用于将与所述多个物理特性中的每一个相关联的每个矩阵作为的单独的层组合在多层矩阵中，并使用受交通控制训练集训练的机器学习模型，以所述多层矩阵作为输入来确定一个或多个交通动作，所述交通控制训练集包括针对交叉路口处的多个交通场景的先前确定的多层矩阵；和

控制器模块，用于将所述一个或多个动作传达给交通网络。

12.根据权利要求11所述的系统，其中，所述物理特性之一是车辆的速度，而所述物理特性中的另一个是车辆的位置。

13.根据权利要求12所述的系统，其中，所述物理特性之一是车辆的乘客量。

14.根据权利要求13所述的系统，其中，表示车辆的乘客量的数据使用每种类型的车辆的平均乘客量来近似。

15.根据权利要求13所述的系统，其中，所述车辆中的至少一辆是公共交通客运车辆，并且其中，与所述车辆的乘客量相关联的所述传感器包括与所述公共交通客运车辆相关联的自动乘客计数器。

16.根据权利要求11所述的系统，其中，所述机器学习模型包括卷积神经网络和强化学习。

17.根据权利要求16所述的系统，其中，所述机器学习模型包括通过迭代更新Q值函数来进行的Q学习，并且其中，所述一个或多个交通动作的确定被确定为具有最高Q值的交通动作。

18.根据权利要求16所述的系统，其中，所述机器学习模型用于通过最小化接近交叉路口的车辆的累积延迟来优化奖励函数，所述奖励函数包括先前迭代的累积延迟减去当前迭代的累积延迟。

19.根据权利要求18所述的系统，其中，所述累积延迟被确定为在交叉路口的每个进入路径中车辆的每种可能移动上的延迟的总和。

20.根据权利要求19所述的系统，其中，如果车辆的速度低于预定速度阈值，则认为所述车辆被延迟。