CN106910351B

CN106910351B - 一种基于深度强化学习的交通信号自适应控制方法

Info

Publication number: CN106910351B
Application number: CN201710258926.4A
Authority: CN
Inventors: 谭国真; 王莹多
Original assignee: Dalian University of Technology
Current assignee: Dalian University of Technology
Priority date: 2017-04-19
Filing date: 2017-04-19
Publication date: 2019-10-11
Anticipated expiration: 2037-04-19
Also published as: CN106910351A

Abstract

本发明涉及交通控制及人工智能技术领域，一种基于深度强化学习的交通信号自适应控制方法，包括以下步骤：(1)定义交通信号控制agent、状态空间S、动作空间A和回报函数r，(2)深度神经网络的预训练，(3)使用深度强化学习方法对神经网络进行训练，(4)依据训练好的深度神经网络进行交通信号控制。通过对磁感、视频、RFID和车联网等采集到的交通数据进行预处理，获取包含车辆位置信息的交通状态的低层表示；其次，通过深度学习的多层感知器对交通状态进行感知，得到当前交通状态的高层抽象特征；在此基础上利用强化学习的决策能力依据当前交通状态的高层抽象特征选择合适的配时方案，实现交通信号自适应控制，以减少车辆旅行时间，确保交通安全、畅通、有序和高效地运行。

Description

一种基于深度强化学习的交通信号自适应控制方法

技术领域

本发明涉及一种基于深度强化学习的交通信号自适应控制方法，属于交通控制及人工智能技术领域。

背景技术

随着汽车保有量的增加，交通拥堵已经成为困扰我国经济发展的一个难题，2016年，因交通拥堵造成的人均经济损失达到8000元。同时也带来了能源问题、交通安全问题和环境问题。解决交通拥堵有两种方案，增加交通基础设施建设和发展先进的交通控制系统。而城市土地资源紧张有限，单纯依靠增加交通基础设施不能解决问题，因此要更加注重优先发展先进的交通控制系统。当前，主流的交通控制系统有TRANSYT、SCOOT和SCAT等，这些控制系统根据交通流量、排队长度、车道占有比等传统交通参数对交通信号灯的配时进行优化。我们认为传统交通参数对交通状态的描述是片面的、不准确的。如排长队只描述了静止车辆的数量信息，而忽略了它们的位置信息和所有运动车辆的信息；交通流量描述了过去一段时间车辆的通过信息，而对当前交通状态的刻画上也是不准确的。因此基于传统交通参数的信号配时方案也是滞后的，甚至是错误的，有时不但不会缓解交通，甚至还会加重交通拥堵的发生。

近年来，深度学习作为机器学习领域的一个重要研究热点，已经在图像分类、语音识别、自然语言处理、视频分类等领域取得了令人瞩目的成功。深度学习的思想是通过多层的网络结构和非线性变换，组合低层特征，形成抽象的、易于区分的高层表示，以发现数据的分布式特征表示。因此深度学习侧重于对事物的感知。强化学习作为机器学习领域另一个研究热点，被广泛应用于工业制造、仿真模拟、机器人控制、优化调度、游戏博弈等领域，它的基本思想是通过最大化智能体(Agent)从环境中获得的累计奖赏值，以学习到完成目标的最优策略，因此强化学习侧重于学习解决问题的策略。Google公司的DeepMind人工智能研究团队创造性地将这两种技术结合起来，形成了人工智能领域新的研究热点，即深度强化学习，并在许多具有挑战性的领域构建实现了人类专家级别Agent。2016年，人工智能围棋程序AlphaGo战胜人类代表李世石，标志着人工智能的智能水平达到了一个新的高度。AlphaGo使用的核心技术就是深度强化学习。深度强化学习以一种通用的形式结合了深度学习的感知能力和强化学习的决策能力，通过端到端的学习方式能够实现从原始输入到输出的直接控制。目前深度强化学习在游戏、机器人控制、机器视觉等领域已得到了广泛的应用。

发明内容

为了克服现有技术中存在的不足，本发明目的是提供一种基于深度强化学习的交通信号自适应控制方法。该方法是通过深度学习的多感知器对当前交通状态特征进行高层抽象表征，实现交通状态精确感知。在此基础上通过强化学习制定有效的交通信号控制策略，解决了传统交通信号控制系统对交通状态感知不全面、信号控制策略制定不准确的不足，实现了路口交通信号的自适应控制。

为了实现上述发明目的，解决已有技术中存在的问题，本发明采取的技术方案是：一种基于深度强化学习的交通信号自适应控制方法，包括以下步骤：

步骤1、定义交通信号控制Agent、状态空间S、动作空间A和回报函数r，具体包括以下子步骤：

步骤1.1、交通信号控制Agent使用深度强化学习方法，构建深度神经网络Q^V为值网络，初始化经验回放记忆池D为空，本发明的神经网络采用卷积神经网络，依次为输入层，3个卷积层，1个全连接层和4个输出层，输入层为当前交通状态s，输出层为当前交通状态所有动作的值估计Q^V(s,a)；经验回放记忆池D用于记录转移样本＜s,a,r,s'＞，其中s表示当前交通状态，a表示在当前交通状态s下选择的执行动作，s′表示在当前交通状态s下执行动作a后迁移到的下一个交通状态，r表示在当前交通状态s执行动作a获取的立即回报；

步骤1.2、定义当前交通状态s，当前交通状态s包含交叉口各车道上车辆的位置信息和当前信号灯状态信息，对交叉口各车道停车线以外l米内每隔c米进行离散化处理，得到个元胞，如果元胞内有车，对应位置值为1，如果元胞内没有车，对应位置值为0，这样就得到车辆位置信息，对相应位置上信号灯状态进行数字化表征，红灯RED＝0.2，黄灯YELLOW＝0.5，绿灯GREEN＝0.8，得到当前信号灯状态信息；再将各车道车辆信息和当前信号灯状态信息融合得到类似于图像的当前交通信息矩阵，矩阵维数越大，交通信息刻画就越准确，本发明矩阵维数取值168×168，当前交通信息矩阵中心部分代表当前信号灯状态，其它位置上1代表有车，0代表没有车；再将连续4个时刻获取的当前交通信息矩阵作为当前交通状态s，其中不仅包含了车辆位置静态信息，而且还包含了交通动态变化的信息，从而更加准确深刻地刻画出了当前交通状态；

步骤1.3、定义动作空间A为可以选择的相位，本发明采用4相位，A＝{NSG,NSLG,WEG,WELG}，其中NSG为相位1，代表南北直行通行，NSLG为相位2，代表南北左转通行，WEG为相位3，代表东西直行通行，WELG为相位4，代表东西左转通行，agent的可选执行动作为a，其中a∈A；

步骤1.4、定义回报函数r＝-0.4×d-0.3×w-0.2×q-0.1*p，

其中表示车辆总延误，_Nlane表示交叉口的车道数，_Nvehicle表示各车道上的车辆数，v_speed表示车辆当前速度，v_allowed表示车辆所在车道允许最大通行速度；表示车辆总等待时间，w_vehicle表示单个车辆在交叉口的等待时间，大小为车辆从静止到运动之间的时间长度；q＝max(q₁,q₂,q₃,q₄)-min(q₁,q₂,q₃,q₄)表示车辆排队绝对差，q₁表示相位1对应的排队长度，q₂表示相位2对应的排队长度，q₃表示相位3对应的排队长度，q₄表示相位4对应的排队长度；p表示信号灯是否发生切换，可通过公式(1)进行描述，

式中，p＝0表示信号灯没有发生切换，p＝1表示信号灯发生切换；

步骤2、深度神经网络的预训练，目的是为了减少Agent在学习过程中由于选择错误的动作对交通造成不好的影响，具体包括以下子步骤：

步骤2.1、预训练样本采集，依据现有的交通信号控制系统控制策略进行交通控制，对当前交通状态s、当前交通状态的执行动作a、当前交通状态的获取回报r及下一个交通状态s′每隔5秒钟进行一次采样，并将转移样本＜s,a,r,s'＞送至经验回放记忆池D中，采样数目不少于100000个；

步骤2.2、计算获取深度神经网络参数θ，使用步骤2.1采集到的样本数据对交通信号控制Agent进行训练，使损失函数L＝[Q(s,a；θ)-r-γmaxQ(s′,a′；θ)]²最小化，其中θ表示神经网络一组参数取值，Q(s,a；θ)表示当前交通状态s下选取执行动作a在神经网络参数为θ时的Q值，r表示立即回报，γ表示折扣系数，maxQ(s′,a′；θ)表示下一个交通状态s′在神经网络参数为θ时所有动作对应Q值的最大值；神经网络参数θ的更新使用RMSProp优化算法，RMSProp通过增加阻尼系数η解决学习速率衰减的问题，RMSProp算法通过公式(2)和(3)进行描述：

式中，表示参数θ_j在t+1时刻的累加梯度，表示参数θ_j在t时刻的累加梯度，表示参数θ_j在t+1时刻的取值，表示参数θ_j在t时刻的取值，η表示阻尼系数且η∈(0,1)，δ表示一个接近于0的小数，在本发明中，δ＝0.001，η＝0.9；

步骤3、使用深度强化学习方法对神经网络进行训练，具体包括以下子步骤：

步骤3.1、构造结构相同的值网络Q^V和目标网络Q^T，将步骤2预训练好的神经网络参数θ复制到Q^V和Q^T中，使θ^T＝θ^V＝θ，θ^V表示值网络Q^V的参数，θ^T表示目标网络Q^T的参数，清空回放记忆池D，时间步清零，切换到本发明基于深度强化学习的交通信号自适应控制方法，初始化动作选择机制ε-greedy算法中的ε，使得0＜ε＜1，本发明取初始值ε＝0.8；

步骤3.2、对通过磁感、视频、RFID和车联网手段采集到的交通数据根据步骤1.3进行处理，每隔5秒钟观测当前交通状态s；

步骤3.3、将当前交通状态s送入值网络Q^V中，输出当前交通状态s下所有执行动作a的Q值Q(s,a；θ^V)，生成一个随机数rand，如果rand＜ε，从执行动作空间概率中选择一个执行动作，a～U(A)，否则a＝argmaxQ(s,a；θ^V)；计算步骤1.4定义的回报函数r，同时观测下一个交通状态s′，并将转移样本＜s,a,r,s′＞送至经验回放记忆池D中，再对当前交通状态重新赋值，令s＝s′；

步骤3.4、从经验回放记忆池D中取出一个mini-batch数据，以最小化损失函数其中采用RMSProp优化算法对神经网络进行训练；

步骤3.5、重复步骤3.2到步骤3.4直到|θ^T-θ^V|小于某一阈值，每10000步使得θ^T＝θ^V，ε＝min(0.1,ε²)；

步骤4，依据训练好的深度神经网络进行交通信号控制，具体包括以下子步骤：

步骤4.1、更新ε-greedy算法中的ε＝0，使Agent利用已经学习到的经验；

步骤4.2、根据步骤3.2每隔5秒钟获取当前交通状态s，再将s送至深度神经网络，选取执行动作a，使得a＝argmaxQ(s,a；θ^V)，重复此步骤。

本发明有益效果是：一种基于深度强化学习的交通信号自适应控制方法，包括以下步骤：(1)定义交通信号控制agent、状态空间S、动作空间A和回报函数r，(2)深度神经网络的预训练，(3)使用深度强化学习方法对神经网络进行训练，(4)依据训练好的深度神经网络进行交通信号控制。与已有技术相比，本发明利用现有交通检测技术如磁感、视频、RFID、车联网检测得到的原始数据，通过简单的预处理，得到类似于图像的交通信息的低层表示，其中包含了车辆的位置信息和信号灯状态信息。将连续4个时刻的交通信息图像表示作为当前交通状态，送入本文使用的卷积神经网络中，进而将低层的交通信息抽象为高层的特征表示，实现了交通状态的精准感知，解决了传统信号控制对交通状态感知不准确的问题。在此基础上，强化学习通过Agent与交通环境的交互学习，制定相应的交通控制策略以最大化长期回报，实现了交通信号的自适应控制。本发明能够缩短旅行时间，使交通得以安全、畅通、有序和高效的运营。

附图说明

图1是本发明方法步骤流程图。

图2是本发明中的卷积神经网络结构图。

图3是本发明中的交通状态矩阵示意图。

图4是本发明中的相位配时方案示意图。

具体实施方式

下面结合附图对本发明作进一步说明。

如图1所示，一种基于深度强化学习的交通信号自适应控制方法，包括以下步骤：

步骤1.4、定义回报函数r＝-0.4×d-0.3×w-0.2×q-0.1*p，

本发明优点在于：一种基于深度强化学习的交通信号自适应控制方法，是利用现有交通检测技术如磁感、视频、RFID、车联网检测得到的原始数据，通过简单的预处理，得到类似于图像的交通信息的低层表示，其中包含了车辆的位置信息和信号灯状态信息。将连续4个时刻的交通信息图像表示作为当前交通状态，送入本文使用的卷积神经网络中，进而将低层的交通信息抽象为高层的特征表示，实现了交通状态的精准感知，解决了传统信号控制对交通状态感知不准确的问题。在此基础上，强化学习通过Agent与交通环境的交互学习，制定相应的交通控制策略以最大化长期回报，实现了交通信号的自适应控制。本发明能够缩短旅行时间，使交通得以安全、畅通、有序和高效的运营。

Claims

1.一种基于深度强化学习的交通信号自适应控制方法，其特征在于包括以下步骤：

步骤1.4、定义回报函数r＝-0.4×d-0.3×w-0.2×q-0.1×p，

步骤2.2、计算获取深度神经网络参数θ，使用步骤2.1采集到的样本数据对交通信号控制agent进行训练，使损失函数L＝[Q(s,a；θ)-r-γmaxQ(s',a'；θ)]²最小化，其中θ表示神经网络一组参数取值，Q(s,a；θ)表示当前交通状态s下选取执行动作a在神经网络参数为θ时的Q值，r表示立即回报，γ表示折扣系数，maxQ(s′,a′；θ)表示下一个交通状态s'在神经网络参数为θ时所有动作对应Q值的最大值；神经网络参数θ的更新使用RMSProp优化算法，RMSProp通过增加阻尼系数η解决学习速率衰减的问题，RMSProp算法通过公式(2)和(3)进行描述：

式中，表示参数θ_j在t+1时刻的累加梯度，表示参数θ_j在t时刻的累加梯度，表示参数θ_j在t+1时刻的取值，表示参数θ_j在t时刻的取值，η表示阻尼系数且η∈(0,1)，α表示累加梯度的学习率，δ表示一个接近于0的小数，在本发明中，δ＝0.001，η＝0.9；

步骤3.1、构造结构相同的值网络Q^V和目标网络Q^T，将步骤2预训练好的神经网络参数θ复制到Q^V和Q^T中，使θ^T＝θ^V＝θ，θ^V表示值网络Q^V的参数，θ^T表示目标网络Q^T的参数，清空经验回放记忆池D，时间步清零，切换到本发明基于深度强化学习的交通信号自适应控制方法，初始化动作选择机制ε-greedy算法中的ε，使得0＜ε＜1，本发明取初始值ε＝0.8；

步骤3.2、对通过磁感、视频、RFID和车联网手段采集到的交通数据根据步骤1.2进行处理，每隔5秒钟观测当前交通状态s；

步骤3.4、从经验回放记忆池D中取出一组小批度数据，以最小化损失函数其中采用RMSProp优化算法对神经网络进行训练；