CN106910351B - 一种基于深度强化学习的交通信号自适应控制方法 - Google Patents

一种基于深度强化学习的交通信号自适应控制方法 Download PDF

Info

Publication number
CN106910351B
CN106910351B CN201710258926.4A CN201710258926A CN106910351B CN 106910351 B CN106910351 B CN 106910351B CN 201710258926 A CN201710258926 A CN 201710258926A CN 106910351 B CN106910351 B CN 106910351B
Authority
CN
China
Prior art keywords
traffic
indicate
vehicle
value
current traffic
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
CN201710258926.4A
Other languages
English (en)
Other versions
CN106910351A (zh
Inventor
谭国真
王莹多
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Dalian University of Technology
Original Assignee
Dalian University of Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Dalian University of Technology filed Critical Dalian University of Technology
Priority to CN201710258926.4A priority Critical patent/CN106910351B/zh
Publication of CN106910351A publication Critical patent/CN106910351A/zh
Application granted granted Critical
Publication of CN106910351B publication Critical patent/CN106910351B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G08SIGNALLING
    • G08GTRAFFIC CONTROL SYSTEMS
    • G08G1/00Traffic control systems for road vehicles
    • G08G1/07Controlling traffic signals
    • G08G1/08Controlling traffic signals according to detected number or speed of vehicles
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Abstract

本发明涉及交通控制及人工智能技术领域,一种基于深度强化学习的交通信号自适应控制方法,包括以下步骤:(1)定义交通信号控制agent、状态空间S、动作空间A和回报函数r,(2)深度神经网络的预训练,(3)使用深度强化学习方法对神经网络进行训练,(4)依据训练好的深度神经网络进行交通信号控制。通过对磁感、视频、RFID和车联网等采集到的交通数据进行预处理,获取包含车辆位置信息的交通状态的低层表示;其次,通过深度学习的多层感知器对交通状态进行感知,得到当前交通状态的高层抽象特征;在此基础上利用强化学习的决策能力依据当前交通状态的高层抽象特征选择合适的配时方案,实现交通信号自适应控制,以减少车辆旅行时间,确保交通安全、畅通、有序和高效地运行。

Description

一种基于深度强化学习的交通信号自适应控制方法
技术领域
本发明涉及一种基于深度强化学习的交通信号自适应控制方法,属于交通控制及人工智能技术领域。
背景技术
随着汽车保有量的增加,交通拥堵已经成为困扰我国经济发展的一个难题,2016年,因交通拥堵造成的人均经济损失达到8000元。同时也带来了能源问题、交通安全问题和环境问题。解决交通拥堵有两种方案,增加交通基础设施建设和发展先进的交通控制系统。而城市土地资源紧张有限,单纯依靠增加交通基础设施不能解决问题,因此要更加注重优先发展先进的交通控制系统。当前,主流的交通控制系统有TRANSYT、SCOOT和SCAT等,这些控制系统根据交通流量、排队长度、车道占有比等传统交通参数对交通信号灯的配时进行优化。我们认为传统交通参数对交通状态的描述是片面的、不准确的。如排长队只描述了静止车辆的数量信息,而忽略了它们的位置信息和所有运动车辆的信息;交通流量描述了过去一段时间车辆的通过信息,而对当前交通状态的刻画上也是不准确的。因此基于传统交通参数的信号配时方案也是滞后的,甚至是错误的,有时不但不会缓解交通,甚至还会加重交通拥堵的发生。
近年来,深度学习作为机器学习领域的一个重要研究热点,已经在图像分类、语音识别、自然语言处理、视频分类等领域取得了令人瞩目的成功。深度学习的思想是通过多层的网络结构和非线性变换,组合低层特征,形成抽象的、易于区分的高层表示,以发现数据的分布式特征表示。因此深度学习侧重于对事物的感知。强化学习作为机器学习领域另一个研究热点,被广泛应用于工业制造、仿真模拟、机器人控制、优化调度、游戏博弈等领域,它的基本思想是通过最大化智能体(Agent)从环境中获得的累计奖赏值,以学习到完成目标的最优策略,因此强化学习侧重于学习解决问题的策略。Google公司的DeepMind人工智能研究团队创造性地将这两种技术结合起来,形成了人工智能领域新的研究热点,即深度强化学习,并在许多具有挑战性的领域构建实现了人类专家级别Agent。2016年,人工智能围棋程序AlphaGo战胜人类代表李世石,标志着人工智能的智能水平达到了一个新的高度。AlphaGo使用的核心技术就是深度强化学习。深度强化学习以一种通用的形式结合了深度学习的感知能力和强化学习的决策能力,通过端到端的学习方式能够实现从原始输入到输出的直接控制。目前深度强化学习在游戏、机器人控制、机器视觉等领域已得到了广泛的应用。
发明内容
为了克服现有技术中存在的不足,本发明目的是提供一种基于深度强化学习的交通信号自适应控制方法。该方法是通过深度学习的多感知器对当前交通状态特征进行高层抽象表征,实现交通状态精确感知。在此基础上通过强化学习制定有效的交通信号控制策略,解决了传统交通信号控制系统对交通状态感知不全面、信号控制策略制定不准确的不足,实现了路口交通信号的自适应控制。
为了实现上述发明目的,解决已有技术中存在的问题,本发明采取的技术方案是:一种基于深度强化学习的交通信号自适应控制方法,包括以下步骤:
步骤1、定义交通信号控制Agent、状态空间S、动作空间A和回报函数r,具体包括以下子步骤:
步骤1.1、交通信号控制Agent使用深度强化学习方法,构建深度神经网络QV为值网络,初始化经验回放记忆池D为空,本发明的神经网络采用卷积神经网络,依次为输入层,3个卷积层,1个全连接层和4个输出层,输入层为当前交通状态s,输出层为当前交通状态所有动作的值估计QV(s,a);经验回放记忆池D用于记录转移样本<s,a,r,s'>,其中s表示当前交通状态,a表示在当前交通状态s下选择的执行动作,s′表示在当前交通状态s下执行动作a后迁移到的下一个交通状态,r表示在当前交通状态s执行动作a获取的立即回报;
步骤1.2、定义当前交通状态s,当前交通状态s包含交叉口各车道上车辆的位置信息和当前信号灯状态信息,对交叉口各车道停车线以外l米内每隔c米进行离散化处理,得到个元胞,如果元胞内有车,对应位置值为1,如果元胞内没有车,对应位置值为0,这样就得到车辆位置信息,对相应位置上信号灯状态进行数字化表征,红灯RED=0.2,黄灯YELLOW=0.5,绿灯GREEN=0.8,得到当前信号灯状态信息;再将各车道车辆信息和当前信号灯状态信息融合得到类似于图像的当前交通信息矩阵,矩阵维数越大,交通信息刻画就越准确,本发明矩阵维数取值168×168,当前交通信息矩阵中心部分代表当前信号灯状态,其它位置上1代表有车,0代表没有车;再将连续4个时刻获取的当前交通信息矩阵作为当前交通状态s,其中不仅包含了车辆位置静态信息,而且还包含了交通动态变化的信息,从而更加准确深刻地刻画出了当前交通状态;
步骤1.3、定义动作空间A为可以选择的相位,本发明采用4相位,A={NSG,NSLG,WEG,WELG},其中NSG为相位1,代表南北直行通行,NSLG为相位2,代表南北左转通行,WEG为相位3,代表东西直行通行,WELG为相位4,代表东西左转通行,agent的可选执行动作为a,其中a∈A;
步骤1.4、定义回报函数r=-0.4×d-0.3×w-0.2×q-0.1*p,
其中表示车辆总延误,Nlane表示交叉口的车道数,Nvehicle表示各车道上的车辆数,vspeed表示车辆当前速度,vallowed表示车辆所在车道允许最大通行速度;表示车辆总等待时间,wvehicle表示单个车辆在交叉口的等待时间,大小为车辆从静止到运动之间的时间长度;q=max(q1,q2,q3,q4)-min(q1,q2,q3,q4)表示车辆排队绝对差,q1表示相位1对应的排队长度,q2表示相位2对应的排队长度,q3表示相位3对应的排队长度,q4表示相位4对应的排队长度;p表示信号灯是否发生切换,可通过公式(1)进行描述,
式中,p=0表示信号灯没有发生切换,p=1表示信号灯发生切换;
步骤2、深度神经网络的预训练,目的是为了减少Agent在学习过程中由于选择错误的动作对交通造成不好的影响,具体包括以下子步骤:
步骤2.1、预训练样本采集,依据现有的交通信号控制系统控制策略进行交通控制,对当前交通状态s、当前交通状态的执行动作a、当前交通状态的获取回报r及下一个交通状态s′每隔5秒钟进行一次采样,并将转移样本<s,a,r,s'>送至经验回放记忆池D中,采样数目不少于100000个;
步骤2.2、计算获取深度神经网络参数θ,使用步骤2.1采集到的样本数据对交通信号控制Agent进行训练,使损失函数L=[Q(s,a;θ)-r-γmaxQ(s′,a′;θ)]2最小化,其中θ表示神经网络一组参数取值,Q(s,a;θ)表示当前交通状态s下选取执行动作a在神经网络参数为θ时的Q值,r表示立即回报,γ表示折扣系数,maxQ(s′,a′;θ)表示下一个交通状态s′在神经网络参数为θ时所有动作对应Q值的最大值;神经网络参数θ的更新使用RMSProp优化算法,RMSProp通过增加阻尼系数η解决学习速率衰减的问题,RMSProp算法通过公式(2)和(3)进行描述:
式中,表示参数θj在t+1时刻的累加梯度,表示参数θj在t时刻的累加梯度,表示参数θj在t+1时刻的取值,表示参数θj在t时刻的取值,η表示阻尼系数且η∈(0,1),δ表示一个接近于0的小数,在本发明中,δ=0.001,η=0.9;
步骤3、使用深度强化学习方法对神经网络进行训练,具体包括以下子步骤:
步骤3.1、构造结构相同的值网络QV和目标网络QT,将步骤2预训练好的神经网络参数θ复制到QV和QT中,使θT=θV=θ,θV表示值网络QV的参数,θT表示目标网络QT的参数,清空回放记忆池D,时间步清零,切换到本发明基于深度强化学习的交通信号自适应控制方法,初始化动作选择机制ε-greedy算法中的ε,使得0<ε<1,本发明取初始值ε=0.8;
步骤3.2、对通过磁感、视频、RFID和车联网手段采集到的交通数据根据步骤1.3进行处理,每隔5秒钟观测当前交通状态s;
步骤3.3、将当前交通状态s送入值网络QV中,输出当前交通状态s下所有执行动作a的Q值Q(s,a;θV),生成一个随机数rand,如果rand<ε,从执行动作空间概率中选择一个执行动作,a~U(A),否则a=argmaxQ(s,a;θV);计算步骤1.4定义的回报函数r,同时观测下一个交通状态s′,并将转移样本<s,a,r,s′>送至经验回放记忆池D中,再对当前交通状态重新赋值,令s=s′;
步骤3.4、从经验回放记忆池D中取出一个mini-batch数据,以最小化损失函数其中采用RMSProp优化算法对神经网络进行训练;
步骤3.5、重复步骤3.2到步骤3.4直到|θTV|小于某一阈值,每10000步使得θT=θV,ε=min(0.1,ε2);
步骤4,依据训练好的深度神经网络进行交通信号控制,具体包括以下子步骤:
步骤4.1、更新ε-greedy算法中的ε=0,使Agent利用已经学习到的经验;
步骤4.2、根据步骤3.2每隔5秒钟获取当前交通状态s,再将s送至深度神经网络,选取执行动作a,使得a=argmaxQ(s,a;θV),重复此步骤。
本发明有益效果是:一种基于深度强化学习的交通信号自适应控制方法,包括以下步骤:(1)定义交通信号控制agent、状态空间S、动作空间A和回报函数r,(2)深度神经网络的预训练,(3)使用深度强化学习方法对神经网络进行训练,(4)依据训练好的深度神经网络进行交通信号控制。与已有技术相比,本发明利用现有交通检测技术如磁感、视频、RFID、车联网检测得到的原始数据,通过简单的预处理,得到类似于图像的交通信息的低层表示,其中包含了车辆的位置信息和信号灯状态信息。将连续4个时刻的交通信息图像表示作为当前交通状态,送入本文使用的卷积神经网络中,进而将低层的交通信息抽象为高层的特征表示,实现了交通状态的精准感知,解决了传统信号控制对交通状态感知不准确的问题。在此基础上,强化学习通过Agent与交通环境的交互学习,制定相应的交通控制策略以最大化长期回报,实现了交通信号的自适应控制。本发明能够缩短旅行时间,使交通得以安全、畅通、有序和高效的运营。
附图说明
图1是本发明方法步骤流程图。
图2是本发明中的卷积神经网络结构图。
图3是本发明中的交通状态矩阵示意图。
图4是本发明中的相位配时方案示意图。
具体实施方式
下面结合附图对本发明作进一步说明。
如图1所示,一种基于深度强化学习的交通信号自适应控制方法,包括以下步骤:
步骤1、定义交通信号控制Agent、状态空间S、动作空间A和回报函数r,具体包括以下子步骤:
步骤1.1、交通信号控制Agent使用深度强化学习方法,构建深度神经网络QV为值网络,初始化经验回放记忆池D为空,本发明的神经网络采用卷积神经网络,依次为输入层,3个卷积层,1个全连接层和4个输出层,输入层为当前交通状态s,输出层为当前交通状态所有动作的值估计QV(s,a);经验回放记忆池D用于记录转移样本<s,a,r,s'>,其中s表示当前交通状态,a表示在当前交通状态s下选择的执行动作,s′表示在当前交通状态s下执行动作a后迁移到的下一个交通状态,r表示在当前交通状态s执行动作a获取的立即回报;
步骤1.2、定义当前交通状态s,当前交通状态s包含交叉口各车道上车辆的位置信息和当前信号灯状态信息,对交叉口各车道停车线以外l米内每隔c米进行离散化处理,得到个元胞,如果元胞内有车,对应位置值为1,如果元胞内没有车,对应位置值为0,这样就得到车辆位置信息,对相应位置上信号灯状态进行数字化表征,红灯RED=0.2,黄灯YELLOW=0.5,绿灯GREEN=0.8,得到当前信号灯状态信息;再将各车道车辆信息和当前信号灯状态信息融合得到类似于图像的当前交通信息矩阵,矩阵维数越大,交通信息刻画就越准确,本发明矩阵维数取值168×168,当前交通信息矩阵中心部分代表当前信号灯状态,其它位置上1代表有车,0代表没有车;再将连续4个时刻获取的当前交通信息矩阵作为当前交通状态s,其中不仅包含了车辆位置静态信息,而且还包含了交通动态变化的信息,从而更加准确深刻地刻画出了当前交通状态;
步骤1.3、定义动作空间A为可以选择的相位,本发明采用4相位,A={NSG,NSLG,WEG,WELG},其中NSG为相位1,代表南北直行通行,NSLG为相位2,代表南北左转通行,WEG为相位3,代表东西直行通行,WELG为相位4,代表东西左转通行,agent的可选执行动作为a,其中a∈A;
步骤1.4、定义回报函数r=-0.4×d-0.3×w-0.2×q-0.1*p,
其中表示车辆总延误,Nlane表示交叉口的车道数,Nvehicle表示各车道上的车辆数,vspeed表示车辆当前速度,vallowed表示车辆所在车道允许最大通行速度;表示车辆总等待时间,wvehicle表示单个车辆在交叉口的等待时间,大小为车辆从静止到运动之间的时间长度;q=max(q1,q2,q3,q4)-min(q1,q2,q3,q4)表示车辆排队绝对差,q1表示相位1对应的排队长度,q2表示相位2对应的排队长度,q3表示相位3对应的排队长度,q4表示相位4对应的排队长度;p表示信号灯是否发生切换,可通过公式(1)进行描述,
式中,p=0表示信号灯没有发生切换,p=1表示信号灯发生切换;
步骤2、深度神经网络的预训练,目的是为了减少Agent在学习过程中由于选择错误的动作对交通造成不好的影响,具体包括以下子步骤:
步骤2.1、预训练样本采集,依据现有的交通信号控制系统控制策略进行交通控制,对当前交通状态s、当前交通状态的执行动作a、当前交通状态的获取回报r及下一个交通状态s′每隔5秒钟进行一次采样,并将转移样本<s,a,r,s'>送至经验回放记忆池D中,采样数目不少于100000个;
步骤2.2、计算获取深度神经网络参数θ,使用步骤2.1采集到的样本数据对交通信号控制agent进行训练,使损失函数L=[Q(s,a;θ)-r-γmaxQ(s′,a′;θ)]2最小化,其中θ表示神经网络一组参数取值,Q(s,a;θ)表示当前交通状态s下选取执行动作a在神经网络参数为θ时的Q值,r表示立即回报,γ表示折扣系数,maxQ(s′,a′;θ)表示下一个交通状态s′在神经网络参数为θ时所有动作对应Q值的最大值;神经网络参数θ的更新使用RMSProp优化算法,RMSProp通过增加阻尼系数η解决学习速率衰减的问题,RMSProp算法通过公式(2)和(3)进行描述:
式中,表示参数θj在t+1时刻的累加梯度,表示参数θj在t时刻的累加梯度,表示参数θj在t+1时刻的取值,表示参数θj在t时刻的取值,η表示阻尼系数且η∈(0,1),δ表示一个接近于0的小数,在本发明中,δ=0.001,η=0.9;
步骤3、使用深度强化学习方法对神经网络进行训练,具体包括以下子步骤:
步骤3.1、构造结构相同的值网络QV和目标网络QT,将步骤2预训练好的神经网络参数θ复制到QV和QT中,使θT=θV=θ,θV表示值网络QV的参数,θT表示目标网络QT的参数,清空回放记忆池D,时间步清零,切换到本发明基于深度强化学习的交通信号自适应控制方法,初始化动作选择机制ε-greedy算法中的ε,使得0<ε<1,本发明取初始值ε=0.8;
步骤3.2、对通过磁感、视频、RFID和车联网手段采集到的交通数据根据步骤1.3进行处理,每隔5秒钟观测当前交通状态s;
步骤3.3、将当前交通状态s送入值网络QV中,输出当前交通状态s下所有执行动作a的Q值Q(s,a;θV),生成一个随机数rand,如果rand<ε,从执行动作空间概率中选择一个执行动作,a~U(A),否则a=argmaxQ(s,a;θV);计算步骤1.4定义的回报函数r,同时观测下一个交通状态s′,并将转移样本<s,a,r,s′>送至经验回放记忆池D中,再对当前交通状态重新赋值,令s=s′;
步骤3.4、从经验回放记忆池D中取出一个mini-batch数据,以最小化损失函数其中采用RMSProp优化算法对神经网络进行训练;
步骤3.5、重复步骤3.2到步骤3.4直到|θTV|小于某一阈值,每10000步使得θT=θV,ε=min(0.1,ε2);
步骤4,依据训练好的深度神经网络进行交通信号控制,具体包括以下子步骤:
步骤4.1、更新ε-greedy算法中的ε=0,使agent利用已经学习到的经验;
步骤4.2、根据步骤3.2每隔5秒钟获取当前交通状态s,再将s送至深度神经网络,选取执行动作a,使得a=argmaxQ(s,a;θV),重复此步骤。
本发明优点在于:一种基于深度强化学习的交通信号自适应控制方法,是利用现有交通检测技术如磁感、视频、RFID、车联网检测得到的原始数据,通过简单的预处理,得到类似于图像的交通信息的低层表示,其中包含了车辆的位置信息和信号灯状态信息。将连续4个时刻的交通信息图像表示作为当前交通状态,送入本文使用的卷积神经网络中,进而将低层的交通信息抽象为高层的特征表示,实现了交通状态的精准感知,解决了传统信号控制对交通状态感知不准确的问题。在此基础上,强化学习通过Agent与交通环境的交互学习,制定相应的交通控制策略以最大化长期回报,实现了交通信号的自适应控制。本发明能够缩短旅行时间,使交通得以安全、畅通、有序和高效的运营。

Claims (1)

1.一种基于深度强化学习的交通信号自适应控制方法,其特征在于包括以下步骤:
步骤1、定义交通信号控制agent、状态空间S、动作空间A和回报函数r,具体包括以下子步骤:
步骤1.1、交通信号控制agent使用深度强化学习方法,构建深度神经网络QV为值网络,初始化经验回放记忆池D为空,本发明的神经网络采用卷积神经网络,依次为输入层,3个卷积层,1个全连接层和4个输出层,输入层为当前交通状态s,输出层为当前交通状态所有动作的值估计QV(s,a);经验回放记忆池D用于记录转移样本<s,a,r,s'>,其中s表示当前交通状态,a表示在当前交通状态s下选择的执行动作,s′表示在当前交通状态s下执行动作a后迁移到的下一个交通状态,r表示在当前交通状态s执行动作a获取的立即回报;
步骤1.2、定义当前交通状态s,当前交通状态s包含交叉口各车道上车辆的位置信息和当前信号灯状态信息,对交叉口各车道停车线以外l米内每隔c米进行离散化处理,得到个元胞,如果元胞内有车,对应位置值为1,如果元胞内没有车,对应位置值为0,这样就得到车辆位置信息,对相应位置上信号灯状态进行数字化表征,红灯RED=0.2,黄灯YELLOW=0.5,绿灯GREEN=0.8,得到当前信号灯状态信息;再将各车道车辆信息和当前信号灯状态信息融合得到类似于图像的当前交通信息矩阵,矩阵维数越大,交通信息刻画就越准确,本发明矩阵维数取值168×168,当前交通信息矩阵中心部分代表当前信号灯状态,其它位置上1代表有车,0代表没有车;再将连续4个时刻获取的当前交通信息矩阵作为当前交通状态s,其中不仅包含了车辆位置静态信息,而且还包含了交通动态变化的信息,从而更加准确深刻地刻画出了当前交通状态;
步骤1.3、定义动作空间A为可以选择的相位,本发明采用4相位,A={NSG,NSLG,WEG,WELG},其中NSG为相位1,代表南北直行通行,NSLG为相位2,代表南北左转通行,WEG为相位3,代表东西直行通行,WELG为相位4,代表东西左转通行,agent的可选执行动作为a,其中a∈A;
步骤1.4、定义回报函数r=-0.4×d-0.3×w-0.2×q-0.1×p,
其中表示车辆总延误,Nlane表示交叉口的车道数,Nvehicle表示各车道上的车辆数,vspeed表示车辆当前速度,vallowed表示车辆所在车道允许最大通行速度;表示车辆总等待时间,wvehicle表示单个车辆在交叉口的等待时间,大小为车辆从静止到运动之间的时间长度;q=max(q1,q2,q3,q4)-min(q1,q2,q3,q4)表示车辆排队绝对差,q1表示相位1对应的排队长度,q2表示相位2对应的排队长度,q3表示相位3对应的排队长度,q4表示相位4对应的排队长度;p表示信号灯是否发生切换,可通过公式(1)进行描述,
式中,p=0表示信号灯没有发生切换,p=1表示信号灯发生切换;
步骤2、深度神经网络的预训练,目的是为了减少agent在学习过程中由于选择错误的动作对交通造成不好的影响,具体包括以下子步骤:
步骤2.1、预训练样本采集,依据现有的交通信号控制系统控制策略进行交通控制,对当前交通状态s、当前交通状态的执行动作a、当前交通状态的获取回报r及下一个交通状态s′每隔5秒钟进行一次采样,并将转移样本<s,a,r,s'>送至经验回放记忆池D中,采样数目不少于100000个;
步骤2.2、计算获取深度神经网络参数θ,使用步骤2.1采集到的样本数据对交通信号控制agent进行训练,使损失函数L=[Q(s,a;θ)-r-γmaxQ(s',a';θ)]2最小化,其中θ表示神经网络一组参数取值,Q(s,a;θ)表示当前交通状态s下选取执行动作a在神经网络参数为θ时的Q值,r表示立即回报,γ表示折扣系数,maxQ(s′,a′;θ)表示下一个交通状态s'在神经网络参数为θ时所有动作对应Q值的最大值;神经网络参数θ的更新使用RMSProp优化算法,RMSProp通过增加阻尼系数η解决学习速率衰减的问题,RMSProp算法通过公式(2)和(3)进行描述:
式中,表示参数θj在t+1时刻的累加梯度,表示参数θj在t时刻的累加梯度,表示参数θj在t+1时刻的取值,表示参数θj在t时刻的取值,η表示阻尼系数且η∈(0,1),α表示累加梯度的学习率,δ表示一个接近于0的小数,在本发明中,δ=0.001,η=0.9;
步骤3、使用深度强化学习方法对神经网络进行训练,具体包括以下子步骤:
步骤3.1、构造结构相同的值网络QV和目标网络QT,将步骤2预训练好的神经网络参数θ复制到QV和QT中,使θT=θV=θ,θV表示值网络QV的参数,θT表示目标网络QT的参数,清空经验回放记忆池D,时间步清零,切换到本发明基于深度强化学习的交通信号自适应控制方法,初始化动作选择机制ε-greedy算法中的ε,使得0<ε<1,本发明取初始值ε=0.8;
步骤3.2、对通过磁感、视频、RFID和车联网手段采集到的交通数据根据步骤1.2进行处理,每隔5秒钟观测当前交通状态s;
步骤3.3、将当前交通状态s送入值网络QV中,输出当前交通状态s下所有执行动作a的Q值Q(s,a;θV),生成一个随机数rand,如果rand<ε,从执行动作空间概率中选择一个执行动作,a~U(A),否则a=argmaxQ(s,a;θV);计算步骤1.4定义的回报函数r,同时观测下一个交通状态s′,并将转移样本<s,a,r,s′>送至经验回放记忆池D中,再对当前交通状态重新赋值,令s=s′;
步骤3.4、从经验回放记忆池D中取出一组小批度数据,以最小化损失函数其中采用RMSProp优化算法对神经网络进行训练;
步骤3.5、重复步骤3.2到步骤3.4直到|θTV|小于某一阈值,每10000步使得θT=θV,ε=min(0.1,ε2);
步骤4,依据训练好的深度神经网络进行交通信号控制,具体包括以下子步骤:
步骤4.1、更新ε-greedy算法中的ε=0,使agent利用已经学习到的经验;
步骤4.2、根据步骤3.2每隔5秒钟获取当前交通状态s,再将s送至深度神经网络,选取执行动作a,使得a=argmaxQ(s,a;θV),重复此步骤。
CN201710258926.4A 2017-04-19 2017-04-19 一种基于深度强化学习的交通信号自适应控制方法 Expired - Fee Related CN106910351B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201710258926.4A CN106910351B (zh) 2017-04-19 2017-04-19 一种基于深度强化学习的交通信号自适应控制方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201710258926.4A CN106910351B (zh) 2017-04-19 2017-04-19 一种基于深度强化学习的交通信号自适应控制方法

Publications (2)

Publication Number Publication Date
CN106910351A CN106910351A (zh) 2017-06-30
CN106910351B true CN106910351B (zh) 2019-10-11

Family

ID=59209910

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201710258926.4A Expired - Fee Related CN106910351B (zh) 2017-04-19 2017-04-19 一种基于深度强化学习的交通信号自适应控制方法

Country Status (1)

Country Link
CN (1) CN106910351B (zh)

Families Citing this family (56)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109204308B (zh) * 2017-07-03 2020-04-07 上海汽车集团股份有限公司 车道保持算法的确定方法、车道保持的控制方法及系统
CN107705557B (zh) * 2017-09-04 2020-02-21 清华大学 基于深度增强网络的路网信号控制方法及装置
US11164077B2 (en) * 2017-11-02 2021-11-02 Siemens Aktiengesellschaft Randomized reinforcement learning for control of complex systems
CN107832836B (zh) * 2017-11-27 2020-04-21 清华大学 无模型深度增强学习探索方法及装置
CN108288094B (zh) * 2018-01-31 2021-06-29 清华大学 基于环境状态预测的深度强化学习方法及装置
CN108764006B (zh) * 2018-02-05 2021-11-02 北京航空航天大学 一种基于深度强化学习的sar图像目标检测方法
CN108399763B (zh) * 2018-03-07 2021-04-27 辽宁工业大学 一种基于神经网络的交叉路口交通信号灯控制算法
US11528720B2 (en) 2018-03-27 2022-12-13 Nokia Solutions And Networks Oy Method and apparatus for facilitating resource pairing using a deep Q-network
CN108805348B (zh) * 2018-06-05 2020-06-23 京东数字科技控股有限公司 一种交叉口信号配时控制优化的方法和装置
CN109195135B (zh) * 2018-08-06 2021-03-26 同济大学 Lte-v中基于深度强化学习的基站选择方法
CN109215355A (zh) * 2018-08-09 2019-01-15 北京航空航天大学 一种基于深度强化学习的单点交叉口信号配时优化方法
US10733510B2 (en) 2018-08-24 2020-08-04 Ford Global Technologies, Llc Vehicle adaptive learning
CN109274456B (zh) * 2018-09-10 2020-05-01 电子科技大学 一种基于强化学习的不完全信息智能抗干扰方法
CN109212476B (zh) * 2018-09-18 2023-03-14 广西大学 一种基于ddpg的rfid室内定位算法
CN111081010B (zh) * 2018-10-18 2022-08-02 阿里巴巴集团控股有限公司 一种交通流量或旅行时间的预测方法和设备
CN109410608B (zh) * 2018-11-07 2021-02-05 泽一交通工程咨询(上海)有限公司 基于卷积神经网络的图片自学习交通信号控制方法
CN109544913A (zh) * 2018-11-07 2019-03-29 南京邮电大学 一种基于深度q网络学习的交通灯动态配时算法
CN109670233A (zh) * 2018-12-14 2019-04-23 南京理工大学 基于深度强化学习的多交通信号灯自动控制方法
CN109615885B (zh) * 2018-12-27 2020-11-10 银江股份有限公司 一种智能交通信号控制方法、装置及系统
CN111489568B (zh) * 2019-01-25 2022-08-02 阿里巴巴集团控股有限公司 交通信号灯的调控方法、装置及计算机可读存储介质
CN109887284B (zh) * 2019-03-13 2020-08-21 银江股份有限公司 一种智慧城市交通信号控制推荐方法、系统及装置
CN110032782B (zh) * 2019-03-29 2023-03-07 银江技术股份有限公司 一种城市级智能交通信号控制系统及方法
CN110213827B (zh) * 2019-05-24 2023-05-02 南京理工大学 基于深度强化学习的车辆数据采集频率动态调节方法
CN110164150B (zh) * 2019-06-10 2020-07-24 浙江大学 一种基于时间分配和强化学习的交通信号灯控制方法
CN110264750B (zh) * 2019-06-14 2020-11-13 大连理工大学 一种基于多任务深度q网络的q值迁移的多交叉口信号灯协同控制方法
CN110195660B (zh) * 2019-06-19 2020-04-21 南京航空航天大学 基于深度q学习的航空发动机控制装置
CN110164151A (zh) * 2019-06-21 2019-08-23 西安电子科技大学 基于分布式深度循环q网络的交通灯控制方法
CN110428615B (zh) * 2019-07-12 2021-06-22 中国科学院自动化研究所 基于深度强化学习单路口交通信号控制方法、系统、装置
WO2021042401A1 (en) * 2019-09-07 2021-03-11 Beijing Didi Infinity Technology And Development Co., Ltd. Method and device for traffic light control
CN110796266B (zh) * 2019-10-30 2021-06-15 深圳前海微众银行股份有限公司 基于公共信息的强化学习实现方法、设备及存储介质
CN110718077B (zh) * 2019-11-04 2020-08-07 武汉理工大学 一种行动-评价机制下信号灯优化配时方法
CN110930734A (zh) * 2019-11-30 2020-03-27 天津大学 基于强化学习的闲时交通指示灯智能控制方法
CN110930737B (zh) * 2019-12-04 2021-10-08 南京莱斯信息技术股份有限公司 一种基于记忆宫殿的干线协调交通信号灯控制方法
CN111081035A (zh) * 2019-12-17 2020-04-28 扬州市鑫通智能信息技术有限公司 一种基于q学习的交通信号控制方法
CN111243271A (zh) * 2020-01-11 2020-06-05 多伦科技股份有限公司 一种基于深度循环q学习的单点交叉口信号控制方法
CN111582439B (zh) * 2020-04-14 2021-08-10 清华大学 状态部分可观测强化学习算法的高效采样更新方法及装置
CN111653106A (zh) * 2020-04-15 2020-09-11 南京理工大学 一种基于深度q学习的交通信号控制方法
CN111564048A (zh) * 2020-04-28 2020-08-21 郑州大学 一种交通信号灯的控制方法、装置、电子设备及存储介质
CN111899534A (zh) * 2020-06-05 2020-11-06 西安理工大学 基于道路实时容量的交通灯智能控制方法
CN111915894B (zh) * 2020-08-06 2021-07-27 北京航空航天大学 基于深度强化学习的可变车道及交通信号协同控制方法
CN111951575B (zh) * 2020-08-13 2023-04-07 北京交通大学 基于提前强化学习的交通信号灯自适应控制方法
CN112150808B (zh) * 2020-09-25 2022-06-17 天津大学 一种基于深度学习的城市交通系统调度策略生成方法
CN112216128A (zh) * 2020-09-28 2021-01-12 航天科工广信智能技术有限公司 一种基于深度q学习神经网络的大型路网交通信号控制方法
CN112347900B (zh) * 2020-11-04 2022-10-14 中国海洋大学 基于距离估计的单目视觉水下目标自动抓取方法
CN112491814B (zh) * 2020-11-11 2021-10-08 同济大学 一种车联网网联交叉口网络攻击检测方法及系统
CN112489464B (zh) * 2020-11-19 2022-06-28 天津大学 一种具有位置感知的路口交通信号灯调控方法
CN112669629B (zh) * 2020-12-17 2022-09-23 北京建筑大学 一种基于深度强化学习的实时交通信号控制方法及装置
US20220198925A1 (en) * 2020-12-21 2022-06-23 Huawei Technologies Canada Co., Ltd. Temporal detector scan image method, system, and medium for traffic signal control
CN112863206B (zh) * 2021-01-07 2022-08-09 北京大学 一种基于强化学习的交通信号灯控制方法与系统
CN112927505B (zh) * 2021-01-28 2022-08-02 哈尔滨工程大学 一种车联网环境下基于多智能体深度强化学习的信号灯自适应控制方法
CN113380054A (zh) * 2021-06-09 2021-09-10 湖南大学 一种基于强化学习的交通信号灯控制方法及系统
CN113393667B (zh) * 2021-06-10 2022-05-13 大连海事大学 一种基于Categorical-DQN乐观探索的交通控制方法
CN113870588B (zh) * 2021-08-20 2022-12-30 深圳市人工智能与机器人研究院 一种基于深度q网络的交通灯控制方法、终端及存储介质
CN113947928A (zh) * 2021-10-15 2022-01-18 河南工业大学 基于深度强化学习与扩展卡尔曼滤波相结合的交通信号灯配时方法
CN114627657A (zh) * 2022-03-09 2022-06-14 哈尔滨理工大学 一种基于图深度强化学习的自适应交通信号控制方法
CN114913685B (zh) * 2022-05-09 2024-03-22 宁波崛马信息科技有限公司 基于深度强化学习的路口交通信号自适应控制方法

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2011157745A1 (en) * 2010-06-15 2011-12-22 The Provost, Fellows And Scholars Of The College Of The Holy And Undivided Trinity Of Queen Elizabeth, Near Dublin Decentralised autonomic system and method for use in an urban traffic control environment
CN103077615A (zh) * 2012-12-20 2013-05-01 长沙理工大学 一种优化信号交叉口排队长度的在线学习方法
CN105046987A (zh) * 2015-06-17 2015-11-11 苏州大学 一种基于强化学习的路面交通信号灯协调控制方法
CN105118308A (zh) * 2015-10-12 2015-12-02 青岛大学 基于聚类强化学习的城市道路交叉口交通信号优化方法
CN105513380A (zh) * 2015-12-29 2016-04-20 中国科学院自动化研究所 Eadp控制器的离线训练方法和系统及其在线控制方法和系统
CN105654744A (zh) * 2016-03-10 2016-06-08 同济大学 一种基于q学习的改进交通信号控制方法
CN106023605A (zh) * 2016-07-15 2016-10-12 姹ゅ钩 一种基于深度卷积神经网络的交通信号灯控制方法

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CA2859049C (en) * 2011-12-16 2018-06-12 Samah EL-TANTAWY Multi-agent reinforcement learning for integrated and networked adaptive traffic signal control

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2011157745A1 (en) * 2010-06-15 2011-12-22 The Provost, Fellows And Scholars Of The College Of The Holy And Undivided Trinity Of Queen Elizabeth, Near Dublin Decentralised autonomic system and method for use in an urban traffic control environment
CN103077615A (zh) * 2012-12-20 2013-05-01 长沙理工大学 一种优化信号交叉口排队长度的在线学习方法
CN105046987A (zh) * 2015-06-17 2015-11-11 苏州大学 一种基于强化学习的路面交通信号灯协调控制方法
CN105118308A (zh) * 2015-10-12 2015-12-02 青岛大学 基于聚类强化学习的城市道路交叉口交通信号优化方法
CN105513380A (zh) * 2015-12-29 2016-04-20 中国科学院自动化研究所 Eadp控制器的离线训练方法和系统及其在线控制方法和系统
CN105654744A (zh) * 2016-03-10 2016-06-08 同济大学 一种基于q学习的改进交通信号控制方法
CN106023605A (zh) * 2016-07-15 2016-10-12 姹ゅ钩 一种基于深度卷积神经网络的交通信号灯控制方法

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
Traffic Signal Timing via Deep Reinforcement Learning;Li Li等;《IEEE/CAA JOURNAL OF AUTOMATICA SINICA》;20160731;第3卷(第3期);第247-254页 *
基于Agent智能交通信号灯控制的研究;邢玉梅;《中国优秀硕士学位论文全文数据库 信息科技辑》;20081015(第10期);第27-29页 *
基于Q_学习算法的交通控制与诱导协同模式的在线选择;杨庆芳 等;《吉林大学学报(工学版)》;20100930;第40卷(第5期);第1215-1219页 *
基于强化学习的自适应城市交通信号控制方法研究;王新;《中国优秀硕士学位论文全文数据库 工程科技Ⅱ辑》;20160215(第2期);第24-47页 *

Also Published As

Publication number Publication date
CN106910351A (zh) 2017-06-30

Similar Documents

Publication Publication Date Title
CN106910351B (zh) 一种基于深度强化学习的交通信号自适应控制方法
CN110060475A (zh) 一种基于深度强化学习的多交叉口信号灯协同控制方法
CN109559530A (zh) 一种基于q值迁移深度强化学习的多交叉口信号灯协同控制方法
Liang et al. A deep reinforcement learning network for traffic light cycle control
CN106297297B (zh) 基于深度学习的交通拥堵判别方法
CN109726903B (zh) 基于注意力机制的分布式多智能体协同决策方法
CN110794842A (zh) 基于势场的强化学习路径规划算法
CN106970615A (zh) 一种深度强化学习的实时在线路径规划方法
CN109215355A (zh) 一种基于深度强化学习的单点交叉口信号配时优化方法
CN109739218A (zh) 一种基于gru网络的仿优秀驾驶员换道模型建立方法
CN110264750A (zh) 一种基于多任务深度q网络的q值迁移的多交叉口信号灯协同控制方法
CN107180530A (zh) 一种基于深度时空卷积循环网络的路网状态预测方法
CN110164150B (zh) 一种基于时间分配和强化学习的交通信号灯控制方法
CN110570672B (zh) 一种基于图神经网络的区域交通信号灯控制方法
CN112949933B (zh) 一种基于多智能体强化学习的交通组织方案优化方法
CN110108292A (zh) 车辆导航路径规划方法、系统、设备及介质
CN106991666A (zh) 一种适用于多尺寸图片信息的病害图像识别方法
CN113674522A (zh) 一种解决快速道路瓶颈路段拥堵问题的匝道控制方法
CN110182217A (zh) 一种面向复杂超车场景的行驶任务复杂度量化评估方法
Chu et al. Traffic signal control using end-to-end off-policy deep reinforcement learning
Shabestray et al. Multimodal intelligent deep (mind) traffic signal controller
CN114038216B (zh) 一种基于路网划分和边界流量控制的信号灯管控方法
CN113724507B (zh) 基于深度强化学习的交通控制与车辆诱导协同方法和系统
Benedetti et al. Application of deep reinforcement learning for traffic control of road intersection with emergency vehicles
Ahmed et al. A deep q-network reinforcement learning-based model for autonomous driving

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20191011

Termination date: 20210419

CF01 Termination of patent right due to non-payment of annual fee