CN116071939B - 一种交通信号控制模型的建立方法及控制方法 - Google Patents

一种交通信号控制模型的建立方法及控制方法 Download PDF

Info

Publication number
CN116071939B
CN116071939B CN202310294888.3A CN202310294888A CN116071939B CN 116071939 B CN116071939 B CN 116071939B CN 202310294888 A CN202310294888 A CN 202310294888A CN 116071939 B CN116071939 B CN 116071939B
Authority
CN
China
Prior art keywords
traffic signal
traffic
signal controller
network
representing
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202310294888.3A
Other languages
English (en)
Other versions
CN116071939A (zh
Inventor
严丽平
王静
朱炉龙
宋凯
蔡彧
张文剥
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
East China Jiaotong University
Original Assignee
East China Jiaotong University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by East China Jiaotong University filed Critical East China Jiaotong University
Priority to CN202310294888.3A priority Critical patent/CN116071939B/zh
Publication of CN116071939A publication Critical patent/CN116071939A/zh
Application granted granted Critical
Publication of CN116071939B publication Critical patent/CN116071939B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G08SIGNALLING
    • G08GTRAFFIC CONTROL SYSTEMS
    • G08G1/00Traffic control systems for road vehicles
    • G08G1/07Controlling traffic signals
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02TCLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
    • Y02T10/00Road transport of goods or passengers
    • Y02T10/10Internal combustion engine [ICE] based vehicles
    • Y02T10/40Engine management systems

Landscapes

  • Physics & Mathematics (AREA)
  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Molecular Biology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • General Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Traffic Control Systems (AREA)

Abstract

本发明公开了一种交通信号控制模型的建立方法及控制方法,该建立方法包括步骤S101~S102;S101,设计交通信号控制器网络结构;S102,训练交通信号控制器;其中,步骤S101包括:S1011,对交通状态进行编码;S1012,将编码后的交通状态根据交叉口邻接矩阵传入图卷积网络中提取隐含特征;S1013,生成交通信号控制器领域的整体环境特征;S1014,交通信号控制器在所述交通信号控制器领域的整体环境特征上模拟领域的影响,从而得到交通信号控制器网络结构。本发明能够解决现有技术不能有效实现邻居Agent交互协作的问题。

Description

一种交通信号控制模型的建立方法及控制方法
技术领域
本发明涉及交通数据处理技术领域,特别是涉及一种交通信号控制模型的建立方法及控制方法。
背景技术
近年来,交通拥堵浪费通行时间,加剧尾气排放,造成严重的经济损失。对交通信号进行控制能一定程度上缓解交通拥堵。目前,随着强化学习的快速发展,研究人员发现强化学习是解决交通信号控制问题最合适的框架,开始研究强化学习技术实现交通信号的协作。特别的,在大规模的道路网络中,交叉口之间的合作对于缓解交通拥堵至关重要。但大多数现存的多智能体强化学习(MARL)的交通信号控制方法不能有效实现邻居交通信号控制器(Agent)交互协作。
当前交通信号控制方法主要包括传统的预定时、自适应交通信号控制方法、基于强化学习的单智能体强化学习、多智能体强化学习的交通信号控制方法。预定时的交通信号控制方法主要是通过合理规划道路网络的交通流量来减少排队车辆长度,缓解交通拥堵。自适应交通信号控制(Adaptive Traffic Signal Control,ATSC)致力于让交通信号配时方案适应于实时、动态多变、复杂不确定的道路状况,以在饱和道路上减少潜在的拥堵来缓解交通压力。基于强化学习的交通信号控制方法不依赖于任何不切实际的模型假设,通过与周围复杂交通环境直接交互获得经验,根据经验调整动作策略,从而进行学习。
然而,现有技术中,预定时、自适应交通信号控制等传统信号控制方法无法实时解决交通环境的动态性问题。单智能体强化学习的交通信号控制方法不适合部署在大型城市交通路网中;多智能体强化学习的交通信号控制方法中,每个控制信号灯的Agent感知该交叉口交通状态信息时会受到领域Agent决策的影响,造成非平稳问题。大多数现存的多智能体强化学习的交通信号控制方法不能有效实现邻居Agent交互协作。Agent之间的全交互会使得用于协作的信息价值密度降低,而仅与邻居Agent交互通信会限制协作范围。
发明内容
为此,本发明的实施例提出一种交通信号控制模型的建立方法及控制方法,以解决现有技术不能有效实现邻居Agent交互协作的问题。
根据本发明一实施例的交通信号控制模型的建立方法,包括步骤S101~S102:
S101,设计交通信号控制器网络结构;
其中,步骤S101包括步骤S1011~S1014:
S1011,对交通状态进行编码;
S1012,将编码后的交通状态根据交叉口邻接矩阵传入图卷积网络中提取隐含特征;
S1013,生成交通信号控制器领域的整体环境特征;
S1014,交通信号控制器在所述交通信号控制器领域的整体环境特征上模拟领域的影响,从而得到交通信号控制器网络结构;
S102,训练交通信号控制器;
其中,步骤S102包括步骤S1021~S1023:
S1021,在每个时间步长内受控交通路网中所有交通信号控制器采集各个交叉口的交通状态数据和对应的邻接矩阵;
S1022,交通信号控制器根据交通状态数据以预设概率为每个交叉口选择一个最优的信号相位动作,交付给每个交叉口的信号灯去实施,并返回相应的奖励值给交通信号控制器;
S1023,交通信号控制器在与环境的交互中进行学习以获得最优的实时信号配时策略响应交通流的动态特性,完成交通信号控制器的训练,以得到交通信号控制模型。
上述建立方法,其中,步骤S1011具体包括:
S1011a,将原始的本地观测向量
Figure SMS_1
嵌入多层感知机得到中间值/>
Figure SMS_2
S1011b,将
Figure SMS_3
和/>
Figure SMS_4
时刻采取的动作/>
Figure SMS_5
共同作为门循环单元的输入,得到隐含特征向量/>
Figure SMS_6
其中,中间值
Figure SMS_7
的表达式为:/>
Figure SMS_8
,/>
Figure SMS_9
表示第i个交通信号控制器在/>
Figure SMS_10
时刻的本地观测向量,/>
Figure SMS_11
表示权重矩阵,/>
Figure SMS_12
表示偏置向量,/>
Figure SMS_13
函数表示具有Relu非线性激活函数的单层感知机;
隐含特征向量
Figure SMS_14
的表达式为:/>
Figure SMS_15
,/>
Figure SMS_16
表示第i个交通信号控制器在t-1时刻采取的动作,GRU表示门循环单元。
上述建立方法,其中,步骤S1012具体包括:
S10121a,将每个交通信号控制器输入的交通环境特征投影为每个独立的注意力头;
S10121b,在每一个注意力头m中,将所有输入特征的值表示都关系加权后相加;
S10121c,将第i个交通信号控制器的M个注意力头的输出进行串联,再输入函数
Figure SMS_17
,产生卷积层的输出/>
Figure SMS_18
其中,
Figure SMS_21
的表达式为:/>
Figure SMS_23
,其中,
Figure SMS_26
表示权重矩阵,/>
Figure SMS_20
表示交叉口i的所有邻居交叉口,/>
Figure SMS_24
表示/>
Figure SMS_27
i的集合,/>
Figure SMS_28
表示对于任一注意力头m,交叉口j对交叉口i的重要性程度,/>
Figure SMS_19
表示注意力头m的值V的权重矩阵,/>
Figure SMS_22
表示第j个交通信号控制器在t时刻的隐含特征向量,/>
Figure SMS_25
表示sigmoid的参数;
Figure SMS_29
的表达式为:/>
Figure SMS_30
,/>
Figure SMS_31
表示缩放系数,/>
Figure SMS_32
表示注意力头m的查询Q的权重矩阵,/>
Figure SMS_33
表示注意力头m的键K的权重矩阵,T表示转置符号,k表示普通参数,/>
Figure SMS_34
表示第k个交通信号控制器在t时刻的隐含特征向量。
上述建立方法,其中,步骤S1012还包括:
S10122a,第二层卷积层提取合并交叉口i附近区域的交通环境特征,生成隐含的特征向量
Figure SMS_35
,交叉口i附近区域包括交叉口i的所有邻居交叉口/>
Figure SMS_36
S10122b,堆叠多个卷积层的交通环境特征,生成隐含的特征向量。
上述建立方法,其中,步骤S1013具体包括:
S1013a,构建交叉口i的邻居协作矩阵
Figure SMS_37
S1013b,将所有交通信号控制器的隐含特征向量
Figure SMS_38
拼接成一个大小为/>
Figure SMS_39
的特征矩阵/>
Figure SMS_40
S1013c,得到交叉口i的邻居协作区域的特征矩阵
Figure SMS_41
上述建立方法,其中,步骤S1022具体包括:
S1022a,将每个交通信号控制器的价值函数Q联合起来,统一输入到混合网络中,获得联合价值函数
Figure SMS_42
S1022b,每个交通信号控制器隐性地获得自己的价值函数
Figure SMS_43
,根据价值函数/>
Figure SMS_44
进行动作选择;
其中,联合价值函数
Figure SMS_45
的表达式为:/>
Figure SMS_46
,其中,/>
Figure SMS_47
表示第i个交通信号控制器的价值函数。
上述建立方法,其中,步骤S1023具体包括:
S1023a,在训练阶段的每一时间戳
Figure SMS_48
内,将训练数据的元组/>
Figure SMS_49
存储在经验回放池D中;
S1023b,从经验回放池D中随机抽取大小为B的批次数据,通过图卷积网络进行端对端的训练以最小化损失函数L
所述训练数据的元组
Figure SMS_50
,其中,/>
Figure SMS_51
表示所有交通信号控制器的本地观测集,/>
Figure SMS_52
表示所有交通信号控制器的动作集,/>
Figure SMS_53
表示下一时刻/>
Figure SMS_54
所有交通信号控制器的本地观测集,/>
Figure SMS_55
表示所有交通信号控制器的奖励集;
所述损失函数L的表达式为:
Figure SMS_56
,/>
Figure SMS_57
其中,B表示抽取的批次数据的大小,
Figure SMS_66
表示第/>
Figure SMS_60
个交通信号控制器的感知域组成的观测集合,/>
Figure SMS_71
表示第/>
Figure SMS_62
个交通信号控制器的动作,/>
Figure SMS_72
表示评估网络的参数,/>
Figure SMS_64
表示联合报酬,/>
Figure SMS_73
表示折扣因子,/>
Figure SMS_63
表示联合价值函数/>
Figure SMS_68
最大时交通信号控制器的动作集合,/>
Figure SMS_58
表示/>
Figure SMS_67
时刻第/>
Figure SMS_65
个交通信号控制器的感知域组成的观测集合,/>
Figure SMS_69
表示/>
Figure SMS_59
时刻第/>
Figure SMS_70
个交通信号控制器的动作,/>
Figure SMS_61
表示目标网络的参数。
本发明的实施例还提供了交通信号控制模型的控制方法,所述交通信号控制模型由上的建立方法建立得到,所述控制方法包括步骤S201~S202:
S201,第
Figure SMS_74
个交通信号控制器更新自己的Q网络;
S202,第
Figure SMS_75
个交通信号控制器在t时刻采取的动作/>
Figure SMS_76
上述控制方法,其中,步骤S201具体包括:
S2011,第
Figure SMS_77
个交通信号控制器采用固定Q网络方式,同时训练评估网络和目标网络,评估网络与交通路网环境进行交互,并把交互所得的经验数据/>
Figure SMS_78
放入经验回放池中;
S2012,评估网络从经验回放池中取出数据训练自身网络,并采用软更新的方式定期把网络参数更新给目标网络;
S2013,目标网络计算作为评估网络的真实标签的target值,通过梯度下降算法更新所述评估网络的参数;
其中,所述经验数据
Figure SMS_79
中,/>
Figure SMS_80
表示交通信号控制器的状态,/>
Figure SMS_81
表示交通信号控制器的动作,/>
Figure SMS_82
表示奖励,/>
Figure SMS_83
表示下一个状态,/>
Figure SMS_84
表示回合结束标志。
在上述控制方法中,交通环境状态的构造形式、动作集合的设定以及奖励值的设置如下:
交叉口观测
Figure SMS_85
:对任意特定的交叉路口第/>
Figure SMS_86
个交通信号控制器,其测得的交通环境变量组成该交通信号控制器的本地部分可观测状态向量/>
Figure SMS_87
,包含所有交通信号控制器的观测状态空间;
向量
Figure SMS_97
描述交叉路口特定时刻/>
Figure SMS_95
的环境状态,包含如下成分:/>
Figure SMS_103
, />
Figure SMS_94
,
Figure SMS_108
, />
Figure SMS_98
, />
Figure SMS_106
和/>
Figure SMS_89
。其中,/>
Figure SMS_102
表示第/>
Figure SMS_88
个交通信号控制器,/>
Figure SMS_109
表示该交叉路口所有入口车道等待车辆的队列长度,是一个/>
Figure SMS_96
维的向量;/>
Figure SMS_101
也是一个/>
Figure SMS_99
维的实数集向量,每个元素是该交叉路口入口车道的车辆数据,是等待车辆和驶入车辆之和;/>
Figure SMS_107
表示入口车道所有车辆的平均等待时间,即上一次车速大于/>
Figure SMS_91
开始,速度小于/>
Figure SMS_110
的时间;/>
Figure SMS_92
表示入口车道所有车辆的平均延时,车道延时的数值等于/>
Figure SMS_100
减去(平均车辆速度/车道最大允许速度),单位为/>
Figure SMS_90
;/>
Figure SMS_105
是交通灯的当前相位;/>
Figure SMS_93
是当前相位的持续时间,/>
Figure SMS_104
表示维度。
动作
Figure SMS_113
:交通信号控制器的所有交通信号的综合相位构成一个有限的相位集,可以由十字路口的交通信号控制器选择;第/>
Figure SMS_116
个交通信号控制器的动作被定义为某一特定路口/>
Figure SMS_119
的可选有限相位集合。在行动完成之前,第/>
Figure SMS_112
个交通信号控制器将计算出动作价值函数
Figure SMS_115
并选择一个具有最大行动值的行动作为在时间戳/>
Figure SMS_118
的下一个行动。相应的信号序列将被分配到交叉路口,其中,/>
Figure SMS_121
表示第/>
Figure SMS_111
个交通信号控制器在/>
Figure SMS_117
时刻的观测,
Figure SMS_120
表示第/>
Figure SMS_122
个交通信号控制器在/>
Figure SMS_114
时刻采取的动作。
奖励R
Figure SMS_123
时刻第/>
Figure SMS_124
个交通信号控制器获得由环境反馈的立即奖励值/>
Figure SMS_125
利用不同的奖励定义可以达到相应的不同的控制或优化目的;本发明的目标是降低整个路网车辆的行驶时间和总延误的同时,减少整体车辆的尾气排放。所以,为了评估对能源和环境的影响,所述算法采用综合模态排放模型CMEM估计燃料消耗和空气污染物
Figure SMS_126
和/>
Figure SMS_127
的排放。
根据柴油汽车模态排放模型,燃油消耗计算如下:
Figure SMS_128
Figure SMS_129
Figure SMS_130
其中,
Figure SMS_132
为燃料使用率,单位为/>
Figure SMS_137
;/>
Figure SMS_140
为发动机输出功率,单位为/>
Figure SMS_134
;/>
Figure SMS_136
为发动机摩擦系数;/>
Figure SMS_139
为发动机转速,单位为转/>
Figure SMS_142
;/>
Figure SMS_131
为发动机排量,单位为升;/>
Figure SMS_135
为柴油机指示效率的衡量标准;/>
Figure SMS_138
和/>
Figure SMS_141
为系数,/>
Figure SMS_133
为基值;初步分析表明,燃料的使用和发动机的排放之间有很强的相关性。
因此,一氧化碳和氮氧化物的排放率估计为:
Figure SMS_143
其中,
Figure SMS_144
、/>
Figure SMS_145
和/>
Figure SMS_146
、/>
Figure SMS_147
是通过回归和校准程序确定的发动机排放系数。
综上所述,奖励函数的定义为:
Figure SMS_148
其中,
Figure SMS_150
、/>
Figure SMS_154
是权重系数,/>
Figure SMS_157
是交叉口/>
Figure SMS_151
的进口车道数目,/>
Figure SMS_153
是/>
Figure SMS_156
时刻沿各进口车道测量的队列长度,/>
Figure SMS_159
是/>
Figure SMS_149
时刻各进口车道的车辆等待时间之和;值得注意的是,奖励是滞后的,所以,/>
Figure SMS_152
和/>
Figure SMS_155
都是在时间/>
Figure SMS_158
时测量的。
根据本发明实施例的交通信号控制模型的建立方法及控制方法,通过交通信号控制器网络结构的设计,使建立的交通信号控制模型能够提取交通路网实时的时空状态数据,解决了领域交叉口同等对待的弊端,同时,多层堆叠的图卷积核使目标交叉口的交通信号控制器在扩大感知领域的同时不增加通信负荷;基于交通信号控制模型提出的控制方法从全局优化的角度评估交通信号控制器执行的动作,并不断更新以获得最优执行策略。本发明所提出的交通信号控制模型具有很好的鲁棒性、最优性和可扩展性,能准确捕获交通信号相互作用的方式,汇总从协作交通信号控制器处获得的信息并做出网络级的信号优化决策,性能优于传统交通信号控制方法和当前最先进的MARL控制方法。
此外,本发明融入生态交通理念,将尾气排放纳入多智能体强化学习信号控制系统中,大大降低了汽车尾气排放,提升了城市的生态环境。本发明所提出的交通信号控制模型优化了能源消耗,降低了尾气排放。
附图说明
本发明实施例的上述和/或附加的方面和优点从结合下面附图对实施例的描述中将变得明显和容易理解,其中:
图1是根据本发明一实施例的交通信号控制模型的建立方法的流程示意图;
图2是图1中步骤S101的流程示意图;
图3是图1中步骤S102的流程示意图;
图4是合成交通路网实验设置的示意图,其中,(a)为16个交叉口组成的交通路网,(b)为该路网生成的车流量;
图5是合成路网中交叉口的信号灯的4相位的示意图;
图6是四种基于RL的交通信号控制模型的训练曲线图;
图7是五种基于RL的交通信号控制模型在合成路网中交叉口的平均队列长度的曲线图;
图8是五种交通信号控制模型中车辆的平均队列长度随着仿真时间变化的曲线图;
图9是不同模型在合成路网上的隐藏状态定义方面的表现的柱状图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
实施例一
请参阅图1,本发明提出一种交通信号控制模型(以下简称GCQN-TSC模型)的建立方法,GCQN-TSC模型的核心部分是交通信号控制器(以下简称Agent)网络结构设计和Agent学习过程,Agent网络结构类似于GCQN-TSC模型的“大脑”,Agent学习过程则是使模型展现出“智能”的过程,两者共同形成对交通环境做出实时响应的“智能”体,其中模型的建立方法包括如下步骤S101~S102:
S101、设计Agent网络结构。
Agent网络结构设计包括交通状态编码网络设计和图卷积层设计,具体的,请参阅图2,步骤S101包括步骤S1011~S1014:
S1011、对交通状态进行编码。
其中,具体的编码过程包括:
S1011a、将原始的本地观测向量
Figure SMS_160
嵌入多层感知机(MLP)得到中间值/>
Figure SMS_161
S1011b、将
Figure SMS_162
和/>
Figure SMS_163
时刻采取的动作/>
Figure SMS_164
共同作为门循环单元(GRU)的输入,得到隐含特征向量/>
Figure SMS_165
其中,中间值
Figure SMS_166
的表达式为:/>
Figure SMS_167
,/>
Figure SMS_168
表示第i个交通信号控制器在/>
Figure SMS_169
时刻的本地观测向量,/>
Figure SMS_170
表示权重矩阵,/>
Figure SMS_171
表示偏置向量,/>
Figure SMS_172
函数表示具有Relu非线性激活函数的单层感知机;
隐含特征向量
Figure SMS_173
的表达式为:/>
Figure SMS_174
,/>
Figure SMS_175
表示第i个交通信号控制器(以下简称Agent />
Figure SMS_176
)在t-1时刻采取的动作。
S1012、将编码后的交通状态根据交叉口邻接矩阵传入图卷积网络中提取隐含特征;
需要说明的是,现存的MARL通信方法在交通信号控制中,来自不同邻居的交叉口的信息组合在一起以同等的重要性对待,这导致交叉口上游的车流的影响被削弱而下游交叉口车流的影响被加强,这存在明显的缺陷。卷积核可以集成感知域环境特征并提取出更高层次的隐含特征,所以卷积核应该学习如何抽取出两个Agent间的重要性程度,并将其集成以供卷积核计算。
其中,图协作内核中的扩展多头注意力可以联合关注来自不同位置的不同表示子空间的领域。由于领域对目标交叉口的重要性在空间和时间上有所不同,所述模型的注意机制可以通过考虑任何源-目标交叉口对的交通状况来帮助目标Agent区分复杂的情况。
为了学习交叉口
Figure SMS_177
对于交叉口/>
Figure SMS_178
就Agent学习动作策略影响的重要性程度,所述的图卷积层,采用多头点积注意力作为卷积核计算Agent之间的交互过程,包括如下步骤:
S10121a、将每个Agent输入的交通环境特征投影为每个独立的注意力头;
S10121b、在所述的每一个注意力头
Figure SMS_179
中,将所有输入特征的值表示都关系加权后相加;
S10121c、将Agent
Figure SMS_180
的/>
Figure SMS_181
个注意力头的输出进行串联,再输入函数/>
Figure SMS_182
,产生卷积层的输出/>
Figure SMS_183
其中,
Figure SMS_186
的表达式为:/>
Figure SMS_189
,其中,
Figure SMS_192
表示权重矩阵,/>
Figure SMS_185
表示交叉口i的所有邻居交叉口,/>
Figure SMS_188
表示/>
Figure SMS_191
i的集合,/>
Figure SMS_193
表示对于任一注意力头m,交叉口j对交叉口i的重要性程度,/>
Figure SMS_184
表示注意力头m的值V的权重矩阵,/>
Figure SMS_187
表示第j个交通信号控制器在t时刻的隐含特征向量,/>
Figure SMS_190
表示sigmoid的参数;
Figure SMS_194
的表达式为:/>
Figure SMS_195
,/>
Figure SMS_196
表示缩放系数,/>
Figure SMS_197
表示注意力头m的查询Q的权重矩阵,/>
Figure SMS_198
表示注意力头m的键K的权重矩阵,T表示转置符号,k表示普通参数,/>
Figure SMS_199
表示第k个交通信号控制器在t时刻的隐含特征向量。
越多注意力头能够给出越多的关系表征,使得训练在经验上更加稳定,而且多头点积注意力不仅允许GCN网络共同注意来自不同位置交叉口的不同表征子空间的信息,而且通过多卷积层,可以提取出高阶关系表征,有效地捕捉到Agent之间的交互过程,对各个交叉口协作学习全局最优策略有很大帮助。
所述的图卷积网络中提取隐含特征,还包括以下步骤:
S10122a、第二层卷积层提取合并交叉口i附近区域的交通环境特征,生成隐含的特征向量
Figure SMS_200
,交叉口i附近区域包括交叉口i的所有邻居交叉口/>
Figure SMS_201
S10122b、堆叠多个卷积层的交通环境特征,即第三层卷积层像第二层卷积层那样提取合并交叉口
Figure SMS_202
附近区域(包括交叉口/>
Figure SMS_203
的所有邻居交叉口/>
Figure SMS_204
)的交通环境特征,生成隐含的特征向量/>
Figure SMS_205
其中,通过堆叠多个卷积层,隐含特征向量的感知域越来越大,所提取的区域交通环境特征所蕴涵的交通信息越来越集中,因而交叉口Agent 间协作范围越大。具体的,通过叠加一个卷积层,Agent
Figure SMS_206
可以直接获取邻居Agent,即/>
Figure SMS_207
的编码器的特征向量,称为“一跳”。通过堆叠两层卷积层,Agent />
Figure SMS_208
可以得到“一跳”中Agent的第一个卷积层的输出,其中包含“二跳”中交叉口的状态信息。不过,无论叠加多少层卷积层,Agent />
Figure SMS_209
只与邻居Agent通信,这一特性使得GCQN-TSC模型更好地适应交通信号控制问题,因为每一个交叉口Agent仅限于有限的协作区域,而非整个城市交通路网。
S1013、生成Agent领域的整体环境特征。
所述生成Agent领域的整体环境特征,包括如下步骤:
S1013a、构建交叉口i的邻居协作矩阵
Figure SMS_210
S1013b、将所有交通信号控制器的隐含特征向量
Figure SMS_211
拼接成一个大小为/>
Figure SMS_212
的特征矩阵/>
Figure SMS_213
S1013c、得到交叉口i的邻居协作区域的特征矩阵
Figure SMS_214
需要说明的是,交叉口Agent的邻居协作矩阵
Figure SMS_217
可以克服真实的非十字形、不规则交通路网特征导致的Agent之间协作复杂度问题。所述的交叉口Agent />
Figure SMS_221
的邻居协作矩阵/>
Figure SMS_225
,大小为/>
Figure SMS_218
,/>
Figure SMS_222
表示Agent的数量,/>
Figure SMS_226
的第一行表示Agent />
Figure SMS_228
索引的“独热”编码,第/>
Figure SMS_215
行是Agent />
Figure SMS_219
第/>
Figure SMS_223
个邻居Agent的“独热”编码,L表示隐含特征向量
Figure SMS_227
的长度,/>
Figure SMS_216
表示所有Agent的隐含特征向量/>
Figure SMS_220
拼接成的一个大小为/>
Figure SMS_224
的特征矩阵。
S1014、交通信号控制器在所述交通信号控制器领域的整体环境特征上模拟领域的影响,从而得到交通信号控制器网络结构。
S102、训练Agent。
所述训练Agent,也就是Agent的学习过程,采用集中式训练分布式执行的学习框架,请参阅图3,步骤S102包括步骤S1021~S1023:
S1021、在每个时间步长内受控交通路网中所有交通信号控制器采集各个交叉口的交通状态数据和对应的邻接矩阵;
S1022、交通信号控制器根据交通状态数据以预设概率为每个交叉口选择一个最优的信号相位动作,交付给每个交叉口的信号灯去实施,并返回相应的奖励值给交通信号控制器;
需要说明的是,当路网扩展为多个交叉口后,将单Agent RL方法运用到多交叉口信号控制中,直接训练一个集中式Agent来决定所有路口的动作(即下一时刻的相位),但由于联合动作空间的维度诅咒,它不能很好地学习。因此,集中式学习方法在部署过程中面临可扩展性问题,很难在大规模的路网上应用。将MARL算法应用到TSC问题中,为每一个路口分别训练一个Agent,在集中式训练分布式执行的范式下,针对全局奖励的合作性多Agent问题,提出的深度MARL算法克服了在大规模交通路网中的扩展性问题。
但是,由于交通流量连续性,Agent在学习过程中的动态更新价值网络会造成非平稳性问题。为了克服Agent非平稳性问题带来的影响,提出了Agent之间的通信,以便利用相邻信息实现协调。但,过于充分的沟通方式成本高、效率低,而受限制的沟通方式可能会限制合作的范围。所以,Agent之间应该合理通信。
所述模型的通信和信息传播是用GNN建模的,使用的决策处理器是DGQ算法。需要注意的是,Agent之间的通信始终存在于所有阶段。在训练阶段,他们与邻居分享观测结构和奖励,来协调他们的目标网更新。在执行过程中,他们需要与邻居分享他们的观察结构,以选择一个行动。
Agent的学习过程的集中式训练分布式执行的学习框架不仅可以解决奖励分配问题,还可以解决MARL交通信号控制中的扩展性问题和Agent间学习的非平稳问题。
其中,集中训练与分散执行是多Agent规划的标准范式。在这种设置中,每个Agent在每个时间戳都做出决定,目标是为所有Agent实现相同的给定目标。
所述每个交叉口选择一个最优的信号相位动作,包括以下步骤:
S1022a、将每个交通信号控制器的价值函数
Figure SMS_229
联合起来,统一输入到混合网络中,获得联合价值函数/>
Figure SMS_230
S1022b、每个交通信号控制器隐性地获得自己的价值函数
Figure SMS_231
,根据价值函数/>
Figure SMS_232
进行动作选择。
所述混合网络是非常简单的求和函数;
联合价值函数
Figure SMS_233
的表达式为:/>
Figure SMS_234
,其中,/>
Figure SMS_235
表示第i个交通信号控制器的价值函数。
所述以一定的概率为每个交叉口选择信号相位动作,包括:
Figure SMS_236
的概率下,每个交叉口的Agent选择动作的准则是最大化自己局部的Q函数,最大化局部Q函数的公式:
Figure SMS_237
Figure SMS_238
S1023、交通信号控制器在与环境的交互中进行学习以获得最优的实时信号配时策略响应交通流的动态特性,完成交通信号控制器的训练,以得到交通信号控制模型。
所述在与环境的交互中进行学习,包括以下步骤:
S1023a、在训练阶段的每一时间戳
Figure SMS_239
内,将训练数据的元组/>
Figure SMS_240
存储在经验回放池D中;
S1023b、从经验回放池D中随机抽取大小为B的批次数据,通过图卷积网络进行端对端的训练以最小化损失函数L
所述训练数据的元组
Figure SMS_241
,其中,/>
Figure SMS_242
表示所有交通信号控制器的本地观测集,/>
Figure SMS_243
表示所有交通信号控制器的动作集,/>
Figure SMS_244
表示下一时刻/>
Figure SMS_245
所有交通信号控制器的本地观测集,/>
Figure SMS_246
表示所有交通信号控制器的奖励集;
所述损失函数L的表达式为:
Figure SMS_247
,/>
Figure SMS_248
其中,B表示抽取的批次数据的大小,
Figure SMS_251
表示第/>
Figure SMS_252
个交通信号控制器的感知域组成的观测集合,/>
Figure SMS_263
表示第/>
Figure SMS_257
个交通信号控制器的动作,/>
Figure SMS_264
表示评估网络的参数,/>
Figure SMS_256
表示联合报酬,/>
Figure SMS_262
表示折扣因子,/>
Figure SMS_250
表示联合价值函数/>
Figure SMS_259
最大时交通信号控制器的动作集合,/>
Figure SMS_249
表示/>
Figure SMS_261
时刻第/>
Figure SMS_254
个交通信号控制器的感知域组成的观测集合,/>
Figure SMS_260
表示/>
Figure SMS_255
时刻第/>
Figure SMS_258
个交通信号控制器的动作,/>
Figure SMS_253
表示目标网络的参数。
实施例二:
本发明第二实施例提出一种交通信号控制模型的控制方法,其中,所述交通信号控制模型由实施例1所述的建立方法建立得到,所述控制方法包括步骤S201~S202:
S201,第
Figure SMS_265
个交通信号控制器更新自己的Q网络;
S202,第
Figure SMS_266
个交通信号控制器在t时刻采取的动作/>
Figure SMS_267
其中,所述更新自己Q网络的方式,采用固定Q网络方式,同时训练评估网络和目标网络,所述评估网络和所述目标网络由值函数近似网络给出,所述更新自己Q网络的方式包括如下步骤:
S2011,第
Figure SMS_268
个交通信号控制器采用固定Q网络方式,同时训练评估网络和目标网络,评估网络与交通路网环境进行交互,并把交互所得的经验数据/>
Figure SMS_269
放入经验回放池中;
S2012,评估网络从经验回放池中取出数据训练自身网络,并采用软更新的方式定期把网络参数更新给目标网络;
S2013,目标网络计算作为评估网络的真实标签的target值,通过梯度下降算法更新所述评估网络的参数;
其中,所述经验数据
Figure SMS_270
中,/>
Figure SMS_271
表示交通信号控制器的状态,/>
Figure SMS_272
表示交通信号控制器的动作,/>
Figure SMS_273
表示奖励,/>
Figure SMS_274
表示下一个状态,/>
Figure SMS_275
表示回合结束标志。
需要说明的是,本发明将多交叉口交通信号控制问题定义为完全合作的多智能体强化学习任务,将整个过程建模为分布式部分可观测马尔可夫决策过程。在任意时刻
Figure SMS_276
,Agent />
Figure SMS_277
获得本地观测/>
Figure SMS_278
,采取动作/>
Figure SMS_279
,并获得立即的奖励值/>
Figure SMS_280
,环境转移到下一时刻的状态/>
Figure SMS_281
,目标是最大化所有Agent的奖励值的期望。
在上述控制方法中,交通环境状态的构造形式、动作集合的设定以及奖励值的设置如下:
交叉口观测
Figure SMS_282
:对任意特定的交叉路口第/>
Figure SMS_283
个交通信号控制器,其测得的交通环境变量组成该交通信号控制器的本地部分可观测状态向量/>
Figure SMS_284
,包含所有交通信号控制器的观测状态空间;
向量
Figure SMS_289
描述交叉路口特定时刻/>
Figure SMS_291
的环境状态,包含如下成分:/>
Figure SMS_304
, />
Figure SMS_294
,
Figure SMS_302
, />
Figure SMS_290
, />
Figure SMS_306
和/>
Figure SMS_286
。其中,/>
Figure SMS_300
表示第/>
Figure SMS_285
个交通信号控制器,/>
Figure SMS_297
表示该交叉路口所有入口车道等待车辆的队列长度,是一个/>
Figure SMS_292
维的向量;/>
Figure SMS_305
也是一个/>
Figure SMS_296
维的实数集向量,每个元素是该交叉路口入口车道的车辆数据,是等待车辆和驶入车辆之和;/>
Figure SMS_307
表示入口车道所有车辆的平均等待时间,即上一次车速大于/>
Figure SMS_293
开始,速度小于/>
Figure SMS_301
的时间;/>
Figure SMS_295
表示入口车道所有车辆的平均延时,车道延时的数值等于/>
Figure SMS_299
减去(平均车辆速度/车道最大允许速度),单位为/>
Figure SMS_287
;/>
Figure SMS_298
是交通灯的当前相位;/>
Figure SMS_288
是当前相位的持续时间,/>
Figure SMS_303
表示维度。
动作
Figure SMS_310
:交通信号控制器的所有交通信号的综合相位构成一个有限的相位集,可以由十字路口的交通信号控制器选择;第/>
Figure SMS_313
个交通信号控制器的动作被定义为某一特定路口/>
Figure SMS_316
的可选有限相位集合。在行动完成之前,第/>
Figure SMS_311
个交通信号控制器将计算出动作价值函数
Figure SMS_312
并选择一个具有最大行动值的行动作为在时间戳/>
Figure SMS_315
的下一个行动。相应的信号序列将被分配到交叉路口,其中,/>
Figure SMS_318
表示第/>
Figure SMS_309
个交通信号控制器在/>
Figure SMS_314
时刻的观测,
Figure SMS_317
表示第/>
Figure SMS_319
个交通信号控制器在/>
Figure SMS_308
时刻采取的动作。
奖励R
Figure SMS_320
时刻第/>
Figure SMS_321
个交通信号控制器获得由环境反馈的立即奖励值/>
Figure SMS_322
利用不同的奖励定义可以达到相应的不同的控制或优化目的;本发明的目标是降低整个路网车辆的行驶时间和总延误的同时,减少整体车辆的尾气排放。所以,为了评估对能源和环境的影响,所述算法采用综合模态排放模型CMEM估计燃料消耗和空气污染物
Figure SMS_323
和/>
Figure SMS_324
的排放。
根据柴油汽车模态排放模型,燃油消耗计算如下:
Figure SMS_325
Figure SMS_326
Figure SMS_327
其中,
Figure SMS_329
为燃料使用率,单位为/>
Figure SMS_333
;/>
Figure SMS_336
为发动机输出功率,单位为/>
Figure SMS_331
;/>
Figure SMS_334
为发动机摩擦系数;/>
Figure SMS_337
为发动机转速,单位为转/>
Figure SMS_339
;/>
Figure SMS_328
为发动机排量,单位为升;/>
Figure SMS_332
为柴油机指示效率的衡量标准;/>
Figure SMS_335
和/>
Figure SMS_338
为系数,/>
Figure SMS_330
为基值;初步分析表明,燃料的使用和发动机的排放之间有很强的相关性。
因此,一氧化碳和氮氧化物的排放率估计为:
Figure SMS_340
/>
其中,
Figure SMS_341
、/>
Figure SMS_342
和/>
Figure SMS_343
、/>
Figure SMS_344
是通过回归和校准程序确定的发动机排放系数。
综上所述,奖励函数的定义为:
Figure SMS_345
其中,
Figure SMS_347
、/>
Figure SMS_351
是权重系数,/>
Figure SMS_354
是交叉口/>
Figure SMS_348
的进口车道数目,/>
Figure SMS_350
是/>
Figure SMS_353
时刻沿各进口车道测量的队列长度,/>
Figure SMS_356
是/>
Figure SMS_346
时刻各进口车道的车辆等待时间之和;值得注意的是,奖励是滞后的,所以,/>
Figure SMS_349
和/>
Figure SMS_352
都是在时间/>
Figure SMS_355
时测量的。
实施例三:
本发明第三实施例以
Figure SMS_357
的合成交通路网的实验场景为例来具体阐述本发明的模型,模型的建立包括步骤S301至步骤S302。
请参阅图4所示,
Figure SMS_358
的合成交通路网实验场景。/>
Figure SMS_359
的合成交通路网实验场景由16个受控的交叉口组成,每个交叉口有6条进口道,其中,东西向为双车道的主干道,限速70
Figure SMS_360
,南北向为单车道的单行道,限速40/>
Figure SMS_361
。为了模拟路网的真实车辆输入,在仿真开始时刻,四条主要车流x1-x9、x2-x10、x3-x11、x4-x12以出发地-目的地的形式形成了Router1(路由 1),另外四条车流x5-x13、x6-x14、x7-x15、x8-x16形成Router2(路由 2)。在仿真开始15分钟后,Router1(路由 1)和Router2(路由 2)的车流量开始减少,其对流Router3(路由 3)和Router4(路由 4)开始产生。
假设合成路网中的所有交叉口都是正常的“十字形”交叉口,都有左转车道,每个交叉口的可选相位设置分为红绿信号组合的四个阶段(如图5所示)。E-W直行和右转阶段(第三相位),E-W左转(第四相位),S-N直行和右转阶段(第一相位),以及S-N左转阶段(第二相位)。在一个四阶段的合成道路网络中,每个Agent都有相同的行动集,
Figure SMS_362
。表1说明了行动、阶段、行动编码器和交通信号序列之间的对应关系。例如,在时间戳t,行动a1,代表图6中的相位I,被Agent编码为“0”,而对应于每个车道的交通信号灯序列可以给定为“rrrGGGrrrGGGr”,在交叉路口i,有14个进口车道。这里,“r”代表红色信号,“G”代表绿色信号。“rrrGGGrrrGGGr”的序列可以被分割成3,4,3,4个字符的子序列。前三个字符,“rrr”代表从北方进入交叉口的三条车道。接下来的四个字符,“GGGr”代表从东面进入十字路口的四条车道,代表“G”的右转和两条直行车道信号状态,以及“r”的左转车道信号状态。接下来的三个和四个字符与前面的相似,分别代表从南边和从西边进入交叉口的方向。
表1 行动、阶段、行动编码器和交通信号序列之间的对应关系
Figure SMS_363
S301、设计Agent网络结构。
Agent网络结构设计包括交通状态编码网络设计和图卷积层设计,具体的设计方法包括:
S3011、对交通状态进行编码;
S3012、编码后的交通状态根据交叉口邻接矩阵,被传入图卷积网络中提取隐含特征;
S3013、生成Agent领域的整体环境特征;
S3014、Agent在所述Agent领域的整体环境特征上模拟领域的影响。
S302、训练Agent。
训练Agent,也就是Agent的学习过程,采用集中式训练分布式执行的学习框架,所述学习过程包括如下步骤:
S3021、在每个时间步长内受控交通路网中所有交通信号控制器采集各个交叉口的交通状态数据和对应的邻接矩阵;
S3022、所述交通信号控制器根据所述交通状态数据以一定概率为每个交叉口选择一个最优的信号相位动作,交付给每个交叉口的信号灯去实施该动作,并返回某个特定的奖励值给交通信号控制器;
S3023、所述交通信号控制器就步骤S3021和步骤S3022所述的与环境的交互中进行学习以获得最优的实时信号配时策略响应交通流的动态特性。
需要说明的是,为了充分验证所述模型的有效性,本实施例将所述GCQN-TSC模型与传统的交通信号控制模型,如Max-Pressure、RL交通信号控制模型,如Independent Q-Learning Deep Neural Network(IOL-DNN)、Independent Advantage Actor Critic(IA2C)、Multi-Agent Advantage Actor Critic(MA2C)进行对比。其中,IA2C 采用基于策略的 Advantage Actor-Critic 学习算法。MA2C 信号控制方法采用基于 RL 的Advantage-Actor-Critic 方法控制交通信号,并引入空间折扣因子减小邻居交叉口的状态信息和奖励信号的维度,以便各本地 Agent 更专注于改善包含邻居交叉口在内的交通状况。
请参阅图6所示,为
Figure SMS_364
的合成交通路网中IOL-DNN、IA2C、MA2C和GCQN-TSC四种基于RL的交通信号控制模型的训练曲线图。在训练过程中,由于Max-Pressure这类传统的信号控制方法没有训练的过程,所以图中只显示了四种基于RL控制方法的训练曲线,每种RL方法分别训练了一百万次。其中,图中的实线是每次训练过程的平均奖励值。一般来说,随着训练次数的增加,Agent会从累积的经验中学习,达到最优值,平均奖励值的曲线总体呈上升趋势。图6中,IQL-DNN在整个训练过程中没有收敛,没有将该曲线完全展示出来,这可能是由于IQL-DNN中的神经网络在估计Q值是发生了过拟合。所述GCQN-TSC模型在训练初期就出现陡峰增加,取得了较优的训练效果,并展示了最强和最稳定的学习能力,是因为所述GCQN-TSC模型不仅能感知到多种不同类型的车流并加以区分,还能感知更大范围领域的交通状况。
请参阅图7所示,为合成路网中交叉口的平均队列长度随仿真时间变化的曲线图。需要说明的是,在评估实验中,平均队列长度是交通路网中所有交叉口的队列长度之和除以交叉数目所得。由于平均队列长度能反映交通路网中整体拥堵情况,因此采用平均队列长度作为评价模型的准则。总体上,IQL-DNN、Max-Pressure、MA2C和IA2C四种模型的平均队列长度呈逐步增加的趋势,这是由于在15分钟以后Router 3和Router 4生成车流量明显增加,越来越多的车流量输入到路网中导致的。所述GCQN-TSC模型的平均队列长度明显小于其他四种方法,并且在2000秒以后能维持一个平衡的排队长度。
表2总结了各种基于车辆测量的比较方法在合成交通路网中的等待时间、车辆平均速度、平均停车次数、燃料消耗和一氧化碳和氮氧化合物排放方面的性能。
表2 合成路网中基于车辆的测量结果
Figure SMS_365
可以看到,由于采用IQL-DNN方法的车辆在交叉口走和停的频率很高,导致采用IQL-DNN方法的车辆一氧化碳和氮氧化合物排放最高,这是因为IQL-DNN独立地学习交通状况,和受到高方差的影响。在合成路网的GCQN-TSC模型控制的交通场景中,车辆的等待时间、停车时间、油耗最低,车辆平均速度仅次于MA2C方法。所以,与其他方法相比,GCQN-TSC模型在车辆能源消耗方面总体优于其他方法,能有效减少交叉口车辆的平均等待时间,减少停车次数,降低尾气排放,提高通行效率。这是由于所述GCQN-TSC模型的图协作注意力机制,学习领域的注意力不但不会减慢模型的收敛速度,而且使得交叉口Agent从全局角度来优化城市路网中的交叉口信号控制。
实施例四:
本发明第四实施例以中国浙江省杭州市下沙区某真实路段的48个交叉口的实验场景为例来具体阐述本发明的模型,该模型的建立包括步骤S401至步骤S402。
在本实施例的真实交通路网中,有多种道路和交叉口类型,共有48个控制路口,其中41个是两相交叉口,6个是三相交叉口,1个是五相交叉口。此外,每个交叉口的进口出口车道数量都是不一样的。实验中的车流量取自杭州市交通管理局数据库中2020年9月17日下午5:00至6:00时段的交通流量。该车流量是由安装在道路交叉口的摄像机收集的真实交通流量。其中,该时段正值下班高峰期,车流量很大。现实复杂路网中,不同路口的信号相位数量和相位顺序由实际情况决定。
S401、设计Agent网络结构。
Agent网络结构设计包括交通状态编码网络设计和图卷积层设计,具体的设计方法包括:
S4011、对交通状态进行编码;
S4012、编码后的交通状态根据交叉口邻接矩阵,被传入图卷积网络中提取隐含特征;
S4013、生成Agent领域的整体环境特征;
S4014、Agent在所述Agent领域的整体环境特征上模拟领域的影响。
S402、训练Agent。
训练Agent,也就是Agent的学习过程,采用集中式训练分布式执行的学习框架,所述学习过程包括如下步骤:
S4021、在每个时间步长内受控交通路网中所有交通信号控制器(Agent)采集各个交叉口的交通状态数据和对应的邻接矩阵;
S4022、所述交通信号控制器根据所述交通状态数据以一定概率为每个交叉口选择一个最优的信号相位动作,交付给每个交叉口的信号灯去实施该动作,并返回某个特定的奖励值给交通信号控制器;
S4023、所述交通信号控制器就步骤S4021和步骤S4023所述的与环境的交互中进行学习以获得最优的实时信号配时策略响应交通流的动态特性。
请参阅图8所示,为Max-Pressure、IOL-DNN、IA2C、MA2C和GCQN-TSC五种交通信号控制模型中车辆的平均队列长度随着仿真时间变化的曲线图。其中,除了IQL-DNN,两种基于RL的TSC方法都比传统的Max-Pressure方法表现更好,IA2C和MA2C都能在2800秒左右的时间内减少队列长度的峰值。而GCQN-TSC模型不仅平均队列长度的峰值远低于其他方法,而且能在更早的2300秒左右达到拐点并逐渐减少平均排队长度,这说明了GCQN-TSC模型能充分利用路网中的时空特征,有效遏制拥堵的形成和持续,更早地疏散拥堵,从而降低整个路网的拥堵。
表3是Max-Pressure、IOL-DNN、IA2C、MA2C和GCQN-TSC五种模型在真实路网上的结果表。IA2C和MA2C的燃料消耗相比于Max-Pressure模型分别下降了15.7%和23.0%,尾气排放减少了9.7%和24.8%,但GCQN-TSC模型在两者的基础上进一步减少,燃料消耗和尾气排放分别减少了43.7%和35.5%,是所有模型中减少幅度最大的。
表3 杭州市实际路网中基于车辆的测量结果
Figure SMS_366
可以看到,GCQN-TSC模型超过了所有其他模型,实现了全时段最低的平均队列长度,以及较低的燃料消耗和较少的CO和NOx气体排放。这都归功于对车辆排放的精确感知和其他交叉口信号的更好协作。
相比于以往的方法,本发明创造性地把
Figure SMS_368
时刻采取的动作/>
Figure SMS_370
纳入/>
Figure SMS_372
时刻输入,使所产生的隐藏状态/>
Figure SMS_369
蕴含着的交叉口/>
Figure SMS_371
的局部交通环境信息更加丰富。请参阅图9所示,为隐藏状态定义的影响的结果图,给出了所有基于RL的模型在隐藏状态表示中,有无将/>
Figure SMS_373
集成到/>
Figure SMS_374
中的性能比较。从图中可以看出,所有基于RL的模型,在隐藏状态下集成/>
Figure SMS_367
的模型总是比没有集成的模型好。可以得出,整合Agent之间在时间t上的行动的关系确实有助于学习合作。这要归功于图卷积,它可以有效感知相邻Agent在上一时刻采取了什么行动,以及该行动如何导致目前的交通状态,作为一个潜在的特征。随着接受领域的逐渐扩大,潜在特征变得更加可学。
综上,本发明实施例的交通信号控制模型的建立方法及控制方法,通过交通信号控制器网络结构的设计,使建立的交通信号控制模型能够提取交通路网实时的时空状态数据,解决了领域交叉口同等对待的弊端,同时,多层堆叠的图卷积核使目标交叉口的交通信号控制器在扩大感知领域的同时不增加通信负荷;基于交通信号控制模型提出的控制方法从全局优化的角度评估交通信号控制器执行的动作,并不断更新以获得最优执行策略。本发明所提出的交通信号控制模型具有很好的鲁棒性、最优性和可扩展性,能准确捕获交通信号交通信号控制器相互作用的方式,汇总从协作交通信号控制器处获得的信息并做出网络级的信号优化决策,性能优于传统交通信号控制方法和当前最先进的MARL控制方法。
此外,本发明融入生态交通理念,将尾气排放纳入多智能体强化学习信号控制系统中,大大降低了汽车尾气排放,提升了城市的生态环境。本发明所提出的交通信号控制模型优化了能源消耗,降低了尾气排放。
在本说明书的描述中,参考术语“一个实施例”、“一些实施例”、 “示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中,对上述术语的示意性表述不一定指的是相同的实施例或示例。而且,描述的具体特征、结构、材料或者特点可以在任何的一个或多个实施例或示例中以合适的方式结合。
尽管已经示出和描述了本发明的实施例,本领域的普通技术人员可以理解:在不脱离本发明的原理和宗旨的情况下可以对这些实施例进行多种变化、修改、替换和变型,本发明的范围由权利要求及其等同物限定。

Claims (5)

1.一种交通信号控制模型的建立方法,其特征在于,包括步骤S101~S102:
S101,设计交通信号控制器网络结构;
其中,步骤S101包括步骤S1011~S1014:
S1011,对交通状态进行编码;
S1012,将编码后的交通状态根据交叉口邻接矩阵传入图卷积网络中提取隐含特征;
S1013,生成交通信号控制器领域的整体环境特征;
S1014,交通信号控制器在所述交通信号控制器领域的整体环境特征上模拟领域的影响,从而得到交通信号控制器网络结构;
S102,训练交通信号控制器;
其中,步骤S102包括步骤S1021~S1023:
S1021,在每个时间步长内受控交通路网中所有交通信号控制器采集各个交叉口的交通状态数据和对应的邻接矩阵;
S1022,交通信号控制器根据交通状态数据以预设概率为每个交叉口选择一个最优的信号相位动作,交付给每个交叉口的信号灯去实施,并返回相应的奖励值给交通信号控制器;
S1023,交通信号控制器在与环境的交互中进行学习以获得最优的实时信号配时策略响应交通流的动态特性,完成交通信号控制器的训练,以得到交通信号控制模型;
步骤S1011具体包括:
S1011a,将原始的本地观测向量
Figure QLYQS_1
嵌入多层感知机得到中间值/>
Figure QLYQS_2
S1011b,将
Figure QLYQS_3
和/>
Figure QLYQS_4
时刻采取的动作/>
Figure QLYQS_5
共同作为门循环单元的输入,得到隐含特征向量/>
Figure QLYQS_6
其中,中间值
Figure QLYQS_8
的表达式为:/>
Figure QLYQS_11
,/>
Figure QLYQS_13
表示第/>
Figure QLYQS_9
个交通信号控制器在/>
Figure QLYQS_10
时刻的本地观测向量,/>
Figure QLYQS_12
表示权重矩阵,/>
Figure QLYQS_14
表示偏置向量,/>
Figure QLYQS_7
函数表示具有Relu非线性激活函数的单层感知机;
隐含特征向量
Figure QLYQS_15
的表达式为:/>
Figure QLYQS_16
,/>
Figure QLYQS_17
表示第/>
Figure QLYQS_18
个交通信号控制器在/>
Figure QLYQS_19
时刻采取的动作,GRU表示门循环单元;
步骤S1012具体包括:
S10121a,将每个交通信号控制器输入的交通环境特征投影为每个独立的注意力头;
S10121b,在每一个注意力头
Figure QLYQS_20
中,将所有输入特征的值表示都关系加权后相加;
S10121c,将第
Figure QLYQS_21
个交通信号控制器的/>
Figure QLYQS_22
个注意力头的输出进行串联,再输入函数/>
Figure QLYQS_23
,产生卷积层的输出/>
Figure QLYQS_24
其中,
Figure QLYQS_30
的表达式为:/>
Figure QLYQS_34
,其中,
Figure QLYQS_43
表示权重矩阵,/>
Figure QLYQS_26
表示交叉口/>
Figure QLYQS_37
的所有邻居交叉口,/>
Figure QLYQS_32
表示/>
Figure QLYQS_38
和/>
Figure QLYQS_29
的集合,/>
Figure QLYQS_41
表示对于任一注意力头/>
Figure QLYQS_25
,交叉口/>
Figure QLYQS_40
对交叉口/>
Figure QLYQS_28
的重要性程度,/>
Figure QLYQS_42
表示注意力头/>
Figure QLYQS_33
的值/>
Figure QLYQS_36
的权重矩阵,/>
Figure QLYQS_27
表示第/>
Figure QLYQS_35
个交通信号控制器在/>
Figure QLYQS_31
时刻的隐含特征向量,/>
Figure QLYQS_39
表示sigmoid的参数;
Figure QLYQS_44
的表达式为:/>
Figure QLYQS_51
,/>
Figure QLYQS_55
表示缩放系数,/>
Figure QLYQS_47
表示注意力头/>
Figure QLYQS_48
的查询/>
Figure QLYQS_52
的权重矩阵,/>
Figure QLYQS_56
表示注意力头/>
Figure QLYQS_46
的键/>
Figure QLYQS_50
的权重矩阵,/>
Figure QLYQS_54
表示转置符号,/>
Figure QLYQS_57
表示普通参数,/>
Figure QLYQS_45
表示第/>
Figure QLYQS_49
个交通信号控制器在/>
Figure QLYQS_53
时刻的隐含特征向量;
步骤S1012还包括:
S10122a,第二层卷积层提取合并交叉口
Figure QLYQS_58
附近区域的交通环境特征,生成隐含的特征向量/>
Figure QLYQS_59
,交叉口/>
Figure QLYQS_60
附近区域包括交叉口/>
Figure QLYQS_61
的所有邻居交叉口/>
Figure QLYQS_62
S10122b,堆叠多个卷积层的交通环境特征,生成隐含的特征向量;
步骤S1013具体包括:
S1013a,构建交叉口
Figure QLYQS_63
的邻居协作矩阵/>
Figure QLYQS_64
S1013b,将所有交通信号控制器的隐含特征向量
Figure QLYQS_65
拼接成一个大小为/>
Figure QLYQS_66
的特征矩阵/>
Figure QLYQS_67
S1013c,得到交叉口
Figure QLYQS_68
的邻居协作区域的特征矩阵/>
Figure QLYQS_69
2.根据权利要求1所述的一种交通信号控制模型的建立方法,其特征在于,步骤S1022具体包括:
S1022a,将每个交通信号控制器的价值函数
Figure QLYQS_70
联合起来,统一输入到混合网络中,获得联合价值函数/>
Figure QLYQS_71
S1022b,每个交通信号控制器隐性地获得自己的价值函数
Figure QLYQS_72
,根据价值函数/>
Figure QLYQS_73
进行动作选择;
其中,联合价值函数
Figure QLYQS_74
的表达式为:/>
Figure QLYQS_75
,其中,/>
Figure QLYQS_76
表示第/>
Figure QLYQS_77
个交通信号控制器的价值函数。
3.根据权利要求2所述的一种交通信号控制模型的建立方法,其特征在于,步骤S1023具体包括:
S1023a,在训练阶段的每一时间戳
Figure QLYQS_78
内,将训练数据的元组/>
Figure QLYQS_79
存储在经验回放池/>
Figure QLYQS_80
中;
S1023b,从经验回放池
Figure QLYQS_81
中随机抽取大小为/>
Figure QLYQS_82
的批次数据,通过图卷积网络进行端对端的训练以最小化损失函数/>
Figure QLYQS_83
所述训练数据的元组
Figure QLYQS_84
,其中,/>
Figure QLYQS_85
表示所有交通信号控制器的本地观测集,
Figure QLYQS_86
表示所有交通信号控制器的动作集,/>
Figure QLYQS_87
表示下一时刻/>
Figure QLYQS_88
所有交通信号控制器的本地观测集,/>
Figure QLYQS_89
表示所有交通信号控制器的奖励集;
所述损失函数
Figure QLYQS_90
的表达式为:
Figure QLYQS_91
,/>
Figure QLYQS_92
其中,
Figure QLYQS_96
表示抽取的批次数据的大小,/>
Figure QLYQS_97
表示第/>
Figure QLYQS_106
个交通信号控制器的感知域组成的观测集合,/>
Figure QLYQS_98
表示第/>
Figure QLYQS_104
个交通信号控制器的动作,/>
Figure QLYQS_99
表示评估网络的参数,/>
Figure QLYQS_103
表示联合报酬,
Figure QLYQS_94
表示折扣因子,/>
Figure QLYQS_105
表示联合价值函数/>
Figure QLYQS_100
最大时交通信号控制器的动作集合,/>
Figure QLYQS_107
表示
Figure QLYQS_95
时刻第/>
Figure QLYQS_109
个交通信号控制器的感知域组成的观测集合,/>
Figure QLYQS_101
表示/>
Figure QLYQS_108
时刻第/>
Figure QLYQS_93
个交通信号控制器的动作,/>
Figure QLYQS_102
表示目标网络的参数。
4.一种交通信号控制模型的控制方法,其特征在于,所述交通信号控制模型由权利要求1-3任一项所述的建立方法建立得到,所述控制方法包括步骤S201~S202:
S201,第
Figure QLYQS_110
个交通信号控制器更新自己的/>
Figure QLYQS_111
网络;
S202,第
Figure QLYQS_112
个交通信号控制器在/>
Figure QLYQS_113
时刻采取的动作/>
Figure QLYQS_114
5.根据权利要求4所述的交通信号控制模型的控制方法,其特征在于,步骤S201具体包括:
S2011,第
Figure QLYQS_115
个交通信号控制器采用固定/>
Figure QLYQS_116
网络方式,同时训练评估网络和目标网络,评估网络与交通路网环境进行交互,并把交互所得的经验数据/>
Figure QLYQS_117
放入经验回放池中;
S2012,评估网络从经验回放池中取出数据训练自身网络,并采用软更新的方式定期把网络参数更新给目标网络;
S2013,目标网络计算作为评估网络的真实标签的target值,通过梯度下降算法更新所述评估网络的参数;
其中,所述经验数据
Figure QLYQS_118
中,/>
Figure QLYQS_119
表示交通信号控制器的状态,/>
Figure QLYQS_120
表示交通信号控制器的动作,/>
Figure QLYQS_121
表示奖励,/>
Figure QLYQS_122
表示下一个状态,/>
Figure QLYQS_123
表示回合结束标志。
CN202310294888.3A 2023-03-24 2023-03-24 一种交通信号控制模型的建立方法及控制方法 Active CN116071939B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202310294888.3A CN116071939B (zh) 2023-03-24 2023-03-24 一种交通信号控制模型的建立方法及控制方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202310294888.3A CN116071939B (zh) 2023-03-24 2023-03-24 一种交通信号控制模型的建立方法及控制方法

Publications (2)

Publication Number Publication Date
CN116071939A CN116071939A (zh) 2023-05-05
CN116071939B true CN116071939B (zh) 2023-06-16

Family

ID=86177128

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202310294888.3A Active CN116071939B (zh) 2023-03-24 2023-03-24 一种交通信号控制模型的建立方法及控制方法

Country Status (1)

Country Link
CN (1) CN116071939B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117275259B (zh) * 2023-11-20 2024-02-06 北京航空航天大学 一种基于领域信息回溯的多交叉口协同信号控制方法

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107591010A (zh) * 2017-09-22 2018-01-16 华东交通大学 一种交通信号机控制装置及其城市交通系统控制方法
CN112785848A (zh) * 2021-01-04 2021-05-11 清华大学 一种交通数据预测方法以及系统

Family Cites Families (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7983836B2 (en) * 1997-10-22 2011-07-19 Intelligent Technologies International, Inc. Vehicle-traffic control device communication techniques
US8825350B1 (en) * 2011-11-22 2014-09-02 Kurt B. Robinson Systems and methods involving features of adaptive and/or autonomous traffic control
CN110264750B (zh) * 2019-06-14 2020-11-13 大连理工大学 一种基于多任务深度q网络的q值迁移的多交叉口信号灯协同控制方法
CN113470365B (zh) * 2021-09-01 2022-01-14 北京航空航天大学杭州创新研究院 一种面向有缺失数据的公交车到站时间预测方法
CN114399909B (zh) * 2021-12-31 2023-05-12 深圳云天励飞技术股份有限公司 交通信号灯控制方法及相关设备
CN115691167A (zh) * 2022-10-13 2023-02-03 桂林电子科技大学 一种基于交叉口全息数据的单点交通信号控制方法
CN115759295A (zh) * 2022-11-14 2023-03-07 成都理工大学 一种基于纵向联邦学习的协同训练方法、装置及存储介质
CN115830402B (zh) * 2023-02-21 2023-09-12 华东交通大学 一种细粒度图像识别分类模型训练方法、装置及设备

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107591010A (zh) * 2017-09-22 2018-01-16 华东交通大学 一种交通信号机控制装置及其城市交通系统控制方法
CN112785848A (zh) * 2021-01-04 2021-05-11 清华大学 一种交通数据预测方法以及系统

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
基于多智能体团队强化学习的交通信号控制;李春贵;周坚和;孙自广;王萌;张增芳;;广西工学院学报(第02期);全文 *

Also Published As

Publication number Publication date
CN116071939A (zh) 2023-05-05

Similar Documents

Publication Publication Date Title
Zhou et al. Development of an efficient driving strategy for connected and automated vehicles at signalized intersections: A reinforcement learning approach
CN110264750B (zh) 一种基于多任务深度q网络的q值迁移的多交叉口信号灯协同控制方法
CN112700664B (zh) 一种基于深度强化学习的交通信号配时优化方法
Yang et al. Eco-cooperative adaptive cruise control at signalized intersections considering queue effects
CN108510764B (zh) 一种基于q学习的多路口自适应相位差协调控制系统及方法
Prothmann et al. Organic traffic light control for urban road networks
CN116071939B (zh) 一种交通信号控制模型的建立方法及控制方法
CN104575021B (zh) 基于邻域优化城市路网系统的分布式模型预测控制方法
Pei et al. Distributed cooperative driving in multi-intersection road networks
Pei et al. Velocity forecasts using a combined deep learning model in hybrid electric vehicles with V2V and V2I communication
CN112071062B (zh) 一种基于图卷积网络和图注意力网络的行车时间估计方法
CN111461500B (zh) 一种基于动态电子围栏和强化学习的共享单车系统潮汐现象控制方法
CN106357456A (zh) 一种网络流量的预测方法及装置
WO2023123885A1 (zh) 交通信号控制方法、装置、电子设备、存储介质和程序产品
Aragon-Gómez et al. Traffic-signal control reinforcement learning approach for continuous-time Markov games
Han et al. Leveraging reinforcement learning for dynamic traffic control: A survey and challenges for field implementation
Chen et al. Dynamic eco-driving speed guidance at signalized intersections: Multivehicle driving simulator based experimental study
CN115019523B (zh) 基于最小化压力差的深度强化学习交通信号协调优化控制方法
CN113421439A (zh) 一种基于蒙特卡罗算法的单路口交通信号配时优化方法
CN113724507B (zh) 基于深度强化学习的交通控制与车辆诱导协同方法和系统
CN104809890A (zh) 基于主成分分析和局部搜索改进正交遗传算法的交通信号配时优化方法
Yen et al. A deep on-policy learning agent for traffic signal control of multiple intersections
JP7296572B2 (ja) 交通信号制御システム、交通信号制御装置、制御エンジン構築装置、交通信号制御方法および制御エンジン構築方法
CN116258253A (zh) 一种基于贝叶斯神经网络的车辆od预测方法
CN110175692A (zh) 一种基于轨迹数据的干线交叉口协调控制方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant