CN116150639B - 基于行为趋向聚类和特征映射的多智能体可变限速控制方法 - Google Patents
基于行为趋向聚类和特征映射的多智能体可变限速控制方法 Download PDFInfo
- Publication number
- CN116150639B CN116150639B CN202310130501.0A CN202310130501A CN116150639B CN 116150639 B CN116150639 B CN 116150639B CN 202310130501 A CN202310130501 A CN 202310130501A CN 116150639 B CN116150639 B CN 116150639B
- Authority
- CN
- China
- Prior art keywords
- net
- agent
- speed limit
- neural network
- value
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 46
- 238000013507 mapping Methods 0.000 title claims abstract description 25
- 238000013528 artificial neural network Methods 0.000 claims abstract description 69
- 230000006870 function Effects 0.000 claims abstract description 26
- 230000006399 behavior Effects 0.000 claims abstract description 21
- 230000008569 process Effects 0.000 claims abstract description 16
- 238000012549 training Methods 0.000 claims abstract description 15
- 238000004422 calculation algorithm Methods 0.000 claims abstract description 10
- 239000000203 mixture Substances 0.000 claims abstract description 8
- 230000002787 reinforcement Effects 0.000 claims abstract description 8
- 230000002085 persistent effect Effects 0.000 claims abstract description 7
- 230000009471 action Effects 0.000 claims description 38
- 238000010606 normalization Methods 0.000 claims description 10
- 230000002441 reversible effect Effects 0.000 claims description 9
- 230000000670 limiting effect Effects 0.000 claims description 8
- 238000011144 upstream manufacturing Methods 0.000 claims description 7
- 238000012545 processing Methods 0.000 claims description 5
- 238000004806 packaging method and process Methods 0.000 claims description 4
- 210000004218 nerve net Anatomy 0.000 claims description 2
- 238000004364 calculation method Methods 0.000 description 4
- 238000011217 control strategy Methods 0.000 description 3
- 230000000694 effects Effects 0.000 description 2
- 238000011160 research Methods 0.000 description 2
- 210000001367 artery Anatomy 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000002457 bidirectional effect Effects 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 230000003111 delayed effect Effects 0.000 description 1
- 238000009795 derivation Methods 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 238000003062 neural network model Methods 0.000 description 1
- 229920006395 saturated elastomer Polymers 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F17/00—Digital computing or data processing equipment or methods, specially adapted for specific functions
- G06F17/10—Complex mathematical operations
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q50/00—Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
- G06Q50/40—Business processes related to the transportation industry
-
- G—PHYSICS
- G08—SIGNALLING
- G08G—TRAFFIC CONTROL SYSTEMS
- G08G1/00—Traffic control systems for road vehicles
- G08G1/01—Detecting movement of traffic to be counted or controlled
- G08G1/0104—Measuring and analyzing of parameters relative to traffic conditions
- G08G1/0125—Traffic data processing
-
- G—PHYSICS
- G08—SIGNALLING
- G08G—TRAFFIC CONTROL SYSTEMS
- G08G1/00—Traffic control systems for road vehicles
- G08G1/065—Traffic control systems for road vehicles by counting the vehicles in a section of the road or in a parking area, i.e. comparing incoming count with outgoing count
-
- G—PHYSICS
- G08—SIGNALLING
- G08G—TRAFFIC CONTROL SYSTEMS
- G08G1/00—Traffic control systems for road vehicles
- G08G1/09—Arrangements for giving variable traffic instructions
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02T—CLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
- Y02T10/00—Road transport of goods or passengers
- Y02T10/10—Internal combustion engine [ICE] based vehicles
- Y02T10/40—Engine management systems
Landscapes
- Physics & Mathematics (AREA)
- Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- General Engineering & Computer Science (AREA)
- Business, Economics & Management (AREA)
- Health & Medical Sciences (AREA)
- General Health & Medical Sciences (AREA)
- Mathematical Optimization (AREA)
- Pure & Applied Mathematics (AREA)
- Molecular Biology (AREA)
- Biomedical Technology (AREA)
- Artificial Intelligence (AREA)
- Life Sciences & Earth Sciences (AREA)
- Evolutionary Computation (AREA)
- Algebra (AREA)
- Computational Mathematics (AREA)
- Mathematical Analysis (AREA)
- Computational Linguistics (AREA)
- Computing Systems (AREA)
- Databases & Information Systems (AREA)
- Chemical & Material Sciences (AREA)
- Analytical Chemistry (AREA)
- Biophysics (AREA)
- Economics (AREA)
- Human Resources & Organizations (AREA)
- Marketing (AREA)
- Primary Health Care (AREA)
- Strategic Management (AREA)
- Tourism & Hospitality (AREA)
- General Business, Economics & Management (AREA)
- Traffic Control Systems (AREA)
Abstract
本发明公开了一种基于行为趋向聚类和特征映射的多智能体可变限速控制方法,有如下步骤:设计同时考虑效率和安全的智能体奖励函数,再设计出整条公路的全局奖励函数;采集连续多瓶颈路段的交通流数据;采用结合参数再梯度化的多智能体深度强化学习算法对可变限速控制智能体训练;设计能够持久记忆和信息交换的神经网络计算交通流运行趋向,再用高斯混合模型进行趋向聚类并对智能体分组;对同组内的源智能体与共享智能体间进行横向特征映射,加快学习过程;同组内的智能体同步更新神经网络直至收敛;最后对道路限速控制。结果表明,提出的可变限速控制方法具有协调性能好,收敛速度快,有效地提升了道路通行效率、改善了交通安全。
Description
技术领域
本发明属于智能交通和交通控制技术领域,具体涉及一种基于行为趋向聚类和特征映射的多智能体可变限速控制方法,用来提升高速公路的效率和安全。
背景技术
高速公路是交通运输系统的动脉,饱和通行需求下车辆之间相互干扰与冲突加剧,导致普遍存在多种类型的交通瓶颈。改善高速公路交通问题的主要既有手段为交通流主动控制技术(Active Traffic Management),即通过主动干预交通流运行状态,疏解瓶颈区域交通供需矛盾,常见技术手段包括匝道流量控制、主线可变限速控制、动态车道功能控制等,形成了丰富的理论研究成果。然而,现有的协同控制策略,一方面存在控制动作延迟、计算量大等缺点;另一方面缺乏对多个控制点的动作协同,上述局限与约束导致该技术无法在连续多瓶颈路段集成控制与多种方式协同控制场景中取得良好的效果,其控制精度与实施效果受到较大限制。
发明内容
针对现有研究不足,本发明提出一种基于行为趋向聚类和特征映射的多智能体可变限速控制方法包括以下步骤:
S10:在每个瓶颈路段部署一个智能体进行限速控制,计算各个智能体奖励值r,各个智能体奖励值r包括道路通行效率奖励refficiency和道路安全奖励rsafety,根据各个智能体的奖励值f计算得到整条公路的全局奖励值R;
S20:获得连续多瓶颈高速公路各路段的交通流数据,对交通流数据归一化处理并生成当前时间步交通流状态信息s和各个智能体奖励值r;
S30:采用结合参数再梯度化的多智能体深度强化学习算法,利用S20中生成的当前时间步交通流状态信息s和各个智能体奖励值r对模型进行训练最大化全局奖励值R,生成各瓶颈路段当前时间步协同限速控制动作,为所有的智能体建立一个回放记忆库D存放步骤S30训练过程中产生的数据;其中,所述深度强化学习算法为演员神经网络Neta和批评家神经网络Netc,所述回放记忆库存放的数据包括:当前时间步交通流状态信息s、限速控制动作值a和各个智能体奖励值r;
S40:从回放记忆库中采集奖励值r位于前30%的序列数据记为f,设计具有持久记忆和信息交换功能的神经网络NetΘ,以Γ为输入数据,通过网络NetΘ计算实时交通流运行行为趋向Θ,使用高斯混合模型对Θ聚类,将Θ最大后验概率所属分布相同的智能体分到一个组;
S50:随机选择同组内一个智能体为源智能体,将组内其它智能体设计为共享智能体,共享智能体网络nett和源智能体网络nets的结构相同,但nett没有权重w,对nets和nett进行横向特征映射;
S60:将同组内智能体同步更新演员神经网络Neta和批评家神经网络Netc,进入下一个学习时间步,重复执行步骤S20-S60直至Neta和Netc收敛;
S70:利用收敛后的神经网络Neta和Netc进行可变限速控制,基于采集到的交通流数据,Neta和Netc实时计算高速公路各个控制区最优限速值,将限速值传输到可变限速控制板进行发布。
有益效果:
本发明公开了一种基于行为趋向聚类和特征映射的多智能体可变限速控制方法,设计同时考虑效率以及安全的奖励函数,使用高斯混合模型对交通流运行趋向聚类并对智能体分组,对同组内的源智能体与共享智能体神经网络间进行横向特征映射,加快学习过程最后获得道路最优协同限速控制值。本发明提出的可变限速控制方法具有协调性能好,收敛速度快,有效地提升了道路通行效率、改善了交通安全。
附图说明
图1为发明的流程示意图。
图2为多智能体深度强化学习可变限速控制方法与真实道路的交互模块图。
图3为稳定需求情景下不同控制条件下的总行程时间。
图4为波动需求情景下不同控制条件下的总行程时间。
图5为稳定需求场景下瓶颈处交通流运行状态。
图6为波动需求场景下瓶颈处交通流运行状态。
具体实施方式
现结合实施例和说明书附图进一步说明本发明。
图1为本发明的流程示意图,一种基于行为趋向聚类和特征映射的多智能体可变限速控制方法包括以下步骤:
S10:在每个瓶颈路段部署一个智能体进行限速控制,计算各个智能体奖励值r,各个智能体奖励值r包括道路通行效率奖励refficiency和道路安全奖励rsafety,根据各个智能体的奖励值r计算得到整条公路的全局奖励值R;
S20:获得连续多瓶颈高速公路各路段的交通流数据,对交通流数据归一化处理并生成当前时间步交通流状态信息s和各个智能体奖励值r;
S30:采用结合参数再梯度化的多智能体深度强化学习算法,利用S20中生成的当前时间步交通流状态信息s和各个智能体奖励值r对模型进行训练最大化全局奖励值R,生成各瓶颈路段当前时间步协同限速控制动作,为所有的智能体建立一个回放记忆库D存放步骤S30训练过程中产生的数据;其中,所述深度强化学习算法为演员神经网络Neta和批评家神经网络Netc,所述回放记忆库存放的数据包括:当前时间步交通流状态信息s、限速控制动作值a和各个智能体奖励值r;
S40:从回放记忆库中采集奖励值r位于前30%的序列数据记为Γ,设计具有持久记忆和信息交换功能的神经网络NetΘ,以Γ为输入数据,通过网络NetΘ计算实时交通流运行行为趋向Θ,使用高斯混合模型对Θ聚类,将Θ最大后验概率所属分布相同的智能体分到一个组;
S50:随机选择同组内一个智能体为源智能体,将组内其它智能体设计为共享智能体,共享智能体网络nett和源智能体网络nets的结构相同,但nett没有权重w,对nets和nett进行横向特征映射;
S60:将同组内智能体同步更新演员神经网络Neta和批评家神经网络Netc,进入下一个学习时间步,重复执行步骤S20-S60直至Neta和Netc收敛;
S70:利用收敛后的神经网络Neta和Netc进行可变限速控制,基于采集到的交通流数据,Neta和Netc实时计算高速公路各个控制区最优限速值,将限速值传输到可变限速控制板进行发布。
所述步骤S10中的通行效率奖励refficiency表示为:
其中,kcr是瓶颈路段的关键密度,k为瓶颈实际密度,b为参数,且b>0。
所述步骤S10中的道路安全奖励rsafety表示为:
其中,TTCi(t)表示两辆车相撞之前的剩余时间量,其中i为车辆编号,xi-1(t)表示前车的位置,xi(t)表示后车的位置,xi-1(t)-xi(t)表示两车间的距离,vi(t)表示后车的速度,vi-1(t)表示前车的速度,vi(t)-vi-1(t)表示两车的相对速度,TTCi(t)在后车速度大于前车速度的时候才有意义,否则为无穷大,TTCi(t)表示在t时刻第i辆车的TTC,M表示瓶颈路段内的车辆数。
所述步骤S10中的全局奖励函数表示为:
rj=ε1rsafety+ε2refficiency
其中,R表示整条公路的全局奖励值,rj表示第j个智能体的奖励值,ωj表示第j个智能体奖励值权重,N为智能体个数,ε1和ε2为常数。
所述S20具体包括:
S21:通过GPS每30秒获取一次当前车辆的经、纬度以及海拔高度,确定当前车辆的位置信息,将车辆位置信息进行封装,封装的格式包括:车辆标识、速度、车辆GPS信息、时间戳;
S22:对封装的数据进行归一化处理,生成道路的实时交通状态信息s,s信息包括:主路瓶颈上游的需求dup,匝道的需求dramp,主路瓶颈上游的密度kup,主路瓶颈下游的密度kdown,入口匝道的密度kramp,主路瓶颈区域每辆车i的速度vi(k)和位置xi(k)。
所述步骤S30具体方法如下:
S31:控制算法初始化演员神经网络Neta和批评家神经网络Netc;
S32:每个时间步,可变限速控制的每个智能体i同时与真实的道路场景进行交互,智能体共有N个,输入所有全局交通状态信息s,奖励值r;
S33:每个智能体有m个可选动作,演员神经网络Neta生成每个智能体i的动作输出概率值结合参数再梯度化的方法,生成m个服从均值为0,方差为1的正态分布的独立样本/>通过公式/>计算得到/>其中,u∈[1,m],得到新的动作概率/>再通过带温度控制的梯度对数归一化函数进行光滑近似,得到最终的动作概率/>
其中τ是温度参数,且满足τ>0,c为常数;
在动作集合内选取最大概率对应限速值为智能体i的动作ai,进而得到所有智能体下一时间步的限速控制动作值(a′1,a′2,...,a′n);
S34:为所有的智能体建立一个回放记忆库并在回放记忆库内以元组的形式存储训练的数据,元组的具体形式为(s1,s2,...,sm,s′1,s′2,...,s′n,a1,a2,...,an,r1,r2,...,rn),其中,(s′1,s′2,...,s′n)为下一时间步交通流状态信息;
S35:每隔200个时间步更新演员神经网络Neta,判断累积时间步长是否为200的倍数,若是则进入步骤S36,若不是,则智能体继续以演员神经网络Neta生成控制动作并执行;
S36:从回放记忆库中随机地取出H条元组数据,训练并更新演员神经网络Neta,获得最大全局奖励值R,最大化目标函数
其中为智能体i的总时间累计回报值,/>表示从回放记忆库/>中取出的元组数据总时间累计回报值的数学期望;
进一步对函数求导可得到梯度为:
其中,为集中的可变限速控制动作Q值函数,表示演员神经网络在si的策略;
S37:批评家神经网络Netc根据函数对演员的限速动作进行评估,通过基于时间差(TD)误差最小化损失来更新批评家神经网络Netc,
是时间差分误差,/>表示数学期望,ri表示基于当前状态的真实奖励,γ是折扣因子,a′i=μ′(s′i)表示批评家神经网络的策略应用到s′i的时候,它产生下一时间步动作a′i,Qi μ′(s′1,s′2,...s′n,a′1,a′2,...,a′n)是批评家神经网络在下一时间步的Q值。
S38:在整个控制过程中,重复过程S32-S37,积累回放记忆库中的样本数据。
所述步骤S40具体过程如下:
S41:设计一个具有持久记忆和信息交换功能的神经网络NetΘ,输入从回放记忆库中采集奖励值r位于前30%的序列数据Γ,并在隐藏层中先进行正向运算:
得到正向隐藏层状态I′P,其中,权重和偏置/>都是模型参数;
再进行反向运算:
得到反向隐藏层状态I′n,其中,权重和偏置/>都是模型参数;
将正向隐藏层状态I′P和反向隐藏层状态I′n进行连接,获得需要送入输出层的隐状态I,并将该信息输入传递到下一个双向层,最后,输出层计算得到输出交通流运行行为趋向Θ
Θ=KmpI+bp
其中,权重Kmp和偏置bp都是输出层的模型参数;
S42:对行为趋向Θ进行相似性对比,使用高斯混合模型进行聚类获得k个分组;
所述S50的具体过程如下:
S51:在同一分组内随机选择一个智能体为源智能体,组内其它智能体为共享智能体;
S52:设计共享智能体网络nett,nett和源智能体网络nets的结构一样,但nett没有权重w;
S53:对组内共享智能体的神经网络nett进行横向特征映射;
如果n是nets的一个输入节点,将nets中的交通流状态变量映射到nett中最相似的交通流状态变量,如果n是网络的一个输出节点,将nets中的每个可变限速控制动作映射到nett中最相似的可变限速动作,如果n是网络的一个隐藏层节点,nett与nets隐藏层节点之间一一对应;
S54:遍历共享智能体的神经网络nett中的每一个节点对(ni,nj),如果节点对(ni,nj)存在于源神经网络nets中且(ni,nj)之间存在网络权重,那么在共享智能体网络节点对(ni,nj)中设置相同的权重值;
S55:进一步训练共享神经网络nett;
如图2所示,本研究的对象是高速公路路段,该路段包含四个连续的瓶颈。高速公路的长度为4.2英里。高速公路管理中心实时获得道路的交通流的数据,仅考虑东行交通,四个瓶颈分别位于距路段起点0.7、1.7、2.7和3.7英里处。在瓶颈区域上游路段设置可变限速控制指示牌,主线包含四个车道,高速公路的自由流速度为65英里/小时。通行能力下降前高速公路主路的通行能力为1750辆/小时/英里。通行能力下降的幅度为7.6%,运动波的速度估计为9.5英里/小时。
设计通行效率的奖励函数,关键密度kcr为26.75辆/英里/车道,b=1,
设计安全的奖励函数,获取瓶颈路段所有车辆的速度、位置,计算碰撞时间TTC和rsafety。
设计瓶颈处安全和效率的综合奖励函数,计算方式如下:
rj=ε1rsafety+ε2refficiency
其中,ε1和ε2的缺省值分别为0.5,0.5。
设计整个路段的全局总奖励值,计算方法如下:
其中,ω1=ω2=ω3=ω4=0.25。
通过车辆感知模块,每30秒获取道路实际行驶的车辆的交通流状态信息。对交通流状态信息进行预处理以及封装,封装的格式为(车辆标识、速度、车辆GPS信息、时间戳)。
对封装后的数据进行归一化处理,采用最大最小标准化(Min-MaxNormalization)的方法,计算方法如下:
分别列出各个值的区间,所述各个值的区间如下:
瓶颈上游的需求dup∈{4000,6500}辆/小时,匝道的需求dramp∈{350,1200}辆/小时,瓶颈上游的密度kup∈{10,80}辆/英里/车道,瓶颈下游的密度kdown∈{10,80}辆/英里/车道,匝道的密度kramp∈{10,50}辆/英里/车道,瓶颈区域每辆车i的速度vi(k)∈{5,65}英里/小时,位置xi(k)。
对演员神经网络Neta和批评家神经网络Netc模型进行训练,训练参数如表1所示:
表1演员神经网络和批评家神经网络模型训练参数
控制算法初始化演员神经网络Neta和批评家神经网络Netc。
可变限速控制的4个智能体同时与真实的道路场景进行交互,输入所有全局交通状态信息s=(s1,s2,s3,s4),奖励值r=(r1,r2,r3,r4)。每个智能体有13个可选动作,限速动作集合为{5mph,10mph,15mph,20mph,25mph,30mph,35mph,40mph,45mph,50mph,55mph,60mph,65mph}。
演员神经网络Neta生成智能体i的动作输出概率值结合参数再梯度化的方法,生成13个服从均值为0,方差为1的正态分布的独立样本/>通过公式/>计算得到/>得到新的动作概率/> 再通过带温度控制的梯度对数归一化函数进行光滑近似,得到最终的动作概率/>
其中τ=0.05,c=0.1;
在动作集合内选取最大概率对应限速值为智能体i的动作ai,进而得到所有智能体的限速动作值(a1,a2,a3,a4);
在回放记忆库D内以元组(s1,s2,s3,s4,s′1,s′2,s′3,s′4,a1,a2,a3,a4,r1,r2,r3,r4)的形式存储训练的数据。
每隔200个时间步更新演员神经网络Neta。判断累积时间步数是否为200的倍数,若是则进入下一步,若不是,则智能体继续以当前演员神经网络Neta生成控制动作并执行。
从回放记忆库中随机地取出1024条元组的数据,训练并更新演员神经网络Neta权重,获得最大全局奖励值R,最大化目标函数
其中为智能体i的总时间累计回报值,/>表示从回放记忆库/>中取出的元组数据总时间累计回报值的数学期望值。
进一步对函数求导可得到梯度
其中,为集中的可变限速控制动作Q值函数,表示演员神经网络在si的策略。
每个智能体的批评家神经网络Netc根据函数对演员的限速动作进行评估,通过基于时间差(TD)误差最小化损失来更新更新批评家神经网络
y=rs+γQi μ′(s′1,s′2,s′3,s′4,a′1,a′2,a′3,a′4)|a′i=μ′(s′i)
是时间差分误差,/>表示数学期望,ri表示基于当前状态的真实奖励,γ=0.9,a′i=μ′(s′i)表示批评家神经网络的策略应用到s′i的时候,它产生下一时刻动作a′i,Qi μ′(s′1,s′2,s′3,s′4,a′1,a′2,a′3,a′4)是批评家神经网络在下一时刻的Q值。
在整个控制过程中,重复上述过程,不断更新Netc和Neta,积累回放记忆池中的数据。再判断元组的条数是否大于200000,若是则进入下一步,若不是则智能体继续作为存储的数据进行训练。
输入从回放记忆池中采集的若干智能体的奖励值r位于前30%的序列数据(Γ1,Γ2,Γ3,Γ4),运用具有持久记忆和信息交换功能的神经网络NetΘ进行计算,在隐藏层中先进行正向运算:
得到正向隐藏层状态I′P,再进行反向运算:
得到反向隐藏层状态I′n,将正向隐藏层状态I′P和反向隐藏层状态I′n进行连接,获得需要送入输出层的隐状态I,并将该信息输入传递到下一个双向层,最后,再进行输出层计算:
Θ=KmpI+bp
得到交通流行为趋向(Θ1,Θ2,Θ3,Θ4),进一步对行为趋向使用高斯混合模型进行聚类分组,将Θ最大后验概率所属分布相同的智能体分到一个组,一共分成2组数据。A组:智能体1和2;B组:智能体3、4。
对2组的智能体进行训练横向特征映射,各组中,分别确定智能体1和智能体3为源智能体,其它各组内的智能体为共享智能体。将源智能体的神经网络nets横向特征映射至其它共享智能体神经网络nett。各组内的智能体,进入下一个学习时间步,循环上述过程至Neta和Netc收敛。
利用收敛后的神经网络Neta和Netc进行可变限速控制,基于采集到的交通流数据,Neta和Netc实时计算高速公路各个控制区最优限速值,将限速值传输到可变限速控制板进行发布。
据统计,不同控制方式下(无可变限速控制、反馈控制、独立智能体控制、本文提出的基于行为趋向聚类和特征映射的多智能体控制)的高速公路内车辆总通行时间如表2所示,由下表可知,在稳定需求下,多智能体控制下通行时间比无控情况减少了17.61%;在波动需求下,比无控情况减少了18.56%。多智能体的控制和其它控制策略相比,更有效改善瓶颈路段的通行效率。不同控制策略下的总行程时间对比如图3和图4,在稳定需求和波动需求两种场景中,所提出的多智能体的控制方法有效地降低了总行程时间,提升了通行效率。不同控制策略下瓶颈位置的交通流运行状态如图5和图6所示,在多智能体的控制方法下,瓶颈处交通流速度高,流量大,所提出的方法有效地改善了交通安全。
统计结果:
表2不同控制方式下高速公路内车辆总通行时间表
Claims (8)
1.一种基于行为趋向聚类和特征映射的多智能体可变限速控制方法,其特征在于,包括以下步骤:
S10:在每个瓶颈路段部署一个智能体进行限速控制,计算各个智能体奖励值r,各个智能体奖励值r包括道路通行效率奖励refficiency和道路安全奖励rsafety,根据各个智能体的奖励值r计算得到整条公路的全局奖励值R;
S20:获得连续多瓶颈高速公路各路段的交通流数据,对交通流数据归一化处理并生成当前时间步交通流状态信息s和各个智能体奖励值r;
S30:采用结合参数再梯度化的多智能体深度强化学习算法,利用S20中生成的当前时间步交通流状态信息s和各个智能体奖励值r对模型进行训练最大化全局奖励值R,生成各瓶颈路段当前时间步协同限速控制动作,为所有的智能体建立一个回放记忆库存放步骤S30训练过程中产生的数据;其中,所述深度强化学习算法为演员神经网络Neta和批评家神经网络Netc,所述回放记忆库存放的数据包括:当前时间步交通流状态信息s、限速控制动作值a和各个智能体奖励值r;
S40:从回放记忆库中采集奖励值r位于前30%的序列数据记为Γ,设计具有持久记忆和信息交换功能的神经网络NetΘ,以Γ为输入数据,通过网络NetΘ计算实时交通流运行行为趋向Θ,使用高斯混合模型对Θ聚类,将Θ最大后验概率所属分布相同的智能体分到一个组;
S50:随机选择同组内一个智能体为源智能体,将组内其它智能体设计为共享智能体,共享智能体网络nett和源智能体网络nets的结构相同,但nett没有权重w,对nets和nett进行横向特征映射;
S60:将同组内智能体同步更新演员神经网络Neta和批评家神经网络Netc,进入下一个学习时间步,重复执行步骤S20-S60直至Neta和Netc收敛;
S70:利用收敛后的神经网络Neta和Netc进行可变限速控制,基于采集到的交通流数据,Neta和Netc实时计算高速公路各个控制区最优限速值,将限速值传输到可变限速控制板进行发布。
2.根据权利要求1所述的一种基于行为趋向聚类和特征映射的多智能体可变限速控制方法,其特征在于,所述步骤S10中的通行效率奖励refficiency表示为:
其中,kcr是瓶颈路段的关键密度,k为瓶颈实际密度,b为参数,且b>0。
3.根据权利要求1所述的一种基于行为趋向聚类和特征映射的多智能体可变限速控制方法,其特征在于,所述步骤S10中的道路安全奖励rsafety表示为:
其中,TTCi(t)表示两辆车相撞之前的剩余时间量,其中i为车辆编号,xi-1(t)表示前车的位置,xi(t)表示后车的位置,xi-1(t)-xi(t)表示两车间的距离,vi(t)表示后车的速度,vi-1(t)表示前车的速度,vi(t)-vi-1(t)表示两车的相对速度,TTCi(t)在后车速度大于前车速度的时候才有意义,否则为无穷大,TTCi(t)表示在t时刻第i辆车的TTC,M表示瓶颈路段内的车辆数。
4.根据权利要求1所述的一种基于行为趋向聚类和特征映射的多智能体可变限速控制方法,其特征在于,所述步骤S10中的全局奖励函数表示为:
rj=ε1rsafety+ε2refficiency
其中,R表示整条公路的全局奖励值,rj表示第j个智能体的奖励值,ωj表示第j个智能体奖励值权重,N为智能体个数,ε1和ε2为常数。
5.根据权利要求1所述的一种基于行为趋向聚类和特征映射的多智能体可变限速控制方法,其特征在于,所述的S20具体包括:
S21:通过GPS每30秒获取一次当前车辆的经、纬度以及海拔高度,确定当前车辆的位置信息,将车辆位置信息进行封装,封装的格式包括:车辆标识、速度、车辆GPS信息、时间戳;
S22:对封装的数据进行归一化处理,生成道路的实时交通状态信息s,s信息包括:主路瓶颈上游的需求dup,匝道的需求dramp,主路瓶颈上游的密度kup,主路瓶颈下游的密度kdown,入口匝道的密度kramp,主路瓶颈区域每辆车i的速度vi(k)和位置xi(k)。
6.根据权利要求1所述的一种基于行为趋向聚类和特征映射的多智能体可变限速控制方法,其特征在于,所述步骤S30具体方法如下:
S31:控制算法初始化演员神经网络Neta和批评家神经网络Netc;
S32:每个时间步,可变限速控制的每个智能体i同时与真实的道路场景进行交互,智能体共有N个,输入所有全局交通状态信息s,奖励值r;
S33:每个智能体有m个可选动作,演员神经网络Neta生成每个智能体i的动作输出概率值结合参数再梯度化的方法,生成m个服从均值为0,方差为1的正态分布的独立样本/>通过公式/>计算得到/>其中,u∈[1,m],得到新的动作概率/>再通过带温度控制的梯度对数归一化函数进行光滑近似,得到最终的动作概率/>
其中τ是温度参数,且满足τ>0,c为常数;
在动作集合内选取最大概率对应限速值为智能体i的动作ai,进而得到所有智能体下一时间步的限速控制动作值(a′1,a′2,...,a′n);
S34:为所有的智能体建立一个回放记忆库并在回放记忆库内以元组的形式存储训练的数据,元组的具体形式为(s1,s2,...,sn,s′1,s′2,...,s′n,a1,a2,...,an,r1,r2,...,rn),其中,(s′1,s′2,...,s′n)为下一时间步交通流状态信息;
S35:每隔200个时间步更新演员神经网络Neta,判断累积时间步长是否为200的倍数,若是则进入步骤S36,若不是,则智能体继续以演员神经网络Neta生成控制动作并执行;
S36:从回放记忆库中随机地取出H条元组数据,训练并更新演员神经网络Neta,获得最大全局奖励值R,最大化目标函数
其中为智能体i的总时间累计回报值,/>表示从回放记忆库/>中取出的元组数据总时间累计回报值的数学期望;
进一步对函数求导可得到梯度为:
其中,为集中的可变限速控制动作Q值函数,/>表示演员神经网络在si的策略;
S37:批评家神经网络Netc根据函数对演员的限速动作进行评估,通过基于时间差(TD)误差最小化损失来更新批评家神经网络Netc,
是时间差分误差,/>表示数学期望,ri表示基于当前状态的真实奖励,γ是折扣因子,a′i=μ′(s′i)表示批评家神经网络的策略应用到s′i的时候,它产生下一时间步动作a′i,Qi μ′(s′1,s′2,...s′n,a′1,a′2,...,a′n)是批评家神经网络在下一时间步的Q值;
S38:在整个控制过程中,重复过程S32-S37,积累回放记忆库中的样本数据。
7.根据权利要求1所述的一种基于行为趋向聚类和特征映射的多智能体可变限速控制方法,其特征在于,所述步骤S40具体过程如下:
S41:设计一个具有持久记忆和信息交换功能的神经网络NetΘ,输入从回放记忆库中采集奖励值r位于前30%的序列数据Γ,并在隐藏层中先进行正向运算:
得到正向隐藏层状态I′P,其中,权重和偏置/>都是模型参数;
再进行反向运算:
得到反向隐藏层状态I′n,其中,权重和偏置/>都是模型参数;
将正向隐藏层状态I′P和反向隐藏层状态I′n进行连接,获得需要送入输出层的隐状态I,并将该信息输入传递到下一个双向层,最后,输出层计算得到输出交通流运行行为趋向Θ
Θ=KmpI+bp
其中,权重Kmp和偏置bp都是输出层的模型参数;
S42:对行为趋向Θ进行相似性对比,使用高斯混合模型进行聚类获得k个分组。
8.根据权利要求1所述的一种基于行为趋向聚类和特征映射的多智能体可变限速控制方法,其特征在于,所述S50的具体过程如下:
S51:在同一分组内随机选择一个智能体为源智能体,组内其它智能体为共享智能体;
S52:设计共享智能体网络nett,nett和源智能体网络nets的结构一样,但nett没有权重w;
S53:对组内共享智能体的神经网络nett进行横向特征映射;
如果n是nets的一个输入节点,将nets中的交通流状态变量映射到nett中最相似的交通流状态变量,如果n是网络的一个输出节点,将nets中的每个可变限速动作映射到nett中最相似的可变限速动作,如果n是网络的一个隐藏层节点,nett与nets隐藏层节点之间一一对应;
S54:遍历共享智能体的神经网络nett中的每一个节点对(ni,nj),如果节点对(ni,nj)存在于源神经网络nets中且(ni,nj)之间存在网络权重,那么在共享智能体网络节点对(ni,nj)中设置相同的权重值;
S55:进一步训练共享神经网络nett。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310130501.0A CN116150639B (zh) | 2023-02-17 | 2023-02-17 | 基于行为趋向聚类和特征映射的多智能体可变限速控制方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310130501.0A CN116150639B (zh) | 2023-02-17 | 2023-02-17 | 基于行为趋向聚类和特征映射的多智能体可变限速控制方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN116150639A CN116150639A (zh) | 2023-05-23 |
CN116150639B true CN116150639B (zh) | 2023-12-19 |
Family
ID=86338739
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310130501.0A Active CN116150639B (zh) | 2023-02-17 | 2023-02-17 | 基于行为趋向聚类和特征映射的多智能体可变限速控制方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116150639B (zh) |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112289044A (zh) * | 2020-11-02 | 2021-01-29 | 南京信息工程大学 | 基于深度强化学习的高速公路道路协同控制系统及方法 |
CN115100850A (zh) * | 2022-04-21 | 2022-09-23 | 浙江省交通投资集团有限公司智慧交通研究分公司 | 基于深度强化学习的混合交通流控制方法、介质及设备 |
CN115512537A (zh) * | 2022-09-13 | 2022-12-23 | 中远海运科技股份有限公司 | 一种基于深度强化学习算法的高速公路监控方法及系统 |
-
2023
- 2023-02-17 CN CN202310130501.0A patent/CN116150639B/zh active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112289044A (zh) * | 2020-11-02 | 2021-01-29 | 南京信息工程大学 | 基于深度强化学习的高速公路道路协同控制系统及方法 |
CN115100850A (zh) * | 2022-04-21 | 2022-09-23 | 浙江省交通投资集团有限公司智慧交通研究分公司 | 基于深度强化学习的混合交通流控制方法、介质及设备 |
CN115512537A (zh) * | 2022-09-13 | 2022-12-23 | 中远海运科技股份有限公司 | 一种基于深度强化学习算法的高速公路监控方法及系统 |
Also Published As
Publication number | Publication date |
---|---|
CN116150639A (zh) | 2023-05-23 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Wang et al. | Harmonious lane changing via deep reinforcement learning | |
Hoel et al. | Automated speed and lane change decision making using deep reinforcement learning | |
CN111222630B (zh) | 一种基于深度强化学习的自主驾驶规则学习方法 | |
CN107169567A (zh) | 一种用于车辆自动驾驶的决策网络模型的生成方法及装置 | |
Chen et al. | Joint optimization of sensing, decision-making and motion-controlling for autonomous vehicles: A deep reinforcement learning approach | |
CN113591380B (zh) | 基于图高斯过程的交通流预测方法、介质及设备 | |
CN103324085A (zh) | 基于监督式强化学习的最优控制方法 | |
CN112201033B (zh) | 一种道路交通运行主动管控策略选择方法 | |
CN110196587A (zh) | 车辆自动驾驶控制策略模型生成方法、装置、设备及介质 | |
DE102021126050A1 (de) | Dynamische auswahl von haltepunkten eines autonomen fahrzeugs | |
Geng et al. | Human-driver speed profile modeling for autonomous vehicle's velocity strategy on curvy paths | |
CN112750298B (zh) | 一种基于smdp和drl的货车编队动态资源分配方法 | |
CN116150639B (zh) | 基于行为趋向聚类和特征映射的多智能体可变限速控制方法 | |
Behura et al. | Road accident prediction and feature analysis by using deep learning | |
CN116665442A (zh) | 一种考虑混合流理论通行能力的智能网联专用车道设计方法 | |
Teng et al. | Car following model based on driving risk field for vehicle infrastructure cooperation | |
Öner et al. | Mean field differential games in intelligent transportation systems | |
CN108597239B (zh) | 一种基于马尔科夫决策的交通灯控制系统及方法 | |
Mao et al. | Deep learning based vehicle position estimation for human drive vehicle at connected freeway | |
Ma et al. | A cellular automaton model considering the exclusive lanes of autonomous vehicles on expressway | |
Fan et al. | Deep Reinforcement Learning Based Integrated Eco-driving Strategy for Connected and Automated Electric Vehicles in Complex Urban Scenarios | |
CN116767218B (zh) | 一种无人驾驶车辆强制换道决策方法、计算机设备及介质 | |
Cao et al. | Design of vehicle profile for autonomous vehicles in roundabouts used to improve lane change strategy based on multi-vehicle collaboration | |
CN116189464B (zh) | 基于精细化回报机制的交叉熵强化学习可变限速控制方法 | |
Zhao et al. | Structured deep learning models for accurate prediction of real-world driving speed for short and long-term horizons |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |