CN116150639A - 基于行为趋向聚类和特征映射的多智能体可变限速控制方法 - Google Patents

基于行为趋向聚类和特征映射的多智能体可变限速控制方法 Download PDF

Info

Publication number
CN116150639A
CN116150639A CN202310130501.0A CN202310130501A CN116150639A CN 116150639 A CN116150639 A CN 116150639A CN 202310130501 A CN202310130501 A CN 202310130501A CN 116150639 A CN116150639 A CN 116150639A
Authority
CN
China
Prior art keywords
net
agent
speed limit
neural network
value
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202310130501.0A
Other languages
English (en)
Other versions
CN116150639B (zh
Inventor
郑思
李志斌
黎萌
冯汝怡
王顺超
杨逸飞
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Southeast University
Original Assignee
Southeast University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Southeast University filed Critical Southeast University
Priority to CN202310130501.0A priority Critical patent/CN116150639B/zh
Publication of CN116150639A publication Critical patent/CN116150639A/zh
Application granted granted Critical
Publication of CN116150639B publication Critical patent/CN116150639B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F17/00Digital computing or data processing equipment or methods, specially adapted for specific functions
    • G06F17/10Complex mathematical operations
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q50/00Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
    • G06Q50/40Business processes related to the transportation industry
    • GPHYSICS
    • G08SIGNALLING
    • G08GTRAFFIC CONTROL SYSTEMS
    • G08G1/00Traffic control systems for road vehicles
    • G08G1/01Detecting movement of traffic to be counted or controlled
    • G08G1/0104Measuring and analyzing of parameters relative to traffic conditions
    • G08G1/0125Traffic data processing
    • GPHYSICS
    • G08SIGNALLING
    • G08GTRAFFIC CONTROL SYSTEMS
    • G08G1/00Traffic control systems for road vehicles
    • G08G1/065Traffic control systems for road vehicles by counting the vehicles in a section of the road or in a parking area, i.e. comparing incoming count with outgoing count
    • GPHYSICS
    • G08SIGNALLING
    • G08GTRAFFIC CONTROL SYSTEMS
    • G08G1/00Traffic control systems for road vehicles
    • G08G1/09Arrangements for giving variable traffic instructions
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02TCLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
    • Y02T10/00Road transport of goods or passengers
    • Y02T10/10Internal combustion engine [ICE] based vehicles
    • Y02T10/40Engine management systems

Landscapes

  • Physics & Mathematics (AREA)
  • Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Business, Economics & Management (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Mathematical Optimization (AREA)
  • Pure & Applied Mathematics (AREA)
  • Molecular Biology (AREA)
  • Biomedical Technology (AREA)
  • Artificial Intelligence (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Evolutionary Computation (AREA)
  • Algebra (AREA)
  • Computational Mathematics (AREA)
  • Mathematical Analysis (AREA)
  • Computational Linguistics (AREA)
  • Computing Systems (AREA)
  • Databases & Information Systems (AREA)
  • Chemical & Material Sciences (AREA)
  • Analytical Chemistry (AREA)
  • Biophysics (AREA)
  • Economics (AREA)
  • Human Resources & Organizations (AREA)
  • Marketing (AREA)
  • Primary Health Care (AREA)
  • Strategic Management (AREA)
  • Tourism & Hospitality (AREA)
  • General Business, Economics & Management (AREA)
  • Traffic Control Systems (AREA)

Abstract

本发明公开了一种基于行为趋向聚类和特征映射的多智能体可变限速控制方法,有如下步骤:设计同时考虑效率和安全的智能体奖励函数,再设计出整条公路的全局奖励函数;采集连续多瓶颈路段的交通流数据;采用结合参数再梯度化的多智能体深度强化学习算法对可变限速控制智能体训练;设计能够持久记忆和信息交换的神经网络计算交通流运行趋向,再用高斯混合模型进行趋向聚类并对智能体分组;对同组内的源智能体与共享智能体间进行横向特征映射,加快学习过程;同组内的智能体同步更新神经网络直至收敛;最后对道路限速控制。结果表明,提出的可变限速控制方法具有协调性能好,收敛速度快,有效地提升了道路通行效率、改善了交通安全。

Description

基于行为趋向聚类和特征映射的多智能体可变限速控制方法
技术领域
本发明属于智能交通和交通控制技术领域,具体涉及一种基于行为趋向聚类和特征映射的多智能体可变限速控制方法,用来提升高速公路的效率和安全。
背景技术
高速公路是交通运输系统的动脉,饱和通行需求下车辆之间相互干扰与冲突加剧,导致普遍存在多种类型的交通瓶颈。改善高速公路交通问题的主要既有手段为交通流主动控制技术(Active Traffic Management),即通过主动干预交通流运行状态,疏解瓶颈区域交通供需矛盾,常见技术手段包括匝道流量控制、主线可变限速控制、动态车道功能控制等,形成了丰富的理论研究成果。然而,现有的协同控制策略,一方面存在控制动作延迟、计算量大等缺点;另一方面缺乏对多个控制点的动作协同,上述局限与约束导致该技术无法在连续多瓶颈路段集成控制与多种方式协同控制场景中取得良好的效果,其控制精度与实施效果受到较大限制。
发明内容
针对现有研究不足,本发明提出一种基于行为趋向聚类和特征映射的多智能体可变限速控制方法包括以下步骤:
S10:在每个瓶颈路段部署一个智能体进行限速控制,计算各个智能体奖励值r,各个智能体奖励值r的包括道路通行效率奖励refficiency和道路安全奖励rsafet,根据各个智能体的奖励值r计算得到整条公路的全局奖励值R;
S20:获得连续多瓶颈高速公路各路段的交通流数据,对交通流数据归一化处理并生成当前时间步交通流状态信息s和各个智能体奖励值r;
S30:采用结合参数再梯度化的多智能体深度强化学习算法,利用S20中生成的当前时间步交通流状态信息s和各个智能体奖励值r对模型进行训练最大化全局奖励值R,生成各瓶颈路段当前时间步协同限速控制动作,为所有的智能体建立一个回放记忆库
Figure BDA0004083616700000011
存放步骤S30训练过程中产生的数据;其中,所述深度强化学习算法为演员神经网络Neta和批评家神经网络Netc,所述回放记忆库存放的数据包括:当前时间步交通流状态信息s、限速控制动作值a和各个智能体奖励值r;
S40:从回放记忆库中采集奖励值r位于前30%的序列数据记为Γ,设计具有持久记忆和信息交换功能的神经网络NetΘ,以Γ为输入数据,通过网络NetΘ计算实时交通流运行行为趋向Θ,使用高斯混合模型对Θ聚类,将Θ最大后验概率所属分布相同的智能体分到一个组;
S50:随机选择同组内一个智能体为源智能体,将组内其它智能体设计为共享智能体,共享智能体网络nett和源智能体网络nets的结构相同,但nett没有权重w,对nets和nett进行横向特征映射;
S60:将同组内智能体同步更新演员神经网络Neta和批评家神经网络Netc,进入下一个学习时间步,重复执行步骤S20-S60直至Neta和Netc收敛;
S70:利用收敛后的神经网络Neta和Netc进行可变限速控制,基于采集到的交通流数据,Neta和Netc实时计算高速公路各个控制区最优限速值,将限速值传输到可变限速控制板进行发布。
有益效果:
本发明公开了一种基于行为趋向聚类和特征映射的多智能体可变限速控制方法,设计同时考虑效率以及安全的奖励函数,使用高斯混合模型对交通流运行趋向聚类并对智能体分组,对同组内的源智能体与共享智能体神经网络间进行横向特征映射,加快学习过程最后获得道路最优协同限速控制值。本发明提出的可变限速控制方法具有协调性能好,收敛速度快,有效地提升了道路通行效率、改善了交通安全。
附图说明
图1为发明的流程示意图。
图2为多智能体深度强化学习可变限速控制方法与真实道路的交互模块图。
图3为稳定需求情景下不同控制条件下的总行程时间。
图4为波动需求情景下不同控制条件下的总行程时间。
图5为稳定需求场景下瓶颈处交通流运行状态。
图6为波动需求场景下瓶颈处交通流运行状态。
具体实施方式
现结合实施例和说明书附图进一步说明本发明。
图1为本发明的流程示意图,一种基于行为趋向聚类和特征映射的多智能体可变限速控制方法包括以下步骤:
S10:在每个瓶颈路段部署一个智能体进行限速控制,计算各个智能体奖励值r,各个智能体奖励值r的包括道路通行效率奖励refficiency和道路安全奖励rsafety,根据各个智能体的奖励值r计算得到整条公路的全局奖励值R;
S20:获得连续多瓶颈高速公路各路段的交通流数据,对交通流数据归一化处理并生成当前时间步交通流状态信息s和各个智能体奖励值r;
S30:采用结合参数再梯度化的多智能体深度强化学习算法,利用S20中生成的当前时间步交通流状态信息s和各个智能体奖励值r对模型进行训练最大化全局奖励值R,生成各瓶颈路段当前时间步协同限速控制动作,为所有的智能体建立一个回放记忆库
Figure BDA0004083616700000032
存放步骤S30训练过程中产生的数据;其中,所述深度强化学习算法为演员神经网络Neta和批评家神经网络Netc,所述回放记忆库存放的数据包括:当前时间步交通流状态信息s、限速控制动作值a和各个智能体奖励值r;
S40:从回放记忆库中采集奖励值r位于前30%的序列数据记为Γ,设计具有持久记忆和信息交换功能的神经网络NetΘ,以Γ为输入数据,通过网络NetΘ计算实时交通流运行行为趋向Θ,使用高斯混合模型对Θ聚类,将Θ最大后验概率所属分布相同的智能体分到一个组;
S50:随机选择同组内一个智能体为源智能体,将组内其它智能体设计为共享智能体,共享智能体网络nett和源智能体网络nets的结构相同,但nett没有权重w,对nets和nett进行横向特征映射;
S60:将同组内智能体同步更新演员神经网络Neta和批评家神经网络Netc,进入下一个学习时间步,重复执行步骤S20-S60直至Neta和Netc收敛;
S70:利用收敛后的神经网络Neta和Netc进行可变限速控制,基于采集到的交通流数据,Neta和Netc实时计算高速公路各个控制区最优限速值,将限速值传输到可变限速控制板进行发布。
所述步骤S10中的通行效率奖励refficiency表示为:
Figure BDA0004083616700000031
其中,kcr是瓶颈路段的关键密度,k为瓶颈实际密度,b为参数,且b>0。
所述步骤S10中的道路安全奖励rsafety表示为:
Figure BDA0004083616700000041
Figure BDA0004083616700000042
其中,TTCi(t)表示两辆车相撞之前的剩余时间量,其中i为车辆编号,xi-1(t)表示前车的位置,xi(t)表示后车的位置,xi-1(t)-xi(t)表示两车间的距离,vi(t)表示后车的速度,vi-1(t)表示前车的速度,vi(t)-vi-1(t)表示两车的相对速度,TTCi(t)在后车速度大于前车速度的时候才有意义,否则为无穷大,TTCi(t)表示在t时刻第i辆车的TTC,M表示瓶颈路段内的车辆数。
所述步骤S10中的全局奖励函数表示为:
Figure BDA0004083616700000043
rj=ε1rsafety2refficiency
其中,R表示整条公路的全局奖励值,rj表示第j个智能体的奖励值,ωj表示第j个智能体奖励值权重,N为智能体个数,ε1和ε2为常数。
所述S20具体包括:
S21:通过GPS每30秒获取一次当前车辆的经、纬度以及海拔高度,确定当前车辆的位置信息,将车辆位置信息进行封装,封装的格式包括:车辆标识、速度、车辆GPS信息、时间戳;
S22:对封装的数据进行归一化处理,生成道路的实时交通状态信息s,s信息包括:主路瓶颈上游的需求dup,匝道的需求dramp,主路瓶颈上游的密度kup,主路瓶颈下游的密度kdown,入口匝道的密度kramp,主路瓶颈区域每辆车i的速度vi(k)和位置xi(k)。
所述步骤S30具体方法如下:
S31:控制算法初始化演员神经网络Neta和批评家神经网络Netc
S32:每个时间步,可变限速控制的每个智能体i(一共有N个)同时与真实的道路场景进行交互,输入所有全局交通状态信息s,奖励值r;
S33:每个智能体有m个可选动作,演员神经网络Neta生成每个智能体i的动作输出概率值
Figure BDA0004083616700000051
结合参数再梯度化的方法,生成m个服从均值为0,方差为1的正态分布的独立样本
Figure BDA0004083616700000052
通过公式
Figure BDA0004083616700000053
计算得到
Figure BDA0004083616700000054
其中,u∈[1,m],得到新的动作概率
Figure BDA0004083616700000055
再通过带温度控制的梯度对数归一化函数进行光滑近似,得到最终的动作概率
Figure BDA0004083616700000056
Figure BDA0004083616700000057
其中τ是温度参数,且满足τ>0,c为常数;
在动作集合内选取最大概率对应限速值为智能体i的动作ai,进而得到所有智能体下一时间步的限速控制动作值(a′1,a′2,...,a′n);
S34:为所有的智能体建立一个回放记忆库
Figure BDA00040836167000000517
并在回放记忆库内以元祖的形式存储训练的数据,元祖的具体形式为(s1,s2,...,sn,s′1,s′2,...,s′n,a1,a2,...,an,r1,r2,...,rn),其中,(s′1,s′2,...,s′n)为下一时间步交通流状态信息;
S35:每隔200个时间步更新演员神经网络Neta,判断累积时间步长是否为200的倍数,若是则进入步骤S36,若不是,则智能体继续以演员神经网络Neta生成控制动作并执行;
S36:从回放记忆库中随机地取出H条元祖数据,训练并更新演员神经网络Neta,获得最大全局奖励值R,最大化目标函数
Figure BDA0004083616700000058
Figure BDA0004083616700000059
其中
Figure BDA00040836167000000510
为智能体i的总时间累计回报值,
Figure BDA00040836167000000511
表示从回放记忆库
Figure BDA00040836167000000512
中取出的元祖数据总时间累计回报值的数学期望;
进一步对
Figure BDA00040836167000000513
函数求导可得到梯度为:
Figure BDA00040836167000000514
其中,
Figure BDA00040836167000000515
为集中的可变限速控制动作Q值函数,
Figure BDA00040836167000000516
表示演员神经网络在si的策略;
S37:批评家神经网络Netc根据
Figure BDA0004083616700000061
函数对演员的限速动作进行评估,通过基于时间差(TD)误差最小化损失来更新批评家神经网络Netc
Figure BDA0004083616700000062
Figure BDA0004083616700000063
Figure BDA0004083616700000064
是时间差分误差,
Figure BDA0004083616700000065
表示数学期望,ri表示基于当前状态的真实奖励,γ是折扣因子,a′i=μ′(s′i)表示批评家神经网络的策略应用到s′i的时候,它产生下一时间步动作a′i,Qi μ′(s′1,s′2,...s′n,a′1,a′2,...,a′n)是批评家神经网络在下一时间步的Q值。
S38:在整个控制过程中,重复过程S32-S37,积累回放记忆库中的样本数据。
所述步骤S40具体过程如下:
S41:设计一个具有持久记忆和信息交换功能的神经网络NetΘ,输入从回放记忆库中采集奖励值r位于前30%的序列数据Γ,
Figure BDA0004083616700000066
并在隐藏层中先进行正向运算:
Figure BDA0004083616700000067
得到正向隐藏层状态I′P,其中,权重
Figure BDA0004083616700000068
Figure BDA0004083616700000069
和偏置
Figure BDA00040836167000000610
都是模型参数;
再进行反向运算:
Figure BDA00040836167000000611
得到反向隐藏层状态I′n,其中,权重
Figure BDA00040836167000000612
Figure BDA00040836167000000613
和偏置
Figure BDA00040836167000000614
都是模型参数;
将正向隐藏层状态I′P和反向隐藏层状态I′n进行连接,获得需要送入输出层的隐状态I,并将该信息输入传递到下一个双向层,最后,输出层计算得到输出交通流运行行为趋向Θ
Θ=KmpI+bp
其中,权重Kmp和偏置bp都是输出层的模型参数;
S42:对行为趋向Θ进行相似性对比,使用高斯混合模型进行聚类获得k个分组;
所述S50的具体过程如下:
S51:在同一分组内随机选择一个智能体为源智能体,组内其它智能体为共享智能体;
S52:设计共享智能体网络nett,nett和源智能体网络nets的结构一样,但nett没有权重w;
S53:对组内共享智能体的神经网络nett进行横向特征映射;
如果n是nets的一个输入节点,将nets中的交通流状态变量映射到nett中最相似的交通流状态变量,如果n是网络的一个输出节点,将nets中的每个可变限速控制动作映射到nett中最相似的可变限速动作,如果n是网络的一个隐藏层节点,nett与nets隐藏层节点之间一一对应;
S54:遍历共享智能体的神经网络nett中的每一个节点对(ni,nj),如果节点对(ni,nj)存在于源神经网络nets中且(ni,nj)之间存在网络权重,那么在共享智能体网络节点对(ni,nj)中设置相同的权重值;
S55:进一步训练共享神经网络nett
如图2所示,本研究的对象是高速公路路段,该路段包含四个连续的瓶颈。高速公路的长度为4.2英里。高速公路管理中心实时获得道路的交通流的数据,仅考虑东行交通,四个瓶颈分别位于距路段起点0.7、1.7、2.7和3.7英里处。在瓶颈区域上游路段设置可变限速控制指示牌,主线包含四个车道,高速公路的自由流速度为65英里/小时。通行能力下降前高速公路主路的通行能力为1750辆/小时/英里。通行能力下降的幅度为7.6%,运动波的速度估计为9.5英里/小时。
设计通行效率的奖励函数,关键密度kcr为26.75辆/英里/车道,b=1,
Figure BDA0004083616700000071
设计安全的奖励函数,获取瓶颈路段所有车辆的速度、位置,计算碰撞时间TTC和rsafety
Figure BDA0004083616700000072
Figure BDA0004083616700000073
设计瓶颈处安全和效率的综合奖励函数,计算方式如下:
rj=ε1rsafety2refficiency
其中,ε1和ε2的缺省值分别为0.5,0.5。
设计整个路段的全局总奖励值,计算方法如下:
Figure BDA0004083616700000081
其中,ω1=ω2=ω3=ω4=0.25。
通过车辆感知模块,每30秒获取道路实际行驶的车辆的交通流状态信息。对交通流状态信息进行预处理以及封装,封装的格式为(车辆标识、速度、车辆GPS信息、时间戳)。
对封装后的数据进行归一化处理,采用最大最小标准化(Min-MaxNormalization)的方法,计算方法如下:
Figure BDA0004083616700000082
分别列出各个值的区间,所述各个值的区间如下:
瓶颈上游的需求dup∈{4000,6500}辆/小时,匝道的需求dramp∈{350,1200}辆/小时,瓶颈上游的密度kup∈{10,80}辆/英里/车道,瓶颈下游的密度kdown∈{10,80}辆/英里/车道,匝道的密度kramp∈{10,50}辆/英里/车道,瓶颈区域每辆车i的速度vi(k)∈{5,65}英里/小时,位置xi(k)。
对演员神经网络Neta和批评家神经网络Netc模型进行训练,训练参数如表1所示:
表1演员神经网络和批评家神经网络模型训练参数
Figure BDA0004083616700000083
控制算法初始化演员神经网络Neta和批评家神经网络Netc
可变限速控制的4个智能体同时与真实的道路场景进行交互,输入所有全局交通状态信息s=(s1,s2,s3,s4),奖励值r=(r1,r2,r3,r4)。每个智能体有13个可选动作,限速动作集合为{5mph,10mph,15mph,20mph,25mph,30mph,35mph,40mph,45mph,50mph,55mph,60mph,65mph}。
演员神经网络Neta生成智能体i的动作输出概率值
Figure BDA0004083616700000091
结合参数再梯度化的方法,生成13个服从均值为0,方差为1的正态分布的独立样本
Figure BDA0004083616700000092
通过公式
Figure BDA0004083616700000093
计算得到
Figure BDA0004083616700000094
得到新的动作概率
Figure BDA0004083616700000095
Figure BDA0004083616700000096
再通过带温度控制的梯度对数归一化函数进行光滑近似,得到最终的动作概率
Figure BDA0004083616700000097
Figure BDA0004083616700000098
其中τ=0.05,c=0.1;
在动作集合内选取最大概率对应限速值为智能体i的动作ai,进而得到所有智能体的限速动作值(a1,a2,a3,a4);
在回放记忆库D内以元祖(s1,s2,s3,s4,s′1,s′2,s′3,s′4,a1,a2,a3,a4,r1,r2,r3,r4)的形式存储训练的数据。
每隔200个时间步更新演员神经网络Neta。判断累积时间步数是否为200的倍数,若是则进入下一步,若不是,则智能体继续以当前演员神经网络Neta生成控制动作并执行。
从回放记忆库中随机地取出1024条元祖的数据,训练并更新演员神经网络Neta权重,获得最大全局奖励值R,最大化目标函数
Figure BDA0004083616700000099
Figure BDA00040836167000000910
其中
Figure BDA00040836167000000911
为智能体i的总时间累计回报值,
Figure BDA00040836167000000912
表示从回放记忆库
Figure BDA00040836167000000913
中取出的元祖数据总时间累计回报值的数学期望值。
进一步对
Figure BDA00040836167000000914
函数求导可得到梯度
Figure BDA00040836167000000915
其中,
Figure BDA0004083616700000101
为集中的可变限速控制动作Q值函数,
Figure BDA0004083616700000102
表示演员神经网络在si的策略。
每个智能体的批评家神经网络Netc根据
Figure BDA0004083616700000103
函数对演员的限速动作进行评估,通过基于时间差(TD)误差最小化损失来更新更新批评家神经网络
Figure BDA0004083616700000104
y=rs+γQi μ′(s′1,s′2,s′3,s′4,a′1,a′2,a′3,a′4)|a′i=μ′(s′i)
Figure BDA0004083616700000105
是时间差分误差,
Figure BDA0004083616700000106
表示数学期望,ri表示基于当前状态的真实奖励,γ=0.9,a′i=μ′(s′i)表示批评家神经网络的策略应用到s′i的时候,它产生下一时刻动作a′i,Qi μ′(s′1,s′2,s′3,s′4,a′1,a′2,a′3,a′4)是批评家神经网络在下一时刻的Q值。
在整个控制过程中,重复上述过程,不断更新Netc和Neta,积累回放记忆池中的数据。再判断元祖的条数是否大于200000,若是则进入下一步,若不是则智能体继续作为存储的数据进行训练。
输入从回放记忆池中采集的若干智能体的奖励值r位于前30%的序列数据(Γ1,Γ2,Γ3,Γ4),运用具有持久记忆和信息交换功能的神经网络NetΘ进行计算,在隐藏层中先进行正向运算:
Figure BDA0004083616700000107
得到正向隐藏层状态I′P,再进行反向运算:
Figure BDA0004083616700000108
得到反向隐藏层状态I′n,将正向隐藏层状态I′P和反向隐藏层状态I′n进行连接,获得需要送入输出层的隐状态I,并将该信息输入传递到下一个双向层,最后,再进行输出层计算:
Θ=KmpI+bp
得到交通流行为趋向(Θ1,Θ2,Θ3,Θ4),进一步对行为趋向使用高斯混合模型进行聚类分组,将Θ最大后验概率所属分布相同的智能体分到一个组,一共分成2组数据。A组:智能体1和2;B组:智能体3、4。
对2组的智能体进行训练横向特征映射,各组中,分别确定智能体1和智能体3为源智能体,其它各组内的智能体为共享智能体。将源智能体的神经网络nets横向特征映射至其它共享智能体神经网络nett。各组内的智能体,进入下一个学习时间步,循环上述过程至Neta和Netc收敛。
利用收敛后的神经网络Neta和Netc进行可变限速控制,基于采集到的交通流数据,Neta和Netc实时计算高速公路各个控制区最优限速值,将限速值传输到可变限速控制板进行发布。
据统计,不同控制方式下(无可变限速控制、反馈控制、独立智能体控制、本文提出的基于行为趋向聚类和特征映射的多智能体控制)的高速公路内车辆总通行时间如表2所示,由下表可知,在稳定需求下,多智能体控制下通行时间比无控情况减少了17.61%;在波动需求下,比无控情况减少了18.56%。多智能体的控制和其它控制策略相比,更有效改善瓶颈路段的通行效率。不同控制策略下的总行程时间对比如图3和图4,在稳定需求和波动需求两种场景中,所提出的多智能体的控制方法有效地降低了总行程时间,提升了通行效率。不同控制策略下瓶颈位置的交通流运行状态如图5和图6所示,在多智能体的控制方法下,瓶颈处交通流速度高,流量大,所提出的方法有效地改善了交通安全。
统计结果:
表2不同控制方式下高速公路内车辆总通行时间表
Figure BDA0004083616700000111
Figure BDA0004083616700000121

Claims (8)

1.一种基于行为趋向聚类和特征映射的多智能体可变限速控制方法,其特征在于,包括以下步骤:
S10:在每个瓶颈路段部署一个智能体进行限速控制,计算各个智能体奖励值r,各个智能体奖励值r的包括道路通行效率奖励refficiency和道路安全奖励rsafety,根据各个智能体的奖励值r计算得到整条公路的全局奖励值R;
S20:获得连续多瓶颈高速公路各路段的交通流数据,对交通流数据归一化处理并生成当前时间步交通流状态信息s和各个智能体奖励值r;
S30:采用结合参数再梯度化的多智能体深度强化学习算法,利用S20中生成的当前时间步交通流状态信息s和各个智能体奖励值r对模型进行训练最大化全局奖励值R,生成各瓶颈路段当前时间步协同限速控制动作,为所有的智能体建立一个回放记忆库D存放步骤S30训练过程中产生的数据;其中,所述深度强化学习算法为演员神经网络Neta和批评家神经网络Netc,所述回放记忆库存放的数据包括:当前时间步交通流状态信息s、限速控制动作值a和各个智能体奖励值r;
S40:从回放记忆库中采集奖励值r位于前30%的序列数据记为Γ,设计具有持久记忆和信息交换功能的神经网络NetΘ,以Γ为输入数据,通过网络NetΘ计算实时交通流运行行为趋向Θ,使用高斯混合模型对Θ聚类,将Θ最大后验概率所属分布相同的智能体分到一个组;
S50:随机选择同组内一个智能体为源智能体,将组内其它智能体设计为共享智能体,共享智能体网络nett和源智能体网络nets的结构相同,但nett没有权重w,对nets和nett进行横向特征映射;
S60:将同组内智能体同步更新演员神经网络Neta和批评家神经网络Netc,进入下一个学习时间步,重复执行步骤S20-S60直至Neta和Netc收敛;
S70:利用收敛后的神经网络Neta和Netc进行可变限速控制,基于采集到的交通流数据,Neta和Netc实时计算高速公路各个控制区最优限速值,将限速值传输到可变限速控制板进行发布。
2.根据权利要求1所述的一种基于行为趋向聚类和特征映射的多智能体可变限速控制方法,其特征在于,所述步骤S10中的通行效率奖励refficiency表示为:
Figure FDA0004083616690000021
其中,kcr是瓶颈路段的关键密度,k为瓶颈实际密度,b为参数,且b>0。
3.根据权利要求1所述的一种基于行为趋向聚类和特征映射的多智能体可变限速控制方法,其特征在于,所述步骤S10中的道路安全奖励rsafet表示为:
Figure FDA0004083616690000022
Figure FDA0004083616690000023
其中,TTCi(t)表示两辆车相撞之前的剩余时间量,其中i为车辆编号,xi-1(t)表示前车的位置,xi(t)表示后车的位置,xi-1(t)-xi(t)表示两车间的距离,vi(t)表示后车的速度,vi-1(t)表示前车的速度,vi(t)-vi-1(t)表示两车的相对速度,TTCi(t)在后车速度大于前车速度的时候才有意义,否则为无穷大,TTCi(t)表示在t时刻第i辆车的TTC,M表示瓶颈路段内的车辆数。
4.根据权利要求1所述的一种基于行为趋向聚类和特征映射的多智能体可变限速控制方法,其特征在于,所述步骤S10中的全局奖励函数表示为:
Figure FDA0004083616690000024
rj=ε1rsafety2refficiency
其中,R表示整条公路的全局奖励值,rj表示第j个智能体的奖励值,ωj表示第j个智能体奖励值权重,N为智能体个数,ε1和ε2为常数。
5.根据权利要求1所述的一种基于行为趋向聚类和特征映射的多智能体可变限速控制方法,其特征在于,所述的S20具体包括:
S21:通过GPS每30秒获取一次当前车辆的经、纬度以及海拔高度,确定当前车辆的位置信息,将车辆位置信息进行封装,封装的格式包括:车辆标识、速度、车辆GPS信息、时间戳;
S22:对封装的数据进行归一化处理,生成道路的实时交通状态信息s,s信息包括:主路瓶颈上游的需求dup,匝道的需求dramp,主路瓶颈上游的密度kup,主路瓶颈下游的密度kdown,入口匝道的密度kramp,主路瓶颈区域每辆车i的速度vi(k)和位置xi(k)。
6.根据权利要求1所述的一种基于行为趋向聚类和特征映射的多智能体可变限速控制方法,其特征在于,所述步骤S30具体方法如下:
S31:控制算法初始化演员神经网络Neta和批评家神经网络Netc
S32:每个时间步,可变限速控制的每个智能体i(一共有N个)同时与真实的道路场景进行交互,输入所有全局交通状态信息s,奖励值r;
S33:每个智能体有m个可选动作,演员神经网络Neta生成每个智能体i的动作输出概率值
Figure FDA0004083616690000031
结合参数再梯度化的方法,生成m个服从均值为0,方差为1的正态分布的独立样本
Figure FDA0004083616690000032
通过公式
Figure FDA0004083616690000033
计算得到
Figure FDA0004083616690000034
其中,u∈[1,m],得到新的动作概率
Figure FDA0004083616690000035
再通过带温度控制的梯度对数归一化函数进行光滑近似,得到最终的动作概率
Figure FDA0004083616690000036
Figure FDA0004083616690000037
其中τ是温度参数,且满足τ>0,c为常数;
在动作集合内选取最大概率对应限速值为智能体i的动作ai,进而得到所有智能体下一时间步的限速控制动作值(a′1,a′2,...,a′n);
S34:为所有的智能体建立一个回放记忆库
Figure FDA00040836166900000313
并在回放记忆库内以元祖的形式存储训练的数据,元祖的具体形式为(s1,s2,...,sn,s′1,s′2,...,s′n,a1,a2,...,an,r1,r2,...,rn),其中,(s′1,s′2,...,s′n)为下一时间步交通流状态信息;
S35:每隔200个时间步更新演员神经网络Neta,判断累积时间步长是否为200的倍数,若是则进入步骤S36,若不是,则智能体继续以演员神经网络Neta生成控制动作并执行;
S36:从回放记忆库中随机地取出H条元祖数据,训练并更新演员神经网络Neta,获得最大全局奖励值R,最大化目标函数
Figure FDA0004083616690000038
Figure FDA0004083616690000039
其中
Figure FDA00040836166900000310
为智能体i的总时间累计回报值,
Figure FDA00040836166900000311
表示从回放记忆库
Figure FDA00040836166900000312
中取出的元祖数据总时间累计回报值的数学期望;
进一步对
Figure FDA0004083616690000041
函数求导可得到梯度为:
Figure FDA0004083616690000042
其中,
Figure FDA0004083616690000043
为集中的可变限速控制动作Q值函数,
Figure FDA00040836166900000416
表示演员神经网络在si的策略;
S37:批评家神经网络Netc根据
Figure FDA0004083616690000044
函数对演员的限速动作进行评估,通过基于时间差(TD)误差最小化损失来更新批评家神经网络Netc
Figure FDA0004083616690000045
Figure FDA0004083616690000046
Figure FDA0004083616690000047
是时间差分误差,
Figure FDA0004083616690000048
表示数学期望,ri表示基于当前状态的真实奖励,γ是折扣因子,a′i=μ′(s′i)表示批评家神经网络的策略应用到s′i的时候,它产生下一时间步动作a′i,Qi μ′(s′1,s′2,...s′n,a′1,a′2,...,a′n)是批评家神经网络在下一时间步的Q值;
S38:在整个控制过程中,重复过程S32-S37,积累回放记忆库中的样本数据。
7.根据权利要求1所述的一种基于行为趋向聚类和特征映射的多智能体可变限速控制方法,其特征在于,所述步骤S40具体过程如下:
S41:设计一个具有持久记忆和信息交换功能的神经网络NetΘ,输入从回放记忆库中采集奖励值r位于前30%的序列数据Γ,
Figure FDA0004083616690000049
并在隐藏层中先进行正向运算:
Figure FDA00040836166900000410
得到正向隐藏层状态I′P,其中,权重
Figure FDA00040836166900000411
和偏置
Figure FDA00040836166900000412
都是模型参数;
再进行反向运算:
Figure FDA00040836166900000413
得到反向隐藏层状态I′n,其中,权重
Figure FDA00040836166900000414
和偏置
Figure FDA00040836166900000415
都是模型参数;
将正向隐藏层状态I′P和反向隐藏层状态I′n进行连接,获得需要送入输出层的隐状态I,并将该信息输入传递到下一个双向层,最后,输出层计算得到输出交通流运行行为趋向Θ
Θ=KmpI+bp
其中,权重Kmp和偏置bp都是输出层的模型参数;
S42:对行为趋向Θ进行相似性对比,使用高斯混合模型进行聚类获得k个分组。
8.根据权利要求1所述的一种基于行为趋向聚类和特征映射的多智能体可变限速控制方法,其特征在于,所述S50的具体过程如下:
S51:在同一分组内随机选择一个智能体为源智能体,组内其它智能体为共享智能体;
S52:设计共享智能体网络nett,nett和源智能体网络nets的结构一样,但nett没有权重w;
S53:对组内共享智能体的神经网络nett进行横向特征映射;
如果n是nets的一个输入节点,将nets中的交通流状态变量映射到nett中最相似的交通流状态变量,如果n是网络的一个输出节点,将nets中的每个可变限速动作映射到nett中最相似的可变限速动作,如果n是网络的一个隐藏层节点,nett与nets隐藏层节点之间一一对应;
S54:遍历共享智能体的神经网络nett中的每一个节点对(ni,nj),如果节点对(ni,nj)存在于源神经网络nets中且(ni,nj)之间存在网络权重,那么在共享智能体网络节点对(nj,nj)中设置相同的权重值;
S55:进一步训练共享神经网络nett
CN202310130501.0A 2023-02-17 2023-02-17 基于行为趋向聚类和特征映射的多智能体可变限速控制方法 Active CN116150639B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202310130501.0A CN116150639B (zh) 2023-02-17 2023-02-17 基于行为趋向聚类和特征映射的多智能体可变限速控制方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202310130501.0A CN116150639B (zh) 2023-02-17 2023-02-17 基于行为趋向聚类和特征映射的多智能体可变限速控制方法

Publications (2)

Publication Number Publication Date
CN116150639A true CN116150639A (zh) 2023-05-23
CN116150639B CN116150639B (zh) 2023-12-19

Family

ID=86338739

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202310130501.0A Active CN116150639B (zh) 2023-02-17 2023-02-17 基于行为趋向聚类和特征映射的多智能体可变限速控制方法

Country Status (1)

Country Link
CN (1) CN116150639B (zh)

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112289044A (zh) * 2020-11-02 2021-01-29 南京信息工程大学 基于深度强化学习的高速公路道路协同控制系统及方法
CN115100850A (zh) * 2022-04-21 2022-09-23 浙江省交通投资集团有限公司智慧交通研究分公司 基于深度强化学习的混合交通流控制方法、介质及设备
CN115512537A (zh) * 2022-09-13 2022-12-23 中远海运科技股份有限公司 一种基于深度强化学习算法的高速公路监控方法及系统

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112289044A (zh) * 2020-11-02 2021-01-29 南京信息工程大学 基于深度强化学习的高速公路道路协同控制系统及方法
CN115100850A (zh) * 2022-04-21 2022-09-23 浙江省交通投资集团有限公司智慧交通研究分公司 基于深度强化学习的混合交通流控制方法、介质及设备
CN115512537A (zh) * 2022-09-13 2022-12-23 中远海运科技股份有限公司 一种基于深度强化学习算法的高速公路监控方法及系统

Also Published As

Publication number Publication date
CN116150639B (zh) 2023-12-19

Similar Documents

Publication Publication Date Title
Wang et al. Harmonious lane changing via deep reinforcement learning
Hoel et al. Automated speed and lane change decision making using deep reinforcement learning
CN111222630B (zh) 一种基于深度强化学习的自主驾驶规则学习方法
CN107169567A (zh) 一种用于车辆自动驾驶的决策网络模型的生成方法及装置
Chen et al. Joint optimization of sensing, decision-making and motion-controlling for autonomous vehicles: A deep reinforcement learning approach
CN103324085A (zh) 基于监督式强化学习的最优控制方法
CN112201033B (zh) 一种道路交通运行主动管控策略选择方法
CN110196587A (zh) 车辆自动驾驶控制策略模型生成方法、装置、设备及介质
Gaikwad Vehicle velocity prediction using artificial neural networks and effect of real-world signals on prediction window
Wang et al. Understanding v2v driving scenarios through traffic primitives
CN114644018A (zh) 一种基于博弈论的自动驾驶车辆人车交互决策规划方法
Wu et al. ES-CTC: A deep neuroevolution model for cooperative intelligent freeway traffic control
Geng et al. Human-driver speed profile modeling for autonomous vehicle's velocity strategy on curvy paths
CN116150639B (zh) 基于行为趋向聚类和特征映射的多智能体可变限速控制方法
CN112750298A (zh) 一种基于smdp和drl的货车编队动态资源分配方法
Behura et al. Road accident prediction and feature analysis by using deep learning
Naitmalek et al. Embedded real-time speed forecasting for electric vehicles: a case study on RSK urban roads
Teng et al. Car following model based on driving risk field for vehicle infrastructure cooperation
Öner et al. Mean field differential games in intelligent transportation systems
Mao et al. Deep learning based vehicle position estimation for human drive vehicle at connected freeway
Ma et al. A cellular automaton model considering the exclusive lanes of autonomous vehicles on expressway
Ke et al. Lane-changing decision model for connected and automated vehicle based on back-propagation neural network
Fan et al. Deep Reinforcement Learning Based Integrated Eco-driving Strategy for Connected and Automated Electric Vehicles in Complex Urban Scenarios
Ahmed et al. Application of Convolution Neural Network for Adaptive Traffic Controller System
CN116767218B (zh) 一种无人驾驶车辆强制换道决策方法、计算机设备及介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant