CN116597672A - 基于多智能体近端策略优化算法的区域信号灯控制方法 - Google Patents

基于多智能体近端策略优化算法的区域信号灯控制方法 Download PDF

Info

Publication number
CN116597672A
CN116597672A CN202310714706.3A CN202310714706A CN116597672A CN 116597672 A CN116597672 A CN 116597672A CN 202310714706 A CN202310714706 A CN 202310714706A CN 116597672 A CN116597672 A CN 116597672A
Authority
CN
China
Prior art keywords
network
timing scheme
value
strategy
intersection
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202310714706.3A
Other languages
English (en)
Other versions
CN116597672B (zh
Inventor
刘鹏
张真
郑圣杰
张堃
曹旭东
时晨皓
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nanjing Innovative Data Technologies Inc
Original Assignee
Nanjing Innovative Data Technologies Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nanjing Innovative Data Technologies Inc filed Critical Nanjing Innovative Data Technologies Inc
Priority to CN202310714706.3A priority Critical patent/CN116597672B/zh
Publication of CN116597672A publication Critical patent/CN116597672A/zh
Application granted granted Critical
Publication of CN116597672B publication Critical patent/CN116597672B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G08SIGNALLING
    • G08GTRAFFIC CONTROL SYSTEMS
    • G08G1/00Traffic control systems for road vehicles
    • G08G1/07Controlling traffic signals
    • G08G1/08Controlling traffic signals according to detected number or speed of vehicles
    • GPHYSICS
    • G08SIGNALLING
    • G08GTRAFFIC CONTROL SYSTEMS
    • G08G1/00Traffic control systems for road vehicles
    • G08G1/01Detecting movement of traffic to be counted or controlled
    • G08G1/0104Measuring and analyzing of parameters relative to traffic conditions
    • G08G1/0137Measuring and analyzing of parameters relative to traffic conditions for specific applications
    • G08G1/0145Measuring and analyzing of parameters relative to traffic conditions for specific applications for active traffic flow control
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02BCLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO BUILDINGS, e.g. HOUSING, HOUSE APPLIANCES OR RELATED END-USER APPLICATIONS
    • Y02B20/00Energy efficient lighting technologies, e.g. halogen lamps or gas discharge lamps
    • Y02B20/40Control techniques providing energy savings, e.g. smart controller or presence detection

Landscapes

  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Chemical & Material Sciences (AREA)
  • Analytical Chemistry (AREA)
  • Traffic Control Systems (AREA)

Abstract

本发明公开了基于多智能体近端策略优化算法的区域信号灯控制方法,该方法包括以下步骤:将交通流量信息分别输入各自交叉口的策略网络;将区域中的多个交叉口配时方案进行数组合并;获取全局的交通流量状态和配时方案集合进行数组合并;将新的全局状态集合输入到价值网络;将局部交通流量信息输入到更新后的策略网络中;利用全局与局部交通流状态、配时方案集合、重要性采样及熵值计算策略网络的损失函数和价值网络的损失函数;优化策略网络和价值网络参数;通过不断的迭代,价值函数鼓励策略函数学习到最好的配时方案;输出不同时刻中配时方案秒数。本发明通过增加其他交叉口的配时方案有效的提高每个交叉口相互之前的协作。

Description

基于多智能体近端策略优化算法的区域信号灯控制方法
技术领域
本发明涉及信号灯控制领域,具体来说,涉及基于多智能体近端策略优化算法的区域信号灯控制方法。
背景技术
信号灯,也称交通信号灯,是一种交通管理设施,用于指示行人和车辆何时可以通行或停止。它通常由红、黄、绿三个颜色的信号灯构成,在道路交通中广泛应用。红灯表示停止,黄灯表示警告,绿灯表示行驶。
随着社会经济的持续发展和城市化进程加速,机动车保有量不断增加。而与此同时,城市交通道路的建设却没能跟上机动车保有量的快速增长,城市路径网络瓶颈限制了城市内部出行效率的提高,这是城市交通拥堵问题的主要根源之一。
对于城市交通拥堵日益显著的情况下,主要是三点问题:
1、道路宽度过窄,不能满足车辆通行需求,容易堵塞交通;道路布局不合理,如拥堵区域道路设计繁琐、走廊式交通流未得到合理的引导等,使车辆交错穿插,浪费了很多时间;路面的坡度、高低之间的起伏变化不尽人意,直接影响行车稳定性和效率。
2、占用非机动车道、行人道等造成通行障碍;违反停车规定将车辆随便停在道路边缘或者商店门前,尤其是一些交叉口人流量大的地处更是会对路面交通秩序有巨大影响;逆向行驶、压线超车、超速行驶等恶劣行为,严重影响交通流畅程度,也极易导致交通事故的发生。
3、红绿灯时长设置不合理。当某个方向交通流量大或者某个十字路口易于产生冲突,则需要调整红绿灯时长;无信号灯或信号灯损坏。一些道路交通量较小的交叉口缺乏信号灯,导致交通通畅度降低;如果遇到灯损坏且及时未予修复,则易发生交通事故。
当前信号灯控制不合理中,对于某个交叉口的设计,有较好的传统方法进行合理化,但对于区域中不同交叉口如何配合最大化疏通车流量,目前算法比较匮乏或者优化效果较差。
针对相关技术中的问题,目前尚未提出有效的解决方案。
发明内容
针对相关技术中的问题,本发明提出基于多智能体近端策略优化算法的区域信号灯控制方法,以克服现有相关技术所存在的上述技术问题。
为此,本发明采用的具体技术方案如下:
基于多智能体近端策略优化算法的区域信号灯控制方法,该区域信号灯控制方法包括以下步骤:
S1、获取每个交叉口的交通流量信息;
S2、将交通流量信息分别输入各自交叉口的策略网络,得到多个交叉口的配时方案;
S3、将区域中的多个交叉口配时方案进行数组合并,得到配时方案集合;
S4、获取全局的交通流量状态和配时方案集合进行数组合并,得到新的全局状态集合;
S5、将新的全局状态集合输入到价值网络,并通过价值网络的计算,得到对整体交通路网和每个交叉口配合的配时方案评价;
S6、将局部交通流量信息分别输入到更新前的策略网络与更新后的策略网络,分别得到两个配时方案的概率分布,将其做比值,通过不断的采样,更新前的策略概率分布会越来越接近更新后的策略概率分布,从而得到配时方案的重要性采样;
S7、将局部交通流量信息输入到更新后的策略网络中,得到配时方案概率分布,并计算配时方案概率分布的熵值;
S8、利用全局与局部交通流状态、配时方案集合、重要性采样及熵值计算策略网络的损失函数和价值网络的损失函数,并将这两个损失函数进行相加;
S9、利用adam优化器最小化步骤S8得到的损失函数loss(w)+loss(θ),由于价值网络损失函数和策略网络损失函数共同目标是最小化,所以可以进行相加,使用adam进行优化,优化策略网络和价值网络参数;
S10、通过不断的迭代,损失函数逐渐收敛,价值函数鼓励策略函数学习到最好的配时方案;
S11、将每个交通流量信息交通流量信息分别输入到优化后的策略网络中,并输出不同时刻中最佳的配时方案秒数。
进一步的,所述交通流量信息包括当前交叉口交通流量信息以及相邻的交叉口交通流量信息。
进一步的,所述将交通流量信息分别输入各自交叉口的策略网络,得到多个交叉口的配时方案包括以下步骤:
S21、将当前交叉口局部状态输入全连接层中,并提取状态信息;
S22、将状态信息输入到循环神经网络中,并再次经过全连接层,计算状态信息的均值和方差;
S23、通过均值和方差得到配时方案中具体的秒数。
进一步的,所述通过均值和方差得到配时方案中具体的秒数包括以下步骤:
S231、通过均值和方差模拟出信号控制配时秒数的正态分布;
S232、通过采样的方式,得到每个相位具体秒数;
S233、根据每个相位具体秒数得到交叉口的配时方案。
进一步的,所述将新的配时方案集合输入到价值网络,并通过价值网络的计算,得到对整体交通路网和每个交叉口配合的配时方案评价包括以下步骤:
S51、将全局路网状态和路网中所有交叉口的信号控制配时方案集合输入价值网络中,并通过全连接层进行提取状态信息;
S52、通过循环神经网络,获取历史信息,并决策当前时刻信号配时方案;
S53、通过全连接层,把状态信息压缩成配时方案集合,得到当前时刻路网状态和路网中所有交叉口信号控制配时方案搭配中速度指标的期望奖励。
进一步的,所述将局部交通流量信息分别输入到更新前的策略网络与更新后的策略网络,分别得到两个配时方案的概率分布,将其做比值,得到配时方案的重要性采样包括以下步骤:
S61、将局部交叉口的流量信息与相连的交叉口流量信息输入到策略网络中,得到配时方案的均值和方差;
S62、通过均值和方差得到,当前网络输出的配时方案正态分布,通过正态分布采样的方式,得到当前的配时方案;
S63、在对当前的配时方案进行计算在正态分布中的概率,计算公式如下:
其中a是配时方案,μ是策略网络输出的均值,σ是策略网络输出的方差,f(a)是正态分布概率密度函数,log(f(a))是f(a)的对数;
S64、获取更新前策略网络输出的配时方案正态分布概率;
S65、将更新前配时方案概率与更新后的配时方案概率做比值,作为策略网络更新的一个系数;
S66、通过不断的更新与采样,更新前的策略网络与更新后的策略网络输出的配时方案概率逐渐接近,则该过程为重要性采样。
进一步的,所述策略网络的损失函数的计算公式如下:
Loss(θ)=E[min(r(θ)A,cilp(r(θ),1-ε,1+ε)A)]-σO[πθ(a|σ)]
式中,E为期望值,min为最小值,θ为策略网络的参数,r(θ)为采样值,πθ网络参数更新之后的策略网络,a策略网络输出的动作,S为当前的状态,S[πθ(a|σ)]为当前配时方案下的路网状态策略路网输出配时方案的熵值,cilp为截取,A为价值网络输出的期望奖励,ε为超参数,σ为控制熵系数的一个超参数。
进一步的,所述价值网络的损失函数的计算公式如下:
Loss(ω)=MSE(Qω(s,a),r+γQω(s′,a′))
式中,MSE为方差,Q为价值网络,ω为价值网络参数,s为当前全局状态,s′为下一步全局状态,a为交叉口的配时方案,a′为下一时刻交叉口配时方案组合,r为状态下获取的奖励值,γ为超参数。
进一步的,所述利用adam优化器最小化步骤S8得到的损失函数loss(w)+loss(θ),由于价值网络损失函数和策略网络损失函数共同目标是最小化,所以可以进行相加,使用adam进行优化,优化策略网络和价值网络参数包括以下步骤:
S91、利用adam优化器训练损失函数中价值网络输出的期望奖励;
S92、当期望奖励增大,策略网络对该配时方案给予的概率增加;
S93、当期望奖励达到稳定状态,输出配时方案的全局最优解。
本发明的有益效果为:本发明通过对每个交叉口相邻的交通流信息输入策略网络中,使得当前交叉口能够感受到周围交通流的压力,并对每个交叉口配置单独的策略网络,加速每个交叉口计算配时方案的速度,且单独的策略网络对当前交叉口的不同状态处理更有针对性,对于价值网络中,本发明通过输入全局交通流状态和配时方案集合对整体交叉口之间的协作进行评估,通过不断的迭代,不断提高速度指标的期望值,从而有效的提高不同交叉口之间的协作。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是根据本发明实施例的基于多智能体近端策略优化算法的区域信号灯控制方法的流程图;
图2是根据本发明实施例的基于多智能体近端策略优化算法的区域信号灯控制方法中车道设计图;
图3是根据本发明实施例的基于多智能体近端策略优化算法的区域信号灯控制方法中四个交叉口展示图;
图4是根据本发明实施例的基于多智能体近端策略优化算法的区域信号灯控制方法中策略网络图;
图5是根据本发明实施例的基于多智能体近端策略优化算法的区域信号灯控制方法中价值网络图;
图6是根据本发明实施例的基于多智能体近端策略优化算法的区域信号灯控制方法中整体网络图;
图7是根据本发明实施例的基于多智能体近端策略优化算法的区域信号灯控制方法中平台下发配时方案过程图。
具体实施方式
为进一步说明各实施例,本发明提供有附图,这些附图为本发明揭露内容的一部分,其主要用以说明实施例,并可配合说明书的相关描述来解释实施例的运作原理,配合参考这些内容,本领域普通技术人员应能理解其他可能的实施方式以及本发明的优点,图中的组件并未按比例绘制,而类似的组件符号通常用来表示类似的组件。
根据本发明的实施例,提供了基于多智能体近端策略优化算法的区域信号灯控制方法。
现结合附图和具体实施方式对本发明进一步说明,如图1所示,根据本发明实施例的基于多智能体近端策略优化算法的区域信号灯控制方法,该区域信号灯控制方法包括以下步骤:
S1、获取每个交叉口的交通流量信息;
在一个实施例中,所述交通流量信息包括当前交叉口交通流量信息以及相邻的交叉口交通流量信息。
S2、将交通流量信息分别输入各自交叉口的策略网络,得到多个交叉口的配时方案;
在一个实施例中,所述将交通流量信息分别输入各自交叉口的策略网络,得到多个交叉口的配时方案包括以下步骤:
S21、将当前交叉口局部状态输入全连接层中,并提取状态信息;
S22、将状态信息输入到循环神经网络中,并再次经过全连接层,计算状态信息的均值和方差;
S23、通过均值和方差得到配时方案中具体的秒数。
在一个实施例中,所述通过均值和方差得到配时方案中具体的秒数包括以下步骤:
S231、通过均值和方差模拟出信号控制配时秒数的正态分布;
S232、通过采样的方式,得到每个相位具体秒数;
S233、根据每个相位具体秒数得到交叉口的配时方案。
具体的,如图4所示,策略网络中得到两个四维向量(相位的长度):mu(均值)与sigma(方差),mu为预测每个相位信号灯秒数的均值,均值由tanh函数进行激活,激活后再对值进行处理,得到规定时间内的均值mu=35*mu+50,我们规定每个相位时间范围在15~85。sigma为预测每个相位信号灯秒数的方差,方差由softplus函数进行激活。通过均值和方差模拟出信号控制配时秒数的正态分布,然后再通过采样的方式,得到每个相位具体秒数,从而得到交叉口的配时方案。
S3、将区域中的多个交叉口配时方案进行数组合并,得到配时方案集合;
S4、获取全局的交通流量状态和配时方案集合进行数组合并,得到新的全局状态集合;
S5、将新的配时方案集合输入到价值网络,并通过价值网络的计算,得到对整体交通路网和每个交叉口配合的配时方案评价;
在一个实施例中,所述将新的配时方案集合输入到价值网络,并通过价值网络的计算,得到对整体交通路网和每个交叉口配合的配时方案评价包括以下步骤:
S51、将全局路网状态和路网中所有交叉口的信号控制配时方案的动作集合输入价值网络中,并通过全连接层进行提取状态信息;
S52、通过循环神经网络,用于记忆历史信息,并决策当前时刻信号配时方案;
S53、通过全连接层,把状态信息压缩成配时方案集合,得到当前时刻路网状态和路网中所有交叉口信号控制配时方案搭配中速度指标的期望奖励。
具体的,如图5所示,价值网络主要有两层全连接层与一层循环神经网络组成,将全局路网状态以及路网中所有交叉口的信号控制配时方案输入到价值网络中,得到整体的路网的评估。
S6、将局部交通流量信息分别输入到更新前的策略网络与更新后的策略网络,分别得到两个配时方案的概率分布,将其做比值,得到配时方案的重要性采样;
在一个实施例中,所述将局部交通流量信息分别输入到更新前的策略网络与更新后的策略网络,分别得到两个配时方案的概率分布,将其做比值,得到配时方案的重要性采样包括以下步骤:
S61、将局部交叉口的流量信息与相连的交叉口流量信息输入到策略网络中,得到配时方案的均值和方差;
S62、通过均值和方差得到,当前网络输出的配时方案正态分布,通过正态分布采样的方式,得到当前的配时方案;
S63、在对当前的配时方案进行计算在正态分布中的概率,计算公式如下:
其中a是配时方案,μ是策略网络输出的均值,σ是策略网络输出的方差,f(a)是正态分布概率密度函数,log(f(a))是f(a)的对数;
S64、获取更新前策略网络输出的配时方案正态分布概率;
S65、将更新前配时方案概率与更新后的配时方案概率做比值,作为策略网络更新的一个系数;
S66、通过不断的更新与采样,更新前的策略网络与更新后的策略网络输出的配时方案概率逐渐接近,则该过程为重要性采样。
S7、将局部交通流量信息输入到更新后的策略网络中,得到配时方案概率分布,并计算配时方案概率分布的熵值;
S8、利用全局与局部交通流状态、配时方案集合、重要性采样及熵值计算策略网络的损失函数和价值网络的损失函数,并将这两个损失函数进行相加;
在一个实施例中,所述策略网络的损失函数的计算公式如下:
Loss(θ)=E[min(r(θ)A,cilp(r(θ),1-ε,1+ε)A)]-σS[πθ(a|o)]
式中,E为期望值,min为最小值,θ为策略网络的参数,r(θ)为采样值,πθ网络参数更新之后的策略网络,a策略网络输出的动作,S为当前的状态,S[πθ(a|o)]为当前配时方案下的路网状态策略路网输出配时方案的熵值,cilp为截取,A为价值网络输出的期望奖励,ε为超参数,σ为控制熵系数的一个超参数。其中熵值计算公式为:S[πθ(a|σ)]=Σa|oπ(a|σ)log(π(a|σ))。
具体的,如图6所示,r(θ)为采样值,其πθold为网络参数更新之前的策略网络,
在一个实施例中,所述价值网络的损失函数的计算公式如下:
Loss(ω)=MSE(Qω(s,a),r+γQω(s′,a′))
式中,MSE为方差,Q为价值网络,ω为价值网络参数,s为当前全局状态,s′为下一步全局状态,a为交叉口的配时方案,a′为下一时刻交叉口配时方案组合,r为状态下获取的奖励值,γ为超参数。
S9、利用adam优化器最小化步骤S8得到的损失函数loss(w)+loss(θ),由于价值网络损失函数和策略网络损失函数共同目标是最小化,所以可以进行相加,使用adam进行优化,优化策略网络和价值网络参数。
在一个实施例中,所述利用adam优化器最小化步骤S8得到的损失函数loss(w)+loss(θ),由于价值网络损失函数和策略网络损失函数共同目标是最小化,所以可以进行相加,使用adam进行优化,优化策略网络和价值网络参数包括以下步骤:
S91、利用adam优化器训练损失函数中价值网络输出的期望奖励;
S92、当期望奖励增大,策略网络对该配时方案给予的概率增加;
S93、当期望奖励达到稳定状态,输出配时方案的全局最优解。
S10、通过不断的迭代,损失函数逐渐收敛,价值函数鼓励策略函数学习到最好的配时方案;
S11、将每个交通流量信息交通流量信息分别输入到优化后的策略网络中,并输出不同时刻中最佳的配时方案秒数。
具体的,随着训练次数的增加,价值网络的预测期望奖励值越来越来准确,更加准确的判断当前的路网流量信息与当前的配时方案搭配是否较优,如果较优,价值网络输出较高的期望奖励,而策略网络的损失函数也受期望奖励的影响,因为策略网络的损失函数中有一个正系数为A,即价值网络输出的期望奖励,当期望奖励越大,策略网络对该配时方案给予的概率越大。随着不断训练,近端策略网络的参数会达到稳定状态,输出的配时方案也是局部最优解或者是全局最优解。
具体的,本发明中环境如图2-图3所示:
每个交叉口基本情况:
(1)、车道:
每个交叉口车道设计如下:
东进口道:每个方向车道为3车道,一个左转,一个直行,一个直右;
东出口道:每个方向出口道为3车道,在进口道100m,有扩展车道,左转为扩展车道;
西进口道:每个方向车道为4车道,一个左转,两个直行,一个右转;
西出口道:每个方向出口道为2车道,在进口道100m,有扩展车道,左转为扩展车道;
南进口道:每个方向车道为3车道,一个左转,一个直行,一个直右;
南出口道:每个方向出口道为2车道,在进口道100m,有扩展车道,左转为扩展车道;
北进口道:每个方向车道为3车道,一个左转,一个直行,一个直右;
北出口道:每个方向出口道为2车道,在进口道100m,有扩展车道,扩展车道为左转车道。
(2)、相位:每个交叉口均为四相位,相位1:南北直右,相位2:南北左转,相位3:东西直右,相位4:东西左转。
(3)、在某市选取了四个相邻交叉口统计流量,用OD模型的方法将流量模拟某市真实流量情况。
状态用于输入近端策略网络中,用于训练,从路网信息中提取有用的数据,用于得到每个相位具体的秒数。
状态格式:
(1)流量:当前交叉口的每个进口道的小时流量信息以及相连交叉口每个进口道的小时流量信息作为当前交叉口的状态信息;
(2)距离:当前交叉口与其他相邻交叉口距离;
(3)相位:当前交叉口距离及其他相邻交叉口的相位设计;
(4)周期:当前交叉口周期及其他相邻交叉口的周期秒数;
首先对上述数据进行归一化,然后对数据进行压平,组成一维数组作为输入状态。
动作是近端策略网络输出的结果,得到每个相位的具体秒数,从而确定每个交叉口的信号控制配时方案。
动作:每个相位具体秒秒数。在此之前,我们已经通过对交叉口调研规划,设计并确定该交叉口的相位。每个交叉口都为四相位,相位1:南北直右,相位2:南北左转,相位3:东西直右,相位4:东西左转。后面实验我们默认相位为四相位。对于这种四相位的动作,如配时为[30,17,25,16],分别代表南北直右30秒,南北左转17秒,东西直右25秒,东西左转16秒。
近端策略网络可以从路网状态中提取的有效的信息,输出每个交叉口的配时方案,再通过奖励反馈,判断当前路网整体的配时方案搭配是否较优。
奖励:
正向奖励:
(1)每个车辆时刻平均速度(m/s)。
负面奖励:
(1)左转时间大于40s,惩罚值:-|cycle-120|/5。
(2)总周期大于180或小于60,惩罚值:-10。
其中,Cycle是周期的意思,一个红绿灯的周期
此外,如图7所示,在平台下发过程中,首先接收到平台发出的区域优化请求,然后算法对请求进行确认,算法开始接收平台区域交叉口的布局以及交通流量和车辆速度的状态信息,区域优化算法再对这些信息进行处理,然后通过网络计算,最终得到最佳的每个交叉口配时方案,然后主动发送给平台,平台接收到配时方案后,下发给信号机,修改信号机上的周期、方案等信息,最终展现在红绿灯上。
实验的数据如表1所示:
表1为原始方案为该交叉口的实际信号控制配时方案
综上所述,借助于本发明的上述技术方案,本发明通过对每个交叉口相邻的交通流信息输入策略网络中,使得当前交叉口能够感受到周围交通流的压力,并对每个交叉口配置单独的策略网络,加速每个交叉口计算配时方案的速度,且单独的策略网络对当前交叉口的不同状态处理更有针对性,对于价值网络中,本发明通过输入全局交通流状态和配时方案集合对整体交叉口之间的协作进行评估,通过不断的迭代,不断提高速度指标的期望值,从而有效的提高不同交叉口之间的协作。
以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (9)

1.基于多智能体近端策略优化算法的区域信号灯控制方法,其特征在于,该区域信号灯控制方法包括以下步骤:
S1、获取每个交叉口的交通流量信息;
S2、将交通流量信息分别输入各自交叉口的策略网络,得到多个交叉口的配时方案;
S3、将区域中的多个交叉口配时方案进行数组合并,得到配时方案集合;
S4、获取全局的交通流量状态和配时方案集合进行数组合并,得到新的全局状态集合;
S5、将新的全局状态集合输入到价值网络,并通过价值网络的计算,得到对整体交通路网和每个交叉口配合的配时方案评价;
S6、将局部交通流量信息分别输入到更新前的策略网络与更新后的策略网络,分别得到两个配时方案的概率分布,将其做比值,通过不断的采样,更新前的策略概率分布会越来越接近更新后的策略概率分布,从而得到配时方案的重要性采样;
S7、将局部交通流量信息输入到更新后的策略网络中,得到配时方案概率分布,并计算配时方案概率分布的熵值;
S8、利用全局与局部交通流状态、配时方案集合、重要性采样及熵值计算策略网络的损失函数和价值网络的损失函数,并将这两个损失函数进行相加;
S9、利用adam优化器最小化步骤S8得到的损失函数loss(w)+loss(θ),由于价值网络损失函数和策略网络损失函数共同目标是最小化,所以可以进行相加,使用adam进行优化,优化策略网络和价值网络参数;
S10、通过不断的迭代,损失函数逐渐收敛,价值函数鼓励策略函数学习到最好的配时方案;
S11、将每个交通流量信息交通流量信息分别输入到优化后的策略网络中,并输出不同时刻中最佳的配时方案秒数。
2.根据权利要求1所述的基于多智能体近端策略优化算法的区域信号灯控制方法,其特征在于,所述交通流量信息包括当前交叉口交通流量信息以及相邻的交叉口交通流量信息。
3.根据权利要求1所述的基于多智能体近端策略优化算法的区域信号灯控制方法,其特征在于,所述将交通流量信息分别输入各自交叉口的策略网络,得到多个交叉口的配时方案包括以下步骤:
S21、将当前交叉口局部状态输入全连接层中,并提取状态信息;
S22、将状态信息输入到循环神经网络中,获取历史信息,并再次经过全连接层,计算状态信息的均值和方差;
S23、通过均值和方差得到配时方案中具体的秒数。
4.根据权利要求3所述的基于多智能体近端策略优化算法的区域信号灯控制方法,其特征在于,所述通过均值和方差得到配时方案中具体的秒数包括以下步骤:
S231、通过均值和方差模拟出信号控制配时秒数的正态分布;
S232、通过采样的方式,得到每个相位具体秒数;
S233、根据每个相位具体秒数得到交叉口的配时方案。
5.根据权利要求1所述的基于多智能体近端策略优化算法的区域信号灯控制方法,其特征在于,所述将新的全局状态集合输入到价值网络,并通过价值网络的计算,得到对整体交通路网和每个交叉口配合的配时方案评价包括以下步骤:
S51、将全局路网状态和路网中所有交叉口的信号控制配时方案集合输入价值网络中,并通过全连接层进行提取状态信息;
S52、通过循环神经网络,获取历史信息,并决策当前时刻信号配时方案;
S53、通过全连接层,把状态信息压缩成配时方案集合,得到当前时刻路网状态和路网中所有交叉口信号控制配时方案搭配中速度指标的期望奖励。
6.根据权利要求1所述的基于多智能体近端策略优化算法的区域信号灯控制方法,其特征在于,所述将局部交通流量信息分别输入到更新前的策略网络与更新后的策略网络,分别得到两个配时方案的概率分布,将其做比值,得到配时方案的重要性采样包括以下步骤:
S61、将局部交叉口的流量信息与相连的交叉口流量信息输入到策略网络中,得到配时方案的均值和方差;
S62、通过均值和方差得到,当前网络输出的配时方案正态分布,通过正态分布采样的方式,得到当前的配时方案;
S63、在对当前的配时方案进行计算在正态分布中的概率,计算公式如下:
其中a是配时方案,μ是策略网络输出的均值,σ是策略网络输出的方差,f(a)是正态分布概率密度函数,log(f(a))是f(a)的对数;
S64、获取更新前策略网络输出的配时方案正态分布概率;
S65、将更新前配时方案概率与更新后的配时方案概率做比值,作为策略网络更新的一个系数;
S66、通过不断的更新与采样,更新前的策略网络与更新后的策略网络输出的配时方案概率逐渐接近,则该过程为重要性采样。
7.根据权利要求1所述的基于多智能体近端策略优化算法的区域信号灯控制方法,其特征在于,所述策略网络的损失函数的计算公式如下:
Loss(θ)=E[min(r(θ)A,cilp(r(θ),1-ε,1+ε)A)]-σO[πθ(a|σ)]
式中,E为期望值,min为最小值,θ为策略网络的参数,r(θ)为重要性采样值,a策略网络输出的动作,O为当前的交叉口局部状态,cilp为截取,A为价值网络输出的期望奖励,ε为超参数,S[πθ(a|σ)]为当前配时方案下的路网状态策略路网输出配时方案的熵值,πθ网络参数更新之后的策略网络,σ为控制熵系数的一个超参数。
8.根据权利要求7所述的基于多智能体近端策略优化算法的区域信号灯控制方法,其特征在于,所述价值网络的损失函数的计算公式如下:
Loss(ω)=MSE(Qω(s,a),r+γQω(s′,a′))
式中,MSE为方差,Q为价值网络,ω为价值网络参数,s为当前全局状态,s′为下一步全局状态,a为交叉口的配时方案,a′为下一时刻交叉口配时方案组合,r为状态下获取的奖励值,γ为超参数。
9.根据权利要求1所述的基于多智能体近端策略优化算法的区域信号灯控制方法,其特征在于,所述利用adam优化器最小化步骤S8得到的损失函数loss(w)+loss(θ),由于价值网络损失函数和策略网络损失函数共同目标是最小化,所以可以进行相加,使用adam进行优化,优化策略网络和价值网络参数包括以下步骤:
S91、利用adam优化器训练损失函数中价值网络输出的期望奖励;
S92、当期望奖励增大,策略网络对该配时方案给予的概率增加;
S93、当期望奖励达到稳定状态,输出配时方案的全局最优解。
CN202310714706.3A 2023-06-14 2023-06-14 基于多智能体近端策略优化算法的区域信号灯控制方法 Active CN116597672B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202310714706.3A CN116597672B (zh) 2023-06-14 2023-06-14 基于多智能体近端策略优化算法的区域信号灯控制方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202310714706.3A CN116597672B (zh) 2023-06-14 2023-06-14 基于多智能体近端策略优化算法的区域信号灯控制方法

Publications (2)

Publication Number Publication Date
CN116597672A true CN116597672A (zh) 2023-08-15
CN116597672B CN116597672B (zh) 2024-02-13

Family

ID=87599231

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202310714706.3A Active CN116597672B (zh) 2023-06-14 2023-06-14 基于多智能体近端策略优化算法的区域信号灯控制方法

Country Status (1)

Country Link
CN (1) CN116597672B (zh)

Citations (18)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107705557A (zh) * 2017-09-04 2018-02-16 清华大学 基于深度增强网络的路网信号控制方法及装置
CN108805348A (zh) * 2018-06-05 2018-11-13 北京京东金融科技控股有限公司 一种交叉口信号配时控制优化的方法和装置
CN109215355A (zh) * 2018-08-09 2019-01-15 北京航空航天大学 一种基于深度强化学习的单点交叉口信号配时优化方法
CN110060475A (zh) * 2019-04-17 2019-07-26 清华大学 一种基于深度强化学习的多交叉口信号灯协同控制方法
CN111127892A (zh) * 2019-12-27 2020-05-08 北京易华录信息技术股份有限公司 交叉口配时参数优化模型构建、交叉口信号优化方法
CN112632858A (zh) * 2020-12-23 2021-04-09 浙江工业大学 基于Actor-Critic框架深度强化学习算法的交通灯信号控制方法
CN113763723A (zh) * 2021-09-06 2021-12-07 武汉理工大学 基于强化学习与动态配时的交通信号灯控制系统及方法
US20220092973A1 (en) * 2020-09-18 2022-03-24 Soheil MOHAMAD ALIZADEH SHABESTARY Method and system for adaptive cycle-level traffic signal control
CN114419884A (zh) * 2022-01-12 2022-04-29 清华大学 基于强化学习和相位竞争的自适应信号控制方法及系统
WO2022121510A1 (zh) * 2020-12-11 2022-06-16 多伦科技股份有限公司 基于随机策略梯度的交通信号控制方法、系统及电子设备
CN114995119A (zh) * 2022-02-16 2022-09-02 南京信息工程大学 基于多智能体深度强化学习的城市交通信号协同控制方法
CN115083174A (zh) * 2022-06-07 2022-09-20 杭州电子科技大学 一种基于合作式多智能体强化学习的交通信号灯控制方法
CN115277845A (zh) * 2022-07-22 2022-11-01 南京理工大学 基于多智能体近端策略的车联网分布式边缘缓存决策方法
CN115578870A (zh) * 2022-09-30 2023-01-06 合肥工业大学 一种基于近端策略优化的交通信号控制方法
US20230036702A1 (en) * 2019-12-13 2023-02-02 Qualcomm Technologies, Inc. Federated mixture models
CN115713130A (zh) * 2022-09-07 2023-02-24 华东交通大学 基于超参数网络权重分配深度强化学习的车辆调度方法
CN115731724A (zh) * 2022-11-17 2023-03-03 北京航空航天大学 一种基于强化学习的区域交通信号配时方法及系统
CN116189451A (zh) * 2022-12-26 2023-05-30 苏州万集车联网技术有限公司 一种交通信号灯的控制方法、装置、终端设备和存储介质

Patent Citations (18)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107705557A (zh) * 2017-09-04 2018-02-16 清华大学 基于深度增强网络的路网信号控制方法及装置
CN108805348A (zh) * 2018-06-05 2018-11-13 北京京东金融科技控股有限公司 一种交叉口信号配时控制优化的方法和装置
CN109215355A (zh) * 2018-08-09 2019-01-15 北京航空航天大学 一种基于深度强化学习的单点交叉口信号配时优化方法
CN110060475A (zh) * 2019-04-17 2019-07-26 清华大学 一种基于深度强化学习的多交叉口信号灯协同控制方法
US20230036702A1 (en) * 2019-12-13 2023-02-02 Qualcomm Technologies, Inc. Federated mixture models
CN111127892A (zh) * 2019-12-27 2020-05-08 北京易华录信息技术股份有限公司 交叉口配时参数优化模型构建、交叉口信号优化方法
US20220092973A1 (en) * 2020-09-18 2022-03-24 Soheil MOHAMAD ALIZADEH SHABESTARY Method and system for adaptive cycle-level traffic signal control
WO2022121510A1 (zh) * 2020-12-11 2022-06-16 多伦科技股份有限公司 基于随机策略梯度的交通信号控制方法、系统及电子设备
CN112632858A (zh) * 2020-12-23 2021-04-09 浙江工业大学 基于Actor-Critic框架深度强化学习算法的交通灯信号控制方法
CN113763723A (zh) * 2021-09-06 2021-12-07 武汉理工大学 基于强化学习与动态配时的交通信号灯控制系统及方法
CN114419884A (zh) * 2022-01-12 2022-04-29 清华大学 基于强化学习和相位竞争的自适应信号控制方法及系统
CN114995119A (zh) * 2022-02-16 2022-09-02 南京信息工程大学 基于多智能体深度强化学习的城市交通信号协同控制方法
CN115083174A (zh) * 2022-06-07 2022-09-20 杭州电子科技大学 一种基于合作式多智能体强化学习的交通信号灯控制方法
CN115277845A (zh) * 2022-07-22 2022-11-01 南京理工大学 基于多智能体近端策略的车联网分布式边缘缓存决策方法
CN115713130A (zh) * 2022-09-07 2023-02-24 华东交通大学 基于超参数网络权重分配深度强化学习的车辆调度方法
CN115578870A (zh) * 2022-09-30 2023-01-06 合肥工业大学 一种基于近端策略优化的交通信号控制方法
CN115731724A (zh) * 2022-11-17 2023-03-03 北京航空航天大学 一种基于强化学习的区域交通信号配时方法及系统
CN116189451A (zh) * 2022-12-26 2023-05-30 苏州万集车联网技术有限公司 一种交通信号灯的控制方法、装置、终端设备和存储介质

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
王银银: "基于深度强化学习的区域边界交叉口信号控制", 《CNKI中国优秀硕士学位论文全文数据库(电子期刊)》, no. 2023 *

Also Published As

Publication number Publication date
CN116597672B (zh) 2024-02-13

Similar Documents

Publication Publication Date Title
WO2021227502A1 (zh) 一种信号交叉口交通信号灯和车辆轨迹控制方法
CN108831168B (zh) 一种基于关联路口视觉识别的交通信号灯控制方法与系统
CN107331182A (zh) 一种面向连续信号交叉口的网联环境下自动驾驶车速控制方法
CN112201060B (zh) 一种基于Actor-Critic的单交叉口交通信号控制方法
CN105046987A (zh) 一种基于强化学习的路面交通信号灯协调控制方法
CN103593535A (zh) 基于多尺度融合的城市交通复杂自适应网络平行仿真系统及方法
CN111028504A (zh) 一种城市快速路智慧交通管控方法和系统
CN111768639A (zh) 一种网联交通环境下的多交叉口信号配时系统及其方法
CN114973661B (zh) 一种具备智能控制及交通流数据存储的交通信号灯
CN116432448B (zh) 基于智能网联车和驾驶员遵从度的可变限速优化方法
CN112017439B (zh) 一种自动驾驶交叉口行人过街摆渡车控制方法
CN113313943A (zh) 一种基于路侧感知的路口通行实时调度方法与系统
CN115188204B (zh) 一种异常天气条件下高速公路车道级可变限速控制方法
CN111798687A (zh) 一种基于5g技术的远程控制车辆的方法及系统
CN113299078A (zh) 一种基于多智能体协作的多模式交通干线信号协调控制方法及装置
CN113506442B (zh) 一种基于预期收益估计的城市路网交通信号灯控制方法
CN112614357B (zh) 一种智能车交叉口左转相位信号优化方法及装置
CN116597672B (zh) 基于多智能体近端策略优化算法的区域信号灯控制方法
CN116597690B (zh) 智能网联汽车的高速公路测试场景生成方法、设备及介质
CN116524745B (zh) 一种云边协同区域交通信号动态配时系统及方法
CN114898565B (zh) 一种地埋式交通信号灯的自适应控制方法
CN116229762A (zh) 一种基于智能发光标线的交叉口右转车碰撞预警方法
CN113066295B (zh) 交通信号灯控制方法及装置
CN113077642B (zh) 一种交通信号灯控制方法、装置及计算机可读存储介质
CN117975736B (zh) 一种无人驾驶车辆车路协同应用场景测试方法及系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant