CN113487857A - 一种区域多路口可变车道协同控制决策方法 - Google Patents
一种区域多路口可变车道协同控制决策方法 Download PDFInfo
- Publication number
- CN113487857A CN113487857A CN202110677633.6A CN202110677633A CN113487857A CN 113487857 A CN113487857 A CN 113487857A CN 202110677633 A CN202110677633 A CN 202110677633A CN 113487857 A CN113487857 A CN 113487857A
- Authority
- CN
- China
- Prior art keywords
- lane
- network
- variable
- average
- lanes
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 49
- 238000004364 calculation method Methods 0.000 claims abstract description 49
- 238000012549 training Methods 0.000 claims abstract description 48
- 230000009471 action Effects 0.000 claims abstract description 38
- 230000006870 function Effects 0.000 claims abstract description 27
- 238000013528 artificial neural network Methods 0.000 claims abstract description 15
- 230000008569 process Effects 0.000 claims abstract description 13
- 238000013135 deep learning Methods 0.000 claims abstract description 8
- 230000007246 mechanism Effects 0.000 claims abstract description 8
- 238000000354 decomposition reaction Methods 0.000 claims abstract description 7
- 238000011156 evaluation Methods 0.000 claims abstract description 6
- 238000003062 neural network model Methods 0.000 claims abstract description 6
- 239000003795 chemical substances by application Substances 0.000 claims description 32
- 238000013507 mapping Methods 0.000 claims description 3
- 239000011159 matrix material Substances 0.000 claims description 3
- 238000000605 extraction Methods 0.000 description 5
- 238000005457 optimization Methods 0.000 description 4
- 230000002787 reinforcement Effects 0.000 description 4
- 230000000694 effects Effects 0.000 description 2
- 230000009916 joint effect Effects 0.000 description 2
- 239000002699 waste material Substances 0.000 description 2
- 241000287196 Asthenes Species 0.000 description 1
- 206010021033 Hypomenorrhoea Diseases 0.000 description 1
- 230000001174 ascending effect Effects 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 230000008878 coupling Effects 0.000 description 1
- 238000010168 coupling process Methods 0.000 description 1
- 238000005859 coupling reaction Methods 0.000 description 1
- 230000003247 decreasing effect Effects 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 239000006185 dispersion Substances 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 230000005284 excitation Effects 0.000 description 1
- 230000010354 integration Effects 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 230000007786 learning performance Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000012544 monitoring process Methods 0.000 description 1
- 238000007781 pre-processing Methods 0.000 description 1
- 230000000644 propagated effect Effects 0.000 description 1
- 229920006395 saturated elastomer Polymers 0.000 description 1
- 238000012163 sequencing technique Methods 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 230000001360 synchronised effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G08—SIGNALLING
- G08G—TRAFFIC CONTROL SYSTEMS
- G08G1/00—Traffic control systems for road vehicles
- G08G1/01—Detecting movement of traffic to be counted or controlled
- G08G1/0104—Measuring and analyzing of parameters relative to traffic conditions
- G08G1/0137—Measuring and analyzing of parameters relative to traffic conditions for specific applications
- G08G1/0145—Measuring and analyzing of parameters relative to traffic conditions for specific applications for active traffic flow control
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/084—Backpropagation, e.g. using gradient descent
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- General Physics & Mathematics (AREA)
- General Health & Medical Sciences (AREA)
- General Engineering & Computer Science (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- Artificial Intelligence (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Biomedical Technology (AREA)
- Life Sciences & Earth Sciences (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Health & Medical Sciences (AREA)
- Chemical & Material Sciences (AREA)
- Analytical Chemistry (AREA)
- Traffic Control Systems (AREA)
Abstract
本发明涉及一种区域多路口可变车道协同控制决策方法,包括以下步骤:S1:主控台实时获取路网状态数据、每一路口的局部状态和上一时间步的决策动作;S2:根据绩效奖励分级评定机制构建全局奖励分解模块;S3:根据区域内可变车道的数量,确定深度学习网络训练过程的状态空间、动作空间和全局奖励,构建全局混合网络;S4:利用深度神经网络模型构建结构相同的训练网络和目标网络,并将两个神经网络的参数同步;S5:根据上述收敛后的神经网络模型计算备选控制动作的效用函数值,选取最优动作进行可变车道转向控制。本发明在决策时能够去中心化地执行自身的可变车道转向决策,降低了计算复杂度,保证区域多路口可变车道协同控制决策的实时性和有效性。
Description
技术领域
本发明属于深度学习技术领域,具体涉及一种区域多路口可变车道协同控制决策方法。
背景技术
随着我国机动车保有量的不断上升,道路交通供需矛盾日益加剧。为了缓解路口内各转向交通流分布不均衡造成道路资源浪费问题和道路拥堵情况,国内外开始广泛使用可变车道技术。
在专利公开号为CN109920244A的中国专利公开了一种可变车道实时控制系统及方法,通过设备监测子系统、车道状态子系统、方案研判子系统和方案决策子系统进行路网状态获取和可变车道转向控制决策。在该方法中,可变车道可以依据实时路网状态进行自适应变化,缓解交通拥堵,提升道路资源的利用率。
上述专利肃然能够缓解交通拥堵,提升道路资源的利用率,但随着可变车道数量的增多,仅通过规则决策方式难以覆盖巨大的路网状态空间,对道路资源的均衡优化问题所提升的性能是十分有限的。
在专利公开号为CN111915894A的中国专利公开了一种基于深度强化学习的可变车道及交通协同控制方法,通过采集交叉路口状态观测值,包括车辆数据、信号灯数据和可变车道数据进行预处理后输入神经网路进行训练,得到收敛模型用于计算后续可变车道的决策控制方案。该方法仅仅处理单个路口的可变车道转向决策问题,单点最优不一定能够保障全局最优。
若是将上述方法通过简单耦合实施在区域路网中,每个路口的决策网络可能会由于其他决策网络导致的外部环境动态性而无法快速收敛甚至无法收敛。
发明内容
为了解决上述问题,本发明提供了一种区域多路口可变车道协同控制决策方法,在强化学习算法的基础上采取集中式训练、分布式执行的策略,在决策时每一智能体能够去中心化地执行自身的可变车道转向决策,降低了计算复杂度,保证区域多路口可变车道协同控制决策的实时性和有效性。
本发明的技术方案如下所示:
一种区域多路口可变车道协同控制决策方法,包括以下步骤:
S1:由主控台实时获取路网状态数据,并获得每一路口的局部状态和上一时间步的决策动作;
S2:根据绩效奖励分级评定机制构建全局奖励分解模块,将全局奖励分解为基本奖励和绩效奖励,并分别计算每个可变车道获得的奖励总和;
S3:根据区域内可变车道的数量,确定深度学习网络训练过程的状态空间、动作空间和全局奖励,构建全局混合网络;
S4:根据单个路口智能体网络和全局混合网络模型构建两个结构相同的神经网络,分别作为训练网络和目标网络,当训练网络和目标网络的相似度达到更新阈值时将两个神经网络的参数同步,经过不断迭代训练直至网络收敛;
S5:根据上述收敛后的神经网络模型计算备选控制动作的效用函数值,选取最优动作进行可变车道转向控制。
优选的,所述路网状态数据包括车道组左转方向车道组的平均排队长度、左转方向车道组的平均等待时间和左转方向车道组的平均延误时间,车道组直行方向车道组的平均排队长度、直行方向车道组的平均等待时间、直行方向车道组的平均延误时间,以及车辆位置映射矩阵。
优选的,根据可变车道的贡献建立绩效奖励分级评定机制来确认每个可变车道的绩效奖励,具体为对可变车道组的路段拥挤程度进行分级,所述基本奖励通过混合网络进行特异性分配。
优选的,所述绩效奖励的具体计算过程为:
优选的,所述状态空间通过路网状态数据联合表征区域内每一路口局部状态来确定,所述可变车道为左直可变车道,所述动作空间的可选项为直行或左转。
优选的,将所述可变车道抽象为智能体,以路口局部状态和上一时间步的执行动作作为相应智能体的输入,每一可变车道智能体将输入经过独立的深度学习网络计算得到自身的效用函数,所述全局混合网络根据区域内可变车道数量构建,将多个路口智能体的效用函数值作为全局混合网络的联合输入。
优选的,所述全局奖励的计算过程为:
优选的,在所述步骤S4的模型训练中,使用优先级经验回放算法加快训练时算法收敛速度,并针对经验缓冲池中的样本采用TD误差衡量样本重要性,将误差较大的样本设为高优先级,优先抽取高优先级的样本进行训练。
优选的,在所述步骤S5中具体包括:单独计算每一可变车道智能体采取不同决策动作的效用函数,采用效用函数值高的决策动作作为相应智能体下一时间步的执行动作,联合所有智能体的最优控制动作作为区域协同控制决策。
本发明的技术效果为:
本发明利用训练深度神经网络进行区域多路口可变车道协同控制决策方法学习,能够在复杂的非线性环境中取得良好的学习性能,且提高决策了效率。
本发明还在强化学习算法的基础上采取集中式训练的策略,训练时利用优化全局奖励函数优化联合动作值函数,获得以区域决策最优为目标的决策模型,每一智能体通过神经网络反向传播的基本奖励和额外的绩效奖励的双重激励进行学习,从而得到自身的“最佳”策略。
本发明还在在强化学习算法的基础上采取分布式执行的策略,决策时每一智能体能够去中心化地执行自身的可变车道转向决策,降低了计算复杂度,且能够保证区域多路口可变车道协同控制决策的实时性和有效性。
附图说明
图1为本发明提供的方法的转向控制决策流程图。
图2为本发明提供的方法的训练流程图。
图3为本发明提供的方法的整体框架。
具体实施方式
下面将结合说明书附图对本发明的实施例进行详细说明。
一种区域多路口可变车道协同控制决策方法,包括以下步骤:
S1:由主控台实时获取路网状态数据,并获得每一路口的局部状态和上一时间步的决策动作;
S2:根据绩效奖励分级评定机制构建全局奖励分解模块,将全局奖励分解为基本奖励和绩效奖励,并分别计算每个可变车道获得的奖励总和;
S3:根据区域内可变车道的数量,确定深度学习网络训练过程的状态空间、动作空间和全局奖励,构建全局混合网络;
S4:利用深度神经网络模型构建两个结构相同的神经网络,分别作为训练网络和目标网络,当训练网络和目标网络的相似度达到更新阈值时将两个神经网络的参数同步,经过不断迭代训练直至网络收敛;
S5:根据上述收敛后的神经网络模型计算备选控制动作的效用函数值,选取最优动作进行可变车道转向控制。
在步骤S1中,主控台对路口状态的实时观测的路网状态数据如下:车道组左转方向车道组的平均排队长度、左转方向车道组的平均等待时间、左转方向车道组的平均延误时间;车道组直行方向车道组的平均排队长度、直行方向车道组的平均等待时间、直行方向车道组的平均延误时间;车辆位置映射矩阵,并获取上一时间步的决策动作。
上述绩效奖励用于激励区域协同控制过程中贡献较大的可变车道智能体,根据可变车道智能体的贡献建立绩效奖励分级评定机制,由于对车流饱和道路的决策对整体路网状态的影响大于车流未饱和道路,所以对可变车道组的路段拥挤程度进行分级。
绩效奖励的具体计算过程为:
本实施例中,可变车道为左直可变车道,动作空间仅有两个可选项:直行或者左转,如下所示:
如图1所示,转向控制决策流程为:
1、获取路网状态数据;
2、计算下一状态中每一车道智能体的效用函数值;
3、计算全局效用函数值;
4、通过神经网络反向传播计算每一车道的基本奖励值;
5、通过全局奖励分解模块计算每一车道的绩效奖励值;
6、计算当前备选动作左转和直行的效用函数值;
7、判断左转的效用函数至是否大于直行的效用函数值,是则左转,否则直行。
而全局奖励需要综合考虑整个区域的交通状况,所选取的各个指标如下:
在步骤4中,对步骤3提出的深度网络模型,提出优先级经验回放算法加快训练时算法收敛速度。对于经验缓冲池中的样本采用TD误差衡量样本重要性,将误差较大的样本设为高优先级,优先抽取高优先级的样本进行训练。
模型的具体训练过程如图2所示,包括:
1、获取路网状态数据;
2、构建全局奖励分解模块;
3、确定状态空间、动作空间和全局奖励;
4、构建训练网络和目标网络;
5、优先级经验回放抽取训练样本;
6、判断模型是否收敛,是则结束步骤,否则继续判断是否达到更新阈值,是则同步目标网络和训练网络的参数并返回第5步,否则直接返回第5步。
在本实施例中,网络相似度采用网络模型对应权重的欧几里得距离进行计算,计算公式为:。其中,为目标网络的网络权重,为训练网络的网络权重。记录过去时间每一时间的网络相似度,若当前时间步的网络相似度小于最大值的一半时,将两个神经网络的参数同步。
本实施例中,采用经验回放机制提供深度网络的训练样本,首先将智能体与环境交互产生的经验放入缓冲池,神经网络训练过程中根据经验样本的优先级进行抽取。
由于误差较大的经验样本说明训练网络可优化的空间更大,采取目标网络损失作为衡量训练样本优先级的指标之一;为防止值较小的样本抽取概率过低甚至整个训练过程都无法抽取到的情况出现,引入抽取次数作为衡量训练样本优先级的另一指标。
经过不断迭代训练直至网络收敛。
在步骤S5中,为了降低计算时间复杂度,单独计算每一可变车道智能体采取不同决策动作的效用函数,效用函数值越高代表着该控制动作进行交通疏导的效果越好,采取该控制动作作为相应智能体下一时间步的执行动作,联合所有智能体的最优控制动作作为区域协同控制决策,其中为区域内可变车道总数量。
步骤S5中的效用函数值的计算公式为:
本发明提供的如上所述的方法,使用深度神经网络学习可变车道转向控制方法,针对区域多路口可变车道协同控制问题,使用基本奖励加绩效奖励的全局奖励分解策略,进行集中式训练获得以区域决策最优为目标的决策模型;每一智能体分布式执行自身的可变车道转向决策。该方法降低了计算复杂度,保证决策的实时性;有效减少道路资源浪费的问题,减少了交通拥堵。
本发明提供的方法的整体框架如图3所示。
最后应说明的是:以上所述实施例,仅为本发明的具体实施方式,用以说明本发明的技术方案,而非对其限制,本发明的保护范围并不局限于此,尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,其依然可以对前述实施例所记载的技术方案进行修改或可轻易想到变化,或者对其中部分技术特征进行等同替换;而这些修改、变化或者替换,并不使相应技术方案的本质脱离本发明实施例技术方案的精神和范围。都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应所述以权利要求的保护范围为准。
Claims (10)
1.一种区域多路口可变车道协同控制决策方法,其特征在于,包括以下步骤:
S1:由主控台实时获取路网状态数据,并获得每一路口的局部状态和上一时间步的决策动作;
S2:根据绩效奖励分级评定机制构建全局奖励分解模块,将全局奖励分解为基本奖励和绩效奖励,并分别计算每个可变车道获得的奖励总和;
S3:根据区域内可变车道的数量,确定深度学习网络训练过程的状态空间、动作空间和全局奖励,构建全局混合网络;
S4:根据单个路口智能体网络和全局混合网络模型构建两个结构相同的神经网络,分别作为训练网络和目标网络,当训练网络和目标网络的相似度达到更新阈值时将两个神经网络的参数同步,经过不断迭代训练直至网络收敛;
S5:根据上述收敛后的神经网络模型计算备选控制动作的效用函数值,选取最优动作进行可变车道转向控制。
2.根据权利要求1所述的一种区域多路口可变车道协同控制决策方法,其特征在于,所述路网状态数据包括车道组左转方向车道组的平均排队长度、左转方向车道组的平均等待时间和左转方向车道组的平均延误时间,车道组直行方向车道组的平均排队长度、直行方向车道组的平均等待时间、直行方向车道组的平均延误时间,以及车辆位置映射矩阵。
3.根据权利要求1所述的一种区域多路口可变车道协同控制决策方法,其特征在于,根据可变车道的贡献建立绩效奖励分级评定机制来确认每个可变车道的绩效奖励,具体为对可变车道组的路段拥挤程度进行分级,所述基本奖励通过混合网络进行特异性分配。
4.根据权利要求3所述的一种区域多路口可变车道协同控制决策方法,其特征在于,所述绩效奖励的具体计算过程为:
5.根据权利要求2所述的一种区域多路口可变车道协同控制决策方法,其特征在于,所述状态空间通过路网状态数据联合表征区域内每一路口局部状态来确定,所述可变车道为左直可变车道,所述动作空间的可选项为直行或左转。
6.根据权利要求5所述的一种区域多路口可变车道协同控制决策方法,其特征在于,将所述可变车道抽象为智能体,以路口局部状态和上一时间步的执行动作作为相应智能体的输入,每一可变车道智能体将输入经过独立的深度学习网络计算得到自身的效用函数,所述全局混合网络根据区域内可变车道数量构建,将多个路口智能体的效用函数值作为全局混合网络的联合输入。
7.根据权利要求5所述的一种区域多路口可变车道协同控制决策方法,其特征在于,所述全局奖励的计算过程为:
8.根据权利要求1所述的一种区域多路口可变车道协同控制决策方法,其特征在于,在所述步骤S4的模型训练中,使用优先级经验回放算法加快训练时算法收敛速度,并针对经验缓冲池中的样本采用TD误差衡量样本重要性,将误差较大的样本设为高优先级,优先抽取高优先级的样本进行训练。
10.根据权利要求1所述的一种区域多路口可变车道协同控制决策方法,其特征在于,在所述步骤S5中具体包括:单独计算每一可变车道智能体采取不同决策动作的效用函数,采用效用函数值高的决策动作作为相应智能体下一时间步的执行动作,联合所有智能体的最优控制动作作为区域协同控制决策。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110677633.6A CN113487857B (zh) | 2021-06-18 | 2021-06-18 | 一种区域多路口可变车道协同控制决策方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110677633.6A CN113487857B (zh) | 2021-06-18 | 2021-06-18 | 一种区域多路口可变车道协同控制决策方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113487857A true CN113487857A (zh) | 2021-10-08 |
CN113487857B CN113487857B (zh) | 2022-10-18 |
Family
ID=77933997
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110677633.6A Active CN113487857B (zh) | 2021-06-18 | 2021-06-18 | 一种区域多路口可变车道协同控制决策方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113487857B (zh) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113643543A (zh) * | 2021-10-13 | 2021-11-12 | 北京大学深圳研究生院 | 一种具有隐私保护的交通流控制方法、交通信号控制系统 |
CN114463997A (zh) * | 2022-02-14 | 2022-05-10 | 中国科学院电工研究所 | 一种无信号灯交叉路口车辆协同控制方法及系统 |
CN115294784A (zh) * | 2022-06-21 | 2022-11-04 | 中国科学院自动化研究所 | 多路口交通信号灯控制方法、装置、电子设备及存储介质 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102867423A (zh) * | 2012-09-24 | 2013-01-09 | 东南大学 | 城市干道可变车道的协同控制方法 |
CN111915894A (zh) * | 2020-08-06 | 2020-11-10 | 北京航空航天大学 | 基于深度强化学习的可变车道及交通信号协同控制方法 |
CN112102627A (zh) * | 2020-10-27 | 2020-12-18 | 江苏广宇科技产业发展有限公司 | 一种基于车路协同的可变车道控制方法 |
-
2021
- 2021-06-18 CN CN202110677633.6A patent/CN113487857B/zh active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102867423A (zh) * | 2012-09-24 | 2013-01-09 | 东南大学 | 城市干道可变车道的协同控制方法 |
CN111915894A (zh) * | 2020-08-06 | 2020-11-10 | 北京航空航天大学 | 基于深度强化学习的可变车道及交通信号协同控制方法 |
CN112102627A (zh) * | 2020-10-27 | 2020-12-18 | 江苏广宇科技产业发展有限公司 | 一种基于车路协同的可变车道控制方法 |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113643543A (zh) * | 2021-10-13 | 2021-11-12 | 北京大学深圳研究生院 | 一种具有隐私保护的交通流控制方法、交通信号控制系统 |
CN113643543B (zh) * | 2021-10-13 | 2022-01-11 | 北京大学深圳研究生院 | 一种具有隐私保护的交通流控制方法、交通信号控制系统 |
CN114463997A (zh) * | 2022-02-14 | 2022-05-10 | 中国科学院电工研究所 | 一种无信号灯交叉路口车辆协同控制方法及系统 |
CN115294784A (zh) * | 2022-06-21 | 2022-11-04 | 中国科学院自动化研究所 | 多路口交通信号灯控制方法、装置、电子设备及存储介质 |
CN115294784B (zh) * | 2022-06-21 | 2024-05-14 | 中国科学院自动化研究所 | 多路口交通信号灯控制方法、装置、电子设备及存储介质 |
Also Published As
Publication number | Publication date |
---|---|
CN113487857B (zh) | 2022-10-18 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN113487857B (zh) | 一种区域多路口可变车道协同控制决策方法 | |
Liang et al. | A deep reinforcement learning network for traffic light cycle control | |
CN111696370B (zh) | 基于启发式深度q网络的交通灯控制方法 | |
CN111081065B (zh) | 路段混行条件下的智能车辆协同换道决策模型 | |
CN112365724B (zh) | 一种基于深度强化学习的连续交叉口信号协同控制方法 | |
Lin et al. | Traffic signal optimization based on fuzzy control and differential evolution algorithm | |
Mao et al. | A comparison of deep reinforcement learning models for isolated traffic signal control | |
WO2021051930A1 (zh) | 基于动作预测模型的信号调节方法、装置和计算机设备 | |
CN101901547A (zh) | 一种可变车道自适应控制方法 | |
CN109862532B (zh) | 轨道交通状态监测多传感器节点布局优化方法及系统 | |
CN113299107A (zh) | 一种多目标融合的交叉口动态车辆网联速度引导控制方法 | |
CN115359672B (zh) | 一种数据驱动与强化学习结合的交通区域边界控制方法 | |
CN111907523B (zh) | 一种基于模糊推理的车辆跟驰寻优控制方法 | |
CN113724507B (zh) | 基于深度强化学习的交通控制与车辆诱导协同方法和系统 | |
Ye et al. | Fairlight: Fairness-aware autonomous traffic signal control with hierarchical action space | |
CN115019523A (zh) | 基于最小化压力差的深度强化学习交通信号协调优化控制方法 | |
CN114444922A (zh) | 一种群体智能控制下的混合交通效能评估方法 | |
Chen et al. | Traffic signal optimization control method based on adaptive weighted averaged double deep Q network | |
CN110390398A (zh) | 在线学习方法 | |
CN116758768A (zh) | 一种全十字路口红绿灯动态调控方法 | |
CN111578961A (zh) | 基于领导者海豚群求解不确定条件车辆路径优化算法 | |
CN117227754A (zh) | 一种针对环岛通行的自动驾驶决策模型构建方法 | |
CN115083149B (zh) | 一种实时监测的强化学习可变时长信号灯控制方法 | |
CN116229720A (zh) | 一种智能车路系统的交通事故判别方法 | |
WO2018205245A1 (zh) | 一种用于车辆自动驾驶的策略网络模型的生成方法及装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |