CN113487857A - 一种区域多路口可变车道协同控制决策方法 - Google Patents

一种区域多路口可变车道协同控制决策方法 Download PDF

Info

Publication number
CN113487857A
CN113487857A CN202110677633.6A CN202110677633A CN113487857A CN 113487857 A CN113487857 A CN 113487857A CN 202110677633 A CN202110677633 A CN 202110677633A CN 113487857 A CN113487857 A CN 113487857A
Authority
CN
China
Prior art keywords
lane
network
variable
average
lanes
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202110677633.6A
Other languages
English (en)
Other versions
CN113487857B (zh
Inventor
夏莹杰
徐小高
朱思雨
张洁
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hangzhou Yuantiao Science And Technology Co ltd
Original Assignee
Hangzhou Yuantiao Science And Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hangzhou Yuantiao Science And Technology Co ltd filed Critical Hangzhou Yuantiao Science And Technology Co ltd
Priority to CN202110677633.6A priority Critical patent/CN113487857B/zh
Publication of CN113487857A publication Critical patent/CN113487857A/zh
Application granted granted Critical
Publication of CN113487857B publication Critical patent/CN113487857B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G08SIGNALLING
    • G08GTRAFFIC CONTROL SYSTEMS
    • G08G1/00Traffic control systems for road vehicles
    • G08G1/01Detecting movement of traffic to be counted or controlled
    • G08G1/0104Measuring and analyzing of parameters relative to traffic conditions
    • G08G1/0137Measuring and analyzing of parameters relative to traffic conditions for specific applications
    • G08G1/0145Measuring and analyzing of parameters relative to traffic conditions for specific applications for active traffic flow control
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • General Health & Medical Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Biomedical Technology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Chemical & Material Sciences (AREA)
  • Analytical Chemistry (AREA)
  • Traffic Control Systems (AREA)

Abstract

本发明涉及一种区域多路口可变车道协同控制决策方法,包括以下步骤:S1:主控台实时获取路网状态数据、每一路口的局部状态和上一时间步的决策动作;S2:根据绩效奖励分级评定机制构建全局奖励分解模块;S3:根据区域内可变车道的数量,确定深度学习网络训练过程的状态空间、动作空间和全局奖励,构建全局混合网络;S4:利用深度神经网络模型构建结构相同的训练网络和目标网络,并将两个神经网络的参数同步;S5:根据上述收敛后的神经网络模型计算备选控制动作的效用函数值,选取最优动作进行可变车道转向控制。本发明在决策时能够去中心化地执行自身的可变车道转向决策,降低了计算复杂度,保证区域多路口可变车道协同控制决策的实时性和有效性。

Description

一种区域多路口可变车道协同控制决策方法
技术领域
本发明属于深度学习技术领域,具体涉及一种区域多路口可变车道协同控制决策方法。
背景技术
随着我国机动车保有量的不断上升,道路交通供需矛盾日益加剧。为了缓解路口内各转向交通流分布不均衡造成道路资源浪费问题和道路拥堵情况,国内外开始广泛使用可变车道技术。
在专利公开号为CN109920244A的中国专利公开了一种可变车道实时控制系统及方法,通过设备监测子系统、车道状态子系统、方案研判子系统和方案决策子系统进行路网状态获取和可变车道转向控制决策。在该方法中,可变车道可以依据实时路网状态进行自适应变化,缓解交通拥堵,提升道路资源的利用率。
上述专利肃然能够缓解交通拥堵,提升道路资源的利用率,但随着可变车道数量的增多,仅通过规则决策方式难以覆盖巨大的路网状态空间,对道路资源的均衡优化问题所提升的性能是十分有限的。
在专利公开号为CN111915894A的中国专利公开了一种基于深度强化学习的可变车道及交通协同控制方法,通过采集交叉路口状态观测值,包括车辆数据、信号灯数据和可变车道数据进行预处理后输入神经网路进行训练,得到收敛模型用于计算后续可变车道的决策控制方案。该方法仅仅处理单个路口的可变车道转向决策问题,单点最优不一定能够保障全局最优。
若是将上述方法通过简单耦合实施在区域路网中,每个路口的决策网络可能会由于其他决策网络导致的外部环境动态性而无法快速收敛甚至无法收敛。
发明内容
为了解决上述问题,本发明提供了一种区域多路口可变车道协同控制决策方法,在强化学习算法的基础上采取集中式训练、分布式执行的策略,在决策时每一智能体能够去中心化地执行自身的可变车道转向决策,降低了计算复杂度,保证区域多路口可变车道协同控制决策的实时性和有效性。
本发明的技术方案如下所示:
一种区域多路口可变车道协同控制决策方法,包括以下步骤:
S1:由主控台实时获取路网状态数据,并获得每一路口的局部状态和上一时间步的决策动作;
S2:根据绩效奖励分级评定机制构建全局奖励分解模块,将全局奖励分解为基本奖励和绩效奖励,并分别计算每个可变车道获得的奖励总和;
S3:根据区域内可变车道的数量,确定深度学习网络训练过程的状态空间、动作空间和全局奖励,构建全局混合网络;
S4:根据单个路口智能体网络和全局混合网络模型构建两个结构相同的神经网络,分别作为训练网络和目标网络,当训练网络和目标网络的相似度达到更新阈值时将两个神经网络的参数同步,经过不断迭代训练直至网络收敛;
S5:根据上述收敛后的神经网络模型计算备选控制动作的效用函数值,选取最优动作进行可变车道转向控制。
优选的,所述路网状态数据包括车道组左转方向车道组的平均排队长度、左转方向车道组的平均等待时间和左转方向车道组的平均延误时间,车道组直行方向车道组的平均排队长度、直行方向车道组的平均等待时间、直行方向车道组的平均延误时间,以及车辆位置映射矩阵。
优选的,根据可变车道的贡献建立绩效奖励分级评定机制来确认每个可变车道的绩效奖励,具体为对可变车道组的路段拥挤程度进行分级,所述基本奖励通过混合网络进行特异性分配。
优选的,所述绩效奖励的具体计算过程为:
计算路口上一决策执行期间直行车道组平均排队长度比
Figure 100002_DEST_PATH_IMAGE001
和左转车道组平均长度比
Figure 100002_DEST_PATH_IMAGE002
,计算公式如下:
Figure 100002_DEST_PATH_IMAGE003
,
Figure 100002_DEST_PATH_IMAGE004
,其中,
Figure 100002_DEST_PATH_IMAGE005
为直行方向车道组的平均排队长度,
Figure 100002_DEST_PATH_IMAGE006
为左转方向车道组的平均排队长度,
Figure 100002_DEST_PATH_IMAGE007
为当前车道长度;
计算车道分级判定的阈值
Figure 100002_DEST_PATH_IMAGE008
,计算公式如下:
Figure 100002_DEST_PATH_IMAGE009
,其中,
Figure 100002_DEST_PATH_IMAGE010
为可变车道组绿灯期间可驶出最大的车流量,
Figure 100002_DEST_PATH_IMAGE011
为可变车道组可以容纳的最大车流量;
计算每一可变车道对应智能体获得的绩效奖励
Figure 100002_DEST_PATH_IMAGE012
,计算公式如下:
Figure 100002_DEST_PATH_IMAGE013
其中,
Figure 100002_DEST_PATH_IMAGE014
为第
Figure 100002_DEST_PATH_IMAGE015
个智能体获得的绩效奖励,
Figure 100002_DEST_PATH_IMAGE016
为上一决策执行期间直行车道组平均排队长度比,
Figure 100002_DEST_PATH_IMAGE017
为路口上一决策执行期间左转车道组平均长度比,
Figure 100002_DEST_PATH_IMAGE018
为车道分级判定的阈值,
Figure 100002_DEST_PATH_IMAGE019
为绩效奖励总和。
优选的,所述状态空间通过路网状态数据联合表征区域内每一路口局部状态来确定,所述可变车道为左直可变车道,所述动作空间的可选项为直行或左转。
优选的,将所述可变车道抽象为智能体,以路口局部状态和上一时间步的执行动作作为相应智能体的输入,每一可变车道智能体将输入经过独立的深度学习网络计算得到自身的效用函数,所述全局混合网络根据区域内可变车道数量构建,将多个路口智能体的效用函数值作为全局混合网络的联合输入。
优选的,所述全局奖励的计算过程为:
计算区域内所有车道上车辆的平均排队长度
Figure 100002_DEST_PATH_IMAGE020
,计算公式如下:
Figure 100002_DEST_PATH_IMAGE021
,其中,
Figure 100002_DEST_PATH_IMAGE022
为某一车道的排队长度,不再局限于直行或者左转车道组,
Figure 100002_DEST_PATH_IMAGE023
为车道总数量;
计算区域内所有车道上车辆的平均延误时间
Figure 100002_DEST_PATH_IMAGE024
,计算公式如下:
Figure 100002_DEST_PATH_IMAGE025
,其中,
Figure 100002_DEST_PATH_IMAGE026
为某一车道的延误时间,
Figure 784310DEST_PATH_IMAGE023
为车道总数量;
计算区域内所有车辆的平均停车等待时间
Figure 100002_DEST_PATH_IMAGE027
,计算公式如下:
Figure 100002_DEST_PATH_IMAGE028
,其中,
Figure 100002_DEST_PATH_IMAGE029
为某一辆车的停车等待时间,当一辆车的速度小于
Figure 100002_DEST_PATH_IMAGE030
时,停车等待时间开始累积,
Figure 100002_DEST_PATH_IMAGE031
为车辆总数量;
计算区域内驶离相应车道的平均车辆数
Figure 100002_DEST_PATH_IMAGE032
,计算公式如下:
Figure 100002_DEST_PATH_IMAGE033
,其中,
Figure 100002_DEST_PATH_IMAGE034
是某一车道驶出的车辆数,
Figure 787906DEST_PATH_IMAGE023
为车道总数量。
计算区域内驶离相应车道的车辆平均速度
Figure 100002_DEST_PATH_IMAGE035
,计算公式如下:
Figure 100002_DEST_PATH_IMAGE036
,其中,
Figure 100002_DEST_PATH_IMAGE037
表示某一车辆的驶出车道的平均速度,
Figure 839432DEST_PATH_IMAGE031
为车辆总数量。
计算全局奖励值
Figure 100002_DEST_PATH_IMAGE038
,计算公式如下:
Figure 100002_DEST_PATH_IMAGE039
,其中
Figure 100002_DEST_PATH_IMAGE040
为权重值。
优选的,在所述步骤S4的模型训练中,使用优先级经验回放算法加快训练时算法收敛速度,并针对经验缓冲池中的样本采用TD误差衡量样本重要性,将误差较大的样本设为高优先级,优先抽取高优先级的样本进行训练。
优选的,所述训练网络和目标网络的相似度采用网络模型对应权重的欧几里得距离进行计算,计算公式为:
Figure 100002_DEST_PATH_IMAGE041
,其中,
Figure 100002_DEST_PATH_IMAGE042
为目标网络的网络权重,
Figure 100002_DEST_PATH_IMAGE043
为训练网络的网络权重。
优选的,在所述步骤S5中具体包括:单独计算每一可变车道智能体采取不同决策动作的效用函数,采用效用函数值高的决策动作作为相应智能体下一时间步的执行动作,联合所有智能体的最优控制动作作为区域协同控制决策。
本发明的技术效果为:
本发明利用训练深度神经网络进行区域多路口可变车道协同控制决策方法学习,能够在复杂的非线性环境中取得良好的学习性能,且提高决策了效率。
本发明还在强化学习算法的基础上采取集中式训练的策略,训练时利用优化全局奖励函数优化联合动作值函数,获得以区域决策最优为目标的决策模型,每一智能体通过神经网络反向传播的基本奖励和额外的绩效奖励的双重激励进行学习,从而得到自身的“最佳”策略。
本发明还在在强化学习算法的基础上采取分布式执行的策略,决策时每一智能体能够去中心化地执行自身的可变车道转向决策,降低了计算复杂度,且能够保证区域多路口可变车道协同控制决策的实时性和有效性。
附图说明
图1为本发明提供的方法的转向控制决策流程图。
图2为本发明提供的方法的训练流程图。
图3为本发明提供的方法的整体框架。
具体实施方式
下面将结合说明书附图对本发明的实施例进行详细说明。
一种区域多路口可变车道协同控制决策方法,包括以下步骤:
S1:由主控台实时获取路网状态数据,并获得每一路口的局部状态和上一时间步的决策动作;
S2:根据绩效奖励分级评定机制构建全局奖励分解模块,将全局奖励分解为基本奖励和绩效奖励,并分别计算每个可变车道获得的奖励总和;
S3:根据区域内可变车道的数量,确定深度学习网络训练过程的状态空间、动作空间和全局奖励,构建全局混合网络;
S4:利用深度神经网络模型构建两个结构相同的神经网络,分别作为训练网络和目标网络,当训练网络和目标网络的相似度达到更新阈值时将两个神经网络的参数同步,经过不断迭代训练直至网络收敛;
S5:根据上述收敛后的神经网络模型计算备选控制动作的效用函数值,选取最优动作进行可变车道转向控制。
在步骤S1中,主控台对路口状态的实时观测的路网状态数据如下:车道组左转方向车道组的平均排队长度
Figure DEST_PATH_IMAGE044
、左转方向车道组的平均等待时间
Figure DEST_PATH_IMAGE045
、左转方向车道组的平均延误时间
Figure DEST_PATH_IMAGE046
;车道组直行方向车道组的平均排队长度
Figure DEST_PATH_IMAGE047
、直行方向车道组的平均等待时间
Figure DEST_PATH_IMAGE048
、直行方向车道组的平均延误时间
Figure DEST_PATH_IMAGE049
;车辆位置映射矩阵
Figure DEST_PATH_IMAGE050
,并获取上一时间步的决策动作
Figure DEST_PATH_IMAGE051
在步骤2中,将全局奖励R分解为两个部分:基本奖励
Figure DEST_PATH_IMAGE052
和绩效奖励
Figure DEST_PATH_IMAGE053
。计算方式如下:
Figure DEST_PATH_IMAGE054
其中
Figure DEST_PATH_IMAGE055
为绩效奖励占全局奖励的比重。
作为本发明的一个具体的实施例,
Figure DEST_PATH_IMAGE056
Figure DEST_PATH_IMAGE057
,根据上面的计算公式可以得到绩效奖励
Figure DEST_PATH_IMAGE058
Figure DEST_PATH_IMAGE059
上述基本奖励通过混合网络进行特异性分配,每一个可变车道智能体获得的基本奖励记为
Figure DEST_PATH_IMAGE060
,在一个具体实施例中,假设可变车道数量
Figure DEST_PATH_IMAGE061
Figure DEST_PATH_IMAGE062
Figure DEST_PATH_IMAGE063
Figure DEST_PATH_IMAGE064
Figure DEST_PATH_IMAGE065
Figure DEST_PATH_IMAGE066
上述绩效奖励用于激励区域协同控制过程中贡献较大的可变车道智能体,根据可变车道智能体的贡献建立绩效奖励分级评定机制,由于对车流饱和道路的决策对整体路网状态的影响大于车流未饱和道路,所以对可变车道组的路段拥挤程度进行分级。
绩效奖励的具体计算过程为:
①、计算路口上一决策执行期间直行车道组平均排队长度比
Figure 303430DEST_PATH_IMAGE001
和左转车道组平均长度比
Figure 733275DEST_PATH_IMAGE002
,计算方式如下:
Figure 37217DEST_PATH_IMAGE003
,
Figure 312341DEST_PATH_IMAGE004
,其中,
Figure DEST_PATH_IMAGE067
为直行方向车道组的平均排队长度,
Figure 18129DEST_PATH_IMAGE006
为左转方向车道组的平均排队长度,
Figure 353295DEST_PATH_IMAGE007
为当前车道长度。
作为本发明的一个具体实施例,其中,
Figure DEST_PATH_IMAGE068
Figure DEST_PATH_IMAGE069
Figure DEST_PATH_IMAGE070
。根据上述计算公式可以得到
Figure DEST_PATH_IMAGE071
Figure DEST_PATH_IMAGE072
②、计算车道分级判定的阈值
Figure 206850DEST_PATH_IMAGE008
,计算方式如下:
Figure 347982DEST_PATH_IMAGE009
,其中,
Figure 845959DEST_PATH_IMAGE010
为可变车道组绿灯期间可驶出最大的车流量,
Figure 617606DEST_PATH_IMAGE011
为可变车道组可以容纳的最大车流量。
作为本发明的一个具体实施例,
Figure DEST_PATH_IMAGE073
Figure DEST_PATH_IMAGE074
,根据上面的计算公式可以得到
Figure DEST_PATH_IMAGE075
③、计算每一可变车道对应智能体获得的绩效奖励
Figure 684089DEST_PATH_IMAGE012
,计算方式如下:
Figure DEST_PATH_IMAGE076
其中,
Figure DEST_PATH_IMAGE077
为第
Figure DEST_PATH_IMAGE078
个智能体获得的绩效奖励,
Figure DEST_PATH_IMAGE079
为上一决策执行期间直行车道组平均排队长度比,
Figure DEST_PATH_IMAGE080
为路口上一决策执行期间左转车道组平均长度比,
Figure DEST_PATH_IMAGE081
为车道分级判定的阈值,
Figure DEST_PATH_IMAGE082
为绩效奖励总和。
作为本发明的一个具体实施例,根据上述内容提到的数值,
Figure 815862DEST_PATH_IMAGE071
Figure DEST_PATH_IMAGE083
Figure 168346DEST_PATH_IMAGE075
Figure DEST_PATH_IMAGE084
。根据上面的计算公式可以得到
Figure DEST_PATH_IMAGE085
最终计算每个智能体获得的奖励总和
Figure DEST_PATH_IMAGE086
。计算方式如下:
Figure DEST_PATH_IMAGE087
在一个具体实施例中,根据上述内容提到的数值,计算其中一个可变车道智能体的奖励总和:
Figure DEST_PATH_IMAGE088
在步骤S3中,状态空间通过主控台观测路网状态得到的路网状态数据,联合表征路口局部状态来最终来确定,具体为:
Figure DEST_PATH_IMAGE089
,其中,
Figure DEST_PATH_IMAGE090
为信号周期数。
在本步骤中,将每一可变车道抽象为一个智能体,以路口局部状态
Figure DEST_PATH_IMAGE091
和上一时间步的执行动作
Figure DEST_PATH_IMAGE092
作为相应智能体的输入。
作为本发明的一个具体实施例,
Figure DEST_PATH_IMAGE093
=0,表示上一时间步执行动作为左转,
Figure DEST_PATH_IMAGE094
每一可变车道智能体将输入
Figure DEST_PATH_IMAGE095
经过独立的深度学习网络计算得到自身的效用函数
Figure DEST_PATH_IMAGE096
,在本实施例中,
Figure DEST_PATH_IMAGE097
根据区域内可变车道数量构建全局混合网络,将多个路口智能体的效用函数值作为混合网络的联合输入
Figure DEST_PATH_IMAGE098
,其中,
Figure DEST_PATH_IMAGE099
表示可变车道数量。
本实施例中,假设可变车道数量
Figure DEST_PATH_IMAGE100
Figure DEST_PATH_IMAGE101
Figure DEST_PATH_IMAGE102
Figure DEST_PATH_IMAGE103
5,
Figure DEST_PATH_IMAGE104
Figure DEST_PATH_IMAGE105
本实施例中,可变车道为左直可变车道,动作空间仅有两个可选项:直行或者左转,如下所示:
Figure DEST_PATH_IMAGE106
如图1所示,转向控制决策流程为:
1、获取路网状态数据;
2、计算下一状态中每一车道智能体的效用函数值;
3、计算全局效用函数值;
4、通过神经网络反向传播计算每一车道的基本奖励值;
5、通过全局奖励分解模块计算每一车道的绩效奖励值;
6、计算当前备选动作左转和直行的效用函数值;
7、判断左转的效用函数至是否大于直行的效用函数值,是则左转,否则直行。
而全局奖励需要综合考虑整个区域的交通状况,所选取的各个指标如下:
①、计算区域内所有车道上车辆的平均排队长度
Figure 674676DEST_PATH_IMAGE020
,计算公式为:
Figure 174928DEST_PATH_IMAGE021
,其中,
Figure 595545DEST_PATH_IMAGE022
为某一车道的排队长度,不再局限于直行或者左转车道组,
Figure 133361DEST_PATH_IMAGE023
为车道总数量。
②、计算区域内所有车道上车辆的平均延误时间
Figure 246810DEST_PATH_IMAGE024
,计算公式为:
Figure 172041DEST_PATH_IMAGE025
,其中,
Figure 458666DEST_PATH_IMAGE026
为某一车道的延误时间,
Figure 520163DEST_PATH_IMAGE023
为车道总数量。
③、计算区域内所有车辆的平均停车等待时间
Figure 804514DEST_PATH_IMAGE027
,计算公式为:
Figure 279357DEST_PATH_IMAGE028
,其中,
Figure 307356DEST_PATH_IMAGE029
为某一辆车的停车等待时间,当一辆车的速度小于
Figure 551256DEST_PATH_IMAGE030
时,停车等待时间开始累积,
Figure 740929DEST_PATH_IMAGE031
为车辆总数量。
④、计算区域内驶离相应车道的平均车辆数
Figure 640751DEST_PATH_IMAGE032
,计算公式为:
Figure 269179DEST_PATH_IMAGE033
,其中,
Figure 570847DEST_PATH_IMAGE034
是某一车道驶出的车辆数,
Figure 931421DEST_PATH_IMAGE023
为车道总数量。
⑤、计算区域内驶离相应车道的车辆平均速度
Figure 380857DEST_PATH_IMAGE035
,计算公式为:
Figure 750659DEST_PATH_IMAGE036
,其中,
Figure 641254DEST_PATH_IMAGE037
表示某一车辆的驶出车道的平均速度,
Figure 500626DEST_PATH_IMAGE031
为车辆总数量。
综合上述指标,对其分配不同权重,计算得到全局奖励值
Figure DEST_PATH_IMAGE107
,计算公式为:
Figure DEST_PATH_IMAGE108
。本实施例对上述权重预设如下:
Figure DEST_PATH_IMAGE109
Figure DEST_PATH_IMAGE110
Figure DEST_PATH_IMAGE111
Figure DEST_PATH_IMAGE112
Figure DEST_PATH_IMAGE113
在一个具体的实例中:
Figure DEST_PATH_IMAGE114
Figure DEST_PATH_IMAGE115
Figure DEST_PATH_IMAGE116
Figure DEST_PATH_IMAGE117
Figure DEST_PATH_IMAGE118
。根据上面的计算公式可以得到
Figure DEST_PATH_IMAGE119
在步骤4中,对步骤3提出的深度网络模型,提出优先级经验回放算法加快训练时算法收敛速度。对于经验缓冲池中的样本采用TD误差衡量样本重要性,将误差较大的样本设为高优先级,优先抽取高优先级的样本进行训练。
模型的具体训练过程如图2所示,包括:
1、获取路网状态数据;
2、构建全局奖励分解模块;
3、确定状态空间、动作空间和全局奖励;
4、构建训练网络和目标网络;
5、优先级经验回放抽取训练样本;
6、判断模型是否收敛,是则结束步骤,否则继续判断是否达到更新阈值,是则同步目标网络和训练网络的参数并返回第5步,否则直接返回第5步。
在本实施例中,网络相似度采用网络模型对应权重的欧几里得距离进行计算,计算公式为:
Figure DEST_PATH_IMAGE120
。其中,
Figure DEST_PATH_IMAGE121
为目标网络的网络权重,
Figure DEST_PATH_IMAGE122
为训练网络的网络权重。记录过去时间每一时间的网络相似度,若当前时间步的网络相似度小于最大值的一半时,将两个神经网络的参数同步。
在一个具体实例中,网络相似度记录列表为
Figure DEST_PATH_IMAGE123
,则在当前时间步网络相似度为
Figure DEST_PATH_IMAGE124
时,将两个网络的参数同步。
本实施例中,采用经验回放机制提供深度网络的训练样本,首先将智能体与环境交互产生的经验放入缓冲池,神经网络训练过程中根据经验样本的优先级进行抽取。
由于误差较大的经验样本说明训练网络可优化的空间更大,采取目标网络损失
Figure DEST_PATH_IMAGE125
作为衡量训练样本优先级的指标之一;为防止
Figure 750209DEST_PATH_IMAGE125
值较小的样本抽取概率过低甚至整个训练过程都无法抽取到的情况出现,引入抽取次数
Figure 986018DEST_PATH_IMAGE090
作为衡量训练样本优先级的另一指标。
计算目标网络效用函数
Figure DEST_PATH_IMAGE126
,其中,
Figure DEST_PATH_IMAGE127
为当前联合状态,
Figure DEST_PATH_IMAGE128
为当前联合动作,
Figure 59016DEST_PATH_IMAGE099
为可变车道数量。
计算训练网络效用函数
Figure DEST_PATH_IMAGE129
,其中,
Figure DEST_PATH_IMAGE130
为采取联合动作
Figure DEST_PATH_IMAGE131
之后的联合状态,
Figure DEST_PATH_IMAGE132
为下一联合动作,
Figure DEST_PATH_IMAGE133
为区域路网由联合状态
Figure DEST_PATH_IMAGE134
转移至联合状态
Figure DEST_PATH_IMAGE135
获得的全局奖励值,
Figure DEST_PATH_IMAGE136
为对于训练网络效用函数值的接纳程度,
Figure 213923DEST_PATH_IMAGE099
为可变车道数量。
计算训练样本的
Figure 372372DEST_PATH_IMAGE125
,计算方式如下:
Figure DEST_PATH_IMAGE137
,其中,
Figure DEST_PATH_IMAGE138
为目标网络效用函数值,
Figure DEST_PATH_IMAGE139
为训练网络效用函数值。
在一个具体的实例中,
Figure DEST_PATH_IMAGE140
Figure DEST_PATH_IMAGE141
,根据上述计算公式计算获得
Figure DEST_PATH_IMAGE142
计算训练样本的抽取次数
Figure 211540DEST_PATH_IMAGE090
,由于不同经验的目标网络损失
Figure 76727DEST_PATH_IMAGE125
数值差距较大,为了更好地整合两个指标,将其转变为无量纲的排序量。通过
Figure DEST_PATH_IMAGE143
获取损失
Figure 277902DEST_PATH_IMAGE125
在递增序列中的位置;通过
Figure DEST_PATH_IMAGE144
获取抽取次数
Figure 923647DEST_PATH_IMAGE090
在递减序列中的位置。
计算优先级
Figure DEST_PATH_IMAGE145
,计算公式为:
Figure DEST_PATH_IMAGE146
其中,
Figure DEST_PATH_IMAGE147
为两个指标整合之后的递增序列中的位置,
Figure DEST_PATH_IMAGE148
为缓冲池里训练样本数量,
Figure DEST_PATH_IMAGE149
为概率的偏移量用以防止
Figure DEST_PATH_IMAGE150
过小而样本被抽中的概率过低。
在一个具体的实例中,本发明中
Figure DEST_PATH_IMAGE151
预设值为0.0,
Figure DEST_PATH_IMAGE152
,假设缓冲池里的训练样本数量
Figure DEST_PATH_IMAGE153
Figure DEST_PATH_IMAGE154
Figure DEST_PATH_IMAGE155
Figure DEST_PATH_IMAGE156
Figure DEST_PATH_IMAGE157
=3,
Figure DEST_PATH_IMAGE158
Figure DEST_PATH_IMAGE159
Figure DEST_PATH_IMAGE160
,根据上述计算公式得出
Figure DEST_PATH_IMAGE161
经过不断迭代训练直至网络收敛。
在步骤S5中,为了降低计算时间复杂度,单独计算每一可变车道智能体采取不同决策动作的效用函数,效用函数值越高代表着该控制动作进行交通疏导的效果越好,采取该控制动作作为相应智能体下一时间步的执行动作,联合所有智能体的最优控制动作作为区域协同控制决策,其中为区域内可变车道总数量。
步骤S5中的效用函数值的计算公式为:
Figure DEST_PATH_IMAGE162
本发明提供的如上所述的方法,使用深度神经网络学习可变车道转向控制方法,针对区域多路口可变车道协同控制问题,使用基本奖励加绩效奖励的全局奖励分解策略,进行集中式训练获得以区域决策最优为目标的决策模型;每一智能体分布式执行自身的可变车道转向决策。该方法降低了计算复杂度,保证决策的实时性;有效减少道路资源浪费的问题,减少了交通拥堵。
本发明提供的方法的整体框架如图3所示。
最后应说明的是:以上所述实施例,仅为本发明的具体实施方式,用以说明本发明的技术方案,而非对其限制,本发明的保护范围并不局限于此,尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,其依然可以对前述实施例所记载的技术方案进行修改或可轻易想到变化,或者对其中部分技术特征进行等同替换;而这些修改、变化或者替换,并不使相应技术方案的本质脱离本发明实施例技术方案的精神和范围。都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应所述以权利要求的保护范围为准。

Claims (10)

1.一种区域多路口可变车道协同控制决策方法,其特征在于,包括以下步骤:
S1:由主控台实时获取路网状态数据,并获得每一路口的局部状态和上一时间步的决策动作;
S2:根据绩效奖励分级评定机制构建全局奖励分解模块,将全局奖励分解为基本奖励和绩效奖励,并分别计算每个可变车道获得的奖励总和;
S3:根据区域内可变车道的数量,确定深度学习网络训练过程的状态空间、动作空间和全局奖励,构建全局混合网络;
S4:根据单个路口智能体网络和全局混合网络模型构建两个结构相同的神经网络,分别作为训练网络和目标网络,当训练网络和目标网络的相似度达到更新阈值时将两个神经网络的参数同步,经过不断迭代训练直至网络收敛;
S5:根据上述收敛后的神经网络模型计算备选控制动作的效用函数值,选取最优动作进行可变车道转向控制。
2.根据权利要求1所述的一种区域多路口可变车道协同控制决策方法,其特征在于,所述路网状态数据包括车道组左转方向车道组的平均排队长度、左转方向车道组的平均等待时间和左转方向车道组的平均延误时间,车道组直行方向车道组的平均排队长度、直行方向车道组的平均等待时间、直行方向车道组的平均延误时间,以及车辆位置映射矩阵。
3.根据权利要求1所述的一种区域多路口可变车道协同控制决策方法,其特征在于,根据可变车道的贡献建立绩效奖励分级评定机制来确认每个可变车道的绩效奖励,具体为对可变车道组的路段拥挤程度进行分级,所述基本奖励通过混合网络进行特异性分配。
4.根据权利要求3所述的一种区域多路口可变车道协同控制决策方法,其特征在于,所述绩效奖励的具体计算过程为:
计算路口上一决策执行期间直行车道组平均排队长度比
Figure DEST_PATH_IMAGE001
和左转车道组平均长度比
Figure DEST_PATH_IMAGE002
,计算公式如下:
Figure DEST_PATH_IMAGE003
,
Figure DEST_PATH_IMAGE004
,其中,
Figure DEST_PATH_IMAGE005
为直行方向车道组的平均排队长度,
Figure DEST_PATH_IMAGE006
为左转方向车道组的平均排队长度,
Figure DEST_PATH_IMAGE007
为当前车道长度;
计算车道分级判定的阈值
Figure DEST_PATH_IMAGE008
,计算公式如下:
Figure DEST_PATH_IMAGE009
,其中,
Figure DEST_PATH_IMAGE010
为可变车道组绿灯期间可驶出最大的车流量,
Figure DEST_PATH_IMAGE011
为可变车道组可以容纳的最大车流量;
计算每一可变车道对应智能体获得的绩效奖励
Figure DEST_PATH_IMAGE012
,计算公式如下:
Figure DEST_PATH_IMAGE013
其中,
Figure DEST_PATH_IMAGE014
为第
Figure DEST_PATH_IMAGE015
个智能体获得的绩效奖励,
Figure DEST_PATH_IMAGE016
为上一决策执行期间直行车道组平均排队长度比,
Figure DEST_PATH_IMAGE017
为路口上一决策执行期间左转车道组平均长度比,
Figure DEST_PATH_IMAGE018
为车道分级判定的阈值,
Figure DEST_PATH_IMAGE019
为绩效奖励总和。
5.根据权利要求2所述的一种区域多路口可变车道协同控制决策方法,其特征在于,所述状态空间通过路网状态数据联合表征区域内每一路口局部状态来确定,所述可变车道为左直可变车道,所述动作空间的可选项为直行或左转。
6.根据权利要求5所述的一种区域多路口可变车道协同控制决策方法,其特征在于,将所述可变车道抽象为智能体,以路口局部状态和上一时间步的执行动作作为相应智能体的输入,每一可变车道智能体将输入经过独立的深度学习网络计算得到自身的效用函数,所述全局混合网络根据区域内可变车道数量构建,将多个路口智能体的效用函数值作为全局混合网络的联合输入。
7.根据权利要求5所述的一种区域多路口可变车道协同控制决策方法,其特征在于,所述全局奖励的计算过程为:
计算区域内所有车道上车辆的平均排队长度
Figure DEST_PATH_IMAGE020
,计算公式如下:
Figure DEST_PATH_IMAGE021
,其中,
Figure DEST_PATH_IMAGE022
为某一车道的排队长度,不再局限于直行或者左转车道组,
Figure DEST_PATH_IMAGE023
为车道总数量;
计算区域内所有车道上车辆的平均延误时间
Figure DEST_PATH_IMAGE024
,计算公式如下:
Figure DEST_PATH_IMAGE025
,其中,
Figure DEST_PATH_IMAGE026
为某一车道的延误时间,
Figure 902506DEST_PATH_IMAGE023
为车道总数量;
计算区域内所有车辆的平均停车等待时间
Figure DEST_PATH_IMAGE027
,计算公式如下:
Figure DEST_PATH_IMAGE028
,其中,
Figure DEST_PATH_IMAGE029
为某一辆车的停车等待时间,当一辆车的速度小于
Figure DEST_PATH_IMAGE030
时,停车等待时间开始累积,
Figure DEST_PATH_IMAGE031
为车辆总数量;
计算区域内驶离相应车道的平均车辆数
Figure DEST_PATH_IMAGE032
,计算公式如下:
Figure DEST_PATH_IMAGE033
,其中,
Figure DEST_PATH_IMAGE034
是某一车道驶出的车辆数,
Figure 353604DEST_PATH_IMAGE023
为车道总数量;
计算区域内驶离相应车道的车辆平均速度
Figure DEST_PATH_IMAGE035
,计算公式如下:
Figure DEST_PATH_IMAGE036
,其中,
Figure DEST_PATH_IMAGE037
表示某一车辆的驶出车道的平均速度,
Figure 147116DEST_PATH_IMAGE031
为车辆总数量;
计算全局奖励值
Figure DEST_PATH_IMAGE038
,计算公式如下:
Figure DEST_PATH_IMAGE039
其中
Figure DEST_PATH_IMAGE040
为权重值。
8.根据权利要求1所述的一种区域多路口可变车道协同控制决策方法,其特征在于,在所述步骤S4的模型训练中,使用优先级经验回放算法加快训练时算法收敛速度,并针对经验缓冲池中的样本采用TD误差衡量样本重要性,将误差较大的样本设为高优先级,优先抽取高优先级的样本进行训练。
9.根据权利要求1所述的一种区域多路口可变车道协同控制决策方法,其特征在于,所述训练网络和目标网络的相似度采用网络模型对应权重的欧几里得距离进行计算,计算公式为:
Figure DEST_PATH_IMAGE041
,其中,
Figure DEST_PATH_IMAGE042
为目标网络的网络权重,
Figure DEST_PATH_IMAGE043
为训练网络的网络权重。
10.根据权利要求1所述的一种区域多路口可变车道协同控制决策方法,其特征在于,在所述步骤S5中具体包括:单独计算每一可变车道智能体采取不同决策动作的效用函数,采用效用函数值高的决策动作作为相应智能体下一时间步的执行动作,联合所有智能体的最优控制动作作为区域协同控制决策。
CN202110677633.6A 2021-06-18 2021-06-18 一种区域多路口可变车道协同控制决策方法 Active CN113487857B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110677633.6A CN113487857B (zh) 2021-06-18 2021-06-18 一种区域多路口可变车道协同控制决策方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110677633.6A CN113487857B (zh) 2021-06-18 2021-06-18 一种区域多路口可变车道协同控制决策方法

Publications (2)

Publication Number Publication Date
CN113487857A true CN113487857A (zh) 2021-10-08
CN113487857B CN113487857B (zh) 2022-10-18

Family

ID=77933997

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110677633.6A Active CN113487857B (zh) 2021-06-18 2021-06-18 一种区域多路口可变车道协同控制决策方法

Country Status (1)

Country Link
CN (1) CN113487857B (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113643543A (zh) * 2021-10-13 2021-11-12 北京大学深圳研究生院 一种具有隐私保护的交通流控制方法、交通信号控制系统
CN114463997A (zh) * 2022-02-14 2022-05-10 中国科学院电工研究所 一种无信号灯交叉路口车辆协同控制方法及系统
CN115294784A (zh) * 2022-06-21 2022-11-04 中国科学院自动化研究所 多路口交通信号灯控制方法、装置、电子设备及存储介质

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102867423A (zh) * 2012-09-24 2013-01-09 东南大学 城市干道可变车道的协同控制方法
CN111915894A (zh) * 2020-08-06 2020-11-10 北京航空航天大学 基于深度强化学习的可变车道及交通信号协同控制方法
CN112102627A (zh) * 2020-10-27 2020-12-18 江苏广宇科技产业发展有限公司 一种基于车路协同的可变车道控制方法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102867423A (zh) * 2012-09-24 2013-01-09 东南大学 城市干道可变车道的协同控制方法
CN111915894A (zh) * 2020-08-06 2020-11-10 北京航空航天大学 基于深度强化学习的可变车道及交通信号协同控制方法
CN112102627A (zh) * 2020-10-27 2020-12-18 江苏广宇科技产业发展有限公司 一种基于车路协同的可变车道控制方法

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113643543A (zh) * 2021-10-13 2021-11-12 北京大学深圳研究生院 一种具有隐私保护的交通流控制方法、交通信号控制系统
CN113643543B (zh) * 2021-10-13 2022-01-11 北京大学深圳研究生院 一种具有隐私保护的交通流控制方法、交通信号控制系统
CN114463997A (zh) * 2022-02-14 2022-05-10 中国科学院电工研究所 一种无信号灯交叉路口车辆协同控制方法及系统
CN115294784A (zh) * 2022-06-21 2022-11-04 中国科学院自动化研究所 多路口交通信号灯控制方法、装置、电子设备及存储介质
CN115294784B (zh) * 2022-06-21 2024-05-14 中国科学院自动化研究所 多路口交通信号灯控制方法、装置、电子设备及存储介质

Also Published As

Publication number Publication date
CN113487857B (zh) 2022-10-18

Similar Documents

Publication Publication Date Title
CN113487857B (zh) 一种区域多路口可变车道协同控制决策方法
Liang et al. A deep reinforcement learning network for traffic light cycle control
CN111696370B (zh) 基于启发式深度q网络的交通灯控制方法
CN111081065B (zh) 路段混行条件下的智能车辆协同换道决策模型
CN112365724B (zh) 一种基于深度强化学习的连续交叉口信号协同控制方法
Lin et al. Traffic signal optimization based on fuzzy control and differential evolution algorithm
Mao et al. A comparison of deep reinforcement learning models for isolated traffic signal control
WO2021051930A1 (zh) 基于动作预测模型的信号调节方法、装置和计算机设备
CN101901547A (zh) 一种可变车道自适应控制方法
CN109862532B (zh) 轨道交通状态监测多传感器节点布局优化方法及系统
CN113299107A (zh) 一种多目标融合的交叉口动态车辆网联速度引导控制方法
CN115359672B (zh) 一种数据驱动与强化学习结合的交通区域边界控制方法
CN111907523B (zh) 一种基于模糊推理的车辆跟驰寻优控制方法
CN113724507B (zh) 基于深度强化学习的交通控制与车辆诱导协同方法和系统
Ye et al. Fairlight: Fairness-aware autonomous traffic signal control with hierarchical action space
CN115019523A (zh) 基于最小化压力差的深度强化学习交通信号协调优化控制方法
CN114444922A (zh) 一种群体智能控制下的混合交通效能评估方法
Chen et al. Traffic signal optimization control method based on adaptive weighted averaged double deep Q network
CN110390398A (zh) 在线学习方法
CN116758768A (zh) 一种全十字路口红绿灯动态调控方法
CN111578961A (zh) 基于领导者海豚群求解不确定条件车辆路径优化算法
CN117227754A (zh) 一种针对环岛通行的自动驾驶决策模型构建方法
CN115083149B (zh) 一种实时监测的强化学习可变时长信号灯控制方法
CN116229720A (zh) 一种智能车路系统的交通事故判别方法
WO2018205245A1 (zh) 一种用于车辆自动驾驶的策略网络模型的生成方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant