CN114241778A - 高速公路网联车协同匝道汇入多目标优化控制方法和系统 - Google Patents

高速公路网联车协同匝道汇入多目标优化控制方法和系统 Download PDF

Info

Publication number
CN114241778A
CN114241778A CN202210164445.8A CN202210164445A CN114241778A CN 114241778 A CN114241778 A CN 114241778A CN 202210164445 A CN202210164445 A CN 202210164445A CN 114241778 A CN114241778 A CN 114241778A
Authority
CN
China
Prior art keywords
vehicle
ramp
vehicles
target
merging
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202210164445.8A
Other languages
English (en)
Other versions
CN114241778B (zh
Inventor
董瀚萱
丁璠
张海龙
谭华春
叶林辉
戴昀琦
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Southeast University
Original Assignee
Southeast University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Southeast University filed Critical Southeast University
Priority to CN202210164445.8A priority Critical patent/CN114241778B/zh
Publication of CN114241778A publication Critical patent/CN114241778A/zh
Application granted granted Critical
Publication of CN114241778B publication Critical patent/CN114241778B/zh
Priority to PCT/CN2022/102755 priority patent/WO2023159841A1/zh
Priority to US18/112,541 priority patent/US20230267829A1/en
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G08SIGNALLING
    • G08GTRAFFIC CONTROL SYSTEMS
    • G08G1/00Traffic control systems for road vehicles
    • G08G1/01Detecting movement of traffic to be counted or controlled
    • G08G1/0104Measuring and analyzing of parameters relative to traffic conditions
    • G08G1/0125Traffic data processing
    • GPHYSICS
    • G08SIGNALLING
    • G08GTRAFFIC CONTROL SYSTEMS
    • G08G1/00Traffic control systems for road vehicles
    • G08G1/01Detecting movement of traffic to be counted or controlled
    • G08G1/0104Measuring and analyzing of parameters relative to traffic conditions
    • G08G1/0137Measuring and analyzing of parameters relative to traffic conditions for specific applications
    • GPHYSICS
    • G08SIGNALLING
    • G08GTRAFFIC CONTROL SYSTEMS
    • G08G1/00Traffic control systems for road vehicles
    • G08G1/16Anti-collision systems
    • G08G1/166Anti-collision systems for active traffic, e.g. moving vehicles, pedestrians, bikes

Landscapes

  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Chemical & Material Sciences (AREA)
  • Analytical Chemistry (AREA)
  • Traffic Control Systems (AREA)

Abstract

高速公路网联车协同匝道汇入多目标优化控制方法和系统,首先采集控制区域车辆的状态数据,随后根据匝道汇入车辆位置决定控制开始的时间与被控车辆的选择,通过数据传输模块将信息传入交通控制模块,基于人工智能的匝道汇入多目标控制模型通过协匝道控制区域内的车辆行驶轨迹,在完成匝道汇入的同时保证道路整体交通高效、安全、节能运行。与传统方法相比,本发明极大地促进了匝道车辆的汇入,并且区别于其他方法将匝道汇入问题转化为车辆排序问题的缺陷,极大的提高了匝道汇入的效率,并且保证主线和匝道的通行效率与通行安全,减少了控制车辆的能耗损失,实现了高速系统经济效益的最大化。

Description

高速公路网联车协同匝道汇入多目标优化控制方法和系统
技术领域
本发明属于智能交通车路协同技术领域,具体为高速公路网联车协同匝道汇入多目标优化控制方法和系统。
背景技术
随着国民经济的飞速增长及城市化进程的不断推动,区域贸易增多促使城市间出行迅猛增长,为高速公路的高效、安全运行带来了挑战。其中,入口匝道区域作为影响高速公路交通效率的瓶颈,是交通管理中尤为关注的问题。常用匝道控制方法是通过调整宏观交通流状态变量(如密度或流量)控制入口匝道流入的速率。然而,匝道计量策略的目的是优先考虑干线的效率,并试图防止拥塞。由于无法控制单个车辆的移动来促进汇入过程,该方法可能在主线上车辆较多的情况下无法成功汇入,导致拥堵和安全问题。
考虑到智能网联车优异的动态控制能力,匝道协同汇入策略被提出,通过调节车辆的轨迹来更好地控制汇入,以保证交通效率和安全性。常见的汇入策略可分为启发式方法(基于规则的方法或模糊方法)和最优方法。然而,启发式算法通常需要领域特定的专业知识来进行某些驾驶规则的精细设计,缺乏对其他未知情况适应性且很难达到控制最优。优化算法例如PMP、DP等算法由于缺乏自学习能力,难以在入口匝道合并复杂环境下实现全局优化,缺乏对问题的适应性;基于强化学习的优化算法虽然能提高系统对于未知环境的适应性,但现有的策略过于注重奖励塑造和模型构建,无法从根本上解决协同匝道汇入问题。从本质上讲,协同匝道汇入需要同时满足多目标的长期和短期反馈。也就是说,短期动作执行时需要考虑到对长期目标的影响,但是对于汇入问题来说,入口匝道汇入评估的奖励是稀疏的和长期的。在这种情况下,传统的强化学习方法在处理稀疏奖励问题时很难避免局部最优和不稳定性,影响匝道区域车辆的通行效率和安全。
针对以上问题,发明人已提出了相关论文面向电池寿命的入口匝道强化学习方法,初步解决入口匝道汇入问题,但该方法主要面向电池健康问题,是针对新能源汽车特定应用场景下实施案例,但无法应用于现实传统燃油车与新能源汽车混合匝道汇入场景;同时,文中未涉及匝道汇入车辆选择主路汇入间隙选择,在实际匝道汇入实际应用缺乏关键环节。针对上述问题,本专利以论文所提出具体案例基础上,提出高速公路网联车协同匝道汇入多目标优化控制方法和系统,是针对入口匝道车辆汇入问题建立全面、完整的框架与更先进技术方法体系。
发明内容
为解决上述技术问题,本发明提出了高速公路网联车协同匝道汇入多目标优化控制方法和系统,通过协匝道控制区域内的车辆行驶轨迹,在完成匝道汇入的同时保证道路整体交通高效、安全、节能运行。
本发明提供高速公路网联车协同匝道汇入多目标优化控制方法,包括如下步骤:
步骤1,采集高速公路控制区域内车辆的状态数据,并对状态数据进行分析和处理;所述控制区域包括高速公路的主路和匝道交叉点、汇入区域、主路部分路段、匝道部分路段以及加速车道部分路段,控制区域的范围即路侧单元的通信范围,所述路侧单元设置于高速公路的主路和匝道交叉点处,所述汇入区域为预先选定的区域,包括加速车道的部分路段以及与加速车道的部分路段平行的主路路段;
步骤2,根据控制区域内车辆的状态数据构建匝道汇入车辆、辅助车辆和引导车辆的可选方案集合;
步骤3,将可选方案集合分别输入基于人工智能的匝道汇入多目标控制模型中,通过最优价值策略进一步确定辅助车辆和引导车辆的选择;
步骤4,根据选择的辅助车、引导车和汇入车辆,对辅助车和引导车进行加速度进行控制调节,确保匝道汇入车辆在选定的汇入区域内从加速车道安全汇入到主路中;
步骤5,采集进行加速度调节后的匝道汇入车辆和辅助车辆的状态数据,并返回步骤4,进行下一时刻的加速度调节。
作为本发明控制方法进一步改进,所述步骤1中,车辆的状态数据包括控制区域内车辆的位置、速度、动力电池状态以及相应的时刻信息。
作为本发明控制方法进一步改进,所述步骤1中,对状态数据进行分析和处理,包括但不限于数据分析、特征提取和信息融合。
作为本发明控制方法进一步改进,所述步骤2-3中,所述对于汇入车辆、引导车辆和辅助车辆的选择的最优价值策略如下:
4.1汇入车辆的选择:将匝道上前保险杆和匝道出口线距离最近的车辆设为汇入车辆,并获取高速公路控制区域所有车辆前t个时间步长的状态信息;
4.2根据所有车辆的位置信息,依据主线车辆与汇入车辆的前后关系,初步选择汇入车辆后方和前方的各z辆主路车辆作为辅助车和引导车的备选车辆,其中z为正整数且小于等于5;
4.3在所有备选车辆中,选取邻近的两辆车作为一组引导车和辅助车,构建该汇入车辆的引导车和辅助车的备选集合AL
4.4采用遍历法将备选集合AL中的组合分别代入基于人工智能的匝道汇入多目标控制模型中,依据模型的值函数
Figure 387979DEST_PATH_IMAGE001
确定最终选取的汇入车辆、辅助车辆和引导车辆。
作为本发明控制方法进一步改进,所述控制区域所有车辆前t个时间步长的状态信息包括速度、位置及加速度。
作为本发明控制方法进一步改进,所述对于汇入车辆、引导车辆和辅助车辆的选择的最优价值策略的步骤4中,基于人工智能的匝道汇入多目标控制模型,其成功汇入时刻的目标函数及限制条件的构建如下:
6.1设定安全汇入时刻为
Figure 362626DEST_PATH_IMAGE002
,构建安全汇入时刻引导车辆、辅助车辆和匝道汇入车辆需满足的位置和速度关系:
Figure 824305DEST_PATH_IMAGE003
式中,
Figure 965436DEST_PATH_IMAGE004
引导车辆的位置、速度和加速度;
Figure 10884DEST_PATH_IMAGE005
表示辅助车辆的位置、速度和加速度;
Figure 156432DEST_PATH_IMAGE006
Figure 169387DEST_PATH_IMAGE007
表示匝道汇入车辆的位置、速度和加速度;
Figure 927259DEST_PATH_IMAGE008
为恒定的时间间隔,L1为车辆的长度,
Figure 328678DEST_PATH_IMAGE009
为停顿间隙,
Figure 67964DEST_PATH_IMAGE010
分别为汇入区域的起点和终点,汇入区域的长度为
Figure 318948DEST_PATH_IMAGE011
;公式从上到下依次表示匝道汇入车辆在引导车辆后面、匝道汇入车辆在辅助车辆前面、匝道汇入车辆和引导车辆速度一致、匝道汇入车辆和辅助车辆速度一致以及匝道汇入车辆在选定的汇入区域内从加速车道安全汇入到主路中;
6.2在满足6.1的条件下,进一步构建包含但不限于驾驶舒适性、车辆能耗、通行效率等目标的目标函数C如下:
Figure 379045DEST_PATH_IMAGE012
式中,
Figure 258140DEST_PATH_IMAGE013
表示不同目标的代价函数,
Figure 902748DEST_PATH_IMAGE014
表示参数。
作为本发明控制方法进一步改进,所述对于汇入车辆、引导车辆和辅助车辆的选择的最优价值策略的步骤4中,基于人工智能的匝道汇入多目标控制模型,采用强化学习参与者-评价者算法进行求解,具体过程如下:
7.1状态空间
Figure 142492DEST_PATH_IMAGE015
及行为空间
Figure 429117DEST_PATH_IMAGE016
建立:根据引导车辆、辅助车辆和匝道汇入车辆的状态数据选择六维状态信息
Figure 303663DEST_PATH_IMAGE017
表示环境中最相关的影响因素,
Figure 650331DEST_PATH_IMAGE018
,依据控制对象选择控制行为策略
Figure 108863DEST_PATH_IMAGE019
7.2最优目标建立:根据安全汇入时刻
Figure 464758DEST_PATH_IMAGE020
时的车辆限制条件关系,构建匝道汇入最优目标集合
Figure 459390DEST_PATH_IMAGE021
,其中,
Figure 976959DEST_PATH_IMAGE022
为目标空间的集合,
Figure 456875DEST_PATH_IMAGE023
表示满足公式(1)中汇入车辆在引导车辆后面,
Figure 85303DEST_PATH_IMAGE024
表示满足公式(2)中匝道汇入车辆在辅助车辆前面,
Figure 934441DEST_PATH_IMAGE025
表示满足公式(3)中匝道汇入车辆和引导车辆速度一致,
Figure 622912DEST_PATH_IMAGE026
表示满足公式(4)中匝道汇入车辆和辅助车辆速度一致,
Figure 56036DEST_PATH_IMAGE027
表示满足公式(5)中匝道汇入车辆在选定的汇入区域内从加速车道安全汇入到主路中;
7.3目标空间构建:依据7.2最优目标空间集合
Figure 753733DEST_PATH_IMAGE028
所包含的分类,建立目标空间集合
Figure 722958DEST_PATH_IMAGE029
满足
Figure 316750DEST_PATH_IMAGE030
表示匝道汇入车辆与引导车辆的位置关系,
Figure 228381DEST_PATH_IMAGE031
表示匝道汇入车辆和辅助车辆的位置关系,
Figure 198611DEST_PATH_IMAGE032
表示匝道汇入车辆和引导车辆速度关系,
Figure 22342DEST_PATH_IMAGE033
表示匝道汇入车辆和辅助车辆速度关系,
Figure 52615DEST_PATH_IMAGE034
表示匝道汇入车辆的位置与合并区域的关系;
7.4奖励构建:奖励函数为
Figure 194752DEST_PATH_IMAGE035
,每个时间步长的奖励
Figure 968673DEST_PATH_IMAGE036
在包括长期目标汇入奖励
Figure 912489DEST_PATH_IMAGE037
的情况下,根据安全、高效及舒适行驶要求引入至少两种短期目标奖励,其中必须包含的长期目标汇入奖励
Figure 113664DEST_PATH_IMAGE038
表示如下:
Figure 746027DEST_PATH_IMAGE039
7.5数据链的获取:根据7.1至 7.3获取的第t个时间步长的状态、目标、策略和奖励数据得到数据链
Figure 589218DEST_PATH_IMAGE040
并将数据存储入智能优化模块,其中
Figure 387541DEST_PATH_IMAGE041
表示状态s和目标
Figure 759616DEST_PATH_IMAGE042
的连接;
7.6数据探索拓展及目标空间优化:进一步提出基于多经验重放的虚拟目标构建算法,进行虚拟目标的引入,在对目标空间优化的同时实现数据探索的扩充;
7.7在每个时间步骤中,根据智能优化模块存储的数据链,基于参与者-评价者算法框架,通过以
Figure 876345DEST_PATH_IMAGE043
为参数的深度神经网络来训练汇入控制策略,该策略直接输出动作来控制匝道汇入车辆和辅助车辆的加速度值与状态和目标输入,策略优化的目标是找到最优的行为策略
Figure 257648DEST_PATH_IMAGE044
,使整个行程的回报期望最大化,最终,最优控制策略通过经过训练的网络的前向传递输出:
Figure 910478DEST_PATH_IMAGE045
作为本发明控制方法进一步改进,所述强化学习参与者-评价者算法奖励构建中短期目标奖励包括不限于:节能奖励
Figure 453454DEST_PATH_IMAGE046
舒适性奖励
Figure 214737DEST_PATH_IMAGE047
、通行高效奖励
Figure 120770DEST_PATH_IMAGE048
和电池状态奖励
Figure 752739DEST_PATH_IMAGE049
所述强化学习参与者-评价者算法的基于耦合切比雪夫的多目标奖励优化方法具体步骤如下:
确定优化奖励项:假设汇入成功后引入多种实时短期目标的数量为
Figure 436924DEST_PATH_IMAGE050
个,则汇入问题的优化奖励项为
Figure 296007DEST_PATH_IMAGE050
个;
确定各奖励的朝理想最优值:构建各个目标的超理想最优值
Figure 994011DEST_PATH_IMAGE051
,其中
Figure 870700DEST_PATH_IMAGE052
为理想值,根据经验数据选择,
Figure 99687DEST_PATH_IMAGE053
为一常数,表示超理想最优值比理想值好的程度;
构建多目标问题的广义加权切比雪夫最优化模型:设
Figure 678305DEST_PATH_IMAGE054
为短期目标的切比雪夫权重,则得多目标问题的转化为广义加权切比雪夫但目标问题,如下式:
Figure 939522DEST_PATH_IMAGE055
其中,
Figure 421450DEST_PATH_IMAGE056
为加权的切比雪夫范数,
Figure 477131DEST_PATH_IMAGE057
,代表各个目标与超理想最优值之间的最大偏差;
Figure 545975DEST_PATH_IMAGE058
为保证算法稳定的项,通常
Figure 610883DEST_PATH_IMAGE059
Figure 947317DEST_PATH_IMAGE060
的计算公式参考如下:
Figure 173899DEST_PATH_IMAGE061
奖励函数构建为:
Figure 618787DEST_PATH_IMAGE062
作为本发明控制方法进一步改进,所述强化学习参与者-评价者算法奖励构建中所提出多经验重放的虚拟目标构建算法步骤如下:
t时间步长下的多经验虚拟目标构建及目标空间优化:依据t时间步长下的目标
Figure 471074DEST_PATH_IMAGE063
和数据链
Figure 521070DEST_PATH_IMAGE064
,构建以
Figure 184132DEST_PATH_IMAGE065
为参数的全连接神经网络
Figure 961989DEST_PATH_IMAGE066
获取当前状态下的l个虚拟目标为:
Figure 368699DEST_PATH_IMAGE067
基于优化目标空间的数据探索优化:依据获取的l个虚拟目标构建l个虚拟目标数据链:
Figure 414147DEST_PATH_IMAGE068
并将虚拟目标数据链存储入智能优化模块;
全时间步长数据探索优化:对每个时间步长重复步长下的多经验虚拟目标构建及目标空间优化和基于优化目标空间的数据探索优化,完成所有时间步长下的数据探索及目标空间优化;
基于人工智能模型的虚拟目标有效性选择:根据优化后的数据集合进行人工智能模型的训练,并根据训练结果选取每个时间步长下的最优虚拟目标数据链;
虚拟目标全连接神经网络
Figure 248111DEST_PATH_IMAGE069
的校核:根据各个时长下最优虚拟目标数据链对虚拟目标全连接神经网络
Figure 510334DEST_PATH_IMAGE069
的参数
Figure 596101DEST_PATH_IMAGE070
进行校验,不断提升虚拟目标生成的准确性,以保证算法性能和训练速度。
本发明提供高速公路网联车协同匝道汇入多目标优化控制方法的系统,包括信息采集模块、数据传输模块、交通控制模块以及智能优化模块;
所述信息采集模块用于采集控制区域内车辆的状态数据,并对状态数据进行分析和处理,选定匝道汇入车辆、辅助车辆和引导车辆;
所述信息采集模块包括车载单元和路侧单元,所述路侧单元设置于高速公路的主路和匝道交叉点处,所述路侧单元用于采集控制区域内车辆的位置、速度及相应的时刻信息,还用于采集匝道汇入车辆确定的时间及前保险杆到达匝道出口线的时间,所述车载单元用于采集控制区域内车辆的动力电池状态及相应的时刻信息;
所述数据传输模块用于以移动通信技术为主体信息传输通信方式,辅助WiFi/BT、DSRC无线通信方式中的一种或两种实现数据在信息采集模块与交通控制模块、交通控制模块与智能优化模块之间的传输;
所述交通控制模块用于根据信息采集模块提供的车辆状态数据获取实时最优的行为策略a、目标g及奖励r,并将行为策略发送至车载单元,实现车辆实时控制,同时将最优的行为策略a、目标g及奖励r发送至智能优化模块;
所述智能优化模块用于存储所述交通控制模块传入的数据,并基于步骤3所选择的备选车辆集合AL和步骤4所提出的优化算法对匝道汇入多目标控制模型进行优化,并将优化后的模型传输至所述交通控制模块。
有益效果:
本发明采用以上技术方案与现有技术相比,具有以下技术效果:
1、本发明通过控制匝道汇入区域两个车道的车辆,促进了匝道汇入的过程,避免传统匝道控制手段仅使用流率控制导致匝道车辆汇入延迟引发的排队问题,在保证主线通行能力的前提下,同时积极促进了匝道车辆的汇入实现,极大的提高了匝道区域的交通通行效率;且单车控制的方法也保证了车辆之间的安全行驶。
2、本发明使用强化学习进行单车控制匝道汇入,区别于其他单车控制的匝道汇入方法。强化学习的方法无需进行复杂模型的构建,可以从历史数据不断探索并优化控制策略,同时由于探索的多样性,该算法还具有一定的鲁棒性和适应性。
3、本发明引入了多经验虚拟目标构建方法,引入目标空间优化和数据探索步骤,极大的提高了数据的探索效率,有效解决了多目标匝道控制中长期奖励稀疏的问题和长短奖励之间的耦合关系问题,保证了多目标匝道汇入的安全有效。
4、对比发明人所发表的论文,本发明的提升主要有:
1)区别于论文单纯针对新能源汽车面向电池健康问题的汇入方法,提出了适用于多种车辆(包括不限于传统燃油车、新能源汽车等)的混合匝道场景的汇入方法,且本发明提供了应用于现实高速公路汇入场景的关键技术环节。
2)本发明进一步优化了安全成功汇入时刻的车辆限制条件,同时,丰富了控制区域引导车辆、辅助车辆和汇入车辆的选择算法,与论文中简单的选择模式相比,本发明的选择方案可以获取最优的车辆选择方案,进一步提高了算法的最优解,使车辆的运行更为节能,高效、平稳。
3)本发明进一步优化了长期奖励和短期奖励的重要级,并为本发明针对不同实际情况的目标引入预留了接口,且本发明确定了短期奖励之间的系数关系,保证本发明可以适应多种不同目标的情况,进一步提升了本发明的适用范围。
4)本发明对文章提出的数据探索算法进一步优化,引入多经验虚拟目标构建方法,区别于论文简单的选取下一状态作为目标,进一步提高了数据的利用效率,提高数据探索的方向和正确性,极大的避免碰撞等危险情况的发生。
附图说明
图1是本发明提出的高速公路汇入场景示意图;
图2是本发明高速公路网联车协同匝道汇入多目标优化控制方法架构图。
具体实施方式
下面结合附图与具体实施方式对本发明作进一步详细描述:
本发明提出的方法基于假设如下:1)网联车辆需具备必要的信息传输、指令实现的能力,即通过车载单元具备信息交互的能力,且车辆完全执行控制指令;2)匝道控制区域包含主路和匝道交叉点、匝道汇入区域及主线和匝道部分路段,且控制区域的范围控制范围为路侧单元的通信范围;3)汇入区域的长度固定,即为
Figure 620689DEST_PATH_IMAGE071
;4)忽略信息传输、数据处理与计算、指令执行存在的延误,即假定各模块的运行的速度足够支撑系统运行;5)忽略车辆的横向运动及温度对车辆的影响。
本发明提出的高速公路网联车协同匝道汇入多目标优化控制系统,包括信息采集模块、数据传输模块、交通控制模块和智能优化模块,其中:
1)信息采集模块,通过车载单元和路侧单元实时采集控制区域内车辆的速度、位置、动力电池状态等状态信息及对应的时刻信息和匝道车辆汇入的开始时刻信息(汇入车辆的选定时刻),并对数据进行分析及处理,数据分析与处理步骤但不限于数据分析、特征提取、信息融合等;
信息采集模块所包含的车载单元和路侧单元信息采集配合如下:
①路侧单元负责交通状态信息的采集,例如区域内车辆的速度、位置以及匝道汇入车辆汇入的开始时刻;
②车载单元负责车辆相关参数信息的采集,例如发动机状态信息、电池状态信息、档位信息。本发明所设计网联汽车动力组成包括:燃油车、纯电动汽车、氢能源汽车及混合动力汽车。
2)数据传输模块,以第五代移动通信技术(5G)为主体信息传输通信方式,辅助WiFi/BT、DSRC等无线通信方式中的一种或多种实现数据在车载单元、路测单元和各个模块之间的传输;
3)交通控制模块,根据信息采集模块提供的交通状态信息获取实时最优的行为策略a、目标g及反馈r,并将策略发送至车载单元,实现车辆实时控制;同时,将交通状态信息集合打包发送至智能优化模块;
4)智能优化模块,包括训练和数据子模块。数据模块将交通控制模块传入的数据进行存储,并应用人工智能数据探索方法获取更多的数据对进行存储;训练模块根据数据模块所提供的数据利用奖励函数对基于人工智能的匝道汇入多目标控制模型进行并将优化后的模型传输至交通控制模块。
控制区域包含主路和匝道交叉点,匝道汇入区域及主线和匝道部分路段,值得说明的是,控制区域的范围控制范围为路侧单元的通信范围,详见图1。
如图2所示,本发明提出的高速公路网联车协同匝道汇入多目标优化控制方法,包括以下步骤:
S01信息采集模块获取控制区域的车辆状态数据;
S02 信息采集模块通过智能数据分析模型对采集数据进行数据分析、信息融合等处理;
S03根据控制区域内车辆的状态数据构建匝道汇入车辆、辅助车辆和引导车辆的可选方案集合AL
S04将可选方案集合分别输入基于人工智能的匝道汇入多目标控制模型中,通过最优价值策略进一步确定辅助车辆和引导车辆的选择;
S05传输模块将S04步骤选定车辆及车辆相关采集数据传输至控制模块;
S06交通控制模块确认指令发送的车辆,基于人工智能的匝道汇入多目标控制模型进行实施决策,所述基于人工智能的匝道汇入多目标控制模型的框架为强化学习参与者-评价者(Actor-Critic)算法;
S07传输模块将决策信息传输至被控车辆的车载单元,实现车辆安全、高效、节能匝道汇入目标;所述被控车辆为匝道汇入车辆和辅助车辆;
S08采集控制策略下的被控车辆状态信息数据对,并将被控车辆状态信息数据对存入数据子模块,形成闭环控制。
步骤S03-S04,所述的汇入车辆、辅助车辆和引导车辆的选择方法依照最优价值策略算法构架,如下:
1)汇入车辆的选择:将匝道上前保险杆和匝道出口线距离最近的车辆设为汇入车辆,并获取控制区域所有车辆前t个时间步长的状态信息,例如速度、位置及加速度;
2)根据所有车辆的位置信息,依据主线车辆与汇入车辆的前后关系,初步选择汇入车辆后方和前方的各z辆主路车辆作为辅助车和引导车的备选车辆,其中z为正整数且小于等于5;
3)在所有备选车辆中,选取邻近的两辆车作为一组引导车和辅助车,构建该汇入车辆的引导车和辅助车的备选集合AL
4)采用遍历法将备选集合AL中的组合分别代入基于人工智能的匝道汇入多目标控制模型中,依据模型的值函数
Figure 766500DEST_PATH_IMAGE072
确定最终选取的汇入车辆、辅助车辆和引导车辆。
5)基于人工智能的匝道汇入多目标控制模型根据选定的引导车辆对汇入车辆、辅助车辆的加速度控制调节,求解多目标下的最优控制,在实现汇入车辆成功汇入主线的同时,保证汇入车辆的能耗优化和道路的高效、安全通行。具体包括问题数学模型构建及基于强化学习的优化求解。
问题数学模型构建如下:
1)设定安全汇入时刻为
Figure 266751DEST_PATH_IMAGE073
,构建安全汇入时刻引导车辆、辅助车辆和匝道汇入车辆需满足的位置和速度关系:
Figure 267462DEST_PATH_IMAGE003
式中,
Figure 536769DEST_PATH_IMAGE004
引导车辆的位置、速度和加速度;
Figure 463268DEST_PATH_IMAGE005
表示辅助车辆的位置、速度和加速度;
Figure 450815DEST_PATH_IMAGE006
Figure 252287DEST_PATH_IMAGE007
表示匝道汇入车辆的位置、速度和加速度;
Figure 641680DEST_PATH_IMAGE074
为恒定的时间间隔,L1为车辆的长度,
Figure 473501DEST_PATH_IMAGE009
为停顿间隙,
Figure 948345DEST_PATH_IMAGE010
分别为汇入区域的起点和终点,汇入区域的长度为
Figure 302576DEST_PATH_IMAGE011
;公式从上到下依次表示匝道汇入车辆在引导车辆后面、匝道汇入车辆在辅助车辆前面、匝道汇入车辆和引导车辆速度一致、匝道汇入车辆和辅助车辆速度一致以及匝道汇入车辆在选定的汇入区域内从加速车道安全汇入到主路中;
2)在满足1)的条件下,进一步构建包含但不限于驾驶舒适性、车辆能耗、通行效率等目标的目标函数C如下:
Figure 546476DEST_PATH_IMAGE012
式中,
Figure 814777DEST_PATH_IMAGE013
表示不同目标的代价函数,
Figure 245759DEST_PATH_IMAGE014
表示参数。
作为本发明方法的优选方案,所述基于人工智能的匝道汇入多目标控制模型采用强化学习参与者-评价者算法Actor-Critic进行求解,具体过程如下:
1)状态空间
Figure 123454DEST_PATH_IMAGE015
及行为空间
Figure 97226DEST_PATH_IMAGE016
建立:根据引导车辆、辅助车辆和匝道汇入车辆的状态数据选择六维状态信息
Figure 785696DEST_PATH_IMAGE017
表示环境中最相关的影响因素,
Figure 221750DEST_PATH_IMAGE018
,依据控制对象选择控制行为策略
Figure 653868DEST_PATH_IMAGE019
2)最优目标建立:根据安全汇入时刻
Figure 623093DEST_PATH_IMAGE075
时的车辆限制条件关系,构建匝道汇入最优目标集合
Figure 216885DEST_PATH_IMAGE021
,其中,
Figure 402885DEST_PATH_IMAGE022
为目标空间的集合,
Figure 373115DEST_PATH_IMAGE023
表示满足公式(1)中汇入车辆在引导车辆后面,
Figure 931266DEST_PATH_IMAGE024
表示满足公式(2)中匝道汇入车辆在辅助车辆前面,
Figure 961539DEST_PATH_IMAGE025
表示满足公式(3)中匝道汇入车辆和引导车辆速度一致,
Figure 106606DEST_PATH_IMAGE026
表示满足公式(4)中匝道汇入车辆和辅助车辆速度一致,
Figure 880527DEST_PATH_IMAGE027
表示满足公式(5)中匝道汇入车辆在选定的汇入区域内从加速车道安全汇入到主路中。
3)目标空间构建:依据2)最优目标空间集合
Figure 558764DEST_PATH_IMAGE028
所包含的分类,建立目标空间集合
Figure 494359DEST_PATH_IMAGE029
满足
Figure 389371DEST_PATH_IMAGE030
表示匝道汇入车辆与引导车辆的位置关系,
Figure 966983DEST_PATH_IMAGE031
表示匝道汇入车辆和辅助车辆的位置关系,
Figure 499727DEST_PATH_IMAGE076
表示匝道汇入车辆和引导车辆速度关系,
Figure 137382DEST_PATH_IMAGE033
表示匝道汇入车辆和辅助车辆速度关系,
Figure 522620DEST_PATH_IMAGE034
表示匝道汇入车辆的位置与合并区域的关系。
4)奖励构建:奖励函数为
Figure 638344DEST_PATH_IMAGE077
,每个时间步长的奖励
Figure 291173DEST_PATH_IMAGE036
在包括长期目标汇入奖励
Figure 703754DEST_PATH_IMAGE038
的情况下,可根据安全、高效及舒适等行驶要求引入多种短期目标奖励。
①必须包含的长期目标汇入奖励
Figure 357590DEST_PATH_IMAGE078
表示如下:
Figure 864926DEST_PATH_IMAGE079
②其他目标可以包括不限于节能、平稳、舒适及高效等,构建可参考:
a.行驶能耗奖励
Figure 844383DEST_PATH_IMAGE080
构建:
考虑电池效率与能耗,用安培-时间积分法构建车辆电荷状态(SOC)的下降关系模型:
Figure 926915DEST_PATH_IMAGE081
其中,
Figure 384442DEST_PATH_IMAGE082
为开路电压,
Figure 11863DEST_PATH_IMAGE083
是电阻,
Figure 896643DEST_PATH_IMAGE084
t时刻的电池功率,
Figure 209681DEST_PATH_IMAGE085
为电池的容量。
因此,节能奖励包括匝道汇入车辆和辅助车辆的SOC情况,如下式:
Figure 80685DEST_PATH_IMAGE086
b.电池寿命奖励
Figure 811881DEST_PATH_IMAGE049
构建:根据
Figure 854180DEST_PATH_IMAGE087
其中,N为电池循环次数,
Figure 936405DEST_PATH_IMAGE088
为标准电池容量能量。
因此,电池寿命奖励为匝道汇入车辆和辅助车辆的SOH情况,如下式:
Figure 486466DEST_PATH_IMAGE089
c.平稳性奖励构建
Figure 806589DEST_PATH_IMAGE090
:在不考虑车辆横向移动的情况下,平稳性奖励可以看作实际加速度的变化情况,最大加速度
Figure 548018DEST_PATH_IMAGE091
,具体模型如下:
Figure 851960DEST_PATH_IMAGE092
d.舒适性奖励构建
Figure 940133DEST_PATH_IMAGE047
:为了减少合并车辆的颠簸,提高乘客的舒适度,
Figure 645921DEST_PATH_IMAGE093
表示可承受的最大颠簸值,单位取
Figure 295601DEST_PATH_IMAGE094
,则模型如下:
Figure 86840DEST_PATH_IMAGE095
基于耦合切比雪夫的多目标奖励优化方法,具体步骤如下:
a.确定优化奖励项:假设汇入成功后引入多种实时短期目标的数量为
Figure 978704DEST_PATH_IMAGE096
个,则汇入问题的优化奖励项为
Figure 273419DEST_PATH_IMAGE097
个;
b.确定各奖励的朝理想最优值:构建各个目标的超理想最优值
Figure 356650DEST_PATH_IMAGE098
,其中
Figure 369606DEST_PATH_IMAGE099
为理想值,根据经验数据选择,
Figure 65160DEST_PATH_IMAGE100
为一常数,表示超理想最优值比理想值好的程度;
c.构建多目标问题的广义加权切比雪夫最优化模型:设
Figure 479961DEST_PATH_IMAGE101
为短期目标的切比雪夫权重,则可得多目标问题的转化为广义加权切比雪夫但目标问题,如下式:
Figure 737023DEST_PATH_IMAGE055
其中,
Figure 237275DEST_PATH_IMAGE056
为加权的切比雪夫范数,
Figure 470941DEST_PATH_IMAGE057
,代表各个目标与超理想最优值之间的最大偏差;
Figure 5828DEST_PATH_IMAGE058
为保证算法稳定的项,通常
Figure 430862DEST_PATH_IMAGE059
Figure 418409DEST_PATH_IMAGE060
的计算公式参考如下:
Figure 455767DEST_PATH_IMAGE061
④奖励函数构建为:
Figure 579580DEST_PATH_IMAGE062
5)数据链的获取:根据1)至 4)获取的第t个时间步长的状态、目标、策略和奖励数据可得到数据链
Figure 924585DEST_PATH_IMAGE102
并将数据存储入智能优化模块,其中
Figure 665008DEST_PATH_IMAGE041
表示状态s和目标
Figure 240477DEST_PATH_IMAGE042
的连接,在没有完成
Figure 592699DEST_PATH_IMAGE063
Figure 844688DEST_PATH_IMAGE103
r不包含短期目标
Figure 557561DEST_PATH_IMAGE104
等。
6)数据探索拓展及目标空间优化:根据4)和5)可以发现,满足
Figure 654830DEST_PATH_IMAGE063
的数据是很难获取的,因为
Figure 5433DEST_PATH_IMAGE063
是一个固定的最终目标,对于实时的奖励的指导意义是十分有限的。因此,进一步提出基于多经验重放的虚拟目标构建算法,进行虚拟目标的引入,在对目标空间优化的同时实现数据探索的扩充。所提出多经验重放的虚拟目标构建算法步骤如下:
① t时间步长下的多经验虚拟目标构建及目标空间优化:依据t时间步长下的目标
Figure 38111DEST_PATH_IMAGE063
和数据链
Figure 487547DEST_PATH_IMAGE064
,构建以
Figure 168933DEST_PATH_IMAGE065
为参数的全连接神经网络
Figure 121845DEST_PATH_IMAGE066
获取当前状态下的l个虚拟目标为:
Figure 466370DEST_PATH_IMAGE067
②基于优化目标空间的数据探索优化:依据获取的l个虚拟目标构建l个虚拟目标数据链:
Figure 403102DEST_PATH_IMAGE068
并将虚拟目标数据链存储入智能优化模块;
③全时间步长数据探索优化:对每个时间步长重复①和②,完成所有时间步长下的数据探索及目标空间优化;
④基于人工智能模型的虚拟目标有效性选择:根据优化后的数据集合进行人工智能模型的训练,并根据训练结果选取每个时间步长下的最优虚拟目标数据链;
⑤虚拟目标全连接神经网络
Figure 625529DEST_PATH_IMAGE105
的校核:根据各个时长下最优虚拟目标数据链对虚拟目标全连接神经网络
Figure 432948DEST_PATH_IMAGE105
的参数
Figure 948374DEST_PATH_IMAGE065
进行校验,不断提升虚拟目标生成的准确性,提升算法训练速度。
7)在每个时间步骤中,根据智能优化模块存储的数据链,基于Actor-Critic框架,通过以
Figure 106823DEST_PATH_IMAGE106
为参数的深度神经网络来训练汇入控制策略,该策略直接输出动作来控制匝道汇入车辆和辅助车辆的加速度值与状态和目标输入,策略优化的目标是找到最优的行为策略
Figure 130012DEST_PATH_IMAGE044
,使整个行程的回报期望最大化,具体步骤如下:
①根据Bellman函数,构建最优价值函数表示为:
Figure 57517DEST_PATH_IMAGE107
(18)
式中,
Figure 9423DEST_PATH_IMAGE108
为值函数,
Figure 655168DEST_PATH_IMAGE109
为折损因子,
Figure 219398DEST_PATH_IMAGE110
分别为当前时间步的状态、行为策略、目标,
Figure 266988DEST_PATH_IMAGE111
分别为下一个时间步的状态、行为策略、目标;
②根据①,标准时间差更新方程为:
Figure 389796DEST_PATH_IMAGE112
(19)
式中,
Figure 522837DEST_PATH_IMAGE113
为学习率;
②利用以
Figure 887829DEST_PATH_IMAGE114
为参数的Critic网络根据公式(16)更新规则估计Q值,构建批评网络的损失函数如下:
Figure 399713DEST_PATH_IMAGE115
(20)
式中,为损失函数,
Figure 942689DEST_PATH_IMAGE114
为Critic网络参数;
③利用随机梯度下降算法通过最小化损失函数来更新临界网络参数,如下:
Figure 537926DEST_PATH_IMAGE116
(21-22)
式中,
Figure 457340DEST_PATH_IMAGE117
表示梯度;
④该驾驶状态下的最优控制策略通过经过训练的网络的前向传递输出:
Figure 964676DEST_PATH_IMAGE118
(23)
8)由此可以获得最优控制策略,从而通过各个模块实现面向高速公路场景的网联车辆的协同匝道汇入多目标优化控制方法及系统的最优控制,实现匝道区域高效、安全、节能驾驶。
以上所述,仅是本发明的较佳实施例而已,并非是对本发明作任何其他形式的限制,而依据本发明的技术实质所作的任何修改或等同变化,仍属于本发明所要求保护的范围。

Claims (10)

1.高速公路网联车协同匝道汇入多目标优化控制方法,其特征在于,包括如下步骤:
步骤1,采集高速公路控制区域内车辆的状态数据,并对状态数据进行分析和处理;所述高速公路控制区域包括高速公路的主路、匝道交叉点、汇入区域、主路部分路段、匝道部分路段以及加速车道部分路段,高速公路控制区域的范围即路侧单元的通信范围,所述路侧单元设置于高速公路的主路和匝道交叉点处,所述汇入区域为预先选定的区域,包括加速车道的部分路段以及与加速车道的部分路段平行的路段;
步骤2,根据控制区域内车辆的状态数据构建匝道汇入车辆、辅助车辆和引导车辆的可选方案集合;
步骤3,将可选方案集合分别输入基于人工智能的匝道汇入多目标控制模型中,通过最优价值策略进一步确定辅助车辆和引导车辆的选择;
步骤4,根据选择的辅助车、引导车和汇入车辆,对辅助车和引导车进行加速度进行控制调节,确保匝道汇入车辆在选定的汇入区域内从加速车道安全汇入到主路中;
步骤5,采集进行加速度调节后的匝道汇入车辆和辅助车辆的状态数据,并返回步骤4,进行下一时刻的加速度调节。
2.根据权利要求书1所述高速公路网联车协同匝道汇入多目标优化控制方法,其特征在于:所述步骤1中,车辆的状态数据包括控制区域内车辆的位置、速度、动力电池状态以及相应的时刻信息。
3.根据权利要求书1所述高速公路网联车协同匝道汇入多目标优化控制方法,其特征在于:所述步骤1中,对状态数据进行分析和处理,包括数据分析、特征提取和信息融合。
4.根据权利要求1所述的高速公路网联车协同匝道汇入多目标优化控制方法,其特征在于,所述步骤2-3中,对于汇入车辆、引导车辆和辅助车辆的选择的最优价值策略如下:
4.1汇入车辆的选择:将匝道上前保险杆和匝道出口线距离最近的车辆设为汇入车辆,并获取高速公路控制区域所有车辆前t个时间步长的状态信息;
4.2根据所有车辆的位置信息,依据主线车辆与汇入车辆的前后关系,初步选择汇入车辆后方和前方的各z辆主路车辆作为辅助车和引导车的备选车辆,其中z为正整数且小于等于5;
4.3在所有备选车辆中,选取邻近的两辆车作为一组引导车和辅助车,构建该汇入车辆的引导车和辅助车的备选集合AL
4.4采用遍历法将备选集合AL中的组合分别代入基于人工智能的匝道汇入多目标控制模型中,依据模型的值函数
Figure 734889DEST_PATH_IMAGE001
确定最终选取的汇入车辆、辅助车辆和引导车辆。
5.根据权利要求4所述的高速公路网联车协同匝道汇入多目标优化控制方法,其特征在于,所述高速公路控制区域所有车辆前t个时间步长的状态信息包括速度、位置及加速度。
6.根据权利要求4所述的高速公路网联车协同匝道汇入多目标优化控制方法,其特征在于,所述对于汇入车辆、引导车辆和辅助车辆的选择的最优价值策略的步骤4中,基于人工智能的匝道汇入多目标控制模型,其成功汇入时刻的目标函数及限制条件的构建如下:
6.1设定安全汇入时刻为
Figure 806881DEST_PATH_IMAGE002
,构建安全汇入时刻引导车辆、辅助车辆和匝道汇入车辆需满足的位置和速度关系:
Figure 623527DEST_PATH_IMAGE003
式中,
Figure 878316DEST_PATH_IMAGE004
引导车辆的位置、速度和加速度;
Figure 464018DEST_PATH_IMAGE005
表示辅助车辆的位置、速度和加速度;
Figure 706911DEST_PATH_IMAGE006
Figure 745275DEST_PATH_IMAGE007
表示匝道汇入车辆的位置、速度和加速度;
Figure 863141DEST_PATH_IMAGE008
为恒定的时间间隔,L1为车辆的长度,
Figure 568929DEST_PATH_IMAGE009
为停顿间隙,
Figure 717145DEST_PATH_IMAGE010
分别为汇入区域的起点和终点,汇入区域的长度为
Figure 508383DEST_PATH_IMAGE011
;公式从上到下依次表示匝道汇入车辆在引导车辆后面、匝道汇入车辆在辅助车辆前面、匝道汇入车辆和引导车辆速度一致、匝道汇入车辆和辅助车辆速度一致以及匝道汇入车辆在选定的汇入区域内从加速车道安全汇入到主路中;
6.2在满足6.1的条件下,进一步构建包含但不限于驾驶舒适性、车辆能耗、通行效率等目标的目标函数C如下:
Figure 901712DEST_PATH_IMAGE012
式中,
Figure 462006DEST_PATH_IMAGE013
表示不同目标的代价函数,
Figure 781123DEST_PATH_IMAGE014
表示参数。
7.根据权利要求4所述的高速公路网联车协同匝道汇入多目标优化控制方法,其特征在于,所述对于汇入车辆、引导车辆和辅助车辆的选择的最优价值策略的步骤4中,基于人工智能的匝道汇入多目标控制模型,采用强化学习参与者-评价者算法进行求解,具体过程如下:
7.1状态空间
Figure 59658DEST_PATH_IMAGE015
及行为空间
Figure 253747DEST_PATH_IMAGE016
建立:根据引导车辆、辅助车辆和匝道汇入车辆的状态数据选择六维状态信息
Figure 668548DEST_PATH_IMAGE017
表示环境中最相关的影响因素,
Figure 158567DEST_PATH_IMAGE018
,依据控制对象选择控制行为策略
Figure 658818DEST_PATH_IMAGE019
7.2最优目标建立:根据安全汇入时刻
Figure 405668DEST_PATH_IMAGE020
时的车辆限制条件关系,构建匝道汇入最优目标集合
Figure 940555DEST_PATH_IMAGE021
,其中,
Figure 601474DEST_PATH_IMAGE022
为目标空间的集合,
Figure 589022DEST_PATH_IMAGE023
表示满足公式(1)中汇入车辆在引导车辆后面,
Figure 921652DEST_PATH_IMAGE024
表示满足公式(2)中匝道汇入车辆在辅助车辆前面,
Figure 311045DEST_PATH_IMAGE025
表示满足公式(3)中匝道汇入车辆和引导车辆速度一致,
Figure 408445DEST_PATH_IMAGE026
表示满足公式(4)中匝道汇入车辆和辅助车辆速度一致,
Figure 883289DEST_PATH_IMAGE027
表示满足公式(5)中匝道汇入车辆在选定的汇入区域内从加速车道安全汇入到主路中;
7.3目标空间构建:依据7.2最优目标空间集合
Figure 960222DEST_PATH_IMAGE028
所包含的分类,建立目标空间集合
Figure 204122DEST_PATH_IMAGE029
满足
Figure 472423DEST_PATH_IMAGE030
表示匝道汇入车辆与引导车辆的位置关系,
Figure 434563DEST_PATH_IMAGE031
表示匝道汇入车辆和辅助车辆的位置关系,
Figure 312258DEST_PATH_IMAGE032
表示匝道汇入车辆和引导车辆速度关系,
Figure 410664DEST_PATH_IMAGE033
表示匝道汇入车辆和辅助车辆速度关系,
Figure 849867DEST_PATH_IMAGE034
表示匝道汇入车辆的位置与合并区域的关系;
7.4奖励构建:奖励函数为
Figure 299303DEST_PATH_IMAGE035
,每个时间步长的奖励
Figure 718039DEST_PATH_IMAGE036
在包括长期目标汇入奖励
Figure 670952DEST_PATH_IMAGE037
的情况下,根据安全、高效及舒适行驶要求引入至少两种短期目标奖励,其中必须包含的长期目标汇入奖励
Figure 281056DEST_PATH_IMAGE038
表示如下:
Figure 952209DEST_PATH_IMAGE039
7.5数据链的获取:根据7.1至 7.3获取的第t个时间步长的状态、目标、策略和奖励数据得到数据链
Figure 437285DEST_PATH_IMAGE040
并将数据存储入智能优化模块,其中
Figure 182388DEST_PATH_IMAGE041
表示状态s和目标
Figure 212660DEST_PATH_IMAGE042
的连接;
7.6数据探索拓展及目标空间优化:进一步提出基于多经验重放的虚拟目标构建算法,进行虚拟目标的引入,在对目标空间优化的同时实现数据探索的扩充;
7.7在每个时间步骤中,根据智能优化模块存储的数据链,基于参与者-评价者算法框架,通过以
Figure 121842DEST_PATH_IMAGE043
为参数的深度神经网络来训练汇入控制策略,该策略直接输出动作来控制匝道汇入车辆和辅助车辆的加速度值与状态和目标输入,策略优化的目标是找到最优的行为策略
Figure 630183DEST_PATH_IMAGE044
,使整个行程的回报期望最大化,最终,最优控制策略通过经过训练的网络的前向传递输出:
Figure 75465DEST_PATH_IMAGE045
8.根据权利要求7所述的高速公路网联车协同匝道汇入多目标优化控制方法,其特征在于,所述强化学习参与者-评价者算法奖励构建中短期目标奖励包括:节能奖励
Figure 276639DEST_PATH_IMAGE046
舒适性奖励
Figure 673116DEST_PATH_IMAGE047
、通行高效奖励
Figure 985149DEST_PATH_IMAGE048
和电池状态奖励
Figure 282007DEST_PATH_IMAGE049
所述强化学习参与者-评价者算法的基于耦合切比雪夫的多目标奖励优化方法具体步骤如下:
确定优化奖励项:假设汇入成功后引入多种实时短期目标的数量为
Figure 654082DEST_PATH_IMAGE050
个,则汇入问题的优化奖励项为
Figure 272277DEST_PATH_IMAGE050
个;
确定各奖励的朝理想最优值:构建各个目标的超理想最优值
Figure 388000DEST_PATH_IMAGE051
,其中
Figure 530576DEST_PATH_IMAGE052
为理想值,根据经验数据选择,
Figure 73552DEST_PATH_IMAGE053
为一常数,表示超理想最优值比理想值好的程度;
构建多目标问题的广义加权切比雪夫最优化模型:设
Figure 975781DEST_PATH_IMAGE054
为短期目标的切比雪夫权重,则得多目标问题的转化为广义加权切比雪夫但目标问题,如下式:
Figure 98457DEST_PATH_IMAGE055
其中,
Figure 901066DEST_PATH_IMAGE056
为加权的切比雪夫范数,
Figure 614944DEST_PATH_IMAGE057
,代表各个目标与超理想最优值之间的最大偏差;
Figure 473310DEST_PATH_IMAGE058
为保证算法稳定的项,通常
Figure 930836DEST_PATH_IMAGE059
Figure 794143DEST_PATH_IMAGE060
的计算公式参考如下:
Figure 944502DEST_PATH_IMAGE061
奖励函数构建为:
Figure 24584DEST_PATH_IMAGE062
9.根据权利要求7所述的高速公路网联车协同匝道汇入多目标优化控制方法,其特征在于,所述强化学习参与者-评价者算法奖励构建中所提出多经验重放的虚拟目标构建算法步骤如下:
t时间步长下的多经验虚拟目标构建及目标空间优化:依据t时间步长下的目标
Figure 20222DEST_PATH_IMAGE063
和数据链
Figure 685DEST_PATH_IMAGE064
,构建以
Figure 321945DEST_PATH_IMAGE065
为参数的全连接神经网络
Figure 623745DEST_PATH_IMAGE066
获取当前状态下的l个虚拟目标为:
Figure 423074DEST_PATH_IMAGE067
基于优化目标空间的数据探索优化:依据获取的l个虚拟目标构建l个虚拟目标数据链:
Figure 260973DEST_PATH_IMAGE068
并将虚拟目标数据链存储入智能优化模块;
全时间步长数据探索优化:对每个时间步长重复步长下的多经验虚拟目标构建及目标空间优化和基于优化目标空间的数据探索优化,完成所有时间步长下的数据探索及目标空间优化;
基于人工智能模型的虚拟目标有效性选择:根据优化后的数据集合进行人工智能模型的训练,并根据训练结果选取每个时间步长下的最优虚拟目标数据链;
虚拟目标全连接神经网络
Figure 487555DEST_PATH_IMAGE069
的校核:根据各个时长下最优虚拟目标数据链对虚拟目标全连接神经网络
Figure 604547DEST_PATH_IMAGE069
的参数
Figure 456834DEST_PATH_IMAGE070
进行校验,不断提升虚拟目标生成的准确性,以保证算法性能和训练速度。
10.基于权利要求1-9任一项所述的高速公路网联车协同匝道汇入多目标优化控制方法的系统,包括信息采集模块、数据传输模块、交通控制模块以及智能优化模块,其特征在于,
所述信息采集模块用于采集控制区域内车辆的状态数据,并对状态数据进行分析和处理,选定匝道汇入车辆、辅助车辆和引导车辆;
所述信息采集模块包括车载单元和路侧单元,所述路侧单元设置于高速公路的主路和匝道交叉点处,所述路侧单元用于采集控制区域内车辆的位置、速度及相应的时刻信息,还用于采集匝道汇入车辆确定的时间及前保险杆到达匝道出口线的时间,所述车载单元用于采集控制区域内车辆的动力电池状态及相应的时刻信息;
所述数据传输模块用于以移动通信技术为主体信息传输通信方式,辅助WiFi/BT、DSRC无线通信方式中的一种或两种实现数据在信息采集模块与交通控制模块、交通控制模块与智能优化模块之间的传输;
所述交通控制模块用于根据信息采集模块提供的车辆状态数据获取实时最优的行为策略a、目标g及奖励r,并将行为策略发送至车载单元,实现车辆实时控制,同时将最优的行为策略a、目标g及奖励r发送至智能优化模块;
所述智能优化模块用于存储所述交通控制模块传入的数据,并基于步骤3所选择的备选车辆集合AL和步骤4所提出的优化算法对匝道汇入多目标控制模型进行优化,并将优化后的模型传输至所述交通控制模块。
CN202210164445.8A 2022-02-23 2022-02-23 高速公路网联车协同匝道汇入多目标优化控制方法和系统 Active CN114241778B (zh)

Priority Applications (3)

Application Number Priority Date Filing Date Title
CN202210164445.8A CN114241778B (zh) 2022-02-23 2022-02-23 高速公路网联车协同匝道汇入多目标优化控制方法和系统
PCT/CN2022/102755 WO2023159841A1 (zh) 2022-02-23 2022-06-30 高速公路网联车协同匝道汇入多目标优化控制方法和系统
US18/112,541 US20230267829A1 (en) 2022-02-23 2023-02-22 Multi-objective optimization control method and system for cooperative ramp merging of connected vehicles on highway

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210164445.8A CN114241778B (zh) 2022-02-23 2022-02-23 高速公路网联车协同匝道汇入多目标优化控制方法和系统

Publications (2)

Publication Number Publication Date
CN114241778A true CN114241778A (zh) 2022-03-25
CN114241778B CN114241778B (zh) 2022-05-17

Family

ID=80747768

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210164445.8A Active CN114241778B (zh) 2022-02-23 2022-02-23 高速公路网联车协同匝道汇入多目标优化控制方法和系统

Country Status (2)

Country Link
CN (1) CN114241778B (zh)
WO (1) WO2023159841A1 (zh)

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114863689A (zh) * 2022-07-08 2022-08-05 中汽研(天津)汽车工程研究院有限公司 一种上下匝道行为场景数据采集、识别与提取方法和系统
CN114973650A (zh) * 2022-04-13 2022-08-30 东南大学 车辆匝道入口合流控制方法、车辆、电子设备及存储介质
CN114999160A (zh) * 2022-07-18 2022-09-02 四川省公路规划勘察设计研究院有限公司 一种基于车路协同道路的车辆安全合流控制方法及系统
CN115171388A (zh) * 2022-07-20 2022-10-11 辽宁工程技术大学 一种智能网联车的多交叉口旅行时间协同优化方法
CN115188204A (zh) * 2022-06-29 2022-10-14 东南大学 一种异常天气条件下高速公路车道级可变限速控制方法
CN115578865A (zh) * 2022-09-28 2023-01-06 东南大学 一种基于人工智能的自动驾驶车辆汇入间隙选择优化方法
CN115909780A (zh) * 2022-11-09 2023-04-04 江苏大学 基于智能网联与rbf神经网络的高速路汇入控制系统与方法
WO2023159841A1 (zh) * 2022-02-23 2023-08-31 东南大学 高速公路网联车协同匝道汇入多目标优化控制方法和系统

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117238138B (zh) * 2023-09-26 2024-05-03 南京感动科技有限公司 一种高速公路枢纽节点渠化管控策略确定方法和系统
CN117198082B (zh) * 2023-11-06 2024-04-05 北京理工大学前沿技术研究院 基于双层优化的车辆匝道汇入决策方法及系统
CN117975737B (zh) * 2024-04-02 2024-05-31 北京中交华安科技有限公司 一种面向公路交织区的车辆主动诱导和智能管控方法

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106157650A (zh) * 2016-07-11 2016-11-23 东南大学 一种基于强化学习可变限速控制的快速道路通行效率改善方法
WO2020014540A1 (en) * 2018-07-13 2020-01-16 Deepdivebio, Inc. Thermocycler reaction control
US20200139973A1 (en) * 2018-11-01 2020-05-07 GM Global Technology Operations LLC Spatial and temporal attention-based deep reinforcement learning of hierarchical lane-change policies for controlling an autonomous vehicle
WO2020100343A1 (en) * 2018-11-16 2020-05-22 Mitsubishi Electric Corporation System and method to control operation of electrical device
CN112289044A (zh) * 2020-11-02 2021-01-29 南京信息工程大学 基于深度强化学习的高速公路道路协同控制系统及方法
CN112700642A (zh) * 2020-12-19 2021-04-23 北京工业大学 一种利用智能网联车辆提高交通通行效率的方法
EP3832419A1 (en) * 2016-12-23 2021-06-09 Mobileye Vision Technologies Ltd. Navigational system with imposed constraints
CN113744527A (zh) * 2021-08-31 2021-12-03 北京航空航天大学 一种面向高速公路合流区的智能靶向疏堵方法

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104464317B (zh) * 2014-12-03 2016-05-11 武汉理工大学 高速公路入口匝道合流区引导控制系统和方法
CN111091721A (zh) * 2019-12-23 2020-05-01 清华大学 一种面向智慧车列交通系统的匝道合流控制方法及系统
CN112233413B (zh) * 2020-07-20 2022-03-29 北方工业大学 一种面向智能网联车辆的多车道时空轨迹优化方法
CN112977477B (zh) * 2021-02-26 2022-03-22 江苏大学 一种基于神经网络的混合车车协同汇流系统和方法
CN114241778B (zh) * 2022-02-23 2022-05-17 东南大学 高速公路网联车协同匝道汇入多目标优化控制方法和系统

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106157650A (zh) * 2016-07-11 2016-11-23 东南大学 一种基于强化学习可变限速控制的快速道路通行效率改善方法
EP3832419A1 (en) * 2016-12-23 2021-06-09 Mobileye Vision Technologies Ltd. Navigational system with imposed constraints
WO2020014540A1 (en) * 2018-07-13 2020-01-16 Deepdivebio, Inc. Thermocycler reaction control
US20200139973A1 (en) * 2018-11-01 2020-05-07 GM Global Technology Operations LLC Spatial and temporal attention-based deep reinforcement learning of hierarchical lane-change policies for controlling an autonomous vehicle
WO2020100343A1 (en) * 2018-11-16 2020-05-22 Mitsubishi Electric Corporation System and method to control operation of electrical device
CN112289044A (zh) * 2020-11-02 2021-01-29 南京信息工程大学 基于深度强化学习的高速公路道路协同控制系统及方法
CN112700642A (zh) * 2020-12-19 2021-04-23 北京工业大学 一种利用智能网联车辆提高交通通行效率的方法
CN113744527A (zh) * 2021-08-31 2021-12-03 北京航空航天大学 一种面向高速公路合流区的智能靶向疏堵方法

Non-Patent Citations (8)

* Cited by examiner, † Cited by third party
Title
CHONG WANG: "Integrated Traffic Control for Freeway Recurrent Bottleneck Based on Deep Reinforcement Learning", 《IEEE TRANSACTIONS ON INTELLIGENT TRANSPORTATION SYSTEMS ( EARLY ACCESS )》 *
HUA XUE-DONG: "A hybrid traffic flow model with considering the influence of adaptive cruise control vehicles and on-ramps", 《ACTA PHYSICA SINICA》 *
LARRY SCHESTER: "Automated Driving Highway Traffic Merging using Deep Multi-Agent Reinforcement Learning in Continuous State-Action Spaces", 《2021 IEEE INTELLIGENT VEHICLES SYMPOSIUM (IV)》 *
YUAN LIN: "Anti-Jerk On-Ramp Merging Using Deep Reinforcement Learning", 《2020 IEEE INTELLIGENT VEHICLES SYMPOSIUM (IV)》 *
YUANKAIWU: "Differential variable speed limits control for freeway recurrent bottlenecks via deep actor-critic algorithm", 《TRANSPORTATION RESEARCH PART C: EMERGING TECHNOLOGIES》 *
冉润东: "基于深度强化学习的高速公路入口匝道控制方法研究", 《中国优秀博硕士学位论文全文数据库(硕士)工程科技Ⅱ辑》 *
唐双: "基于深度强化学习的智能车高速公路合流区换道决策研究", 《万方数据库》 *
柯泽冕: "基于深度强化学习的可变限速控制策略优化和场景移植研究", 《中国优秀博硕士学位论文全文数据库(硕士)工程科技Ⅱ辑》 *

Cited By (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2023159841A1 (zh) * 2022-02-23 2023-08-31 东南大学 高速公路网联车协同匝道汇入多目标优化控制方法和系统
CN114973650A (zh) * 2022-04-13 2022-08-30 东南大学 车辆匝道入口合流控制方法、车辆、电子设备及存储介质
CN114973650B (zh) * 2022-04-13 2023-05-23 东南大学 车辆匝道入口合流控制方法、车辆、电子设备及存储介质
CN115188204A (zh) * 2022-06-29 2022-10-14 东南大学 一种异常天气条件下高速公路车道级可变限速控制方法
CN115188204B (zh) * 2022-06-29 2023-08-15 东南大学 一种异常天气条件下高速公路车道级可变限速控制方法
CN114863689A (zh) * 2022-07-08 2022-08-05 中汽研(天津)汽车工程研究院有限公司 一种上下匝道行为场景数据采集、识别与提取方法和系统
CN114999160A (zh) * 2022-07-18 2022-09-02 四川省公路规划勘察设计研究院有限公司 一种基于车路协同道路的车辆安全合流控制方法及系统
CN114999160B (zh) * 2022-07-18 2022-10-21 四川省公路规划勘察设计研究院有限公司 一种基于车路协同道路的车辆安全合流控制方法及系统
CN115171388A (zh) * 2022-07-20 2022-10-11 辽宁工程技术大学 一种智能网联车的多交叉口旅行时间协同优化方法
CN115578865A (zh) * 2022-09-28 2023-01-06 东南大学 一种基于人工智能的自动驾驶车辆汇入间隙选择优化方法
CN115578865B (zh) * 2022-09-28 2023-08-29 东南大学 一种基于人工智能的自动驾驶车辆汇入间隙选择优化方法
CN115909780A (zh) * 2022-11-09 2023-04-04 江苏大学 基于智能网联与rbf神经网络的高速路汇入控制系统与方法

Also Published As

Publication number Publication date
WO2023159841A1 (zh) 2023-08-31
CN114241778B (zh) 2022-05-17

Similar Documents

Publication Publication Date Title
CN114241778B (zh) 高速公路网联车协同匝道汇入多目标优化控制方法和系统
US11205124B1 (en) Method and system for controlling heavy-haul train based on reinforcement learning
He et al. An improved MPC-based energy management strategy for hybrid vehicles using V2V and V2I communications
CN110775065B (zh) 一种基于工况识别的混合动力汽车电池寿命预测方法
Tang et al. Distributed deep reinforcement learning-based energy and emission management strategy for hybrid electric vehicles
Chen et al. An intelligent path planning scheme of autonomous vehicles platoon using deep reinforcement learning on network edge
CN111267831A (zh) 一种混合动力车辆智能变时域模型预测能量管理方法
US20230267829A1 (en) Multi-objective optimization control method and system for cooperative ramp merging of connected vehicles on highway
Yan et al. Hierarchical predictive energy management of fuel cell buses with launch control integrating traffic information
CN111959492B (zh) 一种网联环境下考虑换道行为的hev能量管理分层控制方法
CN113269963B (zh) 一种基于强化学习的网联车辆信号灯控路口经济通行方法
CN112339756A (zh) 一种基于强化学习的新能源汽车红绿灯路口能量回收优化速度规划算法
CN111325975B (zh) 一种智能网联车辆在汇入口区域的集中优化协调方法
CN112686453A (zh) 机车能耗智能预测方法及系统
Yan et al. Design of a deep inference framework for required power forecasting and predictive control on a hybrid electric mining truck
Tong et al. Speed planning for connected electric buses based on battery capacity loss
CN115805840A (zh) 一种增程式电动装载机能耗控制方法及系统
CN112750298B (zh) 一种基于smdp和drl的货车编队动态资源分配方法
Zhang et al. Integrated velocity optimization and energy management strategy for hybrid electric vehicle platoon: A multi-agent reinforcement learning approach
Jin et al. Energy-optimal speed control for connected electric buses considering passenger load
CN106696952A (zh) 一种智能网联混合动力汽车能量控制方法
Wang et al. Traffic signal priority control based on shared experience multi‐agent deep reinforcement learning
WO2024001301A1 (zh) 一种无信号灯交叉路口车辆协同控制方法及系统
Zhang et al. An optimal vehicle speed planning algorithm for regenerative braking at traffic lights intersections based on reinforcement learning
CN117636661A (zh) 一种无信号交叉口完全自主交通流通行控制方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
CB03 Change of inventor or designer information

Inventor after: Ding Fan

Inventor after: Dong Hanxuan

Inventor after: Zhang Hailong

Inventor after: Tan Huachun

Inventor after: Ye Linhui

Inventor after: Dai Yunqi

Inventor before: Dong Hanxuan

Inventor before: Ding Fan

Inventor before: Zhang Hailong

Inventor before: Tan Huachun

Inventor before: Ye Linhui

Inventor before: Dai Yunqi

CB03 Change of inventor or designer information