CN114863708B - 一种面向营运车辆的道路合流区路侧实时精准诱导方法 - Google Patents

一种面向营运车辆的道路合流区路侧实时精准诱导方法 Download PDF

Info

Publication number
CN114863708B
CN114863708B CN202210501894.7A CN202210501894A CN114863708B CN 114863708 B CN114863708 B CN 114863708B CN 202210501894 A CN202210501894 A CN 202210501894A CN 114863708 B CN114863708 B CN 114863708B
Authority
CN
China
Prior art keywords
vehicle
action
network
strategy
reward
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202210501894.7A
Other languages
English (en)
Other versions
CN114863708A (zh
Inventor
李旭
胡锦超
朱建潇
徐启敏
祝雪芬
胡玮明
孔栋
胡悦
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Southeast University
Original Assignee
Southeast University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Southeast University filed Critical Southeast University
Priority to CN202210501894.7A priority Critical patent/CN114863708B/zh
Publication of CN114863708A publication Critical patent/CN114863708A/zh
Application granted granted Critical
Publication of CN114863708B publication Critical patent/CN114863708B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G08SIGNALLING
    • G08GTRAFFIC CONTROL SYSTEMS
    • G08G1/00Traffic control systems for road vehicles
    • G08G1/09Arrangements for giving variable traffic instructions
    • G08G1/0962Arrangements for giving variable traffic instructions having an indicator mounted inside the vehicle, e.g. giving voice messages
    • G08G1/0967Systems involving transmission of highway information, e.g. weather, speed limits
    • G08G1/096708Systems involving transmission of highway information, e.g. weather, speed limits where the received information might be used to generate an automatic action on the vehicle control
    • G08G1/096716Systems involving transmission of highway information, e.g. weather, speed limits where the received information might be used to generate an automatic action on the vehicle control where the received information does not generate an automatic action on the vehicle control
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/06Resources, workflows, human or project management; Enterprise or organisation planning; Enterprise or organisation modelling
    • G06Q10/063Operations research, analysis or management
    • G06Q10/0635Risk analysis of enterprise or organisation activities
    • GPHYSICS
    • G08SIGNALLING
    • G08GTRAFFIC CONTROL SYSTEMS
    • G08G1/00Traffic control systems for road vehicles
    • G08G1/16Anti-collision systems
    • G08G1/166Anti-collision systems for active traffic, e.g. moving vehicles, pedestrians, bikes
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02TCLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
    • Y02T10/00Road transport of goods or passengers
    • Y02T10/10Internal combustion engine [ICE] based vehicles
    • Y02T10/40Engine management systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Business, Economics & Management (AREA)
  • Data Mining & Analysis (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Human Resources & Organizations (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • General Engineering & Computer Science (AREA)
  • General Health & Medical Sciences (AREA)
  • Economics (AREA)
  • Strategic Management (AREA)
  • Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Atmospheric Sciences (AREA)
  • Development Economics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Educational Administration (AREA)
  • Evolutionary Biology (AREA)
  • Game Theory and Decision Science (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Marketing (AREA)
  • Operations Research (AREA)
  • Quality & Reliability (AREA)
  • Tourism & Hospitality (AREA)
  • General Business, Economics & Management (AREA)
  • Traffic Control Systems (AREA)

Abstract

本发明公开了一种面向营运车辆的道路合流区路侧实时精准诱导方法。现有的路侧诱导方法在诱导的实时性、诱导精准性方面无法适用于营运车辆。本发明的方法包含以下几个步骤:步骤一:训练环境中的输入数据预处理;步骤二:设计状态空间、动作空间、奖励函数;步骤三:基于深度确定性策略梯度算法,设计深度策略网络和动作网络并进行训练;步骤四:评估营运车辆诱导效果。本发明能够将转向、制动、加速等方面精准量化的安全性最优的驾驶建议发送给营运车辆,诱导营运车辆安全且高效地通过道路合流区。

Description

一种面向营运车辆的道路合流区路侧实时精准诱导方法
技术领域
本发明涉及在道路合流区域,智能路侧设备诱导营运车辆安全高效驾驶,尤其涉及一种面向营运车辆的道路合流区路侧诱导方法,属于路侧设备智能化技术领域。
背景技术
相比乘用车辆,危险品运输罐车、物流运输车等营运车辆具有载重量大、质心位置高、驾驶员视野盲区大等特点,导致其制动距离较长、侧倾稳定性较差、碰撞风险更高。营运车辆运行途中一旦发生交通事故,易造成财产损失、环境污染、群死群伤等恶劣影响,且极易诱发大型、特大型安全事故。尤其在道路合流区域,处于驾驶员视野盲区内的匝道时常有车辆汇入,交通流运行波动较大,营运车辆紧急制动、紧急变道更加频繁。营运车辆发生碰撞、侧翻等交通事故的可能性更大、风险也更高。因此,在道路合流区域,针对营运车辆的特点,对其进行路侧安全诱导具有十分重要的意义。
目前路侧安全诱导方法有静态诱导法、准动态诱导法。静态诱导法有布设光学车道线、交通标志牌、交通信号灯、无线地磁等。虽然该类诱导方法能够给驾驶人员提前预知路段拥堵信息,帮助驾驶员重新规划行驶路线,诱导驾驶员避开拥堵路段,很好地缓解了道路拥堵,但是静态诱导方法多基于静态交通信息对车辆进行诱导,诱导实时性不强。准动态诱导法采用交通信息采集及大数据分析技术,基于分析结果将诱导信息发送至可变情报板或自适应交通信号灯。虽然准动态诱导法在静态诱导法的基础上结合了采集的准动态交通信息,具有一定的自适应性,但由于营运车辆驾驶员视野盲区大,并且处于盲区内的匝道时常有车辆汇入,导致营运车辆驾驶员常常面临突发的碰撞危险工况,此时紧急变道与紧急制动,进一步导致营运车辆发生侧翻。总体而言,针对营运车辆所具有的危险工况突发特点及其防碰撞、防侧翻的需求,静态诱导法和准动态诱导法无法适用于营运车辆,特别是在合流区这类营运车辆碰撞或侧翻事故多发的典型区域,目前尚缺乏面向营运车辆的路侧实时精准量化的诱导方法。
发明内容
发明目的:针对现有的路侧诱导方法在诱导的实时性、精准性方面无法适用于营运车辆的问题,面向道路合流区的营运车辆,发明一种基于深度强化学习的路侧实时精准诱导方法,该方法基于道路环境先验信息、智能路侧设备实时感知车辆目标的信息,实时决策出转向、制动、加速等方面精准的安全最优的驾驶建议,通过营运车辆前装或后装的车路通信设备,将转向、制动、加速等方面精准的安全性最优的驾驶建议发送给营运车辆,诱导营运车辆安全且高效地通过道路合流区。
技术方案:为实现本发明的目的,本发明所采用的技术方案是:
首先构建用于深度强化学习的仿真环境,并对输入数据进行预处理;其次是分析营运车辆在道路合流区安全性最优的驾驶建议决策需求,设计奖励函数、状态空间、动作空间;其次是基于深度确定性策略梯度算法,构建深度策略网络和深度动作网络,并对深度策略网络和深度动作网络进行迭代训练,直至收敛;最后对诱导效果进行评估,将该算法部署在智能路侧设备中,对合流区营运车辆进行安全诱导,具体方法包括以下步骤:
步骤一、输入数据预处理
智能路侧设备实时感知车辆目标的位置、速度、类别信息,结合合流区道路线形、车道数、车道宽度、智能路侧设备传感器探测范围的先验信息,将合流区道路划分成若干个a×b的栅格,将道路合流区及车辆目标抽象成栅格图G,其中a表示栅格的长度,b表示栅格的宽度;每个栅格包含四种属性,分别为栅格坐标、对应车辆的类别、对应车辆的速度、与左右车道线的距离;
步骤二、设计状态空间、动作空间、奖励函数
子步骤(1)、利用步骤一中的栅格图信息,确定状态空间为步骤一中的栅格图G;
子步骤(2)、确定动作空间actions=[Δs,Δt,Δb],其中,Δs表示方向盘转角的变化量,Δt表示油门开度的变化量,Δb表示制动压力的变化量;
子步骤(3)、设计奖励函数包含四个子项,分别为:碰撞风险子奖励、侧倾角子奖励、侧向加速度子奖励、效率子奖励,其中
1)碰撞风险子奖励
利用智能路侧设备的全局视角优势,感知合流区域内营运车辆前后方车辆与营运车辆的距离、车辆的速度信息,计算营运车辆即将发生碰撞的时间Tr(i)
Figure BDA0003634114360000021
式中,Tr(i)表示营运车辆由当前位置与前后方车辆即将发生碰撞所经历的时间,r表示营运车辆前后方车辆的集合,i表示车辆的编号,dr(i)表示车辆i与营运车辆的位移,vr(i)表示车辆i的速度,由于dr(i)和vr(i)具有动态性和不确定性,故Tr(i)也具有动态性和不确定性,lane=ego表示前后方车辆在车道上保持直行,未发生换道行为;
根据公式(1)计算的当前时刻Tr(i)的大小,代入公式(2)、公式(3)、公式(4)所构造的碰撞风险的条件概率分布函数;
Figure BDA0003634114360000031
Figure BDA0003634114360000032
Figure BDA0003634114360000033
式中,p(Tr(i)|D)、p(Tr(i)|A)、p(Tr(i)|S)均为碰撞风险评估指标Tr(i)的条件概率,反映合流区碰撞风险关于Tr(i)的先验知识,D、A、S分别表示碰撞风险为高(危险)、中(谨慎)、低(安全);k1,k2,k3均表示比例系数,σ表示Tr(i)的标准差,表示营运车辆与前后方车辆发生碰撞的不确定性,
Figure BDA0003634114360000034
表示第一个时间阈值,
Figure BDA0003634114360000035
表示第二个时间阈值;
假设各车辆的碰撞风险服从均匀分布,建立基于概率的碰撞风险模型:
Figure BDA0003634114360000036
式中,p(z(i)|Tr(i))表示营运车辆前后方车辆所处的碰撞风险z的概率,p(Tr(i)|z)表示营运车辆与前后方车辆即将发生碰撞的时间Tr(i)的条件概率,p(Tr(i)|Z(j))表示各碰撞风险等级下Tr(i)的条件概率,Z(j)表示Z中的第j个元素,Nz表示碰撞风险等级的数量,由于将碰撞风险等级分为高、中、低三个等级,即Nz=3;
2)侧倾角子奖励
Figure BDA0003634114360000041
式中,β为智能路侧设备通过车路通信的方式获得的营运车辆的侧倾角,βT为预设的侧倾角阈值,βT>0;
3)侧向加速度子奖励
Figure BDA0003634114360000042
式中,a为智能路侧设备通过车路通信的方式获得的营运车辆的侧向加速度,aT为预设的侧向加速度阈值,aT>0;
4)效率子奖励
以断面时间平均车速表征效率,即在单位时间内测得通过道路某个断面各车辆的点速度,这些点速度的算术平均值,即为该断面的时间平均车速,即:
Figure BDA0003634114360000043
式中,vi表示第i辆车的点速度(km/h)、n表示单位时间内观测到的车辆总数(辆);
5)奖励函数
rt=r1+r2+r3+r4 (9)
步骤三:构建、训练深度策略网络和深度动作网络
采用基于深度确定性策略梯度算法,所述基于深度确定性策略梯度算法使用异策略的Actor-Critic框架完成强化学习过程,Actor-Critic框架有两个部分组成,Actor是行动策略负责与环境的交互,也就是策略网络,Critic作策略评估,利用函数逼近方法估计值函数
Figure BDA0003634114360000044
πθ为策略分布,si为当前状态,ai为当前动作。动作网络调整参数θ输出动作,策略评估网络指导这动作网络累计回报更大的方向收敛,其中,
策略评估网络结构设计为:
1)输入层_1、第一层的输入是状态栅格图,像素为Q×Q’,通道数为1;
2)全连接层_2、该全连接层包含48个神经元,并经ReLU函数激活;
3)全连接层_3、该全连接层包含48个神经元,并经ReLU函数激活;
4)添加层_4、该层添加来自两个神经网络层的输入,包括状态空间输入和动作空间输入,并经ReLU函数激活;
5)动作空间输入层_5、该层输入动作空间数据A=[Δs,Δt,Δb];
6)动作空间全连接层_6、该全连接层包含48个神经元,并经ReLU函数激活;
7)全连接层_7、该全连接层包含48个神经元,并经ReLU函数激活;
8)全连接层_8、该全连接层包含1个神经元;
动作网络结构设计为:
1)输入层_1、第一层的输入是状态栅格图,像素为Q×Q’,通道数为1;
2)全连接层_2、该全连接层包含48个神经元,并经ReLU函数激活;
3)全连接层_3、该全连接层包含48个神经元,并经ReLU函数激活;
4)全连接层_4、该全连接层包含3个神经元,3个神经元的输入对应动作空间中3个动作,并经tanh函数激活;
5)输出层_5、该层对动作网络的输出值进行缩放,将动作网络的输出与实际的营运车辆诱导控制范围相对应;
策略评估网络和动作网络的参数更新策略为:
Figure BDA0003634114360000051
Figure BDA0003634114360000052
Figure BDA0003634114360000053
θ-=τθ+(1-τ)θ- (13)
ω-=τω+(1-τ)ω- (14)
其中,δt表示优势函数,rt表示当前奖励函数,γ表示折扣因子,
Figure BDA0003634114360000054
表示下一步策略价值,Qw(st,at)表示当前策略价值,ωt+1和ωt分别表示策略评估网络中下一步和当前的权重参数,αω表示策略评估网络学习率,
Figure BDA0003634114360000061
表示策略评估网络值函数的梯度,θt+1和θt分别表示动作网络下一步和当前的权重参数,αθ表示动作网络学习率,
Figure BDA0003634114360000062
表示动作网络策略梯度,
Figure BDA0003634114360000063
表示在采取策略μθ(s)时值函数的梯度值,θ-和θ分别表示策略评估目标网络权重更新后与更新前的参数,τ为比例系数,ω-和ω分别表示动作目标网络权重更新后与更新前的参数;
步骤四、评估营运车辆实时精准诱导效果
迭代收敛后,保存策略评估网络和动作网络,改变状态空间作为新的输入,输出动作空间,根据输出的动作诱导营运车辆行驶,评估合流区营运车辆侧倾角、侧向加速度、营运车辆与周围车辆的碰撞风险以及合流区断面时间平均速度。
有益效果:与现有技术相比,本发明的技术方案具有以下有益技术效果:
(1)基于合流区交通环境先验信息和智能路侧设备实时感知的车辆目标动态信息,智能路侧设备决策出营运车辆的驾驶建议,并通过车路通信设备发送给营运车辆,诱导的实时性比现有的静态诱导法和准动态诱导法高。
(2)基于深度强化学习算法实时输出营运车辆的转向、制动、加速等方面的驾驶建议,其诱导的精准性比现有的静态诱导法和准动态诱导法高。
(3)诱导方法既考虑营运车辆防碰撞、防侧翻的安全问题,又兼顾了道路合流区车辆的通行效率。
附图说明
图1是本发明的技术方案图;
图2是本发明深度确定性策略梯度算法网络结构图;
图3是具体实施例的合流区场景图;图中L1、L2、L3分别表示车道1、车道2、车道3,V1、V2、V3分别表示营运车辆、其他车辆1、其他车辆2,R1、R2分别表示干道、匝道,E1、E2分别表示龙门架、智能路侧设备。
具体实施方式
为了加深对本发明的理解,下面结合附图对本实施例作进一步的说明。
实施例1:相比乘用车辆,危险品运输罐车、物流运输车等营运车辆具有载重量大、质心位置高、驾驶员视野盲区大等特点,导致其制动距离较长、侧倾稳定性较差、碰撞风险更高。营运车辆运行途中一旦发生交通事故,易造成财产损失、环境污染、群死群伤等恶劣影响,且极易诱发大型、特大型安全事故。尤其在道路合流区域,处于驾驶员视野盲区内的匝道时常有车辆汇入,交通流运行波动较大,营运车辆紧急制动、紧急变道更加频繁。营运车辆发生碰撞、侧翻等交通事故的可能性更大、风险也更高。因此,在道路合流区域,针对营运车辆的特点,对其进行路侧安全诱导具有十分重要的意义。
目前路侧安全诱导方法有静态诱导法、准动态诱导法。静态诱导法有布设光学车道线、交通标志牌、交通信号灯、无线地磁等。虽然该类诱导方法能够给驾驶人员提前预知路段拥堵信息,帮助驾驶员重新规划行驶路线,诱导驾驶员避开拥堵路段,很好地缓解了道路拥堵,但是静态诱导方法多基于静态交通信息对车辆进行诱导,诱导实时性不强。准动态诱导法采用交通信息采集及大数据分析技术,基于分析结果将诱导信息发送至可变情报板或自适应交通信号灯。虽然准动态诱导法在静态诱导法的基础上结合了采集的准动态交通信息,具有一定的自适应性,但由于营运车辆驾驶员视野盲区大,并且处于盲区内的匝道时常有车辆汇入,导致营运车辆驾驶员常常面临突发的碰撞危险工况,此时紧急变道与紧急制动,进一步导致营运车辆发生侧翻。总体而言,针对营运车辆所具有的危险工况突发特点及其防碰撞、防侧翻的需求,静态诱导法和准动态诱导法无法适用于营运车辆,特别是在合流区这类营运车辆碰撞或侧翻事故多发的典型区域,目前尚缺乏面向营运车辆的路侧实时精准量化的诱导方法。
针对现有的路侧诱导方法在诱导的实时性、转向制动精准性方面无法适用于营运车辆的问题,面向道路合流区的营运车辆,发明一种基于深度强化学习的路侧实时精准诱导方法,该方法基于道路环境先验信息、智能路侧设备实时感知车辆目标的信息,实时决策出转向、制动、加速等方面精准的安全性最优的驾驶建议,通过营运车辆前装或后装的车路通信设备,将转向、制动、加速等方面精准的安全性最优的驾驶建议发送给营运车辆,诱导营运车辆安全且高效地通过道路合流区。
为实现上述目的,本发明所采用的技术方案是:首先构建用于深度强化学习的仿真环境,并对输入数据进行预处理;其次是分析营运车辆在道路合流区安全性最优的驾驶建议决策需求,设计奖励函数、状态空间、动作空间;再其次是基于深度确定性策略梯度(Deep Deterministic Policy Gradient,DDPG)算法,构建深度策略网络和深度动作网络,并对深度策略网络和深度动作网络进行迭代训练,直至收敛,进一步对决策效果进行验证,最后将该算法部署在智能路侧设备中,对合流区营运车辆进行安全诱导。
下面以附图3中所示的道路合流区为例,对本发明的思路作进一步说明,阐述本发明的具体实施方式。附图2中L1、L2、L3分别表示车道1、车道2、车道3,V1、V2、V3分别表示营运车辆、其他车辆1、其他车辆2,R1、R2分别表示干道、匝道,E1、E2分别表示龙门架、智能路侧设备,智能路侧设备实时采集合流区车辆目标信息,本发明的实时精准诱发方法也运行在智能路侧设备中。具体的步骤如下:
步骤一、输入数据预处理
智能路侧设备实时感知车辆目标的位置、速度、类别信息,结合合流区道路线形、车道数、车道宽度、智能路侧设备传感器探测范围等先验信息,将合流区道路划分成若干个a×b的栅格,将道路合流区及车辆目标抽象成栅格图G。其中a表示栅格的长度,b表示栅格的宽度。每个栅格包含四种属性,包括栅格坐标、对应车辆的类别、对应车辆的速度、与左右车道线的距离。
步骤二、设计状态空间、动作空间、奖励函数
子步骤(1)、状态空间是对道路合流区交通环境的抽象,本发明利用步骤一中的栅格图信息,确定状态空间为步骤一中的栅格图G。
子步骤(2)、动作空间是智能路侧设备诱导营运车辆控制量的集合,为连续空间。本发明为防止营运车辆猛打方向盘和紧急制动,实现对营运车辆转向、制动、加速等方面的精准诱导,故确定动作空间actions=[Δs,Δt,Δb],其中,Δs表示方向盘转角的变化量,Δt表示油门开度的变化量,Δb表示制动压力的变化量。
子步骤(3)、奖励函数是智能路侧设备实时决策出营运车辆驾驶动作后交通环境形成的即时反馈。本发明包含防碰撞、抗侧翻在内的安全及效率营运车辆精准诱导策略,交通环境在营运车辆执行驾驶动作后,应在碰撞、侧翻、效率等方面形成即时反馈,故设计本发明的奖励函数包含四个子项,分别为:碰撞风险子奖励、侧倾角子奖励、侧向加速度子奖励、效率子奖励。
1)碰撞风险子奖励
利用智能路侧设备的全局视角优势,感知合流区域内营运车辆前后方车辆与营运车辆的距离、车辆的速度等信息,计算营运车辆即将发生碰撞的时间Tr(i)。
Figure BDA0003634114360000081
在公式(1)中,Tr(i)表示营运车辆由当前位置与前后方车辆即将发生碰撞所经历的时间,r表示营运车辆前后方车辆的集合,i表示车辆的编号,dr(i)表示车辆i与营运车辆的位移,vr(i)表示车辆i的速度,由于dr(i)和vr(i)具有动态性和不确定性,故Tr(i)也具有动态性和不确定性,lane=ego表示前后方车辆在车道上保持直行,未发生换道行为。
根据公式(1)计算的当前时刻Tr(i)的大小,代入公式(2)、公式(3)、公式(4)所构造的碰撞风险的条件概率分布函数。
Figure BDA0003634114360000091
Figure BDA0003634114360000092
Figure BDA0003634114360000093
在公式(2)、公式(3)、公式(4)中,p(Tr(i)|D)、p(Tr(i)|A)、p(Tr(i)|S)均为碰撞风险评估指标Tr(i)的条件概率,反映合流区碰撞风险关于Tr(i)的先验知识。D、A、S分别表示碰撞风险为高(危险)、中(谨慎)、低(安全)。k1,k2,k3均表示比例系数,σ表示Tr(i)的标准差,表示营运车辆与前后方车辆发生碰撞的不确定性。
Figure BDA0003634114360000094
表示本发明设置的第一个时间阈值,
Figure BDA0003634114360000095
表示本发明设置的第二个时间阈值。
假设各车辆的碰撞风险服从均匀分布,建立基于概率的碰撞风险模型:
Figure BDA0003634114360000096
在公式(5)中,p(z(i)|Tr(i))表示营运车辆前后方车辆所处的碰撞风险z的概率。p(Tr(i)|z)表示营运车辆与前后方车辆即将发生碰撞的时间Tr(i)的条件概率。p(Tr(i)|Z(j))表示各碰撞风险等级下Tr(i)的条件概率。Z(j)表示Z中的第j个元素。Nz表示碰撞风险等级的数量,本发明将碰撞风险等级分为高、中、低三个等级,即Nz=3。
2)侧倾角子奖励
Figure BDA0003634114360000101
公式(6)中,β为智能路侧设备通过车路通信的方式获得的营运车辆的侧倾角,βT为预设的侧倾角阈值,βT>0。
3)侧向加速度子奖励
Figure BDA0003634114360000102
公式(7)中,a为智能路侧设备通过车路通信的方式获得的营运车辆的侧向加速度,aT为预设的侧向加速度阈值,aT>0。
4)效率子奖励
以断面时间平均车速表征效率,即在单位时间内测得通过道路某个断面各车辆的点速度,这些点速度的算术平均值,即为该断面的时间平均车速,即:
Figure BDA0003634114360000103
公式(8)中,vi表示第i辆车的点速度(km/h)、n表示单位时间内观测到的车辆总数(辆)。
5)奖励函数
rt=r1+r2+r3+r4 (9)
步骤三:构建、训练深度策略网络和深度动作网络
考虑到动作空间actions=[Δs,Δt,Δb]均为连续量,故本发明采用基于深度确定性策略梯度(Deep Deterministic Policy Gradient,DDPG)算法。DDPG算法使用异策略的Actor-Critic框架完成强化学习过程,Actor-Critic框架有两个部分组成,Actor是行动策略负责与环境的交互,也就是我们要学的策略网络,Critic作策略评估,利用函数逼近方法估计值函数
Figure BDA0003634114360000111
πθ为策略分布,si为当前状态,ai为当前动作。动作网络调整参数θ输出动作,策略评估网络指导这动作网络累计回报更大的方向收敛。其中,
策略评估网络结构设计为:
1)输入层_1、第一层的输入是状态栅格图,像素为Q×Q’,通道数为1;
2)全连接层_2、该全连接层包含48个神经元,并经ReLU函数激活;
3)全连接层_3、该全连接层包含48个神经元,并经ReLU函数激活;
4)添加层_4、该层添加来自两个神经网络层的输入,包括状态空间输入和动作空间输入,并经ReLU函数激活;
5)动作空间输入层_5、该层输入动作空间数据A=[Δs,Δt,Δb];
6)动作空间全连接层_6、该全连接层包含48个神经元,并经ReLU函数激活;
7)全连接层_7、该全连接层包含48个神经元,并经ReLU函数激活;
8)全连接层_8、该全连接层包含1个神经元;
动作网络结构设计为:
1)输入层_1、第一层的输入是状态栅格图,像素为Q×Q’,通道数为1;
2)全连接层_2、该全连接层包含48个神经元,并经ReLU函数激活;
3)全连接层_3、该全连接层包含48个神经元,并经ReLU函数激活;
4)全连接层_4、该全连接层包含3个神经元,3个神经元的输入对应动作空间中3个动作,并经tanh函数激活;
5)输出层_5、该层对动作网络的输出值进行缩放,将动作网络的输出与实际的营运车辆诱导控制范围相对应;
策略评估网络和动作网络的参数更新策略为:
Figure BDA0003634114360000112
Figure BDA0003634114360000113
Figure BDA0003634114360000114
θ-=τθ+(1-τ)θ- (13)
ω-=τω+(1-τ)ω- (14)
其中,δt表示优势函数,rt表示当前奖励函数,γ表示折扣因子,
Figure BDA0003634114360000121
表示下一步策略价值,Qw(st,at)表示当前策略价值。ωt+1和ωt分别表示策略评估网络中下一步和当前的权重参数,αω表示策略评估网络学习率,Qw(st,at)表示策略评估网络值函数的梯度。θt+1和θt分别表示动作网络下一步和当前的权重参数,αθ表示动作网络学习率,
Figure BDA0003634114360000122
表示动作网络策略梯度,
Figure BDA0003634114360000123
表示在采取策略μθ(s)时值函数的梯度值。θ-和θ分别表示策略评估目标网络权重更新后与更新前的参数,τ为比例系数。ω-和ω分别表示动作目标网络权重更新后与更新前的参数。
步骤四、评估营运车辆实时精准诱导效果
迭代收敛后,保存策略评估网络和动作网络,改变状态空间作为新的输入,输出动作空间,根据输出的动作诱导营运车辆行驶。评估合流区营运车辆侧倾角、侧向加速度、营运车辆与周围车辆的碰撞风险以及合流区断面时间平均速度。
与现有技术相比,本发明的技术方案具有以下有益技术效果:
(1)基于合流区交通环境先验信息和智能路侧设备实时感知的车辆目标动态信息,智能路侧设备决策出营运车辆的驾驶建议,并通过车路通信设备发送给营运车辆,诱导的实时性比现有的静态诱导法和准动态诱导法高。
(2)基于深度强化学习算法实时输出营运车辆的转向、制动、加速等方面的驾驶建议,其诱导的精准性比现有的静态诱导法和准动态诱导法高。
(3)诱导方法既考虑营运车辆防碰撞、防侧翻的安全问题,还兼顾了道路合流区车辆的通行效率。

Claims (1)

1.一种面向营运车辆的道路合流区路侧实时精准诱导方法,其特征在于:首先构建用于深度强化学习的仿真环境,并对输入数据进行预处理;其次是分析营运车辆在道路合流区安全性最优的驾驶建议决策需求,设计奖励函数、状态空间、动作空间;其次是基于深度确定性策略梯度算法,构建深度策略网络和深度动作网络,并对深度策略网络和深度动作网络进行迭代训练,直至收敛;最后对诱导效果进行评估,将该算法部署在智能路侧设备中,对合流区营运车辆进行安全诱导,具体方法包括以下步骤:
步骤一、输入数据预处理
智能路侧设备实时感知车辆目标的位置、速度、类别信息,结合合流区道路线形、车道数、车道宽度、智能路侧设备传感器探测范围的先验信息,将合流区道路划分成若干个a×b的栅格,将道路合流区及车辆目标抽象成栅格图G,其中a表示栅格的长度,b表示栅格的宽度;每个栅格包含四种属性,分别为栅格坐标、对应车辆的类别、对应车辆的速度、与左右车道线的距离;
步骤二、设计状态空间、动作空间、奖励函数
子步骤(1)、利用步骤一中的栅格图信息,确定状态空间为步骤一中的栅格图G;
子步骤(2)、确定动作空间actions=[Δs,Δt,Δb],其中,Δs表示方向盘转角的变化量,Δt表示油门开度的变化量,Δb表示制动压力的变化量;
子步骤(3)、设计奖励函数包含四个子项,分别为:碰撞风险子奖励、侧倾角子奖励、侧向加速度子奖励、效率子奖励,其中
1)碰撞风险子奖励r1
利用智能路侧设备的全局视角优势,感知合流区域内营运车辆前后方车辆与营运车辆的距离、车辆的速度信息,计算营运车辆即将发生碰撞的时间Tr(i)
Figure FDA0004107818370000011
式中,Tr(i)表示营运车辆由当前位置与前后方车辆即将发生碰撞所经历的时间,r表示营运车辆前后方车辆的集合,i表示车辆的编号,dr(i)表示车辆i与营运车辆的位移,vr(i)表示车辆i的速度,由于dr(i)和vr(i)具有动态性和不确定性,故Tr(i)也具有动态性和不确定性,lane=ego表示前后方车辆在车道上保持直行,未发生换道行为;
根据公式(1)计算的当前时刻Tr(i)的大小,代入公式(2)、公式(3)、公式(4)所构造的碰撞风险的条件概率分布函数;
Figure FDA0004107818370000021
Figure FDA0004107818370000022
Figure FDA0004107818370000023
式中,p(Tr(i)|D)、p(Tr(i)|A)、p(Tr(i)|S)均为碰撞风险评估指标Tr(i)的条件概率,反映合流区碰撞风险关于Tr(i)的先验知识,D、A、S分别表示碰撞风险为高、中、低;k1,k2,k3均表示比例系数,σ表示Tr(i)的标准差,表示营运车辆与前后方车辆发生碰撞的不确定性,
Figure FDA0004107818370000024
表示第一个时间阈值,
Figure FDA0004107818370000025
表示第二个时间阈值;
假设各车辆的碰撞风险服从均匀分布,建立基于概率的碰撞风险模型:
Figure FDA0004107818370000026
式中,p(z(i)|Tr(i))表示营运车辆前后方车辆所处的碰撞风险z的概率,p(Tr(i)|z)表示营运车辆与前后方车辆即将发生碰撞的时间Tr(i)的条件概率,p(Tr(i)|Z(j))表示各碰撞风险等级下Tr(i)的条件概率,Z(j)表示Z中的第j个元素,Nz表示碰撞风险等级的数量,由于将碰撞风险等级分为高、中、低三个等级,即Nz=3;
2)侧倾角子奖励r2
Figure FDA0004107818370000031
式中,β为智能路侧设备通过车路通信的方式获得的营运车辆的侧倾角,βT为预设的侧倾角阈值,βT>0;
3)侧向加速度子奖励r3
Figure FDA0004107818370000032
式中,a为智能路侧设备通过车路通信的方式获得的营运车辆的侧向加速度,aT为预设的侧向加速度阈值,aT>0;
4)效率子奖励r4
以断面时间平均车速表征效率,即在单位时间内测得通过道路某个断面各车辆的点速度,这些点速度的算术平均值,即为该断面的时间平均车速,即:
Figure FDA0004107818370000033
式中,vi表示第i辆车的点速度(km/h)、n表示单位时间内观测到的车辆总数(辆);
5)奖励函数rt
rt=r1+r2+r3+r4(9)
步骤三:构建、训练深度策略网络和深度动作网络
采用基于深度确定性策略梯度算法,所述基于深度确定性策略梯度算法使用异策略的Actor-Critic框架完成强化学习过程,Actor-Critic框架有两个部分组成,Actor是行动策略负责与环境的交互,也就是策略网络,Critic作策略评估,利用函数逼近方法估计值函数
Figure FDA0004107818370000034
πθ为策略分布,si为当前状态,ai为当前动作,动作网络调整参数θ输出动作,策略评估网络指导这动作网络累计回报更大的方向收敛,其中,
策略评估网络结构设计为:
1)输入层_1、第一层的输入是状态栅格图,像素为Q×Q’,通道数为1;
2)全连接层_2、该全连接层包含48个神经元,并经ReLU函数激活;
3)全连接层_3、该全连接层包含48个神经元,并经ReLU函数激活;
4)添加层_4、该层添加来自两个神经网络层的输入,包括状态空间输入和动作空间输入,并经ReLU函数激活;
5)动作空间输入层_5、该层输入动作空间数据A=[Δs,Δt,Δb];
6)动作空间全连接层_6、该全连接层包含48个神经元,并经ReLU函数激活;
7)全连接层_7、该全连接层包含48个神经元,并经ReLU函数激活;
8)全连接层_8、该全连接层包含1个神经元;
动作网络结构设计为:
1)输入层_1、第一层的输入是状态栅格图,像素为Q×Q’,通道数为1;
2)全连接层_2、该全连接层包含48个神经元,并经ReLU函数激活;
3)全连接层_3、该全连接层包含48个神经元,并经ReLU函数激活;
4)全连接层_4、该全连接层包含3个神经元,3个神经元的输入对应动作空间中3个动作,并经tanh函数激活;
5)输出层_5、该层对动作网络的输出值进行缩放,将动作网络的输出与实际的营运车辆诱导控制范围相对应;
策略评估网络和动作网络的参数更新策略为:
Figure FDA0004107818370000041
Figure FDA0004107818370000042
Figure FDA0004107818370000043
θ-=τθ+(1-τ)θ- (13)
ω-=τω+(1-τ)ω- (14)
其中,δt表示优势函数,rt表示当前奖励函数,γ表示折扣因子,
Figure FDA0004107818370000044
表示下一步策略价值,Qw(st,at)表示当前策略价值,ωt+1和ωt分别表示策略评估网络中下一步和当前的权重参数,αω表示策略评估网络学习率,
Figure FDA0004107818370000045
表示策略评估网络值函数的梯度,θt+1和θt分别表示动作网络下一步和当前的权重参数,αθ表示动作网络学习率,
Figure FDA0004107818370000051
表示动作网络策略梯度,
Figure FDA0004107818370000052
表示在采取策略μθ(s)时值函数的梯度值,θ-和θ分别表示策略评估目标网络权重更新后与更新前的参数,τ为比例系数,ω-和ω分别表示动作目标网络权重更新后与更新前的参数;
步骤四、评估营运车辆实时精准诱导效果
迭代收敛后,保存策略评估网络和动作网络,改变状态空间作为新的输入,输出动作空间,根据输出的动作诱导营运车辆行驶,评估合流区营运车辆侧倾角、侧向加速度、营运车辆与周围车辆的碰撞风险以及合流区断面时间平均速度。
CN202210501894.7A 2022-05-09 2022-05-09 一种面向营运车辆的道路合流区路侧实时精准诱导方法 Active CN114863708B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210501894.7A CN114863708B (zh) 2022-05-09 2022-05-09 一种面向营运车辆的道路合流区路侧实时精准诱导方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210501894.7A CN114863708B (zh) 2022-05-09 2022-05-09 一种面向营运车辆的道路合流区路侧实时精准诱导方法

Publications (2)

Publication Number Publication Date
CN114863708A CN114863708A (zh) 2022-08-05
CN114863708B true CN114863708B (zh) 2023-04-18

Family

ID=82637171

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210501894.7A Active CN114863708B (zh) 2022-05-09 2022-05-09 一种面向营运车辆的道路合流区路侧实时精准诱导方法

Country Status (1)

Country Link
CN (1) CN114863708B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115440041B (zh) * 2022-09-02 2023-05-30 东南大学 一种路侧视角下的重点车辆驾驶行为预测方法

Family Cites Families (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109377785A (zh) * 2018-10-22 2019-02-22 北京航空航天大学 一种基于深度学习的高速公路合流区车辆冲突预警方法
CN112622886B (zh) * 2020-12-20 2022-02-15 东南大学 一种综合考虑前后障碍物的重型营运车辆防碰撞预警方法
CN112633474B (zh) * 2020-12-20 2022-04-05 东南大学 一种重型营运车辆的后向防撞驾驶决策方法
CN112580148B (zh) * 2020-12-20 2022-11-18 东南大学 基于深度强化学习的重型营运车辆防侧翻驾驶决策方法
CN112735132B (zh) * 2020-12-29 2022-03-29 华设设计集团股份有限公司 一种车辆汇流引导系统及方法
CN113744527B (zh) * 2021-08-31 2022-07-12 北京航空航天大学 一种面向高速公路合流区的智能靶向疏堵方法
CN113753026B (zh) * 2021-10-21 2022-08-02 东南大学 一种考虑路面附着条件的大型营运车辆防侧翻决策方法
CN113753034B (zh) * 2021-10-21 2022-08-02 东南大学 一种考虑路面附着条件的大型营运车辆防碰撞决策方法
CN114407931B (zh) * 2022-02-21 2024-05-03 东南大学 一种高度类人的自动驾驶营运车辆安全驾驶决策方法
CN114379540B (zh) * 2022-02-21 2024-04-30 东南大学 考虑前方障碍物影响的大型营运车辆防侧翻驾驶决策方法

Also Published As

Publication number Publication date
CN114863708A (zh) 2022-08-05

Similar Documents

Publication Publication Date Title
CN112224211A (zh) 基于多自主体交通流的驾驶模拟仿真系统
US7487074B2 (en) Road traffic simulation apparatus
CN112896170B (zh) 一种车路协同环境下的自动驾驶横向控制方法
CN111222630A (zh) 一种基于深度强化学习的自主驾驶规则学习方法
CN112249008B (zh) 针对复杂动态环境的无人驾驶汽车预警方法
CN111775949A (zh) 一种人机共驾控制系统的个性化驾驶员转向行为辅助方法
CN110843789A (zh) 一种基于时序卷积网络的车辆换道意图预测方法
CN114117829B (zh) 极限工况下人-车-路闭环系统动力学建模方法及系统
CN114863708B (zh) 一种面向营运车辆的道路合流区路侧实时精准诱导方法
CN110989568A (zh) 一种基于模糊控制器的自动驾驶车辆安全通行方法及系统
CN116564095A (zh) 基于cps的重点车辆高速公路隧道预测巡航云控制方法
Alonso et al. Toward a methodology to assess safety of a vehicle
CN116596380A (zh) 高速公路施工组织方案和管控方案的优化确定方法、平台、设备及介质
CN114802306A (zh) 一种基于人机共驾理念的智能车辆集成式决策系统
CN114987539A (zh) 一种基于风险场模型的自动驾驶汽车个性化碰撞分级预警方法及系统
CN113110359B (zh) 约束型智能汽车自主决策系统在线训练方法及装置
CN117292540B (zh) 一种桥梁侧风环境车辆侧滑及侧翻预警系统及方法
CN112885116A (zh) 一种高速公路雨雾场景车路协同诱导系统
CN115629608A (zh) 基于深度预测网络和深度强化学习的自动驾驶车辆控制方法
CN115140048A (zh) 一种自动驾驶行为决策与轨迹规划模型与方法
JP4041028B2 (ja) 交通流ミクロシミュレーションにおける車線変更判定方法およびそれを適用した交通流ミクロシミュレーションシステム
CN114701517A (zh) 基于强化学习的多目标复杂交通场景下自动驾驶解决方法
CN110610611B (zh) 面向混行交通流中智能网联车辆的行车安全性评价方法
CN114779764A (zh) 基于行车风险分析的车辆强化学习运动规划方法
Marzbanrad et al. Prediction of driver’s accelerating behavior in the stop and go maneuvers using genetic algorithm-artificial neural network hybrid intelligence

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant