一种联合车辆关联度和博弈论的车路协同驾驶系统及方法
技术领域
本发明属于智能网联汽车与车联网领域,一种联合车辆关联度和博弈论的车路协同驾驶模型。
背景技术
随着私家车辆的数量日益增加,交通拥堵率以及安全事故发生数也逐年增长,我国的交通安全问题始终是一个亟待解决的问题。目前车辆生厂商使用较多的是单车智能方案来增加车辆行驶安全性,单车智能主要依靠车辆自身的视觉、毫米波雷达和激光雷达等传感器进行环境感知,完成对周围环境的探测以及定位功能。计算决策一方面将传感器数据进行分析处理,实现对目标的识别;另一方面进行行为预测和全局路径规划、局部路径规划和即时动作规划,决定车辆当前及未来的运动轨迹。控制执行主要包括车辆的运动控制以及人机交互,决定每个执行器如电机、油门、刹车等控制信号。但目前单车智能在环境感知、计算决策和控制执行的多个环节均存在不同程度的技术瓶颈,在应用过程中也出现了各种失效的问题,因此一方面需要不断地加强单车智能的感知、决策和控制能力;另一方面也希望引入不同的技术手段来进行弥补。所以目前基于单车智能的驾驶行为受限于感知环境范围,不能从一个宏观的角度做决策分析;受限于环境复杂性,面对复杂环境不能针对性的处理相关车辆;受限于车辆间以及车路间的协作,道路通行能力以及驾驶安全性得不到有效的提高。
因此车联网联化技术发展越来越受到社会各行各业重视,同时5G网络具备高可靠低时延的优势将为V2X提供更强大的性能和更多的可能性。V2X的发展使车路、车车协同的发展趋势越发快速,在车路协同方面,利用V2X通信范围大的优点可以宏观的判定及决策,例如一种车路协同自动驾驶方法、系统及车辆(202110155311.5)利用车路协同计算自车和其它车辆的协同驾驶控制指令,通过范围内的车辆信息和外部环境信息选择负载最小的车辆为所述自车,自车以自车驾驶员意图、其它车辆信息和路侧感知设备计算自车和其它车辆的驾驶控制指令,但其所述负载计算的车道通行能力只是为了选择所述自车,并没有把自车所在车道的通行能力与其它车道进行比较以选择更效率的车道通行,其依据的驾驶员意图并不是范围内各车道通行速度与自身通行期望做比较的结果,所以其方法能均衡整体道路负载能力但并不能提高自车的通行效率。在车车协同方面,考虑车辆的个体或者总体收益的研究也越来越多,所以博弈论也逐渐应用到车车收益的研究中,例如基于博弈论的自动驾驶车辆换道冲突协调模型建立方法(CN 110362910 A)利用博弈论的方法进行车辆决策,通过计算本车换道或者不换道、目标车道车辆避让或者不避让的收益进行车辆驾驶行为决策,这是策略博弈,博弈结果是驾驶行为的一种,但并没有驾驶行为的实现过程体现出来;而且其决策方式并没有考虑车道通行情况,所以其决策结果可能并不是收益最大的结果。
目前,尚未有一种联合车辆关联度和博弈论的车路协同驾驶方法,该方法结合车路协同通过计算车道通行能力和驾驶员驾驶期望以及交通限制做车辆驾驶行为决策,进一步根据决策结果筛选关联度高的车辆,本车与筛选车辆进行重复动态博弈,把跟驰或者换道驾驶行为的博弈结果以速度来体现。
发明内容
本发明旨在解决以上现有技术的问题。提出了一种联合车辆关联度和博弈论的车路协同驾驶系统及方法。本发明的技术方案如下:
一种联合车辆关联度和博弈论的车路协同驾驶系统,其特征在于,包括包括车路协同驾驶行为决策子系统、本车驾驶行为关联子系统以及车车重复动态博弈协同驾驶子系统,其中车路协同驾驶行为决策子系统,用于获取周围V2X设备信息计算车道级道路通行能力,结合驾驶员驾驶期望进行期望分析,进行驾驶行为决策;
本车驾驶行为关联子系统,用于根据本车的驾驶行为决策,计算周围车辆相对于本车驾驶行为的关联度,筛选出需要密切交互的车辆ID,减少后续协同驾驶计算的目标车辆;
车车重复动态博弈协同驾驶子系统,根据决策驾驶行为分为基于重复动态博弈的协同跟驰驾驶模型和基于重复动态博弈的协同换道模型,其中基于重复动态博弈的协同跟驰驾驶模型以本车和同车道前车行驶速度作为博弈策略的重复动态博弈;基于重复动态博弈的协同换道驾驶模型采用多曲线融合换道轨迹模型,本车换道时纵向速度vx不变,综合换道距离、换道时间和横向加速度对协同换道驾驶进行博弈收益分析,根据收益最高的方案进行协同驾驶。
进一步的,所述获取周围V2X设备信息计算车道级道路通行能力,具体包括:车道通行能力Epass的计算公式为:其中Epass为车道通行能力,η为车道通行效率,ρ为车道交通密度,/>其中Vf为自由流行驶速度,Vi为V2X通信范围内的第i辆车,Vr为实际车道平均行驶速度;/>其中n表示V2X通信范围内范围内车道实际车辆数量,Nmax表示范围道路最大容纳车辆,l表示路侧单元可视车道长度,da表示自由流行驶速度车辆间的安全距离,dc表示车辆平均长度,dz表示车辆平均制动距离,ds表示司机反应制动距离,γ表示修正系数。
进一步的,所述驾驶员驾驶期望分析为:y=yc-yp,其中yc表示HV在[t-t0,t]时间内车辆速度相对于Vr的标准差,yp表示范围内同一车道车辆速度相对于Vr的标准差,若两标准差相差较小,则说明驾驶员对该车道的期望度较高,否则反之。
所述驾驶行为决策为:根据车道通行能力和驾驶员对车道的驾驶期望的乘积来决策是否换道,若邻车道/>值小于当前车道/>值,则说明邻车道的通行情况好于当前车道,再结合交通规则限制决策换道或者跟驰,提高车辆行驶效率。
进一步的,所述本车驾驶行为关联子系统中,本车驾驶行为关联度计算与筛选具体为:关联度S=α·d,其中α表示车辆相对于本车的位置系数,d表示车辆与本车之间的实际距离;根据本车的驾驶行为确定位置系数,若本车驾驶行为为跟驰,则本车道前方与后方的位置系数分别为α11、α12,其它车道方向为α13;若本车驾驶行为为换道,则本车道和目标车道的前方位置系数分别为α21、α22,目标车道后方位置系数为α23,其它车道方向为α24;当车辆关联度小于阈值S’,则筛选并记录其车辆ID。
进一步的,所述本车驾驶行为关联度阈值S’为:根据本车驾驶行为计算阈值S’,若本车为跟驰,则S′=2α·Dg,其中Dg为本车制动距离,若本车为换道,则S′=2α·Dh,其中Dh为最大横向加速度换道时间的纵向行驶距离。
进一步的,所述基于动态重复博弈的协同跟驰驾驶模型为:以本车和同车道前车车辆行驶速度作为博弈策略的动态重复博弈,策略集为:{-V1、-V2、0、+V1、+V2},其中策略集中最大策略和最小策略的差值在设定范围内,选择策略后车辆速度不超过最大速度Vmax限制;本车速度收益表达式为:其中VHV(t)表示t时刻本车的速度,/>表示t时刻所选择的博弈策略;本车道前车速度收益表达式为: 其中VRV(t)表示t时刻本车道前车的速度,/>表示t时刻本车道前车所选择的策略速;本车与本车道前车安全收益表达式为:/> 其中ΔD表示车辆间实际距离,Dm表示两车安全距离;协同驾驶跟驰博弈本车收益表达式为:/>其中,δ1、ε1表示本车在速度、安全收益之间的权重系数且δ1+ε1=1,f(*)表示收益值归一化处理的值;本车道前车收益表达式为:/>
进一步的,所述车辆安全距离为:同车道两车相对速度为零之前两车应该保持的安全距离Dm=S1+ΔS-S2,其中S1表示本车与前车相对速度为零的变速距离,包括驾驶员反应距离、控制器协调距离、变速距离,S2表示前车与本车相对速度为零的变速距离,ΔS表示本车与前车相对速度为零时的最小安全距离;
基于动态重复博弈的协同换道驾驶模型为:以博弈的思想,换道车辆以横向加速度来作为车辆换道操作的博弈策略,目标车道车辆以纵向速度构成博弈策略,以换道车辆行驶到换道目标点于目标车道车辆行驶到换道目标点的时间差作为安全收益。
进一步的,所述基于动态重复博弈的协同换道驾驶模型为:采用多曲线融合换道轨迹模型,本车换道时纵向速度vx不变,综合换道距离、换道时间和横向加速度来对协同换道驾驶进行博弈收益分析,以本车横向加速度{-a1、-a2、0、+a1、+a2}为策略集,其中ai表示本车基于当前横向加速度的变化值,目标车道前后车速度{-V1、-V2、0、+V1、+V2}为策略集的多目标动态重复博弈;本车速度收益表达式为:其中VRV1(t)表示目标车道前车在t时刻的速度,VHV(t)表示本车在t时刻的速度;目标车道前车速度收益表达式为:/>其中/>表示目标车道前车在t时刻的策略速度;目标车道后车速度收益表达式为:/> 其中/>表示目标车道后车在t时刻的策略速度;目标车道前车安全收益表达式为:其中ΔT1表示本车到换道目标点与目标车道前车到换道目标点的时间差,Tm1表示本车到换道目标点与目标车道前车到换道目标点的安全时间差;目标车道后车安全收益表达式为:/>其中ΔT2表示本车到换道目标点与目标车道后车到换道目标点的时间差,Tm2表示本车到换道目标点与目标车道后车到换道目标点的安全时间差;本车安全收益表达式为:/>所以协同换道驾驶博弈本车的收益表达式为:/>目标车道前车收益表达式为:/>目标车道后车收益表达式为:/>
进一步的,所述换道目标点为:根据多曲线融合换道轨迹模型,车辆横向换道轨迹为:其中Sroad表示道路宽度,th表示换道时间;车辆横向加速度为:/>可得在最大横向加速度下的换道时间为:可得换道的纵向距离为:Sx=vx·th,所以换道目标点为以换道起点为坐标原点的(Sx,Sroad)位置。
一种基于任一项所述系统的车路协同驾驶方法,其包括以下步骤:
车路协同驾驶行为决策步骤:获取周围V2X设备信息计算车道级道路通行能力,结合驾驶员驾驶期望进行期望分析,进行驾驶行为决策;
本车驾驶行为关联步骤:根据本车的驾驶行为决策,计算周围车辆相对于本车驾驶行为的关联度,筛选出需要密切交互的车辆ID,减少后续协同驾驶计算的目标车辆;
车车重复动态博弈协同驾驶步骤:根据决策驾驶行为分为基于重复动态博弈的协同跟驰驾驶模型和基于重复动态博弈的协同换道模型,其中基于重复动态博弈的协同跟驰驾驶模型以本车和同车道前车行驶速度作为博弈策略的重复动态博弈;基于重复动态博弈的协同换道驾驶模型采用多曲线融合换道轨迹模型,本车换道时纵向速度vx不变,综合换道距离、换道时间和横向加速度对协同换道驾驶进行博弈收益分析,根据收益最高的方案进行协同驾驶。
本发明的优点及有益效果如下:
1、本发明所述的一种联合车辆关联度和博弈论的车路协同驾驶方法,主要特点是结合道路通行能力与驾驶员驾驶期望度对车辆驾驶行为决策进行综合判断,相比于传统的驾驶行为决策增加了宏观的道路通行能力和微观的驾驶员期望收益作为判断依据,以分层信息模型决策驾驶行为,提高车辆驾驶行为决策的可靠性,增加车辆通行收益。
2、本发明所述的一种联合车辆关联度和博弈论的车路协同驾驶方法,主要特点是利用驾驶行为关联度筛选周围车辆,相比于在传统V2X场景中,范围内的车辆都会与本车进行数据交互,路侧转发的车辆数据也会广播到本车,所以为了避免消息风暴以及车辆与本车的数据交互可能影响本车的计算性能,根据本车的驾驶行为对周围车辆进行关联度计算并筛选出关联度超出阈值的车辆进行进一步进行数据交互,可以有效的增加计算效率。
3、本发明所述的一种联合车辆关联度和博弈论的车路协同驾驶方法,主要特点是采用动态重复博弈方式在博弈间隔时刻反复博弈以获取最高收益,重复回去博弈间隔时刻的速度或者加速度,使车辆在博弈协同驾驶中时刻处于最高收益状态,提高驾驶的安全性与通行效率。与现有的基于博弈论的自动驾驶车辆换道冲突协调模型建立方法相比,其博弈一次输出的策略不能够完全反应道路实时动态变化的收益情况,而且其博弈一次输出的策略只是一种驾驶行为方式,并没有从速度或者加速度的方式体现,本发明进一步以速度或者加速度进行重复动态博弈时刻处于最高收益行驶。
本发明的创新步骤车路协同驾驶行为决策步骤,该步骤通过车道通行能力比较以及驾驶员对各个车道的期望都比较来选择相对于本车收益最高的车道,车道通行能力Epass的计算公式为:其中Epass为车道通行能力,η为车道通行效率,ρ为车道交通密度,/>其中Vf为自由流行驶速度,Vi为V2X通信范围内的第i辆车,Vr为实际车道平均行驶速度;/> 其中n表示V2X通信范围内范围内车道实际车辆数量,Nmax表示范围道路最大容纳车辆,l表示路侧单元可视车道长度,da表示自由流行驶速度车辆间的安全距离,dc表示车辆平均长度,dz表示车辆平均制动距离,ds表示司机反应制动距离,γ表示修正系数。与其它驾驶行为决策相比,该步骤的优势在于该步骤把范围内所有车道本身的通行能力这一客观因素结合驾驶员对各个车道的期望度这一主观因素结合分析作为车辆驾驶行为决策的依据,均衡道路负载能力的同时提高本车的通行效率。
本发明的创新步骤车车重复动态博弈协同驾驶步骤,该步骤通过相关车辆的实时数据进行重复动态博弈,每一次博弈输出都是该时刻的最高收益,由此重复博弈使收益稳定于某一最高收益。相对于其它车车协同博弈方法,该步骤的优势在于实时重复博弈,因为换道或者跟驰是一个过程,过程中的轨迹参数一直在改变,该步骤就可以把轨迹参数始终保持在一个最高收益的值。因为大多数人认识的博弈论都是决策行为的分析,都是把某种行为作为一种博弈输出结果,没有进一步体现行为的实现过程。
附图说明
图1是本发明提供优选实施例联合车辆关联度和博弈论的车路协同驾驶系统的整体架构图;
图2为本发明提供的车辆博弈流程示意图;
图3为本发明提供的跟驰制动安全距离示意图;
图4为本发明提供的换道路径示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、详细地描述。所描述的实施例仅仅是本发明的一部分实施例。
本发明解决上述技术问题的技术方案是:
请参阅图1~图4,图1为一种联合车辆关联度和博弈论的车路协同驾驶方法的整体架构,其中包括三个子系统:车路协同驾驶行为决策子系统、本车驾驶行为关联子系统和车车重复动态博弈协同驾驶子系统。
1、车路协同驾驶行为决策子系统通过获取周围V2X设备信息计算车道级道路通行能力,结合驾驶员驾驶期望进行驾驶行为决策,其中包括:范围内车道通行能力计算、驾驶员驾驶期望分析、驾驶行为决策。
第一步,范围内车道通行能力计算,车载V2X设备广播的BSM消息结合路侧V2X设备广播的MAP进行车道判断,然后路侧V2X设备根据公式计算范围内车道通行能力,其中Epass表示车道通行能力,η表示车道通行效率,ρ表示车道交通密度;其中Vf表示自由流行驶速度,Vr表示实际车道平均行驶速度,Vi为V2X通信范围内的第i辆车,n表示范围内车道实际车辆数量;/>其中Nmax表示范围道路最大容纳车辆,l表示路侧单元可视车道长度,da表示自由流行驶速度车辆间的安全距离,dc表示车辆平均长度,dz表示车辆平均制动距离,ds表示司机反应制动距离,γ表示修正系数。
进一步,驾驶员驾驶期望分析,根据驾驶员当前时刻过去t0时间内的驾驶速度结合Vr计算分析驾驶员对车道的驾驶期望度y=yc-yp,其中yc表示HV在[t-t0,t]时间内车辆速度相对于Vr的标准差,yp表示范围内同一车道车辆速度相对于Vr的标准差,若y值越小,表示驾驶员对该车道的驾驶期望相对越高。
最终,驾驶行为决策,根据车道通行能力和驾驶员对车道的驾驶期望的乘积来决策是否换道,若邻车道/>值小于当前车道/>值,则说明邻车道的通行情况好于当前车道,再结合交通限制决策换道或者跟驰。
2、本车驾驶行为关联度子系统根据本车的驾驶行为,计算周围车辆相对于本车驾驶行为的关联度,筛选出需要密切交互的车辆ID,减少后续协同驾驶计算的目标车辆,提高计算效率,增加协同驾驶的实时性,其中包括本车驾驶行为关联度计算与车辆筛选。
进一步,车驾驶行为关联度计算,根据车路协同驾驶行为决策子系统的决策行为来计算范围内车辆的关联度S=α·d,其中α表示车辆相对于本车的位置系数,d表示车辆与本车之间的实际距离;根据本车的驾驶行为确定位置系数,若本车驾驶行为为跟驰,则本车道前方与后方的位置系数分别为α11、α12,其它车道方向为α13;若本车驾驶行为为换道,则本车道和目标车道的前方位置系数分别为α21、α22,目标车道后方位置系数为α23,其它车道方向为α24。
车辆筛选,根据本车驾驶行为关联度阈值S’来筛选车辆ID,若关联度小于阈值S’,则筛选并记录其车辆ID。若本车为跟驰,则S′=2α·Dg,其中Dg为本车制动距离,若本车为换道,则S′=2α·Dh,其中Dh为最大横向加速度换道时间的纵向行驶距离。
3、车车重复动态博弈协同驾驶子系统,提高多车速度、安全的总体收益,如图2车辆博弈流程示意图所示,以本车安全收益是否为负判断是否进行博弈,博弈过程包括本车和目标车收益函数确定、本车和目标车策略确定、本车和目标车收益帕累托最优、输出本车和目标车策略,重复以上流程,直到本车安全收益不再为负,子系统中包括:基于动态重复博弈的协同跟驰驾驶模型、基于动态重复博弈的协同换道驾驶模型。
进一步,基于动态重复博弈的协同跟驰驾驶模型,以博弈论的思想,用速度来作为车辆各种操作的表现形式,速度构成博弈策略,博弈方为筛选出的相关车辆,以前后车辆间的距离作为安全收益函数进行博弈,提高车辆的通行效率和安全性。以本车和同车道前车车辆行驶速度作为博弈策略的动态重复博弈,策略集为:{-V1、-V2、0、+V1、+V2},其中策略集中最大策略和最小策略的差值应考虑实际舒适度的情况不应设置太大,选择策略后车辆速度不应该超过最大速度Vmax限制;本车速度收益表达式为:其中VHV(t)表示t时刻本车的速度,/>表示t时刻所选择的博弈策略;本车道前车速度收益表达式为:/>其中VRV(t)表示t时刻本车道前车的速度,表示t时刻本车道前车所选择的策略速;本车与本车道前车安全收益表达式为:其中ΔD表示车辆间实际距离,Dm表示两车安全距离;所以协同驾驶跟驰博弈本车收益表达式为:
其中,δ1、ε1表示本车在速度、安全收益之间的权重系数且δ1+ε1=1,f(*)表示收益值归一化处理的值;本车道前车收益表达式为:/>其中跟驰安全距离是两车之间的相对速度为零之前的车辆应该保持的安全距离,以制动为例,如图3所示跟驰制动安全距离示意图,Dm=S1+ΔS-S2,其中S1表示本车与前车相对速度为零的变速距离,包括驾驶员反应距离、控制器协调距离、变速距离,S2表示前车与本车相对速度为零的变速距离,ΔS表示本车与前车相对速度为零时的最小安全距离。通过重复动态博弈提高车辆的通行与安全收益,直到安全收益不再为负数。
进一步,基于动态重复博弈的协同换道驾驶模型,以博弈的思想,本车以横向加速度来作为车辆换道操作的博弈策略,目标车道车辆以纵向速度构成博弈策略,以换道车辆行驶到换道目标点于目标车道车辆行驶到换道目标点的时间差作为安全收益,提高车辆的通行效率和安全性。需要提前说明的是在进行换道博弈之前应先执行跟驰博弈,与同车道前车保持相对匀速行驶。如图4换道路径示意图所示,采用多曲线融合换道轨迹模型,本车换道时纵向速度vx不变,其车辆换道数学模型为其中Sroad表示车道宽度,th表示车辆换道时间,Sx表示车辆换道纵向距离;综合换道距离、换道时间和横向加速度来对协同换道驾驶进行博弈收益分析,以本车横向加速度{-a1、-a2、0、+a1、+a2}为策略集,目标车道前后车速度{-V1、-V2、0、+V1、+V2}为策略集的多目标动态重复博弈;本车速度收益表达式为:/>其中VRV1(t)表示目标车道前车在t时刻的速度,VHV(t)表示本车在t时刻的速度;目标车道前车速度收益表达式为:其中/>表示目标车道前车在t时刻的策略速度;目标车道后车速度收益表达式为:/>其中/>表示目标车道后车在t时刻的策略速度;目标车道前车安全收益表达式为:/>其中ΔT1表示本车到换道目标点(Sx,Sroad)与目标车道前车到换道目标点的时间差,Tm1表示本车到换道目标点与目标车道前车到换道目标点的安全时间差;其中换道目标点为:根据多曲线融合换道轨迹模型,车辆横向换道轨迹为:/>其中Sroad表示道路宽度,th表示换道时间;车辆横向加速度为:/>可得在最大横向加速度下的换道时间为:/>可得换道的纵向距离为:Sx=vx·th,所以换道目标点为以换道起点为坐标原点的(Sx,Sroad)位置。目标车道后车安全收益表达式为:/>其中ΔT2表示本车到换道目标点与目标车道后车到换道目标点的时间差,Tm2表示本车到换道目标点与目标车道后车到换道目标点的安全时间差;本车安全收益表达式为:/>所以协同换道驾驶博弈本车的收益表达式为:/>目标车道前车收益表达式为:/>目标车道后车收益表达式为:通过重复动态博弈提高车辆的通行与安全收益,直到安全收益不再为负数。
上述实施例阐明的系统、装置、模块或单元,具体可以由计算机芯片或实体实现,或者由具有某种功能的产品来实现。一种典型的实现设备为计算机。具体的,计算机例如可以为个人计算机、膝上型计算机、蜂窝电话、相机电话、智能电话、个人数字助理、媒体播放器、导航设备、电子邮件设备、游戏控制台、平板计算机、可穿戴设备或者这些设备中的任何设备的组合。
还需要说明的是,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、商品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、商品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、商品或者设备中还存在另外的相同要素。
以上这些实施例应理解为仅用于说明本发明而不用于限制本发明的保护范围。在阅读了本发明的记载的内容之后,技术人员可以对本发明作各种改动或修改,这些等效变化和修饰同样落入本发明权利要求所限定的范围。