CN112365710B

CN112365710B - 一种基于概率输出模型的智能车辆换道决策方法

Info

Publication number: CN112365710B
Application number: CN202011116778.0A
Authority: CN
Inventors: 王海涛; 周小川; 赵万忠
Original assignee: Nanjing University of Aeronautics and Astronautics
Current assignee: Nanjing University of Aeronautics and Astronautics
Priority date: 2020-10-19
Filing date: 2020-10-19
Publication date: 2021-09-24
Anticipated expiration: 2040-10-19
Also published as: CN112365710A

Abstract

本发明公开一种基于概率输出模型的智能车辆换道决策方法，获取行车环境参数并计算原始车道行驶预判车距和换道预判车距；建立换道概率输出模型，判断汽车执行操作后是否存在潜在碰撞，设计自由换道模糊控制器的输入和输出；由各输入的隶属度可以分别得到基于安全性分析和基于经济性分析输出的换道概率；根据模糊控制器输入的原始车道后车转向灯开启情况、原始车道后车对自车的影响程度，建立换道消极系数；结合二元选择Probit模型建立自由换道概率输出模型，输出自由换道概率；最终得到自车换道概率。本发明在满足换道安全的前提下能够使得自车行驶在驾驶空间优越，潜在碰撞风险小，燃油经济性好的驾驶环境中，有效地缓解交通拥挤、排放超标等问题。

Description

一种基于概率输出模型的智能车辆换道决策方法

技术领域

本发明属于智能车领域，具体涉及一种基于概率输出模型的智能车辆换道决策方法。

背景技术

随着我国经济社会的不断发展，智能车研究成为汽车领域发展的前沿方向，未来随着路上车辆的数目不断增加，交通拥挤问题、排放超标问题甚至交通事故会更为凸显，而交通拥挤问题较多情况下是由错误换道造成的，并且换道后自车车速很大可能并没有行驶在经济性行驶的车速区间，由此造成了油耗的增加，长此以往，燃烧燃油数量的增加会造成碳排放量的进一步升高，因此，对于未来智能车而言，选择合理的换道策略，对保证汽车安全行驶、提高汽车燃油经济性进而减少碳排放具有重要研究价值。

然而，目前国内外的模糊换道模型多是选用多个单一的参数(例如相对间距、相对速度、最迟换道距离、驾驶员性格等)作为模糊推理系统的输入量选用的特征参数缺乏讨论，而且考虑周边车辆驾驶行为具有明显局限性，大多是追求驾驶空间的优越性，造成车辆换道后汽车驾驶性能并不能真正改善，也无法真实改善当前交通流中拥挤、排放高、交通事故频发的问题。

针对上述问题，中国发明申请号CN109948001A公开了一种基于驾驶员心理的换道概率输出模型，在满足换道后安全的前提下，应用模糊数学的思想将换道后自车与换道目标车道前车速度差作为诱惑程度指标，将换道后自车与换道目标车道后车作为影响程度指标，进行离散化划分，综合二者作为换道执行的判断条件。这种换道概率模型的建立一定程度上保证了换道后的车辆具备一定的驾驶空间优越性和经济性。但是这种换道概率输出模型具有明显的局限性：这种换道概率模型在满足行车安全的前提下，仅考虑目标车道行驶车辆的状态作为换道判断条件，缺乏在满足行车安全的前提下对原始车道行驶和换道之间的博弈，由于只考虑了换道目标车道前车车速对于自车车速提升的诱惑程度和自车对换道目标车道后车车速的影响情况，缺乏对换道后跟车距离过小导致的潜在碰撞风险的考虑；且只考虑速度提升而忽略了是否使得汽车行驶在经济车速，因此在缓解排放问题和降低交通事故发生率的作用上具有很大局限性；对于模型的建立缺乏对环境变化的动态适应性能。

发明内容

发明目的：本发明提供一种基于概率输出模型的智能车辆换道决策方法，在满足换道安全的前提下能够很大程度上使得自车行驶在驾驶空间优越，潜在碰撞风险小，燃油经济性好的驾驶环境中，有效地缓解交通拥挤、排放超标等问题。

技术方案：本发明所述的一种基于概率输出模型的智能车辆换道决策方法，包括以下步骤：

(1)通过自车车载传感器获取当前时刻行车环境参数；

(2)定义并计算原始车道行驶预判车距和换道预判车距；

(3)根据原始车道行驶预判车距和换道预判车距在满足不同条件时会具备不同的换道概率，建立换道概率输出模型；

(4)判断汽车执行操作后是否存在潜在碰撞，根据判断结论，当汽车执行操作后不存在潜在碰撞时，有一定概率自由换道，进入步骤(5)，当汽车执行操作后存在潜在碰撞时，直接输出非自由换道概率0或1进入步骤(9)；

(5)当自车在原始车道行驶和换道行驶都能保证安全的条件下，基于安全性和经济性分析，车辆倾向于越小潜在危险程度，越高燃油经济性和越小影响后车行驶的驾驶行为，以获得更优的驾驶空间；再结合路况信息、车况信息及驾驶员的驾驶风格分析，设计自由换道模糊控制器的输入和输出；

(6)针对步骤(5)设计的模糊控制器的输入，建立各个输入的隶属度函数得到各输入对应的隶属度，由各输入的隶属度可以分别得到基于安全性分析和基于经济性分析输出的换道概率；

(7)根据模糊控制器输入的原始车道后车转向灯开启情况、原始车道后车对自车的影响程度，建立换道消极系数；

(8)根据步骤(6)得到的基于安全性分析和基于经济性分析的换道概率和步骤(7)到的换道消极系数，结合二元选择Probit模型建立兼顾安全性和经济性的自由换道概率输出模型，输出自由换道概率；

(9)结合步骤(4)输出的非自由换道概率和步骤(8)输出的自由换道概率得到自车换道概率；

(10)当换道概率大于预先设定的换道阈值时，予以换道操作，当非自由换道概率或自由换道概率小于换道阈值时，不予换道操作。

进一步地，步骤(1)所述的行车环境参数包括自车和原始车道前车之间的车间距、自车和换道目标车道前车之间的车间距、自车和换道目标车道后车之间的车间距、自车和原始车道后车之间的车间距、当前时刻自车的速度、原始车道前车的速度、换道目标车道前车的速度、换道目标车道后车的速度及当前时刻原始车道后车转向灯使用情况。

进一步地，步骤(2)所述的原始车道行驶预判车距和换道预判车距包括：自车执行原始车道行驶后自车与原始车道前车之间的预判车间距、自车执行换道行驶后自车与换道目标车道前车之间的预判车间距及自车执行换道行驶后自车与换道目标车道后车之间的预判车间距。

进一步地，步骤(5)所述的模糊控制器的输入包括：自车执行原始车道行驶的潜在危险程度、自车执行原始车道行驶对保证汽车行驶时燃油经济性的诱惑程度、自车换道后与换道目标车道前车的潜在危险程度、自车换道后与换道目标车道后车的潜在危险程度、自车换道后对换道目标车道后车的干扰程度、自车换道后对保证汽车行驶时燃油经济性的诱惑程度、原始车道后车转向灯开启情况、原始车道后车对自车的影响程度；所述模糊控制器的输出为自由换道概率。

进一步地，步骤(6)所述的模糊控制器输入的隶属度函数包括：原始车道行驶的潜在危险程度隶属度函数、原始车道行驶对保证汽车行驶时燃油经济性的诱惑程度隶属度函数、换道后与换道目标车道前车的潜在危险程度隶属度函数、换道后与换道目标车道后车潜在危险程度隶属度函数、换道后自车对换道目标车道后车的干扰程度隶属度函数、换道后对保证汽车行驶时燃油经济性的诱惑程度隶属度函数。

进一步地，步骤(6)所述的基于安全性分析和基于经济性分析的换道概率是通过强化Q-Learning的方法，根据线性概率模型LPM建立安全性和经济性评价指标，生成对应于策略的奖励，代入到bellman方程中求解获得的。

进一步地，步骤(8)所述的二元选择Probit模型中的参数通过最大似然解的方法进行修正。

有益效果：与现有技术相比，本发明的有益效果：

1、综合考虑原始车道前后车和换道目标车道前后车的运动状态信息，环境信息采集更为全面；

2、在满足安全行驶的前提下，从安全性和经济性两方面对原始车道行驶和换道行驶进行博弈，将潜在碰撞风险大小和和是否接近经济行驶车速作为博弈的关键，能够有效的规避潜在危险，保证汽车最大限度地行驶在经济车速附近，减少油耗，使得汽车具有良好的综合驾驶性能；

3、应用强化Q-learning理论处理基于安全性分析和基于经济性分析的换道概率涉及的策略参数修正；应用最大似然解方法处理二元选择Probit模型中的策略参数修正；能够使得策略参数不断进行在线和离线学习修正，使得自由换道概率模型能够更加适应不断变化的行车环境，提高决策动态适应性能和准确性；

4、针对自由换道模糊控制控制器输入的隶属度函数应用不同的连续隶属度函数模型，使得计算得到的隶属度更加精确，ECU计算决策时间缩短，很大程度上避免了由于环境突变造成的误换道现象；

5、为未来智能车发展提供了一种具有理论意义和实际应用价值的换道概率模型，能够大大缓解交通拥挤，排放污染甚至交通事故等交通问题。

附图说明

图1为本发明的流程图；

图2为本发明的场景设置示意图；

图3为本发明应用强化Q-Learning理论确定基于安全性分析的概率输出模型参数的方法示意图。

具体实施方式

下面结合附图对本发明做进一步详细说明。

如图1所示，本发明提出一种基于概率输出模型的智能车辆换道决策方法，图2为本实施方式的场景设置示意图，自车为i，原始车道前车A，换道目标车道前车为B，换道目标车道后车为C，原始车道后车为D，d_i,A(t)为自车i和原始车道前车A之间的车间距，d_i,B(t)为自车i和换道目标车道前车B之间的车间距，d_i,C(t)为自车i和换道目标车道后车C之间的车间距，d_i,D(t)为自车i与原始车道后车D之间的车间距，自车经济行驶的车速为

自车稳定行驶的最高车速为V_max，安全跟车距离为D_s。

步骤1：通过自车i车载传感器获取当前时刻t时的行车环境参数。

行车环境参数包括：自车和原始车道前车之间的车间距,自车和换道目标车道前车之间的车间距，自车和换道目标车道后车之间的车间距以及自车和原始车道后车之间的车间距；获取当前时刻自车的速度，原始车道前车的速度，换道目标车道前车的速度，换道目标车道后车的速度；获取当前时刻原始车道后车转向灯使用情况。

如图2所示，本实施方式行车环境参数包括：自车i和车A之间的车间距d_i,A(t),自车i和车B之间的车间距d_i,B(t)，自车i和车C之间的车间距d_i,C(t)以及自车i和车D之间的车间距d_i,D(t)；获取当前时刻自车i的速度V_i(t)，车A的速度V_A(t)，车B的速度V_B(t)，车C速度V_C(t)；获取当前时刻车D转向灯使用情况。

步骤2：定义并计算原始车道行驶预判车距和换道预判车距。

原始车道行驶预判车距和换道预判车距包括：自车i执行原始车道行驶后自车i与原始车道前车A之间的预判车间距

自车i执行换道行驶后自车i与换道目标车道前车B之间的预判车间距

自车i执行换道行驶后自车i与换道目标车道后车C之间的预判车间距

步骤3：根据原始车道行驶预判车距和换道预判车距在满足不同条件时会具备不同的换道概率，由此建立换道概率输出模型P_i。

其中，α为执行操作后不存在潜在碰撞的自由换道概率。

依据换道概率输出模型P_i公式所示，自车i执行操作后有以下三种情况：

1)

时，说明自车i执行操作后，在原始车道行驶条件下不能安全行驶，为保证安全行驶，必须换道，即P_i＝1。

2)

时，说明自车i执行操作后，在原始车道行驶条件下和换道行驶条件下都能保证安全行驶，此时自车i存在两种驾驶选择的权衡问题，仍有一定概率α换道。

3)

时，说明自车i执行操作后，在换道条件下不能安全行驶，为保证安全行驶，不予换道，即P_i＝0。

步骤4：判断汽车执行操作后是否存在潜在碰撞，根据判断结论，当汽车执行操作后不会存在潜在碰撞时，有一定概率α自由换道，进入步骤5，当汽车执行操作后存在潜在碰撞时，直接输出非自由换道概率P_f为0或1进入步骤9。

步骤5：当自车i执行操作后在原始车道行驶和换道行驶都能保证安全的条件下，基于安全性和经济性分析，自车i倾向于越小潜在危险程度，越高燃油经济性和越小影响后车行驶的驾驶行为，以获得更优的驾驶空间；再结合路况信息、车况信息及驾驶员的驾驶风格分析，设计自由换道模糊控制器的输入和输出。

模糊控制器的输入包括：自车执行原始车道行驶的潜在危险程度、自车执行原始车道行驶对保证汽车行驶时燃油经济性的诱惑程度、自车换道后与换道目标车道前车的潜在危险程度、自车换道后与换道目标车道后车的潜在危险程度、自车换道后对换道目标车道后车的干扰程度、自车换道后对保证汽车行驶时燃油经济性的诱惑程度、原始车道后车转向灯开启情况、原始车道后车对自车的影响程度；模糊控制器的输出包括：自由换道概率。

自由换道模糊控制器的输入和输出如式(2)所示：

其中，模糊控制器的输入为X₀、X₁、X₂、X₃、X₄、X₅，X₆、X₇,输出换道概率α；X₀表示自车i执行原始车道行驶的潜在危险程度；X₁表示自车i执行原始车道行驶对保证汽车行驶时燃油经济性的诱惑程度；X₂表示自车i换道后与换道目标车道前车B的潜在危险程度；X₃表示自车i换道后与换道目标车道后车C的潜在危险程度；X₄表示自车i换道后对换道目标车道后车C的干扰程度；X₅自车i换道后对保证汽车行驶时燃油经济性的诱惑程度；X₆表示原始车道后车D转向灯开启情况，0表示未开启，1表示开启；X₇表示自车i对原始车道后车D的影响程度。

步骤6：针对步骤5设计的模糊控制器的输入，建立各个输入的隶属度函数得到各输入对应的隶属度，由各输入的隶属度可以分别得到基于安全性分析和基于经济性分析输出的换道概率P_i。

自车i执行原始车道行驶的潜在危险程度隶属度函数P₀(X₀)、自车i换道后与换道目标车道前车B的潜在危险程度隶属度函数P₂(X₂)、自车i换道后与换道目标车道后车C潜在危险程度隶属度函数P₃(X₃)、自车i执行原始车道行驶对保证汽车行驶时燃油经济性的诱惑程度隶属度函数P₁(X₁)、自车i换道后对保证汽车行驶时燃油经济性的诱惑程度隶属度函数P₅(X₅)、自车i换道后对换道目标车道后车C的干扰程度隶属度函数P₄(X₄)。其中，自车执行原始车道行驶的潜在危险程度隶属度函数、自车换道后与换道目标车道前车的潜在危险程度隶属度函数、自车换道后与换道目标车道后车潜在危险程度隶属度函数属于钟形隶属度函数；自车执行原始车道行驶对保证汽车行驶时燃油经济性的诱惑程度隶属度函数、自车换道后对保证汽车行驶时燃油经济性的诱惑程度隶属度函数属于高斯型隶属度函数；自车换道后对换道目标车道后车的干扰程度隶属度函数属于三角形隶属度函数。换道后与换道目标车道前车的潜在危险程度隶属度函数、换道后与换道目标车道后车潜在危险程度隶属度函数共同决定换道后潜在危险程度，因此换道后潜在危险程度的隶属度函数为三维曲面。

模糊控制器输入的隶属度函数中，P₀(X₀)、P₂(X₂)、P₃(X₃)属于钟形隶属度函数；P₁(X₁)、P₅(X₅)属于高斯型隶属度函数；P₄(X₄)属于三角形隶属度函数；计算如下式所示：

由于安全跟车距离为D_s，X₀的论域为[0，D_s]，定义描述原始车道行驶潜在危险程度高的模糊子集A₀，在连续域上的隶属度如式(3)所示：

其中，P₀表示原始车道行驶的潜在危险程度高的隶属度；X₀越小，P₀越大,说明原始车道行驶的潜在危险程度越大，自车i越倾向于换道操作以规避风险；因此可确定系数a₀、b₀、c₀合理值的取值方法，当X₀取Ds时，P₀应近似为0。

X₂和X₃的论域也为[0，D_s]，对应换道后与换道目标车道前车B的潜在危险程度高的模糊子集A₂和换道后与换道目标车道后车C潜在危险程度隶属度高的模糊子集A₃；在连续域上的隶属度如式(4)、式(5)所示：

其中，P₂表示换道后与换道目标车道前车B的潜在危险程度高的隶属度；X₂越小，P₂越大,说明换道后与换道目标车道前车B的潜在危险程度越大，自车i越倾向于原始车道行驶以规避风险；因此可确定系数a₂、b₂、c₂合理值的取值方法，当X₂取Ds时，P₂应近似为0；P₃表示换道后与换道目标车道后车C的潜在危险程度高的隶属度，系数a₃、b₃、c₃合理值的取值方法同系数a₂、b₂、c₂。

换道后与换道目标车道前车B的潜在危险程度隶属度函数、换道后与换道目标车道后车C潜在危险程度隶属度函数共同决定换道后潜在危险程度，因此换道后潜在危险程度的隶属度函数为三维曲面；定义换道后潜在危险程度隶属度函数P₂₃(X₂,X₃)，在连续域上的隶属度如式(6)所示：

其中，P₂₃表示换道后的潜在危险程度高的隶属度,由X₂和X₃双因素决定，α₂和α₃为换道后潜在危险程度分配系数，优先但不限于由自车追尾和后车追尾严重性衡量和汽车潜在运动状态变化率等决定。

由于自车i经济行驶的车速为

自车i稳定行驶的最高车速为V_max，因此X₄的论域为[-V_max，V_max]，定义描述自车i换道后对目标车道后车C干扰程度大的模糊子集A₄，在连续域上的隶属度如式(7)所示：

其中，P₄表示自车i换道后对目标车道后车C的干扰程度高的隶属度；P₄越大，说明自车i换道对目标车道后车C的影响越大，安全性也随之降低，因此自车i更倾向于放弃换道以规避风险。

由于自车i经济行驶的车速为

自车i稳定行驶的最高车速为V_max，X₁和X₅的论域为[0，V_max]，定义描述原始车道跟车诱惑程度大的模糊子集A₁，定义描述换道诱惑程度大的模糊子集A₅，在连续域上的隶属度如式(8)、式(9)所示：

其中，P₁表示自车i原始车道跟车行驶的诱惑程度大的隶属度；当原始车道前车A车速高于

时，能够保证自车i处于经济性驾驶的状态，当原始车道前车A车速较小时，自车i为了获得更优越的驾驶空间和经济性能，更倾向于换道行驶；P₅表示自车i换道的诱惑程度大的隶属度，当换道目标车道前车B车速高于

时，能够保证自车i在换道后处于经济性驾驶的状态，自车i为了获得更优越的驾驶空间和经济性能，更倾向于换道行驶。

基于安全性分析的自由换道概率由原始车道行驶的潜在危险程度隶属度函数、换道后与换道目标车道前车的潜在危险程度隶属度函数、换道后与换道目标车道后车潜在危险程度隶属度函数、换道后自车对换道目标车道后车的干扰程度隶属度函数计算得到；基于经济性分析的自由换道概率由原始车道行驶对保证汽车行驶时燃油经济性的诱惑程度隶属度函数、换道后对保证汽车行驶时燃油经济性的诱惑程度隶属度函数属于高斯型隶属度函数计算得到。

计算基于安全性分析和基于经济性分析的换道概率策略通过强化Q-Learning的方法，根据线性概率模型LPM建立安全性和经济性评价指标，生成对应于策略的奖励，代入到bellman方程中进行求解。

基于安全性分析输出的自由换道概率P_i定义为P_s，计算公式如式(10)所示：

P_s＝[β₀,β₁,β₂][P₀,(1-P₂₃),P₄]^T (10)

其中，β₀、β₁和β₂为基于安全性分析的换道概率分配系数，优先但不限于由原始车道和目标车道发生危险时的严重性、车辆潜在运动状态变化率和驾驶员风格等决定。

基于安全性分析的换道概率分配系数β₀、β₁和β₂通过强化Q-Learning理论进行不断学习修正。通过聚类分析法对换道大数据中同一类的换道决策场景数据进行分类(不同行驶路况车况等)，利用同一类的换道决策场景数据，结合强化Q-Learning算法对换道概率分配系数β₀、β₁和β₂进行求解。

强化Q-Learning算法对基于安全性分析的换道概率分配系数β₀、β₁和β₂进行求解的步骤如下：

设自车i当前时刻行驶环境状态为s，自车i当前时刻的操作为动作a，P_s为在s状态下选择动作a转换到下一个状态s’的概率P(s’|s,a),[β₀,β₁,β₂]为以规避潜在危险为目的的换道策略π。

1)为对s转换到下一个状态s’形成奖励R，应用线性概率模型LPM对执行操作后的自车i行驶状况建立安全性评价指标Q_i，计算公式如式(11)所示；

其中，K₀、K_j和μ_i为根据普适经验建立起来的安全性评价指标系数，x₁’为自车i执行原始车道行驶后与前车A的距离，x₂’为自车i换道后与前车B的距离，x₃’为自车i换道后与后车C的距离；执行操作后，Q_i达到指定阈值为真，生成高的奖励R，否则为伪真，生成低的奖励R。

对于Q_i的判断阈值，其取法可以根据不同路况、车况结合车辆交通理论知识分析建立合理的取值。

2)定义状态值函数V_π(s)，结合奖励R可以评价当前自车行驶状态的好坏，定义最优累计期望V^*(s)，V^*(s)与V_π(s)的关系满足式(12)；

V^*(s)＝max_πV_π(s) (12)

最优累计期望V^*(s)的bellman方程计算公式如式(13)：

寻找最优换道策略[β₀,β₁,β₂]的过程就是寻找最优累计期望V^*(s)的过程；而在最优换道策略[β₀,β₁,β₂]中存在使得动作A获得最大回报；

3)定义状态动作值函数Q(s,a)，其bellman方程计算公式如式(14)所示；

Q_π(s,a)＝E_π[r_t+1+γr_t+2+γ²r_t+3+....|A_t＝a,S_t＝s]＝E_π[Gt|A_t＝a,S_t＝s] (14)

其中，γ为学习率，Gt是t时刻开始的总折扣奖励，γ可以根据不同交通场景换道决策的需要进行取值选择，可见，当γ越接近于1时，说明状态动作值函数Q(s,a)越有远见，会着重考虑后续状态的价值；当γ越接近于0时，状态动作值函数Q(s,a)会变得近视只考虑当前的利益影响；所以当对状态动作值函数Q(s,a)计算精确性要求不高时，可以将γ取得小些，ECU运算负担会减小，而当状态动作值函数Q(s,a)计算精确性要求高时，可以γ取得大些。

4)定义最优价值动作函数Q^*(s,a)，其bellman方程计算公式如式(15)所示；

Q^*(s,a)＝max_aQ_a(s,a)＝∑_s'P(s'|s,a)(R(s,a,s')+γmax_a'Q_a'(s',a')) (15)

其中，动作A对应最优价值动作函数Q^*(s,a)。

5)我们对Q(s,a)值进行计算，形成Q-table，通过应用时间差分法建立更新公式不断学习对Q-table进行更新，如式(16)所示；

Q(s,a)←Q(s,a)+α[r+γmax_a'Q_a'(s',a')-Q(s,a)] (16)

其中，α为学习率γ的奖励性衰变系数，更新公式的意义在于通过过往Q-table中的Q(s,a)来估计当前Q值，并通过选取下一状态最大的Q(s’,a’)乘以学习率γ加上真实回报值作为Q现实，由此可以计算出新的Q(s,a)。

6)在Q-table中，解算出最优控制策略max[β₀,β₁,β₂]。

基于经济性分析输出的自由换道概率P_i定义为P_e，计算公式如式(17)所示；

P_e＝[ψ₀,ψ₁][(1-P₁),P₅]^T (17)

其中，Ψ₀和Ψ₁为基于经济性分析的换道概率分配系数，优先但不限于由原始车道和目标车道发生危险时的严重性、车辆潜在运动状态变化率和驾驶员风格等决定。

基于经济性分析的换道概率分配系数Ψ₀和Ψ₁通过强化Q-Learning理论进行不断学习修正。方法同β₀、β₁和β₂的取法，通过建立评价指标进而生成回报，通过深度Q-Learning方法找到回报最高的控制策略，进而不断对Ψ₀和Ψ₁进行修正。

应用强化Q-Learning方法找到最优控制策略(换道概率分配系数)的方法如图3所示，智能车通过车联网与云端换道数据库联接，当智能车行车环境换道数据采集模块采集到与前后车车距和前后车车速等环境信息后，此环境信息通过链路进入智能车ECU的决策模块，也通过车联网进入到云端换道数据库，同时决策模块从Q-table模块调取预先形成的Q表进行匹配后找到最优策略输出到执行模块，控制智能车进行行驶操作，与此同时，学习模块同时读取行车环境换道数据采集模块的环境信息、决策模块的决策结果、云端换道数据库换道数据，进行线上和线下两种模式的学习，从而不断更新Q-table模块的Q表，使得决策结果更接近最优策略。

步骤7：根据模糊控制器输入的原始车道后车转向灯开启情况、原始车道后车对自车的影响程度，建立换道消极系数。

X₆的论域为{0，1}，X₇的论域为(-D_s，D_s),引入换道消极系数λ。换道消极系数λ取值如式(18)所示；

可见，存在换道消极系数λ定义下的绝对窗口距离(-∞，-D_s)和(D_s，+∞)区间，换道消极系数λ为0；当原始车道后车开启转向灯时，根据实际自车i换道的风险会加大，因此此时换道消极系数λ不为0，自车i换道概率降低。

步骤8：换道概率P_i的输出由安全性输出概率P_s、经济性输出概率P_e和换道消极系数λ共同决定，结合二元选择Probit模型建立兼顾安全性和经济性的自由换道概率模型α的输出函数。

二元选择Probit模型中的参数可以通过最大似然解的方法进行修正。

自由换道概率模型α的输出函数如式(19)、式(20)所示；

其中,α*为潜变量，不能观测，可以观测的为自由换道概率α；ε₀为常系数，ε_j为对应安全性和经济性的分配系数，ε_i为优先但不限于由路况、车况、驾驶员风格等决定的扰动系数，设定为正态分布。

对应安全性和经济性的分配系数ε_j的可以用最大似然解方法求解：

确定ε_j的合理值的最大似然解方法如式(21)：

其中，F为ε_i的累积分布函数，若ε_i的分布关于y坐标轴对称，则上式可写成式(22)所示；

列似然函数如式(23)：

L＝Π_α＝1α_cΠ_α＝0(1-α_c) (23)

应用聚类分析法，将同一类型的汽车流分类，将自由换道概率高的数据带入式(23)，应用最大似然解方法，求解出ε_j的合理值。

则在满足执行操作后不发生潜在碰撞的前提下，能够得到自由换道概率模型模糊控制器的输出α为P_i。

步骤9：结合步骤4输出的非自由换道概率P_f和步骤8输出的自由换道概率α得到自车i换道概率P_i。

步骤10：当自车i换道概率P_i大于换道阈值时，予以换道操作，当非自由换道概率或自由换道概率小于换道阈值时，不予换道操作。

在满足换道安全的前提下，综合分析安全性和经济性两大指标，建立二元选择Probit概率输出模型，并结合强化Q-Learning理论和最大似然解方法不断针对环境和换道数据变化对模型进行修正，在满足换道安全的前提下能够很大程度上使得自车行驶在驾驶空间优越，潜在碰撞风险小，燃油经济性好的驾驶环境中，有效地缓解交通拥挤、排放超标等问题。

Claims

1.一种基于概率输出模型的智能车辆换道决策方法，其特征在于，包括以下步骤：

(1)通过自车车载传感器获取当前时刻行车环境参数；

(2)定义并计算原始车道行驶预判车距和换道预判车距；

2.根据权利要求1所述的基于概率输出模型的智能车辆换道决策方法，其特征在于，步骤(1)所述的行车环境参数包括自车和原始车道前车之间的车间距、自车和换道目标车道前车之间的车间距、自车和换道目标车道后车之间的车间距、自车和原始车道后车之间的车间距、当前时刻自车的速度、原始车道前车的速度、换道目标车道前车的速度、换道目标车道后车的速度及当前时刻原始车道后车转向灯使用情况。

3.根据权利要求1所述的基于概率输出模型的智能车辆换道决策方法，其特征在于，步骤(2)所述的原始车道行驶预判车距和换道预判车距包括：自车执行原始车道行驶后自车与原始车道前车之间的预判车间距、自车执行换道行驶后自车与换道目标车道前车之间的预判车间距及自车执行换道行驶后自车与换道目标车道后车之间的预判车间距。

4.根据权利要求1所述的基于概率输出模型的智能车辆换道决策方法，其特征在于，步骤(5)所述的模糊控制器的输入包括：自车执行原始车道行驶的潜在危险程度、自车执行原始车道行驶对保证汽车行驶时燃油经济性的诱惑程度、自车换道后与换道目标车道前车的潜在危险程度、自车换道后与换道目标车道后车的潜在危险程度、自车换道后对换道目标车道后车的干扰程度、自车换道后对保证汽车行驶时燃油经济性的诱惑程度、原始车道后车转向灯开启情况、原始车道后车对自车的影响程度；所述模糊控制器的输出为自由换道概率。

5.根据权利要求1所述的基于概率输出模型的智能车辆换道决策方法，其特征在于，步骤(6)所述的模糊控制器输入的隶属度函数包括：原始车道行驶的潜在危险程度隶属度函数、原始车道行驶对保证汽车行驶时燃油经济性的诱惑程度隶属度函数、换道后与换道目标车道前车的潜在危险程度隶属度函数、换道后与换道目标车道后车潜在危险程度隶属度函数、换道后自车对换道目标车道后车的干扰程度隶属度函数、换道后对保证汽车行驶时燃油经济性的诱惑程度隶属度函数。

6.根据权利要求1所述的基于概率输出模型的智能车辆换道决策方法，其特征在于，步骤(6)所述的基于安全性分析和基于经济性分析的换道概率是通过强化Q-Learning的方法，根据线性概率模型LPM建立安全性和经济性评价指标，生成对应于策略的奖励，代入到bellman方程中求解获得的。

7.根据权利要求1所述的基于概率输出模型的智能车辆换道决策方法，其特征在于，步骤(8)所述的二元选择Probit模型中的参数通过最大似然解的方法进行修正。