CN110111605A

CN110111605A - 基于动态博弈的自动驾驶车辆出入口匝道行驶决策方法

Info

Publication number: CN110111605A
Application number: CN201910507029.1A
Authority: CN
Inventors: 胡宏宇; 程铭
Original assignee: Jilin University
Current assignee: Jilin University
Priority date: 2019-06-12
Filing date: 2019-06-12
Publication date: 2019-08-09
Anticipated expiration: 2039-06-12
Also published as: CN110111605B

Abstract

本发明属于汽车主动安全领域，涉及一种基于动态博弈的自动驾驶车辆出入口匝道行驶决策方法。包括以下步骤：1、利用DSRC通讯方法识别目标车辆；2、判断两车之间是否存在冲突；应用冲突时间差△T来判断两车之间的冲突。3、建立博弈模型；应用子博弈完美纳什均衡动态博弈理论决策车辆交汇行为；4、计算均衡点；根据确定的各自的期望收益，计算复制动态方程，两车通过对方的复制动态方程不断调整自己的通行概率；5、判断均衡点的稳定性，来选择最佳的决策；6、按稳定均衡点的策略行驶；本发明利用动态博弈思想的概率期望与收益损失的概念，结合博弈均衡点，实时做出最佳的通行决策，为车辆交互决策开辟了高效简易的方法思路。

Description

基于动态博弈的自动驾驶车辆出入口匝道行驶决策方法

技术领域

本发明属于汽车主动安全领域，利用子博弈完美纳什均衡动态博弈理论，基于匝道口两车交汇环境，设计一种涉及动态博弈与V2X智能网联汽车技术结合的行驶决策方法，具体涉及一种基于动态博弈的自动驾驶车辆出入口匝道行驶决策方法。

背景技术

根据近年来的交通事故统计分析，车道交汇路口的交通事故对中国的交通事故和死亡事故总数有着重大的影响。此外，与现在可获得雷达和基于摄像机的前向碰撞系统的其他高百分比碰撞(例如道路偏离和后端受碰)不同，目前还没有成熟的技术来解决交汇路口的侧面冲突问题。通常情况下，作为一个相对独立的个体，对于如何安全地通过交汇危险区，司机很难通过主观判断做出准确的决定。缺乏对当前驾驶环境的全面意识是这种情况下最重要的原因之一。因此，需要应用一种有效的车辆防撞系统(CAS)算法来解决此类驾驶安全问题。基于智能网联化的V2V(车-车通信)与V2I(车-路通信)技术是当前研究与应用范围比较广泛的信息交互技术。其中，DSRC(Dedicated Short Range Communications)短程通信技术目前被广泛应用于主动安全性信息交互技术中。博弈论是经济学领域的重要应用理论，其基于完全信息的动态博弈思想也为车辆之间的交互决策开辟了新道路。当前的避免碰撞系统算法多基于复杂冲突区的计算，其时效性与可应用性目前还有待测试。而动态博弈思想引入概率期望与收益损失的概念，可简化车辆间通行决策的复杂计算过程，结合博弈均衡点，实时做出最佳的通行决策。因此，借助V2X网联技术，将动态博弈决策思想引入智能车主动安全的应用领域，是一项非常具有研究价值的应用思想。

发明内容

本发明基于两车匝道交汇场景提出了一种基于动态博弈的自动驾驶车辆出入口匝道行驶决策方法。主要用途为通过博弈系统决策两车于匝道交汇路口的行车次序，以避免两车在冲突点处发生碰撞事故。

本决策基于现有的DSRC(专用短程通讯技术)通讯技术，使得两车之间能够达成完全信息的动态博弈系统。采用子博弈完美纳什均衡，每次决策均采用最优策略。主体博弈策略包括博弈模型的建立、均衡点的计算以及均衡点稳定性的判断。

在博弈系统中，当两辆机动车发生冲突时，每个个体需要判断对方选择通过的概率，来决策自己通过的概率，进而使整个博弈系统具有最大的收益。因此，需要通过对通行概率期望值进行计算以建立博弈模型。建立博弈模型，首先通过设定两车的加速通过以及减速让行的概率模型来建立博弈矩阵；再通过纯策略期望收益建立混合策略期望收益模型；根据收益模型建立复制动态方程；最后根据复制动态方程调整通过概率，使博弈系统达到均衡。

两辆冲突车辆通过博弈模型不断调整自己的通行概率，直到各自概率的调整量都为0，即系统达到均衡。此时两车的通行概率策略集内的点为均衡点。引入演化博弈中的演化稳定策略，联立两车的复制动态方程求出所有的均衡点，确定所有均衡点的策略集。

对于离散博弈系统，需对均衡点的稳定性进行判断。其中，需要参考纳什均衡理论学中的均衡点类型判别表判断均衡点是否为ESS(进化稳定策略)稳定点。即判断各均衡点对应的雅克比矩阵的秩和迹的符号判断。舍弃不稳定点，选取稳定点作为最终决策。

在整个博弈系统中，博弈决策系统的开启通过两车到达冲突点的时间差ΔT判断，并设定时间差阈值ΔT_M作为临界时间差。并通过DSRC通讯进行两车之间的识别以及博弈策略的分享。

一种基于动态博弈的自动驾驶车辆出入口匝道行驶决策方法，包括以下步骤：

步骤一，利用DSRC通讯方法识别目标车辆；

步骤二，判断两车之间是否存在冲突；两车以当前速度、加速度正常行驶是否会于同一时刻到达冲突点发生碰撞，冲突点为匝道与主路中心线的交点；应用冲突时间差ΔT来判断两车之间的冲突。

步骤三，建立博弈模型；应用子博弈完美纳什均衡动态博弈理论决策车辆交汇行为；

步骤四，计算均衡点；

根据步骤三中确定的各自的期望收益，计算复制动态方程，两车通过对方的复制动态方程不断调整自己的通行概率；

步骤五，判断均衡点的稳定性，来选择最佳的决策；

步骤六，按稳定均衡点的策略行驶。

技术方案中所述冲突时间差ΔT，是博弈系统开始时刻起，两车在保持当前车速以及加速度的情况下，到达冲突点的时间差，ΔT越小，则发生冲突的时间差越小，表示冲突可能性越大，当ΔT为0时，两车刚好在同一时刻到达冲突点发生碰撞；而ΔT越大，表示两车发生冲突的可能性越小；

取3.5s为冲突时间差阈值ΔT_M对冲突时间差进行判断；ΔT小于ΔT_M时，继续进行动态博弈，当ΔT大于ΔT_M时，两车只需以当前行驶状态即可安全通过冲突点，则结束博弈系统；

ΔT的计算与主路A车以及匝道B车的速度v、加速度a以及从当前位置到达冲突点的距离L有关；计算公式如下：

式中，v_A、v_B分别为A、B两车速度，a_A、a_B分别为两车当前时刻的加速度，L_A、L_B为两车到达冲突点的距离。

技术方案中所述应用子博弈完美纳什均衡动态博弈理论决策车辆交汇行为，具体步骤如下：

首先，需要确定博弈体系三要素：

(1)博弈参与主体对象：主路机动车A与匝道机动车B；

(2)博弈主体策略集：{加速通过，减速避让}；

(3)确定两博弈对象的收益变量；

其次，确定A、B两车的基础收益分别为G₁、G₂，根据不同情况下的等待时间确定各自的损失；其中，主要损失定义为避让损失、冲突损失以及互让损失；现有定义：A车选择加速通过，B车选择减速避让时，B车的避让损失为M；A车选择减速避让，B车选择加速通过时，A车的避让损失为N；当A、B两车均选择加速通过时，两车冲突损失分别为P、Q；当A、B两车均选择减速避让时，两车的互让损失分别为J、K；

A车选择加速通过的概率为x，选择减速避让的概率为1-x；B车选择加速通过的概率为y，选择减速避让的概率为1-y；以(x，y)来表示A、B两车进行动态博弈时，A车以x的概率选择加速通过，B车以y的概率选择加速通过；则(1，0)表示A车选择加速通过，B车选择减速等待；(0，1)表示A车选择减速避让，B车选择加速通过；

再次，对A车纯策略期望收益以及混合策略期望收益进行计算；定义A车选择加速通过的纯策略期望收益为E_A1，选择减速避让的纯策略期望收益为E_A2，计算公式如下：

E_A1＝(G₁-P)y+G₁(1-y)＝G₁-Py (2)

E_A2＝(G₁-N)y+(G₁-J)(1-y)＝G₁-J+(J-N)y (3)

A车以x的概率选择加速通过，以1-x的概率选择减速避让的混合策略期望收益为：

计算B车的加速通过以及减速避让的纯策略期望收益E_B1、E_B2公式如下：

E_B1＝(G₂-Q)x+G₂(1-x)＝G₂-Qx (5)

E_B2＝(G₂-M)x+(G₂-K)(1-x)＝G₂-K+(K-M)x (6)

B车以y的概率选择加速通过，以1-y的概率选择减速避让的混合策略期望收益为：

技术方案中所述计算复制动态方程，两车通过对方的复制动态方程不断调整自己的通行概率，具体步骤如下：

根据公式(2)和(4)计算A车选择加速通过的复制动态方程为：

根据公式(5)和(7)可计算B车选择加速通过的复制动态方程为：

A车的复制动态方程说明B车加速通过概率为y时，A车是如何调整自己的加速通过概率x来使系统达到平衡的；B车根据自己的复制动态方程来调整自己的加速通过概率y；

式(8)和式(9)组成了动态博弈系统，A车通过式(8)来调整自己的加速通行概率x，B车通过式(9)来调整自己的加速通行概率y，概率发生变化，复制动态方程也随之发生改变，此时两车再次对自己的通行概率进行修改，直至两车各自加速通过概率的调整量都变为0，此时系统达到均衡；

通过求解式(8)和式(9)的零点解，求解出整个动态博弈系统的均衡点，当系统中两车加速通过的概率达到这些点时，表示博弈系统已经达到均衡，概率不再发生变化。

技术方案中所述判断均衡点的稳定性，来选择最佳的决策；具体步骤如下：

应用演化博弈稳定策略，构造雅克比矩阵，并计算矩阵的秩和迹；构造的雅克比矩阵如下：

将所有均衡点代入雅克比矩阵中，分别计算矩阵的秩与迹，对于均衡点类型的判别，由博弈稳定策略理论，当雅克比矩阵的秩大于0，迹小于0时，该均衡点为进化稳定策略ESS稳定点，从多个计算出的均衡点中确定稳定均衡点。

技术方案中所述按稳定均衡点的策略行驶，具体内容如下：

通过步骤五确定出唯一稳定均衡点(x，y)，两车根据稳定点策略集进行行驶，即稳定均衡点x＞y时，A车加速通过，B车减速避让；稳定均衡点x＜y时，A车减速避让，B车加速通过。

本发明有益技术效果：本发明相比于现有的算法决策主动安全技术，极大简化了复杂的计算过程。现有的主动安全技术多依赖于高精度的传感器以及复杂的感知决策控制算法，需要较高的成本以及科研投入，本发明引入了现有的经济学领域博弈论思想，通过现有理论决策的改进，利用动态博弈思想的概率期望与收益损失的概念，结合博弈均衡点，实时做出最佳的通行决策，为车辆交互决策开辟了高效简易的方法思路。同时应用智能网联，使信息交互更加的准确快速，简化了复杂的整车传感器系统。随着网联化的普及，动态博弈的车辆主动安全性思想可以拓展到各个驾驶场景，对未来智能汽车驾驶决策安全性的领域具有很大的研究价值。

附图说明

图1为基于动态博弈的自动驾驶车辆出入口匝道环境示意图；

图2为基于动态博弈的自动驾驶车辆出入口匝道行驶决策流程图。

具体实施方式

下面将结合附图对本发明进行具体说明。

参阅图2，本发明提出的基于动态博弈的自动驾驶车辆出入口匝道行驶决策方法，包括以下决策流程：

步骤一，利用DSRC通讯方法识别目标车辆。本发明匝道场景中的两辆交汇车辆均配有车载OBU设备，利用DSRC无线通信技术，识别博弈目标的存在以及传输各种博弈信息。DSRC技术的特点为应用设备简单，技术较为成熟，目前可达约300m的通信范围。在本发明中，两车均采用非定向广泛式传播方式，即以自车为中心，半径300m的圆周范围内为通信识别区。当两车的通讯范围相交后，系统识别到博弈目标，开启博弈决策模块，进行动态博弈。

步骤二，判断两车之间是否存在冲突。博弈系统开启后，需先判断两车之间是否存在可碰撞的冲突，即两车以当前速度、加速度正常行驶是否会于同一时刻到达冲突点发生碰撞。这里的冲突点即为匝道与主路中心线的交点。为简明判断冲突的存在性。本发明应用冲突时间差ΔT来判断两车之间的冲突。

参阅图1，博弈系统开始时刻起，两车在保持当前车速以及加速度的情况下，到达冲突点的时间差，即为冲突时间差ΔT。ΔT越小，则发生冲突的时间差越小，表示冲突可能性越大，当ΔT为0时，两车刚好在同一时刻到达冲突点发生碰撞。而ΔT越大，则表示两车发生冲突的可能性越小。本发明取3.5s为冲突时间差阈值ΔT_M对冲突时间差进行判断。即ΔT小于ΔT_M时，继续进行动态博弈，当ΔT大于ΔT_M时，两车只需以当前行驶状态即可安全通过冲突点，则结束博弈系统。

ΔT的计算与主路A车以及匝道B车的速度v、加速度a以及从当前位置到达冲突点的距离L有关。计算公式如下：

式中，v_A、v_B分别为A、B两车速度，a_A、a_B分别为两车当前时刻的加速度，L_A、L_B为两车到达冲突点的直线距离。

步骤三，建立博弈模型。本发明应用子博弈完美纳什均衡动态博弈理论决策车辆交汇行为。首先确定博弈体系三要素：

(4)博弈参与主体对象：主路机动车A与匝道机动车B。

(5)博弈主体策略集：{加速通过，减速避让}。

(6)确定两博弈对象的收益变量。

首先确定A、B两车的基础收益分别为G₁、G₂，根据不同情况下的等待时间确定各自的损失。其中，主要损失定义为避让损失、冲突损失以及互让损失。现有定义：A车选择加速通过，B车选择减速避让时，B车的避让损失为M；A车选择减速避让，B车选择加速通过时，A车的避让损失为N。当A、B两车均选择加速通过时，两车冲突损失分别为P、Q；当A、B两车均选择减速避让时，两车的互让损失分别为J、K。

A车选择加速通过的概率为x，选择减速避让的概率为1-x；B车选择加速通过的概率为y，选择减速避让的概率为1-y。以(x，y)来表示A、B两车进行动态博弈时，A车以x的概率选择加速通过，B车以y的概率选择加速通过。则(1，0)表示A车选择加速通过，B车选择减速等待；(0，1)表示A车选择减速避让，B车选择加速通过。

首先对A车纯策略期望收益以及混合策略期望收益进行计算。定义A车选择加速通过的纯策略期望收益为E_A1，选择减速避让的纯策略期望收益为E_A2，则其计算公式如下：

E_A1＝(G₁-P)y+G₁(1-y)＝G₁-Py (2)

E_A2＝(G₁-N)y+(G₁-J)(1-y)＝G₁-J+(J-N)y (3)

同理计算B车的加速通过以及减速避让的纯策略期望收益乩₁、乩₂公式如下：

E_B1＝(G₂-Q)x+G₂(1-x)＝G₂-Qx (5)

E_B2＝(G₂-M)x+(G₂-K)(1-x)＝G₂-K+(K-M)x (6)

步骤四，计算均衡点。根据步骤三中确定的各自的期望收益，计算复制动态方程，两车通过对方的复制动态方程不断调整自己的通行概率。根据公式(2)和(4)可计算A车选择加速通过的复制动态方程为：

同样，根据公式(5)和(7)可计算B车选择加速通过的复制动态方程为：

A车的复制动态方程说明B车加速通过概率为y时，A车是如何调整自己的加速通过概率x来使系统达到平衡的；同理，B车也根据自己的复制动态方程来调整自己的加速通过概率y。式(8)和式(9)组成了动态博弈系统，A车通过式(8)来调整自己的加速通行概率x，B车通过式(9)来调整自己的加速通行概率y，因为概率发生变化，复制动态方程也随之发生改变，此时两车再次对自己的通行概率进行修改，直至两车各自加速通过概率的调整量都变为0，此时系统达到均衡。

通过求解式(8)和式(9)的零点解，可求解出整个动态博弈系统的均衡点，当系统中两车加速通过的概率达到这些点时，表示博弈系统已经达到均衡，概率不再发生变化。

步骤五，均衡点稳定性判别。通过步骤四计算出的均衡点，未必都是稳定的，因为当处于均衡点的两车加速通过概率发生微小的扰动时，系统未必能恢复到这些点的位置。因此需判断这些均衡点的稳定性，来选择最佳的决策。均衡点稳定性的判别需要应用演化博弈稳定策略，即构造雅克比矩阵，并计算矩阵的秩和迹。构造的雅克比矩阵如下：

将所有均衡点代入雅克比矩阵中，分别计算矩阵的秩与迹，对于均衡点类型的判别，由博弈稳定策略理论，当雅克比矩阵的秩大于0，迹小于0时，该均衡点为ESS(进化稳定策略)稳定点。由此可从多个计算出的均衡点中确定稳定均衡点。

步骤六，按稳定均衡点的策略行驶。通过步骤五可确定出唯一稳定均衡点(x，y)，则两车可根据稳定点策略集进行行驶，即稳定均衡点x＞y时，A车加速通过，B车减速避让；稳定均衡点x＜y时，A车减速避让，B车加速通过。

Claims

1.一种基于动态博弈的自动驾驶车辆出入口匝道行驶决策方法，其特征在于，包括以下步骤：

步骤一，利用DSRC通讯方法识别目标车辆；

步骤二，判断两车之间是否存在冲突；两车以当前速度、加速度正常行驶是否会于同一时刻到达冲突点发生碰撞，冲突点为匝道与主路中心线的交点；应用冲突时间差△T来判断两车之间的冲突；

步骤四，计算均衡点；

步骤五，判断均衡点的稳定性，来选择最佳的决策；

步骤六，按稳定均衡点的策略行驶。

2.根据权利要求1所述的一种基于动态博弈的自动驾驶车辆出入口匝道行驶决策方法，其特征在于：

所述冲突时间差△T，是博弈系统开始时刻起，两车在保持当前车速以及加速度的情况下，到达冲突点的时间差，△T越小，则发生冲突的时间差越小，表示冲突可能性越大，当△T为0时，两车刚好在同一时刻到达冲突点发生碰撞；而△T越大，表示两车发生冲突的可能性越小；

取3.5s为冲突时间差阈值△T_M对冲突时间差进行判断；△T小于△T_M时，继续进行动态博弈，当△T大于△T_M时，两车只需以当前行驶状态即可安全通过冲突点，则结束博弈系统；

△T的计算与主路A车以及匝道B车的速度v、加速度a以及从当前位置到达冲突点的距离L有关；计算公式如下：

3.根据权利要求1所述的一种基于动态博弈的自动驾驶车辆出入口匝道行驶决策方法，其特征在于：

所述应用子博弈完美纳什均衡动态博弈理论决策车辆交汇行为，具体步骤如下：

首先，需要确定博弈体系三要素：

(1)博弈参与主体对象：主路机动车A与匝道机动车B；

(2)博弈主体策略集：{加速通过，减速避让}；

(3)确定两博弈对象的收益变量；

再次，对A车纯策略期望收益以及混合策略期望收益进行计算；定义A车选择加速通过的纯策略期望收益为E_A1，选择减速避让的纯策略期望收益为E_A2，计算公式如下:

E_A1＝(G₁-P)y+G₁(1-y)＝G₁-Py (2)

E_A2＝(G₁-N)y+(G₁-J)(1-y)＝G₁-J+(J-N)y (3)

E_B1＝(G₂-Q)x+G₂(1-x)＝G₂-Qx (5)

E_B2＝(G₂-M)x+(G₂-K)(1-x)＝G₂-K+(K-M)x (6)

4.根据权利要求1所述的一种基于动态博弈的自动驾驶车辆出入口匝道行驶决策方法，其特征在于：

所述计算复制动态方程，两车通过对方的复制动态方程不断调整自己的通行概率，具体步骤如下：

根据公式(2)和(4)计算A车选择加速通过的复制动态方程为：

根据公式(5)和(7)可计算B车选择加速通过的复制动态方程为：

5.根据权利要求1所述的一种基于动态博弈的自动驾驶车辆出入口匝道行驶决策方法，其特征在于：

所述判断均衡点的稳定性，来选择最佳的决策；具体步骤如下：

6.根据权利要求1所述的一种基于动态博弈的自动驾驶车辆出入口匝道行驶决策方法，其特征在于：

所述按稳定均衡点的策略行驶，具体内容如下：