CN113335282A

CN113335282A - 一种基于博弈论的换道决策方法

Info

Publication number: CN113335282A
Application number: CN202110608331.3A
Authority: CN
Inventors: 黄志球; 杨泽宇; 王金永; 徐恒; 刘延钊
Original assignee: Nanjing University of Aeronautics and Astronautics
Current assignee: Nanjing University of Aeronautics and Astronautics
Priority date: 2021-06-01
Filing date: 2021-06-01
Publication date: 2021-09-03
Anticipated expiration: 2041-06-01
Also published as: CN113335282B

Abstract

本发明提供一种基于博弈论的换道决策方法，包括以下步骤：对换道场景进行博弈建模，设定博弈过程中的参与者为拟换道车辆和目标车道车辆；设定拟换道车辆的策略集合和目标车道车辆的策略集合；计算换道过程中所有可能出现的策略组合；根据策略组合计算成功换道后拟换道车辆的博弈收益和目标车道车辆的博弈收益，并计算拟换道车辆和目标车道车辆的最终收益；根据拟换道车辆和目标车道车辆的最终收益构建联合收益矩阵；根据联合收益矩阵计算拟换道车辆和目标车道车辆的期望总收益；根据拟换道车辆和目标车道车辆的期望总收益计算换道博弈过程中达到纳什均衡状态下拟换道车辆和目标车道车辆的混合策略及各自的期望收益。

Description

一种基于博弈论的换道决策方法

技术领域

本发明涉及车辆控制技术领域，具体涉及一种基于博弈论的换道决策方法。

背景技术

无人自治系统逐渐走入人们的视野中，无人机已经在航空拍照、物流运输等领域蓬勃发展。相较于无人机，无人驾驶车辆更受人们的关注，除了能够高效的到达指定地点，无人驾驶的安全性问题也是一直阻碍无人驾驶发展的难点，除了借助更加精密准确的感知系统外，良好的决策模块也能够大幅提升无人驾驶系统的效率及安全程度。在非无人驾驶系统中，决策模块同样发挥着重要的作用，驾驶员往往可以配合驾驶辅助系统来执行收益更高的决策。

换道决策属于驾驶场景中的常见决策，相关技术中的换道决策模块通常采用机器学习的办法对模型进行训练，往往在特定的环境下有较好的表现，但是面临新的场景时则需要再次训练，并且使用机器学习方法对模型进行训练时，对数据集质量的要求非常高，包括但不限于数据集的准确程度、数据集的时效性等等。而且机器学习方法产生的模型在出现故障时，很难对故障原因进行定位，这是由机器学习的不可解释性质带来的。

此外，机器学习方法在处理复杂场景下的决策时，复杂度高，计算量大，对于驾驶过程这种对安全性要求极高的场景不能够轻易采取剪枝的办法降低复杂度，因此对决策系统的硬件有较高的要求。

发明内容

本发明为解决上述技术问题，提供了一种基于博弈论的换道决策方法，能够减小数据处理量和计算量，降低对于硬件的要求，并能够实现更为合理的换道决策。

本发明采用的技术方案如下：

一种基于博弈论的换道决策方法，包括以下步骤：对换道场景进行博弈建模，设定博弈过程中的参与者为拟换道车辆和目标车道车辆；设定所述拟换道车辆的策略集合和所述目标车道车辆的策略集合，其中，所述拟换道车辆的策略集合中包括有限个策略，所述目标车道车辆的策略集合中包含对所述拟换道车辆的策略集合中每一个策略的响应与不响应的对应策略；计算换道过程中所有可能出现的策略组合；根据所述策略组合计算成功换道后所述拟换道车辆的博弈收益和所述目标车道车辆的博弈收益，并计算所述拟换道车辆和所述目标车道车辆的最终收益；根据所述拟换道车辆和所述目标车道车辆的最终收益构建联合收益矩阵；根据所述联合收益矩阵计算所述拟换道车辆和所述目标车道车辆的期望总收益；根据所述拟换道车辆和所述目标车道车辆的期望总收益计算换道博弈过程中达到纳什均衡状态下所述拟换道车辆和所述目标车道车辆的混合策略及各自的期望收益；根据换道博弈过程中达到纳什均衡状态下所述拟换道车辆和所述目标车道车辆的混合策略及各自的期望收益绘制不同成功换道概率下所述拟换道车辆与所述目标车道车辆的收益随概率变化的曲线，以便根据所述曲线进行换道决策。

所述拟换道车辆的策略集合中的策略包括加速、鸣笛和转向。

成功换道后所述拟换道车辆的博弈收益为：

其中，n为所述拟换道车辆的策略集合中的策略数量，Csi为所述目标车道车辆积极响应所述拟换道车辆的策略而导致换道成功的损失成本，p_si为所述拟换道车辆在策略si下换道成功的概率，

成功换道后所述目标车道车辆的博弈收益为-W。

所述拟换道车辆的最终收益为：

U₁＝W-C_cs

其中，U₁为所述拟换道车辆的最终收益，C_cs为所述拟换道车辆执行策略s所付出的成本，

所述拟换道车辆的最终收益为：

U₂＝-C_gs-W

其中，U₂为所述目标车道车辆的最终收益，C_gs为所述目标车道车辆为响应所述拟换道车辆而执行策略s所付出的成本。

所述拟换道车辆和所述目标车道车辆的期望总收益分别为：

其中，U_c(p,q)和U_g(p,q)分别为所述拟换道车辆和所述目标车道车辆的期望总收益，c_ij和g_ij代表联合收益矩阵中所述拟换道车辆和所述目标车道车辆各自在不同策略组合(i,j)下的总收益。

本发明的有益效果：

本发明在建模过程中能够通过对规则的扩展，即对收益函数的修正以及对策略集的扩充，较容易的实现模型从一个场景下到另一个场景下的转变，无需大量训练新场景下的模型，尤其是当新场景下没有合适的数据集时，可以作为决策系统的实验模型为后续模型的建立提供数据；

本发明实施例中涉及到的计算无较高的复杂度，可以保证在实时的状态下运行，因此既可以离线生成模型也可以拓展成为在线模型，对计算系统的硬件要求不高，可以满足大多数场景使用；

本发明实施例通过计算纳什均衡条件下的混合策略解，能够避免其他算法在计算结果不明显时随机选取策略带来的问题，如放弃了本可以成功的换道策略，或者执行了危险的策略导致事故的产生，这些情况往往是因为影响策略的指标在阈值附近，而博弈理论考虑了博弈过程中双方的互动，即参与者知道对方的收益函数时，也能够推断出对方在已知自己策略时所作出的对策，因而在达到纳什均衡状态时所得到的混合策略不是“短视”而是考虑了长远收益的策略。

附图说明

图1为本发明实施例的基于博弈论的换道决策方法的流程图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

博弈论起源于近现代的数学领域，同时也是运筹学中的基本理论，博弈论解决的是博弈过程中的决策问题，早期应用于金融领域的经济问题，如今经过发展已经广泛应用于计算机网络、边缘计算、无人系统通信、智能系统决策等领域。通常在博弈过程中，具有多个参与者，同时每个参与者具有各自的策略集合，若该集合是有限集，则称该博弈为有限博弈，否则为无限博弈。不同的策略组合往往会带来不同的收益，通常情况下，参与者的收益应当是策略的函数，该函数被称为收益函数，通过分析博弈过程，可以计算得到博弈最终达到的平衡状态以及参与者所能得到的最大收益，进而为参与者提供在特定场景下的最优策略。

博弈过程根据参与者之间的互动情况可以分为合作博弈与非合作博弈。

合作博弈指的是在博弈过程中，参与者双方受到一定的约束，使得在做出决策时必须考虑到整体的收益，因此最终得到的个人收益在所有策略集合中不一定是最高的，但可以确保系统中总的收益处于最大值。现实场景中，大多数博弈过程因为无法确保能够完全执行的约束，因此不属于合作博弈的范畴。

非合作博弈指的是在整个博弈过程中，所有参与者对策略的选择是相互独立的，每个参与者策略的制定不考虑其他参与者，策略的目标是使自身的利益最大化。

非合作博弈最终达到的平衡状态称为纳什均衡，对于每个参与者而言，此状态下的策略即为最优策略，其余任何策略都会导致收益减少，因此参与博弈的双方均会选择该策略从而达到平衡状态。考虑到双方参与者的策略未必都采用纯策略，所以要引入带有概率的混合策略，纯策略是混合策略的特殊情况，即其他策略概率为0的混合策略。

换道过程通常包含多个参与者，可以考虑使用博弈理论进行建模，在对模型做出基本假设后，构建出特定场景下的换道决策模型，根据求解得到的最优策略分析模型中的参数，可以对决策系统进行优化。

如图1所示，本发明实施例的基于博弈论的换道决策方法包括以下步骤：

S1，对换道场景进行博弈建模，设定博弈过程中的参与者为拟换道车辆和目标车道车辆。

本发明实施例中可只考虑双车交互的情况，三车及以上的情况可以通过多次建模进行扩展，设定交互双方皆为不考虑其他参与者的非合作类型参与者，即可使用本发明实施例提出的非合作博弈换道决策模型进行建模，拟换道车辆为参与者Nc，目标车道车辆为参与者Ng。

S2，设定拟换道车辆的策略集合和目标车道车辆的策略集合，其中，拟换道车辆的策略集合中包括有限个策略，目标车道车辆的策略集合中包含对拟换道车辆的策略集合中每一个策略的响应与不响应的对应策略。

在本发明的一个实施例中，拟换道车辆的策略集合中的策略包括加速、鸣笛和转向。需要说明的是，本发明实施例是以上述三种策略的情况为例，更多策略的情况可以根据需要进行扩展，但要保证策略集中的策略个数是有限的，因为只有有限策略下才能确保存在纳什均衡。

拟换道车辆的策略集合为Sc＝{加速，鸣笛，转向}，其中每种策略均有执行和未执行两种状态，目标换道车辆的策略集合Sg对于拟换道车辆的每种策略的不同执行情况均有积极响应和消极响应两种响应策略。积极响应指的是对于拟换道车辆的换道策略，目标车道车辆做出有助于拟换道车辆进行换道的行为，可以将换道的全过程根据策略集划分为不同部分，每一部分当拟换道车辆做出决策时，目标车道车辆提供积极响应策略和消极响应策略时均有一定概率实现成功换道，当各部分均成功时，此时认为拟换道车辆成功完成了换道过程。

可设置目标换道车辆对拟换道车辆策略进行积极反应的值为1，进行消极反应的值为0，拟换道车辆执行积极响应策略的值为0，执行消极响应策略的值为1。

S3，计算换道过程中所有可能出现的策略组合。

其中拟换道车辆可以同时采取多个策略也可以不采取任何策略，目标车道车辆的策略仅限于对拟换道车辆的策略响应。以上述的三策略集合为例，拟换道车辆的策略组合如表一所示：

表1

拟换道车辆策略	加速状态	鸣笛状态	转向状态
				Sc1	0	0	0
Sc2	0	0	1
				Sc3	0	1	0
Sc4	1	0	0
				Sc5	0	1	1
Sc6	1	1	0
				Sc7	1	0	1
Sc8	1	1	1

目标车道车辆的策略组合如表2所示：

表2

目标车道车辆策略	加速响应类型	鸣笛响应类型	转向响应类型
				Sg1	0	0	0
Sg2	0	0	1
				Sg3	0	1	0
Sg4	1	0	0
				Sg5	0	1	1
Sg6	1	1	0
				Sg7	1	0	1
Sg8	1	1	1

S4，根据策略组合计算成功换道后拟换道车辆的博弈收益和目标车道车辆的博弈收益，并计算拟换道车辆和目标车道车辆的最终收益。

设定在拟换道车辆特定的策略Sc下，目标车道车辆采取积极响应策略Sg时成功完成换道的概率p以及采取消极响应策略时成功完成换道的概率q，此例中设定p＝1，q＝0，实际场景中可由数据集回归得到参数p，q的统计精确值。

成功完成换道会使拟换道车辆的博弈收益增加，而使目标车道车辆的博弈收益减少。

成功换道后拟换道车辆的博弈收益为：

其中，n为拟换道车辆的策略集合中的策略数量，Csi为目标车道车辆积极响应拟换道车辆的策略而导致换道成功的损失成本，p_si为拟换道车辆在策略si下换道成功的概率。

在本发明的一个实施例中，目标车道车辆积极响应拟换道车辆的策略而导致换道成功的损失成本Csi可以规约至一个合理的范围内，例如可规约至1～100之间用以衡量成本的大小。以拟换道车辆执行Sc2策略为例，若目标车道车辆执行策略Sg3(Cs1＝50，Cs2＝80，Cs3＝20)，则W＝20。

成功换道后目标车道车辆的博弈收益为-W。

成功换道后拟换道车辆的最终收益为：

U₁＝W-C_cs (2)

其中，U₁为拟换道车辆的最终收益，C_cs为拟换道车辆执行策略s所付出的成本。

在本发明的一个具体实施例中，拟换道车辆执行策略s所付出的成本C_cs可规约至10～30，对于Sc2，C_cs设定为30，则U₁＝20-30＝-10。

成功换道后拟换道车辆的最终收益为：

U₂＝-C_gs-W (3)

其中，U₂为目标车道车辆的最终收益，C_gs为目标车道车辆为响应拟换道车辆而执行策略s所付出的成本。

在本发明的一个具体实施例中，目标车道车辆为响应拟换道车辆而执行策略s所付出的成本C_gs可规约至5～15，对于Sg3，C_gs设定为5，则U₂＝-5-10＝-15。

S5，根据拟换道车辆和目标车道车辆的最终收益构建联合收益矩阵。

计算其他策略组合情况下的收益值，得到所有策略组合下拟换道车辆和目标车道车辆的收益值，并将其绘制进两车辆的联合收益矩阵中，如表3所示：

表3

在本发明的一个具体实施例中，联合收益矩阵如表4所示：

表4

	S1g	S2g	S3g
				S1c	(-20，140)	(30，95)	(30，85)
S2c	(70，60)	(-10，145)	(70，55)
				S3c	(-10，120)	(-10，125)	(-30，135)

S6，根据联合收益矩阵计算拟换道车辆和目标车道车辆的期望总收益。

考虑博弈过程中参与者不一定采用纯策略的情况，对于混合策略以概率集合表示对应策略可能被执行的概率，则有：

p_i≥0且

q_i≥0且

对于拟换道车辆采取的混合策略P＝{p₁p₂，...p_n}，以及目标车道车辆采取的混合策略Q＝{q₁，q₂，...q_n}，根据联合收益矩阵，可以得到拟换道车辆和目标车道车辆的期望总收益分别为：

其中，U_c(p，c)和U_g(p，q)分别为拟换道车辆和目标车道车辆的期望总收益，c_ij和g_ij代表联合收益矩阵中拟换道车辆和目标车道车辆各自在不同策略组合(i，j)下的总收益。

S7，根据拟换道车辆和目标车道车辆的期望总收益计算换道博弈过程中达到纳什均衡状态下拟换道车辆和目标车道车辆的混合策略及各自的期望收益。

以U_c(p，q)为例，将U_c(p，q)的表达式展开，可以得到：

CQ_g ^T＝U_c(p，q)(1，1，...1)^T (6)

即

Q_g ^T＝U_c(p，q)C^-1(1，1，...1)^T (7)

其中C为拟换道车辆的收益矩阵，Q_g为混合策略Q的向量形式，两边同乘(1,1,...1)向量，得到：

联立公式(6)可以得到：

同理，有

其中，G为目标车道车辆的收益矩阵。

Q和P即为换道博弈过程中达到纳什均衡状态下的两车混合策略，并可以计算在当前混合策略下，两车各自的期望收益。

在本发明的一个具体实施例中，代入收益矩阵中的数值，可以得到对于拟换道车辆，其混合策略P＝{0.197,0.061,0.742}其最大收益值为-0.3。

对于目标车道车辆，其混合策略Q＝{0.340,0.630,0}，其最大收益值为120.3。

由此可以看出在本例场景下，拟换道车辆最有可能会采取转向的策略，而目标车道对于换道车辆的转向策略会给与积极的响应，从而允许拟换道车辆完成成功换道，而对换道车辆的鸣笛策略，则会给与较大概率的消极策略进行响应，从而组织拟换道车辆的换道行为。

S8，根据换道博弈过程中达到纳什均衡状态下拟换道车辆和目标车道车辆的混合策略及各自的期望收益绘制不同成功换道概率下拟换道车辆与目标车道车辆的收益随概率变化的曲线，以便根据曲线进行换道决策。

最后，可以通过结合已有数据集进行参数的回归计算，来计算不同响应策略成功换道的概率和收益之间的关系，绘制得到不同成功换道概率下拟换道车辆与目标车道车辆收益随概率变化的曲线，通过寻找收益最大的策略组合，来为驾驶员提供最优的决策方案。

根据本发明实施例的基于博弈论的换道决策方法具有如下有益效果：

在建模过程中能够通过对规则的扩展，即对收益函数的修正以及对策略集的扩充，较容易的实现模型从一个场景下到另一个场景下的转变，无需大量训练新场景下的模型，尤其是当新场景下没有合适的数据集时，可以作为决策系统的实验模型为后续模型的建立提供数据；

在本发明的描述中，术语“第一”、“第二”仅用于描述目的，而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此，限定有“第一”、“第二”的特征可以明示或者隐含地包括一个或者更多个该特征。“多个”的含义是两个或两个以上，除非另有明确具体的限定。

在本发明中，除非另有明确的规定和限定，术语“安装”、“相连”、“连接”、“固定”等术语应做广义理解，例如，可以是固定连接，也可以是可拆卸连接，或成一体；可以是机械连接，也可以是电连接；可以是直接相连，也可以通过中间媒介间接相连，可以是两个元件内部的连通或两个元件的相互作用关系。对于本领域的普通技术人员而言，可以根据具体情况理解上述术语在本发明中的具体含义。

在本发明中，除非另有明确的规定和限定，第一特征在第二特征“上”或“下”可以是第一和第二特征直接接触，或第一和第二特征通过中间媒介间接接触。而且，第一特征在第二特征“之上”、“上方”和“上面”可是第一特征在第二特征正上方或斜上方，或仅仅表示第一特征水平高度高于第二特征。第一特征在第二特征“之下”、“下方”和“下面”可以是第一特征在第二特征正下方或斜下方，或仅仅表示第一特征水平高度小于第二特征。

在本说明书的描述中，参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中，对上述术语的示意性表述不必针对相同的实施例或示例。而且，描述的具体特征、结构、材料或者特点可以在任一个或多个实施例或示例中以合适的方式结合。此外，在不相互矛盾的情况下，本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。

流程图中或在此以其他方式描述的任何过程或方法描述可以被理解为，表示包括一个或更多个用于实现特定逻辑功能或过程的步骤的可执行指令的代码的模块、片段或部分，并且本发明的优选实施方式的范围包括另外的实现，其中可以不按所示出或讨论的顺序，包括根据所涉及的功能按基本同时的方式或按相反的顺序，来执行功能，这应被本发明的实施例所属技术领域的技术人员所理解。

在流程图中表示或在此以其他方式描述的逻辑和/或步骤，例如，可以被认为是用于实现逻辑功能的可执行指令的定序列表，可以具体实现在任何计算机可读介质中，以供指令执行系统、装置或设备(如基于计算机的系统、包括处理器的系统或其他可以从指令执行系统、装置或设备取指令并执行指令的系统)使用，或结合这些指令执行系统、装置或设备而使用。就本说明书而言，“计算机可读介质”可以是任何可以包含、存储、通信、传播或传输程序以供指令执行系统、装置或设备或结合这些指令执行系统、装置或设备而使用的装置。计算机可读介质的更具体的示例(非穷尽性列表)包括以下：具有一个或多个布线的电连接部(电子装置)，便携式计算机盘盒(磁装置)，随机存取存储器(RAM)，只读存储器(ROM)，可擦除可编辑只读存储器(EPROM或闪速存储器)，光纤装置，以及便携式光盘只读存储器(CDROM)。另外，计算机可读介质甚至可以是可在其上打印所述程序的纸或其他合适的介质，因为可以例如通过对纸或其他介质进行光学扫描，接着进行编辑、解译或必要时以其他合适方式进行处理来以电子方式获得所述程序，然后将其存储在计算机存储器中。

应当理解，本发明的各部分可以用硬件、软件、固件或它们的组合来实现。在上述实施方式中，多个步骤或方法可以用存储在存储器中且由合适的指令执行系统执行的软件或固件来实现。例如，如果用硬件来实现，和在另一实施方式中一样，可用本领域公知的下列技术中的任一项或他们的组合来实现：具有用于对数据信号实现逻辑功能的逻辑门电路的离散逻辑电路，具有合适的组合逻辑门电路的专用集成电路，可编程门阵列(PGA)，现场可编程门阵列(FPGA)等。

本技术领域的普通技术人员可以理解实现上述实施例方法携带的全部或部分步骤是可以通过程序来指令相关的硬件完成，所述的程序可以存储于一种计算机可读存储介质中，该程序在执行时，包括方法实施例的步骤之一或其组合。

此外，在本发明各个实施例中的各功能单元可以集成在一个处理模块中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个模块中。上述集成的模块既可以采用硬件的形式实现，也可以采用软件功能模块的形式实现。所述集成的模块如果以软件功能模块的形式实现并作为独立的产品销售或使用时，也可以存储在一个计算机可读取存储介质中。

尽管上面已经示出和描述了本发明的实施例，可以理解的是，上述实施例是示例性的，不能理解为对本发明的限制，本领域的普通技术人员在本发明的范围内可以对上述实施例进行变化、修改、替换和变型。

Claims

1.一种基于博弈论的换道决策方法，其特征在于，包括以下步骤：

对换道场景进行博弈建模，设定博弈过程中的参与者为拟换道车辆和目标车道车辆；

设定所述拟换道车辆的策略集合和所述目标车道车辆的策略集合，其中，所述拟换道车辆的策略集合中包括有限个策略，所述目标车道车辆的策略集合中包含对所述拟换道车辆的策略集合中每一个策略的响应与不响应的对应策略；

计算换道过程中所有可能出现的策略组合；

根据所述策略组合计算成功换道后所述拟换道车辆的博弈收益和所述目标车道车辆的博弈收益，并计算所述拟换道车辆和所述目标车道车辆的最终收益；

根据所述拟换道车辆和所述目标车道车辆的最终收益构建联合收益矩阵；

根据所述联合收益矩阵计算所述拟换道车辆和所述目标车道车辆的期望总收益；

根据所述拟换道车辆和所述目标车道车辆的期望总收益计算换道博弈过程中达到纳什均衡状态下所述拟换道车辆和所述目标车道车辆的混合策略及各自的期望收益；

根据换道博弈过程中达到纳什均衡状态下所述拟换道车辆和所述目标车道车辆的混合策略及各自的期望收益绘制不同成功换道概率下所述拟换道车辆与所述目标车道车辆的收益随概率变化的曲线，以便根据所述曲线进行换道决策。

2.根据权利要求1所述的基于博弈论的换道决策方法，其特征在于，所述拟换道车辆的策略集合中的策略包括加速、鸣笛和转向。

3.根据权利要求2所述的基于博弈论的换道决策方法，其特征在于，成功换道后所述拟换道车辆的博弈收益为：

成功换道后所述目标车道车辆的博弈收益为-W。

4.根据权利要求3所述的基于博弈论的换道决策方法，其特征在于，所述拟换道车辆的最终收益为：

U₁＝W-C_cs

所述拟换道车辆的最终收益为：

U₂＝-C_gs-W

5.根据权利要求4所述的基于博弈论的换道决策方法，其特征在于，所述拟换道车辆和所述目标车道车辆的期望总收益分别为：