CN106960246A

CN106960246A - 一种基于演化博弈的车辆诱导方法

Info

Publication number: CN106960246A
Application number: CN201710160997.0A
Authority: CN
Inventors: 刘宸禹
Original assignee: Chongqing University of Post and Telecommunications
Current assignee: Chongqing University of Post and Telecommunications
Priority date: 2017-03-17
Filing date: 2017-03-17
Publication date: 2017-07-18

Abstract

本发明公开了一种基于演化博弈的车辆诱导方法，包括确定始发地和目的地，并生成若干条路径；将所述若干条路径简化为多组由两条路径构成的由A点到B点的博弈模型；根据驾驶员在A点的收益矩阵进行博弈；计算博弈收益等步骤。本发明利用演化博弈下不同因素对诱导信息的影响，适当发布诱导信息，减少驾驶员的行驶时间，提高接收诱导信息的驾驶员比例。本发明确保了诱导信息具有一定的有效性。

Description

一种基于演化博弈的车辆诱导方法

技术领域

本发明属于交通管理领域，具体涉及一种基于演化博弈的车辆诱导方法。

背景技术

在研究车辆路径选择的内部规律方面，国内外已经有很多研究成果。Erev^[1]认为出行者进行路径选择的同时也是在不断地实践，通过多次不同的选择，出行者会总结出几次选择的路径中最佳的路径，并将其作为自己今后选择路径的依据，所以路径的选择也是一个学习的过程进而转化成自身的经验。Avineri^[2]等采用前景理论研究出行者的路径选择过程。

在交通诱导上，信息诱导条件下出行路径选择行为受到了国内外研究人员的关注。Lourdes^[3]将博弈论运用到不同的公交公司之间，建立了不同的公交公司之间的博弈模型。Michael G.H.Bell^[4]将博弈论运用到为了选择最佳的行驶路径使自己花费最小的出行者个体和为了使整个路网的收益最大的破坏者之间，建立非合作博弈模型，在保证路网的安全性下，得到了Nash混合策略均衡解。Srinivasan^[5]在考虑了不同拥堵程度下出行者对信息诱导的反应的基础上，分析了影响出行者路径选择的因素，使用核心Logic模型，建立了相应的出行路径选择动态模型。Zhou^[6]等认为管理者所作出的决策在整个道路中起着决定性的作用，直接决定了出行者的路径选择行为，并建立了基于系统最优及部分出行者利益最优的Stackelberg博弈均衡模型，通过模型的分析得出，管理者可以从提高服务质量来获取最佳收益。Sun^[7]等建立了非合作完美信息出行者的静态决策博弈模型。周代平^[8]等在基于有限理性模糊博弈下，分析了又到信息条件下车辆路径选择，并与无诱导信息下的车辆路径选择作了对比。

在国内，演化博弈在车辆诱导领域也有广泛的应用。例如董斌杰^[9]为了研究诱导信息的出行者选择路径的可能，建立了静态的博弈模型；李静^[10]运用博弈论的概念与方法，剖析驾驶员对诱导信息的反应行为，并将博弈论用于交通诱导的分析和研究中，最终得到建议性诱导信息能够有效地改善博弈的结果；鲁丛林^[11]针对诱导系统提供无诱导信息、完全诱导信息、描述型信息和建议型诱导信息四种情况的驾驶员反应行为建立了博弈论模型。

目前的交通诱导方法中，忽略了驾驶员可自己学习策略这一因素对之后交通诱导博弈的影响。因此，针对现有交通诱导方法的不足，需要采用一种合理的方法对诱导信息对驾驶员的作用规律进行分析，以使诱导信息能有更好的有效性。

发明内容

本发明的目的是提供一种基于演化博弈的车辆诱导方法，利用分析不同条件下诱导信息对驾驶员的作用规律来确保诱导信息的有效性。

本发明采用的技术方案是：一种基于演化博弈的车辆诱导方法，包括以下步骤：

确定始发地和目的地，并生成若干条路径；将所述若干条路径简化为多组由两条路径构成的由A点到B点的博弈模型；

根据驾驶员在A点的收益矩阵进行博弈；

如果在博弈过程中有计算博弈收益；其中，x表示驾驶员接受诱导信息的比例；U表示驾驶员i接受诱导信息，其他驾驶员也接受诱导信息的情况下，驾驶员i所获得的盈利；V表示驾驶员i不接受诱导信息的情况下，而其他驾驶员接受诱导信息的情况下，驾驶员i所获得的盈利；表示接受诱导比例x的微分方程；否则改变初始条件，再次进行博弈。

在本发明中上述收益矩阵为：

式中,S表示驾驶员i可能的策略的集合，S＝{s₁，s₂}，s₁表示接受诱导路径，s₂表示不接受诱导路径；

E(s₁,s₁)表示驾驶员i接受诱导信息，其他驾驶员也接受诱导信息的情况下，驾驶员i所获得的盈利，为方便记为U；

E(s₁,s₂)表示驾驶员i接受诱导信息，其他驾驶员不接受诱导信息的情况下，驾驶员i所获得的盈利，为方便记为M；

E(s₂,s₁)表示驾驶员i不接受诱导信息，而其他驾驶员接受诱导信息的情况下，驾驶员i所获得的盈利，为方便记为V；

E(s₂,s₂)表示驾驶员i和其他驾驶员都不会接受诱导信息的情况下，驾驶员i所获得的盈利，为方便记为N。

进一步，在收益矩阵进行博弈的过程中，还包括对博弈模型进行演化，建立策略集合S、收益矩阵E、适应度函数W和平均适应度函数W相关方程。如下：

W(s₁)＝xE(s₁,s₁)+yE(s₁,s₂)＝xU+yM

W(s₂)＝xE(s₂,s₁)+yE(s₂,s₂)＝xV+yN

其中，W(s₁)、W(s₂)分别为决策s₁和s₂的适应度函数，x为选择接受诱导信息的驾驶员比例为，y为驾驶员不接受诱导信息的比例；为平均适应度函数。

本发通过设置不同的初始条件，基于演化博弈理论下，分析驾驶员面对交通诱导信息之后的驾驶行为改变，从而更加合理安排诱导路径，提高诱导信息有效性。

结合以上方案，本发明具有以下优点：本发明重视驾驶员自学习机制，分析了驾驶员接受诱导信息的演化博弈轨迹，驾驶员在面对诱导信息时，可在博弈中不断迭代更新自己的策略，来决定是否接受诱导信息。更接近实际驾驶情况，更准确的实现了管理方和驾驶方的博弈联动关系，确保了诱导信息的有效性。

附图说明

图1为车辆诱导方法流程图；

图2为简化路径示意图；

图3为本发明的效果仿真图之一，表现了高收益对驾驶员接受诱导的影响；

图4为本发明的效果仿真图之二，表现了当接受诱导收益增加时的博弈演化轨迹；

图5为本发明的效果仿真图之三，表现了当接受诱导收益并无增加时的博弈演化轨迹。

具体实施方式

本发明所述的基于演化博弈的车辆诱导方法,首先通过将操作条件反射理论应用于驾驶员的车辆路径选择行为中，建立基于行为强化理论的自学习机制。其次建立演化博弈模型，将驾驶员的行程时间感受作为驾驶员的路径选择收益，分析讨论模型在不同初始条件下的最终博弈结果。最后，分析了诱导信息对驾驶员的作用规律。

参见图1，本发明包括以下步骤：

输入始发地和目的地，并生成若干条路径；

将所述若干条路径简化为多组由两条路径构成的由A点到B点的博弈模型；

根据驾驶员在A点的收益矩阵进行博弈；

判断如果是则计算博弈收益；其中，x表示驾驶员接受诱导信息的比例；U表示驾驶员i接受诱导信息，其他驾驶员也接受诱导信息的情况下，驾驶员i所获得的盈利；V表示驾驶员i不接受诱导信息的情况下，而其他驾驶员接受诱导信息的情况下，驾驶员i所获得的盈利；表示接受诱导比例x的微分方程。

否则，计算博弈收益，决策是否继续接受诱导信息；

改变初始条件(即接受诱导信息的比例)，再次进行博弈。

1)博弈模型的建立

驾驶员确定出发地和目的地后，生成多条路径，将复杂路径的模型简化为不同的两条路径对比的模型。如图2所示，我们设定两条位于A点和B点的路径，分别为L₁以及L₂。从图中我们可以假设驾驶员要从A点前往B点，当驾驶员在A点时，交通信息平台为驾驶员发送路径诱导信息，于是驾驶员通过对诱导信息的判断来进行选择。

驾驶员i在路口A博弈各种策略的收益可用收益矩阵表示：

上式中,S表示驾驶员可能的策略的集合，S＝{s₁，s₂}，s₁表示接受诱导路径，s₂表示不接受诱导路径。

E(s₁,s₁)表示驾驶员i接受诱导信息，其他驾驶员也接受诱导信息的情况下，驾驶员i所获得的盈利，为方便设为U。

E(s₁,s₂)代表的含义是驾驶员i接受诱导信息，其他驾驶员不接受诱导信息的情况下，驾驶员i所获得的盈利，为方便设为M。

E(s₂,s₁)代表的含义是驾驶员i不接受诱导信息的情况下，而其他驾驶员接受诱导信息的情况下，驾驶员i所获得的盈利，为方便设为V。

E(s₂,s₂)表示驾驶员i和其他驾驶员都不会接受诱导信息，在这一情况下驾驶员i所获得的盈利，为方便设为N。

驾驶员的路径选择行为面临的是一个动态的变化环境，在驾驶员路径选择过程中，驾驶员可以选择不同的策略从而驾驶员获得的盈利也将不同。驾驶员在每一次路径选择过后，驾驶员将通过学习每一次选择过后所获得的经验，可以猜测出诱导信息是否符合自己的要求，从而可以动态的调整自己的行为决策，从而更好的提高自己的决策效率。

2)博弈模型的演化

通过一段时间的演化，驾驶员采用的决策将导致驾驶员本身所获取的盈利的改变，从而将驾驶员策略行为分布根据适者生存的原则发生演化。以下研究的是驾驶员这一整体，并不是单个驾驶员的盈利或亏损。因此设选择接受诱导信息的驾驶员比例为x。同理，设驾驶员不接受诱导信息的比例为y。

W(s₁)＝xE(s₁,s₁)+yE(s₁,s₂)＝xU+yM (1)

W(s₂)＝xE(s₂,s₁)+yE(s₂,s₂)＝xV+yN (2)

其中，W(s₁)、W(s₂)分别为决策s₁和s₂的适应度函数，为平均适应度。

上式分别反映了驾驶员对诱导路径选择比例的时间演化过程，将式(4)和(5)联立构成了驾驶员路径选择行为的演化博弈模型，该模型很好地体现了群体行为的动态调整过程，体现了个体行为到集体行为形成机制。是模型中接受诱导比例x的微分方程，是模型中拒绝诱导比例y的微分方程，通过计算微分方程可得出该模型博弈结果的稳定条件。

3)博弈模型的博弈结果

上式表示为具体一回合博弈所获得的收益，并且由于上面x是驾驶员接受诱导信息的比例，显然x∈[0,1]，根据上式可以得到该微分方程的解族。从而分析不同的U和V对驾驶员接受车辆路径诱导的规律。

而根据演化博弈稳定性原理，易知：时，博弈结果无明显变化，结果趋于稳定。

图3至图5为采用本发明的基于演化博弈的车辆诱导方法的仿真效果图。

结果表明，该方法通过建立简化博弈模型，分析讨论模型在不同初始条件下的最终博弈结果，提高了诱导信息有效性。最终能够获得较好的交通诱导效果。

参考文献：

[1]Erev,I.,Bereby-Meyer,Y.,Roth,A.,The effect of adding a constant toallpayoffs:experimental investigation and implications for reinforcementlearning models.Journal of Economic Behavior and Organization[J],1999,(39):111-128.

[2]Avineri,E.,Prashker,J.N.,Violations of expected utility theory inroute-choice stated preferences:the certainty effect and inflating of smallprobabilities.Transportation Research Record[J],2004,(1894):222-229.

[3]Lourdes,Z.,A network equilibrium model for oligopolisticcompetition in city bus services.Transportation Research Part B[J],1998,32:413-422.

[4]Bell M G H.A game theory approach to measuring the performancereliability of transport networks[J].Transportation Research Part B:Methodological,2000,34(6):533-545.

[5]Margulies M,Egholm M,Altman W E,et al.Genome sequencing inmicrofabricated high-density picolitre reactors[J].Nature,2005,437(7057):376-380.

[6]Zhou,J.,Lam,W.H.K.,Heydecker,B.G.,The generalized Nash equilibriummodel for oligopolistic transit market with elastic demand.TransportationResearch Part B[J],2005,39(6):519-544.

[7]Sun,L.J.,Gao,Z.Y.,An equilibrium model for urban transitassignment based on game theory.European Journal of Operational Research[J],2007,181(1):305-314.

[8]周代平,李康奇,贺琳.诱导信息条件下车辆路径选择——基于有限理性模糊博弈[J].重庆工商大学学报(自然科学版),2015,12:31-35.

[9]董斌杰,李克平,廖明军等,诱导信息下基于博弈论的路径选择模型[J],北华大学学报(自然科学版),2007,8(1):88-91.

[10]李静,范炳全,基于驾驶员反应行为的诱导博弈分析[J],上海理工大学学报,2003,25(4):398-400.

[11]鲁丛林,诱导条件下的驾驶员反应行为的博弈模型[J],交通运输系统工程与信息,2005,5(1):58-61。

Claims

1.一种基于演化博弈的车辆诱导方法，其特征在于，包括以下步骤：

根据驾驶员在A点的收益矩阵进行博弈；

2.根据权利要求1所述一种基于演化博弈的车辆诱导方法，其特征在于：所述收益矩阵为：

(\begin{matrix} E (s_{1}, s_{1}) & E (s_{1}, s_{2}) \\ E (s_{2}, s_{1}) & E (s_{2}, s_{2}) \end{matrix})

3.根据权利要求1或2所述一种基于演化博弈的车辆诱导方法，其特征在于：在所述收益矩阵进行博弈的过程中，还包括对博弈模型进行演化，建立策略集合S、收益矩阵E、适应度函数W和平均适应度函数相关方程。

4.根据权利要求3所述一种基于演化博弈的车辆诱导方法，其特征在于：所述策略集合S、收益矩阵E、适应度函数W和平均适应度函数相关方程为：

W(s₁)＝xE(s₁,s₁)+yE(s₁,s₂)＝xU+yM

W(s₂)＝xE(s₂,s₁)+yE(s₂,s₂)＝xV+yN

\overset{&OverBar;}{W} = x W (s_{1}) + y W (s_{2})

\overset{\cdot}{x} = x (W (s_{1}) - \overset{&OverBar;}{W})

\overset{\cdot}{y} = y (W (s_{2}) - \overset{&OverBar;}{W})