CN114627640A

CN114627640A - 一种智能网联汽车行驶策略的动态演化方法

Info

Publication number: CN114627640A
Application number: CN202210072371.5A
Authority: CN
Inventors: 蒋润菘; 李慧云
Original assignee: Shenzhen Institute of Advanced Technology of CAS
Current assignee: Shenzhen Institute of Advanced Technology of CAS
Priority date: 2022-01-21
Filing date: 2022-01-21
Publication date: 2022-06-14
Anticipated expiration: 2042-01-21
Also published as: CN114627640B

Abstract

本发明公开了一种智能网联汽车行驶策略的动态演化方法。该方法包括：获取目标区域真实道路拓扑结构的路网文件，以及包含真实车辆行驶路径的车流文件；基于所述路网文件和所述车流文件确定车辆信息，并从可选行驶策略集中对车辆设置初始行驶策略；将采用相同行驶策略的车辆作为一个种群，设定种群适应度函数来表征各种群中行驶策略的表现；结合种群适应度和当前种群状态计算后续时刻的种群状态，直到种群状态演化为稳定状态。本发明通过个体间模仿、学习和交流等动态交互决策过程，使优势策略得以涌现，能够准确地描绘群体行为的变化趋势并预测个体行为，因而更加贴近现实生活的情况。

Description

一种智能网联汽车行驶策略的动态演化方法

技术领域

本发明涉及自动驾驶领域，更具体地，涉及一种智能网联汽车行驶策略的动态演化方法。

背景技术

随着自动驾驶技术的发展，单车智能对于整体路网的优化能力有限。因为道路上车辆存在相互作用，车辆行驶策略的优劣会影响到交通系统的性能，而交通环境的变化又反过来影响车辆的表现。此外，适用于大规模交通网络的最优行驶策略应该考虑多个优化目标，而不同的优化目标之间是相互影响的。智能网联汽车的普及为改善交通状况提供了新的途径，使得车辆可以通过与其他车辆的交互获取到更多的信息，评估不同行驶策略的优劣，相互学习和模仿。如何描述这种交互-评估-选择的过程，以及如何使得优势策略得以涌现是目前面临的挑战之一。

对于一些大城市，交通拥堵和交通事故是困扰交通部门的两个主要问题。随着智能网联汽车与智能交通系统的发展，通过优秀的驾驶策略与交通调控策略，交通状况有望得到改善。在道路上，车辆并非单独的个体，他的决策不仅受到周围其他车辆的影响，而且会反过来影响其他车辆的决策。因此单车智能对于整体路网的优化能力有限。借助于智能网联技术，车辆之间交互将更方便，对于群体最优策略的研究逐渐显现其重要性。

目前已有多种方法用于研究车辆的行驶策略，根据理论基础可以分为以下三类。

1)、基于规则的方法。该类方法为针对具体的场景手动定义车辆行驶规则，包括有限状态机和层次状态机等解决方案。这种人工定义规则的方法是针对具体的、简化的交通场景而量身定制，没有考虑驾驶员的不确定性，并且这种自动驾驶决策过程没有考虑车辆交互以及协同演化，从而不能形成系统的最优决策。

2)、基于人工智能的方法。该类方法利用强化学习、深度学习相关算法，通过持续的训练模型使得车辆可以根据环境的变化做出合适的动作。但这类方法需要花费大量的时间和计算资源对模型进行训练，并且车辆行为的可解释性弱。

3)、基于经典博弈论的方法。该类方法利用经典博弈模型来描述车辆之间的合作和竞争行为。在进行决策时，给定自身以及对方所有的策略集合，计算所有可能的策略组合的情况下自身与对方的收益，选择符合纳什均衡的策略，以确保无论对方采取哪种动作，自身的策略都相对占优。但这类方法的缺点是：基于经典博弈理论的决策模型主要着眼于特定场景以及特定时刻，而仅仅关注和优化一个微观博弈场景对于整体交通的提升能力有限。并且经典博弈理论的完全理性假设也与现实情况存在差距。

具体地，在现有技术中，专利申请公开号CN111258314A(一种基于协同演化的自动驾驶车辆决策涌现方法)提供了一种基于协同演化的自动驾驶车辆决策涌现方法。该方法包括：构建道路模型，并确定车辆在道理模型中的初始位置分布和行驶目的地；设置多个候选驾驶策略用于限定车辆的行驶速度以及前车与后车的交互关系，并根据所述多个候选驾驶策略将车辆划分到不同的种群；根据车辆运动学模型、预设的交通信号灯调度策略以及车辆对应的候选驾驶策略运行车辆；以控制车辆的多个行驶指标为优化目标，探索所述多个候选驾驶策略的优劣。这种方式未利用真实的道路网络和车流信息，导致所确定的自动驾驶策略效果不佳。

另一篇现有文献“Modeling Lane-Changing Behavior in a ConnectedEnvironment:A Game Theory Approach”(Transportation Research Part CEmergingTechnologies，2015，59:216-232)提出了一个基于博弈论的换道模型，该模型通过使用转向信号和横向移动等试探行为与周围的司机进行互动，通过对方的反应推测对方的驾驶策略，从而优化自身的驾驶策略。这种方法基于经典博弈论对车辆的驾驶策略的进行建模。经典博弈理论是建立在参与人完全理性的假设的基础上，而现实当中自动驾驶车辆会因为自身信息有限等原因导致不能准确判断策略集中哪个是最优的，从而无法做出完全理性的决策。

总之，现有的自动驾驶策略的缺陷主要体现在以下方面：未利用真实的道路网络和车流信息；未考虑车辆之间的交互；未考虑大规模智能网联汽车行驶策略的动态演化；以及未考虑车辆的试错过程等。

发明内容

本发明的目的是克服上述现有技术的缺陷，提供一种智能网联汽车行驶策略的动态演化方法。该方法包括：

获取目标区域真实道路拓扑结构的路网文件，以及包含真实车辆行驶路径的车流文件；

基于所述路网文件和所述车流文件确定车辆信息，并从可选行驶策略集中对车辆设置初始行驶策略；

将采用相同行驶策略的车辆作为一个种群，设定种群适应度函数来表征各种群中行驶策略的表现；

结合种群适应度和当前种群状态计算后续时刻的种群状态，直到种群状态演化为稳定状态。

与现有技术相比，本发明的优点在于，对于大规模交通网络，最优驾驶策略应该考虑多目标综合优化，例如事故率和行驶效率。在复杂的交通环境中，不同的行驶策略有着不同的表现，而这又会反过来影响交通网络的性能，本发明考虑了车辆的有限理性与车辆之间的交互，使得个体之间可以相互学习和模仿来选择适应度更高的策略，系统经过演化后达到稳定状态，并且优势策略得以涌现，交通状况得到改善。此外，本发明基于演化博弈理论，演化博弈理论并不强调参与者是完全理性或掌握完全信息，它是基于有限理性和有限信息假设，通过个体间模仿、学习和交流等动态交互决策过程，能够很好地描绘群体行为的变化趋势并准确预测个体行为，因而更加贴近现实生活的情况。

通过以下参照附图对本发明的示例性实施例的详细描述，本发明的其它特征及其优点将会变得清楚。

附图说明

被结合在说明书中并构成说明书的一部分的附图示出了本发明的实施例，并且连同其说明一起用于解释本发明的原理。

图1是根据本发明一个实施例的大规模智能网联汽车行驶策略的动态演化方案框架

图2是根据本发明一个实施例的大规模智能网联汽车行驶策略的动态演化流程图；

图3是根据本发明一个实施例的低密度条件的种群演化趋势示意图；

图4是根据本发明一个实施例的低密度条件下的总事故率变化趋势示意图；

图5是根据本发明一个实施例的低密度条件下的平均速度变化趋势示意图；

图6是根据本发明一个实施例的低密度条件下各个策略的适应度的变化趋势示意图；

图7是根据本发明一个实施例的高密度条件的种群演化趋势示意图；

图8是根据本发明一个实施例的高密度条件下的总事故率变化趋势示意图；

图9是根据本发明一个实施例的高密度条件下的平均速度变化趋势示意图；

图10是根据本发明一个实施例的高密度条件下各个策略的适应度的变化趋势示意图。

具体实施方式

现在将参照附图来详细描述本发明的各种示例性实施例。应注意到：除非另外具体说明，否则在这些实施例中阐述的部件和步骤的相对布置、数字表达式和数值不限制本发明的范围。

以下对至少一个示例性实施例的描述实际上仅仅是说明性的，决不作为对本发明及其应用或使用的任何限制。

对于相关领域普通技术人员已知的技术、方法和设备可能不作详细讨论，但在适当情况下，所述技术、方法和设备应当被视为说明书的一部分。

在这里示出和讨论的所有例子中，任何具体值应被解释为仅仅是示例性的，而不是作为限制。因此，示例性实施例的其它例子可以具有不同的值。

应注意到：相似的标号和字母在下面的附图中表示类似项，因此，一旦某一项在一个附图中被定义，则在随后的附图中不需要对其进行进一步讨论。

在下文中，将以功能模块形式具体描述本发明的仿真过程。但应理解的是，本发明的思想可以应用于实际场景。

参见图1所示，所提出的大规模智能网联汽车行驶策略动态演化方案框架主要包括候选策略模块、仿真模块和动态演化模块。

候选策略模块包含多种车辆行驶策略，各策略具有自身的特性。根据车辆所选用的行驶策略，可将目标区域的车辆划分为多个种群，例如，一个种群对应一种行驶策略。

仿真模块包含交通路网、仿真平台和车辆三个部分。交通路网包含了真实路网的拓扑结构和车道结构。车辆部分则包含了车辆数量、车辆路径、车辆类型以及车辆行驶策略。仿真平台通过导入交通路网与仿真车辆进行交通仿真，并输出仿真结果。

在一个实施例中，实验所采用的仿真平台为德国宇航中心所开发的SUMO(Simulation of Urban Mobility)，该平台可以建立多种交通模型，例如私家车、公共交通、行人等，可以自定义道路拓扑结构或者直接导入真实的地图文件，同时该平台还提供了丰富的接口用于交互。需说明的是，也可利用专门设计的仿真平台，或其它现有仿真平台，如TESS NG、VISSIM、Paramics、AIMSUN等。

作为本发明的核心特征，动态演化模块从仿真模块中读取车辆的信息，再根据各个种群的表现更新各个种群的状态，经过多轮迭代后使得种群状态趋于稳定，优势策略得以涌现，总体交通状况得到改善。动态演化模块包括获取车辆信息、种群评估和种群演化。其中车辆信息是仿真过程中每辆车的信息，包括车辆平均速度、事故次数等。种群评估用于计算各个种群的适应度，例如根据车辆平均速度、事故率等指标综合评估种群的适应度。种群演化用于更新种群状态，如根据种群适应度以及当前种群状态综合计算下一阶段的种群状态。

具体地，参见图2所示，所提供的智能网联汽车行驶策略的动态演化方法总体上包括：S1，初始化策略集以及种群状态；S2，初始化交通网络，设置仿真步长；S3，仿真过程中，车辆以种群比例为概率随机从备选策略中选择自身策略，例如种群比例为0.21:0.32:0.47，则车辆选择第一种行驶策略的概率为0.21，选择第二种行驶策略的概率为0.32，选择第三种行驶策略的概率为0.47；S4，按照仿真步长更新交通网络，并记录交通信息，例如每辆车的性能，如速度、车距、是否发生事故等；S5，计算各个种群的效用并按照复制动态模型更新种群状态，例如经过特定的仿真时间，计算各个种群适应度，并按照复制动态模型计算得到下一阶段的种群比例；S6，更新种群状态；S7，判断种群状态是否收敛，如果种群状态收敛则结束仿真，否则更新交通网络中的种群比例，进行下一阶段的仿真。

以下将具体介绍确定车辆行驶策略、种群适用度评估和种群演化规则的实施例。

1)、确定车辆行驶策略

自动驾驶车辆的行驶策略包括加减速策略、换道策略以及路口通行策略。根据车辆自身的行驶特点以及与其他车辆之间的交互，可划分为多种行驶策略，例如保守型、激进型和理性型。具体地，保守的行驶策略表现为更加平稳的加减速，换道并不积极，在与其他道路参与者发生冲突时往往采取避让的决策。激进的行驶策略则表现为加减速更加激进，更加追求效率而非平稳度，换道更加积极，在与其他车辆发生冲突时倾向于争夺通行权。理性的行驶策略的表现介于保守与激进之间，且更愿意与其他车辆合作。

2)、种群适用度评估

在一个实施例中，采用种群适应度函数E(x)来评估种群/行驶策略的表现，可以包含一个或多个指标，例如行车效率、安全性、平稳度等，综合多个维度对种群进行评价，体现出不同行驶策略的差异性，例如表示为：

E(x_i)＝αf₁(x_i)+βf₂(x_i)+γf₃(x_i)+…(1)

而不同指标的系数代表了其在优化过程中的重要性。

3)、种群演化规则

种群演化的核心思想是根据每个种群的适应度更新每个种群的比例，使得高适应度的行驶策略得以传播，低适应度的行驶策略的比例相应的缩减，反映自动驾驶车辆的交互-模仿-选择过程。在一个实施例中，演化规则采用复制动态模型，表示为：

复制动态模型的含义为如果个体选择某个策略s_i的收益或支付E(x_i)大于种群的平均收益或支付E_ave(X)，则相应地选择该策略的个体数量或比例的变化率则为正数，种群比例将会增长，反之则为负数，种群比例将会下降。如果E(x_i)≡E_ave(X)与时间t无关，则表明此时选择策略s_i的个体数量或比例将保持不变，这也就意味着该策略成为演化稳定策略，此时的种群状态为演化稳定状态。

综上，提出了基于动态演化与复制的行驶策略优化方法，结合多目标优化和复制动态模型来探索自动驾驶汽车的学习-模仿-选择过程。车辆会先随机选择一种行驶策略，在与周围车辆的博弈过程中，评估不同行驶策略的表现，进而选择适应度更高的行驶策略。不论初始种群状态和交通条件如何，系统都朝着适应度更高的方向演化，最终种群状态趋于收敛，得到优势策略，并且交通状况得到改善。

需要说明的是，在不违背本发明精神和范围的前提下，可对上述实施例进行适当的改变或变型。例如，本发明的实验中“演化规则”采用复制动态模型，利用各种群的适应度以及总体平均适应度来描述行驶策略的演化过程。复制动态模型是一种群体学习过程模型，还可以选择—突变方程和演化算法来替代该复制动态模型。

为进一步验证本发明的效果，进行了仿真实验。在SUMO交通仿真平台上进行了测试，预先设置了3种行驶策略(激进型、理性型、保守型)，通过调整车辆控制器的属性，使得车辆表现出激进、理性或者保守的倾向。在导入卢森堡道路文件、车辆路径文件以及车辆属性文件之后，开始交通仿真。在仿真过程中，每辆车的信息都会被记录下来，包括速度、是否发生事故等。在特定步长之后，评估各个策略的性能，然后根据各个策略的性能以及当前比例计算得到下一阶段的种群状态，并更新交通系统中性能较差的车辆性能，使得仿真环境中的种群状态满足要求，随后继续进行仿真直到种群状态收敛到稳定状态。

图3至图6是低密度交通条件下的仿真结果。在低密度条件下，初始种群状态为X₀＝(0.33，0.33，0.33)，经历动态演化之后种群状态稳定于X_low＝(0.54，0.46，0)。

由图3可以看出，激进策略(对应最上方曲线)逐步占据优势地位，理性策略(对应中间曲线)紧随其后，而保守策略(对应最下方曲线)逐渐消亡。图4和图5显示了总体的事故率降低了10％，同时平均速度提高了16％。

从图6可以看出，初始状态下各个策略适应度的相对大小为E(x_s1)＞E(x_s2)＞E_ave(X)＞E(x_s3)，这导致保守策略的比例下降，激进策略和理性策略的比例增加。随着系统的动态演化，系统平均适应度以及各个策略的适应度都有不同程度的提高，最终理性策略E(x_s1)、激进策略E(x_s2)的适应度以及总体平均适应度E_av(X)趋于相同并保持不变，各策略适应度的相对大小为E(x_s1)≡E(x_s2)≡E_ave(X)＞E(x_s3)。这表明激进策略和理性策略相对保守策略是优势策略，动态演化的结果X_low＝(0.54，0.46，0)是演化稳定状态。

图7至图10是高密度交通条件下的仿真结果。在高密度条件下，初始种群状态为X₀＝(0.33，0.33，0.33)，经历动态演化之后种群状态稳定于X_high＝(0，1，0)。

由图7可以看出，理性策略逐步占据优势地位，而激进策略迅速消亡，保守策略的比例先增长，然后又持续降低。由图8和图9可以看出，在此过程中，总体的事故率降低了78％，同时平均速度提高了14％。

图10展示了高密度条件下的各个策略的适应度的变化趋势。初始状态下理性策略的适应度更高，激进策略的适应度最低，即E(x_s2)＞E(x_s3)＞E_ave(X)＞E(x_s1)。这导致激进策略的比例迅速下降，而理性策略和保守策略的比例逐渐上升。但是随着总体平均适应度E_ave(X)的持续增长，超过了保守策略的适应度，导致保守策略的比例先上升后持续下降。最终总体平均适应度趋近于理性策略的适应度并保持稳定，即E(x_s2)≡E_ave(X)。这表明理性策略是高密度状态下的优势策略，而X_high＝(0，1，0)是高密度条件下的演化稳定状态。

综上，本发明探索了不同外部环境下的行驶策略演化趋势。外部交通环境的变化将会影响行驶策略的表现，例如在相对于通畅的交通条件，在拥堵的情况下平均速度将会降低，事故率将会升高，这就会引起适应度函数权重的变化，导致博弈局面的改变，使得种群的演化呈现不同的趋势。通过改变交通密度，可以得到不同交通密度下的行驶策略动态演化结果。

此外，从复制动态模型的角度分析可以证明不同交通条件下动态演化结果是稳定的。不同的交通条件会导致不同的博弈态势，进而导致不同的演化稳定状态。因为由复制动态模型可知，种群比例的变化率与种群适应度和系统平均适应度的差值相关。差值为正时，差值越大，种群扩张的速度越快；差值为负时，差值越小，种群缩减的速度越快。所以当差值为0且与时间无关时，种群比例将不再变化，此时种群状态将保持稳定。

综上所述，相对于现有技术，本发明的优势主要体现在以下方面：

1)、针对未利用真实的道路网络和车流信息的问题，本发明导入了包含真实道路拓扑结构的路网文件，以及包含真实车辆行驶路径的车流文件，以更加真实的模拟城市交通环境。路网文件和车流文件可从实际城市交通路网中采集获得，最终确定的自动驾驶策略能够更加真实的模拟城市交通环境。

2)、针对未考虑车辆之间交互的问题，本发明考虑了智能网联汽车可以借助车联网进行交互，交换车辆信息和对方行驶策略，使得车辆之间可以通过信息交互比较自身和对方的策略效益，学习和模仿对方的优秀策略，使得优秀策略得以传播和涌现。

3)、本发明考虑了大规模智能网联汽车行驶策略的动态演化。因为智能网联汽车之间存在交互，所以交通网络中的车辆的行驶策略应该是动态变化的。现有的基于博弈理论的行驶策略优化方法主要着眼于特定场景以及特定时刻的两人博弈，而在交通系统中这种博弈的局面随时都可能发生，并且同一时刻还可能是多人博弈，此外博弈局面的开始与结束并不能准确界定。所以在大规模车辆仿真过程中，实时计算的每个个体的微观博弈效用是很困难。本发明考虑种群的宏观表现，如平均速度与事故率。因为车辆微观博弈的效用变化与种群的宏观适应度是正相关的，即优秀的策略在微观博弈中的效用越高，那么其所在的种群的适应度也越高，种群规模将会扩张。本发明通过设置合理的演化规则，在交通系统中放入多种行驶策略，模拟系统状态的演化过程，使得最优驾驶策略得以涌现，交通状况得到改善。本发明则基于演化博弈理论，演化博弈理论并不强调参与者是完全理性或完全信息的，它是基于有限理性和有限信息假设，通过个体间模仿、学习和交流等动态交互决策过程能够很好描绘群体行为的变化趋势并准确预测个体的群体行为，因而更加贴近现实生活的情况。

4)、由于单个车辆因为自身信息的有限性，在最初并不清楚策略集中各个策略的优劣，所以需要在行驶过程中不断的尝试、博弈与观察，才能发现最优的行驶策略。本发明利用演化博弈的思想，模拟车辆的探索过程，使得车辆通过演化博弈可以获得最优的驾驶策略。

本发明可以是系统、方法和/或计算机程序产品。计算机程序产品可以包括计算机可读存储介质，其上载有用于使处理器实现本发明的各个方面的计算机可读程序指令。

计算机可读存储介质可以是可以保持和存储由指令执行设备使用的指令的有形设备。计算机可读存储介质例如可以是但不限于电存储设备、磁存储设备、光存储设备、电磁存储设备、半导体存储设备或者上述的任意合适的组合。计算机可读存储介质的更具体的例子(非穷举的列表)包括：便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、静态随机存取存储器(SRAM)、便携式压缩盘只读存储器(CD-ROM)、数字多功能盘(DVD)、记忆棒、软盘、机械编码设备、例如其上存储有指令的打孔卡或凹槽内凸起结构、以及上述的任意合适的组合。这里所使用的计算机可读存储介质不被解释为瞬时信号本身，诸如无线电波或者其他自由传播的电磁波、通过波导或其他传输媒介传播的电磁波(例如，通过光纤电缆的光脉冲)、或者通过电线传输的电信号。

这里所描述的计算机可读程序指令可以从计算机可读存储介质下载到各个计算/处理设备，或者通过网络、例如因特网、局域网、广域网和/或无线网下载到外部计算机或外部存储设备。网络可以包括铜传输电缆、光纤传输、无线传输、路由器、防火墙、交换机、网关计算机和/或边缘服务器。每个计算/处理设备中的网络适配卡或者网络接口从网络接收计算机可读程序指令，并转发该计算机可读程序指令，以供存储在各个计算/处理设备中的计算机可读存储介质中。

用于执行本发明操作的计算机程序指令可以是汇编指令、指令集架构(ISA)指令、机器指令、机器相关指令、微代码、固件指令、状态设置数据、或者以一种或多种编程语言的任意组合编写的源代码或目标代码，所述编程语言包括面向对象的编程语言—诸如Smalltalk、C++、Python等，以及常规的过程式编程语言—诸如“C”语言或类似的编程语言。计算机可读程序指令可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中，远程计算机可以通过任意种类的网络—包括局域网(LAN)或广域网(WAN)—连接到用户计算机，或者，可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。在一些实施例中，通过利用计算机可读程序指令的状态信息来个性化定制电子电路，例如可编程逻辑电路、现场可编程门阵列(FPGA)或可编程逻辑阵列(PLA)，该电子电路可以执行计算机可读程序指令，从而实现本发明的各个方面。

这里参照根据本发明实施例的方法、装置(系统)和计算机程序产品的流程图和/或框图描述了本发明的各个方面。应当理解，流程图和/或框图的每个方框以及流程图和/或框图中各方框的组合，都可以由计算机可读程序指令实现。

这些计算机可读程序指令可以提供给通用计算机、专用计算机或其它可编程数据处理装置的处理器，从而生产出一种机器，使得这些指令在通过计算机或其它可编程数据处理装置的处理器执行时，产生了实现流程图和/或框图中的一个或多个方框中规定的功能/动作的装置。也可以把这些计算机可读程序指令存储在计算机可读存储介质中，这些指令使得计算机、可编程数据处理装置和/或其他设备以特定方式工作，从而，存储有指令的计算机可读介质则包括一个制造品，其包括实现流程图和/或框图中的一个或多个方框中规定的功能/动作的各个方面的指令。

也可以把计算机可读程序指令加载到计算机、其它可编程数据处理装置、或其它设备上，使得在计算机、其它可编程数据处理装置或其它设备上执行一系列操作步骤，以产生计算机实现的过程，从而使得在计算机、其它可编程数据处理装置、或其它设备上执行的指令实现流程图和/或框图中的一个或多个方框中规定的功能/动作。

附图中的流程图和框图显示了根据本发明的多个实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上，流程图或框图中的每个方框可以代表一个模块、程序段或指令的一部分，所述模块、程序段或指令的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。在有些作为替换的实现中，方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如，两个连续的方框实际上可以基本并行地执行，它们有时也可以按相反的顺序执行，这依所涉及的功能而定。也要注意的是，框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合，可以用执行规定的功能或动作的专用的基于硬件的系统来实现，或者可以用专用硬件与计算机指令的组合来实现。对于本领域技术人员来说公知的是，通过硬件方式实现、通过软件方式实现以及通过软件和硬件结合的方式实现都是等价的。

以上已经描述了本发明的各实施例，上述说明是示例性的，并非穷尽性的，并且也不限于所披露的各实施例。在不偏离所说明的各实施例的范围和精神的情况下，对于本技术领域的普通技术人员来说许多修改和变更都是显而易见的。本文中所用术语的选择，旨在最好地解释各实施例的原理、实际应用或对市场中的技术改进，或者使本技术领域的其它普通技术人员能理解本文披露的各实施例。本发明的范围由所附权利要求来限定。

Claims

1.一种智能网联汽车行驶策略的动态演化方法，包括以下步骤：

2.根据权利要求1所述的方法，其特征在于，所述车辆信息包括车辆数量、车辆路径、车辆类型，车辆评价速度、车距、事故次数中的一项或多项。

3.根据权利要求1所述的方法，其特征在于，对于各种群的适应度，根据车辆平均速度和事故率进行评估。

4.根据权利要求1所述的方法，其特征在于，所述种群适应度函数从行车效率、安全性、平稳度多个维度对种群进行评价，以表征不同驾驶策略的差异性。

5.根据权利要求1所述的方法，其特征在于，结合种群适应度和当前种群状态计算后续时刻的种群状态包括：通过比较各种群的适应度来动态更新每个种群的比例，使得较高适应度对应的行驶策略得以传播，较低适应度对应的行驶策略的车辆比例相应缩减。

6.根据权利要求5所述的方法，其特征在于，采用复制动态模型来计算后续时刻的种群状态，表示为：

其中，E(x_i)表示个体选择某个行驶策略的支付，E_ave(X)表示种群的平均支付，并且如果E(x_i)≡E_ave(X)与时间t无关，表示在对应行驶策略下，种群状态是稳定状态。

7.根据权利要求1所述的方法，其特征在于，所述行驶策略包括加减速策略、换道策略以及路口通行策略中的一项或多项。

8.根据权利要求1所述的方法，其特征在于，所述行驶策略根据车辆自身行驶特点以及与其他车辆之间的交互被划分为保守型、激进型和理性型。

9.一种计算机可读存储介质，其上存储有计算机程序，其中，该程序被处理器执行时实现根据权利要求1至8中任一项所述方法的步骤。

10.一种计算机设备，包括存储器和处理器，在所述存储器上存储有能够在处理器上运行的计算机程序，其特征在于，所述处理器执行所述程序时实现权利要求1至8中任一项所述的方法的步骤。