CN115123227A

CN115123227A - 变道决策方法、装置以及车辆

Info

Publication number: CN115123227A
Application number: CN202110312738.1A
Authority: CN
Inventors: 吴晗; 沈佩尧
Original assignee: Huawei Technologies Co Ltd
Current assignee: Huawei Technologies Co Ltd
Priority date: 2021-03-24
Filing date: 2021-03-24
Publication date: 2022-09-30

Abstract

本申请提供一种变道决策方法。在第一车辆意图向目标车道变道的情况下，当目标车道上位于第一车辆后方的第二车辆不支持通信交互时，根据第二车辆在第一车辆实施变道意图表示行为之前的第一加速度以及之后的第二加速度，计算第二车辆的加速度收益；当第二车俩支持通信交互时，接收第二车辆发送的意图序列的信息，并向第二车辆发送第一车辆未来n个时刻的决策序列的信息，根据这些信息计算及更新第二车辆的加速度收益。根据第二车辆的加速度收益求得博弈均衡解。根据博弈均衡解作出第一车辆的变道决策。由此，无论是支持通信交互的自动驾驶车辆还是不支持通信交互的人类驾驶车辆，均能够更合理地作出变道决策而减小碰撞风险。

Description

变道决策方法、装置以及车辆

技术领域

本申请涉及自动驾驶领域，尤其涉及一种变道决策方法、装置以及具有该装置的车辆。

背景技术

车辆在进行自动驾驶过程中，有时需要根据实际情况，作出变道决策。此时，可以通过摄像头、雷达、激光雷达等传感器感知环境信息，依据感知到的环境信息作出变道决策。作为感知结果的环境信息是已发生的，而做出决策还要考虑自车和目标车辆在未来一定时间内的状态。因此，自车需要对目标车辆的未来行为进行预测。

然而，自车对目标车辆的未来行为的预测具有不确定性。尤其是，道路上除了自动驾驶车辆外，还存在人类驾驶车辆，而预测人类驾驶员的行为比预测自动驾驶车辆的行为更加困难，因为人类的行为并非都是理性的，不同的人对风险和收益的敏感程度不同，导致同一场景下不同的人可能会做出截然不同的决策。这种不确定性有可能会导致自车作出的变道决策是不合理的，会增加碰撞风险。

发明内容

有鉴于此，本申请的目的在于，提供一种能够更合理地作出变道决策而减小碰撞风险的技术。

为达到上述目的，本申请第一方面提供一种变道决策方法，包括：获取第一车辆意图驶入的目标车道；根据所述第二车辆的第一加速度和第二加速度，计算所述第二车辆在所述第一车辆变道情况下的加速度收益，所述第二车辆是所述目标车道上的车辆，且位于所述第一车辆的后方，所述第一加速度是所述第二车辆在所述第一车辆实施变道意图表示行为之前的加速度，所述第二加速度是所述第二车辆在所述第一车辆实施所述变道意图表示行为之后的加速度；根据所述第二车辆的所述加速度收益，求得博弈均衡解，所述第二车辆是所述目标车道上的车辆，且位于所述第一车辆的后方；根据所述博弈均衡解，作出所述第一车辆的变道决策。

采用本申请第一方面提供的变道决策方法，根据第二车辆在第一车辆实施变道意图表示行为前后的加速度来计算第二车辆的加速度收益，计算出的该收益更接近第二车辆真实的收益，由此能够更准确地预测第二车辆的行为，更合理地作出第一车辆的变道决策，减小由于预测不确定性导致的碰撞风险。

作为本申请第一方面的一种可能的实现方式，根据所述第一加速度和所述第二加速度计算侵略值，所述侵略值指示所述第二车辆的侵略性，所述侵略值越大，所述第二车俩的所述加速度收益越小。

采用该方式，将侵略值较大的第二车辆的收益设定为较小，能够准确地反应出这样的第二车辆对减速比较敏感，让道可能性小，从而能够更准确地预测第二车辆的行为，更合理地作出第一车辆的变道决策，减小由于预测不确定性导致的碰撞风险。

作为本申请第一方面的一种可能的实现方式，所述第一加速度和所述第二加速度均在预设值以上时的所述侵略值，大于等于所述第一加速度和所述第二加速度中的一方小于预设值时的所述侵略值。

采用该方式，在第二车辆的第一加速度和第二加速度均在预设值以上时，即使第一车辆示出了变道意图，第二车辆也没有减速的意思，通过对该第二车辆设定更大的侵略值，使其收益较小，能够更准确地预测第二车辆的行为，更合理地作出第一车辆的变道决策，减小由于预测不确定性导致的碰撞风险。

作为本申请第一方面的一种可能的实现方式，根据所述第一加速度、所述第二加速度以及所述第一车辆与所述第二车辆的碰撞概率，计算第二车辆的所述加速度收益，所述碰撞概率越小，所述第二车辆的所述加速度收益的绝对值越大。

采用该方式，还根据碰撞概率来计算第二车辆的收益，从而能够考虑到第二车辆对风险的敏感程度来计算其收益，准确地预测第二车辆的行为，减小由于预测不确定性导致的碰撞风险。

作为本申请第一方面的一种可能的实现方式，当所述第二车辆不支持通信交互时，根据所述第一加速度和所述第二加速度，计算所述第二车辆在所述第一车辆变道情况下的所述加速度收益，根据所述第二车辆的所述加速度收益，求得所述博弈均衡解。

采用该方式，即使是第二车辆不支持通信交互，也能通过模拟博弈来求得均衡解，而作出合理的变道决策，从而能够应对道路上自动驾驶车辆和人类驾驶车辆同时存在的场景。

作为本申请第一方面的一种可能的实现方式，所述第二车辆的所述加速度收益使用以下的收益函数U(a)来计算：

其中，a为所述第二车辆的加速度，w(a)为权重函数，

为值函数，

w(a)如下式所示：

其中，η为常数，P_crash(a)为加速度a对应的、所述第二车辆与所述第一车辆的碰撞概率，P_crash(a)如下式所示：

其中，τ为预测时间长度，Δd为所述第一车辆与所述第二车辆的纵向距离，

为对所述第一车辆的速度的估计，服从均值为0，方差为σ的高斯分布，v为所述第二车辆的当前速度，

如下式所示：

其中，∈为常数，λ为所述侵略值，λ如下式所示：

其中，t为所述第一车辆实施变道意图表示行为之前的时刻，a(t)为所述第一加速度，t+1为所述第一车辆实施所述变道意图表示行为之后的时刻，a(t+1)为所述第二加速度，α为大于0的常数。α例如为2，λ的取值范围例如为λ∈(0，2]。

作为本申请第一方面的一种可能的实现方式，当所述第二车俩支持通信交互时，根据所述第二车辆发送的未来n个时刻的意图序列的信息，计算所述第二车辆的所述加速度收益，选择所述第一车辆未来n个时刻的决策序列的信息，并发送给所述第二车辆，根据所述第二车辆多次发送的所述意图序列的信息，更新所述第二车辆的所述加速度收益，根据更新后的所述加速度收益求得所述博弈均衡解。

采用该方式，通过通信交互与第二车辆交换意图而完成变道决策，能够有效降低碰撞风险和预测不确定性，并且，根据滚动时域优化的思想，每次优化并发送未来n个时刻的决策序列，可降低决策震荡，加快算法收敛。

作为本申请第一方面的一种可能的实现方式，所述决策序列中包括第一车辆的策略E1、E2，所述意图序列中包括所述第二车辆的策略F1、F2，计算所述第一车辆与所述第二车辆的策略组合{E1，F1}、{E1，F2}、{E2，F1}、{E2，F2}各自出现的次数，根据该次数计算及更新所述第二车辆的所述加速速度收益。

采用该方式，在信息交互过程中仅需要目标车辆的决策信息，不需要知道对方的详细收益信息，降低了信息传递量。

作为本申请第一方面的一种可能的实现方式，所述变道意图表示行为是打转向灯或在行驶车道内向所述目标车道的方向横向偏移。

为达到上述目的，本申请第二方面提供一种变道决策装置，其具有获取模块和决策模块，所述获取模块用于获取第一车辆意图驶入的目标车道，所述决策模块用于：根据所述第二车辆的第一加速度和第二加速度，计算所述第二车辆在所述第一车辆变道情况下的加速度收益，所述第二车辆是所述目标车道上的车辆，且位于所述第一车辆的后方，所述第一加速度是所述第二车辆在所述第一车辆实施变道意图表示行为之前的加速度，所述第二加速度是所述第二车辆在所述第一车辆实施所述变道意图表示行为之后的加速度；根据所述第二车辆的所述加速度收益，求得博弈均衡解；根据所述博弈均衡解，作出所述第一车辆的变道决策。

采用本申请第二方面提供的变道决策装置，根据第二车辆在第一车辆实施变道意图表示行为前后的加速度来计算第二车辆的加速度收益，计算出的该收益更接近第二车辆真实的收益，由此能够更准确地预测第二车辆的行为，更合理地作出第一车辆的变道决策，减小由于预测不确定性导致的碰撞风险。

作为本申请第二方面的一种可能的实现方式，所述决策模块根据所述第一加速度和所述第二加速度计算出侵略值，所述侵略值指示所述第二车辆的侵略性，所述侵略值越大，所述第二车俩的收益越小。

作为本申请第二方面的一种可能的实现方式，所述第一加速度和所述第二加速度均在预设值以上时的所述侵略值，大于等于所述第一加速度和所述第二加速度中的一方小于预设值时的所述侵略值。

作为本申请第二方面的一种可能的实现方式，所述决策模块根据所述第一加速度、所述第二加速度以及所述第一车辆与所述第二车辆的碰撞概率，计算第二车辆的所述加速度收益，所述碰撞概率越小，所述第二车辆的所述加速度收益的绝对值越大。

作为本申请第二方面的一种可能的实现方式，当所述第二车辆不支持通信交互时，所述决策模块根据所述第一加速度和所述第二加速度，计算所述第二车辆在所述第一车辆变道情况下的所述加速度收益，根据所述第二车辆的所述加速度收益，求得所述博弈均衡解。

作为本申请第二方面的一种可能的实现方式，当所述第二车俩支持通信交互时，所述决策模块根据所述第二车辆发送的未来n个时刻的意图序列的信息，计算所述第二车辆的所述加速度收益，选择所述第一车辆未来n个时刻的决策序列的信息，并发送给所述第二车辆，所述决策模块根据所述第二车辆多次发送的所述意图序列的信息，更新所述第二车辆的所述加速度收益，根据更新后的所述加速度收益求得所述博弈均衡解。

作为本申请第二方面的一种可能的实现方式，所述决策序列中包括第一车辆的策略E1、E2，所述意图序列中包括所述第二车辆的策略F1、F2，所述决策模块计算所述第一车辆与所述第二车辆的策略组合{E1，F1}、{E1，F2}、{E2，F1}、{E2，F2}各自出现的次数，根据该次数计算及更新所述第二车辆的收益。

作为本申请第二方面的一种可能的实现方式，所述变道意图表示行为是打转向灯或在行驶车道内向所述目标车道的方向横向偏移。

为达到上述目的，本申请第三方面提供一种车辆，其具有上述第二方面及其可能的实现方式中的任一所述的变道决策装置。

为达到上述目的，本申请第四方面提供一种计算设备，包括：至少一个处理器；以及至少一个存储器，其存储有程序指令，所述至少一个处理器通过执行所述程序指令来执行上述第一方面及其可能的实现方式中的任一所述的方法。

为达到上述目的，本申请第五方面提供一种计算机可读存储介质，其上存储有程序指令，计算机通过执行所述程序指令来执行上述第一方面及其可能的实现方式中的任一所述的方法。

附图说明

图1是本申请实施例的应用场景示意图；

图2是本申请实施例提供的一种车辆的结构示意图；

图3是本申请实施例中选择目标车道的场景示意图；

图4是本申请实施例中选择博弈车辆的场景示意图；

图5是本申请实施例提供的自车收益函数的示意图；

图6是本申请实施例提供的邻车道后车收益函数的示意图；

图7是本申请实施例提供的值函数曲线的示意图；

图8是本申请实施例提供的权重函数曲线的示意图；

图9是本申请实施例中计算邻车道后车侵略性的场景示意图；

图10是本申请实施例中预测邻邻车道后车变道行为的场景示意图；

图11是本申请实施例提供的自动变道决策方法的具体流程示意图；

图12是本申请实施例中信息交互博弈处理的流程示意图；

图13是本申请实施例中非理性模型预测意图处理的流程示意图；

图14是用于比较本申请实施例与现有技术的变道决策方法的效果的变道场景示意图；

图15是在图14的场景下使用现有技术中基于规则的方法作出变道决策时的示意图；

图16是在图14的场景下使用本申请实施例的方法作出变道决策时的示意图；

图17是用于说明现有技术的变道决策方法的图；

图18是用于说明现有技术的变道决策方法的图。

具体实施方式

本申请实施例提供的技术用于自动驾驶车辆作出自动变道决策。在对本申请实施例提供的技术进行具体说明之前，先参照图17和图18对现有技术进行简单的分析。

现有技术中，关于自动变道决策技术，有一种基于规则的方法，参照图17对该方法进行说明。车辆Ego在决定是否变道时，感知自身及相关车辆(包括车辆Ego的目标车道上的后车A以及当前车道上的后车B)的当前加速度a_ego，a_A，a_B，预测变道后自身及相关车辆的加速度

当同时满足如下两个条件时决定变道：

(1)安全准则，车辆Ego变道之后，在目标车道上的后车A的减速度不能超过给定的安全阈值b_safe，即

(2)期望条件，车辆Ego变道之后，所有车辆的加速度收益之和大于一定阈值Δa_th,即

如上所述，基于规则的方法中，车辆Ego通过感知后车的当前加速度、预测变道后自身及相关车辆的期望加速度，设定安全和期望规则，来判断是否变道。采用该方法，存在以下缺点：第一，依赖于对相关车辆的当前加速度感知结果以及变道后的预测加速度，不确定性大，而且对感知和预测精度的要求太高；第二，未考虑驾驶员的非理性行为，预测的加速度难以反映真实驾驶行为。

现有技术中，还有一种使用博弈论的方法，参照图18对该方法进行说明。如图18所示，在该方法中，首先选择博弈车辆，在向邻车道变道的情况下，选择邻车道上的后车作为博弈车辆，自车与博弈车辆建立二人博弈模型，要求两车都支持V2V(Vehicle to Vehicle，车对车)通信，通过V2V通信的方式获取对方的收益表，然后使用博弈算法搜索纳什均衡，当两者达成共识之后，执行策略。其中，收益表是根据碰撞风险来设计的。采用该方法，存在以下缺点：第一，要求双方车辆均具备通信模块，只适用于自动驾驶车辆之间的交互决策；第二，每次通过V2V通信的方式交互发送收益表，需要交互的信息量大，且最优纳什均衡的求解算力消耗较大；第三，相邻决策周期的决策结果存在来回震荡问题，且未考虑变道失败的回退机制，风险较大。

由于上述现有技术存在的缺点，导致作出的自动变道决策可能是不合理的，会增加碰撞风险。

鉴于现有技术的上述问题，本申请实施例提供一种能够更合理地作出自动变道决策而减小碰撞风险的技术。

下面参照图1至图16对本申请实施例进行具体说明。

图1是本申请实施例的一种应用场景示意图。如图1所示，车辆100以自动驾驶模式在道路上行驶。该道路例如是城市道路或高速公路。设想车辆100想要向邻车道进行变道而在其他车辆200a和其他车辆200b之间行驶的场景。

当其他车辆200a、200b是支持通信交互的车辆，例如自动驾驶车辆时，车辆100可以通过其具有的通信装置，发送自身的意图信息，并接收其他车辆200a、200b的意图信息，根据其他车辆200a、200b的意图作出决策。当其他车辆200a、200b是不支持通信交互的车辆，例如人类驾驶车辆时，车辆100通过其具有的感知装置感知到的环境信息以及交通信息等作出决策。

图2是车辆100的结构示意图。如图2所示，车辆100具有车辆控制装置30。车辆100还具有感知系统10、通信系统20、动力系统40、转向系统50和制动系统60。此外，车辆100还具有这些结构要素以外的结构要素，但在此省略说明。

感知系统10包括雷达、摄像头、激光雷达等传感器。感知系统10还包括GPS(GlobalPositioning System，全球定位系统)、高精度地图、INS(Inertial Navigation System,惯性导航系统)等。感知系统10能够通过雷达、摄像头、激光雷达等传感器获取车辆100周围的其他车辆信息和车道线信息等信息。其他车辆主要包括邻车道和邻邻车道上的车辆。感知系统10还能够通过GPS和高精度地图获取车辆100的定位信息，通过INS获取车辆100的车姿信息。

通信系统20能够与未图示的外部对象之间进行无线通信。外部对象例如可以包括未图示的基站、云端服务器、移动终端(智能手机等)、路侧设备、其他车辆等。通信系统20能够与其他车辆进行V2V通信。例如，通信系统20可以基于PC5接口，通过V2V通信，与其他车辆交换快速变化的动态信息(例如位置、速度、行驶方向、交通路况等)。另外，作为车间通信接口，通信系统20还可以有DSRC(Dedicated Short Range Communication：专用短程通信)接口。

动力系统40具有未图示的驱动ECU(Electronic Control Unit；电控单元)和未图示的驱动源。驱动ECU通过控制驱动源来控制车辆100的驱动力(扭矩)。作为驱动源的例子，可以是发动机、驱动电机等。驱动ECU能够根据驾驶员对加速踏板的操作来控制驱动源，从而能够控制驱动力。另外，驱动ECU还能够根据从车辆控制装置30发送来的指令来控制驱动源，从而能够控制驱动力。驱动源的驱动力经由未图示的变速器等传递给未图示的车轮，从而驱动车辆100行驶。

转向系统50具有未图示的转向ECU即EPS(Electric Power Steering，电动助力转向系统)ECU和未图示的EPS电机。转向ECU能够根据驾驶员对方向盘的操作来控制EPS电机，从而控制车轮(具体而言是转向轮)的朝向。另外，转向ECU还能够根据从车辆控制装置30发送来的指令控制EPS电机，从而控制车轮的朝向。另外，也可以通过改变对左右车轮的扭矩分配或制动力分配来进行转向操纵。

制动系统60具有未图示的制动ECU和未图示的制动机构。制动机构通过制动电机、液压机构等使制动部件进行工作。制动ECU能够根据驾驶员对制动踏板的操作来控制制动机构，从而能够控制制动力。另外，制动ECU还能够根据从车辆控制装置30发送来的指令控制制动机构，从而能够控制制动力。在车辆100是电动车辆或者混合动力车辆的情况下，制动系统60还可以包括能量回收制动机构。

车辆控制装置30可以由一个ECU实现，也可以由多个ECU组合实现，ECU是包括通过内部总线连接的处理器、存储器和通信接口的计算设备，在存储器中存储有程序指令，该程序指令当被处理器执行时发挥相应的功能模块和功能单元的作用。车辆控制装置30是本申请中变道决策装置的一例。

车辆控制装置30具有的功能模块包括信息获取模块31、目标车道选择模块32、博弈车辆选择模块33、信息交互博弈模块34、非理性模型预测意图模块35、决策输出模块36。信息获取模块31、目标车道选择模块32分别是本申请中获取模块的一例。信息交互博弈模块34、非理性模型预测意图模块35分别是本申请中决策模块的一例。车辆控制装置30通过由处理器执行程序(软件)来实现这些功能模块和/或功能单元，然而，车辆控制装置30也可以通过LSI(LargeScale Integration，大规模集成电路)和ASIC(Application SpecificIntegrated Circuit，专用集成电路)等硬件来实现这些功能模块和/或功能单元的全部或一部分，或者还可以通过软件和硬件的组合来来实现这些功能模块和/或功能单元的全部或一部分。

信息获取模块31负责从感知系统10获取输入信息。输入信息包括：车辆100的状态信息，包括速度、加速度等；车辆100周围的其他车辆的相对运动状态信息，包括相对位置、速度、加速度等；地图信息和车辆定位信息等。信息获取模块31可以对获取到的输入信息进行预处理。预处理包括数据插值、平滑滤波、去除异常信号等。其他车辆的相对运动状态信息除了可以通过感知系统10感知获得之外，还可以根据通信系统20从目标车辆接收到的例如目标车辆的位置、速度等信息而获得，或者是融合感知系统10感知到的信息和通信系统20接收到的信息而获得。信息获取模块31将预处理后的输入信息输出给目标车道选择模块32。

目标车道选择模块32提取出车辆100周围一定范围内的其他车辆作为目标车辆，获取目标车辆相关信息，包括车道、位置、速度、加速度等。目标车道选择模块32根据如下三个指标选择自动变道时的目标车道：

(1)自车期望速度与目标车道平均速度相匹配的程度；

(2)目标车道的车辆间距，车间距离需要足够大，即风险足够小；

(3)强制变道要求，例如当前车道前方不可通行、规划路径的变道要求等。

目标车道选择模块32针对上述三个指标分别设定三个方面的代价，根据总代价的大小来选择目标车道。下面，参照图3的三车道场景对这三个方面的代价进行说明。

第一，速度代价g₁。速度代价g₁对应于自车期望的速度与目标车道的平均速度相匹配的程度。自车期望的速度与车道L_i的当前平均速度越不匹配，越不应该选取该车道为目标车道，因此设置较大的代价。车道L_i的速度代价g₁由下式(1)表示：

其中，d_max为常数；

为车道L_i上的目标车辆的当前平均车速；v_ego为自车车速。d_max例如可以为100m。

在图3的场景下，车辆100行驶的车道L₀的邻车道L₁上存在作为目标车辆的其他车辆200c、200d。此时，可以使用其他车辆200c、200d的速度信息，求出其他车辆200c、200d的平均速度，代入式(1)中得到车道L₁的速度代价g₁。

第二，风险代价g₂。风险代价g₂对应于目标车道的车辆间距。可以用车头时距THW(Time Headway)来表征车辆间距。车头时距是指在同一车道上行驶的车辆队列中，两连续车辆车头端部通过某一断面的时间间隔。为了确保安全，车头时距需要足够大。车头时距反映出风险程度，车辆100趋向于选择风险较低的车道。车道L_i的风险代价g₂由下式(2)表示：

其中，

为车道上L_i上目标车辆的数量,THW_i为车道L_i上的车头时距。

第三，必要性代价g₃。必要性代价g₃对应于是否存在强制变道要求，例如当前车道前方无法通行、或导航路径要求必须变道等情况。必要性代价g₃由下式(3)表示：

其中，

为车道L_i的剩余距离；d_max为常数。

例如，在图3的场景下，车辆100行驶的车道L₀即将与邻车道L₁汇合，因此存在强制变道要求。此时，可以根据车道L₀的剩余距离

来计算出必要性代价g₃。剩余距离

是指从车辆100所处位置到车道L₀与邻车道L₁的汇合点处的距离。

综合以上三方面代价，考虑了自车预期、安全性、必要性，对于任意车道L_i的总代价Cost(L_i)由下式(4)表示：

Cost(L_i)＝ω₁g₁+ω₂g₂+ω₃g₃ (4)

其中，ω₁＞0，ω₂＜0，ω₃＞0，皆为权重。

根据上述式(4)，选择总代价Cost(L_i)最小的一条车道作为目标车道。

博弈车辆选择模块33选取可能会影响到车辆100变道的目标车辆作为博弈的对象即博弈车辆。车辆100为本申请中第一车辆的一例。博弈车辆是本申请中第二车辆的一例。通常，博弈车辆选择模块33选择在纵向上的规定距离内的邻车道和邻邻车道的目标车辆作为博弈车辆。这里，当前车道的邻邻车道是指当前车道的相邻车道的相邻车道。例如，在图4的场景下，当前车道是车道L₂，当前车道的相邻车道是车道L₁、L₃，当前车道的邻邻车道是车道L₀、L₄。规定距离可以根据车速来设定。例如，规定距离可以设定为100m。考虑车辆100后方100m内，邻车道和邻邻车道上的目标车辆。

在图4的场景下，当在车道L₂上行驶的车辆100意图左变道，即选择邻车道L₃作为目标车道时，选择邻车道L₃的目标车辆200b和邻邻车道L₄的目标车辆200a作为博弈车辆，因为目标车辆200a的变道行为和目标车辆200b的加减速行为都会对车辆100的变道产生影响。这里，可以假设车辆100前方的目标车辆200e、200f按照当前状态正常行驶，暂不考虑它们的影响。此外，由于是选择邻车道L₃作为目标车道，车道L₀、L₁的目标车辆200c、200d不会影响到车辆100的变道行为。

在博弈车辆选择模块33选取的博弈车辆支持通信交互时，由信息交互博弈模块34通过通信系统20与博弈车辆交换意图信息，基于博弈论求出均衡解，得到最优策略，当与博弈车辆达成共识时，作出自动变道决策。

博弈论的三要素包括参与者、策略、收益。这里，“参与者”包括车辆100和博弈车辆选择模块33选取的博弈车辆。作为博弈参与者的博弈车辆分为邻车道后车和邻邻车道后车两种类型。邻车道后车例如为图4中邻车道L₃的目标车辆200b。邻邻车道后车例如为图4中邻邻车道L₄的目标车辆200a。

对于车辆100(自车)，上述三要素中的“策略”包括立即变道、等待变道。关于邻车道后车，如果邻车道后车选择减速，就意味着车辆100可以安全变道，否则就会有碰撞风险，因此，车辆100需要考虑邻车道后车的加速、减速策略。关于邻邻车道后车，由于该邻邻车道后车不在车辆100的目标车道上，因此其纵向加减速行为并不会对车辆100的变道产生直接影响，但是其横向变道行为有可能会给车辆100的变道带来碰撞风险，因此，车辆100需要考虑邻邻车道后车的横向变道策略。由此，对于邻车道后车，上述三要素中的“策略”包括加速、减速；对于邻邻车道后车，上述三要素中的“策略”包括变道、不变道。需要说明的是，车辆100采取的上述两种策略仅仅是示例，车辆100的策略不局限于两种，也可以是更多种，例如加速变道、减速变道、等待变道。

上述三要素中的“收益值”是对不同策略的好坏程度进行量化的要素。这里暂时不考虑邻邻车道后车的影响，只考虑车辆100和邻车道后车之间的博弈。车辆100倾向于在短时间内、安全地汇入目标车道，因此以汇入时间和碰撞风险为指标来衡量收益。邻车道后车则倾向于在安全的前提下，保持原行驶状态，因此以加速度变化量来衡量收益。

参照图5对车辆100的收益函数进行说明。以汇入时间和碰撞风险为衡量指标，计算车辆100选择不同策略的情况下可能的收益。如图5所示，当车辆100选择汇入时，邻车道后车加速或减速都会有碰撞风险，因此收益为汇入时间和碰撞时间的加权和：α·t_merge+β·TTC，其中t_merge为汇入时间，TTC为碰撞时间(Time-To-Co l l i s ion)，α<0和β>0，皆为权重系数。当车辆100选择等待时，没有碰撞风险，因此只考虑汇入时间，收益为：γ·t_merge，其中γ<0为权重系数。

参照图6对邻车道后车的收益函数进行说明。以加速度变化量为衡量指标，计算邻车道后车选择不同策略的情况下可能的收益。如图6所示，当邻车道后车选择加速，此时若车辆100选择汇入会有碰撞风险，为了规避风险邻车道后车需要紧急刹车，收益为ω·Δa_brake，其中ω为权重系数，Δa_brake为紧急刹车时的加速度变化量；若车辆100选择等待则不会有碰撞风险，邻车道后车可以正常行驶，收益为ω·Δa_normal，其中ω为权重系数，Δa_normal为正常行驶时的加速度变化量。当邻车道后车选择减速避让，此时无论车辆100选择汇入还是等待，邻车道后车的收益都定义为加速度变化量，收益为ω·Δa_yield，其中ω为权重系数，Δa_yield为按预期减速时的加速度变化量。综上，邻车道后车的收益都是以加速度变化量来衡量的。这里记载的是邻车道后车计算其自身的收益时使用的收益函数，但本申请实施例中，车辆100不从作为博弈车辆的邻车道后车接收如此计算出的收益表，而是仅接收博弈车辆的意图信息，根据该意图信息来估算博弈车辆的收益。

在博弈车辆支持通信交互时，信息交互博弈模块34使用图5所示的车辆100的收益函数计算自车的收益，求出车辆100在未来n个时刻的决策序列，并通过通信系统20发送给博弈车辆，然后，车辆100接收博弈车辆发送过来的未来n个时刻的意图序列，根据博弈车辆在接收到车辆100的决策序列后作出的意图序列，通过统计学的方法估算博弈车辆的收益而得到博弈车辆的收益表，根据博弈车辆的收益表，计算车辆100的收益，选择收益最大的未来n个时刻的决策序列并发送给博弈车辆。信息交互博弈模块34反复多次进行与博弈车辆的信息交互以及博弈车辆的收益估算，在与博弈车辆达成共识时，得到博弈均衡解。然后，信息交互博弈模块34根据博弈均衡解作出自动变道决策。

在博弈车辆选择模块33选取的博弈车辆不支持通信交互时，例如博弈车辆为人类驾驶车辆时，由非理性模型预测意图模块35采用非理性模型来估算作为博弈车辆的邻车道后车采取不同策略下的收益，根据该收益预测邻车道后车的意图，模拟博弈论的博弈过程，搜索均衡解而作出自动变道决策。此时，与上述同样，车辆100的收益使用图5所示的收益函数来计算。本实施例中，设计的非理性模型的值函数

决策权重w(a)、以及收益函数U(a)如下：

其中，λ为侵略性因子；a为加速度；∈为常数。∈为根据实测数据预先决定取值的经验参数。∈的取值范围例如为∈∈(0，1)。

其中，η为常数；P_crash(a)为加速度a对应的碰撞概率。η为根据实测数据预先决定取值的经验参数。η的取值范围例如为η∈(0，1)。根据CA(Constant acceleration，常加速度)模型，P_crash(a)可以由下式求得：

其中，τ为预测时间长度，Δd为两车间的纵向距离，a为加速度；

为对前车速度的估计，服从均值为0，方差为σ的高斯分布；v为当前速度。τ、σ均为预先标定的参数。

上述式(5)中的侵略性因子λ表示驾驶员的侵略性。车辆100可以通过实施向博弈车辆表明变道意图的行为，根据在该行为前后博弈车辆的纵向上的加速度，由非理性模型预测意图模块35计算博弈车辆的侵略性因子。表明变道意图的行为例如是车辆100打转向灯或者在行驶车道内向目标车道的方向横向偏移，持续一定时间。此时，感知系统10感知第i(i＝1，2…m，m≥1)辆邻车道后车在车辆100作出上述行为前的时刻t、作出上述行为后的时刻t+1的加速度a_i(t)，a_i(t+1)，由非理性模型预测意图模块35根据下式来计算博弈车辆的侵略性因子λ_i。λ_i的取值范围例如为λ_i∈(0，2]。关于时刻t、t+1的设定，例如可以设时刻t为车辆100即将进行上述行为的时刻，时刻t+1为从开始进行上述行为起经过一定时间后的时刻。一定时间例如可以是2秒，也可以是其他的数值。

式(9)的原理是根据收益函数和观测到的博弈车辆的加速度变化量，计算估计与该模型最匹配的侵略性因子。根据式(9)，当a_i(t)＜0或a_i(t+1)＜0时，使用a_i(t)和a_i(t+1)计算侵略性因子λ；否则，博弈车辆未减速，认为其具有的侵略性大，直接将侵略性因子λ设置为2。本申请实施例中，a_i(t)和a_i(t+1)双方均大于0时的侵略性因子λ大于等于其中一方小于0时的侵略性因子λ。侵略性因子λ是本申请中的“侵略值”的一例。a_i(t)是本申请中的“第一加速度”的一例，a_i(t+1)是本申请中的“第二加速度”的一例，0是本申请中的“预设值”的一例。此外，λ_i的取值范围中的“2”仅仅为一例，其最大值也可以为其他值大于0的值。

驾驶员的侵略性对驾驶行为有较大影响，侵略性因子λ大，表明驾驶员对减速更敏感，让道可能性小；侵略性因子λ小，表明驾驶员对风险敏感，让道可能性大。计算得到的侵略性因子λ被适配到值函数

值函数

的大小取决于加速度a和侵略性因子λ。图7表示不同侵略性因子λ对应的值函数曲线。如图7所示，当a<0时，侵略性因子越大则曲线越陡峭，值函数随加速度a的变化更大，对应于驾驶员对速度的变化更敏感。当a＜0时，在加速度相同的情况下，侵略性因子λ越大，则值函数

的值越小，在侵略性因子λ相同的情况下，加速度越小则值函数

的值越小。当a≥0时，与侵略性因子λ无关，加速度a越小，则值函数

的值越小。

由式(8)可知，值函数

的大小关系到估算出的博弈车辆的收益的大小。本申请实施例中，所述侵略性因子λ越大，根据式(8)计算出的博弈车辆的收益越小。

另外，根据式(8)可知，由非理性模型预测意图模块35估算出的博弈车辆的收益的大小还与决策权重w(a)的大小有关。由式(6)可知，决策权重w(a)根据碰撞概率P_crash(a)计算得到。图8为决策权重w(a)的函数曲线。图8中，横轴为碰撞概率P_crash(a)，纵轴为决策权重w(a)。由图8可知，碰撞概率P_crash(a)越小，决策权重w(a)的值越大。结合式(5)、(8)可知，在a≥0时，博弈车辆的收益为正，决策权重w(a)越大，则博弈车辆的收益越大，a＜0时，博弈车辆的收益为负，决策权重w(a)越大，则博弈车辆的收益越小。即，本申请实施例中，碰撞概率P_crash(a)越小，博弈车辆的收益的绝对值越大。根据式(8)计算出的博弈车辆的收益是本申请中“加速度收益”的一例。

以上对非理性模型预测意图模块35估算作为博弈车辆的邻车道后车的收益时使用的非理性模型进行了说明。例如，在图9的场景下，车辆100首先可以通过打转向灯或者在车道L₀内向目标车道L₁的方向横向偏移，来向目标车辆200b表明变道意图，感知目标车辆200b在车辆100表明变道意图前后的加速度，代入式(9)计算出目标车辆200b的驾驶员的侵略性因子λ。将计算出的侵略性因子λ代入式(5)至(8)所示的非理性模型，使用非理性模型计算目标车辆200b在不同加速度下的收益，而预测目标车辆200b的意图，通过进行模拟博弈，作出车辆100的自动变道决策。

此外，对于图9中的邻邻车道即车道L₂上的目标车辆200a，可以如下这样来预测其是否变道。图9中，目标车辆200c、200d、200f分别为三条车道上拥有不同速度的前车，假设目标车辆200c车速较慢，目标车辆200d速度较快。目标车辆200a如果要避免与目标车辆200c的碰撞，只有两种方案：(1)减速，保持当前车道；(2)变道至车道L₁，速度变化不用太大。两种方案分别对应了两种策略：减速、变道。首先根据CA模型，计算目标车辆200a为了不与目标车辆200c碰撞所需要的减速度a1；其次，再计算假设目标车辆200a变道至车道L₁后为了不与目标车辆200d碰撞所需要的减速度a2。若a2-a1大于一定阈值，则认为目标车辆200a会变道。其中，阈值例如为事先根据真实数据设定的经验值。在预测出作为邻邻车道后车的目标车辆200a会变道的情况下，可以如图10所示，假设目标车辆200a变道至车道L₁上的相应位置而计算车辆100的收益。在图10所示的情形下，碰撞概率增大，从而车辆100的变道收益会变小，因此，车辆100采取的策略会倾向于选择保持当前车道。

决策输出模块36根据信息交互博弈模块34或非理性模型预测意图模块35的决策结果，生成用于发送给动力系统40、转向系统50和制动系统60的控制指令，以能够控制动力系统40、转向系统50和制动系统60，而使车辆100按照作出的决策行驶。

接着，参照图11对车辆控制装置30执行的自动变道决策方法的具体步骤进行说明。

在步骤S10中，由信息获取模块31获取输入信息。输入信息例如包括车辆100的状态信息和周围的目标车辆信息、车道线信息等。车辆100的状态信息包括车辆100的位置、速度及加速度等。目标车辆信息主要包括邻车道和邻邻车道的目标车辆的相对位置、速度及加速度等信息。可选地，信息获取模块31可以针对不同的传感器采样频率不同的问题，采取插值方法进行信号同步，得到更新周期相同的各输入信息。

在步骤S20中，由目标车道选择模块31根据输入信息选择自动变道的目标车道。具体地，可以如上述那样，考虑三个方面的代价，选择总代价最小的车道作为目标车道。需注意：这一步骤仅仅是选择期望的车道，并不是马上进行变道。

在步骤S20中确定目标车道后，在步骤S30中由博弈车辆选择模块33选择博弈车辆。具体地，可以如上述那样，选择会影响到车辆100的变道过程的目标车辆作为博弈车辆。这里，选取目标车道上位于车辆100后方的目标车辆作为博弈车辆。

在步骤S40中判断在步骤S30中选择的博弈车辆是否支持通信交互。例如，可以由通信系统20通过V2V广播的方式向博弈车辆发送建立通信请求信息，该信息中例如可以包括车辆100的位置、速度等信息、请求一定范围内的周围车辆回信的信息。若在发送建立通信请求信息后的指定时间内，接收到博弈车辆发送过来的回复信息，则认为博弈车辆支持通信交互，否则认为对方不支持通信交互。此外，例如可以将感知系统10感知到的博弈车辆的位置信息与通过V2V通信接收到的其他车辆的位置信息进行比较，在比较结果为两个位置信息基本一致时，判断为接收到了博弈车辆的回复信息。当博弈车辆支持通信交互时转到步骤S50，不支持通信交互时转到步骤S60。

在步骤S50中，由信息交互博弈模块34进行信息交互博弈处理。关于信息交互博弈处理的细节在后面进行说明。

在步骤S60中，由非理性模型预测意图模块35进行非理性模型预测意图处理。关于非理性模型预测意图的细节在后面进行说明。

在步骤S70中，输出步骤S50或步骤S60中的决策结果。即，根据步骤S50或步骤S60中的决策结果，生成用于发送给动力系统50、转向系统60和制动系统70的控制指令，以使车辆100能够按照作出的决策行驶。在步骤S70结束之后，图11所示的一系列流程结束。

图12是步骤S50的信息交互博弈处理的具体流程示意图。参照图12对信息交互博弈处理进行详细说明。

在步骤S51中，在时刻t＝t₀，向博弈车辆发送车辆100(自车)在未来n个时刻的决策序列。在该步骤中，信息交互博弈模块34可以根据感知系统10感知到的或者通过V2V通信获取到的博弈车辆的位置、速度及加速度等信息，预测博弈车辆在未来n个时刻的状态，决定车辆100在未来n个时刻的决策序列。车辆100的决策序列由与各时刻对应的策略组成。与各时刻对应的策略例如包括等待、汇入。n的数值可以根据车辆控制装置30的算力来设定。n例如可以设定为3，但并不局限于此，只要是大于0即可。在算力允许的情况下，将n设定得较大，可以加快算法收敛。

在步骤S52中，在时刻t＝t+1，接收博弈车辆发送过来的意图序列的信息，估算博弈车辆的收益。接收到的博弈车辆的意图序列中包含其未来n个时刻所采取的策略。博弈车辆的策略例如包括加速、减速。本申请实施例中，车辆100不从博弈车辆获取博弈车辆的收益表，而是采用统计方法来近似估算博弈车辆的收益而获得博弈车辆的收益表。

根据至今为止接收到的博弈车辆的所有意图序列(历史意图序列)和车辆100至今为止发送的决策序列(历史决策序列)，统计博弈车辆在车辆100选择了某种策略的情况下，选择各种策略的次数，从而估算博弈车辆在车辆100不同选择下的收益。换言之，统计车辆100的历史决策序列中的策略和博弈车辆的历史意图序列中的对应策略的各种组合出现的次数，来估算博弈车辆在车辆100选择不同策略下的收益。例如，在车辆100的策略包括等待、汇入，博弈车辆的策略包括加速、减速的情况下，根据车辆100选择其中任一策略时博弈车辆相应地采取的策略，车辆100与博弈车辆的策略组合有四种，即，{等待，加速}、{等待，减速}、{汇入，加速}、{汇入，减速}。在车辆100的历史决策序列中合计包括10次“等待”的情况下，如果{等待，加速}的策略组合出现了8次，即，博弈车辆针对这10次“等待”，共有8次选择了“加速”，则估算在车辆100选择“等待”的情况下，博弈车量选择“加速”的收益为8/10。随着图12的算法中的迭代次数不断增加，分子和分母都会有变化，估算出的博弈车辆的收益最终接近博弈车辆的真实收益。{等待，加速}、{等待，减速}、{汇入，加速}、{汇入，减速}分别是本申请中第一车辆与第二车辆的策略组合{E1，F1}、{E1，F2}、{E2，F1}、{E2，F2}的一例。根据上述统计学的方法估算出的博弈车辆的收益是本申请中“加速度收益”的一例。此外，车辆100和博弈车辆的策略的种类不局限于上述的两种，也可以是三种及以上。此时，可以同样采用统计学的方法来计算博弈车辆的收益。

在步骤S53中，根据估算出的博弈车辆的收益，计算车辆100的收益，选择车辆100的收益最大的未来n个时刻的决策序列，并发送给博弈车辆。信息交互博弈模块34例如可以对未来n个时刻的每个时刻计算车辆100采取各策略的收益，未来n个时刻收益之和最大的决策序列是对车辆100最好的选择。

在步骤S54中，判断博弈双方是否达成共识，如果达成共识，则信息交互博弈处理结束，否则返回步骤S51，反复执行步骤S52-S54，直到双方达成共识为止。例如可以在双方当前的策略与上一时刻的策略保持一致时，视为双方已经达成共识。此时，车辆100最后发送的决策序列即为车辆100的决策结果。

图13是步骤S60的非理性模型预测意图处理的具体流程示意图。参照图12对非理性模型预测意图处理进行详细说明。

在步骤S61中，计算博弈车辆的侵略性因子。车辆100实施向博弈车辆表明变道意图的行为，而与博弈车辆进行交互，根据博弈车辆在纵向上的加速度变化，计算博弈车辆的侵略性因子λ。表明变道意图的行为例如是车辆100打转向灯或者在行驶车道内向目标车道的方向横向偏移，持续一定时间。此时，感知系统10感知博弈车辆在车辆100作出上述行为之前的时刻t、之后的时刻t+1的加速度a(t)，a(t+1)，根据上述的式(9)来计算博弈车辆的侵略性因子λ。另外，此时使用的式(7)中的博弈车辆的速度v、博弈车辆与车辆100在纵向上的距离Δd例如可以是由感知系统10在时刻t以后时刻t+1之前感知到的。此时，车辆100相当于式(7)中所指的前车，

为对车辆100的速度的估计。

在步骤S62中，建立非理性模型。将步骤S61中计算出的侵略性因子λ代入上述式(5)中得到值函数

根据该值函数

以及上述式(6)的根据碰撞概率P_crash(a)计算的决策权重w(a)，得到式(8)所示的博弈车辆的收益函数U(a)。使用该收益函数U(a)即可估算博弈车辆在不同加速度下的收益值。

在步骤S63中，使用步骤S62中建立的非理性模型，来计算博弈车辆的收益而预测博弈车辆的意图，进行模拟博弈，求出均衡解。具体地，车辆100可以使用步骤S62中建立的非理性模型，估算博弈车辆在不同情况下的收益值，并且，车辆100根据图5所示的收益函数计算自车在不同情况下的收益。由此，车辆100可以得到二人博弈的收益表。可以根据车辆100的收益表确定车辆100的策略，如等待、汇入，根据博弈车辆的收益表预测博弈车辆的策略，如加速、减速。然后，例如可以通过博弈论算法中的虚拟博弈(Fictitious Play)对博弈过程进行模拟，求出均衡解。此时，在每一轮博弈的开始，车辆100和博弈车辆根据对方的历史策略，求得一个最优的针对策略，然后根据历史策略和本轮最优策略更新自己的历史策略，随着迭代的继续，策略会慢慢收敛到纳什均衡。如此求得的均衡解即为车辆100的决策结果。此外，在使用非理性模型计算博弈车辆的收益时，使用的式(7)中的博弈车辆的速度v、博弈车辆与车辆100在纵向上的距离Δd由感知系统10实时感知得到。需要说明的是，这里的使用的博弈论算法不局限于Fictitious Play，也可以是其他的已有的博弈论算法，如划线法等。

接着，参照图14至图16，以博弈车辆不支持通信交互的场景为例，对本申请实施例提供的交互式自动变道决策相比于传统的基于规则的方法的有益效果进行说明。

图14是变道场景示意图。如图14的(a)所示，车辆100行驶的车道L₀在前方并入邻车道L₁，必须要进行变道，而邻车道L₁上车辆100的后方有三辆目标车辆200a、200b、200c。图14的(b)表示车辆100和目标车辆200a、200b、200c的初始状态，即各车的车速以及目标车辆200a、200b、200c与车辆100的纵向距离。

图15表示通过传统的基于规则的方法变道时的情形。如图15所示，由于目标车辆200a、200b、200c之间没有足够的安全距离，车辆100只能选择变道至目标车辆200a前方或目标车辆200c后方，但是经过计算发现如果要在4秒内变道至目标车辆200a前方，那么所需要的加速度为4m/s²。大部分的车辆无法达到此加速度，因此只能减速等待所有目标车辆200a、200b、200c通过之后再变道，然而前方靠近本车道L0的边缘，情况危险。

图16表示通过本申请实施例的方法进行变道时的情形。根据本申请实施例的方法，车辆100通过非理性模型预测目标车辆200a、200b、200c的意图而作出决策。如图16的(a)所示，车辆100打转向灯或者在本车道L₀内横向偏移，观察目标车辆200a、200b、200c的运动状态并计算侵略性因子。结果发现目标车辆200a的侵略性较大，对减速更敏感，因此如图16的(b)所示，车辆100减速让目标车辆200a通过。另外，发现目标车辆200b的侵略性较小，对风险敏感，通过非理性模型计算其不同策略下的收益，认为当车辆100变道时目标车辆200b会减速避让，因此车辆100在目标车辆200b之前汇入，从而如图16的(c)所示，车辆100在到达本车道L₀的边缘之前汇入到邻车道L₁,在目标车辆200a与200b之间行驶。

采用本申请实施例提供的上述自动变道决策方法，当博弈车俩为支持V2V通信交互的自动驾驶车辆时，车辆100与博弈车辆之间通过V2V通信收发彼此的意图信息，通过博弈论的方法进行车辆之间的交互决策，在博弈过程中达成共识(达到均衡解)，从而，考虑了车辆相互之间的作用和影响，不再是独立决策，可降低决策风险和不确定性。而且，车辆100通过滚动时域优化，每次优化并发送未来n个时刻的决策序列，可降低决策震荡，并加快算法收敛。此外，由于在与博弈车辆进行信息交互过程中仅需要接收博弈车辆的意图信息，而不需要接收博弈车辆的详细收益信息，因此降低了信息传输量。

采用本申请实施例提供的上述自动变道决策方法，当博弈车俩为不支持V2V通信的人类驾驶车辆时，无法直接获取其意图信息，因此车辆100通过打转向灯、横向偏移等方式与其进行互动，而估计、量化博弈车辆的侵略性，进而对其建立非理性模型预测其不同情况下的收益，模拟博弈过程，寻找最优解，从而，建立的非理性模型更加符合真实场景下的人类驾驶行为，能够减小对于人类驾驶员行为的预测误差，从而能够降低决策风险和不确定性。

以上对本申请实施例提供的自动变道决策方法进行了说明。但本申请实施例并不局限于上述结构。在上述说明中，在选择了博弈车辆之后，对博弈车辆是否支持通信交互进行判断，在支持通信交互时进行信息交互博弈处理，在不支持通信交互时进行非理性模型预测意图处理，然而，也可以不进行是否支持通信交互的判断，无论是否支持通信交互，均进行非理性模型预测意图处理而作出自动变道决策。此外，车辆100的收益函数也可以不使用图5所示的收益函数，而使用公知的其他收益函数。式(5)、(6)中的∈、η也可以为其他的取值范围。

根据以上的说明，将本申请实施例总结如下。

本申请实施例提供一种变道决策方法，包括：获取第一车辆(例如，车辆100)意图驶入的目标车道；根据所述第二车辆(例如，图9中作为博弈车辆的邻车道后车200b)在所述第一车辆实施变道意图表示行为之前的第一加速度，以及所述第二车辆在所述第一车辆实施所述变道意图表示行为之后的第二加速度，计算所述第二车辆在所述第一车辆变道情况下的加速度收益，所述第二车辆是所述目标车道上的车辆，且位于所述第一车辆的后方；根据所述第二车辆的所述加速度收益，求得博弈均衡解；根据所述博弈均衡解，作出所述第一车辆的变道决策。所述变道意图表示行为例如是打转向灯或在行驶车道内向所述目标车道的方向横向偏移。

如上，根据第二车辆在第一车辆实施变道意图表示行为前后的加速度来计算第二车辆的加速度收益，计算出的该收益更接近第二车辆真实的收益，由此能够更准确地预测第二车辆的行为，更合理地作出第一车辆的变道决策，减小由于预测不确定性导致的碰撞风险。

可选地，根据所述第一加速度和所述第二加速度计算出侵略值，所述侵略值指示所述第二车辆的侵略性，所述侵略值越大，所述第二车俩的加速度收益越小。由此，将侵略值较大的第二车辆的收益设定为较小，能够准确地反应出这样的第二车辆对减速比较敏感，让道可能性小，从而能够更准确地预测第二车辆的行为。

可选地，所述第一加速度和所述第二加速度均在预设值以上时的所述侵略值，大于等于所述第一加速度和所述第二加速度中的一方小于预设值时的所述侵略值。在第二车辆的第一加速度和第二加速度均在预设值以上时，即使第一车辆示出了变道意图，第二车辆也没有减速的意思，通过对该第二车辆设定更大的侵略值，使其收益较小，能够更准确地预测第二车辆的行为，更合理地作出第一车辆的变道决策，减小由于预测不确定性导致的碰撞风险。

可选地，根据所述第一加速度、所述第二加速度以及所述第一车辆与所述第二车辆的碰撞概率，计算所述第二车辆的加速度收益，所述碰撞概率越小，所述第二车辆的所述加速度收益的绝对值越大。由此，能够考虑到第二车辆对风险的敏感程度来计算其收益，准确地预测第二车辆的行为，减小由于预测不确定性导致的碰撞风险。

可选地，当所述第二车辆不支持通信交互时，根据所述第一加速度和所述第二加速度，计算所述第二车辆在所述第一车辆变道情况下的所述加速度收益，根据所述第二车辆的所述加速度收益，求得博弈均衡解。由此，即使是第二车辆不支持通信交互，也能通过模拟博弈来求得均衡解，而作出合理的变道决策，从而能够应对道路上自动驾驶车辆和人类驾驶车辆同时存在的场景。

可选地，当所述第二车俩支持通信交互时，根据所述第二车辆发送的未来n个时刻的意图序列的信息，计算所述第二车辆的加速度收益，选择所述第一车辆未来n个时刻的决策序列的信息，并发送给所述第二车辆，根据所述第二车辆多次发送的所述意图序列的信息，更新所述第二车辆的所述加速度收益，根据更新后的所述加速度收益求得博弈均衡解。由此，通过通信交互与第二车辆交换意图而完成变道决策，能够有效降低碰撞风险和预测不确定性，并且，根据滚动时域优化的思想，每次优化并发送未来n个时刻的决策序列，可降低决策震荡，加快算法收敛。

可选地，所述决策序列中包括第一车辆的策略E1、E2，所述意图序列中包括所述第二车辆的策略F1、F2，计算所述第一车辆与所述第二车辆的策略组合{E1，F1}、{E1，F2}、{E2，F1}、{E2，F2}各自出现的次数，根据该次数计算及更新所述第二车辆的加速度收益。由此，在信息交互过程中仅需要目标车辆的决策信息，不需要知道对方的详细收益信息，降低了信息传递。

本申请实施例还提供一种变道决策装置，其具有获取模块(例如图2中的信息获取模块31、目标车道选择模块32)和决策模块(例如图2中的非理性模型预测意图模块35、信息交互博弈模块34)，所述获取模块用于获取第一车辆意图驶入的目标车道，所述决策模块用于：根据所述第二车辆在所述第一车辆实施变道意图表示行为之前的第一加速度，以及所述第二车辆在所述第一车辆实施所述变道意图表示行为之后的第二加速度，计算所述第二车辆在所述第一车辆变道情况下的加速度收益，所述第二车辆是所述目标车道上的车辆，且位于所述第一车辆的后方；根据所述第二车辆的所述加速度收益，求得博弈均衡解；根据所述博弈均衡解，作出所述第一车辆的变道决策。所述变道意图表示行为例如是打转向灯或在行驶车道内向所述目标车道的方向横向偏移。

如上，根据第二车辆在第一车辆实施变道意图表示行为前后的加速度来计算第二车辆的收益，计算出的该收益更接近第二车辆真实的收益，由此能够更准确地预测第二车辆的行为，更合理地作出第一车辆的变道决策，减小由于预测不确定性导致的碰撞风险。

可选地，所述决策模块根据所述第一加速度和所述第二加速度计算出侵略值，所述侵略值指示所述第二车辆的侵略性，所述侵略值越大，所述第二车俩的收益越小。所述第一加速度和所述第二加速度均在预设值以上时的所述侵略值，大于等于所述第一加速度和所述第二加速度中的一方小于预设值时的所述侵略值。

可选地，所述决策模块根据所述第一加速度、所述第二加速度以及所述第一车辆与所述第二车辆的碰撞概率，计算第二车辆的加速度收益，所述碰撞概率越小，所述第二车辆的加速度收益的绝对值越大。

可选地，当所述第二车辆不支持通信交互时，所述决策模块根据所述第一加速度和所述第二加速度，计算所述第二车辆在所述第一车辆变道情况下的加速度收益，根据该加速度收益求得博弈均衡解。当所述第二车俩支持通信交互时，所述决策模块根据所述第二车辆发送过来的未来n个时刻的意图序列的信息，计算所述第二车辆的加速度收益，选择所述第一车辆未来n个时刻的决策序列的信息，并发送给所述第二车辆，所述决策模块根据所述第二车辆多次发送的所述意图序列的信息，更新所述第二车辆的所述加速度收益，根据更新后的所述加速度收益求得所述博弈均衡解。

可选地，所述决策序列中包括第一车辆的策略E1、E2，所述意图序列中包括所述第二车辆的策略F1、F2，所述决策模块计算所述第一车辆与所述第二车辆的策略组合{E1，F1}，{E1，F2}，{E2，F1}，{E2，F2}各自出现的次数，根据该次数计算及更新所述第二车辆的加速度收益。

本申请实施例还提供一种车辆，其具有上述的变道决策装置。

本申请实施例还提供一种计算设备，包括：至少一个处理器；以及至少一个存储器，其存储有程序指令，所述至少一个处理器通过执行所述程序指令来执行上述的变道决策方法或发挥上述的变道决策装置的功能。

本申请实施例还提供一种计算机可读存储介质，其上存储有程序指令，计算机通过执行所述程序指令来执行上述变道决策方法或作为上述变道决策装置发挥功能。

本申请实施例提供的交互决策的方法技术除了用于自动变道决策之外，还可以用于辅助决策。具体地，可以结合当前整条道路的交通环境，以实现最大道路使用效率并保证安全性为目标，使用博弈论方法从全局的角度来优化道路上所有车辆的策略，并发送给这些车辆作为参考。此外，还可以应用到车辆编队行驶中，车队中的某一车辆进入或离开车队，通过博弈论方法交互决策，决定什么时候进入或离开，以多大速度和加速度离开，从而最小化对车队其他车辆的干扰。

上面叙述了本申请的实施方式，但本申请并不限定于上述实施方式，在没有脱离本申请的主旨的范围内能够进行各种变更。

Claims

1.一种变道决策方法，其特征在于，包括：

获取第一车辆意图驶入的目标车道；

根据第二车辆的第一加速度和第二加速度，计算所述第二车辆在所述第一车辆变道情况下的加速度收益，所述第二车辆是所述目标车道上的车辆，且位于所述第一车辆的后方，所述第一加速度是所述第二车辆在所述第一车辆实施变道意图表示行为之前的加速度，所述第二加速度是所述第二车辆在所述第一车辆实施所述变道意图表示行为之后的加速度；

根据所述第二车辆的所述加速度收益，求得博弈均衡解；

根据所述博弈均衡解，作出所述第一车辆的变道决策。

2.根据权利要求1所述的变道决策方法，其特征在于，

根据所述第一加速度和所述第二加速度计算出侵略值，所述侵略值指示所述第二车辆的侵略性，所述侵略值越大，所述第二车俩的所述加速度收益越小。

3.根据权利要求2所述的变道决策方法，其特征在于，

所述第一加速度和所述第二加速度均在预设值以上时的所述侵略值，大于等于所述第一加速度和所述第二加速度中的一方小于预设值时的所述侵略值。

4.根据权利要求1-3中任一项所述的变道决策方法，其特征在于，

根据所述第一加速度、所述第二加速度以及所述第一车辆与所述第二车辆的碰撞概率，计算所述第二车辆的所述加速度收益，所述碰撞概率越小，所述第二车辆的所述加速度收益的绝对值越大。

5.根据权利要求1-4中任一项所述的变道决策方法，其特征在于，

当所述第二车辆不支持通信交互时，根据所述第一加速度和所述第二加速度，计算所述第二车辆在所述第一车辆变道情况下的所述加速度收益，根据所述第二车辆的所述加速度收益，求得所述博弈均衡解。

6.根据权利要求1-5中任一项所述的变道决策方法，其特征在于，

所述第二车辆的所述加速度收益使用以下的收益函数U(a)来计算：

其中，a为所述第二车辆的加速度，w(a)为权重函数，

为值函数，

w(a)如下式所示：

如下式所示：

其中，∈为常数，λ为所述侵略值，λ如下式所示：

其中，t为所述第一车辆实施变道意图表示行为之前的时刻，a(t)为所述第一加速度，t+1为所述第一车辆实施所述变道意图表示行为之后的时刻，a(t+1)为所述第二加速度，α为大于0的常数。

7.根据权利要求5所述的变道决策方法，其特征在于，

当所述第二车俩支持通信交互时，根据所述第二车辆发送的未来n个时刻的意图序列的信息，计算所述第二车辆的所述加速度收益，选择所述第一车辆未来n个时刻的决策序列的信息，并发送给所述第二车辆，

根据所述第二车辆多次发送的所述意图序列的信息，更新所述第二车辆的所述加速度收益，根据更新后的所述加速度收益求得所述博弈均衡解。

8.根据权利要求7所述的变道决策方法，其特征在于，

所述决策序列中包括第一车辆的策略E1、E2，所述意图序列中包括所述第二车辆的策略F1、F2，

计算所述第一车辆与所述第二车辆的策略组合{E1，F1}、{E1，F2}、{E2，F1}、{E2，F2}各自出现的次数，根据该次数计算及更新所述第二车辆的所述加速度收益。

9.根据权利要求1-8中任一项所述的变道决策方法，其特征在于，

所述变道意图表示行为是打转向灯或在行驶车道内向所述目标车道的方向横向偏移。

10.一种变道决策装置，其特征在于，

具有获取模块和决策模块，

所述获取模块用于获取第一车辆意图驶入的目标车道，

所述决策模块用于：

根据所述第二车辆的所述加速度收益，求得博弈均衡解；

根据所述博弈均衡解，作出所述第一车辆的变道决策。

11.根据权利要求10所述的变道决策装置，其特征在于，

所述决策模块根据所述第一加速度和所述第二加速度计算出侵略值，所述侵略值指示所述第二车辆的侵略性，所述侵略值越大，所述第二车俩的所述加速度收益越小。

12.根据权利要求11所述的变道决策装置，其特征在于，

13.根据权利要求10-12中任一项所述的变道决策装置，其特征在于，

所述决策模块根据所述第一加速度、所述第二加速度以及所述第一车辆与所述第二车辆的碰撞概率，计算所述第二车辆的所述加速度收益，所述碰撞概率越小，所述第二车辆的所述加速度收益的绝对值越大。

14.根据权利要求10-13中任一项所述的变道决策装置，其特征在于，

当所述第二车辆不支持通信交互时，所述决策模块根据所述第一加速度和所述第二加速度，计算所述第二车辆在所述第一车辆变道情况下的所述加速度收益，根据所述第二车辆的所述加速度收益，求得所述博弈均衡解。

15.根据权利要求10-14中任一项所述的变道决策装置，其特征在于，

所述决策模块使用以下的收益函数U(a)来计算所述第二车辆的所述加速度收益：

其中，a为所述第二车辆的加速度，w(a)为权重函数，

为值函数，

w(a)如下式所示：

如下式所示：

其中，∈为常数，λ为所述侵略值，λ如下式所示：

16.根据权利要求14所述的变道决策装置，其特征在于，

当所述第二车俩支持通信交互时，所述决策模块根据所述第二车辆发送的未来n个时刻的意图序列的信息，计算所述第二车辆的所述加速度收益，选择所述第一车辆未来n个时刻的决策序列的信息，并发送给所述第二车辆，

所述决策模块根据所述第二车辆多次发送的所述意图序列的信息，更新所述第二车辆的所述加速度收益，根据更新后的所述加速度收益求得所述博弈均衡解。

17.根据权利要求16所述的变道决策装置，其特征在于，

所述决策模块计算所述第一车辆与所述第二车辆的策略组合{E1，F1}、{E1，F2}、{E2，F1}、{E2，F2}各自出现的次数，根据该次数计算及更新所述第二车辆的所述加速度收益。

18.根据权利要求10-17中任一项所述的变道决策装置，其特征在于，

19.一种车辆，其特征在于，具有权利要求10-18中任一项所述的变道决策装置。

20.一种计算设备，其特征在于，包括：

至少一个处理器；以及

至少一个存储器，其存储有程序指令，

所述至少一个处理器通过执行所述程序指令来执行权利要求1-9中任一项所述的方法。

21.一种计算机可读存储介质，其上存储有程序指令，其特征在于，计算机通过执行所述程序指令来执行权利要求1-9中任一项所述的方法。