CN113511222B

CN113511222B - 场景自适应式车辆交互行为决策与预测方法及装置

Info

Publication number: CN113511222B
Application number: CN202110997604.8A
Authority: CN
Inventors: 罗禹贡; 刘金鑫; 钟志华; 李克强; 王庭晗; 王博; 徐明畅
Original assignee: Tsinghua University
Current assignee: Tsinghua University
Priority date: 2021-08-27
Filing date: 2021-08-27
Publication date: 2023-09-26
Anticipated expiration: 2041-08-27
Also published as: CN113511222A

Abstract

本发明公开了一种场景自适应式车辆交互行为决策与预测方法及装置，其中，方法包括以下步骤：采集本车当前时刻的驾驶环境信息，并根据驾驶环境信息确定本车与目标车辆当前所处的交互阶段；根据交互阶段确定当前时刻下车辆之间的映射模型和交互模型，并根据映射模型确定本车与目标车辆在当前时刻下回报函数中的最优权重因子；根据最优权重因子和交互模型分别确定本车与目标车辆的回报函数，并结合交互阶段对应的动作空间预测本车与目标车辆下一时刻的行车动作，以确定本车当前时刻下的最佳交互动作，并基于最佳交互动作控制本车自动驾驶。该方法能够提高智能车辆对实际交通场景的判断和预测能力，使其能够进行安全、可靠、高效的驾驶行为决策。

Description

场景自适应式车辆交互行为决策与预测方法及装置

技术领域

本发明涉及自动驾驶技术领域，特别涉及一种场景自适应式车辆交互行为决策与预测方法及装置。

背景技术

由于机器学习等人工智能领域的技术飞速发展，智能车辆是汽车行业重要发展方向之一，也是未来智慧交通和智慧城市建设中的核心元素。而提高智能车辆的决策能力对提升其智能化水平起着关键的作用。

但是在现实复杂的驾驶场景中，交通参与者的行为是不确定的，时变的，且相互影响的，即存在较强的随机性、动态性和交互性。尤其在混合交通场景下，智能车辆和人类驾驶车辆并存，为了保障智能车辆的行驶安全性和稳定性，智能车辆在基于感知系统提供的信息进行行为决策时，需要同时考虑周围车辆的驾驶行为对自己行为决策的影响，以及自己的驾驶行为对周围车辆的影响。

因此，考虑车辆间行为的交互性对提高智能车辆的决策安全性至关重要。

发明内容

本发明旨在至少在一定程度上解决相关技术中的技术问题之一。

为此，本发明的一个目的在于提出一种场景自适应式车辆交互行为决策与预测方法，能够提高智能车辆对实际交通场景的判断和预测能力，使其能够进行安全、可靠、高效的驾驶行为决策。

本发明的另一个目的在于提出一种场景自适应式车辆交互行为决策与预测装置。

为达到上述目的，本发明一方面实施例提出了一种场景自适应式车辆交互行为决策与预测方法，包括以下步骤：采集本车当前时刻的驾驶环境信息，并根据所述驾驶环境信息确定本车与目标车辆当前所处的交互阶段；根据所述交互阶段确定当前时刻下车辆之间的映射模型和交互模型，并根据所述映射模型确定所述本车与所述目标车辆在当前时刻下回报函数中的最优权重因子；根据最优权重因子和所述交互模型分别确定所述本车与所述目标车辆的回报函数，并结合所述交互阶段对应的动作空间预测所述本车与所述目标车辆下一时刻的行车动作，以确定所述本车当前时刻下的最佳交互动作，并基于所述最佳交互动作控制本车自动驾驶。

本发明实施例的场景自适应式车辆交互行为决策与预测方法，基于博弈论和逆强化学习的场景自适应式车辆交互行为决策与预测，可以用于智能车辆在动态驾驶场景中做出更合理可靠的行为决策，同时对其他目标车辆做出相应的行为预测，具备较好的场景适应性和实时性，提升自动驾驶的可靠性及安全性。

另外，根据本发明上述实施例的场景自适应式车辆交互行为决策与预测方法还可以具有以下附加的技术特征：

在本发明的一个实施例中，所述驾驶环境信息包括车辆状态信息和交通规则信息，在采集本车当前时刻的驾驶环境信息之前，还包括：定义车辆驾驶行为所对应的回报函数U_i：U_i＝α_iFunc_safety+β_iFunc_efficiency，其中，i＝0，1，0代表本车，1代表目标车辆，Func_safety代表行驶安全函数，Func_efficiency代表行驶效率函数，α_i为行驶安全函数的权重因子，β_i为行驶效率函数的权重因子；根据车辆所处的运动状态、车辆状态信息和交通规则信息对所述回报函数进行修正，并利用非合作静态博弈理论构建所述交互模型，其中，所述交互模型包括交互对象集合P、动作空间A、回报函数U、混合策略解σ。

在本发明的一个实施例中，根据车辆所处的运动状态、车辆状态信息和交通规则信息对所述回报函数进行修正，包括：当车辆处于横向偏移运动状态时，根据本车与正前方车辆、目标车道前方车辆、目标车道后方车辆的碰撞风险对所述行驶安全函数进行修正，根据本车速度、正前方车辆速度和目标车道前车辆速度中的最大值对所述行驶效率函数进行修正，并结合所述交通规则信息和地形限制信息对所述回报函数进行修正，以得到偏离交互阶段的回报函数：其中，v₂₂代表本车的纵向速度，v₂₃代表自本车前方车辆的纵向速度，v₁₃代表目标车道前方车辆的纵向速度，D_{13_22}代表自车与目标车道前方车辆的相对纵向距离，D_{11_22}代表自车与目标车道后方车辆的相对纵向距离，v′₃₃代表进入本车道车辆的横向速度，D′_{33_22}代表本车与进入本车道车辆的相对横向距离；当车辆处于直行运动状态时，根据本车与正前方车辆、进入本车道车辆的碰撞风险对所述行驶安全函数进行修正，根据本车速度对所述行驶效率函数进行修正，并结合所述交通规则信息对所述回报函数进行修正，以得到直行交互阶段的回报函数：其中，v₂₃代表本车前方车辆的纵向速度，v₁₃代表目标车道前方车辆的纵向速度。

在本发明的一个实施例中，在采集本车当前时刻的驾驶环境信息之前，还包括：根据预设时刻下的驾驶环境信息得到车辆h_i和与其交互的其他车辆h_i′的驾驶状态信息，同时得到车辆h_i和与其交互的其他车辆h_i′在预设时刻下实际采取的专家动作根据当前环境下车辆所处的交互阶段，初始化回报函数对应的权重因子，确定车辆的动作空间，并计算相应的动作特征向量，根据车辆的回报函数，由车辆交互模型得到车辆取其动作空间中各个动作的概率，并计算车辆的期望特征，以分别得到车辆h_i对应的回报函数/>权重因子/>动作空间/>动作特征向量/>期望特征/>以及与车辆h_i交互的其他车辆h_i′的权重因子/>回报函数/>动作特征向量/>和期望特征/>同时得到专家动作/>和/>的动作特征向量/>和期望特征/>根据期望特征/> 和/>计算得到车辆h_i和h_i′的特征梯度向量，并根据权重因子更新公式对权重因子进行更新，得到车辆h_i和h_i′的新权重因子，且在特征梯度向量小于设定阈值时停止更新，以得到交互模型回报函数中车辆h_i和车辆h_i′的最优权重因子；基于动态贝叶斯网络建立最优权重因子与交互阶段对应的驾驶状态之间的映射模型。

在本发明的一个实施例中，所述基于动态贝叶斯网络建立最优权重因子与交互阶段之间的映射模型，包括：根据车辆处于直行交互阶段与偏移交互阶段对应的驾驶状态信息，得到在时刻1∶t范围内交互车辆h_i和h_i′在不同驾驶状态下所对应的各自交互模型中回报函数的最优权重因子/>根据多个不同时刻下的时序数据DT^1∶t，利用映射模型的参数学习，得到匹配当前时序数据的最佳映射模型参数ξ，基于模型学习后的参数ξ进行概率推理，得到时刻k所对应的最优权重因子；建立最优权重因子与交互阶段对应的驾驶状态之间的映射关系，并根据所述映射关系分别建立所述直行交互阶段与所述偏移交互阶段对应的映射模型。

为达到上述目的，本发明另一方面实施例提出了一种场景自适应式车辆交互行为决策与预测装置，包括：采集模块，用于采集本车当前时刻的驾驶环境信息，并根据所述驾驶环境信息确定本车与目标车辆当前所处的交互阶段；确定模块，用于根据所述交互阶段确定当前时刻下车辆之间的映射模型和交互模型，并根据所述映射模型确定所述本车与所述目标车辆在当前时刻下回报函数中的最优权重因子；预测模块，用于根据最优权重因子和所述交互模型分别确定所述本车与所述目标车辆的回报函数，并结合所述交互阶段对应的动作空间预测所述本车与所述目标车辆下一时刻的行车动作，以确定所述本车当前时刻下的最佳交互动作，并基于所述最佳交互动作控制本车自动驾驶。

本发明实施例的场景自适应式车辆交互行为决策与预测装置，基于博弈论和逆强化学习的场景自适应式车辆交互行为决策与预测，可以用于智能车辆在动态驾驶场景中做出更合理可靠的行为决策，同时对其他目标车辆做出相应的行为预测，具备较好的场景适应性和实时性，提升自动驾驶的可靠性及安全性。

另外，根据本发明上述实施例的场景自适应式车辆交互行为决策与预测装置还可以具有以下附加的技术特征：

在本发明的一个实施例中，所述驾驶环境信息包括车辆状态信息和交通规则信息，还包括：模型构建模块，用于在采集本车当前时刻的驾驶环境信息之前，定义车辆驾驶行为所对应的回报函数U_i：

U_i＝α_iFunc_safety+β_iFunce_fficiency，其中，i＝0，1，0代表本车，1代表目标车辆，Func_safety代表行驶安全函数，Func_efficiency代表行驶效率函数，α_i为行驶安全函数的权重因子，β_i为行驶效率函数的权重因子；根据车辆所处的运动状态、车辆状态信息和交通规则信息对所述回报函数进行修正，并利用非合作静态博弈理论构建所述交互模型，其中，所述交互模型包括交互对象集合P、动作空间A、回报函数U、混合策略解σ。

在本发明的一个实施例中，所述模型构建模块进一步用于：当车辆处于横向偏移运动状态时，根据本车与正前方车辆、目标车道前方车辆、目标车道后方车辆的碰撞风险对所述行驶安全函数进行修正，根据本车速度、正前方车辆速度和目标车道前车辆速度中的最大值对所述行驶效率函数进行修正，并结合所述交通规则信息和地形限制信息对所述回报函数进行修正，以得到偏离交互阶段的回报函数：其中，v₂₂代表本车的纵向速度，v₂₃代表自本车前方车辆的纵向速度，v₁₃代表目标车道前方车辆的纵向速厦，D_{13_22}代表自车与目标车道前方车辆的相对纵向距离，D_{11_22}代表自车与目标车道后方车辆的相对纵向距离，v′₃₃代表进入本车道车辆的横向速度，D′_{33_22}代表本车与进入本车道车辆的相对横向距离；当车辆处于直行运动状态时，根据本车与正前方车辆、进入本车道车辆的碰撞风险对所述行驶安全函数进行修正，根据本车速度对所述行驶效率函数进行修正，并结合所述交通规则信息对所述回报函数进行修正，以得到直行交互阶段的回报函数：其中，v₂₃代表本车前方车辆的纵向速度，v₁₃代表目标车道前方车辆的纵向速度。

在本发明的一个实施例中，还包括：离线学习模块，用于在采集本车当前时刻的驾驶环境信息之前，根据预设时刻下的驾驶环境信息得到车辆h_i和与其交互的其他车辆h_i′的驾驶状态信息，同时得到车辆h_i和与其交互的其他车辆h_i′在预设时刻下实际采取的专家动作根据当前环境下车辆所处的交互阶段，初始化回报函数对应的权重因子，确定车辆的动作空间，并计算相应的动作特征向量，根据车辆的回报函数，由车辆交互模型得到车辆取其动作空间中各个动作的概率，并计算车辆的期望特征，以分别得到车辆h_i对应的回报函数/>权重因子/>动作空间/>动作特征向量/>期望特征/>以及与车辆h_i交互的其他车辆h_i′的权重因子/>回报函数/>动作特征向量/>和期望特征/>同时得到专家动作/>和/>的动作特征向量/>和期望特征/>根据期望特征/>和/>计算得到车辆h_i和h_i′的特征梯度向量，并根据权重因子更新公式对权重因子进行更新，得到车辆h_i和h_i′的新权重因子，且在特征梯度向量小于设定阈值时停止更新，以得到交互模型回报函数中车辆h_i和车辆h_i′的最优权重因子；基于动态贝叶斯网络建立最优权重因子与交互阶段对应的驾驶状态之间的映射模型。

在本发明的一个实施例中，所述离线学习模块进一步用于：根据车辆处于直行交互阶段与偏移交互阶段对应的驾驶状态信息，得到在时刻1∶t范围内交互车辆h_i和h_i′在不同驾驶状态下所对应的各自交互模型中回报函数的最优权重因子根据多个不同时刻下的时序数据DT^1∶t，利用映射模型的参数学习，得到匹配当前时序数据的最佳映射模型参数ξ，基于模型学习后的参数ξ进行概率推理，得到时刻k所对应的最优权重因子；建立最优权重因子与交互阶段对应的驾驶状态之间的映射关系，并根据所述映射关系分别建立所述直行交互阶段与所述偏移交互阶段对应的映射模型。

本发明附加的方面和优点将在下面的描述中部分给出，部分将从下面的描述中变得明显，或通过本发明的实践了解到。

附图说明

本发明上述的和/或附加的方面和优点从下面结合附图对实施例的描述中将变得明显和容易理解，其中：

图1为根据本发明实施例的场景自适应式车辆交互行为决策与预测方法的流程图；

图2为根据本发明具体实施例的场景自适应式车辆交互行为决策与预测方法的流程图；

图3为根据本发明实施例的场景自适应式车辆交互行为决策与预测方法的框架图；

图4为根据本发明实施例的高速场景下交互车辆驾驶环境的示意图；

图5为根据本发明实施例的用于分析目标车辆周围驾驶环境的示意图；

图6为根据本发明实施例的基于逆强化学习的权重因子优化流程图；

图7为根据本发明实施例的基于动态贝叶斯网络的映射模型示意图；

图8为根据本发明实施例的场景自适应式车辆交互行为决策与预测装置的方框示意图。

具体实施方式

下面详细描述本发明的实施例，所述实施例的示例在附图中示出，其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的，旨在用于解释本发明，而不能理解为对本发明的限制。

本发明是发明人基于对于以下问题和认知做出的：

目前对车辆交互行为的研究主要的方法有基于深度学习的方法、基于概率图模型的方法和基于博弈论的方法。基于深度学习的方法主要是利用深度神经网络进行建模，具有强大的拟合能力，但是难以处理行为不确定性和引入交通规则的约束信息；基于概率图模型的方法主要利用动态贝叶斯网络进行建模，能够处理行为不确定性，且能够对多个时变变量间的因果关系进行概率表达，但是难以处理车辆行为间的双向交互问题；基于博弈论的方法主要利用博弈模型来处理车辆行为间的双向交互问题，但是模型的参数确定困难。

由于车辆的驾驶行为本身具有不确定性，且车辆间的行为是互相影响的，因此基于博弈论的车辆交互行为建模方法比较适用，但是目前基于博弈论开发的模型，其参数是不变的，无法适用于实际动态变化的驾驶场景。因此，有必要开发场景自适应式车辆交互行为决策与预测方法。

下面参照附图描述根据本发明实施例提出的场景自适应式车辆交互行为决策与预测方法及装置，首先将参照附图描述根据本发明实施例提出的场景自适应式车辆交互行为决策与预测方法。

图1是本发明一个实施例的场景自适应式车辆交互行为决策与预测方法的流程图。

如图1所示，该场景自适应式车辆交互行为决策与预测方法包括以下步骤：

在步骤S101中，采集本车当前时刻的驾驶环境信息，并根据驾驶环境信息确定本车与目标车辆当前所处的交互阶段。

其中，本车是指可以实现自动驾驶功能的智能车辆；驾驶环境信息可以包括车辆状态信息和交通规则信息；交互阶段可以包括直行交互阶段与偏移交互阶段。

可以理解的是，本发明实施例可以在智能车辆实际行驶过程中，根据当前时刻下的驾驶环境信息，提取车辆间的行驶状态信息，以确定当前所处的交互阶段。

在步骤S102中，根据交互阶段确定当前时刻下车辆之间的映射模型和交互模型，并根据映射模型确定本车与目标车辆在当前时刻下回报函数中的最优权重因子。

其中，交互模型可以输出下一时刻智能车辆的行为决策结果，以及下一时刻其他目标车辆的行为预测结果；映射模型可以反映不同时刻下车辆间的行驶状态信息与相应的权重因子之间的映射关系。

可以理解的是，本发明实施例可以环境信息的提取之后确定权重因子，具体地：根据智能车辆h₀和与其交互的目标车辆h₁处于不用的交互阶段，分别确定当前t时刻下各自已知的驾驶状态信息和/>并根据车辆所处的交互阶段确定相应的映射模型M，从而得到智能车辆h₀和目标车辆h₁在当前时刻t下的最优权重因子向量/>和/>

在步骤S103中，根据最优权重因子和交互模型分别确定本车与目标车辆的回报函数，并结合交互阶段对应的动作空间预测本车与目标车辆下一时刻的行车动作，以确定本车当前时刻下的最佳交互动作，并基于最佳交互动作控制本车自动驾驶。

可以理解的是，在确定最优权重因子之后，本发明实施例可以利用映射模型和交互模型对车辆行为进行预测与决策，具体地：

(1)根据步骤S102得到的最优权重因子向量和/>利用交互模型确定智能车辆h₀和目标车辆h₁的回报函数/>和/>结合车辆处于的交互阶段确定车辆的动作空间/>和/>每个动作空间包含了车辆可能的各种驾驶行为，即/>其中，s_j为某一种驾驶行为。

(2)基于行为交互模型的求解方法，得到智能车辆h₀和目标车辆h₁在当前时刻t下的混合策略和/>它们代表了车辆取各个可能驾驶行为的概率，即/>

(3)基于车辆混合策略进行智能车辆自身的行为决策，取智能车辆混合策略的最大值，即选取当前时刻下可能的驾驶行为中概率最大的作为智能车辆当前的行为决策结果；同样的，在进行与智能车辆交互的其他目标车辆的行为预测时，也选取目标车辆混合策略的最大值：

因此，最终可以得到当前时刻下智能车辆应该采取的最佳交互行为动作并预测目标车辆对应的交互行为动作/>

需要说明的是，交互模型的求解方法及车辆混合策略将在以下实施例中进行阐述。

下面将结合附图2和3对场景自适应式车辆交互行为决策与预测方法进行具体阐述，该实施例中主要阐述模型构建和离线学习的具体过程，具体包括：

步骤S1，模型构建。首先基于当前时刻下的驾驶环境信息，包括车辆状态信息和交通规则信息，设计考虑驾驶安全性和效率的回报函数，同时引入交通规则的约束条件以保证结果的合理性；接着，利用非合作静态博弈理论构建当前时刻下的车辆行为交互模型；其中，交互模型可以输出下一时刻智能车辆的行为决策结果，以及下一时刻其他目标车辆的行为预测结果。

具体而言，步骤S1.1，回报函数的设计。当车辆间存在交互关系时，如图4所示，智能车辆在直行过程中，右前方目标车辆产生左换道驾驶意图时，智能车辆与右前方目标车辆存在较强的冲突关系，此时智能车辆与右前方车辆存在先后通行权的争夺，但是车辆的实际驾驶行为会考虑车辆行驶的安全性和效率，因此这里从行驶安全性和效率出发，设计车辆驾驶行为所对应的回报函数U_i：

U_i＝α_iFunc_safety+β_iFunc_efficiency

其中，α_i为行驶安全函数的权重因子，β_i为行驶效率函数的权重因子，i＝0，1，0代表智能车辆，1代表目标车辆。Func_safety代表行驶安全函数；Func_efficiency代表行驶效率函数。

针对高速直行场景，首先定义从当前时刻下的驾驶环境中所获得车辆状态信息包括车辆的纵向位置x、横向位置y、纵向速度v_x和纵向加速度a_x，获得的交通规则包括车辆的限制速度v_max和车道线的虚实情况。如图5所示，将研究对象定位成中心车辆h₂₂，其周围可能存在8个不同位置的其他车辆，从而形成周车分布矩阵H＝[h₁₁h₁₂h₁₃；h₂₁h₂₂h₂₃；h₃₁h₃₂h₃₃]。

如图4所示，智能车辆在向前行驶过程中，主要考虑前方对自己最有潜在冲突风险的车辆当作目标车辆，由于造成冲突风险主要是智能车辆和目标车辆两者的驾驶行为造成的，因此需要根据不同的驾驶行为设计车辆的回报函数。

当车辆有横向偏移运动时，若左换道或者右换道，此时可能会对目标车道(车辆偏移方向的车道)的后方车辆或旁车造成冲突，这种情况设计的回报函数主要包括：(1)行驶安全行函数主要考虑自车与正前方车辆、目标车道前方车辆、目标车道后方车辆的综合碰撞风险；(2)行驶效率函数主要考虑自己可获得的行驶速度，取自车速度、正前方车辆速度和目标车道前车速度的最大值；(3)结合交通规则和地形限制，对回报函数进行修正。假设有横向偏移的车辆为h₂₂，则车辆的行驶安全函数Func_safety和行驶效率函数Func_efficiency设计为：

Func_efficiency＝max{v₂₂，v₂₃，v₁₃}

其中，v₂₂代表自车h₂₂的纵向速度，v₂₃代表自车正前方车辆的纵向速度，v₁₃代表目标车道前方车辆的纵向速度，这里的纵向速度均为车辆采取某一纵向驾驶行为后预期速度；D_{23_22}代表自车与正前方车辆h₂₃的相对纵向距离，D_{13_22}代表自车与目标车道前方车辆h₁₃的相对纵向距离，D_{11_22}代表自车与目标车道后方车辆h₁₁的相对纵向距离，即D_{23_22}＝x₂₃-x₂₂，D_{13_22}＝x₁₃-x₂₂，D_{11_22}＝x₂₂-x₁₁。

需要说明的是，车辆{h₂₃，h₁₃，h₁₁}可能有不存在的情形，这里使用一个虚拟车辆代替，虚拟车辆与自车h₂₂的纵向相对距离设为视距值D_max，虚拟车辆的速度设为v_max。

接着，根据交通规则和地形约束对回报函数进行修正，当车辆的可获得的预期行驶速度超过当前场景下的最高限制速度v_max时，Func_efficiency＝v_max；当目标车道存在旁车时，车辆偏移运动会产生较大的碰撞风险，这里设置一个行驶安全性最低阈值∈，此时Func_safety＝∈；当车辆当前行驶的车道的车道线为长实线时，此时车辆偏移到目标车道的回报函数设为∈；当车辆当前行驶的车道为最左侧或者最右侧车道时，此时车辆向左或向右偏移到目标车道的回报函数设为∈。

当车辆处于直行状态且有其他车辆侵入本车道时，此时车辆设计的回报函数主要包括：(1)行驶安全行函数主要考虑自车与正前方车辆、侵入本车道的车辆的综合碰撞风险；(2)行驶效率函数主要考虑自车的速度；(3)结合交通规则，对回报函数进行修正。假设直行车辆为h₂₂，侵入本车道的车辆为h₃₃，则车辆的行驶安全函数Func_safety和行驶效率函数Func_efficiency设计为：

Func_efficiency＝v₂₂，

其中，v′₃₃代表侵入本车道车辆的横向速度；D_{33_22}代表自车与侵入本车道车辆的相对纵向距离，即D_{33_22}＝x₃₃-x₂₂，D′_{33_22}代表自车与侵入本车道车辆的相对横向距离，即D′_{33_22}＝y₃₃-y₂₂。

接着，根据交通规则对回报函数进行修正，当车辆的可获得的预期行驶速度超过当前场景下的最高限制速度v_max时，Func_efficiency＝v_max。

步骤S1.2，基于博弈论的行为交互模型。根据步骤S1.1建立的回报函数，利用非合作静态博弈理论构建当前时刻t下的车辆行为交互模型。该模型主要有四个要素组成：交互对象集合P、动作空间A、回报函数U、混合策略解σ。

首先，确定实际参与交互的车辆集合P，在图4中，P＝{h₀，h₁}，其中h₀代表智能车辆，h₁代表目标车辆；接着，确定交互车辆的行为动作空间A，需结合在实际场景下车辆可能的交互行为来确定A，由于车辆的交互过程体现为对先后通行权的争抢，车辆主要有直行和偏移两类运动方式，因此车辆间的交互行为主要分为两个交互阶段：直行交互阶段和偏移交互阶段。图4所示的高速场景中，针对车辆的直行行为，其动态空间A＝[s_del，s_con，s_acl]，分别代表直行减速、直行速度不变和直行加速，针对向目标车辆横向偏移的车辆，其动作空间A＝[s_ll，s_lk，s_lr]，分别代表向目标车道左偏移、当前车道直行和向目标车道右偏移。

然后，根据设定的动作空间，引入回报函数，步骤S1.1已对直行车辆和偏移车辆的回报函数进行了设计，需要指出的是，针对动态空间A＝[s_del，s_con，s_acl]，回报函数中车辆的纵向速度是车辆采取特定动作后的预期速度，即v＝v_t+Δv，其中v_t为车辆当前时刻t下的速度，Δv为车辆在未来Δt时刻内的速度变化量，在动作s_del下，Δv为负值；在动作s_con下，Δv＝0；在动作s_acl下，Δv为正值。针对直行交互阶段的回报函数为：

针对偏离交互阶段的回报函数为：

这里设Θ_i＝[α_i1，α_i2，α_i3，β_i]为车辆i的回报函数所对应的权重因子向量。当然上述的回报函数也会根据交通规则和地形限制的约束作出相应的调整。

最后，根据上述三个要素，即可得到基于非合作静态博弈理论的交互模型，然后进行模型的求解，该模型的解称为混合策略，它表达了车辆采取动作空间A中的每个元素的概率。这里主要将模型求解问题转化为非线性规划问题，设车辆h_i的混合策略为其中/>代表车辆h_i采取其动作空间A_i中第k个元素的概率，则可以得到如下的数学规划问题：

其中，代表σ_i的转置；v_i表示交互车辆i在混合策略下的期望回报，且/>

步骤S2，离线学习。根据已知的不同时刻下的驾驶环境信息，利用步骤S1中的交互模型，基于逆强化学习理论进行权重优化，即优化不同时刻下回报函数中的权重因子。接着，基于动态贝叶斯网络，得到不同时刻下车辆间的行驶状态信息与相应的权重因子之间的映射模型。

步骤S2.1，基于逆强化学习的权重优化。具体流程如图6所示，首先根据预设时刻，比如特定时刻t下的驾驶环境信息得到车辆h_i和与其交互的其他车辆h_i′的驾驶状态信息/>主要包括自身车辆与其有冲突关系的其他车辆的相对距离和相对车速，同时得到车辆h_i和与其交互的其他车辆h_i′在t实际采取的动作/>它们也称专家动作。

然后，根据当前环境下车辆h_i所处的交互阶段，初始化其回报函数对应的权重因子向量/>确定车辆的动作空间/>并计算相应的动作特征向量/>向量/>中的每一个元素代表当车辆采取动作空间/>中某一动作时回报函数/>中各个分量的值，如针对图4中偏离交互阶段的车辆h_i，其动作特征向量为：

接着，根据车辆h_i的回报函数由车辆交互模型得到车辆h_i取其动作空间/>中各个动作的概率，即混合策略/>从而计算车辆h_i的期望特征/>

同样的，可以得到与车辆h_i交互的其他车辆h_i′的初始化参数回报函数/>动作特征向量/>和期望特征/>同时也可以得到专家动作/>和/>下的动作特征向量/>和期望特征/>

最后，根据所计算的期望特征分别得到车辆h_i和h_i′的特征梯度向量：

利用上式得到的特征梯度向量和/>和下式权重因子更新公式，来得到车辆h_i和h_i′新的权重因子：

如此循环上述环节，当某一步的特征梯度向量小于设定的阈值时，更新结束，将最终优化得到的权重因子和/>作为当前时刻t下交互模型回报函数中的车辆h_i和车辆h_i′的最优权重因子。

步骤S2.2，基于动态贝叶斯网络的映射模型。基于步骤S2.1的优化算法，可以进一步得到在已知的不同时刻1∶t下车辆h_i和与其交互的其他车辆h_i′的驾驶状态信息以及车辆h_i和车辆h_i′在交互模型回报函数中的最优权重因子向量/>和/>关于驾驶状态信息可以分为两种情况，若车辆处于直行交互阶段，则驾驶状态信息E＝{O₁，O₂，O₃}分别对应三类信息：自车与正前方车辆的相对纵向距离和相对纵向车速、自车与侵入本车道车辆的相对纵向距离和相对纵向车速、自车与侵入本车道车辆的相对横向距离和相对横向车速；若车辆处于偏移交互阶段，则驾驶状态信息E＝{O₁，O₂，O₃}也分别对应三类信息：自车与正前方车辆的相对纵向距离和相对纵向车速、自车与目标车道前方车辆的相对纵向距离和相对纵向车速、自车与目标车道后方车辆的相对纵向距离和相对纵向车速。

从而，可以得到在时刻1∶t范围内，交互车辆h_i和h_i′在不同驾驶状态下所对应的各自交互模型中回报函数的最优权重因子向量为了建立其映射关系，考虑到这是一个时序数据的拟合问题，因此这里基于动态贝叶斯网络建立映射模型M，模型M中的隐变量为回报函数权重因子向量Θ＝{Θ_i，Θ_i′}，观测变量为驾驶状态信息E＝{O₁，0₂，O₃}。所建立的映射模型的网络结构如图7所示，图中给出了从时刻t＝1到时刻t＝2的网络结构图，关于时刻t-1到时刻t之间的图结构与之一样。

根据获得的多个不同时刻下的时序数据DT^1∶t，即多个驾驶状态和权重因子向量的匹配对可以用于映射模型的参数学习，得到匹配当前时序数据的最佳映射模型参数ξ，从而当把一段时刻内的驾驶状态信息/>输入到映射模型中时，基于模型学习后的参数ξ进行概率推理，得到当前时刻k所对应的最优权重因子向量，即：/>

由于不同的交互阶段下驾驶状态信息不同，因此最终可以分别得到两个交互阶段下的映射模型M＝{M_one，M_two}。

步骤S3，将步骤S2中离线建立的映射模型在线使用。智能车辆在实际行驶过程中，根据当前时刻下的驾驶环境信息，提取车辆间的驾驶状态信息，利用步骤S2中的映射模型确定当前时刻下回报函数中的权重因子，进而根据步骤S1中的交互模型，得到下一时刻智能车辆的行为决策结果，以及下一时刻其他目标车辆的行为预测结果。

需要说明的是，关于步骤S3的解释可以参见上述实施例中步骤S101至步骤S103的解释，为避免冗余，不再赘述。

综上，本发明实施例至少具有如下有益效果：

1、本发明提出的综合框架提供了一种场景自适应式车辆交互行为决策与预测方法，能够基于博弈理论分析影响车辆行为的多个因素，从而将动态驾驶场景中车辆间行为的交互性进行数学建模；

2、本发明提出的场景自适应式车辆交互行为决策与预测方法，能够基于逆强化学习理论，得到场景动态变化情况下车辆间行为交互性的动态变化规律，为实现动态交互性建模奠定基础；

3、本发明提出的场景自适应式车辆交互行为决策与预测方法，能够在真实驾驶环境中，使智能车辆不断的根据实时交通环境判断其他车辆的行为，同时调整自己的驾驶行为。对于智能车辆的实时场景理解、合理规划控制和安全高效行驶具有一定应用价值。也为道路交通参与者的行为交互领域提供一种新的思路。

根据本发明实施例提出的场景自适应式车辆交互行为决策与预测方法，基于博弈论和逆强化学习的场景自适应式车辆交互行为决策与预测，可以用于智能车辆在动态驾驶场景中做出更合理可靠的行为决策，同时对其他目标车辆做出相应的行为预测，具备较好的场景适应性和实时性，提升自动驾驶的可靠性及安全性。

其次参照附图描述根据本发明实施例提出的场景自适应式车辆交互行为决策与预测装置。

图8是本发明一个实施例的场景自适应式车辆交互行为决策与预测装置的方框示意图。

如图8所示，该场景自适应式车辆交互行为决策与预测装置10包括：采集模块100、确定模块200和预测模块300。

其中，采集模块100用于采集本车当前时刻的驾驶环境信息，并根据驾驶环境信息确定本车与目标车辆当前所处的交互阶段；确定模块200用于根据交互阶段确定当前时刻下车辆之间的映射模型和交互模型，并根据映射模型确定本车与目标车辆在当前时刻下回报函数中的最优权重因子；预测模块300用于根据最优权重因子和交互模型分别确定本车与目标车辆的回报函数，并结合交互阶段对应的动作空间预测本车与目标车辆下一时刻的行车动作，以确定本车当前时刻下的最佳交互动作，并基于最佳交互动作控制本车自动驾驶。

在本发明的一个实施例中，驾驶环境信息包括车辆状态信息和交通规则信息，还包括：模型构建模块，用于在采集本车当前时刻的驾驶环境信息之前，定义车辆驾驶行为所对应的回报函数U_i：

U_i＝α_iFunc_safety+β_iFunc_efficiency，其中，i＝0，1，0代表本车，1代表目标车辆，Func_safety代表行驶安全函数，Func_efficiency代表行驶效率函数，α_i为行驶安全函数的权重因子，β_i为行驶效率函数的权重因子；根据车辆所处的运动状态、车辆状态信息和交通规则信息对回报函数进行修正，并利用非合作静态博弈理论构建交互模型，其中，交互模型包括交互对象集合P、动作空间A、回报函数U、混合策略解σ。

在本发明的一个实施例中，模型构建模块进一步用于：当车辆处于横向偏移运动状态时，根据本车与正前方车辆、目标车道前方车辆、目标车道后方车辆的碰撞风险对行驶安全函数进行修正，根据本车速度、正前方车辆速度和目标车道前车辆速度中的最大值对行驶效率函数进行修正，并结合交通规则信息和地形限制信息对回报函数进行修正，以得到偏离交互阶段的回报函数：其中，v₂₂代表本车的纵向速度，v₂₃代表自本车前方车辆的纵向速度，v₁₃代表目标车道前方车辆的纵向速度，D_{13_22}代表自车与目标车道前方车辆的相对纵向距离，D_{11_22}代表自车与目标车道后方车辆的相对纵向距离，v′₃₃代表进入本车道车辆的横向速度，D′_{33_22}代表本车与进入本车道车辆的相对横向距离；当车辆处于直行运动状态时，根据本车与正前方车辆、进入本车道车辆的碰撞风险对行驶安全函数进行修正，根据本车速度对行驶效率函数进行修正，并结合交通规则信息对回报函数进行修正，以得到直行交互阶段的回报函数：

其中，v₂₃代表本车前方车辆的纵向速度，v₁₃代表目标车道前方车辆的纵向速度。

在本发明的一个实施例中，离线学习模块进一步用于：根据车辆处于直行交互阶段与偏移交互阶段对应的驾驶状态信息，得到在时刻1∶t范围内交互车辆h_i和h_i′在不同驾驶状态下所对应的各自交互模型中回报函数的最优权重因子/>根据多个不同时刻下的时序数据DT^1∶t，利用映射模型的参数学习，得到匹配当前时序数据的最佳映射模型参数ξ，基于模型学习后的参数ξ进行概率推理，得到时刻k所对应的最优权重因子；建立最优权重因子与交互阶段对应的驾驶状态之间的映射关系，并根据映射关系分别建立直行交互阶段与偏移交互阶段对应的映射模型。

需要说明的是，前述对场景自适应式车辆交互行为决策与预测方法实施例的解释说明也适用于该实施例的场景自适应式车辆交互行为决策与预测装置，此处不再赘述。

根据本发明实施例提出的场景自适应式车辆交互行为决策与预测装置，基于博弈论和逆强化学习的场景自适应式车辆交互行为决策与预测，可以用于智能车辆在动态驾驶场景中做出更合理可靠的行为决策，同时对其他目标车辆做出相应的行为预测，具备较好的场景适应性和实时性，提升自动驾驶的可靠性及安全性。

此外，术语“第一”、“第二”仅用于描述目的，而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此，限定有“第一”、“第二”的特征可以明示或者隐含地包括至少一个该特征。在本发明的描述中，“多个”的含义是至少两个，例如两个，三个等，除非另有明确具体的限定。

在本说明书的描述中，参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中，对上述术语的示意性表述不是必须针对的是相同的实施例或示例。而且，描述的具体特征、结构、材料或者特点可以在任一个或多个实施例或示例中以合适的方式结合。此外，在不相互矛盾的情况下，本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。

尽管上面已经示出和描述了本发明的实施例，可以理解的是，上述实施例是示例性的，不能理解为对本发明的限制，本领域的普通技术人员在本发明的范围内可以对上述实施例进行变化、修改、替换和变型。

Claims

1.一种场景自适应式车辆交互行为决策与预测方法，其特征在于，包括以下步骤：

采集本车当前时刻的驾驶环境信息，并根据所述驾驶环境信息确定本车与目标车辆当前所处的交互阶段；

根据所述交互阶段确定当前时刻下车辆之间的映射模型和交互模型，并根据所述映射模型确定所述本车与所述目标车辆在当前时刻下回报函数中的最优权重因子；以及

根据最优权重因子和所述交互模型分别确定所述本车与所述目标车辆的回报函数，并结合所述交互阶段对应的动作空间预测所述本车与所述目标车辆下一时刻的行车动作，以确定所述本车当前时刻下的最佳交互动作，并基于所述最佳交互动作控制本车自动驾驶；

所述驾驶环境信息包括车辆状态信息和交通规则信息，在采集本车当前时刻的驾驶环境信息之前，还包括：

定义车辆驾驶行为所对应的回报函数U_i：

U_i＝α_iFunc_safety+β_iFunc_efficiency，

其中，i＝0,1，0代表本车，1代表目标车辆，Func_safety代表行驶安全函数，Func_efficiency代表行驶效率函数，α_i为行驶安全函数的权重因子，β_i为行驶效率函数的权重因子；

根据车辆所处的运动状态、车辆状态信息和交通规则信息对所述回报函数进行修正，并利用非合作静态博弈理论构建所述交互模型，其中，所述交互模型包括交互对象集合P、动作空间A、回报函数U、混合策略解σ；

根据车辆所处的运动状态、车辆状态信息和交通规则信息对所述回报函数进行修正，包括：

当车辆处于横向偏移运动状态时，根据本车与正前方车辆、目标车道前方车辆、目标车道后方车辆的碰撞风险对所述行驶安全函数进行修正，根据本车速度、正前方车辆速度和目标车道前车辆速度中的最大值对所述行驶效率函数进行修正，并结合所述交通规则信息和地形限制信息对所述回报函数进行修正，以得到偏离交互阶段的回报函数：

其中，α_i1,α_i2,α_i3,β_i表示车辆i的回报函数所对应的权重因子，D_{23_22}表示自车与正前方车辆的相对纵向距离,D_{33_22}代表自车与侵入本车道车辆的相对纵向距离,v₂₂代表本车的纵向速度，v′₃₃代表进入本车道车辆的横向速度，D′_{33_22}代表本车与进入本车道车辆的相对横向距离；

当车辆处于直行运动状态时，根据本车与正前方车辆、进入本车道车辆的碰撞风险对所述行驶安全函数进行修正，根据本车速度对所述行驶效率函数进行修正，并结合所述交通规则信息对所述回报函数进行修正，以得到直行交互阶段的回报函数：

其中，D_{13_22}代表自车与目标车道前方车辆的相对纵向距离，D_{11_22}代表自车与目标车道后方车辆的相对纵向距离,v₂₃代表本车前方车辆的纵向速度,v₁₃代表目标车道前方车辆的纵向速度。

2.根据权利要求1所述的方法，其特征在于，在采集本车当前时刻的驾驶环境信息之前，还包括：

根据预设时刻下的驾驶环境信息得到车辆h_i和与其交互的其他车辆h_i′的驾驶状态信息，同时得到车辆h_i和与其交互的其他车辆h_i′在预设时刻下实际采取的专家动作

根据当前环境下车辆所处的交互阶段，初始化回报函数对应的权重因子，确定车辆的动作空间，并计算相应的动作特征向量，根据车辆的回报函数，由车辆交互模型得到车辆取其动作空间中各个动作的概率，并计算车辆的期望特征，以分别得到车辆h_i对应的回报函数权重因子/>动作空间/>动作特征向量/>期望特征/>以及与车辆h_i交互的其他车辆h_i′的权重因子/>回报函数/>动作特征向量/>和期望特征/>同时得到专家动作/>和/>的动作特征向量/>和期望特征/>

根据期望特征和/>计算得到车辆h_i和h_i′的特征梯度向量，并根据权重因子更新公式对权重因子进行更新，得到车辆h_i和h_i′的新权重因子，且在特征梯度向量小于设定阈值时停止更新，以得到交互模型回报函数中车辆h_i和车辆h_i′的最优权重因子；

基于动态贝叶斯网络建立最优权重因子与交互阶段对应的驾驶状态之间的映射模型。

3.根据权利要求2所述的方法，其特征在于，所述基于动态贝叶斯网络建立最优权重因子与交互阶段之间的映射模型，包括：

根据车辆处于直行交互阶段与偏移交互阶段对应的驾驶状态信息，得到在时刻1:t范围内交互车辆h_i和h_i′在不同驾驶状态下所对应的各自交互模型中回报函数的最优权重因子/>若车辆处于直行交互阶段，则驾驶状态信息E＝{O₁,O₂,O₃}分别对应三类信息：自车与正前方车辆的相对纵向距离和相对纵向车速、自车与侵入本车道车辆的相对纵向距离和相对纵向车速、自车与侵入本车道车辆的相对横向距离和相对横向车速；若车辆处于偏移交互阶段，则驾驶状态信息E＝{O₁,O₂,O₃}也分别对应三类信息：自车与正前方车辆的相对纵向距离和相对纵向车速、自车与目标车道前方车辆的相对纵向距离和相对纵向车速、自车与目标车道后方车辆的相对纵向距离和相对纵向车速；

根据多个不同时刻下的时序数据DT^1:t，利用映射模型的参数学习，得到匹配当前时序数据的最佳映射模型参数ξ，基于模型学习后的参数ξ进行概率推理，得到时刻k所对应的最优权重因子；

建立最优权重因子与交互阶段对应的驾驶状态之间的映射关系，并根据所述映射关系分别建立所述直行交互阶段与所述偏移交互阶段对应的映射模型。

4.一种场景自适应式车辆交互行为决策与预测装置，其特征在于，包括：

采集模块，用于采集本车当前时刻的驾驶环境信息，并根据所述驾驶环境信息确定本车与目标车辆当前所处的交互阶段；

确定模块，用于根据所述交互阶段确定当前时刻下车辆之间的映射模型和交互模型，并根据所述映射模型确定所述本车与所述目标车辆在当前时刻下回报函数中的最优权重因子；以及

预测模块，用于根据最优权重因子和所述交互模型分别确定所述本车与所述目标车辆的回报函数，并结合所述交互阶段对应的动作空间预测所述本车与所述目标车辆下一时刻的行车动作，以确定所述本车当前时刻下的最佳交互动作，并基于所述最佳交互动作控制本车自动驾驶；

所述驾驶环境信息包括车辆状态信息和交通规则信息，还包括：

模型构建模块，用于在采集本车当前时刻的驾驶环境信息之前，定义车辆驾驶行为所对应的回报函数U_i：

U_i＝α_iFunc_safety+β_iFunc_efficiency

所述模型构建模块进一步用于：

5.根据权利要求4所述的装置，其特征在于，还包括：

离线学习模块，用于在采集本车当前时刻的驾驶环境信息之前，根据预设时刻下的驾驶环境信息得到车辆h_i和与其交互的其他车辆h_i′的驾驶状态信息，同时得到车辆h_i和与其交互的其他车辆h_i′在预设时刻下实际采取的专家动作

6.根据权利要求5所述的装置，其特征在于，所述离线学习模块进一步用于：