CN114872727A

CN114872727A - 一种应用于自动驾驶车辆的周围车辆轨迹预测方法

Info

Publication number: CN114872727A
Application number: CN202210377026.2A
Authority: CN
Inventors: 黄飞; 周广利; 金海兵; 高航; 王随原; 刘声树; 王志文; 鞠志成; 周导源; 郑雨; 刘海岩; 刘文斌
Original assignee: China Road and Bridge Corp
Current assignee: China Road and Bridge Corp
Priority date: 2022-04-11
Filing date: 2022-04-11
Publication date: 2022-08-09

Abstract

本发明涉及车辆安全技术领域，尤其涉及一种应用于自动驾驶车辆的周围车辆轨迹预测方法，步骤包括：基于马尔可夫决策对周围车辆驾驶意图进行识别；在意图识别基础上，基于POMDP部分可观测马尔科夫决策模型对周围车辆轨迹进行预测。本发明通过提出一种基于部分可观测马尔科夫决策过程的周围车辆轨迹预测方法，将车辆轨迹数据作为基于POMDP的周围车辆轨迹预测模型的输入，并结合基于MDP马尔可夫决策的周围车辆驾驶意图识别模型输出的车辆驾驶意图累积回报，通过POMDP部分可观测马尔科夫决策过程来预测车辆的未来轨迹，进而具备分析交通参与者的行为，并预测交通参与者的轨迹，从而使自动驾驶汽车能够合理地规划自车的运动轨迹，降低交通事故的发生率。

Description

一种应用于自动驾驶车辆的周围车辆轨迹预测方法

技术领域

本发明涉及车辆安全技术领域，尤其涉及一种应用于自动驾驶车辆的周围车辆轨迹预测方法。

背景技术

在复杂交通中的自动驾驶汽车需要考虑自动驾驶汽车和周围的人和车的安全，以及在不造成交通堵塞的情况下高效行驶。自动驾驶汽车在换道场景下最容易发生交通事故的情况是行驶过程中的换道行为，这是由于其他交通参与者的行为是不确定的，这会给自动驾驶汽车带来潜在的碰撞风险。

为了避免碰撞风险带来的危害，自动驾驶汽车应该具备分析交通参与者的行为，并预测交通参与者的轨迹，从而使自动驾驶汽车能够合理地规划自车的运动轨迹，降低交通事故的发生率。

发明内容

本发明的目的是提供一种应用于自动驾驶车辆的周围车辆轨迹预测方法，用于分析交通参与者的行为，并预测交通参与者的轨迹，从而使自动驾驶汽车能够合理地规划自车的运动轨迹，降低交通事故的发生率。

为了实现上述目的，本发明采用了如下技术方案：

一种应用于自动驾驶车辆的周围车辆轨迹预测方法，包括以下步骤：

S1.基于MDP对周围车辆驾驶意图进行识别；

S2.基于POMDP对周围车辆轨迹进行预测；

且，S2包括以下步骤：

S21.确定POMDP模型的动作参数；

S22.确定POMDP模型的状态转移矩阵；

S23.确定POMDP模型的回报函数；

S24.确定POMDP模型的观测；

S25.计算POMDP模型的信念状态；

S26.POMDP模型计算。

进一步地，其中，S1中，对周围车辆的驾驶意图识别时，通过车载传感器来获取周围车辆的运动状态信息，周围车辆的运动状态信息是随时间连续变化；

驾驶意图识别模型被定义为一个多元组：

(S,A,P,R,γ)

其中，S代表一组有限的离散状态，s∈S，s_i表示自动驾驶汽车第i步的状态；A代表一组离散的动作，a∈A，a_i表示自动驾驶汽车第i步的动作；P表示状态转移矩阵，是状态之间的转移概率，即P_a(s′|s)＝P(s′|s，a)，表示在时间t状态s采取动作a可以在时间t+1转换到状态s′的概率；R是回报函数，如果智能体处于状态s，采取动作a，转移到下一个状态s′时，回报函数可记为r(s′|s，a)；γ∈[0，1]是折扣因子，用来计算累积回报，决定最近收益和未来收益哪个对智能体的影响最大。

进一步地，其中，基于POMDP对周围车辆轨迹进行预测的车辆轨迹预测模型被定义为一个七元组：

(S,A,T,R,Z,Ο,γ)

其中，S代表一组有限的离散状态，s∈S，si表示第i步的状态；A代表一组离散的动作，a∈A，ai表示第i步的动作；T表示状态转移矩阵，是状态之间的条件转移概率，即T(s,a,s')＝P(s_t+1＝s'|s_t＝s,a_t＝a)，表示在时间t时处于状态s采取动作a可以在时间t+1转换到状态s’的概率；R是回报函数，如果智能体处于状态s，采取动作a，转移到下一个状态s’时，回报函数可记为R(s'|s,a)；Z是一组观察，用以提供不确定环境的信息；Ο表示一组条件观察概率，智能体由一个状态执行某个动作得到的观察的概率，即Ο(s',a,o')＝P(o_t+1＝o'|a_t＝a,s_t+1＝s')，表示在时间t时处于状态s采取动作a到达状态s'观察到o'的概率；γ∈[0,1]是折扣因子，用来计算累积回报，决定最近收益和未来收益哪个对智能体的影响最大。

进一步地，其中，S21包括：

将车辆横向速度作为POMDP模型中的动作参数；

确定一定速度范围区间内的横向速度作为一个动作，车辆的横向速度单位为m/s，将POMDP模型的动作分为五个动作。

进一步地，其中，S22包括：

当有N个车道时，有5N个动作；

用T_a(s'|s)＝T(s'|s,a)表示在时间t状态s采取动作a可以在时间t+1转换到状态s’的概率，即可确定POMDP模型的状态转移矩。

进一步地，其中，S23包括：

回报函数r(s'|s,a)是车辆处于状态s，执行动作a，转移到下一个状态s’时的立即回报；

回报函数设计如下：

r_sum＝r_cra+r_lc+r_acc (4)

其中，r_sum为总回报，r_cra为存在碰撞风险的惩罚函数，r_lc为前方车辆行车过慢而换道的奖励函数，r_acc为舒适度回报函数；r_crash为被预测车辆发生碰撞的回报值；式(5)为被预测车辆发生碰撞的回报值的计算公式；TTC为预测轨迹的车辆在执行某一动作变到下一个状态的情况下，与下一个状态下每辆车的碰撞时间，y_other为下一个状态下其余车辆的纵坐标，y_self为预测轨迹的车辆的纵坐标，v_self为被预测轨迹的车辆的纵向速度，v_other为下一个状态下其余车辆的纵向速度；r_lanechange为前车速度过慢而导致的换道行为的奖励值；式(9)为舒适度回报函数的计算公式，E(acc)为被预测车辆的未来轨迹的加速度的期望。

进一步地，其中，S24包括：

观察结果集Z表示观测的环境信息，即自动驾驶汽车观测的周围车辆的信息，表示为：

Z＝(z₁,z₂,...,z_k) (10)

其中zk表示自动驾驶汽车观测到周围的第k辆车的状态信息，通过车载传感器可以获取周围车辆的状态信息，即：

其中x_s表示第k辆车的x坐标，v_x表示第k辆车的x方向的速度，a_x表示第k辆车的x方向的加速度，y_s表示第k辆车的y坐标，v_y表示第k辆车的y方向的速度，a_y表示第k辆车的y方向的加速度，通过传感器获得的车辆状态信息即可求出第k辆车在Δt时间内位置，即：

其中，观测结果z是实时变化的，故观测概率Ο(s',a,z)＝P(z|s',a)不能明确给出，但是在一个新的状态下，观测结果z是能够明确得到的。

进一步地，其中，S25包括：

信念状态b表示车辆所处状态的可信度，即车辆所处状态的概率；车辆的状态无法直接通过传感器获得，需要通过观测结果来求得车辆可能所处的状态，即更新信念状态b。

进一步地，其中，S26包括：

基于POMDP的周围车辆轨迹预测模型使用字母G来表示总回报，定义为：

G＝b·T(s'|s,a)r_sum(s'|s,a) (17)

其中b为信念状态，表示车辆所处状态的概率，T(s’|s,a)表示车辆从状态s，执行动作a转移到状态s’的概率，rsum(s’|s,a)表示车辆从状态s，执行动作a转移到状态s’的回报函数。

本发明至少具备以下有益效果：

本发明通过提出一种基于部分可观测马尔科夫决策过程的周围车辆轨迹预测方法，将车辆轨迹数据作为基于POMDP部分可观测马尔科夫决策过程的周围车辆轨迹预测模型的输入，并结合基于MDP马尔可夫决策的周围车辆驾驶意图识别模型输出的车辆驾驶意图累积回报，通过部分可观测马尔科夫决策过程来预测车辆的未来轨迹，虎进而具备分析交通参与者的行为，并预测交通参与者的轨迹，从而使自动驾驶汽车能够合理地规划自车的运动轨迹，降低交通事故的发生率。

附图说明

为了更清楚地说明本发明实施例技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明方法的示意图；

图2为三车道换道场景图；

图3为轨迹预测场景图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。

轨迹预测方法主框架：

对周围车辆的轨迹预测能有效增加自动驾驶汽车的反应时间并避免可能发生的碰撞和生成稳定舒适的轨迹。环境不确定性来自于传感器数据噪声和无法直接测量的驾驶员意图，环境不确定性也会造成周围车辆状态的不可观测性。

本方法使用部分可观测马尔科夫决策过程来预测周围车辆的轨迹。搭建基于部分可观测马尔科夫决策过程的周围车辆轨迹预测模型，模型使用从数据集中提取的车辆轨迹数据和MDP车辆驾驶意图作为轨迹预测模型的输入，再使用计算置信状态来体现车辆所处状态的概率，代入轨迹预测模型来预测周围车辆的未来轨迹。车辆轨迹预测模型如图1所示。为确定模型中的关键参数，如状态参数、动作参数、状态转移矩阵、回报函数，使用NGSSIM、Mirror-Traffic等公开数据集中提取车辆轨迹特征数据，建立多组观测数据训练模型参数。

1.基于马尔可夫决策的周围车辆驾驶意图识别

对周围车辆的驾驶意图识别时，通过车载传感器来获取周围车辆的运动状态信息，周围车辆的运动状态信息是随时间连续变化。MDP驾驶意图识别模型可以被定义为一个多元组，如式(1)所示。

(S,A,P,R,γ) (1)

其中：S代表一组有限的离散状态，s∈S，s_i表示自动驾驶汽车第i步的状态；A代表一组离散的动作，a∈A，a_i表示自动驾驶汽车第i步的动作；P表示状态转移矩阵，是状态之间的转移概率，即P_a(s′|s)＝P(s′|s，a)，表示在时间t状态s采取动作a可以在时间t+1转换到状态s′的概率；R是回报函数，如果智能体处于状态s，采取动作a，转移到下一个状态s′时，回报函数可记为r(s′|s，a)；γ∈[0，1]是折扣因子，用来计算累积回报，决定最近收益和未来收益哪个对智能体的影响最大。

2.基于POMDP的周围车辆轨迹预测

基于POMDP的车辆轨迹预测模型可以被定义为一个七元组，如式2所示。

(S,A,T,R,Z,Ο,γ) (2)

2.1确定POMDP模型的动作参数

将车辆横向速度作为POMDP模型中的动作参数。确定一定速度范围区间内的横向速度作为一个动作，车辆的横向速度单位为m/s，将POMDP模型的动作分为五个动作。

2.2确定POMDP模型的状态转移矩阵

以图2所示的三车道换道场景为例，POMDP模型有三个状态，五个动作，且T_a(s'|s)＝T(s'|s,a)，表示在时间t状态s采取动作a可以在时间t+1转换到状态s’的概率，所以状态转移矩阵T一个十五行三列的矩阵，即：

2.3确定POMDP模型的回报函数

回报函数r(s'|s,a)是车辆处于状态s，执行动作a，转移到下一个状态s’时的立即回报。回报函数设计优先考虑安全性，其次考虑车辆速度、舒适性，同时考虑交通规则。具体回报函数设计如下：

r_sum＝r_cra+r_lc+r_acc (4)

2.4确定POMDP模型的观测

Z＝(z₁,z₂,...,z_k) (10)

其中zk表示自动驾驶汽车观测到周围的第k辆车的状态信息，通过车载传感器可以获取周围车辆的状态信息，即

由于观测结果z是实时变化的，则观测概率Ο(s',a,z)＝P(z|s',a)不能明确给出的，但是在一个新的状态下，观测结果z是能够明确得到的。

2.5计算POMDP模型的信念状态

信念状态b表示车辆所处状态的可信度，即车辆所处状态的概率。车辆的状态无法直接通过传感器获得，需要通过观测结果来求得车辆可能所处的状态，即更新信念状态b。以图2所示的三车道为例，图2中蓝色轨迹代表车辆的三种状态，红色轨迹是使用观测结果z，由式(12)以0.1s为间隔计算出2s内车辆的轨迹，ds₁、ds₂、ds₃分别为车辆在Δt时刻到状态s1、s2、s3的距离。

由式(13)求出n(ds₁)、n(ds₂)和n(ds₃)。

3.POMDP模型计算

G＝b·T(s'|s,a)r_sum(s'|s,a) (17)

其中b为信念状态，表示车辆所处状态的概率，T(s’|s,a)表示车辆从状态s，执行动作a转移到状态s’的概率，r_sum(s’|s,a)表示车辆从状态s，执行动作a转移到状态s’的回报函数。

图3为三车道场景预测车辆轨迹的所有情况。由于道路结构的限制，车辆处于车道1时只有s2、s3两种状态，车辆处于车道3时只有s1、s2两种状态，所以在预测车辆轨迹时需要考虑道路结构的限制条件。

(1)车辆处于车道1时，车辆存在s2、s3两种状态，此时车辆的总回报可表示为：

G(s₂)＝b·T(s₂|s,a)r_sum(s₂|s,a)

＝b(s₂)·T(s₂|s₂,a)r_sum(s₂|s₂,a)

+b(s₃)·T(s₂|s₃,a)r_sum(s₂|s₃,a) (18)

G(s₃)＝b·T(s₃|s,a)r_sum(s₃|s,a)

＝b(s₂)·T(s₃|s₂,a)r_sum(s₃|s₂,a)

+b(s₃)·T(s₃|s₃,a)r_sum(s₃|s₃,a) (19)

通过判断此时车辆的总回报来预测车辆的轨迹：

(2)车辆处于车道2时，车辆存在s1、s2、s3三种状态，此时车辆的总回报可表示为：

G(s₁)＝b·T(s₁|s,a)r_sum(s₁|s,a)

＝b(s₁)·T(s₁|s₁,a)r_sum(s₁|s₁,a)

+b(s₂)·T(s₁|s₂,a)r_sum(s₁|s₂,a)

+b(s₃)·T(s₁|s₃,a)r_sum(s₁|s₃,a) (21)

G(s₂)＝b·T(s₂|s,a)r_sum(s₂|s,a)

＝b(s₁)·T(s₂|s₁,a)r_sum(s₂|s₁,a)

+b(s₂)·T(s₂|s₂,a)r_sum(s₂|s₂,a)

+b(s₃)·T(s₂|s₃,a)r_sum(s₂|s₃,a) (22)

G(s₃)＝b·T(s₃|s,a)r_sum(s₃|s,a)

＝b(s₁)·T(s₃|s₁,a)r_sum(s₃|s₁,a)

+b(s₂)·T(s₃|s₂,a)r_sum(s₃|s₂,a)

+b(s₃)·T(s₃|s₃,a)r_sum(s₃|s₃,a) (23)

通过判断此时车辆的总回报来预测车辆的轨迹：

(3)车辆处于车道3时，车辆存在s1、s2两种状态，此时车辆的总回报可表示为：

G(s₁)＝b·T(s₁|s,a)r_sum(s₁|s,a)

＝b(s₁)·T(s₁|s₁,a)r_sum(s₁|s₁,a)

+b(s₂)·T(s₁|s₂,a)r_sum(s₁|s₂,a) (25)

G(s₂)＝b·T(s₂|s,a)r_sum(s₂|s,a)

＝b(s₁)·T(s₂|s₁,a)r_sum(s₂|s₁,a)

+b(s₂)·T(s₂|s₂,a)r_sum(s₂|s₂,a) (26)

通过判断此时车辆的总回报来预测车辆的轨迹：

综合上述：

本发明对周围车辆的轨迹预测能有效增加自动驾驶汽车的反应时间并避免可能发生的碰撞和生成稳定舒适的轨迹。环境不确定性来自于传感器数据噪声和无法直接测量的驾驶员意图，环境不确定性也会造成周围车辆状态的不可观测性。本方法使用部分可观测马尔科夫决策过程来预测周围车辆的轨迹。搭建基于部分可观测马尔科夫决策过程的周围车辆轨迹预测模型，模型使用从数据集中提取的车辆轨迹数据和MDP车辆驾驶意图作为轨迹预测模型的输入，再使用计算置信状态来体现车辆所处状态的概率，代入轨迹预测模型来预测周围车辆的未来轨迹。车辆轨迹预测模型如图所示。为确定模型中的关键参数，如状态参数、动作参数、状态转移矩阵、回报函数，使用NGSSIM、Mirror-Traffic等公开数据集中提取车辆轨迹特征数据，建立多组观测数据训练模型参数。

以上显示和描述了本发明的基本原理、主要特征和本发明的优点。本行业的技术人员应该了解，本发明不受上述实施例的限制，上述实施例和说明书中描述的只是本发明的原理，在不脱离本发明精神和范围的前提下本发明还会有各种变化和改进，这些变化和改进都落入要求保护的本发明的范围内。本发明要求的保护范围由所附的权利要求书及其等同物界定。

Claims

1.一种应用于自动驾驶车辆的周围车辆轨迹预测方法，其特征在于，包括以下步骤：

S1.基于MDP马尔可夫决策对周围车辆驾驶意图进行识别；

S2.基于POMDP部分可观测马尔科夫决策对周围车辆轨迹进行预测；

且，S2包括以下步骤：

S21.确定POMDP模型的动作参数；

S22.确定POMDP模型的状态转移矩阵；

S23.确定POMDP模型的回报函数；

S24.确定POMDP模型的观测；

S25.计算POMDP模型的信念状态；

S26.POMDP模型计算。

2.根据权利要求1所述的一种应用于自动驾驶车辆的周围车辆轨迹预测方法，其特征在于，其中，S1中，对周围车辆的驾驶意图识别时，通过车载传感器来获取周围车辆的运动状态信息，周围车辆的运动状态信息是随时间连续变化；

驾驶意图识别模型被定义为一个多元组：

(S,A,P,R,γ)

3.根据权利要求1所述的一种应用于自动驾驶车辆的周围车辆轨迹预测方法，其特征在于，其中，基于POMDP对周围车辆轨迹进行预测的车辆轨迹预测模型被定义为一个七元组：

(S,A,T,R,Z,Ο,γ)

4.根据权利要求1所述的一种应用于自动驾驶车辆的周围车辆轨迹预测方法，其特征在于，其中，S21包括：

将车辆横向速度作为POMDP模型中的动作参数；

5.根据权利要求1所述的一种应用于自动驾驶车辆的周围车辆轨迹预测方法，其特征在于，其中，S22包括：

当有N个车道时，有5N个动作；

6.根据权利要求1所述的一种应用于自动驾驶车辆的周围车辆轨迹预测方法，其特征在于，其中，S23包括：

回报函数设计如下：

r_sum＝r_cra+r_lc+r_acc (4)

其中，r_sum为总回报，r_cra为存在碰撞风险的惩罚函数，r_lc为前方车辆行车过慢而换道的奖励函数，r_acc为舒适度回报函数；r_crash为被预测车辆发生碰撞的回报值；式(5)为被预测车辆发生碰撞的回报值的计算公式；TTC为预测轨迹的车辆在执行某一动作变到下一个状态的情况下，与下一个状态下每辆车的碰撞时间，y_other为下一个状态下其余车辆的纵坐标，y_self为预测轨迹的车辆的纵坐标，v_self为被预测轨迹的车辆的纵向速度，v_other为下一个状态下其余车辆的纵向速度；r_lanech_ange为前车速度过慢而导致的换道行为的奖励值；式(9)为舒适度回报函数的计算公式，E(acc)为被预测车辆的未来轨迹的加速度的期望。

7.根据权利要求1所述的一种应用于自动驾驶车辆的周围车辆轨迹预测方法，其特征在于，其中，S24包括：

Z＝(z₁,z₂,...,z_k) (10)

其中z_k表示自动驾驶汽车观测到周围的第k辆车的状态信息，通过车载传感器可以获取周围车辆的状态信息，即：

8.根据权利要求1所述的一种应用于自动驾驶车辆的周围车辆轨迹预测方法，其特征在于，其中，S25包括：

9.根据权利要求1所述的一种应用于自动驾驶车辆的周围车辆轨迹预测方法，其特征在于，其中，S26包括：

G＝b·T(s'|s,a)r_sum(s'|s,a) (17)