CN113619604B

CN113619604B - 自动驾驶汽车的集成式决控方法、装置及存储介质

Info

Publication number: CN113619604B
Application number: CN202110990262.7A
Authority: CN
Inventors: 李升波; 关阳; 任彦刚; 余冬杰; 成波; 陈建宇
Original assignee: Tsinghua University
Current assignee: Tsinghua University
Priority date: 2021-08-26
Filing date: 2021-08-26
Publication date: 2023-08-15
Anticipated expiration: 2041-08-26
Also published as: CN113619604A

Abstract

本公开提供的自动驾驶汽车的集成式决控方法、装置及存储介质，本公开包括：根据交通驾驶场景的静态信息构造候选路径集合，对候选路径集合中每一条候选路径考虑交通驾驶场景的动态信息构建路径跟踪模型，在此基础上进一步构造路径优选模型；将路径跟踪模型和路径优选模型分别转化为决控策略求解模型和评价函数求解模型，通过离线方式求解决控策略求解模型和评价函数求解模型，得到最优决控策略和最优评价函数；从自动驾驶汽车出发时刻开始，每一时刻利用最优评价函数选择最优路径，然后使用最优决控策略确定自动驾驶汽车的最优动作，直至到达全局路径终点。本公开的可扩展性强且在线计算效率高。

Description

自动驾驶汽车的集成式决控方法、装置及存储介质

技术领域

本公开属于自动驾驶汽车的自主决控技术领域，特别涉及自动驾驶汽车的集成式决控方法、装置及存储介质。

背景技术

汽车智能驾驶系统在提高安全性、降低油耗、提高交通效率等方面有巨大潜力。高水平的智能驾驶依赖于决策和控制的实时性。

现有的车辆决策方法，主要进行运动预测、行为选择和轨迹规划等，分别运算后，最终得到一条可行轨迹。然而，该方法在处理大规模动态避障任务时无法保证实时性。

现有的车辆控制方法，仅使用车辆决策阶段给出的光滑且符合动力学约束的轨迹进行跟踪，以得到车辆期望方向盘转角和期望加速度，但该方法未能体现车辆智能性，即不具有与周围交通参与者的交互避障能力以及对轨迹的选择能力。

发明内容

本公开旨在解决上述问题之一。

为此，本公开的实施例提供的一种可扩展性强且在线计算效率高的自动驾驶汽车的集成式决控方法，包括：

本公开第一方面实施例提到的自动驾驶汽车的集成式决控方法，包括：

根据交通驾驶场景的静态信息构造候选路径集合，对所述候选路径集合中每一条候选路径考虑交通驾驶场景的动态信息构建路径跟踪模型，在此基础上进一步构造路径优选模型；

将所述路径跟踪模型和所述路径优选模型分别转化为决控策略求解模型和评价函数求解模型，通过离线方式求解所述决控策略求解模型和所述评价函数求解模型，得到最优决控策略和最优评价函数；

从自动驾驶汽车出发时刻开始，每一时刻利用所述最优评价函数选择最优路径，然后使用所述最优决控策略确定自动驾驶汽车的最优动作，直至到达全局路径终点。

本公开方法的特点及有益效果：

本公开实施例提供的自动驾驶汽车的集成式决控方法，区别于现有的自动驾驶分层式决控方案，本公开方法集成了决策和控制两个功能模块，形成了静态路径规划和动态优选跟踪两个设计阶段，从而避免了现有分层式决控方案计算效率低，可扩展性差的问题，具体地：本公开第一个阶段仅考虑静态交通信息规划候选路径集合；本公开在第二个阶段则考虑动态交通参与者构造带约束跟踪问题，并离线求解得到决控策略和评价函数，在线应用时使用评价函数得到最优路径，然后使用决控策略跟踪所选路径。

由于静态路径规划时不考虑动态障碍物，因此该模块计算效率高，实时性好；动态优选跟踪时将路径优选和跟踪带来的优化计算负担通过离线求解在线应用的手段消除。因此本公开方法具有决控智能性好、在线计算效率高的优点。另外，对于不同的交通场景，静态路径规划模块可按道路拓扑规划出相应的候选路径集合，而动态优选跟踪模块则构建得到形式相同的问题，因此本公开方法具备良好的可扩展性。

在一些实施例中，所述交通驾驶场景的静态信息包括道路结构、限速、路面标识和交通法规；所述交通驾驶场景的动态信息包括自动驾驶汽车动力学、周围交通参与者和交通信号灯信息。

在一些实施例中，所述候选路径集合为Π，其表达式为：

其中，τ_i为对将可通行车道L_i的车道中心线作为的候选路径经过离散化后得到的离散候选路径，i∈{1,N_lane}，N_lane为自动驾驶汽车可通行的车道数量；为对候离散选路径τ_i设定的期望速度。

在一些实施例中，所述路径跟踪模型为：

x_ego,k+1＝F_ego(x_ego,k,u_k) (3)

x_surr,k+1＝F_surr(x_ego,k,x_surr,k) (4)

x_road,k＝F_road(x_ego,k) (5)

h(x_ego,k,x_surr,k)≥D_safe (6)

h(x_ego,k,x_road,k)≥D_safe (7)

其中：

式(2)为第i条离散候选路径τ_i对应的路径跟踪模型的目标函数；为第i条离散候选路径τ_i对应的路径跟踪模型的最优目标函数；J_i为第i条离散候选路径τ_i对应的路径跟踪模型的目标函数；N_p为预测总步数，取值范围为[1,∞)；k∈{0,…,N_p-1}；/>为第i条离散候选路径τ_i的状态，即/>x_ego,k为第k步的自动驾驶汽车状态，其中包括自动驾驶汽车的位置坐标、纵向速度、横向速度、方向角、横摆角速度，长度和宽度；x_surr,k为第k步的周围交通参与者状态，包括周围机动车、周围非机动车和周围行人；x_road,k为第k步的道路与环境状态，包括自动驾驶汽车距车道边缘的距离和车道限速；u_k为第k步的自动驾驶汽车决控参数，包括自动驾驶汽车的期望加速度与方向盘转角或自动驾驶汽车的期望轨迹；l为效用函数，包含自动驾驶汽车的位置跟踪误差、速度跟踪误差和控制能量损耗，用于计算每一时间步下的代价；

式(3)为自动驾驶汽车的动力学模型；F_ego(·)为第一非线性映射，反映了自动驾驶汽车从第k步状态到k+1步状态的转移关系；

式(4)为周围交通参与者的运动学模型；F_surr(·)为第二非线性映射，反映了周围交通参与者从第k步状态到第k+1步状态的转移关系；

式(5)为道路与环境模型；F_road(·)为第三非线性映射，反映了第k步道路与环境信息与第k步自动驾驶汽车状态的关联；

式(6)为自动驾驶汽车与周围交通参与者的安全约束；h(·)为第四非线性映射；D_safe为设定的自动驾驶汽车与周围交通参与者间的安全距离；

式(7)为自动驾驶汽车与道路的安全约束。

在一些实施例中，设定所述路径优选模型的目标函数为：

在一些实施例中，所述决控策略求解模型为：

x_ego,k+1＝F_ego(x_ego,k,u_k) (10)

x_surr,k+1＝F_surr(x_ego,k,x_surr,k) (11)

x_road,k＝F_road(x_ego,k) (12)

u_k＝π_θ(s_k) (13)

h(x_ego,k,x_surr,k)≥D_safe (14)

h(x_ego,k,x_road,k)≥D_safe (15)

其中：

式(9)为所述求解决控策略模型的目标函数；θ为策略参数；表示初始状态s₀分布下的期望性能，所述初始状态分布为不同离散候选路径、自动驾驶汽车状态、周围交通参与者状态和道路状态的联合分布；u_k为自动驾驶汽车决控参数；s_k为第k步的自动驾驶汽车决控策略状态的输入，/>

式(10)、(11)和(12)分别为自动驾驶汽车的动力学模型、周围交通参与者的运动学模型和道路与环境模型；

式(13)为使用决控策略π_θ(·)得到的自动驾驶汽车决控参数u_k；决控策略π_θ(·)为使用策略参数θ参数化的第五非线性映射，反映了第k步的自动驾驶汽车决控参数u_k与自动驾驶汽车状态x_ego,k的关联；

式(14)和(15)分别为自动驾驶汽车与周围交通参与者的安全约束和自动驾驶汽车与道路的安全约束。

在一些实施例中，所述评价函数求解模型为：

x_ego,k+1＝F_ego(x_ego,k,u_k) (17)

x_surr,k+1＝F_surr(x_ego,k,x_surr,k) (18)

x_road,k＝F_road(x_ego,k) (19)

u_k＝π_θ(s_k) (20)

其中：

式(16)为所述评价函数求解模型的目标函数，w为评价函数V_w(·)参数，评价函数V_w(·) 为使用w参数化的第六非线性映射，反映了从当前状态到目标函数的关联；式(17)、(18)、 (19)和(20)分别为自动驾驶汽车的动力学模型、周围交通参与者的运动学模型、道路与环境模型和使用决控策略π_θ(·)得到自动驾驶汽车决控参数u_k。

在一些实施例中，通过下式选择所述最优路径：

其中，I_opt为所述最优路径；为所述最优评价函数；sⁱ为离散候选路径对应的状态向量，/>

通过下式确定所述最优动作：

其中，u为所述最优动作；为所述最优决控策略；/>为最优路径I_opt对应的状态向量，/>为最优路径的状态。

本公开第二方面实施例提供的自动驾驶汽车的集成式决控装置，包括：

模型构建模块，用于根据交通驾驶场景静态信息构造候选路径集合，对所述候选路径集合中每一条候选路径考虑交通驾驶场景动态信息构建路径跟踪模型，在此基础上进一步构造路径优选模型；

离线求解模块，用于将所述路径跟踪模型和所述路径优选模型分别转化为决控策略求解模型和评价函数求解模型，通过离线方式求解所述决控策略求解模型和所述评价函数求解模型，得到最优决控策略和最优评价函数；和

在线应用模块，用于从自动驾驶汽车出发时刻开始，每一时刻利用所述最优评价函数选择最优路径，然后使用所述最优决控策略确定自动驾驶汽车的最优动作，直至到达全局路径终点。

本公开第三方面实施例提供的计算机可读存储介质，所述计算机可读存储介质存储计算机指令，所述计算机指令用于使所述计算机执行上述自动驾驶汽车的集成式决控方法。

附图说明

图1是本公开第一方面实施例提供的自动驾驶汽车的集成式决控方法的整体流程图；

图2的(a)和(b)分别是本发明实施例方法生成的静态路径和期望速度；

图3是本公开第二方面实施例提供的自动驾驶汽车的集成式决控装置的结构框图；

图4是本公开第三方面实施例提供的电子设备的结构框图。

具体实施方式

为了使本申请的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本申请进行进一步详细描述。应当理解，此处所描述的具体实施例仅用于解释本申请，并不用于限定本申请。

相反，本申请涵盖任何由权利要定义的在本申请精髓和范围上做的替代、修改、等效方法以及方案。进一步，为了使公众对本申请有更好的了解，在下文对本发明的细节描述中，详尽描述了一些特定的细节部分。对本领域技术人员来说没有这些细节部分的描述也可以完全理解本申请。

本公开第一方面实施例提供的自动驾驶汽车的集成式决控方法，参见图1，包括：

根据交通驾驶场景的静态信息构造候选路径集合，对候选路径集合中每一条候选路径考虑交通驾驶场景的动态信息构建路径跟踪模型，在此基础上进一步构造路径优选模型；

将得到的路径跟踪模型和路径优选模型分别转化为决控策略求解模型和评价函数求解模型，通过离线方式求解决控策略求解模型和评价函数求解模型，得到最优决控策略和最优评价函数；

从自动驾驶汽车出发时刻开始，每一时刻利用得到的最优评价函数选择最优路径，然后使用最优决控策略确定自动驾驶汽车的最优动作，直至到达全局路径终点。

在一些实施例中，候选路径集合通过以下步骤构建：

根据含车道线信息的地图，采用道路结构、限速、路面标识、交通法规等交通驾驶场景的静态信息，结合人工驾驶习惯制定局部候选路径集合，参见图2中(a)。考虑地图中所有车道，排除限行车道，如当前时间段限行车道，特定功能车道等，对每一条可通行车道L_i,i∈{1,N_lane}，其中N_lane为当前时段可通行的车道数量，定义可通行车道L_i的车道中心线为候选路径，并将其离散化为N个路径点，本公开采用的离散化方法包括等间距离散化与等时距离散化。将离散化后的候选路径记为τ_i。参见图2中(b)，为每一条离散候选路径τ_i设定对应的期望速度可通过车道限速或车道限速的百分位数设定。定义候选路径的集合为Π，其表达式为：

在一些实施例中，路径跟踪模型通过以下步骤构建：

结合自动驾驶汽车动力学、周围交通参与者、交通信号灯等动态信息，以自动驾驶汽车动力学模型以及自车和交通驾驶场景的动态信息之间的状态关联为约束，对每条离散候选路径τ_i构建路径跟踪模型，数学表达式为：

x_ego,k+1＝F_ego(x_ego,k,u_k) (3)

x_surr,k+1＝F_surr(x_ego,k,x_surr,k) (4)

x_road,k＝F_road(x_ego,k) (5)

h(x_ego,k,x_surr,k)≥D_safe (6)

h(x_ego,k,x_road,k)≥D_safe (7)

其中：

式(2)为第i条离散候选路径τ_i对应的路径跟踪模型的目标函数，其中为第i条离散候选路径τ_i对应的路径跟踪模型的最优目标函数；J_i为第i条离散候选路径τ_i对应的路径跟踪模型的目标函数；N_p为预测总步数，取值范围为[1,∞)；k∈{0,…,N_p-1}；/>为第i条离散候选路径τ_i的状态，即/>x_ego,k为第k步的自动驾驶汽车状态，其中包括自动驾驶汽车的位置坐标、纵向速度、横向速度、方向角、横摆角速度，长度和宽度等信息；x_surr,k为第k步的周围交通参与者状态，包括周围机动车、周围非机动车和周围行人等状态；x_road,k为第k步的道路与环境状态，包括自动驾驶汽车距车道边缘的距离和车道限速等信息；u_k为第k步的自动驾驶汽车决控参数，是用于控制车辆动作的参数，自动驾驶汽车决策参数包括自动驾驶汽车的期望加速度与方向盘转角或自动驾驶汽车的期望轨迹等；l为效用函数，其中包含自动驾驶汽车的位置跟踪误差、速度跟踪误差和控制能量损耗等，用于计算每一时间步下的代价。

式(3)为自动驾驶汽车的动力学模型，其中F_ego(·)为第一非线性映射，通常由自动驾驶汽车的二自由度模型和轮胎模型共同决定，反映了自动驾驶汽车从第k步状态到k+1步状态的转移关系。

式(4)为周围交通参与者的运动学模型，其中F_surr(·)为第二非线性映射，如使用深度神经网络拟合得到的模型，反映了周围交通参与者从第k步状态到第k+1步状态的转移关系。

式(5)为道路与环境模型，其中F_road(·)为第三非线性映射，如使用深度神经网络拟合得到的模型，反映了第k步道路与环境信息与第k步自动驾驶汽车状态的关联。

式(6)为自动驾驶汽车与周围交通参与者的安全约束，h(·)为第四非线性映射，通常为自车与交通参与者的距离；D_safe为设定的自动驾驶汽车与周围交通参与者间的安全距离。安全距离计算方法主要有:(a)自动驾驶汽车形心与周围交通参与者形心的距离；(b)多圆覆盖法，即使用多个圆分别将自动驾驶汽车与周围交通参与者覆盖，然后分别约束自动驾驶汽车多个圆的圆心与周围交通参与者的圆心之间的距离。

式(7)为自动驾驶汽车与道路的安全约束。

在一些实施例中，路径优选模型通过以下步骤构建：

根据构建的路径跟踪模型，设定路径优选模型的目标函数为：

路径优选模型的约束条件与路径跟踪模型的约束条件相同。路径优选模型考虑分别求解minJ₁，minJ₂，…,然后对比最小的最优解，作为参考路径的选择结果。

在一些实施例中，通过以下步骤将得到的路径跟踪模型转化为决控策略求解模型：

引入决控策略π_θ(·)，为使用策略参数θ参数化的第五非线性映射，其通常为一深度神经网络，θ为深度神经网络中的参数，反映了第k步的自动驾驶汽车决控参数u_k与自动驾驶汽车状态x_ego,k的关联。构造第k步的自动驾驶汽车决控策略状态的输入为s_k，其由i条候选路径τ_i的状态第k步的自动驾驶汽车状态x_ego,k、周围交通参与者状态x_surr,k，道路与环境状态x_road,k构造得到，具体地，/>转化后的决控策略求解模型如下：

x_ego,k+1＝F_ego(x_ego,k,u_k) (10)

x_surr,k+1＝F_surr(x_ego,k,x_surr,k) (11)

x_road,k＝F_road(x_ego,k) (12)

u_k＝π_θ(s_k) (13)

h(x_ego,k,x_surr,k)≥D_safe (14)

h(x_ego,k,x_road,k)≥D_safe (15)

其中：

式(9)为求解决控策略模型的目标函数，优化变量为策略参数θ。表示初始状态分布下的期望性能，该初始状态分布为不同候选路径、自动驾驶汽车状态、周围交通参与者状态和道路状态的联合分布，具体地，/>为不同初始状态s₀下{·}的平均性能，即由初始状态分布采样一定数量的初始状态s₀，分别计算相应的{·}，最后计算平均所得。

式(10)(11)(12)同式(3)(4)(5)。

式(13)为使用决控策略π_θ(·)得到自动驾驶汽车决控参数u_k。

式(14)(15)同式(6)(7)。

在一些实施例中，通过以下步骤将得到的路径优选模型转化为评价函数求解模型：

引入评价函数V_w(·)，其为使用w参数化的第六非线性映射，其通常为一深度神经网络， w为深度神经网络中的参数，该深度神经网络的输入与决控策略输入相同，反映了从当前状态到目标函数J_i的关联。转化后的评价函数求解模型如下：

x_ego，k+1＝F_ego(x_ego，k,u_k) (17)

x_surr,k+1＝F_surr(x_ego,k,x_surr,k) (18)

x_road,k＝F_road(x_ego,k) (19)

u_k＝π_θ(s_k) (20)

其中：

式(16)为评价函数求解模型的目标函数，优化变量为评价函数参数w。

式(17)(18)(19)(20)同式(3)(4)(5)(13)。

在一些实施例中，通过离线方式求解决控策略求解模型和评价函数求解模型，得到最优决控策略和最优评价函数，具体包括以下步骤：

求解上述公式(9)～公式(15)所示决控策略求解模型与公式(16)～公式(20)所示评价函数求解模型，输出最优决控策略与最优评价函数/>

在一些实施例中，从自动驾驶汽车出发时刻开始，每一时刻利用得到的最优评价函数选择最优路径，然后使用最优决控策略确定自动驾驶汽车的最优动作，直至到达全局路径终点，具体包括以下步骤：

车辆出发时刻，给定自动驾驶汽车全局路径、自动驾驶汽车状态x_ego、周围交通参与者状态x_surr和道路与环境状态x_road。

3-1)最优路径选择：按照公式(21)构造各离散候选路径对应的状态向量sⁱ，i＝1，…，N_lane：

使用得到的最优评价函数按照公式(22)选择具有最小值的路径作为最优路径 I_opt：

3-2)最优路径跟踪：获取最优路径下的状态向量

其中，为最优路径的状态；

使用得到的最优决控策略使用公式(24)计算自动驾驶汽车当前状态下的最优动作u：

自动驾驶汽车执行最优动作u，计算得到的自动驾驶汽车控制量，通常包括自车期望加速度与自车期望方向盘转角，获取下一时刻的自动驾驶汽车状态和周车状态。

3-3)不断执行步骤3-1)～3-2)，直到自动驾驶汽车达到全局路径终点，本方法结束。

本公开实施例提出的动驾驶汽车的集成式决控装置，参见图3，包括：

模型构建模块，用于根据交通驾驶场景静态信息构造候选路径集合，对候选路径集合中每一条候选路径考虑交通驾驶场景动态信息构建路径跟踪模型，在此基础上进一步构造路径优选模型；

离线求解模块，用于将模型构建模块得到的路径跟踪模型和路径优选模型分别转化为决控策略求解模型和评价函数求解模型，通过离线方式求解决控策略求解模型和评价函数求解模型，得到最优决控策略和最优评价函数；和

在线应用模块，用于从自动驾驶汽车出发时刻开始，每一时刻利用得到的最优评价函数选择最优路径，然后使用最优决控策略确定自动驾驶汽车的最优动作，直至到达全局路径终点。

为了实现上述实施例，本公开实施例还提出一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行，用于执行上述实施例的自动驾驶汽车静态路径规划方法。

下面参考图4，其示出了适于用来实现本公开实施例的电子设备100的结构示意图。其中，需要说明的是，该电子设备100中包括自动驾驶汽车的集成式决控系统，其中，本公开实施例中的电子设备可以包括但不限于诸如移动电话、笔记本电脑、数字广播接收器、PDA(个人数字助理)、PAD(平板电脑)、PMP(便携式多媒体播放器)、车载终端(例如车载导航终端)等等的移动终端以及诸如数字TV、台式计算机、服务器等等的固定终端。图4示出的电子设备仅仅是一个示例，不应对本公开实施例的功能和使用范围带来任何限制。

如图4所示，电子设备100可以包括处理装置(例如中央处理器、图形处理器等)101，其可以根据存储在只读存储器(ROM)102中的程序或者从存储装置108加载到随机访问存储器(RAM)103中的程序而执行各种适当的动作和处理。在RAM 103 中，还存储有电子设备100操作所需的各种程序和数据。处理装置101、ROM 102以及RAM 103通过总线104彼此相连。输入/输出(I/O)接口105也连接至总线104。

通常，以下装置可以连接至I/O接口105：包括例如触摸屏、触摸板、键盘、鼠标、摄像头、麦克风等的输入装置106；包括例如液晶显示器(LCD)、扬声器、振动器等的输出装置107；包括例如磁带、硬盘等的存储装置108；以及通信装置109。通信装置109可以允许电子设备100与其他设备进行无线或有线通信以交换数据。虽然图 4示出了具有各种装置的电子设备100，但是应理解的是，并不要求实施或具备所有示出的装置。可以替代地实施或具备更多或更少的装置。

特别地，根据本公开的实施例，上文参考流程图描述的过程可以被实现为计算机软件程序。例如，本实施例包括一种计算机程序产品，其包括承载在计算机可读介质上的计算机程序，该计算机程序包含用于执行流程图中所示方法的程序代码。在这样的实施例中，该计算机程序可以通过通信装置109从网络上被下载和安装，或者从存储装置108被安装，或者从ROM 102被安装。在该计算机程序被处理装置101执行时，执行本公开实施例的方法中限定的上述功能。

需要说明的是，本公开上述的计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质或者是上述两者的任意组合。计算机可读存储介质例如可以是—— 但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件，或者任意以上的组合。计算机可读存储介质的更具体的例子可以包括但不限于：具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机访问存储器(RAM)、只读存储器 (ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本公开中，计算机可读存储介质可以是任何包含或存储程序的有形介质，该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。而在本公开中，计算机可读信号介质可以包括在基带中或者作为载波一部分传播的数据信号，其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式，包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读信号介质还可以是计算机可读存储介质以外的任何计算机可读介质，该计算机可读信号介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。计算机可读介质上包含的程序代码可以用任何适当的介质传输，包括但不限于：电线、光缆、RF(射频)等等，或者上述的任意合适的组合。

上述计算机可读介质可以是上述电子设备中所包含的；也可以是单独存在，而未装配入该电子设备中。

上述计算机可读介质承载有一个或者多个程序，当上述一个或者多个程序被该电子设备执行时，使得该电子设备：根据交通驾驶场景静态信息构造候选路径集合，对候选路径集合中每一条候选路径考虑交通驾驶场景动态信息构建路径跟踪模型，在此基础上进一步构造路径优选模型；将得到的路径跟踪模型和路径优选模型分别转化为决控策略求解模型和评价函数求解模型，通过离线方式求解决控策略求解模型和评价函数求解模型，得到最优决控策略和最优评价函数；从自动驾驶汽车出发时刻开始，每一时刻利用得到的最优评价函数选择最优路径，然后使用最优决控策略确定自动驾驶汽车的最优动作，直至到达全局路径终点。

可以以一种或多种程序设计语言或其组合来编写用于执行本公开的操作的计算机程序代码，上述程序设计语言包括面向对象的程序设计语言—诸如Java、Smalltalk、 C++、python，还包括常规的过程式程序设计语言—诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中，远程计算机可以通过任意种类的网络——包括局域网(LAN)或广域网(WAN)—连接到用户计算机，或者，可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。

在本说明书的描述中，参考术语“一个实施例”、“一些实施例”、“示例”、 “具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本申请的至少一个实施例或示例中。在本说明书中，对上述术语的示意性表述不必须针对的是相同的实施例或示例。而且，描述的具体特征、结构、材料或者特点可以在任一个或多个实施例或示例中以合适的方式结合。此外，在不相互矛盾的情况下，本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。

此外，术语“第一”、“第二”仅用于描述目的，而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此，限定有“第一”、“第二”的特征可以明示或者隐含地包括至少一个该特征。在本申请的描述中，“多个”的含义是至少两个，例如两个，三个等，除非另有明确具体的限定。

流程图中或在此以其他方式描述的任何过程或方法描述可以被理解为，表示包括一个或更多个用于实现特定逻辑功能或过程的步骤的可执行指令的代码的模块、片段或部分，并且本申请的优选实施方式的范围包括另外的实现，其中可以不按所示出或讨论的顺序，包括根据所涉及的功能按基本同时的方式或按相反的顺序，来执行功能，这应被本申请的实施例所属技术领域的技术人员所理解。

在流程图中表示或在此以其他方式描述的逻辑和/或步骤，例如，可以被认为是用于实现逻辑功能的可执行指令的定序列表，可以具体实现在任何计算机可读介质中，以供指令执行系统、装置或设备(如基于计算机的系统、包括处理器的系统或其他可以从指令执行系统、装置或设备取指令并执行指令的系统)使用，或结合这些指令执行系统、装置或设备而使用。就本说明书而言，“计算机可读介质”可以是任何可以包含、存储、通信、传播或传输程序以供指令执行系统、装置或设备或结合这些指令执行系统、装置或设备而使用的装置。计算机可读介质的更具体的示例(非穷尽性列表)包括以下：具有一个或多个布线的电连接部(电子装置)，便携式计算机盘盒(磁装置)，随机存取存储器(RAM)，只读存储器(ROM)，可擦除可编辑只读存储器(EPROM 或闪速存储器)，光纤装置，以及便携式光盘只读存储器(CDROM)。另外，计算机可读介质甚至可以是可在其上打印程序的纸或其他合适的介质，因为可以例如通过对纸或其他介质进行光学扫描，接着进行编辑、解译或必要时以其他合适方式进行处理来以电子方式获得程序，然后将其存储在计算机存储器中。

应当理解，本申请的各部分可以用硬件、软件、固件或它们的组合来实现。在上述实施方式中，多个步骤或方法可以用存储在存储器中且由合适的指令执行系统执行的软件或固件来实现。例如，如果用硬件来实现，和在另一实施方式中一样，可用本领域公知的下列技术中的任一项或他们的组合来实现：具有用于对数据信号实现逻辑功能的逻辑门电路的离散逻辑电路，具有合适的组合逻辑门电路的专用集成电路，可编程门阵列(PGA)，现场可编程门阵列(FPGA)等。

本技术领域的普通技术人员可以理解实现上述实施例方法携带的全部或部分步骤，可以通过程序来指令相关的硬件完成，所开发的程序可以存储于一种计算机可读存储介质中，该程序在执行时，包括方法实施例的步骤之一或其组合。

此外，在本申请各个实施例中的各功能单元可以集成在一个处理模块中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个模块中。上述集成的模块既可以采用硬件的形式实现，也可以采用软件功能模块的形式实现。集成的模块如果以软件功能模块的形式实现并作为独立的产品销售或使用时，也可以存储在一个计算机可读取存储介质中。

上述提到的存储介质可以是只读存储器，磁盘或光盘等。尽管上面已经示出和描述了本申请的实施例，可以理解的是，上述实施例是示例性的，不能理解为对本申请的限制，本领域的普通技术人员在本申请的范围内可以对上述实施例进行变化、修改、替换和变型。

Claims

1.一种自动驾驶汽车的集成式决控方法，其特征在于，包括：

从自动驾驶汽车出发时刻开始，每一时刻利用所述最优评价函数选择最优路径，然后使用所述最优决控策略确定自动驾驶汽车的最优动作，直至到达全局路径终点；

所述候选路径集合为Π，其表达式为：

其中，τ_i为对将可通行车道L_i的车道中心线作为的候选路径经过离散化后得到的离散候选路径，i∈{1,N_lane}，N_lane为自动驾驶汽车可通行的车道数量；为对候离散选路径τ_i设定的期望速度；

所述路径跟踪模型为：

x_ego,k+1＝F_ego(x_ego,k,u_k) (3)

x_surr,k+1＝F_surr(x_ego,k,x_surr,k) (4)

x_road,k＝F_road(x_ego,k) (5)

h(x_ego,k,x_surr,k)≥D_safe (6)

h(x_ego,k,x_road,k)≥D_safe (7)

其中：

式(7)为自动驾驶汽车与道路的安全约束；

设定所述路径优选模型的目标函数为：

所述决控策略求解模型为：

x_ego,k+1＝F_ego(x_ego,k,u_k) (10)

x_surr,k+1＝F_surr(x_ego,k,x_surr,k) (11)

x_road,k＝F_road(x_ego,k) (12)

u_k＝π_θ(s_k) (13)

h(x_ego,k,x_surr,k)≥D_safe (14)

h(x_ego,k,x_road,k)≥D_safe (15)

其中：

式(9)为所述决控策略求解模型的目标函数；θ为策略参数；表示初始状态s₀分布下的期望性能，所述初始状态分布为不同离散候选路径、自动驾驶汽车状态、周围交通参与者状态和道路状态的联合分布；u_k为第k步的自动驾驶汽车决控参数；s_k为第k步的自动驾驶汽车决控策略状态的输入，/>

式(13)为使用决控策略π_θ(·)得到的第k步的自动驾驶汽车决控参数u_k；决控策略π_θ(·)为使用策略参数θ参数化的第五非线性映射，反映了第k步的自动驾驶汽车决控参数u_k与自动驾驶汽车状态x_ego,k的关联；

式(14)和(15)分别为自动驾驶汽车与周围交通参与者的安全约束和自动驾驶汽车与道路的安全约束；

所述评价函数求解模型为：

x_ego,k+1＝F_ego(x_ego,k,u_k) (17)

x_surr,k+1＝F_surr(x_ego,k,x_surr,k) (18)

x_road,k＝F_road(x_ego,k) (19)

u_k＝π_θ(s_k) (20)

其中：

式(16)为所述评价函数求解模型的目标函数，w为评价函数V_w(·)参数，评价函数V_w(·)为使用w参数化的第六非线性映射，反映了从当前状态到目标函数的关联；式(17)、(18)、(19)和(20)分别为自动驾驶汽车的动力学模型、周围交通参与者的运动学模型、道路与环境模型和使用决控策略π_θ(·)得到第k步的自动驾驶汽车决控参数u_k。

2.根据权利要求1所述的集成式决控方法，其特征在于，通过下式选择所述最优路径：

通过下式确定所述最优动作：

其中，u为所述最优动作；为所述最优决控策略；/>为最优路径I_opt对应的状态向量，/> 为最优路径的状态。

3.根据权利要求1所述的集成式决控方法，其特征在于，所述交通驾驶场景的静态信息包括道路结构、限速、路面标识和交通法规；所述交通驾驶场景的动态信息包括自动驾驶汽车动力学、周围交通参与者和交通信号灯信息。

4.一种基于权利要求1-3中任一项所述集成式决控方法的自动驾驶汽车的集成式决控装置，其特征在于，包括：

5.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质存储计算机指令，所述计算机指令用于使所述计算机执行权利要求1-3中任一项所述的自动驾驶汽车的集成式决控方法。