CN117601904B

CN117601904B - 车辆行驶轨迹的规划方法、装置、车辆及存储介质

Info

Publication number: CN117601904B
Application number: CN202410088151.0A
Authority: CN
Inventors: 刘枫; 高长胜; 刘斌; 张东波; 吴杭哲
Original assignee: FAW Group Corp
Current assignee: FAW Group Corp
Priority date: 2024-01-22
Filing date: 2024-01-22
Publication date: 2024-05-14
Anticipated expiration: 2044-01-22
Also published as: CN117601904A

Abstract

本发明涉及车辆技术领域，特别涉及一种车辆行驶轨迹的规划方法、装置、车辆及存储介质，其中，方法包括：获取车辆的环境感知信息；提取环境感知信息中当前驾驶环境下的环境特征状态；将环境特征状态输入预先建立的神经网络模型，神经网络模型输出车辆在当前驾驶环境下的规划行驶轨迹，其中，神经网络模型基于携带有环境特征状态的训练样本训练得到。由此，解决了相关技术中自动驾驶策略需要的神经网络过于庞大，导致内部过程不可监督，工程部署实现困难等问题。

Description

车辆行驶轨迹的规划方法、装置、车辆及存储介质

技术领域

本申请涉及车辆技术领域，特别涉及一种车辆行驶轨迹的规划方法、装置、车辆及存储介质。

背景技术

随着智能驾驶技术的不断发展，智能驾驶系统应用场景越来越广泛，当前单纯基于规则的决策规划算法依然是主流方法，广泛适用于结构化道路自动驾驶，如高速公路，城市快速路等。

但随着场景越来越复杂，传统基于规则的决策规划算法无法满足城市场景需求，且规则之间容易产生冲突，在复杂场景下易导致系统发生瘫痪，无法向人类一样进行驾驶，因此通常会引入AI学习对车辆驾驶进行控制。

相关技术中基于AI学习实现对自动驾驶车辆控制的方法，基于原始感知信息，经过神经网络处理，最终输出控制指令。然而，该方法虽然可实现端到端自动驾驶，但是整个神经网络过于庞大，内部过程不可监督，工程部署实现困难。

发明内容

本申请提供一种车辆行驶轨迹的规划方法、装置、车辆及存储介质，以解决相关技术中自动驾驶策略需要的神经网络过于庞大，导致内部过程不可监督，工程部署实现困难等问题。

本申请第一方面实施例提供一种车辆行驶轨迹的规划方法，包括以下步骤：获取车辆的环境感知信息；提取所述环境感知信息中当前驾驶环境下的环境特征状态；将所述环境特征状态输入预先建立的神经网络模型，所述神经网络模型输出所述车辆在当前驾驶环境下的规划行驶轨迹，其中，所述神经网络模型基于携带有环境特征状态的训练样本训练得到。

可选地，所述神经网络模型包括策略网络和值网络，所述策略网络用于根据所述环境特征状态输出期望行驶轨迹点，根据所述期望行驶轨迹点生成所述规划行驶轨迹；所述值网络用于根据所述期望行驶轨迹点输出品质值。

可选地，所述策略网络包括网络结构相同的在线策略网络和目标策略网络，所述在线策略网络用于网络参数的训练，所述目标策略网络用于吸收所述在线策略网络训练得到的网络参数；所述值网络包括网络结构相同的在线值网络和目标值网络，所述在线值网络用于网络参数的训练，所述目标值网络用于吸收所述在线值网络训练得到的网络参数。

可选地，在将所述环境特征状态输入预先建立的神经网络模型之前，还包括：获取携带有环境特征状态的训练样本；将所述训练样本中的环境特征状态输入所述在线策略网络和目标策略网络，所述在线策略网络和所述目标策略网络分别输出在当前驾驶环境下的第一规划行驶轨迹和第二规划行驶轨迹；将所述第一规划行驶轨迹输入所述在线值网络，所述在线值网络输出所述第一规划行驶轨迹的估计品质值，并根据所述第一规划行驶轨迹和所述环境特征状态计算所述第一规划行驶轨迹的动作奖励；根据所述第一规划行驶轨迹和所述环境特征状态计算所述在线策略网络的第一损失值，根据所述第一规划行驶轨迹、所述第二规划轨迹、所述环境特征状态、所述动作奖励和所述估计品质值计算所述在线值网络的第二损失值；根据所述第一损失值更新所述在线策略网络和所述目标策略网络的网络参数，根据所述第二损失值更新所述在线值网络和所述目标值网络的网络参数。

可选地，所述根据所述第一规划行驶轨迹、所述第二规划轨迹、所述环境特征状态、所述动作奖励和所述估计品质值计算所述在线值网络的第二损失值，包括：根据所述第二规划轨迹、所述动作奖励和所述估计品质值输入所述目标值网络，所述目标值网络输出所述第一规划轨迹的目标品质值；根据所述第一规划行驶轨迹、所述环境特征状态、所述估计品质值和所述目标品质值计算所述在线值网络的第二损失值。

可选地，在根据所述第一规划行驶轨迹和所述环境特征状态计算所述第一规划行驶轨迹的动作奖励之前，包括：构建环境特征状态与第一规划行驶轨迹的奖励函数；利用所述奖励函数计算所述第一规划行驶轨迹的动作奖励。

可选地，所述提取所述环境感知信息中当前驾驶环境下的环境特征状态，包括：识别所述环境感知信息中自车的位置与速度、周围车辆的位置和车道线；根据所述自车的位置与速度、所述周围车辆的位置和所述车道线生成所述环境特征状态。

本申请第二方面实施例提供一种车辆行驶轨迹的规划装置，包括：获取模块，用于获取车辆的环境感知信息；提取模块，用于提取所述环境感知信息中当前驾驶环境下的环境特征状态；输出模块，用于将所述环境特征状态输入预先建立的神经网络模型，所述神经网络模型输出所述车辆在当前驾驶环境下的规划行驶轨迹，其中，所述神经网络模型基于携带有环境特征状态的训练样本训练得到。

可选地，所述车辆行驶轨迹的规划装置，还包括：更新模块，用于在将所述环境特征状态输入预先建立的神经网络模型之前，获取携带有环境特征状态的训练样本；将所述训练样本中的环境特征状态输入所述在线策略网络和目标策略网络，所述在线策略网络和所述目标策略网络分别输出在当前驾驶环境下的第一规划行驶轨迹和第二规划行驶轨迹；将所述第一规划行驶轨迹输入所述在线值网络，所述在线值网络输出所述第一规划行驶轨迹的估计品质值，并根据所述第一规划行驶轨迹和所述环境特征状态计算所述第一规划行驶轨迹的动作奖励；根据所述第一规划行驶轨迹和所述环境特征状态计算所述在线策略网络的第一损失值，根据所述第一规划行驶轨迹、所述第二规划轨迹、所述环境特征状态、所述动作奖励和所述估计品质值计算所述在线值网络的第二损失值；根据所述第一损失值更新所述在线策略网络和所述目标策略网络的网络参数，根据所述第二损失值更新所述在线值网络和所述目标值网络的网络参数。

可选地，所述提取模块进一步用于：识别所述环境感知信息中自车的位置与速度、周围车辆的位置和车道线；根据所述自车的位置与速度、所述周围车辆的位置和所述车道线生成所述环境特征状态。

本申请第三方面实施例提供一种车辆，包括：存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序，所述处理器执行所述程序，以实现如上述实施例所述的车辆行驶轨迹的规划方法。

本申请第四方面实施例提供一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行，以用于实现如上述实施例所述的车辆行驶轨迹的规划方法。

由此，本申请至少具有如下有益效果：

本申请实施例可以基于环境感知信息，经过神经网络模型处理，输出行驶轨迹，实现局部端到端的轨迹规划，与前端感知、后端控制解耦，匹配更加灵活，算法模型规模相对较小，便于工程化，同时具有类人驾驶不断成长学习的特性。由此，解决了相关技术中自动驾驶策略需要的神经网络过于庞大，导致内部过程不可监督，工程部署实现困难等技术问题。

本申请附加的方面和优点将在下面的描述中部分给出，部分将从下面的描述中变得明显，或通过本申请的实践了解到。

附图说明

本申请上述的和/或附加的方面和优点从下面结合附图对实施例的描述中将变得明显和容易理解，其中：

图1为根据本申请实施例提供的车辆行驶轨迹的规划方法的流程图；

图2为根据本申请实施例提供的神经网络模型的训练过程图；

图3为根据本申请实施例提供的车辆行驶轨迹的规划装置的示意图；

图4为根据本申请实施例提供的车辆的结构示意图。

具体实施方式

下面详细描述本申请的实施例，所述实施例的示例在附图中示出，其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的，旨在用于解释本申请，而不能理解为对本申请的限制。

相关技术通过以下方法实现对车辆行驶轨迹的规划：

（1）利用自动驾驶车辆实际驾驶场景中的速度及与周边环境内车辆的相对位置、相对速度信息建立带有3个隐含层的决策神经网络，并利用换道安全奖励函数对决策神经网络进行训练拟合Q估值函数，获取Q估值最大的动作；利用自动驾驶车辆的实际驾驶场景中的速度和周边环境车辆的相对位置信息与跟驰或换道动作对应的奖励函数，建立深度Q学习的加速度决策模型，获得换道或跟驰加速度信息，当换道时，采用5次多项式曲线生成一条参考换道轨迹。

该方法为解决工程化问题，同样采用局部端到端，利用强化生成换道轨迹，保障车辆完成换道，但是仅能用于自动换道工况，并未将自动驾驶实用场景进行扩大。

（2）利用基于注意力机制的深度神经网络，对密集交通的动态环境变化进行了建模，可以对密集交通的动态变化进行更准确的预测，同时将基于注意力机制的动态环境模型与已有的强化学习算法结合，得到了基于环境模型的强化学习算法，可以提高车辆通过密集交通环境的成功率，且提高了在强化学习过程中的采样效率。

该方法将强化学习用于自动驾驶中，主要集中在对环境的预测，但并未强调在行驶轨迹中的应用。

（3）获取上游数据，上游数据包括感知融合数据、定位数据和控制数据；将上游数据输入到深度学习的模型中，输出得到感受野模型和第一预测轨迹；将感受野模型和第一预测轨迹输入到强化学习算法中，输出得到第一规划轨迹；根据第一规划轨迹控制车辆执行相应操作。

该方法将深度学习的模型和强化学习算法结合，确保了决策的稳定性和前瞻性，同样采用了局部端到端的方式，降低了预测的计算消耗。但过于解耦，将预测与决策模型拆成两个网络，同时又存在交互关系，在智能程度上略有欠缺。

下面参考附图描述本申请实施例的车辆行驶轨迹的规划方法、装置、车辆及存储介质。针对上述背景技术中提到的相关技术中对于路径的规划方法中，神经网络过于庞大，内部过程不可监督，工程部署实现困难的问题，本申请提供了一种车辆行驶轨迹的规划方法，在该方法中，基于车辆的环境感知信息，经过神经网络模型处理，输出车辆行驶轨迹。由此，解决了相关技术中自动驾驶策略需要的神经网络过于庞大，导致内部过程不可监督，工程部署实现困难等问题。

具体而言，图1为本申请实施例所提供的一种车辆行驶轨迹的规划方法的流程示意图。

如图1所示，该车辆行驶轨迹的规划方法包括以下步骤：

在步骤S101中，获取车辆的环境感知信息。

其中，环境感知信息可以由车辆的传感器获得，包括自车位置与速度、周围车辆的位置、车道线等。

在步骤S102中，提取环境感知信息中当前驾驶环境下的环境特征状态。

在本申请实施例中，提取环境感知信息中当前驾驶环境下的环境特征状态，包括：识别环境感知信息中自车的位置与速度、周围车辆的位置和车道线；根据自车的位置与速度、周围车辆的位置和车道线生成环境特征状态。

可以理解的是，本申请实施例可以根据环境感知信息中当前驾驶环境下的自车的位置与速度、周围车辆的位置和车道线生成环境特征状态。

举例而言，本申请实施例可以筛选出距离自车最近的10个交通参与者的x、y方向的位置及速度、加速度，以及左车道线、右车道线、左左车道线、右右车道线的三次多项式系数及类别，以及自车的x、y方向的速度、加速度，共计84维。

在步骤S103中，将环境特征状态输入预先建立的神经网络模型，神经网络模型输出车辆在当前驾驶环境下的规划行驶轨迹，其中，神经网络模型基于携带有环境特征状态的训练样本训练得到。

可以理解的是，本申请实施例可以将上述步骤获取得到的环境特征状态输入预先构建的神经网络模型，利用神经网络模型输出车辆在当前驾驶环境下的规划行驶轨迹，其中，具体的神经网络模型的构建方法在下述实施例中进行阐述。

在本申请实施例中，神经网络模型包括策略网络和值网络，策略网络用于根据环境特征状态输出期望行驶轨迹点，根据期望行驶轨迹点生成规划行驶轨迹；值网络用于根据期望行驶轨迹点输出品质值。

可以理解的是，本申请实施例中的神经网络模型包括两类，一种是策略网络，用于根据环境特征状态输出期望行驶轨迹点，并根据期望行驶轨迹点生成规划行驶轨迹，另一种是值网络，用于根据期望行驶轨迹点输出品质值，也可以理解为用于估计期望行驶轨迹点的价值。

在本申请实施例中，策略网络包括网络结构相同的在线策略网络和目标策略网络，在线策略网络用于网络参数的训练，目标策略网络用于吸收在线策略网络训练得到的网络参数；值网络包括网络结构相同的在线值网络和目标值网络，在线值网络用于网络参数的训练，目标值网络用于吸收在线值网络训练得到的网络参数。

可以理解的是，本申请实施例中策略网络包括在线策略网络和目标策略网络，在线策略网络和目标策略网络结构相同，在线策略网络用于网络参数的训练，目标策略网络用于吸收在线策略网络训练得到的网络参数；值网络包括在线值网络和目标值网络，在线值网络和目标值网络结构相同，在线值网络用于网络参数的训练，目标值网络用于吸收在线值网络训练得到的网络参数。在线网络和目标网络的区别在于目标网络以滑动平均数的方法缓慢的将在线网络中的参数更新到自身。

其中，策略网络的结构为输入环境特征状态，输出得到规划行驶轨迹（轨迹点），5s内，以0.25s为间隔的期望轨迹点，每个轨迹点包括xy位置，速率、xy加速度，其结构采用多层感知机（MLP），输入为84维度，共5层，神经元个数分别为128，256，512，128，100，最后输出的100维数据，5个一组作为一个轨迹点。

值网络的结构输入为环境特征状态、规划行驶轨迹、和规划行驶轨迹的奖励值，拼接成185维向量，输出为规划行驶轨迹的品质值，其结构采用多层感知机（MLP），输入为185维度，共5层，神经元个数分别为128，256，512，128，1，最后输出的1维数据代表对当前动作的评价。

在本申请实施例中，在将环境特征状态输入预先建立的神经网络模型之前，还包括：获取携带有环境特征状态的训练样本；将训练样本中的环境特征状态输入在线策略网络和目标策略网络，在线策略网络和目标策略网络分别输出在当前驾驶环境下的第一规划行驶轨迹和第二规划行驶轨迹；将第一规划行驶轨迹输入在线值网络，在线值网络输出第一规划行驶轨迹的估计品质值，并根据第一规划行驶轨迹和环境特征状态计算第一规划行驶轨迹的动作奖励；根据第一规划行驶轨迹和环境特征状态计算在线策略网络的第一损失值，根据第一规划行驶轨迹、第二规划轨迹、环境特征状态、动作奖励和估计品质值计算在线值网络的第二损失值；根据第一损失值更新在线策略网络和目标策略网络的网络参数，根据第二损失值更新在线值网络和目标值网络的网络参数。

可以理解的是，本申请实施例可以获取携带有环境特征状态的训练样本，将训练样本中的环境特征状态输入在线策略网络和目标策略网络/>，利用在线策略网络输出在当前驾驶环境下的第一规划行驶轨迹，利用目标策略网络输出在当前驾驶环境下的第二规划行驶轨迹；

在线值网络根据第一规划行驶轨迹输出第一规划行驶轨迹的估计品质值，并根据第一规划行驶轨迹和环境特征状态计算第一规划行驶轨迹的动作奖励；

根据第一规划行驶轨迹和环境特征状态计算在线策略网络的第一损失值，并根据第一规划行驶轨迹、第二规划行驶轨迹、环境特征状态、动作奖励和估计品质值计算在线值网络的第二损失值；

根据第一损失值更新在线策略网络和目标策略网络的网络参数，同时根据第二损失值更新在线值网络和目标值网络的网络参数。

其中，计算第一损失值的函数如下：

；

其中，s为环境特征状态，为第一规划行驶轨迹（即在线策略网络的输出（轨迹点）），/>为在线策略网络，/>为在线值网络，/>为估计品质值。

在本申请实施例中，根据第一规划行驶轨迹、第二规划轨迹、环境特征状态、动作奖励和估计品质值计算在线值网络的第二损失值，包括：根据第二规划轨迹、动作奖励和估计品质值输入目标值网络，目标值网络输出第一规划轨迹的目标品质值；根据第一规划行驶轨迹、环境特征状态、估计品质值和目标品质值计算在线值网络的第二损失值。

可以理解的是，本申请实施例目标值网络可以根据第二规划轨迹、动作奖励和估计品质值计算第一规划轨迹的目标品质值，进一步根据第一规划行驶轨迹、环境特征状态、估计品质值和目标品质值来计算在线值网络的第二损失值。

其中，计算第二损失值的函数如下：

；

其中，N为样本数量，i为第i个样本，为环境特征状态，/>为在线策略网络输出的第一规划行驶轨迹，/>是目标值网络的估计品质值，根据奖励函数计算得到，为在线策略网络，/>为在线值网络。/>的计算方法为：

；

其中，是目标策略网络输出的第二规划行驶轨迹，/>为第一规划行驶轨迹的动作奖励。

在本申请实施例中，在根据第一规划行驶轨迹和环境特征状态计算第一规划行驶轨迹的动作奖励之前，包括：构建环境特征状态与第一规划行驶轨迹的奖励函数；利用奖励函数计算第一规划行驶轨迹的动作奖励。

其中，奖励函数由碰撞奖励、道路偏离奖励、舒适度奖励三部分组成，奖励函数为三者之和。

可以理解的是，本申请实施例可以构建环境特征状态s_t和第一规划行驶轨迹a_t的奖励函数r_t=R(s_t, a_t)，利用奖励函数计算第一规划行驶轨迹的动作奖励。

其中，碰撞奖励如下：

；

道路偏离奖励如下：

；

其中，d为轨迹偏离车道中心线的距离，k为跨越虚线的个数；

舒适度奖励如下：

。

综上，本申请实施例中神经网络模型的训练过程如图2所示，包括：

步骤1：初始化策略网络和值网络的参数。

步骤2：在每个时间步骤中，使用噪声策略，添加高斯噪声到策略网络的输出采样一个轨迹点序列并执行规划轨迹。

步骤3：使用采样数据来更新策略和值网络的参数，在线网络通过梯度下降方法最小化损失函数，其中loss_at为各抽取样本的在线值网络输出值的平均值。

步骤4：更新目标网络参数：。

代表目标网络中的参数，/>代表在线网络中的参数，将二者加权平均后，更新为目标网络中的参数，在本申请实施例中，/>=0.1。

步骤5：重复步骤2、3和4，直到达到预定的训练次数或性能标准。

在训练完成后，使用神经网络模型来执行自动驾驶任务，评估性能，并可以根据需求进行超参数调整和改进。

根据本申请实施例提出的车辆行驶轨迹的规划方法，基于环境感知信息，经过神经网络模型处理，输出行驶轨迹，实现局部端到端的轨迹规划，与前端感知、后端控制解耦，匹配更加灵活，算法模型规模相对较小，便于工程化，同时具有类人驾驶不断成长学习的特性。

其次参照附图描述根据本申请实施例提出的车辆行驶轨迹的规划装置。

图3是本申请实施例的车辆行驶轨迹的规划装置的方框示意图。

如图3所示，该车辆行驶轨迹的规划装置10包括：获取模块100、提取模块200和输出模块300。

其中，获取模块100用于获取车辆的环境感知信息；提取模块200用于提取环境感知信息中当前驾驶环境下的环境特征状态；输出模块300用于将环境特征状态输入预先建立的神经网络模型，神经网络模型输出车辆在当前驾驶环境下的规划行驶轨迹，其中，神经网络模型基于携带有环境特征状态的训练样本训练得到。

在本申请实施例中，本申请实施例的车辆行驶轨迹的规划装置10还包括：更新模块。

其中，更新模块，用于在将环境特征状态输入预先建立的神经网络模型之前，获取携带有环境特征状态的训练样本；将训练样本中的环境特征状态输入在线策略网络和目标策略网络，在线策略网络和目标策略网络分别输出在当前驾驶环境下的第一规划行驶轨迹和第二规划行驶轨迹；将第一规划行驶轨迹输入在线值网络，在线值网络输出第一规划行驶轨迹的估计品质值，并根据第一规划行驶轨迹和环境特征状态计算第一规划行驶轨迹的动作奖励；根据第一规划行驶轨迹和环境特征状态计算在线策略网络的第一损失值，根据第一规划行驶轨迹、第二规划轨迹、环境特征状态、动作奖励和估计品质值计算在线值网络的第二损失值；根据第一损失值更新在线策略网络和目标策略网络的网络参数，根据第二损失值更新在线值网络和目标值网络的网络参数。

在本申请实施例中，提取模块200进一步用于：识别环境感知信息中自车的位置与速度、周围车辆的位置和车道线；根据自车的位置与速度、周围车辆的位置和车道线生成环境特征状态。

需要说明的是，前述对车辆行驶轨迹的规划方法实施例的解释说明也适用于该实施例的车辆行驶轨迹的规划装置，此处不再赘述。

根据本申请实施例提出的车辆行驶轨迹的规划装置，基于环境感知信息，经过神经网络模型处理，输出行驶轨迹，实现局部端到端的轨迹规划，与前端感知、后端控制解耦，匹配更加灵活，算法模型规模相对较小，便于工程化，同时具有类人驾驶不断成长学习的特性。

图4为本申请实施例提供的车辆的结构示意图。该车辆可以包括：

存储器401、处理器402及存储在存储器401上并可在处理器402上运行的计算机程序。

处理器402执行程序时实现上述实施例中提供的车辆行驶轨迹的规划方法。

进一步地，车辆还包括：

通信接口403，用于存储器401和处理器402之间的通信。

存储器401，用于存放可在处理器402上运行的计算机程序。

存储器401可能包含高速RAM（Random Access Memory，随机存取存储器）存储器，也可能还包括非易失性存储器，例如至少一个磁盘存储器。

如果存储器401、处理器402和通信接口403独立实现，则通信接口403、存储器401和处理器402可以通过总线相互连接并完成相互间的通信。总线可以是ISA（IndustryStandard Architecture，工业标准体系结构）总线、PCI（Peripheral Component，外部设备互连）总线或EISA（Extended Industry Standard Architecture，扩展工业标准体系结构）总线等。总线可以分为地址总线、数据总线、控制总线等。为便于表示，图4中仅用一条粗线表示，但并不表示仅有一根总线或一种类型的总线。

可选的，在具体实现上，如果存储器401、处理器402及通信接口403，集成在一块芯片上实现，则存储器401、处理器402及通信接口403可以通过内部接口完成相互间的通信。

处理器402可能是一个CPU（Central Processing Unit，中央处理器），或者是ASIC（Application Specific Integrated Circuit，特定集成电路），或者是被配置成实施本申请实施例的一个或多个集成电路。

本申请实施例还提供一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现如上的车辆行驶轨迹的规划方法。

在本说明书的描述中，参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本申请的至少一个实施例或示例中。在本说明书中，对上述术语的示意性表述不是必须针对的是相同的实施例或示例。而且，描述的具体特征、结构、材料或者特点可以在任一个或N个实施例或示例中以合适的方式结合。此外，在不相互矛盾的情况下，本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。

此外，术语“第一”、“第二”仅用于描述目的，而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此，限定有“第一”、“第二”的特征可以明示或者隐含地包括至少一个该特征。在本申请的描述中，“N个”的含义是至少两个，例如两个，三个等，除非另有明确具体的限定。

流程图中或在此以其他方式描述的任何过程或方法描述可以被理解为，表示包括一个或N个用于实现定制逻辑功能或过程的步骤的可执行指令的代码的模块、片段或部分，并且本申请的优选实施方式的范围包括另外的实现，其中可以不按所示出或讨论的顺序，包括根据所涉及的功能按基本同时的方式或按相反的顺序，来执行功能，这应被本申请的实施例所属技术领域的技术人员所理解。

应当理解，本申请的各部分可以用硬件、软件、固件或它们的组合来实现。在上述实施方式中，N个步骤或方法可以用存储在存储器中且由合适的指令执行系统执行的软件或固件来实现。如，如果用硬件来实现和在另一实施方式中一样，可用本领域公知的下列技术中的任一项或他们的组合来实现：具有用于对数据信号实现逻辑功能的逻辑门电路的离散逻辑电路，具有合适的组合逻辑门电路的专用集成电路，可编程门阵列，现场可编程门阵列等。

本技术领域的普通技术人员可以理解实现上述实施例方法携带的全部或部分步骤是可以通过程序来指令相关的硬件完成，所述的程序可以存储于一种计算机可读存储介质中，该程序在执行时，包括方法实施例的步骤之一或其组合。

尽管上面已经示出和描述了本申请的实施例，可以理解的是，上述实施例是示例性的，不能理解为对本申请的限制，本领域的普通技术人员在本申请的范围内可以对上述实施例进行变化、修改、替换和变型。

Claims

1.一种车辆行驶轨迹的规划方法，其特征在于，包括以下步骤：

获取车辆的环境感知信息；

提取所述环境感知信息中当前驾驶环境下的环境特征状态；

将所述环境特征状态输入预先建立的神经网络模型，所述神经网络模型输出所述车辆在当前驾驶环境下的规划行驶轨迹，其中，所述神经网络模型基于携带有环境特征状态的训练样本训练得到；所述神经网络模型包括策略网络和值网络，所述策略网络用于根据所述环境特征状态输出期望行驶轨迹点，根据所述期望行驶轨迹点生成所述规划行驶轨迹；所述值网络用于根据所述期望行驶轨迹点输出品质值；所述策略网络包括网络结构相同的在线策略网络和目标策略网络，所述在线策略网络用于网络参数的训练，所述目标策略网络用于吸收所述在线策略网络训练得到的网络参数；所述值网络包括网络结构相同的在线值网络和目标值网络，所述在线值网络用于网络参数的训练，所述目标值网络用于吸收所述在线值网络训练得到的网络参数；在将所述环境特征状态输入预先建立的神经网络模型之前，还包括：获取携带有环境特征状态的训练样本；将所述训练样本中的环境特征状态输入所述在线策略网络和目标策略网络，所述在线策略网络和所述目标策略网络分别输出在当前驾驶环境下的第一规划行驶轨迹和第二规划行驶轨迹；将所述第一规划行驶轨迹输入所述在线值网络，所述在线值网络输出所述第一规划行驶轨迹的估计品质值，并根据所述第一规划行驶轨迹和所述环境特征状态计算所述第一规划行驶轨迹的动作奖励；根据所述第一规划行驶轨迹和所述环境特征状态计算所述在线策略网络的第一损失值，根据所述第一规划行驶轨迹、所述第二规划行驶轨迹、所述环境特征状态、所述动作奖励和所述估计品质值计算所述在线值网络的第二损失值；根据所述第一损失值更新所述在线策略网络和所述目标策略网络的网络参数，根据所述第二损失值更新所述在线值网络和所述目标值网络的网络参数；其中，计算第一损失值的函数如下：

；

其中，s为环境特征状态，为第一规划行驶轨迹，/>为在线策略网络，/>为在线值网络，/>为估计品质值；

计算第二损失值的函数如下：

；

其中，N为样本数量，i为第i个样本，为环境特征状态，/>为在线策略网络输出的第一规划行驶轨迹，/>是目标值网络的估计品质值，根据奖励函数计算得到，/>为在线策略网络，/>为在线值网络，/>的计算方法为：

；

2.根据权利要求1所述的车辆行驶轨迹的规划方法，其特征在于，所述根据所述第一规划行驶轨迹、所述第二规划行驶轨迹、所述环境特征状态、所述动作奖励和所述估计品质值计算所述在线值网络的第二损失值，包括：

根据所述第二规划行驶轨迹、所述动作奖励和所述估计品质值输入所述目标值网络，所述目标值网络输出所述第一规划行驶轨迹的目标品质值；

根据所述第一规划行驶轨迹、所述环境特征状态、所述估计品质值和所述目标品质值计算所述在线值网络的第二损失值。

3.根据权利要求1所述的车辆行驶轨迹的规划方法，其特征在于，在根据所述第一规划行驶轨迹和所述环境特征状态计算所述第一规划行驶轨迹的动作奖励之前，包括：

构建环境特征状态与第一规划行驶轨迹的奖励函数；

利用所述奖励函数计算所述第一规划行驶轨迹的动作奖励。

4.根据权利要求1-3任意一项所述的车辆行驶轨迹的规划方法，其特征在于，所述提取所述环境感知信息中当前驾驶环境下的环境特征状态，包括：

识别所述环境感知信息中自车的位置与速度、周围车辆的位置和车道线；

根据所述自车的位置与速度、所述周围车辆的位置和所述车道线生成所述环境特征状态。

5.一种车辆行驶轨迹的规划装置，其特征在于，包括：

获取模块，用于获取车辆的环境感知信息；

提取模块，用于提取所述环境感知信息中当前驾驶环境下的环境特征状态；

输出模块，用于将所述环境特征状态输入预先建立的神经网络模型，所述神经网络模型输出所述车辆在当前驾驶环境下的规划行驶轨迹，其中，所述神经网络模型基于携带有环境特征状态的训练样本训练得到；所述神经网络模型包括策略网络和值网络，所述策略网络用于根据所述环境特征状态输出期望行驶轨迹点，根据所述期望行驶轨迹点生成所述规划行驶轨迹；所述值网络用于根据所述期望行驶轨迹点输出品质值；所述策略网络包括网络结构相同的在线策略网络和目标策略网络，所述在线策略网络用于网络参数的训练，所述目标策略网络用于吸收所述在线策略网络训练得到的网络参数；所述值网络包括网络结构相同的在线值网络和目标值网络，所述在线值网络用于网络参数的训练，所述目标值网络用于吸收所述在线值网络训练得到的网络参数；在将所述环境特征状态输入预先建立的神经网络模型之前，还包括：获取携带有环境特征状态的训练样本；将所述训练样本中的环境特征状态输入所述在线策略网络和目标策略网络，所述在线策略网络和所述目标策略网络分别输出在当前驾驶环境下的第一规划行驶轨迹和第二规划行驶轨迹；将所述第一规划行驶轨迹输入所述在线值网络，所述在线值网络输出所述第一规划行驶轨迹的估计品质值，并根据所述第一规划行驶轨迹和所述环境特征状态计算所述第一规划行驶轨迹的动作奖励；根据所述第一规划行驶轨迹和所述环境特征状态计算所述在线策略网络的第一损失值，根据所述第一规划行驶轨迹、所述第二规划行驶轨迹、所述环境特征状态、所述动作奖励和所述估计品质值计算所述在线值网络的第二损失值；根据所述第一损失值更新所述在线策略网络和所述目标策略网络的网络参数，根据所述第二损失值更新所述在线值网络和所述目标值网络的网络参数；其中，计算第一损失值的函数如下：

；

计算第二损失值的函数如下：

；

6.一种车辆，其特征在于，包括：存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序，所述处理器执行所述程序，以实现如权利要求1-4任一项所述的车辆行驶轨迹的规划方法。

7.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，该程序被处理器执行，以用于实现如权利要求1-4任一项所述的车辆行驶轨迹的规划方法。