CN109543225A

CN109543225A - 车辆的控制方案生成方法、装置、存储介质和电子设备

Info

Publication number: CN109543225A
Application number: CN201811224793.XA
Authority: CN
Inventors: 孟扬; 刘冲; 张骞; 刘帅; 杨明
Original assignee: Neusoft Corp
Current assignee: Neusoft Corp
Priority date: 2018-10-19
Filing date: 2018-10-19
Publication date: 2019-03-29
Anticipated expiration: 2038-10-19
Also published as: CN109543225B

Abstract

本公开涉及一种车辆的控制方案生成方法、装置、存储介质和电子设备，该方法包括：通过车辆的预设行驶状态模型和HJB函数建立包括两个回声状态网的自适应动态规划算法模型；循环执行根据上述两个回声状态网输出的代价函数和控制策略，以及利用该HJB函数获取到的近似误差，对上述两个回声状态网的输出权值进行更新的步骤，直至获取能够使该近似误差最小化的目标控制策略输出权值；将该车辆当前的行驶状态模型作为具备该目标控制策略输出权值的回声状态网的输入，得到目标控制策略，作为车辆的控制方案。通过经过更新的回声状态网获取自动驾驶所需的控制策略，减少控制策略生成过程中的计算量和复杂度，增强自适应动态规划算法的实际应用能力。

Description

车辆的控制方案生成方法、装置、存储介质和电子设备

技术领域

本公开涉及自动驾驶领域，具体地，涉及一种车辆的控制方案生成方法、装置、存储介质和电子设备。

背景技术

随着V2X(Vehicle to Everything，车对外界的信息交换)车联网技术的推广应用，在现代交通系统中，车辆对周围环境的感知能力大幅提升。V2X技术可以提供给车辆精准的位置、速度和加速度等信息。利用V2X技术可以预见性地判断车辆环境，从而提前计算车辆的最优控制策略，对车辆的自动控制提供帮助。最优控制策略是考虑车辆运行过程中的综合因素，包括最短路径、最快时间和最少能耗，通过这些综合因素可以建立相应的控制指标，并通过最小化控制指标从而获取最优控制策略，进而实现既保证车辆安全，又节能减排的目的。相关技术中，可以根据车辆实际运动情况对车辆进行建模，其中，车辆的行驶状态模型中的行驶参数为根据车辆实际运行情况确定的车辆行驶信息，基于该模型的控制算法可以为车辆提供精准的实时控制。然而，根据实际情况建立的行驶状态模型具有一定的非线性特性，导致其在控制过程中比线性系统更加复杂。在求解非线性系统的最优控制策略时，系统方程的非线性特性导致其解析解很难被得到。

发明内容

为克服相关技术中存在的问题，本公开的目的是提供一种车辆的控制方案生成方法、装置、存储介质和电子设备。

为了实现上述目的，根据本公开实施例的第一方面，提供一种车辆的控制方案生成方法，所述方法包括：

通过车辆的预设行驶状态模型和HJB函数建立自适应动态规划算法模型，所述自适应动态规划算法模型包括第一回声状态网与第二回声状态网，所述第一回声状态网用于生成控制车辆所需的目标代价函数，所述第二回声状态网用于生成控制车辆所需的目标控制策略；

循环执行根据所述第一回声状态网输出的代价函数、所述第二回声状态网输出的控制策略，以及利用所述HJB函数获取到的近似误差，对所述第一回声状态网的代价函数输出权值以及所述第二回声状态网的控制策略输出权值进行更新的步骤，直至将所述控制策略输出权值更新为能够使所述近似误差最小化的目标控制策略输出权值；

在将所述目标控制策略输出权值作为所述第二回声状态网的控制策略输出权值后，获取所述车辆在当前时刻的目标行驶状态模型作为所述第二回声状态网的输入，以得到所述第二回声状态网输出的所述目标控制策略，作为车辆在当前时刻的控制方案。

可选的，所述通过车辆的预设行驶状态模型和HJB函数建立自适应动态规划算法模型，包括：

根据代价函数近似方程，建立所述第一回声状态网，所述代价函数近似方程为以所述预设行驶状态模型为变量，以随机生成的第一储备池矩阵与第一输入权值以及预先设定的第一储备池状态、第一储备池泄漏率与第一代价函数输出权值作为参数的方程；

根据控制策略近似方程，建立所述第二回声状态网，所述控制策略近似方程为以所述预设行驶状态模型作为变量，以随机生成的第二储备池矩阵与第二输入权值以及预先设定的第二储备池状态、第二储备池泄漏率与第一控制策略输出权值作为参数的方程；

根据所述第一回声状态网、所述第二回声状态网以及所述HJB函数创建所述自适应动态规划算法模型，其中所述第一回声状态网和所述第二回声状态网的输出作为所述HJB函数的输入。

可选的，所述循环执行根据所述第一回声状态网输出的代价函数、所述第二回声状态网输出的控制策略，以及利用所述HJB函数获取到的近似误差，对所述代价函数输出权值以及所述控制策略输出权值进行更新的步骤，直至将所述控制策略输出权值更新为能够使所述近似误差最小化的目标控制策略输出权值，包括：

将所述预设行驶状态模型分别作为所述第一回声状态网与所述第二回声状态网的输入，以获取所述第一回声状态网输出的第一代价函数，以及所述第二回声状态网输出的第一控制策略，所述预设行驶状态模型为根据所述车辆在历史时刻的行驶参数建立的行驶状态模型，所述行驶参数包括相对距离、空气阻力、质量系数、摩擦力以及推动力，所述历史时刻为所述当前时刻之前的一个或多个时刻，所述相对距离为所述车辆与目标位置的距离；

将所述第一代价函数和所述第一控制策略作为所述HJB函数的输入，以获取所述HJB函数输出的所述近似误差；

通过预设的数值转换方法，将所述近似误差限定为非负的误差绝对值；

将所述第一回声状态网当前的代价函数输出权值、所述误差绝对值以及预设的第一更新率作为预设的梯度下降方程的输入，以获取所述梯度下降方程输出的所述第一回声状态网的更新后的代价函数输出权值；

将所述第二回声状态网当前的控制策略输出权值、所述误差绝对值、预设的第二更新率以及作为所述梯度下降方程的输入，以获取所述梯度下降方程输出的所述第二回声状态网的更新后的控制策略输出权值；

当所述当前的代价函数输出权值与所述更新后的代价函数输出权值的差值的绝对值小于或等于预设的计算精度时，将所述更新后的控制策略输出权值作为所述目标控制策略输出权值；或者，

当所述当前的代价函数输出权值与所述更新后的代价函数输出权值的差值的绝对值大于所述计算精度时，将所述更新后的代价函数输出权值作为所述第一回声状态网当前的代价函数输出权值，并将所述更新后的控制策略输出权值作为所述第二回声状态网当前的控制策略输出权值，重复执行从所述将所述预设行驶状态模型分别作为所述第一回声状态网与所述第二回声状态网的输入，以获取所述第一回声状态网输出的第一代价函数，以及所述第二回声状态网输出的第一控制策略，到所述将所述第二回声状态网当前的控制策略输出权值、所述误差绝对值、预设的第二更新率以及作为所述梯度下降方程的输入，以获取所述梯度下降方程输出的所述第二回声状态网的更新后的控制策略输出权值，直至所述当前的代价函数输出权值与所述更新后的代价函数输出权值的差值小于或等于预设的计算精度。

可选的，所述在将所述目标控制策略输出权值作为所述第二回声状态网的控制策略输出权值后，获取所述车辆在当前时刻的目标行驶状态模型作为所述第二回声状态网的输入，以得到所述第二回声状态网输出的所述目标控制策略，作为车辆在当前时刻的控制方案，包括：

将所述目标控制策略输出权值作为所述第二回声状态网当前的控制策略输出权值；

通过所述车辆在当前时刻的行驶参数，建立所述目标行驶状态模型，所述当前时刻的行驶参数包括所述当前时刻的相对距离、空气阻力、质量系数、摩擦力以及推动力；

将所述目标行驶状态模型作为所述第二回声状态网的输入，以获取所述第二回声状态网输出的所述目标控制策略，作为所述车辆在所述当前时刻的控制方案。

根据本公开实施例的第二方面，提供一种车辆的控制方案生成装置，所述装置包括：

模型建立模块，用于通过车辆的预设行驶状态模型和HJB函数建立自适应动态规划算法模型，所述自适应动态规划算法模型包括第一回声状态网与第二回声状态网，所述第一回声状态网用于生成控制车辆所需的目标代价函数，所述第二回声状态网用于生成控制车辆所需的目标控制策略；

权值更新模块，用于循环执行根据所述第一回声状态网输出的代价函数、所述第二回声状态网输出的控制策略，以及利用所述HJB函数获取到的近似误差，对所述第一回声状态网的代价函数输出权值以及所述第二回声状态网的控制策略输出权值进行更新的步骤，直至将所述控制策略输出权值更新为能够使所述近似误差最小化的目标控制策略输出权值；

方案确定模块，用于在将所述目标控制策略输出权值作为所述第二回声状态网的控制策略输出权值后，获取所述车辆在当前时刻的目标行驶状态模型作为所述第二回声状态网的输入，以得到所述第二回声状态网输出的所述目标控制策略，作为车辆在当前时刻的控制方案。

可选的，所述模型建立模块，包括：

第一回声状态网建立子模块，用于根据代价函数近似方程，建立所述第一回声状态网，所述代价函数近似方程为以所述预设行驶状态模型为变量，以随机生成的第一储备池矩阵与第一输入权值以及预先设定的第一储备池状态、第一储备池泄漏率与第一代价函数输出权值作为参数的方程；

第二回声状态网建立子模块，用于根据控制策略近似方程，建立所述第二回声状态网，所述控制策略近似方程为以所述预设行驶状态模型作为变量，以随机生成的第二储备池矩阵与第二输入权值以及预先设定的第二储备池状态、第二储备池泄漏率与第一控制策略输出权值作为参数的方程；

第一模型建立子模块，用于根据所述第一回声状态网、所述第二回声状态网以及所述HJB函数创建所述自适应动态规划算法模型，其中所述第一回声状态网和所述第二回声状态网的输出作为所述HJB函数的输入。

可选的，所述权值更新模块，包括：

模型处理子模块，用于将所述预设行驶状态模型分别作为所述第一回声状态网与所述第二回声状态网的输入，以获取所述第一回声状态网输出的第一代价函数，以及所述第二回声状态网输出的第一控制策略，所述预设行驶状态模型为根据所述车辆在历史时刻的行驶参数建立的行驶状态模型，所述行驶参数包括相对距离、空气阻力、质量系数、摩擦力以及推动力，所述历史时刻为所述当前时刻之前的一个或多个时刻，所述相对距离为所述车辆与目标位置的距离；

误差获取子模块，用于将所述第一代价函数和所述第一控制策略作为所述HJB函数的输入，以获取所述HJB函数输出的所述近似误差；

误差限定子模块，用于通过预设的数值转换方法，将所述近似误差限定为非负的误差绝对值；

第一权值更新子模块，用于将所述第一回声状态网当前的代价函数输出权值、所述误差绝对值以及预设的第一更新率作为预设的梯度下降方程的输入，以获取所述梯度下降方程输出的所述第一回声状态网的更新后的代价函数输出权值；

第二权值更新子模块，用于将所述第二回声状态网当前的控制策略输出权值、所述误差绝对值、预设的第二更新率以及作为所述梯度下降方程的输入，以获取所述梯度下降方程输出的所述第二回声状态网的更新后的控制策略输出权值；

权值确定子模块，用于当所述当前的代价函数输出权值与所述更新后的代价函数输出权值的差值的绝对值小于或等于预设的计算精度时，将所述更新后的控制策略输出权值作为所述目标控制策略输出权值；或者，

循环更新子模块，用于当所述当前的代价函数输出权值与所述更新后的代价函数输出权值的差值的绝对值大于所述计算精度时，将所述更新后的代价函数输出权值作为所述第一回声状态网当前的代价函数输出权值，并将所述更新后的控制策略输出权值作为所述第二回声状态网当前的控制策略输出权值，重复执行从所述将所述预设行驶状态模型分别作为所述第一回声状态网与所述第二回声状态网的输入，以获取所述第一回声状态网输出的第一代价函数，以及所述第二回声状态网输出的第一控制策略，到所述将所述第二回声状态网当前的控制策略输出权值、所述误差绝对值、预设的第二更新率以及作为所述梯度下降方程的输入，以获取所述梯度下降方程输出的所述第二回声状态网的更新后的控制策略输出权值，直至所述当前的代价函数输出权值与所述更新后的代价函数输出权值的差值小于或等于预设的计算精度。

可选的，所述方案确定模块，包括：

状态网更新子模块，用于将所述目标控制策略输出权值作为所述第二回声状态网当前的控制策略输出权值；

第二模型建立子模块，用于通过所述车辆在当前时刻的行驶参数，建立所述目标行驶状态模型，所述当前时刻的行驶参数包括所述当前时刻的相对距离、空气阻力、质量系数、摩擦力以及推动力；

方案确定子模块，用于将所述目标行驶状态模型作为所述第二回声状态网的输入，以获取所述第二回声状态网输出的所述目标控制策略，作为所述车辆在所述当前时刻的控制方案。

根据本公开实施例的第三方面，提供一种计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现本公开实施例第一方面提供的车辆的控制方案生成方法的步骤。

根据本公开实施例的第四方面，提供一种电子设备，包括：

存储器，其上存储有计算机程序；

处理器，用于执行所述存储器中的所述计算机程序，以实现本公开实施例第一方面提供的车辆的控制方案生成方法的步骤。

通过上述技术方案，本公开能够通过车辆的预设行驶状态模型和HJB函数建立自适应动态规划算法模型，该自适应动态规划算法模型包括第一回声状态网与第二回声状态网，该第一回声状态网用于生成控制车辆所需的目标代价函数，该第二回声状态网用于生成控制车辆所需的目标控制策略；循环执行根据该第一回声状态网输出的代价函数、该第二回声状态网输出的控制策略，以及利用该HJB函数获取到的近似误差，对该第一回声状态网的代价函数输出权值以及该第二回声状态网的控制策略输出权值进行更新的步骤，直至将该控制策略输出权值更新为能够使该近似误差最小化的目标控制策略输出权值；在将该目标控制策略输出权值作为该第二回声状态网的控制策略输出权值后，获取该车辆在当前时刻的目标行驶状态模型作为该第二回声状态网的输入，以得到该第二回声状态网输出的该目标控制策略，作为车辆在当前时刻的控制方案。通过经过更新的回声状态网获取自动驾驶所需的控制策略，减少控制策略生成过程中的计算量和复杂度，增强自适应动态规划算法的实际应用能力。

本公开的其他特征和优点将在随后的具体实施方式部分予以详细说明。

附图说明

附图是用来提供对本公开的进一步理解，并且构成说明书的一部分，与下面的具体实施方式一起用于解释本公开，但并不构成对本公开的限制。在附图中：

图1是根据一示例性实施例示出的一种车辆的控制方案生成方法的流程图；

图2是根据图1所示实施例示出的一种自适应动态规划算法模型的建立方法的流程图；

图3是根据图1所示实施例示出的一种回声状态网输出权值的循环更新方法的流程图；

图4是根据一示例性实施例示出的一种自适应动态规划算法模型的示意图；

图5是根据图1所示实施例示出的一种车辆控制策略生成方法的流程图；

图6是根据一示例性实施例示出的一种车辆的控制方案生成装置的框图；

图7是根据图6所示实施例示出的一种模型建立模块的框图；

图8是根据图6所示实施例示出的一种权值更新模块的框图；

图9是根据图6所示实施例示出的一种方案确定模块的框图；

图10是根据一示例性实施例示出的一种电子设备的框图。

具体实施方式

这里将详细地对示例性实施例进行说明，其示例表示在附图中。下面的描述涉及附图时，除非另有表示，不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本公开相一致的所有实施方式。相反，它们仅是与如所附权利要求书中所详述的、本公开的一些方面相一致的装置和方法的例子。

图1是根据一示例性实施例示出的一种车辆的控制方案生成方法的流程图，如图1所示，该方法包括：

步骤101，通过车辆的预设行驶状态模型和HJB函数建立自适应动态规划算法模型。

其中，该自适应动态规划算法模型包括第一回声状态网与第二回声状态网，该第一回声状态网用于生成控制车辆所需的目标代价函数，该第二回声状态网用于生成控制车辆所需的目标控制策略。

示例地，在对车辆进行自动驾驶控制时，首先需要根据车辆的各种行驶参数为车辆行驶状态进行数学建模，车辆的行驶状态模型可以表示为下列表达式(1)和(2)：

其中，s表示相对距离，该相对距离为该车辆与目标位置的距离，v表示车辆行驶的速度，M表示车辆当前的质量系数，u表示车辆当前的推动力，c表示车辆在当前行驶过程中的收到的空气阻力，F表示车辆当前的摩擦力。如此，可以理解的是，表达式(1)表示距离相对于时间的导数等于速度，表达式(2)表示速度相对于时间的导数(即加速度)由空气阻力、车辆质量、摩擦力和推动力决定。

进一步地，可以设定x＝[s,v]^T，此时，该行驶状态模型可以表示为下列表达式(3)：

其中，需要说明的是，为该行驶状态模型中的变量赋上初始值后，即得到该预设行驶状态模型。

同时，可以设定行驶状态模型对应的性能指标函数的表达式(4)为：

其中，Q和R表示正定对角矩阵，x^TQx表示车辆在行驶过程中的速度和距离上的最优组合，代表了在车辆行驶过程中求取最优速度和最短距离的控制目的，u^TRu表示车辆控制过程中使用最少的控制量以达到控制目的，进而达到降低油耗的目的。基于此，车辆行驶的最优控制的实现可以理解为：在已建立的行驶状态模型(3)下，获取到一个最优控制策略。该最优控制策略可以使得该行驶状态模型(3)达到车辆行驶所需的任意状态，并同时满足性能指标函数(4)的最小化。

另外，哈密顿-雅可比-贝尔曼函数(Hamilton-Jacobi-Bellman Equation，简称HJB函数)是一个偏微分方程，是实现最佳控制的中心。该HJB函数的解是针对特定动态系统及相关成本函数下，具备最小成本的实值函数。基于此，在本实施例中，可以将该HJB函数的表达式(5)设定为：

其中，表示代价函数。根据最优性原理，对HJB函数求导后得到的函数表达式曲线在坐标原点上取得最优解，因此，可以对表达式(5)中的u进行求导，并该根据最优性原理使求导后获取到的函数表达式(5a)等于0，进而转换为最优控制策略表达式(6)：

将该表达式(6)带入该函数表达式(5a)，经过运算可以得到HJB函数的表达式(7)：

可以理解的是，通过该HJB函数的表达式(7)可以求得最优代价函数的值。但是，由于该表达式(7)是一个非线性微分方程，因此对该表达式(7)进行求解是比较困难的。为了求解该表达式(7)并得到最优代价函数和最优控制策略，本公开实施例根据动态规划的思想提供了下列步骤102中的策略迭代方法。

步骤102，循环执行根据该第一回声状态网输出的代价函数、该第二回声状态网输出的控制策略，以及利用该HJB函数获取到的近似误差，对该第一回声状态网的代价函数输出权值以及该第二回声状态网的控制策略输出权值进行更新的步骤，直至将该控制策略输出权值更新为能够使该近似误差最小化的目标控制策略输出权值。

示例地，在该步骤102的策略迭代方法中，首先向该第一回声状态网以及该第二回声状态网输入一个初始的行驶状态模型(即该预设行驶状态模型)，以输出该预设行驶状态模型对应的代价函数和控制策略，再将获取到的代价函数作为该HJB函数的输入，以获取两个回声状态网当前的近似误差。上述的使该近似误差最小化可以理解为使该近似误差与0的差值达到最小。需要说明的是，在理想状况下，将获取到的代价函数和控制策略作为该HJB函数的输入后，输出的值应当为0(如表达式(7)所示)，即该近似误差为0。但在实际应用中，一般不可能出现上述的理想状况，因此，此处默认在首次将该预设行驶状态模型作为两个回声状态网的输入，并获取到代价函数和控制策略，再根据HJB函数计算出近似误差的过程中输出的近似误差一定不是最小化的近似误差。因此，需要通过梯度下降的方式不断地对两个回声状态网的输出权值进行迭代更新，以使该近似误差趋近于0，直至该近似误差达到最小化。可以理解的是，通过最终迭代出的该目标控制策略输出权值，可以获得上述的最优控制策略。

步骤103，在将该目标控制策略输出权值作为该第二回声状态网的控制策略输出权值后，获取该车辆在当前时刻的目标行驶状态模型作为该第二回声状态网的输入，以得到该第二回声状态网输出的该目标控制策略，作为车辆在当前时刻的控制方案。

示例地，通过上述步骤101和步骤102确定了该目标控制策略输出权值后，将该第二回声状态网的控制策略输出权值更新为该目标控制策略输出权值。此时可以认为该自适应动态规划算法模型(包括上述更新后的第二回声状态网)已经被训练为能够实现最优控制的自适应动态规划算法模型。因此，在步骤103中，可以将当前时刻(或者任意指定时刻)的目标行驶状态模型作为该自适应动态规划算法模型的输入，并直接输出针对于该目标行驶状态模型的最优控制策略，即目标控制策略，该目标控制策略实际为与车辆的行驶状态模型具备相同结构的由多个行驶参数组成的控制模型。车辆的控制系统可以对该控制模型进行解析，并将解析出的行驶参数作为该车辆在该当前时刻的控制方案。

综上所述，本公开能够通过车辆的预设行驶状态模型和HJB函数建立自适应动态规划算法模型，该自适应动态规划算法模型包括第一回声状态网与第二回声状态网，该第一回声状态网用于生成控制车辆所需的目标代价函数，该第二回声状态网用于生成控制车辆所需的目标控制策略；循环执行根据该第一回声状态网输出的代价函数、该第二回声状态网输出的控制策略，以及利用该HJB函数获取到的近似误差，对该第一回声状态网的代价函数输出权值以及该第二回声状态网的控制策略输出权值进行更新的步骤，直至将该控制策略输出权值更新为能够使该近似误差最小化的目标控制策略输出权值；在将该目标控制策略输出权值作为该第二回声状态网的控制策略输出权值后，获取该车辆在当前时刻的目标行驶状态模型作为该第二回声状态网的输入，以得到该第二回声状态网输出的该目标控制策略，作为车辆在当前时刻的控制方案。通过经过迭代更新的回声状态网获取车辆自动驾驶所需的控制策略，减少控制策略生成过程中的计算量和计算复杂度，增强自适应动态规划算法的实际应用能力。

图2是根据图1所示实施例示出的一种自适应动态规划算法模型的建立方法的流程图，如图2所示，该步骤101可以包括：

步骤1011，根据代价函数近似方程，建立该第一回声状态网。

其中，该代价函数近似方程为以该预设行驶状态模型为输入变量，以随机生成的第一储备池矩阵与第一输入权值以及预先设定的第一储备池状态、第一储备池泄漏率与第一代价函数输出权值作为参数的方程。

示例地，该第一回声状态网对应的该代价函数近似方程可以由下列表达式(8)和(9)组成：

其中，表示该第一回声状态网生成的代价函数，a₁表示该第一储备池泄漏率，W₁表示该第一储备池矩阵，W_in1表示该第一输入权值(实际为矩阵形式)，W_out1表示该第一代价函数输出权值(实际为矩阵形式)。另外，当i＝0时(即第一次迭代更新之前)，表示该第一储备池状态，x⁽ⁱ⁾表示该预设行驶状态模型，为该代价函数近似方程的中间变量，表示输入该预设行驶状态模型后的储备池状态。其中，上标“i”表示下列步骤102中的策略迭代方法的迭代步长，该步长由实际运算采样率决定，并不代表实际时间。

步骤1012，根据控制策略近似方程，建立该第二回声状态网。

其中，该控制策略近似方程是以该预设行驶状态模型作为输入变量，以随机生成的第二储备池矩阵与第二输入权值以及预先设定的第二储备池状态、第二储备池泄漏率与第一控制策略输出权值作为参数的方程。

示例地，该第二回声状态网对应的该控制策略近似方程可以由下列表达式(10)和(11)组成：

其中，u⁽ⁱ⁺¹⁾(x)表示该第二回声状态网生成的控制策略，a₂表示该第二储备池泄漏率，W₂表示该第二储备池矩阵，W_in2表示该第二输入权值(实际为矩阵形式)，W_out2表示该第一控制策略输出权值(实际为矩阵形式)。另外，当i＝0时(即第一次迭代更新之前)，表示该第二储备池状态，x⁽ⁱ⁾表示该预设行驶状态模型，为该控制策略近似方程的中间变量，表示输入该预设行驶状态模型后的储备池状态。

步骤1013，根据该第一回声状态网、该第二回声状态网以及该HJB函数创建该自适应动态规划算法模型。

其中，该第一回声状态网和该第二回声状态网的输出作为该HJB函数的输入。

示例地，该自适应动态规划算法模型还可以由BP(Back Propagation，反向传播)神经网络组成。在使用BP神经网络组成该自适应动态规划算法模型时，需要对BP神经网络中的激活函数和隐含层数量等变量进行设置。该激活函数是根据经验和以往的参考文献选取的，由车辆状态数据的不同组合构成的计算参数。在进行近似计算时，需要根据不同的应用场景和系统选取不同的激活函数，而不恰当的激活函数会导致近似精度降低的问题。同时，为了提高近似精度，通常会采用隐含层数量比较高的神经网络，但数量过高的隐含层又会造成计算量增大以及实时性降低的问题，而无法进行实际应用。而在通过本公开实施例所提供的回声状态网创建该自适应动态规划算法模型时，其中设定的输入变量仅包括该预设行驶状态模型，而诸如第一储备池矩阵、第一输入权值、第一储备池状态、第一储备池泄漏率与第一代价函数输出权值等参数都为固定不变或者可以随机获取的参数。由此可见，相较于BP神经网络组成的自适应动态规划算法模型，回声状态网的结构更为简化并且需要根据环境进行配置的变量更少，提高了该自适应动态规划算法模型的实时性和适用性。

图3是根据图1所示实施例示出的一种回声状态网输出权值的循环更新方法的流程图，如图3所示，上述步骤102可以包括：步骤1021-1026，或者步骤1021-1027。

步骤1021，将该预设行驶状态模型分别作为该第一回声状态网与该第二回声状态网的输入，以获取该第一回声状态网输出的第一代价函数，以及该第二回声状态网输出的第一控制策略。

其中，该预设行驶状态模型为根据该车辆在历史时刻的行驶参数建立的行驶状态模型，该行驶参数包括相对距离、空气阻力、质量系数、摩擦力以及推动力，该历史时刻为该当前时刻之前的一个或多个时刻，该相对距离为该车辆与目标位置的距离。

示例地，在该步骤102的策略迭代方法中，每次迭代更新过程都需要将该预设行驶状态模型作为两个回声状态网的输入，以获取到当前的代价函数和控制策略，再根据HJB函数计算出近似误差。当判断该近似误差未达到最小化时(实际上，根据当前的代价函数输出权值与更新后的代价函数输出权值的差值的绝对值与预设的大于0的计算精度的大小对比结果，可以判断出该近似误差是否达到最小化)，通过梯度下降的方式不断地对两个回声状态网的两个输出权值进行迭代更新，以使随后生成的近似误差趋近于0，直至该近似误差达到最小化。

此处以首次将该预设行驶状态模型作为两个回声状态网的输入，进而实现两个回声状态网的输出权值第一次更新的过程为例，对该步骤102进行说明。首先，将该预设行驶状态模型x⁽⁰⁾作为上述的方程(8)、(9)、(10)和(11)的输入，得到下列表达式(12)、(13)、(14)和(15)：

其中，为该第一代价函数，u⁽¹⁾(x)为该第一控制策略。表示首次输出该第一代价函数时的代价函数输出权值，表示首次输出该第一控制策略时的控制策略输出权值，该和为模型预先设定的初始参数，此后对代价函数输出权值和控制策略输出权值的迭代更新都是通过在该和的基础上进行调节而实现的。

步骤1022，将该第一代价函数和该第一控制策略作为该HJB函数的输入，以获取该HJB函数输出的该近似误差。

示例地，将表达式(13)(即该第一代价函数)和表达式(15)(即该第一控制策略)作为上述HJB函数表达式(7)的输入，可以获取到近似误差表达式(16)：

根据该表达式(16)可知，当上标“i”＝0时，δ⁽⁰⁾表示首次输出该第一代价函数以及该第一控制策略时的近似误差。需要说明的是，δ⁽ⁱ⁾中的上标“i”表示迭代更新的次数，由于每次迭代更新后获取到的该第一代价函数和该第一控制策略都是不同的，因此该近似误差也是不同的。由于此处讨论的实际为该近似误差与0的接近程度，为了避免该近似误差的值为负时对后续的梯度下降方程的影响，需要在下列步骤1023中将值为负的近似误差转换为正值。

步骤1023，通过预设的数值转换方法，将该近似误差限定为非负的误差绝对值。

示例地，该预设的数值转换方法可以为，通过平方误差公式将该近似误差转换为平方误差，该平方误差公式(17)为：

其中，E为该平方误差，即，该误差绝对值，可以理解的是，该平方误差一定为正值。

步骤1024，将该第一回声状态网当前的代价函数输出权值、该误差绝对值以及预设的第一更新率作为预设的梯度下降方程的输入，以获取该梯度下降方程输出的该第一回声状态网的更新后的代价函数输出权值。

步骤1025，将该第二回声状态网当前的控制策略输出权值、该误差绝对值、预设的第二更新率以及作为该梯度下降方程的输入，以获取该梯度下降方程输出的该第二回声状态网的更新后的控制策略输出权值。

示例地，该梯度下降方程可以通过下列表达式(18)和(19)获得：

如上所示，在该表达式(18)和(19)中计算E⁽ⁱ⁾对自变量和的偏导数后，可以获得该梯度下降方程的表达式(20)和(21)：

其中，α₁表示上述预设的第一更新率，α₂表示上述预设的第二更新率。α₁和α₂为该梯度下降方程的固定参数，优选被设定为0.001。当上标“i”＝0时，可以根据上述的和获取到该第一回声状态网的更新后的代价函数输出权值以及该第二回声状态网的更新后的控制策略输出权值

步骤1026，当该当前的代价函数输出权值与该更新后的代价函数输出权值的差值的绝对值小于或等于预设的计算精度时，将该更新后的控制策略输出权值作为该目标控制策略输出权值。

以首次对两个回声状态网的输出权值进行更新的过程为例，当该当前的代价函数输出权值与该更新后的代价函数输出权值的差值的绝对值小于或等于预设的计算精度时，可以认为该近似误差已经达到最小化，进而确认该更新后的控制输出权值为能够计算出最优控制策略(即本实施例中的目标控制策略)的该目标控制策略输出权值。

步骤1027，当该当前的代价函数输出权值与该更新后的代价函数输出权值的差值的绝对值大于该计算精度时，将该更新后的代价函数输出权值作为该第一回声状态网当前的代价函数输出权值，并将该更新后的控制策略输出权值作为该第二回声状态网当前的控制策略输出权值，重复执行从该将该预设行驶状态模型分别作为该第一回声状态网与该第二回声状态网的输入，以获取该第一回声状态网输出的第一代价函数，以及该第二回声状态网输出的第一控制策略，到该将该第二回声状态网当前的控制策略输出权值、该误差绝对值、预设的第二更新率以及作为该梯度下降方程的输入，以获取该梯度下降方程输出的该第二回声状态网的更新后的控制策略输出权值，直至该当前的代价函数输出权值与该更新后的代价函数输出权值的差值小于或等于预设的计算精度。

依然以首次对两个回声状态网的输出权值进行更新的过程为例，当该当前的代价函数输出权值与该更新后的代价函数输出权值的差值的绝对值大于该计算精度时，可以认为该近似误差还未达到最小化，则用该更新后的代价函数输出权值代替原本的作为该第一回声状态网当前的代价函数输出权值，并用该更新后的控制策略输出权值代替原本的作为该第二回声状态网当前的控制策略输出权值，重复执行上述步骤1021至1025的计算过程，直到该当前的代价函数输出权值与该更新后的代价函数输出权值的差值的绝对值小于或等于该计算精度，进而将该更新后的控制输出权值作为该目标控制策略输出权值。需要说明的是，此处仅以首次对两个回声状态网的输出权值进行更新的过程为例对该迭代更新的流程进行说明，上述的与的上标“i”和“i+1”表示之后任一次对回声状态网的输出权值进行更新的过程中所涉及的当前的代价函数输出权值与更新后的代价函数输出权值，并且上述的之后任一次迭代更新过程与首次对两个回声状态网的输出权值进行更新的过程相同。

图4是根据一示例性实施例示出的一种自适应动态规划算法模型的示意图，其中，该示意图以虚拟模块的形式示出该自适应动态规划算法模型400的结构，如图4所示，车辆500的控制系统分别与第一回声状态网410和第二回声状态网420连接。其中，该第一回声状态网410中包括输入端411、储备池412以及输出端413，在初始状态下，该输入端411包含上述第一输入权值W_in1，该储备池412包含具备上述第一储备池状态和第一储备池泄漏率的第一储备池矩阵，该输出端413包含上述第一代价函数输出权值W_out1。该第二回声状态网420中包括输入端421、储备池422以及输出端423，在初始状态下，该输入端421包含上述第二输入权值W_in2，该储备池422包含具备上述第二储备池状态和第二储备池泄漏率的第二储备池矩阵，该输出端423包含上述第一控制策略输出权值W_out2。

当车辆500的控制系统将行驶状态模型分别输入第一回声状态网410和第二回声状态网420，可以分别根据W_out1和W_out2获取当前的代价函数和控制策略u⁽ⁱ⁺¹⁾(x)。继而将和u⁽ⁱ⁺¹⁾(x)作为HJB函数模型430的输入，并根据HJB函数模型430的输出结果(近似误差)分别对输出端413的第一代价函数输出权值W_out1和输出端423的第一控制策略输出权值W_out2进行调节，直至该近似误差达到最小化。之后再根据能够使该近似误差最小化的目标控制策略输出权值获取到控制该车辆500的最优控制策略，并将该最优控制策略返回至该车辆500。

图5是根据图1所示实施例示出的一种车辆控制策略生成方法的流程图，如图5所示，上述步骤103可以包括：

步骤1031，将该目标控制策略输出权值作为该第二回声状态网当前的控制策略输出权值。

步骤1032，通过该车辆在当前时刻的行驶参数，建立该目标行驶状态模型。

其中，该当前时刻的行驶参数包括该当前时刻的相对距离、空气阻力、质量系数、摩擦力以及推动力。

步骤1033，将该目标行驶状态模型作为该第二回声状态网的输入，以获取该第二回声状态网输出的该目标控制策略，作为该车辆在该当前时刻的控制方案。

示例地，在通过上述步骤102确定了该目标控制策略输出权值之后，可以认为该第二回声状态网已经被更新为能够生成最优控制策略的回声状态网。如此，当需要对车辆进行自动驾驶时，可以根据当前的行驶参数，建立该目标行驶状态模型，再将该目标行驶状态模型作为该第二回声状态网的输入，并直接输出当前自动驾驶所需的该目标控制策略，进而生成对车辆进行自动驾驶的控制方案。

图6是根据一示例性实施例示出的一种车辆的控制方案生成装置的框图，如图6所示，该装置600包括：

模型建立模块610，用于通过车辆的预设行驶状态模型和HJB函数建立自适应动态规划算法模型，该自适应动态规划算法模型包括第一回声状态网与第二回声状态网，该第一回声状态网用于生成控制车辆所需的目标代价函数，该第二回声状态网用于生成控制车辆所需的目标控制策略；

权值更新模块620，用于循环执行根据该第一回声状态网输出的代价函数、该第二回声状态网输出的控制策略，以及利用该HJB函数获取到的近似误差，对该第一回声状态网的代价函数输出权值以及该第二回声状态网的控制策略输出权值进行更新的步骤，直至将该控制策略输出权值更新为能够使该近似误差最小化的目标控制策略输出权值；

方案确定模块630，用于在将该目标控制策略输出权值作为该第二回声状态网的控制策略输出权值后，获取该车辆在当前时刻的目标行驶状态模型作为该第二回声状态网的输入，以得到该第二回声状态网输出的该目标控制策略，作为车辆在当前时刻的控制方案。

图7是根据图6所示实施例示出的一种模型建立模块的框图，如图7所示，该模型建立模块610，包括：

第一回声状态网建立子模块611，用于根据代价函数近似方程，建立该第一回声状态网，该代价函数近似方程为以该预设行驶状态模型为变量，以随机生成的第一储备池矩阵与第一输入权值以及预先设定的第一储备池状态、第一储备池泄漏率与第一代价函数输出权值作为参数的方程；

第二回声状态网建立子模块612，用于根据控制策略近似方程，建立该第二回声状态网，该控制策略近似方程是以该预设行驶状态模型作为变量，以随机生成的第二储备池矩阵与第二输入权值以及预先设定的第二储备池状态、第二储备池泄漏率与第一控制策略输出权值作为参数的方程；

第一模型建立子模块613，用于根据该第一回声状态网、该第二回声状态网以及该HJB函数创建该自适应动态规划算法模型，其中该第一回声状态网和该第二回声状态网的输出作为该HJB函数的输入。

图8是根据图6所示实施例示出的一种权值更新模块的框图，如图8所示，该权值更新模块620，包括：

模型处理子模块621，用于将该预设行驶状态模型分别作为该第一回声状态网与该第二回声状态网的输入，以获取该第一回声状态网输出的第一代价函数，以及该第二回声状态网输出的第一控制策略，该预设行驶状态模型为根据该车辆在历史时刻的行驶参数建立的行驶状态模型，该行驶参数包括相对距离、空气阻力、质量系数、摩擦力以及推动力，该历史时刻为该当前时刻之前的一个或多个时刻，该相对距离为该车辆与目标位置的距离；

误差获取子模块622，用于将该第一代价函数和该第一控制策略作为该HJB函数的输入，以获取该HJB函数输出的该近似误差；

误差限定子模块623，用于通过预设的数值转换方法，将该近似误差限定为非负的误差绝对值；

第一权值更新子模块624，用于将该第一回声状态网当前的代价函数输出权值、该误差绝对值以及预设的第一更新率作为预设的梯度下降方程的输入，以获取该梯度下降方程输出的该第一回声状态网的更新后的代价函数输出权值；

第二权值更新子模块625，用于将该第二回声状态网当前的控制策略输出权值、该误差绝对值、预设的第二更新率以及作为该梯度下降方程的输入，以获取该梯度下降方程输出的该第二回声状态网的更新后的控制策略输出权值；

权值确定子模块626，用于当该当前的代价函数输出权值与该更新后的代价函数输出权值的差值的绝对值小于或等于预设的计算精度时，将该更新后的控制策略输出权值作为该目标控制策略输出权值；或者，

循环更新子模块627，用于当该当前的代价函数输出权值与该更新后的代价函数输出权值的差值的绝对值大于该计算精度时，将该更新后的代价函数输出权值作为该第一回声状态网当前的代价函数输出权值，并将该更新后的控制策略输出权值作为该第二回声状态网当前的控制策略输出权值，重复执行从该将该预设行驶状态模型分别作为该第一回声状态网与该第二回声状态网的输入，以获取该第一回声状态网输出的第一代价函数，以及该第二回声状态网输出的第一控制策略，到该将该第二回声状态网当前的控制策略输出权值、该误差绝对值、预设的第二更新率以及作为该梯度下降方程的输入，以获取该梯度下降方程输出的该第二回声状态网的更新后的控制策略输出权值，直至该当前的代价函数输出权值与该更新后的代价函数输出权值的差值小于或等于预设的计算精度。

图9是根据图6所示实施例示出的一种方案确定模块的框图，如图9所示，该方案确定模块630，包括：

状态网更新子模块631，用于将该目标控制策略输出权值作为该第二回声状态网当前的控制策略输出权值；

第二模型建立子模块632，用于通过该车辆在当前时刻的行驶参数，建立该目标行驶状态模型，该当前时刻的行驶参数包括该当前时刻的相对距离、空气阻力、质量系数、摩擦力以及推动力；

方案确定子模块633，用于将该目标行驶状态模型作为该第二回声状态网的输入，以获取该第二回声状态网输出的该目标控制策略，作为该车辆在该当前时刻的控制方案。

关于上述实施例中的装置，其中各个模块执行操作的具体方式已经在有关该方法的实施例中进行了详细描述，此处将不做详细阐述说明。

图10是根据一示例性实施例示出的一种电子设备1000的框图。如图10所示，该电子设备1000可以包括：处理器1001，存储器1002，多媒体组件1003，输入/输出(I/O)接口1004，以及通信组件1005。

其中，处理器1001用于控制该电子设备1000的整体操作，以完成上述的车辆的控制方案生成方法中的全部或部分步骤。存储器1002用于存储各种类型的数据以支持在该电子设备1000的操作，这些数据例如可以包括用于在该电子设备1000上操作的任何应用程序或方法的指令，以及应用程序相关的数据，例如联系人数据、收发的消息、图片、音频、视频等等。该存储器1002可以由任何类型的易失性或非易失性存储设备或者它们的组合实现，例如静态随机存取存储器(Static Random Access Memory，简称SRAM)，电可擦除可编程只读存储器(Electrically Erasable Programmable Read-Only Memory，简称EEPROM)，可擦除可编程只读存储器(Erasable Programmable Read-Only Memory，简称EPROM)，可编程只读存储器(Programmable Read-Only Memory，简称PROM)，只读存储器(Read-Only Memory，简称ROM)，磁存储器，快闪存储器，磁盘或光盘。多媒体组件1003可以包括屏幕和音频组件。其中屏幕例如可以是触摸屏，音频组件用于输出和/或输入音频信号。例如，音频组件可以包括一个麦克风，麦克风用于接收外部音频信号。所接收的音频信号可以被进一步存储在存储器1002或通过通信组件1005发送。音频组件还包括至少一个扬声器，用于输出音频信号。I/O接口1004为处理器1001和其他接口模块之间提供接口，上述其他接口模块可以是键盘，鼠标，按钮等。这些按钮可以是虚拟按钮或者实体按钮。通信组件1005用于该电子设备1000与其他设备之间进行有线或无线通信。无线通信，例如Wi-Fi，蓝牙，近场通信(NearField Communication，简称NFC)，2G、3G或4G，或它们中的一种或几种的组合，因此相应的该通信组件1005可以包括：Wi-Fi模块，蓝牙模块，NFC模块。

在一示例性实施例中，电子设备1000可以被一个或多个应用专用集成电路(Application Specific Integrated Circuit，简称ASIC)、数字信号处理器(DigitalSignal Processor，简称DSP)、数字信号处理设备(Digital Signal Processing Device，简称DSPD)、可编程逻辑器件(Programmable Logic Device，简称PLD)、现场可编程门阵列(Field Programmable Gate Array，简称FPGA)、控制器、微控制器、微处理器或其他电子元件实现，用于执行上述的车辆的控制方案生成方法。

在另一示例性实施例中，还提供了一种包括程序指令的计算机可读存储介质，例如包括程序指令的存储器1002，上述程序指令可由电子设备1000的处理器1001执行以完成上述的车辆的控制方案生成方法。

以上结合附图详细描述了本公开的优选实施方式，但是，本公开并不限于上述实施方式中的具体细节，在本公开的技术构思范围内，本领域技术人员在考虑说明书及实践本公开后，容易想到本公开的其它实施方案，均属于本公开的保护范围。

另外需要说明的是，在上述具体实施方式中所描述的各个具体技术特征，在不矛盾的情况下，可以通过任何合适的方式进行组合。同时本公开的各种不同的实施方式之间也可以进行任意组合，只要其不违背本公开的思想，其同样应当视为本公开所公开的内容。本公开并不局限于上面已经描述出的精确结构，本公开的范围仅由所附的权利要求来限制。

Claims

1.一种车辆的控制方案生成方法，其特征在于，所述方法包括：

2.根据权利要求1所述的方法，其特征在于，所述通过车辆的预设行驶状态模型和HJB函数建立自适应动态规划算法模型，包括：

3.根据权利要求1所述的方法，其特征在于，所述循环执行根据所述第一回声状态网输出的代价函数、所述第二回声状态网输出的控制策略，以及利用所述HJB函数获取到的近似误差，对所述代价函数输出权值以及所述控制策略输出权值进行更新的步骤，直至将所述控制策略输出权值更新为能够使所述近似误差最小化的目标控制策略输出权值，包括：

4.根据权利要求1所述的方法，其特征在于，所述在将所述目标控制策略输出权值作为所述第二回声状态网的控制策略输出权值后，获取所述车辆在当前时刻的目标行驶状态模型作为所述第二回声状态网的输入，以得到所述第二回声状态网输出的所述目标控制策略，作为车辆在当前时刻的控制方案，包括：

5.一种车辆的控制方案生成装置，其特征在于，所述装置包括：

6.根据权利要求5所述的装置，其特征在于，所述模型建立模块，包括：

7.根据权利要求5所述的装置，其特征在于，所述权值更新模块，包括：

8.根据权利要求5所述的装置，其特征在于，所述方案确定模块，包括：

9.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现权利要求1-4中任一项所述方法的步骤。

10.一种电子设备，其特征在于，包括：

存储器，其上存储有计算机程序；

处理器，用于执行所述存储器中的所述计算机程序，以实现权利要求1-4中任一项所述方法的步骤。