CN114278727B

CN114278727B - 极限工况下的车辆自动换挡控制方法、系统、介质及设备

Info

Publication number: CN114278727B
Application number: CN202111676705.1A
Authority: CN
Inventors: 侯晓慧; 张俊智; 何承坤
Original assignee: Tsinghua University
Current assignee: Tsinghua University
Priority date: 2021-12-31
Filing date: 2021-12-31
Publication date: 2023-02-07
Anticipated expiration: 2041-12-31
Also published as: CN114278727A

Abstract

本发明涉及一种极限工况下的车辆自动换挡控制方法、系统、介质及设备，其包括：获取初始训练数据集，从所述初始训练数据集中进行N次随机有放回的抽取样本构成N个子数据集；以双向长短期记忆网络作为基于引导聚集算法的基学习器，将N个所述子数据集分别输入双向长短期记忆网络模型进行预测，并对所述双向长短期记忆网络模型进行优化，得到N个预测输出值；将N个预测输出值输入组合策略中，将N个预测输出值进行取平均值处理得到强学习器，预测得到当前运动状态车辆的下一时刻最佳挡位。本发明能基于当前极限工况下的车辆状态准确地预测下一时刻的车辆最佳挡位，使自动驾驶车辆拥有职业车手的高水平驾驶能力。

Description

极限工况下的车辆自动换挡控制方法、系统、介质及设备

技术领域

本发明涉及一种车辆控制技术领域，特别是关于一种极限工况下的车辆自动换挡控制方法、系统、介质及设备。

背景技术

换挡策略是目前车辆控制技术的核心技术之一，指的是车辆在行驶过程中的挡位随所选参数变化的规律，其合理性将直接影响车辆的动力性、舒适性和燃油经济性等性能。

何时换挡随着换挡目的的不同而变化，不同的换挡目的要求的操作技术是不一样的。日常生活中，装配自动变速器的车辆的换档操作一般出于节约燃油的目的，使自动变速器能够以最经济的换挡点进行换挡操作。但在专业赛车比赛场景中，所有的设定都是为了车辆的操控和速度而非燃油经济性，传统的自动变速器无法超越现在顶级车手的意识和极限工况的操作要求，因此仍然选择应用手动挡。

目前，极限工况下的自动换挡控制方法仍处于研究的空白领域，自动换挡控制方法研究的核心在于如何研究专业驾驶员的换挡操作本质，探索极限工况下车辆的自动换挡控制方法，使自动驾驶车辆拥有职业车手的高水平驾驶能力。

发明内容

针对上述问题，本发明的目的是提供一种极限工况下的车辆自动换挡控制方法、系统、介质及设备，其能基于当前极限工况下的车辆状态准确地预测下一时刻的车辆最佳挡位，使自动驾驶车辆拥有职业车手的高水平驾驶能力。

为实现上述目的，本发明采取以下技术方案：一种极限工况下的车辆自动换挡控制方法，其包括：获取初始训练数据集，从所述初始训练数据集中进行N次随机有放回的抽取样本构成N个子数据集；以双向长短期记忆网络作为基于引导聚集算法的基学习器，将N个所述子数据集分别输入双向长短期记忆网络模型进行预测，并对所述双向长短期记忆网络模型进行优化，得到N个预测输出值；将N个预测输出值输入组合策略中，将N个预测输出值进行取平均值处理得到强学习器，预测得到当前运动状态车辆的下一时刻最佳挡位。

进一步，所述获取初始训练数据集，包括：车辆总速度、前轮转角、驱动踏板行程、制动踏板行程、发动机转速以及当前挡位。

进一步，所述将N个所述子数据集分别输入双向长短期记忆网络模型进行预测，包括：将预测过程分为前向预测与后向预测两个方向，两个方向预测为独立进行计算、无交互，各自更新状态和产生输出；所述两个方向的隐藏层状态共同决定输出结果。

进一步，所述隐藏层状态，是前向隐藏层状态和后向隐藏层状态的叠加，包括：

将车辆某一时刻的基本参数作为输入；

将所述该时刻基本参数对应部件的权重矩阵和偏置向量进行叠加，采用Sigmoid激活函数计算得到该时刻的单向遗忘门输出、输入门输出和输出门输出；

更新所述遗忘门输出、所述输入门输出和所述输出门输出，根据更新结果，采用双曲正切函数，得到该时刻的单向内部状态；

根据所述单向内部状态和所述更新的输出门输出，采用双曲正切函数，得到该时刻的单向隐藏层状态；

所述单向隐藏层状态分为所述前向隐藏层状态和所述后向隐藏层状态，将所述两个隐藏层状态进行叠加，得到该时刻的所述隐藏层状态。

进一步，所述双向长短期记忆网络模型采用损失函数作为目标函数，通过不断迭代得到最优解。

进一步，采用灰狼粒子群算法对所述双向长短期记忆网络模型进行优化，包括：

在取值范围内随机生成一系列粒子群位置，初始化速度，并给定最大迭代次数，种群数量，学习率和惯性因数；

计算各粒子的适应度，确定粒子最优值和种群最优值，保存适应度函数最小的三个粒子位置，分别记作α狼、β狼、δ狼的初始位置；

更新狼群位置及α狼、β狼、δ狼的位置，并重新计算粒子位置，更新粒子个体最优值和种群最优值；

根据粒子群算法预测结果确定最优粒子位置。

进一步，所述根据粒子群算法预测结果确定最优粒子位置，包括：若所述预测结果的均方根误差低于预先设定的水平或到达最大迭代次数，则输出种群最优值，反之，则重新计算各粒子的适应度。

一种极限工况下的车辆自动换挡控制系统，其包括：数据集获取模块，获取初始训练数据集，从所述初始训练数据集中进行N次随机有放回的抽取样本构成N个子数据集；预测模块，以双向长短期记忆网络作为基于引导聚集算法的基学习器，将N个所述子数据集分别输入双向长短期记忆网络模型进行预测，并对所述双向长短期记忆网络模型进行优化，得到N个预测输出值；输出模块，将N个预测输出值输入组合策略中，将N个预测输出值进行取平均值处理得到强学习器，预测得到当前运动状态车辆的下一时刻最佳挡位。

一种存储一个或多个程序的计算机可读存储介质，所述一个或多个程序包括指令，所述指令当由计算设备执行时，使得所述计算设备执行上述方法中的任一方法。

一种计算设备，其包括：一个或多个处理器、存储器及一个或多个程序，其中一个或多个程序存储在所述存储器中并被配置为所述一个或多个处理器执行，所述一个或多个程序包括用于执行上述方法中的任一方法的指令。

本发明由于采取以上技术方案，其具有以下优点：

本发明提供的极限工况下的自动换挡控制，可以更好地发掘车辆的动力潜能，对于最大限度地扩展自动驾驶车辆的应用场景及动力学控制边界具有重要意义。

附图说明

图1是本发明一实施例中的基于Bagging算法的双向LSTM神经网络模型；

图2是本发明一实施例中的LSTM网络循环单元结构图；

图3是本发明一实施例中的Bi-LSTM神经网络结构；

图4是本发明一实施例中的灰狼粒子群算法优化网络超参数流程；

图5是本发明一实施例中的Bi-LSTM网络训练结果；

图6是本发明一实施例中的真实挡位与预测挡位对比图；

图7是本发明一实施例中的计算设备结构示意图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例的附图，对本发明实施例的技术方案进行清楚、完整地描述。显然，所描述的实施例是本发明的一部分实施例，而不是全部的实施例。基于所描述的本发明的实施例，本领域普通技术人员所获得的所有其他实施例，都属于本发明保护的范围。

需要注意的是，这里所使用的术语仅是为了描述具体实施方式，而非意图限制根据本申请的示例性实施方式。如在这里所使用的，除非上下文另外明确指出，否则单数形式也意图包括复数形式，此外，还应当理解的是，当在本说明书中使用术语“包含”和/或“包括”时，其指明存在特征、步骤、操作、器件、组件和/或它们的组合。

本发明提供的极限工况下的车辆自动换挡控制方法、系统、介质及设备，包括基于引导聚集算法获取数据集、建立双向长短期记忆网络预测模型以及利用灰狼粒子群算法优化网络参数。仿真测试表明本发明可以很好地学习专业驾驶员在极限工况下的换挡策略，具有良好的泛化能力，能够基于当前极限工况下的车辆状态准确地预测下一时刻的车辆最佳挡位，使自动驾驶车辆拥有职业车手的高水平驾驶能力，对于最大限度地扩展自动驾驶车辆的应用场景及动力学控制边界具有重要意义。

在本发明的一个实施例中，提供一种极限工况下的车辆自动换挡控制方法，本实施例以该方法应用于终端进行举例说明，可以理解的是，该方法也可以应用于服务器，还可以应用于包括终端和服务器的系统，并通过终端和服务器的交互实现。本实施例中，模型结构主要分为输入层、Bagging取样层、Bi-LSTM网络层、Bagging集成层和输出层。如图1所示，该方法包括以下步骤：

1)获取初始训练数据集，从初始训练数据集中进行N次随机有放回的抽取样本构成N个子数据集；随机有放回的取样过程使得N个子数据集之间互不影响。

2)以双向长短期记忆网络作为基于引导聚集算法(Bagging)的基学习器，将N个子数据集分别输入双向长短期记忆网络模型进行预测，并对双向长短期记忆网络模型进行优化，得到N个预测输出值；

其中，将双向长短期记忆网络作为引导聚集算法中的基学习器，利用其序列数据上下文所含信息进行学习的能力，基于训练集数据训练网络模型参数，使其能够对处于当前运动状态车辆的下一时刻最佳挡位进行预测；

3)将N个预测输出值输入组合策略中，将N个预测输出值进行取平均值处理得到强学习器，预测得到当前运动状态车辆的下一时刻最佳挡位。

上述步骤1)中，获取初始训练数据集，输入层包括：车辆总速度、前轮转角、驱动踏板行程、制动踏板行程、发动机转速以及当前挡位。输出为车辆下一时刻的挡位。

在本实施例中，采集专业驾驶员操纵赛车的大量操作数据及赛车运动状态数据，得到初始训练数据集。

上述步骤1)中，将N个子数据集分别输入双向长短期记忆网络模型进行预测，具体为：将预测过程分为前向预测与后向预测两个方向，两个方向预测为独立进行计算、无交互，各自更新状态和产生输出；两个方向的隐藏层状态共同决定输出结果。

其中，隐藏层状态，是前向隐藏层状态和后向隐藏层状态的叠加，具体为：

1.1)将车辆某一时刻的基本参数作为输入；

1.2)将该时刻基本参数对应部件的权重矩阵和偏置向量进行叠加，采用Sigmoid激活函数计算得到该时刻的单向遗忘门输出、输入门输出和输出门输出；

1.3)更新遗忘门输出、输入门输出和输出门输出，根据更新结果，采用双曲正切函数，得到该时刻的单向内部状态；

1.4)根据单向内部状态和更新的输出门输出，采用双曲正切函数，得到该时刻的单向隐藏层状态；

1.5)单向隐藏层状态分为前向隐藏层状态和后向隐藏层状态，将两个隐藏层状态进行叠加，得到该时刻的隐藏层状态。

在本实施例中，其中LSTM网络的单个循环单元结构如图2所示。以t时刻的输入x_t、t-1时刻的隐藏层状态h_t-1为输入，通过式(1)～(3)更新三个门控，通过式(4)更新内部状态c_t，并最终通过式(5)更新隐藏层状态h_t。

_ft＝σ(W_fxx_t+W_fhh_t-1+b_f) (1)

i_t＝σ(W_ixx_t+W_inh_t-1+b_i) (2)

o_t＝σ(W_oxx_t+W_ohh_t-1+b_o) (3)

c_t＝f_tc_t-1+i_ttanh(W_cxx_t+W_chh_t-1+b_c) (4)

h_t＝o_ttanh(c_t) (5)

式中，f_t,i_t,o_t,c_t,h_t分别表示遗忘门输出、输入门输出、输出门输出、内部状态、隐藏层状态，W_fX,W_fh,W_ix,W_ih,W_ox,W_oh,W_cx,W_ch为对应部件的权重矩阵，b_f,b_i,b_o,b_c为对应部件的偏置向量，σ和tanh分别表示Sigmoid激活函数与双曲正切函数。

Bi-LSTM网络将预测过程分为前向预测与后向预测两个方向，并由两个方向的隐含层共同决定输出结果，结构如图3所示。这样的双向性结构增加了模型的容量和灵活性，降低了同一序列中不同位置信息的偶然性。因此比单向LSTM最终的预测更加准确。两个网络具体通过式(6)与(7)独立进行计算、无交互，各自更新状态、产生输出，并最终根据式(8)拼接两个方向上的输出。

h′_t＝f(W₁x_t+W₃h′_t+b′_t) (6)

h_t＝f(W₂x_t+W₄h_t-1+b_t) (7)

H_t＝k*h′_t+(1-k)h_t (8)

式中，h′_t,h_t,x_t,H_t表示t时刻的正向传播隐藏层状态、反向传播隐藏层状态、输入神经元的输入值、隐藏层状态的输出值，f表示隐藏层的激活函数，W₁,W₂,W₃,W₄表示不同部件对应的权重矩阵,h′_t-1,h_t+1表示t-1时刻的正向传播隐藏层状态、t+1时刻的反向传播隐藏层状态，b′_t,b_t表示正向传播隐藏层、反向传播隐藏层的偏置向量，k为比例系数。

上述步骤2)中，双向长短期记忆网络模型采用损失函数作为目标函数，通过不断迭代得到最优解。

其中，将损失函数作为预测模型的目标函数，通过不断迭代得到最优解。选取均方误差函数(δRMSE)作为损失函数loss，即

式中，n为预测点的个数，

为第i个预测点的预测挡位值，

为第i个预测点的实际挡位值。

上述步骤2)中，本发明将Bi-LSTM网络作为极限工况下的车辆换挡预测模型的Bagging算法中的基学习器，以车辆总速度、前轮转角、驱动踏板行程、制动踏板行程、发动机转速以及当前挡位作为输入特征，即x_t＝[v_t,δ_t,D_t,B_t,n_t,G_t]，输出为车辆下一时刻的挡位y_t＝G_t+1，基于训练集数据训练网络模型参数，使其能够对处于当前运动状态车辆的下一时刻最佳挡位进行预测。

在本实施例中，将双向长短期记忆网络作为Bagging算法中的基学习器，把N个子数据集作为双向长短期记忆网络的输入，通过N个双向长短期记忆网络模型进行预测，从而得到N个预测输出值，N个神经网络模型的预测过程是并列运行的，一定程度上加快了模型的训练速度。在回归问题中，Bagging算法的组合策略为等权重取平均值法，将得到的N个预测输出值进行取平均值处理，即可得到基于Bagging算法的双向长短期记忆集成神经网络的输出值。

Bagging算法在建模过程中引入了随机取样，通过结合多个基学习器的特征可以较好地提高预测过程中的稳定性，优化了模型的整体预测性能。

上述步骤2)中，为了获得尽可能精准的预测模型，通过灰狼粒子群混合算法对双向长短期记忆网络的超参数进行优化，将预测结果的均方根误差作为目标函数，得到使得目标函数达到最优时的超参数。

在本实施例中，在双向长短期记忆神经网络训练过程中，时间序列长度l、神经网络隐含层神经元数量h、神经网络训练学习率α等都需要人工设置，需要通过多次人工调参且难以调整到最优精度。为此本发明基于灰狼粒子群混合算法优化网络超参数。由于参数优化的目的在于获得尽可能精准的预测模型，因此将预测结果的均方根误差作为粒子适应度函数，通过迭代优化获取双向长短期记忆网络模型的最优超参数。

如图4所示，采用灰狼粒子群算法对双向长短期记忆网络模型进行优化，包括以下步骤：

2.1)在取值范围内随机生成一系列粒子群位置，初始化速度，并给定最大迭代次数，种群数量，学习率和惯性因数；

在本实施例中，在取值范围内随机生成一系列粒子群位置P_i＝[l_i,h_i,α_i](i为各粒子编号)，初始化速度v_i，并给定粒子群算法最大迭代次数iter_max以及灰狼算法最大迭代次数k_max，种群数量n，学习率c₁、c₂、c₃和惯性因数w₁、w₂等参数。

2.2)计算各粒子的适应度f(P_i)，确定粒子最优值p_{best i}和种群最优值g_best，保存适应度函数最小的三个粒子位置，分别记作α狼、β狼、δ狼的初始位置X_α、X_β、Xδ；

2.3)更新狼群位置及α狼、β狼、δ狼的位置，并重新计算粒子位置，更新粒子个体最优值和种群最优值；

在本实施例中，根据式(10)更新狼群位置X(k+1)：

式中，X_p(k)、X(k)分别表示在第k次寻优后猎物和灰狼的位置，B_α、B_β、B_δ分别表示α狼、β狼、δ狼和其余狼之间的距离。A_j和D_j(j＝1,2,3)是系数向量，其中，具体表示为：

A_j＝2ar₁-a (11)

D_j＝2r₂ (12)

其中，r₁,r₂为(0,1)范围内互不干扰的随机数，

为收敛因子，k_max为最大迭代次数。

更新α狼、β狼、δ狼的位置X_α、X_β、X_δ，若灰狼算法到达最大迭代次数k_max，则返回α狼的最终位置X_α，否则返回更新狼群位置。

根据式(13)和式(14)重新计算粒子位置，并更新粒子个体最优值p_{best i}和种群最优值g_best：

P_i(k+1)＝P_i(k)+v_i(k+1) (14)

式中，P_i(k)和v_i(k)为迭代k次后粒子i的位置和速度，c₁,c₂,c₃为各项学习率，r₁,r₂,r₃为(0,1)范围内互不干扰的随机数，w采用的非线性变化策略，初始的阶段w值大，搜索能力强，到接近最优解附近时w值缩小，开启细致小步长搜索，w的更新公式为

式(15)中，w₁、w₂分别为惯性因数最大和小值，k为当前迭代系数；i_max为最大迭代次数。

2.4)根据粒子群算法预测结果确定最优粒子位置：若预测结果的均方根误差低于预先设定的水平或到达最大迭代次数i_max，则输出种群最优值g_best，反之，则重新计算各粒子的适应度。

综上，如图5和图6所示，为利用本发明提供的极限工况下的车辆自动换挡控制方法进行仿真测试的训练过程和预测效果示意图。本测试采集了专业驾驶员操纵赛车的5130组数据作为数据集，其中4630组数据用于训练，500组数据用于验证。

由图5可知，在9300次训练迭代过程中，随着迭代次数的增加，挡位预测的准确度不断上升，最终预测准确率能够稳定在96.2％；损失函数值不断减少，最终稳定在0.2左右。图6将数据验证集中的真实挡位与经训练后神经网络模型得到的预测挡位进行了对比。由图6可知本发明提供的极限工况下的车辆自动换挡控制方法可以很好地学习专业驾驶员在极限工况下的换挡策略，具有良好的泛化能力，能够基于当前极限工况下的车辆状态准确地预测下一时刻的车辆最佳挡位，使自动驾驶车辆拥有职业车手的高水平驾驶能力，对于最大限度地扩展自动驾驶车辆的应用场景及动力学控制边界具有重要意义。

在本发明的一个实施例中，提供一种极限工况下的车辆自动换挡控制系统，其包括：

数据集获取模块，获取初始训练数据集，从初始训练数据集中进行N次随机有放回的抽取样本构成N个子数据集；

预测模块，以双向长短期记忆网络作为基于引导聚集算法的基学习器，将N个子数据集分别输入双向长短期记忆网络模型进行预测，并对双向长短期记忆网络模型进行优化，得到N个预测输出值；

输出模块，将N个预测输出值输入组合策略中，将N个预测输出值进行取平均值处理得到强学习器，预测得到当前运动状态车辆的下一时刻最佳挡位。

本实施例提供的系统是用于执行上述各方法实施例的，具体流程和详细内容请参照上述实施例，此处不再赘述。

如图7所示，为本发明一实施例中提供的计算设备结构示意图，该计算设备可以是终端，其可以包括：处理器(processor)、通信接口(Communications Interface)、存储器(memory)、显示屏和输入装置。其中，处理器、通信接口、存储器通过通信总线完成相互间的通信。该处理器用于提供计算和控制能力。该存储器包括非易失性存储介质、内存储器，该非易失性存储介质存储有操作系统和计算机程序，该计算机程序被处理器执行时以实现一种控制方法；该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该通信接口用于与外部的终端进行有线或无线方式的通信，无线方式可通过WIFI、管理商网络、NFC(近场通信)或其他技术实现。该显示屏可以是液晶显示屏或者电子墨水显示屏，该输入装置可以是显示屏上覆盖的触摸层，也可以是计算设备外壳上设置的按键、轨迹球或触控板，还可以是外接的键盘、触控板或鼠标等。处理器可以调用存储器中的逻辑指令，以执行如下方法：获取初始训练数据集，从初始训练数据集中进行N次随机有放回的抽取样本构成N个子数据集；以双向长短期记忆网络作为基于引导聚集算法的基学习器，将N个子数据集分别输入双向长短期记忆网络模型进行预测，并对双向长短期记忆网络模型进行优化，得到N个预测输出值；将N个预测输出值输入组合策略中，将N个预测输出值进行取平均值处理得到强学习器，预测得到当前运动状态车辆的下一时刻最佳挡位。

此外，上述的存储器中的逻辑指令可以通过软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

本领域技术人员可以理解，图7中示出的结构，仅仅是与本申请方案相关的部分结构的框图，并不构成对本申请方案所应用于其上的计算设备的限定，具体的计算设备可以包括比图中所示更多或更少的部件，或者组合某些部件，或者具有不同的部件布置。

在本发明的一个实施例中，提供一种计算机程序产品，所述计算机程序产品包括存储在非暂态计算机可读存储介质上的计算机程序，所述计算机程序包括程序指令，当所述程序指令被计算机执行时，计算机能够执行上述各方法实施例所提供的方法，例如包括：获取初始训练数据集，从初始训练数据集中进行N次随机有放回的抽取样本构成N个子数据集；以双向长短期记忆网络作为基于引导聚集算法的基学习器，将N个子数据集分别输入双向长短期记忆网络模型进行预测，并对双向长短期记忆网络模型进行优化，得到N个预测输出值；将N个预测输出值输入组合策略中，将N个预测输出值进行取平均值处理得到强学习器，预测得到当前运动状态车辆的下一时刻最佳挡位。

在本发明的一个实施例中，提供一种非暂态计算机可读存储介质，该非暂态计算机可读存储介质存储服务器指令，该计算机指令使计算机执行上述各实施例提供的方法，例如包括：获取初始训练数据集，从初始训练数据集中进行N次随机有放回的抽取样本构成N个子数据集；以双向长短期记忆网络作为基于引导聚集算法的基学习器，将N个子数据集分别输入双向长短期记忆网络模型进行预测，并对双向长短期记忆网络模型进行优化，得到N个预测输出值；将N个预测输出值输入组合策略中，将N个预测输出值进行取平均值处理得到强学习器，预测得到当前运动状态车辆的下一时刻最佳挡位。

上述实施例提供的一种计算机可读存储介质，其实现原理和技术效果与上述方法实施例类似，在此不再赘述。

本申请是参照根据本申请实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

最后应说明的是：以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims

1.一种极限工况下的车辆自动换挡控制方法，其特征在于，包括：

获取初始训练数据集，从所述初始训练数据集中进行N次随机有放回的抽取样本构成N个子数据集；

以双向长短期记忆网络作为基于引导聚集算法的基学习器，将N个所述子数据集分别输入双向长短期记忆网络模型进行预测，并对所述双向长短期记忆网络模型进行优化，得到N个预测输出值；

将N个预测输出值输入组合策略中，将N个预测输出值进行取平均值处理得到强学习器，预测得到当前运动状态车辆的下一时刻最佳挡位；

所述获取初始训练数据集，包括：车辆总速度、前轮转角、驱动踏板行程、制动踏板行程、发动机转速以及当前挡位；

采集专业驾驶员操纵赛车的大量操作数据及赛车运动状态数据，得到初始训练数据集；

所述将N个所述子数据集分别输入双向长短期记忆网络模型进行预测，包括：

将预测过程分为前向预测与后向预测两个方向，两个方向预测为独立进行计算、无交互，各自更新状态和产生输出；所述两个方向的隐藏层状态共同决定输出结果；

采用灰狼粒子群算法对所述双向长短期记忆网络模型进行优化，包括：

根据粒子群算法预测结果确定最优粒子位置。

2.如权利要求1所述车辆自动换挡控制方法，其特征在于，所述隐藏层状态，是前向隐藏层状态和后向隐藏层状态的叠加，包括：

将车辆某一时刻的基本参数作为输入；

将该时刻基本参数对应部件的权重矩阵和偏置向量进行叠加，采用Sigmoid激活函数计算得到该时刻的单向遗忘门输出、输入门输出和输出门输出；

3.如权利要求1所述车辆自动换挡控制方法，其特征在于，所述双向长短期记忆网络模型采用损失函数作为目标函数，通过不断迭代得到最优解。

4.如权利要求1所述车辆自动换挡控制方法，其特征在于，所述根据粒子群算法预测结果确定最优粒子位置，包括：若所述预测结果的均方根误差低于预先设定的水平或到达最大迭代次数，则输出种群最优值，反之，则重新计算各粒子的适应度。

5.一种极限工况下的车辆自动换挡控制系统，其特征在于，包括：

数据集获取模块，获取初始训练数据集，从所述初始训练数据集中进行N次随机有放回的抽取样本构成N个子数据集；

预测模块，以双向长短期记忆网络作为基于引导聚集算法的基学习器，将N个所述子数据集分别输入双向长短期记忆网络模型进行预测，并对所述双向长短期记忆网络模型进行优化，得到N个预测输出值；

输出模块，将N个预测输出值输入组合策略中，将N个预测输出值进行取平均值处理得到强学习器，预测得到当前运动状态车辆的下一时刻最佳挡位；

根据粒子群算法预测结果确定最优粒子位置。

6.一种存储一个或多个程序的计算机可读存储介质，其特征在于，所述一个或多个程序包括指令，所述指令当由计算设备执行时，使得所述计算设备执行如权利要求1至4所述方法中的任一方法。

7.一种计算设备，其特征在于，包括：一个或多个处理器、存储器及一个或多个程序，其中一个或多个程序存储在所述存储器中并被配置为所述一个或多个处理器执行，所述一个或多个程序包括用于执行如权利要求1至4所述方法中的任一方法的指令。