CN113232651B

CN113232651B - 一种基于adhdp的燃油汽车生态自适应巡航控制方法

Info

Publication number: CN113232651B
Application number: CN202110172011.8A
Authority: CN
Inventors: 翟春杰; 楼杰栋; 颜成钢; 孙垚棋
Original assignee: Hangzhou Dianzi University
Current assignee: Hangzhou Dianzi University
Priority date: 2021-02-08
Filing date: 2021-02-08
Publication date: 2022-07-22
Anticipated expiration: 2041-02-08
Also published as: CN113232651A

Abstract

本发明公开了一种基于ADHDP的燃油汽车生态自适应巡航控制方法。本发明方法首先建立车辆的动力学模型，转速转矩关系，再根据智能驾驶安全、节能、舒适的重要目标设计强化学习评价网络与执行网络的损失函数，最后通过执行网络得到车辆的控制决策，并通过评价网络对执行网络得到的结果进行评价并对执行网络进行奖惩，最终得到损失函数，达到安全、节能、舒适的重要目标。本发明方法能够提升能源的利用率，减少污染并在最大程度解决交通拥堵，交通事故等问题。

Description

一种基于ADHDP的燃油汽车生态自适应巡航控制方法

技术领域

本发明涉及智能驾驶领域，具体地说是涉及一种基于执行依赖启发式动态规划(action-dependent heuristic dynamic programming,ADHDP)的燃油汽车生态自适应巡航控制方法。

背景技术

跟车行驶已成为道路交通环境中最主要的工况，直接表现为同一车道上相邻车辆间的相互影响。对公路交通事故的研究表明，80％以上的交通事故是由于驾驶员反应不及时所引起的，超过65％的事故是追尾。车辆跟随控制主要包括纵向控制、横向控制以及综合控制。纵向控制主要是纵向期望车距保持与速度追踪。智能驾驶系统中自适应巡航控制(Adaptive Cruise Control,ACC)，已被证明具有减轻驾驶员劳动强度、提高汽车行驶安全性以及增加道路交通流量的潜力，并得到越来越广泛的应用。

安全、节能、舒适是智能驾驶系统应当实现的重要目标。自适应巡航控制能够有效保证行车安全减少交通事故，缓减交通拥堵，但对于燃油消耗的减少只能通过控制车辆间距减少气动阻力的方式，对于迎风面积较大的重型汽车较为理想，对于迎风面积较小的常用小型汽车不够理想。当前影响汽车排放和能源消耗的因素主要有车辆技术、道路环境条件及汽车运用三大方面，通过文献梳理和分析表明，生态驾驶技术无需改变车辆结构，只需要改变车辆操作策略便可以减少30％左右的燃油消耗。同时传统的自适应巡航控制需要对车辆进行精确的建模困难，强化学习中的ADHDP算法基于与环境的交互来做出决策，无需精确的模型即可实现实时非线性最优控制问题的在线学习。为此，结合自适应巡航控制技术以及生态驾驶技术，从汽车操作策略着手设计一种基于ADHDP的燃油汽车生态自适应巡航控制系统，提升能源的利用率，减少污染并在最大程度解决交通拥堵，交通事故等问题。(其中，ADHDP算法参考书本《基于自适应动态规划的智能优化控制》4.3基于BP网络的ADHDP算法及实现P118，作者林小峰宋绍剑宋春宁)

发明内容

针对传统自适应巡航控制方法存在精确建模困难的问题以及在减少燃油消耗效果不佳的情况，本发明提出一种基于ADHDP的燃油汽车生态自适应巡航控制方法，执ADHDP基于与环境的交互做出决策，同时结合生态驾驶技术通过对车辆操纵策略进行合理设计减少燃油消耗，提升能源的利用率，减少污染并在最大程度解决交通拥堵，交通事故等问题。

一种基于ADHDP的燃油汽车生态自适应巡航控制方法，包括以下步骤：

步骤(1)、对车辆进行动力学建模，对车辆的基本信息以及车辆的物理量进行建模。具体步骤如下：

步骤(1.1)首先建立车辆动力学三阶方程，如下所示：

其中s_h，v_h，a_h以及a_h,des分别为主车行驶的位置，速度，加速度以及期望的加速度，τ_h是主车的机械延迟，根据不同车辆为不同常数。

步骤(1.2)根据车辆动力学三阶模型计算加速度a_h，计算加速度需要计算期望加速度，通过计算得到的期望加速度，以及上一采样间隔的实际加速度计算得到加速度变化率计算当前采样时刻的加速度。

期望加速度的计算公式如下：

其中，F_t是主车牵引力，F_r是集总阻力，具体构成如下所示：

其中，μ为轮胎与地面的摩擦力系数，ρ为空气密度,A_v为车辆的前部面积，d_h是跟车行驶过程两车的实际间距，C_d(d_h)为与间距相关的气动阻力系数，具体计算公式如下所示：

其中，C_h,d是主车的标称阻力系数，参数c₁和c₂为风阻关系的拟合参数，通过实验获得。

步骤(1.3)根据(1.1)和(1.2)获得的状态信息，结合转速转矩关系确定车辆转速转矩。

其中ω_e、T_ed是车辆的有效转速与有效转矩，R是车辆的轮胎半径，i_d是差速器的减速比，η_g是传动效率，i_g(p)是车辆不同挡位的传动比，p是挡位状态。为了保证驾驶的舒适性仅允许顺序换挡，即p(t)＝p(t-1)+u_p(t),其中u_p(t)属于集合{-1,0,1}，即对应减档位，保持挡位以及加挡位。

步骤(1.4)该发明旨在跟车行驶过程中，在安全、舒适的情况下，尽可能地提高燃油经济性，在这里采用现有的燃油消耗模型，估计下一个时刻的油耗，在实际行驶过程中，当前油耗能够通过传感器获得，具体的优化目标表达式如下所示：

该优化目标服从以下限制条件：

其中，t和T_cyc表示开始行驶时间和最大行驶间隔。油耗的表达式为：

其中，Idel是空挡油耗,ω_e(t)是有效转速，T_ed(t)是有效转矩。d_h,min(v_h)和d_h,max(v_h)分别表示在速度v_h下的最小和最大跟车距离，最小距离保证安全，最大距离防止影响道路通行效率，具体表达式如下所示：

步骤(2)、基于上下层控制框架进行燃油车生态自适应巡航控制，确定优化目标。其中上层优化车辆加速度，使其满足公式(7)中的限制条件，并将加速度并送入到下层，下层优化得到最佳的齿轮比，进一步减少燃油油耗，并且上下层都采用ADHDP算法进行优化求解。具体步骤如下：

步骤(2.1)首先确定上层状态变量，控制变量，以及回报函数以及值函数。

步骤(2.1.1)上层状态变量反映跟车性能，由两部分组成，分别是跟车距离以及前后车车速差。其中，前后车车速差能够表示为Δv＝v_p-v_h，由于跟车车距在步骤(1.4)中表示为允许的最大最小跟车距离，因此无法简单由实际车距减去允许的最大和最小跟车车距两个表达式进行表示，需要将两个表达式通过带阻函数进行整合，带阻函数表达式如下所示：

其中z是变量，代表加速度和车辆间距变量，z_l是该变量设置的最小值，z_u是变量设置的最大值，cfz是补偿因子，同时α＞0，β≥1，

进一步的，参数α，β，n和cf_z对应设置为2，2，1，1。

距离的带阻函数表示如下：

其中，将d_l设置为最小跟车间距设置为d_h,min(v_h)，d_u设置最大间距设置为d_h,max(v_h)，该带阻函数值始终为正数，为了反映跟车趋势，进行分段表示，当实际车距在靠近允许的最小车距时为负，当靠近允许的最大车距时为正，因此距离状态的具体表达如下所示：

即上层状态变量为x_h,u＝[Δd,Δv]。

步骤(2.1.2)上层的控制变量为期望加速度，即u_h,u＝a_h，des。具体计算方式是，输入上层状态变量到ADHDP算法中，得到输出，该输出取值属于[-1，1]，通过加速度范围[a_h,min，a_h,max]进行映射，得到期望的加速度a_h,des。

步骤(2.1.3)ADHDP算法包括一个执行-评价结构，其中，回报函数以及值函数是ADHDP算法中执行网络以及评价网络需要优化的内容。上层的控制目标是安全，舒适度以及油耗，上层回报函数定义为：

其中ξ_u，

和ψ_u分别表示权重系数，BSF(d_h)是距离的带阻函数，如公式(11)所示。因此值函数可以表示为：

步骤(2.2)确定下层状态变量，控制变量，以及回报函数以及值函数。

步骤(2.2.1)下层状态变量用于使评价网络的输出近似于燃油消耗模型估计得到的下一个时刻的油耗，使得评价网络的输出近似于燃油消耗模型估计得到的下一个时刻的油耗的差值在设定的阈值范围内，提升燃油经济性，因此将燃油模型的变量即车辆有效转速和有效转矩作为下层状态变量，表示为x_h,l＝[ω_e,T_ed]。

步骤(2.2.2)下层用于控制最佳齿轮比，将齿轮比转化为挡位，因此控制变量为u_h,l＝i_g。

步骤(2.2.3)下层是为了进一步提升燃油经济性，回报函数为：

r_h,l(x_h,l,u_h,l)＝FC (15)

值函数为：

步骤(3)、通过ADHDP算法迭代对车辆进行决策，其中执行网络获得对车辆该采取的下一步决策，评价网络用来评价执行网络获得决策的反馈对执行网络进行奖惩。具体步骤如下：

步骤(3.1)将上层状态变量以及上一采样时刻执行网络输出输入到评价网络中(初始时刻的上一采样时刻执行网络输出为零)，得到评价网络输出以及评价网络误差；其中，评价网络为了优化评价网络误差，首先需要优化评价网络输出，因此将评价网络输出将作为执行网络的误差，通过执行网络对评价网络输出进行优化，间接优化评价网络误差。执行网络中只输入上层状态变量得到执行网络输出，将执行网络输出转化映射为加速度，通过公式(1)作用于主车，计算得到下一时刻的上层状态变量，通过ADHDP算法传递回报函数并传输到至评价网络，更新评价网络误差，同时更新评价网络输入。执行网络最终目的是优化评价网络输出并间接优化评价网络误差，当评价网络误差和执行网络误差都优化到最小时，即当误差达到设定阈值或当迭代次数到达指定迭代次数时，得到最佳的控制输入，真正更新车辆状态，更新下层状态变量并传输到下层。

步骤(3.2)下层得到更新后的下层状态变量转速转矩，将下层状态变量以及上一时刻执行网络的输出输入到评价网络中(初始时刻的上一采样时刻执行网络输出为零)，得到评价网络输出以及评价网络误差，其中，评价网络为了优化评价网络输出，其中，评价网络为了优化评价网络误差，首先需要优化评价网络输出，因此将评价网络输出将作为执行网络的误差，通过执行网络对评价网络输出进行优化，间接优化评价网络误差。执行网络中只输入下层状态变量得到执行网络输出，根据输出范围[-1,1]映射转为最小最大齿轮比范围，将执行网络输出映射转化得到齿轮比，并找到距离该齿轮比差值最小的对应于挡位的齿轮比，根据步骤(1.3)顺序换挡方式切换挡位，根据公式(5)计算下一时刻下层状态变量，通过ADHDP算法传递回报函数至评价网络同时更新评价网络输入。执行网络最终目的是优化评价网络输出并间接优化评价网络误差，当评价网络误差和执行网络误差都优化到最小时，即当迭代次数到达指定迭代次数或达到设定阈值，得到最佳油耗下的离散齿轮比，并得到该齿轮比最接近的挡位，即最佳挡位，切换挡位，进一步提升燃油经济性。

本发明有益效果如下：

本发明提出一种基于执行依赖启发式动态规划的燃油汽车生态自适应巡航控制方法。首先建立车辆的动力学模型，转速转矩关系，再根据智能驾驶安全、节能、舒适的重要目标设计强化学习评价网络与执行网络的损失函数，最后通过执行网络得到车辆的控制决策，并通过评价网络对执行网络得到的结果进行评价并对执行网络进行奖惩，最终得到损失函数，达到安全、节能、舒适的重要目标。

本发明方法能够提升能源的利用率，减少污染并在最大程度解决交通拥堵，交通事故等问题。

附图说明

图1是本发明使用场景；

图2是本发明方法实施流程图；

图3是本发明评价-执行网络结构图；

图4是本发明评价网络结构图；

图5是本发明执行网络结构图；

图6是经典驾驶循环UDDS下的速度，加速度，以及跟车距离仿真结果图。

具体实施方式

下面根据附图详细说明本发明，本发明的目的和效果将变得更加明显。

如图1所示，本发明提出的使用场景，图2是方法实施流程图，图3是评价-执行网络结构图，图4是评价网络结构图，图5执行网络结构图，图6是UDDS驾驶循环下跟车距离、速度以及加速度情况图。

下面根据图所示并结合仿真驾驶循环说明，其具体实施步骤如下：

步骤(1).使用场景如图1所示，通过传感器获取当前车辆状态信息，主要包括主车位置s_h，速度v_h，加速度a_h，转速ω_e，转矩T_ed以及前车的速度和位置等信息，在仿真过程中，前车的速度以及初始位置已知(即假定由传感器获得了数据)。

步骤(2).根据获得的数据计算上层状态变量，并将上层状态变量输入到ADHDP框架中，得到结果并通过监督器得到加速度控制指令。具体步骤如下：

步骤(2.1)根据得到的状态信息，计算得到上层状态变量x_h,u＝[Δd,Δv],并初始化上层执行网络输出u_h,u＝0。

步骤(2.2)串接当前上层状态变量以及执行网络输出，输入到评价网络中，同时，计算当前的回报函数r_h,u(x_h,u,u_h,u)以及值函数J_h，u。得到上层的生成评价网络输出

以及评价网络误差e_c，u。同时将

作为执行网络的误差进行优化，执行网络输入上层状态变量x_h，u＝[Δd，Δv],得到执行网络输出u_h,u，该值范围属于[-1，1]根据加速度范围[a_h,min，a_h,max]映射为期望加速度a_h,des，计算加速度偏差，并通过公式(1)计算加速度a_h,u，并通过监督其满足约束条件。监督器可以表示为：

将计算得到的加速度作为一个假定下一时刻控制输入，作用于主车，更新车辆下一时刻状态。具体如图2上层所示。

步骤(2.3)更新下一时刻上层状态变量，以及执行网络的输出，重复步骤(2.2)，不断更新执行网络输出，直至得到最佳的执行网络输出，即最佳下一时刻控制输入(加速度)。具体的评价-执行结构图如图3所示。

步骤(3)根据上层得到的下一时刻最佳速度，得到当前转速转矩状态，即下层状态变量，下层状态变量输入到ADHDP框架中，得到结果并通过调整器得到挡位切换。具体步骤如下：

步骤(3.1)根据得到的状态信息，计算得到下层状态变量x_h,l＝[ω_e,T_ed],并初始化下层执行网络输出为当前齿轮比u_h,l＝i_g(p)。

步骤(3.2)串接当前下层状态变量以及执行网络输出，输入到评价网络中，同时，计算当前的回报函数r_h,l(x_h,l,u_h,l)以及值函数J_h,l。得到下层的生成评价网络输出

以及评价网络误差e_c,l。同时将

作为执行网络的误差进行优化，执行网络输入下层状态变量x_h,l＝[ω_e,T_ed],得到执行网络输出u_h,l，该值范围属于[-1，1]根据齿轮比范围[I_g,min，I_g,max]映射为齿轮比i_g,l，通过调整器将齿轮比转化为挡位，可以表示为：

将计算得到的挡位更新下层状态。具体如图2下层所示。

步骤(3.3)更新下一时刻下层状态变量，以及执行网络的输出，重复步骤(3.2)，不断更新执行网络输出，直至得到最佳的执行网络输出，即最佳下一时刻控制输入(挡位)。具体的评价-执行结构图如图3所示。

下面对步骤(2)、(3)中的输入状态变量，得到控制输出的网络迭代原理、过程以及公式进行补充说明：

根据步骤(2)和(3)的信息以及ADHDP评价-执行结构图，下面具体介绍网络迭代的公式以及过程。具体步骤如下所示：

a.将步骤(2)和(3)的上下层状态变量以及控制变量分别看作x_k和u_k，分别代表k采样时刻的的状态变量向量和控制变量向量，在这里状态变量向量为2维，控制变量向量为1维。从图3可以推导得到k时刻的值函数计算公式为：

J(x_k)＝r(x_k,u_k)+γJ(x_k+1) (19)

根据贝尔曼最优性原理，最佳的值函数能够表示为最佳策略下的值函数：

该最佳策略能够通过下列式子获得：

在网络迭代过程中评价网络的输出

即用来近似值函数J(x_k)。

b.评价网络的输出

可以表示为：

其中，由于评价网络输入由状态变量输入加上控制变量输入构成，因此

和

是输入层到隐藏层的对应状态变量和控制变量的分权重；N_c代表隐藏层神经元个数；

和

是隐藏层的输出和输入。具体如图4所示。

同时，评价网络的误差函数表示为：

为了便于网络迭代，评价网络的误差函数表示为：

c.最小化误差函数通过调整权重实现，权重调整通过梯度下降实现。具体表现为：

iter表示k时刻，网络内部迭代的次数。

评价网络隐藏层到输出层的权重

的迭代方式表示如下：

输入层到隐藏层的权重为

的迭代方式如下：

d.执行网络的目的是为了近似最优策略，最小化误差函数，执行网络的误差函数是评价网络的输出，表示为：

同时执行网络的输出表示为：

如图5所示即为执行网络结构图。

执行网络中最小化误差函数也能通过调整权重实现，权重调整通过梯度下降实现,表现为：

评价网络隐藏层到输出层的权重

的迭代方式表示如下：

因此，可以得到：

输入层到隐藏层的权重为

的迭代方式如下：

经典驾驶循环UDDS下的速度，加速度，以及跟车距离仿真结果如图6所示。

Claims

1.一种基于ADHDP的燃油汽车生态自适应巡航控制方法，其特征在于，包括以下步骤：

步骤(1)、对车辆进行动力学建模，对车辆的基本信息以及车辆的物理量进行建模；

步骤(2)、基于上下层控制框架进行燃油车生态自适应巡航控制，确定优化目标；其中上层优化车辆加速度，使其满足公式(7)中的限制条件，并将加速度并送入到下层，下层优化得到最佳的齿轮比，进一步减少燃油油耗，并且上下层都采用ADHDP算法进行优化求解；

步骤(3)、通过ADHDP算法迭代对车辆进行决策，其中执行网络获得对车辆该采取的下一步决策，评价网络用来评价执行网络获得决策的反馈对执行网络进行奖惩；

步骤(1)具体步骤如下：

步骤(1.1)、首先建立车辆动力学三阶方程，如下所示：

其中s_h，v_h，a_h以及a_h，des分别为主车行驶的位置，速度，加速度以及期望的加速度，τ_h是主车的机械延迟，根据不同车辆为不同常数；

步骤(1.2)、根据车辆动力学三阶模型计算加速度a_h，计算加速度需要计算期望加速度，通过计算得到的期望加速度，以及上一采样间隔的实际加速度计算得到加速度变化率计算当前采样时刻的加速度；

期望加速度的计算公式如下：

其中，μ为轮胎与地面的摩擦力系数，ρ为空气密度，A_v为车辆的前部面积，d_h是跟车行驶过程两车的实际间距，C_d(d_h)为与间距相关的气动阻力系数，具体计算公式如下所示：

其中，C_h，d是主车的标称阻力系数，参数c₁和c₂为风阻关系的拟合参数，通过实验获得；

步骤(1.3)、根据(1.1)和(1.2)获得的状态信息，结合转速转矩关系确定车辆转速转矩；

其中ω_e、T_ed是车辆的有效转速与有效转矩，R是车辆的轮胎半径，i_d是差速器的减速比，η_g是传动效率，i_g(p)是车辆不同挡位的传动比，p是挡位状态；为了保证驾驶的舒适性仅允许顺序换挡，即p(t)＝p(t-1)+u_p(t)，其中u_p(t)属于集合{-1，0，1}，即对应减档位，保持挡位以及加挡位；

步骤(1.4)、采用现有的燃油消耗模型，估计下一个时刻的油耗，在实际行驶过程中，当前油耗能够通过传感器获得，具体的优化目标表达式如下所示：

该优化目标服从以下限制条件：

其中，t和T_cyc表示开始行驶时间和最大行驶间隔；油耗的表达式为：

其中，Idel是空挡油耗，ω_e(t)是有效转速，T_ed(t)是有效转矩；d_h，min(v_h)和d_h，max(v_h)分别表示在速度v_h下的最小和最大跟车距离，最小距离保证安全，最大距离防止影响道路通行效率，具体表达式如下所示：

2.根据权利要求1所述的一种基于ADHDP的燃油汽车生态自适应巡航控制方法，其特征在于，步骤(2)具体步骤如下：

步骤(2.1)首先确定上层状态变量，控制变量，以及回报函数以及值函数；

步骤(2.1.1)上层状态变量反映跟车性能，由两部分组成，分别是跟车距离以及前后车车速差；其中，前后车车速差能够表示为Δv＝v_p-v_h，由于跟车车距在步骤(1.4)中表示为允许的最大最小跟车距离，因此无法简单由实际车距减去允许的最大和最小跟车车距两个表达式进行表示，需要将两个表达式通过带阻函数进行整合，带阻函数表达式如下所示：

距离的带阻函数表示如下：

其中，将d_l设置为最小跟车间距设置为d_h，min(v_h)，d_u设置最大间距设置为d_h，max(v_h)，该带阻函数值始终为正数，为了反映跟车趋势，进行分段表示，当实际车距在靠近允许的最小车距时为负，当靠近允许的最大车距时为正，因此距离状态的具体表达如下所示：

即上层状态变量为x_h，u＝[Δd，Δv]；

步骤(2.1.2)上层的控制变量为期望加速度，即u_h，u＝a_h，des；具体计算方式是，输入上层状态变量到ADHDP算法中，得到输出，该输出取值属于[-1，1]，通过加速度范围[a_h，min，a_h，max]进行映射，得到期望的加速度a_h，des；

步骤(2.1.3)ADHDP算法包括一个执行-评价结构，其中，回报函数以及值函数是ADHDP算法中执行网络以及评价网络需要优化的内容；上层的控制目标是安全，舒适度以及油耗，上层回报函数定义为：

其中ξ_u，

和ψ_u分别表示权重系数，BSF(d_h)是距离的带阻函数，如公式(11)所示；因此值函数可以表示为：

步骤(2.2)确定下层状态变量，控制变量，以及回报函数以及值函数；

步骤(2.2.1)下层状态变量用于使评价网络的输出近似于燃油消耗模型估计得到的下一个时刻的油耗，使得评价网络的输出近似于燃油消耗模型估计得到的下一个时刻的油耗的差值在设定的阈值范围内，提升燃油经济性，因此将燃油模型的变量即车辆有效转速和有效转矩作为下层状态变量，表示为x_h，l＝[ω_e，T_ed]；

步骤(2.2.2)下层用于控制最佳齿轮比，将齿轮比转化为挡位，因此控制变量为u_h，l＝i_g；

步骤(2.2.3)下层是为了进一步提升燃油经济性，回报函数为：

r_h，l(x_h，l，u_h，l)＝FC (15)

值函数为：

3.根据权利要求2所述的一种基于ADHDP的燃油汽车生态自适应巡航控制方法，其特征在于，步骤(3)具体步骤如下：

步骤(3.1)将上层状态变量以及上一采样时刻执行网络输出输入到评价网络中，初始时刻的上一采样时刻执行网络输出为零，得到评价网络输出以及评价网络误差；其中，评价网络为了优化评价网络误差，首先需要优化评价网络输出，因此将评价网络输出将作为执行网络的误差，通过执行网络对评价网络输出进行优化，间接优化评价网络误差；执行网络中只输入上层状态变量得到执行网络输出，将执行网络输出转化映射为加速度，通过公式(1)作用于主车，计算得到下一时刻的上层状态变量，通过ADHDP算法传递回报函数并传输到至评价网络，更新评价网络误差，同时更新评价网络输入；执行网络最终目的是优化评价网络输出并间接优化评价网络误差，当评价网络误差和执行网络误差都优化到最小时，即当误差达到设定阈值或当迭代次数到达指定迭代次数时，得到最佳的控制输入，真正更新车辆状态，更新下层状态变量并传输到下层；

步骤(3.2)下层得到更新后的下层状态变量转速转矩，将下层状态变量以及上一时刻执行网络的输出输入到评价网络中，初始时刻的上一采样时刻执行网络输出为零，得到评价网络输出以及评价网络误差，其中，评价网络为了优化评价网络输出，其中，评价网络为了优化评价网络误差，首先需要优化评价网络输出，因此将评价网络输出将作为执行网络的误差，通过执行网络对评价网络输出进行优化，间接优化评价网络误差；执行网络中只输入下层状态变量得到执行网络输出，根据输出范围[-1，1]映射转为最小最大齿轮比范围，将执行网络输出映射转化得到齿轮比，并找到距离该齿轮比差值最小的对应于挡位的齿轮比，根据步骤(1.3)顺序换挡方式切换挡位，根据公式(5)计算下一时刻下层状态变量，通过ADHDP算法传递回报函数至评价网络同时更新评价网络输入；执行网络最终目的是优化评价网络输出并间接优化评价网络误差，当评价网络误差和执行网络误差都优化到最小时，即当迭代次数到达指定迭代次数或达到设定阈值，得到最佳油耗下的离散齿轮比，并得到该齿轮比最接近的挡位，即最佳挡位，切换挡位，进一步提升燃油经济性。

4.根据权利要求1所述的一种基于ADHDP的燃油汽车生态自适应巡航控制方法，其特征在于，进一步的，参数α，β，n和cf_z对应设置为2，2，1，1。