CN105739305A

CN105739305A - 一种履带车辆的控制方法

Info

Publication number: CN105739305A
Application number: CN201610064705.9A
Authority: CN
Inventors: 邹渊; 孙逢春; 刘德兴; 刘腾
Original assignee: Beijing Institute of Technology BIT
Current assignee: Beijing Institute of Technology BIT
Priority date: 2016-01-29
Filing date: 2016-01-29
Publication date: 2016-07-06

Abstract

本发明公开了一种履带车辆的控制方法，所述控制方法包括：(1)建立适合于履带车辆的三维马尔科夫链驾驶员需求功率模型；(2)根据该履带车辆的行驶工况，对步骤(1)建立的三维马尔科夫链模型的概率转移矩阵在线更新；(3)针对步骤(2)中概率转移矩阵在线更新情况，采用KL divergence rate评判指标，判断是否进行履带车辆控制策略的更新替换。本发明针对履带车辆提出了考虑其转向角速度和转向功率的三维马尔科夫链，其三维状态变量分别为平均车速、转向角速度及包含转向功率的驾驶员需求功率；并对该三维马尔科夫链的转移概率矩阵在线更新，还通过KL divergence rate评价指标实时判断是否触发该车辆控制策略更新，从而使车辆更好地适应当前行驶工况，提高车辆的燃油经济性。

Description

一种履带车辆的控制方法

技术领域

本发明涉及履带车辆能量控制技术领域，特别是涉及一种履带车辆的控制方法。

背景技术

履带车辆的能量管理策略研究，通常需要对驾驶员需求功率进行评估，然而由于行驶工况的随机性，导致驾驶员需求功率也是随机变化的，这就需要对驾驶员需求功率进行适当建模。马尔科夫链(或马尔科夫过程)作为随机性过程的一种，被广泛运用在车辆的随机控制策略求解中。

我们将具有马尔科夫性质的随机过程称之为马尔科夫链，或马尔科夫过程。由于马尔科夫链具有马尔科夫性质，也即是从一个状态转移到另一个状态的概率只与当前系统所处的状态有关，与之前系统所处的状态无关，因此，马尔科夫性质又被称为无记忆性质，它是马尔科夫过程区别于其他随机过程的本质所在。

转移概率矩阵(Transitionprobabilitymatrix，TPM)为一个条件概率的集合{p_i,j}，其中，p_i,j表示当前位于状态i，但下次转换后，将到达状态j的条件概率。记状态转移的条件概率矩阵为P＝[p_i,j]，且需符合下式(1)：

Σ_{j = 1}^{N} p_{i, j} = 1 - - - (1)

如附图1是马尔科夫链的一个简单示例，总共有三个状态，分别为：1、2、3；箭头上的数字表示的是从一个状态转移到另一个状态的概率，如p(2,1)＝0.3表示的是从状态2转移到状态1的概率为0.3；没有箭头的表明所对应的转移概率为0。那么，我们可以得到3×3的转移概率矩阵，如式(2)：

P = [\begin{matrix} 0.5 & 0.1 & 0.4 \\ 0.3 & 0.7 & 0 \\ 0 & 0.4 & 0.6 \end{matrix}] - - - (2)

现阶段针对驾驶员需求功率的马尔科夫链模型，大多是以轮式车辆为背景提出的，大致可分为以下几种类型。

1、一维驾驶员需求功率马尔科夫链模型

仅仅考虑驾驶员需求功率，建立一维状态的马尔科夫链模型，也即是下一时刻的需求功率只取决于当前需求功率，与之前所处的状态无关，该模型通常与随机模型预测(StochasticModelPredictiveControl，SMPC)结合进行控制策略的求解。将需求功率离散为有限个数的一列值：

P_{d e m} &Element; {p_{d e m}^{1}, p_{d e m}^{2}, ... ..., p_{d e m}^{N_{p}}} - - - (3)

用转移概率p_i,j来表示在当前时刻(k)需求功率p_dem ⁱ下，下一时刻(k+1)需求功率p_dem ^j的概率，如下式(4)：

\begin{matrix} p_{i, j} = \Pr {p_{d e m, k + 1} = p_{d e m}^{j} | p_{d e m, k} = p_{d e m}^{i}} \\ i, j = 1, 2, ... ... N_{p} \end{matrix} - - - (4)

2、考虑车速的二维驾驶员需求功率马尔科夫链模型

考虑车速的影响，将马尔科夫链模型的状态维数增加到二维，也即是下一时刻的需求功率只取决于当前车速和当前需求功率，与之前所处的状态无关，该模型通常与随机动态规划(StochasticDynamicProgramming，SDP)结合进行控制策略的求解。将需求功率离散为有限个数的一列值：

P_{d e m} &Element; {p_{d e m}^{1}, p_{d e m}^{2}, ... ..., p_{d e m}^{N_{p}}} - - - (5)

车速同样离散为有限个数的一列值：

V &Element; {v^{1}, v^{2}, ... ..., v^{N_{v}}} - - - (6)

用转移概率p_im,j来表示在当前时刻(k)平均车速v^m和当前时刻需求功率p_dem ⁱ下，下一时刻(k+1)需求功率p_dem ^j的概率，如下式(7)：

\begin{matrix} p_{i m, j} = \Pr {p_{d e m, k + 1} = p_{d e m}^{j} | p_{d e m, k} = p_{d e m}^{i}, v_{k} = v^{m}} \\ i, j = 1, 2 ... ... N_{p}; m = 1, 2, ... ..., N_{v} \end{matrix} - - - (7)

且

Σ_{1}^{N_{p}} p_{i m, j} = 1.

转移概率p_im,j的值由车辆的试验工况来确定，由于需要事先知道工况才能进行统计计算，故此类确定转移概率矩阵的方法为离线统计方法。该方法如下：已知每一时刻试验工况的车速，根据车辆的动力学方程，求出对应时刻的需求功率。应用nearestneighborhood方法将获得的这组数据(p_dem,v)量化为(p_dem ⁱ,v^m)。因此，转移概率的值可由最大似然估计法确定：

p_{i m, j} = \frac{m_{i m, j}}{m_{i m}}, (m_{i m} > 0) - - - (8)

其中，m_im,j表示在车速为v^m时，需求功率从p_dem ⁱ转移到p_dem ^j发生的次数。m_im表示在车速为v^m时，需求功率p_dem ⁱ总的发生转移的次数，且

需要注意的是，p_im,j实际上是一个包含两个状态的马尔科夫链p_im,jl的一个简化，其中l＝1,2,...,N_v，因为从某一时刻到下一时刻速度的变化是一个确定的过程，可以用下述状态方程进行描述：

v_k+1＝v_k+a_k(u_k,p_dem,k)Δt(9)

其中，a_k(u_k,p_dem,k)是由控制变量u_k和需求功率p_dem,k计算出的车辆加速度，Δt是采样时间。

如附图2是某车速下转移概率矩阵示例，其中x轴为当前时刻驾驶员需求功率，y轴为下一时刻驾驶员需求功率，z轴为转移概率。

3、考虑车辆停止状态的二维驾驶员需求功率马尔科夫链模型

在上述二维驾驶员需求功率马尔科夫链模型的基础上，加入“车辆停止状态”，该模型通常与最短路径随机动态规划(Shortest-PathStochasticDynamicProgramming，SP-SDP)结合进行控制策略的求解。将需求功率离散为有限个数的一列值：

P_{d e m} &Element; P o w e r = {p_{d e m}^{1}, p_{d e m}^{2}, ... ..., p_{d e m}^{N_{p}}} - - - (10)

车辆运行状态V_cmd所属的状态空间Command，其不仅包含需求功率集合Power，还包括车辆运行停止状态：“turnoff”和“off”，即

V_cmd∈Command＝{'turnoff','off'}∪Power(11)

车速同样离散为有限个数的一列值：

V &Element; {v^{1}, v^{2}, ... ..., v^{N_{v}}} - - - (12)

其概率转移矩阵可表示为：

\begin{matrix} p_{i m, j} = \Pr {V_{c m d, k + 1} = {Command}^{j} | V_{c m d, k} = {Command}^{i}, v_{k} = v^{m}} \\ {Command}^{i}, {Command}^{j} &Element; C o m m a n d; m = 1, 2, ... ..., N_{v} \end{matrix} - - - (13)

现有马尔科夫链模型的其它应用还有：如密西根大学的Tae-KyungLee和ZoranS.Filipi^[9]，在美国密西根洲东南部采集到的大量工况，采用类似的最大似然估计方法计算转移概率矩阵，建成以车辆行驶速度和加速度的二维状态马尔科夫链。然后再利用转移概率矩阵计算生成满足一定指标的任意长度工况，用该方法生成的工况能够在很大程度上反映出实际驾驶情况，而且是可以根据用户自己调整指标和里程长度，具有一定的通用性。

但当前的研究主要是针对轮式车辆进行的，对于轮式车辆而言，转向所需的功率非常小，可以忽略；而对于履带车辆而言，由于其转向原理与轮式车辆不同，所以转向时也要消耗相当一部分功率，且其在转向时所消耗的转向功率是不可忽略的，它会占到总需求功率的一大部分，而现有的研究，都是以履带两侧的平均速度来计算需求功率的，也就是将其和轮式车辆考虑成一样的情况，而这种做法是有误差的，导致现有的马尔科夫链模型均不适用于履带车辆。

由此可见，上述现有的马尔科夫链模型均不适用于履带车辆，如何能创设一种新的适合于履带车辆的控制方法，成为当前业界极需改进的目标。

发明内容

本发明要解决的技术问题是提供一种履带车辆的控制方法，使其适合于履带车辆的随机控制，从而克服现有的履带车辆控制方法的不足。

为解决上述技术问题，本发明提供一种履带车辆的控制方法，所述控制方法包括：

(1)建立适合于履带车辆的三维马尔科夫链驾驶员需求功率模型；

(2)根据所述履带车辆的行驶路况、交通条件和驾驶员状态，对所述步骤(1)建立的三维马尔科夫链驾驶员需求功率模型的概率转移矩阵在线更新；

(3)针对步骤(2)中所述三维马尔科夫链驾驶员需求功率模型的概率转移矩阵在线更新情况，采用KLdivergencerate评判指标，判断是否进行所述履带车辆控制策略的更新替换。

作为本发明的一种改进，所述步骤(1)中三维马尔科夫链的三维状态变量分别为平均车速、转向角速度和包含转向功率的驾驶员需求功率；

所述三维马尔科夫链驾驶员需求功率模型的概率转移矩阵表达式为：

p_ij,l＝P_r{(P_dem,ω)_k+1＝(P_dem,ω)^j|(P_dem,ω)_k＝(P_dem,ω)ⁱ,v_ave,k＝v_ave ^l}

i,j＝1,2,...,N_P·N_ω,l＝1,2,...,N_v

其中，驾驶员需求功率P_dem、平均车速v_ave以及转向角速度ω被离散为有限个数值。

进一步改进，所述驾驶员需求功率P_dem的计算公式为：

P_dem＝(F_i+F_a+F_r)v_ave+Mω

其中，F_i为车辆的加速阻力，F_a为车辆所受的空气阻力，F_r为车辆所受的滚动阻力，v_ave为车辆行驶的平均车速，M为地面给车辆的横摆阻力矩，ω为车辆的转向角速度，(F_i+F_a+F_r)v_ave为履带车辆行驶的直驶功率，Mω为履带车辆行驶的转向功率。

进一步改进，所述步骤(2)中三维马尔科夫链驾驶员需求功率模型的概率转移矩阵的迭代更新算式为：

F(k)＝F(k-1)+δ[τ(k)γ(k)^T-F(k-1)]

F_o(k)＝F_o(k-1)+δ[τ(k)γ(k)^Te_M-F_o(k-1)]

p(k)＝[diag(F_o(k))]^-1F(k)

其中，δ为遗忘因子常数，τ(k)和γ(k)为f_ij(k)和f_i(k)的M×1维的向量副本。

进一步改进，所述步骤(3)中KLdivergencerate评判指标的定义如下：

D_{K L} (P | | Q) = \underset{x}{Σ} \underset{x^{+}}{Σ} [P (x^{+} | x) P^{*} (x)] l o g [P (x^{+} | x) / Q (x^{+} | x)]

其中，x和x⁺分别表示当前时刻状态和下一时刻状态，P^*为转移概率矩阵P的稳态分布概率向量。

进一步改进，所述转移概率矩阵P和Q的变式P_reg和Q_reg分别定义为：

P_{r e g} = (1 - β) P + β (\frac{1}{M}) E_{M \times M}

Q_{r e g} = (1 - β) Q + β (\frac{1}{M}) E_{M \times M}

其中，β是介于0到1之间的很小的常数，M是转移概率矩阵的状态数量，E_M×M是元素全为1的M×M矩阵。

进一步改进，所述步骤(3)中当所述KLdivergencerate评价指标超过预设阈值时，所述履带车辆的控制策略重新求解更新，当所述KLdivergencerate评价指标未超过预设阈值时，所述履带车辆的控制策略不更新。

采用上述的技术方案，本发明至少具有以下优点：

本申请针对履带车辆，提出了考虑其转向角速度和转向功率的三维马尔科夫链，其三维状态变量分别为平均车速、转向角速度及包含转向功率的驾驶员需求功率；在此基础上，对上述三维马尔科夫链的转移概率矩阵进行在线更新，以适应当前的行驶路况、交通条件、驾驶员状态等工况；并通过提出的Kullback-Leibler(KL)divergencerate评价指标对在线更新的转移概率矩阵进行实时评判比较，当其超过一定阈值时，触发该履带车辆控制策略的更新，从而使车辆控制器更好地适应当前的行驶工况，提高车辆的燃油经济性。

附图说明

上述仅是本发明技术方案的概述，为了能够更清楚了解本发明的技术手段，以下结合附图与具体实施方式对本发明作进一步的详细说明。

图1是马尔科夫链示例图；

图2是现有的二维马尔科夫链驾驶员需求功率模型在车速35Km/h下转移概率矩阵的示例图；

图3是履带车辆的行驶受力简图；

图4a和4b是平均车速和转向角速度出现频次和概率的示意图；

图5是某实际工况下履带车辆的直驶功率和转向功率的比较图；

图6是三维马尔科夫链转移概率矩阵p_ij,lm(m＝1,2,…,N_v)的简化过程示意图；

图7是本发明履带车辆控制方法的流程示意图；

图8是平均速度为10km/h时三维马尔科夫链驾驶员需求功率模型的转移概率矩阵示意图；

图9是相邻转移概率矩阵的KLdivergencerate值示意图；

图10是平均速度为20km/h时三维马尔科夫链驾驶员需求功率模型的转移概率矩阵示意图。

具体实施方式

本申请在现有的考虑车速的二维驾驶员需求功率马尔科夫链模型的基础加以进一步改进的，首次提出了考虑履带车辆转向的三维马尔科夫链驾驶员需求功率模型，适合于混合动力履带车辆的随机控制，这是由于驾驶员需求功率马尔科夫链模型的随机统计性质所决定的；其次，本申请能够在线更新该三维马尔科夫链驾驶员需求功率模型的转移概率矩阵，并且根据履带车辆当前行驶工况的变化波动程度，通过Kullback-Leibler(KL)divergencerate评判指标，来触发该履带车辆控制策略的重新计算与更新替代，即形成一种适合于履带车辆的控制方法。

本发明履带车辆的控制方法包括如下步骤：

一、建立适合于履带车辆的三维马尔科夫链驾驶员需求功率模型；

该三维马尔科夫链驾驶员需求功率模型的建模过程如下：

首先，在建模之前，必须明确适合履带车辆行驶所需的驾驶员需求功率计算方法，该方法应相对简单，且保证一定的计算准确性。参照附图3为履带车辆的受力图，其中，v₁和v₂分别为两侧履带速度，O为履带车辆的转向中心，C为履带车辆的质心，R为履带车辆的转向半径，B为两侧履带中心距，L为履带接地长；F_i为车辆的加速阻力，F_a为车辆所受的空气阻力，F_r为车辆所受的滚动阻力，v_ave为车辆行驶的平均车速，M为地面给车辆的横摆阻力矩，ω为车辆的转向角速度。则驾驶员需求功率P_dem的计算公式如下式(14)：

P_dem＝(F_i+F_a+F_r)v_ave+Mω(14)

其中，(F_i+F_a+F_r)v_ave为履带车辆行驶的直驶功率，Mω为履带车辆行驶的转向功率，F_i为车辆的加速阻力，F_a为车辆所受的空气阻力，F_r为车辆所受的滚动阻力，v_ave为车辆行驶的平均车速，M为地面给车辆的横摆阻力矩，ω为车辆的转向角速度。表明驾驶员需求功率P_dem由直驶功率和转向功率两项组成。

当忽略履带的滑动时，车辆行驶的平均车速v_ave为两侧履带速度的平均值。

v_{a v e} = \frac{v_{1} + v_{2}}{2} - - - (15)

转向角速度ω由两侧履带速度差引起，计算公式如下式(16)。

ω = \frac{v_{1} - v_{2}}{B} - - - (16)

加速阻力F_i由车辆行驶加速度引起，计算公式如下式(17)，其中m是车辆的质量，a车辆加速度。

F_i＝ma(17)

空气阻力F_a的计算表达式为式(18)，其中A为车辆迎风面积，C_d为车辆空气阻力系数。

F_{a} = \frac{C_{d} A}{21.15} v_{a v e}^{2} - - - (18)

车辆所受到的滚动阻力F_r与滚动阻力系数f成正比，计算公式如下式(19)，其中g为重力加速度。

F_r＝mg·f(19)

转向阻力矩M与转向阻力系数u_t成正比，计算如下。

M = \frac{1}{4} u_{t} m g L - - - (20)

转向阻力系数u_t可根据尼基金教授所提出的经验公式进行计算，其中u_max为地面最大转向阻力系数，由查表可得。

u_t＝u_max/(0.925+0.15R/B)(21)

转向半径R等于平均车速v_ave与转向角速度ω绝对值的比值，如下式(22)：

R = \frac{v_{a v e}}{| ω |} - - - (22)

正如式(14)中所示，履带车辆行驶过程中的转向功率为转向阻力矩M和转向角速度ω的乘积，也就是当两侧履带速度v₁和v₂不等的车辆转向时，转向功率对于总需求功率的贡献会很明显。

本申请通过统计大量样本工况，进而得出履带车辆是否转向(即转向角速度是否为零)和转向的剧烈程度(即转向角速度的大小程度)，是与平均车速强烈耦合的。通过场地试验获得239535s(即约66.7小时)的双侧履带速度工况，其中包括低速转向、高速转向、低速直驶、高速直驶等多种行驶场景，车速范围为0-60km/h并将其离散为0,10,20,30,40,50,60km/h的网格值，转向角速度范围为-1～1rad/s并将其离散为-1，-0.75，-0.5，-0.25，0，0.25，0.5，0.75，1rad/s的网格值，采样时间为1s，利用最邻近方法统计出平均车速和转向角速度的出现频次图以及出现概率图，如图4a和4b所示。

从图4a和4b可以看出，履带车辆低速行驶时，转向的概率更大(即转向角速度不为零的概率更大)；高速行驶时，转向概率相对较小(即转向角速度不为零的概率较小)，出现的概率为10^-6～10^-4数量级，出现频次在239535s的工况中，占到不到100次。

以上结果表明，由此可以得出结论：ω是否等于0(是否转向)与平均车速v_ave有很大的关系，两者强烈耦合；故而转向功率与v_ave和ω耦合，而转向功率作为总需求功率P_dem的一部分，因此P_dem与v_ave和ω耦合，这也是三维马尔科夫链驾驶员需求功率模型的依据所在。

实施例一：本发明采集某串联混合动力双电机驱动履带车辆实际行驶工况，该履带车辆的特征参数如表1所示：

表1履带车辆特征参数

参数名称	数值
		车辆质量m/kg	15200
迎风面积A/m²	5.4
		空气阻力系数C_d	1
滚动阻力系数f	0.049
		两侧履带中心距B/m	2.55
地面最大转向阻力系数u_max	1
		履带接地长L/m	3.57

应用表1中车辆特征参数和利用上式(14)至(22)计算出直驶功率、转向功率及总需求功率，并根据两侧电机的转矩、转速及效率等实车采集数据求得实车总需求功率，其结果如附图5所示，从该图可知计算出的总需求功率与实车总需求功率之间的误差较小，表明上式(14)对总需求功率的计算准确性较高。

在此基础上建立具有转向角速度和转向功率的三维马尔科夫链，其三维状态变量分别为平均车速v_ave、转向角速度ω及包含转向功率的驾驶员需求功率P_dem，该三维马尔科夫链的概率转移矩阵表达形式如下式(23)，其中(P_dem,ω)ⁱ(i＝1,2,…,N_P·N_ω)表示{ω¹,ω²,…,ω^Nw}和{P_dem ¹,P_dem ²,…P_dem ^Np}组成的二维笛卡儿空间。

\begin{matrix} p_{i j, l} = P_{r} {{(P_{d e m}, ω)}_{k + 1} = {(P_{d e m}, ω)}^{j} | {(P_{d e m}, ω)}_{k} = {(P_{d e m}, ω)}^{i}, v_{a v e, k} = {v_{a v e}}^{l}} \\ i, j = 1, 2, ..., N_{P} \cdot N_{ω}, l = 1, 2, ..., N_{v} \end{matrix} - - - (23)

其中，驾驶员需求功率P_dem、平均车速v_ave以及转向角速度ω被离散为有限个数值，如下式(24)。

\begin{matrix} P_{d e m} &Element; {P_{d e m}^{1}, P_{d e m}^{2}, ..., P_{d e m}^{N_{p}}} \\ v_{a v e} &Element; {v_{a v e}^{1}, v_{a v e}^{2}, ..., v_{a v e}^{N_{c}}} \\ ω &Element; {ω^{1}, ω^{2}, ..., ω^{N_{w}}} \end{matrix} - - - (24)

值得说明的是，p_ij,l实际上是三维马尔科夫链p_ij,lm(m＝1,2,…,N_v)的简化形式，因为下一时刻的平均车速在已知当前时刻平均车速、转向角速度和驾驶员需求功率的条件下，是可以确定的，具体简化过程祥见附图6，其中Δt为采样时间。

二、对上述将步骤(一)建立的三维马尔科夫链驾驶员需求功率模型的在线更新；

该三维马尔科夫链驾驶员需求功率模型的概率转移矩阵的具体更新算法如下：

p_{i j} = \frac{N_{i j}}{N_{o i}} - - - (25)

其中，N_ij为从状态x_i转移到状态x_j的转移次数，为从状态x_i出发的转移总次数。需要指明的是，本申请中，除了特加说明外，i和j都属于集合{1,2,…,M}。若将式(25)改写为以转移频率代替转移次数的表达方式，式(25)就会变为式(26)：

p_{i j} = \frac{N_{i j} (k)}{N_{o i} (k)} = \frac{N_{i j} (k) / k}{N_{o i} (k) / k} = \frac{F_{i j} (k)}{F_{o i} (k)} - - - (26)

其中，F_ij(k)为从状态x_i转移到状态x_j的转移事件f_ij(k)的转移频率，F_oi(k)为从状态x_i出发的转移事件f_i(k)的转移频率，且

F_{i j} (k) = \frac{N_{i j} (k)}{k} = \frac{1}{k} Σ_{t = 1}^{k} f_{i j} (t) - - - (27)

F_{o i} (k) = \frac{N_{o i} (k)}{k} = \frac{1}{k} Σ_{t = 1}^{k} f_{i} (t) = Σ_{j = 1}^{M} F_{i j} (k) - - - (28)

其中，若在t时刻发生了从状态x_i转移到状态x_j的转移事件，则f_ij(t)＝1；同理，若在t时刻发生了从状态x_i出发的转移事件，则f_i(t)＝1。其余情况，f_ij(t)和f_i(t)都等于0。

并且，式(26)-(28)可以通过进一步推导，得到转移概率矩阵在线更新的迭代算法。

\begin{matrix} F_{i j} (k) = \frac{1}{k} Σ_{t = 1}^{k} f_{i j} (t) = \frac{1}{k} [(k - 1) F_{i j} (k - 1) + f_{i j} (k)] \\ = F_{i j} (k - 1) + \frac{1}{k} [f_{i j} (k) - F_{i j} (k - 1)] \end{matrix} - - - (29)

\begin{matrix} F_{o i} (k) = \frac{1}{k} Σ_{t = 1}^{k} f_{i} (t) = \frac{1}{k} [(k - 1) F_{o i} (k - 1) + f_{i} (k)] \\ = F_{o i} (k - 1) + \frac{1}{k} [f_{i} (k) - F_{o i} (k - 1)] \end{matrix} - - - (30)

若将式(29)和(30)中的1/k用一个在0到1之间的常数δ代替的话，式(29)和(30)就会将呈指数衰减的权重赋予给以前的数据，也就是形成了一个以常数δ为遗忘因子的指数衰减的自回归模型，则转移概率矩阵的迭代更新算法可表示为：

p_{i j} = \frac{F_{i j} (k - 1) + δ [f_{i j} (k) - F_{i j} (k - 1)]}{F_{o i} (k - 1) + δ [f_{i} (k) - F_{o i} (k - 1)]} - - - (31)

由于遗忘因子δ的存在，会将呈指数衰减的权重向量W赋予给F_ij(k)和F_oi(k)以前的数据，并且权重向量W的各个元素之和加起来等于1，所以还可将W解释成一个作用于f_ij(t)的加权平均操作向量，这是向量W的第一个性质。

W＝[(1-δ)^kδ(1-δ)^k-1δ²(1-δ)^k-2...δ](32)

向量W的第二个性质是，因为存在一个呈指数衰减的权重向量，那么便存在一个有效记忆长度K_δ，该有效记忆长度K_δ近似等于常数δ的倒数，即K_δ＝1/δ。转移概率矩阵p_ij主要是针对在时间段{k-K_δ+1,k]上的转移事件进行循环迭代的，其中“{”的含义是一个“软的”下限，所谓“软的”下限指的是：(k-K_δ)时刻前的转移事件所占的比例相对来说很小，这是由于有效记忆长度K_δ所决定的，这是向量W的第三个性质。由于以上三条性质的存在，我们就可以通过改变遗忘因子δ，进而改变有效记忆长度K_δ，这样也就让之前的转移事件和近期发生的转移事件得到适当的权衡，从而使转移概率矩阵适应不断变化的交通条件、路况和驾驶员驾驶情绪等外界环境因素。

若使用f_ij(k)和f_i(k)的M×1维的向量副本τ(k)和γ(k)来表示的话，式(31)可以写成矩阵形式。f_ij(k)＝1和f_i(k)＝1可用τ(k)γ(k)^T和τ(k)γ(k)^Te_M来替代，其中τ(k)的第i个元素为1，其余元素为0；γ(k)的第j个元素为1，其余元素为0。

τ (k) = [\begin{matrix} 0 & ... & \underset{i - t h}{1} & ... & 0 \end{matrix}], i f x (k - 1) = x_{i} - - - (33)

γ (k) = [\begin{matrix} 0 & ... & \underset{j - t h}{1} & ... & 0 \end{matrix}], i f x (k) = x_{j} - - - (34)

因此，式(31)的矩阵表达形式可用矩阵的求逆来表达，如式(35)所示。

p(k)＝[diag(F_o(k))]^-1F(k)(35)

其中，矩阵F(k)和向量F_o(k)分别由F_ij(k)和F_oi(k)组成。

F(k)＝F(k-1)+δ[τ(k)γ(k)^T-F(k-1)](36)

F_o(k)＝F_o(k-1)+δ[τ(k)γ(k)^Te_M-F_o(k-1)](37)

该迭代算法的初始条件为：λ是一个很小的非负数，作用是防止奇异情况的发生；E是一个元素全为1的M×M矩阵。

F(0)＝λE；F_o(0)＝F(0)E(38)

三、引用Kullback-Leibler(KL)divergencerate评判指标，判断是否进行车辆控制策略的更新替换，其具体的判断方法如下：

首先，为了衡量转移概率矩阵P和转移概率矩阵Q之间的差别，本发明引入了Kullback-Leibler(KL)divergencerate评判指标，该评判指标的定义如下：

D_{K L} (P | | Q) = \underset{x}{Σ} \underset{x^{+}}{Σ} [P (x^{+} | x) P^{*} (x)] l o g [P (x^{+} | x) / Q (x^{+} | x)] - - - (39)

其中，x和x⁺分别表示当前时刻状态和下一时刻状态，P^*为转移概率矩阵P的稳态分布概率向量，且式(39)是对x和x⁺嵌套求和的。需要说明的是，转移概率矩阵P的稳态分布概率向量P^*可用下式求解。

P^*P＝P^*(40)

通过式(40)，可知P^*为转移概率矩阵P的特征值为1时所对应的特征向量。特征值为1一定存在由下列定理保证：

若A为n×n的不可约矩阵且其每行元素之和为R_i,i＝1,2,……,n，令

\begin{matrix} R_{\min} = m i n {R_{1}, R_{2}, ... ..., R_{n}} \\ R_{\max} = \max {R_{1}, R_{2}, ... ..., R_{n}} \end{matrix} - - - (41)

那么矩阵A的最大特征值λ必定满足：R_min≤λ≤R_max。

对于转移概率矩阵来说，其每行元素之和都等于1，也就是R_i＝1,i＝1,2,……,n，故R_min＝R_max＝1，根据上述定理可知其最大特征值λ＝1，也就保证了特征值为1必定存在。

为保证式(39)中的对数运算的有效性，必须要求P和Q的所有元素都大于0，因此引入P和Q的变式P_reg和Q_reg，P_reg和Q_reg的定义如下：

P_{r e g} = (1 - β) P + β (\frac{1}{M}) E_{M \times M} - - - (42)

Q_{r e g} = (1 - β) Q + β (\frac{1}{M}) E_{M \times M} - - - (43)

其中，β是一个介于0到1之间的很小的常数，M是转移概率矩阵的状态数量，E_M×M是一个元素全为1的M×M矩阵。通过该方法，可以保证P和Q的任意两个状态之间的转移概率都大于0。

该Kullback-Leibler(KL)divergencerate评价指标具有下述三个性质：①它必定非负，且越接近于0，P和Q就越相似；②有且仅当P＝Q时，D_KL(P||Q)＝0；③它是一个非对称的评判指标，也就是通常情况下：D_KL(P||Q)≠D_KL(Q||P)。由于Kullback-Leibler(KL)divergencerate评价指标具有上述性质，因此可用作上述转移概率矩阵在线更新的比较。

具体比较方法如下：

参照附图7所示，当KLdivergencerate评价指标超过一定阈值时，需要对车辆最优的控制策略进行重新求解，下载到整车控制器中，进而适应当前的行驶工况。

附图7中的控制策略更新实质是基于马尔科夫链模型的优化控制算法，如随机动态规划(StochasticDynamicProgramming，SDP)、随机模型预测控制(StochasticModelPredictiveControl，SMPC)、强化学习(ReinforcementLearning，RL)等等，本申请并不局限在某种特定的算法。运用上述三维马尔科夫链中转移概率矩阵的在线更新和车辆控制策略的结合方式，使该车辆的控制策略进行自动更新，从而使车辆行驶得更加的智能。

以上述实施例一中的工况和履带车辆特征参数进行转移概率矩阵在线更新，平均车速划为0，10，20，30km/h的网格值，转向角速度划为-0.6，-0.3，0，0.3，0.6rad/s的网格值，需求功率划为-20,0,20,40,60,80,100kw的网格值；此外，在线更新算法中的遗忘因子δ设为0.01，迭代算法的初始条件λ设为10^-12，以及Kullback-Leibler(KL)divergencerate中的β设为0.0001。

由于遗忘因子δ为0.01，故我们只比较每隔100s的转移概率矩阵，参照附图8和9所示，图8为平均车速v_ave为10km/h时的三维马尔科夫链驾驶员需求功率的转移概率矩阵，图9为相邻转移概率矩阵的KLdivergencerate值。

附图8中的x_k和x_k+1分别表示当前状态索引和下一时刻状态索引，可以看出，100s、200s与300s时的转移概率矩阵差别较大，反映在图9中可观察到KLdivergencerate值变化曲线的第一二两个值较大；相反的，300s、400s、……、900s时的转移概率矩阵基本保持不变，反映在图9中即是KLdivergencerate值趋近于0。因此，我们可以利用KLdivergencerate作为评价指标，来衡量转移概率矩阵的变化，进而衡量车辆行驶工况的变化。从图9，我们还可以看出，平均车速为0km/h和20km/h所对应的KLdivergencerate值变化得相对剧烈一些。以平均车速为10km/h为例，其转移概率矩阵如图9所示，对应图9中KLdivergencerate值的变化趋势来讲，KLdivergencerate值只在100svs200s和200svs300s时相对较大，反观转移概率矩阵仅在100s、200s和300s时变化较大，这也从侧面证明了用KLdivergencerate值来表征转移概率矩阵改变的有效性和可靠性。再以平均车速为20km/h为例，转移概率矩阵如图10所示，相邻的转移概率矩阵都会有所差别。注意到，平均车速为30km/h时的KLdivergencerate值只有一个峰值，如图9中的②所示，该峰值是由于大约在550s时，平均车速第一次到达30km/h，相应的转移概率矩阵会有一个较大程度的变化，因此反映在KLdivergencerate值上会出现一个峰值；而之所以平均车速为30km/h时仅有一个峰值，是由于发生在30km/h附近的转移太少所致。

上述利用KLdivergencerate反映转移概率矩阵的在线更新的过程，可以与控制策略结合起来，如果履带车辆行驶工况出现较大改变，那么就会反映到转移概率矩阵的变化，进而衡量指标KLdivergencerate也会变化，当其超过预设的阈值时，控制策略就应以当前的转移概率矩阵模型为标准进行重新求解，将求解出的新的控制策略下载到车辆控制器里控制车辆各部件的运作。

本申请利用建立的三维马尔科夫链驾驶员需求功率模型和转移概率矩阵在线更新算法可以对履带车辆进行需求功率建模，以及与控制策略的结合，实现履带车辆的随机最优控制，其优点具体体现如下：

1、考虑转向的履带车辆驾驶员需求功率的随机性刻画，本申请首次提出包含转向角速度和考虑转向功率的马尔科夫链随机性模型，而这一点在履带车辆研究领域是至关重要的。

2、车辆所行驶的工况是多变的，其中包括驾驶人员的不同、驾驶员情绪、路况、交通状况、天气气候和驾驶模式等等因素，所以有必要针对转移概率矩阵进行在线更新，也即是对车辆行驶的历史工况进行统计性分析，调节过去工况和当前工况的权重，达到当前工况占主导、过去工况起次要影响作用的目的。在线更新转移概率矩阵的方法，是对离线求解方法为基础上的的一种拓展，而且具有较简单的形式，可以用在实车上进行实时更新。要实现在线更新，就必须找到一种递推算法进行描述。

3、以Kullback-Leibler(KL)divergencerate为评判指标，判别工况的变化程度，以此触发控制策略的更新替换，研究人员可以利用该框架对混合动力履带车辆的能量管理问题进行求解，以达到期望的目的。

由于道路条件、交通情况、区域的变更、驾驶员情绪状态等因素的不同，车辆行驶工况也会有很大的不同，行驶工况的不同反映到数学统计性上本申请用马尔科夫链模型的转移概率矩阵进行衡量；而转移概率矩阵的变化用KLdivergencerate来进行定量的衡量；则马尔科夫链模型作为驾驶员需求功率的统计学描述，其变化会直接影响车辆最优化控制。本发明就是基于上述性质将工况变化利用三维马尔科夫链驾驶员需求功率模型的转移概率矩阵在线更新，再与履带车辆的控制策略更新替换进行结合，实现履带车辆的随机控制。

以上所述，仅是本发明的较佳实施例而已，并非对本发明作任何形式上的限制，本领域技术人员利用上述揭示的技术内容做出些许简单修改、等同变化或修饰，均落在本发明的保护范围内。

Claims

1.一种履带车辆的控制方法，其特征在于，所述控制方法包括：

2.根据权利要求1所述的履带车辆的控制方法，其特征在于，所述步骤(1)中三维马尔科夫链的三维状态变量分别为平均车速、转向角速度和包含转向功率的驾驶员需求功率；

i,j＝1,2,...,N_P·N_ω,l＝1,2,...,N_v

3.根据权利要求2所述的履带车辆的控制方法，其特征在于，所述驾驶员需求功率P_dem的计算公式为：

P_dem＝(F_i+F_a+F_r)v_ave+Mω

4.根据权利要求1所述的履带车辆的控制方法，其特征在于，所述步骤(2)中三维马尔科夫链驾驶员需求功率模型的概率转移矩阵的迭代更新算式为：

F(k)＝F(k-1)+δ[τ(k)γ(k)^T-F(k-1)]

F_o(k)＝F_o(k-1)+δ[τ(k)γ(k)^Te_M-F_o(k-1)]

p(k)＝[diag(F_o(k))]^-1F(k)

5.根据权利要求1所述的履带车辆的控制方法，其特征在于，所述步骤(3)中KLdivergencerate评判指标的定义如下：

D_{K L} (P | | Q) = \underset{x}{Σ} \underset{x^{+}}{Σ} [P (x^{+} | x) P^{*} (x)] l o g [P (x^{+} | x) / Q (x^{+} | x)]

6.根据权利要求5所述的履带车辆的控制方法，其特征在于，所述转移概率矩阵P和Q的变式P_reg和Q_reg分别定义为：

P_{r e g} = (1 - β) P + β (\frac{1}{M}) E_{M \times M}

Q_{r e g} = (1 - β) Q + β (\frac{1}{M}) E_{M \times M}

7.根据权利要求6所述的履带车辆的控制方法，其特征在于，所述步骤(3)中当所述KLdivergencerate评价指标超过预设阈值时，所述履带车辆的控制策略重新求解更新，当所述KLdivergencerate评价指标未超过预设阈值时，所述履带车辆的控制策略不更新。