CN105644548B

CN105644548B - 混合动力汽车的能量控制方法及装置

Info

Publication number: CN105644548B
Application number: CN201511002421.9A
Authority: CN
Inventors: 李卫民; 胡悦; 徐回; 李朗
Original assignee: Shenzhen Institute of Advanced Technology of CAS
Current assignee: Shandong Zhongke Advanced Technology Co ltd
Priority date: 2015-12-28
Filing date: 2015-12-28
Publication date: 2019-07-02
Anticipated expiration: 2035-12-28
Also published as: CN105644548A

Abstract

本发明适用于控制技术领域，提供了混合动力汽车的能量控制方法及装置，包括：预测[k,k+p]时间段驾驶员的需求功率P_req(k+j)，j＝0,1,…,p，其中，所述k为当前采样时刻；获取[k,k+p]时间段混合动力汽车的需求转矩T_req(k+j)和车速v(k+j)；通过神经元动态规划，计算最优控制向量[u(k),…,(k+p‑1)]；输出所述当前采样时刻的控制变量序列u(k)。本发明基于随机模型预测控制和神经元动态规划算法来实现混合动力汽车的能量管理控制，能够在保证汽车动力性的前提下，改善汽车的燃油经济性，计算量小，实时性佳，能够使得混合动力汽车的燃油经济性得到进一步的提升。

Description

混合动力汽车的能量控制方法及装置

技术领域

本发明属于控制技术领域，尤其涉及混合动力汽车的能量控制方法及装置。

背景技术

混合动力汽车将发动机、电机和电池组合在一起，可以很好地发挥发动机和电机的优势，有效实现节能减排。混合动力汽车的能量管理策略是影响其燃油经济性和排放的关键技术，为了更好地实现对混合动力汽车的控制，近年来国内外一些学者利用随机模型预测控制的方法预测汽车在未来时域内的动力需求，该方法是一种滚动优化、滚动实施的控制方法，其在未来路况未知的情况下，根据现有状态进行预测、优化，因而能够适应工况的变化，实现在线调整。然而，目前随机模型预测控制的求解多是求出最优值函数和最优控制量的精确解，需要在每个决策步都求解一个最优控制问题，这种求解算法会带来很大的计算量，制约了控制的实时性。

发明内容

有鉴于此，本发明实施例提供了混合动力汽车的能量控制方法及装置，以解决现有的控制策略计算量大，导致控制的实时性受限的问题。

第一方面，提供了一种混合动力汽车的能量控制方法，包括：

预测[k，k+p]时间段驾驶员的需求功率P_req(k+j)，j＝0，1，...，p，其中，所述k为当前采样时刻；

获取[k，k+p]时间段混合动力汽车的需求转矩T_req(k+j)和车速v(k+j)；

通过神经元动态规划，计算最优控制向量[u(k)，...，u(k+p-1)]；

输出所述当前采样时刻的控制变量序列u(k)。

另一方面，提供了一种混合动力汽车的能量控制装置，包括：

预测单元，用于预测[k，k+p]时间段驾驶员的需求功率P_req(k+j)，j＝0，1，...，p，其中，所述k为当前采样时刻；

获取单元，用于获取[k，k+p]时间段混合动力汽车的需求转矩T_req(k+j)和车速v(k+j)；

计算单元，用于通过神经元动态规划，计算最优控制向量[u(k)，...，u(k+p-1)]；

输出单元，用于输出所述当前采样时刻的控制变量序列u(k)。

本发明实施例基于随机模型预测控制和神经元动态规划算法来实现混合动力汽车的能量管理控制，能够在保证汽车动力性的前提下，改善汽车的燃油经济性，计算量小，实时性佳，能够使得混合动力汽车的燃油经济性得到进一步的提升。

附图说明

为了更清楚地说明本发明实施例中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1是本发明实施例提供的并联式混合动力汽车的动力系统结构图；

图2是本发明实施例提供的混合动力汽车的能量控制方法的实现流程图；

图3是本发明实施例提供的神经元动态规划的结构图；

图4是本发明实施例提供的Critic网络结构图；

图5是本发明实施例提供的Action网络结构图；

图6是本发明实施例提供的神经元网络训练流程图；

图7是本发明实施例提供的神经元动态规划算法流程图；

图8是本发明实施例提供的混合动力汽车的能量控制装置的结构框图。

具体实施方式

以下描述中，为了说明而不是为了限定，提出了诸如特定系统结构、技术之类的具体细节，以便透切理解本发明实施例。然而，本领域的技术人员应当清楚，在没有这些具体细节的其它实施例中也可以实现本发明。在其它情况中，省略对众所周知的系统、装置、电路以及方法的详细说明，以免不必要的细节妨碍本发明的描述。

图1示出了本发明实施例提供的并联式混合动力汽车的动力系统结构图，如图1所示，发动机通过离合器与电机相连，再通过传动系统将动力传递至车轮，当离合器闭合时，发动机与电机同轴转动，电机既可以作为电动机也可以作为发电机。并联式混合动力汽车的主要工作模式包括：纯电驱动模式、混合动力工作模式以及制动能量回收模式，而混合动力工作模式又包括两种驱动方案：第一种是电机辅助发动机进行驱动，第二种是发动机单独驱动，电机作为发电机使用，给电池充电。

在车辆行驶过程中，驾驶员通过操纵油门踏板和制动踏板来表达需求功率，需求功率的值是不可预知的，但是可将其视为具有马尔科夫性质的随机过程，即下一时刻的需求功率只和当前状态有关，与之前的状态无关，而其转移概率可以通过统计标准循环工况下的需求功率来获得。为了方便起见，本发明实施例中，将需求功率通过以下公式转换为需求转矩：

其中，T_req为需求转矩，P_req为需求功率，n_e为发动机转速。

将需求转矩离散为有限个数的数列：

令T_i，j代表系统的一步转移概率，即系统在时刻k处于状态，在k+1时刻处于状态的概率，则有：

其中，i，j＝1，2，...，s，

在标准循环路况下，计算需求功率分布：

T_wheel＝T_reqi+T_b＝(T_e+T_m)i+T_b； (5)

其中，T_wheel为车轮的需求扭矩，单位为N·m；m为汽车的装备质量，单位kg；g为重力加速度，单位m/s²；C_D为风阻系数；A为迎风面积，单位m²；ρ为空气密度，一般为1.2258N·s²·m^-4；δ为旋转质量换算系数；θ为坡度，在本发明实施例中θ＝0；μ为滚动阻力系数；r为车轮半径，单位m；v为车速，单元m/s；T_req为需求转矩，单位N·m；T_m为发动机转矩，单位N·m；T_e为电机转矩，单位N·m；T_b为摩擦制动器在车轮上的制动力矩，单位N·m；i为总传动比；n_e为发动机转速，单位r/min；n_m为电机转速，单位r/min；P_req为驾驶员需求功率，单位kW；t为时间。

根据上述公式(4)～(7)，即可计算出每个时刻驾驶员的需求功率，采取近邻法即可将该需求功率量化为则转移概率的值可以由最大似然估计法进行确定：

式中，m_i，j表示需求功率从转移到的次数；mi表示需求功率从转移到的次数之和，即：

得到转移概率矩阵后，根据马尔科夫过程的性质即可预测未来一段时间内的需求功率，假设通过测量统计得到的转移概率矩阵为：

未来任一k+j时刻的需求功率的转移概率矩阵为p^j，假设k时刻的需求功率为P_req，i，即可得到未来任一k+j时刻的需求功率P_req，j的计算公式为：

通过预测的功率序列，根据上述公式(4)～(7)，即可计算对应的汽车车速、发动机/电机转速和驾驶员需求转矩。

由此，可以得到预测区间内的总需求转矩。由于在预测区间内的总需求转矩已知，因而只要确定了电机转矩，发动机转矩即可确定，反之亦然。因此，在本发明实施例中，选取电机转矩T_e为控制变量，需求转矩T_req、汽车车速v、电池荷电状态SOC为状态变量，通过神经元动态规划算法，得到最优控制量。

对混合动力汽车来说，其主要优化目标为混合动力汽车的油耗，另外为了延长电池的使用寿命，使电池工作在在一个效率较高的工作范围内，需要将SOC限制在某一期望值附近范围内，因而将SOC平衡作为另一个优化目标，所以设定奖赏函数为：

R(k)＝w_fm_f(k)+w_SOCR_SOC(k)； (15)

R_SOC＝(SOC(k)-SOC_ref)²， (16)式中，m_f为燃油消耗率，单位g/s；R_SOC(k)为电池荷电状态奖赏函数，w_f、w_SOC分别是加权因子，SOC_ref是在末端时刻期望的SOC值，一般取0.6。

在利用神经元动态规划算法进行求解时，还需定义[k，k+p]区间值函数J，该值函数为：

其中，R(k)是在k时刻的奖赏函数，γ是折扣因子，γ∈(0，1)。

每个状态的值函数给出了未来奖赏函数的累加值，由最优控制量产生的值函数称为最优值函数J^*，根据贝尔曼公式，每个状态的最优值函数和它相邻状态的最优值函数有以下关系：

J^*(X(k))＝min_u{γJ^*(X(k+1)+R(k))}。 (18)

图2示出了本发明实施例提供的混合动力汽车的能量控制方法的实现流程，详述如下：

在S201中，预测[k，k+p]时间段驾驶员的需求功率P_req(k+j)，j＝0，1，...，p，其中，所述k为当前采样时刻。

在S201之前，初始化采样时刻k＝1，j＝0。

在S202中，获取[k，k+p]时间段的需求转矩T_req(k+j)和车速v(k+j)。

在S203中，通过神经元动态规划，计算最优控制向量[u(k)，...，u(k+p-1)]。

在S204中，输出所述当前采样时刻的控制变量序列u(k)。

其中，神经元动态规划算法是随机动态规划算法(SDP)和时序差分强化学习算法(TD)组合在一起形成的一类在线学习算法，其主要思想是采用两个三层径向基函数(RBF)网络，即评价网络(Critic)，以及采用动作网络(Action)分别来估计最优值函数J(k)和最优控制向量U(k)。每个状态的值函数可以通过时序差分强化学习算法(TD)在线更新，然后将经历过的状态作为一个样本，用来在线训练Critic网络和Action网络。

神经元动态规划的训练过程可以分为两个阶段，首先训练Critic网络，紧接着训练Action网络。在第一个阶段，Critic网络的权值初始化为一些小的随机值。在训练过程中，按照公式(26)～(30)进行增量式更新，直到训练误差足够小或者更新次数超过最大次数限制。在第二阶段，Critic网络权值固定，开始按照公式(31)～(36)训练Action网络，直到训练误差足够小或者更新次数超过最大次数限制。Action网络训练的结束意味着已经为所研究的系统得到了产生最优控制量的网络权值，此时输出控制量U(k)。神经元动态规划的结构图如图3所示，实线代表信号流，虚线代表参数调节路径。Critic和Action网络分别如图4、图5所示。Critic和Action网络采用三层RBF神经网络，分别为输入层、隐含层、输出层。隐含层神经元采用高斯密度函数作为激励函数，它由参数向量中心C_i和标量宽度β_i决定，为了减少在线训练的计算量，参数向量中心C_i和标量宽度β_i的值通过UDDS工况和NEDC工况进行仿真训练离线获得，由K-均值聚类法确定。具体过程如图6所示：

在S601中，初始化聚类中心，即根据经验从训练样本集中随机选取I个不同的样本作为初始中心C_i(0)(i＝1，2，...，I)，设置迭代步数n＝0。

在S602中，随机输入训练样本X_k。

在S603中，寻找离训练样本X_k最近的中心i(X_k)，该i(X_k)满足：

i(X_k)＝arg min_i||X_k-C_i(n)||， (19)式中，C_i(n)是第n次迭代时基函数的第i个中心。

在S604中，通过下式调整中心i(X_k)：

其中，η为学习步长且有0＜η＜1。

在S605中，判断是否学完所有的训练样本且中心的分布不再变化，是则输出C_i，否则令n＝n+1并返回执行S602，最终得到的C_i即为RBF网络最终的基函数的中心。

在S606中，确定方差β_i。

中心一旦学完后就固定了，接着要确定基函数的方差。当RBF网络的激励函数选用高斯函数，方差可用下式计算：

其中，I为隐含层神经元个数，d_max为所选取中心之间的最大距离。

在本发明实施例中，Critic网络节点个数从图中从左至右分别为4个-25个-1个，其中x1、x2、x3、u是输入信号，依次为需求转矩T_req、汽车速度v、电池荷电状态SOC、电机输出转矩T_m，记做输入向量S_c。b₁为偏置项，w_c1、w_c2、w_c3、w_c4分别隐含层和输出层之间的权值，J为输出层的输出，即最优值函数。隐含层神经元数目为25个，具体的数学表达式为：

其中，h为隐含层神经元的数目，S_c为输入向量，C_ci为Critic网络参数向量中心，β_ci为标量宽度。

在本发明实施例中Action网络节点个数从图中从左至右分别为3个-20个-1个，其中x1、x2、x3是输入信号，依次为需求转矩T_req、汽车速度v、电池荷电状态SOC，记做输入向量S_a。b₂为偏置项，w_a1、w_a2...w_a20分别隐含层和输出层之间的权值，U为输出层的输出，即最优控制向量，隐含层神经元数目为20个，具体的数学表达式为：

其中，P为隐含层神经元的数目，S_a为输入向量，C_ai为Action网络参数向量中心，β_ai为标量宽度。

神经元动态规划算法流程图如图7所示，在此首先定义，对于整个区间[k，k+p]的最优控制量的求解为一个大循环，在区间[k，k+p]中，每个时刻的求解为小循环，在每个神经元动态规划求解的一个大循环中，最优控制量都包含一个初始控制量，当在第一次求解时，初始控制量由初始策略即并联混合动力汽车电动助力策略得到，以后每个循环的初始控制量为上一循环得到的控制量序列的第一步控制量。

1、电池SOC可以通过以下公式得出：

其中，SOC₀为初始SOC值；I为电池充放电电流，单位为A；η_bat为电池的充放电效率，是关于SOC和电流的函数，可插值得到；C_N为电池容量，单位为A·h。I由以下公式获得：

其中，U是电池的端电压，R为电池内阻，P为电池充放电功率，P可以由电机转矩获得。

2、计算Critic网络的误差e_c(k)可以通过以下公式：

e_c(k)＝J(k)-γJ(k+1)-R(k)， (26)

Critic网络的训练目标就是估计值函数，使得绝对误差E_c(k)最小，其中：

3、更新Critic网络权值W_c可以通过以下公式：

W_c(k+1)＝W_c(k)+ΔW_c(k)； (28)

其中，η_c为Critic网络的学习率，W_c是Critic网络隐含层到输出层的权值向量，W_ci表示W的第i个分量，P_ci是隐含层神经元的第i个输出。

4、计算Action网络的绝对误差E_a(k)可以通过以下公式：

其中e_a(k)为Action网络的误差信号，可以通过Critic网络反向传播常数“1”来得到，U_j(k)是U(k)的第j个分量，在本发明实施例中，j＝1。

5、更新Action网络权值W_a的方法与Critic网络相似，可以通过以下公式：

W_a(k+1)＝W_a(k)+ΔW_a(k)； (34)

其中，η_a为Action网络的学习率；P_ai(k)是Action网络隐含层第i个神经元的输出；m为输出层神经元总个数，本发明实施例中为1；p为隐含层神经元总个数。

在本发明实施例中，对混合动力汽车的能源管理控制是基于随机模型预测控制和神经元动态规划算法的有机结合，该策略将混合动力汽车的需求功率理解为一个离散的随机动态过程，通过总结多个循环工况的需求功率，由此建立马尔科夫过程，由当前时刻的需求功率对未来的循环工况进行预测，以值函数最小为优化目标，在预测时间内进行优化，并得到最优控制量序列，应用最优控制量序列的第一步，然后反馈校正、滚动优化，分配发动机和电机的功率输出比从而实现燃油消耗的优化。相对于采用动态规划方法得到的最优控制量来说，采用神经元动态规划方法得到最优控制量不是最优解，是次优解，所以在保证了优化效果的基础上，大幅降低了计算量，便于实时应用。

对应于上文所述的混合动力汽车的能量控制方法，图8示出了本发明实施例提供的混合动力汽车的能量控制装置的结构框图，为了便于说明，仅示出了与本实施例相关的部分。

参照图8，该装置包括：

预测单元81，预测[k，k+p]时间段驾驶员的需求功率P_req(k+j)，j＝0，1，...，p，其中，所述k为当前采样时刻；

获取单元82，获取[k，k+p]时间段混合动力汽车的需求转矩T_req(k+j)和车速v(k+j)；

计算单元83，通过神经元动态规划，计算最优控制向量[u(k)，...，u(k+p-1)]；

输出单元84，输出所述当前采样时刻的控制变量序列u(k)。

可选地，所述装置还包括：

选取单元，用于从训练样本集中选取I个不同的样本作为初始中心C_i(0)(i＝1，2，...，I)，设置迭代步数n＝0；

输入单元，用于随机输入训练样本X_k；

寻找单元，用于寻找离训练样本X_k最近的中心i(X_k)，该i(X_k)满足i(X_k)＝arg min_i||X_k-C_i(n)||，所述C_i(n)是第n次迭代时基函数的第i个中心；

调整单元，用于通过调整中心，其中，η为学习步长且有0＜η＜1；

判断单元，用于判断是否学完所有的训练样本且中心的分布不再变化；

处理单元，用于若已经学完所有的训练样本且中心的分布不再变化，是则输出C_i，否则令n＝n+1并返回执行所述输入单元的操作，所述C_i为径向基函数网络最终的基函数的中心。

可选地，神经元网络的向量中心和标量宽度通过离线获得。

可选地，所述计算单元83具体用于：

对于整个区间[k，k+p]的最优控制量的求解为一个大循环，在区间[k，k+p]中，每个时刻的求解为小循环，在每个神经元动态规划求解的一个大循环中，最优控制量都包含一个初始控制量，当在第一次求解时，初始控制量由初始策略得到，以后每个循环的初始控制量为上一循环得到的控制量序列的第一步控制量。

可选地，所述初始策略包括并联混合动力汽车电动助力策略。

所属领域的技术人员可以清楚地了解到，为了描述的方便和简洁，仅以上述各功能单元、模块的划分进行举例说明，实际应用中，可以根据需要而将上述功能分配由不同的功能单元、模块完成，即将所述装置的内部结构划分成不同的功能单元或模块，以完成以上描述的全部或者部分功能。实施例中的各功能单元、模块可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中，上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。另外，各功能单元、模块的具体名称也只是为了便于相互区分，并不用于限制本申请的保护范围。上述系统中单元、模块的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

本领域普通技术人员可以意识到，结合本文中所公开的实施例描述的各示例的单元及算法步骤，能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本发明的范围。

在本发明所提供的实施例中，应该理解到，所揭露的装置和方法，可以通过其它的方式实现。例如，以上所描述的系统实施例仅仅是示意性的，例如，所述模块或单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通讯连接可以是通过一些接口，装置或单元的间接耦合或通讯连接，可以是电性，机械或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本发明各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明实施例的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)或处理器(processor)执行本发明实施例各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

以上所述实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明实施例各实施例技术方案的精神和范围。

以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等，均应包含在本发明的保护范围之内。

Claims

1.一种混合动力汽车的能量控制方法，其特征在于，包括：

采用两个三层径向基函数网络Critic网络和Action网络，通过神经元动态规划，分别计算最优值函数和作为次优解的最优控制向量[u(k)，...，u(k+p-1)]，其中，在第一个阶段，将Critic网络的权值初始化为随机值，对Critic网络进行训练，直到训练得到的误差小于阈值或者更新次数超过最大次数限制，在第二个阶段，固定Critic网络的权值，对Action网络进行训练，直到训练得到的误差小于阈值或者更新次数超过最大次数限制，当Action网络训练结束时，固定Action网络的权值，并输出最优控制量；

输出所述当前采样时刻的控制变量序列u(k)。

2.如权利要求1所述的方法，其特征在于，在所述通过神经元动态规划，计算最优控制向量[u(k)，...，u(k+p-1)]之前，所述方法还包括：

从训练样本集中选取I个不同的样本作为初始中心C_i(0)(i＝1，2，...，I)，设置迭代步数n＝0；

随机输入训练样本X_k；

寻找离训练样本X_k最近的中心i(X_k)，该i(X_k)满足i(X_k)＝arg min_i||X_k-C_i(n)||，所述C_i(n)是第n次迭代时基函数的第i个中心；

通过调整中心，其中，η为学习步长且有0＜η＜1；

判断是否学完所有的训练样本且中心的分布不再变化；

若已经学完所有的训练样本且中心的分布不再变化，是则输出C_i，否则令n＝n+1并返回执行所述随机输入训练样本X_k的操作，所述C_i为径向基函数网络最终的基函数的中心。

3.如权利要求2所述的方法，其特征在于，神经元网络的向量中心和标量宽度通过离线获得。

4.如权利要求1所述的方法，其特征在于，所述通过神经元动态规划，计算最优控制向量[u(k)，...，u(k+p-1)]包括：

5.如权利要求4所述的方法，其特征在于，所述初始策略包括并联混合动力汽车电动助力策略。

6.一种混合动力汽车的能量控制装置，其特征在于，包括：

计算单元，用于采用两个三层径向基函数网络Critic网络和Action网络，通过神经元动态规划，分别计算最优值函数和作为次优解的最优控制向量[u(k)，...，u(k+p-1)]，其中，在第一个阶段，将Critic网络的权值初始化为随机值，对Critic网络进行训练，直到训练得到的误差小于阈值或者更新次数超过最大次数限制，在第二个阶段，固定Critic网络的权值，对Action网络进行训练，直到训练得到的误差小于阈值或者更新次数超过最大次数限制，当Action网络训练结束时，固定Action网络的权值，并输出最优控制量；

输出单元，用于输出所述当前采样时刻的控制变量序列u(k)。

7.如权利要求6所述的装置，其特征在于，所述装置还包括：

输入单元，用于随机输入训练样本X_k；

8.如权利要求7所述的装置，其特征在于，神经元网络的向量中心和标量宽度通过离线获得。

9.如权利要求6所述的装置，其特征在于，所述计算单元具体用于：

10.如权利要求9所述的装置，其特征在于，所述初始策略包括并联混合动力汽车电动助力策略。