CN112989699B

CN112989699B - 基于深度强化学习的新能源汽车性能评价方法

Info

Publication number: CN112989699B
Application number: CN202110268431.6A
Authority: CN
Inventors: 隗寒冰; 赵春领; 李港
Original assignee: Chongqing Jiaotong University
Current assignee: Huanshan Chongqing Technology Co ltd
Priority date: 2021-03-12
Filing date: 2021-03-12
Publication date: 2022-05-24
Anticipated expiration: 2041-03-12
Also published as: CN112989699A

Abstract

本发明公开了一种基于深度强化学习的新能源汽车性能评价方法，包括步骤：S1.采集所述新能源汽车的车辆参数并测试新能源汽车的性能得到性能测试结果；S2.对所述车辆参数进行处理得到处理后的参数；S3.构建基于深度强化学习的新能源汽车性能优化模型；S4.将所述处理后的参数输入到所述新能源汽车性能优化模型中得到新能源汽车的性能优化结果；S5.将所述性能优化结果作为评价标准，对所述性能测试结果进行评价，得到新能源汽车的性能评价结果。本发明的一种基于深度强化学习的新能源汽车性能评价方法，能够对新能源汽车的性能进行有效评价，评价效果好，可靠性强。

Description

基于深度强化学习的新能源汽车性能评价方法

技术领域

本发明涉及汽车性能领域，具体涉及一种基于深度强化学习的新能源汽车性能评价方法。

背景技术

为应对日益突出的能源短缺与环境污染问题，新能源汽车具有十分广阔的应用前景。对于新能源汽车而言，分析能量传递的效率以及各个零部件的能耗分布十分重要。新能源VEM测试平台可以测得整车各部件在能量传递路径中的能耗分布。

目前市场上新能源汽车车型构型多样，但没有很好的方法去评价各个车型，尤其是缺乏评价车型各子系统具体性能这一问题。

发明内容

有鉴于此，本发明的目的是克服现有技术中的缺陷，提供基于深度强化学习的新能源汽车性能评价方法，能够对新能源汽车的性能进行有效评价，评价效果好，可靠性强。

本发明的基于深度强化学习的新能源汽车性能评价方法，包括如下步骤：

S1.采集所述新能源汽车的车辆参数并测试新能源汽车的性能得到性能测试结果；其中，所述车辆参数包括状态参数、动力性参数以及经济性参数；

S2.对所述车辆参数进行处理得到处理后的参数；

S3.构建基于深度强化学习的新能源汽车性能优化模型；

S4.将所述处理后的参数输入到所述新能源汽车性能优化模型中得到新能源汽车的性能优化结果；

S5.将所述性能优化结果作为评价标准，对所述性能测试结果进行评价，得到新能源汽车的性能评价结果。

进一步，步骤S2中，对所述车辆参数进行处理得到处理后的参数，具体包括：

S21.确定车辆参数的状态空间以及车辆参数的状态向量；

S22.对车辆参数进行归一化处理得到归一化后的车辆参数。

进一步，步骤S3中，构建基于深度强化学习的新能源汽车性能优化模型，具体包括：

S31.确定控制动作对应的Q值；

S32.构建Q网络；

S33.构建用于计算目标Q值的网络Q_target，并构建用于估计当前状态下最大回报值与产生控制动作的网络Q_eval；

S34.构建优先经验池，所述优先经验池包括多步优先经验回放池D_t1以及单步优先回放池D_t2。

进一步，步骤S31中，根据如下公式控制动作对应的Q值：

Q(s_t，a_t)＝E_π[R(t)+γQ(s_t+1，a_t+1)|s_t＝s，a_t＝a]；

其中，Q(s_t，a_t)表示在状态s_t下选取动作a_t可以达到的预计未来的回报；R(t)为t时刻的奖励回报函数，γ为奖励衰减因子，s_t为t时刻车辆的状态，a_t为t时刻电机的输出功率；s_t+1为t+1时刻车辆的状态，a_t+1为t+1时刻电机的输出功率；E_π表示期望；

所述t时刻的奖励回报函数R(t)为：

R(t)＝ω₁R_fuel(t)+ω₂R_emis(t)+ω₃R_time(t)+ω₄(SOC-0.4)；

其中，R_fuel(t)为t时刻燃油消耗的回报函数，R_emis(t)为t时刻排放的回报函数，R_time(t)为t时刻加速时间的回报函数，

所述

所述

所述

为瞬时燃油消耗率，C_fuel、C_w以及C_t分别为归一化处理后的瞬时燃油消耗率、污染物排放率以及加速时间，ω₁、ω₂、ω₃以及ω₄均为权重系数。

进一步，对所述新能源汽车性能优化模型进行训练，具体包括：

a.获取车辆参数的初始状态，初始化迭代次数，并清空经验池，设定最小样本集的样本数、奖励衰减因子以及学习率；

b.利用ε-贪心算法以概率ε₁选取最大回报值对应的控制动作，以1-ε₁的概率随机选取其他的控制动作，并采用经验回放方法将每个时间步长内智能体探索车辆模型环境得到的经验数据放到回放池D_t1中，以概率P(j)来选中经验数据中的样本，将选中的样本存入回放池D_t2；

c.在每个回合开始的前L步内，智能体与车辆环境之间只进行交互探索，在L步后智能体才开始学习并更新网络参数；

d.先从经验池D_t1中随机抽取K个样本，在所述优化模型的奖励函数的取值达到设定的阈值时，从D_t2中获取样本，在每个回合中单步迭代更新参数；

其中，通过最小化损失函数对网络参数进行迭代更新，所述最小化损失函数L(ω)为：

其中，r为t时刻的回报值；γ为奖励衰减因子；ω^-为网络Q_target的网络参数；ω为网络Q_eval的网络参数；

为网络Q_target的目标Q值；Q(s_t+1，a_t+1，ω^-)为网络Q_target的输出；Q(s_t，a_t，ω)为网络Q_eval的输出；E为期望；a_t+1为在车辆状态s_t+1下选择的控制动作；

e.使用梯度下降优化算法使损失函数L(ω)最小，然后对网络Q_eval的网络参数的更新；每隔一定时间步长将网络Q_eval的网络参数ω复制给网络Q_target，得到参数ω^-；若迭代次数i>N，则所述新能源汽车性能优化模型的训练完成。

进一步，所述

其中，i为经验池中的样本编号，p_j以及p_i均为TD-error，α为抽取样本时的随机程度。

进一步，步骤S5中，对所述性能测试结果中新能源汽车的动力性能、经济性能以及排放性能进行评价。

进一步，步骤S5还包括：根据所述性能评价结果，从动力性、经济性以及排放性进行分析，得到所述新能源汽车的整车控制策略。

本发明的有益效果是：本发明公开的一种基于深度强化学习的新能源汽车性能评价方法，通过测试平台对新能源汽车进行测试得到性能测试结果，使用强度深化学习神经网络构建新能源汽车性能优化模型，并使用所述新能源汽车性能优化模型对新能源汽车进行性能优化处理，得到性能优化结果，以性能优化结果作为评价标准，对性能测试结果进行评价，得到性能评价结果，实现了对新能源汽车整车性能的有效评价以及对整车能量流策略的优化具有重要的指导意义。

附图说明

下面结合附图和实施例对本发明作进一步描述：

图1为本发明的方法流程示意图；

图2为本发明的VEM测试平台示意图；

图3为本发明的VEM测试平台测试内容示意图；

图4为本发明的网络模型训练过程示意图。

具体实施方式

以下结合说明书附图对本发明做出进一步的说明，如图1所示：

S1.采集所述新能源汽车的车辆参数并测试新能源汽车的性能得到性能测试结果；其中，所述车辆参数包括状态参数、动力性参数以及经济性参数；本实施例中，如图2、3所示，采用VEM测试平台采集所述新能源汽车的车辆参数并对新能源汽车进行性能测试，进而得到性能测试结果；

S2.对所述车辆参数进行处理得到处理后的参数；

S3.构建基于深度强化学习的新能源汽车性能优化模型；

需要说明的是，本发明所述的新能源汽车为现有的汽车，其包括电动汽车、氢能源动力汽车、太阳能汽车、替代能源汽车等，本实施例中，以PHEV为例进行说明，其中，所述PHEV为英语plug in hybrid electric vehicle的缩写，中文为插电式混合动力汽车。

本实施例中，步骤S2中，对所述车辆参数进行处理得到处理后的参数，具体包括：

S21.确定车辆参数的状态空间以及车辆参数的状态向量；其中，所述车辆参数的状态空间为S＝{SOC，P_req，η，T_e，T_m，ω_m，……，T_b},所述车辆参数的状态向量为：S(k)＝[SOC(k)，P_req(k)，V(k)，η(k),T_e(k)，T_m(k)，……，T_b(k)]；

其中，所述车辆参数包括选取加速时间t、最高车速Vmax、最大爬坡度imax、传动系效率η_T、发动机效率η_e、电机效率η_m、行驶车速V、CO排放率η_CO、NO_X排放率η_NOx、HC排放率η_HC、动力电池荷电状态SOC、车辆需求功率P_req、发动机转速n_e、电机转速n_m、发动机转矩Te、电机转矩Tm、电池充放电效率η_d、机械附件效率η_j、整车效率η_Z、发动机温度Tt、排气温度Tp、排气压力P、摩擦损失Lf、泵气损失Lp、发动机缸盖温度Tg、空调温度Tk、电机温度Td、电池温度Tb；

S22.对车辆参数进行归一化处理得到归一化后的车辆参数。

本实施例中，步骤S3中，构建基于深度强化学习的新能源汽车性能优化模型，具体包括：

S31.确定控制动作对应的Q值；

S32.构建Q网络；Q网络采用5层全连接神经网络，包含3个隐含层，1个输入层，一个输出层，输入层神经元个数主要取决于定义的状态变量数，对应的向量S(k)＝[SOC(k)，P_req(k)，V(k)，η(k),T_e(k)，T_m(k)，……，T_b(k)]，输出层使用线性激活函数，每个输出代表一个控制动作即电机输出功率Pm；

S33.构建用于计算目标Q值的网络Q_target，并构建用于估计当前状态下最大回报值与产生控制动作的网络Q_eval；所述控制动作为电机的输出功率Pm；

S34.构建优先经验池，所述优先经验池包括多步优先经验回放池D_t1以及单步优先回放池D_t2；所述D_t1用于没有差别地储存样本，所述D_t2采用重抽样机制来储存样本。

本实施例中，步骤S31中，根据如下公式控制动作对应的Q值：

以PHEV在t时刻全部可能的动作a_t的价值Q(s_t，a_t)作为输出，所述Q(s_t，a_t)＝E_π[R(t)+γQ(s_t+1，a_t+1)|s_t＝s，a_t＝a]；

所述t时刻的奖励回报函数R(t)为：

R(t)＝ω₁R_fuel(t)+ω₂R_emis(t)+ω₃R_time(t)+ω₄(SOC-0.4)；

所述

所述

所述

为瞬时燃油消耗率，C_fuel、C_w以及C_t分别为归一化处理后的瞬时燃油消耗率、污染物排放率以及加速时间，ω₁、ω₂、ω₃以及ω₄均为权重系数，η_w为设定参数，所述参数η_w根据实际情况进行设置；

其中，把归一化处理后的瞬时燃油消耗率、污染物排放率和加速时间取负，则在油耗、排放、加速时间越少，其回报函数值就越大，其目标是最大期望回报Q(s，a)，基于状态-动作值函数定义可以将强化学习目标最大化期望回报转化为找到策略π^*使每一个状态的价值最大化，所述

本实施例中，如图4所示，对所述新能源汽车性能优化模型进行训练，具体包括：

a.获取车辆参数的初始状态，初始迭代次数i＝1，并清空经验池，设定最小样本集的样本数n＝64，奖励衰减因子γ＝0.9，学习率为0.1；其中，所述学习率是一个超参数，用来调节网络权重，设置合适的学习率有益于网络训练；所述经验池中存放的是经验数据，所述经验数据为神经网络参数更新之前智能体与车辆环境交互探索所得到的数据，所述智能体包括网络Q_target、网络Q_eval以及优先经验池，设置迭代次数i的最大值为10000；

b.利用ε-贪心算法以概率0.9选取最大回报值对应的控制动作，以1-0.9的概率随机选取其他控制动作；采用经验回放方法将每个时间步长内智能体探索车辆模型环境得到的经验数据放到回放池D_t1中，并以概率P(j)来选中经验数据中的样本，并将选中的样本存入回放池D_t2；所述D_t1＝{e₁，e₂，…，e_t}；其中，所述样本的最大值为118000；

所述

其中，i为经验池中的样本编号，j为经验池中的第j个样本，p_j以及p_i均为TD-error，α为抽取样本时的随机程度，α取值范围[0,1]，α为0时表示均匀采样，α为1时根据优先级的贪婪式采样；所述TD-error采用现有名词，其作为为目标Q值与估计Q值的差值，来评价样本的价值，即TD-error越小，样本的选取优先级就越大；所述目标Q值为网络Q_target对应的Q值，所述估计Q值为网络Q_eval对应的Q值；

所述e_t＝(s_t，a_t，r_t，s_t+1)，所述e_t为样本，其为t时刻的状态-动作序列，s_t为t时刻的车辆的各种状态，a_t为在车辆状态s_t下选择的控制动作，r_t为得到的回报奖励，s_t+1为t+1时刻的车辆状态；

c.在每个回合开始的前200步内，智能体与车辆环境之间只进行交互探索，在200步后智能体才开始学习并更新网络参数，主要目的是在初始探索阶段历史经验数据少，样本之间的相关性较大，对网络参数的更新价值较低。

d.先从经验池D_t1中随机抽取64个样本，在所述优化模型的奖励函数的取值达到设定的阈值时，从D_t2中获取样本，在每个回合中单步迭代更新网络参数，通过更好的训练样本，增加迭代次数以提升网络性能；其中，所述阈值的设定根据实际情况进行设定，一般地，奖励函数取值为较大值时，汽车的油耗低、排放低以及加速时间少；

本实施例中，步骤S5中，对所述性能测试结果中新能源汽车的动力性能、经济性能以及排放性能进行评价。

其中，动力性参数包括最高车速、最大爬坡度、百公里加速时间等，动力性能评价的目的是考察新能源汽车在良好路面上行驶时所能达到的动力性能，根据MPN-DQN网络训练的结果和被测车型测试结果进行对比，对整车的动力性各个参数进行对比评价。

经济性参数包括发动机瞬时和平均燃油消耗率、电机瞬时和平均机械效率、电池消耗电量、电机控制器瞬时和平均电效率以及各部件热量损失，经济性能评价的目的是考察新能源汽车在保证动力性的前提下，能够以尽量少的能耗经济行驶的能力。据MPN-DQN网络训练的结果和被测车型测试结果进行对比，对整车的经济性各个参数进行对比评价。

排放性参数包括HC、CO、NOX的排放率，排放性能评价的目的是考察发动机排放污染物量的大小以及后处理系统工作的能力。据MPN-DQN网络训练的结果和被测车型测试结果进行对比，对整车的排放性各个参数进行对比评价。

本实施例中，根据所述性能评价结果，从动力性、经济性以及排放性进行分析，得到所述新能源汽车的整车控制策略。其中，整车控制策略是从动力性、经济性和排放性等性能来进行评价，其目的是考察新能源汽车的综合性能。

最后说明的是，以上实施例仅用以说明本发明的技术方案而非限制，尽管参照较佳实施例对本发明进行了详细说明，本领域的普通技术人员应当理解，可以对本发明的技术方案进行修改或者等同替换，而不脱离本发明技术方案的宗旨和范围，其均应涵盖在本发明的权利要求范围当中。

Claims

1.一种基于深度强化学习的新能源汽车性能评价方法，其特征在于：包括如下步骤：

S2.对所述车辆参数进行处理得到处理后的参数；

S3.构建基于深度强化学习的新能源汽车性能优化模型；

2.根据权利要求1所述的基于深度强化学习的新能源汽车性能评价方法，其特征在于：步骤S2中，对所述车辆参数进行处理得到处理后的参数，具体包括：

S21.确定车辆参数的状态空间以及车辆参数的状态向量；

S22.对车辆参数进行归一化处理得到归一化后的车辆参数。

3.根据权利要求1所述的基于深度强化学习的新能源汽车性能评价方法，其特征在于：步骤S3中，构建基于深度强化学习的新能源汽车性能优化模型，具体包括：

S31.确定控制动作对应的Q值；

S32.构建Q网络；

4.根据权利要求3所述的基于深度强化学习的新能源汽车性能评价方法，其特征在于：步骤S31中，根据如下公式控制动作对应的Q值：

Q(s_t，a_t)＝E_π[R(t)+γQ(s_t+1，a_t+1)|st＝s，a_t＝a]；

所述t时刻的奖励回报函数R(t)为：

R(t)＝ω₁R_fuel(t)+ω₂R_emis(t)+ω₃R_time(t)+ω₄(SOC-0.4)；

所述

所述

所述

为瞬时燃油消耗率，C_fuel、C_w以及C_t分别为归一化处理后的瞬时燃油消耗率、污染物排放率以及加速时间，ω₁、ω₂、ω₃以及ω₄均为权重系数，η_w为设定参数。

5.根据权利要求3所述的基于深度强化学习的新能源汽车性能评价方法，其特征在于：对所述新能源汽车性能优化模型进行训练，具体包括：

b.利用ε-贪心算法以概率ε₁选取最大回报值对应的控制动作，以1-ε₁的概率随机选取其他的控制动作，并采用经验回放方法将每个时间步长内智能体探索车辆模型环境得到的经验数据放到回放池D_tl中，以概率P(j)来选中经验数据中的样本，将选中的样本存入回放池D_t2；

e.使用梯度下降优化算法使损失函数L(ω)最小，然后对网络Q_eval的网络参数的更新；每隔一定时间步长将网络Q_eval的网络参数ω复制给网络Q_target，得到参数ω^-；若迭代次数i＞N，则所述新能源汽车性能优化模型的训练完成。

6.根据权利要求5所述的基于深度强化学习的新能源汽车性能评价方法，其特征在于：所述

其中，i为经验池中的样本编号，j为经验池中的第j个样本，p_j以及p_i均为TD-error，α为抽取样本时的随机程度。

7.根据权利要求1所述的基于深度强化学习的新能源汽车性能评价方法，其特征在于：步骤S5中，对所述性能测试结果中新能源汽车的动力性能、经济性能以及排放性能进行评价。

8.根据权利要求1所述的基于深度强化学习的新能源汽车性能评价方法，其特征在于：步骤S5还包括：根据所述性能评价结果，从动力性、经济性以及排放性进行分析，得到所述新能源汽车的整车控制策略。