CN112989699B - 基于深度强化学习的新能源汽车性能评价方法 - Google Patents

基于深度强化学习的新能源汽车性能评价方法 Download PDF

Info

Publication number
CN112989699B
CN112989699B CN202110268431.6A CN202110268431A CN112989699B CN 112989699 B CN112989699 B CN 112989699B CN 202110268431 A CN202110268431 A CN 202110268431A CN 112989699 B CN112989699 B CN 112989699B
Authority
CN
China
Prior art keywords
new energy
energy automobile
performance
network
vehicle
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202110268431.6A
Other languages
English (en)
Other versions
CN112989699A (zh
Inventor
隗寒冰
赵春领
李港
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Huanshan Chongqing Technology Co ltd
Original Assignee
Chongqing Jiaotong University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Chongqing Jiaotong University filed Critical Chongqing Jiaotong University
Priority to CN202110268431.6A priority Critical patent/CN112989699B/zh
Publication of CN112989699A publication Critical patent/CN112989699A/zh
Application granted granted Critical
Publication of CN112989699B publication Critical patent/CN112989699B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F30/00Computer-aided design [CAD]
    • G06F30/20Design optimisation, verification or simulation
    • G06F30/27Design optimisation, verification or simulation using machine learning, e.g. artificial intelligence, neural networks, support vector machines [SVM] or training a model
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02TCLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
    • Y02T10/00Road transport of goods or passengers
    • Y02T10/10Internal combustion engine [ICE] based vehicles
    • Y02T10/40Engine management systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Evolutionary Computation (AREA)
  • Software Systems (AREA)
  • Artificial Intelligence (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Health & Medical Sciences (AREA)
  • Mathematical Physics (AREA)
  • Computational Linguistics (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Biophysics (AREA)
  • Biomedical Technology (AREA)
  • Data Mining & Analysis (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Medical Informatics (AREA)
  • Computer Hardware Design (AREA)
  • Geometry (AREA)
  • Feedback Control In General (AREA)

Abstract

本发明公开了一种基于深度强化学习的新能源汽车性能评价方法,包括步骤:S1.采集所述新能源汽车的车辆参数并测试新能源汽车的性能得到性能测试结果;S2.对所述车辆参数进行处理得到处理后的参数;S3.构建基于深度强化学习的新能源汽车性能优化模型;S4.将所述处理后的参数输入到所述新能源汽车性能优化模型中得到新能源汽车的性能优化结果;S5.将所述性能优化结果作为评价标准,对所述性能测试结果进行评价,得到新能源汽车的性能评价结果。本发明的一种基于深度强化学习的新能源汽车性能评价方法,能够对新能源汽车的性能进行有效评价,评价效果好,可靠性强。

Description

基于深度强化学习的新能源汽车性能评价方法
技术领域
本发明涉及汽车性能领域,具体涉及一种基于深度强化学习的新能源汽车性能评价方法。
背景技术
为应对日益突出的能源短缺与环境污染问题,新能源汽车具有十分广阔的应用前景。对于新能源汽车而言,分析能量传递的效率以及各个零部件的能耗分布十分重要。新能源VEM测试平台可以测得整车各部件在能量传递路径中的能耗分布。
目前市场上新能源汽车车型构型多样,但没有很好的方法去评价各个车型,尤其是缺乏评价车型各子系统具体性能这一问题。
发明内容
有鉴于此,本发明的目的是克服现有技术中的缺陷,提供基于深度强化学习的新能源汽车性能评价方法,能够对新能源汽车的性能进行有效评价,评价效果好,可靠性强。
本发明的基于深度强化学习的新能源汽车性能评价方法,包括如下步骤:
S1.采集所述新能源汽车的车辆参数并测试新能源汽车的性能得到性能测试结果;其中,所述车辆参数包括状态参数、动力性参数以及经济性参数;
S2.对所述车辆参数进行处理得到处理后的参数;
S3.构建基于深度强化学习的新能源汽车性能优化模型;
S4.将所述处理后的参数输入到所述新能源汽车性能优化模型中得到新能源汽车的性能优化结果;
S5.将所述性能优化结果作为评价标准,对所述性能测试结果进行评价,得到新能源汽车的性能评价结果。
进一步,步骤S2中,对所述车辆参数进行处理得到处理后的参数,具体包括:
S21.确定车辆参数的状态空间以及车辆参数的状态向量;
S22.对车辆参数进行归一化处理得到归一化后的车辆参数。
进一步,步骤S3中,构建基于深度强化学习的新能源汽车性能优化模型,具体包括:
S31.确定控制动作对应的Q值;
S32.构建Q网络;
S33.构建用于计算目标Q值的网络Qtarget,并构建用于估计当前状态下最大回报值与产生控制动作的网络Qeval
S34.构建优先经验池,所述优先经验池包括多步优先经验回放池Dt1以及单步优先回放池Dt2。
进一步,步骤S31中,根据如下公式控制动作对应的Q值:
Q(st,at)=Eπ[R(t)+γQ(st+1,at+1)|st=s,at=a];
其中,Q(st,at)表示在状态st下选取动作at可以达到的预计未来的回报;R(t)为t时刻的奖励回报函数,γ为奖励衰减因子,st为t时刻车辆的状态,at为t时刻电机的输出功率;st+1为t+1时刻车辆的状态,at+1为t+1时刻电机的输出功率;Eπ表示期望;
所述t时刻的奖励回报函数R(t)为:
R(t)=ω1Rfuel(t)+ω2Remis(t)+ω3Rtime(t)+ω4(SOC-0.4);
其中,Rfuel(t)为t时刻燃油消耗的回报函数,Remis(t)为t时刻排放的回报函数,Rtime(t)为t时刻加速时间的回报函数,
所述
Figure BDA0002973247630000021
所述
Figure BDA0002973247630000031
所述
Figure BDA0002973247630000032
Figure BDA0002973247630000033
为瞬时燃油消耗率,Cfuel、Cw以及Ct分别为归一化处理后的瞬时燃油消耗率、污染物排放率以及加速时间,ω1、ω2、ω3以及ω4均为权重系数。
进一步,对所述新能源汽车性能优化模型进行训练,具体包括:
a.获取车辆参数的初始状态,初始化迭代次数,并清空经验池,设定最小样本集的样本数、奖励衰减因子以及学习率;
b.利用ε-贪心算法以概率ε1选取最大回报值对应的控制动作,以1-ε1的概率随机选取其他的控制动作,并采用经验回放方法将每个时间步长内智能体探索车辆模型环境得到的经验数据放到回放池Dt1中,以概率P(j)来选中经验数据中的样本,将选中的样本存入回放池Dt2;
c.在每个回合开始的前L步内,智能体与车辆环境之间只进行交互探索,在L步后智能体才开始学习并更新网络参数;
d.先从经验池Dt1中随机抽取K个样本,在所述优化模型的奖励函数的取值达到设定的阈值时,从Dt2中获取样本,在每个回合中单步迭代更新参数;
其中,通过最小化损失函数对网络参数进行迭代更新,所述最小化损失函数L(ω)为:
Figure BDA0002973247630000034
其中,r为t时刻的回报值;γ为奖励衰减因子;ω-为网络Qtarget的网络参数;ω为网络Qeval的网络参数;
Figure BDA0002973247630000035
为网络Qtarget的目标Q值;Q(st+1,at+1,ω-)为网络Qtarget的输出;Q(st,at,ω)为网络Qeval的输出;E为期望;at+1为在车辆状态st+1下选择的控制动作;
e.使用梯度下降优化算法使损失函数L(ω)最小,然后对网络Qeval的网络参数的更新;每隔一定时间步长将网络Qeval的网络参数ω复制给网络Qtarget,得到参数ω-;若迭代次数i>N,则所述新能源汽车性能优化模型的训练完成。
进一步,所述
Figure BDA0002973247630000041
其中,i为经验池中的样本编号,pj以及pi均为TD-error,α为抽取样本时的随机程度。
进一步,步骤S5中,对所述性能测试结果中新能源汽车的动力性能、经济性能以及排放性能进行评价。
进一步,步骤S5还包括:根据所述性能评价结果,从动力性、经济性以及排放性进行分析,得到所述新能源汽车的整车控制策略。
本发明的有益效果是:本发明公开的一种基于深度强化学习的新能源汽车性能评价方法,通过测试平台对新能源汽车进行测试得到性能测试结果,使用强度深化学习神经网络构建新能源汽车性能优化模型,并使用所述新能源汽车性能优化模型对新能源汽车进行性能优化处理,得到性能优化结果,以性能优化结果作为评价标准,对性能测试结果进行评价,得到性能评价结果,实现了对新能源汽车整车性能的有效评价以及对整车能量流策略的优化具有重要的指导意义。
附图说明
下面结合附图和实施例对本发明作进一步描述:
图1为本发明的方法流程示意图;
图2为本发明的VEM测试平台示意图;
图3为本发明的VEM测试平台测试内容示意图;
图4为本发明的网络模型训练过程示意图。
具体实施方式
以下结合说明书附图对本发明做出进一步的说明,如图1所示:
本发明的基于深度强化学习的新能源汽车性能评价方法,包括如下步骤:
S1.采集所述新能源汽车的车辆参数并测试新能源汽车的性能得到性能测试结果;其中,所述车辆参数包括状态参数、动力性参数以及经济性参数;本实施例中,如图2、3所示,采用VEM测试平台采集所述新能源汽车的车辆参数并对新能源汽车进行性能测试,进而得到性能测试结果;
S2.对所述车辆参数进行处理得到处理后的参数;
S3.构建基于深度强化学习的新能源汽车性能优化模型;
S4.将所述处理后的参数输入到所述新能源汽车性能优化模型中得到新能源汽车的性能优化结果;
S5.将所述性能优化结果作为评价标准,对所述性能测试结果进行评价,得到新能源汽车的性能评价结果。
需要说明的是,本发明所述的新能源汽车为现有的汽车,其包括电动汽车、氢能源动力汽车、太阳能汽车、替代能源汽车等,本实施例中,以PHEV为例进行说明,其中,所述PHEV为英语plug in hybrid electric vehicle的缩写,中文为插电式混合动力汽车。
本实施例中,步骤S2中,对所述车辆参数进行处理得到处理后的参数,具体包括:
S21.确定车辆参数的状态空间以及车辆参数的状态向量;其中,所述车辆参数的状态空间为S={SOC,Preq,η,Te,Tm,ωm,……,Tb},所述车辆参数的状态向量为:S(k)=[SOC(k),Preq(k),V(k),η(k),Te(k),Tm(k),……,Tb(k)];
其中,所述车辆参数包括选取加速时间t、最高车速Vmax、最大爬坡度imax、传动系效率ηT、发动机效率ηe、电机效率ηm、行驶车速V、CO排放率ηCO、NOX排放率ηNOx、HC排放率ηHC、动力电池荷电状态SOC、车辆需求功率Preq、发动机转速ne、电机转速nm、发动机转矩Te、电机转矩Tm、电池充放电效率ηd、机械附件效率ηj、整车效率ηZ、发动机温度Tt、排气温度Tp、排气压力P、摩擦损失Lf、泵气损失Lp、发动机缸盖温度Tg、空调温度Tk、电机温度Td、电池温度Tb;
S22.对车辆参数进行归一化处理得到归一化后的车辆参数。
本实施例中,步骤S3中,构建基于深度强化学习的新能源汽车性能优化模型,具体包括:
S31.确定控制动作对应的Q值;
S32.构建Q网络;Q网络采用5层全连接神经网络,包含3个隐含层,1个输入层,一个输出层,输入层神经元个数主要取决于定义的状态变量数,对应的向量S(k)=[SOC(k),Preq(k),V(k),η(k),Te(k),Tm(k),……,Tb(k)],输出层使用线性激活函数,每个输出代表一个控制动作即电机输出功率Pm;
S33.构建用于计算目标Q值的网络Qtarget,并构建用于估计当前状态下最大回报值与产生控制动作的网络Qeval;所述控制动作为电机的输出功率Pm;
S34.构建优先经验池,所述优先经验池包括多步优先经验回放池Dt1以及单步优先回放池Dt2;所述Dt1用于没有差别地储存样本,所述Dt2采用重抽样机制来储存样本。
本实施例中,步骤S31中,根据如下公式控制动作对应的Q值:
以PHEV在t时刻全部可能的动作at的价值Q(st,at)作为输出,所述Q(st,at)=Eπ[R(t)+γQ(st+1,at+1)|st=s,at=a];
其中,Q(st,at)表示在状态st下选取动作at可以达到的预计未来的回报;R(t)为t时刻的奖励回报函数,γ为奖励衰减因子,st为t时刻车辆的状态,at为t时刻电机的输出功率;st+1为t+1时刻车辆的状态,at+1为t+1时刻电机的输出功率;Eπ表示期望;
所述t时刻的奖励回报函数R(t)为:
R(t)=ω1Rfuel(t)+ω2Remis(t)+ω3Rtime(t)+ω4(SOC-0.4);
其中,Rfuel(t)为t时刻燃油消耗的回报函数,Remis(t)为t时刻排放的回报函数,Rtime(t)为t时刻加速时间的回报函数,
所述
Figure BDA0002973247630000061
所述
Figure BDA0002973247630000062
所述
Figure BDA0002973247630000071
Figure BDA0002973247630000072
为瞬时燃油消耗率,Cfuel、Cw以及Ct分别为归一化处理后的瞬时燃油消耗率、污染物排放率以及加速时间,ω1、ω2、ω3以及ω4均为权重系数,ηw为设定参数,所述参数ηw根据实际情况进行设置;
其中,把归一化处理后的瞬时燃油消耗率、污染物排放率和加速时间取负,则在油耗、排放、加速时间越少,其回报函数值就越大,其目标是最大期望回报Q(s,a),基于状态-动作值函数定义可以将强化学习目标最大化期望回报转化为找到策略π*使每一个状态的价值最大化,所述
Figure BDA0002973247630000073
本实施例中,如图4所示,对所述新能源汽车性能优化模型进行训练,具体包括:
a.获取车辆参数的初始状态,初始迭代次数i=1,并清空经验池,设定最小样本集的样本数n=64,奖励衰减因子γ=0.9,学习率为0.1;其中,所述学习率是一个超参数,用来调节网络权重,设置合适的学习率有益于网络训练;所述经验池中存放的是经验数据,所述经验数据为神经网络参数更新之前智能体与车辆环境交互探索所得到的数据,所述智能体包括网络Qtarget、网络Qeval以及优先经验池,设置迭代次数i的最大值为10000;
b.利用ε-贪心算法以概率0.9选取最大回报值对应的控制动作,以1-0.9的概率随机选取其他控制动作;采用经验回放方法将每个时间步长内智能体探索车辆模型环境得到的经验数据放到回放池Dt1中,并以概率P(j)来选中经验数据中的样本,并将选中的样本存入回放池Dt2;所述Dt1={e1,e2,…,et};其中,所述样本的最大值为118000;
所述
Figure BDA0002973247630000074
其中,i为经验池中的样本编号,j为经验池中的第j个样本,pj以及pi均为TD-error,α为抽取样本时的随机程度,α取值范围[0,1],α为0时表示均匀采样,α为1时根据优先级的贪婪式采样;所述TD-error采用现有名词,其作为为目标Q值与估计Q值的差值,来评价样本的价值,即TD-error越小,样本的选取优先级就越大;所述目标Q值为网络Qtarget对应的Q值,所述估计Q值为网络Qeval对应的Q值;
所述et=(st,at,rt,st+1),所述et为样本,其为t时刻的状态-动作序列,st为t时刻的车辆的各种状态,at为在车辆状态st下选择的控制动作,rt为得到的回报奖励,st+1为t+1时刻的车辆状态;
c.在每个回合开始的前200步内,智能体与车辆环境之间只进行交互探索,在200步后智能体才开始学习并更新网络参数,主要目的是在初始探索阶段历史经验数据少,样本之间的相关性较大,对网络参数的更新价值较低。
d.先从经验池Dt1中随机抽取64个样本,在所述优化模型的奖励函数的取值达到设定的阈值时,从Dt2中获取样本,在每个回合中单步迭代更新网络参数,通过更好的训练样本,增加迭代次数以提升网络性能;其中,所述阈值的设定根据实际情况进行设定,一般地,奖励函数取值为较大值时,汽车的油耗低、排放低以及加速时间少;
其中,通过最小化损失函数对网络参数进行迭代更新,所述最小化损失函数L(ω)为:
Figure BDA0002973247630000081
其中,r为t时刻的回报值;γ为奖励衰减因子;ω-为网络Qtarget的网络参数;ω为网络Qeval的网络参数;
Figure BDA0002973247630000082
为网络Qtarget的目标Q值;Q(st+1,at+1,ω-)为网络Qtarget的输出;Q(st,at,ω)为网络Qeval的输出;E为期望;at+1为在车辆状态st+1下选择的控制动作;
e.使用梯度下降优化算法使损失函数L(ω)最小,然后对网络Qeval的网络参数的更新;每隔一定时间步长将网络Qeval的网络参数ω复制给网络Qtarget,得到参数ω-;若迭代次数i>N,则所述新能源汽车性能优化模型的训练完成。
本实施例中,步骤S5中,对所述性能测试结果中新能源汽车的动力性能、经济性能以及排放性能进行评价。
其中,动力性参数包括最高车速、最大爬坡度、百公里加速时间等,动力性能评价的目的是考察新能源汽车在良好路面上行驶时所能达到的动力性能,根据MPN-DQN网络训练的结果和被测车型测试结果进行对比,对整车的动力性各个参数进行对比评价。
经济性参数包括发动机瞬时和平均燃油消耗率、电机瞬时和平均机械效率、电池消耗电量、电机控制器瞬时和平均电效率以及各部件热量损失,经济性能评价的目的是考察新能源汽车在保证动力性的前提下,能够以尽量少的能耗经济行驶的能力。据MPN-DQN网络训练的结果和被测车型测试结果进行对比,对整车的经济性各个参数进行对比评价。
排放性参数包括HC、CO、NOX的排放率,排放性能评价的目的是考察发动机排放污染物量的大小以及后处理系统工作的能力。据MPN-DQN网络训练的结果和被测车型测试结果进行对比,对整车的排放性各个参数进行对比评价。
本实施例中,根据所述性能评价结果,从动力性、经济性以及排放性进行分析,得到所述新能源汽车的整车控制策略。其中,整车控制策略是从动力性、经济性和排放性等性能来进行评价,其目的是考察新能源汽车的综合性能。
最后说明的是,以上实施例仅用以说明本发明的技术方案而非限制,尽管参照较佳实施例对本发明进行了详细说明,本领域的普通技术人员应当理解,可以对本发明的技术方案进行修改或者等同替换,而不脱离本发明技术方案的宗旨和范围,其均应涵盖在本发明的权利要求范围当中。

Claims (8)

1.一种基于深度强化学习的新能源汽车性能评价方法,其特征在于:包括如下步骤:
S1.采集所述新能源汽车的车辆参数并测试新能源汽车的性能得到性能测试结果;其中,所述车辆参数包括状态参数、动力性参数以及经济性参数;
S2.对所述车辆参数进行处理得到处理后的参数;
S3.构建基于深度强化学习的新能源汽车性能优化模型;
S4.将所述处理后的参数输入到所述新能源汽车性能优化模型中得到新能源汽车的性能优化结果;
S5.将所述性能优化结果作为评价标准,对所述性能测试结果进行评价,得到新能源汽车的性能评价结果。
2.根据权利要求1所述的基于深度强化学习的新能源汽车性能评价方法,其特征在于:步骤S2中,对所述车辆参数进行处理得到处理后的参数,具体包括:
S21.确定车辆参数的状态空间以及车辆参数的状态向量;
S22.对车辆参数进行归一化处理得到归一化后的车辆参数。
3.根据权利要求1所述的基于深度强化学习的新能源汽车性能评价方法,其特征在于:步骤S3中,构建基于深度强化学习的新能源汽车性能优化模型,具体包括:
S31.确定控制动作对应的Q值;
S32.构建Q网络;
S33.构建用于计算目标Q值的网络Qtarget,并构建用于估计当前状态下最大回报值与产生控制动作的网络Qeval
S34.构建优先经验池,所述优先经验池包括多步优先经验回放池Dt1以及单步优先回放池Dt2。
4.根据权利要求3所述的基于深度强化学习的新能源汽车性能评价方法,其特征在于:步骤S31中,根据如下公式控制动作对应的Q值:
Q(st,at)=Eπ[R(t)+γQ(st+1,at+1)|st=s,at=a];
其中,Q(st,at)表示在状态st下选取动作at可以达到的预计未来的回报;R(t)为t时刻的奖励回报函数,γ为奖励衰减因子,st为t时刻车辆的状态,at为t时刻电机的输出功率;st+1为t+1时刻车辆的状态,at+1为t+1时刻电机的输出功率;Eπ表示期望;
所述t时刻的奖励回报函数R(t)为:
R(t)=ω1Rfuel(t)+ω2Remis(t)+ω3Rtime(t)+ω4(SOC-0.4);
其中,Rfuel(t)为t时刻燃油消耗的回报函数,Remis(t)为t时刻排放的回报函数,Rtime(t)为t时刻加速时间的回报函数,
所述
Figure FDA0002973247620000021
所述
Figure FDA0002973247620000022
所述
Figure FDA0002973247620000023
Figure FDA0002973247620000024
为瞬时燃油消耗率,Cfuel、Cw以及Ct分别为归一化处理后的瞬时燃油消耗率、污染物排放率以及加速时间,ω1、ω2、ω3以及ω4均为权重系数,ηw为设定参数。
5.根据权利要求3所述的基于深度强化学习的新能源汽车性能评价方法,其特征在于:对所述新能源汽车性能优化模型进行训练,具体包括:
a.获取车辆参数的初始状态,初始化迭代次数,并清空经验池,设定最小样本集的样本数、奖励衰减因子以及学习率;
b.利用ε-贪心算法以概率ε1选取最大回报值对应的控制动作,以1-ε1的概率随机选取其他的控制动作,并采用经验回放方法将每个时间步长内智能体探索车辆模型环境得到的经验数据放到回放池Dtl中,以概率P(j)来选中经验数据中的样本,将选中的样本存入回放池Dt2;
c.在每个回合开始的前L步内,智能体与车辆环境之间只进行交互探索,在L步后智能体才开始学习并更新网络参数;
d.先从经验池Dt1中随机抽取K个样本,在所述优化模型的奖励函数的取值达到设定的阈值时,从Dt2中获取样本,在每个回合中单步迭代更新参数;
其中,通过最小化损失函数对网络参数进行迭代更新,所述最小化损失函数L(ω)为:
Figure FDA0002973247620000031
其中,r为t时刻的回报值;γ为奖励衰减因子;ω-为网络Qtarget的网络参数;ω为网络Qeval的网络参数;
Figure FDA0002973247620000032
为网络Qtarget的目标Q值;Q(st+1,at+1,ω-)为网络Qtarget的输出;Q(st,at,ω)为网络Qeval的输出;E为期望;at+1为在车辆状态st+1下选择的控制动作;
e.使用梯度下降优化算法使损失函数L(ω)最小,然后对网络Qeval的网络参数的更新;每隔一定时间步长将网络Qeval的网络参数ω复制给网络Qtarget,得到参数ω-;若迭代次数i>N,则所述新能源汽车性能优化模型的训练完成。
6.根据权利要求5所述的基于深度强化学习的新能源汽车性能评价方法,其特征在于:所述
Figure FDA0002973247620000033
其中,i为经验池中的样本编号,j为经验池中的第j个样本,pj以及pi均为TD-error,α为抽取样本时的随机程度。
7.根据权利要求1所述的基于深度强化学习的新能源汽车性能评价方法,其特征在于:步骤S5中,对所述性能测试结果中新能源汽车的动力性能、经济性能以及排放性能进行评价。
8.根据权利要求1所述的基于深度强化学习的新能源汽车性能评价方法,其特征在于:步骤S5还包括:根据所述性能评价结果,从动力性、经济性以及排放性进行分析,得到所述新能源汽车的整车控制策略。
CN202110268431.6A 2021-03-12 2021-03-12 基于深度强化学习的新能源汽车性能评价方法 Active CN112989699B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110268431.6A CN112989699B (zh) 2021-03-12 2021-03-12 基于深度强化学习的新能源汽车性能评价方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110268431.6A CN112989699B (zh) 2021-03-12 2021-03-12 基于深度强化学习的新能源汽车性能评价方法

Publications (2)

Publication Number Publication Date
CN112989699A CN112989699A (zh) 2021-06-18
CN112989699B true CN112989699B (zh) 2022-05-24

Family

ID=76335110

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110268431.6A Active CN112989699B (zh) 2021-03-12 2021-03-12 基于深度强化学习的新能源汽车性能评价方法

Country Status (1)

Country Link
CN (1) CN112989699B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113361132B (zh) * 2021-06-28 2022-03-15 浩鲸云计算科技股份有限公司 一种基于深度q学习对决网络的风冷数据中心节能方法

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110348088A (zh) * 2019-06-28 2019-10-18 南京理工大学 基于代理模型的轻量化车身结构多目标优化方法
CN111291856A (zh) * 2020-01-21 2020-06-16 大连海事大学 一种地铁列车运行操纵多目标优化方法及系统
CN111523579A (zh) * 2020-04-14 2020-08-11 燕山大学 一种基于改进深度学习的车型识别方法及系统
CN111845701A (zh) * 2020-08-05 2020-10-30 重庆大学 一种跟车环境下基于深度强化学习的hev能量管理方法
CN111934335A (zh) * 2020-08-18 2020-11-13 华北电力大学 一种基于深度强化学习的集群电动汽车充电行为优化方法
CN112287463A (zh) * 2020-11-03 2021-01-29 重庆大学 一种基于深度强化学习算法的燃料电池汽车能量管理方法

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110348088A (zh) * 2019-06-28 2019-10-18 南京理工大学 基于代理模型的轻量化车身结构多目标优化方法
CN111291856A (zh) * 2020-01-21 2020-06-16 大连海事大学 一种地铁列车运行操纵多目标优化方法及系统
CN111523579A (zh) * 2020-04-14 2020-08-11 燕山大学 一种基于改进深度学习的车型识别方法及系统
CN111845701A (zh) * 2020-08-05 2020-10-30 重庆大学 一种跟车环境下基于深度强化学习的hev能量管理方法
CN111934335A (zh) * 2020-08-18 2020-11-13 华北电力大学 一种基于深度强化学习的集群电动汽车充电行为优化方法
CN112287463A (zh) * 2020-11-03 2021-01-29 重庆大学 一种基于深度强化学习算法的燃料电池汽车能量管理方法

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
"Deep reinforcement learning based energy management for a hybrid electric vehicle";Guodong Du等;《Energy》;20200414;第201卷;1-5 *
"基于深度强化学习的插电式柴电混合动力汽车多目标优化控制策略";隗寒冰等;《重庆交通大学学报(自然科学版)》;20210122;第40卷(第1期);44-52 *
"电动汽车充电控制的深度增强学习优化方法";杜明秋等;《中国电机工程学报》;20190731;第39卷(第14期);4042-4048 *

Also Published As

Publication number Publication date
CN112989699A (zh) 2021-06-18

Similar Documents

Publication Publication Date Title
CN111267831B (zh) 一种混合动力车辆智能变时域模型预测能量管理方法
CN110341690B (zh) 一种基于确定性策略梯度学习的phev能量管理方法
CN110775065B (zh) 一种基于工况识别的混合动力汽车电池寿命预测方法
CN112339756B (zh) 一种基于强化学习的新能源汽车红绿灯路口能量回收优化速度规划算法
Johri et al. Optimal energy management for a hybrid vehicle using neuro-dynamic programming to consider transient engine operation
CN111267827B (zh) 一种混合动力汽车能量管理方法和系统
CN112757922B (zh) 一种车用燃料电池混合动力能量管理方法及系统
CN113554337B (zh) 融合交通信息的插电式混动汽车能量管理策略构建方法
CN113110052B (zh) 一种基于神经网络和强化学习的混合能量管理方法
CN112989699B (zh) 基于深度强化学习的新能源汽车性能评价方法
CN115495997A (zh) 一种基于异构多智能体深度强化学习的新能源汽车生态驾驶方法
CN112026744B (zh) 一种基于dqn变体的混联式混合动力系统能量管理方法
CN115805840A (zh) 一种增程式电动装载机能耗控制方法及系统
CN115107733A (zh) 一种混合动力汽车的能量管理方法及系统
CN114969982A (zh) 一种基于策略迁移的燃料电池汽车深度强化学习能量管理方法
CN113687242A (zh) 基于ga算法优化改进gru神经网络的锂离子电池soh估计方法
CN110077389B (zh) 一种插电式混合动力电动汽车能量管理方法
Peng et al. Ecological Driving Framework of Hybrid Electric Vehicle Based on Heterogeneous Multi-Agent Deep Reinforcement Learning
Chen et al. A deep reinforcement learning-based approach to intelligent powertrain control for automated vehicles
Zhang et al. Uncertainty-Aware Energy Management Strategy for Hybrid Electric Vehicle Using Hybrid Deep Learning Method
Kan et al. A deep learning engine power model for estimating the fuel consumption of heavy-duty trucks
CN112084700A (zh) 一种基于a3c算法的混合动力系统能量管理方法
CN116811836A (zh) 基于双延迟q学习的插电式混合动力汽车能量管理方法
CN114154729A (zh) 一种混合动力汽车复合储能系统能量管理系统及方法
CN115840987A (zh) 一种基于深度强化学习的混动汽车热管理策略生成方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
TR01 Transfer of patent right

Effective date of registration: 20230918

Address after: 401120 No. 19, Zhuoyue Road, Longxing Town, Liangjiang New Area, Yubei District, Chongqing (cluster registration)

Patentee after: Huanshan (Chongqing) Technology Co.,Ltd.

Address before: 400074 No. 66, Xuefu Avenue, Nan'an District, Chongqing

Patentee before: CHONGQING JIAOTONG University

TR01 Transfer of patent right