CN108427985B - 一种基于深度强化学习的插电式混合动力车辆能量管理方法 - Google Patents

一种基于深度强化学习的插电式混合动力车辆能量管理方法 Download PDF

Info

Publication number
CN108427985B
CN108427985B CN201810003466.5A CN201810003466A CN108427985B CN 108427985 B CN108427985 B CN 108427985B CN 201810003466 A CN201810003466 A CN 201810003466A CN 108427985 B CN108427985 B CN 108427985B
Authority
CN
China
Prior art keywords
vehicle
state
neural network
dimensional
energy management
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201810003466.5A
Other languages
English (en)
Other versions
CN108427985A (zh
Inventor
彭剑坤
何洪文
谭华春
李岳骋
李梦林
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Institute of Technology BIT
Original Assignee
Beijing Institute of Technology BIT
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Institute of Technology BIT filed Critical Beijing Institute of Technology BIT
Priority to CN201810003466.5A priority Critical patent/CN108427985B/zh
Publication of CN108427985A publication Critical patent/CN108427985A/zh
Application granted granted Critical
Publication of CN108427985B publication Critical patent/CN108427985B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/04Forecasting or optimisation specially adapted for administrative or management purposes, e.g. linear programming or "cutting stock problem"
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q50/00Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
    • G06Q50/40Business processes related to the transportation industry
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02EREDUCTION OF GREENHOUSE GAS [GHG] EMISSIONS, RELATED TO ENERGY GENERATION, TRANSMISSION OR DISTRIBUTION
    • Y02E40/00Technologies for an efficient electrical power generation, transmission or distribution
    • Y02E40/70Smart grids as climate change mitigation technology in the energy generation sector
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y04INFORMATION OR COMMUNICATION TECHNOLOGIES HAVING AN IMPACT ON OTHER TECHNOLOGY AREAS
    • Y04SSYSTEMS INTEGRATING TECHNOLOGIES RELATED TO POWER NETWORK OPERATION, COMMUNICATION OR INFORMATION TECHNOLOGIES FOR IMPROVING THE ELECTRICAL POWER GENERATION, TRANSMISSION, DISTRIBUTION, MANAGEMENT OR USAGE, i.e. SMART GRIDS
    • Y04S10/00Systems supporting electrical power generation, transmission or distribution
    • Y04S10/50Systems or methods supporting the power network operation or management, involving a certain degree of interaction with the load-side end user applications

Landscapes

  • Engineering & Computer Science (AREA)
  • Business, Economics & Management (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Strategic Management (AREA)
  • Human Resources & Organizations (AREA)
  • Economics (AREA)
  • General Physics & Mathematics (AREA)
  • General Business, Economics & Management (AREA)
  • Health & Medical Sciences (AREA)
  • Tourism & Hospitality (AREA)
  • Marketing (AREA)
  • General Health & Medical Sciences (AREA)
  • Software Systems (AREA)
  • Computational Linguistics (AREA)
  • Mathematical Physics (AREA)
  • Computing Systems (AREA)
  • Molecular Biology (AREA)
  • Evolutionary Computation (AREA)
  • Development Economics (AREA)
  • Data Mining & Analysis (AREA)
  • Game Theory and Decision Science (AREA)
  • General Engineering & Computer Science (AREA)
  • Biophysics (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Biomedical Technology (AREA)
  • Operations Research (AREA)
  • Quality & Reliability (AREA)
  • Artificial Intelligence (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Primary Health Care (AREA)
  • Traffic Control Systems (AREA)
  • Feedback Control In General (AREA)

Abstract

本发明提供了一种基于深度强化学习的插电式混合动力车辆能量管理方法,其对多源高维行驶工况信息进行了表征提取,并处理为低维表征向量;利用冗余信息剔除算法,对所得低维表征向量、车辆自身状态信息、坡度等工况状态表征进行降维、融合处理,得到低维连续工况信息;构建基于深度强化学习的插电式混合动力车辆能量管理框架,输入低维连续工况信息,完成离线训练;利用训练好的策略控制能量分配,为综合考虑了多源高维行驶工况信息对插电式混合动力车辆能量管理效果的影响提供了途径,并可利用强化学习自主学习最优能量分配方案,挖掘其节能潜力。

Description

一种基于深度强化学习的插电式混合动力车辆能量管理方法
技术领域
本发明涉及一种插电式混合动力车辆能量管理方法,尤其涉及一种基于深度强化学习的插电式混合动力车辆能量管理方法。
背景技术
目前,基于优化的插电式混合动力车辆能量管理方法主要包括以动态规划为代表的全局优化方法,和以等效燃油消耗最小策略和模型预测控制等为代表的实时优化方法,在求解这些优化方法时,大多需对不同工况状态参数进行网格划分的离散化处理后,再作为控制系统的状态输入,且常会通过增加网格密度或状态的数量来挖掘最优性能,但这将使得优化算法的计算量呈指数倍增长,引发维数灾变,导致无法求解,所以很难综合考虑实际行驶环境与交通条件(如前方车辆行人、交通信号灯、车辆附近交通流状态等)以及车辆自身状态参数(如车速、加速度、动力电池荷电状态等),而这些工况信息都会对能量管理效果产生重要影响。另一方面,这些行驶工况信息在连续性、离散性、随机性等方面特征不一,所形成的信息系统是一种多源、高维的信息系统,传统优化方法也难以挖掘出其与能量管理效果之间的潜在关系。因此,如何在车辆的能量管理策略中结合上述工况信息,使得控制系统具有处理多源高维状态信息的能力,是本领域中亟待解决的问题。
发明内容
针对上述本领域中存在的技术问题,本发明提供了一种插电式混合动力车辆能量管理方法,具体包括以下步骤:
步骤1、利用深层卷积神经网络(CNN)以及长短期记忆神经网络(LSTM)分别对车载视觉信息和交通状态信息进行表征提取,获知PHEV前方车辆、行人、交通灯等车载视觉信息对未来工况及能量管理效果的影响机理,并挖掘PHEV附近交通流状态对车辆未来工况的影响机制。
步骤2、对所述步骤1中所提取的所述车载视觉信息和交通状态信息,以及车辆自身状态信息、坡度信息等工况状态表征进行降维、融合处理,得到低维连续型工况状态。
步骤3、将所述步骤2中得到的所述低维连续型工况状态作为输入量,利用深层神经网络构建动作价值函数,建立所述车辆的工况状态与控制动作价值的非线性映射关系,挖掘多源高维工况信息对能量管理效果的作用机理。
步骤4、基于所述步骤(3)中构建的所述动作价值函数,确定能量管理中的状态变量、动作变量、反馈奖励、策略等基本要素,建立基于深度强化学习的插电式混合动力车辆能量管理模型。
步骤5、对所述步骤4中建立的所述能量管理模型进行训练。
步骤6、将训练好策略用于PHEV能量管理。
进一步地,所述步骤1所述的利用深层卷积神经网络对车载视觉信息进行表征提取,具体包括以下步骤:
基于深层卷积神经网络充分利用图像自身特性的局部连接与权值共享特点,在其层间使用额外短连接,优化网络结构,构建深层卷积残差网络,以解决深层网络梯度弥散的问题,为深层卷积神经网络的训练做准备:
Figure BDA0001537178770000021
Figure BDA0001537178770000022
其中in[m,n]表示二维卷积运算的输入;f[m,n]表示卷积核;out[m,n]表示二维卷积运算的输出;hk表示卷积神经网络中某一层第k个特征图谱;Wk表示卷积核权重;bk表示偏置权重,并采用PRELU神经元激活函数。
将构建的深层卷积残差网络,在ImageNet数据库上进行预训练,得到具有良好泛化推广能力的深层卷积神经网络;
将训练所得深层卷积神经网络的用于车载视频图像,用于PHEV能量管理中的视觉信息表征提取,最终得到车载视觉信息表征向量。
进一步地,所述步骤1中的所述利用长短期记忆神经网络对交通状态信息进行表征提取,具体包括以下步骤:
(2.1)根据当前交通状态信息xt,t-1时刻隐向量ht-1,计算长短期记忆神经网络在t时刻的单元输入:
zt=g(Wzxt+Rzht-1+bz);
(2.2)计算长短期记忆神经网络在t时刻单元输入门it,以控制单元输入zt对 t时刻单元状态ct的影响程度:
it=σ(Wixt+Riht-1+pi⊙ct-1+bi
(2.3)计算长短期记忆神经网络在t时刻单元遗忘门ft,以控制单元输入ct-1对t时刻单元状态ct的影响程度:
ft=σ(Wfxt+Rfht-1+pf⊙ct-1+bf);
(2.4)计算长短期记忆神经网络在t时刻单元状态:
ct=it⊙zt+ft⊙ct-1);
(2.5)计算长短期记忆神经网络在t时刻单元输出门ot,控制t时刻单元状态对LSTM在t+1时刻单元的影响程度:
ot=σ(Woxt+Roht-1+po⊙ct+bo);
(2.6)计算t时刻单元输出:
ht=ot⊙g(ct)
其中,xt为t时刻的输入向量;W为输入权重矩阵;R为递归权重矩阵;p为状态权重向量;b为偏置权重向量;σ,g均为非线性神经元激活函数,σ为sigmoid 函数,g为tanh函数;⊙指元素积;权重矩阵下标z、i、f、o分别用以区分表示计算单元输入、单元输入门、单元遗忘门、单元输出门的不同权重矩阵。
(2.7)将每个时间步长的交通状态信息输入长短期记忆神经网络单元,挖掘出交通状态在时间序列上的潜在相关性,输出表征向量。
进一步地,所述步骤2中所述的对工况状态表征进行降维、融合处理,具体包括以下步骤:
首先把数据统一到同一尺度下,通过L2范数规范化各表征向量,然后级联为一个向量,得到行驶工况状态高维表征向量X;
以X作为输入,使用降噪自编码算法,通过非监督学习方式,最大化输入与隐层表征间的互信息,学习到隐含在高维数据中的低维流形学习结构,实现去噪自编码非监督冗余信息去除及数据降维,得到低维向量Y:指定映射函数为非线性仿射变换,s代表非线性函数,W,b,W′,b′表示映射矩阵和偏置向量,对此目标函数进行优化,实现高维表征向量的冗余信息去除及降维:
Figure BDA0001537178770000031
其中,
Figure BDA0001537178770000032
为经验样本平均,p(X|Y)为X关于Y的概率分布。
将所得到的低维向量Y当作输入X,重复执行上述方法得到更低维的向量Y,逐层贪婪训练,最终便完成了对该级联向量进行冗余信息剔除及降维处理,得到当前车辆自身及环境状态的低维表征向量,实现多源高维数据的信息融合。
进一步地,所述步骤4具体包括以下步骤:
(4.1)建立静态插电式混合动力车辆仿真模型,其输入为电动机和发动机的供能比例;通过动力学相关计算将供能比例转换为发动机转矩、转速、电机转矩等具体控制量;模型各动力部件对控制量做出响应;最终得到当前时刻对应的瞬时油耗,为动作价值计算提供依据,同时也得到下一时刻的车辆自身状态。
(4.2)将步骤2所得表征当前车辆自身及环境状态的低维表征向量作为输入量(状态向量st),以PHEV能量管理的全部可能动作αt的价值Q(st,αt)作为输出,建立深度价值函数估计网络Deep-Q-Network(DQN),记为Q。其中,PHEV能量管理的全部可能动作是指对动作空间内各动作量(连续量,如供能比例)离散化后的全部动作(离散值),其数量取决于离散程度的大小。上述神经网络结构为:输入层(输入维数与状态向量st维数一致)-卷积层(1层)-全连接层(3层)- 输出层(输出维数与全部动作的数量一致),初始化网络参数为θ。
(4.3)选择电动机和发动机供能比例作为强化学习的动作变量α。将当前动作αt输入静态PHEV仿真模型,得到车辆在当前状态st下执行动作αt的瞬时油耗 (L),将每一时刻的瞬时油耗的相反数作为强化学习中的反馈奖赏γt。根据PHEV 模型仿真结果记录车辆下一时刻自身的状态;重新执得到下一时刻的车载视觉信息表征向量和时序交通信息表征向量;并完成多源高维工况信息融合处理,得到下一时刻车辆自身及环境状态的低维表征向量st+1
将每一时刻的{st,αt,γt,st+1}作为一个独立样本et进行存储,保存到经验池D中,用于后续DQN训练。经验池D中存放的最大样本数量为10000,当实际样本数量超过10000时,不断用最新的样本替换经验池D中最旧的样本。
(4.4)在状态st下,执行随机过程N,在可行动作空间中随机选择动作。
进一步地,所述步骤5具体包括以下步骤:
(5.1)设置最大迭代次数n,初始迭代次数i=1;清空经验池D;设定ε-greedy算法中的探索因子ε=1;复制与Q结构、参数均相同的目标网络Q′,其网络参数记为θ′。
(5.2)把t时刻的状态st输入Q′,得到所有动作的价值Q′(st,αt)。依据ε-greedy算法选择动作:生成一个随机数rand∈(0,1),若rand<ε,则按照随机过程N选择动作αt,否则
Figure BDA0001537178770000041
将选择的动作αt输入PHEV模型,得到反馈奖赏γt;按步骤(4.3)所述,得到下一时刻车辆自身及环境状态的低维表征向量st+1。将t时刻样本et={st,αt,γt,st+1}存入经验池D中。
(5.3)若经验池D内样本数量尚未达到最大值,重复步骤(5.2),产生t+1 时刻的样本et+1,直到经验池D中样本容量达到最大值,D={e1,e2,...,e10000},执行步骤(5.4);否则,重复步骤(5.2),用最新的样本替换经验池D中最旧的样本,直到向经验池D内加入1000个新的样本后执行步骤(5.4)。
(5.4)从经验池D中随机抽取一个小批量的样本(100个)。DQN网络训练目标为最小化损失函数L,对于从经验池D中抽取的小批量样本,损失函数计算L为:
Figure BDA0001537178770000051
其中,γ为折扣系数,
Figure BDA0001537178770000052
表示在下一时刻状态st+1下,以θ′为网络参数的目标网络Q′所有动作价值输出中的最大值;该式表示从经验池D中采样得到小批量经验样本
Figure BDA0001537178770000058
并计算其损失函数。
(5.5)应用随机梯度下降变种优化算法Adam训练DQN,计算网络参数更新梯度:
Figure BDA0001537178770000053
其中,
Figure BDA0001537178770000054
表示网络的动作价值输出对网络参数的导数。
根据Adam算法确定学习率并更新DQN:
Figure BDA0001537178770000055
其中,α为由Adam算法得出的网络参数更新速率;τ为目标网络学习率(τ<<1)。
(5.6)更新训练参数,判断训练是否完成,其中迭代次数为i=i+1,更新探索因子
Figure BDA0001537178770000056
若i>n,则退出训练过程;否则,计算第i次迭代网络Q和网络Q′的参数之差δ=|θ-θ′|,若δ小于某一设定阈值,完成训练,否则执行步骤(5.3)。
所述步骤6具体包括以下步骤:
获取当前时刻车辆自身及环境状态的低维表征向量s:通过步骤1,利用训练所得深层卷积神经网络得到当前时刻的车载视觉信息表征,利用长短期记忆神经网络得到交通状态信息表征,执行步骤2得到低维表征向量s。
将当前状态s输入神经网络Q,计算
Figure BDA0001537178770000057
作为执行动作,完成当前时刻的插电式混合动力汽车能量分配。
重复上述两个步骤直到控制任务完成。
根据上述本发明所提供的方法,对多源高维行驶工况信息进行了表征提取,并处理为低维表征向量;利用冗余信息剔除算法,对所得低维表征向量、车辆自身状态信息、坡度等工况状态表征进行降维、融合处理,得到低维连续工况信息;构建基于深度强化学习的插电式混合动力车辆能量管理框架,输入低维连续工况信息,完成离线训练;利用训练好的策略控制能量分配,综合考虑了多源高维行驶工况信息对插电式混合动力车辆能量管理效果的影响提供了途径,并可利用强化学习自主学习最优能量分配方案,挖掘其节能潜力。
附图说明
图1是根据本发明所提供的方法的整体流程示意图
图2是对车载视觉信息和交通状态信息进行表征提取的流程示意图
图3是深层神经网络的工况状态与动作价值非线性映射的示意图
图4是对车载视觉信息进行表征提取的示意图
图5是对交通数据信息进行表征提取的示意图
图6是多源高维工况信息降维、融合流程
图7是基于深度强化学习对能量管理模型的训练过程
具体实施方式
下面结合附图对本申请的技术方案做出进一步详尽的阐释。
如图1所示,本发明提供了一种插电式混合动力车辆能量管理方法,具体包括以下步骤:
步骤1、利用深层卷积神经网络以及长短期记忆神经网络分别对车载视觉信息和交通状态信息进行表征提取。
步骤2、对所述步骤1中所提取的所述车载视觉信息和交通状态信息,以及车辆自身状态信息、坡度信息等工况状态表征进行降维、融合处理,得到低维连续型工况状态。
步骤3、将所述步骤2中得到的所述低维连续型工况状态作为输入量,基于深层神经网络构建动作价值函数,建立所述车辆的工况状态与控制动作价值的非线性映射关系。
步骤4、基于所述步骤(3)中构建的所述动作价值函数,确定状态变量、动作变量、反馈奖励、能量管理策略,建立基于深度强化学习插电式混合动力车辆能量管理模型。
步骤5、对所述步骤4中建立的所述能量管理模型进行训练。
步骤6、将训练好策略用于PHEV能量管理。
如图2、4所示,在本申请的一个优选实施例中,所述步骤1所述的利用深层卷积神经网络对车载视觉信息进行表征提取,具体包括以下步骤:
基于深层卷积神经网在其层间使用额外短连接,构建深层卷积残差网络,以解决深层网络梯度弥散的问题,为深层卷积神经网络的训练做准备:
Figure BDA0001537178770000061
Figure BDA0001537178770000071
其中in[m,n]表示二维卷积运算的输入;f[m,n]表示卷积核;out[m,n]表示二维卷积运算的输出;hk表示卷积神经网络中某一层第k个特征图谱;Wk表示卷积核权重;bk表示偏置权重,并采用PRELU神经元激活函数;
将构建的深层卷积残差网络,在ImageNet数据库上进行预训练,得到深层卷积神经网络;
将训练所得深层卷积神经网络的用于车载视频图像,得到车载视觉信息表征向量。
如图2、5所示,在本申请的一个优选实施例中,所述步骤1中的所述利用长短期记忆神经网络对交通状态信息进行表征提取,具体包括以下步骤:
根据当前交通状态信息xt,t-1时刻隐向量ht-1,计算长短期记忆神经网络在 t时刻的单元输入:
zt=g(Wzxt+Rzht-1+bz);
计算长短期记忆神经网络在t时刻单元输入门it,以控制单元输入zt对t时刻单元状态ct的影响程度:
it=σ(Wixt+Riht-1+pi⊙ct-1+bi
计算长短期记忆神经网络在t时刻单元遗忘门ft,以控制单元输入ct-1对t 时刻单元状态ct的影响程度:
ft=σ(Wfxt+Rfht-1+pf⊙ct-1+bf);
计算长短期记忆神经网络在t时刻单元状态:
ct=it⊙zt+ft⊙ct-1);
计算长短期记忆神经网络在t时刻单元输出门ot,控制t时刻单元状态对LSTM 在t+1时刻单元的影响程度:
ot=σ(Woxt+Roht-1+po⊙ct+bo);
计算t时刻单元输出:
ht=ot⊙g(ct)
其中,xt为t时刻的输入向量;W为输入权重矩阵;R为递归权重矩阵;p为状态权重向量;b为偏置权重向量;σ,g均为非线性神经元激活函数,σ为sigmoid 函数,g为tanh函数;⊙指元素积;权重矩阵下标z、i、f、o分别用以区分表示计算单元输入、单元输入门、单元遗忘门、单元输出门的不同权重矩阵。
将每个时间步长的交通状态信息输入长短期记忆神经网络单元,输出工况状态表征向量。
如图6所示,在本申请的一个优选实施例中,所述步骤2中所述的对工况状态表征向量进行降维、融合处理,具体包括以下步骤:
首先把数据统一到同一尺度下,通过L2范数规范化各表征向量,然后级联为一个向量,得到行驶工况状态高维表征向量X;
以X作为输入,使用降噪自编码算法,通过非监督学习方式,最大化输入与隐层表征间的互信息,学习到隐含在高维数据中的低维流形学习结构,实现去噪自编码非监督冗余信息去除及数据降维,得到低维向量Y:指定映射函数为非线性仿射变换,s代表非线性函数,W,b,W′,b′表示映射矩阵和偏置向量,对此映射函数进行优化,实现高维表征向量的冗余信息去除及降维:
Figure BDA0001537178770000081
其中,
Figure BDA0001537178770000082
为经验样本平均,p(X|Y)为X关于Y的概率分布。
将所得到的低维向量Y当作输入X,重复执行上述方法得到更低维的向量Y,逐层贪婪训练,最终便完成了对该级联向量进行冗余信息剔除及降维处理,得到当前车辆自身及环境状态的低维表征向量,实现多源高维数据的信息融合。
如图3所示,所述步骤4具体包括以下步骤:
建立静态插电式混合动力车辆仿真模型,其输入为电动机和发动机的供能比例,得到当前时刻对应的瞬时油耗,为动作价值计算提供依据,同时也得到下一时刻的车辆自身状态;
将步骤2得到的低维表征向量记为st作为输入量,以能量管理的全部可能动作αt的价值Q(st,αt)作为输出,建立深度价值函数估计神经网络记为Q;所述网络结构为:输入层,其输入维数与状态向量st维数一致;1层卷积层;3层全连接层;输出层,其输出维数与全部动作的数量一致,初始化网络参数为θ;
选择电动机和发动机供能比例作为强化学习的动作变量α;将当前动作αt输入所述仿真模型,得到车辆在当前状态st下执行动作αt的瞬时油耗(L),将每一时刻的瞬时油耗的相反数作为强化学习中的反馈奖赏γt;根据模型仿真结果记录车辆下一时刻自身的状态;重复提取下一时刻的车载视觉信息表征向量和时序交通信息表征向量,并执行降维、融合处理,得到下一时刻车辆自身及环境状态的低维表征向量st+1
将每一时刻的{st,αt,γt,st+1}作为一个独立样本et进行存储,保存到经验池D中,用于后续网络Q的训练;经验池D中存放的最大样本数量为10000,当实际样本数量超过10000时,不断用最新的样本替换经验池D中最旧的样本;
在状态st下,执行随机过程N,在可行动作空间中随机选择动作。
如图7所示,在本申请的一个优选实施例中,所述步骤5具体包括以下步骤:
设置最大迭代次数n,初始迭代次数i=1;清空经验池D;设定ε-greedy算法中的探索因子ε=1;复制与Q结构、参数均相同的目标网络Q′,其网络参数记为θ′;
把t时刻的状态st输入Q′,得到所有动作的价值Q′(st,αt)。依据ε-greedy算法选择动作:生成一个随机数rand∈(0,1),若rand<ε,则按照随机过程N选择动作αt,否则
Figure BDA0001537178770000096
将选择的动作αt输入PHEV模型,得到反馈奖赏γt;获取下一时刻车辆自身及环境状态的低维表征向量st+1;将t时刻样本 et={st,αt,γt,st+1}存入经验池D中;
重复产生t+1时刻的样本et+1,直到经验池D中样本容量达到最大值, D={e1,e2,...,e10000},执行后续流程;否则,重复用最新的样本替换经验池D中最旧的样本,直到向经验池D内加入1000个新的样本并执行后续步骤;
从经验池D中随机抽取一个小批量的样本,网络Q的训练目标为最小化损失函数L,对于从经验池D中抽取的小批量样本,损失函数计算L为:
Figure BDA0001537178770000091
其中,γ为折扣系数,
Figure BDA0001537178770000092
表示在下一时刻状态st+1下,以θ′为网络参数的目标网络Q′所有动作价值输出中的最大值;该式表示从经验池D中采样得到小批量经验样本
Figure BDA0001537178770000095
并计算其损失函数。
应用随机梯度下降变种优化算法Adam训练网络,计算网络参数更新梯度:
Figure BDA0001537178770000093
其中,
Figure BDA0001537178770000094
表示网络的动作价值输出对网络参数的导数。
根据Adam算法确定学习率并更新网络:
Figure BDA0001537178770000101
其中,α为由Adam算法得出的网络参数更新速率;τ为目标网络学习率(τ<<1)。
更新训练参数,判断训练是否完成,其中迭代次数为i=i+1,更新探索因子
Figure BDA0001537178770000102
若i>n,则退出训练过程;否则,计算第i次迭代网络Q和网络Q′的参数之差δ=|θ-θ′|,若δ小于某一设定阈值,完成训练,否则重复执行训练过程。
所述步骤6具体包括以下步骤:
获取当前时刻车辆自身及环境状态的低维表征向量s:通过步骤1,利用训练所得深层卷积神经网络得到当前时刻的车载视觉信息表征,利用长短期记忆神经网络得到交通状态信息表征,执行步骤2得到低维表征向量s。
将当前状态s输入神经网络Q,计算
Figure BDA0001537178770000103
作为执行动作,完成当前时刻的插电式混合动力汽车能量分配。
重复上述两个步骤直到控制任务完成。
尽管已经示出和描述了本发明的实施例,对于本领域的普通技术人员而言,可以理解在不脱离本发明的原理和精神的情况下可以对这些实施例进行多种变化、修改、替换和变型,本发明的范围由所附权利要求及其等同物限定。

Claims (2)

1.一种基于深度强化学习的插电式混合动力车辆能量管理方法,其特征在于:具体包括以下步骤:
步骤1、利用深层卷积神经网络以及长短期记忆神经网络分别对车载视觉信息和交通状态信息进行表征提取;
步骤2、对包括所述步骤1中所提取的所述车载视觉信息和交通状态信息,以及车辆自身状态信息和坡度信息的工况状态的表征进行降维、融合处理,得到低维连续型工况状态;
步骤3、将所述步骤2中得到的所述低维连续型工况状态作为输入量,基于深层神经网络构建动作价值函数,建立所述车辆的工况状态与控制动作价值的非线性映射关系;
步骤4、基于所述步骤3中构建的所述动作价值函数,确定状态变量、动作变量、反馈奖励、能量管理策略,建立基于深度强化学习插电式混合动力车辆能量管理模型;
步骤5、对所述步骤4中建立的所述能量管理模型进行训练;
步骤6、训练完毕后,执行相应的能量管理策略;所述步骤1中的利用深层卷积神经网络对车载视觉信息进行表征提取,具体包括以下步骤:
基于深层卷积神经网在其层间使用额外短连接,构建深层卷积残差网络,以解决深层网络梯度弥散的问题,为深层卷积神经网络的训练做准备;
将构建的深层卷积残差网络,在ImageNet数据库上进行预训练,得到深层卷积神经网络;
将训练所得的深层卷积神经网络用于车载视频图像,得到车载视觉信息表征向量。
2.如权利要求1所述的方法,其特征在于:建立静态插电式混合动力车辆仿真模型,其输入为电动机和发动机的供能比例,得到当前时刻对应的瞬时油耗,为动作价值计算提供依据,同时也得到下一时刻的车辆自身状态;
将步骤2得到的低维表征向量记为st作为输入量,以能量管理的全部可能动作at的价值Q(st,at)作为输出,建立深度价值函数估计神经网络,所述网络结构为:1层输入层,其输入维数与状态向量st维数一致;1层卷积层;3层全连接层;1层输出层,其输出维数与全部动作的数量一致,初始化网络参数为θ;
选择电动机和发动机供能比例作为强化学习的动作变量a;将当前动作at输入所述仿真模型,得到车辆在当前状态st下执行动作at的瞬时油耗,将每一时刻的瞬时油耗的相反数作为强化学习中的反馈奖赏rt;根据模型仿真结果记录车辆下一时刻自身的状态;重复提取下一时刻的车载视觉信息表征向量和交通状态信息表征向量,并执行降维、融合处理,得到下一时刻车辆自身及环境状态的低维表征向量st+1
将每一时刻的{st,at,rt,st+1}作为一个独立样本et进行存储,保存到经验池D中,用于后续网络Q的训练;经验池D中存放的最大样本数量为10000,当实际样本数量超过10000时,不断用最新的样本替换经验池D中最旧的样本;
在状态st下,执行随机过程N,在可行动作空间中随机选择动作。
CN201810003466.5A 2018-01-02 2018-01-02 一种基于深度强化学习的插电式混合动力车辆能量管理方法 Active CN108427985B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810003466.5A CN108427985B (zh) 2018-01-02 2018-01-02 一种基于深度强化学习的插电式混合动力车辆能量管理方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810003466.5A CN108427985B (zh) 2018-01-02 2018-01-02 一种基于深度强化学习的插电式混合动力车辆能量管理方法

Publications (2)

Publication Number Publication Date
CN108427985A CN108427985A (zh) 2018-08-21
CN108427985B true CN108427985B (zh) 2020-05-19

Family

ID=63155877

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810003466.5A Active CN108427985B (zh) 2018-01-02 2018-01-02 一种基于深度强化学习的插电式混合动力车辆能量管理方法

Country Status (1)

Country Link
CN (1) CN108427985B (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP4250272A4 (en) * 2020-12-25 2024-01-17 Nec Corp DRIVING EVALUATION SYSTEM, LEARNING DEVICE, EVALUATION RESULTS GENERATION DEVICE, METHOD AND PROGRAM

Families Citing this family (25)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110221610A (zh) * 2019-06-10 2019-09-10 吉林大学 无人驾驶工程机械的智能化作业系统及作业方法
CN110221611B (zh) * 2019-06-11 2020-09-04 北京三快在线科技有限公司 一种轨迹跟踪控制方法、装置及无人驾驶车辆
CN110363295A (zh) * 2019-06-28 2019-10-22 电子科技大学 一种基于dqn的智能车多车道换道方法
CN110341690B (zh) * 2019-07-22 2020-08-04 北京理工大学 一种基于确定性策略梯度学习的phev能量管理方法
CN110472800A (zh) * 2019-08-23 2019-11-19 山东浪潮通软信息科技有限公司 一种基于lstm+cnn的机床刀具剩余寿命预测方法
CN110705797B (zh) * 2019-10-09 2023-09-22 浙江海洋大学 一种基于船舶传感网的船舶油耗数据预测方法
CN110706374B (zh) * 2019-10-10 2021-06-29 南京地平线机器人技术有限公司 运动状态预测方法、装置、电子设备及车辆
CN110852482B (zh) * 2019-10-15 2020-12-18 江苏大学 一种燃料电池公交车实时全局优化智能控制系统及方法
WO2021114167A1 (zh) * 2019-12-12 2021-06-17 中国科学院深圳先进技术研究院 一种汽车能量管理策略的验证方法和设备
KR20210076223A (ko) * 2019-12-13 2021-06-24 현대자동차주식회사 하이브리드 차량 및 그 제어 방법
CN111191529B (zh) * 2019-12-17 2023-04-28 中移(杭州)信息技术有限公司 一种处理异常工单的方法及系统
CN111267830B (zh) * 2020-02-10 2021-07-09 南京航空航天大学 一种混合动力公交车能量管理方法、设备和存储介质
CN111259917B (zh) * 2020-02-20 2022-06-07 西北工业大学 一种基于局部近邻成分分析的图像特征提取方法
CN111367172B (zh) * 2020-02-28 2021-09-21 华南理工大学 一种基于逆向深度强化学习的混动系统能量管理策略
CN111898211B (zh) * 2020-08-07 2022-11-01 吉林大学 基于深度强化学习的智能车速度决策方法及其仿真方法
CN111891113A (zh) * 2020-08-11 2020-11-06 北京理工大学 混合动力车辆的信息物理能量优化控制系统及其控制方法
CN112215328B (zh) * 2020-10-29 2024-04-05 腾讯科技(深圳)有限公司 一种智能体的训练、基于智能体的动作控制方法及装置
CN112287463B (zh) * 2020-11-03 2022-02-11 重庆大学 一种基于深度强化学习算法的燃料电池汽车能量管理方法
CN112488452B (zh) * 2020-11-06 2023-03-31 中电科蓝天科技股份有限公司 一种基于深度强化学习的能源系统管理多时间尺度最优决策方法
CN112329921B (zh) * 2020-11-11 2023-11-14 浙江大学 基于深度表征学习和强化学习的利尿剂剂量推理设备
CN112498334B (zh) * 2020-12-15 2022-03-11 清华大学 智能网联混合动力汽车的鲁棒能量管理方法及系统
CN112905591B (zh) * 2021-02-04 2022-08-26 成都信息工程大学 一种基于机器学习的数据表连接顺序选择方法
CN113110052B (zh) * 2021-04-15 2022-07-26 浙大宁波理工学院 一种基于神经网络和强化学习的混合能量管理方法
CN113859219A (zh) * 2021-11-15 2021-12-31 重庆大学 基于驾驶工况识别的混合动力汽车自适应能量管理方法
CN113997926A (zh) * 2021-11-30 2022-02-01 江苏浩峰汽车附件有限公司 基于分层强化学习的并联式混合动力汽车能量管理方法

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104648379A (zh) * 2015-02-11 2015-05-27 浙江大学 一种混合动力公交车在线自学习能量管理方法
CN105216782A (zh) * 2015-09-30 2016-01-06 上海凌翼动力科技有限公司 基于能量预测的插电式混合动力汽车能量管理方法

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20140024651A (ko) * 2012-08-20 2014-03-03 에스케이플래닛 주식회사 에코 주행을 위한 운전정보 제공 방법, 이를 위한 시스템, 이를 위한 단말기 및 이를 위한 서비스장치

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104648379A (zh) * 2015-02-11 2015-05-27 浙江大学 一种混合动力公交车在线自学习能量管理方法
CN105216782A (zh) * 2015-09-30 2016-01-06 上海凌翼动力科技有限公司 基于能量预测的插电式混合动力汽车能量管理方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
ConvLSTM原理及其TensorFlow实现;DLdigest;《深度学习每日摘要》;20170511;第1-6页 *

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP4250272A4 (en) * 2020-12-25 2024-01-17 Nec Corp DRIVING EVALUATION SYSTEM, LEARNING DEVICE, EVALUATION RESULTS GENERATION DEVICE, METHOD AND PROGRAM

Also Published As

Publication number Publication date
CN108427985A (zh) 2018-08-21

Similar Documents

Publication Publication Date Title
CN108427985B (zh) 一种基于深度强化学习的插电式混合动力车辆能量管理方法
WO2020176297A1 (en) Artificial neural network compression via iterative hybrid reinforcement learning approach
CN112200373A (zh) 负荷预测模型的训练方法及训练装置、存储介质、设备
Sathish Prediction of springback effect by the hybridisation of ANN with PSO in wipe bending process of sheet metal
EP3788549B1 (en) Stacked convolutional long short-term memory for model-free reinforcement learning
Levine Exploring deep and recurrent architectures for optimal control
CN110716575A (zh) 基于深度双q网络强化学习的uuv实时避碰规划方法
CN113449919B (zh) 一种基于特征和趋势感知的用电量预测方法及系统
CN115062761A (zh) 一种基于离在线训练结合的兵力行为决策模型加速构建方法
CN115965057A (zh) 一种面向列车传动系统的类脑持续学习故障诊断方法
Ji et al. Competitive decomposition-based multiobjective architecture search for the dendritic neural model
CN113486926B (zh) 一种自动化码头设备异常检测系统
CN113419424B (zh) 减少过估计的模型化强化学习机器人控制方法及系统
Lin et al. Composite adaptive online inverse optimal control approach to human behavior learning
CN114487890A (zh) 一种改进长短期记忆神经网络的锂电池健康状态估计方法
CN114219066A (zh) 基于瓦瑟斯坦距离的无监督强化学习方法及装置
CN117787585A (zh) 一种数据驱动的充电桩数量的预测方法、装置
CN116303786B (zh) 一种基于多维数据融合算法的区块链金融大数据管理系统
Saleem et al. Optimizing Steering Angle Predictive Convolutional Neural Network for Autonomous Car.
CN111369075A (zh) 运量预测方法
CN114278727B (zh) 极限工况下的车辆自动换挡控制方法、系统、介质及设备
Rahman et al. Implementation of artificial neural network on regression analysis
CN115034500B (zh) 一种基于双注意力机制网络的车速预测方法、系统及车辆
Nguyen et al. Improving model-based rl with adaptive rollout using uncertainty estimation
CN116151088A (zh) 系统剩余寿命预测方法、装置、设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant