CN108427985A - 一种基于深度强化学习的插电式混合动力车辆能量管理方法 - Google Patents
一种基于深度强化学习的插电式混合动力车辆能量管理方法 Download PDFInfo
- Publication number
- CN108427985A CN108427985A CN201810003466.5A CN201810003466A CN108427985A CN 108427985 A CN108427985 A CN 108427985A CN 201810003466 A CN201810003466 A CN 201810003466A CN 108427985 A CN108427985 A CN 108427985A
- Authority
- CN
- China
- Prior art keywords
- state
- vector
- network
- neural network
- vehicle
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000007726 management method Methods 0.000 title claims abstract description 36
- 239000013598 vector Substances 0.000 claims abstract description 82
- 238000012549 training Methods 0.000 claims abstract description 43
- 238000012512 characterization method Methods 0.000 claims abstract description 27
- 230000009467 reduction Effects 0.000 claims abstract description 23
- 238000004422 calculation algorithm Methods 0.000 claims abstract description 21
- 230000004927 fusion Effects 0.000 claims abstract description 5
- 230000009471 action Effects 0.000 claims description 50
- 230000006870 function Effects 0.000 claims description 39
- 238000013528 artificial neural network Methods 0.000 claims description 38
- 238000000034 method Methods 0.000 claims description 31
- 238000013527 convolutional neural network Methods 0.000 claims description 30
- 230000015654 memory Effects 0.000 claims description 21
- 230000000007 visual effect Effects 0.000 claims description 21
- 230000008569 process Effects 0.000 claims description 14
- 230000002787 reinforcement Effects 0.000 claims description 13
- 230000007613 environmental effect Effects 0.000 claims description 12
- 238000013507 mapping Methods 0.000 claims description 12
- 239000011159 matrix material Substances 0.000 claims description 11
- 238000004088 simulation Methods 0.000 claims description 11
- ORILYTVJVMAKLC-UHFFFAOYSA-N Adamantane Natural products C1C(C2)CC3CC1CC2C3 ORILYTVJVMAKLC-UHFFFAOYSA-N 0.000 claims description 9
- 238000007499 fusion processing Methods 0.000 claims description 9
- 238000005457 optimization Methods 0.000 claims description 9
- 238000004364 calculation method Methods 0.000 claims description 6
- 230000007787 long-term memory Effects 0.000 claims description 6
- BULVZWIRKLYCBC-UHFFFAOYSA-N phorate Chemical compound CCOP(=S)(OCC)SCSCC BULVZWIRKLYCBC-UHFFFAOYSA-N 0.000 claims description 6
- 230000006403 short-term memory Effects 0.000 claims description 6
- 230000004913 activation Effects 0.000 claims description 5
- 210000002569 neuron Anatomy 0.000 claims description 5
- 230000003068 static effect Effects 0.000 claims description 5
- 230000008030 elimination Effects 0.000 claims description 4
- 238000003379 elimination reaction Methods 0.000 claims description 4
- 239000000446 fuel Substances 0.000 claims description 4
- 238000012545 processing Methods 0.000 claims description 4
- PXFBZOLANLWPMH-UHFFFAOYSA-N 16-Epiaffinine Natural products C1C(C2=CC=CC=C2N2)=C2C(=O)CC2C(=CC)CN(C)C1C2CO PXFBZOLANLWPMH-UHFFFAOYSA-N 0.000 claims description 3
- 238000012935 Averaging Methods 0.000 claims description 3
- 239000006185 dispersion Substances 0.000 claims description 3
- 238000005070 sampling Methods 0.000 claims description 3
- 230000009466 transformation Effects 0.000 claims description 3
- 238000005728 strengthening Methods 0.000 claims 1
- 230000000694 effects Effects 0.000 abstract description 6
- 238000000605 extraction Methods 0.000 abstract description 6
- 241000156302 Porcine hemagglutinating encephalomyelitis virus Species 0.000 description 11
- 210000004027 cell Anatomy 0.000 description 4
- 238000010586 diagram Methods 0.000 description 3
- 230000007246 mechanism Effects 0.000 description 3
- 238000005065 mining Methods 0.000 description 2
- 230000001133 acceleration Effects 0.000 description 1
- 230000004075 alteration Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000001537 neural effect Effects 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q10/00—Administration; Management
- G06Q10/04—Forecasting or optimisation specially adapted for administrative or management purposes, e.g. linear programming or "cutting stock problem"
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q50/00—Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
- G06Q50/40—Business processes related to the transportation industry
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02E—REDUCTION OF GREENHOUSE GAS [GHG] EMISSIONS, RELATED TO ENERGY GENERATION, TRANSMISSION OR DISTRIBUTION
- Y02E40/00—Technologies for an efficient electrical power generation, transmission or distribution
- Y02E40/70—Smart grids as climate change mitigation technology in the energy generation sector
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y04—INFORMATION OR COMMUNICATION TECHNOLOGIES HAVING AN IMPACT ON OTHER TECHNOLOGY AREAS
- Y04S—SYSTEMS INTEGRATING TECHNOLOGIES RELATED TO POWER NETWORK OPERATION, COMMUNICATION OR INFORMATION TECHNOLOGIES FOR IMPROVING THE ELECTRICAL POWER GENERATION, TRANSMISSION, DISTRIBUTION, MANAGEMENT OR USAGE, i.e. SMART GRIDS
- Y04S10/00—Systems supporting electrical power generation, transmission or distribution
- Y04S10/50—Systems or methods supporting the power network operation or management, involving a certain degree of interaction with the load-side end user applications
Landscapes
- Engineering & Computer Science (AREA)
- Business, Economics & Management (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Strategic Management (AREA)
- Human Resources & Organizations (AREA)
- Economics (AREA)
- General Physics & Mathematics (AREA)
- General Business, Economics & Management (AREA)
- Health & Medical Sciences (AREA)
- Tourism & Hospitality (AREA)
- Marketing (AREA)
- General Health & Medical Sciences (AREA)
- Software Systems (AREA)
- Computational Linguistics (AREA)
- Mathematical Physics (AREA)
- Computing Systems (AREA)
- Molecular Biology (AREA)
- Evolutionary Computation (AREA)
- Development Economics (AREA)
- Data Mining & Analysis (AREA)
- Game Theory and Decision Science (AREA)
- General Engineering & Computer Science (AREA)
- Biophysics (AREA)
- Entrepreneurship & Innovation (AREA)
- Biomedical Technology (AREA)
- Operations Research (AREA)
- Quality & Reliability (AREA)
- Artificial Intelligence (AREA)
- Life Sciences & Earth Sciences (AREA)
- Primary Health Care (AREA)
- Traffic Control Systems (AREA)
- Feedback Control In General (AREA)
Abstract
本发明提供了一种基于深度强化学习的插电式混合动力车辆能量管理方法,其对多源高维行驶工况信息进行了表征提取,并处理为低维表征向量;利用冗余信息剔除算法,对所得低维表征向量、车辆自身状态信息、坡度等工况状态表征进行降维、融合处理,得到低维连续工况信息;构建基于深度强化学习的插电式混合动力车辆能量管理框架,输入低维连续工况信息,完成离线训练;利用训练好的策略控制能量分配,为综合考虑了多源高维行驶工况信息对插电式混合动力车辆能量管理效果的影响提供了途径,并可利用强化学习自主学习最优能量分配方案,挖掘其节能潜力。
Description
技术领域
本发明涉及一种插电式混合动力车辆能量管理方法,尤其涉及一种基于深度强化学习的插电式混合动力车辆能量管理方法。
背景技术
目前,基于优化的插电式混合动力车辆能量管理方法主要包括以动态规划为代表的全局优化方法,和以等效燃油消耗最小策略和模型预测控制等为代表的实时优化方法,在求解这些优化方法时,大多需对不同工况状态参数进行网格划分的离散化处理后,再作为控制系统的状态输入,且常会通过增加网格密度或状态的数量来挖掘最优性能,但这将使得优化算法的计算量呈指数倍增长,引发维数灾变,导致无法求解,所以很难综合考虑实际行驶环境与交通条件(如前方车辆行人、交通信号灯、车辆附近交通流状态等)以及车辆自身状态参数(如车速、加速度、动力电池荷电状态等),而这些工况信息都会对能量管理效果产生重要影响。另一方面,这些行驶工况信息在连续性、离散性、随机性等方面特征不一,所形成的信息系统是一种多源、高维的信息系统,传统优化方法也难以挖掘出其与能量管理效果之间的潜在关系。因此,如何在车辆的能量管理策略中结合上述工况信息,使得控制系统具有处理多源高维状态信息的能力,是本领域中亟待解决的问题。
发明内容
针对上述本领域中存在的技术问题,本发明提供了一种插电式混合动力车辆能量管理方法,具体包括以下步骤:
步骤1、利用深层卷积神经网络(CNN)以及长短期记忆神经网络(LSTM)分别对车载视觉信息和交通状态信息进行表征提取,获知PHEV前方车辆、行人、交通灯等车载视觉信息对未来工况及能量管理效果的影响机理,并挖掘PHEV附近交通流状态对车辆未来工况的影响机制。
步骤2、对所述步骤1中所提取的所述车载视觉信息和交通状态信息,以及车辆自身状态信息、坡度信息等工况状态表征进行降维、融合处理,得到低维连续型工况状态。
步骤3、将所述步骤2中得到的所述低维连续型工况状态作为输入量,利用深层神经网络构建动作价值函数,建立所述车辆的工况状态与控制动作价值的非线性映射关系,挖掘多源高维工况信息对能量管理效果的作用机理。
步骤4、基于所述步骤(3)中构建的所述动作价值函数,确定能量管理中的状态变量、动作变量、反馈奖励、策略等基本要素,建立基于深度强化学习的插电式混合动力车辆能量管理模型。
步骤5、对所述步骤4中建立的所述能量管理模型进行训练。
步骤6、将训练好策略用于PHEV能量管理。
进一步地,所述步骤1所述的利用深层卷积神经网络对车载视觉信息进行表征提取,具体包括以下步骤:
基于深层卷积神经网络充分利用图像自身特性的局部连接与权值共享特点,在其层间使用额外短连接,优化网络结构,构建深层卷积残差网络,以解决深层网络梯度弥散的问题,为深层卷积神经网络的训练做准备:
其中in[m,n]表示二维卷积运算的输入;f[m,n]表示卷积核;out[m,n]表示二维卷积运算的输出;hk表示卷积神经网络中某一层第k个特征图谱;Wk表示卷积核权重;bk表示偏置权重,并采用PRELU神经元激活函数。
将构建的深层卷积残差网络,在ImageNet数据库上进行预训练,得到具有良好泛化推广能力的深层卷积神经网络;
将训练所得深层卷积神经网络的用于车载视频图像,用于PHEV能量管理中的视觉信息表征提取,最终得到车载视觉信息表征向量。
进一步地,所述步骤1中的所述利用长短期记忆神经网络对交通状态信息进行表征提取,具体包括以下步骤:
(2.1)根据当前交通状态信息xt,t-1时刻隐向量ht-1,计算长短期记忆神经网络在t时刻的单元输入:
zt=g(Wzxt+Rzht-1+bz);
(2.2)计算长短期记忆神经网络在t时刻单元输入门it,以控制单元输入zt对 t时刻单元状态ct的影响程度:
it=σ(Wixt+Riht-1+pi⊙ct-1+bi;
(2.3)计算长短期记忆神经网络在t时刻单元遗忘门ft,以控制单元输入ct-1对t时刻单元状态ct的影响程度:
ft=σ(Wfxt+Rfht-1+pf⊙ct-1+bf);
(2.4)计算长短期记忆神经网络在t时刻单元状态:
ct=it⊙zt+ft⊙ct-1);
(2.5)计算长短期记忆神经网络在t时刻单元输出门ot,控制t时刻单元状态对LSTM在t+1时刻单元的影响程度:
ot=σ(Woxt+Roht-1+po⊙ct+bo);
(2.6)计算t时刻单元输出:
ht=ot⊙g(ct)
其中,xt为t时刻的输入向量;W为输入权重矩阵;R为递归权重矩阵;p为状态权重向量;b为偏置权重向量;σ,g均为非线性神经元激活函数,σ为sigmoid 函数,g为tanh函数;⊙指元素积;权重矩阵下标z、i、f、o分别用以区分表示计算单元输入、单元输入门、单元遗忘门、单元输出门的不同权重矩阵。
(2.7)将每个时间步长的交通状态信息输入长短期记忆神经网络单元,挖掘出交通状态在时间序列上的潜在相关性,输出表征向量。
进一步地,所述步骤2中所述的对工况状态表征进行降维、融合处理,具体包括以下步骤:
首先把数据统一到同一尺度下,通过L2范数规范化各表征向量,然后级联为一个向量,得到行驶工况状态高维表征向量X;
以X作为输入,使用降噪自编码算法,通过非监督学习方式,最大化输入与隐层表征间的互信息,学习到隐含在高维数据中的低维流形学习结构,实现去噪自编码非监督冗余信息去除及数据降维,得到低维向量Y:指定映射函数为非线性仿射变换,s代表非线性函数,W,b,W′,b′表示映射矩阵和偏置向量,对此目标函数进行优化,实现高维表征向量的冗余信息去除及降维:
其中,为经验样本平均,p(X|Y)为X关于Y的概率分布。
将所得到的低维向量Y当作输入X,重复执行上述方法得到更低维的向量Y,逐层贪婪训练,最终便完成了对该级联向量进行冗余信息剔除及降维处理,得到当前车辆自身及环境状态的低维表征向量,实现多源高维数据的信息融合。
进一步地,所述步骤4具体包括以下步骤:
(4.1)建立静态插电式混合动力车辆仿真模型,其输入为电动机和发动机的供能比例;通过动力学相关计算将供能比例转换为发动机转矩、转速、电机转矩等具体控制量;模型各动力部件对控制量做出响应;最终得到当前时刻对应的瞬时油耗,为动作价值计算提供依据,同时也得到下一时刻的车辆自身状态。
(4.2)将步骤2所得表征当前车辆自身及环境状态的低维表征向量作为输入量(状态向量st),以PHEV能量管理的全部可能动作αt的价值Q(st,αt)作为输出,建立深度价值函数估计网络Deep-Q-Network(DQN),记为Q。其中,PHEV能量管理的全部可能动作是指对动作空间内各动作量(连续量,如供能比例)离散化后的全部动作(离散值),其数量取决于离散程度的大小。上述神经网络结构为:输入层(输入维数与状态向量st维数一致)-卷积层(1层)-全连接层(3层)- 输出层(输出维数与全部动作的数量一致),初始化网络参数为θ。
(4.3)选择电动机和发动机供能比例作为强化学习的动作变量α。将当前动作αt输入静态PHEV仿真模型,得到车辆在当前状态st下执行动作αt的瞬时油耗 (L),将每一时刻的瞬时油耗的相反数作为强化学习中的反馈奖赏γt。根据PHEV 模型仿真结果记录车辆下一时刻自身的状态;重新执得到下一时刻的车载视觉信息表征向量和时序交通信息表征向量;并完成多源高维工况信息融合处理,得到下一时刻车辆自身及环境状态的低维表征向量st+1。
将每一时刻的{st,αt,γt,st+1}作为一个独立样本et进行存储,保存到经验池D中,用于后续DQN训练。经验池D中存放的最大样本数量为10000,当实际样本数量超过10000时,不断用最新的样本替换经验池D中最旧的样本。
(4.4)在状态st下,执行随机过程N,在可行动作空间中随机选择动作。
进一步地,所述步骤5具体包括以下步骤:
(5.1)设置最大迭代次数n,初始迭代次数i=1;清空经验池D;设定ε-greedy算法中的探索因子ε=1;复制与Q结构、参数均相同的目标网络Q′,其网络参数记为θ′。
(5.2)把t时刻的状态st输入Q′,得到所有动作的价值Q′(st,αt)。依据ε-greedy算法选择动作:生成一个随机数rand∈(0,1),若rand<ε,则按照随机过程N选择动作αt,否则将选择的动作αt输入PHEV模型,得到反馈奖赏γt;按步骤(4.3)所述,得到下一时刻车辆自身及环境状态的低维表征向量st+1。将t时刻样本et={st,αt,γt,st+1}存入经验池D中。
(5.3)若经验池D内样本数量尚未达到最大值,重复步骤(5.2),产生t+1 时刻的样本et+1,直到经验池D中样本容量达到最大值,D={e1,e2,...,e10000},执行步骤(5.4);否则,重复步骤(5.2),用最新的样本替换经验池D中最旧的样本,直到向经验池D内加入1000个新的样本后执行步骤(5.4)。
(5.4)从经验池D中随机抽取一个小批量的样本(100个)。DQN网络训练目标为最小化损失函数L,对于从经验池D中抽取的小批量样本,损失函数计算L为:
其中,γ为折扣系数,表示在下一时刻状态st+1下,以θ′为网络参数的目标网络Q′所有动作价值输出中的最大值;该式表示从经验池D中采样得到小批量经验样本并计算其损失函数。
(5.5)应用随机梯度下降变种优化算法Adam训练DQN,计算网络参数更新梯度:
其中,表示网络的动作价值输出对网络参数的导数。
根据Adam算法确定学习率并更新DQN:
其中,α为由Adam算法得出的网络参数更新速率;τ为目标网络学习率(τ<<1)。
(5.6)更新训练参数,判断训练是否完成,其中迭代次数为i=i+1,更新探索因子
若i>n,则退出训练过程;否则,计算第i次迭代网络Q和网络Q′的参数之差δ=|θ-θ′|,若δ小于某一设定阈值,完成训练,否则执行步骤(5.3)。
所述步骤6具体包括以下步骤:
获取当前时刻车辆自身及环境状态的低维表征向量s:通过步骤1,利用训练所得深层卷积神经网络得到当前时刻的车载视觉信息表征,利用长短期记忆神经网络得到交通状态信息表征,执行步骤2得到低维表征向量s。
将当前状态s输入神经网络Q,计算作为执行动作,完成当前时刻的插电式混合动力汽车能量分配。
重复上述两个步骤直到控制任务完成。
根据上述本发明所提供的方法,对多源高维行驶工况信息进行了表征提取,并处理为低维表征向量;利用冗余信息剔除算法,对所得低维表征向量、车辆自身状态信息、坡度等工况状态表征进行降维、融合处理,得到低维连续工况信息;构建基于深度强化学习的插电式混合动力车辆能量管理框架,输入低维连续工况信息,完成离线训练;利用训练好的策略控制能量分配,综合考虑了多源高维行驶工况信息对插电式混合动力车辆能量管理效果的影响提供了途径,并可利用强化学习自主学习最优能量分配方案,挖掘其节能潜力。
附图说明
图1是根据本发明所提供的方法的整体流程示意图
图2是对车载视觉信息和交通状态信息进行表征提取的流程示意图
图3是深层神经网络的工况状态与动作价值非线性映射的示意图
图4是对车载视觉信息进行表征提取的示意图
图5是对交通数据信息进行表征提取的示意图
图6是多源高维工况信息降维、融合流程
图7是基于深度强化学习对能量管理模型的训练过程
具体实施方式
下面结合附图对本申请的技术方案做出进一步详尽的阐释。
如图1所示,本发明提供了一种插电式混合动力车辆能量管理方法,具体包括以下步骤:
步骤1、利用深层卷积神经网络以及长短期记忆神经网络分别对车载视觉信息和交通状态信息进行表征提取。
步骤2、对所述步骤1中所提取的所述车载视觉信息和交通状态信息,以及车辆自身状态信息、坡度信息等工况状态表征进行降维、融合处理,得到低维连续型工况状态。
步骤3、将所述步骤2中得到的所述低维连续型工况状态作为输入量,基于深层神经网络构建动作价值函数,建立所述车辆的工况状态与控制动作价值的非线性映射关系。
步骤4、基于所述步骤(3)中构建的所述动作价值函数,确定状态变量、动作变量、反馈奖励、能量管理策略,建立基于深度强化学习插电式混合动力车辆能量管理模型。
步骤5、对所述步骤4中建立的所述能量管理模型进行训练。
步骤6、将训练好策略用于PHEV能量管理。
如图2、4所示,在本申请的一个优选实施例中,所述步骤1所述的利用深层卷积神经网络对车载视觉信息进行表征提取,具体包括以下步骤:
基于深层卷积神经网在其层间使用额外短连接,构建深层卷积残差网络,以解决深层网络梯度弥散的问题,为深层卷积神经网络的训练做准备:
其中in[m,n]表示二维卷积运算的输入;f[m,n]表示卷积核;out[m,n]表示二维卷积运算的输出;hk表示卷积神经网络中某一层第k个特征图谱;Wk表示卷积核权重;bk表示偏置权重,并采用PRELU神经元激活函数;
将构建的深层卷积残差网络,在ImageNet数据库上进行预训练,得到深层卷积神经网络;
将训练所得深层卷积神经网络的用于车载视频图像,得到车载视觉信息表征向量。
如图2、5所示,在本申请的一个优选实施例中,所述步骤1中的所述利用长短期记忆神经网络对交通状态信息进行表征提取,具体包括以下步骤:
根据当前交通状态信息xt,t-1时刻隐向量ht-1,计算长短期记忆神经网络在 t时刻的单元输入:
zt=g(Wzxt+Rzht-1+bz);
计算长短期记忆神经网络在t时刻单元输入门it,以控制单元输入zt对t时刻单元状态ct的影响程度:
it=σ(Wixt+Riht-1+pi⊙ct-1+bi;
计算长短期记忆神经网络在t时刻单元遗忘门ft,以控制单元输入ct-1对t 时刻单元状态ct的影响程度:
ft=σ(Wfxt+Rfht-1+pf⊙ct-1+bf);
计算长短期记忆神经网络在t时刻单元状态:
ct=it⊙zt+ft⊙ct-1);
计算长短期记忆神经网络在t时刻单元输出门ot,控制t时刻单元状态对LSTM 在t+1时刻单元的影响程度:
ot=σ(Woxt+Roht-1+po⊙ct+bo);
计算t时刻单元输出:
ht=ot⊙g(ct)
其中,xt为t时刻的输入向量;W为输入权重矩阵;R为递归权重矩阵;p为状态权重向量;b为偏置权重向量;σ,g均为非线性神经元激活函数,σ为sigmoid 函数,g为tanh函数;⊙指元素积;权重矩阵下标z、i、f、o分别用以区分表示计算单元输入、单元输入门、单元遗忘门、单元输出门的不同权重矩阵。
将每个时间步长的交通状态信息输入长短期记忆神经网络单元,输出工况状态表征向量。
如图6所示,在本申请的一个优选实施例中,所述步骤2中所述的对工况状态表征向量进行降维、融合处理,具体包括以下步骤:
首先把数据统一到同一尺度下,通过L2范数规范化各表征向量,然后级联为一个向量,得到行驶工况状态高维表征向量X;
以X作为输入,使用降噪自编码算法,通过非监督学习方式,最大化输入与隐层表征间的互信息,学习到隐含在高维数据中的低维流形学习结构,实现去噪自编码非监督冗余信息去除及数据降维,得到低维向量Y:指定映射函数为非线性仿射变换,s代表非线性函数,W,b,W′,b′表示映射矩阵和偏置向量,对此映射函数进行优化,实现高维表征向量的冗余信息去除及降维:
其中,为经验样本平均,p(X|Y)为X关于Y的概率分布。
将所得到的低维向量Y当作输入X,重复执行上述方法得到更低维的向量Y,逐层贪婪训练,最终便完成了对该级联向量进行冗余信息剔除及降维处理,得到当前车辆自身及环境状态的低维表征向量,实现多源高维数据的信息融合。
如图3所示,所述步骤4具体包括以下步骤:
建立静态插电式混合动力车辆仿真模型,其输入为电动机和发动机的供能比例,得到当前时刻对应的瞬时油耗,为动作价值计算提供依据,同时也得到下一时刻的车辆自身状态;
将步骤2得到的低维表征向量记为st作为输入量,以能量管理的全部可能动作αt的价值Q(st,αt)作为输出,建立深度价值函数估计神经网络记为Q;所述网络结构为:输入层,其输入维数与状态向量st维数一致;1层卷积层;3层全连接层;输出层,其输出维数与全部动作的数量一致,初始化网络参数为θ;
选择电动机和发动机供能比例作为强化学习的动作变量α;将当前动作αt输入所述仿真模型,得到车辆在当前状态st下执行动作αt的瞬时油耗(L),将每一时刻的瞬时油耗的相反数作为强化学习中的反馈奖赏γt;根据模型仿真结果记录车辆下一时刻自身的状态;重复提取下一时刻的车载视觉信息表征向量和时序交通信息表征向量,并执行降维、融合处理,得到下一时刻车辆自身及环境状态的低维表征向量st+1;
将每一时刻的{st,αt,γt,st+1}作为一个独立样本et进行存储,保存到经验池D中,用于后续网络Q的训练;经验池D中存放的最大样本数量为10000,当实际样本数量超过10000时,不断用最新的样本替换经验池D中最旧的样本;
在状态st下,执行随机过程N,在可行动作空间中随机选择动作。
如图7所示,在本申请的一个优选实施例中,所述步骤5具体包括以下步骤:
设置最大迭代次数n,初始迭代次数i=1;清空经验池D;设定ε-greedy算法中的探索因子ε=1;复制与Q结构、参数均相同的目标网络Q′,其网络参数记为θ′;
把t时刻的状态st输入Q′,得到所有动作的价值Q′(st,αt)。依据ε-greedy算法选择动作:生成一个随机数rand∈(0,1),若rand<ε,则按照随机过程N选择动作αt,否则将选择的动作αt输入PHEV模型,得到反馈奖赏γt;获取下一时刻车辆自身及环境状态的低维表征向量st+1;将t时刻样本 et={st,αt,γt,st+1}存入经验池D中;
重复产生t+1时刻的样本et+1,直到经验池D中样本容量达到最大值, D={e1,e2,...,e10000},执行后续流程;否则,重复用最新的样本替换经验池D中最旧的样本,直到向经验池D内加入1000个新的样本并执行后续步骤;
从经验池D中随机抽取一个小批量的样本,网络Q的训练目标为最小化损失函数L,对于从经验池D中抽取的小批量样本,损失函数计算L为:
其中,γ为折扣系数,表示在下一时刻状态st+1下,以θ′为网络参数的目标网络Q′所有动作价值输出中的最大值;该式表示从经验池D中采样得到小批量经验样本并计算其损失函数。
应用随机梯度下降变种优化算法Adam训练网络,计算网络参数更新梯度:
其中,表示网络的动作价值输出对网络参数的导数。
根据Adam算法确定学习率并更新网络:
其中,α为由Adam算法得出的网络参数更新速率;τ为目标网络学习率(τ<<1)。
更新训练参数,判断训练是否完成,其中迭代次数为i=i+1,更新探索因子
若i>n,则退出训练过程;否则,计算第i次迭代网络Q和网络Q′的参数之差δ=|θ-θ′|,若δ小于某一设定阈值,完成训练,否则重复执行训练过程。
所述步骤6具体包括以下步骤:
获取当前时刻车辆自身及环境状态的低维表征向量s:通过步骤1,利用训练所得深层卷积神经网络得到当前时刻的车载视觉信息表征,利用长短期记忆神经网络得到交通状态信息表征,执行步骤2得到低维表征向量s。
将当前状态s输入神经网络Q,计算作为执行动作,完成当前时刻的插电式混合动力汽车能量分配。
重复上述两个步骤直到控制任务完成。
尽管已经示出和描述了本发明的实施例,对于本领域的普通技术人员而言,可以理解在不脱离本发明的原理和精神的情况下可以对这些实施例进行多种变化、修改、替换和变型,本发明的范围由所附权利要求及其等同物限定。
Claims (6)
1.一种基于深度强化学习的插电式混合动力车辆能量管理方法,其特征在于:
具体包括以下步骤:
步骤1、利用深层卷积神经网络以及长短期记忆神经网络分别对车载视觉信息和交通状态信息进行表征提取;
步骤2、对所述步骤1中所提取的所述车载视觉信息和交通状态信息,以及车辆自身状态信息、坡度信息等工况状态表征进行降维、融合处理,得到低维连续型工况状态;
步骤3、将所述步骤2中得到的所述低维连续型工况状态作为输入量,基于深层神经网络构建动作价值函数,建立所述车辆的工况状态与控制动作价值的非线性映射关系;
步骤4、基于所述步骤(3)中构建的所述动作价值函数,确定状态变量、动作变量、反馈奖励、能量管理策略,建立基于深度强化学习插电式混合动力车辆能量管理模型;
步骤5、对所述步骤4中建立的所述能量管理模型进行训练;
步骤6、训练完毕后,执行相应的能量管理策略。
2.如权利要求1所述的方法,其特征在于:所述步骤1中的利用深层卷积神经网络对车载视觉信息进行表征提取,具体包括以下步骤:
基于深层卷积神经网在其层间使用额外短连接,构建深层卷积残差网络,以解决深层网络梯度弥散的问题,为深层卷积神经网络的训练做准备:
其中in[m,n]表示二维卷积运算的输入;f[m,n]表示卷积核;out[m,n]表示二维卷积运算的输出;hk表示卷积神经网络中某一层第k个特征图谱;Wk表示卷积核权重,x表示状态;bk表示偏置权重,并采用PRELU神经元激活函数;
将构建的深层卷积残差网络,在ImageNet数据库上进行预训练,得到深层卷积神经网络;
将训练所得深层卷积神经网络的用于车载视频图像,得到车载视觉信息表征向量。
3.如权利要求2所述的方法,其特征在于:所述步骤1中的所述利用长短期记忆神经网络对交通状态信息进行表征提取,具体包括以下步骤:
根据当前交通状态信息xt,t-1时刻隐向量ht-1,计算长短期记忆神经网络在t时刻的单元输入:
zt=g(Wzxt+Rzht-1+bz);
计算长短期记忆神经网络在t时刻单元输入门it,以控制单元输入zt对t时刻单元状态ct的影响程度:
it=σ(Wixt+Riht-1+pi⊙ct-1+bi;
计算长短期记忆神经网络在t时刻单元遗忘门ft,以控制单元输入ct-1对t时刻单元状态ct的影响程度:
ft=σ(Wfxt+Rfht-1+pf⊙ct-1+bf);
计算长短期记忆神经网络在t时刻单元状态:
ct=it⊙zt+ft⊙ct-1);
计算长短期记忆神经网络在t时刻单元输出门ot,控制t时刻单元状态对长短期记忆神经网络在t+1时刻单元的影响程度:
ot=σ(Woxt+Roht-1+po⊙ct+bo);
计算t时刻单元输出:
ht=ot⊙g(ct)
其中,xt为t时刻的输入向量;W为输入权重矩阵;R为递归权重矩阵;p为状态权重向量;b为偏置权重向量;σ,g均为非线性神经元激活函数,σ为sigmoid函数,g为tanh函数;⊙指元素积;各权重矩阵下标z、i、f、o分别用以区分表示计算单元输入、单元输入门、单元遗忘门、单元输出门的不同权重矩阵。
将每个时间步长的交通状态信息输入长短期记忆神经网络单元,输出工况状态表征向量。
4.如权利要求3所述的方法,其特征在于:所述步骤2中所述的对工况状态表征向量进行降维、融合处理,具体包括以下步骤:
首先把数据统一到同一尺度下,通过L2范数规范化各表征向量,然后级联为一个向量,得到行驶工况状态高维表征向量X;以X作为输入,使用降噪自编码算法,通过非监督学习方式,最大化输入与隐层表征间的互信息,学习到隐含在高维数据中的低维流形学习结构,实现去噪自编码非监督冗余信息去除及数据降维,得到低维向量Y:指定映射函数为非线性仿射变换,s代表非线性函数,W,b,W’,b’表示映射矩阵和偏置向量,对此映射函数进行优化,实现高维表征向量的冗余信息去除及降维:
其中,为经验样本平均,p(X|Y)为X关于Y的概率分布。
将所得到的低维向量Y当作输入X,重复执行上述方法得到更低维的向量Y,逐层贪婪训练,最终便完成了对该级联向量进行冗余信息剔除及降维处理,得到当前车辆自身及环境状态的低维表征向量,实现多源高维数据的信息融合。
5.如权利要求4所述的方法,其特征在于:建立静态插电式混合动力车辆仿真模型,其输入为电动机和发动机的供能比例,得到当前时刻对应的瞬时油耗,为动作价值计算提供依据,同时也得到下一时刻的车辆自身状态;
将步骤2得到的低维表征向量记为st作为输入量,以能量管理的全部可能动作at的价值Q(st,at)作为输出,建立深度价值函数估计神经网络记为;所述网络结构为:1层输入层,其输入维数与状态向量st维数一致;1层卷积层;3层全连接层;1层输出层,其输出维数与全部动作的数量一致,初始化网络参数为θ;
选择电动机和发动机供能比例作为强化学习的动作变量a;将当前动作at输入所述仿真模型,得到车辆在当前状态st下执行动作at的瞬时油耗,将每一时刻的瞬时油耗的相反数作为强化学习中的反馈奖赏rt;根据模型仿真结果记录车辆下一时刻自身的状态;重复提取下一时刻的车载视觉信息表征向量和时序交通信息表征向量,并执行降维、融合处理,得到下一时刻车辆自身及环境状态的低维表征向量st+1;
将每一时刻的{st,at,rt,st+1}作为一个独立样本et进行存储,保存到经验池D中,用于后续网络Q的训练;经验池D中存放的最大样本数量为10000,当实际样本数量超过10000时,不断用最新的样本替换经验池D中最旧的样本;
在状态st下,执行随机过程N,在可行动作空间中随机选择动作。
6.如权利要求5所述的方法,其特征在于:所述步骤5具体包括以下步骤:
设置最大迭代次数n,初始迭代次数i=1;清空经验池D;设定ε-greedy算法中的探索因子ε=1;复制与Q结构、参数均相同的目标网络Q′,其网络参数记为θ′;
把t时刻的状态st输入Q′,得到所有动作的价值Q′(st,at)。依据ε-greedy算法选择动作:生成一个随机数rand∈(0,1),若rand<ε,则按照随机过程N选择动作at,否则将选择的动作at输入所述仿真模型,得到反馈奖赏rt;获取下一时刻车辆自身及环境状态的低维表征向量st+1;将t时刻样本et={st,at,rt,st+1}存入经验池D中;
重复产生t+1时刻的样本et+1,直到经验池D中样本容量达到最大值,D={e1,e2,...,e10000},执行后续流程;否则,重复用最新的样本替换经验池D中最旧的样本,直到向经验池D内加入1000个新的样本并执行后续步骤;
从经验池D中随机抽取一个小批量的样本,网络Q的训练目标为最小化损失函数L,对于从经验池D中抽取的小批量样本,损失函数计算L为:
其中,γ为折扣系数,表示在下一时刻状态st+1下,以θ′为网络参数的目标网络Q′所有动作价值输出中的最大值;该式表示从经验池D中采样得到小批量经验样本并计算其损失函数;
应用随机梯度下降变种优化算法Adam训练网络,计算网络参数更新梯度:
其中,表示网络的动作价值输出对网络参数的导数;
根据Adam算法确定学习率并更新网络:
其中,α为由Adam算法得出的网络参数更新速率;τ为目标网络学习率(τ<<1)。
更新训练参数,判断训练是否完成,其中迭代次数为i=i+1,更新探索因子
若i>n,则退出训练过程;否则,计算第i次迭代网络Q和网络Q′的参数之差δ=|θ-θ′|,若δ小于某一设定阈值,完成训练,否则重复执行训练过程。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810003466.5A CN108427985B (zh) | 2018-01-02 | 2018-01-02 | 一种基于深度强化学习的插电式混合动力车辆能量管理方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810003466.5A CN108427985B (zh) | 2018-01-02 | 2018-01-02 | 一种基于深度强化学习的插电式混合动力车辆能量管理方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN108427985A true CN108427985A (zh) | 2018-08-21 |
CN108427985B CN108427985B (zh) | 2020-05-19 |
Family
ID=63155877
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201810003466.5A Active CN108427985B (zh) | 2018-01-02 | 2018-01-02 | 一种基于深度强化学习的插电式混合动力车辆能量管理方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN108427985B (zh) |
Cited By (27)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110221611A (zh) * | 2019-06-11 | 2019-09-10 | 北京三快在线科技有限公司 | 一种轨迹跟踪控制方法、装置及无人驾驶车辆 |
CN110221610A (zh) * | 2019-06-10 | 2019-09-10 | 吉林大学 | 无人驾驶工程机械的智能化作业系统及作业方法 |
CN110341690A (zh) * | 2019-07-22 | 2019-10-18 | 北京理工大学 | 一种基于确定性策略梯度学习的phev能量管理方法 |
CN110363295A (zh) * | 2019-06-28 | 2019-10-22 | 电子科技大学 | 一种基于dqn的智能车多车道换道方法 |
CN110472800A (zh) * | 2019-08-23 | 2019-11-19 | 山东浪潮通软信息科技有限公司 | 一种基于lstm+cnn的机床刀具剩余寿命预测方法 |
CN110706374A (zh) * | 2019-10-10 | 2020-01-17 | 南京地平线机器人技术有限公司 | 运动状态预测方法、装置、电子设备及车辆 |
CN110705797A (zh) * | 2019-10-09 | 2020-01-17 | 浙江海洋大学 | 一种基于船舶传感网的船舶油耗数据预测方法 |
CN110852482A (zh) * | 2019-10-15 | 2020-02-28 | 江苏大学 | 一种燃料电池公交车实时全局优化智能控制系统及方法 |
CN111191529A (zh) * | 2019-12-17 | 2020-05-22 | 中移(杭州)信息技术有限公司 | 一种处理异常工单的方法及系统 |
CN111259917A (zh) * | 2020-02-20 | 2020-06-09 | 西北工业大学 | 一种基于局部近邻成分分析的图像特征提取方法 |
CN111267830A (zh) * | 2020-02-10 | 2020-06-12 | 南京航空航天大学 | 一种混合动力公交车能量管理方法、设备和存储介质 |
CN111367172A (zh) * | 2020-02-28 | 2020-07-03 | 华南理工大学 | 一种基于逆向深度强化学习的混动系统能量管理策略 |
CN111898211A (zh) * | 2020-08-07 | 2020-11-06 | 吉林大学 | 基于深度强化学习的智能车速度决策方法及其仿真方法 |
CN111891113A (zh) * | 2020-08-11 | 2020-11-06 | 北京理工大学 | 混合动力车辆的信息物理能量优化控制系统及其控制方法 |
CN112215328A (zh) * | 2020-10-29 | 2021-01-12 | 腾讯科技(深圳)有限公司 | 一种智能体的训练、基于智能体的动作控制方法及装置 |
CN112287463A (zh) * | 2020-11-03 | 2021-01-29 | 重庆大学 | 一种基于深度强化学习算法的燃料电池汽车能量管理方法 |
CN112329921A (zh) * | 2020-11-11 | 2021-02-05 | 浙江大学 | 基于深度表征学习和强化学习的利尿剂剂量推理设备 |
CN112488452A (zh) * | 2020-11-06 | 2021-03-12 | 中国电子科技集团公司第十八研究所 | 一种基于深度强化学习的能源系统管理多时间尺度最优决策方法 |
CN112498334A (zh) * | 2020-12-15 | 2021-03-16 | 清华大学 | 智能网联混合动力汽车的鲁棒能量管理方法及系统 |
CN112905591A (zh) * | 2021-02-04 | 2021-06-04 | 成都信息工程大学 | 一种基于机器学习的数据表连接顺序选择方法 |
US20210179062A1 (en) * | 2019-12-13 | 2021-06-17 | Hyundai Motor Company | Hybrid vehicle and method of controlling the same |
WO2021114167A1 (zh) * | 2019-12-12 | 2021-06-17 | 中国科学院深圳先进技术研究院 | 一种汽车能量管理策略的验证方法和设备 |
CN113110052A (zh) * | 2021-04-15 | 2021-07-13 | 浙大宁波理工学院 | 一种基于神经网络和强化学习的混合能量管理方法 |
CN113859219A (zh) * | 2021-11-15 | 2021-12-31 | 重庆大学 | 基于驾驶工况识别的混合动力汽车自适应能量管理方法 |
CN113997926A (zh) * | 2021-11-30 | 2022-02-01 | 江苏浩峰汽车附件有限公司 | 基于分层强化学习的并联式混合动力汽车能量管理方法 |
CN118074806A (zh) * | 2024-04-22 | 2024-05-24 | 中国电建集团江西省电力设计院有限公司 | 一种基于机器学习的光放大器增益调节方法及设备 |
CN118195836A (zh) * | 2024-05-14 | 2024-06-14 | 数安在线(北京)信息技术有限公司 | 基于机器学习的新能源汽车电能管理方法及系统 |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
EP4250272A4 (en) * | 2020-12-25 | 2024-01-17 | NEC Corporation | DRIVING EVALUATION SYSTEM, LEARNING DEVICE, EVALUATION RESULTS GENERATION DEVICE, METHOD AND PROGRAM |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR20140024651A (ko) * | 2012-08-20 | 2014-03-03 | 에스케이플래닛 주식회사 | 에코 주행을 위한 운전정보 제공 방법, 이를 위한 시스템, 이를 위한 단말기 및 이를 위한 서비스장치 |
CN104648379A (zh) * | 2015-02-11 | 2015-05-27 | 浙江大学 | 一种混合动力公交车在线自学习能量管理方法 |
CN105216782A (zh) * | 2015-09-30 | 2016-01-06 | 上海凌翼动力科技有限公司 | 基于能量预测的插电式混合动力汽车能量管理方法 |
-
2018
- 2018-01-02 CN CN201810003466.5A patent/CN108427985B/zh active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR20140024651A (ko) * | 2012-08-20 | 2014-03-03 | 에스케이플래닛 주식회사 | 에코 주행을 위한 운전정보 제공 방법, 이를 위한 시스템, 이를 위한 단말기 및 이를 위한 서비스장치 |
CN104648379A (zh) * | 2015-02-11 | 2015-05-27 | 浙江大学 | 一种混合动力公交车在线自学习能量管理方法 |
CN105216782A (zh) * | 2015-09-30 | 2016-01-06 | 上海凌翼动力科技有限公司 | 基于能量预测的插电式混合动力汽车能量管理方法 |
Non-Patent Citations (1)
Title |
---|
DLDIGEST: "ConvLSTM原理及其TensorFlow实现", 《深度学习每日摘要》 * |
Cited By (39)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110221610A (zh) * | 2019-06-10 | 2019-09-10 | 吉林大学 | 无人驾驶工程机械的智能化作业系统及作业方法 |
CN110221611B (zh) * | 2019-06-11 | 2020-09-04 | 北京三快在线科技有限公司 | 一种轨迹跟踪控制方法、装置及无人驾驶车辆 |
CN110221611A (zh) * | 2019-06-11 | 2019-09-10 | 北京三快在线科技有限公司 | 一种轨迹跟踪控制方法、装置及无人驾驶车辆 |
CN110363295A (zh) * | 2019-06-28 | 2019-10-22 | 电子科技大学 | 一种基于dqn的智能车多车道换道方法 |
CN110341690B (zh) * | 2019-07-22 | 2020-08-04 | 北京理工大学 | 一种基于确定性策略梯度学习的phev能量管理方法 |
CN110341690A (zh) * | 2019-07-22 | 2019-10-18 | 北京理工大学 | 一种基于确定性策略梯度学习的phev能量管理方法 |
CN110472800A (zh) * | 2019-08-23 | 2019-11-19 | 山东浪潮通软信息科技有限公司 | 一种基于lstm+cnn的机床刀具剩余寿命预测方法 |
CN110705797A (zh) * | 2019-10-09 | 2020-01-17 | 浙江海洋大学 | 一种基于船舶传感网的船舶油耗数据预测方法 |
CN110705797B (zh) * | 2019-10-09 | 2023-09-22 | 浙江海洋大学 | 一种基于船舶传感网的船舶油耗数据预测方法 |
CN110706374A (zh) * | 2019-10-10 | 2020-01-17 | 南京地平线机器人技术有限公司 | 运动状态预测方法、装置、电子设备及车辆 |
CN110852482A (zh) * | 2019-10-15 | 2020-02-28 | 江苏大学 | 一种燃料电池公交车实时全局优化智能控制系统及方法 |
WO2021073036A1 (zh) * | 2019-10-15 | 2021-04-22 | 江苏大学 | 一种燃料电池公交车实时全局优化智能控制系统及方法 |
WO2021114167A1 (zh) * | 2019-12-12 | 2021-06-17 | 中国科学院深圳先进技术研究院 | 一种汽车能量管理策略的验证方法和设备 |
US20210179062A1 (en) * | 2019-12-13 | 2021-06-17 | Hyundai Motor Company | Hybrid vehicle and method of controlling the same |
CN111191529B (zh) * | 2019-12-17 | 2023-04-28 | 中移(杭州)信息技术有限公司 | 一种处理异常工单的方法及系统 |
CN111191529A (zh) * | 2019-12-17 | 2020-05-22 | 中移(杭州)信息技术有限公司 | 一种处理异常工单的方法及系统 |
CN111267830A (zh) * | 2020-02-10 | 2020-06-12 | 南京航空航天大学 | 一种混合动力公交车能量管理方法、设备和存储介质 |
CN111259917A (zh) * | 2020-02-20 | 2020-06-09 | 西北工业大学 | 一种基于局部近邻成分分析的图像特征提取方法 |
CN111367172B (zh) * | 2020-02-28 | 2021-09-21 | 华南理工大学 | 一种基于逆向深度强化学习的混动系统能量管理策略 |
CN111367172A (zh) * | 2020-02-28 | 2020-07-03 | 华南理工大学 | 一种基于逆向深度强化学习的混动系统能量管理策略 |
CN111898211A (zh) * | 2020-08-07 | 2020-11-06 | 吉林大学 | 基于深度强化学习的智能车速度决策方法及其仿真方法 |
CN111891113A (zh) * | 2020-08-11 | 2020-11-06 | 北京理工大学 | 混合动力车辆的信息物理能量优化控制系统及其控制方法 |
CN112215328B (zh) * | 2020-10-29 | 2024-04-05 | 腾讯科技(深圳)有限公司 | 一种智能体的训练、基于智能体的动作控制方法及装置 |
CN112215328A (zh) * | 2020-10-29 | 2021-01-12 | 腾讯科技(深圳)有限公司 | 一种智能体的训练、基于智能体的动作控制方法及装置 |
CN112287463A (zh) * | 2020-11-03 | 2021-01-29 | 重庆大学 | 一种基于深度强化学习算法的燃料电池汽车能量管理方法 |
CN112488452A (zh) * | 2020-11-06 | 2021-03-12 | 中国电子科技集团公司第十八研究所 | 一种基于深度强化学习的能源系统管理多时间尺度最优决策方法 |
CN112329921A (zh) * | 2020-11-11 | 2021-02-05 | 浙江大学 | 基于深度表征学习和强化学习的利尿剂剂量推理设备 |
CN112329921B (zh) * | 2020-11-11 | 2023-11-14 | 浙江大学 | 基于深度表征学习和强化学习的利尿剂剂量推理设备 |
CN112498334A (zh) * | 2020-12-15 | 2021-03-16 | 清华大学 | 智能网联混合动力汽车的鲁棒能量管理方法及系统 |
CN112905591B (zh) * | 2021-02-04 | 2022-08-26 | 成都信息工程大学 | 一种基于机器学习的数据表连接顺序选择方法 |
CN112905591A (zh) * | 2021-02-04 | 2021-06-04 | 成都信息工程大学 | 一种基于机器学习的数据表连接顺序选择方法 |
CN113110052B (zh) * | 2021-04-15 | 2022-07-26 | 浙大宁波理工学院 | 一种基于神经网络和强化学习的混合能量管理方法 |
CN113110052A (zh) * | 2021-04-15 | 2021-07-13 | 浙大宁波理工学院 | 一种基于神经网络和强化学习的混合能量管理方法 |
CN113859219A (zh) * | 2021-11-15 | 2021-12-31 | 重庆大学 | 基于驾驶工况识别的混合动力汽车自适应能量管理方法 |
CN113859219B (zh) * | 2021-11-15 | 2024-07-05 | 重庆大学 | 基于驾驶工况识别的混合动力汽车自适应能量管理方法 |
CN113997926A (zh) * | 2021-11-30 | 2022-02-01 | 江苏浩峰汽车附件有限公司 | 基于分层强化学习的并联式混合动力汽车能量管理方法 |
CN118074806A (zh) * | 2024-04-22 | 2024-05-24 | 中国电建集团江西省电力设计院有限公司 | 一种基于机器学习的光放大器增益调节方法及设备 |
CN118195836A (zh) * | 2024-05-14 | 2024-06-14 | 数安在线(北京)信息技术有限公司 | 基于机器学习的新能源汽车电能管理方法及系统 |
CN118195836B (zh) * | 2024-05-14 | 2024-08-09 | 青海绿草地新能源科技有限公司 | 基于机器学习的新能源汽车电能管理方法及系统 |
Also Published As
Publication number | Publication date |
---|---|
CN108427985B (zh) | 2020-05-19 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108427985B (zh) | 一种基于深度强化学习的插电式混合动力车辆能量管理方法 | |
Alaloul et al. | Data processing using artificial neural networks | |
WO2020176297A1 (en) | Artificial neural network compression via iterative hybrid reinforcement learning approach | |
EP3788549B1 (en) | Stacked convolutional long short-term memory for model-free reinforcement learning | |
CN109242212A (zh) | 一种基于变模式分解与长短记忆网络的风电预测方法 | |
CN109726676B (zh) | 自动驾驶系统的规划方法 | |
Cuccu et al. | Intrinsically motivated neuroevolution for vision-based reinforcement learning | |
CN110716575A (zh) | 基于深度双q网络强化学习的uuv实时避碰规划方法 | |
Zhao et al. | Aspw-drl: assembly sequence planning for workpieces via a deep reinforcement learning approach | |
DE102023207516A1 (de) | Systeme und Verfahren zur Experten-geführten Halbüberwachung mit Contrastive Loss für Maschinenlernmodelle | |
Lin et al. | Composite adaptive online inverse optimal control approach to human behavior learning | |
Ji et al. | Competitive decomposition-based multiobjective architecture search for the dendritic neural model | |
CN117252105B (zh) | 一种在线类增量连续学习的对比多级回放方法及组件 | |
CN114219066A (zh) | 基于瓦瑟斯坦距离的无监督强化学习方法及装置 | |
DE102023210854A1 (de) | Merkmalsextraktor für ein neuronales Netzwerk für Actor-Critic-Reinforcement-Learning-Modelle | |
CN109190692A (zh) | 基于生物大脑认知和抉择机理的运动物体识别方法及系统 | |
CN117787585A (zh) | 一种数据驱动的充电桩数量的预测方法、装置 | |
Wei et al. | A bayesian approach to robust inverse reinforcement learning | |
Rahman et al. | Implementation of artificial neural network on regression analysis | |
Saleem et al. | Optimizing Steering Angle Predictive Convolutional Neural Network for Autonomous Car. | |
CN116360435A (zh) | 基于情节记忆的多智能体协同策略的训练方法和系统 | |
Yoo et al. | Virtual data-based generative optimization using domain-adaptive designable data augmentation (DADDA): Application to electric vehicle design | |
CN114298302A (zh) | 智能体任务学习方法及装置 | |
Rastegarpanah et al. | Hyperparameter-optimized CNN and CNN-LSTM for Predicting the Remaining Useful Life of Lithium-Ion Batteries | |
CN115688557A (zh) | 无人车辆智能跟踪控制方法、系统、设备和介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |