CN111547039A - 基于深度强化学习的混合动力车辆油门控制方法及系统 - Google Patents

基于深度强化学习的混合动力车辆油门控制方法及系统 Download PDF

Info

Publication number
CN111547039A
CN111547039A CN202010401009.9A CN202010401009A CN111547039A CN 111547039 A CN111547039 A CN 111547039A CN 202010401009 A CN202010401009 A CN 202010401009A CN 111547039 A CN111547039 A CN 111547039A
Authority
CN
China
Prior art keywords
vehicle
neural network
data segment
state quantity
determining
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202010401009.9A
Other languages
English (en)
Other versions
CN111547039B (zh
Inventor
邹渊
张旭东
孙逢春
邹润楠
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Institute of Technology BIT
Original Assignee
Beijing Institute of Technology BIT
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Institute of Technology BIT filed Critical Beijing Institute of Technology BIT
Priority to CN202010401009.9A priority Critical patent/CN111547039B/zh
Publication of CN111547039A publication Critical patent/CN111547039A/zh
Application granted granted Critical
Publication of CN111547039B publication Critical patent/CN111547039B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • BPERFORMING OPERATIONS; TRANSPORTING
    • B60VEHICLES IN GENERAL
    • B60WCONJOINT CONTROL OF VEHICLE SUB-UNITS OF DIFFERENT TYPE OR DIFFERENT FUNCTION; CONTROL SYSTEMS SPECIALLY ADAPTED FOR HYBRID VEHICLES; ROAD VEHICLE DRIVE CONTROL SYSTEMS FOR PURPOSES NOT RELATED TO THE CONTROL OF A PARTICULAR SUB-UNIT
    • B60W20/00Control systems specially adapted for hybrid vehicles
    • BPERFORMING OPERATIONS; TRANSPORTING
    • B60VEHICLES IN GENERAL
    • B60WCONJOINT CONTROL OF VEHICLE SUB-UNITS OF DIFFERENT TYPE OR DIFFERENT FUNCTION; CONTROL SYSTEMS SPECIALLY ADAPTED FOR HYBRID VEHICLES; ROAD VEHICLE DRIVE CONTROL SYSTEMS FOR PURPOSES NOT RELATED TO THE CONTROL OF A PARTICULAR SUB-UNIT
    • B60W50/00Details of control systems for road vehicle drive control not related to the control of a particular sub-unit, e.g. process diagnostic or vehicle driver interfaces
    • BPERFORMING OPERATIONS; TRANSPORTING
    • B60VEHICLES IN GENERAL
    • B60WCONJOINT CONTROL OF VEHICLE SUB-UNITS OF DIFFERENT TYPE OR DIFFERENT FUNCTION; CONTROL SYSTEMS SPECIALLY ADAPTED FOR HYBRID VEHICLES; ROAD VEHICLE DRIVE CONTROL SYSTEMS FOR PURPOSES NOT RELATED TO THE CONTROL OF A PARTICULAR SUB-UNIT
    • B60W50/00Details of control systems for road vehicle drive control not related to the control of a particular sub-unit, e.g. process diagnostic or vehicle driver interfaces
    • B60W2050/0001Details of the control system
    • B60W2050/0019Control system elements or transfer functions
    • B60W2050/0028Mathematical models, e.g. for simulation
    • B60W2050/0031Mathematical model of the vehicle
    • BPERFORMING OPERATIONS; TRANSPORTING
    • B60VEHICLES IN GENERAL
    • B60WCONJOINT CONTROL OF VEHICLE SUB-UNITS OF DIFFERENT TYPE OR DIFFERENT FUNCTION; CONTROL SYSTEMS SPECIALLY ADAPTED FOR HYBRID VEHICLES; ROAD VEHICLE DRIVE CONTROL SYSTEMS FOR PURPOSES NOT RELATED TO THE CONTROL OF A PARTICULAR SUB-UNIT
    • B60W2710/00Output or target parameters relating to a particular sub-units
    • B60W2710/06Combustion engines, Gas turbines
    • B60W2710/0605Throttle position

Landscapes

  • Engineering & Computer Science (AREA)
  • Automation & Control Theory (AREA)
  • Transportation (AREA)
  • Mechanical Engineering (AREA)
  • Human Computer Interaction (AREA)
  • Combined Controls Of Internal Combustion Engines (AREA)
  • Feedback Control In General (AREA)

Abstract

本发明涉及一种基于深度强化学习的混合动力车辆油门控制方法及系统,包括:获取车辆上一时刻的状态量,记第一状态量;根据第一状态量采用深度神经网络确定当前时刻油门控制量,记第一油门控制量;深度神经网络中包括归一化优势函数;根据第一油门控制量控制车辆的油门;将第一油门控制量输入到车辆的动力学模型中,得当前时刻的状态量,记第二状态量;根据第一状态量、第一油门控制量和第二状态量确定数据段;直至获取T个连续时刻的数据段;根据各数据段对深度神经网络中的权值进行调节,得更新后的深度神经网络,采用更新后的深度神经网络确定当前时刻油门控制量,从而精确的对车辆油门进行控制,通过本发明的上述方法提高了对油门的精度控制。

Description

基于深度强化学习的混合动力车辆油门控制方法及系统
技术领域
本发明涉及汽车油门控制技术领域,特别是涉及一种基于深度强化学习的混合动力车辆油门控制方法及系统。
背景技术
目前,针对混合动力汽车油门控制问题的主要解决方案有基于规则的方法和以动态规划、强化学习为代表的基于优化的方法。基于规则的方法需要提前知道工程师预设发动机及电池工作模式切换规则,因此对于复杂多变的路况缺乏适应性,难以实现混合动力车辆节能性及高机动性。基于深度强化学习的油门控制方法能有效学习道路工况信息,针对已获取道路信息通过神经网络的训练求得最优策略。但是传统深度强化学习训练中,常将已训练过数据片段储存于经验池中,在训练中随机提取进行再训练以打破数据相关性,随机提取历史经验片段使得训练时间较长且伴随有陷入局部最优解的风险,从而获取的控制量精度低。
发明内容
本发明的目的是提供一种基于深度强化学习的混合动力车辆油门控制方法及系统,提高油门控制精度。
为实现上述目的,本发明提供了如下方案:
一种基于深度强化学习的混合动力车辆油门控制方法,所述混合动力车辆油门控制方法包括:
S1,获取车辆上一时刻的状态量,记为第一状态量;
S2,根据所述第一状态量采用深度神经网络确定当前时刻油门控制量,记为第一油门控制量;所述深度神经网络中包括归一化优势函数;
S3,根据所述第一油门控制量控制车辆的油门;
S4,获取车辆的动力学模型;
S5,将所述第一油门控制量输入到所述车辆的动力学模型中,得到当前时刻的状态量,记为第二状态量;
S6,根据所述第一状态量、所述第一油门控制量和所述第二状态量确定数据段;重复S1至S6直至获取T个连续时刻的数据段;
S7,根据各所述数据段对深度神经网络中的权值进行调节,得到更新后的深度神经网络;并返回S2,采用所述更新后的深度神经网络确定当前时刻油门控制量。
可选的,所述根据各所述数据段对深度神经网络中的权值进行调节,得到更新后的深度神经网络,具体包括:
根据所述数据段获取所述数据段对应的取值概率;
根据所述取值概率确定数据段权值;
根据所述车辆的动力学模型,采用深度强化学习奖励函数确定数据段所对应的奖励;
根据所述奖励和所述数据段权值确定数据段损失;
根据所述数据段损失调节所述深度神经网络中的权值,得到更新后的深度神经网络。
可选的,所述根据所述车辆的动力学模型,采用深度强化学习奖励函数确定数据段所对应的奖励,具体包括:
根据公式
Figure BDA0002489476960000021
确定数据段所对应的奖励;
其中,R(s,a)为车辆在状态量s下进行a动作所得的奖励,α,β均为正参数,
Figure BDA0002489476960000022
为车辆发动机燃油消耗率,[t0,t]为车辆工作时间段,
Figure BDA0002489476960000023
为t0时刻电池荷电状态变化率,
Figure BDA0002489476960000024
为t时刻电池荷电状态变化率。
可选的,所述归一化优势函数为:
Figure BDA0002489476960000025
其中,s为车辆状态量,a为油门控制量,μ为在状态量s下的最优动作,P(s|θP)=L(s|θP)L(s|θP)T,A(·)为归一化优势函数,θA为归一化优势函数,θP为矩阵P的参数,θμ为μ的参数,L(·)为下三角矩阵。
一种基于深度强化学习的混合动力车辆油门控制系统,所述混合动力车辆油门控制系统包括:
第一状态量获取模块,用于获取车辆上一时刻的状态量,记为第一状态量;
第一油门控制量确定模块,用于根据所述第一状态量采用深度神经网络确定当前时刻油门控制量,记为第一油门控制量;所述深度神经网络中包括归一化优势函数;
车辆油门控制模块,用于根据所述第一油门控制量控制车辆的油门;
车辆的动力学模型获取模块,用于获取车辆的动力学模型;
第二状态量确定模块,用于将所述第一油门控制量输入到所述车辆的动力学模型中,得到当前时刻的状态量,记为第二状态量;
数据段获取模块,用于根据所述第一状态量、所述第一油门控制量和所述第二状态量确定数据段;直至获取T个连续时刻的数据段;
深度神经网络更新模块,用于根据各所述数据段对深度神经网络中的权值进行调节,得到更新后的深度神经网络;并返回所述第一油门控制量确定模块,采用所述更新后的深度神经网络确定当前时刻油门控制量。
可选的,所述深度神经网络更新模块具体包括:
取值概率获取单元,用于根据所述数据段获取所述数据段对应的取值概率;
数据段权值确定单元,用于根据所述取值概率确定数据段权值;
奖励确定单元,用于根据所述车辆的动力学模型,采用深度强化学习奖励函数确定数据段所对应的奖励;
数据段损失确定单元,用于根据所述奖励和所述数据段权值确定数据段损失;
深度神经网络更新单元,用于根据所述数据段损失调节所述深度神经网络中的权值,得到更新后的深度神经网络。
可选的,所述奖励确定单元具体包括:
奖励确定子单元,用于根据公式
Figure BDA0002489476960000031
确定数据段所对应的奖励;
其中,R(s,a)为车辆在状态量s下进行a动作所得的奖励,α,β均为正参数,
Figure BDA0002489476960000032
为车辆发动机燃油消耗率,[t0,t]为车辆工作时间段,
Figure BDA0002489476960000033
为t0时刻电池荷电状态变化率,
Figure BDA0002489476960000034
为t时刻电池荷电状态变化率。
可选的,所述归一化优势函数为:
Figure BDA0002489476960000041
其中,s为车辆状态量,a为油门控制量,μ为在状态量s下的最优动作,P(s|θP)=L(s|θP)L(s|θP)T,A(·)为归一化优势函数,θA为归一化优势函数,θP为矩阵P的参数,θμ为μ的参数,L(·)为下三角矩阵。
根据本发明提供的具体实施例,本发明公开了以下技术效果:
本发明提供了一种基于深度强化学习的混合动力车辆油门控制方法机系统,将混合动力车辆状态量输入至深度神经网络中,利用归一化优势函数及经验优先权值回顾对深度神经网络中的权值进行调节,采用更新后的深度神经网络得到高精度控制量,提高对油门的精确控制。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1为本发明所提供的一种基于深度强化学习的混合动力车辆油门控制方法流程图;
图2为本发明所提供的一种基于深度强化学习的混合动力车辆油门控制系统的结构示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本发明的目的是提供一种基于深度强化学习的混合动力车辆油门控制方法及系统,提高油门控制精度。
为使本发明的上述目的、特征和优点能够更加明显易懂,下面结合附图和具体实施方式对本发明作进一步详细的说明。
图1为本发明所提供的一种基于深度强化学习的混合动力车辆油门控制方法流程图,如图1所示,本发明所述混合动力车辆油门控制方法包括:
S1,获取车辆上一时刻的状态量,记为第一状态量。
S2,根据所述第一状态量采用深度神经网络确定当前时刻油门控制量,记为第一油门控制量;所述深度神经网络中包括归一化优势函数。
S3,根据所述第一油门控制量控制车辆的油门。
S4,获取车辆的动力学模型。
S5,将所述第一油门控制量输入到所述车辆的动力学模型中,得到当前时刻的状态量,记为第二状态量。
S6,根据所述第一状态量、所述第一油门控制量和所述第二状态量确定数据段;重复S1至S6直至获取T个连续时刻的数据段。
S7,根据各所述数据段对深度神经网络中的权值进行调节,得到更新后的深度神经网络;并返回S2,采用所述更新后的深度神经网络确定当前时刻油门控制量。
所述根据各所述数据段对深度神经网络中的权值进行调节,得到更新后的深度神经网络,具体包括:根据所述数据段获取所述数据段对应的取值概率;根据所述取值概率确定数据段权值;根据所述车辆的动力学模型,采用深度强化学习奖励函数确定数据段所对应的奖励;根据所述奖励和所述数据段权值确定数据段损失;根据所述数据段损失调节所述深度神经网络中的权值,得到更新后的深度神经网络。具体的,根据公式
Figure BDA0002489476960000051
确定数据段所对应的奖励,其中,R(s,a)为车辆在状态量s下进行a动作所得的奖励,α,β均为正参数,α+β=1,
Figure BDA0002489476960000052
为车辆发动机燃油消耗率,[t0,t]为车辆工作时间段,
Figure BDA0002489476960000053
为t0时刻电池荷电状态变化率,
Figure BDA0002489476960000054
为t时刻电池荷电状态变化率。
所述归一化优势函数为:
Figure BDA0002489476960000055
其中,s为车辆状态量,a为油门控制量,μ为在状态量s下的最优动作,P(s|θP)=L(s|θP)L(s|θP)T,A(·)为归一化优势函数,θA为归一化优势函数,θP为矩阵P的参数,θμ为μ的参数,L(·)为下三角矩阵。
下面对各步骤进行详细论述:
根据所使用车辆搭建车辆的动力学模型:根据所使用混合动力车辆底盘构型、能源动力装置及传动装置进行数学建模,基于python建立车辆动力学模型及车辆各组件数学模型。一般地,建立发动机-发电机模型、动力电池模型、电气驱动系统模型及整车综合控制模型。根据车辆模型确定能量管理状态变量、反馈奖励及控制量,确定发动机转速、电池荷电状态及整车需求功率为能量管理状态变量,具有变速器的车辆将挡位加入状态变量。
搭建具有估值网络和评价网络的深度神经网络。
根据已确定的状态量确定深度强化学习奖励函数:
Figure BDA0002489476960000061
搭建包含有两个隐含层一个输出层的深度神经网络,每个网络中都包含有激活函数,输出层中经过先行激活函数处理,分别输出状态动作值,系统控制量μ和归一化优势函数构造下三角矩阵L(s)。此下三角矩阵由神经网络计算得出。估值网络和目标网络结构一致,目标网络参数值由估值网络延迟复制得来。
基于深度神经网络搭建归一化优势函数。
基于估值深度神经网络输出量,为实现深度强化学习模型直接训练得到控制量,减少运算时间且提高控制精度,搭建归一化优势函数:
Figure BDA0002489476960000062
其中,s为车辆状态量,a为油门控制量即油门开度,μ为估值网络在状态量s下的最优动作,P(s|θP)=L(s|θP)L(s|θP)T,A(·)为归一化优势函数,θA为归一化优势函数,θP为矩阵P的参数,θμ为μ的参数,L(·)为下三角矩阵,P为关于系统状态的正定方阵,当a=μ时,此函数取得最大值,构造正定矩阵P基于正定矩阵唯一Cholesky分解,其中L(·)为下三角矩阵,由估值神经网络输出。
将深度神经网络输出输入至搭建好的归一化优势函数,可得混合动力车辆油门控制量,a=μ。
基于深度神经网络结构搭建经验权值优先回顾模型。
搭建SumTree结构储存历史经验数据即N个连续的数据段,历史经验数据为多个数据段的存储空间,每一个数据段(经验)形式为(St-1,at,St),其中St-1为t-1时刻状态,经过t时刻油门at的控制,混合动力车辆状态转移至St
给予经验池中各数据段取值概率P(j):
Figure BDA0002489476960000071
其中,
Figure BDA0002489476960000072
Figure BDA0002489476960000073
均为各数据段优先值。
计算数据段权值:ωj=(N·P(j))-β/maxiωi,其中,N为经验数量,0<N<256,β=1,maxiwi为wi中取值最大。
计算数据段的TD-error:
Figure BDA0002489476960000074
其中,δj为TD-error即数据段损失,Rj为该数据段在环境中应用后所得奖励,
Figure BDA0002489476960000075
为目标网络计算所得Q值,Q(Sj,Aj)为估值网络计算所得Q值,γj为折扣因子,一个关于期望的常数,在0~1之间,越靠近1就理解为当前结果对最终结果影响越大,Sj为第j个数据段的状态,Aj第j个数据段的动作。
计算数据段优先值:p(j)=|δj|0.5
根据数据段权值及TD-error计算深度神经网络权值改变量Δt
Figure BDA0002489476960000076
Figure BDA0002489476960000077
为关于theta的梯度。
更新深度神经网络权值θ:θt=θt-1+η·Δt,其中,Δt为深度神经网络权值改变量。
通过定期经验权值优先回顾及网络更新,输出油门控制量,当通过多次迭代,油门控制量收敛(训练变化不大)时,训练完成。具体的,初始化经验池内存空间h,每次回顾数据段大小为n,经验回顾周期Tr,即T个连续时刻,最大训练次数Mmax,随机初始化归一化估值网络参数,初始化目标网络权重参数,初始化学习率η。
针对目标工况时间t,得到此时混合动力车辆状态量st,将状态量输入进深度神经网络得到控制量at。将控制量输入至混合动力车辆模型得到奖励Rt及下一时刻状态量st+1。将此状态量存入经验池并计算其取值概率Pt
每过Tr时刻,进入经验回顾模式,更新深度神经网络中的权值。
将更新后的深度神经网络用于混合动力车辆能量管理。获取当前车辆工况信息,采用更新后的深度神经网络确定当前时刻油门控制量,得到混合动力车辆能量管理策略。指的是针对一个工况,一个系列的油门控制量,是一个数组。
本发明还提供了一种基于深度强化学习的混合动力车辆油门控制系统,如图2所示,所述混合动力车辆油门控制系统包括:
第一状态量获取模块1,用于获取车辆上一时刻的状态量,记为第一状态量。
第一油门控制量确定模块2,用于根据所述第一状态量采用深度神经网络确定当前时刻油门控制量,记为第一油门控制量;所述深度神经网络中包括归一化优势函数。
车辆油门控制模块3,用于根据所述第一油门控制量控制车辆的油门。
车辆的动力学模型获取模块4,用于获取车辆的动力学模型。
第二状态量确定模块5,用于将所述第一油门控制量输入到所述车辆的动力学模型中,得到当前时刻的状态量,记为第二状态量。
数据段获取模块6,用于根据所述第一状态量、所述第一油门控制量和所述第二状态量确定数据段;直至获取T个连续时刻的数据段。
深度神经网络更新模块7,用于根据各所述数据段对深度神经网络中的权值进行调节,得到更新后的深度神经网络;并返回所述第一油门控制量确定模块2,采用所述更新后的深度神经网络确定当前时刻油门控制量。
优选的,所述深度神经网络更新模块7具体包括:
取值概率获取单元,用于根据所述数据段获取所述数据段对应的取值概率。
数据段权值确定单元,用于根据所述取值概率确定数据段权值。
奖励确定单元,用于根据所述车辆的动力学模型,采用深度强化学习奖励函数确定数据段所对应的奖励。
数据段损失确定单元,用于根据所述奖励和所述数据段权值确定数据段损失。
深度神经网络更新单元,用于根据所述数据段损失调节所述深度神经网络中的权值,得到更新后的深度神经网络。
优选的,所述奖励确定单元具体包括:
奖励确定子单元,用于根据公式
Figure BDA0002489476960000081
确定数据段所对应的奖励;
其中,R(s,a)为车辆在状态量s下进行a动作所得的奖励,α,β均为正参数,
Figure BDA0002489476960000082
为车辆发动机燃油消耗率,[t0,t]为车辆工作时间段,
Figure BDA0002489476960000083
为t0时刻电池荷电状态变化率,
Figure BDA0002489476960000084
为t时刻电池荷电状态变化率。
优选的,所述归一化优势函数为:
Figure BDA0002489476960000091
其中,s为车辆状态量,a为油门控制量,μ为在状态量s下的最优动作,P(s|θP)=L(s|θP)L(s|θP)T,A(·)为归一化优势函数,θA为归一化优势函数,θP为矩阵P的参数,θμ为μ的参数,L(·)为下三角矩阵。
本说明书中各个实施例采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似部分互相参见即可。对于实施例公开的系统而言,由于其与实施例公开的方法相对应,所以描述的比较简单,相关之处参见方法部分说明即可。
本文中应用了具体个例对本发明的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本发明的方法及其核心思想;同时,对于本领域的一般技术人员,依据本发明的思想,在具体实施方式及应用范围上均会有改变之处。综上所述,本说明书内容不应理解为对本发明的限制。

Claims (8)

1.一种基于深度强化学习的混合动力车辆油门控制方法,其特征在于,所述混合动力车辆油门控制方法包括:
S1,获取车辆上一时刻的状态量,记为第一状态量;
S2,根据所述第一状态量采用深度神经网络确定当前时刻油门控制量,记为第一油门控制量;所述深度神经网络中包括归一化优势函数;
S3,根据所述第一油门控制量控制车辆的油门;
S4,获取车辆的动力学模型;
S5,将所述第一油门控制量输入到所述车辆的动力学模型中,得到当前时刻的状态量,记为第二状态量;
S6,根据所述第一状态量、所述第一油门控制量和所述第二状态量确定数据段;重复S1至S6直至获取T个连续时刻的数据段;
S7,根据各所述数据段对深度神经网络中的权值进行调节,得到更新后的深度神经网络;并返回S2,采用所述更新后的深度神经网络确定当前时刻油门控制量。
2.根据权利要求1所述的基于深度强化学习的混合动力车辆油门控制方法,其特征在于,所述根据各所述数据段对深度神经网络中的权值进行调节,得到更新后的深度神经网络,具体包括:
根据所述数据段获取所述数据段对应的取值概率;
根据所述取值概率确定数据段权值;
根据所述车辆的动力学模型,采用深度强化学习奖励函数确定数据段所对应的奖励;
根据所述奖励和所述数据段权值确定数据段损失;
根据所述数据段损失调节所述深度神经网络中的权值,得到更新后的深度神经网络。
3.根据权利要求2所述的基于深度强化学习的混合动力车辆油门控制方法,其特征在于,所述根据所述车辆的动力学模型,采用深度强化学习奖励函数确定数据段所对应的奖励,具体包括:
根据公式
Figure FDA0002489476950000011
确定数据段所对应的奖励;
其中,R(s,a)为车辆在状态量s下进行a动作所得的奖励,α,β均为正参数,
Figure FDA0002489476950000021
为车辆发动机燃油消耗率,[t0,t]为车辆工作时间段,
Figure FDA0002489476950000022
为t0时刻电池荷电状态变化率,
Figure FDA0002489476950000023
为t时刻电池荷电状态变化率。
4.根据权利要求1所述的基于深度强化学习的混合动力车辆油门控制方法,其特征在于,所述归一化优势函数为:
Figure FDA0002489476950000024
其中,s为车辆状态量,a为油门控制量,μ为在状态量s下的最优动作,P(s|θP)=L(s|θP)L(s|θP)T,A(·)为归一化优势函数,θA为归一化优势函数,θP为矩阵P的参数,θμ为μ的参数,L(·)为下三角矩阵。
5.一种基于深度强化学习的混合动力车辆油门控制系统,其特征在于,所述混合动力车辆油门控制系统包括:
第一状态量获取模块,用于获取车辆上一时刻的状态量,记为第一状态量;
第一油门控制量确定模块,用于根据所述第一状态量采用深度神经网络确定当前时刻油门控制量,记为第一油门控制量;所述深度神经网络中包括归一化优势函数;
车辆油门控制模块,用于根据所述第一油门控制量控制车辆的油门;
车辆的动力学模型获取模块,用于获取车辆的动力学模型;
第二状态量确定模块,用于将所述第一油门控制量输入到所述车辆的动力学模型中,得到当前时刻的状态量,记为第二状态量;
数据段获取模块,用于根据所述第一状态量、所述第一油门控制量和所述第二状态量确定数据段;直至获取T个连续时刻的数据段;
深度神经网络更新模块,用于根据各所述数据段对深度神经网络中的权值进行调节,得到更新后的深度神经网络;并返回所述第一油门控制量确定模块,采用所述更新后的深度神经网络确定当前时刻油门控制量。
6.根据权利要求5所述的基于深度强化学习的混合动力车辆油门控制系统,其特征在于,所述深度神经网络更新模块具体包括:
取值概率获取单元,用于根据所述数据段获取所述数据段对应的取值概率;
数据段权值确定单元,用于根据所述取值概率确定数据段权值;
奖励确定单元,用于根据所述车辆的动力学模型,采用深度强化学习奖励函数确定数据段所对应的奖励;
数据段损失确定单元,用于根据所述奖励和所述数据段权值确定数据段损失;
深度神经网络更新单元,用于根据所述数据段损失调节所述深度神经网络中的权值,得到更新后的深度神经网络。
7.根据权利要求6所述的基于深度强化学习的混合动力车辆油门控制系统,其特征在于,所述奖励确定单元具体包括:
奖励确定子单元,用于根据公式
Figure FDA0002489476950000031
确定数据段所对应的奖励;
其中,R(s,a)为车辆在状态量s下进行a动作所得的奖励,α,β均为正参数,
Figure FDA0002489476950000032
为车辆发动机燃油消耗率,[t0,t]为车辆工作时间段,
Figure FDA0002489476950000033
为t0时刻电池荷电状态变化率,
Figure FDA0002489476950000034
为t时刻电池荷电状态变化率。
8.根据权利要求5所述的基于深度强化学习的混合动力车辆油门控制系统,其特征在于,所述归一化优势函数为:
Figure FDA0002489476950000035
其中,s为车辆状态量,a为油门控制量,μ为在状态量s下的最优动作,P(s|θP)=L(s|θP)L(s|θP)T,A(·)为归一化优势函数,θA为归一化优势函数,θP为矩阵P的参数,θμ为μ的参数,L(·)为下三角矩阵。
CN202010401009.9A 2020-05-13 2020-05-13 基于深度强化学习的混合动力车辆油门控制方法及系统 Active CN111547039B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010401009.9A CN111547039B (zh) 2020-05-13 2020-05-13 基于深度强化学习的混合动力车辆油门控制方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010401009.9A CN111547039B (zh) 2020-05-13 2020-05-13 基于深度强化学习的混合动力车辆油门控制方法及系统

Publications (2)

Publication Number Publication Date
CN111547039A true CN111547039A (zh) 2020-08-18
CN111547039B CN111547039B (zh) 2021-03-23

Family

ID=72002011

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010401009.9A Active CN111547039B (zh) 2020-05-13 2020-05-13 基于深度强化学习的混合动力车辆油门控制方法及系统

Country Status (1)

Country Link
CN (1) CN111547039B (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112287463A (zh) * 2020-11-03 2021-01-29 重庆大学 一种基于深度强化学习算法的燃料电池汽车能量管理方法
CN112488452A (zh) * 2020-11-06 2021-03-12 中国电子科技集团公司第十八研究所 一种基于深度强化学习的能源系统管理多时间尺度最优决策方法
CN113997926A (zh) * 2021-11-30 2022-02-01 江苏浩峰汽车附件有限公司 基于分层强化学习的并联式混合动力汽车能量管理方法
CN115195730A (zh) * 2021-04-13 2022-10-18 广州汽车集团股份有限公司 一种车辆行驶控制方法、装置及控制器

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH07329534A (ja) * 1994-06-07 1995-12-19 Toyota Motor Corp 車輌の走行状態判定装置
CN101630144A (zh) * 2009-08-18 2010-01-20 湖南大学 电子节气门的自学习逆模型控制方法
JP2010095067A (ja) * 2008-10-15 2010-04-30 Hino Motors Ltd ハイブリッド自動車およびコンピュータ装置ならびにプログラム
CN109483530A (zh) * 2018-10-18 2019-03-19 北京控制工程研究所 一种基于深度强化学习的足式机器人运动控制方法及系统
DE102019110184A1 (de) * 2018-04-27 2019-10-31 GM Global Technology Operations LLC Systeme und verfahren zum autonomen fahren unter verwendung eines auf neuronalen netzwerken basierten fahrerlernens auf tokenizierten sensoreingaben
CN110834537A (zh) * 2019-07-31 2020-02-25 中国第一汽车股份有限公司 一种车辆油门控制方法、系统、车辆及存储介质

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH07329534A (ja) * 1994-06-07 1995-12-19 Toyota Motor Corp 車輌の走行状態判定装置
JP2010095067A (ja) * 2008-10-15 2010-04-30 Hino Motors Ltd ハイブリッド自動車およびコンピュータ装置ならびにプログラム
CN101630144A (zh) * 2009-08-18 2010-01-20 湖南大学 电子节气门的自学习逆模型控制方法
DE102019110184A1 (de) * 2018-04-27 2019-10-31 GM Global Technology Operations LLC Systeme und verfahren zum autonomen fahren unter verwendung eines auf neuronalen netzwerken basierten fahrerlernens auf tokenizierten sensoreingaben
CN109483530A (zh) * 2018-10-18 2019-03-19 北京控制工程研究所 一种基于深度强化学习的足式机器人运动控制方法及系统
CN110834537A (zh) * 2019-07-31 2020-02-25 中国第一汽车股份有限公司 一种车辆油门控制方法、系统、车辆及存储介质

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112287463A (zh) * 2020-11-03 2021-01-29 重庆大学 一种基于深度强化学习算法的燃料电池汽车能量管理方法
CN112488452A (zh) * 2020-11-06 2021-03-12 中国电子科技集团公司第十八研究所 一种基于深度强化学习的能源系统管理多时间尺度最优决策方法
CN115195730A (zh) * 2021-04-13 2022-10-18 广州汽车集团股份有限公司 一种车辆行驶控制方法、装置及控制器
CN115195730B (zh) * 2021-04-13 2024-05-17 广州汽车集团股份有限公司 一种车辆行驶控制方法、装置及控制器
CN113997926A (zh) * 2021-11-30 2022-02-01 江苏浩峰汽车附件有限公司 基于分层强化学习的并联式混合动力汽车能量管理方法

Also Published As

Publication number Publication date
CN111547039B (zh) 2021-03-23

Similar Documents

Publication Publication Date Title
CN111547039B (zh) 基于深度强化学习的混合动力车辆油门控制方法及系统
CN110341690B (zh) 一种基于确定性策略梯度学习的phev能量管理方法
CN111267831B (zh) 一种混合动力车辆智能变时域模型预测能量管理方法
CN108427985B (zh) 一种基于深度强化学习的插电式混合动力车辆能量管理方法
Wu et al. Continuous reinforcement learning of energy management with deep Q network for a power split hybrid electric bus
Chemali et al. Long short-term memory networks for accurate state-of-charge estimation of Li-ion batteries
CN109193075B (zh) 基于强化学习的纯电动汽车动力电池冷却系统控制方法
CN111009134A (zh) 一种基于前车与自车互动的短期车速工况实时预测方法
CN113511082B (zh) 基于规则和双深度q网络的混合动力汽车能量管理方法
CN111047085B (zh) 一种基于元学习的混合动力车辆工况预测方法
CN112200373A (zh) 负荷预测模型的训练方法及训练装置、存储介质、设备
CN110481536B (zh) 一种应用于混合动力汽车的控制方法及设备
Johri et al. Optimal energy management for a hybrid vehicle using neuro-dynamic programming to consider transient engine operation
US20220242390A1 (en) Energy management method and system for hybrid electric vehicle
CN113554337B (zh) 融合交通信息的插电式混动汽车能量管理策略构建方法
CN112818588B (zh) 一种电力系统的最优潮流计算方法、装置及存储介质
CN112498334B (zh) 智能网联混合动力汽车的鲁棒能量管理方法及系统
CN113110052B (zh) 一种基于神经网络和强化学习的混合能量管理方法
CN111597750A (zh) 一种基于bp神经网络的混合动力汽车能量管理方法
CN111367172A (zh) 一种基于逆向深度强化学习的混动系统能量管理策略
CN108454609B (zh) 用于运行车辆的混合动力系统的方法
CN112765723A (zh) 好奇心驱动的混合动力系统深度强化学习能量管理方法
CN116468159A (zh) 一种基于双延迟深度确定性策略梯度的无功优化方法
CN112084700A (zh) 一种基于a3c算法的混合动力系统能量管理方法
CN111241749A (zh) 一种基于储备池计算的永磁同步电动机混沌预测方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant