CN111731303B - 一种基于深度强化学习a3c算法的hev能量管理方法 - Google Patents
一种基于深度强化学习a3c算法的hev能量管理方法 Download PDFInfo
- Publication number
- CN111731303B CN111731303B CN202010657917.4A CN202010657917A CN111731303B CN 111731303 B CN111731303 B CN 111731303B CN 202010657917 A CN202010657917 A CN 202010657917A CN 111731303 B CN111731303 B CN 111731303B
- Authority
- CN
- China
- Prior art keywords
- neural network
- algorithm
- environment
- learning
- energy management
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- B—PERFORMING OPERATIONS; TRANSPORTING
- B60—VEHICLES IN GENERAL
- B60W—CONJOINT CONTROL OF VEHICLE SUB-UNITS OF DIFFERENT TYPE OR DIFFERENT FUNCTION; CONTROL SYSTEMS SPECIALLY ADAPTED FOR HYBRID VEHICLES; ROAD VEHICLE DRIVE CONTROL SYSTEMS FOR PURPOSES NOT RELATED TO THE CONTROL OF A PARTICULAR SUB-UNIT
- B60W40/00—Estimation or calculation of non-directly measurable driving parameters for road vehicle drive control systems not related to the control of a particular sub unit, e.g. by using mathematical models
-
- B—PERFORMING OPERATIONS; TRANSPORTING
- B60—VEHICLES IN GENERAL
- B60W—CONJOINT CONTROL OF VEHICLE SUB-UNITS OF DIFFERENT TYPE OR DIFFERENT FUNCTION; CONTROL SYSTEMS SPECIALLY ADAPTED FOR HYBRID VEHICLES; ROAD VEHICLE DRIVE CONTROL SYSTEMS FOR PURPOSES NOT RELATED TO THE CONTROL OF A PARTICULAR SUB-UNIT
- B60W50/00—Details of control systems for road vehicle drive control not related to the control of a particular sub-unit, e.g. process diagnostic or vehicle driver interfaces
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/23—Clustering techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/084—Backpropagation, e.g. using gradient descent
-
- B—PERFORMING OPERATIONS; TRANSPORTING
- B60—VEHICLES IN GENERAL
- B60W—CONJOINT CONTROL OF VEHICLE SUB-UNITS OF DIFFERENT TYPE OR DIFFERENT FUNCTION; CONTROL SYSTEMS SPECIALLY ADAPTED FOR HYBRID VEHICLES; ROAD VEHICLE DRIVE CONTROL SYSTEMS FOR PURPOSES NOT RELATED TO THE CONTROL OF A PARTICULAR SUB-UNIT
- B60W50/00—Details of control systems for road vehicle drive control not related to the control of a particular sub-unit, e.g. process diagnostic or vehicle driver interfaces
- B60W2050/0001—Details of the control system
- B60W2050/0019—Control system elements or transfer functions
- B60W2050/0028—Mathematical models, e.g. for simulation
- B60W2050/0031—Mathematical model of the vehicle
- B60W2050/0034—Multiple-track, 2D vehicle model, e.g. four-wheel model
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- General Engineering & Computer Science (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- Mathematical Physics (AREA)
- General Physics & Mathematics (AREA)
- Evolutionary Computation (AREA)
- Software Systems (AREA)
- Computing Systems (AREA)
- Mechanical Engineering (AREA)
- Health & Medical Sciences (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Molecular Biology (AREA)
- Transportation (AREA)
- Automation & Control Theory (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Human Computer Interaction (AREA)
- Evolutionary Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Hybrid Electric Vehicles (AREA)
- Control Of Vehicle Engines Or Engines For Specific Uses (AREA)
- Combined Controls Of Internal Combustion Engines (AREA)
- Electric Propulsion And Braking For Vehicles (AREA)
Abstract
本发明涉及一种基于深度强化学习A3C算法的HEV能量管理方法,属于新能源汽车领域。该方法包括:S1:根据工况的特征参数划分车辆行驶标准工况;S2:计算整车的需求功率;S3:确定需要的状态变量、动作变量以及奖励函数;S4:建立A3C算法模型,设定环境‑智能体模块;S5:根据电池SOC以及需求功率的大小,设计并加入基于规则的发动机启停策略;S6:环境‑智能体模块中分别加载不同类型的标准工况,通过不断迭代试错的学习方式训练算法模型中的深度神经网络,当总奖励处于稳定收敛状态后结束训练过程,并且保存全局神经网络的持久化模型。本发明在保证燃油经济性的条件下实现对所有随机工况的自适应能力。
Description
技术领域
本发明属于新能源汽车领域,涉及一种基于深度强化学习A3C算法的混合动力汽车能量管理策略。
背景技术
混合动力汽车作为汽车产业从燃油车向纯电动汽车发展的过渡产品,克服了纯电动汽车的续航里程问题以及燃油车的油耗与排放问题,因此在新能源汽车产业发展的大背景下同样拥有的良好的发展前景,而其中的核心技术——混合动力汽车能量管理策略,始终是混合动力汽车领域研究的重点课题。
近年来,Google Deep Mind团队将深度学习和强化学习相结合,提出了更加具有智能感的学习算法——深度强化学习,并且研发了围棋机器人Alpha Go。汽车工程领域研究人员也开始将深度强化学习应用于设计能量管理策略,并且形成了能量管理算法的新类型——基于学习。目前使用较多的深度强化学习算法是深度值网络(Deep Q-Learning,DQN)与深度确定性策略梯度算法(Deep Deterministic Policy Gradient,DDPG)。
简单来说,深度值网络算法是在强化学习中Q-Learning算法的基础上,引入了深度学习中的深度神经网络(Deep Neural Network,DNN),利用一个深度神经网络拟合原先Q-Learning算法中的二维值函数表格,进而使得DQN算法不再受到“维度灾难”的影响。通过环境模块的状态量与奖励值以及智能体模块的动作量之间相互传输,在不断迭代试错的学习方法之下可以找到最优能量管理策略。同时DQN也加入经验回放机制与目标神经网络,目的是为了减少更新深度神经网络时样本数据之间的相关性,从而实现对神经网络更加全面的训练效果。DDPG则是在演员-评论家算法的基础上发展出来的,通常建立两种深度神经网络——演员网络与评论家网络,前者用于拟合策略函数而后者用于拟合值函数。DDPG最大的优势就在于可以对动作变量不进行离散化处理,这一点是DQN做不到的,因此DQN适用于离散控制动作而DDPG适用于连续控制动作。而两者在控制动作的选择原则上也有明显不同,DQN是根据已有的值函数选择相应更优的动作,而DDPG是先根据随机的策略函数选择动作,再利用评论家网络对动作进行评价,从而对演员网络的控制策略进行梯度修正。
因此,亟需一种新的算法来优化管理混合动力汽车(HEV)能量。
发明内容
有鉴于此,本发明的目的在于提供一种基于深度强化学习A3C算法的HEV能量管理方法,通过分布式的学习思路,分别设置四个环境-智能体的学习模块,并且将各个学习环境设定为不同类型的标准工况,利用单独的环境-智能体模块学习某一类工况下的最优能量管理策略,从而建立四个学习模块就实现对所有类型工况更加全面的学习效果,最终利用全局神经网络汇总每个环境-智能体模块所学到的能量管理策略,在保证燃油经济性的条件下实现对所有随机工况的自适应能力。
为达到上述目的,本发明提供如下技术方案:
一种基于深度强化学习A3C算法的HEV能量管理方法,包括以下步骤:
S1:基于车辆行驶标准工况数据,按照工况的特征参数划分标准工况;
S2:建立混合动力汽车的动力学模型,计算整车的需求功率;
S3:根据能量管理策略确定需要的状态变量、动作变量以及奖励函数;
S4:建立异步优势演员-评论家(Asynchronous Advantage Actor-Critic,A3C)算法模型,并设定四个用于学习的环境-智能体模块;
S5:根据电池SOC以及需求功率的大小,设计并加入基于规则的发动机启停策略;
S6:结合混合动力汽车的动力学模型与A3C模型,四个环境-智能体模块中分别加载不同类型的标准工况,通过不断迭代试错的学习方式训练算法模型中的深度神经网络,当总奖励处于稳定收敛状态后结束训练过程,并且保存全局神经网络的持久化模型;
S7:训练完毕后,结合多组新的不同类型随机工况测试全局神经网络学习效果。
进一步,所述步骤S1中,标准工况划分的具体方法是:根据平均速度vmean、平均加速度amean、怠速时间比tidel、最大速度vmax和最大加速度amax等特征参数,采用聚类方法将所有工况数据划分为具有代表性的四类:拥堵工况、城区工况、郊区工况和高速工况。
进一步,所述步骤S2中,计算相应时刻整车的需求功率为:
其中,Pdemand为整车需求功率,m为整车质量,G为整车重量,f为滚动阻力系数,i为道路坡度,CD为空气阻力系数,A为迎风面积,ua为行驶速度,为车辆纵向加速度,δ为旋转质量换算系数,ηT为传动系效率。
进一步,所述步骤S3具体包括:
(1)为了充分表征混合动力汽车的模拟行驶状态,定义状态变量包括行驶速度ua、车辆纵向加速度a、电池SOC和整车需求功率Pdemand;
(2)定义动作变量为发动机节气门开度throttle;
(3)定义奖励函数为:
进一步,所述步骤S4中,建立A3C算法模型具体包括:根据电脑CPU核数建立A3C算法模型的四个环境-智能体模块,并且在TensorFlow深度学习框架下建立每个环境-智能体模块以及全局神经网络模块中的深度神经网络,指定每个模块分别针对一种类型的标准工况搭建环境。
进一步,所述步骤S5中,发动机启停策略具体包括:根据需求功率将问题划分为四部分:
(1)需求功率小于零时,发动机关闭,当前车辆处于再生制动状态;
(2)需求功率等于零时,发动机关闭,当前车辆处于静止状态;
(3)需求功率大于零且大于电机最大功率时,发动机启动,当前车辆处于混合驱动状态;
(4)需求功率大于零但小于电机最大功率时,根据SOC进行划分:当SOC大于上限阈值,关闭发动机;当SOC小于下限阈值,启动发动机;当SOC在规定范围内,保持发动机当前启停状态,直到SOC达到阈值后改变;当前车辆运行状态在纯电动驱动模式与行车充电模式之间互相切换。
进一步,所述步骤S6具体包括以下步骤:
S61:结合整车环境模块与A3C算法模块,构建交互式算法空间;
S62:针对单个智能体与环境的交互模块,定义以整车实时状态参数以及相应奖励值作为智能体模块中神经网络的输入参数,将神经网络所输出的控制变量作为环境模块中整车模型的输入参数,并且在车辆执行控制命令后产生新的奖励值;
S63:智能体模块通过复制全局网络参数完成初始化,并且在不断地迭代学习过程中更新神经网络参数;
S64:所有环境-智能体模型在CPU四个线程上同时展开在不同工况下的能量管理策略学习过程,智能体通过损失函数计算与策略梯度更新,实现神经网络的学习更新步骤,具体损失函数及策略梯度更新公式如下:
式中,r为单步奖励,s与s'分别为当前状态量与下一时刻状态量,a与a'分别为当前动作量与下一时刻动作量,θ、ω分别为当前时刻的演员神经网络参数与评论家网络参数,θ'、ω'为下一时刻的演员神经网络参数与评论家网络参数,Q(s,a;ω)为动作值函数,V(s;ω')为状态值函数,L(ωi)为损失函数,δ、γ为权重参数,R为奖励值;
S65:全局神经网络利用汇集所有环境-智能体中的演员神经网络的参数实现自身的参数更新,并且在全局神经网络更新结束后,又将参数复制给每个环境-智能体模块;
S66:反复迭代,直到学习出理想效果为止,训练结束后保存全局神经网络持久化模型。
进一步,所述步骤S7中,保存并测试神经网络模型,具体包括以下步骤:
S71:完成训练后,将全局神经网络保存为持久化模型文件;
S72:重新选择四种类型的新标准工况进行组合,并且作为测试工况;
S73:在测试程序中加载全局神经网络持久化模型,通过运行测试工况并获得相应的燃油消耗量,再利用动态规划算法得出的燃油消耗量作为对比标准,完成对神经网络学习效果的测试工作。
本发明的有益效果在于:与基于规则与基于优化的传统混合动力汽车能量管理策略相比,本发明提出的异步优势演员-评论家算法是在深度强化学习算法的大背景下,具有极佳的计算速度,完全能够实现在线控制;在完成良好的训练效果后,通过对神经网络所拟合的能量管理策略进行测试,可以得到与动态规划算法相近的燃油经济性,并且因为是同时学习多种不同类型的标准工况,所以与传统能量管理策略相比,具有更好的随机工况适应性,从而实现更广的应用范围;在控制变量与动作变量的选择方面,异步优势演员-评论家算法基于演员-评论家框架,同样不会受到动态规划等算法存在的“维度灾难”与“离散误差”的限制。
与同为深度强化学习的深度值网络与深度确定性策略梯度算法相比,异步优势演员-评论家算法采用分布式学习思维,四个环境-智能体模块同时学习不同环境下的能量管理策略,使得最终汇集与全局神经网络的能量管理策略可以在任意类型的随机工况下都能实现最优功率分配控制,从而在保证燃油经济性的基础上,进一步提高了混合动力汽车能量管理策略对于随机工况的适应性。当然,这种分布式学习算法也可以采用四个学习模块同时在一种环境下进行学习过程,此时学习速度将是原先速度的几倍,可以极大地提高学习效率。
本发明的其他优点、目标和特征在某种程度上将在随后的说明书中进行阐述,并且在某种程度上,基于对下文的考察研究对本领域技术人员而言将是显而易见的,或者可以从本发明的实践中得到教导。本发明的目标和其他优点可以通过下面的说明书来实现和获得。
附图说明
为了使本发明的目的、技术方案和优点更加清楚,下面将结合附图对本发明作优选的详细描述,其中:
图1是本发明所述HEV能量管理方法的流程图;
图2是混合动力汽车传动系统结构框图;
图3是异步优势演员-评论家算法框架;
图4是发动机启停策略示意图。
具体实施方式
以下通过特定的具体实例说明本发明的实施方式,本领域技术人员可由本说明书所揭露的内容轻易地了解本发明的其他优点与功效。本发明还可以通过另外不同的具体实施方式加以实施或应用,本说明书中的各项细节也可以基于不同观点与应用,在没有背离本发明的精神下进行各种修饰或改变。需要说明的是,以下实施例中所提供的图示仅以示意方式说明本发明的基本构想,在不冲突的情况下,以下实施例及实施例中的特征可以相互组合。
请参阅图1~图4,图1为一种基于深度强化学习A3C算法的混合动力汽车能量管理策略,流程如图1所示,具体包括以下步骤:
S1:根据平均速度vmean、平均加速度amean、怠速时间比tidel、最大速度vmax和最大加速度amax等工况特征参数,采用聚类方法将所有工况分为具有代表性的四类:拥堵工况、城区工况、郊区工况、高速工况。
S2:建立混合动力汽车整车动力学模型,计算相应时刻整车需求功率:
其中,Pdemand为整车需求功率,m为整车质量,G为整车重量,f为滚动阻力系数,i为道路坡度,CD为空气阻力系数,A为迎风面积,ua为行驶速度,为车辆纵向加速度,δ为旋转质量换算系数,ηT为传动系效率。混合动力汽车传动系统结构如图2所示。
S3:定义状态变量、动作变量以及奖励函数,具体包括:
(1)为了充分表征混合动力汽车的模拟行驶状态,定义状态变量S中包括行驶速度ua、车辆纵向加速度a、电池SOC和整车需求功率Pdemand,从而构建四维状态变量空间;
(2)定义动作变量A中包括发动机节气门开度throttle=[0,1];
Teng_min<Teng<Teng_max
ωeng_min<ωeng<ωeng_max
SOCmin<SOC<SOCmax
其中,Teng_max和Teng_min分别为发动机转矩的上下限值;ωeng_max和ωeng_min分别为发动机转速的上下限值;SOCmax和SOCmin分别为SOC的上下限值,应当强调的是,发动机转速范围的限定应当充分考虑换挡情况进行设定。
S4:异步优势演员-评论家算法能够建立的环境-智能体模块数目取决于电脑CPU核数,因此选择创建四个环境-智能体模块,并且在Python环境下利用TensorFlow深度学习框架建立每个环境-智能体模块以及全局神经网络模块中的深度神经网络,指定每个模块分别针对一种类型的标准工况搭建环境,算法框架如图3所示;
S5:根据电池SOC以及需求功率的大小,设计并加入基于规则的发动机启停策略。具体实现方法为:根据需求功率将问题划分为四部分:需求功率小于零;需求功率等于零;需求功率大于零但小于电机最大功率;需求功率大于零且大于电机最大功率,具体如图4所示;
(1)需求功率小于零时,发动机关闭,当前车辆处于再生制动状态;
(2)需求功率等于零时,发动机关闭,当前车辆处于静止状态;
(3)需求功率大于零且大于电机最大功率时,发动机启动,当前车辆处于混合驱动状态;
(4)针对需求功率大于零但小于电机最大功率的情况,再根据SOC进行划分:当SOC大于上限阈值SOCmax,关闭发动机;当SOC小于下限阈值SOCmin,启动发动机;当SOC在规定范围内,保持发动机当前启停状态,直到SOC达到阈值后改变;当前车辆运行状态在纯电动驱动模式与行车充电模式之间互相切换。
S6:结合混合动力汽车整车模型与异步优势演员-评论家算法模型,四个环境模块中分别加载不同类型的标准工况,通过不断迭代地试错式学习方式训练算法模型中的神经网络,当总奖励函数稳定收敛状态结束训练过程并保存全局神经网络持久化模型。具体步骤如下:
S61:结合整车环境模块与异步优势演员-评论家算法模块,构建交互式算法空间;
S62:针对单个智能体与环境的交互模块,定义以整车实时状态参数以及相应奖励值作为智能体模块中神经网络的输入参数,而将神经网络所输出的控制变量作为环境模块中整车模型的输入参数,并且在车辆执行控制命令后产生新的奖励值;
S63:智能体模块通过复制全局网络参数完成初始化,并且在不断地迭代学习过程中更新神经网络参数,其中用于更新神经网络的参数来自于经验池,利用经验回放机制将每次状态转移过程以样本数据sample的形式保存,对sample的定义如式:
sample={S,A,R,S'}
其中,S为当前状态,A为当前动作,R为奖励值,S'为执行动作后转移的下一个状态。通过从经验池中随机抽取32个或64个样本数据对智能体模块的神经网络进行参数更新。
S64:所有环境-智能体模型在CPU四个线程上同时展开在不同工况下的能量管理策略学习过程,智能体通过损失函数计算与策略梯度更新,实现神经网络的学习更新步骤,具体损失函数及策略梯度更新公式如下:
式中,r为单步奖励,s与s'分别为当前状态量与下一时刻状态量,a与a'分别为当前动作量与下一时刻动作量,θ、ω分别为当前时刻的演员神经网络参数与评论家网络参数,θ'、ω'为下一时刻的演员神经网络参数与评论家网络参数,Q(s,a;ω)为动作值函数,V(s;ω')为状态值函数,L(ωi)为损失函数,δ、γ为权重参数,R为奖励值;
S65:每个智能体将自己所学到的参数更新到全局网络中,在全局网络整合各部分智能体参数后再反向更新智能体中的神经网络参数;
S66:反复迭代,直到得出理想效果为止,即总奖励函数值已经保持在稳定收敛状态,训练结束后利用save函数将全局神经网络保存为持久化模型。
S7:保存并测试神经网络模型,具体步骤如下:
S71:完成训练后,将全局神经网络保存为持久化模型文件;
S72:重新选择四种类型的新标准工况进行组合,并且作为测试工况,例如:分别选择NYCC(拥堵工况)、UDDS(城区工况)、CYC_WVUSUB(郊区工况)、HWEET(高速工况)作为每个学习模块里神经网络的训练工况,而测试工况则选择其他的新工况合成一组的复合类型工况对神经网络进行测试;
S73:在测试程序中加载全局神经网络持久化模型,通过运行复合测试工况获得相应的燃油消耗量,再利用动态规划算法得出测试工况的燃油消耗量作为对比标准,完成对神经网络。
最后说明的是,以上实施例仅用以说明本发明的技术方案而非限制,尽管参照较佳实施例对本发明进行了详细说明,本领域的普通技术人员应当理解,可以对本发明的技术方案进行修改或者等同替换,而不脱离本技术方案的宗旨和范围,其均应涵盖在本发明的权利要求范围当中。
Claims (8)
1.一种基于深度强化学习A3C算法的HEV能量管理方法,其特征在于,该方法包括以下步骤:
S1:基于车辆行驶标准工况数据,按照工况的特征参数划分标准工况;
S2:建立混合动力汽车的动力学模型,计算整车的需求功率;
S3:根据能量管理策略确定需要的状态变量、动作变量以及奖励函数;
S4:建立A3C算法模型,并设定四个用于学习的环境-智能体模块;所述A3C算法为异步优势演员-评论家(Asynchronous Advantage Actor-Critic,A3C)算法;
S5:根据电池SOC以及需求功率的大小,设计并加入基于规则的发动机启停策略;
S6:结合混合动力汽车的动力学模型与A3C算法模型,四个环境-智能体模块中分别加载不同类型的标准工况,通过不断迭代试错的学习方式训练算法模型中的深度神经网络,当总奖励处于稳定收敛状态后结束训练过程,并且保存全局神经网络的持久化模型;
S7:训练完毕后,结合多组新的不同类型随机工况测试全局神经网络学习效果。
2.根据权利要求1所述的HEV能量管理方法,其特征在于,所述步骤S1中,标准工况划分的具体方法是:根据平均速度vmean、平均加速度amean、怠速时间比tidel、最大速度vmax和最大加速度amax,采用聚类方法将所有工况数据划分为四类:拥堵工况、城区工况、郊区工况和高速工况。
5.根据权利要求1所述的HEV能量管理方法,其特征在于,所述步骤S4中,建立A3C算法模型具体包括:根据电脑CPU核数建立A3C算法模型的四个环境-智能体模块,并且在TensorFlow深度学习框架下建立每个环境-智能体模块以及全局神经网络模块中的深度神经网络,指定每个模块分别针对一种类型的标准工况搭建环境。
6.根据权利要求1所述的HEV能量管理方法,其特征在于,所述步骤S5中,发动机启停策略具体包括:根据需求功率将问题划分为四部分:
(1)需求功率小于零时,发动机关闭,当前车辆处于再生制动状态;
(2)需求功率等于零时,发动机关闭,当前车辆处于静止状态;
(3)需求功率大于零且大于电机最大功率时,发动机启动,当前车辆处于混合驱动状态;
(4)需求功率大于零但小于电机最大功率时,根据SOC进行划分:当SOC大于上限阈值,关闭发动机;当SOC小于下限阈值,启动发动机;当SOC在规定范围内,保持发动机当前启停状态,直到SOC达到阈值后改变;当前车辆运行状态在纯电动驱动模式与行车充电模式之间互相切换。
7.根据权利要求1所述的HEV能量管理方法,其特征在于,所述步骤S6具体包括以下步骤:
S61:结合整车环境模块与A3C算法模块,构建交互式算法空间;
S62:针对单个智能体与环境的交互模块,定义以整车实时状态参数以及相应奖励值作为智能体模块中神经网络的输入参数,将神经网络所输出的控制变量作为环境模块中整车模型的输入参数,并且在车辆执行控制命令后产生新的奖励值;
S63:智能体模块通过复制全局网络参数完成初始化,并且在不断地迭代学习过程中更新神经网络参数;
S64:所有环境-智能体模型在CPU四个线程上同时展开在不同工况下的能量管理策略学习过程,智能体通过损失函数计算与策略梯度更新,实现神经网络的学习更新步骤,具体损失函数及策略梯度更新公式如下:
式中,r为单步奖励,s与s'分别为当前状态量与下一时刻状态量,a与a'分别为当前动作量与下一时刻动作量,θ、ω分别为当前时刻的演员神经网络参数与评论家网络参数,θ'、ω'为下一时刻的演员神经网络参数与评论家网络参数,Q(s,a;ω)为动作值函数,V(s;ω')为状态值函数,L(ωi)为损失函数,δ、γ为权重参数,R为奖励值;
S65:全局神经网络利用汇集所有环境-智能体中的演员神经网络的参数实现自身的参数更新,并且在全局神经网络更新结束后,又将参数复制给每个环境-智能体模块;
S66:反复迭代,直到学习出理想效果为止,训练结束后保存全局神经网络持久化模型。
8.根据权利要求1所述的HEV能量管理方法,其特征在于,所述步骤S7中,保存并测试神经网络模型,具体包括以下步骤:
S71:完成训练后,将全局神经网络保存为持久化模型文件;
S72:重新选择四种类型的新标准工况进行组合,并且作为测试工况;
S73:在测试程序中加载全局神经网络持久化模型,通过运行测试工况并获得相应的燃油消耗量,再利用动态规划算法得出的燃油消耗量作为对比标准,完成对神经网络学习效果的测试工作。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010657917.4A CN111731303B (zh) | 2020-07-09 | 2020-07-09 | 一种基于深度强化学习a3c算法的hev能量管理方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010657917.4A CN111731303B (zh) | 2020-07-09 | 2020-07-09 | 一种基于深度强化学习a3c算法的hev能量管理方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111731303A CN111731303A (zh) | 2020-10-02 |
CN111731303B true CN111731303B (zh) | 2021-04-23 |
Family
ID=72655826
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010657917.4A Active CN111731303B (zh) | 2020-07-09 | 2020-07-09 | 一种基于深度强化学习a3c算法的hev能量管理方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111731303B (zh) |
Families Citing this family (20)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110545062A (zh) * | 2019-08-03 | 2019-12-06 | 湖南贝加尔动力科技有限公司 | 一种基于深度学习网络的srm转矩脉动抑制方法 |
CN112339756B (zh) * | 2020-10-14 | 2021-10-15 | 天津大学 | 一种基于强化学习的新能源汽车红绿灯路口能量回收优化速度规划算法 |
CN112287463B (zh) * | 2020-11-03 | 2022-02-11 | 重庆大学 | 一种基于深度强化学习算法的燃料电池汽车能量管理方法 |
CN112765723A (zh) * | 2020-12-10 | 2021-05-07 | 南京航空航天大学 | 好奇心驱动的混合动力系统深度强化学习能量管理方法 |
CN112550272B (zh) * | 2020-12-14 | 2021-07-30 | 重庆大学 | 基于视觉感知与深度强化学习的智能混合动力汽车分层控制方法 |
CN112613229B (zh) * | 2020-12-14 | 2023-05-23 | 中国科学院深圳先进技术研究院 | 混合动力设备的能量管理方法、模型训练方法及装置 |
CN112498334B (zh) * | 2020-12-15 | 2022-03-11 | 清华大学 | 智能网联混合动力汽车的鲁棒能量管理方法及系统 |
CN112810503B (zh) * | 2021-01-20 | 2023-02-10 | 同济大学 | 考虑动态响应能力的基于神经网络的汽车动力控制方法 |
CN112902969B (zh) * | 2021-02-03 | 2023-08-01 | 重庆大学 | 一种无人机在数据收集过程中的路径规划方法 |
CN112801290B (zh) * | 2021-02-26 | 2021-11-05 | 中国人民解放军陆军工程大学 | 一种多智能体深度强化学习方法、系统及应用 |
CN113089739B (zh) * | 2021-03-17 | 2023-05-26 | 三一汽车起重机械有限公司 | 作业机械的控制方法、控制装置和电子设备 |
CN113264064B (zh) * | 2021-03-31 | 2022-05-10 | 志行千里(北京)科技有限公司 | 用于交叉路口场景的自动驾驶方法及相关设备 |
CN113269963B (zh) * | 2021-05-20 | 2021-12-10 | 东南大学 | 一种基于强化学习的网联车辆信号灯控路口经济通行方法 |
CN113511082B (zh) * | 2021-05-31 | 2023-06-16 | 深圳先进技术研究院 | 基于规则和双深度q网络的混合动力汽车能量管理方法 |
CN113569948B (zh) * | 2021-07-27 | 2023-08-01 | 福州大学 | 电动汽车工况分类与评价方法及系统 |
CN113997926A (zh) * | 2021-11-30 | 2022-02-01 | 江苏浩峰汽车附件有限公司 | 基于分层强化学习的并联式混合动力汽车能量管理方法 |
CN115503559B (zh) * | 2022-11-07 | 2023-05-02 | 重庆大学 | 考虑空调系统的燃料电池汽车学习型协同能量管理方法 |
CN115793445B (zh) * | 2022-11-16 | 2023-09-05 | 重庆大学 | 一种基于多智能体深度强化学习的混合动力汽车控制方法 |
CN116070783B (zh) * | 2023-03-07 | 2023-05-30 | 北京航空航天大学 | 一种混动传动系统在通勤路段下的学习型能量管理方法 |
CN117184095B (zh) * | 2023-10-20 | 2024-05-14 | 燕山大学 | 基于深度强化学习的混合动力电动车系统控制方法 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20180011488A1 (en) * | 2016-07-08 | 2018-01-11 | Toyota Motor Engineering & Manufacturing North America, Inc. | Control policy learning and vehicle control method based on reinforcement learning without active exploration |
CN110194156A (zh) * | 2019-06-21 | 2019-09-03 | 厦门大学 | 智能网联混合动力汽车主动避撞增强学习控制系统和方法 |
CN110341690A (zh) * | 2019-07-22 | 2019-10-18 | 北京理工大学 | 一种基于确定性策略梯度学习的phev能量管理方法 |
CN110481536A (zh) * | 2019-07-03 | 2019-11-22 | 中国科学院深圳先进技术研究院 | 一种应用于混合动力汽车的控制方法及设备 |
-
2020
- 2020-07-09 CN CN202010657917.4A patent/CN111731303B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20180011488A1 (en) * | 2016-07-08 | 2018-01-11 | Toyota Motor Engineering & Manufacturing North America, Inc. | Control policy learning and vehicle control method based on reinforcement learning without active exploration |
CN110194156A (zh) * | 2019-06-21 | 2019-09-03 | 厦门大学 | 智能网联混合动力汽车主动避撞增强学习控制系统和方法 |
CN110481536A (zh) * | 2019-07-03 | 2019-11-22 | 中国科学院深圳先进技术研究院 | 一种应用于混合动力汽车的控制方法及设备 |
CN110341690A (zh) * | 2019-07-22 | 2019-10-18 | 北京理工大学 | 一种基于确定性策略梯度学习的phev能量管理方法 |
Non-Patent Citations (2)
Title |
---|
A REVIEW OF REINFORCEMENT LEARNING FOR AUTONOMOUS BUILDING ENERGY MANAGEMENT;Karl Mason等;《Computers and Electrical Engineering》;20190930;第78卷;全文 * |
混合动力电动汽车控制系统设计与能量管理策略研究;胡悦;《中国博士学位论文全文数据库工程科技Ⅱ辑》;20180815;全文 * |
Also Published As
Publication number | Publication date |
---|---|
CN111731303A (zh) | 2020-10-02 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111731303B (zh) | 一种基于深度强化学习a3c算法的hev能量管理方法 | |
Tang et al. | Distributed deep reinforcement learning-based energy and emission management strategy for hybrid electric vehicles | |
CN111267831B (zh) | 一种混合动力车辆智能变时域模型预测能量管理方法 | |
CN111845701B (zh) | 一种跟车环境下基于深度强化学习的hev能量管理方法 | |
CN112287463A (zh) | 一种基于深度强化学习算法的燃料电池汽车能量管理方法 | |
Guo et al. | Transfer deep reinforcement learning-enabled energy management strategy for hybrid tracked vehicle | |
CN112668799A (zh) | 基于行驶大数据的phev的智能能量管理方法和存储介质 | |
CN113479186B (zh) | 一种混合动力汽车能量管理策略优化方法 | |
CN113554337B (zh) | 融合交通信息的插电式混动汽车能量管理策略构建方法 | |
CN110406526A (zh) | 基于自适应动态规划的并联混合动力汽车能量管理方法 | |
CN115793445B (zh) | 一种基于多智能体深度强化学习的混合动力汽车控制方法 | |
CN113110052B (zh) | 一种基于神经网络和强化学习的混合能量管理方法 | |
CN117131606A (zh) | 一种可跨运动维度迁移的混合动力履带车辆能量管理方法 | |
CN112765723A (zh) | 好奇心驱动的混合动力系统深度强化学习能量管理方法 | |
Xu et al. | A comparative study of deep reinforcement learning-based transferable energy management strategies for hybrid electric vehicles | |
CN115107733A (zh) | 一种混合动力汽车的能量管理方法及系统 | |
CN114969982A (zh) | 一种基于策略迁移的燃料电池汽车深度强化学习能量管理方法 | |
CN113581163B (zh) | 基于lstm的多模phev模式切换优化与能量管理方法 | |
CN113246958B (zh) | 基于td3多目标hev能量管理方法及系统 | |
CN116861791A (zh) | 一种基于增强型td3算法的节能减排能量管理方法 | |
Zhang et al. | An optimal vehicle speed planning algorithm for regenerative braking at traffic lights intersections based on reinforcement learning | |
Hu et al. | Supplementary learning control for energy management strategy of hybrid electric vehicles at scale | |
Chen et al. | Reinforcement learning-based energy management control strategy of hybrid electric vehicles | |
Yazar et al. | Actor-critic TD3-based deep reinforcement learning for energy management strategy of HEV | |
CN114670803A (zh) | 基于自我监督学习的并联式混合动力汽车能量管理方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |