CN112158189A - 基于机器视觉和深度学习的混合动力汽车能量管理方法 - Google Patents
基于机器视觉和深度学习的混合动力汽车能量管理方法 Download PDFInfo
- Publication number
- CN112158189A CN112158189A CN202011060544.9A CN202011060544A CN112158189A CN 112158189 A CN112158189 A CN 112158189A CN 202011060544 A CN202011060544 A CN 202011060544A CN 112158189 A CN112158189 A CN 112158189A
- Authority
- CN
- China
- Prior art keywords
- neural network
- energy management
- strategy
- method based
- hybrid electric
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- B—PERFORMING OPERATIONS; TRANSPORTING
- B60—VEHICLES IN GENERAL
- B60W—CONJOINT CONTROL OF VEHICLE SUB-UNITS OF DIFFERENT TYPE OR DIFFERENT FUNCTION; CONTROL SYSTEMS SPECIALLY ADAPTED FOR HYBRID VEHICLES; ROAD VEHICLE DRIVE CONTROL SYSTEMS FOR PURPOSES NOT RELATED TO THE CONTROL OF A PARTICULAR SUB-UNIT
- B60W10/00—Conjoint control of vehicle sub-units of different type or different function
- B60W10/04—Conjoint control of vehicle sub-units of different type or different function including control of propulsion units
- B60W10/06—Conjoint control of vehicle sub-units of different type or different function including control of propulsion units including control of combustion engines
-
- B—PERFORMING OPERATIONS; TRANSPORTING
- B60—VEHICLES IN GENERAL
- B60W—CONJOINT CONTROL OF VEHICLE SUB-UNITS OF DIFFERENT TYPE OR DIFFERENT FUNCTION; CONTROL SYSTEMS SPECIALLY ADAPTED FOR HYBRID VEHICLES; ROAD VEHICLE DRIVE CONTROL SYSTEMS FOR PURPOSES NOT RELATED TO THE CONTROL OF A PARTICULAR SUB-UNIT
- B60W10/00—Conjoint control of vehicle sub-units of different type or different function
- B60W10/04—Conjoint control of vehicle sub-units of different type or different function including control of propulsion units
- B60W10/08—Conjoint control of vehicle sub-units of different type or different function including control of propulsion units including control of electric propulsion units, e.g. motors or generators
-
- B—PERFORMING OPERATIONS; TRANSPORTING
- B60—VEHICLES IN GENERAL
- B60W—CONJOINT CONTROL OF VEHICLE SUB-UNITS OF DIFFERENT TYPE OR DIFFERENT FUNCTION; CONTROL SYSTEMS SPECIALLY ADAPTED FOR HYBRID VEHICLES; ROAD VEHICLE DRIVE CONTROL SYSTEMS FOR PURPOSES NOT RELATED TO THE CONTROL OF A PARTICULAR SUB-UNIT
- B60W10/00—Conjoint control of vehicle sub-units of different type or different function
- B60W10/24—Conjoint control of vehicle sub-units of different type or different function including control of energy storage means
- B60W10/26—Conjoint control of vehicle sub-units of different type or different function including control of energy storage means for electrical energy, e.g. batteries or capacitors
-
- B—PERFORMING OPERATIONS; TRANSPORTING
- B60—VEHICLES IN GENERAL
- B60W—CONJOINT CONTROL OF VEHICLE SUB-UNITS OF DIFFERENT TYPE OR DIFFERENT FUNCTION; CONTROL SYSTEMS SPECIALLY ADAPTED FOR HYBRID VEHICLES; ROAD VEHICLE DRIVE CONTROL SYSTEMS FOR PURPOSES NOT RELATED TO THE CONTROL OF A PARTICULAR SUB-UNIT
- B60W20/00—Control systems specially adapted for hybrid vehicles
- B60W20/10—Controlling the power contribution of each of the prime movers to meet required power demand
- B60W20/15—Control strategies specially adapted for achieving a particular effect
-
- B—PERFORMING OPERATIONS; TRANSPORTING
- B60—VEHICLES IN GENERAL
- B60W—CONJOINT CONTROL OF VEHICLE SUB-UNITS OF DIFFERENT TYPE OR DIFFERENT FUNCTION; CONTROL SYSTEMS SPECIALLY ADAPTED FOR HYBRID VEHICLES; ROAD VEHICLE DRIVE CONTROL SYSTEMS FOR PURPOSES NOT RELATED TO THE CONTROL OF A PARTICULAR SUB-UNIT
- B60W50/00—Details of control systems for road vehicle drive control not related to the control of a particular sub-unit, e.g. process diagnostic or vehicle driver interfaces
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02T—CLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
- Y02T10/00—Road transport of goods or passengers
- Y02T10/10—Internal combustion engine [ICE] based vehicles
- Y02T10/40—Engine management systems
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02T—CLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
- Y02T10/00—Road transport of goods or passengers
- Y02T10/60—Other road transportation technologies with climate change mitigation effect
- Y02T10/62—Hybrid vehicles
Landscapes
- Engineering & Computer Science (AREA)
- Chemical & Material Sciences (AREA)
- Combustion & Propulsion (AREA)
- Transportation (AREA)
- Mechanical Engineering (AREA)
- Physics & Mathematics (AREA)
- Automation & Control Theory (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- General Engineering & Computer Science (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Computation (AREA)
- General Health & Medical Sciences (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Biomedical Technology (AREA)
- General Physics & Mathematics (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Life Sciences & Earth Sciences (AREA)
- Health & Medical Sciences (AREA)
- Human Computer Interaction (AREA)
- Electric Propulsion And Braking For Vehicles (AREA)
Abstract
本发明公开了一种基于机器视觉和深度学习的混合动力汽车能量管理方法,属于混合动力汽车能量管理领域,方法主要包括:基于卷积神经网络(CNN)的目标检测方法,从车载摄像机中提取可用的视觉信息,进一步建立基于摄像机和CNN的视觉处理模块;利用DRL算法,建立基于DRL的混合动力汽车能量管理方法;进一步利用深度确定性策略梯度(DDPG)算法,构建DDPG控制器;将视觉处模块和基于DRL的能量管理方法相结合,通过DDPG控制器,建立基于机器视觉和深度强化学习的混合动力汽车能量管理方法,实现在线实时控制车辆的功率分配。本发明所提出的方法能够共用自动驾驶汽车的视觉感知传感器,保证能量管理策略的实时性,进一步提高车辆的燃油经济性。
Description
技术领域
本发明涉及一种机器视觉和深度学习技术,属于混合动力汽车能量管理技术领域。
背景技术
能源短缺、环境污染、气候变暖是全球汽车产业面临的共同挑战,因此先进的节能技术得到了越来越多的重视,其目的是最大限度地提高能源效率和减少排放。相比纯电动汽车,混合动力汽车(HEV)具有省油、易于开发和环保的特点,被认为是汽车制造商和消费者最实惠的选择。HEV是一种利用燃油发动机和电机混合驱动的新型节能环保型汽车,其具有多个能量源。因此,在车辆多电源运行时,对能量管理策略(EMS)进行合理的制定是必不可少的,可进一步调整和协调来自多个来源的输出功率,以满足不同驾驶条件下的功率要求,最大限度地提高动力传动系统的效率和降低燃油消耗。
现如今,在HEV上应用的EMS主要是利用现有的历史信息来预测未来的行驶状况,并将预测的情况输入到全局优化算法中。一方面,在有限的数据源下很难做出未来的预测。另一方面,对于全局优化算法来说,需要消耗大量的计算资源,这阻碍了它们在实时控制中的应用。近些年来,各种类型的车载传感器,如雷达传感器、摄像机和超声波传感器,已广泛应用于车辆中。相比其他传感器,相机具有低成本和捕捉信息丰富等优点。车载传感器扩展了现代车辆的信息来源,也有望提高混合动力汽车的燃油效率。现代汽车的机器视觉系统对驾驶环境提供了丰富的信息,这对于实现生态驾驶非常有益。同时,近年来深度强化学习方法的发展极大地促进了视觉处理技术的发展,包括目标检测、可驾驶路段、交通灯检测等。因此,随着汽车传感技术和智能化的发展,利用智能传感和控制算法在线实时调整多个来源的输出功率,可以有效提高能量管理策略的控制效果,提高汽车整车性能。
发明内容
为了解决上述本领域中存在的技术问题,本发明提供了一种基于机器视觉和深度学习的混合动力汽车能量管理方法。将检测到的视觉信息作为一个连续的深度学习模型的状态输入,通过DDPG控制器在线实时地调整电机与发动机的输出功率,提高对工况的适应性,使电机与发动机始终在高效率区间运作,降低燃油消耗量,提高燃油经济性。
为了实现上述目的,本发明采用了如下技术方案:
一种基于机器视觉和深度学习的混合动力汽车能量管理方法,包括以下步骤:
步骤1:建立基于卷积神经网络的目标检测方法,从车载摄像机中提取可用的视觉信息,进一步建立基于摄像机和卷积神经网络的视觉处理模块;
步骤2:利用深度强化学习算法,建立基于深度学习算法的混合动力汽车能量管理方法;
步骤3:利用深度确定性策略梯度算法,构建深度确定性策略梯度控制器;
步骤4:将视觉处理模块和基于深度学习的混合动力汽车能量管理方法相结合,通过深度确定性策略梯度控制器,建立基于机器视觉和深度学习的混合动力汽车能量管理方法,实现在线实时控制车辆的功率分配。
作为更进一步的优选方案,所述步骤1中,建立基于卷积神经网络的目标检测方法,包括:输入车载传感器检测的图像、YOLO网络结构和YOLO检测系统;YOLO网络结构包括YOLOv3,YOLOv3为含有53个卷积层的网络结构;其中,YOLO检测系统包括:车辆检测、红灯检测和绿灯检测。
作为更进一步的优选方案,所述步骤2中,基于深度学习算法的混合动力汽车能量管理方法可看作马尔可夫决策过程,具体包括以下步骤:
步骤A:定义深度学习中的状态、动作、奖励函数、最优动作-值函数以及最优控制策略;
步骤B:深度学习agent接收环境观测值,并根据当前控制策略对执行一个动作;
步骤C:环境对此动作做出响应,又进入一个新的状态,并将新的状态和此动作所带来的奖励返回深度强化学习agent;
步骤D:在新的状态中,agent又将继续执行动作,以此类推,深度学习agent与环境不断地交互,直到得到最优动作-值函数(Q值)以及最优控制策略。
作为更进一步的优选方案,所述步骤A中确定深度学习中的状态和动作,奖励函数、最优动作-值函数以及最优控制策略;具体包括:状态分别为视觉处理模块提供的视觉信息、当前时刻汽车的车速、当前时刻汽车加速度以及动力电池荷电状态SOC;动作为由连续变量组成的发动机和电机的输出功率;定义奖励函数,包含低油耗和SOC稳定性两部分,所述奖励函数reward的具体计算公式为:
上式中,R(s,a)为在状态s下选择行动a的奖励函数;R1(s,a)为奖励函数reward1;R2(s,a)为奖励函数reward 2;cost为发动机燃油消耗量;t∈[0.T]表示时间范围;γ为正权重因子;SOC(t)为t时刻下动力电池荷电状态;SOCr为一个预先指定的常数,用于维持电荷;
最优动作-值函数的具体计算公式为:
Q*(s,a)=Qπ(s,a)=maxE[Rt+1+λQ*(st+1,at+1)st,at]
上式中,Qπ(s,a)是在策略π状态s下选择行动a的动作-值函数;st,at为时刻t下的状态,动作;st+1,at+1,Rt+1为时刻t+1下的状态,动作以及奖励函数;λ∈[0,1]为折扣因子;
作为更进一步的优选方案,所述步骤3中,深度确定性策略梯度控制器的构建包括以下步骤,
步骤A:定义深度确定性策略梯度中的行为策略behavior policy;
步骤B:建立策略的神经网络和基于价值的神经网络,完成对深度确定性策略梯度控制器的构建。
作为更进一步的优选方案,所述步骤A中的定义深度确定性策略梯度中的行为策略behavior policy,具体包括:根据当前策略和使用随机Ornstein-Uhlenbeck引入探索噪声OUAN生成的随机过程,从这个随机过程获得执行动作,OUAN过程可表示为:
dXt′=β(Xt′-μ)dt′+σdWt′
上式中,Wt′是一个标准的Wiener过程;μ为平均噪声,包括两种情况,一方面,可以将μ设定为发动机的输出功率;另一方面,考虑到燃油经济性和电池SOC稳定性,也可以将μ设定为电池SOC;β为均值回归的程度;σ控制噪声的范围;dt′是噪声的时间步长。
作为更进一步的优选方案,所述步骤B中建立基于策略的神经网络和基于价值的神经网络,完成对DDPG控制器的构建,具体包括:确定性行为策略基于策略的神经网络包括估计神经网络和目标神经网络,二者内部结构一样,估计网络用来输出实时的动作,供Actor在目标网络中实行,而目标网络则是用来更新基于价值的神经网络;基于价值的神经网络也包括估计神经网络和目标神经网络,二者内部结构一样;在建立基于策略网络时,其神经网络的输入为状态观测值,即视觉处理模块提供的视觉信息以及当前时刻汽车的车速、当前时刻汽车加速度以及动力电池荷电状态SOC,输出为控制量;在建立基于价值网络时,其中输入有两个:一是状态观测值,二是控制量,输出为Q值。
作为更进一步的优选方案,所述步骤4中,基于机器视觉和深度学习的混合动力汽车能量管理方法包括以下步骤:
步骤A:离线训练;通过深度确定性策略梯度控制器对模型进行训练,学习控制策略即输入状态与动作参数之间的映射关系;
步骤B:将各个训练完成后的神经网络的参数读取出来,并将控制策略下载到整车控制器VCU中;
步骤C:在线学习;获取当前时刻有关车辆状态及交通状态的有关信息,共同作用于已训练完成的神经网络,通过DDPG控制器在线实时调节,完成对功率分配决策的更新。
作为更进一步的优选方案,所述步骤A中通过深度确定性策略梯度控制器对模型进行训练,学习输入状态与动作参数之间的映射关系,具体包括以下步骤:
Ⅰ:初始化actor\critic的regular神经网络参数θQ和θπ,将regular的神经网络参数拷贝给对应的target网络参数:θQ′←θQ,θπ′←θπ;初始化经验池Memory batch空间R;
Ⅱ:初始化Ornstein-Uhlenbeck(OU)过程;
Ⅲ:actor根据behavior策略β选择一个动作at,下达给environment执行该at;
at=π(st|θπ)+Nt;
Ⅳ:environment执行该at,返回reward rt和新的状态st+1;
Ⅴ:actor将这个状态转换过程(transition):(st,at,rt,st+1)保存到经验池Memory batch空间R;
Ⅵ:从经验池Memory batch空间R中随机选取部分样本,用(sj,aj,rj,sj+1)表示,然后训练更新target神经网络,学习过程为:
yj=rj+λQ′(sj+1,π′(sj+1|θπ′)|θQ′)
上式中,yj为标签;rj为学习过程中的奖励;λ为折扣因子;θπ′与θQ′为目标权重;
Ⅶ:定义Loss函数,用于网络更新,Loss函数为:
上式中,L表示损失函数,M为采样数据个数;
Ⅷ:计算策略网络的策略梯度:
Ⅸ:通过SGA/SGD算法更新θQθπ,然后再通过soft update算法更新target网络的参数,θQ′←τθQ+(1-τ)θQ′,θπ←τθπ+(1-τ)θπ′;
Ⅹ:当训练步数完成后,DDPG模型训练完成。
本发明将机器视觉与深度学习相结合,来提高混合动力汽车的燃油经济性。该方法能够从视觉输入中自主学习最优控制策略。采用最新的基于卷积神经网络的目标检测方法,从车载摄像机中提取可用的视觉信息。将检测到的视觉信息作为一个连续的深度强化学习模型的状态输入,输出能量管理策略。仿真结果表明,在100公里的真实城市道路和高速公路行驶工况下(包含视觉信息),基于深度强化学习的视觉信息系统比没有视觉信息的系统节省燃料4.3%-8.8%,达到全局最优动态规划的燃油经济性96.5%。
附图说明
图1是本发明实施例中提供的一种基于摄像机和CNN的视觉处理模块结构示意图;
图2是本发明实施例中提供的一种基于DRL的能量管理方法结构示意图;
图3是本发明实施例中提供的DDPG算法结构示意图;
图4是本发明实施例中提供的一种基于机器视觉和深度学习的混合动力汽车能量管理方法结构示意图。
具体实施方式
为了使本发明的目的、技术方案和优点更加清楚,下面将结合说明书附图对本发明的实施方式做进一步地详细叙述。
一种基于机器视觉和深度学习的混合动力汽车能量管理策略,包括以下步骤:
步骤1:建立基于卷积神经网络(CNN)的目标检测方法,从车载摄像机中提取可用的视觉信息,进一步建立基于摄像机和CNN的视觉处理模块;
步骤2:利用深度学习(DRL)算法,建立基于DRL的混合动力汽车能量管理方法;
步骤3:利用深度确定性策略梯度(DDPG)算法,构建DDPG控制器;
步骤4:将视觉处理模块和基于DRL的混合动力汽车能量管理方法相结合,通过DDPG控制器,建立基于机器视觉和深度学习的混合动力汽车能量管理方法,实现在线实时控制车辆的功率分配。
图1是本发明实施例中提供的一种基于DRL的能量管理方法结构示意图,请参见图1,根据结构示意图,具体包括输入车载传感器检测的图像、You Only Look Once(YOLO)网络结构和You Only Look Once(YOLO)检测系统。YOLOv3为含有53个卷积层的网络结构。YOLO网络结构包括YOLOv3,YOLO检测系统包括:车辆检测、红灯检测和绿灯检测。
图2是本发明实施例中提供的基于DRL的能量管理方法结构示意图,请参见图2,按照流程示意图,完成对混合动力汽车基于DRL的能量管理方法的设计。
基于DRL的能量管理方法可看作马尔可夫决策过程(MDP),具体包括以下步骤:
步骤A:定义DRL中的状态(state)、动作(action)以及奖励函数(reward)、最优动作-值函数以及最优控制策略;
步骤B:DRL agent接收环境观测值,并根据当前控制策略对执行一个动作;
步骤C:环境对此动作做出响应,又进入一个新的状态,并将新的状态和此动作所带来的奖励返回DRL agent;
步骤D:在新的状态中,agent又将继续执行动作。以此类推,DRL agent与环境不断地交互,直到得到最优动作-值函数(Q值)以及最优控制策略。
上述步骤A中确定DRL中的状态(state)和动作(action),具体包括:状态(state)分别为视觉处理模块提供的视觉信息、当前时刻汽车的车速、当前时刻汽车加速度以及动力电池荷电状态SOC;动作(action)为由连续变量组成的发动机和电机的输出功率;定义奖励函数,包含低油耗和SOC稳定性两部分,所述奖励函数reward的具体计算公式为:
上式中,R(s,a)为在状态s下选择行动a的奖励函数;R1(s,a)为奖励函数reward1;R2(s,a)为奖励函数reward 2;cost为发动机燃油消耗量;t∈[0.T]表示时间范围;γ为正权重因子;SOC(t)为t时刻下动力电池荷电状态;SOCr为一个预先指定的常数,用于维持电荷;
上述步骤A中所述最优动作-值函数的具体计算公式为:
Q*(s,a)=Qπ(s,a)=maxE[Rt+1+λQ*(st+1,at+1)st,at]
上式中,Qπ(s,a)是在策略π状态s下选择行动a的动作-值函数;st,at为时刻t下的状态,动作;st+1,at+1,Rt+1为时刻t+1下的状态,动作以及奖励函数;λ∈[0,1]为折扣因子;
图3是本发明实施例中提供的DDPG算法结构示意图,请参见图3。
在构建DDPG控制器时,具体包括以下步骤:
步骤A:定义DDPG中的行为策略behavior policy;
步骤B:建立策略的神经网络和基于价值的神经网络,完成对DDPG控制器的构建。
上述步骤A中所述行为策略behavior policy为一个根据当前策略和使用随机Ornstein-Uhlenbeck引入探索噪声N(OUAN)生成的随机过程,从这个随机过程获得执行动作。OUAN过程可表示为:
dXt′=β(Xt′-μ)dt′+σdWt′
上式中,Wt′是一个标准的Wiener过程;μ为平均噪声,包括两种情况,一方面,可以将μ设定为发动机的输出功率;另一方面,考虑到燃油经济性和电池SOC稳定性,也可以将μ设定为电池SOC;β为均值回归的程度;σ控制噪声的范围;dt′是噪声的时间步长。
上述步骤B中建立基于策略的神经网络和基于价值的神经网络,完成对DDPG控制器的构建,具体包括:确定性行为策略基于策略的神经网络包括估计神经网络(Actorregular network)和目标神经网络(Actor target network),二者内部结构一样,估计网络用来输出实时的动作,供Actor在目标网络中实行,而目标网络则是用来更新基于价值的神经网络;基于价值的神经网络也包括估计神经网络(Critic regular network)和目标神经网络(Critic target network),二者内部结构一样。在建立基于策略的网络时,其神经网络的输入为状态观测值(state),即车辆车载摄像头观测的图像以及当前时刻汽车的车速、当前时刻汽车加速度以及动力电池荷电状态SOC,输出为控制量(action);在建立基于价值的网络时,其中输入有两个:一是状态观测值(state),二是控制量(action),输出为Q值。
图4是本发明实施例中提供的基于机器视觉和深度学习的混合动力汽车能量管理方法结构示意图,请参见图4。
建立基于机器视觉和深度学习的混合动力汽车能量管理方法,具体包括以下步骤:
步骤A:离线训练。通过DDPG控制器对模型进行训练,学习控制策略即输入状态(视觉处理模块提供的视觉信息、汽车的车速、加速度以及动力电池荷电状态SOC;)与动作参数(发动机和电机的输出功率)之间的映射关系。
步骤B:将各个训练完成后的神经网络的参数读取出来,并将控制策略下载到整车控制器VCU中。
步骤C:在线学习。获取当前时刻有关车辆状态及交通状态的有关信息,共同作用于已训练完成的神经网络,通过DDPG控制器在线实时调节,完成对功率分配决策的更新。
上述步骤A中通过DDPG控制器对模型进行训练,学习输入状态与动作参数之间的映射关系,具体包括以下步骤:
Ⅰ:初始化actor\critic的regular神经网络参数θQ和θπ,将regular的神经网络参数拷贝给对应的target网络参数:θQ′←θQ,θπ′←θπ;初始化经验池Memory batch空间R;
Ⅱ:初始化Ornstein-Uhlenbeck(OU)过程;
Ⅲ:actor根据behavior策略β选择一个动作at,下达给environment执行该at;
at=π(st|θπ)+Nt;
Ⅳ:environment执行该at,返回reward rt和新的状态st+1;
Ⅴ:actor将这个状态转换过程(transition):(st,at,rt,st+1)保存到经验池Memory batch空间R;
Ⅵ:从经验池Memory batch空间R中随机选取部分样本,用(sj,aj,rj,sj+1)表示,然后训练更新target神经网络,学习过程为:
yj=rj+λQ′(sj+1,π′(sj+1|θπ′)|θQ′)
上式中,yj为标签;rj为学习过程中的奖励;λ为折扣因子;θπ′与θQ′为目标权重;
Ⅶ:定义Loss函数,用于网络更新,Loss函数为:
上式中,L表示损失函数,M为采样数据个数;
Ⅷ:计算策略网络的策略梯度:
Ⅸ:通过SGA/SGD算法更新θQθπ,然后再通过soft update算法更新target网络的参数,θQ′←τθQ+(1-τ)θQ′,θπ←τθπ+(1-τ)θπ′;
Ⅹ:当训练步数完成后,DDPG模型训练完成。
以上所述,仅为本发明较佳的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,根据本发明的技术方案及其发明构思加以等同替换或改变,都应涵盖在本发明的保护范围之内。
Claims (9)
1.一种基于机器视觉和深度学习的混合动力汽车能量管理方法,其特征在于,包括以下步骤:
步骤1:建立基于卷积神经网络的目标检测方法,从车载摄像机中提取可用的视觉信息,进一步建立基于摄像机和卷积神经网络的视觉处理模块;
步骤2:利用深度学习算法,建立基于深度学习算法的混合动力汽车能量管理方法;
步骤3:利用深度确定性策略梯度算法,构建深度确定性策略梯度控制器;
步骤4:将视觉处理模块和基于深度学习的混合动力汽车能量管理方法相结合,通过深度确定性策略梯度控制器,建立基于机器视觉和深度学习的混合动力汽车能量管理方法,实现在线实时控制车辆的功率分配。
2.根据权利要求1所述的一种基于机器视觉和深度学习的混合动力汽车能量管理方法,其特征在于:所述步骤1中,建立基于卷积神经网络的目标检测方法,包括:输入车载传感器检测的图像、YOLO网络结构和YOLO检测系统;YOLO网络结构包括YOLOv3,YOLOv3为含有53个卷积层的网络结构;其中,YOLO检测系统包括:车辆检测、红灯检测和绿灯检测。
3.根据权利要求1所述的一种基于机器视觉和深度学习的混合动力汽车能量管理方法,其特征在于:所述步骤2中,基于深度学习算法的混合动力汽车能量管理方法可看作马尔可夫决策过程,具体包括以下步骤:
步骤A:定义深度强化学习中的状态、动作、奖励函数、最优动作-值函数以及最优控制策略;
步骤B:深度强化学习agent接收环境观测值,并根据当前控制策略对执行一个动作;
步骤C:环境对此动作做出响应,又进入一个新的状态,并将新的状态和此动作所带来的奖励返回深度强化学习agent;
步骤D:在新的状态中,agent又将继续执行动作,以此类推,深度强化学习agent与环境不断地交互,直到得到最优动作-值函数(Q值)以及最优控制策略。
4.根据权利要求3所述的一种基于机器视觉和深度学习的混合动力汽车能量管理方法,其特征在于:所述步骤A中确定深度强化学习中的状态和动作,奖励函数、最优动作-值函数以及最优控制策略;具体包括:状态分别为视觉处理模块提供的视觉信息、当前时刻汽车的车速、当前时刻汽车加速度以及动力电池荷电状态SOC;动作为由连续变量组成的发动机和电机的输出功率;定义奖励函数,包含低油耗和SOC稳定性两部分,所述奖励函数reward的具体计算公式为:
上式中,R(s,a)为在状态s下选择行动a的奖励函数;R1(s,a)为奖励函数reward 1;R2(s,a)为奖励函数reward 2;cost为发动机燃油消耗量;t∈[0.T]表示时间范围;γ为正权重因子;SOC(t)为t时刻下动力电池荷电状态;SOCr为一个预先指定的常数,用于维持电荷;
最优动作-值函数的具体计算公式为:
Q*(s,a)=Qπ(s,a)=max E[Rt+1+λQ*(st+1,at+1)|st,at]
上式中,Qπ(s,a)是在策略π状态s下选择行动a的动作-值函数;st,at为时刻t下的状态,动作;st+1,at+1,Rt+1为时刻t+1下的状态,动作以及奖励函数;λ∈[0,1]为折扣因子;
5.根据权利要求1所述的一种基于机器视觉和深度学习的混合动力汽车能量管理方法,其特征在于:所述步骤3中,深度确定性策略梯度控制器的构建包括以下步骤,
步骤A:定义深度确定性策略梯度中的行为策略behavior policy;
步骤B:建立基于策略的神经网络和基于价值的神经网络,完成对深度确定性策略梯度控制器的构建。
6.根据权利要求5所述的一种基于机器视觉和深度学习的混合动力汽车能量管理方法,其特征在于:所述步骤A中的定义深度确定性策略梯度中的行为策略behavior policy,具体包括:根据当前策略和使用随机Ornstein-Uhlenbeck引入探索噪声OUAN生成的随机过程,从这个随机过程获得执行动作,OUAN过程可表示为:
dXt′=β(Xt′-μ)dt′+σdWt′
上式中,Wt′是一个标准的Wiener过程;μ为平均噪声,包括两种情况,一方面,可以将μ设定为发动机的输出功率;另一方面,考虑到燃油经济性和电池SOC稳定性,也可以将μ设定为电池SOC;β为均值回归的程度;σ控制噪声的范围;dt′是噪声的时间步长。
7.根据权利要求5所述的一种基于机器视觉和深度学习的混合动力汽车能量管理方法,其特征在于:所述步骤B中建立基于策略的神经网络和基于价值的神经网络,完成对DDPG控制器的构建,具体包括:确定性行为策略基于策略的神经网络包括估计神经网络和目标神经网络,二者内部结构一样,估计网络用来输出实时的动作,供Actor在目标网络中实行,而目标网络则是用来更新基于价值的神经网络;基于价值的神经网络也包括估计神经网络和目标神经网络,二者内部结构一样;在建立基于策略网络时,其神经网络的输入为状态观测值,即视觉处理模块提供的视觉信息以及当前时刻汽车的车速、当前时刻汽车加速度以及动力电池荷电状态SOC,输出为控制量;在建立基于价值网络时,其中输入有两个:一是状态观测值,二是控制量,输出为Q值。
8.根据权利要求1所述的一种基于机器视觉和深度学习的混合动力汽车能量管理方法,其特征在于:所述步骤4中,基于机器视觉和深度强化学习的混合动力汽车能量管理方法包括以下步骤:
步骤A:离线训练;通过深度确定性策略梯度控制器对模型进行训练,学习控制策略即输入状态与动作参数之间的映射关系;
步骤B:将各个训练完成后的神经网络的参数读取出来,并将控制策略下载到整车控制器VCU中;
步骤C:在线学习;获取当前时刻有关车辆状态及交通状态的有关信息,共同作用于已训练完成的神经网络,通过DDPG控制器在线实时调节,完成对功率分配决策的更新。
9.根据权利要求8所述的一种基于机器视觉和深度强化学习的混合动力汽车能量管理方法,其特征在于:所述步骤A中通过深度确定性策略梯度控制器对模型进行训练,学习输入状态与动作参数之间的映射关系,具体包括以下步骤:
Ⅰ:初始化actor\critic的regular神经网络参数θQ和θπ,将regular的神经网络参数拷贝给对应的target网络参数:θQ′←θQ,θπ′←θπ;初始化经验池Memory batch空间R;
Ⅱ:初始化Ornstein-Uhlenbeck(OU)过程;
Ⅲ:actor根据behavior策略β选择一个动作at,下达给environment执行该at;
at=π(st|θπ)+Nt;
Ⅳ:environment执行该at,返回reward rt和新的状态st+1;
Ⅴ:actor将这个状态转换过程(transition):(st,at,rt,st+1)保存到经验池Memorybatch空间R;
Ⅵ:从经验池Memory batch空间R中随机选取部分样本,用(sj,aj,rj,sj+1)表示,然后训练更新target神经网络,学习过程为:
yj=rj+λQ′(sj+1,π′(sj+1|θπ′)|θQ′)
上式中,yj为标签;rj为学习过程中的奖励;λ为折扣因子;θπ′与θQ′为目标权重;
Ⅶ:定义Loss函数,用于网络更新,Loss函数为:
上式中,L表示损失函数,M为采样数据个数;
Ⅷ:计算策略网络的策略梯度:
Ⅸ:通过SGA/SGD算法更新θQθπ,然后再通过soft update算法更新target网络的参数,θQ′←τθQ+(1-τ)θQ′,θπ←τθπ+(1-τ)θπ′;
Ⅹ:当训练步数完成后,DDPG模型训练完成。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011060544.9A CN112158189A (zh) | 2020-09-30 | 2020-09-30 | 基于机器视觉和深度学习的混合动力汽车能量管理方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011060544.9A CN112158189A (zh) | 2020-09-30 | 2020-09-30 | 基于机器视觉和深度学习的混合动力汽车能量管理方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN112158189A true CN112158189A (zh) | 2021-01-01 |
Family
ID=73860828
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202011060544.9A Pending CN112158189A (zh) | 2020-09-30 | 2020-09-30 | 基于机器视觉和深度学习的混合动力汽车能量管理方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112158189A (zh) |
Cited By (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112550272A (zh) * | 2020-12-14 | 2021-03-26 | 重庆大学 | 基于视觉感知与深度强化学习的智能混合动力汽车分层控制方法 |
CN112991384A (zh) * | 2021-01-27 | 2021-06-18 | 西安电子科技大学 | 基于ddpg的发射资源智能认知管理方法 |
CN113051667A (zh) * | 2021-03-29 | 2021-06-29 | 东南大学 | 一种混合动力汽车能量管理策略的加速学习方法 |
CN113264031A (zh) * | 2021-07-07 | 2021-08-17 | 重庆大学 | 基于路面识别与深度强化学习的混合动力系统控制方法 |
CN113269963A (zh) * | 2021-05-20 | 2021-08-17 | 东南大学 | 一种基于强化学习的网联车辆信号灯控路口经济通行方法 |
CN113665593A (zh) * | 2021-10-22 | 2021-11-19 | 智己汽车科技有限公司 | 一种车辆智能驾驶纵向控制方法、系统及存储介质 |
CN115495997A (zh) * | 2022-10-28 | 2022-12-20 | 东南大学 | 一种基于异构多智能体深度强化学习的新能源汽车生态驾驶方法 |
CN116946162A (zh) * | 2023-09-19 | 2023-10-27 | 东南大学 | 考虑路面附着条件的智能网联商用车安全驾驶决策方法 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20200139973A1 (en) * | 2018-11-01 | 2020-05-07 | GM Global Technology Operations LLC | Spatial and temporal attention-based deep reinforcement learning of hierarchical lane-change policies for controlling an autonomous vehicle |
CN111267831A (zh) * | 2020-02-28 | 2020-06-12 | 南京航空航天大学 | 一种混合动力车辆智能变时域模型预测能量管理方法 |
CN111311945A (zh) * | 2020-02-20 | 2020-06-19 | 南京航空航天大学 | 一种融合视觉和传感器信息的驾驶决策系统及方法 |
CN111433785A (zh) * | 2017-10-19 | 2020-07-17 | 通用电气公司 | 用于自动化图像特征提取的深度学习架构 |
US20200265305A1 (en) * | 2017-10-27 | 2020-08-20 | Deepmind Technologies Limited | Reinforcement learning using distributed prioritized replay |
-
2020
- 2020-09-30 CN CN202011060544.9A patent/CN112158189A/zh active Pending
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111433785A (zh) * | 2017-10-19 | 2020-07-17 | 通用电气公司 | 用于自动化图像特征提取的深度学习架构 |
US20200265305A1 (en) * | 2017-10-27 | 2020-08-20 | Deepmind Technologies Limited | Reinforcement learning using distributed prioritized replay |
US20200139973A1 (en) * | 2018-11-01 | 2020-05-07 | GM Global Technology Operations LLC | Spatial and temporal attention-based deep reinforcement learning of hierarchical lane-change policies for controlling an autonomous vehicle |
CN111311945A (zh) * | 2020-02-20 | 2020-06-19 | 南京航空航天大学 | 一种融合视觉和传感器信息的驾驶决策系统及方法 |
CN111267831A (zh) * | 2020-02-28 | 2020-06-12 | 南京航空航天大学 | 一种混合动力车辆智能变时域模型预测能量管理方法 |
Non-Patent Citations (5)
Title |
---|
YONGWANG: "Hybrid Electric Vehicle Energy Management With Computer Vision and Deep Reinforcement Learning", 《IEEE TRANSADIONS ON INDUSTIAL INFORMATICS》 * |
周苏: "基于车载视频图像的车辆检测与跟踪算法", 《同济大学学报》 * |
李明玉: "能量收集 MQAM 无线通信系统基于强化学习的资源分配", 《中国优秀硕士学位论文全文数据库信息科技辑》 * |
胡悦: "混合动力电动汽车控制系统设计与能量管理策略研究", 《中国优秀博士学位论文全文数据库工程科技Ⅱ辑》 * |
陈代云(译): "《数理金融基准分析法》", 31 January 2020, 上海格致、上海人民出版社 * |
Cited By (13)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112550272A (zh) * | 2020-12-14 | 2021-03-26 | 重庆大学 | 基于视觉感知与深度强化学习的智能混合动力汽车分层控制方法 |
CN112991384B (zh) * | 2021-01-27 | 2023-04-18 | 西安电子科技大学 | 基于ddpg的发射资源智能认知管理方法 |
CN112991384A (zh) * | 2021-01-27 | 2021-06-18 | 西安电子科技大学 | 基于ddpg的发射资源智能认知管理方法 |
CN113051667A (zh) * | 2021-03-29 | 2021-06-29 | 东南大学 | 一种混合动力汽车能量管理策略的加速学习方法 |
CN113051667B (zh) * | 2021-03-29 | 2024-02-02 | 东南大学 | 一种混合动力汽车能量管理策略的加速学习方法 |
CN113269963A (zh) * | 2021-05-20 | 2021-08-17 | 东南大学 | 一种基于强化学习的网联车辆信号灯控路口经济通行方法 |
CN113269963B (zh) * | 2021-05-20 | 2021-12-10 | 东南大学 | 一种基于强化学习的网联车辆信号灯控路口经济通行方法 |
CN113264031A (zh) * | 2021-07-07 | 2021-08-17 | 重庆大学 | 基于路面识别与深度强化学习的混合动力系统控制方法 |
CN113665593A (zh) * | 2021-10-22 | 2021-11-19 | 智己汽车科技有限公司 | 一种车辆智能驾驶纵向控制方法、系统及存储介质 |
CN115495997A (zh) * | 2022-10-28 | 2022-12-20 | 东南大学 | 一种基于异构多智能体深度强化学习的新能源汽车生态驾驶方法 |
CN115495997B (zh) * | 2022-10-28 | 2024-01-30 | 东南大学 | 一种基于异构多智能体深度强化学习的新能源汽车生态驾驶方法 |
CN116946162A (zh) * | 2023-09-19 | 2023-10-27 | 东南大学 | 考虑路面附着条件的智能网联商用车安全驾驶决策方法 |
CN116946162B (zh) * | 2023-09-19 | 2023-12-15 | 东南大学 | 考虑路面附着条件的智能网联商用车安全驾驶决策方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN112158189A (zh) | 基于机器视觉和深度学习的混合动力汽车能量管理方法 | |
CN111267831B (zh) | 一种混合动力车辆智能变时域模型预测能量管理方法 | |
CN111731303B (zh) | 一种基于深度强化学习a3c算法的hev能量管理方法 | |
CN109278752B (zh) | 基于合作感知的插电式混合动力汽车能量优化控制方法 | |
CN109204314B (zh) | 推进高效的自主驾驶策略 | |
CN108819934B (zh) | 一种混合动力车辆的动力分配控制方法 | |
CN110281904A (zh) | 一种混合动力车辆的能量管理方法、装置及终端 | |
CN103587522B (zh) | 一种混合动力汽车动力总成智能控制方法 | |
CN110936949A (zh) | 基于行驶工况的能量控制方法、设备、存储介质及装置 | |
CN111038488B (zh) | 一种混合动力汽车的能量优化控制方法及装置 | |
CN105216782A (zh) | 基于能量预测的插电式混合动力汽车能量管理方法 | |
CN109910866A (zh) | 基于路况预测的混合动力汽车能量管理方法和系统 | |
CN110406526A (zh) | 基于自适应动态规划的并联混合动力汽车能量管理方法 | |
CN111767896A (zh) | 一种清扫车底盘上装协同控制方法及感知识别实现装置 | |
CN115534929A (zh) | 基于多元信息融合的插电式混合动力汽车能量管理方法 | |
Chen et al. | Driving cycle recognition based adaptive equivalent consumption minimization strategy for hybrid electric vehicles | |
CN103661355B (zh) | 一种混合动力汽车动力总成智能控制系统 | |
CN114969982A (zh) | 一种基于策略迁移的燃料电池汽车深度强化学习能量管理方法 | |
CN117922373A (zh) | 一种不同海拔下的增程式电动汽车apu自适应控制方法 | |
CN112084700A (zh) | 一种基于a3c算法的混合动力系统能量管理方法 | |
CN106347373B (zh) | 一种基于电池荷电状态预测的动态规划方法 | |
Zhang et al. | An optimal vehicle speed planning algorithm for regenerative braking at traffic lights intersections based on reinforcement learning | |
CN114872685B (zh) | 混合动力汽车控制方法、装置、混合动力汽车及存储介质 | |
CN113859214B (zh) | 混合动力系统发动机动态能效控制方法及装置 | |
CN113525344B (zh) | 一种p2插电式混合动力汽车电能分配方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20210101 |