CN112339756B - 一种基于强化学习的新能源汽车红绿灯路口能量回收优化速度规划算法 - Google Patents
一种基于强化学习的新能源汽车红绿灯路口能量回收优化速度规划算法 Download PDFInfo
- Publication number
- CN112339756B CN112339756B CN202011098570.0A CN202011098570A CN112339756B CN 112339756 B CN112339756 B CN 112339756B CN 202011098570 A CN202011098570 A CN 202011098570A CN 112339756 B CN112339756 B CN 112339756B
- Authority
- CN
- China
- Prior art keywords
- vehicle
- intersection
- value
- learning
- reinforcement learning
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000004422 calculation algorithm Methods 0.000 title claims abstract description 45
- 230000002787 reinforcement Effects 0.000 title claims abstract description 31
- 238000011084 recovery Methods 0.000 title claims abstract description 27
- 238000005457 optimization Methods 0.000 title claims abstract description 22
- 238000000034 method Methods 0.000 claims abstract description 34
- 238000013528 artificial neural network Methods 0.000 claims abstract description 28
- 238000004088 simulation Methods 0.000 claims abstract description 26
- 230000008569 process Effects 0.000 claims abstract description 21
- 238000012549 training Methods 0.000 claims abstract description 15
- 230000009471 action Effects 0.000 claims description 16
- 238000004364 calculation method Methods 0.000 claims description 9
- 238000004891 communication Methods 0.000 claims description 5
- 238000005070 sampling Methods 0.000 claims description 5
- 238000010606 normalization Methods 0.000 claims description 3
- 238000011160 research Methods 0.000 description 8
- 230000000694 effects Effects 0.000 description 7
- 230000000875 corresponding effect Effects 0.000 description 5
- 238000007726 management method Methods 0.000 description 5
- 239000000446 fuel Substances 0.000 description 4
- 238000010801 machine learning Methods 0.000 description 3
- 238000005096 rolling process Methods 0.000 description 3
- 238000012706 support-vector machine Methods 0.000 description 3
- 235000017166 Bambusa arundinacea Nutrition 0.000 description 2
- 235000017491 Bambusa tulda Nutrition 0.000 description 2
- 241001330002 Bambuseae Species 0.000 description 2
- 235000015334 Phyllostachys viridis Nutrition 0.000 description 2
- 241000156302 Porcine hemagglutinating encephalomyelitis virus Species 0.000 description 2
- 239000011425 bamboo Substances 0.000 description 2
- 230000008901 benefit Effects 0.000 description 2
- 238000005034 decoration Methods 0.000 description 2
- 238000013461 design Methods 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 238000005265 energy consumption Methods 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- BULVZWIRKLYCBC-UHFFFAOYSA-N phorate Chemical class CCOP(=S)(OCC)SCSCC BULVZWIRKLYCBC-UHFFFAOYSA-N 0.000 description 2
- 230000002035 prolonged effect Effects 0.000 description 2
- 230000009467 reduction Effects 0.000 description 2
- 238000012552 review Methods 0.000 description 2
- 238000013473 artificial intelligence Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 230000001276 controlling effect Effects 0.000 description 1
- 238000007796 conventional method Methods 0.000 description 1
- 230000002596 correlated effect Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 238000004134 energy conservation Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000011156 evaluation Methods 0.000 description 1
- 230000005284 excitation Effects 0.000 description 1
- 239000000295 fuel oil Substances 0.000 description 1
- 230000006870 function Effects 0.000 description 1
- 230000002068 genetic effect Effects 0.000 description 1
- 230000007774 longterm Effects 0.000 description 1
- 238000013178 mathematical model Methods 0.000 description 1
- 230000035772 mutation Effects 0.000 description 1
- 230000006855 networking Effects 0.000 description 1
- 239000003921 oil Substances 0.000 description 1
- 238000012545 processing Methods 0.000 description 1
- 238000007670 refining Methods 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
- 238000005309 stochastic process Methods 0.000 description 1
- 239000000126 substance Substances 0.000 description 1
- 238000012360 testing method Methods 0.000 description 1
- 230000001052 transient effect Effects 0.000 description 1
- 238000012795 verification Methods 0.000 description 1
- 239000002699 waste material Substances 0.000 description 1
Images
Classifications
-
- B—PERFORMING OPERATIONS; TRANSPORTING
- B60—VEHICLES IN GENERAL
- B60W—CONJOINT CONTROL OF VEHICLE SUB-UNITS OF DIFFERENT TYPE OR DIFFERENT FUNCTION; CONTROL SYSTEMS SPECIALLY ADAPTED FOR HYBRID VEHICLES; ROAD VEHICLE DRIVE CONTROL SYSTEMS FOR PURPOSES NOT RELATED TO THE CONTROL OF A PARTICULAR SUB-UNIT
- B60W30/00—Purposes of road vehicle drive control systems not related to the control of a particular sub-unit, e.g. of systems using conjoint control of vehicle sub-units
- B60W30/18—Propelling the vehicle
-
- B—PERFORMING OPERATIONS; TRANSPORTING
- B60—VEHICLES IN GENERAL
- B60W—CONJOINT CONTROL OF VEHICLE SUB-UNITS OF DIFFERENT TYPE OR DIFFERENT FUNCTION; CONTROL SYSTEMS SPECIALLY ADAPTED FOR HYBRID VEHICLES; ROAD VEHICLE DRIVE CONTROL SYSTEMS FOR PURPOSES NOT RELATED TO THE CONTROL OF A PARTICULAR SUB-UNIT
- B60W50/00—Details of control systems for road vehicle drive control not related to the control of a particular sub-unit, e.g. process diagnostic or vehicle driver interfaces
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F30/00—Computer-aided design [CAD]
- G06F30/20—Design optimisation, verification or simulation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- B—PERFORMING OPERATIONS; TRANSPORTING
- B60—VEHICLES IN GENERAL
- B60W—CONJOINT CONTROL OF VEHICLE SUB-UNITS OF DIFFERENT TYPE OR DIFFERENT FUNCTION; CONTROL SYSTEMS SPECIALLY ADAPTED FOR HYBRID VEHICLES; ROAD VEHICLE DRIVE CONTROL SYSTEMS FOR PURPOSES NOT RELATED TO THE CONTROL OF A PARTICULAR SUB-UNIT
- B60W50/00—Details of control systems for road vehicle drive control not related to the control of a particular sub-unit, e.g. process diagnostic or vehicle driver interfaces
- B60W2050/0001—Details of the control system
- B60W2050/0002—Automatic control, details of type of controller or control system architecture
-
- B—PERFORMING OPERATIONS; TRANSPORTING
- B60—VEHICLES IN GENERAL
- B60W—CONJOINT CONTROL OF VEHICLE SUB-UNITS OF DIFFERENT TYPE OR DIFFERENT FUNCTION; CONTROL SYSTEMS SPECIALLY ADAPTED FOR HYBRID VEHICLES; ROAD VEHICLE DRIVE CONTROL SYSTEMS FOR PURPOSES NOT RELATED TO THE CONTROL OF A PARTICULAR SUB-UNIT
- B60W50/00—Details of control systems for road vehicle drive control not related to the control of a particular sub-unit, e.g. process diagnostic or vehicle driver interfaces
- B60W2050/0001—Details of the control system
- B60W2050/0002—Automatic control, details of type of controller or control system architecture
- B60W2050/0004—In digital systems, e.g. discrete-time systems involving sampling
-
- B—PERFORMING OPERATIONS; TRANSPORTING
- B60—VEHICLES IN GENERAL
- B60W—CONJOINT CONTROL OF VEHICLE SUB-UNITS OF DIFFERENT TYPE OR DIFFERENT FUNCTION; CONTROL SYSTEMS SPECIALLY ADAPTED FOR HYBRID VEHICLES; ROAD VEHICLE DRIVE CONTROL SYSTEMS FOR PURPOSES NOT RELATED TO THE CONTROL OF A PARTICULAR SUB-UNIT
- B60W2720/00—Output or target parameters relating to overall vehicle dynamics
- B60W2720/10—Longitudinal speed
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02T—CLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
- Y02T10/00—Road transport of goods or passengers
- Y02T10/80—Technologies aiming to reduce greenhouse gasses emissions common to all road transportation technologies
- Y02T10/84—Data processing systems or methods, management, administration
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Evolutionary Computation (AREA)
- Automation & Control Theory (AREA)
- Transportation (AREA)
- Mechanical Engineering (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Life Sciences & Earth Sciences (AREA)
- Mathematical Physics (AREA)
- Data Mining & Analysis (AREA)
- Biophysics (AREA)
- General Health & Medical Sciences (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Biomedical Technology (AREA)
- Artificial Intelligence (AREA)
- Computational Linguistics (AREA)
- Software Systems (AREA)
- Health & Medical Sciences (AREA)
- Computer Hardware Design (AREA)
- Geometry (AREA)
- Human Computer Interaction (AREA)
- Traffic Control Systems (AREA)
- Electric Propulsion And Braking For Vehicles (AREA)
Abstract
本发明公开了一种基于强化学习的新能源汽车红绿灯路口能量回收优化速度规划算法,包括以下步骤:步骤1,判断车辆是否可以在当前限速下通过路口,如果可以通过执行步骤5;如果不能通过刹停执行步骤2;步骤2,由强化学习算法结合车辆仿真模型模拟车辆在路口的制动过程;步骤3,计算在步骤2中车辆获得的奖励值;步骤4,根据步骤3中得到的奖励值,对Q表或神经网络进行训练学习和更新,如果Q表或神经网络已经收敛,则执行步骤5;如果未收敛,则再返回执行步骤2;步骤5,如果上一步骤是步骤4,得到满足条件的优化车速曲线并发送给车辆执行,如果上一步骤是步骤1,由驾驶员规划车速。本发明可实现制动能量的最大化回收。
Description
技术领域
本发明涉及智能网联汽车路口速度规划技术领域,特别是涉及一种基于强化学习的新能源汽车红绿灯路口能量回收优化速度规划算法。
背景技术
在车辆制动过程中利用电机主动回收制动能量,是混合动力汽车、纯电动汽车等新能源汽车实现节能的重要技术途径。其中,红绿灯路口附近的减速制动过程,是新能源车辆运行中面临的典型场景。而路口的车速规划与制动策略,对于车辆的能效具有重要影响。然而,对于传统的车辆控制,由于控制系统能够无法提前获取路口信息,因此,行车过程的速度主要取决于驾驶员的主观判断。由于该过程受到驾驶风格和驾驶经验等多种因素对影响,车辆难以最大化地回收制动动能。
近年来,随着国家智能网联战略的推进和实施,车辆与交通设施、车辆与云,以及车辆与车辆之间的互联逐步实现,走入大众生活。智能网联汽车成为解决城市交通问题、提高车辆通行效率、降低车辆能耗的一种新手段。例如,通过在红绿灯路口建立车载设备与路测设备通信的V2I(Vehicle to Infrastructure)系统,车辆控制系统能够提前获取红绿灯路口的交通信息。在这样的条件下,控制系统可以对车辆的制动过程进行多目标优化,有望改善能量回收效率、路口通行效率,以及驾驶平顺性等。
然而,欲解决上述多目标优化问题,传统方法往往需要准确的车辆和交通信息模型。由于模型的精确建立比较困难,传统方法在实际应用中受到制约。近些年来,随着机器学习的发展,一些具备反馈迭代能力的人工智能优化算法得到了广泛应用在不同领域取得了理想的效果。
例如,在混动车辆结合交通信息进行能量管理方面,候立良(侯立良.基于交通信息的插电式混合动力汽车能量管理策略实验研究[D].重庆:重庆大学,2018)采用遗传算法获得行驶距离、等效因子、SOC等初始参数值map图,根据未来路段平均车速采用动态规划生成SOC参考曲线,改进了等效燃油消耗最小策略,使运行成本下降了5.6%。高俊(高俊.面向PHEV能量管理的短期工况预测与长期交通信息生成技术研究[D].重庆:重庆大学,2018)提出了融合随机过程与机器学习的组合预测算法,采用神经网络加马尔科夫链对面向PHEV能量管理的短期工况进行了预测,结合模型预测控制实现了能耗成本的降低。陈达奇(陈达奇.考虑实时交通信息的插电式混合动力汽车预测能量管理策略研究[D].重庆:重庆大学,2018)提出了基于支持向量机(SVM)工况识别的预测方法,采用SVM对指数预测模型中的衰减因子进行工况识别从而优化了车速预测效果,结合模型预测控制经济性提高了6.18%。但是,上述研究均只考虑了通过交通监管平台、地图导航运营商采集的路段车速、拥堵情况等较为粗略的宏观交通信息,并未能反映如红绿灯时间等瞬态的、实时的、局部的路况信息。
在路口车速规划方面,孟竹(孟竹.V2I环境下面向最小油耗的信号交叉口单车车速引导策略研究[D].武汉:武汉理工大学,2018)建立了车速-油耗微观模型,考虑V2I信息划分了通过红绿灯路口的不同场景并建立了对应的速度控制算法,通过仿真和实车验证证明能够将油耗水平降低17%;但该研究假设车辆匀加速或匀减速后再匀速行驶或停车,考虑场景较为简单。余开江(余开江,许孝卓,胡治国,等.基于交通信号灯信息的混合动力汽车节能预测控制方法[J].河北科技大学学报:2015,35(5):480-485)等建立了匀速行驶和及时通过信号灯路口的最优控制问题模型和评价函数,使燃油经济性提高了1.79%;但该方法需要采用哈密尔顿函数求解,较为复杂。张博等(张博,郭戈,王丽媛,等.基于信号灯状态的燃油最优车速规划与控制[J].自动化学报:2018,44(3):461-470)通过V2I反馈信息的预测,对不停车通过信号灯的速度进行了规划,通过模型预测控制计算了车辆最优控制输入,实现了油耗的降低;但该方法只考虑了不停车通过路口的场景,缺少对不能通过路口需在路口前停车的考虑。且上述研究主要面向燃油车,缺少对新能源汽车、尤其是在其能量回收方面的相关研究。
发明内容
本发明的目的是针对现有技术中存在的路口速度规划存在局限性的问题,而提供一种基于强化学习的新能源汽车红绿灯路口能量回收优化速度规划算法,对车辆的制动过程进行多目标优化,提高车辆考虑能量回收、驾驶平顺性、行驶效率的综合效益。其中,强化学习作为机器学习中的一种代表性算法,具有不依赖模型、具备自主迭代自学习的优点。
为实现本发明的目的所采用的技术方案是:
一种基于强化学习的新能源汽车红绿灯路口能量回收优化速度规划算法,包括以下步骤:
步骤1,根据V2I信息获取车辆距离路口的距离以及信号灯状态和剩余时间,判断车辆是否可以在当前限速下通过路口,如果可以通过,则执行步骤5;如果不能通过,需要刹停,则执行步骤2;
步骤2,由强化学习算法结合车辆仿真模型模拟车辆在路口的制动过程;
步骤3,计算在步骤2中车辆获得的奖励值;
步骤4,根据步骤3中得到的奖励值,对Q表或神经网络进行训练学习和更新,如果Q表或神经网络已经收敛,则执行步骤5;如果未收敛,则再返回执行步骤2;
步骤5,如果上一步骤是步骤4,在对步骤2、3、4进行反复迭代Q表或神经网络达到收敛后,得到满足条件的优化车速曲线并发送给车辆执行,如果上一步骤是步骤1,由驾驶员规划车速。
在上述技术方案中,所述步骤1中根据V2I信息包括车辆进入V2I通信范围时初始时刻距离路口的距离x0、车速v0、红绿灯的状态、剩余时间t0以及当前限速vmax。
在上述技术方案中,所述步骤2中由强化学习算法模拟车辆制动过程为:将车辆当前时刻距离路口的距离xt以及车速vt输入给Q表或神经网络,有ε的概率由其输出当前时刻车辆应采取的减速度值at,有1-ε的概率不通过Q表或神经网络决策而从离散的减速度取值集合中随机选择减速度值,ε为决策贪心率,其值介于0到1,将xt、vt、at输入到所述车辆仿真模型执行,计算得到下一采样时刻车辆距离路口的距离xt+1、车速vt+1,并进行迭代更新xt=xt+1、vt=vt+1。
在上述技术方案中,所述步骤3中,如果xt≥0且vt≥0,t时刻总奖励值定义为Rt=β1Rdistance+β2Rsoc+β3Ra,β1、β2、β3为三种不同奖励值的权重,SOC增量的奖励值Rsoc=SOCt-SOCt-1,SOC值由所述车辆仿真模型给出,到路口距离的奖励值为驾驶平顺性的奖励值为Ra=at-at-1,如果xt和vt超出边界,即xt<0或vt<0,则Rt为可标定参数,优选为-100。
在上述技术方案中,计算总奖励值前,对各奖励值按照下式进行归一化处理,其中y′为归一化的数值,y为Rsoc、Rdistance或Ra,ymin为Rsoc、Rdistance或Ra的最小值,ymax为Rsoc、Rdistance或Ra的最大值。
在上述技术方案中,β1>β2>β3。
在上述技术方案中,在强化学习算法中,强化学习的状态为st=[xt vt],动作为At=at,边界条件为0≤xt≤x0,0≤vt≤v0,定义车辆从进入V2I通信范围初始时刻开始直到超出或到达状态的边界条件时的历程为一回合,定义每一时刻即求解的时间步长的决策更新为一步,每个回合由每一时刻每一单步的求解组成,当前状态在根据决策执行选择的动作后进入下一状态并由历史数据或车辆仿真模型反馈奖励值从而对Q表或神经网络进行学习更新,再进行下一步决策、往复进行,当达到或超过状态的边界条件时如xt<0或vt<0,该回合结束,进入下一回合的学习训练,重新回到初始状态、时间清零重新开始,直到获得确定的满足问题要求的结果,此时视为整个训练学习结束,输出动作序列作用于实际车辆执行。
在上述技术方案中,所述步骤2和4中,用Q表进行学习时采用q-learning算法,在每一步决策更新结束后,依照公式Q(st,At)=Q(st,At)+α(R+γQmax(st+1)-Q(st,At))对Q值进行更新。其中,st表示t时刻状态,At表示t时刻动作;α为学习效率,表示对误差的学习多少程度;γ为折扣因子,表示对未来状态Q值的考虑程度;Qmax(st+1)表示下一时刻状态st+1所对应的最大Q值。
在上述技术方案中,所述步骤2和4中,用神经网络进行学习时,采用DQN算法。
与现有技术相比,本发明的有益效果是:
1.本发明针对纯电动及混合动力车辆,设计了针对红绿灯路口的车速规划算法,可以给无人驾驶车辆提供最佳速度规划或给人工驾驶车辆提供驾驶建议,实现制动能量的最大化回收,同时兼顾驾驶平顺性。
2.本发明所采用的强化学习算法不依赖于精确的对象模型,具备自学习能力可以快速适应不同车辆。
附图说明
图1是本发明算法的求解原理图。
图2是本算法执行的流程图。
图3是其中DQN算法的原理示意图。
图4、5是实施例2的车速、SOC的相关结果。
图6、7是实施例3的车速、SOC的相关结果。
具体实施方式
以下结合具体实施例对本发明作进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
实施例1
一种基于强化学习的新能源汽车红绿灯路口能量回收优化速度规划算法,包括以下步骤:
步骤1,判断车辆是否可以在当前限速下通过路口:根据通过V2I获得的路口交通信息和车辆自身状态信息判断车辆能否通过路口,具体包括车辆进入V2I通信范围时初始时刻距离路口的距离x0、车速v0、红绿灯的状态、剩余时间t0以及当前限速vmax,如果可以通过,则执行步骤5;如果不能通过,需要刹停,则执行步骤2。
步骤2,由算法模拟车辆制动过程:将车辆当前时刻距离路口的当前距离xt以及当前车速vt输入给Q表或神经网络,有ε的概率由其输出当前时刻车辆应采取的减速度值at,有1-ε的概率不通过Q表或神经网络决策而从离散的减速度取值集合中随机选择减速度值(ε称为决策贪心率)。同时,将xt、vt、at输入到车辆仿真模型执行,计算得到下一采样时刻车辆距离路口的距离xt+1、下一采样时刻车辆的车速vt+1,并进行迭代更新xt=xt+1、vt=vt+1。
步骤3,计算步骤2中车辆仿真模型在执行at后所获得的奖励值:如果xt≥0且vt≥0,t时刻总奖励值定义为Rt=β1Rdistance+β2Rsoc+β3Ra,式中β1、β2、β3为三种不同奖励值的权重。SOC增量的奖励值具体定义为Rsoc=SOCt-SOCt-1(SOC值由步骤2中车辆仿真模型给出),到路口距离的奖励值具体定义为驾驶平顺性的奖励值具体定义为Ra=at-at-1。如果xt和vt超出边界,即xt<0或vt<0,则Rt=-100。
步骤4,根据步骤3中得到的奖励值,对Q表或神经网络进行训练更新。如果Q表或神经网络已经收敛,则执行步骤5;如果未收敛,则再返回执行步骤2。若此时xt<0或vt<0,则重新令车辆回到初始状态,即令:xt=x0,vt=v0。
步骤5,生成车速曲线供车辆执行:如果上一步骤是步骤4,则由Q表或神经网络生成一条理想的经过优化的制动过程车速曲线,该曲线能满足车辆恰好在路口前减速刹停的要求,将得到的车速曲线发送给车辆执行;如果上一步骤是步骤1,说明车辆无需在路口刹停,由驾驶员规划车速。
作为优选的,所述步骤2中,车辆仿真模型通常在相关软件平台上进行建立,能够反映实际车辆的物理特性和运行规律,模拟车辆的实际运行过程,具体建模方法可参考《汽车发动机与传动系统建模及控制》(拉尔斯·埃里克松(Lars Eriksson).汽车发动机与传动系统建模及控制[M].北京:化学工业出版社,2018.)
作为优选的,所述步骤2中,定义强化学习的状态(state)为st=[xt vt],动作(action)为At=at,边界条件为0≤xt≤x0,0≤vt≤v0,定义车辆从初始状态开始直到超出或到达状态的边界条件时的历程为一回合(eposide),定义每一时刻即求解的时间步长的决策更新为一步(count)。每个回合是由每一时刻每一单步的求解组成的,如图1所示,当前状态在根据决策执行选择的动作后进入下一状态并由历史数据或模型反馈奖励值从而对Q表或神经网络进行学习更新,再进行下一步决策、往复进行。当达到或超过状态的边界条件时如xt<0或vt<0,该回合结束,进入下一回合的学习训练,重新回到初始状态、时间清零重新开始,直到获得确定的满足问题要求的结果。此时视为整个训练学习结束,输出动作序列作用于实际车辆执行。算法的整个流程如图2所示。
作为优选的,所述步骤2中,Q表是存储Q值的表格,其中存储了每个状态-动作对下的Q值(状态-动作需离散处理)。Q值表示了某个状态下采取某个动作所能获得的当前和未来回报的组合。需要注意的是由于Q表为二维,只能存储一个维度的状态,而本问题中状态具有两个维度,因此需要对两个维度的状态进行扁平化降维处理变为一维。如公式 i=(x0-xt)*(v0+1)+(v0+1)-vt所示,即对x和v的所有可能取值进行组合,不同的组合统一用si进行编号表示,Q(x,v,a)=Q(si,a)。
作为优选的,所述步骤3中三项奖励值的设计反映了本问题的三个主要控制目标:车辆到路口前恰好减速为0刹停、尽可能多地回收电能、保证驾驶平顺性,由于上述三项奖励值代表的物理意义不同,数值差距比较大,所以在计算前均按需按照下式进行归一化处理,y′为归一化的数值,y为Rsoc、Rdistance或Ra,ymin为Rsoc、Rdistance或Ra的最小值,ymax为Rsoc、Rdistance或Ra的最大值。式中相应的最值可由车辆的历史数据或者根据车辆仿真模型获得。三项奖励值的权重β1、β2、β3可根据对不同控制目标的侧重进行取值,但为保证满足本问题的基本需求车辆到路口前恰好减速为0刹停,建议β1>β2>β3。
作为优选的,所述步骤4中,如果选择用Q表进行学习即采用q-learning算法,则在每一步决策更新结束后,依照公式Q(st,At)=Q(st,At)+α(R+γQmax(st+1)-Q(st,At))对Q值进行更新。其中,st表示t时刻状态,At表示t时刻动作;α为学习效率,表示对误差的学习多少程度;γ为折扣因子,表示对未来状态Q值的考虑程度;Qmax(st+1)表示下一时刻状态st+1所对应的最大Q值。决策贪心率ε,其值介于0到1,随着训练次数和回合数的增加其值可逐渐增大。整个决策学习过程如下:从初始状态出发,有ε的概率在Q表中查找使对应状态下Q值最大的动作值并决定采用此动作,有1-ε的概率不按Q值进行决策而随机选择动作。
作为优选的,所述步骤2和4中,也可选择采用神经网络来拟合Q值、代替Q表,即采用DQN(deep q-network)算法。用神经网络来代替Q表格的方法为行业内技术人员所熟知的技术。具体可以参考:刘全,翟建伟,章宗长,等.深度强化学习综述[J].计算机学报:2018,41(1):1-27。
实施例2(采用基于Q表的q-learning方法)
步骤1,判断车辆是否可以在当前限速下通过路口:
设本例中x0=200m、v0=50km/h,车辆最大减速度alimit=2.5m/s2,由V2I获得此时路口为红灯且剩余时间为t0=40s。由于t0>v0/alimit,表明车辆在该信号灯周期内仍无法通过路口,需要在路口前刹停,符合本算法使用场景。
步骤2,由算法模拟车辆制动过程:
值得说明的是,在初始时(第一回合第一步)默认Q表为空。将车辆当前时刻距离路口的距离xt以及车速vt输入给Q表,由其输出当前时刻车辆应采取的减速度值at。同时,将xt、vt、at输入到车辆仿真模型(本例中车辆仿真模型根据车辆实际参数在matlab-simulink中搭建)执行,计算得到下一采样时刻车辆的xt+1、vt+1,并进行迭代更新xt=xt+1、vt=vt+1。以上过程称为1步。
步骤3,计算步骤2中车辆仿真模型在执行at后所获得的奖励值:
即计算车辆在完成1步模拟计算之后的奖励值。如果xt≥0且vt≥0,t时刻总奖励值为Rt=β1Rdistance+β2Rsoc+β3Ra,此时均为鼓励式奖励(Rt>0),β1=50、β2=30、β3=20,Rdistance、Rsoc、Ra的计算数据均由车辆仿真模型给出。如果xt和vt超出边界,即xt<0或vt<0,则施加惩罚性奖励Rt=-100。
步骤4,根据步骤3中得到的奖励值,对Q表进行训练更新:
Q值更新公式为Q(s,a)=Q(s,a)+α(R+γQmax(s′)-Q(s,a)),在执行完每一步后需对Q值进行更新,并将更新的Q值存储在Q表中。如果Q表已经收敛,说明Q表的学习训练过程已完成,则执行步骤5;如果未收敛,则再返回执行步骤2,进行下一步的模拟计算与训练。若此时xt<0或vt<0,说明该模拟回合已经结束,则重新令车辆回到初始状态:xt=x0,vt=v0,再进行下一回合的模拟计算。
步骤5,由Q表或神经网络生成一条理想的经过优化的制动过程车速曲线,该曲线能满足车辆恰好在路口前减速刹停的要求。将得到的车速曲线发送给车辆执行。
针对某P2型混动架构车辆,在matlab-simulink平台上建立了车辆仿真模型,主要的数学模型表达式如下。公式(1)、(2)为电机扭矩计算模型,Tm为电机输出扭矩,Tmreq为电机需求扭矩,Tmloss为电机损失扭矩,Jm为电机转动惯量,ωm为电机转速,α1、α2、α3分别为静摩擦系数、黏性摩擦系数、库伦摩擦系数。式(3)至(6)为电池等效电路基本方程及相关参数计算模型,VOC为电池开路电压,ξ(t)为电池荷电状态,Q(t)为电池荷电状态Ibat为电池电流,Rbat为电池等效内阻,Pbat为电池功率。式(7)至(9)为车辆空气阻力、轮胎滚动阻力、车辆行驶阻力矩的计算公式。式中ρair表示空气密度,cd表示风阻系数,A表示车辆迎风面积,Vveh表示车速,mveh为车辆质量,b1、b2为滚阻系数,fb为刹车阻力,rveh为车轮半径。
(2)Tmloss=α1ωm+α2ωm+α3sgn(ωm)
(3)VOC(ξ(t))Ibat(t)+RbatIbat(t)2=Pbat(t)
(8)fr=mveh(b1+b2Vveh)
(9)TQveh=(fa+fr+fb)*rveh
针对该P2型混动架构车辆,在matlab-simulink平台上对以上步骤进行了实施验证。在大约经过30000个回合的模拟计算与训练之后结果收敛,并将步骤5得出的结果与视为全局最优的动态规划曲线和匀减速参考曲线进行了相关对比。结果如图4、5所示,在初始电池SOC值为0.6的情况下,动态规划曲线的终值SOC为0.60074、均减速曲线为0.60047、q-learning为0.60067;q-learning与动态规划相比能量回收效果的差幅只有9.45%,相比于均减速参考曲线增幅到达42.55%,说明本发明的算法能够获得求解问题的近似全局最优解,具有较好的优化能力,取得了一定效果。
从其中求解结果也可以探究出在新能源车辆接近红绿灯路口减速刹车过程中车速对能量回收效果的影响规律:减速初期车速快,制动电机效率较高,同时为避免该部分大份额能量被此时较大的风阻和滚阻消耗浪费,采用较大减速度、较大制动力矩能够有利于能量的高效回收,显著提高能量回收的效果;随后主要依据到路口的距离进行灵活规划,采用较小减速度、较小制动力矩有利于延长行驶路程,确保车辆在到达路口时刹停减速为0,同时也延长了末期能量回收的时间,进一步加强能量回收的效果。
实施例3(如图3所示,采用基于神经网络的DQN方法)
DQN方法可参见刘全,翟建伟,章宗长,等.深度强化学习综述[J].计算机学报:2018,41(1):1-27,在此不再赘述,在实施例2的基础上,采用基于神经网络代替Q表的DQN方法对本发明进行了验证。结果如图6、7所示,DQN求解的终值SOC为0.6006887,相比q-learning的终值SOC 0.6006736,得到了进一步提升,增幅为2.24%;DQN求解得到的速度曲线平顺性更好、更加平滑均匀,没有出现q-learning后期减速度突变变大采用DQN算法所求解相对q-learning求解结果进行了进一步的优化,回收能量增加了2.24%,并且驾驶平顺性得到进一步提高,速度曲线以及终值SOC结果更加接近动态规划。
以上所述仅是本发明的优选实施方式,应当指出的是,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本发明的保护范围。
Claims (10)
1.一种基于强化学习的新能源汽车红绿灯路口能量回收优化速度规划算法,其特征在于,包括以下步骤:
步骤1,根据V2I信息获取车辆距离路口的距离以及信号灯状态和剩余时间,判断车辆是否可以在当前限速下通过路口,如果可以通过,则执行步骤5;如果不能通过,刹停并执行步骤2;
步骤2,由强化学习算法结合车辆仿真模型模拟车辆在路口的制动过程,所述步骤2中由强化学习算法模拟车辆制动过程为:将车辆当前时刻距离路口的距离xt以及车速vt输入给Q表或神经网络,有ε的概率由其输出当前时刻车辆应采取的减速度值at,有1-的概率不通过Q表或神经网络决策而从离散的减速度取值集合中随机选择减速度值,ε为决策贪心率,其值介于0到1,将xt、vt、at输入到所述车辆仿真模型执行,计算得到下一采样时刻车辆距离路口的距离xt+1、车速vt+1,并进行迭代更新xt=xt+1、vt=vt+1;
步骤3,计算在步骤2中车辆获得的奖励值;
步骤4,根据步骤3中得到的奖励值,对Q表或神经网络进行训练学习和更新,如果Q表或神经网络已经收敛,则执行步骤5;如果未收敛,则再返回执行步骤2;
步骤5,如果上一步骤是步骤4,在对步骤2、3、4进行反复迭代Q表或神经网络达到收敛后,得到满足条件的优化车速曲线并发送给车辆执行,如果上一步骤是步骤1,由驾驶员规划车速。
2.如权利要求1所述的基于强化学习的新能源汽车红绿灯路口能量回收优化速度规划算法,其特征在于,所述步骤1中根据V2I信息包括车辆进入V2I通信范围时初始时刻距离路口的距离x0、车速v0、红绿灯的状态、剩余时间t0以及当前限速vmax。
5.如权利要求3所述的基于强化学习的新能源汽车红绿灯路口能量回收优化速度规划算法,其特征在于,β1>β2>β3。
6.如权利要求1所述的基于强化学习的新能源汽车红绿灯路口能量回收优化速度规划算法,其特征在于,在强化学习算法中,强化学习的状态为st=[xtvt],动作为At=at,边界条件为0≤xt≤x0,0≤vt≤v0,定义车辆从进入V2I通信范围初始时刻开始直到超出或到达状态的边界条件时的历程为一回合,定义每一时刻即求解的时间步长的决策更新为一步,每个回合由每一时刻每一单步的求解组成,当前状态在根据决策执行选择的动作后进入下一状态并由历史数据或车辆仿真模型反馈奖励值从而对Q表或神经网络进行学习更新,再进行下一步决策、往复进行,当达到或超过状态的边界条件时如xt<0或vt<0,该回合结束,进入下一回合的学习训练,重新回到初始状态、时间清零重新开始,直到获得确定的满足问题要求的结果,此时视为整个训练学习结束,输出动作序列作用于实际车辆执行。
8.如权利要求1所述的基于强化学习的新能源汽车红绿灯路口能量回收优化速度规划算法,其特征在于,所述步骤2和4中,用Q表进行学习时采用q-learning算法,在每一步决策更新结束后,依照公式Q(st,At)=Q(st,At)+α(R+γQmax(st+1)-Q(st,At))对Q值进行更新,其中,st表示t时刻状态,At表示t时刻动作;α为学习效率,表示对误差的学习多少程度;γ为折扣因子,表示对未来状态Q值的考虑程度;Qmax(st+1)表示下一时刻状态st+1所对应的最大Q值。
9.如权利要求1所述的基于强化学习的新能源汽车红绿灯路口能量回收优化速度规划算法,其特征在于,所述步骤2和4中,用神经网络进行学习时,采用DQN算法。
10.如权利要求3所述的基于强化学习的新能源汽车红绿灯路口能量回收优化速度规划算法,其特征在于,Rt为-100。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011098570.0A CN112339756B (zh) | 2020-10-14 | 2020-10-14 | 一种基于强化学习的新能源汽车红绿灯路口能量回收优化速度规划算法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011098570.0A CN112339756B (zh) | 2020-10-14 | 2020-10-14 | 一种基于强化学习的新能源汽车红绿灯路口能量回收优化速度规划算法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112339756A CN112339756A (zh) | 2021-02-09 |
CN112339756B true CN112339756B (zh) | 2021-10-15 |
Family
ID=74361797
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202011098570.0A Active CN112339756B (zh) | 2020-10-14 | 2020-10-14 | 一种基于强化学习的新能源汽车红绿灯路口能量回收优化速度规划算法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112339756B (zh) |
Families Citing this family (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115675468A (zh) * | 2021-03-31 | 2023-02-03 | 华为技术有限公司 | 一种车辆控制方法及装置 |
CN113095558B (zh) * | 2021-04-01 | 2022-05-24 | 天津大学 | 一种智能网联汽车的迭代优化多尺度融合车速预测方法 |
CN112989715B (zh) * | 2021-05-20 | 2021-08-03 | 北京理工大学 | 一种燃料电池汽车多信号灯车速规划方法 |
CN114633630A (zh) * | 2022-02-17 | 2022-06-17 | 恒大新能源汽车投资控股集团有限公司 | 能量回收强度自学习方法和装置 |
CN116476828B (zh) * | 2023-03-08 | 2024-07-30 | 华中科技大学 | 一种考虑前车影响和红绿灯信息的车速规划方法和系统 |
CN118219851B (zh) * | 2024-05-27 | 2024-09-03 | 瑞安市德隆汽车部件有限公司 | 新能源汽车速度分布式监测系统及方法 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6487477B1 (en) * | 2001-05-09 | 2002-11-26 | Ford Global Technologies, Inc. | Strategy to use an on-board navigation system for electric and hybrid electric vehicle energy management |
CN102050115A (zh) * | 2009-10-27 | 2011-05-11 | 任首旺 | 车辆首供能量、回收能量互补供给与车速、动力条件自动协调法 |
WO2018171051A1 (zh) * | 2017-03-22 | 2018-09-27 | 上海瑞昱汽车有限公司 | 纯电动汽车的驱动总成装置 |
CN111731303A (zh) * | 2020-07-09 | 2020-10-02 | 重庆大学 | 一种基于深度强化学习a3c算法的hev能量管理方法 |
-
2020
- 2020-10-14 CN CN202011098570.0A patent/CN112339756B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6487477B1 (en) * | 2001-05-09 | 2002-11-26 | Ford Global Technologies, Inc. | Strategy to use an on-board navigation system for electric and hybrid electric vehicle energy management |
CN102050115A (zh) * | 2009-10-27 | 2011-05-11 | 任首旺 | 车辆首供能量、回收能量互补供给与车速、动力条件自动协调法 |
WO2018171051A1 (zh) * | 2017-03-22 | 2018-09-27 | 上海瑞昱汽车有限公司 | 纯电动汽车的驱动总成装置 |
CN111731303A (zh) * | 2020-07-09 | 2020-10-02 | 重庆大学 | 一种基于深度强化学习a3c算法的hev能量管理方法 |
Non-Patent Citations (2)
Title |
---|
基于动态规划与机器学习的插电式混合动力汽车能量管理算法研究;陈渠等;《汽车技术》;20200108(第10期);第51-57页 * |
考虑信号灯状态的经济车速规划;雷朝阳等;《科学技术与工程》;20200628;第 20 卷(第18期);第7484-7491页 * |
Also Published As
Publication number | Publication date |
---|---|
CN112339756A (zh) | 2021-02-09 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN112339756B (zh) | 一种基于强化学习的新能源汽车红绿灯路口能量回收优化速度规划算法 | |
Qu et al. | Jointly dampening traffic oscillations and improving energy consumption with electric, connected and automated vehicles: A reinforcement learning based approach | |
CN111267831B (zh) | 一种混合动力车辆智能变时域模型预测能量管理方法 | |
CN110775065B (zh) | 一种基于工况识别的混合动力汽车电池寿命预测方法 | |
Wu et al. | Fuzzy energy management strategy for a hybrid electric vehicle based on driving cycle recognition | |
CN114241778B (zh) | 高速公路网联车协同匝道汇入多目标优化控制方法和系统 | |
CN110936949B (zh) | 基于行驶工况的能量控制方法、设备、存储介质及装置 | |
CN113525396B (zh) | 一种融合深度强化学习的混动汽车分层预测能量管理方法 | |
Zhu et al. | Safe model-based off-policy reinforcement learning for eco-driving in connected and automated hybrid electric vehicles | |
CN111267830B (zh) | 一种混合动力公交车能量管理方法、设备和存储介质 | |
CN112668799A (zh) | 基于行驶大数据的phev的智能能量管理方法和存储介质 | |
CN112249002B (zh) | 一种基于td3的启发式串并联混合动力能量管理方法 | |
CN114103924A (zh) | 一种混合动力车辆能量管理控制方法及装置 | |
CN116070783B (zh) | 一种混动传动系统在通勤路段下的学习型能量管理方法 | |
CN113135113B (zh) | 一种全局soc规划方法及装置 | |
CN115107733A (zh) | 一种混合动力汽车的能量管理方法及系统 | |
Montazeri-Gh et al. | Driving condition recognition for genetic-fuzzy HEV control | |
CN115805840A (zh) | 一种增程式电动装载机能耗控制方法及系统 | |
Yeom | Model predictive control and deep reinforcement learning based energy efficient eco-driving for battery electric vehicles | |
CN117227700A (zh) | 串联混合动力无人履带车辆的能量管理方法及系统 | |
CN113276829B (zh) | 一种基于工况预测的车辆行驶节能优化变权重方法 | |
Xia et al. | A predictive energy management strategy for multi-mode plug-in hybrid electric vehicle based on long short-term memory neural network | |
CN114154729A (zh) | 一种混合动力汽车复合储能系统能量管理系统及方法 | |
CN113479187A (zh) | 一种插电式混合动力汽车分层异步长能量管理方法 | |
Huang et al. | An intelligent full-knowledge transferable collaborative eco-driving framework based on improved soft actor-critic algorithm |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |