CN113342367A - 一种基于Q-Learning强化学习的状态空间缩减方法 - Google Patents

一种基于Q-Learning强化学习的状态空间缩减方法 Download PDF

Info

Publication number
CN113342367A
CN113342367A CN202110754859.1A CN202110754859A CN113342367A CN 113342367 A CN113342367 A CN 113342367A CN 202110754859 A CN202110754859 A CN 202110754859A CN 113342367 A CN113342367 A CN 113342367A
Authority
CN
China
Prior art keywords
axis
state
soc
effective control
return value
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202110754859.1A
Other languages
English (en)
Other versions
CN113342367B (zh
Inventor
赵峰睿
郭洪强
刘晓东
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Liaocheng University
Original Assignee
Liaocheng University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Liaocheng University filed Critical Liaocheng University
Priority to CN202110754859.1A priority Critical patent/CN113342367B/zh
Publication of CN113342367A publication Critical patent/CN113342367A/zh
Application granted granted Critical
Publication of CN113342367B publication Critical patent/CN113342367B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F8/00Arrangements for software engineering
    • G06F8/60Software deployment
    • G06F8/61Installation
    • BPERFORMING OPERATIONS; TRANSPORTING
    • B60VEHICLES IN GENERAL
    • B60LPROPULSION OF ELECTRICALLY-PROPELLED VEHICLES; SUPPLYING ELECTRIC POWER FOR AUXILIARY EQUIPMENT OF ELECTRICALLY-PROPELLED VEHICLES; ELECTRODYNAMIC BRAKE SYSTEMS FOR VEHICLES IN GENERAL; MAGNETIC SUSPENSION OR LEVITATION FOR VEHICLES; MONITORING OPERATING VARIABLES OF ELECTRICALLY-PROPELLED VEHICLES; ELECTRIC SAFETY DEVICES FOR ELECTRICALLY-PROPELLED VEHICLES
    • B60L58/00Methods or circuit arrangements for monitoring or controlling batteries or fuel cells, specially adapted for electric vehicles
    • B60L58/10Methods or circuit arrangements for monitoring or controlling batteries or fuel cells, specially adapted for electric vehicles for monitoring or controlling batteries
    • B60L58/12Methods or circuit arrangements for monitoring or controlling batteries or fuel cells, specially adapted for electric vehicles for monitoring or controlling batteries responding to state of charge [SoC]
    • BPERFORMING OPERATIONS; TRANSPORTING
    • B60VEHICLES IN GENERAL
    • B60LPROPULSION OF ELECTRICALLY-PROPELLED VEHICLES; SUPPLYING ELECTRIC POWER FOR AUXILIARY EQUIPMENT OF ELECTRICALLY-PROPELLED VEHICLES; ELECTRODYNAMIC BRAKE SYSTEMS FOR VEHICLES IN GENERAL; MAGNETIC SUSPENSION OR LEVITATION FOR VEHICLES; MONITORING OPERATING VARIABLES OF ELECTRICALLY-PROPELLED VEHICLES; ELECTRIC SAFETY DEVICES FOR ELECTRICALLY-PROPELLED VEHICLES
    • B60L2260/00Operating Modes
    • B60L2260/40Control modes
    • B60L2260/50Control modes by future state prediction
    • B60L2260/52Control modes by future state prediction drive range estimation, e.g. of estimation of available travel distance
    • BPERFORMING OPERATIONS; TRANSPORTING
    • B60VEHICLES IN GENERAL
    • B60LPROPULSION OF ELECTRICALLY-PROPELLED VEHICLES; SUPPLYING ELECTRIC POWER FOR AUXILIARY EQUIPMENT OF ELECTRICALLY-PROPELLED VEHICLES; ELECTRODYNAMIC BRAKE SYSTEMS FOR VEHICLES IN GENERAL; MAGNETIC SUSPENSION OR LEVITATION FOR VEHICLES; MONITORING OPERATING VARIABLES OF ELECTRICALLY-PROPELLED VEHICLES; ELECTRIC SAFETY DEVICES FOR ELECTRICALLY-PROPELLED VEHICLES
    • B60L2260/00Operating Modes
    • B60L2260/40Control modes
    • B60L2260/50Control modes by future state prediction
    • B60L2260/54Energy consumption estimation
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02TCLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
    • Y02T10/00Road transport of goods or passengers
    • Y02T10/60Other road transportation technologies with climate change mitigation effect
    • Y02T10/70Energy storage systems for electromobility, e.g. batteries

Landscapes

  • Engineering & Computer Science (AREA)
  • Software Systems (AREA)
  • Theoretical Computer Science (AREA)
  • General Engineering & Computer Science (AREA)
  • Mechanical Engineering (AREA)
  • Transportation (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Power Engineering (AREA)
  • Sustainable Energy (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Sustainable Development (AREA)
  • Electric Propulsion And Braking For Vehicles (AREA)
  • Hybrid Electric Vehicles (AREA)

Abstract

本发明公开了一种基于Q‑Learning强化学习的状态空间缩减方法,该方法面向Q‑Learning强化学习算法中使用两状态参数的情况,对两状态所组成的二维状态平面的坐标轴进行规划,类似于国际象棋的棋盘,将原有二维平面拆解为n×m个棋格区域,并为每个小方格区域进行状态量命名,并以此进行回报函数的设定,通过这种方法将原有的二维状态空间大大缩减,同时实现了实现了无SOC参考轨迹的强化学习智能能量管理控制策略。

Description

一种基于Q-Learning强化学习的状态空间缩减方法
技术领域
本发明涉及电动汽车的能量管理技术领域,具体涉及一种基于Q-Learning强化学习的状态空间缩减方法。
背景技术
基于强化学习的控制策略是人工智能技术在电动汽车领域的一种创新性应用,如:基于Q-Learning控制策略,其自我学习、自我增强的控制特点,规避了控制策略的控制缺陷,可有效解决未知动态工况下的最优控制问题。
但是该类策略对控制器算力的要求较高,目前仅限于理论研究阶段,难以实际应用。
原因在于:基于Q-Learning的控制策略要求当前动作能够精确捕捉当前状态,因此需要对状态空间进行精细化设计,以插电式混合电动汽车为例,需设定至少3个变量为状态,如将每个状态划分为100份,则状态矩阵的行数为100×100×100=1000000,如此庞大的状态矩阵将导致现有控制器的算力失效;基于深度强化学习的控制策略由于嵌入了多层神经网络,需加装价格昂贵的GPU进行运算,但是,由于GPU价格昂贵和国外底层封锁等原因,基于该算法的控制策略难以实现产业化应用。
发明内容
本发明要解决的技术问题是提供一种基于Q-Learning强化学习的状态空间缩减方法,该方法,将两状态参数下较大的状态空间进行缩小,从而可以将强化学习算法应用到整车控制器当中。
为解决上述技术问题,本发明采用如下技术手段:
一种基于Q-Learning强化学习的状态空间缩减方法,包含以下步骤:
(1)状态参数的选取,选取电池SOC与归一化的行驶距离(Ld)为状态参数;
(2)以步骤(1)选择的两种状态参数为X轴、Y轴,构造出一个二维平面,对该平面进行区间划分,将X轴的归一化的行驶距离0~1划分为n等份,n小于100;将Y轴的电池SOC 0~1划分为m等份,m小于100;沿X轴、Y轴的等分点分别标画水平线及竖直线将二维平面被划分为“棋格”区域,将每个“棋格”区域视为一个状态变量,并进行依次编号,从而缩减了状态变量;
(3)获取最优SOC轨迹分布,以步骤(1)选择的两种状态参数为X轴、Y轴,构造出一个二维平面,以步骤(2)中平面划分方法将该二维平面划分为“棋格”区域,在此基础上确定每个“棋格”回报值,依据最优SOC轨迹的分布获取有效控制区间,其中SOC轨迹经过的“棋格”区域视为有效控制区间,有效控制区间的回报值为正回报,且距离终点值越近,正回报值越大,有效控制区间之外的“棋格”回报值为负回报,且偏离有效控制区间越远,负回报值越大。
获取最优SOC轨迹分布为现有技术,简述如下,使用庞特里亚金极小值原理算法(Pontryagin’s minimum principle,PMP),动态规划(Dynamic Programming,DP)等离线优化算法,预先对目标城市的历史工况进行离线优化,设定合适的SOC范围,本专利中以插电式混合动力汽车为例,SOC起始值设定为0.8,终点值设定为0.3,使用PMP算法,通过调整PMP算法中的控制参数“协调因子(Co-state)”,使SOC轨迹控制在预先设定的起始值与终点值范围内,因而得到该城市工况下的最优SOC轨迹,对该城市下多组工况进行离线优化,得到该城市下多组SOC最优SOC轨迹,将以上最优SOC轨迹以归一化的行驶距离为X轴,SOC值为Y轴进行绘制图线,由此得到最优SOC轨迹分布。
本技术主要应用于强化学习能量管理策略与相应控制器硬件的深度融合。
根据行驶工况,在某一路线的行驶距离及速度,将归一化的行驶距离(Ld)设计为强化学习的状态参数;由于电动汽车的能耗经济性可由电池SOC反馈,因此,将电池SOC设计为第二个状态参数。如果若实现强化学习算法的精确控制,需要对两个状态参数进行细致划分,若每个状态划分为100份的话,则总的状态变量为100×100=10000个,难以烧录至控制器中,故而应进行状态缩减,利用“棋格”区域,将每个“棋格”区域视为一个状态变量,并进行依次编号,从而缩减了状态变量;。
对上述组成整个“棋盘”的每个独立“棋格”按照一定的顺序设定对应的状态值,并以此设定相应的回报值。有效控制区间的回报值为正回报,且距离终点值越近,正回报值,即奖励越大,有效控制区间之外的回报值为负回报,且偏离有效控制区间越远,负回报值,即惩罚越大。通过这种方法,将原有的10000个状态变量缩减至n×m个,n与m的具体数值可根据控制器的存储空间及控制精度进行调整。
本专利中所述的n为10,m为10,“棋格”区域的个数为100。总的状态变量、回报值的数量大大减少。
本发明的优点在于:
(1)使原本无法烧写到控制器的上万的状态变量得到状态缩减,可以烧写进控制器,实现了强化学习算法与传统控制器的深度融合,解决对高性能GPU的依赖,推进了整车控制的智能化发展。
(2)传统的控制是根据SOC轨迹来获取回报,根据棋格获取回报本发明提出的“棋盘”式状态空间除可进行状态缩减外,还能依此进行强化学习算法的回报值设计,通过“棋格”区域实现无SOC参考轨迹的强化学习智能能量管理控制策略。
附图说明
图1是本发明选取归一化的行驶距离和电池SOC为状态参数为X轴、Y轴,构造出的二维平面的图表。
图2是缩减状态变量的图表。
图3是获取有效控制区间及“棋格”回报值的图表。
具体实施方式
下面结合实施例,进一步说明本发明。
一种基于Q-Learning强化学习的状态空间缩减方法,包含以下步骤:
(1)状态参数的选取,选取电池SOC与归一化的行驶距离(Ld)为状态参数;
(2)以步骤(1)选择的两种状态参数为X轴、Y轴,构造出一个二维平面,二维平面如图1所示,对该平面进行区间划分,将X轴的归一化的行驶距离0~1划分为n等份,n小于100,本实施例n为10;将Y轴的电池SOC 0~1划分为m等份,m小于100,本实施例m为10;沿X轴、Y轴的等分点分别标画水平线及竖直线将二维平面被划分为“棋格”区域,将每个“棋格”区域视为一个状态变量,并进行依次编号,从而缩减了状态变量,如图2所示;
(3)获取最优SOC轨迹分布,以步骤(1)选择的两种状态参数为X轴、Y轴,构造出一个二维平面,以步骤(2)中平面划分方法将该二维平面划分为“棋格”区域,在此基础上确定每个“棋格”回报值,依据最优SOC轨迹的分布获取有效控制区间,其中SOC轨迹经过的“棋格”区域视为有效控制区间,有效控制区间的回报值为正回报,且距离终点值越近,正回报值越大,有效控制区间之外的“棋格”回报值为负回报,且偏离有效控制区间越远,负回报值越大。
获取最优SOC轨迹分布为现有技术,简述如下,使用庞特里亚金极小值原理算法(Pontryagin’s minimum principle,PMP),动态规划(Dynamic Programming,DP)等离线优化算法,预先对目标城市的历史工况进行离线优化,设定合适的SOC范围,本专利中以插电式混合动力汽车为例,SOC起始值设定为0.8,终点值设定为0.3,使用PMP算法,通过调整PMP算法中的控制参数“协调因子(Co-state)”,使SOC轨迹控制在预先设定的起始值与终点值范围内,因而得到该城市工况下的最优SOC轨迹,对该城市下多组工况进行离线优化,得到该城市下多组SOC最优SOC轨迹,将以上最优SOC轨迹以归一化的行驶距离为X轴,SOC值为Y轴进行绘制图线,由此得到最优SOC轨迹分布。
如图3所示,属于SOC最优轨迹的分布范围则设定回报为正值,并且从左向右依次增加,保持从左向右是增加的趋势即可,同一列的回报值保持一致,图表中是从左向右增加1;不属于SOC最优轨迹的分布范围,需要给予惩罚,即负值,且偏离最优轨迹越远,惩罚值越大,保持同一列是由红色边界范围向外偏离越远惩罚越大的趋势即可,图表中是逐渐减1。由于设置的SOC终点值为0.3,虽然期间有分布在0.3以下的部分,SOC最优轨迹的分布范围及对应的回报值视为在0.3以上。
图3中,每条曲线均是对某一工况进行一次离线优化获取的SOC最优轨迹,多条曲线为多次离线优化获取的SOC最优轨迹;多次离线优化,一是减少设计误差,二是可以更方便观察总体的SOC最优轨迹趋势。
在本专利中所述的n为10,m为10,“棋格”区域的个数为100。总的状态变量、回报值的数量大大减少;
本技术主要应用于基于强化学习能量管理策略与相应控制器硬件的深度融合。
根据行驶工况,在某一路线的行驶距离及速度,将归一化的行驶距离(Ld)设计为强化学习的状态参数;由于电动汽车的能耗经济性可由电池SOC反馈,因此,将电池SOC设计为第二个状态参数。如果若实现强化学习算法的精确控制,需要对两个状态参数进行细致划分,若每个状态划分为100份的话,则总的状态变量为100×100=10000个,难以烧录至控制器中,故而应进行状态缩减,利用“棋格”区域,将每个“棋格”区域视为一个状态变量,并进行依次编号,从而缩减了状态变量;。
对上述组成整个“棋盘”的每个独立“棋格”按照一定的顺序设定对应的状态值,并以此设定相应的回报值。有效控制区间的回报值为正回报,且距离终点值越近,正回报值,即奖励越大,有效控制区间之外的回报值为负回报,且偏离有效控制区间越远,负回报值,即惩罚越大。通过这种方法,将原有的10000个状态变量缩减至n×m个,n与m的具体数值可根据控制器的存储空间及控制精度进行调整。
本发明的优点在于:
(1)使原本无法烧写到控制器的上万的状态变量得到状态缩减,可以烧写进控制器,实现了强化学习算法与传统控制器的深度融合,解决对高性能GPU的依赖,推进了整车控制的智能化发展。
(2)传统的控制是根据SOC轨迹来获取回报,根据棋格获取回报本发明提出的“棋盘”式状态空间除可进行状态缩减外,还能依此进行强化学习算法的回报值设计,通过“棋格”区域实现无SOC参考轨迹的强化学习智能能量管理控制策略。
以上所述仅为本发明较佳可行的实施例而已,并非因此局限本发明的权利范围,凡运用本发明说明书及附图内容所作的等效结构变化,均包含于本发明的权利范围之内。

Claims (2)

1.一种基于Q-Learning强化学习的状态空间缩减方法,其特征在于包含以下步骤:
(1)状态参数的选取,选取电池SOC与归一化的行驶距离(Ld)为状态参数;
(2)以步骤(1)选择的两种状态参数为X轴、Y轴,构造出一个二维平面,对该平面进行区间划分,将X轴的归一化的行驶距离0~1划分为n等份,n小于100;将Y轴的电池SOC 0~1划分为m等份,m小于100;沿X轴、Y轴的等分点分别标画水平线及竖直线将二维平面被划分为“棋格”区域,将每个“棋格”区域视为一个状态变量,并进行依次编号,从而缩减了状态变量;
(3)获取最优SOC轨迹分布,以步骤(1)选择的两种状态参数为X轴、Y轴,构造出一个二维平面,以步骤(2)中平面划分方法将该二维平面划分为“棋格”区域,在此基础上确定每个“棋格”回报值,依据最优SOC轨迹的分布获取有效控制区间,其中SOC轨迹经过的“棋格”区域视为有效控制区间,有效控制区间的回报值为正回报,且距离终点值越近,正回报值越大,有效控制区间之外的“棋格”回报值为负回报,且偏离有效控制区间越远,负回报值越大。
2.根据权利要求1所述的一种基于Q-Learning强化学习的状态空间缩减方法,其特征在于:所述的n为10,m为10,“棋格”区域的个数为100。
CN202110754859.1A 2021-07-04 2021-07-04 一种基于Q-Learning强化学习的状态空间缩减方法 Active CN113342367B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110754859.1A CN113342367B (zh) 2021-07-04 2021-07-04 一种基于Q-Learning强化学习的状态空间缩减方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110754859.1A CN113342367B (zh) 2021-07-04 2021-07-04 一种基于Q-Learning强化学习的状态空间缩减方法

Publications (2)

Publication Number Publication Date
CN113342367A true CN113342367A (zh) 2021-09-03
CN113342367B CN113342367B (zh) 2024-03-29

Family

ID=77482415

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110754859.1A Active CN113342367B (zh) 2021-07-04 2021-07-04 一种基于Q-Learning强化学习的状态空间缩减方法

Country Status (1)

Country Link
CN (1) CN113342367B (zh)

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20190205241A1 (en) * 2018-01-03 2019-07-04 NEC Laboratories Europe GmbH Method and system for automated building of specialized operating systems and virtual machine images based on reinforcement learning
CN111959509A (zh) * 2020-08-19 2020-11-20 重庆交通大学 基于状态空间域电池能量均衡的q学习再生制动控制策略
US20200372809A1 (en) * 2019-05-21 2020-11-26 International Business Machines Corporation Traffic control with reinforcement learning
CN112566209A (zh) * 2020-11-24 2021-03-26 山西三友和智慧信息技术股份有限公司 一种基于双Q学习的UAV-BSs能量和服务优先级轨迹设计方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20190205241A1 (en) * 2018-01-03 2019-07-04 NEC Laboratories Europe GmbH Method and system for automated building of specialized operating systems and virtual machine images based on reinforcement learning
US20200372809A1 (en) * 2019-05-21 2020-11-26 International Business Machines Corporation Traffic control with reinforcement learning
CN111959509A (zh) * 2020-08-19 2020-11-20 重庆交通大学 基于状态空间域电池能量均衡的q学习再生制动控制策略
CN112566209A (zh) * 2020-11-24 2021-03-26 山西三友和智慧信息技术股份有限公司 一种基于双Q学习的UAV-BSs能量和服务优先级轨迹设计方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
HONGQIANG GUO 等: "Intelligent Energy Management for Plug-in Hybrid Electric Bus with Limited State Space", PROCESSES, pages 1 - 23 *
辛昌然 等: "插电式混合动力客车能量管理策略研究", 农业装备与车辆工程, vol. 54, no. 9, pages 11 - 15 *

Also Published As

Publication number Publication date
CN113342367B (zh) 2024-03-29

Similar Documents

Publication Publication Date Title
CN108415425B (zh) 一种基于改进基因调控网络的分布式群机器人协同集群算法
CN111267831A (zh) 一种混合动力车辆智能变时域模型预测能量管理方法
CN102169347A (zh) 基于协作协进化和多种群遗传算法的多机器人路径规划系统
Guo et al. Transfer deep reinforcement learning-enabled energy management strategy for hybrid tracked vehicle
Xue et al. Path planning of mobile robot based on improved ant colony algorithm for logistics
He et al. Optimal gear shift schedule design for automated vehicles: Hybrid system based analytical approach
CN111301397B (zh) 一种插电混合动力汽车变时域模型预测能量管理方法
Jia et al. Numerical methods for optimal control of hybrid electric agricultural tractors
CN104779830A (zh) 一种死区时间可变的逆变控制方法
CN111731262A (zh) 插电混合动力汽车变时域模型预测能量管理方法
CN111823883A (zh) 一种纯电动汽车的功率分配方法
Li et al. Application of improved ant colony optimization in mobile robot trajectory planning
Zhongrui et al. Improved ant colony optimization algorithm for intelligent vehicle path planning
DE102018220572A1 (de) Prädiktive energieoptimierung einer gesamten fahrt
CN115149542A (zh) 基于多智能体强化学习的分布式电源自适应电压控制方法
CN117184095B (zh) 基于深度强化学习的混合动力电动车系统控制方法
CN113342367A (zh) 一种基于Q-Learning强化学习的状态空间缩减方法
CN113276829A (zh) 一种基于工况预测的车辆行驶节能优化变权重方法
CN112477880A (zh) 一种无人驾驶汽车纵向控制方法
Shao et al. Mobile robot path planning based on improved ant colony fusion dynamic window approach
CN109849897B (zh) 一种考虑耦合传动系统动态效率的混合动力能量管理方法
Liu et al. Energy efficient path planning for indoor wheeled mobile robots
CN117055357A (zh) 一种基于Q-Learning强化学习的状态空间缩减方法
CN107168052B (zh) 一种mmc-hvdc系统控制参数优化方法
CN115571113A (zh) 一种基于速度规划的混合动力车辆能量优化控制方法及系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant