CN113342367A

CN113342367A - 一种基于Q-Learning强化学习的状态空间缩减方法

Info

Publication number: CN113342367A
Application number: CN202110754859.1A
Authority: CN
Inventors: 赵峰睿; 郭洪强; 刘晓东
Original assignee: Liaocheng University
Current assignee: Liaocheng University
Priority date: 2021-07-04
Filing date: 2021-07-04
Publication date: 2021-09-03
Anticipated expiration: 2041-07-04
Also published as: CN113342367B

Abstract

本发明公开了一种基于Q‑Learning强化学习的状态空间缩减方法，该方法面向Q‑Learning强化学习算法中使用两状态参数的情况，对两状态所组成的二维状态平面的坐标轴进行规划，类似于国际象棋的棋盘，将原有二维平面拆解为n×m个棋格区域，并为每个小方格区域进行状态量命名，并以此进行回报函数的设定，通过这种方法将原有的二维状态空间大大缩减，同时实现了实现了无SOC参考轨迹的强化学习智能能量管理控制策略。

Description

一种基于Q-Learning强化学习的状态空间缩减方法

技术领域

本发明涉及电动汽车的能量管理技术领域，具体涉及一种基于Q-Learning强化学习的状态空间缩减方法。

背景技术

基于强化学习的控制策略是人工智能技术在电动汽车领域的一种创新性应用，如：基于Q-Learning控制策略，其自我学习、自我增强的控制特点，规避了控制策略的控制缺陷，可有效解决未知动态工况下的最优控制问题。

但是该类策略对控制器算力的要求较高，目前仅限于理论研究阶段，难以实际应用。

原因在于：基于Q-Learning的控制策略要求当前动作能够精确捕捉当前状态，因此需要对状态空间进行精细化设计，以插电式混合电动汽车为例，需设定至少3个变量为状态，如将每个状态划分为100份，则状态矩阵的行数为100×100×100＝1000000，如此庞大的状态矩阵将导致现有控制器的算力失效；基于深度强化学习的控制策略由于嵌入了多层神经网络，需加装价格昂贵的GPU进行运算，但是，由于GPU价格昂贵和国外底层封锁等原因，基于该算法的控制策略难以实现产业化应用。

发明内容

本发明要解决的技术问题是提供一种基于Q-Learning强化学习的状态空间缩减方法，该方法，将两状态参数下较大的状态空间进行缩小，从而可以将强化学习算法应用到整车控制器当中。

为解决上述技术问题，本发明采用如下技术手段：

一种基于Q-Learning强化学习的状态空间缩减方法，包含以下步骤：

(1)状态参数的选取，选取电池SOC与归一化的行驶距离(Ld)为状态参数；

(2)以步骤(1)选择的两种状态参数为X轴、Y轴，构造出一个二维平面，对该平面进行区间划分，将X轴的归一化的行驶距离0～1划分为n等份，n小于100；将Y轴的电池SOC 0～1划分为m等份，m小于100；沿X轴、Y轴的等分点分别标画水平线及竖直线将二维平面被划分为“棋格”区域，将每个“棋格”区域视为一个状态变量，并进行依次编号，从而缩减了状态变量；

(3)获取最优SOC轨迹分布，以步骤(1)选择的两种状态参数为X轴、Y轴，构造出一个二维平面，以步骤(2)中平面划分方法将该二维平面划分为“棋格”区域，在此基础上确定每个“棋格”回报值，依据最优SOC轨迹的分布获取有效控制区间，其中SOC轨迹经过的“棋格”区域视为有效控制区间，有效控制区间的回报值为正回报，且距离终点值越近，正回报值越大，有效控制区间之外的“棋格”回报值为负回报，且偏离有效控制区间越远，负回报值越大。

获取最优SOC轨迹分布为现有技术，简述如下，使用庞特里亚金极小值原理算法(Pontryagin’s minimum principle，PMP)，动态规划(Dynamic Programming，DP)等离线优化算法，预先对目标城市的历史工况进行离线优化，设定合适的SOC范围，本专利中以插电式混合动力汽车为例，SOC起始值设定为0.8，终点值设定为0.3，使用PMP算法，通过调整PMP算法中的控制参数“协调因子(Co-state)”，使SOC轨迹控制在预先设定的起始值与终点值范围内,因而得到该城市工况下的最优SOC轨迹，对该城市下多组工况进行离线优化，得到该城市下多组SOC最优SOC轨迹，将以上最优SOC轨迹以归一化的行驶距离为X轴，SOC值为Y轴进行绘制图线，由此得到最优SOC轨迹分布。

本技术主要应用于强化学习能量管理策略与相应控制器硬件的深度融合。

根据行驶工况，在某一路线的行驶距离及速度，将归一化的行驶距离(Ld)设计为强化学习的状态参数；由于电动汽车的能耗经济性可由电池SOC反馈，因此，将电池SOC设计为第二个状态参数。如果若实现强化学习算法的精确控制，需要对两个状态参数进行细致划分，若每个状态划分为100份的话，则总的状态变量为100×100＝10000个，难以烧录至控制器中，故而应进行状态缩减，利用“棋格”区域，将每个“棋格”区域视为一个状态变量，并进行依次编号，从而缩减了状态变量；。

对上述组成整个“棋盘”的每个独立“棋格”按照一定的顺序设定对应的状态值，并以此设定相应的回报值。有效控制区间的回报值为正回报，且距离终点值越近，正回报值,即奖励越大，有效控制区间之外的回报值为负回报，且偏离有效控制区间越远，负回报值，即惩罚越大。通过这种方法，将原有的10000个状态变量缩减至n×m个，n与m的具体数值可根据控制器的存储空间及控制精度进行调整。

本专利中所述的n为10，m为10，“棋格”区域的个数为100。总的状态变量、回报值的数量大大减少。

本发明的优点在于：

(1)使原本无法烧写到控制器的上万的状态变量得到状态缩减，可以烧写进控制器，实现了强化学习算法与传统控制器的深度融合，解决对高性能GPU的依赖，推进了整车控制的智能化发展。

(2)传统的控制是根据SOC轨迹来获取回报，根据棋格获取回报本发明提出的“棋盘”式状态空间除可进行状态缩减外，还能依此进行强化学习算法的回报值设计，通过“棋格”区域实现无SOC参考轨迹的强化学习智能能量管理控制策略。

附图说明

图1是本发明选取归一化的行驶距离和电池SOC为状态参数为X轴、Y轴，构造出的二维平面的图表。

图2是缩减状态变量的图表。

图3是获取有效控制区间及“棋格”回报值的图表。

具体实施方式

下面结合实施例，进一步说明本发明。

(2)以步骤(1)选择的两种状态参数为X轴、Y轴，构造出一个二维平面，二维平面如图1所示,对该平面进行区间划分，将X轴的归一化的行驶距离0～1划分为n等份，n小于100，本实施例n为10；将Y轴的电池SOC 0～1划分为m等份，m小于100，本实施例m为10；沿X轴、Y轴的等分点分别标画水平线及竖直线将二维平面被划分为“棋格”区域，将每个“棋格”区域视为一个状态变量，并进行依次编号，从而缩减了状态变量，如图2所示；

如图3所示，属于SOC最优轨迹的分布范围则设定回报为正值，并且从左向右依次增加，保持从左向右是增加的趋势即可，同一列的回报值保持一致，图表中是从左向右增加1；不属于SOC最优轨迹的分布范围，需要给予惩罚，即负值，且偏离最优轨迹越远，惩罚值越大，保持同一列是由红色边界范围向外偏离越远惩罚越大的趋势即可，图表中是逐渐减1。由于设置的SOC终点值为0.3，虽然期间有分布在0.3以下的部分，SOC最优轨迹的分布范围及对应的回报值视为在0.3以上。

图3中，每条曲线均是对某一工况进行一次离线优化获取的SOC最优轨迹，多条曲线为多次离线优化获取的SOC最优轨迹；多次离线优化，一是减少设计误差，二是可以更方便观察总体的SOC最优轨迹趋势。

在本专利中所述的n为10，m为10，“棋格”区域的个数为100。总的状态变量、回报值的数量大大减少；

本技术主要应用于基于强化学习能量管理策略与相应控制器硬件的深度融合。

对上述组成整个“棋盘”的每个独立“棋格”按照一定的顺序设定对应的状态值，并以此设定相应的回报值。有效控制区间的回报值为正回报，且距离终点值越近，正回报值，即奖励越大，有效控制区间之外的回报值为负回报，且偏离有效控制区间越远，负回报值，即惩罚越大。通过这种方法，将原有的10000个状态变量缩减至n×m个，n与m的具体数值可根据控制器的存储空间及控制精度进行调整。

本发明的优点在于：

以上所述仅为本发明较佳可行的实施例而已，并非因此局限本发明的权利范围，凡运用本发明说明书及附图内容所作的等效结构变化，均包含于本发明的权利范围之内。

Claims

1.一种基于Q-Learning强化学习的状态空间缩减方法，其特征在于包含以下步骤：

2.根据权利要求1所述的一种基于Q-Learning强化学习的状态空间缩减方法，其特征在于：所述的n为10，m为10，“棋格”区域的个数为100。