CN117962633B

CN117962633B - 一种基于深度强化学习的电动汽车力矩分配节能控制方法

Info

Publication number: CN117962633B
Application number: CN202410036764.XA
Authority: CN
Inventors: 陈翔; 王旭; 贝泽群; 丁文龙; 赵万忠; 王春燕
Original assignee: Nanjing University of Aeronautics and Astronautics
Current assignee: Nanjing University of Aeronautics and Astronautics
Filing date: 2024-01-10
Publication date: 2024-07-02
Anticipated expiration: 2044-01-10

Abstract

本发明公开了一种基于深度强化学习的电动汽车力矩分配节能控制方法，具体涉及电动汽车动力系统优化和节能控制技术领域，设计了分层式的双层学习架构，上层使用LSTM长短时记忆网络，构建车辆需求力矩、前后轴力矩分配比系数预测模型，进行车辆需求力矩和需求前后轴力矩分配比系数的预测；通过预测力矩，判断拟采取的车辆驱动方式；下层深度强化学习网络则根据预期的驱动方式对电动汽车的转速以及力矩进行控制，对于前驱的汽车，对其力矩进行控制，对于四驱的汽车，对其前后轴力矩分配比系数进行控制，以获得优化的节能驾驶控制，同时保证当前汽车与前后车的距离保持在预期跟车距离附近，保证了汽车行驶的安全性，并且能保证交通效率。

Description

一种基于深度强化学习的电动汽车力矩分配节能控制方法

技术领域

本发明涉及电动汽车动力系统优化和节能控制技术领域，具体涉及一种基于深度强化学习的电动汽车力矩分配节能控制方法。

背景技术

随着全球能源危机的日益严重，传统燃油车辆所产生的尾气排放和对有限石油资源的依赖已经成为了一个严重的问题。电动汽车作为一种清洁能源交通工具，具有零排放和高效能的特点，成为了解决这些问题的一个重要选择。电动汽车采用电池作为动力源，通过电动机驱动车辆运行。同时，电动汽车的能源利用效率更高，可以将电能转化为机械能的效率达到70％以上，而燃油车的效率只有20％左右。优化电动机和电控系统，提高动力输出效率和驾驶性能，已成为提高电动汽车的节能性的关键技术。目前常见的优化电动机和电控系统策略大多基于规则或基于优化的方法处理，存在计算成本较大，依赖经验样本等缺点。

深度强化学习(DRL)是一种机器学习方法，通过智能体与环境的交互来学习最优的行为策略。在电动汽车力矩分配控制中，可以将电动汽车视为智能体，驾驶环境和需求为环境，通过与环境的交互来学习最优的力矩分配策略。在力矩分配控制中，通过深度强化学习方法学习到的最优力矩分配策略可以在实时驾驶中实现节能控制，从而提高电动汽车的能源利用效率。现有技术中针对电动汽车力矩分配大多基于固定工况，并且基于自学习智能控制算法的力矩分配控制研究较少。随着智能网联技术的发展，如何将深度强化学习算法技术应用于纯电动汽车在复杂交通环境下的实时力矩控制与分配策略，具备较强的实际应用意义。

发明内容

为此，本发明提供一种基于深度强化学习的电动汽车力矩分配节能控制方法，利用深度强化学习技术，通过对电动汽车系统数据采集、深度强化学习模型构建和训练，实现对电动汽车力矩分配的优化控制，以达到节能的目的。

为了实现上述目的，本发明提供如下技术方案：一种基于深度强化学习的电动汽车力矩分配节能控制方法，包括以下步骤：

S1：根据实际城市道路直线行驶工况，构建纯电动汽车动力系统模型，提出预设安全前后跟车距离L；

S2：利用LSTM长短时记忆神经网络，构建车辆力矩和分配比系数预测模型，进行车辆需求力矩和前后轴力矩分配比系数的预测；并提出力矩切换阈值N，将力矩切换阈值N与预测力矩比较，继而判断拟采取的车辆驱动模式，车辆驱动模式包括前驱模式和四驱模式。

S3：利用深度强化学习TD3算法，根据S2预期的车辆驱动模式对电动汽车的转速以及力矩进行控制，将车辆行驶因素作为奖励函数的设置依据；

S4：构建两个深度强化学习TD3网络，构建第一TD3网络，当汽车在前轮驱动模式时，使电机输出力矩分布在电机效率MAP图的高效率区；构建第二TD3网络，当汽车在四轮驱动时，对电机总输出力矩和汽车前后轴力矩分配比系数进行控制，得到使电机效率最高的前后轴力矩。

优选的，步骤S2车辆力矩和分配比系数预测模型的搭建步骤包括：

(1)提取电机效率MAP图和最优力矩分配比图上高效率区的转速以及转矩数据组成数据集，并将数据集划分为训练数据集与测试数据集；

(2)构建LSTM模型，分别通过训练数据集对LSTM模型进行训练，通过测试数据集对训练后的LSTM模型进行验证，根据验证结果反馈调整LSTM模型，完成车辆力矩和分配比系数预测模型的训练。

优选的，所述LSTM网络的遗忘门参数更新公式为：

f_t＝σ(W_f·[h_t-1，x_t])+b_f

其中，f_t表示t时刻的遗忘门状态，W_f和b_f分别是遗忘门的权值和偏置，σ表示sigmoid函数，输出值范围为0到1，h_t-1表示隐含层状态，x_t表示t时刻网络的输入值；

LSTM网络的输入门用于更新输入细胞状态中的信息：

i_t＝σ(W_i·[h_t-1，x_t]+b_i)

其中，i_t表示t时刻的输入门状态，W_i和b_i分别是输入门的权值和偏置；

LSTM网络记忆细胞状态C_t，由存储在前一个记忆细胞中的信息和新的候选信息进行更新：

C_t＝tanh(W_c·[h_t-1，x_t]+b_c)

其中，是t时刻的候选细胞状C_t是更新后的细胞状态，W_c、b_c分别是细胞状态的权值和偏置，.代表点积；

LSTM的输出门用于控制细胞状态中的信息输出，根据记忆细胞状态Ct和输出门状态O_t计算输出隐含层状态h_t-1：

O_t＝σ(W₀[h_t-1，x_t]+b₀)；

使用交叉熵损失函数计算预测结果与真实标签之间的差异，并使用反向传播算法更新车辆力矩和分配比系数预测模型参数，以最小化损失函数。

使用训练数据集对车辆力矩和分配比系数预测模型进行训练，通过多次迭代优化车辆力矩和分配比系数预测模型参数，使车辆力矩和分配比系数预测模型能够更好地拟合训练数据。

优选的，步骤S3具体包括：

(1)初始化六个网络：一个策略网络(Actor)、两个价值网络(Critic1、Critic2)以及对应的目标策略网络(Target-Actor)、目标价值网络(Target-Critic1、Target-Critic2)，Actor网络用于选择动作，Critic网络用于评估动作的Q值；同时设置经验回放缓冲区，用于存储Agent与环境交互得到的经验数据；

(2)定义状态变量为预测力矩T′、实际力矩T、电机效率η、转速n，预测前后轴力矩分配比系数ε′、前后轴力矩分配比系数ε，角速度W的集合表示为S＝{T′，T，η，W，n，ε，ε′}；输出的动作变量为转速n，汽车力矩T和前后轴力矩分配比系数ε，表示为：

A₁＝{T，n}

A₂＝{T，n，ε}

其中，第一TD3网络输出对应动作A1，第二TD3网络输出对应动作A2；

(3)在Agent采取动作后，获得相应的奖励，奖励函数R定义为：

R₁＝λWTη-β(D-d)²-γ(T′-T)²

R₂＝λWTη-β(D-d)²-γ(T′-T)²-α(ε′-ε)²

其中α、λ、β、γ为权重系数，W为角速度，η为电机效率，D为预设跟车距离，d为实际跟车距离，T′为预测力矩，T为输出力矩，ε′为预测的前后轴力矩分配系数，ε为输出的前后轴力矩分配系数；

(4)Agent根据当前策略选择动作，并与环境进行交互，到达下一个状态，并获得相应奖励。观察到的状态、选择的动作、获得的奖励以及下一个状态将被存储在经验回放缓冲区中；

(5)从经验回放缓冲区中随机采样一批经验数据。Target-Actor网络根据状态S′输出下一时刻动作A′；并对动作A′施加随机噪声，即：

A′＝π(S′)+e^-ξt

其中，π(S′)为Target-Actor网络，e^-ξt为随机噪声，ξ为噪声衰减率；

(6)使用一对独立的Critic网络估计动作值函数；下一时刻的状态与动作作为Target-Critic网络的输入，选择两个网络中输出的最小Q值计算目标值y；Target-Critic网络目标值计算公式为：

y＝R_i+γmin_i＝1，2(Q_i(S′，π(S′)))

其中，R_i为奖励函数，γ为折扣因子，Q_i为Target-Critic网络输出的Q值，π(S′)为Target-Actor网络；

然后，基于TD-error梯度下降法，更新Critic网络，更新公式如下：

其中，L_i为损失函数，y为Critic网络目标值，Q_i(ε，a)为两个Critic网络的输出Q值；

采用梯度下降法搜索损失函数的全局最小值，即可得到最佳动作值函数；

(7)更新Actor网络和Target-Actor网络，采用梯度上升法进行更新，更新公式为：

其中，为Actor网络梯度，为Critic网络梯度；E_s～π为在状态S下，遵从π策略，做出动作所得到奖励的期望；

(8)Critic网络和Actor网络采用延迟更新的方式：

为了防止Actor网络可能会陷入次优策略，设定Actor网络的更新频率为Critic网络的两倍；

(9)引入目标策略平滑机制：

为了防止目标逼近过程中的最优值过拟合估计现象，在Target-Critic网络中引入小的随机噪声，可以对目标的估计进行平滑处理，公式如下：

A′＝π(S′)+clip·e^-ξt

其中，字母clip表示剪刀操作符，在目标策略平滑中，添加的噪声被裁剪到可能的动作范围内。剪辑操作符的目标是保持目标接近原始动作，从而避免引入不可能的动作。

优选的，步骤S4包括：

(1)建立TD3网络，包括第一TD3网络和第二TD3网络；

(2)用第一TD3网络，在电动汽车在前驱模式时进行力矩控制与优化，执行所述控制动作A1，使电动汽车电机工作在高效率曲线附近；用第二TD3网络，在电动汽车在四驱模式时对前后轴力矩分配系数进行控制，执行所述控制动作A2，用于分配下一时刻电动汽车前后轴的力矩，使汽车在最优前后轴分配比系数下，节能行驶。

本发明具有如下优点：

1、本发明针对纯电动汽车力矩分配与节能驾驶控制方面，提出一种双层深度强化学习网络架构分别处理纵向速度控制与力矩分配控制，很好地解决了以往控制策略建模困难的问题，通过深度强化学习自学习能力即可完成节能驾驶优化，实现纯电动汽车高效行驶与节约能源。

2、本发明拓宽了深度强化学习理论的应用，为深度强化学习方法在纯电动汽车力矩分配与控制与自动驾驶等技术等提供了一种新的研究思路，具备较强的实际应用意义。

附图说明

图1是本发明纯电动汽车力矩分配与节能驾驶控制方法流程图；

图2是本发明基于双层深度强化学习的纯电动汽车力矩分配节能驾驶控制方法示意图；

图3是本发明建模核心部件关系图；

图4是本发明TD3深度强化学习算法流程图。

具体实施方式

以下由特定的具体实施例说明本发明的实施方式，熟悉此技术的人士可由本说明书所揭露的内容轻易地了解本发明的其他优点及功效，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

实施例1

本发明提供了一种基于深度强化学习的电动汽车力矩分配节能控制方法，如图1所示，首先通过摄像头、雷达、传感器等实时监测本车与前、后方的车辆情况，收集道路状况、车辆及交通信息等，并根据所述获取到当前所述车辆的车辆信息以及当前所述车辆行驶道路的道路信息，所述车辆信息包括车速以及车辆加速度等，所述交通信息包括道路交通状况、前车速度、距前车距离以及道路限速等，接着进行如下的步骤：

S1、根据实际城市道路直线行驶工况，构建纯电动汽车动力系统模型，预设前后安全跟车距离L；

本发明提出如下预设安全前后跟车距离公式：

L＝(sv+1)²

其中，s为系数，L为预设安全跟车距离，v为电动汽车自身车速。

S2、利用LSTM长短时记忆神经网络，构建车辆力矩和分配比系数预测模型，进行车辆需求力矩和前后轴力矩分配比系数的预测；

车辆力矩和分配比系数预测模型的搭建步骤包括：

(2)构建LSTM模型，分别通过训练数据集对LSTM模型进行训练，通过测试数据集对训练后的LSTM模型进行验证，根据验证结果反馈调整LSTM模型，完成车辆力矩和力矩分配比系数预测模型的训练。

如图2所示，在本实施例的具体应用中，LSTM模型一共包括3个隐藏层，其中3个隐藏层执行LSTM操作，LSTM中第一、第二和第三层分别由10、5和100个神经元组成。

在本实施例中，LSTM模型的重要组成部分是细胞状态，并沿着水平链传递信息。细胞状态中的信息被几个称为门的结构进行删除或修改。1个LSTM模型由3个门组成：遗忘门、输入门和输出门。

具体的，遗忘门决定所要丢弃的信息，该门要读取h_t-1和x_t，对细胞状态进行归一化，使细胞状态值对应于0-1之间的数字，1代表完全保留，0代表完全舍弃，所述LSTM网络的遗忘门参数更新公式为：

f_t＝σ(W_f·[h_t-1，x_t]+b_f)

LSTM网络的输入门用于更新输入细胞状态中的信息，决定让多少新的信息加入到细胞状态中来，即下述公式：

i_t＝σ(W_i·[h_t-1，x_t]+b_i)

C_t＝tanh(W_c·[h_t-1，x_t]+b_c)

LSTM的输出门决定细胞状态的哪个部分输出出去，将细胞状态通过tanh进行处理，最终输出我们确定输出部分，即下述公式：

O_t＝σ(W₀[h_t-1，x_t]+b₀)

具体的，所述力矩切换阈值N即为前轴电机最高效率时的力矩值，当预测力矩大于前轴电机最高效率的力矩值时采用四轮驱动，当预测力矩小于前轴电机最高效率的力矩值时采用前轮驱动。

S3、利用深度强化学习TD3算法，根据S2预期的车辆驱动模式对电动汽车的转速以及力矩进行控制，将车辆行驶时的纵向性能、车辆行驶时的前后车距和电机效率等因素作为奖励函数的设置依据；

具体步骤如下：

如图4，初始化六个网络即一个策略网络(Actor)和两个价值网络(Critic1、Critic2)，以及它们的目标策略网络(Target-Actor)和目标价值网络(Target-Critic1、Target-Critic2)，Actor网络用于选择动作，Critic网络用于评估动作的Q值。同时设置经验回放缓冲区，用于存储Agent与环境交互得到的经验数据。

定义状态变量为预测力矩T′、实际力矩T、电机效率η、转速n，预测前后轴力矩分配比系数ε′、前后轴力矩分配比系数ε，角速度W的集合表示为S＝{T′，T，η，W，n，ε，ε′}；输出的动作变量为转速n，汽车力矩T和前后轴力矩分配比系数ε，表示为：

A₁＝{T，n}

A₂＝{T，n，ε}

其中，第一TD3网络输出对应动作A1，第二TD3网络输出对应动作A2。

在Agent采取动作后，获得相应的奖励，奖励函数R定义为：

R₁＝λWTη-β(D-d)²-γ(T′-T)²

R₂＝λWTη-β(D-d)²-γ(T′-T)²-α(ε′-ε)²

Agent根据当前策略选择动作，并与环境进行交互。观察到的状态、选择的动作、获得的奖励以及下一个状态将被存储在经验回放缓冲区中。

从经验回放缓冲区中随机采样一批经验数据。Target-Actor网络根据状态S′输出下一时刻动作A′；并对动作A′施加随机噪声，即：

A′＝π(S′)+e^-ξt

使用一对独立的Critic网络估计动作值函数；下一时刻的状态与动作作为Target-Critic网络的输入，选择两个网络中输出的最小Q值计算目标值y；Target-Critic网络目标值计算公式为：

y＝R_i+γmin_i＝1，2(Q_i(S′，π(S′)))

其中，R_i为奖励函数，γ为折扣因子，Q_i为Target-Critic网络输出的Q值；

其中，L_i为损失函数，y为Critic网络目标值，Q_i(s，a)为两个Critic网络的输出Q值；

采用梯度下降法搜索损失函数的全局最小值，即可得到最佳动作值函数。

更新Actor网络和Target-Actor网络，采用梯度上升法进行更新，更新公式为：

Critic网络和Actor网络采用延迟更新的方式：

为了防止Actor网络可能会陷入次优策略，设定Actor网络的更新频率为Critic网络的两倍。

引入目标策略平滑机制：

A′＝π(S′)+clip·e^-ξt

其中，“clip”字母表示剪刀操作符。在目标策略平滑中，添加的噪声被裁剪到可能的动作范围内。剪辑操作符的目标是保持目标接近原始动作，从而避免引入不可能的动作。

上式可以理解为，在一定的概率指导下，动作可以在很小的动作空间范围内变化，这样对目标Q值的估计更加准确和稳健。然而，在更新行动者网络时，可以忽略噪声。这是因为行动者可以探索Q值最大的动作，而随机噪声的介入会破坏这种探索。

S4、构建两个深度强化学习TD3网络，构建第一TD3网络，当汽车在前轮驱动模式时，使电机输出力矩分布在电机效率MAP图的高效率区；构建第二TD3网络，当汽车在四轮驱动时，对电机总输出力矩和汽车前后轴力矩分配比系数进行控制，得到使电机效率最高的前后轴力矩，实现电动汽车节能驾驶优化。

步骤S4主要包括以下子步骤：

(1)建立TD3网络，包括第一TD3网络和第二TD3网络；

(2)用第一TD3网络，在电动汽车在前驱模式时进行力矩控制与优化，执行所述控制动作A1，使电动汽车电机工作在高效率曲线附近；

用第二TD3网络，在电动汽车在四驱模式时对前后轴力矩分配系数进行控制，执行所述控制动作A2，用于分配下一时刻电动汽车前后轴的力矩，是汽车在最优前后轴分配比系数下，节能行驶。

本发明提出纯电动汽车动力系统模型，如图3所示，包括动力电池、DC/DC转换器、驱动电机及驱动轮；其中，所述动力电池连接至DC/DC转换器、所述DC/DC转换器使用电力连接至驱动电机，驱动电机机械连接至驱动轮。

特别地，本发明还包括一种纯电动汽车力矩分配节能控制系统，采用如上具体实施例中描述的任一项节能驾驶控制方法，完成纯电动汽车城市直线行驶工况下的节能驾驶优化控制。

虽然，上文中已经用一般性说明及具体实施例对本发明作了详尽的描述，但在本发明基础上，可以对之作一些修改或改进，这对本领域技术人员而言是显而易见的。因此，在不偏离本发明精神的基础上所做的这些修改或改进，均属于本发明要求保护的范围。

Claims

1.一种基于深度强化学习的电动汽车力矩分配节能控制方法，其特征在于：包括以下步骤：

S2：利用LSTM长短时记忆神经网络，构建车辆力矩和分配比系数预测模型，进行车辆需求力矩和前后轴力矩分配比系数的预测；并提出力矩切换阈值N，将力矩切换阈值N与预测力矩比较，继而判断拟采取的车辆驱动模式，车辆驱动模式包括前驱模式和四驱模式；

步骤S2车辆力矩和分配比系数预测模型的搭建步骤包括：

(2)构建LSTM模型，分别通过训练数据集对LSTM模型进行训练，通过测试数据集对训练后的LSTM模型进行验证，根据验证结果反馈调整LSTM模型，完成车辆力矩和分配比系数预测模型的训练；

步骤S3具体包括:

(1)初始化六个网络：一个策略网络Actor、两个价值网络Critic1、Critic2以及对应的目标策略网络Target-Actor、目标价值网络Target-Criti c1、Target-Critic2，Actor网络用于选择动作，Critic网络用于评估动作的Q值；同时设置经验回放缓冲区，用于存储Agent与环境交互得到的经验数据；

(2)定义状态变量为预测力矩T'、实际力矩T、电机效率η、转速n，预测前后轴力矩分配比系数ε'、前后轴力矩分配比系数ε，角速度W的集合表示为S＝{T',T,η,W,n,ε,ε'}；输出的动作变量为转速n，汽车力矩T和前后轴力矩分配比系数ε，表示为：

A₁＝{T,n}

A₂＝{T,n,ε}

(3)在Agent采取动作后，获得相应的奖励，奖励函数R定义为：

R₁＝λWTη-β(D-d)²-γ(T'-T)²

R₂＝λWTη-β(D-d)²-γ(T'-T)²-α(ε'-ε)²

其中α、λ、β、γ为权重系数，W为角速度，η为电机效率，D为预设跟车距离，d为实际跟车距离，T'为预测力矩，T为输出力矩，ε'为预测的前后轴力矩分配系数，ε为输出的前后轴力矩分配系数；

(4)Agent根据当前策略选择动作，并与环境进行交互，到达下一个状态，并获得相应奖励；观察到的状态、选择的动作、获得的奖励以及下一个状态将被存储在经验回放缓冲区中；

(5)从经验回放缓冲区中随机采样一批经验数据；Target-Actor网络根据状态S′输出下一时刻动作A′；并对动作A′施加随机噪声，即：

A'＝π(S')+e^-ξt

其中，π(S')为Target-Actor网络，e^-ξt为随机噪声，ξ为噪声衰减率；

y＝R_i+γmin_i＝1,2(Q_i(S',π(S')))

其中，R_i为奖励函数，γ为折扣因子，Q_i为Target-Critic网络输出的Q值，π(S')为Target-Actor网络；

其中，L_i为损失函数，y为Critic网络目标值，Q_i(s,a)为两个Critic网络的输出Q值；

其中，为Actor网络梯度，为Critic网络梯度；Ε_s～π为在状态S下，遵从π策略，做出动作所得到奖励的期望；

(8)Critic网络和Actor网络采用延迟更新的方式：

(9)引入目标策略平滑机制：

A'＝π(S')+clip·e^-ξt

其中，字母clip表示剪刀操作符；

S4：构建两个深度强化学习TD3网络，构建第一TD3网络，当汽车在前轮驱动模式时，使电机输出力矩分布在电机效率MAP图的高效率区；构建第二TD3网络，当汽车在四轮驱动时，对电机总输出力矩和汽车前后轴力矩分配比系数进行控制，得到使电机效率最高的前后轴力矩；

步骤S4包括：

(1)建立TD3网络，包括第一TD3网络和第二TD3网络；

(2)用第一TD3网络，在电动汽车在前驱模式时进行力矩控制与优化，执行所述动作A1，使电动汽车电机工作在高效率曲线附近；用第二TD3网络，在电动汽车在四驱模式时对前后轴力矩分配系数进行控制，执行所述动作A2，用于分配下一时刻电动汽车前后轴的力矩,使汽车在最优前后轴分配比系数下，节能行驶。

2.根据权利要求1所述的一种基于深度强化学习的电动汽车力矩分配节能控制方法，其特征在于：LSTM网络的遗忘门参数更新公式为：

f_t＝σ(W_f·[h_t-1,x_t])+b_f

LSTM网络的输入门用于更新输入细胞状态中的信息：

i_t＝σ(W_i·[h_t-1,x_t]+b_i)

C_t＝tanh(W_c·[h_t-1,x_t]+b_c)

其中，是t时刻的候选细胞状C_t是更新后的细胞状态，W_c、b_c分别是细胞状态的权值和偏置，·代表点积；

LSTM的输出门用于控制细胞状态中的信息输出，根据记忆细胞状态C_t和输出门状态O_t计算输出隐含层状态h_t-1：

O_t＝σ(W₀[h_t-1,x_t]+b₀)。