CN115793445B

CN115793445B - 一种基于多智能体深度强化学习的混合动力汽车控制方法

Info

Publication number: CN115793445B
Application number: CN202211434764.2A
Authority: CN
Inventors: 唐小林; 甘炯鹏; 杨为; 胡晓松; 李国法; 李佳承
Original assignee: Chongqing University
Current assignee: Chongqing University
Priority date: 2022-11-16
Filing date: 2022-11-16
Publication date: 2023-09-05
Anticipated expiration: 2042-11-16
Also published as: CN115793445A

Abstract

本发明涉及一种基于多智能体深度强化学习的混合动力汽车控制方法，属于新能源汽车技术领域。该方法包括：S1：构建多智能体交互环境；S2：确定各智能体对应策略的状态空间和动作空间，并制定合适的奖励函数；S3：建立与训练基于多智能体深度强化学习算法的混合动力汽车多目标协同控制策略，求解包含燃油经济性、再生制动回收率以及复合电源功率损耗率的多目标优化问题。本发明将多智能体深度强化学习算法应用于混合动力汽车的多目标协同控制中，可以实现不同优化目标间的自适应协调，不再依赖于人工协调优化目标权重，具有良好的灵活性、实时性以及优化效果。

Description

一种基于多智能体深度强化学习的混合动力汽车控制方法

技术领域

本发明属于新能源汽车技术领域，涉及一种基于多智能体深度强化学习的混合动力汽车控制方法。

背景技术

作为传统燃油汽车和纯电动汽车之间的过渡产品，油电混合动力汽车具有更高的燃油经济性，更低的电池性能要求，且无续航里程焦虑，能在一定程度上减缓全球变暖、石油资源锐减等问题的加剧。而随着时代的进步和技术的发展，混合动力汽车也被设计得越来越复杂，以满足更多样化的使用需求，并提供更好的性能。因此，未来的混合动力汽车必然需要进行多目标协同控制，以实现不同的功能和优化目标。混合动力系统需要控制的目标越多，意味着不同目标之间的协同控制也越困难，只有在不同的动力源以及能量源之间实现合理的功率分配，混合动力系统的优化控制才会越有效，但如何能够协调好不同优化目标之间的主次关系，使整体优化效果最大化，是当前混合动力汽车多目标控制中亟待解决的问题。

而目前的混合动力汽车多目标协同控制通常采用加权和法进行协同优化，优化效果严重依赖于权重系数的人工调整，灵活性差、调试周期长且优化效果有限，而较为先进的方法采用遗传算法对权重系数进行智能调整，但也存在计算速度慢、实时性差等问题。

发明内容

有鉴于此，本发明的目的在于提供一种基于多智能体深度强化学习的混合动力汽车控制方法，通过不同的智能体学习不同的控制策略，进行更有针对性的控制，并且通过多智能体深度强化学习算法内部的全局网络协调作用，实现对混合动力汽车的多目标自适应协同控制，在不依赖于人工调控优化目标的主次关系的同时，具有更好的灵活性、实时性以及优化效果。

为达到上述目的，本发明提供如下技术方案：

一种基于多智能体深度强化学习的混合动力汽车控制方法，该方法包括以下步骤：

S1：构建多智能体交互环境；

S2：确定各智能体对应策略的状态空间和动作空间，并制定合适的奖励函数；

S3：建立与训练基于多智能体深度强化学习算法的混合动力汽车多目标协同控制策略，求解包含燃油经济性、再生制动回收率以及复合电源功率损耗率的多目标优化问题。

可选的，所述S1中，多智能体交互环境包括：

外部车辆行驶工况环境，主要包括车辆行驶速度轨迹以及道路坡度轨迹；

内部混合动力系统环境，主要包括各种混合动力系统部件模型的建立以及各部件间状态转移方程的建立。

可选的，所述S2中，确定各智能体对应策略的状态空间和动作空间，并制定合适的奖励函数，具体包括以下步骤：

S21：定义智能体1的四轮驱动转矩分配策略的状态空间、动作空间以及奖励函数：

状态空间：S₁＝{vel,acc}

其中，vel为车辆行驶速度，acc为车辆纵向加速度；

动作空间：

其中，T_e为发动机转矩，T_emax为发动机最大转矩，T_mg1为前驱电机转矩，T_mg1max为前驱电机最大转矩；

奖励函数：

其中，α为权重参数，为发动机瞬时燃油消耗量，ω_e为发动机转速；

S22：定义智能体2的再生制动转矩分配策略的状态空间、动作空间以及奖励函数：

状态空间：S₂＝{vel,acc,bsoc,usoc}

其中，bsoc为动力电池荷电状态，usoc为超级电容荷电状态；

动作空间：A₂＝T_mg2＝-[(0～1)*(T_rsbmax-T_rsbmin)+T_rsbmin]

其中，T_mg2为后驱电机转矩，T_rsbmax、T_rsbmin分别为后轴安全制动转矩范围内的最大值和最小值；

奖励函数：

其中，β为权重参数，P_bre为通过复合电源回收的再生制动功率，P_bto为车辆所需的总制动功率；

S23：定义智能体3的复合电源功率分配策略的状态空间、动作空间以及奖励函数：

状态变量：S₃＝{bsoc,usoc}

动作变量：

其中，P_uc为超级电容功率，η_mg为电机效率，η_DC为DC/DC转换器效率，当电机处于驱动状态时，α为-1，反之为1；

奖励函数：

其中，γ为权重参数，I_bat为动力电池电流，R_bat为动力电池内阻，I_uc为超级电容电流，R_uc为超级电容内阻，P_bat为动力电池功率。

可选的，所述S3具体包括以下步骤：

S31：加载外部车辆行驶工况环境与车辆需求功率计算模块，并将行驶工况信息输入内部混合动力系统环境进行交互；

S32：根据获取的工况信息，判断工况类型，选择相应的策略进行控制，初期智能体会随机选择动作以探索环境，同时会设置一个探索率以限制随机探索的次数，探索率会随着随机探索次数的增加而逐渐减小，动作选择的随机性也会随之减小，当探索率为0时，动作选择将完全由训练得到的策略网络决定；

S33：将智能体选择的动作命令输入内部混合动力系统环境，内部系统环境将结合行驶工况信息产生相应的状态转移，同时计算出不同策略的奖励函数值，在每一个时刻，将所有智能体的当前状态存入同一个矩阵中，即s＝[s₁ s₂ s₃]，得到动作矩阵a＝[a₁ a₂ a₃]，奖励值矩阵r＝[r₁ r₂ r₃]，下一时刻状态矩阵s’＝[s₁’s₂’s₃’]，这4个矩阵能够组成一个状态转移数据(s,a,r,s’)，包含每一时刻所有智能体的信息；而每一时刻的状态转移数据需要存入经验池中，用于后续策略训练；

S34：从经验池中提取部分状态转移数据作为经验样本，用于策略网络的更新训练，其中，设提取的经验样本总数为S，而(s^j,a^j,r^j,s^’j)为经验样本中第j个状态转移数据，则策略网络参数的更新主要包括以下具体步骤：

(1)每个智能体中的评论家网络通过获取包含其他所有智能体的状态和动作的全局信息拟合出包含其他所有智能体策略的近似策略，从而指导各自智能体的演员网络进行更新，同时通过最小化损失函数更新评论家网络中在线网络的参数，近似策略拟合公式表示为：

其中，为第j个状态转移数据中第i个智能体拟合的全局近似策略参数，/>为第i个智能体的真实策略，H为策略分布的熵；

损失函数表示为：

其中，为第i个智能体的奖励值，γ为奖励折扣因子，μ’为演员网络中目标网络的策略，a^’j为演员目标网络以s^’j为输入时的输出，/>为第i个智能体的评论家目标网络以s^’j和a^’j为输入时输出的目标Q值，θ_i为评论家在线网络权重参数，μ为演员在线网络的策略，/>为第i个智能体的评论家在线网络以s^j和a^j为输入时输出的当前Q值；

(2)每个智能体中的演员网络根据自己观察到的状态信息进行动作选择，并通过随机策略梯度进行演员网络中在线网络的参数更新，随机策略梯度公式表示为：

其中，μ_i为第i个智能体演员在线网络的当前策略，为第i个智能体的当前状态，a_i为演员在线网络以/>为输入时的输出动作；

(3)每隔一定时间通过软更新算法更新演员网络和评论家网络的目标网络参数；

S35：重复步骤S31～S34，直至达到设定的训练次数；

S36：提取训练好的策略模型，并在测试工况下进行硬件在环测试，若获得优化达到阈值，基于多智能体深度强化学习的混合动力汽车控制策略模型训练完成，将该策略模型用于混合动力汽车的协同控制，若优化效果没有达到阈值，则需要对超参数进行一定调整后，重复步骤S31～S35，直至获得达到阈值的优化效果。

本发明的有益效果在于：通过使用多智能体深度强化学习算法对混合动力汽车进行多目标协同控制，可使多种控制策略分别由多个对应的智能体进行学习训练得到，从而可以独立地设置状态、动作和奖励，以进行更有针对性的训练；另外，多智能体深度强化学习算法可通过全局信息指导局部网络进行参数更新，实现不同智能体之间的信息交流，从而完成对混合动力汽车的多目标自适应协同控制；与传统基于加权和法或遗传算法的多目标协同控制策略相比，本发明可在不依赖于人工调控优化目标的主次关系的同时，具有更好的灵活性、实时性以及优化效果。

本发明的其他优点、目标和特征在某种程度上将在随后的说明书中进行阐述，并且在某种程度上，基于对下文的考察研究对本领域技术人员而言将是显而易见的，或者可以从本发明的实践中得到教导。本发明的目标和其他优点可以通过下面的说明书来实现和获得。

附图说明

为了使本发明的目的、技术方案和优点更加清楚，下面将结合附图对本发明作优选的详细描述，其中：

图1为本发明方法流程图；

图2为混合动力汽车传动系统结构框图；

图3为复合电源结构框图；

图4为MADDPG算法结构图；

图5为本发明中利用MADDPG算法实现混合动力汽车协同控制的流程框图。

具体实施方式

以下通过特定的具体实例说明本发明的实施方式，本领域技术人员可由本说明书所揭露的内容轻易地了解本发明的其他优点与功效。本发明还可以通过另外不同的具体实施方式加以实施或应用，本说明书中的各项细节也可以基于不同观点与应用，在没有背离本发明的精神下进行各种修饰或改变。需要说明的是，以下实施例中所提供的图示仅以示意方式说明本发明的基本构想，在不冲突的情况下，以下实施例及实施例中的特征可以相互组合。

其中，附图仅用于示例性说明，表示的仅是示意图，而非实物图，不能理解为对本发明的限制；为了更好地说明本发明的实施例，附图某些部件会有省略、放大或缩小，并不代表实际产品的尺寸；对本领域技术人员来说，附图中某些公知结构及其说明可能省略是可以理解的。

本发明实施例的附图中相同或相似的标号对应相同或相似的部件；在本发明的描述中，需要理解的是，若有术语“上”、“下”、“左”、“右”、“前”、“后”等指示的方位或位置关系为基于附图所示的方位或位置关系，仅是为了便于描述本发明和简化描述，而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作，因此附图中描述位置关系的用语仅用于示例性说明，不能理解为对本发明的限制，对于本领域的普通技术人员而言，可以根据具体情况理解上述术语的具体含义。

请参阅图1～图5，本发明提供了一种基于多智能体深度强化学习算法(MADDPG)的混合动力汽车多目标协同控制方法，实现了包括四轮驱动转矩分配、再生制动转矩分配与复合电源功率分配的自适应协同控制，优化了燃油经济性、再生制动回收率以及复合电源功率损耗率。如图1所示，该方法具体包括以下步骤：

S1：构建多智能体交互环境，具体包括：

外部车辆行驶工况环境，主要包括车辆行驶速度轨迹以及道路坡度轨迹，用于模拟车辆驾驶场景，与混合动力汽车进行交互；内部混合动力系统环境，主要包括各种混合动力系统部件模型的建立以及各部件间状态转移方程的建立，各智能体决策产生的动作将作用在特定系统部件模型上，混合动力系统将结合行驶信息和动作命令产生一系列状态转移。本发明中采用的车辆具体实例为一辆装备复合电源的四驱插电式混合动力汽车，其传动系统结构如图2所示，其中的复合电源结构如图3所示。

S2：确定各智能体对应策略的状态空间和动作空间，并制定合适的奖励函数，具体包括以下步骤：

状态空间：S₁＝{vel,acc}

其中，vel为车辆行驶速度，acc为车辆纵向加速度。

动作空间：

其中，T_e为发动机转矩，T_emax为发动机最大转矩，T_mg1为前驱电机转矩，T_mg1max为前驱电机最大转矩，等式表示在0到1之间选择一个数值乘以最大转矩作为输出动作。

奖励函数：

其中，α为权重参数，为发动机瞬时燃油消耗量，ω_e为发动机转速。

状态空间：S₂＝{vel,acc,bsoc,usoc}

其中，bsoc为动力电池荷电状态，usoc为超级电容荷电状态。

动作空间：A₂＝T_mg2＝-[(0～1)*(T_rsbmax-T_rsbmin)+T_rsbmin]

其中，T_mg2为后驱电机转矩，T_rsbmax、T_rsbmin分别为后轴安全制动转矩范围内的最大值和最小值，等式表示在后轴安全制动转矩范围内选择一个值作为后驱电机的输出动作。

奖励函数：

其中，β为权重参数，P_bre为通过复合电源回收的再生制动功率，P_bto为车辆所需的总制动功率。

状态变量：S₃＝{bsoc,usoc}

动作变量：

其中，P_uc为超级电容功率，η_mg为电机效率，η_DC为DC/DC转换器效率，当电机处于驱动状态时，α为-1，反之为1，等式表示在0到1之间选择一个数值乘以前后电机功率之和作为超级电容的输出动作。

奖励函数：

其中，各奖励函数中的权重参数用于将各智能体的奖励值调整为同一数量级，以获得良好的训练效果，而非用于调整各优化目标中的主次关系。

本发明采用的MADDPG算法为通过Python语言与Pytorch深度学习工具建立的，其算法结构示意图如图4所示。在每个时刻，每个智能体都会与环境进行交互获得各自所需的状态变量并进行动作选择，从而产生各自的奖励值，因此经验池中存放的经验样本数据包含每一时刻产生的所有智能体的信息。其中，每个智能体中的演员网络会根据各自观察到的状态变量选择动作变量，而每个智能体中的评论家网络则能获取所有智能体的状态和动作信息，进而获得除自身智能体外的其他所有智能体的近似策略用于指导各自的演员网络进行更新，实现智能体间的通讯，从而协同各智能体完成竞争或合作任务。而利用MADDPG算法实现混合动力汽车协同控制的流程如图5所示，具体包括以下步骤：

S31：加载外部车辆行驶工况环境与车辆需求功率计算模块，并将行驶工况信息输入内部混合动力系统环境进行交互.

S32：根据获取的工况信息，判断工况类型，选择相应的策略进行控制，初期智能体会随机选择动作以探索环境，同时会设置一个探索率以限制随机探索的次数，探索率会随着随机探索次数的增加而逐渐减小，动作选择的随机性也会随之减小，当探索率为0时，动作选择将完全由训练得到的策略网络决定。

S33：将智能体选择的动作命令输入内部混合动力系统环境，内部系统环境将结合行驶工况信息产生相应的状态转移，同时可计算出不同策略的奖励函数值，在每一个时刻，将所有智能体的当前状态存入同一个矩阵中，即s＝[s₁ s₂ s₃]，类似可以得到动作矩阵a＝[a₁ a₂ a₃]，奖励值矩阵r＝[r₁ r₂ r₃]，下一时刻状态矩阵s’＝[s₁’s₂’s₃’]，这4个矩阵可以组成一个状态转移数据(s,a,r,s’)，包含了每一时刻所有智能体的信息。而每一时刻的状态转移数据需要存入经验池中，用于后续策略训练。

其中，为第j个状态转移数据中第i个智能体拟合的全局近似策略参数，/>为第i个智能体的真实策略，H为策略分布的熵。

损失函数表示为：

其中，为第i个智能体的奖励值，γ为奖励折扣因子，μ’为演员网络中目标网络的策略，a^’j为演员目标网络以s^’j为输入时的输出，/>为第i个智能体的评论家目标网络以s^’j和a^’j为输入时输出的目标Q值，θ_i为评论家在线网络权重参数，μ为演员在线网络的策略，/>为第i个智能体的评论家在线网络以s^j和a^j为输入时输出的当前Q值。

其中，μ_i为第i个智能体演员在线网络的当前策略，为第i个智能体的当前状态，a_i为演员在线网络以/>为输入时的输出动作。

S35：重复步骤S31～S34，直至达到设定的训练次数。

S36：提取训练好的策略模型，并在测试工况下进行硬件在环测试，若获得了较好的优化效果，基于多智能体深度强化学习的混合动力汽车控制策略模型训练完成，可将该策略模型用于混合动力汽车的协同控制，若优化效果不佳，则需要对超参数进行一定调整后，重复步骤S31～S35，直至获得较好的优化效果。

最后说明的是，以上实施例仅用以说明本发明的技术方案而非限制，尽管参照较佳实施例对本发明进行了详细说明，本领域的普通技术人员应当理解，可以对本发明的技术方案进行修改或者等同替换，而不脱离本技术方案的宗旨和范围，其均应涵盖在本发明的权利要求范围当中。

Claims

1.一种基于多智能体深度强化学习的混合动力汽车控制方法，其特征在于：该方法包括以下步骤：

S1：构建多智能体交互环境；

S3：建立与训练基于多智能体深度强化学习算法的混合动力汽车多目标协同控制策略，求解包含燃油经济性、再生制动回收率以及复合电源功率损耗率的多目标优化问题；

所述S1中，多智能体交互环境包括：

外部车辆行驶工况环境，包括车辆行驶速度轨迹以及道路坡度轨迹；

内部混合动力系统环境，包括各种混合动力系统部件模型的建立以及各部件间状态转移方程的建立；

所述S2中，确定各智能体对应策略的状态空间和动作空间，并制定合适的奖励函数，具体包括以下步骤：

状态空间：S₁＝{vel,acc}

其中，vel为车辆行驶速度，acc为车辆纵向加速度；

动作空间：

奖励函数：

状态空间：S₂＝{vel,acc,bsoc,usoc}

其中，bsoc为动力电池荷电状态，usoc为超级电容荷电状态；

动作空间：A₂＝T_mg2＝-[(0～1)*(T_rsbmax-T_rsbmin)+T_rsbmin]

奖励函数：

状态变量：S₃＝{bsoc,usoc}

动作变量：

奖励函数：

2.根据权利要求1所述的一种基于多智能体深度强化学习的混合动力汽车控制方法，其特征在于：所述S3具体包括以下步骤：

S33：将智能体选择的动作命令输入内部混合动力系统环境，内部系统环境将结合行驶工况信息产生相应的状态转移，同时计算出不同策略的奖励函数值，在每一个时刻，将所有智能体的当前状态存入同一个矩阵中，即s＝[s₁ s₂ s₃]，得到动作矩阵a＝[a₁ a₂ a₃]，奖励值矩阵r＝[r₁ r₂ r₃]，下一时刻状态矩阵s,＝[s₁,s,₂s,₃]，这4个矩阵能够组成一个状态转移数据(s,a,r,s,)，包含每一时刻所有智能体的信息；而每一时刻的状态转移数据需要存入经验池中，用于后续策略训练；

S34：从经验池中提取部分状态转移数据作为经验样本，用于策略网络的更新训练，其中，设提取的经验样本总数为S，而(s^j,a^j,r^j,s^,j)为经验样本中第j个状态转移数据，则策略网络参数的更新包括以下具体步骤：

损失函数表示为：

其中，_ri ^j为第i个智能体的奖励值，γ为奖励折扣因子，μ^,为演员网络中目标网络的策略，a^,j为演员目标网络以s^,j为输入时的输出，为第i个智能体的评论家目标网络以s^,j和a^,j为输入时输出的目标Q值，θ_i为评论家在线网络权重参数，μ为演员在线网络的策略，/>为第i个智能体的评论家在线网络以s^j和a^j为输入时输出的当前Q值；

S35：重复步骤S31～S34，直至达到设定的训练次数；