CN117708999B

CN117708999B - 一种面向场景的混动汽车能量管理策略评价方法

Info

Publication number: CN117708999B
Application number: CN202410166872.9A
Authority: CN
Inventors: 董鹏; 张源博; 赵俊玮; 刘学武; 徐向阳; 张辉; 王书翰; 刘艳芳
Original assignee: Beihang University
Current assignee: Beihang University
Priority date: 2024-02-06
Filing date: 2024-02-06
Publication date: 2024-04-09
Anticipated expiration: 2044-02-06
Also published as: CN117708999A

Abstract

本发明涉及一种面向场景的混动汽车能量管理策略评价方法，属于混动传动系统能量管理策略技术领域，解决了现有技术中实车数据获取成本高、难度大、限制多；仿真场景数据和实车采集数据偏差大；能量管理策略的评价不准确、不便捷的问题。本发明通过在不同仿真场景下对能量管理策略进行测试，对考虑场景信息的能量管理策略进行测试与评价；结合AIRL算法和IRLF算法训练出通用驾驶人模型，进而在仿真场景中获取场景数据的方法，接近实车采集数据；能够获取能量管理策略最佳评价场景，能够获取策略的优化上限，便于能量管理策略的评价和筛选；组合不同的仿真场景参数来对比不同场景下的能量管理算法表现，评价结果全面、准确。

Description

一种面向场景的混动汽车能量管理策略评价方法

技术领域

本发明涉及混动传动系统能量管理策略技术领域，具体涉及一种面向场景的混动汽车能量管理策略评价方法。

背景技术

混合动力汽车允许一种或多种动力源为车辆提供能量，对能量流进行合理分配能够减少能量消耗提高经济性，因此能量管理策略成为混动汽车重要研究方向。

目前针对混动能量管理策略的研究有很多，并且随着智能网联的不断发展，车辆能够获取的数据从自车信息拓展到车间信息乃至全程交通信息，由于交通场景对车辆行驶有很大影响，因此越来越多的能量管理策略开始考虑动态交通信息作为输入量。然而，目前关于能量管理策略的评价多采用其在标准工况下的表现，但标准工况仅包含自车车速信息，对于场景中例如交通流速、前车相对距离等信息并未体现，因此无法对引入动态交通信息的能量管理策略进行测试与评价。为解决该问题，目前多采用实车数据采集的方法对动态场景信息进行采集，进而对不同能量管理策略进行评价。然而，基于实车数据测试的方法，一方面实车采集的场景有限并且不可控，难以采集到所有期望的交通状态，另一方面，目前没有标准的包含动态信息的场景，难以保证采集到的实车数据对具有不同动态信息输入、具有不同优化目标的能量管理策略都能进行有效测试。

为解决基于场景的混动汽车能量管理策略评价问题，考虑通过虚拟仿真的方式进行评价。相比于实车数据采集，虚拟仿真场景不受实际条件限制，可以随意泛化不同场景要素，并且SUMO（城市交通模拟，Simulation of Urban Mobility）等微观交通仿真软件能够以车为单位构建交通流并实现动态场景的构建。尤其是在虚拟场景中进行交通流构建，可以设置任意的交通流速，并且能够获取场景中所有车辆的运动学信息作为策略的输入。因此，动态仿真场景的构建适合用于混动汽车能量管理策略的评价，进而，关于如何构建仿真场景，构建怎样的仿真场景能够满足能量管理策略测试评价的要求的研究尚处于空白阶段。

综上，现有技术存在实车数据获取成本高、难度大、建立仿真场景的限制多；模拟得到的仿真场景数据和实车采集数据偏差大；混动汽车能量管理策略的评价不准确、不便捷的问题。

发明内容

鉴于上述问题，本发明提供了一种面向场景的混动汽车能量管理策略评价方法，解决了现有技术中数据获取成本高、难度大、建立仿真场景的限制多；模拟得到的仿真场景数据和实车采集数据偏差大；混动汽车能量管理策略的评价不准确、不便捷的问题。

本发明提供了一种面向场景的混动汽车能量管理策略评价方法，包括如下步骤：

步骤S1.获取被测混动汽车能量管理策略；建立混动传动系统模型；

步骤S2.根据实车数据集，结合AIRL算法与IRLF算法训练得到通用驾驶人模型；

步骤S3.建立自动化仿真场景搭建方法，用于构建仿真场景；其中，将获取的路程与交通流速数组作为仿真场景参数；

步骤S4.根据遗传算法，将仿真场景参数作为待优化量，在优化求解过程中由步骤S2得到的通用驾驶人模型控制步骤S1所构建的混动传动系统模型，并采用被测混动汽车能量管理策略在仿真场景中运行；

将运行后的能量利用表现作为优化目标，得到被测混动汽车能量管理策略的最佳评价场景的仿真场景参数组合；

步骤S5.基于步骤S4输出的最佳评价场景的仿真场景参数组合，根据步骤3的自动化仿真场景搭建方法构建最佳评价场景，并将步骤S2训练得到的通用驾驶人模型在最佳评价场景中运行，基于步骤S1所构建的混动传动系统模型对被测混动汽车能量管理策略进行测试评价，最终得到的能量利用表现，即为被测混动汽车能量管理策略所能达到的能量利用最优解。

进一步地，步骤S1的混动传动系统模型根据被测混动汽车能量管理策略控制对象的定义以及对传动系统构型的要求进行建立；其中，该混动传动系统模型包括动力源模型，动力源模型指发动机、驱动电机或其他动力源，并且该混动传动系统模型能够在应用被测混动汽车能量管理策略时求解该被测混动汽车能量管理策略的能量利用表现。

进一步地，步骤S2具体包括：

步骤S2-1.从开源的NGSIM数据集中提取其所包含的道路交通流数据的全部车辆的数据来构建用于训练通用驾驶人模型的仿真场景；

步骤S2-2.在每条道路交通流数据中，随机选择某一车辆的数据作为专家经验，在训练过程中，利用生成器生成与专家经验对应的驾驶动作，控制该某一车辆与用于训练通用驾驶人模型的仿真场景进行交互，其余车辆的数据作为环境变量，结合AIRL算法和IRLF算法，在用于训练通用驾驶人模型的仿真场景中进行模拟；

步骤S2-3.如果该某一车辆能够无碰撞在车道中前进到该某一车辆的轨迹终点，则视为一次成功的模拟，并将对应的专家经验存入专家经验集；若模拟过程中与专家经验对应的驾驶动作不能控制用于训练通用驾驶人模型的仿真场景中的该某一车辆按照要求通过全程，则将该专家经验视为失败经验，存入失败经验集；

判别器通过专家经验和失败经验，与生成器输出的驾驶动作优化奖励函数，二者交互更新，直至算法收敛，得到奖励函数与动作策略，该动作策略即为通用驾驶人模型。

进一步地，步骤S2-2中的驾驶动作包括动作量和状态量；其中，动作量包括加速踏板开度，制动踏板开度和方向盘转角；状态量包括车长、车道曲率、车速、航向角、车道横向偏移、自车周围8个方位车辆对于自车的相对位置和失败特征标志位数组；其中，

失败特征标志位数组包括三个标志位，分别代表车辆发生碰撞、倒车以及冲出车道，出现这三种错误时则对应标志位标1，否则标0。

进一步地，步骤S2-3中的动作策略为根据当前的状态量生成动作量的策略。

进一步地，步骤S3中自动化仿真场景搭建方法具体包括如下步骤：

构建SUMO道路作为SUMO仿真场景，该SUMO仿真场景包括总路程；

将总路程按照路段数量划分为多个路段；定义交通流速范围，将交通流速范围离散化得到交通流速数组，并将交通流速数组确定为仿真场景参数；其中，交通流速数组中的每一个交通流速对应一个路段；

根据交通流速数组，提取对应每个路段的交通流速，并将其定义为该路段的道路最高限速；

将步骤S2中训练得到的通用驾驶人模型在SUMO仿真场景中运行，根据SUMO的traci函数实现通过加速踏板开度，制动踏板开度以及方向盘转角控制SUMO仿真场景中的混动传动系统模型。

进一步地，步骤S4具体包括：

步骤S4-1.初始化：确定遗传算法超参数；

对每个交通流速数组中的交通流速进行二进制编码得到染色体基因；其中，一个交通流速数组中所有交通流速的组合作为1条交通流速染色体；

根据遗传算法超参数与二进制编码过程，随机生成第一代种群；

步骤S4-2.适应度判断：对交通流速染色体进行解码后将交通流速数据依据步骤S3的自动化仿真场景搭建方法，构建SUMO道路作为SUMO仿真场景，并将通用驾驶人模型在SUMO仿真场景中运行，同时对被测混动汽车能量管理策略进行测试，获取油耗数据，将油耗数据的倒数作为适应度值，得到适应度值最大，即油耗最低的仿真场景参数；

步骤S4-3.对染色体进行选择、交叉和变异操作；

步骤S4-4.重复进行步骤S4-2、步骤S4-3，直到步骤S4-2输出小于适应度边界值的最优解，该最优解就是被测混动汽车能量管理策略的最佳评价场景的仿真场景参数组合。

进一步地，遗传算法超参数包括种群数量、交叉概率、编译概率、适应度函数取值范围和适应度边界值；其中适应度边界值通过推测被测能量管理策略能够达到的最优能量利用表现确定。

进一步地，步骤S4-2获取油耗数据时，若出现降低情况则将电耗等效为油耗，由等效油耗代替油耗；对于/>不变或上升情况，则按照实际油耗计算油耗数据。

进一步地，步骤S4-3具体包括：

选择过程采用轮盘赌算法，在计算过每个染色体的适应度后，得到每个染色体被选中的概率；计算前个染色体适应度值的和，得到轮盘赌的各区域分界，通过在0~1内取随机数，由随机数所在区域进行染色体的选择；

交叉过程选择双点交叉方式，将种群内染色体随机配对，对于每一个染色体随机产生两个交叉点，根据交叉概率交换交叉点之间的染色体；

变异过程选择双点交换变异方式，对于交叉后的染色体，随机产生两个位置点，根据交叉概率交换染色体中两个位置处的基因。

与现有技术相比，本发明至少具有现如下有益效果：

（1）本发明的面向场景的混动汽车能量管理策略评价方法，通过改变仿真场景参数，在不同的仿真场景下对能量管理策略进行经济性测试，避免了标准工况无法对考虑场景信息的能量管理策略进行测试与评价的问题，并且解决了通过实车数据采集进行评价的场景局限性。

（2）本发明的面向场景的混动汽车能量管理策略评价方法，首先结合AIRL算法和IRLF算法训练出通用驾驶人模型，进而在仿真场景中运行通用驾驶人模型获取场景数据的方法，相比于随机生成场景数据方法，通用驾驶人模型得到的场景数据更接近实车采集数据。

（3）本发明的面向场景的混动汽车能量管理策略评价方法，能够实现对能量管理策略最佳评价场景的求解，为后续针对场景提出个性化能量管理策略提供依据，同时能够获取能量管理策略的优化上限，便于能量管理策略的评价和筛选。

（4）本发明的面向场景的混动汽车能量管理策略评价方法，组合不同的仿真场景参数来对比不同场景下的能量管理算法表现，避免了场景对能量管理策略的能量利用表现的影响，相比于在同一场景下进行能量管理策略评价，本发明提出的评价方法的评价结果更加全面、准确。

附图说明

附图仅用于示出具体实施例的目的，而并不认为是对本发明的限制。

图1为本发明公开的面向场景的混动汽车能量管理策略评价方法的总步骤图；

图2为本发明公开的面向场景的混动汽车能量管理策略评价方法的具体流程图。

具体实施方式

为了能够更清楚地理解本发明的上述目的、特征和优点，下面结合附图和具体实施方式对本发明进行进一步的详细描述。需要说明的是，在不冲突的情况下，本发明的实施例及实施例中的特征可以相互组合。另外，本发明还可以采用其他不同于在此描述的其他方式来实施，因此，本发明的保护范围并不受下面公开的具体实施例的限制。

本发明公开了一种面向场景的混动汽车能量管理策略评价方法，如图1所示，包括如下步骤：

步骤S1.获取被测混动汽车能量管理策略；建立混动传动系统模型，用于作为步骤S4中被测能量管理策略的应用对象。

步骤S1需要首先确定被测能量管理策略和传动系统的构型，被测能量管理策略通过输出控制对象，如发动机扭矩，电机扭矩等，实现对传动系统的控制。而传动系统构型则决定了具体的能量消耗情况；其中，该混动传动系统模型包括动力源模型，动力源模型指汽车的发动机、驱动电机或其他动力源，并且该混动传动系统模型能够在应用被测能量管理策略时求解该被测能量管理策略的能量利用表现。

步骤S2.根据实车数据集，结合AIRL(Adversarial Inverse ReinforcementLearning，对抗逆强化学习)算法与IRLF（Inverse Reinforcement Learning fromFailure，基于失败经验的逆强化学习）算法训练得到通用驾驶人模型，用于在步骤S4的优化求解过程中的仿真场景中控制混动传动系统模型行驶，进而得到行驶过程中的场景数据作为被测混动汽车能量管理策略的输入。

具体来说，步骤S2包括：

步骤S2-1.从开源的NGSIM数据集中提取其所包含的道路交通流数据的全部车辆的数据来构建用于训练通用驾驶人模型的仿真场景。

步骤S2-2.在每条道路交通流数据中，随机选择某一车辆的数据作为专家经验，用于在训练过程中利用生成器生成与专家经验对应的驾驶动作控制该某一车辆与用于训练通用驾驶人模型的仿真场景进行交互，其余车辆的数据作为环境变量，结合AIRL算法和IRLF算法，在用于训练通用驾驶人模型的仿真场景中进行模拟。

驾驶动作包括动作量和状态量；其中，动作量包括加速踏板开度，制动踏板开度和方向盘转角；状态量包括车长、车道曲率、车速、航向角、车道横向偏移、自车周围8个方位车辆对于自车的相对位置和失败特征标志位数组；其中，

步骤S2-3.如果该某一车辆能够无碰撞在车道中前进到该某一车辆的轨迹终点，则视为一次成功的模拟，并将对应的专家经验存入专家经验集；若模拟过程中与专家经验对应的驾驶动作不能控制用于训练通用驾驶人模型的仿真场景中的车辆按照要求通过全程，则将该专家经验视为失败经验，存入失败经验集。

动作策略为根据当前的状态量生成动作量的策略。

生成器与判别器通过神经网络构造，得到最终的奖励函数更新过程为：

；

其中，指受专家经验影响的奖励函数权重向量；/>指更新系数；/>指经过专家经验初始状态最大似然分布计算的动作策略得到的各特征期望；/>指专家经验的各特征期望；/>指受错误经验影响的奖励函数权重向量；/>指经过错误经验初始状态最大似然分布计算的动作策略得到的各特征期望；/>指错误经验的各特征期望；/>指退火算法的降温系数；/>指特征函数；/>为判别器得到的奖励函数，/>指奖励函数中的参数集，用于定义奖励函数的形状；/>是状态量，包括车长、车道曲率、车速、航向角、车道横向偏移、自车周围8个方位车辆对于自车的相对位置和失败特征标志位数组；/>是动作量，包括加速踏板开度，制动踏板开度和方向盘转角。

步骤S3.建立自动化仿真场景搭建方法，用于构建仿真场景；其中，将获取的路程与交通流速数组作为仿真场景参数。

确定可作为被测混动汽车能量管理策略输入的场景数据范围，为步骤S4中遗传算法的适应度判断过程提供仿真场景搭建方法。

具体来说，步骤S3中自动化仿真场景搭建方法具体包括如下步骤：

构建SUMO道路作为SUMO仿真场景，该SUMO仿真场景包括总路程。

将总路程按照路段数量划分为多个路段；定义交通流速范围，将交通流速范围离散化得到交通流速数组，并将交通流速数组确定为仿真场景参数；其中，交通流速数组中的每一个交通流速对应一个路段。示例性地，将总路程的长度定义为10km，路段数量n为100，等距分段的长度为100m。将交通流速范围定义为5~135km/h，划分间隔为5km/h。由此确定交通流速数组为包含100个元素的数组，数组中每个值对应一个路段的交通流速。

根据交通流速数组，提取对应每个路段的交通流速，并将其定义为该路段的道路最高限速。

步骤S4.根据遗传算法，将仿真场景参数作为待优化量，在优化求解过程中由步骤S2得到的通用驾驶人模型控制步骤S1所构建的混动传动系统模型，并采用被测混动汽车能量管理策略在仿真场景中运行。

将运行后的能量利用表现作为优化目标，得到被测混动汽车能量管理策略的最佳评价场景的仿真场景参数组合。

具体来说，步骤S4包括：

步骤S4-1.初始化：确定遗传算法超参数；其中，

遗传算法超参数包括种群数量、交叉概率、编译概率、适应度函数取值范围和适应度边界值；其中适应度边界值通过推测被测能量管理策略能够达到的最优能量利用表现确定。

对每个交通流速数组中的交通流速进行二进制编码得到染色体基因；其中，一个交通流速数组中所有交通流速的组合作为1条交通流速染色体。

根据遗传算法超参数与二进制编码过程，随机生成第一代种群。

步骤S4-2.适应度判断：对交通流速染色体进行解码后将交通流速数据依据步骤S3的自动化仿真场景搭建方法，构建SUMO道路作为SUMO仿真场景，并将通用驾驶人模型在SUMO仿真场景中运行，同时对被测能量管理策略进行测试，获取油耗数据，将油耗数据的倒数作为适应度值，得到适应度值最大，即油耗最低的仿真场景参数。

在步骤S4-2获取油耗数据时，若出现SoC降低情况则将电耗等效为油耗，由等效油耗代替油耗；对于SoC不变或上升情况，则按照实际油耗计算油耗数据。

等效油耗计算过程如下：

；

其中代表实际油耗，/>代表初始SoC，/>代表结束时刻SoC。

步骤S4-3.对染色体进行选择、交叉和变异操作，具体包括：

选择过程采用轮盘赌算法，在计算过每个染色体的适应度后，得到每个染色体被选中的概率；其中，第个染色体被选中的概率/>的计算公式如下：

；

其中，表示第/>个染色体的适应度值，N表示染色体数目。

然后为将概率转换为轮盘赌的各区域分界，计算前个染色体适应度值的和：

。

得到轮盘赌的各区域分界，通过在0~1内取随机数，由随机数所在区域进行染色体的选择。

交叉过程选择双点交叉方式，将种群内染色体随机配对，对于每一个染色体随机产生两个交叉点，根据交叉概率交换交叉点之间的染色体。

本发明提出的面向场景的混动汽车能量管理策略评价方法的具体流程如图2所示。

与现有技术相比，本发明的面向场景的混动汽车能量管理策略评价方法，通过改变仿真场景参数，在不同的仿真场景下对能量管理策略进行经济性测试，避免了标准工况无法对考虑场景信息的能量管理策略进行测试与评价的问题，并且解决了通过实车数据采集进行评价的场景局限性；首先结合AIRL算法和IRLF算法训练出通用驾驶人模型，进而在仿真场景中运行通用驾驶人模型获取场景数据的方法，相比于随机生成场景数据方法，通用驾驶人模型得到的场景数据更接近实车采集数据；能够实现对能量管理策略最佳评价场景的求解，为后续针对场景提出个性化能量管理策略提供依据，同时能够获取能量管理策略的优化上限，便于能量管理策略的评价和筛选；组合不同的仿真场景参数来对比不同场景下的能量管理算法表现，避免了场景对能量管理策略的能量利用表现的影响，相比于在同一场景下进行能量管理策略评价，本发明提出的评价方法的评价结果更加全面、准确。

以上所述，仅为本发明较佳的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到的变化或替换，都应涵盖在本发明的保护范围之内。

Claims

1.一种面向场景的混动汽车能量管理策略评价方法，其特征在于，包括如下步骤：

步骤S5.基于步骤S4输出的仿真场景参数组合，根据步骤3的自动化仿真场景搭建方法构建最佳评价场景，并将步骤S2训练得到的通用驾驶人模型在最佳评价场景中运行，基于步骤S1所构建的混动传动系统模型对被测混动汽车能量管理策略进行测试评价，最终得到的能量利用表现，即为被测混动汽车能量管理策略所能达到的能量利用最优解；

步骤S2具体包括：

判别器通过专家经验和失败经验，与生成器输出的驾驶动作优化奖励函数，二者交互更新，直至算法收敛，得到奖励函数与动作策略，该动作策略即为通用驾驶人模型；

步骤S3中自动化仿真场景搭建方法具体包括如下步骤：

构建SUMO道路作为SUMO仿真场景，该SUMO仿真场景包括总路程；

将步骤S2中训练得到的通用驾驶人模型在SUMO仿真场景中运行，根据SUMO的traci函数实现通过加速踏板开度，制动踏板开度以及方向盘转角控制SUMO仿真场景中的混动传动系统模型；

步骤S4具体包括：

步骤S4-1.初始化：确定遗传算法超参数；

步骤S4-3.对染色体进行选择、交叉和变异操作；

2.根据权利要求1所述的面向场景的混动汽车能量管理策略评价方法，其特征在于，步骤S1的混动传动系统模型根据被测混动汽车能量管理策略控制对象的定义以及对传动系统构型的要求进行建立；其中，该混动传动系统模型包括动力源模型，动力源模型指发动机、驱动电机或其他动力源，并且该混动传动系统模型能够在应用被测混动汽车能量管理策略时求解该被测混动汽车能量管理策略的能量利用表现。

3.根据权利要求2所述的面向场景的混动汽车能量管理策略评价方法，其特征在于，步骤S2-2中的驾驶动作包括动作量和状态量；其中，动作量包括加速踏板开度，制动踏板开度和方向盘转角；状态量包括车长、车道曲率、车速、航向角、车道横向偏移、自车周围8个方位车辆对于自车的相对位置和失败特征标志位数组；其中，

4.根据权利要求3所述的面向场景的混动汽车能量管理策略评价方法，其特征在于，步骤S2-3中的动作策略为根据当前的状态量生成动作量的策略。

5.根据权利要求4所述的面向场景的混动汽车能量管理策略评价方法，其特征在于，遗传算法超参数包括种群数量、交叉概率、编译概率、适应度函数取值范围和适应度边界值；其中适应度边界值通过推测被测能量管理策略能够达到的最优能量利用表现确定。

6.根据权利要求5所述的面向场景的混动汽车能量管理策略评价方法，其特征在于，步骤S4-2获取油耗数据时，若出现降低情况则将电耗等效为油耗，由等效油耗代替油耗；对于/>不变或上升情况，则按照实际油耗计算油耗数据。

7.根据权利要求6所述的面向场景的混动汽车能量管理策略评价方法，其特征在于，步骤S4-3具体包括：