CN116859259A

CN116859259A - 基于集成学习和实车大数据的电池健康状态估计方法

Info

Publication number: CN116859259A
Application number: CN202310898185.1A
Authority: CN
Inventors: 汤爱华; 伍心雨; 胡远志; 龙胜文; 于全庆
Original assignee: Chongqing University of Technology; Harbin Institute of Technology Weihai
Current assignee: Chongqing University of Technology; Harbin Institute of Technology Weihai
Priority date: 2023-07-20
Filing date: 2023-07-20
Publication date: 2023-10-10

Abstract

本发明具体涉及基于集成学习和实车大数据的电池健康状态估计方法，包括：对获取的实车电池大数据进行数据切片，生成若干个充电片段数据；基于蒙特卡洛模拟对各个充电片段数据进行容量估计，得到SOH标签；提取各个充电片段数据的健康特征因子，进而结合对应的SOH标签构建训练数据集；构建用于预测电池SOH的Stacking集成学习模型，并通过训练数据集训练Stacking集成学习模型；对于待估计的目标车辆，提取目标车辆实车电池数据中的健康特征因子并输入训练后的Stacking集成学习模型，得到对应的电池SOH估计结果。本发明通过Stacking集成学习模型实现电池SOH预测，并且采用实车电池大数据来训练Stacking集成学习模型，从而提高电池健康状态估计的准确性和实际应用效果。

Description

基于集成学习和实车大数据的电池健康状态估计方法

技术领域

本发明涉及电动汽车电池管理技术领域，具体涉及基于集成学习和实车大数据的电池健康状态估计方法。

背景技术

电池SOH(State of Health)是指电池的健康状况，包括容量、功率、内阻等性能，更多情况下是对电池组寿命的预测，SOH值为测量的电池实际容量与额定容量之比。目前锂离子电池SOH估计方法主要有直接测量法、基于模型的方法和基于数据驱动的方法。

随着大数据和人工智能的蓬勃发展，基于数据驱动的方法显示出了在电池预测方面的优越性，成为了目前SOH估计的主流方法。其中，公开号为CN115856678A的中国专利就公开了《一种锂离子电池健康状态估计方法》，包括：获取锂离子电池实验数据提取反映电池退化的健康特征参数，利用Pearson相关系数法计算各健康特征参数与电池健康状态(SOH)之间的相关性并进行筛选；使用主成分分析对筛选得到的健康特征因子进行降维，将降维后的健康特征因子划分为训练集数据和测试集数据；使用训练集数据训练LSTM网络，利用混沌粒子群算法(CPSO)对LSTM网络中参数进行优化，构建CPSO-LSTM网络估计模型，将电池在线数据输入网络模型中，实现SOH实时估计。

上述现有方案通过LSTM网络实现电池SOH预测。申请人发现，电池SOH涉及多个关键因素之间的复杂关系。然而，现有方案通过单一的神经网络模型难以有效捕捉这些关键因素及其复杂关系，导致电池健康状态估计的准确性不够好。同时，现有方案通过实验数据来训练神经网络模型，但实验数据脱离了实际应用场景，导致训练所得模型的实际应用效果不好。此外，实车电池大数据存在采样稀疏和容量难以估计等问题，导致很难将实车电池大数据应用于模型训练。因此，如何提高电池健康状态估计的准确性和实际应用效果是亟需解决的技术问题。

发明内容

针对上述现有技术的不足，本发明所要解决的技术问题是：如何提供一种基于集成学习的实车大数据的电池健康状态估计方法，通过Stacking集成学习模型实现电池SOH预测，并且采用实车电池大数据来训练Stacking集成学习模型，同时有效构建模型训练时的实车SOH标签，从而提高电池健康状态估计的准确性和实际应用效果。

为了解决上述技术问题，本发明采用了如下的技术方案：

基于集成学习和实车大数据的电池健康状态估计方法，包括：

S1：对获取的实车电池大数据进行数据切片，生成若干个充电片段数据；

S2：基于蒙特卡洛模拟对各个充电片段数据进行容量估计，得到对应的SOH标签；

S3：提取各个充电片段数据的健康特征因子，进而结合对应的SOH标签构建训练数据集；其中，训练数据集中的一组训练数据包括健康特征因子及其对应的SOH标签；

S4：构建用于预测电池SOH的Stacking集成学习模型，并通过训练数据集训练Stacking集成学习模型；

S5：对于待估计的目标车辆，提取其实车电池数据中的健康特征因子并输入训练后的Stacking集成学习模型，得到对应的电池SOH估计结果。

优选的，对实车电池大数据进行数据切片之前，先对实车电池大数据进行包括异常数据剔除、缺失数据填补和重复数据删除的数据预处理。

优选的，通过如下实现容量估计：

S201：在预设的SOC区间内随机产生两个随机数a和b；

S202：判断a＞b+10是否成立：若是，则保留a和b，并进入S203；否则，返回S201；

S203：通过电量增益法计算充电片段数据的估计容量；

公式描述如下：

式中：Q表示估计容量；ΔQ_cha表示SOC区间内的充入电量；ΔSOC是第i时刻的SOC与第i-1时刻的SOC差值，电流为随时间变化的函数；

S204：重复S201至S203得到若干个估计容量，构成容量向量Q＝[Q₁,Q₂,Q₃,...,Q_m]；

S205：对容量向量进行频率分布直方统计，并将容量分布的中心作为对应充电片段数据的容量估计值。

优选的，首先将电池的额定容量作为基准容量值；然后将后续每个充电片段数据的容量估计值除以基准容量值，得到对应充电片段数据的SOH值作为其SOH标签。

优选的，健康特征因子包括区间电压特征、IC峰特征和DTV峰特征。

优选的，通过如下公式表示区间电压特征：

式中：U₁表示充电片段数据的区间电压特征向量；表示第n个充电片段数据中第m个特征点的电压。

优选的，首先计算充电片段数据中各个特征点的增量容量值；然后绘制各个特征点的增量容量值与电压之间的关系曲线，即IC曲线；最后提取IC曲线的IC峰特征；

其中，通过如下公式计算增量容量值：

式中：IC表示增量容量值；Q表示充电片段数据的容量；V表示充电片段数据的电压；Q_k表示充电片段数据中第k个特征点的充电容量；V_k表示充电片段数据中第k个特征点的电压。

优选的，首先计算充电片段数据中各个特征点的差分热伏安值；然后根据各个特征点的差分热伏安值绘制DTV曲线；最后提取DTV曲线的DTV峰特征；

其中，通过如下公式计算差分热伏安值：

式中：DTV表示充电片段数据的差分热伏安值；T表示充电片段数据的温度；V表示充电片段数据的电压；T_k表示充电片段数据中k时刻的温度；V_k表示充电片段数据中k时刻的电压。

优选的，Stacking集成学习模型包括两层模型；第一层模型由支持向量回归模型、随机森林回归模型、梯度提升决策树模型、极限梯度提升模型和轻量高效梯度提升树模型构成；第二层模型由逻辑回归模型构成。

优选的，通过如下步骤生成电池健康状态估计结果：

S501：对第一层模型进行四折交叉验证：将训练集数据分为四组子数据，然后通过四组子数据分别对支持向量回归模型、随机森林回归模型、梯度提升决策树模型、极限梯度提升模型和轻量高效梯度提升树模型进行四折交叉验证；

S502：将各个模型在四折交叉验证中的四组子数据作为四折向量，进而将各个模型的四折向量作为第二层模型的训练集；

公式描述为：

式中：表示第二层模型的训练集；/>分别表示支持向量回归模型、随机森林回归模型、梯度提升决策树模型、极限梯度提升模型和轻量高效梯度提升树模型的四折向量；/>表示第j折训练下的第n组子数据；

S503：各个模型在每一折迭代训练后还通过测试集进行测试，得到每一折迭代训练后的预测结果；然后将各个模型在四折迭代训练后的预测结果求平均，得到该模型的测试最终结果；最后将各个模型的测试最终结果作为第二层模型的测试集；

公式描述如下：

式中：表示第二层模型的测试集；/>分别表示支持向量回归模型、随机森林回归模型、梯度提升决策树模型、极限梯度提升模型和轻量高效梯度提升树模型的测试最终结果；/>表示支持向量回归模型在每一折迭代训练后的预测结果；

S504：通过训练集对第二层模型的逻辑回归模型进行训练，通过训练后的逻辑回归模型对测试集/>进行预测，输出对应的电池健康状态估计结果。

本发明中基于集成学习和实车大数据的电池健康状态估计方法与现有技术相比，具有如下有益效果：

针对电池健康状态预测涉及到多个因素之间复杂关系的问题，本发明采用Stacking集成学习模型来实现电池SOH预测，该模型可以整合多个不同的基础模型及模型预测结果，并考虑它们之间的权重，使得能够利用不同模型的优势来更好地捕捉涉及电池健康状态的因素间的复杂关系，从而提高电池健康状态估计的准确性和鲁棒性。

针对Stacking集成学习模型的训练，本发明通过获取大量的实车电池大数据来构建训练数据集。一方面，本发明采用的实车电池大数据更贴近电车的实际应用场景，有利于保证训练后Stacking集成学习模型的实际应用效果。另一方面，针对实车电池大数据存在较多干扰的问题，本发明基于实车电池大数据获取健康特征因子和对应的SOH标签来构建训练数据集，即将健康特征因子作为Stacking集成学习模型的输入进行预测，使得能够从实车电池大数据中获取与电池健康状态相关的健康特征因子来实现预测，这不仅能够降低模型训练时的数据处理量，还能够进一步保证Stacking集成学习模型的训练精度，从而进一步提高电池健康状态估计的准确性和鲁棒性。

针对实车电池大数据的采样稀疏、容量难以估计的问题。本发明在对实车电池大数据进行数据切片的基础上，基于蒙特卡洛模拟对各个充电片段数据进行容量估计以准确计算充电片段数据的电池容量，进而能够有效构建模型训练时的实车SOH标签，从而为采用实车电池大数据训练Stacking集成学习模型提供了有效的数据基础。

附图说明

为了使发明的目的、技术方案和优点更加清楚，下面将结合附图对本发明作进一步的详细描述，其中：

图1为基于集成学习和实车大数据的电池健康状态估计方法的逻辑框图；

图2为基于蒙特卡洛模拟容量估计图；

图3为电压区间特征图；

图4为充电片段数据的IC曲线图；

图5为充电片段数据的DTV曲线图；

图6为Stacking集成学习模型的系统逻辑图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述。显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。通常在此处附图中描述和示出的本发明实施例的组件能够以各种不同的配置来布置和设计。因此，以下对在附图中提供的本发明的实施例的详细描述并非旨在限制要求保护的本发明的范围，而是仅表示本发明的选定实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例都属于本发明保护的范围。

应注意到：相似的标号和字母在下面的附图中表示类似项，因此，一旦某一项在一个附图中被定义，则在随后的附图中不需要对其进行进一步定义和解释。在本发明的描述中，需要说明的是，术语“中心”、“上”、“下”、“左”、“右”、“竖直”、“水平”、“内”、“外”等指示的方位或位置关系为基于附图所示的方位或位置关系，或者是该发明产品使用时惯常摆放的方位或位置关系，仅是为了便于描述本发明和简化描述，而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作，因此不能理解为对本发明的限制。此外，术语“第一”、“第二”、“第三”等仅用于区分描述，而不能理解为指示或暗示相对重要性。此外，术语“水平”、“竖直”等术语并不表示要求部件绝对水平或悬垂，而是可以稍微倾斜。例如“水平”仅是指其方向相对“竖直”而言更加水平，并不是表示该结构一定要完全水平，而是可以稍微倾斜。在本发明的描述中，还需要说明的是，除非另有明确的规定和限定，术语“设置”、“安装”、“相连”、“连接”应做广义理解，例如，可以是固定连接，也可以是可拆卸连接，或一体地连接；可以是机械连接，也可以是电连接；可以是直接相连，也可以通过中间媒介间接相连，可以是两个元件内部的连通。对于本领域的普通技术人员而言，可以具体情况理解上述术语在本发明中的具体含义。

下面通过具体实施方式进一步详细的说明：

实施例：

本实施例中公开了一种基于集成学习和实车大数据的电池健康状态估计方法。

如图1所示，基于集成学习和实车大数据的电池健康状态估计方法，包括：

本实施例中，通过数据切片生成的若干个充电片段数据中包含特定的健康特征因子。

本实施例中，首先将电池的额定容量作为基准容量值；然后将后续每个充电片段数据的容量估计值除以基准容量值，得到对应充电片段数据的SOH值作为其SOH标签。然而，电池的额定容量可能是未知的。针对这种情况，本发明也可以将第一个充电片段数据的容量估计值作为基准容量值，因为得到第一个充电片段数据时，电池还未老化，此时的容量估计值也可以作为基准容量值。

针对Stacking集成学习模型的训练，本发明通过获取大量的实车电池大数据来构建训练数据集。一方面，本发明采用的实车电池大数据更贴近电车的实际应用场景，有利于保证训练后Stacking集成学习模型的实际应用效果。另一方面，针对实车电池大数据存在较多干扰的问题，本发明基于实车电池大数据获取健康特征因子和对应的SOH标签来构建训练数据集，即将健康特征因子作为Stacking集成学习模型的输入进行预测，并将预测结果与SOH标签比较来实现模型参数优化，使得能够从实车电池大数据中获取与电池健康状态相关的健康特征因来实现预测，这不仅能够降低模型训练时的数据处理量，还能够进一步保证Stacking集成学习模型的训练精度，从而进一步提高电池健康状态估计的准确性和鲁棒性。

具体实施过程中，对实车电池大数据进行数据切片之前，先对实车电池大数据进行包括异常数据剔除、缺失数据填补和重复数据删除的数据预处理。

本实施例中，原始数据中有许多为零的异常点，对这些异常点采取直接剔除的措施。

同时，电池大数据中可能存在数据缺失现象，即部分数据无法获取或丢失，数据缺失可能会影响数据的完整性和准确性，因此需要进行数据填补。本发明采取分段线性插值法进行填补，即在区间[x_i-1,x_i](i＝1,2,...,n)，对应的结果为[y_i-1,y_i](i＝1,2,...,n)，插值基函数为：

此外，对于重复值，本实施例采用MATLAB的Unique Function删除。

本发明通过对实车电池大数据进行包括异常数据剔除、缺失数据填补和重复数据删除的数据预处理，能够剔除冗余数据、补全缺失数据、删除重复数据，进而保证实车电池大数据的完整性和有效性，从而辅助提高后续电池健康状态估计的准确性。

具体实施过程中，为了更精细化的分析数据，本发明采用数据切片将大量的实车电池大数据分成多个小片段数据集(即充电片段数据)，每个充电片段数据中包含特定属性特征，划分的策略如下：

1)根据“charging_status＝1”的数据存储到新变量中，表示提取所有停车充电的数据，然后定义储存充电片段数据的结构体，根据“mileage(i-1)～＝mileage(i)”来划分不同的充电片段，得到一个划分好充电片段的规整化结构体数据。

2)根据“vehicle_status＝1”的数据存储到新变量中，表示提取所有车辆启动状态的数据，然后定义储存放电片段数据的结构体，建立判据“IfSOC(i)-SOC(i-1)>2％”得到下一次开始放电时刻的索引，再将每相邻的索引间的数据存储到一个新结构体变量中，来划分不同的放电片段，得到一个划分好放电片段的规整化结构体数据。

3)将实车电池大数据按照充电速率划分为慢充和快充。保留数据时设定判断条件控制充电片段的SOC初值和终值之差大于20％。分析实车充电数据可知，慢充的电流数值一般小于20A，因此以此值作为阈值将车辆充电划分为慢充数据和快充数据。目前对于慢充数据提取老化特征估计SOH有不少学者研究，因为慢充的电压比较平稳，可以提取很多老化特征，如区间电压的充电时间、同一电压下单位时间充电后的电压、区间电压与时间围成的面积等。然而，对于多阶恒流快充估计SOH研究较少，现在电动汽车用户的一个重要痛点问题就是充电时间较长，而传统的燃油车只需几分钟便可以继续行驶几百公里，按照未来的发展趋势，快速充电会成为电动车辆发展的趋势，那么，如何在利用快速充电的数据估计SOH显得比较重要。

本发明对实车电池大数据进行数据切片生成若干个充电片段数据，其中，对实车电池大数据进行数据切片有以下好处：1)提高数据处理效率：电池大数据量庞大，通过对数据进行切片，可以将原先庞杂的数据拆分成更小的数据块进行处理，提高数据处理的效率。2)实现数据分析需求：通过数据切片，可以根据不同的分析需求，选取特定的数据片进行分析，从而得出更准确、更具实际意义的数据结果。3)减少资源占用：对于特定的数据分析任务，在数据切片的基础上，只需要选取和分析相关的数据片段，而非整个数据集，可以减少计算资源的占用。

具体实施过程中，电动汽车电池的实际容量是指电池可以存储和释放的电能总量。在实际使用过程中，由于电池的老化、环境温度、充电和放电速率等因素的影响，电池的实际容量可能会降低。因此，估计实车实际容量的意义在于确定电池当前容量，以便更准确地了解电池的健康状态和使用寿命，帮助车主和维修人员更好地管理和维护电动汽车的电池，以延长电池寿命并保持电池性能的稳定和可靠。通常，估计电动汽车电池实际容量的方法是通过充电和放电测试来测量电池的实际容量。但是，电池装机后在实车中不会有完整的充放电测试，因此需要利用已有的数据最大程度上准确估计出电动汽车的当前实际容量。

现有基于电流增益法的容量计算在实验室环境下估计容量结果比较准确，但在大数据中估计容量容易受到噪声大、颗粒度大、分辨率粗糙等影响，具体问题表现如下：

1)实车的SOC精度较低，精度不够对上式分母结果影响，并且SOC终值与初值的差值越小，误差越大，因此在不考虑其他因素下应该保证差值不能太小。

2)实车采样频率最大为0.1Hz，电流对时间的积分面积受此影响较大，采样频率越大，结果越准确，并且在电流慢充的时候会比快充的时候准确，因为无法准确知道更换阶数的具体时间，只能知道该值附近10s的数据结果。

3)选取的SOC区间不能太小也不能太大，在低SOC区间和接近充满的高SOC区间开路电压随SOC的变化曲线斜率较大，该区间充入较少的电量便可以使SOC改变很多，因此选定研究的SOC区间为15％-95％。

蒙特卡洛模拟是一种利用随机抽样的方法来进行数值计算和统计分析的方法。其基本思想是，通过对问题的随机抽样得到一组随机样本，随后利用这些样本来计算问题的解或者统计信息。这种方法适用于那些数学公式比较复杂或者没有明确的数学解析解的问题。具体通过如下实现容量估计：

S201：在预设的SOC区间内随机产生两个随机数a和b；

结合图2所示，预设的SOC区间为[15,95]。选取的SOC区间不能太小也不能太大，在低SOC区间和接近充满的高SOC区间开路电压随SOC的变化曲线斜率较大，该区间充入较少的电量便可以使SOC改变很多，因此，选定研究的SOC区间为15％-95％。

S203：通过电量增益法计算充电片段数据的估计容量；

公式描述如下：

本发明通过蒙特卡洛模拟实现充电片段数据的容量估计，其中蒙特卡洛模拟能够提供全面、灵活、客观、快速和可靠的结果，帮助决策者更好地了解和评估电池容量，为电池系统的设计和运行提供科学依据。

具体实施过程中，健康特征因子包括区间电压特征、IC峰特征和DTV峰特征。

动力电池在老化过程中，衰退的直观表现是容量的下降和内阻的增加，但其实在每个SOC点下不同SOH的电池特性也会不一样，如在电特性中，同样的充放电协议下所需时间随老化会慢慢缩短，这种从电压、电流、温度、应变里提取出反映健康状态的特征称为电池的健康因子。选择合适的健康因子可以提高后续构建SOH估计模型的复杂度和精度。以下从实车数据的区间电压、增量容量分析、差分热伏安分析等多个维度提取健康因子。

1)实车数据区间电压分析

增量容量分析中特征(波峰和波谷的位置和振幅等)的移动和形状与老化模式导电率损失、活性材料损失和锂库存损失高度相关。本实施例选用十辆电车作为实验车辆，十辆车均为三元材料电池。实验室条件下证实三元电池的IC曲线比磷酸铁锂电池相对简单一些，平台区会相对较少。考虑到十辆车的数据中含有小电流充电(电流小于1/20C)，因此可近似认为小电流充电的曲线即为开路电压。

利用Rint模型辨识内阻还原的电压曲线，Rint模型原理如下；

U_t,k＝U_OCV,k-i_L,kR_D,k

式中：U_t,k表示k时刻端电压的值；U_OCV,k表示k时刻开路电压值；i_L,k表示k时刻电流值；R_D,k表示k时刻直流内阻值。

基于上式可以得到实时充电过程的直流内阻，考虑到实车数据颗粒度大带来的噪声问题，将第一辆车前50次循环辨识的所有充电片段内阻剔除明显异常片段后取均值，即得到20％-80％SOC区间平均直流内阻。需注意的是，这里的直流内阻为95个单体的内阻之和，将不同充电策略的电压曲线还原到无激励状态；将十辆车所有的充电段按照上述处理方式可以得到所有充电片段的还原的电压曲线。如图3所示，以特征峰值为中心选择SOC为25％-45％之间的电压区间作为健康因子，具体通过如下公式表示区间电压特征：

对于IC峰值主要集中在SOC区间为25％-45％，此区间的电压变化幅度较小但带来的噪声较大，为提高特征的精度应选择较大变化的电压区间，以特征峰值为中心，选择SOC为25％-45％之间的电压区间，将25％-45％区间电压分成100份得到V₁,V₂,...,V₁₀₀。其中，100份中的每一份为一个特征点。

2)增量容量分析

电池主要有两个平台区，其中380V—390V高SOC区间的平台区不太明显，容量被噪声淹没，本发明主要选择的对象是25％-45％SOC区间的波峰。测量数据会受到噪声的影响，因此仅使用基本发明绘制的IC曲线会出现毛刺，难以进行下一步分析。为解决此问题，需要选择适当滤波方法来平滑曲线，以便为下一步IC特征提取做准备。常用的滤波方法包括移动平均滤波、差分滤波、小波变换和高斯滤波，其中高斯滤波平滑效果更好。

具体的，提取IC峰特征时：首先计算充电片段数据中各个特征点的增量容量值；然后绘制各个特征点的增量容量值与电压之间的关系曲线，即IC曲线；最后提取IC曲线的IC峰特征；

本实施例中，IC曲线(Incremental Capacity curve)是在增量容量分析中使用的图形表示方法。IC曲线是通过绘制电池容量的一阶导数(即增量容量)与电池电压之间的关系曲线而得到的。在IC曲线上横坐标表示电池的电压，纵坐标表示电池的增量容量。在识别到IC曲线的IC峰之后，可以通过一些统计属性或特征来描述峰的性质，如计算峰值的幅度、持续时间、上升时间、下降时间、面积等。通过分析IC曲线的峰值特征，可以了解电池的容量衰减情况及电池的健康状况。

如图4所示，选择29％-39％SOC区间的波峰进行增量容量分析提取健康因子。通过如下公式计算增量容量值：

式中：IC表示增量容量值；Q表示充电片段数据的容量；V表示充电片段数据的电压；Q_k表示充电片段数据中第k个特征点的充电容量(单位为Ah)；V_k表示充电片段数据中第k个特征点的电压(单位为V)。V_k间隔上下截止电压的1/1000，约0.001；由于单个车辆的数据仅是半年的行驶数据，所行驶的里程数还比较少，因此本实施例把它们按照公里数排列成一个长的时间序列，峰值特征计为U₂。

3)实车数据差分热伏安分析

电池劣化与微观熵变化之间有很强的相关性，温度分布的变化会对电池随时间的劣化产生重大影响。随着电池老化的进行，正极和负极可能以不同的相变组合存在，这可能导致系统熵的变化，可以通过观察DTV曲线上的拐点来识别。DTV曲线的峰值位置可以指示充电/放电阶段期间的峰值电势，峰值位置的偏移可以指示阻抗和化学计量的变化，峰值高度可以指示最大加热速率，峰值宽度可以指示电极中相组合的电势窗口，并且峰值面积可以提供关于在充电/放电阶段期间产生的热量的信息。在380-390高SOC区间的特征比较明显，随着电池的老化，DTV峰值逐渐呈现上升的状态，因此在高SOC的区间选用DTV曲线的峰值特征U₃作为HF。

具体的，提取DTV峰特征时：首先计算充电片段数据中各个特征点的差分热伏安值；然后根据各个特征点的差分热伏安值绘制DTV曲线；最后提取DTV曲线的DTV峰特征；

本实施例中，将充电片段数据所有的DTV画成一条曲线，即DTV曲线。电池劣化与微观熵变化之间有很强的相关性，温度分布的变化会对电池随时间的劣化产生重大影响。随着电池老化的进行，正极和负极可能以不同的相变组合存在，这可能导致系统熵的变化，可以通过观察DTV曲线上的拐点来识别。使用现有算法在DTV曲线中寻找DTV峰，典型的DTV峰可以通过峰检测算法(如基于阈值、差分、二次导数等)来寻找。对DTV峰进行特征提取时可以考虑以下特征：峰值：DTV峰的最大值或最小值。峰宽：DTV峰的时间宽度或电压/电流幅度宽度。上升时间和下降时间：DTV峰的从起始到峰值或从峰值到终止的上升时间和下降时间。面积：DTV峰的信号包络的面积。峰的数量：在整个数据集中DTV峰的数量。DTV曲线的峰值可以指示充电/放电阶段期间的峰值电势，峰值位置的偏移可以指示阻抗和化学计量的变化，峰值高度可以指示最大加热速率。

如图5所示，首先对温度进行Savitzky-Golay(SG)滤波来平滑数据，从分热伏安分析提取健康因子。通过如下公式计算差分热伏安值：

本发明采用的健康特征因子包括区间电压特征、IC峰特征和DTV峰特征。一方面，区间电压特征、IC峰特征和DTV峰特征分别代表电池在不同工作状态下的表现，通过综合考虑这些特征，可以从不同角度全面评估电池的容量得到更准确的估计结果；另一方面，区间电压特征、IC峰特征和DTV峰特征与电池的寿命和循环能力相关，可以综合评估电池的多个性能指标，提高容量估计的精确度和可靠性。因此，采用区间电压特征、IC峰特征和DTV峰特征作为特征因子估计电池SOH，能够综合考虑电池的多个性能指标、响应实时、适用范围广，有助于提高容量估计的准确性、可靠性和实用性。

为了验证所提出特征的合理性，计算特征与标签的Pearson相关系数。

利用皮尔逊相关系数对健康特征因子进行相关性分析，选择相关性较好的健康特征因子，对特征U₁的每一个列向量与SOH标签值求相关系数，100个电压特征相关系数均在0.4以上，另对IC峰和DTV峰求得与SOH的相关系数结果如表1所示；

表1 IC峰和DTV峰与SOH相关系数

根据皮尔逊相关系数分类知：相关系数在0-0.2表示极若相关或不相关；0.2-0.4为弱相关；0.4-0.6为中等强度相关；0.6-0.8为强相关；0.8-1为极强相关。100个电压特征相关系数均在0.4以上且大部分在0.6以上，表明所选特征能够在一定程度上反映SOH。另对IC峰和DTV峰求得与SOH的相关系数结果如表1所示。根据求得结果知，低SOC区间的IC峰值和高SOC区间的DTV峰值均和SOH有较好的相关性。

具体实施过程中，对于数据驱动的SOH估计方法，具有不同特征参数的不同模型具有不同的效果。由于每个模型都有自己的优点和缺点，融合这些模型将使结果更加有效。传统的融合方法是通过基于估计误差的加权融合来实现的，但权重的选择并不容易，结果往往依赖于权重的选择。针对于集成学习一般有两种方式，第一种为Boosting架构，利用基础学习器之间串行的方式构造强学习器，第二种是Bagging架构，通过构造多个独立的模型，然后通过选举或者加权的方式构造强学习器。然而还有一种方式就是Stacking，它结合了Boosting和Bagging两种集成方式，它是利用多个基础学习器来学习原数据，然后将这几个基础学习器学习到的数据交给第二层模型进行拟合。

结合图6所示，本发明的Stacking集成学习模型包括两层模型；第一层模型由支持向量回归模型(SVR)、随机森林回归模型(RF)、梯度提升决策树模型(GBDT)、极限梯度提升模型(XGBoost)和轻量高效梯度提升树模型(lightGBM)构成；第二层模型由逻辑回归模型(LR)构成。

1)SVR的基本原理是将数据映射到高维空间中，并在该空间中寻找最优的超平面来划分数据。具体来说，SVR首先将原始数据通过一个核函数映射到高维空间中，然后在该空间中找到一条回归线，使得距离该线最近的数据点到该线的距离最小。在处理非线性问题时，通常使用核函数来将数据映射到高维空间中。常用的核函数包括线性核函数、多项式核函数、径向基函数等，本发明为使决策边界更为多样选取径向基函数。

2)随机森林是基于决策树的集成学习算法，通过合理的随机样本选择和属性选择，利用多个决策树的投票来对样本进行分类或回归。具体来说，随机森林包括两个随机化过程：随机样本选择和随机属性选择。随机样本选择：从训练集中随机抽取一定数量的样本作为每个决策树的训练集。这可以避免某些样本集合的特定特征导致某个决策树过拟合，提高决策树之间的差异性。随机属性选择：对每个决策树的每个节点随机选择一部分属性进行划分。这可以使随机森林中的每个决策树都具有不同的特征，进一步提高模型的泛化性能。

3)GBDT通过多次迭代将多个弱学习器(决策树)逐步加强成一个强学习器，用于分类或回归等任务。其原理是通过梯度下降的方式，对当前模型的损失函数进行优化，从而得到下一棵决策树的目标函数，即将之前模型的残差(预测值与实际值之间的差)作为新模型的目标输出。在每一次迭代中，新的弱学习器将会尽可能地减少目标函数的损失值，以达到更好的拟合效果。

GBDT通过多次迭代将多个弱学习器(决策树)逐步加强成一个强学习器，用于分类或回归等任务。其原理是通过梯度下降的方式，对当前模型的损失函数进行优化，从而得到下一棵决策树的目标函数，即将之前模型的残差(预测值与实际值之间的差)作为新模型的目标输出。在每一次迭代中，新的弱学习器将会尽可能地减少目标函数的损失值，以达到更好的拟合效果。具体地说，GBDT的训练过程如下：

1.初始化一个基本模型(一棵小规模决策树)作为初始模型；

2.计算当前模型对训练数据的预测输出(即残差)；

3.以该残差为目标输出，训练出一棵新的决策树模型；

4.将新模型与之前的模型进行合并，得到更新后的模型；

5.重复步骤2到4，直到达到预设的迭代次数或损失函数收敛。

4)XGBoost是一种集成学习方法，基于决策树的增强模型，具有很高的预测性能和可解释性。其优势在于能够处理高维、稀疏数据和非线性关系。XGBoost算法的核心是梯度提升方法，通过将多个弱分类器组合成一个强分类器来提高精度。具体来说，XGBoost采用加权迭代的方式，在每一轮迭代中加入一个新的弱分类器，并通过学习得到每个样本的权重，使得之前分类错误的样本得到更高的权重，从而使得下一轮分类器更好地处理这些样本。同时XGBoost引入了正则化项，可以避免过拟合和提高模型泛化能力。此外，XGBoost还使用了分裂节点寻找最优特征的贪心算法，采用近似算法快速计算节点的增益和分裂点，提高了算法的效率和灵活性。

5)LightGBM是微软开发的一种基于梯度提升决策树的机器学习算法，用于处理大规模数据集。相对于其他梯度提升决策树算法，LightGBM在训练时采用了两种优化技术——基于特征并行的决策树增长和直方图加速。LightGBM使用的核心思想也是梯度提升。它采用多个弱学习器(比如决策树)的集成方法来提高整个模型的表现。在每一轮迭代中，LightGBM优先考虑使误差减小最快的样本，并从中选取一个最佳的分裂点来构建下一个决策树。LightGBM采用基于特征并行的决策树增长方式，将特征排序后，每个特征拥有独立的决策树，减少了决策树算法的时间复杂度，实现了更快的训练速度。此外，决策树增长过程中，LightGBM采用直方图算法对数据进行离散化，并对离散化后的数据构造直方图，大大加速了特征的分裂过程。

6)逻辑回归是一种用于分类的机器学习算法，其原理基于概率论和统计学。该算法将输入特征空间映射到一个输出变量，并使用一个逻辑函数(sigmoid函数)来估计概率值。逻辑回归模型可以用于二分类和多分类问题。在模型训练过程中，逻辑回归模型通过最大化似然函数来求取模型参数，以最大化减小预测误差。模型参数的选择可以使用梯度下降等优化算法进行优化。

具体的，通过如下步骤生成电池健康状态估计结果：

本发明采用的四折交叉验证(Four-fold cross-validation)是一种交叉验证的方法，用于评估机器学习模型的性能。在四折交叉验证中，数据集被随机地分成四个等份(子集)，其中三个子集(训练集)用于模型的训练，剩下的一个子集(测试集)用于评估模型的性能。这个过程会重复四次，每次都选择不同的测试集。最后，将四次测试的结果的平均值作为模型的性能指标。

在各个模型中：

第一折迭代训练，将第一组、第二组、第三组子数据作为训练集训练模型，将第四组子数据作为测试集来使模型输出预测值；

第二折迭代训练，将第一组、第二组、第四组子数据作为训练集训练模型，将第三组子数据作为测试集来使模型输出预测值；

第三折迭代训练，将第一组、第三组、第四组子数据作为训练集训练模型，将第二组子数据作为测试集来使模型输出预测值；

第四折迭代训练，将第二组、第三组、第四组子数据作为训练集训练模型，将第一组子数据作为测试集来使模型输出预测值；

公式描述为：

公式描述如下：

本发明采用Stacking集成学习模型来实现电池SOH预测，该模型可以整合支持向量回归模型、随机森林回归模型、梯度提升决策树模型、极限梯度提升模型、轻量高效梯度提升树模型和逻辑回归模型的预测结果，并考虑它们之间的权重，使得能够利用不同模型的优势来更好地捕捉涉及电池健康状态的因素间的复杂关系，从而提高电池健康状态估计的准确性和鲁棒性。同时，本发明通过四折交叉验证实现Stacking集成学习模型的训练，四折交叉验证在保持验证集和测试集独立的同时，也可以充分利用数据集进行模型的训练。

为了更好的说明本发明技术方案的优势，本实施例中公开了如下实验。

本实验利用数据清洗后的实车大数据验证所提方法的有效性。选择十辆实验车辆，十辆车符合充电片段特征提取的片段如表2所示。在两种应用场景下分别对比分析所提的Stacking集成学习模型与五个先进的单模型的优劣。这两种场景背景为：场景一：以几辆处于不同老化状态下车辆的充电片段作为训练集，用其他的车作为测试集。场景二：将所有车辆的充电片段的数据均匀掩盖70％作为测试集，未掩盖的30％的数据作为训练集。设置场景一的目的主要是测试模型在不同车辆上的泛化性能；设置场景二的目的是验证稀疏数据情况下模型的鲁棒性。

表2十辆车符合特征提取的充电片段数

对于场景一，以Car04、Car05、Car06、Car08和Car09五辆车的数据进行训练，Car01、Car02和Car03的数据作为测试集。训练的硬件条件为：一台CPU为12代酷睿i5-12500H，GPU为RTX3060的6G独立显卡；软件条件主要为：Python3.9.13、scikit-learn1.0.2。为了验证所提出的模型的准确性，采用了五个单模型作为对比，每个基础模型的超参数值的设置与Stacking集成模型相同，以便在变量相同的情况下比较不同模型SOH估计精度。

其中，表3总结了所有模型的多项评价指标，其中Stacking模型的RMSE和MAE效果最优，分别为0.5239％和0.0035，表明其在全老化点下的平均效果最好，其决定系数R2为0.9935，在所有模型中变表现最好，也说明其平均效果最优。然而，XGBoost模型的最大估计误差为1.8％，优于Stacking模型的1.95％。总体而言，Stacking模型在场景一下达到了满意的估计效果。

表3场景一Stacking模型和单模型评价指标对比

对于场景二，考虑到实车的数据量极为庞大，如果能通过少量的数据便能得到较为准确的模型，对于降低云平台的负荷以及提高经济性具有重大的意义。为研究稀疏数据下模型的鲁棒性，进行以下步骤进行验证。首先将原始数据集利用随机数函数进行打乱顺序，从中随机选择30％数据进行训练，超参数的选择与场景一的相同。

表4为各个模型评价指标的具体结果，可以直观的看到，Stacking模型的RMSE、MAE、最大相对误差和决定系数分别为1.064％、0.0078、2.78％和0.9715，均为所有模型的最优结果。因此，所提出的模型在稀疏数据下表现出较强的鲁棒性，并且最大误差在2.78％以内，证实了稀疏数据下建模虽然会损失一定的精度，但总体而言精度仍可取。

表4场景二Stacking模型和单模型评价指标对比

最后需要说明的是，以上实施例仅用以说明本发明的技术方案而非限制技术方案，本领域的普通技术人员应当理解，那些对本发明的技术方案进行修改或者等同替换，而不脱离本技术方案的宗旨和范围，均应涵盖在本发明的权利要求范围当中。

Claims

1.基于集成学习和实车大数据的电池健康状态估计方法，其特征在于，包括：

2.如权利要求1所述的基于集成学习和实车大数据的电池健康状态估计方法，其特征在于：步骤S1中，对实车电池大数据进行数据切片之前，先对实车电池大数据进行包括异常数据剔除、缺失数据填补和重复数据删除的数据预处理。

3.如权利要求1所述的基于集成学习和实车大数据的电池健康状态估计方法，其特征在于，步骤S2中，通过如下实现容量估计：

S201：在预设的SOC区间内随机产生两个随机数a和b；

S203：通过电量增益法计算充电片段数据的估计容量；

公式描述如下：

式中：Q表示估计容量；ΔQ_cha表示SOC区间内的充入电量；ΔSOC是第i时刻的SOC与第i-1时刻的SOC差值；

4.如权利要求3所述的基于集成学习和实车大数据的电池健康状态估计方法，其特征在于，步骤S2中，将电池的额定容量作为基准容量值；然后将每个充电片段数据的容量估计值除以基准容量值，得到对应充电片段数据的SOH值作为其SOH标签。

5.如权利要求4所述的基于集成学习和实车大数据的电池健康状态估计方法，其特征在于：步骤S3中，健康特征因子包括区间电压特征、IC峰特征和DTV峰特征。

6.如权利要求5所述的基于集成学习和实车大数据的电池健康状态估计方法，其特征在于，通过如下公式表示区间电压特征：

7.如权利要求6所述的基于集成学习和实车大数据的电池健康状态估计方法，其特征在于，首先计算充电片段数据中各个特征点的增量容量值；然后绘制各个特征点的增量容量值与电压之间的关系曲线，即IC曲线；最后提取IC曲线的IC峰特征；

其中，通过如下公式计算增量容量值：

8.如权利要求5所述的基于集成学习和实车大数据的电池健康状态估计方法，其特征在于，首先计算充电片段数据中各个特征点的差分热伏安值；然后根据各个特征点的差分热伏安值绘制DTV曲线；最后提取DTV曲线的DTV峰特征；

其中，通过如下公式计算差分热伏安值：

9.如权利要求1所述的基于集成学习和实车大数据的电池健康状态估计方法，其特征在于：步骤S5中，Stacking集成学习模型包括两层模型；第一层模型由支持向量回归模型、随机森林回归模型、梯度提升决策树模型、极限梯度提升模型和轻量高效梯度提升树模型构成；第二层模型由逻辑回归模型构成。

10.如权利要求1所述的基于集成学习和实车大数据的电池健康状态估计方法，其特征在于：通过如下步骤生成电池健康状态估计结果：

公式描述为：

公式描述如下：