CN111381170A

CN111381170A - 基于大数据的电动汽车电池包健康状态预测方法及系统

Info

Publication number: CN111381170A
Application number: CN202010412659.3A
Authority: CN
Inventors: 黄碧雄; 刘子厚; 秦欢; 马非凡; 严晓; 王影
Original assignee: Shanghai University of Engineering Science
Current assignee: Shanghai MS Energy Storage Technology Co Ltd
Priority date: 2020-05-15
Filing date: 2020-05-15
Publication date: 2020-07-07

Abstract

本发明提供了一种基于大数据的电动汽车电池包健康状态预测方法及系统，获取电池包的数据并对数据进行预处理，得到预处理数据；提取预处理数据中影响电池包健康状态的特征参数，通过特征与目标关系函数，对特征参数之间的相关性进行比较分析，将相关性阈值高于第一阈值的特征参数删除，得到简化模型数据；划分电池包的数据的数据类型，扩充快充和慢充中数量级少的数据，标记电池快充时间及电池慢充时间，作为补充特征数据；基于预处理数据、和/或简化模型数据、和/或补充特征数据，建立电池健康状态预测模型，并对电池健康状态预测模型的参数进行调整；通过flask框架调用电池健康状态预测模型，通过云端网络在线计算出电池包健康状态的预测结果。

Description

基于大数据的电动汽车电池包健康状态预测方法及系统

技术领域

本发明涉及电动汽车技术领域，特别涉及一种基于大数据的电动汽车电池包健康状态预测方法及系统。

背景技术

锂电池因为其能量比大，寿命长和无记忆性的优良性能，使得通过电池作为能量供给单元成为可能，首先在手机领域得到广泛应用，代替传统铅蓄电池成为电池行业的主流产品。通常情况下用电池健康状态 (StateofHealth，SOH)描述电池的剩余寿命。SOH代表着锂电池当前所能承载的电池容量与电池原始出厂标定容量的比值，其值间接反映了电动汽车或者说是电池包的经济性能。根据国家相关行业规定，当SOH降到80％时，需要从电动汽车上退役，由汽车厂商负责进行电池更换，如果汽车达到使用年限，电动汽车直接按照报废处理。如果仍采用实验方式的传统方式用来拟合预测电池的SOH，容易产生错误的预测结果，且预测准确率下降。因此，在现有技术中缺乏对电池SOH快速且准确预测的方式。而准确预测电池SOH是保证电动汽车行驶安全的主要措施，同样也是推广电动汽车使用的关键瓶颈之一。

中国发明专利(专利号：CN110609233A，专利名称：一种基于大数据进行储能电池SOH预测的方法)，该专利通过从电池的额定信息和状态监测数据(电压、电流、温度、SOC等)挖掘其中隐含的电池健康状态信息及其演变规律，按照采集数据、根据采集的数据计算SOC、数据清洗、数据特征化、建立SOH模型和训练模型的步骤，实现电池SOH预测的方法。该方法前期数据准备过程复杂，需要大量时间无法适用于在线计算电池健康状态。

中国发明专利(专利号：CN110598300A，专利名称：一种电池SOH 预测方法及装置)，该专利通过一种电池SOH预测方法及装置，提高目标电池SOH的预测准确率。所述方法包括：首先获取待测的目标电池，同时获取目标电池在预设时间段内的电池性能参数，然后，再从获取到的电池性能参数中，提取出表征目标电池的性能信息的参数特征，进而从电池性能参数中提取出的参数特征作为输入数据，输入至预先构建的电池SOH 预测模型，以预测出目标电池的SOH。该方法对数据质量要求很高，前期数据清洗和后续计算都需要大量人工操作，无法适用于快速且准确计算电池健康状态。

中国发明专利(专利号：CN109934294A，专利名称：一种基于大数据机器学习进行电动汽车电池SOH预测的方法)，该专利提出了通过大数据机器学习建立模型和训练验证算法，对计算结果进行不同角度的评估和优化，从而建立电动汽车电池SOH预测的模型，其中建模主要使用了非线性混合算法模型和生存模型。该方法对数据数量和预处理步骤复杂，在数据训练过程中需要人工调整数据，无法适用于快速且准确的在线预测电池健康状态。

发明内容

本发明的目的在于提供一种基于大数据的电动汽车电池包健康状态预测方法及系统，以解决现有的电池健康状态预测方法无法适用于快速且准确的在线预测电池健康状态。

为解决上述技术问题，本发明提供一种基于大数据的电动汽车电池包健康状态预测方法，所述基于大数据的电动汽车电池包健康状态预测方法包括：

获取电池包的数据并对所述数据进行预处理，得到预处理数据，所述预处理包括筛选及补充；

提取所述预处理数据中影响电池包健康状态的特征参数，通过特征与目标关系函数，对所述特征参数之间的相关性进行比较分析，获取所述特征参数之间的相关性阈值，将所述相关性阈值高于第一阈值的特征参数删除，得到简化模型数据；

划分所述电池包的数据的数据类型，扩充快充和慢充中数量级少的数据，标记电池快充时间及电池慢充时间，作为补充特征数据；

基于所述预处理数据、和/或所述简化模型数据、和/或所述补充特征数据，建立电池健康状态预测模型，并对所述电池健康状态预测模型的参数进行调整；

通过flask框架调用所述电池健康状态预测模型，通过云端网络在线计算出电池包健康状态的预测结果。

可选的，在所述的基于大数据的电动汽车电池包健康状态预测方法中，所述获取电池包的数据并对所述数据进行预处理，得到预处理数据，所述预处理包括筛选及补充包括：

所述电池包的数据包括但不限于电池使用数据、电动汽车行驶数据和故障报警数据；

所述数据的预处理包括对结构化数据的筛选和补充，并采用独热编码将文本数据转换为数字语言；

独热编码包括使用N位的状态寄存器代表离散数据特征的n个属性值，对应到寄存器上唯一的地址位置，在任何时候，只用其中一位是有效数字 1，其余位置都是0表示；

所述数据的筛选包括排除脱敏数据和与电池健康状态不相关数据，将筛选后的数据按照采集时间顺序排列；筛选后通过数据字段中车辆停车状态和充电状态特征将数据分别切分片段；

所述数据补充方法为拉格朗日插值法，所述数据补充方法补充电动汽车在运行过程中由于建筑物阻挡、驶入隧道、偏远地区传输信号差而丢失的数据。

可选的，在所述的基于大数据的电动汽车电池包健康状态预测方法中，提取所述预处理数据中影响电池包健康状态的特征参数，通过特征与目标关系函数，对所述特征参数之间的相关性进行比较分析，获取所述特征参数之间的相关性阈值，将所述相关性阈值高于第一阈值的特征参数删除，得到简化模型数据包括：

所述影响电池包健康状态的特征参数包括但不限于电动汽车累计充电时间、电动汽车累计行驶里程、当前充电状态温度、累计充入电量、平均充电功率及平均充电倍率；

所述特征与目标关系函数为皮尔逊相关系数公式：

其中：fi和fj分别为提取出的两个不同的特征参数；

和

分别为对应变量fi和fj的平均值，n为数据中的样本数；c为相关性阈值，c的取值范围在[-1,1]之间，所述第一阈值为0.9。

可选的，在所述的基于大数据的电动汽车电池包健康状态预测方法中，划分所述电池包的数据的数据类型，扩充快充和慢充中数量级少的数据，标记电池快充时间及电池慢充时间，作为补充特征数据包括：

采用SMOTE算法进行数据补充，所述SMOTE算法公式如下：

p_i＝X+rand(0，1)*(y_i-X)，i＝1，2，......，n，

其中：X表示少数数据中的样本点，rand(0,1)表示生成0～1之间的一个随机数；yi表示数据集中n个接近样本中第i个取值；

采样倍率n表示多数数据与少数数据之间的样本比值(IL)，n由公式计算得出：

n＝round(IL)，

其中round()表示四舍五入取值；

采用所述SMOTE算法对所述电池快充时间进行扩充，将所述电池快充时间及电池慢充时间补充到同等量级，采用SVM模型对数据进行数据划分；

所述SVM模型的输入包括满充时间、平均功率、最大充电功率、充电时间及充入电量，为每一次充电打上快充标签或慢充标签，以将充电电量分为快充累计电量和慢充累计电量。

可选的，在所述的基于大数据的电动汽车电池包健康状态预测方法中，基于所述预处理数据、和/或所述简化模型数据、和/或所述补充特征数据，建立电池健康状态预测模型，并对所述电池健康状态预测模型的参数进行调整包括：

计算电池包充电过程中充入的容量；

计算当前电池包的容量；

计算当前电池包的健康状态；

基于特征化后的数据建立电池包电池健康状态预测模型并验证以优化电池健康状态预测模型。

可选的，在所述的基于大数据的电动汽车电池包健康状态预测方法中，

所述计算电池包充电过程中充入的容量包括：筛选充电过程中经过容量区间40％～80％，且在该区间上有10％的SOC增幅的数据，当前电池包充入的容量计算公式：

Q_charge＝∫Idt

其中，I为充电电流，t为充电时间；

所述计算当前电池包的容量包括：当前电池包容量Qage的计算公式：

其中Qage为当前电池包满充容量；Qcharge为当前充入的电池容量； SOCend为充电结束时对应的电池荷电状态；SOCstart为充电开始时对应的荷电状态；

所述计算当前电池包的健康状态包括：当前电池包健康状态的计算公式：

其中：Qage为当前电池包满充容量；Qinit为电池包出厂标定的额定容量；

可选的，在所述的基于大数据的电动汽车电池包健康状态预测方法中，基于特征化后的数据建立电池包电池健康状态预测模型并验证以优化模型包括：

建立GDBT学习模型；

将电池包充电过程中充入的容量、当前电池包的容量、当前电池包的健康状态作为所述电池健康状态预测模型的输入，并基于二次特征数据进行电池健康状态预测模型训练，对电池健康状态预测模型进行有效调参；

所述训练及验证包括交叉验证，基于验证结果确定最佳的预测模型及预测结果的准确性和健壮性。

可选的，在所述的基于大数据的电动汽车电池包健康状态预测方法中，通过flask框架调用所述电池健康状态预测模型，通过云端网络在线计算出电池包健康状态的预测结果包括：

所述flask框架为使用Python编写的轻量级Web应用框架；

调用所述电池健康状态预测模型，执行客户端与云端服务器之间的通信，并将机器学习训练得到的所述电池健康状态预测模型应用于云端，进行电池健康状态的预测分析。

本发明还提供一种基于大数据的电动汽车电池包健康状态预测系统，所述基于大数据的电动汽车电池包健康状态预测系统包括预处理模块、简化模型数据模块、补充特征数据模块及电池健康状态预测模块，其中：

所述预处理模块获取电池包的数据并对所述数据进行预处理，得到预处理数据，所述预处理包括筛选及补充；

所述简化模型数据模块提取所述预处理数据中影响电池包健康状态的特征参数，通过特征与目标关系函数，对所述特征参数之间的相关性进行比较分析，获取所述特征参数之间的相关性阈值，将所述相关性阈值高于第一阈值的特征参数删除，得到简化模型数据；

所述补充特征数据模块划分所述电池包的数据的数据类型，扩充快充和慢充中数量级少的数据，标记电池快充时间及电池慢充时间，作为补充特征数据；

所述电池健康状态预测模块基于所述预处理数据、和/或所述简化模型数据、和/或所述补充特征数据，建立电池健康状态预测模型，并对所述电池健康状态预测模型的参数进行调整；

所述电池健康状态预测模块通过flask框架调用所述电池健康状态预测模型，通过云端网络在线计算出电池包健康状态的预测结果。

在本发明提供的基于大数据的电动汽车电池包健康状态预测方法及系统中，通过获取电池包的数据并对数据进行预处理，提取预处理数据中影响电池包健康状态的特征参数，获取特征参数之间的相关性阈值，得到简化模型数据，划分电池包的数据的数据类型，扩充快充和慢充中数量级少的数据，标记电池快充时间及电池慢充时间作为补充特征数据，基于上述数据建立电池健康状态预测模型，通过flask框架调用电池健康状态预测模型，通过云端网络在线计算出电池包健康状态的预测结果，实现了利用机器学习对电动汽车电池健康状态在线分析的研究，利用数据库中历史数据跟选定的机器学习模型进行训练，探究各因素对预测结果的影响，达到优化模型的目的，达到利用最少特征进行精准预测的目的，实现电池SOH 的预测，实现了电池健康状态快速且准确的在线预测。

本发明基于机器学习对电动汽车电池SOH进行在线精准预测的方法，应用于电动汽车车辆电池健康状态预警、退役时间预测和在用电池包价值评估，与现有技术方法相比，本发明根据历史数据挖掘电池健康状态的相关信息从而实现电池包健康状态的预测；在电池包全生命周期内，都可以通过电池健康状态预测模型实现对电池包健康状态的描述。

本发明的有益效果还包括：采用机器学习纯数据驱动的方式，通过数据挖掘，探究各因素对电池健康状态的影响，建立非线性模型，用于实际的生产预测。本发明省去了大量的实验设计、以及实验等待时间，并且是一种可以不断迭代更新算法的过程；通过flask这种成熟的网络框架，实现训练模型的调用，这种方法大大缩短了模型从实验室到应用于时间的时间，也可以尽快的将模型得到印证，在不断对比中更新迭代；基于长期采集的电池包数据，挖掘其中影响电池包健康状态的相关信息并建立相关模型，实现电池包健康状态的预测，随着数据的不断积累，模型预测的精准性会不断提升；本发明可省去前期数据清洗和后续计算中人工调参，通过已有算法即可进行在线云端数据计算，快速且准确的在线预测电池健康状态；本发明基于大数据对电动汽车健康电池健康状态进行预测，预测精度与实际数据在实例中误差在百分之十以内，预测结果真实可信；本发明方法在电池包全生命周期内，都可以通过电池健康状态预测模型实现对电池包健康状态的描述。

附图说明

图1是本发明一实施例的基于大数据的电动汽车电池包健康状态预测方法流程示意图；

图2是本发明一实施例的电池包数据获取示意图；

图3是本发明一实施例的均方根误差、平均绝对误差与迭代次数关系图；

图4是本发明一实施例的均方根误差、平均绝对误差与树的最大深度关系图；

图5是本发明一实施例的特征的重要度图；

图6是本发明一实施例的电池健康状态预测结果图。

具体实施方式

以下结合附图和具体实施例对本发明提出的基于大数据的电动汽车电池包健康状态预测方法及系统作进一步详细说明。根据下面说明和权利要求书，本发明的优点和特征将更清楚。需说明的是，附图均采用非常简化的形式且均使用非精准的比例，仅用以方便、明晰地辅助说明本发明实施例的目的。

本发明的核心思想在于提供一种基于大数据的电动汽车电池包健康状态预测方法及系统，以解决现有的电池健康状态预测方法无法适用于快速且准确的在线预测电池健康状态。

为实现上述思想，本发明提供了一种基于大数据的电动汽车电池包健康状态预测方法及系统，所述基于大数据的电动汽车电池包健康状态预测方法包括：获取电池包的数据并对所述数据进行预处理，得到预处理数据，所述预处理包括筛选及补充；提取所述预处理数据中影响电池包健康状态的特征参数，通过特征与目标关系函数，对所述特征参数之间的相关性进行比较分析，获取所述特征参数之间的相关性阈值，将所述相关性阈值高于第一阈值的特征参数删除，得到简化模型数据；划分所述电池包的数据的数据类型，扩充快充和慢充中数量级少的数据，标记电池快充时间及电池慢充时间，作为补充特征数据；基于所述预处理数据、和/或所述简化模型数据、和/或所述补充特征数据，建立电池健康状态预测模型，并对所述电池健康状态预测模型的参数进行调整；通过flask框架调用所述电池健康状态预测模型，通过云端网络在线计算出电池包健康状态的预测结果。

<实施例一>

本实施例提供一种基于大数据的电动汽车电池包健康状态预测方法，如图1所示，所述基于大数据的电动汽车电池包健康状态预测方法包括：获取电池包的数据并对所述数据进行预处理，得到预处理数据，所述预处理包括筛选及补充；提取所述预处理数据中影响电池包健康状态的特征参数，通过特征与目标关系函数，对所述特征参数之间的相关性进行比较分析，获取所述特征参数之间的相关性阈值，将所述相关性阈值高于第一阈值的特征参数删除，得到简化模型数据；划分所述电池包的数据的数据类型，扩充快充和慢充中数量级少的数据，标记电池快充时间及电池慢充时间，作为补充特征数据；基于所述预处理数据、和/或所述简化模型数据、和/或所述补充特征数据，建立电池健康状态预测模型，并对所述电池健康状态预测模型的参数进行调整；通过flask框架调用所述电池健康状态预测模型，通过云端网络在线计算出电池包健康状态的预测结果。

具体的，在所述的基于大数据的电动汽车电池包健康状态预测方法中，所述获取电池包的数据并对所述数据进行预处理，得到预处理数据，所述预处理包括筛选及补充包括：所述电池包的数据包括但不限于电池使用数据、电动汽车行驶数据和故障报警数据；所述数据的预处理包括对结构化数据的筛选和补充，并采用独热编码将文本数据转换为数字语言；独热编码是受到计算机初始寄存器的工作原理启发，包括使用N位的状态寄存器代表离散数据特征的n个属性值，对应到寄存器上唯一的地址位置，在任何时候，只用其中一位是有效数字1，其余位置都是0表示；所述数据的筛选包括排除脱敏数据和与电池健康状态不相关数据，将筛选后的数据按照采集时间顺序排列；筛选后通过数据字段中车辆停车状态和充电状态特征将数据分别切分片段；所述数据补充方法为拉格朗日插值法，所述数据补充方法补充电动汽车在运行过程中由于建筑物阻挡、驶入隧道、偏远地区传输信号差而丢失的数据。

在本发明的一个实施例中，在所述的基于大数据的电动汽车电池包健康状态预测方法中，提取所述预处理数据中影响电池包健康状态的特征参数，通过特征与目标关系函数，对所述特征参数之间的相关性进行比较分析，获取所述特征参数之间的相关性阈值，将所述相关性阈值高于第一阈值的特征参数删除，得到简化模型数据包括：所述影响电池包健康状态的特征参数包括但不限于电动汽车累计充电时间、电动汽车累计行驶里程、当前充电状态温度、累计充入电量、平均充电功率及平均充电倍率；

所述特征与目标关系函数为皮尔逊相关系数公式：

其中：fi和fj分别为提取出的两个不同的特征参数；

和

分别为对应变量fi和fj的平均值，n为数据中的样本数；c为相关性阈值，c的取值范围在[-1,1]之间，所述第一阈值为0.9。|c|>0.9表示强相关，两个特征呈线性相关，|c|>0.5，表示两个特征中等程度相关，|c|<0.2，表示两个特征之间极弱相关性或者不存在相关性；其目的是为了判断上述所提取的特征之间是否有冗余信息，通过特征与目标之间的关系图对特征参数之间的相关性进行分析与比较，结果得出平均充电功率，与平均充电倍率之间呈高相关性，二者取其一作为特征输入，并删除另一个特征，在去除高相关性的特征数据得到简化后的模型数据，减少了模型的输入。

在本发明的一个实施例中，在所述的基于大数据的电动汽车电池包健康状态预测方法中，划分所述电池包的数据的数据类型，扩充快充和慢充中数量级少的数据，标记电池快充时间及电池慢充时间，作为补充特征数据包括：采用SMOTE算法进行数据补充，SMOTE算法的思想是合成新的少数类样本，合成的策略是对每个少数类样本a，从它的最近邻中随机选一个样本b，然后在a、b之间的连线上随机选一点作为新合成的少数类样本，通过增加少数样本数据来达到数据平衡的目的；所述SMOTE算法公式如下：

p_i＝X+rand(0，1)*(y_i-X)，i＝1，2，......，n，

其中：X表示少数数据中的样本点，rand(0,1)表示生成0～1之间的一个随机数；yi表示数据集中n个接近样本中第i个取值；采样倍率n表示多数数据与少数数据之间的样本比值(IL)，n由公式计算得出：

n＝round(IL)，

其中round()表示四舍五入取值；

采用所述SMOTE算法对所述电池快充时间进行扩充，将所述电池快充时间及电池慢充时间补充到同等量级，采用SVM模型对数据进行数据划分；所述SVM模型的输入包括满充时间、平均功率、最大充电功率、充电时间及充入电量，为每一次充电打上快充标签或慢充标签，以将充电电量分为快充累计电量和慢充累计电量。

在本发明的一个实施例中，在所述的基于大数据的电动汽车电池包健康状态预测方法中，基于所述预处理数据、和/或所述简化模型数据、和/ 或所述补充特征数据，建立电池健康状态预测模型，并对所述电池健康状态预测模型的参数进行调整包括：计算电池包充电过程中充入的容量；计算当前电池包的容量；计算当前电池包的健康状态；基于特征化后的数据建立电池包电池健康状态预测模型并验证以优化电池健康状态预测模型。所述计算电池包充电过程中充入的容量包括：筛选充电过程中经过容量区间40％～80％，且在该区间上有10％的SOC增幅的数据，当前电池包充入的容量计算公式：

Q_charge＝∫Idt

其中，I为充电电流，t为充电时间；所述计算当前电池包的容量包括：当前电池包容量Qage的计算公式：

其中Qage为当前电池包满充容量；Qcharge为当前充入的电池容量；SOCend为充电结束时对应的电池荷电状态；SOCstart为充电开始时对应的荷电状态；所述计算当前电池包的健康状态包括：当前电池包健康状态的计算公式：

其中：Qage为当前电池包满充容量；Qinit为电池包出厂标定的额定容量；基于特征化后的数据建立电池包电池健康状态预测模型并验证以优化模型包括：建立GDBT学习模型；GBDT(梯度提升树)是一个以回归树为基学习器，以boost为框架的加法模型的集成学习，主要思想是每次建立模型是在之前建立模型损失函数的梯度下降方向，损失函数是评价模型性能 (一般为拟合程度+正则项)，认为损失函数越小，性能越好；将电池包充电过程中充入的容量、当前电池包的容量、当前电池包的健康状态作为所述电池健康状态预测模型的输入，并基于二次特征数据进行电池健康状态预测模型训练，对电池健康状态预测模型进行有效调参；所述训练及验证包括交叉验证，基于验证结果确定最佳的预测模型及预测结果的准确性和健壮性。

在本发明的一个实施例中，在所述的基于大数据的电动汽车电池包健康状态预测方法中，通过flask框架调用所述电池健康状态预测模型，通过云端网络在线计算出电池包健康状态的预测结果包括：所述flask框架为使用Python编写的轻量级Web应用框架；调用所述电池健康状态预测模型，执行客户端与云端服务器之间的通信，并将机器学习训练得到的所述电池健康状态预测模型应用于云端，进行电池健康状态的预测分析。

综上，上述实施例对基于大数据的电动汽车电池包健康状态预测方法及系统的不同构型进行了详细说明，当然，本发明包括但不局限于上述实施中所列举的构型，任何在上述实施例提供的构型基础上进行变换的内容，均属于本发明所保护的范围。本领域技术人员可以根据上述实施例的内容举一反三。

<实施例二>

本发明还提供一种基于大数据的电动汽车电池包健康状态预测系统，如图1所示，所述基于大数据的电动汽车电池包健康状态预测系统包括预处理模块、简化模型数据模块、补充特征数据模块及电池健康状态预测模块，其中：所述预处理模块获取电池包的数据并对所述数据进行预处理，得到预处理数据，所述预处理包括筛选及补充；所述简化模型数据模块提取所述预处理数据中影响电池包健康状态的特征参数，通过特征与目标关系函数，对所述特征参数之间的相关性进行比较分析，获取所述特征参数之间的相关性阈值，将所述相关性阈值高于第一阈值的特征参数删除，得到简化模型数据；所述补充特征数据模块划分所述电池包的数据的数据类型，扩充快充和慢充中数量级少的数据，标记电池快充时间及电池慢充时间，作为补充特征数据；所述电池健康状态预测模块基于所述预处理数据、和/或所述简化模型数据、和/或所述补充特征数据，建立电池健康状态预测模型，并对所述电池健康状态预测模型的参数进行调整；所述电池健康状态预测模块通过flask框架调用所述电池健康状态预测模型，通过云端网络在线计算出电池包健康状态的预测结果。

本实施例提供的一种基于大数据预测电动汽车电池包的健康状态的方法，其原始数据来源于某新能源公共数据中心512辆同种型号的纯电汽车三年的脱敏数据，时间跨度从2015年12月到2018年12月。上海市新能源公共数据采集与分析中心采用平台接受电动汽车定期上传的数据，将数据入库存储，电动汽车的车载信息采集发送装置会将车辆的实时行驶数据以及充电数据按照国标要求每隔30秒钟上传给数据监控中心，其数据采集示意流程图如图2所示。每一辆的数据主要由以下六部分组成：整车数据、驱动电机数据、发动电机数据、车辆定位数据、极值数据和警报数据。由步骤S1对电池包数据并进行数据预处理，对数据进行筛选及补充，最终数据的选择只包括：整车数据，驱动电机数据、车辆定位数据、极值数据。其中数据的补充采用拉格朗日插值法进行数据插值，补充由于电动汽车在运行过程中因为建筑物阻挡、过隧道、偏远地区传输信号差等原因而丢失的数据。其中文本数据采用独热编码来解决这种离散数据特征的转译问题，在二次特征提取时，提取当前月份作为环境温度的表征，而月份一到十二个月温度并不是随着月份的增加，温度呈现递增或者递减的关系，因此采用独热编码方式描述月份特征的不同属性，整理好的数据形式如表1所示：

表1日期-独热编码对照表

根据预处理后的数据，由步骤S2提取影响电池包健康状态的特征参数，通过特征与目标之间的关系图对特征参数之间的相关性进行分析与比较，去除高相关性的特征数据，得到简化后的模型数据。其中影响电池包健康状态的参数包括电动汽车累计充电时间、电动汽车累计行驶里程、当前充电状态温度、累计充入电量、平均充电功率、平均充电倍率。通过皮尔逊相关系数公式计算特征之间的相关性指标，计算公式为：

其中：fi和fj分别表示提取出的两个不同特征。

和

分别对应变量 fi和fj的平均值，n表示数据中的样本数。c表示是皮尔逊相关系数，其取值范围在[-1,1]之间，通常我们认为|c|>0.9表示强相关，两个特征呈线性相关，|c|>0.5，表示两个特征中等程度相关，|c|<0.2，表示两个特征之间极弱相关性或者不存在相关性。其目的是为了判断上述所提取的特征之间是否有冗余信息，通过特征与目标之间的关系图对特征参数之间的相关性进行分析与比较，结果得出平均充电功率，与平均充电倍率之间呈高相关性，二者取其一作为特征输入，并删除另一个特征，在去除高相关性的特征数据得到简化后的模型数据，减少了模型的输入。

其中，由步骤S3划分数据类型，扩充快充和慢充中数量级少的数据，标记电池快慢充时间，作为补充特征，采用SMOTE算法进行数据补充： SMOTE算法的思想是合成新的少数类样本，合成的策略是对每个少数类样本a，从它的最近邻中随机选一个样本b，然后在a、b之间的连线上随机选一点作为新合成的少数类样本，通过增加少数样本数据来达到数据平衡的目的；SMOTE算法公式如下：

p_i＝X+rand(0，1)^*(y_i-X)，i＝1，2，......，n

其中：X表示少数数据中的样本点，rand(0,1)表示生成0～1之间的一个随机数；yi表示数据集中n个接近样本中第i个取值；采样倍率n表示多数数据与少数数据之间的样本比值(IL)，n的可由公式：

n＝round(IL)

其中round表示四舍五入取值；采用SMOTE方法对快充数据进行扩充，将快慢充数据达补充到同等量级，选用SVM模型对数据进行数据划分。 SVM模型的输入包括满充时间、平均功率、最大充电功率、充电时间、充入电量五个特征，为每一次充电打上快慢充标签，进一步将充电电量分为快充累计电量和慢充累计电量。实例选取满充时间、平均功率、最大充电功率、充电时间、充入电量五个特征，作为SVM分类型的输入参数，扩充好的分类数据如表2所示：

表2训练数据集

基于以上数据，由步骤S4建立SOH模型，并对模型进行有效的调参。计算电池包充电过程中充入的容量；筛选充电过程中必须经过区间 40％～80％，且在该区间上有10％的SOC增幅的数据，当前电池包充入的容量计算公式：

Q_charge＝∫Idt

其中，I为充电电流，t为充电时间；计算当前电池包的容量；当前电池包容量Qage的计算公式：

其中Qage为当前电池包满充容量；Qcharge为当前充入的电池容量； SOCend为充电结束时对应的电池荷电状态；SOCstart为充电开始时对应的荷电状态；计算当前电池包的健康状态；当前电池包健康状态的计算公式：

其中：Qage为当前电池包满充容量；Qinit为电池包出厂标定的额定容量；基于特征化后的数据建立电池包SOH预测模型并验证以优化模型。建立GDBT学习模型：GBDT(梯度提升树)是一个以回归树为基学习器，以 boost为框架的加法模型的集成学习，主要思想是每次建立模型是在之前建立模型损失函数的梯度下降方向，损失函数是评价模型性能(一般为拟合程度+正则项)，认为损失函数越小，性能越好；将以上获得的特征作为SOH 模型的输入，并基于二次特征数据的基础上进行模型训练，对模型进行有效的调参。本实例中实验数据根据车辆累积数据量多少，选择数据记录最多的45号车历史数据作为实验数据，但是数据中采集温度是电池包温度，在实际应用场景中，电池充电前会对电池包提前加热，而且在运行过程中，电池包温度明显高于环境温度，因此，本文通过时间戳提取到月份数据作为运行环境温度的补充考量特征。最终对每一次的充电片段获取特征可以描述为表3：

表3一次特征提取结果表

上表总共有35个指标，用于描述每一个充电片段，反映出本次充电过程中的起始终止量的信息，如起始SOC，终止SOC，本次充电量等，也通过温度、电流等极值，方差，平均值描述充电过程变化。本实例对上述数据记录进行数据提取之前，通过建立的SVM划分快慢充模型，给每一条充电数据记录打上标签，确定快慢充过程，因为快慢充电流电压差异，对电池使用寿命有着较大的影响，同时也能够使得模型的特征变得更加突出。最终提取的特征如表4所示,累计充电时间，表示电动汽车到查询记录之前一共充电多长时间；累计行驶里程，表示电动汽车从出厂查询记录之前一共行驶多少公里；当前温度表示本次充电过程的平均温度；累计充电量，用于描述一共电动汽车电池包一共充入的电量，随着充入电量的增大，其寿命也会下降；累计慢充电量，表示累计充电量中慢充电量是多少；累计快充电量，表示累计充电量中快充的电量是多少；平均功率，表示当前充电功率的平均值；当前月份，表示查询记录时间所处月份，因为所采集数据中不包含环境温度，所以通过当前所处月份大体描述环境温度。

表4二次特征提取结果表

实例经过上述特征挖掘已经整理完所有特征输入与输出结果SOH，共计546条记录，按照8:2划分为测试集与训练集，即通过随机抽取的方式抽取训练集437条，剩余109条记录作为测试集。已经选定GBDT作为训练模型，而在模型中依然有很多重要的参数需要人工进行调节，才能得到最好的预测结果，使得模型具有更好的鲁棒性，而就迭代次数、模型深度进行调节并且将损失函数设置为“ls”,这种常用损失函数作为loss function 方法，迭代次数调整之后的结果如图3所示。从图3中可以看出，模型迭代次数在400次的迭代过程中，平均绝对误差逐渐上升，在迭代次数达到 150至200次时，平均绝对误差变化幅度变小，但并没有达到最优解，并随着迭代次数的增加，平均绝对误差陡升，并在接近300次的时候达到最优解；同样地，观察均方根误差，在前200次的迭代过程，均方根误差下降并不是很明显，在200到300次左右迭代次数时，均方根误差发生很明显的下降，并在随后均方根误差逐渐变大，接近350次又呈现下降趋势，但是没有达到最优解。

除了迭代次数，模型的最大深度也是最重要的参数。迭代次数越大会增加模型的训练时间，但是在实际应该用过程中，模型的深度才会决定模型的复杂程度，以及实际应用过程中真正的肯能性。从图4中发现随着最大深度的增加，模型训练平均绝对误差在不断的波动，分别在6、12、17 达到最大值，对应在均方根与最大深度的变化的图像上，在最大深度达到 12层时，达到最小值，综上所述，为了保证模型的泛化能力，以及在各个指标上能够取得较好的成绩，最终确定模型的最大深度为12。模型的各项参数最终确定如表5所示：

表5模型参数表

实例通过计算各个特征的重要度来表征其对最终输出结果的影响。其计算公式如下公式所示：

式中M表示模型中基础学习器的个数，

的计算公式如下公式所示：

式中N代表叶子结点个数，Vt表示与节点相关联的特征。

通过计算模型中特征的相关重要度，如图5所示。从图中得出对电池包健康状态影响较大的因素包括累计充电量、累计行驶里程、累计慢充电量、和累计充电时间。为了进一步确定模型泛化性，以及在梯度集成树在其他算法中有较好的表现，实例还利用其它模型对电池包的健康状态进行预测，各个模型的MAE、RMSE以及R Square得分如表6所示。平均绝对误差MAE是绝对误差的平均值，它其实是更一般形式的误差平均值；均方根误差RMSE可以测量误差的平均大小，它是预测值和实际观测之间平方差异平均值的平方根；确定系数R-square是通过数据的变化来表征一个拟合的好坏，确定系数的正常取值范围为0到1，越接近1，表明方程的变量对y的解释能力越强，这个模型对数据拟合的也较好；GBDT是一种迭代的决策树算法，该算法由多棵决策树组成，所有树的结论累加起来做最终答案通过不同模型的预测结果进行对比；RF随机森林是利用多个决策树对样本进行训练、分类并预测的一种算法，主要应用于回归和分类场景；LR 逻辑回归是一种非线性回归模型，特征数据可以是连续的，也可以是分类变量和哑变量，用于估计某种事物的可能性；Ridge岭回归是一种专用于共线性数据分析的有偏估计回归方法，实质上是一种改良的最小二乘估计法；Lasso算法是估计稀疏系数的线性模型，该算法通过构造一个惩罚函数来得到有个较精准、参数较少的模型，这样使得其压缩一些系数，同时设定一些系数为零，可以有效的减少给解决方案所需变量的数量。通过不同模型的预测结果进行对比，发现梯度集成学习各项值在所有模型中得到最好的结果，并且R Square得到0.849的分数，在实际应用中已经是高分，说明模型的泛化能力强，且GDBT预测结果的准确性和健壮性。

为了最直观的反应模型的预测结果，实例选取25号车辆，180个有效点数据画图，如图6中深灰色实线表示模型预测值，浅灰色实线表示真实计算值。预测值能够真实的跟随真实数据，预测结果可信最后实例中代码基于flask框架部署在云端，调用SOH模型，通过云端网络在线计算出电池包健康状态的预测结果。

表6模型参数表

以上显示和描述了本发明的基本原理和主要特征和本发明的优点。通过flask框架调用SOH模型，通过云端网络在线计算出电池包健康状态的预测结果。采用机器学习纯数据驱动的方式，通过数据挖掘，探究各因素对电池健康状态的影响，建立非线性模型，用于实际的生产预测。本发明省去了大量的实验设计、以及实验等待时间，并且是一种可以不断迭代更新算法的过程；通过flask这种成熟的网络框架，实现训练模型的调用，这种方法大大缩短了模型从实验室到应用于时间的时间，也可以尽快的将模型得到印证，在不断对比中更新迭代；基于长期采集的电池包数据，挖掘其中影响电池包健康状态的相关信息并建立相关模型，实现电池包健康状态的预测，随着数据的不断积累，模型预测的精准性会不断提升；本发明可省去前期数据清洗和后续计算中人工调参，通过已有算法即可进行在线云端数据计算，快速且准确的在线预测电池健康状态；本发明基于大数据对电动汽车健康电池健康状态进行预测，预测精度与实际数据在实例中误差在百分之十以内，预测结果真实可信；本发明方法在电池包全生命周期内，都可以通过电池健康状态预测模型实现对电池包健康状态的描述

本说明书中各个实施例采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似部分互相参见即可。对于实施例公开的系统而言，由于与实施例公开的方法相对应，所以描述的比较简单，相关之处参见方法部分说明即可。

上述描述仅是对本发明较佳实施例的描述，并非对本发明范围的任何限定，本发明领域的普通技术人员根据上述揭示内容做的任何变更、修饰，均属于权利要求书的保护范围。

Claims

1.一种基于大数据的电动汽车电池包健康状态预测方法，其特征在于，所述基于大数据的电动汽车电池包健康状态预测方法包括：

2.如权利要求1所述的基于大数据的电动汽车电池包健康状态预测方法，其特征在于，所述获取电池包的数据并对所述数据进行预处理，得到预处理数据，所述预处理包括筛选及补充包括：

独热编码包括使用N位的状态寄存器代表离散数据特征的n个属性值，对应到寄存器上唯一的地址位置，在任何时候，只用其中一位是有效数字1，其余位置都是0表示；

3.如权利要求1所述的基于大数据的电动汽车电池包健康状态预测方法，其特征在于，提取所述预处理数据中影响电池包健康状态的特征参数，通过特征与目标关系函数，对所述特征参数之间的相关性进行比较分析，获取所述特征参数之间的相关性阈值，将所述相关性阈值高于第一阈值的特征参数删除，得到简化模型数据包括：

所述特征与目标关系函数为皮尔逊相关系数公式：

其中：fi和fj分别为提取出的两个不同的特征参数；

和

4.如权利要求1所述的基于大数据的电动汽车电池包健康状态预测方法，其特征在于，划分所述电池包的数据的数据类型，扩充快充和慢充中数量级少的数据，标记电池快充时间及电池慢充时间，作为补充特征数据包括：

采用SMOTE算法进行数据补充，所述SMOTE算法公式如下：

p_i＝X+rand(0，1)^*(y_i-X)，i＝1，2，......，n，

n＝round(IL)，

其中round()表示四舍五入取值；

5.如权利要求4所述的基于大数据的电动汽车电池包健康状态预测方法，其特征在于，基于所述预处理数据、和/或所述简化模型数据、和/或所述补充特征数据，建立电池健康状态预测模型，并对所述电池健康状态预测模型的参数进行调整包括：

计算电池包充电过程中充入的容量；

计算当前电池包的容量；

计算当前电池包的健康状态；

6.如权利要求5所述的基于大数据的电动汽车电池包健康状态预测方法，其特征在于，

Q_charge＝∫Idt

其中，I为充电电流，t为充电时间；

其中Qage为当前电池包满充容量；Qcharge为当前充入的电池容量；SOCend为充电结束时对应的电池荷电状态；SOCstart为充电开始时对应的荷电状态；

其中：Qage为当前电池包满充容量；Qinit为电池包出厂标定的额定容量。

7.如权利要求1所述的基于大数据的电动汽车电池包健康状态预测方法，其特征在于，基于特征化后的数据建立电池包电池健康状态预测模型并验证以优化模型包括：

建立GDBT学习模型；

8.如权利要求1所述的基于大数据的电动汽车电池包健康状态预测方法，其特征在于，通过flask框架调用所述电池健康状态预测模型，通过云端网络在线计算出电池包健康状态的预测结果包括：

所述flask框架为使用Python编写的轻量级Web应用框架；

9.一种基于大数据的电动汽车电池包健康状态预测系统，其特征在于，所述基于大数据的电动汽车电池包健康状态预测系统包括预处理模块、简化模型数据模块、补充特征数据模块及电池健康状态预测模块，其中：