CN114529067A

CN114529067A - 一种基于大数据机器学习进行电动汽车电池预测性维护的方法

Info

Publication number: CN114529067A
Application number: CN202210114834.XA
Authority: CN
Inventors: 常伟
Original assignee: Individual
Current assignee: Individual
Priority date: 2022-01-30
Filing date: 2022-01-30
Publication date: 2022-05-24

Abstract

本专利涉及一种基于大数据机器学习进行电动汽车电池寿命预测性维护的方法，该方法由相应的应用架构、流程和计算模型组成。这种方法是基于对电动汽车电池运行过程中采集的电池实时数据，结合电动汽车车辆其它的运行数据，通过机器学习的模型训练和算法验证，并对结果进行不同角度的评估，从而建立对电动汽车电池运行预测性维护和响应的控制策略，优化电池的维修和更换，提高车主的安全性指标，达到系统性能和经济效益的平衡。

Description

一种基于大数据机器学习进行电动汽车电池预测性维护的方法

技术领域

本发明涉及一种基于大数据机器学习进行电池预测性维护的应用分析方法，应用的领域是电动汽车电池维修预测更换和保养领域。

背景技术

随着电动汽车在中国的推广和车联网技术的应用，越来越多的电动汽车进入了消费者市场并且实时采集了行车数据。对于电动汽车核心部件之一的电池管理系统，还是停留在通过事先定义的阈值进行判断的阶段。对电池的维修管理是通过定期检查和基于事件的方法，没有综合考虑车辆的真实驾驶情况，针对不同驾驶行为进行个性化的分析，尤其是在电池故障发生前，没有能够采取预测性的举措，这样影响了车辆维修费用，进而对车主的客户体验造成负面影响，电动汽车厂商由于无法识别后期产品问题而导致高服务成本和产品召回。

目前对电动汽车电池数据的管理，基本上是依赖历史经验数据得出一个大致维修时间和寿命曲线，出厂后的电池管理基本上在此基础上进行的。由于驾驶情况复杂，不同的车况及驾驶行为对电池的性能都有很大的影响，经验数据只具备参考性而无法有效指导真实情况的维修，目前缺乏一个数据驱动的方法系统地对电池使用进行分析，从而得出是否有故障以及剩余电池寿命等指标。

发明内容

为了解决这个问题，本发明提供了一种数据驱动的预测性维护方法，就是基于大数据机器学习建立电动汽车电池预测性维护的应用分析系统。

为了解决上述问题本发明提供了一种电动汽车电池预测性维护方法，所述方法包括：步骤001数据准备步骤，获取与电动汽车电池使用相关的数据。所述电动汽车电池使用相关包括故障维修数据和电池的使用数据。其中，所述故障维修数据包括电池发生故障前的数据记录和/或电池的维修数据。所述电池的使用数据包括在正常使用时与电池相关的电池自身数据以及汽车状态数据。所述故障维修数据和电池的使用数据均是基于时间序列的流式数据。步骤002数据整理步骤，对所述电动汽车电池使用相关的数据进行清洗并将清洗后的所述电动汽车电池使用相关的数据基于时间单元进行数据构建。所述对数据进行清洗包括，采用取一段行程该变量的平均值或中间值或相邻插值进行空余变量的赋值。通过设定电动汽车电池使用相关数据的每个变量的阈值检查数据是否合乎要求将超出正常范围的数据予以删除或纠正。通过设定电动汽车电池使用相关数据的相互约束和依赖关系，将逻辑上不合理或者相互矛盾的数据予以删除或纠正。所述数据构建包括，按照时间的顺序将搜集到的其它数据进行整合。步骤003数据特征化步骤，将通过数据整理步骤得到的数据进行总结和抽取，获取特征化后的数据。对于数据的总结和抽取包括滚动聚合，所述滚动聚合是指设定一个时间窗口，计算在预定的变量在该时间窗口内的聚合值，所述聚合值可以是数据的总和、平均值或者是标准差。所述总结和抽取还包括将特征变量进行扩展，所述扩展包括对初始的特征变量根据滚动聚合的均值增加相应的个数，以及对初始的特征变量根据滚动聚合的标准差增加相应的个数。步骤004建立模型步骤，基于特征化后的数据建立电池预测性维护自适应模型。对于电池预测性维护的问题，分解成第一个子问题是电池是否将要发生故障和第二个子问题电池还有多久会发生故障。对于第一个子问题是电池是否将要发生故障，本实施方式中采用二元分类模型来建立所述电池预测性维护自适应模型。对于第二个子问题电池还有多久会发生故障，采用回归模型来建立所述电池预测性维护自适应模型。步骤005训练验证步骤，对自适应模型进行训练和验证以优化该自适应模型。所述训练验证步骤优选包括交叉验证，所述交叉验证包括，首先把原始的数据随机分成K个部分，在这K个部分中选择其中一个部分作为测试数据，剩下的K-1个部分作为训练数据得到相应的实验结果。然后，挑选另外一个部分作为测试数据，剩下的K-1个部分作为训练数据。以此类推，重复进行K次交叉检验，每次实验都从K个部分中选择一个不同的部分作为测试数据，保证K个部分的数据都分别做过测试数据，剩下的K-1个当作训练数据进行实验，最后把得到的K个实验结果平均，基于所述实验结果确定最佳的数据分类。步骤006算法评估步骤，评估数据在不同算法下的预测结果，基于评估选择最优的算法，所述评估包括正确率评估、召回率评估、或者综合评价指标评估，所述正确率是指预测结果实际真正发生的相符比率，正确率评估取最大的数值所对应的算法，所述召回率是指真实发生的有多少被预测正确了，正确率评估取最大的数值所对应的算法。综合评价指标

其中，α为计算参数，P是正确率，R是召回率，根据不同算法得到的结果F来判断不同的算法在不同的环境下的优越性。

本方法在电动汽车电池管理中确定了电池故障和剩余寿命的核心问题，针对该核心问题进行数据的获取和标定以及进行数据整合和特征工程，明确数据定义并进行初步处理，通过预定义的规则进行特征和标签的定义。最后是进行模型训练和评估，通过数据导入，利用机器学习的不同模型，选择不同算法进行匹配验证，并进行发布，成为结构化的产品，并随着时间累积和数据丰富，模型的预测准确性会不断提升。

附图说明

图1是电动汽车电池预测性维护实施方式；

图2是本发明的系统结构框图；

图3是本发明的大数据机器学习框图；

图4是本发明中滚动聚合原理图。

具体实施方式

结合下图对本专利的具体实施方式进行详细说明，需要指出的是，该具体实施方式仅仅是对本发明优选技术方案的举例，并不能理解为对本发明保护范围的限制。

图1示出了本专利具体实施方式中的一种电动汽车电池预测性维护方法的步骤。其中：

步骤S001数据准备步骤，获取与电动汽车电池使用相关的数据。

在本步骤中，所述电动汽车电池的数据包括故障维修数据和电池的使用数据。其中，所述故障维修数据包括电池发生故障前的数据记录和/或电池的维修数据。所述电池的使用数据包括在正常使用时与电池相关的电池自身数据以及汽车状态数据。

所述故障维修数据、电池的使用数据均是基于时间序列的流式数据，包括但不限于电压、电流、剩余电量(SOC)等。一种举例但非全部的数据内容如下表所示。

S002数据整理步骤，对所述电动汽车电池使用相关的数据进行清洗并将清洗后的所述电动汽车电池使用相关的数据基于时间单元进行数据构建。

在本实施方式中，由于主要是基于数据处理实现的，保证高质量的数据有利于提高结果的准确性，因此需要对采集的数据进行数据整理。所述数据整理首先要对数据进行清洗，本发明制定了相应的清理规则将质量不高的数据转化为满足数据质量要求的数据。清理规则包括：

空余赋值：电池数据在传输过程中，很容易发生掉包导致变量缺失，在本发明中，主要采用取一段行程该变量的平均值或中间值或相邻插值进行空余变量的赋值。

错值去除：通过设定电动汽车电池使用相关数据的每个变量的合理取值范围，即阈值，检查数据是否合乎要求，将超出正常范围的数据予以删除或纠正。

交叉检验：通过设定电动汽车电池使用相关数据的相互约束和依赖关系，将逻辑上不合理或者相互矛盾的数据予以删除或纠正。

清洗数据之后，基于时间单元进行数据构建，即按照时间的顺序将搜集到的其它数据进行整合。时间单元可以基于毫秒、秒、分钟等，时间单元可以和收集的频率可以不一致。

完成数据构建之后，需要对基于时间单元进行构建的数据进行评估以及修正。所述评估包括筛选出错误数据，即数据本身存在错误的那些数据。例如，包括但不限于，缺失值、异常值、时间周期错误和计算规格错误等。在评估之后，对于所述错误数据进行校正。例如对于缺失值，将存在null的值设置为0，补充缺失的数据；对于异常值，将负值设置为0，避免训练过程中出现错误；对于时间周期错误的数值，明确应该取得时间周期，调整并重新运行数据；对于计算规格错误的数值，明确口径调整并重新运行数据。

S003数据特征化步骤，将通过数据整理步骤得到的数据进行总结和抽取，获取特征化后的数据。

由于在后续的处理步骤中需要对数据进行处理和计算，为了便于计算和识别数据的特征，首先需要对整理后的数据进行特征化以便于显现所述数据的各种特征从而便于计算和识别。

在本步骤中，对于数据的总结和抽取包括滚动聚合。所述滚动聚合是指设定一个时间窗口，计算在预定的变量在该时间窗口内的聚合值，所述聚合值可以是数据的总和、平均值或者是标准差。如图4所示，例如t1节点，设定时间窗是3，它的滚动聚合就是计算t1节点以及在所述t1节点之间的3个节点的总和、均值或者标准差。

在本步骤中，为了能够对学习算法提供更好，甚至是附加的学习和预测能力，需要更多变量数据，发明从基于时间序列的电池数据进行总结和抽取，从而将初始的S001中的特征变量进行扩展。例如，在步骤S001中具有65个特征变量时，在本示例中，进行扩展的数据主要是两类：第一大是对初始65个特征变量根据滚动聚合的均值，增加65-2＝63个；第二类是对初始的65个特征变量根据滚动聚合的标准差，增加65-2＝63个；这样最后获得的变量为65+63+63＝191。这样就能够提供更多变量数据，从而有利于学习算法提供更好和预测能力。

S004数据计算步骤，基于特征化后的数据建立电池预测性维护自适应模型。

对于电池预测性维护的问题，可以分解成两个子问题，第一个子问题是电池是否将要发生故障；第二个子问题是电池还有多久会发生故障。针对不同的问题可以通过不同的模型和算法去进行预测。

对于电池是否将要发生故障，本实施方式中采用二元分类模型来建立所述电池预测性维护自适应模型。

具体而言，把输入的电池数据设为x；把判断电池是否将要发生故障设定为目标为y，那么y的个体只有两种选择，y＝1，即为发生故障，y＝0即为发生故障。

那么二元分类的模型是：y＝f(x)，其中f是具体算法，能够把电池数据x映射到目标y中去。

当采用初始训练数据对上述模型进行训练时，需要对初始训练数据集进行标签，将发生故障的数据作为正向(标签为1)，将正常运行的数据作为反向(标签为0)，建立起在下一个周期可能故障或者正常的模式y＝f(x)，其中y即为电池是否即将发生故障，x为电池数据，f为具体算法。

其中，所述具体算法f可选择地包括：逻辑回归、提升决策树、决策森林和神经网络。

所述逻辑回归算法假定类的实例是线性可分的，通过直接估计判别式的参数获得最终的预测模型。考虑用于电动汽车预测性维护的数据具有P个独立变量的向量x¹＝(x₁,x₂,…x_p),设条件概率P(Y＝1|x)＝p为根据观测量相对于某事件发生的概率。逻辑回归同线性回归一样都需要有一个假设函数，在本算法中引入了Sigmoid函数

其中π(x)的定义域为(-∞,+∞)，值域为(0,1)。根据以上定义，所述逻辑回归算法所采用的公式为：

所述提升决策树算法，是通过结合决策树分治策略的层次数据结构对初始的分类所产生的分类规则，每次都将上一次分错的数据权重提高一点再进行分类，这样循环迭代取得目标结果。

设D为使用类别对训练元组进行的划分，则D的熵表示为：

其中，pi表示第i个类别在整个训练元组中出现的概率，可以用属于此类别元素的数量除以训练元组元素总数量作为估计。熵的实际意义表示是D中元组的类标号所需要的平均信息量。对于本预测方法来说，D为电池故障状况，具有故障和正常两种状态，所以m＝2。

设将训练元组D按属性A进行划分，其中A为经过特征化以后，电池数据的其中一个特征，则A对D划分的期望信息为：

其中j表示属性A的某个类型，V表示属性A的类别总数；而属性A的信息增益即为两者的差值：gain(A)＝info(D)-info_A(D)。在每次分层(分裂)时需要计算电池数据训练元组中每个属性的信息增益，然后选择增益率最大的属性进行分层，由此可形成能够进行电动汽车预测性维护的决策树。

决策森林由多个决策树构成的森林，算法分类结果由这些决策树投票得到，决策树在生成的过程当中分别在行方向和列方向上添加随机过程，行方向上构建决策树时采用放回抽样(bootstraping)得到训练数据，列方向上采用无放回随机抽样得到特征子集，并据此得到其最优切分点。决策森林是一个组合模型，内部仍然是基于决策树，同单一的决策树分类不同的是，决策森林通过多个决策树投票结果进行分类，算法不容易出现过度拟合问题。

神经网络就是利用其算法特点来模拟人脑思维的第二种方式，它是一个非线性动力学系统，虽然单个神经元的结构及其简单，但能够进行并行协同处理。神经网络中，不同场景的输出层对应不同的代价函数，本方法中，输出层是K个逻辑回归，整个网络的代价函数就是这K个逻辑回归模型代价函数的加和，通过此代价函数可以进行电动汽车电池故障的预测，代价函数的评估根据s006算法评估进行。

对于电池还有多久会发生故障，本具体实施方式中采用回归模型来建立所述电池预测性维护自适应模型。

回归模型从一组样本数据出发，确定变量之间的数学关系式对这些关系式的可信程度进行各种统计检验，并从影响某一特定变量的诸多变量中找出哪些变量的影响显著，哪些不显著。

以发生故障的时间作为Y，对每个电池数据从时间上距离发生故障的时间进行标签化；例如，当电池已经使用了5天、故障时间为300时，所述标签所表示的剩余时间即为300-5＝295；又例如，当电池已经使用了10天、故障时间为280时，所述标签所表示剩余时间为280-10＝270。这样每个样本都会有一个剩余的可用时间。具体的标签如下表所示：

ID	已用时间(天)	故障时间Y(天)	标签(剩余时间)
				1	5	300	295
2	10	280	270
				…

把输入的电池数据设为x；回归算法的模型为Y＝f(x)。其中，所述回归模型所采用的具体算法f包括决策森林算法回归、提升决策树回归、泊松回归和神经网络回归。

提升决策树回归和决策森林回归同样是由决策树一个或者若干个决策树构成，是决策树的组合，和所述电池是否将要发生故障中采用决策树相关的算法一样，在电池还有多久会发生故障的回归模型中，也利用利用信息增益来判断提升决策树和决策森林回归的好坏，即通过差值：gain(A)＝info(D)-info_A(D)，来判断。

在泊松回归中，利用现有技术中广泛记载的泊松回归模型进行建模。

神经网络就是现有技术中已经广泛记载的一种模拟人脑思维的算法。神经网络中，不同场景的输出层对应不同的代价函数。本方法中，输出层可以是K个逻辑回归，整个网络的代价函数就是这K个逻辑回归模型代价函数的加和。

S005训练验证步骤，对自适应模型进行训练和验证以优化该自适应模型。

在建立上述模型的基础上，需要进行训练和验证的工作来优化模型。以便于提高模型的准确性。

在本具体实施方式中，所述训练验证步骤优选包括交叉验证和少数类采样。

所述交叉验证方法中对于各个模型的参数框架进行优化。例如前述的分类模型(逻辑回归、提升决策树、决策森林和神经网络)和回归模型(决策森林算法回归、提升决策树算法回归、泊松算法回归和神经网络算法回归)，这些算法的可靠性依赖参数框架，就是说哪些电池数据对于产生的结果是最有效的。

在本具体实施方式中，为了提高参数框架的质量，首先把原始的数据随机分成K个部分。在这K个部分中，选择其中一个部分作为测试数据，剩下的K-1个部分作为训练数据得到相应的实验结果。然后，挑选另外一个部分作为测试数据，剩下的K-1个部分作为训练数据，以此类推，重复进行K次交叉检验的。每次实验都从K个部分中选择一个不同的部分作为测试数据，保证K个部分的数据都分别做过测试数据，剩下的K-1个当作训练数据进行实验。最后把得到的K个实验结果平均，所述实验结果可以包括正确率、召回率和综合评价指标等。根据每次预测维护的目的，在正确率、召回率和综合评价指标三种的均值的选择，从而确定最佳的分类，实现模型的训练。

所述少数类采样是针对一类数据仅仅有很少数量的训练样本时，数据集不平衡的情况时采用的。当一类数据仅仅有少量的训练样本时，本具体实施方式中可以通过将少数的故障样本数据合成新的少数类样本数据来进行模型的训练。例如在电池的数据收集中，只发现有少量的故障记录数据，为了从少量的故障数据中产生更多进行机器学习的数据，需要进行数据合成。具体而言，对每个少数类样本A，从它的最近邻中随机选一个样本B，这里的距离是根据时间和变量图中的距离进行计算，然后在A和B之间的连线上随机选择一点作为新合成的少数类样本。通过这样不断的合成，可以将少量的样本A，变成具备多数据的样本A+，从而达到预测性维护的数据要求，即不会产生计算中的因为数据不平衡导致的过拟合或者扭曲。

S006算法评估步骤，评估数据在不同算法下的预测结果，基于评估选择最优的算法。

在电池的预测性维护中，基于不同的预测目标或者是不同的数据源，采用不同的算法所得到的结果也是不同的，这样就需要针对不同的情况选择较佳的算法。

通常在电动汽车电池预测性维护中，可以使用正确率(Precision)，召回率(Recall)或者综合评价指标(F1-Measure)来评估预测结果，比较在不同情况下采用不同的算法所得到的结果是否最优，从而选择最优的算法。

其中，正确率是针对预测结果而言所述模型预测发生故障的样本中有多少是实际真正发生故障的样本，一般是越高越好。所述召回率是样本中的真实发生故障的有多少被预测正确了，一般是越高越好。

在电池预测性维修中，这两者通常发生矛盾。为了提高对于更优算法选择的合理性，在本具体实施方式中优选采用F1-Measure综合评价指标，它综合了正确率和召回率的加权平均，其值越高越好。公式是

其中P是正确率，R是召回率，当参数α＝1时，就是最常见的F1，也即

根据不同算法得到的结果F或者F1来判断不同的算法在不同的环境下的优越性。例如针对某一组特定的数据和预测目标，通过计算比较后发现此类数据和目标在分类模型中选择提升决策树算法以及在回归模型中选择神经网络回归算法结果最优。

Claims

1.一种电动汽车电池预测性维护方法，所述方法包括：

步骤001数据准备步骤：获取与电动汽车电池使用相关的数据。所述电动汽车电池使用相关数据包括故障维修数据和电池的使用数据。其中，所述故障维修数据包括电池发生故障前的数据记录和电池的维修数据；所述电池的使用数据包括在正常使用时与电池相关的电池自身数据以及汽车状态数据；所述故障维修数据、电池的使用数据均是基于时间序列的流式数据；

步骤002数据整理步骤：对所述电动汽车电池使用相关的数据进行清洗并将清洗后的所述电动汽车电池使用相关的数据基于时间单元进行数据构建。所述对数据进行清洗包括，采用该变量在一段行程的平均值或中间值或相邻插值进行空余变量的赋值。通过设定电动汽车电池使用相关数据的每个变量的阈值检查数据是否合乎要求将超出正常范围的数据予以删除或纠正。通过设定电动汽车电池使用相关数据的相互约束和依赖关系，将逻辑上不合理或者相互矛盾的数据予以删除或纠正。所述数据构建包括，按照时间的顺序将搜集到的其它数据进行整合。

步骤003数据特征化步骤：将通过数据整理步骤得到的数据进行总结和抽取，获取特征化后的数据；对于数据的总结和抽取包括滚动聚合，所述滚动聚合是指设定一个时间窗口，计算在预定的变量在该时间窗口内的聚合值，所述聚合值可以是数据的总和、平均值或者是标准差。所述总结和抽取还包括将特征变量进行扩展，所述扩展包括对初始的特征变量根据滚动聚合的均值增加相应的个数，以及对初始的特征变量根据滚动聚合的标准差增加相应的个数。

步骤004建立模型步骤：基于特征化后的数据建立电池预测性维护自适应模型。对于电池预测性维护的问题，分解成第一个子问题是电池是否将要发生故障和第二个子问题电池还有多久会发生故障。对于第一个子问题是电池是否将要发生故障，本实施方式中采用二元分类模型来建立所述电池预测性维护自适应模型。对于第二个子问题电池还有多久会发生故障，采用回归模型来建立所述电池预测性维护自适应模型。

步骤005训练验证步骤：对自适应模型进行训练和验证以优化该自适应模型。所述训练验证步骤优选包括交叉验证，所述交叉验证包括，首先把原始的数据随机分成K个部分，在这K个部分中选择其中一个部分作为测试数据，剩下的K-1个部分作为训练数据得到相应的实验结果。然后，挑选另外一个部分作为测试数据，剩下的K-1个部分作为训练数据；以此类推，重复进行K次交叉检验，每次实验都从K个部分中选择一个不同的部分作为测试数据，保证K个部分的数据都分别做过测试数据，剩下的K-1个当作训练数据进行实验；最后把得到的K个实验结果平均。基于所述实验结果确定最佳的数据分类。

步骤006算法评估步骤：评估数据在不同算法下的预测结果，基于评估选择最优的算法；所述评估包括正确率评估、召回率评估、或者综合评价指标评估。所述正确率是指预测结果实际真正发生的相符比率，正确率评估取最大的数值所对应的算法。所述召回率是指真实发生的有多少被预测正确了，正确率评估取最大的数值所对应的算法。综合评价指标

2.根据权利要求1所述的一种电动汽车电池预测性维护方法，其特征在于完成数据构建之后，对基于时间单元进行构建的数据进行评估以及修正。所述评估包括筛选数据本身存在错误的那些数据，在评估之后，对于所述错误数据进行校正。所述校正包括，对于缺失值，将缺失值设置为0。对于异常值，将负值设置为0。对于时间周期错误的数值，明确应该取得时间周期，调整并重新运行数据。对于计算规格错误的数值，明确口径调整并重新运行数据。

3.根据权利要求1或2中任一项所述的一种电动汽车电池预测性维护方法，其特征在于，所述二元分类模型包括：把输入的电池数据设为x；把判断电池是否将要发生故障设定为目标为y，y＝1，即为发生故障，y＝0即为发生故障；二元分类的模型即是：y＝f(x)，其中f是具体算法；所述具体算法包括：逻辑回归、提升决策树、决策森林和神经网络。

4.据权利要求1或3中任一项所述的一种电动汽车电池预测性维护方法。其特征在于，在所述回归模型中，以发生故障的时间作为Y，对每个电池数据从时间上距离发生故障的时间进行标签化。把输入的电池数据设为x，回归算法的模型为Y＝f(x)，其中f是具体算法。包括决策森林回归、提升决策树回归、泊松回归和神经网络回归。

5.根据权利要求1或4中任一项所述的一种电动汽车电池预测性维护方法。其特征在于，所述步骤005中还包括少数类采样对所述模型进行训练，当样本中一类数据仅仅有少量的训练样本时，通过将少数的故障样本数据合成新的少数类样本数据来进行模型的训练。对每个少数类样本A，从它的距离最近邻中随机选一个样本B，所述距离是根据时间和变量图中的距离进行计算，然后在A和B之间的连线上随机选择一点作为新合成的少数类样本。通过不断的合成，将少量的样本A，变成具备多数据的样本A+。