CN115758160A

CN115758160A - 一种基于超球特征方程的虚拟样本生成方法

Info

Publication number: CN115758160A
Application number: CN202211530879.1A
Authority: CN
Inventors: 邸若海; 朱鸿杰; 吕志刚; 王鹏; 李晓艳; 陈志文; 董绵绵; 许韫韬
Original assignee: Xian Technological University
Current assignee: Xian Technological University
Priority date: 2022-12-01
Filing date: 2022-12-01
Publication date: 2023-03-07

Abstract

本发明属于寿命预测和机器学习建模领域，涉及一种基于超球特征方程的虚拟样本生成方法要解决现有技术存在的无法解决小样本条件下锂电池剩余容量预测模型误差较大的问题。该方法的步骤包括：首先基于原始小样本集建立BP神经网络预测模型；其次利用K‑means聚类算法对原始小样本集进行分组并建立超球体；再次基于超球特征方程，在超球体边缘或内部随机产生虚拟样本；最后，结合虚拟样本和原始小样本集再训练BP神经网络预测模型。本发明尤其适用于解决小样本条件下BP神经网络锂电池剩余容量预测误差大的问题，在NASA公开数据集上进行实验验证，相比于虚拟样本生成之前，本发明可以有效降低锂电池剩余容量预测误差。

Description

一种基于超球特征方程的虚拟样本生成方法

技术领域

本发明属于寿命预测和机器学习建模领域，涉及一种基于超球特征方程的虚拟样本生成方法。

背景技术

由于锂电池能量高、绿色环保等特点被广泛应用到各领域，但是锂电池使用过程中性能下降会导致电力设备发生故障，因此锂电池剩余容量预测具有重要意义。其中，在许多实际场景中，例如实际工况下，采集锂电池的失效数据开销很大，锂电池的小样本特征会导致机器学习模型过拟合，造成预测模型的误差较大。目前解决该问题的主流方法有融合专家知识的方法和虚拟样本生成技术，其中应用较为广泛的虚拟样本生成技术有插值法、多分布整体趋势扩散技术(MD-MTD)等。插值法无法用于非线性程度较高的数据；MD-MTD是对每个维度的数据进行扩充后，随机组合产生虚拟样本，生成的虚拟样本有可能不符合实际，导致剩余容量预测模型误差较大情况。

发明内容

本发明提供了一种基于超球特征方程的虚拟样本生成方法，以克服现有技术存在的无法解决小样本条件下锂电池剩余容量预测模型误差较大的问题。

为了达到本发明的目的，本发明提供了一种基于超球特征方程的虚拟样本生成方法，包括以下步骤：

步骤1、基于小样本集建立BP神经网络模型并训练，

步骤2、利用K-means聚类算法对小样本集分组，计算超球体球心和半径，建立超球体，

步骤3、利用超球特征方程产生虚拟输入样本，利用BP神经网络模型求取与之对应的虚拟输出样本，得到虚拟样本集，

步骤4、结合虚拟样本集和原始小样本集，再训练BP神经网络，调整其权值和阈值，建立锂电池剩余容量预测模型。

进一步的，上述步骤1中，BP神经网络的损失函数采用均方差函数，表达式如下：

式中O_k表示预测输出，Y_k表示期望输出。

隐含层的激活函数采用Sigmoid函数，表达式如下：

输出层的激活函数采用purelin函数，即y＝x。

进一步的，上述步骤2中，利用K-means聚类算法对原始小样本分组，其中初始簇中心K设置为5，SSE函数表示如下：

式中，C表示聚类中心。

进一步的，上述步骤3中，超球特征方程表示如下：

式中，θ₁,θ₂,...θ_p-1∈[0,2π]表示超球体的角度，

表示一个样本，

表示样本X_i在不同维度上的特征值。

进一步的，上述步骤4中，虚拟样本集和原始小样本集的输入特征是锂电池充放电循环过程中的健康因子，输出特征是锂电池的剩余容量。

与现有技术相比，本发明的优点是：

1、样本集的特征数代表了其维度，特征较多的小样本集维度较高，在高维空间中呈现出较高的非线性，难以用线性的方法分析和解决问题，因此在步骤2中采用K-means聚类算法对小样本集分组，将小样本集划分为多个子集，将高维空间划分为多个子空间可以降低数据的非线性程度，便于采用线性的方法解决问题。本发明在高维空间中对原始小样本集分组，降低了原始样本集的非线性程度，提高了局部线性程度，以便用线性的方法分析和解决问题。

2、本发明将聚类结果中的类中心作为超球体的球心，每个类中的样本到类中心最大的距离作为超球体半径建立超球体，利用超球特征方程在每个超球体内部或者边缘产生虚拟输入样本。对原始样本集的所有特征同时进行扩充，避免了对每一维特征扩充再进行特征组合的问题，提高了虚拟样本的有效性。

3、本发明适用于小样本条件下BP神经网络的锂电池剩余容量预测，锂电池内部工作机理十分复杂，各维度特征之间存在关联信息，相互影响，本发明对所有维度上的特征同时扩充，充分利用了特征之间的信息，使虚拟样本更符合锂电池内部的工作机理。

附图说明

图1为本发明的总体流程框图；

图2为本方法应用于锂电池剩余容量预测的预测结果图。

具体实施方式

下面将结合附图和实施例对本发明进行详细说明。

如图1所示，本发明首先基于小样本集建立BP神经网络模型并训练，其次，利用K-means聚类算法对小样本集分组，计算超球体球心和半径，建立超球体，再次，利用超球特征方程产生虚拟输入样本，利用BP神经网络模型求取与之对应的虚拟输出样本，得到虚拟样本集，最后，结合虚拟样本集和原始小样本集，再训练BP神经网络，调整其权值和阈值，建立锂电池剩余容量预测模型。

本发明的具体实施步骤如下：

步骤1、利用原始小样本建立BP神经网络预测模型并训练BP神经网络H₁(·)

首先建立BP神经网络预测模型，其中BP神经网络的损失函数采用均方差函数，表达式如下：

式中O_k表示预测输出，Y_k表示期望输出。

隐含层的激活函数采用Sigmoid函数，表达式如下：

输出层的激活函数采用purelin函数，即y＝x。

然后训练BP神经网络H₁(·)，采用梯度下降的训练方法，具体步骤如下：

1)进行数据预处理，将原始数据归一化到[-1,1]，初始化BP神经网络的结构参数，包括输入层节点数n，隐含层节点数l，输出层节点数m，输入层节点和隐含层节点的连接权值ω_ij，隐含层节点和输出层节点的连接权值ω_jk，隐含层节点的阈值a_j，输出层节点的阈值b_k。

2)按式(3)计算隐含层输出。

3)按式(4)计算输出层输出。

4)按式(5)计算预测误差e_k。

e_k＝Y_k-O_k (5)

5)按式(6)和式(7)更新权值。

ω_jk＝ω_jk+ηH_je_k (7)

6)按式(8)和式(9)更新阈值。

b_k＝b_k+ηe_k (9)

7)算法达到最大迭代次数或者满足精度要求时结束，否则跳转步骤2)。

步骤2、利用K-means聚类算法对原始小样本分组，具体步骤如下：

1)随机选择K个初始簇中心；

2)分别计算每个样本点到K个簇中心的欧式距离，找到离该样本点最近的簇中心，将其归属为对应的簇，两个数据点之间的欧式距离表示如下：

3)所有样本点都归属到簇之后，重新计算每个簇的重心，将其设定为新的簇中心；

4)反复迭代步骤2)和步骤3)，直到达到设定的迭代次数或最小化SSE函数，SSE函数表示如下：

式中，C表示聚类中心，要实现同一簇中的数据差异小，即最小化SSE函数。

步骤3、建立超球体并利用超球特征方程产生虚拟输入样本，利用BP神经网络模型求取与之对应的虚拟输出样本，得到虚拟样本集，：

首先将聚类中心作为超球中心，每个簇中样本到聚类中心最大的欧式距离作为超球半径，按式(10)建立超球体：

S＝{X_i∈R:||X_i-X₀||≤r} (12)

式中，X₀表示超球中心，r表示超球半径，X_i表示超球体内部或边缘的样本点。

建立超球体后，利用超球特征方程产生虚拟输入样本集X_vir，超球特征方程表示如下：

式中，θ₁,θ₂,…θ_p-1∈[0,2π]表示超球体的角度，

表示一个样本，

表示样本X_i在不同维度上的特征值。

然后利用步骤1中的模型H₁(·)求取虚拟输出样本Y_vir

Y_vir＝H₁(X_vir) (14)

利用公式(14)得到虚拟输出样本，与虚拟输入样本一一对应得到虚拟样本集。

步骤4、结合虚拟样本集和原始小样本集，按照步骤1重新训练BP神经网络预测模型，调整其权值和阈值，建立最终的锂电池剩余容量预测模型H₂(·)。该步骤中，虚拟样本集和原始小样本集的输入特征是锂电池充放电循环过程中的健康因子，输出特征是锂电池的剩余容量。

利用BP神经网络预测模型H₂(·)预测锂电池的剩余容量，如图2所示，可直观看出本发明的效果，表1列出了模型的三种评价指标，分别是平均绝对误差(MAE)、均方误差(MSE)、均方根误差(RMSE)，从表中可以看出，本发明降低了小样本条件下BP神经网络锂电池剩余容量预测误差。

表1模型的评价指标

以上应用了具体个例对本发明进行阐述，只是用于帮助理解本发明，并不用以限制本发明。任何熟悉该技术的人在本发明所揭露的技术范围内的局部修改或替换，都应涵盖在本发明的包含范围之内。