CN108509973B

CN108509973B - 基于Cholesky分解的最小二乘支持向量机学习算法及其应用

Info

Publication number: CN108509973B
Application number: CN201810052864.6A
Authority: CN
Inventors: 赵永平; 习鹏鹏; 李兵; 李智强; 潘颖庭; 宋房全; 黄功; 胡乾坤
Original assignee: Nanjing University of Aeronautics and Astronautics
Current assignee: Nanjing University of Aeronautics and Astronautics
Priority date: 2018-01-19
Filing date: 2018-01-19
Publication date: 2022-04-05
Anticipated expiration: 2038-01-19
Also published as: CN108509973A

Abstract

本发明提供一种基于Cholesky分解的最小二乘支持向量机学习算法及其应用。本发明对正常类样本和故障类样本分别添加不同的正则化参数C⁺和C^‑以保持分类边界位于理想位置，建立分类效果优良的分类器，消除了经典的SVM和LSSVM对所有误差都是同一个惩罚系数运用在类不平衡学习中时不便调整分类边界至理想位置的缺陷。对实时性敏感的航空发动机故障检测实例，有必要对算法进行稀疏化缩短算法的测试时间，本发明采用迭代策略和约简技术相结合的方法实现。再运用Cholesky分解方法解决迭代策略中用Sherman‑Morrison公式直接对矩阵求逆导致结果不稳定的问题并缩短了算法的训练时间。

Description

基于Cholesky分解的最小二乘支持向量机学习算法及其应用

技术领域

本发明针对航空发动机故障检测，用最小二乘支持向量机(Least SquaresSupport Vector Machine)改进算法解决正常类和故障类样本的类不平衡问题并用于航空发动机故障检测。

背景技术

近年来不平衡数据的分类越来越受到学术界、工业界和其他领域的关注。正常状态下的样本容易得到而且数据量庞大，然而故障样本不像正常样本那么多，获取它的成本却很高。为了解决类不平衡学习问题，许多不同的技术被提出，比如欠/过采样，敏感函数学习方法。随机欠采样(under-sampling)的方法是通过减少分类中多数类样本的数量实现两类样本数平衡，目的是通过随机消除多数类的样本来平衡类分布，直到多数类和少数类样本实现平衡。对于代价敏感函数学习方法，不同误分类代价是不一样的。

支持向量机(Support Vector Machine，简称SVM)广泛应用于实际问题，具有扎实的数学背景，泛化能力强，在各领域中解决分类问题时性能良好。然而SVM应用于不平衡数据集时表现不良。SVM的分类边界偏向于多数类，对少数类预测的性能较差。大多数经典的算法都假设类分布平衡或者误分类代价相等。因此，遇到不平衡数据集时，这些算法不能正确地代表数据的分布特征。那么对数据各类预测的精度就不高，算法价值不大。为了解决类不平衡学习问题，许多改进的提高分类性能的技术被提出，它们普遍称为类不平衡学习(Class Imbalance Learning，简称CIL)方法。许多应用都面临CIL 问题，如脸部识别，故障诊断，奇异点检测，邮件分类等。近年来CIL课题受到越来越多学者的关注。

数据样本中正类和负类样本数不平衡，即存在多数类和少数类时，CIL问题就出现了。One-class classification(OCC)的思想被提出并用来解决CIL。在OCC中，负类样本被视为异常值。One-class support vector machine(OCSVM)为OCC算法的典型代表。 OCSVM算法广泛应用于故障检测，文件分类，奇异点检测等等。

然而经典的SVM仅有一个正则化参数，在处理类不平衡数据时，没有高效的策略来调整边界到理想位置。分类边界会倾斜到多数类，少数类的性能指标会下降。为了消除这个问题，给正类和负类的松弛变量加以不同正则化参数的方法被提出，这个方法是分别用C⁺和C^-衡量正类和负类误分类的代价，使类不平衡对分类器造成的影响降低。另外一种用于CIL的方法是z-SVM，在生成SVM模型后，通过改变偏差b，决策边界朝少数类移动，提升了分类性能。但是如何选择最佳的z却是一个困扰的问题，需要更深入的研究。

用等式约束代替不等式约束，随之提出最小二乘支持向量机。和经典的SVM相比，LSSVM的缺点是非稀疏化的，这个缺点限制了算法的预测速度。有许多快速稀疏化的方法用来解决LSSVM的稀疏性问题，然而这些技术经常会忽略非支持向量产生的约束。一般来说，完全忽略这部分约束是不合理的。约简技术就是用来解决这个困境的，在优化时它考虑了所有的约束。约简技术的方法是随机选择1-10％的训练样本作为支持向量集。然而这种随机选取支持向量的方法会降低分类器的泛化能力。

发明内容

发明目的：为克服在处理类标准SVM、LSSVM分类效果不佳的问题，本发明对正常类样本和故障类样本分别添加不同的正则化参数C⁺和C^-以保持分类边界位于理想位置，建立分类效果优良的分类器，消除了经典的SVM和LSSVM对所有误差都是同一个惩罚系数而不便调整分类边界的缺陷。用迭代策略和约简策略相结合的方法实现算法的稀疏化，Cholesky分解方法解决迭代策略中矩阵求逆导致结果不稳定的问题及缩短训练时间。

技术方案：

一种基于Cholesky分解的最小二乘支持向量机学习算法，分别对正类样本和负类样本的松弛变量加以不同的正则化参数，包括如下步骤：

步骤1：建立最小二乘支持向量机的数学模型：

其中x是样本，Y＝[y₁,...,y_i,...,y_N+,y₁,...,y_j,...,y_N-]^T是样本的标签，N表示样本的规模， N⁺表示正类样本的规模，N^-为负类样本的规模，N＝N⁺+N^-，ξ＝[ξ₁,...,ξ_i,...,ξ_N+,ξ₁,...,ξ_j,...,...,ξ_N-]^T代表样本松弛变量，C⁺和C^-是正则化参数，

是一个非线性变换，用来把输入空间中的非线性拟合问题转化为高维特征空间中的线性拟合问题。

构造Lagrange函数：

其中，α＝[α₁,...,α_i,...,α_N+,α₁,...,α_j,...,α_N-]^T为Lagrange乘子，由Karush-Kuhn-Tucker 条件可以得到下式：

消去式(3)中的ξ_i、ξ_j和w，得到如下的线性方程组

其中

1＝[1,...,1]^T，I为适宜维度的单位矩阵，k(·,·)为核函数，α为Lagrange乘子，b为偏差。

步骤2：利用约简技术约简最小二乘支持向量机：

令

S表示支持向量的索引集，并代入式(2)，得到：

令

和

可得：

其中

算子⊙表示Hadamard积。

步骤3：将式(6)中矩阵

进行Cholesky分解，采用迭代策略求解式(6)得到模型参数(α，b)。

若矩阵

是奇异的，对其正则化Z+μI使矩阵非奇异，μ＝10^-6。

假设给定下三角矩阵

满足下列Cholesky分解：

式(7)为第n步更新，当样本x_q选为支持向量时，第n+1步更新为：

其中

第n步迭代时，由式(6)可计算得到

第n+1步迭代时，上式更新为

步骤4：根据

得到如下决策函数：

优选的，采用迭代策略从样本索引集Q中选出支持向量索引q，训练样本中与索引对应的样本作为支持向量x_q。

在第n步时，式(5)简化成为下式：

固定

和bⁿ不变，式(14)转化成：

其中

和

式(15)的最优值是：

通过下式从样本索引集Q中选出支持向量索引q到支持向量索引集S中：

迭代初始时刻Q＝{1,2,...,N}，

q被选为支持向量索引后，S＝S∪{q}，Q＝Q\{q}。

迭代停机标准为n＞M或者

M为支持向量个数，ε为数量级为10^-4的正数。

优选的，所述C⁺和C^-通过十折交叉验证的方法选取，对应的备选集分别为 {10³,2·10³,...,10⁴}、{10⁵,10⁶,...,10¹⁰}。

上述算法在航空发动机故障检测中的应用，包括如下步骤：

步骤1：采集全飞行包线内，航空发动机各部件正常状态下的样本，记为正类样本，故障状态下的参数样本，记为负类样本；

步骤2：将样本归一化后，将样本与其对应的样本标签作为训练样本训练最小二乘支持向量机；

步骤3：用最小二乘支持向量机对航空发动机各部件进行故障检测。

有益效果：类不平衡学习问题中，对正常类和故障类样本引入两个不同的正则化参数改善经典LSSVM的分类性能；迭代策略和约简技术相结合使算法稀疏化满足航空发动机故障检测对实时性的要求；再采用Cholesky分解保证了发明算法的稳定性，减少了算法的训练时间，并使性能指标G-mean优秀，提升了算法分类效果。

附图说明

图1为CFRRLSSVM-CIL算法流程图。

图2为航空发动机主要部件。

图3.1-3.4为不同情况下四个算法性能比较图。

具体实施方式

航空发动机故障检测中，把正常误诊为故障的代价和故障误诊为正常的代价是不同的，因而本发明对正常样本的误差和故障样本的误差给以不同的正则化参数C⁺和C^-实现分类边界的优化。得到的数学模型为

其中Y＝[y₁,...,y_i,...,y_N+,y₁,...,y_j,...,y_N-]^T是样本的标签，ξ＝[ξ₁,...,ξ_i,...,ξ_N+,ξ₁,...,ξ_j,...,...,ξ_N-]^T代表松弛变量，其中的N＝N⁺+N^-，C⁺和C^-是正则化参数，

是一个非线性变换，用来把输入空间中的非线性拟合问题转化为高维特征空间中的线性拟合问题。为解决这个优化问题，构造一个Lagrange函数：

其中α＝[α₁,...,α_i,...,α_N+,α₁,...,α_j,...,α_N-]^T为Lagrange乘子。由Karush-Kuhn-Tucker (KKT)条件可以得到下式：

消去式(3)中的ξ_i、ξ_j和w，可以得到如下的线性方程组

其中

1＝[1,...,1]^T，I为适宜维度的单位矩阵，k(·,·)为核函数，求解式(4)可以得到如下决策函数来预测新样本：

由式(3)中α_i＝C⁺ξ_i、α_j＝C^-ξ_j可知，只要训练误差ξ_i、ξ_j不为零，α_i、α_j就不为零。一般情况下训练误差几乎不可能为零，那么α_i、α_j就不会为0，这就意味着所有的训练样本几乎都是支持向量。在处理数据量小的训练样本时算法无不良影响。当训练样本数足够大时，决策函数的运算时间会大大增加，式(5)的实时性能会下降。在对实时性要求高的应用中，就有必要提高LSSVM的实时性，也即对该算法进行稀疏化。

本发明实现算法稀疏性的方法是迭代策略和约简的技术相结合，得到迭代约简最小二乘支持向量机(Recursive Reduced Least Squares Support Vector Machine，简称RRLSSVM)。由式(3)中

N＝N⁺+N^-。可知w与整个训练样本集都相关，这就导致经典LSSVM的解缺乏稀疏性。为解决这个问题，采用约简策略，强制令

其中

S为选择子集索引的集合，并代入式(2)中可以得到：

令

和

可得：

其中K_ij＝k(x_i,x_j)(i,j∈S)，

若矩阵

是奇异的，可以对其进行正则化处理 Z+10^-6I。通过求解式(6)，可以由如下决策函数预测新样本：

由式(8)知，子集{(x_i,y_i)}_i∈S未知。如果随机选取子集{(x_i,y_i)}_i∈S，这会导致LSSVM 的稀疏性不够或者泛化能力不够。因而子集的选择非常重要，选择到子集中的样本应该能充分代表整个样本训练集的特征，即在构成约简LSSVM的模型中起到关键性的作用。下一步就采用迭代策略选择对目标函数贡献大的样本作为支持向量，最终得到子集{(x_i,y_i)}_i∈S。

式(6)改写成：

将式(9)展开如下：

如果在第(n+1)步x_q被作为支持向量，则

其中

和

在第n步时，

已知，由Sherman-Morrison公式可以得到下式：

其中

根据式(12)，在第(n+1) 步，αⁿ⁺¹和bⁿ⁺¹可以由下式得到：

在第n步时，

和bⁿ已计算出来，如下式：

那么将式(14)代入式(13)可以得到：

由式(12)和式(15)就可有效地更新U、b和α。

下面将介绍迭代策略来选择约简的子集。在第n步时，子集大小为S，且

和bⁿ已经计算出来，式(9)简化成为下式：

固定

和bⁿ不变，式(16)转化成：

其中

式(17)的最优值是：

这样可以通过下式从集合Q中选出索引q到子集S中，公式如下：

然后考虑停机标准，当集合S中元素个数达到预先定义的一个正整数M或者

时ε为数量级为10^-4的正数，停止从集合Q中选择q。如果ε增加，集合S 的元素个数减少，反之元素个数增加。至此，结合迭代策略和约简技术，就可以提出用于类不平衡学习的RRLSSVM-CIL。

下面给出RRLSSVM-CIL算法的实现过程：

算法1：RRLSSVM-CIL

下面是算法RRLSSVM-CIL的收敛性证明。

定理1：式(6)中的目标函数L_S随着M的增加或者ε的减小而单调下降。

证明：在第n步迭代时(此时样本x_q没有被选中)，式(6)的目标函数为：

在样本x_q被选中后，此时的目标函数变为：

比较式(21)和(22)可知，α_q＝0不在式(22)的约束中，则式(21)是式(22)的一个特例，继而得到

证毕。

为补足迭代策略中矩阵求逆方法导致结果不稳定和时间复杂度太大的缺点，采用Cholesky分解的方法迭代更新。

定理2：假设给定下三角矩阵

满足下列cholesky分解：

式(23)为第n步更新，当样本x_q选为支持向量时，第n+1步更新为：

其中

证明：

是矩阵

的Cholesky分解的逆，那么：

由Sherman-Morrison公式知：

其中A、B、D是适宜维度的矩阵，而且A、B可逆，那么：

证毕。

第n步迭代时，由式(10)可计算得到

第n+1步迭代时，上式更新为

将式(24)代入式(31)中得到：

那么S＝S∪{q}且Q＝Q\{q}。当算法不满足停机准则时，继续执行选择新的索引。

下面是CFRRLSSVM-CIL算法的实现过程：

算法2：CFRRLSSVM-CIL

由式(24)可知，当选择一个新的支持向量时，更新分解矩阵的逆的计算代价是O(nN+n²)，如果

是从零开始计算，要包含Cholesky分解矩阵

和求解它的逆，那么计算复杂度是O(nN+n³)。因此缓解了计算压力，比RRLSSVM-CIL算法更优。

选择Radial-Basis Function(RBF)核函数

用于这些算法训练。然后LSSVM和LSOCSVM算法分别从备选集{10¹,10²,...,10¹⁰}和{2^-3,2^-2,...,2⁰,...2³} 中选择最优的正则化参数C和σ。对于RRLSSVM-CIL和CFRRLSSVM-CIL算法，需要同时优化正则化参数C⁺、C^-和σ，其对应的备选集分别为{10³,2·10³,...,10⁴}、{10⁵,10⁶,...,10¹⁰}、 {2^-3,2^-2,...,2⁰,...2³}。所有算法中选择最优参数的方法是十折交叉验证。十折交叉验证用来测试算法的准确性，是常用的测试方法。具体做法是，将数据集等分成十份，轮流将其中的9份作为训练集，1份作为测试集进行试验。试验选

(TP代表预测为正且标签为正的样本数，TN代表预测为负且标签为负的样本数，FP代表预测为正但标签为负的样本数，FN代表预测为负但标签为正的样本数)作为评价算法好坏的性能指标，每次试验都会得出相应的G-mean。10次结果的G-mean平均值作为对算法性能的估计，对每一组C⁺、C^-和σ都有一个估计的G-mean值，最大的G-mean值对应的那一组参数即为实验选取到的最优参数。

所有实验都在配置为Intel^R Core^TM、i5-7400 CPU、3.00GHz主频、8G内存、Windows10系统和MATLAB2016a版本的台式电脑上执行。

本发明用双转子涡轮喷气发动机做测试，如图2所示，该发动机主要部件包括进气道，低压压气机(Low Pressure Compressor，简称LPC)，高压压气机(High PressureCompressor，简称HPC)，燃烧室，高压涡轮(High Pressure Turbine，简称HPT)，低压涡轮(Low Pressure Turbine LPT)和尾喷管。2表示进气道出口，22表示低压压气机出口，3表示高压压气机出口，42表示高压涡轮出口，46表示低压涡轮出口。气流经进气道流入压气机，通过低压压气机和高压压气机后气体为高压气。在燃烧室内，燃油喷入并和高压气体混合燃烧形成混合气，混合气流经高压涡轮和低压涡轮时，通过高压轴和低压轴分别相连的高压压气机和低压压气机被驱动。最终热气以高速排入大气中。

与航空发动机转子相连的LPC，HPC，HPT和LPT在高转速下易发生故障，因此仅考虑这四个部件出现的故障。实验前收集全飞行包线的仿真数据，其中包含2324个正常状态样本，2321个LPC故障样本，2325个HPC故障样本，2333个HPT故障样本和2349个LPT故障样本。把正常状态归为正类，其余故障归为负类，即为二分类问题。每个样本有14维，分别是飞行高度、飞行马赫数、高压转子转速、低压转子转速、T22、 P22、T3、P3、T42、P42、T46、P46、压比(T46/T2)和燃油流量，其中T22表示低压压气机出口温度，P22表示低压压气机出口压力，其余参数是依照相同的规则命名。实验前对样本归一化处理。实际上航空发动机故障类数据难以获得，故障样本是少于正常样本的，因此航空发动机的故障检测是一个类不平衡问题。为进行多次试验，调整类不平衡的比例(正类/负类)分别为5、10、15和20，共4种情况。把每一类的数据集随机划分为训练集和测试集。对于航空发动机实例，把故障判为正常的代价是非常巨大的，这是在航空发动机故障检测中不希望看到的结果。综合考虑正常和故障的查准率或查全率是合理的，那么用G-mean作为评价指标就能同时关注到预测为正常和故障的情况，并能评价分类器的性能。

由图3.1-3.4可知，从G-mean稳定值看，LSSVM值比LSOCSVM大，LSSVM算法比LSOCSVM好。而且CFRRLSSVM-CIL算法的值远高于LSSVM、LSOCSVM、 RRLSSVM-CIL三种，这表明CFRRLSSVM-CIL算法几乎完全正确预测出正常样本和故障样本，Cholesky分解方法使预测效果显著提高。RRLSSVM-CIL和CFRRLSSVM-CIL 算法的G-mean值比LSSVM大，意味着引入两个不同的正则化参数分别作用于正常类松弛变量和故障类松弛变量这种思路把分类边界调整得更优，是可行且有效的。与 LSSVM、LSOCSVM、RRLSSVM-CIL算法相比，CFRRLSSVM-CIL需要更少的支持向量但同时保持了优秀的性能，CFRRLSSVM-CIL和RRLSSCMCIL算法实现了稀疏化，这会减少预测时间，达到提高航空发动机故障检测的实时性目的。与RRLSSVM-CIL算法相比，CFRRLSSVM-CIL在支持向量逐渐增加时，G-mean值是稳定上升的，而RRLSSVM-CIL随着支持向量个数变化G-mean值上下波动，CFRRLSSVM-CIL弥补了算法迭代策略中求矩阵的逆使结果不稳定的缺陷。通过以上分析，航空发动机故障检测算法优劣排序为CFRRLSSVM-CIL>RRLSSVM-CIL>LSSVM>LSOCSVM。

一般情况下支持向量个数越多，算法的性能越佳。但是随着支持向量个数增多，测试时间严重增加，这使算法缺乏实时性。为克服这个缺点，本发明提出的约简技术和迭代策略相结合的方法来减少支持向量个数被证实是高效的。由表1可知，从测试时间看，四种情况的结果均表明RRLSSVM-CIL和CFRRLSSVM-CIL算法的测试时间远低于 LSSVM、LSOCSVM算法。这表明约简技术和迭代策略相结合的方法的确减少了支持向量的个数。对实时性要求严格的航空发动机故障检测，RRLSSVM-CIL和 CFRRLSSVM-CIL算法是适用的。从训练时间看，LSSVM和LSOCSVM算法的训练时间远小于RRLSSVM-CIL和CFRRLSSVM-CIL算法，因为LSSVM和LSOCSVM只需求解一个线性方程组，而提出的算法RRLSSVM-CIL和CFRRLSSVM-CIL要多次迭代求解线性方程组。比较RRLSSVM-CIL和CFRRLSSVM-CIL算法，后者所需时间比前者少，表明Cholesky分解方法求解矩阵的逆降低了时间计算复杂度。从G-mean值看，达到最大值时，CFRRLSSVM比RRLSSVM-CIL所需的支持向量个数少，而LSSVM和 LSOCSVM算法往往达不到该值。但是LSOCSVM比LSSVM好。综合以上分析可知， CFRRLSSVM-CIL和RRLSSVM-CIL算法都能很好地用于航空发动机故障检测，而且 CFRRLSSVM-CIL算法更优。

表1航空发动机数据实验结果

注：表中case1、case2、case3和case4分别对应类不平衡比为5、10、15、20这四种情况，#SV表示支持向量个数。

以上所述仅是本发明的优选实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也应视为本发明的保护范围。