CN107728476B

CN107728476B - 一种基于SVM-forest的从非平衡类数据中提取敏感数据的方法

Info

Publication number: CN107728476B
Application number: CN201710849226.2A
Authority: CN
Inventors: 葛志强; 陈革成
Original assignee: Zhejiang University ZJU
Current assignee: Zhejiang University ZJU
Priority date: 2017-09-20
Filing date: 2017-09-20
Publication date: 2020-05-22
Anticipated expiration: 2037-09-20
Also published as: CN107728476A

Abstract

本发明公开一种基于SVM‑forest的从非平衡类数据中提取敏感数据的方法，该方法先从有标签样本取出一部分作为测试样本，剩余作为训练样本，采用k‑means将正常工况类别分割为子类，并与故障工况类别数据混合，形成N个训练子集，并使用SVM‑tree的方法训练出SVM‑forest，并利用测试样本对对SVM‑forest进行测试，选择对故障工况错分率最高的L棵树，保留一部分对分类效果影响较大的数据，然后根据选择分类算法对测试集中的少数类和剩下的多数类训练出一个分类器T，并使用临时测试样本测试T的分类效果，直到效果达到要求。本发明的敏感数据提取方法通过多次迭代选取多数样本集中对分类效果影响较大的样本，以此降低不平衡度，使分类效果接近或者达到同等情况下的均衡分类效果。

Description

一种基于SVM-forest的从非平衡类数据中提取敏感数据的方法

技术领域

本发明属于工业过程控制领域，尤其涉及一种基于SVM-forest的从非平衡类数据中提取敏感数据的方法。

背景技术

在工业故障分类的工作中，一些常用的分类方法都会有一个使用前提，即在训练集中各类数据的数据量相当。但是现实的情况往往不是这样，当某一类数据很多，或者某一类数据很少，即不平衡类数据出现时，直接使用传统的分类方法则会产生很大的分类误差。

发明内容

针对现有技术的不足，本发明提出一种基于SVM-forest的从非平衡类数据中提取敏感数据的方法，该方法主要针对采样层面对传统分类方法进行改进，通过多次迭代选取多数样本集中对分类效果影响较大的样本，以此降低不平衡度，使分类效果接近或者达到同等情况下的均衡分类效果。具体技术方案如下：

一种基于SVM-forest的从非平衡类数据中提取敏感数据的方法，其特征在于，包括以下步骤：

步骤一：收集建模用的有标签样本，对其进行预处理和归一化，所述的有标签样本包括工业过程中正常工况的数据以及各种故障工况的数据，分为C个故障工况类别和1个正常工况类别，按类别取出10％～20％的样本作为临时测试样本集Q，剩余的80％～90％作为训练样本集，即X_l＝[X₁；X₂；...；X_i；...；X_C+1]，其中，X_i表示每个类别的样本集

其中

n_i为训练样本数，m为过程变量数，R为实数集；记录所述的有标签训练样本集X_l＝[X₁；X₂；...；X_C+1]的所有数据的标签信息，标记正常工况标签为1，故障工况标签依次为2,...,C+1，则每个类别的标签信息为Y_i＝[i,i,...i],i＝1,2,...,C+1，完整的标签集为Y_l＝[Y₁；Y₂；...；Y_C+1]；其中，正常工况类别n₁的数据多于故障工况类别的数据，每个故障工况类别的数据量相等，各个工况数据量的差别用不平衡度为u表征，即

步骤二：使用k-means聚类方法，将正常工况类别X₁分为N个子集，X₁＝[X₁₁；X₁₂；...；X_1N]，将这N个子集分别与故障工况类别数据组成N个训练子集，其中，N的取值为考虑不平衡度和计算复杂度的经验值；

步骤三：对步骤二中的N个训练子集分别使用SVM-tree方法，得到包含N棵SVM-tree的SVM-forest；

步骤四：使用临时测试样本集Q对步骤三中的每棵SVM-tree进行测试，计算出每棵SVM-tree对于所有故障工况类别的错分率；

步骤五：对每种故障工况类别的所有的SVM-tree的错分率进行排序，并按照故障类别分别选取前

棵树，

取整，若取出的树有重复，则按照错分率顺延再往后取树，直到得到L棵不同的树，并保留这些树所对应的正常工况类别的训练样本，形成一个新的正常工况类别训练样本集

步骤六：选取一个分类算法对新形成的训练样本集

进行训练，得到一个分类器，并用临时测试集Q对得到的分类器进行测试，得到正确率P；

步骤七：当P达到要求时停止计算，如果P还未达到要求，则重复步骤二至六，直到P达到要求，则此时的训练样本集为所需要的敏感数据集。

进一步地，所述步骤二具体为：

(1)随机选取N个样本值作为初始均值向量

即

令每个向量x_Na＝[q_a1,...,q_am]，其中a＝1,2,...,N；

(2)分别按下式计算每个样本与N个均值向量的欧式距离，第j个样本与第a个均值向量之间的欧氏距离为

其中j＝1,2,...,n₁；将d_ja最小的样本x_j的簇标记记为a；

(3)重新计算每个簇的均值向量，并对这N个均值向量重复步骤(1)和(2)；直到均值向量不再变化，得出N个簇，即N个子类X₁＝[X₁₁；X₁₂；...；X_1N]；再将其分别与故障工况类[X₂；...；X_C+1]构成N个训练子集r_a，r_a＝[X_1a；X₂；...；X_C+1]，其中a＝1,2,...,N。

进一步地，所述步骤三具体为：

(1)对于训练子集r₁＝[X₁₁；X₂；...；X_C+1]，通过计算每个工况类别每个维度的平均值获得每个工况类别的中心点，得到与类别对应的中心点集为O＝[o₁,o₂,...,o_C+1]；

(2)将训练样本集进行拆分：使用k-means聚类方法，将中心点集O分为2个子集O₁,O₂，则，分别属于O₁,O₂包含的中心点所对应的类别的训练样本子集为D₁,D₂；

(3)构建树的根节点：使用SVM在D₁,D₂之间构建超平面，则树的两个分支为D₁,D₂；

(4)分别对D₁,D₂对应的节点重复(2)和(3)的操作，再对D₁,D₂分别得到的分支对应的节点重复(2)和(3)的操作，以此类推，直到每一个叶节点都只包含一个类别停止，完成SVM-tree的构建；

对其他的训练子集r_a，重复(1)～(4)，构建出包含N棵树的SVM-forest。

进一步地，所述步骤四具体为：

将临时测试样本集Q中的每一个测试样本分别带入(4)中构建的每一棵SVM-tree中，得到该测试样本的标签，并计算每棵树对于各个故障工况类别的错分率。

进一步地，所述的步骤五具体为：

(1)将步骤四中得到的各个故障工况类别的错分率按从大到小分别排序；

(2)按照故障工况类别分别选取前

棵树，

取整，若取出的树有重复，则按照错分率顺延再往后取树，直到得到L棵不同的树；

(3)将L棵不同的树对应的正常工况类别的训练样本子集重新构成一个正常工况类别训练样本集

并与故障工况类别训练样本集重新构成一个新的训练样本集

进一步地，所述的步骤六具体为：选取一个分类算法，用

训练出一个分类器，并使用临时测试样本集Q测试该分类器的分类效果，如果达到要求，则停止计算，如果还未达到要求，则重复上述算法，直到P接近或者达到要求。

进一步地，所述的步骤二中N取10～20，步骤五中L取值为

取整。

进一步地，所述的步骤六中的分类算法为SVM-tree。

与现有技术相比，本发明的有益效果如下：

本发明提出的基于SVM-forest的从非平衡类数据中提取敏感数据的方法主要针对采样层面对传统分类方法进行改进，通过多次迭代选取多数样本集中对分类效果影响较大的样本，以此降低不平衡度，使分类效果接近或者达到同等情况下的均衡分类效果。

附图说明

图1为SVM-tree处理均衡类数据的结果示意图；

图2为SVM-tree处理非均衡数据的结果示意图；

图3为经过数据选取之后的SVM-tree处理非均衡数据的结果示意图。

具体实施方式

下面结合具体的实施例对本发明的基于SVM-forest的从非平衡类数据中提取敏感数据的方法作进一步阐述。

其中

步骤二：使用k-means聚类方法，将正常工况类别X₁分为N个子集，N取10～20，X₁＝[X₁₁；X₁₂；...；X_1N]，将这N个子集分别与故障工况类别数据组成N个训练子集，其中，N的取值为考虑不平衡度和计算复杂度的经验值；

(1)随机选取N个样本值作为初始均值向量

即

令每个向量x_Na＝[q_a1,...,q_am]，其中a＝1,2,...,N；

其中j＝1,2,...,n₁；将d_ja最小的样本x_j的簇标记记为a；

棵树，

取整，L取值为

取整；若取出的树有重复，则按照错分率顺延再往后取树，直到得到L棵不同的树，并保留这些树所对应的正常工况类别的训练样本，形成一个新的正常工况类别训练样本集

(2)按照故障工况类别分别选取前

棵树，

并与故障工况类别训练样本集重新构成一个新的训练样本集

步骤六：选取SVM-tree分类算法对新形成的训练样本集

选取一个分类算法，用

以下结合一个具体的工业过程的例子来说明本发明的有效性。该过程的数据来自美国TE(Tennessee Eastman——田纳西-伊斯曼)化工过程实验，原型是Eastman化学公司的一个实际工艺流程。目前,TE过程己经作为典型的化工过程故障检测与诊断对象被广泛研究。整个TE过程包括41个测量变量和12个操作变量(控制变量),其中41个测量变量包括22个连续测量变量和19个成分测量值，它们每3分钟被采样一次。其中包括21批故障数据。这些故障中,16个是己知的,5个是未知的。故障1～7与过程变量的阶跃变化有关,如冷却水的入口温度或者进料成分的变化。故障8～12与一些过程变量的可变性增大有关系。故障13是反应动力学中的缓慢漂移,故障14、15和21是与粘滞阀有关的。故障16～20是未知的。为了对该过程进行监测，一共选取了44个过程变量，如表1所示。本实施例中采用前22个过程变量。

表1：监控变量说明

1.采集正常数据以及2种故障数据作为训练样本数据，进行数据预处理和归一化。本实验中分别选择了正常工况以及故障7、8作为训练样本。采样时间为3min，不平衡类测试样本为正常工况含有标签样本15000个样本，其余故障分类分别选择有标签样本30个，平衡类测试样本为正常工况含有标签样本30个样本，其余故障分类分别选择有标签样本30个；

2.针对均衡类训练集，则直接使用SVM-tree方法训练出分类器，并得到其分类效果，如图1所示；

3.针对非均衡类训练集，先直接使用SVM-tree方法训练出分类器，并得到其分类效果，如图2所示；

4.针对非均衡类训练集，再取出5000个正常工况样本，10个故障7样本，10个故障8样本作为临时测试样本集Q，剩余的训练集以下称为训练集X_l＝[X₁；X₂；...；X_C+1]；

5.使用k-means聚类方法，将X₁分为10个子集，即X₁＝[X₁₁；X₁₂；...；X₁₁₀]，将这10个子类分别与少数类组成10个训练子集；

6.对5中的10个训练子集分别使用SVM-tree方法，则可以得到一个包含10棵SVM-tree的SVM-forest；

7.使用临时测试样本集Q对6中每一棵树进行测试，并计算出每棵树对于故障7,8的错分率；

8.在故障7,8的错分率中分别选取前3棵树，如果相互之间有重复的树则顺延往后取，最后总共取出6棵不同的树。并保留这些树所对应的多数类测试样本，其他的多数类测试样本则除去，此时形成了一个新的多数类测试样本集

9.使用SVM-tree对新形成的测试样本集

进行训练，并用临时测试样本集Q对得到的分类器进行测试，得到正确率P，若P接近均衡类训练集的分类效果，则停止计算，如果P还与其距离较远，则重复上述算法。对于最终的测试集，编号1～100为正常类，101～180为故障7的样本，181～310为故障8的样本，如图3所示。

对比图3和图1,可以看出，本发明的敏感数据提取方法能够最大程度地降低不平衡度对于分类性能的影响，使其分类效果接近于均衡类训练集的分类效果。

Claims

1.一种基于SVM-forest的从非平衡类数据中提取敏感数据的方法，其特征在于，包括以下步骤：

步骤一：收集建模用的有标签样本，对其进行预处理和归一化，所述的有标签样本包括工业过程中正常工况的数据以及各种故障工况的数据，分为C个故障工况类别和1个正常工况类别，按类别取出10％～20％的样本作为临时测试样本集Q，剩余的80％～90％作为训练样本集，即X _l＝[X₁；X₂；...；X_i；...；X_C+1]，其中，X_i表示每个类别的样本集X _i＝[x₁；x₂；...；x_ni],i＝1,2...C+1，其中X _i∈R^m×ni，n_i为训练样本数，m为过程变量数，R为实数集；记录所述的有标签训练样本集X_l＝[X₁；X₂；...；X_C+1]的所有数据的标签信息，标记正常工况标签为1，故障工况标签依次为2,...,C+1，则每个类别的标签信息为

Y _i＝[i,i,...i],i＝1,2,...,C+1，完整的标签集为Y _l＝[Y₁；Y₂；...；Y_C+1]；其中，正常工况类别n₁的数据多于故障工况类别的数据，每个故障工况类别的数据量相等，各个工况数据量的差别用不平衡度为u表征，即

(1)随机选取N个样本值作为初始均值向量

即

令每个向量x_Na＝[q_a1,...,q_am]，其中a＝1,2,...,N；

其中j＝1,2,...,n₁；将d_ja最小的样本x_j的簇标记记为a；

(3)重新计算每个簇的均值向量，并对这N个均值向量重复步骤(1)和(2)；直到均值向量不再变化，得出N个簇，即N个子类X₁＝[X₁₁；X₁₂；...；X_1N]；再将其分别与故障工况类[X₂；...；X_C+1]构成N个训练子集r_a，r_a＝[X_1a；X₂；...；X_C+1]，其中a＝1,2,...,N；