CN105184316B

CN105184316B - 一种基于特征权学习的支持向量机电网业务分类方法

Info

Publication number: CN105184316B
Application number: CN201510543111.1A
Authority: CN
Inventors: 郝胜男; 胡静; 宋铁成; 郭经红; 梁云; 王瑶; 王文革; 缪巍巍; 金逸; 申京
Original assignee: State Grid Corp of China SGCC; Southeast University; State Grid Jiangsu Electric Power Co Ltd; State Grid Henan Electric Power Co Ltd; Smart Grid Research Institute of SGCC
Current assignee: State Grid Corp of China SGCC; Southeast University; State Grid Jiangsu Electric Power Co Ltd; State Grid Henan Electric Power Co Ltd; Smart Grid Research Institute of SGCC
Priority date: 2015-08-28
Filing date: 2015-08-28
Publication date: 2019-05-14
Anticipated expiration: 2035-08-28
Also published as: CN105184316A

Abstract

本发明涉及一种基于特征权学习的支持向量机电网业务分类方法，利用特征权学习方法结合支持向量机多分类特点，对业务分类问题进行处理，包括：将采集数据划分为训练集与测试集，采用1‑a‑1SVM分类方法将多分类问题分解为一系列SVM二分类问题，对每个SVM二分类器分别进行参数寻优与特征子集选取，并引入特征学习思想，对不同特征赋予不同的权值，以表征其重要性程度。根据选取的最优特征子集与最优参数训练模型，得到的模型即为分类模型，然后对测试集样本进行分类；本发明提供的方法，通过根据各自特点分别选取每个SVM二分类器中最优参数与特征子集重新训练SVM分类模型，充分考虑了不同子分类器之间的差异性，具有更好的分类精度。

Description

一种基于特征权学习的支持向量机电网业务分类方法

技术领域

本发明涉及数据处理与分类领域，具体涉及一种基于特征权学习的支持向量机电网业务分类方法。

背景技术

随着智能电网和“三集五大”建设的深入进行，电网中承载的业务种类日益增多，趋于复杂多变，为更好地对业务进行管控，优化网络资源配置，为不同的业务定制个性化需求，必须对业务进行分类处理。

支持向量机(Support Vector Machine,SVM)方法在小样本、非线性及高维分类问题上具有优势，支持向量机分类的关键是寻求最优分类超平面。一般将数据分为训练集与测试集，通过训练集确定最优分类边界，得到分类模型，再将测试集输入分类模型中，即可得到分类结果，但是支持向量机分类本质上是解决二分类问题的方法，而电网业务分类是多分类问题，如何将SVM二分类问题有效扩展以解决多分类问题是目前研究的重点之一。Debnathl等人提出的1-a-1SVM为解决上述问题提供了一个简单可行的措施：首先，训练阶段，对每两类训练一个二分类器，将训练模型保存；测试阶段，每一个待分类样本进行分类时，在每个子分类器中都需对其类别进行判别，并对相应类别投票，得票最多的即为待分类样本的类别。

SVM中参数优化与特征子集的选择在SVM分类系统中至关重要，对于SVM二分类的参数优化及特征选择已提出了很多可行的措施，如：网格法、遗传算法、粒子算法；F-score、卡方方法等。在传统多分类SVM中，在整体上寻求最优参数与最优特征子集，即：在个SVM二分类器中寻求整体最优参数与最优特征子集，训练模型中，所有的SVM二分类器均采用相同的最优参数与最优特征子集。但是，每个二分类器中样本的分布不尽相同，每个分类器均有各自的特点，每个子分类器采用相同的参数与特征子集会导致分类边界划分不准确，因此有必要对其加以改进。

发明内容

针对现有技术的不足，本发明提供一种基于特征权学习的支持向量机电网业务分类方法，通过根据各自特点分别选取每个SVM二分类器中最优参数与特征子集并利用选取出的最优特征子集与最优参数训练SVM分类模型，充分考虑了不同子分类器之间的差异性，具有更好的分类精度。

本发明的目的是采用下述技术方案实现的：

一种基于特征权学习的支持向量机电网业务分类方法，其改进之处在于，所述方法包括：

(1)采集电网数据并对电网数据进行预处理，将预处理后的电网数据分为训练集和测试集；

(2)将所述训练集中每两类的样本进行组合为一个训练子集并训练为一个SVM二分类器，第m个SVM二分类器的训练子集为[X_m,Y_m]，共个SVM二分类器，根据每个SVM二分类器的特征子集构建维特征选择矩阵ξ，根据每个SVM二分类器的特征权重构建维特征权重矩阵A，根据每个SVM二分类器的参数向量构建维参数矩阵γ，X_m＝[x₁,x₂,…,x_i,…,x_l]^T为所述第m个SVM二分类器的训练子集的样本，样本为样本x_i的第k维特征，d为电网业务类别对应特征数，Y_m＝[y₁,y₂,…,y_l]^T为所述第m个SVM二分类器的训练子集中样本对应的类别，l为所述第m个SVM二分类器的训练子集中电网业务流个数，c为电网业务类别的总数目；

(3)采用特征选择算法对所述训练子集[X_m,Y_m]进行处理，获取所述训练子集[X_m,Y_m]对应的最优特征选择向量ξ_m，并根据所述最优特征选择向量更新特征选择矩阵及训练子集的样本X′_m＝X_m(:,ξ_m)；

(4)采用特征权重学习算法对所述最优特征选择向量ξ_m进行处理，获取所述最优特征选择向量ξ_m对应的权重向量A_m，并根据所述最优特征选择向量ξ_m对应的权重向量A_m更新所述特征权重矩阵A；

(5)根据更新后的特征权重矩阵A重构所述训练子集[X_m,Y_m]对应的特征；

(6)采用网格交叉验证的方法获取训练子集[X_m,Y_m]的惩罚因子C_m和核函数参数 σ_m，其中，γ_m＝[C_m,σ_m]为第m个训练子集对应的优化参数向量，更新所述参数矩阵

(7)判断是否每个SVM二分类器的训练子集的特征子集、特征权重和参数向量均更新为其对应的最优选择向量、权重向量和优化参数向量，若是则执行步骤(8)，若否则返回步骤(3)；

(8)基于更新后的特征选择矩阵ξ、特征权重矩阵A和参数矩阵γ训练1-v-1SVM多分类模型，并根据所述1-v-1SVM多分类模型对所述测试集进行分类，依据投票结果确定测试集中样本的类别。

优选的，所述步骤(1)包括：

(1-1)剔除电网数据中错误数据或维度不完整数据；

(1-2)删除电网数据中类的样本数小于30的类；

(1-3)电网数据中类的样本数大于500的类，从该类中选择250个加入训练集；

(1-4)电网数据中类的样本数大于30且小于500的类，从该类中选择一半加入训练集，另一半加入测试集。

优选的，所述步骤(3)包括：

(3-1)采用向后递归消除特征选择算法RFE获取所述训练子集[X_m,Y_m]的最优特征选择向量ξ_m；

(3-2)更新特征选择矩阵及训练子集的样本X′_m＝X_m(:,ξ_m)。

优选的，所述步骤(4)包括：

(4-1)定义所述最优特征选择向量ξ_m对应的权重向量A_m的特征权重学习模型A_m＝G_m＝argmaxP(K)_m，设置步长step和迭代终止条件norm(ΔG_m)＜ε，其中，迭代终止条件norm(ΔG_m)＜ε为相邻两次迭代获取的最优特征选择向量对应的权重向量G_m之差小于ε，为训练子集[X_m,Y_m]中样本第k个特征对应的权重值，n为训练子集[X_m,Y_m]中样本特征数；

(4-2)计算所述训练子集[X_m,Y_m]的高斯核函数k_RBF(x_i,x_j)_m，公式为：

式(1)中，为样本x_i的第k维特征，为样本x_j的第k维特征，σ为高斯核函数参数；

(4-3)计算核极化核函数度量标准P(K)_m对特征权值的梯度公式为：

式(2)中，y_i为样本x_i对应的类别，y_j为样本x_j对应的类别，l为所述第m个训练子集中电网业务流个数；其中，所述核极化核函数度量标准P(K)_m的公式为：

(4-4)初始化

(4-5)根据核极化核函数度量标准P(K)对特征权值g^(k)的梯度▽_g(k)P(K)获取更新后的特征权值公式为：

(4-6)根据更新后的特征权值获取更新后最优特征选择向量对应的权重向量G′_m，若更新后最优特征选择向量对应的权重向量G′_m满足迭代终止条件norm(ΔG_m)＜ε，则根据更新后最优特征选择向量对应的权重向量G′_m更新所述特征权重矩阵A，否则重复执行步骤(4-5)。

优选的，所述步骤(5)包括：根据更新后的特征权重矩阵A重构所述训练子集[X_m,Y_m]对应的特征，公式为：

式(5)中，为样本x_i的第k维特征，为特征权重矩阵中第m个训练子集的第k个特征对应的权重向量。

与最接近的现有技术相比，本发明具有的有益效果：

本发明提供的一种基于特征权学习的支持向量机电网业务分类方法，能够多分类算法中，对每个SVM子分类器分别进行参数寻优与特征选择，并结合特征权思想，对每个特征赋予不同的权重，生成支持向量机分类模型，最后将待分类数据输入网络流量分类模型得到分类结果，充分考虑了不同子分类器之间的差异性，具有更好的分类精度。

附图说明

图1是本发明提供的一种基于特征权学习的支持向量机电网业务分类方法流程图；

图2为支持向量机模型分类流程图。

具体实施方式

下面结合附图对本发明的具体实施方式作进一步的详细说明。

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例，都属于本发明保护的范围。

本发明提供了一种基于特征权学习的支持向量机电网业务分类方法，如图1所示，包括：

具体的，所述步骤(1)包括：

(1-1)剔除电网数据中错误数据或维度不完整数据；

(1-2)删除电网数据中类的样本数小于30的类；

对于多分类系统，传统SVM是在整体上寻求最优参数与最优特征子集，即：在个SVM二分类器中寻求整体最优参数与最优特征子集，训练模型中，所有的SVM二分类器均采用相同的最优参数与最优特征子集，并没有考虑不同子分类器之间的差异性，本发明提供的方法分别根据每个SVM二分类器的特点进行参数寻优与特征子集选取，首先分别对每个SVM二分类器进行特征选择并获取其对应的最优选择向量，所述步骤(3)包括：

(3-2)更新特征选择矩阵及训练子集的样本X′_m＝X_m(:,ξ_m)。

例如：采用向后递归消除特征选择算法RFE对样本集进行处理，具体步骤如下：

1)初始化特征排序向量γ＝[]；初始化特征索引序列s＝[1,2,3,...,d]；初始化特征选择向量κ＝[]，F-score矩阵F＝[]。

2)若特征索引序列为空集，则跳至8)，否则，循环执行3)～7).

3)根据当前特征更新训练样本，去除训练样本中被去除的特征，即：X＝X(:,s)

4)以更新后的样本训练SVM分类器，得到支持向量的相关系数ω＝(ω₁,ω₂,...,ω_d)，其中d为样本x的维数。

5)根据系数ω计算

6)找出最小对应的特征s_i，将其加入特征排序向量中：γ＝[s_i,γ]。

7)从特征索引序列中去除最小对应的特征。

8)若特征排序向量γ为空集，则，跳至11)，否则，循环执行9)～10)。

9)从特征排序向量中选取第一个特征放入特征选择向量中：κ＝[γ₁]，γ＝[γ₂,γ₃,...,γ_d]。

10)根据特征子集更新训练样本，计算F-score，更新F＝score矩阵：F＝[F-score，F]。

选取F-score矩阵中最大值对应的特征选择向量，此即最优特征选择向量，其中，计算F-score值的公式为：

式中，P为SVM二分类器的准确率，R为SVM二分类器的召回率。

然后结合特征权思想，对每个特征赋予不同的权重，所述步骤(4)包括：

(4-4)初始化

所述步骤(5)包括：根据更新后的特征权重矩阵A重构所述训练子集[X_m,Y_m]对应的特征，公式为：

所述步骤(7)中，根据所述1-v-1SVM多分类模型对所述测试集进行分类，依据投票结果确定测试集中样本的类别，如图2所示，输入测试集样本数据后，每个所述1-v-1SVM均会对该样本数据进行分类获取一个分类结果，最终采用多数投票原则，选择票数最多的类为该样本的类别。

最后应当说明的是：以上实施例仅用以说明本发明的技术方案而非对其限制，尽管参照上述实施例对本发明进行了详细的说明，所属领域的普通技术人员应当理解：依然可以对本发明的具体实施方式进行修改或者等同替换，而未脱离本发明精神和范围的任何修改或者等同替换，其均应涵盖在本发明的权利要求保护范围之内。

Claims

1.一种基于特征权学习的支持向量机电网业务分类方法，其特征在于，所述方法包括：

(6)采用网格交叉验证的方法获取训练子集[X_m,Y_m]的惩罚因子C_m和高斯核函数参数σ_m，其中，γ_m＝[C_m,σ_m]为第m个训练子集对应的优化参数向量，更新所述参数矩阵

(8)基于更新后的特征选择矩阵ξ、特征权重矩阵A和参数矩阵γ训练1-v-1SVM多分类模型，并根据所述1-v-1SVM多分类模型对所述测试集进行分类，依据投票结果确定测试集中样本的类别；

所述步骤(3)包括：

(3-2)更新特征选择矩阵及训练子集的样本X′_m＝X_m(:,ξ_m)。

2.如权利要求1所述的方法，其特征在于，所述步骤(1)包括：

(1-1)剔除电网数据中错误数据或维度不完整数据；

(1-2)删除电网数据中类的样本数小于30的类；

3.如权利要求1所述的方法，其特征在于，所述步骤(4)包括：

(4-4)初始化

(4-5)根据核极化核函数度量标准P(K)对特征权值g^(k)的梯度获取更新后的特征权值公式为：

4.如权利要求1所述的方法，其特征在于，所述步骤(5)包括：根据更新后的特征权重矩阵A重构所述训练子集[X_m,Y_m]对应的特征，公式为：