CN103034691A

CN103034691A - 一种基于支持向量机的专家系统知识获取方法

Info

Publication number: CN103034691A
Application number: CN2012105052427A
Authority: CN
Inventors: 李爱; 陈果; 王洪伟; 郝腾飞; 于明月; 程小勇
Original assignee: Nanjing University of Aeronautics and Astronautics
Current assignee: Nanjing University of Aeronautics and Astronautics
Priority date: 2012-11-30
Filing date: 2012-11-30
Publication date: 2013-04-10
Anticipated expiration: 2032-11-30
Also published as: CN103034691B

Abstract

本发明提出了一种基于支持向量机的专家系统知识获取方法，基于支持向量机的规则提取过程包括：数据预处理、支持向量聚类、超矩形规则提取和规则简化、以及基于规则的样本识别过程；所述方法经过特征提取与规则简化之后，提取的规则更加简洁，易于解释；在计算聚类分配矩阵时，仅对支持向量进行聚类标识，大大降低了计算量；规则提取方法先进，诊断识别率更高；支持向量机是数据挖掘中的一种新兴的分类技术，具有坚实的理论基础和优良的泛化性能；本发明能有效地获取专家系统知识规则，突破专家系统知识动态获取的瓶颈。

Description

一种基于支持向量机的专家系统知识获取方法

技术领域

本发明属于信息处理技术领域，特别是一种基于支持向量机的专家系统知识获取方法。

背景技术

目前，基于数据挖掘的知识获取主要是通过机器学习或数理统计方面的一些算法从已有的一些数据中获取知识。其中关联分析法、人工神经元网络、粗糙集和决策树等在数据挖掘中的应用很广泛。如果能把这些算法和目前的实际应用相结合，就能够从实际的数据中自动获取知识规则，有效地突破了知识获取的瓶颈问题。将大大提升专家系统的智能化水平和知识获取能力。

近年来，支持向量机作为数据挖掘中的一种新兴的分类技术，完善的泛化性理论指导和核函数强大的非线性映射能力使支持向量机和神经网络一样，具有逼近任意连续有界非线性函数的能力，并且它还具有神经网络所不具有的许多优点，如泛化能力强，学习问题不存在局部极小，可以自动确定学习机的结构，不存在维数灾难问题，以及处理小样本能力强等。由于这些优点，基于支持向量机的数据挖掘技术已受到数据挖掘界的重视，对它的研究不断深入。而且，迄今发表的SVM规则提取算法不仅简单而且具有广泛的适用性。目前已有的从SVM中提取知识的方法有二，一是：首先利用K-means聚类算法得到训练样本集中每一类样本的聚类中心，然后在得到的聚类中心和支持向量的基础上构建椭圆型的规则，最后将椭圆型规则映射到样本空间坐标轴上，得到if-then规则。但是由该方法得到的椭圆型规则之间重叠的比较严重，而且由于K-means聚类效果过分依赖于聚类中心初始值，因此这种规则提取方法很难控制得到规则的数目以及规则的质量；另一是：基于SVM的超矩形规则提取算法，首先将训练样本映射到高维特征空间中，以得到样本的支持向量和最优分类超平面，然后在得到的支持向量和聚类中心的基础上构建超矩形，最后将超矩形映射到样本空间坐标轴上，得到超矩形规则。但是这种方法得到的超矩形规则由于用到了样本的所有特征，这样得到的知识规则复杂、可理解性低。

发明内容

本发明针对上述问题，提出了一种基于支持向量机的专家系统知识获取方法，目的就在于解决上述现有技术的局限性，有效地获取专家系统知识规则，突破专家系统知识动态获取瓶颈。

为达成上述目的，本发明的技术方案是：一种基于支持向量机的专家系统知识获取方法，包括：数据预处理、支持向量聚类、超矩形规则提取和规则简化、以及基于规则的样本识别过程；具体描述如下:

步骤A,对不平衡样本数据进行预处理；判断各类样本的数目是否平衡，若不平衡，则采用SMOTE过抽样算法对少数类样本进行重采样，以使得各类样本数目平衡；其过程如下：

步骤A-1，对少数类中的每一个样本x，计算x到少数类样本集中每个样本的欧几里德距离，获得其k个最近邻；

步骤A-2，样本数据集中多数类与少数类样本数目的比值为不平衡比率U，根据U设置采样倍率；对每一个少数类样本x，从其k个最近邻中随机选择合适的一个样本为

在x与

之间进行随机线性插值；

步骤A-3，构造新的少数类样本x_new：

x_{new} = x + rand (0,1) \times (\tilde{x} - x)

其中，rand(0,1)表示0到1之间的一个随机数；

步骤A-4，把人工合成的新样本与原始训练样本集并为一个新的训练集；

步骤B，利用遗传算法对特征维数大的样本，进行特征选取，其步骤为：

步骤B-1，二进制编码，二进制码中的每一位对应一个特征，对于二进制码中每一位的值，“0”表示特征未被选中；“1”表示特征被选中；

步骤B-2，生成初始群体，随机产生S个初始串构成初始种群，S表示种群数，S为自然数；

步骤B-3，计算个体适应度值，选取基于最近邻分类法的适应度函数，利用其分类识别率作为特征评价函数，其步骤为：

步骤B-3-1，将样本随机分为训练样本和测试样本集；

步骤B-3-2，对每一个特征组合初始串，去掉训练样本和测试样本中未被选中的特征，从而得到新的训练样本和测试样本集，运用最近邻法对测试样本进行识别，得到识别率R；

步骤B-3-3，考虑所选择的特征数目M，则构造适应度函数为：

J = R^{(1 + M^{n})}

由于0≤R≤1，因此，特征数M越小、识别率越大，则适应度函数J值越大，n为平衡特征数目和识别率权重的参数，通常，0≤n≤1；

步骤B-4，在S个初始串中选择适应度最大的个体，即种群中最好的个体无条件地复制到下一代新种群中，然后对对父代种群进行选择、交叉和变异等遗传算子运算，从而繁殖出下一代新种群其它S-1个基因串；交叉和变异是产生新个体的遗传算子，交叉率取值范围为[0,1],变异率取值范围为[0,1]；

步骤B-5，如果达到设定的繁衍代数，返回最好的基因串，所述基因串中，1表示特征被选中，0表示特征未被选中，从而得到特征组合，并将其作为特征选取的依据，算法结束；否则，回到步骤B-4继续下一代的繁衍；

步骤C，利用支持向量机聚类算法得到特征选取后样本的聚类分配矩阵，根据所述聚类分配矩阵构建超矩形规则；

步骤C-1，支持向量聚类，其步骤如下

步骤C-1-1，特征空间中的一个样本点到其最小包含超球球心的距离为D(x_i)：

D (x_{i}) = \sqrt{Σ_{i, j = 1}^{N} β_{i} β_{j} K (x_{i}, x_{j}) + K (x_{i}, x_{i}) - 2 Σ_{j = 1}^{N} K (x_{j}, x_{i}) β_{j}}

其中，β_i≥0，i∈[1,N]；

为N个样本点的数据集合（其中

R^d为数据空间）；K(x_i,x_j)＝exp(||x_i-x_j||²/q²)为高斯径向基核函数，q为高斯核参数；特征空间中样本最小包含超球半径可以写为

其中β_i为任一支持向量，C是惩罚系数，C的值越大，越不允许超出球的噪声点的出现；输入样本空间中包含数据样本点的聚类定义成集合：Ω={x|D(x)=R}；

步骤C-1-2，特征空间类簇的标识，聚类标识特征空间中的样本点；

构造一个邻接矩阵A：

如果在连接线上取10~20个采样点，只要他们都满足A_ij=1，即可认为D(y)≤R成立，找出邻接矩阵A表示的图中的连通部分，一个连通部分就表示一个聚类，对于那些只有一个元素的连通部分，标记为噪声；

步骤C-1-3，采用10折交叉验证的方法得到惩罚因子C和参数q；

步骤C-2，超矩形规则提取，每一类簇决定一个超矩形由类簇中各个属性的区间

x_{1} &Element; [x_{1}^{L}, x_{1}^{U}] \cap \cdot \cdot \cdot \cap x_{i} &Element; [x_{i}^{L}, x_{i}^{U}] \cap \cdot \cdot \cdot \cap x_{N} &Element; [x_{N}^{L}, x_{N}^{U}]

定义，x_i上标L表示下，x_i上标U表示上，即分别代表类簇中第i个属性的取值区间的最小值和最大值，L_j代表类标号；将

投影到坐标轴上，得到如下的if-then规则

if

x_{1} &Element; [x_{1}^{L}, x_{1}^{U}] \cap \cdot \cdot \cdot \cap x_{i} &Element; [x_{i}^{L}, x_{i}^{U}] \cap \cdot \cdot \cdot \cap x_{N} &Element; [x_{N}^{L}, x_{N}^{U}]

then class L_j

评价规则有效性的两个指标为：支持度和置信度；对于超矩形

规则

支持度

和置信度

取值方法如下：

conf . (R^{j, L_{j}}) = \frac{N_{H^{j, L_{j}} L_{j}}}{N_{H^{j, L_{j}}}}

supp . (R^{j, L_{j}}) = \frac{N_{H^{j, L_{j}} L_{j}}}{N_{L_{j}}}

其中，

表示被超矩形

覆盖并且类标号为L_j的样本数；

表示被超矩形覆盖的样本数；表示类标号为L_j的样本数；

对于同时满足最小支持度阈值MST和最小置信度阈值MCT的规则，称为强规则；反之，则被判定是数据样本中的孤立点或噪声；

步骤D，采用规则合并、维数约简、区间延伸方法简化所述超矩形规则；

步骤D-1，所述规则合并是将距离比较近、支持度相对较小并且属于同一类的超矩形规则合并起来；同属于一类的两个不同超矩形，重叠程度越大表示两个超矩形距离越近，最小置信度阈值判断规则合并的有效性；

步骤D-2，规则约简包括区间延伸和维数归约；区间延伸即将由SVM生成的if-then规则中属性值的闭合区间转换为开区间；而维数归约，则是将规则前件中的某一维属性剔除；在规则约简中，同样采用最小置信度阈值进行判断，如果约简后规则的置信度小于最小置信度阈值，则取消规则约简；

步骤E，基于规则的样本识别过程，包括距离识别法和范围识别法；所述距离识别法即根据一个样本到其最近的超矩形规则的距离来确定其类标号；对每一个超矩形

可以用其左下角

和右上角

来代表；空间中的样本X=(x₁,…,x_N)到超矩形

的距离可以定义为：

D (X, H^{j, L_{j}}) = \sqrt{Σ_{i = 1}^{N} (w_{fi} \times {(d_{i} (X, H^{j, L_{j}}))}^{2})}

其中，w_fi是第i维属性的权，

d_{i} (X, H^{j, L_{j}}) = \{\begin{matrix} x_{i} - H_{upper, i}^{j, L_{j}} & if x_{i} > H_{upper, i}^{j, L_{j}} \\ H_{lower, i}^{j, L_{j}} - x_{i} & if x_{i} < H_{lower, i}^{j, L_{j}} \\ 0 & otherwise \end{matrix}

其中，

是

的第ｉ个分量，

是

的第ｉ个分量；

所述范围识别法即根据规则的范围直接确定样本的类标号；对于每一个超矩形

其规则范围为

[x_{j 1}^{L}, x_{j 1}^{U}] \cap \cdot \cdot \cdot \cap [x_{ji}^{L}, x_{ji}^{U}] \cap \cdot \cdot \cdot \cap [x_{jN}^{L}, x_{jN}^{U}],

分别代表第j类样本x第i个分量x_i的取值区间；对于空间中的样本X=(x₁,…,x_N)，若

x_{1} &Element; [x_{j 1}^{L}, x_{j 1}^{U}] \cap \cdot \cdot \cdot \cap x_{i} &Element; [x_{ji}^{L}, x_{ji}^{U}] \cap \cdot \cdot \cdot \cap x_{N} &Element; [x_{jN}^{L}, x_{jN}^{U}],

则该样本属于第j类。

本发明的有益效果是：一种基于支持向量机的专家系统知识获取方法，基于支持向量机的规则提取过程包括：数据预处理、支持向量聚类、超矩形规则提取和规则简化、以及基于规则的样本识别过程；所述方法经过特征提取与规则简化之后，提取的规则更加简洁，易于解释；在计算聚类分配矩阵时，仅对支持向量进行聚类标识，大大降低了计算量；规则提取方法先进，诊断识别率更高；支持向量机是数据挖掘中的一种新兴的分类技术，具有坚实的理论基础和优良的泛化性能；本发明能有效地获取专家系统知识规则，突破专家系统知识动态获取的瓶颈。

附图说明

图1是基于支持向量机的规则提取流程图。

具体实施方式

本发明所述一种基于支持向量机的专家系统知识获取方法，结合图1所示结构对本发明举例详细说明，并验证本发明所述方法的实际效果。

以某军用航空发动机滑油光谱数据为例，该数据包含了10台航空发动机在正常状态下和磨损状态下的237个样本。Fe、Al、Cu、Cr、Ag、Ti、Mg这7种元素的含量作为样本实例的条件属性分别对应于(A1~A7)。磨损状态“F”分为:“1”—正常状态、“2”—轴间轴承磨损、以及“3”—轴间轴承磨损且保持架断裂3种形式。磨损状态“F”作为实例的决策属性D。表1为其中的部分数据。

表1光谱油样分析部分原始数据

在这237个样本数据中，其中“1”类样本为230个，“2”类样本只有5个，而“3”类样本更少，只有两个，因此故障样本特别少，导致样本严重不平衡。采用SMOTE算法对故障样本进行重采样之后，使“2”类和“3”类样本分别扩充至100个，然后将人工合成的新样本与原始样本集并为一个新的样本集进行规则提取。进行遗传算法特征选择，最优特征组合的编码为：1100100，适应度为0.78，即选择Fe、Al、Ag三个元素的光谱数据进行规则提取。

在支持向量聚类SVC训练中惩罚因子C和高斯核参数q采用10折交叉验证的方法得到，将初始样本划分为10个近似相等的数据子集，每个数据子集中属于各分类的样本所占的比例与初始样本中的比例相同，在训练中选择其中的9个数据子集组成训练样本,用剩下的l个子集作为测试集；轮转一遍进行10次验证，在这里C和q分别为0.5和2，MCT和MST（最小支持度阈值(Minimum SupportThreshold,简称MST)和最小置信度阈值(Minimum Confidence Threshold,简称MCT)，前面已介绍）分别设为0.9和0.1。表2给出了由本发明所提方法提取的规则以及10折交叉验证得到的平均识别率，包括根据样本到其最近的超矩形规则的距离判断其类标号以及直接根据规则范围判断样本所属类标号的识别率。在这两种情况下，均得到了90%以上的识别率，表明该算法提取的规则具有很好的质量。

表3和表4分别给出了进行规则合并和约简后得到的规则以及识别率。对比表2、表3和表4可以看出，经过规则合并和约简后，大大提高了规则的理解性和解释性，更利于工程实际应用。

表2光谱数据GA_SVC规则提取结果

表3合并后规则结果列表

表4约简后规则列表