CN102903007B

CN102903007B - 一种采用遗传算法优化二分类模型参数的方法

Info

Publication number: CN102903007B
Application number: CN201210352966.2A
Authority: CN
Inventors: 马宏伟; 毛清华; 张旭辉; 陈海瑜; 张大伟; 姜俊英
Original assignee: Xian University of Science and Technology
Current assignee: Xian University of Science and Technology
Priority date: 2012-09-20
Filing date: 2012-09-20
Publication date: 2015-04-08
Anticipated expiration: 2032-09-20
Also published as: CN102903007A

Abstract

本发明公开了一种采用遗传算法优化二分类模型参数的方法，包括以下步骤：一、训练样本获取，其获取过程如下：信号采集、特征提取和样本获取；二、核函数选取：选用径向基函数作为需建立二分类模型的核函数，且二分类模型为支持向量机模型；三、惩罚参数C与核参数γ确定：采用遗传算法对需建立二分类模型的惩罚参数C与所选用径向基函数的核参数γ进行优化，且优化过程如下：种群初始化、初始化种群中各个体适应度值计算、选择操作、交叉操作与变异操作、子代群体中各个体适应度值计算、选择操作与判断是否满足终止条件。本发明设计合理、操作简便、实现方便且使用效果好、实用价值高，所获得分类模型的分类精度高，训练速度快且支持向量个数少。

Description

一种采用遗传算法优化二分类模型参数的方法

技术领域

本发明涉及一种SVM分类器模型参数优化方法，尤其是涉及一种采用遗传算法优化二分类模型参数的方法。

背景技术

支持向量机(Support Vector Machine，SVM)是上世纪九十年代一种新的模式识别方法，其通过非线性变换将输入空间映射到高维空间，在新空间中求得最优分类超平面。支持向量机分类是通过寻找一个分类超平面来分开训练样本中的两类样本点，并且使分类超平面间隔最大，实现线性可分的最优分类。对于线性不可分情况，运用核函数把低维输入空间的数据映射到高维空间，从而将低维空间的线性不可分问题转化为高维空间的线性可分问题。目前，比较常用的核函数有线性核函数、多项式核函数、RBF径向基核函数和Sigmoid核函数等。其中，RBF核函数为：当输入空间无法用线性支持向量机进行分类，即非线性情况时，不能在原始输入空间中构造最优分类超平面进行分类，可以通过核函数的非线性变换方法将输入的低维输入空间映射到高维特征的线性空间，并在该特征空间构造最优分类超平面来实现准确分类。

实际在支持向量机分类算法中，当所选用核函数为RBF核函数时，惩罚参数C与所选用径向基函数的核参数γ是关键参数，对SVM分类性能影响较大。目前，对惩罚参数C与核参数γ进行确定时，大多采用大量试验进行逐一验证的方法进行确定，不仅计算量大，花费时间长，并且最终确定的惩罚参数C与核参数γ可能不是最优参数。另外，也可以采用网格搜索法对惩罚参数C与核参数γ进行确定，但实际使用时，同样存在计算量大、花费时间长等多种缺陷。

发明内容

本发明所要解决的技术问题在于针对上述现有技术中的不足，提供一种采用遗传算法优化二分类模型参数的方法，其设计合理、使用操作简便、实现方便且使用效果好、实用价值高，所获得分类模型的分类精度高，训练速度快且支持向量个数少。

为解决上述技术问题，本发明采用的技术方案是：一种采用遗传算法优化二分类模型参数的方法，其特征在于该方法包括以下步骤：

步骤一、训练样本获取，其获取过程如下：

步骤101、信号采集：采用状态信息检测单元对被检测对象在两种不同工作状态时的工作状态信息分别进行实时检测，并将所检测信号同步传送至数据处理器，相应获得两组工作状态检测信息；两组所述工作状态检测信息中均包括状态信息检测单元在不同采样时刻检测到的多个检测信号；

步骤102、特征提取：待数据处理器接收到状态信息检测单元所传送的检测信号时，自各检测信号中分别提取出能代表并区别该检测信号的一组特征参数，且该组特征参数包括W个特征量，并对W个所述特征量进行编号，W个所述特征量组成一个特征向量，其中W≥2；

步骤103、样本获取：分别在经特征提取后的两组所述工作状态检测信息中，随机抽取m个检测信号组成训练样本集；

所述训练样本集中相应包括l个训练样本，其中l=2×m；l个所述训练样本分属于两个样本类，每一个样本类中均包括被检测对象工作于同一个工作状态时的m个训练样本，两个样本类分别与被检测对象的两种不同工作状态相对应；两个所述样本类中的每一个训练样本均记作X_ks，其中k为样本类的类别标号且k=1或2，s为各样本类中所包括m个训练样本的样本序号且s=1、2…m；X_ks为类别标号为k的样本类中第s个训练样本的特征向量，X_ks∈R^d，其中d为X_ks的向量维数且d=W；

步骤二、核函数选取：选用径向基函数作为需建立二分类模型的核函数，且所述二分类模型为支持向量机模型；

步骤三、惩罚参数C与核参数γ确定：采用遗传算法对需建立二分类模型的惩罚参数C与所选用径向基函数的核参数γ进行优化，且其优化过程如下：

步骤301、种群初始化：将惩罚参数C的一个取值与核参数γ的一个取值作为一个个体，并将多个个体集合为一个种群，同时所述种群中的所有个体均进行二进制编码后形成初始化种群；其中，惩罚参数C的一个取值和核参数γ的一个取值均为自区间(0，1000]中随机抽取的一个数值；

步骤302、初始化种群中各个体适应度值计算：初始化种群中所有个体的适应度值计算方法均相同；初始化种群中多个所述个体，分别对应多个不同的分类模型；

对于所述初始化种群中的任一个个体来说，采用步骤103中所述训练样本集中的两个所述样本类，对与该个体对应的分类模型进行训练，且以该分类模型的分类准确率作为该个体的适应度值；

待所述初始化种群中所有个体的适应度值均计算出来后，再相应计算出所述初始化种群的种群平均适应度值；

步骤303、选择操作：根据步骤302中计算得出的所述初始化种群中所有个体的适应度值，选出所述初始化种群中适应度值高的多个个体作为子代群体；

步骤304、交叉操作与变异操作：对选取的子代群体进行交叉操作与变异操作，获得新一代的子代群体；

步骤305、子代群体中各个体适应度值计算：子代群体中所有个体的适应度值计算方法均相同；子代群体中多个所述个体，分别对应多个不同的分类模型z；

对于所述子代群体中的任一个个体来说，采用步骤103中所述训练样本集中的两个所述样本类，对与该个体对应的分类模型进行训练，且以该分类模型的分类准确率作为该个体的适应度值；

待所述子代群体中所有个体的适应度值均计算出来后，再相应计算出所述子代群体的种群平均适应度值；

步骤306、选择操作：根据步骤305中计算得出的所述子代群体中所有个体的适应度值，选出所述子代群体中适应度值高的多个个体作为子代群体；

步骤307、判断是否满足终止条件：当进化代数超过预先设定的最大进化代数itmax或者子代群体中个体的最大适应度值大于或等于预先设定的适应度设定值时，遗传算法终止并输出当前所获得所述子代群体中适应度值最高的个体；否则，返回步骤304；

步骤307中所输出的适应度值最高的个体变为所确定的惩罚参数C与核参数γ，且待惩罚参数C与核参数γ确定后，便获得二分类模型的分类函数。

上述一种采用遗传算法优化二分类模型参数的方法，其特征是：步骤一中两种所述不同工作状态为被检测对象发生故障时的两种不同故障状态或出现缺陷时的两种不同缺陷状态；且所述状态信息检测单元（1）所检测信号为被检测对象发生故障时的故障信号或出现缺陷时的缺陷信号。

上述一种采用遗传算法优化二分类模型参数的方法，其特征是：步骤304中进行交叉操作与变异操作时，按照交叉概率p_c进行交叉操作，且按照变异概率p_m进行变异操作；其中，

p_{c} = \{\begin{matrix} p_{c \max} - (\frac{p_{c \max} - p_{c \min}}{it \max}) \times iter & , f^{'} > f_{avg} \\ p_{c \max} & , f^{'} \leq f_{avg} \end{matrix},

p_{m} = \{\begin{matrix} p_{m \max} - (\frac{p_{m \max} - p_{m \min}}{it \max}) \times iter & , f > f_{avg} \\ p_{m \max} & , f \leq f_{avg} \end{matrix};

式中，p_cmax为预先设定的最大交叉概率，p_cmin为预先设定的最小交叉概率，p_mmax为预先设定的最大变异概率，p_mmin为预先设定的最小变异概率，it max为预先设定的最大进化代数，iter为当前的进化代数，f_avg为当前进行交叉操作与变异操作的子代群体的种群平均适应度值，f'表示在要交叉的两个个体中较大的适应度值，f表示要变异的个体适应度值。

上述一种采用遗传算法优化二分类模型参数的方法，其特征是：预先设定的最大交叉概率p_cmax=0.6，预先设定的最小交叉概率p_cmin=0.9，预先设定的最大变异概率p_mmax=0.1，预先设定的最小变异概率p_mmin=0.0001，预先设定的最大进化代数itmax=100。

上述一种采用遗传算法优化二分类模型参数的方法，其特征是：步骤301中进行种群初始化之前，将进化代数iter的初始值设定为1；步骤304中进行交叉操作与变异操作时，还需对当前的进化代数iter进行统计。

上述一种采用遗传算法优化二分类模型参数的方法，其特征是：步骤303进行选择操作之前，按照轮盘赌选择法，计算出所述初始化种群中所有个体的适应度值；步骤306中进行选择操作之前，按照轮盘赌选择法，计算出所述子代群体中所有个体的适应度值。

上述一种采用遗传算法优化二分类模型参数的方法，其特征是：步骤304中进行交叉操作与变异操作时，交叉操作采用多点交叉，且变异操作采用实值变异。

上述一种采用遗传算法优化二分类模型参数的方法，其特征是：步骤304中进行交叉操作与变异操作时，交叉操作采用两点交叉。

上述一种采用遗传算法优化二分类模型参数的方法，其特征是：步骤307中所述的二分类模型为模糊支持向量机分类模型；步骤103中进行训练样本获取时，两个所述样本类中的每一个训练样本中均包括模糊隶属度μ_Qs，其中μ_Qs为X_Qs对其所属样本类Q的模糊隶属度。

上述一种采用遗传算法优化二分类模型参数的方法，其特征是：步骤307中所述的二分类模型为C-支持向量机分类模型或v-支持向量机分类模型。

本发明与现有技术相比具有以下优点：

1、所采用的硬件系统电路设计合理、接线方便、安装布设方便且投入成本较低、使用效果好。

2、所采用的参数优化方法步骤简单、设计合理且实现方便。

3、由于支持向量机参数对分类精度影响较大，而实际应用中，支持向量机参数选取比较困难，本发明所采用的支持向量机的参数优化方法，具体采用改进遗传算法进行优化且其具有以下优点：①有效地避免了标准遗传算法的早熟问题，具有良好的全局优化能力；有效地避免了锯齿问题，具有优良的局部优化能力；③遗传算子操作具有明确的方向，具有良好的收敛性能。试验证明，该改进后的遗传算法可以较快地获得支持向量机参数，并且所获得分类模型的分类精度高，训练速度快，支持向量个数少，并且对于含有噪声数据的分类比常用支持向量机多分类算法具有更高的分类精度和更少的支持向量。

4、选择操作中采用最优个体保留策略来获得最优个体。最优保留策略是在进行交叉和变异后比较产生的新个体适应度值是增加还是减小，如果产生的新个体适应度值增加就保留该新个体，否则保留原个体。该改进策略可以有效地保证遗传操作所产生的都是优良新个体，确定了进化的方向，避免了个别个体在进化过程中退化现象，增强了算法的收敛性能。

5、使用效果好且实用价值高，能有效解决目前煤矿生产中所存在的钢丝绳芯输送安全在线检测这一亟待解决的技术难题，实现了煤矿钢丝绳芯输送带缺陷电磁检测的自动化，识别速度快且识别精度高，有效提高了输送带缺陷检测的可靠性和效率，对确保输送带安全可靠运行具有重要意义。本发明能最大程度发挥遗传算法的参数优化功能，特别适合于处理传统搜索方法难以解决的复杂和非线性问题，可被广泛应用于自适应控制、组合优化、机器学习、规划设计和人工生命等领域。

6、适用范围较广，能对各种类型检测信号分类识别所用的二分类模型参数进行优化，尤其适用于对被检测对象的故障识别或缺陷识别中，应用领域广泛。同时，所确定的二分类模型为支持向量机模型、模糊支持向量机模型、C-SVM分类模型或v-SVM分类模型。

7、采用本发明进行参数优化后所确定二分类模型的分类速度快且分类精度高，且其分类精度高达97.3333%。

综上所述，本发明设计合理、使用操作简便、实现方便且使用效果好、实用价值高，所获得分类模型的分类精度高，训练速度快且支持向量个数少。

下面通过附图和实施例，对本发明的技术方案做进一步的详细描述。

附图说明

图1为本发明的方法流程框图。

图2为本发明所采用硬件系统的电路原理框图。

图3为采用标准遗传算法对iris数据集进行优化时的优化结果示意图。

图4为本发明所述的改进遗传算法对iris数据集进行优化时的优化结果示意图。

附图标记说明:

1—状态信息检测单元； 2—数据处理器； 3—数据存储器；

4—数据采集电路。

具体实施方式

如图1所示的一种采用遗传算法优化二分类模型参数的方法，包括以下步骤：

步骤一、训练样本获取，其获取过程如下：

步骤101、信号采集：采用状态信息检测单元1对被检测对象在两种不同工作状态时的工作状态信息分别进行实时检测，并将所检测信号同步传送至数据处理器2，相应获得两组工作状态检测信息；两组所述工作状态检测信息中均包括状态信息检测单元1在不同采样时刻检测到的多个检测信号。

步骤102、特征提取：待数据处理器2接收到状态信息检测单元1所传送的检测信号时，自各检测信号中分别提取出能代表并区别该检测信号的一组特征参数，且该组特征参数包括W个特征量，并对W个所述特征量进行编号，W个所述特征量组成一个特征向量，其中W≥2。

所述训练样本集中相应包括l个训练样本，其中l=2×m；l个所述训练样本分属于两个样本类，每一个样本类中均包括被检测对象工作于同一个工作状态时的m个训练样本，两个样本类分别与被检测对象的两种不同工作状态相对应；两个所述样本类中的每一个训练样本均记作X_ks，其中k为样本类的类别标号且k=1或2，s为各样本类中所包括m个训练样本的样本序号且s=1、2…m；X_ks为类别标号为k的样本类中第s个训练样本的特征向量，X_ks∈R^d，其中d为X_ks的向量维数且d=W。

步骤二、核函数选取：选用径向基函数作为需建立二分类模型的核函数，且所述二分类模型为支持向量机模型。

步骤302、初始化种群中各个体适应度值计算：初始化种群中各个体适应度值计算：初始化种群中所有个体的适应度值计算方法均相同；初始化种群中多个所述个体，分别对应多个不同的分类模型；

其中，与各个体对应的分类模型，即为各个体中惩罚参数C与核参数γ确定后对应的支持向量机分类模型；

实际使用时，步骤一中两种所述不同工作状态为被检测对象发生故障时的两种不同故障状态或出现缺陷时的两种不同缺陷状态；且所述状态信息检测单元1所检测信号为被检测对象发生故障时的故障信号或出现缺陷时的缺陷信号。

本实施例中，被检测对象为煤矿钢丝绳芯输送带，所述状态信息检测单元1为对被检测煤矿钢丝绳芯输送带内的剩磁进行检测的电磁检测单元。相应地，步骤一中两种所述不同工作状态为被检测煤矿钢丝绳芯输送带的两种不同的缺陷状态。所获得的两组工作状态检测信息为与被检测煤矿钢丝绳芯输送带的两种不同缺陷状态相对应的两组缺陷状态信息。其中，两种不同的缺陷状态为钢丝绳断绳和接头位移两种缺陷状态。实际使用时，两种不同的缺陷状态也可以为煤矿钢丝绳芯输送带的其它两种类型的缺陷状态，如钢丝绳断丝、疲劳等缺陷状态。相应地，步骤307中所获得的二分类模型为对钢丝绳断绳和接头位移两种缺陷状态进行分类的分类模型。

结合图2，所述状态信息检测单元1与数据采集电路4相接，且数据采集电路4和数据存储器3均与数据处理器2相接，所述数据采集电路4为数据采集卡。

由于遗传算法在参数选择上具有很大优势，可以同时对多个参数优化，有利于获得全局最优解，所以采用遗传算法GA对SVM分类器的误差惩罚因子C与核参数γ进行优化，从而获得最优的分类精度。但是，现有的遗传算法GA（具体是标准遗传算法SGA）对SVM分类器的误差惩罚因子C与核参数γ进行优化时，主要存在以下问题：第一、早熟收敛问题：由于遗传算法只用适应度来评价个体的优劣，因此当某个个体的适应度较大时，该个体的基因会在种群中很快扩散，导致种群过早失去多样性，从而陷入局部最优解；第二、局部搜索能力问题：遗传算法在全局搜索方面具有优异的性能，局部搜索能力存在不足，从而导致在进化后期遗传算法收敛速度变慢，甚至可能无法搜索到全局最优解；第三、遗传算子无方向性：遗传算法的遗传操作算子中，选择算子可以保证选出优良个体，而交叉和变异算子只是引入新的个体，但不能保证新个体是优良的；如果引入的新个体较差，那么这个新个体就会成为干扰因素，反而会减慢遗传算法的进化速度。综上，由于标准遗传算法SGA存在以上缺陷，因此需对其进行改进，以便更好地对支持向量机参数进行优化。

本实施例中，步骤304中进行交叉操作与变异操作时，按照交叉概率p_c进行交叉操作，且按照变异概率p_m进行变异操作；其中，

p_{c} = \{\begin{matrix} p_{c \max} - (\frac{p_{c \max} - p_{c \min}}{it \max}) \times iter & , f^{'} > f_{avg} \\ p_{c \max} & , f^{'} \leq f_{avg} \end{matrix},

p_{m} = \{\begin{matrix} p_{m \max} - (\frac{p_{m \max} - p_{m \min}}{it \max}) \times iter & , f > f_{avg} \\ p_{m \max} & , f \leq f_{avg} \end{matrix};

也就是说，根据适应度值及进化代数来调节个体的交叉概率p_c和变异概率p_m，如果个体适应度值小于种群平均适应度值，对其给予较大的交叉概率和变异概率；如果个体比较优良，即其适应度值大于种群平均适应度值，则根据其迭代状态和优良程度赋予此个体相应的交叉概率和变异概率，迭代代数越接近最大设定代数it max，个体交叉概率和变异概率就越小，此种交叉概率、变异概率调节方法在进化初期具有较强的全局搜索能力和较弱的局部搜索能力，随着进化的进行，全局优化能力逐渐减弱，局部优化能力逐渐增强。该改进方法有利于保护优良个体，便于获得全局最优解，可以防止出现“早熟”现象。

步骤303和步骤306中进行选择操作时，采用最优个体保留策略。由于在遗传算法的操作算子中，选择算子可以确保选出的个体都是优良的，但是交叉算子和变异算子只是引入了新的个体，这两个操作算子不能确保产生的新个体是优良的。因此采用最优个体保留策略来获得最优个体。最优保留策略是在进行交叉和变异后比较产生的新个体适应度值是增加还是减小，如果产生的新个体适应度值增加就保留该新个体，否则保留原个体。该改进策略可以有效地保证遗传操作所产生的都是优良新个体，确定了进化的方向，避免了个别个体在进化过程中退化现象，增强了算法的收敛性能。

本实施例中，预先设定的最大交叉概率p_cmax=0.6，预先设定的最小交叉概率p_cmin=0.9，预先设定的最大变异概率p_mmax=0.1，预先设定的最小变异概率p_mmin=0.0001，预先设定的最大进化代数it max=100。

步骤301中进行种群初始化之前，将进化代数iter的初始值设定为1；步骤304中进行交叉操作与变异操作时，还需对当前的进化代数iter进行统计。

本实施例中，步骤303进行选择操作之前，按照轮盘赌选择法，计算出所述初始化种群中所有个体的适应度值；步骤306中进行选择操作之前，按照轮盘赌选择法，计算出所述子代群体中所有个体的适应度值。

实际进行参数确定时，步骤304中进行交叉操作与变异操作时，交叉操作采用多点交叉，且变异操作采用实值变异。本实施例中，步骤304中进行交叉操作与变异操作时，交叉操作采用两点交叉。

本实施例中，所述电磁检测单元为对被检测煤矿钢丝绳芯输送带内水平方向上的剩磁进行实时检测的水平向电磁检测单元或对被检测煤矿钢丝绳芯输送带内竖直方向上的剩磁进行实时检测的竖直向电磁检测单元。所述水平向电磁检测单元和竖直向电磁检测单元均布设在被检测煤矿钢丝绳芯输送带上。所述水平向电磁检测单元和竖直向电磁检测单元的采样频率相同。

步骤101中所获得的两组所述缺陷状态检测信息相应为两组水平向剩磁检测信息或两组竖直向剩磁检测信息；其中，两组所述水平向剩磁检测信息均包括所述水平向电磁检测单元在不同采样时段检测到的多个检测信号，且两组所述竖直向剩磁检测信息均包括所述竖直向电磁检测单元在不同采样时段检测到的多个检测信号。

相应地，所述水平向电磁检测单元和所述竖直向剩磁检测信息所检测到的每一个所述检测信号均为一个采样时段所检测到的一个采样序列。本实施例中，所述水平向电磁检测单元和竖直向电磁检测单元均为弱磁传感器，且具体为TCK弱磁传感器。

实际进行信号采集时，所述水平向电磁检测单元和竖直向电磁检测单元均按照设定的采样频率进行采集，且采样频率为1KHz～8KHz。本实施例中，所述水平向电磁检测单元和竖直向电磁检测单元的采样频率均为4KHz，实际使用时，可根据具体需要，对所述水平向电磁检测单元和竖直向电磁检测单元的采样频率在1KHz～8KHz内进行相应调整。

本实施例中，所述水平向电磁检测单元和竖直向电磁检测单元所检测的检测信号均为一个采样序列X(i)，其中i＝1、2、3…n，n为采样序列X(i)中的采样点数量。

本实施例中，步骤102中进行特征提取时，所提出的特征参数包括检测信号的12个时域特征，即M=12，12个时域特征分别是峰峰值、均方根值、平均幅值、方差、方根幅值、峭度、波宽、波形指标、峰值指标、脉冲指标、裕度指标和峭度指标。

实际进行特征提取时，按照步骤102中所述的特征提取方法，对两组所述水平向剩磁检测信息或两组所述竖直向剩磁检测信息分别进行特征提取，相应获得经特征提取后的两组所述水平向剩磁检测信息或经特征提取后的两组所述竖直向剩磁检测信息。

本实施例中，实际对所述电磁检测单元所检测的各检测信号进行特征提取时，对所述水平向电磁检测单元或竖直向电磁检测单元所检测的各检测信号分别进行特征提取。

对于所述水平向电磁检测单元所检测的任一个检测信号（即采样序列X(i)）进行特征提取时，12个时域特征的求解过程如下：根据公式X_p-p=max{x_i}-min{x_i}，计算得出峰峰值X_p-p，式中max{x_i}为采样序列X(i)中的最大值，min{x_i}为采样序列X(i)中的最小值；根据公式计算得出均方根值X_rms；根据公式计算得出平均幅值X_av；根据公式计算得出方差σ_x ²，式中根据公式计算得出方根幅值X_r；根据公式计算得出峭度β′；对宽度W进行计算时，当被检测煤矿钢丝绳芯输送带的缺陷状态为接头位移时，宽度W为同一采样时刻所述竖直向电磁检测单元所检测信号中波峰与波谷之间的间距；当被检测煤矿钢丝绳芯输送带的缺陷状态为接头位移之外的其它缺陷状态时，宽度W的起始点为同一采样时刻所述竖直向电磁检测单元所检测信号中幅值大于0.244V的上升沿，且其终止点为同一采样时刻所述竖直向电磁检测单元所检测信号中幅值小于0.244V的下降沿；根据公式计算得出波形指标S，式中X_rms为均方根值，X_av为平均幅值；根据公式计算得出峰值指标C，式中X_max为采样序列X(i)中的最大值，X_rms为均方根值；根据公式计算得出脉冲指标I，式中X_max为采样序列X(i)中的最大值，X_av为平均幅值；根据公式计算得出裕度指标L，式中X_max为采样序列X(i)中的最大值，X_r为方根幅值；根据公式计算得出峭度指标K，式中β′为峭度，X_rms为均方根值。

对于所述竖直向电磁检测单元所检测的任一个检测信号进行特征提取时，除宽度W之外，其余特征量的提取方法与所述水平向电磁检测单元所检测信号的特征提取方法相同。对于宽度W而言，当被检测煤矿钢丝绳芯输送带的缺陷状态为接头位移时，宽度W为该检测信号中波峰与波谷之间的间距；当被检测煤矿钢丝绳芯输送带的缺陷状态为接头位移之外的其它缺陷状态时，宽度W的起始点为该检测信号中幅值大于0.244V的上升沿，且其终止点为该检测信号中幅值小于0.244V的下降沿。

步骤103中获取所述训练样本集时，由于两个样本类的类别分别与被检测煤矿钢丝绳芯输送带的两种不同缺陷状态相对应，因而按照被检测煤矿钢丝绳芯输送带的两种不同缺陷状态名称对两个样本类的类别分别进行命名。

实际操作过程中，在两组所述缺陷状态检测信息中随机抽取m个检测信号时，采用数据处理器2进行随机抽取。

本实施例中，m=50。实际进行训练样本集获取时，也可以根据具体需要，对m的取值进行相应调整。

实际对所述训练样本集进行获取时，按照步骤三中所述的训练样本集获取方法，相应获得训练样本集一或训练样本集二；其中，所述训练样本集一为分别在经特征提取后的两组所述水平向剩磁检测信息中，随机抽取m个检测信号组成的一个训练样本集；所述训练样本集二为分别在经特征提取后的两组所述竖直向剩磁检测信息中，随机抽取m个检测信号组成的一个训练样本集；所述训练样本集一和所述训练样本集二的结构相同，二者均包括l个训练样本，所述训练样本集一和所述训练样本集二中的l个所述训练样本均分属于两个样本类。

实际进行分类时，支持向量机通过最优超平面将训练样本划分为互相对立的两个类。然而实际应用中，由于每个样本并不能完全划归到某一类，并且样本中可能存在噪声或孤立点，因而采用模糊支持向量机(FuzzySupport Vector Machine FSVM)通过给样本增加一个模糊隶属度，使孤立点或噪声的模糊隶属度很小，从而减少孤立点和噪声对最优分类超平面的影响。因而，模糊支持向量机根据训练样本对分类作用的不同，给不同样本加以不同的错分惩罚来克服孤立点和噪声对分类的不利影响，而模糊隶属度的确定非常重要。

因此，本实施例中，步骤七中所述的二分类模型为模糊支持向量机模型，且步骤103中进行训练样本获取时，两个所述样本类中的每一个训练样本中均包括模糊隶属度μ_Qs，其中μ_Qs为X_Qs对其所属样本类Q的模糊隶属度。实际使用时，步骤307中所述的二分类模型也可以为C-支持向量机分类模型或v-支持向量机分类模型，其中C-支持向量机分类模型为C-SVM分类模型，v-支持向量机分类模型为v-SVM分类模型。

实际对模糊隶属度μ_ks进行确定时，可以采用模糊统计法、例证法、专家经验法或二元对比排序法进行确定。其中，模糊统计法的基本思想是对论域U（研究的范围，一般指实数集）中的一个确定元素A₀是否属于论域中的一个可变动的清晰集合A^*做出清晰的判断。对于不同的试验者，清晰集合A^*可以有不同的边界，但它相对应于同一个模糊集A。模糊统计法的计算步骤是：在每次统计中，A₀是确定的，A^*的值是可变的，作n次试验，其模糊统计可按照下式进行计算：A₀对A的隶属频率=A₀∈A的次数/试验总次数n。随着n的增大，隶属频率也会趋向稳定，这个稳定就是A₀对A的隶属度值。这种方法较直观地反映了模糊概念中的隶属程度，但其计算量非常大。

例证法的主要思想是从已知有限个μ_A的值来估计论域中模糊子集A的隶属函数。如论域U代表全体人类，A是“高个子的人”，显然A是一个模糊子集。为了确定μ_A，先确定一个高度值h，然后选定一个语言真值（即一句话的真实程度）中的一个来回答某人是否算“高个子”。如语言真值可分为“真的”、“大致真的”、“似真似假”、“大致假的”和“假的”五种情况，并且分别用数据1、0.75、0.5、0.25、0来表示这些语言真值。对N种不同高度h1、h2、h3…hn都做同样的询问，即可以得到A的隶属度函数的离散表示。

专家经验法是根据专家的实际经验给出模糊信息的处理算式或相应权系数值来确定隶属度函数的一种方法。在许多情况下，通常是初步确定粗略的隶属度函数，然后再通过“学习”和实践经验逐步修改和完善，而实际效果正是检验和调整隶属度函数的依据。

二元对比排序法是一种较实用的确定隶属度函数的方法，它通过对多个事物之间的两两对比来确定某种特征下的顺序，由此来决定这些事物对该特征的隶属函数的大体形状。二元对比排序法根据对比测度不同，可分为相对比较法、对比平均法、优先关系定序法和相似优先对比法等。

本实施例中，对μ_Qs进行确定时，通过数据处理器2且采用基于线性距离的隶属度函数进行确定，其中基于线性距离的隶属度函数的确定是将样本的隶属度看作是特征空间中样本与其所在样本类的类中心之间距离的函数，样本离类中心的距离越近，隶属度越大，反之隶属度越小，详见2009年8月公开的《兰州理工大学学报》第35卷第4期，张秋余、竭洋等发表的《模糊支持向量机中隶属度确定的新方法》一文。

本实施例中，步骤102中进行特征提取之前，还需对所检测信号进行降噪处理。且特征提取之后，还应对所提取的特征参数进行特征约简。

步骤307中获得二分类模型的分类函数后，对该二分类模型进行仿真实验验证，并与标准遗传算法所建立的二分类模型进行对比，其对比结果见图3和图4。实际进行仿真实验验证时，以UCI标准数据集为研究对象，具体是采用标准遗传算法和本发明所述的改进遗传算法分别对iris数据集进行优化，且其优化结果分别见图3和图4。由图3和图4可知，本发明所述的改进遗传算法比标准遗传算法的收敛速度快，且分类精度更高，本发明所述的改进遗传算法的优化效果优于标准遗传算法的优化效果。

以上所述，仅是本发明的较佳实施例，并非对本发明作任何限制，凡是根据本发明技术实质对以上实施例所作的任何简单修改、变更以及等效结构变化，均仍属于本发明技术方案的保护范围内。

Claims

1.一种采用遗传算法优化二分类模型参数的方法，其特征在于该方法包括以下步骤：

步骤一、训练样本获取，其获取过程如下：

步骤101、信号采集：采用状态信息检测单元(1)对被检测对象在两种不同工作状态时的工作状态信息分别进行实时检测，并将所检测信号同步传送至数据处理器(2)，相应获得两组工作状态检测信息；两组所述工作状态检测信息中均包括状态信息检测单元(1)在不同采样时刻检测到的多个检测信号；

步骤102、特征提取：待数据处理器(2)接收到状态信息检测单元(1)所传送的检测信号时，自各检测信号中分别提取出能代表并区别该检测信号的一组特征参数，且该组特征参数包括W个特征量，并对W个所述特征量进行编号，W个所述特征量组成一个特征向量，其中W≥2；

所述训练样本集中相应包括l个训练样本，其中l＝2×m；l个所述训练样本分属于两个样本类，每一个样本类中均包括被检测对象工作于同一个工作状态时的m个训练样本，两个样本类分别与被检测对象的两种不同工作状态相对应；两个所述样本类中的每一个训练样本均记作X_ks，其中k为样本类的类别标号且k＝1或2，s为各样本类中所包括m个训练样本的样本序号且s＝1、2…m；X_ks为类别标号为k的样本类中第s个训练样本的特征向量，X_ks∈R^d，其中d为X_ks的向量维数且d＝W；

步骤307中所输出的适应度值最高的个体变为所确定的惩罚参数C与核参数γ，且待惩罚参数C与核参数γ确定后，便获得二分类模型的分类函数；

步骤304中进行交叉操作与变异操作时，按照交叉概率p_c进行交叉操作，且按照变异概率p_m进行变异操作；其中，

p_{c} = \{\begin{matrix} p_{c \max} - (\frac{p_{c \max} - p_{c \min}}{it \max}) \times iter, & f^{'} > f_{avg} \\ p_{c \max}, & f^{'} \leq f_{avg} \end{matrix},

p_{m} = \{\begin{matrix} p_{m \max} - (\frac{p_{m \max} - p_{m \min}}{it \max}) \times iter, & f > f_{avg} \\ p_{m \max}, & f \leq f_{avg} \end{matrix};

2.按照权利要求1所述的一种采用遗传算法优化二分类模型参数的方法，其特征在于：步骤一中两种所述不同工作状态为被检测对象发生故障时的两种不同故障状态或出现缺陷时的两种不同缺陷状态；且所述状态信息检测单元(1)所检测信号为被检测对象发生故障时的故障信号或出现缺陷时的缺陷信号。

3.按照权利要求1所述的一种采用遗传算法优化二分类模型参数的方法，其特征在于：预先设定的最大交叉概率p_cmax＝0.6，预先设定的最小交叉概率p_cmin＝0.9，预先设定的最大变异概率p_mmax＝0.1，预先设定的最小变异概率p_mmin＝0.0001，预先设定的最大进化代数it max＝100。

4.按照权利要求1所述的一种采用遗传算法优化二分类模型参数的方法，其特征在于：步骤301中进行种群初始化之前，将进化代数iter的初始值设定为1；步骤304中进行交叉操作与变异操作时，还需对当前的进化代数iter进行统计。

5.按照权利要求1或2所述的一种采用遗传算法优化二分类模型参数的方法，其特征在于：步骤303进行选择操作之前，按照轮盘赌选择法，计算出所述初始化种群中所有个体的适应度值；步骤306中进行选择操作之前，按照轮盘赌选择法，计算出所述子代群体中所有个体的适应度值。

6.按照权利要求1或2所述的一种采用遗传算法优化二分类模型参数的方法，其特征在于：步骤304中进行交叉操作与变异操作时，交叉操作采用多点交叉，且变异操作采用实值变异。

7.按照权利要求6所述的一种采用遗传算法优化二分类模型参数的方法，其特征在于：步骤304中进行交叉操作与变异操作时，交叉操作采用两点交叉。

8.按照权利要求1或2所述的一种采用遗传算法优化二分类模型参数的方法，其特征在于：步骤307中所述的二分类模型为模糊支持向量机分类模型；步骤103中进行训练样本获取时，两个所述样本类中的每一个训练样本中均包括模糊隶属度μ_Qs，其中μ_Qs为X_Qs对其所属样本类Q的模糊隶属度。

9.按照权利要求1或2所述的一种采用遗传算法优化二分类模型参数的方法，其特征在于：步骤307中所述的二分类模型为C-支持向量机分类模型或v-支持向量机分类模型。