CN106295685A - 改进的直推式支持向量机的大型高炉故障分类算法及应用 - Google Patents

改进的直推式支持向量机的大型高炉故障分类算法及应用 Download PDF

Info

Publication number
CN106295685A
CN106295685A CN201610624342.XA CN201610624342A CN106295685A CN 106295685 A CN106295685 A CN 106295685A CN 201610624342 A CN201610624342 A CN 201610624342A CN 106295685 A CN106295685 A CN 106295685A
Authority
CN
China
Prior art keywords
sigma
classifier
samples
sample
unlabeled
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201610624342.XA
Other languages
English (en)
Inventor
杨春节
安汝峤
潘怡君
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Zhejiang University ZJU
Original Assignee
Zhejiang University ZJU
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Zhejiang University ZJU filed Critical Zhejiang University ZJU
Priority to CN201610624342.XA priority Critical patent/CN106295685A/zh
Publication of CN106295685A publication Critical patent/CN106295685A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2411Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on the proximity to a decision surface, e.g. support vector machines

Landscapes

  • Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Theoretical Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种改进的直推式支持向量机的大型高炉故障分类算法及应用,属于工业过程监控与诊断技术领域。首先,针对工业采集数据,利用训练数据中包含的正负标签的数据进行归纳式学习,得到一个原始的样本分类器。其次,利用原始的样本分类器对无标签样本进行分类。最后,通过迭代计算的方法获得最优的样本分类器。本发明提出了一种改进的基于直推式支持向量机的故障分类算法,从平衡数据样本类别的数量入手,对无标签的样本进行了初步的预测,并对该过程进行了优化,因此与其它现有的方法相比,本发明方法在流程工业模拟试验中取得了较好的分类效果,并具有更高的准确率。

Description

改进的直推式支持向量机的大型高炉故障分类算法及应用
技术领域
本发明属于工业过程监控与故障诊断领域,特别涉及一种改进的基于直推式支持向量机的大型高炉系统故障分类算法。
背景技术
工业生产是国家重要的经济发展内容,针对工业过程的故障分类研究,对保证安全高效的生产具有十分重要的意义。目前常见的故障分类方法包括定性与定量的分析方法。其中定性分析方法包括图论方法、专家系统、定性仿真。定量的方法又包括基于解析模型的方法与数据驱动的方法。而目前研究的热门领域包括机器学习、多元统计分析、信号处理等都属于数据驱动的方法。对于复杂的工业过程而言,很难构建精确的机理模型,也很难收集全面的专家系统知识,因此基于数据的方法具有很好的应用前景。工业生产过程中,各种传感器可以获取大量的数据,通过计算机的运算存储功能,数据以海量的规模进行增长,为数据分析提供了充足的资源。目前应用较多的数据驱动方法,如主元分析(PCA)、偏最小二乘(PLS)、支持向量机(SVM)、人工神经网络(ANN)等。很多学者对这些方法进行了改进,也对一些方法进行融合,从而大大提高了故障诊断的效果。
对于半监督支持向量机算法,最早是由创始者Vapnik等人提出的直推式学习方法,后来又引入了局部组合搜索、梯度下降、连续优化技术、凸凹过程、半正定编程、不可微方法、决定退火、分支定界等方法。其中直推式学习假定未标记示例就是测试例,即学习的目的就是在这些未标记示例上取得最佳泛化能力。直推式支持向量机(transductive SVM,TSVM)很好地利用了这部分数据,在有标签数据的运算基础上加入无标签数据,通过一些列算法将无标签的数据进行分类,从而有效的解决学习过程中产生的模型的准确问题。
发明内容
为了克服现有技术的不足,本发明的目的在于针对直推式支持向量机算法的特点,提供一种基于改进的直推式支持向量机的大型高炉故障分类方法,并将这种方法应用在大型高炉系统的故障分类应用中。
一种改进的基于直推式支持向量机的大型高炉系统故障分类算法,主要采用对N个点的数据采取随机选择的策略,通过L次的选择,分别计算出L次的准确率,选取准确率最高的一次即作为该模型的分类器,步骤如下:
步骤一:初始化惩罚因子C,利用训练数据中包含的正负标签的数据进行归纳式学习,得到一个原始的样本分类器。
对于支持向量机,给定数据样本集:
(x1,y1),(x2,y2),…,(xl,yl) (1)
y∈{-1,1}代表不同类。分类的任务是构建最优超平面f(x)=<w,φ(x)>+b,把属于不同类的向量xi分开。其中w为参数向量,φ(·)为输入空间到特征空间的映射函数。定义损失函数如下:
min R ( w , b ) = 1 2 < w , w > + c &CenterDot; R e m p - - - ( 2 )
第一部分定义了模型的结构复杂度;第二部分Remp为经验风险;c为调节常数,用于控制模型复杂度与逼近误差的折中。当经验风险取不同的函数时,得到不同的SVM分类器。当经验风险Remp=0,即仅仅考虑分类器的模型复杂度时,损失函数变为:
R ( w &CenterDot; b ) = 1 2 < w , w > - - - ( 3 )
优化问题描述为:
min R ( w , b ) = 1 2 < w , w > s u b j e c t t o y i ( < w , x i > - b ) &GreaterEqual; 1 , i = 1 , 2 , ... , l - - - ( 4 )
为了得到对偶的优化问题,引入拉格朗日乘子,得到拉格朗日方程:
L = 1 2 < w , w > - &Sigma; i = 1 l a i ( y i ( < w , x i > - b ) - 1 ) - - - ( 5 )
求该函数关于原始变量的微分:
&part; L &part; w = w - &Sigma; i = 1 l a i y i x i = 0 - - - ( 6 )
&part; L &part; b = &Sigma; i = 1 l a i y i = 0 - - - ( 7 )
将公式(6)(7)带入拉格朗日方程:
L = &Sigma; i = 1 l a i - 1 2 &Sigma; i = 1 l a i a j y i y j < x i , x j > - - - ( 8 )
得到对偶的优化问题:
max W ( a ) = &Sigma; i = 1 l a i - 1 2 &Sigma; i = 1 l a i a j y i y j < x i , x j > s u b j e c t t o &Sigma; i = 1 l a i y i = 0 , a i &GreaterEqual; 0 , i = 1 , 2 , ... , l - - - ( 9 )
为了容忍训练集中噪声和异常数据,定义间隔松弛向量,以其1范数作为经验风险,即得到1范数软间隔分类器。优化问题描述为:
min R ( w , b ) = 1 2 < w , w > + c &Sigma; i = 1 l &xi; i s u b j e c t t o y i ( < w , x i > - b ) &GreaterEqual; 1 - &xi; i , i = 1 , 2 , ... , l - - - ( 10 )
其中,ξi为松弛变量,它使得可以容忍训练数据的错误分类。当取ξi=0,i=1,2,…,l时,软间隔分类器退化成为硬间隔分类器。该优化问题的对偶问题为:
max W ( a ) = &Sigma; i = 1 l a i - 1 2 &Sigma; i = 1 j = 1 l a i a j y i y j < x i , x j > s u b j e c t t o &Sigma; i = 1 l a i y i = 0 , 0 &le; a i &le; C - - - ( 11 )
步骤二:初始化惩罚因子C*,用原始的样本分类器对无标签样本进行分类。基于迭代算法的直推式支持向量机给定一组独立同分布的有标签训练样本点(x1,y1),(x2,y2),..,(xl,yl),x∈Rm,y∈{-1,1}和另一组来自同一分布的无标签样本点x1 *,x2 *,x3 *,..,xk *。在一般的线性不可分条件下,TSVM的训练过程可以描述为以下的优化问题:
( y 1 * , ... , y k * , w , b , &xi; 1 , ... , &xi; m , &xi; 1 * , ... , &xi; k * ) min 1 2 | | w | | 2 + C &Sigma; i = 1 l &xi; i + C * &Sigma; j = 1 k &xi; j * s u b j e c t t o &ForAll; i = 1 l : y i &lsqb; w &CenterDot; x i + b &rsqb; &GreaterEqual; 1 - &xi; i &ForAll; j = 1 k : y j &lsqb; w &CenterDot; x j * + b &rsqb; &GreaterEqual; 1 - &xi; j * &ForAll; i = 1 l : &xi; i &GreaterEqual; 0 &ForAll; j = 1 k : &xi; j * &GreaterEqual; 0 - - - ( 12 )
其中参数C和C*为用户指定和调节的参数,参数C*是未标识样本在训练过程中的影响因子,C*与ξj *称为未标识样本xj在目标函数中的影响项。
步骤三:迭代计算。
1)计算每一个样本到超平面的距离|f(x)|,选取N个距离|f(x)|≤d的样本点,在N个样本点中随机取出M个样本点。
2)假定训练集中M个无标记样本中正负样本的比例为1:1,并指定一个训练集中无标签样本的临时惩罚因子C*temp
3)用得到的样本分类器对训练集中的无标签样本进行重新分类,根据分类器对无标签数据记录的判别结果,对无标签数据做出正负分类判决,并将判决值较大的一半样本标记为正标签,另外一半标记为负样本。
4)用得到的经过重新标记的训练集数据对TSVM学习机进行重新训练,得到新的分类器。然后,按一定的规则交换一对标签值不同的训练样本的标签符号,即把起初标记为正样本的未标记样本中标记为负样本,起初标记为负样本的标记为正样本,计算式(3)的值,使得问题(3)的值获得最大下降。反复执行训练样本标签的变换,直到找不出满足交换条件的样本为止。
5)均匀地增加未标记样本的惩罚因子C*temp的值,并重新执行步骤(4),直到C*temp≥C时,TSVM的学习结束。
6)测试分类器的效果,并重复(1)至(5)的操作L次,选择具有最优正确率的分类器。
所述的工业故障为高炉冶炼过程故障。
一种所述的方法用于高炉冶炼过程故障分类。
本发明具有以下有益效果:
1.本发明首次提出一种应用于高炉冶炼过程故障的改进直推式支持向量机算法,并且基于这个改进方法利用了大量的无标签数据,利用样本的多次迭代筛选的方法,实现了对复杂过程的故障分类;
2.本发明能够针对改进的直推式支持向量机算法,通过平衡数据样本类别的数量入手,对无标签的样本进行了初步的预测,并对该过程进行了优化。本算法采用的筛选机制能够比较有效的利用无标签样本对原始模型进行正确修正,使得分类准确率得到提高,有效提高算法的学习精度。
具体实施方式
本发明首先,针对工业采集数据,利用训练数据中包含的正负标签的数据进行归纳式学习,得到一个原始的样本分类器。其次,利用原始的样本分类器对无标签样本进行分类。最后,通过迭代计算的方法获得最优的样本分类器。
本发明提出了一种改进的基于直推式支持向量机的故障分类算法,从平衡数据样本类别的数量入手,对无标签的样本进行了初步的预测,并对该过程进行了优化。
一种改进的基于直推式支持向量机的大型高炉系统故障分类算法,主要采用对N个点的数据采取随机选择的策略,通过L次的选择,分别计算出L次的准确率,选取准确率最高的一次即作为该模型的分类器,步骤如下:
步骤一:初始化惩罚因子C,利用训练数据中包含的正负标签的数据进行归纳式学习,得到一个原始的样本分类器。
对于支持向量机,利用工业过程采集的离线数据集:
(x1,y1),(x2,y2),..,(xl,yl) (1)
y∈{-1,1}代表不同类。分类的任务是构建最优超平面f(x)=<w,φ(x)>+b,把属于不同类的向量xi分开。其中w为参数向量,φ(·)为输入空间到特征空间的映射函数。定义损失函数如下:
min R ( w , b ) = 1 2 < w , w > + c &CenterDot; R e m p - - - ( 2 )
第一部分定义了模型的结构复杂度;第二部分Remp为经验风险;c为调节常数,用于控制模型复杂度与逼近误差的折中。当经验风险取不同的函数时,得到不同的SVM分类器。当经验风险Remp=0,即仅仅考虑分类器的模型复杂度时,损失函数变为:
R ( w &CenterDot; b ) = 1 2 < w , w > - - - ( 3 )
优化问题描述为:
min R ( w , b ) = 1 2 < w , w > s u b j e c t t o y i ( < w , x i > - b ) &GreaterEqual; 1 , i = 1 , 2 , ... , l - - - ( 4 )
为了得到对偶的优化问题,引入拉格朗日乘子,得到拉格朗日方程:
L = 1 2 < w , w > - &Sigma; i = 1 l a i ( y i ( < w , x i > - b ) - 1 ) - - - ( 5 )
求该函数关于原始变量的微分:
&part; L &part; w = w - &Sigma; i = 1 l a i y i x i = 0 - - - ( 6 )
&part; L &part; b = &Sigma; i = 1 l a i y i = 0 - - - ( 7 )
将公式(6)(7)带入拉格朗日方程:
L = &Sigma; i = 1 l a i - 1 2 &Sigma; i = 1 l a i a j y i y j < x i , x j > - - - ( 8 )
得到对偶的优化问题:
max W ( a ) = &Sigma; i = 1 l a i - 1 2 &Sigma; i = 1 l a i a j y i y j < x i , x j > s u b j e c t t o &Sigma; i = 1 l a i y i = 0 , a i &GreaterEqual; 0 , i = 1 , 2 , ... , l - - - ( 9 )
为了容忍训练集中噪声和异常数据,定义间隔松弛向量,以其1范数作为经验风险,即得到1范数软间隔分类器。优化问题描述为:
min R ( w , b ) = 1 2 < w , w > + c &Sigma; i = 1 l &xi; i s u b j e c t t o y i ( < w , x i > - b ) &GreaterEqual; 1 - &xi; i , i = 1 , 2 , ... , l - - - ( 10 )
其中,ξi为松弛变量,它使得可以容忍训练数据的错误分类。当取ξi=0,i=1,2,…,l时,软间隔分类器退化成为硬间隔分类器。该优化问题的对偶问题为:
max W ( a ) = &Sigma; i = 1 l a i - 1 2 &Sigma; i = 1 j = 1 l a i a j y i y j < x i , x j > s u b j e c t t o &Sigma; i = 1 l a i y i = 0 , 0 &le; a i &le; C - - - ( 11 )
步骤二:初始化惩罚因子C*,用原始的样本分类器对无标签样本进行分类。基于迭代算法的直推式支持向量机给定一组独立同分布的有标签训练样本点(x1,y1),(x2,y2),...,(xl,yl),x∈Rm,y∈{-1,1}和另一组来自同一分布的无标签样本点x1 *,x2 *,x3 *,...,xk *。在一般的线性不可分条件下,TSVM的训练过程可以描述为以下的优化问题:
( y 1 * , ... , y k * , w , b , &xi; 1 , ... , &xi; m , &xi; 1 * , ... , &xi; k * ) min 1 2 | | w | | 2 + C &Sigma; i = 1 l &xi; i + C * &Sigma; j = 1 k &xi; j * - - - ( 12 )
s u b j e c t t o &ForAll; i = 1 l : y i &lsqb; w &CenterDot; x i + b &rsqb; &GreaterEqual; 1 - &xi; i &ForAll; j = 1 k : y j &lsqb; w &CenterDot; x j * + b &rsqb; &GreaterEqual; 1 - &xi; j * &ForAll; i = 1 l : &xi; i &GreaterEqual; 0 &ForAll; j = 1 k : &xi; j * &GreaterEqual; 0
其中参数C和C*为用户指定和调节的参数,参数C*是未标识样本在训练过程中的影响因子,C*与ξj *称为未标识样本xj在目标函数中的影响项。
步骤三:迭代计算。
1)计算每一个样本到超平面的距离|f(x)|,选取N个距离|f(x)|≤d的样本点,在N个样本点中随机取出M个样本点。
2)假定训练集中M个无标记样本中正负样本的比例为1:1,并指定一个训练集中无标签样本的临时惩罚因子C*temp
3)用得到的样本分类器对训练集中的无标签样本进行重新分类,根据分类器对无标签数据记录的判别结果,对无标签数据做出正负分类判决,并将判决值较大的一半样本标记为正标签,另外一半标记为负样本。
4)用得到的经过重新标记的训练集数据对TSVM学习机进行重新训练,得到新的分类器。然后,按一定的规则交换一对标签值不同的训练样本的标签符号,即把起初标记为正样本的未标记样本中标记为负样本,起初标记为负样本的标记为正样本,计算式(3)的值,使得问题(3)的值获得最大下降。反复执行训练样本标签的变换,直到找不出满足交换条件的样本为止。
5)均匀地增加未标记样本的惩罚因子C*temp的值,并重新执行步骤(4),直到C*temp≥C时,TSVM的学习结束。
6)测试分类器的效果,并重复(1)至(5)的操作L次,选择具有最优正确率的分类器。
上述实施例用来解释说明本发明,而不是对本发明进行限制,在本发明的精神和权利要求的保护范围内,对本发明做出的任何修改和改变,都落入本发明的保护范围。
实施例
高炉炼铁是钢铁生产中的重要环节,是衡量一个国家的经济水平和综合国力的重要指标。保证大型高炉系统安全稳定的运行在经济和安全上都是十分必要的,所以对大型高炉非正常工况诊断与安全运行方法进行研究具有重要意义。
高炉冶炼是一个连续的生产过程,全过程在炉料自上而下,煤气自下而上的相互接触过程中完成。炉料按一定批料从炉顶装入炉内,从风口鼓入由热风炉加热到1000-1300℃热风,炉料中焦炭在风口前燃烧,产生高温和还原性气体,在炉内上升过程中加热缓慢下降的炉料,并还原铁矿石中的氧化物为金属铁。矿石升至一定温度后软化,熔融滴落,矿山中未被还原的物质形成熔渣,实现渣铁分离。渣铁聚集于炉缸内,发生诸多反应,最后调整成分和温度达到终点,定期从炉内排放炉渣和铁水。上升的煤气流将能量传给炉料而使温度降低,最终形成高炉煤气从炉顶导出管排出,进入除尘系统。
成立于1958年的某钢炼铁厂,是一个有着56年辉煌历史的设备先进、装备水平较高的大型冶炼企业,主要产品为生铁,副产品有炉尘、炉渣、高炉煤气等。它拥有7座现代化高炉,高炉整体有效容积为11750立方米,其中2号高炉有效容积为2000立方米,是目前该省最大的高炉。新高炉投产后,炼铁厂将具备年产生铁1000万吨以上的综合能力。
接下来结合该具体过程对本发明的实施步骤进行详细地阐述:
步骤一:初始化惩罚因子C,利用训练数据中包含的正负标签的数据进行归纳式学习,得到一个原始的样本分类器。
对于支持向量机,利用工业过程采集的离线数据集:
(x1,y1),(x2,y2),...,(xl,yl) (1)
y∈{-1,1}代表不同类。分类的任务是构建最优超平面f(x)=<w,φ(x)>+b,把属于不同类的向量xi分开。其中w为参数向量,φ(·)为输入空间到特征空间的映射函数。定义损失函数如下:
min R ( w , b ) = 1 2 < w , w > + c &CenterDot; R e m p - - - ( 2 )
第一部分定义了模型的结构复杂度;第二部分Remp为经验风险;c为调节常数,用于控制模型复杂度与逼近误差的折中。当经验风险取不同的函数时,得到不同的SVM分类器。当经验风险Remp=0,即仅仅考虑分类器的模型复杂度时,损失函数变为:
R ( w &CenterDot; b ) = 1 2 < w , w > - - - ( 3 )
优化问题描述为:
min R ( w , b ) = 1 2 < w , w > s u b j e c t t o y i ( < w , x i > - b ) &GreaterEqual; 1 , i = 1 , 2 , ... , l - - - ( 4 )
为了得到对偶的优化问题,引入拉格朗日乘子,得到拉格朗日方程:
L = 1 2 < w , w > - &Sigma; i = 1 l a i ( y i ( < w , x i > - b ) - 1 ) - - - ( 5 )
求该函数关于原始变量的微分:
&part; L &part; w = w - &Sigma; i = 1 l a i y i x i = 0 - - - ( 6 )
&part; L &part; b = &Sigma; i = 1 l a i y i = 0 - - - ( 7 )
将公式(6)(7)带入拉格朗日方程:
L = &Sigma; i = 1 l a i - 1 2 &Sigma; i = 1 l a i a j y i y j < x i , x j > - - - ( 8 )
得到对偶的优化问题:
max W ( a ) = &Sigma; i = 1 l a i - 1 2 &Sigma; i = 1 l a i a j y i y j < x i , x j > s u b j e c t t o &Sigma; i = 1 l a i y i = 0 , a i &GreaterEqual; 0 , i = 1 , 2 , ... , l - - - ( 9 )
为了容忍训练集中噪声和异常数据,定义间隔松弛向量,以其1范数作为经验风险,即得到1范数软间隔分类器。优化问题描述为:
min R ( w , b ) = 1 2 < w , w > + c &Sigma; i = 1 l &xi; i s u b j e c t t o y i ( < w , x i > - b ) &GreaterEqual; 1 - &xi; i , i = 1 , 2 , ... , l - - - ( 10 )
其中,ξi为松弛变量,它使得可以容忍训练数据的错误分类。当取ξi=0,i=1,2,…,l时,软间隔分类器退化成为硬间隔分类器。该优化问题的对偶问题为:
max W ( a ) = &Sigma; i = 1 l a i - 1 2 &Sigma; i = 1 j = 1 l a i a j y i y j < x i , x j > s u b j e c t t o &Sigma; i = 1 l a i y i = 0 , 0 &le; a i &le; C - - - ( 11 )
步骤二:初始化惩罚因子C*,用原始的样本分类器对无标签样本进行分类。基于迭代算法的直推式支持向量机给定一组独立同分布的有标签训练样本点(x1,y1),(x2,y2),..,(xl,yl),x∈Rm,y∈{-1,1}和另一组来自同一分布的无标签样本点x1 *,x2 *,x3 *,..,xk *。在一般的线性不可分条件下,TSVM的训练过程可以描述为以下的优化问题:
其中参数C和C*为用户指定和调节的参数,参数C*是未标识样本在训练过程中的影响因子,C*与ξj *称为未标识样本xj在目标函数中的影响项。
步骤三:迭代计算。
1)计算每一个样本到超平面的距离|f(x)|,选取N个距离|f(x)|≤d的样本点,在N个样本点中随机取出M个样本点。
2)假定训练集中M个无标记样本中正负样本的比例为1:1,并指定一个训练集中无标签样本的临时惩罚因子C*temp
3)用得到的样本分类器对训练集中的无标签样本进行重新分类,根据分类器对无标签数据记录的判别结果,对无标签数据做出正负分类判决,并将判决值较大的一半样本标记为正标签,另外一半标记为负样本。
4)用得到的经过重新标记的训练集数据对TSVM学习机进行重新训练,得到新的分类器。然后,按一定的规则交换一对标签值不同的训练样本的标签符号,即把起初标记为正样本的未标记样本中标记为负样本,起初标记为负样本的标记为正样本,计算式(3)的值,使得问题(3)的值获得最大下降。反复执行训练样本标签的变换,直到找不出满足交换条件的样本为止。
5)均匀地增加未标记样本的惩罚因子C*temp的值,并重新执行步骤(4),直到C*temp≥C时,TSVM的学习结束。
6)测试分类器的效果,并重复(1)至(5)的操作L次,选择具有最优正确率的分类器。
上述实施例用来解释说明本发明,而不是对本发明进行限制,在本发明的精神和权利要求的保护范围内,对本发明做出的任何修改和改变,都落入本发明的保护范围。

Claims (5)

1.一种改进的直推式支持向量机的大型高炉故障分类算法,其特征在于,主要采用对N个点的数据采取随机选择的策略,通过L次的选择,分别计算出L次的准确率,选取准确率最高的一次作为该模型的分类器,步骤如下:
步骤一:初始化惩罚因子C,利用训练数据中包含的正负标签的数据进行归纳式学习,得到一个原始的样本分类器;
步骤二:初始化惩罚因子C*,用原始的样本分类器对无标签样本进行分类;
步骤三:迭代计算。
2.根据权利要求1所述的方法,其特征在于,所述的步骤一建模过程如下:
对于支持向量机,给定数据样本集:
(x1,y1),(x2,y2),..,(xl,yl) (1)
y∈{-1,1}代表不同类,分类的任务是构建最优超平面f(x)=<w,φ(x)>+b,把属于不同类的向量xi分开,其中w为参数向量,φ(·)为输入空间到特征空间的映射函数,定义损失函数如下:
min R ( w , b ) = 1 2 < w , w > + c &CenterDot; R e m p - - - ( 2 )
第一部分定义了模型的结构复杂度;第二部分Remp为经验风险;c为调节常数,用于控制模型复杂度与逼近误差的折中,当经验风险取不同的函数时,得到不同的SVM分类器,当经验风险Remp=0,即仅仅考虑分类器的模型复杂度时,损失函数变为:
R ( w &CenterDot; b ) = 1 2 < w , w > - - - ( 3 )
优化问题描述为:
min R ( w , b ) = 1 2 < w , w > s u b j e c t t o y i ( < w , x i > - b ) &GreaterEqual; 1 , i = 1 , 2 , ... , l - - - ( 4 )
为了得到对偶的优化问题,引入拉格朗日乘子,得到拉格朗日方程:
L = 1 2 < w , w > - &Sigma; i = 1 l a i ( y i ( < w , x i > - b ) - 1 ) - - - ( 5 )
求该函数关于原始变量的微分:
&part; L &part; w = w - &Sigma; i = 1 l a i y i x i = 0 - - - ( 6 )
&part; L &part; b = &Sigma; i = 1 l a i y i = 0 - - - ( 7 )
将公式(6)(7)带入拉格朗日方程:
L = &Sigma; i = 1 l a i - 1 2 &Sigma; i = 1 l a i a j y i y j < x i , x j > - - - ( 8 )
得到对偶的优化问题:
max W ( a ) = &Sigma; i = 1 l a i - 1 2 &Sigma; i = 1 l a i a j y i y j < x i , x j > s u b j e c t t o &Sigma; i = 1 l a i y i = 0 , a i &GreaterEqual; 0 , i = 1 , 2 , ... , l - - - ( 9 )
为了容忍训练集中噪声和异常数据,定义间隔松弛向量,以其1范数作为经验风险,即得到1范数软间隔分类器。优化问题描述为:
min R ( w , b ) = 1 2 < w , w > + c &Sigma; i = 1 l &xi; i s u b j e c t t o y i ( < w , x i > - b ) &GreaterEqual; 1 - &xi; i , i = 1 , 2 , ... , l - - - ( 10 )
其中,ξi为松弛变量,它使得可以容忍训练数据的错误分类,当取ξi=0,i=1,2,…,l时,软间隔分类器退化成为硬间隔分类器,该优化问题的对偶问题为:
max W ( a ) = &Sigma; i = 1 l a i - 1 2 &Sigma; i = 1 j = 1 l a i a j y i y j < x i , x j > - - - ( 11 )
s u b j e c t t o &Sigma; i = 1 l a i y i = 0 , 0 &le; a i &le; C
3.根据权利要求1所述的方法,其特征在于,所述的步骤二建模过程如下:基于迭代算法的直推式支持向量机给定一组独立同分布的有标签训练样本点(x1,y1),(x2,y2),..,(xl,yl),x∈Rm,y∈{-1,1}和另一组来自同一分布的无标签样本点x1 *,x2 *,x3 *,..,xk *,在一般的线性不可分条件下,TSVM的训练过程描述为以下的优化问题:
( y 1 * , ... , y k * , w , b , &xi; 1 , ... , &xi; m , &xi; 1 * , ... , &xi; k * ) min 1 2 | | w | | 2 + C &Sigma; i = 1 l &xi; i + C * &Sigma; j = 1 k &xi; j * s u b j e c t t o &ForAll; i = 1 l : y i &lsqb; w &CenterDot; x i + b &rsqb; &GreaterEqual; 1 - &xi; i &ForAll; j = 1 k : y j &lsqb; w &CenterDot; x j * + b &rsqb; &GreaterEqual; 1 - &xi; j * &ForAll; i = 1 l : &xi; i &GreaterEqual; 0 &ForAll; j = 1 k : &xi; j * &GreaterEqual; 0 - - - ( 12 )
其中参数C和C*为用户指定和调节的参数,参数C*是未标识样本在训练过程中的影响因子,C*与ξj *称为未标识样本xj在目标函数中的影响项。
4.根据权利要求1所述的方法,其特征在于,步骤三所述的迭代计算过程如下:
1)计算每一个样本到超平面的距离|f(x)|,选取N个距离|f(x)|≤d的样本点,在N个样本点中随机取出M个样本点;
2)假定训练集中M个无标记样本中正负样本的比例为1:1,并指定一个训练集中无标签样本的临时惩罚因子C*temp
3)用得到的样本分类器对训练集中的无标签样本进行重新分类,根据分类器对无标签数据记录的判别结果,对无标签数据做出正负分类判决,并将判决值较大的一半样本标记为正标签,另外一半标记为负样本;
4)用得到的经过重新标记的训练集数据对TSVM学习机进行重新训练,得到新的分类器,然后,按一定的规则交换一对标签值不同的训练样本的标签符号,即把起初标记为正样本的未标记样本中标记为负样本,起初标记为负样本的标记为正样本,计算式(3)的值,使得问题(3)的值获得最大下降;反复执行训练样本标签的变换,直到找不出满足交换条件的样本为止;
5)均匀地增加未标记样本的惩罚因子C*temp的值,并重新执行步骤(4),直到C*temp≥C时,TSVM的学习结束;
6)测试分类器的效果,并重复(1)至(5)的操作L次,选择具有最优正确率的分类器。
5.一种根据权利要求1-4任一项所述的方法用于高炉冶炼过程故障分类。
CN201610624342.XA 2016-08-01 2016-08-01 改进的直推式支持向量机的大型高炉故障分类算法及应用 Pending CN106295685A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201610624342.XA CN106295685A (zh) 2016-08-01 2016-08-01 改进的直推式支持向量机的大型高炉故障分类算法及应用

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201610624342.XA CN106295685A (zh) 2016-08-01 2016-08-01 改进的直推式支持向量机的大型高炉故障分类算法及应用

Publications (1)

Publication Number Publication Date
CN106295685A true CN106295685A (zh) 2017-01-04

Family

ID=57664308

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201610624342.XA Pending CN106295685A (zh) 2016-08-01 2016-08-01 改进的直推式支持向量机的大型高炉故障分类算法及应用

Country Status (1)

Country Link
CN (1) CN106295685A (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107958274A (zh) * 2017-12-18 2018-04-24 广东广业开元科技有限公司 一种基于大数据分类算法的建筑消防安全指数计算方法
CN107976992A (zh) * 2017-11-29 2018-05-01 东北大学 基于图半监督支持向量机的工业过程大数据故障监测方法
CN110414622A (zh) * 2019-08-06 2019-11-05 广东工业大学 基于半监督学习的分类器训练方法及装置
CN112231971A (zh) * 2020-09-26 2021-01-15 浙江大学 基于相对整体趋势扩散故障样本生成的高炉故障诊断方法

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107976992A (zh) * 2017-11-29 2018-05-01 东北大学 基于图半监督支持向量机的工业过程大数据故障监测方法
CN107976992B (zh) * 2017-11-29 2020-01-21 东北大学 基于图半监督支持向量机的工业过程大数据故障监测方法
CN107958274A (zh) * 2017-12-18 2018-04-24 广东广业开元科技有限公司 一种基于大数据分类算法的建筑消防安全指数计算方法
CN110414622A (zh) * 2019-08-06 2019-11-05 广东工业大学 基于半监督学习的分类器训练方法及装置
CN110414622B (zh) * 2019-08-06 2022-06-24 广东工业大学 基于半监督学习的分类器训练方法及装置
CN112231971A (zh) * 2020-09-26 2021-01-15 浙江大学 基于相对整体趋势扩散故障样本生成的高炉故障诊断方法
CN112231971B (zh) * 2020-09-26 2022-07-05 浙江大学 基于相对整体趋势扩散故障样本生成的高炉故障诊断方法

Similar Documents

Publication Publication Date Title
Yan et al. Data‐driven modelling methods in sintering process: Current research status and perspectives
Li et al. Data-driven multiobjective optimization for burden surface in blast furnace with feedback compensation
Li et al. Dynamic time features expanding and extracting method for prediction model of sintering process quality index
Gao et al. Rule extraction from fuzzy-based blast furnace SVM multiclassifier for decision-making
CN112819802B (zh) 基于风口信息深度学习的监督及预测高炉炉况异常的方法
Yang et al. Forecasting of iron ore sintering quality index: A latent variable method with deep inner structure
Li et al. A novel MIMO T–S fuzzy modeling for prediction of blast furnace molten iron quality with missing outputs
CN108676955A (zh) 一种转炉炼钢终点碳含量和温度控制方法
CN106295685A (zh) 改进的直推式支持向量机的大型高炉故障分类算法及应用
Shi et al. Process metallurgy and data-driven prediction and feedback of blast furnace heat indicators
CN108388762A (zh) 基于深度置信网络的烧结矿化学成分预测方法
CN107092743A (zh) 基于规则辅助的高炉冶炼过程数据驱动建模方法
Feng et al. Process monitoring of abnormal working conditions in the zinc roasting process with an ALD-based LOF-PCA method
CN105574297B (zh) 自适应高炉铁水硅含量趋势预报方法
CN106096637A (zh) 基于Elman‑Adaboost强预测器的铁水硅含量预测方法
Yan et al. Knowledge and data dual-driven graph neural network for tumbler strength prediction in sintering process
Zhang et al. Multi-objective optimization of clean utilization for zinc leaching residues by rotary kiln using neural network coupled modeling
US20230130462A1 (en) Method and system for ironmaking plant optimization
CN115496124B (zh) 一种基于极小极大熵协同训练的高炉故障诊断方法
CN117548234B (zh) 一种用于泡沫浮选工况预估的级联特征选择方法
CN118822074A (zh) 多维度能耗预测方法和装置
Jagadeesan et al. Machine learning model to reduce the various defects on die casting process
Tian et al. Improved algorithm of extreme gradient boosting for predicting silicon content in large proportion pellet smelting process
Xu et al. Blast Furnace Condition Recognizing in the Ironmaking Process Based on Prior Knowledge and Platt Scaling Probability
Li et al. Long short-term memory based on random forest-recursive feature eliminated for hot metal silcion content prediction of blast furnace

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20170104