CN107728476A - 一种基于SVM‑forest的从非平衡类数据中提取敏感数据的方法 - Google Patents

一种基于SVM‑forest的从非平衡类数据中提取敏感数据的方法 Download PDF

Info

Publication number
CN107728476A
CN107728476A CN201710849226.2A CN201710849226A CN107728476A CN 107728476 A CN107728476 A CN 107728476A CN 201710849226 A CN201710849226 A CN 201710849226A CN 107728476 A CN107728476 A CN 107728476A
Authority
CN
China
Prior art keywords
svm
tree
classification
forest
training
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201710849226.2A
Other languages
English (en)
Other versions
CN107728476B (zh
Inventor
葛志强
陈革成
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Zhejiang University ZJU
Original Assignee
Zhejiang University ZJU
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Zhejiang University ZJU filed Critical Zhejiang University ZJU
Priority to CN201710849226.2A priority Critical patent/CN107728476B/zh
Publication of CN107728476A publication Critical patent/CN107728476A/zh
Application granted granted Critical
Publication of CN107728476B publication Critical patent/CN107728476B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G05CONTROLLING; REGULATING
    • G05BCONTROL OR REGULATING SYSTEMS IN GENERAL; FUNCTIONAL ELEMENTS OF SUCH SYSTEMS; MONITORING OR TESTING ARRANGEMENTS FOR SUCH SYSTEMS OR ELEMENTS
    • G05B13/00Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion
    • G05B13/02Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion electric
    • G05B13/04Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion electric involving the use of models or simulators
    • G05B13/042Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion electric involving the use of models or simulators in which a parameter or coefficient is automatically adjusted to optimise the performance

Landscapes

  • Engineering & Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Computation (AREA)
  • Medical Informatics (AREA)
  • Software Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Automation & Control Theory (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开一种基于SVM‑forest的从非平衡类数据中提取敏感数据的方法,该方法先从有标签样本取出一部分作为测试样本,剩余作为训练样本,采用k‑means将正常工况类别分割为子类,并与故障工况类别数据混合,形成N个训练子集,并使用SVM‑tree的方法训练出SVM‑forest,并利用测试样本对对SVM‑forest进行测试,选择对故障工况错分率最高的L棵树,保留一部分对分类效果影响较大的数据,然后根据选择分类算法对测试集中的少数类和剩下的多数类训练出一个分类器T,并使用临时测试样本测试T的分类效果,直到效果达到要求。本发明的敏感数据提取方法通过多次迭代选取多数样本集中对分类效果影响较大的样本,以此降低不平衡度,使分类效果接近或者达到同等情况下的均衡分类效果。

Description

一种基于SVM-forest的从非平衡类数据中提取敏感数据的 方法
技术领域
本发明属于工业过程控制领域,尤其涉及一种基于SVM-forest的从非平衡类数据中提取敏感数据的方法。
背景技术
在工业故障分类的工作中,一些常用的分类方法都会有一个使用前提,即在训练集中各类数据的数据量相当。但是现实的情况往往不是这样,当某一类数据很多,或者某一类数据很少,即不平衡类数据出现时,直接使用传统的分类方法则会产生很大的分类误差。
发明内容
针对现有技术的不足,本发明提出一种基于SVM-forest的从非平衡类数据中提取敏感数据的方法,该方法主要针对采样层面对传统分类方法进行改进,通过多次迭代选取多数样本集中对分类效果影响较大的样本,以此降低不平衡度,使分类效果接近或者达到同等情况下的均衡分类效果。具体技术方案如下:
一种基于SVM-forest的从非平衡类数据中提取敏感数据的方法,其特征在于,包括以下步骤:
步骤一:收集建模用的有标签样本,对其进行预处理和归一化,所述的有标签样本包括工业过程中正常工况的数据以及各种故障工况的数据,分为C个故障工况类别和1个正常工况类别,按类别取出10%~20%的样本作为临时测试样本集Q,剩余的80%~90%作为训练样本集,即Xl=[X1;X2;...;Xi;...;XC+1],其中,Xi表示每个类别的样本集其中ni为训练样本数,m为过程变量数,R为实数集;记录所述的有标签训练样本集Xl=[X1;X2;...;XC+1]的所有数据的标签信息,标记正常工况标签为1,故障工况标签依次为2,...,C+1,则每个类别的标签信息为Yi=[i,i,...i],i=1,2,...,C+1,完整的标签集为Yl=[Y1;Y2;...;YC+1];其中,正常工况类别n1的数据多于故障工况类别的数据,每个故障工况类别的数据量相等,各个工况数据量的差别用不平衡度为u表征,即
步骤二:使用k-means聚类方法,将正常工况类别X1分为N个子集,X1=[X11;X12;...;X1N],将这N个子集分别与故障工况类别数据组成N个训练子集,其中,N的取值为考虑不平衡度和计算复杂度的经验值;
步骤三:对步骤二中的N个训练子集分别使用SVM-tree方法,得到包含N棵SVM-tree的SVM-forest;
步骤四:使用临时测试样本集Q对步骤三中的每棵SVM-tree进行测试,计算出每棵SVM-tree对于所有故障工况类别的错分率;
步骤五:对每种故障工况类别的所有的SVM-tree的错分率进行排序,并按照故障类别分别选取前棵树,取整,若取出的树有重复,则按照错分率顺延再往后取树,直到得到L棵不同的树,并保留这些树所对应的正常工况类别的训练样本,形成一个新的正常工况类别训练样本集
步骤六:选取一个分类算法对新形成的训练样本集进行训练,得到一个分类器,并用临时测试集Q对得到的分类器进行测试,得到正确率P;
步骤七:当P达到要求时停止计算,如果P还未达到要求,则重复步骤二至六,直到P达到要求,则此时的训练样本集为所需要的敏感数据集。
进一步地,所述步骤二具体为:
(1)随机选取N个样本值作为初始均值向量令每个向量xNa=[qa1,...,qam],其中a=1,2,...,N;
(2)分别按下式计算每个样本与N个均值向量的欧式距离,第j个样本与第a个均值向量之间的欧氏距离为
其中j=1,2,...,n1;将dja最小的样本xj的簇标记记为a;
(3)重新计算每个簇的均值向量,并对这N个均值向量重复步骤(1)和(2);直到均值向量不再变化,得出N个簇,即N个子类X1=[X11;X12;...;X1N];再将其分别与故障工况类[X2;...;XC+1]构成N个训练子集ra,ra=[X1a;X2;...;XC+1],其中a=1,2,...,N。
进一步地,所述步骤三具体为:
(1)对于训练子集r1=[X11;X2;...;XC+1],通过计算每个工况类别每个维度的平均值获得每个工况类别的中心点,得到与类别对应的中心点集为O=[o1,o2,...,oC+1];
(2)将训练样本集进行拆分:使用k-means聚类方法,将中心点集O分为2个子集O1,O2,则,分别属于O1,O2包含的中心点所对应的类别的训练样本子集为D1,D2
(3)构建树的根节点:使用SVM在D1,D2之间构建超平面,则树的两个分支为D1,D2
(4)分别对D1,D2对应的节点重复(2)和(3)的操作,再对D1,D2分别得到的分支对应的节点重复(2)和(3)的操作,以此类推,直到每一个叶节点都只包含一个类别停止,完成SVM-tree的构建;
对其他的训练子集ra,重复(1)~(4),构建出包含N棵树的SVM-forest。
进一步地,所述步骤四具体为:
将临时测试样本集Q中的每一个测试样本分别带入(4)中构建的每一棵SVM-tree中,得到该测试样本的标签,并计算每棵树对于各个故障工况类别的错分率。
进一步地,所述的步骤五具体为:
(1)将步骤四中得到的各个故障工况类别的错分率按从大到小分别排序;
(2)按照故障工况类别分别选取前棵树,取整,若取出的树有重复,则按照错分率顺延再往后取树,直到得到L棵不同的树;
(3)将L棵不同的树对应的正常工况类别的训练样本子集重新构成一个正常工况类别训练样本集并与故障工况类别训练样本集重新构成一个新的训练样本集
进一步地,所述的步骤六具体为:选取一个分类算法,用训练出一个分类器,并使用临时测试样本集Q测试该分类器的分类效果,如果达到要求,则停止计算,如果还未达到要求,则重复上述算法,直到P接近或者达到要求。
进一步地,所述的步骤二中N取10~20,步骤五中L取值为取整。
进一步地,所述的步骤六中的分类算法为SVM-tree。
与现有技术相比,本发明的有益效果如下:
本发明提出的基于SVM-forest的从非平衡类数据中提取敏感数据的方法主要针对采样层面对传统分类方法进行改进,通过多次迭代选取多数样本集中对分类效果影响较大的样本,以此降低不平衡度,使分类效果接近或者达到同等情况下的均衡分类效果。
附图说明
图1为SVM-tree处理均衡类数据的结果示意图;
图2为SVM-tree处理非均衡数据的结果示意图;
图3为经过数据选取之后的SVM-tree处理非均衡数据的结果示意图。
具体实施方式
下面结合具体的实施例对本发明的基于SVM-forest的从非平衡类数据中提取敏感数据的方法作进一步阐述。
一种基于SVM-forest的从非平衡类数据中提取敏感数据的方法,其特征在于,包括以下步骤:
步骤一:收集建模用的有标签样本,对其进行预处理和归一化,所述的有标签样本包括工业过程中正常工况的数据以及各种故障工况的数据,分为C个故障工况类别和1个正常工况类别,按类别取出10%~20%的样本作为临时测试样本集Q,剩余的80%~90%作为训练样本集,即Xl=[X1;X2;...;Xi;...;XC+1],其中,Xi表示每个类别的样本集其中ni为训练样本数,m为过程变量数,R为实数集;记录所述的有标签训练样本集Xl=[X1;X2;...;XC+1]的所有数据的标签信息,标记正常工况标签为1,故障工况标签依次为2,...,C+1,则每个类别的标签信息为Yi=[i,i,...i],i=1,2,...,C+1,完整的标签集为Yl=[Y1;Y2;...;YC+1];其中,正常工况类别n1的数据多于故障工况类别的数据,每个故障工况类别的数据量相等,各个工况数据量的差别用不平衡度为u表征,即
步骤二:使用k-means聚类方法,将正常工况类别X1分为N个子集,N取10~20,X1=[X11;X12;...;X1N],将这N个子集分别与故障工况类别数据组成N个训练子集,其中,N的取值为考虑不平衡度和计算复杂度的经验值;
(1)随机选取N个样本值作为初始均值向量令每个向量xNa=[qa1,...,qam],其中a=1,2,...,N;
(2)分别按下式计算每个样本与N个均值向量的欧式距离,第j个样本与第a个均值向量之间的欧氏距离为
其中j=1,2,...,n1;将dja最小的样本xj的簇标记记为a;
(3)重新计算每个簇的均值向量,并对这N个均值向量重复步骤(1)和(2);直到均值向量不再变化,得出N个簇,即N个子类X1=[X11;X12;...;X1N];再将其分别与故障工况类[X2;...;XC+1]构成N个训练子集ra,ra=[X1a;X2;...;XC+1],其中a=1,2,...,N。
步骤三:对步骤二中的N个训练子集分别使用SVM-tree方法,得到包含N棵SVM-tree的SVM-forest;
(1)对于训练子集r1=[X11;X2;...;XC+1],通过计算每个工况类别每个维度的平均值获得每个工况类别的中心点,得到与类别对应的中心点集为O=[o1,o2,...,oC+1];
(2)将训练样本集进行拆分:使用k-means聚类方法,将中心点集O分为2个子集O1,O2,则,分别属于O1,O2包含的中心点所对应的类别的训练样本子集为D1,D2
(3)构建树的根节点:使用SVM在D1,D2之间构建超平面,则树的两个分支为D1,D2
(4)分别对D1,D2对应的节点重复(2)和(3)的操作,再对D1,D2分别得到的分支对应的节点重复(2)和(3)的操作,以此类推,直到每一个叶节点都只包含一个类别停止,完成SVM-tree的构建;
对其他的训练子集ra,重复(1)~(4),构建出包含N棵树的SVM-forest。
步骤四:使用临时测试样本集Q对步骤三中的每棵SVM-tree进行测试,计算出每棵SVM-tree对于所有故障工况类别的错分率;
将临时测试样本集Q中的每一个测试样本分别带入(4)中构建的每一棵SVM-tree中,得到该测试样本的标签,并计算每棵树对于各个故障工况类别的错分率。
步骤五:对每种故障工况类别的所有的SVM-tree的错分率进行排序,并按照故障类别分别选取前棵树,取整,L取值为取整;若取出的树有重复,则按照错分率顺延再往后取树,直到得到L棵不同的树,并保留这些树所对应的正常工况类别的训练样本,形成一个新的正常工况类别训练样本集
(1)将步骤四中得到的各个故障工况类别的错分率按从大到小分别排序;
(2)按照故障工况类别分别选取前棵树,取整,若取出的树有重复,则按照错分率顺延再往后取树,直到得到L棵不同的树;
(3)将L棵不同的树对应的正常工况类别的训练样本子集重新构成一个正常工况类别训练样本集并与故障工况类别训练样本集重新构成一个新的训练样本集
步骤六:选取SVM-tree分类算法对新形成的训练样本集进行训练,得到一个分类器,并用临时测试集Q对得到的分类器进行测试,得到正确率P;
选取一个分类算法,用训练出一个分类器,并使用临时测试样本集Q测试该分类器的分类效果,如果达到要求,则停止计算,如果还未达到要求,则重复上述算法,直到P接近或者达到要求。
步骤七:当P达到要求时停止计算,如果P还未达到要求,则重复步骤二至六,直到P达到要求,则此时的训练样本集为所需要的敏感数据集。
以下结合一个具体的工业过程的例子来说明本发明的有效性。该过程的数据来自美国TE(Tennessee Eastman——田纳西-伊斯曼)化工过程实验,原型是Eastman化学公司的一个实际工艺流程。目前,TE过程己经作为典型的化工过程故障检测与诊断对象被广泛研究。整个TE过程包括41个测量变量和12个操作变量(控制变量),其中41个测量变量包括22个连续测量变量和19个成分测量值,它们每3分钟被采样一次。其中包括21批故障数据。这些故障中,16个是己知的,5个是未知的。故障1~7与过程变量的阶跃变化有关,如冷却水的入口温度或者进料成分的变化。故障8~12与一些过程变量的可变性增大有关系。故障13是反应动力学中的缓慢漂移,故障14、15和21是与粘滞阀有关的。故障16~20是未知的。为了对该过程进行监测,一共选取了44个过程变量,如表1所示。本实施例中采用前22个过程变量。
表1:监控变量说明
1.采集正常数据以及2种故障数据作为训练样本数据,进行数据预处理和归一化。本实验中分别选择了正常工况以及故障7、8作为训练样本。采样时间为3min,不平衡类测试样本为正常工况含有标签样本15000个样本,其余故障分类分别选择有标签样本30个,平衡类测试样本为正常工况含有标签样本30个样本,其余故障分类分别选择有标签样本30个;
2.针对均衡类训练集,则直接使用SVM-tree方法训练出分类器,并得到其分类效果,如图1所示;
3.针对非均衡类训练集,先直接使用SVM-tree方法训练出分类器,并得到其分类效果,如图2所示;
4.针对非均衡类训练集,再取出5000个正常工况样本,10个故障7样本,10个故障8样本作为临时测试样本集Q,剩余的训练集以下称为训练集Xl=[X1;X2;...;XC+1];
5.使用k-means聚类方法,将X1分为10个子集,即X1=[X11;X12;...;X110],将这10个子类分别与少数类组成10个训练子集;
6.对5中的10个训练子集分别使用SVM-tree方法,则可以得到一个包含10棵SVM-tree的SVM-forest;
7.使用临时测试样本集Q对6中每一棵树进行测试,并计算出每棵树对于故障7,8的错分率;
8.在故障7,8的错分率中分别选取前3棵树,如果相互之间有重复的树则顺延往后取,最后总共取出6棵不同的树。并保留这些树所对应的多数类测试样本,其他的多数类测试样本则除去,此时形成了一个新的多数类测试样本集
9.使用SVM-tree对新形成的测试样本集进行训练,并用临时测试样本集Q对得到的分类器进行测试,得到正确率P,若P接近均衡类训练集的分类效果,则停止计算,如果P还与其距离较远,则重复上述算法。对于最终的测试集,编号1~100为正常类,101~180为故障7的样本,181~310为故障8的样本,如图3所示。
对比图3和图1,可以看出,本发明的敏感数据提取方法能够最大程度地降低不平衡度对于分类性能的影响,使其分类效果接近于均衡类训练集的分类效果。

Claims (8)

1.一种基于SVM-forest的从非平衡类数据中提取敏感数据的方法,其特征在于,包括以下步骤:
步骤一:收集建模用的有标签样本,对其进行预处理和归一化,所述的有标签样本包括工业过程中正常工况的数据以及各种故障工况的数据,分为C个故障工况类别和1个正常工况类别,按类别取出10%~20%的样本作为临时测试样本集Q,剩余的80%~90%作为训练样本集,即Xl=[X1;X2;...;Xi;...;XC+1],其中,Xi表示每个类别的样本集其中ni为训练样本数,m为过程变量数,R为实数集;记录所述的有标签训练样本集Xl=[X1;X2;...;XC+1]的所有数据的标签信息,标记正常工况标签为1,故障工况标签依次为2,...,C+1,则每个类别的标签信息为Yi=[i,i,...i],i=1,2,...,C+1,完整的标签集为Yl=[Y1;Y2;...;YC+1];其中,正常工况类别n1的数据多于故障工况类别的数据,每个故障工况类别的数据量相等,各个工况数据量的差别用不平衡度为u表征,即
步骤二:使用k-means聚类方法,将正常工况类别X1分为N个子集,X1=[X11;X12;...;X1N],将这N个子集分别与故障工况类别数据组成N个训练子集,其中,N的取值为考虑不平衡度和计算复杂度的经验值;
步骤三:对步骤二中的N个训练子集分别使用SVM-tree方法,得到包含N棵SVM-tree的SVM-forest;
步骤四:使用临时测试样本集Q对步骤三中的每棵SVM-tree进行测试,计算出每棵SVM-tree对于所有故障工况类别的错分率;
步骤五:对每种故障工况类别的所有的SVM-tree的错分率进行排序,并按照故障类别分别选取前棵树,取整,若取出的树有重复,则按照错分率顺延再往后取树,直到得到L棵不同的树,并保留这些树所对应的正常工况类别的训练样本,形成一个新的正常工况类别训练样本集
步骤六:选取一个分类算法对新形成的训练样本集进行训练,得到一个分类器,并用临时测试集Q对得到的分类器进行测试,得到正确率P;
步骤七:当P达到要求时停止计算,如果P还未达到要求,则重复步骤二至六,直到P达到要求,则此时的训练样本集为所需要的敏感数据集。
2.根据权利要求1所述的基于SVM-forest的从非平衡类数据中提取敏感数据的方法,其特征在于,所述步骤二具体为:
(1)随机选取N个样本值作为初始均值向量令每个向量xNa=[qa1,...,qam],其中a=1,2,...,N;
(2)分别按下式计算每个样本与N个均值向量的欧式距离,第j个样本与第a个均值向量之间的欧氏距离为
<mrow> <msub> <mi>d</mi> <mrow> <mi>j</mi> <mi>a</mi> </mrow> </msub> <mo>=</mo> <munderover> <mo>&amp;Sigma;</mo> <mrow> <mi>k</mi> <mo>=</mo> <mn>1</mn> </mrow> <mi>m</mi> </munderover> <msup> <mrow> <mo>(</mo> <msub> <mi>p</mi> <mrow> <mi>j</mi> <mi>k</mi> </mrow> </msub> <mo>-</mo> <msub> <mi>q</mi> <mrow> <mi>a</mi> <mi>k</mi> </mrow> </msub> <mo>)</mo> </mrow> <mn>2</mn> </msup> </mrow>
其中j=1,2,...,n1;将dja最小的样本xj的簇标记记为a;
(3)重新计算每个簇的均值向量,并对这N个均值向量重复步骤(1)和(2);直到均值向量不再变化,得出N个簇,即N个子类X1=[X11;X12;...;X1N];再将其分别与故障工况类[X2;...;XC+1]构成N个训练子集ra,ra=[X1a;X2;...;XC+1],其中a=1,2,...,N。
3.根据权利要求1所述的基于SVM-forest的从非平衡类数据中提取敏感数据的方法,其特征在于,所述步骤三具体为:
(1)对于训练子集r1=[X11;X2;...;XC+1],通过计算每个工况类别每个维度的平均值获得每个工况类别的中心点,得到与类别对应的中心点集为O=[o1,o2,...,oC+1];
(2)将训练样本集进行拆分:使用k-means聚类方法,将中心点集O分为2个子集O1,O2,则分别属于O1,O2包含的中心点所对应的类别的训练样本子集为D1,D2
(3)构建树的根节点:使用SVM在D1,D2之间构建超平面,则树的两个分支为D1,D2
(4)分别对D1,D2对应的节点重复(2)和(3)的操作,再对D1,D2分别得到的分支对应的节点重复(2)和(3)的操作,以此类推,直到每一个叶节点都只包含一个类别停止,完成SVM-tree的构建;
对其他的训练子集ra,重复(1)~(4),构建出包含N棵树的SVM-forest。
4.根据权利要求3所述的基于SVM-forest的从非平衡类数据中提取敏感数据的方法,其特征在于,所述步骤四具体为:
将临时测试样本集Q中的每一个测试样本分别带入(4)中构建的每一棵SVM-tree中,得到该测试样本的标签,并计算每棵树对于各个故障工况类别的错分率。
5.根据权利要求4所述的基于SVM-forest的从非平衡类数据中提取敏感数据的方法,其特征在于,所述的步骤五具体为:
(1)将步骤四中得到的各个故障工况类别的错分率按从大到小分别排序;
(2)按照故障工况类别分别选取前棵树,取整,若取出的树有重复,则按照错分率顺延再往后取树,直到得到L棵不同的树;
(3)将L棵不同的树对应的正常工况类别的训练样本子集重新构成一个正常工况类别训练样本集并与故障工况类别训练样本集重新构成一个新的训练样本集
6.根据权利要求1所述的基于SVM-forest的从非平衡类数据中提取敏感数据的方法,其特征在于,所述的步骤六具体为:选取一个分类算法,用训练出一个分类器,并使用临时测试样本集Q测试该分类器的分类效果,如果达到要求,则停止计算,如果还未达到要求,则重复上述算法,直到P接近或者达到要求。
7.根据权利要求1的基于SVM-forest的从非平衡类数据中提取敏感数据的方法,所述的步骤二中N取10~20,步骤五中L取值为取整。
8.根据权利要求1所述的基于SVM-forest的从非平衡类数据中提取敏感数据的方法,所述的步骤六中的分类算法为SVM-tree。
CN201710849226.2A 2017-09-20 2017-09-20 一种基于SVM-forest的从非平衡类数据中提取敏感数据的方法 Active CN107728476B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201710849226.2A CN107728476B (zh) 2017-09-20 2017-09-20 一种基于SVM-forest的从非平衡类数据中提取敏感数据的方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201710849226.2A CN107728476B (zh) 2017-09-20 2017-09-20 一种基于SVM-forest的从非平衡类数据中提取敏感数据的方法

Publications (2)

Publication Number Publication Date
CN107728476A true CN107728476A (zh) 2018-02-23
CN107728476B CN107728476B (zh) 2020-05-22

Family

ID=61207572

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201710849226.2A Active CN107728476B (zh) 2017-09-20 2017-09-20 一种基于SVM-forest的从非平衡类数据中提取敏感数据的方法

Country Status (1)

Country Link
CN (1) CN107728476B (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109460872A (zh) * 2018-11-14 2019-03-12 重庆邮电大学 一种面向移动通信用户流失不平衡数据预测方法
CN110660479A (zh) * 2019-09-18 2020-01-07 苏州晗林信息技术发展有限公司 一种动态医学影像ai训练诊断系统
CN111753867B (zh) * 2019-03-28 2024-05-28 通用汽车环球科技运作有限责任公司 使用机器学习分类器来监视和诊断车辆系统问题

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102521656A (zh) * 2011-12-29 2012-06-27 北京工商大学 非平衡样本分类的集成迁移学习方法
JP5159368B2 (ja) * 2008-02-29 2013-03-06 インターナショナル・ビジネス・マシーンズ・コーポレーション 変化分析システム、方法及びプログラム
CN104102718A (zh) * 2014-07-17 2014-10-15 哈尔滨理工大学 面向失衡数据集的簇边界采样与动态剪枝的失衡数据分类方法
CN104951809A (zh) * 2015-07-14 2015-09-30 西安电子科技大学 基于不平衡分类指标与集成学习的不平衡数据分类方法
CN105354583A (zh) * 2015-08-24 2016-02-24 西安电子科技大学 基于局部均值的不平衡数据分类方法
CN105844300A (zh) * 2016-03-24 2016-08-10 河南师范大学 一种基于随机森林算法的优化分类方法及装置

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP5159368B2 (ja) * 2008-02-29 2013-03-06 インターナショナル・ビジネス・マシーンズ・コーポレーション 変化分析システム、方法及びプログラム
CN102521656A (zh) * 2011-12-29 2012-06-27 北京工商大学 非平衡样本分类的集成迁移学习方法
CN104102718A (zh) * 2014-07-17 2014-10-15 哈尔滨理工大学 面向失衡数据集的簇边界采样与动态剪枝的失衡数据分类方法
CN104951809A (zh) * 2015-07-14 2015-09-30 西安电子科技大学 基于不平衡分类指标与集成学习的不平衡数据分类方法
CN105354583A (zh) * 2015-08-24 2016-02-24 西安电子科技大学 基于局部均值的不平衡数据分类方法
CN105844300A (zh) * 2016-03-24 2016-08-10 河南师范大学 一种基于随机森林算法的优化分类方法及装置

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
MIRA TREBAR等: "Application of distributed SVM architectures in classifying", 《APPLICATION OF DISTRIBUTED SVM ARCHITECTURES IN CLASSIFYING》 *
TRIGUERO等: "Evolutionary Undersampling for Imbalanced Big Data Classification", 《2015 IEEE CONGRESS ON EVOLUTIONARY COMPUTATION (CEC)》 *
孟媛媛等: "一种新的基于二叉树的SVM多类分类方法", 《计算机应用》 *
肖坚: "基于随机森林的不平衡数据分类方法研究", 《中国优秀硕士学位论文全文数据库 信息科技辑》 *

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109460872A (zh) * 2018-11-14 2019-03-12 重庆邮电大学 一种面向移动通信用户流失不平衡数据预测方法
CN109460872B (zh) * 2018-11-14 2021-11-16 重庆邮电大学 一种面向移动通信用户流失不平衡数据预测方法
CN111753867B (zh) * 2019-03-28 2024-05-28 通用汽车环球科技运作有限责任公司 使用机器学习分类器来监视和诊断车辆系统问题
CN110660479A (zh) * 2019-09-18 2020-01-07 苏州晗林信息技术发展有限公司 一种动态医学影像ai训练诊断系统

Also Published As

Publication number Publication date
CN107728476B (zh) 2020-05-22

Similar Documents

Publication Publication Date Title
CN104699606B (zh) 一种基于隐马尔科夫模型的软件系统状态预测方法
US8868985B2 (en) Supervised fault learning using rule-generated samples for machine condition monitoring
CN107066791A (zh) 一种基于病人检验结果的辅助疾病诊断方法
CN107657274A (zh) 一种基于k‑means的二叉SVM‑tree不平衡数据工业故障分类方法
CN107728476A (zh) 一种基于SVM‑forest的从非平衡类数据中提取敏感数据的方法
CN106021771A (zh) 一种故障诊断方法及装置
CN106991447A (zh) 一种嵌入式多类别属性标签动态特征选择算法
CN117273422B (zh) 用于数字化生产的供应链协同管控方法及系统
CN115021679B (zh) 一种基于多维离群点检测的光伏设备故障检测方法
CN106092625B (zh) 基于修正型独立元分析和贝叶斯概率融合的工业过程故障检测方法
CN106874688A (zh) 基于卷积神经网络的智能化先导化合物发现方法
CN109273096A (zh) 一种基于机器学习的药品风险分级评估方法
CN105930629B (zh) 一种基于海量运行数据的在线故障诊断方法
CN106874658A (zh) 一种基于主成分分析算法的医保欺诈识别方法
CN104914850B (zh) 基于切换线性动态系统模型的工业过程故障诊断方法
CN104699077A (zh) 一种基于嵌套迭代费舍尔判别分析的故障变量隔离方法
CN111860775B (zh) 基于cnn和rnn融合的船舶故障实时诊断方法
CN105528288A (zh) 一种软件测试方法以及装置
CN105389480A (zh) 多类不平衡基因组学数据迭代集成特征选择方法及系统
CN114595956B (zh) 一种基于灰度关联法模糊聚类算法的桉树土壤肥力分析方法
CN108090628A (zh) 一种基于pso-lssvm算法的粮情安全检测分析方法
CN113516228B (zh) 一种基于深度神经网络的网络异常检测方法
CN113128567A (zh) 一种基于用电量数据的异常用电行为识别方法
CN103902798B (zh) 数据预处理方法
CN114266289A (zh) 一种复杂装备健康状态评估方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant