CN107728476B - 一种基于SVM-forest的从非平衡类数据中提取敏感数据的方法 - Google Patents
一种基于SVM-forest的从非平衡类数据中提取敏感数据的方法 Download PDFInfo
- Publication number
- CN107728476B CN107728476B CN201710849226.2A CN201710849226A CN107728476B CN 107728476 B CN107728476 B CN 107728476B CN 201710849226 A CN201710849226 A CN 201710849226A CN 107728476 B CN107728476 B CN 107728476B
- Authority
- CN
- China
- Prior art keywords
- training
- svm
- fault
- working condition
- tree
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 50
- 238000012549 training Methods 0.000 claims abstract description 77
- 238000012360 testing method Methods 0.000 claims abstract description 46
- 230000000694 effects Effects 0.000 claims abstract description 21
- 238000007635 classification algorithm Methods 0.000 claims abstract description 8
- 239000013598 vector Substances 0.000 claims description 21
- 238000004364 calculation method Methods 0.000 claims description 10
- 238000003064 k means clustering Methods 0.000 claims description 7
- 238000004519 manufacturing process Methods 0.000 claims description 5
- 238000004422 calculation algorithm Methods 0.000 claims description 4
- 238000007781 pre-processing Methods 0.000 claims description 4
- 238000010276 construction Methods 0.000 claims description 3
- 238000013075 data extraction Methods 0.000 abstract description 2
- 238000010586 diagram Methods 0.000 description 3
- 238000012545 processing Methods 0.000 description 3
- 238000005070 sampling Methods 0.000 description 3
- 238000001311 chemical methods and process Methods 0.000 description 2
- 238000002474 experimental method Methods 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 239000000470 constituent Substances 0.000 description 1
- 239000000498 cooling water Substances 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000001514 detection method Methods 0.000 description 1
- 238000003745 diagnosis Methods 0.000 description 1
- 238000013100 final test Methods 0.000 description 1
- 238000012544 monitoring process Methods 0.000 description 1
- 238000010606 normalization Methods 0.000 description 1
- 239000000126 substance Substances 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G05—CONTROLLING; REGULATING
- G05B—CONTROL OR REGULATING SYSTEMS IN GENERAL; FUNCTIONAL ELEMENTS OF SUCH SYSTEMS; MONITORING OR TESTING ARRANGEMENTS FOR SUCH SYSTEMS OR ELEMENTS
- G05B13/00—Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion
- G05B13/02—Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion electric
- G05B13/04—Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion electric involving the use of models or simulators
- G05B13/042—Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion electric involving the use of models or simulators in which a parameter or coefficient is automatically adjusted to optimise the performance
Landscapes
- Engineering & Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Computation (AREA)
- Medical Informatics (AREA)
- Software Systems (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Automation & Control Theory (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开一种基于SVM‑forest的从非平衡类数据中提取敏感数据的方法,该方法先从有标签样本取出一部分作为测试样本,剩余作为训练样本,采用k‑means将正常工况类别分割为子类,并与故障工况类别数据混合,形成N个训练子集,并使用SVM‑tree的方法训练出SVM‑forest,并利用测试样本对对SVM‑forest进行测试,选择对故障工况错分率最高的L棵树,保留一部分对分类效果影响较大的数据,然后根据选择分类算法对测试集中的少数类和剩下的多数类训练出一个分类器T,并使用临时测试样本测试T的分类效果,直到效果达到要求。本发明的敏感数据提取方法通过多次迭代选取多数样本集中对分类效果影响较大的样本,以此降低不平衡度,使分类效果接近或者达到同等情况下的均衡分类效果。
Description
技术领域
本发明属于工业过程控制领域,尤其涉及一种基于SVM-forest的从非平衡类数据中提取敏感数据的方法。
背景技术
在工业故障分类的工作中,一些常用的分类方法都会有一个使用前提,即在训练集中各类数据的数据量相当。但是现实的情况往往不是这样,当某一类数据很多,或者某一类数据很少,即不平衡类数据出现时,直接使用传统的分类方法则会产生很大的分类误差。
发明内容
针对现有技术的不足,本发明提出一种基于SVM-forest的从非平衡类数据中提取敏感数据的方法,该方法主要针对采样层面对传统分类方法进行改进,通过多次迭代选取多数样本集中对分类效果影响较大的样本,以此降低不平衡度,使分类效果接近或者达到同等情况下的均衡分类效果。具体技术方案如下:
一种基于SVM-forest的从非平衡类数据中提取敏感数据的方法,其特征在于,包括以下步骤:
步骤一:收集建模用的有标签样本,对其进行预处理和归一化,所述的有标签样本包括工业过程中正常工况的数据以及各种故障工况的数据,分为C个故障工况类别和1个正常工况类别,按类别取出10%~20%的样本作为临时测试样本集Q,剩余的80%~90%作为训练样本集,即Xl=[X1;X2;...;Xi;...;XC+1],其中,Xi表示每个类别的样本集其中ni为训练样本数,m为过程变量数,R为实数集;记录所述的有标签训练样本集Xl=[X1;X2;...;XC+1]的所有数据的标签信息,标记正常工况标签为1,故障工况标签依次为2,...,C+1,则每个类别的标签信息为Yi=[i,i,...i],i=1,2,...,C+1,完整的标签集为Yl=[Y1;Y2;...;YC+1];其中,正常工况类别n1的数据多于故障工况类别的数据,每个故障工况类别的数据量相等,各个工况数据量的差别用不平衡度为u表征,即
步骤二:使用k-means聚类方法,将正常工况类别X1分为N个子集,X1=[X11;X12;...;X1N],将这N个子集分别与故障工况类别数据组成N个训练子集,其中,N的取值为考虑不平衡度和计算复杂度的经验值;
步骤三:对步骤二中的N个训练子集分别使用SVM-tree方法,得到包含N棵SVM-tree的SVM-forest;
步骤四:使用临时测试样本集Q对步骤三中的每棵SVM-tree进行测试,计算出每棵SVM-tree对于所有故障工况类别的错分率;
步骤五:对每种故障工况类别的所有的SVM-tree的错分率进行排序,并按照故障类别分别选取前棵树,取整,若取出的树有重复,则按照错分率顺延再往后取树,直到得到L棵不同的树,并保留这些树所对应的正常工况类别的训练样本,形成一个新的正常工况类别训练样本集
步骤七:当P达到要求时停止计算,如果P还未达到要求,则重复步骤二至六,直到P达到要求,则此时的训练样本集为所需要的敏感数据集。
进一步地,所述步骤二具体为:
(2)分别按下式计算每个样本与N个均值向量的欧式距离,第j个样本与第a个均值向量之间的欧氏距离为
其中j=1,2,...,n1;将dja最小的样本xj的簇标记记为a;
(3)重新计算每个簇的均值向量,并对这N个均值向量重复步骤(1)和(2);直到均值向量不再变化,得出N个簇,即N个子类X1=[X11;X12;...;X1N];再将其分别与故障工况类[X2;...;XC+1]构成N个训练子集ra,ra=[X1a;X2;...;XC+1],其中a=1,2,...,N。
进一步地,所述步骤三具体为:
(1)对于训练子集r1=[X11;X2;...;XC+1],通过计算每个工况类别每个维度的平均值获得每个工况类别的中心点,得到与类别对应的中心点集为O=[o1,o2,...,oC+1];
(2)将训练样本集进行拆分:使用k-means聚类方法,将中心点集O分为2个子集O1,O2,则,分别属于O1,O2包含的中心点所对应的类别的训练样本子集为D1,D2;
(3)构建树的根节点:使用SVM在D1,D2之间构建超平面,则树的两个分支为D1,D2;
(4)分别对D1,D2对应的节点重复(2)和(3)的操作,再对D1,D2分别得到的分支对应的节点重复(2)和(3)的操作,以此类推,直到每一个叶节点都只包含一个类别停止,完成SVM-tree的构建;
对其他的训练子集ra,重复(1)~(4),构建出包含N棵树的SVM-forest。
进一步地,所述步骤四具体为:
将临时测试样本集Q中的每一个测试样本分别带入(4)中构建的每一棵SVM-tree中,得到该测试样本的标签,并计算每棵树对于各个故障工况类别的错分率。
进一步地,所述的步骤五具体为:
(1)将步骤四中得到的各个故障工况类别的错分率按从大到小分别排序;
进一步地,所述的步骤六中的分类算法为SVM-tree。
与现有技术相比,本发明的有益效果如下:
本发明提出的基于SVM-forest的从非平衡类数据中提取敏感数据的方法主要针对采样层面对传统分类方法进行改进,通过多次迭代选取多数样本集中对分类效果影响较大的样本,以此降低不平衡度,使分类效果接近或者达到同等情况下的均衡分类效果。
附图说明
图1为SVM-tree处理均衡类数据的结果示意图;
图2为SVM-tree处理非均衡数据的结果示意图;
图3为经过数据选取之后的SVM-tree处理非均衡数据的结果示意图。
具体实施方式
下面结合具体的实施例对本发明的基于SVM-forest的从非平衡类数据中提取敏感数据的方法作进一步阐述。
一种基于SVM-forest的从非平衡类数据中提取敏感数据的方法,其特征在于,包括以下步骤:
步骤一:收集建模用的有标签样本,对其进行预处理和归一化,所述的有标签样本包括工业过程中正常工况的数据以及各种故障工况的数据,分为C个故障工况类别和1个正常工况类别,按类别取出10%~20%的样本作为临时测试样本集Q,剩余的80%~90%作为训练样本集,即Xl=[X1;X2;...;Xi;...;XC+1],其中,Xi表示每个类别的样本集其中ni为训练样本数,m为过程变量数,R为实数集;记录所述的有标签训练样本集Xl=[X1;X2;...;XC+1]的所有数据的标签信息,标记正常工况标签为1,故障工况标签依次为2,...,C+1,则每个类别的标签信息为Yi=[i,i,...i],i=1,2,...,C+1,完整的标签集为Yl=[Y1;Y2;...;YC+1];其中,正常工况类别n1的数据多于故障工况类别的数据,每个故障工况类别的数据量相等,各个工况数据量的差别用不平衡度为u表征,即
步骤二:使用k-means聚类方法,将正常工况类别X1分为N个子集,N取10~20,X1=[X11;X12;...;X1N],将这N个子集分别与故障工况类别数据组成N个训练子集,其中,N的取值为考虑不平衡度和计算复杂度的经验值;
(2)分别按下式计算每个样本与N个均值向量的欧式距离,第j个样本与第a个均值向量之间的欧氏距离为
其中j=1,2,...,n1;将dja最小的样本xj的簇标记记为a;
(3)重新计算每个簇的均值向量,并对这N个均值向量重复步骤(1)和(2);直到均值向量不再变化,得出N个簇,即N个子类X1=[X11;X12;...;X1N];再将其分别与故障工况类[X2;...;XC+1]构成N个训练子集ra,ra=[X1a;X2;...;XC+1],其中a=1,2,...,N。
步骤三:对步骤二中的N个训练子集分别使用SVM-tree方法,得到包含N棵SVM-tree的SVM-forest;
(1)对于训练子集r1=[X11;X2;...;XC+1],通过计算每个工况类别每个维度的平均值获得每个工况类别的中心点,得到与类别对应的中心点集为O=[o1,o2,...,oC+1];
(2)将训练样本集进行拆分:使用k-means聚类方法,将中心点集O分为2个子集O1,O2,则,分别属于O1,O2包含的中心点所对应的类别的训练样本子集为D1,D2;
(3)构建树的根节点:使用SVM在D1,D2之间构建超平面,则树的两个分支为D1,D2;
(4)分别对D1,D2对应的节点重复(2)和(3)的操作,再对D1,D2分别得到的分支对应的节点重复(2)和(3)的操作,以此类推,直到每一个叶节点都只包含一个类别停止,完成SVM-tree的构建;
对其他的训练子集ra,重复(1)~(4),构建出包含N棵树的SVM-forest。
步骤四:使用临时测试样本集Q对步骤三中的每棵SVM-tree进行测试,计算出每棵SVM-tree对于所有故障工况类别的错分率;
将临时测试样本集Q中的每一个测试样本分别带入(4)中构建的每一棵SVM-tree中,得到该测试样本的标签,并计算每棵树对于各个故障工况类别的错分率。
步骤五:对每种故障工况类别的所有的SVM-tree的错分率进行排序,并按照故障类别分别选取前棵树,取整,L取值为取整;若取出的树有重复,则按照错分率顺延再往后取树,直到得到L棵不同的树,并保留这些树所对应的正常工况类别的训练样本,形成一个新的正常工况类别训练样本集
(1)将步骤四中得到的各个故障工况类别的错分率按从大到小分别排序;
步骤七:当P达到要求时停止计算,如果P还未达到要求,则重复步骤二至六,直到P达到要求,则此时的训练样本集为所需要的敏感数据集。
以下结合一个具体的工业过程的例子来说明本发明的有效性。该过程的数据来自美国TE(Tennessee Eastman——田纳西-伊斯曼)化工过程实验,原型是Eastman化学公司的一个实际工艺流程。目前,TE过程己经作为典型的化工过程故障检测与诊断对象被广泛研究。整个TE过程包括41个测量变量和12个操作变量(控制变量),其中41个测量变量包括22个连续测量变量和19个成分测量值,它们每3分钟被采样一次。其中包括21批故障数据。这些故障中,16个是己知的,5个是未知的。故障1~7与过程变量的阶跃变化有关,如冷却水的入口温度或者进料成分的变化。故障8~12与一些过程变量的可变性增大有关系。故障13是反应动力学中的缓慢漂移,故障14、15和21是与粘滞阀有关的。故障16~20是未知的。为了对该过程进行监测,一共选取了44个过程变量,如表1所示。本实施例中采用前22个过程变量。
表1:监控变量说明
1.采集正常数据以及2种故障数据作为训练样本数据,进行数据预处理和归一化。本实验中分别选择了正常工况以及故障7、8作为训练样本。采样时间为3min,不平衡类测试样本为正常工况含有标签样本15000个样本,其余故障分类分别选择有标签样本30个,平衡类测试样本为正常工况含有标签样本30个样本,其余故障分类分别选择有标签样本30个;
2.针对均衡类训练集,则直接使用SVM-tree方法训练出分类器,并得到其分类效果,如图1所示;
3.针对非均衡类训练集,先直接使用SVM-tree方法训练出分类器,并得到其分类效果,如图2所示;
4.针对非均衡类训练集,再取出5000个正常工况样本,10个故障7样本,10个故障8样本作为临时测试样本集Q,剩余的训练集以下称为训练集Xl=[X1;X2;...;XC+1];
5.使用k-means聚类方法,将X1分为10个子集,即X1=[X11;X12;...;X110],将这10个子类分别与少数类组成10个训练子集;
6.对5中的10个训练子集分别使用SVM-tree方法,则可以得到一个包含10棵SVM-tree的SVM-forest;
7.使用临时测试样本集Q对6中每一棵树进行测试,并计算出每棵树对于故障7,8的错分率;
8.在故障7,8的错分率中分别选取前3棵树,如果相互之间有重复的树则顺延往后取,最后总共取出6棵不同的树。并保留这些树所对应的多数类测试样本,其他的多数类测试样本则除去,此时形成了一个新的多数类测试样本集
9.使用SVM-tree对新形成的测试样本集进行训练,并用临时测试样本集Q对得到的分类器进行测试,得到正确率P,若P接近均衡类训练集的分类效果,则停止计算,如果P还与其距离较远,则重复上述算法。对于最终的测试集,编号1~100为正常类,101~180为故障7的样本,181~310为故障8的样本,如图3所示。
对比图3和图1,可以看出,本发明的敏感数据提取方法能够最大程度地降低不平衡度对于分类性能的影响,使其分类效果接近于均衡类训练集的分类效果。
Claims (1)
1.一种基于SVM-forest的从非平衡类数据中提取敏感数据的方法,其特征在于,包括以下步骤:
步骤一:收集建模用的有标签样本,对其进行预处理和归一化,所述的有标签样本包括工业过程中正常工况的数据以及各种故障工况的数据,分为C个故障工况类别和1个正常工况类别,按类别取出10%~20%的样本作为临时测试样本集Q,剩余的80%~90%作为训练样本集,即X l =[X1;X2;...;Xi;...;XC+1],其中,Xi表示每个类别的样本集X i =[x1;x2;...;xni],i=1,2...C+1,其中X i ∈Rm×ni,ni为训练样本数,m为过程变量数,R为实数集;记录所述的有标签训练样本集Xl=[X1;X2;...;XC+1]的所有数据的标签信息,标记正常工况标签为1,故障工况标签依次为2,...,C+1,则每个类别的标签信息为
Y i =[i,i,...i],i=1,2,...,C+1,完整的标签集为Y l =[Y1;Y2;...;YC+1];其中,正常工况类别n1的数据多于故障工况类别的数据,每个故障工况类别的数据量相等,各个工况数据量的差别用不平衡度为u表征,即
步骤二:使用k-means聚类方法,将正常工况类别X1分为N个子集,N取10~20,X1=[X11;X12;...;X1N],将这N个子集分别与故障工况类别数据组成N个训练子集,其中,N的取值为考虑不平衡度和计算复杂度的经验值;
(2)分别按下式计算每个样本与N个均值向量的欧式距离,第j个样本与第a个均值向量之间的欧氏距离为
其中j=1,2,...,n1;将dja最小的样本xj的簇标记记为a;
(3)重新计算每个簇的均值向量,并对这N个均值向量重复步骤(1)和(2);直到均值向量不再变化,得出N个簇,即N个子类X1=[X11;X12;...;X1N];再将其分别与故障工况类[X2;...;XC+1]构成N个训练子集ra,ra=[X1a;X2;...;XC+1],其中a=1,2,...,N;
步骤三:对步骤二中的N个训练子集分别使用SVM-tree方法,得到包含N棵SVM-tree的SVM-forest;
(1)对于训练子集r1=[X11;X2;...;XC+1],通过计算每个工况类别每个维度的平均值获得每个工况类别的中心点,得到与类别对应的中心点集为O=[o1,o2,...,oC+1];
(2)将训练样本集进行拆分:使用k-means聚类方法,将中心点集O分为2个子集O1,O2,则,分别属于O1,O2包含的中心点所对应的类别的训练样本子集为D1,D2;
(3)构建树的根节点:使用SVM在D1,D2之间构建超平面,则树的两个分支为D1,D2;
(4)分别对D1,D2对应的节点重复(2)和(3)的操作,再对D1,D2分别得到的分支对应的节点重复(2)和(3)的操作,以此类推,直到每一个叶节点都只包含一个类别停止,完成SVM-tree的构建;
对其他的训练子集ra,重复(1)~(4),构建出包含N棵树的SVM-forest;
步骤四:使用临时测试样本集Q对步骤三中的每棵SVM-tree进行测试,计算出每棵SVM-tree对于所有故障工况类别的错分率;
将临时测试样本集Q中的每一个测试样本分别带入(4)中构建的每一棵SVM-tree中,得到该测试样本的标签,并计算每棵树对于各个故障工况类别的错分率;
步骤五:对每种故障工况类别的所有的SVM-tree的错分率进行排序,并按照故障类别分别选取前棵树,取整,L取值为取整;若取出的树有重复,则按照错分率顺延再往后取树,直到得到L棵不同的树,并保留这些树所对应的正常工况类别的训练样本,形成一个新的正常工况类别训练样本集
(1)将步骤四中得到的各个故障工况类别的错分率按从大到小分别排序;
步骤七:当P达到要求时停止计算,如果P还未达到要求,则重复步骤二至六,直到P达到要求,则此时的训练样本集为所需要的敏感数据集。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710849226.2A CN107728476B (zh) | 2017-09-20 | 2017-09-20 | 一种基于SVM-forest的从非平衡类数据中提取敏感数据的方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710849226.2A CN107728476B (zh) | 2017-09-20 | 2017-09-20 | 一种基于SVM-forest的从非平衡类数据中提取敏感数据的方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN107728476A CN107728476A (zh) | 2018-02-23 |
CN107728476B true CN107728476B (zh) | 2020-05-22 |
Family
ID=61207572
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201710849226.2A Active CN107728476B (zh) | 2017-09-20 | 2017-09-20 | 一种基于SVM-forest的从非平衡类数据中提取敏感数据的方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN107728476B (zh) |
Families Citing this family (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109460872B (zh) * | 2018-11-14 | 2021-11-16 | 重庆邮电大学 | 一种面向移动通信用户流失不平衡数据预测方法 |
US10922906B2 (en) * | 2019-03-28 | 2021-02-16 | GM Global Technology Operations LLC | Monitoring and diagnosing vehicle system problems using machine learning classifiers |
CN110660479A (zh) * | 2019-09-18 | 2020-01-07 | 苏州晗林信息技术发展有限公司 | 一种动态医学影像ai训练诊断系统 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102521656A (zh) * | 2011-12-29 | 2012-06-27 | 北京工商大学 | 非平衡样本分类的集成迁移学习方法 |
JP5159368B2 (ja) * | 2008-02-29 | 2013-03-06 | インターナショナル・ビジネス・マシーンズ・コーポレーション | 変化分析システム、方法及びプログラム |
CN104102718A (zh) * | 2014-07-17 | 2014-10-15 | 哈尔滨理工大学 | 面向失衡数据集的簇边界采样与动态剪枝的失衡数据分类方法 |
CN104951809A (zh) * | 2015-07-14 | 2015-09-30 | 西安电子科技大学 | 基于不平衡分类指标与集成学习的不平衡数据分类方法 |
CN105354583A (zh) * | 2015-08-24 | 2016-02-24 | 西安电子科技大学 | 基于局部均值的不平衡数据分类方法 |
CN105844300A (zh) * | 2016-03-24 | 2016-08-10 | 河南师范大学 | 一种基于随机森林算法的优化分类方法及装置 |
-
2017
- 2017-09-20 CN CN201710849226.2A patent/CN107728476B/zh active Active
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP5159368B2 (ja) * | 2008-02-29 | 2013-03-06 | インターナショナル・ビジネス・マシーンズ・コーポレーション | 変化分析システム、方法及びプログラム |
CN102521656A (zh) * | 2011-12-29 | 2012-06-27 | 北京工商大学 | 非平衡样本分类的集成迁移学习方法 |
CN104102718A (zh) * | 2014-07-17 | 2014-10-15 | 哈尔滨理工大学 | 面向失衡数据集的簇边界采样与动态剪枝的失衡数据分类方法 |
CN104951809A (zh) * | 2015-07-14 | 2015-09-30 | 西安电子科技大学 | 基于不平衡分类指标与集成学习的不平衡数据分类方法 |
CN105354583A (zh) * | 2015-08-24 | 2016-02-24 | 西安电子科技大学 | 基于局部均值的不平衡数据分类方法 |
CN105844300A (zh) * | 2016-03-24 | 2016-08-10 | 河南师范大学 | 一种基于随机森林算法的优化分类方法及装置 |
Non-Patent Citations (4)
Title |
---|
Application of distributed SVM architectures in classifying;Mira Trebar等;《Application of distributed SVM architectures in classifying》;Elsevier;20081031;第63卷(第2期);第119-130页 * |
Evolutionary Undersampling for Imbalanced Big Data Classification;Triguero等;《2015 IEEE Congress on Evolutionary Computation (CEC)》;IEEE;20150914;第715-722页 * |
一种新的基于二叉树的SVM多类分类方法;孟媛媛等;《计算机应用》;中国科学院成都计算机应用研究所;20051130;第25卷(第11期);第2653-2654、2657页 * |
基于随机森林的不平衡数据分类方法研究;肖坚;《中国优秀硕士学位论文全文数据库 信息科技辑》;中国学术期刊(光盘版)电子杂志社;20150215(第2期);第1-53页 * |
Also Published As
Publication number | Publication date |
---|---|
CN107728476A (zh) | 2018-02-23 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110596492B (zh) | 一种基于粒子群算法优化随机森林模型的变压器故障诊断方法 | |
CN104699606B (zh) | 一种基于隐马尔科夫模型的软件系统状态预测方法 | |
CN103914064B (zh) | 基于多分类器和d-s证据融合的工业过程故障诊断方法 | |
CN105095238B (zh) | 用于检测欺诈交易的决策树生成方法 | |
CN104462184B (zh) | 一种基于双向抽样组合的大规模数据异常识别方法 | |
CN110609524B (zh) | 一种工业设备剩余寿命预测模型及其构建方法和应用 | |
CN107728476B (zh) | 一种基于SVM-forest的从非平衡类数据中提取敏感数据的方法 | |
CN107239789A (zh) | 一种基于k‑means的不平衡数据工业故障分类方法 | |
CN110659207A (zh) | 基于核谱映射迁移集成的异构跨项目软件缺陷预测方法 | |
CN107247873B (zh) | 一种差异甲基化位点识别方法 | |
CN107657274A (zh) | 一种基于k‑means的二叉SVM‑tree不平衡数据工业故障分类方法 | |
Rasheed et al. | Metagenomic taxonomic classification using extreme learning machines | |
CN108803555B (zh) | 一种基于性能监测数据的亚健康在线识别和诊断方法 | |
CN111240279B (zh) | 一种面向工业不平衡数据的对抗增强故障分类方法 | |
CN115021679A (zh) | 一种基于多维离群点检测的光伏设备故障检测方法 | |
CN106326915A (zh) | 一种基于改进核Fisher的化工过程故障诊断方法 | |
CN114091603A (zh) | 一种空间转录组细胞聚类、分析方法 | |
CN107103125A (zh) | 一种基于两分类Fisher判别分析的故障诊断方法 | |
CN106067034A (zh) | 一种基于高维矩阵特征根的配电网负荷曲线聚类方法 | |
Morales et al. | LAMDA-HAD, an Extension to the LAMDA Classifier in the Context of Supervised Learning | |
CN111343147A (zh) | 一种基于深度学习的网络攻击检测装置及方法 | |
CN116400168A (zh) | 一种基于深度特征聚类的电网故障诊断方法及系统 | |
CN114330486A (zh) | 基于改进Wasserstein GAN的电力系统不良数据辨识方法 | |
CN110544047A (zh) | 一种不良数据辨识方法 | |
CN103902798B (zh) | 数据预处理方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |