CN104102718A - 面向失衡数据集的簇边界采样与动态剪枝的失衡数据分类方法 - Google Patents

面向失衡数据集的簇边界采样与动态剪枝的失衡数据分类方法 Download PDF

Info

Publication number
CN104102718A
CN104102718A CN201410342032.XA CN201410342032A CN104102718A CN 104102718 A CN104102718 A CN 104102718A CN 201410342032 A CN201410342032 A CN 201410342032A CN 104102718 A CN104102718 A CN 104102718A
Authority
CN
China
Prior art keywords
data set
unbalance
unbalance data
bunch
data
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201410342032.XA
Other languages
English (en)
Inventor
李鹏
张楷卉
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Harbin University of Science and Technology
Original Assignee
Harbin University of Science and Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Harbin University of Science and Technology filed Critical Harbin University of Science and Technology
Priority to CN201410342032.XA priority Critical patent/CN104102718A/zh
Publication of CN104102718A publication Critical patent/CN104102718A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/23Clustering techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques

Landscapes

  • Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Theoretical Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

面向失衡数据集的簇边界采样与动态剪枝的失衡数据分类方法,属于失衡数据分类领域。为了解决目前失衡数据分类方法分类效果不好的问题。它包括:步骤一:对失衡数据集D基于密度聚类进行簇边界采样,获取重采样后的失衡数据集B;步骤二:对重采样后的失衡数据集B基于KNN动态阈值进行剪枝,获取剪枝后的失衡数据集T;步骤三:对剪枝后的失衡数据集T采用SVM分类器进行分类,获取分类后的失衡数据集。它应用于医疗诊断、癌症检测、蛋白质的检测、故障检测、客户流失预测等领域。

Description

面向失衡数据集的簇边界采样与动态剪枝的失衡数据分类方法
技术领域
本发明属于失衡数据分类领域。
背景技术
失衡数据集分类的应用领域很多。例如,医疗诊断、癌症检测、信用卡、保险等欺诈检测方面,生物信息学领域,如蛋白质的检测、企业破产、故障检测、客户流失预测等等。
由于失衡数据集本身特性,失衡数据的分类问题不同于传统分类问题,它具有很多传统分类策略和分类方法中没有考虑到的因素,如数据海量问题、数据条件属性缺失问题、数据集失衡、数据淹没现象、标注瓶颈以及数据的混叠性和复杂性等均影响着分类器的分类效果。
目前,解决失衡数据集分类问题主要采取两种策略:一是重采样,该方法即可以适当屏蔽大类样本的信息量或提高小类样本的错分代价;二是探索更适合失衡数据的分类模型,针对失衡数据的特点对分类算法进行改进以提高其分类能力。无论数据集是否失衡,数据集的重叠都会对分类的准确度产生很大影响。选择性删除数据的目地是找出数据集重叠的区域,并将该区域的样本删除,而利用特征提取算法处理重叠问题目前还只停留在理论阶段。要是解决数据分类问题,就必须考虑数据存在的混叠现象与复杂性。样本在样本空间上的数据混叠现象和复杂性现象,这种数据是影响分类准确度不高导致分类器分类效果不好的原因之一。
目前采用的过采样实现动态采样速率调整的方法对待测信号进行高速率的采样,结合采样需求,从过采样所采得的信号进行抽取有效的数据。其采样点需求应包括标准周期下的采样速率和在采样信号频率发生变化时的频率跟踪所对应的采样速率。本发明的有益效果在于,既减轻数字信号处理器的运行负担,亦可方便将采样模块应用于其他场合。该方法中数字信号的处理方法只是从过采样后的数字信号中抽取有效的信号。但是,由于数据集中的每个数据元素都描述了该类事物的基本特征,重采样方法必定会造成一定的信息损失,为了尽可能的减小数据集中的信息损失使得保留的数据具有代表性,我们提出了一个适用于失衡数据集分类问题的簇边界采样方法。
采用多媒体数据高维索引及KNN检索方法构建多个多媒体数据的高维索引,高维索引包括多个节点和多个多媒体数据的数据数据对象,每个节点包括节点的节点中心到节点对应的子节点的节点中心或数据对象的距离;根据KNN检索算法,在高维索引中确定出待检索数据的检索范围及候选检索引节点集合;根据检索范围及候选索引节点集合内各节点包括的距离,对候选索引节点集合进行剪枝处理得出待检索数据的检索结果。通过在构建多媒体数据的高维索引时存入每个节点的节点中心到节点对应的子节点的节点中心或数据对象的距离,并依据该存储的距离,对得到的候选索引节点集合进行剪枝处理,得出所述待检索数据的检索结果。
采用一种在线升级主样本模型的KNN故障检测方法将主样本空间的数据作为建模数据的训练集,利用KNN检测方法进行建模和故障检测,在主样本空间中找到每个样本的k个最近邻,对每个样本计算k个最近邻距离的平方和,将所有样本的k近邻平方和按序列确定故障检测的阈值;对于新来的一个待检测样本x,从主样本空间中找到x的k个最近邻,计算样本x的k个最近邻距离平方和并将其与阈值进行比较,如果小于阈值则样本x是正常的,否则样本是故障的;通过主样本模型的选取可以是各工况的数据结构得到优化,提高故障检测模型的精确度。
上述有两种方法使用KNN方法设置了固定的值,检测样本与该值进行比较。然而,在失衡数据集中存在着正负例的高失衡比及数据的混叠的现象,在数据处理时正负例应该采用不同的控制阈值对样本进行剪枝。
发明内容
本发明的目的是为了解决目前失衡数据分类方法分类效果不好的问题,本发明提供一种面向失衡数据集的簇边界采样与动态剪枝的失衡数据分类方法。
本发明的面向失衡数据集的簇边界采样与动态剪枝的失衡数据分类方法,
它包括如下步骤:
步骤一:对失衡数据集D基于密度聚类进行簇边界采样,获取重采样后的失衡数据集B;
步骤二:对重采样后的失衡数据集B基于KNN动态阈值进行剪枝,获取剪枝后的失衡数据集T;
步骤三:对剪枝后的失衡数据集T采用SVM分类器进行分类,获取分类后的失衡数据集。
步骤一中,对失衡数据集D基于密度聚类进行簇边界采样,获取重采样后的失衡数据集E的方法包括:
步骤一一:遍历失衡数据集D中的数据元素,计算失衡数据集D中的数据元素与数据元素之间的欧几里得距离;
步骤一二:根据失衡数据集D的特征和步骤一一得到的数据元素与数据元素之间的欧几里得距离,计算聚类密度阈值MINP1
步骤一三:利用第一组密度阈值对失衡数据集D进行聚类,划分成n+1个簇,失衡数据集D={C1,C2,C3,...,Cn,Cnoise},n为正整数,Cnoise表示噪声的簇,所述第一组密度阈值包括聚类密度阈值MINP1和数据元素的邻域EPS1
步骤一四:对失衡数据集D中的数据元素进行相应的标记,标记为簇Ci或噪声Cnoise,i=1,2,3,...,n;
步骤一五:对于簇Ci,计算相应簇中的数据元素的个数Nci,根据所述Nci计算相应簇Ci的边界密度阈值MINPci
步骤一六:计算每一个数据元素在设定的邻域内与其属于同一簇的数据元素的个数EPSci
步骤一七:根据第二组密度阈值,从簇Ci中提取边界元素Bi,所述第二组密度阈值包括MINPci和EPSci
步骤一八:转入步骤一四,直到失衡数据集D中所有非噪声的数据元素所在的簇都被遍历时,得到重采样之后获取的失衡数据集B={B1,B2,B3,...,Bn},结束。
步骤二中,对重采样后的失衡数据集B基于KNN动态阈值进行剪枝,获取剪枝后的失衡数据集T的方法包括:
步骤二一:在重采样后的失衡数据集B中选择一个未计算的边界元素作为查询点xq,找出所述查询点xq的K个近邻点,K为正整数;
步骤二二:通过公式计算查询点的属性预测值ψ(xq);如果f(xq)=1且ψ(xq)≤θ+,则删除当前查询点xq,如果f(xq)=﹣1且ψ(xq)≥θ-,则删除当前查询点xq,否则,查询点xq存入剪枝后的失衡数据集T,f(xi)∈{1,-1},转入步骤二三;θ+为正例的控制阈值,θ-为反例的控制阈值;
步骤二三:判断重采样后的失衡数据集B中的边界元素是否全部计算,若是,结束,若否,转入步骤二一。
本发明的有益效果在于,本发明采用聚类方法进行采样取得了较好的效果。由于失衡数据集中正例和反例分布不平衡,高失衡比的数据集中,正例和反例的个数往往差距巨大,所以在对失衡数据进行聚类提取簇边界环时,要保证占少数的正例信息尽可能的完整,而占绝大多数的反例信息尽可能的具有代表性,因此,保留正例信息,对负例采用簇边界采样的方法对数据进行重采样。本发明针对正负例的高失衡比及数据的混叠的现象,采用KNN近邻剪枝方法对样本集中的正负例样本采用不同的控制阈值进行剪枝。这两种方法经实验证明均降低了数据的失衡比、数据复杂性和混叠性对分类器分类效果地影响,提高了分类器的分类效果。
附图说明
图1为具体实施方式一所述的面向失衡数据集的簇边界采样与动态剪枝的失衡数据分类方法的原理示意图。
图2为具体实施方式一所述的原理示意图。
具体实施方式
具体实施方式一:结合图1说明本实施方式,本实施方式所述的面向失衡数据集的簇边界采样与动态剪枝的失衡数据分类方法,它包括如下步骤:
步骤一:对失衡数据集D基于密度聚类进行簇边界采样,获取重采样后的失衡数据集B;
步骤二:对重采样后的失衡数据集B基于KNN动态阈值进行剪枝,获取剪枝后的失衡数据集T;
步骤三:对剪枝后的失衡数据集T采用SVM分类器进行分类,获取分类后的失衡数据集。
具体实施方式二:结合图2说明本实施方式,本实施方式是对具体实施方式一所述的面向失衡数据集的簇边界采样与动态剪枝的失衡数据分类方法的进一步限定,步骤一中,对失衡数据集D基于密度聚类进行簇边界采样,获取重采样后的失衡数据集E的方法包括:
步骤一一:遍历失衡数据集D中的数据元素,计算失衡数据集D中的数据元素与数据元素之间的欧几里得距离;
步骤一二:根据失衡数据集D的特征和步骤一一得到的数据元素与数据元素之间的欧几里得距离,计算聚类密度阈值MINP1
步骤一三:利用第一组密度阈值对失衡数据集D进行聚类,划分成n+1个簇,失衡数据集D={C1,C2,C3,...,Cn,Cnoise},n为正整数,Cnoise表示噪声的簇,所述第一组密度阈值包括聚类密度阈值MINP1和数据元素的邻域EPS1
步骤一四:对失衡数据集D中的数据元素进行相应的标记,标记为簇Ci或噪声Cnoise,i=1,2,3,...,n;
步骤一五:对于簇Ci,计算相应簇中的数据元素的个数Nci,根据所述Nci计算相应簇Ci的边界密度阈值MINPci
步骤一六:计算每一个数据元素在设定的邻域内与其属于同一簇的数据元素的个数EPSci
步骤一七:根据第二组密度阈值,从簇Ci中提取边界元素Bi,所述第二组密度阈值包括MINPci和EPSci
步骤一八:转入步骤一四,直到失衡数据集D中所有非噪声的数据元素所在的簇都被遍历时,得到重采样之后获取的失衡数据集B={B1,B2,B3,...,Bn},结束。
基于密度聚类的方法主要是选择一个对象作为核心对象,查询该核心对象的邻近区域,只要邻近区域的密度超过某个阈值,就在临近区域内选择除核心对象意外的任一对象作为核心对象继续聚类,最终相对高密度的区域被相对低密度的区域分割开来并形成聚类簇。
通过密度聚类得到的相同簇中的数据元素在向量空间上的分布较为密集,数据蕴含内容的相似度高,提取簇边界的数据元素可以有效的代表整个聚类簇中数据对象的特征。对于数据空间中的元素,都可以对应到二维维空间中的点。更精确地讲,可以把任意的数据元素表示为下面这种特征向量的形式,并且采用标准的欧几里得距离作为两个向量之间的距离。
1(x),α2(x),...,αn(x)>     (1)
其中,αk(x)表示实例x的第k个属性。那么两个实例xi和xj间的欧几里得距离定义为:
d ( x i , x j ) = Σ k = 1 n ( α k ( x i ) - α k ( x j ) ) 2 - - - ( 2 )
在数据集D中,实例x的邻域可以定义为:
EPS(x)={y∈D|d(x,y)≤EPS}     (3)
本实施方式是基于邻域的定义来确定聚类簇的边界点,在同一个聚类簇中的元素,如果某个元素的邻域内所包含的元素个数越多,说明该元素所处的区域越接近聚类簇的中心;如果某个元素的邻域内所包含的元素个数越少,说明该元素所处的区域越接近聚类簇的边界。我们可以使用|EPS(x)|代表数据元素x所在邻域内数据元素的个数。
为了能够更加准确的找到聚类簇的边界,我们选取了2组密度阈值,其中第一组密度阈值为聚类密度阈值,是根据整体数据集的特征和平均距离来估算,用来将整个数据集划分成若干个簇;另外一组密度阈值为边界密度阈值,通过每个簇的规模来估计,用来寻找所得到簇的边界数据对象。使用第一组聚类密度阈值EPS1和MINP1来寻找数据集中相似的数据元素,将数据集中的数据元素划分成若干个簇。对每个簇Ci使用第二组边界密度阈值EPSci和MINPci来寻找簇的边界环,边界密度阈值的确定取决于簇Ci的规模。Ci代表失衡数据集D中划分出的第i个簇,Bi代表簇Ci的边界环,则有:
D={C1,C2,C3,...,Cn,Cnoise}     (4)
Ci={x∈D||EPS(x)|≥MINP1}     (5)
Bi={x∈Ci||EPS(x)|≥MINPci}     (6)
本实施方式克服了传统采样方法存在的随机性强,人为主观性干扰,信息损失等不足显著提高了后续SVM分类器的泛化性能。
具体实施方式三:本实施方式是对具体实施方式一或二所述的面向失衡数据集的簇边界采样与动态剪枝的失衡数据分类方法的进一步限定,步骤二中,对重采样后的失衡数据集B基于KNN动态阈值进行剪枝,获取剪枝后的失衡数据集T的方法包括:
步骤二一:在重采样后的失衡数据集B中选择一个未计算的边界元素作为查询点xq,找出所述查询点xq的K个近邻点,K为正整数;
步骤二二:通过公式计算查询点的属性预测值ψ(xq);如果f(xq)=1且ψ(xq)≤θ+,则删除当前查询点xq,如果f(xq)=﹣1且ψ(xq)≥θ-,则删除当前查询点xq,否则,查询点xq存入剪枝后的失衡数据集T,f(xi)∈{1,-1},转入步骤二三;θ+为正例的控制阈值,θ-为反例的控制阈值;
步骤二三:判断重采样后的失衡数据集B中的边界元素是否全部计算,若是,结束,若否,转入步骤二一。
K最近邻(k-Nearest Neighbor,KNN)分类算法,是一个理论上比较成熟的方法,也是最简单的机器学习算法之一。K近邻算法的基本思想样本集合中的每个样本点预测值是根据与其最近的K个近邻样本的类别属性确定,通过计算当前查询样本点的预测值来判断查询样本的预测类别与本身真实类别是否一致。
从真实的失衡数据集中,通过自组织映射聚类样本选取算法得到的新样本集合会存在数据混叠的情况。前面提到,这种数据混叠在增大训练难度的同时还会造成过学习,使得SVM的泛化能力大大降低,分类性能明显下降。当数据混叠情况比较严重的情况下,噪声数据通常相互伴生存在。在这种情况下,K近邻的思想就完全失效了。
KNN算法假设所有样本映射到多维空间Rn中,在多维空间中找到与预测样本最近邻的k个点,并根据这k个点的类别来判断预测样本的类别。更精确地讲,把任意的实例x表示为下面的特征向量,并采用标准欧氏距离作为两个向量之间的距离。
1(x),α2(x),...,αn(x)>     (7)
其中,αk(x)表示实例x的第k个属性。那么两个实例xi和xj间的距离定义为
d ( x i , x j ) = Σ k = 1 n ( α k ( x i ) - α k ( x j ) ) 2 - - - ( 8 )
在KNN算法中使用的是一般数据集,对于失衡数据这个特殊的数据集来说,失衡数据中正例样本与反例样本的比例失衡,正例样本比较匮乏,因此正例样本信息比反例样本信息更珍贵,并且由于数据的失衡,混杂在正例样本中的反例样本远比混杂在反例中的正例多。因此,正、反例的预测值采用不同的控制阈值,采用动态的控制阈值使修剪更倾向于删除反例混杂点,其中包括在上面提出的伴生存在的反例混杂点,而保证稀有的正例信息尽可能不受损失。当正例资源极其匮乏时,甚至可以不剪枝正例,而只对反例进行剪枝。
定义样本的类别属性值为f(xi)∈{1,-1},查询点的属性预测值阈值ψ(xq)由下面的公式计算得出:
ψ ( x q ) = Σ i = 1 K f ( x i ) K - - - ( 9 )
本实施方式根据正例样本与负例样本的不同的阈值来对训练样本进行取舍,对数据中存在的混叠现象予以很好的解决,提高了SVM分类器的分类效果。
失衡数据集具有两个内在因素,即失衡比与信息匮乏。失衡比是指大类别与小类别的比值,它代表了数据失衡的程度。信息匮乏是指小类别样本的数据量,它表示了数据集中小类别的信息量。为了验证本发明的性能,实验选取了4组UCI公共数据平台的公开数据集作为实验数据,表1列出了4个数据集的基本信息,分别代表了失衡数据可能出现的四种情况。使用这些数据集可以从各个方面来体现失衡数据集的特征,可以更好的验证实验方法的有效性和可行性。表2和表3验证簇边界采样和剪枝的可行性,提高了分类器的分类效果。
表1 4个UCI数据集基本信息
数据集 反例样本数 正例样本数 失衡比 数据描述
Shuttle 57829 171 338:1 高失衡比高信息量
Abalone 4145 32 130:1 高失衡比低信息量
Yeast 1433 51 28:1 低失衡比低信息量
Churn 4293 707 6:1 低失衡比高信息量
表2:对采样前后的AUC性能对比
AUC Shuttle Abalone Yeast Churn
采样前 0.4792 0.5503 0.6223 0.9013
采样后 0.7670 0.7004 0.8687 0.9053
表3:对剪枝前后的AUC性能对比
AUC Shuttle Abalone Yeast Churn
剪枝前 0.4792 0.5503 0.6223 0.9013
剪枝后 0.7948 0.7154 0.9023 0.9143

Claims (3)

1.面向失衡数据集的簇边界采样与动态剪枝的失衡数据分类方法,其特征在于,它包括如下步骤:
步骤一:对失衡数据集D基于密度聚类进行簇边界采样,获取重采样后的失衡数据集B;
步骤二:对重采样后的失衡数据集B基于KNN动态阈值进行剪枝,获取剪枝后的失衡数据集T;
步骤三:对剪枝后的失衡数据集T采用SVM分类器进行分类,获取分类后的失衡数据集。
2.根据权利要求1所述的面向失衡数据集的簇边界采样与动态剪枝的失衡数据分类方法,其特征在于,步骤一中,对失衡数据集D基于密度聚类进行簇边界采样,获取重采样后的失衡数据集E的方法包括:
步骤一一:遍历失衡数据集D中的数据元素,计算失衡数据集D中的数据元素与数据元素之间的欧几里得距离;
步骤一二:根据失衡数据集D的特征和步骤一一得到的数据元素与数据元素之间的欧几里得距离,计算聚类密度阈值MINP1
步骤一三:利用第一组密度阈值对失衡数据集D进行聚类,划分成n+1个簇,失衡数据集D={C1,C2,C3,...,Cn,Cnoise},n为正整数,Cnoise表示噪声的簇,所述第一组密度阈值包括聚类密度阈值MINP1和数据元素的邻域EPS1
步骤一四:对失衡数据集D中的数据元素进行相应的标记,标记为簇Ci或噪声Cnoise,i=1,2,3,...,n;
步骤一五:对于簇Ci,计算相应簇中的数据元素的个数Nci,根据所述Nci计算相应簇Ci的边界密度阈值MINPci
步骤一六:计算每一个数据元素在设定的邻域内与其属于同一簇的数据元素的个数EPSci
步骤一七:根据第二组密度阈值,从簇Ci中提取边界元素Bi,所述第二组密度阈值包括MINPci和EPSci
步骤一八:转入步骤一四,直到失衡数据集D中所有非噪声的数据元素所在的簇都被遍历时,得到重采样之后获取的失衡数据集B={B1,B2,B3,...,Bn},结束。
3.根据权利要求1所述的面向失衡数据集的簇边界采样与动态剪枝的失衡数据分类方法,其特征在于,步骤二中,对重采样后的失衡数据集B基于KNN动态阈值进行剪枝,获取剪枝后的失衡数据集T的方法包括:
步骤二一:在重采样后的失衡数据集B中选择一个未计算的边界元素作为查询点xq,找出所述查询点xq的K个近邻点,K为正整数;
步骤二二:通过公式计算查询点的属性预测值ψ(xq);如果f(xq)=1且ψ(xq)≤θ+,则删除当前查询点xq,如果f(xq)=﹣1且ψ(xq)≥θ-,则删除当前查询点xq,否则,查询点xq存入剪枝后的失衡数据集T,f(xi)∈{1,-1},转入步骤二三;θ+为正例的控制阈值,θ-为反例的控制阈值;
步骤二三:判断重采样后的失衡数据集B中的边界元素是否全部计算,若是,结束,若否,转入步骤二一。
CN201410342032.XA 2014-07-17 2014-07-17 面向失衡数据集的簇边界采样与动态剪枝的失衡数据分类方法 Pending CN104102718A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201410342032.XA CN104102718A (zh) 2014-07-17 2014-07-17 面向失衡数据集的簇边界采样与动态剪枝的失衡数据分类方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201410342032.XA CN104102718A (zh) 2014-07-17 2014-07-17 面向失衡数据集的簇边界采样与动态剪枝的失衡数据分类方法

Publications (1)

Publication Number Publication Date
CN104102718A true CN104102718A (zh) 2014-10-15

Family

ID=51670872

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201410342032.XA Pending CN104102718A (zh) 2014-07-17 2014-07-17 面向失衡数据集的簇边界采样与动态剪枝的失衡数据分类方法

Country Status (1)

Country Link
CN (1) CN104102718A (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104503874A (zh) * 2014-12-29 2015-04-08 南京大学 一种云计算平台的硬盘故障预测方法
CN107657274A (zh) * 2017-09-20 2018-02-02 浙江大学 一种基于k‑means的二叉SVM‑tree不平衡数据工业故障分类方法
CN107728476A (zh) * 2017-09-20 2018-02-23 浙江大学 一种基于SVM‑forest的从非平衡类数据中提取敏感数据的方法
CN109508350A (zh) * 2018-11-05 2019-03-22 北京邮电大学 一种对数据进行采样的方法和装置

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8671069B2 (en) * 2008-12-22 2014-03-11 The Trustees Of Columbia University, In The City Of New York Rapid image annotation via brain state decoding and visual pattern mining

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8671069B2 (en) * 2008-12-22 2014-03-11 The Trustees Of Columbia University, In The City Of New York Rapid image annotation via brain state decoding and visual pattern mining

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
孙渤禹: ""面向失衡数据集分类问题的研究与应用"", 《中国优秀硕士学位论文全文数据库 信息科技辑》 *
李鹏 等: ""基于KNN 的失衡数据集动态阈值剪枝方法"", 《中国科技论文在线》 *

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104503874A (zh) * 2014-12-29 2015-04-08 南京大学 一种云计算平台的硬盘故障预测方法
CN107657274A (zh) * 2017-09-20 2018-02-02 浙江大学 一种基于k‑means的二叉SVM‑tree不平衡数据工业故障分类方法
CN107728476A (zh) * 2017-09-20 2018-02-23 浙江大学 一种基于SVM‑forest的从非平衡类数据中提取敏感数据的方法
CN107728476B (zh) * 2017-09-20 2020-05-22 浙江大学 一种基于SVM-forest的从非平衡类数据中提取敏感数据的方法
CN109508350A (zh) * 2018-11-05 2019-03-22 北京邮电大学 一种对数据进行采样的方法和装置
CN109508350B (zh) * 2018-11-05 2022-04-12 北京邮电大学 一种对数据进行采样的方法和装置

Similar Documents

Publication Publication Date Title
Liu An improved faster R-CNN for object detection
CN106339416B (zh) 基于网格快速搜寻密度峰值的教育数据聚类方法
CN102622607B (zh) 一种基于多特征融合的遥感图像分类方法
CN104091321B (zh) 适用于地面激光雷达点云分类的多层次点集特征的提取方法
CN102289522B (zh) 一种对于文本智能分类的方法
CN105426426B (zh) 一种基于改进的K-Medoids的KNN文本分类方法
CN102129451B (zh) 图像检索系统中数据聚类方法
CN102622610B (zh) 一种基于分类器集成的手写维文字符识别方法
CN108875816A (zh) 融合置信度准则和多样性准则的主动学习样本选择策略
CN105574063A (zh) 基于视觉显著性的图像检索方法
Xu et al. A supervoxel approach to the segmentation of individual trees from LiDAR point clouds
CN106339495A (zh) 一种基于层次增量聚类的话题检测方法及系统
CN104834940A (zh) 一种基于支持向量机的医疗影像检查疾病分类方法
CN107122382A (zh) 一种基于说明书的专利分类方法
CN112986925B (zh) 一种基于图像特征的雷达脉冲序列分选方法
CN106228554A (zh) 基于多属性约简的模糊粗糙集煤粉尘图像分割方法
CN103366365A (zh) 基于人工免疫多目标聚类的sar图像变化检测方法
Guo et al. Urban impervious surface extraction based on multi-features and random forest
CN103886077B (zh) 短文本的聚类方法和系统
CN105930859B (zh) 基于线性流形聚类的雷达信号分选方法
CN104102718A (zh) 面向失衡数据集的簇边界采样与动态剪枝的失衡数据分类方法
CN112462347B (zh) 基于密度聚类的激光雷达点云快速分类滤波算法
CN102945374A (zh) 一种高分辨率遥感图像中民航飞机自动检测方法
CN106874421A (zh) 基于自适应矩形窗口的图像检索方法
CN103336771A (zh) 基于滑动窗口的数据相似检测方法

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20141015