CN102402690A - 基于直觉模糊集成的数据分类方法与系统 - Google Patents

基于直觉模糊集成的数据分类方法与系统 Download PDF

Info

Publication number
CN102402690A
CN102402690A CN2011103018696A CN201110301869A CN102402690A CN 102402690 A CN102402690 A CN 102402690A CN 2011103018696 A CN2011103018696 A CN 2011103018696A CN 201110301869 A CN201110301869 A CN 201110301869A CN 102402690 A CN102402690 A CN 102402690A
Authority
CN
China
Prior art keywords
class
sample
data
pos
sorter
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN2011103018696A
Other languages
English (en)
Other versions
CN102402690B (zh
Inventor
钱钢
王海
黄为民
郑雄燕
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nanjing Normal University
Original Assignee
Nanjing Normal University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nanjing Normal University filed Critical Nanjing Normal University
Priority to CN201110301869.6A priority Critical patent/CN102402690B/zh
Publication of CN102402690A publication Critical patent/CN102402690A/zh
Application granted granted Critical
Publication of CN102402690B publication Critical patent/CN102402690B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明涉及模式识别领域,公开了一种适用于非平衡数据的基于直觉模糊集成的分类方法和基于该方法的系统。包括:a)清洗原始数据,将原始POS类样本按其类内位置分类,生成POS类人工样本;b)用类间近似平衡的不同样本集训练基分类器;c)将基分类器分类输出等效用转化为直觉模糊矩阵,d)结合基分类器权重集成待分类样本属于POS类、NEG类的隶属度和非隶属度,做出分类决策。本发明具有以下优点:综合过采样和欠采样,避免过学习;基分类器的训练样本不同,保证其差异性;对基分类器不做具体限制,具有良好的扩展性;直觉模糊推理方法定量的描述了分类中的不确定性,提高了集成学习的性能,因而基于该方法的系统能更好地支持医疗诊断决策等。

Description

基于直觉模糊集成的数据分类方法与系统
技术领域
本发明是针对数据的分类方法的研究,涉及模式识别领域,特别是涉及一种基于直觉模糊集成的非平衡数据分类方法与基于该方法的系统。
背景技术
在医疗诊断过程中,医生通过对一系列检查得到检查者的若干个指标的客观数据,并以此为依据结合医学知识或临床经验做出最主要的诊断决策:患病或正常。此时医生面临的一个问题就是如何科学的将检查者的这些数据分为“患病”或者“正常”中的某一类,其中历史的正确的诊断数据是一项有力的参考依据。这里医生面临的分类问题具有以下特点:(1)历史数据中“患病”或者“正常”的样本数差别较大,即非平衡的,因为大多数人都是“正常”的;(2)“患病”比“正常”更受关注,因为将一个正常人误判为病人固然带来一定的负面效果,然而将一个病人误判为正常人的后果显然严重得多。
分类技术作为数据挖掘的一项关键技术,在金融业、零售业、电信业等领域都有广泛的应用。一些现有的机器学习的分类方法已经相对成熟,用来对平衡的数据进行分类能获得较好的性能。然而,现有的分类方法大多基于类内和类间分布大致平衡这个基本假设,也就是认为各类所含的样本数基本相当,在此前提下通过统计或其他方法学习分类函数。然而在许多现实问题中,这一假设是不成立的;相反,某个类别中的样本数可能会远远小于其他类别,而这个少数类别恰好是应用中最重要的类别。例如医疗诊断等问题中,少数类的识别率更为重要。在这类问题中,传统的分类方法没有办法兼顾或者重视少数类的识别率,因此不适合用在对这种类分布不平衡的数据进行分类。
对非平衡的数据分类的困难首先在于缺少足够的少数类样本数据。在应用中,少数类(POS类)样本与多数类(NEG类)样本的比例可达1∶1000甚至更大。另一方面,经典的分类评价准则不能有效的评价非平衡数据分类的性能。现有的少数适用于非平衡的数据分类的研究主要集中于:(1)通过过采样或者欠采样技术改变数据的分布,使之接近平衡的分布。(2)设计适用于非平衡数据集的分类方法,如代价敏感型分类方法和集成学习方法。现有的研究在以下方面有待改进:
(1)欠采样技术通过减少多数类样本来改善数据的不平衡状况,但不可避免的要放弃一些样本,也就可能抛弃了一些对分类有用的信息。而过采样技术通过复制或人工生成少数类样本来改变数据分布,也很容易造成过适应。同时如何根据少数类样本的初始分布来进行人工数据的生成也有待研究。
(2)集成学习方法能很好的改善单分类器的不稳定性,提高整体的分类性能。但传统的集成学习方法只简单的考虑分类器对样本属于类别的支持程度,忽视了分类器输出同时还包含着样本不属于类别的程度,没有定量地考虑分类器输出的模糊的或概率的不确定性。这就导致了集成分类方法有时并没有很大程度地改善分类性能。
发明内容
为了解决上述问题,提高非平衡数据环境下对POS类样本的辨识率,并为医疗诊断等应用提供更有效的决策支持,本发明公开了一种新的适用于非平衡数据的分类方法及基于该方法的系统,该方法主要利用POS类样本在类中的位置分布来产生人工样本,再通过直觉模糊理论集成多个模糊分类器的分类结果,进而做出最终决策。
为了实现上述发明目的,本发明采用的技术方案如下:
基于直觉模糊集成的数据分类方法,包括以下步骤:
步骤101:清洗原始数据集,并将原始POS类样本按其类内位置分类;
步骤102:生成POS类人工样本,准备训练数据集;
步骤103:为每个基分类器准备类间近似平衡的分类样本,并训练基分类器;
步骤104:用基分类器对待分类样本分类,将分类输出等效用转化为直觉模糊矩阵;
步骤105:结合分类器权重融合待分类样本属于POS类、NEG类的隶属度和非隶属度,并作出分类决策。
本发明还提供了一种基于上述数据分类方法的系统,包括数据交换接口和基于直觉模糊集成的数据分类模块M;系统运行的平台通过所述数据交换接口向所述数据分类模块M提供用于训练的历史样本集和待分类的样本;同时所述数据分类模块M将分类结果返回给系统平台。
其中基于直觉模糊集成的数据分类模块M包括:
a)数据准备模块M1:清洗原始数据集中的NEG类样本的噪声,根据POS类样本的类内位置生成人工数据,并形成训练数据集。包含NEG类数据清洗单元U11、POS类人工数据生成单元U12;训练数据合成模块U13;
b)分类器训练模块M2:利用随机抽样方法为每个基分类器准备训练数据,训练基分类器的模型,同时计算基分类器的权重。包含训练数据准备单元U21、分类器训练单元U22;
c)分类模块M3:用分类器训练单元U22中训练的分类器模型对待分类样本分类,其输出汇总为分类器输出矩阵,将分类器输出矩阵等效用地转换为直觉模糊矩阵,结合分类器权重融合直觉模糊信息并作出分类决策。包含基分类器调用单元U31、等效用转换单元U32、直觉模糊融合单元U33和分类决策单元U34;
其中数据准备模块M1、分类器训练模块M2和分类模块M3依次串行连接。
相比本领域的现有技术,本发明的适用于非平衡数据的分类方法具有以下优点:(1)本发明在改善原始数据集中的非平衡的状况时综合欠采样技术和过采样技术;同时本发明设计的过采样技术并不是简单的重复采样,而是根据样本离类边界的程度按一定的比例生成人工数据,避免了过学习现象的发生。(2)本发明在训练多分类器系统时,每个基分类器使用不同的数据训练,保证了基分类器之间的差异性,从而提高了系统的集成学习性能。(3)由于本发明对具体的基分类器不作限制,所以在具体实施的时候具有很大的灵活性和可扩展性。在对分类精度要求较高、对时间不敏感的场合,可以采用分类精度高的一种或几种分类器作为基分类器;在对时间要求非常高的场合,可以采用训练和分类速度快但分类精度稍弱的分类器。(4)本发明技术在融合多分类器的输出时采用直觉模糊集的加权融合方法,该方法同时考虑了待分类样本属于某类别的隶属度和非隶属度,量化了分类器的不确定性,并融入分类器的融合过程中,降低了系统的不确定性,提高集成学习的效率。
附图说明
图1是本发明基于直觉模糊集成的数据分类方法的流程图。
图2是本发明分类方法中数据清洗与POS类数据预处理的流程图。
图3是本发明分类方法中生成训练数据集的流程图。
图4是本发明分类方法中多分类器系统训练的流程图。
图5是本发明分类方法中分类器输出转换与融合的流程图。
图6是基于本发明分类方法的医疗诊断决策支持系统的结构图。
图7是实现本发明分类方法的模块的结构图。
具体实施方式
以下结合附图和具体实施例对本发明作具体说明。
本发明的适用于非平衡数据的分类方法如图1所示,包括以下步骤:
步骤101:清洗原始数据集,并将原始POS类样本按其类内位置分类;
步骤102:生成POS类人工样本,准备训练数据集;
步骤103:为每个基分类器准备类间近似平衡的分类样本,并训练基分类器;
步骤104:用基分类器对待分类样本分类,将分类输出等效用转化为直觉模糊矩阵;
步骤105:结合分类器权重融合待分类样本属于POS类、NEG类的隶属度和非隶属度,并作出分类决策。
以下进一步详细的说明本发明实施例中的各个细节问题。
本发明假设原始数据集中包含两个类(POS类、NEG类)的样本。样本记为(x;y)或x,其中x是一个向量,包含样本所有属性的数据。当x属于POS类,y=1,否则y=-1。
1、数据清洗与POS类数据预处理
本发明首先对原始数据集中的数据进行预处理,包括清洗NEG类的噪音样本、将POS类样本按类内位置预分类。如图2所示,包含如下步骤:
步骤201:初始化NEG类训练样本集合N和POS类的边界样本集合BORDER、邻近边界样本集合NEAR_BD、非边界样本集合NON_BD为空集;
步骤202:对于每个NEG类样本(xi;-1),选择其m个最近邻,计算m个最近邻中NEG类样本的比例r。若r≤rnoise,则认为该样本为噪音,从原始数据集中删除,否则N=NU{(xi;1)}。其中rnoise为噪音样本的本类近邻比例阀值。
步骤203:对于每个POS类样本(xi;1),选择其m个最近邻,计算m个最近邻中POS类样本的比例r;
若r≤rborder,则该样本为边界样本,BORDER=BORDERU{(xi;1)};
若rborder<r≤rnearbd,则该样本为邻近边界样本,NEAR_BD=NEAR_BDU{(xi;1)};
若r>rnearbd,则该样本为非边界样本,NON_BD=NON_BDU{(xi;1)};
其中rborder、rnearbd分别为边界样本的本类近邻比例阀值、邻近边界样本的本类近邻比例阀值。
2、训练数据集生成
本发明根据POS类样本构造一定数量的人工样本,改善原始数据的不平衡状况。由于越靠近类边界的样本越可能被错误的识别,本发明产生人工样本的基本思想为:样本越靠近类边界,根据其产生的人工样本比例就越大。如图3所示,包含如下步骤:
步骤301:初始化POS类人工数据集合NEW为空集;
步骤302:对于每个边界样本集合BORDER中的样本(xi;1),执行:
(1)从POS类样本中选择(xi;1)的k个最近邻;
(2)随机产生一个0到k之间的整数s1,从k个最近邻中随机的选择s1个。
(3)对于每个选中的最近邻(xj;1),产生一个新的POS类人工数据
Figure BDA0000095786560000041
其中:
x j ( N ) = rdm · ( x j - x i ) + x j , j = 1,2 , L , s 1
这里rdm为(0,1)上的随机数。
( 4 ) , NEW = NEWU { ( x j ( N ) ; 1 ) } .
步骤303:对于每个邻近边界样本集合NEAR_BD中的样本(xi;1),执行:
(1)从POS类样本中选择(xi;1)的k/p个最近邻,其中p为边界样本与邻近边界样本在过采样过程中的相对重要性,取大于1的数;
(2)随机产生一个0到k/p之间的整数s2,从k/p个最近邻中随机的选择s2个。
(3)对于每个选中的最近邻(xj;1),产生一个新的POS类人工数据
Figure BDA0000095786560000052
其中:
x j ( N ) = rdm · ( x j - x i ) + x j , j = 1,2 , L , s 2
这里rdm为(0,1)上的随机数。
( 4 ) , NEW = NEWU { ( x j ( N ) ; 1 ) } .
步骤304:训练分类器用的POS类样本P为:
P=BORDERUNEAR_BDUNON_BDUNEW,
训练数据集为PUN。
产生人工数据是为了改善类间数据不平衡的状况。对于具体的数据集,设置恰当的k,p的值,使得POS类样本数尽可能接近或等于NEG类样本数。
3、多分类器系统训练
本发明重点在于非平衡数据的采样和多分类器的融合,因此不涉及具体的分类器。任意可以将输出解释为隶属度或者等效用转化为隶属度的分类算法都可以用在本发明中。本发明的多分类器系统中的基分类器可以是同质的也可以是异质的,并且每个基分类器使用不同的数据训练。如图4所示,训练算法如下:
步骤401:将POS类训练数据集P、NEG类训练数据集N分别随机地均分为nc个子集:记为Pi和Ni(i=1,2,L,nc),其中nc为基分类器的个数;
步骤402:对于第i(i=1,2,L,nc)个分类器,执行:
(1)用数据PiUNi训练第i个基分类器;
(2)取交叉验证的平均分类精度作为第i个基分类器的权重wi
其中步骤402可以并行执行,以提高训练速度。
4、分类决策
区别于传统的多分类器系统,本发明首先将分类器的输出统一的等效用转化为直觉模糊数的形式,再结合分类器权重融合这些直觉模糊数。这一过程不仅综合考虑了样本属于某类别的程度,同时也考虑了样本不属于某类别的程度,从而定量的描述了单个分类器的不确定性,提高了分类性能。如图5所示,包含以下步骤:
步骤501:将待分类样本(x;y)输入到nc个基分类器,输出汇总成矩阵:
y 11 y 12 M M y i 1 y i 2 M M y n c 1 y n c 2
其中(yi1,yi2)为第i个基分类器的输出,分别代表了待分类样本属于POS类、NEG类的程度;
步骤502:将基分类器的输出等效用地转化为直觉模糊矩阵:
( μ 11 , v 11 ) ( μ 12 , v 12 ) M M ( μ i 1 , v i 1 ) ( μ i 2 , v i 2 ) M M ( μ n c 1 , v n c 1 ) ( μ n c 1 , v n c 1 )
其中,μij=(yij-MINi)/(MAXi-MINi),vij=(MAXi-yij)/(MAXi-MINi),i=1,2,L,nc,j=1或2,MAXi和MINi分别为第i个基分类器的最大和最小输出数值,由具体的分类器决定;
步骤503:计算待分类样本属于POS类的隶属度μpos和非隶属度vpos,以及待分类样本属于NEG类隶属度μnwg和非隶属度vneg
( μ pos , v pos ) = ( 1 - Π i = 1 n c ( 1 - μ i 1 ) w i , Π i = 1 n c ( v i 1 ) w i ) ,
( μ neg , v neg ) = ( 1 - Π i = 1 n c ( 1 - μ i 2 ) w i , Π i = 1 n c ( v i 2 ) w i )
其中,wi为第i个基分类器的权重;
步骤504:决策。如果μpos-vpos≥μneg-vneg,待分类样本属于POS类;否则,待分类样本属于NEG类。
其中,步骤501中调用基分类器对待分类样本分类的过程可以并行执行。步骤503融合了步骤502中得到的直觉模糊矩阵中的直觉模糊数,该公式依据直觉模糊数的加权平均算子得到。所以,这一过程综合且定量的考虑了每个基分类器的不确定性,从而减少了整个多分类器系统的不确定性,提高了分类性能。
5、实用性验证
从标准的UCI数据库中选择公开的医疗数据进行测试。需要说明的是,本实施例中初始化的参数值、以及用到的基分类器的分类算法仅为说明本发明技术有效性、实用性的目的,而不是对本发明的限制。本实施例中测试的数据库信息如下表1所示。实验中,取m=10,rnoise=0.1,rborder=0.4,rnearbd=0.8,r=2,nc=10。对于Breast-cancer dataset,k=6;对于Heart disease dataset,k=4;对于Sick-euthyroid dataset,k=18。所有距离均为欧式距离,分类器权重为5折交叉验证的平均精度。基分类器均采用极端学习机(Extreme LearningMachine),其输出的最大值最小值分别为1和-1。
表1本发明实施例中测试的数据库基本信息
  数据库名称   样本数   属性数  POS类样本比例
  Breast-cancer dataset   569   30  37.25%
  Heart disease dataset   270   13  44.44%
  Sick-euthyroid dataset   3163   25  8.25%
评价指标选择POS类样本准确率与NEG类样本准确率的几何平均数G-means。为了便于比较,本实施例同时测试了原始数据集上单分类器(记为:O+S)、原始数据集上多分类器(记为:O+M)、采用本发明采样技术且使用单分类器(记为:C+S)、完整使用本发明方法(记为:本发明方法)几种情况下的性能。选择80%的样本作为原始数据用于训练,剩下的20%作为测试样本。G-means的测试结果如下表2,其中所有结果均为10次重复实验的
平均值。表2本发明实施例测试的几种算法的结果(10次重复试验的平均值)
Figure BDA0000095786560000071
本发明还提供了一种基于上述的适用于非平衡数据的分类方法的系统,包括数据交换接口和基于直觉模糊集成的数据分类模块M,如图6所示,可以运行在医疗机构已经存在的医疗诊断系统平台上,与医疗诊断系统平台交换数据,作为其子系统,提供决策支持。通过数据交换接口,平台向基于直觉模糊集成的数据分类模块M提供样本数据,包括用于训练的历史样本集和待分类的样本;同时基于直觉模糊集成的数据分类模块M将分类结果返回给医疗诊断系统平台。用户不需要任何的附加工作,就可以从医疗诊断系统平台上得到子系统提供的决策支持。其中,基于直觉模糊集成的数据分类模块M实现本发明的适用于非平衡数据的分类方法,包含数据准备模块M1、分类器训练模块M2和分类模块M3,如图7所示,其中数据准备模块M1、分类器训练模块M2和分类模块M3依次串行连接。
数据准备模块M1完成对原始数据的清洗,并生成一定量的人工样本,构成类间近似平衡的训练数据集。其中包括:
NEG类数据清洗单元U11:用于删除NEG类噪音样本;
POS类人工数据生成单元U12:将POS类样本按类内位置分类,再将POS类的边界样本、邻近边界样本按不同比例生成人工数据;
训练数据合成模块U13:利用NEG类清洗后样本、POS类原始样本、POS类人工样本构成训练数据集。
其中NEG类数据清洗单元U11,POS类人工数据生成单元U12,训练数据合成模块U13依次串行连接。
分类器训练模块M2为每个基分类器准备类间近似平衡的训练样本,训练基分类器,同时计算基分类器的权重。其中包括:
基分类器训练数据准备单元U21:利用随机抽样方法为每个基分类器准备类间近似平衡的训练样本;
分类器训练单元U22:提供与分类算法兼容的接口,调用分类器,利用训练样本训练基分类模型并利用交叉验证技术计算该分类器的权重。
其中基分类器训练数据准备单元U21,分类器训练单元U22依次串行连接。
分类模块M3调用训练好的基分类器对待分类样本分类,将分类器输出汇总并等效用地转换为直觉模糊矩阵,利用直觉模糊推理方法融合该矩阵并作出分类决策。其中包括:
基分类器调用单元U31:并行地调用训练好的分类模型对待分类样本分类,汇总各个基分类器的输出;
等效用转换单元U32:将基分类器的输出等效用地转换为直觉模糊矩阵;
直觉模糊融合单元U33:结合基分类器权重将直觉模糊矩阵融合为两个直觉模糊数,表示待分类样本属于以及不属于POS类、NEG类的程度;
分类决策单元U34:根据这两个直觉模糊数中的信息给出分类决策。
其中基分类器调用单元U31,等效用转换单元U32,直觉模糊融合单元U33,分类决策单元U34依次串行连接。
上述的基于本发明分类方法的医疗诊断决策支持系统具有明显的效益,可以应用在:(1)可以集成在已经存在的医疗诊断系统平台上,为医疗诊断、疾病检查提供决策支持,且不会增加用户的工作量。(2)由于本发明的多分类器系统组成的灵活性,本发明技术即可以用于对识别率要求很高的场合,也能用于对时间要求很高的场合。(3)如果其他的工业应用的分类问题具备特点:两个类别、类间非平衡、少数类的识别等重要,本发明的决策支持系统就可以集成在对应的应用中并提供决策支持,如信用卡欺骗检测等。

Claims (11)

1.基于直觉模糊集成的数据分类方法,其特征在于,所述方法包括:
步骤101:清洗原始数据集,并将原始POS类样本按其类内位置分类;
步骤102:生成POS类人工样本,准备训练数据集;
步骤103:为每个基分类器准备类间近似平衡的分类样本,并训练基分类器;
步骤104:用基分类器对待分类样本分类,将分类输出等效用转化为直觉模糊矩阵;
步骤105:结合分类器权重融合待分类样本属于POS类、NEG类的隶属度和非隶属度,并作出分类决策。
2.如权利要求1所述的基于直觉模糊集成的数据分类方法,其特征在于,所述步骤101包括如下步骤:
步骤201:初始化NEG类训练样本集合N和POS类的边界样本集合BORDER、邻近边界样本集合NEAR_BD、非边界样本集合NON_BD为空集;
步骤202:对于每个NEG类样本(xi;-1),选择其m个最近邻,计算m个最近邻中NEG类样本的比例r;若r≤rnoise,则认为该样本为噪音,从原始数据集中删除,否则N=NU{(xi;1)},其中rnoise为噪音样本的本类近邻比例阀值;
步骤203:对于每个POS类样本(xi;-1),选择其m个最近邻,计算m个最近邻中POS类样本的比例r;
若r≤rborder,则该样本为边界样本,BORDER=BORDERU{(xi;1)};
若rborder<r≤rnearbd,则该样本为邻近边界样本,NEAR_BD=NEAR_BDU{(xi;1)};
若r>rnearbd,则该样本为非边界样本,NON_BD=NON_BDU{(xi;1)};其中rborder、rnearbd分别为边界样本的本类近邻比例阀值、邻近边界样本的本类近邻比例阀值。
3.如权利要求1所述的基于直觉模糊集成的数据分类方法,其特征在于,所述步骤102包括如下步骤:
步骤301:初始化POS类人工数据集合NEW为空集;
步骤302:对于每个边界样本集合BORDER中的样本(xi;-1),执行:
(1)从POS类样本中选择(xi;-1)的k个最近邻;
(2)随机产生一个0到k之间的整数s1,从k个最近邻中随机的选择s1个;
(3)对于每个选中的最近邻(xj;1),产生一个新的POS类人工数据 其中:
这里rdm为(0,1)上的随机数; 
Figure FDA0000095786550000021
步骤303:对于每个邻近边界样本集合NEAR_BD中的样本(xi;-1),执行:
(1)从POS类样本中选择(xi;-1)的k/p个最近邻,其中p为边界样本与邻近边界样本在过采样过程中的相对重要性,取大于1的数;
(2)随机产生一个0到k/p之间的整数s2,从k/p个最近邻中随机的选择s2个;
(3)对于每个选中的最近邻(xj;1),产生一个新的POS类人工数据 
Figure FDA0000095786550000022
其中:
,这里rdm为(0,1)上的随机数;
Figure FDA0000095786550000024
步骤304:训练分类器用的POS类样本P为:
P=BORDERUNEAR_BDUNON_BDUNEW,
训练数据集为PYN。
4.如权利要求1所述的基于直觉模糊集成的数据分类方法,其特征在于,所述步骤103包含如下步骤:
步骤401:将POS类训练数据集P、NEG类训练数据集N分别随机地均分为nc个子集:记为Pi和Ni(i=1,2,L,nc),其中nc为基分类器的个数;
步骤402:对于第i(i=1,2,L,nc)个分类器,执行:
(1)用数据PiUNi训练第i个基分类器;
(2)取交叉验证的平均分类精度作为第i个基分类器的权重wi
5.如权利要求1所述的基于直觉模糊集成的数据分类方法,其特征在于,所述步骤104包括如下步骤:
步骤501:将待分类样本(x;y)输入到nc个基分类器,其输出汇总成矩阵:
其中(yi1,yi2)为第i个基分类器的输出,分别代表了待分类样本属于POS类、NEG类的程度;
步骤502:将基分类器的输出等效用地转化为直觉模糊矩阵: 
Figure FDA0000095786550000031
其中,μij=(yij-MINi)/(MAXi-MINi),vij=(MAXi-yij)/(MAXi-MINi),i=1,2,L,nc,j=1或2,MAXi和MINi分别为第i个基分类器的最大和最小输出数值,由具体的分类器决定。
6.如权利要求1所述的基于直觉模糊集成的数据分类方法,其特征在于,所述步骤105包括如下步骤:
步骤503:计算待分类样本属于POS类的隶属度μpos和非隶属度vpos,以及待分类样本属于NEG类隶属度μneg和非隶属度vneg
Figure FDA0000095786550000032
Figure FDA0000095786550000033
其中,wi为第i个基分类器的权重;
步骤504:如果μpos-vpos≥μpos-vpos,待分类样本属于POS类;否则,待分类样本属于NEG类。
7.一种基于如权利要求1所述的数据分类方法的系统,其特征在于,所述系统包括数据交换接口和基于直觉模糊集成的数据分类模块M;系统运行的平台通过所述数据交换接口向所述数据分类模块M提供用于训练的历史样本集和待分类的样本;同时所述数据分类模块M将分类结果返回给系统平台。
8.如权利要求7所述的系统,其特征在于,所述数据分类模块M包括:
数据准备模块M1:完成对原始数据的清洗,并生成一定量的人工样本,构成类间近似平衡的训练数据集;
分类器训练模块M2:为每个基分类器准备类间近似平衡的训练样本,训练基分类器,同时计算基分类器的权重;
分类模块M3:调用训练好的基分类器对待分类样本分类,将分类器输出汇总并等效用地转换为直觉模糊矩阵,利用直觉模糊推理方法融合该矩阵并作出分类决策; 
其中数据准备模块M1、分类器训练模块M2和分类模块M3依次串行连接。
9.如权利要求8所述的系统,其特征在于,所述数据准备模块M1包括:
NEG类数据清洗单元U11:用于删除NEG类噪音样本;
POS类人工数据生成单元U12:将POS类样本按类内位置分类,再将POS类的边界样本、邻近边界样本按不同比例生成人工数据;
训练数据合成模块U13:利用NEG类清洗后样本、POS类原始样本、POS类人工样本构成训练数据集;
其中NEG类数据清洗单元U11,POS类人工数据生成单元U12,训练数据合成模块U13依次串行连接。
10.如权利要求8所述的系统,其特征在于,所述分类器训练模块M2包括:
基分类器训练数据准备单元U21:利用随机抽样方法为每个基分类器准备类间近似平衡的训练样本;
分类器训练单元U22:提供与分类算法兼容的接口,调用分类器,利用训练样本训练基分类模型并利用交叉验证技术计算该分类器的权重;
其中基分类器训练数据准备单元U21、分类器训练单元U22依次串行连接。
11.如权利要求8所述的系统,其特征在于,所述分类模块M3包括:
基分类器调用单元U31:并行地调用训练好的分类模型对待分类样本分类,汇总各个基分类器的输出;
等效用转换单元U32:将基分类器的输出等效用地转换为直觉模糊矩阵;
直觉模糊融合单元U33:结合基分类器权重将直觉模糊矩阵融合为两个直觉模糊数,表示待分类样本属于以及不属于POS类、NEG类的程度;
分类决策单元U34:根据这两个直觉模糊数中的信息给出分类决策;
其中基分类器调用单元U31、等效用转换单元U32、直觉模糊融合单元U33、分类决策单元U34依次串行连接。 
CN201110301869.6A 2011-09-28 2011-09-28 基于直觉模糊集成的数据分类方法与系统 Expired - Fee Related CN102402690B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201110301869.6A CN102402690B (zh) 2011-09-28 2011-09-28 基于直觉模糊集成的数据分类方法与系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201110301869.6A CN102402690B (zh) 2011-09-28 2011-09-28 基于直觉模糊集成的数据分类方法与系统

Publications (2)

Publication Number Publication Date
CN102402690A true CN102402690A (zh) 2012-04-04
CN102402690B CN102402690B (zh) 2016-02-24

Family

ID=45884880

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201110301869.6A Expired - Fee Related CN102402690B (zh) 2011-09-28 2011-09-28 基于直觉模糊集成的数据分类方法与系统

Country Status (1)

Country Link
CN (1) CN102402690B (zh)

Cited By (18)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103413038A (zh) * 2013-08-01 2013-11-27 雷英杰 基于矢量量化的长期直觉模糊时间序列预测方法
CN104112074A (zh) * 2014-07-15 2014-10-22 西安交通大学 基于直觉模糊集的纳税人利益关联度评估方法
CN104598586A (zh) * 2015-01-18 2015-05-06 北京工业大学 大规模文本分类的方法
CN104679860A (zh) * 2015-02-27 2015-06-03 北京航空航天大学 一种不平衡数据的分类方法
CN105589806A (zh) * 2015-12-17 2016-05-18 北京航空航天大学 一种基于SMOTE+Boosting算法的软件缺陷倾向预测方法
CN105701342A (zh) * 2016-01-12 2016-06-22 西北工业大学 基于代理的直觉模糊理论医疗诊断模型的构建方法及装置
WO2016177146A1 (zh) * 2015-08-24 2016-11-10 中兴通讯股份有限公司 一种网络流量数据的分类方法及装置
CN108305095A (zh) * 2017-12-22 2018-07-20 杭州先临三维云打印技术有限公司 三维模型打印成本估算方法及装置
CN108509982A (zh) * 2018-03-12 2018-09-07 昆明理工大学 一种处理二分类不平衡医学数据的方法
CN108595575A (zh) * 2018-04-16 2018-09-28 西安邮电大学 具有非确定性的多源用户体验数据聚合方法
CN109167680A (zh) * 2018-08-06 2019-01-08 浙江工商大学 一种基于深度学习的流量分类方法
CN109190204A (zh) * 2018-08-15 2019-01-11 贵州大学 一种基于复杂网络的复杂机械产品模块划分方法
CN110110754A (zh) * 2019-04-03 2019-08-09 华南理工大学 基于代价局部泛化误差的不平衡问题的分类方法
CN110472664A (zh) * 2019-07-17 2019-11-19 杭州有盾网络科技有限公司 一种基于深度学习的证件图片识别方法、装置及设备
CN111260210A (zh) * 2020-01-14 2020-06-09 广东南方视觉文化传媒有限公司 一种基于大数据分析的视觉资产管理系统及方法
CN111666872A (zh) * 2020-06-04 2020-09-15 电子科技大学 一种数据不平衡下的高效行为识别方法
CN112508792A (zh) * 2020-12-22 2021-03-16 北京航空航天大学杭州创新研究院 一种基于在线知识迁移的深度神经网络集成模型单张图像超分辨率方法和系统
CN113011503A (zh) * 2021-03-17 2021-06-22 彭黎文 一种电子设备的数据取证方法、存储介质及终端

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20090097741A1 (en) * 2006-03-30 2009-04-16 Mantao Xu Smote algorithm with locally linear embedding
CN101980202A (zh) * 2010-11-04 2011-02-23 西安电子科技大学 不平衡数据的半监督分类方法

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20090097741A1 (en) * 2006-03-30 2009-04-16 Mantao Xu Smote algorithm with locally linear embedding
CN101980202A (zh) * 2010-11-04 2011-02-23 西安电子科技大学 不平衡数据的半监督分类方法

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
HAI WANG 等: "Multiple binary classifiers fusion using induced intuitionistic fuzzy ordered weighted average operator", 《2011 IEEE INTERNATIONAL CONFERENCE ON INFORMATION AND AUTOMATION (ICIA)》, 8 June 2011 (2011-06-08), pages 230 - 235, XP 032003191, DOI: doi:10.1109/ICINFA.2011.5948993 *
欧阳震诤: "不平稳数据流的分类技术研究", 《中国博士学位论文全文数据库 信息科技辑》, no. 04, 15 April 2011 (2011-04-15), pages 138 - 27 *
陈思 等: "基于聚类融合的不平衡数据分类方法", 《模式识别与人工智能》, vol. 23, no. 6, 31 December 2010 (2010-12-31) *

Cited By (28)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103413038A (zh) * 2013-08-01 2013-11-27 雷英杰 基于矢量量化的长期直觉模糊时间序列预测方法
CN104112074A (zh) * 2014-07-15 2014-10-22 西安交通大学 基于直觉模糊集的纳税人利益关联度评估方法
CN104112074B (zh) * 2014-07-15 2016-01-13 西安交通大学 基于直觉模糊集的纳税人利益关联度评估方法
CN104598586B (zh) * 2015-01-18 2018-04-17 北京工业大学 大规模文本分类的方法
CN104598586A (zh) * 2015-01-18 2015-05-06 北京工业大学 大规模文本分类的方法
CN104679860A (zh) * 2015-02-27 2015-06-03 北京航空航天大学 一种不平衡数据的分类方法
CN104679860B (zh) * 2015-02-27 2017-11-07 北京航空航天大学 一种不平衡数据的分类方法
WO2016177146A1 (zh) * 2015-08-24 2016-11-10 中兴通讯股份有限公司 一种网络流量数据的分类方法及装置
CN105589806A (zh) * 2015-12-17 2016-05-18 北京航空航天大学 一种基于SMOTE+Boosting算法的软件缺陷倾向预测方法
CN105589806B (zh) * 2015-12-17 2018-05-18 北京航空航天大学 一种基于SMOTE+Boosting算法的软件缺陷倾向预测方法
CN105701342A (zh) * 2016-01-12 2016-06-22 西北工业大学 基于代理的直觉模糊理论医疗诊断模型的构建方法及装置
CN105701342B (zh) * 2016-01-12 2018-05-22 西北工业大学 基于代理的直觉模糊理论医疗诊断模型的构建方法及装置
CN108305095A (zh) * 2017-12-22 2018-07-20 杭州先临三维云打印技术有限公司 三维模型打印成本估算方法及装置
CN108509982A (zh) * 2018-03-12 2018-09-07 昆明理工大学 一种处理二分类不平衡医学数据的方法
CN108595575A (zh) * 2018-04-16 2018-09-28 西安邮电大学 具有非确定性的多源用户体验数据聚合方法
CN108595575B (zh) * 2018-04-16 2021-11-02 西安邮电大学 具有非确定性的多源用户体验数据聚合方法
CN109167680A (zh) * 2018-08-06 2019-01-08 浙江工商大学 一种基于深度学习的流量分类方法
CN109190204A (zh) * 2018-08-15 2019-01-11 贵州大学 一种基于复杂网络的复杂机械产品模块划分方法
CN109190204B (zh) * 2018-08-15 2022-07-15 贵州大学 一种基于复杂网络的复杂机械产品模块划分方法
CN110110754B (zh) * 2019-04-03 2022-03-29 华南理工大学 基于代价局部泛化误差的不平衡问题的分类方法
CN110110754A (zh) * 2019-04-03 2019-08-09 华南理工大学 基于代价局部泛化误差的不平衡问题的分类方法
CN110472664A (zh) * 2019-07-17 2019-11-19 杭州有盾网络科技有限公司 一种基于深度学习的证件图片识别方法、装置及设备
CN111260210A (zh) * 2020-01-14 2020-06-09 广东南方视觉文化传媒有限公司 一种基于大数据分析的视觉资产管理系统及方法
CN111666872A (zh) * 2020-06-04 2020-09-15 电子科技大学 一种数据不平衡下的高效行为识别方法
CN111666872B (zh) * 2020-06-04 2022-08-05 电子科技大学 一种数据不平衡下的高效行为识别方法
CN112508792A (zh) * 2020-12-22 2021-03-16 北京航空航天大学杭州创新研究院 一种基于在线知识迁移的深度神经网络集成模型单张图像超分辨率方法和系统
CN113011503B (zh) * 2021-03-17 2021-11-23 彭黎文 一种电子设备的数据取证方法、存储介质及终端
CN113011503A (zh) * 2021-03-17 2021-06-22 彭黎文 一种电子设备的数据取证方法、存储介质及终端

Also Published As

Publication number Publication date
CN102402690B (zh) 2016-02-24

Similar Documents

Publication Publication Date Title
CN102402690B (zh) 基于直觉模糊集成的数据分类方法与系统
Zhang et al. Empowering one-vs-one decomposition with ensemble learning for multi-class imbalanced data
CN102521656B (zh) 非平衡样本分类的集成迁移学习方法
CN106973057B (zh) 一种适用于入侵检测的分类方法
CN110210555A (zh) 基于深度学习的钢轨鱼鳞伤损检测方法
CN105487526B (zh) 一种Fast RVM污水处理故障诊断方法
Pradeep et al. Students dropout factor prediction using EDM techniques
CN108304427A (zh) 一种用户客群分类方法和装置
CN107194427A (zh) 一种铣削刀具故障监测与识别方法及系统
CN103336992A (zh) 一种模糊神经网络学习算法
CN103593674B (zh) 一种颈部淋巴结超声图像特征选择方法
CN106295507A (zh) 一种基于集成卷积神经网络的性别识别方法
CN101847210A (zh) 基于二维经验模态分解和小波降噪的多分组图像分类方法
WO2020181911A1 (zh) 一种风险识别方法及装置
CN103473556A (zh) 基于拒识子空间的分层支持向量机分类方法
CN106156163A (zh) 文本分类方法以及装置
CN106529110A (zh) 一种用户数据分类的方法和设备
CN103678534A (zh) 结合粗糙集和模糊推理的生理信息与健康相关性获取方法
CN108509991A (zh) 基于卷积神经网络的肝部病理图像分类方法
Bamakan et al. A novel feature selection method based on an integrated data envelopment analysis and entropy model
CN110288028A (zh) 心电检测方法、系统、设备及计算机可读存储介质
CN107562722A (zh) 基于大数据的互联网舆情监测分析系统
Prachuabsupakij CLUS: A new hybrid sampling classification for imbalanced data
CN109871869A (zh) 一种肺结节分类方法及其装置
Saputra et al. Improve the accuracy of c4. 5 algorithm using particle swarm optimization (pso) feature selection and bagging technique in breast cancer diagnosis

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20160224