CN102402690B - 基于直觉模糊集成的数据分类方法与系统 - Google Patents
基于直觉模糊集成的数据分类方法与系统 Download PDFInfo
- Publication number
- CN102402690B CN102402690B CN201110301869.6A CN201110301869A CN102402690B CN 102402690 B CN102402690 B CN 102402690B CN 201110301869 A CN201110301869 A CN 201110301869A CN 102402690 B CN102402690 B CN 102402690B
- Authority
- CN
- China
- Prior art keywords
- sample
- class
- data
- pos
- sorter
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
- 238000000034 method Methods 0.000 title claims abstract description 70
- 238000012549 training Methods 0.000 claims abstract description 69
- 239000011159 matrix material Substances 0.000 claims abstract description 21
- 238000005070 sampling Methods 0.000 claims abstract description 11
- HUTDUHSNJYTCAR-UHFFFAOYSA-N ancymidol Chemical compound C1=CC(OC)=CC=C1C(O)(C=1C=NC=NC=1)C1CC1 HUTDUHSNJYTCAR-UHFFFAOYSA-N 0.000 claims description 17
- 238000002360 preparation method Methods 0.000 claims description 8
- 238000004140 cleaning Methods 0.000 claims description 7
- 230000015572 biosynthetic process Effects 0.000 claims description 6
- 230000004927 fusion Effects 0.000 claims description 6
- 238000003786 synthesis reaction Methods 0.000 claims description 6
- 238000002790 cross-validation Methods 0.000 claims description 5
- 239000012141 concentrate Substances 0.000 claims description 4
- 230000008901 benefit Effects 0.000 abstract description 3
- 238000003909 pattern recognition Methods 0.000 abstract description 2
- 238000003745 diagnosis Methods 0.000 description 10
- 238000012360 testing method Methods 0.000 description 8
- 238000010586 diagram Methods 0.000 description 5
- 238000005516 engineering process Methods 0.000 description 4
- 238000013459 approach Methods 0.000 description 3
- 238000011160 research Methods 0.000 description 3
- 238000013480 data collection Methods 0.000 description 2
- 238000013461 design Methods 0.000 description 2
- 238000011156 evaluation Methods 0.000 description 2
- 206010006187 Breast cancer Diseases 0.000 description 1
- 208000026310 Breast neoplasm Diseases 0.000 description 1
- 241001269238 Data Species 0.000 description 1
- 102100029469 WD repeat and HMG-box DNA-binding protein 1 Human genes 0.000 description 1
- 101710097421 WD repeat and HMG-box DNA-binding protein 1 Proteins 0.000 description 1
- 230000006978 adaptation Effects 0.000 description 1
- 239000000654 additive Substances 0.000 description 1
- 230000000996 additive effect Effects 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 238000007418 data mining Methods 0.000 description 1
- 238000001514 detection method Methods 0.000 description 1
- 201000010099 disease Diseases 0.000 description 1
- 208000037265 diseases, disorders, signs and symptoms Diseases 0.000 description 1
- 239000003814 drug Substances 0.000 description 1
- 238000002474 experimental method Methods 0.000 description 1
- 230000006870 function Effects 0.000 description 1
- 238000007499 fusion processing Methods 0.000 description 1
- 208000019622 heart disease Diseases 0.000 description 1
- 238000007689 inspection Methods 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 238000007500 overflow downdraw method Methods 0.000 description 1
- 239000007787 solid Substances 0.000 description 1
- 241000894007 species Species 0.000 description 1
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明涉及模式识别领域,公开了一种适用于非平衡数据的基于直觉模糊集成的分类方法和基于该方法的系统。包括:a)清洗原始数据,将原始POS类样本按其类内位置分类,生成POS类人工样本;b)用类间近似平衡的不同样本集训练基分类器;c)将基分类器分类输出等效用转化为直觉模糊矩阵,d)结合基分类器权重集成待分类样本属于POS类、NEG类的隶属度和非隶属度,做出分类决策。本发明具有以下优点:综合过采样和欠采样,避免过学习;基分类器的训练样本不同,保证其差异性;对基分类器不做具体限制,具有良好的扩展性;直觉模糊推理方法定量的描述了分类中的不确定性,提高了集成学习的性能,因而基于该方法的系统能更好地支持医疗诊断决策等。
Description
技术领域
本发明是针对数据的分类方法的研究,涉及模式识别领域,特别是涉及一种基于直觉模糊集成的非平衡数据分类方法与基于该方法的系统。
背景技术
在医疗诊断过程中,医生通过对一系列检查得到检查者的若干个指标的客观数据,并以此为依据结合医学知识或临床经验做出最主要的诊断决策:患病或正常。此时医生面临的一个问题就是如何科学的将检查者的这些数据分为“患病”或者“正常”中的某一类,其中历史的正确的诊断数据是一项有力的参考依据。这里医生面临的分类问题具有以下特点:(1)历史数据中“患病”或者“正常”的样本数差别较大,即非平衡的,因为大多数人都是“正常”的;(2)“患病”比“正常”更受关注,因为将一个正常人误判为病人固然带来一定的负面效果,然而将一个病人误判为正常人的后果显然严重得多。
分类技术作为数据挖掘的一项关键技术,在金融业、零售业、电信业等领域都有广泛的应用。一些现有的机器学习的分类方法已经相对成熟,用来对平衡的数据进行分类能获得较好的性能。然而,现有的分类方法大多基于类内和类间分布大致平衡这个基本假设,也就是认为各类所含的样本数基本相当,在此前提下通过统计或其他方法学习分类函数。然而在许多现实问题中,这一假设是不成立的;相反,某个类别中的样本数可能会远远小于其他类别,而这个少数类别恰好是应用中最重要的类别。例如医疗诊断等问题中,少数类的识别率更为重要。在这类问题中,传统的分类方法没有办法兼顾或者重视少数类的识别率,因此不适合用在对这种类分布不平衡的数据进行分类。
对非平衡的数据分类的困难首先在于缺少足够的少数类样本数据。在应用中,少数类(POS类)样本与多数类(NEG类)样本的比例可达1∶1000甚至更大。另一方面,经典的分类评价准则不能有效的评价非平衡数据分类的性能。现有的少数适用于非平衡的数据分类的研究主要集中于:(1)通过过采样或者欠采样技术改变数据的分布,使之接近平衡的分布。(2)设计适用于非平衡数据集的分类方法,如代价敏感型分类方法和集成学习方法。现有的研究在以下方面有待改进:
(1)欠采样技术通过减少多数类样本来改善数据的不平衡状况,但不可避免的要放弃一些样本,也就可能抛弃了一些对分类有用的信息。而过采样技术通过复制或人工生成少数类样本来改变数据分布,也很容易造成过适应。同时如何根据少数类样本的初始分布来进行人工数据的生成也有待研究。
(2)集成学习方法能很好的改善单分类器的不稳定性,提高整体的分类性能。但传统的集成学习方法只简单的考虑分类器对样本属于类别的支持程度,忽视了分类器输出同时还包含着样本不属于类别的程度,没有定量地考虑分类器输出的模糊的或概率的不确定性。这就导致了集成分类方法有时并没有很大程度地改善分类性能。
发明内容
为了解决上述问题,提高非平衡数据环境下对POS类样本的辨识率,并为医疗诊断等应用提供更有效的决策支持,本发明公开了一种新的适用于非平衡数据的分类方法及基于该方法的系统,该方法主要利用POS类样本在类中的位置分布来产生人工样本,再通过直觉模糊理论集成多个模糊分类器的分类结果,进而做出最终决策。
为了实现上述发明目的,本发明采用的技术方案如下:
基于直觉模糊集成的数据分类方法,包括以下步骤:
步骤101:清洗原始数据集,并将原始POS类样本按其类内位置分类;
步骤102:生成POS类人工样本,准备训练数据集;
步骤103:为每个基分类器准备类间近似平衡的分类样本,并训练基分类器;
步骤104:用基分类器对待分类样本分类,将分类输出等效用转化为直觉模糊矩阵;
步骤105:结合分类器权重融合待分类样本属于POS类、NEG类的隶属度和非隶属度,并作出分类决策。
本发明还提供了一种基于上述数据分类方法的系统,包括数据交换接口和基于直觉模糊集成的数据分类模块M;系统运行的平台通过所述数据交换接口向所述数据分类模块M提供用于训练的历史样本集和待分类的样本;同时所述数据分类模块M将分类结果返回给系统平台。
其中基于直觉模糊集成的数据分类模块M包括:
a)数据准备模块M1:清洗原始数据集中的NEG类样本的噪声,根据POS类样本的类内位置生成人工数据,并形成训练数据集。包含NEG类数据清洗单元U11、POS类人工数据生成单元U12;训练数据合成模块U13;
b)分类器训练模块M2:利用随机抽样方法为每个基分类器准备训练数据,训练基分类器的模型,同时计算基分类器的权重。包含训练数据准备单元U21、分类器训练单元U22;
c)分类模块M3:用分类器训练单元U22中训练的分类器模型对待分类样本分类,其输出汇总为分类器输出矩阵,将分类器输出矩阵等效用地转换为直觉模糊矩阵,结合分类器权重融合直觉模糊信息并作出分类决策。包含基分类器调用单元U31、等效用转换单元U32、直觉模糊融合单元U33和分类决策单元U34;
其中数据准备模块M1、分类器训练模块M2和分类模块M3依次串行连接。
相比本领域的现有技术,本发明的适用于非平衡数据的分类方法具有以下优点:(1)本发明在改善原始数据集中的非平衡的状况时综合欠采样技术和过采样技术;同时本发明设计的过采样技术并不是简单的重复采样,而是根据样本离类边界的程度按一定的比例生成人工数据,避免了过学习现象的发生。(2)本发明在训练多分类器系统时,每个基分类器使用不同的数据训练,保证了基分类器之间的差异性,从而提高了系统的集成学习性能。(3)由于本发明对具体的基分类器不作限制,所以在具体实施的时候具有很大的灵活性和可扩展性。在对分类精度要求较高、对时间不敏感的场合,可以采用分类精度高的一种或几种分类器作为基分类器;在对时间要求非常高的场合,可以采用训练和分类速度快但分类精度稍弱的分类器。(4)本发明技术在融合多分类器的输出时采用直觉模糊集的加权融合方法,该方法同时考虑了待分类样本属于某类别的隶属度和非隶属度,量化了分类器的不确定性,并融入分类器的融合过程中,降低了系统的不确定性,提高集成学习的效率。
附图说明
图1是本发明基于直觉模糊集成的数据分类方法的流程图。
图2是本发明分类方法中数据清洗与POS类数据预处理的流程图。
图3是本发明分类方法中生成训练数据集的流程图。
图4是本发明分类方法中多分类器系统训练的流程图。
图5是本发明分类方法中分类器输出转换与融合的流程图。
图6是基于本发明分类方法的医疗诊断决策支持系统的结构图。
图7是实现本发明分类方法的模块的结构图。
具体实施方式
以下结合附图和具体实施例对本发明作具体说明。
本发明的适用于非平衡数据的分类方法如图1所示,包括以下步骤:
步骤101:清洗原始数据集,并将原始POS类样本按其类内位置分类;
步骤102:生成POS类人工样本,准备训练数据集;
步骤103:为每个基分类器准备类间近似平衡的分类样本,并训练基分类器;
步骤104:用基分类器对待分类样本分类,将分类输出等效用转化为直觉模糊矩阵;
步骤105:结合分类器权重融合待分类样本属于POS类、NEG类的隶属度和非隶属度,并作出分类决策。
以下进一步详细的说明本发明实施例中的各个细节问题。
本发明假设原始数据集中包含两个类(POS类、NEG类)的样本。样本记为(x;y)或x,其中x是一个向量,包含样本所有属性的数据。当x属于POS类,y=1,否则y=-1。
1、数据清洗与POS类数据预处理
本发明首先对原始数据集中的数据进行预处理,包括清洗NEG类的噪音样本、将POS类样本按类内位置预分类。如图2所示,包含如下步骤:
步骤201:初始化NEG类训练样本集合N和POS类的边界样本集合BORDER、邻近边界样本集合NEAR_BD、非边界样本集合NON_BD为空集;
步骤202:对于每个NEG类样本(xi;-1),选择其m个最近邻,计算m个最近邻中NEG类样本的比例r。若r≤rnoise,则认为该样本为噪音,从原始数据集中删除,否则N=NU{(xi;1)}。其中rnoise为噪音样本的本类近邻比例阀值。
步骤203:对于每个POS类样本(xi;1),选择其m个最近邻,计算m个最近邻中POS类样本的比例r;
若r≤rborder,则该样本为边界样本,BORDER=BORDERU{(xi;1)};
若rborder<r≤rnearbd,则该样本为邻近边界样本,NEAR_BD=NEAR_BDU{(xi;1)};
若r>rnearbd,则该样本为非边界样本,NON_BD=NON_BDU{(xi;1)};
其中rborder、rnearbd分别为边界样本的本类近邻比例阀值、邻近边界样本的本类近邻比例阀值。
2、训练数据集生成
本发明根据POS类样本构造一定数量的人工样本,改善原始数据的不平衡状况。由于越靠近类边界的样本越可能被错误的识别,本发明产生人工样本的基本思想为:样本越靠近类边界,根据其产生的人工样本比例就越大。如图3所示,包含如下步骤:
步骤301:初始化POS类人工数据集合NEW为空集;
步骤302:对于每个边界样本集合BORDER中的样本(xi;1),执行:
(1)从POS类样本中选择(xi;1)的k个最近邻;
(2)随机产生一个0到k之间的整数s1,从k个最近邻中随机的选择s1个。
(3)对于每个选中的最近邻(xj;1),产生一个新的POS类人工数据其中:
这里rdm为(0,1)上的随机数。
步骤303:对于每个邻近边界样本集合NEAR_BD中的样本(xi;1),执行:
(1)从POS类样本中选择(xi;1)的k/p个最近邻,其中p为边界样本与邻近边界样本在过采样过程中的相对重要性,取大于1的数;
(2)随机产生一个0到k/p之间的整数s2,从k/p个最近邻中随机的选择s2个。
(3)对于每个选中的最近邻(xj;1),产生一个新的POS类人工数据其中:
这里rdm为(0,1)上的随机数。
步骤304:训练分类器用的POS类样本P为:
P=BORDERUNEAR_BDUNON_BDUNEW,
训练数据集为PUN。
产生人工数据是为了改善类间数据不平衡的状况。对于具体的数据集,设置恰当的k,p的值,使得POS类样本数尽可能接近或等于NEG类样本数。
3、多分类器系统训练
本发明重点在于非平衡数据的采样和多分类器的融合,因此不涉及具体的分类器。任意可以将输出解释为隶属度或者等效用转化为隶属度的分类算法都可以用在本发明中。本发明的多分类器系统中的基分类器可以是同质的也可以是异质的,并且每个基分类器使用不同的数据训练。如图4所示,训练算法如下:
步骤401:将POS类训练数据集P、NEG类训练数据集N分别随机地均分为nc个子集:记为Pi和Ni(i=1,2,L,nc),其中nc为基分类器的个数;
步骤402:对于第i(i=1,2,L,nc)个分类器,执行:
(1)用数据PiUNi训练第i个基分类器;
(2)取交叉验证的平均分类精度作为第i个基分类器的权重wi。
其中步骤402可以并行执行,以提高训练速度。
4、分类决策
区别于传统的多分类器系统,本发明首先将分类器的输出统一的等效用转化为直觉模糊数的形式,再结合分类器权重融合这些直觉模糊数。这一过程不仅综合考虑了样本属于某类别的程度,同时也考虑了样本不属于某类别的程度,从而定量的描述了单个分类器的不确定性,提高了分类性能。如图5所示,包含以下步骤:
步骤501:将待分类样本(x;y)输入到nc个基分类器,输出汇总成矩阵:
其中(yi1,yi2)为第i个基分类器的输出,分别代表了待分类样本属于POS类、NEG类的程度;
步骤502:将基分类器的输出等效用地转化为直觉模糊矩阵:
其中,μij=(yij-MINi)/(MAXi-MINi),vij=(MAXi-yij)/(MAXi-MINi),i=1,2,L,nc,j=1或2,MAXi和MINi分别为第i个基分类器的最大和最小输出数值,由具体的分类器决定;
步骤503:计算待分类样本属于POS类的隶属度μpos和非隶属度vpos,以及待分类样本属于NEG类隶属度μnwg和非隶属度vneg:
其中,wi为第i个基分类器的权重;
步骤504:决策。如果μpos-vpos≥μneg-vneg,待分类样本属于POS类;否则,待分类样本属于NEG类。
其中,步骤501中调用基分类器对待分类样本分类的过程可以并行执行。步骤503融合了步骤502中得到的直觉模糊矩阵中的直觉模糊数,该公式依据直觉模糊数的加权平均算子得到。所以,这一过程综合且定量的考虑了每个基分类器的不确定性,从而减少了整个多分类器系统的不确定性,提高了分类性能。
5、实用性验证
从标准的UCI数据库中选择公开的医疗数据进行测试。需要说明的是,本实施例中初始化的参数值、以及用到的基分类器的分类算法仅为说明本发明技术有效性、实用性的目的,而不是对本发明的限制。本实施例中测试的数据库信息如下表1所示。实验中,取m=10,rnoise=0.1,rborder=0.4,rnearbd=0.8,r=2,nc=10。对于Breast-cancerdataset,k=6;对于Heartdiseasedataset,k=4;对于Sick-euthyroiddataset,k=18。所有距离均为欧式距离,分类器权重为5折交叉验证的平均精度。基分类器均采用极端学习机(ExtremeLearningMachine),其输出的最大值最小值分别为1和-1。
表1本发明实施例中测试的数据库基本信息
数据库名称 | 样本数 | 属性数 | POS类样本比例 |
Breast-cancer dataset | 569 | 30 | 37.25% |
Heart disease dataset | 270 | 13 | 44.44% |
Sick-euthyroid dataset | 3163 | 25 | 8.25% |
评价指标选择POS类样本准确率与NEG类样本准确率的几何平均数G-means。为了便于比较,本实施例同时测试了原始数据集上单分类器(记为:O+S)、原始数据集上多分类器(记为:O+M)、采用本发明采样技术且使用单分类器(记为:C+S)、完整使用本发明方法(记为:本发明方法)几种情况下的性能。选择80%的样本作为原始数据用于训练,剩下的20%作为测试样本。G-means的测试结果如下表2,其中所有结果均为10次重复实验的
平均值。表2本发明实施例测试的几种算法的结果(10次重复试验的平均值)
本发明还提供了一种基于上述的适用于非平衡数据的分类方法的系统,包括数据交换接口和基于直觉模糊集成的数据分类模块M,如图6所示,可以运行在医疗机构已经存在的医疗诊断系统平台上,与医疗诊断系统平台交换数据,作为其子系统,提供决策支持。通过数据交换接口,平台向基于直觉模糊集成的数据分类模块M提供样本数据,包括用于训练的历史样本集和待分类的样本;同时基于直觉模糊集成的数据分类模块M将分类结果返回给医疗诊断系统平台。用户不需要任何的附加工作,就可以从医疗诊断系统平台上得到子系统提供的决策支持。其中,基于直觉模糊集成的数据分类模块M实现本发明的适用于非平衡数据的分类方法,包含数据准备模块M1、分类器训练模块M2和分类模块M3,如图7所示,其中数据准备模块M1、分类器训练模块M2和分类模块M3依次串行连接。
数据准备模块M1完成对原始数据的清洗,并生成一定量的人工样本,构成类间近似平衡的训练数据集。其中包括:
NEG类数据清洗单元U11:用于删除NEG类噪音样本;
POS类人工数据生成单元U12:将POS类样本按类内位置分类,再将POS类的边界样本、邻近边界样本按不同比例生成人工数据;
训练数据合成模块U13:利用NEG类清洗后样本、POS类原始样本、POS类人工样本构成训练数据集。
其中NEG类数据清洗单元U11,POS类人工数据生成单元U12,训练数据合成模块U13依次串行连接。
分类器训练模块M2为每个基分类器准备类间近似平衡的训练样本,训练基分类器,同时计算基分类器的权重。其中包括:
基分类器训练数据准备单元U21:利用随机抽样方法为每个基分类器准备类间近似平衡的训练样本;
分类器训练单元U22:提供与分类算法兼容的接口,调用分类器,利用训练样本训练基分类模型并利用交叉验证技术计算该分类器的权重。
其中基分类器训练数据准备单元U21,分类器训练单元U22依次串行连接。
分类模块M3调用训练好的基分类器对待分类样本分类,将分类器输出汇总并等效用地转换为直觉模糊矩阵,利用直觉模糊推理方法融合该矩阵并作出分类决策。其中包括:
基分类器调用单元U31:并行地调用训练好的分类模型对待分类样本分类,汇总各个基分类器的输出;
等效用转换单元U32:将基分类器的输出等效用地转换为直觉模糊矩阵;
直觉模糊融合单元U33:结合基分类器权重将直觉模糊矩阵融合为两个直觉模糊数,表示待分类样本属于以及不属于POS类、NEG类的程度;
分类决策单元U34:根据这两个直觉模糊数中的信息给出分类决策。
其中基分类器调用单元U31,等效用转换单元U32,直觉模糊融合单元U33,分类决策单元U34依次串行连接。
上述的基于本发明分类方法的医疗诊断决策支持系统具有明显的效益,可以应用在:(1)可以集成在已经存在的医疗诊断系统平台上,为医疗诊断、疾病检查提供决策支持,且不会增加用户的工作量。(2)由于本发明的多分类器系统组成的灵活性,本发明技术即可以用于对识别率要求很高的场合,也能用于对时间要求很高的场合。(3)如果其他的工业应用的分类问题具备特点:两个类别、类间非平衡、少数类的识别等重要,本发明的决策支持系统就可以集成在对应的应用中并提供决策支持,如信用卡欺骗检测等。
Claims (10)
1.基于直觉模糊集成的数据分类方法,其特征在于,所述方法包括:
步骤101:清洗原始数据集,并将原始POS类样本按其类内位置分类;
步骤102:生成POS类人工样本,准备训练数据集;
步骤103:为每个基分类器准备类间近似平衡的分类样本,并训练基分类器;
步骤104:用基分类器对待分类样本分类,将分类输出等效用转化为直觉模糊矩阵;
步骤105:结合分类器权重融合待分类样本属于POS类、NEG类的隶属度和非隶属度,并作出分类决策;
所述步骤101包括如下步骤:
步骤201:初始化NEG类训练样本集合N和POS类的边界样本集合BORDER、邻近边界样本集合NEAR_BD、非边界样本集合NON_BD为空集;
步骤202:对于每个NEG类样本(xi;-1),选择其m个最近邻,计算m个最近邻中NEG类样本的比例r;若r≤rnoise,则认为该样本为噪音,从原始数据集中删除,否则N=N∪{(xi;1)},其中向量xi为样本数据,-1为NEG类的类标号,rnoise为噪音样本的本类近邻比例阀值;
步骤203:对于每个POS类样本(xi;1),选择其m个最近邻,计算m个最近邻中POS类样本的比例r;
若r≤rborder,则该样本为边界样本,BORDER=BORDER∪{(xi;1)};
若rborder<r≤rnearbd,则该样本为邻近边界样本,NEAR_BD=NEAR_BD∪{(xi;1)};
若r>rnearbd,则该样本为非边界样本,NON_BD=NON_BD∪{(xi;1)};
其中向量xi为样本数据,1为POS类的类标号,rborder、rnearbd分别为边界样本的本类近邻比例阀值、邻近边界样本的本类近邻比例阀值。
2.如权利要求1所述的基于直觉模糊集成的数据分类方法,其特征在于,所述步骤102包括如下步骤:
步骤301:初始化POS类人工数据集合NEW为空集;
步骤302:对于每个边界样本集合BORDER中的样本,执行:
(1)从POS类样本中选择样本(xi;1)的k个最近邻样本(xj;1),其中向量xj为样本数据,1为该样本的类标号;
(2)随机产生一个0到k之间的整数s1,从k个最近邻中随机的选择s1个;
(3)对于每个选中的最近邻样本(xj;1),产生一个新的POS类人工数据其中:
这里rdm为(0,1)上的随机数;
(4)
步骤303:对于每个邻近边界样本集合NEAR_BD中的样本,执行:
(1)从POS类样本中选择样本(xi;1)的k/p个最近邻,其中p为边界样本与邻近边界样本在过采样过程中的相对重要性,取大于1的数;
(2)随机产生一个0到k/p之间的整数s2,从k/p个最近邻中随机的选择s2个;
(3)对于每个选中的最近邻样本(xj;1),产生一个新的POS类人工数据其中:
,这里rdm为(0,1)上的随机数;
(4)
步骤304:训练分类器用的POS类样本P为:
P=BORDER∪NEAR_BD∪NON_BD∪NEW,
训练数据集为P∪N。
3.如权利要求1所述的基于直觉模糊集成的数据分类方法,其特征在于,所述步骤103包含如下步骤:
步骤401:将POS类训练数据集P、NEG类训练数据集N分别随机地均分为nc个子集:记为Pi和Ni,i=1,2,…,nc,其中nc为基分类器的个数;
步骤402:对于第i个分类器,执行:
(1)用数据Pi∪Ni训练第i个基分类器;
(2)取交叉验证的平均分类精度作为第i个基分类器的权重wi。
4.如权利要求1所述的基于直觉模糊集成的数据分类方法,其特征在于,所述步骤104包括如下步骤:
步骤501:将待分类样本(x;y)输入到nc个基分类器,其输出汇总成矩阵:
其中(yi1,yi2)为第i个基分类器的输出,分别代表了待分类样本属于POS类、NEG类的程度;
步骤502:将基分类器的输出等效用地转化为直觉模糊矩阵:
其中,μij=(yij-MINi)/(MAXi-MINi),vij=(MAXi-yij)/(MAXi-MINi),i=1,2,…,nc,j=1或2,MAXi和MINi分别为第i个基分类器的最大和最小输出数值,由具体的分类器决定。
5.如权利要求4所述的基于直觉模糊集成的数据分类方法,其特征在于,所述步骤105包括如下步骤:
步骤503:计算待分类样本属于POS类的隶属度μpos和非隶属度vpos,以及待分类样本属于NEG类隶属度μneg和非隶属度vneg:
其中,wi为第i个基分类器的权重,μi1,vi1,μi2,vi2为直觉模糊矩阵的值,i=1,2,…,nc,nc为基分类器的个数;
步骤504:如果μpos-vpos≥μneg-vneg,待分类样本属于POS类;否则,待分类样本属于NEG类。
6.一种基于如权利要求1所述的数据分类方法的系统,其特征在于,所述系统包括数据交换接口和基于直觉模糊集成的数据分类模块M;系统运行的平台通过所述数据交换接口向所述数据分类模块M提供用于训练的历史样本集和待分类的样本;同时所述数据分类模块M将分类结果返回给系统平台。
7.如权利要求6所述的系统,其特征在于,所述数据分类模块M包括:
数据准备模块M1:完成对原始数据的清洗,并生成一定量的人工样本,构成类间近似平衡的训练数据集;
分类器训练模块M2:为每个基分类器准备类间近似平衡的训练样本,训练基分类器,同时计算基分类器的权重;
分类模块M3:调用训练好的基分类器对待分类样本分类,将分类器输出汇总并等效用地转换为直觉模糊矩阵,利用直觉模糊推理方法融合该矩阵并作出分类决策;
其中数据准备模块M1、分类器训练模块M2和分类模块M3依次串行连接。
8.如权利要求7所述的系统,其特征在于,所述数据准备模块M1包括:
NEG类数据清洗单元U11:用于删除NEG类噪音样本;
POS类人工数据生成单元U12:将POS类样本按类内位置分类,再将POS类的边界样本、邻近边界样本按不同比例生成人工数据;
训练数据合成模块U13:利用NEG类清洗后样本、POS类原始样本、POS类人工样本构成训练数据集;
其中NEG类数据清洗单元U11,POS类人工数据生成单元U12,训练数据合成模块U13依次串行连接。
9.如权利要求7所述的系统,其特征在于,所述分类器训练模块M2包括:
基分类器训练数据准备单元U21:利用随机抽样方法为每个基分类器准备类间近似平衡的训练样本;
分类器训练单元U22:提供与分类算法兼容的接口,调用分类器,利用训练样本训练基分类模型并利用交叉验证技术计算该分类器的权重;
其中基分类器训练数据准备单元U21、分类器训练单元U22依次串行连接。
10.如权利要求7所述的系统,其特征在于,所述分类模块M3包括:
基分类器调用单元U31:并行地调用训练好的分类模型对待分类样本分类,汇总各个基分类器的输出;
等效用转换单元U32:将基分类器的输出等效用地转换为直觉模糊矩阵;
直觉模糊融合单元U33:结合基分类器权重将直觉模糊矩阵融合为两个直觉模糊数,表示待分类样本属于以及不属于POS类、NEG类的程度;
分类决策单元U34:根据这两个直觉模糊数中的信息给出分类决策;
其中基分类器调用单元U31、等效用转换单元U32、直觉模糊融合单元U33、分类决策单元U34依次串行连接。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201110301869.6A CN102402690B (zh) | 2011-09-28 | 2011-09-28 | 基于直觉模糊集成的数据分类方法与系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201110301869.6A CN102402690B (zh) | 2011-09-28 | 2011-09-28 | 基于直觉模糊集成的数据分类方法与系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN102402690A CN102402690A (zh) | 2012-04-04 |
CN102402690B true CN102402690B (zh) | 2016-02-24 |
Family
ID=45884880
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201110301869.6A Expired - Fee Related CN102402690B (zh) | 2011-09-28 | 2011-09-28 | 基于直觉模糊集成的数据分类方法与系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN102402690B (zh) |
Families Citing this family (18)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103413038A (zh) * | 2013-08-01 | 2013-11-27 | 雷英杰 | 基于矢量量化的长期直觉模糊时间序列预测方法 |
CN104112074B (zh) * | 2014-07-15 | 2016-01-13 | 西安交通大学 | 基于直觉模糊集的纳税人利益关联度评估方法 |
CN104598586B (zh) * | 2015-01-18 | 2018-04-17 | 北京工业大学 | 大规模文本分类的方法 |
CN104679860B (zh) * | 2015-02-27 | 2017-11-07 | 北京航空航天大学 | 一种不平衡数据的分类方法 |
CN106487535B (zh) * | 2015-08-24 | 2020-04-28 | 中兴通讯股份有限公司 | 一种网络流量数据的分类方法及装置 |
CN105589806B (zh) * | 2015-12-17 | 2018-05-18 | 北京航空航天大学 | 一种基于SMOTE+Boosting算法的软件缺陷倾向预测方法 |
CN105701342B (zh) * | 2016-01-12 | 2018-05-22 | 西北工业大学 | 基于代理的直觉模糊理论医疗诊断模型的构建方法及装置 |
CN108305095A (zh) * | 2017-12-22 | 2018-07-20 | 杭州先临三维云打印技术有限公司 | 三维模型打印成本估算方法及装置 |
CN108509982A (zh) * | 2018-03-12 | 2018-09-07 | 昆明理工大学 | 一种处理二分类不平衡医学数据的方法 |
CN108595575B (zh) * | 2018-04-16 | 2021-11-02 | 西安邮电大学 | 具有非确定性的多源用户体验数据聚合方法 |
CN109167680A (zh) * | 2018-08-06 | 2019-01-08 | 浙江工商大学 | 一种基于深度学习的流量分类方法 |
CN109190204B (zh) * | 2018-08-15 | 2022-07-15 | 贵州大学 | 一种基于复杂网络的复杂机械产品模块划分方法 |
CN110110754B (zh) * | 2019-04-03 | 2022-03-29 | 华南理工大学 | 基于代价局部泛化误差的不平衡问题的分类方法 |
CN110472664A (zh) * | 2019-07-17 | 2019-11-19 | 杭州有盾网络科技有限公司 | 一种基于深度学习的证件图片识别方法、装置及设备 |
CN111260210A (zh) * | 2020-01-14 | 2020-06-09 | 广东南方视觉文化传媒有限公司 | 一种基于大数据分析的视觉资产管理系统及方法 |
CN111666872B (zh) * | 2020-06-04 | 2022-08-05 | 电子科技大学 | 一种数据不平衡下的高效行为识别方法 |
CN112508792B (zh) * | 2020-12-22 | 2024-09-10 | 北京航空航天大学杭州创新研究院 | 一种基于在线知识迁移的深度神经网络集成模型单张图像超分辨率方法和系统 |
CN113011503B (zh) * | 2021-03-17 | 2021-11-23 | 彭黎文 | 一种电子设备的数据取证方法、存储介质及终端 |
Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101980202A (zh) * | 2010-11-04 | 2011-02-23 | 西安电子科技大学 | 不平衡数据的半监督分类方法 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2007115426A2 (en) * | 2006-03-30 | 2007-10-18 | Carestream Health, Inc. | Smote algorithm with locally linear embedding |
-
2011
- 2011-09-28 CN CN201110301869.6A patent/CN102402690B/zh not_active Expired - Fee Related
Patent Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101980202A (zh) * | 2010-11-04 | 2011-02-23 | 西安电子科技大学 | 不平衡数据的半监督分类方法 |
Non-Patent Citations (3)
Title |
---|
Multiple binary classifiers fusion using induced intuitionistic fuzzy ordered weighted average operator;Hai Wang 等;《2011 IEEE International Conference on Information and Automation (ICIA)》;20110608;第62页第4段至第66页最后一段,第70页第1段至第72页第4段 * |
不平稳数据流的分类技术研究;欧阳震诤;《中国博士学位论文全文数据库 信息科技辑》;20110415(第 04 期);I138-27,第62页第4段至第66页最后一段,第70页第1段至第72页第4段 * |
基于聚类融合的不平衡数据分类方法;陈思 等;《模式识别与人工智能》;20101231;第23卷(第6期);全文 * |
Also Published As
Publication number | Publication date |
---|---|
CN102402690A (zh) | 2012-04-04 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN102402690B (zh) | 基于直觉模糊集成的数据分类方法与系统 | |
Xu et al. | A comparison study of validity indices on swarm-intelligence-based clustering | |
Zhang et al. | Empowering one-vs-one decomposition with ensemble learning for multi-class imbalanced data | |
Zheng et al. | Oversampling method for imbalanced classification | |
Theera-Umpon et al. | Morphological granulometric features of nucleus in automatic bone marrow white blood cell classification | |
Sahare et al. | A review of multi-class classification for imbalanced data | |
Sharpe et al. | Dealing with missing values in neural network-based diagnostic systems | |
CN107766929B (zh) | 模型分析方法及装置 | |
Polat et al. | A new classification method for breast cancer diagnosis: feature selection artificial immune recognition system (FS-AIRS) | |
Pradeep et al. | Students dropout factor prediction using EDM techniques | |
CN108304427A (zh) | 一种用户客群分类方法和装置 | |
CN107292330A (zh) | 一种基于监督学习和半监督学习双重信息的迭代式标签噪声识别算法 | |
CN106897566A (zh) | 一种风险预估模型的构建方法及装置 | |
CN102254193A (zh) | 基于相关向量机的多类数据分类方法 | |
CN106529110A (zh) | 一种用户数据分类的方法和设备 | |
CN109858518A (zh) | 一种基于MapReduce的大型数据集聚类方法 | |
CN108509991A (zh) | 基于卷积神经网络的肝部病理图像分类方法 | |
Devi et al. | A relative evaluation of the performance of ensemble learning in credit scoring | |
Mizianty et al. | Discretization as the enabling technique for the Naive Bayes and semi-Naive Bayes-based classification | |
CN106601271A (zh) | 一种语音异常信号检测系统 | |
Fayyadh et al. | Brain tumor detection and classifiaction using CNN algorithm and deep learning techniques | |
Al Habesyah et al. | Sentiment Analysis of TikTok Shop Closure in Indonesia on Twitter Using Supervised Machine Learning | |
Kathiravan et al. | Mitigating Imbalanced Data in Online Social Networks using Stratified K-Means Sampling | |
Liu | A framework of data mining application process for credit scoring | |
Acharya et al. | Prediction of Tuberculosis From Lung Tissue Images of Diversity Outbred Mice Using Jump Knowledge Based Cell Graph Neural Network |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
C14 | Grant of patent or utility model | ||
GR01 | Patent grant | ||
CF01 | Termination of patent right due to non-payment of annual fee | ||
CF01 | Termination of patent right due to non-payment of annual fee |
Granted publication date: 20160224 |