CN102402690B

CN102402690B - 基于直觉模糊集成的数据分类方法与系统

Info

Publication number: CN102402690B
Application number: CN201110301869.6A
Authority: CN
Inventors: 钱钢; 王海; 黄为民; 郑雄燕
Original assignee: Nanjing Normal University
Current assignee: Nanjing Normal University
Priority date: 2011-09-28
Filing date: 2011-09-28
Publication date: 2016-02-24
Anticipated expiration: 2031-09-28
Also published as: CN102402690A

Abstract

本发明涉及模式识别领域，公开了一种适用于非平衡数据的基于直觉模糊集成的分类方法和基于该方法的系统。包括：a)清洗原始数据，将原始POS类样本按其类内位置分类，生成POS类人工样本；b)用类间近似平衡的不同样本集训练基分类器；c)将基分类器分类输出等效用转化为直觉模糊矩阵，d)结合基分类器权重集成待分类样本属于POS类、NEG类的隶属度和非隶属度，做出分类决策。本发明具有以下优点：综合过采样和欠采样，避免过学习；基分类器的训练样本不同，保证其差异性；对基分类器不做具体限制，具有良好的扩展性；直觉模糊推理方法定量的描述了分类中的不确定性，提高了集成学习的性能，因而基于该方法的系统能更好地支持医疗诊断决策等。

Description

基于直觉模糊集成的数据分类方法与系统

技术领域

本发明是针对数据的分类方法的研究，涉及模式识别领域，特别是涉及一种基于直觉模糊集成的非平衡数据分类方法与基于该方法的系统。

背景技术

在医疗诊断过程中，医生通过对一系列检查得到检查者的若干个指标的客观数据，并以此为依据结合医学知识或临床经验做出最主要的诊断决策：患病或正常。此时医生面临的一个问题就是如何科学的将检查者的这些数据分为“患病”或者“正常”中的某一类，其中历史的正确的诊断数据是一项有力的参考依据。这里医生面临的分类问题具有以下特点：(1)历史数据中“患病”或者“正常”的样本数差别较大，即非平衡的，因为大多数人都是“正常”的；(2)“患病”比“正常”更受关注，因为将一个正常人误判为病人固然带来一定的负面效果，然而将一个病人误判为正常人的后果显然严重得多。

分类技术作为数据挖掘的一项关键技术，在金融业、零售业、电信业等领域都有广泛的应用。一些现有的机器学习的分类方法已经相对成熟，用来对平衡的数据进行分类能获得较好的性能。然而，现有的分类方法大多基于类内和类间分布大致平衡这个基本假设，也就是认为各类所含的样本数基本相当，在此前提下通过统计或其他方法学习分类函数。然而在许多现实问题中，这一假设是不成立的；相反，某个类别中的样本数可能会远远小于其他类别，而这个少数类别恰好是应用中最重要的类别。例如医疗诊断等问题中，少数类的识别率更为重要。在这类问题中，传统的分类方法没有办法兼顾或者重视少数类的识别率，因此不适合用在对这种类分布不平衡的数据进行分类。

对非平衡的数据分类的困难首先在于缺少足够的少数类样本数据。在应用中，少数类(POS类)样本与多数类(NEG类)样本的比例可达1∶1000甚至更大。另一方面，经典的分类评价准则不能有效的评价非平衡数据分类的性能。现有的少数适用于非平衡的数据分类的研究主要集中于：(1)通过过采样或者欠采样技术改变数据的分布，使之接近平衡的分布。(2)设计适用于非平衡数据集的分类方法，如代价敏感型分类方法和集成学习方法。现有的研究在以下方面有待改进：

(1)欠采样技术通过减少多数类样本来改善数据的不平衡状况，但不可避免的要放弃一些样本，也就可能抛弃了一些对分类有用的信息。而过采样技术通过复制或人工生成少数类样本来改变数据分布，也很容易造成过适应。同时如何根据少数类样本的初始分布来进行人工数据的生成也有待研究。

(2)集成学习方法能很好的改善单分类器的不稳定性，提高整体的分类性能。但传统的集成学习方法只简单的考虑分类器对样本属于类别的支持程度，忽视了分类器输出同时还包含着样本不属于类别的程度，没有定量地考虑分类器输出的模糊的或概率的不确定性。这就导致了集成分类方法有时并没有很大程度地改善分类性能。

发明内容

为了解决上述问题，提高非平衡数据环境下对POS类样本的辨识率，并为医疗诊断等应用提供更有效的决策支持，本发明公开了一种新的适用于非平衡数据的分类方法及基于该方法的系统，该方法主要利用POS类样本在类中的位置分布来产生人工样本，再通过直觉模糊理论集成多个模糊分类器的分类结果，进而做出最终决策。

为了实现上述发明目的，本发明采用的技术方案如下：

基于直觉模糊集成的数据分类方法，包括以下步骤：

步骤101：清洗原始数据集，并将原始POS类样本按其类内位置分类；

步骤102：生成POS类人工样本，准备训练数据集；

步骤103：为每个基分类器准备类间近似平衡的分类样本，并训练基分类器；

步骤104：用基分类器对待分类样本分类，将分类输出等效用转化为直觉模糊矩阵；

步骤105：结合分类器权重融合待分类样本属于POS类、NEG类的隶属度和非隶属度，并作出分类决策。

本发明还提供了一种基于上述数据分类方法的系统，包括数据交换接口和基于直觉模糊集成的数据分类模块M；系统运行的平台通过所述数据交换接口向所述数据分类模块M提供用于训练的历史样本集和待分类的样本；同时所述数据分类模块M将分类结果返回给系统平台。

其中基于直觉模糊集成的数据分类模块M包括：

a)数据准备模块M1：清洗原始数据集中的NEG类样本的噪声，根据POS类样本的类内位置生成人工数据，并形成训练数据集。包含NEG类数据清洗单元U11、POS类人工数据生成单元U12；训练数据合成模块U13；

b)分类器训练模块M2：利用随机抽样方法为每个基分类器准备训练数据，训练基分类器的模型，同时计算基分类器的权重。包含训练数据准备单元U21、分类器训练单元U22；

c)分类模块M3：用分类器训练单元U22中训练的分类器模型对待分类样本分类，其输出汇总为分类器输出矩阵，将分类器输出矩阵等效用地转换为直觉模糊矩阵，结合分类器权重融合直觉模糊信息并作出分类决策。包含基分类器调用单元U31、等效用转换单元U32、直觉模糊融合单元U33和分类决策单元U34；

其中数据准备模块M1、分类器训练模块M2和分类模块M3依次串行连接。

相比本领域的现有技术，本发明的适用于非平衡数据的分类方法具有以下优点：(1)本发明在改善原始数据集中的非平衡的状况时综合欠采样技术和过采样技术；同时本发明设计的过采样技术并不是简单的重复采样，而是根据样本离类边界的程度按一定的比例生成人工数据，避免了过学习现象的发生。(2)本发明在训练多分类器系统时，每个基分类器使用不同的数据训练，保证了基分类器之间的差异性，从而提高了系统的集成学习性能。(3)由于本发明对具体的基分类器不作限制，所以在具体实施的时候具有很大的灵活性和可扩展性。在对分类精度要求较高、对时间不敏感的场合，可以采用分类精度高的一种或几种分类器作为基分类器；在对时间要求非常高的场合，可以采用训练和分类速度快但分类精度稍弱的分类器。(4)本发明技术在融合多分类器的输出时采用直觉模糊集的加权融合方法，该方法同时考虑了待分类样本属于某类别的隶属度和非隶属度，量化了分类器的不确定性，并融入分类器的融合过程中，降低了系统的不确定性，提高集成学习的效率。

附图说明

图1是本发明基于直觉模糊集成的数据分类方法的流程图。

图2是本发明分类方法中数据清洗与POS类数据预处理的流程图。

图3是本发明分类方法中生成训练数据集的流程图。

图4是本发明分类方法中多分类器系统训练的流程图。

图5是本发明分类方法中分类器输出转换与融合的流程图。

图6是基于本发明分类方法的医疗诊断决策支持系统的结构图。

图7是实现本发明分类方法的模块的结构图。

具体实施方式

以下结合附图和具体实施例对本发明作具体说明。

本发明的适用于非平衡数据的分类方法如图1所示，包括以下步骤：

步骤102：生成POS类人工样本，准备训练数据集；

以下进一步详细的说明本发明实施例中的各个细节问题。

本发明假设原始数据集中包含两个类(POS类、NEG类)的样本。样本记为(x；y)或x，其中x是一个向量，包含样本所有属性的数据。当x属于POS类，y＝1，否则y＝-1。

1、数据清洗与POS类数据预处理

本发明首先对原始数据集中的数据进行预处理，包括清洗NEG类的噪音样本、将POS类样本按类内位置预分类。如图2所示，包含如下步骤：

步骤201：初始化NEG类训练样本集合N和POS类的边界样本集合BORDER、邻近边界样本集合NEAR_BD、非边界样本集合NON_BD为空集；

步骤202：对于每个NEG类样本(x_i；-1)，选择其m个最近邻，计算m个最近邻中NEG类样本的比例r。若r≤r_noise，则认为该样本为噪音，从原始数据集中删除，否则N＝NU{(x_i；1)}。其中r_noise为噪音样本的本类近邻比例阀值。

步骤203：对于每个POS类样本(x_i；1)，选择其m个最近邻，计算m个最近邻中POS类样本的比例r；

若r≤r_border，则该样本为边界样本，BORDER＝BORDERU{(x_i；1)}；

若r_border＜r≤r_nearbd，则该样本为邻近边界样本，NEAR_BD＝NEAR_BDU{(x_i；1)}；

若r＞r_nearbd，则该样本为非边界样本，NON_BD＝NON_BDU{(x_i；1)}；

其中r_border、r_nearbd分别为边界样本的本类近邻比例阀值、邻近边界样本的本类近邻比例阀值。

2、训练数据集生成

本发明根据POS类样本构造一定数量的人工样本，改善原始数据的不平衡状况。由于越靠近类边界的样本越可能被错误的识别，本发明产生人工样本的基本思想为：样本越靠近类边界，根据其产生的人工样本比例就越大。如图3所示，包含如下步骤：

步骤301：初始化POS类人工数据集合NEW为空集；

步骤302：对于每个边界样本集合BORDER中的样本(x_i；1)，执行：

(1)从POS类样本中选择(x_i；1)的k个最近邻；

(2)随机产生一个0到k之间的整数s₁，从k个最近邻中随机的选择s₁个。

(3)对于每个选中的最近邻(x_j；1)，产生一个新的POS类人工数据其中：

x_{j}^{(N)} = rdm \cdot (x_{j} - x_{i}) + x_{j}, j = 1,2, L, s_{1}

这里rdm为(0，1)上的随机数。

(4), NEW = NEWU {(x_{j}^{(N)}; 1)} .

步骤303：对于每个邻近边界样本集合NEAR_BD中的样本(x_i；1)，执行：

(1)从POS类样本中选择(x_i；1)的k/p个最近邻，其中p为边界样本与邻近边界样本在过采样过程中的相对重要性，取大于1的数；

(2)随机产生一个0到k/p之间的整数s₂，从k/p个最近邻中随机的选择s₂个。

x_{j}^{(N)} = rdm \cdot (x_{j} - x_{i}) + x_{j}, j = 1,2, L, s_{2}

这里rdm为(0，1)上的随机数。

(4), NEW = NEWU {(x_{j}^{(N)}; 1)} .

步骤304：训练分类器用的POS类样本P为：

P＝BORDERUNEAR_BDUNON_BDUNEW，

训练数据集为PUN。

产生人工数据是为了改善类间数据不平衡的状况。对于具体的数据集，设置恰当的k，p的值，使得POS类样本数尽可能接近或等于NEG类样本数。

3、多分类器系统训练

本发明重点在于非平衡数据的采样和多分类器的融合，因此不涉及具体的分类器。任意可以将输出解释为隶属度或者等效用转化为隶属度的分类算法都可以用在本发明中。本发明的多分类器系统中的基分类器可以是同质的也可以是异质的，并且每个基分类器使用不同的数据训练。如图4所示，训练算法如下：

步骤401：将POS类训练数据集P、NEG类训练数据集N分别随机地均分为n_c个子集：记为P_i和N_i(i＝1，2，L，n_c)，其中n_c为基分类器的个数；

步骤402：对于第i(i＝1，2，L，n_c)个分类器，执行：

(1)用数据P_iUN_i训练第i个基分类器；

(2)取交叉验证的平均分类精度作为第i个基分类器的权重w_i。

其中步骤402可以并行执行，以提高训练速度。

4、分类决策

区别于传统的多分类器系统，本发明首先将分类器的输出统一的等效用转化为直觉模糊数的形式，再结合分类器权重融合这些直觉模糊数。这一过程不仅综合考虑了样本属于某类别的程度，同时也考虑了样本不属于某类别的程度，从而定量的描述了单个分类器的不确定性，提高了分类性能。如图5所示，包含以下步骤：

步骤501：将待分类样本(x；y)输入到n_c个基分类器，输出汇总成矩阵：

(\begin{matrix} y_{11} & y_{12} \\ M & M \\ y_{i 1} & y_{i 2} \\ M & M \\ y_{n_{c} 1} & y_{n_{c} 2} \end{matrix})

其中(y_i1，y_i2)为第i个基分类器的输出，分别代表了待分类样本属于POS类、NEG类的程度；

步骤502：将基分类器的输出等效用地转化为直觉模糊矩阵：

(\begin{matrix} (μ_{11}, v_{11}) & (μ_{12}, v_{12}) \\ M & M \\ (μ_{i 1}, v_{i 1}) & (μ_{i 2}, v_{i 2}) \\ M & M \\ (μ_{n_{c} 1}, v_{n_{c} 1}) & (μ_{n_{c} 1}, v_{n_{c} 1}) \end{matrix})

其中，μ_ij＝(y_ij-MIN_i)/(MAX_i-MIN_i)，v_ij＝(MAX_i-y_ij)/(MAX_i-MIN_i)，i＝1，2，L，n_c，j＝1或2，MAX_i和MIN_i分别为第i个基分类器的最大和最小输出数值，由具体的分类器决定；

步骤503：计算待分类样本属于POS类的隶属度μ_pos和非隶属度v_pos，以及待分类样本属于NEG类隶属度μ_nwg和非隶属度v_neg：

(μ_{pos}, v_{pos}) = (1 - Π_{i = 1}^{n_{c}} {(1 - μ_{i 1})}^{w_{i}}, Π_{i = 1}^{n_{c}} {(v_{i 1})}^{w_{i}}),

(μ_{neg}, v_{neg}) = (1 - Π_{i = 1}^{n_{c}} {(1 - μ_{i 2})}^{w_{i}}, Π_{i = 1}^{n_{c}} {(v_{i 2})}^{w_{i}})

其中，w_i为第i个基分类器的权重；

步骤504：决策。如果μ_pos-v_pos≥μ_neg-v_neg，待分类样本属于POS类；否则，待分类样本属于NEG类。

其中，步骤501中调用基分类器对待分类样本分类的过程可以并行执行。步骤503融合了步骤502中得到的直觉模糊矩阵中的直觉模糊数，该公式依据直觉模糊数的加权平均算子得到。所以，这一过程综合且定量的考虑了每个基分类器的不确定性，从而减少了整个多分类器系统的不确定性，提高了分类性能。

5、实用性验证

从标准的UCI数据库中选择公开的医疗数据进行测试。需要说明的是，本实施例中初始化的参数值、以及用到的基分类器的分类算法仅为说明本发明技术有效性、实用性的目的，而不是对本发明的限制。本实施例中测试的数据库信息如下表1所示。实验中，取m＝10，r_noise＝0.1，r_border＝0.4，r_nearbd＝0.8，r＝2，n_c＝10。对于Breast-cancerdataset，k＝6；对于Heartdiseasedataset，k＝4；对于Sick-euthyroiddataset，k＝18。所有距离均为欧式距离，分类器权重为5折交叉验证的平均精度。基分类器均采用极端学习机(ExtremeLearningMachine)，其输出的最大值最小值分别为1和-1。

表1本发明实施例中测试的数据库基本信息

数据库名称	样本数	属性数	POS类样本比例
				Breast-cancer dataset	569	30	37.25％
Heart disease dataset	270	13	44.44％
				Sick-euthyroid dataset	3163	25	8.25％

评价指标选择POS类样本准确率与NEG类样本准确率的几何平均数G-means。为了便于比较，本实施例同时测试了原始数据集上单分类器(记为：O+S)、原始数据集上多分类器(记为：O+M)、采用本发明采样技术且使用单分类器(记为：C+S)、完整使用本发明方法(记为：本发明方法)几种情况下的性能。选择80％的样本作为原始数据用于训练，剩下的20％作为测试样本。G-means的测试结果如下表2，其中所有结果均为10次重复实验的

平均值。表2本发明实施例测试的几种算法的结果(10次重复试验的平均值)

本发明还提供了一种基于上述的适用于非平衡数据的分类方法的系统，包括数据交换接口和基于直觉模糊集成的数据分类模块M，如图6所示，可以运行在医疗机构已经存在的医疗诊断系统平台上，与医疗诊断系统平台交换数据，作为其子系统，提供决策支持。通过数据交换接口，平台向基于直觉模糊集成的数据分类模块M提供样本数据，包括用于训练的历史样本集和待分类的样本；同时基于直觉模糊集成的数据分类模块M将分类结果返回给医疗诊断系统平台。用户不需要任何的附加工作，就可以从医疗诊断系统平台上得到子系统提供的决策支持。其中，基于直觉模糊集成的数据分类模块M实现本发明的适用于非平衡数据的分类方法，包含数据准备模块M1、分类器训练模块M2和分类模块M3，如图7所示，其中数据准备模块M1、分类器训练模块M2和分类模块M3依次串行连接。

数据准备模块M1完成对原始数据的清洗，并生成一定量的人工样本，构成类间近似平衡的训练数据集。其中包括：

NEG类数据清洗单元U11：用于删除NEG类噪音样本；

POS类人工数据生成单元U12：将POS类样本按类内位置分类，再将POS类的边界样本、邻近边界样本按不同比例生成人工数据；

训练数据合成模块U13：利用NEG类清洗后样本、POS类原始样本、POS类人工样本构成训练数据集。

其中NEG类数据清洗单元U11，POS类人工数据生成单元U12，训练数据合成模块U13依次串行连接。

分类器训练模块M2为每个基分类器准备类间近似平衡的训练样本，训练基分类器，同时计算基分类器的权重。其中包括：

基分类器训练数据准备单元U21：利用随机抽样方法为每个基分类器准备类间近似平衡的训练样本；

分类器训练单元U22：提供与分类算法兼容的接口，调用分类器，利用训练样本训练基分类模型并利用交叉验证技术计算该分类器的权重。

其中基分类器训练数据准备单元U21，分类器训练单元U22依次串行连接。

分类模块M3调用训练好的基分类器对待分类样本分类，将分类器输出汇总并等效用地转换为直觉模糊矩阵，利用直觉模糊推理方法融合该矩阵并作出分类决策。其中包括：

基分类器调用单元U31：并行地调用训练好的分类模型对待分类样本分类，汇总各个基分类器的输出；

等效用转换单元U32：将基分类器的输出等效用地转换为直觉模糊矩阵；

直觉模糊融合单元U33：结合基分类器权重将直觉模糊矩阵融合为两个直觉模糊数，表示待分类样本属于以及不属于POS类、NEG类的程度；

分类决策单元U34：根据这两个直觉模糊数中的信息给出分类决策。

其中基分类器调用单元U31，等效用转换单元U32，直觉模糊融合单元U33，分类决策单元U34依次串行连接。

上述的基于本发明分类方法的医疗诊断决策支持系统具有明显的效益，可以应用在：(1)可以集成在已经存在的医疗诊断系统平台上，为医疗诊断、疾病检查提供决策支持，且不会增加用户的工作量。(2)由于本发明的多分类器系统组成的灵活性，本发明技术即可以用于对识别率要求很高的场合，也能用于对时间要求很高的场合。(3)如果其他的工业应用的分类问题具备特点：两个类别、类间非平衡、少数类的识别等重要，本发明的决策支持系统就可以集成在对应的应用中并提供决策支持，如信用卡欺骗检测等。

Claims

1.基于直觉模糊集成的数据分类方法，其特征在于，所述方法包括：

步骤102：生成POS类人工样本，准备训练数据集；

步骤105：结合分类器权重融合待分类样本属于POS类、NEG类的隶属度和非隶属度，并作出分类决策；

所述步骤101包括如下步骤：

步骤202：对于每个NEG类样本(x_i；-1)，选择其m个最近邻，计算m个最近邻中NEG类样本的比例r；若r≤r_noise，则认为该样本为噪音，从原始数据集中删除，否则N＝N∪{(x_i；1)}，其中向量x_i为样本数据，-1为NEG类的类标号，r_noise为噪音样本的本类近邻比例阀值；

若r≤r_border，则该样本为边界样本，BORDER＝BORDER∪{(x_i；1)}；

若r_border<r≤r_nearbd，则该样本为邻近边界样本，NEAR_BD＝NEAR_BD∪{(x_i；1)}；

若r>r_nearbd，则该样本为非边界样本，NON_BD＝NON_BD∪{(x_i；1)}；

其中向量x_i为样本数据，1为POS类的类标号，r_border、r_nearbd分别为边界样本的本类近邻比例阀值、邻近边界样本的本类近邻比例阀值。

2.如权利要求1所述的基于直觉模糊集成的数据分类方法，其特征在于，所述步骤102包括如下步骤：

步骤301：初始化POS类人工数据集合NEW为空集；

步骤302：对于每个边界样本集合BORDER中的样本，执行：

(1)从POS类样本中选择样本(x_i；1)的k个最近邻样本(x_j；1)，其中向量x_j为样本数据，1为该样本的类标号；

(2)随机产生一个0到k之间的整数s₁，从k个最近邻中随机的选择s₁个；

(3)对于每个选中的最近邻样本(x_j；1)，产生一个新的POS类人工数据其中：

这里rdm为(0,1)上的随机数；

(4)

步骤303：对于每个邻近边界样本集合NEAR_BD中的样本，执行：

(1)从POS类样本中选择样本(x_i；1)的k/p个最近邻，其中p为边界样本与邻近边界样本在过采样过程中的相对重要性，取大于1的数；

(2)随机产生一个0到k/p之间的整数s₂，从k/p个最近邻中随机的选择s₂个；

，这里rdm为(0,1)上的随机数；

(4)

步骤304：训练分类器用的POS类样本P为：

P＝BORDER∪NEAR_BD∪NON_BD∪NEW，

训练数据集为P∪N。

3.如权利要求1所述的基于直觉模糊集成的数据分类方法，其特征在于，所述步骤103包含如下步骤：

步骤401：将POS类训练数据集P、NEG类训练数据集N分别随机地均分为n_c个子集：记为P_i和N_i，i＝1,2,…,n_c，其中n_c为基分类器的个数；

步骤402：对于第i个分类器，执行：

(1)用数据P_i∪N_i训练第i个基分类器；

(2)取交叉验证的平均分类精度作为第i个基分类器的权重w_i。

4.如权利要求1所述的基于直觉模糊集成的数据分类方法，其特征在于，所述步骤104包括如下步骤：

步骤501：将待分类样本(x；y)输入到n_c个基分类器，其输出汇总成矩阵：

其中(y_i1,y_i2)为第i个基分类器的输出，分别代表了待分类样本属于POS类、NEG类的程度；

步骤502：将基分类器的输出等效用地转化为直觉模糊矩阵：

其中，μ_ij＝(y_ij-MIN_i)/(MAX_i-MIN_i)，v_ij＝(MAX_i-y_ij)/(MAX_i-MIN_i)，i＝1,2,…,n_c，j＝1或2，MAX_i和MIN_i分别为第i个基分类器的最大和最小输出数值，由具体的分类器决定。

5.如权利要求4所述的基于直觉模糊集成的数据分类方法，其特征在于，所述步骤105包括如下步骤：

步骤503：计算待分类样本属于POS类的隶属度μ_pos和非隶属度v_pos，以及待分类样本属于NEG类隶属度μ_neg和非隶属度v_neg：

其中，w_i为第i个基分类器的权重，μ_i1,v_i1，μ_i2,v_i2为直觉模糊矩阵的值，i＝1,2,…,n_c，n_c为基分类器的个数；

步骤504：如果μ_pos-v_pos≥μ_neg-v_neg，待分类样本属于POS类；否则，待分类样本属于NEG类。

6.一种基于如权利要求1所述的数据分类方法的系统，其特征在于，所述系统包括数据交换接口和基于直觉模糊集成的数据分类模块M；系统运行的平台通过所述数据交换接口向所述数据分类模块M提供用于训练的历史样本集和待分类的样本；同时所述数据分类模块M将分类结果返回给系统平台。

7.如权利要求6所述的系统，其特征在于，所述数据分类模块M包括：

数据准备模块M1：完成对原始数据的清洗，并生成一定量的人工样本，构成类间近似平衡的训练数据集；

分类器训练模块M2：为每个基分类器准备类间近似平衡的训练样本，训练基分类器，同时计算基分类器的权重；

分类模块M3：调用训练好的基分类器对待分类样本分类，将分类器输出汇总并等效用地转换为直觉模糊矩阵，利用直觉模糊推理方法融合该矩阵并作出分类决策；

8.如权利要求7所述的系统，其特征在于，所述数据准备模块M1包括：

NEG类数据清洗单元U11：用于删除NEG类噪音样本；

训练数据合成模块U13：利用NEG类清洗后样本、POS类原始样本、POS类人工样本构成训练数据集；

9.如权利要求7所述的系统，其特征在于，所述分类器训练模块M2包括：

分类器训练单元U22：提供与分类算法兼容的接口，调用分类器，利用训练样本训练基分类模型并利用交叉验证技术计算该分类器的权重；

其中基分类器训练数据准备单元U21、分类器训练单元U22依次串行连接。

10.如权利要求7所述的系统，其特征在于，所述分类模块M3包括：

分类决策单元U34：根据这两个直觉模糊数中的信息给出分类决策；

其中基分类器调用单元U31、等效用转换单元U32、直觉模糊融合单元U33、分类决策单元U34依次串行连接。