CN104809476B - 一种基于分解的多目标进化模糊规则分类方法 - Google Patents

一种基于分解的多目标进化模糊规则分类方法 Download PDF

Info

Publication number
CN104809476B
CN104809476B CN201510240068.1A CN201510240068A CN104809476B CN 104809476 B CN104809476 B CN 104809476B CN 201510240068 A CN201510240068 A CN 201510240068A CN 104809476 B CN104809476 B CN 104809476B
Authority
CN
China
Prior art keywords
rand
chro
chromosome
fuzzy rule
pop
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201510240068.1A
Other languages
English (en)
Other versions
CN104809476A (zh
Inventor
刘若辰
焦李成
宋晓林
马晨琳
于昕
王爽
马晶晶
刘红英
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Xidian University
Original Assignee
Xidian University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Xidian University filed Critical Xidian University
Priority to CN201510240068.1A priority Critical patent/CN104809476B/zh
Publication of CN104809476A publication Critical patent/CN104809476A/zh
Application granted granted Critical
Publication of CN104809476B publication Critical patent/CN104809476B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/12Computing arrangements based on biological models using genetic models

Abstract

本发明公开了一种基于分解的多目标进化模糊规则分类方法,主要解决现有的分类方法对不平衡数据分类效果差的问题。实现步骤是:获取训练数据集和测试数据集;归一化并将训练数据集分为多数类和少数类;初始化忽略概率、模糊分区数以及隶属度函数;初始化原始种群,采用具有加权因子的模糊规则权重公式确定权重;确定迭代终止条件、迭代次数及步长、理想点;依种群划分方向向量;原始种群执行进化操作并采用切比雪夫更新方式对原始种群更新;直至迭代终止条件;获得测试数据集的分类结果;再投射得到AUCH并输出。本发明运行速度快,分类效果好。能够应用于肿瘤检测、误差检测、信用卡欺诈检测、垃圾短信识别等技术领域。

Description

一种基于分解的多目标进化模糊规则分类方法
技术领域
本发明属于数据挖掘中的分类技术领域,特别涉及一种在不平衡数据分类领域采用进化算法对模糊分类器进行优化的方法。具体是一种基于分解的多目标进化模糊规则分类方法。主要用于生物医学识别、肿瘤检测、信用卡欺诈检测、垃圾短信识别等领域中存在的不平衡数据的分类。
背景技术
随着科技的不断进步,数据挖掘技术越来越广泛的应用于我们的生产生活中,而作为数据挖掘领域的一个重要的分支,分类技术也越来越受到人们的重视。分类技术是指利用已知类别的数据训练分类模型,然后用此分类模型对未知数据进行类别预测的技术。常见的应用如:语音识别、图像识别、生物医学识别、肿瘤检测、信用卡欺诈检测、垃圾短信识别等都是应用分类技术的例子,可见分类技术与我们的工作和生活息息相关,它能提高我们的工作效率和生活质量,给我们的生活带来极大地便利。而现实生活中大部分的分类问题又都属于不平衡分类问题,不平衡分类问题是指待分类的两类中某一类(多数类)的数据规模远远大于另一类(少数类)的数据规模,例如上面提到的生物医学识别、肿瘤检测、信用卡欺诈检测、垃圾短信识别。由于不平衡分类问题特有的不平衡结构,使得常规的分类技术如决策树C4.5等更偏向于将未知数据预测为多数类而降低识别精度。
近年来基于模糊规则的模糊分类技术被应用于生物医学检测、肿瘤检测、信用卡欺诈检测、垃圾短信识别等不平衡问题分类领域并取得了较好的效果。但由于不平衡问题中多数类数据集所包含的数据与少数类数据集所包含的数据在数量上的不平衡性,导致模糊分类技术的识别精度很难提高;并且由于不平衡问题的特殊性,评价分类结果的指标也由单标准(分类精度)变成了多标准(特异度FPR、灵敏度TPR),若用单个模糊分类器对不平衡问题进行类别预测,就会导致对分类结果的评价不全面的问题。而多目标进化算法是一种基于种群的迭代优化算法,通过对分类器的多次进化迭代可以提高分类器的识别精度;并且该算法针对多标准情况能够同时优化多个模糊分类器,有效弥补了单个模糊分类器对分类结果的评价不全面的缺点。但由于多目标进化算法较为复杂,需要多次迭代优化,使得算法运行时间较长,导致现有分类方法在处理肿瘤检测、误差检测、信用卡欺诈检测、垃圾短信识别等不平衡问题时不能兼顾较高的识别精度与较快的运行速度。数据分类过程中由于算法复杂、运行速度慢,直接影响了数据分类的效率和限制了分类算法的广泛应用。
发明内容
本发明的目的是针对生物医学识别、肿瘤检测、信用卡欺诈检测、垃圾短信识别存在数据不平衡现象的应用中少数类不易被识别的问题,提出了一种识别精度高、运行速度快的基于分解的多目标进化模糊规则分类方法。
本发明是一种基于分解的多目标进化模糊规则分类方法,其特征在于,数据分类过程包括有如下步骤:
步骤1.从某一技术领域中采集或获取被测训练数据集X和测试数据集X′,训练数据集用来训练分类器,测试数据集用来检测训练好的分类器的性能,两个数据集所包含的数据具有相同的数据格式,其数据格式为xi=[xi,1,...,xi,n,y],xi为任一数据集中的第i条数据,其中xi,1,...,xi,n为数据xi的n个属性值,y为数据xi所属类别的类标。
步骤2.分别将训练数据集X和测试数据集X′的n个属性值归一化到[0,1]内,并将训练数据集X按类别的类标分成多数类数据集Dnegative与少数类数据集Dpositive,多数类数据集与少数类数据集所包含的数据个数分别为Nnegative、Npositive
步骤3.人为设定忽略概率pi,pi∈[0,1],人为设定模糊分区数par,par≠0,取值为正整数,人为初始化模糊分区的隶属度函数为三角隶属度函数。
步骤4.初始化由pop个模糊分类器构成的原始种群P,每个模糊分类器代表一条染色体chroh,h∈{1,...,pop},每条染色体包含R条模糊规则ri=[ri,1,...,ri,n,wi,li],i∈{1,...,R},模糊规则ri的前n项属性值,记录了n个模糊分区标号,每个属性代表一个基因,模糊分区标号的范围为{0,...,par},wi为模糊规则的权重,li为模糊规则所属类别的类标,其中每一条模糊规则的权重采用具有加权因子的模糊规则权重公式来确定,其中模糊规则的权重wi,i∈{1,...,R}。
步骤5.人为设定迭代终止条件termination,初始迭代次数t=1,迭代步长也为1,理想点idealpoint=[0,1]。
步骤6.采用分解机制,根据原始种群P的大小pop,划分出pop个方向向量,其中染色体chroh,h∈{1,...,pop}对应的方向向量为
步骤7.对原始种群P执行进化操作,得到子代染色体chroh,cr_1,chroh,cr_2,chroh,mu_1,chroh,mu_2,h∈{1,...,pop},依次用子代染色体对原始种群中的所有染色体chroh,h∈{1,...,pop}采用切比雪夫更新方式进行更新,最终得到由pop条染色体chro′h,h∈{1,...,pop}组成的进化种群P′。
步骤8.若迭代次数t小于迭代终止条件termination,则迭代次数t加1,并将进化种群P′记为原始种群P,将染色体chro′h,h∈{1,...,pop}记为chroh,h∈{1,...,pop},返回执行步骤7,若迭代次数t等于迭代终止条件termination,执行步骤9。
步骤9.将进化种群P′中的所有染色体chro′h,h=1,...,pop依次对测试数据集X′进行分类,得到pop条分类结果resulth=[FPR,TPR],h=1,...,pop,每条染色体chro′h,h∈{1,...,pop}对应一条分类结果。
步骤10.将得到的pop条分类结果投射到操作者接收曲线(ROC)平面上,获取曲线凸包下面积的值(AUCH),其值在[0,1]区间内,并输出该值,该输出结果代表了被测某一技术领域中采集或获取的数据集中所有数据的分类正确率,曲线凸包下面积的值越大,分类结果越好。
本发明的技术思路是:在MOEA/D算法框架下,采用分解机制把需要同时优化的两目标即特异度FPR和灵敏度TPR问题分解为一系列单目标问题,以模糊分类器作为种群中的个体,利用进化算子对种群进行迭代优化,最终得到一组在训练数据集中具有较好识别精度的模糊分类器,进而再用这组模糊分类器对测试数据集进行类别预测,得到对测试数据的分类正确率的评价指标,即曲线凸包下面积的值(AUCH)。
本发明的实现还在于:其中步骤4初始化由pop个模糊分类器构成的种群P并采用具有加权因子的模糊规则权重公式来确定模糊规则权重wi,i∈{1,...,R},包括有如下步骤:
4a.从训练数据集X中随机选出一条数据xrand=[xrand,1,...,xrand,n,yrand],对应于该条数据xrand存在一条模糊规则rrand=[rrand,1,...,rrand,n,wrand,lrand],其中模糊规则rrand的前n项属性值分别记录了与数据xrand的n个属性所对应的模糊分区标号,wrand为模糊规则rrand的权重,lrand为模糊规则rrand所属类别的类标,确定该条模糊规则rrand的前n项属性值,该模糊规则的权重wrand与该模糊规则所属类别的类标lrand由步骤4b确定。
4b.向模糊规则的权重公式中引入加权因子,该加权因子能够均衡多数类与少数类之间的不平衡性,用该模糊规则权重公式确定模糊规则rrand=[rrand,1,...,rrand,n,wrand,lrand]的权重wrand,以及模糊规则所属类别的类标lrand,其中模糊规则权重wrand∈[0,1],所属类别的类标lrand∈{positive,negative}。
4c.得到一条模糊规则后,重复执行步骤4a-4b,直到得到R条模糊规则,由这R条模糊规则组成一条染色体chroh,h∈{1,...,pop}。
4d.得到由R条模糊规则组成的染色体后,重复执行步骤4c,直到得到pop条染色体chroh,h=1,...,pop,由这些染色体组成原始种群P。
本发明采用的模糊规则权重公式中引入了加权因子,加权因子能够有效的均衡不平衡数据集中多数类与少数类之间的不平衡性,使得总体上,少数类与多数类具有相同的重要性。在不平衡数据集中,由于少数类数据的数目少于多数类数据的数目,因此应当设置少数类的模糊规则权重加权因子大于多数类的模糊规则权重加权因子,以保证总体上少数类与多数类具有相同的重要性。
本发明的实现还在于:其中步骤7对原始种群P执行进化操作并采用切比雪夫更新方法依次更新每条染色体,得到由pop条染色体组成的进化种群P′包括有如下步骤:
7a.对染色体chroh,h∈{1,...,pop}执行单点交叉操作,得到两个交叉子代染色体chroh,cr_1,chroh,cr_2,h∈{1,...,pop}。
7b.将两个交叉子代染色体chroh,cr_1,chroh,cr_2,h∈{1,...,pop}作为变异父代染色体,分别执行变异操作,得到两个变异子代染色体chroh,mu_1,chroh,mu_2,h∈{1,...,pop}。
7c.采用切比雪夫更新方式,以理想点idealpoint=[0,1]作为参考点,将进化操作产生的染色体chroh,cr_1,chroh,cr_2,chroh,mu_1,chroh,mu_2,h∈{1,...,pop}依次对chroh,h∈{1,...,pop}执行更新操作,得到pop条更新后的染色体,记为chro′h,h∈{1,...,pop}。
7d.若原始种群P中存在未执行过进化操作的染色体chroh,h∈{1,...,pop},则选定此染色体执行步骤7a,若原始种群P中所有染色体均执行过进化操作,则将种群chro′h,h=1,...,pop记为进化种群P′,执行步骤8。
本发明中每条染色体chroh,h∈{1,...,pop}均通过进化操作产生了四条与其相对应的染色体chroh,cr_1,chroh,cr_2,chroh,mu_1,chroh,mu_2,h∈{1,...,pop},然后采用切比雪夫更新方式,将这四条染色体分别对相应的原染色体执行更新操作。采用这种多对一的更新策略后,每条染色体均能进行多次更新,从而使得算法的优化速度加快。
本发明的实现还在于:其中步骤4b采用具有加权因子的模糊规则权重公式确定模糊规则rrand=[rrand,1,...,rrand,n,wrand,lrand]的权重wrand以及模糊规则所属类别的类标lrand,包括有如下步骤:
4b1.采用具有加权因子的模糊规则权重公式确定模糊规则rrand的权重wrand
式中Nnegative为多数类数据集所包含的数据个数,Npositive为少数类数据集所包含的数据个数,Snegative为多数类中所有Nnegative个匹配度之和,Spositive为少数类中所有Npositive个匹配度之和,Snegative和Spositive的计算公式分别如下:
式中为多数类数据集Dnegative中每一个数据xkn=[xkn,1,...,xkn,n,ykn],kn=1,...,Nnegative与步骤4a中得到的模糊规则rrand的匹配度,为少数类数据集Dpositive中每一个数据xkp=[xkp,1,...,xkp,n,ykp],kp=1,...,Npositive与模糊规则rrand的匹配度,其计算公式分别如下:
式中分别指数据xkn的n个属性在模糊规则rrand的前n项所记录的分区标号下的隶属度,分别指数据xkp的n个属性在模糊规则rrand的前n项所记录的分区标号下的隶属度。
4b2.将具有加权因子的模糊规则权重公式两项中较大者所属类别的类标确定为模糊规则rrand所属类别的类标lrand,并将最终确定的wrand、lrand分别填入模糊规则rrand的后两项得到完整的模糊规则rrand
本发明采用的模糊规则权重因子是根据多数类数据集中数据的数目Nnegative与少数类数据集中数据的数目Npositive来确定的,对于多数类数据集,由于其数据的数目较多,为了保证多数类与少数类具有相同的重要性,其对应的加权因子应较小,为而对于少数类数据,由于其数据的数目较少,为了保证多数类与少数类具有相同的重要性,其对应的加权因子应较大,为
本发明的实现还在于:其中步骤7c采用切比雪夫更新方式,将进化操作产生的染色体chroh,cr_1,chroh,cr_2,chroh,mu_1,chroh,mu_2,h∈{1,...,pop}依次对chroh,h∈{1,...,pop}执行更新操作,包括如下步骤:
7c1.求出染色体chroh在训练数据集X上的类别预测结果,其结果为resulth=[FPR,TPR]。
7c2.依次将染色体chroh,1,chroh,2,chroh,3,chroh,4对训练数据集X的进行预测,结果为resulth,evo_b=[FPR,TPR],evo_b=1,...,4。
7c3.分别将染色体chroh,evo_b,b=1,...,4通过切比雪夫分解方法对chroh进行更新,得到更新后的染色体,记为chro′h
7c4.若存在未执行过步骤7c3的染色体chroh,evo_b,b∈{1,...,4},则选定此染色体并将更新后的染色体chro′h记为待更新的染色体chroh,执行步骤7c3,若染色体chroh,evo_b,b∈{1,...,4}均执行执行过步骤7c3,则执行步骤7d。
本发明中采用的多条染色体chroh,evo_b,b=1,...,4分别对一条染色体chroh采用切比雪夫更新方式进行更新的操作,加速了算法的运行速度,使得算法通过很少的迭代次数就能达到较高的识别精度,在获得较好的分类结果的同时,加快了算法的运行速度。
本发明与现有技术相比具有以下优点:
1.本发明由于采用了效果较好的基于分解的多目标进化算法框架,将多目标分解为多个单目标,分别进行迭代优化,并采用特殊的更新方式,使得每一条染色体同时被更新多次,加速了种群的进化速度。
2.本发明采用模糊规则分类器作为基础分类器,尤其是向模糊规则权重公式中引入了加权因子,该加权因子有效的均衡了不平衡数据分类问题的不平衡性,提升了算法的识别精度。
附图说明
图1是本发明的总流程图。
具体实施方式
下面结合附图对本发明做详细说明:
实施例1:近年来随着科学技术的不断发展,人们对生存空间的了解越来越深,遇到的问题也越来越多,越来越复杂,其中数据分类问题尤其是不平衡数据分类问题越来越凸显在我们面前。不平衡数据分类被广泛的应用于人们的生产和生活中,例如生物医学识别中,从酵母菌的细胞中获取某一数据,并确定该数据是否来自于酵母菌细胞的某一个确定的内部部件,酵母菌细胞共有10个内部部件,该获取的数据所属的那一个部件所具有的数据较少,而剩余9个内部部件所具有的数据较多,这就造成了数据间的不平衡、肿瘤检测中确定某个人是否患有乳腺癌,在人群中真正患有乳腺癌的人数较少,而正常的没有乳腺癌的人数较多,较小的乳腺癌患者的数目与较大的正常人的数目就构成了不平衡数据集、信用卡欺诈检测中检测所有的信用记录中是否存在欺诈行为,在大量的信用记录中,具有欺诈的记录的数目很少,少量的欺诈记录与大量正常的信用记录构成了不平衡数据集、垃圾短信识别中识别垃圾短信,在日常收到的大量短信中,存在少量的垃圾短信,这些少量的垃圾短信与大量正常的短信也构成了不平衡数据集。可见不平衡数据分类技术与我们的工作和生活密切相关,该技术不仅给我们的生产生活带来了极大地便利而且推动了不平衡数据分类领域的发展。
本发明是一种基于分解的多目标进化模糊规则分类方法,参见图1,数据分类过程包括有如下步骤:
步骤1.从某一技术领域中采集或获取被测训练数据集X和测试数据集X′,训练数据集用来训练分类器,测试数据集用来检测训练好的分类器的性能,两个数据集所包含数据的格式均为xi=[xi,1,...,xi,n,y],xi为任一数据集中的第i条数据,其中xi,1,...,xi,n为数据xi的n个属性值,y为数据xi所属类别的类标,本例中是从酵母菌的细胞结构中获取数据,以获取数据的百分之八十作为训练数据集X,以获取数据的剩余百分之二十作为测试数据集X′,酵母菌数据的属性有8种,酵母菌内部部件有10个,因此训练数据集与测试数据集的具体数据格式为xi=[xi,1,...,xi,8,y],其中xi,1,...,xi,8为数据xi的8个属性值,y为数据xi所属类别的类标,y∈{CYT,NUC,MIT,ME3,ME2,ME1,EXC,VAC,POX,ERL},CYT为细胞质基质,NUC为细胞核,MIT为线粒体,ME3为无N端信号的膜蛋白质,ME2为无裂开信号的的膜蛋白质,ME1为有裂开信号的膜蛋白质,EXC为细胞外基质,VAC为液泡膜,POX为过氧化物,ERL为内质网腔。
步骤2.分别将训练数据集X和测试数据集X′的n个属性值归一化到[0,1]内,并将训练数据集X按类别的类标分成多数类数据集Dnegative与少数类数据集Dpositive,多数类数据集与少数类数据集所包含的数据个数分别为Nnegative、Npositive,本例中分别将训练数据集X和测试数据集X′的8个属性值归一化到[0,1]内,并将类别为{CYT,ME1,EXC,VAC,ERL}的数据标记成多数类数据,类别为{ME2}的数据标记成少数类数据,由多数类数据组成多数类数据集,由少数类数据组成少数类数据集。
步骤3.人为设定忽略概率pi,pi∈[0,1],人为设定模糊分区数par,par≠0,取值为正整数,人为初始化模糊分区的隶属度函数为三角隶属度函数,本例中pi=0.9,par=5。
步骤4.初始化由pop个模糊分类器构成的原始种群P,每个模糊分类器代表一条染色体chroh,h∈{1,...,pop},每条染色体包含R条模糊规则ri=[ri,1,...,ri,n,wi,li],i∈{1,...,R},模糊规则ri的前n个属性值,记录了n个模糊分区标号,每个属性代表一个基因,模糊分区标号的范围为{0,...,par},wi为模糊规则的权重,li为模糊规则所属类别的类标,其中每一条模糊规则的权重采用具有加权因子的模糊规则权重公式来确定,模糊规则的权重wi,i∈{1,...,R},本例中,pop=150,R=15,由于酵母菌细胞结构的数据具有8个属性,则模糊规则ri具有8个对应属性值即ri=[ri,1,...,ri,8,wi,li],i∈{1,...,15},其中wi∈[0,1],i∈{1,...,15},li∈{postive,negative}。
步骤5.人为设定迭代终止条件termination,初始迭代次数t=1,迭代步长也为1,理想点idealpoint=[0,1],本例中,termination=25,即迭代次数为25次,初始迭代次数t=1,迭代步长也为1,理想点idealpoint=[0,1]。
步骤6.采用分解机制,根据原始种群P的大小pop,划分出pop个方向向量,其中染色体chroh,h∈{1,...,pop}对应的方向向量为本例中,根据原始种群P的大小150,划分出150个方向向量,其中染色体chroh,h∈{1,...,150}对应的方向向量为
步骤7.对原始种群P执行进化操作,得到子代染色体chroh,cr_1,chroh,cr_2,chroh,mu_1,chroh,mu_2,h∈{1,...,pop},依次用子代染色体对原始种群中的所有染色体chroh,h∈{1,...,pop}采用切比雪夫更新方式进行更新,最终得到由pop条染色体chro′h,h∈{1,...,pop}组成的进化种群P′,本例中,对原始种群P执行进化操作,得到子代染色体chroh,cr_1,chroh,cr_2,chroh,mu_1,chroh,mu_2,h∈{1,...,150},依次用子代染色体对原始种群中的所有染色体chroh,h∈{1,...,150}采用切比雪夫更新方式进行更新,最终得到由150条染色体chro′h,h∈{1,...,150}组成的进化种群P′。
步骤8.若迭代次数t小于迭代终止条件termination,则迭代次数t加1,并将进化种群P′记为原始种群P,将染色体chro′h,h∈{1,...,pop}记为chroh,h∈{1,...,pop},返回执行步骤7,若迭代次数t等于迭代终止条件termination,执行步骤9,本例中,若迭代次数t小于迭代终止条件25,则迭代次数t加1,并将进化种群P′记为原始种群P,将染色体chro′h,h∈{1,...,150}记为chroh,h∈{1,...,150},返回执行步骤7,若迭代次数t等于迭代终止条件25,执行步骤9。
步骤9.将进化种群P′中的所有染色体chro′h,h=1,...,pop依次对测试数据集X′进行分类,得到pop条分类结果resulth=[FPR,TPR],h=1,...,pop,每条染色体chro′h,h∈{1,...,pop}对应一条分类结果,本例中,将进化种群P′中的所有染色体chro′h,h=1,...,150依次对酵母菌的细胞结构测试数据集X′进行分类,得到150条分类结果resulth=[FPR,TPR],h=1,...,150,每条染色体chro′h,h∈{1,...,150}对应一条分类结果。
步骤10.将得到的pop条分类结果投射到操作者接收曲线(ROC)平面上,获取曲线凸包下面积的值(AUCH),其值在[0,1]区间内,并输出该值,该输出结果代表了被测某一技术领域中采集或获取的数据集中所有数据的分类正确率,曲线凸包下面积的值越大,分类结果越好,本例中,将得到的150条分类结果投射到操作者接收曲线(ROC)平面上,获取凸包下面积的值(AUCH),其值在[0,1]区间内,并输出该值,该输出结果代表了酵母菌的细胞结构数据集中数据的分类正确率,曲线凸包下面积的值越大,分类结果越好。
实施例2:基于分解的多目标进化模糊规则分类方法同实施例1,其中步骤4初始化由pop个模糊分类器构成的种群P并采用具有加权因子的模糊规则权重公式来确定模糊规则权重wi,i∈{1,...,pop},本例中,初始化由150个模糊分类器构成的种群P并采用具有加权因子的模糊规则权重公式来确定模糊规则权重wi,i∈{1,...,150}包括有如下步骤:
4a.从训练数据集X中随机选出一条数据xrand=[xrand,1,...,xrand,n,yrand],对应于该条数据xrand存在一条模糊规则rrand=[rrand,1,...,rrand,n,wrand,lrand],其中模糊规则rrand的前n项属性值分别记录了与数据xrand的n个属性所对应的模糊分区标号,wrand为模糊规则rrand的权重,lrand为模糊规则rrand所属类别的类标,确定该条模糊规则rrand的前n个属性值,该模糊规则的权重wrand与该模糊规则所属类别的类标lrand由步骤4b确定,本例中,从酵母菌的细胞结构的训练数据集X中随机选出一条数据xrand=[xrand,1,...,xrand,8,yrand],对应于该条数据xrand存在一条模糊规则rrand=[rrand,1,...,rrand,8,wrand,lrand],其中模糊规则rrand的前8项属性值分别记录了与数据xrand的8个属性所对应的模糊分区标号,wrand为模糊规则rrand的权重,lrand为模糊规则rrand所属类别的类标,确定该条模糊规则rrand的前8个属性值,该模糊规则的权重wrand与该模糊规则所属类别的类标lrand由步骤4b确定。
4b.向模糊规则权重公式中引入加权因子,该加权因子能够均衡多数类与少数类之间的不平衡性,用模糊规则权重公式确定模糊规则rrand=[rrand,1,...,rrand,n,wrand,lrand]的权重wrand以及模糊规则所属类别的类标lrand,其中模糊规则权重wrand∈[0,1],所属类别的类标lrand∈{positive,negative},本例中,向模糊规则权重公式中引入加权因子,该加权因子能够均衡酵母菌的细胞结构数据中多数类与少数类之间的不平衡性,用模糊规则权重公式确定模糊规则rrand=[rrand,1,...,rrand,8,wrand,lrand]的权重wrand以及模糊规则所属类别的类标lrand,其中模糊规则权重wrand∈[0,1],所属类别的类标lrand∈{positive,negative}。
其中采用具有加权因子的模糊规则权重公式确定模糊规则rrand=[rrand,1,...,rrand,n,wrand,lrand]的权重wrand以及模糊规则所属类别的类标lrand。本例中,模糊规则为rrand=[rrand,1,...,rrand,8,wrand,lrand],用具有加权因子的模糊规则权重公式确定模糊规则权重wrand和模糊规则所属类别的类标lrand的过程,包括有如下步骤:
4b1.采用具有加权因子的模糊规则权重公式确定模糊规则rrand的权重wrand
式中Nnegative为多数类数据集所包含的数据个数,Npositive为少数类数据集所包含的数据个数,Snegative为多数类中所有Nnegative个匹配度之和,Spositive为少数类中所有Npositive个匹配度之和,Snegative和Spositive的计算公式分别如下:
式中为得到的模糊规则rrand的多数类匹配度,具体是多数类数据集Dnegative中每一个数据xkn=[xkn,1,...,xkn,n,ykn],kn=1,...,Nnegative与步骤4a中得到的模糊规则rrand的匹配度;为得到的模糊规则rrand的少数类匹配度,具体是少数类数据集Dpositive中每一个数据xkp=[xkp,1,...,xkp,n,ykp],kp=1,...,Npositive与模糊规则rrand的匹配度,模糊规则rrand的多数类和少数类匹配度计算公式分别如下:
式中分别指数据xkn的n个属性在模糊规则rrand的前n项所记录的分区标号下的隶属度,分别指数据xkp的n个属性在模糊规则rrand的前n项所记录的分区标号下的隶属度,本例中,为模糊规则rrand与酵母菌细胞结构数据多数类的匹配度,具体是多数类数据集Dnegative中每一个数据xkn=[xkn,1,...,xkn,8,ykn],kn=1,...,Nnegative与步骤4a中得到的模糊规则rrand的匹配度;为模糊规则rrand与酵母菌细胞结构数据少数类的匹配度,具体是少数类数据集Dpositive中每一个数据xkp=[xkp,1,...,xkp,8,ykp],kp=1,...,Npositive与模糊规则rrand的匹配度,模糊规则rrand的多数类和少数类匹配度计算公式分别如下:
式中分别指数据xkn的8个属性在模糊规则rrand的前8个所记录的分区标号下的隶属度,分别指数据xkp的8个属性在模糊规则rrand的前8个所记录的分区标号下的隶属度。
4b2.将具有加权因子的模糊规则权重公式两项中较大者所属类别的类标确定为模糊规则rrand所属类别的类标lrand,并将最终确定的wrand、lrand分别填入模糊规则rrand的后两项得到完整的模糊规则rrand
4c.得到一条模糊规则后,重复执行步骤4a-4b,直到得到R条模糊规则,由这R条模糊规则组成一条染色体chroh,h∈{1,...,pop},本例中,得到一条模糊规则后,重复执行步骤4a-4b,直到得到15条模糊规则,由这15条模糊规则组成一条染色体chroh,h∈{1,...,150}。
4d.得到由R条模糊规则组成的染色体后,重复执行步骤4c,直到得到pop条染色体chroh,h=1,...,pop,由这些染色体组成原始种群P,本例中,得到由15条模糊规则组成的染色体后,重复执行步骤4c,直到得到150条染色体chroh,h=1,...,150,由这些染色体组成原始种群P。
本发明采用模糊规则分类器作为基础分类器,模糊规则分类器具有解释性好,泛化能力高的优点,在本发明中,尤其是向模糊规则权重公式中引入了加权因子,该加权因子综合考虑了不平衡数据集中多数类与少数类在数量上的差异,有效的均衡了不平衡数据分类问题的不平衡性,提升了算法的识别精度。
实施例3:基于分解的多目标进化模糊规则分类方法同实施例1-2,其中步骤7对原始种群P执行进化操作并采用切比雪夫更新方法依次更新每条染色体,得到由pop条染色体组成的进化种群P′,本例中,得到由150条染色体组成的进化种群P′,包括有如下步骤:
7a.对染色体chroh,h∈{1,...,pop}执行单点交叉操作,得到两个交叉子代染色体chroh,cr_1,chroh,cr_2,h∈{1,...,pop},本例中,对染色体chroh,h∈{1,...,150}执行单点交叉操作,得到两个交叉子代染色体chroh,cr_1,chroh,cr_2,h∈{1,...,150}。
7b.将两个交叉子代染色体chroh,cr_1,chroh,cr_2,h∈{1,...,pop}作为变异父代染色体,分别执行变异操作,得到两个变异子代染色体chroh,mu_1,chroh,mu_2,h∈{1,...,pop},本例中,将两个交叉子代染色体chroh,cr_1,chroh,cr_2,h∈{1,...,150}作为变异父代染色体,分别执行变异操作,得到两个变异子代染色体chroh,mu_1,chroh,mu_2,h∈{1,...,150}。
7c.采用切比雪夫更新方式,以理想点idealpoint=[0,1]作为参考点,将进化操作产生的染色体chroh,cr_1,chroh,cr_2,chroh,mu_1,chroh,mu_2,h∈{1,...,pop}依次对chroh,h∈{1,...,pop}执行更新操作,得到pop条更新后的染色体,记为chro′h,h∈{1,...,pop},本例中,采用切比雪夫更新方式,以理想点idealpoint=[0,1]作为参考点,将进化操作产生的染色体chroh,cr_1,chroh,cr_2,chroh,mu_1,chroh,mu_2,h∈{1,...,150}依次对chroh,h∈{1,...,150}执行更新操作,得到150条更新后的染色体,记为chro′h,h∈{1,...,150}。
其中步骤7c采用切比雪夫更新方式,将进化操作产生的染色体chroh,cr_1,chroh,cr_2,chroh,mu_1,chroh,mu_2,h∈{1,...,pop}依次对chroh,h∈{1,...,pop}执行更新操作,本例中,将进化操作产生的染色体chroh,cr_1,chroh,cr_2,chroh,mu_1,chroh,mu_2,h∈{1,...,150}依次对chroh,h∈{1,...,150}执行更新操作,包括如下步骤:
7c1.求出染色体chroh在训练数据集X上的类别预测结果,其结果为resulth=[FPR,TPR]。
7c2.依次将染色体chroh,1,chroh,2,chroh,3,chroh,4对训练数据集X的进行预测,结果为resulth,evo_b=[FPR,TPR],evo_b=1,...,4。
7c3.分别将染色体chroh,evo_b,b=1,...,4通过切比雪夫分解方法对chroh进行更新,得到更新后的染色体,记为chro′h
7c4.若存在未执行过步骤7c3的染色体chroh,evo_b,b∈{1,...,4},则选定此染色体并将更新后的染色体chro′h记为待更新的染色体chroh,执行步骤7c3,若染色体chroh,evo_b,b∈{1,...,4}均执行执行过步骤7c3,则执行步骤7d。
7d.若原始种群P中存在未执行过进化操作的染色体chroh,h∈{1,...,pop},则选定此染色体执行步骤7a,若原始种群P中所有染色体均执行过进化操作,则将种群chro′h,h=1,...,pop记为进化种群P′,执行步骤8,本例中,若原始种群P中存在未执行过进化操作的染色体chroh,h∈{1,...,150},则选定此染色体执行步骤7a,若原始种群P中所有染色体均执行过进化操作,则将种群chro′h,h=1,...,150记为进化种群P′,执行步骤8。
本发明由于采用了效果较好的基于分解的多目标进化算法框架,将多目标问题分解为多个单目标问题,分别进行迭代优化,并采用了将生成的四个子染色体分别对原染色体进行更新的更新方式,使得每一条染色体同时被更新多次,加速了种群的进化速度,从而加速了算法的运行速度。
实施例4:基于分解的多目标进化模糊规则分类方法同实施例1-3,其中步骤4a确定模糊规则rrand=[rrand,1,...,rrand,n,wrand,lrand]的前n项属性值,本例中,确定模糊规则rrand=[rrand,1,...,rrand,8,wrand,lrand]的前8项属性值,包括有如下步骤:
4a1.对于xrand的第j个属性xrand,j,j∈[1,...,n],产生随机数rand0∈[0,1],若rand0大于忽略概率pi则分别求出与xrand,j对应的par个模糊分区的隶属度,执行步骤4a2,若rand0小于等于忽略概率pi执行步骤4a3,本例中,对于xrand的第j个属性xrand,j,j∈[1,...,8],产生随机数rand0∈[0,1],若rand0大于忽略概率0.9则分别求出与xrand,j对应的5个模糊分区的隶属度,执行步骤4a2,若rand0小于等于忽略概率0.9,执行步骤4a3。
4a2.采用轮盘赌方法确定xrand,j所属的模糊分区,将该模糊分区的分区标号标记在与数据xrand相对应的模糊规则rrand的第j个属性rrand,j上,执行步骤4a4。
4a3.确定xrand,j所属的模糊分区的分区标号为0,将0标记在与数据xrand相对应的模糊规则rrand的第j个属性rrand,j上。
4a4.若与数据xrand相对应的模糊规则rrand中存在没有标记分区标号的属性rrand,j,则选择此属性xrand,j,执行步骤4a1,若所有属性rrand,j,j=1,...,n均标记了分区标号,执行步骤4b,本例中,若与数据xrand相对应的模糊规则rrand中存在没有标记分区标号的属性rrand,j,则选择此属性xrand,j,执行步骤4a1,若所有属性rrand,j,j=1,...,8均标记了分区标号,执行步骤4b。
实施例5:基于分解的多目标进化模糊规则分类方法同实施例1-4,其中步骤7a对染色体chroh,h∈{1,...,pop}执行单点交叉操作,本例中,对染色体chroh,h∈{1,...,150}执行单点交叉操作,包括有如下步骤:
7a1.在整个原始种群P范围内随机选择两条染色体chroh,p1,chroh,p2,p1,p2∈{1,...,pop}作为chroh的交叉父代染色体,其中,两个交叉父代染色体包含的规则数分别为Nh,p1,Nh,p2,记较小的规则数为Nh,min,本例中,随机选择两条染色体chroh,p1,chroh,p2,p1,p2∈{1,...,150}作为chroh的交叉父代染色体,其中,两个交叉父代染色体包含的规则数分别为Nh,p1,Nh,p2,记较小的规则数为Nh,min
7a2.产生随机数rand1∈[1,...,Nh,min],以rand1作为交叉点,对两个交叉父代染色体chroh,p1,chroh,p2以规则为单位执行单点交叉操作,得到两个交叉子代染色体chroh,cr_1,chroh,cr_2
实施例6:基于分解的多目标进化模糊规则分类方法同实施例1-5,其中步骤7b将两个交叉子代染色体chroh,cr_1,chroh,cr_2,h∈{1,...,pop}作为变异父代染色体,分别执行变异操作,本例中,将两个交叉子代染色体chroh,cr_1,chroh,cr_2,h∈{1,...,150}作为变异父代染色体,分别执行变异操作,包括有如下步骤:
7b1.产生随机数rand2∈[0,1],若rand2小于等于0.4,则执行步骤7b2,若rand2大于0.4并小于等于0.8,则执行步骤7b3,若rand2大于0.8,则执行步骤7b4。
7b2.执行第一种变异方式,即随机向变异父代染色体chroh,cr_h′,h′∈{1,2}中添加η,η∈{1,...,5}条规则,得到变异子代染色体chroh,mu_h′,h′∈{1,2},执行步骤7b5。
7b3.执行第二种变异方式,即随机删除变异父代染色体chroh,cr_h′,h′∈{1,2}中的γ,γ∈{1,...,5}条规则,得到变异子代染色体chroh,mu_h′,h′∈{1,2},执行步骤7b5。
7b4.执行第三种变异方式,即随机改变变异父代染色体chroh,cr_h′,h′∈{1,2}至多百分之十的基因的值,得到变异子代染色体chroh,mu_h′,h′∈{1,2}。
7b5.若存在未执行过变异操作的变异父代染色体chroh,cr_h′,h′∈{1,2},则选择此个体,执行步骤7b1,若两个变异父代染色体chroh,cr_h′,h′∈{1,2}均执行过变异操作,则执行步骤7c。
执行完本步骤后,将进化得到的个体分别采用切比雪夫更新方式对原染色体进行更新,然后重新迭代进化,直到满足迭代次数,将最终产生的进化种群对测试集进行分类预测,并最终计算出曲线凸包下的面积(AUCH),该面积越大,说明分类效果越好。该方法采用的多个子染色体分别对原染色体进行更新的方式在提高识别精度的同时也加快了算法的运行速度。
实施例7:基于分解的多目标进化模糊规则分类方法同实施例1-6,参照图1,本发明还可以从整体上通过以下描述说明,本发明的实现包括如下步骤:
步骤一:从某一技术领域中采集或获取被测训练数据集X和测试数据集X′,训练数据集用来训练分类器,测试数据集用来检测训练好的分类器的性能,两个数据集所包含的数据具有相同的数据格式,其数据格式为xi=[xi,1,...,xi,n,y],xi为任一数据集中的第i条数据,其中xi,1,...,xi,n为数据xi的n个属性值,y为数据xi所属类别的类标,本例中是从不同种类的玻璃中获取数据,以获取数据的百分之八十作为训练数据集X,以获取数据的剩余百分之二十作为测试数据集X′,玻璃数据的属性有9个,玻璃的类别共有7个,因此训练数据集与测试数据集的具体数据格式为xi=[xi,1,...,xi,9,y],其中xi,1,...,xi,9为数据xi的9个属性值,y为数据xi所属类别的类标,y∈{1,2,3,4,5,6,7},1为采用浮法玻璃生产法生产的建筑物玻璃,2为采用非浮法玻璃生产法生产的建筑物玻璃,3为采用浮法玻璃生产法生产的车辆玻璃,4为采用非浮法玻璃生产法生产的车辆玻璃,5为器皿,6为餐具,7为前照灯。
步骤二:分别将训练数据集X和测试数据集X′的n个属性值归一化到[0,1]内,并将训练数据集X按类别的类标分成多数类数据集Dnegative与少数类数据集Dpositive,多数类数据集与少数类数据集所包含的数据个数分别为Nnegative、Npositive,本例中,分别将训练数据集X和测试数据集X′的9个属性值归一化到[0,1]内,并将类别为{1,2,7}的数据标记成多数类数据,类别为{3}的数据标记成少数类数据。
步骤三:人为设定忽略概率pi,pi∈[0,1],人为设定模糊分区数par,par≠0取值为正整数人为初始化模糊分区的隶属度函数为三角隶属度函数,本例中,pi=0.9,par=5。
步骤四:初始化由pop个模糊分类器构成的原始种群P,每个模糊分类器代表一条染色体chroh,h∈{1,...,pop},每条染色体包含R条模糊规则ri=[ri,1,...,ri,n,wi,li],i∈{1,...,R},模糊规则ri的前n项属性值,记录了n个模糊分区标号,每个属性代表一个基因,模糊分区标号的范围为{0,...,par},wi为模糊规则的权重,li为模糊规则所属类别的类标,其中每一条模糊规则的权重采用引入了加权因子的模糊规则权重公式来确定,其中模糊规则的权重wi,i∈{1,...,R},本例中,pop=150,R=15,由于玻璃数据具有9个属性,则模糊规则ri具有9个对应属性值即ri=[ri,1,...,ri,9,wi,li],i∈{1,...,15},其中wi∈[0,1],i∈{1,...,15},li∈{postive,negative}。
4.1).从训练数据集X中随机选出一条数据xrand=[xrand,1,...,xrand,n,yrand],对应于该条数据xrand存在一条模糊规则rrand=[rrand,1,...,rrand,n,wrand,lrand],其中模糊规则rrand的前n项属性值分别记录了与数据xrand的n个属性所对应的模糊分区标号,wrand为模糊规则rrand的权重,lrand为模糊规则rrand所属类别的类标,确定该条模糊规则rrand的前n项属性值,该模糊规则的权重wrand与该模糊规则所属类别的类标lrand由步骤4.2)确定,本例中,从玻璃数据的训练数据集X中随机选出一条数据xrand=[xrand,1,...,xrand,9,yrand],对应于该条数据xrand存在一条模糊规则rrand=[rrand,1,...,rrand,9,wrand,lrand],其中模糊规则rrand的前9个属性值分别记录了与数据xrand的9个属性所对应的模糊分区标号,确定模糊规则的前n项属性值的具体实施步骤是本技术领域的常规操作。
4.1.1).对于xrand的第j个属性xrand,j,j∈[1,...,n],产生随机数rand0∈[0,1],若rand0大于忽略概率pi则分别求出与xrand,j对应的par个模糊分区的隶属度,执行步骤4.1.2),若rand0小于等于忽略概率pi执行步骤4.1.3),本例中,对于xrand的第j个属性xrand,j,j∈[1,...,9],产生随机数rand0∈[0,1],若rand0大于忽略概率0.9则分别求出与xrand,j对应的5个模糊分区的隶属度,执行步骤4.1.2),若rand0小于等于忽略概率0.9执行步骤4.1.3)。
4.1.2).采用轮盘赌的方法确定xrand,j所属的模糊分区,并将该模糊分区的分区标号标记在与数据xrand相对应的模糊规则rrand的第j个属性rrand,j上,执行步骤4.1.4)。
4.1.3).确定xrand,j所属的模糊分区的分区标号为0,将0标记在与数据xrand相对应的模糊规则rrand的第j个属性rrand,j上。
4.1.4).若与数据xrand相对应的模糊规则rrand中存在没有标记分区标号的属性rrand,j,则选择此属性xrand,j,执行步骤4.1.1),若所有属性rrand,j均标记了分区标号,执行步骤4.2)。
4.2).向模糊规则权重公式中引入加权因子,该加权因子能够均衡多数类与少数类之间的不平衡性,分别确定多数类的模糊规则权重connegative以及少数类的模糊规则权重conpositive,进而由connegative和conpositive确定模糊规则rrand=[rrand,1,...,rrand,n,wrand,lrand]的权重wrand,以及模糊规则rrand所属类别的类标lrand,其中模糊规则权重wrand∈[0,1],所属类别的类标lrand∈{positive,negative},本例中,模糊规则rrand=[rrand,1,...,rrand,9,wrand,lrand]。
4.2.1).分别计算多数类数据集Dnegative中每一个数据xkn=[xkn,1,...,xkn,n,ykn],kn=1,...,Nnegative与步骤4.1)中得到的模糊规则rrand的匹配度其计算公式如下:
其中分别指数据xkn的n个属性在模糊规则rrand的前n项所记录的分区标号下的隶属度,本例中,多数类数据集Dnegative中每一个数据xkn=[xkn,1,...,xkn,9,ykn],kn=1,...,Nnegative与步骤4.1)中得到的模糊规则rrand的匹配度其计算公式如下:
其中分别指数据xkn的9个属性在模糊规则rrand的前9项所记录的分区标号下的隶属度。
4.2.2).分别计算少数类数据集Dpositive中每一个数据xkp=[xkp,1,...,xkp,n,ykp],kp=1,...,Npositive与模糊规则rrand的匹配度其计算公式如下:
其中分别指数据xkp的n个属性在模糊规则rrand的前n项所记录的分区标号下的隶属度,本例中,少数类数据集Dpositive中每一个数据xkp=[xkp,1,...,xkp,9,ykp],kp=1,...,Npositive与模糊规则rrand的匹配度其计算公式如下:
其中分别指数据xkp的9个属性在模糊规则rrand的前9项所记录的分区标号下的隶属度。
4.2.3).计算多数类中所有Nnegative个匹配度之和Snegative以及少数类中所有Npositive个匹配度之和Spositive,其计算公式如下:
4.2.4).计算多数类数据集的模糊规则权重connegative与少数类数据集的模糊规则权重conpositive,多数类数据集与少数类数据集的模糊规则权重公式分别如下:
4.2.5).计算模糊规则rrand的权重并比较connegative中的与conpositive中的将两项中较大者所属类别的类标确定为模糊规则rrand所属类别的类标lrand,将最终确定的wrand、lrand分别填入模糊规则rrand的后两项得到完整的模糊规则rrand
4.3).重复执行R次步骤4.1)-4.2),得到由R条规则组成的一条染色体chro,本例中,重复执行15次步骤4.1)-4.2),得到由15条规则组成的一条染色体chro。
4.4).重复执行pop次步骤4.3),得到由pop条染色体即chroh,h=1,...,pop组成的原始种群P,本例中,重复执行150次步骤4.3),得到由150条染色体即chroh,h=1,...,150组成的原始种群P。
步骤五:人为设定迭代终止条件termination,初始迭代次数t=1,迭代步长也为1,理想点idealpoint=[0,1],本例中,迭代终止条件termination=25,两个目标值为FPR、TPR,其理想点分别为FPR=0、TPR=1。
步骤六:采用分解机制,根据原始种群P的大小pop,划分出pop个方向向量,其中染色体chroh,h∈{1,...,pop}对应的方向向量为本例中,根据原始种群P的大小150,划分出150个方向向量,其中染色体chroh,h∈{1,...,150}对应的方向向量为
步骤七:对原始种群P中的所有染色体chroh,h=1,...,pop执行进化操作,得到pop条由染色体chro′h,h∈{1,...,pop}组成的进化种群P′,本例中,所有染色体chroh,h=1,...,150执行进化操作,得到进化种群P′,该进化种群由150条由染色体chro′h,h∈{1,...,pop}组成。
7.1).对染色体chroh,h∈{1,...,pop}执行交叉操作,得到两个交叉子代染色体chroh,cr_1,chroh,cr_2,本例中,对染色体chroh,h∈{1,...,150}执行交叉操作。
7.1.1).在整个原始种群P范围内随机选择两条染色体chroh,p1,chroh,p2,p1,p2∈{1,...,pop}作为chroh的交叉父代染色体,其中,两个交叉父代染色体包含的规则数分别为Nh,p1,Nh,p2,记较小的规则数为Nh,min,本例中,在整个原始种群P范围内随机选择两条染色体chroh,p1,chroh,p2,p1,p2∈{1,...,150}作为chroh的交叉父代染色体。
7.1.2).产生随机数rand1∈[1,...,Nh,min],以rand1作为交叉点,对两个交叉父代染色体chroh,p1,chroh,p2执行单点交叉操作(这里将每一条规则看做一个基因位,最小操作单位为一条规则),得到两个交叉子代染色体chroh,cr_1,chroh,cr_2,单点交叉操作属于常规操作。
7.2).将两个交叉子代染色体chroh,cr_1,chroh,cr_2作为变异父代染色体,分别执行变异操作,得到两个变异子代染色体chroh,mu_1,chroh,mu_2
7.2.1).产生随机数rand2∈[0,1],若rand2小于等于0.4,则执行步骤7.2.2),若rand2大于0.4并小于等于0.8,则执行步骤7.2.3),若rand2大于0.8,则执行步骤7.2.4)。
7.2.2).执行第一种变异方式,即随机向变异父代染色体chroh,cr_h′,h′∈{1,2}中添加γ∈[1,5]条规则,得到变异子代染色体chroh,mu_h′,h′∈{1,2},执行步骤7.2.5)。
7.2.2.1).确定变异父代染色体chroh,cr_h′,h′∈{1,2}的规则数为Nh,cr_h′,h′∈{1,2},产生随机数γ∈[1,5],若γ+Nh,cr_h′>20,则γ=20-Nh,cr_h′
7.2.2.2).重复执行γ次步骤4.1)-4.2),得到γ条规则,将这些规则添加到变异父代染色体chroh,cr_h′,h′∈{1,2}中得到变异子代染色体chroh,mu_h′,h′∈{1,2},执行步骤7.2.5)。
7.2.3).执行第二种变异方式,即随机删除变异父代染色体chroh,cr_h′,h′∈{1,2}中的λ∈[1,min(5,Nh,cr_h′-1)]条规则,得到变异子代染色体chroh,mu_h′,h′∈{1,2},执行步骤7.2.5)。
7.2.3.1).确定变异父代染色体chroh,cr_h′,h′∈{1,2}的规则数为Nh,cr_h′,h′∈{1,2},产生随机数λ∈[1,min(5,Nh,cr_h′-1)]。
7.2.3.2).随机从变异父代染色体chroh,cr_h′,h′∈{1,2}的规则中选择λ条规则,将其去掉,得到变异子代染色体chroh,mu_h′,h′∈{1,2},执行步骤7.2.5)。
7.2.4).执行第三种变异方式,即随机改变变异父代染色体chroh,cr_h′,h′∈{1,2}至多百分之十的基因,得到变异子代染色体chroh,mu_h′,h′∈{1,2}。
7.2.4.1).确定变异父代染色体chroh,cr_h′,h′∈{1,2}中所有基因的数目之和为fh,cr_h′,h′∈{1,2},产生随机数
7.2.4.2).随机从变异父代染色体chroh,cr_h′,h′∈{1,2}的所有基因中选择δ个基因,随机改变这δ个基因所对应的模糊分区标号,模糊分区标号的范围为[1,5]。
7.2.4.3).对所有改变过基因的规则执行步骤4.2),得到变异子代染色体chroh,mu_h′,h′∈{1,2}。
7.2.5).若存在未执行过变异操作的变异父代染色体chroh,cr_h′,h′∈{1,2},则选择此个体,执行步骤7.2.1),若两个变异父代染色体chroh,cr_h′,h′∈{1,2}均执行过变异操作,则执行步骤7.3)。
7.3).以理想点idealpoint=[0,1]作为参考点,将由进化操作产生的染色体chroh,cr_1,chroh,cr_2,chroh,mu_1,chroh,mu_2分别对chroh,h∈{1,...,pop}执行更新操作,得到更新后的染色体,记为chro′h,h∈{1,...,pop},本例中,将由进化操作产生的染色体chroh,cr_1,chroh,cr_2,chroh,mu_1,chroh,mu_2分别对chroh,h∈{1,...,150}执行更新操作,得到更新后的染色体,记为chro′h,h∈{1,...,150}。
7.3.1).依次将染色体chroh,cr_1,chroh,cr_2,chroh,mu_1,chroh,mu_2编号为chroh,evo_b,b=1,...,4,由chroh,evo_b,b=1,...,4对训练数据集X的所有数据的类别进行预测,结果为resulth,evo_b=[FPR,TPR],b∈{1,...,4}。
7.3.1.1).确定染色体chroh,evo_b,b∈{1,...,4}的规则集为R_evo_b,包含的规则数为NR_evo_b,取训练数据集X中未被该染色体预测过的数据xpre
7.3.1.3).若训练数据集X中存在未进行过类别预测的数据xpre,则选定此数据,执行步骤7.3.1.2),若训练数据集X中所有数据都进行过类别预测,执行步骤7.3.1.4)。
7.3.1.4).将X的所有数据的类别预测结果与所有数据的真实类别进行比对,求出FPR、TPR,记为resulth,evo_b=[FPR,TPR],b∈{1,...,4},FPR与TPR的计算公式如下:
其中,TP为训练数据集X中真实类别为少数类,预测类别也为少数类的数据个数,FN为训练数据集X中真实类别为少数类,预测类别为多数类的数据个数,FP为训练数据集X中真实类别为多数类,预测类别为少数类的数据个数,TN为训练数据集X中真实类别为多数类,预测类别也为多数类的数据个数,FPR、TPR的具体实施步骤为常规操作。
7.3.1.5).若存在没有进行过类别预测的染色体chroh,evo_b,b∈{1,...,4},则对此染色体执行步骤7.3.1.1),若所有染色体都进行过类别预测执行步骤7.3.2)。
7.3.2).按照步骤7.3.1)的求解方式,求出染色体chroh,h∈{1,...,pop}在训练数据集X上的类别预测结果,其结果形式为resulth=[FPR,TPR],h∈{1,...,pop},本例中,求出染色体chroh,h∈{1,...,150}在训练数据集X上的类别预测结果,其结果形式为resulth=[FPR,TPR],h∈{1,...,150}。
7.3.3).将染色体chroh,evo_b,b∈{1,...,4}通过切比雪夫分解方法对chroh,h∈{1,...,pop}进行更新,得到更新后的染色体,记为chro′h,h∈{1,...,pop},本例中,将染色体chroh,evo_b,b∈{1,...,4}通过切比雪夫分解方法对chroh,h∈{1,...,150}进行更新,得到更新后的染色体,记为chro′h,h∈{1,...,150}。
7.3.3.1).确定待更新的染色体chroh的权重为idealpoint=[0,1],本例中,待更新的染色体chroh的权重为
7.3.3.2).分别求进化染色体chroh,evo_b和待更新的染色体chroh两个方向中目标值的最大值,记为evah,evo_b和evah,其计算公式分别为:
本例中,pop的值为150。
7.3.3.3).比较evah,evo_b和evah,将较小者所对应的染色体确定为更新后的染色体,记为chro′h,h∈{1,...,pop},本例中,pop的值为150。
7.3.4).若存在未执行过步骤7.3.3)的染色体chroh,evo_b,b∈{1,...,4},则选定此染色体并将更新后的染色体chro′h,h∈{1,...,pop}记为待更新的染色体chroh,h∈{1,...,pop},执行步骤7.3.3),若所有染色体chroh,evo_b,b∈{1,...,4}均执行过步骤7.3.3),则执行步骤7.4),本例中,pop的值为150。
7.4).若原始种群P中存在未执行过进化操作的染色体chroh,h∈{1,...,pop},则选定此染色体,执行步骤7.1),若原始种群P中所有染色体均执行过进化操作,则将种群chro′h,h=1,...,pop记为进化种群P′,执行步骤八,本例中,pop的值为150。
步骤八:若迭代次数t小于迭代终止条件termination则迭代次数t加1,将进化种群P′记为原始种群P,将染色体chro′h,h∈{1,...,pop}记为chroh,h∈{1,...,pop},执行步骤七,若迭代次数t等于迭代终止条件termination,则执行步骤九,本例中,迭代终止条件termination=25,pop为150。
步骤九:将进化种群P′中的所有染色体chro′h,h=1,...,pop参照步骤7.3.1)的方式依次对测试数据集X′进行类别预测,得到pop条预测结果,其中每条染色体chro′h,h∈{1,...,pop}对应一条结果,本例中,pop为150。
步骤十:将得到的pop条分类结果投射到操作者接收曲线(ROC)平面上,获取曲线凸包下面积的值(AUCH),其值在[0,1]区间内,并输出该值,该输出结果代表了被测某一技术领域中采集或获取的数据集中所有数据的分类正确率,曲线凸包下面积的值越大,分类结果越好,本例中,将得到的150条分类结果投射到操作者接收曲线(ROC)平面上,获取凸包下面积的值(AUCH),其值在[0,1]区间内,并输出该值,该输出结果代表了玻璃数据集中数据的分类正确率,曲线凸包下面积的值越大,分类结果越好。
10.1).将所有的pop条结果投射到以FPR和TPR为横纵坐标的ROC平面上,其中平面上的每个点代表一条结果,本例中,pop为150。
10.2).找出这pop个点组成的曲线凸包,求曲线凸包下面积的值,记为AUCH并输出,本例中,pop为150。
求出AUCH后即可通过其值判断分类效果的好坏,AUCH的值越大说明分类效果越好,本发明将基于分解的多目标进化算法与模糊规则分类系统相结合来解决不平衡分类问题,在获得较高识别精度的同时加快了算法的运行速度。
上述实施例具体给出了酵母菌细胞结构的识别以及玻璃种类的识别两个应用,本发明还可直接应用于肿瘤检测、信用卡欺诈检测、文本分类、垃圾短信识别、卫星图片中油井的检测等技术领域中,根据各自的需要,对其中的数据进行分类,并能达到识别精度高,分类速度快和易操作执行的效果。
实施例8:基于分解的多目标进化模糊规则分类方法同实施例1-7,本发明的效果可以通过以下实验进一步说明:
1.仿真实验采用的数据集:
仿真实验使用了11个不平衡数据集,具体情况如表1所示。表1中,#Ex代表各数据集中数据的总数目,#Atts代表各数据集中数据的属性数,%Class(-;+)代表各数据集中少数类与多数类占的比例大小,IR代表各数据集的不平衡度,即多数类与少数类的数目之比,IR越大则不平衡度越高。
表1不平衡数据集的基本参数
2.仿真实验的参数设置条件:
设定参数为:忽略概率pi=0.9、模糊分区数par=5、隶属度函数为三角隶属度函数、种群大小pop=150、每条染色体包含的规则R=15、迭代终止条件termination=25、理想点idealpoint=[0,1]。
3.仿真实验环境:
在CPU为core22.4HZ、内存2G、WINDOWS 7系统上使用MATLAB进行仿真。
4.仿真内容
用本发明从KEEL数据库中选定11个不平衡数据集进行训练测试,采用五倍交叉验证的方式,表2记录其AUCH,AUCH的取值范围为[0,1],AUCH的值越大,说明分类效果越好,表中加黑的结果为3个算法中效果最好的结果。表2中数据列第一列是本发明AFC_MOGD分别在11个不平衡数据集上迭代25次的测试结果,第二列是对比算法MOGF_CS分别在11个不平衡数据集上迭代300次的测试结果,第三列是对比算法C4.5分别在11个不平衡数据集上的测试结果,第四列是对比算法E-Algorithm分别在11个不平衡数据集上的测试结果,其中本发明AFC_MOGD和对比算法MOGF_CS均为基于进化思想的算法,对比算法C4.5和E-Algorithm均为传统算法。
表2不同分类算法在不平衡数据集上的AUCH
由表2可以看出,与传统算法(第三、四列结果)相比,本发明即第一列结果在几乎所有11个不平衡数据集中均优于两个对比算法;与基于进化思想的对比算法即表中的第二列结果相比,在11个不平衡数据集的测试结果上优于此对比算法的同时,本发明的迭代次数为25代,远远小于对比算法MOGF_CS的300代,所以本发明在提高分类效果的同时,加快了算法的运行速度。
简而言之,本发明公开的一种基于分解的多目标进化模糊规则分类方法,主要解决现有的分类方法对不平衡数据分类效果差的问题,诸如分类方法对肿瘤检测、误差检测、信用卡欺诈检测、垃圾短信识别等领域识别效果差的缺陷。其实现步骤是:获取训练数据集和测试数据集;归一化两个数据集并将训练数据集分为多数类和少数类数据集;初始化忽略概率、模糊分区数以及隶属度函数;初始化由模糊分类器构成的原始种群,模糊分类器中规则的权重采用具有加权因子的模糊规则权重公式确定;初始化迭代终止条件、迭代次数及步长、理想点;根据种群大小划分方向向量;对原始种群执行进化操作并将进化得到的个体分别采用切比雪夫更新方式对原始种群进行更新;将原始种群进化预设的次数后得到进化种群;将得到的进化种群中所有染色体对测试数据集进行分类,获得分类结果;对得到的分类结果进行计算得到AUCH并输出。本发明具有运行速度快,分类效果好的优点。

Claims (5)

1.一种基于分解的多目标进化模糊规则分类方法,其特征在于,数据分类过程包括有如下步骤:
步骤1.从某一技术领域中采集或获取被测训练数据集X和测试数据集X′,两个数据集所包含的数据具有相同的数据格式,其数据格式为xi=[xi,1,...,xi,n,y],xi为两个数据集中的任意一条数据,其中xi,1,...,xi,n为数据xi的n个属性值,y为数据xi所属类别的类标;
步骤2.分别将训练数据集X和测试数据集X′的n个属性值归一化到[0,1]内,并将训练数据集X按类别的类标分成多数类数据集Dnegative与少数类数据集Dpositive,多数类数据集与少数类数据集所包含的数据个数分别为Nnegative、Npositive
步骤3.人为设定忽略概率pi,pi∈[0,1],人为设定模糊分区数par,par≠0,取值为正整数,人为设定模糊分区的隶属度函数为三角隶属度函数;
步骤4.初始化由pop个模糊分类器构成的原始种群P,每个模糊分类器代表一条染色体chroh,h∈{1,...,pop},每条染色体包含R条模糊规则ri=[ri,1,...,ri,n,wi,li],i∈{1,...,R},模糊规则ri的前n项属性值,记录了n个模糊分区标号,模糊分区标号的范围为{0,...,par},wi为模糊规则的权重,li为模糊规则所属类别的类标,其中每一条模糊规则的权重采用具有加权因子的模糊规则权重公式来确定;
步骤5.人为设定迭代终止条件termination,初始迭代次数t=1,迭代步长也为1,理想点idealpoint=[0,1];
步骤6.采用分解机制,根据原始种群P的大小pop,划分出pop个方向向量,其中染色体chroh,h∈{1,...,pop}对应的方向向量为
步骤7.对原始种群P执行进化操作,得到子代染色体chroh,cr_1,chroh,cr_2,chroh,mu_1,chroh,mu_2,h∈{1,...,pop},依次用子代染色体对原始种群中的所有染色体chroh,h∈{1,...,pop}采用切比雪夫更新方式进行更新,最终得到由pop条染色体chro′h,h∈{1,...,pop}组成的进化种群P′;
步骤8.若迭代次数t小于迭代终止条件termination,则迭代次数t加1,并将进化种群P′记为原始种群P,将染色体chro′h,h∈{1,...,pop}记为chroh,h∈{1,...,pop},返回执行步骤7,若迭代次数t等于迭代终止条件termination,执行步骤9;
步骤9.将进化种群P′中的所有染色体chro′h,h=1,...,pop依次对测试数据集X′进行分类,得到pop条分类结果resulth=[FPR,TPR],h=1,...,pop,每条染色体chro′h,h∈{1,...,pop}对应一条分类结果;
步骤10.将得到的pop条分类结果投射到操作者接收曲线平面上,获取曲线凸包下面积的值,其值在[0,1]区间内,并输出该值,该输出结果代表了被测某一技术领域中采集或获取的数据集中所有数据的分类正确率,曲线凸包下面积的值越大,分类结果越好。
2.根据权利要求1所述的基于分解的多目标进化模糊规则分类方法,其特征在于,其中步骤4初始化由pop个模糊分类器构成的种群P并采用具有加权因子的模糊规则权重公式来确定模糊规则权重wi,i∈{1,...,R},包括有如下步骤:
4a.从训练数据集X中随机选出一条数据xrand=[xrand,1,...,xrand,n,yrand],对应于该条数据xrand存在一条模糊规则rrand=[rrand,1,...,rrand,n,wrand,lrand],其中模糊规则rrand的前n项属性值分别记录了与数据xrand的n个属性所对应的模糊分区标号,wrand为模糊规则rrand的权重,lrand为模糊规则rrand所属类别的类标,确定该条模糊规则rrand的前n项属性值,该模糊规则的权重wrand与该模糊规则所属类别的类标lrand由步骤4b确定;
4b.向模糊规则的权重公式中引入加权因子,该加权因子能够均衡多数类与少数类之间的不平衡性,用该模糊规则权重公式确定模糊规则rrand=[rrand,1,...,rrand,n,wrand,lrand]的权重wrand,以及模糊规则所属类别的类标lrand,其中模糊规则权重wrand∈[0,1],所属类别的类标lrand∈{positive,negative};
4c.得到一条模糊规则后,重复执行步骤4a-4b,直到得到R条模糊规则,由这R条模糊规则组成一条染色体chroh,h∈{1,...,pop};
4d.得到由R条模糊规则组成的染色体后,重复执行步骤4c,直到得到pop条染色体chroh,h=1,...,pop,由这些染色体组成原始种群P。
3.根据权利要求2所述的基于分解的多目标进化模糊规则分类方法,其特征在于,其中步骤4b采用具有加权因子的模糊规则权重公式确定模糊规则rrand=[rrand,1,...,rrand,n,wrand,lrand]的权重wrand,所属类别的类标lrand,包括有如下步骤:
4b1.采用具有加权因子的模糊规则权重公式确定模糊规则rrand的权重wrand
式中Nnegative为多数类数据集所包含的数据个数,Npositive为少数类数据集所包含的数据个数,Snegative为多数类中所有Nnegative个匹配度之和,Spositive为少数类中所有Npositive个匹配度之和,Snegative和Spositive的计算公式分别如下:
式中为多数类数据集Dnegative中每一个数据xkn=[xkn,1,...,xkn,n,ykn],kn=1,...,Nnegative与步骤4a中得到的模糊规则rrand的匹配度,为少数类数据集Dpositive中每一个数据xkp=[xkp,1,...,xkp,n,ykp],kp=1,...,Npositive与模糊规则rrand的匹配度,其计算公式分别如下:
式中分别指数据xkn的n个属性在模糊规则rrand的前n项所记录的分区标号下的隶属度,分别指数据xkp的n个属性在模糊规则rrand的前n项所记录的分区标号下的隶属度;
4b2.将具有加权因子的模糊规则权重公式两项中较大者所属类别的类标确定为模糊规则rrand所属类别的类标lrand,并将最终确定的wrand、lrand分别填入模糊规则rrand的后两项得到完整的模糊规则rrand
4.根据权利要求1所述的基于分解的多目标进化模糊规则分类方法,其特征在于,其中步骤7对原始种群P执行进化操作并采用切比雪夫更新方法依次更新每条染色体,得到由pop条染色体组成的进化种群P′,包括有如下步骤:
7a.对染色体chroh,h∈{1,...,pop}执行单点交叉操作,得到两个交叉子代染色体chroh,cr_1,chroh,cr_2,h∈{1,...,pop};
7b.将两个交叉子代染色体chroh,cr_1,chroh,cr_2,h∈{1,...,pop}作为变异父代染色体,分别执行变异操作,得到两个变异子代染色体chroh,mu_1,chroh,mu_2,h∈{1,...,pop};
7c.采用切比雪夫更新方式,以理想点idealpoint=[0,1]作为参考点,将进化操作产生的染色体chroh,cr_1,chroh,cr_2,chroh,mu_1,chroh,mu_2,h∈{1,...,pop}依次对chroh,h∈{1,...,pop}执行更新操作,得到pop条更新后的染色体,记为chro′h,h∈{1,...,pop};
7d.若原始种群P中存在未执行过进化操作的染色体chroh,h∈{1,...,pop},则选定此染色体执行步骤7a,若原始种群P中所有染色体均执行过进化操作,则将种群chro′h,h=1,...,pop记为进化种群P′,执行步骤8。
5.根据权利要求4所述的基于分解的多目标进化模糊规则分类方法,其特征在于,其中步骤7c采用切比雪夫更新方式,将进化操作产生的染色体chroh,cr_1,chroh,cr_2,chroh,mu_1,chroh,mu_2,h∈{1,...,pop}依次对chroh,h∈{1,...,pop}执行更新操作,包括如下步骤:
7c1.将染色体chroh对训练数据集X进行分类,其结果为resulth=[FPR,TPR];
7c2.依次将染色体chroh,cr_1,chroh,cr_2,chroh,mu_1,chroh,mu_2对训练数据集X进行分类,结果分别为resulth,evo_b=[FPR,TPR],evo_b=1,...,4;
7c3.依据步骤7c1-7c2中得到的分类结果,采用切比雪夫更新方式,分别将染色体chroh,evo_b,b=1,...,4对chroh进行更新,得到更新后的染色体,记为chro′h
7c4.若存在未执行过步骤7c3的染色体chroh,evo_b,b∈{1,...,4},则选定此染色体并将更新后的染色体chro′h重新记为染色体chroh,执行步骤7c3,若染色体chroh,evo_b,b∈{1,...,4}均执行过步骤7c3,则执行步骤7d。
CN201510240068.1A 2015-05-12 2015-05-12 一种基于分解的多目标进化模糊规则分类方法 Active CN104809476B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201510240068.1A CN104809476B (zh) 2015-05-12 2015-05-12 一种基于分解的多目标进化模糊规则分类方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201510240068.1A CN104809476B (zh) 2015-05-12 2015-05-12 一种基于分解的多目标进化模糊规则分类方法

Publications (2)

Publication Number Publication Date
CN104809476A CN104809476A (zh) 2015-07-29
CN104809476B true CN104809476B (zh) 2018-07-31

Family

ID=53694287

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201510240068.1A Active CN104809476B (zh) 2015-05-12 2015-05-12 一种基于分解的多目标进化模糊规则分类方法

Country Status (1)

Country Link
CN (1) CN104809476B (zh)

Families Citing this family (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20170032276A1 (en) * 2015-07-29 2017-02-02 Agt International Gmbh Data fusion and classification with imbalanced datasets
CN105139037B (zh) * 2015-09-06 2018-04-17 西安电子科技大学 基于最小生成树的集成多目标进化自动聚类方法
CN105894026A (zh) * 2016-03-31 2016-08-24 东华大学 一种基于模糊理论的体型分类方法
CN106446032A (zh) * 2016-08-30 2017-02-22 江苏博智软件科技有限公司 一种垃圾信息的处理方法和装置
CN106960218B (zh) * 2017-02-27 2020-07-28 同济大学 基于代价敏感学习贝叶斯的乳腺癌数据计算机分类系统
CN107392127B (zh) * 2017-07-13 2019-09-10 国家电网公司 基于切比雪夫多项式描述子的输电线路提取方法
CN108229063B (zh) * 2018-02-02 2021-05-28 我知盘中餐(厦门)电子商务有限公司 Moea/d分区方法、装置、设备及计算机存储介质
CN109685101B (zh) * 2018-11-13 2021-09-28 西安电子科技大学 一种多维数据自适应采集方法及系统

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101980202A (zh) * 2010-11-04 2011-02-23 西安电子科技大学 不平衡数据的半监督分类方法

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP5402351B2 (ja) * 2009-07-24 2014-01-29 富士通株式会社 多目的最適化設計支援装置、方法、及びプログラム

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101980202A (zh) * 2010-11-04 2011-02-23 西安电子科技大学 不平衡数据的半监督分类方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
一种新的模糊规则权重方法的非平衡数据分类问题的研究;陈刚等;《控制与决策》;20120131;第27卷(第1期);第104-108页 *
基于概率分布估计的混合采样算法;曹鹏等;《控制与决策》;20140531;第29卷(第5期);第815-820页 *

Also Published As

Publication number Publication date
CN104809476A (zh) 2015-07-29

Similar Documents

Publication Publication Date Title
CN104809476B (zh) 一种基于分解的多目标进化模糊规则分类方法
CN111400180B (zh) 一种基于特征集划分和集成学习的软件缺陷预测方法
CN108304316B (zh) 一种基于协同迁移的软件缺陷预测方法
CN110363344A (zh) 基于miv-gp算法优化bp神经网络的概率积分参数预测方法
CN103632168B (zh) 一种机器学习中的分类器集成方法
CN107545275A (zh) 重采样与代价敏感学习融合的不平衡数据集成分类方法
CN107392919B (zh) 基于自适应遗传算法的灰度阈值获取方法、图像分割方法
CN105389480B (zh) 多类不平衡基因组学数据迭代集成特征选择方法及系统
CN105069470A (zh) 分类模型训练方法及装置
CN106650314A (zh) 预测氨基酸突变的方法及系统
CN108564094A (zh) 一种基于卷积神经网络和分类器组合的材质识别方法
CN108363810A (zh) 一种文本分类方法及装置
CN106250442A (zh) 一种网络安全数据的特征选择方法及系统
CN105046673B (zh) 基于自学习的高光谱图像和可见光图像融合分类方法
CN106650823A (zh) 一种基于概率极限学习机集成的泡沫镍表面缺陷分类方法
CN107944460A (zh) 一种应用于生物信息学中类别不平衡分类方法
CN105825078A (zh) 基于基因大数据的小样本基因表达数据分类方法
CN103324939A (zh) 基于最小二乘支持向量机技术的偏向性分类及参数寻优方法
CN106570537A (zh) 一种基于混淆矩阵的随机森林模型选择方法
CN105512675B (zh) 一种基于记忆性多点交叉引力搜索的特征选择方法
CN102663422A (zh) 基于颜色特征的地板层次分类方法
CN104966106A (zh) 一种基于支持向量机的生物年龄分步预测方法
CN103903009A (zh) 一种基于机器视觉的工业品检测方法
CN110490234A (zh) 基于聚类分类联合机制的分类器的构建方法以及分类方法
CN103902706A (zh) 一种基于svm的大数据分类预测方法

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
EXSB Decision made by sipo to initiate substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant