CN105760888A - 一种基于属性聚类的邻域粗糙集集成学习方法 - Google Patents
一种基于属性聚类的邻域粗糙集集成学习方法 Download PDFInfo
- Publication number
- CN105760888A CN105760888A CN201610100024.3A CN201610100024A CN105760888A CN 105760888 A CN105760888 A CN 105760888A CN 201610100024 A CN201610100024 A CN 201610100024A CN 105760888 A CN105760888 A CN 105760888A
- Authority
- CN
- China
- Prior art keywords
- attribute
- sample
- grader
- boundary region
- hierarchical cluster
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/285—Selection of pattern recognition techniques, e.g. of classifiers in a multi-classifier system
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/23—Clustering techniques
- G06F18/232—Non-hierarchical techniques
- G06F18/2321—Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions
Landscapes
- Engineering & Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Artificial Intelligence (AREA)
- Bioinformatics & Computational Biology (AREA)
- Life Sciences & Earth Sciences (AREA)
- Evolutionary Biology (AREA)
- Evolutionary Computation (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Probability & Statistics with Applications (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明请求保护一种基于属性聚类的邻域粗糙集集成学习方法,涉及数据挖掘技术。首先,通过属性聚类将决策系统中的条件属性分成多个聚类簇,使得属性聚类簇内的属性关联性较大,而不同属性聚类簇之间的关联性较小;其次,利用各个聚类簇的差异性来训练集成不同的基分类器,在训练集成基分类器的过程中,加入了邻域粗糙集的指导,根据基分类器对邻域粗糙集中边界域的样本不同的识别能力来分配基分类器的权重,从而得到最终的集成分类器;最后,利用得到的集成分类器对测试集分类。本发明结合了邻域粗糙集和集成学习理论,充分利用了决策表中条件属性的相关性和差异性,并使不同基分类器之间取长补短,能够从不同角度有效挖掘决策系统中的知识。
Description
技术领域
本发明属于数据挖掘,模式识别领域,具体是一种利用属性相关性进行属性聚类后的邻域粗糙集集成学习方法。
背景技术
现实生活中信息系统的属性不仅多样化,而且属性间往往存在一定的相关性,如果直接用单一的数据挖掘算法进行知识发现,往往效果欠佳。正因如此,诸如属性聚类、集成学习等方法被用到数据挖掘中,这样能有效提升知识发现的效果。
属性聚类:聚类算法是非监督模式识别的一种重要方法,它根据某种相似度度量,对样本空间进行分组,使组内数据之间彼此相似,而组间数据相似距离较大,从而实现自动分类。将聚类算法应用到属性空间中,即对属性进行聚类。通过属性聚类把决策表中相关联的条件属性聚到一个属性聚类簇中,使得属性聚类簇内的属性关联性较大,而不同属性聚类簇之间的关联性较小,利用不同属性聚类簇的差异性来训练不同的分类器。
集成学习:集成学习是一种机器学习方法,其思想是通过集成多个不同的单个模型来构建一个预测模型,而其最终目的是利用这些单个模型之间的差异性,来改善模型的泛化性能。近些年集成学习因其良好的泛化能力一直是模式识别、机器学习等领域的研究热点。组合分类器作为信息融合技术的代表在日常生活中得到大量的应用,如人脸识别、语音识别、计算机视觉处理、目标识别等。组合分类器性能优于单个分类器必须满足两个条件:
1)基分类器之间是相互独立的;
2)基分类器应当好于随机猜测分类器。
实践上很难保证基分类器之间完全独立,但是在基分类器轻微相关情况下,组合方法仍然可以提高分类的准确率。目前组合分类器方法主要分为3类:
1)Averaing,主要针对回归或连续型的决策属性;
2)Voting,又分为MajorityVoting和WeightedVoting,主要针对分类或离散型的决策属性。
粗糙集:该理论由波兰学者Pawlak教授于1982年提出,是一种能有效处理不精确、不确定和模糊信息的数学理论。目前,粗糙集已成功应用到机器学习、数据挖掘、智能数据分析和控制算法获取等领域。粗糙集理论的主要思想是利用已知的知识库,将不精确或不确定的知识用已知知识库中的知识来(近似)刻画。粗糙集可以不依赖先验知识,根据数据的决策与分布进行知识发现。邻域粗糙集模型是胡清华等人利用邻域模型对经典粗糙集理论的一种拓展模型,解决了传统的粗集模型不能处理离散型数据的问题。
邻域粗糙集把那些无法确认的个体都归属于边界区域,而这种边界区域被定义为上近似集和下近似集的差集。由于上近似集与下近似集都可以通过等价关系给出确定的数学公式描述,所以边界域元素可以被计算出来。经过对现有技术的文献检索发现,胡峰,李航的论文Anovelboundaryoversamplingalgorithmbasedonneighborhoodroughsetmodel:NRSBoundary-SMOTE,2013(一种基于邻域粗糙集边界域的过采样算法),通过对邻域粗糙集中边界域的元素进行特殊的处理,使得过采样的效果相比传统的采样算法有所提高。
发明内容
针对以上现有技术的不足,提出了一种方法。本发明的技术方案如下:一种基于属性聚类的邻域粗糙集集成学习方法,其包括以下步骤:
101、从实验数据平台下载数据集,然后对数据集的数据进行预处理,预处理包括归一化步骤和拆分数据集步骤,把数据集拆分成训练集和测试集;
102、对经过步骤101预处理的训练集的数据根据属性进行聚类,聚类分为选择主要属性集和划分属性聚类簇两个步骤;
103、用经过步骤102的训练集集成训练基分类器进行分类,分为确定边界域和集成训练分类器两个步骤,其中集成训练分类器加入了邻域粗糙集来进行分类;
104、最后,利用得到的集成分类器对测试集分类,完成学习。
进一步的,所述步骤101中的归一化步骤指对原始数据线性变换,使结果值映射到[0-1]之间;和拆分数据集步骤是通过随机不重复的选择数据集中90%的样本作为训练集,余下的10%作为测试集。
进一步的,所述步骤102中选择主要属性集对于条件属性集,形式为{条件属性1,条件属性2……,条件属性n},利用信息熵公式计算每个条件属性的信息增益,取信息增益较大的前k个条件属性组成主要属性集即属性聚类的聚点,形式为{主要属性1,主要属性2,……主要属性k}。
进一步的,所述步骤102划分属性聚类簇的步骤为:把得到的主要属性集中的每个属性作为一个聚点,计算其它条件属性与各个聚点的皮尔逊相关系数,把与某聚点的皮尔逊相关系数的绝对值大于阈值的条件属性划分到该聚点的聚类中,如果有不属于任何一个聚点的属性,即与任何一个聚点的皮尔逊相关系数的绝对值都小于阈值,相当于聚类中的离群点,把这样的属性称作离群属性,并将离群属性单独组成一个聚类簇。
进一步的,所述步骤103中确定边界域的步骤具体为:决策属性集,形式为{决策属性1,决策属性2,……决策属性p}中的决策属性把数据集分为p个等价类,决策属性关于属性集的边界域用邻域粗糙集计算出来;
a.对于训练集中的某个样本xi,计算xi的邻域δB(xi);
b.判断δB(xi)中的样本是否与xi属于同一类别,不是则把xi归入边界域;
c.重复步骤a、步骤b,直到遍历完整个训练集;最终得到训练集的边界域,形式为{边界域样本1,边界域样本2,…,边界域样本x}。
进一步的,步骤103中集成训练分类器的步骤为:根据集成学习的差异性原则选择3个基分类器并初始化每个分类器的权重比例为1,形式为{分类器h1:ω1=1,分类器h2:ω2=1,分类器h3:ω3=1},ωi表示分类器i的权重比例;
A1.从每个属性聚类集中选择一个属性组成选择属性集后,得到一个新的子属性集,形式为{主要属性集∪选择属性集},用这个新的子属性集训练每个分类器,得到每个分类器能够正确分类的样本集,形式为{样本集1,样本集2,样本集3};
B1.判断{样本集1,样本集2,样本集3}中哪个样本集中的样本在边界域的个数最多,给对应的样本集的分类器的权重比例增加1;
C1.重复A1,B1,直到所有的子属性集组合都训练完毕,且a中每次组成的子属性集不能与之前的重复;
D1.完成A1,B1,,C1步骤后,得到分类器的权重比例ω1,ω2,ω3,保证其中wi是分类器i的权重,根据分类器的权重比例计算得到分类器的最后权重。
进一步的,步骤104中根据得到的集成分类器对测试集分类具体为:每个分类器对一个样本的分类结果是一个l维的向量其中是分类器hi对类别dj的分类结果,1表示分类器认为该样本属于dj类,0则反之,最后集成分类器对样本的分类结果是:
其中,wi是分类器hi的权重,T是基分类器的个数。
本发明的优点及有益效果如下:
在属性聚类阶段利用属性聚类将决策系统中的条件属性分成多个聚类簇。其中,利用信息增益选择主要属性集,信息增益是用来衡量一个条件属性区分数据样本的能力的,用这种方法可以有效的选择出对决策系统样本区分能力更好的属性。利用皮尔逊相关系数来度量条件属性间的相似性,皮尔逊相关系数能有效的度量两个条件属性间的相似性程度,把它作为属性聚类的依据,很好的满足了属性聚类簇内的属性关联性较大,而不同属性聚类簇之间的关联性较小的条件。在集成训练阶段,利用各个聚类簇的差异性来训练集成不同的基分类器,在训练集成基分类器的过程中,加入了邻域粗糙集的指导。根据邻域粗糙集的原理,这里训练集的正域是指能确定属于某一类别的样本,而边界域是指不能确定属于某一类别的样本,如果一个分类器能将不能确定属于某一类的样本及边界域中的样本正确分类,说明该分类器的分类能力较好。本发明结合了邻域粗糙集和集成学习理论,充分利用了决策表中条件属性的相关性和差异性,并使不同基分类器之间取长补短,能够从不同角度有效挖掘决策系统中的知识。
附图说明
图1是本发明提供优选实施例基于属性聚类的邻域粗糙集集成学习方法流程框图;
图2属性聚类阶段的流程框图;
图3划分边界域流程框图;
图4样本x的邻域分布图;
图5集成训练基分类器阶段流程框图。
具体实施方式
以下结合附图,对本发明作进一步说明:
一种基于属性聚类的邻域粗糙集集成学习方法,包括以下步骤:首先,在数据预处理阶段,对数据进行归一化,归一化是指对原始数据线性变换,使结果值映射到[0-1]之间。然后,在属性聚类阶段,通过计算属性的信息增益并选取信息增益较大的属性作为主要属性集,即为属性聚类的中心点,并计算余下条件属性与聚类中心点的相似性,根据相似性值,可以把属性分成几个属性聚类簇。最后,在基分类器集成训练阶段,先利用邻域粗糙集的原理得到训练集的边界域,再迭代地训练由多个基分类器组合成的集成分类器,使得集成后的分类器对训练集有更好的正确率。迭代的过程如下:每次迭代从每个属性聚类簇中选取一个属性组成一个子属性集(第一次迭代时,所有基分类器的权重比例是一样的),根据分类结果,增加对界域中的样本分类效果最好的基分类器的权重。在每次迭代时,选取的子属性集不能重复,迭代结束的条件是迭代次数达到某个阈值或所有子属性集都被训练过。通过上述步骤,最终得到权重各不相同的基分类器组成的集成分类器。
具体地,在属性聚类阶段先计算条件属性的信息增益(InformationGain)。信息增益是用来衡量一个条件属性区分数据样本的能力的,某个条件属性的信息增益的计算方式是先计算出数据集包含该条件属性的信息熵和不包含该条件属性时的信息熵,再求得这两个信息熵的差值即为该条件属性的信息增益。信息熵的计算公式是:
entropy(p1,p2,…,pn)=-p1log2(p1)-p2log2(p2)-...-pnlog2(pn)(1)
其中,pi(i=1,2,......n)表示比例值。计算出信息增益后选出信息增益最大的前k个属性作为主要属性集,主要属性集中的每一个属性将作为属性聚类的聚点且k的值由人为给定。
然后,计算主要属性集中这k个属性与其它属性之间的相似性,相似度评价方法主要有距离系数法,夹角余弦法和相关系数法等。本专利选用皮尔逊相关系数计算相似性,它是一种度量两个变量间相关程度的方法,变量X和Y的皮尔逊相关系数的计算方法已被大家熟知,具体公式为:
其中,符号E表示数学期望,表示变量X所有取值的平均值。通过上述公式可以计算出属性间的相似性,并把与选出的k个属性相似性值的绝对值超过某个阈值的属性划分到对应的属性聚点。
更进一步地,在集成训练阶段数据集边界域是由邻域粗糙集的相关知识计算得到的。邻域粗糙集中正域,负域以及边界域的划分为:给定邻域近似空间<U,N>,U是样本集,N是U上的邻域关系,δ(xi)是xi的邻域。对于任意X在邻域关系N上的上,下近似边界域的计算公式为:
对于一个邻域决策系统,NDT=<U,A,V,f>,其中,A=C∪D,C是条件属性,D是决策属性,D将U划分为p个等价类:X1,X2,......Xp,决策D关于属性集B的上近似,下近似与决策边界的计算公式为:
邻域粗糙集中,给定任意xi∈U,xi在属性子集B上的邻域δB(xi)的计算公式为:
δB(xi)={xj|xj∈U,ΔB(xi,xj)≤δ}(5)
其中ΔB(xi,xj)是xi和xj的欧拉距离,δ是xi的邻域半径。
欧拉距离是用来计算空间中两点的距离公式,也是最常用的距离度量公式。考虑x1,x2为两个m维空间样本,A={a1,a2,...,am},f(x,ai)表示样本x在属性ai上的值,则两个样本的欧拉距离的计算公式为:
邻域半径δ的计算公式是:
δ=min(Δ(xi,s))+λ×range(Δ(xi,s)),0≤λ≤1(7)
其中,min(Δ(xi,s))表示与样本xi最近的样本距离,range(Δ(xi,s))表示其它样本到xi的距离的取值范围。
以下结合附图进行描述,如图1所示为本发明流程框图。包括如下步骤:
(1)数据预处理阶段。
本阶段分为归一化和拆分数据集两个步骤:
从UCI实验数据平台(网址:http://archive.ics.uci.edu/ml/)下载数据集,数据集的形式为{条件属性1,条件属性2……,条件属性n,决策属性},其中条件属性集为{条件属性1,条件属性2……,条件属性n},决策属性集为{决策属性1,决策属性2,……决策属性p}。
①归一化数据集。
由公式(2),(4),(5),(7)可知,在确定数据集的边界域的时候,需要利用欧拉距离来确定每个样本的邻域,而由公式(6)可知在计算欧拉距离的时候需要计算两个样本每个属性值的差值。为了避免样本之间的欧拉距离由取值范围比较大的属性控制而需要归一化。归一化是指对原始数据线性变换,使结果值映射到[0-1]之间。归一化数据集(算法1)的伪代码如下:
算法1:归一化数据集
输入:数据集X
输出:归一化后的数据集X*
②拆分数据集。
拆分数据集是将数据集拆分成训练集和测试集。具体方式是通过随机不重复的选择数据集中90%的样本作为训练集,余下的10%作为测试集。
(2)属性聚类阶段。
本阶段分为选择主要属性集和划分属性聚类簇两个步骤:
①选择主要属性集。
选择主要属性集是为得到数据集中对分类起决定性作用的条件属性集。具体地,对于条件属性集,形式为{条件属性1,条件属性2……,条件属性n},利用公式(1)计算每个条件属性的信息增益,信息增益是用来衡量一个属性区分数据样本的能力,信息增益越大,区分样本的能力就越好。本发明取信息增益较大的前k个条件属性组成主要属性集即属性聚类的聚点,形式为{主要属性1,主要属性2,……主要属性k}。下面举一个简单的例子说明如何计算属性的信息增益。
表1天气数据集例子
No. | Outlook | Temperature | Humidity | Windy | Play? |
1 | sunny | hot | high | false | no |
2 | sunny | hot | high | true | no6 --> |
3 | overcast | hot | high | false | yes |
4 | rain | mild | high | false | yes |
5 | rain | cool | normal | false | yes |
6 | rain | cool | normal | true | no |
7 | overcast | cool | normal | true | yes |
8 | sunny | mild | high | false | no |
9 | sunny | cool | normal | false | yes |
10 | rain | mild | normal | false | yes |
11 | sunny | mild | normal | true | yes |
12 | overcast | mild | high | true | yes |
13 | overcast | hot | normal | false | yes |
14 | rain | mild | high | true | no |
对于表1中的数据集,属性Outlook对于决策属性Play的信息增益的计算方式为:
a.利用公式(1)计算决策属性Play的信息熵:
b.Outlook有rain,sunny,overcast3种取值,这3种取值把数据集划分为3份,分别计算每一份对于决策属性Play的信息熵。其中,属性Outlook取值为sunny的5个样本中有2个样本的决策属性Play为yes,3个为no。则有:
类似的取值为rain和overcast的信息熵分别为:
c.天气数据集被Outlook属性划分后的信息熵总量为:
d.Outlook属性的信息增益为:
gain(Outlook)=entropy(Play)-entropy([2,3],[3,2],[4,0])
②划分属性聚类簇
划分属性聚类簇是把(2)-①得到的主要属性集中的每个属性作为一个聚点,根据公式(2),计算其它条件属性与各个聚点的皮尔逊相关系数,把与某聚点的皮尔逊相关系数的绝对值大于阈值的条件属性划分到该聚点的聚类中(阈值通常取0.5)。如果有不属于任何一个聚点的属性,即与任何一个聚点的皮尔逊相关系数的绝对值都小于阈值,相当于聚类中的离群点,我们把这样的属性称作离群属性,并将离群属性单独组成一个聚类簇。划分属性聚类簇(算法2)的伪代码如下:
算法2:划分属性聚类簇
输入:数据集X和主要属性集
输出:属性聚类结果E
Step1:计算属性之间的皮尔逊相关系数
Step2:划分条件属性聚类簇
这样就把条件属性集分成了多个属性聚类,形式为{属性聚类1{主要属性1:条件属性集1},……属性聚类k{主要属性k:条件属性集k},{离群属性集}}。
(3)集成分类器阶段。
本阶段分为确定边界域和集成训练分类器两个步骤。
①确定边界域。
决策属性集,形式为{决策属性1,决策属性2,……决策属性p}中的决策属性根据公式(4)把数据集分为p个等价类,决策属性关于属性集的边界域可以用邻域粗糙集知识计算出来。
b.对于训练集中的某个样本xi,根据公式(5),(6),(7)计算xi的邻域δB(xi)。
b.判断δB(xi)中的样本是否与xi属于同一类别,不是则把xi归入边界域。
c.重复a,b,直到遍历完整个训练集。
最终得到训练集的边界域,形式为{边界域样本1,边界域样本2,…,边界域样本x}。
②集成训练分类器,根据集成学习的差异性原则选择3个基分类器并初始化每个分类器的权重比例为1,形式为{分类器h1:ω1=1,分类器h2:ω2=1,分类器h3:ω3=1},ωi表示分类器i的权重比例。
a.从每个属性聚类集中选择一个属性组成选择属性集后,得到一个新的子属性集,形式为{主要属性集∪选择属性集},用这个新的子属性集训练每个分类器,得到每个分类器能够正确分类的样本集,形式为{样本集1,样本集2,样本集3}。
b.判断{样本集1,样本集2,样本集3}中哪个样本集中的样本在边界域的个数最多,给对应的样本集的分类器的权重比例增加1。
c.重复a,b,直到所有的子属性集组合都训练完毕,且a中每次组成的子属性集不能与之前的重复。
d.完成a,b,c步骤后,得到分类器的权重比例ω1,ω2,ω3,为了保证其中wi是分类器i的权重,根据分类器的权重比例计算得到分类器的最后权重。
(4)对测试集分类阶段
每个分类器对一个样本的分类结果是一个l维的向量其中是分类器hi对类别dj的分类结果,1表示分类器认为该样本属于dj类,0则反之。最后集成分类器对样本的分类结果是:
其中,wi是分类器hi的权重,T是基分类器的个数。
以下举例对本发明的实施作进一步说明。本实例在以本发明技术方案为前提下进行实施,给出了详细的实施方式和具体的操作过程,但本发明的保护范围不限于下述的实例。本实例所用的数据集是在UCI下载的wine数据集。
步骤(1)归一化wine数据集,并将其90%作为训练集,10%作为测试集。归一化后的数据集的部分数据如表1所示。wine数据集有178个样本,13个条件属性,且都为连续型属性,1个决策属性,取值有3种,分别为{1,2,3}。
表2归一化后的wine数据集(部分)
步骤(2)对训练集进行属性聚类,如图2所示。
A1 | A2 | A3 | A4 | A5 | A6 | A7 | A8 | A9 | A10 | A11 | A12 | A13 | CLASS |
0.842 | 0.191 | 0.572 | 0.257 | 0.619 | 0.627 | 0.573 | 0.283 | 0.593 | 0.372 | 0.455 | 0.970 | 0.561 | 1 |
0.571 | 0.205 | 0.417 | 0.030 | 0.326 | 0.575 | 0.510 | 0.245 | 0.274 | 0.264 | 0.463 | 0.780 | 0.550 | 1 |
0.560 | 0.320 | 0.700 | 0.412 | 0.336 | 0.627 | 0.611 | 0.320 | 0.757 | 0.375 | 0.447 | 0.695 | 0.646 | 1 |
0.878 | 0.239 | 0.609 | 0.319 | 0.467 | 0.989 | 0.664 | 0.207 | 0.558 | 0.556 | 0.308 | 0.798 | 0.857 | 1 |
0.352 | 0.065 | 0.395 | 0.407 | 0.195 | 0.875 | 0.719 | 0.207 | 0.485 | 0.274 | 0.455 | 0.549 | 0.272 | 2 |
0.331 | 0.480 | 0.454 | 0.381 | 0.195 | 0.644 | 0.559 | 0.603 | 0.757 | 0.087 | 0.764 | 0.571 | 0.091 | 29 --> |
0.276 | 0.264 | 0.181 | 0.355 | 0.293 | 0.431 | 0.386 | 0.245 | 0.312 | 0.172 | 0.642 | 0.619 | 0.308 | 2 |
0.413 | 0.118 | 0.288 | 0.407 | 0.195 | 0.162 | 0.215 | 0.301 | 0.296 | 0.099 | 0.455 | 0.549 | 0.202 | 2 |
0.344 | 0.337 | 0.588 | 0.536 | 0.304 | 0.544 | 0.373 | 0.396 | 0.283 | 0.129 | 0.260 | 0.772 | 0.114 | 2 |
0.815 | 0.664 | 0.737 | 0.716 | 0.282 | 0.368 | 0.088 | 0.811 | 0.296 | 0.675 | 0.105 | 0.120 | 0.201 | 3 |
0.563 | 0.365 | 0.540 | 0.484 | 0.543 | 0.231 | 0.071 | 0.754 | 0.331 | 0.684 | 0.097 | 0.128 | 0.400 | 3 |
0.589 | 0.699 | 0.481 | 0.484 | 0.543 | 0.210 | 0.073 | 0.566 | 0.296 | 0.761 | 0.089 | 0.106 | 0.397 | 3 |
①计算条件属性信息增益。
计算训练集中各个条件属性相对于决策属性的信息增益。针对本数据集,选出信息增益最大的3个属性。通过计算得到wine训练集信息增益最大的3个属性是{A7,A12,A13},这3个属性组成wine的主要属性集,将作为属性聚类的聚点。各属性的信息增益如表2所示。
表3各属性的信息增益
A1 | A2 | A3 | A4 | A5 | A6 | A7 | A8 | A9 | A10 | A11 | A12 | A13 |
0.665 | 0.473 | 0.173 | 0.328 | 0.365 | 0.590 | 0.965 | 0.294 | 0.345 | 0.756 | 0.629 | 0.768 | 0.775 |
②属性聚类。
将剩下的条件属性{A1,A2,A3,A4,A5,A6,A8,A9,A10,A11}划分到分别以A7,A12,A13为聚点的聚类中。通过计算剩下的10个条件属性与主要属性集中的3个属性的皮尔逊相关系数,并将与A7,A12,A13的皮尔逊相关系数绝对值大于阈值0.5的条件属性加入到对应的聚类中,A7,A12,A13与其它条件属性的皮尔逊相关系数如表3所示。
表4A7,A12,A13与其它条件属性的皮尔逊相关系数
A7 | A12 | A13 | |
A1 | 0.230 | 0.057 | 0.641 |
A2 | -0.409 | -0.366 | -0.189 |
A3 | 0.114 | 0.001 | 0.222 |
A4 | 0.346 | -0.268 | -0.436 |
A5 | 0.187 | 0.046 | 0.387 |
A6 | 0.846 | 0.699 | 0.495 |
A7 | 1.000 | 0.786 | 0.491 |
A8 | -0.536 | -0.501 | -0.308 |
A9 | 0.650 | 0.513 | 0.325 |
A10 | -0.174 | -0.435 | 0.315 |
A11 | 0.543 | 0.567 | 0.234 |
A12 | 0.786 | 1.000 | 0.306 |
A13 | 0.491 | 0.306 | 1.000 |
由表3可知,对于聚点A7,A6,A8,A9,A11与它的相关系数的绝对值都大于0.5,但是A7与A11的相关系数是0.543,小于A12与A11的相关系数0.567,所以A11不能归入A7的聚类。依次类推,得到3个属性聚类{A7:A6,A8,A9},{A12:A11},{A13:A1},最后把不能归入任何聚点即与任何聚点的皮尔逊相关系数的绝对值都小于0.5的属性单独归为一类。综上得到4个属性聚类{A7:A6,A8,A9},{A12:A11},{A13:A1},{A2,A3,A4,A5,A10}。
步骤(3)分类器集成。
①确定边界域,如图3所示。
对wine训练集的一个样本xi,(0.366,0.358,0.487,0.588,0.217,0.241,0.316,1.0,0.316,0.121,0.309,0.746,0.026,2),首先,计算xi与其它所有样本的距离,距离公式使用欧拉距离如公式(6)所示。然后,求得样本xi的邻域半径δ为0.694,其中λ取值为0.15。最后,判断样本xi的邻域δB(xi)中的样本是否都跟xi属于同一类别,若不是,则把xi归入边界域。这里δB(xi)为{2,2,2,2,2,2,2,2,2,2,2,3,2},因此xi样本应归入边界域。如图4中δB(xi)中的样本不全与xi属于同一类别,所以应该把xi归入边界域。这样通过遍历训练集,就能得到训练集的边界域。
②集成分类器,如图5所示。
a.本例中选择了3个具有代表性的经典分类器:naivebayes,svm,knn。初始化它们的权重比例为1:1:1,{naivebayes:1,svm:1,knn:1}。
b.根据步骤(2)-②中得到的属性聚类{A7:A6,A8,A9},{A12:A11},{A13:A1},{A2,A3,A4,A5,A10},从中选择被训练的子属性集。每一次的子属性集都应保留主要属性集{A7,A12,A13},再分别从4个属性聚类中取出一个属性组成选择属性集,将主要属性集和选择属性集合并得到最后的子属性集。例如分别从上述4个聚类中选出属性A6,A11,A1,A2,与主要属性集{A7,A12,A13}合并得到子属性集{A7,A12,A13,A6,A11,A1,A2}。
c.最后用naivebayes,svm,knn对b中选择出的子属性集对应的训练集进行分类,得到这3个分类器能正确分类的3个样本集。判断每个基分类器能够正确分类的样本在步骤(3)-①得到的边界域中的个数。其中,能被naivebayes正确分类的样本在边界域的个数为32,能被svm正确分类的样本在边界域的个数为33,能被knn正确分类的样本在边界域的个数为31,所以把svm分类器的权重比例增加1。
d.重复a,b,c,直到所有的子属性集都训练完毕,且每次选择的子属性集不能相同。本例中最后得到的权重比例为{naivebayes:12,svm:4,knn:2}。为了保证权重之和为1,所以最终的权重为{naivebayes:0.667,svm:0.222,knn:0.111}。
步骤(4)对测试集分类。
例如,对测试集中的样本(0.272,0.215,0.359,0.421,0.050,0.239,0.483,0.526,0.651,0.196,0.667,0.823,0.143),类别为2。naivebayes对该样本的分类结果为(0,1,0),svm对它的分类结果为(1,0,0),knn对它的分类结果为(1,0,0),把步骤(3)训练得到的权重乘以分类结果,所以naivebayes,svm,knn对该样本的分类结果分别为(0,0.667,0),(0.222,0,0),(0.111,0,0),分别累加对每一个类别的分类结果得到分类结果为(0.333,0.667,0),取其中最大的值对应的类别作为最后的分类结果,即该样本属于类别2。
利用上述步骤所得的集成分类器,对测试数据集中的所有测试样本进行分类,所采用的测试方法为十字交叉验证法。最终对测试集的分类正确率为0.972,高于naivebayes,svm,knn3个基分类器单独的分类正确率。
以上这些实施例应理解为仅用于说明本发明而不用于限制本发明的保护范围。在阅读了本发明的记载的内容之后,技术人员可以对本发明作各种改动或修改,这些等效变化和修饰同样落入本发明权利要求所限定的范围。
Claims (7)
1.一种基于属性聚类的邻域粗糙集集成学习方法,其特征在于,包括以下步骤:
101、从实验数据平台下载数据集,然后对数据集的数据进行预处理,预处理包括归一化步骤和拆分数据集步骤,把数据集拆分成训练集和测试集;
102、对经过步骤101预处理的训练集的数据根据属性进行聚类,聚类分为选择主要属性集和划分属性聚类簇两个步骤;
103、用经过步骤102的训练集集成训练基分类器进行分类,分为确定边界域和集成训练分类器两个步骤,其中集成训练分类器加入了邻域粗糙集来进行分类;
104、最后,利用得到的集成分类器对测试集分类,完成学习。
2.根据权利要求1所述的基于属性聚类的邻域粗糙集集成学习方法,其特征在于,所述步骤101中的归一化步骤指对原始数据线性变换,使结果值映射到[0-1]之间;拆分数据集步骤是通过随机不重复的选择数据集中90%的样本作为训练集,余下的10%作为测试集。
3.根据权利要求1或2所述的基于属性聚类的邻域粗糙集集成学习方法,其特征在于,所述步骤102中选择主要属性集,对于条件属性集,形式为{条件属性1,条件属性2……,条件属性n},利用信息熵公式计算每个条件属性的信息增益,取信息增益较大的前k个条件属性组成主要属性集即属性聚类的聚点,形式为{主要属性1,主要属性2,……主要属性k}。
4.根据权利要求3所述的基于属性聚类的邻域粗糙集集成学习方法,其特征在于,所述步骤102划分属性聚类簇的步骤为:把得到的主要属性集中的每个属性作为一个聚点,计算其它条件属性与各个聚点的皮尔逊相关系数,把与某聚点的皮尔逊相关系数的绝对值大于阈值的条件属性划分到该聚点的聚类中,如果有不属于任何一个聚点的属性,即与任何一个聚点的皮尔逊相关系数的绝对值都小于阈值,相当于聚类中的离群点,把这样的属性称作离群属性,并将离群属性单独组成一个聚类簇。
5.根据权利要求3所述的基于属性聚类的邻域粗糙集集成学习方法,其特征在于,所述步骤103中确定边界域的步骤具体为:决策属性集,形式为{决策属性1,决策属性2,……决策属性p}中的决策属性把数据集分为p个等价类,决策属性关于属性集的边界域用邻域粗糙集计算出来;
a.对于训练集中的某个样本xi,计算xi的邻域δB(xi);
b.判断δB(xi)中的样本是否与xi属于同一类别,不是则把xi归入边界域;
c.重复步骤a、步骤b,直到遍历完整个训练集;最终得到训练集的边界域,形式为{边界域样本1,边界域样本2,…,边界域样本x}。
6.根据权利要求5所述的基于属性聚类的邻域粗糙集集成学习方法,其特征在于,步骤103中集成训练分类器的步骤为:根据集成学习的差异性原则选择3个基分类器并初始化每个分类器的权重比例为1,形式为{分类器h1:ω1=1,分类器h2:ω2=1,分类器h3:ω3=1},ωi表示分类器i的权重比例;
A1.从每个属性聚类集中选择一个属性组成选择属性集后,得到一个新的子属性集,形式为{主要属性集∪选择属性集},用这个新的子属性集训练每个分类器,得到每个分类器能够正确分类的样本集,形式为{样本集1,样本集2,样本集3};
B1.判断{样本集1,样本集2,样本集3}中哪个样本集中的样本在边界域的个数最多,给对应的样本集的分类器的权重比例增加1;
C1.重复A1,B1,直到所有的子属性集组合都训练完毕,且a中每次组成的子属性集不能与之前的重复;
D1.完成A1,B1,C1步骤后,得到分类器的权重比例ω1,ω2,ω3,保证其中wi是分类器i的权重,根据分类器的权重比例计算得到分类器的最后权重。
7.根据权利要求6所述的基于属性聚类的邻域粗糙集集成学习方法,其特征在于,步骤104中根据得到的集成分类器对测试集分类具体为:每个分类器对一个样本的分类结果是一个l维的向量其中是分类器hi对类别dj的分类结果,1表示分类器认为该样本属于dj类,0则反之,最后集成分类器对样本的分类结果是:
其中,wi是分类器hi的权重,T是基分类器的个数。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201610100024.3A CN105760888B (zh) | 2016-02-23 | 2016-02-23 | 一种基于属性聚类的邻域粗糙集集成学习方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201610100024.3A CN105760888B (zh) | 2016-02-23 | 2016-02-23 | 一种基于属性聚类的邻域粗糙集集成学习方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN105760888A true CN105760888A (zh) | 2016-07-13 |
CN105760888B CN105760888B (zh) | 2019-03-08 |
Family
ID=56331097
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201610100024.3A Active CN105760888B (zh) | 2016-02-23 | 2016-02-23 | 一种基于属性聚类的邻域粗糙集集成学习方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN105760888B (zh) |
Cited By (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106599913A (zh) * | 2016-12-07 | 2017-04-26 | 重庆邮电大学 | 一种基于聚类的多标签不平衡生物医学数据分类方法 |
CN106997509A (zh) * | 2017-03-28 | 2017-08-01 | 南京航空航天大学 | 一种不确定信息融合的应急物资分布需求预测方法 |
CN107808001A (zh) * | 2017-11-13 | 2018-03-16 | 哈尔滨工业大学 | 面向海量异构数据的模式集成方法及装置 |
CN109272020A (zh) * | 2018-08-20 | 2019-01-25 | 中国科学院计算技术研究所 | 一种肌电数据中离群点的处理方法和系统 |
CN109857780A (zh) * | 2019-01-17 | 2019-06-07 | 西北大学 | 一种针对统计查询攻击的线性-正交数据发布方法 |
CN110046256A (zh) * | 2019-04-22 | 2019-07-23 | 成都四方伟业软件股份有限公司 | 案件判别结果的预测方法及装置 |
CN110288010A (zh) * | 2019-06-14 | 2019-09-27 | 中国人民大学 | 一种多维用户特征向量筛选方法 |
CN110334659A (zh) * | 2019-07-08 | 2019-10-15 | 太原科技大学 | 一种基于二分类的双峰发射线数据搜寻方法 |
CN111507382A (zh) * | 2020-04-01 | 2020-08-07 | 北京互金新融科技有限公司 | 样本文件的聚类方法及装置、电子设备 |
CN112396507A (zh) * | 2020-09-01 | 2021-02-23 | 重庆邮电大学 | 基于阴影划分的集成svm个人信用评估方法 |
CN113780331A (zh) * | 2020-05-22 | 2021-12-10 | 丰田自动车株式会社 | 由计算机实施的训练方法、分类方法及系统和计算机可读记录介质 |
CN114266277A (zh) * | 2021-12-27 | 2022-04-01 | 四川大学 | 一种电能质量扰动分类方法 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101706806A (zh) * | 2009-11-11 | 2010-05-12 | 北京航空航天大学 | 一种基于特征选择的均值漂移文本分类方法 |
CN104408468A (zh) * | 2014-11-26 | 2015-03-11 | 西安电子科技大学 | 基于粗糙集和集成学习的人脸识别方法 |
CN104933444A (zh) * | 2015-06-26 | 2015-09-23 | 南京邮电大学 | 一种面向多维属性数据的多层聚类融合机制的设计方法 |
-
2016
- 2016-02-23 CN CN201610100024.3A patent/CN105760888B/zh active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101706806A (zh) * | 2009-11-11 | 2010-05-12 | 北京航空航天大学 | 一种基于特征选择的均值漂移文本分类方法 |
CN104408468A (zh) * | 2014-11-26 | 2015-03-11 | 西安电子科技大学 | 基于粗糙集和集成学习的人脸识别方法 |
CN104933444A (zh) * | 2015-06-26 | 2015-09-23 | 南京邮电大学 | 一种面向多维属性数据的多层聚类融合机制的设计方法 |
Non-Patent Citations (2)
Title |
---|
于洪,王国胤,姚一豫: "决策粗糙集理论研究现状与展望", 《决策粗糙集理论研究现状与展望》 * |
李航: "基于粗糙集的不平衡数据采样方法研究", 《中国优秀硕士学位论文全文数据库》 * |
Cited By (17)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106599913A (zh) * | 2016-12-07 | 2017-04-26 | 重庆邮电大学 | 一种基于聚类的多标签不平衡生物医学数据分类方法 |
CN106599913B (zh) * | 2016-12-07 | 2019-08-06 | 重庆邮电大学 | 一种基于聚类的多标签不平衡生物医学数据分类方法 |
CN106997509A (zh) * | 2017-03-28 | 2017-08-01 | 南京航空航天大学 | 一种不确定信息融合的应急物资分布需求预测方法 |
CN107808001B (zh) * | 2017-11-13 | 2019-12-06 | 哈尔滨工业大学 | 面向海量异构数据的模式集成方法及装置 |
CN107808001A (zh) * | 2017-11-13 | 2018-03-16 | 哈尔滨工业大学 | 面向海量异构数据的模式集成方法及装置 |
CN109272020A (zh) * | 2018-08-20 | 2019-01-25 | 中国科学院计算技术研究所 | 一种肌电数据中离群点的处理方法和系统 |
CN109272020B (zh) * | 2018-08-20 | 2021-02-26 | 中国科学院计算技术研究所 | 一种肌电数据中离群点的处理方法和系统 |
CN109857780A (zh) * | 2019-01-17 | 2019-06-07 | 西北大学 | 一种针对统计查询攻击的线性-正交数据发布方法 |
CN109857780B (zh) * | 2019-01-17 | 2023-04-28 | 西北大学 | 一种针对统计查询攻击的线性-正交数据发布方法 |
CN110046256A (zh) * | 2019-04-22 | 2019-07-23 | 成都四方伟业软件股份有限公司 | 案件判别结果的预测方法及装置 |
CN110288010A (zh) * | 2019-06-14 | 2019-09-27 | 中国人民大学 | 一种多维用户特征向量筛选方法 |
CN110334659A (zh) * | 2019-07-08 | 2019-10-15 | 太原科技大学 | 一种基于二分类的双峰发射线数据搜寻方法 |
CN111507382A (zh) * | 2020-04-01 | 2020-08-07 | 北京互金新融科技有限公司 | 样本文件的聚类方法及装置、电子设备 |
CN111507382B (zh) * | 2020-04-01 | 2023-05-05 | 北京互金新融科技有限公司 | 样本文件的聚类方法及装置、电子设备 |
CN113780331A (zh) * | 2020-05-22 | 2021-12-10 | 丰田自动车株式会社 | 由计算机实施的训练方法、分类方法及系统和计算机可读记录介质 |
CN112396507A (zh) * | 2020-09-01 | 2021-02-23 | 重庆邮电大学 | 基于阴影划分的集成svm个人信用评估方法 |
CN114266277A (zh) * | 2021-12-27 | 2022-04-01 | 四川大学 | 一种电能质量扰动分类方法 |
Also Published As
Publication number | Publication date |
---|---|
CN105760888B (zh) | 2019-03-08 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN105760888A (zh) | 一种基于属性聚类的邻域粗糙集集成学习方法 | |
CN108564129B (zh) | 一种基于生成对抗网络的轨迹数据分类方法 | |
CN105469096B (zh) | 一种基于哈希二值编码的特征袋图像检索方法 | |
CN108985380B (zh) | 一种基于聚类集成的转辙机故障识别方法 | |
CN104966105A (zh) | 一种鲁棒机器错误检索方法与系统 | |
CN106991447A (zh) | 一种嵌入式多类别属性标签动态特征选择算法 | |
CN103020122A (zh) | 一种基于半监督聚类的迁移学习方法 | |
CN108460421A (zh) | 不平衡数据的分类方法 | |
CN103425996A (zh) | 一种并行分布式的大规模图像识别方法 | |
CN102750286A (zh) | 一种处理缺失数据的新型决策树分类器方法 | |
CN105320764A (zh) | 一种基于增量慢特征的3d模型检索方法及其检索装置 | |
CN106095791A (zh) | 一种基于上下文的抽象样本信息检索系统及其抽象样本特征化表示方法 | |
CN105183792B (zh) | 一种基于局部敏感哈希的分布式快速文本分类方法 | |
CN106778714A (zh) | 基于非线性特征和模型合并的lda人脸识别方法 | |
CN106203508A (zh) | 一种基于Hadoop平台的图像分类方法 | |
Sugianto et al. | K-Means Algorithm For Clustering Poverty Data in Bangka Belitung Island Province | |
CN104468276B (zh) | 基于随机抽样多分类器的网络流量识别方法 | |
CN106570514A (zh) | 一种基于词袋模型和支持向量机的汽车轮毂分类方法 | |
CN110955804B (zh) | 一种针对用户时空数据行为检测的Adaboost方法 | |
CN111708865B (zh) | 一种基于改进XGBoost算法的技术预见及专利预警分析方法 | |
Ntoutsi et al. | A general framework for estimating similarity of datasets and decision trees: exploring semantic similarity of decision trees | |
CN104021295B (zh) | 用于运动识别的聚类特征融合方法和装置 | |
CN105160358A (zh) | 一种图像分类方法及系统 | |
Fillbrunn et al. | Diversity-driven widening of hierarchical agglomerative clustering | |
Thalor et al. | Review of ensemble based classification algorithms for nonstationary and imbalanced data |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |