CN106203530A - 面向k近邻算法用于不平衡分布数据的特征权重确定方法 - Google Patents

面向k近邻算法用于不平衡分布数据的特征权重确定方法 Download PDF

Info

Publication number
CN106203530A
CN106203530A CN201610578874.4A CN201610578874A CN106203530A CN 106203530 A CN106203530 A CN 106203530A CN 201610578874 A CN201610578874 A CN 201610578874A CN 106203530 A CN106203530 A CN 106203530A
Authority
CN
China
Prior art keywords
feature
sample
value
weight
attribute
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201610578874.4A
Other languages
English (en)
Inventor
李良敏
张俊红
聂亚军
胡骁
孙建国
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Changan University
Original Assignee
Changan University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Changan University filed Critical Changan University
Priority to CN201610578874.4A priority Critical patent/CN106203530A/zh
Publication of CN106203530A publication Critical patent/CN106203530A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2413Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on distances to training or reference patterns
    • G06F18/24147Distances to closest patterns, e.g. nearest neighbour classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/22Matching criteria, e.g. proximity measures

Landscapes

  • Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Theoretical Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种面向K近邻算法用于不平衡分布数据的特征权重确定方法,其具体过程是:(1)调入训练样本,若样本描述特征中存在标称属性、二元属性或序数属性特征时,将其转化为数值型特征;(2)对训练样本的各个特征值进行归一化处理;(3)根据数据分布的不平衡程度确定各训练样本的权重系数;(4)计算样本各个特征的综合性能衡量指标;(5)根据各个特征的综合性能衡量指标确定其特征权重。与现有技术相比,本发明可以以更高的计算效率获得更为合理的特征权重,显著提高了K近邻算法对不平衡分布数据的处理能力,对作为关注重点的少数样本表现出良好的识别能力。

Description

面向K近邻算法用于不平衡分布数据的特征权重确定方法
技术领域
本发明属于信息技术领域,涉及一种特征权重确定方法,尤其是一种面向K近邻算法用于不平衡分布数据的特征权重确定方法。
背景技术
K近邻(K-nearest neighbor,简称KNN)算法是Cover和Hart提出的一种非参数分类算法,因易于实现及在分类过程中的健壮性特点,成为十大数据挖掘算法之一,在包括医疗诊断、文本分类、入侵检测等许多领域获得了广泛应用。
KNN算法多采用欧氏距离寻找待分类样本的K近邻。由欧氏距离计算公式可知,在确定近邻时,对样本所有特征属性赋予了相等的权重。然而在实际应用中,不同的特征属性对分类的影响是不同的,描述样本的特征中往往存在大量的不相关项和冗余项,这一现象导致近邻间的距离被这些不相关特征或冗余特征所支配,引发维数灾难(curse ofdimensionality)问题,降低了KNN算法的分类能力。针对这种情况,出现了多种基于特征加权的KNN算法,特征权值确定方法包括神经网络、支持向量机、χ2统计检验、微粒群算法、TF-IDF等。这些方法大多从衡量单个特征与类别属性的相关性或对分类问题的贡献度出发来确定特征权重,有效的降低了不相关特征的影响,但均未考虑冗余特征的影响。另外,χ2统计检验多用于标称型特征,不适用于数值型特征;支持向量机适合解决二分类问题,对多分类问题扩展性较差;神经网络、微粒群算法计算消耗大,在大规模数据集上计算效率偏低。
另外,上述特征权重确定方法在应用中通常假设用于训练的样本集分布平衡,即不同类别所包含的样本数量大致相等。这一假设在很多现实问题中并不成立,不同类别的样本数量可能存在较大差异,某类样本数量明显少于其他类别,即出现数据分布不平衡现象。例如在进行信用卡欺诈识别时,欺诈样本数据远远少于正常使用样本数据;利用检测数据诊断病人疾病如癌症时,癌症样本数据远远少于健康样本数据等。上述特征权重确定方法在处理这类数据时,往往会使得所建立分类器出现很大的偏向性,对少数类的识别率远远低于多数类。而实际上人们更关心的往往是少数类,将少数类样本错分为多数类的代价更大,例如将癌症患者误诊为正常人会延误治疗时机,对病人造成生命威胁。因此需要研究新的特征权重确定方法,以适应数据分布不均衡现象,提高对更为重要的少数类样本的识别精度。
发明内容
本发明的目的在于克服上述现有技术的缺点,提供一种面向K近邻算法用于不平衡分布数据的特征权重确定方法。
本发明的目的是通过以下技术方案来实现的:
本发明面向K近邻算法用于不平衡分布数据的特征权重确定方法,包括以下步骤:
步骤1,调入训练样本集合X={X1,X2,...,XN},各个训练样本Xk,k=1,2,...,N均可用m个特征属性和1个类别属性进行描述,即Xk=(xk1,xk2,...,xkm,xkc),k=1,2,...,N,其中xki,i=1,...,m为样本Xk的特征属性,xkc为样本Xk的类别属性,该属性定义了样本Xk的归属类别,共n类。若样本的描述特征中包含标称型、二元型或序数型特征时,需将其转化为数值型特征;
步骤2,对训练样本Xk,k=1,2,...,N的各个特征属性值进行归一化处理,得到归一化后的特征值归一化公式为:其中为归一化后的特征值,xki为原始特征值,ximax,ximin分别表示归一化前所有训练样本的第i个特征的最大值与最小值,即ximax=max{xki,k=1,2,...,N},ximin=min{xki,k=1,2,...,N}。经过归一化处理后训练样本Xk表示为
步骤3,对于经步骤2归一化处理后的训练样本根据公式确定样本的权重系数ck,k=1,2,...,N,其中Nkc为训练样本Xk所属类别的样本容量;
步骤4,计算经步骤2归一化处理后的特征属性与类别属性xc=[x1c,x2c,...,xNc]'之间的相关性衡量指标REi,i=1,2,...,m以及与其他特征属性之间的相关性衡量指标RIi,i=1,2,...,m,并根据REi,i=1,2,...,m与RIi,i=1,2,...,m计算各特征的综合性能衡量指标Ri,i=1,2,...,m;
步骤5,根据步骤4中得到的各特征的综合性能衡量指标Ri,i=1,2,...,m确定其特征权重ωi,i=1,2,...,m,使用的公式为
进一步,上述步骤1中标称型、二元型或序数型特征向数值型特征转化的方法如下:
对于标称型特征,采用数值0表示该特征的第一种取值,数值1表示第二种取值,以此类推,直至该特征的所有可能取值均用离散型数值对应表示;
对于二元型特征,采用数值0表示该特征的第一种取值,数值1表示第二种取值;
对于序数型特征,采用数值0表示该特征的第一种取值,数值1表示第二种取值,以此类推,直至该特征的所有可能取值均用离散型数值对应表示。
进一步,上述步骤4中特征与类别属性xc=[x1c,x2c,...,xNc]'间的相关性衡量指标REi的计算公式为:
其中为特征属性的平均值,即: 为类别属性xc=[x1c,x2c,...,xNc]'的平均值,即:ck为由步骤3计算得到的第k个样本的权重系数。
进一步,上述步骤4中特征属性与其他特征属性之间的相关性衡量指标RIi的计算公式为:
其中分别为特征属性和特征属性的均值,即:ck为由步骤3计算得到的第k个样本的权重系数。
进一步,上述步骤4中各特征的综合性能衡量指标Ri,i=1,2,...,m的计算公式为:
本发明与现有技术相比,具有以下优点:
1.本发明构建了复合相关性指标以综合衡量某一特征与类别属性以及与其他特征的关联程度,以此为依据来确定该特征的权重系数,不仅降低了不相关特征的影响,同时降低了冗余特征的影响。
2.本发明针对不平衡分布数据,在计算特征与类别属性以及与其他特征的关联程度时,对不同类别的样本进行了加权处理,克服了现有技术存在的计算结果向多数类倾斜的缺点,提高了KNN算法对少数类样本的识别精度。
3.本发明计算简单,计算效率高,可处理二分类及多分类问题,且不受特征属性类型的影响,既可处理数值型特征,也可处理标称型、二元型或序数型等类型的特征,适用性广。
附图说明
图1为本发明的流程图。
具体实施方式
下面结合附图对本发明做进一步详细描述。
参见图1,本发明的具体过程是:
步骤1,调入训练样本集合X={X1,X2,...,XN},各个训练样本Xk,k=1,2,...,N均可用m个特征属性和1个类别属性进行描述,即Xk=(xk1,xk2,...,xkm,xkc),k=1,2,...,N,其中xki,i=1,...,m为样本Xk的特征属性,xkc为样本Xk的类别属性,该属性定义了样本Xk的归属类别,共n类。若样本的描述特征中包含标称型、二元型或序数型特征时,需将其转化为数值型特征,转化方法如下:
对于标称型特征,采用数值0表示该特征的第一种取值,数值1表示第二种取值,以此类推,直至该特征的所有可能取值均用离散型数值对应表示;
对于二元型特征,采用数值0表示该特征的第一种取值,数值1表示第二种取值;
对于序数型特征,采用数值0表示该特征的第一种取值,数值1表示第二种取值,以此类推,直至该特征的所有可能取值均用离散型数值对应表示。
实质上,训练样本集合X为N×(m+1)的矩阵,其中行向量对应于样本向量,记为Xk=(xk1,xk2,...,xkm,xkc),k=1,2,...,N,前m列向量对应于特征向量,记为xi=[x1i,x2i,...,xNi]',i=1,2,...,m,最后一列为类别属性向量,记为xc=[x1c,x2c,...,xNc]'。
步骤2,对训练样本的各个特征属性值进行归一化处理,得到归一化后的特征值归一化公式为:其中为归一化后的特征值,xki为原始特征值,ximax,ximin分别表示归一化前所有训练样本的第i个特征的最大值与最小值,即ximax=max{xki,k=1,2,...,N},ximin=min{xki,k=1,2,...,N}。经过归一化处理后训练样本Xk表示为
步骤3,对于经步骤2归一化处理后的训练样本根据公式确定样本的权重系数ck,k=1,2,...,N,其中Nkc为训练样本Xk所属类别的样本容量,即该类别中包含的样本数量。显然,属于多数类的样本其对应权重系数ck较小,属于少数类的样本其对应权重系数ck较大,属于同一类的样本具有相同的权重系数。
步骤4,计算各个特征的综合性能衡量指标,计算方法如下:
4.1)计算特征属性与类别属性xc=[x1c,x2c,...,xNc]'之间的相关性衡量指标REi,i=1,2,...,m,计算公式为:
RE i = | 1 N - 1 Σ k = 1 N [ c k 2 ( x ~ k i - x ‾ i ) ( x k c - x ‾ c ) ] 1 N - 1 Σ k = 1 N [ c k ( x ~ k i - x ‾ i ) ] 2 * 1 N - 1 Σ k = 1 N [ c k ( x k c - x ‾ c ) ] 2 |
其中为特征属性的平均值,即: 为类别属性xc=[x1c,x2c,...,xNc]'的平均值,即:ck为由步骤3计算得到的第k个样本的权重系数。
RE通过衡量特征属性xi与类别属性xc间相关性的方式来判定特征属性xi是否为不相关特征或无效特征,不相关特征或无效特征对应于小的REi值,而有效特征对应于大的REi值。另外,上述计算公式充分考虑了类别分布不平衡现象的影响:对少数类样本赋予大的权重(对应于大的ck值),增大了少数类样本对计算结果的影响;对多数类样本赋予小的权重(对应于小的ck值),降低了多数类样本的影响。通过这种处理方式避免了现有技术存在的计算结果倾向多数类的缺陷。
4.2)计算特征属性与其他特征属性之间的相关性衡量指标RIi,i=1,2,...,m,计算公式为:
RI i = 1 m - 1 Σ j = 1 , j ≠ i m | 1 N - 1 Σ k = 1 N [ c k 2 ( x ~ k i - x ‾ i ) ( x ~ k j - x ‾ j ) ] 1 N - 1 Σ k = 1 N [ c k ( x ~ k i - x ‾ i ) ] 2 * 1 N - 1 Σ k = 1 N [ c k ( x ~ k j - x ‾ j ) ] 2 |
其中分别为特征属性和特征属性的均值,即:ck为由步骤3计算得到的第k个样本的权重系数。
RIi通过衡量特征属性xi与其他特征属性xj,j≠i之间相关性的方式来判定特征属性xi是否为冗余特征,冗余特征将获得大的RIi值。同时,上述计算公式充分考虑了类别分布不平衡现象的影响,通过对少数类样本赋予大的权重系数、对多数类样本赋予小的权重系数,提高了少数类样本的影响,避免了现有技术存在的计算结果倾向多数类的缺陷。
4.3)根据REi,i=1,2,...,m与RIi,i=1,2,...,m计算得到各特征的综合性能衡量指标Ri,i=1,2,...,m,计算公式为:
R i = RE i RI i
可以看出,不相关特征因其REi值小、冗余特征因其RIi值大,均将获得小的Ri值。对于有效且非冗余的特征,其特点是REi值大而RIi值小,因而将获得大的Ri值。
步骤5,根据步骤4中得到的特征综合性能衡量指标Ri,i=1,2,...,m确定各特征的权重ωi,i=1,2,...,m,使用的公式为
根据上述步骤计算得到各特征的权重系数后,即可将其代入特征加权K近邻算法,完成对待分类样本的分类识别。
本发明的具体实施例如下。
实施例1:KEEL标准测试数据glass4。
该数据集为二分类问题,包含214个样本,其中多数类样本197个,少数类样本17个,描述样本的特征共9个,特征类型均为数值型。计算前随机抽取数据集中80%的样本作为训练样本,其余20%样本作为测试样本,得到训练样本170个,其中多数类样本157个,少数类样本13个;测试样本44个,其中多数类样本40个,少数类样本4个。可以看出,该数据集中多数类样本明显多于少数类样本,属于典型的不平衡分布数据。
实施步骤如下:
步骤1,调入训练样本集合X={X1,X2,...,XN}。本例中共170个训练样本,故N=170;样本描述特征9个,则m=9;所有样本分属两类,即n=2。另外,该数据集中的所有特征均为数值型,无需进行转化处理。
本例中训练样本集合X为170×10的矩阵,其中行向量对应于样本向量,记为Xk=(xk1,xk2,...,xk9,xkc),k=1,2,...,170,前9列向量对应于特征向量,记为xi=[x1i,x2i,...,x170i]',i=1,2,...,9,最后一列为类别属性向量,记为xc=[x1c,x2c,...,x170c]'。
步骤2,对训练样本的各个特征根据如下所示的公式进行归一化处理,将各特征值限定在[0,1]内:
x ~ k i = x k i - x i m i n x i max - x i m i n
其中:为归一化后的特征值,xki为原始特征值,ximax,ximin分别表示归一化前所有训练样本的第i个特征的最大值与最小值,即ximax=max{xki,k=1,2,...,170},ximin=min{xki,k=1,2,...,170}。经过归一化处理后训练样本Xk表示为
步骤3,对于经步骤2归一化处理后的训练样本根据公式确定各个训练样本的权重系数ck,k=1,2,...,170,其中Nkc为训练样本Xk所属类别的样本容量。本例中,多数类的样本容量N-=157,N=170,因此所有多数类样本的权重系数统一为ck=1.08;少数类的样本容量N+=13,则所有少数类样本的权重系数统一为ck=13.08。
步骤4,计算各个特征的综合性能衡量指标,计算方法如下:
4.1)计算特征属性与类别属性xc=[x1c,x2c,...,x170c]'之间的相关性衡量指标REi,i=1,2,...,9,计算公式为:
RE i = | 1 N - 1 Σ k = 1 N [ c k 2 ( x ~ k i - x ‾ i ) ( x k c - x ‾ c ) ] 1 N - 1 Σ k = 1 N [ c k ( x ~ k i - x ‾ i ) ] 2 * 1 N - 1 Σ k = 1 N [ c k ( x k c - x ‾ c ) ] 2 |
其中为特征属性的平均值,即: 为类别属性xc=[x1c,x2c,...,x170c]'的平均值,即:ck为由步骤3计算得到的第k个样本的权重系数,本例中所有多数类样本的权重系数统一为ck=1.08,所有少数类样本的权重系数统一为ck=13.08。
4.2)计算特征属性与其他特征属性之间的相关性衡量指标RIi,i=1,2,...,9,计算公式为:
RI i = 1 m - 1 Σ j = 1 , j ≠ i m | 1 N - 1 Σ k = 1 N [ c k 2 ( x ~ k i - x ‾ i ) ( x ~ k j - x ‾ j ) ] 1 N - 1 Σ k = 1 N [ c k ( x ~ k i - x ‾ i ) ] 2 * 1 N - 1 Σ k = 1 N [ c k ( x ~ k j - x ‾ j ) ] 2 |
其中分别为特征属性和其他特征属性的均值,即:ck为由步骤3计算得到的第k个样本的权重系数,本例中所有多数类样本的权重系数统一为ck=1.08,所有少数类样本的权重系数统一为ck=13.08。
4.3)根据REi,i=1,2,...,9与RIi,i=1,2,...,9计算得到各特征的综合性能衡量指标Ri,i=1,2,...,9,计算公式为:
R i = RE i RI i
计算得到各个特征的综合性能衡量指标分别为R1=0.0157,R2=0.4408,R3=0.7645,R4=0.4824,R5=0.0223,R6=0.2407,R7=0.0992,R8=0.0025,R9=0.2928。
步骤5,根据步骤4中得到的各特征的综合性能衡量指标Ri,i=1,2,...,9确定各特征的权重ωi,i=1,2,...,9,使用的公式为
由此确定出各个特征的权重系数分别为:ω1=0.0067,ω2=0.1867,ω3=0.3238,ω4=0.2043,ω5=0.0094,ω6=0.1020,ω7=0.0420,ω8=0.0011,ω9=0.1240。
计算得到各个特征的权重系数后,即可根据特征加权K近邻算法判断待分类样本所属的类别,具体步骤如下:
步骤1,对于待分类样本Y=(y1,y2,...,y9),按如下的特征加权欧氏距离计算公式计算其与各训练样本间的距离d(Xi,Y),i=1,2,...,170,找到距待分类样本最近的K个训练样本,即K近邻:
d ( X i , Y ) = Σ l = 1 m ω l ( x ~ i l - y l ) 2
其中ωl,l=1,2,...,9为根据本发明计算得到的特征权重系数。
步骤2,将待分类样本Y=(y1,y2,...,y9)归于K近邻中居多数的一类中。
评价方法及评价指标:
为了综合评价本发明算法的性能,以王晓晔、王正鸥提出的基于神经网络的特征权重确定方法(篇名:k-最近邻分类技术的改进算法,发表刊物:电子与信息学报)、陈振洲、李磊和姚正安提出的基于支持向量机的特征权重确定方法(篇名:基于SVM的特征加权KNN算法,发表刊物:中山大学学报)作为对比算法,比较本发明算法以及上述两种算法在同一数据集上的性能以及特征权重计算耗时,计算环境为:Matlab R2011b,Inter(R)Core(TM)i5-2500K CPU 3.3GHz,Windows7。
本例中以对应特征加权K近邻算法在测试样本上的分类性能作为各种特征权重确定方法的性能评价方法。同时,为了消除随机抽取训练样本带来的偶然性因素影响,采用五折交叉验证法(5-fold cross validation),将数据集随机分为5份,每次取其中1份作为测试数据,其余4份作为训练数据,取5次测试结果的平均值来评价算法的性能。由于glass4数据集为不平衡数据集,采用了几何平均正确率Gmeans、F1测度作为特征加权K近邻分类器的评价指标,其计算公式如下:
Precision=TP/(FP+TP)
Sensitivity=TP/(TP+FN)
Specificity=TN/(FP+TN)
G m e a n s = S e n s i t i v i t y * S p e c i f i c i t y
F 1 = 2 * S e n s i t i v i t y * Pr e c i s i o n S e n s i t i v i t y + Pr e c i s i o n
其中:
TP——少数类样本被正确分类的个数;
TN——多数类样本被正确分类的个数;
FP——将多数类样本错分为少数类的数量;
FN——将少数类样本错分为多数类的数量。
几何平均正确率Gmeans综合考虑了分类器对多数类和少数类的分类正确率,F1测度能够全面合理的衡量分类器对少数类的识别效果,是两种常用的不均衡分布数据分类问题的性能评价指标,指标值越大,表明分类器在不平衡分布数据上的分类性能越好。
结果分析:
在glass4数据集上本发明算法的各分类性能评价指标为:Gmeans=0.9010,F1=0.8159,特征权重计算耗时:0.031726s;神经网络特征权重确定方法的各分类性能评价指标为:Gmeans=0.8419,F1=0.7667,计算耗时:78.540983s;支持向量机特征权重确定算法的各分类性能评价指标为:Gmeans=0.8566,F1=0.7163,计算耗时:0.502037s。可以看出,三种算法中,本发明算法的表现最佳:从分类效果来看,本发明算法得到的Gmeans相比其他两种算法分别提高了7.02%、5.18%,F1提高了6.42%、13.90%,说明本发明算法获得的特征权重更为合理,进而提高了KNN算法的分类性能;从计算效率来看,本发明算法计算耗时与其他两种算法计算耗时之间的比例分别为:1:2475.6、1:15.8,说明本发明算法的计算效率远高于其他两种算法。
实施例2:KEEL标准测试数据yeast05679vs4。
该数据集为二分类问题,包含528个样本,其中多数类样本477个,少数类样本51个,样本描述特征共8个,特征类型均为数值型。计算前随机抽取数据集中80%的样本作为训练样本,其余20%样本作为测试样本,则训练样本423个,其中多数类样本382个,少数类样本41个;测试样本105个,其中多数类样本95个,少数类样本10个。同样,该数据集呈现典型的分布不平衡现象。
实施步骤如下:
步骤1,调入训练样本集合X={X1,X2,...,XN}。本例中共423个训练样本,故N=423;样本描述特征8个,则m=8;所有样本分属两类,即n=2。另外,该数据集中的所有特征均为数值型,无需进行转化处理。
本例中训练样本集合X为423×9的矩阵,其中行向量对应于样本向量,记为Xk=(xk1,xk2,...,xk8,xkc),k=1,2,...,423,前8列向量对应于特征向量,记为xi=[x1i,x2i,...,x423i]',i=1,2,...,8,最后一列为类别属性向量,记为xc=[x1c,x2c,...,x423c]'。
步骤2,对训练样本的各个特征根据如下所示的公式进行归一化处理,将各特征值限定在[0,1]内:
x ~ k i = x k i - x i m i n x i max - x i m i n
其中:为归一化后的特征值,xki为原始特征值,ximax,ximin分别表示归一化前所有训练样本的第i个特征的最大值与最小值,即ximax=max{xki,k=1,2,...,423},ximin=min{xki,k=1,2,...,423}。经过归一化处理后训练样本Xk表示为
步骤3,对于经步骤2归一化处理后的训练样本根据公式确定各个训练样本的权重系数ck,k=1,2,...,423,其中Nkc为训练样本Xk所属类别的样本容量。本例中,多数类的样本容量N-=382,N=423,因此所有多数类样本的权重系数统一为ck=1.11;少数类的样本容量N+=41,则所有少数类样本的权重系数统一为ck=10.32。
步骤4,计算各个特征的综合性能衡量指标,计算方法如下:
4.1)计算特征属性与类别属性xc=[x1c,x2c,...,x423c]'之间的相关性衡量指标REi,i=1,2,...,8,计算公式为:
RE i = | 1 N - 1 Σ k = 1 N [ c k 2 ( x ~ k i - x ‾ i ) ( x k c - x ‾ c ) ] 1 N - 1 Σ k = 1 N [ c k ( x ~ k i - x ‾ i ) ] 2 * 1 N - 1 Σ k = 1 N [ c k ( x k c - x ‾ c ) ] 2 |
其中为特征属性的平均值,即: 为类别属性xc=[x1c,x2c,...,x423c]'的平均值,即:ck为由步骤3计算得到的第k个样本的权重系数,本例中所有多数类样本的权重系数统一为ck=1.11,所有少数类样本的权重系数统一为ck=10.32。
4.2)计算特征属性与其他特征属性之间的相关性衡量指标RIi,i=1,2,...,8,计算公式为:
RI i = 1 m - 1 Σ j = 1 , j ≠ i m | 1 N - 1 Σ k = 1 N [ c k 2 ( x ~ k i - x ‾ i ) ( x ~ k j - x ‾ j ) ] 1 N - 1 Σ k = 1 N [ c k ( x ~ k i - x ‾ i ) ] 2 * 1 N - 1 Σ k = 1 N [ c k ( x ~ k j - x ‾ j ) ] 2 |
其中分别为特征属性和其他特征属性的均值,即:ck为由步骤3计算得到的第k个样本的权重系数,本例中所有多数类样本的权重系数统一为ck=1.11,所有少数类样本的权重系数统一为ck=10.32。
4.3)根据REi,i=1,2,...,8与RIi,i=1,2,...,8计算得到各特征的综合性能衡量指标Ri,i=1,2,...,8,计算公式为:
R i = RE i RI i
计算得到各个特征的综合性能衡量指标分别为R1=0.5011,R2=0.1802,R3=0.1692,R4=0.0292,R5=0.0042,R6=0.0623,R7=0.0440,R8=0.0551。
步骤5,根据步骤4中得到的各特征的综合性能衡量指标Ri,i=1,2,...,8确定各特征的权重ωi,i=1,2,...,8,使用的公式为
由此确定出各个特征的权重系数分别为:ω1=0.4794,ω2=0.1724,ω3=0.1619,ω4=0.0279,ω5=0.0040,ω6=0.0596,ω7=0.0421,ω8=0.0527。
计算得到各个特征的权重系数后,即可根据特征加权K近邻算法判断待分类样本所属的类别,具体步骤如下:
步骤1,对于待分类样本Y=(y1,y2,...,y8),按如下的特征加权欧氏距离计算公式计算其与各训练样本间的距离d(Xi,Y),i=1,2,...,423,找到距待分类样本最近的K个训练样本,即K近邻:
d ( X i , Y ) = Σ l = 1 m ω l ( x ~ i l - y l ) 2
其中ωl,l=1,2,...,8为根据本发明计算得到的特征权重系数。
步骤2,将待分类样本Y=(y1,y2,...,y8)归于K近邻中居多数的一类中。
评价方法及评价指标:
本例采用与实施例1相同的评价方法和评价指标。
结果分析:
在yeast05679vs4数据集上本发明算法的分类性能评价指标为:Gmeans=0.8211,F1=0.7132,特征权重计算耗时:0.010844s;神经网络特征权重确定方法的分类性能评价指标为:Gmeans=0.7438,F1=0.6205,计算耗时:88.576485s;支持向量机特征权重确定算法的分类性能评价指标为:Gmeans=0.7608,F1=0.6528,计算耗时:0.865709s。可以看出,三种算法中,本发明算法的表现最佳:从分类效果来看,本发明算法得到的Gmeans相较其他两种算法分别提高了10.41%、7.93%,F1提高了14.94%、9.25%,说明本发明算法获得的特征权重更为合理,进而提高了KNN算法的分类性能;从计算效率来看,本发明算法计算耗时与其他两种算法计算耗时之间的比例分别为:1:8168.2、1:79.8,说明本发明算法的计算效率远高于其他两种算法。
综上,本发明公开的面向K近邻算法的一种适用于不平衡分布数据的特征权重确定方法,通过复合相关性指标来综合衡量某特征与类别属性以及与其他特征的关联程度,以此为依据来确定各个特征的权重,降低了不相关特征以及冗余特征的影响。另外,面对不平衡分布数据,在计算相关性指标时,对不同类别的样本进行加权处理,克服了现有技术结算结果向多数类倾斜的缺点,提高了对少数类样本的识别精度。与现有技术相比,本发明算法可以在更短的时间内获取更为合理的特征权重,显著提高了KNN算法对不平衡分布数据的处理能力,对作为关注重点的少数类样本表现出良好的识别能力。

Claims (5)

1.一种面向K近邻算法用于不平衡分布数据的特征权重确定方法,其特征在于,包括以下步骤:
步骤1,调入训练样本集合X={X1,X2,...,XN},各个训练样本Xk,k=1,2,...,N均用m个特征属性和1个类别属性进行描述,即Xk=(xk1,xk2,...,xkm,xkc),k=1,2,...,N,其中xki,i=1,...,m为样本Xk的特征属性;xkc为样本Xk的类别属性,该属性定义了样本Xk的归属类别,共n类,若样本的描述特征中包含标称型、二元型或序数型特征时,需将其转化为数值型特征;
步骤2,对训练样本Xk,k=1,2,...,N的各个特征属性值进行归一化处理,得到归一化后的特征值归一化公式为:其中为归一化后的特征值,xki为原始特征值,ximax,ximin分别表示归一化前所有训练样本的第i个特征的最大值与最小值,即ximax=max{xki,k=1,2,...,N},ximin=min{xki,k=1,2,...,N};经过归一化处理后训练样本Xk表示为
步骤3,对于经步骤2归一化处理后的训练样本根据公式确定样本的权重系数ck,k=1,2,...,N,其中Nkc为训练样本Xk所属类别的样本容量;
步骤4,计算经步骤2归一化处理后的特征属性与类别属性xc=[x1c,x2c,...,xNc]'之间的相关性衡量指标REi,i=1,2,...,m以及与其他特征属性之间的相关性衡量指标RIi,i=1,2,...,m,并根据REi,i=1,2,...,m与RIi,i=1,2,...,m计算各特征的综合性能衡量指标Ri,i=1,2,...,m;
步骤5,根据步骤4中得到的各特征的综合性能衡量指标Ri,i=1,2,...,m确定特征权重ωi,i=1,2,...,m,使用的公式为
2.根据权利要求1所述的面向K近邻算法用于不平衡分布数据的特征权重确定方法,其特征在于,所述步骤1中标称型、二元型或序数型特征向数值型特征转化的方法如下:
对于标称型特征,采用数值0表示该特征的第一种取值,数值1表示第二种取值,以此类推,直至该特征的所有可能取值均用离散型数值对应表示;
对于二元型特征,采用数值0表示该特征的第一种取值,数值1表示第二种取值;
对于序数型特征,采用数值0表示该特征的第一种取值,数值1表示第二种取值,以此类推,直至该特征的所有可能取值均用离散型数值对应表示。
3.根据权利要求1所述的面向K近邻算法用于不平衡分布数据的特征权重确定方法,其特征在于,所述步骤4中特征与类别属性xc=[x1c,x2c,...,xNc]'间的相关性衡量指标REi的计算公式为:其中为特征属性的平均值,即: 为类别属性xc=[x1c,x2c,...,xNc]'的平均值,即:ck为由步骤3计算得到的第k个样本的权重系数。
4.根据权利要求1所述的面向K近邻算法用于不平衡分布数据的特征权重确定方法,其特征在于,所述步骤4中特征属性与其他特征属性之间的相关性衡量指标RIi的计算公式为:
其中分别为特征属性和特征属性的均值,即:ck为由步骤3计算得到的第k个样本的权重系数。
5.根据权利要求1所述的面向K近邻算法用于不平衡分布数据的特征权重确定方法,其特征在于,所述步骤4中各特征的综合性能衡量指标Ri,i=1,2,...,m的计算公式为:
CN201610578874.4A 2016-07-21 2016-07-21 面向k近邻算法用于不平衡分布数据的特征权重确定方法 Pending CN106203530A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201610578874.4A CN106203530A (zh) 2016-07-21 2016-07-21 面向k近邻算法用于不平衡分布数据的特征权重确定方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201610578874.4A CN106203530A (zh) 2016-07-21 2016-07-21 面向k近邻算法用于不平衡分布数据的特征权重确定方法

Publications (1)

Publication Number Publication Date
CN106203530A true CN106203530A (zh) 2016-12-07

Family

ID=57492080

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201610578874.4A Pending CN106203530A (zh) 2016-07-21 2016-07-21 面向k近邻算法用于不平衡分布数据的特征权重确定方法

Country Status (1)

Country Link
CN (1) CN106203530A (zh)

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107392259A (zh) * 2017-08-16 2017-11-24 北京京东尚科信息技术有限公司 构建不均衡样本分类模型的方法和装置
CN108256538A (zh) * 2016-12-28 2018-07-06 北京酷我科技有限公司 一种用户资料预测方法和系统
CN110059762A (zh) * 2019-04-26 2019-07-26 迪爱斯信息技术股份有限公司 消防车辆调派方案的筛选方法及系统、终端设备
CN110278189A (zh) * 2019-05-17 2019-09-24 杭州电子科技大学 一种基于网络流量特征权重图谱的入侵检测方法
CN111400495A (zh) * 2020-03-17 2020-07-10 重庆邮电大学 一种基于模板特征的视频弹幕消费意图识别方法
CN111798981A (zh) * 2020-07-10 2020-10-20 吾征智能技术(北京)有限公司 一种基于饮食习惯预测痛风的模型构建方法和系统
CN113837238A (zh) * 2021-09-02 2021-12-24 南京大学 一种基于自监督和自蒸馏的长尾图像识别方法
CN115396212A (zh) * 2022-08-26 2022-11-25 国科华盾(北京)科技有限公司 检测模型的训练方法、装置、计算机设备和存储介质

Cited By (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108256538A (zh) * 2016-12-28 2018-07-06 北京酷我科技有限公司 一种用户资料预测方法和系统
CN107392259A (zh) * 2017-08-16 2017-11-24 北京京东尚科信息技术有限公司 构建不均衡样本分类模型的方法和装置
CN107392259B (zh) * 2017-08-16 2021-12-07 北京京东尚科信息技术有限公司 构建不均衡样本分类模型的方法和装置
CN110059762A (zh) * 2019-04-26 2019-07-26 迪爱斯信息技术股份有限公司 消防车辆调派方案的筛选方法及系统、终端设备
CN110278189A (zh) * 2019-05-17 2019-09-24 杭州电子科技大学 一种基于网络流量特征权重图谱的入侵检测方法
CN110278189B (zh) * 2019-05-17 2021-12-10 杭州电子科技大学 一种基于网络流量特征权重图谱的入侵检测方法
CN111400495A (zh) * 2020-03-17 2020-07-10 重庆邮电大学 一种基于模板特征的视频弹幕消费意图识别方法
CN111798981A (zh) * 2020-07-10 2020-10-20 吾征智能技术(北京)有限公司 一种基于饮食习惯预测痛风的模型构建方法和系统
CN113837238A (zh) * 2021-09-02 2021-12-24 南京大学 一种基于自监督和自蒸馏的长尾图像识别方法
CN113837238B (zh) * 2021-09-02 2023-09-01 南京大学 一种基于自监督和自蒸馏的长尾图像识别方法
CN115396212A (zh) * 2022-08-26 2022-11-25 国科华盾(北京)科技有限公司 检测模型的训练方法、装置、计算机设备和存储介质

Similar Documents

Publication Publication Date Title
CN106203530A (zh) 面向k近邻算法用于不平衡分布数据的特征权重确定方法
CN101517602A (zh) 使用基于分类器集成的遗传算法进行特征选择的方法
CN105224872A (zh) 一种基于神经网络聚类的用户异常行为检测方法
CN109117380A (zh) 一种软件质量评价方法、装置、设备及可读存储介质
CN104504583B (zh) 分类器的评价方法
CN108416364A (zh) 分包融合集成学习数据分类方法
CN110110754B (zh) 基于代价局部泛化误差的不平衡问题的分类方法
Bharill et al. Enhanced cluster validity index for the evaluation of optimal number of clusters for Fuzzy C-Means algorithm
Gajowniczek et al. ESTIMATING THE ROC CURVE AND ITS SIGNIFICANCE FOR CLASSIFICATION MODELS’ASSESSMENT
Sun et al. AVC: Selecting discriminative features on basis of AUC by maximizing variable complementarity
CN105205807B (zh) 基于稀疏自动编码机的遥感图像变化检测方法
Godbin et al. Screening of COVID-19 based on GLCM features from CT images using machine learning classifiers
CN108491719A (zh) 一种改进朴素贝叶斯算法的安卓恶意程序检测方法
Waegeman et al. On the scalability of ordered multi-class ROC analysis
CN117315379B (zh) 面向深度学习的医学影像分类模型公平性评估方法及装置
CN109376238A (zh) 一种基于参考文献列表重叠度的论文相关度量化方法
CN109344848A (zh) 基于Adaboost的移动智能终端安全等级分类方法
Anklesaria et al. Breast cancer prediction using optimized machine learning classifiers and data balancing techniques
CN110991517A (zh) 一种面向脑卒中非平衡数据集的分类方法及系统
CN105824785A (zh) 基于惩罚回归的快速异常点检测方法
CN116013527A (zh) 一种基于熵的cv-mabac高血压年龄段预测方法
CN110096708A (zh) 一种定标集确定方法及装置
CN114936204A (zh) 一种特征筛选方法、装置、存储介质及电子设备
CN114529759A (zh) 一种甲状腺结节的分类方法、装置及计算机可读介质
de Oliveira Martins et al. Classification of breast masses in mammogram images using Ripley’s K function and support vector machine

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20161207