CN102750545A - 一种同时实现聚类、分类和度量学习的模式识别方法 - Google Patents

一种同时实现聚类、分类和度量学习的模式识别方法 Download PDF

Info

Publication number
CN102750545A
CN102750545A CN2012101787602A CN201210178760A CN102750545A CN 102750545 A CN102750545 A CN 102750545A CN 2012101787602 A CN2012101787602 A CN 2012101787602A CN 201210178760 A CN201210178760 A CN 201210178760A CN 102750545 A CN102750545 A CN 102750545A
Authority
CN
China
Prior art keywords
cluster
classification
omega
learning
sigma
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN2012101787602A
Other languages
English (en)
Inventor
蔡维玲
杨明
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nanjing Normal University
Original Assignee
Nanjing Normal University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nanjing Normal University filed Critical Nanjing Normal University
Priority to CN2012101787602A priority Critical patent/CN102750545A/zh
Publication of CN102750545A publication Critical patent/CN102750545A/zh
Pending legal-status Critical Current

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Image Analysis (AREA)

Abstract

本发明涉及一种能同时实现聚类、分类和度量学习的模式识别方法。该方法利用贝叶斯理论构造聚类和类别之间的概率关系矩阵P,并通过该矩阵使最终的聚类和分类结果都只依赖于聚类中心,因此,通过优化嵌在目标函数中的聚类中心,就可以在一个框架下同时实现聚类学习和分类学习。由于矩阵P可反映出聚类和分类之间的统计关系,因此可从P中挖掘出有意义的信息,使得分类器的设计趋于透明。本发明从聚类的观点看,提供了有监督聚类学习的结果,能够可靠地揭示数据的潜在结构;从分类的观点看,构造了有效的分类学习机制,可获得较好的分类结果;从度量学习的观点看,提供了有效的特征权值,可反映特征的重要程度。

Description

一种同时实现聚类、分类和度量学习的模式识别方法
技术领域
本发明属于模式识别领域,特别涉及同时实现聚类、分类和度量学习的模式识别方法。
背景技术
模式识别旨在对表征事物或现象的样本数据进行处理和分析,以达到两个目的:揭示和解释样本的内在结构和判断样本的类别归属。根据这两个不同的目的,传统的模式识别机器学习方法可大体分为两类:聚类学习和分类学习。
聚类学习利用样本间的相似性,把具有相同特性的样本分到同一个具有某种意义的簇中,从而对样本形成有意义的划分。该类算法可发现样本的潜在分布结构,更好地理解和分析数据,但无法决策样本的类别归属。典型的聚类算法可以分为两类:第一类根据样本的类别信息来确定每个样本点对聚类是起积极作用还是消极作用,并根据这种作用来确定最终的聚类中心;第二类设计含有类别信息的聚类目标函数,从而综合考虑聚类的紧凑性和聚类的纯度,然而,这类方法需要预先给定聚类和类别间的逻辑关系,因此在没有先验知识的情况下,只能通过猜测的方法来确定两者间的关系。这个猜测过程是一个NP完全问题,所以聚类结果的求解相当笨拙繁琐。同时,上述两类算法仅能给出聚类中心和隶属度来描述数据结构。当聚类个数等于类别个数时,可把这两个算法的聚类过程视为分类过程。但通常情况下,聚类个数往往大于类别个数,聚类结果无法直接推广为分类结果。
分类学习根据给定的样本及其类标号设计出分类判别函数,从而能对新样本的类别做出正确的预测。该类算法仅强调对样本个体的分类,但忽略了对样本空间隐藏的结构性知识的挖掘和样本间相互关系的刻画,从而导致了分类结果的可解释性和透明性变差。典型的方法包括神经网络,支持向量机等。20世纪80年代,诞生了一系列重要的神经网络模型,如Hopfield网络、多层感知器网络、径向基函数网络等。这些算法通过调整神经网络的权值来预测训练样本的类别标号,但无法解释蕴含在权值中的含义。1992年,Vapnik等人提出了基于最大间隔和核技巧的支持向量机(Support Vector Machine,SVM),其主要思想是通过极小化结构风险寻找使得正负样本间隔最大的分类超平面。但SVM没有考虑类别中包含多个子类的情况,因此SVM并不关心数据的分布。
由上述分析可知,这两类算法各有优缺点,因此设计出兼有两者优点、克服两者缺点的算法是个非常重要的研究课题。围绕此,研究人员提出了一系列算法。从设计流程上看,这些算法都是先使用聚类算法来发掘数据的结构,再利用得到的结构信息来设计分类机制。根据聚类算法实现方式的不同,可把现有算法分为两类:无监督型聚类+分类器设计;监督型聚类+分类器设计。其中径向基函数网络(Radial Basis Function Neural Network,RBFNN),鲁棒关系分类器(RobustFuzzy Relational Classifier,RFRC)和增强关系分类器属于前者;而学习矢量量化(Learning Vector Quantization 3,VQ+LVQ3),监督型聚类和分类算法都属于后者。
上述算法的共同之处是,聚类学习和分类学习以顺序或串行的方式进行,也就是,先完成聚类学习,然后利用获得的聚类信息构造分类器。这种串行的设计方式使得这些算法往往只单纯地强调分类学习,而将聚类学习仅作为分类学习的辅助工具,因而,无法在一个框架下真正地融合聚类学习和分类学习各自的好处。此外,这些方法虽然部分地揭露了聚类结构和类别之间的关系,但缺乏概率意义,无法给出准确的相关信息。
发明内容
本发明的目的是弥补现有方法的缺点,提出一种同时实现聚类、分类和度量学习的模式识别方法(A Pattern Recognition Method for SimultaneousClustering,Classification and Metric Learning,简记为SCCM),可以在同一个框架中融合聚类和分类两类方法的优势。
为实现上述目的,本发明采用的技术方案如下;
一种同时实现聚类、分类和度量学习的模式识别方法,包括如下步骤:
步骤1:对带有类标签的数据集合,建立一种可同时进行聚类学习和分类学习的模式识别机制,具体过程如下:
a)对于给定训练样本及其类标号集合{xi,yi},其中xi∈Rd且yi∈{1,2,…,L},建立如下目标函数:
J ( { v i } ) = Σ i = 1 N δ ( f ( x i ) , y i ) N + βq ( X ) - - - ( 1 )
其中f(xi)和yi分别为样本xi的输出类别和期望类别;δ是损失函数,当f(xi)=yi,值为0,否则为1;q(X)表示聚类不纯度,参数β决定聚类纯度在目标函数中的重要程度,在{0.01,0.1,1}中选取;
b)确定所述目标函数中的f(xi):
f ( x i ) = arg max 1 ≤ l ≤ L p ( ω l | x i ) - - - ( 2 )
利用全概率公式,p(ωl|xi)可由下式计算:
p ( ω l | x i ) = Σ j = 1 c p ( c j | x i ) p ( ω l | c j ) - - - ( 3 )
其中,p(cj|xi)是样本xi的聚类后验概率 p ( c j | x i ) = dist ( x i , v j ) - 1 Σ j = 1 k dist ( x i , v j ) - 1 - - - ( 4 )
其中的距离采用基于径向基核诱导出来的距离度量;
p(ωl|cj)表示聚类的类后验概率,根据贝叶斯规则:
p ( ω l | c j ) = Num ( x ∈ ω l andx ∈ c j ) Num ( x ∈ c j ) - - - ( 5 )
对于每一个聚类cj,p(ωl|cj)满足下面的约束: Σ l = 1 L p ( ω l | c j ) = 1 ;
c)将所有的聚类的类后验概率p(ωl|cj)组建成一个c×L的矩阵P,其中c为聚类个数,L为类别个数:
P = p ( ω 1 | c 1 ) p ( ω 2 | c 1 ) . . . p ( ω L | c 1 ) p ( ω 1 | c 2 ) p ( ω 2 | c 2 ) . . . p ( ω L | c 2 ) . . . . . . . . . . . . p ( ω 1 | c K ) p ( ω 2 | c K ) . . . p ( ω L | c k ) - - - ( 6 )
第i行元素[p(ω1|ci),p(ω2|ci),…,p(ωL|ci)]表示第i个聚类和所有类别间的关系并且满足
Figure BDA00001714947900037
第j列元素[p(ωj|c1),p(ωj|c2),…,p(ωj|cc)]表示第j个类别和所有聚类间的关系;
步骤2:将度量学习结合到聚类学习和分类学习中,建立一种同时实现聚类、分类和度量学习的模式识别机制,具体过程如下:
a)定义度量学习问题:
样本点x和y之间的距离如下:
d ( x , y ) = d A ( x , y ) = ( x - y ) T A ( x - y ) - - - ( 7 )
其中x∈Rd;A是待学习矩阵,并且为对角阵,A∈Rd×d
b)通过将所述待学习矩阵A引入基于径向基核的距离度量中,建立基于矩阵A的新距离度量:
d A ( x i , v j ) = 2 - 2 × exp ( - Σ p = 1 d ( w ~ p x ip - v ~ jp ) 2 σ 2 ) - - - ( 8 )
其中
Figure BDA00001714947900043
表示第p维特征的权值并且满足
Figure BDA00001714947900044
Figure BDA00001714947900045
表示线性变化后的聚类中心;
c)建立基于所述新距离度量的模式识别机制:
通过采用新距离度量dA(x,y)代替原始距离d(x,y),产生SCCM的目标函数:
J ( { w ~ p , v ~ i } ) = Σ i = 1 N δ ( f ( x i ) , y i ) N + βq ( X ) - - - ( 9 )
st : Σ p = 1 d w ~ p = 1
其中第一项是分类错误率,第二项是聚类不纯度,
Figure BDA00001714947900048
表示第p维特征的权值,表示新空间中的第j个聚类中心;
步骤3:采用粒子群方法优化SCCM学习方法中的待定参数,具体过程如下:
b)选取特征初始权值:
通过下列目标函数选取特征初始权值:
Figure BDA000017149479000410
其中Dl表示类别是l的所有样本的下标集合,采用改进的粒子群方法优化该目标函数,可得到一组初始权值
Figure BDA000017149479000411
b)以所述初始权值为基础,再通过改进的粒子群方法同时优化公式(9)的目标函数中的特征权值
Figure BDA000017149479000412
和聚类中心
Figure BDA000017149479000413
本发明方法的优点在于:(1)计算出有效的特征权值来反映特征的重要程度;(2)实现有效的聚类学习来揭示数据在变换后空间的分布;(3)设计出有效的分类策略来正确判断新样本的类别;(4)自适应地揭示出聚类和类别间潜在的概率关系。
附图说明
图1是本发明模式识别方法的流程图。
图2是本发明实施例的数据集样本分布示意图。
图3是本发明实施例中样本点的三维属性值的分布情况;
图4是本发明实施例中利用RFRC、RBFNN、VQ+LVQ3和SCCM方法的参数比较表。
图5是本发明实施例中a)RFRC方法、b)RBFNN方法、c)VQ+LVQ3方法和d)SCCM方法的聚类中心示意图。
具体实施方式
下面结合附图,进一步描述本发明的具体实施步骤:
步骤1:对带有类标签的数据集合,建立一种可同时进行聚类学习和分类学习的模式识别机制。
为了可同时实现有效的聚类和分类,该模式识别机制建立如下目标函数:第一项为用来度量分类能力的分类错误率,第二项为用来度量聚类能力的聚类不纯度。给定训练样本及其类标号集合{xi,yi},其中xi∈Rd且yi∈{1,2,…,L},目标函数如下:
J ( { v i } ) = Σ i = 1 N δ ( f ( x i ) , y i ) N + βq ( X ) - - - ( 1 )
其中f(xi)和yi分别为样本xi的输出类别和期望类别。δ是损失函数,当f(xi)=yi,值为0;否则为1。q(X)表示聚类不纯度,参数β决定聚类纯度在目标函数中的重要程度,通常在{0.01,0.1,1}中选取。式(1)中的f(xi)根据xi对每一类的后验概率来确定:
f ( x i ) = arg max 1 ≤ l ≤ L p ( ω l | x i ) - - - ( 2 )
借助全概率公式,p(ωl|xi)可由下式计算:
p ( ω l | x i ) = Σ j = 1 c p ( ω l , c j | x i )
= Σ j = 1 c p ( c j | x i ) p ( ω l | c j , x i ) - - - ( 3 )
= Σ j = 1 c p ( c j | x i ) p ( ω l | c j )
其中p(cj|xi)是样本xi的聚类后验概率,并且p(ωl|cj)表示聚类的类后验概率。p(cj|xi)进一步写为:
p ( c j | x i ) = dist ( x i , v j ) - 1 Σ j = 1 k dist ( x i , v j ) - 1 - - - ( 4 )
其中的距离采用基于径向基核(Radial Basis Function Kernel,RBF Kernel)诱导出来的距离度量。
根据贝叶斯规则,式(3)中的p(ωl|cj)可写成:
p ( ω l | c j ) = Num ( x ∈ ω l andx ∈ c j ) Num ( x ∈ c j ) - - - ( 5 )
对于每一个聚类cj,p(ωl|cj)满足下面的约束当p(ωl|cj)越大,则聚类cj中的样本属于类别l越多;反之,当p(ωl|cj)越小,则cj中的样本属于类别l的越少。将所有的p(ωl|cj)组建成一个c×L的矩阵P(其中c为聚类个数,L为类别个数):
P = p ( ω 1 | c 1 ) p ( ω 2 | c 1 ) . . . p ( ω L | c 1 ) p ( ω 1 | c 2 ) p ( ω 2 | c 2 ) . . . p ( ω L | c 2 ) . . . . . . . . . . . . p ( ω 1 | c K ) p ( ω 2 | c K ) . . . p ( ω L | c k ) - - - ( 6 )
第i行元素[p(ω1|ci),p(ω2|ci),…,p(ωL|ci)]表示第i个聚类和所有类别间的关系并且满足第j列元素[p(ωj|c1),p(ωj|c2),…,p(ωj|cc)]表示第j个类别和所有聚类间的关系。
步骤2:将度量学习结合到聚类学习和分类学习中,建立一种同时实现聚类、分类和度量学习的模式识别机制。
1、定义度量学习问题
为了描述度量学习问题,定义样本点x和y之间的距离如下:
d ( x , y ) = d A ( x , y ) = ( x - y ) T A ( x - y ) - - - ( 7 )
其中x∈Rd,A∈Rd×d。这里的A是待学习矩阵,通过上式,将度量学习问题转变成矩阵A的学习问题,本发明中A为对角阵。
2、推导基于对角矩阵A的新距离度量
通过将对角矩阵A引入基于径向基核的距离度量中,可推导出相应的基于对角矩阵A的新距离度量:
d A ( x i , v j ) = 2 - 2 × exp ( - | | x i - v j | | A 2 σ 2 ) = 2 - 2 × exp ( - ( x i - v j ) T A ( x i - v j ) σ 2 )
= 2 - 2 × exp ( - Σ p = 1 d w p ( x ip - v jp ) 2 σ 2 ) = 2 - 2 × exp ( - Σ p = 1 d ( w ~ p x ip - v ~ jp ) 2 σ 2 ) - - - ( 8 )
其中
Figure BDA00001714947900074
表示第p维特征的权值并且满足
Figure BDA00001714947900075
Figure BDA00001714947900076
表示线性变化后的聚类中心。
3、建立基于新距离度量的模式识别机制
通过采用新距离度量dA(x,y)代替原始距离d(x,y),产生SCCM的目标函数:
J ( { w ~ p , v ~ i } ) = Σ i = 1 N δ ( f ( x i ) , y i ) N + βq ( X ) - - - ( 9 )
st : Σ p = 1 d w ~ p = 1
其中第一项是分类错误率,第二项是聚类不纯度,
Figure BDA00001714947900079
表示第p维特征的权值,
Figure BDA000017149479000710
表示新空间中的第j个聚类中心。
步骤3:采用粒子群方法优化SCCM学习算法中的待定参数。
SCCM需同时优化聚类中心和特征权值,具体优化过程分为两步:(1)为了缩小权值的搜索范围,给出权值的初始值;(2)以初始权值为基础,再同时优化SCCM目标函数(9)中的聚类中心和特征权值。
1、选取特征初始权值。
通过定义下列目标函数选取特征初始权值:
Figure BDA00001714947900081
其中Dl表示类别是l的所有样本的下标集合。式(10)的分子表示在变化后的空间同类样本间的距离之和,分母表示异类样本间的距离之和。式(10)的值越小,则样本点在变换后的空间的类内紧凑性越小,类间散布性越大。采用改进的粒子群(Modified Particle Swarm Optimizer,PSOm)方法优化该目标函数,可得到一组初始权值 w ~ 0 = [ w ~ 1 0 , w ~ 2 0 , · · · , w ~ d 0 ] .
2、通过使用PSOm方法同时优化目标函数(9)中的
Figure BDA00001714947900083
Figure BDA00001714947900084
每一个粒子可以表示为xi=[xi1,xi2,…xid,…,xiD,xiD+1,…,xiD+d-1],其中[xi1,xi2,…xid,…,xiD]表示c个聚类中心构成的向量,维数D=d×c;[xiD+1,…,xiD+ d-1]分别是前d-1维特征权值
Figure BDA00001714947900085
的平方根。每一个粒子的初始值按如下方法选取:从样本集合中随机选出c个样本,做为粒子的前D维的值;对初始权值
Figure BDA00001714947900086
进行随机扰动和单位化,选取扰动后的前d-1维特征权值的平方根做为粒子第D+1到D+d-1维的值,特征权值的第d维通过求出。每一个粒子都有经历过的最好位置pi=[pi1,pi2,…,pid,…,piD]。群体中最好的粒子用下标g表示。每一个粒子根据粒子本身的经验和整个群体的经验来更新速度
velid(t+1)=w(t)×velid(t)+w1×r1×(pid(t)-xid(t))+w2×r2×(pgd(t)-xid(t))(11)
其中t是当前迭代次数,w1和w2为加速因子,r1和r2为[0,1]之间的随机值。在式(11)中,第一项表示粒子的惯性速度,第二项表示粒子根据自身的经验得到的速度,第三项表示粒子根据种群的协作得到的速度。为了获得好的优化结果,式(11)中的惯性因子w定义为关于迭代轮数t的线性递减函数w(t)=1.4-0.4×t/I,其中I表示最大迭代次数。随着t的增加,w从1.4降至1,因此,PSOm在迭代的初始阶段拥有较强的全局搜索能力,在迭代的后期拥有较强的局部搜索能力。粒子位置的迭代函数为xid(t+1)=xid(t)+velid(t+1)。
为了防止
Figure BDA00001714947900091
为负值,在迭代过程,若粒子对应的
Figure BDA00001714947900092
则对粒子的目标函数施加很大的惩罚,即在式(9)得到的值上再加上很大的正数Q;若
Figure BDA00001714947900093
按照式(9)直接计算目标函数值。具体的SCCM算法迭代过程如图1所示。
本发明设定在以下实验运行条件:
1、数据集中每一维特征通过最大最小规范化方法归一化到区间[0,1];
2、SCCM中的聚类个数c在[cmin,cmax]范围内确定,其中cmin为类别的个数,cmax(N为样本个数)。
以上述条件为基础,本发明提出的同时实现聚类、分类和度量学习的模式识别方法已经在科学计算平台Matlab中实现,并通过Matlab中的实验结果证明了该方法的有效性。
考虑在图2所示的数据集上进行实验分析,该数据集包含两类样本‘O’和‘+’,每个样本点由三维特征构成,由图3可知该数据集的判别信息主要集中在第三维特征上。附图4和5给出了在该数据集上,本发明的实验结果与RFRC、RBFNN和VQ+LVQ3方法的实验结果对比。由图4和图5可知:RFRC,RBFNN和VQ+LVQ3方法无法反映出不同特征的重要程度,而SCCM所获得的特征权值[0.13  0.120.74]能正确反映出第三维特征比第一、二维特征重要的多,恰好体现了数据集的基本特点;RFRC方法中的关系矩阵缺乏统计意义,无法反映出聚类和分类间关系的可靠程度,RBFNN方法中的关系矩阵通过最小化平法误差获得,无法反映出聚类和分类间的逻辑关系,VQ+LVQ3方法中的关系是非0即1的硬权值,无法描述聚类和分类间关系的不确定性,而SCCM方法中的关系矩阵具有统计含义,较好得刻画了聚类和分类间的关系;RFRC、RBFNN和VQ+LVQ3方法仅获得了59.17%、8.33%和91.17%的识别率,说明其分类性能较差,而SCCM方法获得了高达100%的识别率,说明其分类机制非常有效。
由附图4和5所示的实验结果可以看出,本发明提出的模式识别方法可同时实现以下功能:(1)揭示特征的重要程度;(2)刻画数据在变换后空间的结构分布;(3)判断新样本的类别归属;(4)计算聚类和类别间潜在的概率关系。
本发明申请书中未作详细描述的内容属于本领域专业技术人员公知的现有技术。

Claims (1)

1.一种同时实现聚类、分类和度量学习的模式识别方法,包括如下步骤:
步骤1:对带有类标签的数据集合,建立一种可同时进行聚类学习和分类学习的模式识别机制,具体过程如下:
a)对于给定训练样本及其类标号集合{xi,yi},其中xi∈Rd且yi∈{1,2,…,L},建立如下目标函数:
J ( { v i } ) = Σ i = 1 N δ ( f ( x i ) , y i ) N + βq ( X ) - - - ( 1 )
其中f(xi)和yi分别为样本xi的输出类别和期望类别;δ是损失函数,当f(xi)=yi,值为0,否则为1;q(X)表示聚类不纯度,参数β决定聚类纯度在目标函数中的重要程度,在{0.01,0.1,1}中选取;
b)确定所述目标函数中的f(xi):
f ( x i ) = arg max 1 ≤ l ≤ L p ( ω l | x i ) - - - ( 2 )
利用全概率公式,p(ωl|xi)可由下式计算:
p ( ω l | x i ) = Σ j = 1 c p ( c j | x i ) p ( ω l | c j ) - - - ( 3 )
其中,p(cj|xi)是样本xi的聚类后验概率 p ( c j | x i ) = dist ( x i , v j ) - 1 Σ j = 1 k dist ( x i , v j ) - 1 - - - ( 4 )
其中的距离采用基于径向基核诱导出来的距离度量;
p(ωl|cj)表示聚类的类后验概率,根据贝叶斯规则:
p ( ω l | c j ) = Num ( x ∈ ω l andx ∈ c j ) Num ( x ∈ c j ) - - - ( 5 )
对于每一个聚类cj,p(ωl|cj)满足下面的约束: Σ l = 1 L p ( ω l | c j ) = 1 ;
c)将所有的聚类的类后验概率p(ωl|cj)组建成一个c×L的矩阵P,其中c为聚类个数,L为类别个数:
P = p ( ω 1 | c 1 ) p ( ω 2 | c 1 ) . . . p ( ω L | c 1 ) p ( ω 1 | c 2 ) p ( ω 2 | c 2 ) . . . p ( ω L | c 2 ) . . . . . . . . . . . . p ( ω 1 | c K ) p ( ω 2 | c K ) . . . p ( ω L | c k ) - - - ( 6 )
第i行元素[p(ω1|ci),p(ω2|ci),…,p(ωL|ci)]表示第i个聚类和所有类别间的关系并且满足
Figure FDA00001714947800022
第j列元素[p(ωj|c1),p(ωj|c2),…,p(ωj|cc)]表示第j个类别和所有聚类间的关系;
步骤2:将度量学习结合到聚类学习和分类学习中,建立一种同时实现聚类、分类和度量学习的模式识别机制,具体过程如下:
a)定义度量学习问题:
样本点x和y之间的距离如下:
d ( x , y ) = d A ( x , y ) = ( x - y ) T A ( x - y ) - - - ( 7 )
其中x∈Rd;A是待学习矩阵,并且为对角阵,A∈Rd×d
b)通过将所述待学习矩阵A引入基于径向基核的距离度量中,建立基于矩阵A的新距离度量:
d A ( x i , v j ) = 2 - 2 × exp ( - Σ p = 1 d ( w ~ p x ip - v ~ jp ) 2 σ 2 ) - - - ( 8 )
其中
Figure FDA00001714947800025
表示第p维特征的权值并且满足
Figure FDA00001714947800026
Figure FDA00001714947800027
表示线性变化后的聚类中心;
c)建立基于所述新距离度量的模式识别机制:
通过采用新距离度量dA(x,y)代替原始距离d(x,y),产生SCCM的目标函数:
J ( { w ~ p , v ~ i } ) = Σ i = 1 N δ ( f ( x i ) , y i ) N + βq ( X ) - - - ( 9 )
st : Σ p = 1 d w ~ p = 1
其中第一项是分类错误率,第二项是聚类不纯度,
Figure FDA000017149478000210
表示第p维特征的权值,
Figure FDA000017149478000211
表示新空间中的第j个聚类中心;
步骤3:采用粒子群方法优化SCCM学习方法中的待定参数,具体过程如下:
a)选取特征初始权值:
通过下列目标函数选取特征初始权值:
Figure FDA00001714947800031
其中Dl表示类别是l的所有样本的下标集合,采用改进的粒子群方法优化该目标函数,可得到一组初始权值
Figure FDA00001714947800032
b)以所述初始权值为基础,再通过改进的粒子群方法同时优化公式(9)的目标函数中的特征权值
Figure FDA00001714947800033
和聚类中心
Figure FDA00001714947800034
CN2012101787602A 2012-06-01 2012-06-01 一种同时实现聚类、分类和度量学习的模式识别方法 Pending CN102750545A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN2012101787602A CN102750545A (zh) 2012-06-01 2012-06-01 一种同时实现聚类、分类和度量学习的模式识别方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN2012101787602A CN102750545A (zh) 2012-06-01 2012-06-01 一种同时实现聚类、分类和度量学习的模式识别方法

Publications (1)

Publication Number Publication Date
CN102750545A true CN102750545A (zh) 2012-10-24

Family

ID=47030710

Family Applications (1)

Application Number Title Priority Date Filing Date
CN2012101787602A Pending CN102750545A (zh) 2012-06-01 2012-06-01 一种同时实现聚类、分类和度量学习的模式识别方法

Country Status (1)

Country Link
CN (1) CN102750545A (zh)

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103971136A (zh) * 2014-05-04 2014-08-06 南京师范大学 一种面向大规模数据的并行结构化支持向量机分类方法
CN106202329A (zh) * 2016-07-01 2016-12-07 北京市商汤科技开发有限公司 样本数据处理、数据识别方法和装置、计算机设备
CN106803063A (zh) * 2016-12-21 2017-06-06 华中科技大学 一种行人重识别的度量学习方法
CN110691100A (zh) * 2019-10-28 2020-01-14 中国科学技术大学 基于深度学习的分层网络攻击识别与未知攻击检测方法
CN110784381A (zh) * 2019-11-05 2020-02-11 安徽师范大学 一种基于粒子计算的流量分类方法
CN110895597A (zh) * 2018-09-12 2020-03-20 长鑫存储技术有限公司 转码逻辑函数计算方法、装置、存储介质及电子设备
US10755198B2 (en) 2016-12-29 2020-08-25 Intel Corporation Data class analysis method and apparatus

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101034439A (zh) * 2007-04-20 2007-09-12 大连理工大学 一种范例推理与Fuzzy ARTMAP网络相结合的遥感影像分类方法
CN101118593A (zh) * 2007-09-04 2008-02-06 西安电子科技大学 基于swbct的纹理图像分类方法

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101034439A (zh) * 2007-04-20 2007-09-12 大连理工大学 一种范例推理与Fuzzy ARTMAP网络相结合的遥感影像分类方法
CN101118593A (zh) * 2007-09-04 2008-02-06 西安电子科技大学 基于swbct的纹理图像分类方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
蔡维玲: "基于聚类的图像分割和分类器设计的研究", 《中国博士学位论文全文数据库信息科技辑》 *

Cited By (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103971136A (zh) * 2014-05-04 2014-08-06 南京师范大学 一种面向大规模数据的并行结构化支持向量机分类方法
CN106202329A (zh) * 2016-07-01 2016-12-07 北京市商汤科技开发有限公司 样本数据处理、数据识别方法和装置、计算机设备
CN106803063A (zh) * 2016-12-21 2017-06-06 华中科技大学 一种行人重识别的度量学习方法
CN106803063B (zh) * 2016-12-21 2019-06-28 华中科技大学 一种行人重识别的度量学习方法
US10755198B2 (en) 2016-12-29 2020-08-25 Intel Corporation Data class analysis method and apparatus
US11449803B2 (en) 2016-12-29 2022-09-20 Intel Corporation Data class analysis method and apparatus
CN110895597A (zh) * 2018-09-12 2020-03-20 长鑫存储技术有限公司 转码逻辑函数计算方法、装置、存储介质及电子设备
CN110895597B (zh) * 2018-09-12 2022-04-19 长鑫存储技术有限公司 转码逻辑函数计算方法、装置、存储介质及电子设备
CN110691100A (zh) * 2019-10-28 2020-01-14 中国科学技术大学 基于深度学习的分层网络攻击识别与未知攻击检测方法
CN110784381A (zh) * 2019-11-05 2020-02-11 安徽师范大学 一种基于粒子计算的流量分类方法
CN110784381B (zh) * 2019-11-05 2021-04-13 安徽师范大学 一种基于粒子计算的流量分类方法

Similar Documents

Publication Publication Date Title
Zhu et al. Application of machine learning techniques for predicting the consequences of construction accidents in China
CN102750545A (zh) 一种同时实现聚类、分类和度量学习的模式识别方法
US20230136352A1 (en) Method and system for predicting a day-ahead wind power of wind farms
Xu et al. An improved random forest classifier for image classification
Alzghoul et al. Increasing availability of industrial systems through data stream mining
CN110009030B (zh) 基于stacking元学习策略的污水处理故障诊断方法
CN105930862A (zh) 一种基于密度自适应距离的密度峰聚类算法
CN110363230B (zh) 基于加权基分类器的stacking集成污水处理故障诊断方法
CN106202952A (zh) 一种基于机器学习的帕金森疾病诊断方法
CN104751182A (zh) 基于ddag的svm多类分类主动学习算法
CN104991974A (zh) 一种基于粒子群算法的多标签分类方法
CN102831474A (zh) 基于量子粒子群优化改进的模糊c-均值聚类方法
CN102185735A (zh) 一种网络安全态势预测方法
CN104794482A (zh) 基于改进型核模糊c均值类间极大化聚类算法
CN104463251A (zh) 基于集成极端学习机的肿瘤基因表达谱数据识别方法
Schinas et al. CERTH@ MediaEval 2012 Social Event Detection Task.
CN109376790A (zh) 一种基于渗流分析的二元分类方法
Zhang et al. Review of clustering technology and its application in coordinating vehicle subsystems
Escobar et al. Process-monitoring-for-quality—a model selection criterion for l1-regularized logistic regression
CN109034584A (zh) 基于大数据的供电所廉洁风险隐患分析方法
Pichara et al. Active learning and subspace clustering for anomaly detection
CN105512675A (zh) 一种基于记忆性多点交叉引力搜索的特征选择方法
Guo et al. A dual evolutionary bagging for class imbalance learning
Nguyen et al. An efficient differential evolution for truss sizing optimization using AdaBoost classifier
US11816556B1 (en) Method for predicting air quality index (AQI) based on a fusion model

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C02 Deemed withdrawal of patent application after publication (patent law 2001)
WD01 Invention patent application deemed withdrawn after publication

Application publication date: 20121024