CN103077405A - 一种基于Fisher判别分析的贝叶斯分类方法 - Google Patents

一种基于Fisher判别分析的贝叶斯分类方法 Download PDF

Info

Publication number
CN103077405A
CN103077405A CN2013100179553A CN201310017955A CN103077405A CN 103077405 A CN103077405 A CN 103077405A CN 2013100179553 A CN2013100179553 A CN 2013100179553A CN 201310017955 A CN201310017955 A CN 201310017955A CN 103077405 A CN103077405 A CN 103077405A
Authority
CN
China
Prior art keywords
classification
formula
space
sample
class
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN2013100179553A
Other languages
English (en)
Inventor
曹玲玲
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Inspur Electronic Information Industry Co Ltd
Original Assignee
Inspur Electronic Information Industry Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Inspur Electronic Information Industry Co Ltd filed Critical Inspur Electronic Information Industry Co Ltd
Priority to CN2013100179553A priority Critical patent/CN103077405A/zh
Publication of CN103077405A publication Critical patent/CN103077405A/zh
Pending legal-status Critical Current

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明提供一种基于Fisher判别分析的贝叶斯分类方法,利用变换矩阵,对原始训练样本进行变换,投影到新的样本空间,分类器在投影后的新的样本空间进行学习分类,原样本属性集中,任意两个属性间可能存在一定的依赖关系,投影后在新样本空间,新样本的属性假定为相互独立,通过变换可把维数较高的测量空间中表示的模式变为在维数较低的特征空间中表示的模式,这样能有效地实现分类识别,从而得到较能反映分类本质的特征,通过实验对分类效果进行了分析和比较,获得对各个类别训练样本集分布的一种参数化的近似表达。

Description

一种基于Fisher判别分析的贝叶斯分类方法
技术领域
本发明涉及模式识别及机器智能技术领域,具体地说是一种基于Fisher判别分析的贝叶斯分类方法。
背景技术
分类是机器学习,模式识别和人工智能等相关领域广泛研究的问题。近年来,随着相关领域中新技术的不断涌现,分类方法也得到了新的发展。针对不同的分类问题,分类方法多种多样,如决策树分类、支持向量机分类、神经网络分类。在众多的分类方法中,贝叶斯分类器受到了极大地重视。贝叶斯分类器是基于最大后验概率准则的,即利用某对象的先验概率计算其后验概率,并选择具有最大后验概率的类作为该对象所属的类。在贝叶斯模型中, 模型分别模拟每一个类的类条件联合概率分布 ,然后应用贝叶斯定理构建后验概率分类器。但是贝叶斯分类器具有较强的限定,要求属性之间是条件独立的,并且分类器本身也缺乏对训练样本集数据信息的充分利用。在分类器构建过程中并未有效利用类与类之间的信息 ,而这种信息正是分类所需要的。
本文在认真分析了贝叶斯模型结构特点以及构造分类器方法的基础上 , 结合Fisher线性判别分析,给出了一种基于Fisher线性判别分析的贝叶斯分类器。
)经典的贝叶斯分类器
在连续情况下,设观察值                                                
Figure 352810DEST_PATH_IMAGE001
Figure 334541DEST_PATH_IMAGE002
维特征向量
Figure 966511DEST_PATH_IMAGE003
,其中
Figure 742706DEST_PATH_IMAGE004
是一维随机变量。测量空间
Figure 972043DEST_PATH_IMAGE005
Figure 304936DEST_PATH_IMAGE006
个自然状态组成:
Figure 40679DEST_PATH_IMAGE007
Figure 66404DEST_PATH_IMAGE008
为第
Figure 520388DEST_PATH_IMAGE009
类状态的先验概率,
Figure 391392DEST_PATH_IMAGE010
为类条件概率密度函数,表示接受
Figure 443848DEST_PATH_IMAGE001
属于第类的
Figure 62752DEST_PATH_IMAGE012
的条件概率,也称为后验概率。基于后验概率的分类中。问题可描述为:
如果
Figure 835405DEST_PATH_IMAGE013
,则
Figure 186621DEST_PATH_IMAGE014
。                               (1)
其物理意义为:在观测得到的特征向量发生的条件下,类别的所有条件概率中最大者为应归属的类,这样做可以使识别决策的错误率最小,这一准则称为最大后验概率准则。利用
著名的贝叶斯公式
Figure 549951DEST_PATH_IMAGE015
,注意到分母
Figure 28337DEST_PATH_IMAGE016
在比较表达式中是一个常数,经过一系列的推导,可以把决策公式(1)表述为:
如果
Figure 593179DEST_PATH_IMAGE017
,则
Figure 131608DEST_PATH_IMAGE014
。                       (2)
这就构成了经典的贝叶斯分类器。
对于许多实际的数据集,正态假设通常是一种较合理的近似。多元正态函数的概率密度函数为
Figure 781901DEST_PATH_IMAGE018
        
为处理方便,先对其进行对数变换,则可得到如下线性决策函数
Figure 250928DEST_PATH_IMAGE019
Figure 686589DEST_PATH_IMAGE020
                                          (3)
其中
Figure 382537DEST_PATH_IMAGE021
如果使
Figure 536438DEST_PATH_IMAGE022
,对一切成立,则将
Figure 896061DEST_PATH_IMAGE001
归于
Figure 759980DEST_PATH_IMAGE012
类。在这种情况下的贝叶斯分类就是利用式(3)计算出
Figure 135598DEST_PATH_IMAGE006
个判别函数
Figure 8745DEST_PATH_IMAGE019
,再从中选出对应于判别函数为最大值的类作为决策结果;
2)Fisher线性判别分析
Fisher线性判别分析(Fisher Linear Discriminant Analysis, FLDA)方法是模式识别中一种行之有效的特征提取方法。Fisher线性判别分析力图找到一组最佳的投影方向,在这些投影方向上,可以最好的区分训练集中属于不同类别的样本。
设有一组
Figure 153418DEST_PATH_IMAGE002
维的训练样本 
Figure 450889DEST_PATH_IMAGE024
,…, 
Figure 313803DEST_PATH_IMAGE025
(
Figure 725061DEST_PATH_IMAGE026
Figure 989821DEST_PATH_IMAGE002
维行向量, 
Figure 398805DEST_PATH_IMAGE027
 >
Figure 732704DEST_PATH_IMAGE002
) ,它们分别属于
Figure 698385DEST_PATH_IMAGE006
个不同的类别,即其中大小为 
Figure 69848DEST_PATH_IMAGE028
的样本子集 
Figure 462784DEST_PATH_IMAGE029
 属于类别 
Figure 549557DEST_PATH_IMAGE030
. Fisher线性判别分析所要解决的基本问题就是寻求一组最佳线性变换
Figure 53351DEST_PATH_IMAGE031
,将原始数据通过线性变换后投影到新的样本空间,在新的空间里原始数据得以更好地划分。为确定最佳的投影方向,需要定义下面的矩阵和向量:
类均值向量: 
Figure 276391DEST_PATH_IMAGE032
                                                   (4)
总体均值向量: 
Figure 840227DEST_PATH_IMAGE033
                                         (5)
总体散布矩阵为:
Figure 148718DEST_PATH_IMAGE034
=
Figure 456202DEST_PATH_IMAGE035
                      (6)
类内散布矩阵:
Figure 612377DEST_PATH_IMAGE036
Figure 616890DEST_PATH_IMAGE037
                              (7)
类间散布矩阵: 
Figure 163409DEST_PATH_IMAGE038
=
Figure 195956DEST_PATH_IMAGE039
                                      (8)
显然,类内散布矩阵表达的是同一类中样本到类内中心的距离,其值的大小表示同类样本的集中程度。其值越小,说明同类样本相对越集中;类间散布矩阵是不同类的中心距离的度量,其值越大,说明异类样本的可分性越好。如果能够使得在投影后的空间,类内样本集中,类间样本分离,即可达到我们的目的. 
从高维空间向低维空间的投影过程中,类内散布矩阵和类间散布矩阵经历了一些变换.我们的目标是寻找一个投影方向变换矩阵
Figure 393588DEST_PATH_IMAGE040
,能够在某种意义上使得投影后的类间散布矩阵和类内散布矩阵的比值最大.为此定义如下的准则函数:
                        
Figure 299227DEST_PATH_IMAGE041
Figure 582310DEST_PATH_IMAGE042
                           (9)
为求解使准则函数
Figure 293914DEST_PATH_IMAGE043
取极大值时的投影变换矩阵
Figure 362364DEST_PATH_IMAGE040
,可以用Lagrange乘子法求解,得到        
Figure 691102DEST_PATH_IMAGE044
                                 (10)
解(10)式为求一般矩阵的本征值问题。经过一系列的推导,可以得出准则函数
Figure 648880DEST_PATH_IMAGE043
取极大值时的解   
Figure 571836DEST_PATH_IMAGE046
                            (11)
以上可以看出,判别准则对应的优化问题等价于求解一个复杂的广义特征值和特征向量的问题,这是实现该分类器算法的核心。一旦确定变换矩阵
Figure 68545DEST_PATH_IMAGE040
,就可以依据投影方程          
Figure 811374DEST_PATH_IMAGE047
                                 (12)
将原样本集向
Figure 864780DEST_PATH_IMAGE040
投影,得到新的样本集
Figure 829194DEST_PATH_IMAGE048
发明内容
本发明的技术任务是解决现有技术的不足,提供一种基于Fisher判别分析的贝叶斯分类方法。
本发明的技术方案是按以下方式实现的,利用变换矩阵,对原始训练样本进行变换,投影到新的样本空间,分类器在投影后的新的样本空间进行学习分类,原样本属性集中,任意两个属性间可能存在一定的依赖关系,投影后在新样本空间,新样本的属性假定为相互独立,通过变换可把维数较高的测量空间中表示的模式变为在维数较低的特征空间中表示的模式,这样能有效地实现分类识别,通过实验对分类效果进行了分析和比较, 从而得到较能反映分类本质的特征,具体步骤如下:
1)将原始数据进行归一化处理;
2)依据公式(4) 
Figure 493875DEST_PATH_IMAGE032
     计算类均值向量;
3)依据公式(5)  计算总体均值向量; 
4)依据公式97):
Figure 768047DEST_PATH_IMAGE036
  计算类内散布矩阵;
5)依据公式(8)
Figure 504108DEST_PATH_IMAGE038
=
Figure 221528DEST_PATH_IMAGE039
   计算类间散布矩阵;
6)依据公式(11)    
Figure 803688DEST_PATH_IMAGE046
计算变换矩阵;
7)利用公式(12) 将原样本集向
Figure 378206DEST_PATH_IMAGE040
投影,得到新的样本集
Figure 835120DEST_PATH_IMAGE048
8)对新样本集按照公式(3)
Figure 971703DEST_PATH_IMAGE049
 进行学习分类
其中
Figure 827532DEST_PATH_IMAGE050
如果使
Figure 945530DEST_PATH_IMAGE051
,对一切
Figure 637543DEST_PATH_IMAGE052
成立,则将
Figure 827084DEST_PATH_IMAGE001
归于
Figure 288153DEST_PATH_IMAGE012
类,在这种情况下的贝叶斯分类就是利用式
Figure 636439DEST_PATH_IMAGE049
  计算出
Figure 815747DEST_PATH_IMAGE006
个判别函数,再从中选出对应于判别函数为最大值的类作为决策结果。
本发明的突出的有益效果:是从另一角度出发,致力于弥补经典贝叶斯分类器不能提取类间信息的问题,通过使用Fisher判别分析方法寻找使类与类最大分离的投影空间 ,然后再将原样本向最大可分离空间投影 ,获得新样本,以判别量为新属性 ,再用经典贝叶斯分类算法在新样本中进行学习分类。实验表明将经典贝叶斯分类器与 Fisher线性判别分析方法有机结合起来,能获得更好的分类效果。
附图说明
图1是的改进的贝叶斯算法流程图;
图2 经典的贝叶斯分类器分类情况图;
图3 改进的贝叶斯分类器分类情况图。
具体实施方式
下面结合附图对本发明的基于Fisher判别分析的贝叶斯分类方法作进一步详细说明。
贝叶斯分类器的改进
虽然公式
Figure 858976DEST_PATH_IMAGE054
,则
Figure 459721DEST_PATH_IMAGE055
  定义的贝叶斯分类器简单而有效,但是它的属性独立性假设使其无法表示现实世界属性之间的依赖关系。并且从贝叶斯分类器学习的过程来看,无法有效地使用类间信息,为了改善这一问题,本文结合Fisher线性判别分析,提出了一种基于Fisher线性判别分析的贝叶斯分类器的改进算法。
该算法的主要思想是利用变换矩阵,对原始训练样本进行变换,投影到新的样本空间,分类器在投影后的新的样本空间进行学习分类。原样本属性集中,任意两个属性间可能存在一定的依赖关系,投影后在新样本空间,新样本的属性假定为相互独立。通过变换可把维数较高的测量空间中表示的模式变为在维数较低的特征空间中表示的模式。这样能有效地实现分类识别,从而得到较能反映分类本质的特征。根据上述分析给出该算法的流程图如图1所示: 
实验结果与分析
本实验的数据选自CORK_STOPPERS.XLS数据集,具体数据说明如下表所示
此种划分达到了严格分开的要求,评价出的分类器的正确率比较接近实际的正确率,但还是会受到训练集有限样本数产生的偏差和测试集有限样本数产生的偏差的影响。
另外,本实验对所有的训练样本和测试样本都按下式进行了归一化的预处理,y=(x-min)/(max-min)。其中,x为一个样本,y为归一化的数据,max和min分别是对所有的训练样本求出各个特征的最大值和最小值。
分别用经典的贝叶斯分类器和改进的贝叶斯分类器对a类的25个测试样本和b类的20个测试样本进行分类。结果显示见图2和图3和表2。
试验结果如表2所示
Figure 392091DEST_PATH_IMAGE058
表2   
通过以上试验结果的比较可以看出,改进的贝叶斯分类器在同等的测试样本和初始条件相同的情形下,误判样本数较少,分类效果较好,正确率较高。
结论
本文主要介绍了经典贝叶斯分类器和改进的贝叶斯分类器的分类原理,并通过实验对分类效果进行了分析和比较。从实验结果可以看出,虽然经典贝叶斯分类器对样本也能进行比较有效的分类,但是改进的贝叶斯分类器具体更高效的分类性能。原因在于经典贝叶斯分类器虽然是一种简单而有效的分类算法 ,但它的独立性假定使其无法表达实际数据中属性间存在的相依关系,即没有使用类间信息,获得的仅仅是对各个类别训练样本集分布的一种参数化的近似表达。
除本发明的说明书公开的技术特征外均为本专业技术人员的公职技术。 

Claims (1)

1.一种基于Fisher判别分析的贝叶斯分类方法,其特征在于利用变换矩阵,对原始训练样本进行变换,投影到新的样本空间,分类器在投影后的新的样本空间进行学习分类,原样本属性集中,任意两个属性间可能存在一定的依赖关系,投影后在新样本空间,新样本的属性假定为相互独立,通过变换可把维数较高的测量空间中表示的模式变为在维数较低的特征空间中表示的模式,这样能有效地实现分类识别,从而得到较能反映分类本质的特征,通过实验对分类效果进行了分析和比较,获得对各个类别训练样本集分布的一种参数化的近似表达,具体分类步骤如下:
1)将原始数据进行归一化处理;
2)依据公式(4)                                                
Figure 2013100179553100001DEST_PATH_IMAGE001
     计算类均值向量;
3)依据公式(5)
Figure 33108DEST_PATH_IMAGE002
  计算总体均值向量; 
4)依据公式97):
Figure 2013100179553100001DEST_PATH_IMAGE003
Figure 826621DEST_PATH_IMAGE004
  计算类内散布矩阵;
5)依据公式(8)
Figure DEST_PATH_IMAGE005
=   计算类间散布矩阵;
6)依据公式(11)    
Figure DEST_PATH_IMAGE007
计算变换矩阵;
7)利用公式(12)
Figure 764194DEST_PATH_IMAGE008
 将原样本集向
Figure DEST_PATH_IMAGE009
投影,得到新的样本集
Figure 891419DEST_PATH_IMAGE010
8)对新样本集按照公式(3)
Figure DEST_PATH_IMAGE011
 进行学习分类
其中
Figure 539438DEST_PATH_IMAGE012
如果使
Figure DEST_PATH_IMAGE013
,对一切
Figure 156233DEST_PATH_IMAGE014
成立,则将
Figure DEST_PATH_IMAGE015
归于
Figure 457246DEST_PATH_IMAGE016
类,在这种情况下的贝叶斯分类就是利用式
Figure 794686DEST_PATH_IMAGE011
  计算出
Figure DEST_PATH_IMAGE017
个判别函数
Figure 562791DEST_PATH_IMAGE018
,再从中选出对应于判别函数为最大值的类作为决策结果。
CN2013100179553A 2013-01-18 2013-01-18 一种基于Fisher判别分析的贝叶斯分类方法 Pending CN103077405A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN2013100179553A CN103077405A (zh) 2013-01-18 2013-01-18 一种基于Fisher判别分析的贝叶斯分类方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN2013100179553A CN103077405A (zh) 2013-01-18 2013-01-18 一种基于Fisher判别分析的贝叶斯分类方法

Publications (1)

Publication Number Publication Date
CN103077405A true CN103077405A (zh) 2013-05-01

Family

ID=48153929

Family Applications (1)

Application Number Title Priority Date Filing Date
CN2013100179553A Pending CN103077405A (zh) 2013-01-18 2013-01-18 一种基于Fisher判别分析的贝叶斯分类方法

Country Status (1)

Country Link
CN (1) CN103077405A (zh)

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103500342A (zh) * 2013-09-18 2014-01-08 华南理工大学 一种基于加速度计的人体行为识别方法
CN105162413A (zh) * 2015-09-08 2015-12-16 河海大学常州校区 一种基于工况辨识的光伏系统性能实时评估方法
CN106066493A (zh) * 2016-05-24 2016-11-02 中国石油大学(北京) 贝叶斯岩相判别方法及装置
CN108872819A (zh) * 2018-07-29 2018-11-23 湖南湖大华龙电气与信息技术有限公司 基于红外热像和可见光的绝缘子检测无人机及方法
CN109784356A (zh) * 2018-07-18 2019-05-21 北京工业大学 基于Fisher判别分析的矩阵变量受限玻尔兹曼机图像分类方法
CN113255212A (zh) * 2021-05-17 2021-08-13 中国南方电网有限责任公司超高压输电公司昆明局 一种基于pca和贝叶斯分类器的换流阀冷却系统选型方法
CN114557708A (zh) * 2022-02-21 2022-05-31 天津大学 基于脑电双特征融合的体感刺激意识检测装置和方法

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101216879A (zh) * 2007-12-28 2008-07-09 西安电子科技大学 基于Fisher支持向量机的人脸识别方法
CN101650944A (zh) * 2009-09-17 2010-02-17 浙江工业大学 基于保类内核Fisher判别法的说话人辨别实现方法

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101216879A (zh) * 2007-12-28 2008-07-09 西安电子科技大学 基于Fisher支持向量机的人脸识别方法
CN101650944A (zh) * 2009-09-17 2010-02-17 浙江工业大学 基于保类内核Fisher判别法的说话人辨别实现方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
曹玲玲等: "基于Fisher判别分析的贝叶斯分类器", 《计算机工程》 *
李旭升等: "基于多重判别分析的朴素贝叶斯分类器", 《信息与控制》 *

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103500342A (zh) * 2013-09-18 2014-01-08 华南理工大学 一种基于加速度计的人体行为识别方法
CN103500342B (zh) * 2013-09-18 2017-01-04 华南理工大学 一种基于加速度计的人体行为识别方法
CN105162413A (zh) * 2015-09-08 2015-12-16 河海大学常州校区 一种基于工况辨识的光伏系统性能实时评估方法
CN106066493A (zh) * 2016-05-24 2016-11-02 中国石油大学(北京) 贝叶斯岩相判别方法及装置
CN109784356A (zh) * 2018-07-18 2019-05-21 北京工业大学 基于Fisher判别分析的矩阵变量受限玻尔兹曼机图像分类方法
CN109784356B (zh) * 2018-07-18 2021-01-05 北京工业大学 基于Fisher判别分析的矩阵变量受限玻尔兹曼机图像分类方法
CN108872819A (zh) * 2018-07-29 2018-11-23 湖南湖大华龙电气与信息技术有限公司 基于红外热像和可见光的绝缘子检测无人机及方法
CN113255212A (zh) * 2021-05-17 2021-08-13 中国南方电网有限责任公司超高压输电公司昆明局 一种基于pca和贝叶斯分类器的换流阀冷却系统选型方法
CN114557708A (zh) * 2022-02-21 2022-05-31 天津大学 基于脑电双特征融合的体感刺激意识检测装置和方法

Similar Documents

Publication Publication Date Title
CN108564129B (zh) 一种基于生成对抗网络的轨迹数据分类方法
Gong et al. Twin auxilary classifiers gan
He et al. Triplet-center loss for multi-view 3d object retrieval
CN103077405A (zh) 一种基于Fisher判别分析的贝叶斯分类方法
Zhang et al. Pedestrian detection method based on Faster R-CNN
Peng et al. A new approach for imbalanced data classification based on data gravitation
Zeng et al. Fine-grained image retrieval via piecewise cross entropy loss
CN110378366A (zh) 一种基于耦合知识迁移的跨域图像分类方法
CN110751027B (zh) 一种基于深度多示例学习的行人重识别方法
CN105354593B (zh) 一种基于nmf的三维模型分类方法
CN102609693A (zh) 基于模糊二维核主成分分析的人脸识别方法
CN104156945A (zh) 基于多目标粒子群算法的灰度图像分割方法
CN106778834A (zh) 一种基于距离测度学习的ap聚类图像标注方法
Xu et al. Enhancing 2D representation via adjacent views for 3D shape retrieval
Lu et al. Clustering by Sorting Potential Values (CSPV): A novel potential-based clustering method
Parashar et al. An efficient classification approach for data mining
Das et al. Improving rbf kernel function of support vector machine using particle swarm optimization
Cao et al. Combining re-sampling with twin support vector machine for imbalanced data classification
Al Zorgani et al. Comparative study of image classification using machine learning algorithms
CN103345621A (zh) 一种基于稀疏浓度指数的人脸分类方法
Xun et al. Empirical risk minimization for metric learning using privileged information
Xia et al. Granular-ball computing: an efficient, robust, and interpretable adaptive multi-granularity representation and computation method
Rosa et al. On the training of artificial neural networks with radial basis function using optimum-path forest clustering
Leng et al. A powerful 3D model classification mechanism based on fusing multi-graph
Li et al. A novel semantic approach for multi-ethnic face recognition

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
WD01 Invention patent application deemed withdrawn after publication
WD01 Invention patent application deemed withdrawn after publication

Application publication date: 20130501