CN104598930A - 特征分辨力快速测量方法 - Google Patents
特征分辨力快速测量方法 Download PDFInfo
- Publication number
- CN104598930A CN104598930A CN201510061146.1A CN201510061146A CN104598930A CN 104598930 A CN104598930 A CN 104598930A CN 201510061146 A CN201510061146 A CN 201510061146A CN 104598930 A CN104598930 A CN 104598930A
- Authority
- CN
- China
- Prior art keywords
- characteristic quantity
- characteristic
- classification
- variance
- data
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
- G06F18/2415—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on parametric or probabilistic models, e.g. based on likelihood ratio or false acceptance rate versus a false rejection rate
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Artificial Intelligence (AREA)
- Life Sciences & Earth Sciences (AREA)
- Bioinformatics & Computational Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Biology (AREA)
- Evolutionary Computation (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Probability & Statistics with Applications (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明涉及一种特征分辨力快速测量方法,其包括如下步骤:步骤1、获取包含N个特征量的数据集,数据集中每个特征量依据类别标识均被划分为C类别组,并对所述数据集进行所需的预处理;步骤2、计算数据集中任一特征量中每个类别组的方差,以得到所述特征量的C个特征量方差;步骤3、计算数据集中上述特征量中每个类别组对应的样本均值,以得到C个类别组均值,并计算所述C个类别组均值的均值方差;步骤4、根据上述C个特征量方差以及均值方差,计算所述特征量对应的特征分辨力;步骤5、重复上述步骤2~4,直至得到数据集中N个特征量的特征分辨力。本发明操作方便,能快速稳定地获得特征分辨力的测量结果,能降低计算复杂度。
Description
技术领域
本发明涉及一种测量方法,尤其是一种特征分辨力快速测量方法,属于模式识别的技术领域。
背景技术
特征分辨力(Discriminability)是特征所具有的分辨事物类别的能力。一般来说,一个样本属于某一个类别可以通过该样本所具备的特征来判断。而不同的特征分辨同一类别的能力是不同的。比如分辨黄瓜和茄子,从颜色上比较容易区分,而从形状上比较难区分,则可以说对于分辨黄瓜和茄子来说,颜色的特征分辨力大于形状的特征分辨力。
Fisher线性判别法(Fisher's Linear Discriminant)也称线性判别分析(LinearDiscriminant Analysis),是一种统计分析方法,用于在已知的分类之下遇到有新的样本时,选定一个判别标准,以判定如何将新样本放置于哪一个类别之中。Fisher在1936年发表的经典论文(Fisher R A.The use of multiple measurements intaxonomic problems),其基本思想是选择使得Fisher准则函数达到极值的向量作为最佳投影方向,从而使得样本在该方向上投影后,达到最大的类间离散度和最小的类内离散度。这种方法主要应用于医学的患者疾病分级,以及人脸识别、经济学的市场定位、产品管理及市场研究等范畴。
特征选择(Feature Selection)是指从已有的m个特征(Feature)中选择n个特征使得系统的特定指标最优化,是从原始特征中选择出一些最有效特征以降低数据集维度的过程,是提高机器学习算法性能的一个重要手段,也是模式识别中关键的数据预处理步骤。
模式识别(Pattern Recognition)是指对表征事物或现象的各种形式的(数值的、文字的和逻辑关系的)信息进行处理和分析,以对事物或现象进行描述、辨认、分类和解释的过程,是信息科学和人工智能的重要组成部分。
目前,常用的Fisher线性判别法仅适用于两个类别的分类问题。如果现在的问题是个多目标的分类问题,即有多个类别需要分辨,则传统的Fisher线性判别法将无法胜任。此外,Fisher线性判别法主要是直接用于分类,并非直接用于特征选择。
针对Fisher线性判别法的不足,可以利用改进的Fisher线性判别法-FisherScore,针对常用的Fisher线性判别法作了两方面的改进:一是将传统的Fisher线性判别法升级为多目标分类方法;二是不再寻找区分度最大的投影,而是转为直接计算每个类别的样本在特征上的区分度,即计算每个特征的分辨力。Fisher Score将传统的Fisher线性判别法升级为多目标分类方法采用的是“一对其余”的办法。也就是说把某一类作为当前类,把其他类均作为非当前类。这样多目标分类问题就转化成了符合传统的Fisher线性判别法二类分类问题。然后针对每一类别完成计算后,再做整合。
Fisher Score虽然在一定程度上可以解决多目标的分类问题的特征选择,但由于其主要采用“一对其余”的办法,因此,如果有M个类别,就要做M-1次的计算,才能把所有类别都计算到。这种方法严重影响了计算效率,尤其是高维问题的求解。
发明内容
本发明的目的是克服现有技术中存在的不足,提供一种特征分辨力快速测量方法,其操作方便,能快速稳定地获得特征分辨力的测量结果,为特征选择提供依据,能降低计算复杂度,提高适应范围。
按照本发明提供的技术方案,一种特征分辨力快速测量方法,所述测量方法包括如下步骤:
步骤1、获取包含N个特征量的数据集,数据集中每个特征量依据类别标识均被划分为C类别组,并对所述数据集进行所需的预处理;
步骤2、计算数据集中任一特征量中每个类别组的方差,以得到所述特征量的C个特征量方差;
步骤3、计算数据集中上述特征量中每个类别组对应的样本均值,以得到C个类别组均值,并计算所述C个类别组均值的均值方差;
步骤4、根据上述C个特征量方差以及均值方差,计算所述特征量对应的特征分辨力,所述特征分辨力D为
其中,Sμ为均值方差,Sj(j∈[1,C])为特征量方差;
步骤5、重复上述步骤2~4,直至得到数据集中N个特征量的特征分辨力。
所述步骤1中,对数据集进行的预处理步骤包括归一化以及数据补齐。
在得到数据集的N个特征量的特征分辨力后,对数据集的特征分辨力进行排序,并对数据集排序后的特征分辨力进行特征选择。
本发明的优点:用计算平均值的方差来代替计算两两类别样本的平均值之差,一步到位,能快速稳定地获得特征分辨力的测量结果,能降低计算复杂度,提高适应范围。
附图说明
图1为本发明的流程图。
具体实施方式
下面结合具体附图和实施例对本发明作进一步说明。
如图1所示:为了能快速稳定地获得特征分辨力的测量结果,能降低计算复杂度,提高适应范围,本发明测量方法包括如下步骤:
步骤1、获取包含N个特征量的数据集,数据集中每个特征量依据类别标识均被划分为C类别组,并对所述数据集进行所需的预处理;
具体地,对于一个获得确定的数据集,数据集内包含的N个特征量以及依据类别表示划分的类别组数量C均为已知,具体为本技术领域人员所熟知,此处不再赘述。本发明实施例中,对数据集进行的预处理步骤包括归一化以及数据补齐,其中,对数据集中数据的归一化是将有量纲的表达式,经过变换,化为无量纲的表达式,成为标量,归一化的具体实施措施为:
y=(x-MinValue)/(MaxValue-MinValue)
其中,y为归一化后的数据,x为数据集中的原始数据,MinValue为数据集中的最小数据,MaxValue为数据集中的最大数据。
数据补齐(Missing Data Evaluation)是把数据集中的缺失数据补齐的操作,在具体实施时,可以采用取平均或回归预测的方法进行。
步骤2、计算数据集中任一特征量中每个类别组的方差,以得到所述特征量的C个特征量方差;
本发明实施例中,对于确定的数据集,数据集中特征量的个数N也随之确定,因此,每个特征量中所包含的特征值也具有确定性。对于每个特征量中特征值会根据类别标识划分到不同的类别组中,即每个类别组中的特征值也具有确定性,因此,对于每个类别组中的特征值能够计算方差,由于数据集中的数据被划分成C个类别组,在计算方差时,即得到C个特征量方差。
步骤3、计算数据集中上述特征量中每个类别组对应的样本均值,以得到C个类别组均值,并计算所述C个类别组均值的均值方差;
本发明实施例中,由于每个特征量中的特征值均被划分成C个类别组,对于每个类别组能计算得到每个类别组内的样本均值,在得到C个类别组均值后,能够得到C个类别均值的均值方差。样本均值以及方差的具体计算过程均采用本技术领域通用的计算方法,为本技术领域人员所熟知,此处不再赘述。
步骤4、根据上述C个特征量方差以及均值方差,计算所述特征量对应的特征分辨力,所述特征分辨力D为
其中,Sμ为均值方差,Sj(j∈[1,C])为特征量方差;
本发明实施例中,对于每个特征量而言,在得到C个特征量方差以及一个均值方差后,即能够计算得到这个特征量对应的特征分辨力。基于在线性可分情况下,类别之间距离越远、聚得越拢就越容易被分割,因此,可以把类别间的距离和类内聚拢程度作为对特征分辨力的描述,这也是现有Fisher线性判别法的主要思想,不过现有的Fisher线性判别法并不适合同时处理多类别问题,而本发明采用方差来描述类别间的距离和类内聚拢程度可以同时并行处理多类别分类问题,即本发明的特征分辨力对所有线性可分的问题都有效。
步骤5、重复上述步骤2~4,直至得到数据集中N个特征量的特征分辨力。
本发明实施例中,对于数据集中其他特征量均采用相同的方法累得到对应的特征分辨力,在得到数据集的N个特征量的特征分辨力后,对数据集的特征分辨力进行排序,并对数据集排序后的特征分辨力进行特征选择。对于特征分辨力进行排序主要是为了对特征分辨力进行选择,对于特征分辨力的选择主要是为了进行机器学习和分类,对于特征排序、特征选择、机器学习和分类的步骤主要模式识别。
以采用美国加州大学尔湾分校(University of California,Irvine)所提供的机器学习数据集中的Glass Identification数据集(以下简称Glass)进行说明(http://archive.ics.uci.edu/ml/datasets/Glass+Identification)。Glass是一个拥有214组数据,9个特征和6个类别的数据集。数据集没有缺省值。
在取得原始数据以后,对数据进行归一化操作,把所有数据归一至[0,1]区间。然后将数据按50%,25%,25%的比例随机分成3份,分别为训练数据、校验数据和测试数据。取出训练数据,并对训练数据进行分析。取第1个特征量,然后判断是否曾对其进行过分辨力计算,如没有,则对其进行分辨力计算。计算完毕后,取第2个特征,进行分辨力计算,直至所有特征的分辨力全部计算完毕,。计算所得的所有特征按分辨力大小从大到小排。如表1所示,取前5个特征作为特征选择结果,将原数据集的训练数据、校验数据和测试数据统一按新特征重新排好,此为第7步。
表1.特征分辨力排序
排序 | 1 | 2 | 3 | 4 | 5 | 6 | 7 | 8 | 9 |
分辨力 | 0.3226 | 0.2605 | 0.1716 | 0.1566 | 0.1514 | 0.0976 | 0.0802 | 0.0764 | 0.0542 |
特征 | 3 | 8 | 4 | 2 | 6 | 5 | 9 | 1 | 7 |
通过机器学习,进行模式分类。这里的机器学习算法用的是BP神经网络。整个实验做了20次随机数据集分割,错误率及其相关结果如表2所示,表2同时对比不采用特征选择的机器学习方法,由此可见,采用特征选择,将明显降低分类的错误率:
表2.分类结果
本发明所采用的方法 | 传统方法 | |
20次分类结果均值 | 35.000015 | 41.226405 |
20次分类结果方差 | 6.173650317 | 19.5891439 |
20次内最小值 | 30.1887 | 33.9623 |
20次内最大值 | 39.6226 | 47.1698 |
本实验采用Intel Core i7 2640处理器,8G内存进行实验。实验中,采用FisherScore的方法与采用本发明的方法所得到的特征选择结果是一致的,但是FisherScore的方法用时0.0640秒,而本发明所用的方法用时仅0.0210秒,速度提高到了原来的3倍。由此可见,在采用相同机器学习方法进行模式分类的时候,本发明所使用的方法能够较稳定、快速地得到更好的结果。
本发明用计算平均值的方差来代替计算两两类别样本的平均值之差,一步到位,能快速稳定地获得特征分辨力的测量结果,能降低计算复杂度,提高适应范围。
Claims (3)
1.一种特征分辨力快速测量方法,其特征是,所述测量方法包括如下步骤:
步骤1、获取包含N个特征量的数据集,数据集中每个特征量依据类别标识均被划分为C类别组,并对所述数据集进行所需的预处理;
步骤2、计算数据集中任一特征量中每个类别组的方差,以得到所述特征量的C个特征量方差;
步骤3、计算数据集中上述特征量中每个类别组对应的样本均值,以得到C个类别组均值,并计算所述C个类别组均值的均值方差;
步骤4、根据上述C个特征量方差以及均值方差,计算所述特征量对应的特征分辨力,所述特征分辨力D为
其中,Sμ为均值方差,Sj(j∈[1,C])为特征量方差;
步骤5、重复上述步骤2~4,直至得到数据集中N个特征量的特征分辨力。
2.根据权利要求1所述的特征分辨力快速测量方法,其特征是:所述步骤1中,对数据集进行的预处理步骤包括归一化以及数据补齐。
3.根据权利要求1所述的特征分辨力快速测量方法,其特征是:在得到数据集的N个特征量的特征分辨力后,对数据集的特征分辨力进行排序,并对数据集排序后的特征分辨力进行特征选择。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201510061146.1A CN104598930A (zh) | 2015-02-05 | 2015-02-05 | 特征分辨力快速测量方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201510061146.1A CN104598930A (zh) | 2015-02-05 | 2015-02-05 | 特征分辨力快速测量方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN104598930A true CN104598930A (zh) | 2015-05-06 |
Family
ID=53124702
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201510061146.1A Pending CN104598930A (zh) | 2015-02-05 | 2015-02-05 | 特征分辨力快速测量方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN104598930A (zh) |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20070297675A1 (en) * | 2006-06-26 | 2007-12-27 | Shih-Jong J. Lee | Method of directed feature development for image pattern recognition |
CN101980202A (zh) * | 2010-11-04 | 2011-02-23 | 西安电子科技大学 | 不平衡数据的半监督分类方法 |
CN103942568A (zh) * | 2014-04-22 | 2014-07-23 | 浙江大学 | 一种基于无监督特征选择的分类方法 |
-
2015
- 2015-02-05 CN CN201510061146.1A patent/CN104598930A/zh active Pending
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20070297675A1 (en) * | 2006-06-26 | 2007-12-27 | Shih-Jong J. Lee | Method of directed feature development for image pattern recognition |
CN101980202A (zh) * | 2010-11-04 | 2011-02-23 | 西安电子科技大学 | 不平衡数据的半监督分类方法 |
CN103942568A (zh) * | 2014-04-22 | 2014-07-23 | 浙江大学 | 一种基于无监督特征选择的分类方法 |
Non-Patent Citations (1)
Title |
---|
TING WANG, SHENG-UEI GUAN, FEI LIU: "Feature Discriminability for Pattern Classification Based on Neural Incremental Attribute Learning", 《FOUNDATIONS OF INTELLIGENT SYSTEMS, AISC 122》 * |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109344736B (zh) | 一种基于联合学习的静态图像人群计数方法 | |
US20160070950A1 (en) | Method and system for automatically assigning class labels to objects | |
CN109842513A (zh) | 网络异常事件分析装置、方法及其电脑存储介质 | |
CN107292330A (zh) | 一种基于监督学习和半监督学习双重信息的迭代式标签噪声识别算法 | |
CN105205501B (zh) | 一种多分类器联合的弱标注图像对象检测方法 | |
Arbin et al. | Comparative analysis between k-means and k-medoids for statistical clustering | |
Qi et al. | Recognizing driving styles based on topic models | |
CN108447057B (zh) | 基于显著性和深度卷积网络的sar图像变化检测方法 | |
CN105069470A (zh) | 分类模型训练方法及装置 | |
CN104715261A (zh) | fMRI动态脑功能子网络构建及并联SVM加权识别方法 | |
CN110969166A (zh) | 一种巡检场景下小目标识别方法和系统 | |
Lubke et al. | Does nature have joints worth carving? A discussion of taxometrics, model-based clustering and latent variable mixture modeling | |
CN106446933A (zh) | 基于上下文信息的多目标检测方法 | |
CN103971106A (zh) | 多视角人脸图像性别识别方法及装置 | |
CN103455820A (zh) | 基于机器视觉技术的车辆检测和跟踪方法及系统 | |
CN101738998B (zh) | 一种基于局部判别分析的工业过程监测系统及方法 | |
CN109598292A (zh) | 一种不同辅助样本正负比例的迁移学习方法 | |
CN105574547A (zh) | 适应动态调整基分类器权重的集成学习方法及装置 | |
Li et al. | Vehicle classification with single multi-functional magnetic sensor and optimal MNS-based CART | |
CN103310235B (zh) | 一种基于参数识别与估计的隐写分析方法 | |
CN104680185A (zh) | 基于边界点重分类的高光谱图像分类方法 | |
Zhang et al. | A review on cluster estimation methods and their application to neural spike data | |
CN110163130B (zh) | 一种用于手势识别的特征预对齐的随机森林分类系统及方法 | |
CN103279944A (zh) | 一种基于生物地理优化的图像分割方法 | |
CN102609733B (zh) | 海量人脸库应用环境下的人脸快速识别方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20150506 |
|
RJ01 | Rejection of invention patent application after publication |