CN106228199A - 一种基于Fisher分类器组的离散型数据预处理方法 - Google Patents
一种基于Fisher分类器组的离散型数据预处理方法 Download PDFInfo
- Publication number
- CN106228199A CN106228199A CN201610685995.9A CN201610685995A CN106228199A CN 106228199 A CN106228199 A CN 106228199A CN 201610685995 A CN201610685995 A CN 201610685995A CN 106228199 A CN106228199 A CN 106228199A
- Authority
- CN
- China
- Prior art keywords
- fisher
- sample
- training
- classifier group
- classifier
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/213—Feature extraction, e.g. by transforming the feature space; Summarisation; Mappings, e.g. subspace methods
- G06F18/2132—Feature extraction, e.g. by transforming the feature space; Summarisation; Mappings, e.g. subspace methods based on discrimination criteria, e.g. discriminant analysis
- G06F18/21322—Rendering the within-class scatter matrix non-singular
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/213—Feature extraction, e.g. by transforming the feature space; Summarisation; Mappings, e.g. subspace methods
- G06F18/2132—Feature extraction, e.g. by transforming the feature space; Summarisation; Mappings, e.g. subspace methods based on discrimination criteria, e.g. discriminant analysis
- G06F18/21322—Rendering the within-class scatter matrix non-singular
- G06F18/21324—Rendering the within-class scatter matrix non-singular involving projections, e.g. Fisherface techniques
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Data Mining & Analysis (AREA)
- Bioinformatics & Computational Biology (AREA)
- Artificial Intelligence (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Evolutionary Biology (AREA)
- Evolutionary Computation (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Mathematical Physics (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Other Investigation Or Analysis Of Materials By Electrical Means (AREA)
Abstract
本发明公开了一种基于Fisher分类器组的离散型数据预处理方法,使用Fisher判别准则生成多个Fisher分类器,多个Fisher分类形成Fisher分类器组;利用Fisher分类器组的输出获得一定的样本分类冗余信息,随后在离散型编码过程中减小奇异值和野值对后续分类器进行映射影响;最后将映射结果的编码作为该样本数据预处理结果。本发明可在不改变分类器性能的情况下,提高分类器的准确度;现有技术中,不采用任何预处理方法正确识别率为92.06%,使用PCA方法预处理结果正确识别率为50.79%;使用归一化方法,将样本矢量x转换正确识别率为92.06%;本发明提出的方法正确识别率为95.24%。
Description
技术领域
本发明属于数据处理技术领域,尤其涉及一种基于Fisher分类器组的离散型数据预处理方法。
背景技术
随着人工智能技术的不断发展,模拟人类嗅觉感知过程的人工嗅觉系统应运而生,该系统由“气体传感器阵列”和“模式识别”两大部分构成。其中,“气体传感器阵列”由多种具有广谱响应的气体传感器组成,对各种气体产生不同的“响应图谱”;“模式识别”部分则利用合适的数学模型对“响应图谱”进行判别,为保证识别结果的准确性与鲁棒性,通常需要在图谱数据进入“模式识别”方法之前进行“数据预处理”。
当前的人工嗅觉系统“数据预处理”方法主要包括主成分分析(PCA)、独立分量分析(ICA)、时频变换、归一化处理等。PCA以多维信号相关性作为判断准则,在降维过程中尽可能多地保留有用信息;ICA则以信号独立性为判断依据,对信号进行分解与重组,但存在信号分解过程中会损失原始信号中的幅度信息;时频变换则适用于有效信号与干扰信号频率特性明显相异的情况;归一化处理着重于解决信号幅度差异过大对模式识别方法造成的影响。然而,以上数据预处理方法的处理原则并不以最优分类为目标,即预处理过程中可能将有益于分类的信息剔除而保留某些对分类无用的信息,进而导致:对于同一分类器,往往数据经过预处理后的分类准确率弱于预处理前。因此需要一种以分类准确率为导向的数据预处理方法,保证在不增加分类器复杂度的情况下,获得较好的分类准确率。
发明内容
本发明的目的在于提供一种基于Fisher分类器组的离散型数据预处理方法,旨在解决现有的数据预处理方法导致对于同一分类器,往往数据经过预处理后的分类准确率弱于预处理前,分类准确率低的问题。
本发明提供一种基于Fisher分类器组的离散型数据预处理方法,该基于Fisher分类器组的离散型数据预处理方法为:
使用Fisher判别准则生成多个Fisher分类器,组成Fisher分类器组:对训练子集选择与生成,依据训练样本类别,由两类样本组成多个训练子集,
利用训练子集生成多个Fisher判别模型,并生成对应的多个Fisher分类器,多个Fisher分类形成Fisher分类器组;
每个样本原始数据按照Fisher分类器的规则进行映射:利用Fisher分类器组的输出获得一定的样本分类冗余信息,随后在离散型编码过程中减小奇异值和野值对后续分类器进行映射影响;
最后将映射结果的编码作为该样本数据预处理结果。
该基于Fisher分类器组的离散型数据预处理方法具体包括以下步骤:
步骤一、训练子集选择与生成:通过获得若干组观察数据与所属类别的信息作为算法模型建立的依据,每一条信息称为一个训练样本,若干训练样本组成训练集;若训练样本有k类,k≥2;则依据训练样本类别,由两类样本组成个训练子集,训练子集Xn表示为:
Xn={{xi},{xj}};
其中i,j∈{1,2,…,n}且i≠j,{xi}和{xj}分别表示训练集中第i和第j类样本的集合;
步骤二、Fisher分类器组:
利用训练子集Xn生成Fisher判别模型yn=fn(x),主要步骤如下:
1)求Xn中i,j两类样本的均值知
2)求类内散度矩阵Swn:
其中是的转置矩阵;
3)求类间散度矩阵Sbn:
4)求投影方向Wn:
Wn=Swn -1·Sbn;
5)求Fisher判别阈值w0n:
则得训练子集Xn对应的判别模型:yn=fn(x)=Wn·x-w0n;
6)按照步骤1)至步骤5)的方法求出每个训练子集对应的Fisher判别模型,生成个Fisher分类器,形成Fisher分类器组,则分类器组输出可表示为:
步骤三、离散型编码:
对Fisher分类器组输出yn进行编码,对于第n个分类器,输出1或者-1代表分类器判定出的样本类别,若分类器不能判定,输出为0;则编码后的输出y*的第n维表示为:
其中a(a>0)是为增强算法泛化性能而引入的松弛变量;若Fisher分类器组由k个分类器组成,则为数据预处理结果。
进一步,使用人工嗅觉系统对测试物质,进行分类识别,人工嗅觉系统由32个气敏传感器组成,每种测试物质进行12次采集,每次采集过程中清洁空气即基线采集时间为3分钟,被测物进样时间为3分钟,清洗时间为4分钟;
每次采集完成后,将第i个传感器的响应记为Δri:
其中为被测物进样阶段第i个传感器响应的平均值,为基线采集阶段第i个传感器响应的平均值,则每次采集可获得一个32维的样本,对于每种物质的样本,取其中3个作为训练样本,剩余为测试样本,松弛变量取a=1.3·|w0n|。
本发明所涉方法优势在于:
1、相较于其它数据预处理方法,利用Fisher分类器组将样本的类别信息作为先验知识,使预处理后的数据更易被正确分类;
2、利用多个简单的二分类器进行数据映射,为分类器在多分类场景下提供更多有用信息;
3、“离散型编码”可减小离散空间中奇异值和野值对后续分类器的影响;综上,本发明所涉方法可提高分类器在多分类识别中的正确率。
现有技术中,不采用任何预处理方法正确识别率为92.06%,使用PCA方法预处理结果正确识别率为50.79%;使用归一化方法,将样本矢量x转换正确识别率为92.06%;本发明提出的方法正确识别率为95.24%。
附图说明
图1是本发明实施例提供的基于Fisher分类器组的离散型数据预处理方法流程图。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
下面结合附图对本发明的应用原理作详细的描述。
如图1所示,本发明实施例的基于Fisher分类器组的离散型数据预处理方法包括以下步骤:
S101:使用Fisher判别准则生成多个Fisher分类器,组成Fisher分类器组:对训练子集选择与生成,依据训练样本类别,由两类样本组成多个训练子集,利用训练子集生成多个Fisher判别模型,并生成对应的多个Fisher分类器,多个Fisher分类形成Fisher分类器组;
S102:每个样本原始数据按照Fisher分类器的规则进行映射:利用Fisher分类器组的输出获得一定的样本分类冗余信息,随后在离散型编码过程中减小奇异值和野值对后续分类器进行映射影响;
S103:最后将映射结果的编码作为该样本数据预处理结果。
该基于Fisher分类器组的离散型数据预处理方法具体包括以下步骤:
步骤一、训练子集选择与生成:通过获得若干组观察数据与所属类别的信息作为算法模型建立的依据,每一条信息称为一个训练样本,若干训练样本组成训练集;若训练样本有k类,k≥2;则依据训练样本类别,由两类样本组成个训练子集,训练子集Xn表示为:
Xn={{xi},{xj}};
其中i,j∈{1,2,…,n}且i≠j,{xi}和{xj}分别表示训练集中第i和第j类样本的集合;
步骤二、Fisher分类器组:
利用训练子集Xn生成Fisher判别模型yn=fn{x),主要步骤如下:
1)求Xn中i,j两类样本的均值知
2)求类内散度矩阵Swn:
其中是的转置矩阵;
3)求类间散度矩阵Sbn:
4)求投影方向Wn:
Wn=Swn -1·Sbn;
5)求Fisher判别阈值w0n:
则得训练子集Xn对应的判别模型:yn=fn(x)=Wn·x-w0n;
6)按照步骤1)至步骤5)的方法求出每个训练子集对应的Fisher判别模型,生成个Fisher分类器,形成Fisher分类器组,则分类器组输出可表示为:
步骤三、离散型编码:
对Fisher分类器组输出yn进行编码,对于第n个分类器,输出1或者-1代表分类器判定出的样本类别,若分类器不能判定,输出为0;则编码后的输出y*的第n维表示为:
其中a(a>0)是为增强算法泛化性能而引入的松弛变量;若Fisher分类器组由k个分类器组成,则为数据预处理结果。
使用人工嗅觉系统对测试物质,进行分类识别,人工嗅觉系统由32个气敏传感器组成,每种测试物质进行12次采集,每次采集过程中清洁空气即基线采集时间为3分钟,被测物进样时间为3分钟,清洗时间为4分钟;
每次采集完成后,将第i个传感器的响应记为Δri:
其中为被测物进样阶段第i个传感器响应的平均值,为基线采集阶段第i个传感器响应的平均值,则每次采集可获得一个32维的样本,对于每种物质的样本,取其中3个作为训练样本,剩余为测试样本,松弛变量取a=1.3·|w0n|。
本发明利用Fisher分类器组的输出获得一定的样本分类冗余信息,随后在“离散型编码”过程中减小奇异值和野值对后续分类器的影响,最终可在不改变分类器性能的情况下,提高分类器的准确度;
下面结合具体实施例对本发明的应用原理作进一步描述。
实施例1:
使用人工嗅觉系统对七种物质,包括:啤酒、白酒、葡萄酒、绿茶、红茶、乌龙茶和普洱茶,进行分类识别。人工嗅觉系统由32个气敏传感器组成,系统对传感器阵列响应的采样速率为1Hz,采样精度为16bit。
每种测试物质进行12次采集,共计84次采集。每次采集过程中清洁空气(基线)采集时间为3分钟,被测物进样时间为3分钟,清洗时间为4分钟。
每次采集完成后,将第i个传感器的响应记为Δri:
其中为被测物进样阶段第i个传感器响应的平均值,为基线采集阶段第i个传感器响应的平均值,则每次采集可获得一个32维的样本,对于每种物质的样本,取其中3个作为训练样本,剩余为测试样本,松弛变量取a=1.3·|w0n|。
数据预处理方式有4种:
①不采用任何预处理方法;
②使用PCA方法并取第1和第2主成分作为预处理结果;
③使用归一化方法,将样本矢量x转换为:
④本发明提出的方法。
模式识别方法:k近邻法(k-NN)。
数据预处理方法 | 识别正确率 |
无(原始数据) | 92.06% |
PCA方法 | 50.79% |
归一化方法 | 92.06% |
本发明方法 | 95.24% |
以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明的保护范围之内。
Claims (3)
1.一种基于Fisher分类器组的离散型数据预处理方法,其特征在于,该基于Fisher分类器组的离散型数据预处理方法为:
使用Fisher判别准则生成多个Fisher分类器,组成Fisher分类器组:对训练子集选择与生成,依据训练样本类别,由两类样本组成多个训练子集;
利用训练子集生成多个Fisher判别模型,并生成对应的多个Fisher分类器,多个Fisher分类形成Fisher分类器组;
每个样本原始数据按照Fisher分类器的规则进行映射:利用Fisher分类器组的输出获得一定的样本分类冗余信息,随后在离散型编码过程中减小奇异值和野值对后续分类器进行映射影响;
最后将映射结果的编码作为该样本数据预处理结果。
2.如权利要求1所述的基于Fisher分类器组的离散型数据预处理方法,其特征在于,该基于Fisher分类器组的离散型数据预处理方法具体包括以下步骤:
步骤一、训练子集选择与生成:通过获得若干组观察数据与所属类别的信息作为算法模型建立的依据,每一条信息称为一个训练样本,若干训练样本组成训练集;若训练样本有k类,k≥2;则依据训练样本类别,由两类样本组成个训练子集,训练子集Xn表示为:
Xn={{xi},{xj}};
其中i,j∈{1,2,…,n}且i≠j,{xi}和{xj}分别表示训练集中第i和第j类样本的集合;
步骤二、Fisher分类器组:
利用训练子集Xn生成Fisher判别模型yn=fn(x),步骤如下:
1)求Xn中i,j两类样本的均值和
2)求类内散度矩阵Swn:
其中是的转置矩阵;
3)求类间散度矩阵Sbn:
4)求投影方向Wn:
Wn=Swn -1·Sbn;
5)求Fisher判别阈值w0n:
则得训练子集Xn对应的判别模型:yn=fn(x)=Wn·x-w0n;
6)按照步骤1)至步骤5)的方法求出每个训练子集对应的Fisher判别模型,生成个Fisher分类器,形成Fisher分类器组,则分类器组输出表示为:
步骤三、离散型编码:
对Fisher分类器组输出yn进行编码,对于第n个分类器,输出1或者-1代表分类器判定出的样本类别,若分类器不能判定,输出为0;则编码后的输出y*的第n维表示为:
其中a是为增强算法泛化性能而引入的松弛变量,a>0;若Fisher分类器组由k个分类器组成,则为数据预处理结果。
3.如权利要求1所述的基于Fisher分类器组的离散型数据预处理方法,其特征在于,使用人工嗅觉系统对测试物质,进行分类识别,人工嗅觉系统由32个气敏传感器组成,每种测试物质进行12次采集,每次采集过程中清洁空气即基线采集时间为3分钟,被测物进样时间为3分钟,清洗时间为4分钟;
每次采集完成后,将第i个传感器的响应记为Δri:
Δri=ri gas-ri base;
其中ri gas为被测物进样阶段第i个传感器响应的平均值,ri base为基线采集阶段第i个传感器响应的平均值,则每次采集获得32维样本,对于每种物质的样本,取其中3个作为训练样本,剩余为测试样本,松弛变量取a=1.3·|w0n|。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201610685995.9A CN106228199B (zh) | 2016-08-19 | 2016-08-19 | 一种基于Fisher分类器组的离散型数据预处理方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201610685995.9A CN106228199B (zh) | 2016-08-19 | 2016-08-19 | 一种基于Fisher分类器组的离散型数据预处理方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN106228199A true CN106228199A (zh) | 2016-12-14 |
CN106228199B CN106228199B (zh) | 2019-07-02 |
Family
ID=57553466
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201610685995.9A Active CN106228199B (zh) | 2016-08-19 | 2016-08-19 | 一种基于Fisher分类器组的离散型数据预处理方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN106228199B (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107748825A (zh) * | 2017-11-06 | 2018-03-02 | 四川大学 | 一种煤层采动裂隙场瓦斯压力测定系统 |
CN112229863A (zh) * | 2020-09-30 | 2021-01-15 | 上海海关工业品与原材料检测技术中心 | 一种铁矿石的原产国或品牌的鉴别方法 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102944583A (zh) * | 2012-11-30 | 2013-02-27 | 重庆大学 | 基于漂移补偿的金属氧化物气体传感器阵列浓度检测方法 |
CN104504407A (zh) * | 2014-12-17 | 2015-04-08 | 西南大学 | 基于多核Fisher判别分析的电子鼻特征选择优化方法 |
-
2016
- 2016-08-19 CN CN201610685995.9A patent/CN106228199B/zh active Active
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102944583A (zh) * | 2012-11-30 | 2013-02-27 | 重庆大学 | 基于漂移补偿的金属氧化物气体传感器阵列浓度检测方法 |
CN104504407A (zh) * | 2014-12-17 | 2015-04-08 | 西南大学 | 基于多核Fisher判别分析的电子鼻特征选择优化方法 |
Non-Patent Citations (2)
Title |
---|
JIAN ZHOU等: "Short communication:identification of geographical indication tea with fisher’s discriminant classification and principal components analysis", 《JOURNAL OF NEAR INFRARED SPECTROSCOPY》 * |
SHUNPING ZHANG: "An alternate method of hierarchical classication for E-nose:Combined fisher discriminant analysis and modified sammon mapping", 《SENSORS AND ACTUATORS B》 * |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107748825A (zh) * | 2017-11-06 | 2018-03-02 | 四川大学 | 一种煤层采动裂隙场瓦斯压力测定系统 |
CN112229863A (zh) * | 2020-09-30 | 2021-01-15 | 上海海关工业品与原材料检测技术中心 | 一种铁矿石的原产国或品牌的鉴别方法 |
Also Published As
Publication number | Publication date |
---|---|
CN106228199B (zh) | 2019-07-02 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Zhu et al. | Intelligent logging lithological interpretation with convolution neural networks | |
CN103728551B (zh) | 一种基于级联集成分类器的模拟电路故障诊断方法 | |
CN109165688A (zh) | 一种安卓恶意软件家族分类器构建方法及其分类方法 | |
CN111738309B (zh) | 多尺度分析和集成学习的气敏传感器故障模式识别方法 | |
CN113865868B (zh) | 基于时频域表达的滚动轴承故障诊断方法 | |
CN107085704A (zh) | 基于elm自编码算法的快速人脸表情识别方法 | |
CN106295708B (zh) | 一种基于Fisher分类器组的连续型数据预处理方法 | |
CN111562612B (zh) | 一种基于注意力机制的深度学习微震事件识别方法及系统 | |
CN110298085A (zh) | 基于XGBoost和随机森林算法的模拟电路故障诊断方法 | |
CN103412557A (zh) | 一种适于非线性过程在线监控的工业故障检测与诊断方法 | |
CN103336305B (zh) | 一种基于灰色理论划分致密砂岩储层岩石物理相的方法 | |
CN109323754A (zh) | 一种列车车轮多边形故障诊断检测方法 | |
CN105609116A (zh) | 一种语音情感维度区域的自动识别方法 | |
Lee et al. | Feature extraction using a deep learning algorithm for uncertainty quantification of channelized reservoirs | |
CN110532932A (zh) | 一种多分量雷达信号脉内调制方式识别方法 | |
CN107478418A (zh) | 一种旋转机械故障特征自动提取方法 | |
CN116248392B (zh) | 一种基于多头注意力机制的网络恶意流量检测系统及方法 | |
CN102158486A (zh) | 一种网络入侵快速检测方法 | |
CN112766283A (zh) | 一种基于多尺度卷积网络的两相流流型识别方法 | |
CN106446804A (zh) | 一种基于elm的多粒度虹膜识别方法 | |
CN104978569A (zh) | 一种基于稀疏表示的增量人脸识别方法 | |
CN103310235A (zh) | 一种基于参数识别与估计的隐写分析方法 | |
CN106228199A (zh) | 一种基于Fisher分类器组的离散型数据预处理方法 | |
CN103336830B (zh) | 基于结构语义直方图的图像检索方法 | |
CN102609733B (zh) | 海量人脸库应用环境下的人脸快速识别方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |