CN106295708A - 一种基于Fisher分类器组的连续型数据预处理方法 - Google Patents

一种基于Fisher分类器组的连续型数据预处理方法 Download PDF

Info

Publication number
CN106295708A
CN106295708A CN201610686502.3A CN201610686502A CN106295708A CN 106295708 A CN106295708 A CN 106295708A CN 201610686502 A CN201610686502 A CN 201610686502A CN 106295708 A CN106295708 A CN 106295708A
Authority
CN
China
Prior art keywords
fisher
training
samples
overbar
fisher classifier
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201610686502.3A
Other languages
English (en)
Other versions
CN106295708B (zh
Inventor
刘涛
李东琦
崔兴瑞
陈艳兵
武萌雅
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Chongqing University
Original Assignee
Chongqing University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Chongqing University filed Critical Chongqing University
Priority to CN201610686502.3A priority Critical patent/CN106295708B/zh
Publication of CN106295708A publication Critical patent/CN106295708A/zh
Application granted granted Critical
Publication of CN106295708B publication Critical patent/CN106295708B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • G06F18/2155Generating training patterns; Bootstrap methods, e.g. bagging or boosting characterised by the incorporation of unlabelled data, e.g. multiple instance learning [MIL], semi-supervised techniques using expectation-maximisation [EM] or naïve labelling
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2413Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on distances to training or reference patterns
    • G06F18/24133Distances to prototypes
    • G06F18/24143Distances to neighbourhood prototypes, e.g. restricted Coulomb energy networks [RCEN]

Landscapes

  • Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Theoretical Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Other Investigation Or Analysis Of Materials By Electrical Means (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种基于Fisher分类器组的连续型数据预处理方法,使用Fisher判别准则生成多个Fisher分类器,组成Fisher分类器组;将各样本原始数据输入Fisher分类器组获得输出,最后将这些输出结果通过非线性连续函数进行映射,并将映射结果作为数据预处理结果。用Fisher分类器组的输出获得一定的样本分类冗余信息,随后在“非线性连续函数”映射过程中减小奇异值和野值对后续分类器的影响,最终可在不改变分类器性能的情况下,提高分类器的准确度;本发明提出的方法正确识别率为96.83%。

Description

一种基于Fisher分类器组的连续型数据预处理方法
技术领域
本发明属于数据处理技术领域,尤其涉及一种基于Fisher分类器组的连续型数据预处理方法。
背景技术
随着人工智能技术的不断发展,模拟人类嗅觉感知过程的人工嗅觉系统应运而生,该系统由“气体传感器阵列”和“模式识别”两大部分构成。其中,“气体传感器阵列”由多种具有广谱响应的气体传感器组成,对各种气体产生不同的“响应图谱”;“模式识别”部分则利用合适的数学模型对“响应图谱”进行判别,为保证识别结果的准确性与鲁棒性,通常需要在图谱数据进入“模式识别”方法之前进行“数据预处理”。
当前的人工嗅觉系统“数据预处理”方法主要包括主成分分析(PCA)、独立分量分析(ICA)、时频变换、归一化处理等。PCA以多维信号相关性作为判断准则,在降维过程中尽可能多地保留有用信息;ICA则以信号独立性为判断依据,对信号进行分解与重组,但存在信号分解过程中会损失原始信号中的幅度信息;时频变换则适用于有效信号与干扰信号频率特性明显相异的情况;归一化处理着重于解决信号幅度差异过大对模式识别方法造成的影响。
然而,以上数据预处理方法的处理原则并不以最优分类为目标,即预处理过程中可能将有益于分类的信息剔除而保留某些对分类无用的信息,进而导致:对于同一分类器,往往数据经过预处理后的分类准确率弱于预处理前。因此需要一种以分类准确率为导向的数据预处理方法,保证在不增加分类器复杂度的情况下,获得较好的分类准确率。
发明内容
本发明的目的在于提供一种基于Fisher分类器组的连续型数据预处理方法,旨在解决背景技术中提及的问题。
本发明提供一种基于Fisher分类器的人工嗅觉系统数据预处理方法,该基于Fisher分类器的人工嗅觉系统数据预处理方法为:
使用Fisher判别准则生成多个Fisher分类器,组成Fisher分类器组:依据训练样本类别,由两类样本组成n个训练子集,利用训练子集Xn生成n个Fisher判别模型,生成n个Fisher分类器,形成Fisher分类器组;
将各样本原始数据输入Fisher分类器组获得输出,最后将这些输出结果通过非线性连续函数进行映射,并将映射结果作为数据预处理结果。
该基于Fisher分类器组的连续型数据预处理方法包括以下步骤:
步骤一、训练子集选择与生成:通过获得若干组观察数据与所属类别的信息作为算法模型建立的依据,每一条信息称为一个训练样本,若干训练样本组成训练集;若训练样本有k类,k≥2;则依据训练样本类别,由两类样本组成个训练子集,训练子集Xn表示为:
Xn={{xi},{xj}};
其中,i,j∈{1,2,…,n}且i≠j,{xi}和{xj}分别表示训练集中第i和第j类样本的集合;
步骤二、Fisher分类器组生成:
利用训练子集Xn生成Fisher判别模型yn=fn(x),步骤如下:
1)求Xn中i,j两类样本的均值
2)求类内散度矩阵Swn
S w n = Σ x ∈ { x i } ( x - x i ‾ ) ( x - x i ‾ ) T + Σ x ∈ { x j } ( x - x j ‾ ) ( x - x j ‾ ) T ;
其中的转置矩阵;
3)求类间散度矩阵Sbn
S b n = | x i ‾ - x j ‾ | ;
4)求投影方向Wn
Wn=Swn -1·Sbn
5)求Fisher判别阈值w0n
w 0 n = W n · ( x i ‾ + x j ‾ ) ;
则得训练子集Xn对应的判别模型:yn=fn(x)=Wn·x-w0n
6)按照步骤1)至步骤5)的方法求出每个训练子集对应的Fisher判别模型,生成个Fisher分类器,形成Fisher分类器组,则分类器组输出可表示为:
y ~ = { y 1 , y 2 , ... , y n } = { f 1 ( x ) , ... , f k ( k - 1 ) 2 ( x ) } ;
步骤三、非线性连续型函数映射方法包括:
利用非线性连续函数对Fisher分类器组输出进行映射,令为第n个Fisher分类器输出的非线性映射且:
其中a(a>0)是为增强算法泛化性能而引入的松弛变量;若Fisher分类器组由k个分类器组成,则为数据预处理结果。
进一步,使用人工嗅觉系统对测试物质,进行分类识别,人工嗅觉系统由32个气敏传感器组成,每种测试物质进行12次采集,每次采集过程中清洁空气即基线采集时间为3分钟,被测物进样时间为3分钟,清洗时间为4分钟;
每次采集完成后,将第i个传感器的响应记为Δri
Δr i = r i g a s - r i b a s e ;
其中为被测物进样阶段第i个传感器响应的平均值,为基线采集阶段第i个传感器响应的平均值,则每次采集可获得一个32维的样本,对于每种物质的样本,取其中3个作为训练样本,剩余为测试样本,松弛变量取a=5.76。
本发明所涉方法优势在于:
1、相较于其它数据预处理方法,利用Fisher分类器组将样本的类别信息作为先验知识,使预处理后的数据更易被正确分类;
2、利用多个简单的二分类器进行数据映射,为分类器在多分类场景下提供更多有用信息;
3、“非线性连续函数”映射可减小连续空间中奇异值和野值对后续分类器的影响;综上,本发明所涉方法可提高分类器在多分类识别中的正确率。
现有技术中,数据归一化后,不采用任何预处理方法正确识别率为92.06%,使用PCA方法并取第1和第2主成分作为预处理结果正确识别率为50.79%;本发明提出的方法正确识别率为96.83%。
附图说明
图1是本发明实施例提供的基于Fisher分类器组的连续型数据预处理方法流程图。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
下面结合附图对本发明的应用原理作详细的描述。
如图1所示:本发明实施例的基于Fisher分类器组的连续型数据预处理方法包括以下步骤:
S101:使用Fisher判别准则生成多个Fisher分类器,组成Fisher分类器组:依据训练样本类别,由两类样本组成n个训练子集,利用训练子集Xn生成n个Fisher判别模型,生成n个Fisher分类器,形成Fisher分类器组;
S102:将各样本原始数据输入Fisher分类器组获得输出,最后将这些输出结果通过非线性连续函数进行映射,并将映射结果作为数据预处理结果。
该基于Fisher分类器组的连续型数据预处理方法具体包括以下步骤:
步骤一、训练子集选择与生成:通过获得若干组观察数据与所属类别的信息作为算法模型建立的依据,每一条信息称为一个训练样本,若干训练样本组成训练集;若训练样本有k类,k≥2;则依据训练样本类别,由两类样本组成个训练子集,训练子集Xn表示为:
Xn={{xi},{xj}};
其中,i,j∈{1,2,…,n}且i≠j,{xi}和{xj}分别表示训练集中第i和第j类样本的集合;
步骤二、Fisher分类器组生成:
利用训练子集Xn生成Fisher判别模型yn=fn(x),步骤如下:
1)求Xn中i,j两类样本的均值
2)求类内散度矩阵Swn
S w n = Σ x ∈ { x i } ( x - x i ‾ ) ( x - x i ‾ ) T + Σ x ∈ { x j } ( x - x j ‾ ) ( x - x j ‾ ) T ;
其中的转置矩阵;
3)求类间散度矩阵Sbn
S b n = | x i ‾ - x j ‾ | ;
4)求投影方向Wn
Wn=Swn -1·Sbn
5)求Fisher判别阈值w0n
w 0 n = W n · ( x i ‾ + x j ‾ ) ;
则得训练子集Xn对应的判别模型:yn=fn(x)=Wn·x-w0n
6)按照步骤1)至步骤5)的方法求出每个训练子集对应的Fisher判别模型,生成个Fisher分类器,形成Fisher分类器组,则分类器组输出可表示为:
y ~ = { y 1 , y 2 , ... , y n } = { f 1 ( x ) , ... , f k ( k - 1 ) 2 ( x ) } ;
步骤三、非线性连续型函数映射方法包括:
利用非线性连续函数对Fisher分类器组输出进行映射,令为第n个Fisher分类器输出的非线性映射且:
其中a(a>0)是为增强算法泛化性能而引入的松弛变量;若Fisher分类器组由k个分类器组成,则为数据预处理结果。
下面结合具体实施例对本发明的应用原理作进一步描述。
实施例1:
使用人工嗅觉系统对七种物质,包括:啤酒、白酒、葡萄酒、绿茶、红茶、乌龙茶和普洱茶,进行分类识别。人工嗅觉系统由32个气敏传感器组成,系统对传感器阵列响应的采样速率为1Hz,采样精度为16bit。
每种测试物质进行12次采集,共计84次采集。每次采集过程中清洁空气(基线)采集时间为3分钟,被测物进样时间为3分钟,清洗时间为4分钟。
每次采集完成后,将第i个传感器的响应记为Δri
Δr i = r i g a s - r i b a s e ;
其中为被测物进样阶段第i个传感器响应的平均值,为基线采集阶段第i个传感器响应的平均值,则每次采集可获得一个32维的样本,样本共计84个。对于每种物质的样本,取其中3个作为训练样本,其余为测试样本。松弛变量取a=5.76。
数据预处理方式有3种:
①不采用任何预处理方法;
②使用PCA方法并取第1和第2主成分作为预处理结果;
③本发明提出的方法;
模式识别方法:k近邻法(k-NN)。
数据预处理方法 识别正确率
92.06%
PCA方法 50.79%
本专利方法 96.83%
以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明的保护范围之内。

Claims (3)

1.一种基于Fisher分类器组的连续型数据预处理方法,其特征在于,该基于Fisher分类器组的连续型数据预处理方法为:
使用Fisher判别准则生成n个Fisher分类器,组成Fisher分类器组:依据训练样本类别,由两类样本组成n个训练子集,利用训练子集Xn生成n个Fisher判别模型,生成n个Fisher分类器,形成Fisher分类器组;
将各样本原始数据输入Fisher分类器组获得输出,最后将输出结果通过非线性连续函数进行映射,并将映射结果作为数据预处理结果。
2.如权利要求1所述的基于Fisher分类器组的连续型数据预处理方法,其特征在于,该基于Fisher分类器组的连续型数据预处理方法包括以下步骤:
步骤一、训练子集选择与生成:通过获得若干组观察数据与所属类别的信息作为算法模型建立的依据,每一条信息称为一个训练样本,若干训练样本组成训练集;若训练样本有k类,k≥2;则依据训练样本类别,由两类样本组成个训练子集,训练子集Xn表示为:
Xn={{xi},{xj}};
其中,且i≠j,{xi}和{xj}分别表示训练集中第i和第j类样本的集合;
步骤二、Fisher分类器组生成:
利用训练子集Xn生成Fisher判别模型yn=fn(x),步骤如下:
1)求Xn中i,j两类样本的均值
2)求类内散度矩阵Swn
S w n = Σ x ∈ { x i } ( x - x i ‾ ) ( x - x i ‾ ) T + Σ x ∈ { x j } ( x - x j ‾ ) ( x - x j ‾ ) T ;
其中的转置矩阵;
3)求类间散度矩阵Sbn
S b n = | x i ‾ - x j ‾ | ;
4)求投影方向Wn
Wn=Swn -1·Sbn
5)求Fisher判别阈值w0n
w 0 n = W n · ( x i ‾ + x j ‾ ) ;
则得训练子集Xn对应的判别模型:yn=fn(x)=Wn·x-w0n
6)按照步骤1)至步骤5)的方法求出每个训练子集对应的Fisher判别模型,生成个Fisher分类器,形成Fisher分类器组,则分类器组输出表示为:
y ~ = { y 1 , y 2 , ... , y n } = { f 1 ( x ) , ... , f k ( k - 1 ) 2 ( x ) } ;
步骤三、非线性连续型函数映射方法包括:
利用非线性连续函数对Fisher分类器组输出进行映射,令为第n个Fisher分类器输出的非线性映射且:
其中a是为增强算法泛化性能而引入的松弛变量,a>0;若Fisher分类器组由k个分类器组成,则为数据预处理结果。
3.如权利要求1所述的基于Fisher分类器组的连续型数据预处理方法,其特征在于,使用人工嗅觉系统对测试物质,进行分类识别,人工嗅觉系统由32个气敏传感器组成,每种测试物质进行12次采集,每次采集过程中清洁空气即基线采集时间为3分钟,被测物进样时间为3分钟,清洗时间为4分钟;
每次采集完成后,将第i个传感器的响应记为Δri
Δr i = r i g a s - r i b a s e ;
其中为被测物进样阶段第i个传感器响应的平均值,为基线采集阶段第i个传感器响应的平均值,则每次采集获得32维样本,对于每种物质的样本,取其中3个作为训练样本,剩余为测试样本,松弛变量取a=5.76。
CN201610686502.3A 2016-08-19 2016-08-19 一种基于Fisher分类器组的连续型数据预处理方法 Active CN106295708B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201610686502.3A CN106295708B (zh) 2016-08-19 2016-08-19 一种基于Fisher分类器组的连续型数据预处理方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201610686502.3A CN106295708B (zh) 2016-08-19 2016-08-19 一种基于Fisher分类器组的连续型数据预处理方法

Publications (2)

Publication Number Publication Date
CN106295708A true CN106295708A (zh) 2017-01-04
CN106295708B CN106295708B (zh) 2019-07-19

Family

ID=57679933

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201610686502.3A Active CN106295708B (zh) 2016-08-19 2016-08-19 一种基于Fisher分类器组的连续型数据预处理方法

Country Status (1)

Country Link
CN (1) CN106295708B (zh)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107748825A (zh) * 2017-11-06 2018-03-02 四川大学 一种煤层采动裂隙场瓦斯压力测定系统
CN108054834A (zh) * 2017-12-20 2018-05-18 湖南工程学院 一种多级能源协调控制系统
CN108446718A (zh) * 2018-02-08 2018-08-24 同济大学 一种动态深度置信网络分析方法
CN108937967A (zh) * 2018-05-29 2018-12-07 智众伟业(天津)科技有限公司南宁分公司 一种基于vr技术的心理学记忆数据提升检测方法及系统
CN109033994A (zh) * 2018-07-03 2018-12-18 辽宁工程技术大学 一种基于卷积神经网络的人脸表情识别方法

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102507677A (zh) * 2011-11-01 2012-06-20 重庆大学 一种基于多重自组织神经网络的电子鼻漂移抑制方法
CN104504407A (zh) * 2014-12-17 2015-04-08 西南大学 基于多核Fisher判别分析的电子鼻特征选择优化方法

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102507677A (zh) * 2011-11-01 2012-06-20 重庆大学 一种基于多重自组织神经网络的电子鼻漂移抑制方法
CN104504407A (zh) * 2014-12-17 2015-04-08 西南大学 基于多核Fisher判别分析的电子鼻特征选择优化方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
JIAN ZHOU等: "Short communication:identification of geographical indication tea with fisher’s discriminant classification and principal components analysis", 《JOURNAL OF NEAR INFRARED SPECTROSCOPY》 *
SHUNPING ZHANG: "An alternate method of hierarchical classication for E-nose:Combined fisher discriminant analysis and modified sammon mapping", 《SENSORS AND ACTUATORS B》 *

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107748825A (zh) * 2017-11-06 2018-03-02 四川大学 一种煤层采动裂隙场瓦斯压力测定系统
CN108054834A (zh) * 2017-12-20 2018-05-18 湖南工程学院 一种多级能源协调控制系统
CN108446718A (zh) * 2018-02-08 2018-08-24 同济大学 一种动态深度置信网络分析方法
CN108446718B (zh) * 2018-02-08 2021-01-26 同济大学 一种动态深度置信网络分析方法
CN108937967A (zh) * 2018-05-29 2018-12-07 智众伟业(天津)科技有限公司南宁分公司 一种基于vr技术的心理学记忆数据提升检测方法及系统
CN109033994A (zh) * 2018-07-03 2018-12-18 辽宁工程技术大学 一种基于卷积神经网络的人脸表情识别方法
CN109033994B (zh) * 2018-07-03 2021-08-10 辽宁工程技术大学 一种基于卷积神经网络的人脸表情识别方法

Also Published As

Publication number Publication date
CN106295708B (zh) 2019-07-19

Similar Documents

Publication Publication Date Title
CN106295708B (zh) 一种基于Fisher分类器组的连续型数据预处理方法
CN103412003B (zh) 基于半监督领域自适应的气体检测方法
CN109559758B (zh) 一种基于深度学习的将纹理图像转换成触觉信号的方法
CN103412557A (zh) 一种适于非线性过程在线监控的工业故障检测与诊断方法
CN109635010B (zh) 一种用户特征及特征因子抽取、查询方法和系统
CN109323754A (zh) 一种列车车轮多边形故障诊断检测方法
CN105609116B (zh) 一种语音情感维度区域的自动识别方法
CN102722892A (zh) 基于低秩矩阵分解的sar图像变化检测方法
CN106778714B (zh) 基于非线性特征和模型合并的lda人脸识别方法
CN104298977A (zh) 一种基于不相关性约束的低秩表示人体行为识别方法
CN104538035A (zh) 一种基于Fisher超向量的说话人识别方法及系统
CN103714340B (zh) 基于图像分块的自适应特征提取方法
Pucci et al. Human activities classification using biaxial seismic sensors
CN112347910A (zh) 一种基于多模态深度学习的信号指纹识别方法
Zhang et al. Temporal Transformer Networks for Acoustic Scene Classification.
Song et al. A novel noise reduction technique for underwater acoustic signals based on dual‐path recurrent neural network
CN102609733B (zh) 海量人脸库应用环境下的人脸快速识别方法
CN115662444A (zh) 基于人工智能的电子印章语音交互式应用方法及系统
CN104318224A (zh) 一种人脸识别方法及监控设备
CN106056131A (zh) 基于lrr‑lda的图像特征提取方法
CN104715263A (zh) 一种基于哈尔特征和特征脸识别的人脸识别方法
CN106228199B (zh) 一种基于Fisher分类器组的离散型数据预处理方法
CN102332087A (zh) 一种基于稀疏表示的人脸识别方法
Chuchra et al. A deep learning approach for splicing detection in digital audios
CN113674756B (zh) 基于短时傅里叶变换和bp神经网络的频域盲源分离方法

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant