CN106228199A

CN106228199A - 一种基于Fisher分类器组的离散型数据预处理方法

Info

Publication number: CN106228199A
Application number: CN201610685995.9A
Authority: CN
Inventors: 刘涛; 武萌雅; 陈艳兵; 李东琦; 崔兴瑞
Original assignee: Chongqing University
Current assignee: Chongqing University
Priority date: 2016-08-19
Filing date: 2016-08-19
Publication date: 2016-12-14
Anticipated expiration: 2036-08-19
Also published as: CN106228199B

Abstract

本发明公开了一种基于Fisher分类器组的离散型数据预处理方法，使用Fisher判别准则生成多个Fisher分类器，多个Fisher分类形成Fisher分类器组；利用Fisher分类器组的输出获得一定的样本分类冗余信息，随后在离散型编码过程中减小奇异值和野值对后续分类器进行映射影响；最后将映射结果的编码作为该样本数据预处理结果。本发明可在不改变分类器性能的情况下，提高分类器的准确度；现有技术中，不采用任何预处理方法正确识别率为92.06％，使用PCA方法预处理结果正确识别率为50.79％；使用归一化方法，将样本矢量x转换正确识别率为92.06％；本发明提出的方法正确识别率为95.24％。

Description

一种基于Fisher分类器组的离散型数据预处理方法

技术领域

本发明属于数据处理技术领域，尤其涉及一种基于Fisher分类器组的离散型数据预处理方法。

背景技术

随着人工智能技术的不断发展，模拟人类嗅觉感知过程的人工嗅觉系统应运而生，该系统由“气体传感器阵列”和“模式识别”两大部分构成。其中，“气体传感器阵列”由多种具有广谱响应的气体传感器组成，对各种气体产生不同的“响应图谱”；“模式识别”部分则利用合适的数学模型对“响应图谱”进行判别，为保证识别结果的准确性与鲁棒性，通常需要在图谱数据进入“模式识别”方法之前进行“数据预处理”。

当前的人工嗅觉系统“数据预处理”方法主要包括主成分分析(PCA)、独立分量分析(ICA)、时频变换、归一化处理等。PCA以多维信号相关性作为判断准则，在降维过程中尽可能多地保留有用信息；ICA则以信号独立性为判断依据，对信号进行分解与重组，但存在信号分解过程中会损失原始信号中的幅度信息；时频变换则适用于有效信号与干扰信号频率特性明显相异的情况；归一化处理着重于解决信号幅度差异过大对模式识别方法造成的影响。然而，以上数据预处理方法的处理原则并不以最优分类为目标，即预处理过程中可能将有益于分类的信息剔除而保留某些对分类无用的信息，进而导致：对于同一分类器，往往数据经过预处理后的分类准确率弱于预处理前。因此需要一种以分类准确率为导向的数据预处理方法，保证在不增加分类器复杂度的情况下，获得较好的分类准确率。

发明内容

本发明的目的在于提供一种基于Fisher分类器组的离散型数据预处理方法，旨在解决现有的数据预处理方法导致对于同一分类器，往往数据经过预处理后的分类准确率弱于预处理前，分类准确率低的问题。

本发明提供一种基于Fisher分类器组的离散型数据预处理方法，该基于Fisher分类器组的离散型数据预处理方法为：

使用Fisher判别准则生成多个Fisher分类器，组成Fisher分类器组：对训练子集选择与生成，依据训练样本类别，由两类样本组成多个训练子集，

利用训练子集生成多个Fisher判别模型，并生成对应的多个Fisher分类器，多个Fisher分类形成Fisher分类器组；

每个样本原始数据按照Fisher分类器的规则进行映射：利用Fisher分类器组的输出获得一定的样本分类冗余信息，随后在离散型编码过程中减小奇异值和野值对后续分类器进行映射影响；

最后将映射结果的编码作为该样本数据预处理结果。

该基于Fisher分类器组的离散型数据预处理方法具体包括以下步骤：

步骤一、训练子集选择与生成：通过获得若干组观察数据与所属类别的信息作为算法模型建立的依据，每一条信息称为一个训练样本，若干训练样本组成训练集；若训练样本有k类，k≥2；则依据训练样本类别，由两类样本组成个训练子集，训练子集X_n表示为：

X_n＝{{x_i}，{x_j}}；

其中i，j∈{1，2，…，n}且i≠j，{x_i}和{x_j}分别表示训练集中第i和第j类样本的集合；

步骤二、Fisher分类器组：

利用训练子集X_n生成Fisher判别模型y_n＝f_n(x)，主要步骤如下：

1)求X_n中i，j两类样本的均值知

2)求类内散度矩阵S_wn：

S_{w n} = \underset{x &Element; {x_{i}}}{Σ} (x - \overset{&OverBar;}{x_{i}}) {(x - \overset{&OverBar;}{x_{i}})}^{T} + \underset{x &Element; {x_{j}}}{Σ} (x - \overset{&OverBar;}{x_{j}}) {(x - \overset{&OverBar;}{x_{j}})}^{T};

其中是的转置矩阵；

3)求类间散度矩阵S_bn：

S_{b n} = | \overset{&OverBar;}{x_{i}} - \overset{&OverBar;}{x_{j}} |;

4)求投影方向W_n：

W_n＝S_wn ^-1·S_bn；

5)求Fisher判别阈值w_0n：

w_{0 n} = W_{n} \cdot (\overset{&OverBar;}{x_{i}} + \overset{&OverBar;}{x_{j}});

则得训练子集X_n对应的判别模型：y_n＝f_n(x)＝W_n·x-w_0n；

6)按照步骤1)至步骤5)的方法求出每个训练子集对应的Fisher判别模型，生成个Fisher分类器，形成Fisher分类器组，则分类器组输出可表示为：

步骤三、离散型编码：

对Fisher分类器组输出y_n进行编码，对于第n个分类器，输出1或者-1代表分类器判定出的样本类别，若分类器不能判定，输出为0；则编码后的输出y*的第n维表示为：

y_{n}^{*} = \{\begin{matrix} - 1, & (- | w_{0 n} | - a) \leq y_{n} \leq (- | w_{0 n} | + a) \\ 1, & (| w_{0 n} | - a) \leq y_{n} \leq (| w_{0 n} | + a) \\ 0, & o t h e r w i s e \end{matrix};

其中a(a＞0)是为增强算法泛化性能而引入的松弛变量；若Fisher分类器组由k个分类器组成，则为数据预处理结果。

进一步，使用人工嗅觉系统对测试物质，进行分类识别，人工嗅觉系统由32个气敏传感器组成，每种测试物质进行12次采集，每次采集过程中清洁空气即基线采集时间为3分钟，被测物进样时间为3分钟，清洗时间为4分钟；

每次采集完成后，将第i个传感器的响应记为Δr_i：

{Δr}_{i} = {r_{i}}^{g a s} - {r_{i}}^{b a s e};

其中为被测物进样阶段第i个传感器响应的平均值，为基线采集阶段第i个传感器响应的平均值，则每次采集可获得一个32维的样本，对于每种物质的样本，取其中3个作为训练样本，剩余为测试样本，松弛变量取a＝1.3·|w_0n|。

本发明所涉方法优势在于：

1、相较于其它数据预处理方法，利用Fisher分类器组将样本的类别信息作为先验知识，使预处理后的数据更易被正确分类；

2、利用多个简单的二分类器进行数据映射，为分类器在多分类场景下提供更多有用信息；

3、“离散型编码”可减小离散空间中奇异值和野值对后续分类器的影响；综上，本发明所涉方法可提高分类器在多分类识别中的正确率。

现有技术中，不采用任何预处理方法正确识别率为92.06％，使用PCA方法预处理结果正确识别率为50.79％；使用归一化方法，将样本矢量x转换正确识别率为92.06％；本发明提出的方法正确识别率为95.24％。

附图说明

图1是本发明实施例提供的基于Fisher分类器组的离散型数据预处理方法流程图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。

下面结合附图对本发明的应用原理作详细的描述。

如图1所示，本发明实施例的基于Fisher分类器组的离散型数据预处理方法包括以下步骤：

S101：使用Fisher判别准则生成多个Fisher分类器，组成Fisher分类器组：对训练子集选择与生成，依据训练样本类别，由两类样本组成多个训练子集，利用训练子集生成多个Fisher判别模型，并生成对应的多个Fisher分类器，多个Fisher分类形成Fisher分类器组；

S102：每个样本原始数据按照Fisher分类器的规则进行映射：利用Fisher分类器组的输出获得一定的样本分类冗余信息，随后在离散型编码过程中减小奇异值和野值对后续分类器进行映射影响；

S103：最后将映射结果的编码作为该样本数据预处理结果。

X_n＝{{x_i}，{x_j}}；

步骤二、Fisher分类器组：

利用训练子集X_n生成Fisher判别模型y_n＝f_n{x)，主要步骤如下：

1)求X_n中i，j两类样本的均值知

2)求类内散度矩阵S_wn：

S_{w n} = \underset{x &Element; {x_{i}}}{Σ} (x - \overset{&OverBar;}{x_{i}}) {(x - \overset{&OverBar;}{x_{i}})}^{T} + \underset{x &Element; {x_{j}}}{Σ} (x - \overset{&OverBar;}{x_{j}}) {(x - \overset{&OverBar;}{x_{j}})}^{T};

其中是的转置矩阵；

3)求类间散度矩阵S_bn：

S_{b n} = | \overset{&OverBar;}{x_{i}} - \overset{&OverBar;}{x_{j}} |;

4)求投影方向W_n：

W_n＝S_wn ^-1·S_bn；

5)求Fisher判别阈值w_0n：

w_{0 n} = W_{n} \cdot (\overset{&OverBar;}{x_{i}} + \overset{&OverBar;}{x_{j}});

则得训练子集X_n对应的判别模型：y_n＝f_n(x)＝W_n·x-w_0n；

\tilde{y} = {y_{1}, y_{2}, ..., y_{n}} = {f_{1} (x), ..., f_{\frac{k (k - 1)}{2}} (x)};

步骤三、离散型编码：

y_{n}^{*} = \{\begin{matrix} - 1, & (- | w_{0 n} | - a) \leq y_{n} \leq (- | w_{0 n} | + a) \\ 1, & (| w_{0 n} | - a) \leq y_{n} \leq (| w_{0 n} | + a) \\ 0, & o t h e r w i s e \end{matrix};

使用人工嗅觉系统对测试物质，进行分类识别，人工嗅觉系统由32个气敏传感器组成，每种测试物质进行12次采集，每次采集过程中清洁空气即基线采集时间为3分钟，被测物进样时间为3分钟，清洗时间为4分钟；

每次采集完成后，将第i个传感器的响应记为Δr_i：

{Δr}_{i} = {r_{i}}^{g a s} - {r_{i}}^{b a s e};

本发明利用Fisher分类器组的输出获得一定的样本分类冗余信息，随后在“离散型编码”过程中减小奇异值和野值对后续分类器的影响，最终可在不改变分类器性能的情况下，提高分类器的准确度；

下面结合具体实施例对本发明的应用原理作进一步描述。

实施例1：

使用人工嗅觉系统对七种物质，包括：啤酒、白酒、葡萄酒、绿茶、红茶、乌龙茶和普洱茶，进行分类识别。人工嗅觉系统由32个气敏传感器组成，系统对传感器阵列响应的采样速率为1Hz，采样精度为16bit。

每种测试物质进行12次采集，共计84次采集。每次采集过程中清洁空气(基线)采集时间为3分钟，被测物进样时间为3分钟，清洗时间为4分钟。

每次采集完成后，将第i个传感器的响应记为Δr_i：

{Δr}_{i} = {r_{i}}^{g a s} - {r_{i}}^{b a s e};

数据预处理方式有4种：

①不采用任何预处理方法；

②使用PCA方法并取第1和第2主成分作为预处理结果；

③使用归一化方法，将样本矢量x转换为：

④本发明提出的方法。

模式识别方法：k近邻法(k-NN)。

数据预处理方法	识别正确率
		无(原始数据)	92.06％
PCA方法	50.79％
		归一化方法	92.06％
本发明方法	95.24％

以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等，均应包含在本发明的保护范围之内。

Claims

1.一种基于Fisher分类器组的离散型数据预处理方法，其特征在于，该基于Fisher分类器组的离散型数据预处理方法为：

使用Fisher判别准则生成多个Fisher分类器，组成Fisher分类器组：对训练子集选择与生成，依据训练样本类别，由两类样本组成多个训练子集；

最后将映射结果的编码作为该样本数据预处理结果。

2.如权利要求1所述的基于Fisher分类器组的离散型数据预处理方法，其特征在于，该基于Fisher分类器组的离散型数据预处理方法具体包括以下步骤：

X_n＝{{x_i}，{x_j}}；

步骤二、Fisher分类器组：

利用训练子集X_n生成Fisher判别模型y_n＝f_n(x)，步骤如下：

1)求X_n中i，j两类样本的均值和

2)求类内散度矩阵S_wn：

S_{w n} = \underset{x &Element; {x_{i}}}{Σ} (x - \overset{&OverBar;}{x_{i}}) {(x - \overset{&OverBar;}{x_{i}})}^{T} + \underset{x &Element; {x_{j}}}{Σ} (x - \overset{&OverBar;}{x_{j}}) {(x - \overset{&OverBar;}{x_{j}})}^{T};

其中是的转置矩阵；

3)求类间散度矩阵S_bn：

S_{b n} = | \overset{&OverBar;}{x_{i}} - \overset{&OverBar;}{x_{j}} |;

4)求投影方向W_n：

W_n＝S_wn ^-1·S_bn；

5)求Fisher判别阈值w_0n：

w_{0 n} = W_{n} \cdot (\overset{&OverBar;}{x_{i}} + \overset{&OverBar;}{x_{j}});

则得训练子集X_n对应的判别模型：y_n＝f_n(x)＝W_n·x-w_0n；

6)按照步骤1)至步骤5)的方法求出每个训练子集对应的Fisher判别模型，生成个Fisher分类器，形成Fisher分类器组，则分类器组输出表示为：

\tilde{y} = {y_{1}, y_{2}, ..., y_{n}} = {f_{1} (x), ..., f_{\frac{k (k - 1)}{2}} (x)};

步骤三、离散型编码：

y_{n}^{*} = \{\begin{matrix} - 1, & (- | w_{0 n} | - a) \leq y_{n} \leq (- | w_{0 n} | + a) \\ 1, & (| w_{0 n} | - a) \leq y_{n} \leq (| w_{0 n} | + a) \\ 0, & o t h e r w i s e \end{matrix};

其中a是为增强算法泛化性能而引入的松弛变量，a＞0；若Fisher分类器组由k个分类器组成，则为数据预处理结果。

3.如权利要求1所述的基于Fisher分类器组的离散型数据预处理方法，其特征在于，使用人工嗅觉系统对测试物质，进行分类识别，人工嗅觉系统由32个气敏传感器组成，每种测试物质进行12次采集，每次采集过程中清洁空气即基线采集时间为3分钟，被测物进样时间为3分钟，清洗时间为4分钟；

每次采集完成后，将第i个传感器的响应记为Δr_i：

Δr_i＝r_i ^gas-r_i ^base；

其中r_i ^gas为被测物进样阶段第i个传感器响应的平均值，r_i ^base为基线采集阶段第i个传感器响应的平均值，则每次采集获得32维样本，对于每种物质的样本，取其中3个作为训练样本，剩余为测试样本，松弛变量取a＝1.3·|w_0n|。