CN102890718A

CN102890718A - 基于有监督显式流形学习算法的电子鼻数据挖掘方法

Info

Publication number: CN102890718A
Application number: CN2012103825859A
Authority: CN
Inventors: 田逢春; 贾鹏飞; 樊澍; 冯敬伟; 刘涛; 刘颖; 赵贞贞
Original assignee: Chongqing University
Current assignee: Chongqing University
Priority date: 2012-10-10
Filing date: 2012-10-10
Publication date: 2013-01-23
Anticipated expiration: 2032-10-10
Also published as: CN102890718B

Abstract

本发明涉及一种有监督显式流形学习算法进行电子鼻数据挖掘的方法。其中显式流形学习算法对电子鼻数据进行数据挖掘的方法的步骤包括：气体样本的采集、气体样本的特征提取、确定特征值矩阵中各点的近邻、计算任意两特征值点的关系和显式流形算法的数据降维。有监督的显式流形学习算法对电子鼻数据进行数据挖掘包括上述全部步骤并在气体样本的特征提取后增加一步：考虑类别信息确定特征值矩阵中各点的近邻。本发明的有益效果为：利用显式流形学习算法进行电子鼻数据降维，给出了显式降维表达式；利用有监督流形学习算进行电子鼻数据降维，考虑到了特征值矩阵中不同来源的各点之间的关系差异，这一细节信息的保留是电子鼻系统高判别率的保障。

Description

基于有监督显式流形学习算法的电子鼻数据挖掘方法

技术领域

本发明涉及电子鼻气体检测领域，具体涉及一种基于有监督显式流形学习算法的电子鼻数据挖掘方法。

背景技术

现代电子鼻系统的气体传感器阵列通常包含数十个气味传感器，其中光学型传感器阵列甚至包含成百上千个传感单元，由此阵列获得的气体样本数据的维数相当庞大，直接将该样本数据输入到人工智能算法进行模式判别的效果非常不理想，这主要是因为电子鼻的传感器阵列具有交叉敏感性的特点，即对同一种气体，传感器阵列中的多个单元都会做出响应，这样在降低因个别传感器工作异常影响系统决策风险的同时也增加了数据的冗余度。

电子鼻数据挖掘处理包括特征提取和降维，其中特征提取是对单个传感器获得的数据进行处理，提取能够表征所采集的气体信号的特征量，构成特征值矩阵。目前特征提取方法发展的比较成熟，现有方法完全能满足电子鼻数据特征提取的要求；降维主要是对特征值矩阵进行维数约减。因为电子鼻数据具有特殊性，因此许多传统的降维算法在对维数进行约减的同时，常发生关键信息的丢失，导致电子鼻在具体应用过程中发生误判，无法满足其应用要求。

电子鼻作为人工模拟嗅觉系统，为了使系统能够“深刻记忆”某气体的特征，需要大量采集该气体样本，同时为了使系统能够对多种气体进行判别，需要采集多种气体的样本数据供电子鼻系统训练。由此导致用于电子鼻训练的样本数据具有非线性、非均匀分布的特征，传统的数据降维算法像主成分分析（(Principal Component Analysis，PCA）属于线性降维方法，对待降维数据整体使用统一的映射处理，导致许多局部结构信息在降维过程中被丢弃，使得电子鼻因关键信息的丢失而做出错误的决策。

流形学习算法是一种着眼于局部结构保持的数据降维方法，在进行降维的同时，将原数据的局部结构信息传递给降维后的数据，既降低了数据的冗余度又保留了关键信息，是一种理想的数据降维方法，但传统的流形学习算法在对电子鼻数据进行降维的过程中出现了两个问题：

1.因为流形学习算法着眼于局部结构保持，因此无法给出显式映射表达式，这导致其只能对电子鼻系统的训练用数据进行降维，而无法对新采集数据进行降维，导致采用流形学习算法的电子鼻系统无法应用到气体检测的实践环节；

2.传统的流形学习算法是无监督算法，对电子鼻系统的训练用数据的局部结构进行保持时，没有考虑类内与类间特征值点之间关系的差异，这一细节信息的忽略直接导致电子鼻进行模式判别时出现错误。

从目前的国内文献研究中，未曾看到有关使用有监督显式流形学习算法进行电子鼻数据挖掘的报道。

发明内容

本发明所要解决的第一个技术问题就是提供一种基于显式流形学习算法的电子鼻数据挖掘方法，它能够在降维过程中保持数据的局部结构并给出显式映射表达式，使得电子鼻系统能够用于新采集数据的判别。

本发明所要解决的第二个技术问题就是提供一种基于有监督显式流形学习算法的电子鼻数据挖掘方法，它能够在降维时考虑到类内和类间特征值点的关系差异，提高电子鼻系统模式判别的正确率。

为了解决本发明所提出的第一个技术问题，本发明包括以下步骤：

步骤1、气体样本的采集

调整实验室温、湿度环境，使得电子鼻系统的各传感器能够正常工作，对不同种类气体中的每一个样本，均进行不少于20次的气体采集实验，获得电子鼻训练用数据；

步骤2、气体样本的特征提取

对获得的电子鼻训练数据进行特征提取，并构成特征值矩阵X，矩阵X的维数是[m×n]，其中m表示特征值点的总数，在数值上等于气体采样实验的总次数，n表示每一个特征值点的维数，由传感器阵列中传感器个数和特征提取方法共同决定，常见的特征提取方法主要包括：

1、基于传感器原始响应曲线，该类方法主要对气体传感器的响应曲线进行特征提取，常用的特征包括：最大值、斜率、响应曲线的积分面积等；

2、基于拟合曲线，该类方法首先使用适当的模型拟合原始响应曲线，然后再提取模型参数作为特征，常见的用于电子鼻数据拟合的模型有多项式模型、指数模型、分式函数模型等；

3、基于变换域的特征提取方法，首先对原始响应进行适当的变换，然后提取变换系数作为特征，常见的电子鼻数据变换域特征提取方法包括：傅里叶变换、小波变换等；

步骤3、确定特征值矩阵中各点的近邻

确定特征值矩阵中每个点的近邻，常用的确定近邻关系有两种方法：

1、ε-bal法：在以点x_i,i＝1,..n为圆心，以ε为半径的范围内的所有点都是x_i的近邻；

2、k-nearest法：离点x_i最近的k个点是x_i的近邻且k＜n；

步骤4、计算任意两特征值点的关系

如果特征值矩阵X中点x_j是x_i的近邻点，那么两者之间的关系w_i,j按照某一规则取一个不为零的正数且x_i与x_j的关系越紧密w_i,j的值就越大；如果特征值点x_j不是x_i的近邻点，那么两者之间的关系w_i,j＝0；

步骤5、显式流形学习算法的数据降维

Y^T=AX^T

其中，Y^T是低维目标矩阵Y的转置形式，矩阵Y的维数是[m×l]，m表示点的总数，等于矩阵X中特征值点的总数，l表示每一个点的维数且l＜n，A是显式映射系数矩阵，特征值矩阵中的点x_i和点x_j的近邻关系通过w_i,j传递给目标矩阵Y中的点y_i和点y_j，常用的近邻关系传递方法如下式所示：

\min \underset{i, j}{Σ} {(y_{i} - y_{j})}^{2} w_{i, j}

其中，y_i和点y_j分别是目标矩阵Y中元素且i≠j，若特征值矩阵X中点x_i和x_j是近邻且两者距离越近，其近邻关系w_i,j的值就会越大，此时上式要取最小值，则(y_i-y_j)²项的值就必须尽量的小，如此，将特征值矩阵中的点x_i和点x_j的近邻关系传递给了目标矩阵Y中的点y_i和点y_j，然后通过求解上式所描述的最优化问题得到显式映射系数矩阵A，得到显式映射表达式并完成降维。

为了解决本发明所提出的第二个技术问题，本发明的技术方案为：

包括上述的基于显式流形学习算法对电子鼻数据进行数据挖掘的全部步骤，并在步骤2后增加一个步骤A。

步骤A、考虑类别信息确定特征值矩阵中各点的近邻

将近邻关系的确定限定在特征值矩阵中的同类别点之间进行，如果点x_i和x_j来源于同一类气体，则进入步骤3判断x_j是否是x_i的近邻点；如果点x_i和x_j来源于不同气体，则跳过近邻关系判断，直接令点x_i和x_j的关系w_i,j＝0。

本发明的有益效果为：

1、本发明利用显式流形学习算法进行电子鼻数据降维，给出了流形学习算法的显式降维表达式，解决了流形学习算法无法对电子鼻系统获得的新数据进行判别的难题；

2、本发明利用有监督流形学习算进行电子鼻数据降维，考虑到了特征值矩阵中不同来源的各点之间的关系差异，这一细节信息的保留是电子鼻系统高判别正确率的保障。

附图说明

本发明的附图说明如下：

图1为本发明流程框图；

图2为TGS825对绿脓杆菌伤口的顶空代谢气体的响应曲线；

图3为电子鼻系统的特征值矩阵结构；

图4为k-nearest近邻关系示意图；

图5为实验数据分组处理过程流程图。

具体实施方式

下面结合具体实施例和说明书附图对本发明作进一步说明。此处所描述的具体实施例仅用以解释本发明，并不用于限定本发明。

在实施例中，电子鼻系统用于伤口感染诊断，主要涉及临床上常见的伤口病原菌感染。本发明的显式流形学习算法采用局部保持映射算法（LocalityPreserving Projections，LPP），有监督流形学习算法采用有监督的局部保持映射算法（Supervised Locality Preserving Projections，S-LPP）。

本发明的实施例中，基于LPP的电子鼻数据挖掘方法，包括以下步骤：

步骤1、气体样本的采集

本实施例所使用的电子鼻系统的传感器阵列由15个气体传感器构成，分别是TGS800、TGS813、TGS816、TGS822、TGS825、TGS826、TGS2600、TGS2602、TGS2620、WSP2111、MQ135、MQ138、QS-01、SP3S-AQ2和AQ，因此获得的电子鼻原始响应数据的维数是15。将实验室温、湿度环境控制在能使各传感器正常工作的范围内并开展动物实验，实验中20只大鼠被平分成4组，按照组别每组大鼠伤口分别感染不同的病原菌，使用构建的电子鼻系统对每只大鼠伤口的气体代谢产物进行采样，每个伤口重复采样5次，共获得80个电子鼻原始响应矩阵。其中，TGS825对绿脓杆菌伤口的顶空代谢气体的响应曲线如图2所示。

步骤2、气体样本的特征提取

将传感器阵列的原始响应矩阵中每个传感器的响应曲线的最大值点作为用来表征气体的特征点，共得到80个维数是15的电子鼻数据特征值点，表示成[80×15]的特征值矩阵，该矩阵的具体信息如图2所示。

步骤3、确定特征值矩阵中各点的近邻

在本实施例中使用k-nearest法确定特征值矩阵中点x_i,i＝1,2,...,80的近邻点，k-nearest法确定近邻的示意图如图4所示。

步骤4、计算任意两特征值点的关系

在本实施例中使用热核法确定特征值点x_i和x_j的关系，如果x_j是x_i的近邻点，则点x_i和x_j的关系

，否则w_i,j＝0。

步骤5、LPP对电子鼻数据的降维

LPP算法中将特征值矩阵中点之间的近邻关系保持到目标矩阵的过程如下所示：

\min \underset{i, j}{Σ} {(y_{i} - y_{j})}^{2} w_{i, j},

i＝1，...，80；j＝1，...，80且i≠j

其中，y_i和y_j分别是目标矩阵Y中元素，将Y^T=AX^T代入上式并使用拉格朗日乘数法对该最优化问题进行求解，最终得到下式：

XLX^TA＝λXDX^TA

其中，λ是拉格朗日系数，L＝D-W，D中元素

W是由w_i，j构成的矩阵。

按照求解特征值和特征向量的方式求解上式便可最终得到显式映射系数矩阵A并完成降维。

本发明提出的基于有监督显式流形学习算法进行电子鼻数据挖掘的方法包括上述的LPP算法对电子鼻数据进行数据挖掘的全部步骤，并在步骤2后增加一个步骤A。

步骤A、考虑类别信息确定特征值矩阵中各点近邻

如果特征值矩阵中点x_i和x_j来源于同一类气体，则进入步骤3判断x_j是否是x_i的近邻点；如果点x_i和x_j来源于不同类气体，则跳过近邻关系判断，直接令点w_i，j＝0。

本发明的实验效果

为证明本发明在实施实例中的降维效果，本实验设定不同对照组分别采用不同的降维方法对电子鼻系统的特征值矩阵进行降维：第一组不使用任何降维方法；第二组使用PCA法；第三组采用LPP算法；第四组采用S-LPP算法。为了排除降维算法应用的局限性，将经过以上不同方法处理的数据分别输入到径向基网络（Radial Basis Function，RBF）和支持向量机（SupportVector Machine，SVM）两种人工智能机中进行伤口模式判别。预设可容忍的目标矩阵Y的维数l≤7。数据分组处理过程如图5所示，分组实验结果如表1、表2所示。

表1

	目标维数	RBF识别率
			不降维	15	82.5%
PCA	7	72.5%
			LPP	7	75%
S-LPP	7	90%

备注：识别率等于正确分类的点的个数/总个数（本实施例中特征值矩阵中点的总数是80）。

表2

	目标维数	SVM识别率
			不降维	15	85%
PCA	7	76.25%
			LPP	7	77.5%
S-LPP	7	93.75%

从表1、表2中可以看到，特征值矩阵如果不降维直接送进人工智能机进行模式判别的正确率仅为82.5%、85%；使用PCA算法时人工智能机的分类正确率明显下降，表明虽在处理过程中降低了数据维数但却丢失了重要信息；表1、表2中当LPP算法的目标维数设定为7时，RBF和SVM的识别正确率虽高于PCA组但仍低于未降维组，说明在降维过程中局部结构没有得到保持；对于两个不同的人工智能机，使用S-LPP算法进行降维后，数据维数降低的同时，智能机的分类正确率却达到了最高，达到了数据降维且最大程度保留数据结构等关键信息的目的，表明类别是非常重要的局部结构信息。实验证明了有监督显式流形学习算法对电子鼻数据进行数据挖掘的优秀表现。

Claims

1.基于显式流形学习算法的电子鼻数据挖掘方法，其特征是，该方法包括以下步骤：

步骤1、气体样本的采集

步骤2、气体样本的特征提取

步骤3、确定特征值矩阵中各点的近邻

1、ε-ball法：在以点x_i,i＝1,..n为圆心，以ε为半径的范围内的所有点都是x_i的近邻；

2、k-nearest法：离点x_i最近的k个点是x_i的近邻且k＜n；

步骤4、计算任意两特征值点的关系

步骤5、显式流形学习算法的数据降维

Y^T=AX^T

\min \underset{i, j}{Σ} {(y_{i} - y_{j})}^{2} w_{i, j}

2.基于有监督显式流形学习算法的电子鼻数据挖掘方法包括上述全部步骤，并在步骤2后增加一个步骤A：

步骤A、考虑类别信息确定特征值矩阵中各点的近邻