CN105891422B

CN105891422B - 基于源域迁移极限学习漂移补偿的电子鼻气体识别方法

Info

Publication number: CN105891422B
Application number: CN201610218450.7A
Authority: CN
Inventors: 张磊; 刘燕; 邓平聆; 田逢春
Original assignee: Chongqing University
Current assignee: Chongqing University
Priority date: 2016-04-08
Filing date: 2016-04-08
Publication date: 2017-08-25
Anticipated expiration: 2036-04-08
Also published as: CN105891422A

Abstract

本发明提供了一种基于源域迁移极限学习漂移补偿的电子鼻气体识别方法，其从机器学习角度提出域迁移极限学习机框架用于解决传感器漂移问题，而不是直接地校正单一传感器响应，利用电子鼻在未发生漂移时和发生漂移后采集的有标签的气体传感器阵列感测数据矩阵分别构建源域数据集和目标域数据集分别作为极限学习机的输入，对电子鼻的识别分类器进行学习，以提升识别分类器在电子鼻发生漂移后对气体识别的容差性能，达到漂移补偿和提高气体识别精度的目的，并且持了极限学习机的技术优点，使得该方法具备了较好的泛化性和迁移性能。可见，本发明方法中提出的源域迁移极限学习机框架建立了一个有良好学习能力和泛化能力的学习框架。

Description

基于源域迁移极限学习漂移补偿的电子鼻气体识别方法

技术领域

本发明涉及电子鼻检测技术领域，具体涉及一种基于源域迁移极限学习漂移补偿的电子鼻气体识别方法。

背景技术

电子鼻是利用气体传感器阵列的响应图谱来识别气体的智能电子装置或者人工嗅觉系统。由于电子鼻中气体传感器阵列的交叉特性和广谱性，使得电子鼻的气体识别能力被广泛用于医疗诊断、茶叶质量评估、环境检测以及预测气体浓度等领域。

但是，电子鼻的气体传感器随使用时间的增长而不断老化，这大大缩短了电子鼻气体传感器阵列的使用寿命。中毒，老化或者环境变量都能造成电子鼻的气体传感器漂移，而气体传感器漂移会降低分类器的气体识别性能。对上述问题，研究人员们需要针对电子鼻所能够识别的各类别气体，定期的用新的带有标签的各类别气体的纯净标定样本重新训练电子鼻的分类器网络，而重新训练分类器网络较为费时，并且定期获取新的气体的纯净标定样本也较为困难。

电子鼻中气体传感器的漂移可表述如下。假设，在电子鼻在未发生漂移的状态下，其检测某种气体所得到的气体传感器阵列感测数据矩阵为表示在未漂移状态下检测该气体时电子鼻气体传感器阵列的第n个气体传感器的感测特征向量，N表示电子鼻气体传感器阵列中所包含的气体传感器数量，上角标T为转置符号；而在子鼻在发生漂移后，若其检测该同种气体所得到的气体传感器阵列感测数据矩阵为在漂移后检测该气体时电子鼻气体传感器阵列的第n个气体传感器的感测特征向量；那么，电子鼻中气体传感器漂移问题则表现为矩阵X_K的感测特征分布不同于矩阵X₀的感测特征分布，通常将矩阵X_K称为异构数据样本，所以，用未发生漂移的数据样本X₀所训练得到识别分类器对漂移后的异构数据样本X_K进行气体识别时，就会出现识别准确率降低的问题。而且，随着时间的推移，气体传感器的老化、漂移问题会逐渐增大，即检测漂移后数据样本X_K的时间与检测未漂移数据样本X₀的时间间隔越久，那么X_K与X₀之间的感测特征分布差异也会越大。

气体传感器的漂移补偿技术研究始于几十年前，目前的主要补偿方法有成分校正法、调节补偿法和机器学习法。

典型的多变量成分校正法有成分校正主成分分析法，其是通过用主成分分析找到漂移方向，从而去掉漂移成分；但是，成分校正主成分分析法的补偿思路需要建立在所有类别数据的漂移方向相一致的前提下，然而电子鼻的实际漂移情况并非如此，因此该方法难以有效的应用到电子鼻的漂移补偿上；而如果通过在成分校正主成分分析法的基础上增加一个乘子校正变量来改善对数据漂移方向一致性限制的问题，则又会随之带来其漂移补偿的泛化性会受到在线应用时气体传感器非线性动态特性的制约问题，导致其漂移补偿效果难以针对不同的气体识别应用中广泛适用。

调节补偿法，是通过对电子鼻的气体传感器阵列在进行不同阶段气体识别检测时的响应变化情况，对其感测特征分布差异进行调整，进而实现漂移补偿；但是这种刚调整补偿方法，容易在电子鼻的气体传感器阵列出现暂态响应情况时被误判为气体传感器阵列正发生剧烈变化的漂移，进而频繁地进行调整补偿，容易打乱电子鼻气体传感器阵列原有的特征值分布规律，导致原本较为准确的识别神经网络经过漂移补偿后反而不能够正确识别其匹配气体，影响电子鼻的气体识别精度。

此前，研究人员们也展开了一些通过机器学习法对电子鼻进行漂移补偿的方法研究，但目前所采用的机器学习法都主要基于支持向量机，其往往需要借助大量的训练样本加以学习，在训练样本有限的情况下补偿效果不佳，依然不能很好地通过漂移补偿来提升电子鼻的气体识别精度，此外这类机器学习法通常需要训练很多基分类器，因此其域迁移能力和泛化性都受到限制。

综上所述，现有技术针对于电子鼻气体传感器漂移的补偿方法，普遍存在补偿后电子鼻的气体识别精度不高、迁移能力和泛化性较差的问题。

发明内容

针对现有技术中存在的上述不足，本发明的目的在于提供一种基于源域迁移极限学习漂移补偿的电子鼻气体识别方法，其利用电子鼻在未发生漂移时和发生漂移后的有标签的气体传感器阵列感测数据矩阵分别作为源域数据集和目标域数据集分别作为极限学习机的输入，对电子鼻的识别分类器进行学习，以提升识别分类器在电子鼻发生漂移后对气体识别的容差性能，达到漂移补偿的识别效果，从而提高电子鼻在其气体传感器发生漂移后的气体识别精度和泛化性，并且具备较好的迁移性能。

为解决上述技术问题，本发明采用了如下的技术手段：

基于源域迁移极限学习漂移补偿的电子鼻气体识别方法，包括如下步骤：

1)获取电子鼻在未发生漂移时所采集的N_S个有标签的气体传感器阵列感测数据矩阵作为源域数据集对应的标签集合任意的第i个源域数据样本为电子鼻在未发生漂移时进行一次气体检测所得到的气体传感器阵列感测数据矩阵，i∈{1,2,…,N_S}，即：

其中，表示第i个源域数据样本中电子鼻气体传感器阵列的第n个气体传感器的感测特征向量，n∈{1,2,…,N}，N表示电子鼻气体传感器阵列中所包含的气体传感器数量；上角标T为转置符号；

所述第i个源域数据样本的标签为：

其中，表示第i个源域数据样本在第m类目标气体类别序号上的类别标签值，若对第i个源域数据样本的识别结果为属于第m类气体，则令否则令由此构成第i个源域数据样本的标签m∈{1,2,…,M}，M表示电子鼻所能够识别的目标气体种类数；

2)获取电子鼻在发生漂移后所采集的N_T个有标签的气体传感器阵列感测数据矩阵作为目标域数据集对应的标签集合任意的第j个目标域数据样本为电子鼻在发生漂移后进行一次气体检测所得到的气体传感器阵列感测数据矩阵，j∈{1,2,…,N_T}，即：

其中，表示第j个目标域数据样本中电子鼻气体传感器阵列的第n个气体传感器的感测特征向量，n∈{1,2,…,N}；上角标T为转置符号；

所述第j个目标域数据样本的标签为：

其中，表示第j个目标域数据样本在第m类目标气体类别序号上的类别标签值，若对第j个目标域数据样本的识别结果为属于第m类气体，则令否则令由此构成第j个目标域数据样本的标签m∈{1,2,…,M}；

3)设定源域数据样本的预测误差惩罚系数C_S和目标域数据样本的预测误差惩罚系数C_T，且设定极限学习机的隐含层神经元个数N_L，并随机初始化极限学习机的输入层与隐含层之间的权重矩阵和隐含层的偏置向量

4)将源域数据集X_S作为极限学习机的输入，计算得到相应的极限学习机的隐含层输出矩阵

将目标域数据集X_T作为极限学习机的输入，计算得到相应的极限学习机的隐含层输出矩阵

其中，g(·)表示极限学习机的激活函数；

5)判断源域数据集所包含的源域数据样本个数N_S与极限学习机隐含层神经元个数N_L的数值关系；

若N_S≥N_L，则按下式计算极限学习机的隐含层与输出层之间的权重矩阵

β_S＝(I_L+C_S·H_S ^T·H_S+C_T·H_T ^T·H_T)^-1(C_S·H_S ^T·T_S+C_T·H_T ^T·T_T)；

其中，I_L为N_L×N_L的单位矩阵；

若N_S＜N_L，则按下式计算极限学习机的隐含层与输出层之间的权重矩阵

β_S＝H_S ^T·F_ST+H_T ^T(F_B ^-1·T_T-F_B ^-1·F_A·F_ST)；

其中，F_ST、F_A、F_B和F_C均为缩写式，其各自的展开式为：

F_ST＝(F_C·F_B ^-1·F_A-F_D)^-1(F_C·F_B ^-1·T_T-T_S)；

其中，I_S为N_S×N_S的单位矩阵；上角标T均为转置符号；

6)获取电子鼻在发生漂移后所采集的N_U个未标记标签的气体传感器阵列感测数据矩阵作为待测域数据集任意的第k个待测数据样本为电子鼻在发生漂移后进行一次气体检测所得到的气体传感器阵列感测数据矩阵，k∈{1,2,…,N_U}，即：

其中，表示第k个待测数据样本中电子鼻气体传感器阵列的第n个气体传感器的感测特征向量，n∈{1,2,…,N}；上角标T为转置符号；

7)将待测域数据集X_U作为极限学习机的输入，计算得到相应的极限学习机的隐含层输出矩阵

由此得到的对应的隐含层输出矩阵表示第k个待测数据样本所对应的隐含层输出向量；

8)将步骤5)所得到的权重矩阵β_S作为电子鼻的识别分类器，按下式分别计算待测域数据集中各个待测数据样本所对应的标签：

其中，表示计算得到的第k个待测数据样本的标签，且：

表示第k个待测数据样本在第m类目标气体类别序号上的类别标签值；

对于第k个待测数据样本将其标签中最大类别标签值所在的目标气体类别序号所对应的目标气体类别判定识别为待测数据样本所属的气体类别；由此，判定得到待测域数据集中各个待测数据样本的气体类别识别结果。

上述基于源域迁移极限学习漂移补偿的电子鼻气体识别方法中，作为优选方案，所述步骤3)中，源域数据样本的预测误差惩罚系数C_S的优选取值范围为10^-3～10⁰。

上述基于源域迁移极限学习漂移补偿的电子鼻气体识别方法中，作为优选方案，所述步骤3)中，目标域数据样本的预测误差惩罚系数C_T的优选取值范围为10⁰～10³。

上述基于源域迁移极限学习漂移补偿的电子鼻气体识别方法中，作为优选方案，所述步骤3)中，极限学习机的隐含层神经元个数N_L的优选取值范围为10²～10⁴。

上述基于源域迁移极限学习漂移补偿的电子鼻气体识别方法中，作为优选方案，所述极限学习机的激活函数g(·)选用径向基函数或sigmoid函数。

相比于现有技术，本发明具有以下有益效果：

1、本发明基于源域迁移极限学习漂移补偿的电子鼻气体识别方法，从机器学习机的角度对电子鼻气体传感器漂移问题进行分析和解决，借助少量电子鼻在未发生漂移时和发生漂移后采集的有标签的气体传感器阵列感测数据矩阵分别构建源域数据集和目标域数据集，用以进行源域迁移极限学习获得一个鲁棒性好的识别分类器，能够提升识别分类器在电子鼻发生漂移后对气体识别的容差性能，再利用学习后得到的该识别分类器进行待测气体样本的识别时，就能够达到漂移补偿的识别效果，从而提高电子鼻在其气体传感器发生漂移后的气体识别精度。

2、本发明基于源域迁移极限学习漂移补偿的电子鼻气体识别方法保持了极限学习机的技术优点，学习过程简单，且使得该方法具备了较好的泛化性和迁移性能，能够在不同的电子鼻产品针对不同的气体识别应用上广泛适用。

3、本发明基于源域迁移极限学习漂移补偿的电子鼻气体识别方法提出的源域迁移极限学习机框架建立了一个有良好学习能力和泛化能力的电子鼻漂移补偿学习框架。

附图说明

图1为本发明基于源域迁移极限学习漂移补偿的电子鼻气体识别方法的流程图。

图2为本发明实施案例中实验数据集中10组数据漂移前后的多维传感器阵列响应曲线对比图。

图3为本发明实施案例中实验数据集中10组数据漂移引起空间分布变化的二维主成分投影分布图。

图4为本发明实施案例中采用本发明方法与各对比方法对实验配置①中各组数据进行识别的识别精度对比图。

图5为本发明实施案例中采用本发明方法与各对比方法对实验配置②中各组数据进行识别的识别精度对比图。

图6为本发明实施案例中采用本发明方法与正则化极限学习机方法ELM-rbf对配置①不同数量的目标域数据样本情况下进行识别的识别精度对比图。

图7为本发明实施案例中采用本发明方法与正则化极限学习机方法ELM-rbf对配置②不同数量的目标域数据样本情况下进行识别的识别精度对比图。

具体实施方式

针对于电子鼻的气体传感器漂移而影响气体识别精度的问题，本发明提供了一种基于源域迁移极限学习漂移补偿的电子鼻气体识别方法，从机器学习机的角度对该问题进行分析和解决，提出了一种基于源域迁移极限学习的理念，借助少量电子鼻在未发生漂移时和发生漂移后采集的有标签的气体传感器阵列感测数据矩阵分别构建源域数据集和目标域数据集，用以进行源域迁移极限学习获得一个鲁棒性好的识别分类器，能够提升识别分类器在电子鼻发生漂移后对气体识别的容差性能，再利用学习后得到的该识别分类器进行待测气体样本的识别时，就能够达到漂移补偿的识别效果，从而提高电子鼻在其气体传感器发生漂移后的气体识别精度，并且其保持了极限学习机的技术优点，学习过程简单，且使得该方法具备了较好的泛化性和迁移性能，能够在不同的电子鼻产品针对不同的气体识别应用上广泛适用。

基于上述技术思路，首先对本发明所应用到的极限学习机技术加以简单的介绍。

1、极限学习机理论：

极限学习机(Extreme Learning Machine，ELM)算法是新加坡南洋理工大学的黄广斌教授提出来的，2004年正式发表文章。极限学习机算法是针对SLFNs(即含单个隐藏层前馈型神经网络)的监督型学习算法，其主要思想是：输入层与隐藏层之间的权值参数，以及隐藏层上的偏置向量参数是once for all(一次设置配、普遍适用)的，不需要像其他基于梯度的学习算法一样通过迭代反复调整刷新，因此求解过程很直接，只需求解一个最小范数最小二乘问题(最终可化归成求解一个矩阵的广义逆问题)，具有训练参数少、学习运算速度快等优点。

极限学习机理论可以进行如下的描述。

假设，给定N个样本[x₁,x₂,…,x_i,…,x_N]和对应的标签[t₁,t₂,…,t_i,…,t_N]，其中，x_i＝[x_i,1,x_i,2,…,x_i,n]^T∈Rⁿ，t_i＝[t_i,1,t_i,2,…,t_i,m]^T∈R^m，n和m分别代表输入神经元的个数和输出层的神经元个数。隐含层的输出向量用h(x_i)∈R^1×L表示，其中L是隐层神经元的数目，隐含层和输出层之间的权值用β∈R^L×m表示。

正则化极限学习机旨在用最小化预测误差的平方和，和输出权值的范数以防止过拟合求得输出权值，公式如下：

其中，ξ_i表示第i个训练样本的预测误差，C是预测误差的惩罚函数。

把约束项代入目标函数，得到一个与之等价的无约束的优化问题其表达式如下：

其中，H＝[h(x₁),h(x₂),…,h(x_i),…,h(x_N),]∈R^N×L，T＝[t₁,t₂,…,t_i,…,t_N]^T。

(2)式是一个正则化最小二乘优化问题。β的闭解可通过求(2)式对β求导并令其等于零方可求得。

求解β分两种情况。如果训练样本数量N大于或等于L时，求导式是超定的，β的解如下式：

其中，I_L是L×L的单位矩阵。

第二种情况，如果训练样本数量N小于L时，β解如下式：

其中，I_N是N×N的单位矩阵。所以，用极限学习机训练分类器，其输出权值可由(3)式或者(4)式得到。

2、基于源域迁移极限学习机框架。

基于极限学习机理论，本发明提出了一种基于源域迁移极限学习的理论框架，将电子鼻在未发生漂移时采集的有标签的气体传感器阵列感测数据矩阵作为源域数据集，加上少量电子鼻发生漂移后采集的有标签的气体传感器阵列感测数据矩阵作为目标域数据集，并且将极限学习机的隐含层与输出层之间的权重矩阵β_S作为识别分类器；由此，源域迁移极限学习机可表示成如下形式：

其中，分别表示第i个源域数据样本的隐含层输出、预测误差和标签(即训练目标)；分别表示第j个目标域数据样本的隐含层输出、预测误差和标签(即训练目标)；i∈{1,2,…,N_S}，j∈{1,2,…,N_T}，N_S和N_T分别是源域数据样本数量和目标域数据样本数量；N_L为极限学习机的隐含层神经元个数，M为电子鼻所能够识别的目标气体种类数，为极限学习机的隐含层与输出层之间的权重矩阵，用以作为电子鼻的识别分类器；C_S和C_T分别是源域数据样本和目标域数据样本的预测误差惩罚系数。

在这里，如果源域数据样本属于第m类，m∈{1,2,…,M}，则令其标签中第m个标签值否则，例如，如果源域数据样本属于第1类，则其标签即除了标签中第1个标签值为1之外，其它标签值均为-1。目标域数据样本的标签也按照此方式赋值。

由(5)式可知，由极少的目标域标签引导样本引入用于正则化的第三项和(6)式的第二个约束式子，可使学习的分类器β_S的迁移能力提高。并且该源域迁移极限学习机算法能够同时对多个分类器进行学习。

用拉格朗日乘子法求解(5)式，其可表示成下式：

α_S和α_T为拉格朗日乘子向量。

通过令(7)式分别关于β_S,α_S,α_T的偏导数为0，令表示源域数据集输入极限学习机的隐含层输出矩阵，表示目标域数据集输入极限学习机的隐含层输出矩阵，T_S,T_T分别表示源域数据集和目标域数据集的标签集合，ξ_S,ξ_T分别表示源域数据集和目标域数据集的预测误差矩阵；可得：

为了求解β_S，必须先求解α_S和α_T。

求解β_S分两种情况：

当训练样本数N_S少于N_L时，H_S的列数大于行数，此时，有无穷解。为了解出唯一解，把(8)式中的第一个方程和第二个方程代入第四和第五个方程，此时有：

其中，I_S为N_S×N_S的单位矩阵；上角标T均为转置符号。

令F_A＝H_TH_S ^T；F_C＝H_SH_T ^T；那么(9)式可写成：

因此，α_S和α_T可求解成如下形式：

若令F_ST＝(F_C·F_B ^-1·F_A-F_D)^-1(F_C·F_B ^-1·T_T-T_S)，把(1)式代入(8)式，就可得输出权值：

而当训练样本数N_S大于或等于N_L时，H_S的行数大于或等于列数，为满秩矩阵。此时，把(1)代入(8)，可得α_S＝(H_SH_S ^T)^-1(H_Sβ_S-H_SH_T ^Tα_T)，然后再代入(4)式和(5)式，从而可求解出输出权值矩阵β_S。

其中，I_L是大小为N_L×N_L的单位矩阵。

事实上，把约束条件代入目标函数，(5)式可改写成与之等价的无约束的优化问题，式子如下：

通过令L_DAELM-S对β_S的偏导数为0，即有：

由(15)式可以很容易的求得β_S。

对于待测域中无标签的待测数据样本而言，可以由以下式子求得其标签：

其中，表示待测域数据集中第k个无标签的待测数据样本所对应的隐含层输出向量，N_U表示待测域数据集中待测数据样本的数量；表示计算得到的第k个待测数据样本的标签，且表示第k个待测数据样本在第m类目标气体类别序号上的类别标签值；而在标签中的最大类别标签值所在序号所对应的目标类别即为第k个待测数据样本所属的类别，这样以来，就可以确定各个无标签的待测数据样本所述的类别，实现对待测数据样本的识别。

3、本发明基于源域迁移极限学习漂移补偿的电子鼻气体识别方法。

根据上述基于源域迁移极限学习的理论框架，本发明基于源域迁移极限学习漂移补偿的电子鼻气体识别方法流程如图1所示，具体包括如下步骤：

所述第i个源域数据样本的标签为：

所述第j个目标域数据样本的标签为：

其中，g(·)表示极限学习机的激活函数；

其中，I_L为N_L×N_L的单位矩阵；

β_S＝H_S ^T·F_ST+H_T ^T(F_B ^-1·T_T-F_B ^-1·F_A·F_ST)；

其中，F_ST、F_A、F_B、F_C和F_D均为缩写式，其各自的展开式为：

F_ST＝(F_C·F_B ^-1·F_A-F_D)^-1(F_C·F_B ^-1·T_T-T_S)；

F_A＝H_TH_S ^T；F_C＝H_SH_T ^T；

其中，I_S为N_S×N_S的单位矩阵；上角标T均为转置符号；

其中，表示计算得到的第k个待测数据样本的标签，且：

在本发明基于源域迁移极限学习漂移补偿的电子鼻气体识别方法中，源域数据样本的预测误差惩罚系数C_S的优选取值范围为10^-3～10⁰，目标域数据样本的预测误差惩罚系数C_T的优选取值范围为10⁰～10³；源域数据样本的预测误差惩罚系数C_S和目标域数据样本的预测误差惩罚系数C_T的取值若超出上述取值范围，容易导致源域和目标域的欠学习和过学习问题，影响漂移补偿的效果，进而对漂移补偿后的电子鼻气体识别精度造成一定的负面影响。而极限学习机的隐含层神经元个数N_L的优选取值范围为10²～10⁴，过多的隐含层神经元数量容易造成学习运算过于复杂而对电子鼻气体识别精度的提高贡献不大；此外，极限学习机的激活函数g(·)可以选用径向基函数，还可以选用sigmoid函数。

为了更好的说明和验证本发明基于源域迁移极限学习漂移补偿的电子鼻气体识别方法的有效性，下面通过实验案例对本发明技术方案进行进一步的说明。

4、实验案例。

4.1、实验数据的描述。

在本实验案例中，使用了用公布于UCI机器学习数据库中的长达三年的传感器漂移数据对其进行验证。

这些数据是从2008年1月到2011年2月这个期间收集的，历时36个月。这个数据集共13910个观测值，用于采集数据的电子鼻系统由16个气体传感器暴露于6种纯净的不同浓度值气体物质，包含丙酮，酒精，氨，乙醛，乙烯以及甲苯这六种气体。每个传感器提取出8个特征，所以，特征向量的维数是128。不同时间阶段收集的数据共10组。详情请可查询UCI机器学习数据库的相应网站。

为了使数据集的漂移性质可视化，本案例给出了漂移前后的对比图。如图2所示，我们视第一组数据集(即图2中的before(b1))为未漂移的数据，选择第2组(即图2中的after(b1))、第7组(即图2中的after(b7))和第10组(即图2中的after(b10))作为漂移数据集，从图2中可以看到，多维传感器阵列表现出非线性特性，用线性和非线性方法对传感器响应进行直接校正是不可能的。我们把它看成是空间分布迁移问题，然后用迁移学习来实现漂移补偿。因此，为了获取数据集中10组数据漂移引起的空间分布变化，我们用主成份对数据进行分析，取前两个主成份，并将数据进行投影，每组投影后的2维分布如图3所示。

值得一提的是，有漂移的传感器响应由于非线性动态特性或者混沌特性不能直接进行校正。因此，数据分布调节和机器学习对传感器漂移进行补偿更有意义。因为在源域迁移极限学习机中，首先准备好少量的目标域数据样本。所以，本实验案例中用基于欧式距离的样本选择算法选出有代表性的标签样本，其选择过程如下：

步骤1、准备数据：选用公布于UCI机器学习数据库中的长达三年的传感器漂移数据，且该数据库分为了10组；我们假定第1组数据并未发生漂移，而第K组的数据发生了漂移，其中，K＝2,…,10；所以，第K组数据集符合要求，K＝2,…,10。

步骤2、确定所需标本数：标签样本数量可结合分类器，根据识别精度判断所需数量。

步骤3、确定最初的两个样本：计算第K组数据集中两两数据的欧式距离，K＝2,…,10，选择距离最大的两个数据作为最初的两个标签样本，即有

步骤4、选取每个剩余的最短距离：计算剩余样本分别与已选出的样本的欧式距离，选取每个剩余样本的最短距离，即有N_d(x_i)。

步骤5、选取下一个样本：在N_d(x_i)里选取最大值对应的样本为新的标签样本，即有

步骤6、判断是否结束：若选取的标签样本达到了预先设定的值，则结束；否则返回执行步骤4。

通过上述的样本选择算法可以更好的选出能代表整个空间分布的样本，从而有助于更好地体现本发明基于源域迁移极限学习漂移补偿的电子鼻气体识别方法的泛化性。

4.2、实验设计。

本实施案例中，极限学习机的隐含层神经元数L设为1000，使用径向基函数为激活函数，且预设核宽设为1，对特征进行预处理，使得特征值介于(-1,1)。在本发明提出的源域迁移极限学习机算法中，设置源域数据样本的预测误差惩罚系数C_S为0.001，设置目标域数据样本的预测误差惩罚系数C_T为100，为了更好的对本发明所提出的方法进行验证，采用如下的两种实验配置：

配置①，将第1组数据集作为固定的训练集(源域)，测试集为第K组数据集，其中K＝2,…,10；并且在测试集中，选取部分作为目标域数据集，其余部分作为待测域数据集。

配置②，训练集(源域)是动态的，依次为第K-1组，而测试集为第K组数据集，其中K＝2,…,10；并且在测试集中，选取部分作为目标域数据集，其余部分作为待测域数据集。

根据上述的两个实验配置，采用本发明所提出的源域迁移极限学习机理论框架进行实验，并与用径向基函数为核的支持向量机算法SVM-rbf、SVM-gfk和SVM-comgfk做实验对比；另外，本实验案例还采用了ML-gfk和ML-comgfk两种半监督学习方法作为对比，用同样的数据集用于漂移补偿；另外，隐含层为径向基函数的正则化极限学习机ELM-rbf也作为对比的算法之一；此外，还对比了常用的类主成份分析法CCPCA和集成分类器方法Ensemble在配置①和配置②下对漂移补偿的效果。由于极限学习机的输入层权值和隐含层的偏置值是随机产生的，所以，极限学习机、源域迁移极限学习机都运行10次取平均值作为运行结果。而且极限学习机的训练样本与本发明中源域迁移极限学习机的样本是相同的。

4.3、实验结果和数据对比。

针对本发明提出的基于源域迁移极限学习漂移补偿的电子鼻气体识别方法以及上述作为对比的个方法，分别在配置①和配置②的条件下进行实验。采用本发明提出的源域迁移极限学习机训练时，分为选20个目标域数据样本(记为DAELM-S(20))和选30个目标域数据样本(记为DAELM-S(30))进行了对比。本发明方法以及各种对比方法对实验配置①中各组数据进行识别的识别精度如图4所示。从图4可得出以下结论：

(1)、SVM-comgfk的结果优于类主成份分析法CC-PCA和其它基于支持向量机的方法，除了第4组和第8组数据集。这同时也表明了机器学习在漂移补偿方面优于传统校正方法。

(2)、ML-comgfk方法的平均精度为67.3％，优于其他基本方法。同时也证明了，对于有限的样本，将正则化与核相结合在半监督学习方面更有效。

(3)、本发明基于源域迁移极限学习漂移补偿的电子鼻气体识别方法极大地改善了极限学习机的泛化性和知识迁移学习能力，且本发明识别方法的平均识别精度比传统极限学习机方法ELM-rbf高出27％，且本发明识别方法针对本实施案例中六种气体的最高平均识别精度达到了91.86％。

(4)、本发明基于源域迁移极限学习漂移补偿的电子鼻气体识别方法中，在学习源域迁移极限学习机时，用30个目标域数据样本比用20个目标域数据样本的识别精度要略高。

从实验配置①下的实验结果可知，本发明所提出的基于源域迁移极限学习漂移补偿的电子鼻气体识别方法，其识别精度明显优于其它现有技术的方法。

同样第，也对实验配置②下的各组数据采用本发明方法以及各种对比方法进行识别验证实验，实验结果的识别精度统计情况如图5所示。从图5可得出以下结论：

(1)、ML-comgfk的平均识别精度为79.6％，优于其它基于支持向量机的机器学习算法和单核方法。

(2)、类主成份分析法和集成分类器相连合的方法Ensemble能在一定程度上提高识别精度，但是，需要训练很多基分类器，且域迁移能力较差。

(3)、本发明基于源域迁移极限学习漂移补偿的电子鼻气体识别方法的识别精度优于其它现有技术方法，且在电子鼻的漂移补偿上的鲁棒性较好。

为了研究目标域数据样本数量的变化对识别精度的影响，我们用上述样本选择算法选取了不同数量的目标域数据样本进行了对比，其中目标域数据样本个数取{5,10,15,20,25,30,35,40,45,50}一系列值；同时，为了公平比较，训练样本由目标域数据样本和源域数据样本组成以训练极限学习机。采用隐含层为径向基函数的正则化极限学习机ELM-rbf作为对比的算法，将本发明的识别方法(记为DAELM-S)与ELM-rbf方法分别对配置①和配置②下的识别实验精度统计结果分别如图6和图7所示，在图6和图7的各个曲线图中，横坐标为数据集样本数，纵坐标为识别率。从图6和图7可得以下结论：

(1)、随着目标域数据样本的增加，传统的极限学习机ELM-rbf的识别精度并未显著提高，这证明了极限学习机没有知识迁移能力。

(2)、随着目标域数据样本的增加，本发明基于源域迁移极限学习漂移补偿的电子鼻气体识别方法的识别精度有显著的提高，且平均识别精度明显优于传统的极限学习机ELM-rbf。

(3)、当目标域数据样本数量较少时，本发明识别方法中所采用的源域迁移极限学习机的识别效果依然优于传统的极限学习机，表明本发明方法在较少的目标域数据样本条件下，依然能够获得较好的漂移补偿识别效果，进而更好的提升气体识别精度。

综上所述，本发明基于源域迁移极限学习漂移补偿的电子鼻气体识别方法，从机器学习角度提出域迁移极限学习机框架用于解决传感器漂移问题，而不是直接地校正单一传感器响应，因为漂移具有非线性或者混沌特性，很难捕捉其规律，为此，本发明利用电子鼻在未发生漂移时和发生漂移后采集的有标签的气体传感器阵列感测数据矩阵分别构建源域数据集和目标域数据集分别作为极限学习机的输入，对电子鼻的识别分类器进行学习，以提升识别分类器在电子鼻发生漂移后对气体识别的容差性能，达到漂移补偿和提高气体识别精度的目的，并且持了极限学习机的技术优点，学习过程简单，且使得该方法具备了较好的泛化性和迁移性能。由此也可见，本发明方法中提出的源域迁移极限学习机框架建立了一个有良好学习能力和泛化能力的电子鼻漂移补偿学习框架。

最后说明的是，以上实施例仅用以说明本发明的技术方案而非限制，尽管参照实施例对本发明进行了详细说明，本领域的普通技术人员应当理解，可以对本发明的技术方案进行修改或者等同替换，而不脱离本发明技术方案的宗旨和范围，其均应涵盖在本发明的权利要求范围当中。

Claims

1.基于源域迁移极限学习漂移补偿的电子鼻气体识别方法，其特征在于，包括如下步骤：

所述第i个源域数据样本的标签为：

<mrow> <msubsup> <mover> <mi>t</mi> <mo>&OverBar;</mo> </mover> <mi>S</mi> <mi>i</mi> </msubsup> <mo>=</mo> <msup> <mrow> <mo>&lsqb;</mo> <msubsup> <mi>t</mi> <mi>S</mi> <mrow> <mi>i</mi> <mo>,</mo> <mn>1</mn> </mrow> </msubsup> <mo>,</mo> <msubsup> <mi>t</mi> <mi>S</mi> <mrow> <mi>i</mi> <mo>,</mo> <mn>2</mn> </mrow> </msubsup> <mo>,</mo> <mo>...</mo> <mo>,</mo> <msubsup> <mi>t</mi> <mi>S</mi> <mrow> <mi>i</mi> <mo>,</mo> <mi>m</mi> </mrow> </msubsup> <mo>,</mo> <mo>...</mo> <mo>,</mo> <msubsup> <mi>t</mi> <mi>S</mi> <mrow> <mi>i</mi> <mo>,</mo> <mi>M</mi> </mrow> </msubsup> <mo>&rsqb;</mo> </mrow> <mi>T</mi> </msup> <mo>;</mo> </mrow>

所述第j个目标域数据样本的标签为：

<mrow> <msubsup> <mover> <mi>t</mi> <mo>&OverBar;</mo> </mover> <mi>T</mi> <mi>j</mi> </msubsup> <mo>=</mo> <msup> <mrow> <mo>&lsqb;</mo> <msubsup> <mi>t</mi> <mi>T</mi> <mrow> <mi>j</mi> <mo>,</mo> <mn>1</mn> </mrow> </msubsup> <mo>,</mo> <msubsup> <mi>t</mi> <mi>T</mi> <mrow> <mi>j</mi> <mo>,</mo> <mn>2</mn> </mrow> </msubsup> <mo>,</mo> <mo>...</mo> <mo>,</mo> <msubsup> <mi>t</mi> <mi>T</mi> <mrow> <mi>j</mi> <mo>,</mo> <mi>m</mi> </mrow> </msubsup> <mo>,</mo> <mo>...</mo> <mo>,</mo> <msubsup> <mi>t</mi> <mi>T</mi> <mrow> <mi>j</mi> <mo>,</mo> <mi>M</mi> </mrow> </msubsup> <mo>&rsqb;</mo> </mrow> <mi>T</mi> </msup> <mo>;</mo> </mrow>

<mrow> <msub> <mi>H</mi> <mi>S</mi> </msub> <mo>=</mo> <mi>g</mi> <mrow> <mo>(</mo> <mi>W</mi> <mo>&CenterDot;</mo> <msub> <mi>X</mi> <mi>S</mi> </msub> <mo>+</mo> <mover> <mi>b</mi> <mo>&OverBar;</mo> </mover> <mo>)</mo> </mrow> <mo>;</mo> </mrow> 1

<mrow> <msub> <mi>H</mi> <mi>T</mi> </msub> <mo>=</mo> <mi>g</mi> <mrow> <mo>(</mo> <mi>W</mi> <mo>&CenterDot;</mo> <msub> <mi>X</mi> <mi>T</mi> </msub> <mo>+</mo> <mover> <mi>b</mi> <mo>&OverBar;</mo> </mover> <mo>)</mo> </mrow> <mo>;</mo> </mrow>

其中，g(·)表示极限学习机的激活函数；

其中，I_L为N_L×N_L的单位矩阵；

β_S＝H_S ^T·F_ST+H_T ^T(F_B ^-1·T_T-F_B ^-1·F_A·F_ST)；

其中，F_ST、F_A、F_B和F_C均为缩写式，其各自的展开式为：

F_ST＝(F_C·F_B ^-1·F_A-F_D)^-1(F_C·F_B ^-1·T_T-T_S)；

F_A＝H_TH_S ^T；F_C＝H_SH_T ^T；

其中，I_S为N_S×N_S的单位矩阵；上角标T均为转置符号；

<mrow> <msub> <mi>H</mi> <mi>U</mi> </msub> <mo>=</mo> <mi>g</mi> <mrow> <mo>(</mo> <mi>W</mi> <mo>&CenterDot;</mo> <msub> <mi>X</mi> <mi>U</mi> </msub> <mo>+</mo> <mover> <mi>b</mi> <mo>&OverBar;</mo> </mover> <mo>)</mo> </mrow> <mo>;</mo> </mrow>

<mrow> <msubsup> <mover> <mi>y</mi> <mo>&OverBar;</mo> </mover> <mi>U</mi> <mi>k</mi> </msubsup> <mo>=</mo> <msubsup> <mover> <mi>h</mi> <mo>&OverBar;</mo> </mover> <mi>U</mi> <mi>k</mi> </msubsup> <mo>&CenterDot;</mo> <msub> <mi>&beta;</mi> <mi>S</mi> </msub> <mo>,</mo> <mi>k</mi> <mo>&Element;</mo> <mo>{</mo> <mn>1</mn> <mo>,</mo> <mn>2</mn> <mo>,</mo> <mo>...</mo> <mo>,</mo> <msub> <mi>N</mi> <mi>U</mi> </msub> <mo>}</mo> <mo>;</mo> </mrow>

其中，表示计算得到的第k个待测数据样本的标签，且：

<mrow> <msubsup> <mover> <mi>y</mi> <mo>&OverBar;</mo> </mover> <mi>U</mi> <mi>k</mi> </msubsup> <mo>=</mo> <msup> <mrow> <mo>&lsqb;</mo> <msubsup> <mi>y</mi> <mi>U</mi> <mrow> <mi>k</mi> <mo>,</mo> <mn>1</mn> </mrow> </msubsup> <mo>,</mo> <msubsup> <mi>y</mi> <mi>U</mi> <mrow> <mi>k</mi> <mo>,</mo> <mn>2</mn> </mrow> </msubsup> <mo>,</mo> <mn>...</mn> <mo>,</mo> <msubsup> <mi>y</mi> <mi>U</mi> <mrow> <mi>k</mi> <mo>,</mo> <mi>m</mi> </mrow> </msubsup> <mo>,</mo> <mn>...</mn> <mo>,</mo> <msubsup> <mi>y</mi> <mi>U</mi> <mrow> <mi>k</mi> <mo>,</mo> <mi>M</mi> </mrow> </msubsup> <mo>&rsqb;</mo> </mrow> <mi>T</mi> </msup> <mo>;</mo> </mrow>

2.根据权利要求1所述基于源域迁移极限学习漂移补偿的电子鼻气体识别方法，其特征在于，所述步骤3)中，源域数据样本的预测误差惩罚系数C_S的优选取值范围为10^-3～10⁰。

3.根据权利要求1所述基于源域迁移极限学习漂移补偿的电子鼻气体识别方法，其特征在于，所述步骤3)中，目标域数据样本的预测误差惩罚系数C_T的优选取值范围为10⁰～10³。

4.根据权利要求1所述基于源域迁移极限学习漂移补偿的电子鼻气体识别方法，其特征在于，所述步骤3)中，极限学习机的隐含层神经元个数N_L的优选取值范围为10²～10⁴。

5.根据权利要求1所述基于源域迁移极限学习漂移补偿的电子鼻气体识别方法，其特征在于，所述极限学习机的激活函数g(·)选用径向基函数或sigmoid函数。