CN105938116A

CN105938116A - 基于模糊划分和模型集成的气体传感器阵列浓度检测方法

Info

Publication number: CN105938116A
Application number: CN201610438967.7A
Authority: CN
Inventors: 王庆凤; 卢革宇; 孙鹏
Original assignee: Jilin University
Current assignee: Jilin University
Priority date: 2016-06-20
Filing date: 2016-06-20
Publication date: 2016-09-14
Anticipated expiration: 2036-06-20
Also published as: CN105938116B

Abstract

一种基于模糊划分和模型集成的气体传感器阵列浓度检测方法，属于气体传感器阵列信号处理技术领域，该方法借助模糊聚类方法对基线漂移数据进行时间段划分，将原始数据集划分成漂移程度不同的多个子数据集；然后建立不同训练数据集的回归模型，得到若干子回归模型；在训练集内获得每个子回归模型的最优权重集合，对聚类中心和最优权重进行拟和，得到最优权重拟和函数；在测试阶段，基于最优权重拟和函数和聚类中心时间计算拟和权重，将这些子回归模型对待测数据的预测结果进行集成，得到最终气体浓度值。此方法能自适应地改变模式识别模型，使其能跟踪漂移的变化，有效减小漂移对浓度检测性能的影响，保证浓度测量的长期准确性。

Description

基于模糊划分和模型集成的气体传感器阵列浓度检测方法

技术领域

本发明属于气体传感器阵列信号处理技术领域，具体涉及一种基于模糊划分和模糊加权多输出支持向量回归模型集成的长期漂移补偿的金属氧化物气体传感器阵列浓度检测方法。

背景技术

利用气体传感器装置代替传统的分析仪器是混合气体检测的新方法，金属氧化物半导体(Metal Oxide Semiconductor,MOS)气体传感器与其他类型气体传感器(如电化学式传感器、声表面波传感器、导电聚合物传感器等)相比具有体积小、成本低、响应恢复快、使用寿命长等优点。随着微电子机械系统加工技术的进步，可以在Si衬底上实现阵列化，采用这种工艺的微结构气体传感器功耗低、与半导体制造工艺兼容性好、便于集成。因此，基于MOS气体传感器阵列的检测方法能够满足轻量化、快速、低成本的要求，易于实现多点、实时测量。

基于多个敏感特性不同的传感器优化组合构成传感器阵列，并结合先进的智能化识别技术，可以形成高精度的气体辨识系统。然而,由于气敏元件存在本身固有的局限性,其中最大缺陷之一就是存在特性漂移，使得基于MOS气体传感器的检测方法的测量精度、稳定性和可靠性受到限制。通过改进敏感材料、器件结构和补偿电路的方法能在一定程度上改善漂移问题,但使器件结构复杂化,提高了器件的成本,更主要的是仍不能从根本上解决并达到理想的结果。

目前，分类器集成的漂移补偿方法受到广泛关注，该方法的思想是利用不同数据集合训练分类器，得到若干分类器模型，再将这些子分类器对待测数据的识别结果进行集成，得到最终结果。然而，目前方法仍存在问题，一是数据集的时间段划分采用数据量均匀分布的划分方法，没有考虑漂移变化的程度；二是目前的分类器的集成方法，仅用于定性分析气体种类，而不能用于混合气体浓度的识别；三是采用的支持向量机方法中，没有考虑各个样本点在模式识别过程中的重要程度的不同，预测精度有待提高。

发明内容

针对现有技术中存在的上述问题，本发明的目的在于提供一种基于模糊划分和模型集成的气体传感器阵列漂移补偿方法，用于单一或混合气体的浓度检测。该方法通过聚类方法按照基线信号的漂移程度进行时间段划分，提高模型对传感器漂移变化影响的鲁棒性；采用加权多输出支持向量回归，考虑各个样本点在回归过程中的重要程度的不同，从而提高气体浓度测量的长期准确性和稳定性。

为实现上述目的，本发明采用了如下的技术方案：

一种基于模糊划分和模型集成的气体传感器阵列浓度检测方法，具体步骤如下：

步骤1：数据采集：采用样气流量系统(Sample Flow System,SFS)测量方法，采集电子鼻检测系统中金属氧化物半导体气体传感器阵列的时间响应信号，提取在标准气体环境下的基线响应数据和不同浓度的单一或混合气体下响应信号的特征数据；

基线响应数据X₀(t)包含K个时间响应序列，X₀(t)＝[x₀₁(t),x₀₂(t),…,x_0K(t)]，K为气体传感器的个数，x_0i(t)＝[x_0i(t₁),x_0i(t₂),…,x_0i(t_N)]^T，t₁,t₂,…,t_N为采样时刻，N为样本个数，i表示第i个传感器，i∈[1,2,…,K]，[·]^T表示向量的转置；传感器阵列在不同浓度的单一或混合气体下响应信号的特征数据为x(t)＝[x₁(t),x₂(t),…,x_K(t)]，其中x_i(t)＝[x_i1(t),x_i2(t),…,x_iM(t)]，M为每个传感器输出响应提取的特征数；

步骤2：数据预处理：对步骤1采集的基线响应数据进行预处理，包括异常值剔除和标准化两个步骤：

异常值剔除的方法是首先计算样本均值和样本的标准偏差分别如下：

{\overset{&OverBar;}{X}}_{0} [{\overset{&OverBar;}{x}}_{01}, {\overset{&OverBar;}{x}}_{02}, ..., {\overset{&OverBar;}{x}}_{0 K}] = \frac{1}{N} [Σ_{i = 1}^{N} x_{01} (t_{i}), Σ_{i = 1}^{N} x_{02} (t_{i}), ..., Σ_{i = 1}^{N} x_{0 K} (t_{i})],

S_{0} = [S_{01}, S_{02}, ..., S_{0 K}] = [{(\frac{1}{N - 1} Σ_{i = 1}^{N} (x_{01} (t_{i}) - {\overset{&OverBar;}{x}}_{01}))}^{\frac{1}{2}}, {(\frac{1}{N - 1} Σ_{i = 1}^{N} (x_{02} (t_{i}) - {\overset{&OverBar;}{x}}_{02}))}^{\frac{1}{2}}, ..., {(\frac{1}{N - 1} Σ_{i = 1}^{N} (x_{0 K} (t_{i}) - {\overset{&OverBar;}{x}}_{0 K}))}^{\frac{1}{2}}]

然后判断基线响应数据与样本均值之差是否大于标准偏差的3倍，即若大于,则剔除该基线数据样本,并使用样本平均值填充此数据，若小于，则保留；

采用阿特曼z-score方法标准化后的数据为其中

步骤3：在预处理后的基线响应数据中加入对应的时间向量t＝[t₁,t₂,…,t_N]^T，得到增广的基线矩阵数据令则t_i时刻的基线数据可表示为

步骤4：采用聚类方法对步骤3得到的增广的基线矩阵数据进行分析，从时间上将基线响应数据划分为C个不同时段的数据集D₁,D₂,…,D_C，在同一时间段内传感器数据的漂移程度较小，而不同时间段之间传感器数据的漂移程度差异相对较大。本发明采用的聚类方法为一种改进的非监督模糊聚类方法，通过此方法可以将响应时间模糊划分为不同的时间段及数据集，同时确定聚类中心(β₁,β₂,…,β_C)及其隶属度函数矩阵。聚类中心是各聚类中对象的均值所获得的“中心对象”，用以计算聚类相似度及确定各类的划分范围；隶属度函数表示每个样本点属于每个类的程度；该方法的具体步骤如下：

步骤①：随机选取C个元素，作为C个类的中心，初始化隶属函数矩阵，给定聚类中心改变量的阈值u_ε(如u_ε＝0.001)；

步骤②：确定目标函数；目标函数定义为N为样本的个数，u_ij为第i个数据点属于第j类的隶属度；β_j是第j类的中心；z为隶属度的加权指数，1≤z＜∞；d(x₀(t_i),β_j)为相似度度量方式；

步骤③：确定相似度度量方式：经典的FCM方法采用欧氏距离，但是在噪音环境下,采用欧氏度量的聚类方法有时不够稳定,且对于算法的初值、类的形状、大小都过于敏感；本发明针对气体传感器的特性，考虑到传感器针对不同气体的敏感度不同，设计如下的相似度度量方式：式中ω＝[ω₁,ω₂,…,ω_K]是与输入属性相对应的权重向量，通过调整ω_k的值，数据x_ik与数据β_jk间的相似性会发生变化，反映了不同传感器的影响程度，ω_k∈[0,1],其值可通过实验进行选择，ω₀表示时间输入属性的向量权重，取值为1；

步骤④：最小化目标函数，重新计算C个类各自的中心和隶属度函数；模糊分组的迭代过程中隶属度函数与聚类中心的更新分别为

u_{i j} = \frac{{(1 / Σ_{k = 0}^{K} ω_{k} {(x_{0 k}^{b} (t_{i}) - β_{j k})}^{2})}^{1 / (z - 1)}}{Σ_{j = 1}^{C} {(1 / Σ_{k = 0}^{K} ω_{k} {(x_{0 k}^{b} (t_{i}) - β_{j k})}^{2})}^{1 / (z - 1)}}, β_{j} = \frac{Σ_{i = 1}^{N} u_{i j}^{z} x_{0} (t_{i})}{Σ_{i = 1}^{n} u_{i j}^{z}}, i = 1, 2, ... N, j = 1, 2, ... C;

步骤⑤：重复步骤④，直到聚类结果不再变化或相对上次得到的聚类中心的改变量小于步骤①确定的阈值，得到最终确定的聚类中心β_i和隶属度函数u_ij；

步骤⑥：由于增广的基线矩阵数据X₀(t)的第一列元素为响应时间，因此相对应地取每个聚类中心向量β_i的第一个元素按照从小到大排列构成(T₁,T₂,…,T_C)，作为每个时间段划分的聚类中心时刻，体现了在每个时间段内传感器漂移随时间变化的程度是不同的，然后计算与聚类中心时刻相对应的扩展宽度则与聚类中心时刻对应的时间段范围为[T_j-η·δ_j,T_j-η·δ_j]，η为区间的重叠参数，调整η可以控制时间段的重叠程度；

步骤⑦：根据聚类方法得到的时间段范围[T_j-η·δ_j,T_j-η·δ_j]，将基线响应数据划分为C个不同时段的数据集D₁,D₂,…,D_C，每个数据集的样本数为

步骤5：选取D₁,D₂,…,D_L作为训练集，L＜C，D_L+1,D_L+2,…,D_C作为测试集；在每个训练数据集内，采用加权多输出支持向量回归(WM-SVR)方法得到回归函数

在每个训练集内，设这个训练集的样本数为N_Dm，加权多输出支持向量回归方法为，对回归函数目标是寻找W＝[w₁,w₂,…,w_Q]，b＝[b₁,b₂,…,b_Q]^T,求解优化问题:

通过在超球空间定义ε不敏感损失函数l(υ)，即定义一个能将各分量的拟合误差都考虑进来的损失函数，使目标函数与各分量的误差e_i都有关，从而达到整体优化的目的；J(W,b)为目标函数，c为惩罚因子，ε为松弛因子，y_i为单一或混合气体浓度实际值，Q为输出变量个数，即气体种类数。通过步骤4的模糊划分后，各样本点对聚类的隶属度是不同的，本发明在标准M-SVR模型中引入权系数λ_i，以调整各样本点在回归中的作用，λ_i选取的是步骤4得到的样本点对于当前聚类的隶属度；

具体步骤如下：

步骤①：给定λ_i,c,ε及回归结果误差υ_i的阈值υ_ε，设定初值κ＝0，γ^κ＝0，b^κ＝0，κ为迭代次数，γ＝[γ₁ γ₂…γ_Q]^T，γ_j为线性组合系数，γ_j与w_j之间的变换关系为计算回归结果误差和拉格朗日乘子a_i，

步骤②：通过下式计算得到γ^s、b^s

[\begin{matrix} K + D_{α}^{- 1} & 1 \\ α^{T} K & 1^{T} α \end{matrix}] [\begin{matrix} γ_{j} \\ b_{j} \end{matrix}] = [\begin{matrix} y_{j} \\ α^{T} y_{j} \end{matrix}], j = 1, 2, ..., Q

式中：γ^s＝[γ₁ γ₂…γ_Q]^T，b^s＝[b₁ b₂…b_Q]^T，是核函数矩阵，为核函数；

步骤③：计算下降方向

步骤④：通过下式计算下一步的解γ^κ+1，b^κ+1

[\begin{matrix} γ^{κ + 1} \\ {(b^{κ + 1})}^{T} \end{matrix}] = [\begin{matrix} γ^{κ} \\ {(b^{κ})}^{T} \end{matrix}] + η^{κ} P^{κ}

式中：步长η^κ的搜索方法为首先设η^κ＝1，根据w_j＝Φ^Tγ_j计算W^κ+1，判断目标函数J(W^κ+1,b^κ+1)＜J(W^κ,b^κ)是否成立，如果不能，可将η^κ乘以一个小于1的正数再计算W^κ+1和b^κ+1，直到满足J(W^κ+1,b^κ+1)＜J(W^κ,b^κ)；

步骤⑤：计算和拉格朗日乘子a_i，

步骤⑥：若小于步骤①确定的阈值υ_ε，则输出最终确定的γ＝γ^κ+1,b＝b^κ+1；否则，令κ＝κ+1，返回步骤②；

步骤⑦：得到这个训练集的回归函数

本发明采用的加权多输出支持向量回归方法求解的程序流程图如图3所示。

步骤6：在每个训练集内按步骤5计算得到的回归函数设为i＝1,2,…,L，把这些回归函数加权组合得到模型集成的回归预测模型：

f_{i} (x) = α_{1}^{i} f_{W M S V R}^{1} (x) + α_{2}^{i} f_{W M S V R}^{2} (x) + ... + α_{L}^{i} f_{W M S V R}^{L} (x), i = [1, 2, ..., L]

然后确定每个训练集的权重系数方法为：对每个权重系数在[0,1]区间内进行搜索，搜索间隔为0.02，计算样本浓度实际值y_i与预测值y_model,i之间的均方根误差对权重系数在其搜索范围内的每一种情况得到的均方根误差RMSE最小的那一组为最优权重系数；

步骤7：构建权重的拟和函数g_j(t)，j＝[1,2,…,L]，用以确定以下测试集的回归预测模型的权重系数：

f_{i} (x) = g_{1} (T_{i}) f_{W M S V R}^{1} (x) + g_{2} (T_{i}) f_{W M S V R}^{2} (x) + ... + g_{L} (T_{i}) f_{W M S V R}^{L} (x), i = [L, L + 1, ..., C]

本步骤方法具体为：采用步骤6中得到的最优权重系数αⁱ作为机器学习过程的结果，最优权重系数αⁱ对应的各训练集的中心时刻T_i作为数据，即此学习过程的训练样本为基于最小二乘支持向量回归的方法得到权重的拟和函数g_j(t)；

最小二乘支持向量回归方法中选取径向基核函数作为核函数；核参数δ、惩罚因子、不敏感参数寻优算法采用基于粒子群智能全局优化算法的参数选择方法；

步骤8：测试阶段：根据步骤7得到的权重拟和函数g_j(t)计算拟和权重g₁(T_i),g₂(T_i),…,g_L(T_i)；然后基于各子回归模型与拟和权重进行回归模型的集成

f_{i} (x) = g_{1} (T_{i}) f_{W M S V R}^{1} (x) + g_{2} (T_{i}) f_{W M S V R}^{2} (x) + ... + g_{L} (T_{i}) f_{W M S V R}^{L} (x), i = [L, L + 1, ..., C]

得到每个测试集内单一或混合气体的浓度预测最终值。

进一步地，步骤5中所述的采用加权多输出支持向量回归方法，核函数选取如下：基于对局部核函数和全局核函数的综合考虑，构造基于多项式核函数k₁(x,x_i)＝(x^T·x_i+t)^d和径向基核函数的混合核函数k(x,x_i)＝γk₁(x,x_i)+(1-γ)k₂(x,x_i)，既可实现径向基核函数在拟合优度上的优势，又可发挥多项式核函数在推广性能上的长处。加权核函数权值的优化方法是在k₁(x,x_i)、k₂(x,x_i)核参数确定的情况下，对每个γ在区间[0,1]遍历，找出使测量均方误差最小的权值。

与现有技术相比，本发明的显著效果是：采用回归模型集成的方法进行传感器漂移补偿，实现混合气体浓度的定量识别；按照基线信号的漂移程度进行训练子集的时间段聚类划分，考虑了漂移变化的程度，减小子模型的建模误差，提高测量的长期准确性；采用的加权多输出支持向量回归方法，考虑各个样本点在模式识别过程中的重要程度的不同，提高了气体浓度测量的精度。

附图说明

图1：本发明的基于模糊划分和模型集成的气体传感器阵列浓度检测方法的流程图；

图2：本发明所述的基于模糊划分和加权多输出支持向量回归模型集成的金属氧化物气体传感器阵列浓度检测漂移补偿方法的流程图；

图3：本发明中采用的加权多输出支持向量回归方法的程序流程图；

图4：本发明实施例1中16个气体传感器在36个月内的基线信号图；

图5：本发明实施例1中两种浓度预测方法对比：采用数据集1(batch1)作为训练集建立模型，预测全部十个数据集的测量精度；采用前一个邻近的数据集作为训练集建立模型，预测后一个数据集的测量精度；

图6：本发明实施例1中采用基于模糊划分和加权多支持向量回归模型集成方法(Fuzzy-WMSVR method)与采用均匀划分和支持向量回归集成方法(Uniform-SVR method)，两种漂移补偿方法的误差对比图。

具体实施方式

下面结合附图对本发明的具体实施方法和工作原理作进一步详细说明。

实施例1

本实施例中所使用的数据集是由A Vergara,S Vembu,T Ayhan,M Ryan,MHomer,R Huerta等人测量并公开的数据集,文献参见“Chemical gas sensor driftcompensation using classifier ensembles.”Sensors and Actuators B:Chemical 166(2012):320-329。传感器阵列由Figaro公司的TGS2600、TGS2602、TGS2610和TGS26204组成，每种4个共16个气体传感器。测试气体包括氨气、乙醛、丙酮、乙烯、乙醇和甲苯。每个传感器对每个样本提取8个信号特征，包括两个稳态特征和6个瞬态特征。因此，每次测试可以由传感器阵列获得一个128维的特征向量。测试历经三年(36个月)，共计13910次测量。即数据集为13910×128的矩阵。

如图1所示，本方案提出的基于模糊划分和加权多输出支持向量回归模型集成的金属氧化物气体传感器阵列浓度检测的漂移补偿方法，按照如下步骤进行：

步骤1：数据采集：采用样气流量系统(Sample Flow System,SFS)测量方法(Vergara等人测量并公开的数据集是采用这种测量方法的)，采集电子鼻检测系统中金属氧化物半导体气体传感器阵列的时间响应信号，提取在标准气体环境下的基线响应数据、不同浓度的混合气体下响应信号的特征。

由于数据集提取的两个稳态特征为电阻相对于基线的相对变化量ΔR和电阻相对于基线的绝对变化量|ΔR|，因此，对于每个传感器采集的前两个特征相除就得到了基线响应数据共为16维、13910次的测量数据。采集的基线数据结果如图4所示。对被测气体的响应信号数据为128维、13910组数据。

步骤2：数据预处理：由图4可以看出，基线样本中的个别数值明显偏离所属样本的其余观测值，即存在异常值，需要对采集的基线响应数据进行预处理，包括异常值剔除和标准化两个步骤。异常值剔除的方法是首先在每个月内计算样本均值和样本的标准偏差分别如下：

{\overset{&OverBar;}{x}}_{0} = [{\overset{&OverBar;}{x}}_{01}, {\overset{&OverBar;}{x}}_{02}, ..., {\overset{&OverBar;}{x}}_{0 K}] = \frac{1}{N} [Σ_{i = 1}^{N} x_{01} (t_{i}), Σ_{i = 1}^{N} x_{02} (t_{i}), ..., Σ_{i = 1}^{N} x_{0 K} (t_{i})],

S_{0} = [S_{01}, S_{02}, ..., S_{0 K}] = [{(\frac{1}{N - 1} Σ_{i = 1}^{N} (x_{01} (t_{i}) - {\overset{&OverBar;}{x}}_{01}))}^{\frac{1}{2}}, {(\frac{1}{N - 1} Σ_{i = 1}^{N} (x_{02} (t_{i}) - {\overset{&OverBar;}{x}}_{02}))}^{\frac{1}{2}}, ..., {(\frac{1}{N - 1} Σ_{i = 1}^{N} (x_{0 K} (t_{i}) - {\overset{&OverBar;}{x}}_{0 K}))}^{\frac{1}{2}}]

然后判断基线数据与平均值之差是否大于标准偏差的3倍，即若大于,则剔除该基线数据样本,并使用样本平均值填充此数据，若小于，则保留。

采用阿特曼z-score方法进行标准化后的数据为其中

步骤3：在预处理后的基线响应数据中加入对应的时间向量t＝[t₁,t₂,…,t_N]^T，得到增广的基线矩阵数据令则t_i时刻的基线数据可表示为如果数据采集周期是确定的(如每分钟、每小时等)，则可以具体的时间点进行划分。而本实施例中的数据集以月为单位进行实验设置和采集，同时传感器漂移短期内变化不明显，因此以月为单位进行本实施例的模糊聚类划分是合适的。即基线数据中的时间向量为1-36个月，而基线特征选择为每个月、每个传感器基线响应数据的平均值、标准偏差、相对变化量和绝对变化量四个特征。

步骤4：采用聚类方法对步骤3得到的增广的基线矩阵数据进行分析，从时间上将基线响应数据划分为C个不同时段的数据集D₁,D₂,…,D_C，在同一时间段内传感器数据的漂移程度较小，而不同时间段之间传感器数据的漂移程度差异相对较大。本发明采用的聚类方法为一种改进的非监督模糊聚类方法，通过此方法可以将响应时间模糊划分为不同的时间段及数据集，同时确定聚类中心(β₁,β₂,…,β_C)及其隶属度函数矩阵。聚类中心是各聚类中对象的均值所获得的“中心对象”，用以计算聚类相似度及确定各类的划分范围；隶属度函数表示每个样本点属于每个类的程度；

步骤③中ω＝[ω₁,ω₂,…,ω_K]是与输入属性相对应的一个权重向量，通过调整ω_k(k＝1,2,…,16)的值，反映了不同传感器的影响程度，ω₀＝1。通过实验选取ω＝[1,0.8,0.8,1.2,1.2,1.3,1.3,1,1,0.8,0.8,1,1,1.3,1.3]。

具体算法中，设置C＝10，对36个月的13910个样本进行分组，聚类中心为，求得每个类的扩展宽度δ_j，通过聚类中心时刻对应的时间段范围[T_j-η·δ_j,T_j-η·δ_j]判断每个数据点属于哪个子集，选取合适的重叠参数η控制子集的重叠程度。模糊分组的作用是减小各组间边界数据的预测偏差。C＝10,η＝2.5时的聚类划分结果见表1。

表1：设置C＝10,η＝2.5时的模糊聚类划分结果

分组	数据(月)	聚类中心	分组	数据(月)	聚类中心
						D₁	1、2、3、4	2.4591	D₁	14、15、16	15.3943
D₂	8、9	8.4286	D₂	16、17、18、19	17.6580
						D₃	8、9、10、11	10.0780	D₃	19、20、21、22	20.4877
D₄	10、11、12	11.5242	D₄	21、22、23、24	23.5560
						D₅	12、13、14、15	13.9958	D₅	30、36	35.2364

步骤5：选取前5个分组构成的数据集合D₁,D₂,D₃,D₄,D₅作为训练集，其余D₆,D₇,D₈,D₉,D₁₀作为测试集。本实施例中由于乙烯的样本数据相对较多,且样本浓度分布广,因此选择乙烯作为待测气体进行研究。在每个训练数据集内，采用加权多输出支持向量回归(WM-SVR)方法得到回归函数利用粒子群寻优算法确定算法参数。通过步骤4的模糊划分后，各样本点对聚类的隶属度是不同的，本发明在标准M-SVR模型中引入权系数λ_i，以调整各样本点在回归中的作用，λ_i选取的是步骤4得到的样本点对于当前聚类的隶属度；

步骤6：在每个训练集内按步骤5计算得到的回归函数，设为i＝1,2,…,L，把这些回归函数加权组合得到模型集成的回归预测模型：

f_{i} (x) = α_{1}^{i} f_{W M S V R}^{1} (x) + α_{2}^{i} f_{W M S V R}^{2} (x) + ... + α_{L}^{i} f_{W M S V R}^{L} (x), i = [1, 2, ..., L]

然后确定每个训练集的权重系数方法为：对每个权重系数在[0,1]区间内进行搜索，搜索间隔为0.02，计算样本浓度实际值y_i与预测值y_model,i之间的均方根误差对权重系数在其搜索范围内的每一种情况得到的均方根误差RMSE最小的那一组为最优权重系数。

f_{i} (x) = g_{1} (T_{i}) f_{W M S V R}^{1} (x) + g_{2} (T_{i}) f_{W M S V R}^{2} (x) + ... + g_{L} (T_{i}) f_{W M S V R}^{L} (x), i = [L, L + 1, ..., C]

f_{i} (x) = g_{1} (T_{i}) f_{W M S V R}^{1} (x) + g_{2} (T_{i}) f_{W M S V R}^{2} (x) + ... + g_{L} (T_{i}) f_{W M S V R}^{L} (x), i = [L, L + 1, ..., C]

得到每个测试集内单一或混合气体的浓度预测最终值。

将数据集1(batch1)作为训练集建立模型，预测全部十个数据集的测量精度，如图5所示，预测误差随着时间逐渐上升；采用前一个邻近的数据集作为训练集建立模型，预测后一个数据集的测量精度，预测误差相对减小；可以看出由于传感器漂移的存在，使得模型误差越来越大。本发明的方法与采用均匀时间划分及单支持向量回归方法进行比较，其预测误差结果如图6所示，可以看出，本发明的方法有效地减小了预测误差，补偿了传感器长期漂移的影响，体现了奔放明的显著效果。采用回归模型集成的方法进行传感器漂移补偿，实现混合气体浓度的定量识别；按照基线信号的漂移程度进行训练子集的时间段聚类划分，考虑了漂移变化的程度，减小子模型的建模误差，提高测量的长期准确性；采用的加权多输出支持向量回归方法，考虑各个样本点在模式识别过程中的重要程度的不同，提高了气体浓度测量的精度。

Claims

1.基于模糊划分和模型集成的气体传感器阵列漂移补偿方法，其步骤如下：

步骤1：数据采集：采用样气流量系统测量方法，采集电子鼻检测系统中金属氧化物半导体气体传感器阵列的时间响应信号，提取在标准气体环境下的基线响应数据X₀(t)和不同浓度的单一或混合气体下响应信号的特征数据x(t)＝[x₁(t),x₂(t),…,x_K(t)]，其中，K为气体传感器的个数；

采用阿特曼方法标准化后的数据为其中

步骤4：采用聚类方法对步骤3得到的增广的基线矩阵数据进行分析，具体步骤如下：

步骤①：随机选取C个元素，作为C个类的中心，初始化隶属函数矩阵，给定聚类中心改变量的阈值u_ε；

步骤③：确定相似度度量方式：设计相似度度量方式为式中ω＝[ω₁,ω₂,…,ω_K]是与输入属性相对应的权重向量，ω_k∈[0,1],其值可通过实验进行选择，ω₀表示时间输入属性的向量权重，取值为1；

步骤⑤：重复步骤④，直到聚类结果不再变化或相对上次得到的聚类中心和隶属度函数的改变量小于预先确定的阈值，得到最终确定的聚类中心β_i和隶属度函数u_ij；

步骤6：在每个训练集内按步骤5计算得到的回归函数设为j＝1,2,…,L，把这些回归函数加权组合得到模型集成的回归预测模型：

步骤8：测试阶段：根据步骤7得到的权重拟和函数g_j(t)计算拟和权重g₁(T_i),g₂(T_i),…,g_L(T_i)；然后基于各子回归模型与拟和权重进行回归模型的集成得到每个测试集内单一或混合气体的浓度预测最终值。

2.如权利要求1所述的基于模糊划分和模型集成的气体传感器阵列漂移补偿方法，其特征在于：步骤1所述的基线响应数据X₀(t)包含K个时间响应序列，X₀(t)＝[x₀₁(t),x₀₂(t),…,x_0K(t)]，x_0i(t)＝[x_0i(t₁),x_0i(t₂),…,x_0i(t_N)]^T，t₁,t₂,…,t_N为采样时刻，N为样本个数，i表示第i个传感器，i∈[1,2,…,K]，[·]^T表示向量的转置；传感器阵列在不同浓度的单一或混合气体下响应信号的特征数据为x(t)＝[x₁(t),x₂(t),…,x_K(t)]，其中x_i(t)＝[x_i1(t),x_i2(t),…,x_iM(t)]，M为每个传感器输出响应提取的特征数，x_ij(t)＝[x_ij(t₁),x_ij(t₂),…,x_ij(t_N)]^T,j∈[1,2,…,M]。

3.如权利要求1所述的基于模糊划分和模型集成的气体传感器阵列漂移补偿方法，其特征在于：步骤5所述的回归函数，具体步骤如下：

具体步骤如下：

步骤①：给定λ_i,c,ε及回归结果误差υ_i的阈值υ_ε，设定初值κ＝0，γ^κ＝0，b^κ＝0，κ为迭代次数，γ＝[γ₁ γ₂ … γ_Q]^T，γ_j为线性组合系数，γ_j与w_j之间的变换关系为计算回归结果误差和拉格朗日乘子a_i，

步骤②：通过下式计算得到γ^s、b^s

式中：γ^s＝[γ₁ γ₂ … γ_Q]^T，b^s＝[b₁ b₂ … b_Q]^T，是核函数矩阵，为核函数；

步骤③：计算下降方向

步骤④：通过下式计算下一步的解γ^κ ⁺¹，b^κ ⁺¹

式中：步长η^κ的搜索方法为首先设η^κ＝1，根据w_j＝Φ^Tγ_j计算W^κ ⁺¹，判断目标函数J(W^κ ⁺¹，B^κ ⁺¹)＜J(W^κ，b^κ)是否成立，如果不能，可将η^κ乘以一个小于1的正数再计算W^κ ⁺¹和b^κ ⁺¹，直到满足J(W^κ ⁺¹，b^κ ⁺¹)＜J(W^κ，b^κ)；

步骤⑤：计算和拉格朗日乘子a_i，

步骤⑥：若小于步骤①确定的阈值υ_ε，则输出最终确定的γ＝γ^κ ⁺¹,b＝b^κ ⁺¹；否则，令κ＝κ+1，返回步骤②；

步骤⑦：得到这个训练集的回归函数

。