CN111832748A

CN111832748A - 一种对混合气体浓度进行回归预测的电子鼻宽度学习方法

Info

Publication number: CN111832748A
Application number: CN202010859001.7A
Authority: CN
Inventors: 贾鹏飞; 王宇; 崔豪; 曹文
Original assignee: Southwest University
Current assignee: Guangxi University
Priority date: 2020-08-24
Filing date: 2020-08-24
Publication date: 2020-10-27
Anticipated expiration: 2040-08-24
Also published as: CN111832748B

Abstract

本发明涉及电子鼻技术领域，具体公开了一种对混合气体浓度进行回归预测的电子鼻宽度学习方法，包括步骤：S1.选择不同的稀疏正则化参数、特征节点收缩参数和初始随机映射矩阵赋值方法，构建基于宽度学习模型的多个增强宽度学习模型；S2.获取样本集，并按照预设比例划分为训练数据集和测试数据集；S3.采用训练数据集对多个增强宽度学习模型进行训练，并记录对应的训练时间；S4.采用测试数据集对训练后的多个增强宽度学习模型进行测试，记录回归预测错误率；S5.综合训练时间和回归预测错误率，决出性能最优的增强宽度学习模型作为电子鼻回归预测模型。和其他回归预测算法相比，基于宽度学习的回归预测模型不仅缩短了训练时间，还降低了回归预测错误率。

Description

一种对混合气体浓度进行回归预测的电子鼻宽度学习方法

技术领域

本发明涉及电子鼻技术领域，尤其涉及一种对混合气体浓度进行回归预测的电子鼻宽度学习方法。

背景技术

电子鼻(E-nose)由气体传感器阵列、特征提取和模式识别算法组成，具有与生物嗅觉系统相似的功能。目前，电子鼻已广泛用于许多领域，例如环境监测、疾病检测、农业、食品存储等。

由于人类一生的大部分时间都在室内度过，因此室内的污染物气体对人体的健康和生活质量产生了很大的影响。因此，有必要设计出室内气体浓度的实时监控方法。电子鼻是分析气体的有效方法，可以有效地进行室内气体浓度的回归预测分析。

在将电子鼻应用于气体浓度回归预测和分析之前，需要收集大量数据样本以训练模型。但是，在模型的实际训练中，存在一个问题：通常基于神经网络建立的回归预测算法，由于网络结构的复杂性，一方面需要较长的训练时间，另一方面，最终的预测结果往往无法满足实际需求。

发明内容

本发明提供一种对混合气体浓度进行回归预测的电子鼻宽度学习方法，解决的技术问题是：目前基于神经网络对电子鼻建立的回归预测算法模型，由于网络结构的复杂性，需要较长的训练时间，同时最终的预测结果往往无法满足实际需求。

为解决以上技术问题，本发明提供一种对混合气体浓度进行回归预测的电子鼻宽度学习方法，包括步骤：

S1.选择不同的稀疏正则化参数、特征节点收缩参数和初始随机映射矩阵赋值方法，构建基于宽度学习模型的多个增强宽度学习模型；

S2.获取样本集，并按照预设比例划分为训练数据集和测试数据集；

S3.采用训练数据集对多个所述增强宽度学习模型进行训练，并记录对应的训练时间；

S4.采用测试数据集对训练后的多个所述增强宽度学习模型进行测试，记录回归预测错误率；

S5.综合所述训练时间和所述回归预测错误率，决出性能最优的增强宽度学习模型作为电子鼻回归预测模型。

进一步地，在所述步骤S1中，所述稀疏正则化参数的选择范围在2^-30～0.0002之间。

优选的，所述电子鼻回归预测模型的稀疏正则化参数为0.00002。

进一步地，在所述步骤S1中，所述特征节点收缩参数的选择范围在1e-4～1e-2之间。

优选的，所述电子鼻回归预测模型的为特征节点收缩参数为1e-3。

进一步地，在所述步骤S1中，所述初始随机映射矩阵赋值方法的选择项有高斯分布、指数分布、泊松分布、瑞利分布、对数正态分布、连续均匀分布、β分布。

优选的，所述电子鼻回归预测模型的初始随机映射矩阵赋值方法为高斯分布。

进一步地，在所述步骤S2中，所述样本集包括至少十种气体浓度值指标，每种所述气体浓度值指标对应至少100个样本；所述预设比例为训练数据集：测试数据集，所述预设比例在4:1～2:1之间；所述气体浓度值指标为至少两种测量气体按照第1～N预设浓度组合进行混合后的混合气体浓度，N≥10。

优选的，所述预设比例为3:1。

优选的，所述气体浓度值指标为甲烷和乙烯按照第1～38预设浓度组合进行混合后的混合气体浓度。

本发明提供的一种对混合气体浓度进行回归预测的电子鼻宽度学习方法，基于宽度学习系统或模型(BLS)，在BLS中更改了初始随机映射矩阵赋值方法、稀疏正则化参数、特征节点收缩参数，构建了多个增强宽度学习模型(步骤S1)，并采用训练数据集对各个增强宽度学习模型进行训练(步骤S3)以及采用测试数据集进行测试(步骤S4)，最后综合训练的时间和测试时的回归预测错误率，选出性能最优的增强宽度学习模型作为电子鼻回归预测模型(或被称为增强BLS)(步骤S5)，增强BLS不仅缩短了训练时间，还降低了回归预测错误率。实验结果表明，综合训练时间(越短越好)、回归预测错误率(越低越好)，增强BLS优于BLS、基于BLS的其他增强宽度学习模型、反向传播神经网络(BPNN)、最小二乘支持向量机(LSSVM)、极限学习机(ELM)和线性回归(LR)等方法。

附图说明

图1是本发明实施例提供的用于数据采集的实验装置结构图；

图2是本发明实施例提供的现有BLS的结构图；

图3是本发明实施例提供的不同随机数生成方法生成的随机数分布图；

图4是本发明实施例提供的训练数据集中不同赋值方法的回归预测误差；

图5是本发明实施例提供的测试数据集中不同赋值方法的回归预测误差。

具体实施方式

下面结合附图具体阐明本发明的实施方式，实施例的给出仅仅是为了说明目的，并不能理解为对本发明的限定，包括附图仅供参考和说明使用，不构成对本发明专利保护范围的限制，因为在不脱离本发明精神和范围基础上，可以对本发明进行许多改变。

随机向量函数链接神经网络(RVFLNN)具有非常简单的平面网络结构，并且可以将映射特征作为其输入，因此它消除了训练时间长的缺点，并且提供了强大的函数逼近泛化能力。目前，RVFLNN具有逼近泛化能力，已被广泛用于分类和回归。

宽度学习系统(BLS)是基于RVFLNN思想的回归模型，由C.L.Philip Chen在2018年提出。与RVFLNN不同，BLS将原始输入数据生成的映射特征和增强特征相结合以形成新的特征矩阵，然后将该矩阵用作模型的实际输入。这样做的好处有两个方面。一方面，可以提取数据中更多的代表性特征，以使回归预测结果更好。另一方面，还可以处理高维(甚至是无穷维)数据，因此该模型具有更好的数据处理能力。到目前为止，它已应用于漂移补偿、图像分类、时间序列预测等。

BLS是一种简单的平面网络结构，不同于复杂的深度神经网络。BLS的结构如图1所示。BLS首先通过随机权重和偏置将原始输入数据映射转换为映射特征，并将其存储在特征节点中。然后，通过相似的随机权重和偏置将特征节点扩展为增强节点。最后，所有特征节点和增强节点水平连接并输入到网络中，输入和输出之间的连接权重可以通过岭回归算法获得。详细的推导过程如下。

假设输入数据集为X，第i个映射特征Z_i(特征节点)由线性映射函数生成，如下所示：

Z_i＝φ_i(XW_ei+β_ei) (1)

其中，W_ei和β_ei是随机生成的维度适当的权重和偏置，φ_i是线性映射函数。Zⁱ＝[Z₁,Z₂,...,Z_i]表示特征映射矩阵。第j组增强节点生成为：

H_j＝ξ_j(ZⁱW_hj+β_hj) (2)

其中，W_hj和β_hj是随机生成的维度适当的权重和偏置，ξ_j是非线性映射函数。与上一步类似，H^j＝[H₁,H₂,...,H_j]。通过建模任务的复杂性来选择i和j的值。

监督学习任务，例如回归，通常需要良好的特征输入才能获得更好的结果。在生成特征节点的过程中，权重和偏置是随机生成的。但是，随机性是不可预测的。为了克服随机性的本质，将稀疏自动编码器用于微调随机生成的W_ei和β_ei。稀疏特征学习模型可以探索数据的最基本特征。假设BLS网络中有n组特征映射和m组增强映射，获得的BLS特征由A＝[Z^m|Hⁿ]表示。因此，BLS网络的输出Y可以表示为：

Y＝AW (3)

其中W是网络的连接权重。W的计算公式可以表示为W＝A⁺Y，其中A⁺是BLS特征矩阵A的伪逆矩阵。然后，将矩阵伪逆问题的解转换为l₂范数正则化BLS，可以将其表达为以下凸优化问题：

其中上式中的第二项(min)进一步限制权重W，λ是正则化系数。

因此，可以将W计算为：

W＝(λI+AA^T)^-1A^TY (5)

特别地，

其中，I是单位矩阵。

BLS方法/模型的基本框架可以列出如下：

步骤1：输入电子鼻的训练数据集；设置稀疏正则化参数C和特征节点收缩参数S；

步骤2：随机产生权重W_ei和偏置β_ei，并通过公式(1)计算第i个特征映射Z_i，设置特征映射组Zⁿ＝[Z₁,Z₂,...,Z_n]；

步骤3：随机产生权重W_hj和偏置β_hj，并通过公式(2)计算第j个增强节点H_j，设置特征增强节点组H^m＝[H₁,H₂,...,H_m]；

步骤4：让A＝[Z^m|Hⁿ]通过公式(6)计算A⁺；通过公式(5)计算连接权重W并输出连接权重W；通过公式(3)计算BLS模型的输出Y。

本实施例基于上述BLS模型，提出了一种训练时间快、预测精度高的回归分析算法模型(被称为增强BLS)，来解决电子鼻的回归分析问题。增强BLS相比BLS，有以下两点改进：

(1)改变BLS的稀疏正则化参数C、特征节点收缩参数S；

(2)改变初始随机映射矩阵的赋值方法。

基于此，本实施例提出一种对混合气体浓度进行回归预测的电子鼻宽度学习方法，包括步骤：

S1.选择不同的稀疏正则化参数、特征节点收缩参数和初始特征映射矩阵赋值方法，构建基于宽度学习模型的多个增强宽度学习模型；

(一)训练数据集和测试数据集

如图1所示的数据采集系统，本实施例电子鼻装置中的传感器阵列由TGS2600、TGS2602、TGS2610、TGS2620的16个气体传感器组成(每个传感器四个)，并将该传感器阵列放置在容量为60ml的密闭测量室内。气体样品以300ml/min的恒定流速注入测量室(MFC进行控制)。该腔室串联连接到蒸气输送系统，该蒸气输送系统提供了用于以高精度和高度可再现的方式设定浓度的多功能性(为了使得到的数据更加精确)。此外，整个实验过程都在计算机环境中运行，以确保数据的准确性。

数据收集的过程为：

将空气中生成的甲烷(第一气体)和乙烯(第二气体)的混合气体注入测量室，以使传感器阵列与气体样品完全接触，从而测量传感器阵列的电导率。同时，在测量结束时记录传感器信号并得到16个时间序列，该时间序列显示了气体的当前状态。通过约12小时不间断连续采集来自16个传感器阵列的信号来进行测量。

本实施例总共收集了约一百万条数据。在数据集中将甲烷和乙烯的浓度值相加，使其成为甲烷和乙烯混合气的浓度指数。样品中有38个浓度值指标(第1～第38预设浓度)。从每个浓度值样本中随机抽取1000个样本，以形成实验中使用的数据集。同时，每个浓度值指标样本的75％被用作训练样本集或训练数据集，其余作为测试样本集或测试数据集。但是，混合浓度为170ppm的样本数量相对较少，因此随机选择101个样本进行实验，其中75个样本为训练集样本，而26个样本为测试集样本。实验样品的详细信息示于表1。

表1.实验数据集的组成

注意：浓度为0表示将纯净的空气(严格按照氮气：氧气＝4:1的比例配置)注入测量室。

在其他实施例中，样本集、气体浓度值指标、每种气体浓度值指标对应的样本数量、训练数据集和测试数据集的样本比例、气体浓度值指标的具体浓度气体可根据不同要求或条件设定。

在其他实施例中：

样本集一般包括至少十种气体浓度值指标，即N≥10，但一般N≤50，指标太少，影响训练效果，指标太多，增大样本采集的工作量；

每种气体浓度值指标对应至少100个样本(一些特别的浓度值指标除外)，本实施例选择1000个样本，但一般不多于2000，以免工作量太大；训练数据集和测试数据集的样本比例在4:1～2:1之间，原则上训练数据集的样本要大于测试数据集；

气体浓度值指标为至少两种测量气体(比如甲烷、乙烯、CO等)按照第1～N预设浓度组合进行混合后的混合气体浓度。

(二)BLS的稀疏正则化参数C、特征节点收缩参数S

在BLS模型中，原始数据的特征提取和特征映射矩阵的稀疏性都需要参数设置。同时，参数的设置间接影响BLS模型的性能，从而也影响电子鼻系统的回归预测性能。因此，需要选择最佳参数值以提高电子鼻系统的性能。

如前所述，特征节点和增强节点的数量是根据建模任务的复杂性来选择的。在模型训练时很难以人为的方式评估建模任务的复杂性。因此，本实施例预先设置节点数量的搜索范围，采用遍历法确定特征节点和增强节点的数量。同时对模型中的稀疏正则化参数C和特征节点的收缩参数S进行了优化，并计算训练数据集的训练时间和测试数据集的回归预测错误率，以评估算法的性能。每种算法重复10次，并将10个结果的平均值作为最终回归预测错误率。优化参数的结果显示在表2中。

表2.参数更改后的结果

参数设置	ERR_train	ERR_test	最佳节点数
				C＝2^-30；S＝1e-3	0.0027	0.0060	NumFea＝3；NumWin＝11；NumEnhan＝181；
C＝0.00002；S＝1e-3	0.0030	0.0077	NumFea＝3；NumWin＝11；NumEnhan＝189；
				C＝0.00002；S＝1e-3	0.0023	0.0047	NumFea＝5；NumWin＝12；NumEnhan＝292；

注意：NumFea代表每个特征窗口的特征节点数量，NumWin代表特征窗口的数量，NumEnhan代表增强节点的数量。ERR_train是BLS模型的训练集的回归预测误差，ERR_test是BLS模型的测试集的回归预测误差。

从表2可以看出，在优化参数S和C的过程中，系统工作更理想，并且减少了系统的回归预测误差。当获得最优结果时，模型中的节点数大大增加，因为随着节点数的增加，从原始数据中一定程度地提取了更多的特征，从而获得了更好的结果。

需要说明的是，在寻找最优稀疏正则化参数和增强节点收缩参数的过程中，稀疏正则化参数是在2^-30～0.0002之间选择有多个值，特征节点收缩参数在1e-4～1e-2之间也选择有多个值，通过排列组合形成多组稀疏正则化参数、特征节点收缩参数值，然后各自进行训练和测试，最后综合回归预测误差率，将稀疏正则化参数C＝0.00002和增强节点收缩参数S＝1e-3作为最优选择，如表2所示。

(三)增强BLS的初始随机映射矩阵赋值方法

如前所述，随机性是不可预测的，随机数是根据某些规则随机生成的。在生成随机数之前，无法获得其特定值，这使得网络中由随机数生成的随机映射矩阵无法预测，从而导致特征提取的结果好坏。因此，BLS模型选择随机映射方式对输入数据进行特征映射时，这可能会导致重要特征信息丢失，从而增加最终回归预测误差率。因此，本实施例选择其他随机数生成器方法将生成的随机数分配给初始随机映射矩阵，以减少回归预测错误率。在本实施例对比高斯分布、指数分布、泊松分布、瑞利分布、对数正态分布、连续均匀分布、β分布等七种随机数生成方法，以选择最佳随机数分配方法。七种分布方法的表达式如下表3所示。

表3.分布方法的表达式

如图3所示，每种生成随机数的方法都随机生成100个点。可以发现，所有随机数生成方法生成的随机数范围在[-2,6]之间，但是随机数的分布是不同的。而BLS模型的随机数均匀地分布在[-1,1]之间。由于无法控制生成的随机数的值，因此本实施例选择扩展随机数的范围以使随机数的分布更大或更小，然后选择一种更适合BLS的随机数分配方法。

从图3中可以看到，符合高斯分布的随机数分布在[-2,4]中，符合指数分布的随机数分布在[0,4]中，符合瑞利分布的随机数分布在[0,2]中，符合对数正态分布的随机数分布在[0,6]，符合连续均匀分布的随机数分布在[0,1]，并且符合β分布的随机数分布在[0,1]。由于这些方法生成的随机数都是连续的，为与这些连续随机数进行对比，本实施例选择泊松分布在[0,4]中生成离散的随机数。

由于生成的随机数的范围不同，因此在特征映射期间可以提取更好的数据特征，以获得更好的回归预测精度。

本实施例在稀疏正则化参数C和特征节点收缩参数S处于最优时，通过使用随机性的不可预测性来更改初始随机矩阵，以探索一种最优赋值方法，详细结果如表4所示。

表4.不同随机权重赋值方法的回归预测误差率

权重矩阵赋值方法	ERR_train	ERR_test
			高斯分布	0.0023	0.0036
指数分布	0.0057	0.0082
			泊松分布	0.0042	0.0084
瑞利分布	0.0067	0.0100
			对数正态分布	0.0063	0.0070
连续均匀分布	0.0153	0.0130
			β分布	0.0129	0.0155

很明显，不同的赋值方法会改变回归分析的结果。在所有方法中，只有通过高斯分布获得的初始随机映射矩阵才能获得比原始方法更好的结果。

图4和图5分别展示了训练数据集和测试数据集中不同随机权重赋值方法的回归预测误差。可以看出，与其他分布相比，高斯分布在BLS模型的初始矩阵分配中具有明显的优势。同时，与BLS的原始随机分布方法相比，使用高斯分布生成初始随机映射矩阵在测试数据集上获得的回归预测误差结果得到了显著改善。因此，本实施例选择高斯分布作为初始随机映射矩阵赋值方法。

(四)增强BLS与其他回归算法的比较

为了证明增强BLS的有效性，本实施例将比较本方法与现有方法(包括BLS、BPNN、LSSVM、ELM、LR)的回归预测能力。为了确保实验结果正确，每个程序重复运行10次，然后取平均值作为最终结果。结果示于表5。

表5.不同算法的回归预测误差率(％)

	BLS	BPNN	LSSVM	ELM	LR	增强BLS
							训练数据集	0.0023	0.0018	0.0035	1.7807	0.0375	0.0023
测试数据集	0.0047	0.0124	0.0175	2.2927	0.0425	0.0036

从表5中可以发现，尽管在训练数据集的回归预测误差中，增强BLS高于BPNN，但是来自测试数据集的回归预测误差率却优于BLS、BPNN、LSSVM、ELM、LR。

基于步骤S1中每个增强宽度学习模型的训练集和测试集都相同，对应的训练时间差别并不大，步骤S5基本只考虑了回归预测错误率，当然在回归预测错误率相同的情况下，训练时间越短越好。

而记录训练时间是为了与其他回归预测算法作比较，比较结果如表6所示。很明显，LSSVM具有最长的训练时间来完成回归分析，而LR具有最短的训练时间来完成回归分析。在这六种方法中，增强BLS具有很好的性能，其训练时间仅比LR稍长，但增强BLS具有良好的回归预测精度。

表6.不同算法的训练时间

结合表5和表6，可以看到LR的训练时间比增强BLS短，但回归预测结果却比增强BLS差。但是，BLS、BPNN、LSSVM和ELM的四种方法不仅训练时间比增强BLS长，而且预测误差比增强BLS还差。

(五)结论

电子鼻在混合气体回归预测分析中的应用非常重要。针对背景技术提出的现有回归预测方法的缺点，即训练时间长、预测精度不理想，本实施例对BLS进行研究并发现，BLS非常适合混合气体的回归分析。因此，本实施例提出一种电子鼻宽度学习方法(增强BLS)，对传统的BLS进行了改进。第一，对模型中的参数进行了优化，以对甲烷和乙烯的混合气进行回归分析获得较好的预测结果。第二，改变了BLS模型的初始随机映射矩阵的赋值方法，并通过实验结果进行了验证，选择了高斯分布作为初始随机映射矩阵赋值方法。当将增强BLS用于甲烷和乙烯混合气体的回归预测时，最终结果优于BLS、基于BLS的其他增强宽度学习模型、BPNN、LSSVM、ELM和LR。

上述实施例为本发明较佳的实施方式，但本发明的实施方式并不受上述实施例的限制，其他的任何未背离本发明的精神实质与原理下所作的改变、修饰、替代、组合、简化，均应为等效的置换方式，都包含在本发明的保护范围之内。

Claims

1.一种对混合气体浓度进行回归预测的电子鼻宽度学习方法，其特征在于，包括步骤：

2.如权利要求1所述的一种对混合气体浓度进行回归预测的电子鼻宽度学习方法，其特征在于，在所述步骤S1中，所述稀疏正则化参数的选择范围在2^-30～0.0002之间。

3.如权利要求2所述的一种对混合气体浓度进行回归预测的电子鼻宽度学习方法，其特征在于，所述电子鼻回归预测模型的稀疏正则化参数为0.00002。

4.如权利要求1所述的一种对混合气体浓度进行回归预测的电子鼻宽度学习方法，其特征在于，在所述步骤S1中，所述特征节点收缩参数的选择范围在1e-4～1e-2之间。

5.如权利要求4所述的一种对混合气体浓度进行回归预测的电子鼻宽度学习方法，其特征在于，所述电子鼻回归预测模型的特征节点收缩参数为1e-3。

6.如权利要求1所述的一种对混合气体浓度进行回归预测的电子鼻宽度学习方法，其特征在于，在所述步骤S1中，所述初始随机映射矩阵赋值方法的选择项有高斯分布、指数分布、泊松分布、瑞利分布、对数正态分布、连续均匀分布、β分布。

7.如权利要求6所述的一种对混合气体浓度进行回归预测的电子鼻宽度学习方法，其特征在于，所述电子鼻回归预测模型的初始随机映射矩阵赋值方法为高斯分布。

8.如权利要求1所述的一种对混合气体浓度进行回归预测的电子鼻宽度学习方法，其特征在于：

在所述步骤S2中，所述样本集包括至少十种气体浓度值指标，每种所述气体浓度值指标对应至少100个样本；所述预设比例为训练数据集：测试数据集，所述预设比例在4:1～2:1之间；所述气体浓度值指标为至少两种测量气体按照第1～N预设浓度组合进行混合后的混合气体浓度，N≥10。

9.如权利要求8所述的一种对混合气体浓度进行回归预测的电子鼻宽度学习方法，其特征在于：所述预设比例为3:1。

10.如权利要求8所述的一种对混合气体浓度进行回归预测的电子鼻宽度学习方法，其特征在于：所述气体浓度值指标为甲烷和乙烯按照第1～38预设浓度组合进行混合后的混合气体浓度。