CN112462001B

CN112462001B - 一种基于条件生成对抗网络进行数据增广的气体传感器阵列模型校准方法

Info

Publication number: CN112462001B
Application number: CN202011286310.6A
Authority: CN
Inventors: 王庆凤; 闫宇航; 刘威
Original assignee: Jilin University
Current assignee: Jilin University
Priority date: 2020-11-17
Filing date: 2020-11-17
Publication date: 2021-07-23
Anticipated expiration: 2040-11-17
Also published as: CN112462001A

Abstract

本发明公开了一种基于条件生成对抗网络进行数据增广的气体传感器阵列模型校准方法，包括如下步骤：步骤一、采集气体传感器阵列的响应信号数据集；提取标准气体环境下的不同浓度的气体对应的响应信号的特征数据，作为原始数据样本；步骤二、对所述原始数据样本进行预处理，得到原始数据样本的标准化值；步骤三、使用原始数据样本的标准化值对所述条件生成对抗网络模型进行训练，得到样本生成器模型；并且通过所述样本生成器模型生成不同浓度的气体对应的响应信号的特征数据，作为生成数据样本；步骤四、将所述生成数据样本与所述原始数据样本混合，得到扩充数据样本；步骤五、使用所述扩充数据样本对传感器阵列模型进行校准。

Description

一种基于条件生成对抗网络进行数据增广的气体传感器阵列模型校准方法

技术领域

本发明属于气体传感器阵列信号处理技术领域，特别涉及一种基于条件生成对抗网络进行数据增广的气体传感器阵列模型校准方法。

背景技术

气体传感器阵列的模型校准是建立测量值与分析量之间函数关系的一个昂贵但必要的过程。传统的校准方法是首先选择计算模型的函数形式，然后基于训练数据集去估计相应的模型参数和误差，最后进行模型验证。所得的计算模型随后被用于新的测量和预测气体的浓度或类别。然而，经过一段时间后，由于传感元件特性的变化，模型的性能下降，需要对系统进行重新校准。

近年来，人们对化学检测系统的各种校准技术进行了研究，包括工神经网络、线性判别器、多层感知器、k-NN分类器、偏最小二乘回归器以及支持向量机等。无论选择何种数据处理技术，都需要收集训练数据集来执行分析系统的校准。然而，训练数据的收集存在一下几个问题，一是，由于实验本身的费用和技术人员的投入，生成训练数据集是一项非常昂贵、费时费力的操作。在获取新样本成本高昂的应用中，这种情况尤其重要，例如空间船的空气质量控制、公共空间的环境监测和工业泄漏检测等。二是，在数据集收集的过程中如果存在部分传感器失效等原因，就会造成数据测量的不完整，会为传感器的模型校准带来很大困难；比如在分析传感器漂移特性时，需要长时间的数据监测，如果存在数据的丢失，那么无法重新获取与时间对应的样本数据。三是，如果模型校准时采用的气体浓度实验样本与实际测量应用的气体样本浓度分布不完全一致，需要重新进行样本的采集和校准，然而对于低浓度的气体样本在实验过程中有时不易获取，就会导致模型校准精度的下降。目前还没有从数据生成的角度研究减小传感器阵列重新校准的频率和相关成本的方法。

发明内容

本发明的目的是针对现有技术的缺陷，提供一种基于条件生成对抗网络进行数据增广的气体传感器阵列模型校准方法，该方法通过条件生成式对抗网络生成气体传感器的响应数据，扩充数据的浓度范围，提高数据的多样性，降低样本获得的成本。

本发明提供的技术方案为：

一种基于条件生成对抗网络进行数据增广的气体传感器阵列模型校准方法，包括如下步骤：

步骤一、采集气体传感器阵列的响应信号数据集；提取标准气体环境下的不同浓度的气体对应的响应信号的特征数据，作为原始数据样本；

步骤二、对所述原始数据样本进行预处理，得到原始数据样本的标准化值；

步骤三、使用原始数据样本的标准化值对所述条件生成对抗网络模型进行训练，得到样本生成器模型；并且通过所述样本生成器模型生成不同浓度的气体对应的响应信号的特征数据，作为生成数据样本；

步骤四、将所述生成数据样本与所述原始数据样本混合，得到扩充数据样本；

步骤五、使用所述扩充数据样本对传感器阵列模型进行校准。

优选的是，在所述步骤二中，对所述原始数据样本进行预处理包括如下步骤：

步骤1、计算原始数据样本均值

和原始数据样本的标准偏差S₀，

其中，K为每个采样时刻的传感器阵列输出的响应信号的特征数，

为第i个样本中第j个采样的第K个特征；N为样本个数，M为一个样本中的采样次数；

步骤2、得到原始数据样本的标准化值为：

其中，

优选的是，在所述步骤三中，得到所述样本生成器模型包括如下步骤：

步骤a、构建样本初始生成器模型；

其中，所述初始样本生成器模型的输入参数为随机噪声以及设定的浓度标签，输出参数为所述生成数据样本；并且以所述设定的浓度标签作为所述生成数据样本对应的浓度标签；

步骤b、构建初始判别器模型；

其中，所述初始判别器的输入参数为所述原始数据样本及其相对应浓度标签数据对或所述生成数据样本及其相对应的浓度标签数据对，输出参数为输入的数据对的评分；

步骤c、连接所述初始样本生成器模型与初始判别器模型，并且对所述初始样本生成器模型和所述初始判别器模型进行交替迭代训练，更新初始样本生成器模型和初始判别器模型的参数；直到达到预设迭代次数，得到所述样本生成器模型；

其中，更新初始判别器模型参数时的训练目标为：使得初始判别器模型对于所述原始数据样本及其相对应浓度标签数据对评分高，对于与所述原始数据样本及其相对应浓度标签数据对相似度低的生成数据样本及其相对应的浓度标签数据对评分低；

更新初始生成器模型参数时的训练目标为：使得生成数据样本及其相对应的浓度标签数据对在判别器模型中能够获得高分。

优选的是，所述预设迭代次数至少为6000次。

优选的是，在所述步骤c中，每次迭代训练中包括：更新两次初始判别器模型参数和更新一次初始样本生成器模型参数；

其中，更新两次初始判别器模型参数包括：使用所述原始数据样本进行训练更新一次以及使用所述生成数据样本进行训练更新一次。

优选的是，在所述步骤四之前，还包括剔除所述生成数据样本中与所述原始数据样本相同的数据。

优选的是，在所述步骤五之前，还包括：对所述扩充数据样本进行回归训练，对得到的扩充数据样本进行验证。

本发明的有益效果是：

本发明提供的基于条件生成对抗网络进行数据增广的气体传感器阵列模型校准方法，该方法通过条件生成式对抗网络生成气体传感器的响应数据，扩充数据的浓度范围，提高数据的多样性，降低样本获得的成本。

附图说明

图1是本发明所述的基于条件生成对抗网络进行数据增广的气体传感器阵列模型校准方法的流程图。

图2a为加热电压和CO浓度随时间的变化的示意图。

图2b为CO浓度随时间的变化的示意图。

图3为本发明实施例中生成器模型结构图。

图4为本发明实施例中判别器模型结构图。

图5为本发明实施例中生成器与判别器模型连接结构图。

图6a-图6d分别为本发明实施例中生成的对应于CO浓度为2ppm时的传感器响应数据样本。

图6e-图6h分别为本发明实施例中生成的对应于CO浓度为8ppm时的传感器响应数据样本。

图7是本发明实施例中回归训练A组实验数据准备流程图。

图8是本发明实施例中回归训练B组实验数据准备流程图。

图9是本发明实施例中回归训练模型结构图。

具体实施方式

下面结合附图对本发明做进一步的详细说明，以令本领域技术人员参照说明书文字能够据以实施。

如图1所示，本发明提供了一种基于条件生成对抗网络进行数据增广的气体传感器阵列模型校准方法，具体实施过程如下：

1.实验数据描述

本实施例使用了由Javier Burgués和Santiago Marco所测量的温度调制气体传感器数据集(Gas sensor array temperature modulation Data Set)。该数据集由14个温度调制的金属氧化物(MOX)气体传感器测量而成。其化学检测平台在气室中暴露于一氧化碳和潮湿的合成气体的混合物中，这些传感器对于不同的气体刺激会产生随时间变化的多元响应，整个测量过程历时3周。内置的加热器控制工作温度，根据制造商的建议，加热电压在20和25s的周期内在0.2-0.9V的范围内进行调制。在实验进行过程中，监测测量室内温度及湿度的值。每次实验包含100次量测，浓度采样样本为10个，均匀分布在0-20ppm范围内，每个浓度的样本重复测量10次。每一次重复测量时，相对湿度在15％-75％中均匀分布随机选择。传感器响应数据时间序列采样频率为3.5Hz。一个时间点的数据样本共20项，包括采样的时间、CO的浓度、相对湿度、温度、流速、加热电压和16个电阻的响应值。

2.数据预处理

在数据预处理的过程中需要对数据进行分块，这是因为实验测得的数据是连续的长达25个小时的数据。在对气体浓度以及传感器响应数据按时间周期切分后，即每一个加热周期内包含一组数据点，在生成或回归训练时将每一组数据点当作一个样本进行训练。考虑测量过程与实验设置的实际情况与理想的生成对抗网络实验数据间的差别，需对原始数据进行如下的处理。

步骤①：实验所测得的20列数据中，将数据类别中的第一项“Time(s)”列予以去除，在原始实验数据中该列用于监控时间变化。第4项“Temperature(C)”与第五项“Flowrate(mL/min)”根据实验时的设置可将其看为常数，应避免这二者对生成与回归任务产生影响，故而需将这两列去除。另外，在步骤③结束后将“Heater voltage(V)”项剔除掉。

步骤②：因为实验时连续量测了不同浓度下CO的传感器数据响应，可能导致CO浓度改变的操作出现在加热周期内。而在进行回归训练以及生成训练时，需要确保在一个加热周期内CO的浓度值保持恒值。在实际操作中，在一个加热周期内，通过设定一个CO浓度所允许变化的最大阈值，来剔除CO浓度发生了变化的周期。

步骤③：对数据进行分割方法是，当后一时刻的“Heater Voltage”的值减去当前时刻“Heater Voltage”的值大于某一阈值(本实例设为0.3V)时，即视为周期开始；而在下一次“Heater Voltage”突然增加大过该阈值之前均视作本周期结束。实验时的加热周期为20s以及25s交替，如图2a和图2b所示。图2a和图2b分别为第17300–17750个采样时间点的加热电压和CO浓度随时间的变化。图2a中方框和三角形标记处的转折点分别表示所提取出的一个周期的开始和结束。图2a中两个方框标记中间的数据根据步骤②，因周期内CO浓度发生了变化而予以剔除。

步骤④：去除周期的边缘，以达到去除传感器数据因为加热电压的改变造成的“尾巴”(突然的上升和下降)。在本实例中，以由步骤③得来的周期开始的采样时间点之后的第4个采样时间点作为周期的开始，以由步骤③得来的周期开始的采样时间点之后的第79个采样时间点作为周期的结束。由此形成的每一个数据样本的形状为(76,16)，亦即在时间的维度上，每个样本都有76个数据采集点，对应20项采集到的数据。

步骤⑤：将除“CO(ppm)”项之外的数据进行标准化，使用z-score方法。具体为除“CO(ppm)”列之外每项数据独立进行操作，该项中每一个值减去该项的均值再除以该列的标准差，如式(1)所示。

步骤⑥：将“CO(ppm)”项进行数据归一化。实验条件设定下，CO浓度值为在0-20之间均匀取10个值。因此，将“CO(ppm)”列中的每个值均除以10再减1，这样可以将原有“CO(ppm)”值的域均匀映射到区间[-1,1]之间。

步骤⑦：去除“CO(ppm)”项的在一个周期内的重复数据。在每一个76列的样本之中，“CO(ppm)”列中有76个重复的值。而对于每一个形状为(76,16)的样本，在其“CO(ppm)”列我们只需要一个值作为标签。具体操作为在“CO(ppm)”项中每76个值中取出一个值作为标签。

至此，生成训练用的数据X和Y已经准备好，在本实施例中，共准备了1000组数据进行训练，数据的形状如表1所示。

表1数据形式示意表

3.使用条件生成对抗网络(cGAN)生成传感器数据

cGAN是一种深度学习方法，其中应用了条件设置，本实施例中气体浓度标签参与到判别器的判断与生成器的生成中，在训练时会不仅会考虑到所生成的数据与真实数据是否相像，同时也将生成的数据与标签之间是否匹配纳入考量范围。

步骤①：定义生成器。将随机噪声作为输入的同时，引入浓度标签作为生成器模型的输入，在训练时，将输入的随机噪声与浓度标签一同进行训练。输入的内容通过神经网络形成输出。这样，在生成器模型中，将输入的噪声与标签转换成了需要生成的数据样本的形式。在训练过程中，调整模型的参数，从而使生成的数据趋近真实，同时符合标签。其详细模型结构如图3所示。其中dense_6和dense_7层使用激活函数“relu”。

步骤②：定义判别器。判别器的输入为真实数据中的传感器响应及相对应标签以及生成器生成的传感器数据及相对应的标签，这些输入通过神经网络后输出判别器对输入数据的评分。该数值越接近1表示生成的越好，数值越接近0表示生成的越差。其详细模型结构如图4所示。其中dense_1、dense_2和dense_3使用激活函数“relu”,dense_4使用激活函数“sigmoid”。

步骤③：连接生成器和判别器。生成器的标签输入同时连接到判别器的标签输入端。连接方式如图5所示。图中，最后一个模块为判别器，其余为生成器。连接方式具体为将生成器生成的数据以及生成器的标签输入同时作为判别器的输入。

步骤④：使用预处理好的数据进行训练。在每个迭代周期内进行三次参数更新，一次参数更新是只针对判别器输入真实数据集中取出的数据，另一次参数更新只针对判别器输入生成器生成的数据。这两组数据的数据量为1:1，训练判别器时，使用的损失函数为“binary_crossentropy”；优化器使用“Adam”，参数为“lr＝0.00006,beta_1＝0.5”。第三次参数更新用来训练生成器，使用的损失函数为“binary_crossentropy”；优化器使用“SGD”，参数为“lr＝0.0005，momentum＝0.9，nesterov＝True”。

在开始训练之前，定义一个常数等于数据批值的一半，用来分割训练用的一批数据。在一个训练周期内，先从真实数据集中取出半批的真实数据，然后将这些真实数据送入判别器进行训练，更新判别器的参数，提升判别器将真实数据判断为真的能力。之后，使用生成器生成另外半批的虚假数据，并将这些数据送至判别器，训练判别器针对虚假数据给出低分的能力。

在训练完2次判别器后(1次针对真实数据更新参数，另一次针对虚假数据更新参数)，生成随机向量与类别标签。再生成用作训练判别器打分的标签(数值“1”)，即希望生成器尽可能生成使判别器打分高的数据样本。在开始训练判别器之前，在训练时是将判别器和生成器连接在一起的整个模型进行训练，但不应对其中的判别器更新参数。因此需要先固定判别器模型，即将判别器的trainable设置为False，再训练生成器。在训练后，打开判别器的锁定。将训练所得的两个判别器损失函数值，以及生成器的损失函数值打印输出。

上述是训练时所进行其中一次迭代的操作，在下一次迭代训练中将会重复上述的训练方法，生成器与判别器交替训练，从而交替增强。因为类别标签的引入，使得判别器不仅能判断所获得数据的真实性，还能判断所获的数据与类别标签的相关性；使得生成器不仅能生成与真实数据相似的数据，还能根据所获类别标签生成与标签相对应的数据。

步骤⑤：在进行6000次迭代后，输出并保存所生成的数据。训练而得的CO浓度分别为2ppm和8ppm时的数据样本，包括相对湿度(Humidity)和14个传感器的响应(R1、R2、…、R14)的生成效果如图6a-6h所示；其中，图6a-6d分别为生成的对应于CO为浓度2ppm时的传感器响应数据样本，图6e-6h分别为生成的对应于CO浓度为8ppm时的传感器响应数据样本。可见，经过cGAN训练而成的生成器模型能够根据所获得的标签生成不同的数据样本。

4.数据集增广及回归训练验证

步骤①：从原始数据集合中随机选取出100或200个数据阵列进行数据经划分，选取了1024个数据阵列作为测试集，该测试集在训练时并未有任何信息泄露给回归模型，因此可以用于测试训练后模型的泛化能力，客观地评价模型的好坏。

步骤②：对传感器响应数据进行z-score标准化，对数据标签进行归一化。进行标准化处理时，先对训练集标准化再将规则用于测试集，从而避免模型在训练时得到来自于测试集的信息。

步骤③：设置两组实验所用的训练数据以及测试集数据。该回归训练以生成的或真实的[76,15]维的数据作为训练用数据。76维代表时间尺度，15维包括14个气敏传感器数据以及1个湿敏传感器数据。回归训练的标签为CO浓度。回归训练设置A、B两组实验进行比较，每组实验使用的训练数据包含200个维度为[76,15]的数据阵列。其中A组包含100个真实数据和100个由生成器生成的虚假数据，真实与虚假数据量比例为1:1，另一组B组中的200个数据全部取自真实数据集。数据划分方式如图7和图8所示，图中y_train_1为A组实验数据标签，x_train_1为A组实验数据除去标签的部分；y_train_2为B组实验数据标签，x_train_2为B组实验数据除去标签的部分；get_y_train函数可将一组数据中冗余的标签数据剔除。对测试集的数据处理得到相应的测试数据x_train_test以及标签y_train_test。回归训练所用数据形状如表2所示。

表2回归训练数据形式表

步骤④：回归训练。本实验中采用包含一层隐藏层的简单设计，模型结构如图9所示。模型中dense层使用“relu”作为激活函数。损失函数使用均方误差(MSE)，优化器选择参数为0.001的RMSprop。训练时将训练数据中的20％划分为验证集。在训练时记录均方误差(MSE)和平均绝对误差(MAE)，分别如式(2)和式(3)所示。

对A、B两组数据进行实验，每组实验仅所用训练数据不同，其他如模型架构、损失函数、优化器等完全相同。训练设置为迭代1000次。在训练结束后打印出MAE与MSE的随训练代数的变化情况。A组和B组数据训练后五次迭代结果及平均值如表3和表4所示。

表3 A组数据训练后五次迭代结果及平均值表

表4 B组数据训练后五次迭代结果及平均值表

步骤⑤：用测试集测试训练好的模型，同样以MAE和MSE作为评估参数。回归模型测试结果如表5所示。

表5回归模型测试结果表

通过实验可以看出，掺杂了由生成器生成的虚假数据的数据样本(A组)同样可以像完全为真实数据的数据样本(B组)一样很好地完成回归训练。并且在使用测试集进行测试时，由表5可知，掺杂了生成数据的数据样本训练而成的模型(A组)展现了明显更好的泛化能力。在测试集上A组模型的MAE仅为B组模型的45％，也就是说，经过A组训练的模型在测试集上有更高的回归准确度。这充分验证了基于条件生成对抗网络按标签生成数据的有效性与准确性。

综上所述，本发明从数据生成的角度提出了旨在延长重新校准间隔时间，减弱传感器漂移、传感器故障或传感器中毒的影响，降低校准过程成本、最大化校准后的精度，同时减少训练样本的数量和校准成本。

本发明提供的基于条件生成对抗网络进行数据增广的气体传感器阵列模型校准方法，能够解决原有数据涵盖范围较窄、数据多样性不足的问题，能够有效提升传感器模型校准的准确性。

尽管本发明的实施方案已公开如上，但其并不仅仅限于说明书和实施方式中所列运用，它完全可以被适用于各种适合本发明的领域，对于熟悉本领域的人员而言，可容易地实现另外的修改，因此在不背离权利要求及等同范围所限定的一般概念下，本发明并不限于特定的细节和这里示出与描述的图例。

Claims

1.一种基于条件生成对抗网络进行数据增广的气体传感器阵列模型校准方法，其特征在于，包括如下步骤：

步骤五、使用所述扩充数据样本对传感器阵列模型进行校准；

在所述步骤二中，对所述原始数据样本进行预处理包括如下步骤：

步骤1、计算原始数据样本均值

和原始数据样本的标准偏差S₀，

步骤2、得到原始数据样本的标准化值为：

其中，

在所述步骤三中，所述得到样本生成器模型包括如下步骤：

步骤a、构建初始样本生成器模型；

步骤b、构建初始判别器模型；

其中，所述初始判别器模型的输入参数为所述原始数据样本及其相对应浓度标签数据对或所述生成数据样本及其相对应的浓度标签数据对，输出参数为输入的数据对的评分；

更新初始样本生成器模型参数时的训练目标为：使得生成数据样本及其相对应的浓度标签数据对在判别器模型中能够获得高分。

2.根据权利要求1所述的基于条件生成对抗网络进行数据增广的气体传感器阵列模型校准方法，其特征在于，所述预设迭代次数至少为6000次。

3.根据权利要求1或2所述的基于条件生成对抗网络进行数据增广的气体传感器阵列模型校准方法，其特征在于，在所述步骤c中，每次迭代训练中包括：更新两次初始判别器模型参数和更新一次初始样本生成器模型参数；

4.根据权利要求3所述的基于条件生成对抗网络进行数据增广的气体传感器阵列模型校准方法，其特征在于，在所述步骤四之前，还包括剔除所述生成数据样本中与所述原始数据样本相同的数据。

5.根据权利要求4所述的基于条件生成对抗网络进行数据增广的气体传感器阵列模型校准方法，其特征在于，在所述步骤五之前，还包括：对所述扩充数据样本进行回归训练，对得到的扩充数据样本进行验证。