CN114219157A

CN114219157A - 一种基于最优决策和动态分析的烷烃气体红外光谱测量方法

Info

Publication number: CN114219157A
Application number: CN202111556118.9A
Authority: CN
Inventors: 李忠兵; 段洪名; 梁海波; 庞微; 蒋川东; 谌贵辉
Original assignee: Southwest Petroleum University
Current assignee: Southwest Petroleum University
Priority date: 2021-12-17
Filing date: 2021-12-17
Publication date: 2022-03-22
Anticipated expiration: 2041-12-17
Also published as: CN114219157B

Abstract

本发明公开了一种基于最优决策和动态分析的烷烃气体红外光谱测量方法，其包括：采集和预处理烷烃类气体红外光谱数据；寻找定性、定量建模算法和超参数配置的最优策略；建立定性模型并识别现场待测数据，其结果用于匹配相应历史数据集；确定不同相似性阈值，对待测数据和历史数据进行相似性度量，建立局部、全局动态定量分析模型，并预测气体浓度；在不同阈值条件下，现场待测数据和分析结果分为可靠和疑似异常；系统完成定性、动态定量分析后，将可靠的样本和结果更新到历史数据集。本发明有效解决了利用机器学习在红外光谱测量时无法解决超参数多、确定最优算法和超参数耗时，以及单纯依赖离线模型预测现场待测数据时精度低的问题。

Description

一种基于最优决策和动态分析的烷烃气体红外光谱测量方法

技术领域

本发明涉及一种基于最优决策和动态分析的烷烃气体红外光谱测量方法，属于红外光谱分析领域。

背景技术

为解决在生产和环境检测等领域烷烃类气体测量操作难度大、测量精度受现场因素影响较大的难题，烷烃气体安全监测预警和智能检测技术研究已成为我国科研工作的重点。常规气体检测方法，如电气法、电化学法、或通过燃烧进行分析的气相色谱法等，此类技术要么设备成本过高、要么操作难度较大、同时无法解决气体无损检测和潜在的安全隐患问题。而利用红外测量技术，探索气体光谱变化规律，建立气体排放或泄露的无损监测和安全预警机制，是解决该问题的关键。

红外光谱监测技术能够快速、无接触地实现物质的定性与定量分析，针对气体的检测在准确率、稳定性、连续工作特性、测量精度以及成本等方面具有较大的优势。目前结合有监督机器学习算法的红外光谱气体测量分析技术，如多元线性回归、支持向量机、随机森林等，建立气体分析的测量模型，能够达到定性分析气体种类和定量分析气体浓度的目的。

但机器学习算法的良好性能在很大程度上取决于模型所使用算法及参数配置，针对不同数据还需要具有一定专业知识基础的工程师根据经验来确定最优算法及参数配置，针对不同应用场景也需要进行优化配置，使得人工操作密集、耗时、易出错、效率低。

另一方面，依赖于实验室理想环境下采集的气体红外光谱历史数据集所建立的离线测量分析模型，用于预测现场作业所采集的红外光谱数据时，并未考虑实际作业过程中的复杂性、强非线性和时变性等特点。这致使初期建立的模型往往不能适应新的过程特性和环境变化，极大地限制了测量模型在作业现场的动态测量应用，从而影响测量结果和预测精度，这种离线测量技术限制了红外光谱检测技术在烷烃气体分析领域的应用。

发明内容

基于此，为解决利用机器学习算法建立红外光谱分析模型时超参数多、确定最优算法和超参数耗时以及单纯依赖离线模型预测现场待测数据时精度低等问题，特提出了一种基于最优决策和动态分析的烷烃气体红外光谱测量方法，以贝叶斯优化理论选取最优算法、超参数模型等参数，通过相似性原则建立局部动态分析模型，根据离群待测数据建立全局动态分析模型，结合两种分析模型解决单纯全局离线测量的精度问题。

为实现上述目的，本发明采用的技术方案如下：

一种基于最优决策和动态分析的烷烃气体红外光谱测量方法，包括以下步骤：

S1：采用专门的实验仪器设备采集烷烃类气体的红外光谱数据,该历史样本数据包含单组份类烷烃气体、多组份混合烷烃气体、类别标签和浓度标签；

S2：选取合适的红外光谱一维序列数据预处理方式，剔除前期实验阶段采集的异常数据；

S3：建立最优决策配置流水线，该流水线通过随机森林代理模型和采集函数分别确定定性、定量分析阶段的最优算法和超参数配置组合；

S4：基于S2-S3步骤建立烷烃气体定性分析模型，进行烷烃气体种类识别，根据定性分析结果在历史数据集中选定匹配的气体类别数据集；

S5：根据动态建模需求确定相似性度量阈值，并通过相似性原则对现场测量数据和S4步骤得到的历史样本数据进行相似性度量度量；

S6：建立烷烃气体浓度预测实时测量局部动态分析模型，该过程通过相似程度选择高相似程度的历史样本和较相似程度的历史数据样本，进行局部动态定量建模分析；

S7：建立烷烃气体浓度预测实时测量全局动态分析模型，该过程对与历史样本相似性差异较大或者疑似异常，无法进行局部建模的现场待测数据进行全局动态定量建模分析；

S8:引入红外光谱数据集在线更新机制，该机制通过判断待测数据是否为与历史数据样本离群的疑似异常数据，并根据判断结果确定是否将现场测量数据和分析结果更新至历史数据集中；

S9：获取待测样本所对应的光谱数据，基于S3步骤所提最优配置模型对待测数据进行定性识别，基于S4、S5步骤所提最优动态分析模型对现场待测数据进行定量分析，基于S7步骤实现在线更新历史数据集，完善烷烃气体红外吸收光谱数据库。

优选的，S1步骤中采用实验仪器设备采集烷烃类气体的红外光谱数据,该历史样本数据包含单组份类烷烃气体、多组份混合烷烃气体、类别标签和浓度标签，具体如下：

所采用的实验仪器设备可以为中红外光谱仪(波数范围应覆盖2000-6000cm^-1)、长光程气体池(光程长度应大于3.3m)、高精度混气配气系统(混气精度±0.5％F.S，最大流量5000mL/min)；

所采集的烷烃类气体包括但不限于甲烷、乙烷、丙烷、正丁烷、异丁烷、正戊烷和异戊烷的单质气体及混合气体；

所采集的混合气体组分类型和组分个数包括但不限于1～6种。

优选的，S2步骤中选取合适的红外光谱一维序列数据预处理方式，剔除前期实验阶段采集的异常数据，进行光谱数据预处理操作的方法包括：

将所述实验的烷烃类气体红外光光谱数据集，按一定比例划分为光谱数据训练集和光谱数据测试集，并用卷积平滑方法对原始光谱数据进行变化信息加权保留的降噪处理；

并针对数据集中可能存在的异常数据，对降噪之后的数据采用主成分得分法进行异常样本检测；该过程基于主成分分析法选取样本数据的前n个主成分，并以数据在方差变化最大的方向的投影为第一主成分，计算得分PC1；第二大方差对应第二主成分，计算得分PC1；以此类推。然后得分之和小于90％的样本视为异常样本并将其剔除样本集。

预处理方式包括但不限于上述方法；

优选的，S3步骤中针对选择最优算法难和超参数设置效率低的问题，采用Auto-Sklearn架构，构建算法集，并建立最优决策配置流水线，该流水线通过随机森林代理模型和采集函数分别确定定性、定量分析阶段的最优算法和超参数配置组合。Auto-Sklearn架构解决算法选择与超参数优化的问题可做以下描述：

假设建立模型拟采用的算法集为A＝{A⁽¹⁾,A⁽²⁾,···,A⁽ⁿ⁾}，A中的每一个元素A⁽ⁱ⁾(i＝1,···,n)表示为一种算法和对应需要设定的超参数，相对应的超参数空间为Λⁱ。另采用K折交叉验证将数据集D＝{(x₁,y₁),···,(x_m,y_m)}分为训练集

和验证集

来评估泛化性能，此处的x表示超参数组合，y表示在该超参数组合下的损失函数评估值。并设有

表示在k个训练集D_train上训练时，带有超参数δ₁,···,δ_m∈Λⁱ的算法A⁽ⁱ⁾的损失函数，那么可将算法选择与超参数优化的问题归纳为寻找算法

和超参数

的最优组合：

针对以上寻找最优算法和超参数组合的问题，本发明选用基于随机森林回归代理模型的SMAC(Sequential Model-Based Algorithm Configuration，基于序列模型的算法配置器)寻优方法；

因为随机森林回归模型适合处理算法选择和含非数值类超参数优化这类层级式的高维混合型问题，而且预测候选配置的计算成本远比实际求解候选配置小；

优化过程的两个关键问题：如何利用高斯过程构造目标损失函数

的先验概率并更新其后验分布以及采集函数的选取；

解决上述两个关键问题的关键组件：概率代理随机森林回归模型和采集函数EI；

在每次迭代中，将代理模型拟合到目前为止进行的目标函数的所有观测值，得到当前配置组合的均值和方差，然后通过采集函数进行下一个最优值点的权衡选择；

基于随机森林回归的代理模型：模型的建立主要基于初始数据集D，根据随机初始化的m组超参数组合x和经交叉验证得到的m个损失函数评估值y，用随机森林回归拟合目标损失函数

该过程可以类比高斯回归过程过程中，由许多点构成的多维正态分布；

该回归树的中间节点会根据二分判据，把输入数据集D不断划分为不同的区域，并最终在叶结点将其划分为各不相交的区域R＝{R₁,…,R_M}，例如某一节点二分判据的由来，是将中间节点划分的区域R_m中的数据二分为子集R_m1和子集R_m2，二分标准为标准平方误差函数

计算出R_m1和R_m2的误差函数值的和，式中，n为该区域的数据样本个数；

当该标准平方误差函数值的和最小时，则将此时划分区域R_m的条件确定为该节点的二分标准，式中y_i表示数据集D中的损失函数标签值，

表示该区域所有数据样本标签值y_i的均值；

具体构建节点和回归树的递归过程可做以下描述：

从带有数据集D的根节点开始，利用分离点s和超参数组合x分离变量j进行数据二分；

当j为数值型分离变量时，s表示一个数值标量；如果x_i,j≤s，此时数据样本x_i划分到下一级的左侧区域R_L1,如果x_i,j≥s，此时数据样本x_i划分到下一级的右侧区域R_R1；

当j为类别型型分离变量时，s表示一个类别变量的集合；如果x_i,j∈s，此时数据样本x_i划分到下一级的左侧区域R_L1,如果

此时数据样本x_i划分到下一级的右侧区域R_R1；

在每一个节点处，选择的不同分离变量j和分离点s，得到不同区域平均值的平方差之和

式中，l(j,s)表示在当前分离变量j和分离点s得到的二分之后R_L1(j,s)、R_R1(j,s)两个区域平均值的平方差之和，

和

分别表示两个区域所有数据样本标签值y_i的均值；

节点遍历所有分离变量j和分离点s后得到的l_min(j,s)，则可确定当前分离变量j和分离点s为该节点的二分判据，经过二分的下一级两个区域继续采用该方式生成中间节点或者叶结点，当区域中的所有训练数据点进行分离，共享相同的时x，该过程终止，这意味着不可能再进行拆分，从而该节点成为叶结点。

在每一个回归树的叶结点中，除了保留与该叶结点相关训练数据的均值之外，还会保留该节点区域所有数据的方差值，对于有B个回归树的混合随机森林模型，每一个输入，都会在回归树的叶结点产生预测均值μ_b(x)和预测方差σ_b(x)；对于整个随机森林代理模型关于损失函数

的均值μ(x)和方差σ(x)，可表示为：

此过程会生成预先设定数量的子决策树，每一个子树会根据新输入的超参数组合x_m+1输出一个拟合的f(x_m+1)值，那么所有子决策树的预测结构便构成了超参数组合x到损失函数评估值y的映射，即关于f的经验近似高斯过程分布，这个分布的均值μ_m+1为把所有树的拟合结果求平均，方差

为所有树的拟合结果求平均离均差平方和；

利用上述过程求得关于f_m+1所有取值的后验概率分布后，再通过采集函数EI表示函数f(x)的改善程度I的期望，选取期望最大时的x为该轮优化的最优值参数组合，采集函数EI：

其中，定义了模型进行一次优化后函数的改善程度：

I(x)＝min{0,f_m+1(x)-f(x⁺)}(7)

f(x⁺)为当前数据集中，超参数组合x+时的最优值，同时，当f_m+1(x)-f(x⁺)≥0时，由

可知I(x)～N(μ(x)-f(x⁺),σ²(x))，所以I的分布函数

则上式(6)可化简为

其中，Φ(·)是标准正态分布的累计分布函数，

是标准正态分布的概率密度函数。

优化步骤如下：

建立代理模型阶段，算法与一般的随机森林相同，但是这里的特征向量x为各个不同类的超参数，标签数据向量y为不同算法和超参数组合所对应真实模型的损失函数评估值，通过训练随机森林代理模型对数据集进行输出拟合；

超参数评估阶段，根据经验概率估计，将训练好的随机森林每一个子决策树输出的均值作为最终的y，并根据每一个子决策树的输出值求整体均值和方差；

超参数选择阶段，在求得函数的后验分布后，根据采集函数EI推导下一个最优输入超参数的值；

更新代理模型阶段，将最新找到的超参数更新为先验分布，重复前两个步骤，直到达到最大迭代次数、最大时间要求或者找到全局最优值。

优选的，S4步骤基于S2-S3步骤建立烷烃气体定性分析模型，进行烷烃气体种类识别，并根据识别结果选取与定性分析结果相对应的历史数据集，定性分析具体方法和过程如下：

通过结合S2步骤预处理前期实验的烷烃气体数据集和S3步骤得到的烷烃气体定性分析最优算法和超参数配置，建立烷烃类气体定性分析模型；

现场测量数据经过上述训练好的定性分析模型得到烷烃气体类别的定性分析结果；

根据该定性分析结果选定S2步骤整理后的数据集中，与该结果匹配的烷烃类别历史数据集。

优选的，S5步骤中针对离线模型不能较好适应现场测量的非线性测量环境的问题，根据动态建模需求确定相似性度量阈值，并通过相似性原则对现场测量数据和S4步骤得到的历史样本数据进行相似性度量度量，相似性度量的方法和过程具体如下：

相似度度量阶段，根据相似度度量准则，选择只与当前输入待测数据相似性较大的局部历史数据作为建模样本；

相似度度量准则S可由欧式距离和夹角加权进行衡量，但所选取的度量方式并不限于该准则；

通过计算得到的S_data,in反映了X_data和X_in的相近程度，X_data表示历史样本数据集中的某一个样本，X_in表示新输入的待测样本，比较所有相似度S_data,in的大小，通过实验验证选取合适的相似度阈值和建立模型所需的相应最低相似样本个数：

其中，S_T1表示相似样本较少时的高相似度选择阈值，S_T2表示相似样本较多，但高相似度样本较少时的相似度选择阈值，S_T3表示低相似度选择阈值，k₁，k₂，k₃分别表示在阈值S_T1、S_T2、S_T2条件下进行局部建模的最低相似样本个数；

优选的，S6步骤基于S5步骤的相似度阈值条件和建立模型所需的相应最低相似样本个数的条件，建立烷烃气体浓度预测实时测量局部动态分析模型，该过程通过相似度选择高相似程度的历史样本和较相似程度的历史数据样本，局部动态建模分析的方法和过程具体如下：

局部动态建模判断阶段，为确保每次输入样本都能尽快得到分析结果，采用两级阈值筛选条件，选择合适的局部相似样本，从而用较少的局部相似数据集，实现高精度和相对高效率的局部动态建模；

首先，如果局部相似样本个数k在相似度阈值S_T1条件下不少于k₁，则根据相似度阈值S_T1选取与当前待测数据X_data相似度最大的k₁个历史数据，构成局部建模数据集

其中，y表示历史光谱数据的标签值；

如果局部相似样本个数k不满足相似度阈值S_T1条件的建模条件，但在相似度阈值S_T2下不少于k₂，则根据相似度阈值S_T2选取与当前待测数据X_data相似度最大的k₂个历史数据

为局部建模数据集；

局部动态建模阶段，针对以上过程筛选得到的局部相似样本数据集，基于步骤S3得到的最优算法与超参数，建立局部动态分析模型进行浓度预测。

优选的，S7步骤基于S5步骤的相似度阈值条件和建立模型所需的相应最低相似样本个数的条件，建立烷烃气体浓度预测的实时测量全局动态分析模型，该过程对与历史样本相似性差异较大或者疑似异常，无法进行局部建模的现场待测数据进行全局动态建模分析，并对疑似异常的现场待测样本进行标定，以便后续更精确的分析和验证，全局动态建模分析的方法和过程具体如下：

全局动态建模判断阶段，待测输入数据根据相似度度量准则查询历史数据集，如果得到的局部相似样本个数k在相似度阈值S_T1、S_T2条件下均不满足建模要求时，选择全局在线建模的方式进行动态分析；

疑似异常样本标定阶段，针对只能进行全局建模的样本做进一步相似性比较，局部相似样本个数k如果在较低相似性阈值S_T3条件仍少于k₃时，因此需要进行疑似异常样本标定，方便后续进行及时的工作条件异常诊断、分析，以及现场烷烃气体状态的进一步精确验证；

全局动态建模阶段，将所有历史数据样本和S3步骤中得到的定量最优算法和超参数配置结合，建立全局动态分析模型。

优选的，S8步骤基于S6、S7步骤的分析结果，引入红外光谱数据集在线更新机制，该机制通过判断待测数据是否为与历史数据样本离群的疑似异常数据，并根据判断结果确定是否将现场测量数据和分析结果更新至历史数据集中，在线更新机制的方法和过程具体如下：

每当新输入的待测数据通过动态分析模型进行定量分析之前，会经过相似性度量准则，而且均能满足在一定相似程度的条件下，通过建立动态模型进行定量分析，因此可以认为该输入测量数据无测量异常，且分析结果较为可靠；

当现场测量数据通过上述步骤完成定性，定量分析之后，可以将该输入测量数据更新到历史数据样本中；

但对于在经过相似性度量之后，与历史数据差异较大，且局部相似样本个数k在相似度阈值S_T3条件下少于k₃的现场测量数据，由于现场测量数据的采集受多方面因素影响，再数据采集过程中难免出现操作失误，基于此类情况可认为该样本与常规历史数据样本离群；

当现场测量数据通过S7步骤标定为疑似异常数据后，该样本数据以及后续的定性、定量分析结果对比将不会被更新到历史数据集中；

通过对现场测量样本和历史数据的相似程度比较，进行有区别的疑似异常标定和筛选，更新后的历史数据集将用于S4步骤，选取与定性结果匹配的气体类别数据集，从而实现历史数据集有选择性地、可靠地在线更新和完善，进一步保证了定量分析过程的动态稳定性和定量分析结果对比的精确性。

优选的，S9步骤获取现场数据并进行测量分析，具体分析步骤如下：

基于S1步骤，在前期实验阶段，设计具体实验方案，选定合适的实验仪器，采集大量历史样本所对应的光谱数据；

基于S2步骤，对光谱数据进行预处理，实验阶段对采集的历史光谱数据进行预处理，应用阶段对待现场测量数据进行预处理；

基于S3步骤，实验阶段基于随机森林代理模型和采集函数EI寻找建模最优定性、定量建模决策，保存该最优配置；

基于S4步骤，实验阶段建立烷烃气体类别定性分析模型，应用阶段调用该定性分析模型对现场测量数据进行定性分析，并根据定性分析结果在历史数据集中选定匹配的气体类别数据集；

基于S5步骤，实验阶段根据动态建模需求确定相似性度量阈值，应用阶段通过相似性原则对现场测量数据和选定的的历史数据集进行相似性度量度量；

基于S6、S7步骤，应用阶段根据现场测量数据的相似数据集建立最优定量动态分析模型，并对现场待测数据进行定量分析和疑似异常数据样本；

基于S8步骤，将经过相似性比较后，将可靠的现场测量数据和分析结果，在线更新到历史数据集，实时完善烷烃气体红外吸收光谱数据库。

实施本发明实施例，将具有如下有益效果：

(1)基于自动机器学习算法为分析模型配置最优算法和超参数；

(2)基于随机森林的代理模型，适合解决含非数值类超参数优化这类层级式的高维混合型问题；

(3)基于采集函数EI的选择策略，可以在当前条件下找到进行下一轮迭代的最优参数位置，并最大程度减少寻优运算成本；

(3)基于相似度准则建立的局部动态分析模型，可有效分析具有强非线性的现场数据；

(4)结合全局动态测量分析，可对局部相似性差异较大的现场数据进行有效预测分析，并对疑似异常样本进行标定；

(5)引入历史数据集更新机制，可扩展数据样本，进一步提高模型预测的鲁棒性和定量分析的精确性。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将対实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

其中：

图1为本发明实施例提供的一种基于最优决策和动态分析的烷烃气体红外光谱测量方法的流程图；

图2为本发明实施例中最佳算法和超参数配置流水线；

具体实施方式：

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。通常在此处附图中描述和示出的本发明实施例的组件可以以各种不同的配来布置和设计。

因此，以下对在附图中提供的本发明的实施例的详细描述并非旨在限制要求保护的本发明的范围，而是仅仅表示本发明的选定实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

需要说明的是，在不冲突的情况下，本发明中的实施例及实施例中的特征可以相互组合。

应注意到：相似的标号和字母在下面的附图中表示类似项，因此，一旦某一项在一个附图中被定义，则在随后的附图中不需要对其进行进一步定义和解。

如图1所示，本发明实施例提供了一种基于最优决策和动态分析的烷烃气体红外光谱测量方法，包括以下步骤：

步骤S1:

作为实验对象，利用高精度LFIX-7000配气系统配置不同浓度的气体样品，采用BrukerALPHAII傅立叶变换红外光谱仪采集光谱数据，建立实验数据集；

数据集包含甲烷、乙烷等7种单组份气体，以及各类烷烃气体配置的2组份、3组份、4组份、5组份和6组份的12种混合气体，共19种类别的气体类型。光谱数据的采样区间为1999-5998cm^-1，采样间隔约为1cm^-1，所采集的每条光谱数据有3882个采样点，对应波数点的光谱吸收强度值，以及对应的气体种类标签和浓度标签。

步骤S2：

将所述实验的烷烃类气体红外光光谱数据集，按一定比例划分为光谱数据训练集和光谱数据测试集，并按5点3次的卷积平滑方法对原始光谱数据进行变化信息加权保留的降噪处理，对于一个点的拟合公式为：

y＝a₀+a₁x+a₂x² (10)

其中，y表示光谱数据在该点的吸收强度，a₀,a₁,a₂表示通过最小二乘法拟合的权重参数，x表示对应光谱强度的波数值，对于5点拟合的矩阵形式可表示为：

Y_5×1＝X_5×3·A_3×1+E_5×1 (11)

其中，Y_5×1表示5个连续点的吸收强度，X_5×3表示5个连续波数坐标的0次、1次和2次值构成的5行3列矩阵，A_3×1表示通过最小二乘法拟合的权重参数的矩阵形式，E_5×1表示误差项的矩阵形式。由上式可得A_3×1的最小二乘解

拟合的滤波值

针对数据集中可能存在的异常数据，对降噪之后的数据采用主成分得分法进行异常样本检测；该过程基于主成分分析法选取样本数据的前n个主成分，并以数据在方差变化最大的方向的投影为第一主成分，计算得分PC1；第二大方差对应第二主成分，计算得分PC1；以此类推。然后得分之和小于90％的样本视为异常样本并将其剔除样本集。

步骤S3：

采用Auto-Sklearn架构，构建算法集，并建立最优决策配置流水线，该流水线通过随机森林代理模型和采集函数分别确定定性、定量分析阶段的最优算法和超参数配置组合。在具体的实施过程中，本发明实例中建立最优分析决策的流程示意图如图2所示，搭建基于贝叶斯优化理论和Auto-Sklean框架的最优分析决策模型的具体方法包括：

首先，将实验采集的针对识别烷烃气体种类的历史数据集用于在Auto-Sklearn框架下的随机森林概率代理模型对已配置好的算法集空间A＝{A⁽¹⁾,A⁽²⁾,···,A⁽ⁿ⁾}进行随机选取，第一次选择的算法为A⁽ⁱ⁾(i＝1,···,n)和对应需要设定的超参数，相对应的超参数空间Λⁱ也需要提前配置。

然后，在该算法下，又随机选取m组超参数对该算法进行评估，将评估结果y和对应的超参数组合构成数据集D＝{(x₁,y₁),···,(x_m,y_m)}，并将分为训练集

和验证集

来评估基于算法A⁽ⁱ⁾及超参数Λⁱ的模型的分类泛化性能。

把数据集D用于随机森林概率代理模型，根据随机初始化的m组超参数组合x和经交叉验证得到的m个损失函数评估值y，用随机森林回归拟合目标损失函数

此时数据样本x_i划分到下一级的右侧区域R_R1；

节点遍历所有分离变量j和分离点s后得到的l_min(j,s)，确定当前分离变量j和分离点s为该节点的二分判据，经过二分的下一级两个区域继续采用该方式生成中间节点或者叶结点，当区域中的所有训练数据点进行分离，共享相同的x时，该过程终止，该节点成为叶结点。

因为B个回归树的混合随机森林模型每个子决策树的叶结点产生预测均值μ_b(x)和预测方差σ_b(x)都会进行保留；对于整个随机森林代理模型关于损失函数

的均值μ(x)和方差σ(x)，可表示为：

该过程便可出关于f_m+1所有取值的后验概率分布，之后便是通过该后验分布和采集函数EI表示函数f(x)的改善程度I的期望，来确定采集函数期望E(I)：

当E(I)最大时，对应的x为该轮优化的改善效果最佳的超参数，之后结合本轮找到的超参数更新为下一轮优化的先验分布。

当在算法A⁽ⁱ⁾(i＝1,···,n)下完成最优参数组合选择之后，再切换到下一个算法A⁽ⁱ⁺¹⁾(i＝1,···,n)，并重复上述在当前算法下的寻找最优参数组合的迭代过程，直到找到最佳算法机器对应超参数配置或者满足迭代的前提条件限制时，输出当前最佳的分类算法和超参数组合，浓度预测的回归算法和超参数寻优策略和分类情况类似。

步骤S4：

基于S2-S3步骤建立烷烃气体定性分析模型，进行烷烃气体种类识别，并根据识别结果选取与定性分析结果相对应的历史数据集；

在具体的实施例中，本发明实例通过结合S2步骤预处理前期实验的烷烃气体数据集和S3步骤得到的烷烃气体定性分析最优算法和超参数配置，建立烷烃类气体定性分析模型；

根据该定性分析结果，选定S2步骤整理后的数据集中，该结果匹配的烷烃类别历史数据集。

步骤S5：

针对离线模型不能较好适应现场测量的非线性测量环境的问题，根据动态建模需求确定相似性度量阈值，并通过相似性原则对现场测量数据和S4步骤得到的历史样本数据进行相似性度量度量；

在具体的实施例中，本发明实例在相似度度量阶段，根据相似度度量准则，选择只与当前输入待测数据相似性较大的局部历史数据作为建模样本；

通过计算得到的S_data,in反映了X_data和X_in的相近程度，比较所有相似度S_data,in的大小，通过实验验证选取合适的相似度阈值和建立模型所需的相应最低相似样本个数：

步骤S6：

基于S5步骤的相似度阈值条件和建立模型所需的相应最低相似样本个数的条件，建立烷烃气体浓度预测实时测量局部动态分析模型，该过程通过相似度选择高相似程度的历史样本和较相似程度的历史数据样本，进行局部动态建模分析；

在具体的实施例中，本发明实例在局部动态建模判断阶段，为确保每次输入样本都能尽快得到分析结果，采用两级阈值筛选条件，选择合适的局部相似样本，从而用较少的局部相似数据集，实现高精度和相对高效率的局部动态建模；

其中，y表示历史光谱数据的标签值；

为局部建模数据集；

局部动态建模阶段，针对以上过程筛选得到的局部相似样本数据集，基于步骤S3得到的最优算法与超参数，建立局部动态分析模型并进行浓度的定量预测。

步骤S7：

基于S5步骤的相似度阈值条件和建立模型所需的相应最低相似样本个数的条件，建立烷烃气体浓度预测的实时测量全局动态分析模型，该过程对与历史样本相似性差异较大或者疑似异常，无法进行局部建模的现场待测数据进行全局动态建模分析，并对疑似异常的现场待测样本进行标定，以便后续更精确的分析和验证；

在具体的实施例中，本发明实例在全局动态建模判断阶段，待测输入数据根据相似度度量准则查询历史数据集，如果得到的局部相似样本个数k在相似度阈值S_T1、S_T2条件下均不满足建模要求时，选择全局在线建模的方式进行动态分析；

全局动态建模阶段，将所有历史数据样本和S3步骤中得到的定量最优算法和超参数配置结合，建立全局动态分析模型并进行浓度的定量预测。

步骤S8：

基于S6、S7步骤的分析结果，引入红外光谱数据集在线更新机制，该机制通过判断待测数据是否为与历史数据样本离群的疑似异常数据，并根据判断结果确定是否将现场测量数据和分析结果更新至历史数据集中；

在具体的实施例中，本发明实例在新输入的待测数据通过动态分析模型进行定量分析之前，会经过相似性度量准则，而且均能满足在一定相似程度的条件下，通过建立动态模型进行定量分析，因此可以认为该输入测量数据无测量异常，且分析结果较为可靠；

步骤S9：

在上述步骤S1-S8中的本发明具体实例中，详细描述了步骤S9中，从前期根据历史数据进行最优策略筛选，到现场采集一个未知的气体红外吸收样本，并进行定性识别烷烃气体数量、种类，以及动态的定量预测韩烷烃类气体的各组分浓度，最后更新历史数据集，从而完成一个现场样本的测量工作。

本发明用于烷烃类气体红外吸收光谱的识别预测，包括建立分析模型所需要的最优策略选择、动态分析模型建立和红外光谱历史数据集更新，不仅可以根据历史样本得到建立分类识别和浓度预测的最佳算法和超参数配置，还可以结合现场待测数据进行光谱的实时动态测量分析。例如，运用到油气田勘探开发方面，该方法能够对气测录井采集到的钻井液中烃类气体的组分与含量进行精准分析，进而判断出地层中油气资源的含量及特性，实现对溢流的定量化、精确化、快速化识别与预警。

以上所述，仅表达了本发明申请的具体实施方式，但不应理解为本发明的保护范围局限于此，应当申明的是，对于任何熟悉本技术领域的技术人员而言，在本发明描述的方法构思和技术范围内，凡在本发明的精神和原则之内所作出的任何修改，等同替换和改进等，都应当属于本发明的保护范围内，因此，本申请专利的保护范围应以所附权利要求为准。

Claims

1.一种基于最优决策和动态分析的烷烃气体红外光谱测量方法，其特征在于，包括如下步骤：

2.根据权利要求1所述方法，其特征在于，所述S2中的数据预处理方式为卷积平滑和异常数据剔除，烷烃类气体红外吸收光谱预处理方式包括如下步骤：

并针对数据集中可能存在的异常数据，对降噪之后的数据采用主成分得分法进行异常样本检测；该过程基于主成分分析法选取样本数据的前n个主成分，并以数据在方差变化最大的方向的投影为第一主成分，计算得分PC1；第二大方差对应第二主成分，计算得分PC1；以此类推，然后得分之和小于90％的样本视为异常样本并将其剔除样本集。

3.根据权利要求2所述方法，其特征在于，所述S3中采用Auto-Sklearn架构，构建算法集，并建立最优决策配置流水线，该流水线通过随机森林代理模型和采集函数分别确定定性、定量分析阶段的最优算法和超参数配置组合，寻找最优策略包括如下步骤：

最优决策配置流水线主要基于初始数据集D，根据随机初始化的m组超参数组合x和经交叉验证得到的m个损失函数评估值y，用随机森林回归拟合目标损失函数

其中，A⁽ⁱ⁾(i＝1,…,n)表示算法集为A＝{A⁽¹⁾,A⁽²⁾,…,A⁽ⁿ⁾}中的一种算法和对应需要设定的超参数空间为Λⁱ，

和

分别表示K折交叉验证中第j个的训练集和第j个测试集；

随机森林的每个回归树的中间节点会根据二分判据把输入数据集D不断划分为不同的区域，并最终在叶结点将其划分为各不相交的区域R＝{R₁,…,R_M}；

当j为类别型型分离变量时，s表示一个类别变量的集合；如果x_i,j∈s，此时数据样本x_i划分到下一级的左侧区域R_L1，如果

此时数据样本x_i划分到下一级的右侧区域R_R1；

和

分别表示两个区域所有数据样本标签值y_i的均值；

当在算法A⁽ⁱ⁾(i＝1,…,n)下完成最优参数组合选择之后，再切换到下一个算法A⁽ⁱ⁺¹⁾(i＝1,…,n)，并重复上述在当前算法下的寻找最优参数组合的迭代过程；

直到找到最佳算法机器对应超参数配置或者满足迭代的前提条件限制时，输出当前最佳的分类算法和超参数组合，浓度预测的回归算法和超参数寻优策略和分类情况类似。

4.根据权利要求3所述方法，其特征在于，所述S4中建立烷烃气体定性分析模型，进行烷烃气体种类识别，并根据识别结果选取与定性分析结果相对应的历史数据集，定性分析过程包括如下步骤：

5.根据权利要求4所述方法，其特征在于，所述S5中根据动态建模需求确定相似性度量阈值，并通过相似性原则对现场测量数据和S4步骤得到的历史样本数据进行相似性度量度量，相似性度量过程包括如下步骤：

6.根据权利要求5所述方法，其特征在于，所述S6中建立烷烃气体浓度预测实时测量局部动态分析模型，该过程通过相似度选择高相似程度的历史样本和较相似程度的历史数据样本，局部动态建模分析过程包括如下步骤：

其中，y表示历史光谱数据的标签值；

为局部建模数据集；

7.根据权利要求6所述方法，其特征在于，所述S7中建立烷烃气体浓度预测的实时测量全局动态分析模型，该过程对与历史样本相似性差异较大或者疑似异常，无法进行局部建模的现场待测数据进行全局动态建模分析，并对疑似异常的现场待测样本进行标定，以便后续更精确的分析和验证，全局动态建模分析过程包括如下步骤：

8.根据权利要求7所述方法，其特征在于，所述S8中引入红外光谱数据集在线更新机制，该机制通过判断待测数据是否为与历史数据样本离群的疑似异常数据，并根据判断结果确定是否将现场测量数据和分析结果更新至历史数据集中，在线更新机制过程包括如下步骤：

通过对现场测量样本和历史数据的相似程度比较，进行有区别的疑似异常标定和筛选，更新后的历史数据集将用于S4步骤，选取与定性结果匹配的气体类别数据集。

9.根据权利要求8所述方法，其特征在于，所述S9中获取现场数据并进行测量分析，测量分析过程包括如下步骤：