CN114429800A

CN114429800A - 基于模型融合的甲烷水合物生成速率预测方法及系统

Info

Publication number: CN114429800A
Application number: CN202011100237.9A
Authority: CN
Inventors: 陈旭东; 张乐; 贺甲元; 王海波; 杨丽红; 岑学齐; 柴国兴
Original assignee: China Petroleum and Chemical Corp; Sinopec Exploration and Production Research Institute
Current assignee: China Petroleum and Chemical Corp; Sinopec Exploration and Production Research Institute
Priority date: 2020-10-15
Filing date: 2020-10-15
Publication date: 2022-05-03
Anticipated expiration: 2040-10-15
Also published as: CN114429800B

Abstract

本发明公开一种基于模型融合的甲烷水合物生成速率预测方法及系统。本发明在获取包含有多个由甲烷水合物生成速率及其影响因素构成的数据组的样本集的之后，至少采用两种数学建模算法，分别基于样本集建立相应的甲烷水合物生成速率预测子模型，并基于模型融合方法对建立的所有甲烷水合物生成速率预测子模型进行融合，得到甲烷水合物生成速率预测模型，最后基于甲烷水合物生成速率预测模型实现对甲烷水合物生成速率的预测。根据本发明，能够有效地解决现有基于生成动力学和机器学习的甲烷水合物生成速率预测方法的预测准确度较低的问题。

Description

基于模型融合的甲烷水合物生成速率预测方法及系统

技术领域

本发明属于甲烷水合物生成研究技术领域，更具体地，涉及一种基于模型融合的甲烷水合物生成速率预测方法及系统。

背景技术

甲烷水合物，俗称“可燃冰”，是一种甲烷与水的非化学计量型笼形化合物。在甲烷水合物中，通过氢键的作用，水分子(主体分子)形成拥有一定大小空穴的晶格主体，空穴中则包含有较小的气体分子(客体分子，主要成分是CH₄)，由此形成外观像松散的冰或者雪花的固态化合物，其密度约为0.9g/cm³。甲烷水合物的分子式表示为CH₄·nH₂O，n为5.67～17。

甲烷水合物被发现已有一百多年的历史，最初是在实验室生成的，后来由于在西伯利亚等极地辅设的输气管道发生堵塞事故，通过调查发现在低温环境和输气压力下，有水和甲烷存在时就会生成固态的甲烷水合物。最初对甲烷水合物的研究就是为了抑制输气管道中水合物的生成而展开的。近年来，甲烷水合物作为自然界赋存的一种新的能源形态，受到了各国越来越多的关注。

目前，甲烷水合物生成速率是甲烷水合物研究领域的热门研究方向。对甲烷水合物生成速率的研究具有广泛的应用，例如天然气的储存和运输、海水淡化、二氧化碳的长期储存以及氢气与其他轻气体的分离问题等。

现有对甲烷水合物生成速率的研究以甲烷水合物生成速率预测为主，而现有甲烷水合物生成速率的预测方式以动力热力学与机器学习相结合的方式为主，该方式具体为：基于动力学、热力学或者两者相结合，确定甲烷水合物生成速率的内在因素，基于甲烷水合物生成速率的内在因素和机器学习算法建立甲烷水合物生成速率预测模型，进而通过甲烷水合物生成速率预测模型对甲烷水合物的生成速率进行预测。

然而，上述基于生成动力学和机器学习的甲烷水合物生成速率预测方法至少存在以下两方面问题：

一、在基于生成动力学确定影响甲烷水合物生成速率的内在因素时，涉及的因素变量较多，且因素变量之间的相关性过于复杂，难以掌握甲烷水合物生成的内在规律，难以真实且准确地确定甲烷水合物生成速率的内在影响因素，进而影响后续甲烷水合物生成速率预测的准确度。

二、基于单一机器学习算法建立甲烷水合物生成速率预测模型，导致甲烷水合物生成速率预测结果的准确度较低。

发明内容

本发明的目的在于解决现有基于生成动力学和机器学习的甲烷水合物生成速率预测方法的预测准确度较低的问题。

为了实现上述目的，本发明提供一种基于模型融合的甲烷水合物生成速率预测方法及系统。

根据本发明的第一方面，提供了一种基于模型融合的甲烷水合物生成速率预测方法，该基于模型融合的甲烷水合物生成速率预测方法包括以下步骤：

获取样本集，所述样本集包含有多个由甲烷水合物生成速率及其影响因素构成的数据组；

基于所述样本集，分别采用预定的每种数学建模算法建立相应的甲烷水合物生成速率预测子模型；

基于模型融合方法对建立的所有甲烷水合物生成速率预测子模型进行融合，得到甲烷水合物生成速率预测模型；

基于所述甲烷水合物生成速率预测模型对甲烷水合物生成速率进行预测。

作为优选的是，所述影响因素为环境条件，所述环境条件包括温度和压力。

作为优选的是，所述基于所述样本集，分别采用预定的每种数学建模算法建立相应的甲烷水合物生成速率预测子模型，包括：

将所述样本集划分为训练集和测试集；

基于所述训练集和目标数学建模算法建立待修正的甲烷水合物生成速率预测子模型；

基于所述测试集对所述待修正的甲烷水合物生成速率预测子模型进行修正，得到甲烷水合物生成速率预测子模型。

作为优选的是，所述将所述样本集划分为训练集和测试集，具体为：

在所述样本集中随机选取预定比例的所述数据组作为所述训练集，将所述样本集中余下的所述数据组作为所述测试集。

作为优选的是，所述基于所述训练集和目标数学建模算法建立待修正的甲烷水合物生成速率预测子模型，具体为：

将所述训练集中的每个所述数据组中的所述影响因素作为所述目标数学建模算法模型的输入变量，将该影响因素对应的甲烷水合物生成速率作为所述目标数学建模算法模型的输出变量，基于所述输入变量和所述输出变量对所述目标数学建模算法模型进行训练，得到所述待修正的甲烷水合物生成速率预测子模型。

作为优选的是，所述基于所述测试集对所述待修正的甲烷水合物生成速率预测子模型进行修正，得到甲烷水合物生成速率预测子模型，具体为：

将所述测试集中的每个所述数据组中的所述影响因素作为所述待修正的甲烷水合物生成速率预测子模型的输入变量，将该影响因素对应的甲烷水合物生成速率作为所述待修正的甲烷水合物生成速率预测子模型的输出变量参考值，基于所述输出变量参考值和所述输入变量对应的所述待修正的甲烷水合物生成速率预测子模型的输出变量真实值确定所述待修正的甲烷水合物生成速率预测子模型的输出变量的误差，基于所述输出变量的误差对所述待修正的甲烷水合物生成速率预测子模型进行修正，得到所述甲烷水合物生成速率预测子模型。

作为优选的是，预定的数学建模算法包括BP神经网络算法；

基于所述样本集，采用所述BP神经网络算法建立相应的甲烷水合物生成速率预测子模型的具体过程为：

将所述样本集中的每个所述数据组中的所述影响因素作为BP神经网络算法模型的输入数据，将该影响因素对应的甲烷水合物生成速率作为BP神经网络算法模型的输出变量；

初始化BP神经网络算法模型：

设定参数：输入数据为x，从输入层进入隐藏层的参数为w和b₁，从隐藏层进入输出层的参数为v和b₂，输入激活函数为g₁，输出激活函数为g₂；

即，从输入层进入隐藏层模型为：

net₁＝w^Tx+b₁,h＝g₁(net₁)

上式中，h为net₁有关的激活函数；

从隐藏层进入输出层模型为：

损失函数为：

上式中，y为实际结果，

为根据BP神经网络计算的预测结果；

初始化相关参数：将初始化的权值及偏执项分别记为w(0)；b₁ ⁽⁰⁾；v⁽⁰⁾；b₂ ⁽⁰⁾；

训练BP神经网络算法模型：

激活层推进计算：将激活层不断推进计算，得到每一个隐藏层的输出结果以及对应层的损失函数期望值；

其中，仅包括n个维度的一组解时，损失函数期望值为：

上式中，k为参数迭代的次数，η为伸缩因子；

计算输出单元误差项；

更新输出层参数：

更新隐藏层参数：

循环激活层推进计算至更新隐藏层参数的步骤，直至输出层参数和隐藏层参数的更新次数达到预定的更新次数。

作为优选的是，预定的数学建模算法包括极端梯度提升算法；

相应的极端梯度提升算法模型为：

其中，i是样本的序列，

是该样本的预测误差，k是树的数量，

代表树木的复杂性，T代表叶子数，

是叶子分数的L2范数。

作为优选的是，所述模型融合方法为Stacking算法。

根据本发明的第二方面，提供了一种基于模型融合的甲烷水合物生成速率预测系统，该基于模型融合的甲烷水合物生成速率预测系统包括：

样本集获取模块，用于获取样本集，所述样本集包含有多个由甲烷水合物生成速率及其影响因素构成的数据组；

甲烷水合物生成速率预测子模型建立模块，用于基于所述样本集，分别采用预定的每种数学建模算法建立相应的甲烷水合物生成速率预测子模型；

甲烷水合物生成速率预测模型获取模块，用于基于模型融合方法对建立的所有甲烷水合物生成速率预测子模型进行融合，得到甲烷水合物生成速率预测模型；

甲烷水合物生成速率预测模块，用于基于所述甲烷水合物生成速率预测模型对甲烷水合物生成速率进行预测。

本发明的有益效果在于：

本发明的基于模型融合的甲烷水合物生成速率预测方法，在获取包含有多个由甲烷水合物生成速率及其影响因素构成的数据组的样本集的之后，至少采用两种数学建模算法，分别基于样本集建立相应的甲烷水合物生成速率预测子模型，并基于模型融合方法对建立的所有甲烷水合物生成速率预测子模型进行融合，得到甲烷水合物生成速率预测模型，最后基于甲烷水合物生成速率预测模型实现对甲烷水合物生成速率的预测。

与现有基于生成动力学和机器学习的甲烷水合物生成速率预测方法采用单一模型对甲烷水合物生成速率进行预测的方式的不同，本发明的基于模型融合的甲烷水合物生成速率预测方法基于融合模型实现对甲烷水合物生成速率的预测。由于融合模型的精度高于单一模型的精度，与现有基于生成动力学和机器学习的甲烷水合物生成速率预测方法相比，本发明的基于模型融合的甲烷水合物生成速率预测方法的预测准确度相对较高。

本发明还提供了一种基于模型融合的甲烷水合物生成速率预测系统，与本发明的基于模型融合的甲烷水合物生成速率预测方法具有相同的有益效果。

本发明的其它特征和优点将在随后具体实施方式部分予以详细说明。

附图说明

通过结合附图对本发明示例性实施方式进行更详细的描述，本发明的上述以及其它目的、特征和优势将变得更加明显，其中，在本发明示例性实施方式中，相同的参考标号通常代表相同部件。

图1示出了根据本发明的实施例1和实施例2的基于模型融合的甲烷水合物生成速率预测方法的实现流程图。

图2示出了根据本发明的实施例2的甲烷水合物生成速率与压力和温度的相关性分析图。

图3示出了根据本发明的实施例2的基于BP神经网络算法的甲烷水合物生成速率预测子模型的预测结果与真实结果对比图。

图4示出了根据本发明的实施例2的基于极端梯度提升算法的甲烷水合物生成速率预测子模型的预测结果与真实结果对比图。

图5示出了根据本发明的实施例2的基于模型融合的甲烷水合物生成速率预测模型的预测结果与真实结果对比图。

图6示出了根据本发明的实施例3的基于模型融合的甲烷水合物生成速率预测系统的结构框图。

具体实施方式

下面将更详细地描述本发明的优选实施方式。虽然以下描述了本发明的优选实施方式，然而应该理解，可以以各种形式实现本发明而不应被这里阐述的实施方式所限制。相反，提供这些实施方式是为了使本发明更加透彻和完整，并且能够将本发明的范围完整地传达给本领域的技术人员。

实施例1：图1示出了本实施例的基于模型融合的甲烷水合物生成速率预测方法的实现流程图。参照图1，本实施例的基于模型融合的甲烷水合物生成速率预测方法包括以下步骤：

步骤S100、获取样本集，所述样本集包含有多个由甲烷水合物生成速率及其影响因素构成的数据组；

步骤S200、基于所述样本集，分别采用预定的每种数学建模算法建立相应的甲烷水合物生成速率预测子模型；

步骤S300、基于模型融合方法对建立的所有甲烷水合物生成速率预测子模型进行融合，得到甲烷水合物生成速率预测模型；

步骤S400、基于所述甲烷水合物生成速率预测模型对甲烷水合物生成速率进行预测。

本实施例的步骤S100中，甲烷水合物生成速率的影响因素为环境条件，所述环境条件包括温度和压力。

本实施例的步骤S200包括：

将所述样本集划分为训练集和测试集；

上述步骤中，将所述样本集划分为训练集和测试集的具体方式为：

上述步骤中，基于所述训练集和目标数学建模算法建立待修正的甲烷水合物生成速率预测子模型的具体方式为：

上述步骤中，基于所述测试集对所述待修正的甲烷水合物生成速率预测子模型进行修正，得到甲烷水合物生成速率预测子模型的具体方式为：

本实施例的步骤S300所采用的模型融合方法为Stacking算法。

本实施例的步骤S400基于所述甲烷水合物生成速率预测模型和获取的温度和压力数据，得到甲烷水合物生成速率预测结果。

本实施例的基于模型融合的甲烷水合物生成速率预测方法，基于甲烷水合物生成速率的外在影响因素建立最终的预测模型，由于甲烷水合物生成速率的外在影响因素只包括温度和环境两个因素，且两者之间的相关性易于确定。因此，与现有基于生成动力学和机器学习的甲烷水合物生成速率预测方法基于甲烷水合物生成速率的内在因素建立预测模型的方式相比，本实施例用于训练和修正预测模型的输入变量更加可靠，相应地，预测模型的预测效果也更优。

基于本实施例的基于模型融合的甲烷水合物生成速率预测方法，能够实现不同温度和压力条件下的甲烷水合物生成速率的精准预测，并可分析甲烷水合物生成速率与温度、压力之间的关系，为天然气水合物的开采、二次生成和防治、天然气的储存和运输以及海水淡化等领域提供必要的理论支撑。

实施例2：图1示出了本实施例的基于模型融合的甲烷水合物生成速率预测方法的实现流程图。参照图1，本实施例的基于模型融合的甲烷水合物生成速率预测方法包括以下步骤：

本实施例的步骤S100中，获取的样本集包含247个数据组，每个数据组均包含甲烷水合物生成速率及该甲烷水合物生成速率对应的温度和压力，每个数据组包含的甲烷水合物生成速率均不相同。对样本集所包含的247个数据组进行统计，得到甲烷水合物生成速率、温度和压力数据的统计结果，如表1所示：

表1甲烷水合物生成速率、温度和压力数据的统计结果

根据表1可知，温度样本数据的范围为276.10K～282.60K，平均值结果和标准差结果表明温度样本数据的变化幅度不大。压力样本数据的范围为4.55Mpa～10.7Mpa，平均值结果和标准差结果表明压力样本数据基本均匀分布在这个范围。生成速率样本数据的范围为0.1mm²/s～3.89mm²/s，平均值结果表明变化幅度较大。

通过对甲烷水合物生成速率与压力和温度进行相关性分析，得到甲烷水合物生成速率与压力和温度的相关性分析图，如图2所示。根据图2可知，甲烷水合物生成速率与压力呈负相关，与温度呈正相关。甲烷水合物生成速率与温度的相关值为0.19，两者的相关程度较低。甲烷水合物生成速率与压力的相关性值为-0.62，两者的相关程度较高。然而，压力与温度的相关性值为0.5，两者的相关程度较高。因此，在预测甲烷水合物生成速率时，不仅应当考虑与甲烷水合物生成速率相关度较高的压力，同时也应当考虑与压力相关度较高的温度。

本实施例的步骤S200中，分别采用BP神经网络算法和极端梯度提升算法建立甲烷水合物生成速率预测子模型：

BP神经网络，即误差反向传播误差学习算法的学习过程，由两个过程组成：信息的正向传播和误差的反向传播。该方法的基本思想是梯度下降法，它使用梯度搜索技术将网络的实际输出值和预期输出值的均方误差最小化。

神经网络主要包括一个三层网络：一个是输入层，每个神经元负责接收来自外界的输入信息并将其传递给中间层的每个神经元。第二层是隐藏层，它也是内部信息处理层，负责信息转换。最后一个隐藏层将信息传输到输出层中的神经元。经过进一步处理后，它完成了学习前向传播过程。第三层是输出层，负责将信息处理结果输出到外界。当实际输出与预期输出不匹配时，它将进入错误的反向传播阶段。误差通过输出层，以误差梯度下降的方式校正每一层的权重，然后逐层返回隐藏层和输入层。重复信息正向传播和错误反向传播的过程是不断调整每一层权重的过程以及神经网络学习和训练的过程。进行此过程，直到网络输出的误差减小到可接受的水平，或预设为指定的研究次数为止。

BP神经网络在网络理论和性能方面都相对成熟。它的突出优点是具有强大的非线性映射能力和灵活的网络结构。网络的中间层数和每层神经元的数目可以根据具体情况任意设置，其性能随结构的不同而变化。

基于所述样本集，采用BP神经网络算法建立相应的甲烷水合物生成速率预测子模型的具体过程为：

将压力和温度作为BP神经网络算法模型的输入变量，将甲烷水合物生成速率作为BP神经网络算法模型的输出变量：

初始化BP神经网络算法模型：

即，从输入层进入隐藏层模型为：

net₁＝w^Tx+b₁,h＝g₁(net₁)

上式中，h为net₁有关的激活函数；

从隐藏层进入输出层模型为：

损失函数为：

上式中，y为实际结果，

为根据BP神经网络计算的预测结果；

训练BP神经网络算法模型：

其中，仅包括n个维度的一组解时，损失函数期望值为：

上式中，k为参数迭代的次数，η为伸缩因子；

计算输出单元误差项；

更新输出层参数：

更新隐藏层参数：

极端梯度提升算法，又称XGBoost。XGBoost是基于树梯度增强框架的开源软件包，预测值与实际值相比有误差并不少见。为了优化和构建更复杂的模型，梯度提升的主要原理是将拟合过程的目标循环调整为当前样本的残留误差。XGBoost是梯度提升决策树(GBDT)的升级算法，它也是梯度提升的一种实现。与GBDT相比，XGBoost同时使用一阶和二阶导数并执行损失函数的泰勒展开式，而GBDT仅应用一阶导数。XGBoost的模板表函数是：

其中，i是样本的序列，

是该样本的预测误差，k是树的数量，

代表树木的复杂性，T代表叶子数，

是叶子分数的L2范数。

XGboost可以灵活处理稀疏数据和缺失值，并且允许用户定义自定义优化目标和指标。此外，XGBoost所采用的L2范数可以帮助控制模型的复杂性，并降低过拟合的风险。在大多数情况下，XGboost通常可以产生出色的结果。

本实施例随机将样本集合中80％当作训练集，20％当作测试集，采用Python语言sklearn库实现BP神经网络模型，XGBoost库实现XGBoost模型。

本实施例的步骤S300所采用的模型融合方法为Stacking算法。模型融合是提高机器学习效果的有效途径。它是一种机器学习方法，通过根据特定方法训练多个子模型来集成一个模型。基本的理论假设是，不同的子模型对不同的数据具有不同的功能。通过优化和组合它们擅长的部分，它们可以获得在各个方面都“准确”的首选模型。一般而言，模型融合可以集成多个“弱”模型以获得“强”模型，从而提高了对有限数据的最终预测能力，并获得了更好的预测结果。本实施例借鉴了Stacking的思想，并合并了BP神经网络模型和XGBoost模型。其中，BP神经网络模型可以在存在大量特征的情况下创建简单而有效的强大模型。XGBoost是一种有效的梯度提升决策树，支持高效的并行训练。它具有更快的训练速度，更低的内存消耗，更好的准确性，可以快速处理海量数据。

在本实施例中，分别对基于BP神经网络算法的甲烷水合物生成速率预测子模型、基于极端梯度提升算法的甲烷水合物生成速率预测子模型和基于模型融合的甲烷水合物生成速率预测模型的预测效果进行评价，主要是看预测结果与实际结果的差别，具体评价指标包括误差平方和、平均绝对值误差。其中，误差平方和公式为：

R²＝SSR/SST＝1-SSE/SST

上式中，R²为误差平方和，SST为总平方和，SSR为回归平方和，SSE为残差平方和，SST＝SSR+SSE。

基于BP神经网络算法的甲烷水合物生成速率预测子模型的预测结果与真实结果对比图、基于极端梯度提升算法的甲烷水合物生成速率预测子模型的预测结果与真实结果对比图和基于模型融合的甲烷水合物生成速率预测模型的预测结果与真实结果对比图分别如图3、图4和图5所示。根据图3～图5可知，基于模型融合的甲烷水合物生成速率预测模型的预测效果明显优于基于BP神经网络算法的甲烷水合物生成速率预测子模型和基于极端梯度提升算法的甲烷水合物生成速率预测子模型。

以上三种模型的预测效果评价表如表2所示：

表2三种模型的预测效果评价

根据表2可知，基于模型融合的甲烷水合物生成速率预测模型的误差平方和接近于1，平均绝对值误差最低。由此可知，基于模型融合的甲烷水合物生成速率预测模型的预测效果最优。

本实施例的基于模型融合的甲烷水合物生成速率预测方法，充分考虑到水合物生成的复杂性以及基于生成动力学确定甲烷水合物生成速率内在影响因素的弊端，基于甲烷水合物生成速率外在影响因素，即温度和压力，并结合BP神经网络算法和XGBoost算法获得融合模型，实现了对甲烷水合物生成速率的精准预测。

实施例3：图6示出了本实施例的基于模型融合的甲烷水合物生成速率预测系统的结构框图。参照图6，本实施例的基于模型融合的甲烷水合物生成速率预测系统包括：

以上已经描述了本发明的各实施例，上述说明是示例性的，并非穷尽性的，并且也不限于所披露的各实施例。在不偏离所说明的各实施例的范围和精神的情况下，对于本技术领域的普通技术人员来说许多修改和变更都是显而易见的。