CN117407732A

CN117407732A - 一种基于对抗神经网络的非常规储层气井产量预测方法

Info

Publication number: CN117407732A
Application number: CN202311490323.9A
Authority: CN
Inventors: 曾凡辉; 吴涛; 杨恩和; 张宇; 胡大淦; 郭建春
Original assignee: Southwest Petroleum University
Current assignee: Southwest Petroleum University
Priority date: 2023-11-10
Filing date: 2023-11-10
Publication date: 2024-01-16

Abstract

本发明公开了一种基于对抗神经网络的非常规储层气井产量预测方法，包括：(1)通过地质因素筛选出与目标井地质特征相近的历史井作为样本井，获取样本井的地质参数；(2)对样本井的地质参数进行主成分分析并进行降维，确定主成分参数；(3)将主成分参数进行聚类分析，从而根据产量对样本井进行分类；(4)确定各类井对应的类质心；(5)计算测试井与三种类别样本井质心的距离；(6)计算样本参数各自对应的标准差矩阵，计算测试井的Z得分；(7)获取相似性得分，利用相似性得分进行产量预测。本申请利用对抗神经网络扩展样本井的数量，优化聚类中心；同时引入标准化距离度量，消除数据噪声影响，使预测准确率得以提高。

Description

一种基于对抗神经网络的非常规储层气井产量预测方法

技术领域

本发明涉及油气藏勘探与开发领域，具体涉及到一种基于对抗神经网络的非常规储层气井产量预测方法。

背景技术

近年来，在石油与天然气工程领域，已经引入机器学习方法，通过神经网络LSTM、决策树(DT)、随机森林(RF)、k-近邻(k-NN)、多项逻辑回归(MLR)、贝叶斯(NB)、支持向量机(SVM)和最小距离分类器(MDC)等算法等对气井产量进行预测和分类，其中最小距离分类器原理简单，操作简易，应用广泛，但气井影响因素过多，且主控因素不同，常规分类器难以处理基础数据带来的噪声，分类性能较差。

此外，由于机器学习训练模型对样本数量有一定要求，为降低模型误差，要求现有地质资料和油井产量的样本井需要与待测试井相似，而在获取资料中一般井与井之间地质条件差异大，符合条件的样本井较少，难以保证训练模型的高精度，对预测结果有严重影响，现有方法难以解决样本数量过少的问题。

发明内容

有鉴于此，本发明建立了基于标准化距离度量的方差敏感模型，考虑了因素过多引起的模型噪声误差，引入了标准差和标准化距离变量提高模型的精度和准确性，再通过对抗神经网络扩展初始样本数量，可以提高训练模型的聚类质心准确率，减少偶然性带来的误差，为产量预测提供指导。

本发明实施例的具体技术方案是：

为达上述目的，本发明的一个实施案例中提供了一种基于对抗神经网络的非常规储层气井产量预测方法，包括以下步骤：

(1)通过地质因素筛选出与目标井地质特征相近的历史井作为样本井，获取样本井的地质参数；

(2)对样本井的地质参数进行主成分分析并进行降维，提取由地质参数组合形成的影响因子，选定其中特征值大于1的变量，确定主成分参数；

(3)将主成分参数进行聚类分析，从而根据产量对样本井进行分类，其中样本井分类包括低产井、中产井以及高产井，确定其中低产井、中产井以及高产井所占百分比；

(4)确定各类井对应的类质心，即所有输入向量的平均值；

(5)计算测试井与三种类别样本井质心的距离；

(6)计算低产井、中产井以及高产井样本参数各自对应的标准差矩阵，通过Z分数标准化计算测试井的Z得分；

(7)将距离度量结果与Z得分相乘获取得到测试井与高产井、中产井、低产井的相似性得分，得分越低，则与某一类别越相似，利用相似性得分进行产量预测。

进一步地，所述步骤(1)中的地质参数包括TOC、总含气量、孔隙度、全烃含量、脆性矿物含量、杨氏模量、泊松比、水平主应力差中的一个或多个参数。

进一步地，所述步骤(1)中还包括利用对抗神经网络对样本井的数量进行扩充。

进一步地，所述步骤(1)中还包括利用正态性检验方法对生成的样本进行评价。

进一步地，所述步骤(2)中还包括对所有的地质参数进行标准化处理，通过主成分分析将每口井标准化后的地质参数线性组合为主成分，其中标准化方法为：

式中，x^* _ij为标准化值；x_ij为产量影响因素值；min x_ij为样本中该因素最小值；maxx_ij为样本中该因素最大值。

进一步地，所述步骤(3)中还包括:基于步骤(2)中的主成分参数分析结果，采用k均值聚类方法进行聚类分析，得到高产井、中产井、低产井三种分类，以及各分类对应占比。

进一步地，所述步骤(5)中距离度量方法包括Euclidean、Man-hattan、闵可夫斯基、Chebyshev、Angular或海灵格方法。

进一步地，所述步骤(6)中Z分数的获取方法为：

其中，Z为Z分数数值，x为测试参数，μ_p为样本矩阵算术平均值，σ_p为样本矩阵标准差。

进一步地，所述步骤(7)中相似性得分获取方法为：

Decision＝arg min_i(i∣i∈c,dX[i]Z[i])

式中，Decision为相似性得分，dX为测试样本与质心之间的距离，Z为Z分数数值，i为序号。

与现有技术相比，本发明的有益效果是：

通过聚类分析选择与待测试井地质特征相近的历史井或层段作为样本，利用对抗神经网络扩展样本井的数量，使生成的模型更稳定准确，优化聚类中心；同时引入标准化距离度量，消除数据噪声影响，同时建立方差敏感模型，使预测准确率得以提高。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图做一简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1是本发明一个实施例中22组基础样本TOC含量正态性检验结果。

图2是本发明一个实施例中100组基础样本TOC含量正态性检验结果。

图3是本发明一个实施例中100组扩充样本在基础样本中的Z分数分布图。

具体实施方式

结合附图和本发明具体实施方式的描述，能够更加清楚地了解本发明的细节。但是，在此描述的本发明的具体实施方式，仅用于解释本发明的目的，而不能以任何方式理解成是对本发明的限制。在本发明的教导下，技术人员可以构想基于本发明的任意可能的变形，这些都应被视为属于本发明的范围。

为体现本方法的优越性，需对处理结果进行评级，目前机器学习分类算法的评价指标包括混淆矩阵、准确率、精准率、召回率、F1分数和K折交叉验证等。在本发明中，准确率指的是所有样本中预测正确的样本占比；精准率是针对预测结果而言，在所有被预测为正向的样本中实际也为正向样本的概率；召回率指的是分类正确的正样本个数占真正的正样本个数的比例；F1分数是精准率和召回率的调和平均值，是统计学中用来衡量分类精确度的一种指标，是对分类效果的综合评价；K折交叉验证指的是将样本划分为K个数量相等的集合，选取一个集合作为测试集，K-1个作为训练集，循环验证计算精确率，计算均方误差表征结果。

本申请的具体实施方法如下：

(1)通过地质因素筛选出与待测试井地质特征相近的历史井为样本井，获取样本井的地质参数。

由于每口井的地质特征不同，选择与评价井地质情况相近的井作为样本可以减小地质因素差距带来的影响，提高模型的精确性和针对性，例如同一区块，相似地质条件、以及同一井的不同层段等。

(2)利用对抗神经网络对现有n组样本，m个地质参数进行扩充，扩充后样本数量可自定义，如由n组样本扩充至500组基础样本、1000组基础样本等，地质参数个数m由现有资料确定，可随时调整，开始对抗神经网络训练后，m数量不变。

对抗神经网络分为训练器与生成器。

在训练前，需要先定义一个先验的输入噪声变量pz(z)表示到数据空间的映射为G(z；θg)，其中G是一个可微函数，由参数θ的多层感知器表示g。

然后，定义第二个多层感知器D(x；θd)，输出单个标量。

D(x)表示x来自数据而不是p的概率g。

进一步地，开始训练D，使训练样本和G的样本得到正确标签的概率最大化；同时训练G，使其最小log(1-D(G(z)))。

D和G用值函数V(G,D)进行了如下公式的极小极大博弈：

在学习早期，当G较差时，D可以拒绝高可信度的样本，因为这些样本与训练数据明显不同。此时，log(1-D(G(z)))饱和。与其训练G最小化log(1-D(G(z)))，不如训练G最大化log D(G(z))。这个目标函数使G和D的动态具有相同的不动点，但在学习早期提供了更强的梯度。

生成器G隐式地定义了概率分布p_g为样本G(z)在z～p时的分布z。因此，我们希望算法1收敛到一个好的p的估计data如果有足够的能力和训练时间。本节的结果是在非参数设置中完成的，例如，我们通过研究概率密度函数空间中的收敛来表示一个具有无限容量的模型。

算法1如下：

对于训练迭代的数量进行以下算法：

对于k步进行以下算法：

1)对m个噪声样本进行小批量采样{z(1)……z(m)}从噪声p之前g(z)。

2)m个样本{x(1)，…，x(m)}来自生成分布p_data(x)的数据。

3)通过对其随机梯度升序更新鉴别器：

结束k步

1)对m个噪声样本进行小批量采样{z(1)......z(m)}从噪声p之前g(z)。

2)通过降低其随机梯度来更新生成器：

结束迭代算法。

进一步地，需得到p_g＝p_data全局最优结果P_data表示真实样本分布，P_z表示由生成器模拟的样本分布。

首先考虑对任何给定的生成器G的最优鉴别器D。当G固定时，最优鉴别器D为：

对于任意发生器G，判别器D的训练准则是使量V(G,D)最大化：

V(G,D)＝∫_xp_data(x)log(D(x))dx+∫_zp_z(z)log(1-D(g(z)))dz

＝∫_xp_data(x)log(D(x))+p_g(x)log(1-D(x))dx

其中，D的训练目标可以解释为最大化估计条件概率P(Y＝Y|x)的对数似然函数，其中Y表示x是否来自P_data(y＝1)或者从p开始g(当y＝0时)。其中极大极小博弈现在可以重新表述为:

扩充样本后需对生成的样本进行初步评价。

本发明采用正态性检验后，通过标准分数设定合理阈值区间评价。

首先进行正态性检验：

正态性检验指标包括SW检验，其思想是基于偏离峰度和偏度。峰度(Kurtosis)指的是分布形状是平坦还是尖峰；偏度(Skewness)则反映分布形状是否对称。峰度和偏度分别从上下和左右两个维度来说明分布是否符合正态分布。

SW检验反映了基于峰度和偏度对正态分布的偏离程度，该值介于0和1之间，越接近1,说明越符合正态分布；越接近0,说明越偏离正态分布。

以样本TOC含量为例，22组基础数据样本的正态性拟合结果如图1所示。

SW检验结果数据如表1：

表1 22组基础样本TOC含量SW分数检验结果

由SW检验结果可知，22组基础样本SW分数为0.923，符合正态分布。

第二步：扩充后数据样本正态性检验，以扩充100组数据为例，正态性拟合结果如图2所示。

SW检验结果数据如表2所示：

表2 100组基础样本TOC含量SW分数检验结果

由SW检验结果可知，100组基础样本SW分数为0.917，符合正态分布。

第三步，Z分数判断数据偏离程度。

在统计学中，标准分数是一个观测或数据点的值高于被观测值或测量值的平均值的标准偏差的符号数，Z分数的阈值表示在Z分数的度量中用于判断数据点是否偏离了典型的数据分布，该阈值用于确定何时认为数据点的偏离程度显著。

对抗神经网络生成的样本数据应与基础样本存在正态分布的关系，若偏离阈值过多，则生成数据无效。

以TOC含量为例，基础数据样本平均值为0.445，标准差为0.016，扩充100组样本与基础数据的Z分数分布如图3所示。

基础数据中，22组样本正态分布Z分数分布在(-1.67个标准差～2.00个标准差)之间，生成数据阈值取左右两个标准差，属于合理区间，超过两个标准差阈值则偏离合理范围。

由图3可知，100组生成样本偏离标准差个数不超过2，全部处于合理区间内，因此生成样本合理，可用于下一步训练模型。

(3)将样本井原始数据、经过对抗神经网络扩充后的数据作为对比，对所有的地质参数进行标准化处理，通过主成分分析将每口井标准化后的参数线性组合为主成分，减少参数数量。

除与产量之间的相关性外，地质参数各因素之间也存在明显的线性关系，即多重共线性。同时，数据集维数膨胀产生的噪声干扰和冗余将显著增大模型误差。主成分分析通过主成分贡献度进行特征选择，在不损失重要信息的前提下，降低数据集的维数并消除因素之间的相关性。

为消除不同参数间的量纲差异，在降维前需要对数据进行标准化处理，标准化方程为：

包含n个因素的数据集经过PCA处理后产生相互正交且相互独立的n个主成分，主成分1始终代表数据集的最大方差方向，主成分2代表第二大方差方向，并以此类推。

(4)基于主成分分析结果，使用聚类方法对现有样本进行聚类分析，得到高产井、中产井、低产井三种分类，以及各分类对应占比。

k均值聚类算法是一种迭代求解的聚类分析算法，其步骤是，预将数据分为K组，则随机选取K个对象作为初始的聚类中心，然后计算每个对象与各个种子聚类中心之间的距离，把每个对象分配给距离它最近的聚类中心。

每分配一个样本，聚类的聚类中心会根据聚类中现有的对象被重新计算。这个过程将不断重复直到满足某个终止条件。终止条件可以是没有(或最小数目)对象被重新分配给不同的聚类，没有(或最小数目)聚类中心再发生变化，误差平方和局部最小。

(5)计算各类别井所有数据的聚类中心(各参数的平均值)和标准差，将平均值定义为类质心，如高产井类质心、中产井类质心、低产井类质心。

(6)使用距离度量方法计算测试井与类质心的距离，其中距离度量方法有Euclidean、Man-hattan、闵可夫斯基、Chebyshev、Angular、海灵格等；然后计算测试井与三种类型井之间的Z得分，即所有的类质心与基础数据呈现出正态分布，距离类质心越远，标准差则越大，标准差的数值即该数据与正态分布整体的Z得分，如果Z得分为0，即该测试井与类质心重合。

(7)计算测试井与三种样本井分类的相似性得分，即距离度量结果与Z得分相乘，数值越小则越相近。

计算实例1

针对某井的不同层段进行基于标准化距离度量方法的地质分类。

(1)获取与测试层段地质条件相近的基础样本数据，该样本集储层深度平均为4604m，以1到22层段为基础样本集，进行地质分类准确率验证。

表3样本基础数据

(2)将22组基础样本，通过对抗神经网络对样本集进行扩充，分别取100组样本、500组样本，分别用标准化距离度量方法测试分类准确率。

首先对22组基础样本进行取样，以随机16组样本为训练集，剩余6组样本为测试集，将样本进行主成分分析。

表4主成分方差解释结果

成分	特征根	方差解释率	总方差解释率
				1	6.44	80.49	80.49
2	1.24	15.50	95.99
				3	0.32	3.97	99.97
4	0.001	0.014	99.98
				5	0.001	0.009	99.99

表5因子载荷系数表

	主成分1	主成分2
			TOC(％)	-0.159	0.965
总含气量(m³/t)	0.958	0.285
			孔隙度(％)	0.976	0.215
全烃含量(％)	0.77	-0.399
			脆性矿物含量(％)	-0.991	-0.123
杨氏模量(GPa)	-0.995	0.039
			水平主应力差(MPa)	-0.995	0.038
泊松比	0.994	-0.069

主成分分析结果如表4和表5所示，前2项主成分的累计方差解释率为95.998％，8项产量影响因素可由2个主成分代表。根据各因素的系数可以得到主成分：

F1＝-0.0246×TOC(％)+0.1487×总含气量(m³/t)+0.1515×孔隙度(％)+0.1196×全烃含量(％)-0.1539×脆性矿物含量(％)-0.1545×杨氏模量(GPa)-0.1545×水平主应力差(MPa)+0.1544×泊松比

F2＝0.7778×TOC(％)+0.2299×总含气量(m³/t)+0.1737×孔隙度(％)-0.3215×全烃含量(％)-0.0992×脆性矿物含量(％)+0.0313×杨氏模量(GPa)+0.0308×水平主应力差(MPa)-0.0556×泊松比

由上可以得到：

F＝(0.805/0.96)×F1+(0.155/0.96)×F2

(3)根据主成分分析进行聚类分析，将现有样本按照5折交叉验证的方法进行验证，其中四份作为训练集，一份作为测试集。

确定训练集和测试集后，利用k均值聚类法将训练集样本聚类为高产段(50％)、中产段(25％)、低产段(25％)，使用测试集分别进行欧式距离最小距离分类器分类，以及标准化欧式距离分类(本发明提出的分类方法)。

①未降维之前，交叉验证结果准确率算术平均，两种分类器都为16.67％。

②降维后，交叉验证结果准确率算术平均为：最小距离分类器20％，标准化欧氏距离分类器25％。

(4)将120组样本数据(包含22组基础样本)随机分为6*20样本。

表6 120组扩充后样本数据随机分组结果

将上述按照K折交叉验证的方法，取一组作为测试集，剩下K-1组作为训练集(本实施例K取6)，即每次用100个样本训练模型，剩余20个样本进行测试，经过多次计算检验模型的精确度和泛化性，直到完成交叉验证，根据上述思想，为验证本方法的优越性，将进行以下对比验证：

由于选取不同数据进行建模，对结果有一定影响，会产生欠拟合或过拟合的情况。

以第6组作为测试集为例，标准化欧氏距离分类器测试结果拟合较好，对应评价指标如下：

模型测试准确率为80％、精确率为63.6％、召回率为100％、F1分数为77.78％。

以第2组作为测试集为例，标准化欧氏距离分类器测试结果拟合中等，对应评价指标如下：

模型测试准确率为65％、精确率为45％、召回率为83.33％、F1分数为58.82％。

以第1组作为测试集为例，标准化欧氏距离分类器测试结果拟合较差，对应评价指标如下：

模型测试准确率为70％、精确率为30％、召回率为100％、F1分数为46.15％。

从第一组到第六组进行6折交叉验证，综合测试结果如下：

①120组样本数据未降维之前，直接聚类分析，分别使用最小距离分类器和标准化距离方法进行预测。

根据混淆矩阵对分类结果进行评价，交叉验证结果取算术平均：

最小距离分类器结果准确率为60％、精确率为85.7％、召回率为66.7％、F1分数为75.0％；

标准化距离度量分类器结果准确率为70％、精确率为87.5％、召回率为77.7％、F1分数为82.3％。

因此，在未降维的前提下，与最小距离分类器相比，标准化距离分类器结果准确率高10％左右，体现模型性能的评价指标F1分数高7.3％。

②将120组数据进行PCA降维处理，再进行聚类分析，使用最小距离分类器和标准化距离方法进行测试。

最小距离分类器结果准确率为66.67％、精确率为66.67％、召回率为88.89％、F1分数为76.19％；

标准化距离度量分类器结果准确率为73.33％、精确率为75.00％、召回率为90.00％、F1分数为81.82％；

因此，在降维的前提下，标准化距离分类器结果准确率高7％左右，体现模型性能的评价指标F1分数高5％左右。

综上所述，得到了以下结果：

(1)数据降维之前和降维之后(只进行降维处理)，最小距离分类器整体准确率提升6.67％，标准化欧氏距离分类器整体准确率提升3.33％。

(2)扩充数据前和扩充数据后(只进行扩充数据)，最小距离分类器准确率提高43.2％，标准化欧氏距离分类器准确率提升50％左右。

(3)扩充数据后，再进行降维处理，最小距离分类器准确率提高50％，标准化欧氏距离分类器准确率提升56.66％左右。

对比两种分类器结果，降维后的标准化距离度量分类器具有明显的分类性能优越性。

由此可见，本发明建立了基于标准化距离度量的方差敏感模型，考虑了因素过多引起的模型噪声误差，引入了标准差和标准化距离变量提高模型的精度和准确性，再通过对抗神经网络扩展初始样本数量，可以提高训练模型的聚类质心准确率，减少偶然性带来的误差，为产量预测提供指导。通过聚类分析选择与待测试井地质特征相近的历史井或层段作为样本，利用对抗神经网络扩展样本井的数量，使生成的模型更稳定准确，优化聚类中心；同时引入标准化距离度量，消除数据噪声影响，同时建立方差敏感模型，使预测准确率得以提高。

虽然结合附图对本发明的具体实施方式进行了详细地描述，但不应理解为对本专利的保护范围的限定。在权利要求书所描述的范围内，本领域技术人员不经创造性劳动即可做出的各种修改和变形仍属本专利的保护范围。

Claims

1.一种基于对抗神经网络的非常规储层气井产量预测方法，包括以下步骤:

(4)确定各类井对应的类质心，即所有输入向量的平均值；

(5)计算测试井与三种类别样本井质心的距离；

2.如权利要求1所述的一种基于对抗神经网络的非常规储层气井产量预测方法，所述步骤(1)中的地质参数包括TOC、总含气量、孔隙度、全烃含量、脆性矿物含量、杨氏模量、泊松比、水平主应力差中的一个或多个参数。

3.如权利要求1所述的一种基于对抗神经网络的非常规储层气井产量预测方法，所述步骤(1)中还包括利用对抗神经网络对样本井的数量进行扩充。

4.如权利要求1所述的一种基于对抗神经网络的非常规储层气井产量预测方法，所述步骤(1)中还包括利用正态性检验方法对生成的样本进行评价。

5.如权利要求1所述的一种基于对抗神经网络的非常规储层气井产量预测方法，所述步骤(2)中还包括对所有的地质参数进行标准化处理，通过主成分分析将每口井标准化后的地质参数线性组合为主成分，其中标准化方法为：

式中，x*_ij为标准化值；x_ij为产量影响因素值；minx_ij为样本中该因素最小值；maxx_ij为样本中该因素最大值。

6.如权利要求1所述的一种基于对抗神经网络的非常规储层气井产量预测方法，所述步骤(3)中还包括:基于步骤(2)中的主成分参数分析结果，采用k均值聚类方法进行聚类分析，得到高产井、中产井、低产井三种分类，以及各分类对应占比。

7.如权利要求1所述的一种基于对抗神经网络的非常规储层气井产量预测方法，所述步骤(5)中距离度量方法包括Euclidean、Man-hattan、闵可夫斯基、Chebyshev、Angular或海灵格方法。

8.如权利要求1所述的一种基于对抗神经网络的非常规储层气井产量预测方法，所述步骤(6)中z分数的获取方法为：

9.如权利要求1所述的一种基于对抗神经网络的非常规储层气井产量预测方法，所述步骤(7)中相似性得分获取方法为：

Decision＝argmin_i(i∣i∈c,dX[i]Z[i])