CN114997496A

CN114997496A - 一种基于时空序列数据约束的无监督储层智能分段方法

Info

Publication number: CN114997496A
Application number: CN202210628285.8A
Authority: CN
Inventors: 胡荣戎; 常贵雄; 李林涛; 黄利娜
Original assignee: Sichuan University
Current assignee: Sichuan University
Priority date: 2022-06-06
Filing date: 2022-06-06
Publication date: 2022-09-02
Anticipated expiration: 2042-06-06
Also published as: CN114997496B

Abstract

本发明公开了一种基于时空序列数据约束的无监督储层智能分段方法，包括S1、离线处理选取的测井特征参数，并构建储层解释模型；S2、获取新井测井数据，并对其进行数据块处理和降采样处理；S3、对测井数据进行特征工程处理，以得到完整、无量纲、低维度的测井数据；S4、采用时空约束的K‑means无监督聚类方法，对特征工程处理后的测井数据进行处理，得到分段结果；S5、优化分段结果，对聚类结果异常值进行连续分段化处理；S6、可视化分段结果，并将分段的深度和人工分段的结果进行对比。本发明将储层中小段的不同地层类型当作噪声过滤，分层结果中每层的长度与实际施工中每段的长度相匹配，提供更加适用于指导开采工程实践分层结果，更具实用性。

Description

一种基于时空序列数据约束的无监督储层智能分段方法

技术领域

本发明属于油气开采和工程的技术领域，具体涉及一种基于时空序列数据约束的无监督储层智能分段方法。

背景技术

在资源劣质化加剧，新动用储量品质差、日益复杂的地质储层的背景环境下，随着越来越多的储层被投入开发，如何提高储层的动用程度和利用价值，成为储层开发的关键问题。储层开发时，针对不同特征的地层，需要采取不同的开发工艺。建立一套系统而合理的方法根据特征对储层分段，对于开发工艺的正确选择有重要意义。

以往关于储层分段的方法可分为四大类：

1、人工经验分段，这种方法需依靠专业经验及地区经验来确定骨架参数和区域参数等，它们的取值因人而异，取值范围也不固定。该方法不仅费时费力，而且分析人员需要较高的历史经验和专业知识，存在较大的主观性；

2、数理统计方法，数理统计方法有层内差异法、有序聚类分析、极值方差聚类方法和变点分析法，数理统计方法在数学上比较严格，但计算量较大。同时对测井信息和地质信息有很高的要求，如果没有准确的信息支持，则不易达到地质应用的要求；

3、非数理统计方法，非数理统计方法有活度函数法、小波变换等，非数理统计方法原理简单、计算量小，但活度函数法不易综合多条测井曲线的信息，小波分析应用需要选取小波，目前主要是通过经验或不断的实验来选择小波函数，不易操作；

4、智能算法，人工智能神经网络技术的迅速崛起，打破了前三种方法的局限性，它不需要太多的专家经验；不需要繁琐的参数选取；不需要建立具体的解释模型和推导、应用具体的计算公式。但是，在储层分段的情境下，现有智能算法应用，还存在以下不足：

其一，智能算法在储层分段应用中单一化严重。

有监督的智能算法和无监督的智能算法各有优劣，若在预测时只采取一种算法或者模型均会有缺点难以避免。神经网络分类方法，如KNN算法，比较适用于样本容量比较大的类域的自动分类，在样本容量较小的类域采用这种算法比较容易产生误分，而且在特征数非常多的时候，计算量大；样本不平衡的时候，对稀有类别的预测准确率低；KD树，球树之类的模型建立需要大量的内存；使用懒散学习方法，基本上不学习，导致预测时速度比起逻辑回归之类的算法慢；有监督学习方法，如决策树分类容易产生分支过多，把训练集自身的一些特点当作所有数据都具有的一般性质，出现过拟合；

可能会导致：

预测方法无法有效刻画出复杂数据特征与预测目标之间的映射关系，进而会导致预测精度不佳；

不同储层的渗透性和空隙性等之间存在明显差异，智能算法的单一性无法保证多情境下的有效性，会使得模型缺乏泛化能力。

其二，在储层分段情境下，一般通过人工部署特征选择，这使得特征的选择缺少智能化，选定的特征也使得模型缺乏泛化能力和鲁棒性。

其三，现有智能算法进行储层分类时，分层过细，在地质学上分类严谨，但针对每一个较短的地层都更换工艺方法不现实，结果并不适用于指导开采工艺的选择。

发明内容

本发明的目的在于针对现有技术中的上述不足，提供一种基于时空序列数据约束的无监督储层智能分段方法，以解决目前储层智能分段方法的缺失的问题。

为达到上述目的，本发明采取的技术方案是：

一种基于时空序列数据约束的无监督储层智能分段方法，其包括以下步骤：

S1、离线处理选取的测井特征参数，并构建储解释模型；

S2、获取新井测井数据，并对其进行数据块处理和降采样处理；

S3、对测井数据进行特征工程处理，以得到完整、无量纲、低维度的测井数据；

S4、采用时空约束的K-means无监督聚类方法，对特征工程处理后的测井数据进行处理，得到分段结果；

S5、优化分段结果，对聚类结果异常值进行连续分段化处理；

S6、可视化分段结果，并将分段的深度和人工分段的结果进行对比。

进一步地，步骤S1具体包括：

S11、选取测井特征参数；

S12、根据选取的测井特征参数，构建储层解释模型。

进一步地，步骤S11具体包括：

S111、采用随机森林方法进行储层改造主控因素分析，根据对产量的权重影响，选取测井数据；

S112、采用皮尔逊相关系数和斯皮尔曼相关对选取的测井参数进行相关分析；

S113、对测井参数数据进行特征分布分析；

S114、删除相关度大于阈值的测井参数，以确定最终的测井特征参数。

进一步地，步骤S12具体包括：

S121、获取历史储层解释参数样本集；

S122、通过基于集成学习的储层解释参数回归拟合，形成储层解释模型。

进一步地，步骤S2具体包括：

S21、对测井数据进行数据块处理和降采样处理；

S22、通过离线部分的储层解释模型合成储层解释参数，同时根据离线部分选取的参数对新井测井数据进行特征筛选；

S23、基于集成学习的储层解释参数回归拟合构建储层解释模型；

S24、利用新井测井数据和S1构建的储层解释模型扩展储层解释数据。

进一步地，步骤S211中数据块处理为：

每次处理都从覆盖整个数据范围的单个分块开始，若单个分块中的数据过大而无法在物理内存中进行处理，则会将其细分成四个等大的分块；然后，再对子分块进行处理；

若第二级分块中的数据仍然过大，则会再进一步细分，直到可在物理内存中处理每个分块的数据为止；

S212、降采样处理为：采用原型生成算法对数据进行降采样处理。

进一步地，步骤S3具体包括：

S31、检测并删除异常值；

S32、采用拉格朗日插值法进行缺失数据填充；

S33、数据标准化，对所取得测井数据进行最大-最小标准化处理，获得原始标准化数据集A_scale：

其中，x_ab为标准化之后的值，X_ab为原始值，X_min为X_ab所在列的最小值，X_min为X_ab所在列的最大值；

S34、采用主成分分析方法对数据降维，PCA通过空间映射，将当前维度映射到更低的维度，使得每个变量在新空间的方差最大。

进一步地，步骤S4具体包括：

S41、引入空间深度参数，确定聚类初值，具体为：

通过引入空间深度因素并通过赋予高于其他特征权重的方式将其作为特征参数约束，并结合工程施工段长要求深度范围计算kmean的初值；在数据空间内按照预设的每段深度以及不同的井深初步设定n个聚类中心；

S42、将所有数据点划分到于其最近的簇的质心的簇，并更新质心，迭代直到质心稳定。

进一步地，步骤S5具体包括：

采用中值滤波处理分段中的异常段，过滤分段标签的波动：

中值滤波的公式如下：

g(x,y)＝med(f(x-i,y-i)},(i,j)∈S

其中，g(x，y)，f(x，y)为像素灰度值，S为模板窗口；

执行中值滤波的过程为：

选择一个(2n+1)×(2n+1)的窗口，使窗口沿图像数据的行方向和列方向从左至右、从上至下沿每个像素滑动；

每次滑动后，对窗口内的像素灰度进行排序，并用中间值代替窗口中心位置的像素灰度值。

进一步地，步骤S6具体包括：

S61、在样本区域获取数据，并绘制模型P-P图和数据直方图，以进行正态检验；

S62、将智能分段的深度和人工分段的结果进行对比，计算残差平方和R2和均方误差MSE对模型拟合优度进行分析：

其中，

为使用模型进行分段得到的边界点，y_i为人工分段得到的边界点，

为人工分段边界点深度的平均值,n表示样本容量，R2的数值范围为：0～1；

MSE为：

本发明提供的基于时空序列数据约束的无监督储层智能分段方法，具有以下有益效果：

1、本发明将储层中小段的不同地层类型当作噪声过滤，分层结果中每层的长度与实际施工中每段的长度相匹配，提供更加适用于指导开采工程实践分层结果，更具实用性。

2、本发明在离线部分通过主控因素分析获取与产量重要度高的主控因素，并通过集成学习利用历史数据构建储层解释模型，对数据特征进行扩展。在线部分，基于单口井的数据利用加入空间深度序列约束的无监督的聚类方法实现智能化的分段，使得分段结果同工程实践相一致，避免了人工再分段结果上进行二次分段。本发明更具泛化能力和鲁棒性，可有效避免模型方法对数据的依赖。

3、本发明分段结果稳定客观；传统方法依靠专业经验及地区经验来确定骨架参数和区域参数等，存在较大的主观性。本发明采用智能化分段解决传统的个体经验所引起的差异，形成较为统一的标准，所有数据均来源于历史观测，减少了人为干预。

4、本发明操作简便；传统的数理统计方法和非数理统计方法的储层储层分段均需要经过复杂的操作步骤，模型建立难，计算比较复杂。本发明目的是考虑时空连续性，实际施工要求自动提供连续的分段结果，与传统的地质分层或地质分类有本质结果区别。减少人工，基于分类结果，综合考虑时空连续性和地质特征相似性来进一步二次手动划分施工段。

5、本发明算法可解释性强；由于数据有高维、特征缺失和不平衡的特点，本发明采用随机森林方法进行储层产量主控因素分析，利用这些主控因素作为数据特征进行分段，使得分段结果对于产能提升更有指导价值，为高效生产优化管理提供了依据。

6、本发明数据预处理的质量高；本发明采取插值进行数据填充，特征工程得出的特征值有时空约束关系，这种情况下用插值方式来填充缺失值效果更好。本发明采用皮尔逊相关和斯皮尔曼相关对测井数据间进行相关分析，除去相关度高的特征参数能在保持特征完整性的前提下减少数据量。

7、本发明分段结果更适用于工程实践；储层开发工程上每段的施工长度有一个经验范围，不会过长或过短。本发明引入加入了时空约束，并结合工程施工段长要求深度范围计算K-means的初值，有益的解决K-means聚类对初值要求，并能有效的保持分段的连续性。K-means的相似性度度量采用欧拉距离，而地质的区分度主要体现在数值大小，因此相比其他度量方法是有益的。本发明分段结果中每层的长度与实际施工中每段的长度相匹配，提供更加适用于指导开采工程实践分层结果，得到的分段结果能为储层开发工艺选择提供切实际的推荐。

8、本发明使用多种智能算法兼具计算速度和准确度；一般的深度学习和有监督的机器学习方法，对数据需求量大，模型的好坏受样本均衡和覆盖率影响大。本方法对历史数据依赖小，可以取得较高的泛化能力。本发明方法分离线与在线模块，基于时空约束的无监督的聚类方式，在线部分输入的数据都是基于当前需要分段的井，利用历史数据的预前过程已在离线部分完成，所以分段时运算量小，速度快。

9、本发明实现了对无数据的井的准确预测；利用中声波、密度、井壁中子、补偿中子等计算孔隙度，电阻率、CNOD等计算含水饱和度，在特征参数加入测井解释数据孔隙度，含水饱和度等。对于未提供的解释数据的井，在离线部分通过历史测井数据和解释数据进行智能学习的回归拟合，获得储层解释模型，可取得较高的预测精度，从而扩展有用数据特征参数。

10、本发明的特征工程方法具有更强的科学性；本发明通过测井特征参数和产量进行主控因素分析，提取影响因素大的测井参数特征，包括地质因素和产量因素。针对各特征参数的非正太分布进行正太化，然后进行归一，去量纲，统一尺度，再基于不同特征参数进行加权。

11、本发明实现了分段结果可视化；本发明使用了R2检验和MSE检验来检验智能分段模型拟合优度，并生成了PP图和误差分布图，可以直观判断分段的精确度，便于指导工艺选择

附图说明

图1为特征工程实现流程图。

图2为离线分析部分流程图。

图3为在线处理部分流程图。

图4为智能分段实现流程图。

具体实施方式

下面对本发明的具体实施方式进行描述，以便于本技术领域的技术人员理解本发明，但应该清楚，本发明不限于具体实施方式的范围，对本技术领域的普通技术人员来讲，只要各种变化在所附的权利要求限定和确定的本发明的精神和范围内，这些变化是显而易见的，一切利用本发明构思的发明创造均在保护之列。

实施例1

参考图4，本实施例1的基于时空序列数据约束的无监督储层智能分段方法，包括以下步骤：

离线处理部分，参考图1：

步骤S1、离线处理选取的测井特征参数，并构建储层解释模型；

本步骤用于获取对于储层产量影响较大的参数；

步骤11、选取测井特征参数；

选择的特征参数为对储层产量有重大影响的特征参数，本步骤具体包括：

步骤111、根据历史测井施工产量样本集对储层改造的主控因素分析，选取对产量影响权重较大的测井参数，使得分段结果对于储层产量具有导向性；

步骤112、对上一步骤获得的测井参数进行相关分析；

步骤113、对测井参数数据进行特征分布分析；

步骤114、确定最终的测井特征参数。

步骤12、构建储层解释模型；

具体为，根据测井特征参数合成对测井产量更具解释力的解释参数如，孔隙度、渗透率等，模型的因变量即为储层解释参数，将解释参数加入到分段过程中能够提高分段结果的可解释性，本步骤具体包括：

步骤121、获取历史储层解释参数样本集；

步骤122、通过基于集成学习的储层解释参数回归拟合，形成储层解释模型；

在线处理部分，参考图3：

步骤S2、获取新井测井数据，并对其进行数据块处理和降采样处理，本步骤具体包括：

步骤21、数据块处理和降采样处理，其具体包括：

步骤211、数据块处理；由于原始采样是分米级别，样本量大，为避免在不分块条件下内存消耗快，从而造成系统性能降低，运算速度慢的情况，本发明首先对数据进行块处理；

步骤212、降采样；本发明采用原型生成方法进行降采样处理，从而缓解数据量过大波动大造成的分布不平衡性；

步骤22、通过离线部分的储层解释模型合成储层解释参数，同时根据离线部分选取的参数对新井测井数据进行特征筛选；

步骤23、基于集成学习的储层解释参数，回归拟合构建储层解释模型；

步骤24、利用新井测井数据和步骤1构建的模型扩展储层解释数据；

步骤S3、对测井数据进行特征工程处理，以得到完整、无量纲、低维度的测井数据，其具体包括：

步骤31、检测并删除异常值，并定义，如果观测值与平均值的差值超过3倍标准差，那么将其视为异常值剔除；

步骤32、通过拉格朗日插值法进行缺失数据填充；

步骤33、最大最小标准化，消除数据量纲对分段的干扰；

步骤34、通过主成分分析方法对数据进行降维，以减小计算量；

步骤S4、采用时空约束的K-means无监督聚类方法，对特征工程处理后的测井数据进行处理，得到分段结果，其具体包括：

步骤41、引入空间深度参数，确定聚类初值(由于空间深度是由浅入深的，具有时间上的先后，因此加入空间深度参数也默认引入了时间约束)；

步骤42、将所有数据点划分到于其最近的簇的质心的簇，并更新质心，迭代直到质心稳定。

步骤S5、优化分段结果，对聚类结果异常值进行连续分段化处理，其具体包括：

步骤51、运用中值滤波处理分段中的异常段，过滤分段标签的波动；

步骤S6、可视化分段结果，并将分段的深度和人工分段的结果进行对比，其具体包括：

步骤61、在样本区域获取数据，并绘制模型P-P图(根据变量的累积概率对应于所指定的理论分布累积概率绘制的散点图)和数据直方图，进行正态检验；

步骤62、将智能分段的深度和人工分段的结果进行对比。

实施例2

参考图1～图4，本实施例1的基于时空序列数据约束的无监督储层智能分段方法，包括以下步骤：

离线处理

步骤1、选取测井特征参数，同时构建储层解释模型，具体包括：

步骤11、选取测井特征参数，具体选择对储层产量有重大影响的特征参数，

本步骤参数的选择具体包括：

步骤111、根据历史测井施工产量样本集对储层改造的主控因素分析，选取对产量影响权重较大的测井参数，使得分段结果对于储层产量具有导向性。

具体采用随机森林方法进行储层改造主控因素分析，随机森林是一个包含多个决策树的分类器，并且其输出的类别是由个别树输出的类别的平均数而定。

算法的过程如下：假设有一个大小为N的训练数据集，每次从该数据集中有放回的取选出大小为M的子数据集，一共选K次，根据这K个子数据集，训练出K棵个别树。利用所有个别树得到的到的平均不纯度(基尼系数)衰减来量化特征的重要性，最后可以得到对于储层改造最为重要的n个主控因素。

步骤112、对上一步骤获得的测井参数进行相关分析，相关分析包括：

步骤1121、皮尔逊相关分析

在统计学中，皮尔逊相关系数(Pearson correlation coefficient)，又称皮尔逊积矩相关系数(Pearson product-moment correlation coefficient，简称PPMCC或PCCs)，是用于度量两个变量X和Y之间的相关(线性相关)，其值介于-1与1之间。皮尔逊相关系数公式为：

当两个变量的方差都不为零时，相关系数才有意义，相关系数的取值范围为[-1，1]。当相关性系数介于-1～0之间时，表明变量之间存在负相关关系；当相关性系数介于0～1之间时，表明变量之间存在正相关关系；当相关性系数为0时，二者之间不存在相关性。相关性系数越接近1，表明变量之间的相关性越强，当相关系数越接近0，表明变量之间的相关性越弱。当两个特征很相关就属于重复特征，可以去除来达到降维或去重的效果。通过这种方法使输入机器学习模型的特征尽量独一无二，达到最佳效果。

步骤1122、斯皮尔曼相关

斯皮尔曼等级相关是根据等级资料研究两个变量间相关关系的方法。它是依据两列成对等级的各对等级数之差来进行计算的，所以又称为“等级差数法”。斯皮尔曼等级相关对数据条件的要求没有积差相关系数严格，只要两个变量的观测值是成对的等级评定资料，或者是由连续变量观测资料转化得到的等级资料，不论两个变量的总体分布形态、样本容量的大小如何，都可以用斯皮尔曼等级相关来进行研究。

斯皮尔曼等级相关系数是反映两组变量之间联系的密切程度，取值在-1到+1之间，是建立在等级的基础上计算的。其相关公式如下：

其中，n为等级个数，d为二列成对变量的等级差数；等级相关系数和通常的相关系数一样，它与样本的容量有关，尤其是在样本容量比较小的情况下，其变异程度较大，等级相关系数的显著性检验与普通的相关系数的显著性检验相同。

步骤113、对测井参数数据进行特征分布分析；

通过数据特征分布分析获取具有代表性的数量特征值以准确地描述出统计数据的分布。对统计数据分布的特征，可以从三个方面进行测度和描述：

一是分布的集中趋势；

二是分布的离散程度；

三是分布的偏态和测度。

这三个方面分别反映了数据分布的测度特征。

步骤114、根据上述三个步骤，删除相关度较高的参数，确定最终的测井特征参数；

步骤12、构建储层解释模型，根据测井特征参数合成对测井产量更具解释力的解释参数如，孔隙度、渗透率等，将解释参数加入到分段过程中能够提高分段结果的可解释性，其具体包括：

步骤121、获取历史储层解释参数样本集；

步骤122、通过基于集成学习的储层解释参数回归拟合，形成储层解释模型，本发明中的储层解释数据主要包括：孔隙度、渗透率、含水饱和度等，其中，中声波、密度、井壁中子、补偿中子是计算孔隙度所常参考的数据，而电阻率、CNOD等数据用来计算确定渗透率、和含水饱和度等数据。

部分2：在线处理

步骤2、获取新井测井数据，进行数据块处理和降采样处理，其具体包括：

步骤211、数据块处理，数据块处理的具体方法为：

每次处理都从覆盖整个数据范围的单个分块开始，如果单个分块中的数据过大而无法在物理内存中进行处理，则将其细分成四个等大的分块；然后，再对子分块进行处理；如果第二级分块中的数据仍然过大，则会再进一步细分；此过程将持续执行，直到可以在物理内存中处理每个分块的数据为止。

步骤212、降采样，本发明采用原型生成算法对数据进行降采样处理，该方法的原理为：对给定数据集S，生成一个子集S’，其中|S’|<|S|，但是子集并非来自于原始数据集，能够达到从多数类样本中选取最具代表性的样本用于训练的效果。

步骤23、基于集成学习的储层解释参数回归拟合构建储层解释模型；

步骤24、利用新井测井数据和步骤1构建的模型扩展储层解释数据。

步骤3，特征工程，其具体包括：

步骤31、检测并删除异常值，对于离群值采用直接删除的方法；

步骤32、利用插值法进行缺失数据填充，本发明采用拉格朗日插值法对缺失数据进行填充，先求得插值函数，然后将缺失值对应的点代入插值函数得到缺失值的近似值；

步骤33、数据标准化，对所取得数据进行最大-最小标准化处理，获得原始标准化数据集A_scale，最大-最小标准化公式如下：

步骤34、采用主成分分析方法对数据降维；PCA通过空间映射的方式，将当前维度映射到更低的维度，使得每个变量在新空间的方差最大；

步骤4、基于时空序列约束的K-means无监督聚类，其具体包括：

步骤41、引入空间深度参数，确定聚类初值。

本发明通过引入空间深度因素并通过赋予高于其他特征权重的方式将其作为特征参数约束，并结合工程施工段长要求深度范围计算kmean的初值。在数据空间内按照假设为100～200的每段深度以及不同的井深初步设定n个聚类中心。

步骤42、将所有数据点划分到于其最近的簇的质心的簇，并更新质心，迭代直到质心稳定，其具体包括：

将每个观察数据点划分到于其最近的簇的质心的簇；

将质心更新为一个簇中所有数据点的中心；

重复上述步骤直到所有质心都相对稳定。

步骤5、分段结果优化，其具体包括：

步骤51、聚类结果异常值和连续分段化处理；

中值滤波首先对邻域点的灰度进行排序，然后选择中间值作为输出灰度值。与均值滤波器和其他线性滤波器相比，中值滤波可以很好的滤除脉冲噪声(Impulsive Noise)和椒盐噪声(Salt and Pepper Noise)。同时能够很好的保护图像边缘轮廓的细节，应用该方法将野点分入连续段中，使得分段结果得到完善。

中值滤波的公式如下：

g(x，y)＝med{f(x-i，y-i)}，(i，j)∈S

其中，g(x，y)，f(x，y)为像素灰度值，S为模板窗口。

执行中值滤波的过程为：

选择一个(2n+1)x(2n+1)的窗口，本发明中采用的是(5*5)，使窗口沿图像数据的行方向和列方向从左至右、从上至下沿每个像素滑动。

步骤6、结果可视化及对比分析，其具体包括：

步骤61、在样本区域获取数据，并绘制模型P-P图和数据直方图，进行正态检验。P-P图是根据变量的累积比例与指定分布的累积比例之间的关系所绘制的图形。当数据符合指定分布时，P-P图中各点近似呈一条直线。

直方图，又称质量分布图，是一种统计报告图，由一系列高度不等的纵向条纹或线段表示数据分布的情况。一般用横轴表示数据类型，纵轴表示分布情况。

步骤62、将智能分段的深度和人工分段的结果进行对比，计算残差平方和(R²)和均方误差(MSE)对模型拟合优度进行分析，其中，R²的计算公式如下：

其中，

为使用模型进行分段得到的边界点，yi为人工分段得到的边界点，

为人工分段边界点深度的平均值，n表示样本容量，R2的数值范围为：0～1，R2值越大，表示模型效果越好。

MSE的计算公式如下：

MSE的取值越小，模型精度就越高。

虽然结合附图对发明的具体实施方式进行了详细地描述，但不应理解为对本专利的保护范围的限定。在权利要求书所描述的范围内，本领域技术人员不经创造性劳动即可做出的各种修改和变形仍属本专利的保护范围。