CN111489034B

CN111489034B - 一种油气储层渗透率预测模型的构建方法及其应用

Info

Publication number: CN111489034B
Application number: CN202010280776.9A
Authority: CN
Inventors: 周凯波; 胡洋翔; 刘颉
Original assignee: Huazhong University of Science and Technology
Current assignee: Huazhong University of Science and Technology
Priority date: 2020-04-10
Filing date: 2020-04-10
Publication date: 2022-04-22
Anticipated expiration: 2040-04-10
Also published as: CN111489034A

Abstract

本发明属于油井储层参数预测领域，具体涉及一种油气储层渗透率预测模型的构建方法及其应用，方法包括获取待测油井目标样本集和辅助油井辅助样本集；从辅助样本集选出多个样本构成分类训练样本集，结合目标样本集二类训练分类器；采用训练的分类器生成辅助样本集中各样本与待测油井相关性大小以作为该样本初始权重，从辅助样本集中确定初始权重大于过滤阈值的多个样本构成辅助训练样本集；调整该多个样本初始权重使得各样本权重加和不大于目标样本集中各样本权重加和；基于目标样本集、辅助训练样本集以及各样本权重训练渗透率预测模型。本发明适用于新井训练样本不足下的储层渗透率预测，提高在低比例训练样本数据集下油气储层渗透率预测准确性。

Description

一种油气储层渗透率预测模型的构建方法及其应用

技术领域

本发明属于石油工程储层参数预测领域，更具体地，涉及一种油气储层渗透率预测模型的构建方法及其应用。

背景技术

渗透性是一种描述流体通过岩石的特征，也是评估石油工程中油藏质量的关键参数，在提高采收率，油气开发、储层评估管理与油气开发等方面起着重要作用。如果能准确估算储层渗透率，将有利于储层评价和生产优化，从而降低生产成本。然而，由于油气储层的非均质性和复杂的地层结构，准确预测储层渗透率是一个挑战。

储层渗透率预测方法可以分为三种类型：直接测量、经验模型和机器学习方法。直接测量方法是根据渗透率的定义(达西定律)直接测量各项物理参数，并计算出岩心渗透率，目前是获取储层渗透率较为准确的方法之一。经验模型方法是基于一些物理模型使用岩心数据建立的一系列非线性方程组。它可以根据岩石物理理论合理地解释地层参数对储层渗透率的影响，其主要思想是通过统计回归研究地层参数与渗透率之间的关系，最终建立渗透率与地层参数之间的物理模型。不同于复杂的物理模型方法，机器学习方法直接利用样本数据建立输入与输出之间的非线性关系。这三种方法虽然在储层渗透率预测领域有了广泛的应用，但是在渗透率预测方面仍有一些局限性：(1)直接测量方法耗时长，成本高；(2)由于地层非常复杂且难以描述，因此，经验模型方法无法建立较为准确的渗透率预测模型；(3)机器学习方法输入样本的部分地质参数需要间接测量或计算获取，此外还需要大量的训练样本进行模型训练，当训练样本不足时预测效果不佳。

发明内容

本发明提供一种油气储层渗透率预测模型的构建方法及其应用，用以解决现有油气储层渗透率预测模型构建中新训练样本不足导致预测精度不高的技术问题。

本发明解决上述技术问题的技术方案如下：一种油气储层渗透率预测模型的构建方法，包括：

获取待测油井的测井数据样本集并作为目标样本集，同时获取辅助油井的测井数据样本集并作为辅助样本集；

从所述辅助样本集中选出多个测井数据样本构成分类训练样本集，并将所述分类训练样本集和所述目标样本集作为两类，训练分类器；

采用训练后的分类器，生成所述辅助样本集中每个测井数据样本与所述待测油井的相关性大小以作为该样本的初始权重，并从所述辅助样本集中确定初始权重大于过滤阈值的多个测井数据样本，构成辅助训练样本集；

对所述辅助训练样本集中每个测井数据样本的初始权重进行调整，使得所述辅助训练样本集中各测井数据样本的权重加和不大于所述目标样本集中各样本的预设权重加和；

基于所述目标样本集、所述辅助训练样本集以及各样本的权重，训练并得到油气储层渗透率预测模型，造成油气储层渗透率预测模型的构建。

本发明的有益效果是：本发明首次将迁移学习思想应用于储层渗透率预测，首先通过过滤阈值对辅助样本进行初筛，得到辅助训练样本集。进一步提出样本集权重概念，综合考虑辅助训练样本集与目标样本集的贡献，对辅助训练样本集中各样本权重进行调整，保证目标样本集的总权重不小于辅助训练样本集的总权重。本方法适用于新井训练样本不足情况下的储层渗透率快速预测，提高了在低比例训练样本数据集下的油气储层渗透率预测准确性，通过迁移相关性高的辅助样本有效地解决了跨井储层渗透率预测问题。

上述技术方案的基础上，本发明还可以做如下改进。

进一步，所述分类训练样本集中测井数据样本的个数与所述目标样本集中测井数据样本的个数相等。

本发明的进一步有益效果是：分类训练样本集中测井数据样本的个数与目标样本集中测井数据样本的个数相等，保证训练的分类器的分类精度。

进一步，每个测井数据样本包括数据向量和渗透率标签，所述数据向量的元素包括深度、声波、密度、全孔地层微电阻率和伽马射线。

进一步，所述分类器为LightGBM分类器；所述油气储层渗透率预测模型为LightGBM储层渗透率预测模型。

本发明的进一步有益效果是：LightGBM算法采用的是基于直方图的排序算法，大大提高了搜索速度。此外，其采用特征合并策略降低特征维度，进一步提高了模型的训练速度。

进一步，所述方法还包括：

获取所述待测油井的测试样本集，将所述测试样本集中的测井数据样本输入训练后的油气储层渗透率预测模型，得到对应的渗透率预测结果，并采用判定系数和均方根误差来评价预测结果。

进一步，所述过滤阈值通过sigmoid函数计算确定，具体计算公式表示为：

其中，k为所述目标样本集中测井数据样本个数与预测模型训练所需总样本量的比值，a为函数曲线变化快慢的常数系数，b为函数曲线中点函数值，f(k)为过滤阈值。

本发明的进一步有益效果是：采用sigmoid函数计算过滤阈值，计算的过滤阈值能够使得筛选出的辅助训练样本更好的训练预测模型。

进一步，所述对所述辅助训练样本集中每个测井数据样本的初始权重进行调整，具体为：

计算辅助训练样本集中各测井数据样本的初始权重加和与所述目标样本集中各样本的预设权重加和的第一比值；

计算辅助训练样本集中每个测井数据样本的初始权重与所述第一比值的第二比值，作为该测井数据样本的新的权重，完成权重调整。

本发明的进一步有益效果是：采用这种调整方法，能够提高预测模型的预测精度。

本发明还提供一种油气储层渗透率预测方法，采用如上所述的任一种油气储层渗透率预测模型的构建方法构建得到的油气储层渗透率预测模型，预测油气储层渗透率。

本发明还提供一种机器可读存储介质，所述机器可读存储介质存储有机器可执行指令，所述机器可执行指令在被处理器调用和执行时，所述机器可执行指令促使所述处理器实现如上所述的任一种油气储层渗透率预测模型的构建方法和/或如上所述的一种油气储层渗透率预测方法。

附图说明

图1为本发明实施例提供的一种油气储层渗透率预测模型的构建方法的流程框图；

图2为本发明实施例提供的一种油气储层渗透率预测模型的构建方法的数据流向示意图；

图3为本发明实施例提供的测试集的预测结果与目标域训练集比例k之间的关系；

图4为本发明实施例提供的不同目标域比例k下的预测结果示意图；

图5为本发明实施例提供的不同阈值函数的预测结果示意图；

图6为本发明实施例提供的不同权重平衡方法的预测结果示意图；

图7为本发明实施例提供的不同迁移策略的预测结果示意图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。此外，下面所描述的本发明各个实施方式中所涉及到的技术特征只要彼此之间未构成冲突就可以相互组合。

实施例一

一种油气储层渗透率预测模型的构建方法100，如图1所示，包括：

步骤110、获取待测油井的测井数据样本集并作为目标样本集，同时获取辅助油井的测井数据样本集并作为辅助样本集；

步骤120、从辅助样本集中选出多个测井数据样本构成分类训练样本集，并将分类训练样本集和目标样本集作为两类，训练分类器；

步骤130、采用训练后的分类器，生成辅助样本集中每个测井数据样本与待测油井的相关性大小以作为该样本的初始权重，并从辅助样本集中确定初始权重大于过滤阈值的多个测井数据样本，构成辅助训练样本集；

步骤140、对辅助训练样本集中每个测井数据样本的初始权重进行调整，使得辅助训练样本集中各测井数据样本的权重加和不大于目标样本集中各样本的预设权重加和；

步骤150、基于目标样本集、辅助训练样本集以及各样本的权重，训练并得到油气储层渗透率预测模型，造成油气储层渗透率预测模型的构建。

本实施例从辅助样本集中随机选择部分数据样本，将该部分数据样本与目标样本集结合采用二分类的方式训练分类器，然后使用训练好的分类器对辅助样本集中的每个数据样本进行分类，得到辅助样本集中每个数据样本与目标样本集的相关性大小(可用概率表示，作为该数据样本的初始权重)。进一步通过采用过滤阈值与每个辅助样本集中的数据样本相关性大小进行比较，以过滤掉相关性小的数据样本而保留相关性大的数据样本，将保留下来的这部分数据样本构成用于辅助目标样本集训练渗透率预测模型的辅助训练样本集。考虑到主次之分，由于渗透率预测模型是待测油井的预测模型，因此在训练预测模型时，需要以目标样本集为主、辅助训练样本集为次，因而，本实施例提出数据集的总权重概念(用以衡量数据集中所有数据权重对模型训练的总贡献)，并保证目标样本集的总权重不小于辅助训练样本集的总权重(综合考虑辅助训练样本集与目标样本集的贡献，对辅助训练样本集中各样本权重进行平衡)，以提高训练出的渗透率预测模型对待测油井渗透率的预测精度。经过权重平衡，更新辅助训练样本集中各样本，之后，基于目标样本集中每个数据样本及其预设权重以及辅助训练样本集中每个数据样本及其调整好的权重，对预测模型进行训练(具体的在训练时，将测井参数数据向量作为渗透率预测模型的输入，将渗透率值标签作为渗透率预测模型的输出，训练储层渗透率预测模型)，有效保证了构建得到的渗透率预测模型对待测油井的渗透率预测精度。

本实施例首次将迁移学习思想应用于储层渗透率预测，首先通过过滤阈值对辅助样本进行初筛，得到辅助训练样本集。进一步提出样本集权重概念，综合考虑辅助训练样本集与目标样本集的贡献，对辅助训练样本集中各样本权重进行调整，保证目标样本集的总权重不小于辅助训练样本集的总权重。本方法适用于新井训练样本不足情况下的储层渗透率快速预测，提高了在低比例训练样本数据集下的油气储层渗透率预测准确性，通过迁移相关性高的辅助样本有效地解决了跨井储层渗透率预测问题。

优选的，分类训练样本集中测井数据样本的个数与目标样本集中测井数据样本的个数相等，以保证训练的分类器的分类精度。

优选的，每个测井数据样本包括数据向量和渗透率标签，所述数据向量的元素包括深度、声波、密度、全孔地层微电阻率和伽马射线，以保证训练得到的预测模型的预测精度。

例如，获取油井1#和2#的直接测井数据；将油井1#的数据按比例分割为目标域(即目标样本集)和测试集，从油井2#(源域，即辅助样本集)中随机选择与目标域相同数量的样本。

源域和目标域分别表示为：

其中，

为源域样本，

为源域样本对应的标签，

为目标域样本，

为目标域样本对应的标签。

优选的，分类器为LightGBM分类器；油气储层渗透率预测模型为LightGBM储层渗透率预测模型。

优选的，方法100还包括：

步骤160、获取待测油井的测试样本集，将测试样本集中的测井数据样本输入训练后的油气储层渗透率预测模型，得到对应的渗透率预测结果，并采用判定系数和均方根误差来评价预测结果。

优选的，过滤阈值通过sigmoid函数计算确定，具体计算公式表示为：

优选的，上述对辅助训练样本集中每个测井数据样本的初始权重进行调整，具体为：

计算辅助训练样本集中各测井数据样本的初始权重加和与目标样本集中各样本的预设权重加和的第一比值；计算辅助训练样本集中每个测井数据样本的初始权重与第一比值的第二比值，作为该测井数据样本的新的权重，完成权重调整。

当辅助训练样本集中样本总权重大于目标样本集中样本总权重时，通过一个系数调节辅助训练样本集中各样本的权重，该系数的计算如下：

其中，

为辅助训练样本集总权重，

为目标域总权重。

然后调节辅助训练样本集各样本权重：

其中α为调节系数，

为辅助训练样本集中样本初始权重，

为辅助训练样本集样本调整后的权重。

总体来说，如图2所示，本实施例可从辅助样本集中随机选择出与目标样本集相同数量的样本，并分别标记为0类和1类，以此训练轻量级梯度提升机(LightGBM)分类器，再对源域所有样本进行分类预测，分类结果可视为概率。其次，通过sigmoid比例-阈值函数计算过滤阈值，从源域中过滤出概率大于阈值的样本构成辅助域，并将概率作为对应的样本权重。然后，当辅助域权重大于目标域时，进行权重平衡。最后，再将目标域与辅助域混合作为训练集，训练基于LightGBM的储层渗透率预测模型，从而对储层渗透率进行预测估计。本发明对源域样本与目标域样本分类，利用分类概率衡量样本相关性，并提出了数据集权重的概念，将迁移学习的思想用于储层渗透率预测，提高了在目标域训练样本不足的情况下渗透率的预测精度。

为了更好的说明本发明构建渗透率预测模型的预测效果，现做出如下实验性验证说明：

(一)有效性验证

使用中国西北某油田井#1和#2的测井数据进行方法验证。其中井1#的数据有9297个，井2#的数据有9699个。输入特征有以下5个：深度测井(DEPTH)、声波测井(AC)、密度测井(DEN)、全孔地层微电阻率(FMIT)、伽马射线测井(GR)。标签为渗透率(PERM)。两口井数据的统计信息如表1所示。

表1

具体验证了不同目标域比例、不同阈值函数和数据集权重平衡对预测结果的影响，说明如下：

(1)不同目标域比例

训练样本的数量在一定程度上决定了模型的预测性能。当训练样本数量不足时，可以采用迁移学习方法。因此，按比例k＝0.01,0.02,0.03,0.04,0.05,0.1,0.2,0.3,0.4,0.5,0.6,0.7,0.8和0.9，从1号井的数据中随机分割目标域(即目标样本集)。然后，来自井1#的其余数据组成训练集(即测试集)。通过转移源域(井2#)样本的知识，测试集的预测结果与目标域训练集比例k之间的关系如图3所示。

实验结果表明，判定系数随着k的增大而增大，而均方根误差随着k的增大而减小。当k足够大时，预测结果趋于收敛。这与传统机器学习的观点一致：训练样本越多预测结果越好，但不会无限制提升。对于迁移学习问题，k＝1是一种常见的研究情况。因此，主要讨论k＝0.1时的预测结果，此时判定系数和均方根误差分别为0.7854和1.6299。

(2)不同阈值函数

当k比较小的时候，需要大量的辅助样本，当k比较大的时候，需要少量的辅助样本。因此，假设过滤阈值是k的函数。通过设计对比实验，讨论对比自然对数函数、线性函数和自然指数函数。它们的表达式如下：

实验结果表明，当k<0.05或k>0.4时，比值阈值函数的影响不大。当k＝0.1时，本发明采用的sigmoid函数过滤效果最好，基于sigmoid函数的预测性能优于自然对数函数、线性函数和自然指数函数，如图4所示。使用不同阈值函数方法的判定系数和均方根误差值如表2所示。可以证明，阈值与k的关系更符合sigmoid函数。

表2

(3)数据集权重平衡

当滤波阈值较小时，大量的辅助样本会从源域中被过滤出来构成辅助训练样本集，这有利于低比例训练样本下的预测。同时，随着过滤出来的样本数量的增加，辅助训练样本集的权重也随之增加，使得辅助训练样本集的权重远远大于目标域(例如，即便目标域中各样本权重为1，而辅助训练样本集中各样本调整后的权重在0到1之间，如果辅助训练样本集中样本数量较大，则辅助训练样本集的总权重会大于目标域的总权重，如果就按照当前的权重对模型进行训练，会影响训练出的预测模型的预测精度)。总之，对此，需要进行数据集权重平衡，即当辅助数据集权重大于目标域训练数据集权重时，通过系数α调节辅助数据集样本权重。

为了验证本实施例提出方法的有效性，本实施例设计对比实验：

无权重平衡：从辅助域中过滤出辅助训练样本后，直接使用对应的分类结果(初始权重)作为样本权重，而不对辅助域样本进行权重平衡；

等权重过滤：将源域中各样本的分类结果从大到小依次相加，直到使相加之和与目标域总权重相等，此时这些参与求和的分类结果对应的源域样本即为辅助训练样本，而分类结果即为用于训练预测模型的样本权重。

实验结果表明，当k<0.2时本实施例提出的基于权重平衡的方法在判定系数和均方根误差上有最好的表现。当k＝0.1时，本实施例提出的基于权重平衡的方法的判定系数比另外两种方法(无权重平衡和等权重过滤)分别高1.73％、6.71％，均方根误差分别低2.96％、9.86％，这证明了数据集权重平衡确实能在一定程度上提高预测性能，如图5所示。无权重平衡和等权重过滤方法的具体判定系数和均方根误差值如表3所示。

表3

经过上述三个实验，本实施例所提方法的有效性得到了初步验证。

(二)迁移方法的讨论

为了进一步突出所提出方法的性能，本实施例针对是否采用迁移思想以及采用单一迁移策略进行了比较研究。

(1)不使用迁移思想

为证明本实施例提出方法的有效性，本实施例设计对比实验，将本实施例的方法与以下两种方法进行对比：

传统机器学习：不采用迁移思想，直接使用目标域样本训练模型，再对测试样本进行渗透率预测；

直接引入源域样本：直接将源域与目标域混合成一个新的训练数据集，而不对其进行分类和过滤，即不考虑样本之间的相关性，再使用混合后的数据集训练渗透率预测模型。

当k<0.3时，本实施例提出的基于迁移学习和权重平衡的方法有最优的预测性能。当k＝0.1时，其判定系数比另外两种方法分别高5.45％、7.20％，均方根误差分别低8.32％、10.43％，具体判定系数和均方根误差值如表4所示。当k>0.3时，此时目标域样本已足够多，不需要进行迁移学习，否则反而会产生负迁移，降低预测性能。直接引入源域样本的方法没有考虑源域和目标域之间的分布差异或样本相关性，k>0.05时就产生了负迁移，因此合理选择迁移方法是提高预测性能和避免负迁移的有效途径。对比结果如图6所示。

表4

(2)使用单一迁移方法

本实施例提出的方法相当于分类权重(概率)与滤波方法的结合。本实施例设计对比实验，通过与这两种单一方法的比较来证明本实施例方法的优越性：

过滤-权重1：对源域样本分类，根据分类结果，通过过滤阈值，过滤样本，过滤出的样本权重全部设为1；

分类-无过滤：对源域样本分类，但不进行过滤，样本权值设为相应的分类结果。

当k<0.2时，本实施例提出的方法具有明显的优势。当k＝0.1时，其判定系数比另外两种方法分别高7.83％、2.97％，均方根误差分别低11.14％、4.93％，如图7所示，具体的判定系数和均方根误差如表5所示。

表5

本实施例使用随机选择出的目标域和源域样本训练LightGBM分类器，再对全部源域进行分类，以分类结果衡量源域样本与目标域样本的相关性，当目标域训练样本不足时，通过迁移相关性高的源域样本有效地解决了跨井储层渗透率预测问题。本发明所提出的基于分类概率过滤与数据集权重平衡的样本迁移储层渗透率预测方法，中国西北某油田井1#和2#的测井数据进行验证，在实际应用过程中，可推广到岩性预测、孔隙度预测以及其他具有离散数值特征的工业等，具有良好的工程实用性。

实施例二

一种油气储层渗透率预测方法，采用如实施例一所述的一种油气储层渗透率预测模型的构建方法构建得到的油气储层渗透率预测模型，预测油气储层渗透率。

相关技术方案同实施例二，在此不再赘述。

实施例三

一种机器可读存储介质，机器可读存储介质存储有机器可执行指令，所述机器可执行指令在被处理器调用和执行时，所述机器可执行指令促使所述处理器实现如上实施例一所述的一种油气储层渗透率预测模型的构建方法和/或如上实施例二所述的一种油气储层渗透率预测方法。

相关技术方案同实施例一和实施例二，在此不再赘述。

本领域的技术人员容易理解，以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等，均应包含在本发明的保护范围之内。

Claims

1.一种油气储层渗透率预测模型的构建方法，其特征在于，包括：

基于所述目标样本集、所述辅助训练样本集以及各样本的权重，训练并得到油气储层渗透率预测模型，完成油气储层渗透率预测模型的构建；

所述分类训练样本集中测井数据样本的个数与所述目标样本集中测井数据样本的个数相等；

所述分类器为LightGBM分类器；所述油气储层渗透率预测模型为LightGBM储层渗透率预测模型。

2.根据权利要求1所述的一种油气储层渗透率预测模型的构建方法，其特征在于，每个测井数据样本包括数据向量和渗透率标签，所述数据向量的元素包括深度、声波、密度、全孔地层微电阻率和伽马射线。

3.根据权利要求1所述的一种油气储层渗透率预测模型的构建方法，其特征在于，所述方法还包括：

4.根据权利要求1所述的一种油气储层渗透率预测模型的构建方法，其特征在于，所述过滤阈值通过sigmoid函数计算确定，具体计算公式表示为：

5.根据权利要求1至4任一项所述的一种油气储层渗透率预测模型的构建方法，其特征在于，所述对所述辅助训练样本集中每个测井数据样本的初始权重进行调整，具体为：

6.一种油气储层渗透率预测方法，其特征在于，采用如权利要求1至5任一项所述的一种油气储层渗透率预测模型的构建方法构建得到的油气储层渗透率预测模型，预测油气储层渗透率。

7.一种机器可读存储介质，其特征在于，所述机器可读存储介质存储有机器可执行指令，所述机器可执行指令在被处理器调用和执行时，所述机器可执行指令促使所述处理器实现如权利要求1至5任一项所述的一种油气储层渗透率预测模型的构建方法和/或如权利要求6所述的一种油气储层渗透率预测方法。