CN113988410A

CN113988410A - 一种基于knn算法与多项式回归算法组合的跨区域致密油藏油井产能预测方法

Info

Publication number: CN113988410A
Application number: CN202111254460.3A
Authority: CN
Inventors: 张晓东; 陈元行; 高绍姝; 李敏; 白广芝
Original assignee: China University of Petroleum East China
Current assignee: China University of Petroleum East China
Priority date: 2021-10-27
Filing date: 2021-10-27
Publication date: 2022-01-28

Abstract

本发明设计一种基于KNN算法与多项式回归算法组合的跨区域致密油藏油井产能预测方法，属于油气勘探开发技术领域。该方法包括获取日生产数据及地质数据；对数据进行预处理；运用灰度关联删除关联度弱的数据列，并基于理论公式添加新的数据列；根据KNN算法建立地质数据分类模型；根据多项式回归算法建立地质数据和产能数据联合的产能预测模型，并寻找出最优模型；最终通过模型预测出油井产量。本发明由于采取以上技术方案，可以在分析已有数据的前提下，得出产能预测算法模型，进而可以用一套方法结合新生产状态数据预测不同地区油井产油量，也可以对新开井进行产能预测。本发明借助KNN算法和多项式回归算法可以较好的满足不同地质油井产能预测的需求，具有较高的泛化性。并且可以对新开井以及未知井进行产能预测和评估，进而可以更早的为油井生产制度提供参考，以优化油田资源利用率。

Description

一种基于KNN算法与多项式回归算法组合的跨区域致密油藏油井产能预测方法

技术领域

本发明涉及一种致密油藏油井预测方法，特别涉及一种基于KNN算法与多项式回归算法组合的跨区域致密油藏油井产能预测方法，属于油气勘探开发技术领域。

背景技术

传统基于数据驱动的油井产能预测方法，往往受限于地质条件，即同一模型在不同地质下，油井产量预测准确率会有明显下降。同时，传统基于数据驱动的油井产能预测方法往往是在拥有井的大量数据之后才可以较好的预测油井产量，那么对新开井和未知井就会表现乏力。为了解决这两个问题，本方法提出一种基于KNN算法与多项式回归算法组合的跨区域油藏油井产能预测方法，将不同地质数据与油井生产数据相整合，达到模型可以预测不同地质的众多油井的产油量。基于本方法，可以减少计算机资源消耗，用一个模型预测不同地区油井产量，同时可以预测未知井和新井的产量，进而提前制定相关生产措施，合理分配生产资源，为新井开采提供更好的开采建议，进而优化新井开采工艺，提高采油厂整体收益。

发明内容

针对上述问题，本发明的目的是提供一种基于KNN算法与多项式回归算法组合的跨区域致密油藏油井产能预测方法，解决传统基于数据驱动的油井产量预测算法在不同地质下表现不好的问题，并且可以预测新井产量，为新井开采提供更好的开采建议。

为实现上述目的，本发明采取以下技术方案：基于KNN算法与多项式回归算法组合的跨区域致密油藏油井产能预测方法，其包括以下几个步骤：

(1)采集致密油藏油井的日生产数据和地质数据共同作为样本数据集；

(2)对日生产数据和地质数据进行数据预处理，保留有效数据；

(3)运用灰度关联算法对日生产数据和地质数据的特征参数进行筛选；

(4)运用KNN算法对油井地质数据进行分类，将分类结果作为日生产数据特征参数，参与模型训练；

(5)对日生产数据，运用多项式回归算法建立致密油藏油井产能预测模型；

(6)优化模型参数，进而构建最优致密油藏油井产能预测模型；

(7)使用产能预测模型进行产能预测。

所述步骤(1)，采集致密油藏油井的日生产数据和地质数据作为样本数据集。

所述步骤(2)，基于步骤(1)采集的数据，进行数据预处理，包括处理空值，去除异常值，数据类型转换(将字符型转Int整型)和数据归一化。

所述步骤(3)，基于步骤(2)预处理后数据，首先运用灰度关联算法，得到各个特征参数与“日产油量”特征参数的关联度分数，删除分数小于0.05的特征参数。

所述步骤(4)，基于步骤(2)预处理之后的地质数据，作为KNN算法的训练集，得出拟合不同地质信息的KNN分类算法模型。KNN算法分类数量等于不同区块的数量。然后将KNN算法分类结果作为日生产数据的特征参数，命名为“区块特征值”。

所述步骤(5)，基于步骤(4)所生成的日生产数据，按照7:3划分训练集和测试集，并用多项式回归算法拟合训练集，初步建立致密油藏油井产能预测模型。

所述步骤(6)，基于步骤(5)所建立的产能预测模型，运用网格搜索法和交叉验证法进行多项式回归算法的参数调整，找出算法在测试集上误差最小时的算法参数，参数包括degree(多项式最高次数)和interaction_only(是否只考虑交互特征)。将误差最小时的多项式回归算法导出为算法模型文件，得到最优的基于多项式回归算法的致密油藏油井产能预测模型。

所述步骤(7)，将新采集的生产数据以及地质数据带入步骤(6)得到的致密油藏油井产量预测模型中，得出日产油量的预测结果。

本发明由于采取以上技术方案，其具有以下优点：1、本发明首先通过数据预处理，解决了空值、异常值、离群值等影响算法表现的数据，减小了原生数据集的噪音，对后续算法准确度有很好提高；2、通过min-max归一化方法将数据规范至[0,1]区间，去除了各特征的量纲，再次减小了噪音的影响，极大地提高了算法的运行速度和准确率；3、通过灰度关联算法的运用，筛选了关联程度弱的特征参数，减小了算法的负担；4、算法对各区块油井地质数据进行分类并标签化，进而在遇到未知井、新井或预测不同区域井时用标签作为一个特征参数，进而预测出对应油井产量；5、对初步训练成功的算法模型运用网格搜索法优化了初步训练模型，提高了算法的精确度；6、本方法可以通过对已有数据进行分析进而预测已知油井或者未知井的产量，可以为油井和理配产提供参考建议，进而提高油田整体收益。

附图说明

图1.致密油藏油井产量预测算法流程图；

图2.KNN算法示意图；

图3.多项式回归算法示意图。

具体实施方式

为了更加清晰的阐述本发明的技术方案，下面结合附图和实施例对本发明进行详细的描述。

本实施方式所述的一种基于KNN算法与多项式回归算法组合的跨区域致密油藏油井产能预测方法流程图如图1，该方法具体通过以下步骤实现：

1.采集油井的日生产数据和地质数据作为样本数据集。其中获取的日生产数据的特征参数包括井号、区块名称、采出方式、驱替方式、生产时间、冲程、冲次、冲程利用率、冲次利用率、气油比、井口温度、油压、套压、回压、泵径、泵效、最大载荷、最小载荷、日产油量。所获取的地质数据的特征参数包括地层原油粘度、地层原油密度、砂岩厚度、有效厚度、破裂压力、平均砂比。

2.对步骤1采集的数据进行预处理。首先处理空值，当某行或某列全部为空值时，删除这一行或这一列；当某行中或某列中个别数据项为空值时，通过均值或0进行填补。其次处理异常值，当某列数据中，数据超出理论范围时，视为无效数据，删除这一行，比如温度显示1000℃，这是不可能的，那么删除这一行；当某两个特征之间的关系不符合客观规律时，删除这一行的数据，比如套压小于油压，这是不合理的，删除这一行。然后转换数据类型，由于算法无法处理字符型数据，因此将字符型数据转换为Int整型数据，比如小层号有“F1”、“F2”、“F3”三种类型，那么将这是那种类型分别转换为1、2、3，然后翻入算法中进行训练。最后数据全部处理完之后，进行数据的归一化，以达到去除量纲的目的，这里采用min-max标准化对数据归一化，去除量纲，min-max理论公式为：

其中

为归一化之后的特征参数，x为原始特征参数，X_min表示x中的最小值，X_max表示x中的最大值。经过此过程，生成新的数据集。

3.对步骤2预处理完的数据集，进行特征处理。通过灰色关联度算法，优选出关联度大的特征，同时剔除关联度小的特征。其中关联度计算权重公式为：

式中关联系数计算公式为：

式中ρ为分辨系数，0＜ρ＜1，若ρ越小，关联系数间差异越大，区分能力越强。通常ρ取0.5。x₀(k)，x_i(k)分别表示母序列第k个数，子序列第i个特征值的第k个数。ζ_i(k)则表示第i个特征的第k个值与母序列第k个值的关联系数。取日生产数据中“日产油量”作为因变量，其他特征参数作为“自变量”，用灰色关联度算法得出因变量和每个自变量之间的关联度分数，并设定阈值0.05，即小于这个关联度分数的特征参数全部删除，大于该阈值的进行保留。

4.对步骤3预处理之后的地质数据，作为KNN算法的输入，进行拟合，得出充分拟合不同地质信息的KNN分类算法。然后将KNN算法分类结果作为日生产数据的特征参数，命名为“区块特征值”。

5.对步骤4生成的新数据集，按照比例7:3划分训练集和测试集，并在训练集上进行多项式回归算法建模。多项式回归算法包括多个输入一个输出，多项式回归算法拟合方程为：

h_θ(x)＝θ₀x⁰+θ₁x¹+θ₂x²+…+θ_nxⁿ＝X·θ

其中，θ_i(i＝0,1,…,n)为不同阶x对应的系数，θ为全部θ_i的向量表示。x为特征向量，X为x的向量表示。

6.将步骤5建立的模型，运用网格搜索法最优化多项式回归算法参数，所优化参数包括degree(多项式最高次数)和interaction_only(是否只考虑交互特征)。用MSE均方误差衡量模型准确率，使MSE在测试集上的表现最好。MSE计算公式为：

其中

为第i个样本的预测值，y_i为第i个样本的实际值，n为样本数量。最小化MSE之后，将此时算法参数记录保存。带入多项式回归算法模型中，导出多项式回归算法模型文件，保存以得出最优的基于多项式回归算法的致密油藏油井产能预测模型。

7.基于步骤6得到的模型，将新采集的生产数据和地质数据放入致密油藏油井产能预测模型中进行预测，得出日产油量的预测结果。

上述实施例仅用于说明本发明，其中各方法的实施步骤等都是可以有所变化的，凡是在本发明技术方案的基础上进行的等同变换和改进，均不应排除在本发明的保护范围之外。

Claims

1.基于KNN算法与多项式回归算法组合的跨区域致密油藏油井产能预测方法，其包括以下几个步骤：

(7)使用产能预测模型进行产能预测。

2.如权利要求1中所述的基于KNN算法与多项式回归算法组合的跨区域致密油藏油井产能预测方法，其特征在于，所述步骤(1)所获取的日生产数据包的特征参数括井号、区块名称、采出方式、驱替方式、生产时间、冲程、冲次、冲程利用率、冲次利用率、气油比、井口温度、油压、套压、回压、泵径、泵效、最大载荷、最小载荷、日产油量。所获取的地质数据的特征参数包括地层原油粘度、地层原油密度、砂岩厚度、有效厚度、破裂压力、平均砂比。

3.如权利要求1中所述的基于KNN算法与多项式回归算法组合的跨区域致密油藏油井产能预测方法，其特征在于，所述步骤(2)，基于步骤(1)采集的数据，进行数据预处理。首先用均值填补数据中的空值，然后对特征参数设置数据范围并去除不在此范围的异常值，最后对数据进行归一化以达到去量钢化的目的。

4.如权利要求1中所述的基于KNN算法与多项式回归算法组合的跨区域致密油藏油井产能预测方法，其特征在于，所述步骤(3)，基于步骤(2)预处理好的数据，运用灰度关联算法，分析各个特征参数与“日产油量”特征参数的关联度分数，删除分数小于0.05的特征参数。

5.如权利要求1中所述的基于KNN算法与多项式回归算法组合的跨区域致密油藏油井产能预测方法，其特征在于，所述步骤(4)，基于步骤(2)预处理之后的地质数据集，作为KNN算法的训练集，得出拟合不同地质信息的KNN分类算法模型。KNN算法分类数量等于不同区块的数量。然后将KNN算法分类结果作为日生产数据的特征参数，命名为“区块特征值”。

6.如权利要求1中所述的基于KNN算法与多项式回归算法组合的跨区域致密油藏油井产能预测方法，其特征在于，所述步骤(5)，基于步骤(4)所生成的日生产数据，按照比例7:3划分训练集和测试集，用多项式回归算法拟合训练集，初步建立致密油藏油井产能预测模型。

7.如权利要求1中所述的基于KNN算法与多项式回归算法组合的跨区域致密油藏油井产能预测方法，其特征在于，所述步骤(6)，基于步骤(5)所建立的模型，运用网格搜索法和交叉验证法进行多项式回归算法的参数调整，找出算法在测试集上误差最小时的算法参数，参数包括degree(多项式最高次数)和interaction_only(是否只考虑交互特征)。将误差最小时的多项式回归算法导出为算法模型文件，得到最优的基于多项式回归算法的致密油藏油井产能预测模型。

8.如权利要求1中所述的基于KNN算法与多项式回归算法组合的跨区域致密油藏油井产能预测方法，其特征在于，所述步骤(7)，将新采集的生产数据以及地质数据带入步骤(6)得到的致密油藏油井产量预测模型中，得出日产油量的预测结果。