CN113988410A - 一种基于knn算法与多项式回归算法组合的跨区域致密油藏油井产能预测方法 - Google Patents
一种基于knn算法与多项式回归算法组合的跨区域致密油藏油井产能预测方法 Download PDFInfo
- Publication number
- CN113988410A CN113988410A CN202111254460.3A CN202111254460A CN113988410A CN 113988410 A CN113988410 A CN 113988410A CN 202111254460 A CN202111254460 A CN 202111254460A CN 113988410 A CN113988410 A CN 113988410A
- Authority
- CN
- China
- Prior art keywords
- algorithm
- data
- oil
- polynomial regression
- productivity
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000004422 calculation algorithm Methods 0.000 title claims abstract description 90
- 239000003129 oil well Substances 0.000 title claims abstract description 47
- 238000000034 method Methods 0.000 title claims abstract description 38
- 238000004519 manufacturing process Methods 0.000 claims abstract description 41
- 238000007781 pre-processing Methods 0.000 claims abstract description 9
- 239000003921 oil Substances 0.000 claims description 35
- 238000012549 training Methods 0.000 claims description 12
- 238000012360 testing method Methods 0.000 claims description 6
- 230000002159 abnormal effect Effects 0.000 claims description 4
- 230000015572 biosynthetic process Effects 0.000 claims description 4
- 239000010779 crude oil Substances 0.000 claims description 4
- 230000003993 interaction Effects 0.000 claims description 4
- 238000007635 classification algorithm Methods 0.000 claims description 3
- 238000002790 cross-validation Methods 0.000 claims description 2
- 238000006073 displacement reaction Methods 0.000 claims description 2
- 239000004576 sand Substances 0.000 claims description 2
- 238000012216 screening Methods 0.000 claims description 2
- 238000012217 deletion Methods 0.000 claims 1
- 230000037430 deletion Effects 0.000 claims 1
- 238000005496 tempering Methods 0.000 claims 1
- 238000011161 development Methods 0.000 abstract description 2
- 238000013145 classification model Methods 0.000 abstract 1
- 238000011156 evaluation Methods 0.000 abstract 1
- 238000005065 mining Methods 0.000 description 5
- 238000012545 processing Methods 0.000 description 4
- 238000004364 calculation method Methods 0.000 description 3
- 230000008901 benefit Effects 0.000 description 2
- 230000001419 dependent effect Effects 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 230000002452 interceptive effect Effects 0.000 description 2
- 238000010606 normalization Methods 0.000 description 2
- 238000006243 chemical reaction Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q10/00—Administration; Management
- G06Q10/04—Forecasting or optimisation specially adapted for administrative or management purposes, e.g. linear programming or "cutting stock problem"
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
- G06F18/2413—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on distances to training or reference patterns
- G06F18/24147—Distances to closest patterns, e.g. nearest neighbour classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q50/00—Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
- G06Q50/02—Agriculture; Fishing; Forestry; Mining
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Business, Economics & Management (AREA)
- General Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Strategic Management (AREA)
- Human Resources & Organizations (AREA)
- Economics (AREA)
- Evolutionary Computation (AREA)
- General Business, Economics & Management (AREA)
- Evolutionary Biology (AREA)
- General Engineering & Computer Science (AREA)
- Tourism & Hospitality (AREA)
- Artificial Intelligence (AREA)
- Marketing (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Agronomy & Crop Science (AREA)
- Health & Medical Sciences (AREA)
- Mining & Mineral Resources (AREA)
- Primary Health Care (AREA)
- Marine Sciences & Fisheries (AREA)
- Animal Husbandry (AREA)
- General Health & Medical Sciences (AREA)
- Development Economics (AREA)
- Game Theory and Decision Science (AREA)
- Entrepreneurship & Innovation (AREA)
- Operations Research (AREA)
- Quality & Reliability (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本发明设计一种基于KNN算法与多项式回归算法组合的跨区域致密油藏油井产能预测方法,属于油气勘探开发技术领域。该方法包括获取日生产数据及地质数据;对数据进行预处理;运用灰度关联删除关联度弱的数据列,并基于理论公式添加新的数据列;根据KNN算法建立地质数据分类模型;根据多项式回归算法建立地质数据和产能数据联合的产能预测模型,并寻找出最优模型;最终通过模型预测出油井产量。本发明由于采取以上技术方案,可以在分析已有数据的前提下,得出产能预测算法模型,进而可以用一套方法结合新生产状态数据预测不同地区油井产油量,也可以对新开井进行产能预测。本发明借助KNN算法和多项式回归算法可以较好的满足不同地质油井产能预测的需求,具有较高的泛化性。并且可以对新开井以及未知井进行产能预测和评估,进而可以更早的为油井生产制度提供参考,以优化油田资源利用率。
Description
技术领域
本发明涉及一种致密油藏油井预测方法,特别涉及一种基于KNN算法与多项式回归算法组合的跨区域致密油藏油井产能预测方法,属于油气勘探开发技术领域。
背景技术
传统基于数据驱动的油井产能预测方法,往往受限于地质条件,即同一模型在不同地质下,油井产量预测准确率会有明显下降。同时,传统基于数据驱动的油井产能预测方法往往是在拥有井的大量数据之后才可以较好的预测油井产量,那么对新开井和未知井就会表现乏力。为了解决这两个问题,本方法提出一种基于KNN算法与多项式回归算法组合的跨区域油藏油井产能预测方法,将不同地质数据与油井生产数据相整合,达到模型可以预测不同地质的众多油井的产油量。基于本方法,可以减少计算机资源消耗,用一个模型预测不同地区油井产量,同时可以预测未知井和新井的产量,进而提前制定相关生产措施,合理分配生产资源,为新井开采提供更好的开采建议,进而优化新井开采工艺,提高采油厂整体收益。
发明内容
针对上述问题,本发明的目的是提供一种基于KNN算法与多项式回归算法组合的跨区域致密油藏油井产能预测方法,解决传统基于数据驱动的油井产量预测算法在不同地质下表现不好的问题,并且可以预测新井产量,为新井开采提供更好的开采建议。
为实现上述目的,本发明采取以下技术方案:基于KNN算法与多项式回归算法组合的跨区域致密油藏油井产能预测方法,其包括以下几个步骤:
(1)采集致密油藏油井的日生产数据和地质数据共同作为样本数据集;
(2)对日生产数据和地质数据进行数据预处理,保留有效数据;
(3)运用灰度关联算法对日生产数据和地质数据的特征参数进行筛选;
(4)运用KNN算法对油井地质数据进行分类,将分类结果作为日生产数据特征参数,参与模型训练;
(5)对日生产数据,运用多项式回归算法建立致密油藏油井产能预测模型;
(6)优化模型参数,进而构建最优致密油藏油井产能预测模型;
(7)使用产能预测模型进行产能预测。
所述步骤(1),采集致密油藏油井的日生产数据和地质数据作为样本数据集。
所述步骤(2),基于步骤(1)采集的数据,进行数据预处理,包括处理空值,去除异常值,数据类型转换(将字符型转Int整型)和数据归一化。
所述步骤(3),基于步骤(2)预处理后数据,首先运用灰度关联算法,得到各个特征参数与“日产油量”特征参数的关联度分数,删除分数小于0.05的特征参数。
所述步骤(4),基于步骤(2)预处理之后的地质数据,作为KNN算法的训练集,得出拟合不同地质信息的KNN分类算法模型。KNN算法分类数量等于不同区块的数量。然后将KNN算法分类结果作为日生产数据的特征参数,命名为“区块特征值”。
所述步骤(5),基于步骤(4)所生成的日生产数据,按照7:3划分训练集和测试集,并用多项式回归算法拟合训练集,初步建立致密油藏油井产能预测模型。
所述步骤(6),基于步骤(5)所建立的产能预测模型,运用网格搜索法和交叉验证法进行多项式回归算法的参数调整,找出算法在测试集上误差最小时的算法参数,参数包括degree(多项式最高次数)和interaction_only(是否只考虑交互特征)。将误差最小时的多项式回归算法导出为算法模型文件,得到最优的基于多项式回归算法的致密油藏油井产能预测模型。
所述步骤(7),将新采集的生产数据以及地质数据带入步骤(6)得到的致密油藏油井产量预测模型中,得出日产油量的预测结果。
本发明由于采取以上技术方案,其具有以下优点:1、本发明首先通过数据预处理,解决了空值、异常值、离群值等影响算法表现的数据,减小了原生数据集的噪音,对后续算法准确度有很好提高;2、通过min-max归一化方法将数据规范至[0,1]区间,去除了各特征的量纲,再次减小了噪音的影响,极大地提高了算法的运行速度和准确率;3、通过灰度关联算法的运用,筛选了关联程度弱的特征参数,减小了算法的负担;4、算法对各区块油井地质数据进行分类并标签化,进而在遇到未知井、新井或预测不同区域井时用标签作为一个特征参数,进而预测出对应油井产量;5、对初步训练成功的算法模型运用网格搜索法优化了初步训练模型,提高了算法的精确度;6、本方法可以通过对已有数据进行分析进而预测已知油井或者未知井的产量,可以为油井和理配产提供参考建议,进而提高油田整体收益。
附图说明
图1.致密油藏油井产量预测算法流程图;
图2.KNN算法示意图;
图3.多项式回归算法示意图。
具体实施方式
为了更加清晰的阐述本发明的技术方案,下面结合附图和实施例对本发明进行详细的描述。
本实施方式所述的一种基于KNN算法与多项式回归算法组合的跨区域致密油藏油井产能预测方法流程图如图1,该方法具体通过以下步骤实现:
1.采集油井的日生产数据和地质数据作为样本数据集。其中获取的日生产数据的特征参数包括井号、区块名称、采出方式、驱替方式、生产时间、冲程、冲次、冲程利用率、冲次利用率、气油比、井口温度、油压、套压、回压、泵径、泵效、最大载荷、最小载荷、日产油量。所获取的地质数据的特征参数包括地层原油粘度、地层原油密度、砂岩厚度、有效厚度、破裂压力、平均砂比。
2.对步骤1采集的数据进行预处理。首先处理空值,当某行或某列全部为空值时,删除这一行或这一列;当某行中或某列中个别数据项为空值时,通过均值或0进行填补。其次处理异常值,当某列数据中,数据超出理论范围时,视为无效数据,删除这一行,比如温度显示1000℃,这是不可能的,那么删除这一行;当某两个特征之间的关系不符合客观规律时,删除这一行的数据,比如套压小于油压,这是不合理的,删除这一行。然后转换数据类型,由于算法无法处理字符型数据,因此将字符型数据转换为Int整型数据,比如小层号有“F1”、“F2”、“F3”三种类型,那么将这是那种类型分别转换为1、2、3,然后翻入算法中进行训练。最后数据全部处理完之后,进行数据的归一化,以达到去除量纲的目的,这里采用min-max标准化对数据归一化,去除量纲,min-max理论公式为:
3.对步骤2预处理完的数据集,进行特征处理。通过灰色关联度算法,优选出关联度大的特征,同时剔除关联度小的特征。其中关联度计算权重公式为:
式中关联系数计算公式为:
式中ρ为分辨系数,0<ρ<1,若ρ越小,关联系数间差异越大,区分能力越强。通常ρ取0.5。x0(k),xi(k)分别表示母序列第k个数,子序列第i个特征值的第k个数。ζi(k)则表示第i个特征的第k个值与母序列第k个值的关联系数。取日生产数据中“日产油量”作为因变量,其他特征参数作为“自变量”,用灰色关联度算法得出因变量和每个自变量之间的关联度分数,并设定阈值0.05,即小于这个关联度分数的特征参数全部删除,大于该阈值的进行保留。
4.对步骤3预处理之后的地质数据,作为KNN算法的输入,进行拟合,得出充分拟合不同地质信息的KNN分类算法。然后将KNN算法分类结果作为日生产数据的特征参数,命名为“区块特征值”。
5.对步骤4生成的新数据集,按照比例7:3划分训练集和测试集,并在训练集上进行多项式回归算法建模。多项式回归算法包括多个输入一个输出,多项式回归算法拟合方程为:
hθ(x)=θ0x0+θ1x1+θ2x2+…+θnxn=X·θ
其中,θi(i=0,1,…,n)为不同阶x对应的系数,θ为全部θi的向量表示。x为特征向量,X为x的向量表示。
6.将步骤5建立的模型,运用网格搜索法最优化多项式回归算法参数,所优化参数包括degree(多项式最高次数)和interaction_only(是否只考虑交互特征)。用MSE均方误差衡量模型准确率,使MSE在测试集上的表现最好。MSE计算公式为:
其中为第i个样本的预测值,yi为第i个样本的实际值,n为样本数量。最小化MSE之后,将此时算法参数记录保存。带入多项式回归算法模型中,导出多项式回归算法模型文件,保存以得出最优的基于多项式回归算法的致密油藏油井产能预测模型。
7.基于步骤6得到的模型,将新采集的生产数据和地质数据放入致密油藏油井产能预测模型中进行预测,得出日产油量的预测结果。
上述实施例仅用于说明本发明,其中各方法的实施步骤等都是可以有所变化的,凡是在本发明技术方案的基础上进行的等同变换和改进,均不应排除在本发明的保护范围之外。
Claims (8)
1.基于KNN算法与多项式回归算法组合的跨区域致密油藏油井产能预测方法,其包括以下几个步骤:
(1)采集致密油藏油井的日生产数据和地质数据共同作为样本数据集;
(2)对日生产数据和地质数据进行数据预处理,保留有效数据;
(3)运用灰度关联算法对日生产数据和地质数据的特征参数进行筛选;
(4)运用KNN算法对油井地质数据进行分类,将分类结果作为日生产数据特征参数,参与模型训练;
(5)对日生产数据,运用多项式回归算法建立致密油藏油井产能预测模型;
(6)优化模型参数,进而构建最优致密油藏油井产能预测模型;
(7)使用产能预测模型进行产能预测。
2.如权利要求1中所述的基于KNN算法与多项式回归算法组合的跨区域致密油藏油井产能预测方法,其特征在于,所述步骤(1)所获取的日生产数据包的特征参数括井号、区块名称、采出方式、驱替方式、生产时间、冲程、冲次、冲程利用率、冲次利用率、气油比、井口温度、油压、套压、回压、泵径、泵效、最大载荷、最小载荷、日产油量。所获取的地质数据的特征参数包括地层原油粘度、地层原油密度、砂岩厚度、有效厚度、破裂压力、平均砂比。
3.如权利要求1中所述的基于KNN算法与多项式回归算法组合的跨区域致密油藏油井产能预测方法,其特征在于,所述步骤(2),基于步骤(1)采集的数据,进行数据预处理。首先用均值填补数据中的空值,然后对特征参数设置数据范围并去除不在此范围的异常值,最后对数据进行归一化以达到去量钢化的目的。
4.如权利要求1中所述的基于KNN算法与多项式回归算法组合的跨区域致密油藏油井产能预测方法,其特征在于,所述步骤(3),基于步骤(2)预处理好的数据,运用灰度关联算法,分析各个特征参数与“日产油量”特征参数的关联度分数,删除分数小于0.05的特征参数。
5.如权利要求1中所述的基于KNN算法与多项式回归算法组合的跨区域致密油藏油井产能预测方法,其特征在于,所述步骤(4),基于步骤(2)预处理之后的地质数据集,作为KNN算法的训练集,得出拟合不同地质信息的KNN分类算法模型。KNN算法分类数量等于不同区块的数量。然后将KNN算法分类结果作为日生产数据的特征参数,命名为“区块特征值”。
6.如权利要求1中所述的基于KNN算法与多项式回归算法组合的跨区域致密油藏油井产能预测方法,其特征在于,所述步骤(5),基于步骤(4)所生成的日生产数据,按照比例7:3划分训练集和测试集,用多项式回归算法拟合训练集,初步建立致密油藏油井产能预测模型。
7.如权利要求1中所述的基于KNN算法与多项式回归算法组合的跨区域致密油藏油井产能预测方法,其特征在于,所述步骤(6),基于步骤(5)所建立的模型,运用网格搜索法和交叉验证法进行多项式回归算法的参数调整,找出算法在测试集上误差最小时的算法参数,参数包括degree(多项式最高次数)和interaction_only(是否只考虑交互特征)。将误差最小时的多项式回归算法导出为算法模型文件,得到最优的基于多项式回归算法的致密油藏油井产能预测模型。
8.如权利要求1中所述的基于KNN算法与多项式回归算法组合的跨区域致密油藏油井产能预测方法,其特征在于,所述步骤(7),将新采集的生产数据以及地质数据带入步骤(6)得到的致密油藏油井产量预测模型中,得出日产油量的预测结果。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111254460.3A CN113988410A (zh) | 2021-10-27 | 2021-10-27 | 一种基于knn算法与多项式回归算法组合的跨区域致密油藏油井产能预测方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111254460.3A CN113988410A (zh) | 2021-10-27 | 2021-10-27 | 一种基于knn算法与多项式回归算法组合的跨区域致密油藏油井产能预测方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN113988410A true CN113988410A (zh) | 2022-01-28 |
Family
ID=79742382
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202111254460.3A Pending CN113988410A (zh) | 2021-10-27 | 2021-10-27 | 一种基于knn算法与多项式回归算法组合的跨区域致密油藏油井产能预测方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113988410A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116451877A (zh) * | 2023-06-16 | 2023-07-18 | 中国石油大学(华东) | 一种基于可计算语义网络的管网停开井产量预测方法 |
-
2021
- 2021-10-27 CN CN202111254460.3A patent/CN113988410A/zh active Pending
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116451877A (zh) * | 2023-06-16 | 2023-07-18 | 中国石油大学(华东) | 一种基于可计算语义网络的管网停开井产量预测方法 |
CN116451877B (zh) * | 2023-06-16 | 2023-09-01 | 中国石油大学(华东) | 一种基于可计算语义网络的管网停开井产量预测方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108009716B (zh) | 一种水平井体积压裂效果影响因素多层次评价方法 | |
CN112529341B (zh) | 一种基于朴素贝叶斯算法的钻井漏失机率预测方法 | |
CN110377605B (zh) | 一种结构化数据的敏感属性识别与分类分级方法 | |
CN110134719B (zh) | 一种结构化数据敏感属性的识别与分类分级方法 | |
CN113283180A (zh) | 基于K-means与SVR组合的致密油藏水平井压裂产能预测方法与应用 | |
CN115438823A (zh) | 一种井壁失稳机制分析与预测方法及系统 | |
CN113988410A (zh) | 一种基于knn算法与多项式回归算法组合的跨区域致密油藏油井产能预测方法 | |
CN117995314B (zh) | 基于机器学习的含聚污水重力式沉降清淤界限预测方法 | |
CN114596010A (zh) | 一种结合注意力机制的BiGRU网络钻井工况识别方法 | |
CN106597853A (zh) | 一种加氢裂化流程中主动式动态调控方法 | |
CN116861800B (zh) | 一种基于深度学习的油井增产措施优选及效果预测方法 | |
CN115438090A (zh) | 基于掉块图像特征的井壁失稳类型分析及预测方法及系统 | |
CN113468821B (zh) | 一种基于决策回归算法的坡面产流产沙阈值确定方法 | |
CN117332668A (zh) | 一种基于数据驱动的页岩气井压裂效果分析方法和系统 | |
CN113673771B (zh) | 一种页岩气水平井压裂分段方法 | |
CN114862007A (zh) | 一种面向碳酸盐岩气井的短周期产气量预测方法及系统 | |
CN114169217A (zh) | 一种基于数据驱动与边云协同的智能添加泡沫排水剂进而解决气井水堵的方法 | |
CN113988433A (zh) | 一种基于多项式回归算法的致密油藏油井产量预测方法 | |
CN113627640A (zh) | 一种针对缝洞型油藏油气井的产能试井预测方法及系统 | |
CN118114812B (zh) | 页岩气产量预测方法、计算机设备和存储介质 | |
CN113987933A (zh) | 一种基于bp神经网络的抽油机井检泵周期预测方法 | |
CN117909775A (zh) | 基于多阶近邻循环图约束的多视图聚类油井压裂选井方法 | |
Min et al. | Prediction of single well production rate in water-flooding oil fields driven by the fusion of static, temporal and spatial information | |
Tan et al. | Shale gas well productivity potential evaluation based on data-driven methods: case study in the WY block | |
CN117743879A (zh) | 一种基于机器学习的油井压裂措施适用性分析方法及系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication |