CN114358427B - 一种预测页岩气井最终可采储量的方法 - Google Patents

一种预测页岩气井最终可采储量的方法 Download PDF

Info

Publication number
CN114358427B
CN114358427B CN202210012572.6A CN202210012572A CN114358427B CN 114358427 B CN114358427 B CN 114358427B CN 202210012572 A CN202210012572 A CN 202210012572A CN 114358427 B CN114358427 B CN 114358427B
Authority
CN
China
Prior art keywords
data
samples
value
shale gas
training
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202210012572.6A
Other languages
English (en)
Other versions
CN114358427A (zh
Inventor
赵玉龙
陈雲祚
刘香禺
张烈辉
佘朝毅
王建君
吴建发
常程
张鉴
胡浩然
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Southwest Petroleum University
Original Assignee
Southwest Petroleum University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Southwest Petroleum University filed Critical Southwest Petroleum University
Priority to CN202210012572.6A priority Critical patent/CN114358427B/zh
Publication of CN114358427A publication Critical patent/CN114358427A/zh
Application granted granted Critical
Publication of CN114358427B publication Critical patent/CN114358427B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Landscapes

  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明公开了一种预测页岩气井最终可采储量的方法,包括以下步骤:S1,获取页岩气单井的地质数据、压裂数据、测试和生产数据;S2,进行数据预处理和特征工程,其中包括数据探索、缺失值填补、异常值的处理以及特征筛选;S3,对特征工程处理后的数据进行标准化处理,并划分数据集;S4,采用42种机器学习算法的基模型对训练集进行训练和并用测试集对其进行评估;S5,筛选出评价结果较好的3种基模型,进行调参;S6,将S5中得到模型采用集成学习方法进行模型融合;S7,使用模型融合得到的新模型进行训练和预测。本发明在页岩气井新井的EUR预测中能取得较好的结果,对页岩气井的开发技术政策调整具有实际意义。

Description

一种预测页岩气井最终可采储量的方法
技术领域
本发明涉及油气田开发领域,具体涉及一种预测页岩气井最终可采储量的方法。
背景技术
页岩气藏储层致密,自然条件下难以获得工业气流,常采用分段式压裂水平井技术进行储层改造,并采用控压生产制度进行商业开发。国内外生产实践表明,控压生产有助于抑制支撑剂回流,降低储层应力敏感效应,改善气井生产效果,提高气井最终可采储量(EUR)。但与此同时,由于频繁变更气井工作制度,导致气井生产数据波动剧烈,增大了数据拟合难度,降低了EUR计算效率和精度。因此,如何快速、准确预测控压生产下的页岩气井EUR显得尤为重要。现有方法主要有解析模型法、数值模拟法、物质平衡法、现代产量递减法、经验产量递减法和概率法等,传统模型和方法通常基于较为理想化的假设条件,而页岩气藏强非均质性特征及生产数据的大幅波动限制了传统方法计算EUR的准确性,有必要开展相关研究工作。
发明内容
本发明主要是针对现有技术中的不足之处,本发明的目的是提供一种预测页岩气井最终可采储量的方法。
为达到以上技术目的,本发明采用以下技术方案:
一种预测页岩气井最终可采储量的方法,其特征在于,包括以下步骤:
S1:获取页岩气单井的地质数据、压裂数据、测试和生产数据;
S2:对特征类型进行划分和统计:
S2.1:首先采用one-hot方法将非数值型特征数值化,对于数值型特征,需要观察其正态分布图,计算峰度和偏度,查看变量与变量间的关系;
S2.2:其次,统计各特征变量缺失值所占的比例,对于缺失过多的特征或样本采用删除的策略,而缺失量不大的特征或样本采用KNN算法进行填补;考虑到KNN算法本身对于观测点间距离计算的特点以及地理位置相近的井更可能具有相似的地质特征,于是将该观测点间距离替换为井眼坐标的距离,由此计算出两样本间的距离,在此基础上进行缺失值的填补;
KNN算法是考虑两样本之间的“距离”,选取最接近的几个观测样本的平均值或距离加权作为有缺失的样本的填补值;其中,两观测样本的距离定义是:
式中:len(x)为特征x的长度;x为一组样本值;y为另一组样本值;∑(!is.na(x-y))为x与y不相等的值的个数;xi为x中的第i个数据;yi为y中的第i个数据;
有了距离的定义后,就可以选取k个最近邻,并根据距离加权和作为缺失值的预测值,本发明中对KNN算法进行改进,使用实际矿场上井间距离描述两个样本间的距离,再选取k个最近邻,对缺失值进行填补;
S2.3:对各特征绘制箱型图,删除远超正常值范围的异常样本;
S2.4:最后计算Pearson相关性系数对特征进行筛选。
Pearson相关性系数计算公式为两个变量的协方差除以两个边量标准差的乘积:
其中,X和Y变量的协方差公式如下所示:
式中:ρX,Y为X和Y变量的Pearson相关系数;X为一组变量的值;Y为另一组变量的值;σX为X变量的标准差;σY为Y变量的标准差;n为样本个数;为X变量的平均值;/>为Y变量的平均值;
S3:对S2中处理后的数据进行标准化处理,并按8:2的比例划分数据集,分为训练集和测试集;
数据标准化处理的方法采用的是z-score标准化方法,将特征变量处理为均值等于0,标准差等于1的新数据;z-score标准化转换公式为:
其中,标准差公式为:
式中:N为样本数量;xi为第i个样本的值;μ为样本均值;σ为样本方差;
S4:采用42种机器学习算法的基模型对训练集进行训练,然后用测试集对基模型进行初步评估;所采用的基模型有随机森林、GBDT、线性回归、岭回归、lightGBM、Adaboost、决策树、贝叶斯回归等42种算法,不进行任何参数调整,直接代入训练集进行训练,并用测试集验证;评价基模型效果的参数为均方根误差(RMSE),其计算公式为:
式中:m为样本数量;yi为第i个预测值;为第i个真实值;均方根误差越小,基模型效果越好;
S5:在S4的基础上,筛选出评价结果较好的3种基模型,通过网格搜索的方法对超参数进行调整,以得到更好的预测结果;
S6:采用模型融合中的stacking方法将S5中得到的3个模型进行融合;利用训练好的3个不同模型的输出作为输入,来训练一个新的模型,从而得到最终的页岩气井EUR预测模型。
有益效果:
与现有技术相比,本发明具有以下有益效果:
1、相较于传统方法有更高的计算速度,且结果与实际相近;
2、改进了KNN算法对于距离的度量,使之更适用于EUR预测;
2、提出了一套页岩气井EUR预测新方法,该方法操作简便,可用于页岩气井EUR快速评价。
附图说明
图1方法流程图;
图2改进KNN算法填补缺失值验证图;
图3模型融合方法示意图;
图4筛选出的模型误差对比图。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅用以解释本发明,并不用于限定本发明。
实施例
一种预测页岩气井最终可采储量的方法,具体的计算方法包括以下步骤:
S1:获取页岩气单井的地质数据、压裂数据、测试和生产数据;
S2:对特征类型进行划分和统计:
S2.1:首先采用one-hot方法将非数值型特征数值化,对于数值型特征,需要观察其正态分布图,计算峰度和偏度,查看变量与变量间的关系;
S2.2:其次,统计各特征变量缺失值所占的比例,对于缺失过多的特征或样本采用删除的策略,而缺失量不大的特征或样本采用KNN算法进行填补;考虑到KNN算法本身对于观测点间距离计算的特点以及地理位置相近的井更可能具有相似的地质特征,于是将该观测点间距离替换为井眼坐标的距离,由此计算出两样本间的距离,在此基础上进行缺失值的填补;
KNN算法是考虑两样本之间的“距离”,选取最接近的几个观测样本的平均值或距离加权作为有缺失的样本的填补值;其中,两观测样本的距离定义是:
式中:len(x)为特征x的长度;x为一组样本值;y为另一组样本值;∑(!is.na(x-y))为x与y不相等的值的个数;xi为x中的第i个数据;yi为y中的第i个数据;
有了距离的定义后,就可以选取k个最近邻,并根据距离加权和作为缺失值的预测值,本发明中对KNN算法进行改进,使用实际矿场上井间距离描述两个样本间的距离,再选取k个最近邻,对缺失值进行填补;
S2.3:对各特征绘制箱型图,删除远超正常值范围的异常样本;
S2.4:最后计算Pearson相关性系数对特征进行筛选。
Pearson相关性系数计算公式为两个变量的协方差除以两个边量标准差的乘积:
其中,X和Y变量的协方差公式如下所示:
式中:ρX,Y为X和Y变量的Pearson相关系数;X为一组变量的值;Y为另一组变量的值;σX为X变量的标准差;σY为Y变量的标准差;n为样本个数;为X变量的平均值;/>为Y变量的平均值;
S3:对S2中处理后的数据进行标准化处理,并按8:2的比例划分数据集,分为训练集和测试集;
数据标准化处理的方法采用的是z-score标准化方法,将特征变量处理为均值等于0,标准差等于1的新数据;z-score标准化转换公式为:
其中,标准差公式为:
式中:N为样本数量;xi为第i个样本的值;μ为样本均值;σ为样本方差;
S4:采用42种机器学习算法的基模型对训练集进行训练,然后用测试集对基模型进行初步评估;所采用的基模型有随机森林、GBDT、线性回归、岭回归、lightGBM、Adaboost、决策树、贝叶斯回归等42种算法,不进行任何参数调整,直接代入训练集进行训练,并用测试集验证;评价基模型效果的参数为均方根误差(RMSE),其计算公式为:
式中:m为样本数量;yi为第i个预测值;为第i个真实值;均方根误差越小,基模型效果越好;
S5:在S4的基础上,筛选出评价结果较好的3种基模型,通过网格搜索的方法对超参数进行调整,以得到更好的预测结果;
S6:采用模型融合中的stacking方法将S5中得到的3个模型进行融合;利用训练好的3个不同模型的输出作为输入,来训练一个新的模型,从而得到最终的页岩气井EUR预测模型。
实施例1:
本实施例以四川某区块428口页岩气井为例,获取到的地层、生产等数据类型总共44个特征,如下表所示:
首先,输入页岩气井的数据,并按照S2进行特征工程,由于本实施例中所有样本的特征均为数值型特征,故先观察是否有样本缺失过多特征或某组特征数量缺失过多,对这些样本或特征进行删除,然后使用改进的KNN算法对缺失数据进行填补,对填补完成的数据计算其特征间的Pearson相关性系数,并对特征进行降维处理。
然后,采用z-score方法对数据进行标准化处理,并按8:2的比例划分数据集。之后,准备了42种基模型,包括随机森林、GBDT、线性回归、岭回归、lightGBM、Adaboost、决策树等,用训练集分别对其进行训练,并得到RMSE等评价参数,选取误差较小的基模型,采用网格搜索法进行下一步超参数的调整,得到较优的超参数。
最后,利用stacking方法组合上一步得到调好参的3个模型,得到新的预测EUR的回归模型,用于预测和对比,本实施例计算得到相对误差为6.53%,可用于工程实践。
本发明所提供的一种预测页岩气井最终可采储量的方法,在获取页岩气井的基本数据的基础上,对其异常样本或特征进行删除,并采用改进的KNN算法对缺失值进行填补,再计算相关性系数进行特征筛选。然后,将经过特征工程处理后的数据进行标准化处理,划分训练集和测试集,再通过训练42种基模型,对回归算法进行筛选,得到3个较好的模型后对其采用网格搜索法寻求较优的超参数组合。最后,采用stacking方法组合之前得到的3个优势模型,得到一个新的回归模型,用于预测页岩气井单井EUR。本发明可以在一定程度上提高页岩气井单井EUR预测精度,并提出了清晰的流程及较为简易的实现方法,对于处于开发前期的页岩气井的EUR预测及后期开发政策调整具有实用价值。以上所述,并非对本发明作任何形式上的限制,虽然本发明已通过上述实施例揭示,然而并非用以限定本发明,任何熟悉本专业的技术人员,在不脱离本发明技术方案范围内,当可利用上述揭示的技术内容作出些变动或修饰为等同变化的等效实施例,但凡是未脱离本发明技术方案的内容,依据本发明的技术实质对以上实施例所作的任何简单修改、等同变化与修饰,均仍属于本发明技术方案的范围内。

Claims (6)

1.一种预测页岩气井最终可采储量的方法,其特征在于,包括以下步骤:
S1:获取页岩气单井的地质数据、压裂数据、测试和生产数据;
S2:进行数据预处理和特征工程,其中包括原始数据探索及特征类型、采用基于井口大地坐标改进的KNN算法对缺失数据进行处理、对异常值的处理以及采用PCA算法进行特征筛选;
进行数据预处理和特征工程具体步骤如下:
首先需要采用one-hot方法将非数值型特征数值化,对于数值型特征,需要观察其正态分布图,计算峰度和偏度,查看变量与变量间的关系;其次,统计各特征变量缺失值所占的比例,对于缺失过多的特征或样本采用删除的策略,而缺失量不大的特征或样本采用KNN算法进行填补,但考虑到KNN算法本身对于观测点间距离计算的特点以及地理位置相近的井更可能具有相似的地质特征,于是将该数值的距离替换为井眼坐标的距离,由此计算出两样本间的距离,在此基础上进行缺失值的填补:
KNN算法是考虑两样本之间的“距离”,选取最接近的几个观测样本的平均值或距离加权作为有缺失的样本的填补值;其中,两次观测样本的距离定义是:
式中:len(x)为特征x的长度;x为一组样本值;y为另一组样本值;∑(!is.na(x-y))为x与y不相等的值的个数;xi为x中的第i个数据;yi为y中的第i个数据;
有了距离的定义后,就可以选取k个最近邻,并根据距离加权和作为缺失值的预测值;
然后,对各特征绘制箱型图,删除远超正常值范围的异常样本;最后计算Pearson相关性系数对特征进行筛选,Pearson相关性系数计算公式为两个变量的协方差除以两个边量标准差的乘积:
其中,X和Y变量的协方差公式如下所示:
式中:ρX,Y为X和Y变量的Pearson相关系数;X为一组变量的值;Y为另一组变量的值;σX为X变量的标准差;σY为Y变量的标准差;n为样本个数;为X变量的平均值;/>为Y变量的平均值;
S3:对S2中处理后的数据进行标准化处理,并划分数据集,分为训练集和测试集;
S4:采用42种机器学习算法的基模型对训练集进行训练,并用测试集对基模型进行初步评估;
S5:筛选出评价结果较好的3种基模型,进行超参数调整得到更好的预测结果;
S6:采用stacking方法将步骤5中得到的三个模型进行模型融合;
S7:对S6中得到的新模型进行训练并对页岩气井EUR进行预测。
2.根据权利要求1所述的方法,其特征在于,需要获取页岩气单井的地质数据、压裂数据、测试和生产数据。
3.根据权利要求1所述的方法,对S2中处理后的数据进行标准化处理,并按8:2的比例划分数据集,分为训练集和测试集;
数据标准化处理的方法采用的是z-score(zero-meannormalization)标准化方法,将特征变量处理为均值等于0,标准差等于1的新数据;z-score标准化转换公式为:
其中,标准差公式为:
式中:N为样本数量;xi为第i个样本的值;μ为样本均值;σ为样本方差。
4.根据权利要求1所述的方法,其特征在于,采用42种机器学习算法的基模型对训练集进行训练和并用测试集对基模型进行初步评估;代入训练集进行训练,并用测试集验证;评价模型效果的参数为均方根误差(RMSE),其计算公式为:
式中:m为样本数量;yi为第i个预测值;为第i个真实值。
5.根据权利要求1所述的方法,其特征在于,在S4的基础上,筛选出评价结果较好的3种基模型,通过网格搜索的方法对超参数进行调整,以得到更好的预测结果。
6.根据权利要求1所述的方法,其特征在于,采用模型融合中的stacking方法将S5中得到的3个模型进行融合;利用训练好的3个不同模型的输出作为输入,来训练一个新的模型,从而得到最终的页岩气井EUR预测模型。
CN202210012572.6A 2022-01-07 2022-01-07 一种预测页岩气井最终可采储量的方法 Active CN114358427B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210012572.6A CN114358427B (zh) 2022-01-07 2022-01-07 一种预测页岩气井最终可采储量的方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210012572.6A CN114358427B (zh) 2022-01-07 2022-01-07 一种预测页岩气井最终可采储量的方法

Publications (2)

Publication Number Publication Date
CN114358427A CN114358427A (zh) 2022-04-15
CN114358427B true CN114358427B (zh) 2024-05-07

Family

ID=81107165

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210012572.6A Active CN114358427B (zh) 2022-01-07 2022-01-07 一种预测页岩气井最终可采储量的方法

Country Status (1)

Country Link
CN (1) CN114358427B (zh)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115345378B (zh) * 2022-08-29 2023-04-18 西南石油大学 一种基于机器学习的页岩气井产量评价方法
CN115983088B (zh) * 2022-10-09 2023-08-15 中国地质大学(北京) 一种基于集成学习建立的海相页岩原地气量预测模型
CN115985407A (zh) * 2023-01-06 2023-04-18 西南石油大学 一种低阻页岩含气量预测融合模型方法
CN117113162B (zh) * 2023-05-23 2024-02-02 南华大学 一种融合机器学习的埃达克质岩构造背景判别图解方法

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106874478A (zh) * 2017-02-17 2017-06-20 重庆邮电大学 基于Spark的并行化随机标签子集多标签文本分类方法
CN108573320A (zh) * 2018-03-08 2018-09-25 中国石油大学(北京) 页岩气藏最终可采储量的计算方法和系统
CN112031756A (zh) * 2020-09-07 2020-12-04 西南石油大学 一种页岩气藏压裂井组生产动态数值模拟方法
CN112832737A (zh) * 2021-01-04 2021-05-25 中国石油天然气股份有限公司 页岩气井eur的确定方法、装置、设备及存储介质

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10859725B2 (en) * 2017-05-22 2020-12-08 Sensia Llc Resource production forecasting
CN114718556A (zh) * 2021-03-31 2022-07-08 中国石油天然气股份有限公司 人工裂缝参数的获取方法、装置及设备
CN116485029A (zh) * 2023-04-28 2023-07-25 东北石油大学 油田开发动态数据准确性检测方法、装置、设备及介质

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106874478A (zh) * 2017-02-17 2017-06-20 重庆邮电大学 基于Spark的并行化随机标签子集多标签文本分类方法
CN108573320A (zh) * 2018-03-08 2018-09-25 中国石油大学(北京) 页岩气藏最终可采储量的计算方法和系统
CN112031756A (zh) * 2020-09-07 2020-12-04 西南石油大学 一种页岩气藏压裂井组生产动态数值模拟方法
CN112832737A (zh) * 2021-01-04 2021-05-25 中国石油天然气股份有限公司 页岩气井eur的确定方法、装置、设备及存储介质

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
一种改进的页岩气井产量递减曲线拟合方法;文志成 等;《第32届全国天然气学术年会(2020)论文集》;20201112;第1-15页 *
李晨阳.ZT区块页岩气井产能影响因素分析及预测.《中国优秀硕士学位论文全文数据库工程科技Ⅰ辑》.2020,第B019-38页. *

Also Published As

Publication number Publication date
CN114358427A (zh) 2022-04-15

Similar Documents

Publication Publication Date Title
CN114358427B (zh) 一种预测页岩气井最终可采储量的方法
CN111291097B (zh) 一种基于决策树数据挖掘的钻井漏层位置实时预测方法
WO2018045642A1 (zh) 一种母线负荷预测方法
CN110674841B (zh) 一种基于聚类算法的测井曲线识别方法
CN112529341B (zh) 一种基于朴素贝叶斯算法的钻井漏失机率预测方法
CN112508105A (zh) 一种采油机故障检测与检索方法
CN107067100A (zh) 风电功率异常数据辨识方法及辨识装置
CN115393656B (zh) 一种用于随钻测井图像地层分类的自动分类方法
CN108491991A (zh) 基于工业大数据产品工期的约束条件分析系统与方法
CN105930900A (zh) 一种混合风力发电的预测方法及系统
CN111738371B (zh) 一种基于随机森林数据挖掘的地层裂缝条数预测方法
CN114997496A (zh) 一种基于时空序列数据约束的无监督储层智能分段方法
CN116427915A (zh) 基于随机森林的常规测井曲线裂缝密度预测方法及系统
CN108304875A (zh) 一种基于统计判别分类的爆破块度预测方法
CN115438897A (zh) 一种基于blstm神经网络的工业过程产品质量预测方法
CN114548494A (zh) 一种可视化造价数据预测智能分析系统
CN111626377A (zh) 一种岩相识别方法、装置、设备及存储介质
CN116562428A (zh) 一种基于机器学习的压裂施工参数优化方法
CN111026790A (zh) 一种基于数据挖掘的结构安全评估及预报方法
CN116306118A (zh) 一种裂缝建模方法
CN114595628A (zh) 一种水平井的体积压裂差异化改造方法
CN114169594A (zh) 一种基于LSTM-LightGBM变权组合模型的瓦斯浓度预测方法
CN115034005A (zh) 一种面向构件剩余使用寿命预测的模型分析可视化方法
CN114764546A (zh) 基于生成对抗神经网络的断块油藏剩余油预测方法
Feder Machine-learning approach determines spatial variation in shale decline curves

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant