CN116128162A - 基于小样本的压裂井初期产能预测方法、系统及存储介质 - Google Patents

基于小样本的压裂井初期产能预测方法、系统及存储介质 Download PDF

Info

Publication number
CN116128162A
CN116128162A CN202310389123.8A CN202310389123A CN116128162A CN 116128162 A CN116128162 A CN 116128162A CN 202310389123 A CN202310389123 A CN 202310389123A CN 116128162 A CN116128162 A CN 116128162A
Authority
CN
China
Prior art keywords
well
fracturing
data
initial productivity
initial
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202310389123.8A
Other languages
English (en)
Inventor
冯其红
葛雯
王森
李航宇
杨雨萱
秦勇
张纪远
舒成龙
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
China University of Petroleum East China
Original Assignee
China University of Petroleum East China
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by China University of Petroleum East China filed Critical China University of Petroleum East China
Priority to CN202310389123.8A priority Critical patent/CN116128162A/zh
Publication of CN116128162A publication Critical patent/CN116128162A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/04Forecasting or optimisation specially adapted for administrative or management purposes, e.g. linear programming or "cutting stock problem"
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/004Artificial life, i.e. computing arrangements simulating life
    • G06N3/006Artificial life, i.e. computing arrangements simulating life based on simulated virtual individual or collective life forms, e.g. social simulations or particle swarm optimisation [PSO]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/06Resources, workflows, human or project management; Enterprise or organisation planning; Enterprise or organisation modelling
    • G06Q10/063Operations research, analysis or management
    • G06Q10/0639Performance analysis of employees; Performance analysis of enterprise or organisation operations
    • G06Q10/06393Score-carding, benchmarking or key performance indicator [KPI] analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q50/00Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
    • G06Q50/02Agriculture; Fishing; Forestry; Mining
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02PCLIMATE CHANGE MITIGATION TECHNOLOGIES IN THE PRODUCTION OR PROCESSING OF GOODS
    • Y02P90/00Enabling technologies with a potential contribution to greenhouse gas [GHG] emissions mitigation
    • Y02P90/30Computing systems specially adapted for manufacturing

Landscapes

  • Engineering & Computer Science (AREA)
  • Business, Economics & Management (AREA)
  • Human Resources & Organizations (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Strategic Management (AREA)
  • Economics (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Marketing (AREA)
  • Software Systems (AREA)
  • Development Economics (AREA)
  • Tourism & Hospitality (AREA)
  • General Business, Economics & Management (AREA)
  • Quality & Reliability (AREA)
  • Data Mining & Analysis (AREA)
  • Educational Administration (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Game Theory and Decision Science (AREA)
  • Operations Research (AREA)
  • Mathematical Physics (AREA)
  • General Engineering & Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Computing Systems (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Agronomy & Crop Science (AREA)
  • Computational Linguistics (AREA)
  • Biophysics (AREA)
  • Biomedical Technology (AREA)
  • Molecular Biology (AREA)
  • Primary Health Care (AREA)
  • Mining & Mineral Resources (AREA)
  • Marine Sciences & Fisheries (AREA)
  • Animal Husbandry (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Medical Informatics (AREA)
  • Complex Calculations (AREA)

Abstract

本发明公开一种基于小样本的压裂井初期产能预测方法、系统及存储介质,涉及油气田开发技术领域,该方法包括获取目标区块已开发的压裂水平井的资料及相应的初期产能;根据已开发的压裂水平井的资料及相应的初期产能构建目标区块的压裂水平井初期产能的预测样本集;对所述预测样本集进行样本扩充,确定扩充后的预测样本集;根据扩充后的预测样本集,采用机器学习算法确定训练好的压裂井初期产能预测模型;根据目标区块未开发的压裂水平井的资料和训练好的压裂井初期产能预测模型,确定目标区块未开发的压裂水平井的初期产能。本发明可解决小样本情况下无法准确预测初期产能的难题。

Description

基于小样本的压裂井初期产能预测方法、系统及存储介质
技术领域
本发明涉及油气田开发技术领域,特别是涉及一种基于小样本的压裂井初期产能预测方法、系统及存储介质。
背景技术
致密/页岩油以其分布范围广、资源潜力大、储层动用率低等优点,成为了当前非常规油藏勘探开发的热点。目前中国致密油/页岩油勘探开发已进入快速发展阶段。由于非常规油藏存在低孔低渗等特点,常规开发手段不适用,需依赖水平井多级压裂、重复压裂等储层改造技术以改善储层导流能力、扩大泄油半径。准确预测压裂水平井的初期产能是进行油藏生产优化和开发决策的重要前提,因此,建立压裂井初期产能预测方法至关重要。
目前压裂井初期产能预测方法包括数值模拟方法、多元线性回归法、产量递减分析法等。数值模拟方法是通过建立数值模型模拟生产,能全面考虑油藏中各影响因素和机理,但该方法建立模型较复杂、需要参数较多且不易获取,现场可操作性较差,耗时耗力。多元线性回归法主要基于线性假设条件,建立产能与影响因素之间的数学模型。然而,不同油田影响因素不同,利用该方法需重新确定数学模型的系数,过程繁琐复杂,且影响因素与初期产能间不一定为线性关系,导致该方法误差大,实际应用效果差。产量递减分析法是当油井进入递减阶段时,利用递减公式拟合历史生产动态,预测未来产能及生产动态。该方法更适用于生产时间较长的油井,对于早期未递减、未投产的油井无法预测。
近年来,随着人工智能技术的飞速发展,许多高性能的机器学习算法开始引起各个领域的关注,利用机器学习方法预测初期产能,除了具有高效率、高准确性的优点,还可以根据油井相关参数进行提前预测,这对油田开发具有指导意义。专利CN109214026A基于神经网络算法,利用主控因素和次控因素建立页岩气水平井初期产能预测模型,然而该模型参数较多,计算效率低。而且,基于机器学习的压裂井初期产能预测方法需要大量实际数据,而目前的压裂水平井数目较少,样本数据量较少,且不同类别数据的占比不平衡,使得模型泛化能力差,造成预测效果不佳,制约了非常规油气的规模效益开发。
因此,亟需一种基于小样本学习的压裂井初期产能预测方法,解决用少量数据准确预测压裂水平井初期产能的问题。
发明内容
本发明的目的是提供一种基于小样本的压裂井初期产能预测方法、系统及存储介质,可解决小样本情况下无法准确预测初期产能的难题。
为实现上述目的,本发明提供了如下方案:一种基于小样本的压裂井初期产能预测方法,包括:获取目标区块已开发的压裂水平井的资料及相应的初期产能;所述资料包括:目标区块已开发压裂水平井的基础物性资料、压裂工艺参数、油井基本资料和工作制度;所述基础物性资料包括:目标油井的渗透率、孔隙度、含油饱和度和脆性含量;所述压裂工艺参数包括:目标油井的用液强度、加砂强度、压裂段数和压裂簇数;所述油井基本资料包括:目标油井的实钻水平段长度和钻遇油层长度;所述工作制度包括:目标油井的油嘴大小;所述初期产能包括:30天平均日产油量和90天日产油量;根据已开发的压裂水平井的资料及相应的初期产能构建目标区块的压裂水平井初期产能的预测样本集;对所述预测样本集进行样本扩充,确定扩充后的预测样本集;根据扩充后的预测样本集,采用机器学习算法确定训练好的压裂井初期产能预测模型;所述压裂井初期产能预测模型以压裂水平井的资料为输入,以相应的初期产能为输出;根据目标区块未开发的压裂水平井的资料和训练好的压裂井初期产能预测模型,确定目标区块未开发的压裂水平井的初期产能。
可选地,所述根据已开发的压裂水平井的资料及相应的初期产能构建目标区块的压裂水平井初期产能的预测样本集,具体包括:对资料及相应的初期产能进行数据预处理,得到预处理后的数据集;对预处理后的数据集进行相关性分析,利用Pearson相关系数方法对预处理后的数据集中的特征与特征之间的相关性进行分析;同时利用多种机器学习特征选择方法对预处理后的数据集中的特征与初期产能之间的相关性进行分析;并根据特征与特征之间相关性小于第一相关性阈值的特征及特征与初期产能之间相关性大于第二相关性阈值的特征,构建目标区块的压裂水平井初期产能的预测样本集。
可选地,所述对所述预测样本集进行样本扩充,确定扩充后的预测样本集,具体包括:对所述预测样本集进行分类,并确定每个类型的样本数量;确定样本数量最少的类型的样本中不同特征的欧氏距离;根据不同特征的欧氏距离,采用插值法对样本数量最少的类型的样本进行扩充;整合所有样本,确定扩充后的预测样本集。
可选地,所述机器学习算法包括:支持向量机、随机森林、XGBoost或Lasso。
可选地,利用评价指标对压裂井初期产能预测模型进行评价;所述评价指标包括:决定系数、均方根误差、均方误差和平均绝对误差。
可选地,以损失函数为目标函数,采用优化算法进行训练;所述优化算法包括:粒子群优化算法、网格搜索算法和野狗优化算法。
一种基于小样本的压裂井初期产能预测系统,包括:数据获取模块,用于获取目标区块已开发的压裂水平井的资料及相应的初期产能;所述资料包括:目标区块已开发压裂水平井的基础物性资料、压裂工艺参数、油井基本资料和工作制度;所述基础物性资料包括:目标油井的渗透率、孔隙度、含油饱和度和脆性含量;所述压裂工艺参数包括:目标油井的用液强度、加砂强度、压裂段数和压裂簇数;所述油井基本资料包括:目标油井的实钻水平段长度和钻遇油层长度;所述工作制度包括:目标油井的油嘴大小;所述初期产能包括:30天平均日产油量和90天日产油量;预测样本集构建模块,用于根据已开发的压裂水平井的资料及相应的初期产能构建目标区块的压裂水平井初期产能的预测样本集;预测样本集扩充模块,用于对所述预测样本集进行样本扩充,确定扩充后的预测样本集;训练好的压裂井初期产能预测模型确定模块,用于根据扩充后的预测样本集,采用机器学习算法确定训练好的压裂井初期产能预测模型;所述压裂井初期产能预测模型以压裂水平井的资料为输入,以相应的初期产能为输出;初期产能预测模块,用于根据目标区块未开发的压裂水平井的资料和训练好的压裂井初期产能预测模型,确定目标区块未开发的压裂水平井的初期产能。
一种存储介质,其上存储有计算机程序指令,当所述计算机程序指令被处理器执行时实现所述的方法。
根据本发明提供的具体实施例,本发明公开了以下技术效果:本发明所提供的一种基于小样本的压裂井初期产能预测方法、系统及存储介质,先根据已开发的压裂水平井的资料及相应的初期产能构建目标区块的压裂水平井初期产能的预测样本集,再对所述预测样本集进行样本扩充,确定扩充后的预测样本集;进而利用扩充后的预测样本集确定训练好的压裂井初期产能预测模型;本发明解决用少量数据准确预测压裂水平井初期产能的问题。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明所提供的一种基于小样本的压裂井初期产能预测方法流程示意图。
图2为初期产能影响因素相关性排序示意图。
图3为扩充数据原理示意图。
图4为扩充数据流程示意图。
图5为扩充后的数据集示意图。
图6为决定系数R2对比柱状图。
图7为模型超参数优化前后决定系数R2对比柱状图。
图8为训练集和验证集的效果示意图。
图9为测试集的效果示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本发明的目的是提供一种基于小样本的压裂井初期产能预测方法、系统及存储介质,可解决小样本情况下无法准确预测初期产能的难题。
为使本发明的上述目的、特征和优点能够更加明显易懂,下面结合附图和具体实施方式对本发明作进一步详细的说明。
图1为本发明所提供的一种基于小样本的压裂井初期产能预测方法流程示意图,如图1所示,本发明所提供的一种基于小样本的压裂井初期产能预测方法,包括:S101,获取目标区块已开发的压裂水平井的资料及相应的初期产能;所述资料包括:目标区块已开发压裂水平井的基础物性资料、压裂工艺参数、油井基本资料和工作制度;所述基础物性资料包括:目标油井的渗透率、孔隙度、含油饱和度和脆性含量;所述压裂工艺参数包括:目标油井的用液强度、加砂强度、压裂段数和压裂簇数;所述油井基本资料包括:目标油井的实钻水平段长度和钻遇油层长度;所述工作制度包括:目标油井的油嘴大小;所述初期产能包括:30天平均日产油量和90天日产油量。
S102,根据已开发的压裂水平井的资料及相应的初期产能构建目标区块的压裂水平井初期产能的预测样本集。
S102具体包括:对资料及相应的初期产能进行数据预处理,得到预处理后的数据集。
其中,预处理包括:删除数据集中由于油田资料收集问题导致的缺失值,并利用包括孤立森林算法等方法对参数识别、剔除异常值;并利用最大最小标准化方法对删除后的数据集中的输入特征数据转换到0到1的范围内,得到基于小样本的压裂井初期产能预测标准数据集。
最大最小标准化方法:
x为原始特征数据,min为同一特征数据中的最小值,max为特征数据中的最大值,为归一化处理后的特征数据。
将不同油井的基础物性资料、压裂工艺参数、油井基本参数以及工作制度作为模型训练数据集中的输入部分,将对应油井的初期产能作为输出部分。
对预处理后的数据集进行相关性分析,利用Pearson相关系数方法对预处理后的数据集中的特征与特征之间的相关性进行分析;同时利用多种机器学习特征选择方法对预处理后的数据集中的特征与初期产能之间的相关性进行分析。
并根据特征与特征之间相关性小于第一相关性阈值的特征及特征与初期产能之间相关性大于第二相关性阈值的特征,构建目标区块的压裂水平井初期产能的预测样本集。
特征与特征之间的相关性分析是为了去除与其他特征相关性强的特征,避免特征重复,达到特征融合的目的。若两特征的相关性强,则说明这两个特征可直接由其中一个特征来描述,此时,只选择其中一个作为输入特征即可。因此第一相关性阈值的取值一般较大,较优的,该值大于0.5。
特征与初期产能之间的相关性分析是为了筛选得到影响初期产能的主控因素。它通过识别并去除与初期产能相关性较小甚至基本不相关的特征,达到降维的目的,以此来改善机器学习模型的训练和预测效率。因此第二相关性阈值的取值一般较小,较优的,该值小于0.1。
多种机器学习特征选择方法既能考虑单个变量对目标的影响,又能考虑多变量间的关联,具体包括过滤法(线性相关程度、Pearson相关系数、最大信息系数法)、嵌入法(线性回归方法、L1正则化、L2正则化、随机森林)、包装法(递归特征选择法),共8种算法。在计算得到各特征在不同方法下的分数后,对各项分数做归一化处理,再将同一特征下各项评分全部相加,得到影响程度系数Pex。基于各特征的影响程度系数,对初期产能影响因素的相关性进行排序。
其中,Pix为第i个特征选择模型的对变量x评价分数归一化后的结果。Pex为变量x对初期产能的影响程度系数。
S103,对所述预测样本集进行样本扩充,确定扩充后的预测样本集。
S103具体包括:对所述预测样本集进行分类,并确定每个类型的样本数量。
确定样本数量最少的类型的样本中不同特征的欧氏距离。
根据不同特征的欧氏距离,采用插值法对样本数量最少的类型的样本进行扩充。
整合所有样本,确定扩充后的预测样本集。
以下通过具体的实施例进行说明:S31:利用层次聚类方法将压裂井初期产能预测样本集分为初期产能预测A类样本和初期产能预测B类样本,其中A类样本数量多,B类样本数量少,一般A类样本占比大于总样本数的75%;分别计算B类样本中每一口压裂水平井特征(每口压裂水平井包括渗透率、孔隙度、含油饱和度、脆性含量、用液强度、加砂强度、压裂段数、压裂簇数、实钻水平段长度、钻遇油层长度、油嘴大小以及初期产能共12个属性)到其他水平井的欧式距离。
S32:根据欧式距离,任意选择一口压裂水平井,从这口井附近的k口井中再随机挑选1口井,其中,k可以根据需要自己设定,一般为5;利用下式对12个属性(11个特征和1个初期产能)分别进行线性插值,最终在这两口井之间合成1口包含12个属性的新井。
合成1口新井的数据:
其中,xi合成为最终合成井的一种属性(i表示渗透率、孔隙度、含油饱和度、脆性含量、用液强度、加砂强度、压裂段数、压裂簇数、实钻水平段长度、钻遇油层长度、油嘴大小和初期产能共12个属性),xi为选择井的一种属性,xi附近为选择井附近随机挑选出的另一口井的一种属性(该属性与选择井一致),rand(0,1)为0~1之间的一个随机数。
S33:重新挑选一口井进行插值,直至新增的油井量达到自己预设的数量n。可选的,推荐增加的油井数量为原油井数量的倍数。整合原始油井的特征与新合成油井的特征。
S34:整合A类样本和扩充后的B类样本,最终形成压裂井初期产能预测样本集。
S104,根据扩充后的预测样本集,采用机器学习算法确定训练好的压裂井初期产能预测模型;所述压裂井初期产能预测模型以压裂水平井的资料为输入,以相应的初期产能为输出;所述机器学习算法包括:支持向量机、随机森林、XGBoost或Lasso。
利用评价指标对压裂井初期产能预测模型进行评价;所述评价指标包括:决定系数R2、均方根误差RMSE、均方误差MSE、平均绝对误差MAE。
其中,决定系数R2
均方根误差RMSE:
均方误差MSE:
平均绝对误差MAE:
其中,式中为响应数据的预测值,为响应数据的真实值,为响应数据的平均值,n为样本总数量。
以损失函数(真实值与模型计算值间的均方根误差最小)为目标函数,采用优化算法进行训练;所述优化算法包括:粒子群优化算法、网格搜索算法和野狗优化算法。
压裂井初期产能预测模型的训练和测试的过程包括如下几个步骤。
S41:将扩充后的预测样本集按照预设比例随机划分为训练集、验证集与测试集;可选的,推荐划分比例为6:2:2。其中,为验证增加样本数据量的可靠性,测试集中样本需为在目标区块收集到的实际数据。
S42:将样本数据集中的基础物性资料、压裂工艺参数、油井基本参数以及工作制度作为模型的输入,将样本数据集中对应的初期产能作为模型的输出。
S43:利用划分后的训练集对优选的压裂井初期产能预测模型进行训练,利用评价指标对模型的训练效果进行评价,用优化器不断更新预测模型的参数(模型训练中可自动确定的参数),用优化算法不断优化模型的超参数,直至达到预设迭代次数,得到优化后的初期产能预测模型。
S44:利用划分后的验证集对优选的压裂井初期产能预测模型进行验证,利用评价指标对模型的验证效果进行评价。
S45:采用所述测试集对训练后的初期产能预测模型进行预测效果评价,计算实际初期产能与模型计算的初期产能之间的误差指标,完成预测模型稳健性测试。
用于评价预测模型稳健性的误差标准包括相对误差以及绝对误差,若稳健性评价结果较好,则完成压裂井初期产能预测模型的构建;若稳健性评价结果较差,则需要检查样本集的数量是否合理,调整样本集数量,同时重新建立压裂井初期产能预测模型再进行误差标准评价。
S105,根据目标区块未开发的压裂水平井的资料和训练好的压裂井初期产能预测模型,确定目标区块未开发的压裂水平井的初期产能。
为了体现本发明的技术效果,以下通过具体的实施例进行说明。
步骤1:收集目标区块压裂水平井的开发资料及初期产能。
本实施例中所要研究的油井类型为压裂水平井。收集A油田压裂水平井的基础资料,共计150口,为下一步预测样本集的建立奠定基础。具体实施例中的相关开发资料如下表所示。
整理对应150口压裂水平井的初期产能(本实施例中采用90天平均日产油量作为初期产能),如下表所示。
步骤2:构建压裂井初期产能预测样本集。
S21:在实际油藏生产过程中,人为因素或机器故障等原因的出现,比如油嘴更换、下油管、钻塞、下气嘴、油管更换、关井等生产措施的产生,会造成井的地质数据和生产动态数据存在缺失、重复、奇异等问题。而这些异常数据会给数据的挖掘和分析带来较大的麻烦。即使勉强进行分析,其最终效果也会大大降低。因此,在正式分析前,需对这些数据进行预处理。
(1)缺失值主要是由于①现场条件的制约使得数据无法在施工中测量;②生产过程中油井关井;③工作人员疏忽忘记记录这三种情况而产生的。一般采用删除法或均值填补法。本实施例中,由于缺失数据的水平井较多,均值填补会导致数据误差大,造成预测模型效果差,因此采用删除法将存在缺失值的压裂水平井删去,存在缺失值的压裂水平井,共23口。
(2)异常值又称离群点,是指那些在数据集中存在的不合理的值,需要注意的是,不合理的值是偏离正常范围的值,不是错误值。依靠人工分析过程繁琐,为节约人力,采用机器学习方法中孤立森林算法对数据进行筛选并剔除异常点。该算法是通过随机选择m个特征,通过在所选特征的最大值和最小值之间随机选择一个值来分割数据点,重复分割,直到所有的观察值被孤立,统计各数据点被划分的次数,次数越少,说明该点异常,可删去。
同理,利用孤立森林算法对缺失值处理后的数据进行异常值识别,并直接删去筛选得到异常值所对应的油井。经筛选,共计21口压裂水平井存在异常值。
(3)综合(1)、(2),剩余106组有效数据。为了避免各个特征数量级之间存在的差异导致的模型训练过程中出现速度慢、收敛困难等问题,提高模型的训练效率和预测性能,对特征数据进行标准化处理,特征数据转换到0到1的范围内。
最大最小标准化方法:
x为原始特征数据,min为同一特征数据中的最小值,max为特征数据中的最大值,为归一化处理后的特征数据,A油田压裂水平井归一化后的特征参数,如下表所示。
S23:鉴于不同影响因素间可能存在相关性,因此需要对预处理后的数据集进行融合与降维以提高模型准确性。
①将收集的不同油井的基础物性资料、压裂工艺参数、油井基本参数以及工作制度,利用Pearson相关系数方法计算不同特征之间的Pearson相关系数并绘制热力图,评价不同特征之间的相关性。
Pearson相关系数方法是描述两组变量数据间相互关系强弱的数值。在数学形式上,Pearson相关系数在数值上等于两个变量的协方差与这两个变量标准差之比。Pearson相关系数数值处于-1到1的区间上,当两个变量相关程度增加时,相关系数也相应趋向于1或-1增加或减少,与1或-1差距越小,代表两者相关程度越强;当两变量呈现正相关时,相关系数为正值,负相关时则为负值;若两变量彼此之间此线性无关,则相关系数为0。
总体Pearson相关系数:
是X的标准差,
其中,COV(X,Y)为总体协方差,X为特征数据,Y为另一特征数据,i为该特征数据中该样本的序数,n为该特征总体样本数,为Y的标准差,E(X)为X的数学期望,Xi为X特征中第i个样本,Yi为Y特征中第i个样本,E(Y)为Y的数学期望。
基于Pearson相关系数方法评价不同因素间的相关性并绘制热力图。数字为两特征间的Pearson相关系数,灰度深浅代表相关性强弱,灰度越深代表两因素间相关性越强,据此可剔除强相关的自变量,减少模型训练时的变量个数。设置因素之间的相关性阈值为0.5,即当两因素之间相关系数大于0.5时,认为两因素具有强相关关系。以下两因素间存在强相关性:①实钻水平段长度与钻遇油层长度(相关系数为0.91);②实钻水平段长度与压裂簇数(相关系数为0.58);③钻遇油层长度与压裂簇数(相关系数为0.61);④孔隙度与渗透率(相关系数为0.52)。因此,剔除实钻水平段长度、压裂簇数、渗透率,利用以下7个特征分析对初期产能的影响,包括,基础物性:孔隙度、脆性含量;油井参数:钻遇油层长度;压裂参数:用液强度、加砂强度、压裂段数;工作制度:油嘴大小。
②基于上述筛选出的7个特征,利用机器学习特征筛选方法计算各特征与初期产能间的相关性并基于各特征的影响程度系数,对初期产能影响因素的相关性进行排序,并如下表和图2所示。
根据综合重要性系数结果显示,产量影响参数相关性强弱排序:油嘴大小>孔隙度>加砂强度>脆性含量=用液强度>压裂段数>钻遇油层长度;即:工作制度>基础物性>压裂参数>油井参数。设置初期产能与因素之间的相关性阈值为0.1,即当初期产能与因素之间影响程度系数大于0.1时,认为因素与初期产能之间为强相关关系。由表4可知,以上7个特征与初期产能间的影响程度系数均大于0.1,认为以上7个特征与初期产能间的相关性较强,因此,不再剔除特征,最终筛选出了7个对初期产能具有显著影响的特征参数。特征参数包括基础物性参数:孔隙度、脆性含量;油井参数:钻遇油层长度;压裂参数:用液强度、加砂强度、压裂段数;工作制度:油嘴大小。选取的特征参数及单位如下表所示。
基于上述步骤,初步得到了压裂井初期产能预测的样本集,共计106口压裂水平井的实际数据。
步骤3:增加样本集数量,构建新的样本集。
由于实际样本数据量较少,且数据集各个类别的样本数目相差巨大,导致数据集不平衡,例如,当数据集中存在三个类别分别为A,B,C时,训练集中A类的样本占75%,B类的样本占20%,C类的样本占5%。在模型训练时,会对类A的样本过拟合,而对其它两个类别的样本欠拟合。非平衡数据的处理方法主要有扩充数据集、人造数据。由于油井数量有限,已无其他真实数据可扩充数据集,因此,采用本发明所提出的方法补充人造数据,通过增加非平衡数据的数据量,构建新的样本集,以提高模型精度。
本发明所提供的补充样本集算法是一种过采样算法,如图3和图4所示,它构造新的小类样本而不是产生小类中已有的样本的副本。它基于距离度量选择小类别下两个或者更多的相似样本,然后选择其中一个样本,并随机选择一定数量的邻居样本对选择的那个样本的一个属性增加噪声,每次处理一个属性。这样就构造了许多新数据,方法简单。
本实施例中共有106口压裂水平井,8类参数,包括7个特征和1个初期产能。利用本发明所提出的方法生成53×8个数据点,即增加1/2的新样本。图5为原始与合成数据集。其中,圆形为原始数据,三角形为新增数据。最终,构建新的样本集,共计159组数据。
步骤4:筛选算法,构建压裂井初期产能预测模型。
S41:针对回归预测问题,目前有多种机器学习算法。挑选应用较广效果较好的4种机器学习算法(XGBoost、随机森林、支持向量机、Lasso回归算法)进行评价,筛选最适于初期产能预测的机器学习方法。
利用上述4种机器学习算法搭建初期产能预测基础模型,模型中参数为默认参数,暂不做调整。以样本集的孔隙度、脆性含量、钻遇油层长度、用液强度、加砂强度、压裂段数、油嘴大小这7个特征作为模型的输入,以样本集中对应的初期产能作为输出,以决定系数R2、均方根误差RMSE作为评价指标,对比各算法的初期产能预测精度,优选机器学习算法建立初期产能预测模型。
图6为4种模型训练及预测的决定系数R2的对比柱状图,决定系数R2越大,模型效果越好,四种模型的决定系数大小排序为:SVM>XGBoost>随机森林>Lasso,可见SVM性能最佳,Lasso效果最差;均方根误差RMSE对比后得出的结论与决定系数R2得出的结论一致。由上述分析可知,在本实施例中,Lasso各项评价指标效果均较差,SVM各项指标均较好,初步可排除Lasso构建初期产能预测模型。
S42:优化超参数。
野狗优化算法是基于野狗狩猎策略而设计的,具有寻优能力强、收敛速度快的特点。
考虑超参数对模型预测效果的影响,以模型预测值与真实值间的均方根误差RMSE最小为目标,利用野狗优化算法对预测模型的超参数进行优化(随机森林和XGBoost均为决策树模型,需优化的超参数为树的最大深度、最小叶子节点样本权重、正则项以及学习速率等;SVM模型需优化的超参数为惩罚函数C、核函数kernel、核函数的系数gamma等),以决定系数R2、均方根误差RMSE作为评价指标,再次对比各模型评价指标,优选出最佳算法,构建基于优化算法的压裂井初期产能预测模型。
对三种模型进行评价可知,图7为3种模型超参数优化前后训练及预测的决定系数R2的对比柱状图,SVM超参数优化前后的预测决定系数R2远高于随机森林和XGBoost;均方根误差RMSE越小,模型预测效果越好,均方根误差RMSE大小排序为:随机森林> XGBoost>SVM。
结合S41、S42,本实施例中最终优选SVM算法搭建预测模型,结合优化算法,最终构建了基于野狗优化算法的压裂井初期产能预测模型。
步骤5:训练压裂井初期产能预测模型并测试。
本实施例中,由于扩充样本集159组数量仍较少,模型效果不佳。因此,重新将原始106组样本集扩充3倍新样本,扩充样本集共424组,按照预设比例随机划分为训练集、验证集与测试集,各集合数量分别为255、85、84。将划分的255组训练样本集输入模型进行训练,用野狗优化算法不断优化模型的超参数,直至达到预设迭代次数,得到具有较高计算效率和准确性的初期产能预测模型;利用训练完成的预测模型,预测85组验证集的初期产能,利用验证完的预测模型进行测试,以决定系数R2作为评价指标。
利用训练集训练模型并优化得到最优超参数,如下表所示。
以决定系数R2作为评价指标,评价模型的精度。如图8所示,模型训练集的R2为0.99,验证集的R2为0.92,均高于0.9,证明模型训练后预测误差小,效果较好。样本点越接近45度线时,模型预测和实际样本之间的误差就越小。图8中的大多数点均分布在45度线周围,证实了当前模型精度较高。利用上述训练好的模型对测试集进行评价如图9所示,测试集的R2为0.87,效果较好。同时,利用未扩充的样本集按照6:2:2分配后对模型训练、预测及测试,其中测试集的R2仅为0.13,远低于扩充后的模型精度。由此可见,利用本发明提供的算法增加非平衡数据量可以解决在小样本情况下机器学习模型无法准确预测压裂水平井初期产能的问题。
作为另一个具体的实施例,本发明还提供一种基于小样本的压裂井初期产能预测系统,包括:数据获取模块,用于获取目标区块已开发的压裂水平井的资料及相应的初期产能;所述资料包括:目标区块已开发压裂水平井的基础物性资料、压裂工艺参数、油井基本资料和工作制度;所述基础物性资料包括:目标油井的渗透率、孔隙度、含油饱和度和脆性含量;所述压裂工艺参数包括:目标油井的用液强度、加砂强度、压裂段数和压裂簇数;所述油井基本资料包括:目标油井的实钻水平段长度和钻遇油层长度;所述工作制度包括:目标油井的油嘴大小;所述初期产能包括:30天平均日产油量和90天日产油量。
预测样本集构建模块,用于根据已开发的压裂水平井的资料及相应的初期产能构建目标区块的压裂水平井初期产能的预测样本集。
预测样本集扩充模块,用于对所述预测样本集进行样本扩充,确定扩充后的预测样本集。
训练好的压裂井初期产能预测模型确定模块,用于根据扩充后的预测样本集,采用机器学习算法确定训练好的压裂井初期产能预测模型;所述压裂井初期产能预测模型以压裂水平井的资料为输入,以相应的初期产能为输出。
初期产能预测模块,用于根据目标区块未开发的压裂水平井的资料和训练好的压裂井初期产能预测模型,确定目标区块未开发的压裂水平井的初期产能。
基于上述描述,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机、服务器或者网络设备等)执行本发明各个实施例方法的全部或部分步骤。而前述的计算机存储介质包括:U盘、移动硬盘、只读存储器、随机存取存储器、磁碟或者光盘等各种可以存储程序代码的介质。
本说明书中各个实施例采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似部分互相参见即可。对于实施例公开的系统而言,由于其与实施例公开的方法相对应,所以描述的比较简单,相关之处参见方法部分说明即可。
本文中应用了具体个例对本发明的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本发明的方法及其核心思想;同时,对于本领域的一般技术人员,依据本发明的思想,在具体实施方式及应用范围上均会有改变之处。综上所述,本说明书内容不应理解为对本发明的限制。

Claims (7)

1.一种基于小样本的压裂井初期产能预测方法,其特征在于,包括:
获取目标区块已开发的压裂水平井的资料及相应的初期产能;所述资料包括:目标区块已开发压裂水平井的基础物性资料、压裂工艺参数、油井基本资料和工作制度;所述基础物性资料包括:目标油井的渗透率、孔隙度、含油饱和度和脆性含量;所述压裂工艺参数包括:目标油井的用液强度、加砂强度、压裂段数和压裂簇数;所述油井基本资料包括:目标油井的实钻水平段长度和钻遇油层长度;所述工作制度包括:目标油井的油嘴大小;所述初期产能包括:30天平均日产油量和90天日产油量;
根据已开发的压裂水平井的资料及相应的初期产能构建目标区块的压裂水平井初期产能的预测样本集;
对所述预测样本集进行样本扩充,确定扩充后的预测样本集;
根据扩充后的预测样本集,采用机器学习算法确定训练好的压裂井初期产能预测模型;所述压裂井初期产能预测模型以压裂水平井的资料为输入,以相应的初期产能为输出;
根据目标区块未开发的压裂水平井的资料和训练好的压裂井初期产能预测模型,确定目标区块未开发的压裂水平井的初期产能。
2.根据权利要求1所述的一种基于小样本的压裂井初期产能预测方法,其特征在于,所述根据已开发的压裂水平井的资料及相应的初期产能构建目标区块的压裂水平井初期产能的预测样本集,具体包括:
对资料及相应的初期产能进行数据预处理,得到预处理后的数据集;
对预处理后的数据集进行相关性分析,利用Pearson相关系数方法对预处理后的数据集中的特征与特征之间的相关性进行分析;
同时利用多种机器学习特征选择方法对预处理后的数据集中的特征与初期产能之间的相关性进行分析;并根据特征与特征之间相关性小于第一相关性阈值的特征及特征与初期产能之间相关性大于第二相关性阈值的特征,构建目标区块的压裂水平井初期产能的预测样本集。
3.根据权利要求1所述的一种基于小样本的压裂井初期产能预测方法,其特征在于,所述对所述预测样本集进行样本扩充,确定扩充后的预测样本集,具体包括:
对所述预测样本集进行分类,并确定每个类型的样本数量;
确定样本数量最少的类型的样本中不同特征的欧氏距离;
根据不同特征的欧氏距离,采用插值法对样本数量最少的类型的样本进行扩充;
整合所有样本,确定扩充后的预测样本集。
4.根据权利要求1所述的一种基于小样本的压裂井初期产能预测方法,其特征在于,所述机器学习算法包括:支持向量机、随机森林、XGBoost或Lasso。
5.根据权利要求1所述的一种基于小样本的压裂井初期产能预测方法,其特征在于,利用评价指标对压裂井初期产能预测模型进行评价;所述评价指标包括:决定系数、均方根误差、均方误差和平均绝对误差。
6.一种基于小样本的压裂井初期产能预测系统,其特征在于,包括:
数据获取模块,用于获取目标区块已开发的压裂水平井的资料及相应的初期产能;所述资料包括:目标区块已开发压裂水平井的基础物性资料、压裂工艺参数、油井基本资料和工作制度;所述基础物性资料包括:目标油井的渗透率、孔隙度、含油饱和度和脆性含量;所述压裂工艺参数包括:目标油井的用液强度、加砂强度、压裂段数和压裂簇数;所述油井基本资料包括:目标油井的实钻水平段长度和钻遇油层长度;所述工作制度包括:目标油井的油嘴大小;所述初期产能包括:30天平均日产油量和90天日产油量;
预测样本集构建模块,用于根据已开发的压裂水平井的资料及相应的初期产能构建目标区块的压裂水平井初期产能的预测样本集;
预测样本集扩充模块,用于对所述预测样本集进行样本扩充,确定扩充后的预测样本集;
训练好的压裂井初期产能预测模型确定模块,用于根据扩充后的预测样本集,采用机器学习算法确定训练好的压裂井初期产能预测模型;所述压裂井初期产能预测模型以压裂水平井的资料为输入,以相应的初期产能为输出;
初期产能预测模块,用于根据目标区块未开发的压裂水平井的资料和训练好的压裂井初期产能预测模型,确定目标区块未开发的压裂水平井的初期产能。
7.一种存储介质,其上存储有计算机程序指令,其特征在于,当所述计算机程序指令被处理器执行时实现如权利要求1-5中任一项所述的方法。
CN202310389123.8A 2023-04-13 2023-04-13 基于小样本的压裂井初期产能预测方法、系统及存储介质 Pending CN116128162A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202310389123.8A CN116128162A (zh) 2023-04-13 2023-04-13 基于小样本的压裂井初期产能预测方法、系统及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202310389123.8A CN116128162A (zh) 2023-04-13 2023-04-13 基于小样本的压裂井初期产能预测方法、系统及存储介质

Publications (1)

Publication Number Publication Date
CN116128162A true CN116128162A (zh) 2023-05-16

Family

ID=86297670

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202310389123.8A Pending CN116128162A (zh) 2023-04-13 2023-04-13 基于小样本的压裂井初期产能预测方法、系统及存储介质

Country Status (1)

Country Link
CN (1) CN116128162A (zh)

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109214026A (zh) * 2017-07-07 2019-01-15 中国石油天然气股份有限公司 一种页岩气水平井初期产能预测方法
CN109882163A (zh) * 2019-03-27 2019-06-14 中国石油大学(华东) 一种用于致密油藏压裂水平井的产能预测方法
WO2020085617A1 (ko) * 2018-10-25 2020-04-30 동아대학교 산학협력단 머신러닝 기법을 이용한 천이 유동 영역의 셰일가스정에 대한 생산성 예측 장치 및 방법
CN112561356A (zh) * 2020-12-21 2021-03-26 西安石油大学 一种页岩油压裂水平井生产动态模式与产能综合评价方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109214026A (zh) * 2017-07-07 2019-01-15 中国石油天然气股份有限公司 一种页岩气水平井初期产能预测方法
WO2020085617A1 (ko) * 2018-10-25 2020-04-30 동아대학교 산학협력단 머신러닝 기법을 이용한 천이 유동 영역의 셰일가스정에 대한 생산성 예측 장치 및 방법
CN109882163A (zh) * 2019-03-27 2019-06-14 中国石油大学(华东) 一种用于致密油藏压裂水平井的产能预测方法
CN112561356A (zh) * 2020-12-21 2021-03-26 西安石油大学 一种页岩油压裂水平井生产动态模式与产能综合评价方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
王威: ""致密油藏水平井体积压裂初期产能预测"", 《新疆石油地质》, vol. 37, no. 5, pages 575 - 579 *

Similar Documents

Publication Publication Date Title
CA2640725C (en) Methods, systems, and computer-readable media for fast updating of oil and gas field production models with physical and proxy simulators
CN112308269B (zh) 用于低渗透油气藏的产能预测方法及装置
CN104533400B (zh) 一种重构测井曲线的方法
CN115906675B (zh) 基于时序多目标预测模型的井位及注采参数联合优化方法
CN108732620B (zh) 一种非监督与监督学习下的多波地震油气储层预测方法
CN105760673A (zh) 一种河流相储层地震敏感参数模板分析方法
CN108573078A (zh) 基于数据挖掘的压裂效果预测方法
CN108595803A (zh) 基于递归神经网络的页岩气井生产压力预测方法
CN114117881A (zh) 一种出砂风险预测方法及系统
CN115618987A (zh) 生产井生产数据预测方法、装置、设备和存储介质
CN116882323B (zh) 一种考虑时序性及细分任务的自适应代理策略优化方法
CN113779881A (zh) 致密含水气藏产能预测方法、装置及设备
CN117633475A (zh) 基于类比法的油田单井产量预测方法及装置
CN117216942A (zh) 一种用于井位优化的生产潜力指数的建立方法
CN116303626A (zh) 一种基于特征优化和在线学习的固井泵压预测方法
CN116562428A (zh) 一种基于机器学习的压裂施工参数优化方法
CN116128162A (zh) 基于小样本的压裂井初期产能预测方法、系统及存储介质
CN114462323A (zh) 一种基于多属性场融合的油藏流场表征方法
CN113627585A (zh) 基于长短时记忆神经网络的单井指标预测方法、系统
CN109236277A (zh) 一种基于产生式规则的抽油井故障诊断专家系统
Feder Machine-learning approach determines spatial variation in shale decline curves
CN115017827B (zh) 一种基于深度学习的气藏开发规律预测方法及系统
CN117633658B (zh) 岩石储层岩性识别方法及系统
CN116579095B (zh) 一种基于多目标交互的co2回注策略优化评价方法
WO2024040801A1 (zh) 横波时差预测方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination