CN116881640A - 岩心采出程度的预测方法、系统及计算机可读存储介质 - Google Patents

岩心采出程度的预测方法、系统及计算机可读存储介质 Download PDF

Info

Publication number
CN116881640A
CN116881640A CN202310853527.8A CN202310853527A CN116881640A CN 116881640 A CN116881640 A CN 116881640A CN 202310853527 A CN202310853527 A CN 202310853527A CN 116881640 A CN116881640 A CN 116881640A
Authority
CN
China
Prior art keywords
predicting
core
data
degree
readable storage
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202310853527.8A
Other languages
English (en)
Inventor
周扬
郭文敏
张滢滢
李世鑫
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Changzhou University
Original Assignee
Changzhou University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Changzhou University filed Critical Changzhou University
Priority to CN202310853527.8A priority Critical patent/CN116881640A/zh
Publication of CN116881640A publication Critical patent/CN116881640A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/10Pre-processing; Data cleansing
    • G06F18/15Statistical pre-processing, e.g. techniques for normalisation or restoring missing data
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F17/00Digital computing or data processing equipment or methods, specially adapted for specific functions
    • G06F17/10Complex mathematical operations
    • G06F17/18Complex mathematical operations for evaluating statistical data, e.g. average values, frequency distributions, probability functions, regression analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/213Feature extraction, e.g. by transforming the feature space; Summarisation; Mappings, e.g. subspace methods
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02ATECHNOLOGIES FOR ADAPTATION TO CLIMATE CHANGE
    • Y02A10/00TECHNOLOGIES FOR ADAPTATION TO CLIMATE CHANGE at coastal zones; at river basins
    • Y02A10/40Controlling or monitoring, e.g. of flood or hurricane; Forecasting, e.g. risk assessment or mapping

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • General Engineering & Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Evolutionary Biology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Computational Mathematics (AREA)
  • Evolutionary Computation (AREA)
  • Probability & Statistics with Applications (AREA)
  • Artificial Intelligence (AREA)
  • Mathematical Analysis (AREA)
  • Mathematical Optimization (AREA)
  • Pure & Applied Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Operations Research (AREA)
  • Algebra (AREA)
  • Databases & Information Systems (AREA)
  • Software Systems (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明涉及石油生产技术领域,尤其涉及岩心采出程度的预测方法、系统及计算机可读存储介质,包括双层非均质岩心驱替实验数据收集;对实验数据进行清洗;对清洗后的数据进行特征参数选择;采用PCA算法对特征参数选择后的数据进行降维;构建特征参数与采收程度的二次非线性回归模型;对二次非线性回归模型的拟合优度、显著性、残差平方和进行检验。本发明通过历史资料计算两种变量的相关程度,并通过多项式回归预测寻找变量之间的因果关系,并将这种关系用数学模型表示。

Description

岩心采出程度的预测方法、系统及计算机可读存储介质
技术领域
本发明涉及石油生产技术领域,尤其涉及岩心采出程度的预测方法、系统及计算机可读存储介质。
背景技术
为了预测不同物性的岩心的合采采收程度,目前主要采用数值模拟方法和数理统计方法来预测。其中数值模拟方法预测采收程度,其准确性取决于对大量历史数据的拟合和地质建模的准确性,而这需要耗费大量的时间和精力,同时前期地质建模过程需要大量的地质资料、流体物性资料和动态开发资料。数理统计分析方法对于选取预测阶段的数据量、时间长短非常敏感,且具有较强的经验性和多解性。
公开号CN115271182A的发明专利公开了海上油田水驱采收率预测方法,该专利预测类比油田的采收率,并开展采收率敏感性分析:在历史拟合的基础上,开展数值模拟研究,预测现有模型的采收率,基于采收率预测结果构建BP神经网络机器学习模型,对研究对象采收率进行预测。公开号CN116029402A的发明专利公开了裂缝型基岩潜山油藏采收率预测模型训练及预测方法和装置,该专利应用离散介质数值模拟方法对多组裂缝型油藏代理模型进行采收率预测,得到第一样本集,以第一样本集,训练至少两种采收率预测子模型;以第一样本集中的参数,输入至训练完成的至少两种采收率预测子模型,得到对应的预测采收率;将第一样本集中的参数,与对应的预测采收率,生成第二样本集;以第二样本集,应用集成学习算法训练预测值融合模型,得到采收率预测模型。上述方法在油井产量预测方面有较好的应用价值,但BP神经网络算法具有学习速度慢的特点,而集成学习算法对异常样本敏感,异常样本在迭代中可能会获得较高的权重,影响最终的强学习器的预测准确性。
发明内容
针对现有方法的不足,本发明通过历史资料计算两种变量的相关程度,并通过多项式回归预测寻找变量之间的因果关系,并将这种关系用数学模型表示。
本发明所采用的技术方案是:岩心采出程度的预测方法、系统及计算机可读存储介质包括以下步骤:
步骤一、双层非均质岩心驱替实验数据收集;
进一步的,数据收集包括:驱替压差、驱替用时、窜流程度、流量和对应的采收程度。
步骤二、对实验数据进行清洗;
进一步的,清洗包括:缺失值填充、异常值填充、重复值处理和数据标准化。
进一步的,缺失值填充采用中位数补充法;异常值填充采用绝对中位差法。
步骤三、对清洗后的数据进行特征参数选择;
进一步的,特征参数选包括:首先,采用皮尔逊相关系数计算特征参数之间的相关系数;其次,计算特征参数的概率值;最后,使用方差膨胀因子VIF值对特征参数之间的多重共线性判断。
步骤四、采用PCA算法对特征参数选择后的数据进行降维;
步骤五、构建特征参数与采收程度的二次非线性回归模型;
进一步的,二次非线性回归模型的公式为:
hθ(x)=θ01x+θ2x2+ε (5)
其中,θ0、θ1和θ2为特征参数系数,hθ(x)代表因变量,x代表自变量,ε为误差项。
步骤六、对二次非线性回归模型的拟合优度、显著性、残差平方和进行检验。
进一步的,岩心采出程度的预测系统,包括:存储器,用于存储可由处理器执行的指令;处理器,用于执行指令以实现岩心采出程度的预测方法。
进一步的,存储有计算机程序代码的计算机可读介质,计算机程序代码在由处理器执行时实现岩心采出程度的预测方法。
本发明的有益效果:
在石油生产领域,非线性回归预测法可以帮助油田企业进行生产计划和调度,提高生产效率和经济效益,相比于线型回归法准确性提高,相比于神经网络算法减少建模训练时间。
附图说明
图1是本发明的岩心采出程度的预测方法、系统及计算机可读存储介质流程图;
图2是本发明模型与线性模块和实测对比效果图。
具体实施方式
下面结合附图和实施例对本发明作进一步说明,此图为简化的示意图,仅以示意方式说明本发明的基本结构,因此其仅显示与本发明有关的构成。
如图1所示,岩心采出程度的预测方法、系统及计算机可读存储介质包括以下步骤:
步骤一、双层非均质岩心驱替实验数据收集;
以40-80目与200目双层砂岩岩心驱替实验为例,将两种岩心饱和油,用逐渐变大的流速对每层岩心进行水驱,记录40-80岩心的驱替压差(kpa)、驱替用时(时/分/秒)、窜流程度(%)、流量(ml/min)。
现有方法是在实验完成后,根据出油情况,用出油量除以单层含油量计算得到各时间采收程度(%),但误差很大,例如目测读液面示数有很大的误差,驱替泵显示误差。
步骤二、双层非均质岩心驱替实验数据清洗;
对统计和整理好的实验数据进行数据清洗,主要包括缺失值处理、异常值处理、重复值处理以及标准化。
1、缺失值填充;
在采集油井日产量相关数据中,往往由于机器的故障或者人为原因造成部分数据的缺失,因此需要做缺失值检测,并选用合适的方法进行插补操作;缺失值填充采用中位数补充法,采用中位数补充空值。
2、异常值填充;
由于人为原因造成数据异常值,采用MAD(绝对中位差法),假定数据服从正态分布,让异常点落在两侧的50%的面积里,让正常值落在中间的50%的区域里,之后对数据进行替换。
3、重复值处理;
在实验过程中,由于人为原因可能出现记录完全相同的记录,对此类数据进行直接去重,保留唯一记录。
4、数据标准化;
由于驱替压差的分布范围较大,与其他指标的量纲差异过大,使用min-max标准化算法对驱替压差进行处理,以减少量纲和分布范围对模型的影响,也可以加快求解速度。将原始数据进行线性变换,先将数据按照最小值中心化之后,再按照极差(最大值-最小值)缩放,将数据收敛到[0,1]之间,min-max标准化公式如下:
其中,yi为标准化后的序列,max为样本数据的最大值,min为样本数据的最小值。
步骤三、特征参数选择;
实验结束后,得到驱替压差(kpa)、驱替用时(时/分/秒)、窜流程度(%)、流量(ml/min)四个特征参数;使用相关系数法,选择相关性强的特征;并分析方差膨胀因子VIF值,去除非必要特征实现降维,减少计算复杂度。
采用皮尔逊相关系数公式如下:
其中,和/>分别代表两个变量的平均值。
当相关系数r在0.8-1.0之间时,两个变量极强相关;当相关系数r在0.6-0.8之间时,两个变量强相关;当相关系数r在0.4-0.6之间时,两个变量中等程度相关;当相关系数r在0.2-0.4之间时,两个变量弱相关;当相关系数r在0.0-0.2之间时,两个变量极弱相关或无相关。
计算出r后,还需要讨论变量的显著性水平,需要根据P值(概率值)和r联合判断相关性,因为只考虑r可能存在偶然性。
采用假设检验的方法:
原假设HO:R=0两变量之间不存在线性关联;
备择假设H1:R不等于0,两变量之间存在线性关联;
根据假设检验方法,在零假设成立的条件下,即假设两变量不存在相关性的前提下,计算出两变量不存在相关性的P值;求t值后查阅t分布表,得到p值;
t值的计算公式为:
其中,r代表皮尔逊相关系数,n代表样本含量。
如P值很小,说明两变量不存在相关性的概率很小,如果p<0.05,则说明可以拒绝原假设,接受备择假设,即两变量之间存在显著的线线性关系。所以当p值远大于0.05时,即使相关系数很大,两变量之间也不一定存在明显相关性。相关系数与显著性如下表:
表1相关系数与显著性
从表1看出四个自变量:流量、驱替用时、窜流严重程度、驱替压差与因变量:采收程度的相关性都较好。
此后,还要剔除存在共线性的变量,使用方差膨胀因子VIF值进行判断,计算公式如下:
其中,Ri 2代表自变量中的某一变量与除它外剩余的自变量进行多项式线性回归的结果。VIF越大,共线性越严重;当0<VIF<10,不存在多重共线性;当10≤VIF<100,存在较强的多重共线性;当VIF≥100,存在严重多重共线性。流量、时间、窜流严重程度、压力的VIF值如下表:
表2 VIF值
驱替压差 驱替用时 流量 窜流严重程度
VIF 1.941 14.255 14.232 4.409
从表2看出驱替用时和流量变量间存在共线性,删去流量再计算后的VIF值如下表:
表3调整后的VIF值
驱替压差 驱替用时 窜流严重程度
VIF 1.928 4.934 3.387
从表3可见删除流量后的三个变量间不存在多重共线性,选择驱替压差、驱替用时、窜流严重程度作为自变量,采收程度作为因变量。
步骤四、数据降维;
数据降维使用PCA算法,将原始数据按列组成n行m列矩阵X;将X的每一行进行零均值化;求出协方差矩阵;求出协方差矩阵的特征值及对应的特征向量;将特征向量按对应特征值大小从上到下按行排列成矩阵,取前k行组成矩阵P,即为降维到k维后的数据。
为了让拟合更精确,使用PCA算法,将驱替压差、驱替用时、窜流严重程度这个三维自变量降维至一维,得到x数列。
步骤五、采出程度回归模型的建立及训练;
使用二次非线性回归模型,公式为:
hθ(x)=θ01x+θ2x2+ε (5)
其中,θ0、θ1和θ2为特征参数系数,hθ(x)代表因变量,x代表自变量,ε为误差项。
利用数据集,选择x数列作为自变量,采收程度作为因变量对模型进行训练,训练好的模型如下:
y=0.592-0.037*x+0.001*x2 (6)
其中,y代表采出程度,x代表降维后的数列。
步骤六、对模型的拟合优度、显著性、残差平方和进行检验;
模型的拟合优度使用R2来表征,计算实际值与预测值、实际值与平均值、预测值与平均值的离差平方和,求出R2,R2计算公式如下:
其中,yi代表实际值,代表预测值,/>代表平均值。
计算出R2为0.956,表明拟合结果优秀。
模型的显著性检验包括总体显著性检验与回归系数显著性检验,判断模型是否拒绝回归系数为0的原假设。
线性关系检验是检验因变量y与k个自变量之间的关系是否显著,也称为总体显著性检验。检验的具体步骤如下:
第1步:提出假设。
H01=β2=...βk=0;
H11、β2、...、βk至少有一个不等于0;
第2步:计算检验的统计量F。
第3步:作出统计决策;
给定显著性水平a,根据分子自由度k,分母自由度n-k-1查F分布表得Fa若F>Fa,则拒绝原假设;若F<Fa则不拒绝原假设。
在回归方程通过线性关系检验后,就可以对各个回归系数A有选择地进行一次或多次检验。
回归系数检验的具体步骤如下:
第1步:提出假设,对于任意参数βi(i=1,2,..k),有:
H0i=0;
H1i≠0;
第2步:计算检验的统计量t;
第3步:作出统计决策,给定显著性水平a,根据自由度n-k-1查t分布得的值,若则拒绝原假设,若/>则不拒绝原假设。
显著性检验结果如下表:
表4显著性检验
结果显示,本回归模型具有统计学意义,F=724,P<0.001,说明模型成立。
输出模型,利用模型预测双层非均质岩心合采实验的采收程度,对比相同条件下的驱替压差、驱替时间、窜流严重程度的不同模型;如图2所示,本发明的二次非线性回归模型与实测值趋势接近拟合效果好于线性回归模型。
以上述依据本发明的理想实施例为启示,通过上述的说明内容,相关工作人员完全可以在不偏离本项发明技术思想的范围内,进行多样的变更以及修改。本项发明的技术性范围并不局限于说明书上的内容,必须要根据权利要求范围来确定其技术性范围。

Claims (8)

1.岩心采出程度的预测方法,其特征在于,包括以下步骤:
步骤一、双层非均质岩心驱替实验数据收集;
步骤二、对实验数据进行清洗;
步骤三、对清洗后的数据进行特征参数选择;
步骤四、采用PCA算法对特征参数选择后的数据进行降维;
步骤五、构建特征参数与采收程度的二次非线性回归模型;
步骤六、对二次非线性回归模型的拟合优度、显著性、残差平方和进行检验。
2.根据权利要求1所述的岩心采出程度的预测方法、系统及计算机可读存储介质,其特征在于,数据收集包括:驱替压差、驱替用时、窜流程度、流量和对应的采收程度。
3.根据权利要求1所述的岩心采出程度的预测方法、系统及计算机可读存储介质,其特征在于,清洗包括:缺失值填充、异常值填充、重复值处理和数据标准化。
4.根据权利要求3所述的岩心采出程度的预测方法、系统及计算机可读存储介质,其特征在于,缺失值填充采用中位数补充法;异常值填充采用绝对中位差法。
5.根据权利要求1所述的岩心采出程度的预测方法、系统及计算机可读存储介质,其特征在于,特征参数选包括:首先,采用皮尔逊相关系数计算特征参数之间的相关系数;其次,计算特征参数的概率值;最后,使用方差膨胀因子VIF值对特征参数之间的多重共线性判断。
6.根据权利要求1所述的岩心采出程度的预测方法、系统及计算机可读存储介质,其特征在于,二次非线性回归模型的公式为:
hθ(x)=θ01x+θ2x2+ε (5)
其中,θ0、θ1和θ2为特征参数系数,hθ(x)代表因变量,x代表自变量,ε为误差项。
7.岩心采出程度的预测系统,其特征在于,包括:存储器,用于存储可由处理器执行的指令;处理器,用于执行指令以实现如权利要求1-6任一项所述的岩心采出程度的预测方法。
8.存储有计算机程序代码的计算机可读介质,其特征在于,计算机程序代码在由处理器执行时实现如权利要求1-8任一项所述的岩心采出程度的预测方法。
CN202310853527.8A 2023-07-11 2023-07-11 岩心采出程度的预测方法、系统及计算机可读存储介质 Pending CN116881640A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202310853527.8A CN116881640A (zh) 2023-07-11 2023-07-11 岩心采出程度的预测方法、系统及计算机可读存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202310853527.8A CN116881640A (zh) 2023-07-11 2023-07-11 岩心采出程度的预测方法、系统及计算机可读存储介质

Publications (1)

Publication Number Publication Date
CN116881640A true CN116881640A (zh) 2023-10-13

Family

ID=88259959

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202310853527.8A Pending CN116881640A (zh) 2023-07-11 2023-07-11 岩心采出程度的预测方法、系统及计算机可读存储介质

Country Status (1)

Country Link
CN (1) CN116881640A (zh)

Similar Documents

Publication Publication Date Title
CN112508105B (zh) 一种采油机故障检测与检索方法
CN108875772B (zh) 一种基于堆叠稀疏高斯伯努利受限玻尔兹曼机和强化学习的故障分类模型及方法
CN106092625B (zh) 基于修正型独立元分析和贝叶斯概率融合的工业过程故障检测方法
CN112446597B (zh) 贮箱质量评估方法、系统、存储介质、计算机设备及应用
CN115021679B (zh) 一种基于多维离群点检测的光伏设备故障检测方法
CN112766301B (zh) 一种采油机示功图相似性判断方法
CN112116198A (zh) 数据驱动的流程工业状态感知网络关键节点筛选方法
CN108830006B (zh) 基于线性评价因子的线性-非线性工业过程故障检测方法
CN114757269A (zh) 一种基于局部子空间-邻域保持嵌入的复杂过程精细化故障检测方法
CN114266289A (zh) 一种复杂装备健康状态评估方法
CN115169401A (zh) 一种基于多尺度DenseNet-ResNet-GRU模型的刀具磨损量预测方法
CN112329868A (zh) 基于clara聚类的制造加工设备群能效状态评价方法
CN116881640A (zh) 岩心采出程度的预测方法、系统及计算机可读存储介质
CN112069621B (zh) 基于线性可靠度指标的滚动轴承剩余使用寿命的预测方法
CN114757495A (zh) 一种基于逻辑回归的会员价值量化评估方法
CN113886592A (zh) 一种电力信息通信系统运维数据的质量检测方法
CN114137915A (zh) 一种工业设备的故障诊断方法
CN113505850A (zh) 基于深度学习的锅炉故障预测方法
CN113094826A (zh) 一种基于任务可靠度的多态制造系统剩余寿命预测方法
CN116957361B (zh) 一种基于虚实结合的船舶任务系统健康状态检测方法
WO2024040801A9 (zh) 横波时差预测方法及装置
CN117592789B (zh) 基于时间序列分析的电网环境火灾风险评估方法及设备
CN117370775A (zh) 油气井横波速度最佳参数选择方法、设备及存储介质
CN116451161A (zh) 大坝变形监测数据异常值自适应识别方法
Sheng et al. A Modified Mahalanobis Distance Metric Used to Optimize Mahalanobis Space and Improve Classification Performance of MTS

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination