CN114117881A

CN114117881A - 一种出砂风险预测方法及系统

Info

Publication number: CN114117881A
Application number: CN202010896515.XA
Authority: CN
Inventors: 廖璐璐; 张洪宝; 杨顺辉; 田璐; 金鑫; 刘浩亚; 牛成成
Original assignee: China Petroleum and Chemical Corp; Sinopec Research Institute of Petroleum Engineering
Current assignee: China Petroleum and Chemical Corp; Sinopec Research Institute of Petroleum Engineering
Priority date: 2020-08-31
Filing date: 2020-08-31
Publication date: 2022-03-01

Abstract

本发明提供了一种出砂风险预测方法及系统，属于石油天然气勘探开发技术和油气田开发工程领域。该方法包括：第一步：收集和清洗目标区域的数据；第二步：建立结构化数据库，将第一步得到的数据进行存储；第三步：利用第二步存储的数据建立多种预测模型；第四步：对每种预测模型分别进行优化，然后将所有优化后的预测模型合成为最终的预测模型；第五步：利用最终的预测模型获得待预测井的出砂情况。运用本发明可以快速高效地建立面向疏松砂岩稠油油气藏的结构化数据库，建立基于不同类型机器学习算法的出砂风险预测模型，优化后的预测结果较于传统经验或地应力模型等预测方法更加精确，适应性更强。

Description

一种出砂风险预测方法及系统

技术领域

本发明属于石油天然气勘探开发技术和油气田开发工程领域，具体涉及一种出砂风险预测方法及系统。

背景技术

有效的减少和控制井筒出砂问题是石油工业界中一个经久不衰的研究热点，亦是油气田生产作业中降本增效的一个重要途径。尤其在疏松砂岩稠油油气藏中，稠油由于自身较大的粘度将导致疏松岩体中的砂砾剥离下来造成井筒出砂，这种出砂现象可能导致井底砂埋、洗井作业费用增加、降低油井产量、冲蚀生产管柱和地面设备、套管损坏甚至油井报废。对于出砂量的定量预测对于优化防砂方式、生产制度、提高产量和降低开发成本具有重要意义。

地层出砂过程受储层物性特征、地质力学特征、岩石力学特征、完井方式、生产制度、井眼几何特征等影响，多种因素影响下其响应机理复杂，传统定量预测方法依赖岩石强度破坏准则等理论模型，考虑因素较少，预测精度难以满足生产需要。判断井筒出砂的方法有许多，比较常用的如根据岩石强度理论，对油井出砂的解释为在开发油气过程中压力和产量的变化引起岩石的强度变化的经验方法；通过对地层的地应力和岩石力学性质综合分析是否发生剪切或拉伸破坏，判断地层是否出砂的岩石力学方法。

然而无论是经验方法还是岩石力学方法不是考虑因素单一、应用局限性大、计算精度低，就是建模繁复、模拟周期长，计算复杂。因而需要探索一种方法可以弥补两者不足，实现高维度变量非线性影响下疏松砂岩稠油要测光的出砂风险预测和评估方法。

自2007年起，人工智能(AI)的应用在医学、金融、交通等诸多行业取得了技术突破。在勘探与开发生产的业务中，人工智能的应用也在快速增长中。随着油田信息化水平提高，各类历史数据基本实现了结构化存储，大量生产信息得以记录。机器学习技术具有强大的高维、非线性问题映射能力，有望利用油田大量历史信息，建立油井出砂定量预测模型，指导生产工艺措施的科学优化。国内外，基于机器学习算法的油气储层出砂量预测已经被讨论和研究，目前依据收集的地质、油藏工程等数据进行一元非线性和多元线性回归方法已经被提出，例如中国专利公开文献CN102278088A公开了一种解决疏松砂岩稠油油藏出砂的技术，其从传统数据统计的角度出发，提出了疏松砂岩稠油油藏出砂的技术的相关性研究方法和预测流程。该研究首先针对研究区域内所有水平井数据进行预处理和单因素敏感性测试，进而完成了主控因素的特征筛选，建立并完善结构化数据库；同时利用递减曲线分析方法(DCA)计算了区域内所有水平井的产能预测值。然后，利用回归方法等数学方法建立了出砂与地理/储层物理/工程参数之间的关联性，建立一个用以预测稠油储层产能的优选模型。为了提高模型训练的可靠性，通过交叉验证的方法扩充了数据库训练精密度，提高了稠油疏松砂岩储层出砂模型的预测精度。然而却鲜有提出基于机器学习技术预测的方法。利用机器学习技术可以在预测长期产能的同时也可以兼顾考虑在短中期钻完井参数设计的优化选择，这对于特定时间段中甄别影响产量的主控参数、建立和优选机器学习模型大有裨益。

发明内容

本发明的目的在于解决上述现有技术中存在的难题，提供一种出砂风险预测方法及系统，基于机器学习技术获得油井生产过程中的出砂量，解决由于疏松砂岩地层出砂影响机理不明导致的预测精度低的问题。

本发明是通过以下技术方案实现的：

本发明的第一个方面，提供了一种出砂风险预测方法，所述方法包括：

第一步：收集和清洗目标区域的数据；

第二步：建立结构化数据库，将第一步得到的数据进行存储；

第三步：利用第二步存储的数据建立多种预测模型；

第四步：对每种预测模型分别进行优化，然后将所有优化后的预测模型合成为最终的预测模型；

第五步：利用最终的预测模型获得待预测井的出砂情况。

本发明的进一步的改进在于，所述第一步的操作包括：

确定目标区域；

采集目标区域内各口井的数据；

对采集到的数据进行数据补齐和数据扩充。

所述目标区域内各口井的数据包括自变量和因变量；

所述自变量包括以下八类数据：

第一类数据为井位地理信息，包括：井位坐标、储层深度和井眼尺寸；

第二类数据为测井数据，包括：声波时差、密度、电阻率和自然电位；

第三类数据为储层特征，包括：温度、最小水平应力方向；

第四类数据为储层地质力学特征，包括：上覆岩层压力、孔隙压力、最大和最小水平地应力以及最小水平地应力方位；

第五类数据为生产参数，包括：日产油、日产水、流动密度、流体粘度、溶解气油比、井底流压和井口油压；

第六类数据为完井参数，包括：射孔段长、射孔段中深、射孔密度、相位角、砾石充填完井的粒度中值、绕丝筛管完井的缝宽、金属棉滤砂管的缝宽和割缝筛管的缝宽；

第七类数据为注汽参数，包括：累计注气量、平均注汽温度和平均注汽压力；

第八类数据为井眼轨迹，包括：水平井的井斜角和方位角信息；

所述因变量为单井在某一时间节点上的出砂情况。

本发明的进一步改进在于，所述第二步中建立结构化数据库的操作包括：

采用二维表结构的数据库将第一步得到的所有自变量、因变量存储起来；

将每一口井的自变量和因变量作为一个样本；

将所有样本分成两部分，一部分为训练样本，另一部分为验证样本。

所述第三步中的多种预测模型包括：

贝叶斯分类模型、随机森林模型、支持向量机模型和人工神经网模型。

所述第四步的操作包括：

首先，利用训练样本和验证样本对每个预测模型分别进行优化得到各个优化后的预测模型；

然后，采用模型堆叠法对各个优化后的预测模型进行迭代处理得到最终的预测模型。

所述第五步的操作包括：

采集待预测井的数据，并按照第一步的方法处理得到待预测井的因变量；

将待预测井的因变量输入到最终的预测模型，最终的预测模型输出待预测井的出砂情况。

本发明的第二个方面，提供了一种出砂风险预测系统，所述系统包括：

数据采集处理单元，用于收集和清洗目标区域的数据；

数据库建立单元，与所述数据采集处理单元连接，用于建立结构化数据库，将数据采集处理单元得到的数据进行存储；

预测模型建立单元，与所述数据库建立单元连接，用于利用数据库存储的数据建立多种预测模型；

模型合成单元，与所述预测模型建立单元连接，用于对预测模型建立单元建立的每种预测模型分别进行优化，然后将所有优化后的预测模型合成为最终的预测模型；

预测单元，分别与数据采集处理单元、模型合成单元连接，利用数据采集处理单元得到的待预测井的数据和模型合成单元得到的最终的预测模型获得待预测井的出砂情况。

所述数据库建立单元建立的数据库为二维表结构的数据库。

所述预测模型建立单元建立的预测模型包括：贝叶斯分类模型、随机森林模型、支持向量机模型和人工神经网模型。

与现有技术相比，本发明的有益效果是：

运用本发明提出的基于多种机器学习算法的出砂风险预测方法，可以快速高效地建立面向疏松砂岩稠油油气藏的结构化数据库，建立基于不同类型机器学习算法的出砂风险预测模型，优化后的预测结果较于传统经验或地应力模型等预测方法更加精确，适应性更强。

开元环境中运行的机器学习模型可以快速地在10分钟以内完成对兴趣区域所有目标样本(大于等于200口井)进行训练和预测样本的出砂量预测，可以有效地辅助疏松砂岩稠油油藏的井筒工程参数选择和生产优化。

该方法可以实现疏松砂岩稠油油气层中地质、油藏、岩性和钻完井等参数的影响权重值计算，快速甄别主控因素并建立起高维机器学习预测模型。该模型对油气藏勘探开发的提质增效起到了关键作用，帮助疏松砂岩稠油油田实现利用机器学习技术进行区域上或单井井筒的出砂风险准确预测与评估。

附图说明

图1为本发明方法的步骤框图；

图2为用于机器学习预测的油田数据整理集合表；

图3为单棵决策树算法的逻辑概述简图；

图4为由多棵决策树组成的随机森林算法逻辑概述简图；

图5为人工神经网络算法的逻辑概述简图；

图6为组合机器学习模型(Stacking)逻辑概述简图；

图7为利用交叉验证中的“留一法”去优化模型精度概述简图；

图8为本发明系统的组成结构示意图。

具体实施方式

下面结合附图对本发明作进一步详细描述：

本发明提出了一种基于机器学习算法的疏松砂岩稠油油井生产过程中出砂风险预测方法。该方法可以实现疏松砂岩稠油油气层中地质、油藏、岩性和钻完井等参数的影响权重值计算，快速甄别主控因素并建立起高维机器学习预测模型。该模型对油气藏勘探开发的提质增效起到了关键作用，帮助疏松砂岩稠油油田实现利用机器学习技术进行区域上或单井井筒的出砂风险准确预测与评估。利用此方法可以提高防砂效果预测的准确性，通过优化工程设计参数，可以提高防砂效果。

本发明从数据科学的角度出发，提出了疏松砂岩稠油油层出砂风险与井位井眼信息、储层物性特征、地质力学特征、钻完井参数、生产参数和注采参数等的相关性研究方法和具体可行的出砂风险预测评估流程。通过对研究区域内594口稠油油井数据的收集清洗，建立结构化出砂风险评估基础数据库，对基础数据库进行训练与测试功能的区域性划分，建立包括贝叶斯分类、随机森林、支持向量机、人工神经网络四种机器学习算法模型，不断完善并最终通过测试库验证达到预定预测精度后应用在单井的出砂预测评估工作中。

如图1所示，本发明方法包括：

第一步：收集和清洗目标区域的数据；

针对目标疏松砂岩稠油油层块进行数据收集。数据可以是来自于公共数据库的表格数据，也可以是作业者内部的岩心实验室报告、钻完井日报和测录井的LAS文件等。通过创建兼容接口、文件自动识别或手动输入的方式录入原始数据库，本发明推荐采用表格形式。这些录入方式均是成熟技术，在此不再赘述。

具体的，首先确定目标区域，并进行区域内的数据收集与预处理。数据集合主要分成两大部分：一个是用作自变量的参数集合，包括井位地理特征、储层物性特征、地质力学特征、蒸汽提采参数、油田生产参数、完井工程参数和钻井工程参数；另一个则是单井在某一时间节点上的出砂情况，该时间节点根据目标地区的经验设定一年，这类参数被称为因变量，也称为标签函数。

数据种类主要根据传统油气田开发的不同分工职能属性分为大类数据。如图2所示，在自变量的参数集合中：第一类输入参数为井位地理信息，包括井位坐标、储层深度和井眼尺寸。以单井的井号或经纬度坐标标定为例：每一个训练参数或者测试参数都有且仅有一个地理位置坐标，根据预测井位距离周围已知训练井的绝对值大小来判定影响程度，具体来说，认为用以参与预测的训练井距预测井越近则影响权重系数越大，反之则越小；储层深度为垂深，一般来说压力越大其储层潜力生产能量越大，流动速率更大，加大了出砂的风险；井眼尺寸越小，相应的管道流动速率越大，加大出砂风险。第二类输入参数为测井数据，包括声波时差、密度、电阻率和自然电位等数据。第三类输入参数为储层特征，主要包括温度、最小水平应力方向等参数。第四类输入参数为储层地质力学特征，主要包括：上覆岩层压力、孔隙压力、最大和最小水平地应力以及最小水平地应力方位等。第五类输入参数为生产参数，主要包括：日产油、日产水、流动密度、流体粘度、溶解气油比、井底流压和井口油压。第六类输入参数为完井参数，主要包括：套管射孔完井(射孔段长、射孔段中深、射孔密度、相位角)、砾石充填完井(粒度中值)、绕丝筛管完井(缝宽)、金属棉滤砂管(缝宽)和割缝筛管(缝宽)。第七类输入参数为注汽参数，主要包括：累计注气量、平均注汽温度和平均注汽压力。第八类输入参数为井眼轨迹，主要包括水平井的井斜角和方位角信息。

综上所述，该方法收集了涉及到井位地理特征、储层物性特征、地质力学特征、蒸汽提采、油田生产、完井工程和钻井工程参数的30余种自变量。

关于数据清理，本发明主要采取的方式有两种：数据补齐和数据扩充。

本发明尝试了三种缺失数据的补齐方法：分别是均值/特殊值插补、K邻近聚类和回归插补方法，经过研究发现均值或特殊值插补方法是最容易实现的，也是以前人们经常使用的，但是它对样本存在极大的干扰，尤其是当插补后的值作为解释变量进行回归时，参数的估计值与真实值的偏差很大。相比较而言，聚类或回归插补方法对于缺失值类型为随机缺失的插补有很好的效果。因此本发明着重使用后两种方法进行数据补齐。如热卡填充、使用所有可能的值填充、组合完整化方法和极大似然估计和多重插补等方法。

针对出砂预测这一项工作，本发明尝试了两种缺失数据的扩充方法：借助经典经验公式，扩展数据和利用本文信息解读，扩展数据。具体的，借助公式，比如单井的递减公式和单井短期的产量，可以推导出单井未来1到3年，甚至更长时间的生产状态，由此可以人为地扩充产量子表格数据；另一方面，也可以采用油气田开发生产中产生的大量文字信息数据，可以利用One-hot编码，深度挖掘文本信息并对其特征数字化，从而补充数据库容量。

第二步：建立结构化数据库，将第一步得到的数据进行存储：把所有自变量、因变量用一种二维表格的数据库存储起来，并将样本分成两部分，一部分用于训练模型，另一部分用于检验模型，具体如下：

根据出砂影响因素分析结果完成面向出砂预测的数据设计，根据数据设计，建立了面向出砂预测的Access数据库，对5个油田250口井的全套地质、工程数据进行综合管理，为基于机器学习的出砂预测方法研究提供数据。值得注意的是数据库中拥有250个研究样本，每一个样本包含两种重要变量集合：第一种为自变量集合，主要包含的是在第一步骤中收集到的8大类特征信息；第二种是每个样本的出砂情况，即出砂或不出砂，将用于之后机器学习训练、测试和预测的因变量。

导致疏松砂岩稠油油层出砂的因素众多，因此对其准确的预测比较复杂，许多模型被构建用于出砂预测：比如经验法，根据岩石强度理论，对油井出砂的解释为在开发油气过程中压力和产量的变化引起岩石的强度变化。当岩石强度低于岩石所受到的力时，砂岩会破裂并引起砂子的移动。出砂在井筒中会引起砂拱。砂拱有一定的承受能力，当砂拱被破坏时，大量的地层砂就会涌入井筒并被流体带到地面形成出砂。岩石力学法是通过对地层的地应力和岩石力学性质综合分析是否发生剪切或拉伸破坏，判断地层是否出砂；机器学习方法具有强大的非线性问题描述能力，提高了油井出砂预测精度。

无论是经验法、岩石力学法还是机器学习方法，都需要构建一个可以面向油气田的机构化数据库，这个数据库应当具备实时数据的传输功能、并且有一定的自我数据更新纠错能力。经过筛选和验证(比如：传输数据为0、为空或标示不明的数据将会被统一标记为NA值；比如：出现极端异常值99999999类型的数据也将会做NA值处理；比如某一样本中的自变量的NA值超过30％则直接删除等等，这些均采用现有技术实现，在此不再赘述。)后的自变量和因变量将作为输入参数为下一步机器学习模型的建立做好准备。

数据库是一个有关油气田数据的资源库，确定预测目标后从数据库中挑选相关的数据材料，然后利用机器学习算法建立一个分类、聚类或回归的数学模型，从而达成目标。具体的，本发明建立的数据库包括一个中心母表格和多个子表格，母表格中主要包含的信息为：样本井的身份编号(每口井有且只有一个，且互不重复)、井名、地理坐标、所在油田或油区位置等表述类信息，所有样本井的表述类信息均在母表格中；每个样本井对应有多个子表格，子表格根据不同的学科划分为完井信息表、井眼轨迹表、油藏属性表、地质信息表、钻井工程参数表、压裂参数表、测井数据表等等，具体各个子表格包括哪些信息可以根据实际需要进行设计。

本发明的数据库是一种通过“二维表结构”逻辑表达和实现的数据库，严格遵循数据格式与长度规范。母表格与子表格统一构成一个大的数据库，并且针对不同研究目标，从中选择需要的表格组合，比如：预测简单的单井生产递减速率，那么仅选择母表格加单井的生产子表格即可；比如预测出砂风险，那么需要选择的就是母表格加生产制度、单井产量、岩石力学参数等多个子表格。

在结构化数据库中，所有用于预测出砂风险的参数被称为“自变量”。假设数据库中包含的数据m∈M水平井集合，n∈N自变量集合，其中m为单井样本，比如m1就是1井，m2就是2井，一直到mi就是第i口井，综合所有m的集合体为M，即水平井集合；而n为每一个自变量的描述，比如n1为孔隙度、n2为岩石应力值等等，所有自变量的集合体就是N。这样就可以预测来自x_i∈Rⁿ(子数据库中的某个油田)的特定时间节点的出砂情况

其中，xi表示从N中选择出来的关键自变量，Rⁿ表示N中所有自变量，y表示目标函数，可以是产量、产能或出砂情况。R为第i口井的子数据库的总集合，因为在不同应用场景下不需要用到第i口井的所有数据，而仅仅是关心的或者与研究目标相关的数据，这些数据的集合是数据库中的一部分，因此称之为“子数据库”。

这种方法属于“监督回归学习”，在这里y_i被称为是x_i的标签，包含自变量与相应标签的集合记做P＝{P₁，...，P_m}，其中P_i＝(x_i，y_i)＝(x_i1，...，x_in，y_i)∈Rⁿ⁺¹(表示子数据库中的单井的每一个自变量的所有集合)。另外，分别归类的自变量集合与对应标签集合也被描述成X＝{X₁，...，X_m}(表示所有的自变量)以及Y＝{Y₁，...，Y_m}(表示所有的标签)。注意在使用多重集合数学表达式的前提下，重复使用P、X和Y中的数据是被允许的。

为了训练和验证模型，P集合中的数据需要进行适当的划分。为了达成这一目的，t子库/基数被设计出来，1＜t＜m，并且所有所选参数都出自

集合(T是M的子集，表示训练集合)。P_T数集为训练数集并且属于P集合，P_V被称为自变量集合，属于P并与P_T被称为互补(即P_T是训练样本，P_V是验证样本，两者合起来就是整个样本)，

P_V＝P\P_T＝{pv₁，...，pv_k}。最终通过对比预测y′_i(即将验证样本输入模型，模型输出的预测值)与标签y_i值(即验证样本自身对应的标签)之间的差值，这里称为损耗或误差函数，来判断模型的好坏。广为人知的损耗函数有标准方差(Root Mean Squared Error：RMSE)、平均方差(Mean Squared Error：MSE)和Spearman关联系数(Pearson and Spearman CorrelationCoefficient)等。

第三步：机器学习算法的应用：建立4种预测模型，具体如下：

机器学习的核心在于找到数据自变量与因变量之间的关系。其发展出来的主要原因是大量数据的发展，用传统的数据分析的方式已经无法进行那么多大量的看似不相关的数据的处理，因此需要数据挖掘技术去提取各种数据和变量之间的相互关系，从而精炼数据。

机器学习是一种能够赋予计算机学习的能力以此让它完成直接编程无法完成的功能的方法。从实践的意义上，机器学习是一种通过利用数据，训练模型，然后使用模型预测的一种方法。常规机器学习方法不需要人为输入先验知识便可通过自行训练获取数据中的内在联系，避免了人为输入先验知识(如理论或经验公式)对数据挖掘产生的误导作用。机器学习可用于分类、回归、聚类和降维等任务，机械钻速预测为典型的回归问题，常用的机器学习分类算法包括k近邻法、支持向量机、随机森林、BP神经网络等。本发明在结构化数据库的基础上，分别通过建立贝叶斯分类法、随机森林分类、支持向量机和人工神经网络四种机器学习模型分别分析输入参数与标签函数之间的关联性，从而预测特定时间节点的出砂风险大小。

其中，贝叶斯分类法是基于贝叶斯定理的统计学分类方法。它通过预测一个给定的元组属于一个特定类的概率，来进行分类。

1)朴素贝叶斯分类模型

贝叶斯分类法是基于贝叶斯定理的统计学分类方法。它通过预测一个给定的元组属于一个特定类的概率，来进行分类。朴素贝叶斯分类法假定一个属性值在给定类的影响独立于其他属性——类条件独立性。其优点是所需估计的参数少，对于缺失数据不敏感，但是仍包含相关缺点：假设属性之间相互独立，需要知道先验概率等。

2)支持向量机(SVM)模型

支持向量机采用结构风险最小化原则，通过核函数的非线性变换，将输入特征空间转换到一个高维空间，在高维空间中寻找最优的分类超平面，比较适用于小样本、非线性和高维度的分类问题。由于带核函数的SVM在大数据量下的计算复杂度较大，本发明选择线性支持向量机作为文发明分类的评估方法。

3)随机森林(Random Forest，RF)模型

随机森林(如图4所示)是一种基于决策树(如图3所示)的集成方法，基本思想是把多个弱分类器集合为一个强分类器。该方法在工业数据的回归和预测中具有预测准确性高、泛化能力强、对异常值和噪声敏感度低的特点，且超参数较少，调参简单，在各类工业场景中广泛应用。

4)BP神经网络(Back Propagation)模型

BP神经网络(如图5所示)是1986年由Rumelhart和McClelland为首的科学家提出的概念，是一种按照误差逆向传播算法训练的多层前馈神经网络，是目前应用最广泛的神经网络。全连接结构里下层神经元和所有上层神经元都形成连接，是一种最普通的人工神经网络结构。多层网络结构有助于输入特征的分层提取和表征，但是神经元全连接会导致参数量过于庞大和训练量增加。

全连接结构里下层神经元和所有上层神经元都形成连接，是一种最普通的人工神经网络结构。多层网络结构有助于输入特征的分层提取和表征，但是神经元全连接会导致参数量过于庞大和训练量增加。

图4和图5中是以预测产能为例来说明上述两种机器学习模型的结构。

上述4种机器学习预测模型均是现有成熟技术，在此不再赘述。

第四步：进行模型优化获得最终预测模型：先单独优化各个预测模型，然后将4个模型合成最终的预测模型，具体如下：

所有用以优选的出砂预测模型，无论是贝叶斯分类、随机森林、人工神经网络方法都基于相同的输入参数与标签函数，并且在设计训练库与测试库的数据比例中也保持一致，即对四种模型输入的都是相同的参数，训练样本和测试样本也是完全相同的。

另外为了提高模型训练的可靠性，本发明通过交叉验证法中的“留一法”(如图7所示)扩充了数据库的容量，进而提高了疏松砂岩稠油油藏出砂风险模型的预测精度(扩充数据库容量后再进行样品训练和验证，不同测试集和训练集的交叉利用，增强了预测的稳定性)。优化后的出砂预测方法与评估策略可以应用在疏松砂岩中，测试案例表明，此种利用机器学习方法进行的产能分类预测精度达到85％以上。这项研究为从数据挖掘和机器学习的角度对疏松砂岩稠油油藏准确评价和快速商业决策提供了有力的保障。

在第三步骤提到的贝叶斯分类法、随机森林分类、支持向量机和人工神经网络模型四种机器学习算法的基础上，采用Stacking方法(模型堆叠法)(如图6所示)利用多种方法建立复合型机器学习模型来提升模型。

具体如下：

第一阶段，分别使用常规的模型建立流程完成和优化4种不同机器学习预测模型的建立，此阶段的目标是单个模型的最优化；

第二阶段为对单独优化后的4个模型再用模型堆叠法进行迭代处理得到复合黑箱模型。此阶段的目标与“留一法”相类似，既可以发挥4种模型叠加的精度预测优势，也可以提高模型预测的稳定性。然而，如果数据量太小而导致从P集合选出的训练集合在进行训练和测试时将会深受损耗函数的影响，预测结果将失准。为了在小数据库或中型数据库中得到相对可靠地错误统计值，比如本发明，将同时使用交叉验证方技术来弥补数据不足的缺陷，如图7所示，这种方法多次采集P集合中的数据，并以不同的数据组合方式来建立不同的训练集和测试集。基于每一个因变量集合上，对所预测出的结果的损耗函数求平均，所得平均值称为模型f_T；λ的泛化误差。最终的学习算法在调整相关参数的基础上被优选，以求提高预测精度。

如图7所示，整个模型的上半部分是一个基础机器学习模型并进行了5折交叉验证，比如利用朴素贝叶斯作为基础模型1，5折交叉验证就是先拿出四折作为训练集合，另外一折作为测试集合，即图7中的子集1到5(图7中的5类表示5种不同的测试集&验证集划分分类)。注意：在stacking中此部分数据会用到整个训练集合。如：假设整个训练集合包含10000行数据，测试集合包含2500行数据，那么每一次交叉验证其实就是对训练集合进行划分，在每一次的交叉验证中训练数据将会是8000行，测试数据是2000行。每一次的交叉验证包含两个过程，1.基于训练样本训练模型；2.基于训练样本训练生成的模型对测试样本进行预测。在整个第一次的交叉验证完成之后将会得到关于当前测试样本的预测值，这将会是一个一维2000行的数据，记为a1。在这部分操作完成后，还要对样本集原来的整个测试样本进行预测，这个过程会生成2500个预测值，这部分预测值将会作为下一层模型测试样本的一部分，记为b1。因为进行的是5折交叉验证，所以以上提及的过程将会进行五次，最终会生成针对测试集样本预测的5列2000行的数据a1,a2,a3,a4,a5，对测试样本的预测会是5列2500行数据b1,b2,b3,b4,b5。在完成对Model1的整个步骤之后，可以发现a1,a2,a3,a4,a5其实就是对原来整个训练集合的预测值，将它们拼凑起来，会形成一个10000行一列的矩阵，记为A1。而对于b1,b2,b3,b4,b5这部分数据，将各部分相加取平均值，得到一个2500行一列的矩阵，记为B1。上述交叉验证方法是成熟技术，在此不再赘述。

本发明的stacking中还包含了其他多个模型，本发明中还有Model2:支持向量机，Model3：随机森林，Model4:BP神经网络，对于这三个模型，可以重复以上的步骤，在整个流程结束之后，可以得到新的A2,A3,A4,B2,B3,B4矩阵。以此类推，将所有不同的机器学习模型单独优化后利用stacking方法叠加成一个复合黑箱模型，即最终的预测模型。

第五步，利用所述最终的预测模型预测待预测井的出砂情况：

将因变量输入到最终的预测模型，预测模型输出待预测井的出砂情况。

如图8所示，本发明还提供了一种出砂风险预测系统，所述系统包括：

数据采集处理单元10，用于收集和清洗目标区域的数据；

数据库建立单元20，与所述数据采集处理单元10连接，用于建立结构化数据库，将数据采集处理单元10得到的数据进行存储；

预测模型建立单元30，与所述数据库建立单元20连接，用于利用数据库存储的数据建立多种预测模型；

模型合成单元40，与所述预测模型建立单元30连接，用于对预测模型建立单元30建立的每种预测模型分别进行优化，然后将所有优化后的预测模型合成为最终的预测模型；

预测单元50，分别与数据采集处理单元10、模型合成单元40连接，利用数据采集处理单元10得到的待预测井的数据和模型合成单元40得到的最终的预测模型获得待预测井的出砂情况。

所述数据库建立单元20建立的数据库为二维表结构的数据库。

所述预测模型建立单元30建立的预测模型包括：贝叶斯分类模型、随机森林模型、支持向量机模型和人工神经网模型。

本发明从数据科学的角度出发，提出了疏松砂岩稠油油层出砂风险与井位井眼信息、储层物性特征、地质力学特征、钻完井参数、生产参数和注采参数等的相关性研究方法和预测流程。首先针对研究区域内594口井的相关数据进行收集和清洗，进而建立并完善了面向油气田出砂预测的Access结构化数据库，对5个油田250口井的全套地质、工程数据进行综合管理，为基于机器学习的出砂预测方法研究提供数据；然后，利用贝叶斯分类、随机森林、支持向量机和人工神经网络等多种机器学习算法建立了出砂风险与地理/储层物理/工程参数之间的映射，建立一套综合的利用机器学习算法的疏松砂岩稠油油层的出砂量预测与风险评估流程。为了提高模型训练的可靠性，本发明通过交叉验证中法的“留一法”有效的扩充了数据库容量，提高了模型的预测精度。这种基于机器学习技术的新型的综合出砂风险预测方法与钻完井、生产注采参数评估策略对疏松砂岩稠油油藏的出砂风险评价和快速商业决策提供了有力的保障。

应说明的是，上述技术方案只是本发明的一种实施方式，对于本领域内的技术人员而言，在本发明公开了应用方法和原理的基础上，很容易做出各种类型的改进或变形，而不仅限于本发明上述具体实施方式所描述的方法，因此前面描述的方式只是优选的，而并不具有限制性的意义。

Claims

1.一种出砂风险预测方法，其特征在于：所述方法包括：

第一步：收集和清洗目标区域的数据；

第三步：利用第二步存储的数据建立多种预测模型；

第五步：利用最终的预测模型获得待预测井的出砂情况。

2.根据权利要求1所述的出砂风险预测方法，其特征在于：所述第一步的操作包括：

确定目标区域；

采集目标区域内各口井的数据；

对采集到的数据进行数据补齐和数据扩充。

3.根据权利要求2所述的出砂风险预测方法，其特征在于：所述目标区域内各口井的数据包括自变量和因变量；

所述自变量包括以下八类数据：

第三类数据为储层特征，包括：温度、最小水平应力方向；

所述因变量为单井在某一时间节点上的出砂情况。

4.根据权利要求3所述的出砂风险预测方法，其特征在于：所述第二步中建立结构化数据库的操作包括：

将每一口井的自变量和因变量作为一个样本；

5.根据权利要求4所述的出砂风险预测方法，其特征在于：所述第三步中的多种预测模型包括：

6.根据权利要求5所述的出砂风险预测方法，其特征在于：所述第四步的操作包括：

7.根据权利要求6所述的出砂风险预测方法，其特征在于：所述第五步的操作包括：

8.一种出砂风险预测系统，其特征在于：所述系统包括：

数据采集处理单元，用于收集和清洗目标区域的数据；

9.根据权利要求8所述的出砂风险预测系统，其特征在于：所述数据库建立单元建立的数据库为二维表结构的数据库。

10.根据权利要求8所述的出砂风险预测系统，其特征在于：所述预测模型建立单元建立的预测模型包括：贝叶斯分类模型、随机森林模型、支持向量机模型和人工神经网模型。