CN117349798B - 一种基于非均衡回归的机械钻速预测方法及系统 - Google Patents
一种基于非均衡回归的机械钻速预测方法及系统 Download PDFInfo
- Publication number
- CN117349798B CN117349798B CN202311648850.8A CN202311648850A CN117349798B CN 117349798 B CN117349798 B CN 117349798B CN 202311648850 A CN202311648850 A CN 202311648850A CN 117349798 B CN117349798 B CN 117349798B
- Authority
- CN
- China
- Prior art keywords
- value
- mechanical drilling
- logging
- data
- regression
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000005553 drilling Methods 0.000 title claims abstract description 103
- 238000000034 method Methods 0.000 title claims abstract description 63
- 238000004422 calculation algorithm Methods 0.000 claims abstract description 31
- 238000012549 training Methods 0.000 claims abstract description 28
- 238000012937 correction Methods 0.000 claims abstract description 24
- 238000009499 grossing Methods 0.000 claims abstract description 24
- 230000009466 transformation Effects 0.000 claims abstract description 19
- 238000007781 pre-processing Methods 0.000 claims abstract description 13
- 238000010220 Pearson correlation analysis Methods 0.000 claims abstract description 6
- 230000006870 function Effects 0.000 claims description 35
- 230000035515 penetration Effects 0.000 claims description 22
- 239000013598 vector Substances 0.000 claims description 18
- 239000011159 matrix material Substances 0.000 claims description 17
- 238000010276 construction Methods 0.000 claims description 6
- 230000000694 effects Effects 0.000 claims description 6
- 238000012360 testing method Methods 0.000 claims description 6
- 238000010606 normalization Methods 0.000 claims description 5
- 238000004364 calculation method Methods 0.000 claims description 4
- 238000012545 processing Methods 0.000 claims description 4
- 238000005259 measurement Methods 0.000 claims description 3
- 238000005457 optimization Methods 0.000 claims description 3
- 230000002087 whitening effect Effects 0.000 claims description 3
- 238000004043 dyeing Methods 0.000 claims description 2
- 230000008569 process Effects 0.000 description 9
- 238000004590 computer program Methods 0.000 description 7
- ORILYTVJVMAKLC-UHFFFAOYSA-N Adamantane Natural products C1C(C2)CC3CC1CC2C3 ORILYTVJVMAKLC-UHFFFAOYSA-N 0.000 description 4
- 238000013528 artificial neural network Methods 0.000 description 3
- 230000009286 beneficial effect Effects 0.000 description 2
- 238000013527 convolutional neural network Methods 0.000 description 2
- 238000011161 development Methods 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 238000003062 neural network model Methods 0.000 description 2
- 239000003208 petroleum Substances 0.000 description 2
- 238000011160 research Methods 0.000 description 2
- 238000009825 accumulation Methods 0.000 description 1
- 230000003044 adaptive effect Effects 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 239000006185 dispersion Substances 0.000 description 1
- 238000011156 evaluation Methods 0.000 description 1
- 238000001914 filtration Methods 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 239000011435 rock Substances 0.000 description 1
- 238000000638 solvent extraction Methods 0.000 description 1
- 230000017105 transposition Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/27—Regression, e.g. linear or logistic regression
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/084—Backpropagation, e.g. using gradient descent
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02P—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN THE PRODUCTION OR PROCESSING OF GOODS
- Y02P90/00—Enabling technologies with a potential contribution to greenhouse gas [GHG] emissions mitigation
- Y02P90/30—Computing systems specially adapted for manufacturing
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Evolutionary Computation (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Software Systems (AREA)
- Mathematical Physics (AREA)
- Health & Medical Sciences (AREA)
- Biomedical Technology (AREA)
- Computing Systems (AREA)
- Molecular Biology (AREA)
- General Health & Medical Sciences (AREA)
- Evolutionary Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本发明公开了一种基于非均衡回归的机械钻速预测方法及系统,该方法包括如下步骤:S1:对获取的录井数据进行预处理,规范每个数据参数值;S2:通过皮尔逊相关性分析确定特征并进行小波变换合成录井参数序列数据图像;S3:划分数据集,并构建机械钻速预测网络模型;S4:采用特征分布平滑算法对机械钻速预测网络模型提取到的录井数据特征表示进行矫正;S5:采用回归边界矫正算法调整机械钻速预测网络模型的预测值;S6:对机械钻速预测网络模型进行训练,使用训练完成的模型对录井数据集进行预测,得到目标机械钻速值。本发明可为钻井操作提供更准确的参考,提高机械钻速的预测精度。
Description
技术领域
本发明涉及石油勘探开发技术领域,尤其涉及一种基于非均衡回归的机械钻速预测方法及系统。
背景技术
机械钻速反映钻头破坏岩石的速度,它直接影响着钻井的效率、成本以及钻井过程的安全性。传统的经验法则机械钻速预测模型存在误差大、适应性差的问题,无法满足对机械钻速预测精度的要求。随着计算机技术和算法理论的发展,各类智能算法被引入到机械钻速预测研究中,以期望利用算法自适应学习能力提高预测效果。基于神经网络的方法由于其强大的非线性拟合能力,已经在机械钻速预测任务中显示出比传统计学模型更高的预测精度。特别是基于卷积神经网络的方法,可以从原始的录井资料中自动提取预测抽象特征,并建立映射到钻速输出的模型,避免了人工特征工程中试错过程的麻烦。
然而,现有的深度神经网络模型主要是针对样本数量均衡的标准机械钻速数据集进行设计和验证的,它们往往假设不同钻速值样本遵循相同的分布,这与实际录井资料的分布情况不相符合。实际获得的录井资料由于地层变化多样、井段复杂等原因,不同机械钻速值对应的样本数量存在明显的不平衡现象。这会导致训练过程中,模型对相同钻速值数量大的类别拟合效果好,而对钻速值量少的类别拟合效果差,从而无法准确预测全范围的机械钻速。
发明内容
本发明的目的是提供一种基于非均衡回归的机械钻速预测方法及系统,以解决如何提高机械钻速预测精度的技术问题。
本发明是采用以下技术方案实现的:一种基于非均衡回归的机械钻速预测方法,包括如下步骤:
S1:对获取的录井数据进行预处理,规范每个数据参数值;
S2:通过皮尔逊相关性分析确定特征并进行小波变换合成录井参数序列数据图像;
S3:划分数据集,并构建机械钻速预测网络模型;
S4:采用特征分布平滑算法对机械钻速预测网络模型提取到的录井数据特征表示进行矫正;
S5:采用回归边界矫正算法调整机械钻速预测网络模型的预测值;
S6:对机械钻速预测网络模型进行训练,使用训练完成的模型对录井数据集进行预测,得到目标机械钻速值。
进一步的,步骤S1包括如下子步骤:
S11:删除重复录井样本数据,并采用线性插值法对数据进行补全,线性插值法公式为:
;
其中x为需要填充值的位置,y为计算所填充的值,与/>为缺失值邻近的已知录井参数值,且/>;
S12:针对非数值录井参数变量采用独热编码One-Hot转化为离散的数值向量;
S13:对录井参数数据进行归一标准化处理,消除回归设置中不同尺度的影响,标准化的公式为:
;
其中为标准化后得值,x为原始值,/>为数据集中最小值,是数据集中的最大值。
进一步的,步骤S2包括如下子步骤:
S21:通过皮尔逊相关系数选择特征,皮尔逊系数r用来衡量两个特征的相关程度,具体计算公式可表示为:
;
其中为均值,为方差,/>表示特征向量X, Y的协方差,其结果范围为[-1,1],当两个结果为正数时代表两个特征正相关,若为负数则代表两特征负相关,相关系数r的绝对值越大,则表明两个特征相关度越高;
S22:使用小波变换将录井参数数据构建为多层图像形式的输入,将机械钻速问题转换为有监督的图像回归任务;
S23:将不同录井参数序列段生成的小波信号数据合并成为一个三通道的二维矩阵数据集。
进一步的,步骤S3包括如下子步骤:
S31:计算每个机械钻速值在训练集和测试集中的样本数量,并设置划分阈值,根据阈值将样本数量划分为高、中、低三个子集;
S32:构建机械钻速预测网络模型,并设置回归损失函数度量模型预测值与真实机械钻速标签之间的差异,并通过最小化目标损失函数来优化模型;
S33:使用训练集中的数据样本和对应的机械钻速标签进行模型训练,并采用自适应优化算法最小化损失以调整模型的参数;
S34:使用测试集中的录井参数数据对模型的性能进行评估,得到初始预测模型函数。
进一步的,步骤S4包括如下子步骤:
S41:采用特征分布平滑算法先将连续的机械钻速标签值空间Y划分为B个目标值区间;
S42:对第b个目标钻速值区间,估计其特征统计量;
S43:使用高斯核对录井参数特征统计进行平滑,得到平滑后的特征统计量;
S44:对第i个样本进行特征矫正:
;
其中,z是原始录井参数特征;是当前目标值区间的原始特征均值;/>平滑后的特征均值通过高斯核对各目标值区间的原始均值/>进行平滑而得到;/>代表原始协方差均值/>矩阵的逆平方根,进行白化;/>表示用平滑后的协方差均值/>矩阵的平方根,进行重染色;
S45:将校准后的录井参数特征传入回归模型进行训练和预测。
进一步的,步骤S5包括如下子步骤:
S51:对步骤S41中每个目标钻速值区间初始化权重为1,其中第b个目标值区间的权重为,初始化偏置为1,其中第b个目标值区间为/>,其中录井样本数量多的为头样本,数量少的为尾样本;
S52:设计回归边界矫正算法函数:
;
其中,是第i个样本的预测值,/>是样本所在目标值区间的权重,/>是样本所在目标值区间的偏置,/>是样本在线性层的原始权重;
S53:重新计算定标后模型的损失函数,反向传播,不断迭代更新权重参数和偏置参数。
进一步的,步骤S6包括如下子步骤:
S61:使用录井数据样本进行训练优化后的机械钻速预测网络模型;
S62:使用训练完成的模型对录井数据集进行机械钻速预测,得到机械钻速预测值;
S63:采用均方误差、平均绝对误差和决定系数指标针对所有样本数据集以及低量样本数据集、中量样本数据集和高量样本数据集三个子集分别对机械钻速值预测效果进行评估。
一种基于非均衡回归的机械钻速预测系统,用以实现上述所述的一种基于非均衡回归的机械钻速预测方法,包括数据预处理模块、小波变换模块、模型构建模块、矫正模块和训练模块,其中,
数据预处理模块,用以对获取的录井数据进行预处理,规范每个数据参数值;
小波变换模块,通过皮尔逊相关性分析确定特征并进行小波变换合成录井参数序列数据图像;
模型构建模块,用以划分数据集,构建机械钻速预测网络模型;
矫正模块,采用特征分布平滑算法对机械钻速预测网络模型提取到的录井数据特征表示进行矫正,并采用回归边界矫正算法调整机械钻速预测网络模型的预测值;
训练模块,用以对机械钻速预测网络模型进行训练,使用训练完成的模型对录井数据集进行预测,得到目标机械钻速值。
一种计算机程序产品,包括计算机程序,该计算机程序被处理器执行时,实现上述所述的一种基于非均衡回归的机械钻速预测方法。
一种计算机可读存储介质,所述存储介质存储有计算机程序,所述计算机程序被处理器执行时,实现上述所述的一种基于非均衡回归的机械钻速预测方法。
本发明的有益效果在于:本发明能够适应实际钻井工程中常见的数据分布不均衡,为钻井操作提供更准确的参考,提高机械钻速的预测精度。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图示出的结构获得其他的附图。
图1为本发明流程图;
图2为本发明机械钻速预测网络模型示意图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。通常在此处附图中描述和示出的本发明实施例的组件可以以各种不同的配置来布置和设计。
应注意到:相似的标号和字母在下面的附图中表示类似项,因此,一旦某一项在一个附图中被定义,则在随后的附图中不需要对其进行进一步定义和解释。
下面结合附图,对本发明的一些实施方式作详细说明。在不冲突的情况下,下述的实施例及实施例中的特征可以相互组合。
参见图1、图2,一种基于非均衡回归的机械钻速预测方法,包括以下步骤:
S1: 对不同油田录井信息的样本数据进行预处理;
S2: 录井参数特征选取并对特征数据进行小波转换;
S3: 划分低、中、高数据集,建立残差神经网络模型;
S4: 特征分布平滑(feature distribution smoothing, FDS)算法对模型提取到的录井数据特征表示进行矫正;
S5: 回归边界矫正(Regression Margin Calibration,RMC)算法调整机械钻速预测值;
S6: 进行实例训练和预测,采用均方误差(mean-square error, MSE)、平均绝对误差(Mean Absolute Error, MAE)和决定系数(R-Square, )指标对模型性能进行评价。
在本实施例当中,步骤S1包括以下子步骤:
S11:删除重复录井样本数据,并采用线性插值法对数据进行补全,线性插值法公式为:
;
其中x为需要填充值的位置,y为计算所填充的值。与/>为缺失值邻近的已知录井参数值,且/>。
S12: 针对非数值录井参数变量采用独热编码One-Hot转化为离散的数值向量:
S121: 确定每个录井参数分类变量,其中包括螺杆类型、岩层性质等特征变量;
S122: 确定每个录井参数分类变量所有的取值;
S123: 创建一个大小为N*M的全零矩阵,其中N是数据集中的样本数量,M是分类变量的不同取值数量;
S124: 对于每个录井样本数据,根据分类变量的取值,将对应列的某个位置设置为1,表示该样本属于那个取值,其余列保持为0;
S125: 将One-Hot编码后的矩阵与原始数据合并。One-Hot编码能够有效地将分类数据转换为数值数据,提高录井数据处理的效率和准确性。
S13: 对录井参数数据进行归一标准化处理,消除回归设置中不同尺度的影响,离差标准化的公式为:
;
其中为标准化后得值,x为原始值,/>为数据集中最小值,是数据集中的最大值。
在本实施例当中,步骤S2包括以下子步骤:
S21: 通过石油专家建议和皮尔逊相关系数选择特征。皮尔逊系数r可用来衡量两个特征的相关程度,可看作是两个特征向量夹角的余弦,定义为两个向量之间的协方差和标准差的商,具体计算公式可表示为:
;
其中为均值,/>为方差,/>表示特征向量X, Y的协方差,其结果范围为[-1,1],当两个结果为正数时代表两个特征正相关,反之,若为负数则代表两特征负相关。相关系数r的绝对值越大,则表明两个特征相关度越高,具体相关等级划分如下表:
表1相关等级划表
。
S22: 使用小波变换将录井参数数据构建为多层图像形式的输入,将机械钻速问题转换为有监督的图像回归任务。小波变换是一种针对时变信号(数据序列段)的局部频域滤波方法,本实施例采用二元离散小波变换:
S221: 定义小波函数和缩放函数/>:
S2211: 小波函数的具体表达式:
;
其中时控制小波函数的带宽,/>代表小波函数的中心频率,i表示虚数单位。该公式描述了一个带宽为/>,中心频率为/>的复指数衰减的高斯函数和正弦函数的乘积,可以用来描述一段信号(数据序列段)的局部特征。在实际应用中,带宽和中心频率根据数据的特征进行选择和调整。小波函数具有再时域和频域中的局部性,因为此分析信号(数据序列段)的瞬时特征和频域特征时非常有用。在钻井过程中,随着时间的推移,钻井深度也同步增加,所以选用该方法。
S2212: 缩放函数用于调整小波函数的尺度,通常采用特定的函数形式来定义。该方法中缩放函数采用高斯函数作为基础,其具体表达式:
;
S222: 构建录井参数序列在第i层的变换为:
;
其中是录井参数序列在第i层的小波变换,/>是原始录井参数序列,是在第i层的小波函数。
S223: 使用和/>分别表示录井参数序列在第i层的抽象和细节,通过小波变换,可以将录井参数序列分解为抽象/>和/>部分:
;
其中是录井参数序列在第i层的抽象部分,/>是录井参数序列在第i层的细节部分,/>是缩放函数,/>是小波函数。
S224: 原始录井参数序列可以通过逆小波变换重构为:
;
S23: 将不同录井参数序列段生成的小波信号数据合并成为一个三通道的二维矩阵数据集,以便后续用于机械钻速问题的有监督图像回归任务。
在本实施例当中,步骤S3包括以下子步骤:
S31: 计算每个机械钻速值在训练集和测试集中的样本数量;
S32: 设置具体得划分阈值,低数据集阈值为low_thr(默认为20),高数据集阈值为many_thr(默认为100),根据阈值将样本数量分别划分高、中、低三个子集。这样,可以将数据集中的类别划分为不同的子集,并计算每个子集的评估指标。这些指标可以用来分析模型在不同类别样本数量上的性能表现。
S33: 构建机械钻速预测网络模型,选择深度卷积神经网络模型ResNet-50做为底层模型,其中全连接层输出维度设置为1,以适应机械钻速回归预测任务。
S34: 设置回归损失函数度量模型预测值与真实机械钻速标签之间的差异,并通过最小化目标损失函数来优化模型:具体为:选择均方差MSE作为损失函数,计算的是机械钻速预测值与真实值之间距离的平方和,收敛速度快,能够对梯度给予合适的惩罚权重,使梯度更新的方向可以更加精确。其公式为:
;
其中n为录井数据样本数,为第i个样本的真实钻速值,/>为第i个录井数据样本在模型中的预测钻速值。
S35: 使用训练数据集包括数据样本和对应的机械钻速标签进行模型训练,并采用自适应优化算法(Adam)最小化损失以调整模型的参数,提高机械钻速预测性能。Adam结合了梯度的一阶矩估计并使用动量来更新权重。Adam算法的步骤如下:
S351: 初始化模型参数和梯度缓存变量/>和/>;
S3511: 模型参数通常是神经网络中的权重矩阵和偏置向量。本方法采用初始化为小的随机值,且服从正态分布的随机数,有助于打破对称性,使网络学习更快。
S3512: 在Adam算法中,需要初始化两个梯度缓存变量和/>,它们初始化为零向量。这是因为在第一次迭代之前,还没有任何梯度信息可用。初始化为零有助于开始时不引入任何偏差,然后通过指数加权移动平均逐渐积累梯度信息。
S352: 每次迭代都执行以下步骤:
S3521: 在训练集中抽取一个小批量样本,计算小批量样本的梯度信息:
;
其中是目标函数,/>是小批量样本的特征信息,/>是/>对应的标签,/>是指微积分中的哈密顿算子,表示对函数在各个正交方向上求导数以后再分别乘上各个方向上的单位向量。
S3522: 根据更新第一矩估计向量/>和第二矩估计向量/>,以保持关于过去梯度信息的加权平均,这有助于平稳更新过程:
;
其中是在t时的第一矩阵估计向量,/>是在t时的第二矩阵估计向量,/>和是衰减率通常取值分别为0.9和0.999,/>和分/>别时在t-1时第一、二矩阵估计向量,/>是在t时的梯度信息。这些更新公式用于在每个迭代步骤中逐渐积累和更新第一矩估计向量/>和第二矩估计向量/>,以便在模型训练过程中自适应地调整学习率。
S3523: 计算偏置矫正后的梯度信息:
;
其中和/>是偏置矫正后的估计向量,/>是学习率用于控制参数更新的步长,是平滑项,/>代表衰减率同上。
S3524: 使用偏置校正后的梯度信息来更新模型参数,使其朝着减小损失函数的方向更新。更新模型参数:
;
其中是更新后的模型参数,/>是更新前的模型参数。
S36: 使用测试集中的录井参数数据对模型的性能进行评估。同样使用均方差MSE作为损失函数来计算钻速预测效果性能指标,并根据需要调整超参数,以确保模型达到最佳性能,并得到初始预测模型函数。
在本实施例当中,步骤S4包括以下子步骤:
S41: 特征分布平滑(feature distribution smoothing, FDS)算法先将连续的机械钻速标签值空间Y划分为B个目标值区间,即:
;
S42: 对第b个目标钻速值区间,估计其特征统计量(均值和协变量矩阵):
S421: 计算特征均值:
;
其中是第b个目标钻速值区间中的样本数,/>是第i个样本的特征,/>是代表从1到的值累加。
S422: 特征协方差矩阵:
;
其中是所有样本录井参数特征均值,运算符T表示转置操作将矩阵的行与列互换。
S43: 使用高斯核对录井参数特征统计进行平滑,得到平滑后的特征统计量:
S431: 高斯核函数:
;
其中和/>分别表示两个目标值区间的目标值;/>计算的是两者在目标空空间中的欧氏距离;/>是高斯核的宽带参数,描述了核的形状,由用户预先设定。高斯核的作用是当两个目标值区间的目标值越相近时,它们之间的核值越大,也就贡献更多的权重进行特征统计量的平滑。
S432: 平滑后的录井参数特征均值:
;
其中和/>分别表示两个目标值区间的目标值,/>表示除了第b个目标值区间之外其他目标值区间(索引为b', b'≠b)中所有样本的特征均值,/>是对目标值进行核平滑的对称核函数;
S433: 平滑后的录井参数特征协方差矩阵:
;
其中表示除第b个目标值区间之外,其他目标值区间(索引为b', b'≠b)中所有样本的原始特征协方差矩阵。
平滑后的录井参数统计量能够反映紧邻目标的序关系。
S44: 对第i个样本进行特征矫正:
;
其中z是原始录井参数特征;是当前目标值区间的原始特征均值;/>平滑后的特征均值通过高斯核对各目标值区间的原始均值/>进行平滑而得到;/>代表原始协方差均值/>矩阵的逆平方根,进行白化;/>表示用平滑后的协方差均值/>矩阵的平方根,进行重染色。
S45: 将校准后的录井参数特征传入回归模型进行训练和预测。通过这一系列计算,可以减少数据不平衡对特征统计量估计的影响,获得平滑后的新录井参数特征表示,从而提升回归性能。
在本实施例当中,步骤S5包括以下子步骤:
S51: 对步骤S41中每个目标钻速值区间初始化权重为1,其中第b个目标值区间的权重为,初始化偏置为1,其中第b个目标值区间为/>。其中录井样本数量多的为头样本,数量少的为尾样本。
S52: 设计回归边界矫正(Regression Margin Calibration, RMC)算法函数:
;
其中是第i个样本的预测值,/>是样本所在目标值区间的权重,/>是样本所在目标值区间的偏置,/>是样本在线性层的原始权重。/>显示了每个录井样本的权重向量长度,反映了原模型对该机械钻速值的重视程度,bias可以看作是机械钻速值的基准值,/>根据特征值权重强度来缩放机械钻速预测值,根据bias的正负来移动预测结果。
S53: 重新计算定标后模型的损失函数,反向传播,不断迭代更新权重参数和偏置参数。
在本实施例当中,步骤S6包括以下子步骤:
S61: 使用录井数据样本进行训练优化后的网络模型。
S62: 使用训练完成的模型对录井数据集进行机械钻速预测,得到机械钻速预测值,并采用均方误差(mean-square error, MSE)、平均绝对误差(Mean Absolute Error,MAE)和决定系数(R-Square, )指标针对所有样本数据集以及少量样本数据集、中量样本数据集和多量样本数据集(子集具体划分方法见S32)三个子集分别对模机械钻速值预测效果进行评估。其中,
MSE为均方差,计算的是预测值与真实值之间距离的平方和,收敛速度快,能够对梯度给予合适的惩罚权重,使梯度更新的方向可以更加精确。MSE具体表示为:
;
MAE为平方绝对误差,计算预测值与真实值的差的绝对值,衡量预测值与真实值直接按距离的平均误差幅度。MAE具体表示为:
;
为决定系数,用于评估回归模型拟合优度的指标,它表示模型能够解释数据方差的比例,通常用于比较不同模型的表现。/>具体表示为:
;
其中n为录井数据样本数,为第i个录井数据的真实钻速值,/>为第i个录井数据样本在模型中的预测值,/>为/>的平均钻速值。/>越大,表示模型拟合效果越好,其他的指标越小表示方法误差越小,其中MSE为目标函数。
本发明还提供了一种基于非均衡回归的机械钻速预测系统,用以实现上述所述的一种基于非均衡回归的机械钻速预测方法,包括数据预处理模块、小波变换模块、模型构建模块、矫正模块和训练模块,其中,
数据预处理模块,用以对获取的录井数据进行预处理,规范每个数据参数值;
小波变换模块,通过皮尔逊相关性分析确定特征并进行小波变换合成录井参数序列数据图像;
模型构建模块,用以划分数据集,构建机械钻速预测网络模型;
矫正模块,采用特征分布平滑算法对机械钻速预测网络模型提取到的录井数据特征表示进行矫正,并采用回归边界矫正算法调整机械钻速预测网络模型的预测值;
训练模块,用以对机械钻速预测网络模型进行训练,使用训练完成的模型对录井数据集进行预测,得到目标机械钻速值。
本发明还提供了一种计算机程序产品,包括计算机程序,该计算机程序被处理器执行时,实现上述所述的一种基于非均衡回归的机械钻速预测方法。
本发明还提供了一种计算机可读存储介质,所述存储介质存储有计算机程序,所述计算机程序被处理器执行时,实现上述所述的一种基于非均衡回归的机械钻速预测方法。
本发明针对录井资料中样本分布不均衡的问题,提出一种融合小波变换、机器学习和特征与边界重矫正的机械钻速预测新方法。使用小波变换处理原始录井资料,采用残差卷积神经网络Resnet-50自动学习数据中的特征。考虑到不同钻速对应的样本数量差异显著,根据样本数量将数据划分为低、中、高等不同子数据集,以分别处理录井样本数据不平衡问题。在网络训练过程中,提出特征分布平滑(feature distribution smoothing,FDS)算法和回归边界矫正(Regression Margin Calibration, RMC)算法,以提高对样本量少机械钻速类别的拟合能力和预测精度。相比现有的深度学习预测模型,该技术可以更好地处理录井资料中的不平衡分布问题,有望提高机械钻速预测的准确性。总之,发展适用于实际录井资料的机械钻速智能预测模型,解决样本分布不均衡问题,是当前研究的重要方向和难点。而本发明的基于Resnet-50结合FDS和RMC算法的新方法,有望取得进一步的预测效果提升,为智能钻井提供支持。
对于前述的实施例,为了简单描述,故将其都表述为一系列的动作组合,但是本领域技术人员应该知悉,本申请并不受所描述的动作顺序的限制,因为依据本申请,某一些步骤可以采用其他顺序或者同时进行。其次,本领域技术人员也应该知悉,说明书中所描述的实施例属于优选实施例,所涉及的动作并不一定是本申请所必须的。
上述实施例中,描述了本发明的基本原理和主要特征和本发明的优点。本行业的技术人员应该了解,本发明不受上述实施例的限制,上述实施例和说明书中描述的只是说明本发明的原理,在不脱离本发明精神和范围的前提下,本领域人员所进行的改动和变化不脱离本发明的精神和范围,则都应在本发明所附权利要求的保护范围内。
Claims (6)
1.一种基于非均衡回归的机械钻速预测方法,其特征在于,包括如下步骤:
S1:对获取的录井数据进行预处理,规范每个数据参数值;
S2:通过皮尔逊相关性分析确定特征并进行小波变换合成录井参数序列数据图像;
S3:划分数据集,并构建机械钻速预测网络模型;
S4:采用特征分布平滑算法对机械钻速预测网络模型提取到的录井数据特征表示进行矫正;步骤S4包括如下子步骤:
S41:采用特征分布平滑算法先将连续的机械钻速标签值空间Y划分为B个目标值区间;
S42:对第b个目标钻速值区间,估计其特征统计量;
S43:使用高斯核对录井参数特征统计进行平滑,得到平滑后的特征统计量;
S44:对第i个样本进行特征矫正:
;
其中,z是原始录井参数特征;是当前目标值区间的原始特征均值;/>平滑后的特征均值通过高斯核对各目标值区间的原始均值/>进行平滑而得到;/>代表原始协方差均值/>矩阵的逆平方根,进行白化;/>表示用平滑后的协方差均值/>矩阵的平方根,进行重染色;
S45:将校准后的录井参数特征传入回归模型进行训练和预测;
S5:采用回归边界矫正算法调整机械钻速预测网络模型的预测值;步骤S5包括如下子步骤:
S51:对步骤S41中每个目标钻速值区间初始化权重为1,其中第b个目标值区间的权重为,初始化偏置为1,其中第b个目标值区间为/>,其中录井样本数量多的为头样本,数量少的为尾样本;
S52:设计回归边界矫正算法函数:
;
其中,是第i个样本的预测值,/>是样本所在目标值区间的权重,/>是样本所在目标值区间的偏置,/>是样本在线性层的原始权重;
S53:重新计算定标后模型的损失函数,反向传播,不断迭代更新权重参数和偏置参数;
S6:对机械钻速预测网络模型进行训练,使用训练完成的模型对录井数据集进行预测,得到目标机械钻速值。
2.如权利要求1所述的一种基于非均衡回归的机械钻速预测方法,其特征在于,步骤S1包括如下子步骤:
S11:删除重复录井样本数据,并采用线性插值法对数据进行补全,线性插值法公式为:
;
其中x为需要填充值的位置,y为计算所填充的值,与/>为缺失值邻近的已知录井参数值,且/>;
S12:针对非数值录井参数变量采用独热编码One-Hot转化为离散的数值向量;
S13:对录井参数数据进行归一标准化处理,消除回归设置中不同尺度的影响,标准化的公式为:
;
其中为标准化后得值,x为原始值,/>为数据集中最小值,/>是数据集中的最大值。
3.如权利要求1所述的一种基于非均衡回归的机械钻速预测方法,其特征在于,步骤S2包括如下子步骤:
S21:通过皮尔逊相关系数选择特征,皮尔逊系数r用来衡量两个特征的相关程度,具体计算公式可表示为:
;
其中为均值,为方差,/>表示特征向量X, Y的协方差,其结果范围为[-1,1],当两个结果为正数时代表两个特征正相关,若为负数则代表两特征负相关,相关系数r的绝对值越大,则表明两个特征相关度越高;
S22:使用小波变换将录井参数数据构建为多层图像形式的输入,将机械钻速问题转换为有监督的图像回归任务;
S23:将不同录井参数序列段生成的小波信号数据合并成为一个三通道的二维矩阵数据集。
4.如权利要求1所述的一种基于非均衡回归的机械钻速预测方法,其特征在于,步骤S3包括如下子步骤:
S31:计算每个机械钻速值在训练集和测试集中的样本数量,并设置划分阈值,根据阈值将样本数量划分为高、中、低三个子集;
S32:构建机械钻速预测网络模型,并设置回归损失函数度量模型预测值与真实机械钻速标签之间的差异,并通过最小化目标损失函数来优化模型;
S33:使用训练集中的数据样本和对应的机械钻速标签进行模型训练,并采用自适应优化算法最小化损失以调整模型的参数;
S34:使用测试集中的录井参数数据对模型的性能进行评估,得到初始预测模型函数。
5.如权利要求1所述的一种基于非均衡回归的机械钻速预测方法,其特征在于,步骤S6包括如下子步骤:
S61:使用录井数据样本进行训练优化后的机械钻速预测网络模型;
S62:使用训练完成的模型对录井数据集进行机械钻速预测,得到机械钻速预测值;
S63:采用均方误差、平均绝对误差和决定系数指标针对所有样本数据集以及低量样本数据集、中量样本数据集和高量样本数据集三个子集分别对机械钻速值预测效果进行评估。
6.一种基于非均衡回归的机械钻速预测系统,用以实现权利要求1~5任意一项所述的一种基于非均衡回归的机械钻速预测方法,其特征在于,包括数据预处理模块、小波变换模块、模型构建模块、矫正模块和训练模块,其中,
数据预处理模块,用以对获取的录井数据进行预处理,规范每个数据参数值;
小波变换模块,通过皮尔逊相关性分析确定特征并进行小波变换合成录井参数序列数据图像;
模型构建模块,用以划分数据集,构建机械钻速预测网络模型;
矫正模块,采用特征分布平滑算法对机械钻速预测网络模型提取到的录井数据特征表示进行矫正,并采用回归边界矫正算法调整机械钻速预测网络模型的预测值;
训练模块,用以对机械钻速预测网络模型进行训练,使用训练完成的模型对录井数据集进行预测,得到目标机械钻速值。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311648850.8A CN117349798B (zh) | 2023-12-05 | 2023-12-05 | 一种基于非均衡回归的机械钻速预测方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311648850.8A CN117349798B (zh) | 2023-12-05 | 2023-12-05 | 一种基于非均衡回归的机械钻速预测方法及系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN117349798A CN117349798A (zh) | 2024-01-05 |
CN117349798B true CN117349798B (zh) | 2024-02-23 |
Family
ID=89356077
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202311648850.8A Active CN117349798B (zh) | 2023-12-05 | 2023-12-05 | 一种基于非均衡回归的机械钻速预测方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN117349798B (zh) |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117386344B (zh) * | 2023-12-13 | 2024-02-23 | 西南石油大学 | 一种基于两阶段学习的钻井异常工况诊断方法及系统 |
CN117910392A (zh) * | 2024-03-19 | 2024-04-19 | 上海华模科技有限公司 | 气动模型的矫正方法及装置、飞行模拟机及存储介质 |
Citations (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112901137A (zh) * | 2021-03-08 | 2021-06-04 | 西南石油大学 | 基于深度神经网络Sequential模型的深井钻井机械钻速预测方法 |
CN113887806A (zh) * | 2021-05-09 | 2022-01-04 | 电子科技大学 | 长尾级联流行度预测模型、训练方法及预测方法 |
CN114358434A (zh) * | 2022-01-10 | 2022-04-15 | 西南石油大学 | 基于lstm循环神经网络模型的钻井机械钻速预测方法 |
CN114856540A (zh) * | 2022-05-11 | 2022-08-05 | 西南石油大学 | 一种基于在线学习的水平井机械钻速随钻预测方法 |
CN115329468A (zh) * | 2021-05-10 | 2022-11-11 | 中国石油天然气集团有限公司 | 基于bas算法改进bp神经网络的钻井机械钻速预测方法 |
CN115438834A (zh) * | 2022-07-29 | 2022-12-06 | 山东电力工程咨询院有限公司 | 同塔多回输电线路感应电压电流预测方法及系统 |
CN116169670A (zh) * | 2023-02-27 | 2023-05-26 | 国网河南省电力公司濮阳供电公司 | 一种基于改进神经网络的短期非居民负荷预测方法及系统 |
CN116384554A (zh) * | 2023-03-10 | 2023-07-04 | 西南石油大学 | 机械钻速预测方法、装置、电子设备及计算机存储介质 |
KR20230117767A (ko) * | 2022-02-03 | 2023-08-10 | 김남현 | 사용자 행동 데이터 및 멀티 모달 단말기를 기반으로 데이터를 수집, 저장, 제어, 학습 및 활용 방법 및 시스템 |
CN116822580A (zh) * | 2023-08-08 | 2023-09-29 | 西安石油大学 | 一种基于Transformer模型的机械钻速时序特征的预测方法、系统、设备及介质 |
CN116994077A (zh) * | 2023-09-18 | 2023-11-03 | 中国人民解放军海军航空大学 | 一种复杂风场作用下飞行姿态的回归预测方法 |
Family Cites Families (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20150242797A1 (en) * | 2014-02-27 | 2015-08-27 | University of Alaska Anchorage | Methods and systems for evaluating performance |
CN113689055B (zh) * | 2021-10-22 | 2022-01-18 | 西南石油大学 | 一种基于贝叶斯优化的油气钻井机械钻速预测与优化方法 |
-
2023
- 2023-12-05 CN CN202311648850.8A patent/CN117349798B/zh active Active
Patent Citations (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112901137A (zh) * | 2021-03-08 | 2021-06-04 | 西南石油大学 | 基于深度神经网络Sequential模型的深井钻井机械钻速预测方法 |
CN113887806A (zh) * | 2021-05-09 | 2022-01-04 | 电子科技大学 | 长尾级联流行度预测模型、训练方法及预测方法 |
CN115329468A (zh) * | 2021-05-10 | 2022-11-11 | 中国石油天然气集团有限公司 | 基于bas算法改进bp神经网络的钻井机械钻速预测方法 |
CN114358434A (zh) * | 2022-01-10 | 2022-04-15 | 西南石油大学 | 基于lstm循环神经网络模型的钻井机械钻速预测方法 |
KR20230117767A (ko) * | 2022-02-03 | 2023-08-10 | 김남현 | 사용자 행동 데이터 및 멀티 모달 단말기를 기반으로 데이터를 수집, 저장, 제어, 학습 및 활용 방법 및 시스템 |
CN114856540A (zh) * | 2022-05-11 | 2022-08-05 | 西南石油大学 | 一种基于在线学习的水平井机械钻速随钻预测方法 |
CN115438834A (zh) * | 2022-07-29 | 2022-12-06 | 山东电力工程咨询院有限公司 | 同塔多回输电线路感应电压电流预测方法及系统 |
CN116169670A (zh) * | 2023-02-27 | 2023-05-26 | 国网河南省电力公司濮阳供电公司 | 一种基于改进神经网络的短期非居民负荷预测方法及系统 |
CN116384554A (zh) * | 2023-03-10 | 2023-07-04 | 西南石油大学 | 机械钻速预测方法、装置、电子设备及计算机存储介质 |
CN116822580A (zh) * | 2023-08-08 | 2023-09-29 | 西安石油大学 | 一种基于Transformer模型的机械钻速时序特征的预测方法、系统、设备及介质 |
CN116994077A (zh) * | 2023-09-18 | 2023-11-03 | 中国人民解放军海军航空大学 | 一种复杂风场作用下飞行姿态的回归预测方法 |
Non-Patent Citations (6)
Title |
---|
Accurate Uncertainties for Deep Learning Using Calibrated Regression;Volodymyr Kuleshov等;《https://arxiv.org/abs/1807.00263》;1-9 * |
Delving into Deep Imbalanced Regression;Yuzhe Yang等;《https://arxiv.org/abs/2102.09554》;1-10 * |
Flaky cuttings bed distribution model in a shale gas horizontal well based on experiment and numerical simulation;Xiao D等;《Energy Exploration & Exploitation》;第41卷(第1期);104-135 * |
Score-based fixing guidance generation with accurate hot-spot detection method;Yong-Hee Park等;《Proceedings Volume 7275, Design for Manufacturability through Design-Process Integration III》;第7275卷;1-6 * |
基于多元回归分析的钻速预测方法研究;李昌盛;《科学技术与工程》;第13卷(第7期);1671-1815 * |
基于融合特征选择算法的钻速预测模型研;周长春等;《钻探工程》;第49卷(第4期);31-40 * |
Also Published As
Publication number | Publication date |
---|---|
CN117349798A (zh) | 2024-01-05 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN117349798B (zh) | 一种基于非均衡回归的机械钻速预测方法及系统 | |
Das et al. | Prediction of swelling pressure of soil using artificial intelligence techniques | |
CN108897042B (zh) | 有机质含量地震预测方法及装置 | |
Xu et al. | Learning viscoelasticity models from indirect data using deep neural networks | |
CN110083125B (zh) | 一种基于深度学习的机床热误差建模方法 | |
He et al. | Deep learning for efficient stochastic analysis with spatial variability | |
Dudul | Prediction of a Lorenz chaotic attractor using two-layer perceptron neural network | |
CN113705809B (zh) | 一种数据预测模型训练方法、工业指标预测方法和装置 | |
Ma et al. | Research on slope reliability analysis using multi-kernel relevance vector machine and advanced first-order second-moment method | |
CN112633328A (zh) | 一种基于深度学习的致密油藏改造效果评价方法 | |
Calvette et al. | Forecasting smart well production via deep learning and data driven optimization | |
Howard et al. | Multifidelity deep operator networks for data-driven and physics-informed problems | |
WO2020257263A1 (en) | Systems and methods for solving geosteering inverse problems in downhole environments using a deep neural network | |
Garcin et al. | Wavelet shrinkage of a noisy dynamical system with non-linear noise impact | |
Donnelly et al. | A physics-informed neural network surrogate model for tidal simulations | |
Bahrpeyma et al. | Fast fuzzy modeling method to estimate missing logsin hydrocarbon reservoirs | |
NO20200978A1 (en) | Optimized methodology for automatic history matching of a petroleum reservoir model with ensemble kalman filter | |
Springer et al. | Robust parameter estimation of chaotic systems | |
Bellamine et al. | Model order reduction using neural network principal component analysis and generalized dimensional analysis | |
Le Maître et al. | Equation‐free model reduction for complex dynamical systems | |
Gudmundsdottir et al. | Inferring interwell connectivity in fractured geothermal reservoirs using neural networks | |
CN116090352A (zh) | 一种基于门循环单元和注意力机制的全波形反演方法 | |
Oladokun et al. | Machine-learning informed prediction of linear solver tolerance for non-linear solution methods in numerical simulation | |
WO2022241137A1 (en) | Physics-informed attention-based neural network | |
Alpak et al. | A machine-learning-accelerated distributed LBFGS method for field development optimization: algorithm, validation, and applications |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |