CN115994608A - 基于双向门控循环单元的压裂井产量预测方法及装置 - Google Patents

基于双向门控循环单元的压裂井产量预测方法及装置 Download PDF

Info

Publication number
CN115994608A
CN115994608A CN202211296914.8A CN202211296914A CN115994608A CN 115994608 A CN115994608 A CN 115994608A CN 202211296914 A CN202211296914 A CN 202211296914A CN 115994608 A CN115994608 A CN 115994608A
Authority
CN
China
Prior art keywords
data
time sequence
layer
training
gating
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202211296914.8A
Other languages
English (en)
Inventor
马新仿
李雪晨
张士诚
肖聪
王飞
肖凤朝
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
China University of Petroleum Beijing
Original Assignee
China University of Petroleum Beijing
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by China University of Petroleum Beijing filed Critical China University of Petroleum Beijing
Priority to CN202211296914.8A priority Critical patent/CN115994608A/zh
Publication of CN115994608A publication Critical patent/CN115994608A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02PCLIMATE CHANGE MITIGATION TECHNOLOGIES IN THE PRODUCTION OR PROCESSING OF GOODS
    • Y02P90/00Enabling technologies with a potential contribution to greenhouse gas [GHG] emissions mitigation
    • Y02P90/30Computing systems specially adapted for manufacturing

Landscapes

  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本申请提供一种基于双向门控循环单元的压裂井产量预测方法及装置,属于油气开发技术领域,该方法包括:获取压裂井的历史生产数据;将历史生产数据进行数据清洗和数据预处理;基于所述训练数据集对预建立的双向门控循环单元时序预测模型进行训练,得到目标双向门控循环单元时序预测模型;将验证数据集输入目标双向门控循环单元时序预测模型;将初始超参数代入超参数优化算法,得到优化超参数;确定最终双向门控循环单元时序预测模型;将测试数据集输入双向门控循环单元时序预测模型,得到最终产量预测结果。本申请解决了现有技术中对压裂井时序产量预测精准度低的问题,具有预测精准度更高的优点。

Description

基于双向门控循环单元的压裂井产量预测方法及装置
技术领域
本发明实施例涉及油气开发技术领域,尤其涉及一种基于双向门控循环单元的压裂井产量预测方法及装置。
背景技术
目前,水力压裂是实现致密油气藏经济有效开发的关键技术,压裂后油气井的产量预测对油田经济评估、压裂施工设计和生产制度优化等至关重要。
现有技术中,常用的压裂井产量预测方法为基于统计的时序预测方法,基于统计的时序预测方法为利用过去一段时间的压裂井产量数据来预测未来一段时间内的压裂井产量数据。
然而,发明人发现现有技术至少存在以下技术问题:由于压裂井产量收到地质、施工和生产制度等多种因素的影响,基于统计的时序预测方法难以得到这些因素的非线性关系,从而使得用于预测压裂井产量的模型只能给出产量变化的大致趋势,预测精准度较低。
发明内容
本申请实施例提供一种基于双向门控循环单元的压裂井产量预测方法及装置,利用机器学习的非线性映射能力,从压裂井的历史生产数据中的获取时序产能变化的非线性特征,再将注意力机制加入压裂井产量预测模型训练过程中,使训练得到的产量预测模型的预测精准度更高。
第一方面,本发明提供一种基于双向门控循环单元的压裂井产量预测方法,包括:
获取压裂井的历史生产数据;
将所述历史生产数据进行数据清洗和数据预处理,得到模型输入数据,并将所述模型输入数据划分成训练数据集、验证数据集和测试数据集;
基于所述训练数据集对预建立的双向门控循环单元时序预测模型进行训练,得到目标双向门控循环单元时序预测模型,其中所述双向门控循环单元时序预测模型为在输入层与输出层之间增加双向门控循环单元层和注意力层的时序预测模型;
将所述验证数据集输入所述目标双向门控循环单元时序预测模型,得到与所述验证数据集对应的第一产量预测结果;
若判定所述第一产量预测结果不满足预设验证条件,则获取所述目标双向门控循环单元时序预测模型中的初始超参数,并将所述初始超参数代入超参数优化算法,得到优化超参数;
根据所述优化超参数,确定最终双向门控循环单元时序预测模型;
将所述测试数据集输入所述双向门控循环单元时序预测模型,得到最终产量预测结果。
在一种可能的实现方式中,所述将所述历史生产数据进行数据清洗和数据预处理,得到模型输入数据,包括:
删除所述历史生产数据中不满足预设筛选条件的数据,并将删除过不满足预设筛选条件的数据存为待处理数据;
将所述待处理数据进行归一化处理,得到归一化的待处理数据;
将所述归一化的待处理数据代入滑动窗口算法,得到模型输入数据。
在一种可能的实现方式中,所述在输入层与输出层之间增加双向门控循环单元层和注意力层,包括:
获取输入层输出的T时刻的时序训练向量和T-1时刻的隐藏状态数据,其中所述T时刻的时序训练向量和T-1时刻的隐藏状态数据为所述训练数据集输入所述输入层后得到的,T为大于0的自然数;
将所述T时刻的时序训练向量和T-1时刻的隐藏状态数据输入所述双向门控制循环单元层,得到更新门控信号数据和重置门控信号数据,并根据所述重置门控信号数据和所述T时刻的训练数据,确定候选隐藏状态数据;
根据所述更新门控信号数据和所述候选隐藏状态数据,确定T时刻隐藏状态数据,所述T时刻隐藏状态包括前向门控循环单元隐藏状态数据和后向门控循环单元隐藏状态数据;
将所述前向门控循环单元隐藏状态数据和所述后向门控循环单元隐藏状态数据组合后生成注意力层输入数据;
将所述注意力层输入数据输入所述注意力层,得到T时刻注意力评分数据和注意力层输出数据,并根据所述注意力评分数据,确定T时刻注意力概率分配值;
将所述注意力层输出数据和所述T时刻注意力概率分配值λT输入所述预建立的双向门控循环单元时序预测模型中的输出层,所述T时刻注意力概率分配值输入所述输出层后得到所述训练数据集输入所述输入层时的权重值。
在一种可能的实现方式中,所述重置门控信号数据的计算公式为:
rT=σ(wr·[hT-1,XT]+br)
式中,rT为重置门控信号数据,σ为神经网络sigmoid(S形)激活函数,wr为重置门权重向量,hT-1为T-1时刻的隐藏状态数据,XT为T时刻的时序训练向量XT,br为重置门偏置向量,其中wr和br为神经网络迭代过程中自动获取的向量;
所述更新门控信号数据的计算公式为:
zT=σ(wz·[hT-1,XT]+bz)
式中,zT为更新门控信号数据,wz为更新门权重向量,bz为更新门偏置向量,其中wz和bz为神经网络迭代过程中自动获取的向量;
所述候选隐藏状态数据的计算公式为:
Figure BDA0003903091310000031
式中,
Figure BDA0003903091310000032
为候选隐藏状态数据,tanh为双曲正切激活函数,wh为隐藏状态权重向量,bh为隐藏状态偏置向量,其中wh和bh为神经网络迭代过程中自动获取的向量;
所述T时刻隐藏状态数据的计算公式为:
Figure BDA0003903091310000033
式中,hT为T时刻隐藏状态数据,⊙为两个同型矩阵之间的元素乘积;
所述注意力层输入数据为:
Figure BDA0003903091310000034
式中,BT为注意力层输入数据,M为前向门控循环单元层和后向门控循环单元层的组合方式,
Figure BDA0003903091310000035
前向门控循环单元隐藏状态数据,
Figure BDA0003903091310000036
为后向门控循环单元隐藏状态数据;
所述注意力评分数据的计算公式为:
sT=watanh(waUT+ba)
式中,sT为注意力评分数据,wa为注意力机制权重向量,UT为T时刻双向门控循环单元的输出结果,ba为注意力机制偏置向量;
所述T时刻注意力概率分配值的计算公式为:
Figure BDA0003903091310000041
式中,所述λT为T时刻注意力概率分配值,exp为以自然常数e为底的指数函数。
在一种可能的实现方式中,所述训练数据集、验证数据集和测试数据集的划分比例为6∶2∶2。
在一种可能的实现方式中,所述超参数优化算法为贝叶斯优化算法。
在一种可能的实现方式中,所述基于所述训练数据集对预建立的双向门控循环单元时序预测模型进行训练,采用的训练算法为Adam梯度优化算法。
第二方面,本申请提供了一种预测装置,包括:
获取模块,用于获取压裂井的历史生产数据;
数据处理模块,用于将所述历史生产数据进行数据清洗和数据预处理,得到模型输入数据,并将所述模型输入数据划分成训练数据集、验证数据集和测试数据集;
模型训练模块,基于所述训练数据集对预建立的双向门控循环单元时序预测模型进行训练,得到目标双向门控循环单元时序预测模型,其中所述双向门控循环单元时序预测模型为在输入层与输出层之间增加双向门控循环单元层和注意力层的时序预测模型;
所述模型训练模块,还用于将所述验证数据集输入所述目标双向门控循环单元时序预测模型,得到与所述验证数据集对应的第一产量预测结果;
运算模块,用于判断所述第一产量预测结果是否满足预设验证条件,若判定所述第一产量预测结果不满足预设验证条件,则获取所述目标双向门控循环单元时序预测模型中的初始超参数,并将所述初始超参数代入超参数优化算法,得到优化超参数;
所述运算模块,还用于根据所述优化超参数,确定最终双向门控循环单元时序预测模型;
所述模型训练模块,还用于将所述测试数据集输入所述双向门控循环单元时序预测模型,得到最终产量预测结果。
第三方面,本申请提供了一种服务器,包括:至少一个处理器和存储器;
所述存储器存储计算机执行指令;
所述至少一个处理器执行所述存储器存储的计算机执行指令,使得所述至少一个处理器执行如上述第一方面描述的方法。
第四方面,本申请提供了一种计算机可读存储介质,所述计算机可读存储介质中存储有计算机一项所执行指令,当处理器执行所述计算机执行指令时,实现如上述第一方面描述的方法。
本申请提供了一种基于双向门控循环单元的压裂井产量预测方法及装置,本申请通过先将压裂井的历史生产数据预处理,并将历史生产数据划分为训练数据集、验证数据集和测试数据集,先基于训练数据集对预建立的双向门控循环单元时序预测模型进行训练得到目标双向门控循环单元时序预测模型,再用验证数据集和超参数优化算法对目标双向门控循环单元时序预测模型的超参数进行优化,得到最终双向门控循环单元时序预测模型,最后使用测试数据集进行测试得到最终产量预测结果。模型中增加的双向门控循环单元层在模型训练过程中从前后两个方向提取数据,注意力层对预测产量的数据赋予更大的权重,使训练得到的最终双向门控循环单元时序预测模型更适应长序列的预测,增强了抗干扰和数据提取能力,进而提高了预测精度。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1为本申请实施例提供的基于双向门控循环单元的压裂井产量预测方法的应用场景示意图;
图2为本申请实施例提供的基于双向门控循环单元的压裂井产量预测方法的流程示意图;
图3为本申请实施例中压裂井的历史生产数据示意图;
图4为本申请实施例中滑动窗口算法转换示意图;
图5为本实施例中神经网络中添加双向门控循环单元层的示意图;
图6为本申请实施例提供的增加注意力层的示意图;
图7为本申请实施例提供的一种预测装置的结构示意图;
图8为本申请实施例提供的一种服务器的硬件结构示意图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
目前,水力压裂是实现致密油气藏经济有效开发的关键技术,压裂后油气井的产量预测对油田经济评估、压裂施工设计和生产制度优化等至关重要。因此,压裂井的产量预测逐渐被重视起来。现有技术中,常用的压裂井时序产量预测方法为基于统计的时序预测方法,如:AR(Auto Regression,自回归)预测法、MA(Moving Average,移动平均)预测法、ARMA(AutoRegression Moving Average,自回归移动平均线)预测法或ARIMA(AutoRegression Integrated Moving Average,自回归综合移动平均线)预测法。发明人发现,在使用上述方法或预测模型进行压裂井产能预测时,由于压裂井产量受到地质、施工和生产制度等多种因素的影响,基于统计的时序预测方法难以获取各因素之间的非线性关系。使得上述预测方法仅能预测出压裂井产量变化的大致趋势,而导致预测精准性差的问题。
为解决上述技术问题,发明人提成如下解决问题的构思:先获取要预测的压裂井的原始生产数据,然后对原始生产数据进行预处理,得到输入模型的数据,通过机器学习将输入模型的数据输入初始神经网络模型进行训练,训练过程中融合了注意力机制,采用注意力机制改进了双向门控循环单元,通过给双向门控循环单元提取的关键信息赋予更大的权重,再对目标模型进行验证和优化,得到最终预测模型,并使用最终预测模型实现油井时序产能的精确预测,提高预测准确性。
图1为本申请实施例提供的基于双向门控循环单元的压裂井产量预测方法的应用场景示意图,如图1所示,包括:终端101和服务器102。
其中,终端101,用于供工作人员输入和查看压裂井的历史生产数据。服务器102,用于获取历史生产数据,并对历史生产数据进行数据处理和预处理,以及进行模型训练和压裂井产量预测。
图2为本申请实施例提供的基于双向门控循环单元的压裂井产量预测方法的流程示意图,本实施例的执行主体可以是图1所示实施例中的服务器102,也可以是其他的计算机的相关设备,对此,本实施例不作特别限制。
如图2所示,本实施例提供的基于双向门控循环单元的压裂井产量预测方法,包括:
S201:获取压裂井的历史生产数据。
图3为本申请实施例中压裂井的历史生产数据示意图。如图3所示,本实施例中,压裂井的历史生成数据可以包括压裂井的历史日产油量、关井时间和油嘴大小等与生产制度变化相关的数据。
S202:将历史生产数据进行数据清洗和数据预处理,得到模型输入数据,并将模型输入数据划分成训练数据集、验证数据集和测试数据集。
本实施例中,模型输入数据为神经网络输入参数,该模型输入数据可以是向量形式的数据。
具体的,在本申请一可选的实施例中,将历史生产数据进行数据清洗和数据预处理,得到模型输入数据,包括:
S202a:删除历史生产数据中不满足预设筛选条件的数据,并将删除过不满足预设筛选条件的数据存为待处理数据。
本实施例中,预设筛选条件可以包括数据是否缺失、格式和内容是否错误。相应的,待处理数据中则不包含数据缺失、格式和内容错误的历史生产数据。
S202b:将待处理数据进行归一化处理,得到归一化的待处理数据。
本实施例中,归一化处理为了数据处理方便提出来的,把数据映射到0~1范围之内处理。其中,归一化处理采用的公式为:
Figure BDA0003903091310000071
式中,x为输入的压裂井的历史生产数据,
Figure BDA0003903091310000072
为输入的压裂井的历史生产数据x的归一化结果值,xmin为输入数据中的最小值,xmax为输入数据中的最大值。
示例性的,以输入数据中的日产油量为例,输入数据为(15、30、45、60、75、30、30)立方米每天中的60时,60对应的归一化结果值为
Figure BDA0003903091310000081
依次类推,得到的归一化的结果值为(0、0.25、0.5、0.75、1、0.25、0.25、0.25)。
S202c:将归一化的待处理数据代入滑动窗口算法,得到模型输入数据。
本实施例中,滑动窗口算法为在给定特定窗口大小的数组或字符串上执行要求的操作。本实施例中,输入的归一化的待处理数据可以是三维向量,该三维向量可以是(样本数量、特征数量、窗口大小),输出的数据为二维向量,该二维向量可以是(样本数量,预设特征),其中,样本数量为数据的序列总长度减去滑动窗口大小的值,预设特征数量指的为一个特定的特征,例如,本申请实施例中预设特征可以是日产油量。
参照图4,图4为本申请实施例中滑动窗口算法转换示意图。如图4所示,该滑动窗口算法的具体转换示例如下:
假设滑动窗口大小为n=3,从第1天到第3天的日产油量、油嘴大小和关井时间的数据为第一个样本的输入,第3+1天的日产油量为第一个样本的输出,滑动窗口移动一天,从第2天到第3+1天的日产油量、油嘴大小和关井时间数据为第二个样本的输入,第3+2天的日产油量为第二个样本的输出,同样的,不断的滑动窗口直至遍历所有的生产数据。
S203:基于训练数据集对预建立的双向门控循环单元时序预测模型进行训练,得到目标双向门控循环单元时序预测模型,其中双向门控循环单元时序预测模型为在输入层与输出层之间增加双向门控循环单元层和注意力层的时序预测模型。
参考图5,图5为本实施例中神经网络中添加双向门控循环单元层的示意图,如图5所示,输入层和输出层均为神经网络中的层结构,其中,输出层中可以包含全连接层,用于连接神经网络中各节点。本实施例中,输入层与输出层之间增加了双向门控循环单元层和注意力层。
具体的,在本申请一可选的实施例中,在输入层与输出层之间增加双向门控循环单元层和注意力层,包括:
步骤a:获取输入层输出的T时刻的时序训练向量和T-1时刻的隐藏状态数据,其中T时刻的时序训练向量和T-1时刻的隐藏状态数据为训练数据集输入输入层后得到的,T为大于0的自然数。
步骤b:将T时刻的时序训练向量和T-1时刻的隐藏状态数据输入双向门控制循环单元层,得到更新门控信号数据和重置门控信号数据,并根据重置门控信号数据和T时刻的训练数据,确定候选隐藏状态数据。
步骤c:根据更新门控信号数据和候选隐藏状态数据,确定T时刻隐藏状态数据,T时刻隐藏状态包括前向门控循环单元隐藏状态数据和后向门控循环单元隐藏状态数据。
步骤d:将前向门控循环单元隐藏状态数据和后向门控循环单元隐藏状态数据组合后生成注意力层输入数据。
步骤e:将注意力层输入数据输入注意力层,得到T时刻注意力评分数据和注意力层输出数据,并根据注意力评分数据,确定T时刻注意力概率分配值。
步骤f:将注意力层输出数据和T时刻注意力概率分配值λT输入预建立的双向门控循环单元时序预测模型中的输出层,T时刻注意力概率分配值输入输出层后得到训练数据集输入输入层时的权重值。
图6为本申请实施例提供的增加注意力层的示意图。请参考图5和图6,在本申请一可选的实施例中,S203中的在输入层与输出层之间增加双向门控循环单元层和注意力层,所使用的计算公式如下,重置门控信号数据的计算公式为:
rT=σ(wr·[hT-1,XT]+br)
式中,rT为重置门控信号数据,σ为神经网络sigmoid(S形)激活函数,wr为重置门权重向量,hT-1为T-1时刻的隐藏状态数据,XT为T时刻的时序训练向量XT,br为重置门偏置向量,其中wr和br为神经网络迭代过程中自动获取的向量。
更新门控信号数据的计算公式为:
zT=σ(wz·[hT-1,XT]+bz)
式中,zT为更新门控信号数据,wz为更新门权重向量,bz为更新门偏置向量,其中wz和bz为神经网络迭代过程中自动获取的向量。
候选隐藏状态数据的计算公式为:
Figure BDA0003903091310000101
式中,
Figure BDA0003903091310000102
为候选隐藏状态数据,tanh为双曲正切激活函数,wh为隐藏状态权重向量,bh为隐藏状态偏置向量,其中wh和bh为神经网络迭代过程中自动获取的向量。
T时刻隐藏状态数据hT的计算公式为:
Figure BDA0003903091310000103
式中,hT为T时刻隐藏状态数据,⊙为两个同型矩阵之间的元素乘积。
注意力层输入数据为:
Figure BDA0003903091310000104
式中,BT为注意力层输入数据,M为前向门控循环单元层和后向门控循环单元层的组合方式,
Figure BDA0003903091310000105
前向门控循环单元隐藏状态数据,
Figure BDA0003903091310000106
为后向门控循环单元隐藏状态数据。
注意力评分数据sT的计算公式为:
sT=watanh(waUT+ba)
式中,sT为注意力评分数据,wa为注意力机制权重向量,UT为T时刻双向门控循环单元的输出结果,ba为注意力机制偏置向量。
T时刻注意力概率分配值λT的计算公式为:
Figure BDA0003903091310000107
式中,λT为T时刻注意力概率分配值,exp为以自然常数e为底的指数函数。
本实施例中,T时刻注意力概率分配值λT可以作为T+1时刻输入到输入层中数据的权重的参考依据,例如,对应T+1时刻,模型输入数据中XT1为日产油量相关的数据的占比增加,即对预测日产油量的数据如日产油量、油嘴大小、关井时间等相关性大的数据被输入神经网络模型,参与训练。
S204:将验证数据集输入目标双向门控循环单元时序预测模型,得到与验证数据集对应的第一产量预测结果。
本实施例中,第一产量预测结果可以是预测的压裂井的日产油量。
S205:若判定第一产量预测结果不满足预设验证条件,则获取目标双向门控循环单元时序预测模型中的初始超参数,并将初始超参数代入超参数优化算法,得到优化超参数。
本实施例中,预设验证条件可以是模型性能评价目标,模型性能评价时采用的参数为实际生产油量和第一产量预测结果,例如,将第一产量预测结果和实际生产油量均依次代入均方根误差和平均均对误差等数个计算公式中,得到数个数值。
本实施例中,超参数算法为在验证目标双向门控循环单元时序预测模型的过程中选出最优超参数的算法。本实施例中,超参数为目标双向门控循环单元时序预测模型中的基本数据,例如,超参数可以包括双向门控循环单元层的神经元数量20,输出层中全连接层的神经元数量为32,学习率为0.003。
具体的,在本申请一可选的实施例中,超参数优化算法为贝叶斯优化算法。
示例性的,表1为本实施例模型性能评价指标表,如表1所示,用验证机验证现有技术中的压裂井产量预测模型和本实施例中目标双向门控循环单元时序预测模型时得到的性能评价指标数据。
Figure BDA0003903091310000111
如表所示,按照本实施例提供的基于双向门控循环单元的压裂井产量预测方法进行压裂井的产量预测得到的均方根误差和平均绝对误差更低。
S206:根据优化超参数,确定最终双向门控循环单元时序预测模型。
S207:将测试数据集输入双向门控循环单元时序预测模型,得到最终产量预测结果。
综上,本实施例提供的基于双向门控循环单元的压裂井产量预测方法,通过先将压裂井的历史生产数据预处理,并将历史生产数据划分为训练数据集、验证数据集和测试数据集,先基于训练数据集对预建立的双向门控循环单元时序预测模型进行训练得到目标双向门控循环单元时序预测模型,再用验证数据集和超参数优化算法对目标双向门控循环单元时序预测模型的超参数进行优化,得到最终双向门控循环单元时序预测模型,最后使用测试数据集进行测试得到最终产量预测结果。模型中增加的双向门控循环单元层在模型训练过程中从前后两个方向提取数据,注意力层对预测产量的数据赋予更大的权重,使训练得到的最终双向门控循环单元时序预测模型更适应长序列的预测,增强了抗干扰和数据提取能力,进而提高了预测精度。
同时,通过对历史生产数据进行了数据清洗和数据预处理,避免数据缺失、格式和内容错误的数据影响模型训练的速度,还能通过对待处理数据进行归一化处理得到归一化的待处理数据,再将归一化的待处理数据代入滑动窗口算法中,得到模型输入数据,进而达到降低模型训练循环复杂度。
在本申请一可选的实施例中,S202中的训练数据集、验证数据集和测试数据集的划分比例为6:2:2。
本实施例中,划分比例为机器学习中预先设定的比例,压裂井的历史数据量一般是两年,而对于预测日产油量的有用数据,如开关时间、油嘴大小和日产油量等数据,按照时序排列也可使用该划分比例。
在本申请一可选的实施例中,S203中基于训练数据集对预建立的双向门控循环单元时序预测模型进行训练,采用的训练算法为Adam梯度优化算法。
本实施例中,Adam梯度优化算法为是随机梯度下降算法的扩展式。
综上,本申请实施例提供的基于双向门控循环单元的压裂井产量预测方法,通过采用Adam梯度优化算法对预建立的双向门控循环单元时序预测模型进行训练,计算更高效,能对复杂的模型进行优化,使预测结果更精准。
以上为本申请提供的基于双向门控循环单元的压裂井产量预测方法实施例部分的具体内容。
图7为本申请实施例提供的一种预测装置的结构示意图。如图7所示,该预测装置包括:获取模块71、数据处理模块72、模型训练模块73和运算模块74。
其中,获取模块71,用于获取压裂井的历史生产数据。
数据处理模块72,用于将历史生产数据进行数据清洗和数据预处理,得到模型输入数据,并将模型输入数据划分成训练数据集、验证数据集和测试数据集。
模型训练模块73,基于训练数据集对预建立的双向门控循环单元时序预测模型进行训练,得到目标双向门控循环单元时序预测模型,其中双向门控循环单元时序预测模型为在输入层与输出层之间增加双向门控循环单元层和注意力层的时序预测模型。
模型训练模块73,还用于将验证数据集输入目标双向门控循环单元时序预测模型,得到与验证数据集对应的第一产量预测结果。
运算模块74,用于判断第一产量预测结果是否满足预设验证条件,若判定第一产量预测结果不满足预设验证条件,则获取目标双向门控循环单元时序预测模型中的初始超参数,并将初始超参数代入超参数优化算法,得到优化超参数。
运算模块74,还用于根据优化超参数,确定最终双向门控循环单元时序预测模型。
模型训练模块73,还用于将测试数据集输入双向门控循环单元时序预测模型,得到最终产量预测结果。
在本申请一可选的实施例中,数据处理模块72,具体用于删除历史生产数据中不满足预设筛选条件的数据,并将删除过不满足预设筛选条件的数据存为待处理数据。数据处理模块72还具体用于将待处理数据进行归一化处理,得到归一化的待处理数据。数据处理模块72还具体用于将归一化的待处理数据代入滑动窗口算法,得到模型输入数据。
在本申请一可选的实施例中,模型训练模块73具体用于获取输入层输出的T时刻的时序训练向量和T-1时刻的隐藏状态数据,其中T时刻的时序训练向量和T-1时刻的隐藏状态数据为训练数据集输入输入层后得到的,T为大于0的自然数。模型训练模块73还具体用于将T时刻的时序训练向量和T-1时刻的隐藏状态数据输入双向门控制循环单元层,得到更新门控信号数据和重置门控信号数据,并根据重置门控信号数据和T时刻的训练数据,确定候选隐藏状态数据。模型训练模块73还具体用于根据更新门控信号数据和候选隐藏状态数据,确定T时刻隐藏状态数据,T时刻隐藏状态包括前向门控循环单元隐藏状态数据和后向门控循环单元隐藏状态数据。模型训练模块73还具体用于将前向门控循环单元隐藏状态数据和后向门控循环单元隐藏状态数据组合后生成注意力层输入数据。
模型训练模块73还具体用于将注意力层输入数据输入注意力层,得到T时刻注意力评分数据和注意力层输出数据,并根据注意力评分数据,确定T时刻注意力概率分配值。模型训练模块73还具体用于将注意力层输出数据和T时刻注意力概率分配值λT输入预建立的双向门控循环单元时序预测模型中的输出层,T时刻注意力概率分配值输入输出层后得到训练数据集输入输入层时的权重值。
在本申请一可选的实施例中,模型训练模块73使用的计算公式有重置门控信号数据的计算公式:
rT=σ(wr·[hT-1,XT]+br)
式中,rT为重置门控信号数据,σ为神经网络sigmoid(S形)激活函数,wr为重置门权重向量,hT-1为T-1时刻的隐藏状态数据,XT为T时刻的时序训练向量XT,br为重置门偏置向量,其中wr和br为神经网络迭代过程中自动获取的向量。
更新门控信号数据的计算公式:
zT=σ(wz·[hT-1,XT]+bz)
式中,zT为更新门控信号数据,wz为更新门权重向量,bz为更新门偏置向量,其中wz和bz为神经网络迭代过程中自动获取的向量。
候选隐藏状态数据的计算公式为:
Figure BDA0003903091310000141
式中,
Figure BDA0003903091310000142
为候选隐藏状态数据,tanh为双曲正切激活函数,wh为隐藏状态权重向量,bh为隐藏状态偏置向量,其中wh和bh为神经网络迭代过程中自动获取的向量。
T时刻隐藏状态数据的计算公式:
Figure BDA0003903091310000143
式中,hT为T时刻隐藏状态数据,⊙为两个同型矩阵之间的元素乘积。
注意力层输入数据:
Figure BDA0003903091310000144
式中,BT为注意力层输入数据,M为前向门控循环单元层和后向门控循环单元层的组合方式,
Figure BDA0003903091310000151
前向门控循环单元隐藏状态数据,
Figure BDA0003903091310000152
为后向门控循环单元隐藏状态数据。
注意力评分数据的计算公式:
sT=watanh(waUT+ba)
式中,sT为注意力评分数据,wa为注意力机制权重向量,UT为T时刻双向门控循环单元的输出结果,ba为注意力机制偏置向量。
T时刻注意力概率分配值的计算公式:
Figure BDA0003903091310000153
式中,λT为T时刻注意力概率分配值,exp为以自然常数e为底的指数函数。
在申请一可选的实施例中,数据处理模块72用于将模型输入数据划分成训练数据集、验证数据集和测试数据集时,使用的训练数据集、验证数据集和测试数据集的划分比例为6:2:2。
在本申请一可选的实施例中,运算模块74,所使用的超参数优化算法为贝叶斯优化算法。
在本申请一可选的实施例中,模型训练模块73基于训练数据集对预建立的双向门控循环单元时序预测模型进行训练时,采用的训练算法为Adam梯度优化算法。
本实施例提供的一种预测装置,可用于执行上述方法实施例的技术方案,其实现原理和技术效果类似,本实施例此处不再赘述。
图8为本申请实施例提供的一种服务器的硬件结构示意图,如图8所示,该服务器包括:至少一个处理器81和存储器82。
其中,存储器82,用于存储计算机执行指令。具体可以参见前述方法实施例中的相关描述。
可选地,存储器82既可以是独立的,也可以跟处理器81集成在一起。
存储器82独立设置时,该服务器还包括总线83,用于连接存储器82和处理器81。
本申请实施例还提供了一种计算机可读存储介质,该计算机可读存储介质中存储有计算机一项所执行指令,当处理器执行计算机执行指令时,实现如上述方法实施例中提供的基于双向门控循环单元的压裂井产量预测方法。
本发明实施例还提供一种计算机程序产品,包括计算机程序,计算机程序被处理器执行时,实现如上述方法实施例中提供的基于双向门控循环单元的压裂井产量预测方法。
在本发明所提供的几个实施例中,应该理解到,所揭露的装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,上述模块的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个模块可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或模块的间接耦合或通信连接,可以是电性,机械或其它的形式。
上述作为分离部件说明的模块可以是或者也可以不是物理上分开的,作为模块显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案。
另外,在本发明各个实施例中的各功能模块可以集成在一个处理单元中,也可以是各个模块单独物理存在,也可以两个或两个以上模块集成在一个单元中。上述模块成的单元既可以采用硬件的形式实现,也可以采用硬件加软件功能单元的形式实现。
上述以软件功能模块的形式实现的集成的模块,可以存储在一个计算机可读取存储介质中。上述软件功能模块存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)或处理器执行本申请各个实施例的方法的部分步骤。
应理解,上述处理器可以是中央处理单元(Central Processing Unit,简称CPU),还可以是其他通用处理器、数字信号处理器(Digital Signal Processor,简称DSP)、专用集成电路(Application Specific Integrated Circuit,简称ASIC)等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。结合发明所公开的方法的步骤可以直接体现为硬件处理器执行完成,或者用处理器中的硬件及软件模块组合执行完成。
存储器可能包含高速RAM存储器,也可能还包括非易失性存储NVM,例如至少一个磁盘存储器,还可以为U盘、移动硬盘、只读存储器、磁盘或光盘等。
总线可以是工业标准体系结构(Industry Standard Architecture,简称ISA)总线、外部设备互连(Peripheral Component Interconnect,简称PCI)总线或扩展工业标准体系结构(Extended Industry Standard Architecture,简称EISA)总线等。总线可以分为地址总线、数据总线、控制总线等。为便于表示,本申请附图中的总线并不限定仅有一根总线或一种类型的总线。
上述存储介质可以是由任何类型的易失性或非易失性存储设备或者它们的组合实现,如静态随机存取存储器(SRAM),电可擦除可编程只读存储器(EEPROM),可擦除可编程只读存储器(EPROM),可编程只读存储器(PROM),只读存储器(ROM),磁存储器,快闪存储器,磁盘或光盘。存储介质可以是通用或专用计算机能够存取的任何可用介质。
一种示例性的存储介质耦合至处理器,从而使处理器能够从该存储介质读取信息,且可向该存储介质写入信息。当然,存储介质也可以是处理器的组成部分。处理器和存储介质可以位于专用集成电路(Application Specific Integrated Circuits,简称ASIC)中。当然,处理器和存储介质也可以作为分立组件存在于电子设备或主控设备中。
本领域普通技术人员可以理解:实现上述各方法实施例的全部或部分步骤可以通过程序指令相关的硬件来完成。前述的程序可以存储于一计算机可读取存储介质中。该程序在执行时,执行包括上述各方法实施例的步骤;而前述的存储介质包括:ROM、RAM、磁碟或者光盘等各种可以存储程序代码的介质。
以说明本申请的技术方案,而非对其限制;尽管参照前述各实施例对本申请进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分或者全部技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本申请各实施例技术方案的范围。

Claims (10)

1.一种基于双向门控循环单元的压裂井产量预测方法,其特征在于,包括:
获取压裂井的历史生产数据;
将所述历史生产数据进行数据清洗和数据预处理,得到模型输入数据,并将所述模型输入数据划分成训练数据集、验证数据集和测试数据集;
基于所述训练数据集对预建立的双向门控循环单元时序预测模型进行训练,得到目标双向门控循环单元时序预测模型,其中所述双向门控循环单元时序预测模型为在输入层与输出层之间增加双向门控循环单元层和注意力层的时序预测模型;
将所述验证数据集输入所述目标双向门控循环单元时序预测模型,得到与所述验证数据集对应的第一产量预测结果;
若判定所述第一产量预测结果不满足预设验证条件,则获取所述目标双向门控循环单元时序预测模型中的初始超参数,并将所述初始超参数代入超参数优化算法,得到优化超参数;
根据所述优化超参数,确定最终双向门控循环单元时序预测模型;
将所述测试数据集输入所述双向门控循环单元时序预测模型,得到最终产量预测结果。
2.根据权利要求1所述的方法,其特征在于,所述将所述历史生产数据进行数据清洗和数据预处理,得到模型输入数据,包括:
删除所述历史生产数据中不满足预设筛选条件的数据,并将删除过不满足预设筛选条件的数据存为待处理数据;
将所述待处理数据进行归一化处理,得到归一化的待处理数据;
将所述归一化的待处理数据代入滑动窗口算法,得到模型输入数据。
3.根据权利要求1所述的方法,其特征在于,所述在输入层与输出层之间增加双向门控循环单元层和注意力层,包括:
获取输入层输出的T时刻的时序训练向量和T-1时刻的隐藏状态数据,其中所述T时刻的时序训练向量和T-1时刻的隐藏状态数据为所述训练数据集输入所述输入层后得到的,T为大于0的自然数;
将所述T时刻的时序训练向量和T-1时刻的隐藏状态数据输入所述双向门控制循环单元层,得到更新门控信号数据和重置门控信号数据,并根据所述重置门控信号数据和所述T时刻的训练数据,确定候选隐藏状态数据;
根据所述更新门控信号数据和所述候选隐藏状态数据,确定T时刻隐藏状态数据,所述T时刻隐藏状态包括前向门控循环单元隐藏状态数据和后向门控循环单元隐藏状态数据;
将所述前向门控循环单元隐藏状态数据和所述后向门控循环单元隐藏状态数据组合后生成注意力层输入数据;
将所述注意力层输入数据输入所述注意力层,得到T时刻注意力评分数据和注意力层输出数据,并根据所述注意力评分数据,确定T时刻注意力概率分配值;
将所述注意力层输出数据和所述T时刻注意力概率分配值λT输入所述预建立的双向门控循环单元时序预测模型中的输出层,所述T时刻注意力概率分配值输入所述输出层后得到所述训练数据集输入所述输入层时的权重值。
4.根据权利要求3所述的方法,其特征在于,所述重置门控信号数据的计算公式为:
rT=σ(wr·[hT-1,XT]+br)
式中,rT为重置门控信号数据,σ为神经网络sigmoid(S形)激活函数,wr为重置门权重向量,hT-1为T-1时刻的隐藏状态数据,XT为T时刻的时序训练向量XT,br为重置门偏置向量,其中wr和br为神经网络迭代过程中自动获取的向量;
所述更新门控信号数据的计算公式为:
zT=σ(wz·[hT-1,XT]+bz)
式中,zT为更新门控信号数据,wz为更新门权重向量,bz为更新门偏置向量,其中wz和bz为神经网络迭代过程中自动获取的向量;
所述候选隐藏状态数据的计算公式为:
Figure FDA0003903091300000021
式中,
Figure FDA0003903091300000022
为候选隐藏状态数据,tanh为双曲正切激活函数,wh为隐藏状态权重向量,bh为隐藏状态偏置向量,其中wh和bh为神经网络迭代过程中自动获取的向量;
所述T时刻隐藏状态数据的计算公式为:
Figure FDA0003903091300000031
式中,hT为T时刻隐藏状态数据,⊙为两个同型矩阵之间的元素乘积;
所述注意力层输入数据为:
Figure FDA0003903091300000032
式中,BT为注意力层输入数据,M为前向门控循环单元层和后向门控循环单元层的组合方式,
Figure FDA0003903091300000033
前向门控循环单元隐藏状态数据,
Figure FDA0003903091300000034
为后向门控循环单元隐藏状态数据;
所述注意力评分数据的计算公式为:
sT=watanh(waUT+ba)
式中,sT为注意力评分数据,wa为注意力机制权重向量,UT为T时刻双向门控循环单元的输出结果,ba为注意力机制偏置向量;
所述T时刻注意力概率分配值的计算公式为:
Figure FDA0003903091300000035
式中,所述λT为T时刻注意力概率分配值,exp为以自然常数e为底的指数函数。
5.根据权利要求1所述的方法,其特征在于,所述训练数据集、验证数据集和测试数据集的划分比例为6:2:2。
6.根据权利要求1所述的方法,其特征在于,所述超参数优化算法为贝叶斯优化算法。
7.根据权利要求1至6任一项所述的方法,其特征在于,所述基于所述训练数据集对预建立的双向门控循环单元时序预测模型进行训练,采用的训练算法为Adam梯度优化算法。
8.一种预测装置,其特征在于,包括:
获取模块,用于获取压裂井的历史生产数据;
数据处理模块,用于将所述历史生产数据进行数据清洗和数据预处理,得到模型输入数据,并将所述模型输入数据划分成训练数据集、验证数据集和测试数据集;
模型训练模块,基于所述训练数据集对预建立的双向门控循环单元时序预测模型进行训练,得到目标双向门控循环单元时序预测模型,其中所述双向门控循环单元时序预测模型为在输入层与输出层之间增加双向门控循环单元层和注意力层的时序预测模型;
所述模型训练模块,还用于将所述验证数据集输入所述目标双向门控循环单元时序预测模型,得到与所述验证数据集对应的第一产量预测结果;
运算模块,用于判断所述第一产量预测结果是否满足预设验证条件,若判定所述第一产量预测结果不满足预设验证条件,则获取所述目标双向门控循环单元时序预测模型中的初始超参数,并将所述初始超参数代入超参数优化算法,得到优化超参数;
所述运算模块,还用于根据所述优化超参数,确定最终双向门控循环单元时序预测模型;
所述模型训练模块,还用于将所述测试数据集输入所述双向门控循环单元时序预测模型,得到最终产量预测结果。
9.一种服务器,其特征在于,包括:至少一个处理器和存储器;
所述存储器存储计算机执行指令;
所述至少一个处理器执行所述存储器存储的计算机执行指令,使得所述至少一个处理器执行如权利要求1至7任一项所述的方法。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质中存储有计算机一项所执行指令,当处理器执行所述计算机执行指令时,实现如权利要求1至任一项所述的方法。
CN202211296914.8A 2022-10-21 2022-10-21 基于双向门控循环单元的压裂井产量预测方法及装置 Pending CN115994608A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202211296914.8A CN115994608A (zh) 2022-10-21 2022-10-21 基于双向门控循环单元的压裂井产量预测方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202211296914.8A CN115994608A (zh) 2022-10-21 2022-10-21 基于双向门控循环单元的压裂井产量预测方法及装置

Publications (1)

Publication Number Publication Date
CN115994608A true CN115994608A (zh) 2023-04-21

Family

ID=85993201

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202211296914.8A Pending CN115994608A (zh) 2022-10-21 2022-10-21 基于双向门控循环单元的压裂井产量预测方法及装置

Country Status (1)

Country Link
CN (1) CN115994608A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116383722A (zh) * 2023-06-05 2023-07-04 青岛理工大学 一种基于门控循环单元神经网络的压裂措施过程监控方法
CN117390593A (zh) * 2023-12-12 2024-01-12 国家卫星海洋应用中心 一种基于辐射计数据的海表参量确定方法以及设备

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116383722A (zh) * 2023-06-05 2023-07-04 青岛理工大学 一种基于门控循环单元神经网络的压裂措施过程监控方法
CN117390593A (zh) * 2023-12-12 2024-01-12 国家卫星海洋应用中心 一种基于辐射计数据的海表参量确定方法以及设备
CN117390593B (zh) * 2023-12-12 2024-03-22 国家卫星海洋应用中心 一种基于辐射计数据的海表参量确定方法以及设备

Similar Documents

Publication Publication Date Title
CN115994608A (zh) 基于双向门控循环单元的压裂井产量预测方法及装置
CN112989708B (zh) 一种基于lstm神经网络的测井岩性识别方法及系统
CN112733997B (zh) 基于woa-lstm-mc的水文时间序列预测优化方法
CN114492211B (zh) 一种基于自回归网络模型的剩余油分布预测方法
CN111598444A (zh) 基于卷积神经网络的测井岩性识别方法及系统
CN112347245A (zh) 面向投融资领域机构的观点挖掘方法、装置和电子设备
Gogri et al. Machine learning-guided stimulus generation for functional verification
Chen et al. Modeling repayment behavior of consumer loan in portfolio across business cycle: a triplet Markov model approach
CN113920379B (zh) 一种基于知识辅助的零样本图像分类方法
CN114897264A (zh) 一种基于迁移学习的小样本场景下光伏出力区间预测方法
CN116303786B (zh) 一种基于多维数据融合算法的区块链金融大数据管理系统
CN114566048B (zh) 一种基于多视角自适应时空图网络的交通控制方法
CN116364203A (zh) 一种基于深度学习的水质预测方法、系统和装置
CN116228400A (zh) 基于属性重构与注意力机制的信用卡用户行为预测方法
CN115270959A (zh) 基于递归特征消除融合随机森林的页岩岩性识别法及装置
Hou et al. A multi-target prediction model for dam seepage field
CN116777452B (zh) 智能电表的预付费系统及其方法
CN113743670B (zh) 一种基于gru模型的电路故障实时预测方法及验证电路
CN116757098B (zh) 一种基于swat模型多目标优化的自动化校验方法
Li et al. Hydrological Time Series Prediction Model Based on Deep Belief Network
CN117272108A (zh) 用户类型确定方法、装置、计算机设备和存储介质
CN113408780B (zh) 汽车未来保值率预测方法、系统、设备及可读存储介质
CN109858695B (zh) 基于模糊逻辑预测统计人口总数的方法
CN117745093A (zh) 一种基于SSA-CG-Attention模型的多因素采煤工作面涌水量预测方法
CN116977079A (zh) 一种基于强化图卷积网络和时空循环门的比特币反洗钱方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination