CN116128158B - 混合采样注意力机制的油井效率预测方法 - Google Patents
混合采样注意力机制的油井效率预测方法 Download PDFInfo
- Publication number
- CN116128158B CN116128158B CN202310347556.7A CN202310347556A CN116128158B CN 116128158 B CN116128158 B CN 116128158B CN 202310347556 A CN202310347556 A CN 202310347556A CN 116128158 B CN116128158 B CN 116128158B
- Authority
- CN
- China
- Prior art keywords
- decoder
- prediction
- time sequence
- parameter data
- data
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 70
- 239000003129 oil well Substances 0.000 title claims abstract description 46
- 230000007246 mechanism Effects 0.000 title claims abstract description 38
- 238000005070 sampling Methods 0.000 title claims abstract description 29
- 238000012549 training Methods 0.000 claims abstract description 20
- 238000007781 pre-processing Methods 0.000 claims abstract description 13
- 230000006870 function Effects 0.000 claims description 19
- 239000013598 vector Substances 0.000 claims description 18
- 239000011159 matrix material Substances 0.000 claims description 17
- 239000000203 mixture Substances 0.000 claims description 12
- 238000004519 manufacturing process Methods 0.000 claims description 11
- 230000008569 process Effects 0.000 claims description 11
- 238000012545 processing Methods 0.000 claims description 11
- 238000004364 calculation method Methods 0.000 claims description 9
- 230000003247 decreasing effect Effects 0.000 claims description 7
- 238000004821 distillation Methods 0.000 claims description 6
- 230000004927 fusion Effects 0.000 claims description 6
- 230000009466 transformation Effects 0.000 claims description 6
- 239000012530 fluid Substances 0.000 claims description 5
- 239000007788 liquid Substances 0.000 claims description 5
- 238000013507 mapping Methods 0.000 claims description 5
- XLYOFNOQVPJJNP-UHFFFAOYSA-N water Substances O XLYOFNOQVPJJNP-UHFFFAOYSA-N 0.000 claims description 5
- 230000008859 change Effects 0.000 claims description 4
- 230000003993 interaction Effects 0.000 claims description 4
- 238000012216 screening Methods 0.000 claims description 4
- 230000002194 synthesizing effect Effects 0.000 claims description 3
- 238000012795 verification Methods 0.000 claims description 3
- 238000011161 development Methods 0.000 abstract description 7
- 238000005516 engineering process Methods 0.000 description 8
- 238000009825 accumulation Methods 0.000 description 6
- 230000007547 defect Effects 0.000 description 4
- 238000000605 extraction Methods 0.000 description 3
- 239000000243 solution Substances 0.000 description 3
- 238000012300 Sequence Analysis Methods 0.000 description 2
- 238000004891 communication Methods 0.000 description 2
- 230000008878 coupling Effects 0.000 description 2
- 238000010168 coupling process Methods 0.000 description 2
- 238000005859 coupling reaction Methods 0.000 description 2
- 238000007405 data analysis Methods 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 238000009826 distribution Methods 0.000 description 2
- 230000002068 genetic effect Effects 0.000 description 2
- 238000002347 injection Methods 0.000 description 2
- 239000007924 injection Substances 0.000 description 2
- YHXISWVBGDMDLQ-UHFFFAOYSA-N moclobemide Chemical compound C1=CC(Cl)=CC=C1C(=O)NCCN1CCOCC1 YHXISWVBGDMDLQ-UHFFFAOYSA-N 0.000 description 2
- 238000003062 neural network model Methods 0.000 description 2
- 239000003208 petroleum Substances 0.000 description 2
- 238000011176 pooling Methods 0.000 description 2
- 238000000611 regression analysis Methods 0.000 description 2
- 238000012706 support-vector machine Methods 0.000 description 2
- 230000002159 abnormal effect Effects 0.000 description 1
- 230000009471 action Effects 0.000 description 1
- 230000004913 activation Effects 0.000 description 1
- 230000002411 adverse Effects 0.000 description 1
- 238000004458 analytical method Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000008901 benefit Effects 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000011156 evaluation Methods 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 238000012544 monitoring process Methods 0.000 description 1
- 230000000737 periodic effect Effects 0.000 description 1
- 238000011084 recovery Methods 0.000 description 1
- 238000004904 shortening Methods 0.000 description 1
- 238000000844 transformation Methods 0.000 description 1
- 238000009827 uniform distribution Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q10/00—Administration; Management
- G06Q10/04—Forecasting or optimisation specially adapted for administrative or management purposes, e.g. linear programming or "cutting stock problem"
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/084—Backpropagation, e.g. using gradient descent
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Business, Economics & Management (AREA)
- Theoretical Computer Science (AREA)
- Economics (AREA)
- Human Resources & Organizations (AREA)
- Strategic Management (AREA)
- General Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- Biomedical Technology (AREA)
- Quality & Reliability (AREA)
- Tourism & Hospitality (AREA)
- Marketing (AREA)
- General Business, Economics & Management (AREA)
- Entrepreneurship & Innovation (AREA)
- Game Theory and Decision Science (AREA)
- Development Economics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- Operations Research (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- General Health & Medical Sciences (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- General Engineering & Computer Science (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
- Error Detection And Correction (AREA)
Abstract
本发明公开了混合采样注意力机制的油井效率预测方法,属于油气田智慧开发技术领域,解决了现有预测方法所考虑因素的完整性和准确性较差、鲁棒性较差,从而暴露偏差积累的问题,方法包括:获取时序参数数据,并进行预处理,执行预处理后综合预测模型;获取预处理后的时序参数数据,将时序参数数据传入二级解码模型中解码,得到真正的预测结果,计算损失值,并在进行反向传播更新权重时,使用第二解码器进行反向传播,由此得到最终训练好的综合预测模型;本发明通过将混合采样思想融入解码器当中,有效减少了训练和预测之间的过大差距,使其准确度更高,预测出的结果更可靠。
Description
技术领域
本发明属于油气田智慧开发技术领域,具体涉及混合采样注意力机制的油井效率预测方法。
背景技术
随着油气资源的开发和利用,传统的油田开发方式已无法满足当今石油行业的需求,这种仅仅依靠经验和规则进行决策的方式虽然有效但却忽略了数据背后的价值和规律,难以适应快速变化的市场和技术环境。由此油井开发逐渐向智能化方向发展。
油井效率是油井开发的关键参数之一,对油井开发的重要性不可低估,通过预测油井效率,可以了解油井的生产能力,进而优化采油过程中的操作和流程。例如,可以根据预测结果来调整注水量、注气量、井筒压力、采油时间等指标,以提高采油效率;同时,通过对油井效率的预测和监测可以帮助避免不必要的安全风险,提高油田的安全性。例如,油井效率的突然下降可能意味着油井内部出现了异常情况,需要采取紧急措施,从而降低可能发生的事故风险。预测油井效率可以帮助石油公司更好地规划采油计划和生产计划,从而在最短的时间内生产最多的石油,并且减少生产成本,从而提高石油公司的经济效益,增加公司的收入和利润。预测油井效率还可以帮助石油公司避免对环境造成不良影响,通过预测结果来避免过度开采和浪费资源,从而减少对环境的影响。总之,油井效率预测工作在提高生产效率、降低成本、保障安全、保护环境等方面都具有重要的意义。
油井效率预测技术一般是指利用数据分析和机器学习技术对油井进行性能分析和预测的一种方法。它可以帮助石油工程师和生产运营团队更好地利用数据分析技术来了解和优化油井的生产状况,从而提高产量和降低成本,使决策更加科学和准确。现阶段油井效率预测技术所用的主要方法有:回归分析模型、神经网络模型、支持向量机模型、遗传算法、模糊逻辑技术以及传统的ARIMA时序分析模型等,但是现有预测方法所考虑因素的完整性和准确性较差、鲁棒性较差,从而暴露偏差积累的问题;基于此,我们提出了混合采样注意力机制的油井效率预测方法。
发明内容
本发明的目的在于针对现有技术的不足之处,提供混合采样注意力机制的油井效率预测方法,解决了现有预测方法所考虑因素的完整性和准确性较差、鲁棒性较差,从而暴露偏差积累的问题。
本发明是这样实现的,混合采样注意力机制的油井效率预测方法,具体包括:
获取至少一组关联油井的时序参数数据,对所述时序参数数据进行预处理,其中,所述时序参数数据包括时序日期、动液面、产液量、含水率、油压、套压、沉没度、泵径、泵深、冲程、电压、电流、输入功率、油井效率参数数据;
加载预处理后的时序参数数据,将时序参数数据以8:2的比例划分为训练集和验证集,以时序参数数据中训练集为输入,执行预处理后综合预测模型,综合预测模型将有稀疏长尾现象的矩阵进行筛选后再进行缩放内积计算,而后将计算结果在蒸馏层进行下采样后再进入到下一层的计算;
获取预处理后的时序参数数据,将时序参数数据传入二级解码模型中解码,其中二级解码模型包括第一解码器以及第二解码器,第一解码器以真实值来预测每个解码位置所有时序参数数据的注意力分数,以供第二解码器融合编码;
第二解码器根据反sigmoid衰减函数的增减速率来确定每次预测的输入时序序列是使用真值还是使用第一解码器输出的分数,若使用分数则需要进行加权平均混合嵌入,再将输入时序序列输入解码器中进行预测,得到真正的预测结果。
优选地,所述混合采样注意力机制的油井效率预测方法,还包括:
获取真正的预测结果,计算损失值,并在进行反向传播更新权重时,使用第二解码器进行反向传播,直到损失值达到预设阈值,由此得到最终训练好的综合预测模型。
优选地,所述时序参数数据进行预处理包括缺失值处理以及统一编码处理。
优选地,在处理缺失值时,找到距离这条数据最近的k个数据点对应所缺失的特征的平均值来进行填补。
优选地,统一编码处理包括数据编码、位置编码以及时间戳编码三个部分;
其中,数据编码是通过对原始数据进行一维卷积得到,将输入维映射为模型需要的维度,位置编码使用sin和cos函数的线性变换来给各时序参数数据提供模型位置信息,时间戳编码为加上与时间关联的多组编码,最后将这三者编码结果相加,形成输入的统一编码结果。
优选地,所述第一解码器以真实值来预测每个解码位置所有时序参数数据的注意力分数的方法,具体包括:
获取经过整个时序参数数据集编码结果;
第一解码器进行标准自回归预测,在编码器和第一解码器交互过程中,编码器提供线性变化之后的矩阵,第一解码器计算得到注意力权重矩阵;
通过注意力权重与指定矩阵进行计算得到一个权重向量,同时在第一解码器中加入注意力掩码机制,让二级解码模型在训练过程中掩盖掉当前时刻之后所有位置上的信息,由此获得预测分数。
优选地,第一解码器为标准的自回归解码器。
优选地,第二解码器根据反sigmoid衰减函数的增减速率来确定每次预测的输入时序序列是使用真值还是使用第一解码器输出的分数时,为了弥合训练和预测之间的差距,选择反sigmoid衰减时间表来模拟预测任务,进而确定使用真值还是融合值,其曲线公式为:
其中,其中k>1,k控制其衰减的幅度,i为训练轮数;
如果使用到第一解码器的预测分数,那么就需要进行编码嵌入,混合嵌入采用加权平均混合采样嵌入方式,采用混合方法混合真实值和注意力分数,这里使用含有softmax的混合编码,公式如下:
是将在当前位置使用的向量,si-1为分数,y为真值,y′为预测值,/>通过所有时序参数数据的编码之和以及分数si-1的softmax加权获得;将加权分数后的混合值作为模型中解码器的输入,最终通过全连接层得到最后的预测输出结果。
优选地,在处理缺失值时,其中,所述基于欧氏距离的最短距离点被认为是最近邻点的理论,根据缺失值所在数据,计算与其他数据点的加权欧式距离:
其中,i为本次采集的每个数据标识,n为数据总数量,x和y分别为两条计算距离的向量,对缺失值所在数据与其他数据全部计算完成加权欧式距离后,取距离最近的k个数据点,取它们对应缺失特征的平均值作为填补值。
优选地,所述位置编码使用sin和cos函数的线性变换来给各时序参数数据提供模型位置信息,其编码公式为:
其中,pos指的是序列中每条时序参数数据的位置,i指的是时序向量的维度,dmodel为时序向量维度,分别用上面的sin和cos函数做处理。
与现有技术相比,本申请实施例主要有以下有益效果:
本发明在综合预测模型的编码阶段中使用稀疏自注意力机制和蒸馏机制,能够有效地对油井效率进行长时序的预测,并且无论是在速度方面还是内存占用方面都有不错的提升;同时,将混合采样思想融入解码器当中,有效减少了训练和预测之间的过大差距(暴露偏差的长时序累积问题),使其准确度更高,预测出的结果更可靠。
本发明模型中预测参数方法弥补了传统技术都依赖于预定义的参数的缺陷,可以做到灵活输入输出,更能适应油井领域数据的多变化环境,因而本方法具有较强的普适性。
本发明所采用的模型底层使用的是注意力机制,因而无需做特征工程以及在中途做额外的数据处理,相对更方便和高效。
附图说明
图1是本发明提供的混合采样注意力机制的油井效率预测方法的实现流程示意图。
图2示出了第一解码器以真实值来预测每个解码位置所有时序参数数据的注意力分数方法的实现流程示意图。
具体实施方式
除非另有定义,本文所使用的所有的技术和科学术语与属于本申请技术领域的技术人员通常理解的含义相同;本文中在申请的说明书中所使用的术语只是为了描述具体的实施例的目的,不是旨在于限制本申请;本申请的说明书和权利要求书及上述附图说明中的术语“包括”和“具有”以及它们的任何变形,意图在于覆盖不排他的包含。本申请的说明书和权利要求书或上述附图中的术语“第一”、“第二”等是用于区别不同对象,而不是用于描述特定顺序。
在本文中提及“实施例”意味着,结合实施例描述的特定特征、结构或特性可以包含在本申请的至少一个实施例中。在说明书中的各个位置出现该短语并不一定均是指相同的实施例,也不是与其它实施例互斥的独立的或备选的实施例。本领域技术人员显式地和隐式地理解的是,本文所描述的实施例可以与其它实施例相结合。
现阶段油井效率预测技术所用的主要方法有:回归分析模型、神经网络模型、支持向量机模型、遗传算法、模糊逻辑技术以及传统的ARIMA时序分析模型等,但是现有预测方法所考虑因素的完整性和准确性较差、鲁棒性较差,从而暴露偏差积累的问题;基于此,我们提出了混合采样注意力机制的油井效率预测方法,简而言之,所述方法包括获取关联油井的时序参数数据,并对数据进行预处理,然后以时序参数数据中训练集为输入,执行预处理后综合预测模型,将时序参数数据传入二级解码模型中解码,第一解码器以真实值来预测每个解码位置所有时序参数数据的注意力分数,以供第二解码器融合编码,第二解码器根据反sigmoid衰减函数的增减速率来确定每次预测的输入时序序列是使用真值还是使用第一解码器输出的分数。本发明混合采样思想融入二级解码模型当中,有效减少了训练和预测之间的过大差距(暴露偏差的长时序累积问题),使其准确度更高,预测出的结果更可靠,同时综合预测模型中预测参数方法弥补了传统技术都依赖于预定义的参数的缺陷,可以做到灵活输入输出,更能适应油井领域数据的多变化环境,因而本方法具有较强的普适性。
本发明实施例提供了混合采样注意力机制的油井效率预测方法,如图1所示,示出了所述混合采样注意力机制的油井效率预测方法的实现流程示意图,所述混合采样注意力机制的油井效率预测方法,具体包括:
步骤S10,获取至少一组关联油井的时序参数数据,对所述时序参数数据进行预处理,其中,所述时序参数数据包括时序日期、动液面、产液量、含水率、油压、套压、沉没度、泵径、泵深、冲程、电压、电流、输入功率、油井效率参数数据;
同时,本申请中所述时序参数数据的获取基于多组传感器获取,传感器可以为压力传感器、温度传感器、湿度传感器、热电传感器、数字传感器。
步骤S20,加载预处理后的时序参数数据,将时序参数数据以8:2的比例划分为训练集和验证集,以时序参数数据中训练集为输入,执行预处理后综合预测模型,综合预测模型将有稀疏长尾现象的矩阵进行筛选后再进行缩放内积计算,而后将计算结果在蒸馏层进行下采样后再进入到下一层的计算;
需要说明的是,本申请中所述综合预测模型包括二级解码模型以及一组编码器,编码器用于预处理后时序参数数据的编码处理。
将预处理好的时序参数数据传入,并进入编码(encoder)阶段,将输入数据经过线性映射和多头注意力机制分割之后获得若干个Q、K、V矩阵,为了减少时间复杂度和内存占有率,使用稀疏自注意力机制来筛选出更有价值的Q,先计算Q的注意力概率分布与均匀分布的相对熵,第i个Q的稀疏性的评价公式(4)为:
其中为计算出的注意力矩阵,d表示K的维度,LK表示K的个数,第一项是对于所有K的Log-Sum-Exp(LSE),第二项是它们的算数平均值。然后在K当中做随机采样(设采样m个),每个Q跟这些样本做点积计算,这样每个Q都有m个得分,选择出得分最高的若干Q,对于不好的Q就先用V的均值来替代,再使用缩放的点积注意力机制将选出的Q与所有K进行计算,使用注意力矩阵的权重给V进行加权,其计算公式(5)为:
其中,QKt表示注意力矩阵,dk表示K的维度,V表示需要加权的V矩阵,这里把注意力矩阵除以K的维度开平方根,是因为点积之后相当于把方差放大了dk倍,这样除就是为了把它缩放回标准正态分布,以便反向传播的时候获得更好的梯度;
再根据自注意力蒸馏机制,通过1D的最大池化操作来进行下采样,下采样公式(6)为:
其中,包含了多头稀疏自注意力机制中的关键操作,Conv1d表示时间序列上的一维卷积操作,并通过ELU作为了激活函数,最后再进行最大池化操作,这样下次输入序列就变短了,Q、K的采样也会由于序列长度的变短而随之变少,并且还使得编码器中的特征更加鲜明,由此综合预测模型效率就提高了。
步骤S30,获取预处理后的时序参数数据,将时序参数数据传入二级解码模型中解码,其中二级解码模型包括第一解码器以及第二解码器,第一解码器以真实值来预测每个解码位置所有时序参数数据的注意力分数,以供第二解码器融合编码;
需要说明的是,本发明还提出了第一解码器以真实值来预测每个解码位置所有时序参数数据的注意力分数的方法,如图2所示,示出了所述第一解码器以真实值来预测每个解码位置所有时序参数数据的注意力分数方法的实现流程示意图,所述第一解码器以真实值来预测每个解码位置所有时序参数数据的注意力分数的方法,具体包括:
步骤S301,获取经过整个时序参数数据集编码结果;
步骤S302,第一解码器进行标准自回归预测,在编码器和第一解码器交互过程中,编码器提供线性变化之后的矩阵,第一解码器计算得到注意力权重矩阵;
步骤S303,通过注意力权重与指定矩阵进行计算得到一个权重向量,同时在第一解码器中加入注意力掩码机制,让二级解码模型在训练过程中掩盖掉当前时刻之后所有位置上的信息,由此获得预测分数。
需要说明的是,第一解码器为标准的自回归解码器,且将数据传入第一个解码器当中进行注意力分数预测,经过整个编码阶段之后,先和第一个解码器进行标准自回归预测,交互过程中,编码器提供线性变化之后的K和V,其中包含了原始输入序列每个位置的编码信息,在解码器每一时刻进行解码就需要先通过Q与K进行交互,并计算得到注意力权重矩阵;然后再通过注意力权重与V进行计算得到一个权重向量,该权重向量所表示的含义就是在解码时如何将注意力分配到各个位置上。
再通过加入注意力掩码机制,让模型在训练过程中掩盖掉当前时刻之后所有位置上的信息,而这也是在模仿模型在预测时只能看到当前时刻及其之前位置上的信息,使得解码器有让输入序列依次输入解码器的能力,由此获得预测分数,以便后续解码加权融合。
第二解码器根据反sigmoid衰减函数的增减速率来确定每次预测的输入时序序列是使用真值还是使用第一解码器输出的分数时,为了弥合训练和预测之间的差距,选择反sigmoid衰减时间表来模拟预测任务,进而确定使用真值还是融合值,其曲线公式(7)为:
其中,其中k>1,k控制其衰减的幅度,i为训练轮数;
如果使用到第一解码器的预测分数,那么就需要进行编码嵌入,混合嵌入采用加权平均混合采样嵌入方式,采用混合方法混合真实值和注意力分数,这里使用含有softmax的混合编码,公式(8)如下:
是将在当前位置使用的向量,si-1为分数,y为真值,y′为预测值,/>通过所有时序参数数据的编码之和以及分数si-1的softmax加权获得;e(y)表示用于调整y对最终嵌入结果的贡献的系数,α代表一个参数,通常称为注意力权重或注意力系数,它用于控制注意力分布的形状和重要性,si-1(y)和si-1(y′)分别表示真实值与预测值的注意力分数;将加权分数后的混合值作为模型中解码器的输入,最终通过全连接层得到最后的预测输出结果。
步骤S40,第二解码器根据反sigmoid衰减函数的增减速率来确定每次预测的输入时序序列是使用真值还是使用第一解码器输出的分数,若使用分数则需要进行加权平均混合嵌入,再将输入时序序列输入解码器中进行预测,得到真正的预测结果。
步骤S50,获取真正的预测结果,计算损失值,并在进行反向传播更新权重时,使用第二解码器进行反向传播,直到损失值达到预设阈值,由此得到最终训练好的综合预测模型。
示例性的,计算损失值采用均方误差(MSE),计算公式(9)为:
需要说明的是,所述时序参数数据包括但不限于时序日期(DT)、动液面(DFL)、产液量(LP)、油压(OP)、套压(CP)、沉没度(SM)、泵径(PD)、泵深(PDP)、冲程(STK)、电压(VTG)、电流(CRT)、输入功率(IPP)、油井效率(WE)参数数据。时序参数数据数据集以油井效率为预测标签,以时序日期、动液面、产液量、含水率、油压、套压、沉没度、泵径、泵深、冲程、电压、电流、输入功率、油井效率为特征输入。
在本实施例中,所述时序参数数据进行预处理包括缺失值处理以及统一编码处理,在处理缺失值时,找到距离这条数据最近的k个数据点对应所缺失的特征的平均值来进行填补。
需要说明的是,所述基于欧氏距离的最短距离点被认为是最近邻点的理论,根据缺失值所在数据,通过公式(1)计算与其他数据点的加权欧式距离:
其中,i为本次采集的每个数据标识,n为数据总数量,x和y分别为两条计算距离的向量,xi和yi分别代表两个数据点向量x和y在第i个维度上的取值,对缺失值所在数据与其他数据全部计算完成加权欧式距离后,取距离最近的k个数据点,取它们对应缺失特征的平均值作为填补值,本发明中,k可以取5。
示例性的,统一编码处理包括数据编码、位置编码以及时间戳编码三个部分;
其中,数据编码是通过对原始数据进行一维卷积得到,将输入维映射为模型需要的维度,位置编码使用sin和cos函数的线性变换来给各时序参数数据提供模型位置信息,时间戳编码为加上与时间关联的多组编码,最后将这三者编码结果相加,形成输入的统一编码结果。
需要说明的是,数据编码主要是通过对原始数据进行一维卷积得到,将输入维Cin映射为dmodel维;位置编码使用sin和cos函数的线性变换来提供给模型位置信息,其编码公式(2)和(3)为:
上式中pos指的是序列中每条时序参数数据的位置,i指的是时序向量的维度,dmodel就是时序向量维度(输入的特征维度),分别用上面的sin和cos函数做处理,Lx表示输入时序序列长度,从而产生不同的周期性变化,像这样一些不同周期的变化的组合,可以在时间维度产生一些独特的不重复的信息,从而让模型理解时间序列的关系;时间戳编码就是加上跟时间相关的各种编码,比如,根据它是哪一周的信息,加月的编码,或者自定义节假日的编码,将以上三者编码结果相加,便形成了输入的统一编码结果。
示例性的,设时序参数数据的批数为batch size,一批时序参数数据的长度为sequence length,统一编码之后的维度名称为embedding dimension,由此得到初始输入维度:[batch size,sequence length,embedding dimension]。
综上所述,本发明提供了混合采样注意力机制的油井效率预测方法,本发明在综合预测模型的编码阶段中使用稀疏自注意力机制和蒸馏机制,能够有效地对油井效率进行长时序的预测,并且无论是在速度方面还是内存占用方面都有不错的提升;同时,将混合采样思想融入解码器当中,有效减少了训练和预测之间的过大差距(暴露偏差的长时序累积问题),使其准确度更高,预测出的结果更可靠。
本发明模型中预测参数方法弥补了传统技术都依赖于预定义的参数的缺陷,可以做到灵活输入输出,更能适应油井领域数据的多变化环境,因而本方法具有较强的普适性。
本发明所采用的模型底层使用的是注意力机制,因而无需做特征工程以及在中途做额外的数据处理,相对更方便和高效。
需要说明的是,对于前述的各实施例,为了简单描述,故将其都表述为一系列的动作组合,但是本领域技术人员应该知悉,本发明并不受所描述的动作顺序的限制,因为依据本发明,某些步骤可能采用其他顺序或者同时进行。其次,本领域技术人员也应该知悉,说明书中所描述的实施例均属于优选实施例,涉及的动作和模块并不一定是本发明所必须的。
本申请所提供的几个实施例中,应该理解到,所揭露的装置,可通过其他的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如上述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或通信连接可以是通过一些接口,装置或单元之间的间接耦合或通信连接,可以是电信或者其它的形式。
上述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
以上实施例仅用以说明本发明的技术方案,而非对发明的保护范围进行限制。显然,所描述的实施例仅仅是本发明部分实施例,而不是全部实施例。基于这些实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明所要保护的范围。尽管参照上述实施例对本发明进行了详细的说明,本领域普通技术人员依然可以在不冲突的情况下,不作出创造性劳动对本发明各实施例中的特征根据情况相互组合、增删或作其他调整,从而得到不同的、本质未脱离本发明的构思的其他技术方案,这些技术方案也同样属于本发明所要保护的范围。
Claims (9)
1.混合采样注意力机制的油井效率预测方法,其特征在于,所述混合采样注意力机制的油井效率预测方法,具体包括:
获取至少一组关联油井的时序参数数据,对所述时序参数数据进行预处理,其中,所述时序参数数据包括时序日期、动液面、产液量、含水率、油压、套压、沉没度、泵径、泵深、冲程、电压、电流、输入功率和油井效率参数数据;
加载预处理后的时序参数数据,将时序参数数据以8:2的比例划分为训练集和验证集,以时序参数数据中训练集为输入,执行预处理后综合预测模型,综合预测模型将有稀疏长尾现象的矩阵进行筛选后再进行缩放内积计算,而后将计算结果在蒸馏层进行下采样后再进入到下一层的计算;
获取预处理后的时序参数数据,将时序参数数据传入二级解码模型中解码,其中二级解码模型包括第一解码器以及第二解码器,第一解码器以真实值来预测每个解码位置所有时序参数数据的注意力分数,以供第二解码器融合编码;
第二解码器根据反sigmoid衰减函数的增减速率来确定每次预测的输入时序序列是使用真值还是使用第一解码器输出的分数,若使用分数则需要进行加权平均混合嵌入,再将输入时序序列输入解码器中进行预测,得到真正的预测结果;
获取真正的预测结果,计算损失值,并在进行反向传播更新权重时,使用第二解码器进行反向传播,直到损失值达到预设阈值,由此得到最终训练好的综合预测模型。
2.如权利要求1所述的混合采样注意力机制的油井效率预测方法,其特征在于:所述时序参数数据进行预处理包括缺失值处理以及统一编码处理。
3.如权利要求2所述的混合采样注意力机制的油井效率预测方法,其特征在于:在处理缺失值时,找到距离这条数据最近的k个数据点对应所缺失的特征的平均值来进行填补。
4.如权利要求3所述的混合采样注意力机制的油井效率预测方法,其特征在于:统一编码处理包括数据编码、位置编码以及时间戳编码三个部分;
其中,数据编码是通过对原始数据进行一维卷积得到,将输入维映射为模型需要的维度,位置编码使用sin和cos函数的线性变换来给各时序参数数据提供模型位置信息,时间戳编码为加上与时间关联的多组编码,最后将这三者编码结果相加,形成输入的统一编码结果。
5.如权利要求2-4任一所述的混合采样注意力机制的油井效率预测方法,其特征在于:所述第一解码器以真实值来预测每个解码位置所有时序参数数据的注意力分数的方法,具体包括:
获取经过整个时序参数数据集编码结果;
第一解码器进行标准自回归预测,在编码器和第一解码器交互过程中,编码器提供线性变化之后的矩阵,第一解码器计算得到注意力权重矩阵;
通过注意力权重与指定矩阵进行计算得到一个权重向量,同时在第一解码器中加入注意力掩码机制,让二级解码模型在训练过程中掩盖掉当前时刻之后所有位置上的信息,由此获得预测分数。
6.如权利要求5所述的混合采样注意力机制的油井效率预测方法,其特征在于:第一解码器为标准的自回归解码器。
7.如权利要求5所述的混合采样注意力机制的油井效率预测方法,其特征在于:第二解码器根据反sigmoid衰减函数的增减速率来确定每次预测的输入时序序列是使用真值还是使用第一解码器输出的分数时,为了弥合训练和预测之间的差距,选择反sigmoid衰减时间表来模拟预测任务,进而确定使用真值还是融合值,其曲线公式为:
其中,其中k>1,k控制其衰减的幅度,i为训练轮数;
如果使用到第一解码器的预测分数,那么就需要进行编码嵌入,混合嵌入采用加权平均混合采样嵌入方式,采用混合方法混合真实值和注意力分数,这里使用含有softmax的混合编码,公式如下:
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310347556.7A CN116128158B (zh) | 2023-04-04 | 2023-04-04 | 混合采样注意力机制的油井效率预测方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310347556.7A CN116128158B (zh) | 2023-04-04 | 2023-04-04 | 混合采样注意力机制的油井效率预测方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN116128158A CN116128158A (zh) | 2023-05-16 |
CN116128158B true CN116128158B (zh) | 2023-06-23 |
Family
ID=86299308
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310347556.7A Active CN116128158B (zh) | 2023-04-04 | 2023-04-04 | 混合采样注意力机制的油井效率预测方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116128158B (zh) |
Families Citing this family (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117131790B (zh) * | 2023-10-27 | 2024-01-23 | 西南石油大学 | 概率编译码架构下光伏组件清洁周期预测方法 |
CN117709213B (zh) * | 2023-11-07 | 2024-07-16 | 中国石油大学(北京) | 基于井点消除法的直井井位缝网一体化优化部署方法 |
CN117648671B (zh) * | 2024-01-29 | 2024-04-02 | 西南石油大学 | 一种融合机理模型和实时数据的油井产量预测方法 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114064396A (zh) * | 2021-10-27 | 2022-02-18 | 南瑞集团有限公司 | 一种kpi数据异常分数确定方法、异常检测方法及系统 |
CN114218870A (zh) * | 2021-12-22 | 2022-03-22 | 大连理工大学 | 一种基于变分模态分解与注意力机制的风速预测方法 |
CN115587454A (zh) * | 2022-10-24 | 2023-01-10 | 北京工商大学 | 基于改进Transformer模型的交通流量长时预测方法及系统 |
Family Cites Families (15)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110134789B (zh) * | 2019-05-17 | 2021-05-25 | 电子科技大学 | 一种引入多路选择融合机制的多标签长文本分类方法 |
CN110781690B (zh) * | 2019-10-31 | 2021-07-13 | 北京理工大学 | 一种多源神经机器翻译模型的融合和压缩方法 |
CN111860785A (zh) * | 2020-07-24 | 2020-10-30 | 中山大学 | 基于注意力机制循环神经网络的时间序列预测方法及系统 |
US20220101113A1 (en) * | 2020-09-25 | 2022-03-31 | Nvidia Corporation | Knowledge discovery using a neural network |
WO2022245737A1 (en) * | 2021-05-17 | 2022-11-24 | Genentech, Inc. | Function guided in silico protein design |
US20240152735A1 (en) * | 2021-06-10 | 2024-05-09 | Visa International Service Association | System, Method, and Computer Program Product for Anomaly Detection in Multivariate Time Series |
CN113887208A (zh) * | 2021-09-15 | 2022-01-04 | 浙江大学滨江研究院 | 一种基于注意力机制的对抗文本防御方法及系统 |
WO2022104293A1 (en) * | 2021-10-26 | 2022-05-19 | Innopeak Technology, Inc. | Multi-modal video transformer (mm-vit) for compressed video action recognition |
CN113988449B (zh) * | 2021-11-05 | 2024-04-12 | 国家电网有限公司西北分部 | 基于Transformer模型的风电功率预测方法 |
CN114368387B (zh) * | 2021-12-21 | 2024-06-14 | 吉林大学 | 一种基于注意力机制的驾驶员意图识别及车辆轨迹预测方法 |
CN114297918B (zh) * | 2021-12-22 | 2024-08-13 | 大连理工大学 | 基于全注意力深度网络和动态集成学习的航空发动机剩余寿命预测方法 |
CN114493755B (zh) * | 2021-12-28 | 2022-10-14 | 电子科技大学 | 一种融合时序信息的自注意力序列推荐方法 |
CN114707698A (zh) * | 2022-03-03 | 2022-07-05 | 深圳智芯微电子科技有限公司 | 基于综合形状误差和时间误差的长期电力负荷预测方法 |
CN115063666A (zh) * | 2022-07-06 | 2022-09-16 | 京东科技信息技术有限公司 | 解码器的训练方法、目标检测方法、装置以及存储介质 |
CN115310674A (zh) * | 2022-07-14 | 2022-11-08 | 西北师范大学 | 基于并行神经网络模型LDformer的长时间序列预测方法 |
-
2023
- 2023-04-04 CN CN202310347556.7A patent/CN116128158B/zh active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114064396A (zh) * | 2021-10-27 | 2022-02-18 | 南瑞集团有限公司 | 一种kpi数据异常分数确定方法、异常检测方法及系统 |
CN114218870A (zh) * | 2021-12-22 | 2022-03-22 | 大连理工大学 | 一种基于变分模态分解与注意力机制的风速预测方法 |
CN115587454A (zh) * | 2022-10-24 | 2023-01-10 | 北京工商大学 | 基于改进Transformer模型的交通流量长时预测方法及系统 |
Also Published As
Publication number | Publication date |
---|---|
CN116128158A (zh) | 2023-05-16 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN116128158B (zh) | 混合采样注意力机制的油井效率预测方法 | |
CN111160620B (zh) | 一种基于端到端记忆网络的短期风电功率预测方法 | |
CN113128113B (zh) | 一种基于深度学习和迁移学习的贫乏信息建筑负荷预测方法 | |
CN114239718B (zh) | 基于多元时序数据分析的高精度长期时间序列预测方法 | |
CN113988449B (zh) | 基于Transformer模型的风电功率预测方法 | |
CN109787821B (zh) | 一种大规模移动客户流量消费智能预测方法 | |
CN117096867A (zh) | 一种短期电力负荷预测方法、装置、系统及存储介质 | |
CN116007937B (zh) | 一种机械设备传动部件智能故障诊断方法及装置 | |
CN113516133A (zh) | 一种多模态图像分类方法及系统 | |
CN116187548A (zh) | 一种光伏发电功率预测方法、装置、存储介质及电子装置 | |
CN116599050A (zh) | 基于自注意力机制的光伏预测方法及相关装置 | |
CN116050595A (zh) | 一种注意力机制与分解机制耦合的径流量预测方法 | |
CN114297795B (zh) | 一种基于PR-Trans的机械设备剩余寿命预测方法 | |
CN112712855B (zh) | 一种基于联合训练的含缺失值基因微阵列的聚类方法 | |
CN117172113A (zh) | 一种旋转导向钻井井眼轨迹预测方法、系统、设备及介质 | |
CN112330029A (zh) | 一种基于多层convLSTM的渔场预测计算方法 | |
CN116911178A (zh) | 一种基于气象预报的中小型水库容量预测方法及系统 | |
CN115758641A (zh) | 一种基于autoformer-渐进分解模型的输电线路覆冰预测方法 | |
CN114239934A (zh) | 一种基于生成式对抗网络的电网负荷序列预测方法及系统 | |
CN114792026A (zh) | 一种航空发动机设备的剩余寿命预测方法及系统 | |
CN118586447B (zh) | 基于Transformer的声速剖面长期预测方法 | |
CN116992781B (zh) | 基于深度学习的多步多要素风浪预报方法 | |
CN115081752B (zh) | 黑灰产众包流量预测装置及方法 | |
CN118211053B (zh) | 一种基于多模态双提示扩散模型的台风预测方法 | |
CN116089822B (zh) | 一种基于时空注意力网络的设备rul预测方法及系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |