CN116128158B

CN116128158B - 混合采样注意力机制的油井效率预测方法

Info

Publication number: CN116128158B
Application number: CN202310347556.7A
Authority: CN
Inventors: 肖斌; 谢珊; 刘丽艳; 肖逸军; 肖伊曼; 李欢; 秦光源; 张兴鹏; 汪敏
Original assignee: Southwest Petroleum University
Current assignee: Southwest Petroleum University
Priority date: 2023-04-04
Filing date: 2023-04-04
Publication date: 2023-06-23
Anticipated expiration: 2043-04-04
Also published as: CN116128158A

Abstract

本发明公开了混合采样注意力机制的油井效率预测方法，属于油气田智慧开发技术领域，解决了现有预测方法所考虑因素的完整性和准确性较差、鲁棒性较差，从而暴露偏差积累的问题，方法包括：获取时序参数数据，并进行预处理，执行预处理后综合预测模型；获取预处理后的时序参数数据，将时序参数数据传入二级解码模型中解码，得到真正的预测结果，计算损失值，并在进行反向传播更新权重时，使用第二解码器进行反向传播，由此得到最终训练好的综合预测模型；本发明通过将混合采样思想融入解码器当中，有效减少了训练和预测之间的过大差距，使其准确度更高，预测出的结果更可靠。

Description

混合采样注意力机制的油井效率预测方法

技术领域

本发明属于油气田智慧开发技术领域，具体涉及混合采样注意力机制的油井效率预测方法。

背景技术

随着油气资源的开发和利用，传统的油田开发方式已无法满足当今石油行业的需求，这种仅仅依靠经验和规则进行决策的方式虽然有效但却忽略了数据背后的价值和规律，难以适应快速变化的市场和技术环境。由此油井开发逐渐向智能化方向发展。

油井效率是油井开发的关键参数之一，对油井开发的重要性不可低估，通过预测油井效率，可以了解油井的生产能力，进而优化采油过程中的操作和流程。例如，可以根据预测结果来调整注水量、注气量、井筒压力、采油时间等指标，以提高采油效率；同时，通过对油井效率的预测和监测可以帮助避免不必要的安全风险，提高油田的安全性。例如，油井效率的突然下降可能意味着油井内部出现了异常情况，需要采取紧急措施，从而降低可能发生的事故风险。预测油井效率可以帮助石油公司更好地规划采油计划和生产计划，从而在最短的时间内生产最多的石油，并且减少生产成本，从而提高石油公司的经济效益，增加公司的收入和利润。预测油井效率还可以帮助石油公司避免对环境造成不良影响，通过预测结果来避免过度开采和浪费资源，从而减少对环境的影响。总之，油井效率预测工作在提高生产效率、降低成本、保障安全、保护环境等方面都具有重要的意义。

油井效率预测技术一般是指利用数据分析和机器学习技术对油井进行性能分析和预测的一种方法。它可以帮助石油工程师和生产运营团队更好地利用数据分析技术来了解和优化油井的生产状况，从而提高产量和降低成本，使决策更加科学和准确。现阶段油井效率预测技术所用的主要方法有：回归分析模型、神经网络模型、支持向量机模型、遗传算法、模糊逻辑技术以及传统的ARIMA时序分析模型等，但是现有预测方法所考虑因素的完整性和准确性较差、鲁棒性较差，从而暴露偏差积累的问题；基于此，我们提出了混合采样注意力机制的油井效率预测方法。

发明内容

本发明的目的在于针对现有技术的不足之处，提供混合采样注意力机制的油井效率预测方法，解决了现有预测方法所考虑因素的完整性和准确性较差、鲁棒性较差，从而暴露偏差积累的问题。

本发明是这样实现的，混合采样注意力机制的油井效率预测方法，具体包括：

获取至少一组关联油井的时序参数数据，对所述时序参数数据进行预处理，其中，所述时序参数数据包括时序日期、动液面、产液量、含水率、油压、套压、沉没度、泵径、泵深、冲程、电压、电流、输入功率、油井效率参数数据；

加载预处理后的时序参数数据，将时序参数数据以8：2的比例划分为训练集和验证集，以时序参数数据中训练集为输入，执行预处理后综合预测模型，综合预测模型将有稀疏长尾现象的矩阵进行筛选后再进行缩放内积计算，而后将计算结果在蒸馏层进行下采样后再进入到下一层的计算；

获取预处理后的时序参数数据，将时序参数数据传入二级解码模型中解码，其中二级解码模型包括第一解码器以及第二解码器，第一解码器以真实值来预测每个解码位置所有时序参数数据的注意力分数，以供第二解码器融合编码；

第二解码器根据反sigmoid衰减函数的增减速率来确定每次预测的输入时序序列是使用真值还是使用第一解码器输出的分数，若使用分数则需要进行加权平均混合嵌入，再将输入时序序列输入解码器中进行预测，得到真正的预测结果。

优选地，所述混合采样注意力机制的油井效率预测方法，还包括：

获取真正的预测结果，计算损失值，并在进行反向传播更新权重时，使用第二解码器进行反向传播，直到损失值达到预设阈值，由此得到最终训练好的综合预测模型。

优选地，所述时序参数数据进行预处理包括缺失值处理以及统一编码处理。

优选地，在处理缺失值时，找到距离这条数据最近的k个数据点对应所缺失的特征的平均值来进行填补。

优选地，统一编码处理包括数据编码、位置编码以及时间戳编码三个部分；

其中，数据编码是通过对原始数据进行一维卷积得到，将输入维映射为模型需要的维度，位置编码使用sin和cos函数的线性变换来给各时序参数数据提供模型位置信息，时间戳编码为加上与时间关联的多组编码，最后将这三者编码结果相加，形成输入的统一编码结果。

优选地，所述第一解码器以真实值来预测每个解码位置所有时序参数数据的注意力分数的方法，具体包括：

获取经过整个时序参数数据集编码结果；

第一解码器进行标准自回归预测，在编码器和第一解码器交互过程中，编码器提供线性变化之后的矩阵，第一解码器计算得到注意力权重矩阵；

通过注意力权重与指定矩阵进行计算得到一个权重向量，同时在第一解码器中加入注意力掩码机制，让二级解码模型在训练过程中掩盖掉当前时刻之后所有位置上的信息，由此获得预测分数。

优选地，第一解码器为标准的自回归解码器。

优选地，第二解码器根据反sigmoid衰减函数的增减速率来确定每次预测的输入时序序列是使用真值还是使用第一解码器输出的分数时，为了弥合训练和预测之间的差距，选择反sigmoid衰减时间表来模拟预测任务，进而确定使用真值还是融合值，其曲线公式为：

其中，其中k>1，k控制其衰减的幅度，i为训练轮数；

如果使用到第一解码器的预测分数，那么就需要进行编码嵌入，混合嵌入采用加权平均混合采样嵌入方式，采用混合方法混合真实值和注意力分数，这里使用含有softmax的混合编码，公式如下：

是将在当前位置使用的向量，s_i-1为分数，y为真值，y′为预测值，/>

通过所有时序参数数据的编码之和以及分数s_i-1的softmax加权获得；将加权分数后的混合值作为模型中解码器的输入，最终通过全连接层得到最后的预测输出结果。

优选地，在处理缺失值时，其中，所述基于欧氏距离的最短距离点被认为是最近邻点的理论，根据缺失值所在数据，计算与其他数据点的加权欧式距离：

其中，i为本次采集的每个数据标识，n为数据总数量，x和y分别为两条计算距离的向量，对缺失值所在数据与其他数据全部计算完成加权欧式距离后，取距离最近的k个数据点，取它们对应缺失特征的平均值作为填补值。

优选地，所述位置编码使用sin和cos函数的线性变换来给各时序参数数据提供模型位置信息，其编码公式为：

其中，pos指的是序列中每条时序参数数据的位置，i指的是时序向量的维度，d_model为时序向量维度，分别用上面的sin和cos函数做处理。

与现有技术相比，本申请实施例主要有以下有益效果：

本发明在综合预测模型的编码阶段中使用稀疏自注意力机制和蒸馏机制，能够有效地对油井效率进行长时序的预测，并且无论是在速度方面还是内存占用方面都有不错的提升；同时，将混合采样思想融入解码器当中，有效减少了训练和预测之间的过大差距(暴露偏差的长时序累积问题)，使其准确度更高，预测出的结果更可靠。

本发明模型中预测参数方法弥补了传统技术都依赖于预定义的参数的缺陷，可以做到灵活输入输出，更能适应油井领域数据的多变化环境，因而本方法具有较强的普适性。

本发明所采用的模型底层使用的是注意力机制，因而无需做特征工程以及在中途做额外的数据处理，相对更方便和高效。

附图说明

图1是本发明提供的混合采样注意力机制的油井效率预测方法的实现流程示意图。

图2示出了第一解码器以真实值来预测每个解码位置所有时序参数数据的注意力分数方法的实现流程示意图。

具体实施方式

除非另有定义，本文所使用的所有的技术和科学术语与属于本申请技术领域的技术人员通常理解的含义相同；本文中在申请的说明书中所使用的术语只是为了描述具体的实施例的目的，不是旨在于限制本申请；本申请的说明书和权利要求书及上述附图说明中的术语“包括”和“具有”以及它们的任何变形，意图在于覆盖不排他的包含。本申请的说明书和权利要求书或上述附图中的术语“第一”、“第二”等是用于区别不同对象，而不是用于描述特定顺序。

在本文中提及“实施例”意味着，结合实施例描述的特定特征、结构或特性可以包含在本申请的至少一个实施例中。在说明书中的各个位置出现该短语并不一定均是指相同的实施例，也不是与其它实施例互斥的独立的或备选的实施例。本领域技术人员显式地和隐式地理解的是，本文所描述的实施例可以与其它实施例相结合。

现阶段油井效率预测技术所用的主要方法有：回归分析模型、神经网络模型、支持向量机模型、遗传算法、模糊逻辑技术以及传统的ARIMA时序分析模型等，但是现有预测方法所考虑因素的完整性和准确性较差、鲁棒性较差，从而暴露偏差积累的问题；基于此，我们提出了混合采样注意力机制的油井效率预测方法，简而言之，所述方法包括获取关联油井的时序参数数据，并对数据进行预处理，然后以时序参数数据中训练集为输入，执行预处理后综合预测模型，将时序参数数据传入二级解码模型中解码，第一解码器以真实值来预测每个解码位置所有时序参数数据的注意力分数，以供第二解码器融合编码，第二解码器根据反sigmoid衰减函数的增减速率来确定每次预测的输入时序序列是使用真值还是使用第一解码器输出的分数。本发明混合采样思想融入二级解码模型当中，有效减少了训练和预测之间的过大差距(暴露偏差的长时序累积问题)，使其准确度更高，预测出的结果更可靠，同时综合预测模型中预测参数方法弥补了传统技术都依赖于预定义的参数的缺陷，可以做到灵活输入输出，更能适应油井领域数据的多变化环境，因而本方法具有较强的普适性。

本发明实施例提供了混合采样注意力机制的油井效率预测方法，如图1所示，示出了所述混合采样注意力机制的油井效率预测方法的实现流程示意图，所述混合采样注意力机制的油井效率预测方法，具体包括：

步骤S10，获取至少一组关联油井的时序参数数据，对所述时序参数数据进行预处理，其中，所述时序参数数据包括时序日期、动液面、产液量、含水率、油压、套压、沉没度、泵径、泵深、冲程、电压、电流、输入功率、油井效率参数数据；

同时，本申请中所述时序参数数据的获取基于多组传感器获取，传感器可以为压力传感器、温度传感器、湿度传感器、热电传感器、数字传感器。

步骤S20，加载预处理后的时序参数数据，将时序参数数据以8：2的比例划分为训练集和验证集，以时序参数数据中训练集为输入，执行预处理后综合预测模型，综合预测模型将有稀疏长尾现象的矩阵进行筛选后再进行缩放内积计算，而后将计算结果在蒸馏层进行下采样后再进入到下一层的计算；

需要说明的是，本申请中所述综合预测模型包括二级解码模型以及一组编码器，编码器用于预处理后时序参数数据的编码处理。

将预处理好的时序参数数据传入，并进入编码(encoder)阶段，将输入数据经过线性映射和多头注意力机制分割之后获得若干个Q、K、V矩阵，为了减少时间复杂度和内存占有率，使用稀疏自注意力机制来筛选出更有价值的Q，先计算Q的注意力概率分布与均匀分布的相对熵，第i个Q的稀疏性的评价公式(4)为：

其中

为计算出的注意力矩阵，d表示K的维度，L_K表示K的个数，第一项是对于所有K的Log-Sum-Exp(LSE)，第二项是它们的算数平均值。然后在K当中做随机采样(设采样m个)，每个Q跟这些样本做点积计算，这样每个Q都有m个得分，选择出得分最高的若干Q，对于不好的Q就先用V的均值来替代，再使用缩放的点积注意力机制将选出的Q与所有K进行计算，使用注意力矩阵的权重给V进行加权，其计算公式(5)为：

其中，QK^t表示注意力矩阵，dk表示K的维度，V表示需要加权的V矩阵，这里把注意力矩阵除以K的维度开平方根，是因为点积之后相当于把方差放大了dk倍，这样除就是为了把它缩放回标准正态分布，以便反向传播的时候获得更好的梯度；

再根据自注意力蒸馏机制，通过1D的最大池化操作来进行下采样，下采样公式(6)为：

其中，

包含了多头稀疏自注意力机制中的关键操作，Conv1d表示时间序列上的一维卷积操作，并通过ELU作为了激活函数，最后再进行最大池化操作，这样下次输入序列就变短了，Q、K的采样也会由于序列长度的变短而随之变少，并且还使得编码器中的特征更加鲜明，由此综合预测模型效率就提高了。

步骤S30，获取预处理后的时序参数数据，将时序参数数据传入二级解码模型中解码，其中二级解码模型包括第一解码器以及第二解码器，第一解码器以真实值来预测每个解码位置所有时序参数数据的注意力分数，以供第二解码器融合编码；

需要说明的是，本发明还提出了第一解码器以真实值来预测每个解码位置所有时序参数数据的注意力分数的方法，如图2所示，示出了所述第一解码器以真实值来预测每个解码位置所有时序参数数据的注意力分数方法的实现流程示意图，所述第一解码器以真实值来预测每个解码位置所有时序参数数据的注意力分数的方法，具体包括：

步骤S301，获取经过整个时序参数数据集编码结果；

步骤S302，第一解码器进行标准自回归预测，在编码器和第一解码器交互过程中，编码器提供线性变化之后的矩阵，第一解码器计算得到注意力权重矩阵；

步骤S303，通过注意力权重与指定矩阵进行计算得到一个权重向量，同时在第一解码器中加入注意力掩码机制，让二级解码模型在训练过程中掩盖掉当前时刻之后所有位置上的信息，由此获得预测分数。

需要说明的是，第一解码器为标准的自回归解码器，且将数据传入第一个解码器当中进行注意力分数预测，经过整个编码阶段之后，先和第一个解码器进行标准自回归预测，交互过程中，编码器提供线性变化之后的K和V，其中包含了原始输入序列每个位置的编码信息，在解码器每一时刻进行解码就需要先通过Q与K进行交互，并计算得到注意力权重矩阵；然后再通过注意力权重与V进行计算得到一个权重向量，该权重向量所表示的含义就是在解码时如何将注意力分配到各个位置上。

再通过加入注意力掩码机制，让模型在训练过程中掩盖掉当前时刻之后所有位置上的信息，而这也是在模仿模型在预测时只能看到当前时刻及其之前位置上的信息，使得解码器有让输入序列依次输入解码器的能力，由此获得预测分数，以便后续解码加权融合。

第二解码器根据反sigmoid衰减函数的增减速率来确定每次预测的输入时序序列是使用真值还是使用第一解码器输出的分数时，为了弥合训练和预测之间的差距，选择反sigmoid衰减时间表来模拟预测任务，进而确定使用真值还是融合值，其曲线公式(7)为：

其中，其中k>1，k控制其衰减的幅度，i为训练轮数；

如果使用到第一解码器的预测分数，那么就需要进行编码嵌入，混合嵌入采用加权平均混合采样嵌入方式，采用混合方法混合真实值和注意力分数，这里使用含有softmax的混合编码，公式(8)如下：

通过所有时序参数数据的编码之和以及分数s_i-1的softmax加权获得；e(y)表示用于调整y对最终嵌入结果的贡献的系数，α代表一个参数，通常称为注意力权重或注意力系数，它用于控制注意力分布的形状和重要性，s_i-1(y)和s_i-1(y′)分别表示真实值与预测值的注意力分数；将加权分数后的混合值作为模型中解码器的输入，最终通过全连接层得到最后的预测输出结果。

步骤S40，第二解码器根据反sigmoid衰减函数的增减速率来确定每次预测的输入时序序列是使用真值还是使用第一解码器输出的分数，若使用分数则需要进行加权平均混合嵌入，再将输入时序序列输入解码器中进行预测，得到真正的预测结果。

步骤S50，获取真正的预测结果，计算损失值，并在进行反向传播更新权重时，使用第二解码器进行反向传播，直到损失值达到预设阈值，由此得到最终训练好的综合预测模型。

示例性的，计算损失值采用均方误差(MSE)，计算公式(9)为：

其中

为预测值，yⁱ为真实数据，m为样本数量；然后不断通过最后一个解码器的反向传播进行权重更新(这样比用两个解码器效果同时反向传播效率更高，效果更好)，直到损失值达到满意程度，模型便训练完成。

需要说明的是，所述时序参数数据包括但不限于时序日期(DT)、动液面(DFL)、产液量(LP)、油压(OP)、套压(CP)、沉没度(SM)、泵径(PD)、泵深(PDP)、冲程(STK)、电压(VTG)、电流(CRT)、输入功率(IPP)、油井效率(WE)参数数据。时序参数数据数据集以油井效率为预测标签，以时序日期、动液面、产液量、含水率、油压、套压、沉没度、泵径、泵深、冲程、电压、电流、输入功率、油井效率为特征输入。

在本实施例中，所述时序参数数据进行预处理包括缺失值处理以及统一编码处理，在处理缺失值时，找到距离这条数据最近的k个数据点对应所缺失的特征的平均值来进行填补。

需要说明的是，所述基于欧氏距离的最短距离点被认为是最近邻点的理论，根据缺失值所在数据，通过公式(1)计算与其他数据点的加权欧式距离：

其中，i为本次采集的每个数据标识，n为数据总数量，x和y分别为两条计算距离的向量，x_i和y_i分别代表两个数据点向量x和y在第i个维度上的取值，对缺失值所在数据与其他数据全部计算完成加权欧式距离后，取距离最近的k个数据点，取它们对应缺失特征的平均值作为填补值，本发明中，k可以取5。

示例性的，统一编码处理包括数据编码、位置编码以及时间戳编码三个部分；

需要说明的是，数据编码主要是通过对原始数据进行一维卷积得到，将输入维C_in映射为d_model维；位置编码使用sin和cos函数的线性变换来提供给模型位置信息，其编码公式(2)和(3)为：

上式中pos指的是序列中每条时序参数数据的位置，i指的是时序向量的维度，d_model就是时序向量维度(输入的特征维度)，分别用上面的sin和cos函数做处理，Lx表示输入时序序列长度，从而产生不同的周期性变化，像这样一些不同周期的变化的组合，可以在时间维度产生一些独特的不重复的信息，从而让模型理解时间序列的关系；时间戳编码就是加上跟时间相关的各种编码，比如，根据它是哪一周的信息，加月的编码，或者自定义节假日的编码，将以上三者编码结果相加，便形成了输入的统一编码结果。

示例性的，设时序参数数据的批数为batch size，一批时序参数数据的长度为sequence length，统一编码之后的维度名称为embedding dimension，由此得到初始输入维度：[batch size，sequence length，embedding dimension]。

综上所述，本发明提供了混合采样注意力机制的油井效率预测方法，本发明在综合预测模型的编码阶段中使用稀疏自注意力机制和蒸馏机制，能够有效地对油井效率进行长时序的预测，并且无论是在速度方面还是内存占用方面都有不错的提升；同时，将混合采样思想融入解码器当中，有效减少了训练和预测之间的过大差距(暴露偏差的长时序累积问题)，使其准确度更高，预测出的结果更可靠。

需要说明的是，对于前述的各实施例，为了简单描述，故将其都表述为一系列的动作组合，但是本领域技术人员应该知悉，本发明并不受所描述的动作顺序的限制，因为依据本发明，某些步骤可能采用其他顺序或者同时进行。其次，本领域技术人员也应该知悉，说明书中所描述的实施例均属于优选实施例，涉及的动作和模块并不一定是本发明所必须的。

本申请所提供的几个实施例中，应该理解到，所揭露的装置，可通过其他的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如上述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或通信连接可以是通过一些接口，装置或单元之间的间接耦合或通信连接，可以是电信或者其它的形式。

上述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

以上实施例仅用以说明本发明的技术方案，而非对发明的保护范围进行限制。显然，所描述的实施例仅仅是本发明部分实施例，而不是全部实施例。基于这些实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明所要保护的范围。尽管参照上述实施例对本发明进行了详细的说明，本领域普通技术人员依然可以在不冲突的情况下，不作出创造性劳动对本发明各实施例中的特征根据情况相互组合、增删或作其他调整，从而得到不同的、本质未脱离本发明的构思的其他技术方案，这些技术方案也同样属于本发明所要保护的范围。

Claims

1.混合采样注意力机制的油井效率预测方法，其特征在于，所述混合采样注意力机制的油井效率预测方法，具体包括：

获取至少一组关联油井的时序参数数据，对所述时序参数数据进行预处理，其中，所述时序参数数据包括时序日期、动液面、产液量、含水率、油压、套压、沉没度、泵径、泵深、冲程、电压、电流、输入功率和油井效率参数数据；

第二解码器根据反sigmoid衰减函数的增减速率来确定每次预测的输入时序序列是使用真值还是使用第一解码器输出的分数，若使用分数则需要进行加权平均混合嵌入，再将输入时序序列输入解码器中进行预测，得到真正的预测结果；

2.如权利要求1所述的混合采样注意力机制的油井效率预测方法，其特征在于：所述时序参数数据进行预处理包括缺失值处理以及统一编码处理。

3.如权利要求2所述的混合采样注意力机制的油井效率预测方法，其特征在于：在处理缺失值时，找到距离这条数据最近的k个数据点对应所缺失的特征的平均值来进行填补。

4.如权利要求3所述的混合采样注意力机制的油井效率预测方法，其特征在于：统一编码处理包括数据编码、位置编码以及时间戳编码三个部分；

5.如权利要求2-4任一所述的混合采样注意力机制的油井效率预测方法，其特征在于：所述第一解码器以真实值来预测每个解码位置所有时序参数数据的注意力分数的方法，具体包括：

获取经过整个时序参数数据集编码结果；

6.如权利要求5所述的混合采样注意力机制的油井效率预测方法，其特征在于：第一解码器为标准的自回归解码器。

7.如权利要求5所述的混合采样注意力机制的油井效率预测方法，其特征在于：第二解码器根据反sigmoid衰减函数的增减速率来确定每次预测的输入时序序列是使用真值还是使用第一解码器输出的分数时，为了弥合训练和预测之间的差距，选择反sigmoid衰减时间表来模拟预测任务，进而确定使用真值还是融合值，其曲线公式为：

其中，其中k>1，k控制其衰减的幅度，i为训练轮数；

通过所有时序参数数据的编码之和以及分数s_i-1的softmax加权获得，e(y)表示用于调整y对最终嵌入结果的贡献的系数，α代表一个参数，称为注意力权重或注意力系数，它用于控制注意力分布的形状和重要性，s_i-1(y)和s_i-1(y′)分别表示真实值与预测值的注意力分数；将加权分数后的混合值作为模型中解码器的输入，最终通过全连接层得到最后的预测输出结果。

8.如权利要求3所述的混合采样注意力机制的油井效率预测方法，其特征在于：在处理缺失值时，其中，基于欧氏距离的最短距离点为最近邻点，根据缺失值所在数据，计算与其他数据点的加权欧式距离：

其中，i为本次采集的每个数据标识，n为数据总数量，x和y分别为两条计算距离的向量，x_i和y_i分别代表两个数据点向量x和y在第i个维度上的取值，对缺失值所在数据与其他数据全部计算完成加权欧式距离后，取距离最近的k个数据点，取它们对应缺失特征的平均值作为填补值。

9.如权利要求4所述的混合采样注意力机制的油井效率预测方法，其特征在于：所述位置编码使用sin和cos函数的线性变换来给各时序参数数据提供模型位置信息，其编码公式为：

其中，pos指的是序列中每条时序参数数据的位置，i指的是时序向量的维度，d_model为时序向量维度，L_x表示输入时序序列长度，分别用上面的sin和cos函数做处理。