CN116933196A

CN116933196A - 多维测井数据异常值智能剔除的方法与系统

Info

Publication number: CN116933196A
Application number: CN202311205158.8A
Authority: CN
Inventors: 田飞; 张江云; 底青云; 郑文浩; 杨永友; 郑健; 曹文静
Original assignee: Institute of Geology and Geophysics of CAS
Current assignee: Institute of Geology and Geophysics of CAS
Priority date: 2023-09-19
Filing date: 2023-09-19
Publication date: 2023-10-24
Anticipated expiration: 2043-09-19
Also published as: CN116933196B

Abstract

本发明属于地质测量领域，具体涉及了一种多维测井数据异常值智能剔除的方法与系统，旨在解决现有技术中异常数据较多难以实现钻进过程中的稳定的参数获取的问题。本发明包括：获取多维测井曲线；通过Umap将为算法进行降维获得二维测井曲线数据；建立多维测井曲线与二维测井曲线的第一数据点索引；基于所述二维测井曲线数据，通过孤立森林算法进行异常值处理，获得有效测井数据；基于所述第一数据点索引和有效测井数据，获取第二数据点索引；找到多维测井曲线中存在第二数据点索引的标记数据点，将标记数据点的集合记为标准测井曲线数据。本发明实现异常值数据点的剔除同时还提高了异常值剔除的计算速度。

Description

多维测井数据异常值智能剔除的方法与系统

技术领域

本发明属于地质测量领域，具体涉及了一种多维测井数据异常值智能剔除的方法与系统。

背景技术

地球物理资料为构建详细的地质模型提供了丰富的地层参数。其中，多维测井曲线数据反映了地层岩性、物性、电性的详细信息，地层分辨率可达0.5m。目前基于人工解释与机器学习算法可详细判别垂向岩性分布。为了实现智能、快速的地层识别与划分，定位目的层段，研究人员所建立的算法模型愈加复杂，受输入的异常数据影响较大。为了确保算法运行中的稳定性，需要建立合适的算法模型对多维测井曲线进行异常值剔除，使得输入训练集数据更有效地指导算法模型更新。因此，本专利将原始多维测井数据作为输入，采用机器学习降维算法确定原始数据点类别作为参考，实现孤立森林算法超参数的准确拾取，从而快速进行大量的多维测井数据异常值剔除。

发明内容

为了解决现有技术中的上述问题，即现有技术中异常数据较多难以实现钻进过程中的稳定的参数获取的问题，本发明提供了一种多维测井数据异常值智能剔除的方法，所述方法包括：

步骤S100，获取多维测井曲线；

步骤S200，基于所述多维测井曲线，通过Umap将为算法进行降维获得二维测井曲线数据；

步骤S300，基于所述二维测井曲线数据，建立多维测井曲线与二维测井曲线的第一数据点索引；

步骤S400，基于所述二维测井曲线数据，通过孤立森林算法进行异常值处理，获得有效测井数据；

步骤S500，基于所述第一数据点索引和有效测井数据，获取第二数据点索引；

步骤S600，基于所述第二数据点索引，找到多维测井曲线中存在第二数据点索引的标记数据点，将标记数据点的集合记为标准测井曲线数据。

在一些优选的实施方式中，所述多维测井曲线，包括：放射性GR、自然电位SP、井径CAL、密度DEN、中子CNL、孔隙度POR、深测向电阻率RD和浅测向电阻率RS。

在一些优选的实施方式中，所述步骤S200，具体包括：

构建局部连接：确定超参数：local_connectivity（邻接点数目的下限）将这些最近的邻接点设置权重为100%，表示这些点完全相关。

步骤S210，确定Umap降维模型的超参数，包括邻接点数目的下限local_connectivity和近邻点数目n_neighbors；近邻点数目为指定每个数据点包含多少近邻点；

步骤S220，将邻接点数目的下限中包含的邻接点设置权重为100%；

将与当前数据点最接近的n_neighbors个近邻作为模糊区域，将模糊区域中的近邻的权重随距离变化，非邻接点和非近邻点的数据点的权重设置为0；

所述将模糊区域中的数据点的权重随距离变化具体为：

；

表示第j个样本点与最接近的近邻点之间的距离，/>表示根据第i个样本点与第j个样本点之间的距离预设的参数，第i个样本点表示任一样本点，/>表示样本点j关于样本点i的权重，/>表示第i个样本点的值，/>表示第j个样本点的值，/>表示距离；

步骤S230，合并数据点的边缘权重：

；

表示样本点j关于样本点i的权重，/>表示样本点i关于样本点j的权重，/>表示样本点j和i的边缘权重；

获得权重邻接图；

步骤S240，基于所述权重邻接图，设置交叉熵目标函数，并通过随机梯度下降算法调整模型参数，直至目标函数达到预设的阈值，获得二维测井曲线数据。

在一些优选的实施方式中，所述步骤S240，具体包括：

步骤S241，基于所述权重邻接图，确定最小距离超参数min_dist，表示低维空间中两个点的最近距离；

步骤S242，基于所述最小距离超参数min_dist，构建交叉熵目标函数：

；

表示交叉熵目标函数的值，/>表示从所选取epoch样本集中选取的两个样本点i和j，/>表示所选取epoch样本集，/>表示样本点i、j的边缘权重；/>表示第i个样本点在低维空间中对应的数据点与第j个样本点在低维空间中对应的数据点之间的距离；所述边缘权重包含方向信息；

；

a和b表示根据最小距离超参数min_dist确定的参数；

；

其中，表示样本点j在低维空间的坐标，/>表示样本点i在低维空间的坐标；

步骤S243，通过随机梯度下降算法调整模型参数，直至目标函数达到预设的阈值，获得二维测井曲线数据。

在一些优选的实施方式中，所述第一数据点索引，具体为在多维测井曲线中的数据点与二维测井曲线的数据点中一一对应的映射。

在一些优选的实施方式中，所述步骤S400，具体包括：

步骤S410，从二维测井曲线数据中随机抽取/>个数据点构成待处理数据子集存入根节点；

步骤S420，从二维测井曲线数据中随机选定一个维度q，在维度q中随机产生一个切割点p；其中切割点p满足，j表示序号；

步骤S430，根据切割点p生成将维度q中数据划分为两个子空间的超平面，指定数值小于p的维度q的数据点放入第一叶子节点，数值大于或等于p的数据点放入第二叶子节点；

步骤S440，递归步骤S420至步骤S430所述的方法，直至所有的叶子节点都只有一个数据点或孤立树已经达到预设的高度；

步骤S450，重复步骤S420至步骤S440所述的方法，直至生成T个孤立树；其中，T个孤立树表示：孤立树没有叶子节点的外部节点，或有两个叶子节点和一个内部节点test；在T个孤立树的内部节点test由维度q和一个分割点p组成，q<p的点属于/>，反之属于/>；

步骤S460，所述T个孤立树即为孤立树森林，令每个数据点遍历每一个孤立树，计算数据点/>在每一个孤立树的高度/>即数据点/>从所在孤立树的根节点到叶子节点经过的边的数量；从而计算数据点/>在孤立树森林中的平均高度，对所有数据点的平均高度做归一化处理，获得归一化的数据点平均高度/>；

步骤S470，基于所述归一化的数据点平均高度，计算异常值分数/>：

；

其中，表示/>个数据点所构建的二叉树路径长度的平均值，E（*）表示期望；

；

其中，表示调和数，通过/>估算，0.5772156649为欧拉常数；

当所述异常值分数小于预设的异常值阈值s时，将对应的数据点剔除，获得有效测井数据/>，/>，/>表示有效测井数据中的数据点数。

在一些优选的实施方式中，所述步骤S500，具体包括：

将所述有效测井数据存在的第一数据点索引设置为第二数据点索引。

本发明的另一方面，提出了一种多维测井数据异常值智能剔除的系统，所述系统包括：

多维曲线获取模块，配置为获取多维测井曲线；

曲线降维模块，配置为基于所述多维测井曲线，通过Umap将为算法进行降维获得二维测井曲线数据；

第一数据点索引建立模块，配置为基于所述二维测井曲线数据，建立多维测井曲线与二维测井曲线的第一数据点索引；

异常值剔除模块，配置为基于所述二维测井曲线数据，通过孤立森林算法进行异常值处理，获得有效测井数据；

第二数据点索引获取模块，配置为基于所述第一数据点索引和有效测井数据，获取第二数据点索引；

二次剔除模块，配置为基于所述第二数据点索引，找到多维测井曲线中存在第二数据点索引的标记数据点，将标记数据点的集合记为标准测井曲线数据。

本发明的有益效果：

（1）本发明通过基于机器学习的降维算法快速抓取多维测井曲线的主要信息，并且自动实现数据点类内间距最小，类间间距最大的效果。将降维后的数据样本点输入孤立森林算法模型进行快速训练与判别，实现异常值数据点的剔除同时还提高了异常值剔除的计算速度。

附图说明

通过阅读参照以下附图所作的对非限制性实施例所作的详细描述，本申请的其它特征、目的和优点将会变得更明显：

图1是本发明施例中多维测井数据异常值智能剔除的方法的流程示意图；

图2是本发明施例中多维测井数据异常值智能剔除的方法采集到的二维测井取向数据图。

具体实施方式

下面结合附图和实施例对本申请作进一步的详细说明。可以理解的是，此处所描述的具体实施例仅用于解释相关发明，而非对该发明的限定。另外还需要说明的是，为了便于描述，附图中仅示出了与有关发明相关的部分。

需要说明的是，在不冲突的情况下，本申请中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本申请。

为了更清晰地对本发明多维测井数据异常值智能剔除的方法进行说明，下面结合图1对本发明实施例中各步骤展开详述。

本发明第一实施例的多维测井数据异常值智能剔除的方法，包括步骤S100-步骤S600，各步骤详细描述如下：

步骤S100，获取多维测井曲线；在本实施例中，所述多维测井曲线，包括：放射性GR、自然电位SP、井径CAL、密度DEN、中子CNL、孔隙度POR、深测向电阻率RD和浅测向电阻率RS。

Umap算法共有两大步骤：

其一是学习高维空间中的流形结构

根据流形结构与数据密度修正空间中样本之间的距离：假设数据点在流形上均匀分布，对稀疏区域收缩，对密集区域拉伸，每个样本点与最远近邻点作为单位距离进行距离修正。

在本实施例中，所述步骤S200，具体包括：

需要局部解释时小的n_neighbors能准确地捕捉结构的细节。当我们的估计基于更大的区域时，较大的n_neighbors值可以泛化整个流形空间。因此，我们通过在尝试学习流形结构时限制局部邻域的大小的n_neighbors 值来实现控制UMAP如何平衡数据中的局部和全局结构。

所述将模糊区域中的数据点的权重随距离变化具体为：

；

遍历每个点之后，不可避免地会遇到边缘权重不对齐地情况，此时需要将权重合并。

步骤S230，合并数据点的边缘权重：

；

表示样本点j关于样本点i的权重，/>表示样本点i关于样本点j的权重，表示样本点j和i的边缘权重；

获得权重邻接图；

步骤S240，基于所述权重邻接图，设置交叉熵目标函数，并通过随机梯度下降算法调整模型参数；从样本数据集中选取epoch的样本点，计算目标函数，计算当前梯度向量，选取预设的学习率（步长），修正模型参数a,b，直至目标函数达到预设的阈值，获得二维测井曲线数据。

在一些优选的实施方式中，所述步骤S240，具体包括：

步骤S241，基于所述权重邻接图，确定最小距离超参数min_dist，表示低维空间中两个点的最近距离；min_dist决定了低维空间中点地聚集程度；

；

表示交叉熵目标函数的值，/>表示从所选取epoch样本集中选取的两个样本点i和j，/>表示所选取epoch样本集，/>表示样本点i、j的边缘权重(有方向)，/>表示第i个样本点在低维空间中对应的数据点与第j个样本点在低维空间中对应的数据点之间的距离；所述边缘权重包含方向信息；

；

a和b表示根据最小距离超参数min_dist确定的参数；

；

步骤S243，通过随机梯度下降算法调整模型参数，直至目标函数达到预设的阈值，获得二维测井曲线数据。二维测井曲线数据转化为散点图如图2所示。

本实施例通过流形学习降维方式可以根据流形结构衡量数据之间的差异信息，并自动聚类，实现从高维向低维空间的映射，便于数据自动划分整合。

本方案在测试过程中，曾尝试使用tSNE的方法进行降维，但是在计算高维距离时，tSNE算法需要计算所有点之间的距离，通过Perplexity（困惑度）参数调整全局结构与局部结构间的软边界后续通过孤立森林算法进行异常值剔除时区分度不足导致实验精度下降；同时对信息损失的计算方法不同，tSNE使用KL散度衡量信息损失，在全局结构上存在失真的可能，进一步影响了实验精度。而本方案考虑在地球物理资料中测井曲线的维度较高，因此采用了umap算法进行降维，umap算法只计算各点与最近k个点之间的距离，严格限制了局部范围，有利于在后续通过孤立森林算法进行异常值剔除提高精度和速度，更进一步的，选用了umap算法之后，由于时采用二元交叉熵进行计算，全局和局部结构均有保留，所以增大了异常值点与非异常值点之间的类间距离，对于去异常值的效果更好。UMAP这种算法较TSN算法将多维测井曲线的异常值与正常值区分度更高，有利于随机森林算法更快速的剔除异常值，同时也避免随机森林误删正常值，在这个应用场景下，任何测井曲线的正常值不能被轻易删除。

步骤S300，基于所述二维测井曲线数据，建立多维测井曲线与二维测井曲线的第一数据点索引；在本实施例中，所述第一数据点索引，具体为在多维测井曲线中的数据点与二维测井曲线的数据点中一一对应的映射。

在本实施例中，所述步骤S400，具体包括：

；

其中，表示调和数，通过/>估算，0.5772156649为欧拉常数；

当所述异常值分数小于预设的异常值阈值s时，将对应的数据点剔除，获得有效测井数据/>，/>，/>，/>表示有效测井数据中的数据点数。

步骤S500，基于所述第一数据点索引和有效测井数据，获取第二数据点索引；在本实施例中，所述步骤S500，具体包括：

第二数据点索引指经过孤立森林算法进行异常值剔除后留下的样本点的索引，第一数据点索引包含第二数据点索引；原来的多维测井曲线可能存在一个样本点有多个参数的情况，这个样本点用第一数据点索引标记；处理后的二维测井曲线是可能一个样本点有两个参数，这个样本点用第二数据点索引标记。

上述实施例中虽然将各个步骤按照上述先后次序的方式进行了描述，但是本领域技术人员可以理解，为了实现本实施例的效果，不同的步骤之间不必按照这样的次序执行，其可以同时(并行)执行或以颠倒的次序执行，这些简单的变化都在本发明的保护范围之内。

本发明第二实施例的多维测井数据异常值智能剔除的系统，所述系统包括：

多维曲线获取模块，配置为获取多维测井曲线；

所属技术领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的系统的具体工作过程及有关说明，可以参考前述方法实施例中的对应过程，在此不再赘述。

需要说明的是，上述实施例提供的多维测井数据异常值智能剔除的系统，仅以上述各功能模块的划分进行举例说明，在实际应用中，可以根据需要而将上述功能分配由不同的功能模块来完成，即将本发明实施例中的模块或者步骤再分解或者组合，例如，上述实施例的模块可以合并为一个模块，也可以进一步拆分成多个子模块，以完成以上描述的全部或者部分功能。对于本发明实施例中涉及的模块、步骤的名称，仅仅是为了区分各个模块或者步骤，不视为对本发明的不当限定。

所属技术领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的存储装置、处理装置的具体工作过程及有关说明，可以参考前述方法实施例中的对应过程，在此不再赘述。

本领域技术人员应该能够意识到，结合本文中所公开的实施例描述的各示例的模块、方法步骤，能够以电子硬件、计算机软件或者二者的结合来实现，软件模块、方法步骤对应的程序可以置于随机存储器（RAM）、内存、只读存储器（ROM）、电可编程ROM、电可擦除可编程ROM、寄存器、硬盘、可移动磁盘、CD-ROM、或技术领域内所公知的任意其它形式的存储介质中。为了清楚地说明电子硬件和软件的可互换性，在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以电子硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。本领域技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本发明的范围。

术语“第一”、“第二”等是用于区别类似的对象，而不是用于描述或表示特定的顺序或先后次序。

术语“包括”或者任何其它类似用语旨在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备/装置不仅包括那些要素，而且还包括没有明确列出的其它要素，或者还包括这些过程、方法、物品或者设备/装置所固有的要素。

至此，已经结合附图所示的优选实施方式描述了本发明的技术方案，但是，本领域技术人员容易理解的是，本发明的保护范围显然不局限于这些具体实施方式。在不偏离本发明的原理的前提下，本领域技术人员可以对相关技术特征做出等同的更改或替换，这些更改或替换之后的技术方案都将落入本发明的保护范围之内。

Claims

1.一种多维测井数据异常值智能剔除的方法，其特征在于，所述方法包括：

步骤S100，获取多维测井曲线；

2.根据权利要求1所述的多维测井数据异常值智能剔除的方法，其特征在于，所述多维测井曲线，包括：放射性GR、自然电位SP、井径CAL、密度DEN、中子CNL、孔隙度POR、深测向电阻率RD和浅测向电阻率RS。

3.根据权利要求1所述的多维测井数据异常值智能剔除的方法，其特征在于，所述步骤S200，具体包括：

步骤S210，确定Umap降维模型的超参数，包括邻接点数目的下限local_connectivity和近邻点数目n_neighbors；

所述将模糊区域中的数据点的权重随距离变化具体为：

；

步骤S230，合并数据点的边缘权重：

；

表示样本点j关于样本点i的权重，/>表示样本点i关于样本点j的权重，/>表示样本点ji的边缘权重；

获得权重邻接图；

4.根据权利要求3所述的多维测井数据异常值智能剔除的方法，其特征在于，所述步骤S240，具体包括：

；

表示交叉熵目标函数的值，/>表示从所选取epoch样本集中选取的两个样本点i和j，/>表示所选取epoch样本集，/>表示样本点i和j的边缘权重，/>表示第i个样本点在低维空间中对应的数据点与第j个样本点在低维空间中对应的数据点之间的距离；所述边缘权重包含方向信息；

；

a和b表示根据最小距离超参数min_dist确定的参数；

；

其中，表示样本点/>在低维空间的坐标，/>表示样本点i在低维空间的坐标；

5.根据权利要求1所述的多维测井数据异常值智能剔除的方法，其特征在于，所述第一数据点索引，具体为在多维测井曲线中的数据点与二维测井曲线的数据点中一一对应的映射。

6.根据权利要求1所述的多维测井数据异常值智能剔除的方法，其特征在于，所述步骤S400，具体包括：

步骤S410，从二维测井曲线数据中随机抽取/>个数据点构成待处理数据子集/>存入根节点；

；

其中，表示/>个数据点所构建的二叉树路径长度的平均值，

表示期望；

；

其中，表示调和数，通过/>估算， 0.5772156649为欧拉常数；

7.根据权利要求1所述的多维测井数据异常值智能剔除的方法，其特征在于，所述步骤S500，具体包括：

8.一种多维测井数据异常值智能剔除的系统，其特征在于，所述系统包括：

多维曲线获取模块，配置为获取多维测井曲线；