CN111542819A

CN111542819A - 用于改进的地下数据处理系统的装置和方法

Info

Publication number: CN111542819A
Application number: CN201880073207.8A
Authority: CN
Inventors: V.贾恩; P.Y.吴; A.阿布巴卡尔; S.梅农
Original assignee: Geological Exploration System
Current assignee: Geological Exploration System
Priority date: 2017-09-26
Filing date: 2018-09-26
Publication date: 2020-08-14
Anticipated expiration: 2038-09-26
Also published as: WO2019067614A1; US20200278467A1; CN111542819B; CA3077178A1; EP3688623A1; US11609353B2; US20230205842A1

Abstract

一种用于地下数据处理的方法和装置包括至少部分地基于与地下数据中的不同深度或时间相关联的测量向量来确定一组聚类；通过与状态模型相关联的类来定义地下数据中的聚类；至少部分地基于类来减少地下数据量，并将减少的地下数据量和具有状态模型的类存储在用于机器学习过程的训练数据库中。

Description

用于改进的地下数据处理系统的装置和方法

背景技术

地质系统和服务包括与地下和海底地区的勘探和资源生产活动有关的各个领域。例如，地质服务可能包括石油服务，天然气服务，化石燃料、金属和矿物的采矿服务以及环境保护，清理和勘测服务。

石油服务涉及与石油、天然气和其他燃料产品的识别和生产有关的勘探、钻探、生产、维护和其他活动相关联的各种服务和系统。这样的系统通常非常复杂，并且需要高度专业化、受过教育且知识丰富的专家的协助来设计系统数据采集和分析过程。数据分析通常不是很简单，并且涉及许多不同的步骤和计算。

数据采集系统可以包括获取数据并提供该数据以进行进一步处理的任何类型的系统。数据采集系统的示例是传感器系统，其中一个或多个物理传感器设备被构造为响应于对物理参数的测量或检测到的水平而生成信号。其他数据采集系统包括数字监视设备、测量设备、自动数据收集设备等。复杂的系统可能包括多个数据采集系统或设备，包括不同类型的数据采集系统。

工作流程可以包括要由特定数据采集系统获取的一组数据、要用于分析所获取数据的一组分析工具、一系列分析、要在获取的数据上执行的一组计算或操作以及要由工作流程生成的一组感兴趣的量。在以前的系统中，工作流程是由专家设计和实施的，他们具有独立和专业的知识来完成分析项目。工作流程的专家定义的一个问题是，一个专家用来设计工作流程的知识可能与另一位专家所使用的知识不同。因此，结果不标准，存在不一致之处。此外，当特定的专家换工作或离开特定的职位时，该专家为设计工作流程而获得和使用的知识将被遗忘或丢失给雇用该专家的公司。事先使用专家设计和/或实施数据采集和分析工作流程，存在各种其他争议和问题。

传统的处理和解释工作流程是主观的，视石油技术专家的专业知识而是不一致的，并且交付成果的周转缓慢。尝试使用机器学习需要(1)大量数据(深度样本)以有效地跨越测量空间，以及(2)进行大量测量以正确推断低维特征集。基于机器学习的方法的需求通常不可用，从而限制了其应用范围。

发明内容

描述了用于改进地下数据处理系统的方法和系统。尽管一些实施例可以讨论特定类型的数据，但是应当理解，本公开不限于此，并且除其他数据之外，地下数据可以包括可以表示地下信息的所获取的关于深度或时间的任何数据。地下数据的示例包括地震数据、测井曲线、生产数据、岩心数据、压力数据、温度数据、来自样本的数据等。

在示例中，用于地下数据处理的方法包括至少部分地基于与地下数据中的不同深度或时间相关联的测量向量来确定一组聚类；通过与状态模型相关联的类在地下数据中定义聚类。至少部分地基于类减少地下数据量，并将具有所述状态模型的减少的地下数据和类的数量存储在训练数据库中，以用于机器学习过程。

测量向量的深度或时间可以是连续的。

测量向量的深度或时间可以是不连续的。

该方法可以包括至少部分地基于重构的输入数据来重构输入数据并验证状态模型。

该方法可以包括接收新的输入数据并将状态模型应用于新数据。

该方法可以包括至少部分地基于应用于新输入数据的状态模型的结果来确定新的预测数据。

该方法可以包括生成所识别的类和减少的地下数据量的可视化。

确定聚类集可以包括交叉熵聚类操作。

交叉熵聚类操作的输出可以应用于高斯混合模型过程。

高斯混合模型过程可以从数据中去除球形度。

高斯混合模型过程的输出可以应用于隐马尔可夫模型过程。

隐马尔可夫模型的输出可能包括带有状态模型的类。

在另一个示例中，地下数据处理装置包括存储器和处理器。存储器被构造为存储地下数据和用于机器学习过程的知识库。处理器被构造为至少部分地基于与地下数据中的不同深度或时间相关联的测量向量来确定一组聚类，通过与状态模型相关联的类在地下数据中定义聚类，至少部分地基于限定的类减少地下数据量，并将减少的地下数据量和具有状态模型的类存储在用于机器学习过程的知识库中。

测量向量的深度或时间可以是连续的。

测量向量的深度或时间可以是不连续的。

处理器可以被构造为重构输入数据并验证与重构的输入数据有关的状态模型。

处理器可以被构造为接收新的输入数据并将状态模型应用于新数据。

处理器可以被构造为至少部分地基于应用于新输入数据的状态模型的结果来确定新的预测数据。

在将类分配给新数据之后，处理器可以被构造为将更新的处理或解释参数存储在知识库中，并且处理器可以被构造为按类应用更新的处理或解释参数以自动生成输出。

处理器可以被构造为生成所识别的类和减少的地下数据量的可视化。

处理器可以被构造为至少部分地基于交叉熵聚类操作来确定该组聚类。

处理器可以被构造为对交叉熵聚类操作的输出执行高斯混合模型过程。

处理器可以被构造为使用高斯混合模型过程从数据中去除球形度。

处理器可以被构造为对高斯混合模型过程的输出执行隐马尔可夫模型过程。

隐马尔可夫模型的输出可能包括带有状态模型的类。

在另一示例中，一种方法，包括提供训练数据和输入数据，所述训练数据包括减少的训练数据和具有至少一个状态模型的类；向所述输入数据分配具有状态模型的训练数据类；至少部分地基于训练数据重构输入数据，至少部分地基于重构的输入数据来确定重构误差，至少部分地基于重构误差来对输入数据进行排序(sort)，并且提供排序后的输入数据作为输出。

确定重构误差可以包括确定实际测量值与重构测量值之间的均方根误差。

确定均方根误差可包括按类归一化均方根误差。

该方法可以包括以可视化显示排序的输入数据。

该方法可以包括确定用于排序的输入数据的类分配概率。

在示例中，地下数据处理装置包括存储器和处理器。存储器被构造为存储地下数据和用于机器学习过程的知识库。所述处理器被构造为提供训练数据和输入数据，所述训练数据包括减少的训练数据集和具有至少一个状态模型的类，至少部分地基于所述训练数据来重构输入数据，至少部分地基于重构的输入数据来确定重构误差，至少部分地基于重构误差对输入数据进行排序，并且提供排序后的输入数据作为输出。

附图说明

以下附图构成本说明书的一部分，并被包括以进一步示出本公开的某些方面。结合本文中给出的具体实施例的详细描述，可以通过参考这些附图中的一个或多个来更好地理解本公开。

图1是示出用于增强地质服务特征化的系统的实施例的示意框图；

图2是示出用于增强地质服务特征化的系统的实施例的示意框图；

图3是示出地下测量的实施例的表；

图4是示出聚类的示例的图；

图5是示出无监督学习的实施例的流程图；

图6是处理数据的实施例的图；

图7是示出类验证过程的实施例的流程图；

图8是处理训练数据的实施例的图；

图9是处理新数据的实施例的图；

图10是示出基于类的机器学习工作流程的实施例的流程图。

具体实施方式

参照在附图中示出并且在以下描述中详细描述的非限制性实施例，更充分地解释了各种特征和有利细节。然而，应当理解，详细描述和具体示例仅通过说明的方式给出，而不是通过限制的方式给出。在本公开的精神和/或范围内的各种替换、修改、增加和/或重新布置对于本领域技术人员将变得显而易见。

本公开针对用于地下数据处理系统的改进的装置和方法，其提供了在地下数据处理中提供新结果的有序组合。在一个示例中，本申请描述了一种新的处理设备，该设备以新的形式呈现地下数据结果，提供新的输出，具有更高的可靠性，使用更低的处理资源或提供改进的性能。所描述的装置和方法不能以任何有用的方式手动执行。简化的数据集可以用于说明性目的，但是应当理解，本公开扩展到具有数千个点的数据集，从而需要本文所述的新的基于硬件的处理系统。

图1描绘了根据一些实施例的示例地质系统100。系统100可以是单独的系统101A或分布式系统的布置。系统101A包括一个或多个地球科学分析模块102，其被构造为根据一些实施例执行各种任务，例如本文公开的一种或多种方法。为了执行这些各种任务，地球科学分析模块102独立地执行或与一个或多个处理器104协同执行，所述一个或多个处理器104被连接到一个或多个存储介质106A。处理器104也被连接到网络接口108，以允许系统101A通过数据网络110与一个或多个附加系统和/或诸如101B，101C和/或101D(请注意，系统101B，101C和/或101D可能会或可能不会与系统101A共享同一架构，并且可能位于不同的物理位置，例如，系统101A和101B可能在正在航行中的船舶上或在井场，同时与位于海岸、其他船舶上的一个或多个数据中心和/或位于不同大陆的不同国家的一个或多个系统(例如101C和/或101D通信)的系统通信。注意，数据网络110可以是专用网络，它可以使用部分的公共网络，它可以包括远程存储和/或应用处理能力(例如，云计算)。

处理器可以包括微处理器、微控制器、处理器模块或子系统、可编程集成电路、可编程门阵列或另一控制或计算设备。

存储介质106A可以被实现为一种或多种计算机可读或机器可读的存储介质。注意，尽管在图1的示例性实施例中，存储介质106A被描绘为在计算机系统101A内，但是在一些实施例中，存储介质106A可以分布在计算系统101A和/或附加计算系统的多个内部和/或外部外壳内和/或上。存储介质106A可以包括一种或多种不同形式的存储器，包括半导体存储设备，例如动态或静态随机存取存储器(DRAM或SRAM)、可擦除和可编程只读存储器(EPROM)、电可擦除和可编程只读存储器(EEPROM)和闪存；磁盘，例如固定、软盘和可移动磁盘；其他磁性介质，包括磁带；光学介质，例如光盘(CD)或数字视频磁盘(DVD)，蓝光光盘或任何其他类型的光学介质；或其他类型的存储设备。注意，上述讨论的指令可以提供在一个计算机可读或机器可读存储介质上，或者可以提供在分布在具有可能多个节点和/或非暂时性存储器件的大型系统中的多个计算机可读或机器可读存储介质上。这样的计算机可读或机器可读存储介质被认为是物品(或制造物品)的一部分。物品或制造品可以指任何制造的单个组件或多个组件。一个或多个存储介质可以位于运行机器可读指令的机器中，或者位于可以从网络上下载机器可读指令以执行的远程站点处。

应当理解，系统101A仅仅是一个示例，并且系统101A可以具有比所示出的更多或更少的组件，可以结合在图1的示例实施例中未示出的附加组件，和/或系统101A可以具有图1所示的组件的不同构造或布置。图1中所示的各种组件都可以实施为硬件、软件或硬件和软件二者的组合，包括一个或多个信号处理和/或专用集成电路。

还应当理解，系统100可以包括用户输入/输出外围设备，诸如键盘、鼠标、触摸屏、显示器等。系统100可以包括台式工作站、膝上型计算机、平板计算机、智能手机、服务器计算机等。

此外，本文中描述的处理方法中的步骤可以通过运行信息处理装置中的一个或多个功能模块来实现，例如通用处理器或专用芯片，例如ASIC、FPGA、PLD或其他适当的设备。这些模块、这些模块的组合和/或它们与硬件的组合都包括在本公开的范围内。

数据采集系统130可以包括系统、传感器、用户界面终端等，其被构造为接收与在诸如勘探单元、石油钻机、石油或天然气生产系统的石油服务设施处收集的记录相对应的数据。获得的数据可以包括传感器数据、日志数据、计算机生成的数据等。

参照图2，多客户端系统200可以包括集中式服务系统202，其可以例如在云服务系统上实现。在这样的实施例中，集中式服务系统202可以包括一个或多个云数据存储系统201和一个或多个计算节点203。在这样的实施例中，系统200可以包括多个客户端网络，包括第一客户端网络206、第二客户端网络208和第三客户端网络210。每个客户端网络206-210可以通过系统通信网络204与集中式服务系统202进行通信，该系统通信网络可以是Internet或专用WAN连接。

在这样的实施例中，每个客户端网络206-210可以包括图1中描述的组件，诸如计算机系统101A-D和数据采集系统130等。这样的设备可以经由内部网络110进一步连接。在这样的实施例中，每个客户端网络206-210可以与集中式服务系统202进行通信，用于数据存储和某些集中式数据处理和分析过程的实施。

基于类的机器学习

现在将更详细地讨论基于类的机器学习(CBML)方法以使用机器学习。通过将训练数据(地下数据的深度样本)减少为几个可解释的类以及按类学习模型，其可以被称为状态模型，该方法提供了相对于以专家为中心(例如，手动)和基于先前机器学习的方法的示例改进。计算属于类的新数据点的分配概率。在一些实施例中，然后如果每个新数据点超过某个阈值，则将其分配给具有最高概率的类，从而创建有限的训练数据跨越新数据点并且可以应用按类学习的模型。在其他实施例中，如果一个或多个新数据点超过某个阈值，则将其分配给具有最高概率的该类，从而创建有限的训练数据跨越新数据点，并且可以应用按类学习的模型。通过进行更多的测量，可以进一步表征另外两种可能性-未分配任何类的深度或时间以及可与许多现有类等概率的深度或时间。使用类的特征度量，计算结果的不确定性。确定结果的不确定性是解决基于纯机器学习的方法的最大缺点之一。

在一示例中，CBML从训练数据中获取知识，然后传播到下一个数据(如果适用)，从而减少或消除了对大型训练数据集的需求。聚类，具有状态模型和不确定性估计方法的类提供应用于其他测量较少的数据。CBML可以消除主观性和不一致之处，并且还可以大大缩短周转时间。该方法还可以转换为持续学习、提取和应用程序循环，在某些情况下可以完全自动化许多工作流程，包括但不限于地下数据的处理和解释。

参考图3，在深度以上获得的地下测量值(或在地面上获得的基于时间的测量值)可以表示为矩阵M。在一些实施例中，每一行包括在深度或时间上的测量值的向量，

在其他实施例中，一行或多行包括在深度或时间上的测量值的向量，

获得的测量值(例如，MEAS 1，MEAS 2，…，MEAS)可以是高度相关的测量向量(例如，

的)可能在几个深度或时间上非常相似，因为测量的地质地层的性质，导致测量和深度或时间空间的高度冗余。两个冗余都令人感兴趣。利用不同的物理模型或观测模型，可以解决同一潜在岩石物理性质。深度冗余示出了随深度或时间而呈现的模式，其提供了对沉积环境、地层、结构和地层地质的洞察(或在其他实施例中，生产历史数据中的模式)。

在某些情况下，在应用机器学习之前，会在测量空间中减少高度冗余的数据。这样做的技术是主成分分析和主因子分析。尽管测量高度相关，但是在测量空间中进行数据缩减可能会导致深度或时间空间中的模式混淆。

图4示出了基于两个测量值的两个可分离的聚类302和304。聚类302包括多个数据点306。聚类304包括多个数据点308。在数据缩减(例如，主成分分析)之后，缩减的测量值不再是可分离的。减少的数据具有处于具有主成分312的投影减少的测量值中的数据点310。感兴趣的模式或聚类被隐藏。

本公开的CBML方法可以通过减少深度或时间空间中的数据并使用相似的测量向量来创建深度类来保持存在于测量空间中的更多或全部信息未受影响。这可以针对输入的训练数据来完成。训练数据的测量矩阵用M_T表示。

在训练数据的深度空间中创建类

在使用类似的测量向量创建深度或时间类时，有几个考虑因素。一种机器学习技术是聚类，它可以包括一先验数的聚类和相应的形状。虽然对于训练数据可能不知道聚类的数目，但聚类的形状可能是非球形的，并且可以使用一组聚类方法来确定训练数据中的最优聚类。

当地下地层的性质是连续的，也就是说，没有尖锐的边界，但有更柔和的过渡，随着深度或时间的推移，一致性可能会在聚类中被禁止。某一深度或时间i的聚类数在某些情况下与深度或时间i-1上的相同。属于一个聚类的深度或时间的概率可用于计算不确定性，这是随后岩石物理结果的理想数量。

参考图5，无监督学习过程可以使用聚类技术的组合。该过程包括具有状态模型的类，其中包括转移和发射概率，而类是输出。

在步骤352，输入可以标准化的训练数据。作为示例，在步骤354，可以使用交叉熵聚类(CEC)来确定优选的聚类数。例如，训练数据可以具有5、10、12、15或20个聚类，每个聚类具有相似的测量向量，这些向量出现在多个连续或不连续的深度上。交叉熵聚类中使用的一个参数是聚类数的上限。可以使用所有正在使用的测量中最低的竖直分辨率来确定。例如，在具有最小竖直分辨率为5英尺的一组测量值的1000英尺数据中，将无法解析5英尺或更低高度的层中的测量值。因此，聚类的最大数可以是1000/20＝50，其可用于初始化CEC。该CEC可以假定为球形，并且可以假定输入测量值的独立性。同样可以使用其他几种聚类方法来实现确定最佳聚类数和初始聚类结果的目的。然而，将意识到，这些假设对于某些实施例仅是示例性的，并且不限制本公开。

在步骤356，高斯混合模型(GMM)使用CEC结果进行初始化，然后进行迭代以将聚类重新分配为多变量高斯。在一些实施例中，GMM不限于高斯形状。GMM可以去除球形度，利用高度相关的测量值，然后重新分配聚类。例如，训练数据中的特定深度或时间i可能已经由假定球形的CEC分配了(20个聚类的)聚类5。然后，GMM放宽了球形度约束，并且可以将聚类编号11分配给相同的深度或时间i。

在步骤358，隐马尔可夫模型(HMM)使用GMM结果进行初始化，然后进行迭代以学习状态(聚类)模型。状态模型可以包括高斯分布中的转移概率和发射概率。发射概率提供了在特定深度或时间i处观测聚类j的概率，该概率也可以是聚类j的深度或时间数与数据中的深度或时间之比。转移概率提供了深度或时间i处的聚类j更改为深度或时间i+1处的聚类k的概率。从最后一段中的示例继续，聚类15可能具有60％的高发射概率，并且从聚类11到聚类15变化的转移概率是30％。那么，从深度或时间i处的聚类11过渡到深度或时间i+1处的聚类15的联合概率将为18％(0.6*0.3)。可以使用包括发射和转移概率的状态模型来计算用于深度或时间i+1的聚类的相似联合概率。给定聚类11在深度或时间i处，具有最高联合概率的任何聚类可以是深度或时间i+1处的聚类。在一实施例中，形状不受限制，并且聚类从一个深度或时间到下一个的过渡被惩罚。HMM可以是单阶的，也可以是第n阶的。通过使用更高阶的HMM，深度上的正则化会增加，并且可能导致地层中的过渡更加平滑。

在步骤360，输出具有状态模型的聚类结果或类。输出可以是最终的，也可以是中间的，然后继续进行进一步处理。

在其他实施例中，一些步骤可以重新排序。在其他实施例中，可以添加一些步骤。在其他实施例中，可以省略一些步骤。在其他实施例中，可以改变某些步骤以包括本领域技术人员已知的其他技术。

图6示出了针对如图5中所述的处理的真实数据的聚类结果的示例。轨迹1至9(402，404，406，408，410，412，414，416，418)示出了用于训练的输入测量值。轨迹10(420)示出了交叉熵聚类之后的类。轨迹11(422)示出了应用高斯混合模型后的重新分配的类。轨迹12(424)示出了来自隐马尔可夫模型的正则化类。

表征训练类

可以使用以下一种或多种特性来表征训练：

1.一个或多个(或每个)类的平均测量向量(由

表示)。

2.一个或多个(或每个)类的测量的协方差矩阵(由Σ_c表示)。

3.一个或多个(或每个)类的高斯概率密度函数(由

表示)。

4.一或多个(或每个)类的最小和最大测量向量(由

表示)。

验证和可视化训练类

图6示出了类验证过程。在步骤452，输入训练数据、类和类特征。在步骤454，重构输入数据。重构可以包括使用类及其特征值。重构还可以包括基于最小和最大特性来捕获重构数据的不确定性。

在步骤456，计算重构误差和相似性指数。计算可包括按照深度或时间确定实际测量值与重构测量值之间的RMS误差，按照类(基于此，将该类划分为进一步的类)的归一化RMS误差，以及类相似性指数(基于哪些类可以分离或融合)。

在步骤458，按类对输入数据进行排序。排序可以包括图排序的输入、重构的类、类的概率和重构误差。在步骤460，可以将输出提供给显示器以用于类的可视化和验证。

将意识到，工作流程可以验证无监督的学习结果。该工作流程还可以用于将类分配给新数据进行验证。如果将类分离或融合，则可以学习新的状态模型并重复该过程。

参照图8，对于示例训练数据，分配概率高并且重构误差小。在将类分配给新数据时，这两个数量可用于对它们进行基准测试。轨迹1到9(502，504，506，508，510，512，514，516，518)示出了用于训练(例如520)的输入测量值，其具有重构(例如522)和误差范围(例如524)。轨迹10(526)示出了通过对称平均绝对百分比误差(sMAPE)测量的重构误差。轨迹11(528)示出了从隐马尔可夫模型正则化类。轨迹12(530)示出了类分配概率。

按类学习输出并创建知识库

在训练类被验证后，按类输出可以与类属性一起被学习和存储。可以学习的不同类型的输出包括：

1.用于按类处理和/或解释训练数据的参数。

2.使用按类输出和输入创建的机器学习模型。

状态模型、训练类、各自特性和学习到的输出被存储在知识库中。这可以提供具有较小尺寸的知识库。在类与物理意义对应的情况下，用户指定的标签也可以与类一起存储在同一知识库中。

为新数据分配类并生成输出数据

在一些实施例中，在接收到新数据时，可以使用类属性或状态模型以及计算出的分配概率，将每个新数据点分配给知识库中的类。在其他实施例中，可以使用类属性或状态模型以及计算的分配概率，将一个或多个新数据点分配给知识库中的类。还可以重构新的数据输入，并计算对称平均绝对百分比误差(sMAPE)(如图9所示)。使用训练数据中的分配概率和重构误差作为基准，可以评估对新数据的分配质量。可能形成的三个示例情况是：

1.高分配概率和低重构误差-这些新数据点可以确定在范围内，并且与训练数据非常相似。

2.分配概率高，但重构误差高-尽管这些新数据点可能在训练数据的范围之内，但一个或多个测量值与训练数据中观察到的值存在偏差，这表明训练数据中未见某些环境影响或测试数据中的采集质量问题。

3.分配概率低，重构误差高-新数据可能不在训练数据范围内，并且不应将类分配给这些数据点。基于分配概率的两个子情况是：

a.非常低的累积分配概率—新数据点可能与训练数据的范围相去甚远。这些优选地被重新表征到它们自己的类和新创建的基于类的属性中，学习的输出模型以及标签被存储回知识库中。

b.两个或多个类的相似分配概率—在测量超空间中，新数据点可能与两个或多个类大致等距，并且可以进行更多测量以改善分类。一旦为这些新数据点获取了新的测量值，这些测量值便会重新表征到新的类和基于类的属性中，学习到的输出模型以及标签被存储在知识库中。在不进行新测量的情况下，可以通过提供相似类的参数范围或通过混合使用来自相似类的学习输出模型生成的输出来生成概率输出。

图9示出了新数据的处理。轨迹1至9(552，554，556，558，560，562，564，566，568)示出了具有重构(572)和误差范围(574)的新数据(570)的输入测量值。轨迹10(576)示出了通过对称平均绝对百分比误差(sMAPE)测量的重构误差。轨迹11(578)示出了隐马尔可夫模型的分配类。轨迹12(580)示出了类分配概率。

知识库更新和闭环

基于将类分配给新数据时观察到的情况创建新情况的三个示例是：

1.累积分配概率非常低或为零-这些数据点可能会被重新表征，处理或解释，然后被重新分类为新类。由于测量向量的大小可能保持相同，因此这些新类可以直接存储回知识库中。

2.两个或多个类的相似分配概率-如果为这些数据点获取了新的测量值，则可以对这些数据点进行重新表征并将其重新分类为新的类。新类可能具有较大的测量向量大小。这些新类可能是将相似类分离到更高维度的测量空间中。这些新类可以替换知识库中的类似类。因此，当前知识库中的测量向量大小可能会增加新的测量次数。可以将测量值较少的类分配给新测量值的缺失值。然后，可以将该新的增强知识库用于后续新数据。

3.在所有新数据点上获取更多的测量值-如果在所有新数据点上获取新测量值，则该数据可用于重新训练和学习。可以使用以前的数据集指导学习，并使用新的测量值来增强学习。基于类属性的相似性，可以为新类的子集分配与旧类相同的编号和类型。如果新的知识库用于先前获取的数据，则这可以提供结果的一致性。

时间表和历史日志可以与知识库更新的细节一起维护。知识库的更改可能会在时间表上提供一个时期(epoch)，表示此后的输出更改。

图10示出了工作流程的实施例。在步骤602，输入训练数据。在步骤604，执行离群值检测。在步骤606，确定训练数据是否满足标准。例如，确定输入的训练数据的值对于该过程的应用是否合理。如果确定训练数据是合理的并且满足标准，则过程前进到步骤608，在步骤608中，执行图5的CEC-GMM-HMM步骤。图5的过程的输出是在步骤610具有状态模型的类。在步骤610确定的状态模型在步骤612被合并到重新训练的状态模型中。

在步骤614应用再训练的状态模型以提供重构的输入数据以在步骤614进行验证和/或在步骤618提供新的预测数据。通过对重构的输入数据进行验证，可以利用减少的输入数据集来改进知识库。因此，在每次迭代中，知识库变得更加准确。

返回参照步骤606，如果确定输入的训练数据的值可疑且不符合标准，则过程在步骤614等待收集更可靠的数据和/或将其提供给系统。过程前进到步骤616，在步骤616中，执行图5的CEC-GMM-HMM步骤。在步骤612提供重新训练的状态模型，并且该过程如上所述继续。

在步骤620，提供新的输入数据，例如新获取的地下数据。在步骤622，执行离群值检测。如果新输入数据满足可靠性标准，则过程前进到步骤614，将知识库的状态模型应用于新输入数据。如果新输入数据不满足可靠性标准，则过程前进到等待和收集步骤614。

上述基于类的具有聚类过程的机器学习的地下数据处理系统可以提供可靠且稳健的无监督学习结果。数据中的噪声可能会被去除，结果可能会稳定下来。例如，仅需要将新数据与来自训练数据的蓝图或学习到的类进行比较。此外，知识库和相应的时间表可以提供一种简洁而负责的方式来存储类、各自的属性、学习的模型和标签。

本公开可以应用于在测量/特征空间和深度/时间/样本空间中具有冗余的任何数据。

本公开可以应用于任何数量的测量值或样本。

本公开的示例用例是对包括地下和地面数据的基于深度或时间的数据的自动质量控制，处理和解释。

本公开的另一示例用例是预测。状态模型可用于预测依赖于连续增加的指标(例如深度或时间)的数据。

训练数据可以是模型数据或模拟数据。

尽管上面已经描述了根据所公开的原理的各种实施例，但是应当理解，它们仅以示例的方式给出，而不是限制性的。

此外，在所描述的实施例中提供了上述优点和特征，但是不应将这些已发布的权利要求的应用限制于实现上述任何或所有优点的过程和结构。

已经对地质系统和服务特别有益地描述了本实施例。各个方面和有序组合为结合改进的训练过程提供了独特且改进的解决方案，从而使机器学习技术变得可行，无论工作流程中是否具有可用的专家知识。尽管已经针对地质系统和服务突出了这些益处，但是应当理解，可以从本实施例中受益的其他领域包括基于时间的数据、地表数据、人口统计学、心理学、考古学、海洋生物学等。尽管本文描述的实施例可以在许多地质领域中的任何一个中使用，但是主要参考石油服务来描述本实施例。

还将意识到，所描述的方法不能在精神上执行。例如，参照图5描述的过程实际上不能由人在任何合理的时间尺度上执行。此外，机器学习技术例如由专门编程的机器执行。

尽管在此参考特定实施例描述了本发明，但是在不脱离本公开的范围的情况下可以做出各种修改和改变。因此，说明书和附图应被认为是说明性的而不是限制性的，并且所有这样的修改旨在被包括在本公开的范围内。本文关于特定实施例描述的任何益处、优点或问题的解决方案均不旨在被解释为任何或所有权利要求的关键、必需或必要特征或要素。

除非另有说明，否则诸如“第一”和“第二”之类的术语用于任意地区分此类术语所描述的要素。因此，这些术语不一定旨在指示此类元素的时间或其他优先顺序。术语“联接”或“可操作地联接”被定义为连接，尽管不一定直接地并且不一定机械地。除非另有说明，术语“一(a)”和“一个(an)”被定义为一个或多个。术语“包含”(以及任何形式的包含，例如“包含(comprises)”和“包含(comprising)”)、“具有”(以及任何形式的具有，例如“具有(has)”和“具有(having)”)、“包括”(以及任何形式的包括，例如“包括(includes)”和“包括(including)”)和“含有”(以及任何的形式的含有，例如“含有(contains)”和“含有(containing)”)都是开放式的链接动词。结果，“包含”、“具有”、“包括”或“含有”一个或多个元件的系统、设备或装置拥有那些一个或多个元件，但不仅限于仅拥有那些一个或多个元件。类似地，“包含”、“具有”、“包括”或“含有”一个或多个操作的方法或过程拥有那些一个或多个操作，但不限于仅拥有那些一个或多个操作。

Claims

1.一种用于地下数据处理的方法，包括：

至少部分地基于与地下数据中的不同深度或时间相关的测量向量来确定一组聚类；

通过与状态模型关联的类在地下数据中定义聚类；

至少部分地基于所述类减少地下数据量；和

将减少的地下数据量和具有所述状态模型的类存储在训练数据库中，用于机器学习过程。

2.根据权利要求1所述的方法，其中，所述测量向量的深度或时间是连续的。

3.根据权利要求1所述的方法，还包括重构输入数据并至少部分地基于所重构的输入数据来验证所述状态模型。

4.根据权利要求1所述的方法，还包括接收新的输入数据，并将状态模型应用于新数据。

5.根据权利要求4所述的方法，还包括至少部分地基于应用于新的输入数据的状态模型的结果来确定新的预测数据。

6.根据权利要求1所述的方法，还包括生成所识别的类和减少的地下数据量的可视化。

7.根据权利要求1所述的方法，其中，确定一组聚类包括交叉熵聚类操作。

8.根据权利要求7所述的方法，其中，将所述交叉熵聚类操作的输出应用于高斯混合模型过程。

9.根据权利要求8所述的方法，其中，所述高斯混合模型过程的输出被应用于隐马尔可夫模型过程。

10.一种地下数据处理装置，包括：

存储器，被构造为存储地下数据和用于机器学习过程的知识库；和

处理器，构造为

至少部分地基于与地下数据中的不同深度或时间相关联的一组测量向量来确定一组聚类；

通过与状态模型关联的类在地下数据中定义聚类；

至少部分地基于所述类减少数据量；和

将减少的地下数据量和具有所述状态模型的类存储在用于机器学习过程的知识库中。

11.根据权利要求10所述的装置，其中，所述处理器被构造成重构输入数据并至少部分基于所重构的输入数据来验证所述状态模型。

12.根据权利要求10所述的装置，其中，所述处理器被构造为接收新的输入数据并将状态模型应用于新的数据。

13.根据权利要求12所述的设备，其中，所述处理器被构造为至少部分地基于应用于新的输入数据的状态模型的结果来确定新的预测数据。

14.根据权利要求12所述的装置，还包括在将类分配给新的数据之后，所述处理器被构造为将更新的处理或解释参数存储在所述知识库中，且所述处理器被构造为按类应用所更新的处理或解释参数以自动生成输出。

15.根据权利要求10所述的装置，其中，所述处理器被构造为至少部分地基于交叉熵聚类操作来确定一组聚类。

16.根据权利要求15所述的装置，其中，所述处理器被构造为对交叉熵聚类操作的输出执行高斯混合模型过程。

17.根据权利要求16所述的装置，其中，所述处理器被构造为对所述高斯混合模型过程的输出执行隐马尔可夫模型过程。

18.一种方法，包括：

提供训练数据和输入数据，该训练数据包括减少的训练数据和具有至少一个状态模型的类；

将具有状态模型的训练数据类分配给输入数据；

至少部分地基于训练数据来重构输入数据；

至少部分地基于重构的输入数据来确定重构误差；

至少部分地基于重构误差对输入数据进行排序；和

提供排序的输入数据作为输出。

19.根据权利要求18所述的方法，其中，确定重构误差包括逐类地确定实际测量值和重构测量值之间的均方根误差。

20.根据权利要求18所述的方法，还包括确定用于排序的输入数据的类分配概率。

21.一种用于地下数据处理的方法，包括：

通过与状态模型关联的类在地下数据中定义聚类；

至少部分基于所述聚类来识别类；

至少部分地基于测量向量来识别深度的类；

至少部分地基于所述类减少地下数据量；和

将减少的地下数据量和具有状态模型的类存储在用于机器学习过程的训练数据库中。

22.根据权利要求21所述的方法，其中，测量向量的深度或时间是连续的。

23.根据权利要求21所述的方法，其中，还包括重构输入数据并至少部分地基于重构的输入数据来验证所述状态模型。

24.根据权利要求21所述的方法，还包括接收新的输入数据并将状态模型应用于新的数据。

25.根据权利要求24所述的方法，还包括至少部分地基于应用于新的输入数据的状态模型的结果来确定新的预测数据。

26.根据权利要求21所述的方法，还包括生成所识别的深度的类和减少的地下数据量的可视化。

27.根据权利要求21所述的方法，其中，确定一组聚类包括交叉熵聚类操作。

28.根据权利要求27所述的方法，其中，将所述交叉熵聚类操作的输出应用于高斯混合模型过程。

29.根据权利要求28所述的方法，其中，所述高斯混合模型过程的输出被应用于隐马尔可夫模型过程。

30.一种地下数据处理装置，包括：

处理器，被构造为执行权利要求21-29中的任一项所述的方法。

31.一种方法，包括：

提供训练数据和输入数据，训练数据包括减少的训练数据和具有至少一个状态模型的类；

将具有状态模型的训练数据类分配给输入数据；

至少部分地基于训练数据来重构输入数据；

至少部分地基于重构的输入数据来确定重构误差；

至少部分地基于重构误差对输入数据进行排序；和

提供排序的输入数据作为输出。

32.根据权利要求31所述的方法，其中，确定重构误差包括逐类地确定实际测量值和重构的测量值之间的均方根误差。

33.根据权利要求31所述的方法，还包括以可视化显示排序的输入数据。

34.根据权利要求31所述的方法，还包括确定用于排序的输入数据的类分配概率。

35.一种地下数据处理装置，包括：

处理器，被构造为执行权利要求31-34中的任一项所述的方法。