CN110383308A

CN110383308A - 预测管道泄漏的新型自动人工智能系统

Info

Publication number: CN110383308A
Application number: CN201880016607.5A
Authority: CN
Inventors: H·阿巴斯
Original assignee: Oracle International Corp
Current assignee: Oracle International Corp
Priority date: 2017-04-13
Filing date: 2018-04-02
Publication date: 2019-10-25
Anticipated expiration: 2038-04-02
Also published as: US20180300639A1; WO2018191048A9; JP7043512B2; EP3612994A1; WO2018191048A1; CN117648997A; US20220277207A1; CN110383308B; US11373105B2; JP2020517004A

Abstract

本公开的实施例针对管道泄漏预测系统，该管道泄漏预测系统被配置为预测管道(例如，携带诸如水之类的某种物质的公用设施管道)是否可能泄漏。管道泄漏预测系统可以包括基于一种或多种机器学习技术的一个或多个预测模型，并且可以使用各种管道的特点数据来训练预测模型，以便确定与无泄漏的管道相关联的模式和与有泄漏的管道相关联的模式。预测模型可以被验证、被用于构造混淆矩阵、以及被用于生成与用于进行预测的决定因素变量相关联的见解和推论。预测模型能够应用于各种管道的数据，以便预测这些管道中的哪些管道将泄漏。

Description

预测管道泄漏的新型自动人工智能系统

相关申请的交叉引用

本申请要求标题为“A NOVEL AUTONOMOUS ARTIFICIALLY INTELLIGENT SYSTEMTO PREDICT PIPE LEAKS”的于2017年4月13日提交的美国临时申请62/485,314和于2017年11月21日提交的美国非临时申请15/820,316的权益和优先权，并且出于所有目的，每个申请通过引用全文并入本文。

背景技术

公用事业公司常常使用管道来输送和递送公用设施(例如，用于递送水的管道)。但是，随着时间的推移，这些管道可能由于各种原因而发生故障并开始发生泄漏。出于多种原因，这些泄漏对公用事业公司来说非常昂贵。公用事业公司可能必须承担泄漏的损失(例如，从管道泄漏的水的成本)或与泄漏相关联的任何损坏(例如，由水引起的溢流)。由于某些管道不易接近(例如，埋在地下)，因此还存在与识别和修复泄漏相关联的成本，并且在一些情况下，泄漏可能不会立即显现。管道泄漏造成总水管破裂和落水洞(sinkholes)，这除了对环境和公共健康造成危害，还对周围企业造成经济损失、纳税人的钱的浪费、交通延误和机会成本。为了修复泄漏的管道，公用设施必须将水重新路由到其它管道。这对那些管道施加大量附加的应力，这可以导致在非常大的地理区域和远离原始管道泄漏的地方发生管道泄漏的连锁反应。此外，由于能够预测某个管道是否会泄漏，公用事业公司可以为未来的管道设计和实施新的施工招标合同的制造商采购标准，以降低泄漏的可能性。

这些公用事业公司将极大地受益于能够预先预测哪些管道将泄漏，因为这将允许公司将其资源用于在这些泄漏发生之前停止这些泄漏。但是，在实践中，这可能很难做到。在不同的情况下，管道具有变化的维度和材料，并且它们也在各种地点并以各种方式安装。换句话说，可以有许多因素决定具体管道是否会泄漏。

因此，需要可靠、准确的管道泄漏预测系统，该管道泄漏预测系统可以考虑影响管道泄漏的众多因素。本公开的实施例针对解决至少这些需求。

发明内容

本公开中描述的实施例针对管道泄漏预测系统，该管道泄漏预测系统被配置为预测管道(例如，携带诸如水之类的某种物质的公用设施管道)是否可能泄漏。管道泄漏预测系统可以包括基于一种或多种机器学习技术的预测模型。例如，可以使用监督机器学习方法生成预测模型(诸如随机森林模型)，用于将输出分类为类别(例如，泄漏或无泄漏)。可以使用训练数据集中包含的管道数据来训练预测模型，该训练数据集可以包含关于各种管道的特点的信息(例如，这些管道的维度、这些管道的材料、这些管道的年龄、这些管道的地点等)，以及关于这些管道是否泄漏的知识。预测模型可以使用训练数据集中的数据以便确定与无泄漏的管道相关联的模式以及与有泄漏的管道相关联的模式。这些模式可以应用于任何管道的特点，以便预测该管道是否会泄漏。

在一些实施例中，一旦已经生成了预测模型，就可以通过将管道泄漏预测与这些管道中的哪些管道实际泄漏的知识进行比较来针对验证数据集验证该预测模型。之后，可以基于这些结果生成混淆矩阵，并且可以对其进行解释以获得关于该预测模型的有价值的见解(insight)。一旦已经验证了预测模型，就可以将预测模型应用于任何管道，以便预测该管道是否会泄漏。任何被识别为有可能泄漏的管道都可以被指派进行进一步调查，以进行潜在的维修或预防性维护。

在一些实施例中，公开了一种用于预测管道泄漏的计算系统和/或计算机实现的方法。例如，该方法可以包括访问训练数据集，该训练数据集包括与第一多个管道中的相应管道相关联的第一数据项和已知泄漏，其中第一数据项包括相应管道的特点。可以将监督机器学习技术应用于这个训练数据集以生成预测模型，该预测模型被配置为通过基于与第一多个管道中的相应管道相关联的第一数据项训练预测模型来确定管道的泄漏预测。一旦已经生成了预测模型，该方法就还可以包括访问验证数据集，该验证数据集包括与第二多个管道中的相应管道相关联的第二数据项和已知泄漏，其中第二数据项包括相应管道的特点。使用验证数据集，可以通过将预测模型应用于第二数据项来确定第二多个管道中的管道的泄漏预测集合来验证预测模型。可以将第二多个管道中的管道的泄漏预测与第二多个管道中的管道的已知泄漏进行比较，以确定第二多个管道中的管道的泄漏预测的准确度。之后，可以基于第二多个管道中的管道的泄漏预测的准确度来生成混淆矩阵。根据混淆矩阵，可以确定与第二多个管道中的管道的泄漏预测的准确度相关联的真阳性率和真阴性率。一旦确定预测模型有效(例如，确定真阳性率高于第一阈值并且确定真阴性率高于第二阈值)，该方法就还可以包括访问管线数据集，该管线数据集包括与第三多个管道相关联的第三数据项。可以将经验证的预测模型应用于这个管线数据集，以确定第三多个管道中的相应管道的泄漏预测。

附图说明

图1图示了根据本公开实施例的管道泄漏预测的系统图。

图2图示了根据本公开实施例的管道泄漏预测的流程图。

图3图示了根据本公开实施例的与各种管道相关联的示例数据。

图4图示了根据本公开实施例的管道数据库中的示例数量的管道记录。

图5图示了根据本公开实施例的随机森林模型的混淆矩阵。

图6图示了根据本公的实施例的随机森林模型的变量重要性图。

图7图示了根据本公开实施例的逻辑回归的概率的统计分布。

图8图示了根据本公开实施例的逻辑回归的混淆矩阵。

图9图示了根据本公开实施例的逻辑回归的系数的列表。

图10图示了根据本公开实施例的朴素贝叶斯模型( Bayes model)的混淆矩阵。

图11图示了根据本公开实施例的用于实现管道泄漏预测的框图。

图12图示了根据本公开实施例的用于管道泄漏预测的混合系统图。

图13描绘了用于实现实施例之一的分布式系统的简化图。

图14是根据本公开实施例的系统环境的组件的简化框图，通过该系统环境，可以将由实施例系统的组件提供的服务作为云服务供应。

图15图示了示例性计算机系统，其中可以实现本发明的各种实施例。

具体实施方式

在以下描述中，出于解释的目的，阐述了具体细节以便提供对本发明实施例的透彻理解。但是，将显而易见的是，可以在没有这些具体细节的情况下实践各种实施例。附图和描述不旨在是限制性的。

可以以各种配置提供一些附图中描绘的系统。在某些实施例中，系统可以被配置为分布式系统，其中系统的一个或多个组件分布在云计算系统中的一个或多个网络上。在某些实施例中，系统可以被配置为在虚拟或非虚拟环境中操作。

简介

管道泄漏预测系统可以由任何采用管道的实体(诸如公用事业公司(例如，运输水、气体、污水等的公司)或能源勘探/生产公司(例如，经由管道运输石油、天然气和燃料的公司))使用，以便预先预测管道是否可能发生故障。可以使用这个预测以便采取预防措施，诸如对管道执行维护。

一些预测管道泄漏的传统方法是基于理论的，并且可以依赖于假设而不是经验数据。例如，管道泄漏预测系统的一个实施例假设诸如管道泄漏的过去历史之类的因素是最重要的因素。换句话说，过去管道是否已经泄漏是决定管道将来是否会再次泄漏的最重要决定因素。但是，这样的系统可能忽略其它重要因素，并且还可能依赖于未经经验性验证或完全理解的假设。例如，系统可以正确地假设先前泄漏的管道很可能再次泄漏，但是这样的系统没有提供关于为什么管道在第一个地方泄漏的任何解释。因而，这种系统对于预测管道中第一次发生泄漏并不是非常有用，因为它的预测非常依赖于先前泄漏的管道。

代替地，本公开中的各种实施例针对被设计为预测管道泄漏的基于数据的管道泄漏预测系统。这样的系统将允许关于管道泄漏的任何可用数据说明一切(speak foritself)，并且这种系统将能够自己确定哪些因素是重要的或不重要的。在一些实施例中，这种管道泄漏预测系统还可以能够确定不同因素的相对重要性以及这些因素之间的任何关系(例如，相关性/因果关系)。这种确定可以用于准确地预测管道中的第一次泄漏并获得对管道泄漏的根本原因的更好理解。

在一些实施例中，管道泄漏预测系统可以被设计为利用大量数据。在一些实施例中，管道泄漏预测系统可以考虑尽可能多的数据-在管道方面(例如，考虑用于大量管道的数据)和因素方面(例如，考虑可能影响管道泄漏的大量各种不同因素的数据)。因而，系统可以考虑数千或数百万个管道的数据，并且可以存在关于每个管道的许多属性或因素的数据。随着越来越多的管道和因素被跟踪，系统考虑的数据尺寸会大大增加。在一些情况下，数据的总尺寸可以超过千兆字节或太字节数据，并且人类不可能利用所有数据进行心理计算或纸笔计算。因此，本公开中的实施例使得能够对大量数据进行数据驱动的分析，以便准确地预测将避开其它方法的管道泄漏的许多情况。

在一些实施例中，管道泄漏预测系统可以利用各种机器学习算法。特别地，管道泄漏预测系统可以使用监督机器学习技术，使得关于已知管道泄漏的现有数据用于训练预测模型。这种监督机器学习技术的示例包括-但不限于-分析学习、人工神经网络、反向传播、增强(元算法)、贝叶斯统计、基于案例的推理、决策树学习、归纳逻辑编程、高斯过程回归、数据处置的组方法、内核估计器、学习自动机、学习分类器系统、最小消息长度(决策树、决策图等)、多线性子空间学习、朴素贝叶斯分类器、最大熵分类器、条件随机场、最近邻算法、可能近似正确学习(PAC)学习、涟波下降规则(ripple down rule)、支持向量机、最小复杂性机器(MCM)、随机森林、分类器集合、序数分类、数据预处理和统计关系学习。

在一些实施例中，管道泄漏预测系统可以利用基于分类的监督机器学习技术，使得针对管道的输入数据用于将每个管道分类为一个或多个类别(例如，可能泄漏或不可能泄漏)。分类型监督机器学习技术的示例包括支持向量机(SVM)、神经网络、朴素贝叶斯分类器、决策树、自适应增强(AdaBoost)、极限梯度增强(XGBoost)、判别分析和最近邻(kNN)。

在一些实施例中，管道泄漏预测系统可以利用基于回归的监督机器学习技术，使得针对管道的输入数据用于计算各种管道的连续响应值(例如，泄漏的概率或在管道可能泄漏之前的时间量)。回归型监督机器学习技术的示例包括线性回归、套索回归、岭回归、弹性网络回归、偏最小二乘回归、多项式回归、随机森林、SVM、XGBoost、Adaboost、非线性回归、广义线性模型、决策树和神经网络。在一些实施例中，管道泄漏预测系统可以被配置为进行考虑时间因素的预测。换句话说，系统不仅能够预测管道何时发生故障，而且还能够预测什么时间将发生故障。例如，系统可以预测管道将在100天内发生故障。

在一些实施例中，管道泄漏预测系统可以利用不同预测模型或机器学习技术的组合。不同的机器学习技术可以具有不同的优点和缺点，因此可以用于不同的目的。例如，一种机器学习技术可以用于获得信息或结果的集合，而另一种机器学习技术可以用于获得通过另一种技术无法获得的不同信息或结果的集合。在一些情况下，机器学习技术可以用于验证另一种机器学习技术的结果。在一些情况下，可以在一个总体(ensemble)中组合多种机器学习技术，这提高了超出并高于组件技术的预测准确度。

在本公开中，公开了管道泄漏预测系统的实施例，该实施例使用随机森林、广义线性模型(例如，逻辑回归模型)和朴素贝叶斯作为机器学习技术的组合。但是，这种组合仅用于示例性目的，并且为了便于理解，在本申请中被持续引用。可以使用机器学习算法的其它合适组合。

示例实施例

图1图示了根据本公开实施例的用于管道泄漏预测的系统图。

在一些实施例中，管道安装者102可以负责代表实体(诸如公用事业公司)来安装管道(未示出)。管道安装者102可以安装管道，然后经由计算设备104向管道集成系统106提供关于所安装的管道的细节。例如，管道安装者102可以在山坡上安装管道，然后使用计算设备104向管道集成系统106提供与管道相关联的细节或属性，诸如关于管道的地点的信息、管道的维度和材料、管道携带的内容和用途等。这种信息可以包括管道泄漏预测系统在确定具体管道是否将泄漏时可以考虑的众多因素的数据，并且图3中示出了管道的细节/属性的其它示例。管道集成系统106可以将针对管道的这种数据存储在管道数据库108中，管道数据库108可以包含由公用事业公司安装的各种管道的数据(例如，管道120-1至120-N)。

在一些实施例中，管道安装者102可能不必将这个信息供给管道集成系统106，因为管道的某些细节可能已经是已知的。例如，管道安装者102还可以负责从管道制造商订购要安装的管道。因而，关于管道的具体细节可以从订单中取得并提供给管道集成系统106，使得关于管道的信息已经在管道数据库108中可用。但是，管道安装者102可能必须使用计算设备104更新与管道相关联的一些信息(例如，在安装管道期间，安装站点处的条件最终与预期不同)。随着事物的改变，与每个管道相关联的信息也可能必须随时间更新。例如，管道数据库108可以包括关于每个管道是否泄漏的信息。如果没有泄漏的管道发展成泄漏，那么必须在管道数据库108内更新该信息。这种更新可以通过管道集成系统106或在现场完成，诸如由管道安装者102使用计算设备104完成。

因而，管道数据库108可以包含由公用事业公司安装的各种管道(包括由管道安装者102安装的管道)的大量数据，这些数据将随时间改变并被更新。这在图中由管道数据库108的内容表示，示为包括关于管道120-1至120-N的信息。这种信息可以包括每个管道的规格、每个管道携带的内容和用途等。管道数据库108中的数据可以用作管道泄漏预测系统110的训练集，该管道泄漏预测系统110可以能够使用与各种管道相关联的所有信息，以便确定已经发生泄漏的所有管道中的模式。除了这些模式之外，管道泄漏预测系统110还可以能够辨别确定管道是否会发生泄漏的各种因素之间的任何关系，并使用该信息来开发预测模型。

在一些实施例中，管道泄漏预测系统110可以用于预测管道中的泄漏的故障或发展。这可以包括对管道数据库108中的管道120-1至120-N进行预测(例如，随着时间更新它们的相关联信息)。管道泄漏预测系统110还可以能够在管道数据库108外部对管道进行预测，诸如针对尚未引入管道数据库108的新安装的管道。例如，在管道安装者102安装管道之后(或者甚至在安装之前)并且将与该管道相关联的输入信息提供给管道泄漏预测系统110，系统可以能够预测或估计该管道是否可能发生故障、管道何时可能发生故障、管道可能发生故障的概率等。在一些实施例中，管道泄漏预测系统110可以能够通过计算设备112向调查员114提供被识别为可能泄漏的管道的列表。调查员114可以能够使用该信息来调查被确定为可能泄漏的管道，以查看是否需要执行预防性维护，或者在一些情况下，更换已经开始泄漏的任何管道。

图2图示了根据本公开实施例的管道泄漏预测的流程图。

在方框202处，可以使用包含在训练数据集220内的针对管道的数据来生成预测模型。训练数据集220可以是更大的数据集(诸如管道数据库108，该管道数据库包含针对各种管道的数据)的子集。更大的数据集可以随机拆分成用于训练预测模型的训练数据集220，以及用于验证经训练的预测模型的结果的验证数据集。训练数据集220可以包含关于各种管道的特点的信息(例如，这些管道的维度、这些管道的材料、这些管道的年龄、这些管道的地点等)。此外，训练数据集220还可以包含关于已知这些管道中的哪些管道具有泄漏的信息。因此，预测模型可以使用训练数据集220中的数据，以便确定与无泄漏的管道相关联的模式以及与有泄漏的管道相关联的模式。当被提供有这些管道的特点时，该模型可以能够学习并使用这些模式来预测管道中的泄漏。可以使用各种机器学习算法(诸如先前描述的算法)来生成预测模型；例如，预测模型可以是随机森林模型、逻辑回归模型、朴素贝叶斯模型等。

在方框204处，一旦已经生成了预测模型，就可以验证模型。预测模型的验证可以涉及一个或多个子块，诸如子块206、208和210。在方框206处，预测模型可以用于使用来自验证数据集的管道数据来预测管道泄漏。例如，预测模型将取得验证数据集中各种管道的特点作为输入，并使用它们来识别哪些管道可能泄漏。同时，验证数据集将包含关于这些管道中的哪些管道确实泄漏的数据。因此，可以将预测有泄漏的管道的集合与实际有泄漏的管道的集合进行比较，以确定模型的准确度。在方框208处，可以基于预测模型的结果与管道的已知状态(例如，泄漏或无泄漏)的比较来生成混淆矩阵。这个混淆矩阵可以示出由预测模型识别出的真阳性、真阴性、假阳性和假阴性的量，其可以进一步用于计算与预测模型相关联的准确度。在方框210处，可以解释混淆矩阵以便获得关于预测模型的有价值的见解。例如，如果混淆矩阵揭示模型具有高度准确度，那么与模型相关联的基本假设可能是正确的。在一些实施例中，可以存在从机器学习模型到人类可读格式的推理的自动翻译(例如，报告可以以PDF格式或文本消息生成，其可以被发送给现场的调查员)。这将允许人们专注于机器学习算法产生的见解，而不是必须理解他们的数字输出，这可能需要相当多的统计/数学专业知识。在一些实施例中，用户可以选择潜入模型的细节并自己得出推论(inference)，或者具有来自由管道泄漏预测系统直接提供给他们的模型的细节/推论。

在方框212处，一旦已经验证了预测模型，就可以将预测模型应用于新的群组(cohort)(例如，不在训练数据集或验证数据集中的管道)。例如，预测模型可以应用于管线数据集222中的管道数据，该管线数据集222包含各种管道的特点的数据。预测模型将用于识别管线数据集222中的哪些管道可能泄漏。

在方框214处，可以解释应用于管线数据集222的预测模型的结果。例如，预测模型可以已经识别出管线数据集222中可能泄漏的管道的子集。可以进一步调查这些管道的潜在修复或预防性维护。在一些实施例中，可以将这些可能泄漏的管道的标识提供给负责调查管道并验证预测结果的调查员，诸如调查员114。管道泄漏预测系统可以通过计算设备112向调查员114通知管线数据集222中可能泄漏的管道，并且调查员114可以使用他/她的资源来调查这些识别出的管道。

更具体而言，图3示出了与六个管道相关联的原始数据，这六个管道基于列302中所示的“fid”(例如，管道id)和列304中所示的“wsm_nbr”(例如，跟踪号)来识别。例如，第一个管道的fid为“9277583”并且wsm_nbr为“172-147”。各种信息对每个管道可用。但是，这个列表并不意味着是详尽的，并且用于示例性目的，诸如，为了示出如何可以将数据存储在图1的管道数据库108中；管道泄漏预测系统在生成预测模型时可以包括并考虑的与管道相关联的其它数据。

在一些实施例中，数据可以包括列306(以标题“使用类型(use_type)”示出)，其表示指示可以如何使用管道的分类变量。管道的各种使用类型的变量的示例包括：DIST(例如，分配)、TRUNK(例如，干线)、IRRIG(例如，灌溉)、DECOM(例如，分解管道)、WELL(例如，井)、CHLOR(例如，氯)、DRAIN(例如，排水管)、AMMONIA(例如，氨)、RECL(例如，再生水管)，MANIFOLD(例如，歧管)、LSLATERAL(例如，侧向污水管线)以及#NULL#(这可以表示管道的使用未知或不符合使用类型的其它类别之一)。例如，列306对于所有六个管道都示出DIST，这表示六个管道中的每一个用于分配。通过添加各种管道的使用类型，管道泄漏预测系统可以能够确定具体使用类型是否更可能造成管道泄漏。

在一些实施例中，数据可以包括列308(以标题“pipe_diam”示出)，其表示指示管道宽度的数字变量。任何测量单位可以被提前指定并使用。在该图中，列308的数字可以表示每个管道的宽度，以英寸为单位。例如，列308具有与第一管道相关联的值12，这可以指示第一管道具有12英寸直径。已知每个管道的直径可以允许管道泄漏预测系统确定管道的直径可以如何增加或减少管道泄漏的可能性。

在一些实施例中，数据可以包括列310(以标题“len_ft”示出)，其表示指示管道的长度的数字变量。任何测量单位可以被提前指定并使用。在该图中，列310的数字可以表示每个管道的长度，以英尺为单位。例如，列310具有与第一管道相关联的值329.76，这可以指示第一管道具有几乎330英尺的长度。已知每个管道的长度可以允许管道泄漏预测系统确定管道的长度可以如何增加或减少管道泄漏的可能性。

在一些实施例中，数据可以包括列312(以标题“(厚度)thickness”示出)，其表示指示管壁厚度的数值变量。任何测量单位可以被提前指定并使用。在该图中，列312的数字可以表示每个管道的壁厚度，以英寸为单位。例如，列312具有与第一管道相关联的值0.71，这可以指示第一管道具有四分之三英寸的厚度。已知每个管道的壁厚度可以允许管道泄漏预测系统确定管道的壁厚度可以如何增加或减少管道泄漏的可能性。虽然常识表明较厚的壁会降低管道泄漏的可能性，但与其它因素相比，常识无法识别壁厚度的相对重要性。例如，如果管道直径减半并且壁厚度减少三分之一，那么常识对于通知泄漏的可能性是增加还是减少没有帮助。

在一些实施例中，数据可以包括列314(用标题“材料(material)”示出)，其表示指示制成管道的材料的分类变量。管道的各种材料的变量的示例包括：CI(例如，铸铁)、STL(例如，钢)、AC(例如，石棉-水泥)、DI(例如，球墨铸铁)、COP(例如，铜)、HDPE(例如，高密度聚乙烯)、CONC(例如，混凝土)、PVC(例如，聚氯乙烯)、CM(例如，波纹金属)、BRS(例如，黄铜)和PP(例如，聚丙烯)。例如，列314对于第一管道示出CI，这可以指示第一管道由铸铁制成。通过为各种管道添加各种材料，管道泄漏预测系统可以能够确定具体材料的使用是否更可能造成管道泄漏。

在一些实施例中，数据可以包括列316(以标题“relined”示出)，其表示指示管道是否被重新连接(relined)的分类变量。该变量的示例包括：CL和#NULL#(#NULL#可以表示管道未被重新连接)。例如，列316对于第一管道示出#NULL#，这可以指示第一管道未被重新连接。已知每个管道是否被重新连接可以允许管道泄漏预测系统确定重新连接管道对管道泄漏的可能性的影响。

在一些实施例中，数据可以包括列318(用标题“plr_num”示出)和列320(用标题“plr_year”示出)，其中后者可以表示安装管道的年份的数值变量。例如，列320对于第一管道示出1934，这可以指示第一管道是在1934年安装的。已知每个管道安装的年份可以允许管道泄漏预测系统确定安装年份对管道泄漏的可能性的影响(例如，可能有一些年份管道安装不当并且更容易泄漏)。

在一些实施例中，数据可以包括列322(以标题“soil_res”示出)，其表示在其中安装管道的土壤的电阻率的数值变量。换句话说，该列指示在其中安装管道的土壤的腐蚀程度。由于腐蚀造成管道侵蚀，因此可以预期全新且位于腐蚀性土壤中的管道比位于非腐蚀性土壤中的旧管道更早泄漏。越高的土壤电阻率值可以与越低的腐蚀性相关联。例如，列322对于第一管道示出土壤电阻率为1138，并且对于第二管道示出土壤电阻率为3601，这可以指示第二管道位于腐蚀性较小的土壤中。已知每个管道所处的土壤的相对腐蚀性可以允许管道泄漏预测系统确定土壤腐蚀性对管道泄漏的可能性的影响。

在一些实施例中，数据可以包括列324(以标题“leak_freq”示出)，其表示管道泄漏的次数的数值变量。换句话说，值为零指示管道尚未泄漏。如图所示，列324对于第一管道示出泄漏频率为零，这可以指示第一管道尚未泄漏。这恰当地与列326(用标题“leak_yn”示出)相对应，列326表示管道是否泄漏的分类变量(例如，值“N(否)”或“Y(是)”)。列326对于第一管道具有N值，这恰当地与列324中的零值对应，指示第一管道尚未泄漏。在一些情况下，先前已经泄漏的管道可能增加再次泄漏的可能性。已知管道先前是否泄漏可以允许管道泄漏预测系统确定先前泄漏对管道泄漏的可能性的影响。

在一些实施例中，数据可以包括列328(以标题“地区(district)”示出)，其表示指示管道在地理上位于何处的分类变量。该变量的示例包括：东部谷、西部、西部谷、港口和中部。可以使用其它地理地点的概念或变量。在该图中，列328对于第一管道具有值“东谷”，以表示第一管道位于哪里。管道的地点可能对其泄漏的可能性具有一些影响(例如，由于该地理地点中的土壤的构成)，因此这个信息允许管道泄漏预测系统确定该影响。

在一些实施例中，数据可以包括列330(以标题“管道年龄(pipe_age)”示出)，其表示管道年龄的数值变量，以年为单位。例如，列330对于第一管道具有值82，其可以指示第一管道年龄为82年。

在一些实施例中，数据可以包括列332(以标题“材料寿命(material_life)”示出)，其表示管道材料的寿命的数值变量。例如，列330对于第一管道具有值100，这可以指示与由钢制造的第四管道的120年材料寿命相比，构成第一管道的铁具有100年的寿命。

在一些实施例中，数据可以包括列334(以标题“pct_life”示出)，其表示指示管道相对于制造商的规格有多老的数值变量。在一些实施例中，可以通过确定管道相对于材料寿命(例如，列332)有多老(例如，列330)来计算管道的寿命百分比。例如，第一管道的年龄为82年并且材料寿命为100年，因此在列334中显示的值为82％。管道泄漏预测系统可以使用管道相对于其寿命有多老的这个归一化度量来确定管道的相对年龄如何影响管道泄漏的可能性。

在一些实施例中，数据可以包括列336(以标题“最大压力(max_pressure)”示出)，其表示管道可以承受的最大压力的数值变量。任何测量单位可以被提前指定并使用。在该图中，列336的数字可以表示管道可以承受的压力，单位为磅/平方英寸(psi)。例如，列336对于第一管道示出333，这可以指示第一管道被评级为最大压力为333psi。管道泄漏预测系统可以能够使用这个信息来确定最大压力评级对管道泄漏的可能性的影响。

在一些实施例中，数据可以包括列338(以标题“管道高度(pipe_elevation)”示出)，其表示管道的高度的数值变量。任何测量单位可以被提前指定并使用。在该图中，列338的数字可以表示以英尺为单位的管道高度。例如，列338对于第一管道示出666，这可以指示第一管道位于海拔666英尺处。管道泄漏预测系统可以能够使用这个信息来确定管道的高度对管道泄漏的可能性的影响。

在一些实施例中，数据可以包括列340(以标题“在山中(within_hill)”示出)，其表示指示管道是否在山中的分类变量(例如，值“N”或“Y”)。例如，列340对于第一管道示出N，这可以指示第一管道不位于山中。直觉上，由于山上的管道上的压力增加，因此山中的管道可能更容易泄漏。管道泄漏预测系统可以能够使用该确认来确认直觉并确定管道是否在山中对管道泄漏的可能性的影响。

更具体而言，图4示出了包含与265,293个管道相关联的信息的管道数据库402。在这些管道当中，256,803个管道没有泄漏，并且8490个管道有泄漏。管道数据库402中的这种数据可以用于训练管道泄漏预测系统以检测泄漏，并且本文公开的示例实施例可以利用在这265,293个管道的上下文中解释的各种机器学习模型。

图5图示了根据本公开实施例的随机森林模型的混淆矩阵。

在一些实施例中，与各种管道相关联的所有可用数据(例如，类似于图3中所示的数据)可以用于训练和构造预测模型。在一些这样的实施例中，所构造的第一模型可以是随机森林模型，它是非线性模型。一般而言，非线性模型可以比线性模型花费更长的时间来训练。

在一些实施例中，随机森林模型可以用于基于11个因素的组合来预测管道是否将泄漏，诸如图3中所示的因素或管道属性。从这11个因素中排除的可以是与泄漏频率相关联的输入变量(例如，图3的“leak_freq”变量)。这是有意的，因为现有的基于专家的模型可以基于以下假设：过去管道是否泄漏的知识是预测管道是否将在未来泄漏的最重要因素。但是，这种假设意味着预测泄漏在很大程度上取决于管道先前是否泄漏，如果管道过去从未泄漏，那么难以预测管道是否会泄漏(例如，将问题转化为管道预报问题)。相反，通过排除关于泄漏频率的输入，随机森林模型可以被配置为在没有管道实际上已泄漏的先验知识的情况下预测管道是否将泄漏。

随机森林模型可以是导致二元结果的预测的基于分类的模型。换句话说，可以训练随机森林模型以生成带标记的分类预测(例如，“是”或“否”代表管道是否泄漏)。由于随机森林分类的输出是森林中各个树的多数投票，因此这些分类预测将不同于回归技术(例如，逻辑回归)的结果，在回归技术中，输出是进一步需要指定截止值(cutoff)或阈值的概率。可以使用来自管道数据库的训练集来训练随机森林模型。例如，包含各种管道的信息的管道数据库可以被随机拆分成训练集和测试/验证集，经常使用70/30或80/20拆分。可以使用训练集来训练随机森林模型。

之后，可以使用来自管道数据库的验证集来验证和测试随机森林模型。随机森林模型可以与验证集中用于管道的各种输入一起使用，以便预测这些管道是否会泄漏。可以将来自随机森林模型的预测结果与来自验证集的实际知识进行比较，以确定这些管道是否泄漏。然后，可以构造混淆矩阵，以评估针对管道的真实状态对这些管道进行预测的准确度。

关于该图，在图5中示出了基于图4中所示的数据生成的用于随机森林模型的示例混淆矩阵502(例如，包含265,293个管道的数据集)。混淆矩阵502具有四个象限，用于将预测与实际参考值进行比较：左上，N-N象限，值为256,803；右上，N-Y象限，值为107；左下，Y-N象限，值为0；以及右下，Y-Y象限，值为8383。混淆矩阵502中的这些象限反映了四个结果：真阴性、假阴性、真阳性和假阳性的数量。

具有值256,803的左上N-N象限表示真阴性，或者模型预测不会发生故障并且管道实际上没有发生故障的管道数量。具有值107的右上N-Y象限表示假阴性，或者模型预测不会发生故障但管道实际发生故障的管道数量。具有值0的左下Y-N象限表示假阳性，或者模型预测会发生故障但实际上没有发生故障的管道数量。具有值8383的右下Y-Y象限表示真阳性，或者模型预测发生故障并且确实发生故障的管道数量。

该模型具有大约99.6％的高总体准确度504。该模型的真阳性率(也称为灵敏度506)为98.7％，与检测到8490个管道中有8383个(或98.7％)泄漏的模型相对应。因而，当提示“管道将泄漏吗”的问题时，模型将返回98.7％准确的答案。模型的真阴性率(也称为特异性(specificity)508)是100％，这与正确确定所有未发生故障的256,803个管道的模型相对应。因而，当提示“管道不会泄漏吗”的问题时，模型将返回100％准确的答案。因此，基于混淆矩阵中示出的这些验证结果，可以看出假阳性率和假阴性率相当低，并且构建的随机森林模型非常能够正确识别将泄漏的管道和不会泄漏的管道。

图6图示了根据本公开实施例的随机森林模型的变量重要性图。

图5中描述的随机森林模型还可以用于确定用于确定管道泄漏的不同变量和因素的重要性。可以在变量重要性图中绘制和可视化不同变量的相对重要性。

关于该图，图6中示出了变量重要性图600，其显示了用于生成随机森林模型的11个因素的重要性。变量重要性图600图示了这些因素中最重要的因素是管道的长度、土壤电阻率、管道的最大压力评级以及管道的高度。特别地，管道的长度和土壤的特点在确定管道泄漏方面明显比管道是否在山中和管道如何使用重要得多。实际上，这四个变量非常重要，以至于随机森林模型可以仅使用这四个变量的数据来生成关于管道是否泄漏的非常准确的预测。这个信息非常有用，因为它表示如果存在与数据收集相关联的显著成本(例如，获得每个管道的不同因素的值困难或成本高昂)，那么可以廉价地实现体面的预测模型，因为可以只收集这四个变量的值。实际上，可能的情况是，只需知道管道的长度就可以对管道泄漏进行相对准确的预测。

此外，对管道泄漏背后最重要因素的这种知识可以用于管理管道的未来实施并防止未来泄漏。这种知识可以用于从不太可能泄漏的制造商或供应商处获得管道。此外，这种信息可以用于设计新的制造商要求/标准，使得想要赢得施工招标的制造商必须遵守这些新标准。例如，由于管道的长度是随机森林模型中影响管道是否会泄漏的最重要因素，因此未来的管道安装可以避免长管道。这些长管道可以用一系列较短的管道替换，其中每个管道都不太可能发生泄漏。而且，由变量重要性图600识别出的因素的重要性的这种知识植根于基础(underlying)数据。例如，根据经验证明，腐蚀性土壤中的全新管道的寿命比非腐蚀性土壤中的旧管道短得多，因此安装的任何管道应当尽可能在没有腐蚀性土壤的地点进行。

虽然变量重要性图600图示了随机森林模型中的每个因素的重要性，但是它没有解释为什么每个因素特别重要。为了获得该理解，可以使用允许进行这些推理的不同模型。在一些情况下，在机器学习技术方面，可能需要在预测与推理之间进行权衡；随机森林模型非常适用于对管道泄漏产生准确的预测，但不允许关于模型中使用的因素的关系进行推理。因此，可以使用不同的模型来生成这些推论。可以使用的不同模型的一些示例包括逻辑回归模型或朴素贝叶斯模型。

图7图示了根据本公开实施例的逻辑回归的概率的统计分布。

在一些实施例中，可以使用逻辑回归模型以便更好地理解随机森林模型中使用的因素。逻辑回归模型可以是广义线性模型。由于它是线性模型，因此逻辑回归模型可以比随机森林模型更快地训练。

但是，逻辑回归模型与随机森林模型的不同之处在于逻辑回归模型生成连续响应值(例如，管道泄漏的概率)，而不是将每个管道分类为类别(例如，泄漏或不泄漏)。因而，为了使用逻辑回归模型对每个管道进行类似的分类，需要指定截止值或阈值。如果逻辑回归模型预测的管道泄漏的概率高于该阈值，那么可以认为管道可能泄漏。如果预测管道泄漏的概率低于该阈值，那么可以认为管道不可能泄漏。因此，需要选择良好的阈值，因为高于该阈值的任何概率将为“是”，并且低于该阈值的任何概率将为“否”。

为了选择适当的截止值，可以将来自逻辑回归模型的结果绘制成统计分布。可以使用这种统计分布来确定用于将逻辑回归模型预测的概率划分为两组的自然截止值。

关于该图，在图7中示出了从逻辑回归模型生成的概率的统计分布700。例如，在统计分布700中，yes变量的第三四分位数是0.03级别的水平黑条。如果选择此作为截止值，那么将意味着在第3个四分位数(0.03)或之上的任何预测的故障概率将被视为“是”-管道将泄漏。任何预测的低于这个截止值的故障概率将被视为“否”。

图8图示了根据本公开实施例的用于逻辑回归的混淆矩阵。

一旦计算出用于逻辑回归模型的截止值，就可以验证逻辑回归模型的预测结果(例如，使用如前面那样的验证集)，以便构造用于逻辑回归模型的混淆矩阵。

关于该图，在图8中示出了基于图4中所示的数据生成的逻辑回归模型的示例混淆矩阵802(例如，包含265,293个管道的数据集)。混淆矩阵802具有四个象限，用于将预测与实际参考值进行比较：左上，N-N象限，值为196,583；右上，N-Y象限，值为2123；左下，Y-N象限，值为60220；以及右下，Y-Y象限，值为6367。与图5的混淆矩阵类似，混淆矩阵802中的这些象限反映了四个结果：真阴性、假阴性、真阳性和假阳性的数量。

具有值196,583的左上N-N象限表示真阴性，或者模型预测不会发生故障并且管道实际上没有发生故障的管道数量。具有值2123的右上N-Y象限表示假阴性，或者模型预测不会发生故障但管道实际发生故障的管道数量。具有值60220的左下Y-N象限表示假阳性，或者模型预测将发生故障但实际上没有发生故障的管道数量。具有值6367的右下Y-Y象限表示真阳性，或者模型预测将发生故障并且确实发生故障的管道数量。

可以看出，与随机森林模型相比，逻辑回归模型不那么准确。逻辑回归模型的总体准确度804大约为76.5％。逻辑回归模型的假阳性率和假阴性率也不太好，并且与随机森林模型相比，存在大量假阳性和假阴性。这可以表明管道泄漏不是线性过程，因为逻辑回归模型是线性模型。此外，该模型的真阳性率(也称为灵敏度806)为74.9％，这与检测到8490个管道中有6367个(或74.9％)泄漏的模型相对应。因而，当提示“管道将泄漏吗”的问题时，模型将返回74.9％准确的答案。该模型的真阴性率(也称为特异性808)是76.5％，这与正确确定256,803个管道中的196,583个未泄漏的模型对应。因而，当提示“管道不会泄漏吗”的问题时，模型将返回76.5％准确的答案。

因此，基于混淆矩阵中所示的这些验证结果，可以看出，对于预测管道泄漏，逻辑回归模型不如随机森林模型那样准确。特别地，这可以指示管道泄漏数据存在非线性，因为如果基础数据是线性的，那么线性模型将胜过非线性模型。但是，这可以是没问题的；逻辑回归模型可以对启用推理和确定输入变量之间的关系有用，这可以提供无法从随机森林模型获得的视角。例如，逻辑回归模型可以用于获得逻辑回归模型中的每个因素的回归系数和每个因素的统计显著性。

图9图示了根据本公开实施例的用于逻辑回归的系数的列表。

更具体而言，用于逻辑回归模型的系数的列表902可以用于使得能够对逻辑回归模型中使用的各种因素进行推理。在它旁边有一颗星的任何系数都具有统计意义，这意味着它不太可能是随机发生的。例如，基于管道的因素(诸如管道直径、管道长度、管道厚度、最大压力评级、管道是否由HDPE或PVC制成以及管道的寿命百分比)被示为统计上显著的。基于地点的因素(诸如土壤电阻率、管道的地理区域、管道高度以及管道是否在山中)也被示为统计上显著的。

对于管道长度，标准误差通知相关联的p值是接近零的非常小的数字。更具体而言，管道长度在统计上是显著的，作为99百分位级别的因素。此外，该系数是正的，这意味着管长度的任何增加都与管道发生故障的几率增加相关联。这是有用的信息，因为随机森林模型通知管道长度非常重要但没有说明原因。当随机森林和逻辑回归模型两者在同一点上达成一致时，获得了更具体的框架。关于管道长度的这个信息意味着应该购买更短的管道，即使这意味着需要购买多个管道。虽然这可能产生更大的初始成本，但它将大大降低管道故障的可能性。

对于管道直径，该系数通知我们管道直径与管道发生故障负相关。这意味着随着管道直径的增加，管道不太可能发生故障。换句话说，较宽的管道不太可能发生故障，而较细的管道更容易发生故障。这是有用的信息，因为较宽的管道最初可能更昂贵，但如果管道不太可能发生故障，从长远来看可能更便宜。对于管道厚度，该系数是负的，这意味着较厚壁的管道比较薄的管道更不容易发生故障。这种信息可以是有用的，因为较厚壁的管道可能更昂贵，但不太可能发生故障，因此使用较厚壁的管道前期花费更多可能更有道理。

管道的寿命百分比也是重要的。由于管道的使用寿命比制造商推荐的寿命更长，因而该管道更有可能发生故障。这是常识并且证实了直觉。但是，令人惊讶的是，如何使用管道在统计上并不显著。这似乎与随机森林变量重要性图一致，并且这种一致证实了从两个模型获得的见解。这些描述的推论不是可以得出的推论的详尽列表，而只是它们的一小部分。可以直接从两个模型中得出许多推论，并将提供有价值的信息，这些信息可以用于以具体的、数学上严格的方式确认或验证先前的假设。

可以使用附加的机器学习技术或模型来获得附加的见解。例如，机器学习模型的组合可以包括朴素贝叶斯模型，朴素贝叶斯模型也可以用于生成推论。

图10图示了根据本公开实施例的朴素贝叶斯模型的混淆矩阵。

关于该图，示出了用于基于图4中所示的数据(例如，包含265,293个管道的数据集)生成的朴素贝叶斯模型的示例混淆矩阵1002。混淆矩阵1002具有用于将预测与实际参考值进行比较的四个象限：左上，N-N象限，值为244,995；右上，N-Y象限，值为5731；左下，Y-N象限，值为11808；以及右下，Y-Y象限，值为2759。与图5的混淆矩阵类似，混淆矩阵1002中的这些象限反映了四个结果：真阴性、假阴性、真阳性和假阳性的数量。

具有值244,995的左上N-N象限表示真阴性，或者模型预测不会发生故障并且管道实际上没有发生故障的管道数量。具有值5731的右上N-Y象限表示假阴性，或者模型预测不会发生故障但管道实际上发生故障的管道数量。具有值11,808的左下Y-N象限表示假阳性，或者模型预测将发生故障但实际上没有发生故障的管道数量。具有值2759的右下Y-Y象限表示真阳性，或者模型预测将发生故障并且确实发生故障的管道数量。

可以看出，与随机森林模型相比，朴素贝叶斯模型不那么准确。朴素贝叶斯模型的总体准确度1004大约为93.4％。朴素贝叶斯模型的假阳性和假阴性率也不太好，并且与随机森林模型相比，存在大量假阳性和假阴性。这可以表明管道泄漏不是线性过程，因为朴素贝叶斯模型是线性模型。此外，该模型的真阳性率(也称为灵敏度1006)为32.5％，这与检测到8490个管道中仅2759个(或32.5％)泄漏的模型相对应。因而，当提示“管道将泄漏吗”的问题时，模型将返回32.5％准确的答案。该模型的真阴性率(也称为特异性1008)为95.4％，这与正确确定256,803个管道中的244,995个未泄漏的模型相对应。因而，当提示“管道不会泄漏吗”的问题时，模型将返回95.4％准确的答案。因此，朴素贝叶斯模型可以用于以合理的准确度确定管道何时不会泄漏，但不应当用于确定管道是否会泄漏。

通常，朴素贝叶斯模型可以被用基线而不是最佳模型，因为它通常非常快速地训练。这是因为在朴素贝叶斯模型中使用的假设是11个输入中的每一个(逻辑回归和随机森林中使用的相同输入)彼此独立。如果这是真的，那么朴素贝叶斯模型的结果将非常准确。如果这个假设不成立，那么模型的结果将不准确。因此，通过查看朴素贝叶斯模型的准确度或不准确度，我们可以得出关于输入如何依赖于彼此的推论，当与来自随机森林和逻辑回归模型的见解相结合时，这是有用的信息。这些结果使得逻辑回归和随机森林模型都表现不佳，这表明因素变量的独立性(朴素贝叶斯模型的假设)不太可能有效，并且这些预测变量本身之间存在复杂的相互关系，这种关系足以影响模型的预测准确度。这种见解意味着单独为每个因素指派权重的任何模型都可能是不准确的。

在一些实施例中，用于管道泄漏预测系统的实现解决方案可以涉及大数据云平台1110。在一些实施例中，大数据云平台1110可以在标准格式1122下在对象存储库1120中存储所有管道数据(例如，管道特点和已知泄漏)。

在一些实施例中，可以通过大数据云服务1140维护和提供对象存储库1120，大数据云服务1140可以是诸如Amazon简单存储服务(S3)之类的云计算服务。在一些实施例中，可以使用Apache Hadoop来实现大数据云服务1140，Apache Hadoop是用于分布式存储和处理大数据集的开源软件框架。大数据云服务1140可以用于在对象存储库1120中存储所有数据。因此，对象存储库1120中包含的数据可以被拆分并存储在大块中，这些大块分布在大数据云服务1140的计算集群中的节点上。在一些实施例中，可以使用HDFS(Hadoop分布式文件系统)1146来实现大数据云服务1140，HDFS是用于提供可扩展且可靠的数据存储的基于Java的文件系统。

在一些实施例中，大数据云服务1140可以利用Spark 1144(例如，Apache Spark)，Spark 1144可以提供集群计算框架，用作经由用于流传输数据和机器学习的内置模块进行大数据处理的快速且通用的引擎。换句话说，Spark 1144可以提供用于跨计算机集群的大数据集的分布式处理来执行大数据分析的特征，并且可以改进用于大量数据的分布式处理的基本Hadoop Map/Reduce技术。Spark 1144可以通过持久存储在存储器中来对原生Hadoop Map/Reduce功能增压(supercharge)，而Map/Reduce持久存储到盘。结果是Spark1144在存储器操作方面比Map/Reduce快100倍，并且在盘操作方面比Map/Reduce快10倍。

如图所示，大数据云平台1110可以接收批量(bulk)源数据1150和流传输源数据1152。一般而言，批量源数据1150可以包括历史数据，例如现场管道的特点以及它们中的哪些已经泄漏，以及不再存在于现场的管道的特点以及它们中的哪些已经泄漏。在一些实施例中，批量源数据1150可以存储在对象存储库1120中，对象存储库1120可以被称为“数据湖”。存储在对象存储库1120中的所有数据可以以标准格式1122统一存储。在一些实施例中，标准格式112可以是(Hadoop分布式文件系统)HDFS，HDFS是用于提供可扩展且可靠的数据存储的基于Java的文件系统。

流传输源数据1152可以包括放置在现场的新管道的数据(例如，这些管道的特点)，以及对已泄漏的管道的更新。可以(例如从安装新管道或检查现有管道是否泄漏的现场工作人员)实时地接收这种数据。在一些实施例中，现场工作人员可以在现场在计算设备或移动设备上输入这种数据，并且该数据将由大数据云平台1110接收以集成到对象存储库1120中。在一些实施例中，可以在通信接口(诸如Kafka 1130)处接收流传输源数据1152。作为通信接口，Kafka 1130可以接收流传输源数据1152并解析该数据中的各个消息。这些消息可以被转换成可以(例如，以标准格式1122)存储在对象存储库1120中的数据。因此，对象存储库1120可以包含相同统一格式的来自批量源数据1150的数据(例如，现有管道的历史特点)和流传输源数据1152(例如，新管道的特点或对现有管道的历史特点的更新)。

在一些实施例中，Spark 1134和/或Hive LLAP 1136还用于分析和处理对象存储库1120内包含的所有数据(例如，以便检测欺诈行为)。Spark 1134(例如，Apache Spark)可以提供集群计算框架，该集群计算框架用作经由用于流传输数据和机器学习的内置模块进行大数据处理的快速且通用的引擎。换句话说，Spark 1134可以提供使用跨计算机集群的大型数据集的分布式处理来执行大数据分析的特征，并且可以改进用于大量数据的分布式处理的基本Hadoop Map/Reduce技术。Spark 1134可以通过持久存储在存储器中来对原生Hadoop Map/Reduce功能增压，而Map/Reduce仍然持久存储到盘。结果是Spark 1134在存储器操作方面比Map/Reduce快100倍，并且在盘操作方面比Map/Reduce快10倍。

在一些实施例中，Spark 1134可以包括针对Hadoop的Oracle R高级分析(ORAAH)，ORAAH可以用作Spark的“增压”版本，该“增压”版本提供用于使用跨计算机集群的大型数据集的分布式处理来执行大数据分析的特征。与传统的Spark包(package)相比，ORAAH可以提供许多优势。例如，ORAAH可以提供比Spark快32倍的机器学习模型(例如，用于分类、聚类、回归、特征提取等的机器学习算法)。ORAAH还可以提供将R&D中开发的机器学习模型部署到生产中的能力。ORAAH还可以提供直接在数据等中执行R脚本的能力。ORAAH也可以用作允许从多种数据格式读取/写入数据的单个包，包括HDFS和/或HIVE。ORAAH还可以能够处理R中存在的任何公式，而Spark可能仅能处理具有有限变换子集的简单属性。

在一些实施例中，Hive LLAP 1136可以包括Apache Hive，Apache Hive是构建在Apache Hadoop平台之上的数据仓库软件项目，用于为数据汇总、查询和分析提供类似SQL的接口。Hive LLAP(低延迟分析处理)1136可以通过提供更快的SQL分析来构建Hive体系架构。因此，Kafka 1130用于解析并从流传输数据获得消息，然后将消息添加到对象存储库1120中的历史数据。使用Spark 1134和Hive LLAP 1136处理被包含在对象存储库1120中的这个“数据湖”，以便执行先前在本文描述的用于检测电力欺诈的步骤。

在一些实施例中，对象存储库1120可以以提供解耦存储的方式实现，解耦存储是与计算效率的提高以及必要计算资源的减少相关联的特征。Hadoop通常由HDFS和MapReduce组合而成。但是，HDFS的问题在于计算位于每个节点上(例如，分布式计算系统的集群)并且需要添加更多节点以便获得附加的计算。每个节点包含计算和存储，这意味着通过添加更多节点，实际上(effectively)为不正在使用的存储进行付费。作为替代方案，可以使用除HDFS之外的存储机制，诸如Amazon S3或Oracle对象存储。例如，可以将HDFS交换出去，以便系统在对象存储和MapReduce的组合上实现。在这种实现下，存储被解耦，并且可以以最低限度的存储来添加节点，从而减少与这种存储相关联的附加成本。换句话说，诸如Oracle大数据云服务-计算版之类的服务可以用于按需供应附加的Hadoop或Spark集群，但数据本身保存在Amazon S3或Oracle对象存储中，并在需要时由集群检索。

如图所示，管道泄漏预测系统1220可以访问来自管道数据库1234的数据，管道数据库1234包含现场存在的管道的管道特点数据以及过去这些管道中的哪些管道已经泄漏的知识(例如，已知泄漏)。这种数据有助于构建能够预测管道中泄漏的模型。此外，管道泄漏预测系统1220可以访问管线数据1230，其可以包括现场管道的新的或更新后的管道特点数据。在新安装的管道的情况下，管道特点数据可以是新的，并且在一些情况下，可以(例如，由现场工作人员1210或安装管道的任何人)将新的管道特点数据手动输入到管道泄漏预测系统1220中。管线数据1230还可以包括从现场与管道一起或围绕管道安装的传感器获得的环境数据。例如，管线数据1230可以包括可以从土壤或高度传感器获得的土壤数据、高度数据、天气数据等。管道泄漏预测系统1220可以将预测模型应用于管线数据1230中的数据，以便输出关于管线数据1230中的管道的泄漏预测。

在方框1242处管道泄漏预测系统1220可以纳入所有这些数据。这可以涉及专用通信接口(例如，编程接口或API)，该专用通信接口被配置用于与现场的任何环境传感器通信并从其接收数据。还可以存在被配置用于与存储管道数据库1234的任何计算机系统或设备通信并从其接收数据的通信接口。例如，如果管道数据库1234实际上以分布式方式存储在云计算网络上，那么管道泄漏预测系统1220可以具有用于从云计算网络检索所有该种数据的通信接口。

一旦所有数据已经集成在管道泄漏预测系统1220内，在方框1244处，管道泄漏预测系统1220就可以将所有数据转换成单一的、统一的格式(例如，确保所有日期/时间遵循相同的格式)。这允许容易地生成和应用预测模型(例如，即使输入管道数据的不同现场人员使用不同的数据格式或约定)。

在方框1246处，管道泄漏预测系统1220可以将所有数据(例如，存在的所有管道的管道特点数据)存储在存储装置(诸如图11中所示的对象存储库1120)中。在方框1248处，管道泄漏预测系统1220可以对存储装置中的所有数据执行R分析。例如，管道泄漏预测系统1220可以使用已知管道泄漏的数据来计算针对其数据已知的每个管道特点或每个变量对任何管道将泄漏的可能性的相对影响。在方框1250处，管道泄漏预测系统1220可以预测现场的每个管道(例如在特定时间段内)将泄漏的可能性并且识别最可能泄漏或可能已经泄漏的管道。

一旦管道泄漏预测系统1220已经识别出最可能泄漏或可能已经泄漏的管道，执行团队1290的成员就可以能够通过设备1280上的界面1282查看关于这些识别出的管道的报告。设备1280可以接收从管道泄漏预测系统1220生成的这些报告。此外，执行团队1290的成员可以能够(例如基于与管道相关联的ID)上拉(pull up)并查看对于任何给定管道的管道泄漏预测，以及用于生成这些泄漏预测的计算的细分。因此，执行团队1290的成员可以能够进一步核实并确认任何泄漏预测。例如，成员可以注意到非常老旧的管道预计可能会泄漏，这可以是直观的。然后，该成员可以在界面1282内直接指示来指挥现场工作人员1210实地前往该管道的位置以检查管道是否有任何泄漏。

然后，设备1280将指令发送给管道泄漏预测系统1220，管道泄漏预测系统1220然后将确定(例如地理上)最接近该管道的地点的现场工作人员1210。如果存在需要调查的多个管道，那么管道也可以基于接近度在现场工作人员之间划分(例如，现场工作人员1210可以接收针对其地理地点中的检查的管道池)。然后，管道泄漏预测系统1220可以将指令转发到与现场工作人员1210相关联的设备1212。现场工作人员1210可以能够通过设备1212上的界面1214查看指令和管道的地点。之后，现场工作人员1210然后可以实地前往管道的位置以调查是否有任何泄漏。现场工作人员1210可以能够通过设备1212上的界面1214来指示管道是否已经泄漏。该信息可以被报告回执行团队1290，或者可以被添加到(例如由管道泄漏预测系统1220存储的)现有数据中，以便更新或改进用于识别管道泄漏的任何现有预测模型。

附加实现细节

图13描绘了用于实现本文公开的实施例之一的分布式系统1300的简化图。分布式系统1300可以实现管道泄漏预测系统的实施例，如先前所讨论的。在所示实施例中，分布式系统1300包括一个或多个客户端计算设备1302、1304、1306和1308，它们被配置为通过一个或多个网络1310执行和操作客户端应用，诸如web浏览器、专有客户端(例如，OracleForms)等。服务器1312可以经由网络1310与远程客户端计算设备1302、1304、1306和1308通信地耦合。

在各种实施例中，服务器1312可以适于运行由系统的一个或多个组件提供的一个或多个服务或软件应用。服务或软件应用可以包括非虚拟环境和虚拟环境。虚拟环境可以包括用于虚拟事件、商业展览、模拟器、教室、购物交换和企业的虚拟环境，无论是二维还是三维(3D)表示，基于页面的逻辑环境还是其它。在一些实施例中，这些服务可以作为基于web的服务或云服务或者在软件即服务(SaaS)模型下被提供给客户端计算设备1302、1304、1306和/或1308的用户。操作客户端计算设备1302、1304、1306和/或1308的用户进而可以利用一个或多个客户端应用来与服务器1312交互以利用由这些组件提供的服务。

在图13中描绘的配置中，系统1300的软件组件1318、1320和1322被示出为在服务器1312上实现。在其它实施例中，系统1300的一个或多个组件和/或由这些组件提供的服务也可以由客户端计算设备1302、1304、1306和/或1308中的一个或多个来实现。然后，操作客户端计算设备的用户可以利用一个或多个客户端应用来使用由这些组件提供的服务。这些组件可以用硬件、固件、软件或其组合来实现。应该认识到的是，各种不同的系统配置是可能的，这些配置可以与分布式系统1300不同。因此，图13中所示的实施例是用于实现实施例系统的分布式系统的一个示例，而不旨在是限制性的。

客户端计算设备1302、1304、1306和/或1308可以是便携式手持设备(例如，蜂窝电话、计算平板电脑、个人数字助理(PDA))或可穿戴设备(例如，Google 头戴式显示器)，运行诸如Microsoft Windows 和/或各种移动操作系统(诸如iOS、Windows Phone、Android、BlackBerry 10、Palm OS等)的软件，并且启用互联网、电子邮件、短消息服务(SMS)、或其它通信协议。客户端计算设备可以是通用个人计算机，作为示例，包括运行各种版本的MicrosoftApple 和/或Linux操作系统的个人计算机和/或膝上型计算机。客户端计算设备可以是运行各种可商业获得的或类UNIX操作系统(包括但不限于各种GNU/Linux操作系统，诸如例如Google Chrome OS)中的任何操作系统的工作站计算机。替代地或附加地，客户端计算设备1302、1304、1306和1308可以是能够通过网络1310进行通信的任何其它电子设备，诸如瘦客户端计算机、启用互联网的游戏系统(例如，具有或不具有手势输入设备的Microsoft Xbox游戏控制台)和/或个人消息传送设备。

虽然示出了具有四个客户端计算设备的示例性分布式系统1300，但是可以支持任何数量的客户端计算设备。其它设备(诸如具有传感器等的设备等)可以与服务器1312交互。

分布式系统1300中的网络1310可以是本领域技术人员熟悉的、可以使用各种可商业获得的协议中的任何协议来支持数据通信的任何类型的网络，其中协议包括但不限于TCP/IP(传输控制协议/互联网协议)、SNA(系统网络体系架构)、IPX(互联网分组交换)、AppleTalk等。仅仅作为示例，网络1310可以是局域网(LAN)，诸如基于以太网、令牌环等的LAN。网络1310可以是广域网和互联网。它可以包括虚拟网络，包括但不限于虚拟专用网络(VPN)、内联网、外联网、公共交换电话网(PSTN)、红外网络、无线网络(例如，依据电气和电子协会(IEEE)802.11协议套件、蓝牙和/或任何其它无线协议中的任何协议而操作的网络)；和/或这些网络和/或其它网络的任何组合。

服务器1312可以由一个或多个通用计算机、专用服务器计算机(作为示例，包括PC(个人计算机)服务器、服务器、中档服务器、大型计算机、机架安装的服务器等)、服务器场、服务器集群或任何其它适当的布置和/或组合组成。服务器1312可以包括运行虚拟操作系统的一个或多个虚拟机，或涉及虚拟化的其它计算体系架构。可以虚拟化一个或多个灵活的逻辑存储设备池以维护服务器的虚拟存储设备。虚拟网络可以由服务器1312使用软件定义的联网来控制。在各种实施例中，服务器1312可以适于运行在前述公开中描述的一个或多个服务或软件应用。例如，服务器1312可以对应于用于执行以上根据本公开实施例描述的处理的服务器。

服务器1312可以运行包括以上讨论的任何操作系统的操作系统，以及任何可商业获得的服务器操作系统。服务器1312还可以运行各种附加的服务器应用和/或中间层应用中的任何应用，包括HTTP服务器、FTP服务器、CGI(公共网关接口)服务器、服务器、数据库服务器等。示例性数据库服务器包括但不限于可从Oracle、Microsoft、Sybase、IBM(国际商业机器)等商业获得的数据库服务器。

在一些实现中，服务器1312可以包括一个或多个应用，以分析和整合从客户端计算设备1302、1304、1306和1308的用户接收到的数据馈送和/或事件更新。作为示例，数据馈送和/或事件更新可以包括但不限于，馈送、更新或者从一个或多个第三方信息源和连续数据流接收到的实时更新，实时更新可以包括与传感器数据应用、金融价格收报机(financial ticker)、网络性能测量工具(例如，网络监视和流量管理应用)、点击流分析工具、汽车交通监视等相关的实时事件。服务器1312还可以包括一个或多个应用，以经由客户端计算设备1302、1304、1306和1308的一个或多个显示设备来显示数据馈送和/或实时事件。

分布式系统1300还可以包括一个或多个数据库1314和1316。数据库1314和1316可以驻留在各种位置。举例来说，数据库1314和1316中的一个或多个可以驻留在服务器1313本地(和/或驻留在服务器1312中)的非瞬态存储介质上。可替代地，数据库1314和1316可以远离服务器1312并经由基于网络的连接或专用连接与服务器1312进行通信。在一组实施例中，数据库1314和1316可以驻留在存储区域网络(SAN)中。类似地，用于执行服务器1312所具有的功能的任何必要文件都可以适当地本地存储在服务器1312上和/或远程存储。在一组实施例中，数据库1314和1316可以包括适于响应SQL格式的命令而存储、更新和检索数据的关系数据库，诸如由Oracle提供的数据库。

图14是根据本公开实施例的系统环境1400的一个或多个组件的简化框图，通过该系统环境1400，由实施例系统的一个或多个组件提供的服务可以作为云服务供应。系统环境1400可以包括或实现如前所述的管道泄漏预测系统的实施例。在所示实施例中，系统环境1400包括可以由用户使用以与提供云服务的云基础设施系统1402交互的一个或多个客户端计算设备1404、1406和1408。客户端计算设备可以被配置为操作客户端应用，诸如web浏览器、专有客户端应用(例如，Oracle Forms)或某种其它应用，这些应用可以由客户端计算设备的用户用来与云基础设施系统1402交互以使用由云基础设施系统1402提供的服务。

应当理解的是，图14中描绘的云基础设施系统1402可以具有除了所描绘的组件之外的其它组件。另外，图14中所示的实施例仅仅是可以结合本发明的实施例的云基础设施系统的一个示例。例如，云基础设施系统1402可以包括或实现如前所述的管道泄漏预测系统的一个或多个元件。在一些其它实施例中，云基础设施系统1402可以具有比图14中所示更多或更少的组件、可以组合两个或更多个组件、或者可以具有不同的组件布置或配置。

客户端计算设备1404、1406和1408可以是与上面针对1302、1304、1306和1308描述的设备类似的设备。

虽然示例性系统环境1400被示出具有三个客户端计算设备，但是可以支持任何数量的客户端计算设备。诸如具有传感器的设备等的其它设备可以与云基础设施系统1402交互。

网络1410可以促进客户端1404、1406和1408与云基础设施系统1402之间的数据交换和通信。每个网络可以是本领域技术人员所熟悉的、可以使用各种可商业获得的协议(包括上面针对网络1310所描述的那些协议)中的任何协议支持数据通信的任何类型的网络。

云基础设施系统1402可以包括一个或多个计算机和/或服务器，该一个或多个计算机和/或服务器可以包括上面针对服务器1312所描述的那些计算机和/或服务器。

在某些实施例中，由云基础设施系统提供的服务可以包括按需对云基础设施系统的用户可用的许多服务，诸如在线数据存储和备份解决方案、基于Web的电子邮件服务、托管的办公室(office)套件和文档协作服务、数据库处理、受管理的技术支持服务等。由云基础设施系统提供的服务可以动态扩展以满足云基础设施系统的用户的需要。由云基础设施系统提供的服务的具体实例化在本文中被称为“服务实例”。一般而言，从云服务提供商的系统经由通信网络(诸如互联网)对用户可用的任何服务被称为“云服务”。通常，在公共云环境中，构成云服务提供商的系统的系统和服务器与客户自己的室内服务器和系统不同。例如，云服务提供商的系统可以托管应用，并且用户可以经由诸如互联网的通信网络按需订购和使用应用。

在一些示例中，计算机网络云基础设施中的服务可以包括对存储装置、托管的数据库、托管的web服务器、软件应用或由云供应商向用户提供的其它服务的受保护的计算机网络访问，或者如本领域中另外已知的。例如，服务可以包括通过互联网对云上的远程存储装置进行受密码保护的访问。作为另一个示例，服务可以包括基于web服务的托管的关系数据库和脚本语言中间件引擎，以供联网的开发人员私有使用。作为另一个示例，服务可以包括对托管在云供应商的网站上的电子邮件软件应用的访问。

在某些实施例中，云基础设施系统1402可以包括以自助服务、基于订阅、弹性可扩展、可靠、高度可用和安全的方式递送给客户的数据库服务供应、中间件和应用的套件。这种云基础设施系统的示例是由本受让人(assignee)提供的Oracle公共云。

大量数据(有时称为大数据)可以由基础设施系统在许多级别和不同规模上托管和/或操纵。这些数据可以包括如此庞大和复杂以至于使用典型的数据库管理工具或传统的数据处理应用难以处理的数据集。例如，使用个人计算机或其基于机架的对应物可能难以存储、检索和处理数太字节(terabytes)的数据。使用大多数当前的关系数据库管理系统和桌面统计数据和可视化包，这样尺寸的数据难以处理。它们可以要求超出常用软件工具的结构的运行数千台服务器计算机的大规模并行处理软件，以在可容忍的时间内捕获、策展(curate)、管理并处理数据。

极大的数据集可以由分析人员和研究人员存储和操纵，以可视化大量数据、检测趋势和/或以其它方式与数据交互。并行链接的数十个、数百个或数千个处理器可以对这种数据起作用，以便呈现数据或模拟数据上的外力或它所代表的内容。这些数据集可以涉及结构化数据，诸如在数据库中或者以其他方式根据结构化模型组织的结构化数据，和/或非结构化数据(例如，电子邮件、图像、数据blob(二进制大对象)、网页、复杂事件处理)。通过充分利用实施例的能力相对快速地将更多(或更少)计算资源集中在目标上，云基础设施系统可以更好地用于基于来自企业、政府机构、研究组织、私人个体、志同道合的个人或组织的组或其它实体的需求来在大数据集上执行任务。

在各种实施例中，云基础设施系统1402可以适于自动供应、管理和跟踪客户对由云基础设施系统1402供应的服务的订阅。云基础设施系统1402可以经由不同的部署模型来提供云服务。例如，可以依据公共云模型提供服务，其中云基础设施系统1402被销售云服务的组织拥有(例如，被Oracle拥有)，并且服务对一般公众或不同行业的企业可用。作为另一个示例，可以依据私有云模型来提供服务，其中云基础设施系统1402仅针对单个组织进行操作，并且可以为该组织内的一个或多个实体提供服务。还可以依据社区云模型来提供云服务，其中云基础设施系统1402和由云基础设施系统1402提供的服务由相关社区中的若干组织共享。还可以依据混合云模型提供云服务，该混合云模型是两个或更多个不同模型的组合。

在一些实施例中，由云基础设施系统1402提供的服务可以包括在软件即服务(SaaS)类别、平台即服务(PaaS)类别、基础设施即服务(IaaS)类别或包括混合服务的其它服务类别下提供的一个或多个服务。客户经由订阅订单可以订购由云基础设施系统1402提供的一个或多个服务。云基础设施系统1402然后执行处理以提供客户的订阅订单中的服务。

在一些实施例中，由云基础设施系统1402提供的服务可以包括但不限于应用服务、平台服务和基础设施服务。在一些示例中，应用服务可以由云基础设施系统经由SaaS平台提供。SaaS平台可以被配置为提供落入SaaS类别的云服务。例如，SaaS平台可以提供在集成开发和部署平台上构建和递送按需应用套件的能力。SaaS平台可以管理和控制用于提供SaaS服务的底层软件和基础设施。通过利用由SaaS平台提供的服务，客户可以利用在云基础设施系统上执行的应用。客户可以获取应用服务，而无需客户购买单独许可证和支持。可以提供各种不同的SaaS服务。示例包括但不限于为大型组织提供销售绩效管理、企业集成和商务灵活性的解决方案的服务。

在一些实施例中，平台服务可以由云基础设施系统经由PaaS平台提供。PaaS平台可以被配置为提供落入PaaS类别的云服务。平台服务的示例可以包括但不限于使组织(诸如Oracle)能够在共享的公共体系架构上整合现有应用以及充分利用由平台提供的共享服务来构建新应用的能力的服务。PaaS平台可以管理和控制用于提供PaaS服务的底层软件和基础设施。客户可以获取由云基础架构系统提供的PaaS服务，而无需客户购买单独的许可证和支持。平台服务的示例包括但不限于Oracle Java云服务(JCS)、Oracle数据库云服务(DBCS)等。

通过利用由PaaS平台提供的服务，客户可以采用由云基础设施系统支持的编程语言和工具，并且还控制所部署的服务。在一些实施例中，由云基础设施系统提供的平台服务可以包括数据库云服务、中间件云服务(例如，Oracle融合中间件服务)和Java云服务。在一个实施例中，数据库云服务可以支持共享服务部署模型，该共享服务部署模型使得组织能够汇集数据库资源并且以数据库云的形式向客户供应数据库即服务。中间件云服务可以为客户提供开发和部署各种商务应用的平台，并且Java云服务可以为客户提供在云基础设施系统中部署Java应用的平台。

各种不同的基础设施服务可以由云基础设施系统中的IaaS平台提供。基础设施服务促进底层计算资源(诸如存储装置、网络和其它基础计算资源)的管理和控制，以供客户利用由SaaS平台和PaaS平台提供的服务。

在某些实施例中，云基础设施系统1402还可以包括基础设施资源1430，用于向云基础设施系统的客户提供用于提供各种服务的资源。在一个实施例中，基础设施资源1430可以包括预先集成和优化的硬件(诸如服务器、存储装置和联网资源)的组合，以执行由PaaS平台和SaaS平台提供的服务。

在一些实施例中，云基础设施系统1402中的资源可以由多个用户共享并且根据需要动态重新分配。此外，可以将资源分配给在不同时区的用户。例如，云基础设施系统1430可以使在第一时区中的第一组用户能够在指定的小时数内利用云基础设施系统的资源，并且然后使相同资源能够被重新分配给位于不同时区的另一组用户，从而使资源的利用率最大化。

在某些实施例中，可以提供由云基础设施系统1402的不同组件或模块以及由云基础设施系统1402提供的服务共享的多个内部共享服务1432。这些内部共享服务可以包括但不限于：安全和身份服务、集成服务、企业储存库服务、企业管理器服务、病毒扫描和白名单服务、高可用性、备份和恢复服务、启用云支持的服务、电子邮件服务、通知服务、文件传输服务等。

在某些实施例中，云基础设施系统1402可以提供云基础设施系统中的云服务(例如，SaaS、PaaS和IaaS服务)的综合管理。在一个实施例中，云管理功能可以包括用于供应、管理和跟踪由云基础设施系统1402接收到的客户订阅等的能力。

在一个实施例中，如图14中所绘出的，云管理功能可以由一个或多个模块提供，其中模块诸如订单管理模块1420、订单编排模块1422、订单供应模块1424、订单管理和监视模块1426，以及身份管理模块1428。这些模块可以包括一个或多个计算机和/或服务器或者使用一个或多个计算机和/或服务器来提供，这些计算机和/或服务器可以是通用计算机、专用服务器计算机、服务器场、服务器集群或任何其它适当的布置/或组合。

在示例性操作1434中，使用客户端设备(诸如客户端设备1404、1406或1408)的客户可以通过请求由云基础设施系统1402提供的一个或多个服务并且针对由云基础设施系统1402供应的一个或多个服务下订阅订单来与云基础设施系统1402交互。在某些实施例中，客户可以访问云用户界面(UI)、云UI 1412、云UI 1414和/或云UI 1416并经由这些UI下订阅订单。云基础设施系统1402响应于客户下订单而接收到的订单信息可以包括识别客户以及客户想要订阅的由云基础设施系统1402供应的一个或多个服务的信息。

在客户已经下订单之后，经由云UI 1412、1414和/或1416来接收订单信息。

在操作1436处，订单存储在订单数据库1418中。订单数据库1418可以是由云基础设施系统1418操作的以及与其它系统元件一起操作的若干数据库之一。

在操作1438处，订单信息被转发给订单管理模块1420。在一些情况下，订单管理模块1420可以被配置为执行与订单相关的计费和记账功能，诸如验证订单，并且在验证后预订订单。

在操作1440处，将关于订单的信息传送给订单编排模块1422。订单编排模块1422可以利用订单信息为客户下的订单编排服务和资源的供应。在一些情况下，订单编排模块1422可以使用订单供应模块1424的服务来编排资源的供应以支持订阅的服务。

在某些实施例中，订单编排模块1422使得能够管理与每个订单相关联的业务流程并应用业务逻辑来确定订单是否应该进行到供应。在操作1442处，在接收到新订阅的订单后，订单编排模块1422向订单供应模块1424发送请求以分配资源并配置履行订阅订单所需的那些资源。订单供应模块1424使得能够为客户订购的服务分配资源。订单供应模块1424提供由云基础设施系统1400提供的云服务和用于供应用于提供所请求的服务的资源的物理实现层之间的抽象层。因此，订单编排模块1422可以与实现细节隔离，诸如服务和资源是否实际上即时(on the fly)供应，或者预先供应并仅在请求后才分配/指派。

在操作1444处，一旦供应了服务和资源，就可以通过云基础设施系统1402的订单供应模块1424向客户端设备1404、1406和/或1408上的客户发送所提供服务的通知。

在操作1446处，订单管理和监视模块1426可以管理和跟踪客户的订阅订单。在一些情况下，订单管理和监视模块1426可以被配置为收集订阅订单中的服务的使用统计，诸如，所使用的存储量、传输的数据量、用户的数量，以及系统运行时间和系统停机时间的量。

在某些实施例中，云基础设施系统1400可以包括身份管理模块1428。身份管理模块1428可以被配置为提供身份服务，诸如云基础设施系统1400中的访问管理和授权服务。在一些实施例中，身份管理模块1428可以控制关于希望利用由云基础设施系统1402提供的服务的客户的信息。这样的信息可以包括认证这些客户的身份的信息以及描述这些客户被授权相对于各种系统资源(例如，文件、目录、应用、通信端口、存储器段等)执行哪些动作的信息。身份管理模块1428还可以包括对关于每个客户的描述性信息以及关于可以如何和由谁来访问和修改该描述性信息的管理。

图15图示了其中可以实现本发明的各种实施例的示例性计算机系统1500。系统1500可以用于实现上述计算机系统中的任何计算机系统。例如，图1中所示的管道泄漏预测系统的元件中的全部或一些可以包括在系统1500中或在系统1500中实现。如图15中所示，计算机系统1500包括经由总线子系统1502与多个外围子系统通信的处理单元1504。这些外围子系统可以包括处理加速单元1506、I/O子系统1508、存储子系统1518和通信子系统1524。存储子系统1518包括有形计算机可读存储介质1522和系统存储器1510。

总线子系统1502提供用于让计算机系统1500的各种组件和子系统按意图彼此进行通信的机制。虽然总线子系统1502被示意性地示出为单条总线，但是总线子系统的替代实施例可以利用多条总线。总线子系统1502可以是若干种类型的总线结构(包括存储器总线或存储器控制器、外围总线、以及使用各种总线体系架构中的任何体系架构的局部总线)中的任何类型。例如，这种体系架构可以包括工业标准体系架构(ISA)总线、微通道体系架构(MCA)总线、增强型ISA(EISA)总线、视频电子标准协会(VESA)局部总线和外围组件互连(PCI)总线，这些总线可以被实现为按IEEE P1386.1标准制造的夹层(Mezzanine)总线。

可以被实现为一个或多个集成电路(例如，常规微处理器或微控制器)的处理单元1504控制计算机系统1500的操作。一个或多个处理器可以被包括在处理单元1504中。这些处理器可以包括单核处理器或多核处理器。在某些实施例中，处理单元1504可以被实现为一个或多个独立的处理单元1532和/或1534，其中在每个处理单元中包括单核处理器或多核处理器。在其它实施例中，处理单元1504也可以被实现为通过将两个双核处理器集成到单个芯片中形成的四核处理单元。

在各种实施例中，处理单元1504可以响应于程序代码执行各种程序并且可以维护多个并发执行的程序或进程。在任何给定的时间，要被执行的程序代码中的一些或全部代码可以驻留在处理器1504中和/或存储子系统1518中。通过适当的编程，处理器1504可以提供上述各种功能。计算机系统1500可以附加地包括处理加速单元1506，该处理加速单元1506可以包括数字信号处理器(DSP)、专用处理器等。

I/O子系统1508可以包括用户接口输入设备和用户接口输出设备。用户接口输入设备可以包括键盘、诸如鼠标或轨迹球的指向设备、结合到显示器中的触摸板或触摸屏、滚动轮、点击轮、拨盘、按钮、开关、小键盘、具有语音命令辨识系统的音频输入设备、麦克风以及其它类型的输入设备。用户接口输入设备可以包括，例如，运动感测和/或手势辨识设备，诸如Microsoft 运动传感器，该运动传感器使得用户能够通过使用手势和语音命令的自然用户接口来控制诸如Microsoft 360游戏控制器的输入设备并与之交互。用户接口输入设备也可以包括眼睛姿势辨识设备，诸如从用户检测眼睛活动(例如，当拍摄照片和/或进行菜单选择时的“眨眼”)并且将眼睛姿势变换为进入输入设备(例如，Google )中的输入的Google 眨眼检测器。此外，用户接口输入设备可以包括使用户能够通过语音命令与语音辨识系统(例如，导航器)交互的语音辨识感测设备。

用户接口输入设备也可以包括但不限于：三维(3D)鼠标、操纵杆或指向棒(pointing stick)、游戏面板和绘图板、以及音频/视觉设备，诸如扬声器、数码相机、数码摄录机、便携式媒体播放器、网络摄像头(webcam)、图像扫描仪、指纹扫描仪、条形码阅读器3D扫描仪、3D打印机、激光测距仪和视线跟踪设备。此外，用户接口输入设备可以包括，例如，医学成像输入设备，诸如计算机断层扫描、磁共振成像、正电子发射断层显像、医疗超声设备。用户接口输入设备也可以包括，例如，诸如MIDI键盘、数字乐器等的音频输入设备。

用户接口输出设备可以包括显示子系统、指示灯，或者诸如音频输出设备的非可视显示器等。显示子系统可以是阴极射线管(CRT)、诸如使用液晶显示器(LCD)或等离子显示器的平板设备、投影设备、触摸屏等。一般而言，术语“输出设备”的使用旨在包括用于从计算机系统1500向用户或其它计算机输出信息的所有可能类型的设备和机制。例如，用户接口输出设备可以包括但不限于：可视地传达文本、图形和音频/视频信息的各种显示设备，诸如监视器、打印机、扬声器、耳机、汽车导航系统、绘图仪、语音输出设备以及调制解调器。

计算机系统1500可以包括存储子系统1518，存储子系统1518包括被示出为当前位于系统存储器1510内的软件元件。系统存储器1510可以存储可加载到处理单元1504上并且可在处理单元1504上执行的程序指令，以及在这些程序的执行期间所生成的数据。

取决于计算机系统1500的配置和类型，系统存储器1510可以是易失性的(诸如随机存取存储器(RAM))和/或非易失性的(诸如只读存储器(ROM)、闪存存储器等)。RAM通常包含可被处理单元1504立即访问和/或目前正在被处理单元1504操作和执行的数据和/或程序模块。在一些实现中，系统存储器1510可以包括多种不同类型的存储器，诸如静态随机存取存储器(SRAM)或动态随机存取存储器(DRAM)。在一些实现中，诸如在启动期间，包含有助于在计算机系统1500内的元件之间传送信息的基本例程的基本输入/输出系统(BIOS)通常可以被存储在ROM中。作为示例但不是限制，系统存储器1510也示出了应用程序1512(可以包括客户端应用、Web浏览器、中间层应用、关系数据库管理系统(RDBMS)等)、程序数据1514、以及操作系统1516。作为示例，操作系统1516可以包括各种版本的MicrosoftApple 和/或Linux操作系统、各种可商业获得的或类UNIX操作系统(包括但不限于各种GNU/Linux操作系统、Google OS等)和/或移动操作系统(诸如iOS、 Phone、OS、10OS和 OS操作系统)。

存储子系统1518也可以提供用于存储提供一些实施例的功能的基本编程和数据结构的有形计算机可读存储介质。当由处理器执行时提供上述功能的软件(程序、代码模块、指令)可以被存储在存储子系统1518中。这些软件模块或指令可以由处理单元1504执行。存储子系统1518也可以提供用于存储根据本发明使用的数据的储存库。

存储子系统1500也可以包括可被进一步连接到计算机可读存储介质1522的计算机可读存储介质读取器1520。与系统存储器1510一起并且可选地与系统存储器1510相结合，计算机可读存储介质1522可以全面地表示用于临时和/或更持久地包含、存储、发送和检索计算机可读信息的远程、本地、固定和/或可移动的存储设备加上存储介质。

包含代码或代码的一部分的计算机可读存储介质1522也可以包括本领域已知或使用的任何适当的介质，包括存储介质和通信介质，诸如但不限于：以用于信息的存储和/或传输的任何方法或技术实现的易失性和非易失性、可移动和不可移动介质。这可以包括有形的非瞬态计算机可读存储介质，诸如RAM、ROM、电可擦除可编程ROM(EEPROM)、闪存存储器或其它存储器技术、CD-ROM、数字多功能盘(DVD)或其它光学储存装置、磁带盒、磁带、磁盘储存装置或其它磁存储设备、或者其它有形计算机可读介质。当被指定时，这也可以包括非有形的瞬态计算机可读介质，诸如数据信号、数据传输，或者可以用于发送期望信息并且可以被计算系统1500访问的任何其它介质。

作为示例，计算机可读存储介质1522可以包括从不可移动的非易失性磁介质读取或写入到不可移动的非易失性磁介质的硬盘驱动器、从可移动的非易失性磁盘读取或写入到可移动的非易失性磁盘的磁盘驱动器、以及从可移动的非易失性光盘(诸如CD ROM、DVD和Blu-(蓝光)盘或其它光学介质)读取或写入到可移动的非易失性光盘的光盘驱动器。计算机可读存储介质1522可以包括但不限于：驱动器、闪存卡、通用串行总线(USB)闪存驱动器、安全数字(SD)卡、DVD盘、数字视频带等。计算机可读存储介质1522也可以包括：基于非易失性存储器的固态驱动器(SSD)(诸如基于闪存存储器的SSD、企业闪存驱动器、固态ROM等)、基于易失性存储器的SSD(诸如固态RAM、动态RAM、静态RAM，基于DRAM的SSD、磁阻RAM(MRAM)SSD)、以及使用基于DRAM和闪存存储器的SSD的组合的混合SSD。盘驱动器及其关联的计算机可读介质可以为计算机系统1500提供计算机可读指令、数据结构、程序模块以及其它数据的非易失性存储。

通信子系统1524提供到其它计算机系统和网络的接口。通信子系统1524用作用于从其它系统接收数据和从计算机系统1500向其它系统发送数据的接口。例如，通信子系统1524可以使计算机系统1500能够经由互联网连接到一个或多个设备。在一些实施例中，通信子系统1524可以包括用于(例如使用蜂窝电话技术、先进数据网络技术，诸如3G、4G或EDGE(用于全球演进的增强型数据速率)、WiFi(IEEE 802.11系列标准)或其它移动通信技术、或者其任何组合)访问无线语音和/或数据网络的射频(RF)收发器组件、全球定位系统(GPS)接收器组件和/或其它组件。在一些实施例中，作为无线接口的附加或者替代，通信子系统1524可以提供有线网络连接(例如，以太网)。

在一些实施例中，通信子系统1524也可以代表可以使用计算机系统1500的一个或多个用户来接收以结构化和/或非结构化数据馈送1526、事件流1528、事件更新1530等形式的输入通信。

作为示例，通信子系统1524可以被配置为从社交媒体网络和/或其它通信服务的用户实时地接收数据馈送1526，诸如馈送、更新、诸如丰富站点摘要(RSS)馈送的web馈送和/或来自一个或多个第三方信息源的实时更新。

此外，通信子系统1524也可以被配置为接收以连续数据流形式的数据，该数据可以包括本质上可以是连续的或无界的没有明确终止的实时事件的事件流1528和/或事件更新1530。生成连续数据的应用的示例可以包括，例如，传感器数据应用、金融价格收报机、网络性能测量工具(例如，网络监视和流量管理应用)、点击流分析工具、汽车流量监视等。

通信子系统1524也可以被配置为向一个或多个数据库输出结构化和/或非结构化的数据馈送1526、事件流1528、事件更新1530等，这一个或多个数据库可以与耦合到计算机系统1500的一个或多个流传输数据源计算机进行通信。

计算机系统1500可以是各种类型中的一种类型，包括手持便携式设备(例如，蜂窝电话、计算平板电脑、PDA)、可穿戴设备(例如，Google 头戴式显示器)、PC、工作站、大型机、信息站(kiosk)、服务器机架、或任何其它数据处理系统。

由于计算机和网络的不断变化的本质，对在图15中绘出的计算机系统1500的描述仅旨在作为具体的示例。具有比图15中绘出的系统更多或更少组件的许多其它配置是可能的。例如，定制的硬件也可以被使用和/或特定的元素可以在硬件、固件、软件(包括小应用程序(applet))或其组合中实现。另外，可以采用到诸如网络输入/输出设备的其它计算设备的连接。基于本文提供的公开内容和教导，本领域普通技术人员将认识到实现各种实施例的其它方式和/或方法。

在前述说明书中，参考本发明的各方面的具体实施例对本发明的各方面进行了描述，但是本领域技术人员将认识到的是，本发明不限于此。上述发明的各个特征和方面可以被单独使用或联合使用。另外，在不脱离本说明书的更广泛精神和范围的情况下，实施例可以在除本文所述的那些环境和应用之外的任何数目的环境和应用中被使用。相应地，本说明书和附图应当被认为是说明性的而不是限制性的。

Claims

1.一种用于预测管道泄漏的计算机实现的方法，所述方法包括：

访问训练数据集，所述训练数据集包括与第一多个管道中的相应管道相关联的第一数据项和已知泄漏，其中第一数据项包括相应管道的特点；

应用监督机器学习技术以生成预测模型，所述预测模型被配置为通过基于与第一多个管道中的相应管道相关联的第一数据项训练该预测模型来确定管道的泄漏预测；

访问验证数据集，所述验证数据集包括与第二多个管道中的相应管道相关联的第二数据项和已知泄漏，其中第二数据项包括相应管道的特点；

至少通过以下操作来验证所述预测模型：

通过将所述预测模型应用于第二数据项来确定第二多个管道中的管道的泄漏预测集合；

将第二多个管道中的管道的泄漏预测与第二多个管道中的管道的已知泄漏进行比较，以确定第二多个管道中的管道的泄漏预测的准确度；

基于第二多个管道中的管道的泄漏预测的准确度来生成混淆矩阵；

基于所述混淆矩阵，确定与第二多个管道中的管道的泄漏预测的准确度相关联的真阳性率、假阳性率、真阴性率和假阴性率；

确定真阳性率高于第一阈值；以及

确定真阴性率高于第二阈值；访问管线数据集，所述管线数据集包括与第三多个管道相关联的第三数据项；以及

将所述预测模型应用于所述管线数据集，以确定第三多个管道中的相应管道的泄漏预测。

2.如权利要求1所述的计算机实现的方法，其中所述预测模型包括随机森林模型。

3.如权利要求1所述的计算机实现的方法，其中所述预测模型包括逻辑回归。

4.如权利要求1所述的计算机实现的方法，其中所述预测模型包括朴素贝叶斯模型。

5.如权利要求1所述的计算机实现的方法，其中，基于根据应用所述预测模型得到的第二多个管道中的管道的泄漏预测集合的统计分布，自动确定第一阈值。

6.如权利要求1所述的计算机实现的方法，其中，基于根据应用所述预测模型得到的第二多个管道中的管道的泄漏预测集合的统计分布，自动确定第二阈值。

7.如权利要求1所述的计算机实现的方法，其中所述方法还包括：

基于所确定的第三多个管道中的管道的泄漏预测来订购第三多个管道中的管道。

8.一种计算系统，包括：

一个或多个数据存储库，存储：

训练数据集，所述训练数据集包括与第一多个管道中的相应管道相关联的第一数据项和已知泄漏，其中第一数据项包括相应管道的特点；

验证数据集，所述验证数据集包括与第二多个管道中的相应管道相关联的第二数据项和已知泄漏，其中第二数据项包括相应管道的特点；

计算机处理器；以及

存储程序指令的计算机可读存储介质，所述程序指令被配置为由所述计算机处理器执行以便使所述计算机处理器执行以下操作：

访问所述训练数据集；

访问所述验证数据集；

至少通过以下操作来验证所述预测模型：

确定真阳性率高于第一阈值；以及

确定真阴性率高于第二阈值；

访问管线数据集，所述管线数据集包括与第三多个管道相关联的第三数据项；以及

9.如权利要求8所述的计算系统，其中所述预测模型包括随机森林模型。

10.如权利要求8所述的计算系统，其中所述预测模型包括逻辑回归。

11.如权利要求8所述的计算系统，其中所述预测模型包括朴素贝叶斯模型。

12.如权利要求8所述的计算系统，其中，基于根据应用所述预测模型得到的第二多个管道中的管道的泄漏预测集合的统计分布，自动确定第一阈值。

13.如权利要求8所述的计算系统，其中，基于根据应用所述预测模型得到的第二多个管道中的管道的泄漏预测集合的统计分布，自动确定第二阈值。

14.如权利要求8所述的计算系统，其中所述程序指令在由所述计算机处理器执行时还使得所述计算机处理器：

15.一种包含程序指令的非瞬态计算机可读介质，所述程序指令被配置为由计算机处理器执行以便使所述计算机处理器执行以下操作：

访问包括在一个或多个数据存储库中的训练数据集，所述训练数据集包括与第一多个管道中的相应管道相关联的第一数据项和已知泄漏，其中第一数据项包括相应管道的特点；

访问包括在所述一个或多个数据存储库中的验证数据集，所述验证数据集包括与第二多个管道中的相应管道相关联的第二数据项和已知泄漏，其中第二数据项包括相应管道的特点；

至少通过以下操作来验证所述预测模型：

确定真阳性率高于第一阈值；以及

16.如权利要求15所述的非瞬态计算机可读介质，其中所述预测模型包括随机森林模型。

17.如权利要求15所述的非瞬态计算机可读介质，其中所述预测模型包括逻辑回归。

18.如权利要求15所述的非瞬态计算机可读介质，其中所述预测模型包括朴素贝叶斯模型。

19.如权利要求15所述的非瞬态计算机可读介质，其中，基于根据应用所述预测模型得到的第二多个管道中的管道的泄漏预测集合的统计分布，自动确定第一阈值。

20.如权利要求15所述的非瞬态计算机可读介质，其中，基于根据应用所述预测模型得到的第二多个管道中的管道的泄漏预测集合的统计分布，自动确定第二阈值。