CN109058771A

CN109058771A - 基于样本生成和间隔Markov特征的管道异常检测方法

Info

Publication number: CN109058771A
Application number: CN201811173189.9A
Authority: CN
Inventors: 张化光; 韩莹莹; 刘金海; 汪刚; 马大中; 冯健
Original assignee: Northeastern University China
Current assignee: Northeastern University China
Priority date: 2018-10-09
Filing date: 2018-10-09
Publication date: 2018-12-21
Anticipated expiration: 2038-10-09
Also published as: CN109058771B

Abstract

本发明的目的是提供一种基于样本生成和间隔Markov特征的管道异常检测方法，涉及管道异常检测领域。本发明的方法包括：步骤1.历史数据样本的提取及滤波处理；步骤2.历史数据样本的规则化及降采样处理；步骤3.ELM模型的建立与训练；步骤4.基于ELM模型进行样本生成，得到扩充后的输入样本集；步骤5.对扩充后的输入样本集中每个样本，当t＞Q时，将每一时刻的状态用前Q个时间间隔内的平均状态代替，进行间隔Markov特征的提取；步骤6.基于SVM模型或RF模型对管道异常进行识别。本发明解决了现有技术中复杂工况条件下微弱的管道泄漏信号和工况调整信号识别困难的技术问题，能够提高管道异常检测的精度。

Description

基于样本生成和间隔Markov特征的管道异常检测方法

技术领域

本发明涉及管道异常检测领域，特别是涉及一种基于样本生成和间隔Markov特征的管道异常检测方法。

背景技术

对于一个以工业为主的国家，工业的发展程度决定了人们的生活水平，同时消耗的资源也是成比例的增加。这种现实情况迫使能源的运输成了当下热议的话题。其中，管道能源运输逐渐成为与铁路、公路、航空、水路并驾齐驱的运输行业。管道运输在运送对象方面与其他四类运输方式有一定差别，管道运输主要是借助管道内的压力差来推动运送对象的运输，因此，管道运输的对象一般都是流体，如天然气、水、石油等；其中，石油是现代管道运输的主要运送对象。

不同的管道泄漏检测方法有不同的优缺点和适用范围。在国内的成品油管网系统中，对于单一管道上的泄漏检测技术上，已经具有了较高的灵敏度和准确度。考虑到监控站内进行工况调整也会产生干扰，现行的解决方法是根据定位泄漏点的位置在监控站范围内来排除大部分的工况干扰。但在现今复杂的成品油管网结构下，频繁的工况调整，以及压力波在传播过程中会有不同程度的衰减，都使得泄漏检测的误报率逐渐增加，频繁的报警给监控人员带来了不必要的负担和困难。而且在实际的生产要求中，为了保证无漏报情况的出现，现场工作人员又不能选用降低灵敏度和准确度为代价的方法来降低误报率，最终造成了人力和物力的浪费。因此，准确识别压力数据中的异常类型对于保证管道安全运行极其重要。

管道异常检测类型主要包括泄漏和工况调整。一方面，大型泄漏的检测准确率一般都很高，而对于微弱泄漏的检测识别效果均不是非常理想。广为使用的管道泄漏检测方法是负压波法，其原理是检测管道两端压力的下降沿，而当管道泄漏非常微弱时，泄漏引起的压力下降幅度也非常的微弱，加之管道压力信号通常噪声较大，微弱泄漏引起的压力下降信号常常被淹没在噪声中，这不仅影响了定位精度，而且不能准确识别，造成了严重的漏报和误报，就给负压波的检测带来了难题。另一方面，随着石油开采的快速发展，多点分输、大落差输送以及多油品顺序输送等复杂管道输送工况，都会造成输油管道内压力的频繁波动，使得单纯基于负压波信号的管道泄漏检测系统的误报率大大上升；同时，泵站间距的增加，也会造成压力波的迅速衰减，泄漏信号会变得更加微弱；而对于工况识别的研究很少，传统方法中仅仅是根据定位泄漏点的位置是否在监控站范围内来排除大部分的工况干扰，对于站外工况调整产生漏报。由上所述，可见，如何在复杂工况条件下识别微弱的管道泄漏信号和工况调整信号，从而提高管道异常检测的精度、降低漏报率与误报率，是当前管道泄漏检测领域亟需解决的难题之一。

发明内容

针对上述现有的管道泄漏检测方法中存在的复杂工况条件下微弱的管道泄漏信号和工况调整信号识别困难的技术问题，本发明提供一种基于样本生成和间隔Markov特征的管道异常检测方法，能够提高管道异常检测的精度、降低漏报率与误报率。

本发明的技术方案为：

一种基于样本生成和间隔Markov特征的管道异常检测方法，其特征在于，包括下述步骤：

步骤1：历史数据样本的提取及滤波处理：提取管道压力的历史数据样本，构成初始历史数据样本集，所述历史数据样本为离散时间序列，所述初始历史数据样本集包括泄漏样本和工况调整样本；使用低通滤波器，对所述初始历史数据样本集进行滤波处理，获取低频信息；再用高斯滤波的方法对所述初始历史数据样本集进行滤波去噪，最终得到滤波处理后的历史数据样本集；

步骤2：历史数据样本的规则化及降采样处理：对滤波处理后的历史数据样本集进行规则化处理，得到样本集X＝[X₁；X₂；...；X_M]；对所述样本集X进行降采样处理，得到样本集Y＝[Y₁；Y₂；...；Y_M]；其中，M为所述样本集X和所述样本集Y中样本的个数，所述样本集X和所述样本集Y中样本的长度分别为m和v；

步骤3：ELM模型的建立与训练：将所述样本集X＝[X₁；X₂；...；X_M]作为初始输入样本集，将所述样本集Y＝[Y₁；Y₂；...；Y_M]作为初始输出样本集，构成训练样本集S＝(X_i,Y_i)i＝1,2,...,M；通过训练，得到ELM模型的隐含层到输出层的权重β；

步骤4：基于ELM模型的样本生成：基于ELM模型进行样本泛化，从输出层返回到输入层，得到新的输入样本X'_g＝[X'_g1，X'_g2，...，X'_gt，...，X'_gm']，g∈[1，M']，构成新的输入样本集X'＝[X'₁，X'₂，...，X'_g，...，X'_M']；其中，M'为新的输入样本的数量，X'_g为离散时间序列，X'_gt为输入样本X'_g中第t时刻的压力数据，t∈{1,2,...,m'}，m'为输入样本X'_g的长度；所述新的输入样本集X'与所述初始输入样本集X共同构成扩充后的输入样本集X_e；

步骤5：间隔Markov特征的提取：

步骤5.1：对所述输入样本集X'中每个样本对应的窗体选取上下边界；

步骤5.2：对所述输入样本集X'中每个样本对应的窗体，采取四分位数和标准分数相结合的方法来划分状态区间；

步骤5.3：对所述输入样本集X'中的每个样本，当t＞Q时，将每一时刻的状态用前Q个时间间隔内的平均状态代替，得到每个样本对应的间隔Markov链，提取每个样本的间隔Markov特征，形成所述输入样本集X'的间隔Markov特征集；

步骤5.4：对所述初始输入样本集X中的每个样本，进行上述步骤5.1、步骤5.2、步骤5.3的处理，得到所述初始输入样本集X的间隔Markov特征集，从而得到所述扩充后的输入样本集X_e的间隔Markov特征集；

步骤6：管道异常的识别：构建SVM模型和RF模型，将所述扩充后的输入样本集X_e的间隔Markov特征集输入所述SVM模型或所述RF模型中，随机选取该间隔Markov特征集的80％作为训练样本、20％作为测试样本，进行管道异常的识别。

所述步骤3包括下述步骤：

步骤3.1：建立ELM模型：i∈[1，M]，写成矩阵形式为Hβ＝Y；其中，L为隐含层节点数，w_j为第j个隐含层节点的输入权重，b_j为第j个隐含层节点的偏移，β_j为第j个隐含层节点的输出权重，所述输入权重w_j、所述偏移b_j、所述输出权重β_j均为服从标准正态分布的随机矩阵，h为激活函数；H为隐含层输出矩阵，β为隐含层到输出层的权重；

步骤3.2：设定隐含层节点数L，随机获取初始输入权重w_j和偏移b_j；设置所述激活函数h为Sigmoid激活函数，即结合初始输入样本集X＝[X₁；X₂；...；X_M]，得到所述隐含层输出矩阵为

步骤3.3：通过初始输出样本集Y＝[Y₁；Y₂；...；Y_M]，计算得到隐含层到输出层的权重其中，β＝[β₁；β₂；...；β_L]，为H的广义逆矩阵。

所述步骤4包括下述步骤：

步骤4.1：对于输出样本集中的任意两个输出样本Y_i和Y_j，i，j∈[1，M]，取均值后得到将Y'_g作为新的输出样本，形成新的输出样本集Y'＝[Y'₁；Y'₂；...；Y'_g；...；Y'_M‘]；

步骤4.2：对于每个所述新的输出样本Y'_g，基于ELM模型，根据隐含层到输出层的权重β，得到相应的隐含层输出矩阵H'_g，然后根据公式X'_g＝w^-1(h^-1(H'_g)-b)，得到新的输入样本X'_g，形成新的输入样本集X'＝[X'₁，X'₂，...，X'_g，...，X'_M']；其中，w为ELM模型的输入层到隐含层的权重，b为偏移，所述w、b、β均为服从标准正态分布的随机矩阵；所述新的输入样本集X'与所述初始输入样本集X共同构成扩充后的输入样本集X_e。

所述步骤5.1中，选取输入样本X'_g对应的窗体的上边界下边界其中，X'_gmax、X'_gmin、分别为输入样本X'_g中压力数据的最大值、最小值、平均值，λ为边界增量。

所述步骤5.2中，将输入样本X'_g按从小到大顺序排列，得到序列X”_g＝[X”_g1，X”_g2，...，X”_gq，...，X”_gm']，其中，所述X”_gq为所述序列X”_g在第q位置处的值；计算所述序列X”_g在第Q位置的标准分数为其中，σ为输入样本X'_g的标准差，Q为所述序列X”_g的分位数位置，X”_gQ为所述序列X”_g在第Q位置的值；将所述序列X”_g等分为四个部分，其中，下四分位数、中位数、上四分位数的位置分别为其中，int为取整函数；将所述序列X”_g的四分位数和标准分数相结合，得到输入样本X'_g的三条状态分界线分别为L₁＝X”_gQ1+|Z_Q1|、L₂＝X”_gQ2、L₃＝X”_gQ3-|Z_Q3|，从而输入样本X'_g对应的窗体被划分成4个状态{S₁，S₂，...，S₄}。

所述步骤5.3包括下述步骤：

步骤5.3.1：构建Markov链：判断输入样本X'_g＝[X'_g1，X'_g2，...，X'_gt，...，X'_gm']在每一时刻对应的状态，构成输入样本X'_g的Markov链为{S_gt，t∈{1，2，...，m'}}；其中，S_gt为输入样本X'_g在第t时刻的Markov状态，S_gt＝f(X'_gt)，f为压力数据集合X'_g＝{X'_g1，X'_g2，...，X'_gt，...，X'_gm'}到状态集合S＝{S₁，S₂，...，S_N}的映射，N为状态数，N＝4；

步骤5.3.2：构建间隔Markov链：对于输入样本X'_g，当t≤Q时，将每一时刻对应的状态保持不变；当t＞Q时，将每一时刻的状态用前Q个时间间隔内的平均状态代替，得到输入样本X'_g的间隔Markov链为{S_gt'，t∈{1，2，...，m'}}；其中，S_gt'为输入样本X'_g在第t时刻的间隔Markov状态，

步骤5.3.3：提取间隔Markov特征：对于输入样本X'_g，统计每个状态的转移情况，形成输入样本X'_g的间隔Markov特征其中，k_i、分别为输入样本X'_g的间隔Markov链{S_gt'，t∈{1，2，...，m'}}中对于状态S_i的向下转移次数、保持次数、向上转移次数，i∈{1,2,...,N}，

其中，<A&B>的值在条件A和B都成立时为1、反之为0；

步骤5.3.4：重复上述步骤，直到g＝M'，最终得到所述输入样本集X'＝[X'₁，X'₂，...，X'_g，...，X'_M']的间隔Markov特征集

本发明的有益效果为：

第一，本发明基于ELM模型进行样本生成，使生成的样本不仅与原来的样本具有相似性，而且具备多样性，从而能够减少识别模型的过拟合；

第二，本发明提取了样本的间隔型Markov特征，提升了其Markov状态链的可信程度，更加刻画数据的变化趋势，提高了特征提取精度，增加了特征提取方法对噪声的鲁棒性；

第三，本发明将ELM模型的样本生成与间隔型Markov特征提取相结合，综合考虑了泄漏样本和工况调整样本，形成的管道异常检测方法能够准确识别复杂工况条件下微弱的泄漏信号和工况调整信号，从而提高管道异常检测的精度、降低漏报率与误报率。

附图说明

图1为本发明的基于样本生成和间隔Markov特征的管道异常检测方法的流程图；

图2为本发明的ELM模型一般结构图；

图3为本发明的基于ELM模型的样本生成过程示意图；

图4为本发明的间隔Markov特征提取流程图；

图5为本发明的实施例中一个样本的状态区间划分示意图。

具体实施方式

下面将结合附图和实施例，对本发明作进一步描述。

本发明的目的是提供一种基于样本生成和间隔Markov特征的管道异常检测方法，实现复杂工况条件下微弱的泄漏信号和工况调整信号的准确识别，从而提高管道异常检测的精度、降低漏报率与误报率。

如图1所示，为本发明的基于样本生成和间隔Markov特征的管道异常检测方法的流程图。本发明首先进行历史数据样本的提取及滤波处理，然后对滤波处理后的历史数据样本集进行规则化及降采样处理，得到初始输入样本集和初始输出样本集，再建立ELM模型并对其进行训练，接着基于ELM模型进行样本泛化，得到扩充后的输入样本集，对扩充后的输入样本集中每个样本进行间隔Markov特征的提取后，最后基于SVM模型或RF模型对管道异常进行识别。

本发明的基于样本生成和间隔Markov特征的管道异常检测方法，具体如下：

步骤1：历史数据样本的提取及滤波处理：提取管道压力的历史数据样本，构成初始历史数据样本集，所述历史数据样本为离散时间序列，所述初始历史数据样本集包括泄漏样本和工况调整样本；使用低通滤波器，对所述初始历史数据样本集进行滤波处理，获取低频信息；再用高斯滤波的方法对所述初始历史数据样本集进行滤波去噪，最终得到滤波处理后的历史数据样本集。

步骤2：历史数据样本的规则化及降采样处理：对滤波处理后的历史数据样本集进行规则化处理，得到样本集X＝[X₁；X₂；...；X_M]；对所述样本集X进行降采样处理，得到样本集Y＝[Y₁；Y₂；...；Y_M]；其中，为所M述样本集X和所述样本集Y中样本的个数，所述样本集X和所述样本集Y中样本的长度分别为m和v。

其中，X_i＝Re(D_i)，Y_i＝Ds(X_i)，i∈[1,M]，D_i∈D，D为滤波处理后的历史数据样本集，Re为规则化函数，Ds为降采样函数。本实施例中，m＝200，v＝20，M＝50，样本集X中有泄露样本20个、工况调整样本30个。

步骤3：ELM模型的建立与训练

如图2所示，为本发明的ELM模型一般结构图。ELM(Extreme Learning Machine)即极限学习机，是一种简单易用、有效的单隐层前馈神经网络SLFNS学习算法。该算法随机产生输入层与隐含层的连接权值及隐含层节点的偏移，在训练过程中无需调整，只需要设置隐含层节点的个数，便可以获得唯一的最优解。

本发明中，将所述样本集X＝[X₁；X₂；...；X_M]作为初始输入样本集，将所述样本集Y＝[Y₁；Y₂；...；Y_M]作为初始输出样本集，构成训练样本集S＝(X_i,Y_i)i＝1,2,...,M；通过训练，得到ELM模型的隐含层到输出层的权重β。ELM模型建立与训练的具体步骤如下：

本实施例中，隐含层节点数L为10；

步骤4：基于ELM模型的样本生成

如图3所示，为本发明的基于ELM模型的样本生成过程示意图。本发明中，基于ELM模型进行样本泛化，从输出层返回到输入层，得到新的输入样本X'_g＝[X'_g1，X'_g2，...，X'_gt，...，X'_gm']，g∈[1，M']，构成新的输入样本集X'＝[X'₁，X'₂，...，X'_g，...，X'_M']；其中，M'为新的输入样本的数量，X'_g为离散时间序列，X'_gt为输入样本X'_g中第t时刻的压力数据，t∈{1,2,...,m'}，m'为输入样本X'_g的长度；所述新的输入样本集X'与所述初始输入样本集X共同构成扩充后的输入样本集X_e。本实施例中，m'＝1000，M'＝5000，新的输入样本集X'中有泄露样本2000个、工况调整样本3000个。

本发明的基于ELM模型进行样本生成的具体步骤如下：

步骤5：间隔Markov特征的提取

如图4所示，为本发明的间隔Markov特征提取流程图，具体步骤如下：

步骤5.1：对所述输入样本集X'中每个样本对应的窗体选取上下边界

选取输入样本X'_g对应的窗体的上边界下边界其中，X'_gmax、X'_gmin、分别为输入样本X'_g中压力数据的最大值、最小值、平均值，λ为边界增量。本实施例中，λ＝2×10^-3。

步骤5.2：对所述输入样本集X'中每个样本对应的窗体，采取四分位数和标准分数相结合的方法来划分状态区间

状态划分的好坏会影响特征提取的精度，状态划分过细则对噪声鲁棒性不强，反之则降低对信号整体的识别能力。因此，合理的状态划分格外重要。传统Markov状态划分一般采用等分法，即将窗体上下限之间进行等分，而等分法没有考虑到单个样本的数据特性。本发明根据单个样本的数据分布规律，利用样本的四分位数和标准分数进行状态区间划分：

将输入样本X'_g按从小到大顺序排列，得到序列X”_g＝[X”_g1，X”_g2，...，X”_gq，...，X”_gm']，其中，所述X”_gq为所述序列X”_g在第q位置处的值；计算所述序列X”_g在第Q位置的标准分数为其中，σ为输入样本X'_g的标准差，Q为所述序列X”_g的分位数位置，X”_gQ为所述序列X”_g在第Q位置的值；将所述序列X”_g等分为四个部分，其中，下四分位数、中位数、上四分位数的位置分别为其中，int为取整函数；将所述序列X”_g的四分位数和标准分数相结合，得到输入样本X'_g的三条状态分界线分别为L₁＝X”_gQ1+|Z_Q1|、L₂＝X”_gQ2、L₃＝X”_gQ3-|Z_Q3|，从而输入样本X'_g对应的窗体被划分成4个状态{S₁，S₂，...，S₄}。

如图5所示，为本实施例中一个样本的状态区间划分示意图。

此外，根据需要，还可以在相邻分位数之间再继续进行划分。

步骤5.3：对所述输入样本集X'中的每个样本，当t＞Q时，将每一时刻的状态用前Q个时间间隔内的平均状态代替，得到每个样本对应的间隔Markov链，提取每个样本的间隔Markov特征，形成所述输入样本集X'的间隔Markov特征集

一般的，根据Markov理论，时间序列下一时刻的状态只和上一时刻的状态有关，而和其他时刻状态无关。而实际中，管道中液体湍流等各种效应以及数据采集精度等原因，使得采集到的压力数据包含噪声。在这种情况下，下一时刻的状态对上一时刻状态的依赖可信度不高。因此，为了提升Markov状态链的可信程度，更加刻画数据的变化趋势，本发明构造间隔Markov状态链，进而提取间隔Markov特征，用于后续识别分析，具体步骤如下：

步骤5.3.2：构建间隔Markov链：对于输入样本X'_g，当t≤Q时，将每一时刻对应的状态保持不变；当t＞Q时，将每一时刻的状态用前Q个时间间隔内的平均状态代替，得到输入样本X'_g的间隔Markov链为{S_gt'，t∈{1，2，...，m'}}；其中，S_gt'为输入样本X'_g在第t时刻的间隔Markov状态，本实施例中，Q＝5；

其中，<A&B>的值在条件A和B都成立时为1、反之为0；

步骤5.4：对所述初始输入样本集X中的每个样本，进行上述步骤5.1、步骤5.2、步骤5.3的处理，得到所述初始输入样本集X的间隔Markov特征集，从而得到所述扩充后的输入样本集X_e的间隔Markov特征集。

其中，SVM(Support Vector Machine)模型即支持向量机模型，RF(RandomForest)模型即随机森林模型。

如表1所示，为本实施例与传统其他方法利用SVM模型、RF模型对管道异常识别的准确率数据。从表1中可以看出，本发明的基于样本生成和间隔Markov特征的管道异常检测方法中，结合了原始样本和泛化样本，提取了样本的间隔Markov特征，利用SVM模型和RF模型对管道异常识别的准确率分别为93％和92％，远远高于传统的管道异常检测方法对管道异常识别的准确率。

表1

上述对本发明的一个实施例进行了详细说明。显然，上述实施例仅仅是本发明的一部分实施例，而不是全部的实施例；上述实施例仅用于解释本发明，并不构成对本发明保护范围的限定。基于上述实施例，本领域技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例，也即凡在本申请的精神和原理之内所作的所有修改、等同替换和改进等，均落在本发明要求的保护范围内。

Claims

1.一种基于样本生成和间隔Markov特征的管道异常检测方法，其特征在于，包括下述步骤：

步骤5：间隔Markov特征的提取：

2.根据权利要求1所述的基于样本生成和间隔Markov特征的管道异常检测方法，其特征在于，所述步骤3包括下述步骤：

步骤3.1：建立ELM模型：写成矩阵形式为Hβ＝Y；其中，L为隐含层节点数，w_j为第j个隐含层节点的输入权重，b_j为第j个隐含层节点的偏移，β_j为第j个隐含层节点的输出权重，所述输入权重w_j、所述偏移b_j、所述输出权重β_j均为服从标准正态分布的随机矩阵，h为激活函数；H为隐含层输出矩阵，β为隐含层到输出层的权重；

3.根据权利要求2所述的基于样本生成和间隔Markov特征的管道异常检测方法，其特征在于，所述步骤4包括下述步骤：

4.根据权利要求1所述的基于样本生成和间隔Markov特征的管道异常检测方法，其特征在于，所述步骤5.1中，选取输入样本X'_g对应的窗体的上边界下边界其中，X'_gmax、X'_gmin、分别为输入样本X'_g中压力数据的最大值、最小值、平均值，λ为边界增量。

5.根据权利要求4所述的基于样本生成和间隔Markov特征的管道异常检测方法，其特征在于，所述步骤5.2中，将输入样本X'_g按从小到大顺序排列，得到序列X”_g＝[X”_g1，X”_g2，...，X”_gq，...，X”_gm']，其中，所述X”_gq为所述序列X”_g在第q位置处的值；计算所述序列X”_g在第Q位置的标准分数为其中，σ为输入样本X'_g的标准差，Q为所述序列X”_g的分位数位置，X”_gQ为所述序列X”_g在第Q位置的值；将所述序列X”_g等分为四个部分，其中，下四分位数、中位数、上四分位数的位置分别为其中，int为取整函数；将所述序列X”_g的四分位数和标准分数相结合，得到输入样本X'_g的三条状态分界线分别为从而输入样本X'_g对应的窗体被划分成4个状态{S₁，S₂，...，S₄}。

6.根据权利要求5所述的基于样本生成和间隔Markov特征的管道异常检测方法，其特征在于，所述步骤5.3包括下述步骤：

步骤5.3.3：提取间隔Markov特征：对于输入样本X'_g，统计每个状态的转移情况，形成输入样本X'_g的间隔Markov特征其中，分别为输入样本X'_g的间隔Markov链{S_gt'，t∈{1，2，...，m'}}中对于状态S_i的向下转移次数、保持次数、向上转移次数，i∈{1,2,...,N}，

其中，<A&B>的值在条件A和B都成立时为1、反之为0；

步骤5.3.4：重复上述步骤，直到g＝M'，最终得到所述输入样本集X'＝[X'₁，X'₂，...，X'_g，...，X'_M']的间隔Markov特征集χ＝[χ₁，χ₂，...，χ_M']。